CN113361527A - 多目标对象的识别定位方法及装置、电子设备、存储介质 - Google Patents

多目标对象的识别定位方法及装置、电子设备、存储介质 Download PDF

Info

Publication number
CN113361527A
CN113361527A CN202110905411.5A CN202110905411A CN113361527A CN 113361527 A CN113361527 A CN 113361527A CN 202110905411 A CN202110905411 A CN 202110905411A CN 113361527 A CN113361527 A CN 113361527A
Authority
CN
China
Prior art keywords
detected
image
template
images
characteristic point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110905411.5A
Other languages
English (en)
Other versions
CN113361527B (zh
Inventor
李晶
余睿
周璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huaray Technology Co Ltd
Original Assignee
Zhejiang Huaray Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huaray Technology Co Ltd filed Critical Zhejiang Huaray Technology Co Ltd
Priority to CN202110905411.5A priority Critical patent/CN113361527B/zh
Publication of CN113361527A publication Critical patent/CN113361527A/zh
Application granted granted Critical
Publication of CN113361527B publication Critical patent/CN113361527B/zh
Priority to KR1020247004349A priority patent/KR20240032954A/ko
Priority to PCT/CN2022/110284 priority patent/WO2023016340A1/en
Priority to EP22855323.6A priority patent/EP4348584A1/en
Priority to US18/414,409 priority patent/US20240153138A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B07SEPARATING SOLIDS FROM SOLIDS; SORTING
    • B07CPOSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
    • B07C5/00Sorting according to a characteristic or feature of the articles or material being sorted, e.g. by control effected by devices which detect or measure such characteristic or feature; Sorting by manually actuated devices, e.g. switches
    • B07C5/34Sorting according to other particular properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0014Image feed-back for automatic industrial control, e.g. robot with camera
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30108Industrial image inspection
    • G06T2207/30164Workpiece; Machine component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/06Recognition of objects for industrial automation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Robotics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种多目标对象的识别定位方法及装置、电子设备、存储介质,所述方法包括:采集待检测对象的第一图像,使用预设的特征提取网络,对第一图像进行特征点提取,获取待检测对象的参考特征点模板;采集第二图像,将第二图像划分为多个第二子图像,利用所述预设特征提取网络对多个第二子图像分别进行特征点提取,并将所提取特征与参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点;计算候选目标特征点与对应的参考特征点模板之间到模板中检测对象的变换矩阵,基于变换矩阵确定第二图像中的待检测对象的参考坐标,向作业设备提供。本发明基于2D图像进行检测对象识别,准确且提升了运算效率。

Description

多目标对象的识别定位方法及装置、电子设备、存储介质
技术领域
本发明涉及目标对象识别技术,尤其涉及一种多目标对象的识别定位方法及装置、电子设备、存储介质。
背景技术
近年来,流水线上小包装物品的分拣,主要是基于图像中的物体特征点进行识别定位,识别定位结果输入机械臂,从而实现自动识别抓取,减少人力成本,提高生产效率。目前,主要是利用深度学习检测分类技术实现多目标定位,选取最优抓取候选目标,将位置信息提供给机械手进行抓取。目前主流算法仍然是以3D为主,利用深度学习处理点云信息,获取分割目标,利用深度学习分割或检测技术获取目标位置等。这导致计算量极大,迭代次数较多,导致识别及定位效率较低,运算资源占用过多。
发明内容
本发明提供一种多目标对象的识别定位方法及装置、电子设备、存储介质,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种多目标对象的识别定位方法,所述方法包括:
采集待检测对象的第一图像,使用预设的特征提取网络,对所述第一图像进行特征点提取,获取所述待检测对象的参考特征点模板;
采集第二图像,将所述第二图像划分为多个第二子图像,利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取,并将所提取特征点与所述参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点;
计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵,基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标,向作业设备提供,使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。
可选地,所述方法还包括:
将所述待检测对象以设定维度的向量进行表示,以所述向量中的顶点和倾斜角度的参数建立双曲正切(tanh)激活函数,基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失;
对应地,基于所述顶点损失获取所述待检测对象的参考特征点模板;以及,基于所述顶点损失计算所述变换矩阵。
可选地,所述计算所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵,包括:
构建虚拟几何组(VGG,Visual Geometry Group)网络,所述VGG网络的卷积核为N*N,至少M个卷积层,每两个卷积层之后设置有最大值池化max pooling,以及两个全连接层;其中,N为2以上的整数,M为3以上的整数;
对于输入的两通道图像进行训练,将训练过程中的交叉熵作为代价函数,最后一层为归一化指数函数softmax层,所述softmax层产生每个角点置信度的M维向量;
将所述多个第二子图像,分别与对应的所述参考特征点模板组成一对图像,输入至所述VGG网络,回归出位移向量矩阵,基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。
可选地,所述将所述待检测对象以设定维度的向量进行表示,包括:
将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中,x,y表示所述待检测对象的中心点坐标,w表示所述待检测对象的长度,h表示所述待检测对象的宽度,θ表示所述待检测对象的倾斜角度,x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。
本发明另一方面提供一种多目标对象的识别定位装置,包括:
模板生成单元,用于采集待检测对象的第一图像,使用预设的特征提取网络,对所述第一图像进行特征点提取,获取所述待检测对象的参考特征点模板;
特征点提取单元,用于采集第二图像,将所述第二图像划分为多个第二子图像,利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取,并将所提取特征点与所述参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点;
坐标确定单元,用于计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵,基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标;
输出单元,用于向作业设备提供,使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。
可选地,所述装置还包括:
计算单元,用于将所述待检测对象以设定维度的向量进行表示,以所述向量中的顶点和倾斜角度的参数建立tanh激活函数,基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失;
对应地,所述模板生成单元,还用于基于所述顶点损失获取所述待检测对象的参考特征点模板;以及,所述坐标确定单元,还用于基于所述顶点损失计算所述变换矩阵。
可选地,所述坐标确定单元,还用于:
构建VGG网络,所述VGG网络的卷积核为N*N,至少M个卷积层,每两个卷积层之后设置有最大值池化max pooling,以及两个全连接层;其中,N为2以上的整数,M为3以上的整数;
对于输入的两通道图像进行训练,将训练过程中的交叉熵作为代价函数,最后一层为归一化指数函数softmax层,所述softmax层产生每个角点置信度的M维向量;
将所述多个第二子图像,分别与对应的所述参考特征点模板组成一对图像,输入至所述VGG网络,回归出位移向量矩阵,基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。
可选地,所述将所述待检测对象以设定维度的向量进行表示,包括:
将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中,x,y表示所述待检测对象的中心点坐标,w表示所述待检测对象的长度,h表示所述待检测对象的宽度,θ表示所述待检测对象的倾斜角度,x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。
本发明另一方面提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现所述的多目标对象的识别定位方法的步骤。
本发明再一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现所述的多目标对象的识别定位方法的步骤。
本发明利用2D图像对目标对象的回归旋转矩形进行检测,能够精确定位到目标的实际位置,避免了正矩形框检测密集物体后被抑制导致目标丢失;通过预设特征点提取网络可以建立参考特征点模板,计算参考特征点与候选目标的特征点相似度,选择相对完整的目标对象,保证后续机械臂有效抓取;通过提取到的目标与参考模板特征点计算单应矩阵,无需标定,操作简单。本发明通过2D图像对待检测对象进行识别定位,大大降低了计算量,提升了检测对象的识别定位效率。
附图说明
图1示出了本发明实施例的多目标对象的识别定位方法的流程图;
图2示出了本发明实施例的多目标对象的识别定位装置的组成结构示意图;
图3示出了本发明实施例的电子设备的结构图。
具体实施方式
为使本发明的目的、特征点、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例的多目标对象的识别定位方法的流程图,如图1所示,本发明实施例的多目标对象的识别定位方法包括以下处理步骤:
步骤101,采集待检测对象的第一图像,使用预设的特征提取网络,对所述第一图像进行特征点提取,获取所述待检测对象的参考特征点模板。
本发明实施例中,第一图像为待检测对象处于无遮挡情况下的的完整图像,参考特征点模板可以使用预先训练好的CNN特征点提取网络提取特征点,以快捷地确定出待检测对象的参考特征点模板,参考特征点模板用来实现优选待检测对象的比对选取,快速识别出待检测对象。参考特征点模板还可以用于与实际提取的待检测对象的特征点来计算变换矩阵,以确定待检测对象的参考坐标,将相应的参考坐标提供给作业设备如机械臂,以完成快速的目标抓取。本发明实施例采用预置的大样本训练的CNN网络,无需收集样本数据进行相应训练,实用性强。
本发明实施例中,第一图像为2D图像,通过摄像头对待检测对象进行拍摄即可。首先对待检测对象的参考特征点进行提取,以作为计算待抓取物体的提取特征点与参考特征点的变换矩阵的基础。
步骤102,采集第二图像,将所述第二图像划分为多个第二子图像,利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取,并将所提取特征点与所述参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点。
本发明中,第二图像是对流水线上的待检测对象如小商品进行2D图像拍摄,然后利用神经网络对待检测对象进行特征点提取,以便与参考特征点模板进行比对,以确定出待检测对象与参考特征点模板之间的变换矩阵,以便准确确定出待检测对象相对于机械臂等作业设备的参考坐标,方便机械臂基于参考坐标对待检测对象进行抓取作业,实现如小商品的分拣工作。
步骤103,计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵,基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标,向作业设备提供,使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。
本发明实施例中,构建虚拟几何组VGG网络,所述VGG网络的卷积核为N*N,至少M个卷积层,每两个卷积层之后设置有最大值池化max pooling,以及两个全连接层;其中,N为2以上的整数,M为3以上的整数;优选地,N为3,M为8。
对于输入的两通道图像进行训练,将训练过程中的交叉熵作为代价函数,最后一层为归一化指数函数softmax层,所述softmax层产生每个角点置信度的M维向量;
将所述多个第二子图像,分别与对应的所述参考特征点模板组成一对图像,输入至所述VGG网络,回归出位移向量矩阵,基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。
本发明实施例中,将所述待检测对象以设定维度的向量进行表示,包括:将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中,x,y表示所述待检测对象的中心点坐标,w表示所述待检测对象的长度,h表示所述待检测对象的宽度,θ表示所述待检测对象的倾斜角度,x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。倾斜角度采用弧度计算,使用tanh激活函数,使其范围在[-1,1], x1,x2,…x4,y4为旋转矩形的顺时针方向四个顶点,损失函数使用人脸关键点常用的损失函数wingloss计算旋转矩形四个顶点的损失。对应地,基于所述顶点损失获取所述待检测对象的参考特征点模板;以及,基于所述顶点损失计算所述变换矩阵。利用损失函数,可以更准确地确定待检测对象的相对坐标。
以下通过具体示例,进一步阐明本发明实施例的技术方案的本质。
本发明实施例中,利用深度学习技术实现多目标物体的定位及目标输出规划,主要包括如下步骤:利用深度学习检测网络实现旋转目标定位框,得到所有目标物体的定位中心及角度,宽高最小外接矩信息;离线建立优选无遮挡目标模板,建立特征点模板;将定位到的候选目标特征点与模板特征点比较,根据实际需求选取相应数量的目标特征点,明确输出规划排序的目标特征点;计算待抓取物体的目标特征点与对应的参考特征点的矩阵关系,提供给机械臂进行待检测对象的抓取。
将检测目标表示为一个13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中:x,y表示检测目标的中心点坐标,w表示检测目标的长度,h表示检测目标的宽度,θ表示检测目标的倾斜角度,采用弧度计算,使用tanh激活函数,使倾斜角度的范围处于[-1,1], x1,y1,x2,y2,x3,y3,x4,y4为旋转矩形的顺时针方向四个顶点。本发明实施例中,损失函数可以使用人脸关键点识别时常有的损失函数wingloss,来计算旋转矩形四个顶点的损失。
使用预先训练好CNN特征点提取网络对待检测对象进行特征点模板的提取。将目标检测的2D图像按照输出坐标截取成多个小图,使用预置CNN特征点网络提取多个小图中的待检测对象的特征点,与参考特征点模板计算相似度,将相似度超过设定阈值如70%等的判定为候选目标特征点,按照相似度从大到小的顺序对候选目标特征点进行排序,按照排序选取设定数量的候选目标特征点进行输出。
采用训练好的Homography Net,计算当前目标与参考图直接的矩阵关系,具体实现如下:
构建结构类似于VGG的网络,构建网络的卷积核为3*3,采用Batch Norm和ReLU,网络总共包含8个卷积层,每个卷积层的个数分别为:64、64、64、64、128、128、128、128,每两个卷积层之后有一个max pooling(2*2,步长为2),以及2个全连接层,输入两个通道的图像进行训练,将训练过程中交叉熵作为代价函数,最后一层为softmax层产生每个角点置信度的8维向量。本发明实施例采用堆积的小卷积核,明显优于采用大的卷积核,因为多层非线性层可以增加网络深度来保证学习更复杂的模式,而且代价参数还比较小。
将上述截取得到的多个小图,与参考特征点模板组成一对图像,送入DeepHomography网络,回归出位移向量矩阵为H4 point,在得到这些位移向量之后,进一步得到Homography,具体的变换矩阵如下:
Figure 35000DEST_PATH_IMAGE002
本发明实施例利用2D图像对目标对象的回归旋转矩形进行检测,能够精确定位到目标的实际位置,避免了正矩形框检测密集物体后被抑制导致目标丢失;通过预设特征点提取网络可以建立参考特征点模板,计算参考特征点与候选目标的特征点相似度,选择相对完整的目标对象,保证后续机械臂有效抓取;通过提取到的目标与参考模板特征点计算单应矩阵,无需标定,操作简单。本发明实施例通过2D图像对待检测对象进行识别定位,大大降低了计算量,提升了检测对象的识别定位效率。
图2示出了本发明实施例的多目标对象的识别定位装置的组成结构示意图,如图2所示,本发明实施例的多目标对象的识别定位装置包括:
模板生成单元20,用于采集待检测对象的第一图像,使用预设的特征提取网络,对所述第一图像进行特征点提取,获取所述待检测对象的参考特征点模板;
特征点提取单元21,用于采集第二图像,将所述第二图像划分为多个第二子图像,利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取,并将所提取特征点与所述参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点;
坐标确定单元22,用于计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵,基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标;
输出单元23,用于向作业设备提供,使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。
作为一种实现方式,在图2所示的多目标对象的识别定位装置的基础上,本发明实施例的多目标对象的识别定位装置还包括:
计算单元(图2中未示出),用于将所述待检测对象以设定维度的向量进行表示,以所述向量中的顶点和倾斜角度的参数建立tanh激活函数,基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失;
对应地,所述模板生成单元20,还用于基于所述顶点损失获取所述待检测对象的参考特征点模板;以及,所述坐标确定单元22,还用于基于所述顶点损失计算所述变换矩阵。
作为一种实现方式,所述坐标确定单元22,还用于:
构建VGG网络,所述VGG网络的卷积核为N*N,至少M个卷积层,每两个卷积层之后设置有最大值池化max pooling,以及两个全连接层;其中,N为2以上的整数,M为3以上的整数;
对于输入的两通道图像进行训练,将训练过程中的交叉熵作为代价函数,最后一层为归一化指数函数softmax层,所述softmax层产生每个角点置信度的M维向量;
将所述多个第二子图像,分别与对应的所述参考特征点模板组成一对图像,输入至所述VGG网络,回归出位移向量矩阵,基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。
作为一种实现方式,所述将所述待检测对象以设定维度的向量进行表示,包括:
将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中,x,y表示所述待检测对象的中心点坐标,w表示所述待检测对象的长度,h表示所述待检测对象的宽度,θ表示所述待检测对象的倾斜角度,x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。
在示例性实施例中,模板生成单元20、特征提取单元21、坐标确定单元22、输出单元23、计算单元等可以被一个或多个中央处理器(CPU,Central Processing Unit)、图形处理器(GPU,Graphics Processing Unit)、基带处理器(BP,Base Processor)、应用专用集成电路(ASIC,Application Specific Integrated Circuit)、数字信号处理器(DigitalSignal Processor,DSP)、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,MicroController Unit)、微处理器(Microprocessor)、或其他电子元件实现,用于执行前述实施例的多目标对象的识别定位的步骤。
在本公开实施例中,图2示出的多目标对象的识别定位装置中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
下面,参考图3来描述根据本申请实施例的电子设备11。
如图3所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置113可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图3中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (10)

1.一种多目标对象的识别定位方法,其特征在于,所述方法包括:
采集待检测对象的第一图像,使用预设的特征提取网络,对所述第一图像进行特征点提取,获取所述待检测对象的参考特征点模板;
采集第二图像,将所述第二图像划分为多个第二子图像,利用所述预设特征提取网络对所述多个第二子图像分别进行特征点提取,并将所提取特征点与所述参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点;
计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵,基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标,向作业设备提供,使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述待检测对象以设定维度的向量进行表示,以所述向量中的顶点和倾斜角度的参数建立双曲正切tanh激活函数,基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失;
对应地,基于所述顶点损失获取所述待检测对象的参考特征点模板;以及,基于所述顶点损失计算所述变换矩阵。
3.根据权利要求1或2所述的方法,其特征在于,所述计算所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵,包括:
构建虚拟几何组VGG网络,所述VGG网络的卷积核为N*N,至少M个卷积层,每两个卷积层之后设置有最大值池化max pooling,以及两个全连接层;其中,N为2以上的整数,M为3以上的整数;
对于输入的两通道图像进行训练,将训练过程中的交叉熵作为代价函数,最后一层为归一化指数函数softmax层,所述softmax层产生每个角点置信度的M维向量;
将所述多个第二子图像,分别与对应的所述参考特征点模板组成一对图像,输入至所述VGG网络,回归出位移向量矩阵,基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。
4.根据权利要求2所述的方法,其特征在于,所述将所述待检测对象以设定维度的向量进行表示,包括:
将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中,x,y表示所述待检测对象的中心点坐标,w表示所述待检测对象的长度,h表示所述待检测对象的宽度,θ表示所述待检测对象的倾斜角度,x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。
5.一种多目标对象的识别定位装置,其特征在于,所述装置包括:
模板生成单元,用于采集待检测对象的第一图像,使用预设的特征提取网络,对所述第一图像进行特征点提取,获取所述待检测对象的参考特征点模板;
特征点提取单元,用于采集第二图像,将所述第二图像划分为多个第二子图像,利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取,并将所提取特征点与所述参考特征点模板进行相似度对比,将相似度达到设定阈值的提取特征点确定为候选目标特征点;
坐标确定单元,用于计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵,基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标;
输出单元,用于向作业设备提供,使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
计算单元,用于将所述待检测对象以设定维度的向量进行表示,以所述向量中的顶点和倾斜角度的参数建立tanh激活函数,基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失;
对应地,所述模板生成单元,还用于基于所述顶点损失获取所述待检测对象的参考特征点模板;以及,所述坐标确定单元,还用于基于所述顶点损失计算所述变换矩阵。
7.根据权利要求5或6所述的装置,其特征在于,所述坐标确定单元,还用于:
构建VGG网络,所述VGG网络的卷积核为N*N,至少M个卷积层,每两个卷积层之后设置有最大值池化max pooling,以及两个全连接层;其中,N为2以上的整数,M为3以上的整数;
对于输入的两通道图像进行训练,将训练过程中的交叉熵作为代价函数,最后一层为归一化指数函数softmax层,所述softmax层产生每个角点置信度的M维向量;
将所述多个第二子图像,分别与对应的所述参考特征点模板组成一对图像,输入至所述VGG网络,回归出位移向量矩阵,基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。
8.根据权利要求6所述的装置,其特征在于,所述将所述待检测对象以设定维度的向量进行表示,包括:
将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4};其中,x,y表示所述待检测对象的中心点坐标,w表示所述待检测对象的长度,h表示所述待检测对象的宽度,θ表示所述待检测对象的倾斜角度,x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一项所述的多目标对象的识别定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的多目标对象的识别定位方法的步骤。
CN202110905411.5A 2021-08-09 2021-08-09 多目标对象的识别定位方法及装置、电子设备、存储介质 Active CN113361527B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202110905411.5A CN113361527B (zh) 2021-08-09 2021-08-09 多目标对象的识别定位方法及装置、电子设备、存储介质
KR1020247004349A KR20240032954A (ko) 2021-08-09 2022-08-04 타겟 객체의 위치를 지정하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체
PCT/CN2022/110284 WO2023016340A1 (en) 2021-08-09 2022-08-04 Methods, systems, and computer-readable storage mediums for positioning target object
EP22855323.6A EP4348584A1 (en) 2021-08-09 2022-08-04 Methods, systems, and computer-readable storage mediums for positioning target object
US18/414,409 US20240153138A1 (en) 2021-08-09 2024-01-16 Methods, systems, and computer-readable storage mediums for positioning target object

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110905411.5A CN113361527B (zh) 2021-08-09 2021-08-09 多目标对象的识别定位方法及装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
CN113361527A true CN113361527A (zh) 2021-09-07
CN113361527B CN113361527B (zh) 2021-11-19

Family

ID=77540558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110905411.5A Active CN113361527B (zh) 2021-08-09 2021-08-09 多目标对象的识别定位方法及装置、电子设备、存储介质

Country Status (5)

Country Link
US (1) US20240153138A1 (zh)
EP (1) EP4348584A1 (zh)
KR (1) KR20240032954A (zh)
CN (1) CN113361527B (zh)
WO (1) WO2023016340A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114871115A (zh) * 2022-04-28 2022-08-09 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN114898320A (zh) * 2022-05-30 2022-08-12 西南交通大学 一种基于YOLO v5的列车定位方法及系统
WO2023016340A1 (en) * 2021-08-09 2023-02-16 Zhejiang Huaray Technology Co., Ltd. Methods, systems, and computer-readable storage mediums for positioning target object
WO2023130717A1 (zh) * 2022-01-05 2023-07-13 深圳思谋信息科技有限公司 图像定位方法、装置、计算机设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116523888B (zh) * 2023-05-08 2023-11-03 北京天鼎殊同科技有限公司 路面裂缝的检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101559600A (zh) * 2009-05-07 2009-10-21 上海交通大学 服务机器人抓取引导系统及其方法
CN103895042A (zh) * 2014-02-28 2014-07-02 华南理工大学 一种基于视觉引导的工业机器人工件定位抓取方法及系统
CN110660104A (zh) * 2019-09-29 2020-01-07 珠海格力电器股份有限公司 工业机器人视觉识别定位抓取方法、计算机装置以及计算机可读存储介质
CN112157657A (zh) * 2020-09-23 2021-01-01 创新奇智(上海)科技有限公司 机械臂定位方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10525599B1 (en) * 2017-07-12 2020-01-07 Amazon Technologies, Inc. Automatic detection of screen area and camera assisted movement of robotic arm
CN111421539A (zh) * 2020-04-01 2020-07-17 电子科技大学 一种基于计算机视觉的工业零件智能识别与分拣系统
CN111738261B (zh) * 2020-06-30 2023-08-04 张辉 基于位姿估计和校正的单图像机器人无序目标抓取方法
CN113361527B (zh) * 2021-08-09 2021-11-19 浙江华睿科技股份有限公司 多目标对象的识别定位方法及装置、电子设备、存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101559600A (zh) * 2009-05-07 2009-10-21 上海交通大学 服务机器人抓取引导系统及其方法
CN103895042A (zh) * 2014-02-28 2014-07-02 华南理工大学 一种基于视觉引导的工业机器人工件定位抓取方法及系统
CN110660104A (zh) * 2019-09-29 2020-01-07 珠海格力电器股份有限公司 工业机器人视觉识别定位抓取方法、计算机装置以及计算机可读存储介质
CN112157657A (zh) * 2020-09-23 2021-01-01 创新奇智(上海)科技有限公司 机械臂定位方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DANIEL DETONE: "Deep Image Homography Estimation", 《ARXIV:1606.03798V1 [CS.CV]》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023016340A1 (en) * 2021-08-09 2023-02-16 Zhejiang Huaray Technology Co., Ltd. Methods, systems, and computer-readable storage mediums for positioning target object
WO2023130717A1 (zh) * 2022-01-05 2023-07-13 深圳思谋信息科技有限公司 图像定位方法、装置、计算机设备和存储介质
CN114871115A (zh) * 2022-04-28 2022-08-09 五邑大学 一种物体分拣方法、装置、设备及存储介质
CN114898320A (zh) * 2022-05-30 2022-08-12 西南交通大学 一种基于YOLO v5的列车定位方法及系统
CN114898320B (zh) * 2022-05-30 2023-07-28 西南交通大学 一种基于YOLO v5的列车定位方法及系统

Also Published As

Publication number Publication date
WO2023016340A1 (en) 2023-02-16
KR20240032954A (ko) 2024-03-12
US20240153138A1 (en) 2024-05-09
CN113361527B (zh) 2021-11-19
EP4348584A1 (en) 2024-04-10

Similar Documents

Publication Publication Date Title
CN113361527B (zh) 多目标对象的识别定位方法及装置、电子设备、存储介质
Qian et al. Learning modulated loss for rotated object detection
Kasaei et al. GOOD: A global orthographic object descriptor for 3D object recognition and manipulation
US9147255B1 (en) Rapid object detection by combining structural information from image segmentation with bio-inspired attentional mechanisms
JP5705147B2 (ja) 記述子を用いて3dオブジェクトまたはオブジェクトを表す方法
Vemulapalli et al. R3DG features: Relative 3D geometry-based skeletal representations for human action recognition
US9697439B2 (en) Efficient object detection with patch-level window processing
WO2016054779A1 (en) Spatial pyramid pooling networks for image processing
AU2020104423A4 (en) Multi-View Three-Dimensional Model Retrieval Method Based on Non-Local Graph Convolutional Network
Wang et al. A LINE-MOD-based markerless tracking approachfor AR applications
Chen et al. PointPoseNet: Point pose network for robust 6D object pose estimation
Han et al. Line-based initialization method for mobile augmented reality in aircraft assembly
CN112084849A (zh) 图像识别方法和装置
WO2018100668A1 (en) Image processing device, image processing method, and image processing program
CN110659570A (zh) 目标对象姿态跟踪方法、神经网络的训练方法及装置
Zhou et al. Enhance the recognition ability to occlusions and small objects with Robust Faster R-CNN
Sun et al. An efficient and compact 3D local descriptor based on the weighted height image
CN111199558A (zh) 一种基于深度学习的图像匹配方法
US11816857B2 (en) Methods and apparatus for generating point cloud histograms
CN114972492A (zh) 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质
Zhou et al. Histograms of Gaussian normal distribution for 3D feature matching in cluttered scenes
KR101733288B1 (ko) 방향정보를 이용한 객체 검출기 생성 방법, 이를 이용한 객체 검출 장치 및 방법
US11687886B2 (en) Method and device for identifying number of bills and multiple bill areas in image
CN111310818B (zh) 特征描述子确定方法、装置及计算机可读存储介质
KR102382883B1 (ko) 3차원 손 자세 인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant