CN113361527A

CN113361527A - 多目标对象的识别定位方法及装置、电子设备、存储介质

Info

Publication number: CN113361527A
Application number: CN202110905411.5A
Authority: CN
Inventors: 李晶; 余睿; 周璐
Original assignee: Zhejiang Huaray Technology Co Ltd
Current assignee: Zhejiang Huaray Technology Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-09-07
Anticipated expiration: 2041-08-09
Also published as: WO2023016340A1; KR20240032954A; US20240153138A1; CN113361527B; EP4348584A1

Abstract

本发明提供了一种多目标对象的识别定位方法及装置、电子设备、存储介质，所述方法包括：采集待检测对象的第一图像，使用预设的特征提取网络，对第一图像进行特征点提取，获取待检测对象的参考特征点模板；采集第二图像，将第二图像划分为多个第二子图像，利用所述预设特征提取网络对多个第二子图像分别进行特征点提取，并将所提取特征与参考特征点模板进行相似度对比，将相似度达到设定阈值的提取特征点确定为候选目标特征点；计算候选目标特征点与对应的参考特征点模板之间到模板中检测对象的变换矩阵，基于变换矩阵确定第二图像中的待检测对象的参考坐标，向作业设备提供。本发明基于2D图像进行检测对象识别，准确且提升了运算效率。

Description

多目标对象的识别定位方法及装置、电子设备、存储介质

技术领域

本发明涉及目标对象识别技术，尤其涉及一种多目标对象的识别定位方法及装置、电子设备、存储介质。

背景技术

近年来，流水线上小包装物品的分拣，主要是基于图像中的物体特征点进行识别定位，识别定位结果输入机械臂，从而实现自动识别抓取，减少人力成本，提高生产效率。目前，主要是利用深度学习检测分类技术实现多目标定位，选取最优抓取候选目标，将位置信息提供给机械手进行抓取。目前主流算法仍然是以3D为主，利用深度学习处理点云信息，获取分割目标，利用深度学习分割或检测技术获取目标位置等。这导致计算量极大，迭代次数较多，导致识别及定位效率较低，运算资源占用过多。

发明内容

本发明提供一种多目标对象的识别定位方法及装置、电子设备、存储介质，以至少解决现有技术中存在的以上技术问题。

本发明一方面提供一种多目标对象的识别定位方法，所述方法包括：

采集待检测对象的第一图像，使用预设的特征提取网络，对所述第一图像进行特征点提取，获取所述待检测对象的参考特征点模板；

采集第二图像，将所述第二图像划分为多个第二子图像，利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取，并将所提取特征点与所述参考特征点模板进行相似度对比，将相似度达到设定阈值的提取特征点确定为候选目标特征点；

计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵，基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标，向作业设备提供，使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。

可选地，所述方法还包括：

将所述待检测对象以设定维度的向量进行表示，以所述向量中的顶点和倾斜角度的参数建立双曲正切（tanh）激活函数，基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失；

对应地，基于所述顶点损失获取所述待检测对象的参考特征点模板；以及，基于所述顶点损失计算所述变换矩阵。

可选地，所述计算所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵，包括：

构建虚拟几何组（VGG，Visual Geometry Group）网络，所述VGG网络的卷积核为N*N，至少M个卷积层，每两个卷积层之后设置有最大值池化max pooling，以及两个全连接层；其中，N为2以上的整数，M为3以上的整数；

对于输入的两通道图像进行训练，将训练过程中的交叉熵作为代价函数，最后一层为归一化指数函数softmax层，所述softmax层产生每个角点置信度的M维向量；

将所述多个第二子图像，分别与对应的所述参考特征点模板组成一对图像，输入至所述VGG网络，回归出位移向量矩阵，基于所述位移向量矩阵确定所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵。

可选地，所述将所述待检测对象以设定维度的向量进行表示，包括：

将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4}；其中，x,y表示所述待检测对象的中心点坐标，w表示所述待检测对象的长度，h表示所述待检测对象的宽度，θ表示所述待检测对象的倾斜角度，x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。

本发明另一方面提供一种多目标对象的识别定位装置，包括：

模板生成单元，用于采集待检测对象的第一图像，使用预设的特征提取网络，对所述第一图像进行特征点提取，获取所述待检测对象的参考特征点模板；

特征点提取单元，用于采集第二图像，将所述第二图像划分为多个第二子图像，利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取，并将所提取特征点与所述参考特征点模板进行相似度对比，将相似度达到设定阈值的提取特征点确定为候选目标特征点；

坐标确定单元，用于计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵，基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标；

输出单元，用于向作业设备提供，使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。

可选地，所述装置还包括：

计算单元，用于将所述待检测对象以设定维度的向量进行表示，以所述向量中的顶点和倾斜角度的参数建立tanh激活函数，基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失；

对应地，所述模板生成单元，还用于基于所述顶点损失获取所述待检测对象的参考特征点模板；以及，所述坐标确定单元，还用于基于所述顶点损失计算所述变换矩阵。

可选地，所述坐标确定单元，还用于：

构建VGG网络，所述VGG网络的卷积核为N*N，至少M个卷积层，每两个卷积层之后设置有最大值池化max pooling，以及两个全连接层；其中，N为2以上的整数，M为3以上的整数；

本发明另一方面提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现所述的多目标对象的识别定位方法的步骤。

本发明再一方面提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现所述的多目标对象的识别定位方法的步骤。

本发明利用2D图像对目标对象的回归旋转矩形进行检测，能够精确定位到目标的实际位置，避免了正矩形框检测密集物体后被抑制导致目标丢失；通过预设特征点提取网络可以建立参考特征点模板，计算参考特征点与候选目标的特征点相似度，选择相对完整的目标对象，保证后续机械臂有效抓取；通过提取到的目标与参考模板特征点计算单应矩阵，无需标定，操作简单。本发明通过2D图像对待检测对象进行识别定位，大大降低了计算量，提升了检测对象的识别定位效率。

附图说明

图1示出了本发明实施例的多目标对象的识别定位方法的流程图；

图2示出了本发明实施例的多目标对象的识别定位装置的组成结构示意图；

图3示出了本发明实施例的电子设备的结构图。

具体实施方式

为使本发明的目的、特征点、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例的多目标对象的识别定位方法的流程图，如图1所示，本发明实施例的多目标对象的识别定位方法包括以下处理步骤：

步骤101，采集待检测对象的第一图像，使用预设的特征提取网络，对所述第一图像进行特征点提取，获取所述待检测对象的参考特征点模板。

本发明实施例中，第一图像为待检测对象处于无遮挡情况下的的完整图像，参考特征点模板可以使用预先训练好的CNN特征点提取网络提取特征点，以快捷地确定出待检测对象的参考特征点模板，参考特征点模板用来实现优选待检测对象的比对选取，快速识别出待检测对象。参考特征点模板还可以用于与实际提取的待检测对象的特征点来计算变换矩阵，以确定待检测对象的参考坐标，将相应的参考坐标提供给作业设备如机械臂，以完成快速的目标抓取。本发明实施例采用预置的大样本训练的CNN网络，无需收集样本数据进行相应训练，实用性强。

本发明实施例中，第一图像为2D图像，通过摄像头对待检测对象进行拍摄即可。首先对待检测对象的参考特征点进行提取，以作为计算待抓取物体的提取特征点与参考特征点的变换矩阵的基础。

步骤102，采集第二图像，将所述第二图像划分为多个第二子图像，利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取，并将所提取特征点与所述参考特征点模板进行相似度对比，将相似度达到设定阈值的提取特征点确定为候选目标特征点。

本发明中，第二图像是对流水线上的待检测对象如小商品进行2D图像拍摄，然后利用神经网络对待检测对象进行特征点提取，以便与参考特征点模板进行比对，以确定出待检测对象与参考特征点模板之间的变换矩阵，以便准确确定出待检测对象相对于机械臂等作业设备的参考坐标，方便机械臂基于参考坐标对待检测对象进行抓取作业，实现如小商品的分拣工作。

步骤103，计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵，基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标，向作业设备提供，使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。

本发明实施例中，构建虚拟几何组VGG网络，所述VGG网络的卷积核为N*N，至少M个卷积层，每两个卷积层之后设置有最大值池化max pooling，以及两个全连接层；其中，N为2以上的整数，M为3以上的整数；优选地，N为3，M为8。

本发明实施例中，将所述待检测对象以设定维度的向量进行表示，包括：将所述待检测对象表示为13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4}；其中，x,y表示所述待检测对象的中心点坐标，w表示所述待检测对象的长度，h表示所述待检测对象的宽度，θ表示所述待检测对象的倾斜角度，x1,y1,x2,y2,x3,y3,x4,y4分别为所述待检测对象的旋转矩形的顺时针方向的四个顶点。倾斜角度采用弧度计算，使用tanh激活函数，使其范围在[-1,1], x1,x2,…x4,y4为旋转矩形的顺时针方向四个顶点，损失函数使用人脸关键点常用的损失函数wingloss计算旋转矩形四个顶点的损失。对应地，基于所述顶点损失获取所述待检测对象的参考特征点模板；以及，基于所述顶点损失计算所述变换矩阵。利用损失函数，可以更准确地确定待检测对象的相对坐标。

以下通过具体示例，进一步阐明本发明实施例的技术方案的本质。

本发明实施例中，利用深度学习技术实现多目标物体的定位及目标输出规划，主要包括如下步骤：利用深度学习检测网络实现旋转目标定位框，得到所有目标物体的定位中心及角度，宽高最小外接矩信息；离线建立优选无遮挡目标模板，建立特征点模板；将定位到的候选目标特征点与模板特征点比较，根据实际需求选取相应数量的目标特征点，明确输出规划排序的目标特征点；计算待抓取物体的目标特征点与对应的参考特征点的矩阵关系，提供给机械臂进行待检测对象的抓取。

将检测目标表示为一个13维向量{x,y,w,h,θ,x1,y1,x2,y2,x3,y3,x4,y4}；其中：x,y表示检测目标的中心点坐标，w表示检测目标的长度，h表示检测目标的宽度，θ表示检测目标的倾斜角度，采用弧度计算，使用tanh激活函数，使倾斜角度的范围处于[-1,1], x1,y1,x2,y2,x3,y3,x4,y4为旋转矩形的顺时针方向四个顶点。本发明实施例中，损失函数可以使用人脸关键点识别时常有的损失函数wingloss，来计算旋转矩形四个顶点的损失。

使用预先训练好CNN特征点提取网络对待检测对象进行特征点模板的提取。将目标检测的2D图像按照输出坐标截取成多个小图，使用预置CNN特征点网络提取多个小图中的待检测对象的特征点，与参考特征点模板计算相似度，将相似度超过设定阈值如70%等的判定为候选目标特征点，按照相似度从大到小的顺序对候选目标特征点进行排序，按照排序选取设定数量的候选目标特征点进行输出。

采用训练好的Homography Net，计算当前目标与参考图直接的矩阵关系，具体实现如下：

构建结构类似于VGG的网络，构建网络的卷积核为3*3，采用Batch Norm和ReLU，网络总共包含8个卷积层，每个卷积层的个数分别为：64、64、64、64、128、128、128、128，每两个卷积层之后有一个max pooling（2*2，步长为2），以及2个全连接层，输入两个通道的图像进行训练，将训练过程中交叉熵作为代价函数，最后一层为softmax层产生每个角点置信度的8维向量。本发明实施例采用堆积的小卷积核，明显优于采用大的卷积核，因为多层非线性层可以增加网络深度来保证学习更复杂的模式，而且代价参数还比较小。

将上述截取得到的多个小图，与参考特征点模板组成一对图像，送入DeepHomography网络，回归出位移向量矩阵为H4 point，在得到这些位移向量之后，进一步得到Homography，具体的变换矩阵如下：

本发明实施例利用2D图像对目标对象的回归旋转矩形进行检测，能够精确定位到目标的实际位置，避免了正矩形框检测密集物体后被抑制导致目标丢失；通过预设特征点提取网络可以建立参考特征点模板，计算参考特征点与候选目标的特征点相似度，选择相对完整的目标对象，保证后续机械臂有效抓取；通过提取到的目标与参考模板特征点计算单应矩阵，无需标定，操作简单。本发明实施例通过2D图像对待检测对象进行识别定位，大大降低了计算量，提升了检测对象的识别定位效率。

图2示出了本发明实施例的多目标对象的识别定位装置的组成结构示意图，如图2所示，本发明实施例的多目标对象的识别定位装置包括：

模板生成单元20，用于采集待检测对象的第一图像，使用预设的特征提取网络，对所述第一图像进行特征点提取，获取所述待检测对象的参考特征点模板；

特征点提取单元21，用于采集第二图像，将所述第二图像划分为多个第二子图像，利用所述预设特征点提取网络对所述多个第二子图像分别进行特征点提取，并将所提取特征点与所述参考特征点模板进行相似度对比，将相似度达到设定阈值的提取特征点确定为候选目标特征点；

坐标确定单元22，用于计算所述候选目标特征点与对应的所述参考特征点模板之间到模板中检测对象的变换矩阵，基于所述变换矩阵确定所述第二图像中的待检测对象的参考坐标；

输出单元23，用于向作业设备提供，使所述作业设备基于所述参考坐标对所述待检测对象进行相应操作。

作为一种实现方式，在图2所示的多目标对象的识别定位装置的基础上，本发明实施例的多目标对象的识别定位装置还包括：

计算单元（图2中未示出），用于将所述待检测对象以设定维度的向量进行表示，以所述向量中的顶点和倾斜角度的参数建立tanh激活函数，基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失；

对应地，所述模板生成单元20，还用于基于所述顶点损失获取所述待检测对象的参考特征点模板；以及，所述坐标确定单元22，还用于基于所述顶点损失计算所述变换矩阵。

作为一种实现方式，所述坐标确定单元22，还用于：

作为一种实现方式，所述将所述待检测对象以设定维度的向量进行表示，包括：

在示例性实施例中，模板生成单元20、特征提取单元21、坐标确定单元22、输出单元23、计算单元等可以被一个或多个中央处理器（CPU，Central Processing Unit）、图形处理器（GPU，Graphics Processing Unit）、基带处理器（BP，Base Processor）、应用专用集成电路（ASIC，Application Specific Integrated Circuit）、数字信号处理器（DigitalSignal Processor，DSP）、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，Complex Programmable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable Gate Array）、通用处理器、控制器、微控制器（MCU，MicroController Unit）、微处理器（Microprocessor）、或其他电子元件实现，用于执行前述实施例的多目标对象的识别定位的步骤。

在本公开实施例中，图2示出的多目标对象的识别定位装置中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

下面，参考图3来描述根据本申请实施例的电子设备11。

如图3所示，电子设备11包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备11中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备11还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

该输入装置113可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图3中仅示出了该电子设备11中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备11还可以包括任何其他适当的组件。

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种多目标对象的识别定位方法，其特征在于，所述方法包括：

采集第二图像，将所述第二图像划分为多个第二子图像，利用所述预设特征提取网络对所述多个第二子图像分别进行特征点提取，并将所提取特征点与所述参考特征点模板进行相似度对比，将相似度达到设定阈值的提取特征点确定为候选目标特征点；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述待检测对象以设定维度的向量进行表示，以所述向量中的顶点和倾斜角度的参数建立双曲正切tanh激活函数，基于所述tanh激活函数计算所述待检测对象的旋转矩形的顶点损失；

3.根据权利要求1或2所述的方法，其特征在于，所述计算所述候选目标特征点与对应的所述参考特征点模板之间的变换矩阵，包括：

构建虚拟几何组VGG网络，所述VGG网络的卷积核为N*N，至少M个卷积层，每两个卷积层之后设置有最大值池化max pooling，以及两个全连接层；其中，N为2以上的整数，M为3以上的整数；

4.根据权利要求2所述的方法，其特征在于，所述将所述待检测对象以设定维度的向量进行表示，包括：

5.一种多目标对象的识别定位装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5或6所述的装置，其特征在于，所述坐标确定单元，还用于：

8.根据权利要求6所述的装置，其特征在于，所述将所述待检测对象以设定维度的向量进行表示，包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一项所述的多目标对象的识别定位方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一项所述的多目标对象的识别定位方法的步骤。