CN114782827A

CN114782827A - 一种基于图像的物体抓取点获取方法和装置

Info

Publication number: CN114782827A
Application number: CN202210707882.XA
Authority: CN
Inventors: 赵政杰; 许绍云; 李金泽; 张宁; 林美伶; 张舒
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-07-22
Anticipated expiration: 2042-06-22
Also published as: CN114782827B

Abstract

本发明涉及一种基于图像的物体抓取点获取方法和装置，属于图像预处理及识别技术领域，解决现有水平框目标检测算法未考虑空间抓取场景下物体形态多样以及需要准确定位等的问题。方法包括：获取历史物体平面图像；构建训练数据集同时构建预训练数据集；构建神经网络模型，利用预训练数据集进行预训练，然后利用训练数据集进行微调；获取包括待抓取物体的实时图像并输入训练好的神经网络预测模型以预测实时图像中待抓取物体的目标框，并根据目标框坐标获取待抓取物体的二维平面信息；基于二维平面信息和距离信息，获取待抓取物体的抓取点信息。通过待抓取物体的定位及分类能够准确抓取不同物体。

Description

一种基于图像的物体抓取点获取方法和装置

技术领域

本发明涉及图像预处理及识别技术领域，尤其涉及一种基于图像的物体抓取点获取方法和装置。

背景技术

随着人工智能时代的到来，人们的工作方式正在发生着变化，机械臂、机器人等应用场景越来越普及，例如在先进智能制造行业的自动装配、金属加工等，在物流行业分拣中心的包裹自动分拣等等，都离不开工业机器人的运用，而这一重要前提就是能够实现对物体的自动抓取，这就需要一种快捷准确的空间物体定位及分类方法。目前，实现对物体的定位主要有三种方法，一种是传统方法例如角点检测，这类传统的方法虽然速度较快，但是在较为复杂的环境中的检测能力较弱，并且无法对物体进行分类；一种是水平框目标检测，这类方法虽然能够适应复杂的环境，但是无法对被检测物体实现精确的定位，尤其是当物体重叠时；还有一类是语义分割，这类方法虽然能对物体实现精确定位，但是计算量极大，不能在工业现场得到广泛应用。因此设计一套能够在复杂环境中快速定位并能够对物体进行分类的软件算法及系统是很有必要的。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于图像的物体抓取点获取方法和装置，用以解决传统图像处理方法对复杂场景中识别效果较差、物体分类准确率不高，传统水平框目标检测算法未考虑空间抓取场景下物体形态多样以及需要准确定位的问题，语义分割等算法计算量较大等问题。

一方面，本发明实施例提供了一种基于图像的物体抓取点获取方法，包括：获取历史物体平面图像；对所述历史物体平面图像进行任意角度目标框标注以构建训练数据集，同时基于开源数据集构建预训练数据集；构建神经网络模型，利用所述预训练数据集对所述神经网络模型进行预训练，然后利用所述训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型；获取包括待抓取物体的实时图像并将所述实时图像输入所述训练好的神经网络预测模型以预测所述实时图像中待抓取物体的目标框，并根据所述目标框坐标获取所述待抓取物体的二维平面信息；由测距传感器获取物体与机械臂之间的距离信息，然后基于所述二维平面信息和所述距离信息，获取所述待抓取物体的抓取点信息。

上述技术方案的有益效果如下：使用基于任意角度旋转目标框的定位及分类网络模型，完成待抓取物体的定位及分类，克服使用传统方法进行定位及分类的弊端。结合协同装置确定物体相对空间位置，从而为后续机械装置抓取物体提供保障，克服了传统方法复杂场景下识别效果差、分类准确率不高，传统水平框目标检测法不考虑空间物体形态多样性导致定位不准确，现代语义分割算法计算量大等缺点。

基于上述方法的进一步改进，获取历史物体平面图像进一步包括：通过ZYNQ平台工业面阵相机采集目标物体的平面图像；通过所述ZYNQ平台工业面阵相机内的FPGA对所述目标物体的平面图像进行实时增强；以及将增强后的目标物体的平面图像存储在数据库中作为所述历史物体平面图像；以及获取待抓取物体的实时图像进一步包括：通过所述ZYNQ平台工业面阵相机实时采集所述待抓取物体的图像；通过所述FPGA对所述待抓取物体的图像进行实时增强；以及将增强后的图像传输至PC端作为所述待抓取物体的实时图像。

基于上述方法的进一步改进，对所述历史物体平面图像进行任意角度目标框标注包括使用以下5个参数对所述目标物体的平面图像进行任意角度目标框标注：通过目标框的中心点、所述目标框的长度、所述目标框的宽度、所述目标框与水平方向的夹角以及所述目标物体的类别。

基于上述方法的进一步改进，所述水平方向的夹角包括通过以下公式将所述夹角由连续角度数值转换为离散序列，对所述离散序列进行编码以获得编码序列Ω(n)，以及对所述编码序列加窗函数以将所述离散序列转换为离散夹角区间θ(n)：

，

，

其中，G(n)为窗函数，m=n-2r，r为窗口半径。

基于上述方法的进一步改进，利用所述预训练数据集对所述神经网络模型进行预训练之前还包括对所述训练数据集和所述预训练数据集进行预处理，其中，所述预处理包括：通过对所述训练数据集和所述预训练数据集中的图片进行随机旋转以扩充数据集；通过对所述训练数据集和所述预训练数据集中的图片进行随机裁剪以模拟所述目标物体处在视野边缘图像不完整的情况；通过随机色块填充以提高模型对相互遮挡情况的物体的检测能力，包括：对于给定图片l，其大小为W×H，用大小为S×S的网格将给定图片分割为

个块l _q,p(q=1,…,W/S, p=1,…,H/S)，对于每个小块l _q,p以概率p _q,p对所述随机色块中的随机色进行遮挡，其中，所述概率p _q,p为1%至5%。

基于上述方法的进一步改进，通过以下损失函数作为训练目标：

，

Loss _class为分类损失函数：

，

Loss _q为角度损失函数：

，

置信度损失函数Loss _object为：

，

，

其中，N为批尺寸，c为所述分类损失函数、所述角度损失函数和所述置信度损失函数中的任一种的分类标签类别，x _nc为模型预测推理标签值，y _nc为目标标签值，

边界框损失函数Loss _IOU为：

其中，

，B为预测框，B ^gt为目标框，b和b ^gt分别为所述预测框和所述目标框的中心点，ρ²(b,b ^gt)为所述预测框和所述目标框的中心点的欧氏距离，c为B、B ^gt所找到的最小闭合凸面的对角线距离，w、h、w ^gt、h ^gt分别为所述预测框和所述目标框的宽和高，α、β、η、μ为各部分权重平衡系数。

基于上述方法的进一步改进，将所述实时图像输入所述训练好的神经网络预测模型以预测所述实时图像中所述待抓取物体的目标框进一步包括：当所述待抓取物体的实时图像经过所述训练好的神经网络预测模型之后，生成多个预测框B={b ₁,…,b _N}；所述多个预测框B所对应的置信度为S={s _b1,…,s _bN}；所述待抓取物体的密度为D={d _b1,…,d _bN},其中,

；

通过以下公式使用NMS机制从所述多个预测框中筛选目标框：

N _M=max(N _t,d _M)，

，

其中，N _t为初始NMS判决阈值以划分物体密集区域与物体稀疏区域，d _M为M目标密度，d _M=max(d _i)，M=b _m，σ为常数参数，当相邻候选框远离M所在的候选框b _m时，IOU(M,b _i)＜N _t，保持初始阈值N _t不变；否则，当M所在的候选框b _m处于所述物体密集区域d _M＞N _t时，M目标密度作为NMS阈值，当M所在的候选框b _m处于所述物体稀疏区域d _M＜N _t时，所述初始阈值N _t作为所述NMS阈值。

另一方面，本发明实施例提供了一种基于图像的物体抓取点获取装置，包括：图像获取模块，用于获取历史物体平面图像并获取包括待抓取物体的实时图像；数据集构建模块，用于对所述历史物体平面图像进行任意角度目标框标注以构建训练数据集，基于开源数据集构建预训练数据集；模型构建模块，用于构建神经网络模型；训练模块，用于利用所述预训练数据集对所述神经网络模型进行预训练，然后利用所述训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型；预测模块，用于将所述实时图像输入所述训练好的神经网络预测模型以预测所述实时图像中待抓取物体的目标框，并根据所述目标框坐标获取所述待抓取物体的二维平面信息；抓取点获取模块，用于由测距传感器获取物体与机械臂之间的距离信息，然后基于所述二维平面信息和所述距离信息，获取所述待抓取物体的抓取点信息。

基于上述装置的进一步改进，所述图像获取模块包括历史图像获取模块和实时图像获取模块，其中，所述历史图像获取模块用于：通过ZYNQ平台工业面阵相机采集所述目标物体的平面图像；通过所述ZYNQ平台工业面阵相机内的FPGA对所述目标物体的平面图像进行实时增强；以及将增强后的目标物体的平面图像存储在数据库中作为所述历史物体平面图像；以及所述实时图像获取模块用于：通过所述ZYNQ平台工业面阵相机实时采集所述待抓取物体的图像；通过所述FPGA对所述待抓取物体的图像进行实时增强；以及将增强后的图像传输至PC端作为所述待抓取物体的实时图像。

基于上述装置的进一步改进，基于图像的物体抓取点获取装置还包括标注模块，用于使用以下5个参数对所述目标物体的平面图像进行任意角度目标框标注：通过目标框的中心点、所述目标框的长度、所述目标框的宽度、所述目标框与水平方向的夹角以及所述目标物体的类别。

与现有技术相比，本发明至少可实现如下有益效果之一：

1、使用基于任意角度旋转目标框的定位及分类网络模型，完成待抓取物体的定位及分类，克服使用传统方法进行定位及分类的弊端。

2、将其它同类开源数据集构建预训练数据集，该开源数据集是已经标注有任意角度目标框的开源数据集，从而减小数据集制作的难度；通过数据预处理模块随机旋转以扩充数据集，进行随机裁剪以模拟待定位物体处在视野边缘图像不完整的情况，以及随机色块填充以提高模型对相互遮挡情况的物体的检测能力。

3、将连续的角度转换为离散的分类问题，以此来解决角度边界点造成损失函数突变问题，以及使用窗函数解决损失函数无法计算角度偏差大小的问题，最终实现以任意角度旋转框的形式对待定位物体的精确标注。

4、损失函数包括分类损失函数、角度损失函数、置信度损失函数和边界框损失函数；分类损失函数、角度损失函数、置信度损失函数和边界框损失函数与相应部分的权重平衡系数相乘，从而均衡各部分误差对整体损失的影响，以确定网络模型的训练目标。

5、利用自动机械装置基于获取得到的抓取点信息抓取所述待抓取物体。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图１为根据本发明实施例的基于图像的物体抓取点获取方法的流程图；

图2为根据本发明实施例的图像数据标注的示意图；

图3为根据本发明实施例的神经网络结构的示意图；

图4为根据本发明实施例的M-T Module的框图；

图5为根据本发明实施例的轻量化网络模块和多头注意力模块的示图；

图6为根据本发明实施例的物体定位系统的框图；

图7为根据本发明实施例的计算机设备及存储介质系统的框图；

图8为根据本发明实施例的基于图像的物体抓取点获取装置的框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于图像的物体抓取点获取方法。参考图1，基于图像的物体抓取点获取方法包括：在步骤S102中，获取历史物体平面图像；在步骤S104中，对历史物体平面图像进行任意角度目标框标注以构建训练数据集，同时基于开源数据集构建预训练数据集；在步骤S106中，构建神经网络模型，利用预训练数据集对神经网络模型进行预训练，然后利用训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型；在步骤S108中，获取包括待抓取物体的实时图像并将实时图像输入训练好的神经网络预测模型以预测实时图像中待抓取物体的目标框，并根据目标框坐标获取待抓取物体的二维平面信息；在步骤S110中，由测距传感器获取物体与机械臂之间的距离信息，然后基于二维平面信息和距离信息，获取待抓取物体的抓取点信息。

与现有技术相比，本实施例提供的基于图像的物体抓取点获取方法中，使用基于任意角度旋转目标框的定位及分类网络模型，完成待抓取物体的定位及分类，克服使用传统方法进行定位及分类的弊端。结合协同装置确定物体相对空间位置，从而为后续机械装置抓取物体提供保障，克服了传统方法复杂场景下识别效果差、分类准确率不高，传统水平框目标检测法不考虑空间物体形态多样性导致定位不准确，现代语义分割算法计算量大等缺点。

下文中，将参考图1对根据本发明实例的基于图像的物体抓取点获取方法进行详细描述。

在步骤S102中，获取历史物体平面图像。具体地，获取历史物体平面图像进一步包括：通过ZYNQ平台工业面阵相机采集包括目标物体的平面图像；通过ZYNQ平台工业面阵相机内的FPGA对包括目标物体的平面图像进行实时增强；以及将增强后的包括目标物体的平面图像存储在数据库中作为历史物体平面图像。

在步骤S104中，对历史物体平面图像进行任意角度目标框标注以构建训练数据集，同时基于开源数据集构建预训练数据集。参考图2，对历史物体平面图像进行任意角度目标框标注包括使用以下5个参数对目标物体的平面图像进行任意角度目标框标注：通过目标框的中心点、目标框的长度、目标框的宽度、目标框与水平方向的夹角以及目标物体的类别。基于开源数据集中的图像是标注有任意角度目标框的图像，进而基于开源数据集可以直接构建预训练数据集。

具体地，目标框与水平方向的夹角包括将夹角由连续角度数值转换为离散序列Ω(n)，并对离散序列进行编码并通过以下公式对编码后序列Ω(n)加窗函数g(n)以将离散序列转换为离散夹角区间θ(n)：

，

，

其中，G(n)为窗函数，m=n-2r，r为窗口半径，n为一列向量的序号，

为卷积符号。例如g(n)=[1,0,0,0]，当n=0时，g(0)=1，当n=2时，g(2)=0。

利用预训练数据集对神经网络模型进行预训练之前还包括对训练数据集和预训练数据集进行预处理，其中，预处理包括：通过对训练数据集和预训练数据集中的图片进行随机旋转以扩充数据集；通过对训练数据集和预训练数据集中的图片进行随机裁剪以模拟目标物体处在视野边缘图像不完整的情况；通过随机色块填充以提高模型对相互遮挡情况的物体的检测能力，包括：对于给定图片l，其大小为W×H，用大小为S×S的网格将给定图片分割为

个块l _q,p(q=1,…,W/S, p=1,…,H/S)，对于每个小块l _q,p以概率p _q,p对随机色块中的随机色进行遮挡，其中，概率p _q,p为1%至5%。

在步骤S106中，构建神经网络模型（参考图3至图5），利用预训练数据集对神经网络模型进行预训练，然后利用训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型。

通过以下损失函数作为训练目标：

，

Loss _class为分类损失函数：

，

Loss _q为角度损失函数：

，

置信度损失函数Loss _object为：

，

，

其中，N为批尺寸，c为分类损失函数、角度损失函数和置信度损失函数中的任一种的分类标签类别，x _nc为模型预测推理标签值，y _nc为目标标签值，

边界框损失函数Loss _IOU为：

其中，

，B为预测框，B ^gt为目标框，b和b ^gt分别为预测框和目标框的中心点，ρ²(b,b ^gt)为预测框和目标框的中心点的欧氏距离，c为B、B ^gt所找到的最小闭合凸面的对角线距离，w、h、w ^gt、h ^gt分别为预测框和目标框的宽和高，α、β、η、μ为各部分权重平衡系数，从而均衡各部分误差对整体损失的影响，以确定网络模型的训练目标（以获取更稳定且精确的待定位物体目标框）。

在步骤S108中，获取包括待抓取物体的实时图像并将实时图像输入训练好的神经网络预测模型以预测实时图像中待抓取物体的目标框，并根据目标框坐标获取待抓取物体的二维平面信息。具体地，获取待抓取物体的实时图像进一步包括：通过ZYNQ平台工业面阵相机实时采集待抓取物体的图像；通过FPGA对待抓取物体的图像进行实时增强；以及将增强后的图像传输至PC端作为待抓取物体的实时图像。

具体地，将实时图像输入训练好的神经网络预测模型以预测实时图像中待抓取物体的目标框进一步包括：当待抓取物体的实时图像经过训练好的神经网络预测模型之后，生成多个预测框B={b ₁,…,b _N}；

多个预测框B所对应的置信度为S={s _b1,…,s _bN}；

待抓取物体的密度为D={d _b1,…,d _bN}，其中，

；

通过以下公式使用NMS机制从多个预测框中筛选目标框：

N _M=max(N _t,d _M)，

，

其中，N _t为初始NMS判决阈值以划分物体密集区域与物体稀疏区域，d _M为M目标密度，d _M=max(d _i)，M=b _m，σ为常数参数，当相邻候选框远离M所在的候选框b _m时，IOU(M,b _i)＜N _t，保持初始阈值N _t不变；否则，当M所在的候选框b _m处于所述物体密集区域d _M＞N _t时，M目标密度作为NMS阈值，当M所在的候选框b _m处于所述物体稀疏区域d _M＜N _t时，初始阈值N _t作为所述NMS阈值。

在步骤S110中，由测距传感器获取物体与机械臂之间的距离信息，然后基于二维平面信息和距离信息，获取待抓取物体的抓取点信息。

然后，在步骤S112中，利用自动机械装置基于抓取点信息抓取待抓取物体。具体地，基于物体空间位置得到该抓取点信息。

本发明的另一个具体实施例，公开了一种基于图像的物体抓取点获取装置。参考图8，该基于图像的物体抓取点获取装置包括图像获取模块802、数据集构建模块804、模型构建模块806、训练模块808、预测模块810、抓取点获取模块812、抓取模块814和标注模块。图像获取模块802用于获取历史物体平面图像并获取包括待抓取物体的实时图像。数据集构建模块804用于对历史物体平面图像进行任意角度目标框标注以构建训练数据集，基于开源数据集构建预训练数据集。模型构建模块806用于构建神经网络模型。训练模块808用于利用预训练数据集对神经网络模型进行预训练，然后利用训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型。预测模块810用于将实时图像输入训练好的神经网络预测模型以预测实时图像中待抓取物体的目标框，并根据目标框坐标获取待抓取物体的二维平面信息。抓取点获取模块812用于由测距传感器获取物体与机械臂之间的距离信息，然后基于二维平面信息和距离信息，获取待抓取物体的抓取点信息。抓取模块814，用于利用自动机械装置基于抓取点信息抓取待抓取物体。

图像获取模块802包括历史图像获取模块和实时图像获取模块。历史图像获取模块用于：通过ZYNQ平台工业面阵相机采集目标物体的平面图像；通过ZYNQ平台工业面阵相机内的FPGA对目标物体的平面图像进行实时增强；以及将增强后的目标物体的平面图像存储在数据库中作为历史物体平面图像；以及实时图像获取模块用于：通过ZYNQ平台工业面阵相机实时采集待抓取物体的图像；通过FPGA对待抓取物体的图像进行实时增强；以及将增强后的图像传输至PC端作为待抓取物体的实时图像。

标注模块用于使用以下5个参数对目标物体的平面图像进行任意角度目标框标注：通过目标框的中心点、目标框的长度、目标框的宽度、目标框与水平方向的夹角以及目标物体的类别。

下文中，参考图2至图6，以具体实例的方式对根据本发明实施例的基于图像的物体抓取点获取方法和装置进行详细描述。

一方面，本发明提供了一种基于图像的物体抓取点获取方法包括获取图像的平台使用基于ZYNQ平台工业面阵相机，通过FPGA对图像进行实时增强并通过TCP协议传输到PC端。基于ZYNQ平台的工业面阵相机具有光线传感器、外部补光灯，能够根据光线传感器所感知的外界环境情况自动调整补光灯开启时刻、曝光时长，以及相机内部相关参数，其中Cortex-A9内核完成逻辑处理，FPGA可编程逻辑部分完成COMS传感器获取的图像数据实时处理及传输，从而得到较高质量的RGB图像信息。

参考图2，将ZYNQ平台相机获取的RGB图像进行标注后构建训练数据集，使用5参数法对待定位物体图像目标框进行标注，以完成对待抓取物体的准确定位，通过目标框的中心点(x ^gt,y ^gt)、目标的长和宽(w ^gt,h ^gt)，目标框与水平方向的夹角θ，以及类别种类标签进行标注。将夹角由连续角度数值θ（θ∈[-90°,90°]）离散采样∧(n)，例如：

∧(n)=[-90°，-85°，-80°，…，80°，85°，90°]，然后进行One Hot编码（独热编码即One-Hot-coding，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候，其中只有一位有效）转换生成Ω(n)，

，

，

为卷积符号。例如g(n)=[1,0,0,0]，当n=0时，g(0)=1，当n=2时，g(2)=0。实现对待定位物体的精确标注，并将连续的角度转换为离散的分类问题以解决角度边界点造成损失函数突变问题，以及使用窗函数解决损失函数无法计算角度偏差大小的问题，最终实现以任意角度旋转框的形式对待定位物体的精确标注。

将其它同类开源数据集构建预训练数据集，从而减小数据集制作的难度。通过数据预处理模块随机旋转以扩充数据集，进行随机裁剪以模拟待定位物体处在视野边缘图像不完整的情况，以及随机色块填充以提高模型对相互遮挡情况的物体的检测能力，其特征在于给定图片为l，其大小为W×H，用大小为S×S的网格将给定的图片分割为

个块l _q,p(q=1,…,W/S, p=1,…,H/S)。对于每个小块l _q,p以概率为p _q,p的概率运用随机色进行遮挡。

构建基于任意角度旋转框的物体定位及分类神经网络模型，先利用预训练数据集对模型进行预训练，再利用训练数据集对模型进行微调，生成该神经网络模型各参数权重。

参考图3，该神经网络模型自左至右顺序包括：图像维度扩充模块、M-T Module模型、第一向量拼接模块、第二向量拼接模块、CBT模块（C：Conv2d，B：BatchNorm2d，T：TanH）和NMS模块。图像维度扩充模块用于对输入的RGB三通道图像以下采样的方式进行维度扩充，针对每一行和每一列均间隔u像素采样，这样可以将3通道图像生成3×(u+1)²通道的图像，对输入的RGB三通道图像数据以较小的计算量在不增加额外计算量、不降低图像有效信息的情况下进行维度扩充。参考图3至图5，候选框生成模块生成待检测的候选框，特征提取模块对输入图像使用M-T Module模型，具体的M-T Module为轻量化MobileNet_V2网络与Transformer交织并行的残差网络结构（MobileNet与Transformer并行拼接的网络结构，如图4所示，MobileNet由1×1卷积、激活函数、3×3卷积、激活函数、1×1卷积构成，Transformer主要由Multi_Head Attention多注意力层构成），以全局的感受野提取图像特征生成Feature Map，从而在不影响对小物体检出的情况下，提高大物体的检测能力。参考图5，Q表示所需计算的注意力项，K为被计算注意力项，V为被注意力项的取值（都是模型需要训练的参数）。VKQ经Linear层后，映射出不同的子区域表征空间,更加全面的挖掘不同位置在不同子空间下的信息；scaled Dot-Product Attention主要是进行attention的计算；Concat拼接层将向量拼接在一起，最后，Linear层将Concat输出转换为Transformer模型空间维度一致的向量,方便与输入进行进一步计算。图像多尺度信息提取模块将不同M-TModule单元的输出，为解决维度不一致问题，以上采样、向量拼接的形式进行融合以调高对不同尺度物体定位的能力。

计算以下模型损失函数以确定网络模型的训练目标，最终通过目标框筛选模块获得最终的目标框用于后续计算待定位物体的位置信息：

，

具体地，

，其中，

其中N为Batch_size，c为分类标签类别(Class，θ，object，IOU)，x _nc为模型预测推理标签值，y _nc为目标标签值。

Class分类的损失函数为

，

θ角度的损失函数为

，

Object置信度的损失函数为

，

Bounding box的损失计算函数

，

，

其中，B,B ^gt

S∈Rⁿ，B为预测框，B ^gt为目标框，b和b ^gt分别为预测框和所目标框的中心点，ρ²(b,b ^gt)为预测框和目标框的中心点的欧氏距离，c为B、B ^gt所找到的最小闭合凸面的对角线距离，w，h，w ^gt，h ^gt分别为测框和目标框的宽和高从而评价角度偏差对不同长宽比例物体的影响（在IOU中加入长宽比参数，从而平衡了不通长宽比的待定位物体的角度预测偏差），最终损失函数如下：

，其中α，β，η，μ为各部分权重平衡系数，从而均衡各部分误差对整体损失的影响，以确定网络模型的训练目标（以获取更稳定且精确的待定位物体目标框），最终通过目标框筛选模块，使用NMS机制，即当含有待定位物体的图片数据经过神经网络模型预测后，会产生一系列的预测框，该一系列预测框表示为B={b ₁,…,b _N}，其中B所对应的置信度表示为S={s _b1,…,s _bN}，带定位物体的密度表示为D={d _b1,…,d _bN}，N _t为该判决的阈值，m为max(S)角标，即s _m=max（S），M=b _m，N _M=max(N _t,d _M)，其中d _M=max(d _i)，

，

，

其中N _t为初始NMS判决阈值，σ为常数参数，ground truth集合为Г，d _M为M的目标密度，当相邻候选框远离M所在的候选框即b _m时，IOU(M,b _i)＜N _t，保持阈值N _t不变；否则，当 M所在的候选框即b _m处于密集区域d _M＞N _t时，M目标密度作为NMS阈值，当M所在的候选框即b _m处于稀疏区域d _M＜N _t时，初始阈值N _t作为NMS阈值，采用N _t作为划分物体密集区域与稀疏区域的阈值，获得最终的目标框，从而避免对密集区域物体漏检和稀疏区域检出冗余；上述过程中激活函数均使用

，e为自然常数。

将ZYNQ平台相机采集的实时图像数据输入到上述训练好的神经网络模型中进行预测，得到图像中物体的目标框，进而根据目标框坐标获取物体的二维平面坐标信息，从而实现对物体定位及检测。

将该二维平面位置信息结合其它测距传感器即可获得物体空间位置，从而为机械臂、机器人等自动机械装置提供抓取点信息，完成物体抓取。

参考图6，基于图像的物体抓取点获取装置包括：图像采集模块1，用于获取待定位物体图像信息；图像数据预处理模块2，用于扩充训练数据集，从而以较少的图像取得更好的模型训练结果；神经网络训练模块3，用于获取待测量物体边界信息及分类信息，进而根据边界信息获得物体水平位置信息；数据传输模块4，用于将获取的物体水平位置信息传输给协同装置；协同工作装置5，机械臂等配合距离测量传感器获取物体与机械臂相对位置实现对物体的自动抓取等功能。协同装置能够根据所取得的物体水平位置信息进行对物体的自动拾取等操作。

参考图7,计算机可读存储介质上存储有计算机可执行指令，所述计算机可执行指令被处理器执行时，使得所述处理器执行以下步骤：通过以太网接受ZYNQ平台摄像头发送的图像数据，将所述图像数据作为神经网络模型的输入，经计算后获得物体的水平位置信息及类别信息，再将上述信息通过串口等形式传输到协同设备。

参考图7,计算机设备包括存储器和处理器，该存储器中存储有计算机可读指令，所述计算机指令被处理器执行时，是的所述处理器执行一下步骤：通过以太网接受ZYNQ平台摄像头发送的图像数据，将所述图像数据作为神经网络模型的输入，经计算后获得物体的水平位置信息及类别信息，再将上述信息通过串口等形式传输到协同设备。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图像的物体抓取点获取方法，其特征在于，包括：

获取历史物体平面图像；

对所述历史物体平面图像进行任意角度目标框标注以构建训练数据集，同时基于开源数据集构建预训练数据集；

构建神经网络模型，利用所述预训练数据集对所述神经网络模型进行预训练，然后利用所述训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型；

获取包括待抓取物体的实时图像并将所述实时图像输入所述训练好的神经网络预测模型以预测所述实时图像中待抓取物体的目标框，并根据所述目标框坐标获取所述待抓取物体的二维平面信息；

由测距传感器获取物体与机械臂之间的距离信息，然后基于所述二维平面信息和所述距离信息，获取所述待抓取物体的抓取点信息。

2.根据权利要求1所述的基于图像的物体抓取点获取方法，其特征在于，

获取历史物体平面图像进一步包括：

通过ZYNQ平台工业面阵相机采集目标物体的平面图像；

通过所述ZYNQ平台工业面阵相机内的FPGA对所述目标物体的平面图像进行实时增强；

将增强后的目标物体的平面图像存储在数据库中作为所述历史物体平面图像；以及

获取待抓取物体的实时图像进一步包括：

通过所述ZYNQ平台工业面阵相机实时采集所述待抓取物体的图像；

通过所述FPGA对所述待抓取物体的图像进行实时增强；以及

将增强后的图像传输至PC端作为所述待抓取物体的实时图像。

3.根据权利要求2所述的基于图像的物体抓取点获取方法，其特征在于，对所述历史物体平面图像进行任意角度目标框标注包括使用以下5个参数对所述目标物体的平面图像进行任意角度目标框标注：通过目标框的中心点、所述目标框的长度、所述目标框的宽度、所述目标框与水平方向的夹角以及所述目标物体的类别。

4.根据权利要求3所述的基于图像的物体抓取点获取方法，其特征在于，所述水平方向的夹角包括通过以下公式将所述夹角由连续角度数值转换为离散序列，对所述离散序列进行编码以获得编码序列Ω(n)，以及对所述编码序列加窗函数以将所述离散序列转换为离散夹角区间θ(n)：

，

，

其中，G(n)为窗函数，m=n-2r，r为窗口半径。

5.根据权利要求3所述的基于图像的物体抓取点获取方法，其特征在于，利用所述预训练数据集对所述神经网络模型进行预训练之前还包括对所述训练数据集和所述预训练数据集进行预处理，其中，所述预处理包括：

通过对所述训练数据集和所述预训练数据集中的图片进行随机旋转以扩充数据集；

通过对所述训练数据集和所述预训练数据集中的图片进行随机裁剪以模拟所述目标物体处在视野边缘图像不完整的情况；

通过随机色块填充以提高模型对相互遮挡情况的物体的检测能力，包括：对于给定图片l，其大小为W×H，用大小为S×S的网格将给定图片分割为

6.根据权利要求1所述的基于图像的物体抓取点获取方法，其特征在于，通过以下损失函数作为训练目标：

Loss _class为分类损失函数：

，

Loss _q为角度损失函数：

，

置信度损失函数Loss _object为：

，

,

边界框损失函数Loss _IOU为：

其中，

，B为预测框，B ^gt为目标框，b和b ^gt分别为所述预测框和所述目标框的中心点，ρ²(b,b ^gt)为所述预测框和所述目标框的中心点的欧氏距离，c为B、 B ^gt所找到的最小闭合凸面的对角线距离，w、h、w ^gt、h ^gt分别为所述预测框和所述目标框的宽和高，α、β、η、μ为各部分权重平衡系数。

7.根据权利要求1所述的基于图像的物体抓取点获取方法，其特征在于，将所述实时图像输入所述训练好的神经网络预测模型以预测所述实时图像中所述待抓取物体的目标框进一步包括：

当所述待抓取物体的实时图像经过所述训练好的神经网络预测模型之后，生成多个预测框B={b ₁,…,b _N}；

所述多个预测框B所对应的置信度为S={s _b1,…,s _bN}；

所述待抓取物体的密度为D={d _b1,…,d _bN}，其中，

；

通过以下公式使用NMS机制从所述多个预测框中筛选目标框：

N _M=max(N _t,d _M)，

，

8.一种基于图像的物体抓取点获取装置，其特征在于，包括：

图像获取模块，用于获取历史物体平面图像并获取包括待抓取物体的实时图像；

数据集构建模块，用于对所述历史物体平面图像进行任意角度目标框标注以构建训练数据集，基于开源数据集构建预训练数据集；

模型构建模块，用于构建神经网络模型；

训练模块，用于利用所述预训练数据集对所述神经网络模型进行预训练，然后利用所述训练数据集对预训练后的神经网络模型进行微调以生成训练好的神经网络预测模型；

预测模块，用于将所述实时图像输入所述训练好的神经网络预测模型以预测所述实时图像中待抓取物体的目标框，并根据所述目标框坐标获取所述待抓取物体的二维平面信息；

抓取点获取模块，用于由测距传感器获取物体与机械臂之间的距离信息，然后基于所述二维平面信息和所述距离信息，获取所述待抓取物体的抓取点信息。

9.根据权利要求8所述的基于图像的物体抓取点获取装置，其特征在于，所述图像获取模块包括历史图像获取模块和实时图像获取模块，其中，

所述历史图像获取模块用于：

通过ZYNQ平台工业面阵相机采集目标物体的平面图像；

通过所述ZYNQ平台工业面阵相机内的FPGA对所述目标物体的平面图像进行实时增强；以及

所述实时图像获取模块用于：

通过所述FPGA对所述待抓取物体的图像进行实时增强；以及

10.根据权利要求9所述的基于图像的物体抓取点获取装置，其特征在于，还包括标注模块，用于使用以下5个参数对所述目标物体的平面图像进行任意角度目标框标注：通过目标框的中心点、所述目标框的长度、所述目标框的宽度、所述目标框与水平方向的夹角以及所述目标物体的类别。