CN113012228B

CN113012228B - 一种工件定位系统及基于深度学习的工件定位方法

Info

Publication number: CN113012228B
Application number: CN202110310600.8A
Authority: CN
Inventors: 李琳; 符明恒; 张铁
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-06-20
Anticipated expiration: 2041-03-23
Also published as: CN113012228A

Abstract

本发明公开了一种工件定位系统，包括机器人、机器人控制柜、嵌入式工控机、模组、工件姿态调整件、工件和视觉传感器。并且还公开了相应的工件定位方法，包括以下步骤：S1、将工业相机连续采集的工件图像发送到嵌入式工控机，提取工件中心点并制作数据集。对目标检测器进行训练，保存训练权重；S2、工业相机将工件图像发送到嵌入式工控机，利用训练好的目标检测器对工件图像进行中心点定位；S3、将工件中心点的像素坐标值位置转换为工业机器人基坐标系下的三维坐标值，传输到机器人控制柜进行处理，并控制机器人工具末端对准工件。本发明能不易受到光照强度、工件表面平整性等一系列因素的影响，有较强的鲁棒性，可满足实际操作的精度要求。

Description

一种工件定位系统及基于深度学习的工件定位方法

技术领域

本发明属于工业机器人应用领域，特别涉及一种工件定位系统及基于深度学习的工件定位方法。

背景技术

近年来，为了满足各种工业需求，不同类型的机器人应运而生。以机器人代替传统的人工完成工件的装配、抓取、分拣等任务，可提高生产效率、降低劳动强度、保障人身安全。要使机器人顺利完成操作，其中一个关键环节就是对工件进行准确的识别与定位。因此，如何快速准确提取工件的中心点成为值得研究的重要问题。

随着机器视觉和图像处理技术的发展，基于形态学处理的工件定位方法因其速度快，能够直观地捕捉边缘、色彩等信息而被广泛应用。如申请公布号为CN110625644A的中国发明专利，然而由于光照强度、加工表面平整性等因素的影响，定位过程中中心点容易偏离真实中心点，因而难以满足工业生产应用中高效率、高精度和高质量的要求。

随着深度学习技术的发展，目标检测算法以高效的神经网络，可学习到丰富的语义信息和细节信息，具有较强的鲁棒性和适应性，被广泛应用于目标检测与定位。如申请公布号CN110599544A的中国发明专利，采用Faster-R-CNN神经网络作为检测模型对工件进行定位，精度高。但由于Faster-R-CNN是两阶段算法，检测速度较慢。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种工件定位系统及基于深度学习的工件定位方法，可以对工件进行准确快速的识别与定位。

本发明至少通过如下技术方案之一实现。

一种工件定位系统，包括机器人、机器人控制柜、嵌入式工控机、模组、工件姿态调整件、工件和视觉传感器，

机器人控制柜通过电缆线与机器人相连，嵌入式工控机和工业机器人、机器人控制柜通过以太网线相连；

工件姿态调整件固定在模组上；

工件固定在工件姿态调整件上以随着工件姿态调整件的转动而调整姿态；

视觉传感器固定在机器人的末端，且视觉传感器包括用于给工件拍照的工业相机。

本发明还提供一种基于深度学习的工件定位方法，包括步骤：

S1、所述视觉传感器的工业相机把连续采集的每一帧工件图像发送到嵌入式工控机，采用形态学处理提取工件中心点并制作数据集，将数据集划分为训练集与测试集。采用训练集对目标检测器进行训练，保存最终的训练权重；

S2、所述视觉传感器的工业相机将采集的工件图像发送至所述嵌入式工控机，采用步骤S1训练好的目标检测器对图像进行中心点定位；

S3、将步骤S2图像中工件中心点的像素坐标值转换成工业机器人基坐标系下的三维坐标值后与当前机器人三维坐标值作差，得到偏差值，并发送给机器人控制柜进行处理，控制机器人工具末端对准工件。

具体而言，所述步骤S1具体包括：

S11、通过自动拍照系统控制工业相机实现连续采集图像；

S12、在采集照片时，使工业相机与工件保持一定的距离，确保在图像采集过程中既能捕捉到清晰的图像，又不会使得视觉传感器和工件发生干涉；

S13、通过电机控制模组使工件以一定的间隔沿着水平方向移动，并通过转动工件姿态调整件来调整工件的姿态；

S14、把视觉传感器中的工业相机采集的图像发送到嵌入式工控机，嵌入式工控机通过调用Halcon软件的库函数对图像进行形态学处理，即通过阈值分割、区域选择、高斯滤波、边缘提取、边缘连接、轮廓拟合一系列操作得到工件中心点的像素坐标值；嵌入式工控机通过调用Halcon软件的库函数求取工件的最小外接矩形，即真实框；将中心点的像素坐标值以及真实框的高和宽保存到TXT文件中，制成数据集；

S15、将数据集划分为训练集和测试集，其中2/3划分为训练集，剩余划分为测试集。

S16、采用训练集对目标检测器进行训练，保存最终的训练权重。

具体而言，所述步骤S11中自动拍照系统具体包括：

S111、所述的自动拍照系统是基于C#、Pylon Viewer和Holcon联合编程设计的，在现有的基础上添加了自动拍照与保存的功能。自动拍照系统可设定相机的帧数和相机的心跳时间，实现自动拍照与保存；

S112、设置相机的采样频率f、心跳时间t,一次可连续采集n张图像，其中，n＝f·t。；

具体而言，所述步骤S14中数据集制作过程具体包括：

S141、所述阈值分割，设定一个阈值T，通过像素点的灰度值和阈值的对比将背景和目标分开，其公式如下：

其中，T为阈值，F(x,y)为阈值处理前的图像，f(x,y)为阈值处理后的图像；

S142、所述高斯滤波的概率密度分布函数为正态分布，具有优异的增强性能，可抑制和消除图像中混杂的噪声或无关信息，其公式如下：

其中，σ为标准偏差；

S143、采用Canny算子进行边缘提取；对工件不连续的边缘进行连接；根据工件的轮廓生成最小外接水平矩形框，即真实框；

S144、为保持样本的多样性，防止训练过拟合，对图像进行随机偏移和旋转；

S145、为加快训练速度并保持图像上工件的分辨率不变，对图像进行裁剪，使其缩小到特定的尺寸。

具体而言，所述步骤S16具体包括：

S161、构建基于特征融合的单步多框检测器的网络结构；

具体而言，步骤S161中，所述的基于特征融合的单步多框检测器的网络主要由三个部分组成：VGG基本骨架、多尺度特征融合层以及预测层。VGG基本骨架主要用于提取整张图像的特征；多尺度特征融合层的输入为不同尺度的特征，利用各个特征提取层的语义信息和位置信息，可用于检测不同大小的物体；预测层可生成目标类别和位置的预测，并通过非极大值抑制筛选出最优结果。

所述VGG基本骨架是把VGG-16原始架构最后一层全连接层替换成普通的卷积层；其具体网络结构如下：

所述VGG基本骨架包含7个模块。第1、2模块均由两个卷积层和一个最大池化层构成；第3、4、5模块均由三个卷积层和一个最大池化层构成；第6、7模块均是单个卷积层。

所述多尺度特征融合层是在VGG基本骨架的基础上添加卷积层以进一步提取抽象特征，并对不同尺度的特征层进行融合。其具体网络结构如下：

所述多尺度特征层是在VGG基本骨架的基础上添加4个特征提取模块，分别记为第8、9、10、11模块，每个模块均由两个卷积层组成。

所述多尺度特征融合是对第4、7、8、9、10、11模块的这六个特征层进行融合，即将这六个模块的最后一个卷积层作为特征融合网络的输入特征，分别记为

在特征融合过程中为每个输入增加额外的权重，并让网络学习每个输入特征的重要性，加权融合方法如下式：

其中，w_i、w_j是可学习权重，O代表每个特征层的重要性。使用Relu激活函数以确保w_i≥0，并且在分母加上一个小值ε，避免数值的不稳定。引入权重归一化来限定每一个权重的值，这样所有权重都被归一化为一个概率，其值范围从0到1，以此表示每个输入特征的重要性。

所述多尺度特征融合通过自顶而下、自底向上、横向连接和跳跃连接的方式，构建了一种将低分辨率、语义强特征与高分辨率、语义弱特征相结合的架构。给每个特征层引入一个可学习权重以表征其重要性，充分且有所偏重地利用各个不同尺度的特征层的语义信息和细节信息，可提高对物体的定位精度，其特征融合过程如下所示：

其中，P_i ⁱⁿ代表第i层的输入特征，P_i ^td代表第i层自顶向下的中间特征，P_i ^out代表第i层自下而上的输出特征，w_i和w'_i均为第i层的可学习权重，Resize代表通过下采样将分辨率调成相同。

所述预测层用于生成目标类别和位置的预测，并通过非极大值抑制筛选出最优结果，整个网络的总损失函数为：

其中，N是与真实框相匹配的默认框个数，l表示预测框，g表示真实框，c表示每一类别的置信度，x＝{0,1}代表是否匹配，L_loc(x,l,g)是回归损失函数，采用了Smooth L1损失，公式如下：

L_conf(x,c)为分类损失函数，公式如下：

cx和cy代默认框中心点横坐标和纵坐标，w和h分别代表框宽和框高,

和/>

分别代表预测框和真实框，Pos和Neg分别代表正样本和负样本，a、b和t分别为预测框序号、真实框序号和类别序号，/>

代表第a预测框匹配到第b个真实框，这个真实框的类别为p，/>

代表第a预测框预测类别t的概率值，/>

代表第a预测框预测类别为背景的概率值。

S162、对步骤S161所构建的网络进行训练，并保存训练好的网络模型参数和权重；

具体而言，所述步骤S162的网络训练具体包括：

设置初始学习率为1e-3，批处理的样本量为16；

设置所述网络的总损失函数L(x,c,l,g)损失的权重α为5；

训练所用的优化方法为梯度下降法，借助Pytorch库中的Optimizer优化器对网络模型参数进行优化，并保存优化后的基于特征融合的单步多框检测器网络模型以及训练权重。

具体而言，所述步骤S2具体包括：

S21、所述视觉传感器的工业相机将单张采集的工件图像发送至所述嵌入式工控机；

S22、采用步骤S1训练好的目标检测器对图像进行工件定位，计算出中心点的两像素坐标；

具体而言，所述步骤S3具体包括：

S31、采用Halcon对工业相机进行标定；

S31、完成机器人的手眼标定，计算出相机与机器人末端的转换关系；

S31、根据转化关系，将步骤S22得到的工件中心点的像素坐标值转换成工业机器人基坐标系下的三维坐标值；

S32、将步骤S31得到的工业机器人的位置与当前工业机器人的位置作差，将得到的偏差发送给机器人控制柜，控制柜输出控制信号传输给工业机器人，使工业机器人末端对准工件中心点。

本发明相对于现有技术至少具有以下有益效果：

(1)本发明通过视觉传感器自动识别工件中心点，并通过嵌入式工控机进行后续的通讯、计算和处理，装置结构简单，系统易于维护。通过嵌入式工控机实现数据的自动采集和处理，能有效提高数据处理的效率；

(2)本发明自动化程度比较高，能够实现工件图像自动采集与保存，并提供一种自动制作数据集的方式，在各种复杂工况下实现机器人末端自动对准工件，大大提高了生产效率。

(3)本发明的目标检测器检测精度高，且具有较快的检测速度。

附图说明

图1是本实施例的工业机器人的中心点定位系统总体结构示示意图；

图2是本实施例的工业机器人的中心点定位系统中的视觉传感器的结构示意图；

图3是本实施例的工件定位方法流程示意图；

图中：1-工业机器人；2-视觉传感器；21-环形光源；22-工业相机；23-相机盒；3-机器人末端连接件；4-工具末端；5-工件；6-工件姿态调整件；7-模组；8-操作平台；9-嵌入式工控机；10-机器人控制柜。

具体实施方式

下面结合实施例及附图对本发明作进一步的详细描述，但本发明的实施方式不限于此。

如图1、图2所示，本发明提供的一种工件定位系统包括机器人1、机器人控制柜10、嵌入式工控机9、模组7、工件姿态调整件6、工件5和视觉传感器2。工业机器人1通过电缆线与控制柜10相连，嵌入式工控机9和工业机器人1、控制柜10通过以太网线相连。模组7通过螺栓固定在在操作平台8上，工件姿态调整件6通过螺栓垂直固定在模组7上，工件5固定在工件姿态调整件6上，工件5的偏转角度可以通过工件姿态调整件6调节，使得工件5具有不同的姿态，从而视觉传感器可以获得工件5不同角度的图像。

在本发明其中一个实施例中，工件姿态调整件6为丝杆直线导轨，通过转动丝杠调整工件姿态，丝杆直线导轨垂直固定在模组上，模组用来控制丝杆直线导轨整体的水平运动。

在本发明其中一个实施例中，视觉传感器2包括环形光源21、工业相机22、黑色氧化处理的相机盒23，工业相机22通过螺栓连接固定在相机盒23内，环形光源21通过螺栓连接固定在相机盒23前端，工业机器人1末端通过螺栓固定有机器人末端连接件3，视觉传感器2通过螺栓固定在机器人末端连接件3的一侧，工具末端4通过螺栓固定在机器人末端连接件3的另一侧。

本发明还提供前述工件定位系统的工件定位方法。

如图3所示，一种基于深度学习的工件定位方法，包括以下步骤：

S1、视觉传感器2的工业相机23把连续采集的每一帧工件图像发送到嵌入式工控机9，采用形态学处理提取工件中心点并制作数据集，将数据集划分为训练集与测试集。采用训练集对目标检测器进行训练，保存最终的训练权重；

在本发明其中一个实施例中，步骤S1具体包括：

S11、通过自动拍照系统控制工业相机23实现连续采集图像；

在本发明其中一个实施例中，步骤S11中自动拍照系统具体包括：

S111、自动拍照系统是基于C#、Pylon Viewer和Holcon联合编程设计的，在现有的基础上添加了自动拍照与保存的功能。自动拍照系统可设定工业相机23的帧数和工业相机23的心跳时间。工业相机每拍摄一帧图像就会自动触发图像保存按钮，无需人工按保存键，适合大规模图像的获取；

S112、设置相机的采样频率f、心跳时间t,一次可连续采集n张图像，其中，n＝f·t。如在本发明其中一个实施例中，可以将工业相机23的采样频率设为50fps，心跳时间设为2000ms，一次可连续采集100张图像。

S12、在采集照片时，使工业相机23与工件5保持一定的距离，确保在图像采集过程中既能捕捉到清晰的图像，又不会使得视觉传感器2和工件5发生干涉；

S13、通过模组7的控制电机控制模组7使工件以一定的间隔沿着水平方向移动，并通过转动工件姿态调整件6来调整工件5的姿态；

S14、把视觉传感器2中的工业相机23采集的每一帧工件图像发送到嵌入式工控机9，嵌入式工控机9通过调用Halcon软件的库函数对分别对每张图像进行形态学处理，即通过阈值分割、区域选择、高斯滤波、边缘提取、边缘连接、轮廓拟合一系列操作得到各张图像中工件中心点的像素坐标值；嵌入式工控机9通过调用Halcon软件的库函数求取工件的最小外接矩形，即真实框；将每张图像的工件中心点的像素坐标值以及真实框的高和宽保存到TXT文件中，制成数据集；

在本发明其中一个实施例中，步骤S14中数据集制作过程具体包括：

S141、对图像进行阈值分割，设定一个阈值T，通过像素点的灰度值和阈值的对比将背景和目标分开，其公式如下：

S142、高斯滤波的概率密度分布函数为正态分布，具有优异的增强性能，可抑制和消除图像中混杂的噪声或无关信息，其公式如下：

其中，σ为标准偏差；

在本发明其中一个实施例中，步骤S16具体包括：

S161、构建基于特征融合的单步多框检测器的网络结构；

具体而言，步骤S161中，基于特征融合的单步多框检测器的网络包括VGG基本骨架、多尺度特征融合层以及预测层。VGG基本骨架主要用于提取整张图像的特征；多尺度特征融合层的输入为不同尺度的特征，利用各个特征提取层的语义信息和位置信息，可用于检测不同大小的物体；预测层可生成目标类别和位置的预测，并通过非极大值抑制筛选出最优结果。

VGG基本骨架是把VGG-16原始架构最后一层全连接层替换成普通的卷积层，其具体网络结构如下：

VGG基本骨架包括7个模块，第1、2模块均由两个卷积层和一个最大池化层构成；第3、4、5模块均由三个卷积层和一个最大池化层构成；第6、7模块均是单个卷积层。

多尺度特征融合层是在VGG基本骨架的基础上添加卷积层以进一步提取抽象特征，并对不同尺度的特征层进行融合。其具体网络结构如下：

多尺度特征层是在VGG基本骨架的基础上添加4个特征提取模块，分别记为第8、9、10、11模块，每个模块均由两个卷积层组成。

多尺度特征融合是对第4、7、8、9、10、11模块的这六个特征层进行融合，即将这六个模块的最后一个卷积层作为特征融合网络的输入特征，分别记为

其中，w_i和w_j是可学习权重，O代表每个特征层的重要性。使用Relu激活函数以确保w_i≥0，并且在分母加上一个小值ε，避免数值的不稳定。引入权重归一化来限定每一个权重的值，这样所有权重都被归一化为一个概率，其值范围从0到1，以此表示每个输入特征的重要性。

多尺度特征融合通过自顶而下、自底向上、横向连接和跳跃连接的方式，构建了一种将低分辨率、语义强特征与高分辨率、语义弱特征相结合的架构。给每个特征层引入一个可学习权重以表征其重要性，充分且有所偏重地利用各个不同尺度的特征层的语义信息和细节信息，可提高对物体的定位精度。其特征融合过程如下所示：

其中，α为权重，N是与真实框相匹配的默认框个数，l表示预测框，g表示真实框，c表示每一类别的置信度，x＝{0,1}代表是否匹配，L_loc(x,l,g)是回归损失函数，采用了Smooth L1损失，公式如下：

L_conf(x,c)为分类损失函数，公式如下：

和/>

代表第a预测框预测类别t的概率值，/>

代表第a预测框预测类别为背景的概率值。

S162、对步骤S161所构建的网络进行训练，并保存训练好的网络模型参数和权重。

在本发明其中一个实施例中，步骤S162的网络训练具体包括：

设置初始学习率为1e-3，批处理的样本量为16；

设置网络的总损失函数L(x,c,l,g)损失的权重α为5；

S2、视觉传感器的工业相机将采集的工件图像发送至所述嵌入式工控机，采用步骤S1训练好的目标检测器对图像进行工件定位，得到工件中心点的像素坐标值。

在本发明其中一个实施例中，步骤S2具体包括：

S21、视觉传感器2的工业相机23将单张采集的工件图像发送至嵌入式工控机9；

S22、采用步骤S1训练好的目标检测器对图像进行工件定位，计算出中心点的两像素坐标。

S3、将步骤S2图像中工件中心点的像素坐标值转换成工业机器人基坐标系下的三维坐标值后与当前机器人三维坐标值作差，得到偏差值，并发送给机器人控制柜进行处理，最终输出控制信号控制机器人工具末端对准工件。

在本发明其中一个实施例中，步骤S3具体包括：

S31、采用Halcon对工业相机23进行标定；

S32、完成机器人的手眼标定，计算出工业相机23与机器人末端4的转换关系；

S33、根据转化关系，将步骤S22得到的工件5中心点的像素坐标值转换成工业机器人1基坐标系下的三维坐标值；

S34、将步骤S33得到的工业机器人1的位置与当前工业机器人1的位置作差，将得到的偏差发送给机器人控制柜10，控制柜10输出控制信号传输给工业机器人1，使工业机器人末端对准工件中心点。

本发明能使得工业机器人较好地对工件中心点进行定位，目标检测器具有强大的学习能力，不仅可以捕获颜色、角点、纹理等低级的视觉线索，还可学习到丰富的语义信息和细节信息，不易受光照强度、工件表面粗糙度，周围环境杂物等一系列因素的影响，具有完全自动化，定位精度高，速度快高，鲁棒性好，适应性能力强等优点。能使得工业机器人较好地应用于工件的对孔装配、抓取和分拣等任务，有较强的鲁棒性，可满足实际操作的精度要求。

上述实施例为本发明较佳的实施方式，但本方明的实施方式并不受上述实施例的限制，其他的任何背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的工件定位方法，其采用的工件定位系统包括工业机器人(1)、机器人控制柜(10)、嵌入式工控机(9)、模组(7)、工件姿态调整件(6)、工件(5)和视觉传感器(2)，机器人控制柜(10)通过电缆线与机器人(1)相连，嵌入式工控机(9)和工业机器人(1)、机器人控制柜(10)通过以太网线相连；

工件姿态调整件(6)固定在模组(7)上；

工件(5)固定在工件姿态调整件(6)上以随着工件姿态调整件(6)的转动而调整姿态；

视觉传感器(2)固定在机器人(1)的末端，且视觉传感器(2)包括用于给工件(5)拍照的工业相机(22)；

其特征在于：所述方法包括步骤：

S1、视觉传感器的工业相机把连续采集的每一帧工件图像发送到嵌入式工控机，采用形态学处理提取工件中心点并制作数据集，将数据集划分为训练集与测试集，采用训练集对目标检测器进行训练，保存最终的训练权重；具体包括：

S11、通过自动拍照系统控制工业相机进行连续采集工件图像；

S12、在采集图像时，使工业相机与工件保持预设的距离；

S13、通过模组控制工件姿态调整件使工件沿着水平方向移动，并通过转动工件姿态调整件来调整工件的姿态；

S14、把视觉传感器中的工业相机采集的每一帧工件图像发送到嵌入式工控机，嵌入式工控机通过调用Halcon软件的库函数分别对每张图像进行形态学处理，得到每张图像中工件中心点的像素坐标值，嵌入式工控机通过调用Halcon软件的库函数求取工件的最小外接矩形，即真实框；通过每张图像的工件中心点的像素坐标值以及真实框的高和宽制得数据集；

S15、将数据集划分为训练集和测试集；

S16、采用训练集对目标检测器进行训练，保存最终的训练权重；具体包括：

S161、构建基于特征融合的单步多框检测器的网络结构；所述基于特征融合的单步多框检测器的网络结构包括VGG基本骨架、多尺度特征融合层以及预测层；

所述VGG基本骨架用于提取整张图像的特征，是把VGG-16原始架构最后一层全连接层替换成普通的卷积层，其具体网络结构如下：

所述VGG基本骨架包括7个模块，第1、2模块均由两个卷积层和一个最大池化层构成，第3、4、5模块均由三个卷积层和一个最大池化层构成；第6、7模块均是单个卷积层；

多尺度特征融合层的输入为不同尺度的特征，利用各个特征提取层的语义信息和位置信息，可检测不同大小的物体，所述多尺度特征融合层的具体网络结构如下：在VGG基本骨架的基础上添加4个特征提取模块，分别记为第8、9、10、11模块，每个模块均包括两个卷积层，所述多尺度特征融合是对第4、7、8、9、10、11模块的特征层进行融合，分别记为