CN115294430A

CN115294430A - 一种基于传感器耦合的机器视觉垃圾识别定位技术

Info

Publication number: CN115294430A
Application number: CN202210730889.3A
Authority: CN
Inventors: 李佳; 谈文杰
Original assignee: Shanghai Jiao Tong University
Current assignee: Shanghai Jiao Tong University
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-11-04

Abstract

本发明公开了一种基于传感器耦合的机器视觉垃圾识别定位技术包括通过传感器采集物体图像信息、红外光谱信息和3D轮廓信息；将图像信息传入YOLOv5目标识别网络，建立数据集类型；将红外光谱信息传输至主成分分析(PCA)和支持向量机(SVM)模型，建立数据集类型；将YOLOv5识别的目标类别与红外光谱识别的物体类别进行耦合；将YOLOv5获得的物体二维坐标与传感器获得的三维坐标进行耦合；将耦合得到的目标类别传输给并联机器臂；将耦合得到的坐标传输给PLC，通过PLC的伺服控制模块进行定位；并联机器臂通过控制器指导机械臂进行抓取，根据目标类别选择放置位置；本专利使用多传感器耦合，使得不同传感器之间优势互补，对于仅需要图像即可判别的类别，可保证识别精度。

Description

一种基于传感器耦合的机器视觉垃圾识别定位技术

技术领域

本发明涉及机器视觉的技术领域，尤其涉及一种基于传感器耦合的机器视觉垃圾识别定位技术。

背景技术

现有技术主要还是通过人工流程进行垃圾分拣任务，成本高、效率低、对工人身体健康有负面影响。有少部分采用机器视觉技术，也只停留在通过单一的图像技术进行物类识别与定位，单一的图像识别不能区分外形相似但材质不同的物体，因此无法应对回收过程中高附加值产品的精细分类问题；单一的红外识别的识别精度与效率均不如图象识别，也容易受到外部环境干扰，识别精度与定位精度仍有提升空间。本专利相比人工分拣方式分拣速度更快，预计每条流水线可达5400件/h，更环保，并能有效缓解劳动密集型产业招工难的问题；相比现有机器视觉与垃圾分拣领域的结合应用现状，本技术通过多传感器的耦合对提升识别与定位精度的提升空间进行了一定的探索。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

鉴于上述现有基于传感器耦合的机器视觉垃圾识别定位技术存在的问题，提出了本发明。

因此，本发明目的是提供一种基于传感器耦合的机器视觉垃圾识别定位技术，其通过多传感器的耦合提升识别与定位精度。

为解决上述技术问题，本发明提供如下技术方案：一种基于传感器耦合的机器视觉垃圾识别定位技术，通过传感器采集物体图像信息、红外光谱信息和 3D轮廓信息；

将图像信息传入YOLOv5目标识别网络，建立数据集类型；

将红外光谱信息传输至主成分分析(PCA)和支持向量机(SVM)模型，建立数据集类型；

将YOLOv5识别的目标类别与红外光谱识别的物体类别进行耦合；

将YOLOv5获得的物体二维坐标与传感器获得的三维坐标进行耦合；

将耦合得到的目标类别传输给并联机器臂；

将耦合得到的坐标传输给PLC，通过PLC的伺服控制模块进行定位；

并联机器臂通过控制器指导机械臂进行抓取，根据目标类别选择放置位置。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：传感器标定牵涉的坐标系包括四个平面坐标系，分别为：像素平面坐标系(u，v)、图像物理坐标系(像平面坐标系)(x，y)、相机坐标系(X_C，Y_C，Z_C)和世界坐标系(X_W，Y_W，Z_W)；像素坐标(u，v)可以通过以下公式从像平面坐标得出：

其中，dx、dy、u₀、v₀均为设定参数，dx、dy表示感光芯片上像素的实际大小，是连接像素坐标系和真实尺寸坐标系；u₀、v₀是图像平面中心，最终可求得内外参数；建立像素平面坐标系(u，v)时，采用棋盘格作为标定检测物体，标定过程中计算棋盘格边长与相应的边在图像中像素个数的对应值，完成坐标系的建立。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：上述公式转换为矩阵形式为：

相机坐标系是经过旋转平移之后的世界坐标系，可以通过旋转矩阵R和平移矩阵T来得到以下关系：

根据相机成像原理，可以得到基于相似三角形的边长关系式：

最终可以得到如下公式：

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：相机采集的图像在边缘部分的直线可能会畸变成为曲线；径向畸变数学模型为：

式中，k₁、k₂、k₃表示各阶次径向畸变系数；(x，y)是理想的无畸变的坐标(图像坐标系)；(x_dr，y_dr)是畸变后图像像素点的坐标；r表示目标坐标与原点之间的距离，即r²＝x²+y²；

切向畸变数学模型为：

式中p₁，p₂表示各阶次切向畸变系数；r表示目标坐标与原点之间的距离，即r²＝x²+y²；

合并：

最终可以得到5个畸变参数k₁、k₂、k₃、p₁，p₂，通过对工业相机内参数与畸变参数进行标定，对采集的图像进行畸变校正处理即可得到校正后的图像。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：通过参考光谱对得到的反射信号进行矫正，先进行探头高度h ＝1m情况下的白板采样，在探头下铺设整块白瓷砖，进行连续采样，随后用黑棉布包裹探头，采集黑板；随后通过以下公式进行光谱矫正：

式中，x_i为经过第i个波长参考光谱矫正后的信号强度；

为原始反射信号第i个波长的信号强度；

为白板漫反射光谱第i个波长的信号强度；

为暗电流背景光谱在第i个波长的信号强度。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：YOLOv5目标检测模型先通过K近邻(KNN)聚类得到anchor 框，随后通过目标框回归预测精确目标框，yolov5采用如下公式：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

其中，t_x、t_y、t_w、t_h均为反向传播过程中需要迭代的参数，为sigmoid激活函数，b_x、b_y分别为预测框的中心x、y坐标，c_x和c_y分别为单个网格的长度和宽度。b_w、b_h为预测框的宽度和长度，b_w、p_h分别为聚类得到的anchor框的宽度和长度；

YOLOv5的损失函数(L)是置信度损失(L_conf)、分类损失(L_cla)、边界框损失(L_loc)三部分的加权和：

L(o，c，O，C，l，g)＝λ₁L_conf(o，c)+λ₂L_cla(O，C)+λ₃L_loc(l，g)

置信度损失和分类损失通过二元交叉熵定义，公式如下：

边界框损失通过CIOU计算，公式如下：

其中，IOU为预测框与真值(ground truth)的交并比，b和b^gt分别为预测框的中心点坐标和ground truth边界框的中心点坐标。w^gt和h^gt是ground truth边界框的宽度和高度，w和h代表预测得到的边界框的宽度和高度，v是纵横比一致性参数(consistency ofaspect ratio)，α是平衡参数，表达式分别如下：

训练过程中，图像被送入改进的YOLOv5网络模型之后，先进行KNN聚类预处理，随后在主干网络进行特征提取，最后在头部分三个尺度进行预测，预测结果经损失函数计算，返回梯度，更新网络权重；预测过程中，图象先进行KNN聚类预处理，在头部分为三个尺度，最后送入主干网络进行多尺度的坐标与种类的预测。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：光谱信息传输至PCA与SVM模型前进行前处理，采用S-G滤波进行平滑(窗口数为7，多项式阶数为2)，线性去趋势进行基线校正，标准正态变换(standard normaltransformation，SNV)进行标准化；之后进行PCA数据降维，通过python函数sklearn.decomposition.PCA实现，主成分数量设置为6-8 为优，具体选择依场景而定；再进行SVM类别预测，通过python函数 sklearn.svm.SVC实现。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：对目标类别与物体类别进行耦合，将YOLOv5网络模型预测得到的类别与光谱法预测得到的类别进行联合判断，具体为谨慎的并联模式。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：将二维坐标与三维坐标进行耦合，以激光传感器获得的三维坐标为基准，目标识别算法获得的二维坐标主要用于验证对象的一致性。即：如果通过激光得到的三维坐标的x、y坐标与YOLOv5给出的坐标差别较大，则跳过或报错；差别不大则传输三维坐标给机械臂抓手。

作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案，其中：通过UDP的以太网通信方式实现工控机与PLC的通信；通过 CC-Link连接方式进行PLC与变频器之间的传输。

本发明的有益效果：

本专利相比人工分拣方式分拣速度更快，预计每条流水线可达5400件/h，更环保，并能有效缓解长三角地区劳动密集型产业招工难的问题；相比现有机器视觉与垃圾分拣领域的结合应用现状，本技术使用多传感器耦合，识别可以使得不同传感器之间优势互补，对于仅需要图像即可判别的类别，可以保证识别精度，对需要依据材质细分的类别，图像和红外的联合判别足以应对绝大多数识别场景，有着更大的应用潜力。此外，激光传感器提供的坐标信息与通过图像判别的坐标信息联合判别，也使得定位更为精准。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明基于传感器耦合的机器视觉垃圾识别定位技术的YOLOv5 网络结构示意图。

图2为本发明基于传感器耦合的机器视觉垃圾识别定位技术的加入通道注意力机制的网络结构示意图。

图3为本发明基于传感器耦合的机器视觉垃圾识别定位技术的流程示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

再其次，本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

实施例1

参照图1、2、3，为本发明第一个实施例，提供了一种基于传感器耦合的机器视觉垃圾识别定位技术，通过CCD摄像头、近红外传感器和线激光传感器采集物体的图像信息、红外光谱信息和3D轮廓信息。这些信息由PLC控制采集并被发送至上位机，进行后续处理，CCD摄像头需进行相机标定，目的是使定位更精确，具体方法如下：

相机标定牵涉的坐标系包括四个平面坐标系，分别为：像素平面坐标系 (u，v)、图像物理坐标系(像平面坐标系)(x，y)、相机坐标系 (X_C，Y_C，Z_C)和世界坐标系(X_W，Y_W，Z_W)。

进一步的，像素坐标(u，v)可以通过以下公式从像平面坐标得出：

其中，dx、dy、u₀、v₀均为设定参数，dx、dy表示感光芯片上像素的实际大小，是连接像素坐标系和真实尺寸坐标系；u₀、v₀是图像平面中心，最终可求得内外参数。

建立像素平面坐标系(u，v)时，采用棋盘格作为标定检测物体，标定过程中计算棋盘格边长与相应的边在图像中像素个数的对应值，完成坐标系的建立。

上述公式运用线性代数知识转换为矩阵形式为：

相机坐标系(X_C，Y_C，Z_C)和世界坐标系(X_W，Y_W，Z_W)之间的关系：相机坐标系是经过旋转平移之后的世界坐标系，可以通过旋转矩阵R和平移矩阵T来得到以下关系：

相机坐标系(X_C，Y_C，Z_C)与像平面坐标系(x，y)之间的关系：根据相机成像原理，可以得到基于相似三角形的边长关系式：

最终可以得到如下公式：

而后输出高压阀和低压阀的二维平面数据，这里的二维平面数据主要包括二维中心坐标数据和二维轮廓数据。

由于相机透镜本身的加工误差以及镜头组装过程的偏差，导致机器视觉系统采集的图像产生畸变，使得采集的图像与实际图像之间存在差别。在实际运用中，工业相机通常采用小孔成像模型完成畸变校正。

进一步的，镜头的畸变可分为径向畸变、切向畸变和薄棱镜畸变。其中径向畸变和切向畸变两种畸变对投影图像影响较大，因此本申请中，主要考虑径向畸变和切向畸变。

径向畸变主要出现在相机视野的边缘部分，而图像中心部位产生径向畸变程度较弱，所以相机采集的图像在边缘部分的直线可能会畸变成为曲线。径向畸变数学模型为：

式中，k₁、k₂、k₃表示各阶次径向畸变系数；(x，y)是理想的无畸变的坐标(图像坐标系)；(x_dr，y_dr)是畸变后图像像素点的坐标；r表示目标坐标与原点之间的距离，即r²＝x²+y²。

切向畸变主要是由生产过程中的加工与安装误差所产生，安装过程中的安装误差导致透镜平面与相机平面不平行，从而使得采集到的图像出现畸变。切向畸变数学模型为：

式中p₁，p₂表示各阶次切向畸变系数；r表示目标坐标与原点之间的距离，即r²＝x²+y²。

将径向、切向畸变两组数学模型合并：

近红外传感器采集的光谱需经过矫正。具体步骤如下：

为了消除不同仪器或者不同时期测量的影响，必须用参考光谱对得到的反射信号进行矫正。两个参考光谱分别是光源经探头打在漫反射白板上得到的白板光谱，以及当探头处于封闭状态时光谱仪采集到的背景光谱，即暗电流。

先进行探头高度h＝1m情况下的白板采样，在探头下铺设整块白瓷砖，进行连续采样，随后用黑棉布包裹探头，采集黑板。随后通过以下公式进行光谱矫正。

式中x_i——经过第i个波长参考光谱矫正后的信号强度；

——原始反射信号第i个波长的信号强度；

——白板漫反射光谱第i个波长的信号强度；

——暗电流背景光谱在第i个波长的信号强度。

将CCD摄像头采集到的图像信息传输进改进的YOLOv5目标识别网络，该网络将给出目标类别及二维定位。具体为：

YOLOv5结构参见图1，YOLOv5的网络结构包括主干(Backbone)和头部(Head)。主干由Focus、Conv、BSCP(BottlenackCSP)和SPP(Spatial Pyramid Pooling)模块组成。Focus模块在空间维度将输入的特征图切片为4个部分，这样做可以减少复杂度，使得网络更轻量化。Conv和BSCP模块是不同类型的特征提取模块，区别在于BSCP包含残差提取，而Conv是简单的卷积加激活。 SPP模块将输入特征图分别进行5倍、9倍、13倍的上采样，这在某种程度上引入了空间注意力机制。头部包括两次接续卷积的上采样，使得网络可以在三个尺度上进行输出，提高了对不同尺度目标的预测能力。

YOLOv5目标检测模型先通过K近邻(KNN)聚类得到anchor框，随后通过目标框回归预测精确目标框，Yolov5采用如下公式：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

其中，t_x、t_y、t_w、t_h均为反向传播过程中需要迭代的参数，为sigmoid激活函数，b_x、b_y分别为预测框的中心x、y坐标，c_x和c_y分别为单个网格的长度和宽度。b_w、b_h为预测框的宽度和长度，b_w、p_h分别为聚类得到的anchor框的宽度和长度。

置信度损失和分类损失通过二元交叉熵定义，公式如下：

边界框损失通过CIOU计算，公式如下：

引入通道注意力机制的改进YOLOv5参见图2，通道注意力机制对每个通道增加权重，并在反向传播过程中更新权重，这样使得各通道的差异性可以被注意到，通道注意力机制模块简写为SE模块。在该模型中，SE模块被安插到两处。在已有的测试中显示，加上通道注意力机制的模型，其预测鲁棒性得到明显提升。训练过程中，图像被送入改进的YOLOv5网络模型之后，先进行 KNN聚类预处理，随后在主干网络进行特征提取，最后在头部分三个尺度进行预测，预测结果经损失函数计算，返回梯度，更新网络权重。预测过程中，图象先进行KNN聚类预处理，在头部分为三个尺度，最后送入主干网络进行多尺度的坐标与种类的预测。

将近红外传感器采集到的光谱信息传输进主成分分析(PCA)和支持向量机(SVM)模型，其中PCA负责数据降维，而SVM负责预测目标类别。

前处理：本实验采用S-G滤波进行平滑(窗口数为7，多项式阶数为2)，线性去趋势进行基线校正，标准正态变换(standard normal transformation,SNV)进行标准化。

PCA数据降维：通过python函数sklearn.decomposition.PCA实现，主成分数量设置为6-8为优，具体选择依场景而定。

SVM类别预测：通过python函数sklearn.svm.SVC实现。

将改进的YOLOv5识别的目标类别与步骤1中通过光谱法得到的物体类别进行耦合，具体实现如下：

将YOLOv5网络模型预测得到的类别与光谱法预测得到的类别进行联合判断，具体为谨慎的并联模式，举例如下：

例1：YOLOv5预测结果为塑料瓶，光谱预测结果为PP，则将目标判定为 PP材质塑料瓶。

例2：YOLOv5预测结果为易拉罐，光谱预测结果为PP，显然易拉罐应该为金属材质，因此判断为无效，该目标不进行归类，流向传送带后端经人工分拣或循环至起点重新判断。

将改进的YOLOv5获得的物体二维坐标与步骤1中激光传感器获得的三维坐标进行耦合。该步骤以激光传感器获得的三维坐标为基准，目标识别算法获得的二维坐标主要用于验证对象的一致性。即：如果通过激光得到的三维坐标的x、y坐标与YOLOv5给出的坐标差别较大，则跳过或报错；差别不大则传输三维坐标给机械臂抓手。

将耦合得到的目标类别传输给并联机器臂。将耦合得到的坐标传输给 PLC，通过plc的伺服控制模块进行定位。通过UDP的以太网通信方式实现工控机与PLC的通信。通过CC-Link连接方式进行PLC与变频器之间的传输。并联机器臂通过控制器指导机械臂进行抓取，根据目标类别选择放置位置。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：包括，

通过传感器采集物体图像信息、红外光谱信息和3D轮廓信息；

将图像信息传入YOLOv5目标识别网络，建立数据集类型；

将耦合得到的目标类别传输给并联机器臂；

2.如权利要求1所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：传感器标定牵涉的坐标系包括四个平面坐标系，分别为：像素平面坐标系(u，v)、图像物理坐标系(像平面坐标系)(x，y)、相机坐标系(X_C，Y_C，Z_C)和世界坐标系(X_W，Y_W，Z_W)；像素坐标(u，v)可以通过以下公式从像平面坐标得出：

3.如权利要求2所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：上述公式转换为矩阵形式为：

最终可以得到如下公式：

4.如权利要求3所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：相机采集的图像在边缘部分的直线可能会畸变成为曲线；径向畸变数学模型为：

切向畸变数学模型为：

合并：

5.如权利要求4所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：通过参考光谱对得到的反射信号进行矫正，先进行探头高度h＝1m情况下的白板采样，在探头下铺设整块白瓷砖，进行连续采样，随后用黑棉布包裹探头，采集黑板；随后通过以下公式进行光谱矫正：

式中，x_i为经过第i个波长参考光谱矫正后的信号强度；

为原始反射信号第i个波长的信号强度；

为白板漫反射光谱第i个波长的信号强度；

为暗电流背景光谱在第i个波长的信号强度。

6.如权利要求5所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：YOLOv5目标检测模型先通过K近邻(KNN)聚类得到anchor框，随后通过目标框回归预测精确目标框，yolov5采用如下公式：

b_x＝2σ(t_x)-0.5+c_x

b_y＝2σ(t_y)-0.5+c_y

b_w＝p_w(2σ(t_w))²

b_h＝p_h(2σ(t_h))²

置信度损失和分类损失通过二元交叉熵定义，公式如下：

边界框损失通过CIOU计算，公式如下：

其中，IOU为预测框与真值(ground truth)的交并比，b和b^gt分别为预测框的中心点坐标和ground truth边界框的中心点坐标。w^gt和h^gt是ground truth边界框的宽度和高度，w和h代表预测得到的边界框的宽度和高度，v是纵横比一致性参数(consistency of aspectratio)，α是平衡参数，表达式分别如下：

7.如权利要求6所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：光谱信息传输至PCA与SVM模型前进行前处理，采用S-G滤波进行平滑(窗口数为7，多项式阶数为2)，线性去趋势进行基线校正，标准正态变换(standard normal transformation，SNV)进行标准化；之后进行PCA数据降维，通过python函数sklearn.decomposition.PCA实现，主成分数量设置为6-8为优，具体选择依场景而定；再进行SVM类别预测，通过python函数sklearn,svm.SVC实现。

8.如权利要求7所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：对目标类别与物体类别进行耦合，将YOLOv5网络模型预测得到的类别与光谱法预测得到的类别进行联合判断，具体为谨慎的并联模式。

9.如权利要求8所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：将二维坐标与三维坐标进行耦合，以激光传感器获得的三维坐标为基准，目标识别算法获得的二维坐标主要用于验证对象的一致性。即：如果通过激光得到的三维坐标的x、y坐标与YOLOv5给出的坐标差别较大，则跳过或报错；差别不大则传输三维坐标给机械臂抓手。

10.如权利要求9所述的基于传感器耦合的机器视觉垃圾识别定位技术，其特征在于：通过UDP的以太网通信方式实现工控机与PLC的通信；通过CC-Link连接方式进行PLC与变频器之间的传输。