CN115294430A - 一种基于传感器耦合的机器视觉垃圾识别定位技术 - Google Patents
一种基于传感器耦合的机器视觉垃圾识别定位技术 Download PDFInfo
- Publication number
- CN115294430A CN115294430A CN202210730889.3A CN202210730889A CN115294430A CN 115294430 A CN115294430 A CN 115294430A CN 202210730889 A CN202210730889 A CN 202210730889A CN 115294430 A CN115294430 A CN 115294430A
- Authority
- CN
- China
- Prior art keywords
- sensor
- coupling
- image
- coordinates
- yolov5
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010168 coupling process Methods 0.000 title claims abstract description 48
- 238000005859 coupling reaction Methods 0.000 title claims abstract description 48
- 230000008878 coupling Effects 0.000 title claims abstract description 39
- 238000005516 engineering process Methods 0.000 title abstract description 26
- 238000000513 principal component analysis Methods 0.000 claims abstract description 17
- 238000012706 support-vector machine Methods 0.000 claims abstract description 15
- 238000002329 infrared spectrum Methods 0.000 claims abstract description 10
- 238000000034 method Methods 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 12
- 239000000523 sample Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013178 mathematical model Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000003384 imaging method Methods 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 229920000742 Cotton Polymers 0.000 claims description 3
- 239000004744 fabric Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000004807 localization Effects 0.000 claims 9
- 239000002994 raw material Substances 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000000295 complement effect Effects 0.000 abstract 1
- 230000007246 mechanism Effects 0.000 description 6
- 239000000919 ceramic Substances 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000004611 spectroscopical analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000011900 installation process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000000985 reflectance spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
- G06T1/0014—Image feed-back for automatic industrial control, e.g. robot with camera
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Robotics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于传感器耦合的机器视觉垃圾识别定位技术包括通过传感器采集物体图像信息、红外光谱信息和3D轮廓信息;将图像信息传入YOLOv5目标识别网络,建立数据集类型;将红外光谱信息传输至主成分分析(PCA)和支持向量机(SVM)模型,建立数据集类型;将YOLOv5识别的目标类别与红外光谱识别的物体类别进行耦合;将YOLOv5获得的物体二维坐标与传感器获得的三维坐标进行耦合;将耦合得到的目标类别传输给并联机器臂;将耦合得到的坐标传输给PLC,通过PLC的伺服控制模块进行定位;并联机器臂通过控制器指导机械臂进行抓取,根据目标类别选择放置位置;本专利使用多传感器耦合,使得不同传感器之间优势互补,对于仅需要图像即可判别的类别,可保证识别精度。
Description
技术领域
本发明涉及机器视觉的技术领域,尤其涉及一种基于传感器耦合的机器视觉垃圾识别定位技术。
背景技术
现有技术主要还是通过人工流程进行垃圾分拣任务,成本高、效率低、对工人身体健康有负面影响。有少部分采用机器视觉技术,也只停留在通过单一的图像技术进行物类识别与定位,单一的图像识别不能区分外形相似但材质不同的物体,因此无法应对回收过程中高附加值产品的精细分类问题;单一的红外识别的识别精度与效率均不如图象识别,也容易受到外部环境干扰,识别精度与定位精度仍有提升空间。本专利相比人工分拣方式分拣速度更快,预计每条流水线可达5400件/h,更环保,并能有效缓解劳动密集型产业招工难的问题;相比现有机器视觉与垃圾分拣领域的结合应用现状,本技术通过多传感器的耦合对提升识别与定位精度的提升空间进行了一定的探索。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有基于传感器耦合的机器视觉垃圾识别定位技术存在的问题,提出了本发明。
因此,本发明目的是提供一种基于传感器耦合的机器视觉垃圾识别定位技术,其通过多传感器的耦合提升识别与定位精度。
为解决上述技术问题,本发明提供如下技术方案:一种基于传感器耦合的机器视觉垃圾识别定位技术,通过传感器采集物体图像信息、红外光谱信息和 3D轮廓信息;
将图像信息传入YOLOv5目标识别网络,建立数据集类型;
将红外光谱信息传输至主成分分析(PCA)和支持向量机(SVM)模型,建立数据集类型;
将YOLOv5识别的目标类别与红外光谱识别的物体类别进行耦合;
将YOLOv5获得的物体二维坐标与传感器获得的三维坐标进行耦合;
将耦合得到的目标类别传输给并联机器臂;
将耦合得到的坐标传输给PLC,通过PLC的伺服控制模块进行定位;
并联机器臂通过控制器指导机械臂进行抓取,根据目标类别选择放置位置。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:传感器标定牵涉的坐标系包括四个平面坐标系,分别为:像素平面坐标系(u,v)、图像物理坐标系(像平面坐标系)(x,y)、相机坐标系(XC,YC,ZC)和世界坐标系(XW,YW,ZW);像素坐标(u,v)可以通过以下公式从像平面坐标得出:
其中,dx、dy、u0、v0均为设定参数,dx、dy表示感光芯片上像素的实际大小,是连接像素坐标系和真实尺寸坐标系;u0、v0是图像平面中心,最终可求得内外参数;建立像素平面坐标系(u,v)时,采用棋盘格作为标定检测物体,标定过程中计算棋盘格边长与相应的边在图像中像素个数的对应值,完成坐标系的建立。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:上述公式转换为矩阵形式为:
相机坐标系是经过旋转平移之后的世界坐标系,可以通过旋转矩阵R和平移矩阵T来得到以下关系:
根据相机成像原理,可以得到基于相似三角形的边长关系式:
最终可以得到如下公式:
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:相机采集的图像在边缘部分的直线可能会畸变成为曲线;径向畸变数学模型为:
式中,k1、k2、k3表示各阶次径向畸变系数;(x,y)是理想的无畸变的坐标(图像坐标系);(xdr,ydr)是畸变后图像像素点的坐标;r表示目标坐标与原点之间的距离,即r2=x2+y2;
切向畸变数学模型为:
式中p1,p2表示各阶次切向畸变系数;r表示目标坐标与原点之间的距离,即r2=x2+y2;
合并:
最终可以得到5个畸变参数k1、k2、k3、p1,p2,通过对工业相机内参数与畸变参数进行标定,对采集的图像进行畸变校正处理即可得到校正后的图像。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:通过参考光谱对得到的反射信号进行矫正,先进行探头高度h =1m情况下的白板采样,在探头下铺设整块白瓷砖,进行连续采样,随后用黑棉布包裹探头,采集黑板;随后通过以下公式进行光谱矫正:
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:YOLOv5目标检测模型先通过K近邻(KNN)聚类得到anchor 框,随后通过目标框回归预测精确目标框,yolov5采用如下公式:
bx=2σ(tx)-0.5+cx
by=2σ(ty)-0.5+cy
bw=pw(2σ(tw))2
bh=ph(2σ(th))2
其中,tx、ty、tw、th均为反向传播过程中需要迭代的参数,为sigmoid激活函数,bx、by分别为预测框的中心x、y坐标,cx和cy分别为单个网格的长度和宽度。bw、bh为预测框的宽度和长度,bw、ph分别为聚类得到的anchor框的宽度和长度;
YOLOv5的损失函数(L)是置信度损失(Lconf)、分类损失(Lcla)、边界框损失(Lloc)三部分的加权和:
L(o,c,O,C,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)
置信度损失和分类损失通过二元交叉熵定义,公式如下:
边界框损失通过CIOU计算,公式如下:
其中,IOU为预测框与真值(ground truth)的交并比,b和bgt分别为预测框的中心点坐标和ground truth边界框的中心点坐标。wgt和hgt是ground truth边界框的宽度和高度,w和h代表预测得到的边界框的宽度和高度,v是纵横比一致性参数(consistency ofaspect ratio),α是平衡参数,表达式分别如下:
训练过程中,图像被送入改进的YOLOv5网络模型之后,先进行KNN聚类预处理,随后在主干网络进行特征提取,最后在头部分三个尺度进行预测,预测结果经损失函数计算,返回梯度,更新网络权重;预测过程中,图象先进行KNN聚类预处理,在头部分为三个尺度,最后送入主干网络进行多尺度的坐标与种类的预测。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:光谱信息传输至PCA与SVM模型前进行前处理,采用S-G滤波进行平滑(窗口数为7,多项式阶数为2),线性去趋势进行基线校正,标准正态变换(standard normaltransformation,SNV)进行标准化;之后进行PCA数据降维,通过python函数sklearn.decomposition.PCA实现,主成分数量设置为6-8 为优,具体选择依场景而定;再进行SVM类别预测,通过python函数 sklearn.svm.SVC实现。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:对目标类别与物体类别进行耦合,将YOLOv5网络模型预测得到的类别与光谱法预测得到的类别进行联合判断,具体为谨慎的并联模式。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:将二维坐标与三维坐标进行耦合,以激光传感器获得的三维坐标为基准,目标识别算法获得的二维坐标主要用于验证对象的一致性。即:如果通过激光得到的三维坐标的x、y坐标与YOLOv5给出的坐标差别较大,则跳过或报错;差别不大则传输三维坐标给机械臂抓手。
作为本发明所述基于传感器耦合的机器视觉垃圾识别定位技术的一种优选方案,其中:通过UDP的以太网通信方式实现工控机与PLC的通信;通过 CC-Link连接方式进行PLC与变频器之间的传输。
本发明的有益效果:
本专利相比人工分拣方式分拣速度更快,预计每条流水线可达5400件/h,更环保,并能有效缓解长三角地区劳动密集型产业招工难的问题;相比现有机器视觉与垃圾分拣领域的结合应用现状,本技术使用多传感器耦合,识别可以使得不同传感器之间优势互补,对于仅需要图像即可判别的类别,可以保证识别精度,对需要依据材质细分的类别,图像和红外的联合判别足以应对绝大多数识别场景,有着更大的应用潜力。此外,激光传感器提供的坐标信息与通过图像判别的坐标信息联合判别,也使得定位更为精准。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于传感器耦合的机器视觉垃圾识别定位技术的YOLOv5 网络结构示意图。
图2为本发明基于传感器耦合的机器视觉垃圾识别定位技术的加入通道注意力机制的网络结构示意图。
图3为本发明基于传感器耦合的机器视觉垃圾识别定位技术的流程示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
实施例1
参照图1、2、3,为本发明第一个实施例,提供了一种基于传感器耦合的机器视觉垃圾识别定位技术,通过CCD摄像头、近红外传感器和线激光传感器采集物体的图像信息、红外光谱信息和3D轮廓信息。这些信息由PLC控制采集并被发送至上位机,进行后续处理,CCD摄像头需进行相机标定,目的是使定位更精确,具体方法如下:
相机标定牵涉的坐标系包括四个平面坐标系,分别为:像素平面坐标系 (u,v)、图像物理坐标系(像平面坐标系)(x,y)、相机坐标系 (XC,YC,ZC)和世界坐标系(XW,YW,ZW)。
进一步的,像素坐标(u,v)可以通过以下公式从像平面坐标得出:
其中,dx、dy、u0、v0均为设定参数,dx、dy表示感光芯片上像素的实际大小,是连接像素坐标系和真实尺寸坐标系;u0、v0是图像平面中心,最终可求得内外参数。
建立像素平面坐标系(u,v)时,采用棋盘格作为标定检测物体,标定过程中计算棋盘格边长与相应的边在图像中像素个数的对应值,完成坐标系的建立。
上述公式运用线性代数知识转换为矩阵形式为:
相机坐标系(XC,YC,ZC)和世界坐标系(XW,YW,ZW)之间的关系:相机坐标系是经过旋转平移之后的世界坐标系,可以通过旋转矩阵R和平移矩阵T来得到以下关系:
相机坐标系(XC,YC,ZC)与像平面坐标系(x,y)之间的关系:根据相机成像原理,可以得到基于相似三角形的边长关系式:
最终可以得到如下公式:
而后输出高压阀和低压阀的二维平面数据,这里的二维平面数据主要包括二维中心坐标数据和二维轮廓数据。
由于相机透镜本身的加工误差以及镜头组装过程的偏差,导致机器视觉系统采集的图像产生畸变,使得采集的图像与实际图像之间存在差别。在实际运用中,工业相机通常采用小孔成像模型完成畸变校正。
进一步的,镜头的畸变可分为径向畸变、切向畸变和薄棱镜畸变。其中径向畸变和切向畸变两种畸变对投影图像影响较大,因此本申请中,主要考虑径向畸变和切向畸变。
径向畸变主要出现在相机视野的边缘部分,而图像中心部位产生径向畸变程度较弱,所以相机采集的图像在边缘部分的直线可能会畸变成为曲线。径向畸变数学模型为:
式中,k1、k2、k3表示各阶次径向畸变系数;(x,y)是理想的无畸变的坐标(图像坐标系);(xdr,ydr)是畸变后图像像素点的坐标;r表示目标坐标与原点之间的距离,即r2=x2+y2。
切向畸变主要是由生产过程中的加工与安装误差所产生,安装过程中的安装误差导致透镜平面与相机平面不平行,从而使得采集到的图像出现畸变。切向畸变数学模型为:
式中p1,p2表示各阶次切向畸变系数;r表示目标坐标与原点之间的距离,即r2=x2+y2。
将径向、切向畸变两组数学模型合并:
最终可以得到5个畸变参数k1、k2、k3、p1,p2,通过对工业相机内参数与畸变参数进行标定,对采集的图像进行畸变校正处理即可得到校正后的图像。
近红外传感器采集的光谱需经过矫正。具体步骤如下:
为了消除不同仪器或者不同时期测量的影响,必须用参考光谱对得到的反射信号进行矫正。两个参考光谱分别是光源经探头打在漫反射白板上得到的白板光谱,以及当探头处于封闭状态时光谱仪采集到的背景光谱,即暗电流。
先进行探头高度h=1m情况下的白板采样,在探头下铺设整块白瓷砖,进行连续采样,随后用黑棉布包裹探头,采集黑板。随后通过以下公式进行光谱矫正。
式中xi——经过第i个波长参考光谱矫正后的信号强度;
将CCD摄像头采集到的图像信息传输进改进的YOLOv5目标识别网络,该网络将给出目标类别及二维定位。具体为:
YOLOv5结构参见图1,YOLOv5的网络结构包括主干(Backbone)和头部(Head)。主干由Focus、Conv、BSCP(BottlenackCSP)和SPP(Spatial Pyramid Pooling)模块组成。Focus模块在空间维度将输入的特征图切片为4个部分,这样做可以减少复杂度,使得网络更轻量化。Conv和BSCP模块是不同类型的特征提取模块,区别在于BSCP包含残差提取,而Conv是简单的卷积加激活。 SPP模块将输入特征图分别进行5倍、9倍、13倍的上采样,这在某种程度上引入了空间注意力机制。头部包括两次接续卷积的上采样,使得网络可以在三个尺度上进行输出,提高了对不同尺度目标的预测能力。
YOLOv5目标检测模型先通过K近邻(KNN)聚类得到anchor框,随后通过目标框回归预测精确目标框,Yolov5采用如下公式:
bx=2σ(tx)-0.5+cx
by=2σ(ty)-0.5+cy
bw=pw(2σ(tw))2
bh=ph(2σ(th))2
其中,tx、ty、tw、th均为反向传播过程中需要迭代的参数,为sigmoid激活函数,bx、by分别为预测框的中心x、y坐标,cx和cy分别为单个网格的长度和宽度。bw、bh为预测框的宽度和长度,bw、ph分别为聚类得到的anchor框的宽度和长度。
YOLOv5的损失函数(L)是置信度损失(Lconf)、分类损失(Lcla)、边界框损失(Lloc)三部分的加权和:
L(o,c,O,C,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)
置信度损失和分类损失通过二元交叉熵定义,公式如下:
边界框损失通过CIOU计算,公式如下:
其中,IOU为预测框与真值(ground truth)的交并比,b和bgt分别为预测框的中心点坐标和ground truth边界框的中心点坐标。wgt和hgt是ground truth边界框的宽度和高度,w和h代表预测得到的边界框的宽度和高度,v是纵横比一致性参数(consistency ofaspect ratio),α是平衡参数,表达式分别如下:
引入通道注意力机制的改进YOLOv5参见图2,通道注意力机制对每个通道增加权重,并在反向传播过程中更新权重,这样使得各通道的差异性可以被注意到,通道注意力机制模块简写为SE模块。在该模型中,SE模块被安插到两处。在已有的测试中显示,加上通道注意力机制的模型,其预测鲁棒性得到明显提升。训练过程中,图像被送入改进的YOLOv5网络模型之后,先进行 KNN聚类预处理,随后在主干网络进行特征提取,最后在头部分三个尺度进行预测,预测结果经损失函数计算,返回梯度,更新网络权重。预测过程中,图象先进行KNN聚类预处理,在头部分为三个尺度,最后送入主干网络进行多尺度的坐标与种类的预测。
将近红外传感器采集到的光谱信息传输进主成分分析(PCA)和支持向量机(SVM)模型,其中PCA负责数据降维,而SVM负责预测目标类别。
前处理:本实验采用S-G滤波进行平滑(窗口数为7,多项式阶数为2),线性去趋势进行基线校正,标准正态变换(standard normal transformation,SNV)进行标准化。
PCA数据降维:通过python函数sklearn.decomposition.PCA实现,主成分数量设置为6-8为优,具体选择依场景而定。
SVM类别预测:通过python函数sklearn.svm.SVC实现。
将改进的YOLOv5识别的目标类别与步骤1中通过光谱法得到的物体类别进行耦合,具体实现如下:
将YOLOv5网络模型预测得到的类别与光谱法预测得到的类别进行联合判断,具体为谨慎的并联模式,举例如下:
例1:YOLOv5预测结果为塑料瓶,光谱预测结果为PP,则将目标判定为 PP材质塑料瓶。
例2:YOLOv5预测结果为易拉罐,光谱预测结果为PP,显然易拉罐应该为金属材质,因此判断为无效,该目标不进行归类,流向传送带后端经人工分拣或循环至起点重新判断。
将改进的YOLOv5获得的物体二维坐标与步骤1中激光传感器获得的三维坐标进行耦合。该步骤以激光传感器获得的三维坐标为基准,目标识别算法获得的二维坐标主要用于验证对象的一致性。即:如果通过激光得到的三维坐标的x、y坐标与YOLOv5给出的坐标差别较大,则跳过或报错;差别不大则传输三维坐标给机械臂抓手。
将耦合得到的目标类别传输给并联机器臂。将耦合得到的坐标传输给 PLC,通过plc的伺服控制模块进行定位。通过UDP的以太网通信方式实现工控机与PLC的通信。通过CC-Link连接方式进行PLC与变频器之间的传输。并联机器臂通过控制器指导机械臂进行抓取,根据目标类别选择放置位置。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:包括,
通过传感器采集物体图像信息、红外光谱信息和3D轮廓信息;
将图像信息传入YOLOv5目标识别网络,建立数据集类型;
将红外光谱信息传输至主成分分析(PCA)和支持向量机(SVM)模型,建立数据集类型;
将YOLOv5识别的目标类别与红外光谱识别的物体类别进行耦合;
将YOLOv5获得的物体二维坐标与传感器获得的三维坐标进行耦合;
将耦合得到的目标类别传输给并联机器臂;
将耦合得到的坐标传输给PLC,通过PLC的伺服控制模块进行定位;
并联机器臂通过控制器指导机械臂进行抓取,根据目标类别选择放置位置。
2.如权利要求1所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:传感器标定牵涉的坐标系包括四个平面坐标系,分别为:像素平面坐标系(u,v)、图像物理坐标系(像平面坐标系)(x,y)、相机坐标系(XC,YC,ZC)和世界坐标系(XW,YW,ZW);像素坐标(u,v)可以通过以下公式从像平面坐标得出:
其中,dx、dy、u0、v0均为设定参数,dx、dy表示感光芯片上像素的实际大小,是连接像素坐标系和真实尺寸坐标系;u0、v0是图像平面中心,最终可求得内外参数;建立像素平面坐标系(u,v)时,采用棋盘格作为标定检测物体,标定过程中计算棋盘格边长与相应的边在图像中像素个数的对应值,完成坐标系的建立。
4.如权利要求3所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:相机采集的图像在边缘部分的直线可能会畸变成为曲线;径向畸变数学模型为:
式中,k1、k2、k3表示各阶次径向畸变系数;(x,y)是理想的无畸变的坐标(图像坐标系);(xdr,ydr)是畸变后图像像素点的坐标;r表示目标坐标与原点之间的距离,即r2=x2+y2;
切向畸变数学模型为:
式中p1,p2表示各阶次切向畸变系数;r表示目标坐标与原点之间的距离,即r2=x2+y2;
合并:
最终可以得到5个畸变参数k1、k2、k3、p1,p2,通过对工业相机内参数与畸变参数进行标定,对采集的图像进行畸变校正处理即可得到校正后的图像。
6.如权利要求5所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:YOLOv5目标检测模型先通过K近邻(KNN)聚类得到anchor框,随后通过目标框回归预测精确目标框,yolov5采用如下公式:
bx=2σ(tx)-0.5+cx
by=2σ(ty)-0.5+cy
bw=pw(2σ(tw))2
bh=ph(2σ(th))2
其中,tx、ty、tw、th均为反向传播过程中需要迭代的参数,为sigmoid激活函数,bx、by分别为预测框的中心x、y坐标,cx和cy分别为单个网格的长度和宽度。bw、bh为预测框的宽度和长度,bw、ph分别为聚类得到的anchor框的宽度和长度;
YOLOv5的损失函数(L)是置信度损失(Lconf)、分类损失(Lcla)、边界框损失(Lloc)三部分的加权和:
L(o,c,O,C,l,g)=λ1Lconf(o,c)+λ2Lcla(O,C)+λ3Lloc(l,g)
置信度损失和分类损失通过二元交叉熵定义,公式如下:
边界框损失通过CIOU计算,公式如下:
其中,IOU为预测框与真值(ground truth)的交并比,b和bgt分别为预测框的中心点坐标和ground truth边界框的中心点坐标。wgt和hgt是ground truth边界框的宽度和高度,w和h代表预测得到的边界框的宽度和高度,v是纵横比一致性参数(consistency of aspectratio),α是平衡参数,表达式分别如下:
训练过程中,图像被送入改进的YOLOv5网络模型之后,先进行KNN聚类预处理,随后在主干网络进行特征提取,最后在头部分三个尺度进行预测,预测结果经损失函数计算,返回梯度,更新网络权重;预测过程中,图象先进行KNN聚类预处理,在头部分为三个尺度,最后送入主干网络进行多尺度的坐标与种类的预测。
7.如权利要求6所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:光谱信息传输至PCA与SVM模型前进行前处理,采用S-G滤波进行平滑(窗口数为7,多项式阶数为2),线性去趋势进行基线校正,标准正态变换(standard normal transformation,SNV)进行标准化;之后进行PCA数据降维,通过python函数sklearn.decomposition.PCA实现,主成分数量设置为6-8为优,具体选择依场景而定;再进行SVM类别预测,通过python函数sklearn,svm.SVC实现。
8.如权利要求7所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:对目标类别与物体类别进行耦合,将YOLOv5网络模型预测得到的类别与光谱法预测得到的类别进行联合判断,具体为谨慎的并联模式。
9.如权利要求8所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:将二维坐标与三维坐标进行耦合,以激光传感器获得的三维坐标为基准,目标识别算法获得的二维坐标主要用于验证对象的一致性。即:如果通过激光得到的三维坐标的x、y坐标与YOLOv5给出的坐标差别较大,则跳过或报错;差别不大则传输三维坐标给机械臂抓手。
10.如权利要求9所述的基于传感器耦合的机器视觉垃圾识别定位技术,其特征在于:通过UDP的以太网通信方式实现工控机与PLC的通信;通过CC-Link连接方式进行PLC与变频器之间的传输。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210730889.3A CN115294430A (zh) | 2022-06-24 | 2022-06-24 | 一种基于传感器耦合的机器视觉垃圾识别定位技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210730889.3A CN115294430A (zh) | 2022-06-24 | 2022-06-24 | 一种基于传感器耦合的机器视觉垃圾识别定位技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294430A true CN115294430A (zh) | 2022-11-04 |
Family
ID=83820802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210730889.3A Pending CN115294430A (zh) | 2022-06-24 | 2022-06-24 | 一种基于传感器耦合的机器视觉垃圾识别定位技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294430A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523502A (zh) * | 2024-01-08 | 2024-02-06 | 东莞市杰瑞智能科技有限公司 | 基于机器视觉的城市道路垃圾智能监测系统 |
-
2022
- 2022-06-24 CN CN202210730889.3A patent/CN115294430A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523502A (zh) * | 2024-01-08 | 2024-02-06 | 东莞市杰瑞智能科技有限公司 | 基于机器视觉的城市道路垃圾智能监测系统 |
CN117523502B (zh) * | 2024-01-08 | 2024-03-19 | 东莞市杰瑞智能科技有限公司 | 基于机器视觉的城市道路垃圾智能监测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462120B (zh) | 一种基于语义分割模型缺陷检测方法、装置、介质及设备 | |
CN108229561B (zh) | 一种基于深度学习的颗粒产品缺陷检测方法 | |
CN111402226A (zh) | 一种基于级联卷积神经网络的表面疵点检测方法 | |
CN103424409B (zh) | 一种基于dsp的视觉检测系统 | |
CN101770582B (zh) | 图像匹配系统及方法 | |
CN111062915A (zh) | 一种基于改进YOLOv3模型的实时钢管缺陷检测方法 | |
CN114897816B (zh) | 基于改进掩膜的Mask R-CNN矿物颗粒识别以及粒度检测方法 | |
EP0363828A2 (en) | Method and apparatus for adaptive learning type general purpose image measurement and recognition | |
CN113608378B (zh) | 一种基于lcd制程的全自动缺陷检测方法和系统 | |
CN115147363A (zh) | 一种基于深度学习算法的影像缺陷检测和分类方法及系统 | |
CN115830004A (zh) | 表面缺陷检测方法、装置、计算机设备和存储介质 | |
CN115775236A (zh) | 基于多尺度特征融合的表面微小缺陷视觉检测方法及系统 | |
CN110935646A (zh) | 基于图像识别的全自动螃蟹分级系统 | |
CN115294430A (zh) | 一种基于传感器耦合的机器视觉垃圾识别定位技术 | |
CN117095155A (zh) | 一种基于改进的yolo自适应注意力-特征增强网络的多尺度数码管检测方法 | |
CN115294033A (zh) | 一种基于语义分割网络的轮胎带束层差级和错边缺陷检测方法 | |
CN116559111A (zh) | 一种基于高光谱成像技术的高粱品种识别方法 | |
CN109448040A (zh) | 一种机械生产制造展示辅助系统 | |
CN113706496B (zh) | 一种基于深度学习模型的飞行器结构裂纹检测方法 | |
CN117910073A (zh) | 基于3d打印技术的工艺品包装设计优化系统及方法 | |
CN118130477A (zh) | 一种基于视觉识别的压铸合金工件缺陷检测方法及系统 | |
CN117078608B (zh) | 一种基于双掩码引导的高反光皮革表面缺陷检测方法 | |
CN116579955B (zh) | 一种新能源电芯焊缝反光点去噪和点云补全方法及系统 | |
CN116843615B (zh) | 一种基于柔性光路的引线框架智能全检方法 | |
CN114065798A (zh) | 基于机器识别的视觉识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |