CN115100136B - 基于YOLOv4-tiny模型的工件类别与位姿估计方法 - Google Patents
基于YOLOv4-tiny模型的工件类别与位姿估计方法 Download PDFInfo
- Publication number
- CN115100136B CN115100136B CN202210697551.2A CN202210697551A CN115100136B CN 115100136 B CN115100136 B CN 115100136B CN 202210697551 A CN202210697551 A CN 202210697551A CN 115100136 B CN115100136 B CN 115100136B
- Authority
- CN
- China
- Prior art keywords
- yolov
- workpiece
- model
- convolution
- bounding box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000001514 detection method Methods 0.000 claims abstract description 48
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000013434 data augmentation Methods 0.000 claims abstract description 9
- 238000012805 post-processing Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 52
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 abstract description 2
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000009776 industrial production Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 239000002184 metal Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于YOLOv4‑tiny模型的工件类别与位姿估计方法,包括以下步骤:S1、对YOLOv4‑tiny模型的特征提取网络进行轻量化,特征提取网络对输入图像进行特征提取并输出不同尺度的特征图;S2、设置多组不同宽高和旋转角度的锚框,并分派到不同尺度的特征图上,根据模型输出的预测结果生成相应的预测框;S3、采集目标工件的图像数据,使用旋转边界框对目标工件的类别和位姿进行标注,通过数据增广预处理后获得数据集;S4、利用数据集对YOLOv4‑tiny模型进行迭代训练,训练至损失函数不再下降,获取检测工件的最优YOLOv4‑tiny模型;S5、利用最优YOLOv4‑tiny模型执行在线网络推理,对模型的预测结果进行后处理,预测目标工件的类别、位置和姿态。本发明能实现高效的工件视觉分类和位姿估计。
Description
技术领域
本发明属于图像目标检测领域,具体地说,涉及一种基于YOLOv4-tiny模型的工件类别与位姿估计方法。
背景技术
分拣作业是工业生产的重要组成部分,随着自动化水平的提高,工业机器人逐渐替代传统人力投入到工件分拣流水线中,机器人抓取工件时,除了要计算工件相对于机器人本体的位置坐标,还需要计算工件在水平内的方位角,因此准确的工件位姿估计是机器人成功抓取的先决条件。为了提高机器人对环境的适应性,实现智能化生产,基于图像特征匹配的机器视觉技术被应用于分拣系统以完成对工件的识别、定位和姿态估计。
机器视觉一般包含图像预处理、特征提取、特征匹配等部分,其中特征提取是目标检测的关键,常用的特征包括轮廓特征、颜色特征和形状特征。然而机器视觉检测方法都依赖于良好特征提取和模板匹配数据,同时对检测背景和光照环境有严格的要求,然而工业生产环境较为复杂,油污、碎屑和金属工件亮面反射、阴影等不良因素会影响工件外在特征的提取,因此基于特征匹配的机器视觉检测方法无法获得准确的目标工件位姿信息,检测精度较低。此外,传统机器视觉方法需要手工选取特征,不仅费时费力,且需要依靠经验和专业知识。
卷积神经网络可以通过训练数据学习到具有更好泛化能力的内在特征,其浅层网络提取图像目标的轮廓、颜色、纹理等外在特征,然后深层网络将简单的外在特征进行进一步的组合并生成描述目标的抽象信息,从而完成推理、预测和识别等任务。由于基于卷积神经网络的目标检测方法着重于抽象特征且能根据数据样本自动学习目标特征,因此即使在复杂的工业分拣环境中也能获得良好的检测鲁棒性和稳定性。
随着卷积神经网络的快速发展,许多高性能的通用目标检测器已经被提出,根据是否生成候选框可分为单阶段检测器和双阶段检测器,其中R-CNN系列等双阶段目标检测器首先回归前景所在的区域范围,然后再提取相应范围内的特征进行分类,能获得较高的准确率;YOLO和SSD系列等单阶段目标检测则直接提取特征同时完成目标分类和边界框回归,可以在不牺牲太多精度的前提下提高检测速度,但这些通用目标检测器都只能实现水平边界框检测,无法获取目标的姿态信息以帮助机器人完成工件抓取,此外,标准卷积神经网络需要消耗较多的计算资源,对硬件设备要求较高,无法保证工件视觉检测的实时性,且增加了部署成本。
当前旋转目标检测的主要应用于场景文本检测和航空遥感检测,如TextBox++和R3Det检测器,但场景文本检测器适用于大长宽比目标,且具有单一类别的局限性,而航空遥感检测器则常用于遥感图像中密集且杂乱的小目标,因此其网络结构更复杂,容易产生速度瓶颈。因此这两类旋转目标检测器都不适用于工业生产中的工件检测,难以获得良好的检测效果并保证检测的实时性。
发明内容
本发明的目的在于解决现有技术复杂工业环境下检测鲁棒性低的问题和卷积神经网络计算消耗大的问题,提供一种基于YOLOv4-tiny模型的工件类别与位姿估计方法,实现高效的工件视觉分类和位姿估计,以帮助机器人完成工件的抓取和分拣。
为了实现上述目的,本发明所采用的技术方案如下:
一种基于YOLOv4-tiny模型的工件类别与位姿估计方法,包括以下步骤:
S1、对YOLOv4-tiny模型的特征提取网络进行轻量化,特征提取网络对输入图像进行特征提取并输出不同尺度的特征图;
S2、设置多组不同宽高和旋转角度的锚框,并分派到不同尺度的特征图上,根据模型输出的预测结果生成相应的预测框;
S3、采集目标工件的图像数据,使用旋转边界框对目标工件的类别和位姿进行标注,通过数据增广预处理后获得数据集;
S4、利用数据集对YOLOv4-tiny模型进行迭代训练,训练至损失函数不再下降,获取检测工件的最优YOLOv4-tiny模型;
S5、利用最优YOLOv4-tiny模型执行在线网络推理,对模型的预测结果进行后处理,预测目标工件的类别、位置和姿态。
优选地,步骤S1中,使用可分离幻影卷积模块对YOLOv4-tiny模型的特征提取网络进行轻量化,可分离幻影卷积模块包括逆深度可分离卷积和通道卷积线性运算,逆深度可分离卷积用于生成固有特征图,通道卷积线性运算用于生成幻影特征图;逆深度可分离卷积可分解为点卷积和深度卷积,点卷积用于处理输入特征图的通道信息,深度卷积用于处理输入特征图的空间信息。
优选地,使用可分离幻影卷积替换标准卷积时,计算量的压缩比为:
其中,ci为输入通道数,co为输出通道数,wi为输入特征图的宽,hi为输入特征图的高,wo为输出特征图的宽,ho为输出特征图的高,s为压缩比参数,d为通道卷积线性运算的核尺寸大小,k为原标准卷积的核尺寸大小,d≈k且s<<ci,ci>>1。
优选地,步骤S2中,设置6组不同宽高的锚框,并为每组锚框设置6组不同的旋转角度,然后将各组锚框分派到不同尺度的输出特征图,分别回归大目标和小目标。
优选地,步骤S3中,使用长边表示法对采集的目标工件图像数据进行参数标注,具体方式为:使用参数集{x,y,w,h,θ,cls}来表示旋转边界框,其中,x和y表示边界框中心点的坐标,w表示边界框的宽,h表示边界框的高,宽指长边,高指短边,θ是长边与X轴正向的夹角,逆时针方向为正,顺时针方向为负,cls为工件类别。
优选地,步骤S3中,制作数据集时使用数据增广的方式对原始数据集进行扩充,具体为:对采集的目标工件图像使用随机缩放、旋转和平移的数据增广方法,并对标签数据作相应的变换,然后为图像数据添加随机高斯噪音,利用黑色像素将图像数据填充为正方形,再按网络输入要求调整图像大小,最后以4:1的比例将扩充后的数据集划分为训练集和测试集。
优选地,步骤S4中,在YOLOv4-tiny模型训练阶段,计算旋转预测框与旋转真实框的交并比skewIoU,并根据交并比和角度差大小区分预测框为前景或者背景。
优选地,步骤S4中,损失函数L由分类损失函数Lcls、置信度损失函数Lconf和回归损失函数Lreg组成,计算公式分别如下:
L=Lcls+Lconf+Lreg
其中,N是锚框的总数,Nobj是前景锚框的数量,Nnoobj是背景锚框的数量,和是二元值;当锚框n为前景时,/>等于1,当锚框n为背景时,/>等于0,/>则相反;λ1,λ2,λ3,λ4是权衡各类损失的超参数,pn为类别的真实值,rn为置信度的真实值,qn是经过Sigmoid函数归一化到(0,1)的各分类概率的预测值,tn是经过Sigmoid函数归一化到(0,1)的置信度的预测值,un是真实边界框,vn是预测边界框,/>是传统旋转边界框的回归损失函数,/>是基于ArIoU的常数因子,/>决定了梯度传播的方向,|LArIoU|决定了梯度传播的大小。
优选地,传统旋转边界框的回归损失函数的计算公式如下:
其中,un是真实边界框,vn是预测边界框,是真实水平边界框,/>是预测水平边界框;
包括/>损失函数和CIoU损失函数,/>损失函数和CIoU损失函数分别为:
其中,α是权重函数,υ表示预测框和真实框长宽比的相似性,wg,hg是预测框的宽和高,wp,hp是真实框的宽和高。
优选地,步骤S5中,使用基于SkewIoU的旋转非极大值抑制对最优YOLOv4-tiny模型的预测结果进行后处理。
与现有技术相比,本发明具有以下优点和有益效果:
1、检测鲁棒性高。基于卷积神经网络构建了旋转目标检测器,可以通过训练数据学习具有泛化能力的内在特征,从而实现工件的分类和位姿估计,能有效克服工业生产环境中的油污、碎屑和金属工件的亮面反射、阴影等不良因素,具有良好的检测鲁棒性。
2、参数量和计算量小。根据特征信息的可分离性和卷积层特征图的相关性构建了高效可分离幻影卷积模块,并代替标准卷积构建YOLOv4-tiny模型的特征提取网络,从而实现模型轻量化,极大地减少了模型的参数量与计算量,提高了检测速度,降低了部署成本。
3、实现旋目标检测。使用旋转锚框,使YOLOv4-tiny模型能够回归旋转边界框,获得目标的位姿信息,并在回归损失函数中引入了基于ArIoU的常数因子,可分角度检测的边界问题,提高了旋转检测精度。
附图说明
图1为实施例中自定义数据集所使用的四种工件。
图2为实施例中基于YOLOv4-tiny模型的工件类别与位姿估计方法的流程图。
图3为实施例中旋转边界框参数表示法的示意图。
图4为实施例中可分离幻影卷积模块的示意图。
图5为实施例中构建最优YOLOv4-tiny模型的结构示意图。
图6为实施例中自定义数据集下的目标工件检测效果图。
具体实施方式
下面结合附图和具体实施例对本发明基于YOLOv4-tiny模型的工件类别与位姿估计方法作进一步说明。
如图1所示,本发明公开了一种基于YOLOv4-tiny模型的工件类别与位姿估计方法,包括以下步骤:
S1、对YOLOv4-tiny模型的特征提取网络进行轻量化,特征提取网络对输入图像进行特征提取并输出不同尺度的特征图。
S2、设置多组不同宽高和旋转角度的锚框,并分派到不同尺度的特征图上,根据模型输出的预测结果生成相应的预测框。
S3、采集目标工件的图像数据,使用旋转边界框对目标工件的类别和位姿进行标注,通过数据增广预处理后获得数据集。
S4、利用数据集对YOLOv4-tiny模型进行迭代训练,训练至损失函数不再下降,获取检测工件的最优YOLOv4-tiny模型。
S5、利用最优YOLOv4-tiny模型执行在线网络推理,对模型的预测结果进行后处理,预测目标工件的类别、位置和姿态。
具体地,如图2所示,本实施例使用四种类矩形工件建立一个自定义数据集用于模型训练与测试。
步骤S1中,使用可分离幻影卷积模块轻量化YOLOv4-tiny模型的特征提取网络。
给定输入数据其中,ci为输入通道数,wi为输入特征图的宽,hi为输入特征图的高。期望获得输出数据/>其中,co为输出通道数,wo为输出特征图的宽,ho为输出特征图的高。则任意卷积层产生期望数据Y的操作可表示为:
Y=f*X+b
其中,*是卷积操作,b是偏置项,是卷积层的滤波器,卷积层的核尺寸为k×k,则完成该卷积操作所需要的浮点运算数为:
ho·wo·k2·ci·co
其中,ci为输入通道数,co为输出通道数,wo为输出特征图的宽,ho为输出特征图的高,k为原标准卷积的核尺寸大小。由于卷积神经网络的特征图的输入通道数ci和输出通道数co都很大(如256或512),故完成标准卷积操作需要进行大量的浮点运算。
基于卷积层特征图的相关性和特征信息的可分离性,本发明构建了全新的可分离幻影卷积模块(Separable Ghost module),其结构如图4所示。可分离幻影卷积模块由逆深度可分离卷积和通道卷积线性运算两部分组成,其中逆深度可分离卷积用于生成固有特征图逆深度可分离卷积具体可分解为一个点卷积和一个深度卷积,其中点卷积融和特征图各通道间的信息并将通道数压缩至co/s,深度卷积处理特征图的空间信息并将特征图尺寸调整为wo×ho,即期望输出特征图的尺寸大小。然后使用线性运算Φn,j(n=1,…,s-1,j=1,…,co/s)来生成多组幻影特征图Yn(n=1,…s-1),并将所有幻影特征图和固有特征图相连接得到[Y0,Y1,…Ys-1]作为输出。各卷积层之后都添加了BN层和负轴斜率为0.1的LeakyRelU激活层,以有效避免了梯度弥散问题和神经元失活问题。
由于YOLOv4-tiny的特征提取网络使用池化操作实现特征图的下采样,所以各卷积层的输入特征图和输出特征图尺寸相同,即hi=ho,wi=wo,若使用逆深度可分离卷积替换标准卷积,则计算量的压缩比为:
其中,ci为输入通道数,co为输出通道数,wi为输入特征图的宽,hi为输入特征图的高,wo为输出特征图的宽,ho为输出特征图的高,k为原标准卷积的核尺寸大小,ci>>1。
在可分离幻影卷积中,共有个线性运算,为了保证网络结构的统一性,本实施例的线性运算可使用通道卷积来实现,理论上通道卷积的核尺寸和参数可以各不相同,但是这样容易阻塞在线推理时的检测速度,因此对于同一个幻影卷积模块中的线性运算,其卷积核大小统一设置为d×d。此外,实际上深度卷积为输入通道数和输出通道数均为1的标准卷积,而点卷积为核大小为1×1的标准卷积。故当使用可分离幻影卷积替换标准卷积时,计算量的压缩比为:
其中,ci为输入通道数,co为输出通道数,wi为输入特征图的宽,hi为输入特征图的高,wo为输出特征图的宽,ho为输出特征图的高,s为压缩比参数,d为通道卷积线性运算的核尺寸大小,k为原标准卷积的核尺寸大小,d≈k且s<<ci。
在使用可分离幻影卷积构建YOLOv4-tiny模型的特征提取网络时,参数k与原标准卷积一致,不做调整,而压缩比参数s与最终网络模型的计算量直接相关,当压缩比参数s越大时,所得网络模型的计算量越小,但是网络的检测精度也会随之降低。因此本实施例设置压缩比s=2,在确保检测精度的前提下提高检测效率。此外,设置线性运算的卷积核大小d=3,这是因为1×1的卷积核无法提取空间特征信息,而5×5和7×7的卷积核容易导致过拟合,且需要更多的计算。最终构建的YOLOv4-tiny改进模型如图5所示。
步骤S2中,设置多组不同宽高和旋转角度的锚框。
由于本实施例设置的输入图像大小为416×416pixel,故会输出13×13和26×26两种尺寸的特征图。为了回归不同大小的目标,总共设计了六组不同宽和高的锚框,分别是[14,10]、[27,23]、[58,37]、[82,81]、[169,135]和[344,319],前三组用于26×26尺寸的输出特征图并检测小目标,后三组用于13×13尺寸的输出特征图并检测大目标。同时,为了回归不同旋转角度的目标,总共设计了六组不同的初始旋转角度,分别为[-π/3,-π/6,0,π/6,π/3,π/2]。因此,总共有(26×26+13×13)×3×6=15210个锚框用于检测。当有m类目标待检测时,网络模型会为每个锚框输出6+m个参数,即(conf,tw,th,tx,ty,tθ,cls1,…clsm),其中conf是置信度,tw是长边调整参数,th是短边调整参数,tx和ty是中心点坐标的调整参数,tθ是旋转角度的调整参数,clsi(i=1,…,m)是第i分类的概率,本实例中m=4。可以根据网络模型预测的参数得到锚框相应的预测框,具体转换方法如下:
其中,xp,yp,wp,hp,θp是预测框的参数,wa,ha,θa是锚框参数,cx,cy是锚框中心点所在网格的左上角相对于图像左上角的坐标偏置,σ(·)是Sigmoid函数,即:
在模型训练阶段,计算旋转预测框与旋转真实框的交并比skewIoU,其中预测框满足skewIoU≥0.6或者skewIoU≥0.4且|θa-θg|<π/12的被认为是包含物体的前景,否则是不包含任何物体的背景。
步骤S3中,构建自定义的工件数据集。
将各类工件以任意旋转角度和方位随机水平放置在分拣台上,然后在工件正上方使用彩色工业相机拍摄清晰图像,为了通过监督学习完成模型训练,使用roLabelImg软件为采集的工件图像制作标签数据,正确标记图像中工件的类别和真实旋转边界框,标签数据的储存格式为{x,y,w,h,θ,cls},如图3所示,x和y表示边界框中心点的坐标,w表示边界框的宽,h表示边界框的高,注意,这里宽是指长边,而高是指短边,θ是长边与X轴正向的夹角,取值范围为(-π/2,π/2],且规定逆时针方向为正,顺时针方向为负,cls为工件类别。
由于工件摆放的位置和姿态是随机的,同时相机摄像图像的视场大小是可变的,为了保证样本的多样性,使用随机缩放、旋转和平移的数据增广方法,并对标签数据作相应的变换。另外,为了减少外部环境和摄像机硬件差异造成的影响,为图像数据添加随机高斯噪音。最后,为了满足网络模型的输入要求,先利用黑色像素将图像数据填充为正方形,再将图像大小调整为416×416pixel。最终共获得10000个数据样本,每类工件2500个,将它们按4:1的比例随机分配给训练集和测试集。
步骤S4中,损失函数计算与网络模型训练。
目标检测的损失函数L由分类损失函数Lcls、置信度损失函数Lconf和回归损失函数Lreg三部分组成,构建目标检测模型的损失函数L的计算公式如下:
L=Lcls+Lconf+Lreg
其中,N是锚框的总数,Nobj是前景锚框的数量,Nnoobj是背景锚框的数量;和/>是二元值,当锚框n为前景时,/>等于1,当锚框n为背景时,/>等于0,/>则相反;λ1,λ2,λ3,λ4是权衡各类损失的超参数,λ1,λ2,λ3,λ4默认设置为1。
分类损失和置信度损失是通过二元交叉熵计算公式获得的,pn为类别的真实值,rn为置信度的真实值,qn是经过Sigmoid函数归一化到(0,1)的各分类概率的预测值,tn是经过Sigmoid函数归一化到(0,1)的置信度的预测值。
回归损失函数Lreg中引入了基于ArIoU的常数因子决定了梯度传播的方向,|LArIoU|决定了梯度传播的大小,/>是传统旋转边界框的回归损失函数,即:
其中,un是真实边界框,vn是预测边界框,是真实水平边界框,/>是预测水平边界框,即/>
主要由/>损失函数和CIoU损失函数两部分组成,/>损失函数和CIoU损失函数定义分别如下:
其中,α是权重函数,υ表示预测框和真实框长宽比的相似性,wg,hg是预测框的宽和高,wp,hp是真实框的宽和高。损失函数具有良好的鲁棒性和稳定性,而CIoU损失函数同时考虑了预测框和真实框的重叠率、中心点距离和长宽比,因此可以获得良好的回归精度。
在回归损失函数计算中引入了基于ArIoU的常数因子|LArIoU|/|Lreg|,|·|为向量的求模运算,运算结果不参与梯度的反向传播,ArIoU是任意两旋转边界框A和B的交并比的近似值,其考虑了角度差对交并比的影响,具体定义和损失函数如下:
LArIoU(A,B)=exp[1-ArIoU(A,B)]-1
其中,是旋转边界框A的水平边界框,/>是旋转边界框B的水平边界框,当两旋转边界框的角度差减小时,ArIoU单调递减。实际上回归损失函数可分为/>和|LArIoU|两部分,前者决定了梯度传播的方向,后者决定了梯度传播的大小。在角度检测的边界情况下,|LArIoU|≈0,因此回归损失不会突然增加,与线性函数相比,幂运算的导数与ArIoU相关,因此可以更加关注困难样本的训练,获得更高的网络提升。
在所构建的工件数据集进行训练,本实施例中采用的训练策略及参数设置如下:网络的权重参数使用Xavier方法进行初始化,设置初始学习率为0.001,batch size设置为64,weight decay设置为5e-4,总共训练60epochs,每训练完一个epochs都遵循余弦退火策略调节学习率,最小学习率设置为1e-5,在梯度的反向传播和参数更新过程中,使用Adam自适应动量估计法的优化策略获取网络参数的最优值。
步骤S5中,网络模型在线推理实现工件检测。
训练收敛先快后慢,随迭代次数的增加,网络模型的损失值逐渐趋于稳定,当损失值大小接近于0,说明网络模型获得最优权重参数,已完成训练。使用训练好的网络模型执行在线推理以检测工作台上的工件,在检测头部分使用了单阶段的YOLO目标检测算法,根据提取所得的特征信息直接预测目标工件的类别,并回归旋转边界框以实现工件的定位和姿态估计,最后使用基于skewIoU的旋转非极大值抑制R-NMS进行后处理,从而高效去除冗余的预测边界框。获得的检测效果如图6所示。
综上所述,本发明具有以下优点和有益效果:
1、检测鲁棒性高。基于卷积神经网络构建了旋转目标检测器,可以通过训练数据学习具有泛化能力的内在特征,从而实现工件的分类和位姿估计,能有效克服工业生产环境中的油污、碎屑和金属工件的亮面反射、阴影等不良因素,具有良好的检测鲁棒性。
2、参数量和计算量小。根据特征信息的可分离性和卷积层特征图的相关性构建了高效可分离幻影卷积模块,并代替标准卷积构建YOLOv4-tiny模型的特征提取网络,从而实现模型轻量化,极大地减少了模型的参数量与计算量,提高了检测速度,降低了部署成本。
3、实现旋目标检测。使用旋转锚框,使YOLOv4-tiny模型能够回归旋转边界框,获得目标的位姿信息,并在回归损失函数中引入了基于ArIoU的常数因子,可分角度检测的边界问题,提高了旋转检测精度。
上述说明是针对本发明较佳可行实施例的详细说明,但实施例并非用以限定本发明的专利申请范围,凡本发明所揭示的技术精神下所完成的同等变化或修饰变更,均应属于本发明所涵盖专利范围。
Claims (8)
1.一种基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,包括以下步骤:
S1、对YOLOv4-tiny模型的特征提取网络进行轻量化,特征提取网络对输入图像进行特征提取并输出不同尺度的特征图;
S2、设置多组不同宽高和旋转角度的锚框,并分派到不同尺度的特征图上,根据模型输出的预测结果生成相应的预测框;
S3、采集目标工件的图像数据,使用旋转边界框对目标工件的类别和位姿进行标注,通过数据增广预处理后获得数据集;
S4、利用数据集对YOLOv4-tiny模型进行迭代训练,训练至损失函数不再下降,获取检测工件的最优YOLOv4-tiny模型;
S5、利用最优YOLOv4-tiny模型执行在线网络推理,对模型的预测结果进行后处理,预测目标工件的类别、位置和姿态;
使用可分离幻影卷积模块对YOLOv4-tiny模型的特征提取网络进行轻量化,可分离幻影卷积模块包括逆深度可分离卷积和通道卷积线性运算,逆深度可分离卷积用于生成固有特征图,通道卷积线性运算用于生成幻影特征图;逆深度可分离卷积可分解为点卷积和深度卷积,点卷积用于处理输入特征图的通道信息,深度卷积用于处理输入特征图的空间信息;
使用可分离幻影卷积替换标准卷积时,计算量的压缩比为:
其中,ci为输入通道数,co为输出通道数,wi为输入特征图的宽,hi为输入特征图的高,wo为输出特征图的宽,ho为输出特征图的高,s为压缩比参数,d为通道卷积线性运算的核尺寸大小,k为原标准卷积的核尺寸大小,d≈k且s<<ci,ci>>1。
2.如权利要求1所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,步骤S2中,设置6组不同宽高的锚框,并为每组锚框设置6组不同的旋转角度,然后将各组锚框分派到不同尺度的输出特征图,分别回归大目标和小目标。
3.如权利要求1所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,步骤S3中,使用长边表示法对采集的目标工件图像数据进行参数标注,具体方式为:使用参数集{x,y,w,h,θ,cls}来表示旋转边界框,其中,x和y表示边界框中心点的坐标,w表示边界框的宽,h表示边界框的高,宽指长边,高指短边,θ是长边与X轴正向的夹角,逆时针方向为正,顺时针方向为负,cls为工件类别。
4.如权利要求1所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,步骤S3中,制作数据集时使用数据增广的方式对原始数据集进行扩充,具体为:
对采集的目标工件图像使用随机缩放、旋转和平移的数据增广方法,并对标签数据作相应的变换,然后为图像数据添加随机高斯噪音,利用黑色像素将图像数据填充为正方形,再按网络输入要求调整图像大小,最后以4:1的比例将扩充后的数据集划分为训练集和测试集。
5.如权利要求1所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,步骤S4中,在YOLOv4-tiny模型训练阶段,计算旋转预测框与旋转真实框的交并比skewIoU,并根据交并比和角度差大小区分预测框为前景或者背景。
6.如权利要求5所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,步骤S4中,损失函数L由分类损失函数Lcls、置信度损失函数Lconf和回归损失函数Lreg组成,计算公式分别如下:
L=Lcls+Lconf+Lreg
其中,N是锚框的总数,Nobj是前景锚框的数量,Nnoobj是背景锚框的数量,和/>是二元值;当锚框n为前景时,/>等于1,当锚框n为背景时,/>等于0,/>则相反;λ1,λ2,λ3,λ4是权衡各类损失的超参数,pn为类别的真实值,rn为置信度的真实值,qn是经过Sigmoid函数归一化到(0,1)的各分类概率的预测值,tn是经过Sigmoid函数归一化到(0,1)的置信度的预测值,un是真实边界框,vn是预测边界框,/>是传统旋转边界框的回归损失函数,是基于ArIoU的常数因子,/>决定了梯度传播的方向,|LArIoU|决定了梯度传播的大小。
7.如权利要求6所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,传统旋转边界框的回归损失函数的计算公式如下:
其中,un是真实边界框,vn是预测边界框,是真实水平边界框,/>是预测水平边界框;
包括/>损失函数和CIoU损失函数,/>损失函数和CIoU损失函数分别为:
其中,α是权重函数,υ表示预测框和真实框长宽比的相似性,wg,hg是预测框的宽和高,wp,hp是真实框的宽和高。
8.如权利要求1所述的基于YOLOv4-tiny模型的工件类别与位姿估计方法,其特征在于,步骤S5中,使用基于SkewIoU的旋转非极大值抑制对最优YOLOv4-tiny模型的预测结果进行后处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697551.2A CN115100136B (zh) | 2022-06-20 | 2022-06-20 | 基于YOLOv4-tiny模型的工件类别与位姿估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210697551.2A CN115100136B (zh) | 2022-06-20 | 2022-06-20 | 基于YOLOv4-tiny模型的工件类别与位姿估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115100136A CN115100136A (zh) | 2022-09-23 |
CN115100136B true CN115100136B (zh) | 2024-05-28 |
Family
ID=83290870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210697551.2A Active CN115100136B (zh) | 2022-06-20 | 2022-06-20 | 基于YOLOv4-tiny模型的工件类别与位姿估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115100136B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117611966B (zh) * | 2023-10-31 | 2024-10-11 | 仲恺农业工程学院 | 基于YOLOv7旋转框的香蕉识别与位姿估计方法 |
CN118322216B (zh) * | 2024-05-31 | 2024-09-17 | 山东鸿泽自动化技术有限公司 | 一种基于深度学习的机器人夹手自适应控制方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930387A (zh) * | 2019-11-21 | 2020-03-27 | 中原工学院 | 基于深度可分离卷积神经网络的织物疵点检测方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114419583A (zh) * | 2022-01-05 | 2022-04-29 | 西安电子科技大学 | 一种大尺度特征的YOLOv4-tiny目标检测算法 |
-
2022
- 2022-06-20 CN CN202210697551.2A patent/CN115100136B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930387A (zh) * | 2019-11-21 | 2020-03-27 | 中原工学院 | 基于深度可分离卷积神经网络的织物疵点检测方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
CN114419583A (zh) * | 2022-01-05 | 2022-04-29 | 西安电子科技大学 | 一种大尺度特征的YOLOv4-tiny目标检测算法 |
Also Published As
Publication number | Publication date |
---|---|
CN115100136A (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021244079A1 (zh) | 智能家居环境中图像目标检测方法 | |
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
Adarsh et al. | YOLO v3-Tiny: Object Detection and Recognition using one stage improved model | |
CN110930454B (zh) | 一种基于边界框外关键点定位的六自由度位姿估计算法 | |
CN115100136B (zh) | 基于YOLOv4-tiny模型的工件类别与位姿估计方法 | |
CN110532920B (zh) | 基于FaceNet方法的小数量数据集人脸识别方法 | |
CN111179217A (zh) | 一种基于注意力机制的遥感图像多尺度目标检测方法 | |
Golovko et al. | Convolutional neural network based solar photovoltaic panel detection in satellite photos | |
CN108427924A (zh) | 一种基于旋转敏感特征的文本回归检测方法 | |
CN112966659B (zh) | 一种基于深度学习的视频图像小目标检测方法 | |
CN108764244B (zh) | 基于卷积神经网络和条件随机场的潜在目标区域检测方法 | |
CN110334584B (zh) | 一种基于区域全卷积网络的手势识别方法 | |
CN111368637B (zh) | 一种基于多掩模卷积神经网络的搬运机器人识别目标方法 | |
CN112464743B (zh) | 一种基于多尺度特征加权的小样本目标检测方法 | |
CN114549507B (zh) | 改进Scaled-YOLOv4的织物瑕疵检测方法 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN114757904A (zh) | 一种基于ai深度学习算法的表面缺陷检测方法 | |
CN117079098A (zh) | 一种基于位置编码的空间小目标检测方法 | |
CN116543217A (zh) | 一种结构相似的小目标分类识别与位姿估计方法 | |
Kabir et al. | An evolution of CNN object classifiers on low-resolution images | |
Kuppusamy et al. | Enriching the multi-object detection using convolutional neural network in macro-image | |
Dai et al. | Towards extreme learning machine framework for lane detection on unmanned mobile robot | |
CN117934970A (zh) | 一种基于局部特征和位置注意力的图像分类器优化方法 | |
Rao et al. | Roads detection of aerial image with FCN-CRF model | |
Adhitya et al. | Applied Haar Cascade and Convolution Neural Network for Detecting Defects in The PCB Pathway |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |