CN110866476A

CN110866476A - 一种基于自动标注和迁移学习的密集堆垛目标检测方法

Info

Publication number: CN110866476A
Application number: CN201911074733.9A
Authority: CN
Inventors: 郁云
Original assignee: Nanjing College of Information Technology
Current assignee: Nanjing College of Information Technology
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-03-06
Anticipated expiration: 2039-11-06
Also published as: CN110866476B

Abstract

一种基于自动标注和迁移学习的密集堆垛目标检测方法，由高分辨率图像分割建立已标注的训练图像集；然后将已标注的训练图像集输入已预训练的目标检测模型YOLOv3，优化YOLOv3模型的先验框尺寸和损失函数，利用训练图像集对模型进行精调；最后将待检测图像输入精调后的YOLOv3模型，输出目标子区域的分类和子区域位置，再将输出结果图拼接恢复成原始图像，并统计总计数结果。本发明方法具有很强的抗干扰性和鲁棒性，对图像拍摄者和拍摄光照条件的要求较低；通过无监督学习方法，实现了图像的准自动标注，极大降低了人工标注的工作量，提高了模型训练效率；能用于包含大量相互遮挡的密集堆垛目标的图像识别，适合各种密集堆垛目标自动计数的场景。

Description

一种基于自动标注和迁移学习的密集堆垛目标检测方法

技术领域

本发明属于机器视觉技术领域，涉及目标检测方法，尤其是一种基于自动标注和迁移学习的密集堆垛目标检测方法。

背景技术

建筑行业实践中会涉及到对钢材、木材等规格化物体堆垛的计数问题。堆垛的目标对象规模通常在几百到上千根不等，整个人工计数过程耗时长、效率低、易出错。建筑用材料堆垛中的目标对象数量虽然庞大，但是由于规格化程度高，个体之间形状尺寸等差异较小，有利于研究通过机器视觉领域中的目标检测技术，对密集堆垛中的个体进行自动检测并计数。研究成果可以减轻计数工人的劳动强度，提高计数效率。

传统的基于机器视觉的目标检测方法，主要是针对特定形状物体进行形状检测，然后结合基于阈值的轮廓提取和形态学重构的图像分割实现对物体的检测定位。对于存在目标个体对象变形、目标个体间相互遮挡、以及杂乱背景等因素影响的密集堆垛目标的检测，该类方法精度急剧下降，无法满足工程应用的需要。同时，该类方法在复杂光照条件下，无法区分目标对象阴影与堆垛间隙；并且随着堆垛中待识别个体的数量增多，单个钢管所包含有效像素点变少，导致复杂背景与待识别目标之间的轮廓特征差异性降低，对子区域的阈值的设定变得困难，最终导致目标识别精度的快速下降。

通过对以上算法存在的问题以及解决方法的研究，结合工程应用的实际需求，需要研究计算结果更加精确，满足工业应用需要的新方法。基于深度卷积神经网络方法的新一代目标检测方法近年来在各个产业领域得到广泛的研究和应用，也为解决上述问题提供了新的思路。然而在应用实践中，现有的基于深度卷积神经网络的目标检测方法同样存在对输入图像的尺寸、目标个体像素存在较严格的要求，以及用于有监督学习训练的输入图像严重依赖人工标注等问题。因此为了实现利用深度学习技术对密集堆垛目标进行准确检测定位，需要解决该技术存在的上述缺陷。

发明内容

本发明要解决的技术问题是：现有的密集堆垛目标检测方法对图像质量、亮度、拍摄角度、遮挡等要求高，检测的精确性，实用性不高的问题。而基于深度学习技术的目标检测方法存在严重依赖事前人工标注的准确性，对输入图像的尺寸和像素密度有严格要求等问题，同样影响其实用性和鲁棒性。

本发明的技术方案为：一种基于自动标注和迁移学习的密集堆垛目标检测方法，是对于截面堆垛图像，将高分辨率图像分割为多个低分辨率图像，将低分辨率图像分成N个子区域，记录子区域在原图像位置，使用变分自编码器VAE模型对图像进行分类和标注，得到已标注的训练图像集；然后将已标注的训练图像集输入已预训练的目标检测模型YOLOv3，优化YOLOv3模型的先验框尺寸和损失函数，利用训练图像集对模型进行精调；最后将待检测图像输入YOLOv3模型，输出目标子区域的分类和子区域位置及数量，再将输出结果图拼接恢复成原始高分辨率图像，并统计总计数结果，完成堆垛物计数。

作为优选方式，本发明包括如下步骤：

步骤1，利用滑窗算法将高分辨率的堆垛横截面图像分割成低分辨率图像；然后将低分辨率图像分成M个R₀×R₀像素的子区域集，并记录每个子区域的中心点位置数据；利用变分自编码器模型，对每个图像的目标子区域与非目标子区域进行分类，目标子区域指堆垛物体的截面，其他为非目标子区域，最后结合子区域的中心点位置数据实现对目标子区域的自动标注；

步骤2，将已标注的训练数据集输入已经经过COCO和VOC数据集预训练的目标检测模型YOLOv3，根据训练数据集统计计算检测模型输入的先验框尺寸，优化YOLOv3模型的损失函数，然后进行模型精调；

步骤3，通过步骤1中的图像分割方法对待检测图片进行分割，将分割后的低分辨率图像输入YOLOv3模型进行目标检测，输出目标子区域的分类和子区域位置及数量，再将输出结果图拼接恢复成原始高分辨率图像，并统计总计数结果，完成密集堆垛的数量检测。

为了解决现有技术的问题，本发明提供了一种基于自动标注和迁移学习的密集堆垛目标检测方法。整个方法包括标注阶段、训练阶段和目标检测阶段。训练阶段的任务是将用于训练目标检测算法模型的图片集经过预处理后，通过变分自编码器模型实现目标物体的自动标注，构造训练图像集。训练阶段通过将已标注的训练图像集输入已经预训练的目标检测模型进行模型微调。目标检测阶段应用已训练完成的目标检测模型，输入待检测图片集，实现密集目标的自动检测。

本发明的有益效果在于：(1)采用基于变分自编码器的无监督聚类，实现了用于目标检测训练的图像集的准自动标注，极大的降低了人工标注所带来的巨大工作量，也降低了人工标注带来错误的可能性。通过先自动预标注再人工筛选的方式，可以保证标注的效率和准确度；(2)采用迁移学习的思想，基于经过互联网海量已标注数据集训练的YOLOv3预训练模型，可以充分利用预训练模型中的固定权重首先提取待检测对象稳定的底层特征，然后用自有数据集进行精调，最终实现目标分类。在充分利用现有成果极大提高模型训练效率的情况下，也消除了在提取图像底层特征时，由于训练样本不足而导致的训练偏差(bias)，提高了模型的泛化能力和鲁棒性；(3)通过引入Repulsion Loss，有效消除了密集堆垛目标由于相互遮挡导致的漏检或误检。显著提高了目标检测识别精度。

附图说明

图1为本发明的方法流程图。

具体实施方式

如图1所示，本发明提供了一种基于自动标注和迁移学习的密集堆垛目标检测方法，包括如下步骤：

步骤1，利用滑窗算法将高分辨率的堆垛横截面图像分割成低分辨率图像；然后将低分辨率图像分成M个R₀×R₀像素的子区域集，并记录每个子区域的中心点位置数据；利用变分自编码器模型，对每个图像的目标子区域(如钢管、钢材、木材的截面)与非目标子区域(如背景、空隙、阴影，非完整截面等)进行分类，最后结合子区域的中心点位置数据实现对目标子区域的自动标注。具体步骤为：

步骤1.1，利用滑窗算法将500张以上不低于2000*2000像素的高分辨率的堆垛横截面图像，按照YOLOv3对输入图片尺寸的要求，分割成N个416*416像素的低分辨率图像组成的图像集GL_i(i＝1,…N)；

步骤1.2，利用滑窗算法将GL_i中的每个图像分成M个R₀×R₀像素的子区域集GS_j(j＝1,…M)，其中R₀是人工预估的目标子区域的基准半径，主要由原始图像的分辨率和目标对象的估计数量决定，要求单个目标对象的分辨率不低于40*40像素；记录每个子区域在原图像中的位置POS_j；

步骤1.3，将GS_j作为训练集输入变分自编码器模型(VAE)，对GL_i中目标子区域GP_j与非目标子区域GN_j进行无监督聚类，我们采用式(1)作为VAE用来聚类的损失函数(loss)；

其中，x是待分类的样本数据变量，(z，y)是通过VAE模型学习提取的特征隐变量，z代表分类编码，y是一个离散值，代表类别标签。

是通过一批采样数据统计获得的样本经验分布，p(z|x)假设为满足均值为μ(x)，方差为σ²(x)的正态分布，q(x|z)为方差为常数的正态分布，q(z|y)是均值为μy方差为1的正态分布，q(y)假设为均匀分布时是一个常数。p(y|z)即为对隐变量z的分类器，可以通过训练一个softmax网络来拟合，拟合后的结果即可实现对输入图像的分类和标注。结合POS_j实现对GL_i中每个图像的自动标注，形成已标注数据集M(GP_j,POS_j)。

步骤1.4，人工对数据集M中误差较大的标注数据样本进行筛除。根据实践，可确定的筛除标准包括：1)未能覆盖70％以上目标的自动标注框占整个图片总标注的20％以上；2)整个图片存在10％以上的重复标注，即2个以上的标注框的目标对象相同；3)整个图片存在20％以上的漏标。

步骤2，将已标注的训练图像集输入已经经过COCO和VOC数据集预训练的目标检测模型YOLOv3，统计计算模型输入的先验框尺寸，优化YOLOv3模型的损失函数，然后进行模型精调。COCO和VOC数据集均为现有数据集，不再详细介绍。步骤2的具体步骤为：

步骤2.1，利用k-means算法对训练数据集M中的先验框尺寸进行聚类分析，找出最优的尺寸，作为检测模型的备选尺寸。k-means算法的距离函数如式(2)

d(box,centriod)＝1-IoU(box,cendroid) (2)

其中，IoU为非极大值候选框box与极大值框cendroid之间的面积交并比，在训练集中，已标注的真实目标区域框的分值最高，为极大值框。IoU值越小，说明候选框和极大值框之间的重合度越小，距离就越大。为保证识别精度，IoU阈值要求一般设置为0.7以上。

步骤2.2，构造YOLOv3模型，并对模型进行超参数设置：选择步骤2.1中，IoU值最大的检出框尺寸设置为最大的先验框尺寸；其中，选择IoU对应的检出框尺寸时，对IoU值设置阈值，IoU阈值可设置为步骤2.1中统计计算得到的IoU值的平均，一般情况下平均IoU>0.6是可接受的，否则需要调整参数重新执行步骤2.1。

步骤2.3，引入排斥力损失函数Repulsion Loss对YOLOv3模型用于计算目标位置回归的损失函数进行改进，以改善密集堆垛对象因相互遮挡导致识别率下降的问题。排斥力损失函数是目标检测算法一种新的损失函数，它的目标是通过设置吸引项和排斥项，使预测框和所负责的真实目标框的距离缩小，而使得其与周围非负责目标框(包含真实目标框和预测框)的距离加大。Repulsion Loss包括一个吸引项和两个排斥项。计算公式如式(3)

L＝L_Attr+α*L_RepGT+β*L_RepBox (3)

通过两个相关系数α和β来平衡三项损失值，试验结果显示两个相关系数都设置为0.5取得了较好的效果。

其中，L_Attr见式(4)为吸引项，优化目标是使预测框尽量靠近目标对象。

其中，ρ+为所有正样本的集合，P为其中一个候选回归，B^P为回归P的预测框，Smooth_L1()是一种目标检测中常用的损失函数，用来计算预测框与真实框之间的误差，相比于传统神经网络算法中常用的L1损失函数，收敛更快，相比于L2损失函数，对离群点、异常值不敏感，梯度变化相对更小，训练时不容易跑飞。

即为每个P匹配一个与之有最大IoU值的真实目标框，上标P表示该真实目标框是在第P个候选回归中选出来的，下标Attr表示该真实框是用于吸引项的计算的，区别于下述用于排斥项计算的真实框。GIoU(G,P)表示IoU(G,P)的最大值。argmax_G∈GIoU(G,P)是指使IoU(G,P)取最大值的真实框G。

式(6)是对公式(4)中Smooth_L1()函数的进一步说明。其中自变量x为上述预测框与真实框之间的距离，此距离的计算公式参考公式(2)。Smooth_L1函数相当于对x进行了一个非线性变换，以实现公式(4)的优点。

排斥项L_RepGT见式(7)目标是让预测框离除了分配给它的真实框之外的极大值框尽可能远。

其中，

即给定回归P除了其指定目标之外带有最大IoU区域的真实框。L_RepGT被定义为B^P与

之间的IoG值，IoG为预测框与真实框交集与真实框之面积比。

而排斥项L_RepBox见式(8)，目标是让分配了不同真实框目标的候选框尽可能远。

根据真实目标框将ρ+分为不同子集，L_RepBox的优化目标是使得来自与不同子集的候选框之间覆盖(IoU值)尽可能小。公式(8)中，分母为示性函数，表示：必须是有交集的预测框才计入损失值，如果两个预测框完全不相邻，则不计入。

Smooth_ln是针对0到1的输入变量设计的一个robust function。Smooth_ln损失函数可以看成是L2损失函数和上述Smooth_L1函数的叠加。因此综合了L2损失函数和Smooth L1损失函数的特点。既可以像L2那样加快收敛速度(比Smooth L1更快收敛)，又可以像SmoothL1那样对异常值更加不敏感。

其中，σ为敏感性参数，在实验中，RepGT和RepBox损失分别在σ＝1和σ＝0取得更好的效果。

步骤2.4，将已标注的训练图像集输入经过优化改进的目标检测模型YOLOv3，进行模型精调(fine-tuning)，调整模型中网络节点权重。

步骤3，通过步骤1中描述的图像分割方法对待检测图片进行分割；将分割后的低分辨率图像输入YOLOv3模型进行目标检测，输出目标子区域的分类和子区域位置；再将输出结果图拼接恢复成原始高分辨率图像，并统计总计数结果，供人工修正。

本发明通过步骤1.1将高分辨率的图像分割为低分辨率的图像，可以为步骤2的YOLOv3模型的训练集，提供输入图片大小的限定。YOLOv3模型默认在图片分辨率设置为416*416时，取得最佳检测识别效果。

本发明通过步骤1，实现了用于目标检测训练的图像集的准自动标注，在极大减少人工标注量的情况下，保障了模型训练的高效性和精度。

本发明通过步骤2.1，实现了对先验框尺寸的预设置，并结合步骤2.2对模型超参数的设置，极大的提高了目标检测算法的训练效率，同时也能显著提高检测识别精度。

本发明通过步骤2.3，解决了在密集堆垛中，因待检测目标之间相互遮挡，而导致检测器无法准确定位，从而造成目标漏检的问题。对于密集堆垛中的目标相互遮挡问题，简单通过调整非极大值抑制阈值(NMS)很难达到目的。在该情况下NMS通常会非常敏感，阈值过高会误检，阈值过低会漏检。

综上所述，本发明具有以下优点：

(1)具有很强的抗干扰性和鲁棒性，对图像拍摄者和拍摄光照条件的要求较低。

(2)通过无监督学习方法，实现了图像的准自动标注，极大降低了人工标注的工作量，提高了模型训练效率。

(3)对于包含大量相互遮挡的密集堆垛目标的图像识别，表现出优秀的性能，适合广泛应用于各种密集堆垛目标自动计数的场景。

Claims

1.一种基于自动标注和迁移学习的密集堆垛目标检测方法，其特征是对于截面堆垛图像，将高分辨率图像分割为多个低分辨率图像，将低分辨率图像分成N个子区域，记录子区域在原图像位置，使用变分自编码器VAE模型对图像进行分类和标注，得到已标注的训练图像集；然后将已标注的训练图像集输入已预训练的目标检测模型YOLOv3，优化YOLOv3模型的先验框尺寸和损失函数，利用训练图像集对模型进行精调；最后将待检测图像输入YOLOv3模型，输出目标子区域的分类和子区域位置及数量，再将输出结果图拼接恢复成原始高分辨率图像，并统计总计数结果，完成堆垛物计数。

2.根据权利要求1所述的一种基于自动标注和迁移学习的密集堆垛目标检测方法，其特征是包括如下步骤：

步骤3，通过步骤1中的图像分割方法对待检测图片进行分割，将分割后的低分辨率图像输入YOLOv3模型进行目标检测，输出目标子区域的分类和子区域位置，再将输出结果图拼接恢复成原始高分辨率图像，并统计总计数结果，完成密集堆垛的数量检测。

3.根据权利要求2所述的基于自动标注和迁移学习的密集堆垛目标检测方法，其特征是步骤1的具体步骤为：

步骤1.1，利用滑窗算法将高分辨率的堆垛横截面图像集G中的每张图片g_i分割成N个R×R像素的低分辨率图像组成的图像集GL_i，i＝1,…)，其中R由目标检测算法的推荐输入图像尺寸决定；

步骤1.2，利用滑窗算法将GL_i中的每个图像分成M个R₀×R₀像素的子区域集GS_j，j＝1,…M，其中R₀是人工预估的目标子区域的基准半径，并记录每个子区域在原图像中的位置POS_j；

步骤1.3，将GS_j作为训练集输入变分自编码器模型VAE，对GL_i中目标子区域GP_j与非目标子区域GN_j进行无监督聚类，采用式(1)作为VAE用来聚类的损失函数；

其中，x是待分类的样本数据变量，z，y是通过VAE模型学习提取的特征隐变量，z代表分类编码，y是一个离散值，代表类别标签；

是通过一批采样数据统计获得的样本经验分布，p(z|x)假设为满足均值为μ(x)，方差为σ²(x)的正态分布，q(x|z)为方差为常数的正态分布，q(z|y)是均值为μy方差为1的正态分布，q(y)假设为均匀分布时是一个常数，p(y|z)即为对隐变量z的分类器，可以通过训练一个softmax网络来拟合，拟合后的结果即可实现对输入图像的分类和标注；结合POS_j实现对GL_i中每个图像的自动标注，形成已标注训练数据集M(GP_j,POS_j)；

步骤1.4，人工对对数据集M中误差较大的标注数据样本进行筛除。

4.根据权利要求3所述的基于自动标注和迁移学习的密集堆垛目标检测方法，其特征在于，步骤2的具体步骤为：

步骤2.1，利用k-means算法对训练数据集M(GP_j,POS_j)中的先验框尺寸进行聚类分析，找出最优的尺寸，作为检测模型YOLOv3的备选尺寸，k-means算法的距离函数如式(2)：

d(box,centriod)＝1-IoU(box,cendroid) (2)

其中，IoU为非极大值候选框box与极大值框cendroid之间的面积交并比，所述极大值框指训练集中，已标注的真实目标区域框的分值最高的区域框；

步骤2.2，构造YOLOv3模型，并对模型进行超参数设置：选择步骤2.1中，IoU值最大的检出框尺寸设置为最大的先验框尺寸；

步骤2.3，引入排斥力损失函数Repulsion Loss对YOLOv3模型用于计算目标位置回归的损失函数进行改进，以改善密集堆垛对象因相互遮挡导致识别率下降的问题；RepulsionLoss包括一个吸引项和两个排斥项，计算公式如式(3)：

L＝L_Attr+α*L_RepGT+β*L_RepBox (3)

其中，L_Attr见式(4)为吸引项，优化目标是使预测框尽量靠近目标对象，