CN115527040A

CN115527040A - 基于改进yolo-x的浙贝母目标检测方法的构建方法及应用

Info

Publication number: CN115527040A
Application number: CN202211118083.5A
Authority: CN
Inventors: 王俊; 董成烨; 韦真博; 杜冬冬; 王永维
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-27

Abstract

本发明公开了一种基于改进YOLO‑X的浙贝母目标检测方法的构建方法及应用，属于农产品检测领域，本发明是以YOLO‑X为基线模型的算法改进，主要是在YOLO‑X的主干特征值提取网络（CSPDarkNet‑53）的末端有效特征层输出端嵌入了一层膨胀系数为4的带填充（padding）的空洞卷积结构，在不增加参数量、计算量的同时，扩大了目标检测算法的感受野，增加了其对尺度特征的敏感度，有效减少了YOLO‑X目标检测算法对某些等级浙贝母的误判概率，提升了对浙贝母目标检测的精度和速度。另外本发明将多个待检测物料集中拍摄、处理并依次精准分级，解决了现有技术存在拍照频率高、检测效率低的问题，促进了其在中医药市场的发展，同时还为其它类似产品的无损检测提供了新思路。

Description

基于改进YOLO-X的浙贝母目标检测方法的构建方法及应用

技术领域

本发明涉及农产品外观品质及大小的无损检测与分拣技术领域，更具体的说是涉及一种基于改进YOLO-X的浙贝母目标检测方法的构建方法及应用。

背景技术

浙贝母是一种百合科贝属草本植物，是中药材之一，主要药用成分为生物碱类、皂苷类成分，具有镇咳、祛痰、抗炎、抑菌、抗肿瘤等功效。据统计，2017—2018年间中国浙贝母总产量已超4000吨，种植产业约为60亿元。根据《TCACM 1021.24—2018中药材商品规格等级浙贝母》，浙贝母在满足无霉变、虫蛀、破碎的情况下，按直径大小分为特级、一级、二级，而霉变、虫蛀、破碎的浙贝母不能入药，需剔除。然而，目前浙贝母大小通常采用筛网、圆柱辊等分级，因形状不规则，分级效果不理想，筛分过程易对浙贝母造成机械损伤，且无法筛分出霉变、虫蛀、破碎的浙贝母。所以开发精准检测浙贝母外观品质及大小的方法，建设一种快速、无损分级生产线是十分必要的。

目前针对农产品的无损在线检测主要有电子鼻和计算机视觉技术。计算机视觉是利用摄像机和电脑代替人眼对目标进行识别、跟踪和测量的技术，具备准确、快速、经济等特点。深度学习是解决计算机视觉任务的一种重要工具，是一种以人工神经网络为架构对数据进行高层抽象的算法。与传统的机器学习相比，深度学习更易建模，且可从数据中自动学习更为深层的特征，从而实现高效利用数据。目前，YOLO（You Only Look Once）系列已成为深度学习中一种主流的基于深度学习的目标检测算法，且已广泛应用于农产品检测领域，并取得较好的效果。

然而，目前还未有研究报道将目标检测算法应用到浙贝母的外观品质及其大小的检测与分级中。浙贝母不同于其它物料对象，其等级较多，特级、一级和二级浙贝母在颜色、形状和纹理等特征方面相似，只能以大小尺度为特征进行区分。而浙贝母数据集中的感兴趣区域占比较大，因此导致目前流行的目标检测算法的感受野相对变小，使其对尺度特征不敏感，最终导致对浙贝母的检测能力较弱。因此实现对浙贝母的精准检测具有较高难度。另外，目前基于计算机视觉技术的在线检测技术大多数采用单个物料单张拍摄、处理的方式，故在实际生产中需要拍取大量的照片，所以对图像采集设备的使用强度、寿命提出了较高的要求，同时也限制了其检测效率。因此将多个待检测物料集中拍摄、处理并依次精准分级具有重大意义。

发明内容

为了克服现有技术中的问题，本发明的目的是提供一种基于改进YOLO-X的浙贝母目标检测方法的构建方法及应用。本发明对YOLO系列目标检测算法最新模型，即YOLO-X的主干特征提取网络进行了改进，在不增加参数量、计算量，不对原模型进行大程度改动的情况下，提高了模型的效果。本发明有望弥补现有浙贝母检测与分级技术的不足，同时还为其它类似产品的无损检测提供了新思路。

为实现上述目的，本发明采用如下技术方案：

一种基于改进YOLO-X的浙贝母多目标检测与分拣方法的构建方法，包括以下步骤：

步骤（1）：将不同等级、不同摆放姿态的浙贝母置于带有反光图层的黑箱底部的白板上，在漫反射光照的条件下，使用相机拍摄数量相同的单目标图像和多目标图像，多目标图像中各类浙贝母数量相同，多粒浙贝母呈单列化状且位于相机视场中线位置，以模拟在线检测场景；为避免丢失或扭曲目标特征，将拍摄好的RGB图像的像素调整为3200*3200，作为浙贝母数据集，按6:2:2的比例，将数据集划分为训练集、验证集、测试集后，对YOLO-X目标检测算法进行训练、验证和测试；

步骤（2）：基于步骤（1）中的测试结果，在YOLO-X目标检测算法的主干特征提取网络的末端添加一层带padding的空洞卷积结构，经优化后，空洞卷积结构的膨胀系数调整为4；

步骤（3）：基于步骤（1）中浙贝母数据集的训练集与验证集，对改进后的YOLO-X目标检测算法进行训练并获得模型；

步骤（4）：基于步骤（1）中浙贝母数据集的测试集对步骤（3）所得模型进行测试，采用AP、mAP、F ₁以及FPS作为测试结果评价指标，并基于该指标与其它目标检测算法进行对比，通过对比改进前后模型的检测效果图中的预测框对浙贝母的推断准确率及其贴合程度，验证改进YOLO-X的有效性；

步骤（5）：基于测试后且达到测试指标要求的目标检测模型，利用检测平台末端执行结构对物料进行分拣。

步骤（3）中，采取微调训练策略，并将在开源数据集COCO数据集上预训练好的模型yolo_x.pth文件的权重作为改进后的YOLO-X的初始权重；冻结训练轮次设为50，解冻训练轮次设为150，学习率设为0.001，冻结批尺寸设为8，非冻结批尺寸设为4；基于上述训练策略，在浙贝母训练集、测试集上进行迁移训练，待训练满200轮次后，从中挑出训练损失函数值最小的模型作为改进后的YOLO-X基于浙贝母训练集训练所得最优模型。

步骤（5）中，检测平台传送带搭载的待检测物料依次触发位于传送带一侧的拍照光电传感器，当该光电传感器触发次数达到预先设定值N，照片中共有N个物料时，相机对以上触发过该光电传感器的物料进行抓拍；照片经由目标检测算法进行处理，并根据处理结果更新位于传送带末端且在气嘴上方的光电传感器的激活值，当触发次数达到目标检测算法判定的数值时，上位机向气嘴发送吹气信号，气嘴吹落与其编码相同的物料至传送带另一侧的收集箱中；其中，第i个光电传感器的激活值A _i如公式（1）所示，

(1)

式中I为照片中物料的序号数，τ _i为传送带运动方向上，小于物料I的类别数的物料个数。

所述的构建方法，传送带上的两物料之间的距离大于黑箱至传送带末端最后一个气嘴之间的距离，以保证前一张照片中的最后一个物料被吹落至相应收集箱后，再更新负责吹落下一张照片中第一个物料所对应的吹气嘴上方的光电传感器的激活值。

一种基于改进YOLO-X的浙贝母目标检测方法，包括以下步骤：

步骤（1）：使用相机拍摄待检测的浙贝母图像；

步骤（2）：将浙贝母图像输入根据所述的基于改进YOLO-X的浙贝母目标

检测最优模型，经该模型对浙贝母图像进行检测后，输出结果。

一种浙贝母在线检测与分拣设备，所述的构建方法得到的基于改进YOLO-X的浙贝母目标检测最优模型，搭建浙贝母在线检测设备，并用于浙贝母的在线检测与分拣。

本发明的有益效果：

在YOLO-X的主干特征值提取网络（CSPDarkNet-53）的末端有效特征层输出端嵌入了一层膨胀系数为4的带填充（padding）的空洞卷积结构，在不增加参数量、计算量的同时，扩大了目标检测算法的感受野，增加了其对尺度特征的敏感度，有效减少了YOLO-X目标检测算法对某些等级浙贝母的误判概率，提升了对浙贝母目标检测的精度和速度。另外，本发明通过将多个待检测物料集中拍摄、处理并依次精准分级的方式，有效减少了检测线上图像采集设备的拍照频率，降低了检测线的投入成本，增加了检测效率，弥补了现有技术的不足，促进了其在中医药市场的发展，同时还为其它类似产品的无损检测提供了新思路。

附图说明

图1为本发明提供的浙贝母目标检测方法的流程图。

图2为本发明提供的图像采集设备及数据集部分图像。

图3为本发明提供的基于改进后YOLO-X主干特征提取网络（CSPDarkNet53-DC）及其对应的目标检测算法（YOLOX-DC）网络结构示意图。

图4为本发明提供的YOLOX-DC在155（该模型在验证集上的验证损失函数值最小）个训练世代结束后的AP值、mAP值。

图5为本发明提供的YOLOX-DC在155（该模型在验证集上的验证损失函数值最小）个训练世代结束后的F1值。

图6为本发明提供的YOLO-X在浙贝母测试集上的部分检测可视化结果。

图7为本发明提供的YOLOX-DC在浙贝母测试集上的部分检测可视化结果。

图8为本发明提供的浙贝母检测与分拣平台图形化操控界面。

图9为本发明提供的多目标分拣方法的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施举例仅仅是本发明一部分实施举例，而不是全部的实施举例。基于本发明的实施举例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

参见图1，本发明实施例中提供的一种基于改进YOLOX-DC的浙贝母多目标检测于分拣方法，具体包括以下步骤：

步骤（1）：图像采集与数据集制作。

本实例在一定程度上参考了《TCACM 1021.24—2018中药材商品规格等级浙贝母》，将浙贝母分为特级、一级、二级、虫蛀、霉变、破碎浙贝母6个等级，并采集产地位于浙江省金华市磐安县（北纬29°3，东经120°25’48"，海拔319 米）的浙贝母RGB光学图像作为训练、验证、测试目标检测算法的数据集。

本实例采用电子眼（VerVide，英国）作为RGB光学图像采集设备，如图2（a部分）所示。其硬件由单反相机（Nikon D7000，日本）、带有反光涂层的黑箱、光源和底板组成。利用电子眼测试了五种背景颜色（蓝、绿、黑、红、白）下的浙贝母灰度直方图，相比于其他颜色，白色背景下图像的灰度直方图分布范围更广，R、G、B通道双峰更明显，因此选择白板作为图像采集设备的底版。

为使图像最大程度还原浙贝母真实的颜色、形状、纹理等特征，减少物料表面由于光源所造成的高光区域，经反复实验，光源采用漫反射光照模式，拍摄距离为45cm时效果最佳。实验基于上述条件对两种摆放姿态的6类浙贝母各拍取了200张图像，共记拍取了2400张单目标图像，如图2（b₁-b₆部分）所示。为丰富数据集种类、提高目标检测模型的泛化能力，实验还拍摄了多目标图像。为平衡数据集类别数量，多目标图像中各类不同摆放姿态的浙贝母数量相同。为模拟在线检测场景，多粒浙贝母呈单列化状，共记拍摄了400张多目标图像，如图2（b₇-b₈部分）所示，因此浙贝母数据集共有2800张RGB光学图像。

目标检测算法有其固定的输入尺寸一般为32的倍数，当输入图片不满足要求时，会调整其大小（resize），使之满足尺寸要求。为适应神经网络的输入，将数据集中的图像从4928×3264剪裁成3200×3200，以便目标检测算法对其进行等比放缩，从而避免对图像中的ROI造成拉伸、扭曲等现象，使之保留原形状、尺寸等特征。

利用Labelimg软件对数据集进行标注，并将带注释的标签文件以扩展名为xml的格式保存。数据集共含6类标签，分别是“super”、“one level”、“second level”、“motheaten”、“broken”和“mildew”，对应特级、一级、二级、虫蛀、霉变和破碎浙贝母，每类浙贝母均有800个标签，因此数据集共有4800个标签。该数据集的ROI占比较大，但数据集数量较小，因此训练集、验证集、测试集按6:2:2（训练：1680，验证：560，测试：560）的比例划分。

步骤（2）：优化YOLO-X主干特征提取网络。

根据YOLO-X及浙贝母数据集的特点，在YOLO-X的主干特征提取网络的末端（Dark5输出端）添加了一层膨胀系数为4的空洞卷积结构。为使添加空洞卷积结构后输出的张量与原模型对应位置的输入、输出张量尺寸匹配，且便于后续特征融合与重用，空洞卷积结构选择带padding的空洞卷积作为嵌入结构。

其中，空洞卷积（Dilated Convolution）是针对图像语义分割问题中因下采样导致图像分辨率降低、信息丢失而提出的一种卷积方法，其可在不增加卷积核数量或提高其大小的条件下，提供更大的感受野，使之输出更大范围的信息。也避免了因进行池化而导致小目标信息丢失的情况。F为带padding的空洞卷积的感受野大小，如公式如（3）所示，其中rate是膨胀系数，值越大，模型感受野越大；k是卷积核大小；padding是边缘填充值。带padding的空洞卷积输出的高和宽如公式（4）、（5）所示，其中H _in和W _in分别为输入图片的高和宽，H _out和W _out分别为输出图片的高和宽，stride为步长。

主干特征提取网络提取图片特征，并在特定的位置将其输入到后续的特征金字塔中以进行进一步的特征提取与融合，其输出张量的通道数如公式（6）所示。其中s为候选区域被划分成网格的数量，n为每个网格上存在的候选框数量，p为属于某一类标签的置信度，x_offset、y_offset为网格中心点调整参数，h、w分别为网格高和宽的调整参数。特征金字塔的输出进入YOLO-Head以整合特征并调整通道数，最终获得预测结果。

YOLO-X主干特征提取网络的Dark5处输出张量尺寸为20×20×1024，在经过空洞卷积处理后，根据公式（3）、（4）、（5）、（6），其张量尺寸仍为20×20×1024，与FPN对应接收端的张量尺寸保持一致，便于后续特征融合与重用。改进后的主干特征提取网络命名为CSPDarkNet53-DC，其对应目标检测算法命名为YOLOX-DC，如图3所示。

步骤（3）：训练YOLOX-DC。

本实例训练所采用的计算机配置及深度学习环境如下所述。计算机的操作系统为Windows-2019；CPU型号为英特尔9900k；GPU型号为NVIDIA TeslaV100-SXM2（32GB DDR4RAM）；CUDA的版本为11.2，cudnn的版本是8.1.1；编程语言采用Python 3.7；深度学习框架采用版本PyTorch v1.7。

基于上述条件配置，本实例采取微调训练策略，将在开源数据集（COCO数据集）上预训练好的模型（yolox_x.pth文件）的权重作为YOLO-DC的初始权重，并利用浙贝母训练集与测试集在浙贝母训练集上进行迁移训练。理想的模型是其训练损失曲线不再有大幅度波动或刚好介于欠拟合与过拟合之间的模型，为找到该界限，经多次实验，训练总轮次达到200次时，训练损失曲线不再有大幅度波动，接近平缓，说明此时模型接近收敛或已收敛。为优化训练策略，经多次实验，将冻结训练轮次设为50，解冻训练（微调）轮次设为150，学习率设为0.001，冻结批尺寸设为8，非冻结批尺寸设为4时，训练损失曲线下降速度最快。为找出训练所得最优模型，实验保存每轮次训练所得模型的权重文件，待训练满200轮次后，从中挑出训练损失函数值最小的模型作为YOLOX-DC基于浙贝母训练集训练所得最优模型。

步骤（4）：测试YOLOX-DC。

实验根据真实值和预测值对正负例的正确划分与否将所有样本分为4种类型，分别为真正例（True Positive, TP）、真反例（True Negative, TN）、假正例（FalsePositive, FP）、假反例（False Negative, FN）。其中TP代表的是被正确分类的正样本，即某类浙贝母被正确分类的个数；TN代表的是被正确分类的负样本，即其余类别浙贝母被正确分类的个数；FN代表的是被错误分类的正样本，即某类浙贝母被错误分类的个数；FP代表的是被错误分类的负样本，即其余类别浙贝母被错误分类的个数。精度（Precision）和召回率（Recall）利用上述4类数据进行定义。Precision具体含义为：在预测值是Positive的所有样本中，模型预测对的比重（公式（7））。Recall具体含义为：在真实值是Positive的所有样本中，模型预测对的比重（公式（8））。

将所有样本按其分类置信度的大小进行排序，并计算每个样本所对应的置信度作为正负样本划分的阈值时的Precision和Recall，将不同置信度下的Precision和Recall进行绘图可得P-R曲线，P-R曲线与坐标轴所围面积为AP（公式（9））。

mAP是所有类别的AP的平均值（公式（10）），其中C为样本种类数量。

F _measure是Precision和Recall的加权调和平均，综合考虑了Recall和Precision指标，当α取1时（公式（11））。

FPS反映了模型处理图像的速度（公式（12）），其中N和T _n分别表示模型在一段时间内处理图像的数量以及处理该帧数图像所用时间。

本实例采用AP、mAP、F1以及FPS作为YOLOX-DC在浙贝母测试集上的测试结果评价指标，如公式（9）、（10）、（11）、（12）。针对浙贝母数据集的特点，实验在YOLO-X的主干特征提取网络的末端分别添加了一层膨胀系数为2、3、4、5、6的带padding的空洞卷积结构。测试结果表明膨胀系数为4时的模型检测效果最佳，其均值平均准确率（mean AveragePrecision，mAP）为98.95%，对特级、一级、二级、虫蛀、破碎和霉变浙贝母的平均准确率（Average Precision，AP）值分别为99.97%、98.33%、98.47%、98.71%、98.85%、99.73%，如图4所示；F ₁值分别为0.99、0.92、0.94、0.97、0.97、0.99，帧率（Frames Per Second，FPS）为29.18，如图5所示。

本实例基于浙贝母数据集，还将YOLOX-DC与其它目标检测算法进行了对比。本实例采用相同的数据集、训练设备、训练环境、训练策略和评价指标，训练并测试了YOLO-V3、YOLO-V4、YOLO-V5、YOLO-X和Faster R-CNN目标检测算法，其结果如表1所示。上述目标训练所得模型对仅直径不同的特级、一级、二级浙贝母的检测能力普遍较弱，其AP和F ₁均低于虫蛀、破碎、霉变的对应指标。而YOLO-X对特级、一级和二级类浙贝母的检测效果优于其它算法的检测效果，其AP值分别为98.39%、72.22%、96.59%，其F ₁值分别为0.90、0.63、0.84，但检测效果仍不如YOLOX-DC。与YOLO-X模型相比，YOLOX-DC的mAP值提高4.89%，特级、一级和二级浙贝母的AP值分别提高0.98%、26.11%、1.88%，F1值分别提高0.09、0.33、0.10。原模型与改进后模型的检测效果如图6-7所示，前者对图像的检测错误或漏检多发生在特级、一级和二级浙贝母上；后者对各个类别的浙贝母判别均正确，且置信度较高，预测框与浙贝母紧密贴合，呈现外接矩形状态，说明模型对其位置的回归也相对准确。

表 1 其它目标检测算法训练所得模型在浙贝母测试集上的测试结果

步骤（5）检测平台末端执行结构分拣物料。

采用Pycharm Community Edition 2020软件，在Windows系统下采用Python语言编写上位机软件，并利用Pyqt5将测试指标达到要求的模型封装为可执行程序（.exe）于上位机的可视化图形操作界面中，如图8所示。其中最核心的部分是在各个模块中起到关键作用的行为类，包括上位机与下位机通讯类(CnCommDlg)、图像创建、视频显示类(Clistenl)、图像处理类(Image_handling)、图像训练类(training)、主窗口类(SerialDlg)。

如图9所示，检测平台传送带搭载的浙贝母依次触发位于传送带一侧的拍照光电传感器，当该光电传感器触发次数达到预先设定值（N，照片中共有N个物料）时，相机对以上触发过该光电传感器的物料进行抓拍，并按其触发拍照光电传感器的先后顺序进行排序编码（1-N）。照片经由目标检测算法进行处理，并根据目标检测算法输出的信息更新传送带末端且位于气嘴上方的光电传感器的激活值。具体算法如下：将待检测物料类别编码为1-n类（n为待检测物料的类别数），并将传送带末端的气嘴及其上方的光电传感器按传送带运动的方向依次编码为1-n。照片中的物料会随传送带运动，并依次触发各个气嘴上方的光电传感器，这些光电传感器记录各自被触发的次数，当触发次数达到目标检测算法给定的数值时，上位机向气嘴发送吹气信号，气嘴吹落与其编码相同的物料至传送带另一侧的收集箱中。其中，第i个光电传感器的激活值A _i如公式（1）所示。气嘴上方的光电传感器会根据目标检测算法对每张照片的检测结果设置不同的激活值。

(1)

如图9所示，收集箱开口的尺寸（L₂）要大于最大物料的尺寸，以保证物料顺利进入收集箱；两物料之间的距离需大于黑箱至传送带末端最后一个气嘴之间的距离，即L₁>L₃，以保证前一张照片中的最后一个物料被吹落至相应收集箱后，再更新负责吹落下一张照片中第一个物料所对应的吹气嘴上方的光电传感器的激活值。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应以所附权利要求为准。

Claims

1.一种基于改进YOLO-X的浙贝母多目标检测与分拣方法的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的构建方法，其特征在于，步骤（3）中，采取微调训练策略，并将在开源数据集COCO数据集上预训练好的模型yolo_x.pth文件的权重作为改进后的YOLO-X的初始权重；冻结训练轮次设为50，解冻训练轮次设为150，学习率设为0.001，冻结批尺寸设为8，非冻结批尺寸设为4；基于上述训练策略，在浙贝母训练集、测试集上进行迁移训练，待训练满200轮次后，从中挑出训练损失函数值最小的模型作为改进后的YOLO-X基于浙贝母训练集训练所得最优模型。

3.根据权利要求1所述的构建方法，其特征在于，步骤（5）中，检测平台传送带搭载的待检测物料依次触发位于传送带一侧的拍照光电传感器，当该光电传感器触发次数达到预先设定值N，照片中共有N个物料时，相机对以上触发过该光电传感器的物料进行抓拍；照片经由目标检测算法进行处理，并根据处理结果更新位于传送带末端且在气嘴上方的光电传感器的激活值，当触发次数达到目标检测算法判定的数值时，上位机向气嘴发送吹气信号，气嘴吹落与其编码相同的物料至传送带另一侧的收集箱中；其中，第i个光电传感器的激活值A _i如公式（1）所示，

(1)

4.根据权利要求3所述的构建方法，其特征在于，传送带上的两物料之间的距离大于黑箱至传送带末端最后一个气嘴之间的距离，以保证前一张照片中的最后一个物料被吹落至相应收集箱后，再更新负责吹落下一张照片中第一个物料所对应的吹气嘴上方的光电传感器的激活值。

5.一种基于改进YOLO-X的浙贝母目标检测方法，其特征在于，包括以下步骤：

步骤（1）：使用相机拍摄待检测的浙贝母图像；

步骤（2）：将浙贝母图像输入根据权利要求2所述的基于改进YOLO-X的浙贝母目标检测最优模型，经该模型对浙贝母图像进行检测后，输出结果。

6.一种浙贝母在线检测与分拣设备，其特征在于，基于根据权利要求2所述的构建方法得到的基于改进YOLO-X的浙贝母目标检测最优模型，搭建浙贝母在线检测设备，并用于浙贝母的在线检测与分拣。