CN116580305A - 一种基于深度学习的茶芽检测方法及其模型搭建方法 - Google Patents

一种基于深度学习的茶芽检测方法及其模型搭建方法 Download PDF

Info

Publication number
CN116580305A
CN116580305A CN202310540349.3A CN202310540349A CN116580305A CN 116580305 A CN116580305 A CN 116580305A CN 202310540349 A CN202310540349 A CN 202310540349A CN 116580305 A CN116580305 A CN 116580305A
Authority
CN
China
Prior art keywords
tea
model
module
image
yolov5
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310540349.3A
Other languages
English (en)
Inventor
刘菲
王淑栋
庞善臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202310540349.3A priority Critical patent/CN116580305A/zh
Publication of CN116580305A publication Critical patent/CN116580305A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的茶芽检测方法及其模型搭建方法,主要部分为模型搭建方法,包括以下步骤:获取现实场景中的茶叶数据集并划分为训练集和测试集,对数据进行预处理;搭建一种能够聚焦茶芽细长形态特征的YOLOv5_DC模型,通过在主干网络中引入可变形卷积来实现茶芽特征自适应提取,并通过在颈部网络中引入轻量级上采样算子来保留多层特征的语义和空间信息;对模型进行训练及测试,模型搭建完成后用于茶芽检测同时,为提升模型的检测能力,使用交叉熵函数改进损失函数。本发明所提出的方法具有较高的检测精度、较低的计算成本和较少的参数,是茶叶采摘机器人茶芽检测的有效解决方案。

Description

一种基于深度学习的茶芽检测方法及其模型搭建方法
技术领域
本发明属于农业采摘机器人的视觉检测技术领域,尤其涉及一种基于深度学习的茶芽检测方法及其模型搭建方法。
背景技术
茶是全球消费最广泛的饮料之一,以其丰富的营养价值和独特风味深受消费者的青睐。传统的人工采摘茶芽方法是典型的劳动密集型操作,劳动强度高,生产效率低,质量不稳定。由于人口红利的消失和信息技术的快速发展,迫切需要研究和开发用于针状名茶生产的自动化、智能采摘机器人。
目标检测技术对于满足依靠视觉引导机械手的智能采茶需求具有重要意义。然而与其他作物相比,由于茶芽极端的纵横比、较小的尺寸,以及不可避免的遮挡和光照变化,检测茶芽面临着一定的挑战,这些因素使得用常规方法很难完成这一任务。因此,研究和开发茶芽的识别和检测方法对智能采摘具有重要意义。
近年来,深度学习算法在目标检测中的有效性已经得到充分证明。一般来说,基于深度学习的目标检测技术可分为端到端的一阶段检测算法和需要筛选候选框的两阶段检测算法两大类。其中以Faster R-CNN为代表的两阶段目标检测算法的检测速度较慢,不适用于在采摘机器人上的部署;而以YOLO系列为代表的一阶段算法实现了端到端的快速检测,更加适用于智能采摘机器人的目标检测。
YOLOv5作为YOLO系列的较新版本,在精度与速度上都得到了很大的提升,在常用的目标检测网络中表现出较强的检测性能,在模型的快速部署上具有较强优势。但其在通用目标数据集上效果较好,在针对形状细长、目标较小、特征不明显且易受遮挡和光照变化影响的茶芽的检测中,直接使用YOLOv5模型的效果并不理想。
发明内容
针对上述问题,本发明第一方面提供了一种基于深度学习的茶芽检测模型的搭建方法,包括以下步骤:
步骤1,采集筛选真实场景下茶叶原始图像数据,制作数据集,并按一定比例划分为训练集和测试集;
步骤2,对训练集图像进行标注及扩增,得到预处理后的训练集;
步骤3,基于YOLOv5模型结构,搭建一种能够聚焦茶芽细长形态特征的YOLOv5_DC模型;所述YOLOv5_DC模型在主干网络中引入可变形卷积DCNv2来实现茶芽特征自适应提取,并通过在颈部网络中引入轻量级上采样算子CARAFE来保留多层特征的语义和空间信息;
步骤4,使用交叉熵函数Varifocal Loss改进损失函数,并用步骤2预处理后的训练集对步骤3中的YOLOv5_DC模型进行训练;
步骤5,使用测试集中的图像数据对训练后的YOLOv5_DC模型进行测试,并完成最终模型的搭建。
优选的,所述YOLOv5_DC模型训练完成后,在图像输入端还设置有图像增强判断模块和图像增强模块,用于在测试及实际应用时进行图像增强判断和图像增强,具体流程为:
S1,计算所有茶叶图像的平均灰度值AG,若AG值大于等于预设值T1,则对该图像进行亮度自适应校正,并进入S2;若AG值小于T1则直接输入到训练完成的YOLOv5_DC模型中;
S2,运用SLIC超像素分块算法进行图像分割,充分考虑区域内特征的相似性和区域间特征的差异性,以提高区域自适应校正的有效性;
S3,对每个超像素块计算区域平均灰度值AG,若区域AG值大于等于预设值T2,则对该区域进行亮度自适应校正,否则区域亮度保持不变;
S4,将校正区域及未校正区域进行合并,得到校正增强后的图像,以输入训练完成的YOLOv5_DC模型中。
优选的,所述运用SLIC超像素分块算法进行图像分割,结合了颜色信息和位置信息,聚类过程采用加权距离测量值D,具体计算方法为:
其中,lT表示灰度图像中的颜色空间;[xy]T表示的是像素点位置,[lkxkyk]T表示聚类中心;ds是空间相似度;dc是颜色相似度;
所述对该区域进行亮度自适应校正,是一种基于平均亮度估计适当伽马值的方法,校正所需要的伽马值γ计算方法为:
其中,X∈[0 1]为图像的平均亮度,是直方图亮度的中心,输出图像中的所有像素都将使用估计的γ值进行增强。
优选的,所述步骤2中对训练集图像进行标注及扩增,具体为:
对自然场景下采集的茶叶图像原图按照尽可能多的保留茶芽样本的原则进行长宽1:1裁剪,将其长宽调整至640×640像素后划分为训练集和测试集;
数据标注,利用图片标注工具对图片进行手动标注,标注标准为单芽标注,标注后的标签文件以TXT格式保存;
数据增强,对标注的图像通过90度和180度翻转、垂直水平镜像变换、亮度增强及加入高斯噪声等操作进行数据扩增,同步生成对应的标注文件。
优选的,所述YOLOv5_DC模型包括主干网络、颈部网络和预测端;所述主干网络包括DBS模块、C3模块和SPPF模块,所述DBS模块由可变型卷积DCNv2、批量归一化层BN和SiLU激活函数层组成,旨在实现茶芽特征自适应提取;所述C3模块中采用残差结构来减小模型参数并提取更细粒度的特征;所述SPPF模块是由SPP模块改进而来,通过SPPF模块融合局部特征和全局特征,丰富了输出特征图的表达能力;所述颈部网络采用特征金字塔网络FPN和路径聚合网络PAN进行特征融合,使模型获得了丰富的特征信息;所述预测端通过三个具有不同大小特征图的检测层检测不同大小的目标。
优选的,所述步骤3中在主干网络中引入可变形卷积DCNv2来实现茶芽特征自适应提取具体为:
引入可变形卷积DCNv2设计DBS模块,使用DBS模块替换原始YOLOv5主干网络中的CBS模块;所述DCNv2通过在卷积核中每个采样点的位置引入一个偏移量变量,可在当前位置附近实现随机采样,并使采样网格能够自由变形,以提高模型关注目标的能力;同时,利用调制机制学习每个采样点的权值,调整输入特征在不同空间位置的幅值,来减少不相关图像内容对特征提取的影响,以提高模型对特征的关注能力;
在训练过程中,同时学习卷积核和偏移量,具体计算公式如下:
R={(-1,-1),(-1,0),...,(0,1),(1,1)}
g(a,b)=max(0,1-|a-b|)
其中,R是感受野的大小和扩张;P表示任意位置,q枚举特征图x中所有积分空间位置;x(p)表示添加偏移量后该点在所有小数点位置上的值;Δm是调制标量。
优选的,所述步骤3中在颈部网络中引入轻量级上采样算子CARAFE,具体为:在模型搭建时引入轻量级上采样算子CARAFE替换颈部网络中的最近邻插值进行上采样,CAREFE包括内容感知重组模块和核预测模块,核预测模块由信道压缩器、内容编码器和核归一化器三个子模块组成;首先,利用信道压缩子模块对输入的特征信道进行压缩,其次,内容编码器子模块对压缩特征映射的内容进行编码,生成重组核,最后,内核规范化子模块对每个重组内核应用一个softmax函数。
优选的,所述步骤4中使用交叉熵函数Varifocal Loss改进损失函数,具体为:
使用交叉熵函数Varifocal Loss计算锚框的损失值,具体可以表达为:
其中,q是目标锚框和标注框之间的交并比,当q=0时,表示该锚框为负样本,当q>0时,表示锚框为正样本,p是锚框对茶芽的预测概率,α和γ为可调节系数。
本发明第二方面提供了一种基于深度学习的茶芽检测方法,包括以下过程:
实时采集茶叶图像数据;
将茶叶图像数据输入到如第一方面所述的搭建方法所搭建的茶芽检测模型中进行茶芽检测;
输出检测信息,包括茶芽在茶叶图像中的具体位置信息及各类置信度;
根据预先设置的阈值进行置信度筛选,获得最终的茶芽检测结果。
本发明第三方面还提供了一种基于深度学习的茶芽检测设备,所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如第一方面所述的搭建方法所搭建的茶芽检测模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行茶芽检测方法。
与现有技术相比,本发明具有如下有益效果:
第一,本发明应用深度学习算法实现采茶机器人的精准目标检测,解决了当前基于深度学习算法对细长型茶芽检测精度较低的问题,为采茶机器人的实际应用提供了强有力的支持,具有很高的实际应用价值;
第二,本发明在模型的主干网络中,引入变形卷积DCNv2来取代传统卷积运算,允许模型通过调整偏移量来学习几何变形,实现特征自适应,增强模型的特征提取能力;
第三,本发明在模型的颈部结构中,采用内容感知的特征重组CARAFE代替颈部网络中的最近邻插值进行上采样,有助于保留多层特征的语义和空间信息,防止有价值信息的丢失;
第四,本发明使用Varifocal Loss函数来平衡阳性和阴性样本的数量,有助于减少由于遮挡而导致的目标遗漏,并提高模型的性能;
第五,本发明提出了一种利用自适应校正方法调节区域亮度的图像增强技术,提高图像质量和检测精度。
附图说明
图1为本发明实施例1的数据增强效果图。
图2为本发明提出的YOLOv5_DC学习模型的整体结构图。
图3为本发明提出的改进的DBS模块结构图。
图4为本发明使用的CARAFE的总体框架图。
图5为本发明提出的图像增强判断和图像增强模块的工作流程图。
图6为本发明实施例1不同模型的综合表现对比图。
图7为本发明实施例使用不同模型的茶芽检测结果对比图。
图8为实施例2中茶芽检测设备的结构简易框图。
具体实施方式
下面结合具体实施例对发明进行进一步说明。
实施例1:
为了更好地实现茶叶采摘过程的智能化,解决当前智能采茶机器人在目标检测方面的技术难点,本发明提出了一种基于深度学习的茶芽检测模型,可用于基于云的采摘机器人,以提高针状茶芽的检测精度。主要发明内容为YOLOv5_DC模型搭建方法,与原始YOLOv5模型相比,新提出的模型在不增加模型复杂度的前提下,能够较大的提高茶芽检测准确度,为采茶机器人的精准检测和定位提供强有力的支持,能够一定程度解决现有深度学习模型对细长物体检测能力不理想的问题。
基于深度学习的茶芽检测模型的搭建方法,大体流程包括以下步骤:
步骤1,采集筛选真实场景下茶叶原始图像数据,制作数据集,并按一定比例划分为训练集和测试集;
步骤2,对训练集图像进行标注及扩增,得到预处理后的训练集;
步骤3,基于YOLOv5模型结构,搭建一种能够聚焦茶芽细长形态特征的YOLOv5_DC模型;所述YOLOv5_DC模型在主干网络中引入可变形卷积DCNv2来实现茶芽特征自适应提取,并通过在颈部网络中引入轻量级上采样算子CARAFE来保留多层特征的语义和空间信息;
步骤4,使用交叉熵函数Varifocal Loss改进损失函数,并用步骤2预处理后的训练集对步骤3中的YOLOv5_DC模型进行训练;
步骤5,使用测试集中的图像数据对训练后的YOLOv5_DC模型进行测试,并完成最终模型的搭建。
本实施例通过具体的实验过程,对本发明茶芽检测模型搭建的具体过程,展开进一步说明。
1.获取原始数据
真实茶园中进行茶叶图像采集,包含不同种类、不同角度、不同的背景、不同光照强度等条件下的茶叶图像,将其作为原始数据,拍摄角度包括侧面和顶部,拍摄距离为30-50cm;对茶叶图像按照尽可能多的保留茶芽样本的原则进行长宽1:1裁剪,并将其长宽调整至640×640像素,按照8:2比例划分为训练集和测试集,以用于模型的训练和测试。
2.图像数据预处理
对采集到的图像数据集,经图像切割、筛选、压缩等图像预处理后,使用图片标注工具“Make Sense”对图像中的茶芽进行标注,标注标准为单芽,标注后的标签文件以TXT格式保存。
对标注后的图像进行数据增强,通过垂直水平镜像变换、不同角度旋转、亮度增强、增加高斯噪声等操作进行数据扩充,并且伴随图像增强同步生成对应地标注文件,如图1所示。数据增强后,数据集共有图像1330张。
3.模型搭建
基于YOLOv5模型结构,搭建一种能够聚焦茶芽细长形态特征的YOLOv5_DC模型。YOLOv5_DC模型主要由主干网络、颈部网络和预测端组成,如图2所示。其中主干网络包括DBS、C3、SPPF模块,其中DBS模块由可变型卷积DCNv2、批量归一化层和SiLU激活函数层组成,旨在实现茶芽特征自适应提取;C3中采用残差结构来减小模型参数并提取更细粒度的特征;SPPF模块是由SPP模块改进而来的,通过SPPF模块融合局部特征和全局特征,丰富了输出特征图的表达能力。颈部网络采用特征金字塔网络FPN和路径聚合网络PAN进行特征融合,使模型获得了丰富的特征信息。预测端通过三个具有不同大小特征图的检测层检测不同大小的目标。
(1)主干网络部分,原始YOLOv5的主干网络使用的常规卷积对几何变换建模的能力十分有限,它依赖于固定的几何结构,卷积单元在固定位置对输入特征图进行采样,池化层以固定比例降低空间分辨率,限制了其捕获各种几何变换的能力。为了提高细长芽的检测精度,本发明引入了可变形卷积DCNv2设计DBS(DCNv2-BN-SiLU)模块,使用DBS模块替换原始YOLOv5主干网络中的CBS模块,如图3所示。DCNv2通过在卷积核中每个采样点的位置引入一个偏移量变量,可以在当前位置附近实现随机采样,并使采样网格能够自由变形,从而提高了模型关注目标的能力,增强了模型的性能。同时,利用调制机制学习每个采样点的权值,调整输入特征在不同空间位置的幅值,来减少了不相关图像内容对特征提取的影响,提高了模型对特征的关注能力;
进一步,在训练过程中,同时学习卷积核和偏移量,具体计算公式如下:
R={(-1,-1),(-1,0),...,(0,1),(1,1)}
g(a,b)=max(0,1-|a-b|)
其中,R是感受野的大小和扩张;P表示任意位置,q枚举特征图x中所有积分空间位置;x(p)表示添加偏移量后该点在所有小数点位置上的值;Δm是调制标量;
(2)颈部网络部分,特征上采样是深度神经网络的重要操作,在原始YOLOv5中,采用特征金字塔网络FPN促进语义信息从高到低的传播,但FPN有两个明显的局限性,一是无法捕获密集预测任务所需的必要语义信息,导致上采样过程中目标位置和噪声位置的潜在混合;二是其接受域较小限制了其利用全局特征信息的能力,并可能影响其表达能力和性能。为了克服这些限制,本发明在模型搭建时引入内容感知特征重组算子CARAFE替换颈部网络中的最近邻插值进行上采样。CAREFE包括两个主要组件:内容感知重组模块和核预测模块,核预测模块由信道压缩器、内容编码器和核归一化器三个子模块组成,具体结构如图4所示。首先,利用信道压缩子模块对输入的特征信道进行压缩,其次,内容编码器子模块对压缩特征映射的内容进行编码,生成重组核,最后,内核规范化子模块对每个重组内核应用一个softmax函数。CARAFE有三大优点,一是接受范围大。可以在一个大的接受域内收集信息,更好地利用周围的信息;二是高适应性,可以动态地适应特定于实例的内容;三是轻量级的,具有较高的计算效率;
进一步,CARAFE上采样算子的工作原理为:对于形状为H×W×C的输入图像,使用1×1卷积将其通道数压缩到H×W×Cm;对于压缩后的输入特征图,利用kencoder×kencoder的卷积层预测上采样核,输入通道数为Cm,输出通道数为将通道维在空间维展开,得到形状为/>的上采样核;对上采样核利用softmax进行归一化,使得卷积核权重和为1。
4.模型训练
用交叉熵函数Varifocal Loss改进损失函数,并用预处理后的训练集对所搭建的YOLOv5_DC模型进行训练。
实验平台:Pytorch深度学习框架,Win10 64操作系统,GPU为RTX 3090(24GB),CPU为16vCPU Intel(R)Xeon(R)Platinum 8350C CPU@2.60GHz,内存为43G。设置每批训练图片数为16,Epoch设置为200,学习率初始化为0.01,动量设置为0.937,权重衰减系数设置为0.0005,训练阶段采用随机梯度下降策略SGD优化网络参数。
本实施例中,包括以下过程:
通过对部分数据集的训练得到初始权重,用于后续模型的预训练权重;基于迁移学习的思想,将预训练权重加载到YOLOv5_DC模型中作为初始值,避免训练过程中损失值产生较大浮动,同时提高网络收敛速度;
将训练集加载到YOLOv5_DC网络模型中进行训练,并使用Varifocal Loss改进损失函数。损失函数通过测量预测值与实际值之间的差异,在确定模型的性能方面起着至关重要的作用。为了缓解正负样本之间的类不平衡问题,本发明搭建的YOLOv5_DC使用交叉熵函数Varifocal Loss计算锚框的损失值,具体可以表达为:
其中,q是目标锚框和标注框之间的交并比,当q=0时,表示该锚框为负样本,当q>0时,表示锚框为正样本,p是锚框对茶芽的预测概率,α和γ为可调节系数。
5.模型测试及应用说明
YOLOv5_DC模型训练完成后,在图像输入端还设置有图像增强判断模块和图像增强模块,用于在测试及实际应用时进行图像增强判断和图像增强,如图5所示,具体流程为:
S1,计算所有茶叶图像的平均灰度值AG,若AG值大于等于预设值T1,则对该图像进行亮度自适应校正,并进入S2;若AG值小于T1则直接输入到训练完成的YOLOv5_DC模型中;
S2,运用SLIC超像素分块算法进行图像分割,充分考虑区域内特征的相似性和区域间特征的差异性,以提高区域自适应校正的有效性;
SLIC算法结合了颜色信息和位置信息,聚类过程采用的是加权距离测量值D,具体计算方法为:
其中,lT表示灰度图像中的颜色空间;[xy]T表示的是像素点位置,[lkxkyk]T表示聚类中心;ds是空间相似度;dc是颜色相似度;
S3,对每个超像素块计算区域平均灰度值AG,若区域AG值大于等于预设值T2,则对该区域进行亮度自适应校正,否则区域亮度保持不变;
对该区域进行亮度自适应校正,是一种基于平均亮度估计适当伽马值的方法,校正所需要的伽马值γ计算方法为:
其中,X∈[0 1]为图像的平均亮度,是直方图亮度的中心,输出图像中的所有像素都将使用估计的γ值进行增强。
S4,将校正区域及未校正区域进行合并,得到校正增强后的图像,以输入训练完成的YOLOv5_DC模型中。
6.实验结果说明
本实施例中,模型使用对照方案为:原始YOLOv5网络模型,将主干网络中第二个和第三个CBS替换为DBS的YOLOv5网络模型,将颈部结构中最近邻插值替换为CARAFE算子的YOLOv5网络模型,使用Varifocal Loss函数代替Focal loss函数计算锚框的损失值的YOLOv5网络模型以及本实施例提出的完整改进的YOLOv5_DC网络模型,通过对比验证了本发明方法的整体表现最佳。
表1模型在茶叶数据集上消融实验结果
Model DCN CARAFE VFL P(%) R(%) AP(%) Params(M) GFLOPs
YOLOv5s × × × 83.8 77.8 85.1 7.02 15.9
YOLOv5s_D × × 87.6 82.5 88.5 7.07 14.3
YOLOv5s_C × × 87.2 81.3 87.9 7.15 16.2
YOLOv5s_V × × 86.4 80.5 87.2 7.02 15.9
YOLOv5s_DC × 88.2 82.3 88.8 7.20 14.8
YOLOv5s_DCV 89.8 84.2 90.6 7.20 14.7
如表1所示,消融实验的结果表明,所提出的YOLOv5_DCV模块具有有效性。具体而言,模型精度提高了5.0%,召回率提高了6.4%,平均精度(AP)提高了5.5%。
本实施例中,为了验证本发明提出的模型的有效性,对比当前主流的一阶段模型的综合表现。参与对比的模型有:SSD模型以及YOLO系列模型(YOLOv3\YOLOv4\YOLOv5\YOLOX\YOLOv7\YOLOv8)。从图6、图7可以看出,本发明提出的YOLOv5_DC模型,平均精度高,GLOPs值较小,具备最佳性能。表2中对比实验结果表明,与主流的单阶段目标检测算法(YOLOv8、YOLOv7、YOLOX、YOLOv5、YOLOv4、YOLOv3、SSD)相比,本发明方法的AP分别提高了2.5%、8.6%、5.8%、5.5%、7.2%、6.9%、5.9%。
表2不同检测模型性能对比
Model AP(%) P(%) R(%) Params(M) GFLOPs
SSD 84.7 78.7 81.3 26.8 36.3
YOLOv3 83.7 81.4 76.9 61.5 155.3
YOLOv4 83.4 80.2 77.9 63.9 141.9
YOLOv5s 85.1 83.8 77.8 7.0 15.9
YOLOX_s 84.8 84.6 80.5 13.7 26.8
YOLOv7 82.0 86.6 83.6 9.3 26.7
YOLOv8s 88.1 87.3 78.6 11.2 28.8
YOLOv5s_DCV 90.6 89.8 84.2 7.2 14.8
基于本实施例所搭建的YOLOv5_DC模型,在完成本步测试后,可以应用于具体的应用场景中,并包含以下过程:
实时采集茶叶图像数据;
将茶叶图像数据输入到上述搭建方法所搭建的茶芽检测模型中进行茶芽检测;
输出检测信息,包括茶芽在茶叶图像中的具体位置信息及各类置信度;
根据预先设置的阈值进行置信度筛选,获得最终的茶芽检测结果。
实施例2:
如图8所示,本发明同时提供了一种基于深度学习的茶芽检测设备,设备包括至少一个处理器和至少一个存储器,同时还包括通信接口和内部总线;存储器中存储有计算机执行程序;存储器中存储有如实施例1所述的搭建方法所搭建的茶芽检测模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行茶芽检测方法。其中内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(.XtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。其中存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
设备可以被提供为终端、服务器或其它形态的设备。
图8是为示例性示出的一种设备的框图。设备可以包括以下一个或多个组件:处理组件,存储器,电源组件,多媒体组件,音频组件,输入/输出(I/O)的接口,传感器组件,以及通信组件。处理组件通常控制电子设备的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件可以包括一个或多个处理器来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件可以包括一个或多个模块,便于处理组件和其他组件之间的交互。例如,处理组件可以包括多媒体模块,以方便多媒体组件和处理组件之间的交互。
存储器被配置为存储各种类型的数据以支持在电子设备的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件为电子设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。多媒体组件包括在所述电子设备和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件包括一个前置摄像头和/或后置摄像头。当电子设备处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。I/O接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件包括一个或多个传感器,用于为电子设备提供各个方面的状态评估。例如,传感器组件可以检测到电子设备的打开/关闭状态,组件的相对定位,例如所述组件为电子设备的显示器和小键盘,传感器组件还可以检测电子设备或电子设备一个组件的位置改变,用户与电子设备接触的存在或不存在,电子设备方位或加速/减速和电子设备的温度变化。传感器组件可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述虽然对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于深度学习的茶芽检测模型的搭建方法,其特征在于,包括以下步骤:
步骤1,采集筛选真实场景下茶叶原始图像数据,制作数据集,并按一定比例划分为训练集和测试集;
步骤2,对训练集图像进行标注及扩增,得到预处理后的训练集;
步骤3,基于YOLOv5模型结构,搭建一种能够聚焦茶芽细长形态特征的YOLOv5_DC模型;所述YOLOv5_DC模型在主干网络中引入可变形卷积DCNv2来实现茶芽特征自适应提取,并通过在颈部网络中引入轻量级上采样算子CARAFE来保留多层特征的语义和空间信息;
步骤4,使用交叉熵函数Varifocal Loss改进损失函数,并用步骤2预处理后的训练集对步骤3中的YOLOv5_DC模型进行训练;
步骤5,使用测试集中的图像数据对训练后的YOLOv5_DC模型进行测试,并完成最终模型的搭建。
2.如权利要求1所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于:所述YOLOv5_DC模型训练完成后,在图像输入端还设置有图像增强判断模块和图像增强模块,用于在测试及实际应用时进行图像增强判断和图像增强,具体流程为:
S1,计算所有茶叶图像的平均灰度值AG,若AG值大于等于预设值T1,则对该图像进行亮度自适应校正,并进入S2;若AG值小于T1则直接输入到训练完成的YOLOv5_DC模型中;
S2,运用SLIC超像素分块算法进行图像分割,充分考虑区域内特征的相似性和区域间特征的差异性,以提高区域自适应校正的有效性;
S3,对每个超像素块计算区域平均灰度值AG,若区域AG值大于等于预设值T2,则对该区域进行亮度自适应校正,否则区域亮度保持不变;
S4,将校正区域及未校正区域进行合并,得到校正增强后的图像,以输入训练完成的YOLOv5_DC模型中。
3.如权利要求2所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于:所述运用SLIC超像素分块算法进行图像分割,结合了颜色信息和位置信息,聚类过程采用加权距离测量值D,具体计算方法为:
其中,lT表示灰度图像中的颜色空间;[xy]T表示的是像素点位置,[lkxkyk]T表示聚类中心;ds是空间相似度;dc是颜色相似度;
所述对该区域进行亮度自适应校正,是一种基于平均亮度估计适当伽马值的方法,校正所需要的伽马值γ计算方法为:
其中,X∈[0 1]为图像的平均亮度,是直方图亮度的中心,输出图像中的所有像素都将使用估计的γ值进行增强。
4.如权利要求1所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于,所述步骤2中对训练集图像进行标注及扩增,具体为:
对自然场景下采集的茶叶图像原图按照尽可能多的保留茶芽样本的原则进行长宽1:1裁剪,将其长宽调整至640×640像素后划分为训练集和测试集;
数据标注,利用图片标注工具对图片进行手动标注,标注标准为单芽标注,标注后的标签文件以TXT格式保存;
数据增强,对标注的图像通过90度和180度翻转、垂直水平镜像变换、亮度增强及加入高斯噪声等操作进行数据扩增,同步生成对应的标注文件。
5.如权利要求1所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于,所述YOLOv5_DC模型包括主干网络、颈部网络和预测端;所述主干网络包括DBS模块、C3模块和SPPF模块,所述DBS模块由可变型卷积DCNv2、批量归一化层BN和SiLU激活函数层组成,旨在实现茶芽特征自适应提取;所述C3模块中采用残差结构来减小模型参数并提取更细粒度的特征;所述SPPF模块是由SPP模块改进而来,通过SPPF模块融合局部特征和全局特征,丰富了输出特征图的表达能力;所述颈部网络采用特征金字塔网络FPN和路径聚合网络PAN进行特征融合,使模型获得了丰富的特征信息;所述预测端通过三个具有不同大小特征图的检测层检测不同大小的目标。
6.如权利要求1所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于:所述步骤3中在主干网络中引入可变形卷积DCNv2来实现茶芽特征自适应提取具体为:
引入可变形卷积DCNv2设计DBS模块,使用DBS模块替换原始YOLOv5主干网络中的CBS模块;所述DCNv2通过在卷积核中每个采样点的位置引入一个偏移量变量,可在当前位置附近实现随机采样,并使采样网格能够自由变形,以提高模型关注目标的能力;同时,利用调制机制学习每个采样点的权值,调整输入特征在不同空间位置的幅值,来减少不相关图像内容对特征提取的影响,以提高模型对特征的关注能力;
在训练过程中,同时学习卷积核和偏移量,具体计算公式如下:
R={(-1,-1),(-1,0),...,(0,1),(1,1)
g(a,b)=max(0,1-|a-b|)
其中,R是感受野的大小和扩张;P表示任意位置,q枚举特征图x中所有积分空间位置;x(p)表示添加偏移量后该点在所有小数点位置上的值;Δm是调制标量。
7.如权利要求1所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于,所述步骤3中在颈部网络中引入轻量级上采样算子CARAFE,具体为:在模型搭建时引入轻量级上采样算子CARAFE替换颈部网络中的最近邻插值进行上采样,CAREFE包括内容感知重组模块和核预测模块,核预测模块由信道压缩器、内容编码器和核归一化器三个子模块组成;首先,利用信道压缩子模块对输入的特征信道进行压缩,其次,内容编码器子模块对压缩特征映射的内容进行编码,生成重组核,最后,内核规范化子模块对每个重组内核应用一个softmax函数。
8.如权利要求1所述的一种基于深度学习的茶芽检测模型的搭建方法,其特征在于,所述步骤4中使用交叉熵函数Varifocal Loss改进损失函数,具体为:
使用交叉熵函数Varifocal Loss计算锚框的损失值,具体可以表达为:
其中,q是目标锚框和标注框之间的交并比,当q=0时,表示该锚框为负样本,当q>0时,表示锚框为正样本,p是锚框对茶芽的预测概率,α和γ为可调节系数。
9.一种基于深度学习的茶芽检测方法,其特征在于,包括以下过程:
实时采集茶叶图像数据;
将茶叶图像数据输入到如权利要求1至8任意一项所述的搭建方法所搭建的茶芽检测模型中进行茶芽检测;
输出检测信息,包括茶芽在茶叶图像中的具体位置信息及各类置信度;
根据预先设置的阈值进行置信度筛选,获得最终的茶芽检测结果。
10.一种基于深度学习的茶芽检测设备,其特征在于:所述设备包括至少一个处理器和至少一个存储器,所述处理器和存储器相耦合;所述存储器中存储有如权利要求1至8任意一项所述的搭建方法所搭建的茶芽检测模型的计算机执行程序;所述处理器执行存储器中存储的计算机执行程序时,可以使处理器执行茶芽检测方法。
CN202310540349.3A 2023-05-15 2023-05-15 一种基于深度学习的茶芽检测方法及其模型搭建方法 Pending CN116580305A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310540349.3A CN116580305A (zh) 2023-05-15 2023-05-15 一种基于深度学习的茶芽检测方法及其模型搭建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310540349.3A CN116580305A (zh) 2023-05-15 2023-05-15 一种基于深度学习的茶芽检测方法及其模型搭建方法

Publications (1)

Publication Number Publication Date
CN116580305A true CN116580305A (zh) 2023-08-11

Family

ID=87535329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310540349.3A Pending CN116580305A (zh) 2023-05-15 2023-05-15 一种基于深度学习的茶芽检测方法及其模型搭建方法

Country Status (1)

Country Link
CN (1) CN116580305A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117468084A (zh) * 2023-12-27 2024-01-30 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备
CN117611998A (zh) * 2023-11-22 2024-02-27 盐城工学院 一种基于改进YOLOv7的光学遥感图像目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117611998A (zh) * 2023-11-22 2024-02-27 盐城工学院 一种基于改进YOLOv7的光学遥感图像目标检测方法
CN117468084A (zh) * 2023-12-27 2024-01-30 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备
CN117468084B (zh) * 2023-12-27 2024-05-28 浙江晶盛机电股份有限公司 晶棒生长控制方法、装置、长晶炉系统和计算机设备

Similar Documents

Publication Publication Date Title
JP7236545B2 (ja) ビデオターゲット追跡方法と装置、コンピュータ装置、プログラム
CN108229277B (zh) 手势识别、手势控制及多层神经网络训练方法、装置及电子设备
WO2020088280A1 (zh) 图像风格迁移方法和系统
CN116580305A (zh) 一种基于深度学习的茶芽检测方法及其模型搭建方法
CN108234882B (zh) 一种图像虚化方法及移动终端
AU2018301994B2 (en) Method of living body detection and terminal device
CN110956060A (zh) 动作识别、驾驶动作分析方法和装置及电子设备
CN112215795B (zh) 一种基于深度学习的服务器部件智能检测方法
US10810462B2 (en) Object detection with adaptive channel features
CN111950570B (zh) 目标图像提取方法、神经网络训练方法及装置
CN112101359B (zh) 文本公式的定位方法、模型训练方法及相关装置
CN107330387B (zh) 基于图像数据的行人检测方法
EP4287068A1 (en) Model training method, scene recognition method, and related device
CN110930329A (zh) 星空图像处理方法及装置
CN113239807B (zh) 训练票据识别模型和票据识别的方法和装置
US10180782B2 (en) Fast image object detector
CN115660945A (zh) 一种坐标转换方法、装置、电子设备及存储介质
CN110363702B (zh) 图像处理方法及相关产品
CN112711971A (zh) 终端消息处理方法及其图像识别方法、装置、介质和系统
CN110751004A (zh) 二维码检测方法、装置、设备及存储介质
CN112102175A (zh) 图像对比度的增强方法、装置、存储介质及电子设备
CN111145151A (zh) 一种运动区域确定方法及电子设备
CN115620054A (zh) 一种缺陷分类方法、装置、电子设备及存储介质
CN114882226A (zh) 图像处理方法、智能终端及存储介质
CN115223018A (zh) 伪装对象协同检测方法及装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination