CN114882222A - 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 - Google Patents
改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 Download PDFInfo
- Publication number
- CN114882222A CN114882222A CN202210589525.8A CN202210589525A CN114882222A CN 114882222 A CN114882222 A CN 114882222A CN 202210589525 A CN202210589525 A CN 202210589525A CN 114882222 A CN114882222 A CN 114882222A
- Authority
- CN
- China
- Prior art keywords
- module
- target detection
- layer
- improved
- detection model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000010276 construction Methods 0.000 title claims description 14
- 241001122767 Theaceae Species 0.000 title abstract 5
- 238000010586 diagram Methods 0.000 claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 244000269722 Thea sinensis Species 0.000 claims description 27
- 230000004913 activation Effects 0.000 claims description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 235000009024 Ceanothus sanguineus Nutrition 0.000 claims description 7
- 240000003553 Leptospermum scoparium Species 0.000 claims description 7
- 235000015459 Lycium barbarum Nutrition 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000005286 illumination Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 11
- 235000006468 Thea sinensis Nutrition 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
- G06T7/66—Analysis of geometric attributes of image moments or centre of gravity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30181—Earth observation
- G06T2207/30188—Vegetation; Agriculture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法,构建改进的YOLOv5目标检测模型,通过在Backbone模块中设计改进的CSPDarknet53结构,改进的CSPDarknet53结构是在DarkNet53网络的基础上引入了Nonlinear mapping结构,对特征图进行特征提取。此外利用改进的YOLOv5目标检测模型对图像进行预测,输出茶叶嫩芽的目标检测和采摘区域的语义分割图;基于预测结果计算采摘点;最后输出带有采摘点信息的茶叶嫩芽图像,实现对茶叶嫩芽识别与采摘点定位。
Description
技术领域
本发明属于茶叶智能采摘及机器图像处理技术领域,尤其是改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法。
背景技术
茶树嫩芽的智能化采摘可以明显提高采茶的效率,而嫩芽的识别和采摘点的定位是实现茶叶嫩芽智能化采摘的基础。目前对茶树嫩芽的识别检测和采摘点定位的研究主要有两种方法。
一种是传统分割算法下,基于阈值法或结合颜色信息特征和边缘距离识别嫩芽,并进一步确定嫩芽质心,定为二维采摘点,此方法泛化能力较低,对于光照、拍摄角度、背景的要求较高,自然背景下对于茶叶嫩芽的精确识别与定位的效果并不理想。
另一种是基于深度学习的算法,利用目标检测算法识别定位出嫩芽,结合骨架提取法确定采摘点的二维坐标,但利用的目标检测算法基本上都是水平框,并不利于对茶叶嫩芽进行精确的识别定位,尤其是后续再进行的骨架提取确定采摘点,大大加长了任务的时间,且精确度不高。
发明内容
针对现有技术中存在的不足,本发明提出了一种改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法。
本发明所采用的技术方案如下:
一种改进的YOLOv5目标检测模型构建方法,包括如下部分:
步骤1,构建改进的YOLOv5目标检测模型结构,包括Backbone模块、Neck模块、Detect head模块和Segment head模块;
所述Backbone模块包括Focus结构和改进的CSPDarknet53结构;改进的CSPDarknet53结构是在DarkNet53网络的基础上引入了Nonlinear mapping结构,对特征图进行特征提取;改进的CSPDarknet53结构包括CBL模块、第一CSP1_X模块、第二CSP1_X模块、第一CSP_Res8模块、第二CSP_Res8模块、第一Nonlinear mapping模块、第一Nonlinearmapping模块构成;改进的CSPDarknet53结构的输入依次经过CBL模块、第一CSP1_X模块、第二CSP1_X模块,第二CSP1_X模块的输出一方面输入第一Nonlinear mapping模块得到特征图,另一方面输入第一CSP_Res8模块;CSP_Res8模块的输出一方面输入第二Nonlinearmapping模块得到特征图;另一方面输入第二CSP_Res8模块得到特征图。
Neck模块包括空间金字塔池模块SPP、3个注意力模块CBAM和特征金字塔网络FPN组成;
Detect head模块包括路径聚合网络PANet和YOLOv5目标检测头;
Segment head模块的输入是FPN的底层特征图,输出采摘区域的像素级语义分割图。
步骤2,准备训练数据集,并利用训练数据集对改进的YOLOv5目标检测模型进行训练。
进一步,第一CSP1_X模块含有1个残差块Res unit,记为CSP1_1;由CBL模块、1个残差块Res unit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成;第二CSP1_X模块含有5个残差块Res unit,记为CSP1_5;由CBL模块、5个残差块Resunit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成。
进一步,Nonlinear mapping模块是由卷积层Conv和非线性激活函数Leaky relu组成。
进一步,CSP_Res8模块由8个Res unit模块和CBM组件Concate张量拼接组成。
进一步,CBL模块是由卷积层Conv、批归一化层和非线性激活函数Leaky relu组成。
进一步,将Backbone模块的最后一层的输出特征图作为空间金字塔池模块的输入,空间金字塔池模块的输出经过第一注意力模块的处理;
将Backbone模块的倒数第二层的输出特征图作为第二注意力模块的输入;
将Backbone模块的倒数第三层的输出特征图作为第三注意力模块的输入;
进一步,第一注意力模块的输出结果输入进特征金字塔网络的顶层;
第二注意力模块的输出结果输入进特征金字塔网络的第二层;
第三注意力模块的输出结果输入进特征金字塔网络的第三层。
进一步,注意力模块是将通道注意力机制和空间注意力机制进行结合,
通道注意力机制的实现分为两个部分,对输入进来的单个特征层,分别进行全局平均池化和全局最大池化,之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,处理后的两个结果进行相加,取sigmoid激活函数,获得输入特征层每一个通道的权值后,将权值乘上原输入特征层;
空间注意力机制对输入进来的特征层,在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行堆叠,利用一次通道数为1的卷积调整通道数,然后取sigmoid,此时获得输入特征层每一个特征点的权值,在获得这个权值后,将这个权值乘上原输入特征层。
一种基于改进YOLOv5目标检测模型的茶叶嫩芽识别与采摘点定位方法,包括如下步骤:
步骤1、通过工业相机采集茶树嫩芽图像,输入到计算机中进行图像预处理,消除嫩芽图像中光照、噪声等因素的影响;
步骤2、将预处理后的图像输入采用上述方案构建的改进的YOLOv5目标检测模型中,利用改进的YOLOv5目标检测模型对图像进行预测,输出预测结果;预测结果即为茶叶嫩芽的目标检测和采摘区域的语义分割图;
步骤3、基于预测结果计算采摘点;最后输出带有采摘点信息的茶叶嫩芽图像。
进一步,采摘点计算的方法为:
扫描采摘区域的分割结果轮廓,获得采摘区域所有像素的坐标点,其中横轴为x轴,从左到右为正方向,纵轴为y轴,从上到下为正方向,采摘区域的像素的横坐标集合为{x1,x2,x3,...,xm},纵坐标集合为{y1,y2,y3,...,ym},m为整数,二维物体质心坐标计算公式具体如下式所示:
X,Y为茶叶嫩芽的采摘点二维坐标(X,Y)。
本发明的有益效果:
(1)在原有特征提取网络CSPDarknet53基础上裁剪最后一个跨阶段的残差块,将CSPDarknet53的最后一个CSP_Res结构生成的特征图通过反卷积上采样成高分辨率特征图,使网络输出的特征图具有更丰富的特征信息;在第二个CSP_Res结构单元中增加两个残差块,提升对茶树嫩芽小目标细节信息的非线性映射能力;
(2)在骨干网络提取出来的有效特征层上增加注意力模块CBAM,在空间和通道有序定位推断注意力权重,快速在茶叶图像中定位感兴趣区域,提高嫩芽的检测精度。
(3)联合目标检测与语义分割,在头部预测网络增加一个预测对象掩码的分割分支Segment head,即在目标检测网络的基础上增加对采摘区域进行分割的分支。提出一种可同时进行茶叶嫩芽目标检测和采摘区域分割的网络模型,仅使用一个算法,相对于只用单级的目标检测检测器来说,可以提高精度;相对于直接使用分割的算法来说,计算的效率高,泛化能力也会得到提高。
(4)嫩芽采摘点定位模块可以根据采摘区域的分割结果快速计算采摘点的坐标,提高总体的效率和精确性。
附图说明
图1是本方法总体技术流程图;
图2是本申请改进的YOLOv5网络结构示意图;
图3是现有DarkNet53网络结构示意图;
图4是本申请改进的CSPDarknet53的网络结构示意图;
图5是本申请注意力模块CBAM结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
一种改进的YOLOv5目标检测模型构建方法,包括如下部分:
步骤1,构建改进的YOLOv5目标检测模型结构,包括Backbone模块、Neck模块、Detect head模块和Segment head模块;各模块具体结构如下:
1、Backbone模块包括Focus结构和改进的CSPDarknet53结构;将待进行目标检测和语义分割的图像作为Backbone模块的输入;Focus结构内对输入的图像进行多次切片和卷积操作把608×608×3的图像变成304×304×32的特征图。改进的CSPDarknet53结构对特征图进行特征提取;改进的CSPDarknet53结构如附图4所示;改进的CSPDarknet53结构是在DarkNet53网络(如图3所示)的基础上引入了Nonlinear mapping结构。改进的CSPDarknet53结构包括CBL模块、2个CSP1_X模块、2个CSP_Res8模块以及2个Nonlinearmapping模块构成;在本实施例中,2个CSP1_X模块依次分别是CSP1_1和CSP1_5,CSP1_1、CSP1_5分别含有1个残差块Res unit、5个残差块Res unit。
改进的CSPDarknet53结构的输入依次经过CBL模块、CSP1_1模块、CSP1_5模块,CSP1_5模块的输出一方面输入第一Nonlinear mapping模块得到输出结果152×152的特征图,另一方面输入第一CSP_Res8模块;CSP_Res8模块的输出一方面输入第二Nonlinearmapping模块得到输出结果76×76的特征图;另一方面输入第二CSP_Res8模块得到输出结果38×38的特征图,从而优化对小目标的检测效果。
改进的CSPDarknet53结构中各模块的具体结构如下:
CBL模块是由卷积层Conv、批归一化层(BN层)和非线性激活函数Leaky relu组成。
CSP1_X模块是由CBL模块、X个残差块Res unit、卷积层Conv、Concat、批归一化层(BN层)、非线性激活函数Leaky relu和CBL模块组成;CSP1_X模块的工作机制分两条路进行处理,一条路是依次经过CBL模块、X个残差块Res unit、卷积层Conv处理,另一条路是经过卷积层Conv处理;两条路的处理结果经过Concat连接后再依次经过BN层、非线性激活函数Leaky relu和CBL模块处理,最后输出CSP1_X模块的输出。残差块Res unit由2个CBL模块组成的上分路和作为下分路的原输入进行add张量相加操作得到残差块Res unit的输出。
Nonlinear mapping模块是由卷积层Conv和非线性激活函数Leaky relu组成;使用Nonlinear mapping对特征图维度进行调整,改进了特征融合的细节,使得在输入图像分辨率为608×608情况下的输出特征图为152×152、76×76、38×38,从而优化对小目标的检测效果。
CSP_Res8模块由8个Res unit模块和CBM组件Concate张量拼接组成。
2、Neck模块包括空间金字塔池模块(SPP)、3个注意力模块(CBAM)和特征金字塔网络(FPN)组成;
将Backbone模块的最后一层的输出特征图作为空间金字塔池模块(SPP)的输入,空间金字塔池模块(SPP)的输出经过第一注意力模块的处理;
将Backbone模块的倒数第二层的输出特征图作为第二注意力模块的输入;
将Backbone模块的倒数第三层的输出特征图作为第三注意力模块的输入;
第一注意力模块的输出结果输入进特征金字塔网络(FPN)的顶层;
第二注意力模块的输出结果输入进特征金字塔网络(FPN)的第二层;
第三注意力模块的输出结果输入进特征金字塔网络(FPN)的第三层;
本申请中的注意力模块是将通道注意力机制和空间注意力机制进行结合,如图5所示,通道注意力模块能够反映输入特征图中可能存在目标的区域;空间注意模块对通道压缩,可以反映特征图中相应较高的像素点集合。
图5上半部分为通道注意力机制,通道注意力机制的实现分为两个部分,对输入进来的单个特征层,分别进行全局平均池化和全局最大池化,之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,处理后的两个结果进行相加,取sigmoid激活函数,获得输入特征层每一个通道的权值(0-1之间)后,将权值乘上原输入特征层即可。
图5的下半部分为空间注意力机制,对输入进来的特征层,在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行堆叠,利用一次通道数为1的卷积调整通道数,然后取sigmoid,此时获得输入特征层每一个特征点的权值(0-1之间),在获得这个权值后,将这个权值乘上原输入特征层即可。
CBAM模块引入残差网络的实现方式具体如下表达式。
通道注意力机制在空间维度压缩输入特征图,经过多层感知机运算后按像素点相加输出Mc(F),最后再与输入特征进行像素级的点乘得到F′;空间注意模块以F′为输入,在通道压缩特征图得到Ms(F′),最后与输入F′进行像素级点乘,得到F″,实现目标的聚焦。Sigmoid函数之后的显著图的值在[0,1]之间,它可以降低噪声并相对的增强对象信息。由于显著图是连续的,因此不会完全消除背景信息,有利于网络保留某些关联信息并提高检测网络的鲁棒性。
3、Detect head模块包括路径聚合网络(PANet)和YOLOv5目标检测头,路径聚合网络是一种自底向上的特征金字塔网络,PANet自下而上传递定位特征,将PANet与FPN结合起来获得更好的特征融合效果,然后直接使用PANet中的多尺度融合特征图进行检测。每个网格的多尺度特性映射将分配三个不同纵横比的锚,检测头将预测位置的偏移和高度和宽度的比例,以及相应的每个类别的概率和置信度。
4、Segment head模块的输入是FPN的底层特征图,其大小为(W/8,H/8,256),最后输出采摘区域的像素级语义分割图。
步骤2,准备训练数据集,并利用训练数据集对改进的YOLOv5目标检测模型进行训练。
准备训练数据集:把相机拍摄角度范围控制在40°~60°内拍摄茶丛图像,对茶叶嫩芽部分进行目标检测标注;从上到下观察,采摘区域定义为茎上位于最后一片嫩芽与第一片老叶之间的区域,采摘区域部分进行语义分割标注,得到训练数据集。
基于上述方法构建的改进的YOLOv5目标检测模型,本申请利用该改进的YOLOv5目标检测模型实现对茶树嫩芽的识别与采摘点定位;具体如下:
一种基于改进YOLOv5目标检测模型的茶叶嫩芽识别与采摘点定位方法,包括如下步骤:
步骤1、通过工业相机采集茶树嫩芽图像,输入到计算机中进行图像预处理,消除嫩芽图像中光照、噪声等因素的影响。在本实施例中,图像预处理具体可以采用去噪处理、图像增强。
步骤2、将预处理后的图像输入采用上述方案构建的改进的YOLOv5目标检测模型中,利用改进的YOLOv5目标检测模型对图像进行预测,输出预测结果;预测结果即为茶叶嫩芽的目标检测和采摘区域的语义分割图。
步骤3、基于预测结果计算采摘点;最后输出带有采摘点信息的茶叶嫩芽图像。
1、采摘点计算的方法为:
扫描采摘区域的分割结果轮廓,获得采摘区域所有像素的坐标点,其中横轴为x轴,从左到右为正方向,纵轴为y轴,从上到下为正方向,采摘区域的像素的横坐标集合为{x1,x2,x3,...,xm},纵坐标集合为{y1,y2,y3,...,ym},m为整数,二维物体质心坐标计算公式具体如下式所示:
所计算出来的X,Y即为茶叶嫩芽的采摘点二维坐标(X,Y)。
2、在本实施例中,可以调用PIL库中的Image.blend子函数实现茶叶嫩芽图和嫩芽采摘点信息进行融合。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
Claims (10)
1.一种改进的YOLOv5目标检测模型构建方法,其特征在于,包括如下部分:
步骤1,构建改进的YOLOv5目标检测模型结构,包括Backbone模块、Neck模块、Detecthead模块和Segment head模块;
所述Backbone模块包括Focus结构和改进的CSPDarknet53结构;改进的CSPDarknet53结构是在DarkNet53网络的基础上引入了Nonlinear mapping结构,对特征图进行特征提取;改进的CSPDarknet53结构包括CBL模块、第一CSP1_X模块、第二CSP1_X模块、第一CSP_Res8模块、第二CSP_Res8模块、第一Nonlinear mapping模块、第一Nonlinear mapping模块构成;改进的CSPDarknet53结构的输入依次经过CBL模块、第一CSP1_X模块、第二CSP1_X模块,第二CSP1_X模块的输出一方面输入第一Nonlinear mapping模块得到特征图,另一方面输入第一CSP_Res8模块;CSP_Res8模块的输出一方面输入第二Nonlinear mapping模块得到特征图;另一方面输入第二CSP_Res8模块得到特征图。
Neck模块包括空间金字塔池模块SPP、3个注意力模块CBAM和特征金字塔网络FPN组成;
Detect head模块包括路径聚合网络PANet和YOLOv5目标检测头;
Segment head模块的输入是FPN的底层特征图,输出采摘区域的像素级语义分割图。
步骤2,准备训练数据集,并利用训练数据集对改进的YOLOv5目标检测模型进行训练。
2.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,第一CSP1_X模块含有1个残差块Res unit,记为CSP1_1;由CBL模块、1个残差块Res unit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成;第二CSP1_X模块含有5个残差块Res unit,记为CSP1_5;由CBL模块、5个残差块Res unit、卷积层Conv、Concat、批归一化层、非线性激活函数Leaky relu和CBL模块组成。
3.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,Nonlinear mapping模块是由卷积层Conv和非线性激活函数Leaky relu组成。
4.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,CSP_Res8模块由8个Res unit模块和CBM组件Concate张量拼接组成。
5.根据权利要求1所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,CBL模块是由卷积层Conv、批归一化层和非线性激活函数Leaky relu组成。
6.根据权利要求1-5中任意一项权利要求所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,
将Backbone模块的最后一层的输出特征图作为空间金字塔池模块的输入,空间金字塔池模块的输出经过第一注意力模块的处理;
将Backbone模块的倒数第二层的输出特征图作为第二注意力模块的输入;
将Backbone模块的倒数第三层的输出特征图作为第三注意力模块的输入。
7.根据权利要求6所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,
第一注意力模块的输出结果输入进特征金字塔网络的顶层;
第二注意力模块的输出结果输入进特征金字塔网络的第二层;
第三注意力模块的输出结果输入进特征金字塔网络的第三层。
8.根据权利要求7所述的一种改进的YOLOv5目标检测模型构建方法,其特征在于,注意力模块是将通道注意力机制和空间注意力机制进行结合,
通道注意力机制的实现分为两个部分,对输入进来的单个特征层,分别进行全局平均池化和全局最大池化,之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,处理后的两个结果进行相加,取sigmoid激活函数,获得输入特征层每一个通道的权值后,将权值乘上原输入特征层;
空间注意力机制对输入进来的特征层,在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行堆叠,利用一次通道数为1的卷积调整通道数,然后取sigmoid,此时获得输入特征层每一个特征点的权值,在获得这个权值后,将这个权值乘上原输入特征层。
9.一种基于改进YOLOv5目标检测模型的茶叶嫩芽识别与采摘点定位方法,其特征在于,包括如下步骤:
步骤1、通过工业相机采集茶树嫩芽图像,输入到计算机中进行图像预处理,消除嫩芽图像中光照、噪声等因素的影响;
步骤2、将预处理后的图像输入采用权利要求1所述一种改进的YOLOv5目标检测模型构建方法构建的改进的YOLOv5目标检测模型中,利用改进的YOLOv5目标检测模型对图像进行预测,输出预测结果;预测结果即为茶叶嫩芽的目标检测和采摘区域的语义分割图;
步骤3、基于预测结果计算采摘点;最后输出带有采摘点信息的茶叶嫩芽图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589525.8A CN114882222B (zh) | 2022-05-27 | 2022-05-27 | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210589525.8A CN114882222B (zh) | 2022-05-27 | 2022-05-27 | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882222A true CN114882222A (zh) | 2022-08-09 |
CN114882222B CN114882222B (zh) | 2024-06-07 |
Family
ID=82678322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210589525.8A Active CN114882222B (zh) | 2022-05-27 | 2022-05-27 | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882222B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115187803A (zh) * | 2022-08-12 | 2022-10-14 | 仲恺农业工程学院 | 一种用于名优茶嫩芽采摘过程的定位方法 |
CN115272828A (zh) * | 2022-08-11 | 2022-11-01 | 河南省农业科学院农业经济与信息研究所 | 一种基于注意力机制的密集目标检测模型训练方法 |
CN115590584A (zh) * | 2022-09-06 | 2023-01-13 | 汕头大学(Cn) | 一种基于机械臂的毛囊取发控制方法及系统 |
CN117152544A (zh) * | 2023-10-31 | 2023-12-01 | 锐驰激光(深圳)有限公司 | 采茶方法、设备、存储介质及装置 |
CN118470712A (zh) * | 2024-07-11 | 2024-08-09 | 吉林农业大学 | 一种玉米株心识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113807276A (zh) * | 2021-09-23 | 2021-12-17 | 江苏信息职业技术学院 | 基于优化的YOLOv4模型的吸烟行为识别方法 |
CN113807215A (zh) * | 2021-08-31 | 2021-12-17 | 贵州大学 | 一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法 |
CN113901874A (zh) * | 2021-09-09 | 2022-01-07 | 江苏大学 | 一种基于改进R3Det旋转目标检测算法的茶叶嫩芽识别与采摘点定位方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
-
2022
- 2022-05-27 CN CN202210589525.8A patent/CN114882222B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2020103901A4 (en) * | 2020-12-04 | 2021-02-11 | Chongqing Normal University | Image Semantic Segmentation Method Based on Deep Full Convolutional Network and Conditional Random Field |
CN113807215A (zh) * | 2021-08-31 | 2021-12-17 | 贵州大学 | 一种结合改进注意力机制和知识蒸馏的茶叶嫩芽分级方法 |
CN113901874A (zh) * | 2021-09-09 | 2022-01-07 | 江苏大学 | 一种基于改进R3Det旋转目标检测算法的茶叶嫩芽识别与采摘点定位方法 |
CN113807276A (zh) * | 2021-09-23 | 2021-12-17 | 江苏信息职业技术学院 | 基于优化的YOLOv4模型的吸烟行为识别方法 |
CN114120019A (zh) * | 2021-11-08 | 2022-03-01 | 贵州大学 | 一种轻量化的目标检测方法 |
Non-Patent Citations (2)
Title |
---|
吕军;夏华;方梦瑞;周礼赞;: "基于AlexNet的茶叶嫩芽状态智能识别研究", 黑龙江八一农垦大学学报, no. 02, 20 April 2019 (2019-04-20) * |
胡臣辰;陈贤富;: "基于YOLO改进残差网络结构的车辆检测方法", 信息技术与网络安全, no. 09, 10 September 2020 (2020-09-10) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115272828A (zh) * | 2022-08-11 | 2022-11-01 | 河南省农业科学院农业经济与信息研究所 | 一种基于注意力机制的密集目标检测模型训练方法 |
CN115187803A (zh) * | 2022-08-12 | 2022-10-14 | 仲恺农业工程学院 | 一种用于名优茶嫩芽采摘过程的定位方法 |
CN115590584A (zh) * | 2022-09-06 | 2023-01-13 | 汕头大学(Cn) | 一种基于机械臂的毛囊取发控制方法及系统 |
CN115590584B (zh) * | 2022-09-06 | 2023-11-14 | 汕头大学 | 一种基于机械臂的毛囊取发控制方法及系统 |
CN117152544A (zh) * | 2023-10-31 | 2023-12-01 | 锐驰激光(深圳)有限公司 | 采茶方法、设备、存储介质及装置 |
CN117152544B (zh) * | 2023-10-31 | 2024-03-15 | 锐驰激光(深圳)有限公司 | 采茶方法、设备、存储介质及装置 |
CN118470712A (zh) * | 2024-07-11 | 2024-08-09 | 吉林农业大学 | 一种玉米株心识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114882222B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113065558B (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN114882222B (zh) | 改进YOLOv5目标检测模型构建方法及用于茶嫩芽识别与采摘点定位方法 | |
CN110135243B (zh) | 一种基于两级注意力机制的行人检测方法及系统 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN112288008B (zh) | 一种基于深度学习的马赛克多光谱图像伪装目标检测方法 | |
CN111753682B (zh) | 一种基于目标检测算法的吊装区域动态监控方法 | |
CN111160291B (zh) | 基于深度信息与cnn的人眼检测方法 | |
CN109376641B (zh) | 一种基于无人机航拍视频的运动车辆检测方法 | |
CN110781962B (zh) | 基于轻量级卷积神经网络的目标检测方法 | |
CN110991444A (zh) | 面向复杂场景的车牌识别方法及装置 | |
CN113901874A (zh) | 一种基于改进R3Det旋转目标检测算法的茶叶嫩芽识别与采摘点定位方法 | |
CN112381061A (zh) | 一种面部表情识别方法及系统 | |
CN112084952B (zh) | 一种基于自监督训练的视频点位跟踪方法 | |
CN112883850A (zh) | 一种基于卷积神经网络的多视角空天遥感图像匹配方法 | |
CN112101113B (zh) | 一种轻量化的无人机图像小目标检测方法 | |
CN111325828A (zh) | 一种基于三目相机的三维人脸采集方法及装置 | |
CN110826575A (zh) | 一种基于机器学习的水下目标识别方法 | |
CN111476167B (zh) | 一种基于“学生-t”分布辅助的一阶段方向遥感图像目标检测方法 | |
CN113112547A (zh) | 机器人及其重定位方法、定位装置及存储介质 | |
CN113989612A (zh) | 基于注意力及生成对抗网络的遥感影像目标检测方法 | |
CN115482523A (zh) | 轻量级多尺度注意力机制的小物体目标检测方法及系统 | |
CN115565130A (zh) | 一种无人值守系统及其基于光流的监控方法 | |
CN110647813A (zh) | 一种基于无人机航拍的人脸实时检测识别方法 | |
CN111738099B (zh) | 基于视频图像场景理解的人脸自动检测方法 | |
CN107358625B (zh) | 基于SPP Net和感兴趣区域检测的SAR图像变化检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |