CN117152735A - 一种基于改进yolov5s的番茄成熟度分级方法 - Google Patents
一种基于改进yolov5s的番茄成熟度分级方法 Download PDFInfo
- Publication number
- CN117152735A CN117152735A CN202311119458.4A CN202311119458A CN117152735A CN 117152735 A CN117152735 A CN 117152735A CN 202311119458 A CN202311119458 A CN 202311119458A CN 117152735 A CN117152735 A CN 117152735A
- Authority
- CN
- China
- Prior art keywords
- yolov5s
- model
- tomato
- detection
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 235000007688 Lycopersicon esculentum Nutrition 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 27
- 240000003768 Solanum lycopersicum Species 0.000 title claims description 66
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000012360 testing method Methods 0.000 claims abstract description 23
- 238000012795 verification Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000001514 detection method Methods 0.000 claims description 89
- 230000007246 mechanism Effects 0.000 claims description 30
- 238000002372 labelling Methods 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 13
- 230000003321 amplification Effects 0.000 claims description 8
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 8
- 238000013101 initial test Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 238000003709 image segmentation Methods 0.000 abstract description 3
- 241000227653 Lycopersicon Species 0.000 abstract 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 240000009088 Fragaria x ananassa Species 0.000 description 1
- 244000141359 Malus pumila Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910052729 chemical element Inorganic materials 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002420 orchard Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 235000021012 strawberries Nutrition 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于改进yolov5s的番茄成熟度分级方法,包括:获取图像;进行图像预处理,得到训练集、测试集和验证集;对yolov5s模型进行改进;采用训练集对改进后的yolov5s模型进行训练,得到训练好的yolov5s模型;采用测试集对训练好的yolov5s模型进行测试,利用测试集中的图片进行定性以及定量的相关指标的评估;将待分级的番茄图片输入训练好的yolov5s模型,训练好的yolov5s模型识别出成熟的番茄。本发明用高像素相机获取成熟番茄图像,将深度学习技术中的全卷积图像分割网络应用到番茄智能采摘中,根据实际使用场景对网络结构进行调整,利用采集的番茄图像数据集训练卷积神经网络,最终使网络能够自动检测成熟番茄。
Description
技术领域
本发明涉及深度学习和人工智能技术领域,尤其是一种基于改进yolov5s的番茄成熟度分级方法。
背景技术
番茄外观、尺寸、表面颜色是其外部品质分级的重要依据。目前我国在番茄的成熟度分级和大小检测方面主要依靠人工评价,具有很明显的不足,首先,缺乏客观的评价标准,在评价确定过程中,容易受到主观因素的干扰,造成相当大的误差;其次,生产番茄制品过程慢,未能满足工业化生产要求。随着科学技术的与时俱进,传统识别番茄成熟度及大小检测方式逐渐走向现代化检测模式。在番茄的成熟度分级方面虽然可以采用高光谱、化学元素等方法进行测量,但均对番茄产生一定伤害,且不利于实地环境数据分析。
目前,国内外测定番茄成熟度的常用方法还有仪器测量法,仪器测量法往往会对番茄造成一定的伤害,且不利于实地环境数据分析,仪器化检测的主流方法是近红外高光谱检测法,首先进行不同生长阶段西红柿高光谱图像的采集,其次对图像进行预处理,包括平滑处理、变量标准化、多元散射校正、导数处理等,通过主成分分析法对光谱数据进行降维,然后利用支持向量机建立西红柿成熟度光谱曲线的多元回归模型,最后比较不同模型的回归预测效果,但是该仪器成本均较高,不适合大面积使用。
近年来,基于人工智能的检测算法不断涌现,其中人工智能领域中的深度学习成为现在流行的目标检测算法。深度学习主要是经过大批的数据训练,模型可以自己学习类似物体的差异性,将一开始的图像转换为更抽象、更高级的表达,达到更高精度、准确度的检测效果。大部分到了成熟期待采摘的农作物,如苹果、橘子、草莓、番茄等,在对其识别过程中可能会出现目标部分被周围的叶片、枝干遮挡,同种目标之间或者目标与叶片之间颜色相近,目标的形状和大小各异等现象,这给检测系统实时、准确地识别提取目标带来了巨大困难。
发明内容
为了解决在番茄成熟度分级上人工测量法和仪器测量法的缺陷,以及常规目标检测算法的精度不足问题,本发明的目的在于提供一种能够对果园里的番茄进行自动识别,提取成熟番茄的精确信息的基于改进yolov5s的番茄成熟度分级方法。
为实现上述目的,本发明采用了以下技术方案:一种基于改进yolov5s的番茄成熟度分级方法,该方法包括下列顺序的步骤:
(1)获取图像:采用相机对番茄进行数据采集,获取番茄图像;
(2)进行图像预处理:对获取的番茄图像进行预处理,得到训练集、测试集和验证集;
(3)对yolov5s模型进行改进,得到改进后的yolov5s模型;
(4)采用训练集对改进后的yolov5s模型进行训练,得到训练好的yolov5s模型;
(5)采用测试集对训练好的yolov5s模型进行测试,利用测试集中的图片进行定性以及定量的相关指标的评估;
(6)将待分级的番茄图片输入训练好的yolov5s模型,训练好的yolov5s模型识别出成熟的番茄。
所述步骤(1)具体是指:采用相机对番茄进行数据采集,相机的像素为6100万,图像分辨率为9504×6336像素,保证获取的图片数据是从各个角度拍摄得到的,符合实际场景。
所述步骤(2)具体包括以下步骤:
(2a)进行初步筛选:根据实际需求筛选出符合要求的含有番茄目标的原始照片1200张,形成数据集;
(2b)进行标注:使用labelimg工具对数据集进行标注,将成熟的番茄标注为1,不成熟的番茄标注为0,其他区域为背景不标注,得到标注后的数据集;
(2c)进行数据集分类:将标注后的数据集中的900张图片作为初始训练集,150张作为初始验证集,150张作为初始测试集;
(2d)对初始训练集、初始验证集和初始测试集进行数据扩增,分别得到训练集、验证机和测试集:所述数据扩增包括旋转90°、旋转180°、旋转270°、水平翻转、垂直翻转、色彩抖动和高斯噪声,数据扩增后,所述训练集含有4500幅图像,验证集含有750幅图像,测试集含有750幅图像。
所述步骤(3)具体包括以下步骤:
(3a)增加检测层:在原始的yolov5s模型的三个检测层的基础上,增加一个小目标检测层,形成四个检测层,即:第一检测层、第二检测层、第三检测层和小目标检测层,当输入图像尺寸为640×640时,第一检测层对应的检测特征图大小为80×80,用于检测大小在8×8以上的目标;第二检测层对应的检测特征图大小为40×40,用于检测大小在16×16以上的目标;第三检测层对应的检测特征图大小为20×20,用于检测大小在32×32以上的目标;小目标检测层对应的检测特征图大小为160×160,用于检测大小在4×4以上的目标;
(3b)增加混合注意力机制模块:通过在原始的yolov5s模型的主干网络中引入混合注意力机制模块,所述混合注意力机制模块由通道注意力机制模块和空间注意力机制模块组成;
所述空间注意力机制模块对输入特征图进行全局平均池化和全局最大池化操作;将池化后的特征图按通道相加,得到两个1维向量;对这两个1维向量进行点积,形成一个注意力权重矩阵;将注意力权重矩阵应用于输入特征图,得到空间注意力调整后的特征图;
所述通道注意力机制模块对输入特征图进行全局平均池化和全局最大池化操作;使用全连接层MLP学习每个通道的权重;将学到的通道的权重应用于输入特征图,得到通道注意力调整后的特征图。
由上述技术方案可知,本发明的有益效果为:第一,用高像素相机获取成熟番茄图像,将深度学习技术中的全卷积图像分割网络应用到番茄智能采摘中,根据实际使用场景对网络结构进行调整,利用采集的番茄图像数据集训练卷积神经网络,最终使网络能够自动检测成熟番茄;第二,为了提高对番茄成熟度检测的精度,本发明对原始的yolov5s模型做出了以下改进:1)增加一个针对一个密集目标和小目标的小目标检测层;2)引入了混合注意力机制模块,通过以上改进,有效地提升了对大棚密集番茄检测的精度和有效的减少了番茄茎叶对检测的影响。
附图说明
图1为本发明的方法流程图;
图2为本发明中原始yolov5s模型的框架图;
图3为通道注意力机制模块的结构示意图;
图4为空间注意力机制模块的结构示意图;
图5为混合注意力机制模块的结构示意图;
图6为原始yolov5s模型的检测效果示意图;
图7为改进后的yolov5s模型的检测效果示意图。
具体实施方式
如图1所示,一种基于改进yolov5s的番茄成熟度分级方法,该方法包括下列顺序的步骤:
(1)获取图像:采用相机对番茄进行数据采集,获取番茄图像;
(2)进行图像预处理:对获取的番茄图像进行预处理,得到训练集、测试集和验证集;
(3)对yolov5s模型进行改进,得到改进后的yolov5s模型;
(4)采用训练集对改进后的yolov5s模型进行训练,得到训练好的yolov5s模型;
(5)采用测试集对训练好的yolov5s模型进行测试,利用测试集中的图片进行定性以及定量的相关指标的评估;
(6)将待分级的番茄图片输入训练好的yolov5s模型,训练好的yolov5s模型识别出成熟的番茄。
所述步骤(1)具体是指:采用相机对番茄进行数据采集,相机的像素为6100万,图像分辨率为9504×6336像素,保证获取的图片数据是从各个角度拍摄得到的,符合实际场景。
所述步骤(2)具体包括以下步骤:
(2a)进行初步筛选:根据实际需求筛选出符合要求的含有番茄目标的原始照片1200张,形成数据集;
(2b)进行标注:使用labelimg工具对数据集进行标注,将成熟的番茄标注为1,不成熟的番茄标注为0,其他区域为背景不标注,得到标注后的数据集;
(2c)进行数据集分类:将标注后的数据集中的900张图片作为初始训练集,150张作为初始验证集,150张作为初始测试集;
(2d)对初始训练集、初始验证集和初始测试集进行数据扩增,分别得到训练集、验证机和测试集:所述数据扩增包括旋转90°、旋转180°、旋转270°、水平翻转、垂直翻转、色彩抖动和高斯噪声,所述训练集含有4500幅图像,验证集含有750幅图像,测试集含有750幅图像。
如图2所示,原始的yolov5s模型是一种基于深度学习的目标检测模型,它是YOLOv5系列模型中的一个版本。yolov5s采用了一种新的网络结构,可以在保持高精度的同时,大幅提高检测速度。yolov5s的网络结构采用了CSP(Cross Stage Partial)结构,这种结构可以在保持高精度的同时,大幅提高计算效率。此外,yolov5s还采用了一种新的数据增强方法,它可以有效地提高模型的鲁棒性和泛化能力。yolov5s模型的输入是一张图片,输出是图片中所有目标的位置和类别。它可以用于各种应用场景,如智能安防、自动驾驶、工业检测等。在目标检测的各项指标中,yolov5s模型的精度、速度和效率都达到了目前较高水平。yolov5s的框架图如图2所示,其由主干网络(Backbone)、颈部(NECK)以及输出(Output)三个部分组成。主干网络即特征提取网络,主要包括切片结构(Focus)、卷积模块(Conv)、瓶颈层(C3)以及空间金字塔池化(spp)。颈部为特征融合网络,采用自顶向下与自底向上联合的特征融合方式,更好地融合了多尺度特征,然后传入检测层,经过非极大值抑制等后处理操作消除了大量冗余的预测框,最后输出置信度得分最高的预测类别,并返回目标位置的边框坐标。
所述步骤(3)具体包括以下步骤:
(3a)增加检测层:在原始的yolov5s模型的三个检测层的基础上,增加一个小目标检测层,形成四个检测层,即:第一检测层、第二检测层、第三检测层和小目标检测层,当输入图像尺寸为640×640时,第一检测层对应的检测特征图大小为80×80,用于检测大小在8×8以上的目标;第二检测层对应的检测特征图大小为40×40,用于检测大小在16×16以上的目标;第三检测层对应的检测特征图大小为20×20,用于检测大小在32×32以上的目标;小目标检测层对应的检测特征图大小为160×160,用于检测大小在4×4以上的目标;在四个检测层的作用下,网络深度进一步加深,可以在更深层次的网络中提取特征信息,以便能增强模型在拥挤目标下多尺度学习的能力,从而更好地学习密集目标的多级特征信息,提升模型在密集场景下的检测性能。
(3b)增加混合注意力机制模块:如图5所示,通过在原始的yolov5s模型的主干网络中引入混合注意力机制模块,所述混合注意力机制模块由通道注意力机制模块和空间注意力机制模块组成;
如图4所示,所述空间注意力机制模块对输入特征图进行全局平均池化和全局最大池化操作;将池化后的特征图按通道相加,得到两个1维向量;对这两个1维向量进行点积,形成一个注意力权重矩阵;将注意力权重矩阵应用于输入特征图,得到空间注意力调整后的特征图;
如图3所示,所述通道注意力机制模块对输入特征图进行全局平均池化和全局最大池化操作;使用全连接层MLP学习每个通道的权重;将学到的通道的权重应用于输入特征图,得到通道注意力调整后的特征图
混合注意力机制模块在保留原有通道注意力机制的基础上加入了空间注意力机制,从通道和空间两个方面对网络进行优化,使得优化后的网络可以从通道和空间两个角度获取更为有效的特征,进一步提高模型同时在通道和空间两个角度的特征提取效果,通过在原始的yolov5s模型的主干网络中引入混合注意力机制模块,可以抑制无关信息的干扰,保留待检测目标更多关键特征,使网络关注到更多小目标,提高检测精度。混合注意力机制模块是一个简单高效、即插即用的轻量级注意力模块,可以集成到任何CNN中,与基础模型一起进行端到端的训练,而且计算开销可忽略不计。
利用改进后的yolov5s模型进行训练:
在输入网络之前,图像会被缩放到指定的大小,例如640×640像素。这有助于保持输入图像的一致性,并提高检测速度。对这个feature map中的每一点设定预定个的ROI,从而获得多个候选ROI;yolov5s模型使用预定义的锚点框(Anchor Boxes)来预测目标对象的边界框。这些锚点框是根据训练集生成的,可以加速训练过程并提高检测性能。yolov5s模型在多个尺度上进行预测,以便检测不同大小的目标对象。具体来说,yolov5s模型在三个不同尺度的特征图上进行预测,每个尺度都有不同的锚点框。yolov5s模型输出的预测结果可能存在重叠的边界框,为了消除这些冗余预测,yolov5s模型使用非极大值抑制(NMS)算法来保留最具代表性的边界框。最后,yolov5s模型会将预测结果转换为实际的边界框坐标、类别标签和置信度得分,以便在原始图像上显示检测结果。
表1不同模块实验对比结果
平均精度mAP | 召回率R | |
初始yolov5s模型 | 75.64% | 76.63% |
yolov5s+小目标检测层 | 81.32% | 77.31% |
yolov5s+CBAM | 89.56% | 81.12% |
yolov5s+小目标检测层+CBAM | 93.12% | 85.67% |
根据上表表1的训练结果,可以得到在对模型进行改进以后,检测精度和召回率都有了比较明显的提升。根据改进前和改进后的训练结果对图片进行测试。通过测试发现,用原始的yolov5s模型训练出来的结果来检测成熟番茄时会出现漏检,重叠以及精度低等缺陷,而基于改进后的yolov5s模型的训练结果来进行检测,较好的解决了这些问题,说明改进后的yolov5s模型在番茄成熟度检测上有着很好的检测效果,如图6、图7所示。
综上所述,本发明用高像素相机获取成熟番茄图像,将深度学习技术中的全卷积图像分割网络应用到番茄智能采摘中,根据实际使用场景对网络结构进行调整,利用采集的番茄图像数据集训练卷积神经网络,最终使网络能够自动检测成熟番茄。
Claims (4)
1.一种基于改进yolov5s的番茄成熟度分级方法,其特征在于:该方法包括下列顺序的步骤:
(1)获取图像:采用相机对番茄进行数据采集,获取番茄图像;
(2)进行图像预处理:对获取的番茄图像进行预处理,得到训练集、测试集和验证集;
(3)对yolov5s模型进行改进,得到改进后的yolov5s模型;
(4)采用训练集对改进后的yolov5s模型进行训练,得到训练好的yolov5s模型;
(5)采用测试集对训练好的yolov5s模型进行测试;
(6)将待分级的番茄图片输入训练好的yolov5s模型,训练好的yolov5s模型识别出成熟的番茄。
2.根据权利要求1所述的基于改进yolov5s的番茄成熟度分级方法,其特征在于:所述步骤(1)具体是指:采用相机对番茄进行数据采集,相机的像素为6100万,图像分辨率为9504×6336像素,保证获取的图片数据是从各个角度拍摄得到的,符合实际场景。
3.根据权利要求1所述的基于改进yolov5s的番茄成熟度分级方法,其特征在于:所述步骤(2)具体包括以下步骤:
(2a)进行初步筛选:根据实际需求筛选出含有番茄目标的原始照片1200张,形成数据集;
(2b)进行标注:使用labelimg工具对数据集进行标注,将成熟的番茄标注为1,不成熟的番茄标注为0,其他区域为背景不标注,得到标注后的数据集;
(2c)进行数据集分类:将标注后的数据集中的900张图片作为初始训练集,150张作为初始验证集,150张作为初始测试集;
(2d)对初始训练集、初始验证集和初始测试集进行数据扩增,分别得到训练集、验证机和测试集:所述数据扩增包括旋转90°、旋转180°、旋转270°、水平翻转、垂直翻转、色彩抖动和高斯噪声,数据扩增后,所述训练集含有4500幅图像,验证集含有750幅图像,测试集含有750幅图像。
4.根据权利要求1所述的基于改进yolov5s的番茄成熟度分级方法,其特征在于:所述步骤(3)具体包括以下步骤:
(3a)增加检测层:在原始的yolov5s模型的三个检测层的基础上,增加一个小目标检测层,形成四个检测层,即:第一检测层、第二检测层、第三检测层和小目标检测层,当输入图像尺寸为640×640时,第一检测层对应的检测特征图大小为80×80,用于检测大小在8×8以上的目标;第二检测层对应的检测特征图大小为40×40,用于检测大小在16×16以上的目标;第三检测层对应的检测特征图大小为20×20,用于检测大小在32×32以上的目标;小目标检测层对应的检测特征图大小为160×160,用于检测大小在4×4以上的目标;
(3b)增加混合注意力机制模块:通过在原始的yolov5s模型的主干网络中引入混合注意力机制模块,所述混合注意力机制模块由通道注意力机制模块和空间注意力机制模块组成;
所述空间注意力机制模块对输入特征图进行全局平均池化和全局最大池化操作;将池化后的特征图按通道相加,得到两个1维向量;对这两个1维向量进行点积,形成一个注意力权重矩阵;将注意力权重矩阵应用于输入特征图,得到空间注意力调整后的特征图;
所述通道注意力机制模块对输入特征图进行全局平均池化和全局最大池化操作;使用全连接层MLP学习每个通道的权重;将学到的通道的权重应用于输入特征图,得到通道注意力调整后的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311119458.4A CN117152735A (zh) | 2023-09-01 | 2023-09-01 | 一种基于改进yolov5s的番茄成熟度分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311119458.4A CN117152735A (zh) | 2023-09-01 | 2023-09-01 | 一种基于改进yolov5s的番茄成熟度分级方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117152735A true CN117152735A (zh) | 2023-12-01 |
Family
ID=88900271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311119458.4A Pending CN117152735A (zh) | 2023-09-01 | 2023-09-01 | 一种基于改进yolov5s的番茄成熟度分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117152735A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117617002A (zh) * | 2024-01-04 | 2024-03-01 | 太原理工大学 | 一种用于番茄自动识别及智能采收的方法 |
CN117690124A (zh) * | 2023-12-13 | 2024-03-12 | 安徽农业大学 | 基于多尺度注意力机制的小番茄成熟度实时检测方法 |
CN117690124B (zh) * | 2023-12-13 | 2024-07-09 | 安徽农业大学 | 基于多尺度注意力机制的小番茄成熟度实时检测方法 |
-
2023
- 2023-09-01 CN CN202311119458.4A patent/CN117152735A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690124A (zh) * | 2023-12-13 | 2024-03-12 | 安徽农业大学 | 基于多尺度注意力机制的小番茄成熟度实时检测方法 |
CN117690124B (zh) * | 2023-12-13 | 2024-07-09 | 安徽农业大学 | 基于多尺度注意力机制的小番茄成熟度实时检测方法 |
CN117617002A (zh) * | 2024-01-04 | 2024-03-01 | 太原理工大学 | 一种用于番茄自动识别及智能采收的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147254B (zh) | 一种基于卷积神经网络的视频野外火灾烟雾实时检测方法 | |
Zhao et al. | Cloud shape classification system based on multi-channel cnn and improved fdm | |
CN113160192B (zh) | 复杂背景下基于视觉的压雪车外观缺陷检测方法及装置 | |
CN108230359B (zh) | 目标检测方法和装置、训练方法、电子设备、程序和介质 | |
CN107609525B (zh) | 基于剪枝策略构建卷积神经网络的遥感图像目标检测方法 | |
CN109509187B (zh) | 一种针对大分辨率布匹图像中的小瑕疵的高效检验算法 | |
CN111161311A (zh) | 一种基于深度学习的视觉多目标跟踪方法及装置 | |
KR102151688B1 (ko) | 작물의 숙도 판별 장치, 방법 및 그 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체 | |
CN114387520B (zh) | 一种用于机器人采摘的密集李子精准检测方法及其系统 | |
CN104268505A (zh) | 基于机器视觉的布匹疵点自动检测识别装置及方法 | |
CN111626993A (zh) | 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统 | |
CN104063713B (zh) | 一种基于随机蕨分类器的半自主在线学习方法 | |
CN110736709A (zh) | 一种基于深度卷积神经网络的蓝莓成熟度的无损检测方法 | |
CN110472575A (zh) | 一种基于深度学习和计算机视觉的串番茄成熟度检测方法 | |
Thakur et al. | An innovative approach for fruit ripeness classification | |
CN117152735A (zh) | 一种基于改进yolov5s的番茄成熟度分级方法 | |
CN115099297B (zh) | 一种基于改进型YOLO v5模型的大豆植株表型数据统计方法 | |
CN116863274A (zh) | 一种基于半监督学习的钢板表面缺陷检测方法及系统 | |
CN111340019A (zh) | 基于Faster R-CNN的粮仓害虫检测方法 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN115830302B (zh) | 一种多尺度特征提取融合配电网设备定位识别方法 | |
CN112184627A (zh) | 基于图像处理与神经网络的柑橘保鲜品质检测方法及应用 | |
CN116958073A (zh) | 基于注意力特征金字塔机制的小样本钢材缺陷检测方法 | |
CN111046861B (zh) | 识别红外影像的方法、构建识别模型的方法及应用 | |
CN114882303A (zh) | 一种基于帧过滤和目标检测的牲畜计数方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |