CN116958643A - 一种基于yolo网络的气传花粉致敏植物智慧识别方法 - Google Patents
一种基于yolo网络的气传花粉致敏植物智慧识别方法 Download PDFInfo
- Publication number
- CN116958643A CN116958643A CN202310663606.2A CN202310663606A CN116958643A CN 116958643 A CN116958643 A CN 116958643A CN 202310663606 A CN202310663606 A CN 202310663606A CN 116958643 A CN116958643 A CN 116958643A
- Authority
- CN
- China
- Prior art keywords
- air
- yolo
- sensitized
- plant
- borne
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 8
- 210000000988 bone and bone Anatomy 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 230000008878 coupling Effects 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 claims description 3
- 238000005859 coupling reaction Methods 0.000 claims description 3
- 241000196324 Embryophyta Species 0.000 description 111
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 206010070834 Sensitisation Diseases 0.000 description 5
- 230000008313 sensitization Effects 0.000 description 5
- 241000894007 species Species 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 241000220487 Bauhinia Species 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 3
- 241000220225 Malus Species 0.000 description 2
- 235000018907 Tylosema fassoglense Nutrition 0.000 description 2
- 230000013016 learning Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 2
- 206010020751 Hypersensitivity Diseases 0.000 description 1
- 241000677647 Proba Species 0.000 description 1
- 206010039085 Rhinitis allergic Diseases 0.000 description 1
- 241000899648 Roystonea Species 0.000 description 1
- 241000219053 Rumex Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 201000009961 allergic asthma Diseases 0.000 description 1
- 230000000172 allergic effect Effects 0.000 description 1
- 201000010105 allergic rhinitis Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 208000010668 atopic eczema Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及植物智能识别技术领域,尤其涉及一种基于YOLO网络的气传花粉致敏植物智慧识别方法。该方法包括以下步骤:在城市街道中采集气传花粉致敏植物的视频数据,构建气传花粉致敏植物图像数据集;使用LabelImg软件将所述气传花粉致敏植物图像数据集内图像中气传花粉致敏植物的类别进行标注并自动生成.xml文件;对YOLOv8模型进行训练并优化,将训练后的最佳权重文件保存并得到YOLO气传花粉致敏植物智慧识别模型;输入待测视频数据或者待测图片,对视频数据进行检测并输出相应的目标检测结果。本发明的方法用于识别城市街道的花粉致敏植物,为城市社区布局、绿化树种选择和群落配置提供参考,具有识别精度高的特点。
Description
技术领域
本发明涉及植物智能识别技术领域,尤其涉及一种基于YOLO网络的气传花粉致敏植物智慧识别方法。
背景技术
气传花粉致敏植物指的是那些在其生长过程中,能够产生大量花粉,并且这些花粉能够通过空气传播,引起人体过敏反应的植物。参考《中国气传致敏花粉调查》、《中国气传花粉和植物彩色图谱》和《中国植物志》等文献资料,气传花粉致敏植物通常在春季和夏季高发,它们的花粉通常是微小而轻盈的,可以随着风力飘散到很远的地方,因此容易造成气传致敏反应,如过敏性鼻炎、哮喘等。而在城市建设过程中,不合理的城市社区布局和不当的绿化树种选择和群落配置,加剧了致敏植物花粉的致敏性。据报道,全球范围内约有30%城市人口遭受致敏花粉的困扰,而对人体健康有显著影响的致敏性花粉植物就已达400余种。因此,对气传花粉致敏植物的检测识别有助于对过敏人群的保护以及城市社区管理中的致敏植物风险管控工作的开展。
传统气传花粉致敏植物检测识别方法主要是以人工识别为主,其工作量大,且效率不高,同时需要工作人员具有丰富的植物学知识。此外,传统方法主要依靠人的主观判断,很大程度上对识别分类的准确性造成了影响。随着科技的不断进步,应用计算机领域的深度学习目标检测算法(RCNN、Fast RCNN、YOLO等)来实现植物的自动检测识别,能够大大提高工作效率。尽管近几年已有目标检查算法用于植物检测识别中,但在现有的研究中主要以检测植物的花朵、叶、果实以及病害检测居多,对于植物的整体检测尤其是花粉致敏植物的整体检测方面存在数据集不足、背景复杂、拍摄角度不佳、识别精度不高等检测问题。
发明内容
本发明的目的在于提出一种基于YOLO网络的气传花粉致敏植物智慧识别方法,用于识别城市街道的花粉致敏植物,为城市社区布局、绿化树种选择和群落配置提供参考,具有识别精度高的特点。
为达此目的,本发明采用以下技术方案:
一种基于YOLO网络的气传花粉致敏植物智慧识别方法,包括以下步骤:
S1、在城市街道中采集气传花粉致敏植物的视频数据,按帧数截取每个视频中的图像形成图片序列,以此构建气传花粉致敏植物图像数据集;
S2、使用LabelImg软件将所述气传花粉致敏植物图像数据集内图像中气传花粉致敏植物的类别进行标注并自动生成.xml文件;
S3、利用S2中的图像数据集对YOLO v8模型进行训练并优化,将训练后的最佳权重文件保存并得到YOLO气传花粉致敏植物智慧识别模型;
S4、在YOLO气传花粉致敏植物智慧识别模型中输入待测视频数据或者待测图片,对视频数据进行检测并输出相应的目标检测结果。
进一步的,所述步骤S1中,在不同季节的多种天气条件下采集城市街道中气传花粉致敏植物的视频数据;
按帧数截取每个视频中的图像形成图片序列,剔除图像中没有出现气传花粉致敏植物的图片后,构建气传花粉致敏植物图像数据集。
进一步的,所述步骤S2中,使用LabelImg软件对图片中的多种的气传花粉致敏植物进行人工手动标注名称,标注完成后对应生成符合YOLO网络标注格式的.xml文件;
所述.xml文件包括以下信息:文件名、图像大小、标注名称以及每个标注目标的坐标信息。
进一步的,所述步骤S3中,所述YOLO v8模型的骨干网络为Darknet53结构,所述Darknet53结构包括相互衔接的Backbone模块、Neck模块和Head模块;
所述Backbone模块用于对输入的图像进行特征提取转化为多层特征图,所述Neck模块用于对所述Backbone模块输出的特征图进行融合,所述Head模块用于耦合所述Neck模块的特征图输出;
所述Backbone模块和Neck模块均包括C2F单元,所述C2F单元用于对特征图进行处理输出为一维的特征向量,计算公式为:
text(C2F)(X)=text(FC)(text(Conv)(X)) (1)
其中,X为输入的特征图,text(Conv)表示卷积操作,text(FC)表示全连接操作。
进一步的,所述步骤S3中,对所述Head模块的耦合后的特征图采用FCOS算法进行预测,预测计算公式为:
x(i,j)=text(Conv)(x)(F(i,j))+j (2)
y(i,j)=text(Conv)(y)(F(i,j))+i (3)
w(i,j)=text(Conv)(w)(F(i,j)) (4)
h(i,j)=text(Conv)(h)(F(i,j)) (5)
其中,F(i,j)是特征图上(i,j)位置的像素点特征向量,text(Conv)(x)表示通过卷积操作预测的边界框的中心点的x坐标;text(Conv)(y)表示通过卷积操作预测的边界框的中心点的y坐标;text(Conv)(w)表示通过卷积操作预测的边界框的宽度;text(Conv)(h)表示通过卷积操作预测的边界框的高度;
像素点预测分类的计算公式如下:
P(i,j)c=text(Conv)(F(i,j)) (6)
其中,P(i,j)c表示像素点属于每个类别的概率,text(Conv)表示卷积操作;
采用像素点预测分类计算结果和预测计算结果为损失函数的输入,损失函数公式如下:
L=L(cls)+L(ctr)+L(box)+L(IoU) (7)
其中,L(cls)表示分类损失,L(ctr)表示中心点坐标损失,L(box)表示宽高信息损失,L(IoU)表示IoU Loss;
当L值大于设定的阈值时,所述Head模块的耦合后的特征图被视为正样本块。
进一步的,所述步骤S3中,以获得正样本块的方式利用S2中的图像数据集对YOLOv8模型进行训练并优化,训练后将最佳权重文件best.pt保存并得到YOLO气传花粉致敏植物智慧识别模型和训练结果。
进一步的,所述步骤S2中,所述气传花粉致敏植物图像数据集中图像和对应的.xml文件,划分为训练集、验证集和测试集;
所述训练集用于对所述YOLO v8模型进行训练,所述验证集用于对训练完成后的所述YOLO v8模型进行验证,以评估所述YOLO v8模型的训练结果;所述测试集用于对所述YOLO v8模型进行测试,以判断所述YOLO v8模型的识别准确率。
进一步的,所述步骤S3中,YOLO气传花粉致敏植物智慧识别模型的评价指标包括精确率(P)、召回率(R)、均值平均精度(mAP)和F1分数(F1 Score),计算公式为:
精确率:
召回率:
单个类别的平均精度:
均值平均精度:
F1分数:
其中,TP表示被正确检测出来的样本数量,FP表示被错误检测的样本数量,FN表示未被检测出的样本数量,r表示从0-1进行取值,,i表示单个类别的平均精度值的数量,1、2、3……n;class表示类别,N(class)表示类别的数量。
进一步的,所述步骤S4中:
将待测视频数据输入所述YOLO气传花粉致敏植物智慧识别模型;
所述YOLO气传花粉致敏植物智慧识别模型对待测视频数据进行处理,输出处理后的视频,所述处理后的视频的画面中若出现目标气传花粉致敏植物,则会以预测框标识目标气传花粉致敏植物,并对应每一预测框显示置信度。
进一步的,所述置信度的计算公式如下:
Confidence Score
=Objectness Score×Class Proba bility×IoU Score (13)
其中,Confidence Score表示置信度;a表示类别预测分支的输出;ObjectnessScore表示对象存在于检测窗口中的概率;Class Probability表示检测到的对象属于特定类的概率;IoU Score表示预测边界框与真实边界框之间的重叠程度。
本发明提供的技术方案可以包括以下有益效果:
本发明采集以城市街道为背景的气传花粉致敏植物的视频数据对YOLO v8模型进行训练并优化,获得YOLO气传花粉致敏植物智慧识别模型,该YOLO气传花粉致敏植物智慧识别模型能够识别待测视频数据中的气传花粉致敏植物,实现对城市街道的气传花粉致敏植物的识别,为城市社区布局、绿化树种选择和群落配置提供参考,具有识别精度高的特点。
而且,本发明以YOLO v8为主体网络模型的YOLO气传花粉致敏植物智慧识别模型,在不进行数据增强的情况下,仍具有高的预测精确率,并且本发明可对图片和视频进行检测识别,同时能兼顾检测速度和检测精度,在社区街道复杂的环境背景下对目标致敏植物的识别具有较好的鲁棒性。
附图说明
图1是本发明一个实施例的基于YOLO网络的气传花粉致敏植物智慧识别方法的流程图;
图2是YOLO v8模型的网络结构示意图;
图3是图2所示YOLO v8模型的C2F模块的网络结构示意图;
图4是图3所示C2F模块的Bottleneck的网络结构示意图;
图5是图2所示YOLO v8模型的SPPF单元的网络结构示意图;
图6是图2所示YOLO v8模型中CBS模块的网络结构示意图;
图7是本发明一实施例中模型训练各评价指标曲线示意图;
图8是本发明一实施例中带预测框图的识别效果图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,用于区别描述特征,无顺序之分,无轻重之分。
在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面结合图1至图8,描述本发明实施例的一种基于YOLO网络的气传花粉致敏植物智慧识别方法。
一种基于YOLO网络的气传花粉致敏植物智慧识别方法,包括以下步骤:
S1、在城市街道中采集气传花粉致敏植物的视频数据,按帧数截取每个视频中的图像形成图片序列,以此构建气传花粉致敏植物图像数据集;
S2、使用LabelImg软件将所述气传花粉致敏植物图像数据集内图像中气传花粉致敏植物的类别进行标注并自动生成.xml文件;
S3、利用S2中的图像数据集对YOLO v8模型进行训练并优化,将训练后的最佳权重文件保存并得到YOLO气传花粉致敏植物智慧识别模型;
S4、在YOLO气传花粉致敏植物智慧识别模型中输入待测视频数据或者待测图片,对视频数据进行检测并输出相应的目标检测结果。
在目标检测识别领域中,现有的植物数据集(PlantCLEF2015、Ecust104、Oxford102等)大多以植物器官的局部图像为主,图像背景单一,并且以草本植物居多,缺少木本植物的气传花粉致敏植物。同时,基于现有技术中气传花粉致敏植物检测识别的缺陷,本发明提供一种基于YOLO网络的气传花粉致敏植物智慧识别方法。本发明采集以城市街道为背景的气传花粉致敏植物的视频数据对YOLO v8模型进行训练并优化,获得YOLO气传花粉致敏植物智慧识别模型,该YOLO气传花粉致敏植物智慧识别模型能够识别待测视频数据中的气传花粉致敏植物,实现对城市街道的气传花粉致敏植物的识别,为城市社区布局、绿化树种选择和群落配置提供参考,具有识别精度高的特点。
值得说明的是,本发明中在城市街道中采集气传花粉致敏植物的视频数据对YOLOv8模型进行训练,该视频数据的背景为城市街道,背景单一;而且视频数据中具有气传花粉致敏植物多角度的图像,能有效提高YOLO气传花粉致敏植物智慧识别模型的识别精度。而且,在本发明的步骤S1中,按帧数截取每个视频中的图像形成图片序列,以此构建气传花粉致敏植物图像数据集,该图像数据集中有大量的图像,能对YOLO v8模型进行充分的训练,以进一步获得高识别精度的YOLO气传花粉致敏植物智慧识别模型。
另外,YOLO气传花粉致敏植物智慧识别模型对在城市街道拍摄的视频或者图片进行检测,对视频或图片中待测植物的拍摄角度要求低,降低采集待测视频的难度。
进一步的,所述步骤S1中,在不同季节的多种天气条件下采集城市街道中气传花粉致敏植物的视频数据;
按帧数截取每个视频中的图像形成图片序列,剔除图像中没有出现气传花粉致敏植物的图片后,构建气传花粉致敏植物图像数据集。
在本发明的一些实施方式中,通过采集在不同季节的多种天气条件下采集城市街道中气传花粉致敏植物的视频数据,对YOLO v8模型进行训练,所得到的YOLO气传花粉致敏植物智慧识别模型能对不同状态的气传花粉致敏植物进行识别,例如开花状态、未开花状态、落叶状态、新叶萌出状态;而且针对光线明暗状态不同的待测视频仍达到高的识别精度。
具体的,在本发明一实施例中,在广州市中,使用运动摄像机沿着街道对气传花粉致敏植物进行拍摄。气传花粉致敏植物在广州市内分布最广泛的两种致敏植物,分别为羊蹄甲属和大王椰子属两种木本植物。摄像机镜头参数为4K30FPS,其他设置为默认参数。考虑到光照强度和检测对象形态的多变性,可能会对检测速度和精度产生影响,因此,在视频采集方面选择在不同季节和天气条件下进行采集。通过Python程序将视频数据按帧数拆分成图片形成图片序列,具体的,视频帧数为30,每分钟的视频有1800帧,视频数据格式均为MP4。现将每个视频按每隔30帧截取一张图片的方式截取图像,图像格式均为JPG,并保存到对应的文件夹中。随后对截取的图片进行筛选,剔除图像中没有出现气传花粉致敏植物的图片后,剩下1560张图片,以此构建气传花粉致敏植物图像数据集。
进一步的,所述步骤S2中,使用LabelImg软件对图片中的多种的气传花粉致敏植物进行人工手动标注名称,标注完成后对应生成符合YOLO网络标注格式的.xml文件;
所述.xml文件包括以下信息:文件名、图像大小、标注名称以及每个标注目标的坐标信息。
在本发明的一些实施方式中,采用LabelImg软件对气传花粉致敏植物图像数据集进行处理,具有难度低,操作简单的特点。具体的,在本发明的一实施例中,使用LabelImg软件对羊蹄甲属植物和大王椰子属植物的图片进行人工手动标注,若目标植物整体面积标注标签分别为Bauhinia(羊蹄甲)和Roystonea(王棕)。标注完成后会自动对应生成符合YOLO网络标注格式的.xml文件,该文件包括以下字段:文件名、图像大小、标注名称以及每个标注目标四角标注点的坐标信息。
进一步的,所述步骤S2中,所述气传花粉致敏植物图像数据集中图像和对应的.xml文件,划分为训练集、验证集和测试集;
所述训练集用于对所述YOLO v8模型进行训练,所述验证集用于对训练完成后的所述YOLO v8模型进行验证,以评估所述YOLO v8模型的训练结果;所述测试集用于对所述YOLO v8模型进行测试,以判断所述YOLO v8模型的识别准确率。
具体的,各数据集的图像数量以训练集:验证集:测试集=7:2:1进行划分。验证集的作用如下:1.模型选择和调优:验证集用于评估不同模型或不同超参数设置的性能,并选择最佳的模型或超参数;通过在验证集上评估模型的性能,可以比较不同模型的表现,选择最优的模型进行进一步的应用;本发明中,验证集用于对训练后的YOLO v8模型进行验证,确定YOLO v8模型的选择;
2.防止过拟合:通过在验证集上监控模型的性能,可以及时检测到过拟合现象,并采取相应的措施,如正则化、调整模型复杂度等,以提高模型的泛化能力;
3.超参数调优:超参数是模型训练过程中需要手动设置的参数,如学习率、正则化参数等;通过在验证集上评估不同超参数设置的性能,可以选择最佳的超参数配置,以提高模型的性能和鲁棒性;
4.监控模型训练过程:在模型训练过程中,可以通过验证集的性能来监控模型的训练进展;观察验证集上的准确率或损失值的变化可以帮助判断模型是否出现了问题,如欠拟合或过拟合,以及调整训练策略。
进一步的,所述步骤S3中,所述YOLO v8模型的骨干网络为Darknet53结构,所述Darknet53结构包括相互衔接的Backbone模块、Neck模块和Head模块;
所述Backbone模块用于对输入的图像进行特征提取转化为多层特征图,所述Neck模块用于对所述Backbone模块输出的特征图进行融合,所述Head模块用于耦合所述Neck模块的特征图输出;
所述Backbone模块和Neck模块均包括C2F单元,所述C2F单元用于对特征图进行处理输出为一维的特征向量,计算公式为:
text(C2F)(X)=text(FC)(text(Conv)(X)) (1)
其中,X为输入的特征图,text(Conv)表示卷积操作,text(FC)表示全连接层。
具体的,Darknet53结构用于对气传花粉致敏植物的图像进行特征提取,主体由Backbone、Neck和Head组成,YOLO v8网络结构如图2所示。C2F单元即CSPLayer_2Conv,加了更多梯度流的信息并进一步模型轻量化,优化网络结构,提高模型的鲁棒性,在实际应用中能够降低对硬件的要求,可方便接入用于检测识别气传花粉致敏植物的设备中。
C2F模块包含了卷积层和全连接层,且C2F单元的输入是经过卷积神经网络预处理后的特征图,输出则是一维的特征向量。在C2F单元中,输入特征图X被输入到卷积层text(Conv)中进行卷积操作,得到一个输出特征图y后,输出特征图y被输入到全连接层text(FC)中,经过一系列的线性变换和激活函数处理,最终得到一个一维向量。
具体的,CSPLayer_2Conv:这是指网络架构中的自定义层,通常称为C2F单元。1.卷积层1:C2F单元从一个卷积层开始。该层对输入特征映射执行一组卷积操作。卷积是深度学习中的一个基本操作,它通过对输入数据应用过滤器来提取空间模式。
2.中心路径:中心路径是C2F单元的一个分支,专注于捕获输入特征映射的中心信息。它通常由一系列卷积层组成,这些层可以根据特定的体系结构而变化。中心路径的目的是提取和保留输入的中心细节和特征。
3.环绕路径:环绕路径是C2F单元的另一个分支,旨在捕获围绕中心区域的上下文信息。它还包括一组卷积层,与中心路径相比,它们可能具有不同的配置。环绕路径捕获了中心区域周围更广泛的环境和背景信息。
4.融合:将中心路径和环绕路径组合或融合,以整合提取的信息。聚变过程可以采取不同的形式,例如元素加法、串联或其他聚变操作。目标是有效地合并中心和周围的特性,利用它们的互补性。
5.卷积层2(Convolutional Layer 2):融合后的特征再经过另一层卷积层进行处理。这个额外的层精炼融合的特征,提取更适合后续任务或网络层的更抽象的表示。
总的来说,C2F单元(CSPLayer_2Conv)被设计为捕获输入特征映射的中心信息和上下文信息。它使用融合技术将这两种类型的特征结合起来,然后用另一个卷积层对它们进行细化。这个单元帮助网络学习更多的判别和上下文表示,从而提高了各种计算机视觉任务的性能。
需要说明的是,Backbone模块中具有SPPF单元,SPPF单元的作用是增强空间信息。SPPF单元通过空间金字塔池(SPP)融合多尺度空间信息,并将其与原始特征融合,使模型能够捕获细粒度细节和上下文信息,从而提高目标检测和识别性能。
进一步的,所述步骤S3中,对所述Head模块的耦合后的特征图采用FCOS算法进行预测,预测计算公式为:
x(i,j)=text(Conv)(x)(F(i,j))+j (2)
y(i,j)=text(Conv)(y)(F(i,j))+i (3)
w(i,j)=text(Conv)(w)(F(i,j)) (4)
h(i,j)=text(Conv)(h)(F(i,j))+j (5)
其中,F(i,j)是特征图上(i,j)位置的像素点特征向量,text(Conv)(x):表示通过卷积操作预测的边界框的中心点的x坐标,即边界框在输入图像中的水平位置;text(Conv)(y):表示通过卷积操作预测的边界框的中心点的y坐标,即边界框在输入图像中的垂直位置;text(Conv)(w):表示通过卷积操作预测的边界框的宽度,即边界框在输入图像中的水平跨度;text(Conv)(h):表示通过卷积操作预测的边界框的高度,即边界框在输入图像中的垂直跨度。
像素点预测分类的计算公式如下:
P(i,j)c=text(Conv)(F(i,j))+j (6)
其中,P(i,j)c表示像素点属于每个类别的概率,text(Conv)表示卷积操作;
采用像素点预测分类计算结果和预测计算结果为损失函数的输入,损失函数公式如下:
L=L(cls)+L(ctr)+L(bos)+L(IoU) (7)
其中,L(cls)表示分类损失,L(ctr)表示中心点坐标损失,L(box)表示宽高信息损失,L(IoU)表示IoU Loss;
当L值大于设定的阈值时,所述Head模块的耦合后的特征图被视为正样本块。
在本发明的一些实施方式中,使用FCOS(Fully Convolutional One-StageObject)算法将特征图上的每个像素点作为中心点,直接预测目标的中心点坐标和宽高信息,同时对每个像素点预测目标的类别,不需要预定义锚框。具体的,预测计算公式中,x(i,j)和y(i,j)是相对于特征图上的像素点(i,j)的偏移量。FCOS通过计算后获得多个正样本块的feature map,然后使用这些正样本块进行回归操作,该回归操作在预测(prediction)阶段中进行,以获得比较好的性能提升。
FCOS算法的损失函数中,分类损失是对分类分支的交叉熵损失,中心点坐标损失和宽高信息损失是对预测值和真实值之间的L1距离损失。同时,FCOS算法还引入了一个IoULoss来约束预测框和真实框之间的IoU值。
进一步的,所述步骤S3中,以获得正样本块的方式利用S2中的图像数据集对YOLOv8模型进行训练并优化,训练后将最佳权重文件best.pt保存并得到YOLO气传花粉致敏植物智慧识别模型和训练结果。
进一步的,所述步骤S3中,YOLO气传花粉致敏植物智慧识别模型的评价指标包括精确率(P)、召回率(R)、均值平均精度(mAP)和F1分数(F1 Score),计算公式为:
精确率:
召回率:
单个类别的平均精度:
均值平均精度:
F1分数:
其中,TP表示被正确检测出来的样本数量,FP表示被错误检测的样本数量,FN表示未被检测出的样本数量,r表示从0-1进行取值,从而利用公式进行求导。字母本身没具体含义;i表示单个类别的平均精度值的数量,1、2、3……n;class表示类别,N(class)表示类别的数量。
在本发明的一个优选方案中,训练过程的硬件环境:CPU为Intel(R)Xeon(R),20核,型号为Platinum 8255C,主频为2.5G Hz,内存为64G。采用GPU加速训练,可加快所述模型对气传花粉致敏植物识别,GPU型号为NVIDIA GeForce RTX3090,显存大小为24G。训练过程的软件环境:操作系统为Windows 10,Python版本为3.8.10,深度学习框架为Pytorch1.11.0,Cuda 11.3。
利用所述的气传花粉致敏植物图像数据集对优化后的YOLO v8网络模型训练,网络模型训练参数设置如下:输入图像尺寸为640*640*3,多线程数据加载为8,优化器选择SGD,初始学习率为0.01,训练批量大小由默认值16修改为8,其他训练参数为默认。经过多次实验证明,训练模型在前300轮已经模型收敛,故模型训练的轮次为300,训练后将最佳权重文件best.pt保存并得到YOLO气传花粉致敏植物智慧识别模型和训练结果。
本发明中以精确率(P)、召回率(R)、均值平均精度(mAP)和F1分数(F1 Score)为评价指标,对YOLO气传花粉致敏植物智慧识别模型进行评价,具体的,TP表示真正例,即被正确检测出来的样本数量,FP表示假正例,即被错误检测的样本数量,FN表示假负例,即未被检测出的样本数量;AP表示单个类别的平均精度,由召回率与精确度生成的P-R曲线与横纵坐标轴包围的面积所构成,通过积分的方式可以计算包围的面积大小。参照图6,在本发明的一个优选的方案中,模型经过训练后,得到P、R、mAP和F1分数分别为91.9%、98.0%、95.1%和90.0%,该结果表示本模型具有良好的检测精度用于检测识别木本类的气传花粉致敏植物。
进一步的,所述步骤S4中:
将待测视频数据输入所述YOLO气传花粉致敏植物智慧识别模型;
所述YOLO气传花粉致敏植物智慧识别模型对待测视频数据进行处理,输出处理后的视频,所述处理后的视频的画面中若出现目标气传花粉致敏植物,则会以预测框标识目标气传花粉致敏植物,并对应每一预测框显示置信度。
在本发明的一实施方式中,在终端窗口将准备好的视频数据输入到YOLO气传花粉致敏植物智慧识别模型中,输入视频数据格式均为MP4。YOLO气传花粉致敏植物智慧识别模型将视频数据分解成一帧帧的图像形成图片序列,然后对图像进行推理并鉴别是否为气传花粉致敏植物,同时进行检测分类。经过YOLO气传花粉致敏植物智慧识别模型处理后的视频,其视频画面中若出现目标气传花粉致敏植物,则会出现预测框并显示置信度。置信度是针对模型预测的每个边界框计算的,用于对检测进行排名并决定要保留哪些检测以及丢弃哪些检测。
进一步的,所述置信度的计算公式如下:
Confidence Score
=Objectness Score×Class Probability×IoU Score (13)
其中,Confidence Score表示置信度;a表示类别预测分支的输出;ObjectnessScore表示对象存在于检测窗口中的概率;Class Probability表示检测到的对象属于特定类的概率;IoU Score表示预测边界框与真实边界框之间的重叠程度。
置信度的计算公式中,Objectness Score表示对象存在于检测窗口中的概率,用逻辑回归进行计算,它的值介于0和1之间。Class Probability表示检测到的对象属于特定类的概率,与客观性分数一样,该特定类的概率使用逻辑回归进行计算,并且是介于0和1之间的值。IoU Score表示预测边界框与真实边界框之间的重叠程度,并使用标准并集交叉(IoU)指标计算。IoU Score是介于0和1之间的值,其中值为1时,表示预测边界框和真实边界框之间的完美重叠。经过YOLO气传花粉致敏植物智慧识别模型处理后的视频检测分类效果和预测框图如图8所示。参照图8,YOLO气传花粉致敏植物智慧识别模型能将待测视频中的气传花粉致敏植物全部标识出,用户不仅能获知气传花粉致敏植物的种类,还能根据识别结果获知气传花粉致敏植物在视频范围内的城市街道的群落配置。
根据本发明实施例的一种基于YOLO网络的气传花粉致敏植物智慧识别方法的其他构成等以及操作对于本领域普通技术人员而言都是已知的,这里不再详细描述。
在本说明书的描述中,参考术语“实施例”、“示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于YOLO网络的气传花粉致敏植物智慧识别方法,其特征在于,包括以下步骤:
S1、在城市街道中采集气传花粉致敏植物的视频数据,按帧数截取每个视频中的图像形成图片序列,以此构建气传花粉致敏植物图像数据集;
S2、使用LabelImg软件将所述气传花粉致敏植物图像数据集内图像中气传花粉致敏植物的类别进行标注并自动生成.xml文件;
S3、利用S2中的图像数据集对YOLO v8模型进行训练并优化,将训练后的最佳权重文件保存并得到YOLO气传花粉致敏植物智慧识别模型;
S4、在YOLO气传花粉致敏植物智慧识别模型中输入待测视频数据或者待测图片,对视频数据进行检测并输出相应的目标检测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,在不同季节的多种天气条件下采集城市街道中气传花粉致敏植物的视频数据;
按帧数截取每个视频中的图像形成图片序列,剔除图像中没有出现气传花粉致敏植物的图片后,构建气传花粉致敏植物图像数据集。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2中,使用LabelImg软件对图片中的多种的气传花粉致敏植物进行人工手动标注名称,标注完成后对应生成符合YOLO网络标注格式的.xml文件;
所述.xml文件包括以下信息:文件名、图像大小、标注名称以及每个标注目标的坐标信息。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3中,所述YOLO v8模型的骨干网络为Darknet53结构,所述Darknet53结构包括相互衔接的Backbone模块、Neck模块和Head模块;
所述Backbone模块用于对输入的图像进行特征提取转化为多层特征图,所述Neck模块用于对所述Backbone模块输出的特征图进行融合,所述Head模块用于耦合所述Neck模块的特征图输出;
所述Backbone模块和Neck模块均包括C2F单元,所述C2F单元用于对特征图进行处理输出为一维的特征向量,计算公式为:
text(C2F)(X)=text(FC)(text(Conv)(X)) (1)
其中,X为输入的特征图,text(Conv)表示卷积操作,text(FC)表示全连接操作。
5.根据权利要求4所述的方法,其特征在于,所述步骤S3中,对所述Head模块的耦合后的特征图采用FCOS算法进行预测,预测计算公式为:
x(i,j)=text(Conv)(x)(F(i,j))+j (2)
y(i,j)=text(Conv)(y)(F(i,j))+i (3)
w(i,j)=text(Conv)(w)(F(i,j)) (4)
h(i,j)=text(Conv)(h)(F(i,j)) (5)
其中,F(i,j)是特征图上(i,j)位置的像素点特征向量,text(Conv)(x)表示通过卷积操作预测的边界框的中心点的x坐标;text(Conv)(y)表示通过卷积操作预测的边界框的中心点的y坐标;text(Conv)(w)表示通过卷积操作预测的边界框的宽度;text(Conv)(h)表示通过卷积操作预测的边界框的高度;
像素点预测分类的计算公式如下:
P(i,j)c=text(Conv)(F(i,j)) (6)
其中,P(i,j)c表示像素点属于每个类别的概率,text(Conv)表示卷积操作;
采用像素点预测分类计算结果和预测计算结果为损失函数的输入,损失函数公式如下:
l=L(cls)+L(ctr)+L(box)+L(IoU) (7)
其中,L(cls)表示分类损失,L(ctr)表示中心点坐标损失,L(box)表示宽高信息损失,L(IoU)表示IoU Loss;
当L值大于设定的阈值时,所述Head模块的耦合后的特征图被视为正样本块。
6.根据权利要求1所述的方法,其特征在于,所述步骤S3中,以获得正样本块的方式利用S2中的图像数据集对YOLOv8模型进行训练并优化,训练后将最佳权重文件best.pt保存并得到YOLO气传花粉致敏植物智慧识别模型和训练结果。
7.根据权利要求1所述的方法,其特征在于,所述步骤S2中,所述气传花粉致敏植物图像数据集中图像和对应的.xml文件,划分为训练集、验证集和测试集;
所述训练集用于对所述YOLO v8模型进行训练,所述验证集用于对训练完成后的所述YOLO v8模型进行验证,以评估所述YOLO v8模型的训练结果;所述测试集用于对所述YOLOv8模型进行测试,以判断所述YOLO v8模型的识别准确率。
8.根据权利要求1所述的方法,其特征在于,所述步骤S3中,YOLO气传花粉致敏植物智慧识别模型的评价指标包括精确率(P)、召回率(R)、均值平均精度(mAP)和F1分数(F1Score),计算公式为:
精确率:
召回率:
单个类别的平均精度:
均值平均精度:
F1分数:
其中,TP表示被正确检测出来的样本数量,FP表示被错误检测的样本数量,FN表示未被检测出的样本数量,r表示从0-1进行取值,,i表示单个类别的平均精度值的数量,1、2、3……n;class表示类别,N(class)表示类别的数量。
9.根据权利要求1所述的方法,其特征在于,所述步骤S4中:
将待测视频数据输入所述YOLO气传花粉致敏植物智慧识别模型;
所述YOLO气传花粉致敏植物智慧识别模型对待测视频数据进行处理,输出处理后的视频,所述处理后的视频的画面中若出现目标气传花粉致敏植物,则会以预测框标识目标气传花粉致敏植物,并对应每一预测框显示置信度。
10.根据权利要求9所述的方法,其特征在于,所述置信度的计算公式如下:
Confidence Score
=Objectness Score×Class Probability×IoU Score (13)
其中,Confidence Score表示置信度;a表示类别预测分支的输出;
Objectness Score表示对象存在于检测窗口中的概率;Class Probability表示检测到的对象属于特定类的概率;IoU Score表示预测边界框与真实边界框之间的重叠程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663606.2A CN116958643A (zh) | 2023-06-06 | 2023-06-06 | 一种基于yolo网络的气传花粉致敏植物智慧识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310663606.2A CN116958643A (zh) | 2023-06-06 | 2023-06-06 | 一种基于yolo网络的气传花粉致敏植物智慧识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958643A true CN116958643A (zh) | 2023-10-27 |
Family
ID=88451905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310663606.2A Pending CN116958643A (zh) | 2023-06-06 | 2023-06-06 | 一种基于yolo网络的气传花粉致敏植物智慧识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958643A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876800A (zh) * | 2024-03-11 | 2024-04-12 | 成都千嘉科技股份有限公司 | 一种燃气热水器烟道安全隐患识别的方法 |
-
2023
- 2023-06-06 CN CN202310663606.2A patent/CN116958643A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876800A (zh) * | 2024-03-11 | 2024-04-12 | 成都千嘉科技股份有限公司 | 一种燃气热水器烟道安全隐患识别的方法 |
CN117876800B (zh) * | 2024-03-11 | 2024-05-17 | 成都千嘉科技股份有限公司 | 一种燃气热水器烟道安全隐患识别的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107016405B (zh) | 一种基于分级预测卷积神经网络的害虫图像分类方法 | |
CN110717481B (zh) | 一种利用级联卷积神经网络实现人脸检测的方法 | |
CN113392775B (zh) | 一种基于深度神经网络的甘蔗幼苗自动识别与计数方法 | |
CN111582234B (zh) | 基于uav和深度学习的大范围油茶林果智能检测与计数方法 | |
CN109684906B (zh) | 基于深度学习的检测红脂大小蠹的方法 | |
CN111178197A (zh) | 基于Mask R-CNN和Soft-NMS融合的群养粘连猪实例分割方法 | |
CN111126325A (zh) | 一种基于视频的智能人员安防识别统计方法 | |
CN108416314B (zh) | 图片重要人脸检测方法 | |
CN109344738A (zh) | 农作物病虫草害识别方法及装置 | |
CN111046728A (zh) | 一种基于特征金字塔网络的秸秆燃烧检测方法 | |
CN113822198B (zh) | 基于uav-rgb图像和深度学习的花生生长监测方法、系统及介质 | |
CN114627411A (zh) | 基于计算机视觉下并行检测的农作物生育期识别方法 | |
CN116958643A (zh) | 一种基于yolo网络的气传花粉致敏植物智慧识别方法 | |
CN116051996A (zh) | 一种基于多模态信息的二阶段农作物生长预测方法 | |
CN116058195B (zh) | 一种叶菜生长环境光照调控方法、系统及装置 | |
CN109242826B (zh) | 基于目标检测的移动设备端签状物根数计数方法及系统 | |
CN112613438A (zh) | 一种便携式柑橘在线测产仪 | |
CN117830788B (zh) | 一种多源信息融合的图像目标检测方法 | |
CN115330833A (zh) | 一种改进多目标跟踪的果实产量估算方法 | |
CN111027436A (zh) | 一种基于深度学习的东北黑木耳病虫害图像识别系统 | |
CN112084913B (zh) | 一种端到端的人体检测与属性识别方法 | |
CN116245855B (zh) | 作物品种鉴定方法、装置、设备及存储介质 | |
CN114700941B (zh) | 一种基于双目视觉的草莓采摘方法、机器人系统 | |
CN115690778A (zh) | 基于深度神经网络的成熟期水果的检测与跟踪计数的方法 | |
CN116152537A (zh) | 一种基于Yolov5s的15种林业害虫识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |