CN116310338A - 一种基于实例和语义分割的单株荔枝红叶梢分割方法 - Google Patents
一种基于实例和语义分割的单株荔枝红叶梢分割方法 Download PDFInfo
- Publication number
- CN116310338A CN116310338A CN202310290897.5A CN202310290897A CN116310338A CN 116310338 A CN116310338 A CN 116310338A CN 202310290897 A CN202310290897 A CN 202310290897A CN 116310338 A CN116310338 A CN 116310338A
- Authority
- CN
- China
- Prior art keywords
- litchi
- segmentation
- red leaf
- net
- canopy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000183278 Nephelium litchi Species 0.000 title claims abstract description 171
- 230000011218 segmentation Effects 0.000 title claims abstract description 124
- 240000000275 Persicaria hydropiper Species 0.000 title claims abstract description 98
- 235000017337 Persicaria hydropiper Nutrition 0.000 title claims abstract description 96
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000005520 cutting process Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 55
- 238000010586 diagram Methods 0.000 claims description 37
- 230000007246 mechanism Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000003709 image segmentation Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000013519 translation Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 claims 1
- 238000007726 management method Methods 0.000 description 13
- 230000012010 growth Effects 0.000 description 12
- 239000002420 orchard Substances 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 7
- 241000196324 Embryophyta Species 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 235000015742 Nephelium litchi Nutrition 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 244000223760 Cinnamomum zeylanicum Species 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 235000017803 cinnamon Nutrition 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- OVBPIULPVIDEAO-LBPRGKRZSA-N folic acid Chemical compound C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-LBPRGKRZSA-N 0.000 description 2
- 230000002015 leaf growth Effects 0.000 description 2
- 235000015097 nutrients Nutrition 0.000 description 2
- 235000009566 rice Nutrition 0.000 description 2
- OVBPIULPVIDEAO-UHFFFAOYSA-N N-Pteroyl-L-glutaminsaeure Natural products C=1N=C2NC(N)=NC(=O)C2=NC=1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 OVBPIULPVIDEAO-UHFFFAOYSA-N 0.000 description 1
- 229930002877 anthocyanin Natural products 0.000 description 1
- 235000010208 anthocyanin Nutrition 0.000 description 1
- 239000004410 anthocyanin Substances 0.000 description 1
- 150000004636 anthocyanins Chemical class 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000019152 folic acid Nutrition 0.000 description 1
- 229960000304 folic acid Drugs 0.000 description 1
- 239000011724 folic acid Substances 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 230000000050 nutritive effect Effects 0.000 description 1
- 230000029553 photosynthesis Effects 0.000 description 1
- 238000010672 photosynthesis Methods 0.000 description 1
- 230000008635 plant growth Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 235000013343 vitamin Nutrition 0.000 description 1
- 229940088594 vitamin Drugs 0.000 description 1
- 229930003231 vitamin Natural products 0.000 description 1
- 239000011782 vitamin Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于实例和语义分割的单株荔枝红叶梢分割方法,属于计算机视觉技术领域,该方法包括:采集荔枝树图片;将荔枝树图片裁剪为多株荔枝树冠层图片与多株荔枝树红叶梢图片;使用Mask R‑cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来;使用改进的语义分割模型U‑Net‑Senet和U‑Net‑CBAM将单株荔枝树冠层的红叶梢部分分割出来。本发明能够实现单株荔枝树冠层及红叶梢像素级别的分割,提升了每类别分割的精确性。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种基于实例和语义分割的单株荔枝红叶梢分割方法。
背景技术
荔枝是南方一种广泛种植的热带水果,其果实鲜香,味美多汁,富含多种对人类有益的营养物质,其中的各类维生素以及叶酸等营养素能够健脾生津、促进人体的新陈代谢,具有一定的营养价值,此外荔枝树木材坚实,主要作造船、梁、柱、上等家具用,具有一定的经济价值。
我国是荔枝的生产大国和消费大国,现有荔枝种植面积55万m2,荔枝产量已达到世界总产量的三分之一左右。广东省是分布荔枝最多的省,荔枝在每年9-10月份抽出的秋梢可以在适宜时间及气候下进入花芽分化期,抽出花穗进而结出果实,而由于天气的突变较晚抽出的秋梢或冬梢,长出的红叶梢不能及时长成老熟的绿色叶片,其中花青素增多将影响光合作用,减少花芽分化所需要的营养,因此抑制花芽分化,最后导致荔枝树的产量降低,此外,在每年3月的花穗期,荔枝树也会因气候的变化发生“冲梢”现象,荔枝树的花芽会转变为叶芽,或者生出红叶梢,红叶梢的生长会影响花芽的生长,进而影响荔枝树的坐果率,最终也会导致荔枝树产量降低。因此在荔枝树果园的精准管理任务中,荔枝红叶梢长势的监控以及控制红叶梢的生长对果园的管理决策、荔枝树的产量及产量预估起着重要作用。而荔枝作为食用商品进入消费领域,其产量也会直接影响经济效益的高低。传统的监控荔枝红叶梢生长主要依靠人工。采用人工监控需要花费大量的人力与精力,且荔枝果园面积大,荔枝树冠层形状、大小不一,人工估算红叶梢长势面积的误差较大。因此,亟须发展适用于果园精准化管理场景中的单株荔枝红叶梢分割方法,以提高果园的管理效率和提高荔枝树的产量。
近年来,在人工智能技术的支撑下,精准农业与智慧农业加速发展,无人机遥感与计算机视觉技术也为植物的生长监测提供了新颖思路和有效工具。研究人员探索利用遥感图像处理方法来实现植被属性的提取。例如,采用简单的CNN模型从UAV图像中检测荔枝树和其他作物树,然后使用聚类算法进行分类细化。红叶梢的生长状态在荔枝树果园的管理中是至关重要的一步,然而,关于单株荔枝树的红叶梢识别与分割的研究还比较少,朝着这一目标的进展还比较缓慢,其中也存在一些有待进一步解决的问题。例如,红叶梢的判定差异很大,叶片的表型纹理、颜色特点均可作为红叶梢的判定参考。红叶梢分割模型的设计缺乏生产场景要素的支撑,分割目标与前后景区别对分割准确度影响较大,以及单株荔枝与其红叶梢的对应难度较大。结合深度学习方法的判定标准仅根据计算机图像特点确定,缺乏体现种植生产周期、荔枝红叶梢生长周期特点的综合判据。分割模型的精度与执行速度有待提高。并且荔枝红叶梢长势的监控以及控制红叶梢的生长对果园的管理决策、荔枝树的产量及产量预估起着重要作用,因此需要设计一种单株荔枝红叶梢分割方法来解决上述问题。
发明内容
本发明的目的是提供一种基于实例和语义分割的单株荔枝红叶梢分割方法,该方法能够实现单株荔枝树冠层及红叶梢像素级别的分割,提升了每类别分割的精确性。
本发明提出一种基于实例和语义分割的单株荔枝红叶梢分割方法,包括:
采集荔枝树图片;
将荔枝树图片裁剪为多株荔枝树冠层图片与多株荔枝树红叶梢图片;
使用Mask R-cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来;
使用改进的语义分割模型U-Net-Senet和U-Net-CBAM将单株荔枝树冠层的红叶梢部分分割出来。
采集荔枝树图片包括:
采用无人机分别在荔枝树果园秋、冬梢时期、花芽分化时期采集荔枝树原始图片,拍摄高度有8m、10m、15m,拍摄品种有糯米糍、桂味、仙进奉。
采集荔枝树图片之后,还包括对荔枝树图片进行处理,具体为:
荔枝树图片进行筛选,除掉拍摄模糊、没有荔枝树的图片。
使用Mask R-cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来之前,还包括对Mask R-cnn模型进行训练,具体为:
将荔枝冠层图片划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数;
针对训练图片数据集,标注图片真实荔枝冠层部分、图片序号,并按照COCO格式生成标注文件;
对数据集进行扩充增强,选用平移、尺度变换、旋转、翻转、色彩扰动方式对数据集进行在线增强;
设定训练超参数,得到训练后的推理权重模型;
输入多株荔枝树冠层图片;
输出单株荔枝树冠层分割图片。
改进的语义分割模型U-Net-Senet和U-Net-CBAM具体包括:
搭建U-Net语义分割网络模型,以U-Net模型为基础,根据红叶梢生理特点改进网络模型,在上采样输出层分别嵌入注意力机制模块,如下:
嵌入通道注意力机制SENet,获取多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定;
嵌入混合注意力机制CBAM,将获取多个特征尺度图分别对应的通道注意力图与获取多个重要位置信息特征图的空间注意力图进行融合,获取目标特征图;
在U-Net模型中,选取Dice Loss作为损失函数:
Dice Loss是一种用于评估两个样本的相似性的度量函数,取值范围在0到1之间,取值越大表示越相似。其中,X表示真实分割图像的像素标签,Y表示模型预测分割图像的像素类别。
获得改进的语义分割模型U-Net-Senet和U-Net-CBAM。
嵌入通道注意力机制SENet包括:
对输入进来的特征层进行全局平均池化;
进行两次全连接,第一次全连接神经元个数较少,第二次全连接神经元个数和输入特征层相同;
在完成两次全连接后,使用sigmoid函数将值固定在0-1之间,获得输入层每一个通道的权值;
将权值与输入特征层相乘。
嵌入混合注意力机制CBAM包括:
将输入的特征层经过两个并行的MaxPool层和AvgPool层;
将特征图通过1*1的卷积核,然后经过Share MLP模块,在Share MLP模块中,它先将通道数压缩为原来的1/r倍,r为减少率,再扩张到原通道数,经过ReLU激活函数得到两个激活后的结果;
将上述两个输出结果进行逐元素相加,再通过一个sigmoid激活函数得到通道注意力的输出结果,再将这个输出结果乘原图,变回原图大小;
将通道注意力的输出结果通过最大池化和平均池化得到两个特征图,然后经过融合操作对两个特征图进行拼接;
通过7*7卷积变为1通道的特征图;
经过一个sigmoid得到空间注意力的特征图,最后将输出结果乘原图变回原图大小。
获取改进的语义分割模型U-Net-Senet和U-Net-CBAM之后,还包括对改进的U-Net-Senet和U-Net-CBAM模型进行训练,具体包括:
将荔枝树红叶梢图片划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数;
对数据集进行扩充增强,选用平移、尺度变换、旋转、翻转、色彩扰动方式对数据集进行在线增强;
输入多株荔枝树红叶梢图片;
输出单株荔枝树红叶梢分割图片。
使用改进的语义分割模型U-Net-Senet和U-Net-CBAM将单株荔枝树冠层的红叶梢部分分割出来之后,还包括对Mask R-cnn网络模型和改进的语义分割模型U-Net-Senet和U-Net-CBAM进行性能评估,具体为:
选取平均交并比mIoU和均值平均精度mPA进行评估分析;
对于一个二分类任务,会出现以下四种情况:TP与FP,FN(,TN定义若一个样本被预测为正类,并且真实标签为正类,则记为TP,否则记为FP,而一个样本被预测为反例,但是真实标签为正例,则记为FN,否则记为TN;得到PA,计算公式如下:
通过计算背景和红叶两个类别的PA值求平均值得到mPA;
得到IoU,计算公式如下:
通过计算背景和红叶两个类别的IoU值求平均值得到mIoU。
一种基于实例和语义分割的单株荔枝红叶梢分割系统,包括:
图像采集模块:采集荔枝树图片;
数据存储模块:储存荔枝树图片;
图像分割模块;分割荔枝树冠层图片和荔枝树红叶梢图片;
可视化显示模块:显示荔枝树图片分割结果。
本发明通过无人机遥感技术获取实际场景中的荔枝图像数据,还能结合深度学习方法来获取荔枝冠层及红叶梢生理特征进行图像分割,从而获得单株荔枝的红叶梢生长面积。在考虑荔枝冠层和红叶梢外形特征前提下,重点考虑不同深度学习模型对分割精度的影响关系,并实现单株荔枝树冠层及红叶梢像素级别的分割。在图像分割模型的构建和设计方面,采用了注意力机制与多尺度融合结合的深度学习网络模型进行训练分割,提升了每类别分割的精确性。在模型推理应用方面,语义分割模型采用小型网络结构,适合训练样本数量较少的情况,从而更好适配有限算力的边缘端设备环境。在实际应用方面还实现了现场实时预测与可视化显示。
本发明的另一目的是在于提供一种适用于果园实际场景的基于实例和语义分割的单株荔枝红叶梢分割系统。不再是单独的图像分割,而是可以进行单株荔枝管理,红叶面积比计算,以及对红叶长势进行决策管理。该系统支持实现上述单株荔枝红叶分割方法的各个步骤,适合推广应用于荔枝园管理的各个环节。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,标示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提出的一种基于实例和语义分割的单株荔枝红叶梢分割方法的流程图;
图2为本发明提出的一种基于实例和语义分割的单株荔枝红叶梢分割方法的荔枝树冠层原图和红叶梢标签图;
图3为本发明提出的一种基于实例和语义分割的单株荔枝红叶梢分割方法的冠层原图和冠层分割结果图;
图4为本发明提出的一种基于实例和语义分割的单株荔枝红叶梢分割方法的红叶梢原图和红叶梢分割结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一种该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
实施例1
本发明提出一种基于实例和语义分割的单株荔枝红叶梢分割方法,包括:
S100,采集荔枝树图片;
S200,将荔枝树图片裁剪为多株荔枝树冠层图片与多株荔枝树红叶梢图片;
S300,使用Mask R-cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来;
S400,使用改进的语义分割模型U-Net-Senet和U-Net-CBAM将单株荔枝树冠层的红叶梢部分分割出来。
本发明通过无人机遥感技术获取实际场景中的荔枝图像数据,还能结合深度学习方法来获取荔枝冠层及红叶梢生理特征进行图像分割,从而获得单株荔枝的红叶梢生长面积。在考虑荔枝冠层和红叶梢外形特征前提下,重点考虑不同深度学习模型对分割精度的影响关系,并实现单株荔枝树冠层及红叶梢像素级别的分割。在图像分割模型的构建和设计方面,采用了注意力机制与多尺度融合结合的深度学习网络模型进行训练分割,提升了每类别分割的精确性。在模型推理应用方面,语义分割模型采用小型网络结构,适合训练样本数量较少的情况,从而更好适配有限算力的边缘端设备环境。在实际应用方面还实现了现场实时预测与可视化显示。
S100采集荔枝树图片包括:
采用无人机分别在荔枝树果园秋、冬梢时期、花芽分化时期采集荔枝树原始图片,拍摄高度有8m、10m、15m,拍摄品种有糯米糍、桂味、仙进奉。
S100采集荔枝树图片之后,还包括S110对荔枝树图片进行处理,具体为:
荔枝树图片进行筛选,除掉拍摄模糊、没有荔枝树的图片。
S300使用Mask R-cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来之前,还包括对Mask R-cnn模型进行训练,具体为:
将荔枝冠层图片划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数;
针对训练图片数据集,标注图片真实荔枝冠层部分、图片序号,并按照COCO格式生成标注文件;
对数据集进行扩充增强,选用平移、尺度变换、旋转、翻转、色彩扰动方式对数据集进行在线增强;
设定训练超参数,得到训练后的推理权重模型;
输入多株荔枝树冠层图片;
输出单株荔枝树冠层分割图片。
对筛选后的图片进行随机剪裁为固定尺寸大小的荔枝冠层图片与荔枝红叶梢图片,构建实例分割与语义分割网络训练图片数据集,使用Labelme软件对实例分割数据集中每个荔枝冠层以及语义分割数据集中每片红叶梢进行标注,标注效果如图2所示。
搭建Mask R-cnn网络模型进行实例分割。在训练期间对于每一个ROI构建一个多任务损失函数,为:
L=Lcls+Lbox+Lmask
其中,Lcls为分类损失,Lbox为回归损失,Lmask为平均二值交叉熵损失。Lmask公式为:
Lmask(Cls_k)=Sigmoid(Cls_k)
其中,Cls_k为当前位置的输出值,Sigmoid(Cls_k)表示输出Cls_k经过sigmoid函数变换后的结果。对于一个属于第k个类别的R0I,平均二值交叉熵损失仅仅考虑第k个掩模,其他的掩模输入不会贡献到损失函数中。这样会允许对每个类别都会生成掩模,并且不会存在类间竞争,使得分类效果较好。
需要说明的是采用Mask R-cnn网络模型作为荔枝冠层的分割模型,该模型由Faster RCNN改进而来,主要的改进在于提出ROI align,相比ROI Pooling,减小了量化误差,使得目标的定位和分割更精确。因此Mask R-cnn模型既可以将目标进行检测,同时将目标分割出来,网络结构容易实现和训练,训练速度较快,可以满足每株荔枝树冠层的区分,从而实现荔枝果园的单株管理。
将荔枝冠层训练图片数据集划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数,对Mask R-cnn模型进行训练,训练结束后获得Mask R-cnn模型的推理权重文件和分割模型性能指标以及荔枝冠层分割图像如图3。
优选地,将训练图片数据集按照8:1:1的比例划分为训练集、测试集、验证集。设定初始学习率为0.1,类别数目为2,epochs(训练轮次)为100,batch_size(批尺寸)为32,进行训练,训练结束后得到模型权重文件。
进一步地,模型性能指标采用如下步骤获得
优选地,选取Precision(精确率),RecalI(召回率),F1 Score(F1分数),mPA(均值平均精度)和MIoU(平均交并比)等指标进行评估分析;
对于TP(True Positive,正确检测框)与FP(False Positive,误检框),FN(FalseNegative,漏检框),定义若预测框与真实框之间I0U>0.5若则记为TP,否则记为FP,而真实框存在却没有相匹配的预测框,则记为FN;
对于Precision、Recall,其计算公式如下:
Precision与Recall是相互影响的,理想情况下固然是两者的值均越大性能越好,但在实际中一般两者会呈现反比关系,因此需作出PR(Precision Recall)曲线,通过计算其曲线p(r)下围成的面积,得到AP,计算公式如下:
通过计算背景和冠层两个类别的AP值求平均值得到mAP(mean AveragePrecision);
对于F1 Score为精准率和召回率的调和平均数,其计算公式下:
本实施例所训练模型的指标如表1所示
表1实例分割模型性能指标一览表
对于Mask R-cnn模型预测的分割图片进行ROI区域选取,即通过Mask值将单株荔枝树冠层通过算法剪裁出来,用做以下的红叶梢分割。
改进的语义分割模型U-Net-Senet和U-Net-CBAM具体包括:
搭建U-Net语义分割网络模型,以U-Net模型为基础,根据红叶梢生理特点改进网络模型,在上采样输出层分别嵌入注意力机制模块,如下:
嵌入通道注意力机制SENet,获取多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定;
嵌入混合注意力机制CBAM,将获取多个特征尺度图分别对应的通道注意力图与获取多个重要位置信息特征图的空间注意力图进行融合,获取目标特征图;
在U-Net模型中,选取Dice Loss作为损失函数:
Dice Loss是一种用于评估两个样本的相似性的度量函数,取值范围在0到1之间,取值越大表示越相似。其中,X表示真实分割图像的像素标签,Y表示模型预测分割图像的像素类别。
获得改进的语义分割模型U-Net-Senet和U-Net-CBAM。
U-Net模型相比于其他语义分割模型,网络结构更小,训练时间短,U-net采用将特征在channel维度拼接在一起,形成更厚的特征层,因此在训练集数量少的同时分割精度较高。以U-Net模型为基础,根据红叶梢生理特点改进网络模型,在上采样输出层分别嵌入多个注意力机制模块。
嵌入通道注意力机制SENet包括:
对输入进来的特征层进行全局平均池化;
进行两次全连接,第一次全连接神经元个数较少,第二次全连接神经元个数和输入特征层相同;
在完成两次全连接后,使用sigmoid函数将值固定在0-1之间,获得输入层每一个通道的权值;
将权值与输入特征层相乘。
嵌入通道注意力机制SENet,获取多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定。
嵌入混合注意力机制CBAM包括:
将输入的特征层经过两个并行的MaxPool层和AvgPool层;
将特征图通过1*1的卷积核,然后经过Share MLP模块,在Share MLP模块中,它先将通道数压缩为原来的1/r倍,r为减少率,再扩张到原通道数,经过ReLU激活函数得到两个激活后的结果;
将上述两个输出结果进行逐元素相加,再通过一个sigmoid激活函数得到通道注意力的输出结果,再将这个输出结果乘原图,变回原图大小;
将通道注意力的输出结果通过最大池化和平均池化得到两个特征图,然后经过融合操作对两个特征图进行拼接;
通过7*7卷积变为1通道的特征图;
经过一个sigmoid得到空间注意力的特征图,最后将输出结果乘原图变回原图大小。
嵌入混合注意力机制CBAM,将获取多个特征尺度图分别对应的通道注意力图与获取多个重要位置信息特征图的空间注意力图进行融合,获取目标特征图;
需要说明的是,在U-NET上采样最后一个输出层加入SENet或CBAM模块,形成两个改进的模型U-Net-SEnet和U-Net-CBAM模型,添加的注意力机制不同,考虑特征因素也不同,从而得到的权重大小也不相同。本发明中所改进的语义分割模型进一步从通道和空间上关注重点特征,并计算出对应的权重值,并融合不同感受野的特征图,将浅层特征与特征相融合,从而提升分割精度。
获取改进的语义分割模型U-Net-Senet和U-Net-CBAM之后,还包括对改进的U-Net-Senet和U-Net-CBAM模型进行训练,具体包括:
将荔枝树红叶梢图片划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数;
对数据集进行扩充增强,选用平移、尺度变换、旋转、翻转、色彩扰动方式对数据集进行在线增强;
输入多株荔枝树红叶梢图片;
输出单株荔枝树红叶梢分割图片。如图4。
优选地,将训练图片数据集按照8:1:1的比例划分为训练集、测试集、验证集。设定初始学习率为0.01,类别数目为2,epochs(训练轮次)为300,batch_size(批尺寸)为4,进行训练,训练结束后得到模型权重文件。
S400使用改进的语义分割模型U-Net-Senet和U-Net-CBAM将单株荔枝树冠层的红叶梢部分分割出来之后,还包括对Mask R-cnn网络模型和改进的语义分割模型U-Net-Senet和U-Net-CBAM进行性能评估,具体为:
选取平均交并比mIoU和均值平均精度mPA进行评估分析;
对于一个二分类任务,会出现以下四种情况:TP与FP,FN(,TN定义若一个样本被预测为正类,并且真实标签为正类,则记为TP,否则记为FP,而一个样本被预测为反例,但是真实标签为正例,则记为FN,否则记为TN;得到PA,计算公式如下:
通过计算背景和红叶两个类别的PA值求平均值得到mPA;
得到IoU,计算公式如下:
通过计算背景和红叶两个类别的IoU值求平均值得到mIoU。
本实施例所训练语义分割模型的指标如表2所示
表2语义分割模型性能指标一览表
采用相同的训练图片数据集,设定相同的超参数进行训练,对比U-Net模型、U-Net-SEnet模型、U-Net-CBAM模型的效果,结果显示U-Net模型的mIoU值为89.5%,U-Net-SEnet模型的mIoU值提升了1%,U-Net-CBAM模型的mIoU值提升了1.5%。因此将U-Net-Senet和U-Net-CBAM模型均具有更精确的分割性能。
实施例2
一种基于实例和语义分割的单株荔枝红叶梢分割系统,包括:
图像采集模块:采集荔枝树图片;
数据存储模块:储存荔枝树图片;
图像分割模块;分割荔枝树冠层图片和荔枝树红叶梢图片;
可视化显示模块:显示荔枝树图片分割结果。
本发明通过无人机遥感技术获取实际场景中的荔枝图像数据,还能结合深度学习方法来获取荔枝冠层及红叶梢生理特征进行图像分割,从而获得单株荔枝的红叶梢生长面积。在考虑荔枝冠层和红叶梢外形特征前提下,重点考虑不同深度学习模型对分割精度的影响关系,并实现单株荔枝树冠层及红叶梢像素级别的分割。在图像分割模型的构建和设计方面,采用了注意力机制与多尺度融合结合的深度学习网络模型进行训练分割,提升了每类别分割的精确性。在模型推理应用方面,语义分割模型采用小型网络结构,适合训练样本数量较少的情况,从而更好适配有限算力的边缘端设备环境。在实际应用方面还实现了现场实时预测与可视化显示。
本发明的另一目的是在于提供一种适用于果园实际场景的基于实例和语义分割的单株荔枝红叶梢分割系统。不再是单独的图像分割,而是可以进行单株荔枝管理,红叶面积比计算,以及对红叶长势进行决策管理。该系统支持实现上述单株荔枝红叶分割方法的各个步骤,适合推广应用于荔枝园管理的各个环节。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,包括:
采集荔枝树图片;
将荔枝树图片裁剪为多株荔枝树冠层图片与多株荔枝树红叶梢图片;
使用Mask R-cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来;
使用改进的语义分割模型U-Net-Senet和U-Net-CBAM将单株荔枝树冠层的红叶梢部分分割出来。
2.根据权利要求1所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述使用Mask R-cnn网络模型对多株荔枝树冠层图片进行实例分割,通过阈值法将单株荔枝树冠层分割出来之前,还包括对Mask R-cnn模型进行训练,具体为:
将荔枝冠层图片划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数;
针对训练图片数据集,标注图片真实荔枝冠层部分、图片序号,并按照COCO格式生成标注文件;
对数据集进行扩充增强,选用平移、尺度变换、旋转、翻转、色彩扰动方式对数据集进行在线增强;
设定训练超参数,得到训练后的推理权重模型;
输入多株荔枝树冠层图片;
输出单株荔枝树冠层分割图片。
3.根据权利要求2所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述训练Mask R-cnn模型过程中还包括构建一个多任务损失函数,具体为:
在训练期间对于每一个ROI构建一个多任务损失函数,为:
L=Lcls+Lbox+Lmask
其中,Lcls为分类损失,Lbox为回归损失,Lmask为平均二值交叉熵损失,表示mask部分的损失值,Lmask公式为:
Lmask(Cls_k)=Sigmoid(Cls_k)。
其中,Cls_k为当前位置的输出值,Sigmoid(Cls_k)表示输出Cls_k经过sigmoid函数变换后的结果。
4.根据权利要求1所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述改进的语义分割模型U-Net-Senet和U-Net-CBAM具体包括:
搭建U-Net语义分割网络模型,以U-Net模型为基础,根据红叶梢生理特点改进网络模型,在上采样输出层分别嵌入注意力机制模块,如下:
嵌入通道注意力机制SENet,获取多个特征尺度图分别对应的通道注意力图,所述通道注意力图用于指示特征尺度图在第一空间维度上的每一行对应每一特征通道的权重值,所述第一空间维度由所述原始图像的空间位置分布确定;
嵌入混合注意力机制CBAM,将获取多个特征尺度图分别对应的通道注意力图与获取多个重要位置信息特征图的空间注意力图进行融合,获取目标特征图;
获得改进的语义分割模型U-Net-Senet和U-Net-CBAM。
6.根据权利要求3所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述嵌入通道注意力机制SENet包括:
对输入进来的特征层进行全局平均池化;
进行两次全连接,第一次全连接神经元个数较少,第二次全连接神经元个数和输入特征层相同;
在完成两次全连接后,使用sigmoid函数将值固定在0-1之间,获得输入层每一个通道的权值;
将权值与输入特征层相乘。
7.根据权利要求3所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述嵌入混合注意力机制CBAM包括:
将输入的特征层经过两个并行的MaxPool层和AvgPool层;
将特征图通过1*1的卷积核,然后经过Share MLP模块,在Share MLP模块中,它先将通道数压缩为原来的1/r倍,r为减少率,再扩张到原通道数,经过ReLU激活函数得到两个激活后的结果;
将上述两个输出结果进行逐元素相加,再通过一个sigmoid激活函数得到通道注意力的输出结果,再将这个输出结果乘原图,变回原图大小;
将通道注意力的输出结果通过最大池化和平均池化得到两个特征图,然后经过融合操作对两个特征图进行拼接;
通过7*7卷积变为1通道的特征图;
经过一个sigmoid得到空间注意力的特征图,最后将输出结果乘原图变回原图大小。
8.根据权利要求3所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述获取改进的语义分割模型U-Net-Senet和U-Net-CBAM之后,还包括对改进的U-Net-Senet和U-Net-CBAM模型进行训练,具体包括:
将荔枝树红叶梢图片划分为训练集、测试集和验证集,设定初始学习率、类别数目、训练轮次和批尺寸的参数;
对数据集进行扩充增强,选用平移、尺度变换、旋转、翻转、色彩扰动方式对数据集进行在线增强;
输入多株荔枝树红叶梢图片;
输出单株荔枝树红叶梢分割图片。
9.根据权利要求1所述的一种基于实例和语义分割的单株荔枝红叶梢分割方法,其特征在于,所述使用改进的语义分割模型U-Net-Senet和U-Net-CBAM将单株荔枝树冠层的红叶梢部分分割出来之后,还包括对Mask R-cnn网络模型和改进的语义分割模型U-Net-Senet和U-Net-CBAM进行性能评估,具体为:
选取平均交并比mIoU和均值平均精度mPA进行评估分析;
对于一个二分类任务,会出现以下四种情况:TP,FP,FN,TN,定义若一个样本被预测为正类,并且真实标签为正类,则记为TP,否则记为FP,而一个样本被预测为反例,但是真实标签为正例,则记为FN,否则记为TN;
得到PA,计算公式如下:
通过计算背景和红叶两个类别的PA值求平均值得到mPA;
得到IoU,计算公式如下:
通过计算背景和红叶两个类别的IoU值求平均值得到mIoU。
10.一种基于实例和语义分割的单株荔枝红叶梢分割系统,其特征在于,包括:
图像采集模块:采集荔枝树图片;
数据存储模块:储存荔枝树图片;
图像分割模块;分割荔枝树冠层图片和荔枝树红叶梢图片;
可视化显示模块:显示荔枝树图片分割结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310290897.5A CN116310338A (zh) | 2023-03-22 | 2023-03-22 | 一种基于实例和语义分割的单株荔枝红叶梢分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310290897.5A CN116310338A (zh) | 2023-03-22 | 2023-03-22 | 一种基于实例和语义分割的单株荔枝红叶梢分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310338A true CN116310338A (zh) | 2023-06-23 |
Family
ID=86832173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310290897.5A Pending CN116310338A (zh) | 2023-03-22 | 2023-03-22 | 一种基于实例和语义分割的单株荔枝红叶梢分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310338A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788577A (zh) * | 2023-12-21 | 2024-03-29 | 西南交通大学 | 一种基于深度学习的螺栓6d姿态估计方法 |
-
2023
- 2023-03-22 CN CN202310290897.5A patent/CN116310338A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117788577A (zh) * | 2023-12-21 | 2024-03-29 | 西南交通大学 | 一种基于深度学习的螺栓6d姿态估计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Tomato diseases and pests detection based on improved Yolo V3 convolutional neural network | |
CN111476713B (zh) | 基于多深度卷积神经网络融合的天气图像智能识别方法及系统 | |
CN107016405B (zh) | 一种基于分级预测卷积神经网络的害虫图像分类方法 | |
CN110287882A (zh) | 一种基于深度学习的大菊品种图像识别方法 | |
CN111340826A (zh) | 基于超像素与拓扑特征的航拍图像单株树冠分割算法 | |
CN109325495A (zh) | 一种基于深度神经网络建模的作物图像分割系统及方法 | |
Li et al. | A deep learning method for recognizing elevated mature strawberries | |
CN113470076B (zh) | 一种平养鸡舍黄羽鸡多目标跟踪方法 | |
CN113191334B (zh) | 一种基于改进CenterNet的植物冠层密集叶片计数方法 | |
CN113657326A (zh) | 一种基于多尺度融合模块和特征增强的杂草检测方法 | |
Wang et al. | Diseases detection of occlusion and overlapping tomato leaves based on deep learning | |
CN116058195B (zh) | 一种叶菜生长环境光照调控方法、系统及装置 | |
CN111666897A (zh) | 基于卷积神经网络的斑石鲷个体识别方法 | |
CN116310338A (zh) | 一种基于实例和语义分割的单株荔枝红叶梢分割方法 | |
CN116129260A (zh) | 基于深度学习的牧草图像识别方法 | |
CN112633082A (zh) | 一种多特征融合杂草检测方法 | |
CN116543316A (zh) | 一种利用多时相高分辨率卫星影像识别稻田内草皮的方法 | |
CN114858984A (zh) | 厚皮甜瓜种质资源商品性数据采集装置及采集与分析方法 | |
Zheng et al. | YOLOv4-lite–based urban plantation tree detection and positioning with high-resolution remote sensing imagery | |
He et al. | A calculation method of phenotypic traits of soybean pods based on image processing technology | |
Miao et al. | Crop weed identification system based on convolutional neural network | |
CN116563714A (zh) | 一种自动化判别水稻生长阶段的方法和系统 | |
CN115035423B (zh) | 一种基于无人机遥感影像的杂交水稻父母本识别提取方法 | |
CN114511850B (zh) | 一种阳光玫瑰葡萄果实大小粒图像识别方法 | |
CN115862003A (zh) | 一种基于轻量化YOLOv5的在体苹果目标检测和分级方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |