CN110245551B - 一种多草工况下田间作物的识别方法 - Google Patents

一种多草工况下田间作物的识别方法 Download PDF

Info

Publication number
CN110245551B
CN110245551B CN201910325623.9A CN201910325623A CN110245551B CN 110245551 B CN110245551 B CN 110245551B CN 201910325623 A CN201910325623 A CN 201910325623A CN 110245551 B CN110245551 B CN 110245551B
Authority
CN
China
Prior art keywords
branch
feature map
prediction result
result image
visual attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910325623.9A
Other languages
English (en)
Other versions
CN110245551A (zh
Inventor
李南
张晓光
吴新宇
李柏翰
夏轩
何勇
陈春杰
马跃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201910325623.9A priority Critical patent/CN110245551B/zh
Publication of CN110245551A publication Critical patent/CN110245551A/zh
Application granted granted Critical
Publication of CN110245551B publication Critical patent/CN110245551B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/188Vegetation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种多草工况下田间作物的识别方法,该识别方法包括:将训练集图像和验证集图像输入到视觉注意模型中以获得第一预测结果图像;根据训练集图像、验证集图像对应的标签图像和第一预测结果图像,以及损失函数计算损失值;若损失值处于收敛状态,则停止训练,以获得训练后的视觉注意模型;否则,利用反向传播算法调节权重,并继续进行训练直到损失值达到收敛状态;将测试集图像输入到训练后的视觉注意模型中以获得第二预测结果图像;判断第二预测结果图像是否符合预期;若是,则将训练后的视觉注意模型移植到机器上;否则,调整超参数,并对视觉注意模型进行重新训练。通过上述方式,本申请能够将作物从多草环境中识别出来。

Description

一种多草工况下田间作物的识别方法
技术领域
本申请涉及图像处理技术领域,特别是涉及一种多草工况下田间作物的识别方法。
背景技术
除草机器人由于具备感知、决策和精确控制等功能,能够在不伤害作物的前提下,清除作物周边的杂草,实现更加高效、安全、环保的除草作业,对减少除草剂施放量,提高农作物产量和品质具有重要意义。
现有的除草机器人所使用的作物识别技术可划分为两大类:(1)基于人工设计特征的作物识别技术。这类技术通常利用作物和杂草在颜色、光谱、位置、形状、纹理、大小、高度等方面的差异对其进行分类,通过人工选取特征和分类器,将作物与土壤、杂草区分开。由于作物、杂草种类多样,这类技术通常对环境和苗草种类变化的适应性欠佳;(2) 随着深度学习技术的兴起,基于深度卷积神经网络的作物识别方法因其无需手工设计特征的便利性,以及良好的鲁棒性和泛化能力等优势,已经成为当前的研究热点和主流趋势。
发明内容
本申请主要解决的技术问题是提供一种多草工况下田间作物的识别方法,能够将作物从多草环境中识别出来。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种多草工况下田间作物的识别方法,所述识别方法包括:将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中,以获得第一预测结果图像;其中,所述田间图像数据集为多草工况下田间作物的成像的集合;根据所述训练集图像、所述验证集图像对应的标签图像和所述视觉注意模型的所述第一预测结果图像,以及所述视觉注意模型中的损失函数计算损失值;若当前所述损失值处于收敛状态,停止对所述视觉注意模型进行训练,以获得训练后的视觉注意模型;否则,利用反向传播算法调节所述视觉注意模型中的权重,并对所述视觉注意模型继续进行训练,直到所述损失值达到收敛状态;将所述田间图像数据集中的测试集图像输入到训练后的所述视觉注意模型中,以获得第二预测结果图像;判断所述第二预测结果图像是否符合预期;若是,则将训练后的视觉注意模型移植到机器上,以使得机器作业时识别作物;否则,调整视觉注意模型中的超参数,并返回至将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中的步骤。
本申请的有益效果是:区别于现有技术的情况,本申请所提供的多草工况下田间作物的识别方法包括:训练视觉注意模型、评估视觉注意模型、以及将评估通过后的视觉注意模型移植到机器上,以使得机器在作业时能够识别作物。本申请根据田间作物(特别是移栽作物)相对杂草、土壤背景具有显著性特征,采用全卷积神经网络建立视觉注意模型,该视觉注意模型能够精确提取作物区域,在杂草茂盛、苗草叶片交叠情况下仍能输出准确的预测结果,该识别方法精度高、实时性好。该视觉注意模型对于不同田间苗草种类、杂草密度、光照条件的具有良好的适应性,泛化能力和鲁棒性好。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1为本申请多草工况下田间作物的识别方法一实施方式的流程示意图;
图2a为田间图像数据集中的图像一实施方式的成像示意图;
图2b为标签图像一实施方式的成像示意图;
图2c为模型预测结果图像一实施方式的成像示意图;
图3为图1中步骤S101之前本申请所提供的多草工况下田间作物的识别方法一实施方式的流程示意图;
图4为图1中步骤S101一实施方式的流程示意图;
图5为图1中视觉注意模型一实施方式的架构示意图;
图6为图1中步骤S102一实施方式的流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请多草工况下田间作物的识别方法一实施方式的流程示意图,该识别方法包括:
S101:将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中,以获得第一预测结果图像;其中,田间图像数据集为多草工况下田间作物的成像的集合。
具体地,在本申请中,田间图像数据集为多草工况下田间作物的成像的集合;该成像可以为彩色图像,例如,如图2a所示,图2a为田间图像数据集中的图像一实施方式的成像示意图。该田间图像数据集中的所有图像可以统一缩放至相同尺寸,例如,300×400。
在一个实施方式中,请参阅图3,图3为图1中步骤S101之前本申请所提供的多草工况下田间作物的识别方法一实施方式的流程示意图,在上述步骤S101之前,本申请所提供的识别方法包括构建田间图像数据集,该构建田间图像数据集的过程可以为:
S201:获得多个多草工况下的田间图像。
具体地,可通过除草机器人上的摄像装置获得,也可通除草机器人外的其他具有摄像功能的装置获得。
S202:对田间图像按照显著性检测数据集的方式进行标注,只标出显著性区域作为标签图像。
具体地,上述标注方法可参见现有技术,在此不作过多说明。在本申请中,田间作物(特别是移栽作物)相对杂草、土壤背景具有显著性特征,显著性区域即为作物所在区域,标注后的标签图像可保存为二值图像,例如,如图2b所示,图2b为标签图像一实施方式的成像示意图。在本申请中,作物的显著性特征与作物的品种、生长阶段,以及田间杂草种类、杂草密度、光照条件等变化因素无关,相比传统方法使用的颜色、形状、纹理等特征更具鲁棒性和泛化性。
S203:将采集到的田间图像和对应的标注后的标签图像按照预定比例划分为训练集、验证集和测试集。
具体地,在本实施例中,训练集、验证集和测试集的预定比例可以为4:1:3或者其他比值。另外,在本实施例中,在把训练集图像和验证集图像输入到视觉注意模型前,需将训练集图像及验证集图像中的图像像素值归一化到[0,1],并通过上下左右翻转、添加随机噪声等方式进行数据增强,增加样本量,提高视觉注意模型的泛化能力。
上述步骤S101中视觉注意模型所采用的机制为视觉注意机制,视觉注意机制是指哺乳动物视觉可以在复杂的场景中选择少数的感兴趣区域作为注意焦点,并对其进行优先处理,从而极大地提高视觉系统处理的效率。在田间图像中,杂草相比作物个头小,数量多,呈无序分布。作物栽种时有一定的行距和株距,相比杂草更加稀疏,且移栽时已经有较大的叶片,因此在田间图像中更加显著。当人眼观看田间图像时,会首先关注到作物,而将杂草和土壤当作背景。基于上述现象,本申请以作物的显著性特征作为区分作物与杂草、土壤的依据,设计了轻量化的深度卷积神经网络构建视觉注意模型,进而实现对田间作物进行快速识别。
下面将详细介绍图1中步骤S101的实现过程。
在一个实施方式中,可以交替将一批(例如,5个、10个等)训练集图像和一批(例如,5个、10个等)验证集图像输入到当前视觉注意模型中。
请参阅图4,图4为图1中步骤S101一实施方式的流程示意图,上述步骤S101中将田间图像数据集中的训练集图像输入到当前视觉注意模型中,并对当前视觉注意模型进行训练,以获得训练后的视觉注意模型,包括:
S301:训练集图像经主干网络和多个支路网络处理后,在各支路网络输出端获得对应的第一支路预测结果图像、第二支路预测结果图像、第三支路预测结果图像、第四支路预测结果图像、第五支路预测结果图像。
具体地,请参阅图5,图5为图1中视觉注意模型一实施方式的架构示意图。在本实施例中,主干网络是一个较浅层的ResNet-10结构,依次包括第一卷积层Conv1、第一残差单元Conv2_x、第二残差单元 Conv3_x、第三残差单元Conv4_x、第四残差单元Conv5_x(不含全连接层),其中,与第一卷积层Conv1相邻的第一残差单元Conv2_x前有一个池化层(例如,最大池化层、均值池化层等)。第一卷积层Conv1、第一残差单元Conv2_x、第二残差单元Conv3_x、第三残差单元Conv4_x 和第四残差单元Conv5_x的输出端分别与对应的第一支路网络、第二支路网络、第三支路网络、第四支路网络、第五支路网络连接。当然,在其他实施例中,主干网络也可为ResNet-18、ResNet-50等结构。
在本实施例中,输入的训练集图像的尺寸可以为300×400×3(3表示彩色图像的通道数),第一卷积层Conv1的卷积核大小为7×7,卷积核滑动步长2,通道数为64,经第一卷积层Conv1处理输出的特征图尺寸为150×200×64。
第一残差单元Conv2_x依次包括输入端、归一化层BN、ReLU激活层、第二卷积层、批归一化层、ReLU激活层、第三卷积层、输出端,且输入端与输出端之间有一条旁路连接。第一残差单元Conv2_x前的池化层为最大池化层,池化核尺寸为3×3,池化核滑动步长为2,池化结果传递给第一残差单元Conv2_x;其中,第一残差单元Conv2_x中的第二卷积层的卷积核大小为1×1、滑动步长为2、通道数为64;第三卷积层的卷积核大小为3×3、滑动步长为1、通道数为64;经第一残差单元 Conv2_x处理输出的特征图尺寸为75×100×64。
第二残差单元Conv3_x依次包括输入端、归一化层BN、ReLU激活层、第二卷积层、批归一化层、ReLU激活层、第三卷积层和输出端,且输入端和输出端之间有一条旁路连接。其中,第二残差单元Conv3_x 中的第二卷积层的卷积核大小为1×1、滑动步长为2、通道数为128;第三卷积层的卷积核大小为3×3、滑动步长为1、通道数为128;经第二残差单元Conv3_x处理输出的特征图尺寸为38×50×128。
第三残差单元Conv4_x依次包括输入端、归一化层BN、ReLU激活层、第二卷积层、批归一化层、ReLU激活层、第三卷积层和输出端,且输入端和输出端之间有一条旁路连接。其中,第三残差单元Conv4_x 中的第二卷积层的卷积核大小为1×1、滑动步长为2、通道数为256;第三卷积层的卷积核大小为3×3、滑动步长为1、通道数为256;经第三残差单元Conv4_x处理输出的特征图尺寸为19×25×256。
第四残差单元Conv5_x依次包括输入端、归一化层BN、ReLU激活层、第二卷积层、批归一化层、ReLU激活层、第三卷积层和输出端,且输入端和输出端之间有一条旁路连接。其中,第四残差单元Conv5_x 中的第二卷积层的卷积核大小为1×1、滑动步长为2、通道数为512;第三卷积层的卷积核大小为3×3、滑动步长为1、通道数为512;经第四残差单元Conv4_x处理输出的特征图尺寸为10×13×512。
在一个实施方式中,上述步骤中经多个支路网络处理的过程如下:
A、各支路网络上的连续卷积结构分别输出第一支路特征图、第二支路特征图、第三支路特征图、第四支路特征图、第五支路特征图。
具体地,请再次参阅图5,在本实施例中,第一支路网络、第二支路网络、第三支路网络、第四支路网络、第五支路网络的前端分别具有连续卷积结构ConvS1_1、ConvS2_1、ConvS3_1、ConvS4_1、ConvS5_1。
具体地,ConvS1_1依次包括ReLU激活层、支路第一卷积层、ReLU 激活层、支路第二卷积层、ReLU激活层、支路第三卷积层;支路第一卷积层和支路第二卷积层的卷积核大小为3×3,通道数为128;支路第三卷积层的卷积核大小为1×1,通道数为1;经ConvS1_1处理后的第一支路特征图的尺寸为150×200×1。
ConvS2_1依次包括ReLU激活层、支路第一卷积层、ReLU激活层、支路第二卷积层、ReLU激活层、支路第三卷积层;支路第一卷积层和支路第二卷积层的卷积核大小为5×5,通道数为256;支路第三卷积层的卷积核大小为1×1,通道数为1;经ConvS2_1处理后的第二支路特征图尺寸为75×100×1。
ConvS3_1依次包括ReLU激活层、支路第一卷积层、ReLU激活层、支路第二卷积层、ReLU激活层、支路第三卷积层;支路第一卷积层和支路第二卷积层的卷积核大小为5×5,通道数为128;支路第三卷积层的卷积核大小为1×1,通道数为1;经ConvS3_1处理后的第三支路特征图尺寸为38×50×1。
ConvS4_1依次包括ReLU激活层、支路第一卷积层、ReLU激活层、支路第二卷积层、ReLU激活层、支路第三卷积层;支路第一卷积层和支路第二卷积层的卷积核大小为5×5,通道数为128;支路第三卷积层的卷积核大小为1×1,通道数为1;经ConvS4_1处理后的第四支路特征图尺寸为19×25×1。
ConvS5_1依次包括ReLU激活层、支路第一卷积层、ReLU激活层、支路第二卷积层、ReLU激活层、支路第三卷积层;支路第一卷积层和支路第二卷积层的卷积核大小为7×7,通道数为128;支路第三卷积层的卷积核大小为1×1,通道数为1;经ConvS5_1处理后的第五支路特征图尺寸为10×13×1。
B、将第五支路特征图通过反卷积上采样以形成与第三支路特征图、第二支路特征图、第一支路特征图尺寸分别相同的第一反卷积特征图、第二反卷积特征图和第三反卷积特征图。
具体地,在本实施例中,第一反卷积特征图的尺寸为38×50×1,第二反卷积特征图的尺寸为75×100×1,第三反卷积特征图的尺寸为 150×200×1。
C、将第四支路特征图通过反卷积上采样以形成与第三支路特征图、第二支路特征图、第一支路特征图尺寸分别相同的第四反卷积特征图、第五反卷积特征图和第六反卷积特征图。
具体地,在本实施例中,第四反卷积特征图尺寸为38×50×1、第五反卷积特征图尺寸为75×100×1、第六反卷积特征图尺寸为150×200 ×1。
D、将第三支路特征图和第二支路特征图分别通过反卷积上采样以形成与第一支路特征图尺寸相同的第七反卷积特征图和第八反卷积特征图。
具体地,在本实施例中,第七反卷积特征图和第八反卷积特征图的尺寸为150×200×1。
E、将第一反卷积特征图、第四反卷积特征图和第三支路特征图进行张量连接,通过第三支路第四卷积层,获得第三支路融合特征图。
具体地,在上述进行张量连接后,通过第三支路第四卷积层 ConvS3_2后获得第三支路融合特征图。第三支路第四卷积层ConvS3_2 的卷积核大小为1×1,滑动步长为1,通道数为1,第三支路融合特征图的尺寸为38×50×1。该方式可将不同尺度特征进行融合,以提高后续处理的精确度。
F、将第二反卷积特征图、第五反卷积特征图和第二支路特征图进行张量连接,通过第二支路第四卷积层,获得第二支路融合特征图。
具体地,在上述进行张量连接后,通过第二支路第四卷积层 ConvS2_2后获得第二支路融合特征图。第二支路第四卷积层ConvS2_2 的卷积核大小为1×1,滑动步长为1,通道数为1,第二支路融合特征图的尺寸为75×100×1。该方式可将不同尺度特征进行融合,以提高后续处理的精确度。
G、将第三反卷积特征图、第六反卷积特征图、第七反卷积特征图、第八反卷积特征图、第一支路图像进行张量连接,通过第一支路第四卷积层,获得第一支路融合特征图。
具体地,在上述进行张量连接后,通过第一支路第四卷积层 ConvS1_2后获得第一支路融合特征图。第一支路第四卷积层ConvS1_2 的卷积核大小为1×1,滑动步长为1,通道数为1,第一支路融合特征图的尺寸为150×200×1。该方式可将不同尺度特征进行融合,以提高后续处理的精确度。
H、将第五支路特征图、第四支路特征图、第三支路融合特征图、第二支路融合特征图、第一支路融合特征图分别进行卷积、反卷积上采样至与标签图像的尺寸相同,并分别通过Sigmoid激活层后,得到各支路网络对应的第一支路预测结果图像Out1、第二支路预测结果图像 Out2、第三支路预测结果图像Out3、第四支路预测结果图像Out4、第五支路预测结果图像Out5。
具体地,在本实施例中,该第一支路预测结果图像Out1、第二支路预测结果图像Out2、第三支路预测结果图像Out3、第四支路预测结果图像Out4、第五支路预测结果图像Out5和标签图像的尺寸可以为300 ×400×1。
S302:将第一支路预测结果图像、第二支路预测结果图像、第三支路预测结果图像、第四支路预测结果图像、第五支路预测结果图像融合后输出,以获得视觉注意模型的第一预测结果图像。
具体地,在本实施例中,上述步骤S302具体包括:将第一支路预测结果图像Out1、第二支路预测结果图像Out2、第三支路预测结果图像Out3、第四支路预测结果图像Out4、第五支路预测结果图像Out5进行张量连接后,再通过融合卷积层Convfuse和Sigmoid激活层得到第一预测结果图像。融合卷积层ConvFuse的卷积核大小为1x1,滑动步长为 1,通道数为1。
S102:根据训练集图像、验证集图像对应的标签图像和视觉注意模型的第一预测结果图像,以及视觉注意模型中的损失函数计算损失值。
具体地,请参阅图6,图6为图1中步骤S102一实施方式的流程示意图,上述步骤S102具体包括:
S401:利用第一公式计算获得各支路网络的支路预测结果图像对应的支路交叉熵损失。
具体地,上述支路交叉熵损失为第一支路预测结果图像Out1、第二支路预测结果图像Out2、第三支路预测结果图像Out3、第四支路预测结果图像Out4、第五支路预测结果图像Out5对应的交叉熵损失之和。
在本实施例中,上述第一公式为:
Figure BDA0002036123400000101
其中,
Figure BDA0002036123400000102
Figure BDA0002036123400000104
表示第m个支路网络对应的支路预测结果图像的交叉熵损失;W表示主干网络上的可训练参数矩阵,w(m)表示第m个支路网络上的可训练参数矩阵;X表示输入图像矩阵,Z表示标签图像矩阵, zj表示标签图像上第j个像素;n表示支路网络的总个数; Pr(zj=1|X;W,w(m)):表示zj被预测为作物像素的概率。
S402:利用第二公式计算获得视觉注意模型的第一预测结果图像对应的融合交叉熵损失。
具体地,上述第二公式为:
Figure BDA0002036123400000105
其中,
Figure 1
为第m个支路网络输出结果;h(·)表示Sigmoid函数,σ(·,·)表示交叉熵损失计算函数,形同上述
Figure BDA0002036123400000107
的计算公式。
S403:利用第三公式计算获得视觉注意模型的第一预测结果图像对应的自适应相似场损失。
具体地,自适应相似场损失的计算首先是根据预测结果图像中每个像素与其领域内像素在标签图像中是否处于类别边界来计算边界损失或非边界损失:
Figure BDA0002036123400000108
其中,
Figure BDA0002036123400000111
分别表示对像素i及其邻域内的像素j计算的非边界损失和边界损失。当像素i与像素j在标签图像中属于同类别时,计算非边界损失,否则计算边界损失。
Figure BDA0002036123400000112
为像素j是否属于类别c(作物或背景)的预测值。DKL
Figure BDA0002036123400000113
Figure BDA0002036123400000114
的KL(Kullback-Leibler)散度。 mKL表示边界损失阈值,推荐值为3,可根据经验调整。
为了给不同类别分配最合适的领域大小,在计算上述边界损失和非边界损失时,使用多种领域大小分别进行计算,并给不同领域大小计算的损失分配权重。权重值在模型训练过程中参与训练并得到优化。通过对预测结果图像逐像素计算不同领域大小的边界损失或非边界损失求和,得到总的自适应相似场损失,计算自适应相似场损失的第三公式如下所示:
Figure BDA0002036123400000115
其中,
Figure BDA0002036123400000119
wbck分别表示以k×k为领域大小按照类别计算非边界和边界损失时的权重,
Figure BDA0002036123400000116
分别表示相应的非边界损失和边界损失,且
Figure BDA00020361234000001110
Figure 2
S404:将支路交叉熵损失、融合交叉熵损失、自适应相似场损失求和以获得当前损失值。
具体地,当前损失值Ltotal=Lside+Lfuse+LAAF
S103:若当前损失值处于收敛状态,则停止对视觉注意模型进行训练,以获得训练后的视觉注意模型。
S104:否则,利用反向传播算法调节当前视觉注意模型中的权重,并对视觉注意模型继续进行训练,直至损失值达到收敛状态。
具体地,上述步骤S104具体包括:采用对抗式优化方式,调整自适应相似场中的权重使当前损失值朝上升方向优化,调整当前视觉注意模型中的其他权重使当前损失值向下降方向优化。通过这种对抗式的优化方式,使视觉注意模型在优化过程中为自适应相似场分配最佳权重,用公式表示如下:
Figure BDA0002036123400000121
上式中,D*表示模型优化目标,D表示不包含自适应相似场部分的模型,wAAF表示自适应相似场损失中的权重。通过该对抗式优化方式,可以找出最关键的卷积核的尺寸,使得在图像处理过程中细节、边缘分割的更加精确。
S105:将田间图像数据集中的测试集图像输入到训练后的视觉注意模型中,以获得第二预测结果图像。
具体地,如图2c所示,图2c为第二预测结果图像一实施方式的成像示意图。该步骤的实现方式与上述实施例中获得第一预测结果图像类似,在此不再赘述。
S106:判断第二预测结果图像是否符合预期。
具体地,在本实施例中,可以将第二预测结果图像和测试集图像对应的标签图像进行对比,以判断第二预测结果图像的精度是否符合预期。
S107:若是,则将训练后的视觉注意模型移植到机器上,以使得机器作业时识别作物。
具体地,该机器可以是除草机器人,除草机器人利用训练后的视觉注意模型可以有效辨别出杂草中的作物。
S108:否则,调整视觉注意模型中的超参数,并返回至将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中的步骤,即对视觉注意模型进行重新训练。
总的说来,本申请所提供的识别方法的步骤为:A、构建田间图像数据集以及构建基于深度卷积神经网络的视觉注意模型,该视觉注意模型中包含网络架构以及定义的损失函数;B、利用田间图像数据集中的训练集和验证集对视觉注意模型进行训练,以获得训练后的视觉注意模型;C、利用田间图像数据集中的测试集对训练后的视觉注意模型进行评估,若评估不通过,则调整视觉注意模型的权重,并返回至步骤B,对视觉注意模型重新训练和评估,直至测试结果符合预期;D、将训练好的模型移植到除草机器人搭载的计算机上,对除草机器人获取的田间图像进行实时处理,识别田间作物。本申请根据田间作物(特别是移栽作物)相对杂草、土壤背景具有显著性特征,采用全卷积神经网络建立视觉注意模型,该视觉注意模型能够精确提取作物区域,在杂草茂盛、苗草叶片交叠情况下仍能输出准确的预测结果,该识别方法精度高、实时性好。该视觉注意模型对于不同田间苗草种类、杂草密度、光照条件的具有良好的适应性,泛化能力和鲁棒性好。
需要说明的是,本申请所提供的视觉注意模型仅仅是其中的个例,通过少量地修改主干网络和支路网络的层数和通道数,也可以得到与本申请接近的作物识别效果。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种多草工况下田间作物的识别方法,其特征在于,所述识别方法包括:
将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中,以获得第一预测结果图像;其中,所述田间图像数据集为多草工况下田间作物的成像的集合;所述视觉注意模型结构包括主干网络和多个支路网络;
所述将田间图像数据集中的训练集图像输入到视觉注意模型中,以获得第一预测结果图像,包括:所述训练集图像经所述主干网络和多个所述支路网络处理后,在各支路网络输出端获得对应的第一支路预测结果图像、第二支路预测结果图像、第三支路预测结果图像、第四支路预测结果图像、第五支路预测结果图像;将所述第一支路预测结果图像、所述第二支路预测结果图像、所述第三支路预测结果图像、所述第四支路预测结果图像、所述第五支路预测结果图像融合后输出,以获得所述视觉注意模型的所述第一预测结果图像;各支路网络前端具有连续的卷积结构,在所述连续卷积结构之后,各支路网络之间具有跨支路连接结构;
其中,所述经多个所述支路网络处理包括:各支路网络上的所述连续卷积结构分别输出第一支路特征图、第二支路特征图、第三支路特征图、第四支路特征图、第五支路特征图;将所述第五支路特征图通过反卷积上采样以形成与所述第三支路特征图、第二支路特征图、第一支路特征图尺寸分别相同的第一反卷积特征图、第二反卷积特征图和第三反卷积特征图;将所述第四支路特征图通过反卷积上采样以形成与所述第三支路特征图、第二支路特征图、第一支路特征图尺寸分别相同的第四反卷积特征图、第五反卷积特征图和第六反卷积特征图;将所述第三支路特征图和所述第二支路特征图分别通过反卷积上采样以形成与所述第一支路特征图尺寸相同的第七反卷积特征图和第八反卷积特征图;将所述第一反卷积特征图、所述第四反卷积特征图和所述第三支路特征图进行张量连接,通过第三支路第四卷积层,获得第三支路融合特征图;将所述第二反卷积特征图、所述第五反卷积特征图和所述第二支路特征图进行张量连接,通过第二支路第四卷积层,获得第二支路融合特征图;将所述第三反卷积特征图、所述第六反卷积特征图、所述第七反卷积特征图、第八反卷积特征图、所述第一支路图像进行张量连接,通过第一支路第四卷积层,获得第一支路融合特征图;将所述第五支路特征图、所述第四支路特征图、所述第三支路融合特征图、所述第二支路融合特征图、所述第一支路融合特征图分别进行卷积、反卷积上采样至与标签图像的尺寸相同,并分别通过Sigmoid激活层后,得到各支路网络对应的所述第一支路预测结果图像、所述第二支路预测结果图像、所述第三支路预测结果图像、所述第四支路预测结果图像、所述第五支路预测结果图像;
根据所述训练集图像、所述验证集图像对应的标签图像和所述视觉注意模型的所述第一预测结果图像,以及所述视觉注意模型中的损失函数计算损失值;
若当前所述损失值处于收敛状态,停止对所述视觉注意模型进行训练,以获得训练后的视觉注意模型;否则,利用反向传播算法调节所述视觉注意模型中的权重,并对所述视觉注意模型继续进行训练,直到所述损失值达到收敛状态;
将所述田间图像数据集中的测试集图像输入到训练后的所述视觉注意模型中,以获得第二预测结果图像;判断所述第二预测结果图像是否符合预期;若是,则将训练后的视觉注意模型移植到机器上,以使得机器作业时识别作物;否则,调整视觉注意模型中的超参数,并返回至将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中的步骤。
2.根据权利要求1所述的识别方法,其特征在于,所述主干网络依次包括第一卷积层、第一残差单元、第二残差单元、第三残差单元和第四残差单元;且所述第一残差单元与所述第一卷积层之间具有池化层;所述第一卷积层、所述第一残差单元、所述第二残差单元、所述第三残差单元和所述第四残差单元的输出端分别与第一支路网络、第二支路网络、第三支路网络、第四支路网络、第五支路网络连接。
3.根据权利要求2所述的识别方法,其特征在于,所述第一残差单元或所述第二残差单元或所述第三残差单元或所述第四残差单元依次包括:
输入端、批归一化层、ReLU激活层、第二卷积层、批归一化层、ReLU激活层、第三卷积层、输出端,且所述输入端与所述输出端之间有一条旁路连接。
4.根据权利要求2所述的识别方法,其特征在于,所述连续卷积结构依次包括:ReLU激活层、支路第一卷积层、ReLU激活层、支路第二卷积层、ReLU激活层、支路第三卷积层。
5.根据权利要求2所述的识别方法,其特征在于,所述将所述第一支路预测结果图像、所述第二支路预测结果图像、所述第三支路预测结果图像、所述第四支路预测结果图像、所述第五支路预测结果图像融合后输出,以获得所述视觉注意模型的所述第一预测结果图像,包括:
将所述第一支路预测结果图像、所述第二支路预测结果图像、所述第三支路预测结果图像、所述第四支路预测结果图像、所述第五支路预测结果图像进行张量连接后,再通过融合卷积层和Sigmoid激活层得到所述视觉注意模型的所述第一预测结果图像。
6.根据权利要求2所述的识别方法,其特征在于,所述根据所述训练集图像、所述验证集图像对应的标签图像和所述视觉注意模型的所述第一预测结果图像,以及所述视觉注意模型中的损失函数计算损失值,包括:
利用第一公式计算获得各支路网络的支路预测结果图像对应的支路交叉熵损失;
利用第二公式计算获得所述视觉注意模型的所述第一预测结果图像对应的融合交叉熵损失;
利用第三公式计算获得所述视觉注意模型的所述第一预测结果图像对应的自适应相似场损失;
将所述支路交叉熵损失、所述融合交叉熵损失、所述自适应相似场损失求和以获得当前所述损失值。
7.根据权利要求6所述的识别方法,其特征在于,
所述第一公式为:
Figure 547819DEST_PATH_IMAGE001
其中,
Figure 55024DEST_PATH_IMAGE002
所述
Figure 595727DEST_PATH_IMAGE003
表示第m个支路网络对应的支路预测结果图像的交叉熵损失;W表 示主干网络上的可训练参数矩阵,w (m)表示第m个支路网络上的可训练参数矩阵;X表示输入 图像矩阵,Z表示标签图像矩阵,z j 表示所述标签图像上第j个像素;n表示支路网络的总个 数;
Figure 239198DEST_PATH_IMAGE004
表示z j 被预测为作物像素的概率;
所述第二公式为:
Figure 839944DEST_PATH_IMAGE005
;
其中,
Figure 568865DEST_PATH_IMAGE006
为第m个支路网络输出结果;h(·)表示Sigmoid函数,
Figure 913259DEST_PATH_IMAGE007
表示交叉熵损 失计算函数;
所述第三公式为:
Figure 411236DEST_PATH_IMAGE008
其中,
Figure 448462DEST_PATH_IMAGE009
Figure 399101DEST_PATH_IMAGE010
分别表示以k×k为领域大小按照类别计算非边界和边界损失时的权 重,
Figure 281606DEST_PATH_IMAGE011
Figure 899669DEST_PATH_IMAGE012
分别表示相应的非边界损失和边界损失,且
Figure 842218DEST_PATH_IMAGE013
8.根据权利要求2所述的识别方法,其特征在于,所述利用反向传播算法调节所述视觉注意模型中的权重,包括:
采用对抗式优化方式,调整自适应相似场中的权重使当前损失值朝上升方向优化,调整当前所述视觉注意模型中的其他权重使所述当前损失值向下降方向优化。
9.根据权利要求1所述的识别方法,其特征在于,所述将田间图像数据集中的训练集图像和验证集图像输入到视觉注意模型中之前,所述识别方法包括:
获得多个多草工况下的田间图像;
对多个所述田间图像按照显著性检测数据集的方式进行标注,只标出显著性区域作为标签图像;
将采集到的田间图像和对应的标注后的所述标签图像按照预定比例划分为训练集、验证集和测试集。
CN201910325623.9A 2019-04-22 2019-04-22 一种多草工况下田间作物的识别方法 Active CN110245551B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910325623.9A CN110245551B (zh) 2019-04-22 2019-04-22 一种多草工况下田间作物的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910325623.9A CN110245551B (zh) 2019-04-22 2019-04-22 一种多草工况下田间作物的识别方法

Publications (2)

Publication Number Publication Date
CN110245551A CN110245551A (zh) 2019-09-17
CN110245551B true CN110245551B (zh) 2022-12-06

Family

ID=67883357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910325623.9A Active CN110245551B (zh) 2019-04-22 2019-04-22 一种多草工况下田间作物的识别方法

Country Status (1)

Country Link
CN (1) CN110245551B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807425B (zh) * 2019-11-04 2024-02-27 金陵科技学院 一种智能除草系统及除草方法
CN112712042B (zh) * 2021-01-04 2022-04-29 电子科技大学 嵌入关键帧提取的行人重识别端到端网络架构

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN109359681A (zh) * 2018-10-11 2019-02-19 西京学院 一种基于改进全卷积神经网络的大田作物病虫害识别方法
CN109493346A (zh) * 2018-10-31 2019-03-19 浙江大学 一种基于多损失的胃癌病理切片图像分割方法和装置
CN109658422A (zh) * 2018-12-04 2019-04-19 大连理工大学 一种基于多尺度深监督网络的视网膜图像血管分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578436A (zh) * 2017-08-02 2018-01-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
CN109359681A (zh) * 2018-10-11 2019-02-19 西京学院 一种基于改进全卷积神经网络的大田作物病虫害识别方法
CN109493346A (zh) * 2018-10-31 2019-03-19 浙江大学 一种基于多损失的胃癌病理切片图像分割方法和装置
CN109658422A (zh) * 2018-12-04 2019-04-19 大连理工大学 一种基于多尺度深监督网络的视网膜图像血管分割方法

Also Published As

Publication number Publication date
CN110245551A (zh) 2019-09-17

Similar Documents

Publication Publication Date Title
CN110009043B (zh) 一种基于深度卷积神经网络的病虫害检测方法
Zhang et al. Computer vision‐based tree trunk and branch identification and shaking points detection in Dense‐Foliage canopy for automated harvesting of apples
CN110148120A (zh) 一种基于cnn与迁移学习的病害智能识别方法及系统
Blok et al. The effect of data augmentation and network simplification on the image‐based detection of broccoli heads with Mask R‐CNN
CN109492706B (zh) 一种基于循环神经网络的染色体分类预测装置
CN112598713A (zh) 一种基于深度学习的近岸海底鱼类检测、跟踪统计方法
Sabrol et al. Fuzzy and neural network based tomato plant disease classification using natural outdoor images
CN110827273A (zh) 一种基于区域卷积神经网络的茶叶病害检测方法
CN110245551B (zh) 一种多草工况下田间作物的识别方法
CN111984817B (zh) 一种基于自注意力机制加权的细粒度图像检索方法
CN111783693A (zh) 果蔬采摘机器人的智能识别方法
Kirola et al. Plants diseases prediction framework: A image-based system using deep learning
CN111797760A (zh) 基于Retinanet改进的农作物病虫害识别方法
CN114140651A (zh) 胃部病灶识别模型训练方法、胃部病灶识别方法
CN108629289A (zh) 农田的识别方法及系统、应用于农业的无人机
CN117649610A (zh) 一种基于YOLOv5的害虫检测方法及系统
Kumar et al. Plant Disease Detection and Crop Recommendation Using CNN and Machine Learning
McLeay et al. Deep convolutional neural networks with transfer learning for waterline detection in mussel farms
CN117253192A (zh) 用于桑蚕养殖的智能系统及方法
CN115330759B (zh) 一种基于豪斯多夫距离计算距离损失的方法及装置
CN117132802A (zh) 一种田间小麦病虫害识别方法、装置及存储介质
Jin et al. An improved mask r-cnn method for weed segmentation
CN116740337A (zh) 一种红花采摘点识别定位方法及采摘系统
CN109472771A (zh) 玉米雄穗的检测方法、装置及检测设备
CN114937030A (zh) 一种用于智慧农业种植生菜的表型参数计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant