CN115424257A

CN115424257A - 基于改进多列卷积神经网络的作物苗期植株计数方法

Info

Publication number: CN115424257A
Application number: CN202210975343.4A
Authority: CN
Inventors: 羊海潮; 袁皓煜; 尹子琴; 李毅
Original assignee: Dali University
Current assignee: Dali University
Priority date: 2022-08-15
Filing date: 2022-08-15
Publication date: 2022-12-02

Abstract

本发明公开基于改进多列卷积神经网络的作物苗期植株计数方法，包括如下步骤：获取待估计苗期植株图像；将待估计苗期植株图像输入预设的苗期植株计数模型中，苗期植株计数模型包括多列卷积分支注意力编码器、多分支融合模块以及上采样可视化模块，多列卷积神经网络模型用于提取不同尺度大小的特征；多分支特征融合模块用于将不同尺度大小的特征进行融合并将融合后的特征通过1维卷积滤波层进行注意力映射；上采样可视化模块用于将映射后的特征恢复密度图的分辨率，获得估计的苗期植株密度图；计算苗期植株密度图中像素点概率值并进行累加，得到待估计苗期植株图像中苗期植株的数量。本发明将提高在大田场景下不同尺度苗期植株的高精度计数。

Description

基于改进多列卷积神经网络的作物苗期植株计数方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及基于改进多列卷积神经网络的作物苗期植株计数方法。

背景技术

近年来，人们提出了一些基于计算机视觉的植株计数方法，可分为传统的机器学习方法和基于深度学习的方法。传统的机器学习方法通常通过图像低阶特征对植物进行分割或检测，并对检测到的对象进行计数。例如，Gonga等用阈值分割去检测苹果色段，进一步通过形态学处理来识别苹果的计数。Qureshi等从超像素中提取SIFT描述符，并使用SVM对芒果和非芒果区域进行分类及计数。然而，低阶图像特征易受噪声影响，鲁棒性较差，计数精确度难以保障。近年来，随着深度学习在图像分类、目标检测以及图像分割等方面获得优异的结果，深度学习开始在植物计数方面进行应用。

基于深度学习的植物计数方法主要有图像分割和目标检测两种方法，Hasan等使用Fast R-CNN图像分割网络来检测苗期植株穗，Madec等使用Fast R-CNN对成熟期后的小麦穗进行检测，因为其穗和背景的差异较为明显，所以检测精度良好。同时图像分割和目标检测的有效性和鲁棒性是以昂贵的边界框和像素级注释为代价的，通常需要大量手动注释。

随着深度学习的发展，出现了一种将密度估计引入深度学习中的计数范式，可以直接从图像中推断计数。基于密度图的方法由于稳健的鲁棒性和较高可计算性成为计数领域的主流方法，在人群及植株计数领域中被广泛应用。Lempitsky等将计数转换为密度图回归是一个开创新的工作。自Lempitsky等和Chen等的工作起，学者专家更加专注于对模型进行创新和改进，使其具有更好的鲁棒性，如Zhang等使用CSRNet同时估计密度图和对象计数来进行植株计数，Wu等结合密度图估计和背景分割来估算水稻幼苗的计数，Xiong等在TasselNetv2中针对穗的局部计数中引入上下文扩展显着提高计数性能。

在Y.Zhang和Sam两项工作中利用多列卷积神经网络(MCNN)具有不同大小的滤波器，以增加对人群的大小鲁棒性。然而基于MCNN的植株计数却鲜有报道，现有研究多是基于简单背景下的单一尺度物体计数，如Feng等基于改进的MCNN进行大米颗粒计数，Hou等在MCNN中引入先验图进行鱼饵颗粒计数。

当前基于深度学习的方法针对大田复杂场景下的苗期植株计数面临着实质性的视觉挑战，包括：(1)苗期植株的密集种植，会导致极密集的空间分布和严重的遮挡(图11(a))，在检测过程中容易产生误判或漏判定等情况；(2)大田场景下存在土壤杂质(秸秆、砖砌)遮挡的情况(图11(b))，苗期植株只占据图像中的少量像素，这必须有差异来区分苗期植株主体和背景；(3)由于光照变化引起的视觉差异，光照影像存在低照度和高照度的图像(图11(c))；(4)杂草等影响较大的背景杂质，会在检测过程中造成背景误差估计，并影响计数精度(图11(d))；(5)即使在苗期，苗期植株也因为生长差异，有不同的尺寸大小，存在尺度变化问题(图11(e))。

以上问题对于当前场景下的苗期植株计数精度有较大的影响，导致了现有先进模型(CSRNet、SCAR、MCNN、CANNet、TasselNetV2)普遍具有较低的计数精度。分析发现，是因为现有先进计数模型使用相同卷积核的过滤器，估计局部尺度以补偿透视失真，如CANNet虽然具有结合了使用多个感受野大小获得的特征，能够自适应的编码预测目标密度所需的上下文信息的规模，但是针对较大苗期植株在透视场景下仍不能较好的适用；SCAR基于CSRNet进行改进，引入并行的两种注意力机制，能够极大的减轻对背景区域的错误估计,但是忽略了较大苗期植株的大范围尺度信息，最终产生较低的计数精度；TasselNetv2针对具有固定尺度大小穗的局部计数中引入上下文扩展，在一定程度上提升了计数性能，但是总体上计数精度仍处于较低的水平。综上所述，在苗期植株计数场景中并不适用具有相同卷积核的过滤器，同时，MCNN虽然在一定程度上对不同尺度的同一物体有较好的鲁棒性，但是在苗期植株计数场景下的鲁棒性仍有所欠缺，其模型结构改进仍有优化空间。

发明内容

为了解决上述技术问题，本发明提出基于改进多列卷积神经网络的作物苗期植株计数方法，以提高在大田场景下不同尺度苗期植株的高精度计数。

为了达到上述目的，本发明的技术方案如下：

基于改进多列卷积神经网络的作物苗期植株计数方法，包括如下步骤：

获取待估计苗期植株图像；

将待估计苗期植株图像输入预设的苗期植株计数模型中，所述苗期植株计数模型包括多列卷积分支注意力编码器、多分支融合模块以及上采样可视化模块，其中，所述多列卷积神经网络模型用于提取不同尺度大小的特征；所述多分支特征融合模块用于将不同尺度大小的特征进行融合并将融合后的特征通过1维卷积滤波层进行注意力映射；所述上采样可视化模块用于将映射后的特征恢复密度图的分辨率，获得估计的苗期植株密度图；

计算苗期植株密度图中像素点概率值并进行累加，得到待估计苗期植株图像中苗期植株的数量。

优选地，所述多列卷积神经网络模型包括并列连接的分支1、分支2和分支3，所述分支1中引入位置注意力模块，用于得到位置注意力特征，所述分支3中引入通道注意力模块，用于得到通道注意力特征。

优选地，所述分支1的结构，如下所示：

Conv1：卷积核大小为9×9，通道数量为16，步长为4；

最大池化层：过滤器大小为2×2，步长为2；

Conv2：卷积核大小为7×7，通道数量为32，步长为3；

最大池化层：过滤器大小为2×2，步长为2；

位置注意力模块；

Conv3：卷积核大小为7×7，通道数量为16，步长为3；

Conv4：卷积核大小为7×7，通道数量为8，步长为3。

优选地，所述位置注意力模块的处理过程，如下所示：

将分支1提取的特征F_B1分别输入到三个不同的1×1卷积层中并使用重组或转置操作，获得三个特征图P_B1:1、P_B1:2和P_B1:3；

对特性图P_B1:1和P_B1:3使用矩阵乘法和Softmax运算，将权重和归一化为和为1的概率分布，得到位置注意图P_B1:a，计算公式如下：

其中

表示第i个位置对第j个位置的影响，

对P_B1:a和P_B1:1之间应用矩阵乘法，然后将输出维度重组为特征F_B1大小，对于F_B1的最终和操作，使用一个可学习的因子来缩放输出，计算公式如下：

其中，λ是可学习参数。

优选地，所述分支3的结构，如下所示：

Conv1：卷积核大小为5×5，通道数量为24，步长为2；

最大池化层：过滤器大小为2×2，步长为2；

Conv2：卷积核大小为3×3，通道数量为48，步长为1；

最大池化层：过滤器大小为2×2，步长为2；

通道注意力模块；

Conv3：卷积核大小为3×3，通道数量为24，步长为1；

Conv4：卷积核大小为3×3，通道数量为12，步长为1。

优选地，所述通道注意力模块的处理过程，如下所示：

将分支3提取的特征F_B3输入到一个1×1的卷积层中，获得三个特征图C_B3:1、C_B3:2和C_B1:3；

对C_B1:1和C_B1:2使用矩阵乘法和Softmax运算，将权重和归一化为概率和为1的概率分布，得到位置注意图C_B3:a，计算公式如下：

其中

表示第i个通道对第j个通道的影响，

对C_B3:a和C_B3:3应用矩阵乘法，然后将输出维度重组为特征F_B3大小，最后通过一个可学习的变量来衡量和操作的输出，计算公式如下：

其中，μ是一个区别于λ的可学习参数。

优选地，所述苗期植株计数模型的训练过程中引入密度图损失加上采样绝对计数损失共同组成混合损失的结果，用于对可视化模块上采样后的密度图进行计数精度监督，公式如下：

L＝(1-δ)*Loss_D+δ*Loss_C 公式7

其中，Loss_D为密度图损失；Loss_C为计数损失。

基于上述技术方案，本发明的有益效果是：

1)本发明以多列卷积分支编码器作为主干，其使用不同大小的滤波器捕捉多重尺度的苗期植株基础特征，进而增强特征表示，缓解苗期植株因生长状态不同而产生的不同尺度问题；

2)本发明在分支1中引入位置注意力模块(PAM)。PAM可以模拟较大范围的上下文信息，在与分支1的大卷积相结合后，能捕捉较大苗期植株的范围性信息，将较大尺度的苗期植株的大致位置信息映射至具体的像素区域，尝试编码对空间维度的大范围依赖关系，这对较大植株的密度位置定位性能有较好的效果；

3)本发明在分支3中引入通道注意力模块(CAM)。为了区别特定的较小苗期植株区域和其他区域(稻草、砖砌、杂草、裸土)两种响应，使用通道注意力模块获取任意双通道映射之间的关系，并对通道映射进行加权求和，最后对原始通道进行更新。这能提高总体计数精度并在一定程度上避免背景的误差估计；

4)本发明在苗期植株计数模型的训练过程中引入上采样绝对计数损失。相比较传统单一密度图损失，为了获得更高的计数精度，本节对可视化模块上采样后的密度图进行计数精度监督，在训练过程中引入密度图损失加上采样绝对计数损失共同组成混合损失的结果。

附图说明

图1是一个实施例中基于改进多列卷积神经网络的作物苗期植株计数方法流程图；

图2是苗期植株计数模型的网络架构图；

图3是多列卷积分支编码器的结构图1；

图4是多列卷积分支编码器的结构图2；

图5是位置注意力模块的结构图；

图6是通道注意力模块的结构图；

图7是多分支融合模块的结构图；

图8是常见密度估计网络结构；

图9是增加上采样计数敏感度后并使用混合损失的对比结果图1；

图10是增加上采样计数敏感度后并使用混合损失的对比结果图2；

图11是采集的苗期植株的五种类型图像。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

如图1所示，本实施例提供一种基于改进多列卷积神经网络的作物苗期植株计数方法，包括如下步骤：

S1，获取待估计苗期植株图像。

本实施例中，由于预设的苗期植株计数模型(SRDPNet)的所有卷积层采用全卷积神经网络，不含全连接层，所以能够处理内存允许情况下的任意分辨率图像，不需要将图片裁剪为特定大小。

S2，将待估计苗期植株图像输入预设的苗期植株计数模型中，所述苗期植株计数模型包括多列卷积分支注意力编码器、多分支融合模块以及上采样可视化模块，其中，所述多列卷积神经网络模型用于提取不同尺度大小的特征；所述多分支特征融合模块用于将不同尺度大小的特征进行融合并将融合后的特征通过1维卷积滤波层进行注意力映射；所述上采样可视化模块用于将映射后的特征恢复密度图的分辨率，获得估计的苗期植株密度图。

本实施例中，如图2、3所示，苗期植株计数模型包括多列卷积分支注意力编码器、多分支融合模块以及上采样可视化模块，其中，

1.多列卷积神经网络模型(MAB)，参照图4。多列卷积神经网络模型基于具有不同大小滤波器的多列卷积注意力编码器(分支1、分支2和分支3)去捕捉不同尺度的苗期植株基础特征，并在分支1和分支3中分别引入位置注意力模块和通道注意力模块，分别用来编码位置和通道方面的注意特征。之后通过多分支融合模块将多尺度下的特征图进行融合，融合后的特征通过1×1的滤波器将特征图进行映射。最后将融合后的特征映射图送入上采样可视化模块中进行分辨率的恢复，得到最终的预测密度图。

在分支1中引入位置注意力模块(PAM:position attention module)，参照图5。PAM可以模拟较大范围的上下文信息，在与分支1的大卷积相结合后，能捕捉较大苗期植株的范围性信息，将较大尺度的苗期植株的大致位置信息映射至具体的像素区域，尝试编码对空间维度的大范围依赖关系，这对较大植株的密度位置定位性能有较好的效果。

在人群场景的视角变化中，全局和局部的密度分布具有一定的规律性，对于全局图像，密度的变化呈一致的渐进趋势。但是对于苗期植株场景，存在大量的由生长状态不一而产生的尺度变化问题，为了对上述观察结果进行编码，需要引入一个可以模拟大范围的上下文信息的模块，并捕捉密度分布的变化。

位置注意力模块来编码能个特征图中的空间依赖性，所以在多列卷积神经网络的分支1引入了位置注意力模型(PAM)，其与分支1中的大卷积核滤波器结合后，能够提取提取更大范围内的较大苗期植株上下文信息。总体处理流程如下所示：

1.1对于分支1中大小为C×H×W的输入F_B1，将其输入到三个不同的1×1卷积层中并使用重组或转置操作，获得三个特征图P_B1:1、P_B1:2和P_B1:3。为了生成位置注意图，对P_B1:1和P_B1:2使用矩阵乘法和Softmax运算，将权重和归一化为和为1的概率分布。在此之后，得到了一个大小为HW×HW的位置注意图P_B1:a。

其中

表示第i个位置对第j个位置的影响。两个位置的相似特征图越多，它们之间的相关性就越强。

在得到

之后，对P_B1:a和P_B1:3之间应用矩阵乘法，然后将输出维度重组为C×H×W。对于F_B1的最终和操作，使用一个可学习的因子来缩放输出。PAM的输出定义如下。

其中，λ是一个可学习参数。与CAM一样使用核为1×1的卷积层来学习。

最终输出的特征图P^j _B1:f是注意力图和原始局部特征图的加权和，其中包含全局上下文特征和自注意力信息。

1.2.在分支3中引入通道注意力模块(CAM:channel attention module)，参照图6。为了区别特定的较小苗期植株区域和其他区域(稻草、砖砌、杂草、裸土)两种响应，使用通道注意力模块获取任意双通道映射之间的关系，并对通道映射进行加权求和，最后对原始通道进行更新。这能提高总体计数精度并在一定程度上避免背景的误差估计。

为了提升SRPDNet在苗期植株计数场景中对前景(较小苗期植株主体区域)和背景(杂草、裸土、砖砌、稻草)的识别，本节在多列卷积神经网络的分支3中引入CAM来学习对通道维度的依赖关系，称为“位置注意模块”。对于高度密集并且较小的苗期植株，前景的纹理与一些背景区域(杂草、裸土等)非常相似，嵌入CAM可以有效地弥补背景估计误差。CAM的总体结构如下图所示。

对于大小为C×H×W的分支3输入F_B3，CAM仅用一个1×1的卷积层来处理从主干中获得的特征图，分别为C_B3:1、C_B3:2和C_B1:3。为了生成通道注意图，对C_B1:1和C_B1:2使用矩阵乘法和Softmax运算，将权重和归一化为和为1的概率分布。在此得到了一个大小为HW×HW的位置注意图C_B3:a。在得到C_B3:a后，对C_B3:a和C_B3:3应用矩阵乘法，然后将输出维度重组为C×H×W。最后通过一个可学习的变量来衡量和操作的输出。

其中

表示第i个通道对第j个通道的影响。大小为C×H×W的

计算公式如下：

其中，μ是一个区别于λ的可学习参数。

最终输出的特征图

是注意力图和原始局部特征图的加权和，其中包含特定于前景和背景响应的特征图和自注意力信息。

2.多分支融合模块(MBFM)，参照图7。相比较原本MCNN网络结构的1/4下采样，本发明对MCNN中单一的Fusion操作进行扩充重组，命名为多分支融合模块，主要在其中额外引入一个池化操作，对原本输入进行1/8下采样操作。MBFM主要将三个分支的不同类型特征图进行连接融合多层特征图以增强特征表示，在进行一次池化操作后，通过大小为1×1的滤波器将特征图映射到1/2大小的密度图。调整特征图通道的原因是为了突出高阶特征，并使其在融合的特征图中发挥主要作用。低阶特征仅被视为补充细节的辅助信息。通过使用这个模块，只要单分支的特征通道发生相应的改变，所有分支特征映射都可以被融合。

3.上采样可视化模块(VM)。上采样可视化模块将模型预测的密度图通过卷积，使用双线性插值法将密度图映射投影回原始高分辨率。双线性插值法是一个典型的上采样方法。重新映射后的密度图可以用于上采样绝对计数损失的计算，还可以获得更好的可视化和可解释性效果。

相比较传统单一密度图损失，为了获得更高的计数精度，本节对可视化模块上采样后的密度图进行计数精度监督，在训练过程中引入密度图损失加上采样绝对计数损失共同组成混合损失的结果。

现有先进的计数模型在训练时使用了下采样1/8的密度图损失，即计算预测密度图与真实密度图间的差值，密度图损失Loss_D具体定义如公式5所示。

其中D为真实背景密度图，

为模型输出的预测密度图。

与玉米植株、穗计数的相对稀疏场景和固定尺度大小场景不同，苗期植株数据相对密集，并且有大量的尺度不一情况，同时伴随着遮挡。为此引入上采样绝对计数损失来获得更高的计数精度。计数损失Loss_C具体定义如公式6所示。

其中，C和

分别表示第n张输入图片的人工真实株数和模型的预测株数。

因为混合损失L受上采样计数损失Loss_C的影响易产生较大的偏离值进对损失有过大的影响，所以通过加权求和来一定程度上减小其对最终损失的影响，混合损失L定义如公式7所示。

L＝(1-δ)*Loss_D+δ*Loss_C 公式7

S3，计算苗期植株密度图中像素点概率值并进行累加，得到待估计苗期植株图像中苗期植株的数量。

实验结果

常见的基于密度估计的网络模型(CSRNet、SCAR、MCNN、CANNet、TasselNetV2)通常由前端网络和后端网络组成，所有卷积层使用全卷积神经网络，通常对输入图像进行1/4或1/8下采样操作。如图8所示。其中前端网络通常由VGG16、MixNet、ResNet等卷积结构作为骨架，前端网络主要用于提取基础特征并进行特征编码。后端网络由空洞卷积网络组成，扩大了感受野范围，获得了范围更大的特征信息，最终生成密度预测图。在模型训练时，通常对背景真相的密度图和模型预测的密度图进行监督，并将差值结果作为损失函数。单一密度图损失结构普遍的具有较低的计数精度。将SRDPNet与网络模型CSRNet、SCAR、MCNN、CANNet、TasselNetV2进行对比，实验结果如下表所示：

表1

从实验结果中可以看出，单一损失下，在对比的四个优秀深度学习模型中，SRDPNet的综合误差指标最低，计数准确率最高。实验结果表明，在单一密度图损失下，SRDPNet模型在苗期植株计数上的有效性，同时也证明了多列卷积神经网络对不同尺度苗期植株大小识别的有效性。

参照图9，实验结果显示，在增加上采样计数敏感度后的混合损失下，现有计数方法的计数准确率有了明显的提升。SRDPNet的综合误差指标最低，相比较于其余四种密度估计算法中误差最低的SCAR，SRDPNet的MAE降低了3.69，MSE降低了4.31，相对计数误差率也降低了6.16％。实验结果充分表明，相较于单一密度图损失，添加上采样绝对计数损失后对模型精度有较为明显的提升，证明其对模型精度提升的有效性。

参照图10，实验结果显示，相比较传统计数模型，本发明的综合误差指标最低，计数准确率最高。

以上所述实施例仅表达了本申请的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。