CN118212540B

CN118212540B - 一种基于多模态图像融合的杂草侵扰率预测方法

Info

Publication number: CN118212540B
Application number: CN202410636283.2A
Authority: CN
Inventors: 肖源源; 黄杨; 王崎; 余珮嘉; 陈攀峰; 吴雪; 吴兴财
Original assignee: Guizhou Huikong Nongyao Technology Co ltd; Guizhou University
Current assignee: Guizhou Huikong Nongyao Technology Co ltd; Guizhou University
Priority date: 2024-05-22
Filing date: 2024-05-22
Publication date: 2024-07-16
Anticipated expiration: 2044-05-22
Also published as: CN118212540A

Abstract

本发明公开了一种基于多模态图像融合的杂草侵扰率预测方法，属于人工智能辅助精准农业检测技术领域，通过融合多模态图像，增加图像的信息量从而提高融合图像的质量。并基于融合图进行植被分割和杂草侵扰率预测。本发明由图像配准，图像融合，植被分割和杂草侵扰率预测四个模块组成。在图像配准和图像融合阶段，主要使用卷积进行特征提取和局部的细粒度对齐。而在杂草侵扰率预测模块，依赖于多层感知机良好的全局计算力，并结合多种注意力模块进行侵扰率的回归预测。本发明提出的一种基于多模态图像融合的杂草侵扰率预测方法，能重构出高质量的融合图像，并得到高精度的杂草侵扰率预测结果。

Description

一种基于多模态图像融合的杂草侵扰率预测方法

技术领域

本发明属于人工智能辅助精准农业检测技术领域，尤其是涉及一种基于多模态图像融合的杂草侵扰率预测方法。

背景技术

根据田间实验发现在幼苗期杂草争夺营养和空间的能力强于作物，使得作物生长受到抑制，导致产量降低。因此快速有效的清除田间杂草，可以降低病虫害的传播，提高农业生态效益。现在除杂草的方法有机械除草和化学除草。机械除草对环境友好，但是需要耗费大量的人力和物力资源，并且操作不当容易损伤作物。因此，现在田间种植多选择化学除草，除草剂除草速度快，对某些难以机械除草的杂草种子也有效，可以节约时间和劳动力。但是农药使用不当也会污染环境，导致杂草出现抗药性的同时影响作物的品质。随着人工智能技术的发展，结合了农业科学、信息技术、遥感技术和自动化技术等先进技术和数据分析方法，可以实现农药的精准的实施，提高农作物的生产力和质量。

目前精准农业中计算机视觉技术应用已经非常广泛，例如遥感技术、数据分析和决策支持系统等技术。遥感可使用利用卫星、飞机或无人机获取高分辨率的遥感影像数据，这些数据可用于监测作物的植被指数、水分分布等生物量信息。利用大数据分析和人工智能技术，对农业数据进行处理和分析，可以提供精准的种植计划，辅助农民制作施肥方案和病虫害防控策略等。这种精细化的管理方法可以最大限度地减少资源的浪费，并降低对环境的不良影响。

因此，在杂草检测领域，快速确定田间杂草侵扰率，能辅助确定除草剂合适的施用时期和剂量，对快速、有效地铲除杂草具有重要意义。现在计算机视觉领域针对杂草检测有了很多应用，例如使用机器学习算法对卫星图像进行杂草测绘，或者使用基于深度学习的方法进行杂草分割。但是以上方法需要昂贵的采集设备，并且RGB图像容易受到各种自然天气因素干扰导致图像质量不高。同时使用有监督深度学习方法需要大量的标注数据，这需要大量的专家知识和人力资源，目前公开可用于杂草检测的数据集较少，所包含的作物和杂草种类也不多，缺少泛化性。此外，现在杂草检测任务通常只进行杂草分割或者杂草目标检测，而不对杂草侵扰率进行预测。

发明内容

本发明的目的是提供一种基于多模态图像融合的杂草侵扰率预测方法，解决现有技术存在的现在杂草检测任务通常只进行杂草分割或者杂草目标检测，而不对杂草侵扰率进行预测的问题。

为实现上述目的，本发明提供一种基于多模态图像融合的杂草侵扰率预测方法，包括以下步骤：

步骤1、读入未对齐的RGB图像和红外图像进行图像转换和图像匹配，生成基于RGB图像的伪红外图像和红外配准图像；

步骤2、对步骤1生成的红外配准图像和未对齐的RGB图像进行多模态图像融合，获得融合图像；

步骤3、根据步骤2得到融合图像，进行植被分割，得到二值化的植被mask图像；

步骤4、对得到二值化的植被mask图像进行杂草侵扰率预测，获得最终预测的杂草侵扰率。

优选的，步骤1的具体过程如下：

S11、将未对齐的RGB图像和红外图像成对的输入到CycleGAN中，经由两个生成器和两个判别器，CycleGAN使用风格迁移损失函数和感知损失函数进行训练，学习跨模态图像的模态差异，最后输出RGB图像经过模态转变为红外的伪红外图像；

S12、把伪红外图像和与之匹配的红外图像一起输入到特征对齐模块，特征对齐模块使用双向相似性损失函数衡量伪红外图像和红外图像之间的相似性，然后更新红外图像的形变场变量，对更新红外图像的形变场变量进行整合得到红外配准图像。

优选的，风格迁移损失函数和感知损失函数的具体表达式如下：

；

式中，表示表示第j层的特征表达，表示对第j层特征使用Gram矩阵计算。

优选的，双向相似性损失函数的具体表达式如下：

；

式中，是一个超参数，表示形变场的反向表达。

优选的，步骤2的具体过程如下：

S21、接收S12中得到红外配准图像和S11中未对齐的RGB图像，使用参数共享的密集卷积模块进行特征提取，得到红外图像的特征和未对齐的RGB图像的特征；

S22、根据S21中提取到的特征，计算RGB图像与红外图像融合的权重参数，得到最后的融合图像，并使用融合图像分别与RGB图像和红外配准图像的对比结果的和为MS-SSIM损失函数衡量融合图像的质量，其中MS-SSIM损失函数的具体表达式如下：

。

优选的，RGB图像与红外图像融合的权重参数计算和具体融合过程的表达式如下：

；

式中，表示经过融合权重处理后的对齐红外图像特征，表示未经过任何处理的RGB图像特征，表示经过融合权重处理后的对齐红外图像特征和未经过任何处理的RGB图像特征的和，表示红外图像的融合权重，表示点积，表示叠加。

优选的，步骤3的具体过程如下：

S31、将未处理的RGB图像进行YCbCr空间映射，分离出Y、Cb与Cr通道，使用融合图像的信息替换分离出来的Y通道，然后把分离的三通道数据重新堆叠在一起重新映射到RGB空间，重构出新的融合RGB图像；

S32、使用归一化植被指数NDVI对重构出新的融合RGB图像进行植被分割，具体表达式如下：

；

其中，表示近红外波段，表示红色波段。

优选的，步骤4的具体过程如下：

S41、将经过融合权重处理后的对齐红外图像特征和未经过任何处理的RGB图像特征经过细粒度多层感知机的处理，获得经过细粒度多层感知机处理的高级特征表达；

S42、将获得的经过细粒度多层感知机处理的高级特征表达通过分水岭算法进行分割获得若干个子区域，通过基于多层感知机的回归器对每个子区域的杂草面积进行计算，将每个子区域的像素点和与全局像素点进行对比，得到预测的杂草侵扰率，最后通过监督损失函数对预测的杂草侵扰率进行准确性验证。

优选的，监督损失函数的具体表达式如下：

；

式中，表示真实杂草侵扰率，表示预测的杂草侵扰率。

因此，本发明采用上述一种基于多模态图像融合的杂草侵扰率预测方法，通过对匹配好的RGB图像与红外图像进行多模态图像融合，然后进行植被分割，得到二值化的植被mask图像，最终对得到二值化的植被mask图像进行杂草侵扰率预测；重构出高质量的融合图像，并得到高精度的杂草侵扰率预测结果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明一种基于多模态图像融合的杂草侵扰率预测方法的整体流程图；

图2为本发明实施例的图像融合模块结构图；

图3为本发明实施例的计数网络的结构图；

图4为本发明实施例的最终预测的结果示意图。

具体实施方式

以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-4，一种基于多模态图像融合的杂草侵扰率预测方法，由多尺度图像配准模块，图像融合模块，植被分割模块和计数网络组成。图像配准模块通过一个GAN网络，修复鱼眼相机固定位移等问题导致的图像扭曲问题。图像融合模块应用有密集卷积和Gram矩阵，能提取有效信息的同时抑制融合导致的重影现象。计数网络包括细粒度多层感知机和分水岭算法，是基于细粒度多层感知机，根据输入的田间图像通过分水岭算法预测图像中的杂草侵扰率；具体包括以下步骤：

S11、将输入图像对的尺寸统一设置成512*512。然后将其输入到CycleGAN网络中。CycleGAN由两个生成器和两个判别器组成。输入的RGB图像，经过生成器生成伪红外图像，由判别器来判断这张图与真红外图像的相似度。为了保证GAN网络学到更细致的图像信息，把生成的伪红外图像作为第二个生成器的输入，根据伪红外图像还原RGB图像。由第二个判别器来衡量还原的图像与真实RGB原图的差距。同样，输入的红外原图，经过生成器生成模拟RGB图像，由判别器来判断这张图与真实RGB图像的相似度。同样为了保证网络不丢失原红外信息，使用模拟RGB图像作为生成器的输入，生成还原的红外图像。使用鉴别器恒量还原的红外图像与原来红外图像的相似度。这个模块的训练我们使用风格迁移损失函数和感知损失函数，具体公式如下：

；

式中，表示第j层的特征表达；表示对第j层特征使用Gram矩阵计算。Gram矩阵用于进一步量化两个模态图像特征的风格差异。这可以用于优化生成图像的风格，促进生成图像保留更多的细节纹理。原始输入图像经过两个生成器和两个鉴别器作为一次完整的循环训练过程。设置训练时间是1000次迭代，并最后保留最后的一次结果作为最佳权重。使用时，只使用RGB到伪红外图像这一部分的权重即可；

S12、使用S11生成的伪红外图像作为目标图像，对输入的红外图像进行形变使其和原RGB图像对齐。对于输入的图像，对齐模块会先为其生成初始采样网格图。然后定位采样网格中对应的位置，根据相似性计算记过，计算其位置偏移位移矩阵（旋转、位移、反转等放射变换或者扭曲、拉伸等非刚性变换）。最后经过优化算法（RANSAC），对匹配特征选取最佳的变换矩阵参数，以便于最大程度上对齐图像。重复执行上述形变模块，对两个尺度的输入特征做形变矩阵计算，最后将不同尺度计算得到的变换矩阵经过STN模块，得到与原图大小一直的最终形变场。输入的红外图像与最终形变场做哈达玛积的结果即是红外配准图像，配准的过程中使用双向相似性损失来获取目标特征和失真特征之间的差距，使其尽可能对齐，双向相似性损失相比单一的相似性损失函数，加入反向约束，进一步确保形变场的一致性，具体表达式如下：

；

式中，是一个超参数，训练时我们取值为0.2。

步骤2、对步骤1生成的红外配准图像和未对齐的RGB图像进行多模态图像融合，获得融合图像，多模态图像融合采用双路径的形式，两张图像分别通过五层共享参数的密集卷积层采集特征。密集卷积模块由密集连接层、局部特征融合和局部残差组成。前一密集卷积层的使输出为，每一层又包含3个卷积和3个激活函数。当前密集卷积层的每一个卷积和激活函数的输出为。所以每一层密集卷积层的特征输出为与，，链接在一起并经过一个1*1卷积层进行特征融合和激活函数。每一个密集卷积层最后输出结果为，通道数为32。我们一共有4层特征提取层，所有最后的输出结果为各层输出链接在一起，共有128通道；

S22、与分别经过一层1*1的卷积层然后进行图像乘积运算，最后根据运算结果使用softmax函数自动得到红外图像和RGB图像的融合权重，得到最后使用的融合特征，具体表达式如下：

；

其中，是经过融合权重处理后的对齐红外图像特征和未经过任何处理的RGB图像特征的和，表示点积，表示叠加。

然后我们使用MS-SSIM损失函数来衡量融合图像与原来的RGB和红外图像的相似度。MS-SSIM能从图像的结构，对比度和亮度等角度全面的对比融合图像和输入图像，与传统的均方误差（MSE）或峰值信噪比（PSNR）等损失函数相比，MS-SSIM损失函数更能反映人眼对图像感知的特征。我们希望融合多模态之间互补信息的同时，尽可能保留原图的细节和结构信息，从而提升融合图像质量。因此我们使用融合图像分别与RGB和红外图像的对比结果的和作为损失函数，具体表达式如下：

；

经过SSIM函数会输出一个0~1之间的值，若对比图相似，则这个值会接近1，若不相似则接近0。因此融合模块训练时，我们的损失函数越接近0，代表融合图像质量越好，以此激励模型得到更好的学习权重。

S31、S22输出的融合图像是单通道的。因此要重构R波段需要变换映射空间。首先把原来的RGB图像映射到YCbCr表示空间，并分离Y、Cb与Cr通道。然后使用融合得到的单通道信息替换刚才分离出来的Y通道。最后把分离的三通道数据重新堆叠在一起重新映射到RGB空间，重构出新的融合RGB图像；

S32、使用归一化植被指数（NDVI）进行植被分割。根据NDVI方法，提取S31中重构图像的R波段用于计算，此R波段融合了原来红外和RGB图像特征，所以它含有比单RGB图像更多的信息。同时使用原来的红外图像直接提取红外波段。因此直接应用NDVI计算公式计算。阈值设置为0，只要最后NDVI值大于0则认为是植被，像素重置为255，否则全认为是背景像素重置为0，得到植被分割的二值mask图像，具体计算公式如下：

；

其中，表示近红外波段，表示红色波段。

步骤4、对得到二值化的植被mask图像进行杂草侵扰率预测，获得最终预测的杂草侵扰率；

S41、输入为S22中的最终融合特征和的叠加，随后输入到一个细粒度多层感知机。在细粒度多层感知机中，首先使用分组卷积对输入的特征进行分组，然后使用深层可分离卷积计算不同分组特征之间的关联性。同时进行通道注意力和空间注意力计算。通道注意力模块由全局平均池化层，全连接层和激活函数（sigmoid）构成。特征经过通道注意力计算能使得网络能够自动学习每个通道的重要性，将更多的注意力放在对于任务更有用的通道上，从而提升模型的性能。空间注意力模块的计算流程是，首先对输入特征分别进行全局最大池化和全局平均池化操作，然后再通道维度上拼接两次池化的结果。之后对拼接的特征使用1*1的卷积学习空间位置的权重分布。最后经过sigmoid激活函数把权重归一化到0与1之间。两个注意力模块的输出都是原始特征图与经过归一化的权重矩阵的乘积。上述操作得到的特征在通道上做一个叠加，作为多粒度多层感知机的输出；

S42、对S41的输出特征使用分水岭算法进行分割，将图像划分为多个子区域，每个子区域代表一个对象或一组对象。接着，使用轮廓检测算法来对每个子区域进行细化，找出其中的单个对象或多个对象，并为每个对象画出边界框。最后，使用一个基于多层感知机的回归器来对每个子区域的杂草面积进行计算，将每个子区域的像素点和与全局像素点进行对比，从而得到预测的杂草侵扰率。在训练中，我们主要使用预测的杂草侵扰率与真实杂草侵扰率之间的损失作为监督信号，具体表达式如下：

。

另外为了证明我们多模态图像融合的有效性，我们设置了对比实验，将我们的方法与现有一些无监督融合方法（DenseFusion,VIF,DIDFuse,UMF），统一在田间辣椒数据集上进行实验对比。最后实验如表1：

表1

；

从表中，可以观察到我们的方法得到的融合图像的图像质量在三项指标上均取得最好结果。其中，可以反映模糊图像的质量，这表明我们多模态图像配准的有效性，能有效避免图像未对齐造成的图像伪影现象。在 MI 和VIF 中这表明我们的融合图像包含的信息最多，也最符合人眼视觉效果。总的来说，这表明我们多模态融合方法能准确识别各模态独有信息并进行有效融合。

在进行杂草侵扰率预测时，我们依然在田间辣椒数据集上进行实验。我们对模型超参进行消融，选取一组最优的超参进行预测结果测试。最后结果我们分以下四个方面展示：我们模型的参数量为101M，平均推理时间为0.034s，平均绝对误差为0.09以及均方误差为0.12，以此可见，我们的方法是轻量化且高效的。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims

1.一种基于多模态图像融合的杂草侵扰率预测方法，其特征在于，包括以下步骤：

步骤4、进行杂草侵扰率预测，获得最终预测的杂草侵扰率；

步骤1的具体过程如下：

S12、把伪红外图像和与之匹配的红外图像一起输入到特征对齐模块，特征对齐模块使用双向相似性损失函数衡量伪红外图像和红外图像之间的相似性，然后更新红外图像的形变场变量，对更新红外图像的形变场变量进行整合得到红外配准图像；

其中，风格迁移损失函数和感知损失函数的具体表达式如下：

；

式中，表示表示第j层的特征表达，表示对第j层特征使用Gram矩阵计算；

双向相似性损失函数的具体表达式如下：

；

式中，是一个超参数，表示形变场的反向表达；

步骤2的具体过程如下：

；

步骤3的具体过程如下：

；

其中，表示近红外波段，表示红色波段；

RGB图像与红外图像融合的权重参数计算和具体融合过程的表达式如下：

；

式中，表示经过融合权重处理后的对齐红外图像特征，表示未经过任何处理的RGB图像特征，表示经过融合权重处理后的对齐红外图像特征和未经过任何处理的RGB图像特征的和，表示红外图像的融合权重，表示点积，表示叠加；

步骤4的具体过程如下：

2.根据权利要求1所述的一种基于多模态图像融合的杂草侵扰率预测方法，其特征在于，监督损失函数的具体表达式如下：

；

式中，表示真实杂草侵扰率，表示预测的杂草侵扰率。