CN113283529A

CN113283529A - 一种面向多模态图像能见度检测的神经网络构建方法

Info

Publication number: CN113283529A
Application number: CN202110635322.3A
Authority: CN
Inventors: 王晗; 沈克成; 刘佳丽; 施佺
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-08-20
Anticipated expiration: 2041-06-08
Also published as: CN113283529B

Abstract

本发明公开了一种面向多模态图像能见度检测的神经网络构建方法，包括如下步骤：构建基于注意力模型的多尺度可变形卷积可见光图像特征提取子网络；构建基于注意力模型的多尺度可变形卷积远红外图像特征提取子网络；构建可见光‑远红外双模态图像特征融合网络模块；将上述两个子网络输出作为融合网络的输入，串联组合成双模态能见度等级分类网络。采用本发明方法，通过注意力模型调节的多尺度可变形卷积神经网络可有效提取不同感受野下、不同浓度雾气的大气特征；而双模态图像特征的融合可以实现模态互补，提供更加丰富而有效的大气特征信息,显著提高小样本条件下能见度检测的准确性与鲁棒性。

Description

一种面向多模态图像能见度检测的神经网络构建方法

技术领域

本发明涉及图像能见度等级分类、检测技术，尤其涉及一种利用双模态图像(可见光-红外图像对儿)作为输入信号，通过多尺度特征提取-多模态特征融合网络实现模态特征互补，进而对能见度等级进行分类和检测的方法。

背景技术

雾、霾等恶劣天气可导致大气浑浊、透明度变小及能见度陡降，是诱发交通事故的重要原因，据统计发生在恶劣天气下的交通事故占总交通事故的24％。能见度检测可有效地监测大气环境，对潜在的交通事故提供可靠的预警依据。基于图像的能见度检测方法具有设备低廉、安装方便等优势。因此，研究基于图像处理的能见度检测算法已成为研究热点。

目前，常见的基于图像的能见度检测方法大概可以分为以下两种。“统计学模型”：利用物理模型或者概率模型来估计能见度值。该方法需要设置人工辅助目标物，建立基于亮度值对比度的非线性描述函数或者利用大气散射模型，操作复杂且方法精度较低。“深度学习法”：利用卷积神经网络对输入可见光彩色图像的能见度等级进行分类，该方法性能受到训练样本的质量和数量的影响。

综上所述，现有的基于图像的能见度检测深度学习方法存在如下不足：一、现有方法均采用可见光图像作为输入，观测对象数据单一；二、卷积神经网络采用单一、固定的“静态”卷积核形式，无法灵活、有效地描述不同尺度、不同程度能见度下的大气图像特征；导致检测模型在小样本条件下的准确率与鲁棒性均较低。

发明内容

为了解决上述问题，本发明的主要目的在于提供一种面向可见光-远红外图像双模态能见度等级分类的多尺度特征融合网络构建方法，其先进性表现为：一、通过设计多尺度、可变形的“动态”卷积核对不同模态、不同尺度、不同程度能见度下的大气图像特征进行提取与表达。二、利用通道-空间联合注意力模型将不同模态、不同尺度、不同形态卷积核下的特征进行融合，显著提高小样本下神经网络能见度的检测准确率和鲁棒性。

为达到上述目的，本发明的技术方案是：一种面向多模态图像能见度检测的神经网络构建方法，该方法包括：

步骤1)构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块；

步骤2)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块；

步骤3)构建可见光-远红外双模态图像特征融合网络模块；

步骤4)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接，作为步骤3)可见光-远红外双模态图像特征融合网络的输入，串联组合成双模态能见度等级分类网络。

进一步的，所述的步骤1)的具体内容为：

“可见光图像特征提取网络模块”的网络结构共有五层，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中，输入层为尺寸224×224，通道数为3的可见光输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层。

多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将卷积层中3×3卷积得到的特征F_3×3(112×112×64)与5×5卷积得到的特征F_5×5(112×112×64)进行拼接，得到拼接特征F(112×112×128)。然后，分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为128/r，r为系数，激活函数为Relu，第二层神经元个数为128。该两层的神经网络共享。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后，将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征，并将这两个特征做元素相加；

可变形卷积层的输入为上一层的多尺度注意力修正融合特征，卷积核个数为128，每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下：首先，利用卷积的输出得到可变形卷积所需要的位移量。然后，将其作用在卷积核上，达到可变形卷积的效果。

多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将可变形卷积层中3×3卷积得到的特征F_3×3(56×56×128)与5×5卷积得到的特征F_5×5(56×56×128)进行拼接，得到拼接特征F(56×56×256)。然后，分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为256/r，r为系数，激活函数为Relu，第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后，将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征，并将这两个特征做元素相加。“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。

进一步的，所述的步骤2)的具体内容为：

“远红外图像特征提取网络模块”的网络结构共有五层，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中，输入层为尺寸224×224，通道数为3的远红外输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层。

多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将卷积层中3×3卷积得到的特征F_3×3(112×112×64)与5×5卷积得到的特征F_5×5(112×112×64)进行拼接，得到拼接特征F(112×112×128)。然后，分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为128/r，r为系数，激活函数为Relu，第二层神经元个数为128。注意，这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征，并将这两个特征做元素相加。

可变形卷积层的输入为上一层的多尺度注意力修正融合特征，卷积过程与卷积层类似，卷积核个数为128，每个卷积层后接一个Relu激活层和BatchNormalization层。具体操作过程如下：首先，利用卷积的输出得到可变形卷积所需要的位移量，然后，将其作用在卷积核上，达到可变形卷积的效果。

多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将可变形卷积层中3×3卷积得到的特征F_3×3(56×56×128)与5×5卷积得到的特征F_5×5(56×56×128)进行拼接，得到拼接特征F(56×56×256)。然后分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为256/r，r为系数，激活函数为Relu，第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征。最后，将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征，并将这两个特征做元素相加。“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。

进一步的，所述的步骤3)的具体内容为：

“多模态图像特征融合网络”的输入有两路信号组成：分别为“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征。“多模态图像特征融合网络”共有三层：特征拼接层、特征融合层和分类层。

通道拼接层将“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征进行通道拼接，得到多模态拼接特征F₁。

特征融合层对F₁同时进行通道域和空间域的注意力修正。通道注意力操作如下：输入是一个56×56×256的特征F₁，先分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述。接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为256/r，r为系数，激活函数为Relu，第二层神经元个数为256。这个两层的神经网络是共享的。再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc。Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F₁相乘得到多模态拼接特征。将修正后的多模态拼接特征重新拆分成两个56×56×128的单模态特征，并将这两个特征做元素相加得到多模态通道注意力修正融合特征F₂。空间注意力操作如下：将F₂分别进行一个空间维度的平均池化和最大池化得到两个56×56×1的空间描述，并将这两个描述按照通道拼接在一起。然后，经过一个卷积层，激活函数为Sigmoid，得到权重系数Ms。最后，将权重系数和特征F₂相乘即可得到多模态通道与空间注意力修正融合特征F₂。

分类层是将融合特征F₂经过一个全局平均池化层后，再利用softmax层进行能见度等级的分类。

进一步的，所述的步骤4)的具体内容为：

首先，“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征作为“多模态图像特征融合网络”的输入；然后，利用“多模态图像特征融合网络”的输出进入分类层，实现能见度等级的分类与检测。

有益效果：采用本发明方法，能够利用多尺度的可变形的“动态”卷积核针对不同模态、不同尺度、不同能见度下的大气图像特征进行有效地表征。同时，利用通道-空间联合注意力模型对双模态图像(可见光－红外)各自丰富的特征信息进行有效地提取融合，同时实现模态互补，显著提高小样本条件下的神经网络能见度检测的准确率和鲁棒性。

附图说明

图1为本发明能见度检测方法的流程图；

图2为本发明提出的“可见光图像特征提取网络”结构的示意图；

图3为本发明提出的“远红外图像特征提取网络”结构的示意图；

图4为本发明提出的“多模态图像特征提取网络”结构的示意图；

图5为本发明提出的“可见光-远红外图像双模态能见度等级分类的多尺度特征融合网络”结构的示意图；

图6为本发明的能见度检测方法与其他传统深度学习方法在小样本条件下平均准确率比较结果实例；

图7为本发明的能见度检测方法与其他传统深度学习方法在小样本条件下检测鲁棒性比较结果实例。

具体实施方式：

下面结合本发明所提供的附图对本发明的技术作进一步说明：

如图1所示，一种面向多模态图像能见度检测的神经网络构建方法，包括如下步骤：

步骤101：构建基于注意力模型调节的多尺度可变形卷积可见光图像特征提取网络模块；的具体内容为：

“可见光图像特征提取网络模块”的网络结构共有五层，如图2所示，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中，输入层为尺寸224×224，通道数为3的可见光输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层。

步骤102：)构建基于注意力模型调节的多尺度可变形卷积远红外图像特征提取网络模块；的具体内容为：

“远红外图像特征提取网络模块”的网络结构共有五层，如图3所示，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2。其中，输入层为尺寸224×224，通道数为3的远红外输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层。

步骤103：)构建可见光-远红外双模态图像特征融合网络模块；的具体内容为：

“多模态图像特征融合网络”的输入有两路信号组成：如图4所示，分别为“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征。“多模态图像特征融合网络”共有三层：特征拼接层、特征融合层和分类层。

步骤104：)将步骤1)可见光图像特征提取网络模块与步骤2)远红外图像特征提取网络模块输出的特征拼接，作为步骤3)可见光-远红外双模态图像特征融合网络的输入，串联组合成双模态能见度等级分类网络。的具体内容为：

如图5所示，首先，“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征作为“多模态图像特征融合网络”的输入；然后，利用“多模态图像特征融合网络”的输出进入分类层，实现能见度等级的分类与检测。

下面结合具体示例对本发明的技术方案作进一步详细说明。

实例1

如图6，实验小样本数据如下：7类能见度等级，每个等级200幅图像。其中，50％训练，50％测试。5种比较方法：可见光(RGB)图像+CNN、远红外(IR)图像+CNN、可见光-远红外图像+CNN、可见光-远红外图像+可变形卷积和本发明提出方法：可见光-远红外+多尺度融合网络。实验过程如下：训练时随机设置网络初始权值，比较5次训练测试结果的平均能见度检测准确率。

从结果可明显看出：本发明的方法平均准确率最高，为98.54％。其余两个单模态图像(可见光或远红外)加卷积神经网络的方法准确性均小于70％，这说明传统基于单模态图像的深度学习方法稳定性不佳。另外，可见光-远红外加普通卷积神经网络的方法平均准确性为76.4％，可见光-远红外加可变形卷积神经网络的方法平均准确性为85.54％，这说明普通的基于“静态”固定卷积核的卷积神经网络不能够有效地提取不同模态、不同尺度、不同程度能见度下的大气图像特征。而本发明提出的方法可以通过多尺度“动态”可变卷积核对于同模态、不同尺度、不同程度能见度下的大气图像特征进行准确描述；同时，通过通道-空间联合注意力模型对可见光-远红外大气图像特征信息进行有效融合，相比较其他方法显著提高检测的准确率10％以上。

实例2

如图7，上述小样本条件下不同方法的检测鲁棒性比较结果实例。图中，横轴是实验次数，纵轴是每次训练测试的检测准确率。经过对比可以清楚的看出：在随机设置网络初始权值的条件下，本发明的方法获取的检测水平变化最小，检测结果受到随机初始权重的影响较小。相反，其他方法的检测结果受到随机初始权重的影响较大，具体表现在检测准确率随着不同实验的情况下发生明显地大幅度震荡现象。因此，本文的方法在小样本条件下能见度的检测鲁棒性显著优于其他的方法。

本发明的技术内容及技术特征已揭示如上，然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰，因此，本发明保护范围应不限于实施例所揭示的内容，而应包括各种不背离本发明的替换及修饰，并为本专利申请权利要求所涵盖。

Claims

1.一种面向多模态图像能见度检测的神经网络构建方法，包括如下步骤：

步骤3)构建可见光-远红外双模态图像特征融合网络模块；

2.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法，其特征在于：所述的步骤1)的具体内容为：

“可见光图像特征提取网络模块”的网络结构共有五层，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2，其中，输入层为尺寸224×224，通道数为3的可见光输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层；

多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将卷积层中3×3卷积得到的特征F_3×3(112×112×64)与5×5卷积得到的特征F_5×5(112×112×64)进行拼接，得到拼接特征F(112×112×128)；然后，分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为128/r，r为系数，激活函数为Relu，第二层神经元个数为128，该两层的神经网络共享；再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后，将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征，并将这两个特征做元素相加；

可变形卷积层的输入为上一层的多尺度注意力修正融合特征，卷积核个数为128，每个卷积层后接一个Relu激活层和BatchNormalization层，具体操作过程如下：首先，利用卷积的输出得到可变形卷积所需要的位移量，然后，将其作用在卷积核上，达到可变形卷积的效果；

多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将可变形卷积层中3×3卷积得到的特征F_3×3(56×56×128)与5×5卷积得到的特征F_5×5(56×56×128)进行拼接，得到拼接特征F(56×56×256)；然后，分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为256/r，r为系数，激活函数为Relu，第二层神经元个数为256，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后，将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征，并将这两个特征做元素相加，“可见光图像特征提取网络”的输出为56×56×128的可见光图像特征。

3.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法，其特征在于：所述的步骤2)的具体内容为：

“远红外图像特征提取网络模块”的网络结构共有五层，分别是输入层、卷积层、多尺度特征融合层1、可变形卷积层、多尺度特征融合层2，其中，输入层为尺寸224×224，通道数为3的远红外输入图像；卷积层由3×3卷积核与5×5卷积核这两种不同尺度下的卷积组成，卷积核个数均为64，每个卷积层后接一个Relu激活层和BatchNormalization层；

多尺度特征融合层1是利用注意力机制对卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将卷积层中3×3卷积得到的特征F_3×3(112×112×64)与5×5卷积得到的特征F_5×5(112×112×64)进行拼接，得到拼接特征F(112×112×128)；然后，分别进行一个空间的全局平均池化和最大池化得到两个1×1×128的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为128/r，r为系数，激活函数为Relu，第二层神经元个数为128，注意，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后将修正后的拼接特征重新拆分成两个112×112×64的多尺度注意力修正特征，并将这两个特征做元素相加；

可变形卷积层的输入为上一层的多尺度注意力修正融合特征，卷积过程与卷积层类似，卷积核个数为128，每个卷积层后接一个Relu激活层和BatchNormalization层；具体操作过程如下：首先，利用卷积的输出得到可变形卷积所需要的位移量，然后，将其作用在卷积核上，达到可变形卷积的效果；

多尺度特征融合层2是利用注意力机制对可变形卷积层所输出的不同卷积尺度下的特征进行融合，具体操作如下：将可变形卷积层中3×3卷积得到的特征F_3×3(56×56×128)与5×5卷积得到的特征F_5×5(56×56×128)进行拼接，得到拼接特征F(56×56×256)；然后分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为256/r，r为系数，激活函数为Relu，第二层神经元个数为256，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F相乘得到注意力修正后的多尺度拼接特征；最后，将修正后的拼接特征重新拆分成两个56×56×128的多尺度注意力修正特征，并将这两个特征做元素相加，“远红外图像特征提取网络”的输出56×56×128的远红外图像特征。

4.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法，其特征在于：所述的步骤3)的具体内容为：

“多模态图像特征融合网络”的输入有两路信号组成：分别为“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征，“多模态图像特征融合网络”共有三层：特征拼接层、特征融合层和分类层；

通道拼接层将“可见光图像特征提取网络”和“远红外图像特征提取网络”的输出特征进行通道拼接，得到多模态拼接特征F₁；

特征融合层对F₁同时进行通道域和空间域的注意力修正，通道注意力操作如下：输入是一个56×56×256的特征F₁，先分别进行一个空间的全局平均池化和最大池化得到两个1×1×256的通道描述；接着，再将它们分别送入一个两层的神经网络，第一层神经元个数为256/r，r为系数，激活函数为Relu，第二层神经元个数为256，这个两层的神经网络是共享的；再将得到的两个特征相加后经过一个Sigmoid激活函数得到权重系数Mc，Mc则对应不同卷积尺度下各通道域的重要性，将Mc与F₁相乘得到多模态拼接特征；将修正后的多模态拼接特征重新拆分成两个56×56×128的单模态特征，并将这两个特征做元素相加得到多模态通道注意力修正融合特征F₂，空间注意力操作如下：将F₂分别进行一个空间维度的平均池化和最大池化得到两个56×56×1的空间描述，并将这两个描述按照通道拼接在一起；然后，经过一个卷积层，激活函数为Sigmoid，得到权重系数Ms；最后，将权重系数和特征F₂相乘即可得到多模态通道与空间注意力修正融合特征F₂；

5.根据权利要求1所述的面向多模态图像能见度检测的神经网络构建方法，其特征在于：所述的步骤4)的具体内容为：