CN111738314B

CN111738314B - 基于浅层融合的多模态图像能见度检测模型的深度学习方法

Info

Publication number: CN111738314B
Application number: CN202010517442.9A
Authority: CN
Inventors: 王晗; 施佺; 沈克成; 余佩伦
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-06-09
Filing date: 2020-06-09
Publication date: 2021-11-02
Anticipated expiration: 2040-06-09
Also published as: CN111738314A

Abstract

本发明公开了一种基于浅层融合的多模态图像能见度检测模型的深度学习方法，包括如下步骤：步骤1)利用双目摄像机采集可见光、红外图像，并通过“预处理”获取多模态能见度观测数据作为“浅层融合网络”的输入信号，建立多模态能见度观测数据训练数据集合；步骤2)建立“浅层融合网络”，利用多模态能见度观测数据集训练网络，获取卷积神经网络权值参数；步骤3)利用训练完毕的“浅层融合网络”对待测的多模态图像进行能见度等级的分类估计。本发明能够利用深度融合网络将三模态图像丰富的特征信息在卷积神经网络的浅层进行有效地叠加融合、实现三个模态的互补，显著提高小样本条件下的神经网络能见度检测的准确性和稳定性。

Description

基于浅层融合的多模态图像能见度检测模型的深度学习方法

技术领域

本发明属于基于图像/视频的能见度等级分类、检测技术领域，尤其涉及一种利用三模态图像(可见光图像、可见光边缘特征图像-红外图像)作为输入信号，通过浅层融合网络，进行浅层局部特征图的融合；再通过深层的迭代提取三模态深层融合特征，进而对能见度等级进行分类和检测的方法。

背景技术

雾、霾等恶劣天气是严重影响道路行车安全的因素，每年由低能见度原因造成的交通拥塞甚至恶性事故频频发生，据统计发生在恶劣天气下的交通事故占总交通事故的24％。因此，及时、准确、有效地对雾天道路能见度进行监测和预警意义重大。传统的能见度监测仪器价格昂贵，体积较大，且无法密集布设。因此，研究基于图像处理的能见度检测算法已成为一种新的主流方向。

目前，常见的基于图像的能见度检测方法大概可以分为一下两种。传统的基于统计模型的能见度检测方法，以及基于深度学习模型的能见度检测方法。传统的能见度检测统计模型，通过物理或者概率模型，对图像场景对应的能见度距离或者等级进行估计，其计算量小，但准确性和稳定性都欠佳。且有时需要设置人工辅助目标物，操作复杂。现有的能见度深度学习模型，利用卷积神经网络对输入可见光图像的R、G、B颜色通道，对能见度等级进行分类，该方法的输入信号单一，检测的准确性与稳定性均受到训练样本的质量和数量的影响。

综上所述，基于图像的能见度检测方法多局限于面向可见光彩色图像的研究，即通过可见光彩色图像的内容和色彩信息估计能见度的等级或者能见度距离。而现有深度学习模型在小样本条件下受到初始训练权值的影响、稳定性与准确性不佳，经常为了获取最优参数需要长时间反复训练。

发明内容

发明目的：为了解决上述问题，本发明的主要目的在于提供一种基于浅层融合的多模态图像能见度检测模型的深度学习方法，其先进性表现为：一、输入的三模态图像(可见光图像、可见光边缘特征图像、红外图像)对不同程度的雾霾天气表现出的图像特征显著不同，因此，三模态图像的结合可以实现模态互补、提供更加丰富而有效的特征信息。二、通过设计浅层融合网络结构，可以有效地将三种输入的图像信号在浅层端进行有效地融合，获取有效的融合局部融合特征，使其显著提高小样本条件下，卷积神经网络对能见度的检测的准确性和稳定性。

技术方案：为达到上述目的，本发明的技术方案是：一种基于浅层融合的多模态图像能见度检测模型的深度学习方法，包括如下步骤：

步骤1)利用双目摄像机采集可见光、红外图像，并通过“预处理”获取多模态能见度观测数据作为“浅层融合网络”的输入信号，建立多模态能见度观测数据训练数据集合；

步骤2)建立“浅层融合网络”，利用多模态能见度观测数据集训练网络，获取卷积神经网络权值参数；

步骤3)利用训练完毕的“浅层融合网络”对待测的多模态图像进行能见度等级的分类估计。

进一步的，所述步骤1)的具体内容为：

首先，利用“摄像机标定技术”对可见光-红外双目摄像机进行标定，获取左右两个摄像机的相机内参数矩阵K和畸变系数矩阵D，进而求取左右两个摄像机的相对位置关系，即右摄像头相对于左摄像头的平移向量t和旋转矩阵R，其具体标定计算方法如下：

a.利用“棋盘图”获取摄像头畸变方面的信息，在Matlab标定工具箱中，通过reproject on images函数得到根据当前标定结果得到的反投影误差，利用Recomp.corners选项完成根据反向投影得到角点坐标、计算角点；然后，采用Calibration根据角点对左右摄像头分别进行标定，得到两个摄像头各自的内参矩阵和畸变参数向量；

b.经过双目标定得到摄像头的各项参数后，采用OpenCV库中的立体校正函数stereoRectify得到校正旋转矩阵R、投影矩阵P、重投影矩阵Q；然后，采用initUndistortRectifyMap函数得出校准映射参数；最后，利用remap来校准输入的左右图像，获取分表率与视野均相同的输出图像；

然后，利用高通滤波器对可见光灰度图像进行“高通滤波”，获取可见光边缘特征图像，其具体滤波过程如下：

a.首先利用二维快速傅里叶变换(2D FFT)对M×N的可见光灰度图像f(m,n)进行频率域的变换，其数学公式入下：

式中，f(m,n)是可见光灰度图像在m行、n列的灰度值，F(u,v)是傅里叶变换结果；

b.对上述傅里叶变换结果进行，中心相位移动；然后，设置高通截止频率，对其进行滤波；最后，将滤波后的频谱进行“傅里叶反变换”获取可见光边缘特征图像；

最后，将三种不同种类的信号，包括：3通道可见光彩色图像I_RGB、3通道可见光边缘特征图像I_edge、3通道红外灰度图像I_IR，组成“多模态能见度观测数据”I_data＝{I_RGB，I_edge，I_IR}，并且利用上述“预处理”方法,面向对所有采集的可见光-红外图像对，制作对应的多模态能见度观测数据I_data(i),i∈[1,N]，N为训练样本个数；然后，根据能见度的强弱将多模态能见度观测数据I_data(i)分成七类，其中，1为能见度最强，7为能见度最弱；对每一类的三模态图像I_data(i)＝{I_RGB(i),I_edge(i),I_IR(i)}标定种类标签Y(i),Y(i)∈[1,7]；建立完成多模态能见度训练数据集合。

进一步的，所述步骤2)的具体内容为：

多模态图像“浅层融合网络”结构由三个子网络模块构成：“浅层特征叠加子网络”、“叠加特征提取子网络”、“特征表达子网络”；

“浅层特征叠加子网络”的结构由三个并行的卷积神经分支构成，三个分支的输入分别为可见光图像I_RGB、可见光边缘特征图像I_edge、红外图像I_IR；每个分支的结构相同，包括三层：分别是输入层(227x227x3)、卷积层1(96个11x11卷积核)、最大池化层1(3x3)；输入图像I_RGB、I_edge、I_IR分别经过各自的分支“卷积-池化”组合操作提取浅层特征图，再将三个浅层特征图，经过“累加操作”处理，获得“多模态叠加特征图”；

“叠加特征提取子网络”结构由以下6层组成：卷积层2(256个5x5卷积核)、最大池化层2(3x3)、卷积层3(384个3x3卷积核)、卷积层4(384个3x3卷积核)、卷积层5(256个3x3卷积核)、最大池化层3(3x3)；多模态叠加特征图经过“叠加特征子网络”的两次卷积-池化组合操作，进一步将浅层局部特征图进行迭代，获取2048维的深层抽象化的局部特征图；

“融合特征表达子网络”共由5层组成：全连接层1(2048)、Dropout层1，全连接层1(2048)、Dropout层2；首先，将“叠加特征子网络”的输出2048维的深层抽象化的局部特征图，送到2048维的全连接层1完成由局部特征到整体特征的转化；然后，将获取的2048维全局特征向量，送入Dropout层1，防止训练中出现“过拟合”现象；接着，再将Dropout层1的输出送到2048维的全连接层2进行全局特征向量的表达迭代，其输出再送入Dropout层2防止训练中出现“过拟合”现象；最后，Dropout层2输出的2048维全局特征表达向量，利用softmax层进行能见度等级的分类；

浅层融合网络训练过程如下：依次将每一类的三模态训练数据(I_RGB、I_edge、I_IR)利用imresize函数改变为分辨率为227x227x3的图像数据；将其对应的标签Y作为训练的输出值；然后，利用“梯度下降法”求取“浅层融合网络”中的每个神经元的权重值；训练结束后，保存权重值矩阵作为“浅层融合网络”的数学模型。

进一步的，所述步骤3)的具体内容为：

根据步骤1)所述预处理内容，将待测可见光-红外图像配准成视野和分辨率均相同的图像对，利用高通滤波提取可见光边缘特征图，并且将三模态图像全部归一化为227x227x3；然后，将三模态图像I_RGB、I_edge、I_IR作为“浅层融合网络”的输入信号，经过三个特征提取分支网络的后,在浅层进行特征图的叠加融合；接着，再通过两次“卷积-池化”组合处理获取深层特征图；最后，通过两组“全连接层-dropout层”处理后获得融合特征表达向量，融合后的2048维三模态联合特征送入softmax层，获取能见度的等级的概率。

有益效果：本发明能够将可见光与红外图像的特征信息在融合网络的前端浅层区域进行有效地叠加融合，然后在融合网络的深层实现模态互补与特征表达，有效克服传统基于单模态可见光图像的能见度模型深度学习方法，在小样本条件下“特征有效性不足、能见度检测稳定性差”等问题，显著提高小样本条件下，能见度检测模型的准确性与稳定性。

附图说明

图1为本发明能见度检测方法的流程图；

图2为本发明提出的“浅层融合网络”结构的示意图；

图3为本发明的能见度检测方法与其他传统深度学习方法在小样本条件下平均准确率比较结果实例；

图4为本发明的能见度检测方法与其他传统深度学习方法在小样本条件下检测稳定性比较结果实例。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于浅层融合的多模态图像能见度检测模型的深度学习方法，包括如下步骤：

步骤101：利用双目摄像机采集可见光、红外图像，并通过“预处理”获取多模态能见度观测数据作为“浅层融合网络”的输入信号，建立多模态能见度观测数据训练数据集合；的具体内容为：

首先，利用“摄像机标定技术”对可见光-红外双目摄像机进行标定，获取左右两个摄像机的相机内参数矩阵K和畸变系数矩阵D，进而求取左右两个摄像机的相对位置关系(即右摄像头相对于左摄像头的平移向量t和旋转矩阵R)。

其具体标定计算方法如下：

a.利用“棋盘图”获取摄像头畸变方面的信息。在Matlab标定工具箱中，通过reproject on images函数得到根据当前标定结果得到的反投影误差。利用Recomp.corners选项完成根据反向投影得到角点坐标、计算角点。然后，采用Calibration根据角点对左右摄像头分别进行标定，得到两个摄像头各自的内参矩阵和畸变参数向量。

b.经过双目标定得到摄像头的各项参数后，采用OpenCV库中的立体校正函数stereoRectify得到校正旋转矩阵R、投影矩阵P、重投影矩阵Q。然后，采用initUndistortRectifyMap函数得出校准映射参数，最后，利用remap来校准输入的左右图像，获取分表率与视野均相同的输出图像。

然后，利用高通滤波器对可见光灰度图像进行“高通滤波”，获取可见光边缘特征图像。其具体滤波过程如下：

式中，f(m,n)是可见光灰度图像在m行、n列的灰度值。F(u,v)是傅里叶变换结果。

b.对上述傅里叶变换结果进行，中心相位移动。然后，设置高通截止频率，对其进行滤波。最后，将滤波后的频谱进行“傅里叶反变换”获取可见光边缘特征图像。

最后，将三种不同种类的信号，包括：3通道可见光彩色图像I_RGB、3通道可见光边缘特征图像I_edge、3通道红外灰度图像I_IR，组成“多模态能见度观测数据”I_data＝{I_RGB，I_edge，I_IR}，并且利用上述“预处理”方法,面向对所有采集的可见光-红外图像对，制作对应的多模态能见度观测数据I_data(i),i∈[1,N]，N为训练样本个数。然后，根据能见度的强弱将多模态能见度观测数据I_data(i)分成七类，其中，1为能见度最强，7为能见度最弱。对每一类的三模态图像I_data(i)＝{I_RGB(i),I_edge(i),I_IR(i)}标定种类标签Y(i),Y(i)∈[1,7]。建立完成多模态能见度训练数据集合。

步骤102：建立“浅层融合网络”，利用多模态能见度观测数据集训练网络，获取卷积神经网络权值参数；的具体内容为：

本发明提出的多模态图像“浅层融合网络”结构由三个子网络模块构成：“浅层特征叠加子网络”、“叠加特征提取子网络”、“特征表达子网络”，参见图2(浅层融合网络结构图)。

“浅层特征叠加子网络”的结构由三个并行的卷积神经分支构成。三个分支的输入分别为可见光图像I_RGB、可见光边缘特征图像I_edge、红外图像I_IR。每个分支的结构相同，包括三层：分别是输入层(227x227x3)、卷积层1(96个11x11卷积核)、最大池化层1(3x3)。工作原理如下：输入图像I_RGB、I_edge、I_IR分别经过各自的分支“卷积-池化”组合操作提取浅层特征图，再将三个浅层特征图，经过“累加操作”处理，获得“多模态叠加特征图”。

“叠加特征提取子网络”结构由以下6层组成：卷积层2(256个5x5卷积核)、最大池化层2(3x3)、卷积层3(384个3x3卷积核)、卷积层4(384个3x3卷积核)、卷积层5(256个3x3卷积核)、最大池化层3(3x3)。工作原理如下：多模态叠加特征图经过“叠加特征子网络”的两次卷积-池化组合操作，进一步将浅层局部特征图进行迭代，获取2048维的深层抽象化的局部特征图。

“融合特征表达子网络”共由5层组成：全连接层1(2048)、Dropout层1，全连接层1(2048)、Dropout层2。工作原理如下：首先，将“叠加特征子网络”的输出2048维的深层抽象化的局部特征图，送到2048维的全连接层1完成由局部特征到整体特征的转化；然后，将获取的2048维全局特征向量，送入Dropout层1，防止训练中出现“过拟合”现象；接着，再将Dropout层1的输出送到2048维的全连接层2进行全局特征向量的表达迭代，其输出再送入Dropout层2防止训练中出现“过拟合”现象；最后，Dropout层2输出的2048维全局特征表达向量，利用softmax层进行能见度等级的分类。

浅层融合网络训练过程如下：依次将每一类的三模态训练数据(I_RGB、I_edge、I_IR)利用imresize函数改变为分辨率为227x227x3的图像数据；将其对应的标签Y作为训练的输出值。然后，利用“梯度下降法”求取“浅层融合网络”中的每个神经元的权重值。训练结束后，保存权重值矩阵作为“浅层融合网络”的数学模型。

步骤103：利用训练完毕的“浅层融合网络”对待测的多模态图像进行能见度等级的分类估计；的具体内容为：

根据步骤1)所述预处理内容，将待测可见光-红外图像配准成视野和分辨率均相同的图像对，利用高通滤波提取可见光边缘特征图，并且将三模态图像全部归一化为227x227x3。然后，将三模态图像(I_RGB、I_edge、I_IR)作为“浅层融合网络”的输入信号。经过三个特征提取分支网络的后,在浅层进行特征图的叠加融合。接着，再通过两次“卷积-池化”组合处理获取深层特征图。最后，通过两组“全连接层-dropout层”处理后获得融合特征表达向量，融合后的2048维三模态联合特征送入softmax层，获取能见度的等级的概率。

下面结合具体示例对本发明的技术方案作进一步详细说明。

具体实施例1

如图3，实验小样本数据如下：7类能见度等级，每个等级200幅图像。其中，50％训练，50％测试。五种比较方法：可见光图像+CNN、红外图像+CNN、可见光-红外+CNN、可见光-红外+残差网络和本发明提出方法：可见光-红外+浅层融合网络。实验过程如下：训练时随机设置网络初始权值，比较5次训练测试结果的平均能见度检测准确率。

经过对比可以清楚的看出：本发明的方法平均准确率最高，达到96.9％。其两个单模态图像(可见光或红外)&CNN的方法准确性均小于90％，这说明传统基于单模态图像的深度学习方法的准确性不佳。另外，两种多模态融合模型：可见光-红外&CNN、可见光-红外&残差网络方法平均准确性同样不足90％，这说明基于普通卷积神经网络CNN，以及残差网络的多模态特征融合效果都不及本文的浅层融合网络。相反，本发明提出的浅层融合网络方法可以通过浅层端的融合对三种不同模态的图像特征进行有效地融合，相比较其他方法显著提高检测的准确率6％以上。

具体实施例2

如图4，上述小样本条件下不同方法的检测稳定性比较结果实例。图中，横轴是随机训练测试的次数，纵轴是每次训练测试的检测准确率。经过对比可以清楚的看出：在随机设置网络初始权值的条件下，本发明的方法获取的检测水平变化最小，图线表现比较平、少震荡，检测结果受到随机初始权重的影响较小。相反，其他方法的检测结果受到随机初始权重的影响较大，具体表现在其检测准确率图线，随着横轴实验次数的不同发生相对较为明显地震荡现象。因此，本文的方法在小样本条件下能见度的检测稳定性显著优于其他的方法。

本发明的技术内容及技术特征已揭示如上，然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰，因此，本发明保护范围应不限于实施例所揭示的内容，而应包括各种不背离本发明的替换及修饰，并为本专利申请权利要求所涵盖。

Claims

1.一种基于浅层融合的多模态图像能见度检测模型的深度学习方法，其特征在于，包括如下步骤：

步骤3)利用训练完毕的“浅层融合网络”对待测的多模态图像进行能见度等级的分类估计；

所述步骤1)的具体内容为：

a.利用“棋盘图”获取摄像头畸变方面的信息，在Matlab标定工具箱中，通过reprojecton images函数得到根据当前标定结果得到的反投影误差，利用Recomp.corners选项完成根据反向投影得到角点坐标、计算角点；然后，采用Calibration根据角点对左右摄像头分别进行标定，得到两个摄像头各自的内参矩阵和畸变参数向量；

a.首先利用二维快速傅里叶变换对M×N的可见光灰度图像f(m,n)进行频率域的变换，其数学公式入下：

b.对上述傅里叶变换结果进行中心相位移动；然后，设置高通截止频率，对其进行滤波；最后，将滤波后的频谱进行“傅里叶反变换”获取可见光边缘特征图像；

最后，将三种不同种类的信号，包括：3通道可见光彩色图像I_RGB、3通道可见光边缘特征图像I_edge、3通道红外灰度图像I_IR，组成“多模态能见度观测数据”I_data＝{I_RGB，I_edge，I_IR}，并且利用上述“预处理”方法,面向对所有采集的可见光-红外图像对，制作对应的多模态能见度观测数据I_data(i),i∈[1,N]，N为训练样本个数；然后，根据能见度的强弱将多模态能见度观测数据I_data(i)分成七类，其中，1为能见度最强，7为能见度最弱；对每一类的三模态图像I_data(i)＝{I_RGB(i),I_edge(i),I_IR(i)}标定种类标签Y(i),Y(i)∈[1,7]；建立完成多模态能见度训练数据集合；

所述步骤2)的具体内容为：

“浅层特征叠加子网络”的结构由三个并行的卷积神经分支构成，三个分支的输入分别为可见光图像I_RGB、可见光边缘特征图像I_edge、红外图像I_IR；每个分支的结构相同，包括三层：分别是输入层：227x227x3、卷积层1：96个11x11卷积核、最大池化层1：3x3；输入图像I_RGB、I_edge、I_IR分别经过各自的分支“卷积-池化”组合操作提取浅层特征图，再将三个浅层特征图，经过“累加操作”处理，获得“多模态叠加特征图”；

“叠加特征提取子网络”结构由以下6层组成：卷积层2：256个5x5卷积核、最大池化层2：3x3、卷积层3：384个3x3卷积核、卷积层4：384个3x3卷积核、卷积层5：256个3x3卷积核、最大池化层3：3x3；多模态叠加特征图经过“叠加特征子网络”的两次卷积-池化组合操作，进一步将浅层局部特征图进行迭代，获取2048维的深层抽象化的局部特征图；

“融合特征表达子网络”共由5层组成：全连接层1：2048、Dropout层1，全连接层1：2048、Dropout层2；首先，将“叠加特征子网络”的输出2048维的深层抽象化的局部特征图，送到2048维的全连接层1完成由局部特征到整体特征的转化；然后，将获取的2048维全局特征向量，送入Dropout层1，防止训练中出现“过拟合”现象；接着，再将Dropout层1的输出送到2048维的全连接层2进行全局特征向量的表达迭代，其输出再送入Dropout层2防止训练中出现“过拟合”现象；最后，Dropout层2输出的2048维全局特征表达向量，利用softmax层进行能见度等级的分类；

浅层融合网络训练过程如下：依次将每一类的三模态训练数据：I_RGB、I_edge、I_IR利用imresize函数改变为分辨率为227x227x3的图像数据；将其对应的标签Y作为训练的输出值；然后，利用“梯度下降法”求取“浅层融合网络”中的每个神经元的权重值；训练结束后，保存权重值矩阵作为“浅层融合网络”的数学模型；

所述步骤3)的具体内容为：