CN110889398B

CN110889398B - 一种基于相似度网络的多模态图像能见度检测方法

Info

Publication number: CN110889398B
Application number: CN201911317691.7A
Authority: CN
Inventors: 王晗; 施佺; 沈克成; 余佩伦
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2022-01-14
Anticipated expiration: 2039-12-19
Also published as: CN110889398A

Abstract

本发明公开了一种基于相似度网络的多模态图像能见度检测方法，包括如下步骤：步骤1)利用图像配准获取视野与分辨率均相同的可见光‑红外图像对，建立双模态图像数据集；步骤2)构建相似度网络模型“4CH‑LSTM‑CNN网络模型”，利用双模态图像数据集训练网络的权值，获取神经网络参数；步骤3)利用训练完毕的“4CH‑LSTM‑CNN网络模型”对待测的可见光‑红外双模态图像能见度的等级进行分类。本发明能够将可见光、红外图像各自的静态外观特征和模态之间的动态相似度变化特征进行融合。有效克服传统基于单模态可见光图像能见度检测方法局限于“静态外观特征”问题，显著提高小样本条件下能见度检测的准确性与稳定性。

Description

一种基于相似度网络的多模态图像能见度检测方法

技术领域

本发明涉及基于图像/视频的能见度等级分类、检测技术，尤其涉及一种利用多模态图像(可见光-红外图像对儿)局部图像块序列作为输入信号，通过相似度网络模型提取多模态图像相似度变化动态特征，进而对能见度等级进行分类和检测的方法。

背景技术

雾、霾等恶劣天气是严重影响道路行车安全的因素，每年由低能见度原因造成的交通拥塞甚至恶性事故频频发生，据统计发生在恶劣天气下的交通事故占总交通事故的24％。因此，及时、准确、有效地对雾天道路能见度进行监测和预警意义重大。传统的能见度监测仪器价格昂贵，体积较大，且无法密集布设。因此，研究基于图像处理的能见度检测算法已成为一种新的主流方向。

目前，常见的基于图像的能见度检测方法大概可以分为一下三种。“双亮度差法”：在图像中寻找距离不同的两个目标，然后通过目标与背景的相对亮度比估计能见度值。该方法需要设置人工辅助目标物，操作复杂。“暗通道法”：利用暗通道先验知识求取大气消光系数，在利用韦伯定律求取大气能见度。该方法精度较低，且受到ROI区域检测效果影响较大。“深度学习法”：利用卷积神经网络对输入可见光彩色图像的能见度等级进行分类，该方法性能受到训练样本的质量和数量的影响。

综上所述，现有的基于图像的能见度检测方法多局限于面向可见光彩色图像的研究，即通过可见光彩色图像的静态外观特征估计能见度的等级或者能见度距离。而现有基于深度学习的方法在小样本条件下受到初始训练权值的影响、稳定性不佳，为了获取最优参数需要长时间反复训练。

发明内容

发明目的：为了解决上述问题，本发明的主要目的在于提供一种基于相似度网络的多模态图像能见度检测方法其先进性表现为：一、从全局到局部的可见光-红外图像对序列中提取多模态图像相似度变化动态特征信息。二、通过设计相似度网络结构(4CH-LSTM-CNN)，将提取外观特征的卷积神经网络CNN与提取动态变化特征的长短时记忆网络LSTM相结合，可以有效地将多模态外观静态特征和相似度变化动态特征进行融合，能够显著提高小样本下神经网络能见度的检测准确度和稳定性。

技术方案：为达到上述目的，本发明的技术方案是：一种基于相似度网络的多模态图像能见度检测方法，包括如下步骤：

步骤1)利用图像配准获取视野与分辨率均相同的可见光-红外图像对，建立双模态图像数据集；

步骤2)构建相似度网络模型“4CH-LSTM-CNN网络模型”，利用双模态图像数据集训练网络的权值，获取神经网络参数；

步骤3)利用训练完毕的“4CH-LSTM-CNN网络模型”对待测的可见光-红外双模态图像能见度的等级进行分类。

作为优化：步骤1)的具体内容为：

首先，将可见光彩色图像转换为灰度图像I_gray，并且在灰度图像I_gray和红外图像I_IR中分别提取SIFT特征点；然后，以红外图像I_IR中每个SIFT特征点F_IR ⁱ为中心，在给定的搜索范围内在可见光灰度图像I_gray中寻找SIFT候补特征点集合{F_gray ¹,F_gray ²,…F_gray ⁿ}；接着，计算红外图像I_IR特征点F_IR ⁱ与灰度图像I_gray候补特征点集合中每一个特征点F_CCD ^j之间的相似度，最后，根据最大相似度完成F_IR ⁱ和{F_gray ¹,F_gray ²,…F_gray ⁿ}之间的可见光-红外SIFT特征点匹配；

在红外图像I_IR中所有的SIFT特征点匹配之后，利用RANSAC算法从可见光-红外SIFT特征点对儿集合中，估计可见光图像I_gray与红外图像I_IR之间的转换矩阵M；最后，根据M矩阵将灰度图像I_gray转换为与红外图像I_IR在视野和分辨率均相同的图像I_CCD；

双模态图像数据集的建立过程如下：首先，根据步骤1)所述预处理内容，将双目摄像机获取的可见光-红外图像配准成分辨率和视野相同的多模态图像(可见光-红外图像)集合；然后，根据能见度的强弱将多模态集合分成N类：0为能见度最强，N为能见度最弱；对每一类的多模态图像标定种类标签Y,Y∈[0,N]。

作为优化：所述的F_IR ⁱ与F_gray ^j之间相似度的具体计算方法如下：

1.分别以SIFT特征点F_IR ⁱ和F_gray ^j为中心，从I_IR和I_gray中提取80x80的图像块Q_IR和Q_gray，然后，分别从Q_IR和Q_gray中提取384维的LGHD特征向量H_IR ⁱ和H_gray ^j；

2.利用直方图交叉核度量两个LGHD特征向量H_IR ⁱ和H_gray ^j之间的相似度，计算公式如下：

式中，H_IR ⁱ,H_gray ^j分别是红外图像I_IR第i个SIFT特征点对应LGHD特征向量；H_gray ^j是可见光灰度图像I_gray第j个SIFT特征点对应LGHD特征向量。

作为优化：步骤2)的具体内容为：

本发明提出的“4CH-LSTM-CNN网络模型”由三个模块构成：“局部图像块提取模块”、“4通道卷积神经网络(4CH-Net)层”、“LSTM-CNN网络”；

所述的“局部图像块提取模块”的输入为红外图像I_IR、可见光图像I_CCD；输出为红外-可见光图像的局部图像块对I_IR ⁱ、I_CCD ⁱ,(i＝1,…,N)；提取过程如下：以图像中心(x₀,y₀)为起点，将图像的高H和宽W平均分成N份，依次以(x₀,y₀)为中心以i/N为步长，分别在I_IR、I_CCD中截取高为i*H/N,宽为i*W/N的图像块对P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)；

所述的“4通道卷积神经网络(4CH-Net)层”由N个“4通道卷积神经网络(4CH-Net)”并行组成，每个4CH-Net网络之间没有数据交换；其中，每一个“4通道卷积神经网络(4CH-Net)”的输入是具有一个四通道数据结构的图像：第一个通道是可见光图像块P_CCD ⁱ的红色分量通道(R通道)；第二个通道是可见光图像块P_CCD ⁱ的蓝色分量通道(B通道)；第三个通道是可见光图像块P_CCD ⁱ的绿色分量通道(G通道)；第四个通道是红外图像块P_IR ⁱ对应的灰度图像(红外通道)；单个4CH-Net的网络结构如下：网络共有10层，分别是输入层(224x224x4)、卷积层1(96个11x11卷积核)、最大池化层1(3x3)、卷积层2(256个5x5卷积核)、最大池化层2(3x3)、卷积层3(384个3x3卷积核)、卷积层4(384个3x3卷积核)、卷积层5(256个3x3卷积核)、最大池化层3(3x3)、全连接层(2048维)；每个4CH-Net网络的输出为2048维图像特征向量，整个“4通道卷积神经网络(4CH-Net)层”的输出是N个2048维的图像特征向量；

所述的“LSTM-CNN网络”的输入是N个2048维度的特征向量，输出是能见度等级的概率；网络共有6层，分别是长短期记忆网络(LSTM，Long Short-Term Memory)层，该层共有N个LSTM子网络，卷积层(96个11x11卷积核)、最大池化层1(3x3)、全连接层(2048维)、Dropout层、Softmax层；

4CH-LSTM-CNN网络的训练过程如下：依次将每一类的双模态训练图像中的红外图像I_IR和可见光图像I_CCD，通过“局部图像块提取模块”提取N个红外-可见光局部图像块序列P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)，并且将其作为4CH-Net层的输入；将P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)对应的能见度等级标签Y作为训练的输出值；然后，利用“梯度下降法”求取4CH-LSTM-CNN网络模型中的每个权值；训练结束后，保存权值矩阵作为4CH-LSTM-CNN网络的数学模型。

作为优化：步骤3)的具体内容为：

根据步骤1)所述预处理内容，将待测多模态图像(可见光-红外图像)配准成视野和分辨率均相同的图像对，并且归一化为224x224x3；然后，将图像对作为4CH-LSTM-CNN网络的输入；经过局部图像提取模块提取N个可见光-红外图像对P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)；接着，利用4通道卷积网络层提取各图像对的相似度特征向量；之后，利用LSTM层将双模态图像相似度特征向量序列建模，提取相似度向量序列之间的变化规律；再利用卷积层将LSTM的输出进行融合，经过dropout层处理后，通过全连接层进行描述；最后，融合后的6144维多模态联合特征送入softmax层获取能见度的等级的概率。

有益效果：本发明能够利用4CH-LSTM-CNN网络模型将可见光、红外图像各自的静态外观特征和模态之间的动态相似度变化特征进行融合。有效克服传统基于单模态可见光图像能见度检测方法局限于“静态外观特征”问题，显著提高小样本条件下能见度检测的准确性与稳定性。

附图说明

图1为本发明能见度检测方法的流程图；

图2为本发明提出的“相似度网络模型”结构的示意图；

图3为本发明的能见度检测方法与传统单模态可见光结合卷积神经网络方法的稳定性比较结果实例；

图4为本发明的能见度检测方法与传统单模态可见光结合卷积神经网络方法的准确性比较结果实例。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，以使本领域的技术人员能够更好的理解本发明的优点和特征，从而对本发明的保护范围做出更为清楚的界定。本发明所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，一种基于相似度网络的多模态图像能见度检测方法，包括如下步骤：

步骤101：利用图像配准获取视野与分辨率均相同的可见光-红外图像对，建立双模态图像数据集；具体内容为：

首先，将可见光彩色图像转换为灰度图像I_gray，并且在灰度图像I_gray和红外图像I_IR中分别提取SIFT特征点；然后，以红外图像I_IR中每个SIFT特征点F_IR ⁱ为中心，在给定的搜索范围(search window)内在可见光灰度图像I_gray中寻找SIFT候补特征点集合{F_gray ¹,F_gray ²,…F_gray ⁿ}；接着，计算红外图像I_IR特征点F_IR ⁱ与灰度图像I_gray候补特征点集合中每一个特征点F_CCD ^j之间的相似度，最后，根据最大相似度完成F_IR ⁱ和{F_gray ¹,F_gray ²,…F_gray ⁿ}之间的可见光-红外SIFT特征点匹配。其中，F_IR ⁱ与F_gray ^j之间相似度的具体计算方法如下：

1.分别以SIFT特征点F_IR ⁱ和F_gray ^j为中心，从I_IR和I_gray中提取80x80的图像块Q_IR和Q_gray。然后，分别从Q_IR和Q_gray中提取384维的LGHD特征向量H_IR ⁱ和H_gray ^j。

2.利用直方图交叉核(histogram intersection)度量两个LGHD特征向量H_IR ⁱ和H_gray ^j之间的相似度，计算公式如下：

式中，H_IR ⁱ,H_gray ^j分别是红外图像I_IR第i个SIFT特征点对应LGHD特征向量。H_gray ^j是可见光灰度图像I_gray第j个SIFT特征点对应LGHD特征向量。

在红外图像I_IR中所有的SIFT特征点匹配之后，利用RANSAC算法从可见光-红外SIFT特征点对儿集合中，估计可见光图像I_gray与红外图像I_IR之间的转换矩阵M。最后，根据M矩阵将灰度图像I_gray转换为与红外图像I_IR在视野和分辨率均相同的图像I_CCD。

双模态图像数据集的建立过程如下：首先，根据步骤1)所述预处理内容，将双目摄像机获取的可见光-红外图像配准成分辨率和视野相同的多模态图像(可见光-红外图像)集合。然后，根据能见度的强弱将多模态集合分成N类：0为能见度最强，N为能见度最弱。对每一类的多模态图像标定种类标签Y,Y∈[0,N]。

步骤102：构建相似度网络模型“4CH-LSTM-CNN网络模型”，利用双模态图像数据集训练网络的权值，获取神经网络参数；具体内容为：

本发明提出的“相似度网络模型(4CH-LSTM-CNN)”由三个模块构成：“局部图像块提取模块”、“4通道卷积神经网络(4CH-Net)层”、“LSTM-CNN网络”，参见图2(相似度网络4CH-LSTM-CNN模型)。

“局部图像块提取模块”的输入为红外图像I_IR、可见光图像I_CCD。输出为红外-可见光图像的局部图像块对I_IR ⁱ、I_CCD ⁱ,(i＝1,…,N)。提取过程如下：以图像中心(x₀,y₀)为起点，将图像的高H和宽W平均分成N份。依次以(x₀,y₀)为中心以i/N为步长，分别在I_IR、I_CCD中截取高为i*H/N,宽为i*W/N的图像块对P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)。

“4通道卷积神经网络(4CH-Net)层”由N个“4通道卷积神经网络(4CH-Net)”并行组成，每个4CH-Net网络之间没有数据交换。其中，每一个“4通道卷积神经网络(4CH-Net)”的输入是具有一个四通道数据结构的图像：第一个通道是可见光图像块P_CCD ⁱ的红色分量通道(R通道)；第二个通道是可见光图像块P_CCD ⁱ的蓝色分量通道(B通道)；第三个通道是可见光图像块P_CCD ⁱ的绿色分量通道(G通道)；第四个通道是红外图像块P_IR ⁱ对应的灰度图像(红外通道)。单个4CH-Net的网络结构如下：网络共有10层，分别是输入层(224x224x4)、卷积层1(96个11x11卷积核)、最大池化层1(3x3)、卷积层2(256个5x5卷积核)、最大池化层2(3x3)、卷积层3(384个3x3卷积核)、卷积层4(384个3x3卷积核)、卷积层5(256个3x3卷积核)、最大池化层3(3x3)、全连接层(2048维)。每个4CH-Net网络的输出为2048维图像特征向量，整个“4通道卷积神经网络(4CH-Net)层”的输出是N个2048维的图像特征向量。

“LSTM-CNN网络”的输入是N个2048维度的特征向量，输出是能见度等级的概率。网络共有6层，分别是长短期记忆网络(LSTM，Long Short-Term Memory)层，该层共有N个LSTM子网络。卷积层(96个11x11卷积核)、最大池化层1(3x3)、全连接层(2048维)、Dropout层、Softmax层。

4CH-LSTM-CNN网络的训练过程如下：依次将每一类的双模态训练图像中的红外图像I_IR和可见光图像I_CCD，通过“局部图像块提取模块”提取N个红外-可见光局部图像块序列P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)，并且将其作为4CH-Net层的输入；将P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)对应的能见度等级标签Y作为训练的输出值。然后，利用“梯度下降法”求取4CH-LSTM-CNN网络模型中的每个权值。训练结束后，保存权值矩阵作为4CH-LSTM-CNN网络的数学模型。

步骤103：利用训练完毕的“4CH-LSTM-CNN网络模型”对待测的可见光-红外双模态图像能见度的等级进行分类。具体内容为：

根据步骤101所述预处理内容，将待测多模态图像(可见光-红外图像)配准成视野和分辨率均相同的图像对，并且归一化为224x224x3。然后，将图像对作为4CH-LSTM-CNN网络的输入；经过局部图像提取模块提取N个可见光-红外图像对P_IR ⁱ、P_CCD ⁱ(i＝1,…,N)。接着，利用4通道卷积网络层提取各图像对的相似度特征向量。之后，利用LSTM层将双模态图像相似度特征向量序列建模，提取相似度向量序列之间的变化规律。最后再利用卷积层将LSTM的输出进行融合，经过dropout层处理后，通过全连接层进行描述；最后，融合后的6144维多模态联合特征送入softmax层获取能见度的等级的概率。

如图3(a)，3(b)分别为不同方法在相同的数据样本下，反复随机设置网络初始权值，进行网络训练的15次获取的能见度检测准确率及其平均值。经过对比可以清楚的看出：本发明的方法平均准确率最高，达到76.9％。其余两个单模态图像(可见光或红外)加卷积神经网络的方法准确性均小于30％，这说明传统基于单模态图像的深度学习方法稳定性不佳。而本发明提出的方法可以通过网络模型对不同模态的图像静态和动态特征进行有效地融合，显著提高检测的稳定性。

如图4，为不同方法在训练数据数量变化下，最优网络权值下能见度检测准确率的比较。经过对比可以清楚的看出：无论训练样本如何变化，本发明的方法准确率最高，显著优于其余两个单模态图像(可见光或红外)加普通卷积神经网络的方法。通过比较可以看出尤其再小样本条件下(50％训练、50％测试)，本发明提出的方法检测准确度显著高于其他方法。

本发明的技术内容及技术特征已揭示如上，然而熟悉本领域的技术人员仍可能基于本发明的揭示而作种种不背离本发明精神的替换及修饰，因此，本发明保护范围应不限于实施例所揭示的内容，而应包括各种不背离本发明的替换及修饰，并为本专利申请权利要求所涵盖。

Claims

1.一种基于相似度网络的多模态图像能见度检测方法，其特征在于：包括如下步骤：

步骤3)利用训练完毕的“4CH-LSTM-CNN网络模型”对待测的可见光-红外双模态图像能见度的等级进行分类；

步骤1)的具体内容为：

双模态图像数据集的建立过程如下：首先，根据步骤1)，将双目摄像机获取的可见光-红外图像配准成分辨率和视野相同的双模态图像数据集；然后，根据能见度的强弱将多模态集合分成N类：0为能见度最强，N为能见度最弱；对每一类的多模态图像标定种类标签Y,Y∈[0,N]；

所述的F_IR ⁱ与F_gray ^j之间相似度的具体计算方法如下：

1-1.分别以SIFT特征点F_IR ⁱ和F_gray ^j为中心，从I_IR和I_gray中提取80x80的图像块Q_IR和Q_gray，然后，分别从Q_IR和Q_gray中提取384维的LGHD特征向量H_IR ⁱ和H_gray ^j；

1-2.利用直方图交叉核度量两个LGHD特征向量H_IR ⁱ和H_gray ^j之间的相似度，计算公式如下：

式中，H_IR ⁱ,H_gray ^j分别是红外图像I_IR第i个SIFT特征点对应LGHD特征向量；H_gray ^j是可见光灰度图像I_gray第j个SIFT特征点对应LGHD特征向量；

步骤2)的具体内容为：

“4CH-LSTM-CNN网络模型”由三个模块构成：“局部图像块提取模块”、“4通道卷积神经网络4CH-Net层”、“LSTM-CNN网络”；

所述的“局部图像块提取模块”的输入为红外图像I_IR、可见光图像I_CCD；输出为红外-可见光图像的局部图像块对I_IR ⁱ、I_CCD ⁱ,i＝1,…,N；提取过程如下：以图像中心(x₀,y₀)为起点，将图像的高H和宽W平均分成N份，依次以(x₀,y₀)为中心以i/N为步长，分别在I_IR、I_CCD中截取高为i*H/N,宽为i*W/N的图像块对P_IR ⁱ、P_CCD ⁱ，i＝1,…,N；

所述的“4通道卷积神经网络4CH-Net层”由N个“4通道卷积神经网络4CH-Net”并行组成，每个4CH-Net网络之间没有数据交换；其中，每一个“4通道卷积神经网络4CH-Net”的输入是具有一个四通道数据结构的图像：第一个通道是可见光图像块P_CCD ⁱ的红色分量通道R通道；第二个通道是可见光图像块P_CCD ⁱ的蓝色分量通道B通道；第三个通道是可见光图像块P_CCD ⁱ的绿色分量通道G通道；第四个通道是红外图像块P_IR ⁱ对应的红外通道灰度图像；单个4CH-Net的网络结构如下：网络共有10层，分别是输入层，其维度是224x224x4、卷积层1，其具有96个11x11卷积核、最大池化层1，其使用3x3卷积核、卷积层2，其具有256个5x5卷积核、最大池化层2，其使用3x3卷积核、卷积层3，其具有384个3x3卷积核、卷积层4，其具有384个3x3卷积核、卷积层5，，其具有256个3x3卷积核、最大池化层3，其使用3x3卷积核、全连接层，其维度为2048维；每个4CH-Net网络的输出为2048维图像特征向量，整个“4通道卷积神经网络4CH-Net层”的输出是N个2048维的图像特征向量；

所述的“LSTM-CNN网络”的输入是N个2048维度的特征向量，输出是能见度等级的概率；网络共有6层，分别是长短期记忆网络(LSTM，Long Short-Term Memory)层，该层共有N个LSTM子网络，卷积层，其具有96个11x11卷积核、最大池化层1，其使用3x3卷积核、全连接层，其维度2048维、Dropout层、Softmax层；

4CH-LSTM-CNN网络的训练过程如下：依次将每一类的双模态训练图像中的红外图像I_IR和可见光图像I_CCD，通过“局部图像块提取模块”提取N个红外-可见光局部图像块序列P_IR ⁱ、P_CCD ⁱ，i＝1,…,N，并且将其作为4CH-Net层的输入；将P_IR ⁱ、P_CCD ⁱ，i＝1,…,N，对应的能见度等级标签Y作为训练的输出值；然后，利用“梯度下降法”求取4CH-LSTM-CNN网络模型中的每个权值；训练结束后，保存权值矩阵作为4CH-LSTM-CNN网络的数学模型；

步骤3)的具体内容为：

根据步骤1)，将待测可见光-红外图像配准成视野和分辨率均相同的图像对，并且归一化为224x224x3；然后，将图像对作为4CH-LSTM-CNN网络的输入；经过局部图像提取模块提取N个可见光-红外图像对P_IR ⁱ、P_CCD ⁱ，i＝1,…,N；接着，利用4通道卷积网络层提取各图像对的相似度特征向量；之后，利用LSTM层将双模态图像相似度特征向量序列建模，提取相似度向量序列之间的变化规律；再利用卷积层将LSTM的输出进行融合，经过dropout层处理后，通过全连接层进行描述；最后，融合后的6144维多模态联合特征送入softmax层获取能见度的等级的概率。