CN111985625A

CN111985625A - 一种红外-可见光融合的深度神经网络及其建模方法

Info

Publication number: CN111985625A
Application number: CN202010919286.9A
Authority: CN
Inventors: 李学钧; 戴相龙; 蒋勇; 何成虎; 王晓鹏
Original assignee: Jiangsu Haohan Information Technology Co ltd
Current assignee: Jiangsu Haohan Information Technology Co ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2020-11-24
Anticipated expiration: 2040-09-04
Also published as: CN111985625B

Abstract

本发明提供了一种红外‑可见光融合的深度神经网络及其建模方法，包括：红外编码器模块，用于提取红外摄像机采集的红外图像特征；可见光编码器模块，用于提取可见光摄像机采集的可见光图像特征；解码器模块，将所述红外编码器模块与所述可见光编码器模块融合为融合编码器模块，所述融合编码器模块输出至所述解码器模块；模型训练模块，所述解码器模块输出至所述模型训练模块，所述模型训练模块用于对所述深度神经网络模型进行训练。本发明的一种红外‑可见光融合的深度神经网络及其建模方法，构建了基于红外图像以及可见光图像的双光融合的危险源分割网络模型，能够结合两种摄像机的优势，解决了单一红外或者单一可见光摄像机定位危险源的缺点。

Description

一种红外-可见光融合的深度神经网络及其建模方法

技术领域

本发明涉及电力监控技术领域，具体涉及一种红外-可见光融合的深度神经网络及其建模方法。

背景技术

随着我国国民经济的增长和生活水平的提高，电力的需求也日益增加，电力系统电网规模的扩大和电力负荷的提高，使电力设备损坏、故障及严重时造成设备烧损等事故发生的可能性增加。为尽可能避免各类电力事故，减少事故导致的重大经济损失势在必行，刻不容缓。

单一的热成像系统只能定位到发热的危险源，单一的可见光系统则无法定位仅仅发热的危险源。传统的视频监控技术只提供视频捕捉、存储和回放等简单功能，不具备视频分析功能和异常判断能力，智能化程度不够高，很难起到预警和报警的作用。

发明内容

为了解决上述问题，本发明提供一种红外-可见光融合的深度神经网络及其建模方法，构建了基于红外图像以及可见光图像的双光融合的危险源分割网络模型，能够结合两种摄像机的优势，解决了单一红外或者单一可见光摄像机定位危险源的缺点。

为了实现以上目的，本发明采取的一种技术方案是：

一种红外-可见光融合的深度神经网络，包括：红外编码器模块，用于提取红外摄像机采集的红外图像特征，所述红外编码器模块包括三个Dwblock模块以及两个残差模块，红外图像依次输出至Dwblock模块、残差模块、Dwblock模块、Dwblock模块、残差模块以及1×1卷积层；可见光编码器模块，用于提取可见光摄像机采集的可见光图像特征，所述可见光编码器模块包括两个Dwblock模块以及两个残差模块，可见光图像依次输出至Dwblock模块、残差模块、Dwblock模块、残差模块以及1×1卷积层；解码器模块，将所述红外编码器模块与所述可见光编码器模块融合为融合编码器模块，所述融合编码器模块输出至所述解码器模块；以及模型训练模块，所述解码器模块输出至所述模型训练模块，所述模型训练模块用于对所述深度神经网络模型进行训练。

进一步地，所述Dwblock模块依次由数据填充、纵向卷积操作、批归一化处理、卷积操作和批归一化处理构成，其中，所述纵向卷积操作指输入图像有N个通道，就采用N个卷积核进行卷积，其中N为正整数。

进一步地，所述数据填充操作指将所述红外图像或所述可见光图像的边界进行扩充，针对每个输入x_i所述批处理归一化过程为：x_i＝(x_i-u)/(sqrt((x_i-v)²)+e)，其中，u为输入{x₁，x₂，x₃，...，x_n}的均值，v为输入{x₁，x₂，x₃，...，x_n}的方差，e是一个小小偏置，防止分母趋向于0。

进一步地，对所述批处理归一化的结果x_i进行了scale加上shift操作，即x_i＝scale*x_i+shift，其中scale和shift通过学习得到。

进一步地，当输入为x时，所述残差模块输出为F(x)+x。

本发明还提供了一种基于以上所述的红外-可见光融合的深度神经网络的建模方法，包括如下步骤：S10通过红外摄像机以及可见光摄像机分别采集红外图像与可见光图像，分别在所述红外图像与所述可见光图像中标注出危险源位置，构建双光危险源分割数据集；S20构建可见光编码器模块以及红外编码器模块，并将可见光编码器模块以及红外编码器模块融合获得融合编码器模块，进而将所述双光危险源分割数据集输入所述融合编码器模块获得融合特征值；S30构建解码模块，将所述融合特征值输入所述解码模块，将所述解码模块输出至softmax层，完成建模。

进一步地，还包括S40步骤，位于所述S30步骤之后，交叉熵损失函数和梯度下降算法进行模型训练，损失函数定义如下：

其中，t_i为真实值，

y_i代表softmax第i个输出值，i表示类别索引，C总的类别个数，v_i表示解码模块的第i个输出。

本发明的上述技术方案相比现有技术具有以下优点：

本发明的一种红外-可见光融合的深度神经网络及其建模方法，利用编码器来提取图像特征，利用解码器重构融合后的图像，构建了基于红外图像以及可见光图像的双光融合的危险源分割网络模型，能够结合两种摄像机的优势，解决了单一红外或者单一可见光摄像机定位危险源的缺点，结合了两种传感器的优势，既能定位监控中的发热危险源，也能定位到可见光图像中定义的危险源，确保了电力监控效率，避免各类电力事故，减少事故导致的重大经济损失。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其有益效果显而易见。

图1所示为本发明一实施例的一种红外-可见光融合的神经网络结构图；

图2所示为本发明一实施例的一种红外-可见光融合的可见光编码器模块结构图；

图3所示为本发明一实施例的一种红外-可见光融合的红外编码器模块结构图；

图4所示为本发明一实施例的残差块的结构图；

图5所示为本发明一实施例的一种红外-可见光融合的神经网络的建模方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供了一种红外-可见光融合的深度神经网络，如图1～3所示，包括红外编码器模块、可见光编码器模块、解码器模块以及模型训练模块，所述红外编码器模块以及所述可见光编码器模块通过网络特征叠加融合为编码器模块。

所述红外编码器模块用于提取红外摄像机采集的红外图像特征，所述红外编码器模块包括三个Dwblock模块以及两个残差模块，红外图像依次输出至Dwblock模块、残差模块、Dwblock模块、Dwblock模块、残差模块以及1×1卷积层。所述可见光编码器模块，用于提取可见光摄像机采集的可见光图像特征，所述可见光编码器模块包括两个Dwblock模块以及两个残差模块，可见光图像依次输出至Dwblock模块、残差模块、Dwblock模块、残差模块以及1×1卷积层。

所述Dwblock模块依次由数据填充、纵向卷积操作、批归一化处理、卷积操作和批归一化处理构成，其中，所述纵向卷积操作指输入图像有N个通道，就采用N个卷积核进行卷积，其中N为正整数。所述数据填充操作指将所述红外图像或所述可见光图像的边界进行扩充，针对每个输入x_i所述批处理归一化过程为：x_i＝(x_i-u)/(sqrt((x_i-v)²)+e)，其中，u为输入{x₁，x₂，x₃，...，x_n}的均值，v为输入{x₁，x₂，x₃，...，x_n}的方差，e是一个小小偏置，防止分母趋向于0。对所述批处理归一化的结果x_i进行了scale加上shift操作，即x_i＝scale*x_i+shift，其中scale和shift通过学习得到。

当输入为x时，F(x)是隐藏层操作，那么一般神经网络的输出为H(x)＝F(x),而残差网络的输出为H(x)＝F(x)+x，具体结构如图4所示，残差块包含两个部分：快捷连接和残差部分。F(x)是残差，用上图左侧表示，图中weightlayer代表着卷积操作，weightlayer为3*3卷积层，将卷积后的特征图与x相加得到新的特征图。

所述解码器模块，将所述红外编码器模块与所述可见光编码器模块融合为融合编码器模块，所述融合编码器模块输出至所述解码器模块。所述解码器模块的主要设计目的是得到和原始输入分辨率相同的密集预测。通过所述解码器模块，特征图的分辨率逐渐恢复到输入图像的分辨率。

所述解码器模块输出至所述模型训练模块，所述模型训练模块用于对所述深度神经网络模型进行训练。

如图5所示，本发明还提供了一种基于以上红外-可见光融合的深度神经网络的建模方法，包括如下步骤：S10通过红外摄像机以及可见光摄像机分别采集红外图像与可见光图像，分别在所述红外图像与所述可见光图像中标注出危险源位置，构建双光危险源分割数据集。S20构建可见光编码器模块以及红外编码器模块，并将可见光编码器模块以及红外编码器模块融合获得融合编码器模块，进而将所述双光危险源分割数据集输入所述融合编码器模块获得融合特征值。S30构建解码模块，将所述融合特征值输入所述解码模块，将所述解码模块输出至softmax层，完成建模。S40交叉熵损失函数和梯度下降算法进行模型训练，损失函数定义如下：

其中，t_i为真实值，

以上所述仅为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种红外-可见光融合的深度神经网络，其特征在于，包括：

红外编码器模块，用于提取红外摄像机采集的红外图像特征，所述红外编码器模块包括三个Dwblock模块以及两个残差模块，红外图像依次输出至Dwblock模块、残差模块、Dwblock模块、Dwblock模块、残差模块以及1×1卷积层；

可见光编码器模块，用于提取可见光摄像机采集的可见光图像特征，所述可见光编码器模块包括两个Dwblock模块以及两个残差模块，可见光图像依次输出至Dwblock模块、残差模块、Dwblock模块、残差模块以及1×1卷积层；

解码器模块，将所述红外编码器模块与所述可见光编码器模块融合为融合编码器模块，所述融合编码器模块输出至所述解码器模块；以及

模型训练模块，所述解码器模块输出至所述模型训练模块，所述模型训练模块用于对所述深度神经网络模型进行训练。

2.根据权利要求1所述的红外-可见光融合的深度神经网络，其特征在于，所述Dwblock模块依次由数据填充、纵向卷积操作、批归一化处理、卷积操作和批归一化处理构成，其中，所述纵向卷积操作指输入图像有N个通道，就采用N个卷积核进行卷积，其中N为正整数。

3.根据权利要求2所述的红外-可见光融合的深度神经网络，其特征在于，所述数据填充操作指将所述红外图像或所述可见光图像的边界进行扩充，针对每个输入x_i所述批处理归一化过程为：x_i＝(x_i-u)/(sqrt((x_i-v)²)+e)，其中，u为输入{x₁，x₂，x₃，…，x_n}的均值，v为输入{x₁，x₂，x₃，...，x_n}的方差，e是一个小小偏置，防止分母趋向于0。

4.根据权利要求3所述的红外-可见光融合的深度神经网络，其特征在于，对所述批处理归一化的结果x_i进行了scale加上shift操作，即x_i＝scale*x_i+shift，其中scale和shift通过学习得到。

5.根据权利要求4所述的红外-可见光融合的深度神经网络，其特征在于，当输入为x时，所述残差模块输出为F(x)+x。

6.一种基于权利要求5所述的红外-可见光融合的深度神经网络的建模方法，其特征在于，包括如下步骤：

S10通过红外摄像机以及可见光摄像机分别采集红外图像与可见光图像，分别在所述红外图像与所述可见光图像中标注出危险源位置，构建双光危险源分割数据集；

S20构建可见光编码器模块以及红外编码器模块，并将可见光编码器模块以及红外编码器模块融合获得融合编码器模块，进而将所述双光危险源分割数据集输入所述融合编码器模块获得融合特征值；

S30构建解码模块，将所述融合特征值输入所述解码模块，将所述解码模块输出至softmax层，完成建模。

7.根据权利要求6所述的红外-可见光融合的建模方法，其特征在于，还包括S40步骤，位于所述S30步骤之后，交叉熵损失函数和梯度下降算法进行模型训练，损失函数定义如下：

其中，t_i为真实值，