CN116363748A

CN116363748A - 基于红外-可见光图像融合的电网现场作业一体管控方法

Info

Publication number: CN116363748A
Application number: CN202310211096.5A
Authority: CN
Inventors: 常荣; 杨传旭; 万洪强; 于虹; 张志生; 张航
Original assignee: Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Current assignee: Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-06-30
Also published as: WO2024183245A1

Abstract

本发明涉及电网监控图像处理技术领域，具体地说，涉及基于红外‑可见光图像融合的电网现场作业一体管控方法。包括基于自循环学习的特征融合；基于多通道的剩余增强；基于不同样本特征的特征融合，能针对RFP模型进行修改和完善，缩短信息路径的同时削减冗余特征，使用迭代机制实现特征融合模型；基于红外‑可见光图像融合的异常行为识别。本发明设计提供了基于自循环学习融合的模型，通过与公共数据集的对比，验证了融合模块的优势，可以针对实际复杂的监控数据提取精准精确的目标，在较为复杂实际场景数据集中具有很高的识别精度，且具有灵活处理场景中的目标的功能；其对数据具有很强的适应性，尤其在标定数据较少的情况下能够获得更好效果。

Description

基于红外-可见光图像融合的电网现场作业一体管控方法

技术领域

本发明涉及电网监控图像处理技术领域，具体地说，涉及基于红外-可见光图像融合的电网现场作业一体管控方法。

背景技术

红外-可见光系统，是利用可见光和红外两种技术实现全天时、全天候监控。通过网络、无线传输或光缆等多种传输手段，实现监视传输，使上级部门能够直观、实时地掌控现场情况，并可在千里之外操纵前方的摄像机，进行重点观察。系统也可用于消防、油田森林防火、交通管理、电力电网行业等重要场所等需要全天时、全天候监控的领域。但是，现有的系统，在面对恶劣环境下，如雾气、光照不足、恶劣天气时，监测的视频图像受到严重干扰和影响，导致最终的成像质量降低、目标识别率下降，甚至导致监控系统无法工作，从而影响工作稳定性。因此，研究多特征的红外-可见光多源图像增强技术，为远方监控人员提供更好的监控视频效果，已是目前行业内的重要课题。

图像增强的主要目的是利用卷积神经网络，解决背景复杂和低光照问题，主要是将图像特征点提取出来经过卷积反复进行特征增强，使需要的目标差异特征最大化，提升识别准确度，为远方监控人员提供更好的监控视频效果。

人体行为识别和深度学习理论是智能视频分析领域的研究热点，近年来得到了学术界及工程界的广泛重视，是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础。近年来，被广泛关注的深度学习算法已经被成功运用于语音识别、图形识别等各个领域。深度学习理论在静态图像特征提取上取得了卓著成就，并逐步推广至具有时间序列的视频行为识别研究中。如何进一步提高弱光环境下对视频图像中人体行为识别的精确性，是本发明所要解决的技术问题。

在电力作业工作场景中，神经网络仍不能很好地检测出特定的工作人员、安全帽、安全带、使用的工作设备等复杂场景中有背景干扰的目标。特征融合在这些方面取得了显著的突破。特征融合是提高分割性能的一个重要手段，可以解决主干网络提取出的多尺度特征融合问题，得到包含不同尺度和空间位置的信息。特征融合通过结合不同层的检测结果改进检测性能。由于信息在神经网络中的传播具有重要的意义，特征融合可以实现骨干网络提取的多层次特征之间的信息传递。但是目前的行业中，很多算力系统都是设置在终端，实时性和及时性需要通过网络通信才能完成，造成了实用性差、及时性不够稳定可靠的问题。鉴于此，我们提出了基于红外-可见光图像融合的电网现场作业一体管控方法。

发明内容

本发明的目的在于提供基于红外-可见光图像融合的电网现场作业一体管控方法，以解决上述背景技术中提出的问题。

为实现上述技术问题的解决，本发明的目的之一在于，提供了基于红外-可见光图像融合的电网现场作业一体管控方法，包括如下步骤：

S1、基于自循环学习的特征融合步骤，对特征金字塔FPN输出的多尺度特征图像进行特征的再次学习；

S2、基于多通道的剩余增强步骤，对再次学习的特征图像降低冗余特征干扰；

S3、基于不同样本特征的特征融合步骤，在网络中添加特征增强机制，通过不同图片间的目标共享提高模型效率；能针对RFP模型进行修改和完善，缩短信息路径的同时削减冗余特征，使用迭代机制实现特征融合模型；

S4、基于红外-可见光图像融合的异常行为识别步骤，用于将输出的融合图像进行目标分类并标注，根据类别坐标信息进行归一化处理构建目标检测模型，将融合图像信息对应的特征向量输入目标检测模型当中，得到识别结果；能在视频数据的时间维度和空间维度上进行特征计算，利用3D卷积神经网络对人体关节点相关数据进行特征提取，根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。

作为本技术方案的进一步改进，所述步骤S1中，特征融合步骤包括，在红外-可见光多源图像在进行融合的过程当中，将需要校正因图像传感器之间的物理距离造成的图像之间的差异；

对红外和可见光图像分别消除畸变，根据摄像头定标后获得的单目内参数据和两个相机相对位置关系，分别对左右视图进行消除畸变和行对准；通过平行校正的方法对两个相机进行标定，完成了对两个图像之间物理差异的一个校正；

其中，标定的过程包括：

(1)分别将两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系：

(2)分别对两个相机坐标系进行旋转得到新的相机坐标系；通过左乘旋转矩阵R1和R2；

(3)针对新的相机坐标分别进行左、右相机的去畸变操作；

(4)去畸变操作结束后，分别用左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系；

(5)并分别用左、右源图像的像素值对新左、右图像的像素点进行插值。

作为本技术方案的进一步改进，所述步骤S1中，特征融合步骤，针对RFP模型进行修改和完善，还包括：通过REAML，弥补空白信息得到特征R_i，然后反馈连接到自上而下的金字塔结构，二次传播后，输出特征定义一个迭代操作：

其中，Fⁿ(X)表示特征融合的过程，n∈[1，...N]是特征金字塔的循环展开的次数；W由多层次特征数i的权重wⁱ组成；B是一个可学习的常量，经过上式计算得到输出结果Sp。

作为本技术方案的进一步改进，所述步骤S2中，基于多通道的剩余增强步骤，对再次学习的特征图像降低冗余特征干扰，包括使用模型公式：

该模型保留第一次特征金字塔FPN的输出

n代表模块提取到的第i层特征图，/>

包含可以与F^t+1互补的信息；Dconv是一个包含两个空隙的3×3空洞卷积；R表示REAML的计算过程。

作为本技术方案的进一步改进，所述步骤S2中，基于多通道的剩余增强体系模块，操作筛选每层特征的信息，并将筛选后的结果按照特征的贡献程度融合，残差的实现方法包括：

x＝Δρ+x

其中，Δρ作为模型中的残差结构；n∈[1，...，n]，p⁽ⁱ⁾代表特征图的第i通道，w^(ｉ）和b⁽ⁱ⁾分别代表该通道的权重和自学习常量。

作为本技术方案的进一步改进，所述步骤S2中，基于多通道的剩余增强体系模块，还包括：将图像特征点提取出来后，经过深度卷积神经网络的算法与训练反复进行特征增强，使需要的目标差异特征最大化，提升识别准确度，并在卷积层之后，加入Norm归一化层，以提升主体与其他部分的区分度；

其中，所述深度卷积层神经网络包含5个卷积层(conv)，3个池化层(pool)，2个LRN层(norm)，2个随机采样层(drop)，3个全连接层(fc)和1个softmax分类回归层；卷积层(conv)和池化层(pool)交替出现，池化层(pool)为max-pooling；

卷积层和ReLU层成对出现，ReLU激活函数的表达式为：y＝{0，max(x)}，当输入x＞0时，输出为x本身；如果输入小于或等于0，则输出0；

所述卷积层参数分别是：conv1、conv2、conv3、conv4、conv5的blob类型分别为[1，96，55，55]、[1，256，27，27]、[1，384，13，13]、[1，384，13，13]和[1，256，13，13]，步长分别为4、2、1、1、1；

pool层参数为：pool1：[1，96，27，27]，pool2：[1，256，13，13]，pool5：[1，256，6，6]；

卷积的计算公式为：

式中，M_j为输入特征图集合，

为当前第1层的第j个输出，/>

为卷积核，分别对输入特征图/>

进行卷积，/>

为偏置，ReLU表示激活函数；

卷积层的输出维数的计算公式为：

N₂＝(N₁-F₁+2P)/S+1

式中，输入图片的大小为N₁×N₁，卷积核的大小为F₁×F₁，步长为S，P表示padding的像素数，即拓展宽度；输出的图片大小为N₂×N₂；

pool池化层的输出维数计算公式如下：

N₃＝(N₁-F₂)/S+1

式中，池化pool层的核大小为F₂。

作为本技术方案的进一步改进，所述步骤S3中，基于不同样本特征的特征融合步骤，包括：

Gp＝S+F^t

其中，S表示被采样的样本；i∈[1，...，n]表示t批次的特征图数量；d∈[1，...，D]表示该样本特征的通道数；Gp为具有复杂样本特征的输出。

作为本技术方案的进一步改进，所述步骤S4中，基于红外-可见光图像融合的异常行为识别步骤，能将图像增强过后的可见光与红外光输入Fusion-GAN网络的生成器中，更改生成器与判别器的卷积为深度可分离卷积，采用mobilenet-v3架构进行处理，减少计算量，输出融合图像；将输出的融合图像输入判别器单独调整融合图像信息，得到结果；在生成器和判别器的对抗学习过程当中，不断地对融合图像进行优化，损失函数达到平衡后，保留效果最佳的图像；

对融合后的图像进行目标分类并标注，根据类别坐标信息进行归一化处理，与融合图像输入进yolov5网络，将融合后的图像进行HLV颜色变换，采用Mosaic数据增强对图像进行拼接，作为训练样本，并提出了一种改进的特征金字塔模型，命名为AF-FPN，它是利用自适应注意力模块(AAM)和特征增强模块(FEM)来减少特征图生成过程中的信息丢失并增强表示能力的特征金字塔，保证实时检测的前提下提高了YOLOv5网络对多尺度目标的检测性能，构建目标检测模型，将融合图像信息对应的特征向量输入目标检测模型当中，得到识别结果；

在Fusion-GAN网络融合完红外和可见光图像后，将红外可见光融合视频流输入至3D神经网络，在视频数据的时间维度和空间维度上进行特征计算；

输入视频被分作两组独立的数据流：低分辨率的数据流和原始分辨率的数据流，两个数据流都交替地包含卷积层、正则层和抽取层，同时这两个数据流最后合并成两个全连接层用于后续的特征识别；

利用3D卷积神经网络对人体关节点相关数据进行特征提取，根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。

作为本技术方案的进一步改进，所述生成器所设置的损失函数为：

其中，H和W分别代表输入的图像的高度和宽度，

代表矩阵范数，/>

表示梯度算子，ξ为控制两个项之间的权衡的正参数；

所述判别器所设置的损失函数如下：

其中，a和b分别表示融合图像I_v和可见光图像I_f的标签，D_θD(I_v)和D_θD(I_f)为两个图像的分类结果；

所述目标分类包括安全帽、未佩戴安全帽、反光衣、未穿反光衣；

能将融合后的图像进行HLV颜色变换，采用Mosaic数据增强对图像进行拼接，作为训练样本；设置学习率为0.001，批尺寸大小为16，采用梯度下降法对损失函数进行优化；采用准确率、召回率、F1分数对模型进行评价，其根据自己标定的类别和通过算法检测出的类别进行计算，其分为：真正例TP、假正例FP、真反例TN、假反例FN；

准确率、召回率和F1-score公式分别如下：

其中，P和R分别为计算得出的准确率Presicion和召回率Recall；

对训练出来的模型进行测试，将融合图像信息对应的特征向量输入目标检测模型当中，得到最终识别结果。

作为本技术方案的进一步改进，所述步骤S4中，红外-可见光图像融合的异常行为识别步骤，在视频数据的时间维度和空间维度上进行特征计算；其中：卷积神经网络的第一层是硬编码的卷积核，包括灰度数据，z、y方向的梯度，z、y向的光流，还包括3个卷积层，2个下采样层和1个全连接层；

在定长时间的视频块内使用3DCNN，使用多分辨率的卷积神经网络对视频特征进行提取；静态帧数据流使用单帧数据，帧间动态的数据流使用光流数据，每个数据里都使用深度卷积神经网络进行特征提取；

能使用3DCNN网络结构对融合视频中人体进行姿态估计，获取人体的骨骼点；通过3DCNN网络结构实时的输出人体数个关键的骨骼点；分别记该数个部位的骨骼点在图像中的坐标为(x_i，y_i)，下标i表示第i个部位的关节点；使用D_body来表示人体躯干长度，其中x₁，x₈，x₁₁，y₁，y₈，y₁₁分别表示颈部、左右腰骨骼点的坐标；将融合图像经过3DCNN得到的特征点输入至SVM网络进行分类，类别分为摔倒、攀爬或推搡不安全行为，最后得到最终识别结果。

本发明的目的之二在于，提供了一种电网现场作业一体管控平台装置，包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序，处理器用于执行计算机程序时实现上述的基于红外-可见光图像融合的电网现场作业一体管控方法的步骤。

本发明的目的之三在于，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于红外-可见光图像融合的电网现场作业一体管控方法的步骤。

与现有技术相比，本发明的有益效果：

1.该基于红外-可见光图像融合的电网现场作业一体管控方法中，提供了基于自循环学习融合的模型，通过与公共数据集的对比，验证了融合模块的优势，可以针对实际情况中复杂场景的监控数据提取精准精确的目标，在较为复杂实际场景数据集中，具有很高的识别精度，在相对固定的电力生产场景中，该模型的精度可以达到90％以上，且具有灵活处理场景中的目标的功能；

2.该基于红外-可见光图像融合的电网现场作业一体管控方法中，对数据具有很强的适应性，尤其在标定数据较少的情况下能够获得更好的效果。

附图说明

图1为本发明中示例性的整体方法流程图；

图2为本发明中示例性的基于红外-可见光图像融合的电网现场作业一体管控方法框架示意图；

图3为本发明中示例性的3DCNN结构图；

图4为本发明中示例性的多分辨率卷积神经网络结构图；

图5为本发明中示例性的获取人体的骨骼点的示意图；

图6为本发明中示例性的ReLU函数图；

图7为本发明中示例性的反向传播算法结构图；

图8为本发明中示例性的深度卷积神经网络结构示意图；

图9为本发明实施例2中示例性的试验结果图；

图10为本发明中示例性的电子计算机平台结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

如图1-图5所示，本实施例提供了基于红外-可见光图像融合的电网现场作业一体管控方法，包括如下步骤：

本实施例中，首先应构建一种基于多通道增强自循环学习和不同样本特征融合的目标检测模型，其结构如图2所示。该模型包括基于自循环学习的特征融合(SLFF)、基于多通道的剩余增强体系结构(REAML)和基于不同样本特征的融合(GSFF)、基于红外-可见光图像融合的异常行为识别步骤。针对RFP模型进行修改和完善，缩短信息路径的同时削减冗余特征，具体内容如下：SLFF模块是对FPN输出的多尺度特征图进行特征的再次学习，然后经由REAML降低冗余特征干扰。同时还在网络中添加了特征增强机制，通过不同图片间的目标共享提高模型效率。

本实施例中，针对基于自循环学习的特征融合有：

RFP的理念主要为了使任务能够更好地处理序列的信息，使前后输入产生关联，构成循环。但是，包含反馈连接的特征金字塔的一个矛盾点在于延伸了两次观察和思考机制的范围。

多源红外可见光融合图像数据在输入目标模型检测进行训练时，采用DSFF模块用两个特征抽取低分辨率和超分辨率的图片，并采用注意力通道提取特征，后续输入全局平均池化层和全连接层中。并采用FPN网络进行多通道多尺度特征的提取，后续输入SLFF模块当中自循环学习，SLFF模块通过REAML，弥补原始特征图的空白信息得到特征R_i，然后反馈连接到自上而下的金字塔结构；二次传播后，输出特征定义为：

其中，Fⁿ(X)表示特征融合的过程，n∈[1，...，N]是特征金字塔的循环展开的次数；W由多层次特征数i的权重wⁱ组成；B是一个可学习的常量，经过上式计算得到输出结果Sp。

进一步地，针对基于多通道的残差增强结构有：

冗余特征存在于特征图的背景中，降低了显性特征和隐性特征的比例。背景中含有多种信息含量不同的特征，有的特征会干扰计算。敏感度较小的背景信息同时包含大量干扰信息，迷惑网络让网络无法判断目标。将特征增强但包含更多冗余特征的特征图输入网络，会导致特征金字塔具有更低的敏感度，网络结构会迷惑于该强化谁提取谁。因此本实施例设计的模型，实现信息传播的同时减少冗余特征干扰，

模型公式如下：

该模型保留第一次特征金字塔FPN的输出

n代表模块提取到的第i层特征图，/>

经过空洞卷积尺寸调整的

相较于普通卷积拥有更大的感受野。/>

基于F^t+1学习权重。本实施例操作筛选每层特征的信息，并将筛选后的结果按照特征的贡献程度融合。残差的实现方法如下所示：

x＝Δρ+x

未经REAML处理的网路结构在信息传播的过程中，多尺度特征图之间信息共享的同时，也会导致冗余信息的传播。冗余信息造成的无意义传输，不但污染特征图，而且增加了许多额外计算量。因此，冗余特征不但会影响多尺度特征表示，从而降低迭代特征增强的能力，还会影响信息传播的效率。

进一步地，针对基于多样本的特征融合有：

基于数据增强理念和基本操作，本实施例提出了神经网络内部的简单样本复杂化模型。该模型实现自动化丰富数据集容量，通过增加图片中目标的数量，提升模型的学习和泛化能力。GDFF模型将迭代省略骨干网络的部分，因此，为避免数据增广方式作为独立的预处理方式产生，本实施例提出了GSFF模型，一种融于网络结构中的数据增强模型。GSFF的目的是跨越两张具有一定距离的样本进行简单样本的特征增强，从而提高网络模型的泛化能力。两张图片间存在巨大的信息差异，同一位置特征点的信息并不一定兼容，简单的融合操作很可能破坏检测目标所需要的信息，获得适得其反的结果。因此有：

Gp＝S+F^t

本实施例设计基于自循环学习融合的模型，通过与公共数据集的对比，验证了融合模块的优势。在较为复杂实际场景数据集中，该模型达到了66.2％的精度，超过了当前主流的LibraR-CNN，FasterR-CNN，RefineDet等模型，在相对固定的电力生产场景中，该模型的精度可以达到90％以上。该模型提高了小物体的检测精度，并且更加灵活地处理场景中的目标。

进一步地，针对基于红外-可见光图像融合的异常行为识别有：

步骤1、将图像增强过后的可见光与红外光输入Fusion-GAN网络的生成器中，输出融合图像；将输出的融合图像输入判别器单独调整融合图像信息，得到结果。

其中：将图像增强过后的可见光与红外光输入Fusion-GAN网络的生成器中，输出融合图像。之后将输出的融合图像输入判别器单独调整融合图像信息，得到结果。

设置生成器的损失函数为：

其中，H和W分别代表输入的图像的高度和宽度，

代表矩阵范数，/>

表示梯度算子，ξ为控制两个项之间的权衡的正参数。

设置判别器的损失函数如下：

其中，a和b分别表示融合图像I_v和可见光图像I_f的标签，D_θD(I_v)和D_θD(I_f)为两个图像的分类结果。

在生成器和判别器的对抗学习过程当中，不断地对融合图像进行优化，损失函数达到平衡后，保留效果最佳的图像。

步骤2、将融合后的图像采用labelimg标注软件进行标注，标注类别为安全帽、未佩戴安全帽、反光衣、未穿反光衣等，并保存为xml格式，后将xml格式的类别坐标信息进行归一化处理，形成txt文件保存类别的坐标信息；后续将txt与融合图像输入进yolov5网络，将融合后的图像进行HLV颜色变换，采用Mosaic数据增强对图像进行拼接，作为训练样本，并提出了一种改进的特征金字塔模型，命名为AF-FPN，它是利用自适应注意力模块(AAM)和特征增强模块(FEM)来减少特征图生成过程中的信息丢失并增强表示能力的特征金字塔，保证实时检测的前提下提高了YOLOv5网络对多尺度目标的检测性能，构建目标检测模型。设置学习率为0.001，批尺寸大小为16，采用梯度下降法对损失函数进行优化。采用准确率、召回率、F1分数对模型进行评价，其根据自己标定的类别和通过算法检测出的类别进行计算，其分为以下4类：真正例(TruePositive，TP)、假正例(FalsePositive，FP)、真反例(TrueNegative，TN)、假反例(FalseNegative，FN)。

则准确率、召回率和F1-score公式如下：

其中，P和R分别为计算得出的准确率Presicion和召回率Recall；

最后对训练出来的模型进行测试，将融合图像信息对应的特征向量输入目标检测模型当中，得到最终识别结果。

步骤3、在Fusion-GAN网络融合完红外和可见光图像后，将红外可见光融合视频流输入至3D神经网络，3DCNN是传统CNN拓展到具有时间信息的3DCNN如图3所示，在视频数据的时间维度和空间维度上进行特征计算；

其中：卷积神经网络的第一层是硬编码的卷积核，包括灰度数据，z、y方向的梯度，z、y向的光流，还包括3个卷积层，2个下采样层和1个全连接层；其结构图如图4所示。最后将得到的特征使用SVM进行动作的识别。他们提出只使用人体姿势的关节点部分的相关数据进行深度卷积网络进行特征提取，最后使用统计的方法将整个视频转换为一个特征向量，使用SVM进行最终分类模型的训练和识别。

在定长时间的视频块内使用3DCNN，使用多分辨率的卷积神经网络对视频特征进行提取；

输入视频被分作两组独立的数据流：低分辨率的数据流和原始分辨率的数据流，两个数据流都交替地包含卷积层、正则层和抽取层，同时这两个数据流最后合并成两个全连接层用于后续的特征识别，结构图如图4所示。

同样使用两个数据流的卷积神经网络来进行视频行为识别。他们将视频分成静态帧数据流和帧间动态数据流。静态帧数据流可使用单帧数据，帧间动态的数据流使用光流数据，每个数据流都使用深度卷积神经网络进行特征提取；

利用3D卷积神经网络对人体关节点相关数据进行特征提取，根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为；

设计3DCNN由8个卷积层，5个池化层和2个全连接层组成，其中包括softmax函数，网络的输入尺寸为3×16×112×112，设置卷积核的大小为3×3×3，步长为1×1×1对输入的融合视频流进行卷积计算，计算完成后对特征图像进行池化，池化核的大小为2×2×2，步长为2×2×2，共由4098个输出。设置训练的学习率为0.001，训练次数为100个批次，并在损失函数最小的时候停止训练，得到最佳模型。

使用3DCNN网络结构对融合视频中人体进行姿态估计，获取人体的骨骼点。如图5所示，通过3DCNN网络结构实时的输出人体眼睛、手臂、膝盖等18个关键的骨骼点。

分别记18个部位的骨骼点在图像中的坐标为(x_i，y_i)，下标i表示第i个部位的关节点；使用D_body来表示人体躯干长度，其中x₁，x₈，x₁₁，y₁，y₈，y₁₁分别表示颈部、左右腰骨骼点的坐标。将融合图像经过3DCNN得到的特征点输入至SVM网络进行分类，类别分为摔倒、攀爬、推搡等不安全行为，最后得到最终识别结果。

实施例2

如图6-图9所示，本实施例在实施例1的基础上，还包括：

将图像特征点提取出来后，经过深度卷积神经网络的算法与训练反复进行特征增强，本实施例在对模型训练之前，使用Python爬虫技术获取10类共993张图片，分为200张图片的测试集和793张图片的训练集。卷积神经网络对于图像本身来说可以直接输入而不用复杂的预处理操作，由于硬件条件限制，本实施例只是对图像进行了分辨率的统一，变换成了256×256，然后将10类中各个类随机抽取20张放入测试集，剩余图片放入训练集，之后使用caffe提供的均值计算文件，将图片减去均值再进行训练，通过计算可以减少图片数据之间的相似性，从而大大提高训练的精度以及速度。

在卷积神经层中，卷积核的大小影响着图像特征的抽象效果。一般来说，卷积核越大，效果越好，但是训练参数多卷积核则越小，训练参数少处理效果更精细，这需要更多的层数达到相同的效果。在本实施例的结构中，第一个卷积层使用了11×11的卷积核，卷积核较大，虽然能够达到比较好的抽象效果，但是处理得比较粗糙，所以在Conv后加入Norm归一化层，提升主体与其他部分的区分度。

通常情况下，卷积层和ReLU层是成对出现的。规范的ReLU激活函数的表达式为：y＝{0，max(x)}，当输入x>0时，输出为x本身；如果输入小于或等于0，则输出0。在卷积神经网络中，一般情况下，习惯于用ReLU激励函数替代之前的tanh、sigmoid等激活函数，如图6所示，在x>0时，ReLU函数的导数是恒定的，而tanh和sigmoid函数不是恒定的，所以ReLU函数避免了tanh和sigmoid函数在两端接近目标时，导数变小，导致在训练神经网络时，BP反向传播误差而导致收敛减慢，如图7。ReLU的优点是收敛快，求梯度简单，并且训练后具有稀疏性，可减少数据冗余，增强特区特征的表达能力。

池化层也叫空间下采样层，在卷积神经网络中，池化层-般是在卷积层之后，在图像卷积之后使用pooling将小邻域内特征点整合之后得到新的特征。通常卷积和池化是以Conv-Pool的形式存在，减少卷积之后造成的信息冗余。pool层也叫降采样层，一方面是能够达到降维的目的，降低上一个卷积层输出的特征向量的维度。另一方面是能够减少过拟合。

本实施例采用max-pooling降低图像的噪声，减少图像的卷积输出结果对于输入的误差过于敏感的这种过拟合现象。

本实施例所采取的max-pooling算法，首先对于图像来说，这个操作可以保证特征的位置和旋转不变性，这是一种很好的特性，因为不论这个卷积之后得到的有效特征在哪个位置出现，都不用考虑其出现位置而能把它提取出来。另外，本实施例中max-pooling大大减少了模型的参数数量，而对于pool层之后的norm层来说，神经元的个数大大减少。

本实施例中，针对基于深度卷积神经网络的算法与训练有：

如图8所示，本实施例中深度卷积层神经网络包含5个卷积层(conv)，3个池化层(pool)，2个LRN层(norm)，2个随机采样层(drop)，3个全连接层(fc)和1个softmax分类回归层。

卷积层参数分别是：conv1、conv2、conv3、conv4、conv5的blob类型分别为[1，96，55，55]、[1，256，27，27]、[1，384，13，13]、[1，384，13，13]和[1，256，13，13]，步长分别为4、2、1、1、1。pool层参数为：pool1：[1，96，27，27]，pool2：[1，256，13，13]，pool5：[1，256，6，6]。其中，卷积的计算公式为：

式中，M_j为输入特征图集合，

为当前第1层的第j个输出，/>

为卷积核，分别对输入特征图/>

进行卷积，/>

为偏置，ReLU表示激活函数。卷积层的输出维数的计算公式为：N₂＝(N₁-F₁+2P)/S+1

式中，输入图片的大小为N₁×N₁，卷积核的大小为F₁×F₁，步长为S，P表示padding的像素数，即拓展宽度；输出的图片大小为N₂×N₂。pool池化层的输出维数计算公式如下：

N₃＝(N₁-F₂)/S+1

式中，池化pool层的核大小为F₂。

本实施例使用anaconda科学计算环境，其中可视化工具是anaconda自带的jupyternotebook工具，使用其来图形化模型中的一些参数在整个过程中的变化趋势。如图9所示，横坐标为迭代次数，纵坐标为损失值和准确率。

本实施例根据自己的数据集设定了具体的网络参数，图9为迭代1000次，每50次迭代就在测试集上测试一次训练学习的网络，输出损失值和准确率。对于每200次迭代，取一次当前状态的快照。经过多次修改Batch-Size的值后进行多次训练，在Batch-Size设置为50时达到最终收敛精度上的最优，该模型对图像的平均识别率最高，达到92.50％。

经过分析得出，Batch-Size过小会引起识别率震荡过大。调整Batch-Size的值能够改善识别准确率的原因在于，在数据集较小的情况下，适当增大Batch_Size，其确定的下降方向就越准，可以降低训练震荡，提高CPU利用率，提升大矩阵乘法计算效率。由于最终收敛精度会陷入不同的局部极值，因此Batch_Size增大到某个值时，达到最终收敛精度上的最优。

此外，本方案基于“可见光+红外光+算法+算力”为一体的红外-可见光多源图像融合远程安全管控方法备，选取至少2个复杂背景和低光照作业场景对算法、模型的准确率、可靠性进行验证测试，通过人工智能边缘计算设备(如寒武纪MLU270、英伟达Xavier)，将融合、识别算法嵌入前端红外-可见光多源图像融合远程安全管控方法，直接在前端设备中完成红外-可见光融合、异常行为识别等核心任务，实现作业现场对异常行为的实时声音警告，同时可以将相关组件、模型上架南网人工智能平台，通过红外-可见光多源图像融合远程安全管控移动应用对相关人员进行提示和行为记录，利用红外-可见光多源图像融合的电力现场作业远方安全管控系统对检测结果进行存档，以便今后对数据进行分析和统计，使得我们的数据具备为相关应用(作业视频监控系统)提供服务的能力。针对低照度条件下目标人员的行为辨识问题，将红外和可见光图像融合与行为识别结合，根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。针对低照度条件下目标人员的行为辨识问题，将红外和可见光图像融合与行为识别结合，利用3D卷积神经网络对人体关节点相关数据进行特征提取，根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为，形成违章行为的人体动作特征模型库，模型库建立后现场施工视频中和模型库匹配的动作即为违章动作。本项目基于红外-可见光图像融合，在低照度下，我们拟实现以下违章行为检测：攀爬检测、识别人员、区域入侵检测、安全带检测、绝缘子检测、安全帽检测等。识别查准率(精度)目标值≥95％，查全率目标值(召回率)≥90％，速度(FPS)目标值30。由于深度网络可以无监督地从数据中学习到特征，而这种学习方式也符合人类感知世界的机理，因此当训练样本足够多的时候通过深度网络学习到的特征往往具有一定的语义特征，并且更适合目标和行为的识别。本发明对数据具有很强的适应性，尤其在标定数据较少的情况下能够获得更好的效果。卷积神经网络在图像识别方面获得了优异成果。

如图10所示，本实施例还提供了一种电网现场作业一体管控平台装置，该装置包括处理器、存储器以及存储在存储器中并在处理器上运行的计算机程序。

处理器包括一个或一个以上处理核心，处理器通过总线与存储器相连，存储器用于存储程序指令，处理器执行存储器中的程序指令时实现上述的基于红外-可见光图像融合的电网现场作业一体管控方法的步骤。

可选的，存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随时存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

此外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述的基于红外-可见光图像融合的电网现场作业一体管控方法的步骤。

可选的，本发明还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面基于红外-可见光图像融合的电网现场作业一体管控方法的步骤。

本领域普通技术人员可以理解，实现上述实施例的全部或部分步骤的过程可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，程序可以存储于计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的仅为本发明的优选例，并不用来限制本发明，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S1中，特征融合步骤包括，在红外-可见光多源图像在进行融合的过程当中，将需要校正因图像传感器之间的物理距离造成的图像之间的差异；

其中，标定的过程包括：

(2)分别对两个相机坐标系进行旋转得到新的相机坐标系；

(3)针对新的相机坐标分别进行左、右相机的去畸变操作；

3.根据权利要求2所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S1中，特征融合步骤，针对RFP模型进行修改和完善，还包括：通过REAML，弥补空白信息得到特征R_i，然后反馈连接到自上而下的金字塔结构，二次传播后，输出特征定义一个迭代操作：

4.根据权利要求1所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S2中，基于多通道的剩余增强步骤，对再次学习的特征图像降低冗余特征干扰，包括使用模型公式：

该模型保留第一次特征金字塔FPN的输出

n代表模块提取到的第i层特征图，/>

5.根据权利要求4所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S2中，基于多通道的剩余增强体系模块，操作筛选每层特征的信息，并将筛选后的结果按照特征的贡献程度融合，残差的实现方法包括：

x＝Δρ+x

6.根据权利要求5所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S2中，基于多通道的剩余增强体系模块，还包括：将图像特征点提取出来后，经过深度卷积神经网络的算法与训练反复进行特征增强，使需要的目标差异特征最大化，提升识别准确度，并在卷积层之后，加入Norm归一化层，以提升主体与其他部分的区分度；

其中，所述深度卷积层神经网络包含5个卷积层，3个池化层，2个LRN层，2个随机采样层，3个全连接层和1个softmax分类回归层；卷积层和池化层交替出现，池化层为max-pooling；

卷积的计算公式为：

式中，M_j为输入特征图集合，

为当前第1层的第j个输出，/>

为卷积核，分别对输入特征图/>

进行卷积，/>

为偏置，ReLU表示激活函数；

卷积层的输出维数的计算公式为：

N₂＝(N₁-F₁+2P)/S+1

pool池化层的输出维数计算公式如下：

N₃＝(N₁-F₂)/S+1

式中，池化pool层的核大小为F₂。

7.根据权利要求1所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S3中，基于不同样本特征的特征融合步骤，包括：

Gp＝S+F^t

8.根据权利要求1所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S4中，基于红外-可见光图像融合的异常行为识别步骤，能将图像增强过后的可见光与红外光输入Fusion-GAN网络的生成器中，更改生成器与判别器的卷积为深度可分离卷积，采用mobilenet-v3架构进行处理，输出融合图像；将输出的融合图像输入判别器单独调整融合图像信息，得到结果；在生成器和判别器的对抗学习过程当中，不断地对融合图像进行优化，损失函数达到平衡后，保留效果最佳的图像；

对融合后的图像进行目标分类并标注，根据类别坐标信息进行归一化处理，与融合图像输入进yolov5网络，将融合后的图像进行HLV颜色变换，采用Mosaic数据增强对图像进行拼接，作为训练样本，构建目标检测模型，将融合图像信息对应的特征向量输入目标检测模型当中，得到识别结果；

9.根据权利要求8所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述生成器所设置的损失函数为：

其中，H和W分别代表输入的图像的高度和宽度，

代表矩阵范数，/>

表示梯度算子，ξ为控制两个项之间的权衡的正参数；

所述判别器所设置的损失函数如下：

准确率、召回率和F1-score公式分别如下：

其中，P和R分别为计算得出的准确率Presicion和召回率Recall；

10.根据权利要求9所述的基于红外-可见光图像融合的电网现场作业一体管控方法，其特征在于，所述步骤S4中，红外-可见光图像融合的异常行为识别步骤，在视频数据的时间维度和空间维度上进行特征计算；其中：卷积神经网络的第一层是硬编码的卷积核，包括灰度数据，z、y方向的梯度，z、y向的光流，还包括3个卷积层，2个下采样层和1个全连接层；