CN116343329A - 一种红外-可见光多源图像融合一体管控系统和设备 - Google Patents

一种红外-可见光多源图像融合一体管控系统和设备 Download PDF

Info

Publication number
CN116343329A
CN116343329A CN202310211093.1A CN202310211093A CN116343329A CN 116343329 A CN116343329 A CN 116343329A CN 202310211093 A CN202310211093 A CN 202310211093A CN 116343329 A CN116343329 A CN 116343329A
Authority
CN
China
Prior art keywords
fusion
feature
image
infrared
visible light
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310211093.1A
Other languages
English (en)
Inventor
常荣
张丙珍
李松霖
郑博文
吕金生
周帅
游绍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Original Assignee
Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd filed Critical Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority to CN202310211093.1A priority Critical patent/CN116343329A/zh
Publication of CN116343329A publication Critical patent/CN116343329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及电网监控的图像处理技术领域,具体地说,涉及一种红外‑可见光多源图像融合一体管控系统和设备。包括:基于自循环学习的特征融合模块;基于多通道的剩余增强体系模块;基于不同样本特征的融合模块,能针对RFP模型进行修改和完善,缩短信息路径的同时削减冗余特征,使用迭代机制实现特征融合模型;基于红外‑可见光图像融合的异常行为识别模块。本发明设计提供了基于自循环学习融合的模型,通过与公共数据集的对比,验证了融合模块的优势,在较为复杂实际场景数据集中具有很高的识别精度,且具有灵活处理场景中的目标的功能,并且能实现异常行为的精准识别;其对数据具有很强的适应性,在标定数据较少的情况下能够获得更好的效果。

Description

一种红外-可见光多源图像融合一体管控系统和设备
技术领域
本发明涉及电网监控的图像处理技术领域,具体地说,涉及一种红外可见光多源图像融合一体管控系统和设备。
背景技术
在电力作业工作场景中,神经网络仍不能很好地检测出特定的工作人员、安全帽、安全带、使用的工作设备等复杂场景中有背景干扰的目标。
特征融合在这些方面取得了显著的突破。特征融合是提高分割性能的一个重要手段,可以解决主干网络提取出的多尺度特征融合问题,得到包含不同尺度和空间位置的信息。特征融合通过结合不同层的检测结果改进检测性能。由于信息在神经网络中的传播具有重要的意义,特征融合可以实现骨干网络提取的多层次特征之间的信息传递。
但是目前的行业中,很多算力系统都是设置在终端,实时性和及时性需要通过网络通信才能完成,造成了实用性差、及时性不够稳定可靠的问题。但是想要在前端实现算法算力的功能,还存在硬软件方面的缺陷,然而,现有技术中未见这种技术的相关报道。鉴于此,我们提出了一种红外可见光多源图像融合一体管控系统和设备。
发明内容
本发明的目的在于提供一种红外可见光多源图像融合一体管控系统和设备,以解决上述背景技术中提出的问题。
为实现上述技术问题的解决,本发明的目的之一在于,提供了一种红外可见光多源图像融合一体管控系统,包括:
基于自循环学习的特征融合模块(SLFF),用于对特征金字塔FPN输出的多尺度特征图像进行特征的再次学习;
基于多通道的剩余增强体系模块(REAML),用于对再次学习的特征图像降低冗余特征干扰;
基于不同样本特征的融合模块(GSFF),用于在网络中添加特征增强机制,通过不同图片间的目标共享提高模型效率;能针对RFP模型进行修改和完善,缩短信息路径的同时削减冗余特征,使用迭代机制实现特征融合模型;
基于红外可见光图像融合的异常行为识别模块,用于将输出的融合图像进行目标分类并标注,根据类别坐标信息进行归一化处理构建目标检测模型,将融合图像信息对应的特征向量输入目标检测模型当中,得到识别结果,能在视频数据的时间维度和空间维度上进行特征计算,利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。
作为本技术方案的进一步改进,所述特征融合模块(SLFF)能在红外可见光多源图像进行融合的过程当中,校正因图像传感器之间的物理距离造成的图像之间的差异;
能对红外和可见光图像分别消除畸变,根据摄像头定标后获得的单目内参数据和两个相机相对位置关系,分别对左右视图进行消除畸变和行对准;通过平行校正的方法对两个相机进行标定,完成对两个图像之间物理差异的一个校正;
其中,标定的过程包括:
(1)分别将两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系:
(2)分别对两个相机坐标系进行旋转得到新的相机坐标系;
(3)针对新的相机坐标分别进行左、右相机的去畸变操作;
(4)去畸变操作结束后,分别用左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系;
(5)并分别用左、右源图像的像素值对新左、右图像的像素点进行插值。
作为本技术方案的进一步改进,所述特征融合模块(SLFF)能针对RFP模型进行修改和完善,还包括:通过REAML,弥补空白信息得到特征Ri,然后反馈连接到自上而下的金字塔结构,二次传播后,输出特征定义一个迭代操作:
Figure BDA0004112715500000021
其中,Fn(x)表示特征融合的过程,n∈[1,…,N]是特征金字塔的循环展开的次数;W由多层次特征数i的权重wi组成;B是一个可学习的常量,经过上式计算得到输出结果Sp。
作为本技术方案的进一步改进,所述基于多通道的剩余增强体系模块(REAML),对再次学习的特征图像降低冗余特征干扰,包括使用模型公式:
Figure BDA0004112715500000031
该模型保留第一次特征金字塔FPN的输出
Figure BDA0004112715500000032
n代表模块提取到的第i层特征图,/>
Figure BDA0004112715500000033
包含可以与Ft+1互补的信息;Dconv是一个包含两个空隙的3×3空洞卷积;R表示REAML的计算过程。
作为本技术方案的进一步改进,所述基于多通道的剩余增强体系模块,操作筛选每层特征的信息,并将筛选后的结果按照特征的贡献程度融合,残差的实现方法包括:
x=Δρ+x
Figure BDA0004112715500000034
Figure BDA0004112715500000035
其中,Δp作为模型中的残差结构;n∈[1,…,n],p(i)代表特征图的第i通道,w(i)和b(i)分别代表该通道的权重和自学习常量。
作为本技术方案的进一步改进,所述基于不同样本特征的融合模块(GSFF),包括:
Gp=S+Ft
Figure BDA0004112715500000036
Figure BDA0004112715500000041
其中,S表示被采样的样本;i∈[1,…,n]表示t批次的特征图数量;d∈[1,…,D]表示该样本特征的通道数;Gp为具有复杂样本特征的输出。
作为本技术方案的进一步改进,所述基于红外可见光图像融合的异常行为识别模块,能将图像增强过后的可见光与红外光输入改进Fusion-GAN网络的生成器中,更改生成器与判别器的卷积为深度可分离卷积,采用mobilenet-v3架构进行处理,减少计算量,输出融合图像;将输出的融合图像输入判别器单独调整融合图像信息,得到结果;在生成器和判别器的对抗学习过程当中,不断地对融合图像进行优化,损失函数达到平衡后,保留效果最佳的图像;
能对融合后的图像进行目标分类并标注,根据类别坐标信息进行归一化处理,与融合图像输入进yolov5s网络,将融合后的图像进行HLV颜色变换,采用Mosaic数据增强对图像进行拼接,作为训练样本,并提出了一种改进的特征金字塔模型,命名为AF-FPN,它是利用自适应注意力模块(AAM)和特征增强模块(FEM)来减少特征图生成过程中的信息丢失并增强表示能力的特征金字塔,保证实时检测的前提下提高了YOL0v5网络对多尺度目标的检测性能,构建目标检测模型,将融合图像信息对应的特征向量输入目标检测模型当中,得到识别结果;
能在Fusion-GAN网络融合完红外和可见光图像后,将红外可见光融合视频流输入至3D神经网络,在视频数据的时间维度和空间维度上进行特征计算;
输入视频被分作两组独立的数据流:低分辨率的数据流和原始分辨率的数据流,两个数据流都交替的包含卷积层、正则层和抽取层,同时这两个数据流最后合并成两个全连接层用于后续的特征识别;
利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。
作为本技术方案的进一步改进,所述生成器所设置的损失函数为:
Figure BDA0004112715500000051
其中,H和W分别代表输入的图像的高度和宽度,
Figure BDA0004112715500000052
代表矩阵范数,/>
Figure BDA0004112715500000053
表示梯度算子,ξ为控制两个项之间的权衡的正参数;
所述判别器所设置的损失函数如下:
Figure BDA0004112715500000054
其中,a和b分别表示融合图像Iv和可见光图像If的标签,
Figure BDA0004112715500000055
和/>
Figure BDA0004112715500000056
为两个图像的分类结果;
所述目标分类包括安全帽、未佩戴安全帽、反光衣、未穿反光衣;
能将融合后的图像进行HLV颜色变换,采用Mosaic数据增强对图像进行拼接,作为训练样本;设置学习率为0.001,批尺寸大小为16,采用梯度下降法对损失函数进行优化;采用准确率、召回率、F1分数对模型进行评价,其根据自己标定的类别和通过算法检测出的类别进行计算,其分为:真正例TP(TruePositiv)、假正例FP(FalsePositive)、真反例TN(TrueNegative)、假反例FN(FalseNegative);
准确率、召回率和Fl-score公式分别如下:
Figure BDA0004112715500000057
Figure BDA0004112715500000058
Figure BDA0004112715500000059
其中,P和R分别为计算得出的准确率Presicion和召回率Recall;
对训练出来的模型进行测试,将融合图像信息对应的特征向量输入目标检测模型当中,得到最终识别结果。
作为本技术方案的进一步改进,所述红外可见光图像融合的异常行为识别模块,能在视频数据的时间维度和空间维度上进行特征计算;其中:卷积神经网络的第一层是硬编码的卷积核,包括灰度数据,z、y方向的梯度,z、y向的光流,还包括3个卷积层,2个下采样层和1个全连接层;
能在定长时间的视频块内使用3DCNN,使用多分辨率的卷积神经网络对视频特征进行提取;静态帧数据流使用单帧数据,帧间动态的数据流使用光流数据,每个数据里都使用深度卷积神经网络进行特征提取;
能使用3DCNN网络结构对融合视频中人体进行姿态估计,获取人体的骨骼点;通过3DCNN网络结构实时的输出人体数个关键的骨骼点;分别记该数个部位的骨骼点在图像中的坐标为(xi,yi),下标i表示第i个部位的关节点;使用Dbody来表示人体躯干长度,其中x1,x8,x11,y1,y8,y11分别表示颈部、左右腰骨骼点的坐标;将融合图像经过3DCNN得到的特征点输入至SVM网络进行分类,类别分为摔倒、攀爬或推搡不安全行为,最后得到最终识别结果。
本发明的目的之二在于,提供了一种红外可见光多源图像融合一体管控设备,包括安装有上述的红外可见光多源图像融合一体管控系统的前端设备,能直接在所述前端设备中完成红外可见光融合、异常行为识别的核心任务,实现作业现场对异常行为的实时声音警告;同时将相关数据信息上传电网管理平台,通过红外可见光多源图像融合远程安全管控移动应用对相关人员进行提示和行为记录,并对检测结果进行存档;
所述前端设备的硬件模块包括:安全管控设备,所述安全管控设备里内嵌有一个红外热成像镜头、一个23倍变焦特写镜头和一个广角镜头;所述安全管控设备下方设有云台,所述云台满足水平方向360°连续旋转和垂直方向不少于30°~90°范围旋转。
与现有技术相比,本发明的有益效果:
1.该红外可见光多源图像融合一体管控系统和设备提供了基于自循环学习融合的模型,通过与公共数据集的对比,验证了融合模块的优势,在较为复杂实际场景数据集中,具有很高的识别精度,在相对固定的电力生产场景中,该模型的精度可以达到90%以上,且具有灵活处理场景中的目标的功能,并且能实现异常行为的精准识别;
2.该红外可见光多源图像融合一体管控系统和设备对数据具有很强的适应性,尤其在标定数据较少的情况下能够获得更好的效果。
附图说明
图1为本发明中示例性的红外可见光多源图像融合一体管控系统的结构示意图;
图2为本发明中示例性的3DCNN结构图;
图3为本发明中示例性的多分辨率卷积神经网络结构图;
图4为本发明中示例性的获取人体的骨骼点的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1-图4所示,本实施例提供了一种红外可见光多源图像融合一体管控系统,其实质为一种基于多通道增强自循环学习和不同样本特征融合的目标检测模型,其结构如图1所示;包括:
其一,基于自循环学习的特征融合模块(SLFF),用于对特征金字塔FPN输出的多尺度特征图像进行特征的再次学习;
其中,特征融合模块(SLFF)能在红外可见光多源图像进行融合的过程当中,校正因图像传感器之间的物理距离造成的图像之间的差异;
能对红外和可见光图像分别消除畸变,根据摄像头定标后获得的单目内参数据和两个相机相对位置关系,分别对左右视图进行消除畸变和行对准;通过平行校正的方法对两个相机进行标定,完成对两个图像之间物理差异的一个校正;
其中,标定的过程包括:
(1)分别将两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系:
(2)分别对两个相机坐标系进行旋转得到新的相机坐标系;
(3)针对新的相机坐标分别进行左、右相机的去畸变操作;
(4)去畸变操作结束后,分别用左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系;
(5)并分别用左、右源图像的像素值对新左、右图像的像素点进行插值。
具体地,基于自循环学习的特征融合有:
RFP的理念主要为了使任务能够更好地处理序列的信息,使前后输入产生关联,构成循环。但是,包含反馈连接的特征金字塔的一个矛盾点在于延伸了两次观察和思考机制的范围。
多源红外可见光融合图像数据在输入目标模型检测进行训练时,采用DSFF模块用两个特征抽取低分辨率和超分辨率的图片,并采用注意力通道提取特征,后续输入全局平均池化层和全连接层中。并采用FPN网络进行多通道多尺度特征的提取,后续输入SLFF模块当中自循环学习,SLFF模块通过REAML,弥补空白信息得到特征Ri,然后反馈连接到自上而下的金字塔结构,二次传播后,输出特征定义一个迭代操作:
Figure BDA0004112715500000081
其中,Fn(X)表示特征融合的过程,n∈[1…,N]是特征金字塔的循环展开的次数;W由多层次特征数i的权重wi组成;B是一个可学习的常量,经过上式计算得到输出结果Sp。
其二,基于多通道的剩余增强体系模块(REAML),用于对再次学习的特征图像降低冗余特征干扰;
具体地,基于多通道的剩余增强体系模块(REAML)中,还包括基于多通道的残差增强结构:
冗余特征存在于特征图的背景中,降低了显性特征和隐性特征的比例。背景中含有多种信息含量不同的特征,有的特征会干扰计算。敏感度较小的背景信息同时包含大量干扰信息,迷惑网络让网络无法判断目标。将特征增强但包含更多冗余特征的特征图输入网络,会导致特征金字塔具有更低的敏感度,网络结构会迷惑于该强化谁提取谁。因此本实施例设计的模型,实现信息传播的同时减少冗余特征干扰;模型公式如下:
Figure BDA0004112715500000091
该模型保留第一次特征金字塔FPN的输出
Figure BDA0004112715500000092
n代表模块提取到的第i层特征图,/>
Figure BDA0004112715500000093
包含可以与Ft+1互补的信息;Dconv是一个包含两个空隙的3×3空洞卷积;R表示REAML的计算过程。
经过空洞卷积尺寸调整的
Figure BDA0004112715500000094
相较于普通卷积拥有更大的感受野。/>
Figure BDA0004112715500000095
基于Ft+1学习权重。本实施例操作筛选每层特征的信息,并将筛选后的结果按照特征的贡献程度融合。残差的实现方法如下所示:
x=Δp+x
Figure BDA0004112715500000096
Figure BDA0004112715500000097
其中,Δp作为模型中的残差结构;n∈[1,…,n],p(i)代表特征图的第i通道,w(i)和b(i)分别代表该通道的权重和自学习常量。
未经REAML处理的网路结构在信息传播的过程中,多尺度特征图之间信息共享的同时,也会导致冗余信息的传播。冗余信息造成的无意义传输,不但污染特征图,而且增加了许多额外计算量。因此,冗余特征不但会影响多尺度特征表示,从而降低迭代特征增强的能力,还会影响信息传播的效率。
其三,基于不同样本特征的融合模块(GSFF),用于在网络中添加特征增强机制,通过不同图片间的目标共享提高模型效率;能针对RFP模型进行修改和完善,缩短信息路径的同时削减冗余特征,使用迭代机制实现特征融合模型;
其中,针对RFP模型进行修改和完善,缩短信息路径的同时削减冗余特征,具体内容如下:SLFF模块是对FPN输出的多尺度特征图进行特征的再次学习,然后经由REAML降低冗余特征干扰;同时还在网络中添加了特征增强机制,通过不同图片间的目标共享提高模型效率。
具体地,基于多样本的特征融合有:
基于数据增强理念和基本操作,本实施例提出了神经网络内部的简单样本复杂化模型。该模型实现自动化丰富数据集容量,通过增加图片中目标的数量,提升模型的学习和泛化能力。GDFF模型将迭代省略骨干网络的部分,因此,为避免数据增广方式作为独立的预处理方式产生,本实施例提出了GSFF模型,一种融于网络结构中的数据增强模型。GSFF的目的是跨越两张具有一定距离的样本进行简单样本的特征增强,从而提高网络模型的泛化能力。两张图片间存在巨大的信息差异,同一位置特征点的信息并不一定兼容,简单的融合操作很可能破坏检测目标所需要的信息,获得适得其反的结果。因此,有:
Gp=S+Ft
Figure BDA0004112715500000101
Figure BDA0004112715500000102
其中,S表示被采样的样本;i∈[1,…,n]表示t批次的特征图数量;d∈[1,…,D]表示该样本特征的通道数;Gp为具有复杂样本特征的输出。
本实施例设计基于自循环学习融合的模型,通过与公共数据集的对比,验证了融合模块的优势。在较为复杂实际场景数据集中,该模型达到了66.2%的精度,超过了当前主流的LibraR-CNN,FasterR-CNN,RefineDet等模型,在相对固定的电力生产场景中,该模型的精度可以达到90%以上。该模型提高了小物体的检测精度,并且更加灵活地处理场景中的目标。
其四,基于红外可见光图像融合的异常行为识别模块,用于将输出的融合图像进行目标分类并标注,根据类别坐标信息进行归一化处理构建目标检测模型,将融合图像信息对应的特征向量输入目标检测模型当中,得到识别结果,能在视频数据的时间维度和空间维度上进行特征计算,利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。
具体地,基于红外可见光图像融合的异常行为识别模块有:
将图像增强过后的可见光与红外光输入Fusion-GAN网络的生成器中,更改生成器与判别器的卷积为深度可分离卷积,采用mobilenet-v3架构进行处理,减少计算量,输出融合图像;将输出的融合图像输入判别器单独调整融合图像信息,得到结果;
对融合后的图像进行目标分类并标注,根据类别坐标信息进行归一化处理,与融合图像输入进yolov5网络,将融合后的图像进行HLV颜色变换,采用Mosaic数据增强对图像进行拼接,作为训练样本,构建目标检测模型,将融合图像信息对应的特征向量输入目标检测模型当中,得到识别结果;
在Fusion-GAN网络融合完红外和可见光图像后,将红外可见光融合视频流输入至3D神经网络,在视频数据的时间维度和空间维度上进行特征计算;
输入视频被分作两组独立的数据流:低分辨率的数据流和原始分辨率的数据流,两个数据流都交替的包含卷积层、正则层和抽取层,同时这两个数据流最后合并成两个全连接层用于后续的特征识别;
利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。
其中,设置生成器的损失函数为:
Figure BDA0004112715500000121
其中,H和W分别代表输入的图像的高度和宽度,
Figure BDA0004112715500000122
代表矩阵范数,/>
Figure BDA0004112715500000123
表示梯度算子,ξ为控制两个项之间的权衡的正参数;
设置判别器的损失函数如下:
Figure BDA0004112715500000124
其中,a和b分别表示融合图像Iv和可见光图像If的标签,
Figure BDA0004112715500000125
和/>
Figure BDA0004112715500000126
为两个图像的分类结果。
在生成器和判别器的对抗学习过程当中,不断地对融合图像进行优化,损失函数达到平衡后,保留效果最佳的图像。
进一步地,将融合后的图像采用labelimg标注软件进行标注,标注类别为安全帽、未佩戴安全帽、反光衣、未穿反光衣等,并保存为xml格式,后将xml格式的类别坐标信息进行归一化处理,形成txt文件保存类别的坐标信息;后续将txt与融合图像输入进yolov5网络,将融合后的图像进行HLV颜色变换,采用Mosaic数据增强对图像进行拼接,并提出了一种改进的特征金字塔模型,命名为AF-FPN,它是利用自适应注意力模块(AAM)和特征增强模块(FEM)来减少特征图生成过程中的信息丢失并增强表示能力的特征金字塔,保证实时检测的前提下提高了YOL0v5网络对多尺度目标的检测性能,构建目标检测模型,作为训练样本。设置学习率为0.001,批尺寸大小为16,采用梯度下降法对损失函数进行优化。采用准确率、召回率、F1分数对模型进行评价,其根据自己标定的类别和通过算法检测出的类别进行计算,其分为以下4类:真正例TP(TruePositiv)、假正例FP(FalsePositive)、真反例TN(TrueNegative)、假反例FN(FalseNegative);
准确率、召回率和F1-score公式分别如下:
Figure BDA0004112715500000131
Figure BDA0004112715500000132
Figure BDA0004112715500000133
其中,P和R分别为计算得出的准确率Presicion和召回率Recall;
对训练出来的模型进行测试,将融合图像信息对应的特征向量输入目标检测模型当中,得到最终识别结果。
进一步地,在改进Fusion-GAN网络融合完红外和可见光图像后,将红外可见光融合视频流输入至3D神经网络,3DCNN是传统CNN拓展到具有时间信息的3DCNN如图2所示,在视频数据的时间维度和空间维度上进行特征计算;
其中:卷积神经网络的第一层是硬编码的卷积核,包括灰度数据,z、y方向的梯度,z、y向的光流,还包括3个卷积层,2个下采样层和1个全连接层;其结构如图3所示。在定长时间的视频块内使用3DCNN。使用多分辨率的卷积神经网络对视频特征进行提取。输入视频被分作两组独立的数据流:低分辨率的数据流和原始分辨率的数据流。这两个数据流都交替的包含卷积层、正则层和抽取层,同时这两个数据流最后合并成两个全连接层用于后续的特征识别,结构图如图3所示。同样使用两个数据流的卷积神经网络来进行视频行为识别。他们将视频分成静态帧数据流和帧间动态数据流。静态帧数据流可使用单帧数据,帧间动态的数据流使用光流数据,每个数据流都使用深度卷积神经网络进行特征提取。最后将得到的特征使用SVM进行动作的识别。他们提出只使用人体姿势的关节点部分的相关数据进行深度卷积网络进行特征提取,最后使用统计的方法将整个视频转换为一个特征向量,使用SVM进行最终分类模型的训练和识别。
进一步地,利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为;
设计3DCNN由8个卷积层,5个池化层和2个全连接层组成,其中包括softmax函数,网络的输入尺寸为3×16×112×112,设置卷积核的大小为3×3×3,步长为1×1×1对输入的融合视频流进行卷积计算,计算完成后对特征图像进行池化,池化核的大小为2×2×2,步长为2×2×2,共由4098个输出。设置训练的学习率为0.001,训练次数为100个批次,并在损失函数最小的时候停止训练,得到最佳模型。
使用3DCNN网络结构对融合视频中人体进行姿态估计,获取人体的骨骼点。如图4所示,通过3DCNN网络结构实时的输出人体眼睛、手臂、膝盖等18个关键的骨骼点。
分别记18个部位的骨骼点在图像中的坐标为(xi,yi),下标i表示第i个部位的关节点。使用Dbody来表示人体躯干长度,其中x1,x8,x11,y1,y8,y11分别表示颈部、左右腰骨骼点的坐标。将融合图像经过3DCNN得到的特征点输入至SVM网络进行分类,类别分为摔倒、攀爬、推搡等不安全行为,最后得到最终识别结果。
实施例2
本实施例在实施例1的基础上,提供了一种红外可见光多源图像融合一体管控设备,包括安装有实施例1中的红外-可见光多源图像融合一体管控系统的前端设备。
本实施例将试制“可见光+红外光+算法+算力”为一体的红外可见光多源图像融合远程安全管控设备,选取至少2个复杂背景和低光照作业场景对算法、模型及设备的准确率、可靠性进行验证测试,通过人工智能边缘计算设备(如寒武纪MLU270、英伟达Xavier),将融合、识别算法嵌入前端红外可见光多源图像融合远程安全管控设备,能直接在前端设备中完成红外可见光融合、异常行为识别的核心任务,实现作业现场对异常行为的实时声音警告。
同时可以将相关数据信息上传南网人工智能平台,通过红外可见光多源图像融合远程安全管控移动应用对相关人员进行提示和行为记录,利用红外可见光多源图像融合的电力现场作业远方安全管控系统对检测结果进行存档,以便今后对数据进行分析和统计,使得我们的数据具备为相关应用(作业视频监控系统)提供服务的能力。
本实施例中,前端设备的硬件模块包括:安全管控设备,安全管控设备里内嵌有一个红外热成像镜头、一个23倍变焦特写镜头和一个广角镜头;安全管控设备下方设有云台,其满足水平方向360°连续旋转和垂直方向不少于30°~90°范围旋转。
此外,针对低照度条件下目标人员的行为辨识问题,将红外和可见光图像融合与行为识别结合,利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为,形成违章行为的人体动作特征模型库,模型库建立后现场施工视频中和模型库匹配的动作即为违章动作。
具体地,本项目基于红外可见光图像融合,在低照度下,我们拟实现以下违章行为检测:攀爬检测、识别人员、区域入侵检测、安全带检测、绝缘子检测、安全帽检测等。经过实际的应用试验得到如下数据:识别查准率(精度)目标值≥95%,查全率目标值(召回率)≥90%,速度(FPS)目标值30。由于深度网络可以无监督地从数据中学习到特征,而这种学习方式也符合人类感知世界的机理,因此当训练样本足够多的时候通过深度网络学习到的特征往往具有一定的语义特征,并且更适合目标和行为的识别。本发明对数据具有很强的适应性,尤其在标定数据较少的情况下能够获得更好的效果。卷积神经网络在图像识别方面获得了优异成果。
本领域普通技术人员可以理解,实现上述实施例的全部或部分步骤的过程可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种红外-可见光多源图像融合一体管控系统,其特征在于,包括:
基于自循环学习的特征融合模块,用于对特征金字塔FPN输出的多尺度特征图像进行特征的再次学习;
基于多通道的剩余增强体系模块,用于对再次学习的特征图像降低冗余特征干扰;
基于不同样本特征的融合模块,用于在网络中添加特征增强机制,通过不同图片间的目标共享提高模型效率;能针对RFP模型进行修改和完善,缩短信息路径的同时削减冗余特征,使用迭代机制实现特征融合模型;
基于红外-可见光图像融合的异常行为识别模块,用于将输出的融合图像进行目标分类并标注,根据类别坐标信息进行归一化处理构建目标检测模型,将融合图像信息对应的特征向量输入目标检测模型当中,得到识别结果,能在视频数据的时间维度和空间维度上进行特征计算,利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。
2.根据权利要求1所述的红外-可见光多源图像融合一体管控系统,其特征在于,所述特征融合模块(SLFF)能在红外-可见光多源图像进行融合的过程当中,校正因图像传感器之间的物理距离造成的图像之间的差异;
能对红外和可见光图像分别消除畸变,根据摄像头定标后获得的单目内参数据和两个相机相对位置关系,分别对左右视图进行消除畸变和行对准;通过平行校正的方法对两个相机进行标定,完成对两个图像之间物理差异的一个校正;
其中,标定的过程包括:
(1)分别将两个图像的像素坐标系通过共同的内参矩阵转换到相机坐标系:
(2)分别对两个相机坐标系进行旋转得到新的相机坐标系;
(3)针对新的相机坐标分别进行左、右相机的去畸变操作;
(4)去畸变操作结束后,分别用左、右相机的内参矩阵将左、右两个相机坐标系重新转换到左、右图像像素坐标系;
(5)并分别用左、右源图像的像素值对新左、右图像的像素点进行插值。
3.根据权利要求2所述的红外可见光多源图像融合一体管控系统,其特征在于,所述特征融合模块能针对RFP模型进行修改和完善,还包括:通过REAML,弥补空白信息得到特征Ri,然后反馈连接到自上而下的金字塔结构,二次传播后,输出特征定义一个迭代操作:
Figure FDA0004112715490000021
其中,F(X)表示特征融合的过程,n∈[1,...,N]是特征金字塔的循环展开的次数;W由多层次特征数i的权重wi组成;B是一个可学习的常量,经过上式计算得到输出结果Sp。
4.根据权利要求1所述的红外可见光多源图像融合一体管控系统,其特征在于,所述基于多通道的剩余增强体系模块,对再次学习的特征图像降低冗余特征干扰,包括使用模型公式:
Figure FDA0004112715490000022
该模型保留第一次特征金字塔FPN的输出
Figure FDA0004112715490000023
n代表模块提取到的第i层特征图,/>
Figure FDA0004112715490000024
包含可以与Ft+1互补的信息;Dconv是一个包含两个空隙的3×3空洞卷积;R表示REAML的计算过程。
5.根据权利要求4所述的红外可见光多源图像融合一体管控系统,其特征在于,所述基于多通道的剩余增强体系模块,操作筛选每层特征的信息,并将筛选后的结果按照特征的贡献程度融合,残差的实现方法包括:
x=Δp+x
Figure FDA0004112715490000025
Figure FDA0004112715490000031
其中,Δp作为模型中的残差结构;n∈[1,...,n],p(i)代表特征图的第i通道,w(i)和b(i)分别代表该通道的权重和自学习常量。
6.根据权利要求1所述的红外可见光多源图像融合一体管控系统,其特征在于,所述基于不同样本特征的融合模块,包括:
Gp=S+Ft
Figure FDA0004112715490000032
Figure FDA0004112715490000033
其中,S表示被采样的样本;i∈[1,...,n]表示t批次的特征图数量;d∈[1,..,D]表示该样本特征的通道数;Gp为具有复杂样本特征的输出。
7.根据权利要求1所述的红外可见光多源图像融合一体管控系统,其特征在于,所述基于红外可见光图像融合的异常行为识别模块,能将图像增强过后的可见光与红外光输入改进Fusion-GAN网络的生成器中,更改生成器与判别器的卷积为深度可分离卷积,采用mobilenet-v3架构进行处理,减少计算量,输出融合图像;将输出的融合图像输入判别器单独调整融合图像信息,得到结果;在生成器和判别器的对抗学习过程当中,不断地对融合图像进行优化,损失函数达到平衡后,保留效果最佳的图像;
能对融合后的图像进行目标分类并标注,根据类别坐标信息进行归一化处理,与融合图像输入进yolov5s网络,将融合后的图像进行HLV颜色变换,采用Mosaic数据增强对图像进行拼接,作为训练样本,并提出了一种改进的特征金字塔模型,命名为AF-FPN,它是利用自适应注意力模块和特征增强模块来减少特征图生成过程中的信息丢失并增强表示能力的特征金字塔,保证实时检测的前提下提高了YOLOv5网络对多尺度目标的检测性能,构建目标检测模型,将融合图像信息对应的特征向量输入目标检测模型当中,得到识别结果;
能在Fusion-GAN网络融合完红外和可见光图像后,将红外可见光融合视频流输入至3D神经网络,在视频数据的时间维度和空间维度上进行特征计算;
输入视频被分作两组独立的数据流:低分辨率的数据流和原始分辨率的数据流,两个数据流都交替的包含卷积层、正则层和抽取层,同时这两个数据流最后合并成两个全连接层用于后续的特征识别;
利用3D卷积神经网络对人体关节点相关数据进行特征提取,根据提取人体骨架得到的姿态信息和视角变换获得的目标位置信息检测异常行为。
8.根据权利要求7所述的红外可见光多源图像融合一体管控系统,其特征在于,所述生成器所设置的损失函数为:
Figure FDA0004112715490000041
其中,H和W分别代表输入的图像的高度和宽度,
Figure FDA0004112715490000042
代表矩阵范数,/>
Figure FDA0004112715490000043
表示梯度算子,ξ为控制两个项之间的权衡的正参数;
所述判别器所设置的损失函数如下:
Figure FDA0004112715490000044
其中,a和b分别表示融合图像Iv和可见光图像If的标签,DθD(Iv)和DθD(If)为两个图像的分类结果;
所述目标分类包括安全帽、未佩戴安全帽、反光衣、未穿反光衣;
能将融合后的图像进行HLV颜色变换,采用Mosaic数据增强对图像进行拼接,作为训练样本;设置学习率为0.001,批尺寸大小为16,采用梯度下降法对损失函数进行优化;采用准确率、召回率、F1分数对模型进行评价,其根据自己标定的类别和通过算法检测出的类别进行计算,其分为:真正例TP、假正例FP、真反例TN、假反例FN;
准确率、召回率和F1-score公式分别如下:
Figure FDA0004112715490000051
Figure FDA0004112715490000052
Figure FDA0004112715490000053
其中,P和R分别为计算得出的准确率Presicion和召回率Recall;
对训练出来的模型进行测试,将融合图像信息对应的特征向量输入目标检测模型当中,得到最终识别结果。
9.根据权利要求8所述的红外可见光多源图像融合一体管控系统,其特征在于,所述红外可见光图像融合的异常行为识别模块,能在视频数据的时间维度和空间维度上进行特征计算;其中:卷积神经网络的第一层是硬编码的卷积核,包括灰度数据,z、y方向的梯度,z、y向的光流,还包括3个卷积层,2个下采样层和1个全连接层;
能在定长时间的视频块内使用3DCNN,使用多分辨率的卷积神经网络对视频特征进行提取;静态帧数据流使用单帧数据,帧间动态的数据流使用光流数据,每个数据里都使用深度卷积神经网络进行特征提取;
能使用3DCNN网络结构对融合视频中人体进行姿态估计,获取人体的骨骼点;通过3DCNN网络结构实时的输出人体数个关键的骨骼点;分别记该数个部位的骨骼点在图像中的坐标为(xi,yi),下标i表示第i个部位的关节点;使用Dbody来表示人体躯干长度,其中x1,x8,x11,y1,y8,y11分别表示颈部、左右腰骨骼点的坐标;将融合图像经过3DCNN得到的特征点输入至SVM网络进行分类,类别分为摔倒、攀爬或推搡不安全行为,最后得到最终识别结果。
10.一种红外-可见光多源图像融合一体管控设备,包括安装有如权利要求1-9任一所述的红外-可见光多源图像融合一体管控系统的前端设备,其特征在于,能直接在所述前端设备中完成红外-可见光融合、异常行为识别的核心任务,实现作业现场对异常行为的实时声音警告;同时将相关数据信息上传电网管理平台,通过红外-可见光多源图像融合远程安全管控移动应用对相关人员进行提示和行为记录,并对检测结果进行存档;
所述前端设备的硬件模块包括:安全管控设备,所述安全管控设备里内嵌有一个红外热成像镜头、一个23倍变焦特写镜头和一个广角镜头;所述安全管控设备下方设有云台,所述云台满足水平方向360°连续旋转和垂直方向不少于-30°~90°范围旋转。
CN202310211093.1A 2023-03-07 2023-03-07 一种红外-可见光多源图像融合一体管控系统和设备 Pending CN116343329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310211093.1A CN116343329A (zh) 2023-03-07 2023-03-07 一种红外-可见光多源图像融合一体管控系统和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310211093.1A CN116343329A (zh) 2023-03-07 2023-03-07 一种红外-可见光多源图像融合一体管控系统和设备

Publications (1)

Publication Number Publication Date
CN116343329A true CN116343329A (zh) 2023-06-27

Family

ID=86876777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310211093.1A Pending CN116343329A (zh) 2023-03-07 2023-03-07 一种红外-可见光多源图像融合一体管控系统和设备

Country Status (1)

Country Link
CN (1) CN116343329A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116887020A (zh) * 2023-07-14 2023-10-13 中国人民解放军军事科学院系统工程研究院 一种视觉增强系统及方法
CN116912649A (zh) * 2023-09-14 2023-10-20 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN116994338A (zh) * 2023-09-25 2023-11-03 四川中交信通网络科技有限公司 一种基于行为识别的站点无纸化稽查管理系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116887020A (zh) * 2023-07-14 2023-10-13 中国人民解放军军事科学院系统工程研究院 一种视觉增强系统及方法
CN116912649A (zh) * 2023-09-14 2023-10-20 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN116912649B (zh) * 2023-09-14 2023-11-28 武汉大学 基于相关注意力引导的红外与可见光图像融合方法及系统
CN116994338A (zh) * 2023-09-25 2023-11-03 四川中交信通网络科技有限公司 一种基于行为识别的站点无纸化稽查管理系统
CN116994338B (zh) * 2023-09-25 2024-01-12 四川中交信通网络科技有限公司 一种基于行为识别的站点无纸化稽查管理系统

Similar Documents

Publication Publication Date Title
CN111160297B (zh) 基于残差注意机制时空联合模型的行人重识别方法及装置
CN110781838B (zh) 一种复杂场景下行人的多模态轨迹预测方法
Wang et al. SFNet-N: An improved SFNet algorithm for semantic segmentation of low-light autonomous driving road scenes
CN116343329A (zh) 一种红外-可见光多源图像融合一体管控系统和设备
CN108764308B (zh) 一种基于卷积循环网络的行人重识别方法
CN110569779B (zh) 基于行人局部和整体属性联合学习的行人属性识别方法
CN111814661B (zh) 基于残差-循环神经网络的人体行为识别方法
CN109033938A (zh) 一种基于可区分性特征融合的人脸识别方法
CN111079655A (zh) 一种基于融合神经网络的视频中人体行为识别方法
CN111639580B (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN116363748A (zh) 基于红外-可见光图像融合的电网现场作业一体管控方法
WO2023070695A1 (zh) 一种红外图像的转换训练方法、装置、设备及存储介质
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
CN116343330A (zh) 一种红外-可见光图像融合的异常行为识别方法
CN113159466A (zh) 一种短时光伏发电功率预测系统及方法
CN111274988B (zh) 一种基于多光谱的车辆重识别方法及装置
CN115482473A (zh) 提取航拍图像特征的图卷积网络模型及检测异常的方法
CN113627504B (zh) 基于生成对抗网络的多模态多尺度特征融合目标检测方法
CN117593666B (zh) 一种极光图像的地磁台站数据预测方法及系统
CN117315714A (zh) 一种基于跨模态特征分解的多光谱行人检测方法
CN117456330A (zh) 一种基于MSFAF-Net的低照度目标检测方法
CN116824641A (zh) 姿态分类方法、装置、设备和计算机存储介质
CN112069997B (zh) 一种基于DenseHR-Net的无人机自主着陆目标提取方法及装置
CN117011722A (zh) 基于无人机实时监控视频的车牌识别方法及装置
CN112580526A (zh) 基于视频监控的学生课堂行为识别系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination