CN114120176B

CN114120176B - 远红外与可见光视频图像融合的行为分析方法

Info

Publication number: CN114120176B
Application number: CN202111333137.5A
Authority: CN
Inventors: 陈彦文; 韩裘辰; 刘剑鸿; 谢源丰; 张贤德; 余向阳
Original assignee: Guangzhou Gaoke Communications Technology Co ltd; Sun Yat Sen University
Current assignee: Guangzhou Gaoke Communications Technology Co ltd; Sun Yat Sen University
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2023-10-27
Anticipated expiration: 2041-11-11
Also published as: CN114120176A

Abstract

本发明公开了一种远红外与可见光视频图像融合的行为分析方法，包括以下步骤：对预先获取的红外视频文件和可见光视频文件分别进行帧图像提取，得到红外热成像图像和可见光图像；对红外热成像图像和可见光图像分别进行图像增强；对图像增强后的红外热成像图像和可见光图像分别进行配准；采用预设生成对抗网络对配准后的红外热成像图像和可见光图像进行融合，得到目标融合图像；采用预设目标检测模型对目标融合图像进行目标检测，得到红外视频文件和可见光视频文件内的用户行为。本发明有效保留红外热成像图像和可见光图像的特征，有效提高红外图像和可见光图像的融合结果的准确性。本发明可广泛应用于图像融合技术领域。

Description

远红外与可见光视频图像融合的行为分析方法

技术领域

本发明涉及图像融合技术领域，尤其是一种远红外与可见光视频图像融合的行为分析方法。

背景技术

相关技术中，随着传感器技术的发展，单一的可见光模式逐渐发展为多种传感器模式。各种传感器具有不同的成像机理、不同的工作波长范围、不同的工作环境与要求，完成不同的功能。由于传感器自身物理特性、成像机理和观察视角等各个方面的种种限制，单一的图像传感器往往不能够从场景中提取足够的信息，以至于很难甚至无法独立获得对一幅场景的全面描述。这就需要研究多源图像融合。利用图像传感器获得的图像(成像探测)可以直观地获取目标的外形或基本结构信息，可有效的识别目标或目标的特定部位，它是提高精确制导武器抗干扰能力、目标识别能力以及精确探测能力最基本、最有效的手段。目前的图像融合的方法，在融合过程中通常对不同源的图像使用相同的变换或表示，这种做法对于红外图像和可见光图像的融合是不恰当的，因为本质上红外图像中的热辐射信息和可见光图像的整体外观是两种不同现象的表现。而且在现有的大多数融合算法中的活跃等级测量和融合规则都需要人工设计，具有较高的实现难度和成本限制。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种远红外与可见光视频图像融合的行为分析方法，能够有效提高红外图像和可见光图像的融合结果的准确性。

本发明实施例提供了一种远红外与可见光视频图像融合的行为分析方法，包括以下步骤：

对预先获取的红外视频文件和可见光视频文件分别进行帧图像提取，得到红外热成像图像和可见光图像；

对所述红外热成像图像和所述可见光图像分别进行图像增强；

对图像增强后的所述红外热成像图像和所述可见光图像分别进行配准；

采用预设生成对抗网络对配准后的所述红外热成像图像和所述可见光图像进行融合，得到目标融合图像；

采用预设目标检测模型对所述目标融合图像进行目标检测，得到所述红外视频文件和所述可见光视频文件内的用户行为。

在一些实施例中，所述对所述红外热成像图像进行图像增强，包括：

对所述红外热成像图像进行多级二维离散小波变换，得到所述红外热成像图像对应近似信号的低频子带和所述红外热成像图像对应细节信号的高频子带；

对所述低频子带进行非线性图像增强，以及对所述高频子带进行小波去噪；

根据图像增强后的所述低频子带和小波去噪后的所述高频子带进行小波重构。

在一些实施例中，所述对所述可见光图像进行图像增强，包括：

对所述可见光图像进行非抽样二维变换，得到所述可见光图像在各尺度各方向的变换系数；

对所述变换系数做归一化处理，得到增强算子；

采用所述增强算子对所述变换系数进行增强处理；

对增强处理后的变换系数进行反变换。

在一些实施例中，所述对所述变换系数做归一化处理，得到增强算子，包括：

确定所述变换系数中的最大值作为归一化因子；

根据所述归一化因子对所述变换系数做归一化处理，得到增强算子。

在一些实施例中，所述对图像增强后的所述红外热成像图像和所述可见光图像分别进行配准，包括：

确定图像增强后的所述红外热成像图像对应相机与图像增强后的所述可见光图像对应相机的标准像素误差；

根据所述标准像素误差，对图像增强后的所述红外热成像图像和所述可见光图像分别进行配准。

在一些实施例中，所述根据所述标准像素误差，对图像增强后的所述红外热成像图像和所述可见光图像分别进行配准，包括：

确定标定板上两两圆心之间的所述红外热成像图像和所述可见光图像的第一像素误差；

根据所述标准像素误差和所述第一像素误确定图像缩放比例；

根据所述图像缩放比例调整所述红外热成像图像和所述可见光图像的尺寸；

根据标定板上圆心的坐标位置在所述红外热成像图像和所述可见光图像的像素坐标位置计算对应的第二像素误差；

根据所述第二像素误差将尺寸调整后的所述红外热成像图像和所述可见光图像进行对齐。

在一些实施例中，所述采用预设生成对抗网络对配准后的所述红外热成像图像和所述可见光图像进行融合，得到目标融合图像，包括：

将预设比例的所述红外热成像图像和预设比例的所述可见光图像组成训练集，将剩余的所述红外热成像图像和剩余的所述可见光图像组成测试集；

对所述训练集内的图像进行裁剪和归一化；

采用裁剪和归一化后的所述训练集对所述预设生成对抗网络进行训练；

对所述测试集内的图像进行裁剪；

将裁剪后的所述测试集输入训练后的所述预设生成对抗网络；

根据所述测试集的图像裁剪顺序连接所述预设生成对抗网络的输出结果，得到目标融合图像。

在一些实施例中，所述采用裁剪和归一化后的所述训练集对所述预设生成对抗网络进行训练，包括：

确定裁剪和归一化后的所述训练集内预设对数的红外热成像图像和可见光图像；

对所述预设对数的红外热成像图像和可见光图像进行图像填充，采用填充后的图像对所述预设生成对抗网络的生成器进行训练，输出第一融合图像；

采用所述第一融合图像和与所述第一融合图像对应的可见光图形对所述预设生成对抗网络的判别器进行训练，更新所述判别器的损失函数；

根据所述判别器的损失函数更新所述预设生成对抗网络的损失函数。

在一些实施例中，所述采用预设目标检测模型对所述目标融合图像进行目标检测，包括：

采用预设目标检测模型中的darknet网络对所述目标融合图像进行第一图像特征提取；

构建特征金字塔，所述darknet网络的三个不同部位连接所述特征金字塔的三个特征层；

采用所述特征金字塔，根据所述darknet网络提取的特征对所述目标融合图像进行第二图像特征提取；

对所述特征金字塔内最深层的特征层进行预设次数的第一卷积处理，并采用所述预设目标检测模型中的特征解码层对所述目标融合图像中的每个目标进行预测，得到第一预测结果，然后对预设部分的所述第一预测结果进行上采样后，与所述特征金字塔的上层特征层进行结合，得到第一加强特征；

根据所述第一加强特征，对所述特征金字塔内最深层的特征层进行预设次数的第二卷积处理，并采用所述预设目标检测模型中的特征解码层对所述目标融合图像中的每个目标进行预测，得到第二预测结果，然后对预设部分的所述第二预测结果进行上采样后，与所述特征金字塔的上层特征层进行结合，得到第二加强特征；

根据所述第二加强特征，对所述特征金字塔内最深层的特征层进行预设次数的第三卷积处理，并采用所述预设目标检测模型中的特征解码层对所述目标融合图像中的每个目标进行预测，得到第三预测结果，然后采用所述特征金字塔将不同形状的特征图进行特征融合，得到第三加强特征；

根据所述第一加强特征、第二加强特征和第三加强特征，采用所述预设目标检测模型中的特征解码层对所述目标融合图像进行目标检测。

在一些实施例中，所述预设生成对抗网络包括生成器和判别器；所述生成器包括5*5的卷积层、1*1的残差层、3*3的池化层、批标准化层和激活函数；所述判别器包括5*5的卷积层、5*5的池化层和线性分类层。

本发明实施例提供的一种远红外与可见光视频图像融合的行为分析方法，具有如下有益效果：

本实施例通过先对获取的红外视频文件和可见光视频文件分别进行帧图像提取后，得到红外热成像图像和可见光图像，并对红外热成像图像和可见光图像分别进行图像增强，然后对图像增强后的红外热成像图像和可见光图像分别进行配准，并采用预设生成对抗网络对配准后的红外热成像图像和可见光图像进行融合，得到目标融合图像，接着采用预设目标检测模型对目标融合图像进行目标检测，得到红外视频文件和可见光视频文件内的用户行为，从而有效保留红外热成像图像和可见光图像的特征，有效提高红外图像和可见光图像的融合结果的准确性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例的一种远红外与可见光视频图像融合的行为分析方法的流程图；

图2为本发明实施例的预设生成对抗网络的结构示意图；

图3为本发明实施例的预设生成对抗网络内生成器的信息示意图；

图4为本发明实施例的预设生成对抗网络内判别器的信息示意图；

图5为本发明实施例的预设目标检测模型的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个以上，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

本发明的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

在阐述具体实施例中，目前的图像融合技术主要包括以下几种方法：

基于多尺度变换的方法：该方法是传统的图像融合方法，同时也是使用最广泛的一种方法，该方法可以将原始图像分解为不同比例的组件，每个组件代表每个尺度上的子图像。该方法通常包含三个处理步骤：首先对每个源图像进行下采样，分解为一系列多尺度表示；之后根据设计好的融合规则对源图像的多尺度表示进行融合；最后对融合后的表示使用多尺度逆变换，得到融合图像。

稀疏表示图像融合方法：该方法的目的是从大量高质量的源图像中学习到一个过完备字典；接着，原图片可以被学习到的字典稀疏表示出来，从而潜在地增强了有意义的和稳定的表示。

基于神经网络的方法：神经网络的泛用性能，容错性能，抗噪声干扰性能都更出众，大多数基于神经网络的红外-可见光图像融合采用的是脉冲耦合神经网络或其衍生网络。

基于下采样的方法：下采样法的目的是将高维图像投影到低维的空间或子空间上，绝大多数自然图像都存在冗余信息，而低维子空间可以帮助捕获源图像有价值的内容。因此例如主成分分析法、非负矩阵分解、独立分量分析等方法已经成功地应用在红外-可见光图像融合中。

基于显著性的方法：由于人的注意力总是会被一些相比于其临近物体或像素更明显的物体或像素所吸引，因此基于显著性的红外-可见光图像融合方法可以保留完整的图像显著区域并且提高融合图像的视觉质量。

混合方法：混合方法结合了以上方法的优势从而提升图像融合的表现。

其他：其余的一些基于全变分、模糊理论、熵的方法被归入此类，这些方法可以激发图像融合的新思路。

对于目前的图像融合方法，在融合过程中通常对不同源的图像使用相同的变换或表示，这种做法对于红外图像和可见光图像的融合是不恰当的，因为本质上红外图像中的热辐射信息和可见光图像的整体外观是两种不同现象的表现。而且在现有的大多数融合算法中的活跃等级测量和融合规则都需要人工设计，具有较高的实现难度和成本限制。

基于此，参照图1，本发明实施例提供了一种远红外与可见光视频图像融合的行为分析方法，本实施例可应用于视频融合平台对应的处理器或服务器。

在数据处理过程中，本实施例包括以下步骤：

S11、对预先获取的红外视频文件和可见光视频文件分别进行帧图像提取，得到红外热成像图像和可见光图像。其中，红外视频文件和可见光视频文件可以采用发生暴力事件的视频文件。在采集到对应的视频文件，对视频文件内的视频数据进行帧图像提取，以得到对应的多个红外热成像图像和可见光图像。

S12、对红外热成像图像和可见光图像分别进行图像增强。

在本申请实施例中，对红外热成像图像进行图像增强可以通过以下方式：

先对红外热成像图像进行多级二维离散小波变换，得到红外热成像图像对应近似信号的低频子带和红外热成像图像对应细节信号的高频子带。然后为了达到增强图像的同事减少噪音影响，对低频子带进行非线性图像增强，以实现图像对比度增强和抑制背景的效果；同事对高频子带进行小波去噪，以减少噪声对图像的影响。接着再根据图像增强后的低频子带和小波去噪后的高频子带进行小波重构，以得到图像增强后的红外热成像图像。在本实施例中，经过小波分解后，信号的小波系数幅值要大于噪声的系数幅值。

具体地，本实施例对高频子带采用阈值去噪的方法可以把信号系数保留，而使大部分噪声系数减少为零。其中阈值函数可以表示如公式(1)所示：

其中，μ_T(ω_ij)表示高频去噪后的信号系数，T为阈值，sgn()表示符号函数，ω_ij为小波系数。

阈值T可以通过公式(2)确定：

σ_n表示噪声标准差，采用公式(3)所示的噪声标准差鲁棒种植估计法确定σ_n值：

σ_n＝MAD/0.6745 公式(3)

MAD是对原始图像第一次小波分解得到的小波系数的中值。

对于低频信号部分采用基于小波的非线性变换增强，其具体如公式(4)所示：

其中，公式(4)中的表示增强后低频图像的小波系数，w_ij表示增强前的小波系数，ENG表示非线性增强算子；M₁和N₁分别表示红外热成像图像的长和宽。具体地，公式(4)可表示为公式(5)所示：

其中，M₁＝max(|w_i,j|)，阈值T的范围为(0，M)，用于确定增强图像的范围；k为亮度系数，用于调节整个图像的动态范围。

本实施例中，对可见光图像进行图像增强，可通过以下步骤实现：

先对可见光图像进行非抽样二维contourlet变换，得到可见光图像在各尺度各方向的变换系数，其中，不同变换系数对应的阈值与变换系数的标准差成正比，具体如公式(6)所示：

其中，公式(6)中的M₂和N₂分别表示可见光图像的长和宽；表示第l个尺度上第k个子带方向滤波器把可见光图像分解成各个尺度上的带通方向子带。在(m，n)处的变换系数；mean_c表示该子带内系数的均值。

接着对变换系数做归一化处理，得到增强算子，并采用增强算子对变换系数进行增强处理后，对增强处理后的变换系数进行反变换，从而实现可见光图像增强。具体地，本实施例可以先确定变换系数中的最大值作为归一化因子，然后根据归一化因子对变换系数做归一化处理，得到增强算子。其中，增强算子的确定过程如下：

先确定如公式(7)所示的增强函数：

f(x)＝a[sigm(c(x-b))-sigm(-c(x+b))] 公式(7)

其中，

然后将子带内变换系数的最大值x_max作为归一化因子，并由非线性方程f(x)＝x的解可以得到b的值，从而得到如公式(8)所示的增强算子：

f(x)＝ax_max[sigm(c(x/x_max-b))-sigm(-c(x/x_max+b))] 公式(8)

公式(7)和(8)中的sigm()函数定义为：

S13、对图像增强后的红外热成像图像和可见光图像分别进行配准。

在本实施例中，可以先确定图像增强后的红外热成像图像对应相机与图像增强后的可见光图像对应相机在理想条件下的基础像素偏差作为标准像素误差，然后根据标准像素误差，对图像增强后的红外热成像图像和可见光图像分别进行配准。例如，先根据公式(9)所示的像素误差公式计算出并列放置的红外热成像相机和可见光相机的像素误差作为标准像素误差：

其中，δ_x表示硬件注册误差，x表示图像像素，f表示焦距，l_pix表示像元大小，d_c表示基线长度，即两传感器基准点之间的横向距离，D_target表示目标到传感器的距离，D_optimal表示获得完美矫正时物体到传感器的距离，如果光轴平行，则D_optimal为∞。

然后，再根据标准像素误差对图像进行配准，其中，配准的过程包括：

先根据红热外成像与可见光硬件系统光心存在的偏差问题，确定标定板上两两圆心之间的红外热成像图像和可见光图像的像素差作为第一像素误差，然后根据标准像素误差和第一像素误确定图像缩放比例，并根据图像缩放比例调整红外热成像图像和可见光图像的尺寸，使得空间物体在两种图像上的尺寸统一。具体地，缩放比例的公式如公式(10)所示：

sf表示缩放比例，ThermalPoint和VisiblePoint为圆孔n的圆心在红外热成像和可见光图像上的x或y像素坐标值,n的取值范围为标定板上圆孔的数量。

其次，根据标定板上圆心的坐标位置在红外热成像图像和可见光图像的像素坐标位置计算对应的像素差作为第二像素误差，然后根据第二像素误差将尺寸调整后的红外热成像图像和所述可见光图像进行对齐，其对应的计算公式如公式(11)和公式(12)所示：

X和Y分别为标定板上同一个圆孔的圆心分别在红外热成像和可见光图像中的像素坐标值。X_diff表示同一个圆心在红外图像中与在可见光图像中的像素在x轴方向的偏移，Y_diff表示同一个圆心在红外图像中与在可见光图像中的像素在y轴方向的偏移，n表示标定板上第n个圆，表示红外图像中第n个圆心的x坐标，/>表示可见光图像中第n个圆心的x坐标，/>表示红外图像中第n个圆心的y坐标，/>表示可见光图像中第n个圆心的y坐标。

S14、采用预设生成对抗网络对配准后的红外热成像图像和可见光图像进行融合，得到目标融合图像。

在本申请实施例中，如图2所示，预设生成对抗网络通过通道连接图像获取热红外成像图像和可见光图像。具体地，预设生成对抗网络包括生成器和判别器。其中，生成器上每个层的具体信息如图3所示，其包括5*5的卷积层、1*1的残差层、3*3的池化层，其中，除开最后一层1*1的卷积层外，每层对应有批标准化层(batch normalization)和leaky RELU激活函数，另外，在最后一层使用的激活函数为sigmoid函数。判别器上每个层的具体信息如图4所示，其包括5*5的卷积层、5*5的池化层和线性分类层。

在确定预设生成对抗网络的结构后，将预设比例的红外热成像图像和预设比例的可见光图像组成训练集，将剩余的红外热成像图像和剩余的可见光图像组成测试集。例如，将全部红外热成像图像的75％和全部的可见光图像的75％放入训练集内，将全部红外热成像图像的25％和全部可见光图像的25％放入测试集内。然后对训练集内的图像进行裁剪和归一化后，采用裁剪和归一化后的训练集对预设生成对抗网络进行训练。具体地，模型训练过程包括：

确定裁剪和归一化后的训练集内预设对数的红外热成像图像和可见光图像。例如，从训练集内选取裁剪和归一化后的M对红外热成像图像和可见光图像用于训练过程。然后对选定的预M对的红外热成像图像和可见光图像进行图像填充，以得到统一尺寸的图像，并将统一尺寸的图像输入到预设生成对抗网络的生成器内，以对，生成器进行训练并输出初次融合图像作为第一融合图像。接着将第一融合图像和与训练集内与第一融合图像对应的可见光图形对输入预设生成对抗网络的判别器内，以对判别器进行训练并更新判别器的损失函数。其中，判别器的损失函数如公式(13)所示：

其中，N表示输入到判别器的图像对数量，I_f和I_v分别表示第一融合图像和可见光图像；表示判别器；/>和/>分别表示红热外成像图像和可见光图像的分类结果；a和b分别表示红热外成像图像和可见光图像的标签。

接着，根据判别器的损失函数更新预设生成对抗网络的损失函数。具体地，对抗网络的总损失函数由生成器的损失函数和判别器的损失函数，如公式(14)所示：

L_G＝V_G+λL_C 公式(14)

L_G表示总损失值，V_G表示生成器和判别器的对抗损失，L_C表示内容损失，λ用于调和V_G和L_C的平衡。其中，对抗损失可以用公式(15)表示：

公式(15)中，表示融合图像，N为融合图像的总数，c判别器对图像判别的阈值。

内容损失则可以用公式(16)表示：

其中H和W分别表示输入图像的高和宽，·_F表示Frobenius矩阵范数，为梯度算子。/>表示在融合图像中保留红外热成像图像热辐射信息；/>表示保留可见光图像的梯度信息；ξ是一个用来调节上述两项的正参数。

重复上述训练过程，直至完成迭代次数。

在完成模型训练后，对测试集内的图像进行裁剪，但不使用填充方法。将裁剪后的测试集输入训练后的预设生成对抗网络，同时输入可见光图像。然后根据测试集的图像裁剪顺序连接预设生成对抗网络的输出结果，得到最终的融合图像作为目标融合图像。

S15、采用预设目标检测模型对目标融合图像进行目标检测，得到红外视频文件和可见光视频文件内的用户行为。

在本实施例中，预设目标检测模型可以采用YOLO-v3目标检测模型。其中，YOLO是You Only Once的缩写，表示一种基于深度卷积神经网络的物体检测算法。YOLO-v3目标检测模型是YOLO目标检测模型的第三个版本，其去结构如图5所示，该结构的模型检测速度更快，准确度更高。

具体地，在对目标进行检测时，可通过以下步骤执行：

采用预设目标检测模型中的darknet网络对目标融合图像进行第一图像特征提取，其中，darknet网络结构包括1*1的卷积层、1×、2×、4×和8×的残差块。

构建FPN特征金字塔，并采用特征金字塔，根据darknet网络提取的特征对目标融合图像进行第二图像特征提取。其中，darknet网络的三个不同主干部分对应三个不同部位分别连接特征金字塔的三个有效特征层，从而便于利用有效特征层构件FPN层构建，再利用FPN进行加强特征提取。

对特征金字塔内最深层的特征层进行预设次数的第一卷积处理，并采用预设目标检测模型中的特征解码层对目标融合图像中的每个目标进行预测，得到第一预测结果，然后对预设部分的第一预测结果进行上采样后，与特征金字塔的上层特征层进行结合，得到第一加强特征。例如，对特征金字塔内最深层的特征层经过5次卷积处理，再利用YOLO HEAD获得预测结果，一部分用于进行上采样后与上层特征层进行结合，以得到第一加强特征。其中，YOLO Head是YOLO目标检测主干网络中的一部分，其作用是对获取的特征图解码，得到每个目标对象的中心点坐标，目标框的尺寸，目标框置信度和类别置信度。

根据第一加强特征，对特征金字塔内最深层的特征层进行预设次数的第二卷积处理，并采用预设目标检测模型中的特征解码层对目标融合图像中的每个目标进行预测，得到第二预测结果，然后对预设部分的所述第二预测结果进行上采样后，与特征金字塔的上层特征层进行结合，得到第二加强特征。例如，结合特征层再次进行5次卷积处理，处理完后利用YOLO HEAD获得预测结果，一部分用于进行上采样后与最上层特征层结合，以得到第二加强特征。

根据第二加强特征，对特征金字塔内最深层的特征层进行预设次数的第三卷积处理，并采用预设目标检测模型中的特征解码层对目标融合图像中的每个目标进行预测，得到第三预测结果，然后采用特征金字塔将不同形状的特征图进行特征融合，得到第三加强特征。例如，结合特征层再次进行5次卷积操作处理，处理完后利用YOLO HEAD获得最终预测结果。FPN特征金字塔将不同形状(shape)的特征图进行特征融合，有利于提取出更好的特征。

根据第一加强特征、第二加强特征和第三加强特征，采用预设目标检测模型中的特征解码层YOLO HEAD对目标融合图像进行目标检测。其具体可以是将FPN特征金字塔得到的三个加强特征输入到YOLO HEAD，以得到预测结果，从而便于确定视频内的用户行为。

综上可知，本实施例能够达到如下效果：

通过使用基于小波变换的非线性红外图像增强方法，在增强红外图像对比度的同时，有效的抑制了红外图像的噪声，突出了图像的细节；

对于可见光图像的增强，所用的基于contourlet的自适应阈值法具有多尺度多方向性以及平移不变性，且相比小波变换使用了更少的系数，使得经过增强的可见光图像具有较好的清晰度；

相比目前单通道可见光视频分析方案，加入了红外热成像，增加了信息维度，改善了单通道可见光信息在行为识别应用中准确率低的问题，同时降低误报率；

本实施例中使用的GAN具有更深的网络深度，同时可以有效抑制梯度爆炸和梯度消失问题；

本实施例使用的YOLO目标检测算法相比于C3D等目标识别算法具有很好的实时性和较高的准确度；

本实施例使用的基于可见光视频和红外视频融合算法的剧烈运动分级检测方法减少审核报警记录花费的时间，大幅降低人工成本。

此外，本发明实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种远红外与可见光视频图像融合的行为分析方法，其特征在于，包括以下步骤：

采用预设生成对抗网络对配准后的所述红外热成像图像和所述可见光图像进行融合，得到目标融合图像；所述预设生成对抗网络包括生成器和判别器；所述生成器包括5*5的卷积层、1*1的残差层、3*3的池化层、批标准化层和激活函数；所述判别器包括5*5的卷积层、5*5的池化层和线性分类层；

采用预设目标检测模型对所述目标融合图像进行目标检测，得到所述红外视频文件和所述可见光视频文件内的用户行为；

其中，所述对所述红外热成像图像进行图像增强，包括：

对所述高频子带采用如下公式进行小波去噪：

表示高频去噪后的信号系数；/>为阈值；/>表示符号函数；/>为小波系数；i=1,…,/>；j=1,…,/>；

对所述低频子带采用如下公式进行非线性图像增强：

表示增强后低频图像的小波系数，/>表示增强前的小波系数，ENG表示非线性增强算子，/>和/>分别表示红外热成像图像的长和宽；k为亮度系数，用于调节整个图像的动态范围；

2.根据权利要求1所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述对所述可见光图像进行图像增强，包括：

对所述变换系数做归一化处理，得到增强算子；

采用所述增强算子对所述变换系数进行增强处理；

对增强处理后的变换系数进行反变换。

3.根据权利要求2所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述对所述变换系数做归一化处理，得到增强算子，包括：

确定所述变换系数中的最大值作为归一化因子；

4.根据权利要求1所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述对图像增强后的所述红外热成像图像和所述可见光图像分别进行配准，包括：

5.根据权利要求4所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述根据所述标准像素误差，对图像增强后的所述红外热成像图像和所述可见光图像分别进行配准，包括：

6.根据权利要求1所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述采用预设生成对抗网络对配准后的所述红外热成像图像和所述可见光图像进行融合，得到目标融合图像，包括：

对所述训练集内的图像进行裁剪和归一化；

对所述测试集内的图像进行裁剪；

7.根据权利要求6所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述采用裁剪和归一化后的所述训练集对所述预设生成对抗网络进行训练，包括：

8.根据权利要求1所述的一种远红外与可见光视频图像融合的行为分析方法，其特征在于，所述采用预设目标检测模型对所述目标融合图像进行目标检测，包括：