CN112465725A

CN112465725A - 一种基于PWC-Net的红外图像帧率上转换方法

Info

Publication number: CN112465725A
Application number: CN202011436027.7A
Authority: CN
Inventors: 韩天笑; 王晓春
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-09
Anticipated expiration: 2040-12-10
Also published as: CN112465725B

Abstract

一种基于PWC‑Net的红外图像帧率上转换方法，包括以下步骤：采集红外图像，对采集的每一帧红外图像进行去噪处理；对去噪处理后的图片进行光流估计，得到像素从t时刻到0时刻的光流估计和像素从t时刻到1时刻的光流估计；将像素从t时刻到0时刻的光流估计和像素从t时刻到1时刻的光流估计作为CNN网络的输入，通过扭曲和线性融合，形成中间视频帧，完成红外视频的帧率上转换。本发明在红外图像的基础上，通过红外高帧频成像技术和相应图像质量提升技术，能够在短时间之内，对红外图像的时间和空间分辨率进行大幅度提升，从而降低硬件成本，提高红外图像传输质量和速度。

Description

一种基于PWC-Net的红外图像帧率上转换方法

技术领域

本发明属于红外图像处理技术领域，涉及一种基于PWC-Net的红外图像帧率上转换方法。

背景技术

红外是电磁波中波长位于可见光和微波之间的波段，其无法被人眼感知，但由于其自身性质，能够提供可见光波段无法提供的信息，目前红外图像在国防、航天等领域具有重要应用。因此，深入研究红外高帧频成像信号获取和红外图像质量技术，有效获取红外高帧频图像，改善图像质量，对于扩大红外成像技术应用范围有着重要意义。

随着红外图像应用范围进一步扩大，人们在红外领域对成像帧频的要求越来越高。而目前基于可见光的帧率提升研究较多，主要分为基于运动补偿和非运动补偿两种，而基于红外的研究较少，主要可以通过两种方式，其一提高系统硬件性能如焦平面阵列响应速度，但昂贵的成本大大限制提高帧频的可能；其二可通过数字信号处理的方式提高成像速度，其中，压缩感知对信号同时进行采样与压缩，为提高成像帧频提供了一种新颖的解决方式。但目前对帧率的研究大多数是以可见光图像作为输入，针对可见光图像对场景中光照条件的限制，没有更多的研究和实现。

发明内容

本发明的目的在于提供一种基于PWC-Net的红外图像帧率上转换方法。

为实现上述目的，本发明采用的技术方案如下：

一种基于PWC-Net的红外图像帧率上转换方法，包括以下步骤：

1)采集红外图像，对采集的每一帧红外图像进行去噪处理；

2)对去噪处理后的图片进行光流估计，得到像素从t时刻到0时刻的光流估计和像素从t时刻到1时刻的光流估计；

3)将像素从t时刻到0时刻的光流估计和像素从t时刻到1时刻的光流估计作为CNN网络的输入，通过扭曲和线性融合，形成中间视频帧，完成红外视频的帧率上转换。

本发明进一步的改进在于，步骤1)中，采用双边滤波器对采集的每一帧红外图像进行去噪处理。

本发明进一步的改进在于，双边滤波器表示为：

其中，W_ij是权重，i和j是像素索引，K_i是归一化常量，I_j是边缘像素的强度值，I_i是像素中心的强度值。

本发明进一步的改进在于，步骤2)中，采用PWC-Net光流网络模型对去噪处理后的图片进行光流估计。

本发明进一步的改进在于，步骤2)中，像素从t时刻到0时刻的光流估计f_t→0(u)通过下式得到：

其中，x表示I₀帧上的像素，u表示I_t帧上的像素，N(u)表示u的邻域，ω(d)表示高斯权重。

本发明进一步的改进在于，步骤3中，CNN网络由编码器和解码器组成，采用6个层次结构，每层由两个卷积层和Leaky层组成，除最后一个层次结构，每个层次结构的末尾使用一个步长为2的平均池化层。

本发明进一步的改进在于，步骤3)中，通过下式式对中间帧I_t进行合成：

其中，z表示归一化因子，t表示时间，V_t←0和V_t←1为关系映射，g(,)是可微的反向扭曲函数，I₀表示两个相邻帧的首帧，I₁表示两个相邻帧的末帧，f_t→0和f_t→1表示从两个未知目标帧到源帧的光流估计。

与现有技术相比，本发明具有的有益效果：

第一：本发明采用了一个二次间用于合成准确的中间视频帧的定位算法，利用了视频的加速度信息，可以更好地模拟真实的非线性运动，生成分辨率更高的中间帧图像。

第二：目前基于中间帧的研究大多是在可见光的基础上，而本发明考虑到红外图像的相关特点，其在获取红外高分辨率图像上有更好的表现。

第三：对比提高硬件(高帧摄像头)的技术，此发明无需硬件支持，从而能够大大缩减成本，对于传输速率的提高也有很大的优化。

第四：对于需要大量图片(如红外三维仿真)的场景下，本发明能迅速产生大量图片，极大缩短仿真图像生成时间。

第五：在更高时空分辨率的红外视频的基础上，可对后续图像操作(如图像增强、弱小目标检测等)有更好的支持。

本发明在红外图像的基础上，通过红外高帧频成像技术和相应图像质量提升技术，能够在短时间之内，对红外图像的时间和空间分辨率进行大幅度提升，从而降低硬件成本，提高红外图像传输质量和速度。

附图说明

图1为双边滤波处理后对比图。其中，(a)为处理前原图，(b)为双边滤波处理后效果。

图2为本方法中基于PWC-Net的光流估计框架图。

图3为PWC-Net系列光流估计网络。

图4为生成的中间帧图像。其中，(a)为图像具有较严重的边缘震荡现象，(b)显示光流校正后边缘震荡获得了较好的改善。

图5为本发明实例中光流矫正及帧合成的算法框架图。

图6为光流插值CNN网络结构示意图。

具体实施方式

下面结合附图对本发明进行详细描述。

本发明的基于PWC-Net的红外图像帧率上转换方法，分为三大部分：红外图像去噪处理；光流估计；光流矫正及帧合成。具体步骤如下：

1)红外图像去噪处理

在红外成像过程中引入的大量噪声使得红外图像质量明显下降，影响后续的处理工作。在红外图像处理中，噪声是必须考虑的一部分，在去噪时，既要减少噪声的影响，又要考虑处理速度，同时又要保证光斑的形状不发生变形。图像去噪作为红外图像处理的前期工作，既影响后期检测的准确性，又影响了系统的处理速度，因此选择一种合适的、快速、有效的去噪方法显得至关重要。通过对多种不同的去噪方法研究学习，最终选用双边滤波对采集的红外图像进行处理。

双边滤波是一种非线性滤波器，它可以达到保持边缘、降噪平滑的效果，其采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素的强度，所用的加权平均基于高斯分布。最重要的是，双边滤波的权重不仅考虑了像素的欧氏距离(如普通的高斯低通滤波，只考虑了位置对中心像素的影响)，还考虑了像素范围域中的辐射差异(例如卷积核中像素与中心像素之间相似程度、颜色强度，深度距离等)，在计算中心像素的时候同时考虑这两个权重，可以极大优化后续对图像操作的准确度。

2)光流估计

帧率转换技术主要分为两大类，一类是非运动补偿算法，另一类为基于运动估计和运动补偿的算法，而基于光流估计帧率转换是基于运动补偿类算法中效果较好的技术之一，光流估计是三维空间中运动物体在二维成像平面上的像素运动的瞬时速度，主要用于获取相邻两帧图像间的对应关系，从而获得相邻两帧间物体的运动信息。

在深度学习的方法出现之前，光流计算的问题主要采用基于能量的模型优化算法以及基于匹配的启发式算法，但是传统的光流估计算法，通过不断迭代计算量十分巨大。随着深度学习在计算机视觉领域的不断的发展，深度学习也被研究者们应用到了光流估计算法中。

大多数最新的视频插值方法显式或隐式假定连续的帧之间为匀速运动，其中物体在沿直线移动一个恒定速度。因此这些方法通常采用线性模型来合成中间体框架。然而，在实际的场景运动可以是复杂的和非均匀的，所以均匀的假设通常会导致插值不准确的结果。此外，在现有的模型主要是开发了基于两个连续帧的插值，视频的高阶运动信息(例如，加速度)尚未被充分利用。一个有效的帧的内插算法应当使用附加的输入帧和估计高阶信息以进行更准确的运动预测。为此，此本发明采用了一种二次视频插值方法来利用其他输入帧，克服线性模型的局限性。

具体的，本发明中首先需要得到中间向前光流，即从源帧(初始两个相邻帧的首帧)到未知帧(中间插值目标帧)的光流估计，使用PWC-Net光流网络模型通过两个相邻帧进行光流估计，得到向前光流，向后光流同理，然后对加速度进行考虑，通过两个向前和向后的光流估计，得到中间向前光流。

其次，得到的中间向前光流为初始帧到未知帧的光流估计，但如果要得到中间帧，我们需要得到从未知帧到源帧的光流估计，进行图像合成，此部分使用了一个流量逆转层，有效地将源帧到未知帧的光流估计转换为未知帧到源帧的光流。

相应的中间向后光流同理可得。

最后，在两个未知帧到源帧的光流估计的基础上，使用二次模型进行插值，利用了视频的加速度信息，可以更好贴近现实世界中的像素运动，从而获得更准确的插值结果。

3)光流矫正及帧合成

由于红外图像物体边缘较为模糊，从步骤2)得到的未知帧到源帧光流估计在平滑附近较为有效，而在运动边界附近会产生一些伪影，生成的中间帧图像具有较严重的边缘震荡现象，所以使用一个优化的CNN网络，排除原视频帧当中被遮挡的像素，对其进行光流矫正。

在光流优化CNN中，采用U-Net体系结构，最终合成中间视频帧，完成红外视频的帧上率转换研究。

本发明将开展基于PWC-Net的红外图像帧率提升技术的研究与应用，视频插值是计算机视觉一个重要的问题，它有助于克服时间限制的相机传感器。本发明使用了二次视频插值方法，该方法利用了加速度信息中的视频，方法允许光流具有曲线轨迹和可变速度的预测，并生成更多、更准确的插值结果。为了得到高品质的帧合成，使用另一个U-Net来对获得的光流进行改善。最后，将输入的两张图像进行扭曲和线性融合，从而形成中间帧。通过在融合前的扭曲图像上应用可见性映射关系，解决了被遮挡的像素对中间帧的影响，从而避免了伪影的产生，获得更高精度的中间帧。

具体的，本发明的步骤如下：

1)采集红外图像，采用双边滤波器对采集的每一帧红外图像进行去噪处理；

双边滤波器可表示为：

其中，W_ij是权重，i和j是像素索引，K_i是归一化常量，I_j是边缘像素的强度值，I_i是像素中心的强度值，所以在强度差距大的地方(边缘)，权重会减小，滤波效应也就变小。

采用FLIR红外热数据集，共4224张图像，帧率为30hz，这里使用opencv中的bilateralFilter(src＝image,d＝0,sigmaColor＝100,sigmaSpace＝15)函数实现图像双边滤波，参数src表示的是图像的输入图像；d是过滤时周围每个像素图像领域的直径；sigmaColor是颜色空间过滤器的sigma值(对应上式σ_r，参数越大，会有越远的像素被混合到一起)；sigmaSpace是坐标空间滤波器的sigma值(对应上式σ_s，参数越大，颜色相近的颜色的影响越大)，最后得到相应的实验结果如图1中(a)和(b)所示。

目前采用图像降噪中常见的两种图像质量度量准则，包括峰值信噪比(PSNR)和结构相似性(SSIM)进行滤波处理的指标判断，实验中选用高斯滤波和中值滤波作为对比试验，结果如下表1所示，PSNR的单位为dB，其值越大，代表图像失真越少，SSIM从亮度、对比度、结构三方面度量图像相似性，其取值范围为[0,1]，值越大，表示图像失真越小。在对比试验下可以看到，双边滤波对图像有更多的原图特征和边缘细节保留。

表1滤波处理比较结果

	双边滤波	高斯滤波	中值滤波
				PSNR	41.955	40.271	39.889
SSIM	0.979	0.915	0.901

2)光流估计

参见图2，在图像去噪处理的基础上，使用PWC-Net(如图3所示)，用{…,I_-1,I₀,I₁,I₂,…}表示视频中的连续图像帧，用f_a→b表示从帧a到帧b的光流估计，目的是在I₀和I₁中间插入目标帧I_t。

由此，首先根据去噪声后的图像中的任意两个相邻帧I_-1、I₀得到向前光流，用f_0→-1表示，相同的，通过I₀、I₁得到向后光流，用f_0→1表示，通过然后对加速度(目前只考虑匀加速运动)进行考虑，得到中间向前光流，即从源帧(初始两个相邻帧的首帧I₀)到未知帧(中间插值目标帧)的光流估计f_0→t：

f_0→t＝(f_0→1+f_0→-1)/2×t²+(f_0→1-f_0→-1)/2×t

其中，t∈(0,1)，表示指定的任意时刻。

其次，为了插入高质量的帧，需要得到未知帧到源帧(初始两个相邻帧的首帧I₀)的光流f_t→0，所以最后设计光流反转层得到f_t→0，即像素从t时刻到0时刻的光流估计：

其中x表示I₀帧上的像素，u表示I_t帧上的像素，N(u)表示u的邻域，ω(d)表示高斯权重。

通过对I₀,I₁,I₂的光流估计和计算，相应的像素从t时刻到1时刻的光流估计，即从未知帧(中间插值目标帧)到源帧(初始两个相邻帧的末帧I₁)的光流估计f_t→1原理类似，从而得到相应的从两个未知目标帧到源帧的光流估计f_t→0和f_t→1，以进行图像合成。

得到f_t→0和f_t→1后，便可进行根据以下公式进行中间帧的生成：

其中，I_t表示在I₀,I₁连续两帧之间插入新的帧，m(u)为掩码操作。

但由于红外图像物体边缘较为模糊，所以生成的中间帧图像具有较严重的边缘震荡现象，如图4中(a)所示。

3)光流矫正及帧合成

针对第二步的伪影问题，在此部分提出使用一个优化的CNN网络，对未知目标帧到源帧的光流f_t→0和f_t→1进行光流矫正。

参见图5所示，基于第二步的光流反转层得到的f_t→0和f_t→1作为输入，在光流优化CNN中，采用U-Net(如图6所示)全卷积神经网络体系结构，其由编码器和解码器组成，采用了6个层次结构，每层由两个卷积层和Leaky层组成，除了最后一个层次结构，每个层次结构的末尾使用了一个步长为2的平均池化层减少空间维度，而在每个层次结构的开始，使用双线性上采样层将空间维数增加2倍，从而获得优化后的光流估计。

在此基础上，对于两个输入的任意连续帧I₀和I₁，时间t∈(0,1)，预测T＝t时刻的中间帧I_t，可以通过以下公式对I_t进行合成：

I_t＝a₀*g(I₀，f_t→0)+(1-a₀)*g(I₁，f_t→1)

其中g(，)是一个可微的反向扭曲函数，可用双线性插值实现；参数a₀控制着两张输入图像的贡献。

每当T＝t越接近时刻T＝0时，I₀对I_t的贡献就越大；对于I₁同理。另一方面，如果一个像素p在时刻T＝t可见，那么它至少在输入图像的其中一张可见，由此可解决遮挡问题，引入关系映射V_t←0和V_t←1：

其中，z表示归一化因子，z＝(1-t)V_t→0+tV_t→0。

最终合成中间视频帧(如图4中(b)，可以看到伪影现象得到了改善)，完成红外视频的帧上率转换。

本发明首先通过双边滤波对输入红外图像进行去噪处理，然后基于运动补偿的光流估计使用PWC-Net光流网络模型，利用四个相邻帧从而将运动的加速度信息考虑进行插帧，由于其在光流平滑的区域内有效，但在运动边界附近效果会产生伪影，所以搭建了一个对光流进行插值的子网络进行优化，从而得到帧率较高的红外图像。最后开发一个可视化的系统，针对两个已经存在的始末关键帧图形，生成一系列渐变的中间帧图形。

Claims

1.一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，包括以下步骤：

1)采集红外图像，对采集的每一帧红外图像进行去噪处理；

2.根据权利要求1所述的一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，步骤1)中，采用双边滤波器对采集的每一帧红外图像进行去噪处理。

3.根据权利要求1所述的一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，双边滤波器表示为：

4.根据权利要求1所述的一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，步骤2)中，采用PWC-Net光流网络模型对去噪处理后的图片进行光流估计。

5.根据权利要求1所述的一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，步骤2)中，像素从t时刻到0时刻的光流估计f_t→0(u)通过下式得到：

6.根据权利要求1所述的一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，步骤3中，CNN网络由编码器和解码器组成，采用6个层次结构，每层由两个卷积层和Leaky层组成，除最后一个层次结构，每个层次结构的末尾使用一个步长为2的平均池化层。

7.根据权利要求1所述的一种基于PWC-Net的红外图像帧率上转换方法，其特征在于，步骤3)中，通过下式式对中间帧I_t进行合成：