CN112070665B

CN112070665B - 生成对抗式视频超分辨率重建及重建图像真伪性鉴别方法

Info

Publication number: CN112070665B
Application number: CN202010766362.7A
Authority: CN
Inventors: 王中元; 易鹏; 肖进胜; 马佳义; 邵振峰
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-08-03
Filing date: 2020-08-03
Publication date: 2023-08-18
Anticipated expiration: 2040-08-03
Also published as: CN112070665A

Abstract

本发明公开了一种生成对抗式视频超分辨率重建及重建图像真伪性鉴别方法，在显隐混合约束机制网络中，对输入视频帧分别进行显式的光流估计、运动补偿，以及隐式的长间距相关性计算，共同约束网络以增强视频的时域连贯性。在多通道多尺度结构网络中，将显隐混合约束机制网络输出的多帧分别送入多通道子网络和多尺度子网络，学习低分辨率视频帧中蕴含的帧内空间相关信息和帧间时间相关信息。最后，使用生成对抗训练方法，通过混合损失函数训练整体网络，将多通道多尺度网络产生的低分辨率特征张量图进行融合并放大，得到最终的高分辨率视频帧。本发明能充分利用视频帧中蕴含的时空相关信息，增强视频帧的时域连贯性，恢复逼真的图像细节。

Description

生成对抗式视频超分辨率重建及重建图像真伪性鉴别方法

技术领域

本发明属于数字图像处理技术领域，涉及一种视频超分辨率重建方法及重建图像真伪性鉴别方法，具体涉及一种生成对抗式视频超分辨率重建及重建图像真伪性鉴别方法。

背景技术

视频成为人们获取信息的主要来源之一，由于设备的限制，大量视频的分辨率较低，不能满足人们的需求。视频超分辨率能从给定的低分辨率视频生成高质量的高分辨率视频，因而有着重要用途。目前，视频超分辨率技术被广泛应用于如卫星图像，医疗影像，安防监控等领域。

学术界近年发展了众多的基于深度卷积神经网络(CNN)的超分辨率方法。这些视频超分辨率模型通常采用显式约束(光流估计和运动补偿)或是隐式计算的方法来对视频帧进行预处理。然而，光流估计是基于卷积的局部性计算，没有考虑到利用长间距相关性，隐式的方法则缺乏明确约束，无法保证增强视频帧的时域连贯性。

此外，现有视频超分辨率模型往往基于单张图像超分辨率模型的设计机制，仅仅采用了单通道单尺度的网络结构。但是，单通道的结构没有考虑输入包含多帧的特点，而单尺度的结构忽视了图像内部包含自相似性的特点。单通道单尺度结构的模型难以充分利用视频帧内空间相关信息和帧间时间相关信息，制约了多帧互补信息的利用潜力。

从训练的角度看，现存的大多数视频超分辨率模型基于单一内容损失，训练目标是使生成的视频和真实视频在像素级别上的内容尽可能接近。然而，基于单一内容损失的模型虽然能够较好地重建视频中的低频信息，却难以恢复出视频中的高频细节，生成的视频往往过于模糊且时域上存在不稳定的现象。

发明内容

为了解决上述技术问题，本发明提供了一种生成对抗式视频超分辨率重建及重建图像真伪性鉴别方法。

本发明所采用的技术方案是：生成对抗式视频超分辨率重建及重建图像真伪性鉴别方法，包括以下步骤：

步骤1：选取若干视频数据作为训练样本，从每个视频帧中相同的位置截取图像作为高分辨率学习目标，将其下采样s倍，得到低分辨率图像，作为网络的输入；

步骤2：将低分辨率帧输入显隐混合约束机制网络，分别对输入视频帧进行显式约束和隐式计算，增强输入视频帧的时域连贯性；

本发明分别采用显式光流估计和运动补偿，以及隐式长间距图像相关性计算的方法共同增强输入视频帧的时域连贯性。一方面，利用光流估计网络Net_OF提取光流场F＝(u,v)，进而用运动补偿算法对特征图Y进行扭曲变换，得到运动补偿后的视频帧W。另一方面，使用隐式计算网络Net_IM计算并利用视频图像长间距相关性，得到特征张量图G。将运动补偿后的视频帧W与隐式计算得到的特征G送入融合网络Net_M，融合显示运动补偿与隐式计算的结果，得到最终的输出I。同时，构建时域连贯性损失函数L_TI对显隐混合约束机制网络进行约束。

步骤3：将增强了时域连贯性的视频帧送入多通道多尺度结构网络，充分挖掘视频帧中蕴含的时空相关信息；

在多尺度残差块中，使用下采样操作将输入特征图的空间尺度缩小至原来的二分之一，执行两次该操作得到/>和/>分别用卷积层/>进一步提取它们的特征，得到/>进而将底层的特征信息依次向上传递，将最底层的两层特征图/>和/>连结起来得到I₂。然后，对I_i上采样，将它的空间尺度放大2倍得到/>与上一层一致。进而将特征图/>与/>连结起来，融合两个不同尺度空间的图像特征信息，得到I_i。最后，分别对特征图I₀，I₁与I₂用卷积处理，并与初始特征图相加，得到输出O_i。

在多通道多尺度结构网络中，对于给定输入视频帧数据I，分别用若干多通道残差块MCRB与多尺度残差块MSRB挖掘其时空相关特征信息，得到输出O_c和O_s。

步骤4：将多通道子网络和多尺度子网络产生的特征张量图融合，得到一个低分辨率特征张量图，并将其放大获得高分辨率图像；

步骤5：使用生成对抗训练方法，构建一个判别网络，来判断一张高分辨率图像是网络生成的还是原始真实的；

首先，采用用一层卷积C₁计算输入视频帧I的特征，并采用一个批归一化层BN₁将其特征归一化得到B₁。将B₁下采样r倍，再次重复卷积C₂和归一化操作BN₂，提取该空间尺度下的特征信息，得到B₂。然后重复n次这样的处理操作，得到第n层空间尺度下的特征信息B_n。对于所有空间尺度下的特征信息B₁,B₂,…,B_n，用全局平均池化操作P_i(·)计算各自的概率并融合相加，得到最终的真伪概率P，且P∈[0,1]。

作为优选，构建基于内容损失，感知损失，对抗损失，时域一致性损失以及时域连贯性损失的混合损失函数，共同约束网络模型的训练。

利用输入低分辨率视频帧I^LR，真实的高分辨率视频帧I^HR，生成的超分辨率视频帧I^SR，以及现有的与训练好的VGG网络构建内容损失L_c，感知损失L_p，对抗损失与/>以及时域一致性损失L_TC。基于这些不同的损失函数，分配不同的权重α₁～α₅来构建总体混合损失函数L_G。

本发明使用了显隐混合约束机制网络，能用显式约束和隐式计算共同增强输入视频的时域连贯性，并使用多通道多尺度结构网络，充分挖掘视频帧中蕴含的时空相关信息。此外，通过生成对抗训练方法，并构建混合损失函数，监督显隐混合约束机制网络和多通道多尺度结构网络的训练，使得生成符合人眼视觉感知的高自然度视频。

附图说明

图1为本发明实施例的流程图；

图2为本发明实施例的整体框架图；

图3为本发明实施例的显隐混合约束机制网络图；

图4为本发明实施例的多尺度残差块结构图；

图5为本发明实施例的多通道多尺度网络结构图；

图6为本发明实施例的判别网络结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1-图6，本发明提供的一种生成对抗式视频超分辨率重建方法，包括以下步骤：

步骤2：将低分辨率图像输入显隐混合约束机制网络，分别对输入低分辨率图像进行显式约束和隐式计算，增强输入低分辨率图像的时域连贯性；

本实施例中，首先使用现有的非局部残差块NLRB提取输入低分辨率图像X的非局部特征信息Y＝NLRB(X)；然后，分别用显式约束和隐式计算的方式对非局部特征信息Y作进一步处理：

F＝Net_OF(Y) (1)

G＝Net_IM(Y) (2)

其中，Net_OF表示光流估计网络，其作用是根据给定输入多个视频帧的信息Y提取它们之间的光流场F，Net_IM表示隐式计算网络，其作用是计算输入的特征信息；

根据得到的光流场F，用运动补偿算法对特征图Y进行扭曲变换，得到运动补偿后的视频帧W；将运动补偿后的视频帧W与隐式计算得到的特征信息G送入融合网络Net_M，融合显示运动补偿与隐式计算的结果，得到最终的输出I：

I＝Net_M(W,G) (3)

引入损失函数来对输出视频帧I进行约束：

其中，t表示时序标记，表示任意给定时序t，L_TI表示时域连贯性损失函数，C表示中心，X_c为输入视频帧的中心帧，即待放大的那一帧，I_t为t时刻输出的每视频帧。

步骤3：将增强了时域连贯性的低分辨率图像送入多通道多尺度结构网络，充分挖掘低分辨率图像中蕴含的时空相关信息；

本实施例采用的多通道多尺度结构网络，在多尺度残差块中，设为输入特征图，使用下采样操作将其空间尺度缩小至原来的二分之一，执行两次该操作得到/>和/>

其中，S_dp(·)表示下采样操作，倍数为2，则和/>的空间尺度分别为原空间尺度的二分之一和四分之一；

分别用卷积层进一步提取它们的特征，得到/>

将底层的特征信息依次向上传递，将最底层的两层特征图和/>连结起来得到I₂：

对I_i上采样，将它的空间尺度放大2倍得到与上一层一致：

将特征图与/>连结起来，融合两个不同尺度空间的图像特征信息，得到I_i：

最后，分别对特征图I₀，I₁与I₂用卷积处理，并与初始特征图相加，得到输出：

其中，表示第二层卷积，而O_i为多尺度残差块的输出，“+”用来实现残差学习操作；

在多通道多尺度结构网络中，对于给定输入视频帧数据I，分别用若干多通道残差块与多尺度残差块挖掘其时空相关特征信息：

O_c＝MCRB_m(…(MCRB_i(…(MCRB₁(I))))),i∈{1,2,…,m} (11)

O_s＝MSRB_n(…(MSRB_i(…(MSRB₁(I))))),i∈{1,2,…,n} (12)

其中，MCRB和MSRB分别表示多通道残差块和多尺度残差块，MCRB_i和MSRB_i分别表示第i个多通道残差块和第i个多尺度残差块，O_c和O_s分别为多通道残块分支和多尺度残差块分支的输出，而m和n则为两个残差块各自的数目。

步骤4：将多通道子网络和多尺度子网络产生的特征张量图在通道维度拼接起来以融合二者，得到一个低分辨率特征张量图，并对其使用现有的亚像素放大方法获得高分辨率图像。

本实施例使用生成对抗训练方法构建判别网络，来判断一张高分辨率图像是网络生成的还是原始真实的；

设给定输入视频帧I，首先用一层卷积计算其特征，并采用一个批归一化层将其特征归一化：

B₁＝BN₁(C₁(I)) (13)

其中，B₁为得到的归一化特征图，C₁(·)和BN₁(·)分别为第一次卷积和归一化操作；

将B₁下采样，再次重复卷积和归一化操作，提取该空间尺度下的特征信息，得到B₂：

其中，表示第一次下采样操作，r为缩放倍数，C₂(·)和BN₂(·)则分别为第二次卷积和归一化操作；

重复n次这样的处理操作，则第n层空间尺度下的特征信息B_n为：

对于所有空间尺度下的特征信息B₁,B₂,…,B_n，用全局平均池化操作P_i(·)计算各自的概率并融合相加，得到最终的真伪概率P：

P＝P₁(B₁)+P₂(B₂)+…+P_n(B_n) (16)

其中，P(·)为判断输入视频帧是真实的还是生成的概率，且P∈[0,1]。

本实施例中，构建基于内容损失、感知损失、对抗损失、时域一致性损失以及时域连贯性损失的混合损失函数，共同约束所述判别网络的训练；

用I^LR表示输入低分辨率视频帧，I^HR表示真实的高分辨率视频帧，而I^SR表示生成的超分辨率视频帧：

I^SR＝G(I^LR) (17)

其中，G(·)表示生成网络，即构建的显隐混合约束机制网络与构建的多通道多尺度结构网络结合起来的整体；

内容损失L_c如下：

L_c＝|I^SR-I^HR| (18)

引入现有预训练的VGG网络，分别对I^HR与I^SR提取它们的语义特征，尽可能使它们的语义特征相近，从而构建感知损失L_p：

L_p＝(φ(I^HR)-φ(I^SR))² (19)

其中，φ(·)表示用VGG网络提取特征层；

构建对抗损失，分别约束生成网络与判别网络：

其中，与/>分别表示生成网络和判别网络的对抗损失，G(·)和D(·)分别表示生成网络和判别网络；

建立时域一致性损失L_TC来约束生成网络，使其生成时间上连贯、稳定的视频帧：

其中，t为视频帧的时间步态，表示t时刻的低分辨率视频帧，/>表示t时刻的高分辨率视频帧，判别网络的总体损失函数为/>而生成网络的总体混合损失函数L_G如下：

其中，L_TI为公式(4)中的时域连贯性损失函数，α₁～α₅分别为对应的每个部分损失函数的参数，用来调整各部分损失函数的权重。

本发明在显隐混合约束机制网络中，分别采用显式约束和隐式计算的方法共同增强视频的时域连贯性；在多通道多尺度结构网络中，分别采用多通道残差块和多尺度残差块充分挖掘视频帧的时空相关信息；在生成对抗训练方法中，构建判别网络对一张高分辨率图像进行真伪判断，并建立基于内容损失，感知损失，对抗损失，时域一致性损失以及时域连贯性损失的混合损失函数，指导显隐混合约束机制网络及多通道多尺度结构网络的训练。

本发明能够充分挖掘视频帧的时空相关信息，有效增强输入视频帧的时域连贯性，且能恢复出含有更多逼真细节的视频内容。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种生成对抗式视频超分辨率重建方法，其特征在于，包括以下步骤：

其中，采用显式约束和隐式计算的混合方案处理低分辨率图像；

首先，使用非局部残差块NLRB提取输入低分辨率图像X的非局部特征信息Y＝NLRB(X)；然后，分别用显式约束和隐式计算的方式对非局部特征信息Y作进一步处理：

F＝Net_OF(Y) (1)

G＝Net_IM(Y) (2)

I＝Net_M(W,G) (3)

引入损失函数来对输出视频帧I进行约束：

其中，t表示时序标记，表示任意给定时序t，L_TI表示时域连贯性损失函数，C表示中心，X_c为输入视频帧的中心帧，即待放大的那一帧，I_t为t时刻输出的每视频帧；

步骤3：将增强了时域连贯性的低分辨率图像送入多通道多尺度结构网络，挖掘低分辨率图像中蕴含的时空相关信息；

所述多通道多尺度结构网络，在多尺度残差块中，设为输入特征图，使用下采样操作将其空间尺度缩小至原来的二分之一，执行两次该操作得到/>和/>

分别用卷积层进一步提取它们的特征，得到/>

对I_i上采样，将它的空间尺度放大2倍得到与上一层一致：

O_c＝MCRB_m(…(MCRB_i(…(MCRB₁(I))))),i∈{1,2,…,m} (11)

O_s＝MSRB_n(…(MSRB_i(…(MSRB₁(I))))),i∈{1,2,…,n} (12)

其中，MCRB_i和MSRB_i分别表示第i个多通道残差块和第i个多尺度残差块，O_c和O_s分别为多通道残块分支和多尺度残差块分支的输出，而m和n则为两个残差块各自的数目；

2.一种基于重建的超分辨率图像真伪性判断方法，其特征在于：基于权利要求1所述的方法获得的高分辨率图像，使用生成对抗训练方法构建判别网络，来判断高分辨率图像是网络生成的还是原始真实的；

B₁＝BN₁(C₁(I)) (13)其中，B₁为得到的归一化特征图，C₁(·)和BN₁(·)分别为第一次卷积和归一化操作；

对于所有空间尺度下的特征信息B₁，B₂，…，B_n，用全局平均池化操作P_i(·)计算各自的概率并融合相加，得到最终的真伪概率P：