CN111667406B

CN111667406B - 一种基于时域相关性的视频图像超分辨率重建方法

Info

Publication number: CN111667406B
Application number: CN202010333063.4A
Authority: CN
Inventors: 雷为民; 曹航; 刘晓雯; 李玉婷; 王一达
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2023-05-30
Anticipated expiration: 2040-04-24
Also published as: CN111667406A

Abstract

本发明公开了一种基于时域相关性的视频图像超分辨率重建方法，该方法通过获取视频帧的时空相关特征信息决定是否利用前序帧的重建结果，以降低不必要的重复计算。同时，结合帧间差异性与前序帧的重建情况来指导待重建帧的重建过程并进行质量增强。利用深度学习的技术对低分辨率视频序列进行超分辨率重建，得到高分辨率视频序列，复用前序帧序列的重建结果，在保证重建质量的同时优化计算资源配置。

Description

一种基于时域相关性的视频图像超分辨率重建方法

技术领域

本发明属于视频图像处理领域，尤其涉及一种基于时域相关性的视频图像超分辨率重建方法。

背景技术

根据思科2019年发布的《Cisco Visual Networking Index:Forecast andTrends,2017–2022》白皮书，视频业务已成为目前因特网上的主流业务，其中，高清(HighDefinition，通常包括720P、1080P等)和超高清(Ultra High-Definition，或者4K)已成为主要的视频分辨率格式，而这些格式的视频通常需要较高的传输带宽(一般为5-18Mbps)。由于因特网的传输资源具有时变性，因此，当网络传输资源动态变化时，视频数据的传输特别是高分辨率视频业务的传输将会收到较大的影响。由于视频图像像素之间存在较强的空间相关性，视频内容的表征可能不需要较高的分辨率，因此，一种简单可行的码率调整方案是在编码之前先对视频进行下采样，然后，在解码端对解码后的视频图像执行上采样操作进而重构出高分辨率视频。这种下采样/上采样的编码方案可以通过降低视频的分辨率实现输出码率的压缩的目的，但是，由于上采样的效果关系到最终的重构视频的质量，因此如何实现低分辨率视频的上采样是这种编码技术的关键。通常，图像的上采样问题被称为超分辨率(Super-resolution，SR)重建，而传统的超分辨率方法有基于插值(如Bicubic)、基于重构(如迭代反投影法(IBP)等)和基于学习的方法。基于计算复杂性的考虑，很多关于基于下采样/上采样的视频编码的大多数研究都采用了固定的，手工制作的插值滤波器，而不是许多高级的SR方法。

近年来，随着机器学习的再次兴起，基于卷积神经网络(CNN)的超分辨率重建方案取得了较大的进展，相比于传统的方法它能够更好地恢复图像细节，获得较高图像质量。典型的图像超分辨率重建方案有SRCNN、VDSR、ESPCN、EDSR等。相对于图像的超分辨率重建，视频超分辨率需要额外进行视频帧和融合的操作，比较优秀的视频超分辨率方案有VESPCN、DUF等。但是，现有的视频超分辨率重建方法很多还是采用一个网络进行视频图像的超分辨率重建，并没有对重建的难以程度进行区分，这样，在内容比较简单的区域将会浪费大量的计算资源。另外，现有的技术方案主要是从低分辨率的视频图像中提取特征信息进而进行“对齐-融合-重建”的操作，并没有集合视频图像的时域相关性，充分利用前序帧的重建结果，这样进一步地造成部分计算资源的浪费。因此，目前的视频超分辨率技术还存在一定的性能提升空间。

发明内容

本发明的目的在于针对上面技术的不足，提出一种基于时域相关性的视频图像超分辨率重建方法，利用深度学习的技术对低分辨率视频序列进行超分辨率重建，得到高分辨率视频序列，复用前序帧序列的重建结果，在保证重建质量的同时优化计算资源配置。

一种基于时域相关性的视频图像超分辨率方法，包括以下步骤：

对于输入的低分辨率视频的前N帧进行超分辨率重建，其中N的数量可以按照选择的超分辨率网络进行设定，本发明中建议N取值为2。其中，低分辨率视频的分辨率是相对于超分辨率重建后视频的分辨率较低，一般是针对选用下采样/上采样编码方案输出的解码视频或者是其他有超分辨率重建需要的视频；对于N帧后续的低分辨率视频帧，首先进行块的划分，对于块划分后的当前视频帧，将逐块与其前序帧的对应位置的块进行比较，按照比较结果选择不同的重建网络进行超分辨率重建；

所述的比较由判决器执行，对当前帧的图像块与前序帧的对应位置的图像块进行差异性判决，输出一种概率分布，并使用softmax操作映射为不同的操作输出；判决器的输出指向选择的超分辨率操作类型，分为直接复用对应的前序帧块的重建结果、使用非线性映射网络进行超分辨率重建、使用浅层超分辨率重建网络重建、使用深层超分辨率重建网络重建。

进一步地，当前视频帧中的块与其对应的前序帧的块相同时，则直接复用对应的前序帧块的重建结果；非线性映射网络主要执行背景区域中处于纹理复杂区域的图像块的超分辨率重建；所述超分辨率重建网络是多个子网络的网络集合或者是一个多输出的网络，当为多个子网络的网络集合时，图像块的重建难易程度与选择的重建网络的深度成正比，即重建越容易，网络深度越浅，反之亦然，当为多输出的网络时，图像块的重建越难，网络输出的位置越靠后，反之亦然。

进一步地，对于N帧后续的低分辨率视频帧，首先进行块的划分，按照视频编码过程中的宏块(如H.264/AVC)或者编码树单元(如H.265/HEVC)进行划分。

判决器的输出分布是超分辨率重建网络中的子网络或者输出的个数加上2。

该方法还包括一种联合的网络训练方法，包括四个训练部分：(1)超分辨率网络的初步训练；(2)非线性映射网络的初步训练；(3)联合训练；(4)判决器的训练；

(1)使用训练数据训练深度最大的超分辨率子网络，根据训练后得到的结果求取质量增益：δ＝Q'-Q，其中Q'是执行超分辨率重建后的图像的质量评估结果，Q是执行了Bicubic后的质量的评估结果；将δ按照从大到小的顺序排列，并将该排序映射到对应的训练图像，组成图像序列；将组成的图像序列均分为与超分辨率子网络的个数相同的子序列，δ值较小的子序列对映深度较小的超分辨率子网络，δ值较大的子序列对映深度较大的超分辨率子网络；每个子序列中随机选择4/5的图像进行训练，剩余的1/5作为验证；

(2)使用深度最大的超分辨率子网络重建训练的视频序列的前N帧，然后提取视频序列的背景区域，并从中裁取纹理复杂的图像块及其前序帧的对应位置的图像块与重建结果；构建训练数据集训练非线性映射网络；

(3)联合步骤(1)和(2)两个初步训练的结果，分别使用步骤(1)和(2)预训练的网络或者子网络重建训练数据集中的视频图像，这样，每个视频图像将会得到多个重建结果，包括前序帧的重建结果，非线性映射网络的重建结果，多个超分辨率重建子网络的重建结果；按照步骤(1)中的计算方法求取质量增益，选择质量增益最大的结果，该最大的结果对应的视频图像将映射到产生该结果的操作过程(即直接使用前序帧或者非线性映射或者其中一个超分辨率子网络)；不同的网络或者子网络会得到一系列的视频图像，然后使用这些视频图像再次训练对应的网络；再次重复上述过程，直到预设的训练次数；按照步骤(3)的训练，最终每个网络或者子网络将会有其对应的训练数据集，每个数据集中的视频图像及其前序图像的差异性分类将映射其所归属的网络或者子网络。

(4)判决器根据步骤(3)的训练集分类结果训练判决器的分类；为了适配不同的视频内容损失的需求，选择不同的编码配置和编码参数预先编码训练集中的视频数据，其中编码配置包括H.265/HEVC的低延时P帧、低延时B帧、随机接入B帧或全I帧；编码参数包括QP(设置20-48等)、码率(按照视频的分辨率大小可以设置0.5Mbps-20Mbps等)等。

进一步地，步骤(3)中对于重建结果的质量增益差异小于0.1，按照优先级复用前帧结果>非线性映射网络>深度最小的超分辨率网络>……>深度最大的超分辨率网络的顺序，选择优先级较高的操作。

本发明的有益效果：提出一种基于时域相关性的视频图像超分辨率重建方法。该方法通过获取视频帧的时空相关特征信息决定是否利用前序帧的重建结果，以降低不必要的重复计算。同时，结合帧间差异性与前序帧的重建情况来指导待重建帧的重建过程并进行质量增强。在进行超分辨率重建时，根据视频帧的时空域特征信息确定重建的难易程度，并选择性地进行不同算力强度的重建，在保证不同区域能够得到满足重建质量需求的算力的同时优化计算资源的分配，进而实现质量与计算量的均衡。为了充分利用前序帧对于当前帧的影响，即时序特性，本方法建议使用强化学习的方式存储前序帧的历史状态信息，并使用前序帧的重建知识指导当前图像的重建过程。通过合理地复用前序帧的结果以及充分利用图像帧间与帧内的时空特征信息，可以在保证重建质量的同时优化计算资源配置。

附图说明

图1为基于时域相关性的视频图像超分辨率重建方法流程图。

图2(a)为判决器输出分类，(b)判决器输出示例图。

图3为基于本发明所提出的一种超分辨重建网络架构，(a)超分辨率网络模型，(b)多尺度超分辨率网络示例图，(c)多输出超分辨率网络示例图。

图4为基于本发明所提出的一种非线性映射网络架构。

图5为基于本发明所提出的一种判别器网络架构。

图6为基于本发明所提出的一种联合训练网络架构，(a)超分辨率网络预训练示意图，(b)重建网络(超分辨率网络与非线性映射网络)联合训练示意图。

图7为基于本发明所得到的视频数据重建结果及与其他超分辨率重建算法的对比图。

具体实施方式

以下结合附图，对本发明的具体实施方式做进一步的详细描述。

实施例1为依据本发明提出的基于时域相关性的视频图像超分辨率重建方法流程图，其中图1为流程图，图2(a)为判决器输出分类，(b)为判决器输出分类示例图。图1中，首先对于输入的视频帧进行判断是否为起始帧，是起始帧则使用超分辨率网络进行重建。若为非起始帧则将当前帧划分为非重叠的块，可以使用H.254/AVC的宏块或者H.265/HEVC的编码树单元为块划分为依据。依次进行当前帧的块与前序帧对应位置块的变化程度的比较，该过程由一个判决器执行。判决器输出一个概率分布，并使用softmax操作映射为一个执行动作。执行的动作包括直接复用前序帧的重建结果，使用非线性映射网络重建、使用超分辨率网络重建，如图2(a)所示。最后判断视频帧输入是否结束，未结束则重复上述操作。图2(b)所示为H.265/HEVC视频测试集中的FourPeople的第100帧的判决器输出情况分布示例图。由图2(b)可以看出，很多背景区域直接复用前序帧的结果，一些具有复杂纹理的背景区域使用了非线性映射网络重建的方式。由于视频中人物区域是运动的且人眼最为关注，因此，使用了超分辨率网络进行重建。对于一些运动较低的区域，使用了浅层网络，对于运动相对较大的区域，使用了深层网络。

实施例2为依据本发明提出的一种超分辨率重建网络架构。如图3(a)所述网络架构为一种基于残差学习的网络结构，该结构通过学习原始高分辨率视频图像与低分辨率视频图像上采样后的图像的差值，能够加速训练收敛。本实施例中仅使用了当前帧P_i与其前序帧P_i-1，这主要是为了兼容实时视频业务的重建需求。同时本实施例并不限定仅使用当前帧的一个前序帧。当前帧与其前序帧进行运动补偿的处理，得到运动补偿后的帧，后与当前帧一起输入到超分辨率重建网络中进行超分辨率重建。图3(b)为多个不同深度超分辨率子网络组成的网络集合。当前帧及运动补偿后的前序帧首先进行了特征提取与结合，然后进入多个尺度的超分辨率网络中，其中每个Conv单元由Convolution、PReLU(ParametricRectified Linear Unit)、BN(Batch Normalization)三个步骤组成。其中特征提取包括了多个尺度的卷积核以提取不同维度的特征信息。本例共包括两个子网络模型(CNN1和CNN2)，分别具有4，9层的结构。本例中使用的是一种残差连接的结构，可选地可也是使用密集连接的网络结构。图3(c)为一种多输入超分辨率重建网络模型。这种网络结构具有多个出口，每个输出口具有一个特征增强层和一个重建层，本例中具有两个输出口。其训练过程为首先训练第一个输出口的Conv单元，然后固定主路径的Conv单元的参数，在次训练后续的Conv单元。

实施例3为依据本发明提出的一种非线性映射网络架构。该网络架构的设计主要是为了复用当前帧前序帧的重建结果，为了减少不必要的计算。网络的输入为当前帧前序帧的重建的结果，即残差网络学习得到的残差数据，以及当前帧与其前序帧对应的块对的差值。该网络实现了差值数据对于残差数据的非线性扭曲映射。输出为当前帧的块对应的残差数据。非线性扭曲的网络采用的是层次数较少的卷积网络。

实施例4为依据本发明提出的一种判决器网络架构。该判决器架构使用深度强化学习网络结构。其输入为当前帧与其前序帧对应块的上采样后的差值，输出为所述差值强度的概率分布v_i，使用softmax操作将其映射为序号为1、2、3、4的四种操作，分别对应直接使用前序帧重建结果、使用非线性映射网络重建、使用浅层超分辨率网络重建和使用深层超分辨率网络重建。判决器的网络主要包括了卷积层、全连接层和LSTM层。卷积层主要为了提出差值图像的特征，全连接层主要为了进行特征分布的映射，LSTM主要为了学习图像之间的长短期内联性，同时，前序帧的对应位置的块的输出结果v_i-1将作为历史数据输入到网络中。

实施例5为依据本发明提出的一个联合训练网络架构。图6(a)中使用训练数据训练深度最大的超分辨率子网络2，根据训练后得到的结果求取质量增益：δ＝Q'-Q，其中Q'是执行超分后的图像的PSNR值，Q是执行了Bicubic后的PSNR值。将δ按照从大到小的顺序排列，并将该排序映射到对应的训练图像，组成图像序列。将组成的图像序列均分为两个子序列，δ值较小的子序列对映超分辨率子网络1，δ值较大的子序列对映超分辨率子网络2。每个子序列中随机选择4/5的图像进行训练，剩余的1/5作为验证，进而完成超分辨率网络的预训练。图6(b)为联合训练的过程。首先使用四种操作方式(1.复用前序帧结果；2.使用非线性映射网络；3.使用浅层的超分辨率网络1；4.使用深层的超分辨率网络2)重建图像块x_i，得到四个δ的值，分别为0.12、0.22、0.56、0.562。由于第三个操作与第四个操作的增益相差较小，且第三个操作的优先级要高于第四个操作，因此，图像块x_i被归类于第三个操作对应的子数据集中。按照该步骤对数据集中的每个图像块进行重建，将会得到四个子数据集，使用子数据集中的图像数据训练对应的网络，然后再重复上述步骤，进行下一轮的参数优化。

实施例6为依据本发明所得到的视频数据重建结果及与其他超分辨率重建算法的对比结果。图7是H.265/HEVC中的标准测试视频序列的重建结果，其中选择了三个视频(PeopleOnStreet、BasketballDrive和FourPeople)，分别属于Class A、B和C。三个测试视频的分辨率分别为2560×1600、1920×1080和1280×720。首先使用bicubic对三个视频序列进行下采样操作，下采样因子分别为4、2、2。然后使用本发明所述的方案以及Bicubic、VESPCN、DUF分别进行重建。图7展示的是每个视频序列的第126帧的重建结果，由对比结果可知，所述方案重建效果与对比的方案质量相当。

Claims

1.一种基于时域相关性的视频图像超分辨率方法，其特征在于，包括以下步骤：

对于输入的低分辨率视频的前N帧进行超分辨率重建，其中，低分辨率视频的分辨率是相对于超分辨率重建后视频的分辨率较低；对于N帧后续的低分辨率视频帧，首先进行块的划分，对于块划分后的当前视频帧，将逐块与其前序帧的对应位置的块进行比较，按照比较结果选择不同的重建网络进行超分辨率重建；

所述的比较由判决器执行，对当前帧的图像块与前序帧的对应位置的图像块进行差异性判决，输出一种概率分布，并使用softmax操作映射为不同的操作输出；判决器的输出指向选择的超分辨率操作类型，分为直接复用对应的前序帧块的重建结果、使用非线性映射网络进行超分辨率重建、使用浅层超分辨率重建网络重建、使用深层超分辨率重建网络重建；

该方法包括一种联合的网络训练方法，包括四个训练部分：(1)超分辨率网络的初步训练；(2)非线性映射网络的初步训练；(3)联合训练；(4)判决器的训练；

(1)使用训练数据训练深度最大的超分辨率子网络，根据训练后得到的结果求取质量增益：δ＝Q'-Q，其中Q'是执行超分辨率重建后的图像的质量评估结果，Q是执行了Bicubic后的质量的评估结果；将δ按照从大到小的顺序排列，并将该排列映射到对应的训练图像，组成图像序列；将组成的图像序列均分为与超分辨率子网络的个数相同的子序列，δ值较小的子序列对映深度较小的超分辨率子网络，δ值较大的子序列对映深度较大的超分辨率子网络；每个子序列中随机选择4/5的图像进行训练，剩余的1/5作为验证；

(3)联合步骤(1)和(2)两个初步训练的结果，分别使用步骤(1)和(2)预训练的网络或者子网络重建训练数据集中的视频图像；按照步骤(1)中的计算方法求取质量增益，选择质量增益最大的结果，该最大的结果对应的视频图像将映射到产生该结果的操作过程；不同的网络或者子网络会得到一系列的视频图像，然后使用这些视频图像再次训练对应的网络；再次重复上述过程，直到预设的训练次数；

(4)判决器根据步骤(3)的训练集分类结果训练判决器的分类；为了适配不同的视频内容损失的需求，选择不同的编码配置和编码参数预先编码训练集中的视频数据，其中编码配置包括H.265/HEVC的低延时P帧、低延时B帧、随机接入B帧或全I帧；编码参数包括QP、码率。

2.根据权利要求1所述的基于时域相关性的视频图像超分辨率方法，其特征在于，当前视频帧中的块与其对应的前序帧的块相同时，则直接复用对应的前序帧块的重建结果；非线性映射网络主要执行背景区域中处于纹理复杂区域的图像块的超分辨率重建；所述超分辨率重建网络是多个子网络的网络集合或者是一个多输出的网络，当为多个子网络的网络集合时，图像块的重建难易程度与选择的重建网络的深度成正比，即重建越容易，网络深度越浅，反之亦然，当为多输出的网络时，图像块的重建越难，网络输出的位置越靠后，反之亦然。

3.根据权利要求1所述的基于时域相关性的视频图像超分辨率方法，其特征在于，对于N帧后续的低分辨率视频帧，首先进行块的划分，按照视频编码过程中的宏块或者编码树单元进行划分。

4.根据权利要求1所述的基于时域相关性的视频图像超分辨率方法，其特征在于，

步骤(3)中对于重建结果的质量增益差异小于0.1，按照优先级复用前帧结果>非线性映射网络>深度最小的超分辨率网络>……>深度最大的超分辨率网络的顺序，选择优先级较高的操作。