CN117376583B

CN117376583B - 一种面向高帧率视频的可回溯帧率转换模型构建方法

Info

Publication number: CN117376583B
Application number: CN202311201900.8A
Authority: CN
Inventors: 刘畅; 白鹤鸣; 姜芮芮; 张佳琳; 王振国
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-06-21
Anticipated expiration: 2043-09-18
Also published as: CN117376583A

Abstract

本发明公开了一种面向高帧率视频的可回溯帧率转换模型构建方法，属于视频帧率转换技术领域。解决了现有帧率转换技术将帧率上、下变换割裂处理所引发的难以对视频源进行真实回溯的技术问题。其技术方案为：包括以下步骤：S1、对高帧率视频与低帧率视频之间的帧率转换关系进行建模；S2、从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征，并进行多元时空特征的融合；S3、从时间以及空间两个层面设计目标损失函数；S4、构建面向高帧率视频的可回溯帧率转换模型。本发明的有益效果为：本发明可在受限带宽下，实现以多元时空特征为指导的高帧率视频的帧率转换，进而实现高帧率视频的可回溯压缩与高质量重建。

Description

一种面向高帧率视频的可回溯帧率转换模型构建方法

技术领域

本发明涉及视频帧率转换技术领域，具体涉及一种面向高帧率视频的可回溯帧率转换模型构建方法。

背景技术

高帧率视频具有流畅感强、细腻度高的特点，开展面向高帧率视频的可回溯帧率转换模型构建方法的研究，有助于突破高帧率视频压缩效率，对于发展视频压缩新理论具有重要价值。

帧率决定视频流畅感。研究表明，伴随帧率增加，视频流畅感和画面细腻度也会随之提升，特别是对于运动镜头的画面跳停和运动模糊现象也将得到极大改善，视觉体验更加舒适。然而，帧率提升也使得视频数据量成倍激增，成为制约高帧率视频普及应用的瓶颈。因此，为适应高帧率视频的应用需求，帧率转换技术应运而生，其可分为帧率下变换技术和帧率上变换技术。

帧率下变换技术通过在编码端以“丢帧”方式降低待编码视频帧率，减少原始视频数据量，使压缩编码后的码流能够与带宽资源相匹配，以缓解“传不了”的窘境。如周等学者在文献《H.264码率控制跳帧算法的优化》中提出的帧率下变化方法，其原理大都以编码块的运动矢量为依据来判定视频帧的取舍，但该方法性能过于依赖运动搜索得到的运动矢量精确度，而运动矢量的获得又受到众多编码参数影响，较粗糙的判断粒度使得方法不敏感，阈值设置困难，准确度有限，难以客观衡量邻近帧之间的关联程度，应用场景受限。此外，肖等学者在文献《自适应去帧/插帧视频处理》中基于直接“丢帧”的帧率下变换，必定会造成“被丢弃帧”整帧信息的全部丢失，邻近帧之间的时空关联性遭到破坏，因不能保留必要的原始视频信息继而引起“过压缩”，导致解码视频出现画面抖动等现象，大大降低观感舒适度，这是制约当前帧率下变换技术发展的根本问题。

帧率上变换技术通过在解码端以“插帧”方式提升解码视频帧率，使重建视频流畅感更强。如RAK等学者在文献《基于受限对称光流的运动补偿插帧》中提出的基于块的运动补偿的帧率上变换技术以及ZHOU等学者在文献《基于外观流的视点合成》中提出的基于光流的运动补偿的帧率上变换技术。但前者会因编码块的误匹配导致内插帧出现块效应，影响帧率提升效果；后者虽然能更细致的描述物体运动，但由于其在实际应用中受限于光照变化，导致光流估计准确性不高，进而影响内插帧的像素合成。

在人工智能浪潮下，卷积神经网络模型对视频特征的提取能力相较于传统方法有了突破式进步，研究发现从时、空两个维度提取视频特征能更好的表征视频信息。基于此，有研究者提出基于多元时空特征的插帧网络，其中，最具代表性的是BAO等人在文献《基于深度感知的视频插帧》中提出的一种融合深度信息的多元时空特征插帧方法。但遗憾的是，该方法对多元时空特征只是简单拼接，这制约了多元时空特征表征视频信息的能力。更值得深思的是，现有基于深度学习的帧率上变换的插帧对象主要是已丢失必要视频信息的低帧率视频。必要视频信息的先天性丢失，势必会抑制卷积神经网络对视频多元时空特征的提取能力，而多元时空特征能否高质量表征原始视频信息，直接影响插帧后重建视频流畅感和画面细腻度。

由此可见，现有帧率转换技术虽然包含帧率上、下变换过程，但两个过程相对独立，各司其责，将视频“压缩—传输—重建”全流程割裂开来。帧率下变换仅着眼于压缩码流是否适配于传输带宽，未充分考虑在解码端发生插帧操作时对必要视频信息的需求；帧率上变换大多是基于降帧后的低帧率视频来提取有限的时空特征以尽可能提高内插帧质量，忽视了在编码端因直接“丢帧”所导致的视频信息先天不足的隐患。因此，以“压缩、重建一体化”为核心思想，探明利用多元时空特征表征视频信息的原理，深入探究在多元时空特征指导下融通帧率上、下变换的帧率转换策略，对实现高帧率视频的可回溯压缩具有重要意义。

发明内容

本发明的目的在于提供一种面向高帧率视频的可回溯帧率转换模型构建方法，以解决现有帧率转换技术将帧率上、下变换割裂处理所引发的难以对视频源进行真实回溯的技术问题，最终在受限带宽下，实现高帧率视频的可回溯压缩与高质量重建，并在客观性能指标与主观视觉质量上证明了本发明方法的有效性。

本发明的发明思想为：本发明提供了一种面向高帧率视频的可回溯帧率转换模型构建方法，首先研究高帧率视频与低帧率视频之间的帧率转换关系，然后，对从空间和时间两个维度提取的视频信息特征进行融合，之后，设计包含时间和空间层面的目标损失函数，最后，根据上述步骤构建面向高帧率视频的可回溯帧率转换模型。

为了实现上述发明目的，本发明采用的技术方案具体为：一种面向高帧率视频的可回溯帧率转换模型构建方法，包括以下步骤：

步骤一、对高帧率视频与低帧率视频之间的帧率转换关系进行建模；

步骤二、从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征，并进行多元时空特征的融合；

步骤三、从时间以及空间两个层面设计目标损失函数；

步骤四、构建面向高帧率视频的可回溯帧率转换模型。

进一步地，所述步骤一具体包括以下步骤：

2.1、对高帧率视频到低帧率视频的降帧过程进行建模，其公式为其中，S表示降帧映射函数，/>是原高帧率视频，/>是降帧后的低帧率视频，α表示降帧过程中的参数；

2.2、对低帧率视频到高帧率视频的升帧过程进行建模，其公式为其中，U表示升帧映射函数，/>是升帧后的重建高帧率视频，β表示升帧过程中的参数。

进一步地，步骤二具体包括以下步骤：

3.1、从视频帧中提取局部空间特征和时间特征，并将局部空间特征送入空域LSTM网络，学习局部空间特征之间的空间相关性；

3.2、将空域LSTM网络输出的特征送入时域LSTM网络，学习局部空间特征之间的时间相关性；

3.3、将时域LSTM网络输出的特征送入全连接层，得到与视频帧的时间特征同一维度下的全局空间特征；

3.4、将视频帧的时间特征和全局空间特征进行横向级联，得到融合时空特征信息的特征图N_C，H，W，并对其进行特征压缩，得到包含时空特征信息的压缩特征图N_C，1，1；

3.5、对压缩特征图N_C，1，1进行激励学习，得到激励学习后的特征图M_C，1，1，然后利用Sigmoid激活函数将其作为权重与N_C，H，W逐通道相乘，得到融合后的多元时空特征图M_C，H，W。

进一步地，所述步骤三具体包括以下步骤：

4.1、利用L2范数从时间层面计算降帧和升帧过程中所获时间特征的差异，时间特征损失函数为其中/>为降帧过程中的时间特征，其公式为其中f(·)表示双线性插值操作，I^t和I^t+1表示降帧过程中的邻近帧，F_i→t+1和F_t+1→t表示I^t和I^t+1之间的双向光流，/>为升帧过程中的时间特征，其公式为/>其中f(·)表示双线性插值操作，/>和表示升帧过程中的邻近帧，/>和/>表示/>和/>之间的双向光流；

4.2、利用KL散度和L1范数从空间层面计算降帧和升帧过程中所获空间特征的差异，空间特征损失函数为其中p^t和/>分别表示降帧和升帧过程中的纹理特征的像素分布，I^t和/>分别表示降帧和升帧过程中的纹理特征。

进一步地，所述步骤四具体包括以下步骤：

5.1、从时、空两个维度提取原始高帧率视频的时间特征和空间特征，并对其进行时空融合；

5.2、利用融合后的多元时空特征生成满足码率约束条件的低帧率视频；

5.3、利用时空特征恢复模块恢复出隐匿于低帧率视频中的必要视频信息的时空特征，并对其进行时空融合；

5.4、利用融合后的多元时空特征指导回溯原始高帧率视频；

5.5、在模型的训练过程中，利用降帧过程中提取的多元时空特征从时间和空间两个维度监督升帧过程。

与现有技术相比，本发明的有益效果为：

(1)将压缩重建一体化的帧率转换模型应用在高帧率视频帧率转换技术领域，利用深度学习拟合低帧率视频和高帧率视频之间的帧率转换关系，对原始高帧率视频进行可回溯的帧率转换，并取得了良好的效果。

(2)通过构建面向高帧率视频的可回溯帧率转换模型，有效解决了现有帧率转换技术将帧率上、下变换割裂处理所引发的难以对视频源进行真实回溯的问题。

(3)通过在2倍帧率转化尺度下，与先经自适应去帧、再经MEMC-Net插帧网络的主流帧率转换方法比较，重建视频的主、客观质量均有所提升，证实了该方法在高帧率视频帧率转换领域的应用潜力。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1为本发明提供的一种面向高帧率视频的可回溯帧率转换模型构建方法的流程图。

图2为本发明中多元时空特征融合的示意图。

图3为本发明中构建的面向高帧率视频的可回溯帧率转换模型示意图。

图4为本发明在2倍帧率转换尺度下所提模型与对比方法在客观性能指标上的比较结果示意图。

图5为本发明在2倍帧率转换尺度下所提模型与对比方法在主观视觉质量上的比较结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1

参见图1至图4，本实施例提供其技术方案为，一种面向高帧率视频的可回溯帧率转换模型构建方法，包括以下步骤：

步骤一，对高帧率视频与低帧率视频之间的帧率转换关系进行建模；

步骤二，从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征，并进行多元时空特征的融合；

步骤三，从时间以及空间两个层面设计目标损失函数；

步骤四，构建面向高帧率视频的可回溯帧率转换模型。

具体地，步骤一中，对高帧率视频与低帧率视频之间的帧率转换关系进行建模，包括下述步骤：

1)对高帧率视频到低帧率视频的降帧过程进行建模，其公式为其中，S表示降帧映射函数，/>是原高帧率视频，/>是降帧后的低帧率视频，α表示降帧过程中的参数；

2)对低帧率视频到高帧率视频的升帧过程进行建模，其公式为其中，U表示升帧映射函数，/>是升帧后的重建高帧率视频，β表示升帧过程中的参数。

具体地，步骤二中，参照图2，从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征，并进行多元时空特征的融合，包括下述步骤：

1)从视频帧中提取局部空间特征和时间特征，并将局部空间特征送入空域LSTM网络，学习局部空间特征之间的空间相关性；

2)将空域LSTM网络输出的特征送入时域LSTM网络，学习局部空间特征之间的时间相关性；

3)将时域LSTM网络输出的特征送入全连接层，得到与视频帧的时间特征同一维度下的全局空间特征；

4)将视频帧的时间特征和全局空间特征进行横向级联，得到融合时空特征信息的特征图N_C，H，W，并对其进行特征压缩，得到包含时空特征信息的压缩特征图N_C,1，1；

5)对压缩特征图N_C,1，1进行激励学习，得到激励学习后的特征图M_C,1，1，然后利用Sigmoid激活函数将其作为权重与N_C，H，W逐通道相乘，得到融合后的多元时空特征图M_C，H，W。

具体地，步骤三中，从时间以及空间两个层面设计目标损失函数，包括下述步骤：

1)利用L2范数从时间层面计算降帧和升帧过程中所获时间特征的差异，时间特征损失函数为其中/>为降帧过程中的时间特征，其公式为其中f(·)表示双线性插值操作，I^t和I^t+1表示降帧过程中的邻近帧，F_i→t+1和F_t+1→t表示I^t和I^t+1之间的双向光流，/>为升帧过程中的时间特征，其公式为/>其中f(·)表示双线性插值操作，/>和表示升帧过程中的邻近帧，/>和/>表示/>和/>之间的双向光流；

2)利用KL散度和L1范数从空间层面计算降帧和升帧过程中所获空间特征的差异，空间特征损失函数为其中p^t和/>分别表示降帧和升帧过程中的纹理特征的像素分布，I^t和/>分别表示降帧和升帧过程中的纹理特征。

具体地，步骤四中，参照图3，构建面向高帧率视频的可回溯帧率转换模型，包括下述步骤：

1)从时、空两个维度提取原始高帧率视频的时间特征和空间特征，并对其进行时空融合；

2)利用融合后的多元时空特征生成满足码率约束条件的低帧率视频；

3)利用时空特征恢复模块恢复出隐匿于低帧率视频中的必要视频信息的时空特征，并对其进行时空融合；

4)利用融合后的多元时空特征指导回溯原始高帧率视频；

5)在模型的训练过程中，利用降帧过程中提取的多元时空特征从时间和空间两个维度监督升帧过程。

为了检验本实施例提出方法的性能，将本实施例的方法与先经自适应去帧、再经MEMC-Net插帧网络的主流帧率转换方法进行了对比。客观评价上，采用衡量图像质量的两大客观指标，即峰值信噪比PSNR和结构相似度SSIM作为评价标准。实验中的数据集由通用测试序列中50帧/s和来自YouTube的60帧/s的逐行扫描高帧率视频组成。

本发明在2倍帧率转化尺度下与对比方法在客观性能指标上的实验对比结果见图4。从客观性能指标峰值信噪比PSNR上来看，本实施例的方法的PSNR为35.99dB，优于对比方法的33.14dB。从客观性能指标结构相似度SSIM上来看，本实施例的方法的SSIM为0.968，优于对比方法的0.939。

实施例2

在实施例1的基础上，本实施例在2倍帧率转化尺度下与对比方法在主观性能指标上的实验对比结果见图5。主观评价上，采用主观视觉质量作为评价标准。从主观性能指标主观视觉质量上来看，本实施例的方法对于记分牌(上侧方框)与20号球员的腿部(下侧方框)，对比方法的重建视频存在较为明显的运动模糊，而本实施例的方法则将局部细节恢复得更加逼真，在视频帧的信息保留与细节呈现上均更胜一筹。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向高帧率视频的可回溯帧率转换模型构建方法，其特征在于，包括以下步骤：

S1、对高帧率视频与低帧率视频之间的帧率转换关系进行建模；

S2、从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征，并进行多元时空特征的融合；

S3、从时间以及空间两个层面设计目标损失函数；

S4、构建面向高帧率视频的可回溯帧率转换模型；

所述步骤S1包括以下步骤：

S11、对高帧率视频到低帧率视频的降帧过程进行建模，其公式为其中，S表示降帧映射函数，/>是原高帧率视频，/>是降帧后的低帧率视频，α表示降帧过程中的参数；

S12、对低帧率视频到高帧率视频的升帧过程进行建模，其公式为其中，U表示升帧映射函数，/>是升帧后的重建高帧率视频，β表示升帧过程中的参数；

所述步骤S2包括以下步骤：

S21、从视频帧中提取局部空间特征和时间特征，并将局部空间特征送入空域LSTM网络，学习局部空间特征之间的空间相关性；

S22、将空域LSTM网络输出的特征送入时域LSTM网络，学习局部空间特征之间的时间相关性；

S23、将时域LSTM网络输出的特征送入全连接层，得到与视频帧的时间特征同一维度下的全局空间特征；

S24、将视频帧的时间特征和全局空间特征进行横向级联，得到融合时空特征信息的特征图N_C,H,W，并对其进行特征压缩，得到包含时空特征信息的压缩特征图N_C,1,1；

S25、对压缩特征图N_C,1,1进行激励学习，得到激励学习后的特征图M_C,1,1，然后利用Sigmoid激活函数将其作为权重与N_C,H,W逐通道相乘，得到融合后的多元时空特征图M_C,H,W；

所述步骤S3包括以下步骤：

S31、利用L2范数从时间层面计算降帧和升帧过程中所获时间特征的差异，时间特征损失函数为其中/>为降帧过程中的时间特征，其公式为其中f(·)表示双线性插值操作，I^t和I^t+1表示降帧过程中的邻近帧，F_t→t+1和F_t+1→t表示I^t和I^t+1之间的双向光流，/>为升帧过程中的时间特征，其公式为/>其中f(·)表示双线性插值操作，/>和表示升帧过程中的邻近帧，/>和/>表示/>和/>之间的双向光流；

S32、利用KL散度和L1范数从空间层面计算降帧和升帧过程中所获空间特征的差异，空间特征损失函数为其中p^t和/>分别表示降帧和升帧过程中的纹理特征的像素分布，I^t和/>分别表示降帧和升帧过程中的纹理特征；

所述步骤S4包括以下步骤：

S41、从时、空两个维度提取原始高帧率视频的时间特征和空间特征，并对其进行时空融合；

S42、利用融合后的多元时空特征生成满足码率约束条件的低帧率视频；

S43、利用时空特征恢复模块恢复出隐匿于低帧率视频中的必要视频信息的时空特征，并对其进行时空融合；

S44、利用融合后的多元时空特征指导回溯原始高帧率视频；

S45、在模型的训练过程中，利用降帧过程中提取的多元时空特征从时间和空间两个维度监督升帧过程。