CN115633145A

CN115633145A - 基于循环Unet网络的视频去隔行及超分的方法

Info

Publication number: CN115633145A
Application number: CN202211402681.5A
Authority: CN
Inventors: 杨常星; 凌云; 钟宇清; 宋一平; 宋蕴
Original assignee: Hangzhou Nationalchip Science & Technology Co ltd
Current assignee: Hangzhou Nationalchip Science & Technology Co ltd
Priority date: 2022-11-09
Filing date: 2022-11-09
Publication date: 2023-01-20
Anticipated expiration: 2042-11-09
Also published as: CN115633145B

Abstract

本发明公开了基于循环Unet网络的视频去隔行及超分的方法。本发明方法是基于循环Unet神经网络的多帧输入多帧输出自适应视频去隔行，每次输入当前相邻两帧数据，以及前一次预测的两场去隔行预测数据，将上述数据输入到Unet神经网络中，输出当前次预测的两场去隔行数据，及结合输入数据恢复的去隔行数据。若输入为标清数据，输出要求高清数据，则将去隔行数据输入到SRnet(超分辨率恢复网络)中，输出高清的去隔行数据。若无需数据转换要求，则直接输出去隔行数据。本发明的循环Unet神经网络具有强大的视频去隔行复原能力，无需场景判断能够自适应的处理不同场景的隔行数据，获得理想的去隔行效果。

Description

基于循环Unet网络的视频去隔行及超分的方法

技术领域

本发明属于视频图像处理技术领域，具体涉及一种基于循环Unet网络的视频去隔行及超分的方法。

背景技术

在传输电视信号时，由于受限于传输带宽的约束，对电视信号采用了隔行扫描技术传输。即将电视帧分成两个电视场分别扫描，按奇数扫描行构成的场叫奇数场(或顶场)，按偶数扫描行构成的场叫偶数场(或底场)，奇数和偶数场交错组成一个电视帧。实际传输时，又分为顶场优先和底场优先两种情景。以顶场优先为例，传输的隔行帧数据来源于当前帧的顶场数据，以及下一帧的底场数据。

隔行扫描技术传输节省了传输带宽，同样带来了一些问题。首先由于传输的每帧来源于前一帧的顶场和当前帧的底场(或前一帧的底场和当前帧的顶场)构成的，导致隔行扫描的图像垂直清晰度降低。另外隔行扫描还会带来明显的场间闪烁，运动物体易产生羽化效应，近水平直线易则产生边沿锯齿化效应等等。为解决上述由场效应引起的问题，产生了去隔行技术。如：针对静止画面的奇偶场直接合并技术、仅保留单场的场复制合并技术和内插补点技术、结合奇偶场的场融合技术、基于运动补偿的去隔行技术等。但上述去隔行方法大都针对特定的某一类隔行数据有效，整体去隔行效果不佳。基于场景判断的方法，则集成了上述的多个方法，但该方法很容易由于场景误判，造成去隔行错误，引起去隔行效果不佳。而基于运动补偿的去隔行技术在上述方法中去隔行效果相对较好，但该方法所需硬件资源较大，造成产品的成本高。

深度神经网络在各领域不断取得突破性进展，其技术已被推广到诸多相关领域，相比其它传统机器学习方法，神经网络模型具有更强的拟合表征能力。Unet神经网络是一种轻量级网络结构，且在图像处理领域被证实是一种有效的特征提取网络。RNN(RecurrentNeural Network,RNN)神经网络则具有将先前的信息连接到当前的任务中，可用于前后帧之间信息的互补。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于循环Unet网络的视频去隔行及超分的方法，用以解决现有技术在应对不同场景采用不同去隔行处理手段，而由于场景判断不准确，导致复原的视频质量不理想问题。

本发明包括去隔行任务和超分任务，去隔行任务使用Unet神经网络，超分任务使用SRnet神经网络；具体是：

步骤(1)构建Unet神经网络；所述的Unet神经网络包括特征提取模块、特征融合模块、特征恢复模块。

进一步，所述的特征提取模块接收Unet神经网络的输入数据，包括一个卷积块和三个残差堆；第一卷积块包括两个3×3标准卷积和两个非线性映射层prelu；每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu；

所述的特征融合模块对特征提取模块输出的低维特征和高维特征进行特征融合，包括三个残差堆，每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu、一个2×2反卷积；

所述的特征恢复模块将特征融合后数据恢复去隔行数据，作为Unet神经网络的输出，包括两个3×1标准卷积和一个3×3标准卷积。

步骤(2)构建SRnet神经网络；所述的SRnet神经网络为超分辨恢复网络，包括两个卷积块和两个残差堆。

进一步，第一卷积块包括一个3×3标准卷积、两个非线性映射层prelu、一个3×3反卷积，第二卷积块包括一个3×3标准卷积、一个非线性映射层prelu；每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu。

步骤(3)对Unet神经网络和SRnet神经网络进行联合训练；

首先生成Unet神经网络和SRnet神经网络的训练数据，训练数据尽可能覆盖到去隔行的应用场景(如包含字幕、运动目标、静止画面、近水平直线数据等)。

Unet神经网络预测数据DF对应标签数据LF，去隔行效果约束的损失函数

SRnet神经网络预测数据SF对应标签数据LS，超分效果约束的损失函数

Γ₁表示L1范数，Γ₂表示L2范数，

表示一阶梯度算子，设定的约束因子0.1≤α≤0.5。

联合训练总损失函数Loos＝Loos1+βLoos2，设定的约束因子0.5≤β≤1.0。

Unet神经网络输出用于约束视频去隔行效果，SRnet神经网络输出用于约束视频超分效果，均采用L1+L2范数约束，加入L2是为了保证输出画面的平滑性。联合训练Loos达到要求后，获得训练后的Unet神经网络和SRnet神经网络。

步骤(4)将输入的第1帧数据F₁抽成两个场数据，分别为底场数据F_1,b和顶场数据F_1,t；第2帧数据F₂抽成底场数据F_2,b和顶场数据F_2,t；将F_1,b、F_1,t、F_2,b、F_2,t和两个初始化为0的场数据作为Unet神经网络的第一次输入；Unet神经网络本次输出第1帧底场数据对应的顶场预测场数据f_1,t、第2帧顶场数据对应的底场预测场数据f_2,b、第1帧底场去隔行帧数据DF₁、第2帧顶场去隔行帧数据DF₂。

步骤(5)将输入的第3帧数据F₃抽成两个场数据，分别为底场数据F_3,b和顶场数据F_3,t；将F_2,b、F_2,t、F_3,b、F_3,t和f_1,t、f_2,b作为Unet神经网络的第二次输入；Unet神经网络本次输出第2帧底场数据对应的顶场预测场数据f_2,t、第3帧顶场数据对应的底场预测场数据f_3,b、第2帧底场去隔行帧数据DF₃、第3帧顶场去隔行帧数据DF₄。

依次类推，将输入的第n′帧数据F_n′抽成底场数据F_n′,b和顶场数据F_n′,t，第n′+1帧数据F_n′+1抽成底场数据F_n′+1,b和顶场数据F_n′+1,t，帧序号n′＝2,3,…,N，N为输入总帧数；将F_n′,b、F_n′,t、F_n′+1,b、F_n′+1,t和f_n′-1,t、f_n′,b作为Unet神经网络的第n′次输入；Unet神经网络本次输出第n′帧底场数据对应的顶场预测场数据f_n′,t、第n′+1帧顶场数据对应的底场预测场数据f_n′+1,b、第n′帧底场去隔行帧数据DF_2n′-1、第n′+1帧顶场去隔行帧数据DF_2n′。

进一步，将F_n,b在抽帧方向通过一个3×3卷积插值函数μ₁得到中间变量D1_2n-1,D1_2n-1＝μ₁(F_n,b)，进而得到将去隔行中间数据D3_2n-1＝D1_2n-1+D2_2n-1，D2_2n-1为特征恢复模块中3×1标准卷积输出的预测残差结果；

将D3_2n-1经特征恢复模块中3×3标准卷积得到第n帧底场数据对应的顶场预测场数据f_n,t＝conv(D3_2n-1)，conv(·)表示3×3平滑卷积。

将F_n+1,t在抽帧方向通过另一个3×3卷积插值函数μ₂得到中间变量D4_2n,D4_2n＝μ₂(F_n+1,t)，进而得到将去隔行中间数据D6_2n＝D4_2n+D5_2n，D5_2n为特征恢复模块中3×1标准卷积输出的预测残差结果；

将D6_2n经特征恢复模块中3×3标准卷积得到第n+1帧顶场数据对应的底场预测场数据f_n+1,b＝conv(D6_2n)，conv(·)表示3×3平滑卷积。

将F_n,b和f_n,t按顶底场交错数据格式，合成DF_2n-1；将F_n+1,t和f_n+1,b按顶底场交错数据格式，合成DF_2n。

步骤(6)将DF_2n-1和DF_2n输入SRnet神经网络，得到放大的高清数据SF_2n-1和SF_2n，输出高清数据，帧序号n＝1,2,…,N；SF_2n-1＝S1_2n-1+S2_2n-1，SF_2n＝S1_2n+S2_2n，中间变量S1_2n-1＝μ(DF_2n-1)，S1_2n＝μ(DF_2n)，μ为放大函数，S2_2n-1和S2_2n为SRnet神经网络的第二个残差堆输出。

本发明方法借鉴RNN思想，所提出的循环Unet神经网络，能够充分的挖掘前后帧之间，以及帧本身的信息，最终得到理想的去隔行复原效果。此外，根据实际应用需求，去隔行后加入超分辨率恢复处理，可根据实际的需求进行选择。本发明所提出的视频去隔行方法，不仅去隔行效果好，而且算力小，易于硬件部署。本发明针对实际需求，如果处理的是标清数据，视频去隔行后，需要将标清转换成高清数据输出，故本发明方法在去隔行后加入图像的放大处理(SRnet)，该操作可依据实际需求进行选择。

附图说明

图1是本发明方法实施例流程图；

图2是Unet和SRnet神经网络示意图。

具体实施方式

以下结合附图，借助实施例详细描述本发明。但应注意到：除非另外特殊说明，否则在实施例中涉及的数字表达式、字母表达式和数值不限定本发明的范围，提供这写实施例仅为了让相关人员更便于理解本发明。对相关领域的技术人员公知的技术方法不做过多描述。但一定条件下，本发明所述技术应当被视为说明书的一部分。

基于循环Unet网络的视频去隔行及超分的方法，包括去隔行任务和超分任务，去隔行任务使用Unet神经网络，超分任务使用SRnet神经网络。具体流程如图1所示，Unet和SRnet神经网络如图2所示：

步骤(1)构建Unet神经网络；Unet神经网络包括特征提取模块、特征融合模块、特征恢复模块。

特征提取模块接收Unet神经网络的输入数据，包括一个卷积块和三个残差堆；第一卷积块包括两个3×3标准卷积和两个非线性映射层prelu；每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu。

特征融合模块对特征提取模块输出的低维特征和高维特征进行特征融合，包括三个残差堆，每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu、一个2×2反卷积。

特征恢复模块将特征融合后数据恢复去隔行数据，作为Unet神经网络的输出，包括两个3×1标准卷积和一个3×3标准卷积。

步骤(2)构建SRnet神经网络；SRnet神经网络为超分辨恢复网络，包括两个卷积块和两个残差堆。第一卷积块包括一个3×3标准卷积、两个非线性映射层prelu、一个3×3反卷积，第二卷积块包括一个3×3标准卷积、一个非线性映射层prelu；每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu。

步骤(3)对Unet神经网络和SRnet神经网络进行联合训练。

Γ₁表示L1范数，Γ₂表示L2范数，

表示一阶梯度算子，设定的约束因子0.1≤α≤0.5，本实施例α＝0.3。

联合训练总损失函数Loos＝Loos1+βLoos2，设定的约束因子0.5≤β≤1.0，本实施例β＝0.6。

具体操作方法是：将F_n,b在抽帧方向通过一个3×3卷积插值函数μ₁得到中间变量D1_2n-1,D1_2n-1＝μ₁(F_n,b)，进而得到将去隔行中间数据D3_2n-1＝D1_2n-1+D2_2n-1，D2_2n-1为特征恢复模块中3×1标准卷积输出的预测残差结果，帧序号n＝1,2,…,N；

步骤(6)将DF_2n-1和DF_2n输入SRnet神经网络，得到放大的高清数据SF_2n-1和SF_2n，输出高清数据；SF_2n-1＝S1_2n-1+S2_2n-1，SF_2n＝S1_2n+S2_2n，中间变量S1_2n-1＝μ(DF_2n-1)，S1_2n＝μ(DF_2n)，μ为放大函数，S2_2n-1和S2_2n为SRnet神经网络的第二个残差堆输出。

Claims

1.基于循环Unet网络的视频去隔行及超分的方法，包括去隔行任务和超分任务，去隔行任务使用Unet神经网络，超分任务使用SRnet神经网络；其特征在于：

步骤(1)构建Unet神经网络；所述的Unet神经网络包括特征提取模块、特征融合模块、特征恢复模块；

步骤(2)构建SRnet神经网络；所述的SRnet神经网络为超分辨恢复网络，包括两个卷积块和两个残差堆；

步骤(3)对Unet神经网络和SRnet神经网络进行联合训练；

首先生成Unet神经网络和SRnet神经网络的训练数据；

Γ₁表示L1范数，Γ₂表示L2范数，

表示一阶梯度算子，联合训练总损失函数Loos＝Loos1+βLoos2，α和β为设定的约束因子；

联合训练Loos达到要求后，获得训练后的Unet神经网络和SRnet神经网络；

步骤(4)将输入的第1帧数据F₁抽成两个场数据，分别为底场数据F_1,b和顶场数据F_1,t；第2帧数据F₂抽成底场数据F_2,b和顶场数据F_2,t；将F_1,b、F_1,t、F_2,b、F_2,t和两个初始化为0的场数据作为Unet神经网络的第一次输入；Unet神经网络本次输出第1帧底场数据对应的顶场预测场数据f_1,t、第2帧顶场数据对应的底场预测场数据f_2,b、第1帧底场去隔行帧数据DF₁、第2帧顶场去隔行帧数据DF₂；

步骤(5)将输入的第3帧数据F₃抽成两个场数据，分别为底场数据F_3,b和顶场数据F_3,t；将F_2,b、F_2,t、F_3,b、F_3,t和f_1,t、f_2,b作为Unet神经网络的第二次输入；Unet神经网络本次输出第2帧底场数据对应的顶场预测场数据f_2,t、第3帧顶场数据对应的底场预测场数据f_3,b、第2帧底场去隔行帧数据DF₃、第3帧顶场去隔行帧数据DF₄；

依次类推，将输入的第n′帧数据F_n′抽成底场数据F_n′,b和顶场数据F_n′,t，第n′+1帧数据F_n′+1抽成底场数据F_n′+1,b和顶场数据F_n′+1,t，帧序号n′＝2,3,…,N，N为输入总帧数；将F_n′,b、F_n′,t、F_n′+1,b、F_n′+1,t和f_n′-1,t、f_n′,b作为Unet神经网络的第n′次输入；Unet神经网络本次输出第n′帧底场数据对应的顶场预测场数据f_n′,t、第n′+1帧顶场数据对应的底场预测场数据f_n′+1,b、第n′帧底场去隔行帧数据DF_2n′-1、第n′+1帧顶场去隔行帧数据DF_2n′；

2.如权利要求1所述的基于循环Unet网络的视频去隔行及超分的方法，其特征在于：

所述的特征提取模块接收Unet神经网络的输入数据，包括一个卷积块和三个残差堆；卷积块包括两个3×3标准卷积和两个非线性映射层prelu；每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu；

3.如权利要求2所述的基于循环Unet网络的视频去隔行及超分的方法，其特征在于：

将F_n,b在抽帧方向通过一个3×3卷积插值函数μ₁得到中间变量D1_2n-1,D1_2n-1＝μ₁(F_n,b)，进而得到将去隔行中间数据D3_2n-1＝D1_2n-1+D2_2n-1，D2_2n-1为特征恢复模块中3×1标准卷积输出的预测残差结果；

将D3_2n-1经特征恢复模块中3×3标准卷积得到第n帧底场数据对应的顶场预测场数据f_n,t＝conv(D3_2n-1)，conv(·)表示3×3平滑卷积；

将D6_2n经特征恢复模块中3×3标准卷积得到第n+1帧顶场数据对应的底场预测场数据f_n+1,b＝conv(D6_2n)，conv(·)表示3×3平滑卷积；

4.如权利要求1所述的基于循环Unet网络的视频去隔行及超分的方法，其特征在于：

所述的SRnet神经网络的第一卷积块包括一个3×3标准卷积、两个非线性映射层prelu、一个3×3反卷积，第二卷积块包括一个3×3标准卷积、一个非线性映射层prelu；每个残差堆包括两个残差子模块，每个残差子模块包括一个1×1标准卷积、一个3×3可分离卷积、一个非线性映射层prelu。

5.如权利要求1所述的基于循环Unet网络的视频去隔行及超分的方法，其特征在于：所述的约束因子0.1≤α≤0.5，0.5≤β≤1.0。