CN112767250B

CN112767250B - 一种基于自监督学习的视频盲超分辨率重建方法及系统

Info

Publication number: CN112767250B
Application number: CN202110067977.5A
Authority: CN
Inventors: 潘金山; 白浩然; 唐金辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-10-15
Anticipated expiration: 2041-01-19
Also published as: CN112767250A; WO2022155990A1

Abstract

本发明提供了一种基于自监督学习的视频盲超分辨率重建方法及系统，方法包括：首先采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络；基于模糊核估计网络，利用第一分辨率视频序列估计模糊核；其次基于光流估计网络和第一分辨率视频序列确定形变矩阵；然后利用特征提取网络提取第一分辨率视频序列中各视频帧的特征，根据形变矩阵对齐各视频帧的特征；再次利用潜在高分辨率中间帧重建网络和对齐后各视频帧的特征来构建第二分辨率中间视频帧；最后基于第二分辨率中间视频帧确定第二分辨率视频。本发明采用自监督方法能够有效改善重建高分辨率视频时虚假伪影以及错误结构信息，进一步提高视觉效果。

Description

一种基于自监督学习的视频盲超分辨率重建方法及系统

技术领域

本发明涉及视频分辨率重建技术领域，特别是涉及一种基于自监督学习的视频盲超分辨率重建方法及系统。

背景技术

目前，高分辨率显示设备发展迅速，但使用这些设备放映低分辨率视频时，不可避免的会出现模糊和明显的伪影现象，因此视频超分辨率技术受到了越来越多的关注。

视频超分辨率技术的目标是从给出的低分辨率视频中重建出高分辨率视频。视频超分辨率问题的退化过程通常被定义为：

y_j＝SK_jF_i→jx_i+n,j＝i-N,i-N+1,…,i+N (1)，

其中，y_j、x_i、n分别表示第j视频帧低分辨率图像、第i视频帧高分辨率图像和噪声；S和K_j分别表示降采样矩阵和模糊矩阵；F_i→j表示形变矩阵(与光流u_i→j相关，用于将x_i向第j视频帧形变，实现对齐)。由于潜在高分辨率中间视频帧x_i、模糊矩阵K_j和形变矩阵F_i→j都是未知的，所以视频超分辨率是一个高度病态的问题。

目前，随着深度卷积神经网络的发展，许多任务借助深度卷积神经网络都取得了可观的效果。但是，对于视频超分辨率任务，想要获取成对的低-高分辨率训练数据，是十分困难的。大多数视频超分辨率算法都假设模糊核是已知的(如高斯模糊核、双三次插值)，并使用假设的模糊核构建大规模数据集来训练深度模型。但是，实际场景下的模糊核更加的复杂，所以用假设的模糊核构建的数据集，然后利用数据集训练的深度模型在真实视频上的泛化能力较差，但在实际应用场景中图像退化过程更加复杂，所以利用上述方式训练的深度模型在对真实视频高分辨率重建时，会出现虚假伪影以及错误结构信息，这类错误信息会使视觉效果降低，并且在基于重建后的高分辨率视频进行下游任务时，会造成精度下降的影响。

发明内容

基于此，本发明的目的是提供一种基于自监督学习的视频盲超分辨率重建方法及系统，以改善重建高分辨率视频时出现虚假伪影以及错误结构信息的现象。

为实现上述目的，本发明提供了一种基于自监督学习的视频盲超分辨率重建方法，所述方法包括：

S1：基于第一分辨率视频确定第一分辨率视频序列；

S2：采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络；

S3：基于所述模糊核估计网络，利用所述第一分辨率视频序列估计模糊核；

S4：基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵；

S5：利用所述特征提取网络提取所述第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征；

S6：利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧；

S7：基于所述第二分辨率中间视频帧确定第二分辨率视频；所述第二分辨率视频的分辨率大于所述第一分辨率视频的分辨率。

可选地，所述采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络，具体包括：

S21：通过卷积操作根据所述模糊核确定模糊矩阵；

S22：根据所述模糊矩阵构建循环一致性损失函数；

S23：构建模糊核正则损失函数；

S24：构建辅助重建损失函数；

S25：根据所述循环一致性损失函数、所述模糊核正则损失函数和所述辅助重建损失函数确定总损失函数；

S26：当总损失函数最小时，确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络。

可选地，所述基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵，具体包括：

S41：基于所述光流估计网络计算第一分辨率视频序列中各视频帧与中间视频帧的光流；

S42：采用双线性插值方法根据所述光流计算形变矩阵；根据所述形变矩阵确定形变操作。

可选地，所述利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征，具体包括：

S51：利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征；

S52：利用所述形变操作将各视频帧的特征向中间视频帧的特征进行对齐，获得对齐后各视频帧的特征。

可选地，所述利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧，具体公式为：

其中，N_I(·)为潜在高分辨率中间帧重建网络，C[·]为连接操作，

为第一分辨率视频序列中对齐后的第j-N视频帧特征，x_i为第二分辨率中间视频帧。

本发明还提供一种基于自监督学习的视频盲超分辨率重建系统，所述系统包括：

第一分辨率视频序列确定模块，用于基于第一分辨率视频确定第一分辨率视频序列；

多网络确定模块，用于采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络；

模糊核确定模块，用于基于所述模糊核估计网络，利用所述第一分辨率视频序列估计模糊核；

形变矩阵确定模块，用于基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵；

特征对齐模块，用于利用所述特征提取网络提取所述第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征；

第二分辨率中间视频帧确定模块，用于利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧；

第二分辨率视频确定模块，用于基于所述第二分辨率中间视频帧确定第二分辨率视频；所述第二分辨率视频的分辨率大于所述第一分辨率视频的分辨率。

可选地，所述多网络确定模块，具体包括：

模糊矩阵确定单元，用于通过卷积操作根据所述模糊核确定模糊矩阵；

循环一致性损失函数构建单元，用于根据所述模糊矩阵构建循环一致性损失函数；

模糊核正则损失函数构建单元，用于构建模糊核正则损失函数；

辅助重建损失函数构建单元，用于构建辅助重建损失函数；

总损失函数构建单元，用于根据所述循环一致性损失函数、所述模糊核正则损失函数和所述辅助重建损失函数确定总损失函数；

多网络确定单元，用于当总损失函数最小时，确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络。

可选地，所述形变矩阵确定模块，具体包括：

光流确定单元，用于基于所述光流估计网络计算第一分辨率视频序列中各视频帧与中间视频帧的光流；

形变矩阵确定单元，用于采用双线性插值方法根据所述光流计算形变矩阵；根据所述形变矩阵确定形变操作。

可选地，所述特征对齐模块，具体包括：

特征确定单元，用于利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征；

特征对齐单元，用于利用所述形变操作将各视频帧的特征向中间视频帧的特征进行对齐，获得对齐后各视频帧的特征。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种基于自监督学习的视频盲超分辨率重建方法及系统，方法包括：首先采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络；基于模糊核估计网络，利用第一分辨率视频序列估计模糊核；其次基于光流估计网络和第一分辨率视频序列确定形变矩阵；然后利用特征提取网络提取第一分辨率视频序列中各视频帧的特征，根据形变矩阵对齐各视频帧的特征；再次利用潜在高分辨率中间帧重建网络和对齐后各视频帧的特征来构建第二分辨率中间视频帧；最后基于第二分辨率中间视频帧确定第二分辨率视频。本发明采用自监督方法能够有效改善重建高分辨率视频时虚假伪影以及错误结构信息，提高在真实视频上的泛化能力，进一步提高视觉效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1基于自监督学习的视频盲超分辨率重建方法流程图；

图2为本发明实施例1模糊核估计网络的网络结构图；

图3为本发明实施例1特征提取网络的网络结构图；

图4为本发明实施例1潜在高分辨率中间帧重建网络的网络结构图；

图5为本发明实施例2基于自监督学习的视频盲超分辨率重建系统结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种基于自监督学习的视频盲超分辨率重建方法及系统，以改善重建高分辨率视频时出现虚假伪影以及错误结构信息的现象。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例1

如图1所示，一种基于自监督学习的视频盲超分辨率重建方法，所述方法包括：

S1：基于第一分辨率视频确定第一分辨率视频序列。

S2：采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络。

S3：基于所述模糊核估计网络，利用所述第一分辨率视频序列估计模糊核。

S4：基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵。

S5：利用所述特征提取网络提取所述第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征。

S6：利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧。

下面对各个步骤进行详细论述：

S1：基于第一分辨率视频确定第一分辨率视频序列；所述第一分辨率视频序列一共包括2N+1视频帧；第一分辨率为低分辨率，即第一分辨率视频为低分辨率视频，所述第一分辨率视频序列为低分辨率视频序列。本实施例中第一分辨率视频为直接获取的。

S2：采用自监督学习方法确定模糊核估计网络N_k(·)、光流估计网络N_f(·)、特征提取网络N_e(·)和潜在高分辨率中间帧重建网络N_I(·)，具体包括：

S21：通过卷积操作根据所述模糊核确定模糊矩阵K_i。

S22：根据所述模糊矩阵构建循环一致性损失函数，具体公式为：

L_self＝ρ(SK_ix_i-y_i) (2)；

其中，L_self表示循环一致性损失函数，ρ(·)表示一种鲁棒的函数，通常使用L₁范数或L₂范数，S表示降采样矩阵，K_i表示模糊矩阵，x_i表示第二分辨率中间视频帧，y_i表示第一分辨率视频序列中第i视频帧。

但是，仅使用公式(2)约束上述网络的训练，往往会导致平凡解。为了解决这个问题，本发明进一步挖掘模糊核和公式(1)的性质，来约束上述网络的训练。

其一是挖掘模糊核的性质，模糊核中的元素往往是稀疏的，为了确保模糊核估计模块估计出来的模糊核满足稀疏的性质，因此本发明引入超拉普拉斯先验来刻画模糊核的稀疏性，即通过最小化模糊核正则损失函数来约束模糊核估计网络N_k(·)的训练。

S23：构建模糊核正则损失函数，具体公式为：

L_k＝||K_i||^α (3)；

其中，L_k表示模糊核正则损失函数，K_i表示模糊核，α表示超参数，通常取值为0.5。

其二是挖掘公式(1)的性质，如下：

性质：设

M分别表示准确的模糊矩阵，形变矩阵，低-高分辨率视频映射函数，有：

x_i＝M(y_i-N,…,y_i-1,y_i,y_i+1,…,y_i+N) (4)；

恒成立。因此，对于任意的视频{L_j}，当

时，有：

H_i＝M(L_i-N,…,L_i-1,L_i,L_i+1,…,L_i+N) (5)；

当本发明已经估计出模糊核时，本发明可以借助辅助的数据对{L_i,H_i}对深度网络进行训练，本发明用输入的第一分辨率视频{y_i}作为此处的{H_i}，使用辅助重建损失函数来约束光流估计网络N_f(·)、特征提取网络N_e(·)和潜在高分辨率中间帧重建网络N_I(·)，因此有以下步骤：

S24：构建辅助重建损失函数，具体公式为：

其中，L_I表示辅助重建损失函数，ρ(·)表示一种鲁棒的函数，通常使用L₁范数或L₂范数，C[·]表示连接操作，N_I(·)表示潜在高分辨率中间帧重建网络，

表示从L_i中提取的特征，

表示形变后L_j的特征，{L_j}表示任意的视频。形变时用到的光流为N_f(L_j,L_i)，且

S25：根据所述循环一致性损失函数、所述模糊核正则损失函数和所述辅助重建损失函数确定总损失函数，具体公式为：

L_total＝L_self+λL_k+γL_I (7)；

其中，L_total表示总损失函数，L_self表示循环一致性损失函数L_k表示模糊核正则损失函数，L_I表示辅助重建损失函数，λ和γ为表示超参数。

S26：当总损失函数最小时，确定模糊核估计网络N_k(·)、光流估计网络N_f(·)、特征提取网络N_e(·)和潜在高分辨率中间帧重建网络N_I(·)。

S3：基于所述模糊核估计网络，利用所述第一分辨率视频序列估计模糊核，具体公式为：

K_i＝N_k(C[y_i-N,…,y_i-1,y_i,y_i+1,…,y_i+N]) (8)；

其中，K_i为模糊核，N_k(·)为模糊核估计网络，C[·]为连接操作，y_i-N为第一分辨率视频序列中第i-N视频帧。

本实施例中，所述模糊核估计网络N_k(·)的具体的网络结构及参数如图2所示。

S4：基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵，具体包括：

S41：基于所述光流估计网络计算第一分辨率视频序列中各视频帧与中间视频帧的光流，具体公式为：

u_j→i＝N_f(y_j,y_i) (9)；

其中，u_j→i为第一分辨率视频序列中第j视频帧与中间视频帧的光流，N_f(·)为光流估计网络，y_i为第一分辨率视频序列中中间视频帧，y_j为第一分辨率视频序列中第j视频帧，j＝i-N,…j-1,j+1,…,i+N。

本实施例中使用已有的光流估计算法PWC-Net作为光流估计网络。

S42：采用双线性插值方法根据所述光流计算形变矩阵F_j→i；根据形变矩阵F_j→i确定形变操作F_j→i。

S43：利用所述形变操作将第一分辨率视频序列中各视频帧向中间视频帧进行对齐，具体公式为：

其中，

为第一分辨率视频序列中第j视频帧y_j被对齐获得的结果，F_j→i为形变操作。

为了更好的对齐相邻帧的信息，本发明提供了第二种技术方案，具体如下：

S5：利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征，具体包括：

S51：利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征，具体公式为：

其中，

表示第j视频帧y_j提取的特征，N_e(·)表示特征提取网络。

本实施例中，所述特征提取网络的具体的网络结构及参数如图3所示。

S52：利用所述形变操作将各视频帧的特征向中间视频帧的特征进行对齐，获得对齐后各视频帧的特征，具体公式为：

其中，

为第j视频帧对应的特征

被对齐后获得的第j视频帧的特征，F_j→i为形变操作，

为中间视频帧y_i的特征。所述对齐后各视频帧的特征包括

S6：利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧，具体公式为：

本实施例中潜在高分辨率中间帧重建网络N_I(·)的具体的网络结构及参数如图4所示。

实施例2

如图5所示，本发明还提供一种基于自监督学习的视频盲超分辨率重建系统，所述系统包括：

第一分辨率视频序列确定模块501，用于基于第一分辨率视频确定第一分辨率视频序列。

多网络确定模块502，用于采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络。

模糊核确定模块503，用于基于所述模糊核估计网络，利用所述第一分辨率视频序列估计模糊核。

形变矩阵确定模块504，用于基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵。

特征对齐模块505，用于利用所述特征提取网络提取所述第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征。

第二分辨率中间视频帧确定模块506，用于利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧。

第二分辨率视频确定模块507，用于基于所述第二分辨率中间视频帧确定第二分辨率视频；所述第二分辨率视频的分辨率大于所述第一分辨率视频的分辨率。

作为一种可选的实施方式，本发明所述多网络确定模块502，具体包括：

模糊矩阵确定单元，用于通过卷积操作根据所述模糊核确定模糊矩阵。

循环一致性损失函数构建单元，用于根据所述模糊矩阵构建循环一致性损失函数。

模糊核正则损失函数构建单元，用于构建模糊核正则损失函数。

辅助重建损失函数构建单元，用于构建辅助重建损失函数。

总损失函数构建单元，用于根据所述循环一致性损失函数、所述模糊核正则损失函数和所述辅助重建损失函数确定总损失函数。

作为一种可选的实施方式，本发明所述形变矩阵确定模块504，具体包括：

光流确定单元，用于基于所述光流估计网络计算第一分辨率视频序列中各视频帧与中间视频帧的光流。

作为一种可选的实施方式，本发明所述特征对齐模块505，具体包括：

特征确定单元，用于利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征。

作为一种可选的实施方式，本发明所述利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧，具体公式为：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于自监督学习的视频盲超分辨率重建方法，其特征在于，所述方法包括：

S1：基于第一分辨率视频确定第一分辨率视频序列；

具体公式为：

K_i＝N_k(C[y_i-N,…,y_i-1,y_i,y_i+1,…,y_i+N])；

其中，K_i为模糊核，N_k(·)为模糊核估计网络，C[·]为连接操作，y_i-N为第一分辨率视频序列中第i-N视频帧；

所述利用所述特征提取网络提取第一分辨率视频序列中各视频帧的特征，根据所述形变矩阵对齐各视频帧的特征，获得对齐后各视频帧的特征，具体包括：

S52：利用形变操作将各视频帧的特征向中间视频帧的特征进行对齐，获得对齐后各视频帧的特征；

2.根据权利要求1所述的基于自监督学习的视频盲超分辨率重建方法，其特征在于，所述采用自监督学习方法确定模糊核估计网络、光流估计网络、特征提取网络和潜在高分辨率中间帧重建网络，具体包括：

S21：通过卷积操作根据所述模糊核确定模糊矩阵；

S22：根据所述模糊矩阵构建循环一致性损失函数；

S23：构建模糊核正则损失函数；

S24：构建辅助重建损失函数；

3.根据权利要求1所述的基于自监督学习的视频盲超分辨率重建方法，其特征在于，所述基于所述光流估计网络和所述第一分辨率视频序列确定形变矩阵，具体包括：

4.根据权利要求1所述的基于自监督学习的视频盲超分辨率重建方法，其特征在于，所述利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧，具体公式为：

5.一种基于自监督学习的视频盲超分辨率重建系统，其特征在于，所述系统包括：

具体公式为：

K_i＝N_k(C[y_i-N,…,y_i-1,y_i,y_i+1,…,y_i+N])；

所述特征对齐模块，具体包括：

特征对齐单元，用于利用形变操作将各视频帧的特征向中间视频帧的特征进行对齐，获得对齐后各视频帧的特征；

6.根据权利要求5所述的基于自监督学习的视频盲超分辨率重建系统，其特征在于，所述多网络确定模块，具体包括：

辅助重建损失函数构建单元，用于构建辅助重建损失函数；

7.根据权利要求5所述的基于自监督学习的视频盲超分辨率重建系统，其特征在于，所述形变矩阵确定模块，具体包括：

8.根据权利要求5所述的基于自监督学习的视频盲超分辨率重建系统，其特征在于，所述利用所述潜在高分辨率中间帧重建网络和所述对齐后各视频帧的特征来构建第二分辨率中间视频帧，具体公式为：