CN117058002A

CN117058002A - 视频帧超分辨率重构方法、装置及计算机设备

Info

Publication number: CN117058002A
Application number: CN202311316640.9A
Authority: CN
Inventors: 刘琦; 王曜; 许亦; 贺国超; 请求不公布姓名
Original assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Current assignee: Shenzhen Yuntian Changxiang Information Technology Co ltd
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2023-11-14
Anticipated expiration: 2043-10-12
Also published as: CN117058002B

Abstract

本发明公开了一种视频帧超分辨率重构方法、装置及计算机设备，包括以下步骤：获取流媒体视频；对第一视频帧，通过图像特征提取，得到第一视频帧的第一焦点特征；根据第一视频帧，通过目标映射关系，得到第一视频帧的第一采样率；根据第一采样率对第一视频帧，进行图像重采样，得到第二视频帧；对第二视频帧，进行超分辨率处理，得到第二超分辨率视频帧；将第二超分辨率视频帧对应替换至流媒体视频中，得到流媒体超分辨率视频。本发明通过建立目标映射关系，得到使得视频帧保留焦点特征的最佳压缩采样率，基于最佳压缩采样率压缩得到的视频帧进行超分辨率处理，实现了提高视频帧的分辨率同时，保持低数据量。

Description

视频帧超分辨率重构方法、装置及计算机设备

技术领域

本发明涉及视频处理技术领域，具体涉及一种视频帧超分辨率重构方法、装置及计算机设备。

背景技术

图像超分辨率重构(super resolution,SR)是指利用计算机将一幅低分辨率图像(low resolution,LR)或图像序列进行处理，恢复出高分辨率图像(high resolution，HR)的一种图像处理技术。HR意味着图像具有高像素密度，可以提供更多的细节，这些细节往往在应用中起到关键作用。

现有技术在视频超分辨重建时，利用对原始视频帧的图像特征提取，获取空间信息和时间信息，再对空间信息和时间信息进行重建得到超分辨率视频帧，如此获得的超分辨率视频帧虽然提高了视频帧的分辨率，但也大大的提高了视频帧的数据量，不利于视频帧的传输和存储。

发明内容

本发明的目的在于提供一种视频帧超分辨率重构方法、装置及计算机设备，以解决现有技术中超分辨率重建大大的提高了视频帧的数据量，不利于视频帧的传输和存储的技术问题。

为解决上述技术问题，本发明具体提供下述技术方案：

在本发明的第一个方面，本发明提供了一种视频帧超分辨率重构方法，包括以下步骤：

获取流媒体视频，所述流媒体视频中包含有多个第一视频帧；

对第一视频帧，通过图像特征提取，得到第一视频帧的第一焦点特征，所述第一焦点特征对应于第一视频帧中第一对象形成的图像特征，所述第一对象为流媒体视频的拍摄对象；

根据第一视频帧，通过目标映射关系，得到第一视频帧的第一采样率，所述第一采样率对应于使得第一视频帧保留第一焦点特征的压缩采样率，所述目标映射关系为表征第一视频帧与第一采样率间关联关系的神经网络；

根据第一采样率对第一视频帧，进行图像重采样，得到第二视频帧，所述第二视频帧对应于压缩后的第一视频帧；

对第二视频帧，进行超分辨率处理，得到第二超分辨率视频帧；

将第二超分辨率视频帧对应替换至流媒体视频中，得到流媒体超分辨率视频。

作为本发明的一种优选方案，所述第一视频帧的第一焦点特征，包括：

利用区域生长法对第一视频帧进行分割，得到第一对象所在的图像区域和非第一对象所在的图像区域；

将第一对象所在的图像区域，通过CNN神经网络进行图像特征提取，得到所述第一视频帧的第一焦点特征。

作为本发明的一种优选方案，所述目标映射关系的构建，包括：

选取多个第一视频帧作为样本视频帧；

在每个样本视频帧中，利用梯度下降法设定多个采样率；

在每个样本视频帧中，逐一利用每个采样率对样本视频帧进行图像重采样，得到每个采样率下的压缩样本视频帧；

在每个样本视频帧中，逐一将每个采样率下的压缩样本视频帧中第一对象所在的图像区域，通过CNN神经网络进行图像特征提取，得到每个采样率下的压缩样本视频帧的第一焦点特征；以及

将样本视频帧中第一对象所在的图像区域，通过CNN神经网络进行图像特征提取，得到样本视频帧的第一焦点特征；

在每个样本视频帧中，根据每个采样率下的压缩样本视频帧与样本视频帧进行差异度量化，得到第一差异度；

在每个样本视频帧中，利用BP神经网络对采样率与第一差异度进行学习训练，得到第一采样率测算网络；

所述第一采样率测算网络的函数表达式为：

K=BP(f)；

式中，K为第一差异度，f为采样率，BP为神经网络；

在每个样本视频帧中，利用第一采样率测算网络对样本视频帧所有可选的采样率进行第一差异度测算，并将最小第一差异度对应的采样率作为样本视频帧的第一采样率；

在多个样本视频帧中，利用BP神经网络对样本视频帧与样本视频帧的第一采样率进行学习训练，得到所述目标映射关系，以实现利用视频帧测算出视频帧的第一采样率；

所述目标映射关系的函数表达式为：

f_s=BP(G)；

式中，f_s为第一采样率，G为视频帧，BP为BP神经网络。

作为本发明的一种优选方案，所述第一差异度的量化，包括：

将每个采样率下的压缩样本视频帧中第一对象所在的图像区域，通过CNN神经网络进行图像特征提取，得到每个采样率下的压缩样本视频帧的第一焦点特征，封装至第一孪生网络中作为第一CNN神经网络结构，其中，压缩样本视频帧中第一对象所在的图像区域作为第一CNN神经网络的输入项，将压缩样本视频帧的第一焦点特征作为第一CNN神经网络的输出项；

将样本视频帧中第一对象所在的图像区域，通过CNN神经网络进行图像特征提取，得到样本视频帧的第一焦点特征，封装至第一孪生网络中作为第二CNN神经网络结构，其中，样本视频帧中第一对象所在的图像区域作为第二CNN神经网络的输入项，将样本视频帧的第一焦点特征作为第二CNN神经网络的输出项；

将样本视频帧作为第二孪生网络中第一CNN神经网络的输入项，将样本视频帧的全局图像特征作为第二孪生网络中第一CNN神经网络的输出项；

将压缩样本视频帧作为第二孪生网络中第二CNN神经网络的输入项，将压缩样本视频帧的全局图像特征作为第二孪生网络中第二CNN神经网络的输出项；

将第一孪生网络的损失函数与第二孪生网络的损失函数间差值作为第一差异度；

其中，所述第一孪生网络的损失函数对应于压缩样本视频帧的第一焦点特征与样本视频帧的第一焦点特征间的差异性；

所述第二孪生网络的损失函数对应于压缩样本视频帧的全局图像特征与样本视频帧的全局图像特征间的差异性；

第一差异度对应于压缩样本视频帧相对于样本视频帧的压缩目标，损失压缩目标包含压损损失和压缩比；

最小第一差异度对应于压缩样本视频帧相对于样本视频帧具有最小压缩损失和最大压缩比。

作为本发明的一种优选方案，所述压缩样本视频帧中第一对象所在的图像区域与样本视频帧中第一对象所在的图像区域具有一致的像素坐标。

作为本发明的一种优选方案，所述第一视频帧的第一采样率，包括：

将第一视频帧输入至目标映射关系中，由目标映射关系输出第一视频帧的第一采样率。

作为本发明的一种优选方案，所述第一视频帧是流媒体视频经过坏帧检测确定为图像完整的视频帧。

作为本发明的一种优选方案，所述将第二超分辨率视频帧对应替换至流媒体视频中，得到流媒体超分辨率视频，包括：

将第二超分辨率视频帧，分别依据第一视频帧在流媒体视频帧中的序列位置，对相应序列位置处的第一视频帧进行替换，得到所述流媒体超分辨率视频。

在本发明的第二个方面，本发明提供了一种视频帧超分辨率重构装置，包括：

数据获取模块，用于获取流媒体视频，所述流媒体视频中包含有多个第一视频帧；

数据处理模块，用于对第一视频帧，通过图像特征提取，得到第一视频帧的第一焦点特征；

用于根据第一视频帧，通过目标映射关系，得到第一视频帧的第一采样率；

用于根据第一采样率对第一视频帧，进行图像重采样，得到第二视频帧；

用于对第二视频帧，进行超分辨率处理，得到第二超分辨率视频帧；

用于将第二超分辨率视频帧对应替换至流媒体视频中，得到流媒体超分辨率视频；

数据存储模块，用于存储目标映射关系。

在本发明的第三个方面，本发明提供了一种计算机设备，

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行视频帧超分辨率重构方法。

在本发明的第四个方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现视频帧超分辨率重构方法。

本发明与现有技术相比较具有如下有益效果：

本发明通过建立目标映射关系，得到使得视频帧保留焦点特征的最佳压缩采样率，基于最佳压缩采样率压缩得到的视频帧进行超分辨率处理，实现了提高视频帧的分辨率同时，保持低数据量。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例提供的视频帧超分辨率重构方法流程图；

图2为本发明实施例提供的视频帧超分辨率重构装置框图；

图3为本发明实施例提供的计算机装置的内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，在本发明的第一个方面，本发明提供了一种视频帧超分辨率重构方法，包括以下步骤：

获取流媒体视频，流媒体视频中包含有多个第一视频帧；

对第一视频帧，通过图像特征提取，得到第一视频帧的第一焦点特征，第一焦点特征对应于第一视频帧中第一对象形成的图像特征，第一对象为流媒体视频的拍摄对象；

根据第一视频帧，通过目标映射关系，得到第一视频帧的第一采样率，第一采样率对应于使得第一视频帧保留第一焦点特征的压缩采样率，目标映射关系为表征第一视频帧与第一采样率间关联关系的神经网络；

根据第一采样率对第一视频帧，进行图像重采样，得到第二视频帧，第二视频帧对应于压缩后的第一视频帧；

本发明为了降低超分辨率重构后的视频帧数据量，在超分辨率重构前对视频帧进行重采样，实现对视频帧数据量的压缩。

本发明为了降低视频帧数据量压缩对视频帧画质的影响，通过构建目标映射关系，表征第一视频帧与第一采样率间关联关系的神经网络，即直接通过视频帧测算得到最佳压缩采样率，利用最佳压缩采样率能够最大程度的压缩数据量同时最大程度的保持原有图像信息，降低压缩损失，保证画质。

本发明为了保证深度学习构建出的目标映射关系的客观性和可解释性，将视频帧进行区域分割，得到第一对象所在的图像区域和非第一对象所在的图像区域，其中，第一对象所在的图像区域才是决定用户观感体验或者说流媒体视频想要传达给用户的图像信息，也就是说，第一对象所在的图像区域的图像特征是视频帧画质的关键性特征，最大程度的保持原有图像信息需要保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异，即测算出的最佳压缩采样率需要保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异，因此，将保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异作为压缩采样率的一个期望目标。

本发明中最大程度的压缩数据量需要保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异，即压缩后的视频帧与压缩前的视频帧存在最大差异，说明压缩后的视频帧数据改变显著，也就是说数据量发生了最大程度的改变，测算出的最佳压缩采样率需要保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异，因此，将保持压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异作为压缩采样率的另一个期望目标。

本发明利用孪生网络对压缩采样率的两个期望目标进行组合，孪生网络利用自身具有的损失函数分别量化出压缩后的视频帧与压缩前的视频帧间的差异度，以及第一对象所在的图像区域的图像特征在压缩前后的差异度，并对压缩后的视频帧与压缩前的视频帧间的差异度，和第一对象所在的图像区域的图像特征在压缩前后的差异度进行最小化组合，将双目标优化（两个期望目标优化）转换为单目标优化（第一差异度），以目标优化思维确定出样本视频帧的最佳压缩采样率，具体：

单目标优化（第一差异度）为第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度，最小化单目标优化，即最小化第一差异度，从数学上解释是第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度得到差值最小，映射至实际意义上，第一对象所在的图像区域的图像特征在压缩前后具有最小的差异，压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异。

本发明在积累训练表征目标映射关系的神经网络的样本数据时，对每个样本数据帧均利用第一差异度作为优化目标确定出最佳压缩采样率，因此基于样本数据帧和利用第一差异度作为优化目标确定出最佳压缩采样率进行学习训练，使得目标映射关系根据视频帧能够输出的最佳压缩采样率，使得视频帧实现第一对象所在的图像区域的图像特征在压缩前后具有最小的差异，压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异，即最大程度的压缩数据量同时最大程度的保持原有图像信息。

本发明为了建立出压缩采样率的期望目标中的保持第一对象所在的图像区域的图像特征在压缩前后具有最小的差异，需要获得视频帧中关键性特征，即第一对象所在的图像区域的图像特征，具体如下：

第一视频帧的第一焦点特征，包括：

将第一对象所在的图像区域，通过CNN神经网络进行图像特征提取，得到第一视频帧的第一焦点特征。

本发明为了降低视频帧数据量压缩对视频帧画质的影响，通过构建目标映射关系，具体如下：

目标映射关系的构建，包括：

选取多个第一视频帧作为样本视频帧；

在每个样本视频帧中，利用梯度下降法设定多个采样率；

第一采样率测算网络的函数表达式为：

K=BP(f)；

式中，K为第一差异度，f为采样率，BP为神经网络；

在多个样本视频帧中，利用BP神经网络对样本视频帧与样本视频帧的第一采样率进行学习训练，得到目标映射关系，以实现利用视频帧测算出视频帧的第一采样率；

目标映射关系的函数表达式为：

f_s=BP(G)；

式中，f_s为第一采样率，G为视频帧，BP为BP神经网络。

两个期望目标等同于两个压缩目标，第一对象所在的图像区域的图像特征在压缩前后具有最小的差异（对应于最小压缩损失），压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异（对应于最大压缩比）。

本发明利用孪生网络对压缩采样率的两个期望目标进行组合，孪生网络利用自身具有的损失函数分别量化出压缩后的视频帧与压缩前的视频帧间的差异度，以及第一对象所在的图像区域的图像特征在压缩前后的差异度，并对压缩后的视频帧与压缩前的视频帧间的差异度，和第一对象所在的图像区域的图像特征在压缩前后的差异度进行最小化组合，将双目标优化（两个期望目标优化）转换为单目标优化（第一差异度），以目标优化思维确定出样本视频帧的最佳压缩采样率。

单目标优化（第一差异度）为第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度，最小化单目标优化，即最小化第一差异度，从数学上解释是第一对象所在的图像区域的图像特征在压缩前后的差异度减去压缩后的视频帧与压缩前的视频帧间的差异度得到差值最小，映射至实际意义上，第一对象所在的图像区域的图像特征在压缩前后具有最小的差异（最小压缩损失），压缩前的视频帧和压缩后的视频帧间的图像特征具有最大的差异（最大压缩比）。

具体的，第一差异度的量化，包括：

其中，第一孪生网络的损失函数对应于压缩样本视频帧的第一焦点特征与样本视频帧的第一焦点特征间的差异性；

第二孪生网络的损失函数对应于压缩样本视频帧的全局图像特征与样本视频帧的全局图像特征间的差异性；

压缩样本视频帧中第一对象所在的图像区域与样本视频帧中第一对象所在的图像区域具有一致的像素坐标。

第一视频帧的第一采样率，包括：

第一视频帧是流媒体视频经过坏帧检测确定为图像完整的视频帧。

将第二超分辨率视频帧对应替换至流媒体视频中，得到流媒体超分辨率视频，包括：

将第二超分辨率视频帧，分别依据第一视频帧在流媒体视频帧中的序列位置，对相应序列位置处的第一视频帧进行替换，得到流媒体超分辨率视频。

如图2所示，在本发明的第二个方面，本发明提供了一种视频帧超分辨率重构装置，包括：

数据获取模块，用于获取流媒体视频，流媒体视频中包含有多个第一视频帧；

数据存储模块，用于存储目标映射关系。

如图3所示，在本发明的第三个方面，本发明提供了一种计算机设备，

至少一个处理器；以及

与至少一个处理器通信连接的存储器；

其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使计算机设备执行视频帧超分辨率重构方法。

在本发明的第四个方面，本发明提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机执行指令，当处理器执行计算机执行指令时，实现视频帧超分辨率重构方法。

本发明中采用通道注意力模型、空间注意力模型和多头自注意力模型，融合三者的优势进行互补，达到分辨率提升效果的目的，其中，多头自注意力模型是基于ResNet-101进行的改进，Res-2, Res-3, Res-4, Res-5所生成的特征图，将他们通过线性插值的方式上采样到相同的尺寸，进行连接操作，而后进行卷积操作，生成多尺寸注意力特征图（全局特征），空间注意力模型用于对全局特征的空间上下文进行建模，增强每个特征图的空间表达，通道注意力模型用于更好地构建通道之间的依赖关系，扩大感受野，从而帮助空间注意力模型捕获全局特征的空间表达，融合过程具体为：通过多尺寸的策略（多头自注意力模型）来获取视频帧的全局特征, 然后将所学习到的视频帧全局特征引入到注意力模块中，注意力模块由通道注意力模型、空间注意力模型两部分组成，一方面可以帮助局部特征与全局特征的融合，另一方面也可以过滤到不相关的噪音信息。

以上实施例仅为本申请的示例性实施例，不用于限制本申请，本申请的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本申请做出各种修改或等同替换，这种修改或等同替换也应视为落在本申请的保护范围内。

Claims

1.一种视频帧超分辨率重构方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种视频帧超分辨率重构方法，其特征在于：所述第一视频帧的第一焦点特征，包括：

3.根据权利要求2所述的一种视频帧超分辨率重构方法，其特征在于：所述目标映射关系的构建，包括：

选取多个第一视频帧作为样本视频帧；

在每个样本视频帧中，利用梯度下降法设定多个采样率；

所述第一采样率测算网络的函数表达式为：

K=BP(f)；

式中，K为第一差异度，f为采样率，BP为神经网络；

所述目标映射关系的函数表达式为：

f_s=BP(G)；

式中，f_s为第一采样率，G为视频帧，BP为BP神经网络。

4.根据权利要求3所述的一种视频帧超分辨率重构方法，其特征在于：所述第一差异度的量化，包括：

5.根据权利要求4所述的一种视频帧超分辨率重构方法，其特征在于：所述压缩样本视频帧中第一对象所在的图像区域与样本视频帧中第一对象所在的图像区域具有一致的像素坐标。

6.根据权利要求4所述的一种视频帧超分辨率重构方法，其特征在于：所述第一视频帧的第一采样率，包括：

7.根据权利要求1所述的一种视频帧超分辨率重构方法，其特征在于：所述第一视频帧是流媒体视频经过坏帧检测确定为图像完整的视频帧。

8.根据权利要求1所述的一种视频帧超分辨率重构方法，其特征在于：所述将第二超分辨率视频帧对应替换至流媒体视频中，得到流媒体超分辨率视频，包括：

9.一种视频帧超分辨率重构装置，其特征在于，包括：

数据存储模块，用于存储目标映射关系。

10.一种计算机设备，其特征在于，

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使计算机设备执行权利要求 1-8 任一项所述的方法。