CN115239551A

CN115239551A - 视频增强方法和装置

Info

Publication number: CN115239551A
Application number: CN202210871656.5A
Authority: CN
Inventors: 陈有鑫; 吴龙海; 陈洁
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-10-25
Also published as: WO2024019337A1

Abstract

本申请公开了一种视频增强方法和装置，其中方法包括：将目标视频切分为若干组图像，其中，同一组内的图像属于相同场景；对于每组所述图像，利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法，并利用所述视频增强算法，对该组图像进行视频增强处理；依次拼接所有组图像的视频增强处理结果，得到所述目标视频的视频增强数据。采用本申请，可以提升视频增强处理效果，改善视频观看体验。

Description

视频增强方法和装置

技术领域

本发明涉及视频处理技术，特别是涉及一种视频增强方法和装置。

背景技术

目前，为了提升视频视觉效果，很多视频采用了视频增强技术，以提升视频画质。

发明人在实现本发明的过程中发现现有的视频增强方案视频画面容易出现变形、伪影等问题，并且通过研究分析发现其原因如下：

现有的视频增强方案中，通常是根据预设视频画面内容特征，比如视频内容显著性特征、视频编码器信息、直方图特征以及对比度等，调整某种视频增强算法的视频增强参数，以对目标视频进行视频增强处理。而实际视频中通常会涉及很多场景，视频内容风格差异往往较大，连续帧中会存在复杂的非线性运动和光照变化。由于单一的视频增强算法受限于有限的预设特征而在未知视频中缺少泛化性，使得单一的视频增强算法并不能确保适应全部视频画面场景的增强，从而会出现部分视频画面发生变形、伪影等情况，进而降低视频观看体验。

发明内容

有鉴于此，本发明的主要目的在于提供一种视频增强方法和装置，可以提升视频增强处理效果，改善视频观看体验。

为了达到上述目的，本发明实施例提出的技术方案为：

一种视频增强方法，包括：

将目标视频切分为若干组图像，其中，同一组内的图像属于相同场景；

对于每组所述图像，利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法，并利用所述视频增强算法，对该组图像进行视频增强处理；

依次拼接所有组图像的视频增强处理结果，得到所述目标视频的视频增强数据。

本发明实施例还提出一种视频增强装置，包括：

视频切分单元，用于将目标视频切分为若干组图像，其中，同一组内的图像属于相同场景；

视频增强单元，用于对于每组所述图像，利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法，并利用所述视频增强算法，对该组图像进行视频增强处理；

数据拼接单元，用于依次拼接所有组图像的视频增强处理结果，得到所述目标视频的视频增强数据。

本发明实施例还提出一种视频增强设备，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述视频增强方法。

本发明实施例还提出一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上所述视频增强方法。

本发明实施例还提出一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如上所述视频增强方法的步骤。

综上所述，本发明实施例提出的视频增强方案，区分场景对目标视频进行拆分，并分别为拆分的每组图像确定相匹配的视频增强算法，然后，再利用相匹配的视频增强算法，对每组图像进行视频增强处理。如此，通过细化视频增强粒度，利用与每组图像的视频内容相匹配的视频增强算法进行视频增强，一方面，可以提升视频增强效果，减少视频增强的画面缺陷，改善视频观看体验，另一方面，每组图像仅利用一种视频增强算法进行视频增强，可以有效减少显存开销，提高视频增强处理效率。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的质量评估模型的架构示意图；

图3为本发明实施例中用于对所述质量评估模型进行训练的样本数据构建示意图；

图4为本发明实施例应用于视频超分和视频插帧任务的示例图；

图5为本发明实施例应用于视频流的插帧算法的效果示例图；

图6为本发明实施例应用于视频超分的效果示例图；

图7为本发明实施例的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

图1为本发明实施例的视频增强方法流程示意图，如图1所示，该实施例主要包括：

步骤101、将目标视频切分为若干组图像，其中，同一组内的图像属于相同场景。

本步骤，用于区分场景对待视频增强处理的目标视频进行切分，即切分时需要确保同一组内的图像属于相同场景，以便在后续步骤针对不同场景的视频组分别选择相匹配的一种算法进行处理，以提升视频增强效果，并减少视频增强开销。

一种实施方式中，具体可以采用下述方法将目标视频切分为若干组图像：

步骤1011、利用场景边界检测算法，对所述目标视频中的场景进行识别。

本步骤，用于利用场景边界检测算法对视频中的场景变化进行识别，以对目标视频中的各个场景进行识别。具体可以利用现有的场景边界检测算法实现，在此不再赘述。

步骤1012、对于每个所述场景，利用滑动窗口，从该场景对应的帧序列中抽取视频帧，将每次抽取的视频帧作为一组图像。

其中，每次抽取k帧，k为预设的一组图像的帧数，如果场景中剩余待抽取的帧数小于k，则可以利用预设的填充帧，补充至k帧后得到一组图像，以确保每组图像的帧数都达到k，从而使得每组图像都能够输入至质量评估模型进行正常处理。

这里，利用滑动窗口对场景的帧序列进行视频帧抽取，具体可以采用现有方法实现，在此不再赘述。

步骤102、对于每组所述图像，利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法，并利用所述视频增强算法，对该组图像进行视频增强处理。

本步骤，在进行视频增强前，需要先利用预先训练的质量评估模型，为该组图像选择相匹配的视频增强算法，利用该算法进行视频增强处理。如此，一方面利用相匹配的算法进行视频增强处理，可以有效提升视频增强质量，减少视频增强的画面缺陷，改善视频观看体验；另一方面由于每组图像只采用一种算法进行视频增强处理，因此，使得视频增强处理效率高，且运算开销小。

图2给出了质量评估模型的架构示意图，它由特征提取(feature extractor)、特征差异(feature difference)、特征融合(feature fusion)和transformer预测(transformer predictor)四个部分组成。如图2所示，该模型首先通过cnn backbone提取每一帧的特征并对相邻帧的特征做差估算帧间差异大小，然后将帧间差异特征和图像自身特征进行融合弥补背景光照等信息，最后，将融合的特征送入连续多个transformer block提取全局特征并对视频增强较敏感的特征区域进行增强，最后一个transformer block输出的第一个vector经过MLP Head将预测不同增强算法处理结果的质量分数，分数越高表示算法越强。

一种实施方式中，如图2所示，具体可以采用下述步骤利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法：

步骤a1、质量评估模型利用深度残差网络，从当前输入的所述组图像中，提取图像特征。

具体地，可以利用ResNet50网络进行特征提取，为了降低模型计算复杂度，可以将第三个resent block的输出结果为提取的图像特征。

步骤a2、基于所述深度残差网络输出的图像特征，生成帧间差异信息。

这里，考虑到运动信息在视频任务中较为重要，本步骤将通过对连续帧相减获得帧间差异信息，以用于后续处理。帧间差异信息的具体生成方法为本领域技术人员所掌握，在此不再赘述。

步骤a3、将所述帧间差异信息和所述图像特征，进行通道融合处理。

这里，考虑到仅依靠差异信息无法取得较好的结果，本步骤将差异信息和图像本身特征在通道上融合，以弥补缺失的背景信息、光照信息等，提升图像的画面质量。本步骤的具体实现为本领域技术人员掌握，在此不再赘述。

步骤a4、基于所述通道融合处理的结果，提取全局特征。

本步骤中，将利用transformer block提取全局特征，在预先进行质量评估模型训练时，还可以利用transformer block定位对增强算法敏感的区域，以提供用户参考视频增强效果。

步骤a5、基于所述全局特征，利用多层感知机(MLP Head)，预测预设视频增强算法集合中每种算法对所述组图像进行视频增强处理的质量分数。

本步骤，用于预测不同增强算法对当前组图像的处理结果的质量得分，具体实现为本领域技术人员掌握，在此不再赘述。

步骤a6、基于所述质量分数，按照优先选择高分算法的策略，从所述预设视频增强算法集合中选择一种算法，作为与所述组图像相匹配的视频增强算法。

本步骤用于选择与当前图像组相匹配的视频增强算法，以提升视频增强效果。

一种实施方式中，具体可以采用下述方法从所述预设视频增强算法集合中选择一种算法，作为与所述组图像相匹配的视频增强算法：

判断所述质量分数的最大值是否小于预设最小质量阈值，如果是，则将预设的备用视频增强算法，作为与所述组图像相匹配的视频增强算法，否则，将所述最大值对应的视频增强算法，作为与所述组图像相匹配的视频增强算法。

这里，为了避免现有增强方法的局限性，上述方法中需要比较最高得分是否超过预设的最小质量阈值，如果小于最小质量阈值则选择预设的备选视频增强算法，否则，直接使用分数最高的视频增强算法。

所述备用视频增强算法，用于在视频增强算法集合中的所有算法都不适合对某组图像进行视频增强处理时，对其采用的视频增强算法。在实际应用中，本领域技术人员预先可以根据实际画质要求，选择一种泛化性较好的视频增强算法，将其设置为备用视频增强算法。

所述最小质量阈值，用于使得基于所选择的视频增强算法能够获得较好的视频增强效果，避免不匹配的视频增强算法对视频增强效果的降低。具体可由本领域技术人员根据实际画质要求，设置合适取取值。

下表1给出了上述模型选择方法的示例，该示例中，视频增强算法集合包括{RIFE，SepConv，DAIN}，最小质量阈值为1。如表中第一和二行所示，当最高分不小于最小质量阈值1时，选择最高分对应的算法。如表中第三行所示，当最高分为0.5时，由于该最高分小于最小质量阈值1，因此，此时选择备用视频增强算法。

表1

一种实施方式中，具体可以采用下述方法预先对质量评估模型进行训练：

预先利用预设的样本数据，对所述质量评估模型进行训练。

其中，如图3所示，样本数据的构建具体可以采用下述方法实现：

对于每组样本图像，分别利用预设视频增强算法集合中的每种算法，对该组图像进行视频增强处理；采用预设的图像质量评估算法或人工打分的方式，评估每种所述视频增强算法的视频增强处理结果的质量分数，并将每种所述视频增强算法的所述质量分数的平均值，设置为所述组样本图像在相应算法的质量分数标签。

一种实施方式中，为了提高样本标签的准确性，可以采用至少三个图像质量评估算法进行评估或至少三个打分人员进行人工打分，即所述图像质量评估算法的数量大于2，参与所述人工打分的人数大于2。

步骤103、依次拼接所有组图像的视频增强处理结果，得到所述目标视频的视频增强数据。

本步骤，将步骤102得到的所有组图像的视频增强处理结果，依次串接，即可得到目标视频的视频增强数据。

通过上述方法实施例可以看出，本申请的技术方案，通过对视频进行切分，基于图像内容和算法特性，精准预测不同增强算法对某一组图像的适应性，智能选择最合理的算法，可以减少视频增强结果的画面缺陷，避免随机模型选择的不确定性，提升视觉质量。

在实际应用中，上述技术方案可以应用于多种机器视觉任务的实现。图4为本发明实施例应用于视频超分(VSR)和视频插帧(VFI)任务的示例图。如图4所示，对不同的任务需要训练对应的质量评估模型(QA模型)和视频增强算法。

上述技术方案应用于插帧算法中，可以有效提升输出视频质量。图5为本发明实施例应用于视频流的插帧算法的示例效果图，如图5所示，被过滤的视频增强算法的处理结果中会存在明显的模糊效果，最终选择的视频增强算法的处理结果则更加清晰。

上述技术方案应用于视频流的超分算法智能选择过程时，根据时域上不同内容特征选择不同超分算法，比如对线条简单的背景画面选择平滑效果的超分算法，对内容丰富纹理复杂的内容选择偏向增强细节的超分算法，以提升视频超分的视觉体验。图6为本发明实施例应用于视频超分的示例效果图，如图6所示，存在严重伪影的结果图像(树木、人脸)会被过滤，清晰平滑的图像则会被挑选出。

基于上述方法实施例，本发明实施例还提出一种视频增强装置，如图7所示，包括：

视频切分单元701，用于将目标视频切分为若干组图像，其中，同一组内的图像属于相同场景；

视频增强单元702，用于对于每组所述图像，利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法，并利用所述视频增强算法，对该组图像进行视频增强处理；

数据拼接单元703，用于依次拼接所有组图像的视频增强处理结果，得到所述目标视频的视频增强数据。

需要说明的是，上述方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此，装置和方法的实施可以相互参见，重复之处不再赘述。

基于上述方法实施例，本发明实施例还提出一种视频增强设备，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述视频增强方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述视频增强方法实施方式中任一实施方式的功能。

其中，存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

本申请实施例实现了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上所述视频增强方法的步骤。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用预先训练的质量评估模型，为该组图像确定相匹配的视频增强算法包括：

质量评估模型利用深度残差网络，从当前输入的所述组图像中，提取图像特征；

基于所述深度残差网络输出的图像特征，生成帧间差异信息；

将所述帧间差异信息和所述图像特征，进行通道融合处理；

基于所述通道融合处理的结果，提取全局特征；

基于所述全局特征，利用多层感知机，预测预设视频增强算法集合中每种算法对所述组图像进行视频增强处理的质量分数；

基于所述质量分数，按照优先选择高分算法的策略，从所述预设视频增强算法集合中选择一种算法，作为与所述组图像相匹配的视频增强算法。

3.根据权利要求2所述的方法，其特征在于，所述从所述预设视频增强算法集合中选择一种算法，作为与所述组图像相匹配的视频增强算法包括：

4.根据权利要求1所述的方法，其特征在于，所述将目标视频切分为若干组图像包括：

利用场景边界检测算法，对所述目标视频中的场景进行识别；

对于每个所述场景，利用滑动窗口，从该场景对应的帧序列中抽取视频帧，将每次抽取的视频帧作为一组图像；其中，每次抽取k帧，k为预设的一组图像的帧数，如果场景中剩余待抽取的帧数小于k，则补充至k帧后得到一组图像。

5.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：

预先利用预设的样本数据，对所述质量评估模型进行训练；其中，所述样本数据的构建方法包括：

6.根据权利要求5所述的方法，其特征在于，其中，所述图像质量评估算法的数量大于2，参与所述人工打分的人数大于2。

7.一种视频增强装置，其特征在于，包括：

8.一种视频增强设备，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至6中任一项所述视频增强方法。

9.一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如权利要求1至6中任一项所述视频增强方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述视频增强方法的步骤。