CN110738611B

CN110738611B - 一种视频画质增强方法、系统及设备

Info

Publication number: CN110738611B
Application number: CN201910892284.2A
Authority: CN
Inventors: 张霞; 唐阳阳
Original assignee: Wangsu Science and Technology Co Ltd
Current assignee: Wangsu Science and Technology Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2022-08-16
Anticipated expiration: 2039-09-20
Also published as: CN110738611A

Abstract

本发明公开了一种视频画质增强方法、系统及设备，其中，所述方法包括：识别目标视频中的各个场景片段，并确定所述场景片段的候选损失类型；针对任一所述候选损失类型，选用与所述候选损失类型相匹配的损失估计模型，并利用所述损失估计模型，预测所述场景片段针对所述候选损失类型的实际损失参数；分别选用与各个所述候选损失类型相匹配的画质增强模型，并利用各个所述画质增强模型，对所述场景片段中的视频帧依次进行画质增强；其中，所述画质增强模型使用的增强参数由相匹配的候选损失类型对应的实际损失参数确定。本申请提供的技术方案，能够提高画质增强效果。

Description

一种视频画质增强方法、系统及设备

技术领域

本发明涉及图像处理技术领域，特别涉及一种视频画质增强方法、系统及设备。

背景技术

随着互联网技术的不断发展，用户对于视频高清度的需求也与日俱增。然而，高清视频的制作周期往往较长，制作成本也较高。因此，针对画质较差的视频进行画质增强处理，成为制作高清视频的一种有效手段。

目前在进行画质增强处理时，可以检测图像的空间频率响应(Spatial FrequencyResponse，SFR)，并通过分析图像的SFR来确定图像的清晰度。后续可以通过确定的清晰度进行图像增强处理。然而，影响图像清晰度的因素可能比较多，上述的画质增强的手段比较单一，有时候无法达到较好的画质增强效果。

发明内容

本申请的目的在于提供一种视频画质增强方法、系统及设备，能够提高画质增强效果。

为实现上述目的，本申请一方面提供一种视频画质增强方法，所述方法包括：识别目标视频中的各个场景片段，并确定所述场景片段的候选损失类型；针对任一所述候选损失类型，选用与所述候选损失类型相匹配的损失估计模型，并利用所述损失估计模型，预测所述场景片段针对所述候选损失类型的实际损失参数；分别选用与各个所述候选损失类型相匹配的画质增强模型，并利用各个所述画质增强模型，对所述场景片段中的视频帧依次进行画质增强；其中，所述画质增强模型使用的增强参数由相匹配的候选损失类型对应的实际损失参数确定。

为实现上述目的，本申请另一方面还提供一种视频画质增强系统，所述系统包括：候选损失类型确定单元，用于识别目标视频中的各个场景片段，并确定所述场景片段的候选损失类型；实际损失参数预测单元，用于针对任一所述候选损失类型，选用与所述候选损失类型相匹配的损失估计模型，并利用所述损失估计模型，预测所述场景片段针对所述候选损失类型的实际损失参数；画质增强单元，用于分别选用与各个所述候选损失类型相匹配的画质增强模型，并利用各个所述画质增强模型，对所述场景片段中的视频帧依次进行画质增强；其中，所述画质增强模型使用的增强参数由相匹配的候选损失类型对应的实际损失参数确定。

为实现上述目的，本申请另一方面还提供一种视频画质增强设备，所述设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的视频画质增强方法。

由上可见，本申请一个或者多个实施方式提供的技术方案，在进行画质强增时，首先可以将目标视频划分为多个场景片段，并针对各个场景片段依次进行画质增强处理。具体地，可以确定出场景片段的候选损失类型，该候选损失类型可以是能够影响视频画质的因素。然后，针对每个候选损失类型，可以通过匹配的损失估计模型，预测出该候选损失类型对应的实际损失参数。同时，在对场景片段进行画质增强时，也可以针对不同的候选损失类型，选用不同的画质增强模型，从而能够精准地对候选损失类型进行画质增强。此外，画质增强模型在增强过程中使用的增强参数，也可以基于相匹配的候选损失类型的实际损失参数来确定。这样可以保证能够恰到好处地对场景片段进行画质增强，不会导致增强不够或者过增强，从而提高了画质增强的效果。

附图说明

为了更清楚地说明本发明实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施方式中预测模型的训练方法步骤图；

图2是本发明实施方式中预测模型的结构示意图；

图3是本发明实施方式中视频画质识别方法的步骤图；

图4是本发明实施方式中区域图像的提取示意图；

图5是本发明实施方式中画质增强的步骤图；

图6是本发明实施方式中视频画质识别设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施方式及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施方式仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请提供一种视频画质增强方法，在实现该方法时，首先可以进行视频画质识别。具体地，可以通过机器学习的方式，训练得到用于区分不同的图像损失类型的预测模型。具体地，请参阅图1，可以按照以下步骤来训练上述的预测模型。

S01：获取无损失的图像样本，并对所述无损失的图像样本进行有损处理，得到多种不同损失类型的图像样本，其中，所述无损失的图像样本和所述多种不同损失类型的图像样本构成训练样本。

在本实施方式中，可以预先确定视频画面可能存在的图像损失类型。具体地，图像损失类型可以划分为高清类型、运动模糊类型、离焦模糊类型、矩形模糊类型、交错类型、压缩伪影类型、高斯噪声类型等多种不同的类型。其中，高清类型可以认为是画质较好的类型，该类型的视频画面无需进行画质增强。而其它的类型都可以认为是高清类型的图片受到不同因素的影响，从而导致画质变差的类型，这些类型通常需要进行画质增强，从而得到高清类型的视频画面。

在一个实施方式中，在训练预测模型之前，需要准备大量的训练样本。这些训练样本中的图像样本，可以具备上述任意一种图像损失类型。例如，在训练样本中，可以包括高清图像，也可以包括运动模糊的图像，还可以包括高斯噪声的图像等等。为了保证预测模型的预测效果，训练样本中可以尽量覆盖常见的各种图像损失类型，并且针对每一种图像损失类型，都可以具备一定数量的图像样本。

在本实施方式中，在构建训练样本时，可以针对无损失的图像样本(也就是高清图像)，进行不同程度和不同方式的有损处理，从而得到不同损失类型的图像样本。具体地，可以选用与图像损失类型相对应的图像滤波算子对无损失的图像样本进行有损处理。该图像滤波算子例如可以是matlab中的fspecial定义的average、disk、gaussian、motion等滤波算子，还可以是设定了参数quality的imwrite函数。当然，随着技术的不断发展，还可能出现更多的图像损失类型以及对应的图像滤波算子，上述的图像损失类型和对应的图像滤波算子只是为了阐述方便而例举的，并不表示本申请的技术方案只能应用于这些图像损失类型和对应的图像滤波算子。

在本实施方式中，在确定了不同的图像滤波算子后，可以分别用这些图像滤波算子对无损失的图像样本进行有损处理，并且在处理过程中，同一个图像滤波算子可以选用不同的损失参数，从而生成同一个图像损失类型下，损失程度不同的多个图像样本。这样，可以将最终得到的多种不同损失类型的图像样本和原始的无损失的图像样本共同构成用于训练预测模型的训练样本。

S03：基于所述训练样本训练得到预测模型，所述预测模型中包括全连接层和一个或者多个特征提取层，所述特征提取层中包括相连的卷积层和激活层。

在本实施方式中，可以利用上述的训练样本，对卷积神经网络进行训练，从而得到预测模型。在该预测模型中，可以包括如图2所示的特征提取层和全连接层。其中，该特征提取层中可以包括相连的卷积层和激活层。在卷积层中，可以采用预先选定的卷积核，对输入的图像样本做卷积运算。其中，卷积核在完成一次局部的卷积运算之后，可以按照卷积滑动步长进行滑动，并与滑动之后对应的局部图像进行卷积运算。这样，当卷积核按照卷积滑动步长遍历了输入的图像样本后，便完成了对该图像样本的卷积处理。卷积层输出的结果，可以进入激活层，激活层中可以使用预先设定的激活函数，对卷积层的结果进行降维处理，以减少训练过程中的数据量。在实际应用中，激活函数例如可以是sigmoid函数、tanh函数、ReLU函数等。激活层输出的结果可以进入全连接层，全连接层可以将激活层输出的多维结果，展平为一个概率向量。在该概率向量中，可以包括多个概率值，这些概率值可以与待预测的图像损失类型一一对应，从而表征各个图像损失类型的预测概率。例如，当前待预测的图像损失类型为6种，那么全连接层输出的概率向量中，就可以包含6个概率值，这6个概率值可以分别对应上述的6中图像损失类型。其中，概率值越大，表示对应的图像损失类型越有可能是图像样本具备的图像损失类型。

在一个实施方式中，为了提高预测模型的预测精度，可以在训练过程中，将特征提取层的数量设置为多个。这样，多个特征提取层可以依次连接，最末端的特征提取层依然与全连接层相连。这样，通过多个相连的特征提取层，可以更加精确地提取出图像样本中的特征。在这多个特征提取层中，各个卷积层使用的卷积核的尺寸可以保持不变，同时，卷积滑动步长可以在可选的多个步长数值中交替变化。例如，可选的步长数值为1和2，那么第一个特征提取层可以使用步长数值为1的卷积滑动步长，而第二个特征提取层可以使用步长数值为2的卷积滑动步长，第三个特征提取层可以使用步长数值为1的卷积滑动步长，以此类推。这样处理的有益之处在于，当卷积滑动步长的数值变大时，卷积核所需滑动的次数就会降低，从而能够有效地降低生成的数据尺寸(volume size)。而当卷积滑动步长的数值变小时，能够捕捉到更加细节的局部特征，从而使得提取的特征更加精准。这样，通过交替使用不同的卷积滑动步长，能够更加精确地提取出图像样本中的特征。

在本实施方式中，通过构建的训练样本，可以反复地对卷积神经网络进行训练，在训练过程中，可以将输出结果表征的图像损失类型与图像样本实际的图像损失类型进行比对，从而生成误差值，并利用误差值对卷积神经网络中的参数进行校正，从而使得校正后的卷积神经网络能够更加准确地预测出图像样本对应的图像损失类型。在完成训练阶段后，便可以得到预测模型。

经过上述步骤的处理，可以预先训练得到用于识别视频画质的预测模型，后续，便可以利用该预测模型，对目标视频的画质进行识别。具体地，在一个实施方式中，可以按照图3所示的步骤对目标视频的画质进行识别。

S11：识别目标视频中的各个场景片段，并选取所述场景片段中的一个或者多个视频帧。

在本实施方式中，该目标视频可以是待识别画质的视频。考虑到在一个目标视频中，相同场景的画面可能会具备相同的图像损失类型。鉴于此，为了减少画质识别过程中需要处理的数据量，并不需要将目标视频中的每一个视频帧都输入预测模型中进行识别，而是可以先识别目标视频中存在的场景片段，然后可以分别确定各个场景片段对应的图像损失类型。

在本实施方式中，由于同一个场景片段的各个视频帧中的内容可能比较相似，因此，也不需要针对场景片段中的每一个视频帧进行画质识别，而是可以从场景片段中选取有限的一个或者多个视频帧进行画质识别，这样便可以极大地减少预测模型需要处理的数据量。

在一个实施方式中，在从目标视频中识别场景片段时，可以识别目标视频中的关键帧，并将相邻的两个关键帧之间的视频片段作为一个场景片段。具体地，关键帧可以视为场景切换帧，关键帧之前和关键帧之后的视频帧，可以分别位于不同的两个场景片段中。这样，不同的场景片段，可以通过关键帧进行划分。

在实际应用中，可以采用光流法、直方图法、帧差法、均值法等常规的方式从目标视频中识别出关键帧。此外，在一个实施方式中，还可以根据视频帧之间内容的相似度来识别关键帧。具体地，首先可以在目标视频中确定基准帧，并依次计算所述基准帧之后的各个视频帧与所述基准帧之间的相似度。

在本实施方式中，所述基准帧可以在一定范围内随机指定的一帧画面。例如，所述基准帧可以是在所述目标视频的开篇2分钟内随机选取的一帧画面。当然，为了不遗漏所述目标视频中的场景，可以将所述目标视频的第一帧作为所述基准帧。

在本实施方式中，当确定了所述基准帧之后，可以从所述基准帧开始，将所述基准帧之后的各帧画面依次与所述基准帧进行对比，以计算后续的各帧画面与所述基准帧之间的相似度。具体地，在计算各个视频帧与所述基准帧之间的相似度时，可以分别提取所述基准帧和当前视频帧的第一特征向量和第二特征向量。

在本实施方式中，所述第一特征向量和所述第二特征向量可以具备多种形式。其中，可以基于每帧画面中像素点的像素值构建该帧画面的特征向量。每帧画面通常都是由若干的像素点按照一定的顺序排列而成的，像素点对应各自的像素值，从而可以构成色彩斑斓的画面。所述像素值可以是处于指定区间内的数值。例如，所述像素值可以是灰度值，所述灰度值可以是0至255中的任意一个数值，数值的大小可以表示灰度的深浅。当然，所述像素值还可以是其它色系空间中多个色系分量各自的数值。例如，在RGB(Red，Green，Blue，红绿蓝)色系空间中，所述像素值可以包括R分量数值、G分量数值以及B分量数值。

在本实施方式中，可以获取每帧画面中各个像素点的像素值，并通过获取的像素值构成该帧画面的特征向量。例如，对于具备9*9＝81个像素点的当前视频帧而言，可以依次获取其中像素点的像素值，然后根据从左向右从上至下的顺序，将获取的像素值依次排列，从而构成81维的向量。该81维的向量便可以作为所述当前视频帧的特征向量。

在本实施方式中，在确定了所述第一特征向量和所述第二特征向量之后，可以计算所述第一特征向量和所述第二特征向量之间的相似度。具体地，所述相似度在向量空间中可以表示为两个向量之间的距离。距离越近，表示两个向量越相似，因此相似度越高。距离越远，表示两个向量差别越大，因此相似度越低。因此，在计算所述基准帧和所述当前视频帧之间的相似度时，可以计算所述第一特征向量和所述第二特征向量之间的空间距离，并将所述空间距离的倒数作为所述基准帧与所述当前视频帧之间的相似度。这样，空间距离越小，其对应的相似度越大，表明所述基准帧和所述当前视频帧之间越相似。相反地，空间距离越大，其对应的相似度越小，表明所述基准帧和所述当前视频帧之间越不相似。

在本实施方式中，按照上述方式可以依次计算所述基准帧之后的各个视频帧与所述基准帧之间的相似度。为了确定出目标视频中的不同场景，在本实施方式中，当所述基准帧与当前视频帧之间的相似度小于或者等于指定阈值时，可以将所述当前视频帧确定为一个关键帧。其中，所述指定阈值可以是预先设定的一个数值，该数值根据实际情况可以灵活地进行调整。例如，当根据该指定阈值筛选出的关键帧的数量过多时，可以适当减小该指定阈值的大小。又例如，当根据该指定阈值筛选出的关键帧的数量过少时，可以适当增大该指定阈值的大小。在本实施方式中，相似度小于或者等于指定阈值，可以表示两帧画面中的内容已经具备明显的不同，因此可以认为当前视频帧所展示的场景，与所述基准帧所展示的场景发生了改变。此时，所述当前视频帧便可以作为场景切换的一帧画面进行保留。

在本实施方式中，在将所述当前视频帧确定为一个关键帧时，可以继续确定后续的其它关键帧。具体地，从所述基准帧到所述当前视频帧，可以视为场景发生了一次改变，因此当前的场景便是所述当前视频帧所展示的内容。基于此，可以将所述当前视频帧作为新的基准帧，并依次计算所述新的基准帧之后的各个视频帧与所述新的基准帧之间的相似度，从而根据计算的所述相似度确定下一个关键帧。同样地，在确定下一个关键帧时，依然可以通过提取特征向量以及计算空间距离的方式确定出两帧画面之间的相似度，并且可以将确定出的相似度依然与所述指定阈值进行对比，从而确定出从新的基准帧之后场景再次发生变化的下一个关键帧。

在本实施方式中，通过上述的方式，可以从所述目标视频中依次提取出各个关键帧，这样，相邻两个关键帧之间的视频帧便可以作为相同场景帧，这些相同场景帧从而构成了所述目标视频中的一个场景片段。

在本实施方式中，在识别出各个场景片段中，可以对每个场景片段进行相同的处理。例如，可以随机从场景片段中选取一个或者多个视频帧，并识别这个或者这些视频帧的画质。

S13：从所述视频帧中提取出区域图像，并预测各个所述区域图像的损失类型序列，以及根据各个所述区域图像的损失类型序列，确定所述视频帧的损失类型序列。

在本实施方式中，为了进一步减少预测模型所需处理的数据量，也不需要将完整的视频帧输入预测模型中。实际上，在视频帧中，有效的视频内容可能仅仅占一小部分，其它部分都可能是背景或者是与视频主题无关的内容。鉴于此，可以从视频帧中提取出区域图像，并识别各个区域图像的画质。

具体地，在本实施方式中，可以预先确定区域图像的尺寸，并按照所述区域图像的尺寸，从所述视频帧中提取出一个关键区域，以及随机提取出指定数量的额外区域，并将所述关键区域和所述额外区域作为从所述视频帧中提取出的区域图像。其中，关键区域中展示的内容，可以是与目标视频的主题相关的内容，而随机选取的额外区域中展示的内容，可能是与目标视频的主题无关或者关系不太紧密的内容。

在一个实施方式中，可以确定所述视频帧的中心坐标，并从所述视频帧中截取包含所述中心坐标的关键区域。这样处理的目的在于，从视频表现的习惯来看，视频帧中的重点内容，通常会分布在视频帧的中间位置。这样，可以根据视频帧的分辨率，确定出视频帧的中心坐标。该中心坐标的横坐标和纵坐标，可以分别是视频帧的分辨率的长和宽的一半。当然，如果长和宽的一半为非整数，该中心坐标可以向上取整或者向下取整。在确定出中心坐标之后，可以按照区域图像的尺寸，截取出包含该中心坐标的关键区域。例如，在一个具体应用示例中，请参阅图4，在确定出视频帧的中心坐标(圆形表示的坐标)后，可以将该中心坐标也作为关键区域的中心坐标，从而截图出如图4中虚线所示的关键区域。此外，还可以在视频帧中，随机提取出多个额外区域(实线所示的小矩形框)。

在另一个实施方式中，考虑到某些情况下，视频帧中的主要内容可能并不是分布于视频帧的中心位置。此时，可以按照人眼的视觉原理，在所述视频帧中识别用于表征所述视频帧的内容的目标对象。该目标对象例如可以是一张人脸，或者一个物体。后续，可以按照区域图像的尺寸，从所述视频帧中截取包含所述目标对象的关键区域。这样，便可以保证截图到的关键区域能够表征视频帧的主要内容。上述关键区域是按照预先设定的区域图像的尺寸进行截取的，因此关键区域的尺寸可以与预先确定的所述区域图像的尺寸保持一致。

在本实施方式中，在确定了关键区域后，可以在视频帧中随机确定多个额外区域，上述的关键区域和额外区域，便可以作为从视频帧中提取的区域图像。在实际应用中，区域图像的尺寸，以及区域图像的数量，可以根据画质预测精度以及视频帧的尺寸进行灵活设定。例如，当视频帧的尺寸较大时，对应的区域图像的尺寸也可以较大。当需要较快的预测速度时，可以提取较少的区域图像。而当需要较高的预测精度时，则可以提取较多的区域图像。

在本实施方式中，当提取得到多个区域图像后，可以依次将这些区域图像输入上述的预测模型，从而通过预测模型分别对这些区域图像的画质进行识别。具体地，预测模型可以输出各个区域图像额损失类型序列，该损失类型序列可以是一个概率向量。该概率向量中包含的多个概率值，可以对应不同的损失类型。例如，对于某个区域图像而言，预测模型输出的损失类型序列是(0.1，0.07，0.6，0.2，0.01，0.02)，该损失类型序列可以对应(高清、离焦模糊、运动模糊、交错、压缩伪影、高斯噪声)这六种损失类型。由于其中运动模糊对应的概率值最高(0.6)，那么该区域图像的画质很可能发生了运动模糊。

这样，每个区域图像均可以对应一个损失类型序列，通过将这些损失类型序列进行加权求平均，从而可以综合得到视频帧的损失类型序列。具体地，可以将各个所述区域图像对应的概率向量相加，并计算相加后的概率向量中各个概率值对应的平均值。例如，假设目前的视频帧中提取出两个区域图像，这两个区域图像的概率向量分别是(0.2，0.07，0.5，0.2，0.01，0.02)和(0.6，0.04，0.1，0.2，0.03，0.03)，那么将这两个概率向量相加，就可以得到(0.8，0.11，0.6，0.4，0.04，0.05)这样的概率向量。后续，可以将其中的各个概率值除以2，从而得到各个概率值的平均值。各个概率值对应的平均值构成的概率向量，便可以作为所述视频帧的损失类型序列。例如，上述视频帧的损失类型序列便可以是(0.4，0.055，0.3，0.2，0.02，0.025)。

S15：基于所述场景片段中各个所述视频帧的损失类型序列，确定所述场景片段的图像损失类型。

在本实施方式中，场景片段中的各个视频帧均可以通过上述的方式确定出对应的损失类型序列。后续，可以将同一个场景片段中各个视频帧的损失类型序列进行加权求平均，从而得到场景片段的损失类型序列。在场景片段的损失类型序列中，最大的概率值对应的损失类型，便可以是预测得到的场景片段的图像损失类型。具体地，可以将各个所述视频帧的损失类型序列相加，并计算相加后的损失类型序列中各个概率值对应的平均值。最终，可以将所述相加后的损失类型序列中各个概率值对应的平均值构成的概率向量作为所述场景片段的损失类型序列，并将所述场景片段的损失类型序列中最大的概率值对应的损失类型作为所述场景片段的图像损失类型。

在确定出场景片段的图像损失类型后，便可以选用与该图像损失类型相匹配的画质增强模型，对该场景片段进行画质增强，从而能够提高画质增强的效果。

可见，在识别目标视频的画质时，可以将目标视频划分为一个或者多个场景片段，并针对各个场景片段的画质进行识别。具体地，可以选取场景片段中的视频帧，并从视频帧中提取出多个区域图像。针对各个区域图像，可以预测出对应的损失类型序列。该损失类型序列可以表征区域图像对应于多种不同的图像损失类型的概率。后续，可以结合各个区域图像的损失类型序列，确定出视频帧的损失类型序列。再者，可以结合场景片段中各个视频帧的损失类型序列，最终确定出场景片段可能存在的图像损失类型。考虑到目标视频中相同场景的片段可能存在相同的图像损失类型，因此不必对每一个视频帧进行画质识别，而是划分为多个场景片段进行画质识别。并且针对每个场景片段而言，只需对其中的一个或者多个视频帧进行画质识别，从而极大地减少了画质识别过程中需要处理的数据量。此外，通过损失类型序列，可以确定出不同的图像损失类型的概率，最终可以精确地确定出各个场景片段对应的图像损失类型，从而提高了视频画质的识别精度，为后续的画质增强提供了精确的基础，进而能够提高画质增强的效果。

当然，考虑到一个场景片段下，可能会对应不止一个图像损失类型。例如，按照上述方式得到场景片段的损失类型序列为(0.3，0.3，0.2，0.05，0.07，0.08)，那么其中有三个损失类型的概率值都比较高，因此可以表示，该场景片段中的视频帧，可能会同时存在三种不同的图像损失类型。鉴于此，在本申请一个实施方式中，可以按照图5所示的步骤，对场景片段进行多次画质增强处理，从而有效地提高画质增强的效果。

S21：识别目标视频中的各个场景片段，并确定所述场景片段的候选损失类型。

在本实施方式中，在得到场景片段的损失类型序列后，可以将其中较大的多个概率值对应的损失类型，都作为需要进行画质增强的候选损失类型。具体地，可以将场景片段的损失类型序列中的概率值进行排序，并选择排名最靠前的N个概率值，从而确定出这N个概率值分别对应的损失类型，这些损失类型便可以作为上述的候选损失类型。

S23：针对任一所述候选损失类型，选用与所述候选损失类型相匹配的损失估计模型，并利用所述损失估计模型，预测所述场景片段针对所述候选损失类型的实际损失参数。

在本实施方式中，为了提高场景片段的整体画质，需要对各个候选损失类型分别进行画质增强。而在进行画质增强之前，通常需要识别候选损失类型的损失程度，在识别出损失程度后，才能确定画质增强过程中采用的增强参数。为了识别出候选损失类型的损失程度，可以针对每个候选损失类型，训练出对应的损失估计模型。具体地，通常可以基于大量的训练样本对卷积神经网络进行训练，从而得到损失估计模型。

在一个实施方式中，在针对候选损失类型进行模型训练时，首先可以获取无损失的图像样本，该无损失的图像样本可以是高清图像，该高清图像无需进行画质增强。后续，可以对该无损失的图像样本进行符合所述候选损失类型的有损处理，从而得到所述候选损失类型下不同损失程度的损失图像样本。具体地，针对该候选损失类型，可以选用对应的图像滤波算子。例如，对于高斯噪声类型而言，可以选用matlab中的gaussian滤波算子。在利用图像滤波算子对无损失的图像样本进行有损处理时，可以选用不同的损失参数，这样，针对同一个无损失的图像样本，便可以得到该候选损失类型下，不同损失程度的多个图像样本。有损处理后的图像样本的损失程度，可以通过损失值来表示。例如，经过高斯噪声处理后的图像样本，可以划分为损失值为0.1、0.2、0.3、0.4、0.6这五种不同的图像样本。上述的无损失的图像样本和经过有损处理的图像样本，可以作为候选损失类型的训练样本。

在本实施方式中，当得到候选损失类型的训练样本后，便可以参考步骤S03中描述的模型训练方式，训练得到与候选损失类型相匹配的损失估计模型。在该损失估计模型中，也可以包括如图2所示的全连接层和一个或者多个特征提取层，所述特征提取层中包括相连的卷积层和激活层。这部分内容可以参考步骤S03的描述，这里便不再赘述。

在本实施方式中，当选用了与候选损失类型相匹配的损失估计模型后，可以利用该损失估计模型来预测场景片段针对该候选损失类型的实际损失参数。具体地，可以参考步骤S11至S15中描述的方案，首先可以利用损失损失估计模型对场景片段中选取的视频帧进行预测。在对各个视频帧进行预测时，可以对视频帧中提取出的区域图像进行预测。具体地，可以将视频帧中的各个区域图像依次输入所述损失估计模型，以通过所述损失估计模型输出各个所述区域图像的损失类型序列。这样，可以利用损失损失估计模型预测各个区域图像的损失参数序列，以及根据各个区域图像的损失参数序列，确定视频帧的损失参数序列。其中，区域图像的损失参数序列可以为包含多个概率值的概率向量，其中，不同的概率值对应所述候选损失类型下不同的损失参数。在确定所述视频帧的损失参数序列时，可以将该视频帧下各个区域图像对应的概率向量相加，并计算相加后的概率向量中各个概率值对应的平均值，从而可以将各个概率值对应的平均值构成的概率向量作为视频帧的损失参数序列。在得到各个视频帧的损失参数序列后，便可以基于所述场景片段中各个所述视频帧的损失参数序列，确定所述场景片段针对所述候选损失类型的实际损失参数。具体地，可以将各个所述视频帧的损失参数序列相加，并计算相加后的损失参数序列中各个概率值对应的平均值，然后，可以将所述相加后的损失参数序列中各个概率值对应的平均值构成的概率向量作为所述场景片段的损失参数序列，并将所述场景片段的损失参数序列中最大的概率值对应的损失参数作为所述场景片段针对所述候选损失类型的实际损失参数。例如，针对高斯噪声类型计算得到的场景片段的损失参数序列为(0.4，0.055，0.3，0.2，0.02，0.025)，其中最大的概率值为0.4，该概率值对应的损失参数可以是0.3，那么表示当前的场景片段中，受到高斯噪声类型影响的参数可以是0.3。

这样，针对不同的候选损失类型，都可以按照上述的方法，分别确定出各个候选损失类型对应的实际损失参数。

S25：分别选用与各个所述候选损失类型相匹配的画质增强模型，并利用各个所述画质增强模型，对所述场景片段中的视频帧依次进行画质增强；其中，所述画质增强模型使用的增强参数由相匹配的候选损失类型对应的实际损失参数确定。

在本实施方式中，当确定出场景片段对应的需要增强的多个候选损失类型，以及分别确定出各个候选损失类型的实际损失参数后，可以针对每个候选损失类型，选用相匹配的画质增强模型。该画质增强模型可以是预先配置的，针对不同的图像损失类型，可以具备不同的画质增强模型。例如，假设目前需要对6种图像损失类型进行预测，那么可以预先配置对应的6种画质增强模型。在通过画质增强模型对场景片段进行画质增强时，通常需要设定增强参数。合适的增强参数，能够保证场景片段的画质能够恰到好处地被增强，而不会出现增强不够或者过增强的现象。在实际应用中，画质增强模型所采用的增强参数，可以基于相匹配的候选损失类型对应的实际损失参数来确定。例如，假设高斯噪声类型确定出的实际损失参数为0.3，那么相匹配的高斯增强模型的增强参数也可以配置为0.3。这样，实际损失参数越大，表示损失程度越高，相对应的增强参数也可以越大，表示增强幅度也越高。最终，可以分别选用与各个候选损失模型相匹配的画质增强模型，并且对各个画质增强模型而言，可以配置增强参数，该增强参数可以由与画质增强模型相匹配的候选损失类型对应的实际损失参数确定。

在本实施方式中，当选用了画质增强模型，以及配置了对应的增强参数后，可以将场景片段的每一个视频帧，依次通过选用的各个画质增强模型，每个画质增强模型的输出，可以作为下一个画质增强模型的输入，从而逐级进行画质增强。当针对各个场景片段都进行上述的处理后，便可以实现对目标视频的画质增强过程。

本申请还提供一种视频画质增强系统，所述系统包括：

候选损失类型确定单元，用于识别目标视频中的各个场景片段，并确定所述场景片段的候选损失类型；

实际损失参数预测单元，用于针对任一所述候选损失类型，选用与所述候选损失类型相匹配的损失估计模型，并利用所述损失估计模型，预测所述场景片段针对所述候选损失类型的实际损失参数；

画质增强单元，用于分别选用与各个所述候选损失类型相匹配的画质增强模型，并利用各个所述画质增强模型，对所述场景片段中的视频帧依次进行画质增强；其中，所述画质增强模型使用的增强参数由相匹配的候选损失类型对应的实际损失参数确定。

请参阅图6，本申请还提供一种视频画质增强设备，所述设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，可以实现上述的视频画质增强方法。

在本实施方式中，所述存储器可以包括用于存储信息的物理装置，通常是将信息数字化后再以利用电、磁或者光学等方法的媒体加以存储。本实施方式所述的存储器又可以包括：利用电能方式存储信息的装置，如RAM或ROM等；利用磁能方式存储信息的装置，如硬盘、软盘、磁带、磁芯存储器、磁泡存储器或U盘；利用光学方式存储信息的装置，如CD或DVD。当然，还有其他方式的存储器，例如量子存储器或石墨烯存储器等等。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。尤其，针对系统和设备的实施方式来说，均可以参照前述方法的实施方式的介绍对照解释。

本领域内的技术人员应明白，本发明的实施方式可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施方式的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施方式而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种视频画质增强方法，其特征在于，所述方法包括：

识别目标视频中的各个场景片段，基于所述场景片段中各个视频帧的损失类型序列，确定所述场景片段的损失类型序列，并将所述场景片段的损失类型序列中的概率值进行排序，根据排序结果确定所述场景片段的候选损失类型；

针对任一所述候选损失类型，选用与所述候选损失类型相匹配的损失估计模型，并利用所述损失估计模型，预测所述场景片段针对所述候选损失类型的实际损失参数；

分别选用与各个所述候选损失类型相匹配的画质增强模型，并利用各个所述画质增强模型，对所述场景片段中的视频帧依次进行画质增强；其中，所述画质增强模型使用的增强参数由相匹配的候选损失类型对应的实际损失参数确定。

2.根据权利要求1所述的方法，其特征在于，所述确定所述场景片段的候选损失类型还包括：

选取所述场景片段中的一个或者多个视频帧，并从所述视频帧中提取出区域图像；

预测各个所述区域图像的损失类型序列，并根据各个所述区域图像的损失类型序列，确定所述视频帧的损失类型序列。

3.根据权利要求2所述的方法，其特征在于，识别目标视频中的各个场景片段包括：

识别所述目标视频中的关键帧，并将相邻的两个关键帧之间的视频片段作为一个场景片段。

4.根据权利要求3所述的方法，其特征在于，识别所述目标视频中的关键帧包括：

在所述目标视频中确定基准帧，并依次计算所述基准帧之后的视频帧与所述基准帧之间的相似度；

若当前视频帧与所述基准帧之间的相似度小于或者等于指定阈值，将所述当前视频帧确定为一个关键帧；

将所述当前视频帧作为新的基准帧，并依次计算所述新的基准帧之后的视频帧与所述新的基准帧之间的相似度，并根据计算的所述相似度确定下一个关键帧。

5.根据权利要求2所述的方法，其特征在于，从所述视频帧中提取出区域图像包括：

预先确定区域图像的尺寸，并按照所述区域图像的尺寸，从所述视频帧中提取出一个关键区域，以及随机提取出指定数量的额外区域，并将所述关键区域和所述额外区域作为从所述视频帧中提取出的区域图像。

6.根据权利要求5所述的方法，其特征在于，所述关键区域按照以下方式确定：

确定所述视频帧的中心坐标，并从所述视频帧中截取包含所述中心坐标的关键区域；

或者

在所述视频帧中识别用于表征所述视频帧的内容的目标对象，并从所述视频帧中截取包含所述目标对象的关键区域；

其中，所述关键区域的尺寸与预先确定的所述区域图像的尺寸保持一致。

7.根据权利要求2所述的方法，其特征在于，预测各个所述区域图像的损失类型序列包括：

获取无损失的图像样本，并对所述无损失的图像样本进行有损处理，得到多种不同损失类型的图像样本，其中，所述无损失的图像样本和所述多种不同损失类型的图像样本构成训练样本；

基于所述训练样本训练得到预测模型，所述预测模型中包括全连接层和一个或者多个特征提取层，所述特征提取层中包括相连的卷积层和激活层；

将各个所述区域图像依次输入所述预测模型，以通过所述预测模型输出各个所述区域图像的损失类型序列。

8.根据权利要求7所述的方法，其特征在于，当所述特征提取层的数量为多个时，各个所述特征提取层中使用的卷积核的尺寸保持不变，并且各个所述特征提取层中使用的卷积滑动步长在可选的多个步长数值中交替变化。

9.根据权利要求2或7所述的方法，其特征在于，所述区域图像的损失类型序列为包含多个概率值的概率向量，其中，不同的概率值对应不同的损失类型；根据各个所述区域图像的损失类型序列，确定所述视频帧的损失类型序列包括：

将各个所述区域图像对应的概率向量相加，并计算相加后的概率向量中各个概率值对应的平均值；

将各个概率值对应的平均值构成的概率向量作为所述视频帧的损失类型序列。

10.根据权利要求9所述的方法，其特征在于，基于所述场景片段中各个所述视频帧的损失类型序列，确定所述场景片段的图像损失类型包括：

将各个所述视频帧的损失类型序列相加，并计算相加后的损失类型序列中各个概率值对应的平均值；

将所述相加后的损失类型序列中各个概率值对应的平均值构成的概率向量作为所述场景片段的损失类型序列，并将所述场景片段的损失类型序列中最大的概率值对应的损失类型作为所述场景片段的图像损失类型。

11.根据权利要求1所述的方法，其特征在于，预测所述场景片段针对所述候选损失类型的实际损失参数包括：

利用所述损失估计模型预测各个所述区域图像的损失参数序列，以及根据各个所述区域图像的损失参数序列，确定所述视频帧的损失参数序列；

基于所述场景片段中各个所述视频帧的损失参数序列，确定所述场景片段针对所述候选损失类型的实际损失参数。

12.根据权利要求11所述的方法，其特征在于，所述区域图像的损失参数序列为包含多个概率值的概率向量，其中，不同的概率值对应所述候选损失类型下不同的损失参数；根据各个所述区域图像的损失参数序列，确定所述视频帧的损失参数序列包括：

将各个概率值对应的平均值构成的概率向量作为所述视频帧的损失参数序列。

13.根据权利要求12所述的方法，其特征在于，基于所述场景片段中各个所述视频帧的损失参数序列，确定所述场景片段针对所述候选损失类型的实际损失参数包括：

将各个所述视频帧的损失参数序列相加，并计算相加后的损失参数序列中各个概率值对应的平均值；

将所述相加后的损失参数序列中各个概率值对应的平均值构成的概率向量作为所述场景片段的损失参数序列，并将所述场景片段的损失参数序列中最大的概率值对应的损失参数作为所述场景片段针对所述候选损失类型的实际损失参数。

14.根据权利要求11所述的方法，其特征在于，与候选损失类型相匹配的损失估计模型按照以下方式训练得到：

获取无损失的图像样本，并对所述无损失的图像样本进行符合所述候选损失类型的有损处理，得到所述候选损失类型下不同损失程度的损失图像样本，其中，所述无损失的图像样本和所述损失图像样本构成训练样本；

基于所述训练样本训练得到与所述候选损失类型相匹配的损失估计模型，所述损失估计模型中包括全连接层和一个或者多个特征提取层，所述特征提取层中包括相连的卷积层和激活层；

相应地，利用所述损失估计模型预测各个所述区域图像的损失参数序列包括：

将各个所述区域图像依次输入所述损失估计模型，以通过所述损失估计模型输出各个所述区域图像的损失类型序列。

15.一种视频画质增强系统，其特征在于，所述系统包括：

候选损失类型确定单元，用于识别目标视频中的各个场景片段，基于所述场景片段中各个视频帧的损失类型序列，确定所述场景片段的损失类型序列，并将所述场景片段的损失类型序列中的概率值进行排序，根据排序结果确定所述场景片段的候选损失类型；

16.一种视频画质增强设备，其特征在于，所述设备包括处理器和存储器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至14中任一所述的方法。