CN113194320B

CN113194320B - 参数预测模型的训练方法及装置和参数预测方法及装置

Info

Publication number: CN113194320B
Application number: CN202110478227.7A
Authority: CN
Inventors: 赵明菲; 于冰; 闻兴; 王晓楠; 白瑞; 黄跃; 黄博; 陈宇聪
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-11-22
Anticipated expiration: 2041-04-30
Also published as: CN113194320A

Abstract

本公开关于一种参数预测模型的训练方法及装置和参数预测方法及装置，所述训练方法包括：获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值，其中，每个视频样本的视频编码相关参数的真实值是基于在所述视频编码相关参数的不同值下对该视频训练样本进行编码而获得的质量评价数据和码率计算得到；将视频样本的视频特征输入到所述参数预测模型，得到所述视频编码相关参数的预测值；基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数；根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练。

Description

参数预测模型的训练方法及装置和参数预测方法及装置

技术领域

本公开涉及视频技术领域，更具体地说，涉及一种参数预测模型的训练方法及装置和参数预测方法及装置。

背景技术

为了在有限带宽和较低成本开销下提供更好的视觉体验，在实际应用中视频分发平台一般采用自适应比特率(Adaptive Bitrate,ABR)技术进行编码传输。在传统ABR技术框架中，每个源视频产生多个分辨率版本，每种分辨率的视频以一种固定的码率编码，这些分辨率和码率的对应关系被称为编码阶梯(或码表)。用户在观看视频流时，客户端根据实际网络带宽以及设备情况选择最佳的分辨率和码率以期达到较好的观看体验。然而，目前这种ABR技术最常见的问题是这些分辨率和码率组合太过死板，没有考虑任何视频内容特性。此外，为了解决传统ABR技术存在的上述问题，提出一种内容感知编码(Content AwareEncoding,CAE)技术，即在视频编码过程中，根据视频的内容设置合适编码参数，希望达到主观质量和编码效率的平衡。然而，目前CAE方案的复杂度过高，且没有真正考虑主观质量。

发明内容

本公开提供一种参数预测模型的训练方法及装置和参数预测方法及装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种参数预测模型的训练方法，包括：获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值，其中，每个视频样本的视频编码相关参数的真实值是基于在所述视频编码相关参数的不同值下对该视频训练样本进行编码而获得的质量评价数据和码率计算得到；将视频样本的视频特征输入到所述参数预测模型，得到所述视频编码相关参数的预测值；基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数；根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练。

可选地，每个视频样本的所述视频编码相关参数的真实值可通过以下方式得到：获取所述视频编码相关参数的第一参数值；按照预定步长对第一参数值进行多次调整，获得所述视频编码相关参数的第二参数值至第(N+1)参数值，其中，N为调整次数；分别使用所述视频编码相关参数的第一参数值至第(N+1)参数值对该视频样本进行编码，得到相应的质量评价数据和码率；按照第(N+1)参数值至第一参数值的顺序，针对每个参数值执行以下操作，直到确定所述视频编码相关参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于预设阈值的情况下，将所述视频编码相关参数的真实值确定为当前参数值。

可选地，所述视频编码相关参数可包括编码参数和/或前处理参数中的至少一个。

可选地，在所述视频编码相关参数为编码参数的情况下，每个视频样本的编码参数的真实值可通过以下方式得到：获取所述编码参数的第一参数值；按照第一预定步长对所述编码参数的第一参数值进行多次调整，获得所述编码参数的第二参数值至第(N+1)参数值，其中，N为调整次数；在将前处理参数设置为前处理参数的第一参数值的情况下，分别使用所述编码参数的第一参数值至第(N+1)参数值对该视频样本进行编码，得到相应的质量评价数据和码率；按照所述编码参数的第(N+1)参数值至第一参数值的顺序，针对每个参数值执行以下操作，直到确定所述编码参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于第一预设阈值的情况下，则将所述编码参数的真实值确定为当前参数值。

可选地，在所述视频编码相关参数为前处理参数的情况下，每个视频样本的前处理参数的真实值可通过以下方式得到：获取所述前处理参数的第一参数值；按照第二预定步长对所述前处理参数的第一参数值进行多次调整，获得所述前处理参数的第二参数值至第(N+1)参数值，其中，N为调整次数；在将编码参数设置为编码参数的第一参数值的情况下，分别使用所述前处理参数的第一参数值至第(N+1)参数值对该视频样本进行编码，得到相应的质量评价数据和码率；按照所述前处理参数的第(N+1)参数值至第一参数值的顺序，针对每个参数值执行以下操作，直到确定所述前处理参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于第二预设阈值的情况下，则将所述前处理参数的真实值确定为当前参数值。

可选地，所述编码参数的第一参数值可根据编码视频素材集合中画质保持达预定质量的编码视频素材的编码参数的值来确定，所述前处理参数的第一参数值可根据编码视频素材集合中画质保持达预定质量的编码视频素材的前处理参数的值来确定。

可选地，所述视频样本的视频特征可通过以下操作得到：对所述视频样本进行抽帧；分别获取每个抽取的帧的视频特征，计算每个抽取的帧的视频特征的平均值，作为所述视频样本的视频特征。

可选地，所述基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数，可包括：计算所述视频样本的所述视频编码相关参数的预测值和真实值的均方误差，作为所述损失函数。

可选地，所述质量评价数据可为视频多方法评价融合(VMAF)数据。

根据本公开实施例的第二方面，提供一种参数预测方法，包括：获取待编码的视频内容；将所述待编码的视频内容的视频特征输入根据本公开的参数预测模型的训练方法训练得到的参数预测模型，得到所述待编码的视频内容的视频编码相关参数的预测值。

可选地，所述待编码的视频内容的视频特征可通过以下操作得到：对所述待编码的视频内容进行抽帧；分别获取每个抽取的帧的视频特征，计算每个抽取的帧的视频特征的平均值，作为所述待编码的视频内容的视频特征。

根据本公开实施例的第三方面，提供一种参数预测模型的训练装置，包括：样本获取单元，被配置为：获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值，其中，每个视频样本的视频编码相关参数的真实值是基于在所述视频编码相关参数的不同值下对该视频训练样本进行编码而获得的质量评价数据和码率计算得到；参数预测单元，被配置为：将视频样本的视频特征输入到所述参数预测模型，得到所述视频编码相关参数的预测值；损失函数计算单元，被配置为：基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数；模型训练单元，被配置为：根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练。

可选地，损失函数计算单元可被配置为：计算所述视频样本的所述视频编码相关参数的预测值和真实值的均方误差，作为所述损失函数。

根据本公开实施例的第四方面，提供一种参数预测装置，包括：视频获取单元，被配置为：获取待编码的视频内容；参数预测单元，被配置为：将所述待编码的视频内容的视频特征输入根据本公开的参数预测模型的训练方法训练得到的参数预测模型，得到所述待编码的视频内容的视频编码相关参数的预测值。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的参数预测模型的训练方法或参数预测方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的参数预测模型的训练方法或参数预测方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的参数预测模型的训练方法或参数预测方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的参数预测模型的训练方法和训练装置以及参数预测方法和语音增强装置，可根据视频内容特征，考虑主观质量评价标准，调整视频的编码参数/前处理参数，使得在整体码率变化不大的情况下，主观画质提升比较显著。此外，可在无需多次重复编码的情况下为不同内容的视频选取更为合适的视频编码相关参数，计算复杂度低，所需算力小。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出CAE技术的实现方式的示意图。

图2是示出不同分辨率下的R-D曲线的示意图。

图3是示出每帧PSNR波动示意图。

图4是示出根据本公开的参数预测方法的实施场景图。

图5是示出根据本公开的示例性实施例的参数预测模型的训练方法的流程图。

图6是示出根据本公开的示例性实施例的Bitrate-VMAF曲线示意图。

图7是示出根据本公开的示例性实施例的参数预测方法的流程图。

图8是示出根据本公开的示例性实施例的参数预测模型的训练装置的框图。

图9是示出根据本公开的示例性实施例的参数预测装置的框图。

图10是根据本公开的示例性实施例的电子设备1000的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

传统ABR技术的问题是分辨率和码率组合太过死板，没有考虑任何视频内容特性。例如，对于具有较高复杂度的视频(如体育比赛或动作电影)，给定组合下的码率可能会比较低，导致编码后的视觉质量不佳。相反，对于简单场景的视频(如动画或视频会议)，给定组合下的码率可能会过高，使得带宽浪费。

为了解决传统ABR存在的上述问题，提出一种根据视频内容自适应调整编码参数的CAE技术。CAE技术能从以下几个方面改善ABR流传输。对于简单场景的视频，CAE可以调整编码组合使得码率更低一些，用户就能够在相同码率下观看更高分辨率的视频，在带宽节省的同时观看体验更佳。对于复杂场景的视频，CAE在编码过程中可以更加高效地分配比特，在保持总体码率不变情况下改善编码视频的视觉质量。通过加入这种内容自适应技术，原有的分辨率和码率组合会更加精简，从而有效降低内容提供商的编码和存储开销。

通常有两种应用CAE的方法：一种是将CAE应用到编码器的内部，基于视频内容以及人眼视觉特性方面的因素来调整编码决策参数；另一种是将CAE应用到编码器的外部，根据类似的特性优化调整外部编码参数(如码率等)。图1是示出CAE技术的实现方式的示意图。参照图1，根据对视频内容建模的粒度大小，展示了CAE技术多种实现方式。其中，内部CAE对视频内容建模更加精细、粒度更小，而外部CAE更加粗略一些，一般从更宏观的角度对视频内容进行建模。具体地说，CAE技术的实现方式可以分为以下几类：

Per-category CAE：针对不同类型的视频会产生不同编码配置。视频分类可以是广义上的分类，比如VQEG定义的视频会议、电影、体育、音乐视频等，也可以是电影类型的分类，例如戏剧、动作电影、动画等。在这种分类下，只能粗略地针对某一类的视频调整编码配置，例如对简单场景的视频可以降低码率。然而，这种分类可能过于粗糙，因为在某一大类中，不同视频之间仍有较大的区别，因此使用同一编码配置很不精确。

Per-title CAE：针对每个具体的视频都会得出相应的编码配置。根据视频不同分辨率下的rate-quality曲线，选择出最优的分辨率和码率组合。这种CAE存在的问题是，如果视频较长(如电影等)，既包含复杂场景又包含简单场景，per-title技术得到的编码配置可能不够灵活，不能有效应对视频内部不同场景的变化。

Per-segment CAE：将输入视频划分为多个片段，根据上述per-title的方式为每个片段获取最佳的分辨率和码率组合。这些视频片段可能是原视频每隔一定时间间隔分割得到的，也可能是依据视频场景检测算法在场景切换的地方分割而来。但是，由于视频内容的动态变化，per-segment CAE仍然存在与per-title CAE类似的问题。

Per-frame/Per-block CAE：这类CAE技术是严格意义上的内部CAE，通过分析帧级的内容特性来调整编码决策中的参数。例如，码率控制算法根据当前帧的内容调整帧级的量化参数。而per-block CAE更是深入到帧内每个编码块，根据当前编码块和其周围编码块的内容调整模式选择以及量化参数。因此，这类CAE技术能从微观上深入到编码器内部根据当前帧的内容特性选择合适的编码参数，可以进一步提高编码效率。

例如，一种Per-title encoding方案，依据每个视频的特性(比如时间复杂度和空间复杂度)，来决定服务端编码的码率级别，不同于以往给所有视频统一码率级别的编码方式，这种方法可以更好的平衡质量和带宽。然而，该方案没有专门去研究时间复杂度、空间复杂度、码率与主观质量之间的关系，而是采用了一种更加简单粗暴的方法，即，将一个片源按照不同分辨率码率组合进行编码，计算峰值信噪比(PSNR)值，画出R-D曲线图。图2是示出不同分辨率下的R-D曲线的示意图。如图2所示，示出720×480、1280×720、1920×1080三种分辨率下的R-D曲线，加粗曲线为R-D曲线的凸包。对于每个分辨率的R-D曲线，最接近凸包的点即为编码效率最好的点，这些点就选为最终的分辨率-码率参数。平均下来可以在不降低质量的前提下减少20％码率。然而，这种方案对同一个视频需要在多个分辨率和多个码率下进行编码，复杂度特别高。

又例如，在Per-title的基础上，可将编码粒度细化到了切片(chunk)级别，基于并行编码框架，视频是按一个一个切片进行编码的，通过分析每一个切片的复杂度(运动、纹理、细节等)信息，赋予每一个切片不同的码率，更进一步的提升编码效率。为了能快速进行流水线处理，每个切片互不重叠，而且很短。并行处理的好处就是提高了编码速度减少了处理时延。但不好的地方就是编码时没有相邻切片的视频信息，当把这些切片重新组合时，很难控制相邻切片之间的质量没有明显的波动和差异。由于切片长度很短，编码器还没达到一个稳定的状态就已经编完了，因此每个编码器处理切片时都略有差异。但如果使切片之间能够交换信息，这又会大大增加整个系统的复杂度。图3是示出每帧PSNR波动示意图。参照图3，示出了使用H.264编码器编一个720p视频时其中两个切片的PSNR per frame(每帧PSNR)波动图。可以明显看到，在切片的开始和结尾质量差异较为明显，除了整体质量下降之外，这种变化性会造成一个脉冲式的失真(pulsing artifact)。

又例如，一种Shot-based encode方案，利用镜头分割算法，将优化的单元进一步细化到片源中的每一个镜头，针对每一个镜头的特点给出最好的编码方案。其原理与上述的Per-title encoding方案差不多，是利用R-D曲线的凸包来完成的。即，可利用各种分辨率和码率编码一个镜头(shot)，计算损失(distortion)，画出R-D曲线，然后寻找该曲线的凸包，最后所选取的码率-分辨率组合一定是凸包曲线上的点。跟per-title的缺点一样，该方案需要对同一个镜头进行多次编码，复杂度太高。

根据上述分析，目前CAE方案都存在复杂度较高的问题，且仅通过R-D曲线或PSNR这种客观指标来寻找编码最佳方案，没有真正考虑到用户的主观质量感知。

本公开为了解决上述问题，在CAE的基础上，提出了一种内容感知处理和编码(Content Aware Processing&Encoding,CAPE)的概念，CAPE在CAE的基础上，根据视频的内容设置合适编码参数和前处理参数，达到主观质量和编码效率的平衡。具体地说，本公开提出了一种参数预测模型，其根据视频内容的特征来预测编码参数和/或前处理参数，通过离线计算几组不同的编码参数和前处理参数，考虑质量评价标准和码率这两个因素，找到收益最大的编码参数和前处理参数，再使用机器学习训练方式，花费最小的代价拿到最大的收益。在推理阶段，不需要对视频多次重复编码，就可通过参数预测模型确定主观质量和编码效率最平衡的编码参数和/或前处理参数，计算复杂度低，所需算力小。因此，与固定编码参数/前处理参数相比，根据本公开的参数预测模型可根据视频内容特征，考虑主观质量评价标准，调整视频的编码参数/前处理参数，使得在整体码率变化不大的情况下，主观画质提升比较显著。

下面将参照图4至图10来详细描述根据本公开的示例性实施例的参数预测模型的训练方法及装置和参数预测方法及装置。

图4是示出根据本公开的参数预测方法的实施场景图。

参照图4，当用户在用户终端(例如，手机103_1、台式电脑103_2、平板电脑103_3等)使用视频应用客户端通过网络102向服务器101请求观看视频内容时，服务器或视频分发平台101可通过网络102向用户终端103_1、103_2或103_3发送请求的视频内容，用户可通过视频应用客户端观看接收到的视频内容。服务器或视频分发平台101需要对发送的视频内容进行编码，在编码时，可利用根据本公开的参数预测方法，根据视频内容的视频特征，考虑主观质量评价标准，预测并调整视频编码相关参数(例如，编码参数、前处理参数)。因此，可在无需多次重复编码的情况下为不同内容的视频选取更为合适的视频编码相关参数，计算复杂度低，所需算力小，此外，在整体码率变化不大的情况下，可显著提升视频的主观画质。

图5是示出根据本公开的示例性实施例的参数预测模型的训练方法的流程图。这里，如上所述，根据本公开的参数预测模型可用于根据视频内容的视频特征，预测视频编码相关参数，使得在整体码率变化不大的情况下，视频内容主观画质显著提升。因此，根据本公开的参数预测模型的输入可以是视频内容的视频特征，输出可以是视频内容的视频编码相关参数的预测值。

参照图5，在步骤501，可获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值。

视频编码相关参数也就是与视频编码相关的参数。根据本公开的示例性实施例，视频编码相关参数可以包括，但不限于，编码参数和/或前处理参数。当根据本公开的参数预测模型用于预测编码参数时，可称为编码参数预测模型。当根据本公开的参数预测模型用于预测前处理参数时，可称为前处理参数预测模型。根据本公开的示例性实施例，编码参数可包括，但不限于，固定码率因子(Constant Rate Factor,CRF)、码率等。这里，CRF值决定编码的QP调整范围，CRF越小，画质越好，码率越低。前处理参数可包括，但不限于，与模糊、锐化、降噪等相关的参数。

视频样本的视频编码相关参数的真实值是用于训练根据本公开的参数预测模型的目标参数值，也可称为，地面真值(ground truth)，因此，想要使得训练出的参数预测模型预测出的视频编码相关参数能够达到在整体码率变化不大的情况下显著提升视频的主观画质的效果，就需要考虑视频的质量评价数据(例如，质量评价分数等)和码率这两个因素来设置目标参数值。因此，可基于在视频编码相关参数的不同值下对每个视频训练样本进行编码而获得的质量评价数据和码率计算得到每个视频样本的视频编码相关参数的真实值。这里，质量评价数据可以使用主观质量评价标准(例如，视频多方法评价融合(VideoMulti-method Assessment Fusion,VMAF)等)得到的数据，也可以使用客观质量评价标准(例如，峰值信噪比(PSNR)、结构相似性(SSIM)、多尺度结构相似性(MS-SSIM)等)得到的数据。当然，采用主观质量评价标准得到的数据比采用客观质量评价标准得到的数据得到的效果更好，更符合人眼感官，主观上视频画质提升会更加显著。因此，根据本公开的一个示例性实施例，可基于在视频编码相关参数的不同值下对每个视频训练样本进行编码而获得的VMAF数据和码率计算得到每个视频样本的视频编码相关参数的真实值。

具体地说，根据本公开的示例性实施例，可通过下面的方式来获得每个视频样本的所述视频编码相关参数的真实值：获取视频编码相关参数的第一参数值；按照预定步长对第一参数值进行多次调整，获得视频编码相关参数的第二参数值至第(N+1)参数值，其中，N为调整次数；分别使用视频编码相关参数的第一参数值至第(N+1)参数值对该视频样本进行编码，得到相应的质量评价数据和码率；按照第一参数值至第(N+1)参数值的顺序，针对每个参数值执行以下操作，直到确定所述视频编码相关参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于预设阈值的情况下，将所述视频编码相关参数的真实值确定为当前参数值。例如，图6是示出根据本公开的示例性实施例的Bitrate-VMAF曲线示意图。参照图6，在视频编码相关参数的不同值下，可获得每个视频编码相关参数相应的码率(Bitrate)和质量评价数据(例如，VMAF)，形成例如视频编码相关参数的不同值下的Bitrate-VMAF曲线。

下面，分别详细介绍根据本公开的示例性实施例的编码参数和前处理参数的真实值的计算方式。

编码参数的真实值计算方式

首先，可获取编码参数的第一参数值enc_param_0。例如，第一参数值enc_param_0可根据经验或需要设置，或者可寻找对大部分视频保持画质较好的编码参数来设定，也就是说，可根据编码视频素材集合中画质保持达预定质量的编码视频素材的编码参数的值来确定。

随后，可按照第一预定步长对编码参数的第一参数值进行多次调整，获得编码参数的第二参数值至第(N+1)参数值enc_param_1,enc_param_2,…,enc_param_n，其中，N为调整次数。这里，第一预定步长可根据经验或需要设置，例如，可被设置为，但不限于，0.5或1。

随后，在将前处理参数固定设置为前处理参数的第一参数值pre_param_0的情况下，分别使用编码参数的第一参数值至第(N+1)参数值enc_param_0，enc_param_1,enc_param_2,…,enc_param_n对视频样本进行编码，得到相应的质量评价数据(例如，VMAF数据)，可记为VMAF_enc0,VMAF_enc1,VMAF_enc2,…,VMAF_encn，以及相应的码率，可记为Bitrate_enc0,Bitrate_enc1,Bitrate_enc2,…,Bitrate_encn。这里，Bitrate_encn>Bitrate_encn-1>…>Bitrate_enc0。这里，前处理参数的第一参数值pre_param_0可根据经验或需要设置，或者可寻找对大部分视频保持画质较好的前处理参数来设定，也就是说，可根据编码视频素材集合中画质保持达预定质量的编码视频素材的前处理参数的值来确定。

随后，按照第(N+1)参数值至第一参数值的顺序(即，pre_param_n,pre_param_n-1,pre_param_n-2,…,pre_param_0)，针对每个参数值执行以下操作，直到确定视频编码相关参数的真实值ground_truth_enc为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于预设阈值T1的情况下，将编码参数的真实值ground_truth_enc确定为当前参数值。

也就是说，可根据下面的过程来确定编码参数的真实值ground_truth_enc：

如果(VMAF_encn–VMAF_encn-1)/(Bitrate_encn-Bitrate_encn-1)>T1，则ground_truth_enc＝enc_param_n。

否则，如果(VMAF_encn-1–VMAF_encn-2)/(Bitrate_encn-1-Bitrate_encn-2)>T1，则ground_truth_enc＝enc_param_n-1。

依此类推，否则ground_truth_enc＝enc_param_0。

前处理参数的真实值计算方式

首先，可获取前处理参数的第一参数值pre_param_0。这里，前处理参数的第一参数值pre_param_0可根据经验或需要设置，或者可寻找对大部分视频保持画质较好的前处理参数来设定，也就是说，可根据编码视频素材集合中画质保持达预定质量的编码视频素材的前处理参数的值来确定。

随后，可按照第二预定步长对前处理参数的第一参数值pre_param_0进行多次调整，获得前处理参数的第二参数值至第(N+1)参数值pre_param_1,pre_param_2,…,pre_param_n，其中，N为调整次数。这里，第二预定步长可根据经验或需要设置，本公开不限制第二预定步长的值。

随后，可在将编码参数固定设置为编码参数的第一参数值enc_param_0的情况下，分别使用前处理参数的第一参数值至第(N+1)参数值pre_param_0,pre_param_1,pre_param_2,…,pre_param_n对视频样本进行编码，得到相应的质量评价数据(例如，VMAF数据)，可记为VMAF_pre0,VMAF_pre1,VMAF_pre2,…,VMAF_pren，以及相应的码率，可记为Bitrate_pre0,Bitrate_pre1,Bitrate_pre2,…,Bitrate_pren。这里，Bitrate_pren>Bitrate_pren-1>…>Bitrate_pre0。这里，编码参数的第一参数值enc_param_0可根据经验或需要设置，或者可寻找对大部分视频保持画质较好的编码参数来设定，也就是说，可根据编码视频素材集合中画质保持达预定质量的编码视频素材的编码参数的值来确定。

随后，可按照前处理参数的第(N+1)参数值至第一参数值的顺序(即，pre_param_n,pre_param_n-1,pre_param_n-2,…,pre_param_0)，针对每个参数值执行以下操作，直到确定前处理参数的真实值ground_truth_pre为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于第二预设阈值T2的情况下，则将前处理参数的真实值ground_truth_pre确定为当前参数值。

也就是说，可根据下面的过程来确定前处理参数的真实值ground_truth_pre：

如果(VMAF_pren–VMAF_pren-1)/(Bitrate_pren–Bitrate_pren)>T2,ground_truth_pre＝pre_param_n。

否则，如果(VMAF_pren-1–VMAF_pren-2)/(Bitrate_pren-1–Bitrate_pren-2)>T2,ground_truth_pre＝pre_param_n-1。

依此类推，否则ground_truth_pre＝pre_param_0。

当然，本公开不限于上述视频编码相关参数的真实值的计算方式，还可根据任何可能的方式来考虑质量评价数据和码率来计算视频样本的视频编码相关参数的真实值。例如，当编码参数是码率的情况下，可根据Bitrate-VMAF曲线的斜率，找到曲线斜率满足一定条件的码率，作为码率的真实值，或者可在固定码率的基础上，找到满足比固定码率高一点但VMAF提升很大的另一个更合适的码率，作为码率的真实值。

返回参照图5，在步骤502，可将视频样本的视频特征输入到参数预测模型，得到所述视频编码相关参数的预测值。

根据本公开的示例性实施例，视频样本的视频特征可以是通过各种不同特征提取模型提取的视频内容特征，或者是关于视频编码复杂度信息的特征等。本公开对视频特征的内容不作限制。例如，可对视频样本进行抽帧；分别获取每个抽取的帧的视频特征，计算每个抽取的帧的视频特征的平均值，作为视频样本的视频特征。

根据本公开的示例性实施例，根据本公开的参数预测模型可以是DNN模型、随机森林模型、线性回归模型等。本公开对参数预测模型的类型和结构不作任何限制。

在步骤503，可基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数。

根据本公开的示例性实施例，计算视频样本的视频编码相关参数的预测值和真实值的均方误差，作为损失函数。例如，损失函数可被表示为下面的公式(1)。

当然，根据本公开的损失函数不限于上述均方误差，还可根据其它可行的方式来计算损失函数。

在步骤504，可根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练。例如，可利用上面的公式(1)的值反向传播以对参数预测模型的参数进行调整。

图7是示出根据本公开的示例性实施例的参数预测方法的流程图。根据本公开的示例性实施例的参数预测方法可基于根据本公开的参数预测模型来实现。例如，根据本公开的参数预测模型可通过使用根据本公开的参数预测模型的训练方法训练得到。

在步骤701，可获取待编码的视频内容。这里，待编码的视频内容可以是用户上传的视频内容、内容提供商发送的视频内容、平台制作的视频内容、用户请求的视频内容等等。

在步骤702，可将待编码的视频内容的视频特征输入参数预测模型，得到所述待编码的视频内容的视频编码相关参数的预测值。视频编码相关参数也就是与视频编码相关的参数。根据本公开的示例性实施例，视频编码相关参数可以包括，但不限于，编码参数和/或前处理参数。例如，编码参数可包括，但不限于，固定码率因子(Constant Rate Factor,CRF)、码率等。这里，CRF值决定编码的QP调整范围，CRF越小，画质越好，码率越低。前处理参数可包括，但不限于，与模糊、锐化、降噪等相关的参数。

根据本公开的示例性实施例，待编码的视频内容的视频特征可以是通过各种不同特征提取模型提取的视频内容特征，或者是关于视频编码复杂度信息的特征等。本公开对视频特征的内容不作限制。例如，可对待编码的视频内容进行抽帧；分别获取每个抽取的帧的视频特征，计算每个抽取的帧的视频特征的平均值，作为待编码的视频内容的视频特征。

参照图8，根据本公开的示例性实施例的参数预测模型的训练装置800可包括样本获取单元801、参数预测单元802、损失函数计算单元803和模型训练单元804。

样本获取单元801可获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值。

具体地说，根据本公开的示例性实施例，可通过下面的方式来获得每个视频样本的所述视频编码相关参数的真实值：获取视频编码相关参数的第一参数值；按照预定步长对第一参数值进行多次调整，获得视频编码相关参数的第二参数值至第(N+1)参数值，其中，N为调整次数；分别使用视频编码相关参数的第一参数值至第(N+1)参数值对该视频样本进行编码，得到相应的质量评价数据和码率；按照第一参数值至第(N+1)参数值的顺序，针对每个参数值执行以下操作，直到确定所述视频编码相关参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于预设阈值的情况下，将所述视频编码相关参数的真实值确定为当前参数值。

根据本公开的示例性实施例的编码参数和前处理参数的真实值的计算方式已在上面描述，因此，在此不再赘述。

参数预测单元802可将视频样本的视频特征输入到参数预测模型，得到所述视频编码相关参数的预测值。

损失函数计算单元803可基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数。

根据本公开的示例性实施例，损失函数计算单元803可计算视频样本的视频编码相关参数的预测值和真实值的均方误差，作为损失函数。例如，损失函数可被表示为上面的公式(1)。当然，根据本公开的损失函数不限于上述均方误差，还可根据其它可行的方式来计算损失函数。

模型训练单元804可根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练。例如，模型训练单元804可利用上面的公式(1)的值反向传播以对参数预测模型的参数进行调整。

参照图9，根据本公开的示例性实施例的参数预测装置900可包括视频获取单元901和参数预测单元902。

视频获取单元901可获取待编码的视频内容。这里，待编码的视频内容可以是用户上传的视频内容、内容提供商发送的视频内容、平台制作的视频内容、用户请求的视频内容等等。

参数预测单元902可将待编码的视频内容的视频特征输入参数预测模型，得到所述待编码的视频内容的视频编码相关参数的预测值。视频编码相关参数也就是与视频编码相关的参数。根据本公开的示例性实施例，视频编码相关参数可以包括，但不限于，编码参数和/或前处理参数。例如，编码参数可包括，但不限于，固定码率因子(Constant RateFactor,CRF)、码率等。这里，CRF值决定编码的QP调整范围，CRF越小，画质越好，码率越低。前处理参数可包括，但不限于，与模糊、锐化、降噪等相关的参数。

图10是根据本公开的示例性实施例的电子设备1000的框图。

参照图10，电子设备1000包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器1001中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器1002执行时，执行根据本公开的示例性实施例的参数预测模型的训练方法或参数预测方法。

作为示例，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备1000中，处理器1002可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1002可运行存储在存储器1001中的指令或代码，其中，存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1001可与处理器1002集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1001可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1002能够读取存储在存储器中的文件。

此外，电子设备1000还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备1000的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的参数预测模型的训练方法或参数预测方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，包括计算机指令，该计算机指令可由至少一个处理器执行以完成根据本公开的示例性实施例的参数预测模型的训练方法或参数预测方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种参数预测模型的训练方法，其特征在于，包括：

获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值，其中，每个视频样本的视频编码相关参数的真实值是基于在所述视频编码相关参数的不同值下对该视频样本进行编码而获得的质量评价数据和码率计算得到；

将视频样本的视频特征输入到所述参数预测模型，得到所述视频编码相关参数的预测值；

基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数；

根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练；

其中，每个视频样本的所述视频编码相关参数的真实值是通过以下方式得到：

获取所述视频编码相关参数的第一参数值；

按照预定步长对第一参数值进行多次调整，获得所述视频编码相关参数的第二参数值至第N+1参数值，其中，N为调整次数；

分别使用所述视频编码相关参数的第一参数值至第N+1参数值对该视频样本进行编码，得到相应的质量评价数据和码率；

按照第N+1参数值至第一参数值的顺序，针对每个参数值执行以下操作，直到确定所述视频编码相关参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于预设阈值的情况下，将所述视频编码相关参数的真实值确定为当前参数值。

2.如权利要求1所述的训练方法，其特征在于，所述视频编码相关参数包括编码参数和/或前处理参数中的至少一个。

3.如权利要求2所述的训练方法，其特征在于，在所述视频编码相关参数为编码参数的情况下，每个视频样本的编码参数的真实值是通过以下方式得到：

获取所述编码参数的第一参数值；

按照第一预定步长对所述编码参数的第一参数值进行多次调整，获得所述编码参数的第二参数值至第N+1参数值，其中，N为调整次数；

在将前处理参数设置为前处理参数的第一参数值的情况下，分别使用所述编码参数的第一参数值至第N+1参数值对该视频样本进行编码，得到相应的质量评价数据和码率；

按照所述编码参数的第N+1参数值至第一参数值的顺序，针对每个参数值执行以下操作，直到确定所述编码参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于第一预设阈值的情况下，则将所述编码参数的真实值确定为当前参数值。

4.如权利要求2所述的训练方法，其特征在于，在所述视频编码相关参数为前处理参数的情况下，每个视频样本的前处理参数的真实值是通过以下方式得到：

获取所述前处理参数的第一参数值；

按照第二预定步长对所述前处理参数的第一参数值进行多次调整，获得所述前处理参数的第二参数值至第N+1参数值，其中，N为调整次数；

在将编码参数设置为编码参数的第一参数值的情况下，分别使用所述前处理参数的第一参数值至第N+1参数值对该视频样本进行编码，得到相应的质量评价数据和码率；

按照所述前处理参数的第N+1参数值至第一参数值的顺序，针对每个参数值执行以下操作，直到确定所述前处理参数的真实值为止：计算当前参数值与下一参数值之间的质量评价数据的差分值和码率的差分值，计算质量评价数据的差分值与码率的差分值的比值，在所述比值大于第二预设阈值的情况下，则将所述前处理参数的真实值确定为当前参数值。

5.如权利要求3或4所述的训练方法，其特征在于，所述编码参数的第一参数值是根据编码视频素材集合中画质保持达预定质量的编码视频素材的编码参数的值来确定的，所述前处理参数的第一参数值是根据编码视频素材集合中画质保持达预定质量的编码视频素材的前处理参数的值来确定的。

6.如权利要求1所述的训练方法，其特征在于，所述视频样本的视频特征是通过以下操作得到的：

对所述视频样本进行抽帧；

分别获取每个抽取的帧的视频特征，

计算每个抽取的帧的视频特征的平均值，作为所述视频样本的视频特征。

7.如权利要求1所述的训练方法，其特征在于，所述基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数，包括：

计算所述视频样本的所述视频编码相关参数的预测值和真实值的均方误差，作为所述损失函数。

8.如权利要求1所述的训练方法，其特征在于，所述质量评价数据为视频多方法评价融合(VMAF)数据。

9.一种参数预测方法，其特征在于，包括：

获取待编码的视频内容；

将所述待编码的视频内容的视频特征输入如权利要求1至8中任意一项所述的参数预测模型的训练方法训练得到的参数预测模型，得到所述待编码的视频内容的视频编码相关参数的预测值。

10.如权利要求9所述的参数预测方法，其特征在于，所述视频编码相关参数包括编码参数和/或前处理参数中的至少一个。

11.如权利要求9所述的参数预测方法，其特征在于，所述待编码的视频内容的视频特征是通过以下操作得到的：

对所述待编码的视频内容进行抽帧；

分别获取每个抽取的帧的视频特征，

计算每个抽取的帧的视频特征的平均值，作为所述待编码的视频内容的视频特征。

12.一种参数预测模型的训练装置，其特征在于，包括：

样本获取单元，被配置为：获取训练样本集，其中，所述训练样本集包括多个视频样本以及每个视频样本的视频编码相关参数的真实值，其中，每个视频样本的视频编码相关参数的真实值是基于在所述视频编码相关参数的不同值下对该视频样本进行编码而获得的质量评价数据和码率计算得到；

参数预测单元，被配置为：将视频样本的视频特征输入到所述参数预测模型，得到所述视频编码相关参数的预测值；

损失函数计算单元，被配置为：基于所述视频样本的所述视频编码相关参数的预测值和真实值，计算损失函数；

模型训练单元，被配置为：根据计算的损失函数调整所述参数预测模型的参数，以对所述参数预测模型进行训练；

获取所述视频编码相关参数的第一参数值；

13.如权利要求12所述的训练装置，其特征在于，所述视频编码相关参数包括编码参数和/或前处理参数中的至少一个。

14.如权利要求13所述的训练装置，其特征在于，在所述视频编码相关参数为编码参数的情况下，每个视频样本的编码参数的真实值是通过以下方式得到：

获取所述编码参数的第一参数值；

15.如权利要求13所述的训练装置，其特征在于，在所述视频编码相关参数为前处理参数的情况下，每个视频样本的前处理参数的真实值是通过以下方式得到：

获取所述前处理参数的第一参数值；

16.如权利要求14或15所述的训练装置，其特征在于，所述编码参数的第一参数值是根据编码视频素材集合中画质保持达预定质量的编码视频素材的编码参数的值来确定的，所述前处理参数的第一参数值是根据编码视频素材集合中画质保持达预定质量的编码视频素材的前处理参数的值来确定的。

17.如权利要求12所述的训练装置，其特征在于，所述视频样本的视频特征是通过以下操作得到的：

对所述视频样本进行抽帧；

分别获取每个抽取的帧的视频特征，

18.如权利要求12所述的训练装置，其特征在于，损失函数计算单元被配置为：

19.如权利要求12所述的训练装置，其特征在于，所述质量评价数据为视频多方法评价融合(VMAF)数据。

20.一种参数预测装置，其特征在于，包括：

视频获取单元，被配置为：获取待编码的视频内容；

参数预测单元，被配置为：将所述待编码的视频内容的视频特征输入如权利要求1至8中任意一项所述的参数预测模型的训练方法训练得到的参数预测模型，得到所述待编码的视频内容的视频编码相关参数的预测值。

21.如权利要求20所述的参数预测装置，其特征在于，所述视频编码相关参数包括编码参数和/或前处理参数中的至少一个。

22.如权利要求20所述的参数预测装置，其特征在于，所述待编码的视频内容的视频特征是通过以下操作得到的：

对所述待编码的视频内容进行抽帧；

分别获取每个抽取的帧的视频特征，

23.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到8中的任一权利要求所述的参数预测模型的训练方法或如权利要求9到11中的任一权利要求所述的参数预测方法。

24.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到8中的任一权利要求所述的参数预测模型的训练方法或如权利要求9到11中的任一权利要求所述的参数预测方法。