CN110267045A

CN110267045A - 一种视频处理及编码的方法、装置及可读存储介质

Info

Publication number: CN110267045A
Application number: CN201910716473.4A
Authority: CN
Inventors: 刘佳扬; 庄育珊; 许祝登; 刘宇新; 朱政
Original assignee: Hangzhou Microframe Information Technology Co Ltd
Current assignee: Hangzhou Microframe Information Technology Co Ltd
Priority date: 2019-08-07
Filing date: 2019-08-07
Publication date: 2019-09-20
Anticipated expiration: 2039-08-07
Also published as: CN110267045B

Abstract

本发明提供一种新的运用机器学习来估计视频压缩噪声的方法、装置、计算机可读存储介质，基于视频的码率、纹理空间梯度、运动时间梯度等视频特征，通过压缩噪声估计模型估计出压缩噪声，并依据估计的压缩噪声进而自适应的调整视频预处理中的前处理算法参数，从而实现对视频的有效压缩，在同样的主观质量前提下，可以大幅降低视频编码码率；或者在同样的码率下，可以大幅提高视频的主观质量。

Description

一种视频处理及编码的方法、装置及可读存储介质

技术领域

本发明涉及视频编解码的技术领域，尤其涉及视频编解码中对于视频压缩噪声的估计。

背景技术

视频已发展成为人们娱乐办公的重要工具，4K、HDR等视频的普及以及视频传输需求的增长对存储资源和网络带宽带来了巨大的压力，各种应用的发展生产了各种类别和质量不一的视频，这些问题对视频编码和视频增强技术都带来了强烈的需求和挑战。因而，视频编码技术和视频增强技术成为了目前学术界和工业界研究的热点。

在视频压缩编码过程中会引入压缩噪声，即压缩失真。采用不同的压缩度对同样的视频分别进行压缩编码，其压缩度越大，编码后视频中的压缩噪声则越大。压缩会使得图像中一些物体的边沿变模糊，通过压缩编码前的预处理比如锐化操作可以处理边沿变模糊的问题，提升编码后视频的主观质量。如何有效的利用机器学习来提升前处理与视频编码相结合的整体性能，从而最大可能的在有限码率(存储/带宽)下获取较高的主观视频质量，一直是一个比较挑战的课题。

发明内容

本发明的实施例提供了一种基于机器学习实现有效自适应视频处理与编码的方法，包括：

步骤1，提取压缩后训练样本视频的每个像素点码率bpp、平均时间梯度tg、平均空间梯度sg，所述平均空间梯度tg表示空间上相邻像素之间的平均变化程度，所述平均时间梯度sg表示时间上相邻两帧图像相同像素点的平均变化程度；

步骤2，基于所述每个像素点码率bpp、所述平均时间梯度tg、所述平均空间梯度sg，利用机器学习的方法来拟合视频编码器的关键参数，训练得到压缩噪声估计模型，所述关键参数包括CRF(Constant Rate Factor)，所述CRF为编码器的码率控制的参数，所述CRF的值越大压缩度越高，压缩噪声越大；

步骤3，在对待处理视频进行预处理之前，根据所述待处理视频的目标码率计算出所述待处理视频压缩后的所述每个像素点码率bpp，以及提取所述待处理视频的所述平均时间梯度tg和所述平均空间梯度sg，输入所述待处理视频压缩后的所述每个像素点码率bpp、所述待处理视频的所述平均时间梯度tg和所述平均空间梯度sg至所述压缩噪声估计模型中，由所述压缩噪声估计模型估计得到压缩噪声；

步骤4，根据估计的所述压缩噪声决策前处理算法参数，所述前处理算法参数为图像处理中调节图像清晰度的处理的参数；

步骤5，使用决策好的前处理算法参数来对视频进行预处理；

步骤6，最后通过视频压缩得到压缩的视频码流。

本发明的还提供了一种基于机器学习实现有效自适应视频处理与编码的装置，其包括处理器和计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器执行以实现基于机器学习实现有效自适应的视频处理与编码的方法。

本发明的还提供了一种基于机器学习实现有效自适应视频处理与编码的可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被所述处理器执行以实现基于机器学习实现有效自适应的视频处理与编码的方法。

本发明提出一种新的基于视频特征，包括码率、纹理空间梯度、运动时间梯度等特征，并运用机器学习来估计视频压缩噪声的方法、装置及可读储介质。依据估计的压缩噪声进而自适应的调整视频预处理中的前处理算法参数，从而实现对视频的有效压缩，在同样的主观质量前提下，可以大幅降低视频编码码率；或者在同样的码率下，可以大幅提高视频的主观质量。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种机器学习实现有效自适应视频处理与编码方法的流程图；

图2是本说明书实施例提供的基于机器学习和码率、纹理、运动特征估计视频压缩噪声的方法的实验结果；

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

以下结合附图，详细说明本说明书实施例提供的技术方案。

参见图1，是本发明实施例提供的一种机器学习实现有效自适应视频处理与编码方法的流程示意图，如图1所示的视频处理与编码方法可包括以下步骤：

S101，提取压缩后训练样本视频的每个像素点码率(bpp,bitrate per pixel)、平均时间梯度(tg,average temporal gradient)、平均空间梯度(sg,average spatialgradient)。

其中，所述提取压缩后训练样本视频的每个像素点码率(bpp,bitrate perpixel)、平均时间梯度(tg,average temporal gradient)、平均空间梯度(sg,averagespatial gradient)具体包括如下子步骤：

S1011，提取训练样本视频码率信息：计算训练样本视频的每个像素点码率bpp。每个像素点码率反映了平均每个像素点的压缩程度。采用不同的压缩度对同样的视频分别进行压缩编码，其压缩度越大，编码后视频中的压缩噪声则越大。假设压缩后的视频时长为T，占用空间为S比特，宽为W像素，高为H像素，计算每个像素点码率bpp的公式表示如下：

S1012，提取训练样本视频的纹理信息：计算训练样本视频的平均空间梯度。平均空间梯度是空间上相邻像素之间的平均变化程度，反映了视频的纹理复杂程度。对于同样码率的不同视频，视频的纹理越复杂，压缩噪声越大。视频帧的一个像素表示为p(x,y,t)，其中t为帧序号，x为像素行坐标位置，y为像素列坐标位置。像素p(x,y,t)的像素值表示为f(x,y,t)，p(x,y,t)处空间梯度的x分量表示为g_x(x,y,t)，p(x,y,t)处空间梯度的y分量表示为g_x(x,y,t)。

其中，g_x(x,y,t)＝f(x,y,t)-f(x-1,y,t)

g_y(x,y,t)＝f(x,y,t)-f(x,y-1,t)

视频的平均空间梯度sg表示视频中所有像素点处的空间梯度求均值，计算公式表示如下：

其中M表示视频帧一行中像素的个数，N表示视频帧一列中像素的个数，K表示视频的图像帧数。

S1013，提取训练样本视频的运动特征信息：计算训练样本视频的平均时间梯度。平均时间梯度是时间上相邻两帧图像相同像素点的平均变化程度，反映了视频的运动复杂程度。对于同样码率的不同视频，视频中运动越复杂，压缩噪声越大。p(x,y,t)像素处的时间梯度表示为：

g_t(x,y,t)＝f(x,y,t)-f(x,y,t-1)

视频的平均时间梯度tg：为g_t(x,y,t)取均值，即视频中所有像素点处的时间梯度求均值，计算公式表示如下：

S102，利用机器学习的方法来拟合视频编码器的关键参数，从而训练得到压缩噪声估计模型，关键参数包括但不限于CRF(Constant Rate Factor)，其中CRF为编码器的码率控制的参数，CRF值越大压缩度越高，压缩噪声越大，关键参数可以是任何反应视频编码器压缩度和压缩噪声的参数。

其中，所述利用机器学习的方法来拟合视频编码器的关键参数，从而训练得到压缩噪声估计模型具体包括如下子步骤：

S1021，CRF预测模型使用多项式回归模型得到，所述多项式回归模型为degree＝3的3元多项式回归模型，3元多项式回归模型的3个自变量分别为提取的每个像素点码率bpp、平均空间梯度sg、平均时间梯度tg。3元多项式回归模型表示如下：

其中bpp、sg和tg分别表示为：x₁,x₂,x₃。

S1022,计算3元多项式回归模型参数b和w_i(i＝0,1,…,12)，获得CRF预测模型。对3元多项式回归模型输入训练样本视频进行训练，其中训练样本视频为不同码率的多个已编码视频，所述多个已编码视频的CRF覆盖了{20,22,24,26,28,30,32,34,36,38}的取值范围。使用平均的绝对误差(MAE,Mean Absolute Error)作为CRF预测模型的损失函数。

其中CRF为训练样本中实际的CRF，为3元多项式回归模型基于训练样本视频预测获得，MAE表示对所有样本的“绝对误差”取平均。

得到使得训练样本视频数据集的损失函数最小的模型参数b和w_i(i＝0,1,…,12)，即得到了CRF预测模型；

S1023,使用测试数据对预测函数进行、验证。

S103，在视频预处理之前，根据目标码率计算出压缩视频的每个像素点码率，以及提取视频的平均时间梯度和平均空间梯度等特征；利用机器学习训练好的压缩噪声估计模型估计压缩噪声；

所述步骤S103具体包括如下子步骤：

S1031，根据待处理视频的压缩目标码率target_bitrate计算出每个像素点码率bpp、计算待处理视频的平均空间梯度sg和平均时间梯度tg。

S1032，根据计算得到的bpp、sg、tg值使用已训练好的CRF预测函数预测CRF。

S104，根据估计的压缩噪声进而决策前处理算法参数，所述前处理算法参数包括锐化参数；

所述根据估计的压缩噪声进而决策前处理算法参数，所述前处理算法参数包括锐化参数，具体包括如下子步骤：

S1041，使用预测的CRF作为估计的压缩噪声的等级：在x264、x265编码器中CRF的等级范围为[0,51]。CRF越大压缩度越高，压缩噪声等级高。对于其他编码标准，比如AV1，CRF的取值对应与视频编码器的帧量化参数。

S1042，根据噪声压缩的等级决定预处理算法的参数，包括锐化处理的锐化强度、去噪处理的去噪强度等。

S1043，使用决策好的预处理参数对视频进行预处理，包括锐化、去噪等。

S105，使用决策好的前处理算法参数来对视频进行预处理；

S106，最后通过视频压缩得到压缩的视频码流。

如图2所示，在训练和验证模型时，CRF覆盖了{20,22,24,26,28,30,32,34,36,38}的取值范围。使用了46组测试数据对模型进行训练。使用了20组测试数据对模型进行验证。平均绝对误差MSE为2.8。其中Groundtruth标识的样本点为实际的CRF的取值，Predict标识的样本点为本文介绍的方法预测的CRF的取值。从结果反映出本实施例的技术方案，通过视频的码率、纹理空间梯度、运动时间梯度特征估计视频的压缩噪声，基于压缩噪声来决定视频压缩编码之前的视频预处理，从而实现对视频的有效压缩，在同样的主观质量前提下，可以大幅降低视频编码码率；或者在同样的码率下，可以大幅提高视频的主观质量。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种视频处理及编码的方法，基于机器学习估计视频压缩噪声，所述方法包括：

步骤2，基于所述训练样本视频的所述每个像素点码率bpp、所述平均时间梯度tg、所述平均空间梯度sg，利用机器学习的方法来拟合视频编码器的关键参数，训练得到压缩噪声估计模型，所述关键参数包括CRF(Constant Rate Factor)，所述CRF为编码器的码率控制的参数，所述CRF的值越大压缩度越高，压缩噪声越大；

步骤4，根据估计的所述压缩噪声决策前处理算法参数，所述前处理算法参数为图像处理中调节图像清晰度的处理参数；

步骤5，使用决策好的所述前处理算法参数来对所述待处理视频进行预处理；

步骤6，最后对待处理视频进行压缩编码得到压缩的视频码流。

2.根据权利要求1所述的方法，其特征在于，所述提取压缩后训练样本视频的每个像素点码率bpp、平均时间梯度tg、平均空间梯度sg，具体包括如下子步骤：

步骤1.1，提取所述训练样本视频的码率信息，计算所述训练样本视频的所述每个像素点码率bpp。其中，T表示压缩后的视频时长，S表示压缩后的视频比特数，W、H分别表示一帧视频的像素宽、高，计算所述每个像素点码率bpp的公式表示如下：

步骤1.2，提取所述训练样本视频的纹理信息，计算所述训练样本视频的平均空间梯度。p(x,y,t)表示所述训练样本视频的第t帧视频帧中的一个像素，x为像素行坐标位置，y为像素列坐标位置。像素p(x,y,t)的像素值表示为f(x,y,t)，像素p(x,y,t)空间梯度的x分量表示为g_x(x,y,t)，像素p(x,y,t)空间梯度的y分量表示为g_x(x,y,t)。

其中，g_x(x,y,t)＝f(x,y,t)-f(x-1,y,t)

g_y(x,y,t)＝f(x,y,t)-f(x,y-1,t)

所述训练样本视频的平均空间梯度sg表示为视频中所有像素点的空间梯度求均值，计算公式表示如下：

其中M表示所述训练样本视频的视频帧一行中像素的个数，N表示所述视频帧一列中像素的个数，K表示所述训练样本视频的图像帧数。

步骤1.3，提取所述训练样本视频的运动特征信息，计算所述训练样本视频的平均时间梯度。p(x,y,t)像素处的时间梯度表示为：

g_t(x,y,t)＝f(x,y,t)-f(x,y,t-1)

所述训练样本视频的平均时间梯度tg为g_t(x,y,t)取均值，即视频中所有像素点的时间梯度求均值，计算公式表示如下：

3.根据权利要求2所述的方法，其特征在于，所述步骤2具体包括如下子步骤：

步骤2.1，所述压缩噪声估计模型为CRF预测模型，所述CRF预测模型使用多项式回归模型得到，所述多项式回归模型为3元多项式回归模型，3元多项式回归模型的3个自变量分别为提取的所述训练样本视频的所述每个像素点码率bpp、所述训练样本视频的所述平均空间梯度sg、所述训练样本视频的所述平均时间梯度tg，3元多项式回归模型表示如下：

其中x₁、x₂、x₃分别代表所述训练样本视频的所述每个像素点码率bpp、所述训练样本视频的所述平均空间梯度sg、所述训练样本视频的所述平均时间梯度tg。

步骤2.2，计算所述3元多项式回归模型参数b和w_i(i＝0,1,…,12)，获得所述CRF预测模型，对3元多项式回归模型输入训练样本视频进行训练，使用平均的绝对误差MAE(MeanAbsolute Error)作为CRF预测模型的损失函数。

其中CRF为训练样本视频中实际的CRF，为3元多项式回归模型基于训练样本视频预测获得。

将所述训练样本视频数据集的损失函数最小的模型参数b和w_i(i＝0,1,…,12)作为所述CRF预测模型的模型参数，即得到了所述CRF预测模型；

步骤2.3，使用测试数据对所述CRF预测模型进行、验证。

4.根据权利要求3所述的方法，其特征在于，所述步骤3具体包括如下子步骤：

步骤3.1，根据待处理视频的压缩目标码率计算出所述待处理视频的每个像素点码率bpp、所述待处理视频的平均空间梯度sg和所述待处理视频的平均时间梯度tg。

步骤3.2，根据计算得到的所述待处理视频的所述每个像素点码率bpp、所述待处理视频的平均空间梯度sg和所述待处理视频的平均时间梯度tg使用已训练好的所述CRF预测函数预测所述待处理视频的CRF。

5.根据权利要求4所述的方法，其特征在于，所述步骤4具体包括如下子步骤：

步骤4.1，使用预测的所述待处理视频的CRF作为估计的压缩噪声的等级；

步骤4.2，根据所述噪声压缩的等级决定预处理算法的参数，所述预处理算法的参数包括锐化处理的锐化强度、去噪处理的去噪强度；

步骤4.3，使用决策好的所述预处理算法的参数对所述待处理视频进行预处理。

6.一种视频处理及编码的装置，其包括处理器和可读存储介质，所述可读存储介质上存储计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1-5所述的步骤。

7.一种可读存储介质，所述可读存储介质上存储计算机程序，所述计算机程序被所述处理器执行以实现如权利要求1-5所述的步骤。