CN108769736B

CN108769736B - 面向显示的视频转码码率决策模型的建立及参数确定方法

Info

Publication number: CN108769736B
Application number: CN201810513088.5A
Authority: CN
Inventors: 孙斌
Original assignee: Chongqing Rui Jing Mdt Infotech Ltd
Current assignee: Chongqing Rui Jing Mdt Infotech Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2019-09-17
Anticipated expiration: 2038-05-24
Also published as: CN108769736A

Abstract

本发明提供一种面向显示的视频转码码率决策模型的建立方法，包括方法包括以下步骤：步骤S1.计算视频的空间复杂度；步骤S2.计算视频的时域复杂度；步骤S3.提取显示器的描述特征以得到人眼在显示器高度方向的角频率，所述描述特征主要包括观测距离、显示器高度和显示器在高度方向上的像素数；步骤S4.在小波域对图像的质量进行评价，得到视频降质；步骤S5.以视频的空间复杂度、视频的时域复杂度、显示器的描述特征以及视频降质作为输入，以目标码率或量化阶作为输出，利用支持向量机进行训练，得到码率控制决策模型。本发明考虑了显示设备性能差异对视觉的影响，转码过程中尽可能的降低转码后视频信息中的视觉冗余，提高了转码器的转码效率。

Description

面向显示的视频转码码率决策模型的建立及参数确定方法

技术领域

本发明涉及一种视频的转码方法，特别涉及一种面向显示的视频转码码率决策模型的建立及参数确定方法。

背景技术

近年来，通信技术和多媒体技术长足发展使得移动设备端的多媒体应用越来越普及。用户对图像分辨率的要求越来越高，传输高分辨率的视频信号需要更高的带宽。虽然当前大部分无线通信已由最初的2G网络转换到4G网络，相较于视频传输而言4G带宽在传输高清、超高清视频时仍显得力不从心，所以需要通过转码降低视频传输所需码率。在过去的20年中，相关科研人员对转码技术进行了大量研究，实现了对视频码率转换、视频编码格式转换、视频空域/时域分辨率转换等功能。这些技术在一定程度上解决了视频传输中可能遇到的带宽不足的问题。

与固定显示设备不同，移动设备的显示屏尺寸和分辨率常存在较大差异。即使是相同分辨率的视频影像在不同属性的显示器上所呈现视频的主观质量也不尽相同。结合人的视觉特点，在小物理尺寸屏幕上显示高分辨率视频时，用户可以容忍较大的压缩失真而不显著的影响视频质量，所以在信道带宽限制以外考虑显示设备的属性可以进一步降低视频转码的码率，降低对信道带宽的要求。

传统的码率变换转码通过改变量化阶或者重量化来降低视频码率，其中部分转码方案引入图像质量变换构建约束函数优化转码性能。这些方法都基于视频信号本身，而未考虑视频显示终端性能差异对人视觉的影响，所以其控制策略存在冗余，未能充分做到率失真优化。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供面向显示的视频转码码率决策模型的建立及参数确定方法，该方法通过调整视频编码的控制参数实现对视频码率的变化，最终降低视频传输对带宽要求。

为实现上述目的及其他相关目的，本发明提供一种面向显示的视频转码码率决策模型的建立方法，包括方法包括以下步骤：

步骤S1.计算视频的空间复杂度；

步骤S2.计算视频的时域复杂度；

步骤S3.提取显示器的描述特征以得到人眼在显示器高度方向的角频率f_m(o)，所述描述特征主要包括观测距离d、显示器高度h和显示器在高度方向上的像素数l；

步骤S4.在小波域对图像的质量进行评价，得到视频降质；

步骤S5.以视频的空间复杂度、视频的时域复杂度、显示器的描述特征以及视频降质作为输入，以量化阶作为输出，利用支持向量机进行训练，得到码率控制决策模型。

优选地，所述计算视频的空间复杂度，具体包括下子步骤：

步骤S11.对码流Clip_i进行解码，产生图像序列Clip_i(j),i为码流的数量，j为解码后图像帧编号；

步骤S12.对图像序列Clip_i(j)做二维傅里叶变换并作移相操作，得到图像序列Clip_i(j)的幅度谱信号A(Clip_i(j))；

步骤S13.将所述幅度谱信号A(Clip_i(j))在频域与高斯高通滤波器相点积分离出图像帧的高频分量H_pass(Clip_i(j))，其中u,v分别为水平、垂直方向的频率分量索引，D和D₀为控制参数用于调整高斯滤波器的形状；

图像帧的空间复杂度high_pass(Clip_i(j))＝||A(Clip_i(j))(u,v).*H(u,v)||₂，其中||||₂为L₂范数算子；

视频的空间复杂度为所述视频中所有图像帧的空间复杂度的平均数，即act_spatial(Clip_i)＝mean(high_pass(Clip_i(j))),j∈[1,N]，N为解码总帧数，mean为均值运算符。

优选地，在所述步骤S2中，利用视频的平均码率表征视频的时域复杂度，即act_temporal(Clip_i)＝bitrate(Clip_i)，bitrate(Clip_i)为视频的平均码率。

优选地，在所述步骤S3中，所述的人眼在显示器高度方向的角频率f_m(o)具体为：f_m(o)＝(π*d*l)/(180*h*2*2^o)，其中，o是小波域子带分解时的子带索引。

优选地，所述在小波域对图像的质量进行评价得到视频降质具体为：

步骤S41.对图像序列Clip_i(j)作小波变换；

步骤S42.分别计算图像序列Clip_i(j)和tran(Clip_i(k))(j)与自然图像的先验知识之间的互信息I(Clip_i(j)(o,a))和I(tran(Clip_i(k))(j)(o,a))；

其中，tran(Clip_i(k))(j)表示量化阶+k后进行转码产生的输出码流，B为在子带(o,a)中块的个数，g_o,a为对转码过程中引入的乘性误差的描述，S_o,a,b为一个随机数，C_u为协方差，为人的视觉模型参数，用于描述视觉噪声的方差，I为视觉接受场函数的空间索引的标识集；

步骤S43.计算量化阶增加k时转码tran(Clip_i(k))的降质程度，该降质程度等于视频内所有图像帧降质的平均值，图像帧降质

优选地，根据量化阶,所述码流Clip_i包括浅压缩码流Clip_L-i、中度压缩码流Clip_M-i和重度压缩码流Clip_H-i，将视频的空间复杂度act_spatial(Clip_L-i)、act_spatial(Clip_M-i)、act_spatial(Clip_H-i)，视频的时域复杂度act_temporal(Clip_L-i)、act_temporal(Clip_M-i)、act_temporal(Clip_H-i)，显示器的描述特征f_m(o)以及视频降质ΔD_L-i(k)(j)、ΔD_M-i(k)(j)、ΔD_H-i(k)(j)作为输入，以量化阶k作为输出，利用支持向量机进行训练，得到码率控制决策模型。

为实现上述目的及其他相关目的，本发明还提供一种面向显示的视频转码参数确定方法，该方法包括以下步骤：

步骤一、获取显示器种类及型号，解析出当前应用下的人眼在显示器高度方向的角频率f_m(o)；

步骤二、获取待转码视频的空间复杂度act_spatial(Clip)和视频的时域复杂度act_temporal(Clip)；

步骤三、将(act_spatial(Clip),act_temporal(Clip),ΔD,f_m(o))馈入权利要求1～5任意一项所述的转码码率决策模型，获得转码量化阶增量k或者转码的目标码率增量。

优选地，该方法还包括步骤四、提取原量化阶QP，用QP+k作为新的量化阶或基于模型产生的码率增量获得新的码率增量进行转码。

由于采用了以上技术方案，本发明具有以下有益效果：

本发明方法以质量为考量，能够更好地保证视频接收端用户的视觉感受。由于考虑了显示设备性能差异对视觉的影响，转码过程中尽可能的降低转码后视频信息中的视觉冗余，进一步降低了转码目标视频的码率，提高了转码器的转码效率。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

计算机硬件环境为CPU i5处理器，内存为8GB；软件部分的操作系统为Win10，应用程序的编译环境为visual studio 2010。所使用的视频编码及转码程序是由HM16.0参考模型改编而成，机器学习部分采用opencv3.0中ml模块下的CvSVM类实现。

本发明分为转码码率决策模型的建立与应用该模型决定视频码率两个部分。

建立转码码率决策模型包括以下步骤：

产生转码码率分配模型时需要准备以下素材：本案例实施时基于350个视频片段Clip_i,i∈[1,350],视频素材包括体育类节目、新闻类节目及一般电视剧类节目，每个片段长度约5分钟。每个视频具有480p，720p，1080p，1440p等4种分辨率。上述视频用H.265的压缩，基准码率分别由QP＝22,25,28压缩产生，GOP结构为8帧。QP＝22时，生成浅压缩码流；QP＝25时，生成中度压缩码流；QP＝28压缩时，生成重度压缩码流。这三类基准码流分别定义为Clip_L-i,Clip_M-i,Clip_H-i。

Clip_L-i,Clip_M-i,Clip_H-i解码后，产生不同码率下的源图像，即待转码的图像。通过小幅度增加QP值k，如QP+k，后再转码，产生略有降质的转码输出码流tran(Clip_L-i(k)),tran(Clip_M-i(k)),tran(Clip_H-i(k))。在转码过程中，尽可能的重用原始码流中的块的编码树信息，即CTU(coding tree unit)信息。鉴于更深度的压缩可能对编码单元CU(CodingUnit)的大小产生的影响，在转码过程中尝试保持CU描述或退化至上一层的CU单元，并将TU(Transform Unit)与PU(Prediction Unit)做相应的修改。

训练转码码率决策模型需要提取浅压缩码流Clip_L-i,中度压缩码流Clip_M-i,重度压缩码流Clip_H-i的特征，L-i代表浅压缩，M-i代表中度压缩，H-i代表重度压缩。下面以浅压缩为例进行说明，具体步骤包括：

1、计算视频的空间复杂度。空间复杂度由图像帧的纹理信息的多少表述。本实施例将Clip_L-i、Clip_M-i、Clip_H-i解码，产生图像序列Clip_L-i(j)、Clip_M-i(j)、Clip_H-i(j),j为解码后图像帧编号。对图像序列Clip_L-i(j)、Clip_M-i(j)、Clip_H-i(j)分别做二维傅里叶变换并作移相操作，产生图像序列Clip_L-i(j)、Clip_M-i(j)、Clip_H-i(j)的幅度谱信号A(Clip_L-i(j))、A(Clip_M-i(j))、A(Clip_H-i(j))。将这些幅度谱信号A(Clip_L-i(j))、A(Clip_M-i(j))、A(Clip_H-i(j))在频域与高斯高通滤波器相点积A(Clip_i(j))(u,v).*H(u,v)分离出图像帧的高频分量H_pass(Clip_L-i(j))、H_pass(Clip_M-i(j))、H_pass(Clip_H-i(j))，其中，u,v分别为水平、垂直方向的频率分量索引，D和D₀分别为水平、垂直方向的频率分量索引为控制参数用于调整高斯滤波器的形状。

图像帧的空间复杂度由图像高频能量标识，即

high_pass(Clip_L-i(j))＝||A(Clip_L-i(j))(u,v).*H(u,v)||₂

high_pass(Clip_M-i(j))＝||A(Clip_M-i(j))(u,v).*H(u,v)||₂

high_pass(Clip_H-i(j))＝||A(Clip_H-i(j))(u,v).*H(u,v)||₂

其中,||||₂为L2范数算子。视频的空间复杂度为该视频中所有图像帧复杂度的平均数，即

act_spatial(Clip_L-i)＝mean(high_pass(Clip_L-i(j)))

act_spatial(Clip_M-i)＝mean(high_pass(Clip_M-i(j)))

act_spatial(Clip_H-i)＝mean(high_pass(Clip_H-i(j)))

j∈[1,N]，N为解码总帧数，mean为均值运算符。

2、计算视频的时域复杂度

视频的时域复杂度用视频的平均码率表征，即

act_temporal(Clip_L-i)＝bitrate(Clip_L-i)

act_temporal(Clip_M-i)＝bitrate(Clip_M-i)

act_temporal(Clip_H-i)＝bitrate(Clip_H-i)

3、训练转码码率决策模型需要提取描述显示器的特征。

本实施例中，与显示器的特征主要包括观测距离d,显示器高度h和显示器在高度方向上的像素数l。实际使用中，用户与移动终端显示器之间的距离通常为30-40cm，所以在本实施例中d＝40cm。本发明实施时，广泛收集当前市场中主流移动终端显示器的显示器高度h和显示器在高度方向上的像素数l，分别表示为h(m)和l(m),其中，m为不同性质类别显示器的种类索引。

第m类显示器对视觉的影响以人眼在显示器高度方向的角频率f_m(o)形式描述，其换算公式如下：f_m(o)＝(π*d*l)/(180*h*2*2^o)。

其中，o是小波域子带分解时的子带索引，f(o)将与图像帧信号的小波变换相互作用。在做图像质量评价时，如果图像信号不做子带分解时，o＝1；仅做一次分解时，o＝2,以此类推。

训练转码控制参数模型时需要视频质量退化特征的描述。视频质量退化量为视频中所包含图像帧质量退化量的均值。以第j个图像帧的质量退化计算为例。

4、在小波域对图像的质量进行评价。

本实施方式的图像质量评价在小波域进行，所以首先要对图像作小波变换。自然图像在小波域的某个子带中得块可以描述成为一系列高斯分布的和R_o,a,b＝S_o,a,b·U_o,a,b，

高斯核函数

上式中，o为子带索引，a为子带方向，b为在(o,a)子带中块的索引,U_o,a,b为均值为0协方差为C_u高斯基函数，S_o,a,b为一个随机数，其数值为图像在基U_o,a,b上的投影，z为权重系数，Λ为高斯核方差。

计算图像Clip_i(j)和tran(Clip_i(k))(j)各自的视觉响应，即分别求取Clip_L-i(j)与自然图像先验知识之间的互信息、Clip_M-i(j)与自然图像先验知识之间的互信息、Clip_H-i(j)与自然图像先验知识之间的互信息以及tran(Clip_L-i(k))(j)与自然图像先验知识之间的互信息、tran(Clip_M-i(k))(j)与自然图像先验知识之间的互信息、tran(Clip_H-i(k))(j)与自然图像先验知识之间的互信息。

实施时以子带为单位计算上述互信息

上式中，B为在子带(o,a)中块的个数，g_o,a为对转码过程中引入的乘性误差的描述。

转码过程引入的图像降质可由下式计算

基于ΔD_i(k)(j)(包括ΔD_L-i(k)(j)、ΔD_M-i(k)(j)、ΔD_H-i(k)(j))，可以测算出量化阶增加k时转码tranClip_i(k)的降质程度。该降质程度等于该视频内所有图像帧降质的均值。

本实施过程中，通过机器学习的方法分析量化阶的增量与显示端图像质量变化之间的关系，即在码流时/空域复杂度约束下，k与ΔD_i(k)之间的关系。

上述步骤仅以浅压缩视频描述为例，而本发明还应包括有对中度压缩视频、重度压缩视频的相关内容。于本实施中，中度压缩视频，重度压缩视频的相关参数计算方式与浅压缩视频的相关参数计算方式相同，此处不再作赘述。

基于350个视频产生1050个基准视频。实施时k的取值范围为1-3，1050个样本产生3150个降质样本。由这些样本，可以得到3150个(k,ΔD(k))对。

采用支持向量机作为学习工具，SVM输入端为视频的空间复杂度act_spatial(Clip_i)(包括act_spatial(Clip_L-i)、act_spatial(Clip_M-i)、act_spatial(Clip_H-i)),视频的时域复杂度act_temporal(Clip_i)(包括act_temporal(Clip_L-i)、act_temporal(Clip_M-i)、act_temporal(Clip_L-i))，显示器的描述特征f_m(o)以及视频降质ΔD_i(k)(j)(包括ΔD_L-i(k)(j)、ΔD_M-i(k)(j)、ΔD_H-i(k)(j))作为输入，SVM的输出为k。通过对3150个样本的学习，产生k的生成模型。

本实施案例生成的是基于量化阶调整的转码策略，其模型生成方法同样适用于基于码率增量的学习模型。在获取码率与视频质量之间的关系时，将k值替换成转码的目标码率。

应用该模型决定视频码率包括以下步骤：

1、首先，通过反馈信道读取显示器种类及型号，通过比对监视器种类及型号，解析出当前应用下的f_m(o)。

转码过程一定会引入转码误差，本专利的核心思想是根据该误差的可视性程度控制转码过程，即根据用户所需的视频质量控制转码参数。用2种方式控制转码参数：1)以ΔD＝10％作为默认的允许的视频质量降质；2)通过交互式界面，由用户输入允许的视频降质ΔD。

2、统计待转码视频的特征信息，获取其视频的空间复杂度act_spatial(Clip)和视频的时域复杂度act_temporal(Clip)。

3、将(act_spatial(Clip),act_temporal(Clip),ΔD,f_m(o))馈入转码码率决策模型，获得转码量化阶增量k或者转码的目标码率增量。

4、提取原量化阶QP，用QP+k作为新的量化阶或基于模型产生的码率增量获得新的码率增量进行转码。与训练过程中的转码控制机制相似，在尽可能的重用CTU信息的基础上，实现转码。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种面向显示的视频转码码率决策模型的建立方法，其特征在于，包括方法包括以下步骤：

步骤S1.计算视频的空间复杂度；

步骤S2.计算视频的时域复杂度；

步骤S3.提取显示器的描述特征以得到人眼在显示器高度方向的角频率f_m(o)，所述描述特征包括观测距离d、显示器高度h和显示器在高度方向上的像素数l；

步骤S4.在小波域对图像的质量进行评价，得到视频降质；

2.根据权利要求1所述的一种面向显示的视频转码码率决策模型的建立方法，其特征在于，所述计算视频的空间复杂度，具体包括下子步骤：

步骤S11.对压缩码流Clip_i进行解码，产生图像序列Clip_i(j),i为码流的数量，j为解码后图像帧编号；

图像帧的空间复杂度high_pass(Clip_i(j))＝||A(Clip_i(j))(u,v).*H(u,v)||₂，其中|| ||₂为L₂范数算子；视频的空间复杂度为所述视频中所有图像帧的空间复杂度的平均数，即act_spatial(Clip_i)＝mean(high_pass(Clip_i(j))),j∈[1,N]，N为解码总帧数，mean为均值运算符。

3.根据权利要求2所述的一种面向显示的视频转码码率决策模型的建立方法，其特征在于，在所述步骤S2中，利用视频的平均码率表征视频的时域复杂度，即act_temporal(Clip_i)＝bitrate(Clip_i)，bitrate(Clip_i)为视频的平均码率。

4.根据权利要求3所述的一种面向显示的视频转码码率决策模型的建立方法，其特征在于，在所述步骤S3中，所述的人眼在显示器高度方向的角频率f_m(o)具体为：f_m(o)＝(π*d*l)/(180*h*2*2^o)，其中，o是小波域子带分解时的子带索引。

5.根据权利要求4所述的一种面向显示的视频转码码率决策模型的建立方法，其特征在于，所述在小波域对图像的质量进行评价得到视频降质具体为：

步骤S41.对图像序列Clip_i(j)作小波变换；

6.根据权利要求5所述的一种面向显示的视频转码码率决策模型的建立方法，其特征在于，根据量化阶,所述码流Clip_i包括浅压缩码流Clip_L-i、中度压缩码流Clip_M-i和重度压缩码流Clip_H-i，将视频的空间复杂度act_spatial(Clip_L-i)、act_spatial(Clip_M-i)、act_spatial(Clip_H-i)，视频的时域复杂度act_temporal(Clip_L-i)、act_temporal(Clip_M-i)、act_temporal(Clip_H-i)，显示器的描述特征f_m(o)以及视频降质ΔD_L-i(k)(j)、ΔD_M-i(k)(j)、ΔD_H-i(k)(j)作为输入，以量化阶k作为输出，利用支持向量机进行训练，得到码率控制决策模型。

7.一种面向显示的视频转码参数确定方法，其特征在于，该方法包括以下步骤：

8.根据权利要求7所述的一种面向显示的视频转码参数确定方法，其特征在于，该方法还包括步骤四、提取原量化阶QP，用QP+k作为新的量化阶或基于模型产生的码率增量获得新的码率增量进行转码。