CN104410860A

CN104410860A - 一种高清roi视频实时质量调节的方法

Info

Publication number: CN104410860A
Application number: CN201410713484.4A
Authority: CN
Inventors: 楼奕华; 于海亮; 王梦云; 吴文峻
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2014-11-28
Filing date: 2014-11-28
Publication date: 2015-03-11
Anticipated expiration: 2034-11-28
Also published as: CN104410860B

Abstract

本发明公开了一种高清ROI视频实时质量调节的方法，该方法步骤为：第一，实时获取含ROI高清视频的质量评估值；第二，优化x264编码器，使之适应高清ROI视频的编码需求；第三，结合ROI提取检测技术和带宽检测技术，发送端编码视频时做到带宽资源的最大化利用以及视频质量的最大化。本发明以含ROI视频质量评估模型为基础，并结合基于ROI的快速H.264编码方案，实现了一种高效、可靠的视频实时调节系统。

Description

一种高清ROI视频实时质量调节的方法

技术领域

本发明涉及视频实时质量调节的技术领域，具体涉及一种高清ROI视频实时质量调节的方法。

背景技术

自从世界上首部模拟技术可视电话于1964年诞生于美国贝尔实验室以来，实时多媒体交互系统在日常工作、生活中扮演着越来越不可或缺的角色，与实时视频传输相关的技术和服务也得到了充分地重视和发展，尤其是在全球一体化现象凸显的今天，实时视频通信应用被广泛地应用于商业沟通和日常交流等领域，其中比较有代表性的应用有Facetime、Skype等。

视频会议系统面世以来相当长的一段时间内，视频的质量是制约视频会议系统发展的首要因素。一般来说，实时多媒体应用程序由于对实时性的要求较高，相对于其他应用程序对网络状况的要求更高，需要更高的带宽来保证视频传输的流畅性和清晰度。随着多媒体技术以及硬件的发展，主流的个人电脑和终端多媒体应用中高清、高质量的应用比例逐步增多，用户对多媒体的质量要求也相应水涨船高，视频会议系统实现实时720P、1080P乃至更高清的视频传输是一大发展趋势。然而，高质量的视频传输需要更高的带宽要求。我国的宽带事业起步晚，虽然发展迅速，但是目前和发达国家还存在差距。2013年中国互联网感知数据报告，是国外媒体2014年公布的一份数据。数据显示，得益于中国“宽带中国”战略的发布，2013年中国平均网络速度为3.45Mb/s，相比2012年第四季度的2.59Mb/s提高了33.2％。虽然中国整体带宽水平有了较大的提升，但是带宽的质量参差不齐。数据显示，中国41.56％的带宽接入介于256Kb/s～2Mb/s之间，2Mb/s～5Mb/s以上带宽接入比例为40.17％，超过5Mb/s的超宽带宽占比甚至达到18.07％，仍有0.20％的用户使用的带宽在256K以下。相比于固定宽带，移动端宽带资费和质量更不具有优势，视频会议系统在移动终端的发展受到了带宽的极大制约。因此，如何有效解决高质量视频和有限带宽之间的矛盾，仍是视频会议领域技术发展面临的重要问题。

研究表明，人对图像或视频质量的主观感觉有侧重性，往往重点关注图像或视频中的某一个或几个区域，这部分区域对主观质量的影响权值较大，相应其他区域影响则较小，对图像或视频质量影响比较大的区域被称为感兴趣区域(Region of Interest，ROI)。视频会议场景一般比较单一，感兴趣区域主要集中在人脸和手部位置上，背景部分关注点较少。在带宽有限的前提下，根据视频画面重新分配有限带宽，赋予ROI更多的带宽，背景部分更少的带宽，能有效地在较低带宽条件下加强整体视频画面质量，也更有利于限定带宽下的高清实时流媒体的传输。

视频质量调节需要对视频质量进行量化评价，在此基础上按照调节标准重新调整画面质量，实现当前带宽下的最优质量。视频质量的评价是质量调节的基础和保证，获得准确的视频质量评价量化值是系统实现的前提。目前主流的视频质量评估方法主要有两种：主观评估和客观评估。视频质量主观评估方法以评测者的主观感受为基础，得到的评测值更符合人对视频质量的感受，但是对评测者自身的要求较高；视频质量客观评估方法以视频的相关参数来计算质量值，较于主观评估法快捷、省时、省力。主观评估和客观评估各有利弊，一般来说，视频会议系统由于其实时性的要求，大多采用客观评估的方法计算视频质量值，以此为基准进行质量调节。

随着多媒体技术的发展，当今视频的画面越来越精细，分辨率也在逐步增大，同几年前的主流视频质量相比不可同日而语，但由于视频质量的好与坏涉及到人眼、人脑的感知，这种主观感受难以具体量化，所以目前视频质量评价并没有一套得到普遍认可的标准。

目前视频质量评估主要由两种方法：主观评估和客观评估。这两种评估方法的主要区别在于评估的主体不同，主观评估主体是人，客观评估的主体是计算机。

(1)视频质量主观评估法

视频质量主观评估法采用观察者的主观感受作为评测标准，评测时将待评估的视频序列播放给观察者看，由观察者给出视频质量的分数，然后对所有观察者的打分进行统计，计算出其平均值作为评估结果，这个结果通常也被称为“平均估计分值”(Mean Opinion Score，MOS)。

总体来说，视频质量评估方法由于是通过人对视频的主观感受评分得出的意见值，与计算机评测值相比更符合大多数人对视频质量标准的认可程度。同时，这也对视频质量的评分机制提出了更高的要求，一般需要比较多的评分样本来获得较为准确的数据，人力和物力的投入大，历时长；评分者主观因素对结果影响大，因此对评分者评分素质、态度也有较高要求；主观评测需要人为介入，难以在实时流媒体视频质量控制中得到应用。

(2)视频质量客观评估法

视频质量客观评估方法基于利用计算机仿照人眼视觉模型对视频质量进行客观的计算评估。与主观评估方法相比，客观评估方法在实时性方面更具优势，对于评测的条件要求也较少，尽管客观评估方法在结果准确性方面有待提高，视频质量的客观评估方法在诸多实时流媒体质量传输控制中被采用。

客观评估方法通常需要比较压缩前后的视频数据，往往是通过对每一帧画面的比对，计算出压缩后视频信息的丢失量，通过数学推导得出视频质量分值。

ITU-R视频质量专家组(ITU-VQEG：Video Quality Experts Group)是专门研究和规范视频质量客观评估方法和标准的国际组织，VQEG定义了两个与视频质量相关的参数：峰值信噪比(Peak Signal Noise Ratio，PSNR)和均方差(Root Mean Square Error，MSE)。MSE和PSNR的计算公式分别如公式(1.1)和公式(1.2)所示。

MSE = \frac{1}{MN} Σ_{m = 1}^{M} Σ_{n = 1}^{N} {(O_{m, n} - r_{m, n})}^{2} - - - (1.1)

PSNR = 101 g \frac{255^{2}}{MSE} - - - (1.2)

相比于视频质量主观评估方法，客观方法的PSNR和MSE计算简便快速，因此客观方法称为一种很常见的方法，用来测量压缩和解码视频图像的质量，PSNR分值越高表示视频的质量越好。

但是，PSNR分数与视频质量的契合程度并不是完全一致，研究表明，在某些情况下存在PSNR分数高的视频质量反而比PSNR分数低的视频质量差的情况。一个特定的PSNR值并不能代表主观质量值，人眼的视频模型对整体图像的质量损耗并不是均匀分布的，而是对某些观察敏感区的质量更为依赖，这也是视频质量客观评估方法准确性低于主观方法的原因之一。

ITU-T G.1070推荐标准提出了一种电话视频质量估计的算法，应用G.1070模型能估计视频会话中端到端的服务质量。该模型由3个估计函数组成：视频质量评价函数、语音质量评价函数以及多媒体质量综合评价函数。G.1070模型的输入是和会话相关的参数，输出是视频质量、语音质量以及多媒体综合质量。

本发明与G.1070模型中的视频质量评估与研究内容相关。G.1070的视频质量评价模型的输入参数有比特率、帧率、视频编码方式、端到端延迟、丢包率等相关信息，视频评估质量V_q表示为这几项输入参数的函数，如(1.3)式所示。

V_{q} = 1 + I_{coding} \exp {- \frac{P_{plv}}{D_{P_{plv}}}} - - - (1.3)

其中I_coding表示信源编码失真，P_plv表示丢包率，表示丢包环境中视频稳定性程度。

G.1070模型的应用存在一些局限性，主要体现在在实时视频质量控制过程中，G.1070模型的计算量较大且存在部分误差，这是因为G.1070模型涉及的三个参数：比特率、帧率和网络丢包率是实时变化的。实时视频传输时，资源竞争比较激烈，在应用G.1070模型控制质量时，需要结合带宽检测、丢包率检测等技术手段，加大了视频传输端的压力。

G.1070模型给出的视频质量评估公式其中包含了12个常量参数，这些参数取决于编码器类型、视频格式、关键帧间隔以及视频显示尺寸等。ITU-T G.1070标准给出了部分情况下的推荐系数，对于其他情况，该标准也给出了通用的计算方法。

采用ROI编码的方式可以有效地缓解视频质量与带宽之间的矛盾关系，同时，采用ROI编码导致每一帧的图像需要经过两次编码，而对于高清实时视频来说，必须采取一种有效的机制来减少视频编码时间。目前实时视频的编码主要采用H.264标准，H.264编解码标准采用了混合视频编码设计，结合结合帧间预测、帧内预测、变换、熵编码等手段，在提高预测的准确性及压缩比的同时，大大提高了视频的压缩效率。总体来说，H.264标准在实时视频编解码领域拥有不可替代的作用。对于含ROI视频，现有的H.264标准难以满足质量和编码效率上的要求。为解决高清含ROI视频H.264编码效率问题，本发明将对x264编码器进行改造，设计并实现一个适应ROI视频编码的x264编码器。

本发明通过对含ROI视频质量的研究以及x264编码器的改造，实现高清含ROI视频的实时质量调节功能。

发明内容

本发明的目的在于：给基于视频会议场景下的高清ROI视频质量评估与实时调节，具体研究目标为：在视频会议场景的高清实时视频传输中，结合ROI提取检测技术，实现该场景下的含ROI高清视频的传输，实现有限带宽下的最大质量视频传输；实验探寻一种适用于高清含ROI视频的质量评估方法，应用到实时流媒体传输中；针对高清视频及含ROI视频的特点，优化改进编码器，实现编码效率上的优化；最后整合系统，实现一个含ROI高清视频实时质量调节的系统，该系统能达到实时性强、编码效率高、质量对带宽依赖小、质量调节快速有效的效果。

为实现上述目标，本发明采用的技术方案为：一种高清ROI视频实时质量调节的方法，该方法步骤为：第一，实时获取含ROI高清视频的质量评估值；第二，优化x264编码器，使之适应高清ROI视频的编码需求；第三，结合ROI提取检测技术和带宽检测技术，发送端编码视频时做到带宽资源的最大化利用以及视频质量的最大化。

进一步的，所述的实时获取含ROI高清视频的质量评估值，具体步骤为：

步骤1、多分辨率视频G.1070质量评估模型参数拟合；

步骤2、提出一种适用于ROI视频扩展的G.1070模型，引入了一个ROI视频质量加权系数w；

步骤3、对加权系数w与ROI面积占总面积的比例S_ROI、ROI带宽占总视频带宽比例P_ROI进行曲线估计，得到完整的含ROI视频质量评估公式。

进一步的，所述的优化x264编码器使之适应高清ROI视频的编码需求具体为：

步骤1、修改x264编码器量化模块，允许对同一帧的不同宏块赋予不同的量化参数值；

步骤2、限制同一帧内ROI部分和背景部分宏块的帧内参考和帧间参考范围，当前宏块只能参考相同量化参数的区域；

步骤3、修改码率控制模块，对ROI部分分配更多比特，对背景部分分配更少比特。

本发明与现有技术相比的优点在于：

(1)、本发明的基于G.1070模型适用于ROI视频的质量评估模型，提出了一种ROI视频质量和背景视频质量加权的概念，并在ROI视频质量加权系数w的讨论中引入了与ROI视频相关的两个因素——ROI面积占比S_ROI和ROI带宽占比P_ROI。首次提出将ROI视频质量与G.1070视频质量评估模型结合以获得含ROI视频质量评估公式的方法，质量评估效果准确，可应用在实时场景中进行含ROI视频质量计算。

(2)、本发明的基于ROI的快速H.264编码方案，针对标准H.264标准不能一次编码含ROI视频画面的缺点作出改进，使其适用于含ROI视频的编码，大大提高编码效率和速度。本章的研究内容基于x264编码器实现，从编码器层次提升了含ROI视频编码效率，尤其对于高清ROI视频的编码效果提升更加明显。

附图说明

图1为H.264编码框架图；

图2为基于ROI的快速H.264编码算法框架图。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

一种高清ROI视频实时质量调节的方法，该方法具体步骤为：

第一，实时获取含ROI高清视频的质量评估值；

所述的实时获取含ROI高清视频的质量评估值，具体步骤为：

步骤1、多分辨率视频G.1070质量评估模型参数拟合

关于G.1070视频质量评估模型，G.1070模型中关于视频质量V_q的评估函数表示为信源编码失真I_coding的指数衰减函数：

V_{q} = 1 + I_{coding} \exp {- \frac{P_{plv}}{D_{P_{plv}}}} - - - (2.1)

(2.1)式中：P_plv表示网络丢包率，表示丢包鲁棒性性因子(视频在丢包环境中质量的鲁棒性程度)。V_q为视频质量评估值，其值分布范围为从1到5，1为质量最差，5为质量最优。I_coding表示信源编码失真，其与编码器有关。

从(2.1)式可知，视频质量客观评价结果受信源编码失真、丢包率和视频码流稳健性程度影响。其中信源编码失真I_coding表示为(2.2)式。

I_{coding} = I_{Ofr} \exp (- \frac{{(\ln ({Fr}_{V} - \ln (O_{fr})))}^{2}}{2 D^{2} {Fr}_{V}}) - - - (2.2)

其中O_fr表示在特定比特率Br_v下使视频质量最好的最优帧率，其可以表示为：

O_fr＝v₁+v₂Br_V 1≤O_fr≤30v₁,v₂为常数 (2.3)

I_Ofr表示在特定比特率Br_v下最优的视频质量得分，其可表示为：

I_{Ofr} = v_{3} - \frac{v_{3}}{1 + {(\frac{{Br}_{V}}{v_{4}})}^{v_{5}}}, 0 \leq I_{Ofr} \leq 4,

v₃,v₄,v₅为常数 (2.4)

D_fr表示在帧率Fr_v下的视频质量鲁棒程度，其可以表示为：

D_FrV＝v₆+v₇Br_V,0<D_FrV，v₆,v₇为常数 (2.5)

和帧率及比特率存在如式(2.6)所示的关系：

D_{P_{plv}} = v_{10} + v_{11} \exp (- \frac{{Fr}_{V}}{v_{8}}) + v_{12} \exp (- \frac{{Br}_{V}}{v_{9}}), 0 < D_{P_{plv}},

v₈,v₉,v₁₀,v₁₁,v₁₂为常数 (2.6)

公式(2.1)到(2.6)是G.1070给出的视频质量评估公式，其中v₁,v₂,...,v₁₂是12个常量参数，这些参数一般利用对实验数据进行最小二乘逼近的方法获得，G.1070标准文档对其中几个进行了参数的视频质量公式进行了参数的拟合，并给出了相应的实验过程和结果。

G.1070标准文档中给出了包括QQVGA(160×120)、QVGA(320×240)、VGA(640×480)在内的若干种分辨率的视频质量评估模型系数评估结果，对于其他分辨率视频的参数未作出说明，并且对于其他分辨率视频(尤其是高清视频)是否依然满足上一小节的视频质量评估公式还不得而知。

本发明涉及到多种分辨率视频的质量评估，将通过拟合多种分辨率下的G.1070视频评估公式常数参数，根据各部分相关系数来验证G.1070模型对H.264编码下的多种分辨率视频的适应性。本发明研究的视频分辨率除G.1070推荐标准中已经包含的几种分辨率，还包括176×144，352×288，800×600，960×720，1024×768，720P(1280×720)，1080P(1920×1080)这几种分辨率。

从G.1070视频质量评估模型的公式(2.1)到(2.6)可知，影响视频质量的因素可以分为两大部分：编码器相关部分和网络相关部分。其中v₁，v₂，...，v₇是与编码器相关的常量参数，而v₈，v₉，...，v₁₂这几个参数与网络相关。在进行参数拟合过程中，两部分参数分开进行拟合，在对于编码器相关参数进行拟合时去除网络丢包影响，在对网络相关参数进行拟合时保证编码器相关参数不变。

在参数拟合过程中，分别对相关参数进行控制，编码出视频序列，通过主观评测后获取该视频的评测分值，经过处理得到平均意见值，平均意见值的分数范围为1至5分，分数越大，视频质量越好，其分值的意义如表1所示。运用最小二乘逼近的方法，最终得到视频质量与各参数之间的关系，进而可以分析得出G.1070视频质量评估模型的各参数值，最后通过用拟合后的曲线与原始实验数据进行相关性检查，用于验证G.1070模型对该分辨率视频适应性。

表1平均意见值表

平均意见值	1	2	3	4	5
						视频质量	很差	差	一般	好	很好

(1)编码器相关系数拟合

完整的G.1070视频质量评估公式如公式(2.7)所示：

V_{q} = 1 + (v_{3} - \frac{v_{3}}{1 + {(\frac{{Br}_{v}}{v_{4}})}^{v_{5}}}) \exp {- \frac{{(\ln ({Fr}_{v}) - \ln (v_{1} + v_{2} {Br}_{v}))}^{2}}{2 {(v_{6} + v_{7} {Br}_{v})}^{2}} - \frac{P_{{pl}_{v}}}{v_{10} + v_{11} e^{- \frac{{Fr}_{v}}{v_{8}}} + v_{12} e^{- \frac{{Br}_{v}}{v_{9}}}}} - - - (2.7)

进行编码器相关系数拟合时，网络丢包率设置为0，那么G.1070视频质量评估公式可以改写为(2.8)式的形式。

V_{q} = 1 + (v_{3} - \frac{v_{3}}{1 + {(\frac{{Br}_{v}}{v_{4}})}^{v_{5}}}) \exp {- \frac{{(\ln ({Fr}_{v}) - \ln (v_{1} + v_{2} {Br}_{v}))}^{2}}{2 {(v_{6} + v_{7} {Br}_{v})}^{2}}} - - - (2.8 .)

由(2.8)式可知，与视频质量评分相关的因素有比特率和帧率，设置不同的参数，对编码后的视频评测后得到相应的评测值，如表2所示。

表2带宽、帧率、质量值关系表

带宽(Br_v)	帧率(Fr_v)	质量值(V_q)
			b₁	f₁	V_qs(b₁,f₁)
b₂	f₂	V_qs(b₂,f₂)
			…	…	…
b_n	f_n	V_qs(b_n,f_n)
			…	…	…
b_N	f_N	V_qs(b_N,f_N)

V_qs(b_n,f_n)表示在比特率b_n和帧率f_n条件下的视频质量平均意见值，由评测者对相应参数的视频进行评分后统计得出的平均分值。

公式(2.3)(2.4)(2.5)分别表明了特定比特率Br_v下使视频质量最好的最优帧率O_fr、特定比特率Br_v下最优的视频质量评分值I_Ofr以及特定帧率Fr_v下的视频质量鲁棒程度D_fr三者分别与比特率Br_v的关系。O_fr、I_Ofr、D_fr可以通过对原始实验的离散数据进行最小二乘逼近得到连续函数后得出，得到比特率Br_v与相应的O_fr、I_Ofr、D_fr一系列数据集，如表3所示。

表3带宽和最优帧率、最优视频质量评分值、视频质量鲁棒程度关系表

带宽(Br_v)	Br_v下的最优帧率(O_fr)	Br_v下的最优帧率(I_ofr)	鲁棒程度(D_frV)
				b₁	O₁	I₁	D₁
b₂	O₂	I₂	D₂
				…	…	…	…
b_n	O_n	I_n	D_n
				…	…	…	…
b_N	O_N	I_N	D_N

表3中的b_n和O_n的数据按照公式(2.3)进行最小二乘逼近，得到v₁，v₂参数值；将b_n和I_n的数据按照公式(2.4)进行最小二乘逼近，得到v₃，v₄，v₅参数值；将b_n和D_n的数据按照公式(2.5)进行最小二乘逼近，得到v₆，v₇参数值。所有与编码器相关的参数都通过计算得出。

(2)网络相关系数拟合

与网络相关的参数是公式(2.6)中的v₈～v₁₂，其中涉及到比特率Br_v和帧率Fr_v，采用控制变量的方法，首先控制比特率Br_v为固定值，则公式(2.6)可改写为：

D_{P_{plv}} = a + v_{11} \exp (- \frac{{Fr}_{V}}{v_{8}}) - - - (2.9)

其中，a为常数值，用于辅助计算，对结果没有影响。

固定比特率Br_v，得到如表4中所示的视频质量受丢包影响的鲁棒性程度D_pplv与帧率Fr_v的数据集。将f_n和D_n的数据按照公式(2.9)进行最小二乘逼近，得到得到v₈，v₁₁，a参数值。

同理，控制帧率Fr_v为固定值，公式(2.6)可改写为：

D_{P_{plv}} = b + v_{12} \exp (- \frac{{Br}_{V}}{v_{9}}) - - - (2.10)

其中，b为常数值，用于辅助计算，对结果没有影响。

固定帧率Fr_v，得到如表5中所示的视频质量受丢包影响的鲁棒性程度D_pplv与比特率Br_v的数据集。将b_n和D_n的数据按照公式(2.10)进行最小二乘逼近，得到得到v₉，v₁₂，b参数值。

表4特定比特率下丢包率、帧率、丢包鲁棒性程度关系表

丢包率	帧率(Fr_v)	丢包鲁棒性程度D_pplv
			k₁	f₁	D₁
k₂	f₂	D₂
			…	…	…
k_n	f_n	D_n
			…	…	…
k_N	f_N	D_N

表5特定帧率下丢包率、比特率、丢包鲁棒性程度关系表

丢包率	比特率(Br_v)	丢包鲁棒性程度D_pplv
			k₁	f₁	D₁
k₂	f₂	D₂
			…	…	…
k_m	f_m	D_m
			…	…	…
k_M	f_M	D_M

经过上述过程，我们可以得到v₈，v₉，v₁₁，v₁₂的值，将这些参数值代入公式(2.9)或者公式(2.10)，可以计算得出v₁₀的值。至此，G.1070视频质量评估模型中的12个参数值全部可以获得，进而可以通过与实验数据的相关性程度检验其与G.1070质量评估模型的契合程度。

步骤2、提出一种适用于ROI视频扩展的G.1070模型，引入了一个ROI视频质量加权系数w。

含ROI视频的ROI和背景部分视频质量存在着明显着明显的差异，我们可以将其当做两个拼接在一起的视频：背景部分是一个质量较差、分辨率较大的视频，ROI是一个质量较好、分辨率较小的视频。背景部分视频和ROI视频均可以适用于G.1070视频质量评估公式。因为ROI视频的质量显然要优于背景部分的质量，而最终含ROI视频的综合质量是两者质量评分的折衷，即含ROI视频的综合质量评分应该介于背景部分视频和ROI视频质量评分之间。所以，我们引入了一个加权系数w(0≤w≤1)，含ROI视频综合质量V_q与ROI视频质量V_ROI、背景部分视频质量V_Base的关系为：

V_q＝w*V_ROI+(1-w)*V_Base 0≤w≤1 (2.11)

含ROI视频的综合质量由ROI部分视频质量V_ROI和非ROI部分视频质量V_Base共同决定，w为ROI部分视频质量权值，0≤w≤1，V_ROI和V_Base由标准G.1070视频质量评估模型计算得出。

加权系数w的确定是获得含ROI视频综合质量的关键，加权系数w应该体现ROI相关因素对视频质量的影响。考虑到ROI面积以及ROI与背景部分的质量差异大小都会对最终的综合质量产生影响，所以我们做出假设，w与ROI面积占总面积的比例S_ROI、ROI带宽占总视频带宽比例P_ROI有关，如公式(2.12)所示。

w＝f(S_ROI,P_ROI) (2.12)

对含ROI视频质量评估模型中的加权系数w估计首先需要准备多种分辨率及ROI尺寸的含ROI视频(ROI面积占总面积的比例S_ROI和ROI带宽占总视频带宽比例P_ROI不同)，然后分别计算出公式(2.11)中的ROI视频质量V_ROI、背景部分视频质量V_Base，之后对含ROI视频进行主观评测实验获得含ROI视频的质量评分值V_qs。通过实验我们可以获得若干组V_qs，V_ROI，V_Base，S_ROI，P_ROI的数据集，如表6所示。

表6V_qs，V_ROI，V_Base，S_ROI，P_ROI关系表

通过对表6中每一组数据的ROI视频的质量评分值V_qs与ROI视频质量V_ROI、背景部分视频质量V_Base按照公式(2.11)进行最小二乘逼近，可以得到每一组数据的最佳ROI加权系数w_s，得到加权系数w_s与S_ROI，P_ROI的数据集，如表7所示。

表7w_s，S_ROI，P_ROI关系表

ROI加权系数(w)	ROI面积占比(S_ROI)	ROI带宽占比(P_ROI)
			w₁	s₁	p₁
w₂	s₂	p₂
			…	…	…
w_n	s_n	p_n
			…	…	…
w_N	s_N	p_N

为了进一步得到加权系数w与ROI面积占比S_ROI，ROI带宽占比P_ROI的关系，接下来对表7中的数据进行曲线估计。

常见的曲线估计模型一般有一下几种：一元线性模型，二次函数模型，复合函数模型，生长模型，对数函数模型，三次函数模型，S型曲线模型，指数函数模型，幂函数模型，逻辑函数模型等。一般最终选择判定系数R²值最大的模型作为变量间的曲线估计模型。

对于含ROI视频质量评估模型中加权系数w来说，其取值与ROI面积占比S_ROI，ROI带宽占比P_ROI均有关，两个变量的曲线估计难度大，准确率难以保证，可以采用分步曲线估计的方式，即先对ROI面积占比S_ROI相同的若干组数据分别进行曲线估计，确定加权系数w与ROI带宽占比P_ROI的曲线模型，进而对模型中的参数与ROI面积占比S_ROI再进行一次曲线估计，得到加权系数w与ROI面积占比S_ROI，ROI带宽占比P_ROI的关系。

将加权系数w的数学公式代入到公式(2.11)中，即可得到含ROI视频的质量模型，其质量评估效果可通过皮尔森相关系数检验。

第二，优化x264编码器，使之适应高清ROI视频的编码需求；

对于含ROI视频的H.264编码，需要根据ROI与非ROI采用不同的量化参数进行编码，由于H.264的预测编码特性，可能会出现某一部分的宏块参考了其他不同量化参数宏块的情况，造成对图像造成影响。目前含ROI视频常采用两次编码的技术来解决这个问题，即分别对ROI和非ROI部分进行编码，然后将其拼接起来，这种方法能有效解决显示问题，但是效率不高。用这种方法编码视频时每一帧ROI画面需要进行两次编码操作，还需要将两幅画面准确地拼接在一起，在编码时间和编码内存空间上都造成了比较大的浪费，对于高清视频来说，这种低效率的编码方式难以满足实时性的要求。

为实现同时编码含ROI视频同一帧的宏块，我们提出了一种低复杂度ROI编码算法，应用在x264编码器中。

本发明不研究ROI的划分方法，对于系统来说，需要输入ROI的范围信息，之后由编码器对宏块是否在ROI范围内进行判定，对于ROI部分的宏块，设置较低的量化参数，同时修改码率控制部分使之获得较多的比特数，非ROI部分则获得较少的比特数，这样，量化的范围由一帧细化到一个宏块，图2是按照上述算法改进的H.264编码框架图。

图2中的ROI判断模块、量化模块、码率控制模块、帧间参考模块和帧内参考模块是对原本算法进行改进的部分，ROI的检测提取不在本文的讨论范围内，实验开展的前提为已通过某种ROI提取技术手段获取ROI的尺寸和坐标位置。ROI的信息，包括ROI尺寸和起点坐标的信息，作为参数传递给编码器。编码器在编码过程中，首先对编码的宏块区域判断该宏块是否在ROI范围内，ROI和背景部分的宏块量化参数值(QP)分别设置为指定值(QP值作为参数传入)。对QP进行修改后，需要对码率控制的部分进行相应地适应性修改，使得ROI和背景部分的比特率与其量化参数相适应。同时，帧内和帧间的参考帧序列相关部分也需要进行修改，分别建立ROI和背景部分的参考帧队列，对于ROI的帧内和帧间参考只参考ROI的参考帧队列，背景部分只参考背景部分的参考帧队列。

实验中选择了x264编码器进行了ROI编码策略的修改，尽管x264编码器结构复杂，模块之间界限模糊，修改难度大，但是x264编码的编码效率和优化效果有很大的优势。使用上述基于ROI的快速H.264编码方案，能实现一次编码含ROI视频的效果，编码速度和效率都有了比较大地改善，能满足高清含ROI视频快速编码的要求。

步骤1、修改x264编码器量化模块，允许对同一帧的不同宏块赋予不同的量化参数值。

通过修改H.264编码算法的量化模块，在编码时，对ROI部分进行细量化，即降低ROI部分的量化参数，而对非ROI部分进行粗量化，从而给ROI分配更多的比特数，减少质量上的损失。实现同一帧视频数据编码时对ROI部分的宏块和背景部分的宏块赋予不同参数值的量化参数。

步骤2、限制同一帧内ROI部分和背景部分宏块的帧内参考和帧间参考范围，当前宏块只能参考相同量化参数的区域。

分别建立ROI和背景部分的参考帧队列，对于ROI的帧内和帧间参考只参考ROI的参考帧队列，背景部分只参考背景部分的参考帧队列。

步骤3、修改码率控制模块，对ROI部分分配更多比特，对背景部分分配更少比特

对码率控制的部分进行相应地适应性修改，使得ROI和背景部分的比特率与其量化参数相适应。

第三，结合ROI提取检测技术和带宽检测技术，发送端编码视频时做到带宽资源的最大化利用以及视频质量的最大化。

视频质量实时调节策略以本发明方法获得的含ROI视频质量评估公式为基础，同时采用改进的基于ROI快速H.264编码技术，进行视频传输的实时反馈。质量调节实现的目标有：(1)在接收端可用带宽大于当前视频带宽时，能通过提高ROI或背景部分的质量，提高带宽的利用率，使整体的视频主观感受得到提升；(2)在接收端可用带宽小于当前视频带宽时，及时降低ROI或背景部分的质量，调整视频带宽使其在可用带宽范围内；(3)针对含ROI视频的特点，能在限定带宽下找到较为合适的ROI/背景部分量化参数分配值；(4)实时反馈，质量调节快速有效。

对于上述目标，本文提出了一种基于反馈的质量调节策略。首先，如果当前可用带宽和视频带宽相差较大，含ROI视频能马上更改ROI和背景部分的量化参数，使下一帧视频的比特率与可用带宽相差不大，这步也可以成为“粗调”，“粗调”的参数可通过对多种分辨率含ROI视频进行带宽和量化参数的分类统计获得，“粗调”对数据要求不十分精确，只求能尽快调整当年带宽使之匹配可用带宽，“粗调”适用于质量调节伊始或者网络带宽发生突变的情况；当“粗调”完成，当前带宽与可用带宽处在一个相对差距不大的条件时，开始进行“精调”，“精调”通过对下两帧视频画面的量化参数做试探性修改，并计算质量，比较连续三帧的质量值，选择使质量值最高且带宽不高于可用带宽的量化参数，作为下一次“精调”的起始参数；当“精调”执行若干次之后，在网络带宽不发生突变的情况下，视频质量及参数趋于稳定，此时可暂停质量调节功能以节约资源，等网络带宽发生较大变化时，再重启质量调节功能，并重复上述过程。

系统的质量调节策略基于实时信息反馈的量化参数调整，能根据实时网络带宽状况作出迅速地调节，一般通过几帧或十几帧的调整即可达到接近于最优质量的视频画面，耗时较少，在网络状况稳定时能主动关闭调节反馈功能，缓解计算压力。

本发明未详细阐述部分属于本领域技术人员的公知技术。

Claims

1.一种高清ROI视频实时质量调节的方法，其特征在于：该方法步骤为：

第一，实时获取含ROI高清视频的质量评估值；

第二，优化x264编码器，使之适应高清ROI视频的编码需求；

2.根据权利要求1所述的一种高清ROI视频实时质量调节的方法，其特征在于：所述的实时获取含ROI高清视频的质量评估值，具体步骤为：

步骤1、多分辨率视频G.1070质量评估模型参数拟合；

3.根据权利要求1所述的一种高清ROI视频实时质量调节的方法，其特征在于：所述的优化x264编码器使之适应高清ROI视频的编码需求具体为：