CN108200426A

CN108200426A - 综合同步误差和缓冲时间与主观质量的关系模型建立方法

Info

Publication number: CN108200426A
Application number: CN201810101216.5A
Authority: CN
Inventors: 房颖; 李霞; 徐艺文; 赵铁松; 王明海
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2018-02-01
Filing date: 2018-02-01
Publication date: 2018-06-22
Anticipated expiration: 2038-02-01
Also published as: CN108200426B

Abstract

本发明涉及一种综合同步误差和缓冲时间与主观质量的关系模型建立方法。模拟了音频和视频同步、音频和字幕同步以及视频缓冲时间，构建主观感知意见分和同步误差以及缓冲时间的数学模型；首次综合了音频和视频同步误差、音频和字幕同步误差以及视频缓冲时间到一个视频当中；根据构建的模型传输不同内容的视频，达到了提高用户体验的目的；主观评价，采用的是ITU‑T P.910中定义的绝对等级评分法ACR‑SS，测试环境严格按照标准中给出的进行布置，组织了多名观测者进行主观评价，并对评价结果进行处理，得到平均主观意见分。对评价的结果进行验证，保证了实验结果的准确性。

Description

综合同步误差和缓冲时间与主观质量的关系模型建立方法

技术领域

本发明属于视频质量评估领域，涉及一种综合同步误差和缓冲时间与主观质量的关系模型建立方法，通过模拟音频和视频同步误差、音频和字幕同步误差和带宽受限的情况下视频缓冲时间，分别探究不同场景下这三个因素与视频主观质量评价之间的关系，以及三个因素对视频主观质量评价的综合影响；通过数据分析及数学建模，可分别获取音视频同步误差、音频和字幕同步误差、缓冲时间以及综合这三个因素和视频的主观质量的影响关系；从而能够更好的衡量视频传输中的用户体验，借以对视频传输技术和策略提出指导。

背景技术

在多媒体通信蓬勃发展的时代，沟通交流变得更加的轻松便利，然而多媒体的质量却参差不齐，在信道不稳定时常常无法提供满意的质量。对多媒体质量进行标准的评价能够规范多媒体服务水平，促进多媒体行业的健康发展。新的音视频服务的出现，引入了更新的服务平台和更为复杂的系统架构，其涵盖的种种要素都可能影响到用户感受到的体验质量。

以往的许多研究分别从用户层面和服务层面研究了各个因素对视频主观感知的影响，对于音视频同步和缓冲时间的研究多是定性研究，缺乏关于结合同步误差和缓冲的定量模型。本发明定量研究音视频同步误差，字幕和音频同步误差，以及视频缓冲时间对主观质量评价的影响，并且分析了这三个因素在视频的内容不同时对于用户的主观感受，以及综合这三个因素对用户的主观感受。不仅可以对视频终端产商提供指导依据，还可以服务于不同的视频领域。

发明内容

本发明的目的在于提供一种综合同步误差和缓冲时间与主观质量的关系模型建立方法，模拟了音频和视频同步、音频和字幕同步以及视频缓冲时间，构建主观感知意见分和同步误差以及缓冲时间的数学模型；首次综合了音频和视频同步误差、音频和字幕同步误差以及视频缓冲时间到一个视频当中；根据构建的模型传输不同内容的视频，达到了提高用户体验的目的；主观评价，采用的是ITU-TP.910中定义的绝对等级评分法ACR-SS，测试环境严格按照标准中给出的进行布置，组织了多名观测者进行主观评价，并对评价结果进行处理，得到平均主观意见分；对评价的结果进行验证，保证了实验结果的准确性。

为实现上述目的，本发明的技术方案是：一种综合同步误差和缓冲时间与主观质量的关系模型建立方法，包括如下步骤：

步骤S1、视频的预处理，包括：音频和视频时间移位处理，音频和字幕时间移位处理，视频添加缓冲处理以及对视频同时添加音频和视频同步误差、音频和字幕同步误差、缓冲时间；

步骤S2、视频质量主观评价处理，采用ITU-T P.911建议的9个等级绝对等级评分对每个视频场景进行评分，计算出每个视频场景中每个同步误差以及缓冲时间对应的平均主观意见分，完成视频质量主观评价，得到主观评价结果；

步骤S3、通过对主观评价的数据结果的分析获得同步误差以及缓冲时间与主观质量之间的数学关系模型：

式(1)，(2)，(3)分别对应音频和视频同步误差、音频和字幕同步误差、缓冲时间和主观质量之间的关系模型；其中x₁为音频和视频的同步误差时间，x₂是音频和字幕同步误差时间，x₃是缓冲时间；y₁,y₂,y₃分别是这三个因素的平均主观意见分处理后的值，a₁,a₂,a₃是控制曲线走势的参数，b₁,b₂,b₃是控制函数形状的参数；

步骤S4、综合音频和视频同步误差、音频和字幕同步误差、缓冲时间这三个因素的评价处理，基于步骤S1-S3，构建同时出现音频和视频同步误差、音频和字幕同步误差、缓冲时间这三个因素对人的主观质量的关系模型：

在本发明一实施例中，所述步骤S1中，所述音频和视频时间移位处理，是模拟音频和视频的同步误差，选取不同场景的视频，音频相对于各视频进行不同时间的移位；所述音频和字幕时间移位处理，是模拟音频和字幕的同步误差，选取电影片段，音频相对于字幕进行不同时间的移位；所述视频增加缓冲处理，对选取的不同场景的视频分别插入不同时间的缓冲；所述对视频同时添加音频和视频的同步误差、音频和字幕的同步误差、缓冲时间，即选取有字幕的视频，在视频中同时加入音频和视频的同步误差、音频和字幕的同步误差、缓冲时间进行处理。

在本发明一实施例中，所述步骤S3，通过对主观评价的数据结果的分析获得同步误差以及缓冲时间与主观质量之间的数学关系模型的具体实现方式为：

步骤a1、对主观意见分进行预处理得到y，处理的方式为其中MOS_i,j表示在i场景下，同步误差时间或缓冲时间为j的平均主观意见分；MOS_imax表示i场景视频的平均主观意见分的最大值；

步骤a2、观察同步误差时间和缓冲时间与主观质量的数据经过处理后的数学关系，对其进行建模，运用相关系数和均方误差来确定最终函数模型。

在本发明一实施例中，所述步骤S4，构建同时出现音频和视频同步误差、音频和字幕同步误差、缓冲时间这三个因素对人的主观质量的关系模型的具体实现方式为：

步骤b1、将若干组视频中的移位时间和缓冲时间代入到式(1)，(2)，(3)，得到y₁，y₂，y₃；

步骤b2、基于步骤b1，对主观意见分进行处理，分析处理数据，创建两个模型，根据留出法，进行三次留出法的相关系数的比较选出最佳模型：

F＝A*y₁+B*y₂+C*y₃+D

其中，F是平均主观意见分经过步骤a1的预处理之后得到的值；A，B，C，D是三次留出法中训练集预测系数的平均值，且A＝0.3393，B＝0.5694，C＝0.2948，D＝0.1283。

相较于现有技术，本发明具有以下有益效果：

(1)对于不同场景的视频进行音频和视频时间移位，音频和字幕时间移位，添加缓冲时间，分别研究它们和主观感知的关系，并且创建数学模型。有利于在移动终端出现不同的同步误差以及缓冲的时候，根据构建的模型，传输适合观看者的主观判断的视频；

(2)研究在一个视频中同时出现音频和视频同步误差，音频和字幕同步误差，缓冲时间对主观感知的影响，并且创建数学模型；能够为解决视频中同时出现多个问题时提供参考。

附图说明

图1是本发明主观实验流程图。

图2是本发明评价数据处理系统图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明的一种综合同步误差和缓冲时间与主观质量的关系模型建立方法，包括如下步骤：

步骤S1、视频的预处理，包括：音频和视频时间移位处理，音频和字幕时间移位处理，视频添加缓冲处理以及对视频同时添加音频和视频同步误差、音频和字幕同步误差、缓冲时间；所述音频和视频时间移位处理，是模拟音频和视频的同步误差，选取不同场景的视频，音频相对于各视频进行不同时间的移位；所述音频和字幕时间移位处理，是模拟音频和字幕的同步误差，选取电影片段，音频相对于字幕进行不同时间的移位；所述视频增加缓冲处理，对选取的不同场景的视频分别插入不同时间的缓冲；所述对视频同时添加音频和视频的同步误差、音频和字幕的同步误差、缓冲时间，即选取有字幕的视频，在视频中同时加入音频和视频的同步误差、音频和字幕的同步误差、缓冲时间进行处理；

所述步骤S3，通过对主观评价的数据结果的分析获得同步误差以及缓冲时间与主观质量之间的数学关系模型的具体实现方式为：

所述步骤S4，构建同时出现音频和视频同步误差、音频和字幕同步误差、缓冲时间这三个因素对人的主观质量的关系模型的具体实现方式为：

F＝A*y₁+B*y₂+C*y₃+D

以下为本发明的具体实施过程。

本发明的综合同步误差和缓冲时间与主观质量的关系模型建立方法：首先对不同场景的视频进行音频和视频时间移位，音频和字幕时间移位，添加持续时间不同的缓冲。其次，整合音频和视频的同步误差，音频和字幕的同步误差，缓冲时间到一个视频当中。为了防止视觉疲劳，产生音频和视频同步误差的视频播放时间和音频字幕同步误差视频的播放时间都控制在15秒，添加缓冲的视频的播放时间为30-38秒。对处理好的视频按照随机的顺序进行整合，组合成四个视频片段，在视频播放开始的时候，会有提示说开始播放视频，其中每个片段中播放完一个小视频就会提醒测试者进行打分。

具体实验过程为：基于PC机对多组视频进行主观评价，首先测试者在评分表格上填写个人信息，然后在计算机上打开视频文件，进行主观评价测试，20名非专业测试者参加，通过播放视频的提示，对视频进行主观评分，只有视频播放结束的时候才允许打分。要求评分在0～9之间，系统预留10s的时间进行评分。当评分时间结束后，视频自动进行播放下一个测试视频，一个视频片段播放结束后有10分钟的休息时间。重复上述过程，直至所有视频序列都评价结束，观测者给出所有评分，从而完成视频质量的主观评价。

参见图1，视频质量主观评价的具体过程可以为：把制作好的四个视频片段：音频和视频同步误差，音频和字幕同步误差，添加缓冲处理，综合前面提到的三个因素到一个视频当中。把这四个视频片段存储到PC机上，给测试者分发评分表格，在评分表格上填写个人信息，20名非专业观测者进行试验，采用九级制评分等级对全部视频进行评价打分，根据ITU-TP.911的建议，设置观看环境，测试者每看完一个视频片段休息10分钟的时间。收集主观评价的全部数据结果，对数据进行分析处理，最后得到数学模型即同步误差和缓冲时间与主观质量评价的映射模型。

其中，一种数学模型即综合同步误差和缓冲时间与主观质量评价的关系模型实现方式可具体为：

步骤1、视频的预处理，其包括，音频和视频的时间移位处理、音频和字幕的时间移位处理、视频添加缓冲处理以及对视频同时添加音频和视频同步误差，音频和字幕同步误差，缓冲持续时间这三个因素。

所述的音频和视频时间移位处理，是模拟音频和视频的同步误差，选取7个不同场景的视频，音频相对于视频进行不同时间的移位。

所述的音频和字幕时间移位处理，是模拟音频和字幕的同步误差。选取2个有中文字幕的外国电影片段(说缅甸语和土耳其语)，音频相对于字幕进行不同时间的移位，

所述的视频增加缓冲处理，是对选取5个不同场景的视频，在这些视频中分别插入不同时间的缓冲。

所述的对视频同时添加音频和视频的同步误差、音频和字幕的同步误差、缓冲这三者因素是：选取有字幕的视频，在视频中同时加入这三个因素进行处理。同步误差时间和缓冲时间是对前面提到移位时间和缓冲时间进行组合，从中随机抽取20组数据，根据20组数据的移位时间和缓冲时间对视频进行处理。

步骤2、视频质量主观评价处理，采用ITU-T P.911建议的9个等级绝对等级评分(ACR,absolute category rating)对每个场景进行评分，计算出每个视频场景中每个同步误差以及缓冲时间对应的平均主观意见分，完成视频质量主观评价，得到主观评价结果；

步骤3、通过对评价结果的分析获得同步误差以及缓冲时间与主观质量之间的数学关系模型：

步骤4、综合音视频同步、音频和字幕同步，缓冲这三个因素的评价处理，基于步骤1,2,3，构建同时出现音频和视频同步误差，音频和字幕同步误差和缓冲时间这三个因素对人的主观感知的影响模型：

获得同步误差以及缓冲时间与主观质量之间的映射关系的步骤进一步包括：

构建同时出现音频和视频同步误差，音频和字幕同步误差和缓冲时间这三个因素对人的主观感知的影响模型的处理步骤进一步包括：

F＝A*y₁+B*y₂+C*y₃+D

参见图2对一种综合同步误差和缓冲时间与主观质量评价的关系模型进一步作一下说明：

1、具体的视频场景的选择和同步误差为：

S01，模拟音频和视频同步误差：选取汉语(Recitation_Chinese)、英语(ClassTalk_English)、缅甸语(TalkingWomen_Hindi)、篮球比赛(NBALive_Chinese)、独唱(Singing_Chinese)、音效快(MeteorStrike)和音效慢(IntoTheWild)的视频，将这些视频的音频进行移位，音频的移位时间分别为±560ms、±480ms、±400ms、±320ms、±240ms、±160ms、±80ms和0ms。其中+表示音频播放时间提前于视频，-，则相反。

S02，模拟音频和字幕同步误差：选取讲英语(Chatting_English)以及土耳其语(Chatting_Turkish)的视频，统一是中文字幕。将测试的字幕进行移位，移位的时间分别为：±960ms、±720ms、±480ms、±240ms和0ms。

S03，模拟视频缓冲：选取纪录片(ArchaeologyDocumentary)、唱跳音乐(DancingSingers)、访谈节目(Interview)、武打片(KungfuFight)和篮球比赛(BasketballGame)，并且在这些视频中分别插入8s、4s、2s、1s和0s的缓冲时间。

S04，模拟音频和视频同步误差，音频和字幕同步误差，视频缓冲同时出现在一个视频当中：选取讲英语(Chatting_English)以及土耳其语(Chatting_Turkish)的视频，随机选取音视频同步，音频和字幕同步，缓冲的时间对视频进行制作进行实验。

以上对视频的移位和缓冲处理都是运用FFMPEG对视频进行处理。运用FFMPEG对音频和视频以及音频和字幕进行分离，然后根据S01和S02的移位时间进行组合。同样运用FFMPEG在要插入缓冲的位置提取一帧图片进行制作不同时间长度的缓冲，然后把缓冲插入到该位置当中。

2、具体数据处理过程，其包括观察者的筛选，主观评价数据处理。其中，对观察者的筛选包括：

首先用β₂测试(通过计算函数的峰态系数，即四阶动差与二阶动差平方的比值)确定测试演示的这种评分分布正常与否。如果β₂在2和4之间，则这一分布被视为正常。对于每次演示，每一观察者的评分u_ijkr必须与平均值u_ijkr,加上相关标准差S_jkr乘以2(若属正常)或乘以20(若属异常)，也就是与P_jkr相比较，并与相关平均值减去同样的标准差乘以2或乘以20，也就是与Q_jkr相比较。每当发现观察者的评分高于P_jkr，与每一观察者Pi相关的计数仪就递增。同样，每当发现观察者的评分低于Q_jkr，与每一观察者Qi相关的计数仪就递增。最后，必须计算下面两个比值：P_i+Q_i除以每一观察者在整个测试阶段内的总评分次数，以及P_i-Q_ii除以P_i+Q_i得出的绝对值。如果第一个比值大于5％而第二个比值小于30％，则观察者i必须舍弃。运用该方法舍弃了2个测试者。

对主观数据的操作包括：对数据按照步骤a1进行预处理得到y，分别分析音频和视频同步误差，音频和字幕同步误差和缓冲这三个因素得到的y值和移位、缓冲时间的数学关系，以及建立综合这三个因素和主观感知的数学模型。

其中分析音频和视频移位，音频和字幕移位和缓冲的y值和移位、缓冲时间的数学关系，确定模型过程包括：

分析数据建立了4个可能模型：

y＝(a*|x|+1)^-b,a＞0,b＞0

模型中x代表同步误差和缓冲时间，对以上4个公式进行拟合，得到拟合的相关系数PLCC,KROCC,SROCC和均方误差MSE，选出相关系数较高和均方误差较低的模型，其中其中Y表示观看者的主观评分值，Y'表示拟合值。各个变量的意义如下：(y₁,y₁'),(y₂,y'₂)...(y_n,y'_n)是Y和Y'的数据对，若y_i＞y_j且y_i'＞y_j'或者y_i＜y_j且y_i'＜y_j'则称呼这样的对子是一致的，它们的个数记为P。y_i＞y_j且y_i'＜y_j'或者y_i＜y_j且y_i'＞y_j'则称呼这样的对子不一致的，它们的个数记为Q。若y_i＝y_j且y_i'＞y_j'或者y_i＝y_j且y_i'＜y_j'，这样的对子个数记为Y₀。若y_i＞y_j且y_i'＝y_j'或者y_i＜y_j且y_i'＝y_j'，这样的对子个数记为Y₀'。是表示对Y和Y'中的n组数据进行等级划分，值最高的划分为1，最低的划分为n。其中和分别为Y和Y'在完成等级划分之后的等级平均值。u_i和v_i分别对相应数据对的等级划分。其中y_i和y_i'分别是Y和Y'的数据对。经过拟合之后，选出PLCC,KROCC,SROCC接近于1，MSE接近于0的数学模型。结果选出a＞0,b＞0，a，b值如表1：

表1不同场景视频的a，b值

建立综合这三个因素和主观感知的数学模型过程包括：

将20组视频中的同步误差和缓冲时间代入到模型a＞0,b＞0，其中a，b的选择如表1所示，得到y₁，y₂，y₃。

对主观意见分进行处理，分析处理数据，创建两个模型

F＝A*y₁+B*y₂+C*y₃+D

根据留出法，进行三次留出法的相关系数的比较选出最佳模型

F＝A*y₁+B*y₂+C*y₃+D

其中F是平均意见分经过步骤a1的预处理方式之后的值。A，B，C，D是三次留出法中训练集预测系数的平均值。

对三次留出法的系数进行平均得到模型：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种综合同步误差和缓冲时间与主观质量的关系模型建立方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的综合同步误差和缓冲时间与主观质量的关系模型建立方法，其特征在于，所述步骤S1中，所述音频和视频时间移位处理，是模拟音频和视频的同步误差，选取不同场景的视频，音频相对于各视频进行不同时间的移位；所述音频和字幕时间移位处理，是模拟音频和字幕的同步误差，选取电影片段，音频相对于字幕进行不同时间的移位；所述视频增加缓冲处理，对选取的不同场景的视频分别插入不同时间的缓冲；所述对视频同时添加音频和视频的同步误差、音频和字幕的同步误差、缓冲时间，即选取有字幕的视频，在视频中同时加入音频和视频的同步误差、音频和字幕的同步误差、缓冲时间进行处理。

3.根据权利要求2所述的综合同步误差和缓冲时间与主观质量的关系模型建立方法，其特征在于，所述步骤S3，通过对主观评价的数据结果的分析获得同步误差以及缓冲时间与主观质量之间的数学关系模型的具体实现方式为：

4.根据权利要求3所述的综合同步误差和缓冲时间与主观质量的关系模型建立方法，其特征在于，所述步骤S4，构建同时出现音频和视频同步误差、音频和字幕同步误差、缓冲时间这三个因素对人的主观质量的关系模型的具体实现方式为：

F＝A*y₁+B*y₂+C*y₃+D