CN103283239B

CN103283239B - 基于数据包丢失可见度的连续估计的目标视频质量评估方法和设备

Info

Publication number: CN103283239B
Application number: CN201180060011.3A
Authority: CN
Inventors: 萨瓦斯·阿伊罗普洛斯; 伯恩哈德·费坦恩; 玛丽-内日·加西亚; 彼得·利斯特; 亚历山大·拉克
Original assignee: Deutsche Telekom AG
Current assignee: Deutsche Telekom AG
Priority date: 2010-12-10
Filing date: 2011-09-02
Publication date: 2016-10-05
Anticipated expiration: 2031-09-02
Also published as: BR112013014367A2; KR20140008508A; BR112013014367B1; KR101857842B1; US9232217B2; EP2649801A1; EP2649801B1; JP6022473B2; HRP20150481T1; CN103283239A; WO2012076203A1; HUE026522T2; US20130271668A1; JP2014502113A; ES2541282T3; PL2649801T3

Abstract

本发明提供了一种在接收器侧评估传输视频信号序列质量的方法和设备，该方法包括以下步骤：a）捕获输入视频比特流并将其提供给视频比特流分析器；b）通过比特流分析器从捕获的输入视频比特流提取至少一个特征或一组特征；c）提供提取的特征或一组特征给数据包丢失可见度估计模块；d）通过为特定时间间隔内发生的每个数据包丢失事件分配连续估计，通过数据包丢失可见度估计模块，确定视频信号传输期间发生的数据包丢失可见度；e）组合通过估计模块确定的数据包丢失可见度估计和提取的至少一个特征或一组特征，评估传输视频信号序列的总体质量Q。

Description

基于数据包丢失可见度的连续估计的目标视频质量评估方法和设备

技术领域

本发明涉及基于数据包丢失可见度分析的视频质量评估方法和设备，所述数据包丢失可能在通过容易出错的网络传输视频序列期间发生。

背景技术

在过去的几年中，视频内容传递的激增已使目标视频质量评估方法的发展成为必要。已经明显的是，定义服务质量(QoS)的网络参数不足以估计通常称为体验质量(QoE)的用户感知服务质量。质量估计方法通常支持与视频信号编码(压缩，Q_cod)有关的质量和传输期间由于数据包丢失引起的质量(Q_trans)的区别估计。这是IP网络的固有性质，即IP数据包可能丢失(主要由于网络中一些点上的时间过载)。一些这样的丢失对于客户几乎是不可见的，而其它丢失可导致视频质量严重下降。即使防备这些丢失的对策是IPTV分布系统的一部分，这些方法永远不能保证绝对的补救。例如，重发请求可能需要太长时间，或重发数据包本身可能丢失。因此总是有非零的概率，即碎片比特流传输给最终用户装置。这些进而可导致重构视频中可见或可听的降质。测量类别因此也可包括表示丢失概率的值。这类值可包括“数据包丢失率”和“丢失事件的突发性”的表达式。在“Y.Liang，et al.“Analysis of Packet Loss for Compressed Video:Effect ofBurst Losses and Correlation between Error Frames”IEEE Trans.On Circuitsand Systems for Video Technology,vol.18,no.7,Jul.2008”中，调查了突发丢失(burst loss，连续丢失)对视频质量的影响。其显示，丢失模式对总体失真具有重要影响，突发丢失比个别丢失具有更严重的影响。然而，该研究没有考虑来自用户的观察的感知失真，主要提出在编码器侧的失真估计，而在编码器侧并不知道实际的数据包丢失。

IPTV应用的参数视频质量模型解释由于压缩和错误传输两者引起的失真(参见，例如，K.Yamagishi and T.Hayashi，“Parametric Packet-LayerModel for Monitoring Video Quality of IPTV Services”in Proc.of IEEE Int.Conf.on Communications，2008，或M.N.Garcia and A.Raake，“Parametricpacket-layer video quality model for IPTV”Int.Conf.on Information Science，Signal Processing and their Applications(ISSPA)，Kuala-Lumpur，5May2010)。

然而，就视频序列的时空特性和数据包丢失的统计性质而言，纯粹基于报头(header-based)的模型不能精确覆盖网络故障对视觉质量的影响。因此，目标视频质量评估模型应该分析数据包丢失和视觉降质(visualdegradation)之间的关系，和事实上数据包丢失不产生等量感知降质(perceived degradation)的因素。在“S.Winker and P.Mohandas,“TheEvolution of Video Quality Measurement:From PSNR to Hybird Metrics”IEEE Trans.On Broadcasting,vol.54,no.3.Sep.2008”中提供了基于数据包、基于比特流或基于其混合的模型的不同类型的目标和它们中的每一个可用的不同信息量的总体评述。在“A.Takahashi等的“Standardisationactivities in ITU for a QoE assessment of IPTV”,IEEE CommunicationsMagazine，vol.46，no.2，Feb.2008”中提供了非参考视频质量监测算法的不同信息层的更详细的总体评述。

仅考虑二进制方式的数据包丢失分类：可见或可不见，预测数据包丢失可见度的问题已在文献中解决。在“S.Kanurnuri，P.C.Cosman，A.R.Reibman，V.A，Vaishampayan，“Modeling packet-loss visibility in MPEG-2video，”IEEE Trans.On Multimedia，vol.8，no.2，Apr.2004，pp.341-355”中，从MPEG-2比特流中提取一组特征，两种建模方法，广义线性模型(GLM)用于估计检测到错误的观察器相对数量，和确定数据包丢失是否导致可见降质的树形分类法。在“S.Kanumuri，etal.,“Predicting H.264Packet Loss Visibility using a Generalized Linear Model”in Proc.of ICIP，Oct.2006”中算法扩展到H.264/AVC视频。原先的分类扩展用于检查到双数据包丢失的效果的“S.Kanumuri,S.B.Subramanian，P.C.Cosman,A,R.Reibman，“Predicting H.264packet loss visibility using a generalized linearmodel，”in Proc.of IEEE Int.Conf.on Image Processing(ICIP),Atlanta,Georgia,Oct.2006”和提出的框架用于网络中间路由器的数据包优先化的“T.L.Lin,S.Kanurmiri,Y.Zhi,D.Poole，P.C.Cosman,and A.R Reibman，“A versatile model for packet loss visibility and its application to packetprioritization，”IEEE Trans,on Image Processing，vol.19，no.3，pp.722-735，Mar.2010”中的H.264/AVC视频。

此外，N.Staelens等人在“Viqid：A no-reference bit stream-based visualquality impairment detector，”in IEEE Workshop on Quality of MultimediaExperience，Trondheim，Norway，Jun.2010提出了用于CIF序列的以非参考比特流为基础的决策树分类法。这里，数据包丢失模式和长度对主观质量的影响仍保留为未决问题。在“Y.J.Liang,J.G.Apostolopoulos,and B.Girod，“Analysis of packet loss for compressed video：effect of burst lossesand correlation between error frames，”IEEE Trans.on Circuits and Systemsfor Video Technology，vol.18，no.7，pp.861-874，Jul.2008”中，分析了突发丢失对重构视频质量的影响，且其示出特定的丢失模式产生比隔离丢失相等量更大的降质。此外，在引起失真的建模中考虑了错误帧之间的相关性。然而，该算法仅在QCIF序列上并因此用分组化方案进行测试，其中单独的帧包含在一个数据包中。此外，不测试对主观评定的影响。

进一步地，在“Y.Liang，et al.“No-reference quality assessment forNetworked Video via Primary Analysis of the Bit-Stram”IEEE Circuits andSystems for Video Technology,vol.20,no.11,pp.1544-1554,Nov.2010”中，提出了说明由于量化和传输错误导致的降质的视频质量监测算法。数据包丢失对感知质量的影响通过发生丢失的帧的时间复杂度加权。

在“M.Mu et al.,“A discrete perceptual impact evaluation qualityassessment framework for IPTV services”,in Proc of ICME,2010”中又提出基于由于网络故障导致视频降质的集合的另一视频质量监测方法。

本发明的主要不同在于对每个数据包丢失时间的可见度分配了“可见度值”，在视频质量评估公式中进一步利用了“可见度值”以将数据包丢失对感知质量的影响考虑在内。此外，从视频流提取和由视频流计算的所采用的特征以及合并这些特征计算每个丢失的可见度估计的算法相对于现有方法是新颖的。

发明内容

本发明的目的是提供用于视频序列目标质量评估方法和设备。该目标用权利要求的特征实现。

本发明提供基于从视频比特流中提取的至少一个或一组特征，和由于容易出错的网络中视频序列传输而可发生的数据包丢失可见度连续概率估计的预测的视频序列的目标质量评估方法和设备。显然，本发明的方法是非参考比特流为基础的视频质量评估方法，因为其仅从接收的比特流中提取信息，而不需要明确的参考序列。

根据第一方面，本发明提供了在接收器侧评估传输的视频信号序列质量的方法，所述方法包括以下步骤：

a)捕获输入视频比特流并将其提供给视频比特流分析器；

b)通过比特流分析器从捕获的输入视频比特流提取至少一个特征或一组特征；

c)将提取的特征或一组特征提供给数据包丢失可见度估计模块；

d)通过为特定时间间隔内发生的每个数据包丢失事件分配连续估计，通过数据包丢失可见度估计模块，确定视频信号传输期间发生的数据包丢失可见度；

e)组合通过估计模块确定的数据包丢失可见度估计和提取的至少一个特征或一组特征，评估传输视频信号序列的总体质量Q。

根据本发明，根据步骤(b)的特征提取通过部分解码视频比特流而直接执行。或者，根据步骤(b)的特征提取通过完全解码视频比特流，并通过组合来自视频信号的重构像素的信息而执行。

根据本发明的优选实施方式，步骤(e)额外加权提取特征，以反映每个数据包丢失不均匀地产生对传输视频信号序列的感知降质。

至少一个特征或一组特征选自包括下列特征的组：帧类型，运动矢量的平均幅度(AvgMv)，平均运动矢量差(AvgMvDiff)，残差能量(ResEnergy)，最大分区数(MaxPartNr)，不可解码宏块数(LostMbs)，运动矢量信息(mv)，以及宏块类型(mb type)。根据进一步的优选实施方式，使用所有这些特征的组合。

在优选实施方式中，基于提取特征“帧类型”，确定由数据包丢失而降质的帧数(ErrDur)。

该方法进一步包括，基于运动矢量信息和宏块类型为所述视频信号序列的每个画面生成二进制错误传播映射。

此外，基于错误(error，误差)传播映射和帧类型信息，确定由数据包丢失而降质的帧数(ErrDur)。

根据进一步的优选实施方式，基于二进制错误传播映射，计算由于数据包丢失引起的受损像素总数(ErrProp)。

进一步优选的是，基于运动矢量，宏块类型和残差确定由于数据包丢失和错误传播引起的失真幅度(EstErr)。

步骤(d)使用支持矢量回归技术，通过使用非线性映射函数将输入特征矢量映射到高维特征空间，并构建特征空间中的线性模型而执行。

此外，步骤e)可组合具有确定的失真幅度的所述数据包丢失可见度估计(V)(EstErr)和计算的由于数据包丢失而受损的像素总数(ErrProp)。

该方法可进一步在步骤d)和e)之间包括估计由在视频信号序列内发生的所有数据包丢失的时间池(temporal pooling)产生的总体可见失真的步骤。

根据其第二方面，本发明提供了在接收器侧评估传输视频信号序列质量的设备，所述设备包括：

视频比特流分析器，接收捕获的输入视频比特流，并被配置用于从捕获的输入视频比特流提取至少一个特征或一组特征；

数据包丢失可见度估计模块，接收提取的特征或一组特征，所述数据包丢失可见度估计模块被配置用于通过为特定时间间隔发生的每个数据包丢失事件分配连续估计，确定在视频信号传输期间发生的数据包丢失可见度；

组合器，用于组合通过估计模块确定的数据包丢失可见度估计与提取的至少一个特征或一组特征，以评估传输视频信号序列的总体质量Q。

根据本发明，视频比特流分析器被配置为通过部分解码视频比特流直接执行特征提取。或者，视频比特流分析器被配置为通过完全解码视频比特流，并通过组合来自视频信号重构像素的信息而执行特征提取。

根据本发明的优选实施方式，组合器被配置为对提取的特征额外加权，以反映每个数据包丢失不均匀地产生对传输视频信号序列的感知降质。

根据本发明的第二方面，至少一个特征或一组特征选自包括下列特征的组：帧类型，运动矢量的平均幅度(AvgMv)，平均运动矢量差(AvgMvDiff)，残差能量(ResEnergy)，最大分区数(MaxPartNr)，不可解码宏块数(LostMbs)，运动矢量信息(mv)，以及宏块类型(mb type)。根据进一步的优选实施方式，使用所有这些特征的组合。

在优选实施方式中，该设备进一步包括被配置为基于提取特征“帧类型”，确定由数据包丢失而降质的帧数(ErrDur)的装置。

根据优选实施方式，该设备包括错误传播估计器，被配置为基于运动矢量信息和宏块类型为视频信号序列的每个画面生成二进制错误传播映射。

此外，基于错误传播映射和帧类型信息，确定由数据包丢失而降质的帧数(ErrDur)。

根据进一步的优选实施方式，错误传播估计器进一步被配置为基于二进制错误传播映射，计算由于数据包丢失引起的受损像素总数(ErrProp)。

进一步优选的是，该设备包括失真估计器，被配置为基于运动矢量、宏块类型和提取残差确定由于数据包丢失和错误传播引起的失真幅度(EstErr)。

数据包丢失可见度估计模块可进一步被配置为使用支持矢量回归技术，通过使用非线性映射函数将输入特征矢量映射到高维特征空间，并构建特征空间中的线性模型确定数据包丢失可见度。

此外，该组合器可进一步被配置为组合具有确定的失真幅度的所述数据包丢失可见度估计(V)(EstErr)和计算的由于数据包丢失而受损的像素总数(ErrProp)。

该设备可进一步被配置为在组合通过估计模块确定的数据包丢失可见度估计与提取的至少一个特征或一组特征之前，估计由在视频信号序列内发生的所有数据包丢失的时间池产生的总体可见失真。

根据本发明的方法和设备与文献中提出的方法主要有三点不同。第一，该方法不同于参数模型([1，2])，因为其利用来自比特流的信息确定目标视频质量，而不是仅基于数据包报头信息。来自比特流的提取特征实现依赖于内容的考虑，以及对视频序列时空特性的视频质量测量的自适应，并利用参数模型中忽视的人类视觉系统(HVS)的性质。

第二，每个数据包丢失的数据包丢失可见度不以二进制方式(可见或不可见)估计，而是用表示调查中的数据包丢失引起视频序列可察觉和可检测降质的可能性的连续值估计。提出方法的粒度(granularity)使得更准确预测由于网络故障引起的数据包丢失可见度。相比之下，文献中所有先前提出的方法提供数据包丢失可见度估计的二进制输出。

第三，所有的前述方法均不考虑数据包丢失可见度对感知视频质量的影响；它们仅基于从接收比特流提取的特征检查数据包丢失可见度。然而，在本发明中，数据包丢失可见度分类模块的输出被引入目标视频质量评估模块以评估比特流质量。就发明人的所有知识而言，这是第一个明确利用数据包丢失可见度估计和连续估计进行目标视频质量评估的视频质量评估方法。

附图说明

其它方面、特征和优点将从上述概要以及从下面的说明，包括附图和权利要求中明显看出。

图1示出了提出的视频质量评估模型的体系架构；

图2示出了帧如何在“画面组”(GOP)中组织用于视频编码；

图3示出在4×4整型变换应用之后，根据H.264/AVC标准和变换系数推导的宏块分区；

图4示出视频序列中四个连续帧的错误传播映射；

图5示出用于视频质量评估的本发明第二实施方式的方框图；以及

图6示出由于视频序列帧中数据包丢失引起的可见失真估计的例子。

具体实施方式

根据本发明优选实施方式的视频质量评估模型的架构在图1中示出。图1示出了基于数据包丢失事件可见度估计的目标视频质量评估优选方法和设备的方框图。具体地，其示出无参考比特流为基础的方法，其从接收的比特流提取或计算八个特征，以估计每个数据包丢失的感知影响。随后，数据包丢失可见度的提取特征和预测值用于评估视频比特流的总体质量。

在接收器端，探测器装置捕获比特流，并提取或计算用于视频质量评估的多个特征。该特征通过部分解码比特流直接提取或通过组合来自重构像素(完全解码比特流)的信息直接提取。然后，提取特征被馈送给负责确定每个数据包丢失事件可见度的模块。该模块分配在特定持续时间内发生的每个数据包丢失事件(孤立的数据包丢失或事件组合)可见度的连续估计。接着，数据包丢失可见度模块的概率估计与先前提取特征组合，以评估序列的总体质量。具体地，基于每个数据包丢失事件可见度的概率估计，在最后算法中对提取特征加权以反映每个数据包丢失不均匀地产生对传输视频信号序列的感知降质。最后，探测器装置输出视频质量预测值Q。

从比特流提取特征和计算的方法

下面描述了从比特流优选提取的特征以确定数据包丢失可见度和视频序列的目标质量。必须注意，在该实例中分析基于根据H.264/AVC视频编码标准(T.Wiegand，G.J.Sullivan，G.Bjontegaard，and A.Luthra，“Overview of the H.264/AVC video coding standard，”IEEE Trans，onCircuits and Systems for Video Technology，vol.13，no.7，Jul.2003)编码的流，但是该方法可应用于对相应特征的计算稍微修改的任何视频编码标准。

为了估计数据包丢失导致的感知降质需要计算的特性之一是所有帧(尤其是受丢失影响的帧)的“帧类型”。“帧类型”性质的可能值包括“帧内”或“关键帧”(以下称为I帧)，“预测帧”(以下称为P帧)和“双向帧”(以下称为B帧)。只有I帧可以在不参考任何先前帧信息的情况下解码。相反，P帧取决于一个或多个称为“参考帧”的前身，因为用于P帧的传输信息主要由其描述的视频帧和其参考之间的差异组成。因此，I帧或其连续P帧内丢失的数据包传播到后继帧中，即使这些后继帧不包括任何丢失数据包本身。由于这一机制，单个的数据包丢失错误可徘徊通过视频序列的较长部分，直到下一个无错误的I帧发生为止。P帧尤其是I帧中的错误因此可具有高可见度。相同参考帧机制对于B帧是正确的，但由于B帧一般不作为参考本身，B帧中的错误只会导致这单一帧中的降质。

两个连续I帧之间的视频帧链称为“画面组”(GOP)。在大多数情形中，GOP中P帧和B帧遵照或多或少的严格模式，像典型的GOP模式；“I，B，B，P，B，B，P…”。设N表示GOP长度，其是两个连续I帧之间的距离。然后，如果在特定GOP的第一I帧之后，第一数据包丢失发生t帧，则提取的第一特征是由于数据包丢失而降质的帧数，称为ErrDur。该性质计算为(见图2)：

因此，如果数据包丢失发生在第一帧(其是I帧)中，则t＝1，而由数据包丢失受损的帧数是N，其等于GOP内帧的数目。

随后，优选地计算运动矢量的平均幅度AvgMv，其反映受丢失影响的所有宏块(mb)的水平和垂直方向上的平均运动矢量。设V_n＝[V_n,x，V_n,y]表示发生数据包丢失的帧中第n个宏块的运动矢量。然后，项(term)AvgMv计算为：

A v g M v = \frac{1}{L} \sqrt{{(Σ_{l = 1}^{L} V_{l, x})}^{2} + {(Σ_{l = 1}^{L} V_{l, y})}^{2}} - - - E q . (2)

其中L是由于数据包丢失导致帧n中丢失的宏块集的基数。显然，因为用于丢失宏块的运动矢量信息无法恢复，该信息根据它们的时间邻近值估计。也就是说，对于每个丢失宏块，运动矢量信息根据先前正确接收帧中的共同定位宏块恢复。

此外，平均运动矢量差AvgMvDiff可以根据比特流计算。在H.264/AVC中，为利用运动矢量之间的冗余，仅块的运动矢量和来自相邻宏块的其预测运动矢量之间的差包括在比特流中。在具有可预测运动(例如，平移)的序列中，该特征是非常有意义的，其中平均运动可以很大，但比特流中编码的运动矢量差很小。设Vd_n＝[Vd_n,x，Vd_n,y]表示发生数据包丢失的帧中第n个宏块的运动矢量差。然后，项AvgMvDiff计算为：

A v g M v D i f f = \frac{1}{L} \sqrt{{(Σ_{l = 1}^{L} {Vd}_{l, x})}^{2} + {(Σ_{l = 1}^{L} {Vd}_{l, y})}^{2}} - - - E q . (3)

其中L是由于数据包丢失导致帧n中丢失的宏块集的基数。类似于上述的情形，因为丢失宏块的运动矢量信息无法恢复，该信息根据它们的时间邻近值估计。也就是说，对于每个丢失宏块，运动矢量信息根据先前正确接收帧中的共同定位宏块恢复。

优选地从接收视频比特流提取的另一个特征是残差能量ResEnergy，其包含在丢失宏块中，并根据预测错误的变换系数计算。设c_b,i,j，b＝0，...，3，i＝0，...，3，且j＝0，...，3表示在宏块第b个4×4块的第i排和第j列上的变换系数(见图3)。然后，残差能量计算为：

Re s E n e r g y = \frac{1}{L} Σ_{l = 1}^{L} Σ_{b = 1}^{4} Σ_{i = 1}^{3} Σ_{j = 1}^{3} c_{b, i, j}^{2} - - - E q . (4)

其中l和L如上所定义。

可提取的另一个特征是发生丢失的帧中的最大分区数，称为MaxPartNr。在H.264/AVC中，每个16×16宏块可进一步分割成用于运动估计过程的较小块，即大小为16×8，8×16或8×8的块。如果选择8×8分区大小，则每个8×8分区可进一步分成大小为8×8，8×4，4×8或4×4亮度样本(luma sample)的子分区。因此，参数MaxPartNr等于发生丢失的帧中正确接收的宏块最大分区数。如果所有的宏块擦除(也就是说，如果整个帧丢失)，则参数来源于先前接收的帧。

从接收的比特流提取的第六特征是由于数据包丢失而非解码的并需要隐藏的宏块数，以下称为LostMbs。

此外，基于运动矢量信息和宏块类型，可针对每个画面生成二进制错误传播映射，其表示由于新生错误(innovation error)或由于到预测性编码引起的相同GOP后继帧的错误传播，数据包丢失影响的每个画面中的像素。设I(x，y，k)表示第k帧在位置(x，y)的二进制错误映射值，x＝1，2，…，H，和y＝1，2，…，W，其中H，W分别是视频序列每个帧的高度和宽度。此外，k＝1，...，K，其中K是包含由于数据包丢失而受损的像素帧数。由于数据包丢失而受损或参考那些区域并可能出错的那些像素值设置为一，否则该值设置为零。因此：

换句话说，对于探测器内解码器的重构图像和原始视频序列之间由于数据包丢失及其传播导致的错误而不同的所有像素，传播映射阵列中的值设置为一。错误传播映射推导的实例在图4中示出。

图4示出了视频序列中四个连续帧的错误传播映射，以说明由数据包丢失导致的初始错误如何扩散到后继帧中，所述下面的帧参考初始帧用于它们的预测。具体地，图4a中，黑暗区域对应于不能解码的区域，因为这些像素的信息包含在被擦除的数据包中。因此，解码器需要隐藏(conceal)(通常使用时间或空间邻近值)该区域从而取代丢失像素。由于隐藏不能精确地恢复原始信息，所以一些降质引入该帧。图4b图4c和图4d示出该错误如何传播到后续帧中。黑暗区域对应于参考来自初始丢失区域的信息并因此也易于出错的像素。

数据包丢失发生在第一帧中(附图中的黑暗区域表示由于数据包丢失而已经被擦除的宏块)，并传播到后继帧中，后继帧参考第一帧的影响区域用于预测处理。应该注意，在替代实施方式中，错误传播映射可在宏块级别估计，其意味着对于每个宏块而不是每个像素跟踪传播。

基于错误传播映射，由于数据包丢失导致受损像素的总数称为ErrProp，其计算为：

E r r \Pr o p = Σ_{k = 1}^{K} Σ_{x = 1}^{H} Σ_{y}^{W} I (x, y, k) - - - E q . (6)

最后，可基于运动矢量、宏块类型和残差提取称为EstErr的另一个特征，以量化由于数据包丢失和由于错误传播引起的失真幅度，这使以非参考方式引起均方的误差(MSE)的估计成为可能。估计引起的失真的方法在本发明保护范围之外，因此可使用技术人员已知的任何方法，例如M.Naccari，M.Tagliasacchi，和S.Tubaro在“No-reference video qualitymonitoring for H.264/AVC coded video”IEEE Trans，on Multimedia，vol.11，no.5，pp.932-946，Aug.2009提出的方法。

在示出的实例中，对于在GOP中发生的每个数据包丢失提取前述八个特征。当多于一个的数据包丢失出现在相同GOP中时，则在优选实施方式中最大值选择用于ErrorDur和MaxPartNr，而对于其它特征，它们的总和视为最后特征。然而，在其它实施方式中，从GOP内每个数据包丢失提取的特征可以不同地组合，例如通过计算平均值、中值，或任何其它函数。因此，在每个GOP内，提取下面的特征矢量用于数据包丢失事件可见度的估计：

f＝[ErrDur,AvgMV,AvgMvDiff,ResEnergy,MaxPartNr,LostMbs,ErrProp,EstErr] Eq.(7)

必须注意，在本发明的其它实施方式中，可以使用本发明前述特征的任何数量和组合。当不需要计算一些特征时，这大体是有意义的(例如，由于复杂性原因或成本执行)。

使用支持矢量回归的数据包丢失可见度的连续估计

对于基于每个数据包丢失事件的提取特征的数据包丢失可见度的分类，使用了基于支持矢量回归(SVR)的技术。使用这种方法，输入特征矢量使用非线性映射函数映射到高维特征空间，然后在该特征空间构造线性模型。该算法以两个阶段操作：训练阶段，在该阶段训练数据用于调整模型参数；以及估计阶段，在该阶段模型输出用于输入特征矢量的预测值。下面详细描述这两个阶段。

在训练阶段，由{(f₁，y₁)，(f₂，y₂),…,(f_n,y_n)，}，f_i∈R⁸，y_i∈R，i＝1，...，n，表示的一组n个训练数据用于估计最大化其预测准确性的模型参数，其中f_i是Eq.(7)中描述的特征矢量，y_i是目标输出值。训练SVR算法的方法在本发明的保护范围之外，因此可以使用技术人员已知的任何方法。具有输入训练数据的训练算法的结果产生一组参数计算，α_i，i＝1，...，n，β_i，i＝1，...，n，且b∈R，其在估计阶段使用。在本发明中，b值选择等于1.27。然而，可以使用任何其它值。

在估计阶段，算法接收输入特征矢量f(如Eq.(7)中描述)，且每个丢失可见度的预测值V给定如下：

V (f) = Σ_{i = 1}^{n} (α_{i} - β_{i}) K (f, f_{i}) + b - - - E q . (8)

其中K(.,.)是核函数，f_i，i＝1，...，n，是用作训练数据的特征矢量。在本发明中，以下函数已选择作为核函数，其也称为径向基函数(RBF)：

K (f, f_{i}) = e^{\frac{| | f - f i | |^{2}}{γ}} - - - E q . (9)

在本发明中，γ值选择等于2。此外，在其它实施方式中可使用任何其它核函数。此外，如果期望将数据包丢失分成以下两种情形之一：可见或不可见，则数据包丢失可见度的预测值V可转换成二进制值。在该情形中，数据包丢失的二进制预测值表示为V_B，其可计算为：

其中，T是将二进制值的数据包丢失可见度的连续估计分类的阈值。在本发明内，建议值是0.7，但可以使用任何其它值。

当算法仅在估计阶段操作，并不需要在新数据上训练时，可以使用存储的参数，且每个数据包丢失事件的可见度V如Eq.(8)所定义而预测。上述的提取特征值进行完善，以便它们反映每个数据包丢失的可见度预测值，并因此加权，如下面部分分析。

视频质量评估方法

提出的比特流为基础的视频质量评估模型是视频序列压缩导致的降质Q_cod和由于传输期间数据包丢失导致的降质(Q_trans)的组合。因此，总体质量给定如下：

Q＝Q₀－Q_cod－Q_trans Eq.(11)

其中Q表示序列的总体质量，而Q₀表示插入在传输链中的视频的源质量。Q_cod项计算如下：

Q_{c o d} = α_{1} . e^{α_{2} B} + α_{3} - - - E q . (12)

其中，B是视频序列的比特率，而α₁、α₂和α₃是常数。在本实例中，选择α₁、α₂和α₃的值等于89.33，－1.21和11.47。

信道引起的视觉降质项反映由数据包丢失，其传播程度以及人类视觉感知强度导致的失真。出于这个原因，Q_trans使用下面的公式：

Q_trans＝f(V_i，EstErr_i，ErrProp_i) Eq.(13)

这里，标志(index，索引)i用于表示在序列期间发生的特定单一数据包丢失事件，而f(.,.)表示任何合适函数。换句话说，因传输错误而引起的总体降质是每个数据包丢失可见度、引导到发生数据包丢失的帧中错误，以及到后继帧中的错误传播的函数。

在下文中，提出本发明的两个实施方式，用具体公式表示上述函数f(.,.)。

在第一实施方式中，Eq.(13)改写为：

Q_{t r a n s} = α_{4} \cdot \underset{i}{Σ} V_{i} \cdot {EstErr}_{i} + α_{5} \underset{i}{Σ} V_{i} \cdot E r r \Pr {op}_{i} + α_{6} \underset{i}{Σ} V_{i} \cdot {EstErr}_{i} \cdot E r r \Pr {op}_{i} - - - E q . (14)

其中α₄，α₅和α₆是由回归确定的常数，i是指每个单独数据包丢失的标志，EstErr_i和ErrProp_i是与每个数据包丢失关联的如上所述的提取特征。因此，该模型考虑到每个数据包丢失对于确定视觉降质的重要性，并利用可见度估计的输出对每个数据包丢失引起的失真加权。在本实施方式中，选择α₄，α₅和α₆的值等于0.023，0.000176和0.0000465。

在图5中示出的第二实施方式中，另一个实施采用用于Eq.(14)的函数f(.,.)。设i表示在GOP内发生的单独数据包丢失的标志。此外，设EstErr_i为在特征提取部分中如以上解释的在发生、估计第i个数据包丢失的帧中引起的失真。于是，与该数据包丢失关联的可见降质给定如下：

{VisEstErr}_{0}^{i} = V_{i} \cdot {EstErr}_{i} - - - E q . (15)

此外，设表示由第i个数据包丢失导致的帧k中受损像素数，或等价地：

N r Im {pPx}_{k}^{i} = Σ_{x = 1}^{H} Σ_{y = 1}^{W} I (x, y, k) - - - E q . (16)

其中I(x，y，k)表示在第k帧所在位置(x，y)的二进制错误映射值的值，x＝1，2，…，H和y＝1，2，…，W，其中H，W分别是视频序列每个帧的高度和宽度。然后，由于第i个数据包丢失的错误传播导致的后继帧k，k＞0中的感知降质给定如下：

{VisEstErr}_{k}^{i} = {VisEstErr}_{0}^{i} \cdot \frac{N r Im {pPx}_{k}^{i}}{N r Im {pPx}_{0}^{i}} - - - E q . (17)

这里，是由于数据包丢失事件i的新生错误(在考虑之中的受数据包丢失影响的第一帧中错误)导致的受损像素数，所述数据包丢失事件i给定相对帧标志k＝0。图6中所示，用于具有标志k的后继帧的项的计算实例。附图中，具有标志t的帧中黑暗区域对应于项而后继帧(标志t+1，…，t+m)中的黑暗区域对应于项k＝1，…，m。

然后，由第i个数据包丢失导致的称为VisEstErrⁱ的总体视觉降质可视为由于该数据包丢失而受损的所有帧K_i造成的降质的总和，因此：

{VisEstErr}^{i} = Σ_{k = 0}^{K_{i}} {VisEstErr}_{k}^{i} - - - E q . (18)

应该注意，求和从指数零开始到初始失真中的因数，如Eq.(15)所述。具体GOP内的总失真计算为在该GOP内发生的所有数据包丢失发生的失真总和，因此：

{VisEstErr}_{G O P} = \underset{i}{Σ} {VisEstErr}^{i} - - - E q . (19)

最后，设G表示序列内GOP的总数，而T表示序列的总持续时间。于是，由于传输错误导致的总失真给定如下：

{VisErr}_{S E Q} = \frac{1}{T} Σ_{g = 1}^{G} {VisEstErr}_{G O P} - - - E q . (20)

Q_trans＝f(VisErr_SEQ) Eq.(21)

在该第二类型的优选实施方式中，我们设置

Q_trans＝ν·㏒(ξ·VisErr_SEQ+1) Eq.(22)

其中ν和ξ是常数，例如，在使用质量评级为目标值的回归程序中确定。

虽然本发明在附图和前面描述中已经详细示出和描述，但这类示出和描述视为说明性或示例性的，而不是限制性的。应该理解，在下面的权利要求保护范围内，普通技术人员可做出改变和修改。具体地，本发明用来自上面和下面描述的不同实施方式的特征的任何组合覆盖更多的实施方式。

此外，在权利要求中，词“包括”不排除其他元件或步骤，而不定冠词“一”或“一个(an)”并不排除多个。单个单元可实现权利要求中记载的几个特征功能。结合属性或值的术语“基本上”、“大约”、“近似地”等也分别具体准确定义属性或值。权利要求中的任何参考标记不应解释为限制保护范围。

Claims

1.一种在接收器侧评估传输视频信号序列质量的方法，所述方法包括以下步骤：

a)捕获输入视频比特流，并将所述输入视频比特流提供给视频比特流分析器；

b)通过所述比特流分析器从捕获的所述输入视频比特流提取至少一个特征或一组特征；

c)将提取的所述特征或一组特征提供给数据包丢失可见度估计模块；

d)通过所述数据包丢失可见度估计模块利用提供的提取的所述视频比特流的特征，确定特定时间间隔内发生的每个数据包丢失事件的可见度连续概率；

e)利用通过所述数据包丢失可见度估计模块确定的所述数据包丢失可见度连续概率作为从所述视频比特流提取的至少一个特征或一组特征的加权因数，计算所述传输视频信号序列的总体质量Q的估计值；

其中，步骤d)利用选自包括下列特征的组的至少一个比特流特征：帧类型，运动矢量的平均幅度(AvgMv)，平均运动矢量差(AvgMvDiff)，残差能量(ResEnergy)，最大分区数(MaxPartNr)，不可解码宏块数(LostMbs)，运动矢量信息(mv)，宏块类型(mbtype)；以及

其中，步骤e)组合具有确定的失真幅度(EstErr)的所述数据包丢失可见度估计(V)和计算的由于数据包丢失而受损的像素总数(ErrProp)。

2.根据权利要求1所述的方法，其中，根据步骤(b)的特征提取通过部分解码所述视频比特流而直接执行，其中，“部分”指不将所述比特流解码为像素级。

3.根据权利要求1所述的方法，其中，根据步骤(b)的特征提取通过完全解码所述视频比特流，并通过组合来自所述视频信号的重构像素的信息而执行。

4.根据权利要求1至3中任一项所述的方法，其中，基于所述提取特征“帧类型”，确定由数据包丢失而降质的帧数(ErrDur)，并且所述由数据包丢失而降质的帧数(ErrDur)用于数据包丢失可见度概率的预测，并用于与所述可见度概率组合以估计数据包丢失对视觉质量的影响。

5.根据权利要求1至3中任一项所述的方法，其中，基于所述运动矢量信息和所述宏块类型为所述视频信号序列的每个画面生成二进制错误传播映射。

6.根据权利要求5所述的方法，其中，基于所述二进制错误传播映射和帧类型信息，确定由数据包丢失而降质的帧数(ErrDur)。

7.根据权利要求5所述的方法，其中，基于所述二进制错误传播映射，计算由于数据包丢失引起的受损像素总数(ErrProp)。

8.根据权利要求1至3中任一项所述的方法，其中，基于所述运动矢量、所述宏块类型和所述残差确定由于数据包丢失和错误传播引起的所述失真幅度(EstErr)。

9.根据权利要求1至3中任一项所述的方法，其中，步骤(d)使用支持矢量回归技术，通过使用非线性映射函数将包括前述特征的输入特征矢量映射到高维特征空间，并构建所述特征空间中的线性模型而执行。

10.根据权利要求1至3中任一项所述的方法，进一步在步骤d)和步骤e)之间包括估计由在所述视频信号序列内发生的所有数据包丢失的时间池产生的总体可见失真的步骤。

11.一种在接收器侧评估传输视频信号序列质量的设备，所述设备包括：

视频比特流分析器，接收捕获的输入视频比特流，并被配置用于从所述捕获的输入视频比特流提取至少一个特征或一组特征；

数据包丢失可见度估计模块，接收提取的所述特征或一组特征，所述数据包丢失可见度估计模块被配置用于通过预测特定时间间隔内发生的每个数据包丢失事件的连续可见度概率，确定在所述视频信号传输期间发生的数据包丢失可见度；

组合器，用于组合通过所述数据包丢失可见度模块确定的所述数据包丢失可见度的概率作为从所述视频比特流提取的所述至少一个特征或一组特征作为加权因数，以计算所述传输视频信号序列的总体质量Q的估计值；

其中，所述数据包丢失可见度估计模块利用选自包括下列特征的组的至少一个比特流特征：帧类型，运动矢量的平均幅度(AvgMv)，平均运动矢量差(AvgMvDiff)，残差能量(ResEnergy)，最大分区数(MaxPartNr)，不可解码宏块数(LostMbs)，运动矢量信息(mv)，宏块类型(mb type)；以及

其中，所述组合器组合具有确定的失真幅度(EstErr)的所述数据包丢失可见度估计(V)和计算的由于数据包丢失而受损的像素总数(ErrProp)。