CN111479105B

CN111479105B - 一种视频及音频联合质量评价方法和装置

Info

Publication number: CN111479105B
Application number: CN202010171567.0A
Authority: CN
Inventors: 翟广涛; 闵雄阔; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-06-04
Anticipated expiration: 2040-03-12
Also published as: CN111479105A

Abstract

本发明提供了一种视频及音频联合质量评价方法，包括：利用视频质量评价模型预测视频质量，得到视频预测质量分数Q_v及视频预测质量特征f_v；利用音频质量评价模型预测音频质量，得到音频预测质量分数Q_a及音频预测质量特征f_a；对视频预测质量分数Q_v及音频预测质量分数Q_a分别进行归一化处理，得到归一化的视频预测质量分数

及音频预测质量分数

融合归一化的视频预测质量分数

及音频预测质量分数

或，融合视频预测质量特征f_v及音频预测质量特征f_a，进而得到预测的视频及音频联合质量分数Q_av或特征f_av。同时提供了一种视频及音频联合质量评价装置。利用本发明提供的方法和装置，可有效地评价音频和视频的总体体验质量。

Description

一种视频及音频联合质量评价方法和装置

技术领域

本发明涉及多媒体质量评价技术领域，具体地，涉及一种视频及音频联合质量评价方法和装置。

背景技术

近年来，多媒体质量评价吸引了音频处理和视频处理等领域众多研究者的关注。在过去的几十年间，研究者们提出了大量的客观质量评价算法。Lin及Kuo在《W.Lin andC.-C.J.Kuo,“Perceptual visual quality metrics:A survey,”Journal of VisualCommunication and Image Representation,vol.22,no.4,pp.297–312,2011.》中给出了视觉质量评价的综述，Wang及Bovik在《Z.Wang and Alan C.Bovik,“Mean squared error:Love it or leave it？A new look at signal fidelity measures,”IEEE SignalProcessing Magazine,vol.26,no.1,pp.98-117,2009.》、《Z.Wang and Alan C.Bovik,“Reduced-and no-reference image quality assessment,”IEEE Signal ProcessingMagazine,vol.28,no.6pp.29-40,2011.》中给出了全参考、半参考和无参考质量评价的综述，Chikkerur等人在《S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective video quality assessment methods:A classification,review,andperformance comparison,”IEEE Transactions on Broadcasting,vol.57,no.2,pp.165-182,2011.》中给出视频质量评价的综述，而Campbell等人在《D.Campbell,E.Jones,andM.Glavin,“Audio quality assessment techniques—A review,and recentdevelopments,”Signal Processing,vol.89,no.8,pp.1489-1500,2009.》中给出了音频质量评价的综述。

尽管上述现有技术中已经提出了体验质量评价模型，但是这些现有研究大多只聚焦于单一模态的信号，尤其是单一的视觉模态信号，即图像或视频，而忽略了同样非常重要的听觉模态信号的影响。实际上，人类感知外界信息的过程是一个多模态信号相互竞争及融合的过程，不同模态信号之间会相互影响，因此我们在处理多媒体信号时也应该同时考虑多模态信号之间的相互影响。与单一模态质量评价的广泛研究相比，音视频跨模态质量评价的受关注程度更小，但是同时考虑音视频多模态的信号更加贴近实际应用情况。You等人在《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-basedquality assessment for audio–visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》中给出了音视频质量评价的综述，但是该技术中为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素，通常需要对多模态感知进行基础的研究，而这些研究通常通过一些视听觉实验来实现。总的来说，这些模型都不基于内容分析，而是直接从比特率、编码器类型等参数中估计音视频质量，因此应用场景十分受限。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对上述现有技术中存在的上述不足，本发明的目的是提供一种视频及音频联合质量评价方法和装置，该方法首先分别描述音视频两种模态各自的体验质量，然后对两种模态的预测质量进行处理后进行感知质量融合，从而构建视频及音频联合质量评价模型。

本发明是通过以下技术方案实现的。

根据本发明的第一方面，提供一种视频及音频联合质量评价方法，包括：

S1：利用视频质量评价模型预测输入视频信号的视频质量，得到视频预测质量分数Q_v及视频预测质量特征f_v；利用音频质量评价模型预测输入音频信号的音频质量，得到音频预测质量分数Q_a及音频预测质量特征f_a；

S2：对S1中得到的视频预测质量分数Q_v及音频预测质量分数Q_a分别进行归一化处理，得到归一化的视频预测质量分数

及音频预测质量分数

S3：融合S2中得到的归一化的视频预测质量分数

及音频预测质量分数

或，融合S1中得到的视频预测质量特征f_v及音频预测质量特征f_a，进而得到预测的视频及音频联合质量分数Q_av或特征f_av。

优选地，所述S1中，采用如下任意一种或任意多种视频质量评价方法作为视频质量评价模型，并对输入视频信号进行视频质量预测：

-视频多方法评价融合算法VMAF；

-时空半参考熵差指标STRRED；

-空域高效熵差指标SpEED；

-视频质量模型VQM；

-结构相似性指标SSIM；

-多尺度结构相似性指标MS-SSIM；

-像素域视觉信息保真度算法VIFP；

-特征相似性算法FSIM；

-梯度幅值相似性偏差算法GMSD。

优选地，所述S1中，采用如下任意一种或任意多种音频质量评价方法作为音频质量评价模型，并对输入音频信号进行音频质量预测：

-音频质量感知评价模型PEAQ；

-短时客观清晰度指标STOI；

-模拟语音质量客观监听算法ViSQOL；

-对数似然值比例LLR；

-信噪比SNR；

-分段信噪比segSNR。

优选地，所述S2中，对音频预测质量分数Q_a进行归一化处理的方法，包括：

对音频预测质量分数Q_a进行单调上升归一化处理的方法为：

或

对音频预测质量分数Q_a进行单调下降归一化处理的方法为：

其中，

和

分别是Q_a的已知值的边界；

归一化后的音频预测质量分数

在[0,1]范围内具有单调趋势，并与归一化后的视频预测质量分数

具有相同的单调趋势。

优选地，所述

和

分别设定为Q_a可能出现的最大值及Q_a可能出现的最小值。

优选地，所述S2中，对视频预测质量分数Q_v进行归一化处理的方法，包括：

对视频预测质量分数Q_v进行单调上升归一化处理的方法为：

或

对视频预测质量分数Q_v进行单调下降归一化处理的方法为：

其中，

和

分别是Q_v的已知值的边界；

归一化后的音频预测质量分数

在[0,1]范围内具有单调趋势，并与归一化后的音频预测质量分数

具有相同的单调趋势。

优选地，所述

和

分别设定为Q_a可能出现的最大值及Q_a可能出现的最小值。

优选地，所述S3中，对归一化的视频预测质量分数

及音频预测质量分数

进行融合，采用如下任意一种或任意多种方法：

-乘积方式的融合方法：

其中，Q_av为预测的音视频联合质量分数；

-加权乘积方式的融合方法：

其中，0≤w≤1，用于控制两种模态之间的相对权重；

-采用经过数据训练的回归器进行融合：

其中，回归器SVR利用单一模态的质量预测分数

及

以及给定的主观音视频质量真值来进行训练。

优选地，所述S3中，对视频预测质量特征f_v及音频预测质量特征f_a进行融合的方法为：

采用回归器进行融合：

f_av＝SVR(F_v，f_a)

其中，f_av为预测的音视频联合质量特征。

根据本发明的第二方面，提供一种视频及音频联合质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的视频及音频联合质量评价方法。

与现有技术相比，本发明具有如下有益效果：

本发明提供的一种视频及音频联合质量评价方法，通过选取适用于视觉信号的二维图像质量描述子(即S1中所采用的任意一种或任意多种视频质量评价方法)作为视频质量评价模型，利用视频质量评价模型预测视频质量，利用音频质量评价模型预测音频质量，对视频预测质量分数及音频预测质量分数进行归一化，融合归一化的视频预测质量分数及音频预测质量分数，或，融合视频预测质量特征及音频预测质量特征，得到预测的视频及音频联合质量，该视频及音频联合质量预测结果可有效地评价音视频总体体验质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例所提供的视频及音频联合质量评价方法总体流程框图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例所提供的一种视频及音频联合质量评价方法，如图1所示，其具体实施步骤如下所述：

第一步、利用视频质量评价模型预测视频质量

具体地，需要利用视频质量评价模型来预测视频质量，可以从现有的视频质量评价方法中选择任意一种或任意多种作为视频质量评价模型：

视频多方法评价融合算法(Video Multimethod Assessment Fusion，VMAF)；

时空半参考熵差指标(Spatio-temporal Reduced Reference EntropicDifferencing，STRRED)；

空域高效熵差指标(Spatial Efficient Entropic Differencing，SpEED)；

视频质量模型(Video Quality Model，VQM)；

结构相似性指标(Structural Similarity，SSIM)；

多尺度结构相似性指标(Multi-Scale Structural Similarity，MS-SSIM)；

像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain，VIFP)；

特征相似性算法(Feature Similarity，FSIM)；

梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation，GMSD)。

第二步、利用音频质量评价模型预测音频质量

具体需要利用音频质量评价模型来预测音频质量，可以从现有的音频质量评价方法中选择任意一种或任意多种作为音频质量评价模型：

音频质量感知评价模型(Perceptual Evaluation of Audio Quality，PEAQ)；

短时客观清晰度指标(Short-Time Objective Intelligibility measure，STOI)；

模拟语音质量客观监听算法(Virtual Speech Quality Objective ListenerVISQOL，ViSQOL)；

对数似然值比例(LogLikelihood Ratio，LLR)；

信噪比(Signal-to-Noise Ratio，SNR)；

分段信噪比(Segmental SNR，segSNR)。

第三步、对视频预测质量分数及音频预测质量分数进行归一化

以音频预测质量分数Q_a为例，具体归一化过程可以描述为

或者

其中，

和

是Q_a的已知值的边界，这两个值通常根据经验设定，可以设定为：Q_a可能出现的最大值及Q_a可能出现的最小值。以上两式选择哪一式取决于最终需要一个单调上升还是单调下降的模型。

视频预测质量分数Q_v也根据同样的方式进行归一化，此处不再赘述。

经过归一化后，视频预测质量分数和音频预测质量分数将在[0,1]范围内具有相同的单调趋势。

第四步、融合归一化的视频预测质量分数及音频预测质量分数，或，融合视频预测质量特征及音频预测质量特征，得到预测的视频及音频联合质量分数或特征

具体需要融合归一化的视频预测质量分数及音频预测质量分数得到预测的视频及音频联合质量分数，采用如下任意一种或任意多种方法；

最简单地，可以选择乘积作为融合方法：

其中，Q_av为预测的视频及音频联合质量分数；

鉴于视频模态和音频模态通常具有不同的重要程度，还可以使用如下的加权乘积作为融合方法：

其中，0≤w≤1，用于控制两种模态之间的相对权重，最佳的权重通常取决于具体的应用；

此外，还可以利用现有的数据训练一个回归器来融合单一模态的预测质量，其中一种有效的方式是训练一个支持向量机：

其中，回归器SVR需要利用单一模态的质量预测分数以及主观音视频质量真值来进行训练。

具体需要融合从上述视频质量评价模型和音频质量评价模型中导出视频预测质量特征f_v及音频预测质量特征f_a的方法为：

利用SVR，对两种模态的预测质量特征进行融合：

f_av＝SVR(f_v，f_a)。

其中，f_av为预测的视频及音频联合质量特征。

本发明另一实施例中，还提供一种视频及音频联合质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项实施例的视频及音频联合质量评价方法。

实施效果：

为了对本发明上述实施例所提供的视频及音频联合质量评价方法的有效性进行验证，可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库，包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放，都包含四级失真程度)及一种音频失真类型(压缩，包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在VideoQuality Experts Group(VQEG)Phase I Full Reference-TV test中提出的中提出的以下两种评价标准来衡量音视频质量评价方法的性能好坏：Pearson linear correlationcoefficients(PLCC)，Spearman rank order correlation coefficients(SRCC)。

具体地，将以下视频质量评价模型：

VMAF(《Z.Li,A.Aaron,I.Katsavounidis,A.Moorthy,and M.Manohara,“Toward apractical perceptual video quality metric,”The Netflix Tech Blog,2016.》)、STRRED(《R.Soundararajan and A.C.Bovik,“Video quality assessment by reducedreference spatio-temporal entropic differencing,”IEEE Trans.CircuitsSyst.Video Technol.,vol.23,no.4,pp.684–694,2012.》)、SpEED(《C.G.Bampis,P.Gupta,R.Soundararajan,and A.C.Bovik,“SpEEDQA:Spatial efficient entropicdifferencing for image and video quality,”IEEE Signal Process.Lett.,vol.24,no.9,pp.1333–1337,2017.》)、VQM(《M.H.Pinson and S.Wolf,“A new standardizedmethod for objectively measuring video quality,”IEEE Trans.Broadcast.,vol.50,no.3,pp.312–322,2004.》)、SSIM(《Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Image quality assessment:from error visibility to structural similarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》)、MS-SSIM(《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structural similarity for imagequality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》)、VIFP(《H.R.Sheikh and A.C.Bovik,“Image information and visualquality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》)、FSIM(《L.Zhang,L.Zhang,X.Mou,and D.Zhang,“FSIM:A feature similarity index forimage quality assessment,”IEEE Trans.Image Process.,vol.20,no.8,pp.2378–2386,2011.》)、及GMSD(《W.Xue,L.Zhang,X.Mou,and A.C.Bovik,“Gradient magnitudesimilarity deviation:A highly efficient perceptual image quality index,”IEEETrans.Image Process.,vol.23,no.2,pp.684–695,2014.》)

以及以下音频质量评价模型：

PEAQ(《T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITU standard for objective measurementof perceived audio quality,”J.Audio Eng.Soc.,vol.48,no.1/2,pp.3–29,2000.》)，STOI(《C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,“An algorithm forintelligibility prediction of time–frequency weighted noisy speech,”IEEETrans.Audio,Speech,Language Process.,vol.19,no.7,pp.2125–2136,2011.》)，VISQOL(《A.Hines,E.Gillen,D.Kelly,J.Skoglund,A.Kokaram,and N.Harte,“ViSQOLAudio:Anobjective audio quality metric for low bitrate codecs,”J.Acoust.Soc.Am.,vol.137,no.6,pp.EL449–EL455,2015.》)，LLR(《Y.Hu and P.C.Loizou,“Evaluation ofobjective quality measures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》)，SNR，segSNR(《J.H.Hansen andB.L.Pellom,“An effective quality evaluation protocol for speech enhancementalgorithms,”in Proc.Int.Conf.Spoken Lang.Process.,vol.7,1998,pp.2819–2822.》)

利用乘积、加权乘积、基于质量分数的SVR融合、基于质量特征的SVR融合四种融合方式，进行两两融合即可得到本发明提供的所有视频及音频联合质量评价方法。利用乘积、加权乘积融合模型的性能测试结果如表1所示，基于质量分数的SVR融合、基于质量特征的SVR融合模型的性能测试结果如表2所示，从表1和表2可以看出，本发明提供的视频及音频联合质量评价方法可以有效地估计视频和音频的总体体验质量。

表1

表2

本发明上述实施例提供的一种视频及音频联合质量评价方法，通过选取适用于视觉信号的二维图像质量描述子(即S1中采用的任意一种或任意多种视频质量评价方法)作为视频质量评价模型，利用视频质量评价模型预测视频质量，利用音频质量评价模型预测音频质量，对视频预测质量分数及音频预测质量分数进行归一化，融合归一化的视频预测质量分数及音频预测质量分数或融合视频预测质量特征及音频预测质量特征，得到预测的视频及音频联合质量，本发明上述实施例所提供的方法，可有效地评价音视频总体体验质量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。