CN111479106B

CN111479106B - 一二维质量描述子融合的音视频联合质量评价方法及终端

Info

Publication number: CN111479106B
Application number: CN202010171586.3A
Authority: CN
Inventors: 闵雄阔; 翟广涛; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2021-06-29
Anticipated expiration: 2040-03-12
Also published as: CN111479106A

Abstract

本发明提供了一种一二维质量描述子融合的音视频联合质量评价方法及终端，通过对现有的适用于二维图像信号的视觉质量描述子进行有针对性的推广和降维操作，得到适用于一维音频信号的听觉质量描述子，然后融合上述二维图像质量描述子和一维音频质量描述子，从而构建音视频联合质量评价模型。包括：选取适用于视觉信号的二维图像质量描述子，通过将二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子，融合二维图像质量描述子和一维音频质量描述子得到音视频联合质量评价模型。本发明可有效地评价音频和视频的总体体验质量。

Description

一二维质量描述子融合的音视频联合质量评价方法及终端

技术领域

本发明涉及多媒体质量评价技术领域，具体地，涉及一种基于一维及二维信号质量描述子融合的全参考音视频联合质量评价方法、终端。

背景技术

近年来，多媒体质量评价吸引了音频处理和视频处理等领域众多研究者的关注。在过去的几十年间，研究者们提出了大量的客观视觉质量评价算法。Lin及Kuo给出了视觉质量评价的综述(《W.Lin and C.-C.J.Kuo,“Perceptual visual quality metrics:Asurvey,”Journal of Visual Communication and Image Representation,vol.22,no.4,pp.297–312,2011.》)，Wang及Bovik给出了全参考、半参考和无参考质量评价的综述(《Z.Wang and Alan C.Bovik,“Mean squared error:Love it or leave it？A new lookat signal fidelity measures,”IEEE Signal Processing Magazine,vol.26,no.1,pp.98-117,2009.》，《Z.Wang and Alan C.Bovik,“Reduced-and no-reference imagequality assessment,”IEEE Signal Processing Magazine,vol.28,no.6pp.29-40,2011.》)，Chikkerur等人给出视频质量评价的综述(《S.Chikkerur,V.Sundaram,M.Reisslein,and L.J.Karam,“Objective video quality assessment methods:Aclassification,review,and performance comparison,”IEEE Transactions onBroadcasting,vol.57,no.2,pp.165-182,2011.》)，而Campbell等人给出了音频质量评价的综述(《D.Campbell,E.Jones,and M.Glavin,“Audio quality assessment techniques-A review,and recent developments,”Signal Processing,vol.89,no.8,pp.1489-1500,2009.》)。

尽管这些算法取得了令人鼓舞的结果，但是它们大多对单一模态的多媒体信号的质量进行评价，如单一的图像、视频或音频，而忽略了音视频多模态信号之间的相互影响及融合。与单一模态质量评价的广泛研究相比，音视频跨模态质量评价的受关注程度更小，但是同时考虑音视频多模态的信号更加贴近实际应用情况。You等人给出了音视频质量评价的综述(《J.You,U.Reiter,M.M.Hannuksela,M.Gabbouj,and A.Perki,“Perceptual-basedquality assessment for audio–visual services:A survey,”Signal Processing:Image Communication,vol.25,no.7,pp.482-501,2010.》)。为了研究视听觉信号之间的相互影响以及其它影响视听质量评价的因素，通常需要对多模态感知进行基础的研究，而这些研究通常通过一些视听觉实验来实现。总的来说，这些模型都不基于内容分析，而是直接从比特率、编码器类型等参数中估计音视频质量，因此应用场景十分受限。

目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

针对现有技术中存在的上述不足，本发明的目的是提供一种基于一维及二维质量描述子融合的全参考音视频联合质量评价方法、终端，该方法及终端通过对现有的适用于二维图像信号的视觉质量描述子进行一系列有针对性的推广和降维操作，来设计适用于一维音频信号的听觉质量描述子，然后融合上述二维图像质量描述子和一维音频质量描述子，从而构建音视频联合质量评价模型。

本发明是通过以下技术方案实现的。

一种一维及二维质量描述子融合的音视频联合质量评价方法，包括以下步骤：

S1：选取适用于视觉信号的二维图像质量描述子；

S2：将S1中选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来，得到适用于听觉信号的一维音频质量描述子；

S3：融合S1中得到的二维图像质量描述子和S2中得到的一维音频质量描述子，得到音视频联合质量评价模型，采用所述音视频联合质量评价模型进行音视频联合质量评价。

优选地，所述S1中，通过视觉质量评价方法，选择得到如下任意一个或任意多个适用于视觉信号的二维图像质量描述子：

-结构相似性指标SSIM；

-多尺度结构相似性指标MS-SSIM；

-像素域视觉信息保真度算法VIFP；

-梯度幅值相似性算法GMSM；

-梯度幅值相似性偏差算法GMSD。

优选地，所述S2中，将S1中选取的适用于视觉信号的二维图像质量描述子中所有适用于图像信号的二维操作推广并降维至适用于音频信号的一维操作，从而得到以下任意一种或任意多种适用于听觉信号的一维音频质量描述子：

-一维结构相似性指标SSIM_1D；

所述一维结构相似性指标SSIM_1D表述为：

其中，x表示参考音频信号，y表示失真音频信号，SSIM_1D(x，y)表示失真音频信号和参考音频信号之间的一维结构相似性；μ_x表示参考音频信号的局部均值，μ_y表示失真音频信号的局部均值，σ_x表示参考音频信号的局部标准差，σ_y表示失真音频信号的局部标准差，σ_xy表示参考音频信号和失真音频信号的局部协方差，C₁和C₂分别为一个常数；

-一维多尺度结构相似性指标MS-SSIM_1D：

所述一维多尺度结构相似性指标MS-SSIM_1D表述为：

其中，x_s，y_s，s＝1，...，5分别为原始尺度及依次两倍下采样的参考音频信号和失真音频信号，w_s为每个尺度的权重，SSIM_1D计算两组一维音频信号之间的一维结构相似性指标；

-一维像素域视觉信息保真度算法VIFP_1D：

所述一维像素域视觉信息保真度算法VIFP_1D表述为：

其中，IF_x表示参考音频信号的信息量，IF_y表示失真音频信号的信息量；

-一维梯度幅值相似性算法GMSM_1D：

一维梯度幅值相似性算法GMSM_1D表述为：

其中，t＝1，...，T表示音频样本的索引，GMS_1D表示一维梯度幅值相似性；

其中，c表示一个根据音频样本动态范围设定的常数，m_x(t)及m_y(t)分别表示一维音频信号x及y的梯度幅值

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中，e＝[10-1]表示一个一维梯度算子；

-一维梯度幅值相似性偏差算法GMSD_1D：

所述一维梯度幅值相似性偏差算法GMSD_1D表述为：

GMSD_1D＝std(GMS_1D(t))，

其中，std表示计算一维信号GMS_1D(t)所有样本的标准差，GMS_1D表示一维梯度幅值相似性。

优选地，所述一维结构相似性指标SSIM_1D中，参数x，y，SSIM_1D(x，y)，μ_x，μ_v，σ_x，σ_y，σ_xy均为一维音频，其中μ_x，μ_y，σ_x，σ_y，σ_xy采用一维的局部时域窗计算得到，C₁，C₂两个常数根据音频信号的动态范围进行相应调整。

优选地，所述一维像素域视觉信息保真度算法VIFP_1D中，采用一维的局部时域窗计算音频的局部均值、方差、及协方差，并将所有二维卷积操作替换为一维卷积操作。

优选地，所述步骤S3中，融合S1中得到的二维图像质量描述子及S2中得到的相对应的一维音频质量描述子，得到以下任意一个或任意多个音视频联合质量评价模型：

-视听结构相似性指标AVSSIM；

-视听多尺度结构相似性指标AVMSSSIM；

-视听像素域视觉信息保真度算法AVIFP；

-视听梯度幅值相似性算法AVGMSM；

-视听梯度幅值相似性偏差算法AVGMSD。

优选地，所述二维图像质量描述子与所述一维音频质量描述子的融合过程为：

其中，Q_2D是利用二维图像质量描述子计算得出的视频质量；Q_1D是利用相对应的一维音频质量描述子计算得出的音频质量；Q_av为融合后的最终的音视频总体质量；w用于控制二维质量描述子和一维质量描述子之间的相对权重。

根据本发明的另一个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

与现有技术相比，本发明具有如下有益效果：

本发明提供的基于一维及二维质量描述子融合的全参考音视频联合质量评价方法及终端，通过选取适用于视觉信号的二维图像质量描述子，通过将选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子，融合二维图像质量描述子和一维音频质量描述子得到音视频联合质量评价模型等步骤，可有效地评价音视频总体体验质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例所提供的基于一维及二维信号质量描述子融合的全参考音视频联合质量评价方法总体流程框图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例提供了一种基于一维及二维信号质量描述子融合的全参考音视频联合质量评价方法(简称为一维及二维质量描述子融合的音视频联合质量评价方法)，如图1所示，所述方法包括如下步骤：

第一步、选取适用于视觉信号的二维图像质量描述子

具体适用于视觉信号的二维图像质量描述子可以从现有的视觉质量评价方法中选择，得到如下任意一个或任意多个二维图像质量描述子：

结构相似性指标(Structural Similarity，SSIM)；

多尺度结构相似性指标(Multi-Scale Structural Similarity，MS-SSIM)；

像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain，VIFP)；

梯度幅值相似性算法(Gradient Magnitude Similarity Mean，GMSM)；

梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation，GMSD)。

第二步、通过将第一步选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子：

将第一步选取的适用于视觉信号的二维图像质量描述子中所有适用于图像信号的二维操作推广并降维至适用于音频信号的一维操作，从而得到以下适用于听觉信号的一维音频质量描述子：

一维结构相似性指标(SSIM_1D)；

一维多尺度结构相似性指标(MS-SSIM_1D)；

一维像素域视觉信息保真度算法(VIFP_1D)；

一维梯度幅值相似性算法(GMSM_1D)；

一维梯度幅值相似性偏差算法(GMSD_1D)；

其中：

一维结构相似性指标(SSIM_1D)可以表述为：

其中：

x表示参考音频信号，y表示失真音频信号，SSIM_1D(x，y)

表示失真音频信号和参考音频信号之间的一维结构相似性，μ_x

表示参考音频信号的局部均值，μ_y表示失真音频信号的局部均值，σ_x

表示参考音频信号的局部标准差，σ_y表示失真音频信号的局部标准差，σ_xy

表示参考音频信号和失真音频信号的局部协方差，C₁是一个常数，C₂是一个常数。

与计算图像之间的SSIM不同，在上述计算音频之间的SSIM_1D表达式中x，y，SSIM_1D(x，y)，μ_x，μ_y，σ_x，σ_y，σ_xy均为一维音频而非二维图像信号，此外需要使用一维的局部时域窗，而非二维的局部图像窗来计算μ_x，μ_y，σ_x，σ_y，σ_xy，最后C₁，C₂两个常数也应该根据音频信号的动态范围而作相应调整；

一维多尺度结构相似性指标(MS-SSIM_1D)可以表述为：

其中x_s，y_s，s＝1，...，5分别为原始尺度及依次两倍下采样的参考音频信号和失真音频信号，w_s为每个尺度的权重，SSIM_1D计算两组一维音频信号之间的一维结构相似性指标；

一维像素域视觉信息保真度算法(VIFP_1D)表达式为：

该表达式与像素域视觉信息保真度算法(Visual Information Fidelity inPixel domain，VIFP)类似，不过需要使用一维的局部时域窗，而非二维的局部图像窗来计算音频的局部均值、方差、及协方差，并且需要将所有二维卷积操作降为一维卷积操作；

一维梯度幅值相似性算法(GMSM_1D)可以表述为：

其中，c是一个根据音频样本动态范围设定的常数，m_x(t)及m_y(t)表示一维音频信号x及y的梯度幅值

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中，e＝[10-1]是一个一维梯度算子；

一维梯度幅值相似性偏差算法(GMSD_1D)可以表述为：

GMSD_1D＝std(GMS_1D(t))，

其中，std计算一维信号GMS_1D(t)所有样本的标准差，GMS_1D表示一维梯度幅值相似性。

第三步、融合第一步中得到的二维图像质量描述子和第二步中得到的一维音频质量描述子，进而得到音视频联合质量评价模型，采用该音视频联合质量评价模型进行音视频联合质量评价：

具体地，融合二维图像质量描述子及其相对应的一维音频质量描述子可以得到以下音视频联合质量评价模型：

视听结构相似性指标(Audio-Visual SSIM，AVSSIM)；

视听多尺度结构相似性指标(Audio-Visual MS-SSIM，AVMSSSIM)；

视听像素域视觉信息保真度算法(Audio-Visual VIFP，AVIFP)；

视听梯度幅值相似性算法(Audio-Visual GMSM，AVGMSM)；

视听梯度幅值相似性偏差算法(Audio-Visual GMSD，AVGMSD)；

上述二维图像质量描述子及一维音频质量描述子的融合过程如下：

其中，Q_2D是利用SSIM、MS-SSIM、VIFP、GMSM以及GMSD中的一种或多种二维图像质量描述子计算得出的视频质量；Q_1D是相对应的利用SSIM_1D、MS-SSIM_1D、VIFP_1D、GMSM_1D以及GMSD_1D中的一种或多种一维音频质量描述子计算得出的音频质量；Q_av为融合后的最终的音视频总体质量，即AVSSIM，AVMSSSIM，AVIFP，AVGMSM以及AVGMSD；w用于控制二维质量描述子和一维质量描述子之间的相对权重。

实施效果：

为了对本发明上述实施例中得到的视听结构相似性指标(AVSSIM)、视听多尺度结构相似性指标(AVMSSSIM)、视听像素域视觉信息保真度算法(AVIFP)、视听梯度幅值相似性算法(AVGMSM)、视听梯度幅值相似性偏差算法(AVGMSD)的有效性进行验证，可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库，包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放，都包含四级失真程度)及一种音频失真类型(压缩，包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video Quality ExpertsGroup(VQEG)Phase I Full Reference-TV test中提出的中提出的以下两种评价标准来衡量音视频质量评价方法的性能好坏：Pearson linear correlation coefficients(PLCC)，Spearman rank order correlation coefficients(SRCC)。

AVSSIM、AVMSSSIM、AVIFP、AVGMSM、及AVGMSD的性能测试结果如表1所示，从表中可以看出，上述算法均可以有效地估计视频及音频的总体体验质量。除了AVSSIM、AVMSSSIM、AVIFP、AVGMSM、及AVGMSD方法外，实验将SSIM_1D、MS-SSIM_1D、VIFP_1D、GMSM_1D、及GMSD_1D和现有的主流二维图像质量描述子，如VMAF(《Z.Li,A.Aaron,I.Katsavounidis,A.Moorthy,andM.Manohara,“Toward a practical perceptual video quality metric,”The NetflixTech Blog,2016.》)、STRRED(《R.Soundararajan and A.C.Bovik,“Video qualityassessment by reduced reference spatio-temporal entropic differencing,”IEEETrans.Circuits Syst.Video Technol.,vol.23,no.4,pp.684–694,2012.》)、SpEED(《C.G.Bampis,P.Gupta,R.Soundararajan,and A.C.Bovik,“SpEEDQA:Spatial efficiententropic differencing for image and video quality,”IEEE Signal Process.Lett.,vol.24,no.9,pp.1333–1337,2017.》)、VQM(《M.H.Pinson and S.Wolf,“A newstandardized method for objectively measuring video quality,”IEEETrans.Broadcast.,vol.50,no.3,pp.312–322,2004.》)、SSIM(《Z.Wang,A.C.Bovik,H.R.Sheikh,and E.P.Simoncelli,“Image quality assessment:from error visibilityto structural similarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》)、MS-SSIM(《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structuralsimilarity for image quality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》)、VIFP(《H.R.Sheikh and A.C.Bovik,“Imageinformation and visual quality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》)、FSIM(《L.Zhang,L.Zhang,X.Mou,and D.Zhang,“FSIM:A featuresimilarity index for image quality assessment,”IEEE Trans.Image Process.,vo1.20，no.8，pp.2378-2386，2011.》)、及GMSD(《W.Xue，L.Zhang，X.Mou，and A.C.Bovik，“Gradient magnitude similarity deviation：A highly efficient perceptual imagequality index，”IEEE Trans.Image Process.，vol.23，no.2，pp.684-695，2014.》)，进行了两两融合。相应的性能测试结果如表2所示，从表中可以看出本发明上述实施例提供的基于一维及二维质量描述子融合的音视频联合质量评价方法能够有效地评价音频和视频的总体体验质量。

表1

	SRCC	PLCC
			AVSSIM	0.9077	0.9353
AVIFP	0.8822	0.9010
			AVMSSIM	0.8925	0.9211
AVGMSD	0.9151	0.9300
			AVGMSM	0.8896	0.9047

表2

基于本发明实施例所提供的基于一维及二维质量描述子融合的音视频联合质量评价方法，本发明实施例同时提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

本发明上述实施例提供的一种基于一维及二维质量描述子融合的音视频联合质量评价方法，通过选取适用于视觉信号的二维图像质量描述子，通过将选取的二维图像质量描述子中所有二维操作推广并降维至一维操作来设计适用于听觉信号的一维音频质量描述子，融合二维图像质量描述子和一维音频质量描述子得到音视频联合质量评价模型等步骤，可有效地评价音视频总体体验质量。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种一二维质量描述子融合的音视频联合质量评价方法，其特征在于，包括以下步骤：

S1：选取适用于视觉信号的二维图像质量描述子；

S2：将S1中选取的二维图像质量描述子中所有二维操作推广并降维至一维操作，得到适用于听觉信号的一维音频质量描述子；

S3：融合S1中得到的二维图像质量描述子和S2中得到的一维音频质量描述子，得到音视频联合质量评价模型，采用所述音视频联合质量评价模型进行音视频联合质量评价；

所述S1中，通过视觉质量评价方法，选择得到如下任意一个或任意多个适用于视觉信号的二维图像质量描述子：

-结构相似性指标SSIM；

-多尺度结构相似性指标MS-SSIM；

-像素域视觉信息保真度算法VIFP；

-梯度幅值相似性算法GMSM；

-梯度幅值相似性偏差算法GMSD；

所述S2中，将S1中选取的适用于视觉信号的二维图像质量描述子中所有适用于图像信号的二维操作推广并降维至适用于音频信号的一维操作，从而得到以下任意一种或任意多种适用于听觉信号的一维音频质量描述子：

-一维结构相似性指标SSIM_1D；

所述一维结构相似性指标SSIM_1D表述为：

其中，x表示参考音频信号，y表示失真音频信号，SSIM_1D(x,y)表示失真音频信号和参考音频信号之间的一维结构相似性；μ_x表示参考音频信号的局部均值，μ_y表示失真音频信号的局部均值，σ_x表示参考音频信号的局部标准差，σ_y表示失真音频信号的局部标准差，σ_xy表示参考音频信号和失真音频信号的局部协方差，C₁和C₂分别为一个常数；

-一维多尺度结构相似性指标MS-SSIM_1D：

所述一维多尺度结构相似性指标MS-SSIM_1D表述为：

其中，x_s,y_s分别表示参考音频信号和失真音频信号，下标s＝1,…,5表示五个不同的尺度，分别为原始尺度以及依次两倍下采样得到的四个尺度，w_s为每个尺度的权重，SSIM_1D计算两组一维音频信号之间的一维结构相似性指标；

-一维像素域视觉信息保真度算法VIFP_1D：

所述一维像素域视觉信息保真度算法VIFP_1D表述为：

-一维梯度幅值相似性算法GMSM_1D：

一维梯度幅值相似性算法GMSM_1D表述为：

其中，t＝1,…,T表示音频样本的索引，GMS_1D表示一维梯度幅值相似性；

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

x(t)为参考音频信号，y(t)为失真音频信号；

其中，e＝[1 0 -1]表示一个一维梯度算子；

-一维梯度幅值相似性偏差算法GMSD_1D：

所述一维梯度幅值相似性偏差算法GMSD_1D表述为：

GMSD_1D＝std(GMS_1D(t))，

其中，std表示计算一维信号GMS_1D(t)所有样本的标准差，GMS_1D表示一维梯度幅值相似性；

所述步骤S3中，融合S1中得到的二维图像质量描述子及S2中得到的相对应的一维音频质量描述子，得到以下任意一个或任意多个音视频联合质量评价模型：

-视听结构相似性指标AVSSIM；

-视听多尺度结构相似性指标AVMSSSIM；

-视听像素域视觉信息保真度算法AVIFP；

-视听梯度幅值相似性算法AVGMSM；

-视听梯度幅值相似性偏差算法AVGMSD；

所述二维图像质量描述子与所述一维音频质量描述子的融合方法为：

2.根据权利要求1所述的一二维质量描述子融合的音视频联合质量评价方法，其特征在于，所述一维结构相似性指标SSIM_1D中，参数x，y，SSIM_1D(x,y)，μ_x，μ_y，σ_x，σ_y，σ_xy均为一维音频，其中μ_x，μ_y，σ_x，σ_y，σ_xy采用一维的局部时域窗计算得到，C₁，C₂两个常数根据音频信号的动态范围进行相应调整。

3.根据权利要求1所述的一二维质量描述子融合的音视频联合质量评价方法，其特征在于，所述一维像素域视觉信息保真度算法VIFP_1D中，采用一维的局部时域窗计算音频的局部均值、方差、及协方差，并将所有二维卷积操作替换为一维卷积操作。

4.一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行权利要求1至3中任一项所述的方法。