CN111508525B

CN111508525B - 一种全参考音频质量评价方法及装置

Info

Publication number: CN111508525B
Application number: CN202010171569.XA
Authority: CN
Inventors: 闵雄阔; 翟广涛; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-05-23
Anticipated expiration: 2040-03-12
Also published as: CN111508525A

Abstract

本发明提供了一种全参考音频质量评价方法及装置，方法包括：将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作，得到适用于音频质量评价的方法；用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计，得到局部音频质量估计结果；对所述局部音频质量估计结果进行时域池化，得到音频的整体质量评价结果。本发明提供的全参考音频质量评价方法及装置，可有效地评价音频质量。

Description

一种全参考音频质量评价方法及装置

技术领域

本发明涉及多媒体质量评价技术领域，具体地，涉及一种全参考音频质量评价方法及装置。

背景技术

近年来，多媒体质量评价吸引了音频处理和图像处理等领域众多研究者的关注。根据待评价信号的类型，多媒体质量评价可以分为：图像/视频质量评价(image/videoquality assessment)和音频质量评价(audio quality assessment)。因其数量大、信息丰富等特点，图像和视频等视觉信号质量评价受到了更多研究者的关注，并提出了大量的视觉质量评价方法。

比如，Zhou Wang等人在论文《Z.Wang,A.C.Bovik,H.R.Sheikh,andE.P.Simoncelli,“Image quality assessment:from error visibility to structuralsimilarity,”IEEE Trans.Image Process.,vol.13,no.4,pp.600–612,2004.》提出了一种结构相似性指标(Structural Similarity，SSIM)。Zhou Wang等人在论文《Z.Wang,E.P.Simoncelli,and A.C.Bovik,“Multiscale structural similarity for imagequality assessment,”in Proc.IEEE Asilomar Conf.Sig.,Syst.,Comput.,2003,pp.1398–1402.》中提出了一种多尺度结构相似性指标(Multi-Scale StructuralSimilarity，MS-SSIM)。Hamid Rahim Sheikh等人在论文《H.R.Sheikh and A.C.Bovik,“Image information and visual quality,”IEEE Trans.Image Process.,vol.15,no.2,pp.430–444,2006.》中提出了一种像素域视觉信息保真度算法(Visual InformationFidelity in Pixel domain，VIFP)。Wufeng Xue等人在论文《W.Xue,L.Zhang,X.Mou,andA.C.Bovik,“Gradient magnitude similarity deviation:A highly efficientperceptual image quality index,”IEEE Trans.Image Process.,vol.23,no.2,pp.684–695,2014.》中提出了一种梯度幅值相似性算法(Gradient Magnitude Similarity Mean，GMSM)和一种梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation，GMSD)。上述方法都为图像质量评价领域的主流方法，并可以有效地估计图像或视频的视觉质量。

与视觉质量评价相比，音频质量评价领域受到的关注更少，因此该领域尚缺乏更加深入和广泛的研究。该领域内有一些音频质量评价方法，但是目前仍然缺乏高效的音频质量评价方法，尤其缺乏简单易用且广泛适用于各种类型音频信号的音频质量评价方法。在研究界，音频质量评价领域和图像质量评价领域长期处于孤立状态，而缺乏广泛的借鉴和交流。

发明内容

针对上述现有技术中存在的上述不足，本发明的目的是提供一种全参考音频质量评价方法及装置。

从本质上来说，图像为二维信号，而音频为一维信号，那么通过将主流的适用于二维图像信号的视觉质量评价算法推广至一维音频信号是否可行值得深入地研究。本发明通过借鉴视觉质量评价的研究思路，设计适用于音频信号的质量评价方法。

根据本发明的第一方面，提供一种全参考音频质量评价方法，包括：

将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作，得到适用于音频质量评价的方法；

用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计，得到局部音频质量估计结果；

对所述局部音频质量估计结果进行时域池化，得到音频的整体质量评价结果。

优选地，所述适用于图像信号的视觉质量评价方法可以从主流全参考图像质量评价算法中选取，可以为以下中任一种：

结构相似性指标(Structural Similarity，SSIM)；

多尺度结构相似性指标(Multi-Scale Structural Similarity，MS-SSIM)；

像素域视觉信息保真度算法(Visual Information Fidelity in Pixel domain，VIFP)；

梯度幅值相似性算法(Gradient Magnitude Similarity Mean，GMSM)；

梯度幅值相似性偏差算法(Gradient Magnitude Similarity Deviation，GMSD)。

优选地，所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作，其中：

对于结构相似性指标SSIM，经过推广及降维的一维结构相似性指标SSIM_1D表述为：

公式中各参数含义为：

x是参考音频信号；y是失真音频信号；μ_x是参考音频信号局部均值；μ_y是失真音频信号局部均值；σ_x是参考音频信号局部标准差；σ_y是失真音频信号局部标准差；σ_xy是参考音频信号及失真音频信号之间的局部协方差；

上述计算音频之间的SSIM_1D表达式中x，y，SSIM_1D(x,y)，μ_x，μ_y，σ_x，σ_y，σ_xy均为一维音频信号，此外使用一维的局部时域窗来计算μ_x，μ_y，σ_x，σ_y，σ_xy，最后C₁，C₂是两个根据音频信号的动态范围而设定的常数，其值通常远远小于音频信号的动态范围。

对于多尺度结构相似性指标MS-SSIM，经过推广及降维的一维多尺度结构相似性指标MS-SSIM_1D表述为：

其中x_s,y_s分别为原始尺度及依次两倍下采样的参考音频和失真音频信号，s＝1,…,5，w_s为每个尺度的权重，SSIM_1D计算两组一维音频信号之间的一维结构相似性指标。

对于像素域视觉信息保真度算法VIFP，经过推广及降维的一维像素域视觉信息保真度算法VIFP_1D表达式与像素域视觉信息保真度算法类似，不同在于：VIFP_1D使用一维的局部时域窗来计算音频信号的局部均值、方差及协方差，并且将所有二维卷积操作降为一维卷积操作。

对于梯度幅值相似性算法GMSM，经过推广及降维的一维梯度幅值相似性算法GMSM_1D表述为：

其中t＝1,…,T表示音频样本的索引，GMS_1D表示一维梯度幅值相似性：

其中c是一个根据音频样本动态范围设定的常数，m_x(t)及m_y(t)表示一维音频信号x及y的梯度幅值：

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中e＝[1 0 -1]是一个一维梯度算子；x(t)、y(t)分别是参考音频信号及失真音频信号。

对于梯度幅值相似性偏差算法GMSD，经过推广及降维的一维梯度幅值相似性偏差算法GMSD_1D表述为：

GMSD_1D＝std(GMS_1D(t))，

其中std计算一维信号GMS_1D(t)所有样本的标准差，GMS_1D表示一维梯度幅值相似性：

其中c是一个根据音频样本动态范围设定的常数；

m_x(t)及m_y(t)表示一维音频信号x及y的梯度幅值：

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中e＝[1 0 -1]是一个一维梯度算子，x(t)、y(t)分别是参考音频信号及失真音频信号。

优选地，用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计，得到局部音频质量估计结果，包括：

降维得到的所述适用于音频质量评价的方法的一维质量描述子对参考音频信号及失真音频信号x,y的局部信号相似性进行估计，得到一条表述两组音频信号之间相似性的音频质量曲线。

优选地，对所述局部音频质量估计结果进行时域池化，包括：

对所述音频质量曲线进行池化，得到一个描述失真音频总体质量的单一数值。

根据本发明第二方面，提供一种全参考音频质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的全参考音频质量评价方法。

与现有技术相比，本发明实施例具有以下至少一种有益效果：

本发明上述方法和装置，通过将适用于图像信号的视觉质量评价方法推广并降维至适用于音频信号的听觉质量评价的方法，能够得到大量的音频质量评价方法；

本发明上述方法和装置，进一步继承了相对应的视觉质量评价方法的诸多优点，具有可解释性佳等特点。

本发明上述方法和装置，相对于传统的音频质量评价方法更加简单有效，能够取得良好的音频质量评价效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例的全参考音频质量评价方法流程框图；

图2为本发明一实施例的调查问卷样本示例图；

图3为本发明一实施例的问卷调查统计结果示例图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

图1为本发明一实施例的全参考音频质量评价方法流程框图。

参照图1所示，该实施例中的音视频多媒体主观质量评价方法，可以参照以下具体步骤进行：

第一步、选取一适用于图像信号的视觉质量评价方法

适用于图像信号的视觉质量评价方法可以从主流全参考图像质量评价算法中选取，可以是以下方法中任一种：

结构相似性指标(Structural Similarity，SSIM)；

多尺度结构相似性指标(Multi-Scale Structural Similarity，MS-SSIM)；

梯度幅值相似性算法(Gradient Magnitude Similarity Mean，GMSM)；

当然，也可以是其他方法，以上仅是例举，并不是穷尽，所有适用于图像信号的视觉质量评价方法只要能按照本发明的流程实现音频质量评价的，都可以。

第二步、将选取的视觉质量评价方法中所有二维操作推广并降维至一维操作

选择好适用于图像信号的视觉质量评价方法后，需要将上述选取的视觉质量评价方法中所有适用于二维图像信号的操作推广并降维至适用于一维音频信号的操作。

以上述例举的结构相似性指标SSIM、多尺度结构相似性指标MS-SSIM、像素域视觉信息保真度算法VIFP、梯度幅值相似性算法GMSM、梯度幅值相似性偏差算法GMSD来分别进行说明。

在一实施例中，对于结构相似性指标SSIM，经过推广及降维的一维结构相似性指标SSIM_1D可以表述为：

与计算图像之间的SSIM不同，在上述计算音频之间的SSIM_1D表达式中x，y，SSIM_1D(x,y)，μ_x，μ_y，σ_x，σ_y，σ_xy均为一维音频而非二维图像信号，此外需要使用一维的局部时域窗，而非二维的局部图像窗来计算μ_x，μ_y，σ_x，σ_y，σ_xy，最后C₁，C₂是两个根据音频信号的动态范围而设定的常数，其值通常远远小于音频信号的动态范围。

在另一实施例中，对于多尺度结构相似性指标MS-SSIM，经过推广及降维的一维多尺度结构相似性指标MS-SSIM_1D可以表述为：

其中x_s,y_s分别为原始尺度及依次两倍下采样的参考音频和失真音频信号，w_s为每个尺度的权重，SSIM_1D计算两组一维音频信号之间的一维结构相似性指标，s＝1,…,5。

在另一实施例中，对于像素域视觉信息保真度算法VIFP，经过推广及降维的一维像素域视觉信息保真度算法(VIFP_1D)表达式与像素域视觉信息保真度算法类似，不过需要使用一维的局部时域窗，而非二维的局部图像窗来计算音频的局部均值、方差、及协方差，并且需要将所有二维卷积操作降为一维卷积操作。

在另一实施例中，对于梯度幅值相似性算法GMSM，经过推广及降维的一维梯度幅值相似性算法(GMSM_1D)可以表述为

其中t＝1,…,T表示音频样本的索引，GMS_1D表示一维梯度幅值相似性

其中c是一个根据音频样本动态范围设定的常数，m_x(t)及m_y(t)表示一维音频信号x及y的梯度幅值

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中e＝[1 0 -1]是一个一维梯度算子。

在另一实施例中，对于梯度幅值相似性偏差算法GMSD，经过推广及降维的一维梯度幅值相似性偏差算法(GMSD_1D)可以表述为GMSD_1D＝std(GMS_1D(t))，

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中e＝[1 0 -1]是一个一维梯度算子。

第三步、利用降维的一维质量描述子对音频局部质量进行估计

如图1所示，利用第二步中的一维结构相似性指标SSIM_1D，一维多尺度结构相似性指标MS-SSIM_1D，一维像素域视觉信息保真度算法VIFP_1D，一维梯度幅值相似性算法GMSM_1D，或者一维梯度幅值相似性偏差算法GMSD_1D，对参考音频信号及失真音频信号x,y的局部信号相似性进行估计，从而得到一条表述两组音频信号之间相似性的音频质量曲线即局部音频质量曲线。

第四步、对局部音频质量进行时域池化得到音频的整体质量估计

估计好音频的局部质量之后，需要对第三步中所述的局部音频质量曲线进行池化，得到一个描述失真音频总体质量的单一数值，其中质量池化可以是平均池化、加权池化等各种池化方式，其中最简单直观的是平均池化

其中Q表示音频的整体质量估计，而Q_1D(t)表示局部音频质量曲线。

以上实施例中各较佳特征，可以在任一实施例中单独使用，在互不冲突的前提下，也可以任一组合使用。另外，上述实施例中没有详细说明的部分均可以采用现有技术实现。

基于上述实施例中的方法，本发明在另一实施例中还提供一种全参考音频质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述实施例中的全参考音频质量评价方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

为了对上述一维结构相似性指标(SSIM_1D)，一维多尺度结构相似性指标(MS-SSIM_1D)，一维像素域视觉信息保真度算法(VIFP_1D)，一维梯度幅值相似性算法(GMSM_1D)，一维梯度幅值相似性偏差算法(GMSD_1D)进行验证，可以在LIVE-SJTU Audio and VideoQuality Assessment(A/V-QA)Database数据库上进行测试。

LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库，包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放，都包含四级失真程度)及一种音频失真类型(压缩，包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video QualityExperts Group(VQEG)Phase I Full Reference-TV test中提出的Spearman rank ordercorrelation coefficients(SRCC)评价标准来衡量图像质量评价方法的性能好坏。

实验结果如下所示，为本发明一实施例的待向测试者说明的内容示例：

其中All表示包含所有视频；QP16、QP35、QP42、QP50分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩的视频和任意失真级别音频的所有组合；QP16S、QP35S、QP42S、QP50S分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩加缩放的视频和任意失真级别音频的所有组合。从图中可以看出，在限定视频的失真类型及失真程度时，SSIM_1D、MS-SSIM_1D、VIFP_1D、GMSM_1D、GMSD_1D均可有效地估计音频质量对总体音视频质量的影响。

实验还将SSIM_1D、MS-SSIM_1D、VIFP_1D、GMSM_1D、GMSD_1D和主流音频质量评价算法进行对比，其中对比算法包括：

PEAQ算法(《T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends,and C.Colomes,“PEAQ-the ITU standard for objective measurementof perceived audio quality,”J.Audio Eng.Soc.,vol.48,no.1/2,pp.3–29,2000.》)；

STOI算法(《C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,“An algorithmfor intelligibility prediction of time–frequency weighted noisy speech,”IEEETrans.Audio,Speech,Language Process.,vol.19,no.7,pp.2125–2136,2011.》)；

VISQOL算法(《A.Hines,E.Gillen,D.Kelly,J.Skoglund,A.Kokaram,andN.Harte,“ViSQOLAudio:An objective audio quality metric for low bitratecodecs,”J.Acoust.Soc.Am.,vol.137,no.6,pp.EL449–EL455,2015.》)；

LLR算法(《Y.Hu and P.C.Loizou,“Evaluation of objective qualitymeasures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》)；

SNR算法(《Y.Hu and P.C.Loizou,“Evaluation of objective qualitymeasures for speech enhancement,”IEEE Trans.Audio,Speech,Language Process.,vol.16,no.1,pp.229–238,2007.》)；

segSNR算法(《J.H.Hansen and B.L.Pellom,“An effective qualityevaluation protocol for speech enhancement algorithms,”inProc.Int.Conf.Spoken Lang.Process.,vol.7,1998,pp.2819–2822.》)；

上述各算法性能对比如图2和图3所示，图2和图3中每个算法上方的柱形按照从左到右依次对应为QP16、QP35、QP42、QP50、QP16S、QP35S、QP42S、QP50S、ALL。从图中可以看出SSIM_1D、MS-SSIM_1D、VIFP_1D、GMSM_1D、GMSD_1D可以和最有效的音频质量评价方法相比拟。

本发明上述实施例基于现有视觉质量评价方法，创造性地通过对现有的适用于二维视觉图像信号的视觉质量评价方法进行一系列有针对性的推广和降维操作，然后成功应用于一维听觉音频信号的质量评价，可有效地评价音频质量。

需要说明的是，本发明提供的所述方法中的步骤，可以利用所述装置中对应的单元等予以实现，本领域技术人员可以参照所述装置的技术方案实现所述方法的步骤流程，即，所述装置中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的装置及其各个单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的单元也可以视为硬件部件内的结构；也可以将用于实现各种功能的单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种全参考音频质量评价方法，其特征在于，包括：

对所述局部音频质量估计结果进行时域池化，得到音频的整体质量评价结果；

所述适用于图像信号的视觉质量评价方法为以下中任一种：

结构相似性指标SSIM；

多尺度结构相似性指标MS-SSIM；

像素域视觉信息保真度算法VIFP；

梯度幅值相似性算法GMSM；

梯度幅值相似性偏差算法GMSD；

所述将一适用于图像信号的视觉质量评价方法中所有二维操作推广并降维至一维音频信号的操作，其中：

公式中各参数含义为：

上述计算音频之间的SSIM_1D表达式中x，y，SSIM_1D(x,y)，μ_x，μ_y，σ_x，σ_y，σ_xy均为一维音频信号，此外使用一维的局部时域窗来计算μ_x，μ_y，σ_x，σ_y，σ_xy，最后C₁，C₂是两个根据音频信号的动态范围而设定的常数，其值小于音频信号的动态范围；

其中x_s,y_s分别为原始尺度及依次两倍下采样的参考音频和失真音频信号，s＝1,…,5，w_s为每个尺度的权重，SSIM_1D计算两组一维音频信号之间的一维结构相似性指标；

对于像素域视觉信息保真度算法VIFP，经过推广及降维的一维像素域视觉信息保真度算法VIFP_1D表达式与像素域视觉信息保真度算法类似，不同在于：VIFP_1D使用一维的局部时域窗来计算音频信号的局部均值、方差及协方差，并且将所有二维卷积操作降为一维卷积操作；

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

其中e＝[1 0 -1]是一个一维梯度算子；x(t)、y(t)分别是参考音频信号及失真音频信号；

GMSD_1D＝std(GMS_1D(t))，

其中c是一个根据音频样本动态范围设定的常数；

m_x(t)及m_y(t)表示一维音频信号x及y的梯度幅值：

m_x(t)＝|x(t)*e|，

m_y(t)＝|y(t)*e|，

2.根据权利要求1所述的全参考音频质量评价方法，其特征在于，用降维得到的所述适用于音频质量评价的方法的一维质量描述子对待评价的音频信号的局部质量进行估计，得到局部音频质量估计结果，包括：

3.根据权利要求2所述的全参考音频质量评价方法，其特征在于，对所述局部音频质量估计结果进行时域池化，包括：

4.一种全参考音频质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-3任一所述的全参考音频质量评价方法。