CN111508528B

CN111508528B - 基于自然音频统计特性的无参考音频质量评价方法和装置

Info

Publication number: CN111508528B
Application number: CN202010171602.9A
Authority: CN
Inventors: 闵雄阔; 翟广涛; 杨小康
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2023-02-28
Anticipated expiration: 2040-03-12
Also published as: CN111508528A

Abstract

本发明提供了的一种基于自然音频统计特性的无参考音频质量评价方法，通过将相关的自然图像统计特性推广至自然音频统计，从而实现基于自然音频统计的无参考音频质量评价；本发明所提供的方法包括如下步骤：对输入音频信号进行正则化，利用自然音频统计特性进行建模，提取基于自然音频统计的音频质量特征，特征回归得到最终的音频质量估计。同时提供了一种基于自然音频统计特性的无参考音频质量评价装置。利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法和装置，可有效地在原始音频信号未知的情况下估计待测的音频信号质量。

Description

基于自然音频统计特性的无参考音频质量评价方法和装置

技术领域

本发明涉及多媒体质量评价技术领域，具体地，涉及一种基于自然音频统计特性的无参考音频质量评价方法和装置。

背景技术

近年来，多媒体质量评价吸引了音频处理和图像处理等领域众多研究者的关注。根据待评价信号的类型，多媒体质量评价可以分为：图像/视频质量评价(image/videoquality assessment)和音频质量评价(audio quality assessment)。因其数量大、信息丰富等特点，图像和视频等视觉信号质量评价受到了更多研究者的关注，并提出了大量的视觉质量评价方法。与视觉质量评价相比，音频质量评价领域受到的关注更少，因此该领域尚缺乏更加深入和广泛的研究。该领域内有一些音频质量评价算法，但是目前仍然缺乏高效的音频质量评价算法，尤其缺乏简单易用且广泛适用于各种类型音频信号的音频质量评价算法。

现有的音频质量评价方法大多基于人类的听觉系统，通过引入复杂的心理声学模型和认知模型来构建音频质量评价模型。例如国际电信联盟在T.Thiede,W.C.Treurniet,R.Bitto,C.Schmidmer,T.Sporer,J.G.Beerends，and C.Colomes,“PEAQ-the ITUstandard for objective measurement of perceived audio quality,”J.AudioEng.Soc.,vol.48,no.1/2，pp.3–29，2000.》中提出的PEAQ(Perceptual Evaluation ofAudio Quality)模型，以心理声学模型为基础，通过信号变换、频带分组、掩蔽计算等方法来模拟人耳对声音产生响应到最终信息感知的过程，具体该方法算法主要有三大组成部分，包括心理声学模型、感知模型和神经网络。参考音频和失真音频分别经过心理声学模型处理后，各自的输出经由感知模型特征综合便可计算出一系列模型输出参数(ModelOutput Variables，MOV)，然后由神经网络模块融合这些MOV得到一个描述音频质量的客观差异等级(Objective Difference Grade，ODG)。与PEAQ类似的这类方法很好地模拟了人类的听觉系统，在一定的条件下能够有效地估计音频质量，但是具有可推广性较差的缺点。

Alan Bovik等人在《A.K.Moorthy and A.C.Bovik，“Blind image qualityassessment:From natural scene statistics to perceptual quality，”IEEETrans.Image Process.，vol.20，no.12，pp.3350–3364，Dec.2011.》、《M.A.Saad，A.C.Bovik，and C.Charrier，“Blind image quality assessment:A natural scenestatistics approach in the DCT domain，”IEEE Trans.Image Process.，vol.21，no.8，pp.3339–3352，Aug.2012.》以及《A.Mittal，A.K.Moorthy，and A.C.Bovik，“No-referenceimage quality assessment in the spatial domain，”IEEE Trans.Image Process.，vol.21，no.12，pp.4695–4708，Dec.2012.》中大量利用了自然图像统计来评价图像质量。然而上述方法中的自然图像统计特性仅仅适用于图像及视频，所设计的方法也只能应用于图像和视频。

目前尚没有研究或方法将相关的自然图像统计特性推广并应用至音频，并设计相应的音频质量评价方法。

发明内容

针对现有技术中存在的上述不足，本发明的目的是提供一种基于自然音频统计特性的无参考音频质量评价方法，该方法通过将相关的自然图像统计特性推广至自然音频统计，从而实现基于自然音频统计的无参考音频质量评价。

本发明是通过以下技术方案实现的。

根据本发明的第一方面，提供一种基于自然音频统计特性的无参考音频质量评价方法，包括：

S1：对输入音频信号进行正则化处理，得到正则化后音频信号；

S2：利用自然音频统计特性，对S1中得到的正则化后音频信号进行建模，得到音频信号统计模型；

S3：提取基于S2中得到的自然音频统计模型的音频质量特征；

S4：对S3中得到的音频质量特征进行特征回归操作，得到最终的音频质量估计。

优选地，所述S1中，对输入音频信号进行正则化处理过程如下：

其中，a(t)为原始音频信号，

为正则化之后的音频信号，t为时序索引，c是根据音频信号动态范围设定的一个用于保持除式稳定的常数；μ(t)及σ(t)分别表示音频信号的局部均值及标准差：

其中，w_τ，τ＝-T，…，T表示一个一维的局部高斯窗。

优选地，所述S2中，利用自然音频统计特性对正则化后音频信号

进行自然音频统计模型建模过程如下：

采用广义高斯分布对正则化后音频信号

进行描述：

式中，f(x；α，σ²)表示正则化后音频信号所服从的概率密度函数；x表示正则化后音频信号

样本值；α表示一个参数，用于控制分布的形状；σ表示，σ²用于控制分布的方差；Γ(·)表示如下伽马函数：

β表示以下参数：

采用非对称广义高斯分布，对与正则化后音频信号相邻的两个样本

及

之间的乘积进行描述：

式中，

表示正则化后音频信号相邻样本乘积所服从的概率密度函数，v表示一个参数，用于控制分布的形状；σ_l表示一个参数，

用于控制左侧分布的方差；σ_r表示一个参数，

用于控制右侧分布的方差；β_l及β_r表示以下参数：

优选地，所述S3中，从自然音频统计模型中提取能够描述音频质量的分布参数；其中，广义高斯分布的形状参数α和方差参数σ²用于描述音频质量，非对称广义高斯分布的形状参数v、左方差参数

右方差参数

及其均值参数η均用于描述音频质量；

其中：

优选地，所述S3中，还包括：将输入音频信号下采样，然后提取多个尺度上的音频质量特征。

优选地，所述S4中，对S3中提取的音频质量特征进行特征回归，得到一个描述音频总体质量的单一质量分数。

优选地，对音频质量特征进行特征回归操作，采用机器学习特征融合方法。

优选地，对音频质量特征进行特征回归操作，采用神经网络的深度学习特征融合方法。

根据本发明的第二方面，提供一种基于自然音频统计特性的无参考音频质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的基于自然音频统计特性的无参考音频质量评价方法。

与现有技术相比，本发明具有如下有益效果：

本发明提供的一种基于自然音频统计特性的无参考音频质量评价方法，该方法通过将相关的自然图像统计特性推广至自然音频统计，从而实现基于自然音频统计的无参考音频质量评价；该方法主要包含四大步骤：对输入音频信号进行正则化，利用自然音频统计特性进行建模，提取基于自然音频统计的音频质量特征，特征回归得到最终的音频质量估计；利用本发明提供的基于自然音频统计特性的无参考音频质量评价方法，可有效地在原始音频信号未知的情况下估计待测的音频信号质量。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为基于自然音频统计特性的无参考音频质量评价方法总体流程图；

图2为音频去关联前后相邻两个样本之间的散点图；其中，(a)为正则化之前音频信号相邻两个样本之间的散点图，(b)为正则化之后音频信号相邻两个样本之间的散点图；

图3为不同压缩程度的音频在正则化之后的直方图；其中，(a)为128kbps音频在正则化之后的直方图，(b)为32kbps音频在正则化之后的直方图，(c)为8kbps音频在正则化之后的直方图；

图4为不同压缩程度的音频在正则化之后相邻样本之间乘积的直方图；其中，(a)为128kbps音频在正则化之后相邻样本之间乘积的直方图，(b)为32kbps音频在正则化之后相邻样本之间乘积的直方图，(c)为8kbps音频在正则化之后相邻样本之间乘积的直方图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明实施例提供了一种基于自然音频统计特性的无参考音频质量评价方法。

所述方法包括如下步骤：

第一步：对输入音频信号进行正则化处理，得到正则化后音频信号；

第二步：利用自然音频统计特性，对第一步中得到的正则化后音频信号进行建模，得到音频信号统计模型；

第三步：提取基于第二步中得到的自然音频统计模型的音频质量特征；

第四步：对第三步中得到的音频质量特征进行特征回归操作，得到最终的音频质量估计。

下面结合附图，对本发明实施例所提供的基于自然音频统计特性的无参考音频质量评价方法的详细步骤进一步详细阐述。

如图1所示，为本发明实施例所提供的基于自然音频统计特性的无参考音频质量评价方法总体流程图。所述方法包括如下步骤：

第一步、对输入音频信号进行正则化

用a(t)表述输入的原始音频信号，则对输入音频信号进行正则化过程如下：

其中

为正则化之后的音频信号，t为时序索引，c是根据音频信号动态范围设定的一个用于保持除式稳定的常数，μ(t)及σ(t)分别表示音频信号的局部均值及标准差

其中，w_τ，τ＝-T,…,T表示一个一维的局部高斯窗。

对输入音频信号进行正则化还能起到一个作用，即去相邻音频样本之间的关联。一般地，音频信号在正则化之前相邻样本之间存在极大的关联性。图2中(a)显示了正则化之前音频信号相邻两个样本之间的散点图，由该散点图可以看出相邻两个样本之间存在一定程度上的线性关系。图2中(b)显示了正则化之后音频信号相邻两个样本之间的散点图，由该散点图可以看出相邻两个样本之间存在的线性关系几乎被完全去除。

第二步、利用自然音频统计特性进行建模

未经处理的自然音频经过第一步所述的正则化之后，

一般服从高斯分布，而音频失真会迫使

的分布偏离该高斯分布，而自然音频的高斯分布和失真音频的分布都可以用广义高斯分布来进行描述：

其中：

其中Γ(·)表示如下伽马函数：

其中：α控制分布的形状，而σ²控制分布的方差。

正则化音频

的分布如图3所示，该图展示了原始音频经过128kbps，32kbps，或8kbps三种程度的音频压缩之后的正则化音频

的分布。从该图可以看出，所有正则化音频

都可以用广义高斯分布来拟合，此外随着压缩程度的不断加重，该分布越来越集中于0附近。

除了

的分布可以用广义高斯分布来描述外，正则化之后音频信号相邻的两个样本

及

之间的乘积还服从非对称广义高斯分布，即

还服从以下非对称广义高斯分布

其中

其中形状参数v控制分布的形状，

和

分别控制了左侧和右侧分布的方差。

正则化音频信号相邻的两个样本

及

之间的乘积p(t)的分布如图4所示，该图展示了原始音频经过128kbps，32kbps，或8kbps三种程度的音频压缩之后的正则化音频相邻样本乘积p(t)的分布。从该图可以看出，所有压缩程度音频的正则化音频相邻样本乘积p(t)都可以用非对称广义高斯分布来拟合，此外随着压缩程度的不断加重，该分布越来越集中于0附近。

第三步、提取基于自然音频统计的音频质量特征

从第二步中所述的

服从的广义高斯分布和p(t)服从的非对称广义高斯分布中提取出能描述音频质量的分布参数。具体地，广义高斯分布的形状参数α和方差参数σ²可以描述音频质量，非对称广义高斯分布的形状参数v、左方差参数

右方差参数

以及以下均值参数：

均可以描述音频质量。

除了在单一原始尺度上提取上述广义高斯分布和非对称广义高斯分布的音频质量特征外，还可以将音频下采样，然后提取多个尺度上的音频质量特征。

第四步、特征回归得到最终的音频质量估计

对第三步中所述的音频质量特征进行回归，得到一个描述音频总体质量的单一质量分数，其中音频质量特征回归可以是支持向量机、随机森林等简单的机器学习特征融合方法，也可以是神经网络等复杂的深度学习特征融合方法。在数据量不大的情况下，可以优先使用支持向量机进行特征融合。

在本发明另一实施例中，还提供一种基于自然音频统计特性的无参考音频质量评价装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述任一项实施例中的基于自然音频统计特性的无参考音频质量评价方法。

实施效果：

为了对本发明上述实施例所提供的基于自然音频统计特性的无参考音频质量评价方法进行验证，可以在LIVE-SJTU Audio and Video Quality Assessment(A/V-QA)Database数据库上对相关算法进行测试。LIVE-SJTU A/V-QA数据库是一个音视频质量评价数据库，包含从14段高质量参考音视频中利用24种音视频失真类型/程度生成的336段失真音视频。其中24种失真条件包含两种视频失真类型(压缩及压缩加缩放，都包含四级失真程度)及一种音频失真类型(压缩，包含三级失真程度)的任意组合。实验利用视频质量专家组(VQEG)在Video Quality Experts Group(VQEG)Phase I Full Reference-TV test中提出的Spearman rank order correlation coefficients(SRCC)评价标准来衡量音视频质量评价方法的性能好坏。

实验利用LIVE-SJTU A/V-QA数据库中的80％数据进行训练，剩余的20％数据进行测试。该训练测试可以随机进行1000次，而1000测试的SRCC中值即可作为算法的性能测试结果。实验结果如表1所示，其中All表示包含所有视频；QP16、QP35、QP42、QP50分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩的视频和任意失真级别音频的所有组合；QP16S、QP35S、QP42S、QP50S分别表示所有包含QP16、QP35、QP42、QP50级别视频压缩加缩放的视频和任意失真级别音频的所有组合。从表中可以看出，在限定视频的失真类型及失真程度时，本发明提供的基于自然音频统计特性的无参考音频质量评价方法可有效地估计音频质量对总体音视频质量的影响。

表1

SRCC	1Scale	2Scales	3Scales	4Scales
					QP16	0.8583	0.8333	0.8500	0.8667
QP35	0.8500	0.7833	0.7333	0.7000
					QP42	0.7333	0.7000	0.7333	0.6833
QP50	0.7333	0.7500	0.6500	0.6084
					QP16S	0.8167	0.8167	0.8167	0.8333
QP35S	0.7833	0.7667	0.6333	0.6833
					QP42S	0.7667	0.6833	0.6167	0.6167
QP50S	0.7167	0.7500	0.7500	0.6167

本发明上述实施例所提供的一种基于自然音频统计特性的无参考音频质量评价方法，通过对输入音频信号进行正则化，利用自然音频统计特性进行建模，提取基于自然音频统计的音频质量特征，特征回归得到最终的音频质量估计四大步骤，可有效地评价音频质量。该方法通过将相关的自然图像统计特性推广至自然音频统计，从而实现基于自然音频统计的无参考音频质量评价。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。