CN107170468A

CN107170468A - 一种基于两层模型的多声道音频质量评价方法

Info

Publication number: CN107170468A
Application number: CN201710228454.8A
Authority: CN
Inventors: 王晶; 谢湘; 刘继月; 刘敏; 费泽松
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2017-09-15

Abstract

本发明公开了一种基于两层模型的多声道音频质量评价方法，属于多声道音频质量评价技术领域。本方法首先将待测音频和参考音频经过第一层中的两个由主观听音测试结果训练得到的客观模型，即客观基本音质模型和客观空间质量模型，分别计算出客观的基本音质得分和空间质量得分，然后将该得分作为自变量输入第二层的由主观听音测试结果训练得到的整体客观模型，最终得到待测音频的整体客观分数，由此实现了对多声道音频质量的评价。本发明方法相较于以往的单层模型，不但可以帮助测试者更详细地了解待测音频的质量信息，而且具有更好的准确性。

Description

一种基于两层模型的多声道音频质量评价方法

技术领域

本发明属于多声道音频质量评价技术领域，涉及一种基于两层模型的多声道音频质量评价方法。

背景技术

近年来，随着多媒体技术的日益发展，多声道音频逐渐走入人们的日常生活。和传统的双声道立体声相比，多声道音频能够给听众提供更佳的音质体验和更好的临场感受，因此被广泛的应用于多种场景，例如立体电影，3D游戏，实时视频会议等等。这使得人们对多声道音频处理技术提出了更高的标准。为了对音频技术的效果进行评价，通常采用的方法是评估经过处理后的音频信号，通过对比处理前后音频文件的质量差异，从而获得相应技术的效果评价，这种方法即为多声道音频质量评价方法。

根据评价主体的不同，多声道音频质量评价方法主要分为两大类：主观评价方法和客观评价方法。主观评价方法是通过大量听音人员对技术处理前后的三维音频信号进行对比测听后，按照实验设计方案中规定的标尺对处理后的音频信号进行质量等级划分，从而得到待测音频信号的主观分数。目前通用的主观评价方法主要是由国际电信联盟无线电通信组(ITU-R)颁布的一系列标准，包括适用于中等损伤程度的带隐藏参考和基准的多激励测试(MUSHRA)，即ITU-R BS.1534标准，以及适用于小损伤的带隐藏参考的三次听音双盲听评法，即ITU-R BS.1116标准等。在实验设计及人员选择合理的前提下，主观评价可以提供更为可靠的结果。但主观评价方法也有其局限性：其操作往往需要大量的听音人员，并且需要严苛的环境条件，耗时耗力。

鉴于主观评价的诸多困难，人们希望能够有一种方便快捷的客观手段对多声道音频质量进行评价。PEAQ(Perceptual Evaluationof Audio Quality)方法是ITU-R在BS.1387中提出的一种客观音频质量评估方法，也是目前唯一的音频客观评价国际标准。PEAQ通过模拟人耳听觉特性，可以较准确地得到待测音频质量的得分，但在用于计算多声道音频质量时，PEAQ方法的准确度却不尽如人意，即PEAQ方法得出的客观评价评分与主观评价方法得出的评分相关性低。这是由于PEAQ在计算多声道音频质量时，往往将每一个声道分开处理，再将得到的结果取平均值，从而导致声道间信息的缺失。

针对于现存的多声道音频客观评价标准评分与主观得分相关系低的问题，很多研究都致力于改进客观方法在应用于多声道音频场景下的准确度，但客观方法中的模型只设计了一层结构，通过输入待测音频(需要评价的多声道音频信号)和参考音频(原始无失真的多声道音频信号)直接得出客观得分，忽略了中间可能影响整体音质得分的因素。我国授权公开号为CN 102867518 B的专利“3D音频中水平方位参数的编解码性能评价方法”，公开了一种3D音频中水平方位参数的编码性能评价方法，用于评估待测编码后音频的主观感知失真，从而评价编解码器的水平方位参数的主观感知失真，但此方法主要用于评价3D音频中水平方位参数的编码性能，并不适用于经过其他音频处理技术处理的多声道音频。

发明内容

本发明的目的是为了解决现有的多声道音频质量客观评价结果与主观评价得分相关性过低的问题，提供一种基于两层模型的多声道音频质量评价方法，提高了客观评价方法的准确性。

为了实现上述目的，本发明方法的基本思路是：首先待测音频和参考音频经过第一层中的两个模型，即客观基本音质模型和客观空间质量模型，分别计算出客观的基本音质得分和空间质量得分；然后将其作为输入自变量，通过第二层的整体客观模型，最终得到待测音频的整体客观分数。其中，第一层的客观基本音质模型和客观空间质量模型，以及第二层的整体客观模型都是通过主观听音测试结果训练得到的。所用主观听音测试评分方法优选为MUSHRA法或者带隐藏参考的三次听音双盲听评法。在所述的主观听音测试训练中，对训练音频进行评分的指标包括：基本音质(代表多声道音频综合每一路声道信号基础音质的感受)、空间质量(代表多声道音频信号的在空间范围内的扩散和环绕感)以及整体质量(代表多声道音频信号在基本音质和空间质量上的综合感受)。

本发明方法的实施步骤包括：

(a)、将待测音频和参考音频输入到第一层中的客观基本音质模型中，计算得到基本音质得分。

所述的客观基本音质模型是通过主观基本音质得分训练得到的。作为优选的方案是：首先将训练所用的多声道音频信号经过PEAQ算法计算出每一个声道的音质得分，然后利用数据拟合工具将其拟合到对应的主观音质得分，从而得到客观基本音质模型。作为优选，这里的数据拟合工具采用多元线性回归(MLR，Multiple Linear Regression)方法。

(b)、将待测音频和参考音频输入到第一层中的客观空间质量模型中，计算出空间质量得分。

所述的客观空间质量模型是通过主观空间质量得分训练得到的。作为优选的方案为：首先通过计算每两个声道之间的空间参数，来获得待测音频的空间信息，在得到待测音频的一系列声道间空间参数后，利用数据拟合工具将空间参数拟合到相应的主观空间质量得分，从而得到客观空间质量模型。作为优选，这里的数据拟合工具采用神经网络。客观空间质量模型中用到的空间参数包括：

声道间相位差

声道间强度差

声道间相干性

其中，A_b是在子带b中的频谱系数的个数，A₁(k)表示输入音频中一个声道的频谱系数，A₂(k)表示输入音频另一个声道的频谱系数，*表示取共轭。

上述步骤(a)和(b)可以交换次序，二者不是时间上的先后顺序，只是步骤的标记。

(c)、将步骤(a)和(b)中所得的基本音质得分和空间质量得分通过第二层的整体客观模型，最终输出待测音频的整体客观分数。

所述的整体客观模型是通过主观整体质量得分训练得到的。作为优选的方案为：将第一层的客观基本音质模型输出的客观基本音质得分和客观空间质量模型输出的客观空间质量得分作为输入，通过数据拟合工具之与主观整体质量得分进行拟合，从而获得整体客观模型。作为优选，这里的数据拟合工具采用MLR方法。

至此，就完成了基于两层模型的多声道音频质量评价。

本发明方法对比现有的技术，有如下的有益效果：

1.本发明所述方法提出了一种两层模型结构，第一层模型可以计算得出中间参数，即客观基本音质得分和空间质量得分，再经由第二层模型得出整体音质得分。中间参数的获取可以帮助测试者更详细地了解待测音频的质量信息，进而更好地了解对应的音频处理技术对音频哪一部分造成了损伤；

2.本发明所述方法的两层模型结构相比于单层模型，可以更好的模拟人耳的听觉感知系统，实验表明，该方法与主观实验结果之间相关性较高，反映出此双层模型具有很好的准确性。

附图说明

图1为本发明方法的流程框图；

图2为本发明实施例中的得分结果散点图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

在下面的实施例中，为阐述方便，多声道音频选择5.1声道音频。本发明的方法同样适用于其他多声道音频的质量评价，并能获得同样有益的技术效果。具体地，由于5.1声道的音频在目前的实际中应用较为广泛，并且通常被认为是一种需要扬声器数目最少的环绕声制式，因此在实例中采用5.1声道音频文件作为模型训练和测试音源。经过主观听音测试得出的主观质量评分，作为客观模型的训练集和测试集。

本发明方法步骤如图1所示，具体如下：

(a)、将待测音频和参考音频输入到第一层中的客观基本音质模型中，计算得到基本音质得分，对应图1中的1；

在这一步中，客观基本音质模型的训练首先利用了PEAQ方法计算出训练音频的第k个声道得分x_k，然后利用MLR将这些得分与主观实验中得到的基本音质得分Y₁映射，即：其中m_k为第k个声道对应PEAQ得分x_k的权重。从而得到客观基本音质模型。在测试环节中，将待测的5.1声道音频有损文件和原始文件同时输入到客观基本音质模型中，得出客观基本音质得分。

(b)、将待测音频和参考音频输入到第一层中的客观空间质量模型中，算出空间质量得分，对应图1中的2；

在这一步中，客观空间质量模型中包含了三个能够反映声道间空间信息的参数：

声道间相位差

声道间强度差

声道间相干性

其中，A_b是在子带b中的频谱系数的个数，A₁(k)表示输入音频中一个声道的频谱系数，A₂(k)表示输入音频另一个声道的频谱系数，*表示取共轭。这三个参数通过提取两两声道间的信息，来获取待测音频的空间信息。对于5.1声道的音频，由于低音声道LEF和其他声道间无甚相关性，因此选取四组声道对，即FL-FR,BL-BR,FC-FL,FC-FR，来计算声道间参数。每一组声道对均需要计算三个空间参数，因此对于每一条5.1声道音频需要计算12个空间参数。在客观空间质量模型的训练中，通过将参考音频和训练音频的12个空间参数对应相减，得到训练音频的空间损伤参数。然后，用得到的空间损伤参数与对应的主观空间质量得分做神经网络拟合。经过测试不同的隐藏节点数目对神经网络模型性能的影响，优选4为本实例中的客观空间质量模型的隐藏节点数目。实验证明4个隐藏节点可以为模型提供足够的拟合优度并且复杂度较低。在测试和实际计算时，将参考音频和待测音频输入到客观空间质量模型中，可输出客观空间质量得分。

(c)、将前两步所得分数通过第二层中的整体客观模型，最终输出待测音频的整体客观分数，对应图1中的3。

在这一步中，整体客观模型的训练用到的是训练音频的主观基本音质得分、空间质量得分和整体得分。将主观基本音质得分和空间质量得分通过MLR拟合到主观整体得分，得到整体客观模型。在测试和实际计算时，将前两步得到的客观基本音质得分和空间质量得分输入到该模型中，即可得到待测音频的整体客观分数。

图2为模型在本实例中的测试结果散点图。图中横坐标表示对应测试音频的主观整体分数，纵坐标表示对应测试音频的客观整体得分。由图中可以看出，图中散点分布的趋势线较接近于y＝x线(主客观分数完全相等)，反映出该算法所得到的客观分数与主观评分的一致性较高。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于两层模型的多声道音频质量评价方法，需要评价的多声道音频信号称为待测音频，原始无失真的多声道音频信号称为参考音频，其特征在于，包括：

将待测音频和参考音频输入到第一层的客观基本音质模型，通过计算得到客观基本音质得分的步骤；

将待测音频和参考音频输入到第一层的客观空间质量模型，通过计算得到客观空间质量得分的步骤；以及

将所述基本音质得分和空间质量得分输入第二层的整体客观模型，输出待测音频的整体客观分数的步骤。

2.如权利要求1所述的一种基于两层模型的多声道音频质量评价方法，其特征在于：所述的客观基本音质模型、客观空间质量模型和整体客观模型都是由主观听音测试结果训练得到的。

3.如权利要求2所述的一种基于两层模型的多声道音频质量评价方法，其特征在于：由所述主观听音测试得到的主观质量评分，作为客观基本音质模型、客观空间质量模型和整体客观模型的训练集和测试集。

4.如权利要求2所述的一种基于两层模型的多声道音频质量评价方法，其特征在于：所述主观听音测试采用带隐藏参考和基准的多激励测试法或者带隐藏参考的三次听音双盲听评法。

5.如权利要求2所述的一种基于两层模型的多声道音频质量评价方法，其特征在于：在所述的主观听音测试训练中，对训练音频进行评分的指标包括：

基本音质：代表多声道音频综合每一路声道信号基础音质的感受；

空间质量：代表多声道音频信号的在空间范围内的扩散和环绕感；以及

整体质量：代表多声道音频信号在基本音质和空间质量上的综合感受。

6.如权利要求1～5中任一权利要求所述的一种基于两层模型的多声道音频质量评价方法，其特征在于，所述的客观基本音质模型构建过程为：首先将训练所用的多声道音频信号经过PEAQ算法计算出每一个声道的音质得分，然后利用数据拟合工具将其拟合到对应的主观音质得分，从而得到客观基本音质模型；所述数据拟合工具优选采用多元线性回归方法。

7.如权利要求1～5中任一权利要求所述的一种基于两层模型的多声道音频质量评价方法，其特征在于，所述的客观空间质量模型构建过程为：通过计算每两个声道之间的空间参数，来获得待测音频的空间信息，在得到待测音频的声道间空间参数后，利用数据拟合工具将空间参数拟合到对应的主观空间质量得分，从而得到客观空间质量模型；所述数据拟合工具优选采用神经网络方法。

8.如权利要求1～5中任一权利要求所述的一种基于两层模型的多声道音频质量评价方法，其特征在于，所述的整体客观模型构建过程为：输入所述第一层的客观基本音质模型输出的客观基本音质得分和客观空间质量模型输出的客观空间质量得分，通过数据拟合工具与主观整体质量得分进行拟合，从而获得整体客观模型；所述数据拟合工具优选采用多元线性回归方法。

9.如权利要求7所述的一种基于两层模型的多声道音频质量评价方法，其特征在于，所述的空间参数包括：

声道间相位差

声道间强度差

声道间相干性

10.如权利要求7所述的一种基于两层模型的多声道音频质量评价方法，其特征在于，所述的空间信息获取过程为：选取四组声道对，即FL-FR,BL-BR,FC-FL和FC-FR，计算每一组声道对中两两声道间的空间参数的值。