CN102496369B

CN102496369B - 一种基于失真校正的压缩域音频质量客观评价方法

Info

Publication number: CN102496369B
Application number: CN201110439389.6A
Authority: CN
Inventors: 赵艳明; 姜秀华; 石东新
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2016-02-24
Anticipated expiration: 2031-12-23
Also published as: CN102496369A

Abstract

本发明公开了一种用于低码率音频质量客观评价的方法，属于通信领域。该方法的特点在于从压缩后的音频流中提取出码率、尺度因子、前回声失真、频率失真和语音编码失真特征参数；根据码率和尺度因子对音频质量进行基本评价，给出初步的客观评价分数；再根据前回声失真、频率失真和语音编码失真特征参数，判断是否存在上述失真，当存在上述失真时，进行客观评价分数校正，得到最终的客观评价分数。该方法全面地考虑了影响音频质量的因素，使客观评价方法能够较好地模拟主观评价结果。

Description

一种基于失真校正的压缩域音频质量客观评价方法

技术领域

本发明涉及音频质量客观评价的一种方法，属于通信领域。

背景技术

随着多媒体技术的发展，数字压缩音频被广泛应用于网络、广播、影视和移动多媒体通信等领域。但是，音频压缩是有损压缩，压缩会造成音频质量的下降。为了保障提供给用户较好的音频质量，有必要对压缩后的音频进行质量评价。音频质量的评价方法包括主观评价方法和客观评价方法。

主观评价的结果与人耳的实际感受一致。但是，主观评价需要较大的开销，费时、费力；主观评价受听音者的生理和心理状况、听音环境等条件影响比较大；主观评价不能用于广播电视等业务的音频质量的实时监控。因此，有必要研究音频质量的客观评价方法。

ITU-RBS.1387标准(简称为PEAQ)是迄今为止唯一的音频质量客观评价国际标准。PEAQ对原始音频和受损音频进行快速傅立叶变换或滤波器组变换，在变换域度量原始音频和受损音频之间的差别，计算出特征值(MOV)，并对这些特征值进行神经网络拟合，得到受损音频的客观评价公式。PEAQ是一个全参考的音频质量评价方法，需要参考原始音频进行音频质量客观评价，实际应用时很难获取原始音频；PEAQ运算复杂度较高，不适合应用到对实时性要求较高的场合。

徐晓娜提出一种压缩域音频质量客观评价方法，不需要参考原始音频，运算复杂度较低，能达到实时应用的要求。该方法从压缩后的音频流中提取出码率和尺度因子，并采用PEAQ对这些音频进行客观评分，用这些音频的PEAQ评分对码率和尺度因子进行线性拟合，得到音频的评分与码率、尺度因子之间的线性拟合公式。对需要进行客观评价的音频进行评分时，提取出该音频的码率和尺度因子，代入上述公式，计算得到该音频的客观评价分数。

低码率音频压缩编码会引入一些特殊的失真，一旦出现这些失真，音频质量会严重下降。PEAQ提出的初衷是对各种编码算法和编码软件进行评估，针对的是高码率高质量的音频，没有相应的特征值度量这些低码率下的音频失真。徐晓娜提出的方法也没有考虑这些失真的影响。

音频压缩编码造成的失真类型较多。其中，对低码率压缩音频质量影响较大的失真包括前回声失真、频率失真和语音编码失真等。

造成前回声失真的原因是对音频信号的压缩编码为按帧编码。当一帧内有瞬时突变信号时，该帧能量较大，每个子带只能分配较少的比特，量化误差较大。而且量化误差在时域会扩散到整个帧内。由于突变信号能量较大，能掩蔽较大的量化误差带来的失真，因此不会影响突变信号的主观听感。但对一帧中能量较低的部分(即静音)，量化误差带来的失真就会变得很突出。

频率失真是指低码率压缩编码时，由于可用比特数有限，音频在被编码前通常要进行低通滤波，但编码后的音频有一些会出现频谱异常的现象，即解压缩后的音频中出现远超过低通滤波器的通带截止频率的频率成分。这些超过低通滤波器通带截止频率的频率成分，不是原始音频中包含的频率成分，而是编码过程中引入的失真。解压缩后的音频听起来会很刺耳。因此会严重降低解压缩后的音频的质量。

音频编码器针对普通音频信号的编码有较好的效果，但语音信号有特殊性，低码率音频压缩编码时，对语音信号编码的质量较差，能听到明显的失真。相同码率下，交响乐、钢琴等乐器类音频的质量要远好于语音。

本发明提出一种基于失真校正的压缩域音频质量客观评价方法。从压缩后的音频流中提取出码率、尺度因子、前回声失真、频率失真和语音编码失真特征参数；首先采用码率和尺度因子对音频质量进行基本评价，给出一个初步的客观评价分数；然后根据前回声失真、频率失真、语音编码失真特征参数判断其是否存在上述一种或多种失真，如果存在上述失真，则在第一步评分的基础上进行失真校正，得到最终的客观评价分数。该方法全面地考虑了影响低码率音频质量的因素，使客观评价方法较好地模拟主观评价结果。

发明内容

为了对低码率压缩后的音频进行无参考客观评价，本发明提出了一种基于失真校正的压缩域音频质量客观评价方法。

为实现上述的发明目的，本发明采用下述的技术方法：

1.音频质量主观评价方法

选取一些具有典型特征的音频，对选中的每段音频分别进行16kbps、24kbps和32kbps码率的压缩，并对压缩再解压后的每段音频进行主观评价，得到每段音频的主观评价分数。

2.压缩域音频质量特征参数提取方法

从压缩后的音频流中提取出码率、尺度因子、前回声失真、频率失真和语音编码失真特征参数。

通常情况下，压缩后的码率越高，则压缩带来的音频损伤越小，音频质量则越好。但是，即使码率相同，不同的音频素材压缩后的质量并不相同。因此，有必要进一步提取能反映这种质量差别的特征参数。尺度因子反映了音频被压缩时的量化等级，而量化是造成压缩音频质量损伤的原因。本方法从压缩后的音频中提取尺度因子来度量音频质量的损伤程度。

当音频信号包含瞬态信号(如响板)时，低码率压缩下会产生前回声失真。为了降低前回声失真，音频编码器通常会采用长短窗切换的技术。对于平稳信号，采用长窗，以提高编码效率；对于类似响板的瞬态信号，采用短窗，以降低前回声失真。但是，对于低码率音频压缩，即使采用了长短窗切换技术，瞬态信号解压后仍然存在明显的前回声失真。统计音频流中短窗所占的比例，可以判断该音频是否包含瞬态信号，因而进一步判定该音频中是否包含前回声失真。

造成频率失真的原因是解压缩后的音频信号中引入了原始信号中没有的高频成分，解码后的音频听起来很刺耳。通过分析压缩域每一帧的带宽，可以判断该类型失真是否存在。

当音频压缩码率很低时，语音信号(男声和女声)编码会存在明显的失真。客观评价时应对语音编码失真进行分数校正。

3.码率和尺度因子参数拟合方法

排除每种码率(16kbps、24kbps和32kbps)下分数远低于其他音频的音频素材，目的是排除前回声失真、频率失真和语音编码失真造成的影响。仅采用主观评价分数较高的音频进行码率、尺度因子与主观评价分数的参数拟合，得到客观评价分数与码率、尺度因子之间的计算公式。

4.前回声失真、频率失真和语音编码失真校正方法

对每种码率(16kbps、24kbps和32kbps)下分数远低于其他音频的音频，进行前回声失真、频率失真和语音编码失真客观评价分数校正。

当短窗比例超过门限值时，前回声失真明显。短窗比例超过门限值越多，前回声失真越严重，客观评价分数应越低。根据短窗比例，校正客观评价分数。

当音频带宽超过该码率下的平均带宽时，意味着该音频发生了频率失真。根据音频带宽，对客观评价分数进行校正。

当音频压缩码率很低时，语音(男声和女声)编码会存在明显的失真。语音信号左右声道相关性很强。在AAC音频编码标准下，M/S编码利用M与S来代替原来的左右声道L和R，M＝(L+R)/2，S＝(L-R)/2。经过M/S编码后，S声道的频谱系数常常会很小，因此整个子带可能都会被量化为0。根据S声道的非0子带数，可以判断该音频是否为语音，并实现语音编码失真的客观评价分数校正。

5.压缩域音频质量客观评价方法

从需要进行客观评价的音频流中提取出码率、尺度因子、前回声失真、频率失真和语音编码失真特征参数。首先把码率和尺度因子代入客观评价公式，计算得到初步的客观评价分数；然后根据前回声失真、频率失真和语音编码失真特征参数判断该音频中是否存在这三种失真，当音频中存在一种或多种上述失真时，在第一步评分的基础上进行分数校正，得到最终的客观评价分数。

本发明实施例提供的技术方案的有益效果是：

1.在采用码率和尺度因子对音频进行初步客观评价的基础上，进一步考虑低码率下严重影响音频质量的失真对音频质量的影响，并对客观评价分数进行失真校正，得到校正后的音频质量客观评价分数。本方法全面地考虑了影响音频质量的因素，和主观评价拟合准确度高。

2.本方法属于无参考音频质量客观评价方法，不需要参考原始音频，能够应用于不能获取原始音频的场合。

3.本方法计算复杂度低，可以实时运算，实现对音频质量的实时监控。

附图说明

图1为采用基于失真校正的压缩域音频质量客观评价方法对压缩后的音频进行实时评价的示意图

图2为本发明的框架图

图3为基于失真校正的压缩域音频质量客观评价方法流程图

图4为对音频进行客观评价的流程图

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合图对本发明做进一步描述。

图3和图4所示为本发明的流程图。具体流程如下描述。

步骤1：选取15段音频压缩再解压并进行主观评价打分，用于在步骤3中进行参数拟合，得到拟合系数；在步骤5中进行失真校正，得到失真校正系数。每段音频的长度在10秒到20秒之间，音频的类型包括男声、女声、响板、钢琴、交响乐和电影配乐等。分别进行16kbps、24kbps和32kbps码率的压缩，并对压缩再解压后的每段音频进行主观评价，得到压缩后音频的主观评价分数；

步骤2：从压缩后的每段音频流中提取出音频质量特征参数：码率、尺度因子、短窗比例、带宽和S声道非0子带数；

步骤3：采用每种码率(16kbps、24kbps和32kbps)下主观评价分数较高的音频进行码率、尺度因子与主观评价分数的参数拟合，得到客观评价分数与码率、尺度因子之间的计算公式；

步骤4：对每种码率(16kbps、24kbps和32kbps)下分数远低于其他音频的音频，采用步骤3中的公式，根据码率和尺度因子计算得到客观评价分数；

步骤5：对步骤4中的音频进行前回声失真、频率失真和语音编码失真客观评价分数校正，并得到失真校正系数；

步骤6：从需要进行客观评价打分的音频流中提取出码率、尺度因子、短窗比例、带宽和S声道非0子带数；

步骤7：采用步骤3中的公式，根据码率和尺度因子计算得到客观评价分数；

步骤8：根据短窗比例、带宽和S声道非0子带数，判断音频中是否存在前回声失真、频率失真和语音编码失真，当存在一种或多种失真时，对步骤7中得到的客观评价分数进行校正，并得到该音频的最终的客观评价分数。

上面对本发明所述的一种基于失真校正的压缩域音频质量客观评价方法进行了详细的说明，但本发明的具体实现形式并不局限于此。以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于失真校正的压缩域音频质量客观评价方法，其特征在于：选择一些具有典型特征的音频，进行不同码率的压缩，并对压缩再解压后的音频，进行主观评价打分；从码流中提取出每种码率下每段音频的码率、尺度因子、前回声失真、频率失真和语音编码失真特征参数；对主观评价得分较高的音频，用码率和尺度因子进行主、客观评分拟合，得到初步的客观评价分数；对主观评价得分远低于其他大多数音频的音频，首先采用码率和尺度因子计算出初步的客观评价分数，然后分析其包含的失真类型，并建立校正后的客观评价分数与初步客观评价分数、失真特征值之间的校正公式；从需要进行客观评价的音频流中提取出码率、尺度因子、前回声失真、频率失真和语音编码失真特征参数，根据码率和尺度因子计算得到该音频的初步的客观评价分数，再根据前回声失真、频率失真和语音编码失真特征参数，判断是否存在上述失真，当存在上述失真时，进行客观评价分数校正，得到最终的客观评价分数。

2.如权利要求1所述的基于失真校正的客观评价方法，其特征在于，首先采用码率和尺度因子计算得到一个初步的客观评价分数，再根据前回声失真、频率失真和语音编码失真特征参数，对初步得到的客观评价分数进行校正，得到最终的客观评价分数。