CN102549657A

CN102549657A - 用于确定音频系统的感知质量的方法和系统

Info

Publication number: CN102549657A
Application number: CN2010800463906A
Authority: CN
Inventors: J.比伦德斯; J.范武格特
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2009-08-14
Filing date: 2010-08-09
Publication date: 2012-07-04
Anticipated expiration: 2030-08-09
Also published as: ES2526126T3; WO2011018428A1; CN102549657B; US9025780B2; EP2465112B1; DK2465112T3; EP2465112A1; US20120148057A1

Abstract

本发明涉及一种用于关于参考信号确定质量指标的方法，该质量指标代表音频设备的输出信号的感知质量。这样的音频设备可以例如是语音处理系统。在该方法中，处理和比较参考信号和输出信号。该处理包括将参考信号和输出信号划分成相互对应时间帧。该处理还包括将参考信号缩放成固定声强级。基于对缩放的参考信号执行的测量来选择输出信号的时间帧。然后基于输出信号的所选时间帧来计算噪声对比度参数。基于噪声对比度参数对参考信号和输出信号中的至少一个应用噪声抑制。最后，将参考信号和输出信号感知相减以形成差值信号并且根据差值信号导出质量指标。

Description

用于确定音频系统的感知质量的方法和系统

技术领域

本发明涉及一种用于关于参考信号确定质量指标的方法，该质量指标代表音频设备（例如语音处理系统）的输出信号的感知质量。本发明还涉及一种包括例如存储于计算机可读介质上的计算机可执行代码的计算机程序产品，该计算机可执行代码适于在由处理器执行时执行这样的方法。最后，本发明涉及一种用于关于音频系统的用作参考信号的输入信号确定质量指标的系统，该质量指标代表音频系统的输出信号的感知质量。

背景技术

可以主观或者客观地确定音频设备的质量。主观测试耗费时间、昂贵并且难以再现。因此已经开发若干方法以客观方式测量音频设备的输出信号（特别是语音信号）的质量。在这样的方法中，通过与参考信号比较来确定如从语音信号处理系统接收的输出信号的语音质量。

广泛用于这一目的的当前方法是在标题为“Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs”的ITU-T Recommendation P.862中描述的方法。在ITU-T Recommendation P.862中将确定来自语音信号处理系统的输出信号（该信号一般失真）的质量。输出信号和参考信号（例如语音信号处理系统的输入信号）根据人类听觉系统的心理-生理（psycho-physical）感知模型映射到表示信号。基于这些信号，确定差分信号，该差分信号代表如与参考信号相比的输出信号内的失真。然后根据其中已经对基于测试的人类听力感知的某些性质建模的认知模型处理差分信号以获得质量信号，该质量信号是输出信号的听觉感知的质量的测量。

一般而言，客观测量系统（比如PESQ）在质量减少方面解释噪声。然而这一解释过于简单。在当今电信系统（具体为使用IP语音（VOIP）和相似技术的系统）中，噪声对语音质量的影响依赖于局部信号电平而变化。因而PESQ常常未提供在变得越来越流行的这样的电信系统中处理的语音信号的最优感知预测。

发明内容

希望具有一种确定音频系统的传输质量的方法，该方法提供在如客观测量确定的语音质量与如在主观测试中确定的语音质量之间的改进相关性。出于这一目的，本发明的实施例涉及一种用于关于参考信号确定质量指标的方法，该质量指标代表音频设备（例如语音处理系统）的输出信号的感知质量，其中处理和比较参考信号和输出信号，并且该处理包括将参考信号和输出信号划分成相互对应时间帧，其中处理该还包括：将参考信号缩放成固定声强级；基于对缩放的参考信号执行的测量来选择输出信号的时间帧；基于输出信号的所选时间帧来计算噪声对比度参数，噪声对比度参数是信号内的噪声对比度的测量；基于噪声对比度参数在感知响度域中应用参考信号和输出信号中的至少一个的噪声抑制；将参考信号和输出信号感知相减以形成差值信号并且根据差值信号导出质量指标。质量指标提供音频系统的传输质量的客观指示，该指示可以用来相互比较不同音频系统。可以用根据PESQ已知的方式执行质量指示的导出。

噪声对比度涉及优选随时间测量的噪声电平的变化。将考虑噪声电平的绝对值和噪声的方差。噪声电平随时间的变化可以在确定噪声对比度参数时发挥相关作用。图6A-6F示出了作为时间函数的噪声电平的示意图以进一步说明噪声对比度的概念。

图6A示出了作为时间函数的噪声电平的示例性图，该图示范噪声对比度的概念。在这一例子中，平均噪声电平例如在时间段T ₂期间一般驻留于某一基本电平周围并且例如在时间段T ₁期间偶尔具有更高噪声电平。图6A中的信号的噪声对比度涉及如在时间段T ₁期间存在的高噪声电平与如在时间段T ₂期间存在的普通噪声电平之间的差。噪声对比度对音频设备的输出信号的感知质量有影响。如果这样的输出信号将包括如图6A中所示的噪声模式，则超过正常噪声电平的更高噪声电平部分的存在可能如被收听者体验为高度干扰。具体而言，噪声电平的改变使收听者集中于噪声。可变噪声电平因此一般被体验为比恒定噪声电平更令人烦躁。

可以通过相互比较信号的不同部分来确定噪声对比度。每个部分可以具有某一长度。参考图6B、6C中所示图示范对在噪声对比度评价中使用的信号部分时间区间长度的影响。

图6B、6C示出了两个信号的噪声电平。对于两个信号，噪声正态分布（normally distributed）。信号的噪声电平具有相同均值噪声电平，然而噪声的方差不同。图6B中的噪声的3σ置信度区间大于图6C中所示3σ置信度区间。注意置信度区间内所示规则噪声电平变化不可能在现实中出现并且仅用来示出信号可以在置信度区间内广泛变化。

在图6B、6C中，如果用来评价噪声对比度的信号部分充分大（例如时间段T ₃），则在这些信号部分内的平均噪声电平值等于噪声电平的均值。将针对所有信号部分发现这一个值从而产生等于零的噪声对比度。

然而如果用来评价噪声对比度的部分的时间段相对短（例如图6A、6B中所示长度T ₄），则在每个部分内的噪声电平的平均值将完全不同于长期均值噪声电平值和其他部分。噪声对比度然后将因此不等于零。在这样的情况下，噪声电平的方差可以对噪声对比度具有显著影响。图6B中的信号的噪声方差大于图6C中的信号的噪声方差。由于图6B的信号中的噪声电平值的更宽展开，所以在所选短时间段内的平均噪声电平与更长期均值噪声电平之间的差将一般大于在图6C中所示信号的相似评价期间获得的这样的差值。因而，如果使用短时间段，则图6B中的信号的噪声对比度将大于图6C中的信号的噪声对比度。如参考图6B、6C描述的噪声对比度对于收听者体验的干扰而言指示性更低。因此优选将充分长的时间段选择用于噪声对比度的评价。

一般而言，噪声对比度参数可以定义为在信号的部分内的噪声对比度的测量。更具体而言，噪声对比度参数是在输出信号内的所选部分（例如所选时间帧）之间的噪声电平变化的测量。信号部分的选择可以基于人类听觉系统的心理生理感知模型。例如选择用于测量噪声电平并且计算噪声对比度参数的信号部分可以牢记噪声电平变化可以比测量的绝对噪声电平更重要。这包含如下情形，在该情形中，收听者将背景噪声电平变化视为比具有略微更高平均噪声电平而更少变化的噪声更令人烦躁。尚未在用于确定音频设备的传输性质的感知质量的当前方法（诸如PESQ）中包括这样的优选。

图6D-6F还示范例如如下考虑，针对基于在信号的不同部分中测量的噪声电平来计算噪声对比度参数可以考虑的该考虑。

图6D描绘了作为时间函数的两个信号（即信号I和信号II）的噪声电平变化。在所示整个时间段内，信号I的噪声电平大于信号II的噪声电平。然而两个信号的噪声对比度相同。

噪声对比度参数可以是噪声对比度的测量，其中考虑噪声电平的绝对值或者其中仅考虑噪声电平的绝对差值。信号II的噪声电平变化与绝对噪声电平成比例地更大。可以计算噪声对比度参数以考虑这一点，使得信号II的噪声对比度参数因此可以大于信号I的噪声对比度参数。通过在计算中使用绝对噪声电平，噪声对比度参数现在可以理解为比在更高噪声电平的噪声对比度更易受在更低噪声电平的噪声对比度影响。使用这一类型的测量可以有益于改进音频信号的感知质量的确定，因为收听者通常对在低噪声电平的噪声电平变化比对在高噪声电平的相似噪声电平变化更敏感。另外，噪声电平的单个迅速改变可以使收听者集中于干扰背景噪声并且因此可以造成这一背景噪声电平对感知的总语音质量的更大影响。

还可以定义噪声对比度参数使得它如将参考图6E、6F所示对于不同类型的噪声电平变化而言不同。在这些图中，仅示出了信号的均值噪声电平。

图6E示出了作为时间函数的噪声电平的图，其中噪声电平始于高噪声电平并且在时间段T ₅内保持于该电平。噪声电平然后在时间段T ₆期间逐渐下降到更低噪声电平并且在时间段T ₅内保持于这一电平。

图6F示出了作为时间函数的噪声电平的图，其中噪声电平始于低噪声电平并且在时间段T ₅内保持于该电平。噪声电平然后在时间段T ₆内上升并且在时间段T ₅内保持于该更高噪声电平。

在所示时间区间（即2xT ₅ + T ₆）期间，图6E、6F中所示信号的平均噪声电平相同。然而，即使平均噪声电平相同，噪声电平的感知可以对于噪声电平不同，这些噪声电平与随时间减少的噪声电平对照随时间增加。具体而言，如果所示时间区间代表其中无语音的时间区间，则在这样的静默时段期间的噪声增加可以被体验为比噪声减少更令人烦躁。

现在可以用考虑这一感知方面这样的方式定义噪声对比度参数。例如可以定义噪声对比度参数使得向在评价的时间区间内的更晚时间的信号部分给予比在时间区间内的更早信号部分更多的权重。在图6E、6F中所示情形的情况下，可以通过将在噪声电平逐渐改变之前在时间段T ₅中测量的噪声电平与在该逐渐改变之后在时间段T ₅中测量的噪声电平相除来定义噪声对比度参数。在这样的情况下，图6E中所示噪声电平变化的噪声对比度参数小于1，而图6F中所示噪声电平变化的噪声对比度参数大于1。

噪声对比度参数因此用来进一步解决主观噪声感知。使用信号内的噪声对比度改进在客观测量获得的语音质量与如在主观测试期间确定的语音质量之间的相关性。

在一个实施例中，导出噪声对比度参数包括：取得输出信号内的第一所选时间帧；取得输出信号内的第二所选时间帧；并且基于第一所选时间帧和第二所选时间帧来确定噪声对比度参数。在又一实施例中，确定噪声对比度参数可以包括：通过将第一所选时间帧的强度值与第二所选时间帧的强度值相除来确定分数；通过使用具有预定压缩系数的幂律（power law）来压缩分数以便获得噪声对比度参数。如果压缩的分数在预定固定值以下，则可以将噪声对比度参数设置成预定固定值。

在一个实施例中，对参考信号应用噪声抑制包括：在具有在阈值以下的检测声强级的多个时间帧内计算参考平均噪声谱密度；基于在客观与主观质量评估信息之间的优化相关性来确定参考噪声抑制因子；并且基于参考噪声抑制因子和参考平均噪声谱密度来计算所需噪声电平。对缩放的参考信号执行的参考噪声抑制因此可以被布置成将噪声抑制直至如下噪声电平，该噪声电平被视为希望的低噪声电平。可以在主观质量评估实验中确定这样的希望的低噪声电平。

在一个实施例中，对输出信号应用噪声抑制包括：在与参考信号内的具有在阈值以下的检测声强级的时间帧对应的多个时间帧内计算平均输出噪声谱密度；基于在客观与主观质量评估信息之间的优化相关性来确定低噪声电平常数；基于在客观与主观质量评估信息之间的优化相关性来确定输出噪声抑制因子；并且通过使用低噪声电平常数、输出噪声抑制因子和平均输出噪声谱密度来计算代表输出信号中的干扰的噪声电平。对输出信号执行的输出噪声抑制然后可以被布置成将噪声抑制直至代表干扰的噪声电平。输出噪声抑制可以依赖于频率。

在一个实施例中，该处理还包括：将参考信号和输出信号从时域变换到时间-频率域；根据参考信号导出参考音调功率密度函数并且根据输出信号导出输出音调功率密度函数；局部缩放参考音调功率密度函数以获得局部缩放的参考音调功率密度函数；关于频率部分地补偿输出音调功率密度函数或者局部缩放的参考音调功率密度函数；并且导出参考响度密度函数和输出响度密度函数。

在又一实施例中，该处理还包括：将参考音调功率密度函数的强度从固定声强级缩放成与输出音调功率密度函数有关的声强级以获得在音调功率密度函数之间的声强级差，该声强级差允许量化声强级对感知质量的影响；在感知响度域中将输出响度密度函数的响度缩放成固定响度级；并且在感知响度域中将参考响度密度函数的响度从与输出有关的声强级对应的响度级缩放成与输出响度密度函数的响度级有关的响度级以获得在参考响度密度函数与输出响度密度函数之间的响度级差，该响度级差允许量化响度对输出信号的感知质量的影响。

在一些实施例中，本发明还涉及一种用于关于参考信号确定两个质量指标的方法，这两个质量指标代表音频设备（例如语音处理系统）的输出信号的感知质量，该方法包括：执行任一上述方法实施例用于关于总降级确定代表质量的第一质量指标；并且执行任一上述方法实施例用于确定第二质量指标，该第二质量指标关于与参考信号相比较添加的降级来代表质量。在又一实施例中，确定第一质量指标包括标识缩放的参考信号内的具有在第一阈值以下的检测声强级的时间帧序列，并且确定第二质量指标包括标识缩放的参考信号内的具有在第二阈值以下的检测声强级的时间帧序列，该第二阈值大于第一阈值。

在一个实施例中，选择时间帧包括选择与缩放的参考信号的满足预定条件的时间帧对应的输出信号的时间帧。这样的预定条件可以包括缩放的参考信号的作为静默帧的时间帧具有在阈值以下的声强级值。在又一实施例中，预定条件还包括缩放的参考信号的时间帧是作为静默区间的一系列连续静默帧的部分。使用静默帧和/或静默区间改进噪声对比度参数的可靠性，并且因此允许进一步改进在如可观测量确定的语音质量与如在主观测试中确定的语音质量之间的相关性。

在实施例中，本发明涉及一种包括例如存储于计算机可读介质上的计算机可执行代码的计算机程序产品，该计算机可执行代码适于在由处理器执行时执行任一上述方法实施例。

最后，在实施例中，本发明涉及一种用于关于音频系统（例如语音处理设备）的用作参考信号的输入信号X(t)确定质量指标的系统，该质量指标代表音频系统的输出信号Y(t)的感知质量，该系统包括：预处理设备，用于预处理参考信号和输出信号；用于处理参考信号的第一处理设备和用于处理输出信号的第二处理设备，用于分别获得用于参考信号和输出信号的表示信号R(X)、R(Y)；差分设备，用于组合参考信号和输出信号的表示信号以便获得差分信号D；以及建模设备，用于处理差分信号以获得质量信号Q，该质量信号Q代表语音处理系统的感知质量的估计；其中预处理设备、第一处理设备和第二处理设备形成用于执行任一上述方法实施例的处理系统。。

附图说明

在附图中：

图1示意地示出了包括用于关于参考信号确定质量指标的系统的总体设置，该质量指标代表音频设备的输出信号的感知质量；

图2示意地示出了用于根据PESQ关于参考信号确定质量指标的方法，该质量指标代表音频设备的输出信号的感知质量；

图3示意地示出了根据本发明一个实施例的关于参考信号确定质量指标的方法，该质量指标代表音频设备的输出信号的感知质量；

图4示意地示出了应用于图2中所示方法的本发明一个实施例；

图5示意地示出了应用于其他方法的本发明一个实施例；并且

图6A-6F示出了在作为时间函数的噪声电平的不同图。

具体实施方式

下文是仅通过例子给出的对本发明某些实施例的描述。

在该描述全文中，将关于对信号执行的操作来使用术语“局部”和“全局”。“局部”操作是指对时间信号的部分（例如对单帧）执行的操作。“全局”操作是指对整个信号执行的操作。

在该描述全文中，可以相对于从音频系统（比如语音处理设备）的输出发出的信号使用术语“输出”和“失真”。在该描述全文中，可以相对于作为向音频系统的输入而赋予的信号使用术语“参考”和“原始”，该信号还用作输出或者失真信号将与之比较的信号。

图1示意地示出了包括用于关于参考信号确定质量指标的系统的总体设置，该质量指标代表音频设备（例如语音处理系统）的输出信号的感知质量。该设置包括受考察的音频系统10（例如电信网络、网元或者在网络或者移动台中的语音处理设备）。该设置也包括用于测量音频系统的传输质量的系统20，下文称为质量测量系统20。

质量测量系统20被布置成接收两个输入信号。第一输入信号是向质量测量系统20直接提供（即未经由音频系统10提供）的并且用作参考信号的语音信号X(t)。第二输入信号是与受音频系统10影响的语音信号X(t)对应的语音信号Y(t)。质量测量系统20提供输出质量信号Q，该输出质量信号Q代表经过音频系统10的语音链路的感知质量的估计。

在这一实施例中，质量测量系统20包括用于处理两个输入信号X(t)、Y(t)使得可以提供输出信号Q的预处理部20a、处理部20b和信号组合部20c。

预处理部20a包括被布置成执行一个或者多个预处理动作（诸如固定电平缩放和时间对准）以获得预处理信号X _p (t)和Y _p (t)的预处理设备30。

质量测量系统20的处理部20b被布置成根据人类听觉系统的生理-心理感知模型将预处理信号映射到表示信号。在第一处理设备40a中处理预处理信号X _p (t)以获得表示信号R(X)，而在第二处理设备40b中处理预处理信号Y _p (t)以获得表示信号R(Y)。

质量测量系统20的信号组合部20c被布置成通过使用差分设备50来组合表示信号R(X)、R(Y)以获得差分信号D。最后，建模设备60根据如下模型处理差分信号D，在该模型中已经对人类的某些性质建模以获得质量信号Q。可以经由对多个人类主体执行的主观听力测试来获得人类性质（例如认知性质）。

预处理设备30、第一处理设备40a和第二处理设备40b可以形成可以用来执行如后文将更详细说明的本发明实施例的处理系统。处理系统或者其部件可以采用硬件处理器（诸如专用集成电路（ASIC））或者计算机设备的形式，用于运行软件或者固件形式的计算机可执行代码。计算机设备可以例如包括处理器和通信耦合到处理器的存储器。存储器的例子包括但不限于只读存储器（ROM）、随机访问存储器（RAM）、可擦除可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）和闪存。

计算机设备还可以包括用于实现外部用户的指令或者通知输入的用户接口。用户接口的例子包括但不限于鼠标、键盘和触屏。

计算机设备可以被布置成加载存储于计算机可读介质（例如紧致盘只读存储器（CD ROM）、数字视频盘（DVD））或者任何其它类型的已知计算机可读数据载体上的计算机可执行代码。出于这一目的，计算机设备可以包括读取单元。

存储于计算机可读介质上的计算机可执行代码在代码加载到计算机设备的存储器中之后可以适于执行后文将描述的本发明实施例。

替代地或者除此之外，这样的本发明实施例可以采用包括计算机可执行代码的计算机程序产品的形式，该计算机可执行代码用于在计算机设备上执行时执行这样的方法。该方法然后可以在计算机可执行代码加载到计算机设备的存储器中之后由计算机设备的处理器执行。

因此，客观感知测量方法以预测音频系统（诸如语音编解码器、电话链路和移动手持社保）的主观感知质量为目标在计算机程序中模拟主体的声音感知。受测试的设备的输入和输出的物理信号映射到与在人类的头部以内的内部表示尽可能接近匹配的生理心理表示。基于内部表示的差值判断受测试设备的质量。最知名的当前可用的客观感知测量方法是PESQ（语音质量的感知评价）。

图2示意地示出了用于根据如在ITU-T Recommendation P.862中制定的PESQ（下文称为PESQ）关于参考信号确定质量指标的方法，该质量指标代表音频设备的输出信号的感知质量。PESQ可以使用于如图1中示意地示出的设置中。在PESQ中，比较参考信号X(t)与输出信号Y(t)，该输出信号Y(t)是经过音频系统（例如语音处理系统（比如通信系统））传递X(t)的结果。PESQ的输出质量信号（也称为PESQ分数）是主体在主观听力测试中将向Y(t)给予的感知质量的预测。PESQ分数采用所谓的平均意见分数（MOS）的形式。出于这一目的，PESQ输出映射到类似于MOS的标度（即范围为-0.5至4.5的单个数字），尽管对于多数情况而言输出范围将在1.0与4.5之间，这是在绝对类别评级（ACR）听力质量实验中发现的MOS值的通常范围。

PESQ中的预处理包括两个信号X(t)、Y(t)的电平对准以分别获得信号X _s (t)、Y _s (t)以及中间参考系统（IRS）滤波以分别获得信号X _IRSS (t)、Y _IRSS (t)。电平对准涉及到将强度缩放成固定电平，在PESQ中为79dB SPL。执行IRS滤波以保证测量传输质量的方法对例如移动电话等电信系统单元的滤波相对不敏感。最后确定在参考信号X _IRSS (t)与Y _IRSS (t)之间的时间延迟从而导致时移输出信号Y _IRSS ’(t)。现在假设在参考信号与输出信号之间的比较关于相同时间发生。

人耳执行时间-频率变换。在PESQ中，通过对时间信号X _IRSS (t)和Y _IRSS ’(t)用汉宁窗执行短期快速傅里叶变换（FFT）来对这一变换建模。汉宁窗通常具有32ms的大小。下文称为帧的相邻时间窗通常重叠50%。丢弃相位信息。复FFT分量（即功率谱）的平方实部与平方虚部之和用来获得功率表示PX _WIRSS (f) _n和PY _WIRSS (f) _n，其中n表示考虑的帧。在下文称为FFT频带的频带中划分功率表示。

人类听觉系统在低频比在高频具有更细微的频率分辨率。音调标度反映这一现象，并且出于这一原因，PESQ将频率规整成音调标度（在这一情况下规整成所谓Bark标度）。（离散）频率轴的转换涉及到使FFT频带入仓（binning）以形成Bark频带（通常为24个）。所得信号称为音调功率密度或者音调功率密度函数并且表示为PPX _WIRSS (f) _n和PPX _WIRSS (f) _n。考虑感知频率，音调功率密度函数提供与音频信号在人类听觉系统中的心理生理表示类似的内部表示。

为了处理在待测试的音频系统中的滤波，参考和输出音调功率密度的功率谱随时间平均。根据输出谱与参考谱之比计算部分补偿因子。每帧n的参考音调功率密度PPX _WIRSS (f) _n然后与该部分补偿因子相乘以均衡参考与输出信号。这产生逆滤波参考音调功率密度PPX ^’ _WIRSS (f) _n。使用这一部分补偿是因为温和滤波几乎不值得注意而严重滤波可能打扰收听者。对参考信号执行补偿是因为输出信号是主体在ACR听力实验中判断的信号。

为了补偿短期增益变化，计算局部缩放因子。局部缩放因子然后与输出音调功率密度函数PPY _WIRSS (f) _n相乘以获得局部缩放音调功率密度函数PPY ^’ _WIRSS (f) _n。

在对参考信号执行的滤波的部分补偿和对输出信号执行的短期增益变化的部分补偿之后，使用Zwicker定律将参考和降级音调功率密度变换成宋（Sone）响度标度。所得二维数组LX(f) _n和LY(f) _n分别称为用于参考信号和输出信号的响度密度函数。对于LX(f) _n，这意味着：

Figure 2010800463906100002DEST_PATH_IMAGE001

其中P ₀ (f)是绝对听力阈值，S _l是响度缩放因子，而γ（所谓Zwicker功率）具有约0.23的值。考虑响度感知，响度密度函数代表音频信号在人类听觉系统中的内部心理生理表示。

然后将参考和输出响度密度函数LX(f) _n、LY(f) _n相减从而获得差值响度密度函数D(f) _n，可以根据该差值响度密度函数导出感知质量测量或者质量指标。可以用如下文描述的方式完成这样的导出。可以在通过引用而包含于此的ITU-T Recommendation P.862中发现更多细节。

如上文提到的那样，将参考和输出响度密度函数LX(f) _n、LY(f) _n相减，这产生有符号差值。当这一差值为正（即LY(f) _n大于LX(f) _n）时，已经添加分量（诸如噪声）。另一方面，当这一差值为负时，已经从原始信号省略分量。差值响度密度函数形成可以称为原始干扰密度的差值数组。同时对于每个时间和频率，例如通过与在PESQ中等于0.25的乘法因数相乘来计算和压缩参考和输出响度密度函数的最小值。后续最小化和压缩产生又称为掩蔽数组的二维数组。如果原始干扰密度为正并且大于掩蔽数组中的相应对应值，则从原始干扰密度减去相应掩蔽数组值。如果原始干扰密度落在掩蔽数组值的正与负（plus and minus）量值之间，则干扰密度设置成零。如果原始干扰密度比负掩蔽数组值的更负，则将该值与原始干扰密度相加。这些比较和后续修改的结果产生作为时间（窗编号n）和频率的函数的干扰密度D(f) _n。

如果因添加分量（诸如噪声）而使输出信号失真，则可以在输入信号和失真中分解输出信号。然而如果因去除分量而使输出信号失真，则不能容易执行这样的合成（如果确实可以完成合成）。这一情形在PESQ中称为不对称效应，并且通过将干扰密度D(f) _n与不对称因子相乘来计算每帧不对称干扰密度DA(f) _n对该情形建模。在PESQ中，这一不对称因子等于提升至1.2的幂的输出与参考音调功率密度之比。如果不对称因子少于在PESQ中等于3的预定阈值，则不对称因子设置成零。如果不对称因子超过在PESQ中等于12的另一预定阈值，则因子在该阈值被限幅。因此对于不对称干扰密度DA(f) _n，相应数组中的仅不等于零的值涉及如下数组单元，对于这些数组单元而言，输出音调功率密度超过原始音调功率密度。

然后使用两个不同的所谓Lp范数和对具有低响度的帧的加权沿着频率轴合成或者求和干扰密度D(f) _n和不对称干扰密度DA(f) _n、也就是：

其中M _n是布置成强调在输入信号中的静默期间出现的干扰的乘法因数，并且W _f是与使用的Bark仓的宽度成比例的一系列常数。等式（3）和（4）获得的合计值D _n和DA _n称为帧干扰。帧干扰限于在PESQ中等于45的最大值。如果连续帧具有在阈值以上的帧干扰，则可以重新对准它们。

接着在有限数量的帧（在PESQ中等于20帧）的区间内合计帧干扰值和不对称帧干扰值。这些区间具有通常为50%的重叠而未使用窗函数。然后在语音文件的活跃区间内针对干扰和不对称干扰合计有限数量的帧上合计值以分别形成平均干扰值和平均不对称干扰值。最终分数（即质量指标）然后是平均干扰值与平均不对称干扰值的线性组合。

图3示意地示出了根据本发明一个实施例的关于参考信号确定质量指标，该质量指标代表音频设备的输出信号的感知质量。在预处理动作（比如IRS滤波和时间延迟）之后，将参考信号和输出信号从时域变换到感知频域。这可以用与参考PESQ在图2中所示相似的方式来实现。也就是说，首先与FFT组合执行加窗函数以将信号从时域带到时间-频率域。在FFT之后，将信号规整成音调标度（例如Bark频率标度）以获得感知频率域中的表示。

此外，将参考信号全局缩放成固定声强级。可以如图3中所示在变换之后执行这一缩放动作，但是也可以在（感知）时间-频率域中执行该缩放动作。

在又称为感知频域的感知时间-频率域内，缩放参考信号可以受到如参考图2描述的频率补偿。类似地，输出信号可以受到局部缩放动作。也可以如图3中示意地示出的那样关于参考信号执行局部缩放。缩放参考信号和输出信号然后受到如参考图2中所示PESQ讨论的向响度标度的强度规整。现在在感知响度域中表示参考信号和输出信号。

除了都可以在如图2中所示基于PESQ的方法中以某些方式存在的所有前述动作之外，根据本发明实施例的确定质量指标的方法也包括在缩放参考系统中测量时间帧的声强级（下文也称为帧电平检测或者帧电平测量）。在帧电平检测动作中，确定与缩放参考信号内的时间帧的声强级有关的参数。这样的声强级参数可以例如对应于每个时间帧的平均声强级或者每帧的测量峰值声强级。

在缩放参考信号内时间帧的确定声强级参数用来选择输出信号内的将在鉴于噪声抑制的一个或者多个计算中包括的时间帧。在一个选择实施例中，标识缩放参考信号内的如下时间帧，对于这些时间帧而言，强度值落在下文称为静默标准值的某个值以下。在缩放参考信号内的如下时间帧将称为静默帧，对于该时间帧而言，强度值落在静默标准值以下。在输出信号内的所选时间帧对应于缩放参考信号内的静默帧。优选地，选择过程通过标识一系列连续静默帧（例如8个静默帧）来进展。下文将把这样的系列连续静默帧称为静默区间。在静默帧并且具体为静默区间内的静默帧内的测量声强级表达固有地存在于考虑的参考信号中的噪声电平。换而言之，无受测试设备的影响。

鉴于噪声抑制的计算包括计算噪声对比度参数。噪声对比度参数是信号一部分内的噪声对比度的测量。噪声对比度参数可以用来控制感知响度域内的参考和输出信号中的至少一个信号的噪声抑制。

噪声对比度参数计算可以包括输出信号内的与静默区间内的静默帧对应的一对时间帧。例如可以选择输出信号内的与8个连续时间帧的静默区间中的第一和第四时间帧对应的一对时间帧。在这一选择之后，可以基于所选两个时间帧的声强级确定分数参数。

在一个实施例中，在输出信号内的所选一对时间帧中的第一所选时间帧的声强级值除以该对中的第二时间帧或反之亦然来获得分数参数。在另一实施例中，可以通过相似除法、继而例如通过使用幂的压缩动作来获得分数参数FP、即：

幂系数α可以例如约为0.35并且用来避免与零相除的参数delta可以例如约为0.2。

然后，如果Powerselectedframe1代表第一所选帧的功率或者声强级，则可以将噪声对比度参数定义为基本上等于分数参数FP。噪声对比度参数然后量化从更低向更高背景噪声电平的跳跃。

下文提供的C程序代码进一步阐明根据上文讨论的本发明一个实施例的噪声对比度参数的计算例子：

在这一程序中，噪声对比度参数涉及称为noiseContrastMax的最大噪声对比度。此外，originalSilent[frame]涉及参考信号内的静默帧（帧是8个静默帧的静默区间的第一帧并且帧+7是这一静默区间的最后静默帧），并且aDistortedLoudness是指在与参考参考信号定义的静默区间内的帧对应的所选帧内的输出信号的响度级。在这一例子中，在等式（2）中称为α的幂系数等于0.35，而在等式（2）中的参数delta等于0.2。

另外，在这一例子中，如果压缩分数（如在除了末行之外的一行中定义的hulp1）在预定固定值（即1.0）以下，则噪声对比度参数等于预定固定值。如果压缩分数超过预定固定值，则噪声对比度参数等于压缩分数。在一个实施例中，搜索所有静默区间内的最大对比度。

与用于确定质量指标的现有技术方法（例如图2中示意地示出的PESQ）相比，图3中示意地示出的方法还包括一个或者多个噪声抑制动作。在这样的噪声抑制动作中使用的噪声抑制算法包括使用噪声对比度参数。可以对缩放参考信号以及对输出信号执行噪声抑制动作。在图3中所示实施例中，在感知响度域中，缩放参考信号和输出信号分别受到参考噪声抑制和输出噪声抑制动作。

参考噪声抑制可以包括基于在帧电平检测动作中执行的声强级测量在多个时间帧内计算参考平均噪声谱密度。如更早提到的那样，与属于静默区间的时间帧有关的数据优选用来获得参考平均噪声谱密度。在测试处理语音信号的设备的情况下，使用静默区间保证有语音对参考平均噪声谱密度的最小影响。此外，可以通过优化在客观与主观质量评估试验之间的相关性来确定参考噪声抑制因子。认为这样确定的参考噪声抑制因子代表理想噪声减少水平以便获得用于构造理想参考信号的理想低噪声电平。一般而言，这一电平将很低（例如在稳态的类似于粉红的噪声情况下约20 到 30 dB SPL）。参考噪声抑制因子一般具有在0.2与0.6之间的值。

对缩放参考信号执行的参考噪声抑制允许将噪声抑制直至如下噪声电平，该噪声电平被视为希望的低噪声电平。在一个实施例中，参考噪声抑制因子、平均参考噪声谱密度和噪声对比度参数用来计算所需低噪声电平。在一个实施例中，通过将平均参考噪声谱密度与除以噪声对比度参数的参考噪声抑制因子相乘来降低缩放参考信号在感知频域中的声强级。

在C程序中，关于参考信号的噪声抑制可以看来如下：

Figure 2010800463906100002DEST_PATH_IMAGE005

输出噪声抑制可以包括在多个时间帧内计算平均输出噪声谱密度。出于与参考参考噪声电平抑制讨论的原因相似的原因，优选地在缩放和时间对准参考信号中的与属于静默区间的静默帧对应的帧内计算平均输出噪声谱密度。

此外，确定低噪声电平常数和输出噪声抑制因子。低噪声电平常数对应于显得总是存在的低噪声电平并且不影响信号的质量感知。为了量化噪声影响，从噪声抑制中排除这一低噪声电平。输出噪声抑制因子的功能与参考缩放参考信号讨论的参考噪声抑制因子的功能相似。可以经由在客观与主观质量评估实验之间的相关性的优化来确定低噪声电平常数和输出噪声抑制因子。

对输出信号执行的输出噪声抑制可以被布置成将噪声抑制直至代表干扰的噪声电平。输出噪声抑制可以依赖于频率。

可以通过与噪声对比度参数组合使用低噪声电平常数、输出噪声抑制因子和平均输出噪声谱密度来计算代表输出信号中的干扰的噪声电平。噪声对比度参数可以用来适配低噪声电平常数的值以例如通过将低噪声电平常数与噪声对比度参数相乘来补偿噪声对比度差。类似地，可以通过与噪声对比度参数相除来适配输出噪声抑制因子。

在一个实施例中，将输出信号在感知频域中的声强级降低平均参考噪声谱密度减与适配的输出噪声抑制因子相乘的适配的低噪声电平常数。

下文给出示例性C程序，该C程序示出了这样的关于输出信号的噪声抑制算法的这样的实施例：

最后可以将参考信号和输出信号感知相减。这可以用根据PESQ已知的并且关于图2讨论的方式来完成。也就是说，并行确定代表总降级的指标D _n和代表附加降级的指标DA _n。

如图3中所示方案允许关于两个指标的计算的不同方式。有可能执行如图3中所示的方法两次，即一次用于关于总降级确定代表质量的质量指标，另一次用于关于与参考信号相比添加的降级来确定代表质量的质量指标。执行该方法两次实现了关于不同失真类型的计算优化。这样的优化可以明显改进在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性。

例如可以与用于针对添加的降级确定质量指标的静默区间不同地确定用于针对总降级确定质量指标的静默期间。具体而言，用来标识用于总降级的静默区间的阈值（可以称为第一阈值）可以低于用来标识用于添加的降级的静默区间的阈值。后一个阈值可以称为第二阈值。关于第一阈值而合格的静默区间时间帧可以被标识为超静默帧，而关于第二阈值而合格的静默区间时间帧可以被标识为静默帧。

使用根据图3中所示方法的本发明方法的实施例提供在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性的明显增加。

图4示意地示出了应用于图2中所示方法的本发明一个实施例。在预处理（即电平对准、IRS滤波以及时间延迟标识和适配）之后，参考信号和输出信号受到加窗函数、快速傅里叶变换和向音调标度的频率规整以实现从时域变换到感知频域中的时间帧表示。可以在虚线示意地示出的沿着这一域变换的任何一处对参考信号执行如关于图3描述的如关于参考信号的帧电平检测。由于帧电平检测而可以标识具有超过某一阈值（下文称为语音活动标准值）的声强级值的时间帧。可以在计算参考信号的线性频率补偿时使用这些时间帧。另外，在将参考音调功率密度函数和输出音调功率密度函数强度规整成响度标度以分别获得参考响度密度函数和输出响度密度函数之后，两个响度密度函数可以受到基于如参考图3描述的噪声对比度参数的噪声抑制动作。由于噪声抑制而可以更准确地建模噪声对语音质量的影响并且待处理信号（例如语音信号）的感知预测可以改进。

图5示意地示出了应用于另一方法的本发明一个实施例，该另一方法关于参考信号确定质量指标，该质量指标代表音频设备的输出信号的感知质量。在这一实施例中，考虑声强级变化。出于这一原因，输出信号未受到电平对准动作。

参考信号和输出信号确实经历预处理步骤（比如如在PESQ中使用的IRS滤波和时间延迟）。另外，为了使用帧电平检测，参考信号受到将参考信号缩放成固定声强级的全局缩放动作。固定声强级优选地与用于双耳（diotically）或者二重听觉（dichotically）呈现的语音片段的约73 dB SPL电平并且与用于单耳（monotically）呈现的语音片段的约79 dB SPL电平重合。

沿着在将参考信号和输出信号从时域变换成感知频域中的时间帧表示的过程中的不同的步骤，可以用如关于图3描述的并且与在图4中所示与PESQ有关的实施例中使用的方式相似的方式执行时间帧的强度检测。也就是说，先通过使用加窗函数（例如汉宁窗）、继而为向时间-频率域的FFT来在时间帧中划分信号。

在也称为帧电平检测的帧电平测量之后，将缩放参考信号缩放成与输出信号有关的声强级。这一全局缩放动作可以使用如下算法，该算法仅部分地补偿在参考信号与输出信号之间的声强级差。留下的差值可以用来估计声强级对感知传输质量的影响。

在全局缩放成输出信号的声强级之后，使用与参考图2中的PESQ讨论的方式相同的方式，参考信号受到感知频率域中的局部缩放以及部分频率补偿。虽然在图5中所示实施例中，参考参考信号执行局部缩放，但是同样适当地有可能例如以如图2中所示方式关于输出信号应用这一局部缩放步骤。局部缩放动作的目的涉及短期增益变化的补偿。是将选择参考信号还是输出信号可以依赖于具体应用。一般补偿参考信号，因为从未在主观质量测量中向测试主题呈现参考信号。

在一个实施例中，第一部分频率补偿使用所谓的软缩放算法。在软缩放算法中，通过以根据在参考信号与输出信号之间的功率比优选每个时间帧补偿小的功率偏差而部分地补偿更大偏差这样的方式缩放来改进待处理信号（即参考信号或者输出信号）。可以在全部转让给申请人并且通过引用而结合于此的美国专利申请2005/159944、美国专利7,313,517和美国专利7,315,812中发现关于使用软缩放的更多细节。

优选地，现在对参考信号和输出信号执行激励步骤以补偿由于关于这些信号用加窗函数更早执行快速傅里叶变换所致的频率分量模糊。可以例如在J.G. Beerends和J.A. Stemerdink的文章“A perceptual Audio Quality Measure Based on a Psychoacoustic Sound Representation”，J. Audio.Eng.Soc., Vol.40, No. 12 (1992) pp. 963-978中发现关于出于该目的对信号执行的记录的更多细节。在这一文章中，计算激励并且通过使用模糊激励表示来确定质量。在一个实施例中，计算的激励然后用来导出自掩蔽曲线，该曲线又可以用来获得锐化的时间-频率表示。自掩蔽曲线以它的最简单形式对应于激励曲线的小部分。

在如PESQ中使用的并且参考图2描述的向响度标度的强度规整之后，在响度域中局部缩放参考信号和输出信号。首先缩放参考信号的比输出信号更响的那些部分。然后缩放输出信号的比参考信号更响的部分。

这些局部缩放动作的分离允许分开实施和/或操纵由于时间限幅以及脉冲的电平变化。如果参考信号的一部分比输出信号的对应部分响，则这一差值可以归因于例如由遗漏帧引起的时间限幅。为了量化时间限幅的感知影响，将参考信号按比例减少成被视为对于（不对称）干扰差值计算而言最优的电平。对输出信号的这一局部缩放动作也将输出信号中的噪声抑制直至对于（不对称）干扰差值计算而言更优的电平。可以通过组合这一局部缩放与对输出信号的噪声抑制动作来更准确地估计噪声对主观感知质量的影响。

接着执行第二部分频率补偿。可以用与PESQ中相似、然而现在是在响度域中使用的方式执行第二部分频率补偿。在一个实施例中，第二部分频率补偿使用如参考第一部分频率补偿更早讨论的软缩放算法。

第一部分频率补偿和第二部分频率补偿均可以使用对参考信号执行的帧电平检测的结果。在一个实施例中，第一和第二部分频率补偿可以使用基于所有如下帧的受测试系统的线性频率响应估计，对于这些帧而言，输入参考信号值大于阈值（例如语音活动标准值）。这一阈值可以对应于绝对听力阈值。

优选地，在这一点，将参考信号和输出信号两者的高频带设置成零，因为它们显得对待确定的感知传输质量具有可忽略不计的影响。此外，将输出信号的低频带的声强级局部缩放成参考信号的相似频带的声强级。例如与Bark 23和更高频带有关的所有频带可以设置成零，而可以缩放输出信号中的与Bark 0至5有关的Bark频带。参考信号中的与Bark 0-22有关的Bark频带和输出信号中的与Bark 6至22有关的Bark频带然后未受到这些操作中的两者之一的操作。

至此尚未明显改变输出信号的信号电平，并且输出信号的很低电平现在将仅引起内部表示的裕度差异。这造成质量估计的误差。

出于这一目的，先将响度级缩放成也称为固定内部响度级的固定响度级。如果起始全局电平校准如在ITU-T Recommendation P.861和/或P.862中描述的那样用于参考信号，则这样的固定全局内部电平落在20（无量纲内部响度相关缩放数）附近。其次，将参考信号的电平缩放成输出信号的对应电平。

由于输出信号的响度级缩放，在输出信号与参考信号之间的响度级差使得不能确定可靠质量指标。为了克服这一所不希望的前景，也需要缩放参考信号的响度级。因此在缩放输出信号的响度级之后，将参考信号全局缩放成与缩放输出信号有关的响度。现在参考信号和输出信号均具有如下响度级，该响度级可以用来计算获得音频系统的传输质量的客观测量所需的感知相关内部表示。

在一些实施例中，在响度域中的全局缩放动作使用在帧电平检测动作中获得的信息。例如可以仅针对如下时间帧执行缩放，对于这些时间帧而言，声强级超过某一阈值（例如语音活动标准值）。

最后，与参考图2描述的方法相似，将参考信号和输出信号相减从而获得差值信号。在感知相减之后，可以例如以如图2中所示并且在ITU-T Recommendation P.862中描述的方式导出感知质量测量。

然而与如在ITU-T Recommendation P.862中描述的PESQ对照，可以执行本发明的一些实施例（包括图3-5中所示实施例）两次。一次用于确定代表所有降级的质量指标，并且另一次用于确定代表与参考信号相比添加的降级的质量指标。已经参考图3更详细地讨论这样的程序。

在图5中所示实施例中，在该方法中的两个不同阶段引入参考信号和输出信号的噪声抑制。首先，在强度规整成宋响度标度之后，参考信号可以受到用于将噪声抑制直至预定噪声电平的噪声抑制。类似地，输出信号可以受到噪声抑制动作。在这一情况下，噪声抑制可以被布置用于将噪声抑制直至如下噪声电平，该噪声电平代表受测试设备（例如图1中的音频系统10）的用户体验的干扰。已经参考图3讨论关于这些噪声抑制动作的更多细节。

其次，参考信号和输出信号两者可以在全局缩放之后进一步受到附加噪声抑制动作。已经发现在全局缩放之后的这样的附加噪声抑制进一步改进在客观测量的语音质量与如在主观听力质量实验中获得的语音质量之间的相关性。

噪声抑制动作的实施例可以与参考图3更早描述的噪声抑制动作相似。参数（具体为参考噪声抑制因子、输出噪声对比度和噪声对比度参数耦合）可以不同以获得最优结果。

如参考图5呈现的确定音频系统的传输质量的方法由于引入多个全局缩放步骤而在音频系统在可变听力声强级操作的情况下提供更准确预测。如更早提到的噪声抑制步骤实现噪声对语音质量的影响的改进预测，因为这一影响根据局部信号电平而变化。

已经通过参考上文讨论的某些实施例描述了本发明。将认识这些实施例易有本领域技术人员公知的各种修改和替代形式。

Claims

1.一种用于关于参考信号确定质量指标的方法，所述质量指标代表音频设备例如语音处理系统的输出信号的感知质量，其中处理和比较所述参考信号和所述输出信号，并且所述处理包括将所述参考信号和所述输出信号划分成相互对应时间帧，其中所述处理还包括：

- 将所述参考信号缩放成固定声强级；

- 基于对缩放的参考信号执行的测量来选择所述输出信号的时间帧；

- 基于所述输出信号的选择的时间帧来计算噪声对比度参数，所述噪声对比度参数是所述信号内的所述噪声对比度的测量；

- 基于所述噪声对比度参数在感知响度域中对所述参考信号和所述输出信号中的至少一个应用噪声抑制.

1bis．根据权利要求所述1的方法，还包括以下步骤：将所述参考信号和所述输出信号感知相减以形成差值信号并且根据所述差值信号导出所述质量指标。

2.根据权利要求1所述的方法，其中计算所述噪声对比度参数包括：

- 通过将所述输出信号内的第一所选时间帧的强度值除以所述输出信号内的第二所选时间帧的强度值来确定分数；

- 通过使用具有预定压缩系数的幂律来压缩所述分数以便获得所述噪声对比度参数。

3.根据权利要求2所述的方法，其中如果压缩的分数在预定固定值以下，则将所述噪声对比度参数设置成所述预定固定值。

4.根据任一前述权利要求所述的方法，其中对所述参考信号应用所述噪声抑制包括：

- 在具有在阈值以下的检测声强级的多个时间帧内计算参考平均噪声谱密度；

- 基于在客观与主观质量评估信息之间的优化相关性来确定参考噪声抑制因子；并且

- 基于所述参考噪声抑制因子和所述参考平均噪声谱密度来计算所需噪声电平。

5.根据任一前述权利要求所述的方法，其中对所述输出信号应用所述噪声抑制包括：

- 在与所述参考信号内的具有在阈值以下的检测声强级的时间帧对应的多个时间帧内计算平均输出噪声谱密度；

- 基于在客观与主观质量评估信息之间的优化相关性来确定低噪声电平常数；

- 基于在客观与主观质量评估信息之间的优化相关性来确定输出噪声抑制因子；并且

- 通过使用所述低噪声电平常数、所述输出噪声抑制因子和所述平均输出噪声谱密度来计算代表所述输出信号中的干扰的噪声电平。

6.根据任一前述权利要求所述的方法，其中所述处理还包括：

- 将所述参考信号和所述输出信号从时域变换到时间-频率域；

- 根据所述参考信号导出参考音调功率密度函数并且根据所述输出信号导出输出音调功率密度函数；

- 局部缩放所述参考音调功率密度函数以获得局部缩放的参考音调功率密度函数；

- 关于频率部分地补偿所述输出音调功率密度函数或者局部缩放的参考音调功率密度函数；并且

- 导出参考响度密度函数和输出响度密度函数。

7.根据权利要求6所述的方法，其中所述处理还包括：

- 将所述参考音调功率密度函数的强度从所述固定声强级缩放成与输出音调功率密度函数有关的声强级以获得在所述音调功率密度函数之间的声强级差，所述声强级差允许量化声强级对感知质量的影响；

- 在所述感知响度域中将所述输出响度密度函数的响度缩放成固定响度级；并且

- 在所述感知响度域中将所述参考响度密度函数的响度从与输出有关的声强级对应的响度级缩放成与所述输出响度密度函数的响度级有关的响度级以获得在所述参考响度密度函数与所述输出响度密度函数之间的响度级差，所述响度级差允许量化响度对所述输出信号的所述感知质量的影响。

8.一种用于关于参考信号确定两个质量指标的方法，所述质量指标代表音频设备例如语音处理系统的输出信号的感知质量，所述方法包括：

- 执行根据任一前述权利要求所述的方法用于关于总降级确定代表质量的第一质量指标；并且

- 执行根据任一前述权利要求所述的方法用于确定第二质量指标，所述第二质量指标关于与所述参考信号相比较添加的降级来代表质量。

9.根据权利要求8所述的方法，其中确定第一质量指标包括标识缩放的参考信号内的具有在第一阈值以下的检测声强级的时间帧序列，并且确定第二质量指标包括标识所述缩放的参考信号内的具有在第二阈值以下的检测声强级的时间帧序列，所述第二阈值大于所述第一阈值。

10.根据任一前述权利要求所述的方法，其中选择时间帧包括选择所述输出信号的与所述缩放的参考信号的满足预定条件的时间帧对应的时间帧。

11.根据权利要求10所述的方法，其中所述预定条件包括所述缩放的参考信号的作为静默帧的时间帧具有在阈值以下的声强级值。

12.根据权利要求11所述的方法，其中所述预定条件还包括所述缩放的参考信号的时间帧是作为静默区间的一系列连续静默帧的部分。

13.一种计算机程序产品，包括例如存储于计算机可读介质上的计算机可执行代码，所述计算机可执行代码适于在由处理器执行时执行如权利要求1-12中的任一权利要求限定的方法。

14.一种用于关于音频系统（10）例如语音处理设备的用作参考信号的输入信号X(t)确定质量指标的系统（20），所述质量指标代表所述音频系统（10）的输出信号Y(t)的感知质量，所述系统包括：

- 预处理设备（30），用于预处理所述参考信号和所述输出信号；

- 用于处理所述参考信号的第一处理设备（40a）和用于处理所述输出信号的第二处理设备（40b），用于分别获得用于所述参考信号和所述输出信号的表示信号R(X)、R(Y)；

- 差分设备（50），用于组合所述参考信号和所述输出信号的所述表示信号以便获得差分信号D；以及

- 建模设备（60），用于处理所述差分信号以获得质量信号Q，所述质量信号Q代表所述语音处理系统的所述感知质量的估计；

其中所述预处理设备、所述第一处理设备和所述第二处理设备形成用于执行根据权利要求1-12中的任一权利要求所述的方法的处理系统。