CN101896965A

CN101896965A - 用于音频传输系统的语音可懂度测量的方法和系统

Info

Publication number: CN101896965A
Application number: CN200880121089XA
Authority: CN
Inventors: J·G·比伦德斯; J·M·范武格特; R·A·范布伦
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO; Koninklijke KPN NV
Priority date: 2007-10-11
Filing date: 2008-10-06
Publication date: 2010-11-24
Also published as: KR20100085962A; WO2009046949A1; ATE470931T1; EP2048657A1; US20100211395A1; JP2011501206A; EP2048657B1; KR101148671B1; DE602007007090D1

Abstract

用于响应参考输入信号(X(t))而测量来自音频传输系统(10)的降级输出信号(Y(t))的可懂度的方法和处理系统。测量装置(11)设置用于输出该输出信号(Y(t))的语音可懂度的量度(I)。测量装置(11)执行输入信号(X(t))和输出信号(Y(t))的处理，以便得到干扰密度函数(D(f)_n)。通过将干扰密度函数(D(f)_n)与从关联当前帧(n)和独立的先前帧(n-2)的输入信号(X(t))的补偿的音高功率密度(PPX′(f)_n)的相关性计算所得出的各帧的校正函数相乘，来校正干扰密度函数(D(f)_n)。在频率和时间上合计经校正的干扰密度函数(D′(f)_n)，以便得到输出信号(Y(t))的语音可懂度的量度(I)。

Description

用于音频传输系统的语音可懂度测量的方法和系统

技术领域

本发明涉及一种用于下列操作的方法：测量音频传输系统的语音可懂度，输入信号X(t)输入到系统中，产生输出信号Y(t)，其中对输入信号X(t)和输出信号Y(t)都进行处理。在另一个方面，本发明涉及一种处理系统，用于响应参考输入信号X(t)而测量来自音频传输系统的降级输出信号(degraded output signal)Y(t)的可懂度。

背景技术

从下列文献已知相关方法和系统：ITU-T推荐P.862，“语音质量的感知评估(PESQ)，一种用于窄带电话网络和语音编解码器的端对端语音质量评估的客观方法(Perceptual evaluation of speech quality(PESQ)，an objective method for end-to-end speech qualityassessment of narrow-band telephone networks and speechcodecs)”，ITU-T 02.2001[3]。

另外，下列文献[2]描述了这种方法和系统：J.Beerends等人的论文，“PESQ，the new ITU standard for objective measurement ofperceived speech quality，Part II-Perceptual model”，J.AudioEng.Soc，vol.50，pp.765-778(2002 Oct.)。

本发明是关于语音和音频可懂度测量应当在感知域中执行的概念的进一步发展。一般来说，这个概念产生一种系统，它将参考语音信号与经过被测系统的失真信号进行比较。通过比较这些信号的内部感知表示，可进行有关感知可懂度的估计。与这个领域中的相似质量测量相关的最新技术可见于参考文献[1]...[11]。所有当前可用的系统均遭受无法测量语音可懂度的事实。在采用CVC(辅音元音辅音)识别任务构成的数据库中，CVC正确得分与原始PESQ得分之间的相关性低于0.6。用于测量语音可懂度的当前最佳方法是STI(语音传输指数)，参见参考文献[12]...[15]。但是，STI方法使用调制的类似噪声、语音的测试信号，并且只能在受限的一组失真之下使用。

发明内容

本发明设法提供用于测量语音/音频通信系统中所输出的语音的可懂度的新测量方法和设备。

根据本发明，提供根据上述前言的方法，其中该方法包括：

-预处理输入信号(X(t))和输出信号(Y(t))，以便得到相应信号的音高功率密度(pitch power densities)(PPX(f)_n，PPY(f)_n.)，其中包含频域(f)和时域(n)中的单元(cells)的音高功率密度值；

-对音高功率密度进行补偿，以便得到补偿的音高功率密度(PPX′(f)_n，PPY′(f)_n.)；

-将补偿的音高功率密度(PPX′(f)_n，PPY′(f)_n.)变换成响度密度(LX(f)_n，LY(f)_n)；

-对响度密度(LX(f)_n，LY(f)_n)进行感知减法(perceptualsubtraction)，以便得到干扰密度函数(disturbance densityfunction)(D(f)_n)；

-通过将干扰密度函数(D(f)_n)与从关联当前帧(n)和独立的先前帧(n-2)的输入信号(X(t))的补偿的音高功率密度(PPX′(f)_n)的相关性计算所得出的各帧的校正函数相乘，来校正干扰密度函数(D(f)_n)，以便得到经校正的干扰密度函数(D′(f)_n)；以及

-在频率和时间上合计(aggregating)经校正的干扰密度函数(D′(f)_n)，以便得到输出信号(Y(t))的语音可懂度的量度(I)。

对于术语“独立的先前帧”，表示具有与当前帧没有任何重叠的先前帧。例如，帧可具有50％重叠，在这种情况下，与当前帧n关联的补偿的音高功率密度与关联第二先前帧n-2的补偿的音高功率密度相关。

通过以所述方式校正干扰密度函数，本方法实施例所计算的语音可懂度的量度与实际语音可懂度得分之间的相关性得到改进。本发明基于如下理解(insight)：当语音信号中的两帧相似时，现有技术PESQ方法所发现的降级引起比预测要小的可懂度的降低。当对象第二次听到某个声音时，该对象能够比第一次听到该(相同)声音时更好地理解该声音。

在另一个实施例中，校正函数(frameCorTimeOrg(n))按照下式来计算：

frameCorTimeOrg(n)＝

frameCorTimeOrg(n)＝FrequencybandCorrelation(PPX′(f)_n，PPX′(f)_n-2)

在现有PESQ方法中，这种特征允许容易地对于变化的理解将该方法修改，以便预测语音可懂度得分。

在又一个实施例中，在从低频界限到高频界限的频域范围上、例如从100...3500Hz的范围来执行相关性计算。由于这对应于一般语音频率范围，所以它足以将计算限制到这个范围以便预测声音信号的可懂度。

按照下列规则将校正函数限制到小于或等于1.0的值：

if frameCorTimeOrg(n)＜0.0

frameCorrelationTimeCompensation＝1.0

else

frameCorrelationTimeCompensation＝1.0-(frameCorTimeOrg(n))^κ，

k是预定幂值(power value)。

预定幂值可大于1.0，例如在10与20之间。这样，该方法包括，对于低相关性，对可懂度得分的影响是不重要的，而只有接近1.0的相关性更为突出地被包含，原因在于它们的影响是重要的。

在又一个实施例中，校正函数被限制为大于或等于下限值的值、诸如0.4。这确保对于强相关帧，应用于干扰密度函数的校正没有受到过大影响。

如同现有技术PESQ方法中那样，在频域和时域上合计(经校正的)干扰密度函数，以便产生值的形式的量度。由这个量度，可例如使用与CVC可懂度得分相似的映射，为语音可懂度提供得分。

特定于可懂度的测量，适配在频率和时间上的合计函数(aggregation functions)。在另一个实施例中，使用低标准因数(normfactor)(L_q)在频率上合计经校正的干扰密度函数D′(f)_n，其中低标准因数(L_q)的值小于或等于2；以及使用高标准因数(L_p)在时间上进行合计，其中高标准因数(L_p)的值大于或等于6。

在另一个实施例中，该方法还包括计算两个可懂度得分量度(I)之间的差，其中使用不同的标准因数来计算可懂度得分量度(I)，标准因数小于或等于3。这提供甚至进一步改进的可懂度得分测量，它甚至更接近实际主观测试。

在另一个方面，本发明涉及包括处理器的上述处理系统，处理器连接到音频传输系统，用于接收参考输入信号X(t)和降级输出信号Y(t)，其中处理器设置用于输出输出信号Y(t)的语音可懂度的量度I，并且用于执行根据本方法实施例的任一个所述的方法的步骤。

在又一个方面，本发明涉及一种包括计算机可执行软件代码的计算机程序产品，计算机可执行软件代码在加载到处理系统时，允许处理系统执行如本方法实施例的任一个所述的方法。

附图说明

下面使用多个示范实施例、参照附图更详细地论述本发明，附图包括：

图1示出本发明的应用的框图；

图2示出本发明的一个实施例的实现的流程图。

具体实施方式

在过去数十年，已经开发多种测量技术，它们允许以接近地模仿人类感知的方式来量化音频装置的质量。相比在例如频率响应、噪声、失真等系统参数方面来量化质量的传统方法，这些方法的优点在于主观测量与客观测量之间的高相关性。通过这种感知方式，将一系列音频信号输入到被测系统中，并且根据人类感知的模型将降级输出信号与对系统的原始输入进行比较。根据一组比较，可量化被测系统的可懂度。

感知模型使用人类听觉系统的基本特征将原始输入和降级输出映射到内部表示。如果这个内部表示的差为0，则被测系统对于人类观测者是透明的，表示完善的被测系统(从感知的音频可懂度的角度来看)。如果差大于0，则使用认知模型将它映射到可懂度数值，从而允许量化降级输出信号中感知的降级。

图1示意示出客观测量技术的应用的已知设置，它基于人类听觉感知和认知的模型，并且遵循ITU-T推荐P.862(参见参考文献[3])，用于估计也可应用于与可懂度测量相关的本发明的语音链路或编解码器的感知质量。用于这种技术或装置的首字母缩写词是PESQ(语音质量的感知评估)。它包括以下称作系统10的被测系统或电信网络10以及用于所提供语音信号的感知分析的测量装置11。使用语音信号X₀(t)，一方面作为系统10的输入信号，而另一方面作为装置11的第一输入信号X(t)。系统10的输出信号Y(t)实际上是被系统10所影响或降级的语音信号X₀(t)，它用作测量装置11的第二输入信号。测量装置11的输出信号I表示通过系统10的语音链路的感知可懂度的估计。

测量装置11可实现为处理系统，其中包括例如具有一个或多个(数字)信号处理器的专用信号处理单元或者具有在包括计算机可执行代码的软件程序的控制下的一个或多个处理器的通用处理系统。装置11提供有适当的输入和输出模块，并且还支持处理器的元件、诸如存储器，这对于技术人员是显而易见的。

由于语音链路(图1中示为系统10)的输入端和输出端尤其在它穿过电信网络的情况下是远程的，所以在大多数情况下将数据库上存储的语音信号X(t)用于测量装置11的输入信号。在这里，作为惯例，语音信号被理解为表示基本上是人类听力可感知的每个声音，例如语音和音调(tone)。被测系统10当然也可以是例如模拟电信网络的模拟系统。

本发明通过用于计算语音信号的内部表示的附加新处理步骤，来解决PESQ得分与语音可懂度得分之间的低相关性的问题。它使用PESQP.862.1(参考文献[4])和P.862.2(参考文献[5])作为可预测语音片断(speech fragment)的感知语音可懂度的算法的起点。参考文献[3]、[4]和[5]在本文中被包含，用于PESQ方法的一般步骤。

本方法可对标准语音素材以及对短CVC测试信号(辅音元音辅音)使用。这个测试信号X₀(t)包含一组短语音片断、语音可懂度测试中使用的连接的CVC单词，它包含包括相干转变(transition)的所有相干元音和辅音，并且使其进入被测系统10中。

图2中，以示意形式示出本发明的一个实施例的流程图，该实施例可在图1所示的测量装置11中来实现。起始处理框21-34以及最终框35-37是应用于PESQ的一般处理步骤，参见参考文献[3]，但是应当注意，包括一个或多个附加或修改的处理步骤的其它实施例是可能的，以便得到更专用的测量方法或者具有其它目标的测量方法。将简要地论述这些起始框21-34，此后更详细地论述本方法实施例的其它处理步骤50-55以及最终框35-37。

PESQ算法中的第一步骤是补偿被测系统的总增益，它在电平校准(alignment)框和电平/时间校准框21、22中执行。这些步骤21、22与框27中将信号全局缩放到正确的总电平进行组合。原始X(t)(参考输入信号)和降级(输出)信号Y(t)均缩放到相同的恒定功率级，从而产生信号X_s(t)和Y_s(t)。

然后，在相应的框23、24，这些信号经过加窗快速傅立叶变换运算，从而产生功率表示阵列PX(f)_n和PY(f)_n。人耳执行时频变换。在PESQ中，这通过利用在32ms帧上的Hann窗的短期FFT来建模。连续帧之间的重叠为50％。功率谱-复FFT分量的平方实部和平方虚部之和-存储在原始和降级信号的单独实值阵列中。单帧中的相位信息在PESQ中丢弃，并且所有计算仅基于功率表示PX(f)_n和PY(f)_n。

在随后的处理框，两个功率表示阵列PX(f)_n和PY(f)_n分别在处理框25和26经过频率卷绕(warping)操作成音高标度(pitch scale)。巴克标度(Bark scale)反映出，在低频，人类听力系统具有比在高频更精细的频率分辨率。这通过划分(binning)FFT频带并且在相加部分的归一化(normalization)的情况下将FFT频带的对应功率相加来实现。将单位为赫兹的频率标度映射到单位为巴克的音高标度的卷绕函数(warping function)近似文献中给出的值。所产生的信号称作音高功率密度PPX(f)_n和PPY(f)_n.。

要处理在被测系统中形成的线性失真的主观影响，(部分)频率响应补偿在处理框28中执行。在时间上对原始和降级音高功率密度的音高功率密度PPX(f)_n和PPY(f)_n.求平均。仅使用其功率高于绝对听力阈值超过30dB的时频单元在语音有效帧(speech active frames)上计算这个平均数。按照修改的巴克仓(Bark bin)，部分补偿因子由降级谱与原始谱之比来计算。最大补偿从不超过20dB。然后将各帧n的原始音高功率密度PPX(f)_n与这个部分补偿因子相乘，以便使原始信号等于降级信号。这产生原始音高功率密度的已滤波版本PPX′(f)_n。使用这种部分补偿的原因在于在适度滤波作用几乎没有影响感知总质量和可懂度的同时，严重滤波(severe filtering)干扰听众，尤其在没有参考可用于对象时。对原始信号执行补偿的原因在于降级信号是由对象在绝对种类定级(ACR)实验中判断的信号。

短期增益变化通过逐帧处理音高功率密度来部分补偿，如处理框29所示。对于原始和降级音高功率密度(图2所示实施例中的PPX(f)_n和PPY(f)_n.)，计算各帧n中超过绝对听力阈值的所有值之和。原始和降级文件中的功率之比被计算并且界定在范围(3·10^-4，5}。将第一阶低通滤波器(沿时间轴)应用于这个比率。这个滤波器的时间常数近似为16ms。然后将各帧n中的失真音高功率密度与这个比率相乘，从而产生部分增益补偿的失真音高功率密度PPY′(f)_n.。

在处理框28中的滤波和短期增益变化的部分补偿之后，在处理框31使用Zwicker定律将原始音高功率密度变换成宋响度标度(Soneloudness scale)。

LX {(f)}_{n} = S_{l} \cdot {(\frac{P_{0} (f)}{0.5})}^{γ} \cdot [{(0.5 + 0.5 \cdot \frac{{PPX}^{'} {(f)}_{n}}{P_{0} (f)})}^{γ} - 1]

其中P_o(f)是绝对听力阈值，以及S1是响度缩放因子。类似地，在处理框32中变换输出(或降级)音高功率密度PPY′(f)_n.。所产生的二维阵列LX(f)_n和LY(f)_n称作响度密度。

失真响度密度与原始响度密度LX(f)_n和LY(f)_n之间的有符号差在处理框34中计算，标记为感知减法。当这个差为正时，已经加上例如噪声等分量。当这个差为负时，已经从原始信号中省略分量。这个差阵列称作原始干扰密度。

屏蔽(Masking)通过在各时频单元中应用静区来建模，如下所述。对于各时频单元计算原始和降级响度密度的每单元最小值。这些最小值与0.25相乘。对应二维阵列称作屏蔽阵列(mask array)。随后，在各时频单元中应用下列规则：

如果原始干扰密度为正并且大于屏蔽值(mask value)，则从原始干扰减去屏蔽值。

如果原始干扰密度位于屏蔽值的正和负幅值之间，则干扰密度设置为0；

如果原始干扰密度比负屏蔽值更负，则将屏蔽值加到原始干扰密度上。

有效效果在于，将原始干扰密度朝向0牵拉。这表示将实际时频单元感知为失真之前的静区。这对在各时频单元中存在响信号(屏蔽)时听不见的小差的过程建模。结果是作为时间(帧号n)和频率的函数的干扰密度函数D(f)_n。

根据本发明的实施例，引入附加处理步骤以便获得语音可懂度得分与最终PESQ得分I之间的更好相关性。本发明的实施例使用PESQP.862.1和P.862.2(参见参考文献[4]和[5])作为可预测语音片断的感知语音可懂度的算法的起点。该方法可对标准语音素材以及对短CVC测试信号(辅音元音辅音)使用。这个测试信号包含一组短语音片断、语音可懂度测试中使用的连接的CVC单词，它包含包括相干转变的所有相干元音和辅音，并且使其进入被测系统中。

附加处理在图2中示意示为处理框50-55，它基于下列理解：当语音信号中的两帧(大约30ms的帧长度)相似、即其音高功率密度函数之间的高相关性时，则PESQ在第二帧中发现的降级引起比基于PESQ干扰所预测的更小的可懂度的降低。当声音重复进行时，对象能够比他们首次听到该声音时更好地理解其含义。

要量化这个效果，采用从当前时间帧音高功率密度PPX′(f)_n与参考输入文件的先前独立时间帧音高功率密度PPX′(f)_n-2之间的相关性得出的校正函数(frameCorrelationTimeCompensation)，对各时间帧n来补偿PESQ中定义的对称干扰函数D(f)_n。

对于术语“独立的先前帧”，表示具有与当前帧没有任何重叠的先前帧。例如，帧可基于具有指数n的50％重叠cos²窗口，在这种情况下，与当前帧n关联的补偿的音高功率密度与关联第二先前帧n-2的补偿的音高功率密度相关。

这按照下式来计算：

frameCorTimeOrg(n)＝FrequencybandCorrelation(PPX′(f)_n，PPX′(f)_n-2)

在一个实施例中，这个函数采用频率指数f来计算：例如100Hz＜f＜3500Hz，原因在于只有语音能量在计算中才是重要的。在关联框51、52存储当前和先前时间帧音高功率密度PPX′(f)_n、PPX′(f)_n-2。相关性计算在处理框50中实现。然后，在处理框53，校正函数按照下式来计算：

if frameCorTimeOrg(n)＜0.0

frameCorrelationTimeCompensation＝1.0

else

frameCorrelationTimeCompensation＝1.0-(frameCorTimeOrg(n))^κ；

if frameCorrelationTimeCompensation＜0.4

frameCorrelationTimeCompensation＝0.4

因此，校正函数frameCorrelationTimeCompensation的值限制在下限(在该示例中示为0.4)与上限(即1)之间。

预定幂值k量化其中frameCorrelationTimeCompensation开始有影响的点。对于低相关性，影响是不重要的，仅当相关性接近1.0时，影响才是重要的。这导致最佳k＞＞1.0。在一个特别有利的实施例中，值k位于10与20之间。

在本发明的一个实施例中，首先将包含必须利用其来评估被测系统10的语音片。断的语音信号X(t)输入到测量系统11。随后，如PESQ P.862[3]，[4]，[5]所述的内部表示由测量系统11对于参考输入X(t)和降级输出Y(t)来计算，并且由此对称干扰密度D(f)_n(参见以上所述)和不对称干扰密度DA(f)_n(参见参考文献[3])。在当前最佳实践中，只有对称干扰D(f)_n与上述的frameCorrelationTimeCompensation结合使用。对于各帧n，经校正的干扰密度D′(f)_n 由干扰密度D(f)_n 和frameCorrelationTimeCompensation的乘积来计算。

然后，在频率、语音突发(speech spurts)和完整文件长度上对这个经校正的干扰密度求积分，与PESQ P.862中执行的相似，但是在频率和突发上采用低标准因数(幂因数(power factor)L_q)(例如L_q＜2，例如L_q＝1)，而在时间上采用高标准因数(幂因数L_p)(例如L_p＞6，例如L_p＝8)。

在处理框35，干扰密度在频率上的合计按照下式使用低标准因数L_q来执行：

D_{n} = M_{n} \sqrt[L_{q}]{\underset{f = 1, . . NumberofBarkbands}{Σ {(| D {(f)}_{n} | W_{f})}^{L_{q}}}}

其中，M_n是等于((原始帧的功率+10⁵)/10⁷)^-0.04的乘法因数，引起加重原始语音片断中的静寂期间发生的干扰，以及W_f是与修改的巴克仓的宽度成比例的一系列常数。在这种乘法之后，帧干扰值限制到最大值45。这些合计值D_n称作帧干扰。

在处理框36，类似地来执行帧干扰在时间上的合计，对于语音突发使用低标准因数L_q，而对于在整个语音样本上的合计使用高标准因数L_p。

一般来说，现有PESQ方法还使用时间加权过程，来考虑在语音有效时段期间发生的干扰比静寂间隔期间发生的干扰更具有干扰性的事实：

L_{p} = {(\frac{1}{N} Σ_{n = 1}^{N} disturbance {[n]}^{p})}^{1 / p},

其中，N＝总帧数，并且p＞1.0。

与标准L₁时间平均相比，这种L_p加权加重响干扰，从而引起客观与主观得分之间更好的相关性。帧干扰在时间上的合计在两层的分级结构中进行。

本发明的实施例与标准PESQ方法(参考文献[3])有些不同。首先，在本实施例中，使用等于3的标准因数取代低标准值(norm value)2来进行在频率上的合计。此外，在标准PESQ方法中，帧干扰值在20个帧的分离第二间隔上合计(考虑帧的重叠：大约320ms，使用等于8的标准因数。这些间隔还重叠50％，并且没有使用窗函数。这时使用等于2的标准因数在语音文件的有效间隔(对应帧)上合计分离第二干扰值。

因此，得到干扰指示符D，它在处理框37还可映射到最终CVC可懂度得分(图1中的量I)。

本发明的实施例产生量I，它表明与输出语音信号Y(t)的语音可懂度的强相关性。

进一步改进可使用又一个实施例来获得，从计算两个频率、突发、时间积分之间的差，均采用低L_p幂(power)(＜3)。在上述示例中，在频率、突发、时间积分上的积分使用1、1和8作为相应标准因数L_p、L_p、L_q来进行。在这另一个示例中，进行两个计算，然后将它们彼此进行减法运算。例如，第一计算对于在频率、突发和整个语音样本上的积分使用2、3、2作为相应标准因数来进行，而第二计算使用1、3、3作为相应标准因数。

以上通过示范实施例描述了本发明。本领域的技术人员将会清楚地知道，可使用落入所附权利要求书的范围之内的其它修改和备选方案。

参考文献

[1]A.W.Rix，M.P.Hollier，A.P.Hekstra and J.G.Beerends，“PESQ，the new ITU standard forobjective measurement of perceived speech quality，Part 1-Time alignment，”J.Audio Eng.Soc.，vol.50，pp.755-764(2002Oct.).

[2]J.G.Beerends，A.P.Hekstra，A.W.Rix and M.P.Hollier，“PESQ，the new ITU standard forobjective meesurement of perceived speech quality，Part ll-Perceptual model，”J.Audio Eng.Soc.，vol.50，pp.765-778(2002Oct.)(equlvalent to KPN Researchpublication 00-32228).

[3]ITU-T Rec.P.862，“Perceptual Evaluation Of Speech Quality(PESQ)：An Objective Methodfor End-to-end Speech Quality Assessment of Narrow-band Telephone Networks andSpeech Codecs，”International Telecommunication Union，Geneva，Switzerland(2001Feb.).

[4]ITU-T Rec.P.862.1，“Mapping function for transforming P.862 raw result scores to MOS-LQO，”Geneva，Swltzerland(2003 Nov.).

[5]ITU-T Rec.P.862.2，“Wideband extension to Recommendation P.862 for the assessment ofwideband telephone networks and speech codecs，”Geneva，Switzerland(2005Nov.).

[6]A.P.Hekstra，J.G.Beerends，“Output power decompensation，”International patentapplication 402714；PCT EP02/02342；European patent application 01200945.2，March 2001；Koninklijke PTT Nederland N.V.

[7]J.G.Beerends，“Frequency dependent frequency compensation，”International patentapplication 402736；PCT EP02/05556；European patent application 01203699.2，June 2001；Konlnklijke PTT Nederland N.V.

[8]J.G.Beerends，“Method and system for measuring a system’s transmission quality，”Softscaling，International patent application 402808；PCT EP03/02058；Europeanpatent application 02075973.4-2218，April 2002，Koninklijke PTT Nederland N.V.

[9]J.G.Beerends，“Filter scale loop，”International patent application 402894；European patentapplication EP03075949.2，July 2003，Koninklijke PTT Nederland N.V.

[10]T.Goldstein，J.G.Beerends，H.Klaus and C.Schmidmer，“Draft ITU-T RecommendationP.AAM，An objective method for end-to-end speech quality assessment of narrow-band telephone networks including acoustic terminal(s)，”White contribution COM 12-64to ITU-T Study Group 12，September 2003.

[11]J.G.Beerends，“Linear frequency distortion impact ahalyzer，”International patentapplication；European patent application EP04077601，November 2004，TNONederland N.V.

[12]H.J.M.Steeneken and T.Houtgast，“A physical method for measuring speech-transmissionquality，”J.Acoust.Soc.Am.，vol.67，pp.318-326(1980Jan.).

[13]IEC，Publication 268-16，Sound system equipment，Part 16：The objective rating of speechintelligibility in auditoria by the RASTI method，1988

[14]ISO，Technical Report 4870，Acoustics-The construction and calibration of speechintelligibility tests，1991

[15]H.J.M.Steeneken，“On measuring and predicting speech intelligibility，”PhD University ofAmsterdam(1992).

[16]J.G.Beerends and J.A.Stemerdink，“A Perceptual Audio Quality Measure based on apsychoacoustic sound representetion，”J.Audio Eng.Soc.，vol.40，pp.963-978(1992Dec.).

Claims

1.一种用于测量音频传输系统(10)的语音可懂度的方法，输入信号(X(t))输入到所述系统(10)中，产生输出信号(Y(t))，其中对所述输入信号(X(t))和所述输出信号(Y(t))都进行处理，所述方法包括：

-预处理所述输入信号(X(t))和输出信号(Y(t))，以便得到相应信号的音高功率密度(PPX(f)_n，PPY(f)_n.)，其中包含频域(f)和时域(n)中的单元的音高功率密度值；

-补偿所述音高功率密度，以便得到补偿的音高功率密度(PPX′(f)_n，PPY′(f)_n.)；

-将所述补偿的音高功率密度(PPX′(f)_n，PPY′(f)_n.)变换成响度密度(LX(f)_n，LY(f)_n)；

-对所述响度密度(LX(f)_n，LY(f)_n)进行感知减法，以便得到干扰密度函数(D(f)_n)；

-通过将所述干扰密度函数(D(f)_n)与从关联当前帧(n)和独立的先前帧(n-2)的所述输入信号(X(t))的所述补偿的音高功率密度(PPX′(f)_n)的相关性计算所得出的各帧的校正函数相乘，来校正所述干扰密度函数(D(f)_n)，以便得到经校正的干扰密度函数(D′(f)_n)；以及

-在频率和时间上合计所述经校正的干扰密度函数(D′(f)_n)，以便得到所述输出信号(Y(t))的语音可懂度的量度(I)。

2.如权利要求1所述的方法，其中，所述校正函数(frameCorTimeOrg(n))按照下式来计算：

frameCorTimeOrg(n)＝FrequencybandCorrelation(PPX′(f)_n，PPX′(f)_n-2)

3.如权利要求1或2所述的方法，其中，在从低频界限到高频界限的频域范围上、例如从100...3500Hz的范围上执行所述相关性计算。

4.如权利要求1-3中的任一项所述的方法，其中，按照下列规则将所述校正函数限制到小于或等于1.0的值：

if ffameCorTimeOrg(n)＜0.0

frameCorrelationTimeCompensation＝1.0

else

frameCorrelationTimeCompensation＝1.0-(frameCorTimeOrg(n))^κ，

k是预定幂值。

5.如权利要求4所述的方法，其中，所述预定幂值大于1.0，例如在10与20之间。

6.如权利要求4或5所述的方法，其中，所述校正函数限制为大于或等于下限值的值、诸如0.4。

7.如权利要求1-6中的任一项所述的方法，其中，使用低标准因数(L_q)在频率上合计所述经校正的干扰密度函数D′(f)_n，其中所述低标准因数(L_q)的值小于或等于2；以及使用高标准因数(L_p)在时间上合计所述经校正的干扰密度函数D′(f)_n，其中所述高标准因数(L_p)的值大于或等于6。

8.如权利要求1-6中的任一项所述的方法，其中，所述方法还包括计算两个可懂度得分量度(I)之间的差，其中使用不同的标准因数来计算所述可懂度得分量度(I)，所述标准因数小于或等于3。

9.一种用于响应参考输入信号(X(t))而测量来自音频传输系统(10)的降级输出信号(Y(t))的可懂度的处理系统，包括测量装置(11)，所述测量装置连接到所述音频传输系统(10)，用于接收所述参考输入信号(X(t))和所述降级输出信号(Y(t))，其中所述测量装置(11)设置用于输出所述输出信号(Y(t))的语音可懂度的量度(I)，并且用于执行如权利要求1-8中的任一项所述的方法的步骤。

10.一种包括计算机可执行软件代码的计算机程序产品，所述计算机可执行软件代码在加载到处理系统时，允许所述处理系统执行如权利要求1-8中的任一项所述的方法。