CN104919525A

CN104919525A - 用于评估退化语音信号的可理解性的方法和装置

Info

Publication number: CN104919525A
Application number: CN201380069674.0A
Authority: CN
Inventors: 约翰·杰勒德·贝伦茨
Original assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Current assignee: Nederlandse Organisatie voor Toegepast Natuurwetenschappelijk Onderzoek TNO
Priority date: 2012-11-16
Filing date: 2013-11-15
Publication date: 2015-09-16
Anticipated expiration: 2033-11-15
Also published as: WO2014077690A1; EP2733700A1; US9472202B2; AU2013345546A1; JP6522508B2; US20150340047A1; EP2920785B1; AU2013345546B2; CN104919525B; CA2891453C; JP2015535100A; EP2920785A1; CA2891453A1

Abstract

本发明涉及评估从传送参考语音信号的音频传输系统接收的退化语音信号的可理解性的方法。该方法包括将所述信号采样成参考信号帧和退化信号帧，并且通过将参考信号帧和退化信号帧彼此关联，形成帧对。对于每个帧对，提供表示干扰的差分函数，然后针对特定的干扰类型补偿该差分函数以提供干扰密度函数。基于多个帧对的密度函数，确定总体质量参数。该方法提供补偿总体质量参数，其意义是CVC词的可理解性的评估是由辅音的可理解性所左右的。

Description

用于评估退化语音信号的可理解性的方法和装置

技术领域

本发明涉及通过将参考语音信号传送通过音频传输系统来提供退化语音信号，评估从音频传输系统接收的退化语音信号的可理解性的方法，其中该方法包括：将所述参考语音信号采样成多个参考信号帧，并且针对每个帧，确定参考信号表现；将所述退化语音信号采样成多个退化信号帧，并且针对每个帧，确定退化信号表现；通过将每个参考信号帧与对应的退化信号帧相关联，形成帧对，并且针对每个帧对，提供表示所述退化信号帧和关联的所述参考信号帧之间的差的差分函数。

本发明还涉及一种用于执行上面描述的方法的装置和一种计算机程序产品。

背景技术

在过去数十年间，已经使用感知测量方法开发和展开多种客观的语音质量测量方法。在该方法中，基于感知的算法模拟在听音测试中对音频片段的质量进行定级的对象的行为。对于语音质量，最可能使用所谓的绝对种类定级听音测试，在该测试中对象在不访问纯净的参考语音片段的情况下判断退化语音片段的质量。在国际电信联盟(ITU)内执行的听音测试主要使用绝对种类定级(ACR)5点意见等级，其因此还被用于由ITU标准化的客观语音质量测量方法，感知语音质量测量(PSQM(ITU-T Rec.P.861,1996))以及其随后的语音质量的感知评估(PESQ(ITU-T Rec.P.862,2000))。这些测量标准的焦点在于窄带语音质量(音频带宽10-3500Hz)，尽管在2005年构想出宽带扩展(50-7000Hz)。PESQ提供与窄带语音数据的主观听音测试十分好的相关性以及对宽带数据可接受的相关性。

随着电信业推出新的宽带语音服务，出现了对经验证的性能的高级测量标准以及支持较高的音频带宽的需求。因此，ITU-T(ITU-电信部)12研究组发起了新的语音质量评价算法的标准化作为PESQ的技术更新。新的第三代测量标准POLQA(感知客观听音质量评价)克服了PESQ P.862标准的不足，如线性频率响应失真、在IP电话中发现的时间伸展/压缩、特定类型的编解码失真以及回声的影响的错误的评价。

尽管POLQA(P.863)提供相对于之前的质量评估算法PSQM(P.861)和PESQ(P.862)的诸多改进，但是目前的POLQA版本(如PSQM和PESQ)不能解决基本的主观感知质量情况，即可理解性。尽管可理解性还依赖于诸多音频质量参数，但是可理解性比声音质量与信息传递更加相关。就这些质量评价算法而言，可理解性与声音质量截然相反的本质使得这些算法产生与在由人或听众评估语音信号时会被分配的分数不匹配的评估分数。将焦点保持在信息共享的目标，人们会认为在声音质量上相似的可理解的语音信号比不太好理解的信号更重要。

尽管取得了许多进展，但是在诸多情况下当前模型仍意料之外地不能正确地预测人可理解性的评估分数。

发明内容

本发明的目的是寻求一种上述现有技术不足的解决方案以及提供一种评估(退化)语音信号的质量评估算法，该质量评估算法适合于考虑语音信号的可理解性以便以最接近于人评估的方式评估该语音信号。

本发明实现这个目的和其它目的，因为提供一种通过将参考语音信号传送通过所述音频传输系统以提供退化语音信号，评估从所述音频传输系统接收的退化语音信号的可理解性的方法。参考语音信号至少表示(表达)由辅音和元音的组合组成的一个或多个词。参考语音信号被采样成多个参考信号帧，并且退化语音信号被采样成多个退化信号帧。通过将参考信号帧和退化信号帧彼此关联，形成帧对。根据该方法，向每个帧对提供表示所述退化信号帧和关联的所述参考信号帧之间的差的差分函数。针对一个或多个干扰类型补偿差分函数，以向每个帧对提供适合于人听觉感知模型的干扰密度函数。根据多个帧对的干扰密度函数，导出总体质量参数。总体质量参数至少指示所述退化语音信号的可理解性。特别地，所述方法还包括：针对由参考语音信号表达的词中的至少一个词，识别与至少一个词的至少一个辅音关联的参考信号部分和退化信号部分。根据所识别的参考信号部分和退化信号部分，基于退化信号部分的信号功率与参考信号部分的信号功率的比较，确定退化语音信号的干扰的程度。然后，依据所确定的与至少一个辅音关联的退化语音信号的干扰的程度，补偿总体质量参数。

本发明通过认识到与语音信号中词的辅音一致的噪声和其它干扰被认为相比于与元音一致的类似干扰更恼人且对信息传递更有破坏性。这与元音通常比辅音讲的更大声的事实有关。此外，大多数类型的干扰平均起来的感知似乎与辅音的感知更类似，而元音则更加突出。因此，在存在相对响的干扰时，元音经常被正确地感知，而辅音则更经常被错误感知，导致信息传递失败。本发明的方法通过针对与退化语音信号中的辅音一致的退化语音信号中体验到的干扰的量而补偿所获得的总体质量参数(即，模拟的人评估分数)，正确地考虑该方面。

根据本发明的实施例，识别步骤包括：将多个退化信号帧和参考信号帧中每个帧的信号功率与第一阈值和第二阈值相比较，并且如果所述信号功率大于第一阈值且小于第二阈值，则认为退化信号帧或参考信号帧与至少一个辅音关联。

与参考语音信号或退化语音信号中的辅音相关的信号部分可以基于该信号中的信号功率来认识。特别地，考虑(纯净的，即优化的)参考信号，由于元音通常比辅音讲的更大声，所以将参考信号与较高的阈值相比较使得能够从待分析的信号部分中排除元音。此外，通过将参考语音信号中的信号功率与较低的阈值相比较，还可以排除不携带语音信息的寂静部分。因此，通过将参考语音信号的信号功率与较高阈值和较低阈值相比较，使得能够识别与语音信号中的辅音关联的信号部分。

通过对与退化信号部分的信号帧对应的参考信号帧进行识别的时间对齐过程，发现与退化语音信号中的辅音关联的对应信号部分。退化语音信号帧还可以从与所识别的参考信号部分关联的帧对中获得。

根据本发明的另一实施例，在第一频域中计算每个退化信号帧的信号功率，并且在第二频域内计算每个参考信号帧的信号功率。第一频域包括说话声音和可听噪声的第一频率范围，而第二频域包括(至少)说话声音的第二频率范围。特别地，根据另一实施例，第一频率范围可以在300赫兹至8000赫兹之间，并且第二频率范围可以在300赫兹至3500赫兹之间。用于分别计算退化信号帧的信号功率和参考信号帧的信号功率的频域之间的此差分，允许通过将任何频率分量排除在语音范围以外而理想化参考信号帧，而与此同时，用于退化信号帧的更宽频率范围可以考虑退化语音信号中可听见的干扰。

根据本发明的另一实施例，识别步骤包括：针对参考语音信号，识别信号功率在第一阈值和第二阈值之间的活跃语音信号帧以及信号功率在第三阈值和第四阈值之间的轻柔语音信号帧，并且将所述活跃语音信号帧和所述轻柔语音信号帧与退化信号帧关联，以产生活跃语音参考信号帧、轻柔语音参考信号帧以及其关联的活跃语音退化信号帧和轻柔语音退化信号帧，并且其中信号功率的所述比较包括将所述活跃语音参考信号帧的信号功率、所述轻柔语音参考信号帧的信号功率、所述活跃语音退化信号帧的信号功率和所述轻柔语音退化信号帧的信号功率彼此比较。

上面的优选实施例允许更准确地考虑在语音信号中的辅音期间干扰的影响，因为这使得能够针对在相比于不太重要的活跃语音信号部分更重要的轻柔语音信号部分期间发生的干扰，不同地补偿总体质量参数。

根据本发明的另一实施例，第一阈值小于所述第三阈值，第三阈值小于所述第四阈值，并且所述第四阈值小于所述第二阈值。根据该实施例，活跃语音信号部分比轻柔语音信号部分对应于信号功率的更宽功率范围。特别地，可以选择第二阈值，使得排除与语音信号表示的词中一个或多个元音关联的参考信号部分和其关联的退化信号部分。如这里和上面解释的，在语音信号中元音一般比辅音讲的更大声。

根据本发明的优选实施例，信号功率的比较包括：计算平均活跃语音参考信号部分信号功率P_{active,ref,average}；计算平均轻柔语音参考信号部分信号功率P_{soft,ref,average}；计算平均活跃语音退化信号部分信号功率P_{active,degraded,average}；计算平均轻柔语音退化信号部分信号功率P_{soft,degraded,average}；并且通过如下计算辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}，确定退化语音信号的干扰的程度：

\begin{matrix} {CVC}_{S N R_f a c t o r} = \\ \frac{(Δ_{2} + (P_{s o f t, \deg r a d e d, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, \deg r a d e d, a v e r a g e} + Δ_{1}))}{(Δ_{2} + (P_{s o f t, r e f, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, r e f, a v e r a g e} + Δ_{1}))} \end{matrix}

其中Δ₁和Δ₂是常数。

使用这里和上面定义的CVC_{SNR_factor}，对在辅音期间考虑的干扰，获得与退化语音信号中一般体验到的这种干扰的人评估最密切接近的非常准确的参数。对于上面，注意添加常数Δ₁和Δ₂以防止除以零以及将该模型的行为适应于对象的行为。

这种总体质量参数补偿可以以若干个不同方式执行。特别地，并且有利地，使用上面描述的干扰密度函数计算的总体质量参数可以乘以补偿因子。根据特定实施例，在辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}大于0,75的情况下，补偿因子可以是1.0，而在辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}小于0,75的情况下，补偿因子是(CVC_{SNR_factor}+0,25)^1/2。在该实施例中，仅在辅音的重要部分期间相对响的干扰的情况下补偿总体质量参数。不考虑语音信号中的元音期间体验的任何干扰。此外，还从补偿中排除小干扰。

本发明不局限于方法步骤的特定顺序。尽管可以在该方法中的任何位置实现总体质量参数的补偿，但是补偿可以在该方法就要结束时(例如，在该方法的输出处提供总体可理解性参数以前)容易地执行。此外，在不将该方法局限于特定步骤顺序的情况下，可以有利地在帧采样之后并且在提供差分函数之前执行识别参考信号部分和/或退化信号部分的步骤。

根据第二方面，本发明针对一种计算机程序产品，所述计算机程序产品包括计算机可执行代码，所述计算机可执行代码用于在由计算机执行时执行上面描述的方法。

根据第三方面，本发明针对一种用于执行根据第一方面的方法的用于评估退化语音信号的可理解性的装置，所述装置包括：接收单元，用于从传送参考语音信号的音频传输系统接收所述退化语音信号，参考语音信号至少表示由辅音和元音的组合构成的一个或多个词，并且接收单元进一步被布置用于接收参考语音信号；采样单元，用于将所述参考语音信号采样成多个参考信号帧，并且用于将所述退化语音信号采样成多个退化信号帧；处理单元，用于通过将所述参考信号帧和所述退化信号帧彼此关联来形成帧对，并且用于向每个帧对提供表示所述退化信号帧和所述参考信号帧之间的差的差分函数；补偿器单元，用于针对一个或多个干扰类型来补偿所述差分函数，以向每个帧对提供适合于人听觉感知模型的干扰密度函数；并且所述处理单元进一步被布置为根据多个帧对的所述干扰密度函数导出总体质量参数，所述总体质量参数至少表示所述退化语音信号的所述可理解性；其中，所述处理单元进一步被布置为：针对由参考语音信号表示的所述词中的至少一个，识别与至少一个词的至少一个辅音关联的参考信号部分和退化信号部分；根据所识别的参考信号部分和退化信号部分，基于退化信号部分的信号功率与参考信号部分的信号功率的比较，确定退化语音信号的干扰的程度；以及依据所确定的与至少一个辅音关联的退化语音信号的干扰的程度，补偿总体质量参数。

附图说明

参考附图通过特定实施例进一步说明本发明，其中：

图1提供根据本发明的实施例中的POLQA感知模型的第一部分的概视图；

图2提供根据本发明的实施例中的POLQA感知模型中使用的频率对齐的说明性概视图；

图3提供根据本发明的实施例中的POLQA感知模型的位于图1所示的第一部分之后的第二部分的概视图；

图4是根据本发明的实施例中的POLQA感知模型的第三部分的概视图；

图5是根据本发明的实施例中的POLQA模型中使用的掩蔽方法的示意性概视图；

图6是根据本发明的方法的补偿总体质量参数的方式的示意图。

具体实施方式

POLQA感知模型

POLQA(ITU-T rec.P.863)的基本方法与PESQ(ITU-T rec.P.862)中使用的相同，即参考输入语音信号和退化输出语音信号被映射到使用人感知模型的内部表现上。这两个内部表现之间的差分被认知模型用来预测退化信号的感知语音质量。在POLQA中实现的重要新思想是去除参考输入信号中的低水平噪声并优化音色的理想化方法。此外，感知模型的主要改进包括回放级对感知质量的影响的建模以及低水平失真和高水平失真处理时的主要分离。

图1至图4给出POLQA中使用的感知模型的概视图。图1提供在参考输入信号X(t)3和退化输出信号Y(t)5的内部表现的计算中使用的感知模型的第一部分。二者都被缩放17、46，并且在下面描述的若干个步骤中计算关于音高-响度-时间的内部表现13、14，此后计算差分函数12，在图1中用差分计算符7表示。计算两种不同的感知差分函数，一种用于在测试时使用算符7和8由系统引入的总体干扰，一种用于使用算符9和10的干扰的相加部分。与由新的时间-频率分量的引入引起的退化相比，这对由从参考信号中略去时间-频率分量引起的退化之间的影响的非对称性进行建模。在POLQA中，用两个不同的方法计算这两种，两个不同方法之一聚焦于退化的正常范围，另一个聚焦于响的退化，这导致图1所示的四个差分函数计算7、8、9和10。

对于具有频域扭曲(warping)49的退化输出信号来说，图2中使用对齐算法52。图3和图4中给出用于获得MOS-LQO分数的最终处理。

POLQA起始于一些基本常数设置的计算，之后从时间对齐和频率对齐的时间信号导出参考信号和退化信号的音高功率密度(功率作为时间和频率的函数)。在若干个步骤中根据音高功率密度导出参考信号和退化信号的内部表现。此外，这些密度还用于导出40针对频率响应失真41(FREQ)、增加的噪声42(NOISE)和房间回响43(REVERB)的头三个POLQA质量指示符。与主干扰指示符分离地计算这三个质量指示符41、42和43，以允许对大量不同的失真类型计算均衡的影响分析。这些指示符还可以用于在使用退化分解方法的语音信号中发现的那类退化的更详细分析。

如上文所述，在7、8、9和10中计算参考信号和退化信号的内部表现的四种不同变型，两个变型聚焦于正常失真和大型失真的干扰，并且两个变型聚焦于正常失真和大型失真的相加干扰。这四个不同的变型7、8、9和10是最终干扰密度计算的输入。

参考信号3的内部表现被称为理想表现，因为去除了参考信号中的低水平噪声(步骤33)并且部分地补偿了可能由原始参考记录的非最佳音色导致的在退化信号中发现的音色失真(步骤35)。

使用算符7、8、9和10计算的理想内部表现和退化内部表现的这四种不同变型被用于计算两个最终的干扰密度142和143，将最终干扰142表示为时间和频率的函数的最终干扰密度聚焦于总体退化，而将最终干扰143表示为时间和频率的函数的最终干扰密度聚焦于相加退化的处理。

图4给出根据两个最终干扰密度142和143以及FREQ 41、NOISE 42、REVERB43指示符的MOS-LQO客观MOS分数的计算的概视图。

常数设置的预计算

依据采样频率的FFT窗口大小

POLQA以三种不同的采样速率8kHz、16kHz和48kHz操作，其采样窗口大小W分别被设置为256、512和2048个样本，以匹配人听觉系统的时间分析窗。连续的帧之间的重叠在使用汉宁窗时是50％。功率谱——复数FFT分量的实部平方和虚部平方之和——被存储在参考信号和退化信号的分离实数值阵列内。在POLQA中丢弃单个帧中的相位信息，并且所有计算仅基于功率表现。

开始停止点计算

在主观测试中，噪声通常将在参考信号中的语音活动开始之前开始。然而，能够预期在主观测试中领头的稳定状态噪声使稳定状态噪声的影响下降，而在考虑领头噪声的客观测量中将增加该影响，因此预期领头噪声和拖尾噪声的省略是正确的感知方法。因此，在已经验证可用训练数据中的预期之后，根据参考文件的起始和结束计算在POLQA处理中使用的开始点和结束点。从原始语音文件的开始和结束起五个连续的绝对采样值(使用常规的16比特PCM范围-+32,000)之和必须超过500，以使该位置被认定为开始或结束。该开始和该结束之间的间隔被定义为活跃处理间隔。在POLQA处理中忽略该间隔以外的失真。

功率和响度缩放因子SP和SL

为了校准FFT的时间到频率变换，使用向73dB SPL的参考信号X(t)校准，生成具有1000Hz频率和40dB SPL振幅的正弦波。在步骤18和步骤49中使用具有分别由X(t)和Y(t)的采样频率确定的长度的加窗FFT，将该正弦波变换到频域。在21和54中将频率轴转换到巴克(Bark)标度之后，然后通过分别与X(t)和Y(t)的功率缩放因子SP 20和55相乘，将生成的音高功率密度的峰值振幅归一化到10⁴的功率值。

相同的40dB SPL参考音调用于校准心理声学(宋(Sone))响度标度。在使用兹维克(Zwicker)定律将强度轴扭曲到响度标度之后，在30和58中分别使用X(t)和Y(t)的响度缩放因子SL 31和59将响度密度在巴克频率标度上的积分归一化到1宋。

音高功率密度的缩放和计算

将退化信号Y(t)5与校准因子C 47相乘46，然后变换49到具有50％重叠FFT帧的时频域，校准因子C 47处理从数字域的dB过载至声域的dB SPL的映射。在将参考信号X(t)3变换18到时频域之前，将参考信号X(t)3缩放17至相当于大约73dB SPL的预定义的固定最佳水平。该校准过程从根本上不同于在PESQ中使用的过程，在PESQ中将退化信号和参考信号都缩放至预定义的固定最佳水平。PESQ预先假设在相同的最佳回放级执行所有播出，而在POLQA主观测试中使用相对于最佳水平20dB至+6dB之间的水平。因此，在POLQA感知模型中，可以不使用向预定义的固定最佳水平的缩放。

在水平缩放之后，使用加窗的FFT方法将参考信号和退化信号变换18、49到时频域。对于在与参考信号进行比较时退化信号的频率轴被扭曲的文件来说，对FFT帧执行频率内的解扭曲。在该解扭曲的第一步骤中，对参考FFT功率谱和退化FFT功率谱都进行预处理，以减少二者的甚窄频率响应失真以及总体谱形状差异对以下计算的影响。预处理77可以在于平滑功率谱、压缩功率谱以及平整功率谱。平滑操作是使用在78中对FFT频段的功率的滑动窗口平均来执行，而压缩是通过在每个频段内简单地取经平滑的功率的对数79来做出。通过在80中对FFT频段内经平滑的对数功率执行滑动窗口归一化，进一步平整功率谱的整体形状。接下来，使用随机次谐波音高算法，计算当前参考帧和退化帧的音高。然后，参考音高量与退化音高量的比率74被用于确定(在步骤84中)可能的扭曲因子的范围。如果可能，那么通过使用前一帧对和后一帧对的音高比，扩展该搜索范围。

然后，频率对齐算法迭代遍历搜索范围，并且用当前迭代的扭曲因子扭曲85退化功率谱，并且使用上面描述的预处理77处理88所扭曲的功率谱。然后，针对低于1500Hz的频点(bin)，计算(在步骤89中)经处理的参考谱和经处理的扭曲的退化谱的相关性。在完成遍历该搜索范围的迭代之后，在步骤90中获取“最佳”(即，导致最高相关性的)扭曲因子。然后，将经处理的参考谱和最佳扭曲的退化谱的相关性与原始的经处理的参考谱和退化谱的相关性进行比较。然后，如果该相关性增加设定的阈值，则保持97该“最佳”扭曲因子。如果需要，该扭曲因子在98中受针对之前的帧对确定的扭曲因子的最大相对变化限制。

在参考信号和退化信号的频率轴对准可能需要的解扭曲以后，以Hz为单位的频率标度在步骤21和54中被扭曲至以巴克为单位的音高标度，反映出，在低频，人听力系统具有比在高频更精细的频率分辨率。这是通过对FFT频段入仓(binning)并且利用所相加的部分的归一化对FFT频段的对应功率相加来实现的。将以赫兹为单位的频率标度映射到以巴克为单位的音高标度的扭曲函数接近为此目的在文献中给出的值，并且是掌握技术的读者已知的。生成的参考信号和退化信号被称为音高功率密度PPX(f)_n(图1中未示出)和PPY(f)_n 56，f是以巴克为单位的频率，索引n表示帧索引。

语音活跃帧、寂静帧和超寂静帧的计算(步骤25)

POLQA对步骤25中区分的三类帧操作：

·语音活跃帧，其中参考信号的帧水平高于平均值以下20dB左右的水平，

·寂静帧，其中参考信号的帧水平低于平均值以下20dB左右的水平，以及

·超寂静帧，其中参考信号的帧水平低于平均水平以下35dB左右的水平。

频率指示符、噪声指示符和回响指示符的计算

在步骤40中，分离地量化频率响应失真、噪声和房间回响的全局影响。对于整体全局频率响应失真的影响，根据参考信号和退化信号的平均谱计算指示符41。为了不依赖于加性噪声进行频率响应失真影响的估计，从退化信号的音高响应密度中减去参考信号的寂静帧上的退化信号的平均噪声谱密度。然后，在每个巴克频段内，对参考文件和退化文件的所有语音活跃帧，求退化信号的最终音高响度密度和参考信号的音高响度密度的平均。然后，在该音高上对这两个密度之间的音高响度密度之差进行积分，以导出用于量化频率响应失真(FREQ)影响的指示符41。

对于加性噪声的影响，根据参考信号的寂静帧上的退化信号的平均谱，计算指示符42。寂静帧上退化信号的平均音高响度密度和零参考音高响度密度之间的差确定对加性噪声的影响进行量化的噪声响度密度函数。然后，在该音高上对该噪声响度密度函数进行积分，以导出平均噪声影响指示符42(NOISE)。因此，该指示符42是根据理想寂静计算的，使得使用有噪声的参考信号测量的透明链将因此不提供最终POLQA端到端语音质量测量中的最大MOS分数。

对于房间回响的影响，根据参考时间序列和退化时间序列计算随时间变化的能量函数(ETC)。ETC表示系统H(f)的冲击响应h(t)的包络，其被定义为Y_a(f)＝H(f)·X(f)，其中Y_a(f)是退化信号的水平对齐表现的谱，X(f)是参考信号的谱。执行该水平对准，以抑制参考信号和退化信号之间的全局增益和局部增益差。使用逆离散傅里叶变换，根据H(f)计算冲击响应h(t)。通过归一化和限幅(clipping)，根据h(t)的绝对值计算ETC。基于ETC，搜索多达三个反射。在第一步骤中，通过简单地确定直接声音之后ETC曲线的最大值，计算最响的反射。在POLQA模型中，直接声音被定义为60ms以内到达的所有声音。接下来，在没有直接声音的间隔内并且不考虑从最响反射起100ms内到达的反射，确定第二最响反射。然后，在没有直接声音的间隔内并且不考虑从最响反射和第二最响反射起100ms内到达的反射，确定第三最响反射。然后，将这三个最响反射的能量和延迟合并成单个回响指示符43(REVERB)。

参考信号向退化信号的全局缩放和局部缩放(步骤26)

根据步骤17，参考信号现在处于内部的理想水平，即相当于大约73dB SPL，而由于46，退化信号被表现为处于与回放级一致的水平。在比较参考信号和退化信号以前，在步骤26中补偿全局水平差。此外，部分地补偿局部水平的小改变，以解决足够小水平的变化在仅听的情况中不能被对象注意到的事实。使用400Hz至3500Hz之间的频率分量，基于参考信号和退化信号的平均功率执行全局水平均衡26。参考信号被全局地缩放至退化信号，因此在该处理阶段中保持全局回放级差的影响。类似地，对于缓慢改变的增益失真而言，使用参考语音文件和退化语音文件的全部带宽，对多达3dB的水平变化执行局部缩放。

针对线性频率响应失真的原始音高功率密度的部分补偿(步骤27)

为了对由测试中的系统中的滤波导致的线性频率响应失真的影响正确地进行建模，在步骤27中使用部分补偿方法。为了对主观测试中适度的线性频率响应失真的不可感知性进行建模，用测试中的系统的转移特性对参考信号进行部分滤波。这通过对所有语音活跃帧计算原始音高功率密度和退化音高功率密度的平均功率谱来执行。每个巴克频点，根据退化谱与原始谱的比率，计算27部分补偿因子。

掩蔽效应的建模、音高响度密度激励的计算

在步骤30和步骤58中通过计算音高功率密度的模糊表现，对掩蔽进行建模。根据图5a至图5c中示出的原理，考虑时域和频域模糊(smearing)。时频域模糊使用卷积方法。根据该模糊表现，重新计算参考音高功率密度和退化音高功率密度的表现，以抑制低振幅时频分量，低振幅时频分量部分地被时频平面中相邻的响的分量掩蔽。该抑制是以两种不同的方式实现的，从不模糊表现中减去模糊表现以及将不模糊表现除以模糊表现。然后，使用Zwicker功率定律的修改版本将生成的经锐化的音高功率密度的表现变换成音高响度密度表现：

L X {(f)}_{n} = S L * {(\frac{P_{0} (f)}{0.5})}^{0.22 * f_{B} * P_{f n}} * [{(0.5 + 0.5 \frac{P P X {(f)}_{n}}{P_{0} (f)})}^{0.22 * f_{B} * P_{f n}} - 1]

其中SL是响度缩放因子、P0(f)是绝对听觉阈值、fB和Pfn是频率，并且依赖水平的纠正由以下公式限定：

f_B＝-0.03*f+1.06 对于f＜2.0巴克

f_B＝1.0 对于2.0≤f≤22巴克

f_B＝-0.2*(f-22.0)+1.0 对于f＞22.0巴克

P_fn＝(PPX(f)_n+600)^0.008

其中f表示以巴克为单位的频率，PPX(f)_n是以频率时间单元f,n为变量的音高功率密度。分别在用于参考信号X(t)的步骤30以及用于退化信号Y(t)的步骤58的输出处生成的二维阵列LX(f)_n和LY(f)_n被称为音高响度密度。

参考信号和退化信号中的全局低水平噪声抑制

不受测试中的系统(例如，透明系统)影响的参考信号的低水平噪声，将因为绝对种类定级测试过程而被对象归因于测试中的系统。因此，在参考信号的内部表现的计算中，必须抑制这些低水平的噪声。在步骤33中，通过随音高的变化对超寂静帧计算参考信号的平均稳定状态噪声响度密度LX(f)_n，执行该“理想化过程”。然后，从参考信号的所有音高响度密度帧中部分地减去该平均噪声响度密度。该结果是在步骤33的输出处参考信号的理想化内部表现。

在退化信号中可听见的稳定状态噪声比不稳定状态噪声有更小的影响。所有级别的噪声都是这样，并且该效应的影响可以通过从退化信号中部分地去除稳定状态噪声来建模。这在步骤60中通过计算退化信号随音高变化的平均稳定状态噪声响度密度LY(f)_n来执行，该退化信号帧的参考信号的对应帧被分类为超寂静帧。然后，从退化信号的所有音高响度密度帧中部分地减去该平均噪声响度密度。部分补偿对低水平噪声和高水平噪声使用不同策略。对于低水平的噪声，该补偿仅是微小的，而使用的抑制对响的加性噪声更有攻击性。结果是退化信号的内部表现61，加性噪声通过使用参考信号的理想化不含噪声的表现而适合于听音测试中观察到的主观影响。

在上面的步骤33中，除了执行全局低水平噪声抑制之外，还为每个参考信号帧确定LOUDNESS指示符32。该LOUDNESS指示符或LOUDNESS值可以用于确定用于对特定类型失真进行加权的响度相关加权因子。加权本身可以在步骤125和125′中在提供最终干扰密度142和143时对由算子7、8、9和10提供的四种失真表现实施。

这里，已经在步骤33中确定响度级指示符，但是可以理解在该方法的另一部分中可以对每个参考信号帧确定响度级指示符。在步骤33中，由于已经对超寂静帧确定参考信号LX(f)_n的平均稳定状态噪声响度密度，所以确定响度级指示符是可能的，超寂静帧然后用于构造所有参考帧的不含噪声参考信号。然而，尽管有可能在步骤33中实施该步骤，但是其不是最优选的实现方式。

替代地，响度级指示符(LOUDNESS)可以在步骤35之后的附加步骤中从参考信号中取得。该附加步骤还在图1中被指示为具有虚线输出(LOUDNESS)32’的虚线框35’。如本领域技术人员可以理解，如果在步骤35’中实施，则不再需要从步骤33中取得响度水平指示符。

退化信号和参考信号之间的时变增益的失真音高响度密度的局部缩放(步骤34和步骤63)

增益的缓慢变化是听不见的，并且已经在参考信号表现的计算中补偿微小变化。以两个步骤执行在可以计算正确的内部表现之前所需的剩余补偿：第一，在步骤34中对退化信号响度低于参考信号响度的信号水平补偿参考信号；以及，第二，在步骤63中对参考信号响度低于退化信号响度的信号水平补偿退化信号。

第一补偿34将参考信号缩放至该信号的其中退化信号示出严重信号损耗(如在时间限幅(time clipping)情况中)的部分的较低水平。该缩放使得参考信号和退化信号的剩余差表示时间限幅对局部感知到的语音质量的影响。不补偿参考信号响度低于退化信号响度的部分，因此在该第一步骤中不补偿加性噪声和响的咔哒声。

第二补偿63将退化信号缩放至该信号的其中退化信号表现出咔哒声的部分以及该信号的在寂静间隔内存在噪声的部分的较低水平。该缩放使得参考信号和退化信号之间的剩余差表示咔哒声和缓慢变化的加性噪声对局部感知的语音质量的影响。尽管咔哒声在寂静部分和语音活跃部分都被补偿，但是噪声仅在寂静部分中被补偿。

原始音高响度密度针对线性频率响应失真的部分补偿(步骤35)

已经在步骤27中通过部分地滤除音高功率密度域中的参考信号来补偿了不可感知的线性频率响应失真。为了进一步对线性失真不及非线性失真令人反感的事实进行纠正，现在在步骤35中在音高响度域部分地过滤参考信号。这通过对所有语音活跃帧计算原始音高响度密度和退化音高响度密度的平均响度谱来执行。每个巴克频点，根据退化响度谱与原始响度谱的比率，计算部分补偿因子。该部分补偿因子用于利用测试中系统的平滑、低振幅版本的频率响应过滤参考信号。在该过滤之后，由线性频率响应失真引起的参考音高响度密度和退化音高响度密度之间的差被减小至表示线性频率响应失真对所感知的语音质量的影响的水平。

音高响度密度的最终缩放和噪声抑制

直至该点，在主观实验中使用的回放级上执行对这些信号的全部计算。对于低回放级，这将导致参考音高响度密度和退化音高响度密度之间的低差异，并且通常是收听语音质量的远超乐观估计。为了补偿该效应，退化信号现在在步骤64中被缩放至“虚拟”固定内部水平。在该缩放之后，参考信号在步骤36中被缩放至退化信号水平，参考信号和退化信号现在分别为37和65中的最终噪声抑制操作做好准备。该噪声抑制处理响度域中仍对语音质量计算有过大影响的稳定状态噪声水平的最后部分。生成的信号13和14现在位于感知相关内部表现域内，并且根据理想音高-响度-时间LXideal(f)_n 13函数和退化音高-响度-时间LY _deg(f)_n 14函数，可以计算干扰密度142和143。在7、8、9和10中计算理想音高响度时间函数和退化音高响度时间函数的四个不同变型，两个变型(7和8)聚焦于正常失真和大失真的干扰，两个变型(9和10)聚焦于正常失真和大失真的相加干扰。

最终干扰密度的计算

计算干扰密度142和143的两种不同类型。在7和8中根据理想音高-响度-时间函数LX_ideal(f)_n和退化音高-响度-时间函数LY_deg(f)_n之间的差分导出第一个正常干扰密度。在9和10中使用关于引入的退化优化的版本根据理想音高-响度-时间函数和退化音高-响度-时间函数导出第二个，并且第二个被称为相加干扰。在此相加干扰计算中，用依赖于每个音高-时间单元中的功率比的因子(非对称因子)对退化功率密度大于参考功率密度的信号部分进行加权。

为了能够应对大范围失真，执行两种不同版本的处理，一个基于7和9聚焦于轻度至中度的失真，一个基于8和10聚焦于中度至重度失真。基于根据聚焦于轻度至中度水平的失真的干扰的第一估计，执行二者之间的切换。该处理方法导致需要计算四个不同的理想音高-响度-时间函数以及四个不同的退化音高-响度-时间函数，以能够计算单个干扰函数和单个相加干扰函数(见图3)，然后针对若干个不同类型的严重量的特定失真补偿该单个干扰函数和单个添加干扰函数。

在127和127’中通过根据退化信号的信号水平直接导出的指示符，对最佳收听水平的严重偏差进行量化。在MOS-LQO的计算中也使用该全局指示符(LEVEL)。

在128和128’中通过根据参考信号的连续帧的相关性与退化信号的连续帧的相关性的比较导出的指示符，量化由帧重复引入的严重失真。

在129和129’中通过根据上频带和下频带之间的响度差分导出的指示符，量化退化信号的最佳“理想”音色的严重偏差。根据退化信号的低频部分中2巴克和12巴克之间以及更高范围中7至17巴克(即，使用5巴克重叠)的巴克频段的响度之差，计算音色指示符；无论该差可能是参考语音文件的不正确语音音色导致的，该音色指示符都“惩罚(punish)”任何严重的失衡。对每个帧在全局水平上执行补偿。该补偿计算退化信号的低巴克频段和上巴克频段(低于12巴克并且高于7巴克，即使用5巴克重叠)中的功率，并且无论这可能是参考语音文件的错误语音音色导致的，该补偿都“惩罚”任何严重失衡。注意，使用包含过多噪声和/或错误语音音色的劣质记录的参考信号的透明链，将因此不提供POLQA端到端语音质量测量时的最大MOS分数。该补偿还在测量透明设备质量时具有影响。当使用表现出与最佳“理想”音色显著偏离的参考信号时，测试中的系统将被判断为非透明，即便该系统不向参考信号引入任何退化。

在130和130’中在FLATNESS指示符中量化干扰中严重峰值的影响，该FLATNESS指示符还用于MOS-LQO的计算。

在131和131’中通过根据对应参考信号帧是寂静的退化信号帧导出的噪声对比指示符，量化将对象的注意力聚焦至噪声的严重噪声水平变化。

在步骤133和133’中，依据加权干扰是否与实际说话声音一致，对加权干扰执行加权操作。为了评价退化信号的可理解性，在寂静周期内感知到的干扰不被认为与在实际说话声音期间感知到的干扰一样有害。因此，基于在步骤33中(或者在步骤35’中)根据参考信号确定的LOUDNESS指示符，确定用于加权任何干扰的加权值。该加权值用于加权差分函数(即干扰)以将干扰对退化语音信号的可理解性的影响包含到评估内。特别地，由于基于LOUDNESS指示符确定加权值，所以可以由响度相关函数表示加权值。该响度相关加权值可以通过将响度值与阈值相比较来确定。如果响度指示符超过该阈值，则在执行评估时完全考虑所感知的干扰。另一方面，如果响度值小于该阈值，则依据响度级指示符确定该加权值，即在本示例中，加权值等于响度级指示符(在LOUDNESS低于阈值的范围内)。优点是，对于语音信号的轻柔部分(例如在暂停或沉默之前说的词的末尾)，部分地将干扰考虑为对可理解性有害。作为示例，可以理解，当说出词的结尾处的字母“f”时感知的特定量噪声可以引起听者将其感知为字母“s”。这可能对可理解性有害。另一方面，本领域技术人员可以理解，通过在响度值低于上面提到的阈值时将加权值变为零，也可能简单地在沉默或暂停期间忽略任何噪声。

再次继续图3，在该对齐中检测到该对齐中的严重跳跃，并且在步骤136和136’中通过补偿因子量化该影响。

最后，在137和137’中将干扰密度和相加干扰密度限幅至最大水平，并且干扰的变化138和138’以及跳跃140和140’在参考信号的响度中的影响用于补偿干扰的特定时间结构。

这产生用于规则干扰的最终干扰密度D(f)_n 142和用于相加干扰的最终干扰密度DA(f)_n 143。

音高、突发和时间的干扰聚合，到中间MOS分数的映射

在音高轴上使用L₁积分153和159(见图4)对每个帧积分最终干扰D(f)_n密度142和相加干扰DA(f)_n密度143，这对每个帧生成两种不同的干扰，一个源自干扰，一个源自相加干扰。

W_f是与巴克频点的宽度成比例的一系列常数。

接下来，分别利用用于加权干扰和用于加权相加干扰的L₄155以及L₁160，以六个连续的语音帧(被定义为语音突发)为一串求每个帧的这两个干扰的平均值。

{DS}_{n} = \sqrt[4]{\frac{1}{6} \underset{m = n, .. n + 6}{Σ} {D_{m}}^{4}}

{DAS}_{n} = \frac{1}{6} \underset{m = n, .. n + 6}{Σ} D_{m}

最终，根据一段时间内的L₂156和161平均，计算每个文件的干扰和相加干扰。

在步骤161中使用REVERB 42指示符和NOISE 43指示符针对响的回响和响的加性噪声，补偿相加干扰。然后，将这两个干扰与频率指示符41(FREQ)结合170，以导出利用三阶回归多项式线性化的内部指示符，从而获得类MOS的中间指示符171。

最终POLQA MOS-LQO的计算

在步骤175中使用全部四个不同的补偿根据类MOS的中间指示符，导出原始POLQA分数。

·两个补偿用于干扰的特定时间-频率特性，一个利用频率148、突发149和时间150上的L₅₁₁聚合计算，一个利用频率145、突发146和时间147上的L₃₁₃聚合计算

·一个补偿用于使用LEVEL指示符的十分低呈现水平

·一个补偿用于在频域使用FLATNESS指示符的大音色失真。

对包括不属于POLQA基准的一部分的退化在内的一大组退化执行该映射的训练。这些原始MOS分数176用于已经通过在类MOS中间指示符171的计算中使用的三阶多项式映射线性化的主要部分。

最终，在180中使用针对在POLQA标准化的最终阶段可获得的62个数据库优化的三阶多项式，将原始POLQA MOS分数176映射至MOS-LQO分数181。在窄带模式中，最大POLQA MOS-LQO分数是4.5，而在超宽带模式中，该点位于4.75处。该理想化过程的重要结果是：在一些情况中，当参考信号包含噪声或者当音色严重失真时，透明链将不在窄带模式中提供4.5的最大MOS分数或者在超宽带模式中4.75的最大MOS分数。

根据本发明，可以如下实现辅音-元音-辅音补偿。在图1中，可以如所示那样获得参考信号帧220和退化信号帧240。例如，参考信号帧220可以从参考信号的向巴克的扭曲步骤21中获得，而退化信号帧可以从对退化信号执行的对应步骤54中获得。根据图1所示的本发明的方法获得参考信号帧和/或退化信号帧的准确位置仅仅是示例。参考信号帧220和退化信号帧240可以从图1的其他步骤中的任一步骤(特别地在参考信号X(t)3的输入和步骤26中的退化水平的全局和局部缩放之间的某一位置)中获得。退化信号帧可以在退化信号Y(t)5的输入和步骤54之间的某一位置获得。

辅音-元音-辅音补偿如图6所示那样继续。首先，在步骤222中，在期望的频域内计算参考信号帧220的信号功率。对于参考帧而言，该频域在最佳情况中仅包括语音信号(例如，300赫兹至3500赫兹之间的频率范围)。然后，在步骤224中，通过将所计算的信号功率与第一阈值228和第二阈值229进行比较，关于是否要将该参考信号帧包括作为活跃语音参考信号帧，执行选择。当使用在POLQA(ITU-T rec.P.863)中描述的参考信号的缩放时，第一阈值可以例如等于7,0×10⁴，第二阈值可以等于2,0×2×10⁸。类似地，在步骤225中，通过将所计算的信号功率与第三阈值230和第四阈值231进行比较，选择与轻柔语音参考信号(辅音的重要部分)对应的参考信号帧去进行处理。第三阈值可以例如等于2.0×10⁷，第四阈值可以等于7,0×10⁷。

步骤224和步骤225产生与活跃语音部分和轻柔语音部分对应的参考信号帧，分别是活跃语音参考信号部分帧234和轻柔语音参考信号部分帧235。这些帧被提供给下面介绍的步骤260。

与参考信号的相关信号部分的计算完全类似，退化信号帧240也首先在步骤242中被分析，以计算期望频域内的信号功率。对于退化信号帧来说，计算包括说话声音频率范围以及可听见的噪声中大多数存在的频率范围(例如，300赫兹至8000赫兹之间的频率范围)内的信号功率的是有利的。

根据步骤242中计算的信号功率，选择相关帧，即与相关参考帧关联的帧。选择发生在步骤244和步骤245中。在步骤245中，对于每个退化信号帧，确定其是否与步骤225中被选择作为轻柔语音参考信号帧的参考信号帧在时间上对齐。如果退化帧与轻柔语音参考信号帧在时间上对齐，那么将该退化帧识别为轻柔语音退化信号帧，并且将在步骤260的计算中使用所计算的信号功率。否则，放弃该帧作为在步骤247中用于补偿因子计算的轻柔语音退化信号帧。在步骤244中，针对每个退化信号帧，确定其是否与步骤224中被选择作为活跃语音参考信号帧的参考信号帧在时间上对齐。如果退化帧与活跃语音参考信号帧在时间上对齐，那么将该退化帧标识为活跃语音退化信号帧，并且将在步骤260的计算中使用所计算的信号功率。否则，放弃该帧作为在步骤247中用于补偿因子计算的活跃语音退化信号帧。这产生被提供给步骤260的轻柔语音退化信号部分帧254和活跃语音退化信号部分帧255。

步骤260接收活跃语音参考信号部分帧234、轻柔语音参考信号部分帧235、轻柔语音退化信号部分帧254以及活跃语音退化信号部分帧255作为输入。在步骤260中，处理这些帧的信号功率，以确定活跃语音参考信号部分和轻柔语音参考信号部分的平均信号功率以及活跃语音退化信号部分和轻柔语音退化信号部分的平均信号功率，并且由此(也在步骤260中)，如下计算辅音-元音-辅音信噪比补偿参数(CVC_{SNR_factor})：

\begin{matrix} {CVC}_{S N R_f a c t o r} = \\ \frac{(Δ_{2} + (P_{s o f t, \deg r a d e d, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, \deg r a d e d, a v e r a g e} + Δ_{1}))}{(Δ_{2} + (P_{s o f t, r e f, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, r e f, a v e r a g e} + Δ_{1}))} \end{matrix}

参数Δ₁和Δ₂是用于将模型行为适合于对象行为的常数值。该公式中的其它参数如下：P_{active,ref,average}是平均活跃语音参考信号部分信号功率。参数P_{soft,ref,average}是平均轻柔语音参考信号部分信号功率。参数P_{active,degraded,average}是平均活跃语音退化信号部分信号功率，并且参数P_{soft,degraded,average}是平均轻柔语音退化信号部分信号功率。在步骤260的输出这里，提供辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}。

在步骤262，将CVC_{SNR_factor}与阈值(在本示例中0,75)相比较。如果CVC_{SNR_factor}大于该阈值，则在步骤265中将补偿因子确定为等于1,0(不进行补偿)。如果CVC_{SNR_factor}小于阈值(这里0,75)，则在步骤267中将补偿因子计算如下：补偿因子＝(CVC_{SNR_factor}+0,25)^1/2(注意，将值0,25取为等于1.0-0,75，其中0,75是用于比较CVC_{SNR_factor}的阈值)。因此，提供的补偿因子270在图4的步骤182中用作MOS-LQO分数的乘数(即，总体质量参数)。如将理解的，补偿(例如，通过相乘)不一定必须在步骤182中发生，而是可以集成在步骤175或步骤180中的任一个步骤中(在此情况下，步骤182从图4的方案中消失)。此外，在本示例中，通过将MOS-LQO分数乘以如上所述计算的补偿因子来实现补偿。将理解，补偿还可以采用另一种形式。例如，依据CVC_{SNR_factor}，还可以向所获得的MOS-LQO中添加或减少变量。本领域技术人员将理解和识别与本教导相一致的其它补偿意义。

本发明可以与本文具体描述的方式不同的方式实践，并且本发明的范围不局限于上面描述的特定实施例和附图，而是可以在所附权利要求限定的范围内变化。

附图标记

3 参考信号X(t)

5 退化信号Y(t)，振幅-时间

6 延迟识别，形成帧对

7 差分计算

8 差分计算的第一变型

9 差分计算的第二变型

10 差分计算的第三变型

12 差分信号

13 内部理想音高-响度-时间LX_ideal ^(f) _n

14 内部退化音高-响度-时间LY_deg ^(f) _n

17 向固定水平的全局缩放

18 加窗FFT

20 缩放因子SP

21 向巴克的扭曲

25 (超)寂静帧检测

26 向退化水平的全局&局部缩放

27 部分频率补偿

30 激励和向宋的扭曲

31 绝对阈值缩放因子SL

32 LOUDNESS

32’ (根据替代步骤35’确定的)LOUDNESS

33 全局低水平噪声抑制

34 如果Y<X，则局部缩放

35 部分频率补偿

35’ (替代的)确定响度

36 向退化水平缩放

37 全局低水平噪声抑制

40 FREQ NOISE REVERB指示符

41 FREQ指示符

42 NOISE指示符

43 REVERB指示符

44 PW_R_overall指示符(退化信号和参考信号之间的总体音频功率比)

45 PW_R_frame指示符(退化信号和参考信号之间的总体音频功率比)

46 向回放级缩放

47 校正因子C

49 加窗FFT

52 频率对齐

54 向巴克的扭曲

55 缩放因子SP

56 退化信号音高-功率-时间PPY^(f) _n

58 激励和向宋的扭曲

59 绝对阈值缩放因子SL

60 全局高水平噪声抑制

61 退化信号音高-响度-时间

63 如果Y>X，则局部缩放

64 向固定内部水平缩放

65 全局高水平噪声抑制

70 参考谱

72 退化谱

74 当前帧和+/-1周围帧的参考和退化音高的比率

77 预处理

78 平整FFT谱中的窄尖峰和下降

79 取谱的对数，施加用于最小强度的阈值

80 使用滑动窗弄平整体log谱形状

83 优化循环

84 扭曲因子的范围：[最小音高比<＝1<＝最大音高比]

85 扭曲退化谱

88 施加预处理

89 计算小于1500Hz的频点的谱的相关性

90 跟踪最佳扭曲因子

93 扭曲退化谱

94 施加预处理

95 计算小于3000Hz的频点的谱的相关性

97 另外如果相关性足以恢复原始，则保持扭曲的退化谱

98 限制从一个帧至下一帧的扭曲因子的变化

100 理想规则的

101 退化规则的

104 理想大失真

105 退化大失真

108 理想相加

109 退化相加

112 理想相加大失真

113 退化相加大失真

116 干扰密度规则选择

117 干扰密度大失真选择

119 相加干扰密度选择

120 相加干扰密度大失真选择

121 向转换函数123的PW_R_overall输入

122 向转换函数123的PW_R_frame输入

123 大失真决策(转换)

125 用于严重的特定失真量的纠正因子

125’ 用于严重的特定失真量的纠正因子

127 水平

127’ 水平

128 帧重复

128’ 帧重复

129 音色

129’ 音色

130 谱平整度

130’ 谱平整度

131 寂静周期内的噪声对比度

131’ 寂静周期内的噪声对比度

133 响度相关的干扰加权

133’ 响度相关的干扰加权

134 参考信号的响度

134’ 参考信号的响度

136 对齐跳跃

136’ 对齐跳跃

137 限幅至最大退化

137’ 限幅至最大退化

138 干扰变化

138’ 干扰变化

140 响度跳跃

140’ 响度跳跃

142 最终干扰密度D^(f) _n

143 最终相加干扰密度DA^(f) _n

145 L₃频率积分

146 L₁突发积分

147 L₃时间积分

148 L₅频率积分

149 L₁突发积分

150 L₁时间积分

153 L₁频率积分

155 L₄突发积分

156 L₂时间积分

159 L₁频率积分

160 L₁突发积分

161 L₂时间积分

170 映射至中间MOS分数

171 类MOS中间指示符

175 MOS缩放补偿

176 原始MOS分数

180 映射至MOS-LQO

181 MOS LQO

182 CVC可理解性补偿

185 短正弦音调随时间变化的强度

187 短正弦音调

188 用于第二短正弦音调的掩蔽阈值

195 短正弦音调随频率变化的强度

198 短正弦音调

199 用于第二短正弦音调的掩蔽阈值

205 3D图中随频率和时间变化的强度

211 导致锐化的内部表现的被用作抑制强度的掩蔽阈值

220 参考信号帧(还见图1)

222 确定语音域内的信号功率(例如，300Hz-3500Hz)

224 将信号功率与第一阈值和第二阈值相比较并且如果在范围内则选择

225 将信号功率与第三阈值和第四阈值相比较并且如果在范围内则选择

228 第一阈值

229 第二阈值

230 第三阈值

231 第四阈值

234 活跃语音参考信号帧的功率平均值

235 轻柔语音参考信号帧的功率平均值

240 退化信号帧(还见图1)

242 确定语音域中的信号功率以及可听见的干扰(例如300Hz-8000Hz)

244 退化帧在时间上与选择的活跃语音参考信号帧对齐？

245 退化帧在时间上与选择的轻柔语音参考信号帧对齐？

247 帧被放弃作为活跃/轻柔语音退化信号帧

254 轻柔语音退化信号帧的功率平均值

255 活跃语音退化信号帧的功率平均值

260 计算辅音-元音-辅音信噪比补偿参数(CVC_{SNR_factor})

262 CVC_{SNR_factor}低于用于补偿的阈值(例如，0,75)？

265 否→补偿因子＝1.0(无补偿)

267 是→补偿因子是(CVC_{SNR_factor}+0,25)^1/2

270 将补偿值提供给步骤182以补偿MOS-LQO

Claims

1.一种通过将参考语音信号传送通过音频传输系统以提供退化语音信号，评估从所述音频传输系统接收的所述退化语音信号的可理解性的方法，其中所述参考语音信号表达由辅音和元音的组合构成的一个或多个词，其中所述方法包括：

将所述参考语音信号采样成多个参考信号帧，将所述退化语音信号采样成多个退化信号帧，并且通过将所述参考信号帧与所述退化信号帧彼此关联来形成帧对；

向每个帧对提供表示所述退化信号帧和关联的所述参考信号帧之间的差的差分函数；

针对一个或多个干扰类型，补偿所述差分函数，以向每个帧对提供适合于人听觉感知模型的干扰密度函数；

根据多个帧对的所述干扰密度函数导出总体质量参数，所述质量参数至少指示所述退化语音信号的所述可理解性；

其中，所述方法进一步包括以下步骤：

针对由所述参考语音信号表达的所述词中的至少一个词，识别与所述至少一个词的至少一个辅音关联的参考信号部分和退化信号部分；

根据所识别的参考信号部分和退化信号部分，基于所述退化信号部分的信号功率和所述参考信号部分的信号功率的比较，确定所述退化语音信号的干扰的程度；以及

依据所确定的与所述至少一个辅音关联的所述退化语音信号的干扰的程度，补偿所述总体质量参数，以将所述总体质量参数补偿用于与所述退化语音信号中的辅音一致的干扰。

2.根据权利要求1所述的方法，其中所述识别步骤是基于所述参考语音信号的信号功率执行的。

3.根据权利要求1或权利要求2所述的方法，其中所述识别步骤包括将多个参考信号帧中每个参考信号帧的信号功率与第一阈值和第二阈值相比较，并且如果所述信号功率大于所述第一阈值并且小于所述第二阈值，则认为所述参考信号帧中的一个或多个参考信号帧与所述至少一个辅音关联。

4.根据前述权利要求中任一项所述的方法，其中所述识别步骤包括：在识别所述参考信号部分之后，通过执行与关联于所述至少一个辅音的所述参考信号部分的参考信号帧的时间对准或者通过选择包含与所述至少一个辅音关联的参考信号帧的帧对，选择与所述至少一个辅音关联的一个或多个退化信号帧。

5.根据前述权利要求中任一项所述的方法，其中所述退化信号帧的信号功率是在第一频域内计算的，并且所述参考信号帧的信号功率是在第二频域内计算的，所述第一频域包括说话声音和可听噪声的第一频率范围，优选地在300Hz至8000Hz之间，并且所述第二频域包括说话声音的第二频率范围，优选地在300Hz至3500Hz之间。

6.根据前述权利要求中任一项所述的方法，其中所述识别步骤包括：

针对所述参考语音信号，识别信号功率在第一阈值和第二阈值之间的活跃语音信号帧，以及信号功率在第三阈值和第四阈值之间的轻柔语音信号帧，并且将所述活跃语音信号帧和所述轻柔语音信号帧与退化信号帧关联，以产生活跃语音参考信号帧、轻柔语音参考信号帧、活跃语音退化信号帧和轻柔语音退化信号帧；并且

其中信号功率的所述比较包括将所述活跃语音参考信号帧的信号功率、所述轻柔语音参考信号帧的信号功率、所述活跃语音退化信号帧的信号功率和所述轻柔语音退化信号帧的信号功率彼此比较。

7.根据权利要求6所述的方法，其中所述第一阈值小于所述第三阈值，所述第三阈值小于所述第四阈值，并且所述第四阈值小于所述第二阈值。

8.根据权利要求7所述的方法，其中选择所述第二阈值，以排除与一个或多个元音关联的参考信号帧或退化信号帧。

9.根据权利要求6-8中任一项所述的方法，其中信号功率的所述比较包括：

计算平均活跃语音参考信号部分信号功率P_{active,ref,average}；计算平均轻柔语音参考信号部分信号功率P_{soft,ref,average}；计算平均活跃语音退化信号部分信号功率P_{active,degraded,} _average；计算平均轻柔语音退化信号部分信号功率P_{soft,degraded,average}；以及

通过如下计算辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}，确定所述退化语音信号的干扰的程度：

\begin{matrix} {CVC}_{S N R_f a c t o r} = \\ \frac{(Δ_{2} + (P_{s o f t, \deg r a d e d, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, \deg r a d e d, a v e r a g e} + Δ_{1}))}{(Δ_{2} + (P_{s o f t, r e f, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, r e f, a v e r a g e} + Δ_{1}))} \end{matrix}

其中Δ₁和Δ₂是常数。

10.根据前述权利要求中任一项所述的方法，其中所述补偿步骤是通过将所述总体质量参数与补偿因子相乘来执行的。

11.根据引用权利要求9的权利要求10所述的方法，其中如果所述辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}大于0,75，则所述补偿因子是1.0；并且其中如果所述辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}小于0,75，则所述补偿因子是(CVC_{SNR_factor}+0,25)^1/2。

12.一种包括计算机可执行代码的计算机程序产品，所述计算机可执行代码用于在计算机上执行时执行根据前述权利要求中任一项所述的方法。

13.一种用于评估退化语音信号的可理解性的装置，用于执行根据权利要求1-11中任一项所述的方法，所述装置包括：

接收单元，用于从传送参考语音信号的音频传输系统接收所述退化语音信号，所述参考语音信号至少表示由辅音和元音的组合构成的一个或多个词，并且所述接收单元进一步被布置用于接收所述参考语音信号；

采样单元，用于将所述参考语音信号采样成多个参考信号帧，并且用于将所述退化语音信号采样成多个退化信号帧；

处理单元，用于通过将所述参考信号帧和所述退化信号帧彼此关联来形成帧对，并且用于向每个帧对提供表示所述退化信号帧和所述参考信号帧之间的差的差分函数；

补偿器单元，用于针对一个或多个干扰类型来补偿所述差分函数，以向每个帧对提供适合于人听觉感知模型的干扰密度函数；以及

所述处理单元进一步被布置为根据多个帧对的所述干扰密度函数导出总体质量参数，所述总体质量参数至少代表所述退化语音信号的所述可理解性；

其中，所述处理单元进一步被布置为：

针对由所述参考语音信号表示的所述词中的至少一个词，识别与所述至少一个词的至少一个辅音关联的参考信号部分和退化信号部分；

根据所识别的参考信号部分和退化信号部分，基于所述退化信号部分的信号功率与所述参考信号部分的信号功率的比较，确定所述退化语音信号的干扰的程度；以及

依据所确定的与所述至少一个辅音关联的所述退化语音信号的干扰的程度，补偿所述总体质量参数。

14.根据权利要求13所述的装置，其中为执行所述识别，所述处理单元进一步被布置为：

针对所述参考语音信号，识别信号功率位于第一阈值和第二阈值之间的活跃语音信号帧以及信号功率位于第三阈值和第四阈值之间的轻柔语音信号帧，并且将所述活跃语音信号帧和所述轻柔语音信号帧与退化信号帧关联，以提供活跃语音参考信号帧、轻柔语音参考信号帧、活跃语音退化信号帧和轻柔语音退化信号帧；并且

其中为执行信号功率的所述比较，所述处理单元被布置为将所述活跃语音参考信号帧的信号功率、所述轻柔语音参考信号帧的信号功率、所述活跃语音退化信号帧的信号功率和所述轻柔语音退化信号帧的信号功率彼此比较。

15.根据权利要求14所述的装置，其中为执行所述比较，所述处理单元进一步被布置为：

计算平均活跃语音参考信号部分信号功率P_{active,ref,average}；计算平均轻柔语音参考信号部分信号功率P_{soft,ref,average}；计算平均活跃语音退化信号部分信号功率P_{active,degraded,} _average；计算平均轻柔语音退化信号部分信号功率P_{soft,degraded,average}；并且

\begin{matrix} {CVC}_{S N R_f a c t o r} = \\ \frac{(Δ_{2} + (P_{s o f t, \deg r a d e d, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, \deg r a d e d, a v e r a g e} + Δ_{1}))}{(Δ_{2} + (P_{s o f t, r e f, a v e r a g e} + Δ_{1}) / (P_{a c t i v e, r e f, a v e r a g e} + Δ_{1}))} \end{matrix}

其中Δ₁和Δ₂是常数。

16.根据权利要求15所述的装置，其中为执行所述补偿，所述处理单元进一步被布置为：

将所述总体质量参数与补偿因子相乘，其中如果所述辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}大于0,75，则补偿因子是1.0；并且其中如果所述辅音-元音-辅音信噪比补偿参数CVC_{SNR_factor}小于0,75，则补偿因子是(CVC_{SNR_factor}+0,25)^1/2。