CN103578479B

CN103578479B - 基于听觉掩蔽效应的语音可懂度测量方法

Info

Publication number: CN103578479B
Application number: CN201310430429.XA
Authority: CN
Inventors: 储飞黄; 孙战先; 李昂; 路后兵; 吴微露; 瞿洋; 南旭东; 许士敏
Original assignee: ELECTRONIC ENGINEERING COLLEGE PLA
Current assignee: ELECTRONIC ENGINEERING COLLEGE PLA
Priority date: 2013-09-18
Filing date: 2013-09-18
Publication date: 2016-05-25
Anticipated expiration: 2033-09-18
Also published as: CN103578479A

Abstract

本发明公开了一种基于听觉掩蔽效应的语音可懂度测量方法，其特征是：通过对参考信号及其通过通信或语音传输系统后的输出信号进行分帧，并以帧为基本单元，根据ISO/IEC11172-3标准中的心理声学模型，分别估计参考与输出信号的听觉掩蔽门限；根据听觉掩蔽门限提取参考与输出信号中的可听分量；根据ISO226-2003标准等响度级曲线，分别将参考信号可听分量、输出信号可听分量的幅度转换为响度，计算每帧信号的感知相似度、语音信息保真度和感知信噪比，进而得到输出信号失真度；根据失真度与可懂度关系曲线，对输出信号进行可懂度预测。与目前常用语音可懂度客观测量方法相比，本发明方法测量精度更高。

Description

基于听觉掩蔽效应的语音可懂度测量方法

技术领域

本发明涉及一种基于输入/输出的语音可懂度客观测量方法，特别是一种基于听觉掩蔽效应的语音可懂度测量方法。

背景技术

可懂度是语音信号的重要品质因数，广泛应用于厅堂设计、医学研究(如助听器、人工耳蜗、听觉障碍等)、语音增强、扩声系统和通信系统性能测试等领域。

根据评价主体不同，可懂度测量有主客观之分。主观可懂度测量通过听音人直接对语音信号进行主观评价，是可懂度评价最基本、最常用的手段。但是，由于组织严格的听力测试需要耗费大量的人力和物力，测试结果易受主观因素的影响，难以实时应用。客观可懂度测量用机器代替人依据客观参数进行评价，具有应用灵活、不受条件限制和主观因素影响、不同时间和不同场合的测试结果可比较等特点。

根据是否需要系统输入作为参照，可懂度客观测量方法也可分为基于输入/输出的测量方法和基于输出的测量法，前者以纯净语音作参考计算失真语音的失真度，并以失真度作为可懂度预测的依据，与主观可懂度相关度高，是条件许可(能提供参考信号)情况下的首选方法。

语音可懂度指数法(SpeechIntelligibilityIndex，SII)和语言传递指数法(SpeechTransmissionIndex，STI)是目前最常用的语音可懂度客观测量方法。SII的实质是一种频带加权信噪比方法，没有考虑人耳的听觉特性，仅适用于一些简单的线性失真信号，应用范围有限；STI以人工合成信号为激励，虽能适应非线性失真信号，但其实质是系统性能测试，且计算量大。就总体而言，SII和STI的测量精度都不是很高。

发明内容

本发明的目的在于提供一种基于听觉掩蔽效应的语音可懂度测量方法，通过充分考虑人耳对声音大小、频率的感知特性，使输出信号失真度参数能更好地反映人耳感知失真度，从而获得更高的可懂度测量精度。

本发明为解决技术问题采用如下技术方案：

本发明基于听觉掩蔽效应的语音可懂度测量方法的特点是按如下步骤进行：

步骤一：分别对参考信号及所述参考信号通过通信或语音传输系统后的输出信号进行分帧，帧长取值为25ms～64ms，每帧前后各重叠1/8～1/3帧长；

步骤二：以帧为基本分析单元，根据ISO/IEC11172-3标准中的心理声学模型，分别估计参考信号与输出信号的听觉掩蔽门限，将能量大于听觉掩蔽门限的功率谱分量定义为信号可听分量，检查输出信号可听分量的各频率成份，如果对应参考信号的相应频率成份是参考信号可听分量，则定义为输出有效语音信息分量，否则定义为输出无效语音信息分量；

步骤三：根据ISO226-2003标准等响度级曲线，分别将参考信号可听分量、包括输出有效语音信息分量和输出无效语音信息分量的输出信号可听分量的幅度转换为响度；

步骤四：根据参考信号可听分量、输出信号可听分量和输出有效语音信息分量的响度，计算每帧输出信号的感知相似度、语音信息保真度和感知信噪比；根据输出每帧信号的感知相似度、语音信息保真度和感知信噪比计算输出信号失真度；

步骤五：根据输出信号失真度与可懂度的关系曲线，进行可懂度预测。

本发明基于听觉掩蔽效应的语音可懂度测量方法的特点也在于：

所述步骤四中，感知相似度定义为参考信号可听分量与输出信号可听分量之间的皮尔逊相关系数；语音信息保真度定义为参考信号的可听分量与输出有效语音信息分量之间的皮尔逊相关系数；感知信噪比定义为输出有效语音信息分量响度之和与输出无效语言信息分量响度之和的比值。

所述步骤四中输出信号失真度按如下步骤计算获得：

a、分别对感知相似度、语音信息保真度和感知信噪比的参数取值范围进行约束，并归一化到[0，1]区间；所述参数取值范围约束的方法是：分别对感知相似度、语音信息保真度和感知信噪比设置高门限和低门限，当参数值大于高门限时取值为高门限，当参数值小于低门限时取值为低门限，否则保持参数值大小不变；

b、根据加权系数计算输出信号感知相似度、语音信息保真度和感知信噪比的加权和，并将常数1.0与所述加权和的差值定义为局部失真度；

c、计算输出信号所有局部失真度的均值，并将所述均值定义为输出信号失真度。

所述步骤a中，高门限的获取方法为：任意选取不少于20个主观可懂度介于0.99和1之间的输出信号作为高门限训练样本，计算所有高门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的高门限、语音信息保真度的高门限和感知信噪比的高门限；低门限的获取方法为：任意选取不少于20个主观可懂度介于0和0.01之间的输出信号作为低门限训练样本，计算所有低门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的低门限、语音信息保真度的低门限和感知信噪比的低门限。

所述步骤b的加权系数的获取方法为：选取不少于40个主观可懂度在[0,1]区间均匀分布的输出信号作为加权系数训练样本，计算每个加权系数训练样本的感知相似度均值、语音信息保真度均值和感知信噪比均值；对每个加权系数训练样本进行主观可懂度测试，并分别计算感知相似度均值、语音信息保真度均值和感知信噪比均值与主观可懂度之间的皮尔逊相关系数，分别记为r_a、r_b和r_c；分别将r_a、r_b、r_c与r_a+r_b+r_c的比值作为感知相似度、语音信息保真度和感知信噪比的加权系数。

本发明基于听觉掩蔽效应的语音可懂度测量方法的特点还在于：所述步骤五中失真度与可懂度关系曲线的获取方法为：选取不少于40个主观可懂度在[0,1]区间均匀分布的输出信号作为关系曲线训练样本，在按照步骤一至步骤四计算输出信号失真度的同时，对输出信号进行主观可懂度测试，得到一一对应的失真度与主观可懂度数据，采用最小二乘法进行多项式拟合，得出失真度与可懂度的关系曲线。

与已有技术相比，本发明有益效果体现在：

本发明方法基于人耳听觉掩蔽效应进行可懂度测量，在计算输出信号失真度时，主要分析人耳可感知信号分量的失真情况，通过将信号的物理特性(声压级)转换为人耳的主观感知特性(响度)，充分考虑人耳对声音大小、频率的感知特性，使输出信号失真度参数能更好地反映人耳感知失真度。因此，与语音可懂度指数法和语言传递指数法相比，本发明方法与主观可懂度测量的相关度更高，即测量精度更高。

附图说明

图1为本发明方法原理框图。

图2为为说明本发明方法的某帧参考信号举例。

图3为图2所示波形受噪声污染后的输出信号波形。

图4为图2所示参考信号的功率谱及听觉掩蔽门限。

图5为图3所示输出信号的功率谱及听觉掩蔽门限。

图6为图2所示参考信号帧的可听分量。

图7为图3所示输出有效语音信息分量。

图8为图3所示输出信号帧的可听分量。

图9为采用本发明方法获得的失真度与主观可懂度关系曲线的举例。

具体实施方式

参见图1，本实施例中基于听觉掩蔽效应的语音可懂度客观测量方法流程为：

步骤一：分别对参考信号x(n)及参考信号通过通信或语音传输系统后的输出信号y(n)进行分帧，帧长取值范围为25ms～64ms，每帧前后各重叠1/8～1/3帧长，并将第m帧参考信号与输出信号分别表示为x_m(n)和y_m(n)。图2所示信号波形是为说明本发明方法而列举的参考信号实例x_m(n)，图3为图2所示信号通过通信或语音传输系统后的输出信号帧y_m(n)。

步骤二：以帧为基本分析单元，分别对每一帧参考信号和输出信号进行短时功率谱估计(幅度用声压级表示)，将第m帧参考信号与输出信号的功率谱分别记为X_m(k)和Y_m(k)；根据ISO/IEC11172-3标准中的心理声学模型，分别对第m帧参考信号和输出信号进行听觉掩蔽门限估计，将听觉掩蔽门限分别记为TX_m(k)和TY_m(k)；将参考信号中能量大于听觉掩蔽门限TX_m(k)的功率谱分量定义为参考信号可听分量X'_m(k)，将输出信号中能量大于听觉掩蔽门限TY_m(k)的功率谱分量定义为输出信号可听分量Y'_m(k)；进一步检查输出信号可听分量的各频率成份，如果对应参考信号的相应频率成份是参考信号可听分量，则定义为输出有效语音信息分量Y”_m(k)，否则定义为输出无效语音信息分量。参考信号可听分量X'_m(k)、输出信号可听分量Y'_m(k)以及输出有效语音信息分量Y”_m(k)可由式(1)、(2)和(3)获得：

X_{m}^{'} (k) = {\begin{matrix} X_{m} (k), & X_{m} (k) > {TX}_{m} (k) \\ 0, & e l s e \end{matrix} - - - (1)

Y_{m}^{'} (k) = \{\begin{matrix} Y_{m} (k), & Y_{m} (k) > {TY}_{m} (k) \\ 0, & e l s e \end{matrix} - - - (2)

Y_{m}^{''} (k) = {\begin{matrix} Y_{m}^{'} (k), & X_{m} (k) > {TX}_{m} (k) \\ 0, & e l s e \end{matrix} - - - (3)

图4为图2所示参考信号帧x_m(n)的功率谱X_m(k)及听觉掩蔽门限TX_m(k)，图5为图3所示输出信号帧y_m(n)的功率谱Y_m(k)及听觉掩蔽门限TY_m(k)，图6为图2所示参考信号帧x_m(n)的可听分量X'_m(k)，图7为图3所示输出有效语音信息分量Y”_m(k)，图8为图3所示输出信号帧的可听分量Y'_m(k)。

步骤三：根据ISO226-2003标准等响度级曲线，将参考信号可听分量X'_m(k)、输出信号可听分量Y'_m(k)(包括输出有效语音信息分量和输出无效语音信息分量)、输出有效语音信息分量Y”_m(k)的幅度转换为响度，分别记为LX'_m(k)、LY'_m(k)和LY”_m(k)。

步骤四：根据参考信号可听分量、输出信号可听分量和输出有效语音信息分量的响度，计算每帧输出信号的感知相似度r_ps(m)、语音信息保真度r_pf(m)和感知信噪比SNR_p(m)；基于r_ps(m)、r_pf(m)和SNR_p(m)计算输出信号的帧失真度d_xy(m)，并将输出信号帧失真度的算术平均值定义为输出信号的失真度D_xy；

步骤五：根据输出信号失真度与可懂度的关系曲线SI(D_xy)，进行可懂度预测。

本实施例的步骤四中，感知相似度r_ps(m)定义为参考信号可听分量与输出信号可听分量的皮尔逊相关系数，用公式(4)表示为：

r_{p s} (m) = \frac{\underset{k}{Σ} ({LY}^{'}_{m} (k) - \overset{&OverBar;}{{LY}^{'}_{m} (k)}) ({LX}^{'}_{m} (k) - \overset{&OverBar;}{{LX}^{'}_{m} (k)})}{\sqrt{\underset{k}{Σ} {({LX}^{'}_{m} (k) - \overset{&OverBar;}{{LX}^{'}_{m} (k)})}^{2} \underset{k}{Σ} {({LY}^{'}_{m} (k) - \overset{&OverBar;}{{LY}^{'}_{m} (k)})}^{2}}} - - - (4)

语音信息保真度r_pf(m)定义为参考信号可听分量与输出有效语音信息分量的皮尔逊相关系数，用公式(5)表示为：

r_{p f} (m) = \frac{\underset{k}{Σ} ({LY}^{''}_{m} (k) - \overset{&OverBar;}{{LY}^{''}_{m} (k)}) ({LX}^{'}_{m} (k) - \overset{&OverBar;}{{LX}^{'}_{m} (k)})}{\sqrt{\underset{k}{Σ} {({LX}^{'}_{m} (k) - \overset{&OverBar;}{{LX}^{'}_{m} (k)})}^{2} \underset{k}{Σ} {({LY}^{''}_{m} (k))}^{2}}} - - - (5)

感知信噪比SNR_p(m)定义为输出有效信息分量响度之和与输出无效信息分量响度之和的比值。其中，输出无效信息分量响度之和可用输出可听分量响度之和与输出有效信息分量响度之和的差值表示，用公式(6)表示为：

{SNR}_{p} (m) = 10 \log_{10} \frac{\underset{k}{Σ} {LY}_{m}^{''} (k)}{\underset{k}{Σ} {LY}_{m}^{'} (k) - \underset{k}{Σ} {LY}_{m}^{''} (k)} - - - (6)

本实施例的步骤四中输出信号失真度的计算方法为：首选，分别对感知相似度r_ps(m)、语音信息保真度r_pf(m)和感知信噪比SNR_p(m)进行参数取值范围约束和归一化处理，得到归一化到[0，1]区间的归一化感知相似度r_ps'(m)、归一化语音信息保真度r_pf'(m)和归一化感知信噪比SNR_p'(m)；所述参数取值范围约束的方法是：分别对感知相似度、语音信息保真度和感知信噪比设置高门限和低门限，当参数值大于高门限时取值为高门限，当参数值小于低门限时取值为低门限，否则保持参数值大小不变；参数范围约束及归一化公式可用式(7)、(8)、(9)表示为：

{r_{p s}}^{'} (m) = \frac{m i n {m a x (r_{p s} (m), {RL}_{p s}), {RH}_{p s}} - {RL}_{p s}}{{RH}_{p s} - {RL}_{p s}} - - - (7)

{r_{p f}}^{'} (m) = \frac{m i n {m a x (r_{p f} (m), {RL}_{p f}), {RH}_{p f}} - {RL}_{p f}}{{RH}_{p f} - {RL}_{p f}} - - - (8)

{SNR}_{p}^{'} (m) = \frac{\min {\max ({SNR}_{p} (m), {SNRL}_{p}), {SNRH}_{p}} - {SNRL}_{p}}{{SNRH}_{p} - {SNRL}_{p}} - - - (9)

其中，max为取大值函数，min为取小值函数，RH_ps、RL_ps为感知相似度的高、低门限，RH_pf、RL_pf为语音信息保真度的高、低门限，SNRH_p、SNRL_p为感知信噪比的高、低门限，所述门限通过算法训练得到。

然后，计算输出信号感知相似度、语音信息保真度和感知信噪比的加权和，并将常数1.0与所述加权和的差值定义为局部失真度，第m帧信号的局部失真度d_xy(m)可用公式(10)表示为：

d_xy(m)＝1.0-{w₁r_ps'(m)+w₂r_pf'(m)+w₃SNR_p'(m)}(10)

其中，w₁、w₂和w₃为加权系数，通过算法训练得到。

最后，将所有帧的局部失真度的算术平均值定义为输出信号的失真度D_xy，用公式(11)表示为：

D_{x y} = \frac{1}{M} Σ_{m = 1}^{M} d_{m} (x, y) - - - (11)

其中，M表示总帧数。

本实施例中参数范围约束的高、低门限通过算法训练得到，具体获取方法分别为：高门限的获取方法为：任意选取不少于20个主观可懂度介于0.99和1之间的输出信号作为高门限训练样本，计算所有高门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的高门限、语音信息保真度的高门限、感知信噪比的高门限；低门限的获取方法为：任意选取不少于20个主观可懂度介于0和0.01之间的输出信号作为低门限训练样本，计算所有低门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的低门限、语音信息保真度的低门限、感知信噪比的低门限。

本实施例中计算局部失真度的加权系数的获取方法为：选取不少于40个主观可懂度在[0,1]区间均匀分布的输出信号作为加权系数训练样本，计算每个加权系数训练样本的感知相似度均值、语音信息保真度均值和感知信噪比均值，同时对每个加权系数训练样本进行主观可懂度测试；然后，分别计算感知相似度均值、语音信息保真度均值和感知信噪比均值与主观可懂度之间的皮尔逊相关系数，分别记为r_a、r_b和r_c；最后，分别将r_a、r_b和r_c与r_a+r_b+r_c的比值作为感知相似度的加权系数w₁、语音信息保真度的加权系数w₂和感知信噪比的加权系数w₃。

本实施例中步骤五中失真度与可懂度关系曲线的获取方法为：选取不少于40个主观可懂度在[0，1]区间均匀分布的输出信号作为关系曲线训练样本，在按照步骤一至步骤四所述方法计算输出信号失真度的同时，对输出信号进行主观可懂度测试，得到一一对应的失真度与主观可懂度数据，然后用最小二乘法进行多项式拟合，得出失真度与可懂度的关系曲线SI(D_xy)。图9为采用本发明方法获得的失真度与主观可懂度关系曲线的举例。

Claims

1.一种基于听觉掩蔽效应的语音可懂度测量方法，其特征是按如下步骤进行：

步骤四：根据参考信号可听分量、输出信号可听分量和输出有效语音信息分量的响度，计算每帧输出信号的感知相似度、语音信息保真度和感知信噪比；根据输出每帧信号的感知相似度、语音信息保真度和感知信噪比计算输出信号失真度；所述感知相似度定义为参考信号可听分量与输出信号可听分量之间的皮尔逊相关系数；语音信息保真度定义为参考信号的可听分量与输出有效语音信息分量之间的皮尔逊相关系数；感知信噪比定义为输出有效语音信息分量响度之和与输出无效语言信息分量响度之和的比值。

2.根据权利要求1所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征是：所述步骤四中输出信号失真度按如下步骤计算获得：

3.根据权利要求2所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征是：所述步骤a中，高门限的获取方法为：任意选取不少于20个主观可懂度介于0.99和1之间的输出信号作为高门限训练样本，计算所有高门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的高门限、语音信息保真度的高门限和感知信噪比的高门限；低门限的获取方法为：任意选取不少于20个主观可懂度介于0和0.01之间的输出信号作为低门限训练样本，计算所有低门限训练样本的感知相似度均值、语音信息保真度均值、感知信噪比均值，分别作为感知相似度的低门限、语音信息保真度的低门限和感知信噪比的低门限。

4.根据权利要求2所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征在于：所述步骤b的加权系数的获取方法为：选取不少于40个主观可懂度在[0,1]区间均匀分布的输出信号作为加权系数训练样本，计算每个加权系数训练样本的感知相似度均值、语音信息保真度均值和感知信噪比均值；对每个加权系数训练样本进行主观可懂度测试，并分别计算感知相似度均值、语音信息保真度均值和感知信噪比均值与主观可懂度之间的皮尔逊相关系数，分别记为r_a、r_b和r_c；分别将r_a、r_b、r_c与r_a+r_b+r_c的比值作为感知相似度、语音信息保真度和感知信噪比的加权系数。

5.根据权利要求1所述的基于听觉掩蔽效应的语音可懂度测量方法，其特征在于：所述步骤五中失真度与可懂度关系曲线的获取方法为：选取不少于40个主观可懂度在[0,1]区间均匀分布的输出信号作为关系曲线训练样本，在按照权利要求1中步骤一至步骤四计算输出信号失真度的同时，对输出信号进行主观可懂度测试，得到一一对应的失真度与主观可懂度数据，采用最小二乘法进行多项式拟合，得出失真度与可懂度的关系曲线。