CN102194460B

CN102194460B - 语音清晰度预测器及其应用

Info

Publication number: CN102194460B
Application number: CN201110062950.3A
Authority: CN
Inventors: C·H.·塔阿尔; R·亨德里克斯; R·赫斯登斯; U·克耶姆斯; J·延森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2010-03-11
Filing date: 2011-03-11
Publication date: 2015-09-09
Anticipated expiration: 2031-03-11
Also published as: US20110224976A1; CN102194460A; US9064502B2; AU2011200494A1; EP2372700A1

Abstract

本申请涉及一种提供语音清晰度预测器值的方法，该语音清晰度预测器值用于当目标语音信号经过算法处理和/或在噪声环境中接收时估算普通听音者理解所述目标语音信号的能力。本申请还涉及在噪声环境中改善听音者对目标语音信号的理解的方法以及对应的设备单元。本申请的目的是提供一种替代的客观清晰度测量方法，例如适于在时频环境中使用的测量方法。本发明可用于例如音频处理系统中、听音系统、助听器系统。

Description

语音清晰度预测器及其应用

技术领域

本申请涉及增强混噪语音的清晰度的信号处理方法。本申请尤其涉及测量受噪声影响时的目标语音信号的清晰度和/或被处理过或修正过的目标信号的清晰度的算法，及其各种应用。例如，该算法能够预测清晰度测试(即涉及一组听音者的听力测试)的结果。本申请还涉及一种音频处理系统，例如包含通讯设备的听音系统、如助听器的听音设备，助听器适于利用语音清晰度算法来改善由所讨论系统或者设备所接收或者处理的语音信号的感知度。

本申请还涉及一种包含处理器和程序代码工具的数据处理系统，程序代码工具使处理器执行至少上述方法步骤的一部分，并还涉及存储程序代码工具的计算机可读介质。

本申请可以用于如音频处理系统的应用中，例如听音系统、助听器系统。

背景技术

下面的现有技术的说明涉及本申请的应用领域之一，助听器。语音处理系统，例如助听器中的语音增强方案或者清晰度改进算法经常引入弱化和修正以消除噪声语音信号。为了确定这些关于语音清晰度算法的效果，需要进行主观听力测试和/或客观清晰度测评(OIM)。之前已经开发了这类方案，例如发音指数(AI)、语音清晰度指数(SII)(标准化为ANSI S3.5-1997)，或者语音传输指数(STI)。

发明内容

尽管刚刚提到的OIM适用于几种类型的弱化(例如，附加噪声、混响、过滤、剪切)，但是它们不适于噪声语音由时频(TF)加权处理的方法。为了更加详细地分析某些信号的弱化对语音清晰度的影响，OIM必须为简单结构，也就是明显易懂的。然而，一些OIM是基于针对某一数据组广泛训练的大量参数。这使得这些方法不够明显易懂，因而更不适于这些评估目的。另外，OIM通常为整个语音信号的长期统计的函数，并不用于本地短时TF区域的中间测量。采用这些方法措施，很难看出局部化的时频信号弱化对语音清晰度的影响。

已经划分了下面三个可利用清晰度预测算法的基本领域：

1)仅有噪声信号时的在线优化清晰度(参见示例1)。

2)目标和干扰信号分离时的在线算法优化清晰度(参见示例2)。

3)离线优化，例如用于HA参数调整。在这种应用中，该算法可以替代具有人类主观性的听力测试(参考示例3)。

在本文的上下文中，术语“在线”指的是在例如听音设备、听力仪器的音频处理系统在正常运行(一般为持续性地)过程中执行算法的情形，以将进入的声音处理为有利于终端用户。另一方面，术语“离线”指的是算法在调试过程中执行，例如根据用户的特定需求在软件算法的开发期间或者在设备的调试或装配期间执行。

本申请的目标是提供替代的客观清晰度测量。另一目的是改善噪声环境中的目标信号的清晰度。

本申请的目的通过的权利要求中描述的以及如下描述的本发明来实现。

一种提供语音清晰度预测器值的方法：

本申请的一个目标是通过提供语音清晰度预测器值的方法来实现，该语音清晰度预测器值用于当目标语音信号经过处理算法的处理和/或在噪声环境中接收时估算普通听音者理解目标语音信号的能力，该方法包括

a)提供第一信号x(n)的时频表达式x_j(m)，第一信号x(n)表示多个频带和多个时刻中的目标语音信号，j为频带指数，m为时间指数；

b)提供第二信号y(n)的时频表达式y_j(m)，第二信号为多个频带和多个时刻中的所述目标语音信号的噪声和/或处理过的所述目标语音信号；

c)以第一和第二信号或者分别源自于它们的信号的时频表达式x_j ^*(m)和y_j ^*(m)的形式分别提供第一和第二清晰度预测输入；

d)基于所述第一和第二清晰度预测输入提供时频依赖的中间语音清晰度系数d_j(m)；

e)通过在J个频率指数和M个时刻上对所述的中间语音清晰度系数d_j(m)进行平均运算，计算最终的语音清晰度预测器d。

这具有提供适于在时频环境中使用的客观清晰度测量的优势。

术语“源自它们的信号”在本文的上下文中包括原始信号s的平均或者比例缩放(例如归一化)或者剪切(clip)后的信号s^*，或者例如对原始信号进行非线性转换(例如对数或者指数函数)。

在特定的实施例中，该方法包括确定代表音频的电信号是否包括语音信号(在给定的时间点上)。语音信号在本文中被视为包括来自人类的语音信号。还可包括由人类语音系统产生的其它形式的说话方式(例如唱歌)。在一个实施例中，语音活动检测(VAD)适于将用户的当前的听觉环境分为语音或者非语音环境。这样的优点在于可以辨别包括人的话语(例如语音)的电信号的时间段，因此能将其从只包括其它声源(例如人工产生的噪声)的时间段中分离开来。优选包含非语音活动的时间帧在其经过语音清晰度预测算法之前从信号中删除，以使算法只处理包括语音的时间帧。语音活动检测的算法例如在[4]和[9]中讨论。

在特定的实施例中，该方法包括在步骤d)中中间语音清晰度系数d_j(m)为预定的N个时间指数的平均值。

在特定的实施例中，M大于或者等于N。在特定的实施例中，根据音素或者词或者句子的典型长度来确定时间指数的个数M。在特定的实施例中，M个时间指数对应于大于100毫秒的时间，例如大于400毫秒，例如大于1秒，例如在200毫秒到2秒的范围内，例如大于2秒，例如在100毫秒到5秒的范围内。在特定的实施例中，时间指数数值M大于10，例如大于50，例如在10到200范围内，例如在30到100范围内。在一个实施例中，M为预先确定的。或者，M可动态地确定(例如，取决于语音的类型(短/长词、语言等等)).

在特定的实施例中，信号s(n)的时频表达式s(k，m)包括在多个离散傅立叶变换DFT块中由指数(k，m)定义的该信号的幅值和/或相位，其中k＝1，...，K表示频率值的数量K，m＝1，...，M_x表示时间帧的数量M_x，时间帧由具体的时间指数m和对应的K个DFT块定义。例如如图1所示，其可以是按时间帧排列的数字化信号的离散傅立叶变换的结果，每个时间帧包括在时间t_q＝q*(1/f_s)中的连续时间点处对输入信号(幅值)的多个数字化时间采样s_q，q为采样指数，例如整数q＝1，2，...表示采样数量，f_s为模数转换器的采样速率。

在特定的实施例中，定义了具有子频带指数j＝1，2，...的J个子频带，每个子频带包括一个或者更多的DFT块，第j个子频带例如包括上限指数和下限指数分别为k1(j)和k2(j)的DFT块，其限定了第j个子频带的下限和上限截止频率，具体的时频单元(j，m)由具有的时间指数m和所述DFT块指数k1(j)-k2(j)限定，例如参考图1。

在特定的实施例中，时刻m处的第j个时频单元的信号s_j的有效幅值由该时频单元中的信号的能量的平方根确定。信号s的有效幅值s_j可采用多种方式确定，例如利用滤波器组执行或者DFT实现。

在特定的实施例中，时刻m处的第j个时频单元的信号s_j的有效幅值由下式定义：

s_{j} (m) = \sqrt{Σ_{k = k 1 (j)}^{k 2 (j)} {| s (k, m) |}^{2}}

在特定的实施例中，按照目标信号和噪声和/或处理过的目标信号的具体时频单元之间的距离测量计算在给定时刻m处的语音清晰度系数d_j(m)。

在特定的实施例中，按下式计算在给定时刻m处的语音清晰度系数d_j(m)

d_{j} (m) = \frac{Σ_{n = N 1}^{N 2} (x_{j}^{*} (n) - r_{x_{j}^{*}}) (y_{j}^{*} (n) - r_{y_{j}^{*}})}{\sqrt{Σ_{n = N 1}^{N 2} {(x_{j}^{*} (n) - r_{x_{j}^{*}})}^{2} Σ_{n = N 1}^{N 2} {(y_{j}^{*} (n) - r_{y_{j}^{*}})}^{2}}}

其中x_i ^*(n)和y_j ^*(n)分别为第一和第二清晰度预测输入的在时刻n的第j个时频单元的有效幅值，并且其中N1≤m≤N2，且r_x*j和r_y*j为常数。

在特定的实施例中，常数r_x*j和r_y*j为信号x*和y*在N＝N2-N1时刻上的有效幅值的平均值：

r_{x_{j}^{*}} = μ_{x_{j}^{*}} = \frac{1}{N} Σ_{l = N 1}^{N 2} x_{j}^{*} (l)

和

r_{y_{j}^{*}} = μ_{y_{j}^{*}} = \frac{1}{N} Σ_{l = N 1}^{N 2} y_{j}^{*} (l)

在特定的实施例中，r_x*j和/或r_y*j等于0。在特定的实施例中，第二清晰度预测输入的有效幅值y^* _j(m)是第二信号关于(第一)目标信号x_j(m)的归一化形式，其中归一化系数α_j为

α_{j} (m) = {(\frac{Σ_{n = m - N + 1}^{m} x_{j} {(n)}^{2}}{Σ_{n = m - N + 1}^{m} y_{j} {(n)}^{2}})}^{\frac{1}{2}}

在特定的实施例中，第二信号的经归一化的有效幅值经剪切处理，以提供经剪切的有效幅值y^* _j，其中

y_{j}^{*} (m) = \max (\min ({\tilde{y}}_{j} (m), x_{j} (m) + 10^{- β / 20} x_{j} (m)), x_{j} (m) - 10^{- β / 20} x_{j} (m)),

以确保本地的目标-干扰比不超过βdB。在特定的实施例中，β在-50至-5范围之间，例如在-20到-10之间。

在特定的实施例中，N大于10，例如在10到1000的范围内，例如在10到100之间，例如位于20到60的范围内。在特定的实施例中，N1＝m-N+1且N2＝m，以使得在中间语音清晰度系数d_j(m)的确定中包括当前的和之前的N-1个时刻。在特定的实施例中，N1＝m-N/2+1且N2＝N/2，以在确定中间语音清晰度系数dj(m)时包括在相对当前时刻对称的时刻范围。

在特定的实施例中，x_j ^*(n)＝x_j(n)(也就是，第一信号的时频表达式没有修正)。在特定的实施例中，y_j ^*(n)＝y_j(n)(也就是，第一信号的时频表达式没有修正)。

在特定的实施例中，给定的时刻m处的语音清晰度系数d_j(m)的计算式为：

d_{j} (m) = \frac{Σ_{n = m - N + 1}^{m} x_{j} (n) y_{i} (n)}{\sqrt{Σ_{n = m - N + 1}^{m} {(x_{j} (n))}^{2} Σ_{n = m - N + 1}^{m} {(y_{j} (n))}^{2}}}

其中x_j(n)和y_j(n)分别为第二信号和改善的信号或者源自它们的信号在时刻n处的第j个时频单元的有效幅值，并且其中N-1为包含在总和中的当前时刻之前的时刻的数量。

在特定的实施例中，通过对d应用逻辑转换，最终的清晰度预测器d被转换为清晰度分数D′。在特定的实施例中，逻辑转换的公式为

D^{'} = \frac{100}{1 + \exp (ad + b)},

其中a和b为常数。其优势为以％衡量清晰度。

一种改善听音者在噪声环境中对目标语音信号的理解的方法：

在这方面，提供了一种改善听音者在噪声环境中对目标语音信号的理解的方法，该方法包括：

·根据上面、具体实施方式和权利要求中详细描述的提供语音清晰度预测器值的方法提供最终的语音清晰度预测器d；

·确定一组优化的时频依赖的增益g_j(m)_opt，其中当该增益应用于所述第一或第二信号或者源自它们的信号时，提供最大的最终清晰度预测器d_max；

·将所述优化的时频依赖的增益g_j(m)_pt应用至所述第一或第二信号或者源自它们的信号，从而提供改善信号o_j(m)。

该方法的优势在于当在噪声环境中感知目标语音信号时，其可关于清晰度而优化目标语音信号。

在特定的实施例中，第一信号x(n)同来自噪声环境的噪声混合，以混合信号z(n)的形式被提供给听音者。该混合信号可由例如听音者佩戴的听音设备的传声器系统所接收。

在特定的实施例中，该方法包括：

·对混合信号z(n)和第一信号的电表达式x(n)进行统计估算，

·利用所述第一和混合信号的统计估算来估算所述中间语音清晰度系数d_j(m)。

在特定的实施例中，对所述第一和混合信号的电表达式x(n)和z(n)分别进行统计估算的步骤包括分别对第一和混合信号的基础时频表达式x_j(m)和z_j(m)的概率分布函数(pdf)进行估算。

在特定的实施例中，利用清晰度系数的统计期望值D将最终的语音清晰度预测器值最大化，其中

D = E [d] = E [\frac{1}{JM} \underset{j, m}{Σ} d_{j} (m)] = \frac{1}{JM} \underset{j, m}{Σ} E [d_{j} (m)],

并且其中E[·]为统计期望运算符，其中期望值E[d_j(m)]取决于统计估算，例如基础随机变量x_j(m)的概率分布函数。

在特定的实施例中，提供混合信号z(n)的时频表达式z_j(m)。

在特定的实施例中，一组优化的时频依赖的增益g_j(m)_opt被应用于混合信号z_j(m)以提供改善信号o_j(m)。

在特定的实施例中，第二信号包括例如等于改善信号o_j(m)。

在特定的实施例中，第一信号x(n)作为单独的信号被提供给听音者。在特定的实施例中，第一信号x(n)通过无线方式在听音者处被接收。例如，目标信号x(n)可由听音者佩戴的听音系统的无线接收器接收。

在特定的实施例中，包括来自环境噪声的噪声信号w(n)被提供给听音者。例如，噪声信号w(n)可由听音者佩戴的听音系统的传声器系统接收。

在特定的实施例中，噪声信号w(n)被转换为表示来自环境中的听音者耳膜处的噪声的信号w′(n)。

在特定的实施例中，提供所述噪声信号w(n)或者经转换的噪声信号w′(n)的时频表达式w_j(m)。

在特定的实施例中，一组优化的时频依赖的增益g_j(m)_opt被应用至第一信号x_j(m)以提供改善信号o_j(m)。

在特定的实施例中，第二信号包括改善信号o_j(m)和包括来自环境噪声的噪声信号w_j(m)或者w′_j(m)。在特定的实施例中，第二信号等于两个信号o_j(m)和w_j(m)或w′_j(m)的总和或者加权和。

一种语音清晰度预测器(SIP)单元：

在这方面，还提供了一种语音清晰度预测器(SIP)单元，其适于接收表示目标语音的第一信号x和作为目标语音信号的噪声和/或处理过的目标语音信号的第二信号y，并适于为所述第二信号提供语音清晰度预测器值d作为输出。该语音清晰度预测器单元包括：

·时间-时频转换(T-TF)单元，适于

o提供第一信号x(n)的时频表达式x_j(m)，第一信号x(n)表示多个频带和多个时刻中的所述目标语音信号，j为频带指数，且m为时间指数；和

o提供第二信号y(n)的时频表达式y_j(m)，第二信号为多个频带和多个时刻中的所述目标语音信号的噪声和/或处理过的目标语音信号；

·转换单元，适于以第一和第二信号或者源自它们的信号的时频表达式x_j ^*(m)和y_j ^*(m)的形式分别提供为的第一和第二清晰度预测输入；

·中间语音清晰度计算单元，适于基于所述第一和第二清晰度预测输入提供时频依赖的中间语音清晰度系数d_j(m)；

·最终的语音清晰度计算单元，通过在预定的J个频率指数和预定的M个时间指数上对所述的中间语音清晰度系数d_j(m)进行平均运算，计算最终的语音清晰度预测器d。

当如上所述的、在具体实施方式和权利要求中详细说明的提供语音清晰度预测器值的方法的方法特征适当地由对应的结构特征替代时，其可以同SIP单元结合起来。SIP单元的实施例具有与对应的方法相同的优势。

在实施例中，提供了一种语音清晰度预测器单元，其适于根据上面描述的、在具体实施方式和权利要求中的详细说明的方法来计算语音清晰度预测器值。

一种语音清晰度增强(SIE)单元：

在这方面，提供了一种语音清晰度增强(SIE)单元，其适于接收(A)目标信号x和(B)噪声信号w，或者(C)接收目标语音信号和噪声信号的混合信号z，并适于向听音者提供具有改善的清晰度的改善输出O。该语音清晰度增强单元包括：

·如上所述的、在具体实施方式和权利要求书中的详细说明的语音清晰度预测器单元，

·时间-时频转换(T-TF)单元，用来

提供所述噪声信号w(m)或者所述混合信号z(n)在多个频带和多个时刻中的时频表达式w_j(m)和z_j(m)；

·清晰度增益(IG)单元，用来

o确定一组优化的时频依赖的增益g_j(m)_opt，当该增益被应用至第一或者第二信号或者源自于第一或第二信号的信号时，提供最大的最终的清晰度预测器d_max；

o向所述第一或第二信号或者源自第一或第二信号的信号应用所述的优化的时频依赖增益g_j(m)_opt，从而提供改善信号o_j(m)。

当如上所述的、在具体实施方式和权利要求中详细说明的改善听音者在噪声环境中对目标语音信号的理解的方法的方法特征适当由对应的结构特征替代时，其可同SIE单元相结合。SIE单元的实施例具有与对应的方法相同的优势。

在特定的实施例中，语音清晰度增强单元适于执行如上所述的、在具体实施方式和权利要求中详细说明的改善听音者对噪声环境中的目标语音信号的理解的方法。

一种音频处理设备：

在这方面，音频处理设备包括如上所述的、在具体实施方式和权利要求中详细说明的语音清晰度增强单元。

在特定的实施例中，音频处理设备还包括时频-时间(TF-T)转换单元，其用来将所述改善信号o_j(m)或者源自于它的信号从时频域转换到时域。

在特定的实施例中，该音频处理设备还包括输出变换器，用来作为输出信号呈现时域中的所述改善信号，输出信号可由听音者感知为声音。例如，输出变换器可以为扬声器、耳蜗插管(CI)的电极或者骨传导助听设备的振动器。

在特定的实施例中，音频处理设备包括娱乐设备、通讯设备或者听音设备或者其结合。在特定的实施例中，该音频处理设备包括听音设备，例如听力仪器、耳机、头戴耳机、有源耳朵保护设备，或者其结合。

在一个实施例中，声音处理设备包括天线和用来接收直流电输入信号(例如包括目标语音信号)的收发器电路。在一个实施例中，听音设备包括(可能被标准化)用来接收有线直流电输入信号的电接口(例如连接器的形式)。在一个实施例中，听音设备包括用来对接收到的直流输入进行解调的解调电路以提供表示音频信号的直流电输入。

在一个实施例中，听音设备包括用来增强输入信号并提供处理过的输出信号的信号处理单元。在一个实施例中，该信号处理单元适于提供依赖于频率的增益以补偿听音者的听力损失。

在一个实施例中，音频处理设备包括定向传声器系统，其适于利用该音频处理设备分离听音者所在本地环境中两个或者更多的声源。在一个实施例中，该定向系统适于检测(例如自适应检测)传声器系统的特定部分源自于哪个方向。这可以各种方式来实现，例如，如在US 5,473,701或者WO 99/09786A1或者EP 2 088 802 A1中所说明的。

在一个实施例中，音频处理设备包括用来提供输入信号的时间-频率表达式的TF转换单元。在一个实施例中，该时间-频率表达式包括处于特定时间和频率范围内的所讨论的信号的对应复数或者实数值的数组或映射(例如参考图1)。在一个实施例中，该TF转换单元包括滤波器组，其对(时变)输入信号进行滤波并提供多个(时变)输出信号，每个输出信号包括特定频率范围内的输入信号。在一个实施例中，TF转换单元包括傅立叶变换单元，用来将时变输入信号转换为频域中的(时变)信号。在一个实施例中，音频处理设备所考虑的从最小频率f_min至最大频率f_max的频率范围包括典型的20Hz到20kHz的人类可听到的频率范围的部分，例如从20Hz到12kHz。在一个实施例中，音频处理设备考虑的频率范围f_min-f_max被分为J个频带(例如参考图1)，其中J例如大于2，例如大于5，例如大于10，例如大于50，例如大于100，至少其中的部分是被独立处理的。对于音频处理设备的不同的功能模块/算法，可能采用不同的频带分割方式。

在一个实施例中，音频处理设备还包括用于正在讨论中的本申请的其它的相关的功能，例如音频反馈抑制、压缩等。

一种有形的计算机可读介质：

在具体实施方式的详细说明和权利要求中，本申请还提供了一种用来存储计算机程序的有形的计算机可读介质，计算机程序包括程序代码，当所述计算机程序在数据处理系统中运行时，程序代码使数据处理系统执行如上所述的提供语音清晰度预测器值的方法中的至少部分(例如，大部分或者全部)步骤。除了可被存储到诸如磁盘、CD-ROM、DVD或者硬盘介质或者任何其它的机器可读介质上的有形介质外，计算机程序还可通过诸如有线或者无线链接或者网络(例如因特网)来传送，并被载入数据处理系统中，以在位于该有形介质的位置处被执行。

一种数据处理系统：

在具体实施方式的详细说明和权利要求书中，本申请还提供了一种包含处理器和程序代码的数据处理系统，程序代码使的处理器执行如上所述的提供语音清晰度预测器值的方法中的至少部分(例如大部分或者全部)步骤。在特定的实施例中，处理器为音频处理设备的处理器，例如通讯设备或者例如听力仪器的听音设备。

本申请的进一步的目标是通过本申请的独立的权利要求和详细说明书中定义的实施例来实现的。

正如本文所采用的，单数形式“一个”和“这个”旨在也包括复数形式(也就是，具有“至少一个”的意思)，除非已明确地另作了说明。还应理解的是，当在本说明书中采用术语“包括”、“包含”和/或“含有”时，是列举说明的特征、整数、步骤、运算、元素、部件和/或其组合，而不是排除一个或者更多的其它的特征、整数、步骤、运算、元素、部件和/或其组合的存在或者增加。将会理解的是，当一个元件被说明为被“连接”或者“耦合”至另一元件时，其可以被直接连接或者耦合到其它元件或者也可出现中间元件，除非明确地另作了说明。而且，本文所使用的“连接”或者“耦合”可包括无线连接或者耦合。正如本文所使用的，术语“和/或”包括相关的列出的项目的一个或者多个中的任意和所有的组合。本文公开的任何方法的步骤不必以所公开的确切的顺序执行，除非另外明确说明。

附图说明

参照附图，连同优选实施例将更全面地说明本发明的内容，其中：

图1原理性地示出了时变电信号的时间-频率映射表达；

图2a-2b示出了根据本申请的语音清晰度预测器(SIP)单元的一个实施例；

图3a-3c示出了根据本申请的包含语音清晰度增强(SIE)单元的音频处理设备的第一实施例；

图4a-4c示出了根据本申请的包含语音清晰度增强(SIE)单元的音频处理设备的第二实施例；

图5a-5c示出了根据本申请的音频处理设备的第二实施例的三种应用方案；

图6示出了根据本申请的包含语音清晰度预测器(SIP)单元的离线处理算法程序的一个实施例；

图7示出了根据本申请的语音清晰度预测器(SIP)算法的流程图；及

图8示出了根据本申请的语音清晰度增强(SIE)算法的流程图。

为了清楚起见，这些附图是原理性的且是简化的，它们仅仅示出了对于理解本发明内容所必要的细节，而省略其它的细节。

从下文给定的详细说明中，本发明公开的适用性的进一步的范围将更明显。然而，应当理解的是，在说明本发明的优选实施例时，仅仅通过示例的方式给定了详细说明和具体示例，因为对于本领域技术人员而言，在本发明公开的精神和范围内，从详细的说明书中可以显然得到各种变形和修正。

具体实施方式

清晰度预测算法

该算法利用目标(无噪声)语音信号x(n)和噪声/处理过的信号y(n)作为输入；该算法的目标是在一组听音者，也就是普通听音者，评判预测噪声/处理过的信号y(n)时，预测其清晰度。

首先，通过将两种信号都分割为(例如20-70％，如50％)重叠、窗口化的帧来获得时频表达式，通常采用锥形窗口，例如汉宁窗。当采样速率为10000Hz时，窗口长度可例如为256个样点。在这种情形中，每一帧都被零填充为512个样点，并利用离散傅立叶变换(DFT)或者对应的快速傅立叶变换(FFT)进行傅立叶变换。然后，产生的DFT块被分为感知上相关的子频带。下面我们利用1/3倍频带，但是应当清楚我们可利用任何其他的子频带划分。在1/3倍频带和10000Hz的采样速率的情形中，存在覆盖频率范围150-5000Hz的15个频带。可利用其它的频带数量和另一频率范围，取决于具体应用。例如，如果采样速率改变，可有利地调整帧长度的最佳数量、窗口重叠等等。我们将由时间范围(1，2，...，M)和子频带(1，2，...，J)(参考图1)定义的时频方块称作时频(TF)单元，如图1中所示。由K个频率值(1，2，...，K)中的一个和M个时间帧(1，2，...，M)中的一个所定义的时频方块被叫做DFT块(或者DFT系数)。在典型的DFT应用中，各个DFT块在时间和频率上具有相同的长度(也就是Δt₁＝Δt₂＝...＝Δt_M＝Δt，并且Δf₁＝Δf₂＝...＝Δf_M＝Δf，)。

假设x(k，m)和y(k，m)分别表示纯净目标信号和噪声/处理过的信号的第m个帧的第k个DFT系数。帧m中的第j个TF单元的“有效幅值”定义为

x_{j} (m) = \sqrt{Σ_{k = k 1 (j)}^{k 2 (j)} {| x (k, m) |}^{2}},

(等式1)

其中k1(j)和k2(j)表示对应于第j个子频带的下限和上限截止频率的DFT块指数。在当前实例中，子频带没有重叠。或者，子频带可重叠。噪声/处理过的信号的帧m中的第j个TF单元的有效幅值y_j(m)类似地定义。

噪声/处理过的幅值y_j(m)可如下所述那样被归一化和剪切。归一化常数α_j(m)的计算式为：

α_{j} (m) = {(\frac{Σ_{n = m - N + 1}^{m} x_{j} {(n)}^{2}}{Σ_{n = m - N + 1}^{m} y_{j} {(n)}^{2}})}^{\frac{1}{2}},

(等式2)

y_j(m)的比例形为

{\tilde{y}}_{j} (m) = y_{j} (m) α_{j} (m)

这种本地的比例缩放确保了和x_j(m)的能量相同(在正讨论中的时频区间中)。然后，可将剪切运算应用至

{y^{'}}_{j} (m) = \max (\min ({\tilde{y}}_{j} (m), x_{j} (m) + 10^{- β / 20} x_{j} (m)), x_{j} (m) - 10^{- β / 20} x_{j} (m)),

(等式3)

以确保本地的目标-干扰比不超过βdB。对于10kHz的采样速率，发现值β＝-15作用较好，参考[1].。

与帧m的第j个TF单元相关的中间清晰度系数d_j(m)的计算式为

d_{j} (m) = \frac{Σ_{n = m - N + 1}^{m} (x_{j} (n) - μ_{x_{j}}) (y_{j}^{'} (n) - μ_{y_{j}^{'}})}{\sqrt{\underset{n}{Σ} {(x_{j} (n) - μ_{x_{j}})}^{2} \underset{n}{Σ} {(y_{j}^{'} (n) - μ_{y_{j}^{'}})}^{2}}},

(等式4)

其中

μ_{x_{j}} = \frac{1}{N} \underset{l}{Σ} x_{j} (l)

和

μ_{y_{j}^{'}} = \frac{1}{N} \underset{l}{Σ} y_{j}^{'} (l),

并且其中y_j(m)为归一化和剪切后的y_j(m)。此处总和是包括当前的和之前的N-1个帧，即一共N个帧的总帧指数。仿真试验表明选择与400毫秒对应的N具有良好的性能，对于10000Hz的采样速率(以及上述的分析窗口设定)，其对应于N＝30帧。

已经证实在上面的等式(1)中d_j(m)的表达式作用良好。进一步的试验表明该表达式的变形也是可行的。然而，这些变形的数学结构稍微有所不同。在接下来的部分中论述的优化程序在实践中利用这样的变形比等式(1)中的d_j(m)更容易执行。已经表现出良好性能的中间清晰度系数d_j的一个特定变形为

d_{j} (m) = Σ_{n = m - N + 1}^{m} {(\frac{x_{j} (n) - μ_{x_{j}}}{\sqrt{\underset{n}{Σ} {(x_{j} (n) - μ_{x_{j}})}^{2}}} - \frac{y_{j} (n) - μ_{y_{j}}}{\sqrt{\underset{n}{Σ} {(y_{j} (n) - μ_{y_{j}})}^{2}}})}^{2},

等式(5)

其中和如上述那样定义。

省略其它的有用的变形，其中包括以上说明的为了获得y_j(m)而对y_j(m)进行的剪切运算的情形，以及其中d_j(m)的表达式中的和的平均值简单地设定为0的变形。

从中间清晰度系数d_j(m)，可按照下面的平均计算得以上提及的最终清晰度系数d，也就是

d = \frac{1}{JM} \underset{j, m}{Σ} d_{j} (m),

(等式6)

其中，M为帧的总数，J为子频带(例如，1/3倍频带)的总数。理想地，关于帧指数m的和运算只是在包括目标语音能量的信号帧中进行，也就是说没有语音能量的帧将不进行这种和运算。实际上，利用语音活动检测算法估算哪个信号帧包含语音能量是可能的。通常，M＞N，但是使用这种算法不是绝对必要的。

如[1]中所述，通过对d进行逻辑转换，可将清晰度系数d转换为清晰度分数(采用％)，通过。例如，证明下面的转换有效(在当前算法的情形中)：

D^{'} = \frac{100}{1 + \exp (ad + b)},

(等式7)

其中常数a＝-13.1903，以及b＝6.5192。在其它情形中，例如不同的采样速率，这些常数的选择可能不同。只要D′和d之间存在单调关系，除了上述的逻辑函数外，也可利用其它的转换。另一可能的转换利用累积高斯函数。

在图2中概述了语音清晰度预测器SIP的元件。图2a简单地示出了具有两个输入x和y以及一个输出d的SIP单元。第一信号x(n)和第二信号y(n)为代表声音信号的时变电信号，其中时间由指数n表示(也暗含数字化信号，例如由采样频率为f_s的模数(A/D)转换器进行数字化)。第一信号x(n)为目标信号的电表示(优选没有噪声或者包含少量噪声的纯净信号)。第二信号y(n)为噪声和/或经过处理的目标信号，例如由信号处理算法处理，例如噪声减少算法。例如，第二信号y可为经过处理的目标信号x，y＝P(x)；或者为经过处理的目标信号加上另外的(未处理过的)噪声n，y＝P(x)+n；或者经过处理的目标信号加上噪声，y＝P(x+n)。输出值d为最终的语音清晰度系数(或者语音清晰度预测器值，这两个术语在本申请中可交换使用)。图2b说明了从给定的第一和第二输入x和y确定语音清晰度预测器值的步骤。块x_j(m)和y_j(m)分别表示产生第一和第二输入信号的帧m中的第j个TF单元的有效幅值。例如，有效幅值可通过在子频带1，2，...，J中产生独立的时间变量信号的适当的滤波器组来实现。替代性地(如以下实例中的一般性的假定)，傅立叶变换算法(例如DFT)可被用来产生多个频率单元k＝1，2，...，K和时间单元m(参考图1)中的输入信号的离散复数值，从而得到时频表达式x(k，m)和y(k，m)，从中利用之前提到的公式(等式1)可确定有效幅值x_j(m)和y_j(m)。接下来的(可选择的)块x_j ^*(m)和y_j ^*(m)分别代表产生第一和第二输入信号的帧m中的第j个TF单元的修正的有效幅值。例如，这种修正可能包括归一化(参考上面的等式2)和/或剪切(参考上面的等式3)和/或其它的比例缩放运算。块d_j(m)表示基于来自块x_j(m)和y_j(m)或者可选择性地来自块x_j ^*(m)和y_j ^*(m)的第一和第二清晰度预测输入计算中间清晰度系数d_j(参考上面的等式4或者等式5)。块d基于来自块d_j(m)的输入提供语音清晰度预测器值d(参考等式6)。

图7示出了根据本申请的语音清晰度预测器(SIP)算法的流程图。

示例1：仅有噪声信号的清晰度在线优化

这种应用是典型的HA应用。尽管在此我们关注于HA应用，但是存在无数的其它应用，包括例如耳机或者其它的移动通讯设备。这种情形概述于下面的图3a中。图3a表示经常发生的情形，例如HA用户在噪声环境中听目标说话人说话。因此，HA的传声器接收到被噪声污染的目标语音信号。噪声信号被传声器系统接收，或可选择性地由定向传声器系统(参考图3a中的DIR块(opt))接收，将其转换为(可能为定向的)电信号，其被处理成时频表达式(参考图3a中的T-＞TF单元)。目标是在噪声信号在用户的耳膜呈现出之前对其进行处理，以改善清晰度。假设z(n)代表噪声信号(NS)。我们假定在当前示例中HA能够对噪声信号的连续的时间帧进行DFT变换，得到DFT系数z(k，m)(参考T-TF块)。应当清楚，其它方法可被用来获得时频划分，例如滤波器组等等。通过向各个时间帧应用增益值g(k，m)，HA对这些噪声TF单元进行处理，得到增益修正的DFT系数o(k，m)＝g(k，m)z(k，m)(参考块SIEg(k，m))。可选择的频率依赖增益，例如适用于特定的用户听力缺陷，可被施加于改善的信号y(k，m)(参考图3a中为了听力损失补偿应用增益的块G(opt))。最终，通过频率-时间转换(例如逆向DFT)得到将由输出变换器(扬声器)在HA用户的耳膜处呈现的经过处理的信号。替代地，可设想另一输出转换器(不同于扬声器)来向用户呈现改进的输出信号(例如人工耳蜗的电极或者骨传导设备的振动器)。

从原理上讲，目标是寻找将以上描述的清晰度预测器值最大化的增益值g(k，m)(清晰度系数d参考等式6)。不幸的是，在当前情形下这不能直接实现的，因为在眼前的实际情况中，由于可得到的噪声信号z(n)是目标信号x(n)和来自环境的噪声信号n(n)的总和(z(n)＝x(n)+n(n))，所以针对给定选择的增益值g(k，m)评估清晰度预测器所需的无噪声目标信号x(n)(或者相等于时频表达式x_j(m)或者x(k，m))是不可得的。相反，我们从统计学上模拟有关的信号(x(n)和z(n))。具体说来，就像在统计语音信号处理中经常使用的，例如参考[9]，如果我们按照实现随机过程那样模拟噪声信号z(n)和(未知的)无噪声信号x(n)，那么就可能在统计学上将清晰度系数的期望值最大化，也就是，

D = E [d] = E [\frac{1}{JM} \underset{j, m}{Σ} d_{j} (m)] = \frac{1}{JM} \underset{j, m}{Σ} E [d_{j} (m)],

(等式8)

其中E[·]是统计学期望运算符。目标是相对于增益值g(k，m)将期望清晰度系数D最大化：

\max \frac{1}{JM} \underset{j, m}{Σ} E [d_{j} (m)] wrt . g (k, m),

(等式9)

期望值E[d_j(m)]取决于基础随机变量的概率分布函数(pdf)，即z(k，m)(或z_j(m))和x(k，m)(或x_j(m))。如果已经确切地知道概率分布函数，根据基础概率分布函数的精确细节，可以解析地得到或者至少在数值上得到导出最大期望清晰度系数D的增益值g(k，m)。很明显，这些基础概率分布函数不能确切地得知，但是如下所述，对它们进行随时间估计和追踪是可能的。一般性的原理概略地表示在图3b、3c中(具体体现在语音清晰度增强单元SIE中)。

基础概率分布函数是未知的，它们取决于听觉环境，因此它们必须被估算。尽管这是一个难题，但是在单通道噪声降低领域中其是众所周知的，例如参见[4、5]，并且确实存在解决方案：众所周知(未知的)纯净的语音DFT系数大小|x(k，m)|可被假定具有超高斯(例如拉普拉斯)分布，例如参见[5](参考图3c中的语音分布输入SPD)。假定噪声具有特定的概率分布，例如高斯分布(参考图3c中的噪声分布输入ND)，可得到噪声观察(noisy observation)|z(k，m)|的概率分布(参考图3c中的概率分布函数[z(k，m)])，并且其是累加和独立于目标语音x(k，m)的，实践中经常有效的假定的细节参见[4]。为了追踪这些(假定的)基础概率分布函数的时间特性，必须对它们对应的方差进行估算(参考用于估计信号z和x的频谱方差的图3c中的ESVAR块E(|x(k，m)|²)，E(|z(k，m)|²))。可利用例如[2，3]中说明的方法来追踪与噪声概率分布函数相关的方差，而目标信号的方差可像例如[6]中描述的那样追踪。图3c建议了一种寻找最佳增益值的迭代过程。图3c中的块MAX D wrt.g(k，m)得出一些不同的候选增益g(k，m)，以最终输出让D最大化的最佳增益g_opt(k，m)(参见上述等式9)。实际上，寻找最佳增益值g_opt(k，m)的程序可为迭代的或者不是迭代的。

在助听器情形中，有必要将由任何算法引入的延迟时间优选地限制为小于20毫秒，优选5-10毫秒。在所提出的架构中，暗示着关于被补偿，直到包括当前帧及包括适当数量的之前的帧才完成增益值wrt.g(k，m)的优化，例如M＝10-50个帧，或者更多，例如100或者200帧或者更多(例如对应于音素或者单词或者语句所持续的时间)。

示例2：给定分离的目标和干扰信号的清晰度的在线优化

本示例适用可分离地得到目标和干扰信号。尽管该情形不会如示例1中指出情况的那样经常出现，但是在移动通讯设备的情形中仍然很普遍且经常出现，例如移动电话、头戴式耳机、助听器等。在HA的情形中，这种情形发生在将目标信号无线传送(例如从移动电话或者收音机或者电视机)至处于噪声环境中的HA用户时，例如HA用户正在开车。在该情形中，来自汽车引擎、轮胎、过往车辆等的噪声构成了干扰。问题在于由于开口的HA器件或者通过HA的气孔，通过HA扬声器呈送的目标信号被来自环境的干扰所扰乱，导致在用户的耳膜处目标信号-干扰比发生降低，并导致清晰度的损失。这里提出的基本的措施是在目标信号呈送到耳膜之前对其进行修正(例如放大)，并使得目标信号在存在干扰的情况下会完全(或者至少更好地)听得清，而不是令人不快地大声。对纯净信号的预处理以使在噪声环境中能够更好地感知的基本概念例如在[7、8]中说明。在本申请的一个方面，提出利用清晰度预测器(例如上述的清晰度系数或者源自其中的参数)来寻找所需要的增益。

这种情形在下面的附图4中描述。

应当理解的是，该图仅仅示出了表示功能模块的示例，如果这些功能模块对于本文公开的助听器中的应用很重要；而且，在其它的应用(例如头戴耳机、移动电话)中，可能没有示出某些模块。信号w(n)表示来自环境的干扰，其到达HA的传声器，但是也会漏传至耳鼓膜。信号x(n)为通过无线方式(参考曲折箭头WLS)被传送至HA用户的目标信号(TS)。信号w(n)可包括或者不包括受从声源到HA的传送路径影响的目标语音信号x(n)的声音(取决于相关情况，例如目标信号正分别从电视机中发出或者从电话机中传送出)。

干扰信号w(n)由传声器所接收并穿过某一定向系统(可选的)(参考图4a中的DIR(opt))。我们隐含地假定定向系统执行对进入信号的时频分解，形成时频单元w(k，m)。在一个实施例中，干扰时频单元被从传声器到耳鼓膜的传递函数比例缩放(参考图4a中的块H(s))，并且提供了对应的时频单元w′(k，m)。该传递函数可能为普通的与个人无关的传递函数，或者例如在装配过程中所测量到的与个人有关的传递函数(也就是考虑由于气孔或其它“开口”从传声器(例如位于耳朵部分的后面或者在耳朵中)到耳鼓膜的听觉信号路径)。因此，时频单元w′(k，m)表示在用户的耳鼓膜处的干扰信号。类似地，通过无线传输的目标信号x(n)被分解为时频单元x(k，m)(参考图4a中的T-TF单元)。增益模块(参考图4a中的g(k，m))适于向目标信号的时频表达式x(k，m)提供增益以补偿噪声环境。在该适应过程中，可利用上面的清晰度预测算法(SIP，例如参考图2)来估算目标信号的清晰度，其中g(k，m)·x(k，m)+w′(k，m)和x(k，m)分别被用作噪声/处理过的和目标信号(例如参考图4b、4c中的语音清晰度增强单元SIE)。图4c建议了一种用来寻找最佳增益值的迭代程序。图4从中的MAX d wrt.g(k，m)模块得出一些不同的备选的增益g(k，m)，以最终输出其中最大化d的最佳增益g_opt(k，m)(参考上面的等式6)。图8示出了根据本申请的语音清晰度增强(SIE)算法的流程图(同时也在图4c中示例说明)，其利用迭代程序以确定改善的输出信号o_j(m)(向目标信号x_j(m)应用d_j，max(m)的最优化增益g_j，opt(m)，提供改善的输出信号o_j(m)＝g_j，opt(m)x_j(m))。实际上，寻找最佳增益值g_opt(k，m)(g_j，opt(m))的程序可能为或者不为迭代的。

如果干扰程度w′(k，m)足够低，产生的清晰度分值将在某一阈值之上，例如λ＝95％，通过无线传送的目标信号x(n)将依照原样传送至助听器用户，也就是说，在该情形中g(k，m)＝1。另一方面，如果干扰程度很高使得预测到的清晰度小于阈值λ，那么就必须将目标信号x(k，m)乘以增益g(k，m)对目标信号进行修正(例如放大)以在相关的频率区间中改变幅度，从而增加清晰度超过λ。典型地，g(k，m)为实数值，x(k，m)为复数DFT系数。将二者相乘，从而得到具有幅度增加和相位不变的复数。存在许多可以确定合理的g(k，m)值的方式。为了提供一示例，我们假定增益值满足g(k，m)＞1且在寻找增益值g(k，m)时必须满足下面两个限制条件：

A)增益不应当使得目标信号的强度变得不可接受，也就是说，对于每个增益值都有已知的上限γ(k，m)，即，g(k，m)＜γ(k，m)。例如，阈值γ(k，m)可根据用户的关于不舒适程度的知识(例如在装配过程中提供、存储在助听器的内存)来确定。

B)我们希望尽可能少地改变进入信号x(n)(根据x(n)的任何改变可能在耳膜处的目标信号中引入人为信号的这种理解)。

在原理上，可通过下面的迭代程序来寻找g(k，m)值，例如对每个时间帧m都执行：

1)对于所有的k都设定g(k，m)。

2)计算用户耳膜处感觉到的处理过的信号的估算量：

x′(k，m)＝g(k，m)x(k，m)+w′(k，m)。

3)利用分别作为目标信号和处理过的/噪声信号的x(k，m)和x′(k，m)计算清晰度分数D′(例如利用等式4或者5、6、7)。

4)如果得到的清晰度分数大于阈值λ(例如，λ＝95％)：停止。

5)如果得到的清晰度分数小于λ：确定频率指数k，其中目标-干扰比为最小：

k^{*} = \underset{k}{\arg \min} \frac{{| s^{'} (k, m) |}^{2}}{{| w^{'} (k, m) |}^{2}},

k＝1，...，K

在该频率处使增益增加预定了，例如1dB，也就是g(k^*，m)＝g(k^*，m)*1.12

6)如果g(k^*，m)≤γ(k^*，m)，进入步骤2)

否则：停止

在用这种方式确定了会产生可接受的清晰度的g(k，m)的“最小”值后，在时频单元被转换为时域(参考TF-＞T块)并通过扬声器传送至用户之前，所得到的时频单元g(k，m)·x(k，m)可经过听力损失补偿单元(即用于补偿听力损失的另外的频率依赖增益，参考图4a中的块G(opt))。尽管清晰度预测器[1]只对听力正常的主体有效，但是在听力损失补偿单元完美地补偿听力损失的理想假定条件下，所提出的方法也适用于听力受损的主体。

示例2.1：无线传声器到听力设备(例如教学方案)

图5a示例说明了一种方案，其中佩戴听音仪器LI的用户U通过无线连接WLS接收来自传声器M(该传声器包括天线和发射器电路Tx)的直流电输入形式的目标语音信号x，传声器M由产生声场V1的说话者S携带。听音仪器的传声器系统接收混合信号，该混合信号包括用户U的本地环境中的声音，例如(A)声场V1的传播(也就是变化的和延迟的)信号V1′，(B)来自另外的说话者(在图5a的顶部用2个小头部表示)的声音V2和(C)来自其它噪声源的声音N1，在此时来自附近的交通车辆(由图5a的右下方的汽车表示)。直流输入(目标语音信号x)的音频信号和环境中的混合声音信号被听音仪器所接收并被转换为电传声器信号，该信号经过如本发明教导的和由听音仪器的信号处理单元执行的语音清晰度算法处理(并可能进一步处理，例如补偿佩戴者听力损害和/或减少噪声等等)，电传声器信号通过例如参考图4a的输出变换器(例如包含在听音仪器中的扬声器)传送至用户U。例如，听音仪器可以为耳机、听力仪器、电话机耳机或有源耳朵保护设备，或者其结合体。由听音仪器LI接收的来自传声器的直流电输入被用作输入至听音仪器的语音清晰度增强单元(SIE)的第一信号(x)，由听音仪器的传声器系统接收的环境中的混合音频信号被用作输入至参考图4b、4c的语音清晰度增强单元的第二输入(w或者w′)。

示例2.2：便携式无线电话通过中间设备传送至听音设备(例如个人使用的情形)

图5b示例说明了一种包含听音仪器LI和随身携带设备的听音系统，此处为颈戴设备1。这两个设备适于通过有线连接的或者(在此示出)无线链接WLS2相互之间进行无线通讯。颈戴设备1适于用颈带42佩戴在用户的颈部周围。颈戴设备1包括信号处理单元SP、传声器11和至少一个接收音频信号的接收器，例如接收来自所示的便携式电话的音频信号。颈戴设备例如包括天线和收发器电路(参考图5b中的链WLS1和Rx-Tx单元)，分别用来对通过无线接收的信号(例如来自电话7)进行接收并可能对其进行解调，并可能对将要传送的信号(例如由传声器11接收)进行调制和传送该(调制的)信号(例如传送至电话7的)。听音仪器LI和颈戴设备1通过无线链接WLS2，例如感应链接(例如双向或者此处的单向链接)相互连接，其中音频信号通过颈戴设备1的感应发送器I-Tx传送至听音仪器LI的感应接收器I-Rx。在本实施例中，无线传输是基于两个设备中的线圈之间或者颈圈天线(例如颈圈42中实现)和听音仪器的线圈之间的感应耦合，颈圈天线干扰颈戴设备中的线圈的场(或者自身产生场)。随身携带或者颈戴设备1连同听音仪器一起构成了听音系统。随身携带或者颈戴设备1可能构成或者形成另一设备的部分，例如移动电话或者听音仪器LI的远程控制或者用来选择多个接收音频信号中的一个并将所选择的信号推送至听音仪器LI的音频选择设备。听音仪器LI适于戴在用户U的头部，例如位于用户U的耳部或者耳朵内(例如，耳后式(BTE)或者耳内式(ITE)听力仪器)。随身携带设备1的传声器例如可适于接收在电话会谈期间用户的声音和/或在用户环境中的其它声音。例如，传声器11可由用户U手动地关闭。

听音系统包括信号处理器，其适于运行如本文公开中所描述的用来增强噪声环境中的语音清晰度的语音清晰度算法。运行该语音清晰度算法的信号处理器可位于该系统的随身携带部分(此处为颈戴设备1)中(例如图5b中的信号处理单元)或者听音仪器LI中。随身携带部分1的信号处理单元较听音仪器LI中的信号处理单元可能支配更多的处理功率，因为其尺寸的限制更小，从而其本地能量源(例如电池)的容量限制更小。从这方面说，在随身携带部分(图5b中的1)的信号处理单元中运行所有的或者部分的语音清晰度处理程序是具有优势的。在一个实施例中，听音仪器LI包括语音清晰度增强单元(SIE)，其将来自随身携带部分1的直流电输入(例如由连接WLS1和WLS2提供的来自便携式电话7的音频信号)作为第一信号输入(x)，将由听音仪器LI的传声器系统接收的环境中的混合听觉信号(N2，V2，OV)作为输入至语音清晰度增强单元的第二输入(w或者w′)，参考图4b、4c。

颈戴设备的1的传声器11和/或听音仪器LI的传声器系统接收的声音信号源在图5b的示例中被指示为1)用户自己的声音OV，2)用户环境中的人的声音V2，3)用户环境中的噪声源的声音N2(此处为风扇)。当然，其它的“噪声”源(当关于直接接收的目标语音信号x时考虑)可出现在用户环境中。

应用情形可包括例如电话会谈，其中来自其的目标语音信号由听音系统接收的设备为电话(如图5b中所示)。这样的会谈可在任意听觉环境中进行，例如噪声环境，诸如汽车(参考图5c)或者另一运输工具(例如飞机)或者具有来自机器噪声的噪声工业环境中，或者呼叫中心，或者具有来自其它人和/或机器的噪声的形式的干扰的其它开放空间室内环境。

听音仪器可例如为耳机或者听力仪器或者电话耳机或者有源耳朵保护设备或者其组合。根据本发明可进行修正和利用的音频选择设备(示例2.2中的随身携带或者颈戴设备1)例如在EP 1 460 769 A1和EP 1 981 253 A1或者WO2008/125291A2中说明。

示例2.3：从便携式电话到听音设备(汽车环境案例)

图5c示出了包含用户佩戴的助听器(或者耳机或头挂听筒)和允许用户在汽车内使用的移动电话的组件的听音系统。由移动电话接收的目标语音信号通过无线链接(WLS)被无线传送至助听器。用户环境(和尤其是位于用户耳膜处)中的噪声(N1、N2)，例如来自汽车引擎、空气噪声、汽车收银机等，可降低目标语音信号的清晰度。目标信号的清晰度由本文公开中所描述的方法提高。例如，该方法可体现为适于在助听器(HA)中的信号处理器上运行(执行该方法的步骤)的算法。在一个实施例中，听音仪器LI包括语音清晰度增强单元(SIE)，其将由链接WLS提供的来自手机的直流电输入作为第一信号输入(x)，并将由听音仪器LI的传声器系统接收的来自汽车环境的混合听觉信号(N1、N2)作为输入至语音清晰度增强单元的第二输入(w或者w′)，参考图4b、4c。

示例2.1、2.2和2.3的应用方案都遵从示例2中概述的情况，其中目标语音信号是已知的(来自直流电输入，例如无线输入)，参考图3。即使纯净的目标信号是已知的，当纯净的目标信号混合有噪声或者在噪声听觉环境中重播时，该信号的清晰度仍然可由本文公开的语音清晰度算法改进。

示例3：算法开发

图6示出了用于离线优化程序的清晰度预测算法的应用，其中通过改变算法中的一个或更多个参数以获得得出最大清晰度预测器值d_max的参数设定，处理输入信号并提供输出信号的算法可被优化。这是清晰度预测器算法的最简单应用，其中该算法被用来判断对其它算法的清晰度的影响，例如噪声减少算法。用这种算法替代听力测试实现了各种HA参数的自动和快速调整。例如，这种参数可为开发阶段中的值，其中具有不同功能任务的不同算法结合在一起，并且修正单个算法的参数或合函数。

算法ALG的各种变量ALG₁，ALG₂，...，ALG_Q(例如具有不同的参数或者不同得函数等等)被提供同一(纯净)目标语音信号x(n)。目标语音信号被算法ALG_q(q＝1，2，...，Q)处理，得到目标信号x的处理过的信号y₁，y₂，...，y_Q。本申请中描述的信号清晰度预测器SIP被用来为目标信号x的各个处理过的信号y₁，y₂，...，y_Q提供清晰度测量值d₁，d₂，...，d_Q。通过在Q个最终的清晰度预测器d₁，d₂，...，d_Q(参考块MAX(d_q))中辨别最大的最终清晰度预测器值d_max＝d_q，算法ALG_q就被认定为提供最佳清晰度(关于目标信号x(n))的算法)。当然，这样方案可延伸到算法的任意数量的变量，可用于不同的算法之中(例如噪声减少、定向、压缩等)，可能包括不同目标信号、不同说话者、不同类型得说话者(例如男性、女性或者少儿说话者)、不同语言中的优化。在图6中，不同的清晰度测试产生的预测器值d₁至d_Q被表示为并行执行。或者，它们也可以按次序形成。

本发明由单独的权利要求书的特征限定。在独立的权利要求书中定义了优选实施例。权利要求中的任何附图标号都不是对其范围的限制。

以上已经说明了一些优选实施例，但是，应当强调的是，本发明并不局限于这些，在权利要求书中定义的主题范围内可以其他方式体现。除了在以上实施例中提到的那些应用，还可提出本申请中描述的语音清晰度预测器和增强算法的其它应用，例如自动语音识别系统、声音控制系统、教师教学系统等。

参考文献

1.C.H.Taal，R.C.Hendriks，R.Heusdens，and J.Jensen，“A Short-Time Objective Intelligibility Measure for Time-Frequency Weighted Noisy Speech，” IEEE Intemational Conference on Acoustics，Speech，and Signal Processing，March2010，pp.4214-4217.

2.R.Martin，“Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics，”IEEE Trans.Speech，Audio Proc.，Vol.9，No.5，July 2001，pp.504-512.

3.R.C.Hendriks，R.Heusdens and J.Jensen，″MMSE Based Noise Psd Tracking With Low Complexity″，IEEE International Conference on Acoustics，Speech，and Signal Processing，March 2010，Accepted.

4.P.C.Loizou，“Speech Enhancement-Theory and Practice，”CRC Press，2007.

5.R.Martin，“Speech Enhancement Based on Minimum Mean-Square Error Estimation and Supergaussian Priors，”IEEE Trans.Speech，Audio Processing，Vol.13，Issue 5，Sept.2005，pp.845-856.

6.Y.Ephraim and D.Malah，“Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator，”IEEE Trans.Acoustics，Speech，Signal Proc.，ASSP-32(6)，1984，pp.1109-121.

7.A.C.Dominguez，“Pre-Processing of Speech Signals for Noisy and Band-Limited Channels，”Master’s Thesis，KTH，Stockholm，Sweden，March 2009

8.B.Sauert and P.Vary，“Near end listening enhancement optimized withrespect to speech intelligibility，”Proc.17^th European Signal Processing Conference(EUSIPCO)，pp.1844-1849，2009

9.J.R.Deller，J.G.Proakis，and J.H.L.Hansen，“Discrete-Time Processing of Speech Signals，”IEEE Press，2000.

10.US 5,473,701(AT&T)05-12-1995

11.WO 99/09786A1(PHONAK)25-02-1999

12.EP 2 088 802 A1(OTICON)12-08-2009

13.EP 1 460 769 A1(PHONAK)22-09-2004

14.EP 1 981 253 A1(OTICON)15-10-2008

15.WO 2008/125291A2(OTICON)23-10-2008

Claims

1.一种提供语音清晰度预测器值的方法，该语音清晰度预测器值用于当目标语音信号经过算法处理或在噪声环境中接收时估算普通听音者理解所述目标语音信号的能力，该方法包括：

b)提供第二信号y(n)的时频表达式y_j(m)，第二信号y(n)为多个频带和多个时刻中的所述目标语音信号的噪声信号和/或处理过的所述目标语音信号；

c)以第一和第二信号或者源自于它们的信号的时频表达式x_j ^*(m)和y_j ^*(m)的形式的分别提供第一和第二清晰度预测输入；

e)通过在J个频率指数和M个时间指数上对所述的中间语音清晰度系数d_j(m)进行平均运算，计算最终的语音清晰度预测器d；

其中，在给定时刻m的语音清晰度系数d_j(m)的计算式为

d_{j} (m) = \frac{Σ_{n = N 1}^{N 2} (x_{j}^{*} (n) - r_{x_{j}^{*}}) (y_{j}^{*} (n) - r_{y_{j}^{*}})}{\sqrt{Σ_{n = N 1}^{N 2} {(x_{j}^{*} (n) - r_{x_{j}^{*}})}^{2} Σ_{n = N 1}^{N 2} {(y_{j}^{*} (n) - r_{y_{j}^{*}})}^{2}}}

其中N1≤m≤N2，且r_x*j和r_y*j为常数。

2.根据权利要求1所述的方法，其中M个时间指数对应于大于100毫秒的时间。

3.根据权利要求1所述的方法，其中

r_{x_{j}^{*}} = μ_{x_{j}^{*}} = \frac{1}{N} Σ_{l = N 1}^{N 2} x_{j}^{*} (l)

和

r_{y_{j}^{*}} = μ_{y_{j}^{*}} = \frac{1}{N} Σ_{l = N 1}^{N 2} y_{j}^{*} (l)

为N＝N2-N1时刻上的信号x_j ^*和y_j ^*的有效幅值的平均值。

4.根据权利要求1所述的方法，其中第二清晰度预测输入的有效幅值y^* _j(m)为所述第二信号关于所述目标信号x(n)的归一化形式，其中归一化系数α_j给定为

α_{j} (m) = {(\frac{Σ_{n = m - N + 1}^{m} x_{j} {(n)}^{2}}{Σ_{n = m - N + 1}^{m} y_{j} {(n)}^{2}})}^{\frac{1}{2}} .

5.根据权利要求4所述的方法，其中第二信号的归一化有效幅值被剪切处理，以提供经剪切的有效幅值y^* _j，其中

y_{j}^{*} (m) = \max (\min ({\tilde{y}}_{j} (m), x_{j} (m) + 10^{- β / 20} x_{j} (m)), x_{j} (m) - 10^{- β / 20} x_{j} (m)),

以确保本地的目标-干扰比不超过βdB。

6.根据权利要求1所述的方法，其中N1＝m-N+1且N2＝m，以在中间语音清晰度系数d_j(m)的限定中包含当前的和之前N-1个时刻。

7.根据权利要求1所述的方法，其中通过对d应用逻辑转换，将最终的清晰度预测器d转换为清晰度分数D′：

D^{'} = \frac{100}{1 + \exp (ad + b)},

其中a和b为常数。

8.一种改善听音者在噪声环境中对目标语音信号的理解的方法，该方法包括：

a)根据权利要求1的方法提供最终的语音清晰度预测器d；

b)确定一组优化的时频依赖的增益g_j(m)_opt，其中当该增益应用至所述第一或第二信号或者源自它们的信号时，提供最大的最终清晰度预测器d_max；

c)将所述优化的时频依赖增益g_j(m)_opt应用至所述第一或第二信号或者源自它们的信号，从而提供改善信号o_j(m)。

9.根据权利要求8所述的方法，其中所述第一信号x(n)同来自噪声环境的噪声混合，以混合信号z(n)的形式被提供给听音者。

10.根据权利要求8所述的方法，包括：

b1)对混合信号z(n)和第一信号x(n)的电表达式进行统计估算，

d1)利用所述第一和混合信号的统计估算来估计所述中间语音清晰度系数d_j(m)。

11.根据权利要求10所述的方法，其中对所述第一和混合信号的电表达式x(n)和z(n)分别进行统计估算的步骤包括分别对第一和混合信号的基础时频表达式x_j(m)和z_j(m)的概率分布函数进行估算。

12.根据权利要求10所述的方法，其中利用清晰度系数的统计学上的期望值D将最终的语音清晰度预测器最大化，其中

D = E [d] = E [\frac{1}{JM} \underset{j, m}{Σ} d_{j} (m)] = \frac{1}{JM} \underset{j, m}{Σ} E [d_{j} (m)],

并且其中E[·]为统计期望运算符，其中期望值E[d_j(m)]取决于统计估算，基础随机变量x_j(m)的概率分布函数。

13.根据权利要求8所述的方法，其中将所述第一信号x(n)作为单独的信号提供给听音者。

14.根据权利要求13所述的方法，其中将包括来自环境噪声的噪声信号w(n)提供给听音者。

15.根据权利要求14所述的方法，其中将所述噪声信号w(n)转换为表示来自环境中的噪声在听音者耳膜处的信号w′(n)。

16.一种语音清晰度预测器单元，其适于接收表示目标语音的第一信号x和作为目标语音信号的噪声或处理过的目标语音信号的第二信号y，并适于为所述第二信号提供语音清晰度预测器值d作为输出，该语音清晰度预测器单元包括：

a)时间-时频转换单元，其适于

i)提供第一信号x(n)的时频表达式x_j(m)，第一信号x(n)表示多个频带和多个时刻中的所述目标语音信号，j为频带指数，且m为时间指数；和

ii)提供第二信号y(n)的时频表达式y_j(m)，第二信号为多个频带和多个时刻中的所述目标语音信号的噪声和/或处理过的所述目标语音信号；

b)转换单元，其适于以第一和第二信号或者源自它们的信号的时频表达式x_j ^*(m)和y_j ^*(m)的形式分别提供第一和第二清晰度预测输入；

c)中间语音清晰度计算单元，其适于基于所述第一和第二清晰度预测输入提供时频依赖的中间语音清晰度系数d_j(m)；

d)最终的语音清晰度计算单元，其通过在预定的J个频率指数和预定的M个时间指数上对所述的中间语音清晰度系数d_j(m)进行平均运算，计算最终的语音清晰度预测器d；

在给定时刻m的语音清晰度系数d_j(m)的计算式为

d_{j} (m) = \frac{Σ_{n = N 1}^{N 2} (x_{j}^{*} (n) - r_{x_{j}^{*}}) (y_{j}^{*} (n) - r_{y_{j}^{*}})}{\sqrt{Σ_{n = N 1}^{N 2} {(x_{j}^{*} (n) - r_{x_{j}^{*}})}^{2} Σ_{n = N 1}^{N 2} {(y_{j}^{*} (n) - r_{y_{j}^{*}})}^{2}}}

其中N1≤m≤N2，且r_x*j和r_y*j为常数。

17.根据权利要求16所述的语音清晰度预测器单元，其适于根据权利要求1的方法来计算语音清晰度预测器值。

18.一种语音清晰度增强单元，其适于接收目标信号x和噪声信号w，或者接收目标语音信号和噪声信号的混合信号z，并适于向听音者提供具有改善的清晰度的改善输出O，该语音清晰度增强单元包括：

a)根据权利要求16的语音清晰度预测器单元；

b)时间-时率转换单元，用来

i)在多个频带和多个时刻提供所述噪声信号w(n)的时频表达式w_j(m)或者所述混合信号z(n)的时频表达式z_j(m)；

c)清晰度增益单元，用来

i)确定一组优化的时频依赖增益g_j(m)_opt，当该增益被应用至第一或者第二信号或者源自于第一或第二信号的信号时，提供最大的最终的清晰度预测器d_max；

ii)对所述第一或第二信号或者源自第一或第二信号的信号应用所述的优化的时频依赖增益g_j(m)_opt，从而提供改善信号o_j(m)。

19.根据权利要求18所述的语音清晰度增强单元，其适于执行权利要求8的方法。