CN107046668A

CN107046668A - 单耳语音可懂度预测单元、助听器及双耳听力系统

Info

Publication number: CN107046668A
Application number: CN201710069826.7A
Authority: CN
Inventors: J·詹森; A·H·安德森; J·M·德哈恩
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2016-02-08
Filing date: 2017-02-08
Publication date: 2017-08-15
Anticipated expiration: 2037-02-08
Also published as: US20170230765A1; US10154353B2; CN107046668B; EP3203473B1; EP3203473A1; EP3203472A1

Abstract

本申请公开了单耳语音可懂度预测单元、助听器及双耳听力系统，其中所述单耳语音可懂度预测单元适于接收包括目标语音信号的纯净或有噪声和/或处理后版本的信息信号并配置成将所述信息信号的语音可懂度预测值提供为输出，所述语音可懂度预测单元包括：输入单元；包络提取单元；时频段分开单元；段估计单元；中间语音可懂度计算单元；最终语音可懂度计算单元。本发明适用于有噪声/处理后的语音信号的单耳、非侵入可懂度预测；有噪声/处理后的语音信号的双耳、非侵入可懂度预测；或有噪声语音信号的单耳和双耳可懂度增强。

Description

单耳语音可懂度预测单元、助听器及双耳听力系统

技术领域

本申请涉及助听器领域。本发明具体涉及用于预测语音的可懂度的信号处理方法，其例如为与普通听者(一群具有类似听力曲线的听者)能够从一些语音材料理解的话语的一部分高度相关的指数。

背景技术

对于例如因噪声或回响而失真及可能已通过一些信号处理装置如助听器的语音信号，其可懂度降低。因此，需要预测这样的语音信号的可懂度的解决方案以便采取相应措施提高用户的听音质量。

发明内容

本发明提供下述问题的解决方案：

1、有噪声/处理后的语音信号的单耳、非侵入可懂度预测；

2、有噪声/处理后的语音信号的双耳、非侵入可懂度预测；

3、有噪声语音信号的单耳和双耳可懂度增强。

单耳语音可懂度预测单元

在本申请的一方面，提供单耳语音可懂度预测单元，其适于接收包括目标语音信号的纯净或有噪声和/或处理后的版本的信息信号x。单耳语音可懂度预测单元配置成将该信息信号的语音可懂度预测值d提供为输出。所述语音可懂度预测单元包括：

-输入单元，用于提供信息信号x的时频表示x(k,m)，其中k为频率窗口指数，k＝1,2,…,K，及m为时间指数；

-包络提取单元，用于提供信息信号x的时频子频带表示x_j(m)，其表示所述信息信号的子频带信号x_j(m)的时域包络或其函数，其中j为子频带指数，j＝1,2,…,J，及m为时间指数；

-时频段分开单元，用于将信息信号x的时频子频带表示x_j(m)分为对应于子频带信号的N个连续样本的时频段X_m；

-段估计单元，用于分别在时频段X_m或者其规格化和/或变换版本之中估计实质上无噪声的时频段S_m或者其规格化和/或变换版本

-中间语音可懂度计算单元，适于提供估计所述时频段X_m的可懂度的中间语音可懂度系数d_m，所述中间语音可懂度系数d_m基于估计的实质上无噪声的时频段S_m或者其规格化和/或变换版本及基于时频段X_m或者其规格化和/或变换版本

-最终语音可懂度计算单元，用于计算估计信息信号x的可懂度的最终语音可懂度预测值d，其通过随时间组合所述中间语音可懂度系数d_m或其变换版本进行，例如求平均或者应用MIN或MAX函数。

在实施例中，输入单元配置成将信息信号x接收为时变(时域/全带)信号x(n)，n为时间指数。在实施例中，输入单元配置成从另一单元或装置按时频表示x(k,m)接收信息信号x，k和m分别为频率指数和时间指数。在实施例中，输入单元包括频率分解单元，用于从信息信号的时域版本x(n)提供信息信号x的时频表示x(k,m)，n为时间指数。在实施例中，频率分解单元包括带通滤波器组(如γ单音滤波器组)或者适于实施傅里叶变换算法(如短时傅里叶变换(STFT)算法)。在实施例中，输入单元包括包络提取单元，用于从信息信号x的所述时频表示x(k,m)提取包括信息信号的J个子频带的时域包络x_j(m)(j＝1,2,…,J)。在实施例中，包络提取单元包括用于实施希尔伯特变换的算法或者用于对复值STFT信号x(k,m)的量值进行低通滤波的算法等。在实施例中，时频段分开单元配置成将时频表示x_j(m)分为对应于所选如全部子频带信号x_j(m),j＝1,2,…,J的N个连续样本的时频段。例如，第m个时频段X_m由JxN矩阵定义：

在实施例中，单耳语音可懂度预测单元包括规格化和/或变换单元，适于提供所述时频段X_m的规格化和/或变换版本

在实施例中，规格化和/或变换单元配置成将一个或多个行和/或列规格化和/或变换算法应用于时频段S_m和/或X_m。在实施例中，规格化和/或变换单元配置成提供时频段S_m和/或X_m的行和/或列的规格化和/或变换运算。

在实施例中，单耳语音可懂度预测单元包括规格化和变换单元，其配置成提供时频段S_m和X_m的行和列的规格化和/或变换，其中行的规格化和/或变换包括至少一下述运算：R1)行的均值规格化；R2)行的单位范数规格化；R3)行的傅里叶变换；R4)提供行的傅里叶量值谱；及R5)提供恒等运算；及其中列的规格化和/或变换包括至少一下述运算：C1)列的均值规格化；及C2)列的单位范数规格化。

在实施例中，规格化和/或变换单元配置成将下述算法的一个或多个应用于时频段X_m(或S_m)：

-R1)行规格化为零平均值：

其中为J×1向量，其第j'项为X的第j'行(因此中的上标r)的平均值，其中1指一的N×1向量，及上标T指矩阵转置；

-R2)行规格化为单位范数：

g₂(X)＝D^r(X)X,

其中及其中X(j,:)指X的第j'行，使得D^r(X)为J×J对角矩阵，在主对角线上的每一行具有反范数及在别处为零(上标H指厄米变换)。自左乘以Dr(X)使得所得矩阵的行规格化为单位范数；

-R3)对每一行应用傅里叶变换

g₃(X)＝XF,

其中F为N×N傅里叶矩阵；

-R4)对每一行应用傅里叶变换，之后计算所得复值元素的量值

g₄(X)＝|XF|

其中|·|计算逐元素量值；

-R5)单位算子

g₅(X)＝X

-C1)列规格化为零平均值：

其中为N×1向量，其第i项为X的第i行的平均值，及其中1指一的J×1向量；

-C2)列规格化为单位范数：

h₂(X)＝XD^c(X),

其中及其中X(:,n)指X的第n行，使得D^c(X)为N×N对角矩阵，在主对角线上的每一列具有反范数及在别处为零，自右乘以D^c(X)使得所得矩阵的列规格化为单位范数。

在实施例中，单耳语音可懂度预测单元包括话音活动检测单元(VAD)，用于指明信息信号的特定时段是否或者何种程度地包括语音或估计包括语音，及提供指明该结果的话音活动控制信号。在实施例中，话音活动检测单元配置成提供二元指示，其识别包括语音或不包括语音的段。在实施例中，话音活动检测单元配置成识别具有某一概率包括语音的段。在实施例中，话音活动检测单元适用于时域信号(或全带信号x(n)，n为时间指数)。在实施例中，话音活动检测单元适用于信息信号的时频表示(x(k,m)或x_j(m)，k和j为频率指数(分别对应于窗口和子频带)，m为时间指数)或源自其的信号。在实施例中，话音活动检测单元配置成基于时频单元电平(或例如在子频带信号x_j(m)中)识别包括语音的时频段。在实施例中，单耳语音可懂度预测单元适于从另一单元或装置接收话音活动控制信号。在实施例中，单耳语音可懂度预测单元适于从另一装置无线接收话音活动控制信号。在实施例中，时频段分开单元和/或段估计单元配置成使时频段X_m或其规格化和/或变换版本的产生及实质上无噪声的时频段S_m或其规格化和/或变换版本的估计量的产生基于话音活动控制信号，例如根据话音活动控制信号产生所述时频段(例如在所涉及时频段包含语音的概率大于预定值如0.5时)。

在实施例中，单耳语音可懂度预测单元(如包络提取单元)适于将时域包络信号提取为

其中j＝1,…,J和m＝1,…,M，及k1(j)和k2(j)指对应于第j个子频带的低和高截止频率的DFT窗口指数，J为子频带的数量，及M为所涉及信号中的信号帧的数量，f(·)为函数。

在实施例中，函数f(·)＝f(w)，其中w表示该函数在下述函数之中选择或其组合：

-f(w)＝w表示恒等；

-f(w)＝w²提供功率包络；

-f(w)＝2·log w或f(w)＝w^β，0<β<2，使能对健康耳蜗的压缩非线性进行建模。

-f(w)＝w²提供功率包络；

在实施例中，段估计单元配置成基于统计方法从表示信息信号的时频段估计实质上无噪声的时频段

在实施例中，段估计单元配置成基于源自信息信号的时频段X_m或源自其规格化和/或变换的时频段的超向量及基于将信息信号的超向量映射到表示实质上无噪声的(非必须地，规格化和/或变换的)时频段的超向量的估计的估计量而估计实质上无噪声的时频段S_m或其规格化和/或变换版本在实施例中，超向量和为通过分别堆放信息信号的(非必须地，规格化和/或变换的)时频段及实质上无噪声的(非必须地，规格化和/或变换的)时频段的列而产生的J·Nx1超向量，即

其中J为子频带的数量，N为(非必须地，规格化和/或变换的)时频段的连续样本的数量，(:,n)^T指所涉及矩阵的第n列，及T指转置。

在实施例中，统计方法包括下述之一或多个：

a)神经网络，例如其中映射r(.)使用监督学习技术离线估计；

b)贝叶斯技术，例如其中联合概率密度函数(如)离线估计并用于提供的估计量，这些估计量在统计意义上最佳，例如在最小均方误差(mmse)、最大后验(MAP)或最大概似意义上等；

c)子空间技术(具有计算简单的潜力)。

在实施例中，统计方法包括一类涉及映射r(.)的解决方案，这些映射在观察数据中呈线性。其优点在于其为特别(计算)简单的方法，因此很适合便携(低功率容量)装置如助听器。

在实施例中，段估计单元配置成基于线性估计量估计实质上无噪声的时频段在实施例中，该线性估计量在离线程序中(在单耳语音可懂度预测单元正常使用之前使用无噪声语音信号的(可能大的)训练集)确定。在实施例中，(即)，其中J·Nx1超向量为的估计量，及G为在离线程序中使用无噪声语音信号的训练集估计的J·NxJ·N矩阵。(纯净的)实质上无噪声的时频段S_m的估计量例如可通过将超向量的估计量整形为时频段矩阵而找到。

在实施例中，段估计单元配置成基于跨源自无噪声语音信号z_m的非必需规格化和/或变换的段的超向量的训练集预估计的J·N×J·N样本相关矩阵估计实质上无噪声的(非必须地，规格化和/或变换的)时频段

其中，为训练集中的项数。优选地，为示例性纯净语音时间段的超向量(的一个)。表示典型语音信号的(粗略)统计模型。该模型的置信度可通过增大训练集中的项数和/或增大训练集中的项的分集而提高。在实施例中，训练集针对所涉及应用进行定制(例如在项数和/或项的分集方面)，例如聚焦于预期将出现的项。

在实施例中，中间语音可懂度计算单元适于例如根据两个Kx1向量中的元素的线性样本相关系数d(a,b)确定中间语音可懂度系数d_m：

其中及

其中k为向量项的指数，K为向量维数。

在实施例中，最终语音可懂度计算单元适于从中间语音可懂度系数d_m将最终语音可懂度预测值d计算为信息信号x随时间的平均(非必须地，通过函数u(d_m)进行变换)：

其中M表示信息信号x的语音活跃部分的时间单元的持续时间。在实施例中，信息信号的语音活跃部分的持续时间定义为话音活动控制信号指明信息信号包括语音的(可能累计的)时间段。

助听器

一方面，本发明提供适于位于用户的左和右耳之处或之中或者适于完全或部分植入在用户头部中的助听器，该助听器包括上面描述的、具体实施方式中详细描述的、图中所示的及权利要求中限定的单耳语音可懂度预测单元。

在实施例中，该助听器包括：

-至少一输入单元，如多个输入单元IU_i，i＝1,…,M，M等于或大于2，每一输入单元配置成提供表示在第i个输入单元处接收的声音输入的时变电输入信号y’_i，该电输入信号y’_i包括目标信号分量和噪声信号分量，目标信号分量源自目标信号源；

-可配置的信号处理单元，用于处理电输入信号及提供处理后的信号u；

-输出单元，用于基于电输出产生配置成可由用户感知为声音的输出刺激，所述电输出为来自信号处理单元的处理后的信号u或者源自其的信号的形式；及

-听力损失模型单元，其连接到单耳语音可懂度预测单元并配置成应用反映用户的相应左或右耳的听力受损的、电输出信号的随频率而变的修改以向单耳语音可懂度预测单元提供信息信号x。

听力损失模型配置成使得单耳语音可懂度预测单元的输入信号(如可配置的处理单元的输出，例如参见图8A)被修改以反映用户的听力曲线与正常听力曲线的偏差，例如以反映用户的听力受损。

在实施例中，可配置的信号处理单元适于基于单耳语音可懂度预测单元提供的最终语音可懂度预测值d控制或影响相应电输入信号的处理。在实施例中，可配置的信号处理单元适于在目标信号分量包括语音时例如仅在目标信号分量包括语音时(例如通过话音(语音)活动检测器确定)基于最终语音可懂度预测值d控制或影响相应电输入信号的处理。

在实施例中，助听器适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。

在实施例中，输出单元包括耳蜗植入物的多个电极或者骨导助听器的振动器。在实施例中，输出单元包括输出变换器。在实施例中，输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施例中，输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。

在实施例中，输入单元包括用于将输入声音转换为电输入信号的输入变换器。在实施例中，输入单元包括用于接收包括声音的无线信号并提供表示所述声音的电输入信号的无线接收器。在实施例中，助听器包括定向传声器系统，其适于增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。在实施例中，定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。

在实施例中，助听器包括用于从另一装置如通信装置或另一助听器无线接收直接电输入信号的天线和收发器电路。总的来说，由助听器的天线和收发器电路建立的无线链路可以是任何类型。在实施例中，无线链路在功率受限制的条件下使用，例如因为助听器包括便携(通常电池驱动的)装置。

在实施例中，助听器包括输入变换器(传声器系统和/或直接电输入(如无线接收器))和输出变换器之间的正向或信号通路。在实施例中，信号处理单元位于该正向通路中。在实施例中，信号处理单元适于根据用户的特定需要提供随频率而变的增益。在实施例中，助听器包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中，分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中，分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中，助听器包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入进行数字化。在实施例中，助听器包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，助听器包括多个检测器，其配置成提供与助听器的当前网络环境(如当前声环境)有关、和/或与佩戴助听器的用户的当前状态有关、和/或与助听器的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与助听器(如无线)通信的外部装置的一部分。外部装置例如可包括另一助听器、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。在实施例中，多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中，多个检测器中的一个或多个对频带拆分的信号起作用((时-)频域)。

在实施例中，助听器还包括用于所涉及应用的其它适宜功能，如压缩、降噪、反馈减少等。

单耳语音可懂度预测单元的应用

此外，本发明提供上面描述的、“具体实施方式”中详细描述的、图中所示的及权利要求中限定的单耳语音可懂度预测单元在助听器中的应用，其用于修改助听器中的信号处理以增强通过助听器呈现给用户的语音信号的可懂度。

提供单耳语音可懂度预测器的方法

另一方面，提供一种提供单耳语音可懂度预测器的方法，所述预测器用于估计用户理解包括目标语音信号的纯净或有噪声和/或处理后版本的信息信号x的能力。该方法包括：

-提供信息信号x的时频表示x(k,m)，其中k为频率窗口指数，k＝1,2,…,K，及m为时间指数；

-提取所述时频表示x(k,m)的时域包络，从而提供信息信号x的表示时域包络的时频子频带表示x_j(m)或其函数，其为子频带信号x_j(m)的形式，其中j为子频带指数，j＝1,2,…,J，及m为时间指数；

-将信息信号x的时频子频带表示x_j(m)分为对应于子频带信号的N个连续样本的时频段X_m；

-分别在时频段X_m或者其规格化和/或变换版本之中估计实质上无噪声的时频段S_m或者其规格化和/或变换版本

-提供估计所述时频段X_m的可懂度的中间语音可懂度系数d_m，所述中间语音可懂度系数d_m基于估计的实质上无噪声的时频段S_m或者其规格化和/或变换版本及基于时频段X_m或者其规格化和/或变换版本

-计算估计信息信号x的可懂度的最终语音可懂度预测值d，其通过随时间组合所述中间语音可懂度系数d_m或其变换版本进行，例如求平均，例如组合为单一标量值。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

在实施例中，该方法包括识别信息信号的特定时段是否或者何种程度地包括语音或估计包括语音。在实施例中，该方法包括提供识别包括语音或不包括语音的段的二元指示。在实施例中，该方法识别具有某一概率包括语音的段。在实施例中，该方法基于时频单元电平(例如在子频带信号x_j(m)中)识别包括语音的时频段。在实施例中，该方法包括从另一装置无线接收话音活动控制信号。

在实施例中，该方法包括使语音信号(包括语音的信号)经历听力损失模型从而提供信息信号x，其中听力损失模型配置成对受损听觉系统的缺陷建模。通过使语音信号(如图3A中的信号y)经历听力损失模型，所得的信息信号x可用作语音可懂度预测器的输入，从而提供未受助听力受损人员的语音信号可懂度度量。在实施例中，听力损失模型为反映普通听力受损用户的听力受损的广义模型。在实施例中，听力损失模型可配置成反映特定用户的听力受损，例如包括随频率而变的听力损失(听觉阈与正常听力人员的(平均)听觉阈之间的偏差)。通过使语音信号(如图3D中的信号y)经历计划补偿用户的听力受损的信号处理及经历听力损失模型，所得的信息信号x可用作语音可懂度预测器的输入(例如参见图3D)，从而提供受助听力受损人员的语音信号可懂度度量。这样的方案例如可用于评估不同处理算法(和/或处理算法的改进)对用户对所得信息信号的(估计的)可懂度的影响或者用于在线优化助听器中的信号处理(例如参见图8A)。

在实施例中，该方法包括向目标语音信号添加噪声以提供信息信号x，其用作提供单耳语音可懂度预测值的方法的输入。向信息信号添加预定(或变化)量的噪声可用于以简单的方式评估用户的听力损失(从而提供听力损失模型的效果)。在实施例中，目标信号根据用户的听力损失如听力图进行修改(例如衰减)。在实施例中，噪声被添加到目标信号，及该目标信号被衰减以反映用户的听力损失。

在实施例中，该方法包括将时频表示x_j(m)分为对应于所有子频带信号x_j(m),j＝1,2,…,J的N个连续样本的时频段X_m。例如，第m个时频段X_m由JxN矩阵定义：

在实施例中，该方法包括提供时频段X_m的规格化和/或变换，从而提供规格化和/或变换的时频段在实施例中，规格化和/或变换单元配置成将一个或多个行和/或列规格化和/或变换算法应用于时频段X_m。

在实施例中，该方法包括使得来自表示信息信号的时频段的、实质上无噪声的时频段基于统计方法进行估计。

在实施例中，该方法包括时频段X_m或其规格化和/或变换版本的产生及实质上无噪声的时频段S_m或其规格化和/或变换版本的估计量的产生根据信息信号的给定时间段是否或者何种程度地包括语音或估计包括语音而产生(例如仅在所涉及时频段包含语音的概率大于预定值如0.5时产生)。

在实施例中，该方法包括基于由信息信号的时频段X_m或其规格化和/或变换的时频段定义的超向量及基于将信息信号的超向量映射到表示实质上无噪声的(非必须地，规格化和/或变换的)时频段的超向量的估计的估计量而估计实质上无噪声的时频段S_m或其规格化和/或变换版本在实施例中，超向量和为通过分别堆放信息信号的(非必须地，规格化和/或变换的)时频段及实质上无噪声的(非必须地，规格化和/或变换的)时频段的列而产生的J·Nx1超向量，即

在实施例中，该方法包括使得实质上无噪声的时频段基于线性估计量进行估计。

在实施例中，该方法包括提供超向量的估计量其中J·Nx1超向量为表示实质上无噪声的(非必须地，规格化和/或变换的)时频段的超向量的估计量，及其中线性估计量G为在离线程序中使用无噪声语音信号z(n)(n为时间指数)的训练集或超向量z_m估计的J·NxJ·N矩阵。

在实施例中，该方法包括使得基于跨无噪声语音信号z_m的超向量的训练集预估计的J·N×J·N样本相关矩阵估计实质上无噪声的(非必须地，规格化和/或变换的)时频段

其中，为训练集中的项数。相关矩阵表示典型语音信号的统计模型。

在实施例中，该方法包括计算J·N×J·N样本相关矩阵的本征值分解：

其中为具有降序实值本征值的对角线J·N×J·N矩阵，及其中J·N×J·N矩阵的列为对应的特征向量。

在实施例中，该方法包括将特征向量矩阵分为两个子矩阵：

其中，为具有对应于L<J·N主本征值的特征向量的J·N×L矩阵，及具有其余特征向量作为列。作为例子，L/(J·N)可小于50％，如小于33％，如小于20％。在实施例中，J·N约为500，及L约为100(导致为500x100矩阵(主子空间)，及为500x400矩阵(次子空间))。

在实施例中，该方法包括将(J·NxJ·N)矩阵G计算为：

该例子的矩阵G可被认为正交投影算子。在该情形下，形成估计量简单地将有噪声/处理后的超向量正交地投影在由中的列跨越的线性子空间上。作为备选及更一般地，矩阵可由D形式的矩阵代替，其中D为对角线加权矩阵。对角线加权矩阵D配置成根据的列的(如估计的)重要性对这些列进行缩放。

在实施例中，该方法包括通过将超向量的估计量整形为时频段矩阵而估计(纯净的)实质上无噪声的时频段S_m的估计量

在实施例中，该方法包括根据两个Kx1向量中的元素的样本相关系数d(a,b)确定中间语音可懂度系数d_m：

其中及

其中k为向量项的指数，K为向量维数。

在实施例中，该方法包括从中间语音可懂度系数d_m将最终语音可懂度预测值d计算为信息信号x随时间的平均(非必须地，通过函数u(d_m)进行变换)：

其中M表示信息信号x的语音活跃部分的时间单元的持续时间。在实施例中，信息信号的语音活跃部分的持续时间定义为已确定信息信号的给定时频段包括语音的(可能累计的)时间段。

(第一)双耳听力系统

一方面，本发明还提供包括左和右上面描述的、“具体实施方式”中详细描述的、图中所示的及权利要求中限定的助听器的(第一)双耳听力系统。

在实施例中，左和右助听器中的每一个包括用于使能在左和右助听器之间建立通信链路并交换信息的天线和收发器电路。

在实施例中，该双耳听力系统还包括双耳语音可懂度预测单元，用于在用户暴露于声音输入时，基于相应的左和右助听器的单耳语音可懂度预测值d_left,d_right，提供预测的用户语音可懂度的最终双耳语音可懂度度量d_binaural。

在实施例中，最终双耳语音可懂度度量d_binaural确定为相应的左和右助听器的语音可懂度预测值d_left,d_right中的最大值：d_binaural＝max(d_left,d_right)。从而，提供相当简单的系统，从而实施更好的耳朵方法。在实施例中，双耳听力系统适于在用户检测到或选择非对称听音情形时启动前述方法，例如在讲话者主要位于佩戴双耳听力系统的用户一侧的情形下，例如当坐在车中时。

在实施例中，左和右助听器的相应的可配置信号处理单元适于基于所述最终双耳语音可懂度度量d_binaural控制或影响相应的电输入信号的处理。在实施例中，左和右助听器的相应的可配置信号处理单元适于控制或影响相应的电输入信号的处理以使所述最终双耳语音可懂度度量d_binaural最大化。

提供双耳语音可懂度预测值的(第一)方法

另一方面，提供一种提供双耳语音可懂度预测值d_binaural的方法，当信息在用户的两只耳朵处接收时，所述预测值用于估计用户理解包括目标语音信号的纯净或有噪声和/或处理后版本的信息信号x的能力。该方法包括在用户的左和右耳的每只耳朵处：

-计算估计信息信号x的可懂度的最终语音可懂度预测值d，其通过随时间组合所述中间语音可懂度系数d_m或其变换版本进行，例如求平均。

藉此，提供相应的左和右耳处的相应最终单耳语音可懂度预测值d_left,d_right。该方法还包括：

-基于相应的左和右耳处的最终单耳语音可懂度预测值d_left,d_right计算最终双耳语音可懂度度量d_binaural。

在实施例中，该方法使得最终双耳语音可懂度度量d_binaural确定为相应的左和右耳的语音可懂度预测值d_left,d_right中的最大值：d_binaural＝max(d_left,d_right)。

提供双耳语音可懂度预测值的(第二)方法

另一方面，提供一种提供双耳语音可懂度预测值d_binaural的方法，当信息在用户的左和右耳处接收时，所述预测值用于估计用户理解包括目标语音信号的纯净或有噪声和/或处理后版本的信息信号x的能力。该方法包括：

a)提供左耳处接收的信息信号x的时频表示x_left,(k,m)，其中k为频率窗口指数，k＝1,2,…,K，及m为时间指数；

b)提供右耳处接收的信息信号x的时频表示x_right,(k,m)，其中k为频率窗口指数，k＝1,2,…,K，及m为时间指数；

c)在每一频带(k)中分别提供时间位移和振幅调节的左和右时频信号x_left’(k,m)和x_right’(k,m)；

d)确定所述左和右时频信号x_left’(k,m)和x_right’(k,m)的、使双耳语音可懂度预测值d_binaural最大化的时间位移和振幅调节。

在实施例中，步骤c)和d)包括：

c)在每一频带(k)中分别提供有系统地时间位移和振幅调节的左和右时频信号x_left’(k,m)和x_right’(k,m)；

d1)使时间位移和振幅调节的左和右时频信号x_left’(k,m)和x_right’(k,m)彼此相减以提供所得的差时频信号x_ec(k,m)；

d2)提取所得的差时频信号x_ec(k,m)的时域包络，从而提供所得的差时频信号的时频子频带表示x_ec,j(m)，j为子频带指数，j＝1,2,…,J，及m为时间指数；

d3)将所得的差时频信号的时频子频带表示x_ec,j(m)分为对应于子频带信号的N个连续样本的时频段X_m；

d4)分别在时频段X_m或者其规格化和/或变换版本之中估计实质上无噪声的时频段S_m或者其规格化和/或变换版本

d5)提供估计所述时频段X_m的可懂度的中间语音可懂度系数d_m，所述中间语音可懂度系数d_m基于估计的实质上无噪声的时频段S_m或者其规格化和/或变换版本及基于时频段X_m或者其规格化和/或变换版本

d6)计算估计信息信号x的可懂度的双耳语音可懂度预测值d_binaural，其通过随时间组合所述中间语音可懂度系数d_m或其变换版本进行，例如求平均；

d7)重复步骤c)-d6)以找到使双耳语音可懂度预测值d_binaural最大化的时间位移和振幅调节。

在实施例中，该方法包括在步骤d)中，最大化的双耳语音可懂度预测值d_binaural通过分析或用数字确定，或者经统计方法确定。

在实施例中，该方法包括识别在用户的左和右耳处接收的信息信号x的给定时段是否或者何种程度地包括或者估计包括语音。识别在用户的左和右耳处接收的信息信号x的给定时段是否或者何种程度地包括或者估计包括语音的步骤可在该方法的步骤a)和b)(频率分解)之前在时域进行。作为备选，其可在频率分解之后进行。优选地，提供双耳语音可懂度预测值d_binaural的方法仅在信息信号的已确定包括语音(例如具有高于某一阈值的概率)的时间段执行。

提供双耳语音可懂度增强的方法

另一方面，本发明还提供在双耳助听器系统中提供双耳语音可懂度增强的方法，所述双耳助听器系统包括位于用户的左和右耳之处或之中或者完全或部分植入在用户头部中的左和右助听器。该方法包括：

a)提供L个(多个)时变电输入信号y’_i，i＝1,…,L，表示在双耳助听器系统的第i个输入单元处接收的声音输入，所述电输入信号y’_i包括目标信号分量和噪声信号分量，所述目标信号分量源自目标信号源，L个时变电输入信号y’_i中的至少一个在用户左耳处接收，及L个时变电输入信号y’_i中的至少另一个在用户右耳处接收；

b)处理所述L个时变电输入信号y’_i并提供处理后的左和右信号u_left,u_right；

c)将随频率而变的听力损失模型应用于处理后的左和右信号u_left,u_right以反映用户的左和右耳的听力曲线与正常听力曲线之间的偏差从而提供左和右信息信号x_left,x_right；

d)根据提供双耳语音可懂度预测值d_binaural的(第二)方法，基于所述左和右信息信号x_left,x_right计算估计所述声音输入的可懂度的双耳语音可懂度预测值d_binaural；

e)调整步骤b中的处理以使双耳语音可懂度预测值d_binaural最大化。

在实施例中，该方法包括分别基于处理后的左和右信号u_left,u_right或者源自其的信号产生输出刺激，所述输出刺激配置成可由用户在左和右耳处感知为声音。

(第二)双耳听力系统

一方面，本发明还提供包括左和右助听器的(第二)双耳听力系统，其配置成执行上面描述的、“具体实施方式”中详细描述的、图中所示的及权利要求中限定的提供双耳语音可懂度增强的方法。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的任一方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

本申请还提供包括指令的计算机程序(产品)，当所述程序由计算机运行时，使得计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的任一方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，本发明提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器及包括辅助装置的听力系统。

在实施例中，该听力系统适于在助听器和辅助装置之间建立通信链路以使信息(如控制和状态信号，可能音频信号)能在其间进行交换或从一装置转发给另一装置。

在实施例中，辅助装置是或包括遥控器，用于控制助听器的功能和运行。在实施例中，遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听器包括到智能电话的适当无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器或听力(助听器)系统的用户接口。在实施例中，该APP配置成在移动电话如智能电话或另一使能与所述助听器或听力系统通信的便携装置上运行。

定义

在本说明书中，“助听器”指适于改善、增强和/或保护用户的听觉能力的装置如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“助听器”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元、或作为整个或部分植入的单元等。助听器可包括单一单元或几个彼此电子通信的单元。

更一般地，助听器包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户的输出装置。在一些助听器中，放大器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合助听器功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些助听器中，输出装置可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中，输出装置可包括一个或多个用于提供电信号的输出电极。

在一些助听器中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些助听器中，振动器可植入在中耳和/或内耳中。在一些助听器中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉皮层和/或大脑皮层的其它部分。

“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与助听器通信并影响和/或受益于助听器的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)、广播系统、汽车音频系统或音乐播放器。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化，这些样本安排在多个时间帧中，每一时间帧包括N_s个样本。

图1B示出了图1A的时变电信号的时频图表示。

图2A象征性地示出了基于信息信号x的时频表示x_j(m)提供单耳语音可懂度预测值d的单耳语音可懂度预测单元。

图2B示出了单耳语音可懂度预测单元的实施例。

图3A示出了单耳语音可懂度预测单元与听力损失模型和评估单元的结合。

图3B示出了单耳语音可懂度预测单元与信号处理单元和评估单元的结合。

图3C示出了单耳语音可懂度预测单元与听力损失模型、信号处理单元和评估单元的第一组合。

图3D示出了单耳语音可懂度预测单元与听力损失模型、信号处理单元和评估单元的第二组合。

图4示出了根据本发明的单耳语音可懂度预测器的实施例。

图5A象征性地示出了双耳语音可懂度预测器与听力损失模型结合。

图5B示出了根据本发明的基于两个单耳语音可懂度预测器的组合的双耳语音可懂度预测器与听力损失模型结合的实施例。

图6示意性地示出了根据本发明的提供非侵入双耳语音可懂度预测值的方法的处理步骤。

图7示意性地示出了提供侵入双耳语音可懂度预测值d_binaural的方法，其用于调整双耳助听器系统的处理以使输出语音信号的可懂度最大化。

图8A示出了根据本发明的助听器的实施例，包括用于估计输出信号的可懂度的单耳语音可懂度预测器及使用该预测器调整输入语音信号的信号处理以使单耳语音可懂度预测值最大化。

图8B示出了根据本发明的双耳助听器系统的第一实施例，包括用于估计双耳助听器系统的相应左和右输出信号的可懂度的双耳语音可懂度预测器及使用该预测器调整包括语音的多个输入信号的双耳信号处理以使双耳语音可懂度预测值最大化。

图8C示出了根据本发明的双耳助听器系统的第二实施例，包括左和右助听器及用于估计相应的左和右助听器的输出信号的可懂度的双耳语音可懂度预测器及使用该预测器调整左和右助听器中的每一个的包括语音的多个输入信号的信号处理以使双耳语音可懂度预测值最大化。

图9示出了形成为耳内接收器式(RITE)助听器的示例性助听器，包括适于位于耳廓后面的部分及适于位于用户耳道中的包括输出变换器(如扬声器/接收器)的部分。

图10A示出了根据本发明的双耳助听器系统，包括第一和第二助听器及辅助装置。

图10B示出了包括用户接口的辅助装置，用户接口为用于控制和显示与语音可懂度预测值有关的数据的APP的形式。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

在本发明中，可懂度预测仅基于有噪声/处理后的信号，在文献中，这样的方法称为非侵入可懂度预测器，例如[1]。非侵入类方法尤其是本发明的方法与许多其它类的方法相反，其它类的方法还需要无噪声和未处理的参考语音信号，因此该类方法称为侵入方法。

本发明的核心在于单耳非侵入可懂度预测方法，换言之，假定由单一传声器拾取的可能通过助听器系统的一些信号处理级的有噪声语音信号，我们希望估计其可懂度。在下面文本的第一部分，我们将提供解决该问题的新的、一般类的方法的延伸描述。

下面，我们将本发明延伸到解决双耳、非侵入可懂度问题。进行该延伸的原因在于使用两只耳朵听声学场景(即双耳)在某些情形下相较仅使用一只耳朵(或将同样的信号呈现给两只耳朵)可能戏剧性地增大可懂度[5]。

最后，我们将本发明进一步延伸到用于单耳或双耳语音可懂度增强。在此解决的问题为下面的问题：假定如由助听器系统的传声器拾取的有噪声/混响的语音信号，处理它们使得它们的可懂度在双耳地呈现给用户时得以提高甚至最大化。

总之，本发明提出下述问题的解决方案：

1、有噪声/处理后的语音信号的单耳、非侵入可懂度预测；

2、有噪声/处理后的语音信号的双耳、非侵入可懂度预测；

3、有噪声语音信号的单耳和双耳可懂度增强。

本发明的很多信号处理在时频域进行，其中时域信号通过适当的数学算法(如傅里叶变换算法)或滤波器(如滤波器组)变换到(时-)频域。

图1A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化，这些样本安排在多个时间帧中，每一时间帧包括N_s个样本。图1A示出了模拟电信号(实线曲线)，例如表示来自传声器的声输入信号，其在模数(AD)转换过程中转换为数字音频信号，在模数转换过程中，模拟信号以预定采样频率或速率f_s进行采样，f_s例如在从8kHz到40kHz的范围中(适应应用的特定需要)，以在离散时间点n提供数字样本x(n)，如从时间轴延伸的在其与所述曲线重合的端点处具有实心点的垂直线所示，表示在对应的不同时间点n的数字样本值。每一(音频)样本x(n)表示通过预定数量(N_b)的比特表示声信号在n的值，N_b例如在从1到16比特的范围中。数字样本x(n)具有1/f_s的时间长度，例如对于f_s＝20kHz，该时间长度为50μs。多个(音频)样本N_s安排在时间帧中，如图1A下部示意性图示的，其中各个(在此均匀间隔的)样本按时间帧分组(1,2,…,N_s)。同样如图1A的下部图示的，时间帧可连续地安排成非重叠(时间帧1,2,…,m,…,M)或重叠(在此为50％，时间帧1,2,…,m,…,M’)，其中m为时间帧指数。在实施例中，一时间帧包括64个音频数据样本。根据实际应用，也可使用其它帧长度。

图1B示意性地示出了图1A的(数字化)时变电信号x(n)的时频表示。该时频表示包括信号的对应复值或实值在特定时间和频率范围的阵列或映射。该时频表示例如可以是将时变输入信号x(n)转换为时频域的(时变)信号x(k,m)的傅里叶变换的结果。在实施例中，傅里叶变换包括离散傅里叶变换算法(DFT)。典型听力装置(如助听器)考虑的从最小频率f_min到最大频率f_max的频率范围包括从20Hz到20kHz的典型人听频范围的一部分，如从20Hz到12kHz的范围的一部分。在图1B中，信号x(n)的时频表示x(k,m)包括信号的量值和/或相位在指数(k,m)确定的多个DFT窗口中的复值，其中k＝1,….,K表示K个频率值(参见图1B中的纵向k轴)，及m＝1,….,M(M’)表示M(M’)个时间帧(参见图1B中的水平m轴)。时间帧由特定时间指数m和对应的K个DFT窗口确定(参见图1B中的时间帧m的指示)。时间帧m表示信号x在时间m的频谱。包括所涉及信号的(实或)复值x(k,m)的DFT窗口(k,m)在图1B中通过时频图中对应场的阴影图示。频率指数k的每一值对应于频率范围Δf_k，如图1B中通过纵向频率轴f指明。时间指数m的每一值表示时间帧。连续时间指数跨越的时间Δt_m取决于时间帧的长度(如25ms)及相邻时间帧之间的重叠程度(参见图1B中的水平t轴)。

在本申请中，定义具有子频带指数j＝1,2,…,J的J个(非均匀)子频带，每一子频带包括一个或多个DFT窗口(参见图1B中的纵向子频带j轴)。第j个子频带(由图1B的右部的子频带j(x_j(m))指明)包括分别具有低和高指数k1(j)和k2(j)的DFT窗口，其分别定义第j个子频带的低和高截止频率。特定时频单元(j,m)由特定时间指数m和DFT窗口指数k1(j)-k2(j)定义，如图1B中通过对应DFT窗口周围的粗框架指明。特定时频单元(j,m)包含第j个子频带信号x_j(m)在时间m的复值或实值。

图2A象征性地示出了基于包括语音的信息信号x的时域版x(n)(n为时间(样本)指数)、时频带表示x(k,m)(k为频率指数，m为时间(帧)指数)或子频带表示x_j(m)(j为子频带指数)提供单耳语音可懂度预测值d的单耳语音可懂度预测单元(MSIP)。

图2B示出了单耳语音可懂度预测单元MSIP的实施例，其适于接收包括目标语音信号的纯净或有噪声和/或处理后的版本的信息信号x(n)，该单耳语音可懂度预测单元配置成将信息信号的语音可懂度预测值d提供为输出。所述语音可懂度预测单元MSIP包括：

-输入单元IU，用于提供信息信号x的时频表示x(k,m)，其中k为频率窗口指数，k＝1,2,…,K，及m为时间(帧)指数；

-包络提取单元AEU，用于从信息信号x的时频表示x(k,m)提供所述信息信号x的时频子频带表示x_j(m)，其表示时域包络或其函数，其中j为子频带指数，j＝1,2,…,J，及m为时间指数；

-时频段分开单元SDU，用于将信息信号x的时频子频带表示x_j(m)分为对应于子频带信号的N个连续样本的时频段X_m；

-非必需的(通过虚线框指明)规格化和/或变换单元N/TU，适于提供时频段X_m的规格化和/或变换版本

-段估计单元SEU，用于分别在时频段X_m或者其规格化和/或变换版本之中估计实质上无噪声的时频段S_m或者其规格化和/或变换版本

-中间语音可懂度计算单元ISIU，适于提供估计所述时频段X_m的可懂度的中间语音可懂度系数d_m，所述中间语音可懂度系数d_m基于估计的实质上无噪声的时频段S_m或者其规格化和/或变换版本及基于时频段X_m或者其规格化和/或变换版本

-最终语音可懂度计算单元FSIU，用于计算估计信息信号x的可懂度的最终语音可懂度预测值d，其通过随时间组合所述中间语音可懂度系数d_m或其变换版本进行，例如求平均或者应用MIN或MAX函数。

图3A示出了单耳语音可懂度预测单元MSIP与听力损失模型HLM和(非必需的)评估单元EVAL的结合。单耳语音可懂度预测单元MSIP估计可懂度指数d，其反映有噪声及可能处理后的语音信号的可懂度。有噪声/混响的语音信号y，其可能已通过一些信号处理装置如助听器(例如参见图3B、3C、3D中的信号处理单元SPU)，被单耳语音可懂度预测单元MSIP考虑进行分析。本发明提出一种算法，其可预测有噪声/处理后的信号的、由具有类似听力曲线的一组听者如正常听力或听力受损听者感知的可懂度。在图3A的实施例中，研究的信号被通过听力损失模型HLM以对受损听觉系统的缺陷建模从而提供信息信号x。这样做是为了模拟因听力损失引起的可懂度潜在降低。存在几种模拟听力损失的方法(例如参见[6])。或许最简单的方法包括向输入信号添加统计上独立的噪声信号，其根据听者的听力图进行谱整形(例如参见[7])。在图3A(和3B、3C、3D)的实施例中，包括评估单元EVAL以评估所得的语音可懂度预测值d。评估单元EVAL例如还可处理语音可懂度预测值d，例如以通过图形和/或用数字显示当前值和/或最近的历史值、演变趋势等。作为备选或另外，评估单元可向用户(或通信伙伴或护理人员)建议行动，如添加方向性、移动到更靠近、讲得更大声、启动SI增强模式等。评估单元例如可实施在单独的装置中，例如用作到语音可懂度远程单元MSIP和/或到包括前述单元的助听器的用户接口，例如实施为遥控装置，例如实施为智能电话的APP(参见图10A、10B)。

图3B示出了单耳语音可懂度预测单元MSIP与信号处理单元SPU和(非必需的)评估单元EVAL的结合。有噪声/回响的语音信号y被通过信号处理单元SPU，其处理后的输出信号x用作单耳语音可懂度预测单元MSIP的输入从而提供所得的语音可懂度预测值d，其馈给评估单元EVAL进行进一步的处理、分析和/或显示。

图3C示出了单耳语音可懂度预测单元MSIP与听力损失模型HLM、信号处理单元SPU和(非必需的)评估单元EVAL的第一组合。包括语音的有噪声信号y被通过听力损失模型HLM以对受损听觉系统的缺陷建模，从而提供有噪声的听力损失成形信号x，其通过信号处理单元SPU，其处理后的输出信号x用作单耳语音可懂度预测单元MSIP的输入。MSIP单元提供所得的语音可懂度预测值d，其馈给评估单元EVAL进行进一步的处理、分析和/或显示。

图3D示出了单耳语音可懂度预测单元MSIP与听力损失模型HLM、信号处理单元SPU和(非必需的)评估单元EVAL的第二组合。图3D的实施例与图3C的实施例类似，但两个单元HLM和SPU的顺序颠倒。图3D的实施例可反映助听器中用于评估来自信号处理单元SPU的处理后的信号u(例如计划呈现给用户)的可懂度的设置。包括语音的有噪声信号y被通过信号处理单元SPU，其处理后的输出信号u通过听力损失模型HLM以对受损听觉系统的缺陷建模，从而提供有噪声的听力损失成形信号x，其由单耳语音可懂度预测单元MSIP用于确定所得的语音可懂度预测值d，该值馈给评估单元EVAL进行进一步的处理、分析和/或显示。

图4示出了根据本发明的单耳语音可懂度预测单元MSIP的实施例。图4中所示的单耳语音可懂度预测器实施例分解为多个子单元(例如表示对应方法的分开的任务)。每一子单元(处理步骤)在下面更详细地进行描述。用虚线轮廓进行符号表示的子单元(处理步骤)并非必不可少。

话音活动检测

语音可懂度(SI)与输入信号的具有语音活动的区域有关，无声区域对SI没有作用。因此，在本发明的一些实现中，第一步骤是检测输入信号中的话音活动区域(在其它实现中，话音活动检测在算法随后的级暗中进行)。明确的话音活动检测可以一系列现有算法中的任何算法进行，例如[8,9]或其中引用的文献。我们将具有语音活动的输入信号记为x'(n)，其中n为离散时间指数。

频率分解和包络提取

第一步骤是进行信号的频率分解。这可以许多方式实现，例如使用短时傅里叶变换(STFT)、带通滤波器组(例如γ单音滤波器组)等。随后，提取每一子频带信号的时域包络。这例如可使用希尔伯特变换或通过对复值STFT信号的量值进行低通滤波等实现。

作为例子，下面我们描述频率分解和包络提取可怎样使用STFT实现。假定采样频率为10000Hz。首先，时频表示通过将x'(n)分段为(如50％)重叠窗口帧获得；通常，使用一些锥形窗口如汉宁(Hanning)窗口。当样本速率为10000Hz时，窗口长度例如可以是256个样本。之后，每一帧使用快速傅里叶变换(FFT)(可能在适当的补零之后)进行傅里叶变换。所得的DFT窗口(bin)可按感知有关的子频带分组。例如，可使用三分之一倍频带(例如，如[4]中所述)，但显而易见的是，可使用任何其它子频带划分(例如，分组可均匀，即与感知无关)。在三分之一倍频带和10000Hz的采样速率情形下，有15个频带，其覆盖150-5000Hz的频率范围(例如参见[4])。也可使用其它数量的频带及另一频率范围。我们将这些帧和子频带定义的时频瓦(tile)称为时频(TF)单元(或STFT系数)。将其应用于有噪声/处理后的输入信号x(n)导致(通常复值的)STFT系数x(k,m)，其中k和m分别指频率和帧(时间)指数。之后，时域包络信号可提取为

j＝1,...J,及m＝1,...M,

其中k1(j)和k2(j)指对应于第j个子频带的低和高截止频率的DFT窗口指数，J为子频带的数量，及M为所涉及信号中的信号帧的数量，及其中为了通用性包括函数f(·)＝f(w)(w表示)。在实施例中，x_j(m)为实数(即f(·)表示实数(非复数)函数)。例如，对于f(w)＝w，我们用f(w)＝w²得到[4]中使用的时域包络，我们提取功率包络，及用f(w)＝2·log w或f(w)＝w^β,0<β<2，我们可对健康耳蜗的压缩非线性进行建模(例如参见[10,11])。显然，f(w)存在其它合理的选择。

如所提及的，可实施其它包络表示，例如使用γ单音滤波器组，其后为希尔伯特包络提取器等，及函数f(w)可以与上面结合基于STFT的包络描述的方式类似的方式应用于这些包络。在任何情形下，该程序的结果从子频带时域包络方面来说为时频表示x_j(m)，其中j为子频带指数，m为时间指数(例如参见图1B)。

时频段

接下来，我们将时频表示x_j(m)分为对应于所有子频带信号的N个连续样本的段即声谱图。例如，第m个段由J×N矩阵定义：

应当理解，可使用其它版本的时段，例如时间已位移从而对帧指数m-N/2+1到m+N/2产生作用的段，其以帧指数m的当前值为中心。

时频段的规格化和变换

每一段X_m的行和列可以多种不同的方式进行规格化/变换。

具体地，我们考虑下面的行规格化/变换：

-行规格化为零平均值：

-行规格化为单位范数：

g₂(X)＝D^r(X)X,

其中在此，X(j,:)指X的第j'行，使得D^r(X)为J×J对角线矩阵，在主对角线上每一行具有反范数及在别处为零(上标H指厄米变换)。自左乘以D^r(X)使得所得矩阵的行规格化为单位范数；

-对每一行应用傅里叶变换

g₃(X)＝XF,

其中F为N×N傅里叶矩阵；

-对每一行应用傅里叶变换，之后计算所得复值元素的量值

g₄(X)＝|XF|

其中|·|计算逐元素量值；

-单位算子

g₅(X)＝X

我们还考虑下面的列规格化：

-列规格化为零平均值：

-列规格化为单位范数：

h₂(X)＝XD^c(X),

其中在此，X(:,n)指X的第n行，使得D^c(X)为N×N对角线矩阵，在主对角线上的每一列具有反范数及在别处为零，自右乘以D^c(X)使得所得矩阵的列规格化为单位范数。

上面列出的行和列规格化/变换可以不同的方式组合。

特别感兴趣的一种组合是，首先，行规格化为零平均值和单位范数，其后进行列的类似平均值和范数规格化。该特定组合可写为：

其中，为所得的行和列正规化矩阵。

另一感兴趣的变换为对矩阵X_m的每一行应用傅里叶变换。使用引入的记法，这可简单地写为：

其中，为所得的(复值)J×N矩阵。

这些规格化/变换的其它组合也可能感兴趣，例如(列的平均值和范数标准化，其后为行的平均值和范数标准化)，(傅里叶变换后的行的平均值和范数标准化)，其完全避开规格化级等。

另一组合是提供所述时频段S_m和X_m的行的至少一规格化和/或变换操作及列的至少一规格化和/或变换操作。

无噪声时频段的估计

下一步骤涉及潜在无噪声规格化/变换的时频段的估计。显然，在实践中不能观察该矩阵，因为只有矩阵中的有噪声/处理后的规格化/变换的时频段可得到。这样，我们基于估计

为此，我们通过堆放矩阵的列定义J·N×1超向量即

类似地，我们将对应的无噪声/未处理的超向量定义为

现在的目标在于基于推导的估计量即

其中r(.)为将J·N×1有噪声超向量映射到无噪声J·N×1超向量的估计量的估计器。

基于有关但失真的观察估计不可观察的目标向量的问题是许多工程学环境中众所周知的问题，及有许多方法可用于解决该问题。这些方法包括(但不限于)基于神经网络的方法，例如其中映射r(.)被预先离线估计，例如使用监督学习技术；贝叶斯技术，例如其中的联合概率密度函数离线估计并用于提供的估计量，这些估计量在一些统计意义上最佳，例如在最小均方误差(mmse)、最大后验(MAP)或最大概似(ML)意义上等；

特别简单的一类解决方案涉及在观察数据中呈线性的映射r(.)。在该类解决方案中，我们从中的项的线性组合形成对应的无噪声J·N×1超向量的线性估计量即

其中G为预先估计的J·N×J·N矩阵(例如参见下面可怎样找到G的例子)。最后，通过简单地将超向量估计量整形为时频段矩阵，估计量被发现属于纯净的规格化/变换的段，

其中，指由向量的具有指数r-q的项组成的向量。

中间可懂度系数的估计

估计的规格化/变换的时频段现在可与对应的有噪声/处理后的段一起用于计算中间可懂度指数d_m，其反映信号段的可懂度。为实现此，我们首先定义两个K×1向量a和b中的元素的样本相关系数d(a,b)：

其中及

对于计算中间可懂度指数d_m，存在几个选择。具体地，d_m可定义为

1)和中的列的平均样本相关系数，即

或者

2)和中的行的平均样本相关系数，即

或者

3)和中的所有元素的样本相关系数，即

作为备选，有噪声/处理后的段及潜在纯净段的对应估计量可用于产生无噪声、未处理的语音信号的估计量，其可与有噪声、处理后的信号一起用作任何现有侵入可懂度预测方案的输入，例如STOI算法(例如参见[4])。

最终可懂度系数的估计

最终可懂度系数d(其反映有噪声/处理后的输入信号x(n)的可懂度)定义为跨的语音活跃部分x(n)的持续时间的中间可懂度系数的平均值，可能经函数u(d_m)变换，即

函数u(d_m)例如可以是以将中间可懂度系数与信息度量联系起来(例如参见[14])，但显然存在其它选择。

如STOI算法中已经那样做的，也可使用“无为”函数u(d_m)＝d_m(参见[4])。

线性映射的预计算

如上面概述的，存在许多方法基于有噪声/处理后的(非必须地，规格化/变换的)超向量估计无噪声(可能规格化/变换的)超向量在该部分，为证明本发明的特别简单的实现，我们将注意力限制到线性估计器，即的估计量被发现为中的项的适当线性组合。任何这样的线性组合可简洁地写为

其中G为预估计的J·N×J·N矩阵。总的来说，J和N可根据所涉及的应用进行选择。N优选可为了人发音系统的特性进行选择。在实施例中，选择N，使得N个(可能重叠的)时间帧跨越的时间在从50ms或100ms到1s的范围中，例如在300ms和600ms之间。在实施例中，选择N以表示所涉及语言的基本语音元素的(平均或最大)持续时间。在实施例中，选择N以表示所涉及语言的音节(或词)的(平均或最大)持续时间。在实施例中，J＝15。在实施例中，N＝30。在实施例中，J·N＝450。在实施例中，时间帧具有10ms或更大的持续时间，例如25ms或更大，例如40ms或更大(例如取决于重叠程度)。在实施例中，时间帧具有在10ms和40ms之间的范围中的持续时间。

如下面更详细描述的，矩阵G使用无噪声语音信号的训练集预先估计(即，离线，在应用所提出的方法或装置之前)。我们可将G认为是将语音信号的统计结构的先验知识置入估计过程中的方式。该方法存在许多变体。在下面，描述其中之一。这种方法具有计算相当简单的优点，因此很适合其中功耗是重要设计参数(限制)的应用(如便携式电子装置，例如助听器)。

为了方便，假定所有无噪声训练语音信号级联为(可能非常长的)训练语音信号z(n)。假定上述找到有噪声超向量的步骤应用于该训练语音信号z(n)。换言之，z(n)经历话音活动检测，样本收集到时频段矩阵内，将g_i(X)、h_i(X)形式的适宜规格化/变换应用于该矩阵，及将所得矩阵的列堆放为超向量其中指整个无噪声语音训练集中的段的总数。

我们将跨训练集的J·N×J·N样本相关矩阵计算为

及计算该矩阵的本征值分解，

最后，将特征向量矩阵分为两个子矩阵：

其中，为具有对应于L<J·N主本征值的特征向量的J·N×L矩阵，及具有其余特征向量作为列。作为例子，L/(J·N)可小于80％，如小于50％，如小于33％，如小于20％，或小于10％。在上面的J·N＝450例子中，L例如可以为100(导致为450x100矩阵(主子空间)，及为450x350矩阵(次子空间))。

之后，(J·NxJ·N)矩阵G可计算为：

该例子的矩阵G可被认为正交投影算子(例如参见[12])。在该情形下，形成估计量简单地将有噪声/处理后的超向量正交地投影在由中的列跨越的线性子空间上。

双耳非侵入可懂度预测

原则上，当听者用一只耳朵听时，上面提出的单耳非侵入可懂度预测器类方法能够预测语音信号的可懂度。当用两只耳朵听时，在这已经能给出可实现的可懂度的良好指示的同时，存在双耳听比用一只耳朵听有利得多的声学情形(例如参见[5])。为考虑该效果，提出第一双耳非侵入语音可懂度预测值d_binaural(例如取-1和1之间的值)。上面描述的单耳可懂度预测值用作所提出的第一双耳可懂度预测值的基础。

图5A示出了所提出的双耳可懂度预测器的一般框图。图5A示出了第一双耳语音可懂度预测器与听力损失模型结合。双耳语音可懂度预测器BSIP估计可懂度指数d_binaural，其反映听两个有噪声及可能处理后的包括语音x_left和x_right(分别呈现给听者的左和右耳)的信息信号的听者的可懂度。非必须地，包括语音的(有噪声和/或处理后的)双耳信号y_left和y_right首先通过双耳听力损失模型BHLM以对受损听觉系统的缺陷进行建模，从而提供有噪声和/或处理后的听力损失成形信号x_left和x_right供双耳语音可懂度预测器BSIP使用。

对于单耳情形，可能的听力损失可通过简单地向输入信号添加独立的噪声、根据听者的听力图谱整形而进行建模，该方法例如在[7]中使用。

好耳非侵入双耳可懂度预测

双耳语音可懂度预测的简单方法是将上面描述的单耳模型独立地应用于左和右耳输入信号x_left和x_right，分别导致可懂度指数d_left和d_right。假定听者能够精神上适应具有最好可懂度的耳朵，所得的好耳可懂度预测值d_binaural由下式给出：

d_binaural＝max(d_left,d_right)。

该方法的框图在图5B中给出。

图5B示出了基于两个单耳语音可懂度预测器的组合的双耳语音可懂度预测器与听力损失模型结合的实施例。图5B示出了用于确定好耳非侵入双耳可懂度预测值d_binaural的处理步骤。连同图5A的线路，图5B示出了包括语音的有噪声和/或处理后的双耳信号y_left和y_right(在左和右单耳语音可懂度预测器的每一个中)，其通过左和右耳的相应听力损失模型HLM，从而提供有噪声和/或处理后的听力损失成形信号x_left和x_right。左和右耳的听力损失模型HLM一起可构成或形成图5A的双耳听力损失模型BHLM的一部分。左和右信息信号x_left和x_right分别由左和右耳的单耳语音可懂度预测器MSIP使用，以提供左和右(单耳)语音可懂度预测值d_left和d_right。左和右语音可懂度预测值d_left和d_right的最大值由计算单元max确定并用作双耳可懂度预测值d_binaural。左和右耳的单耳语音可懂度预测器MSIP及计算单元max一起可构成或形成图5A的双耳语音可懂度预测器BSIP的一部分。

一般的非侵入双耳可懂度预测

在上面描述的好耳可懂度预测方法将在宽范围的声学情形很好地工作的同时(例如参见[5]针对双耳可懂度的讨论)，有太简单的声学情形。为此，我们提出将上面概述的单耳侵入可懂度预测器的步骤与来自[13]中描述的双耳侵入可懂度预测器的想法结合以得到一般的、新的非侵入双耳可懂度预测器。

所提出的非侵入双耳可懂度预测器的处理步骤在图6中图示。图6中的各个处理模块与上面提出的单耳非侵入语音可懂度预测器中使用的模块(图4)一样，除均衡-抵消级EC(如图6中用粗线框指明)之外。另一方面，该级在[13]中完整地描述。在下面，简要概述EC级。对于其详细情况，参见[13]及其中的引用文献。

EC级独立地作用于不同的子频带(因此，频率分解级在EC级的前面)。在每一子频带(指数j)中，EC级对(来自左和右耳的)输入信号进行时间位移并调节其振幅以找到导致最大预测可懂度(在图5中，d_binaural，因此，从模型的输出引回到EC级的粗虚线箭头)的时间位移和振幅调节。在实施例中，d_binaural在每一频带中最大化，藉此可提供所得的双耳语音可懂度预测值，例如提供为单一标量值。总的来说，对于最佳的时间位移/振幅调节，存在非封闭形式的解决方案，但最佳的参数对可至少通过跨适当范围的参数值强力搜索而找到(对于前述穷举搜索方法的细节，参见[13])。

使用可懂度预测器的单耳和双耳可懂度增强

上面部分提出的非侵入单耳和双耳语音可懂度预测方法可用于助听器系统(或另一通信装置)中发生的信号处理的在线调整，以使其输出的语音可懂度最大化。该一般的想法在图7中针对双耳设置示出：有噪声/回响信号y₁(n),...,y_L(n)由总共L个传声器拾取。

图7示出了提供侵入双耳语音可懂度预测值d_binaural的方法，其用于调整双耳助听器系统的处理以使输出语音信号的可懂度最大化。

在双耳设置情形下，L个传声器信号y’₁,y’₂,…,y’_L在双耳信号处理单元BSPU中进行处理以产生左和右耳信号u_left和u_right，例如呈现给用户。在图7中，助听器系统的所有L个传声器一起，一个或多个传声器通常可分别从左和右耳助听器得到，但传声器信号也可从外部装置例如桌上传声器、位于目标讲话者身上的传声器等得到。来自空间上分开的位置的传声器信号假定无线(或有线)传输以在助听器系统中处理。当双耳听左和右耳信号u_left和u_right时，为估计用户体验的可懂度，这些信号被通过上面提出的双耳可懂度模型BSIP，其中双耳听力损失模型BHLM(参见上面的一些细节)并非必不可少。所得的估计的可懂度指数d_binaural返回给助听器系统的处理单元BSPU，其调整相应信号处理算法的参数以使d_binaural最大化。

处理的调整可按下述发生。我们假定，助听器系统具有供其使用的多个处理方案，这些方案适合特定声学情形。例如，在有噪声语音情形下，助听器系统可能配备三个不同的降噪方案：温和、中等和激进。在该情形下，助听器系统(例如相继)将每一降噪方案应用于输入信号并选择导致最大(估计的)可懂度的降噪方案。助听器用户不需要遭受助听器系统“试用”处理方案的感知烦恼。具体地，助听器系统可“内部地”试用处理方案，即不会通过扬声器呈现每一试用的处理方案的结果，只有具有最大(估计的)可懂度的输出信号需要呈现给用户。

显然，该过程也可更详细程度地应用。具体地，甚至助听器系统中单一参数的值如降噪系统在特定频带的最大衰减可通过试验多个候选值并选择导致最大(估计的)可懂度的值而关于可懂度进行优化。

使用非侵入语音可懂度预测器用于语音可懂度增强的想法已在一般双耳模型上下文中描述。显然，针对上面描述的好耳非侵入可懂度模型，或者针对使用单耳非侵入可懂度模型的单耳听音情形，可执行完全一样的想法。这些方面在下面进一步结合图8A、8B和8C进行描述。

图8A示出了根据本发明的助听器HD的实施例，其包括用于估计输出信号u的可懂度的单耳语音可懂度预测单元MSIP及使用该预测单元调整输入语音信号y’的信号处理以使单耳语音可懂度预测值d最大化。助听器HD包括至少一输入单元(在此为传声器，例如两个以上)。传声器提供表示在其处接收的声音输入y的时变电输入信号y’。该电输入信号y’假定包括目标信号分量和噪声信号分量(至少在部分时段)。目标信号分量源自目标信号源，例如人讲话。助听器还包括可配置的信号处理单元SPU，用于处理电输入信号y’并提供处理后的信号u。助听器还包括输出单元，用于基于来自信号处理单元的处理后的信号u或源自其的信号形式的电输出产生配置成可由用户感知为声音的输出刺激。在图8A的实施例中，扬声器直接连接到信号处理单元SPU的输出，因而接收输出信号u。助听器还包括听力损失模型单元HLM，其连接到单耳语音可懂度预测单元MSIP和信号处理单元的输出，并配置成修改电输出信号u从而反映用户的相应耳朵的听力受损以向单耳语音可懂度预测单元MSIP提供信息信号x。单耳语音可懂度预测单元MSIP提供用户对输出信号的可懂度的估计量，其为(最终)语音可懂度预测值d的形式，其馈给可配置的信号处理单元的控制单元以修改信号处理从而优化d。

图8B示出了根据本发明的双耳助听器系统的第一实施例，包括用于估计用户在被呈现双耳助听器系统的相应左和右输出信号u_left和u_right时其感知的可懂度的双耳语音可懂度预测单元BSIP，及使用预测值d_binaural调整包括语音的输入信号y’_left和y’_right的双耳信号处理单元BSPU以使双耳语音可懂度预测值d_binaural最大化。这通过将输出信号u_left和u_right经相应输出单元(在此为扬声器)呈现给用户进行。

双耳听力损失模型对用户的(受损)听觉系统建模，将所得的左和右信号x_left和x_right呈现给双耳语音可懂度预测单元BSIP。可配置的双耳信号处理单元适于基于最终双耳语音可懂度度量d_binaural控制相应电输入信号y’_left和y’_right的处理以优化所述度量，从而使用户对输入声音信号y_left和y_right的可懂度最大化。

图8B的双耳助听器系统的更详细的实施例如图8C中所示。图8C示出了根据本发明的包括左和右助听器HD_left,HD_right的双耳听力系统的实施例。左和右助听器HD_left,HD_right适于位于用户的左和右耳之处或之中。左和右助听器中的每一个的信号处理由助听器用户体验的语音可懂度的估计量(双耳语音可懂度预测值d_binaural)(参见从双耳语音可懂度预测器BSIP到左和右助听器的相应信号处理单元SPU的控制信号d_binaural)引导。双耳语音可懂度预测单元BSIP配置成将左和右助听器的由用户的相应左和右耳的听力损失模型(在图8C中分别为HLM_left,HLM_right)修改(以对用户的受损听觉系统的缺陷建模)的输出信号u_left,u_right取为输入。在该例子中，语音可懂度估计/预测在左耳助听器(左耳：HD_left)中发生。右耳助听器(右耳：HD_right)的输出信号u_right经通信链路传给左耳助听器。通信链路可基于有线或无线连接。助听器优选无线连接。

助听器HD_left,HD_right中的每一个包括两个传声器、信号处理模块SPU和扬声器。另外，一个或两个助听器包括双耳语音可懂度单元BSIP。左和右助听器HD_left,HD_right的每一个的两个传声器中的每一个拾取可能有噪声的(时变)信号y(t)(参见图8C中的y_1,left,y_2,left和y_1,right,y_2,right)，其通常由目标信号分量s(t)(参见图8C中的s_1,left,s_2,left和s_1,right,s_2,right)和不想要的信号分量v(t)(参见图8C中的v_1,left,v_2,left和v_1,right,v_2,right)组成。在图8C中，下标1、2分别指第一和第二(如前和后)传声器，而下标left、right指其是左耳还是右耳助听器(分别为HD_left,HD_right)。

基于双耳语音可懂度预测值d_binaural，每一助听器的信号处理单元SPU可(个别地)进行调整(参见控制信号d_binaural)。由于双耳语音可懂度预测值在左耳助听器HD_left中确定，右耳助听器HD_right中的处理的调整需要将经通信链路从左耳助听器传到右耳助听器的控制信号d_binaural。

在图8C中，左和右助听器中的每一个包括两个传声器。在其它实施例中，每一助听器(或者助听器之一)可包括三个以上传声器。同样，在图8C中，双耳语音可懂度预测器BSIP位于左助听器HD_left中。作为备选，双耳语音可懂度预测器BSIP可位于右助听器HD_right中，或者作为备选，位于两个助听器中，优选在每一助听器中执行一样的功能。后一实施方式消耗更多的功率并需要输出音频信号u_left,u_right的双向交换，而可省略处理控制信号(图8C中的d_binaural)的交换。在又一实施例中，双耳语音可懂度预测单元BSIP位于单独的辅助装置如遥控器(例如体现在智能电话中)中，要求控制助听器和辅助装置之间建立音频链路以从相应助听器接收输出信号u_left,u_right及将处理控制信号d_binaural传给相应助听器HD_left,HD_right。

原则上，信号处理单元SPU中进行的并受来自双耳语音可懂度预测器BSIP的相应左和右助听器HD_left,HD_right的控制信号d_binaural控制或影响的处理可包括影响语音可懂度的任何处理算法，例如空间滤波(波束形成)和降噪、压缩、反馈抵消等。助听器的信号处理的基于估计的双耳语音可懂度预测值的调整包括(但不限于)：

1、调整听力系统的波束形成器的进攻性。具体地，对于双耳波束形成器，众所周知，波束形成器配置涉及降噪和噪声线索的空间正确性之间的平衡。在一极端设置中，噪声被最大程度地减小，但所有噪声信号听起来就像源自目标信号源的方向似的。导致最大SI的平衡通常时变且通常未知。然而，使用所提出的方法，可能调整给定助听器的波束形成器级以始终产生最大SI。

2、调整(单通道(SC))降噪系统的进攻性。通常，波束形成器级之后为SC降噪级(例如参见图6)。SC降噪滤波器的进攻性可调整(例如通过改变SC降噪滤波器允许的最大衰减)。所提出的方法使能选择SI最佳平衡，即抑制适当量的噪声但不在目标语音信号中引入SI干扰人为现象的系统。

3、对于具有可调整的分析/合成滤波器组的系统，可选择导致最大SI的分析/合成滤波器组。这意味着改变时频分块，即各个子频带中使用的带宽和/或采样速率，以根据目标信号和声学情形(如噪声类型、电平、空间分布等)传送最大SI。

4、如果双耳语音可懂度预测单元估计双耳听力系统的最大SI太低从而对用户没用，则向用户给出HA系统在给定声学条件下不能起作用的指示(如经声音信号)。之后，可调整其处理，例如以至少不引起声音质量降级，或者进入“节能”模式，其中信号处理被限制以节能。

图9示出了形成为耳内接收器式(RITE)助听器的示例性助听器HD，包括适于位于耳廓后面的部分BTE及适于位于用户耳道中的包括输出变换器OT(如扬声器/接收器)的部分ITE。BTE部分和ITE部分通过连接元件IC进行连接(如电连接)。在图9的助听器实施例中，BTE部分包括输入单元，其包括两个(可个别选择的)输入变换器(如传声器)MIC₁,MIC₂，每一输入变换器提供表示输入声音信号的电输入音频信号。输入单元还包括两个(可个别选择的)无线接收器WLR₁,WLR₂，用于提供相应的直接接收的辅助音频和/或信息信号。助听器HA还包括其上安装多个电子元件的衬底SUB，包括上面结合图8A所述的可配置的信号处理单元SPU、单耳语音可懂度预测单元MSIP及听力损失模型单元(经电导体Wx彼此连接及连接到输入和输出单元)。可配置的信号处理单元SPU提供增强的音频信号(例如参见图8A中的信号u)，其计划呈现给用户。在图9的助听器装置实施例中，ITE部分包括扬声器(接收器)形式的输出单元OT，用于将电信号(如图8A中的u)转换为声信号。ITE部分还包括引导元件如圆顶DO，用于引导并将ITE部分定位在用户耳道中。

图9中例示的助听器HD为便携装置，及还包括用于对BTE部分和ITE部分的电子元件供电的电池BAT。

助听器装置包括用于提供表示声音的电输入信号的输入单元。该输入单元包括一个或多个用于将输入声音转换为电输入信号的输入变换器(如传声器)MIC₁,MIC₂。该输入单元包括一个或多个无线接收器WLR₁,WLR₂，用于接收(可能及传输)包括声音的无线信号并提供对应的直接接收的辅助音频输入信号。在实施例中，助听器装置包括定向传声器系统(波束形成器)，其适于增强佩戴助听器装置的用户的局部环境中的多个声源之中的目标声源。在实施例中，所述定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。

图9的助听器可形成根据本发明的助听器和/或双耳助听器系统的一部分。

图10A示出了双耳听力系统的实施例，包括左和右助听器HD_left,HD_right与用作双耳助听器系统的用户接口UI(参见图10B)的便携(手持)辅助装置AD通信。在实施例中，双耳听力系统包括辅助装置Aux(及用户接口UI)。在图10A的实施例中，指明了记为IA-WL(如左和右助听器之间的感应链路)和WL-RF(如分别在辅助装置Aux和左助听器HD_left之间及辅助装置Aux和右助听器HD_right之间的RF链路(如蓝牙))的无线链路(通过对应的天线和收发器电路实施在装置中，在图10A中在左和右助听器中分别指示为RF-IA-Rx/Tx-l和RF-IA-Rx/Tx-r)。

图10B示出了包括用户接口UI的辅助装置Aux，用户接口为用于控制和显示与语音可懂度预测器有关的数据的APP的形式。用户接口UI包括显示器(如触敏显示器)，显示用于控制助听器系统的语音可懂度SI-APP的屏幕及关于双耳(或单耳)听力系统的功能的多个预定行动。在例示APP(的一部分)中，用户U具有经将SI预测模式选择为单耳SIP或双耳SIP模式而影响运行模式的选择。在图10B所示的屏幕中，选择无光度的按钮，即双耳SIP。此外，显现SI估计量已被启动，导致双耳语音可懂度预测值的当前预测值d_binaural＝85％被显示。可选择灰度按钮“单耳SIP”代替双耳SIP。此外，可选择SI增强模式以启动输入信号的、优化(单耳或双耳)语音可懂度预测值的处理。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

[1]T.H.Falk,V.Parsa,J.F.Santos,K.Arehart,O.Hazrati,R.Huber,J.M.Kates,and S.Scollie,“Objective Quality and Intelligibility Prediction for Users ofAssistive Listening Devices,”IEEE Signal Processing Magazine,Vol.32,No.2,pp.114-124,March 2015.

[2]American National Standards Institute,“ANSI S3.5,Methods for theCalculation of the Speech Intelligibility Index,”New York 1995.

[3]K.S.Rhebergen and N.J.Versfeld,“A speech intelligibility indexbased approach to predict the speech reception threshold for sentences influctuating noise for normal-hearing listeners,”J.Acoust.Soc.Am.,vol.117,no.4,pp.2181-2192,2005.

[4]C.H.Taal,R.C.Hendriks,R.Heusdens,and J.Jensen,“An Algorithm forIntelligibility Prediction of Time-Frequency Weighted Noisy Speech,”IEEETrans.Audio,Speech,Lang.Process.,vol.19,no.7,pp.2125-2136,Sept.2011.

[5]A.W.Bronkhorst,“The cocktail party phenomenon:A review on speechintelligibility in multiple-talker conditions,”Acta Acustica United withAcustica,vol.86,no.1,pp.117-128,Jan 2000.

[6]B.C.J.Moore,“Cochlear Hearing Loss,”Physiological,Psychologicaland Technical Issues,“Wiley,2007.

[7]R.Beutelmann and T.Brand,“Prediction of intelligibility in spatialnoise and reverberation for normal-hearing and hearing-impaired listeners,”J.Acoust.Soc.Am.,Vol.120,no.1,pp.331-342,April 2006.

[8]J.R.Deller,J.G.Proakis,and J.H.L.Hansen,“Discrete-Time Processingof Speech Signals,”IEEE Press,2000.

[9]P.C.Loizou,“Speech Enhancement–Theory and Practice,”CRC Press,2007.

[10]T.Dau,D Püschel,and A.Kohlraush,“A quantitative model of the“effective”signal processing in the auditory system.I.Model structure,”J.Acoust.Soc.Am.,Vol.99,no.6,pp.3615—3622,1996.

[11]J.Jensen and Z.-H.Tan,“Minimum Mean-Square Error Estimation ofMel-Frequency Cepstral Features-A Theoretically Consistent Approach,”IEEETrans.Audio,Speech,Language Process.,Vol.23,No.1,pp.186-197,2015.

[12]Y.Ephraim and H.L.Van Trees,“A signal subspace approach forspeech enhancement,”IEEE Trans.Speech,Audio Proc.,vol.3,no.4,pp.251-266,1995.

[13]A.H.Andersen,J.M.de Haan,Z.-H.Tan,and J.Jensen,”A method forpredicting the intelligibility of noisy and non-linearly enhanced binauralspeech,”Proc.Int.Conf.Acoust.,Speech,Signal Processing(ICASSP),pp.4995-4999,March2016.

[14]J.Jensen and C.H.Taal,“Speech Intelligibility Prediction based onMutual Information,”IEEE Trans.Audio,Speech,and Language Processing,vol.22,no.2,Feb.2014,pp.430-440.

Claims

1.一种单耳语音可懂度预测单元，其适于接收包括目标语音信号的纯净或有噪声和/或处理后版本的信息信号x，所述单耳语音可懂度预测单元配置成将所述信息信号的语音可懂度预测值d提供为输出，所述语音可懂度预测单元包括：

a)输入单元，用于提供所述信息信号x的时频表示x(k,m)，k为频率窗口指数，k＝1,2,…,K，及m为时间指数；

b)包络提取单元，用于提供所述信息信号x的时频子频带表示x_j(m)，其表示所述信息信号x的子频带信号x_j(m)的时域包络或其函数，其中j为子频带指数，j＝1,2,…,J，及m为时间指数；

c)时频段分开单元，用于将所述信息信号x的所述时频子频带表示x_j(m)分为对应于所述子频带信号的N个连续样本的时频段X_m；

d)段估计单元，用于分别在时频段X_m或者其规格化和/或变换版本之中估计实质上无噪声的时频段S_m或者其规格化和/或变换版本

e)中间语音可懂度计算单元，适于提供估计所述时频段X_m的可懂度的中间语音可懂度系数d_m，所述中间语音可懂度系数d_m基于估计的实质上无噪声的时频段S_m或者其规格化和/或变换版本及基于时频段X_m或者其规格化和/或变换版本

f)最终语音可懂度计算单元，用于计算估计所述信息信号x的可懂度的最终语音可懂度预测值d，其通过随时间组合所述中间语音可懂度系数d_m或其变换版本进行。

2.根据权利要求1所述的单耳语音可懂度预测单元，包括规格化和变换单元，其配置成提供所述时频段S_m和X_m的行的至少一规格化和/或变换运算及列的至少一规格化和/或变换运算。

3.根据权利要求1或2所述的单耳语音可懂度预测单元，包括规格化和变换单元，其配置成提供所述时频段S_m和X_m的行和列的规格化和/或变换，其中行的规格化和/或变换包括至少一下述运算：R1)行的均值规格化；R2)行的单位范数规格化；R3)行的傅里叶变换；R4)提供行的傅里叶量值谱；及R5)提供恒等运算；及其中列的规格化和/或变换包括至少一下述运算：C1)列的均值规格化；及C2)列的单位范数规格化。

4.根据权利要求2所述的单耳语音可懂度预测单元，包括适于提供所述时频段X_m的规格化和/或变换版本的规格化和/或变换单元，其中所述规格化和/或变换单元配置成将下述算法的一个或多个应用于时频段X_m：

-R1)行规格化为零平均值：

-R2)行规格化为单位范数：

g₂(X)＝D^r(X)X,

其中及其中X(j,:)指X的第j'行，使得D^r(X)为J×J对角线矩阵，在主对角线上的每一行具有反范数及在别处为零，上标H指厄米变换，自左乘以D^r(X)使得所得矩阵的行规格化为单位范数；

-R3)对每一行应用傅里叶变换

g₃(X)＝XF,

其中F为N×N傅里叶矩阵；

-R4)对每一行应用傅里叶变换，之后计算所得复值元素的量值

g₄(X)＝|XF|

其中|·|计算逐元素量值；

-R5)单位算子

g₅(X)＝X

-C1)列规格化为零平均值：

-C2)列规格化为单位范数：

h₂(X)＝XD^c(X),

5.根据权利要求1所述的单耳语音可懂度预测单元，适于将时域包络信号提取为

6.根据权利要求5所述的单耳语音可懂度预测单元，其中所述函数f(·)＝f(w)，其中w表示所述函数在下述函数之中选择或其组合：

-f(w)＝w表示恒等；

-f(w)＝w²提供功率包络；

7.根据权利要求1所述的单耳语音可懂度预测单元，其中所述段估计单元配置成基于统计方法从表示所述信息信号的时频段估计实质上无噪声的时频段

8.根据权利要求1所述的单耳语音可懂度预测单元，其中所述段估计单元配置成基于源自信息信号的时频段X_m或源自其规格化和/或变换的时频段的超向量及基于将信息信号的超向量映射到表示实质上无噪声的(非必须地，规格化和/或变换的)时频段的超向量的估计的估计量而估计实质上无噪声的时频段S_m或其规格化和/或变换版本

9.根据权利要求1所述的单耳语音可懂度预测单元，其中所述段估计单元配置成基于线性估计量估计实质上无噪声的时频段

10.根据权利要求9所述的单耳语音可懂度预测单元，其中所述段估计单元配置成基于跨源自无噪声语音信号z_m的非必需规格化和/或变换的段的超向量的训练集预估计的J·N×J·N样本相关矩阵估计实质上无噪声的非必须规格化和/或变换的时频段其中，为训练集中的项数。

11.根据权利要求1所述的单耳语音可懂度预测单元，其中所述最终语音可懂度计算单元适于从中间语音可懂度系数d_m将最终语音可懂度预测值d计算为信息信号x随时间的平均：

其中M表示信息信号x的语音活跃部分的时间单元的持续时间。

12.一种助听器，适于位于用户的左和右耳之处或之中或者适于完全或部分植入在用户头部中，所述助听器包括根据权利要求1所述的单耳语音可懂度预测单元。

13.根据权利要求12所述的助听器，包括

a)多个输入单元IU_i，i＝1,…,M，M等于或大于1，每一输入单元配置成提供表示在第i个输入单元处接收的声音输入的时变电输入信号y’_i，所述电输入信号y’_i包括目标信号分量和噪声信号分量，所述目标信号分量源自目标信号源；

b)可配置的信号处理单元，用于处理所述电输入信号及提供处理后的信号u；

c)输出单元，用于基于电输出产生配置成可由用户感知为声音的输出刺激，所述电输出为来自信号处理单元的处理后的信号u或者源自其的信号的形式；及

d)听力损失模型单元，其连接到所述单耳语音可懂度预测单元并配置成应用反映用户的相应左或右耳的听力受损的、电输出信号的随频率而变的修改以向单耳语音可懂度预测单元提供信息信号x。

14.根据权利要求13所述的助听器，其中所述可配置的信号处理单元适于基于单耳语音可懂度预测单元提供的最终语音可懂度预测值d控制或影响相应电输入信号的处理。

15.一种双耳听力系统，包括左和右根据权利要求12所述的助听器，其中左和右助听器中的每一个包括使能在所述左和右助听器之间建立通信链路及交换信息的天线和收发器电路。

16.根据权利要求15所述的双耳听力系统，还包括双耳语音可懂度预测单元，用于在用户暴露于声音输入时，基于相应的左和右助听器的单耳语音可懂度预测值d_left,d_right，提供预测的用户语音可懂度的最终双耳语音可懂度度量d_binaural。

17.根据权利要求16所述的双耳听力系统，其中所述最终双耳语音可懂度度量d_binaural确定为相应的左和右助听器的语音可懂度预测值d_left,d_right中的最大值：d_binaural＝max(d_left,d_right)。