CN107371111A

CN107371111A - 用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统

Info

Publication number: CN107371111A
Application number: CN201710155078.4A
Authority: CN
Inventors: A·H·安德森; J·M·德哈恩; 郑华·谭; J·詹森; M·S·佩德森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2016-03-15
Filing date: 2017-03-15
Publication date: 2017-11-21
Anticipated expiration: 2037-03-15
Also published as: EP3220661B1; DK3220661T3; US20170272870A1; US10057693B2; EP3220661A1; CN107371111B

Abstract

本申请公开了用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统。本申请还公开了一种包括双耳语音可懂度预测单元的侵入双耳语音可懂度预测系统，所述双耳语音可懂度预测单元包括：第一、第二、第三和第四输入单元，用于分别提供目标信号的左和右无噪声版本及左和右有噪声和/或处理后版本的时频表示；第一和第二均衡‑抵消级，适于分别提供所得的无噪声信号及所得的有噪声和/或处理后的信号；‑单耳语音可懂度预测单元，用于提供最终双耳语音可懂度预测值SI测度；其中，第一和第二均衡‑抵消级适于优化最终双耳语音可懂度预测值SI测度以指明听者对目标信号的有噪声和/或处理后版本的最大可懂度。

Description

用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统

技术领域

本申请涉及助听器的语音可懂度预测。本发明例如涉及用于预测有噪声和/ 或增强的(处理后的)语音的方法和系统及涉及实施前述方法的双耳听力系统。

背景技术

助听器的设计通常受正常听力或听力受损人员参与的听音试验指导。这些听音测试用于调查新的听觉病矫治方案或信号处理技术的有用性。此外，它们用于在整个开发过程中确证和评估助听器对用户的好处。这些测试成本高且耗时。然而，目前尚没有实现前述试验的现实备选方案。

发明内容

在本申请中，提出了使用双耳侵入语音可懂度测度部分或完全代替使用听音试验，所述测度能够预测有噪声环境和助听器处理的影响。

在语音可懂度测度的上下文中，术语“双耳”指人因结合来自左和右耳的信息获得的优势。在本说明书中，术语“侵入”意指为了计算语音可懂度测度，实现用于参考的纯净语音信号(没有噪声、失真或助听器处理)的取得。所提出的结构或方法的实施如图1D中所示。所述测度能够预测多种不同的听音条件(如不同的房间、不同位置或不同讲话者位置处的不同噪声类型)和处理类型(如不同的助听器或助听器设置/算法)的影响。所述测度依赖于信号，其通常可在测试助听器的环境中得到。具体地，所述测度基于四个输入信号：

1)来自听者左耳的有噪声及可能助听器处理的语音信号。该信号可以是记录的信号、模拟的信号或“现场”信号(如在原位置拾取)；

2)来自听者右耳的有噪声及可能助听器处理的语音信号。该信号可以是记录的信号、模拟的信号或“现场”信号(如在原位置拾取)；

3)来自听者左耳的纯净语音信号。这应与有噪声/处理后的信号一样，但既没有噪声也没有助听器处理；

4)来自听者右耳的纯净语音信号。这应与有噪声/处理后的信号一样，但既没有噪声也没有助听器处理；

从这四个输入信号，所述测度提供一数，其描述由一组具有类似听音能力的听者判断平均起来(或者由特定用户判断)有噪声/处理后的信号怎样明白易懂。输出可以是简单的“得分”形式(如0和1之间的数，其中0为难懂，1 为高度明白易懂)或者听音测试结果的直接预测的形式(如话语的一部分被正确理解、语音接受阈和/或类似)。该方法在[Andersen et al.；2016]中详细描述。

具体地，提出用图1D中所示的结构或方法解决上述任务。所有四个信号 (或作为备选，仅两个有噪声/处理后的信号)可以也可不首先遭受第一模型 (图1D中的听力损失模型)，其通过向信号添加噪声和失真以使模型预测拟合具有特定听力损失的受测对象的表现而仿效听力损失(或与正常听力的偏差)。存在几个这样的模型，但听力损失模型的特别简单的例子为向输入信号添加根据所涉及听力损失谱整形的统计上独立的噪声。之后，第二模型(图 1D中的双耳优势(advantage))用于对具有两只耳朵的受测对象的优势建模。该模型将左和右耳信号结合为单一纯净信号和单一有噪声/处理后的信号。这个过程需要确定左和右耳信号怎样进行结合的一个或多个参数，如左和右耳处接收的信号之间的电平差和/或时间差。之后，单一纯净信号和单一有噪声/处理后的信号发送给单耳可懂度测度(图1D中的“单耳可懂度测度”)，其不考虑双耳优势。术语“单耳”用于表明(尽管来自左和右耳的信号组合为所得的信号)一个所得的(组合)信号通过(单耳)语音可懂度预测单元仿效。“单耳语音可懂度预测单元”基于对应的所得的实质上无噪声及有噪声/处理后的目标信号(就像它们源自单耳设置一样，例如参见图1D)评估语音可懂度。作为备选，可使用其它术语如“通道语音可懂度预测单元”或简单的“语音可懂度预测单元”。其提供可懂度测度。确定结合左和右耳信号的过程所需要的参数使得所得的语音可懂度测度最大化。所提出的结构使双耳优势的任何模型能与用于处理后的信号的(如单耳或双耳)语音可懂度的任何模型一起使用并获得双耳可懂度测度，其处理处理后的信号。本发明的实施具有计算简单的优点因而很适合在功率受限的情形下使用，如在助听器中使用。

双耳语音可懂度系统

在本申请的一方面，提供侵入双耳语音可懂度预测系统。该双耳语音可懂度预测系统包括双耳语音可懂度预测单元，其适于接收包括a)左和右实质上无噪声版本x_l,x_r及b)左和右有噪声和/或处理后版本y_l,y_r的语音的目标信号，所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示，该双耳语音可懂度预测单元配置成将指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的感知的最终双耳语音可懂度预测值SI测度提供为输出。该双耳语音可懂度预测单元还包括：

-第一和第二输入单元，用于分别提供目标信号的左无噪声版本x_l和有噪声和/或处理后版本y_l的时频表示x_l(k,m)和y_l(k,m)，k为频率窗口(bin)指数， k＝1,2,…,K，m为时间指数；

-第三和第四输入单元，用于分别提供目标信号的右无噪声版本x_r和有噪声和/或处理后版本y_r的时频表示x_r(k,m)和y_r(k,m)，k为频率窗口指数，k＝1, 2,…,K，m为时间指数；

-第一均衡-抵消级，适于分别接收和相对时移及振幅调节左和右无噪声版本x_l(k,m)和x_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右无噪声版本x_l’(k,m)和x_r’(k,m)彼此相减从而提供所得的无噪声信号x(k,m)；

-第二均衡-抵消级，适于分别接收和相对时移及振幅调节左和右有噪声和/ 或处理后版本y_l(k,m)和y_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y_l’(k,m)和y_r’(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m)；及

-单耳语音可懂度预测单元，用于基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)提供最终双耳语音可懂度预测值SI测度；

其中第一和第二均衡-抵消级适于优化最终双耳语音可懂度预测值SI测度以指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的最大可懂度。

从而，可提供改进的语音可懂度预测器。

在实施例中，该侵入双耳语音可懂度预测系统如第一和第二均衡-抵消级和单耳语音可懂度预测单元配置成重复相应单元进行的计算以优化最终双耳语音可懂度预测值从而指明听者对目标信号的所述有噪声和/或处理后版本的最大可懂度。在实施例中，第一和第二均衡-抵消级和单耳语音可懂度预测单元配置成分别针对左和右无噪声版本x_l(k,m)和x_r(k,m)及左和右有噪声和/或处理后版本 y_l(k,m)和y_r(k,m)的不同时移及振幅调节重复相应单元进行的计算以优化最终双耳语音可懂度预测值从而指明听者对目标信号的所述有噪声和/或处理后版本的最大可懂度。

在实施例中，第一和第二均衡-抵消级配置成对时移和振幅调节的所有组合进行相应的穷尽计算，例如对于一组离散的值，例如在相应现实范围内。在实施例中，第一和第二均衡-抵消级配置成使用其它方案(如算法)估计最终双耳语音可懂度预测值(SI测度)的最佳值，例如基于最速下降或梯度的算法。

在实施例中，单耳语音可懂度预测单元包括：

-第一包络提取单元，用于按时域包络的形式提供所得的无噪声信号x(k,m) 或其函数的时频子频带表示从而提供时频子频带信号X(q,m)，q为子频带指数， q＝1,2,…,Q，m为时间指数；

-第二包络提取单元，用于按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m)， q为子频带指数，q＝1,2,…,Q，m为时间指数；

-第一时频段分开单元，用于将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段x(q,m)；

-第二时频段分开单元，用于将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段 y(q,m)；

-相关系数单元，适于计算无噪声信号的每一时频包络段和有噪声和/或处理后的信号的对应包络段之间的相关系数

-最终语音可懂度测量单元，用于将最终双耳语音可懂度预测值SI测度提供为跨时间帧和子频带计算的相关系数的加权组合。

在实施例中，双耳语音可懂度预测系统包括双耳听力损失模型。在实施例中，双耳听力损失模型包括用户的左和右耳的相应单耳听力损失模型。

双耳听力系统

另一方面，提供一种双耳听力系统，包括适于位于用户的左和右耳处的左和右助听器及上面描述的、“具体实施方式”部分详细描述的及权利要求中限定的侵入双耳语音可懂度预测系统。

在实施例中，左和右助听器中的每一个包括：

-左和右可配置的信号处理单元，配置成分别处理目标信号的左和右有噪声和/或处理后版本y_l,y_r及分别提供左和右处理后的信号u_left,u_right；及

-左和右输出单元，用于基于左和右电输出信号产生配置成可由用户感知为声音的输出刺激，所述电输出信号分别为左和右处理后的信号u_left,u_right的形式或者源自其的信号。

该双耳听力系统还包括：

a)双耳听力损失模型单元，其操作地连接到侵入双耳语音可懂度预测单元并配置成将反映用户的相应左和右耳的听力受损的随频率而变的修改应用于电输出信号以向侵入双耳语音可懂度预测单元提供相应修改的电输出信号。

双耳语音可懂度预测系统(可能包括双耳听力损失模型)可实施在左和右助听器的任何一个(或两个)中。作为备选(或另外)，双耳语音可懂度预测系统可实施在(分开的)辅助装置中，如遥控装置(如智能电话等)。

在实施例中，助听器包括用于从另一装置如通信装置或另一助听器无线接收直接电输入信号的天线和收发器电路。在实施例中，左和右助听器包括天线和收发器电路，用于在其间建立耳间链路从而使能在其间交换数据，包括音频和/或控制数据或信息信号。总的来说，由助听器的天线和收发器电路建立的无线链路可以是任何类型。在实施例中，无线链路在功率受限制的条件下使用，例如因为助听器包括便携(通常电池驱动的)装置。

在实施例中，助听器(如可配置的信号处理单元)适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。

在实施例中，每一助听器包括输出单元。在实施例中，输出单元包括耳蜗植入物的多个电极。在实施例中，输出单元包括输出变换器。在实施例中，输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施例中，输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器 (例如在附着到骨头的或骨锚式助听器中)。

在实施例中，输入单元包括用于将输入声音转换为电输入信号的输入变换器。在实施例中，输入单元包括用于接收包括声音的无线信号并提供表示所述声音的电输入信号的无线接收器。在实施例中，助听器包括定向传声器系统，其适于增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。

在实施例中，助听器包括输入变换器(传声器系统和/或直接电输入(如无线接收器))和输出变换器之间的正向或信号通路。在实施例中，信号处理单元位于该正向通路中。在实施例中，信号处理单元适于根据用户的特定需要提供随频率而变的增益。在实施例中，助听器包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中，分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中，分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中，助听器包括模数(AD)转换器以按预定的采样速率如20kHz 对模拟输入进行数字化。在实施例中，助听器包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，助听器包括多个检测器，其配置成提供与助听器的当前网络环境(如当前声环境)有关、和/或与佩戴助听器的用户的当前状态有关、和/ 或与助听器的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与助听器(如无线)通信的外部装置的一部分。外部装置例如可包括另一助听器、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。在实施例中，多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中，多个检测器中的一个或多个对频带拆分的信号起作用((时-)频域)。

在实施例中，助听器还包括用于所涉及应用的其它适宜功能，如压缩、降噪、反馈。

在实施例中，助听器包括听力仪器如适于位于耳朵处或者完全或部分位于用户耳道中或者完全或部分实施在用户头部中的听力仪器，头戴式耳机、耳麦、耳朵保护装置或其组合。

在实施例中，该听力系统适于在助听器和辅助装置之间建立通信链路以使信息(如控制和状态信号，可能音频信号)能在其间进行交换或从一装置转发给另一装置。

在实施例中，辅助装置是或包括音频网关设备，适于(如从娱乐装置如 TV或音乐播放器、从电话设备如移动电话或从计算机如PC)接收多个音频信号及适于选择和/或组合所接收的音频信号(或信号组合)中的适当信号以传给助听器。在实施例中，辅助装置是或包括遥控器，用于控制助听器的功能和运行。在实施例中，遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听器包括到智能电话的适当无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的双耳语音可懂度系统的应用。在实施例中，提供用于执行听音测试的应用。在实施例中，提供在包括一个或多个听力仪器的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用。在实施例中，提供用于在双耳助听器系统中增强语音的应用。

提供双耳语音可懂度预测值的方法

一方面，提供用于提供双耳语音可懂度预测值的方法。该方法包括：

S1，接收包括a)左和右实质上无噪声版本x_l,x_r及b)左和右有噪声和/或处理后版本y_l,y_r的语音的目标信号，所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示；

S2，分别提供目标信号的左无噪声版本x_l和有噪声和/或处理后版本y_l的时频表示x_l(k,m)和y_l(k,m)，k为频率窗口指数，k＝1,2,…,K，m为时间指数；

S3，分别提供目标信号的右无噪声版本x_r和有噪声和/或处理后版本y_r的时频表示x_r(k,m)和y_r(k,m)，k为频率窗口指数，k＝1,2,…,K，m为时间指数；

S4，分别接收和相对时移及振幅调节左和右无噪声版本x_l(k,m)和x_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右无噪声版本x_l’(k,m)和 x_r’(k,m)彼此相减从而提供所得的无噪声信号x(k,m)；

S5，分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本y_l(k,m) 和y_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y_l’(k,m)和y_r’(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号 y(k,m)；及

S6，基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号 y(k,m)提供最终双耳语音可懂度预测值SI测度，其指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的感知；

S7，重复步骤S4-S6以优化最终双耳语音可懂度预测值SI测度从而指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的最大可懂度。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的系统的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应系统一样的优点。

在实施例中，步骤S4和S5中的每一个包括：

-使得相对时移和振幅调节由下面的因子给出：

λ＝10^(γ+Δγ)/40e^{jω(τ+Δτ)/2}

其中τ指按秒计的时移，γ指按dB计的振幅调节，及其中Δτ和Δγ为与正常听力人员的听觉系统的模型缺陷不相关的噪声源；及

-所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)分别由下面的等式给出：

及

在实施例中，不相关的噪声源Δτ和Δγ通常以零平均值和标准偏差进行分布：

其中确定γ和τ的值以使可懂度预测值最大化。

在实施例中，步骤S6包括：

-按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信号X(q,m)，q为子频带指数，q＝1,2,…,Q，m为时间指数；

-按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m)，q为子频带指数，q＝1, 2,…,Q，m为时间指数；

-将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应于所述子频带信号的N个连续样本的时频包络x(q,m)段；

-将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段y(q,m)；

-计算无噪声信号的每一时频包络段和有噪声和/或处理后的信号的对应包络段之间的相关系数ρ(q,m)；

-将最终双耳语音可懂度预测值SI测度提供为跨时间帧和子频带计算的相关系数的加权组合。

在实施例中，表示相应的第q个子频带信号的时域包络的时频信号X(q,m), Y(q,m)分别为按下式确定的功率包络：

及

其中q为子频带指数，q＝1,2,…,Q，k₁(q)和k₂(q)分别指第q个频带的下部和上部DFT窗口。在实施例中，时变(无噪声或有噪声)输入信号的时频分解基于离散傅里叶变换(DFT)，将对应的时域信号转换为包括相应信号在多个 DFT窗口的量值和/或相位的(实值或)复值的时频表示。在实施例中，在本申请中，定义具有子频带指数q＝1,2,…,Q的Q个(非均匀)子频带，每一子频带包括一个或多个DFT窗口(参见图3B中的纵向子频带q轴)。第q个子频带包括具有下部和上部指数的DFT窗口k1(q)和k2(q)，分别定义第q个子频带的下和上截止频率。在实施例中，子频带为三分之一倍频带。在实施例中，子频带的数量Q为15。

在实施例中，功率包络安排为N个样本的向量：

x_q,m＝[X_q,m-N+1,X_q,m-N+2,...,X_q,m]^T及

y_q,m＝[Y_q,m-N+1,Y_q,m-N+2,...,Y_q,m]^T

其中向量x_q,m和在实施例中，N＝30个样本。

在实施例中，纯净和有噪声/处理后包络之间的相关系数确定为：

其中期望值跨输入信号及噪声源Δτ和Δγ取得。

在实施例中，跨输入信号的相关系数ρ_q的N个样本估计量由下式给出：

其中μ(·)指给定向量中的项的平均值，E_Δ为跨步骤S4、S5中应用的噪声的期望值，及1为所有一的向量。

在实施例中，最终双耳语音可懂度预测值通过对信号中的所有帧m和频带 q估计相关系数并跨这些帧和频带求平均获得：

其中Q和M分别为子频带数和帧数。

配置成实施提供双耳语音可懂度预测值的方法的侵入双耳语音可懂度单元

一方面，本发明提供侵入双耳语音可懂度单元，其配置成实施(如上所述的、“具体实施方式”部分详细描述的及权利要求中限定的)提供双耳语音可懂度预测值的方法。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、 “具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、 EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

计算机程序

本申请还提供包括指令的计算机程序(产品)，当所述程序由计算机运行时，使得计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

定义

在本说明书中，“助听器”指适于改善、增强和/或保护用户的听觉能力的装置如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“助听器”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元 (具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元、或作为整个或部分植入的单元等。助听器可包括单一单元或几个彼此电子通信的单元。

更一般地，助听器包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户的输出装置。在一些助听器中，放大器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的) 存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和 /或用于保存适合助听器功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些助听器中，输出装置可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中，输出装置可包括一个或多个用于提供电信号的输出电极。

在一些助听器中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些助听器中，振动器可植入在中耳和/或内耳中。在一些助听器中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉皮层和/或大脑皮层的其它部分。

“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与助听器通信并影响和/或受益于助听器的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)、广播系统、汽车音频系统或音乐播放器。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。

本发明的实施例例如可用在下述应用中，例如听力仪器、头戴式耳机、耳麦、主动耳朵保护系统或其组合或者前述装置的开发系统。

在本发明中，时变信号的时频表示可记为x(k,m)或x_k,m或x_k(m)，在意思上没有任何差别，其中k指频率，n和m指时间。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A象征性地示出了双耳语音可懂度预测系统与评估单元结合。

图1B示出了双耳语音可懂度预测系统与双耳听力损失模型和评估单元结合。

图1C示出了双耳语音可懂度预测系统与双耳听力损失模型、信号处理单元和评估单元的结合。

图1D示出了所提出的语音可懂度预测方法的框图。

图2A示出了根据本发明的双耳语音可懂度预测单元的一般实施例。

图2B示出了根据本发明的用于提供DBSTOI语音可懂度测度的方法的实施例的框图。

图3A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化，这些样本安排在多个时间帧中，每一时间帧包括N_s个样本。

图3B示出了图3A的时变电信号的时频图表示。

图4示出了包括用户、位于用户周围的目标信号源和一个或多个噪声源的听音测试情形。

图5示出了包括根据本发明的双耳语音可懂度预测单元的听音测试系统。

图6A示出了包括处于有噪声环境中的讲话者的听音情形，其佩戴包括发射器的传声器以将讲话者话音传给佩戴根据本发明的包括左和右助听器的双耳听力系统的用户。

图6B从另一角度示出了与图6A中一样的听音情形。

图6C示出了无噪声和有噪声语音信号的混合以在双耳听力系统中提供组合信号，其基于例如可在图6A和6B的听音情形中得到的组合信号的语音可懂度预测。

图6D示出了实施图6C中所示方案的双耳听力系统的实施例。

图7示意性地示出了根据本发明的包括左和右助听器的双耳听力系统的示例性实施例，其例如可用在图6A、6B和6C的听音情形中。

图8示出了提供双耳语音可懂度预测值的方法的实施例。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等 (统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置如助听器领域，尤其涉及语音可懂度预测。自从引入传声清晰度指数(Articulation Index，AI)[French&Steinberg；1947]以来，其后来被改良并标准化为语音可懂度指数(Speech Intelligibility Index，SII) [ANSI S3.5-1997]，语音可懂度预测(SIP)的论题已被广泛调查。在研究兴趣初始来自电话行业的同时，可能应用于助听器及耳蜗植入物最近已引起注意，例如参见[Taal et al.；2012]和[Falk et al.；2015]。

SII在具有附加、固定噪声的条件下预测单耳可懂度。另一早期及高度流行的方法是语音传输指数(STI)，其预测已传输通过有噪声和失真传输系统 (如回响房间)的语音的可懂度。已提出许多另外的SIP方法，主要目的在于扩展可进行预测的条件范围。

对于可结合双耳通信装置如助听器应用的SIP方法，典型方法的工作范围必须以两种方式进行扩展。首先，它们必须能够考虑在这样的装置中经常发生的非线性处理。该任务因许多SIP方法假设知道纯净语音和干扰信号分离而复杂化，前述假设在语音和噪声的组合已被非线性处理时没有意义。未进行这种假设的方法的一个例子为STOI测度[Taalet al.；2011]，其从有噪声/处理后的信号及纯净语音信号预测可懂度。STOI测度已被证明能很好地预测多个增强算法对可懂度的影响。其次，SIP方法必须考虑信号通常双耳地呈现给用户的事实。根据声学条件及应用的处理，双耳听觉感知向用户提供不同程度的优势 [Bronkhorst；2000]。几个SIP方法已聚焦于预测该优势。然而，现有的双耳方法通常不能针对非线性处理的信号提供预测。

图1A示出了双耳侵入语音可懂度预测单元BSIP与评估单元EVAL结合的设置。双耳侵入语音可懂度预测单元基于(至少)四个信号提供语音可懂度测度(图1A中的SI测度)，其包括呈现给听者的左和右耳的有噪声/处理后的信号y_l,y_r及同样呈现给听者的左和右耳的纯净语音信号x_l,x_r。纯净语音信号优选应与有噪声/处理后的信号一样，但没有噪声及未进行处理(如在助听器中)。评估单元EVAL被示为接收和评估双耳语音可懂度预测值SI测度。评估单元 EVAL例如可进一步处理语音可懂度预测值SI测度，例如以图形和/或数字显示当前值和/或最近的历史值、推导趋势等。评估单元例如可实施在分开的装置中，例如用作双耳语音可懂度预测单元BSIP的用户接口，例如形成测试系统的一部分(例如参见图5)，和/或用作包括前述单元的助听器的用户接口，例如实施为遥控装置，例如实施为智能电话的APP。

从听者环境中的给定声学(目标)源(相对于用户的给定位置处)呈现给听者的左和右耳的纯净(目标)语音信号x_l,x_r可从包括测得的或建模的头部相关传递函数(HRTF)的设置的声学模型产生以提供适当的随频率和角度而变的耳间时间差(ITD)和耳间电平差(ILD)。呈现给听者的左和右耳的、各个噪声源N_i,i＝1,2,…,N_s的贡献n_i,l,n_i,r可类似地从所述设置的声学模型确定，N_s为考虑的位于听者周围的不同位置处的噪声源的数量(如等于1或更多)。从而，包括呈现给听者的左和右耳的目标语音的有噪声(如未处理的)信号y_l,y_r可提供为呈现给听者的左和右耳的相应纯净(目标)语音信号x_l,x_r和各个噪声源N_i,i＝1,2,…,N_s的噪声信号n_i,l,n_i,r的和(例如参见图4)。

作为备选，呈现给听者的左和右耳的纯净(目标)语音信号x_l,x_r和有噪声 (如未处理的)信号y_l,y_r可在特定几何设置中进行测量，例如使用仿真头模型 (如用头部-躯干模拟器(HATS，来自Brüel& Sound&Vibration Measurement A/S的头部和躯干模拟器4128C)在录音室中进行)(例如参见图 4)。

因此，在实施例中，呈现给听者的左和右耳并用作双耳语音可懂度预测单元的输入的纯净和有噪声信号提供为人工产生的和/或测得的信号。

图1B示出了双耳语音可懂度预测系统与双耳听力损失模型BHLM和评估单元EVAL结合。该听力损失模型BHLM例如配置成反映用户的听力损失 (即就像用户的听觉系统表现的那样，扭曲(修改)声学输入在此为有噪声信号y_l,y_r)。

图1C示出了双耳语音可懂度预测系统与双耳听力损失模型BHLM、信号处理单元SPU和评估单元EVAL结合。信号处理单元SPU例如可配置成运行助听器的一个或多个处理算法。这样的配置因而可用于模拟用于试验特定信号处理算法的听音测试，例如在开发信号处理算法期间，以针对给定用户找到该算法的适当设置。

图1D示出了包括双耳语音可懂度预测单元BSIP和双耳听力损失模型 BHLM的双耳语音可懂度预测系统的框图。图1D中所示的双耳语音可懂度预测单元包括双耳优势模块和单耳可懂度测度模块。双耳优势模块包括具有一个或多个参数的模型，其确定左和右耳信号怎样被听觉系统组合。单耳可懂度测度模块包括单耳语音可懂度预测单元，例如如[Taal et al.；2011]中所述。

图2A、2B中所示的示例性测度不包括图1D中的听力损失模型模块。

图2A示出了根据本发明的双耳语音可懂度预测单元的一般实施例。图2A 示出了包括双耳语音可懂度预测单元BSIP的侵入双耳语音可懂度预测系统，其适于接收包括a)左和右实质上无噪声版本x_l,x_r及b)左和右有噪声和/或处理后版本y_l,y_r的语音的目标信号。纯净信号x_l,x_r和有噪声/处理后的信号y_l,y_r表示听者左和右耳处接收的声学信号。双耳语音可懂度预测单元BSIP配置成将指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的感知的最终双耳语音可懂度预测值SI测度提供为输出。双耳语音可懂度预测单元BSIP包括第一和第三输入单元TF-D1,TF-D3，用于分别提供目标信号的左和右无噪声版本x_l(n) 和x_r(n)的时频表示x_l(k,m)和x_r(k,m)，k为频率窗口指数，k＝1,2,…,K，m为时间指数。双耳语音可懂度预测单元BSIP还包括第二和第四输入单元TF-D2, TF-D4，用于分别提供目标信号的左和右有噪声和/或处理后版本y_l(n)和y_r(n)的时频表示y_l(k,m)和y_r(k,m)。双耳语音可懂度预测单元BSIP还包括第一均衡-抵消级MOD-EC1，适于分别接收和相对时移及振幅调节左和右无噪声版本 x_l(k,m)和x_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右无噪声版本x’_l(k,m)和x’_r(k,m)彼此相减从而提供所得的无噪声信号x(k,m)。双耳语音可懂度预测单元BSIP还包括第二均衡-抵消级MOD-EC2，适于分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本y_l(k,m)和y_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y’_l(k,m)和 y’_r(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m)。双耳语音可懂度预测单元BSIP还包括单耳语音可懂度预测单元MSIP，用于基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)提供最终双耳语音可懂度预测值SI测度。第一和第二均衡-抵消级MOD-EC1,MOD-EC2适于优化最终双耳语音可懂度预测值SI测度以指明(听者对)目标信号的有噪声和/ 或处理后版本y_l,y_r的最大(估计)可懂度。

在图2A中所示的侵入双耳语音可懂度预测系统的实施例中，单耳语音可懂度预测单元MSIP包括第一包络提取单元EEU1，用于按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信号X(q,m)，q为子频带指数，q＝1,2,…,Q，m为时间指数。单耳语音可懂度预测单元MSIP还包括第二包络提取单元EEU2，用于按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m)。单耳语音可懂度预测单元MSIP还包括第一时频段分开单元SDU1，用于将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应于所述子频带信号的N个连续样本的时频包络x(q,m)段。类似地，单耳语音可懂度预测单元MSIP还包括第二时频段分开单元SDU2，用于将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段y(q,m)。单耳语音可懂度预测单元MSIP还包括相关系数单元CCU，适于计算无噪声信号的每一时频包络段和有噪声和/或处理后的信号的对应包络段之间的相关系数单耳语音可懂度预测单元MSIP还包括最终语音可懂度测量单元A-CU，用于将最终双耳语音可懂度预测值SI测度提供为跨时间帧和子频带计算的相关系数的加权组合。优化最终双耳语音可懂度预测值SI测度以提供(听者对)目标信号的有噪声和/或处理后版本y_l,y_r的最大(估计)可懂度由从最终语音可懂度测量单元A-CU分别到第一和第二均衡-抵消级MOD-EC1,MOD-EC2的连接指明。前述优化过程的例子结合下面的步骤2：EC处理部分描述。

图2B示出了用于提供DBSTOI双耳语音可懂度测度的方法/装置的框图。

在[Andersen et al.；2015]中，提出了STOI测度的双耳扩展即双耳STOI (BSTOI)测度。BSTOI测度已被证明能很好地预测在水平面中具有正面目标和单点噪声源的条件下获得的可懂度(包括双耳优势)。BSTOI测度还被证明能预测已由ITFS(理想的时频分段)处理的影响双耳的语音的可懂度。

在本申请中，提出了BSTOI测度的改进版，其计算上要求较低，且不同于 BSTOI，可产生确定性结果。所提出的测度具有能够在双耳优势和非线性处理同时影响可懂度的条件下预测可懂度的优点。就本申请的发明人了解的，没有其它SIP方法能够在可懂度受双耳优势和非线性处理的条件下产生预测。我们将改进的双耳语音可懂度测度称为确定性BSTOI(DBSTOI)测度。

DBSTOI测度基于四个信号对可懂度打分：呈现给听者的左和右耳的有噪声/处理后的信号及同样在两耳处的纯净语音信号。纯净(实质上无噪声)信号应与有噪声/处理后的信号一样，但既没有噪声也没有进行处理。DBSTOI测度产生0-1范围中的得分。目标在于在DBSTOI测度和测得的可懂度之间具有单调对应，使得较高的DBSTOI测度对应于较高的可懂度(如正确听见的话语的百分比)。

DBSTOI测度基于改进的均衡抵消(EC)级与[Andersen et al.；2015]中提出的STOI测度的结合。在此，我们引入STOI测度的进一步结构变化以使能更好地与EC级整合。这使能确定性地及以封闭形式计算所述测度，这与[Andersen et al.；2015]的BSTOI测度相反，其使用蒙特卡罗模拟法进行计算。

DBSTOI测度的结构如图2B中所示。该程序分为三个主要步骤：1)基于离散傅里叶变换(DFT)的时频分解；2)改进的EC级，其提取双耳优势；及 3)单耳STOI测度的改进版。

具体例子

下面描述的DBSTOI测度作为所提出类型的双耳可懂度预测器的具体例子。提供该特定测度的双耳语音可懂度预测单元的框图如图2B中所示。该测度/单元对应于图1D中的双耳优势和单耳可懂度测度模块。图2B中所示的示例性测度不包括图1B、1C和1D中所示的听力损失模型模块。

计算DBSTOI测度的过程概述如下：

1)通过使用短时傅里叶变换对输入信号进行时频分解。随后的步骤在短时傅里叶域进行；

2)左和右耳信号借助于改进的均衡级进行组合。具体地：

a)左和右耳信号相对于彼此进行时移和振幅调节。这针对三分之一倍频带单独进行，参见下面的等式(1)和(2)；

b)时移及振幅调节的左和右信号彼此相减。该差称为组合信号。对纯净信号和有噪声/处理后的信号应用同样的时移和振幅调节因子。以该方式获得一个组合纯净信号和一个组合有噪声/处理后的信号。参见下面的等式(1)和 (2)。

3)从每一信号(纯净信号和有噪声/处理后的信号)的每一三分之一倍频带提取功率包络，参见下面的等式(5)；

4)将这些包络安排为短的重叠段。参见下面的等式(8)；

5)计算纯净信号的每一包络段和有噪声/处理后的信号的对应包络段之间的相关系数。参见下面的等式(9)。

6)按跨所有时间帧和三分之一倍频带计算的相关系数的平均获得最终测度。参见下面的等式(15)。

有利地，步骤2中的时移和振幅调节因子针对每一短包络段独立确定并确定为例如使得包络之间的相关最大化。这对应于人的大脑使用来自两耳的信息以使语音尽可能明白易懂的假设。最终的数通常位于0和1之间的区间中，其中0表明有噪声/处理后的信号大大不同于纯净信号及预期难懂，而接近1的数表明有噪声/处理后的信号接近纯净信号及预期高度易懂。

步骤1：TF分解

第一步骤(例如参见图2B中的步骤1)将四个输入信号x_l,x_r,y_l,y_r重采样到10kHz，去除没有语音的段(经基于理想帧的话音活动检测器)，及执行基于短时DFT的时频(TF)分解(参见图2B中的短时DFT模块)。这以与 STOI测度完全一样的方式进行(例如参见[Taal et al.；2011])。设为对应于左耳处纯净信号在第m时间帧和第k频率窗口的TF单元(参见图3B)。类似地，设和分别指右耳纯净信号及左和右耳有噪声/处理后的信号TF单元。

步骤2：EC处理

计算所述测度的第二步骤(例如参见图2B中的步骤2)使用改进的EC级 (EC＝均衡-抵消)组合左和右耳信号以对双耳优势建模(例如参见[Durlach； 1963],[Durlach；1972])(参见图2B中的改进的(1/3倍频)EC级模块)。

组合纯净信号通过相对时移和振幅调节左和右纯净信号及其后使它们彼此相减而获得。对有噪声/处理后的信号进行同样的处理以获得单一有噪声/处理后的信号。相对时移τ(秒)和振幅调节γ(dB)由下面的因子给出：

λ＝10^(γ+Δγ)/40e^{jω(τ+Δτ)/2} (1)

其中，Δτ和Δγ与正常听力人员的听觉系统的模型缺陷无关的噪声源。所得的组合纯净信号由下式给出：

组合的有噪声/处理后的TF单元y_k，m以类似的方式(使用同样的λ值)获得。

不相关的噪声源Δτ和Δγ通常以零平均值和标准偏差进行分布：

遵循[Andersen et al.；2015]中介绍的原理，值γ和τ确定为使可懂度的得分最大化。这在下面进一步描述。

步骤3：可懂度预测

此时，四个输入信号已变为两个信号：纯净信号x_k，m及有噪声/处理后的信号y_k，m。我们利用STOI测度的变型计算这些信号的可懂度得分。为了数学上易处理，我们使用功率包络而不是STOI中初始提出的量值包络[Taal et al.； 2011]。这也在[Taal et al.；2012]中进行且似乎对预测没有明显影响。此外，我们舍弃原始STOI中包含的剪切机制，同样如[Taal et al.；2012]中进行的。我们未看到这样做负面影响结果的表现。

纯净及处理后的信号的功率包络在Q＝15三分之一倍频带中确定(参见图 2B中的包络提取模块)：

其中α＝10^(γ+Δγ)/20，及

其中上标c指左和右通道之间的相关，及其中k₁(q)和k₂(q)指第q个三分之一倍频带的下部和上部DFT窗口，及ω_q为第q个频带的中心频率。大约相等通过插入(1)和(2)并假定每一三分之一倍频带中的能量包含在中心频率下而获得。处理后的信号的类似处理产生第三倍频功率包络Y_q,m。

如果我们假定输入信号为广义固定随机的过程，由于输入信号的随机性质及EC级中的噪声源Δτ和Δγ，功率包络X_q,m和Y_q,m也为随机过程。STOI暗含的假设为可懂度与纯净和有噪声/处理后的包络之间的相关有关(例如参见[Taal et al.；2011])：

其中期望值跨输入信号及EC级中的噪声源取得。

为估计ρ_q，功率包络被安排成N＝30个样本的向量(例如参见[Taal et al.；2011]和图2B中的短时分段模块)：

x_q,m＝[X_q,m-N+1,X_q,m-N+2,...,X_q,m]^T (8)

对处理后的信号定义类似的向量

ρ_q跨输入信号的N样本估计量则由下式给出：

其中μ(·)指给定向量中的项的平均值，E_Δ为跨EC级中的噪声的期望值，及1为所有一的向量(参见图2B中的相关系数模块)。该期望值的封闭形式的表达可得到及由下式给出：

其中

对于有噪声/处理后的信号，类似。的表达式可通过用x_q,m替换y_q,m的所有实例而从(10)获得，对反之亦然。

最终DBSTOI测度通过估计信号中所有帧m和频带q的相关系数并跨这些相关系数求平均获得[Taal et al.；2011]：

其中Q和M分别为频带数和帧数(参见图2B中的求平均模块)。

已发现每当左和右耳输入一样时，DBSTOI测度产生与单耳STOI一样的得分(即基于改进的单耳STOI测度且没有剪裁)。

确定γ和τ

最后，我们考虑参数γ和τ。这些参数对每一时间单元m和三分之一倍频带q个别地确定以使最终DBSTOI测度最大化(参见图2B中从输出DBSTOI 到改进的(1/3倍频)EC级模块的反馈环路)。因而，每一相关系数估计量为其自己的参数组的函数。因此，DBSTOI测度(15)可通过个别地使每一估计的相关系数最大化而最大化：

总的来说，优化可通过对一组离散的γ和τ值评估并选择最高值而实现。

图3A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化，这些样本安排在多个时间帧中，每一时间帧包括N_s个样本。图3A示出了模拟电信号(实线曲线)，例如表示来自传声器的声输入信号，其在模数(AD) 转换过程中转换为数字音频信号，在模数转换过程中，模拟信号以预定采样频率或速率f_s进行采样，f_s例如在从8kHz到40kHz的范围中(适应应用的特定需要)，以在离散时间点n提供数字样本x(n)，如从时间轴延伸的在其与所述曲线重合的端点处具有实心点的垂直线所示，表示在对应的不同时间点n的数字样本值。每一(音频)样本x(n)表示通过预定数量(N_b)的比特表示声信号在n的值，N_b例如在从1到16比特的范围中。数字样本x(n)具有1/f_s的时间长度，例如对于f_s＝20kHz，该时间长度为50μs。多个(音频)样本N_s安排在时间帧中，如图3A下部示意性图示的，其中各个(在此均匀间隔的)样本按时间帧分组(1,2,…,N_s)。同样如图3A的下部图示的，时间帧可连续地安排成非重叠(时间帧1,2,…,m,…,M)或重叠(在此为50％，时间帧1,2,…,m,…, M’)，其中m为时间帧指数。在实施例中，一时间帧包括64个音频数据样本。根据实际应用，也可使用其它帧长度。

图3B示意性地示出了图3A的(数字化)时变电信号x(n)的时频表示。该时频表示包括信号的对应复值或实值在特定时间和频率范围的阵列或映射。该时频表示例如可以是将时变输入信号x(n)转换为时频域的(时变)信号x(k,m) 的傅里叶变换的结果。在实施例中，傅里叶变换包括离散傅里叶变换算法 (DFT)。典型助听器考虑的从最小频率f_min到最大频率f_max的频率范围包括从 20Hz到20kHz的典型人听频范围的一部分，如从20Hz到12kHz的范围的一部分。在图3B中，信号x(n)的时频表示x(k,m)包括信号的量值和/或相位在指数 (k,m)确定的多个DFT窗口中的复值，其中k＝1,….,K表示K个频率值(参见图3B中的纵向k轴)，及m＝1,….,M(M’)表示M(M’)个时间帧(参见图3B 中的水平m轴)。时间帧由特定时间指数m和对应的K个DFT窗口确定(参见图3B中的时间帧m的指示)。时间帧m表示信号x在时间m的频谱。包括所涉及信号的(实或)复值x(k,m)的DFT窗口(k,m)在图3B中通过时频图中对应场的阴影图示。频率指数k的每一值对应于频率范围Δf_k，如图3B中通过纵向频率轴f指明。时间指数m的每一值表示时间帧。连续时间指数跨越的时间 Δt_m取决于时间帧的长度(如25ms)及相邻时间帧之间的重叠程度(参见图3B 中的水平t轴)。

在本申请中，定义具有子频带指数q＝1,2,…,Q的Q个(非均匀)子频带，每一子频带包括一个或多个DFT窗口(参见图3B中的纵向子频带q轴)。第 q个子频带(由图1B的右部的子频带q(x_q(m))指明)包括分别具有低和高指数 k1(q)和k2(q)的DFT窗口，其分别定义第q个子频带的低和高截止频率。特定时频单元(q,m)由特定时间指数m和DFT窗口指数k1(q)-k2(q)定义，如图3B中通过对应DFT窗口周围的粗框架指明。特定时频单元(q,m)包含第q个子频带信号x_q(m)在时间m的复值或实值。在实施例中，子频带为三分之一倍频带。ω_q指第q个频带的中心频率。

图4示出了用户U佩戴包括位于用户左和右耳处的左和右助听器HD_L, HD_R的听力系统。目标信号源(目标源S)包括位于用户周围清晰可辨的空间点处的无噪声语音和多个噪声声音源(噪声源i，V_i，i＝1,2,…,N_V，其中N_V为噪声声音源的数量)。目标声音源S相对于用户(用户头部的中心)的位置由向量d_S确定。噪声声音源V_i相对于用户的位置由向量d_Vi确定。从用户到给定声音源的方向(在垂直于纵向VERT-DIR的水平面中)由相对于用户的视向 LOOK-DIR的角度θ确定，视向跟随用户的鼻子。到目标声音源S和噪声声音源V_i的方向分别由角度θ_S和θ_Vi确定。

包括左和右实质上无噪声(纯净)目标信号x_l(n),x_r(n)中的语音(如来自人或扬声器)的、来自目标源S的目标信号例如可在录音时间记录，n为时间指数，其在左和右助听器HD_L,HD_R位于用户的左和右耳处时分别在左和右助听器处接收，其中每一助听器包括适当的传声器和存储器单元。同样，可记录分别在左和右助听器HD_L,HD_R处接收的、来自噪声声音源V_i的信号，从而提供噪声信号v_il(n),v_ir(n)。这可对每一声音源V_i,i＝1,2,…,N_V执行。之后，目标信号的左和右有噪声和/或处理后版本y_l,(n),y_r(n)可通过混合(相加)无噪声 (纯净)左和右目标信号x_l(n),x_r(n)及左和右噪声信号v_il(n),v_ir(n),i＝1,2,…,N_V而组成。换言之，目标信号的左和右有噪声和/或处理后版本y_l,(n),y_r(n)可分别确定为y_l(n)＝x_l(n)+v_il(n)和y_r(n)＝x_r(n)+v_ir(n)，i＝1,2,…,N_V。这些信号x_l(n), x_r(n)和y_l(n),y_r(n)可转发给双耳语音可懂度预测单元，及所得的语音可懂度预测值d_bin(或相应的左和右预测d_bin,l值和d_bin,r，例如参见图7)确定。通过包括双耳听力损失模型BHLM(或相应的左和右耳听力损失模型HLM_l,HLM_r，例如参见图7)，听力受损的影响可包括在语音可懂度预测中(和/或可提供用于修改助听器处理以使语音可懂度预测值最大化的自适应系统)。

作为备选，记录的(电)无噪声(纯净)左和右目标信号x_l(n),x_r(n)及左和右助听器处(声学)接收和由相应助听器的传声器拾取的纯净目标源和噪声声音源的混合y_l(n),y_r(n)可提供给双耳语音可懂度预测单元，及所得的双耳语音可懂度预测值d_bin(作为备选，记为SI测度或DBSTOI)确定。从而，可 (针对固定声音源S)评估噪声声音源V_i的位置、类型和电平的变化对所得的双耳语音可懂度预测值d_bin的影响。

通过包括助听器的处理算法，双耳语音可懂度预测系统可用于测试不同算法对所得的双耳语音可懂度预测值的影响。作为备选或另外，这样的设置可用于测试给定算法(如降噪算法或方向性算法)的不同参数设置对所得的双耳语音可懂度预测值的影响。

图4的设置例如可用于产生电无噪声(纯净)左和右目标信号x_l(n),x_r(n)，如左和右耳处从经历对应于所选声音源位置(如通过角度θ_S给出)的左和右头部相关传递函数的单一无噪声目标声音源(图4中的S)接收的。

图5示出了包括根据本发明的双耳语音可懂度预测单元BSIP的听音测试系统TEST。该测试系统例如可包括用于针对特定人的听力受损调整助听器或一对助听器的验配系统。作为备选或另外，该测试系统可包括用于测试处理算法(或处理算法的变化)对估计的用户(或具有指定如典型或特殊听力受损的一般用户)语音可懂度的影响的开发系统或形成其一部分。

测试系统TEST包括用户接口UI，用于开始测试和/或用于显示测试结果。该测试系统还包括处理部分PRO，配置成提供预定测试信号，包括a)目标语音信号的左和右实质上无噪声版本x_l,x_r及b)目标语音信号的左和右有噪声和/ 或处理后版本y_left,y_right。信号x_l,x_r,y_left,y_right适于仿效听者左和右耳处接收的信号或者听者左和右耳处接收的声学信号的表示。这些信号例如可按结合图4所述产生。

测试系统TEST包括(双耳)信号处理单元BSPU，其将一个或多个处理算法应用于目标语音信号的左和右有噪声和/或处理后版本y_left,y_right并提供所得的处理后的信号u_left和u_right。

测试系统TEST还包括双耳听力损失模型BHLM，用于仿效用户的听力损失(或与正常听力的偏差)。双耳听力损失模型BHLM从双耳信号处理单元 BSPU接收处理后的信号u_left和u_right并提供左和右经修改的处理后信号y_l和y_r，其作为目标信号的左和右有噪声和/或处理后版本馈给双耳语音可懂度预测单元 BSIP。同时，目标语音信号的纯净版x_l,x_r从测试系统的处理部分PRO提供给双耳语音可懂度预测单元BSIP。处理后的信号u_left和u_right例如可馈给相应的扬声器(由点线指明)以将这些信号声学呈现给听者。

测试系统的处理部分(PRO)还配置成接收所得的语音可懂度预测值SI测度及处理和/或经用户接口UI呈现听者对当前有噪声和处理后的信号u_left和 u_right中的语音的可懂度的评估结果。在此基础上，可评估当前算法(或算法的设置)对语音可懂度的影响。在实施例中，算法的参数设置根据所呈现的所得语音可懂度预测值SI测度进行变化(例如手动或自动，例如根据预定方案，例如经控制信号cntr)。

测试系统TEST例如可配置成施加相对于听者位于不同位置处的包括语音的多个不同(如存储的)测试刺激，及将其与相对于听者位于不同位置处的一个或多个不同噪声源混合，及具有可配置的频率含量和振幅整形。测试刺激优选可经用户接口UI配置和施加。

基于可懂度的信号选择

图6A和6B示出了包括处于有噪声环境中的讲话者的听音情形的多个不同图，讲话者佩戴包括发射器的传声器以将讲话者话音传给佩戴根据本发明的包括左和右助听器的双耳听力系统的用户。图6C示出了无噪声和有噪声语音信号的混合以在双耳听力系统中提供组合信号，其基于例如可在图6A和6B的听音情形中得到的组合信号的语音可懂度预测。图6D示出了实施图6C中所示方案的双耳听力系统的实施例。

图6A和6B示出了目标讲话者TLK佩戴能够以高信噪比(SNR)(由于讲话者嘴巴和传声器之间的短距离)拾取其话音(信号x)的无线传声器M。在实施例中，无线传声器包括话音检测单元，其使传声器能识别人话音正由传声器拾取的时间段。在实施例中，无线传声器包括自我话音检测单元，其使传声器能识别讲话者的话音正由该传声器拾取的时间段。在实施例中，自我话音检测单元已被训练以使能检测讲话者的话音。一般想法是传声器信号x通过传输单元Tx例如与无线传声器M一体的传输单元无线传给听力仪器用户。在实施例中，传声器拾取的信号仅在人话音已被话音检测单元识别时传输。在实施例中，传声器拾取的信号仅在讲话者的话音已被自我话音检测单元识别时传输。因此，左和右耳处佩戴左和右助听器HD_L,HD_R的听力受损听者U具有可用目标语音信号的两个不同版本：a)左和右助听器的传声器分别拾取的语音信号 y_l,y_r；及b)目标讲话者的体戴传声器拾取并无线传给用户的左和右助听器的语音信号x。藉此，对于将语音信号呈现给佩戴听力仪器HD_L,HD_R的用户U，我们具有两个主要选择：

1、听者可听听力仪器传声器拾取的语音信号y_l,y_r；

2、听者可听放在讲话者嘴巴附近的传声器拾取的语音信号x。

选择1的优点在于听力仪器传声器信号y_l,y_r被双耳地记录。藉此，语音信号的空间感知实质上正确，及空间线索可帮助听者更好地理解目标讲话者。此外，助听器用户的传声器信号中存在的(潜在)声学噪声可使用外部传声器信号作为次要信息而得以减少(例如参见本申请的申请人于2015年10月20日在欧洲专利局申请的未决欧洲专利申请EP15190783.9)。即使如此，该增强的信号的SNR相较于外部传声器处的SNR仍然可能非常差。

选择2的优点在于靠近目标讲话者TLK的嘴巴的外部传声器M处拾取的信号x的SNR极可能远好于听力仪器HD_L,HD_R的传声器处的SNR。在该信号 x可呈现给助听器用户的同时，缺点在于我们进具有单声道版本呈现，使得任何双耳空间线索必须人工进行恢复(例如参见上面引用的EP15190783.9)。

为此，对于高信噪比情形，其中可懂度降级不是问题，最好呈现听力仪器传声器处初始记录的处理后的信号。另一方面，如果SNR非常差，牺牲空间线索以获得更好的信噪比有利。

为决定在给定情形下最好向听者呈现哪一信号，可使用语音可懂度模型。大多数现有的语音可懂度模型均为单耳模型，例如参见[Taal et al.,2011]中描述的模型，同时少数几个现有模型作用于双耳信号，例如[Beutelmann&Brand； 2006]。对于本申请中提出的想法，使用双耳模型预期性能更好，但基本想法不要求双耳模型。大多数语音可懂度模型假定可得到纯净参考信号。基于该纯净参考信号和有噪声(及可能处理后的)信号，可能预测有噪声/处理后的信号的语音可懂度。对于上面描述的及图6A、6B和6C中所示的无线传声器情形，外部传声器M处记录的语音信号x取为“纯净参考信号”(图6C中的参考信号)。基于该参考信号，我们可经语音可懂度模型估计听力仪器传声器处的语音可懂度(参见图6C中的双耳语音可懂度预测单元BSIP)。如果听力仪器传声器处(估计的)语音可懂度(参见图6C中的信号SI测度)足够高，没有理由将外部传声器信号呈现给听者。通过听听力仪器HD_L,HD_R记录(拾取)的传声器信号y_l,y_r，我们保持讲话者TLK的正确空间感知。另一方面，如果本地听力仪器传声器的语音可懂度(SI测度)非常低，最好将外部传声器信号x 呈现给听者。为避免听力仪器传声器和外部传声器之间的波动转变，在信号选择内实施滞后(和/或渐变)是有利的。

到此为止，已讨论呈现1)听力仪器传声器拾取的语音信号和2)无线传声器拾取的语音信号之间的二元选择。使该想法一般化是有用的。具体地，可呈现两个信号的适当组合。尤其是，对于线性组合，所呈现的信号u_local由下式给出：

u_local＝a*y_local+(1-a)*x_wireless

其中y_local为助听器用户的传声器信号(local＝左或右)，及x_wireless为目标讲话者TLK拾取并无线传给助听器的信号(＝图6A、6B、6C、6D中的信号 x)，及0<＝a<＝1为自由参数。现在的目标是找到常数a的适当值，其在可懂度方面最佳。这可通过基于不同的预先选择的a值简单地合成u的不同版本及使用可懂度模型评估所得的可懂度实现。之后，使用导致最高(预测的)可懂度的a值。在图6D所示的双耳听力系统实施例中，上面的方案可实施为常数a 和语音可懂度预测值SI测度的对应值的查询表，例如存储在图6D的双耳语音可懂度预测单元BSIP中。在实施例中，基于相应的信号对y_l,x_lr和y_r,x_lr对左和右听力仪器HD_L,HD_R中的每一个确定SI测度(如图7中的d_bin,l,d_bin,r)的值。有噪声目标信号y_l和y_r为输入单元IUl和IUr分别基于信号y_left和y_right提供的电输入信号(在图6D中记为左耳处的有噪声语音和右耳处的有噪声语音)。纯净目标信号x_lr为收发器单元Rx/Tx提供的电输入信号，如从图6A中的传声器M接收。电输入信号y_l,y_r和x_lr馈给双耳信号预测单元BSIP。信号对y_l,x_lr和y_r,x_lr分别馈给左和右混合单元MIXl和MIXr。混合单元混合相应的输入信号，例如混合为输入信号的加权(线性)组合，并分别提供所得的左和右信号 u_left和u_right(参见下面)。所得的信号例如进一步处理和/或分别馈给相应的输出单元(在此为扬声器)SP_l,SP_r以呈现给双耳听力系统的用户。非必须地，所得的信号馈给双耳语音可懂度预测单元BSIP，例如以使能自适应改善混合控制信号mx_l,mx_r。如常数a确定的、估计的最佳混合(从语音可懂度的角度)可确定为查询表中的分开的常数a值(如a_l(d_bin,l),a_r(d_bin,r))，分别对应于左和右助听器HD_L,HD_R中的SI测度(如d_bin,l,d_bin,r)的目前值。参考图6D，分别由左和右听力仪器的混合单元MIXl和MIXr提供的所得的左和右信号u_left和u_right因而可确定为：

u_left＝a_l*y_left+(1-a_l)*x_lr，及

u_right＝a_r*y_right+(1-a_r)*x_lr。

左和右混合单元MIXl,MIXr配置成经混合控制信号mx_l,mx_r应用上面等式中指明的混合常数a_l,a_r。

在实施例中，双耳听力系统配置成使得0<a_l,a_r<1。在实施例中，双耳听力系统配置成使得0≤a_l,a_r≤1。

在实施例中，a_l＝a_r＝a从双耳语音可懂度模型确定，使得

u_left＝a*y_left+(1-a)*x_lr，及

u_right＝a*y_right+(1-a)*x_lr。

因而，混合控制信号mx_l,mx_r(参见图6D)可一样。

在实施例中，双耳听力系统配置成使得0<a<1。在实施例中，双耳听力系统配置成使得0≤a≤1。

在实施例中，混合常数基于BSIP单元提供的语音可懂度预测值的优化基于所得的左和右信号u_left和u_right的估计量自适应确定。实施目标信号的纯净和有噪声版本的混合比的自适应优化的双耳听力系统的实施例在下面描述(图 7)。

图7示出了根据本发明的包括左和右助听器HD_L,HD_R的双耳听力系统的示例性实施例，其例如可用在图6A、6B和6C的听音情形中。

图7示出了根据本发明的双耳助听器系统的实施例，包括用于估计用户在被(分别经左和右扬声器SP_l和SP_r)呈现双耳助听器系统的相应左和右输出信号u_left和u_right时其感知的可懂度的双耳语音可懂度预测系统BSIP，及使用所得的预测值调整包括语音的相应输入信号y_left和y_right的处理(在助听器HD_L,HD_R的相应处理单元SPU中)以使双耳语音可懂度预测值最大化。这通过将经相应输出单元(在此为扬声器)呈现给用户的输出信号u_left和u_right馈给双耳听力损失模型(在此包括左和右耳的个体模型HLM_l,HLM_r)实现，所述模型对用户的(受损)听觉系统建模，将所得的左和右信号y_l和y_r呈现给双耳语音可懂度预测系统BSIP。可配置的信号处理单元SPU适于基于最终双耳语音可懂度控制信号d_bin,l和d_bin,r(反映当前双耳语音可懂度度量)(自适应)控制相应电输入信号y_1,left,y_2,left和y_1,right,y_2,right的处理以使用户对输入声音信号u_left和u_right的可懂度最大化。

图7示出了结合图6D所述的用于确定助听器的传声器拾取的目标信号的有噪声版本和目标信号的无线接收的纯净版本的最佳混合的方案的备选方案。

图7示出了根据本发明的包括左和右助听器HD_L,HD_R的双耳听力系统的实施例。左和右助听器HD_L,HD_R适于位于用户的左和右耳之处或之中。左和右助听器中的每一个的信号处理由呈现在助听器用户耳朵处因而由助听器用户体验的信号的语音可懂度的估计量引导。双耳语音可懂度预测单元BSIP配置成将左和右助听器的由用户的相应左和右耳的听力损失模型(在图7中分别为 HLM_left,HLM_right)修改(以对用户的受损听觉系统的缺陷建模)的输出信号 u_left,u_right取为输入。左和右助听器中的至少一个如两个(如图7中所示)包括收发器单元Rx/Tx，用于(经无线链路，图7中的RF-LINK)接收包括目标信号x(如来自图6A情形下的传声器M)的纯净(实质上无噪声)版本的信号并提供纯净电输入信号x_lr。在图7的实施例中，同样版本的纯净目标信号x_lr在两助听器处接收。作为备选，纯净目标信号的个性化版本x_l,x_r(如反映空间线索)可由相应的左和右助听器接收。双耳语音可懂度预测单元BSIP提供双耳语音可懂度预测值(如从双耳语音可懂度预测单元BSIP到左和右助听器HD_L, HD_R的相应信号处理单元SPU的左和右SI预测信号d_bin,l,d_bin,l的形式)。

在图7的实施例中，语音可懂度估计/预测在左耳助听器HD_L中发生。右耳助听器HD_R的输出信号u_right经耳间通信链路IA-LINK传到左耳助听器HD_L。耳间通信链路可基于有线或无线连接(及基于近场或远场通信)。助听器HD_L, HD_R优选无线连接。

助听器HD_L,HD_R中的每一个包括两个传声器、信号处理单元SPU、混合单元MIX和扬声器SP_l,SP_r。另外，一个或两个助听器包括双耳语音可懂度单元BSIP。左和右助听器HD_L,HD_R的每一个的两个传声器中的每一个拾取可能有噪声的(时变)信号y(t)(参见图7中的y_1,left,y_2,left和y_1,right,y_2,right)，其通常由目标信号分量x(t)(参见图7中的x_1,left,x_2,left和x_1,right,x_2,right)和不想要的信号分量v(t)(参见图7中的v_1,left,v_2,left和v_1,right,v_2,right)组成。在图7中，下标1、 2分别指第一和第二(如前和后)传声器，而下标left、right或者l、r指其与左耳还是右耳助听器(分别为HD_L,HD_R)有关。

基于双耳语音可懂度预测系统(BSIP)，每一助听器的信号处理单元SPU 可(个别地)进行调整(参见控制信号d_bin,l,d_bin,r)。由于在图7的实施例中，双耳语音可懂度预测单元位于左耳助听器HD_L中，右耳助听器HD_R中的处理的调整需要将经通信链路IA-LINK从左耳助听器传到右耳助听器的控制信号 d_bin,r。

在图7中，左和右助听器中的每一个包括两个传声器。在其它实施例中，每一助听器(或者助听器之一)可包括三个以上传声器。同样，在图7中，双耳语音可懂度预测器BSIP位于左助听器HD_L中。作为备选，双耳语音可懂度预测器BSIP可位于右助听器HD_R中，或者作为备选，位于两个助听器中，优选在每一助听器中执行一样的功能。后一实施方式消耗更多的功率并需要输出音频信号u_left,u_right的双向交换，而可省略处理控制信号(图7中的d_bin,r)的传输。在又一实施例中，双耳语音可懂度预测单元BSIP位于单独的辅助装置如遥控器(例如体现在智能电话中)中，要求控制助听器和辅助装置之间建立音频链路以从相应助听器接收输出信号u_left,u_right及将处理控制信号d_bin,l,d_bin,r传给相应助听器HD_L,HD_R。

图8示出了提供双耳语音可懂度预测值的方法的实施例的流程图。该方法包括：

S1，提供或接收包括a)左和右实质上无噪声版本x_l,x_r及b)左和右有噪声和/或处理后版本y_l,y_r的语音的目标信号，所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示；

S5，分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本y_l(k,m) 和y_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y’_l(k,m)和y’_r(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号 y(k,m)；及

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或 “耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者 “可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

[Andersen et al.；2015]A.H.Andersen,J.M.de Haan,Z.Tan,and J.Jensen,“Abinaural short time objective intelligibility measure for noisy and enhancedspeech,” in INTERSPEECH,Dresden,Germany,Sept.2015,pp.2563–2567,2015.

[Andersen et al.；2016]A.H.Andersen,J.M.de Haan,Z.Tan,and J.Jensen,“Amethod for predicting the intelligibility of noisy and non-linearly enhancedbinaural speech”,To be presented at ISCASP 2016,Shanghai,China,20-25 March2016, Published in:IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP),pp.4995-4999,2016.

[ANSI S3.5-1997]American National Standards Institute,“S3.5-1997:Methods for calculation of the speech intelligibility index,”1997.

[Beutelmann&Brand；2006]Beutelmann,R.and Brand,T.,“Prediction ofspeech intelligibility in spatial noise and reverberation for normal-hearingand hearing-impaired listeners,”J.Acoust.Soc.Am.,Vol.120,pp.331–342,2006.

[Bronkhorst；2000]A.W.Bronkhorst,“The cocktail party phenomenon:Areview on speech intelligibility in multiple-talker conditions,”Acta AcusticaUnited with Acustica,vol.86,no.1,pp.117–128,Jan.2000.

[Falk et al.；2015]T.H.Falk,V.Parsa,J.F.Santos,K.Arehart,O.Hazrati,R.Huber,J.M.Kates,and S.Scollie,“Objective quality and intelligibilityprediction for users of assistive listening devices,”IEEE Signal ProcessingMagazine,vol.32,no.2, pp.114–124,Mar.2015.

[French&Steinberg；1947]N.R.French and J.C.Steinberg,“Factorsgoverning the

intelligibility of speech sounds,”J.Acoust.Soc.Am.,vol.19,no.1,pp.90–119, Jan.1947.

[Durlach；1963]N.I.Durlach,“Equalization and cancellation theory ofbinaural masking-level differences”,J.Acoust.Soc.Am.,vol.35,no.8,pp.1206–1218,Aug. 1963.

[Durlach；1972]N.I.Durlach,“Binaural signal detection:Equalization andcancellation theory”,in Foundations of Modern Auditory Theory Volume II,JerryV. Tobias,Ed.,pp.371–462.Academic Press,New York,1972.

[Taal et al.；2011]Taal,C.,Hendriks,R.,Heusdens,R.,and Jensen,J.,“Analgorithm for intelligibility prediction of time-frequency weighted noisyspeech,” IEEE Trans.Audio,Speech,Lang.Process.,Vol.19,pp.2125–2136,2011.

[Taal et al.；2012]C.H.Taal,R.C.Hendriks,and R.Heusdens,“Matchingpursuit for channel selection in coclear implants based on an intelligibilitymetric,”in Proceedings of the 20th European Signal Processing Conference(EUSIPCO), Bucharest,Romania,Aug.2012,pp.504–508.

Claims

1.一种侵入双耳语音可懂度预测系统，包括双耳语音可懂度预测单元，其适于接收包括a)左和右实质上无噪声版本x_l,x_r及b)左和右有噪声和/或处理后版本y_l,y_r中的语音的目标信号，所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示，所述双耳语音可懂度预测单元配置成将指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的感知的最终双耳语音可懂度预测值SI测度提供为输出，所述双耳语音可懂度预测单元包括：

-第一和第二输入单元，用于分别提供目标信号的左无噪声版本x_l和右无噪声版本x_r的时频表示x_l(k,m)和x_r(k,m)，k为频率窗口指数，k＝1,2,...,K，m为时间指数；

-第三和第四输入单元，用于分别提供目标信号的左有噪声和/或处理后版本y_l和右有噪声和/或处理后版本y_r的时频表示y_l(k,m)和y_r(k,m)，k为频率窗口指数，k＝1,2,...,K，m为时间指数；

-第一均衡-抵消级，适于分别接收和相对时移及振幅调节左和右无噪声版本x_l(k,m)和x_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右无噪声版本x’_l(k,m)和x’_r(k,m)彼此相减从而提供所得的无噪声信号x(k,m)；

-第二均衡-抵消级，适于分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本y_l(k,m)和y_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y’_l(k,m)和y’_r(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m)；及

其中，第一和第二均衡-抵消级适于优化最终双耳语音可懂度预测值SI测度以指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的最大可懂度。

2.根据权利要求1所述的侵入双耳语音可懂度预测系统，配置成重复第一和第二均衡-抵消级和单耳语音可懂度预测单元进行的计算以优化最终双耳语音可懂度预测值从而指明听者对目标信号的所述有噪声和/或处理后版本的最大可懂度。

3.根据权利要求1所述的侵入双耳语音可懂度预测系统，其中所述单耳语音可懂度预测单元包括：

-第一包络提取单元，用于按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信号X(q,m)，q为子频带指数，q＝1,2,...,Q，m为时间指数；

-第二包络提取单元，用于按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m)，q为子频带指数，q＝1,2,...,Q，m为时间指数；

-第二时频段分开单元，用于将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段y(q,m)；

4.根据权利要求1所述的侵入双耳语音可懂度预测系统，包括双耳听力损失模型。

5.一种双耳听力系统，包括适于位于用户的左和右耳处的左和右助听器及根据权利要求1所述的侵入双耳语音可懂度预测系统。

6.根据权利要求5所述的双耳听力系统，其中左和右助听器中的每一个包括：

-左和右输出单元，用于基于左和右电输出信号产生配置成可由用户感知为声音的输出刺激，所述电输出信号分别为左和右处理后的信号u_left,u_right的形式或者源自其的信号；

其中所述双耳听力系统包括：

a)双耳听力损失模型单元，其操作地连接到所述侵入双耳语音可懂度预测单元并配置成将反映用户的相应左和右耳的听力受损的随频率而变的修改应用于电输出信号以向所述侵入双耳语音可懂度预测单元提供相应修改的电输出信号。

7.根据权利要求5所述的双耳听力系统，其中左和右助听器中的每一个包括天线和收发器电路，用于在其间建立耳间链路以使能在其间交换包括音频和/或控制数据信号的数据。

8.用于提供双耳语音可懂度预测值的方法，所述方法包括：

S1，接收包括a)左和右实质上无噪声版本x_l,x_r及b)左和右有噪声和/或处理后版本y_l,y_r中的语音的目标信号，所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示；

S2，分别提供目标信号的左无噪声版本x_l和左有噪声和/或处理后版本y_l的时频表示x_l(k,m)和y_l(k,m)，k为频率窗口指数，k＝1,2,...,K，m为时间指数；

S3，分别提供目标信号的右无噪声版本x_r和右有噪声和/或处理后版本y_r的时频表示x_r(k,m)和y_r(k,m)，k为频率窗口指数，k＝1,2,...,K，m为时间指数；

S4，分别接收和相对时移及振幅调节左和右无噪声版本x_l(k,m)和x_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右无噪声版本x_l’(k,m)和x_r’(k,m)彼此相减从而提供所得的无噪声信号x(k,m)；

S5，分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本y_l(k,m)和y_r(k,m)，随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y_l’(k,m)和y_r’(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m)；及

S6，基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)提供最终双耳语音可懂度预测值SI测度，其指明听者对目标信号的有噪声和/或处理后版本y_l,y_r的感知；

9.根据权利要求8所述的方法，其中步骤S4和S5中的每一个包括：

-使得相对时移和振幅调节由下面的因子给出：

λ＝10^(γ+Δγ)/40e^{jω(τ+Δτ)/2}

及

<mrow> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&lambda;y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msup> <mi>&lambda;</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msubsup> <mi>y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msubsup> <mo>.</mo> </mrow>

10.根据权利要求9所述的方法，其中不相关的噪声源Δτ和Δγ通常以零平均值和标准偏差进行分布：

<mrow> <msub> <mi>&sigma;</mi> <mrow> <mi>&Delta;</mi> <mi>&gamma;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mn>2</mn> </msqrt> <mo>&CenterDot;</mo> <mn>1.5</mn> <mi>d</mi> <mi>B</mi> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>&gamma;</mi> <mo>|</mo> </mrow> <mrow> <mn>13</mn> <mi>d</mi> <mi>B</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>1.6</mn> </msup> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <mi>d</mi> <mi>B</mi> <mo>&rsqb;</mo> </mrow>

<mrow> <msub> <mi>&sigma;</mi> <mrow> <mi>&Delta;</mi> <mi>&gamma;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mn>2</mn> </msqrt> <mo>&CenterDot;</mo> <mn>65</mn> <mo>&CenterDot;</mo> <msup> <mn>10</mn> <mrow> <mo>-</mo> <mn>6</mn> </mrow> </msup> <mi>s</mi> <mo>&CenterDot;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mo>|</mo> <mi>&tau;</mi> <mo>|</mo> </mrow> <mrow> <mn>0.0016</mn> <mi>s</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&lsqb;</mo> <mi>s</mi> <mo>&rsqb;</mo> </mrow>

其中确定γ和τ的值以使所述可懂度预测值最大化。

11.根据权利要求8所述的方法，其中步骤S6包括：

-按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信号X(q,m)，q为子频带指数，q＝1,2,...,Q，m为时间指数；

-按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m)，q为子频带指数，q＝1,2,...,Q，m为时间指数；

12.根据权利要求11所述的方法，其中表示相应的第q个子频带信号的时域包络的时频信号X(q,m),Y(q,m)分别为按下式确定的功率包络：

及

<mrow> <msub> <mi>Y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <msub> <mi>k</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>k</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </munderover> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

其中k₁(q)和k₂(q)分别指第q个频带的下部和上部DFT窗口。

13.根据权利要求12所述的方法，其中所述功率包络安排为N个样本的向量：

x_q,m＝[X_q,m-N+1,X_q,m-N+2,...,X_q,m]^T，及

y_q,m＝[Y_q,m-N+1,Y_q,m-N+2,...,Y_q,m]^T

其中向量x_q,m和

14.根据权利要求13所述的方法，其中纯净和有噪声/处理后包络之间的相关系数确定为：

其中，期望值跨输入信号及噪声源Δτ和Δγ取得。

15.根据权利要求14所述的方法，其中跨输入信号的相关系数ρ_q的N个样本估计量由下式给出：

<mrow> <msub> <mover> <mi>&rho;</mi> <mo>^</mo> </mover> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>E</mi> <mi>&Delta;</mi> </msub> <mrow> <mo>&lsqb;</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&mu;</mi> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&mu;</mi> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>E</mi> <mi>&Delta;</mi> </msub> <mrow> <mo>&lsqb;</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&mu;</mi> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>&rsqb;</mo> </mrow> <msub> <mi>E</mi> <mi>&Delta;</mi> </msub> <mrow> <mo>&lsqb;</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&mu;</mi> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>&rsqb;</mo> </mrow> </mrow> </msqrt> </mfrac> </mrow>

16.根据权利要求15所述的方法，所述最终双耳语音可懂度预测值通过对信号中的所有帧m和频带q估计相关系数并跨这些帧和频带求平均获得：

<mrow> <mi>D</mi> <mi>B</mi> <mi>S</mi> <mi>T</mi> <mi>O</mi> <mi>I</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>Q</mi> <mi>M</mi> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>Q</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mover> <mi>&rho;</mi> <mo>^</mo> </mover> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </mrow>

其中Q和M分别为子频带数和帧数。