CN110740412B

CN110740412B - 包括语音存在概率估计器的听力装置

Info

Publication number: CN110740412B
Application number: CN201910651834.1A
Authority: CN
Inventors: J·詹森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2018-07-18
Filing date: 2019-07-18
Publication date: 2023-01-17
Anticipated expiration: 2039-07-18
Also published as: US11102590B2; US11503414B2; EP3598777A3; US20200053486A1; EP3598777B1; EP3598777C0; US20210352415A1; EP3598777A2; CN110740412A

Abstract

本申请公开了包括语音存在概率估计器的听力装置，所述听力装置包括：多个输入单元，每一输入单元按时频表示提供表示用户环境中的声音的电输入信号，其中所述声音为语音和附加噪声或其它失真的混合；多个波束形成器滤波单元，每一波束形成器滤波单元配置成接收多个电输入信号中的至少两个，所述多个波束形成器滤波单元中的每一个配置成提供表示用户周围的多个空间段的不同空间段中的声音的波束成形信号；多个语音概率估计器，每一语音概率估计器配置成接收特定空间段的波束成形信号并估计所述特定空间段在给定时间点和频率包含语音的概率；及其中所述多个语音概率估计器中的至少一个被实施为经训练的神经网络。

Description

包括语音存在概率估计器的听力装置

技术领域

本发明涉及在听力装置如助听器中例如使用算法如神经网络进行语音存在概率估计。

背景技术

用于SPP的单传声器算法是大多数语音处理算法中的关键组成部分，其中涉及有噪声的语音。这些算法试图基于有噪声的信号决定哪些时频区域语音为主及哪些时频区域噪声为主，或者，更一般地，它们估计每一时频区域中的语音存在概率。大量基于单传声器模型的SPP算法已在单传声器降噪的上下文中提出，例如参见[1]及其中的参考文献。这些算法趋于计算上简单及良好地工作，尤其在背景噪声静止/不波动时。最近，已提出用于单传声器SPP的基于深度学习的算法，例如参见[2]。这些算法通常将有噪声的幅度谱馈入深度神经网络(DNN)，其被训练以估计哪些时频区域语音为主及哪些时频区域噪声为主。

发明内容

已提出用于语音存在概率(SPP)估计的、作为时间、频率和空间位置的函数的多传声器算法框架。

在本申请中，公开了用于SPP估计的基于多传声器、深度学习的算法。所提出的算法不同于现有算法之处在于其结合了下述特征：a)其使用空间滤波(使用M≥2个传声器)，导致比迄今提出的基于单传声器(M＝1)的方法(例如参见[2])更好的性能；b)其使用有监督的学习(例如神经网络如深度神经网络(DNN))以避免在传统算法(例如参见[1])中进行的明确的(可能不太有效的)统计模型假设；及c)其依赖于理论上用于估计SPP的声音框架。与现有方法不同的是，所提出的算法在每一时频区域计算语音信号源自特定空间位置/方向的概率。

一方面，提供一种听力装置如助听器。该听力装置包括多个(zN个)(例如zN≥2或3)波束形成器，其配置成从佩戴听力装置的用户周围环境的不同空间段(例如也称为卷(volume)或单元(cell))拾取声音并提供表示这些声音的相应波束成形信号。不同空间段中的每一空间段的(唯一适应的)语音存在概率(SPP)基于相应的波束成形信号提供。给定空间段的语音存在概率的估计例如基于神经网络(如深度神经网络(DNN))提供，例如基于包括给定空间部分的已知内容的波束成形信号的数据集进行训练。

根据本发明的语音概率估计器的特别性质在于，每一空间单元均具有专用于其的SPP估计器。具体地，用于SPP估计器的与给定空间单元有关的一组给定优化参数(Ψ*ij)(例如神经网络的权重)已从朝向该特定空间单元的波束形成器处理(或提供)的训练数据产生。这通过专用于一个特定空间单元的SPP估计器在应用于另一空间单元时表现将不最佳的事实说明。因此，本解决方案相较将同一标准SPP应用于所有空间单元的解决方案(例如先前提及的单传声器解决方案)表现更好。

听力装置

在本申请的一方面，提供一种听力装置如助听器。该听力装置包括

-多个输入单元，每一输入单元按时频表示提供表示用户环境中的声音的电输入信号，其中所述声音为语音和附加噪声或其它失真如混响的混合；

-多个波束形成器滤波单元，每一波束形成器滤波单元配置成接收多个电输入信号中的至少两个如全部，所述多个波束形成器滤波单元中的每一个配置成提供表示用户周围的多个空间段如空间单元的不同空间段中的声音的波束成形信号。

听力装置还包括：

-多个语音概率估计器，每一语音概率估计器配置成接收特定空间段的波束成形信号并估计所述特定空间段在给定时间点和频率包含语音的概率；及其中所述多个语音概率估计器中的至少一个如全部被实施为经训练的神经网络如深度神经网络。

从而可提供改进的语音存在概率估计器。

听力装置可适于使得至少一输入单元包括：

-输入变换器如传声器，用于提供表示环境中的声音的时域电输入信号；及

-分析滤波器组，用于按时频表示提供电输入信号。

输入单元例如可包括用于将模拟电输入信号提供为数字样本的模数转换器。

听力装置可配置成由用户佩戴，例如佩戴在用户耳朵处或耳朵中(或者完全或部分植入在用户头部中)。

每一波束形成器滤波单元可配置成提取源自多个空间段中的特定空间段如该空间段的中心位置的信号，同时最大程度地抑制源自其它位置的信号。优选地，给定波束形成器滤波单元聚焦于不同于所有其它波束形成器滤波单元的唯一空间段。

听力装置可包括配置成实施合成波束形成器的合成波束形成器滤波单元，其为指向每一空间段如每一单元(θ_i,r_j)的由多个波束形成器滤波单元提供的波束形成器的线性组合，其中，线性组合的系数从语音存在概率得到，及其中合成波束形成器滤波单元配置成提供合成波束成形信号。合成波束成形信号例如用于根据用户的需要(例如补偿听力受损)进一步处理，和/或作为可感知为声音的刺激呈现给听力装置的用户。线性组合的系数w_res(k,l)例如通过下面的表达式给出：

其中k和l分别为频率和时间指数，T为空间段的数量，及P_i(k,l)为第i个空间段的语音存在概率(假定等于估计的语音存在概率

及w_i(k,l)为指向第i个空间段的第i个波束形成器的波束形成器权重。

听力装置可包括包含多个输入单元的单一听力装置或者可由前述单一听力装置构成。听力装置可由助听器、头戴式耳机、耳麦、耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。

听力装置可配置成使得多个语音概率估计器中的至少一个如全部实施为根据下面描述、具体实施方式中详述的及权利要求中限定的方法的经训练的神经网络。

在实施例中，听力装置适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。在实施例中，听力装置包括用于增强输入信号并提供处理后的输出信号的信号处理器。

在实施例中，听力装置包括输出单元，用于基于处理后的电信号提供由用户感知为声信号的刺激。在实施例中，输出单元包括耳蜗植入件的多个电极或者骨导听力装置的振动器。在实施例中，输出单元包括输出变换器。在实施例中，输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施例中，输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。

在实施例中，听力装置包括用于提供表示声音的电输入信号的输入单元。在实施例中，输入单元包括输入变换器如传声器，用于将输入声音转换为电输入信号。在实施例中，输入单元包括用于接收包括声音的无线信号并提供表示所述声音的电输入信号的无线接收器。

在实施例中，听力装置包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。在实施例中，定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

在实施例中，听力装置包括用于从另一装置如从娱乐设备(例如电视机)、通信装置(如电话)、无线传声器或另一听力装置无线接收直接电输入信号的天线和收发器电路(如无线接收器)。在实施例中，直接电输入信号表示或包括音频信号和/或控制信号和/或信息信号。在实施例中，听力装置包括用于对所接收的直接电输入进行解调的解调电路，以提供表示音频信号和/或控制信号的直接电输入信号，例如用于设置听力装置的运行参数(如音量)和/或处理参数。总的来说，听力装置的天线及收发器电路建立的无线链路可以是任何类型。该链路可以是单向或双向。在实施例中，无线链路在两个装置之间建立，例如在娱乐装置(如TV)和听力装置之间，或者在两个听力装置之间，例如经第三中间装置(如处理装置，例如遥控装置、智能电话等)。在实施例中，无线链路在功率约束条件下使用，例如由于听力装置是或包括便携式(通常电池驱动的)装置。在实施例中，无线链路为基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中，无线链路基于远场电磁辐射。在实施例中，经无线链路的通信根据特定调制方案进行安排，例如模拟调制方案，如FM(调频)或AM(调幅)或PM(调相)，或数字调制方案，如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。

在实施例中，听力装置与另一装置之间的通信在基带(音频频率范围，例如在0和20kHz之间)中。优选地，听力装置和另一装置之间的通信基于高于100kHz的频率下的某类调制。优选地，用于在听力装置和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。在实施例中，无线链路基于标准化或专用技术。在实施例中，无线链路基于蓝牙技术(如蓝牙低功率技术)。

在实施例中，听力装置为便携装置，如包括本机能源如电池例如可再充电电池的装置。

在实施例中，听力装置包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。在实施例中，信号处理器位于该正向通路中。在实施例中，信号处理器适于根据用户的特定需要提供随频率而变的增益。在实施例中，听力装置包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中，分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中，分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中，表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值，N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，如50μs，对于f_s＝20kHz。在实施例中，多个音频样本按时间帧安排。在实施例中，一时间帧包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。

在实施例中，听力装置包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。在实施例中，听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，听力装置如传声器单元和/或收发器单元包括用于提供输入信号的时频表示的TF转换单元。在实施例中，时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中，TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。在实施例中，TF转换单元包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。在实施例中，听力装置考虑的、从最小频率f_min到最大频率f_max的频率范围包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率f_max的两倍，即f_s≥2f_max。在实施例中，听力装置的正向通路和/或分析通路的信号拆分为NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。在实施例中，助听器适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

在实施例中，听力装置包括多个检测器，其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。

在实施例中，多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中，多个检测器中的一个或多个对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

在实施例中，多个检测器包括用于估计正向通路的信号的当前电平的电平检测器。在实施例中，预定判据包括正向通路的信号的当前电平是否高于或低于给定(L-)阈值。在实施例中，电平检测器作用于全频带信号(时域)。在实施例中，电平检测器作用于频带拆分信号((时-)频域)。

在特定实施例中，听力装置包括话音检测器(VD)，用于估计输入信号(在特定时间点和/或频率和/或空间段)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中，话音检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。在实施例中，话音检测器适于将用户自己的话音也检测为“话音”。作为备选，话音检测器适于从“话音”的检测排除用户自己的话音。

在实施例中，听力装置包括自我话音检测器，用于估计在给定时间、频率和/或空间段的特定输入声音(如话音，如语音)是否(或以何种概率)源自系统用户的话音。在实施例中，听力装置的传声器系统适于能够在用户自己的话音及另一人的话音之间进行区分及可能与无话音声音区分。

单元中的分段可包括自我话音段(包括用户嘴巴周围的卷或段)，用于从听力装置用户估计(自我话音)语音存在概率(OV-SPP)。自我话音检测例如可在自我话音SPP高于自我话音阈值时得以决定(假定)。从而，可提供二元自我话音检测器。在听力装置的特定“自我话音运行模式”下(例如在电话对话期间)，用户的自我话音被拾取并经通信接口转发给另一装置(如电话或计算机或类似的通信装置)。

在实施例中，多个检测器包括运动检测器，例如加速度传感器。在实施例中，运动检测器配置成检测例如因语音或咀嚼引起的用户面部肌肉和/或骨头的运动(例如颌部运动)并提供标示该运动的检测器信号。

在实施例中，听力装置包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；

c)用户的当前模式或状态(运动、温度、认知负荷等)；

d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

在实施例中，听力装置还包括用于所涉及应用的其它适宜功能，如压缩、反馈消除、降噪等。

在实施例中，听力装置包括听音装置如助听器、听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器，例如头戴式耳机、耳麦、耳朵保护装置或其组合。在实施例中，助听系统包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。在实施例中，提供在包括音频分布的系统中的应用。在实施例中，提供在包括一个或多个助听器(听力仪器)的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用，例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等中的用途。

提供语音存在概率的估计量

的方法

一方面，本申请进一步提供在听力装置如助听器中提供包括语音和附加噪声或其它失真如混响的声音信号的语音存在概率的估计量

的方法。听力装置包括多个输入单元，每一输入单元按时频表示(k,l)提供表示所述声音信号的电输入信号。所述方法包括：

-按多个空间段(i,j)提供用户周围空间的细分；

-提供语音存在指示函数，对于给定电输入信号，其指明在给定频率和时间(k,l)、在给定空间段(i,j)中是否或者以何种程度存在语音；及

对于每一空间段(i,j)，

-提供训练信号的第一数据库(Ψ_ij)，包括多对对应的表示所涉及空间段中的声音的有噪声波束成形信号X(k,l,θ_i,r_j)及所述语音存在指示函数的按时频表示的关联值I(k,l,θ_i,r_j)，其中所述语音存在指示函数的所述值表示地面真值；及

-确定算法如神经网络(DNN)的优化参数(Ψ^* _ij)，用于通过用所述第一数据库(Ψ_ij)的至少部分所述有噪声波束成形信号X(k,l,θ_i,r_j)及所述语音存在指示函数的所述关联值I(k,l,θ_i,r_j)优化例如训练所述算法而估计所述语音存在概率，所述算法提供对应的估计的语音存在标示值

参数(Ψ*_ij)的优化在使价值函数例如所述估计的语音存在标示值的均方估计误差最小化的约束条件下进行。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

该方法可包括，对于多个输入单元中的每一输入单元，通过改变下述之一或多个例如全部而产生(或记录)用于训练数据库的多个纯净电输入信号S_m(k,l),m＝1,…,M：

1)目标语音源，例如不同的讲话者(例如包括男性、女性和孩童讲话者)，每一讲话者的语音信号不同；

2)目标空间位置(θ_i,r_j)，例如通过使来自1)的语音信号与从多个不同空间位置(例如包括从听力装置用户的嘴巴)到位于用户或用户模型的耳朵上/耳朵处的输入单元如传声器的脉冲响应卷积而产生纯净传声器信号；

3)头大小，例如具有不同形状和声音传播性质的不同的头；

4)输入单元，例如传声器变化，例如不同的传声器特性。

该方法可包括，通过改变下述之一或多个如全部而基于所述纯净电输入信号S_m(k,l),m＝1,…,M产生用于训练数据库的有噪声波束成形信号X(k,l,θ_i,r_j)：

a)附加噪声或其它失真类型，例如鸡尾酒会噪声、汽车舱噪声、竞争讲话者、其它环境噪声、混响等；

b)在手边应用中、在实践中通常观察到目标信号时的信噪比(SNR)，例如-25dB≤SNR≤50dB如-15dB≤SNR≤25dB或者-10dB≤SNR≤30dB，

从而产生与所述纯净电输入信号对应的有噪声电输入信号X_m(k,l),m＝1,…,M；及通过将所述有噪声电输入信号暴露于相应的波束形成器，提供表示所涉及空间段中的声音的所述有噪声波束成形信号X(k,l,θ_i,r_j)。

个性化：该方法可包括提供算法如神经网络(例如深度神经网络，DNN)的多个半个性化的优化参数(Ψ^* _ij)，用于估计(例如给定空间段z的)语音存在概率(SPP)。该方法可包括基于多个不同的头模型产生训练数据(例如代替在训练数据中包括不同的头大小，参见上面的“3)”)。该方法可包括针对人类的每一主要类型(如男性、女性、孩童)提供多个(N_HM个)不同的头模型(例如10个，例如具有不同的头尺寸或形状)。该方法可包括针对多个(例如3*10个)不同的头模型提供用于SPP估计的优化的神经网络(DNN)。头模型可包括人造模型(例如来自Brüel&Kjaer Sound&Vibration Measurement A/S的头和躯干模拟器(HATS)4128C或者来自GRAS Sound and Vibration A/S的头和躯干模型KEMAR或类似模型)或者真人(包括不同的头)。

提供适合针对给定用户(例如在空间段z中，或者对于多个或所有空间段)估计语音存在概率的算法如神经网络(DNN)的优化参数集(Ψ^* _ij)的选择方法。该方法包括：

-将配备有听力装置或者一对听力装置的用户安排在相对于测试声源(如讲话的人例如听觉护理专家(HCP)或者声音正从其播放的扬声器)的预定位置(如前面)，听力装置包括用于提供表示用户环境中的声音的相应电输入信号的多个输入变换器(如传声器)；

-从测试声源提供测试声音信号，所述测试声音信号按实质上无噪声版本记录或者获知；

-通过听力装置的所述多个输入变换器经从测试声源到相应输入变换器的声学通道接收所述测试声音信号的一个或多个时间段；

-针对从相应输入变换器处接收的所述测试声音信号的所述一个或多个时间段选择的多个(或全部)空间段提供相应的一个或多个时间段的波束成形测试信号，特定波束成形测试信号对应于用户周围的特定空间段z；

-将噪声添加到所述一个或多个时间段的波束成形测试信号以提供测试数据库，其包括所述波束成形测试信号中的一个或多个的具有不同信噪比的多个有噪声时间段，所述多个时间段中的每一个具有已知的关联信噪比或者对应的语音存在度量；

-针对一个或多个空间段z，针对在相应类型用户如男性、女性、孩童的模型之中选择的N_HM个不同的头模型，提供用于估计语音存在概率的算法如神经网络(DNN)的优化的参数集(Ψ^* _ij)(例如使用来自用户周围的多个讲话者、位置、不同类型的附加噪声源等的声音样本的训练数据库优化，如上面概述的)；

-将来自所述测试数据库的所述波束成形测试信号的多个有噪声时间段应用于所述算法如神经网络(DNN)，使用每一所述优化的参数集(Ψ^* _ij)针对所述一个或多个(如全部)空间段z估计所述多个不同的头模型的语音存在概率；

-对于使用针对所述多个不同的头模型的每一优化的参数集(Ψ^* _ij)的所述算法，将每一所述波束成形测试信号的估计的语音存在概率或者从其得到的语音存在度量(SPM)与对应的已知的语音存在度量比较，并针对所述一个或多个(如全部)空间段z提供每一头模型的差度量；

-根据所述差度量选择所述算法如神经网络的优化的参数集(Ψ^* _ij)，例如使用价值函数，例如通过选择展现最小差度量的算法，例如针对所述一个或多个(如全部)空间段z在多个头模型之中选择算法的最佳参数集(Ψ^* _ij)。

从而提供个性化的语音存在概率估计(例如针对给定空间段z或者针对所有空间段)。该过程可针对单一空间段执行，或者针对多个如所有波束成形信号重复以得到所有空间段的个性化SPP，例如N(z＝z1,…,zN)。该过程可针对特别选择的空间单元如用户前面的空间单元例如自我话音空间单元重复。在实施例中，空间单元的数量大于2，如大于3。在实施例中，空间单元的数量在3到8的范围中或者在3到16之间或者在3到24(或32)之间。在实施例中，空间单元的数量为4，例如前、后、左、右(例如相对于用户的视向)。空间单元可重叠。空间单元可(实质上)不重叠。

用于个性化目的，在用户佩戴将被调整的特定听力装置(或多个听力装置)的同时，对于(空间段z的)测试数据库的第q个(纯净)时间段的给定时频块(tile)(k,l)，在录音室或具有可预测声学环境的其它位置记录(实质上无噪声、纯净的)波束成形测试信号S_q,z(k,l)，其中k和l分别为频率和时间指数。测试信号的波束成形时间段S_q,z(k,l)用于通过添加(如不同幅度的)噪声V_q,z(k,l)而产生多个有噪声时间段X_q,z(k,l)，即X_q,z(k,l)＝S_q,z(k,l)+V_q,z(k,l)。因此，(对应于特定空间段z的)波束成形信号的给定有噪声时间段的有噪声时频块的信噪比已知，及例如表达为SNR_q,z(k,l)＝│S_q,z(k,l)│²/│V_q,z(k,l)│²。

测试数据的SNR值例如可被转换为语音存在概率或者(更简单的)语音存在度量，例如具有指明语音存在程度的多个“状态”。语音存在度量(SPM)例如可通过两个状态定义：a)语音为主/主导(SD)或b)噪声为主(ND)；或者通过三个状态：A)语音为主(SD)、B)噪声为主(ND)或C)中间(？)。不同的状态例如可通过SNR的阈值确定，例如

·SNR(k,l)>SNR_th1＝>块(k,l)是语音为主(SD)

·SNR(k,l)<SNR_th2＝>块(k,l)是噪声为主(ND)

·其中0≤SNR_th2≤SNR_th1≤1。

类似地，具有优化的参数集(Ψ^* _ij)(例如针对N_HM个不同的头模型)的算法的语音存在概率(SPP)可被转换为语音存在度量(SPM)，例如具有指明语音存在程度的多个“状态”，例如

·SPP(k,l)>SPP_th1＝>块(k,l)是语音为主(SD)

·SPP(k,l)<SPP_th2＝>块(k,l)是噪声为主(ND)

·其中0≤SPP_th2≤SPP_th1≤1。

代替将噪声添加到波束成形测试信号，噪声可被添加到来自输入变换器的相应电输入信号(及有噪声波束成形测试信号可通过听力装置的相应波束形成器针对不同的空间段产生)。

听力装置的运行方法

一方面，进一步提供听力装置如助听器的运行方法。该方法包括

-按时频表示提供表示用户环境中的声音的多个电输入信号，其中所述声音为语音和附加噪声或其它失真如混响的混合；

-提供多个波束成形信号，每一波束成形信号表示用户周围的多个空间段如空间单元的不同空间段中的声音，及每一波束成形信号基于所述多个电输入信号中的至少两个如全部；

-针对所述多个空间段中的每一空间段，根据所述波束成形信号提供所涉及空间段在给定时间点和频率包含语音的概率P_ij(k,l)的估计量；及

其中多个语音存在概率估计量中的至少一个如全部由经训练的神经网络如深度神经网络提供。

该方法可包括，语音存在概率估计量中的至少一个由根据上面描述的、具体实施方式部分详述的及权利要求中限定的提供语音存在概率的估计量

的方法训练的神经网络提供。

该方法可包括：

-提供合成波束成形信号，其为指向每一空间段如每一单元(θ_i,r_j)的多个波束成形信号的线性组合，其中，线性组合的系数w _res(k,l)从语音存在概率P_ij(k,l)及用于提供多个波束成形信号的波束形成器权重w_ij(k,l)得到。

线性组合的系数w _res(k,l)例如通过下面的表达式给出：

其中k和l分别为频率和时间指数，TxR为空间段的数量(例如参见图2)，及P_ij(k,l)等于为第(i,j)个空间段的估计的语音存在概率

及w _ij(k,l)为指向第(i,j)个空间段的第(i,j)个波束形成器的波束形成器权重。线性组合的系数w _res(k,l)及各个波束形成器的波束形成器权重中的每一个在此通过Mx1向量(M行、1列)表示，其中M为输入单元如传声器的数量。

合成波束成形信号Y_res可由下面的表达式给出：

Y_res(屯l)＝X(k，l)·w _res(k，l)^T

其中上标^T指转置。波束成形信号Y_res因而可被表达为线性组合

Y_res＝X₁·w_1,res+X₂·w_2,res+X_Mw_M,res

其中M个有噪声的电输入信号[X₁,X₂,…,X_M]及系数[w_1,res,w_2,res,…,w_M,res]中的每一个(因此及波束成形信号Y_res)按时频表示(k,l)定义。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，提供包括第一和第二上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置的听力系统。第一和第二听力装置中的每一个天线和收发器电路，配置成在其间建立通信链路，及每一听力装置包括多个输入单元中的至少一个。在实施例中，听力系统适于实施双耳听力系统例如双耳助听器系统。

听力系统可包括辅助装置，例如用于处理数据和/或用于实施用户接口。

在实施例中，听力系统适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

在实施例中，听力系统包括辅助装置，例如遥控器、智能电话、或者其它便携或可穿戴电子设备如智能手表等。

在实施例中，辅助装置是或包括遥控器，用于控制听力装置的功能和运行。在实施例中，遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

在实施例中，辅助装置是或包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。在实施例中，该APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。

用户接口可配置成使用户能例如通过在多个预定配置之中如在图2所示配置与图6所示配置之间选择而影响如确定用户周围空间段的配置。

定义

在本说明书中，“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

听力装置可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

更一般地，听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些听力装置中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中，输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激耳蜗神经的多电极阵列)。在实施例中，听力装置包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)。

在一些听力装置中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中，振动器可植入在中耳和/或内耳中。在一些听力装置中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到听力装置，并由听力装置的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

本发明的实施例如可用在如助听器或通信装置的应用中，例如头戴式耳机或电话或喇叭扩音器。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A示出了根据本发明的(单一、单耳)听力装置的实施例的使用情形。

图1B示出了根据本发明的双耳听力系统的第一实施例的使用情形。

图1C示出了根据本发明的双耳听力系统的第二实施例的使用情形。

图2示出了对于特定时刻l和特定频率指数k，空间被分为通过相对于用户头部中心的角度θ及到单元中心的距离r参数化的单元。

图3示出了从纯净的传声器目标信号s₁(n),…,s_M(n)确定“地面真值”二元语音存在指示函数I(k,l,θ,r)的示例性框图，在此M＝2。

图4示出了用于训练DNNΨ_θi,rj以估计特定空间单元(θ_i,r_j)的语音存在概率的示例性框图。

图5示出了经训练的DNNΨ*_θi,rj应用于有噪声的传声器信号以产生语音存在概率估计量I^*(k,l,θ_i,r_j)。

图6示出了使用相对声学传递函数而不是声学传递函数的示例性空间分解导致“饼片”分解(参见图2)。

图7示意性地示出了用于从时频表示的有噪声输入信号确定语音存在概率估计器(SPPE)

的神经网络。

图8示出了根据本发明第一实施例的听力装置。

图9示出了根据本发明第二实施例的听力装置。

图10示出了聚焦于自我话音存在概率的估计的示例性空间分解。

图11示出了包括将用于自我话音存在概率的估计的多个指定单元的另一示例性空间分解。

图12A示出了用于产生声音数据的测试数据库的方案，用于在针对不同的头模型的多个预先确定的优化参数之中选择神经网络的一组特定优化参数。

图12B示出了使用图12A中确定的声音数据测试数据库在针对不同的头模型的多个预先确定的优化参数之中选择神经网络的一组特定优化参数的方案。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置如助听器领域。

SPP估计

我们考虑例如图1A、1B或1C中所示的声学情形。具体地，我们考虑助听装置或系统的用户，助听装置或系统具有总共M≥2个传声器，其通常位于用户耳朵处/耳朵中，及其可按单耳(一只耳朵处)或双耳(两只耳朵处)配置进行组织。

图1A示出了根据本发明的(单一、单耳)听力装置的实施例的使用情形。用户U在左耳处佩戴单一(单耳)听力装置HD。该听力装置包括适于位于用户耳后的BTE部分。该听力装置包括第一和第二输入变换器，在此为分别提供第一和第二电输入信号的前和后传声器(FM1,RM1)。两个传声器间隔开ΔL_M(例如≈10mm)并形成传声器轴MIC-DIR。听力装置HD包括波束形成器滤波单元，从而使根据本发明的波束形成能基于第一和第二电输入信号执行。

在图1A和1C的场合中，各个听力装置(图1A中的HD1和图1C中的HD1、HD2)的传声器轴平行于通过用户鼻子确定的视向LOOK-DIR。这通过按如图所示安装听力装置实现，使得BTE部分的主体(因此及传声器轴)实质上平行于用户的前面方向。

图1B示出了根据本发明的双耳听力系统的第一实施例的使用情形。用户U将第一和第二听力装置(HD1,HD2)分别佩戴在左耳和右耳处。两个听力装置中的每一个包括适于位于用户耳后的BTE部分。第一和第二听力装置(HD1,HD2)中的每一个被示为包含单一传声器(分别为M1、M2)。第一和第二听力装置的传声器分别提供第一和第二电输入信号。在该实施例中，两个传声器分开一定距离(大约等于头直径如200mm)定位。“传声器轴”(在两个传声器信号一起进行处理的情形下)垂直于用户U的视向LOOK-DIR。第一和第二听力装置(HD1,HD2)中的每一个包括天线和收发器电路，从而使两个听力装置能交换相应的传声器信号或者将它们的传声器信号(完全或部分)转发给处理装置(如遥控器或智能电话或者听力装置之一)。听力系统(例如听力装置之一或者每一听力装置(或单独的处理装置))包括波束形成器滤波单元，从而使根据本发明的波束形成能基于第一和第二电输入信号进行。

图1C示出了根据本发明的双耳听力系统的第二实施例的使用情形。用户U将第一和第二听力装置(HD1,HD2)分别佩戴在左耳和右耳处，如结合图1B所述。两个听力装置中的每一个包括适于位于用户耳后的BTE部分。然而，在图1C的实施例中，第一和第二听力装置(HD1,HD2)中的每一个包括两个传声器(分别为(FM1,RM1)和(FM2,RM2))，如结合图1A所述。两对传声器中的每一对分别提供第一和第二电输入信号。听力系统(例如听力装置之一或者每一听力装置(或单独的处理装置))包括波束形成器滤波单元，从而使根据本发明的波束形成能基于第一和第二听力装置的两组第一和第二电输入信号的至少两个进行。在实施例中，第一和第二听力装置中的每一个包括提供根据本发明的波束形成的波束形成器滤波单元，例如包括语音存在概率的估计及提供合成波束成形信号。波束形成例如可基于本地产生的第一和第二电输入信号或者基于一个或两个本地产生的电输入信号及一个或两个来自对侧听力装置的电输入信号(或其部分，例如所选频率范围/频带)。相应的第一和第二听力装置(HD1,HD2)的“本地”传声器系统的传声器方向在图1C中标示(分别记为REF-DIR1和REF-DIR2)。使用来自两个听力装置的传声器的优点在于，合成波束形成器能更先进(包括更多高灵敏度波瓣和/或在其角灵敏度(极坐标图)中包括更多最小值)。

在图1A、1B、1C的实施例中，听力装置被示为包括“耳后”(BTE)部分，传声器位于该部分中。也可应用包括适于位于用户头上别处(如用户耳朵中或耳朵周围)的部分的其它风格的听力装置，同时仍有利地提供根据本发明的语音存在概率估计及可能提供合成波束成形信号。

A、信号模型

我们假定传声器m处接收的信号x_m(n)由纯净信号s_m(n)和附加噪声分量v_m(n)组成，

x_m(n)＝s_m(n)+v_m(n)；m＝1,…,M (1)

每一传声器信号被传过分析滤波器组，导致时频表示

X_m(k,l)＝S_m(k,l)+V_m(k,l),m＝1,…,M (2)

其中k和l分别为频率和时间指数。一般地，X_m(k,l),S_m(k,l),

即它们为复值。将特定(k l)对的传声器信号堆叠成向量，我们得到

X(k,l)＝S(k,l)+V(k,l) (3)

其中X(k,l)＝[X₁(k；l)···X_M(k,l)]^T为Mx1向量，上标^T指转置，及其中向量S(k,l)和V(k,l)类似地定义。

B、空间分解

我们将感兴趣纯净和有噪声信号的空间起点。因此，我们将空间划分为段如单元，如图2中所示。所有参数(k,l,θ,r)均为离散值。具体地，对于给定频率k和时刻l，空间被分为通过(θ,r)参数化的单元。对(θ,r)分别表示空间单元相对于用户头部中心的距离和角度，并从离散集{θ_i,r_j},i＝1,…,T；j＝1,…,R选择。为了简单起见，我们在此考虑空间的二维表示，扩展到三维描述很简单。

为进行纯净和有噪声信号的这种空间分解，我们使用空间滤波器(波束形成器)。具体地，为将纯净信号分解为空间单元S(k,l,θ；r)，波束形成器被应用于纯净传声器信号向量S(k,l)(这例如在离线训练阶段进行，其中纯净信号可访问，具体参见下面的描述)。例如，S(k,l,θ；r)可被计算为

其中

为波束形成器权重向量，由下式给出：

W_S(k,θ,r)＝d(k,θ,r)/(d^H(k,θ,r)d(k,θ,r)) (5)

其中

为声学传递函数向量，其项为从空间位置(r,θ)到每一传声器的声学传递函数，及其中上标^H指向量转置和复共轭(厄米(Hermitian)转置)。应注意，该波束形成器为时不变波束形成器(与l无关)。

为从有噪声传声器信号计算X(k,l,θ,r)，最小方差无失真响应(MVDR)波束形成器W_X(k,l,θ,d)例如可应用于有噪声传声器信号向量X(k,l)，

其中

其中

为有噪声信号的互功率谱密度矩阵，其可容易地从有噪声传声器信号估计。在此也可使用其它波束形成器，如W_S(k,θ,r)(等式(5))。然而，使用等式(7)中的MVDR波束形成器W_X的优点在于，该波束形成器完美地保留来自位置(r,θ)的信号分量，同时最大程度地抑制来自其它方向的信号分量(这减少了不想要的信号分量“泄漏”到X(k,l,θ,r)内并确保源自位置(r,θ)的有噪声信号分量的最佳估计)。

图2示意性地示出了对于特定时刻l和特定频率指数k，用户U周围的空间被分为通过相对于用户头部中心的角度θ及(例如到单元中心的)距离r参数化的单元(θ_i,r_j)。用户U佩戴包括位于用户左和右耳处的第一和第二听力装置的示例性双耳听力系统，例如如图1C中所示。信号S在特定频带k和特定时间l的值(S(k,l,θ_i,r_j)和S(k,l,θ_i’,r_j’))针对两个不同的空间单元(θ_i,r_j)和(θ_i’,r_j’)标示。在实施例中，针对用户周围空间的多个如所有单元确定信号的具体值。用户周围空间例如可限于某一距离，例如r_j<r_max，如图2中外粗虚线圆标示的。在实施例中，具有大于(如预定)阈值r_th的半径值r_j的用户周围空间对于每一特定角度值θ_i通过单一单元表示，即，例如在图2的图示中，粗虚线圆(在该情形下表示阈值r_th)外面的每一“饼片”(由θ的具体值表示)仅包含一个单元。类似地，用户周围空间的单元可以是相等或不同大小。在实施例中，单元大小随距用户U的径向距离r_j和/或用户周围角度θ_i变化。单元的大小例如可随距用户的径向距离增加而增大。在实施例中，单元大小按角度看不均匀，例如在用户前面包括比别处小的单元。在实施例中，空间分段可配置，例如从用户接口配置，例如实施在遥控器中或者实施为智能电话或类似设备(例如平板电脑)的APP。在用户周围角向的空间段数量(每一段通过θ_i的具体值确定)大于或等于2，例如大于或等于3、大于或等于4。用户周围径向的空间段数量(每一段通过r_j的具体值确定)大于或等于1，例如大于或等于2，例如大于或等于3。

C语音存在概率(SPP)估计

对于每一空间单元和对于特定时间l和频率k，我们考虑下面的假设：

H₀(k,l,θ,r):S(k,l,θ,r)＝0(语音不存在) (8)

H₁(k,l,θ,r):S(k,l,θ,r)≠0(语音存在) (9)

SPP定义为存在语音的概率，即P(H₁)。

为了估计P(H₁)，我们定义下面的指示函数：

为估计P(H₁)，我们将感兴趣基于(通常)有噪声的传声器信号找到I(k,l,θ,r)的估计量

原则上，该估计量可基于整个可观察的有噪声信号。然而，在实践中，其主要为(k,l,θ,r)的频谱、时间和空间“邻里”中的有噪声信号，携带关于频率、时间、空间段(如单元)(k,l,θ,r)中语音存在的信息。术语“频谱邻里”例如可包括在所涉及频率的+/-100Hz内的频率。术语“时间邻里”例如可包括距当前时间+/-50ms内的时刻。在实施例中，术语“空间邻里”可包括位于0.4m半径内的空间单元，在所涉及空间单元的(例如中心的)0.25m内。因此，

指估计量

基于其的有噪声信息。

接下来，考虑I(k,l,θ,r)的最小均方估计器

为了记法方便，我们删掉参数相干性。则其可被示为(省略细节)，SPP简单地等于

因此，为了求得SPP，我们需要求解I(k,l,θ,r)的最小均方误差(MMSE)估计器

在下面，我们描述求解该估计量的过程，使用有监督的学习，在我们的例子中，我们使用深度神经网络(DNN)，但也可使用其它算法结构(例如基于高斯混合模型、隐马尔科夫模型、支持向量机等的估计器)。

训练：找到DNN MMSE估计器的参数

对于给定的有噪声传声器信号X(k,l)，我们希望计算语音存在概率P(H₁(k,l,θ_i,r_j)),i＝1,…,T,j＝1,…,R。从等式(12)得出，这相当于计算MMSE估计量

我们提出使用深度神经网络(DNN)来得到这些MMSE估计量，其参数在离线有监督的学习过程中得到。该过程要求访问(很大的)一组训练信号，即有噪声传声器信号的例子X(k,l)及对应的二元语音存在变量I(k,l,θ,r)。在下面，将说明怎样构建该训练数据的例子。

A、产生用于训练的纯净和有噪声传声器信号

产生(或记录)纯净和有噪声传声器信号，其随下列因素变化：

1)目标语音源(不同的讲话者，每一讲话者的语音信号不同)；

2)目标空间位置(θ_i,r_j)，例如通过使来自1)的语音信号与从多个不同空间位置到位于多个不同的人的耳朵上/耳朵处的传声器的脉冲响应卷积而产生纯净传声器信号；

3)附加噪声(例如鸡尾酒会噪声、汽车舱噪声、竞争讲话者、其它环境噪声等)；

4)在手边应用中、在实践中通常观察到目标信号时的信噪比(SNR)，(例如-15dB≤SNR≤25dB或者-10dB≤SNR≤30dB)；

5)头大小；

6)传声器变化。

传声器信号的大语料库通过组合上面描述的因素而产生：所使用的组合共同的是它们表示有噪声信号，其通常可在真实生活情形体验到。因此，如果任何这些因素的现有知识可用，则用于训练的有噪声信号应反映该知识。例如，如果目标讲话者的身份已知，则在1)中应仅使用来自该特定个人的语音信号。类似地，如果知道将预期特定噪声类型(如汽车应用中的汽车舱噪声)，则用于产生有噪声传声器信号的噪声(上面的3))应汽车噪声主导。有利地，数据(传声器信号)用听力装置或一对听力装置记录，如在计划使用情形中一样(例如同样的风格、同样的数量及传声器相对于用户同样的位置等)。在实施例中，至少部分数据由用户自己在佩戴适合他的听力装置或一对听力装置的同时收集，与计划使用的日期相同或类似。

B、获得训练对I(k,l,θ,r)和X(k,l)

从上面产生的纯净目标信号(即1)和2))，计算二元语音存在指示函数I(k,l,θ,r)。该过程在图3中示出：来自特定目标位置(θ’,r’)(上面的2))的特定纯净的训练信号(上面的1))被传过分析滤波器组，导致信号S_m(k,l),m＝1,…,M。滤波器组信号然后被传过朝向位置{θ_i,r_j}i＝1,…,T；j＝1,…,R的波束形成器(例如等式(5))，对于每一i＝1,…,T；j＝1,…,R，导致信号(作为k和l的函数，即“谱图”)S(k,l,θ_i,r_j)。地面真值指示函数I(k,l,θ_i,r_j)通过决定所得的S(k,l,θ_i,r_j)是否明显不同于0进行计算。在实践中，这可将单元中的信号能量S(k,l,θ_i,r_j)与小阈值∈>0比较进行：

为了训练DNN，地面真值二元语音存在指示函数(等式)连同引起所涉及的语音存在指示函数的特定潜在的纯净训练信号(上面的1)和2))的有噪声版本(上面的3)和4))一起存储。

该过程的结果为多对指示函数I(k,l,θ,r)和有噪声信号X(k,l)的(大)集合，因为其，潜在的纯净信号精确地导致该指示函数。

C、训练DNN MMSE估计器

图4示出了用于训练算法如神经网络例深度神经网络DNNΨ_θi,rj以估计特定空间单元(θ_i,r_j)的语音存在概率的示例性框图。经训练的DNN由参数集Ψ*_θi,rj表示(参见图5)。该过程重复以针对每一空间单元(θ_i,r_j)训练独立的DNNΨ*_θi,r_j。用于训练神经网络DNNΨ_θi,rj的电路包括M个传声器M1,…,MM(M≥2)，用于捕获环境声音信号x₁(n),…,x_M(n)并提供相应的(如模拟或数字化)电输入信号IN1,…,INM，n指时间。每一传声器通路分别包括分析滤波器组FB-A1,…,FB-AM，用于(可能数字化并)将相应时域电输入信号IN1,…,INM转换为对应的按时频表示的电输入信号X₁(k,l’),…,X_M(k,l’)，其中k和l’分别为频率和时间(帧)指数。电输入信号X₁(k,l’),…,X_M(k,l’)被馈给波束形成器W_X(k,l’,θ_i,r_j)并按下面描述的进行处理。

该组多对指示函数I(k,l,θ,r)及对应的有噪声信号X(k,l)用于训练I(k,l,θ,r)的基于DNN的MMSE估计器。训练过程在图4中示出。有噪声的训练信号(M个传声器信号)被传过分析滤波器组，导致信号X₁(k,l),…,X_M(k,l)。对于特定时刻l’，有噪声信号被传过朝向特定空间单元(θ_i,r_j)的波束形成器W_X(k,l’,θ_i,r_j)(参见等式(7)和图2)，对于每一频率指数k＝1,…,K。所得信号为X(k,l’,θ_i,r_j)，其表示有噪声信号的源自空间单元(θ_i,r_j)的部分。接下来，选择X(k,l,θ_i,r_j)的值，其用于估计I(k,l,θ_i,r_j)。具体地，对于给定时刻l＝l’，值I(k,l’,θ_i,r_j),k＝1,…,K可使用目前及过去的有噪声信号值X(k,l”,θ_i,r_j),k＝1,…,K；l”＝l’-L+1,…,l’进行估计，其中L指用于估计I(k,l’,θ_i,r_j)的过去的帧的数量。帧的数量L表示在估计语音存在概率时包括的信号的“历史”。针对语音的一般性质，“历史”(L)可包括输入信号的高达50ms，或输入信号的高达100ms或者更多。

该组过去和目前的X(k,l,θ_i,r_j)值(记为

并由图4、5中的“选择有噪声信号上下文

”模块提供)用作(如深度)神经网络的输入。具体地，DNN的输入具有与该组的基数对应的维度。DNN的输入可以是(通常复值的)谱值X(k,l,θ_i,r_j)、谱值量值|X(k,l,θ_i,r_j)|(如图4、5中例示的)、量值的对数log|X(k,l,θ_i,r_j)|、通过对对数-幅度值傅里叶变换计算的(通常复值的)倒谱(例如参见[3])、或者复值倒谱的幅度值。应用于该输入集的其它函数显然是可能的。在图4(和5)上部的时频地图插图中，由指数k＝1,…,K表示的频率范围可以是所涉及听力装置的全部工作范围(例如表示0到12kHz(或更大)之间的频率范围)，或者其可表示更有限的子频带范围(例如语音元素预期所在的频率范围，记为“语音频率”，例如在0.5kHz到8kHz之间，或者在1kHz到4kHz之间)。包括频带的子集的有限的“有噪声信号上下文

”可通过k_min和k_max表示，如果指数k＝1,…,K表示该装置的完全频率范围。“有噪声信号上下文”可包含连续的范围或者选择的k_min到k_max之间的子范围。

有噪声的输入集

例如包括|X(k,l”,θ_i,r_j)|,k＝1,…,K；l”＝l’-L+1,…,l’及对应的地面真值二元语音存在函数I(k,l’,θ_i,r_j),k＝1,…,K，|X|表示X的量值(例如针对所有l’评估(即滑过时间，对于l’的每一值，同时考虑有噪声输入信号X或|X|的L个时间帧的“历史”))用于训练(深度)神经网络。使用该神经网络，我们希望基于直到(并包括)时间“现在”的L个观察结果估计时间“现在”(＝l’)的I(k,l’,θ_i,r_j),k＝1,…,K(例如参见图4、5中的时频地图插图)。网络参数被收集在记为Ψ_θi,rj的集中；通常，该参数集包含与每一网络层相关联的权重和偏差值。该网络可以是前馈多层感知器、卷积网络、循环网络如长短期记忆(LSTM)网络或者这些网络的组合。其它网络结构也是可能的。该网络的输出层可具有逻辑(如S形)输出激活功能以确保输出被限制到0到1的范围。网络参数可使用标准、迭代、最速下降法得到，例如使用后向传播实施(例如参见[4])，使网络输出

与地面真值I(k,l’,θ_i,r_j)之间的均方误差(参见信号err(k,l’,θ_i,r_j))最小化。该均方误差跨地面真值指示函数I(k,l,θ_i,r_j)(对于固定的i、j)和有噪声信号X(k,l)的许多训练对进行计算。

针对从空间单元(θ_i,r_j)捕获的信号所得的网络记为Ψ*_θi,rj(参见图5)。网络针对每一空间单元(θ_i,r_j),i＝1,…,T,j＝1,…,R进行训练。

经训练的DNN应用于语音存在概率估计

一经训练，DNNΨ*_θi,rj被存储在存储器中(我们使用上标*标示网络为“最佳”网络，即已被训练)。它们之后应用于有噪声的传声器信号，如图5中所示。

图5示出了经训练的DNNΨ*_θi,rj应用于有噪声的传声器信号以产生语音存在概率估计量I^*(k,l,θ_i,r_j)。针对i＝1,…,T,j＝1,…,R，评估多个T x R DNN以产生语音存在概率P(H₁(k,l,θ_i,r_j))＝I*(k,l’,θ_i,r_j)。用于提供语音存在概率估计量I(k,l,θ_i,r_j)的电路(如图4一样)包括M个传声器M1,…,MM(M≥2)，用于捕获环境声音信号x₁(n),…,x_M(n)并提供相应的(如模拟或数字化)电输入信号IN1,…,INM，n指时间。每一传声器通路分别包括分析滤波器组FB-A1,…,FB-AM，用于(可能数字化并)将相应时域电输入信号IN1,…,INM转换为对应的按时频表示的电输入信号X₁(k,l’),…,X_M(k,l’)，其中k和l’分别为频率和时间(帧)指数。电输入信号X₁(k,l’),…,X_M(k,l’)被馈给波束形成器W_X(k,l’,θ_i,r_j)(参见图5中的模块“应用波束形成器W_X(k,l’,θ_i,r_j)”)，从而针对每一空间段(θ_i,r_j)提供波束成形信号X(k,l’,θ_i,r_j)。给定空间段(θ_i,r_j)的波束成形信号X(k,l’,θ_i,r_j)被馈给上下文模块

(参见图5中的“选择有噪声信号上下文

”模块)，从而将给定空间段(θ_i,r_j)的波束成形信号X(k,l’,θ_i,r_j)的当前帧及多个在前帧作为信号

提供给优化的神经网络DNNΨ*_θi,rj(例如参见图7)，进而在频率k和时间l’针对每一空间段(θ_i,r_j)提供估计的语音存在概率估计量I*(k,l,θ_i,r_j)。

所得的语音存在概率I*(k,l’,θ_i,r_j)的使用情形多种多样。例如，它们可用于话音活动检测，即，如果I*(k,l’,θ_i,r_j)>δ₁，确定存在语音；及如果I*(k,l’,θ_i,r_j)<δ₂，确定不存在语音，其中0≤δ₂≤δ₁≤1为预先确定的参数。与现有方法(例如参见[1])相比，其基于每时间-频率块进行前述确定，所提出的方法在前述确定中包括空间维度。

此外，如果在特定时刻l和频率k已确定存在语音，语音源的物理位置可被确定，例如通过识别具有最高语音存在概率的空间单元i＝1,…,T,j＝1,…,R(存在进行该确定的其它方式)。该信息有用，因为波束形成器之后可被构建(例如等式(7)中定义的MVDR波束形成器)，其提取源自该特定空间位置的信号，同时最大程度地抑制源自其它位置的信号。作为备选，波束形成器可被构建，其为指向每一空间单元(θ_i,r_j)的波束形成器的线性组合，其中线性组合的系数从语音存在概率得到[5]，例如参见图9。此外，其它波束形成器可基于非线性组合构建。

上面的阐述已聚焦于包括声学传递函数d(k,θ_i,r_j)的二维空间分解(即按空间单元(θ_i,r_j))(参见等式(7))。使用相对声学传递函数通常有利

d′(k,θ_i)＝d(k,θ_i,r_j)/d₀(k,θ_i,r_j)

其中d₀(k,θ_i,r_j)∈C为从空间位置(θ_i,r_j)到预先选择的参考传声器的声学传递函数。相对传递函数实质上独立于声源距离(因此，在该记法中，与距离r_j的依存关系已被消除)。在前面阐述的任何地方用相对声学传递函数d’替代绝对声学传递函数d，使我们能按“饼片”(图6)分解空间并针对每一饼片(即针对每一方向)评估语音存在概率。

我们之后将训练DNN，Ψ*_θi,i＝1,…,T，其专用于空间方向(饼片)而不是空间单元。所得的语音存在概率的使用完全类似于上面描述的情形，其中语音存在概率针对空间单元进行估计。该解决方案的优点在于，较少的DNN需要被训练、存储和执行，因为它们不再依赖于假定的声源距离。

图6示出了使用相对声学传递函数而不是声学传递函数的示例性空间分解导致用户周围空间的“饼片”分解(与图2中的基于单元的分解相比)。除了在图6中缺少径向分割之外，图6中的空间分段相当于图2中的空间分段。如图2中一样，用户U佩戴包括位于用户左和右耳处的第一和第二听力装置的示例性双耳听力系统，例如如图1C中所示。信号S在特定频带k和特定时间l的值(S(k,l,θ_i)和S(k,l,θ_i’))针对两个不同的分别对应于角度参数θ_i和θ_i’的空间段标示。在实施例中，针对用户周围空间的多个如所有段确定信号S的具体值。段数量优选大于或等于3如大于或等于4。段可表示用户周围空间的均匀角度划分，但作为备选，可表示不同的角度范围，例如预先确定的配置，例如包括用户前面的左和右四分之一平面及用户后面的半平面。段(或图2中的单元)可动态确定，例如根据声源(目标和/或噪声声源)的当前分布。

的神经网络。

图7示意性地示出了用于从时频表示的有噪声输入信号X(k,l’)的多个(L个)时间帧(针对给定空间段(θ_i,r_j))确定语音存在概率估计器

形式的输出信号的神经网络。目前的时间帧(l’)和L-1个在前的时间帧被堆叠为向量并用作神经网络中的输入层(一起记为

也参见图4(和图5)上部记为“上下文”的插图)。每一帧包括(有噪声的)电输入信号例如图4、5中的X(k,l’),k＝1,…,K的K(例如K＝64或K＝128)个值。该信号可通过其量值|X(k,l’)|表示(例如通过忽略其相位

)。时间帧的适当数量与语音中固有的相关有关。在实施例中，连同目前的时间帧一起考虑的L-1个在前的时间帧例如可对应于持续时间多于20ms如多于50ms如多于100ms的时间段。在实施例中，考虑的时间帧的数量(＝L)大于或等于4，如大于或等于10，如大于或等于24。在本申请中，神经网络的宽度等于K·L，对于K＝64和L-1＝9，其总计输入层L1的N_L1＝640个节点(表示音频输入信号的32ms的时间段(对于20kHz的采样频率及每帧样本数量64，并假定非重叠时间帧))。在随后的层(L2,…,LN)中的节点数量(N_L2,…,N_LN)可大于或小于输入层L1的节点数量N_L1，及一般地，适应应用(可用的输入数据集数量及将由神经网络估计的参数数量)。在目前情形下，输出层LN中的节点数量N_LN为K(例如64)，因为其包括概率估计器

的一帧的K个时频块。

图7用于图示任何类型的一般多层神经网络，如深度神经网络，在此体现为标准前馈神经网络。该神经网络的深度(层数)，在图7中记为N，可以是任何数量并通常适应所涉及的应用(例如通过所涉及装置如便携装置例如助听器的大小和/或电源容量限制)。在实施例中，神经网络中的层数大于或等于2或3。在实施例中，神经网络中的层数小于或等于4或5。

图7中所示神经网络的节点用于实施神经网络的标准函数以使从在前节点到所涉及节点的分支的值与相应分支相关联的权重相乘及将贡献一起加到层u中的节点v的和值Y’_v,u。和值Y’_v,u随后遭受非线性函数f，提供层u中的节点v的合成值Z_uv＝f(Y’_v,u)。该值经使层u中的节点v与层u+1的节点连接的分支馈给下一层(u+1)。在图7中，层u中节点v的和值Y’_v,u(即应用非线性(激活)函数以提供层u的节点v的合成值之前)表达为：

其中w_p,v(u-1,u)指将应用于从层u-1中的节点p到层u中的节点v的分支的、层L(u-1)中节点p的权重，及Z_p(u-1)为层u-1中第p个节点的信号值。在实施例中，同样的激活函数f用于所有节点(尽管并不必须如此)。示例性的非线性激活函数Z＝f(Y)在图7的插图中示意性示出。神经网络中使用的典型函数为S形函数及双曲正切函数(tanh)。也可使用其它函数。此外，激活函数可被参数化。

(可能参数化的)激活函数及神经网络的不同层的权重w一起构成神经网络的参数。它们表示在本发明的神经网络的相应迭代过程中(一起)优化的参数。在实施例中，同样的激活函数f用于所有节点(因而在该情形下，“神经网络的参数”由层的权重构成)。

图7的神经网络例如可表示根据本发明的神经网络(例如参见图5中的DNN,Ψ*_θirj)。

通常，根据本发明的神经网络在离线过程中优化(训练)(例如如图4中所示)，例如使用人类的头和躯干模型(例如来自Brüel&Kjaer Sound&Vibration Measurement A/S的头和躯干模拟器(HATS)4128C)。在实施例中，用于(可能在离线过程中)训练神经网络的数据可在用户佩戴听力装置或听力系统的同时拾取和存储，例如跨较长时间段，如几天、几周甚至几月。这样的数据例如可被存储在辅助装置中(例如专用、例如便携存储装置，或者智能电话中)。这具有训练数据适合用户的正常行为及声学环境的体验的优点。

图8示意性地示出了根据本发明的听力装置的实施例。该听力装置HD如助听器属于特定类型(有时称为耳内接收器式或RITE型)，包括适于位于用户耳朵处或耳后的BTE部分(BTE)及适于位于用户耳道中或耳道处并包括接收器(扬声器)的ITE部分(ITE)。BTE部分和ITE部分通过连接元件IC及BTE部分和ITE部分中的内部接线(例如参见BTE部分中的接线Wx)连接(如电连接)。

在图8的听力装置实施例中，BTE部分包括两个包含相应输入变换器(如传声器)的输入单元(M_BTE1,M_BTE2)，每一输入单元用于提供表示输入声音信号S_BTE(源自听力装置周围的声场S)的电输入音频信号。输入单元还包括两个无线接收器(WLR₁,WLR₂)(或收发器)，用于提供相应的直接接收的辅助音频和/或控制输入信号(和/或使能将音频和/或控制信号传给其它装置)。听力装置HD包括衬底SUB，其上安装多个电子元件，包括存储器MEM，例如存储不同的助听器程序(例如定义这样的程序的参数设置，或者算法的参数，例如神经网络的优化参数)和/或助听器配置，例如输入源组合(M_BTE1,M_BTE2,WLR₁,WLR₂)，例如针对多种不同听音情形优化的配置。衬底还包括可配置的信号处理器DSP(例如数字信号处理器，例如包括用于应用随频率和电平而变的增益、提供反馈抑制和波束形成、滤波器组功能及根据本发明的听力装置的其它数字功能的处理器(例如图9中的PRO))。可配置的信号处理单元DSP适于访问存储器MEM及基于当前选择的(激活的)助听器程序/参数设置(例如或自动选择，或基于一个或多个传感器和/或来自用户接口的输入)，选择和处理一个或多个电输入音频信号和/或一个或多个直接接收的辅助音频输入信号。所提及的功能单元(及其它元件)可根据所涉及的应用按电路和元件进行分割(例如为了大小、功耗、模拟对数字处理等)，例如集成在一个或多个集成电路中，或者作为一个或多个集成电路与一个或多个单独的电子元件(如电感器、电容器等)的组合。可配置的信号处理器DSP提供处理后的音频信号，其用于呈现给用户。衬底还包括前端IC(FE)，用于使可配置的信号处理器DSP与输入和输出变换器等接口连接，及通常包括模拟和数字信号之间的接口。输入和输出变换器可以是个别单独的元件，或者与其它电路集成(例如基于MEMS)。

听力装置HD还包括输出单元(如输出变换器)，其基于来自处理器的处理后的音频信号或者从该音频信号得到的信号提供可由用户感知为声音的刺激。在图8的听力装置实施例中，ITE部分包括扬声器(也称为接收器)SPK形式的输出单元，用于将电信号转换为声学(空气传播的)信号，其(在听力装置安装在用户耳朵处时)被导向耳鼓，在那里提供声音信号S_ED。ITE部分还包括引导元件如圆顶件DO，用于引导及将ITE部分定位在用户的耳道中。ITE部分还包括另一输入变换器如传声器(M_ITE)，用于提供表示输入声音信号(S_ITE)的电输入音频信号。

(来自输入变换器M_BTE1,M_BTE2,M_ITE的)电输入信号可根据本发明在时域或者在(时-)频域(或者如果对于所涉及的应用有利，部分在时域及部分在频域)进行处理。

图8中例示的听力装置HD为便携装置，及还包括电池BAT如可再充电电池，例如基于锂离子电池技术，例如用于对BTE部分(可能)及ITE部分的电子元件供电。在实施例中，听力装置如助听器适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)，例如以补偿用户的听力受损。

图9示出了根据本发明第二实施例的听力装置HD。图9的下部包括与结合图5描述的框图同样的元件。传声器M1,…,MM和相关联的分析滤波器组FB-A1,…,FB-AM连同图9上部的模块一起表示听力装置的正向通路。时频表示的(有噪声的)电输入信号X₁(k,l’),…,X_M(k,l’)被馈给合成波束形成器W_res(k,l’)(参见图9中“应用合成波束形成器W_res(k,l’)”模块)。合成波束形成器W_res(k,l’)提供合成波束成形信号Y_res(k,l’)，其被馈给处理器PRO进行进一步信号处理，例如应用处理算法以补偿用户的听力受损(和/或补偿困难的听音条件)。该处理器提供处理后的信号Y_G(k,l’)，其被馈给合成滤波器组FB-S以转换为时域信号Y_G。时域信号Y_G被馈给输出变换器SPK以转换为将被呈现给用户的听得见的信号。

合成波束形成器W_res(k,l’)接收时频表示的电输入信号X₁(k,l’),…,X_M(k,l’)。合成波束形成器W_res(k,l’)还从优化的神经网络DNNΨ*_θi,rj接收针对每一空间段(θ_i,r_j)估计的语音存在概率

此外，合成波束形成器W_res(k,l’)从波束形成器滤波单元W_X(k,l’,θ_i,r_j)接收用于针对相应空间段(θ_i,r_j)提供波束成形信号X(k,l’,θ_i,r_j)的波束形成器的波束形成器权重w_ij(k,l’)。合成波束成形信号Y_res由下面的表达式给出：

Y_res(k，l)＝X(k，l)·w _res(k，l)^T

其中上标T指转置。波束成形信号Y_res在此被确定为线性组合

Y_res＝X₁·w_1,res+X₂·w_2,res+X_Mw_M,res

其中M个有噪声的电输入信号[X₁,X₂,…,X_M]及系数[w_1,res,w_2,res,…,w_M,res]中的每一个(因此及波束成形信号Y_res)按时频表示(k,l)定义。线性组合的系数w _res(k,l)通过下面的表达式给出：

自我话音

图10示意性地示出了聚焦于自我话音存在概率的估计的示例性“低维度”空间分解。用于自我话音存在概率估计的该空间分布包括至少两个单元，例如两个、三个以上单元。如图10中所示，单元的空间分布包括三个空间卷，分别记为z1,z2,z3(具有相关联的波束成形信号S₁,S₂,S₃)。空间单元之一(z1)位于听力装置(HD1,HD2)的用户U的嘴巴周围。提及给定空间单元(z1,z2,z3)也用于指波束形成器针对该单元估计的信号(S₁,S₂,S₃)。单元的配置用于利用本发明的概念产生波束形成器，每一波束形成器覆盖特定单元及一起覆盖用户周围空间(或其所选部分)，并针对各个空间单元(段)提供相应的SPP估计器。在所示示例性实施例中，记为z2的单元拾取来自用户后面但靠近用户的声音(其可能被错误地当作自我话音)。记为z3的单元拾取来自用户周围环境的声音(不包括单元z1和z2覆盖的近场环境)。单元z3可覆盖用户周围的整个(剩余)空间，或者限于某一空间范围或半径。在用户周围空间的分段的实施例中，提供单一自我话音单元(例如由图10中的z1标示)。在另一实施例中，提供多个(例如更小的)用户嘴巴周围的单元，其一起构成自我话音单元。该组自我话音单元可形成空间的更大分段的一部分，如图2或6中例示的。后者在图11中图示。图11的空间分段等于图2的空间分段。差别在于，在图11中，用户嘴巴周围的空间段(记为S₁₁,S₁₂,S₁₃,S₁₄,S₁₅的段，按点填充标示)预先确定以可能包含自我话音。如果用于训练给定空间单元的语音存在概率估计器的神经网络的训练数据包括多个不同SNR的自我话音数据，该网络将能够在自我话音与其它话音之间区分。在训练数据不包括自我话音声源的情形下，可包括语音存在概率估计量的关于其源自自我话音还是其它话音的资格(例如使用与信号电平或声压级(SPL)有关的判据，例如，如果电平或SPL高于某一“自我话音阈值”，确定自我话音单元如图10中的z1(S₁)或图11中的S₁₁-S₁₅的给定SPP假定与自我话音有关，否则该SPP与另一话音有关)。

个性化

图12A示出了用于产生声音数据的测试数据库的方案，用于在针对不同的头模型的多个预先确定的优化参数之中选择神经网络的一组特定优化参数。图12B示出了使用图12A中确定的声音数据测试数据库在针对不同的头模型的多个预先确定的优化参数之中选择神经网络的一组特定优化参数的方案。

如图12A、12B中所示，从左到右，该方法包括：

在图12A中：

S1，按时频表示(k,l)提供M个输入变换器(实质上无噪声(纯净的))测试信号。

S2，应用覆盖用户周围的各个空间段(z1,…,zN)的相应波束形成器以针对各个空间段提供(纯净的)波束成形测试信号S(z)。

S3，将多个不同(已知)量的噪声添加到纯净的波束成形信号以提供各个空间段(中的每一个)的有噪声波束成形时间段的测试数据库。

S4，确定每一有噪声的波束成形测试信号的各个时频块的真实信噪比(SNR)。

S5，确定每一有噪声的波束成形测试信号的各个时频块的真实语音存在度量(TSPM)。

在图12B中：

图12A的步骤S1、S2、S3(或者从声音信号的测试数据库针对各个空间段(中的每一个)选择有噪声的波束成形时间段)。

S6，将来自声音信号的测试数据库的用于各个空间段(中的每一个)的有噪声的波束成形时间段应用于针对不同头模型优化的算法以对给定空间段(或所有空间段)对每一模型和时间段提供对应的语音存在概率(SPP)。

S7，将语音存在概率(SPP)转换为(测试)语音存在度量(SPM)。

S8，将真实语音存在度量(TSPM)与测试语音存在度量(SPM)进行比较并针对每一空间段(或所有空间段)提供比较语音存在度量。

S9，根据比较语音存在度量和价值函数选择最佳的头模型HM*。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

[1]R.C.Hendriks,T.Gerkmann,and J.Jensen,DFT-Domain Based Single-Microphone Noise Reduction for Speech Enhancement.Morgan and Claypool,2013.

[2]J.Heymann,L.Drufe,and R.Haeb-Umbach,“A Generic AcousticBeamforming Architecture for Robust Multi-Channel speech Processing,”Computer, Speech and Language,Volume 46,November 2017,Pages 374-385.

[3]J.R.Deller,J.H.L.Hansen,and J.G.Proakis,Discrete-Time Processingof Speech Signals.Wiley-IEEE Press,1999.

[4]I.Goodfellow,Y.Bengio,and A.Courville,Deep Learning.MIT Press,2016,http://www.deeplearningbook.org.

[5]K.L.Bell,Y.Ephraim,and J.L.V.Trees,“A Bayesian Approach to RobustAdaptive Beamforming,”IEEE Trans.Signal Processing,vol.48,no.2,pp.386–398,February 2000.

Claims

1.一种听力装置，配置成由用户佩戴，所述听力装置包括：

-多个输入单元，每一输入单元按时频表示提供表示用户环境中的声音的电输入信号，其中所述声音为语音和附加噪声或其它失真的混合；

-多个波束形成器滤波单元，每一波束形成器滤波单元配置成接收多个电输入信号中的至少两个，所述多个波束形成器滤波单元中的每一个配置成提供表示用户周围的多个空间段的不同空间段中的声音的波束成形信号；

-多个语音概率估计器，每一语音概率估计器配置成接收特定空间段的波束成形信号并估计所述特定空间段在给定时间点和频率包含语音的概率；

-配置成实施合成波束形成器的合成波束形成器滤波单元，其为指向每一空间段的由多个波束形成器滤波单元提供的波束形成器的线性组合，其中，线性组合的系数从语音存在概率得到，及其中合成波束形成器滤波单元配置成提供合成波束成形信号；及其中

所述多个语音概率估计器中的至少一个被实施为经训练的神经网络。

2.根据权利要求1所述的听力装置，其中至少一输入单元包括：

-输入变换器，用于提供表示环境中的声音的时域电输入信号；及

-分析滤波器组，用于按时频表示提供电输入信号。

3.根据权利要求1或2所述的听力装置，其中每一波束形成器滤波单元配置成提取源自多个空间段中的特定空间段的信号，同时最大程度地抑制源自其它位置的信号。

4.根据权利要求1所述的听力装置，其中用户周围的所述多个空间段包括包含用户嘴巴周围的段的自我话音段以使能估计听力装置用户的语音存在概率。

5.根据权利要求1所述的听力装置，包括包含所述多个输入单元的单一听力装置或由该听力装置构成。

6.根据权利要求1所述的听力装置，由助听器、头戴式耳机、耳麦、耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。

7.一种听力系统，包括第一和第二根据权利要求1所述的听力装置，每一听力装置包括天线和收发器电路，配置成在其间建立通信链路，及每一听力装置包括多个输入单元中的至少一个。

8.在听力装置中提供包括语音和附加噪声或其它失真的声音信号的语音存在概率的估计量的方法，听力装置包括多个输入单元，每一输入单元按时频表示提供表示所述声音信号的电输入信号，所述方法包括：

-按多个空间段提供用户周围空间的细分；

-提供语音存在指示函数，对于给定电输入信号，其指明在给定频率和时间、在给定空间段中是否或者以何种程度存在语音；及

对于每一空间段，

-提供训练信号的第一数据库，包括多对对应的表示所涉及空间段中的声音的有噪声波束成形信号及所述语音存在指示函数的按时频表示的关联值，其中所述语音存在指示函数的所述值表示地面真值；及

-确定算法的优化参数，用于通过用所述第一数据库的至少部分所述有噪声波束成形信号及所述语音存在指示函数的所述关联值优化所述算法而估计所述语音存在概率，所述算法提供对应的估计的语音存在标示值，参数的优化在使价值函数最小化的约束条件下进行。

9.根据权利要求8所述的方法，其中所述多个空间段包括包含用户嘴巴周围的段的自我话音段以使能估计听力装置用户的语音存在概率。

10.根据权利要求8或9所述的方法，其中，对于多个输入单元中的每一输入单元，通过改变下述之一或多个而产生多个纯净电输入信号：

1)目标语音源；

2)目标空间位置；

3)头大小；

4)输入单元。

11.根据权利要求10所述的方法，其中，通过改变下述之一或多个而基于所述纯净电输入信号产生有噪声波束成形信号：

a)附加噪声或其它失真类型；

b)在手边应用中、在实践中通常观察到目标信号时的信噪比，

从而产生与所述纯净电输入信号对应的有噪声电输入信号；及通过将所述有噪声电输入信号暴露于相应的波束形成器，提供表示所涉及空间段中的声音的所述有噪声波束成形信号。

12.听力装置的运行方法，所述方法包括

-按时频表示提供表示用户环境中的声音的多个电输入信号，其中所述声音为语音和附加噪声或其它失真的混合；

-提供多个波束成形信号，每一波束成形信号表示用户周围的多个空间段的不同空间段中的声音，及每一波束成形信号基于所述多个电输入信号中的至少两个；

-针对所述多个空间段中的每一空间段，根据所述波束成形信号提供所涉及空间段在给定时间点和频率包含语音的概率的估计量；

-提供合成波束成形信号，其为指向每一空间段的多个波束成形信号的线性组合，其中，线性组合的系数从语音存在概率及用于提供多个波束成形信号的波束形成器权重得到；及

其中多个语音存在概率估计量中的至少一个由经训练的神经网络提供。

13.根据权利要求12所述的方法，其中，多个语音存在概率估计量中的至少一个由根据权利要求8的方法训练的神经网络提供。

14.根据权利要求1所述的听力装置，其中所述多个语音存在概率估计器中的至少一个实施为根据权利要求8所述的方法训练的神经网络。