CN112492434A

CN112492434A - 包括降噪系统的听力装置

Info

Publication number: CN112492434A
Application number: CN202010955909.8A
Authority: CN
Inventors: P·霍昂; J·M·德哈恩; J·詹森; M·S·彼得森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2019-09-11
Filing date: 2020-09-11
Publication date: 2021-03-12
Also published as: US20230083192A1; US20210076124A1; US11533554B2; US11856357B2; EP3793210A1; US20240089651A1

Abstract

本申请公开了包括降噪系统的听力装置，其中所述听力装置包括：用于提供至少一表示用户环境中的声音的电输入信号的输入单元，所述电输入信号包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量即噪声信号分量；用于提供目标语音信号的估计量的降噪系统，其中所述噪声信号分量被至少部分衰减；自我话音检测器，用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音；其中所述噪声信号分量在所述自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率阈值的概率源自用户话音时的时间段期间被识别。

Description

包括降噪系统的听力装置

技术领域

本申请涉及听力装置如助听器或头戴式耳机，尤其涉及听力装置中的降噪。本发明具体涉及其中需要佩戴听力装置的用户话音的良好(高质量)估计量的应用，例如用于传给另一装置如远端通信伙伴或听者和/或传给例如用于听力装置(或其它装置或系统)的话音控制的话音接口。

背景技术

听力装置例如可通过应用话音活动检测器而确定音频信号中是否包括话音 (或语音)。然而，话音经常同时源自想要的和不想要的声源，从而使得很难区分想要的和不想要的话音信号及很难衰减不想要的话音信号。因而，希望能够在增强来自想要的声源的话音的同时衰减来自不想要的声源的话音。

发明内容

听力装置

在本申请的一方面，公开了一种听力装置。该听力装置可适于位于用户耳朵处或耳朵中，或者适于完全或部分植入在用户头部中。

听力装置可包括用于提供至少一表示用户环境中的声音的电输入信号的输入单元。环境可指用户周围的自由空间，其固定不变和/或动态地取决于用户是站着不动还是走来走去，及其包含到达用户位置的音频(如声音)。例如，环境可指用户位于其中的封闭教室，或者在用户位于例如建筑物外面时，可指用户周围的开放空间。

电输入信号可包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量(在此称为噪声信号分量)。目标声源可指一个或多个声源如一个或多个人(例如听力装置的用户和/或其他人)或者一个或多个电子设备(如电视机、收音机等)，其产生和/或发出用户想要听见的语音信号。一个或多个其它声源例如可指一个或多个人、电子设备或其它声源(如仪器、动物等)，其产生和/或发出另外的信号分量即噪声信号分量，这些信号分量被视为用户不想要的信号分量且优选应被衰减。

听力装置可包括用于提供目标语音信号的估计量的降噪系统。

噪声信号分量可至少部分被衰减。

听力装置可包括自我话音检测器，用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音。

听力装置还可配置成使得噪声信号分量在时间段期间被识别。

自我话音检测器可指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率(OVPP，own voice presence probability)阈值的概率源自用户话音。

从而，噪声信号分量，其也可包括来自不想要的声源的话音，可在自我话音检测器估计用户正说话的时间间隔期间进行检测，例如代替(本领域常见的) 在没有话音活动的时间间隔期间进行检测，或者除在没有话音活动的时间间隔期间进行检测之外另行在自我话音检测器估计用户正说话的时间间隔期间进行检测。因而，进行衰减的噪声信号分量同样可在用户正说话的同时更新。例如，如果一人在与用户说话同样的时间段说话，来自该人的声音可被识别并标记为噪声，其应被衰减。

进一步地，利用自我话音检测识别噪声信号分量不再需要另外的检测器 (如摄像机)，其专用于例如通过图像分析而识别特定的人在与用户同样的时间段说话时他/她是否是不想要的噪声源。

因而，使得可改善降噪。

输入单元可包括传声器。输入单元可包括至少两个传声器。输入单元可包括三个以上传声器。

每一传声器可提供电输入信号。电输入信号可包括目标语音信号和噪声信号分量。

听力装置可包括话音活动检测器，用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括语音。

从而，至少一电输入信号中包括的语音可被增强。

听力装置可包括一个或多个波束形成器。例如，波束形成器滤波器可包括两个以上波束形成器。

输入单元可配置成提供连接到一个或多个波束形成器的、至少两个电输入信号。一个或多个波束形成器可配置成提供至少一个波束成形信号。

一个或多个波束形成器可包括一个或多个自我话音抵消波束形成器，配置成衰减源自用户嘴巴的信号分量，同时来自(例如所有)其它方向的信号分量保持不变或者较少衰减。

一个或多个可包括一个或多个目标波束形成器，用于(相对于来自不同于目标声源方向的其它方向的声音)增强目标声源的话音。

目标信号可假定为用户的自我话音。

一个或多个波束形成器可包括自我话音波束形成器，配置成保持来自用户嘴巴的信号分量，同时衰减来自(例如所有)其它方向的信号分量。自我话音波束形成器可在听力装置运行之前(例如在验配期间)确定，对应的滤波器权重例如可存储在听力装置的存储器中。从用户嘴巴到听力装置的每一传声器的声学传递函数例如可在听力装置运行之前确定，或使用模型(如头和躯干模型，例如来自Brüel&

Sound&VibrationMeasurement A/S的HATS,Head and Torso Simulator 4128C)，或测量例如包括用户的一个或多个人。绝对或相对声学传递函数可由视向量d＝(d₁,…,d_M)表示，其中每一元素表示从嘴巴到M个传声器中的特定传声器的(绝对或相对)传递函数。传声器之一可被定义为参考传声器，及相对传递函数可定义成从参考传声器到听力装置(或听力系统)的其余传声器的传递函数。自我话音滤波器权重W_OV可在听力装置运行之前或期间确定。自我话音滤波器权重为有噪声传声器信号的视向量d_OV(k)、噪声协方差矩阵估计量

及传声器间协方差矩阵C_x(k,n)的函数，其中k和n分别为频率指数和时间指数。对于给定类型的波束形成器(如MVDR波束形成器)，滤波器权重的计算在本领域为常规手段并例如在本说明书的具体实施方式部分例示。

波束形成器可包括最小方差无失真响应(MVDR，minimum variancedistortionless response)波束形成器。

波束形成器可包括多通道齐纳滤波器(MWF，multichannel Wiener filter) 波束形成器。

波束形成器可包括MVDR波束形成器和MWF波束形成器。

波束形成器可包括MVDR滤波器及其后的单通道后滤波器。

例如，波束形成器可包括MVDR波束形成器和单通道后齐纳滤波器。

使用MVDR滤波器的优点在于不会使目标分量失真。

使用MWF滤波器的优点在于使宽带信噪比(SNR)最大化。

噪声信号分量可由噪声协方差矩阵估计量表示。

噪声协方差矩阵可基于噪声信号分量的互功率谱密度(CPSDs，cross powerspectral densities)。

从而提供噪声场的简单(数学上易处理的)描述。

听力装置可包括包含多个波束形成器的波束形成器滤波器。

噪声协方差矩阵可在自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音时进行更新。

噪声协方差矩阵可在自我话音检测器指明至少一电输入信号或源自其的信号以高于OVPP阈值的概率源自用户话音时进行更新。

从而，用户(当前)不感兴趣的和/或干扰用户语音的、来自(竞争性)说话者的话音(不想要的语音)可被衰减。

噪声信号分量可另外在话音活动检测器指明至少一电输入信号或源自其的信号中不存在语音的时间段期间进行识别。

噪声信号分量可在话音活动检测器指明没有语音或者以低于语音存在概率(SPP，speech presence probability)阈值的概率存在语音的时间段期间进行识别。

听力装置可配置成使用最大似然估计器估计噪声信号分量。

从而，提供最佳地“解释”(具有最大似然)所观测的传声器信号的噪声协方差矩阵估计量。

来自目标声源的目标语音信号可包括(或者构成)来自听力装置用户的自我话音语音信号。

目标声源可包括(或者构成)听力装置用户环境中的外部讲话者。

听力装置可包括用于听力装置或其它装置或系统的话音控制的话音接口。

话音接口的输入例如可基于由自我话音波束形成器提供的用户自我话音的估计量，其配置成保持来自用户嘴巴的信号分量，同时衰减来自(例如所有) 其它方向的信号分量。听力装置可包括基于用户话音的估计量的唤醒词检测器。听力装置可配置成在(例如以高于唤醒词检测阈值的概率如大于60％)检测到唤醒词时启动话音接口。

话音接口可被包括在听力装置的、设置在用户耳朵处、耳后或耳朵中的部分中。听力装置可包括一个或多个“辅助装置”，其与听力装置通信并影响和/ 或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。在该情形下，一个或多个辅助装置可包括话音接口。

通过提供包括话音接口的听力装置，提供听力装置的功能的无缝处理。

听力装置可由助听器、头戴式耳机、主动耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、主动耳朵保护装置或其组合。

听力装置可包括头戴式耳机。听力装置可包括助听器。听力装置例如可包括天线和收发器电路，其配置成建立到另一装置或系统的通信链路。听力装置例如可用于实施免提电话。

听力装置还可包括定时器，其配置成确定自我话音语音信号与另一语音信号之间的重叠时间段。

另一语音信号可指由人、收音机、电视机等产生的语音信号。

定时器可与自我话音检测器相关联。在目标语音信号包括来自听力装置用户的语音时，定时器可在自我话音检测器检测来自用户的语音信号的时间段检测到另一语音信号时开始。定时器可在自我话音检测器未检测来自用户的语音信号时结束。因而，不想要的语音信号可被识别和衰减。

听力装置可配置成确定所述时间段是否超过时限，如果是，将另一语音信号标记为噪声信号分量的一部分。

例如，时限可以是至少二分之一秒、至少一秒、至少两秒。

另一语音信号可以是来自竞争性讲话者的语音，本身可被视为相对于目标语音信号的噪声。因而，另一语音信号可被标记为噪声信号分量的一部分使得另一语音信号可被衰减。

听力装置可配置成，对于预定时间段，将另一语音信号标记为噪声信号分量的一部分。其后，另一语音信号可不被标记为噪声信号分量的一部分。例如，当一人不是与听力装置用户的对话的一部分时，来自该人的话音信号可被衰减，但在随后的时间，当该人参与与听力装置用户的对话时，可不被衰减。

降噪系统可递归地进行更新。噪声信号分量可递归地进行识别。因而，可提供噪声协方差矩阵的递归更新。例如，来自一声源的话音信号，其从前已被识别并标记为噪声信号分量的一部分，可随时间以连续递减的程度进行衰减。在某一时间，该声源可免于被衰减，除非该声源被再次识别和标记为噪声信号分量的一部分。

听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。听力装置可包括用于增强输入信号并提供处理后的输出信号的信号处理器。

听力装置可包括输出单元，用于基于处理后的电信号提供由用户感知为声信号的刺激。输出单元可包括耳蜗植入件(用于CI型听力装置)的多个电极或者骨导听力装置的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)听力装置中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。输出单元可包括无线发射器，用于将包括或表示声音的无线信号传给另一装置。

听力装置包括用于提供一个或多个表示声音的电输入信号的输入单元。输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号的无线接收器。

无线接收器和/或发射器(如收发器)例如可配置成接收和/或发射在射频范围(3kHz到300GHz)的电磁信号。无线接收器和/或发射器例如可配置成接收和/或发射在光频率范围(例如红外光300GHz到430THz，或可见光，例如430THz到770THz)的电磁信号。

听力装置可包括用于从另一装置如从娱乐设备(例如电视机)、通信装置 (例如智能电话)、无线传声器、个人计算机或另一听力装置接收信号和/或将信号传给前述另一装置的天线和收发器电路(如无线接收器)。信号可表示或包括音频信号和/或控制信号和/或信息信号。听力装置可包括用于对所传输/接收的信号进行调制/解调的适当调制/解调电路。信号可表示音频信号和/或控制信号，例如用于设置听力装置的运行参数(如音量)和/或处理参数和/或话音控制命令等。总的来说，听力装置的天线及收发器电路建立的无线链路可以是任何类型。无线链路可在两个装置之间建立，例如在娱乐装置(如TV)或通信装置(如智能电话)与听力装置之间，或者在两个听力装置之间，例如经第三中间装置(如处理装置，例如遥控装置、智能电话等)。无线链路可以是基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。无线链路可基于远场电磁辐射。经无线链路的通信可根据特定调制方案进行安排，例如模拟调制方案，如FM(调频)或AM(调幅)或 PM(调相)，或数字调制方案，如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅) 等。

听力装置与另一装置之间的通信可处于基带(音频频率范围，如0和 20kHz之间)中。听力装置与听力装置之间的通信可基于高于100kHz频率的某类调制。优选地，用于在听力装置和另一装置之间建立通信链路的频率低于 70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在 5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如蓝牙低功率技术)。

听力装置可具有0.08m级的最大外尺寸(如耳机)。听力装置可具有0.04m 级的最大外尺寸(如听力仪器)。

听力装置可包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是 MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

听力装置可以是便携(即配置成可穿戴)装置或形成其一部分，如包括本机能源如电池例如可再充电电池的装置。听力装置可以是轻质、容易穿戴的装置，例如具有小于100g的总重量，如小于20g，如小于10g。

听力装置可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益。听力装置可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。

表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到 48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值， N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，如50μs，对于f_s＝20kHz。多个音频样本可按时间帧安排。一时间帧可包括64 个或128个音频数据样本。根据实际应用可使用其它帧长度。

听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。听力装置可包括数模(DA) 转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

听力装置如输入单元和/或天线及收发器电路可包括用于提供输入信号的时频表示的TF转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。听力装置考虑的、从最小频率f_min到最大频率f_max的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率 f_max的两倍，即f_s≥2f_max。听力装置的正向通路和/或分析通路的信号可拆分为 NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。助听器可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

听力装置可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式，其中听力装置的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用听力装置的特定特征。运行模式可以是话音控制模式，其中话音接口例如经特定唤醒词如“Hey Oticon”激活。运行模式可以是通信模式，其中听力装置配置成拾取用户的话音并将其传给另一装置 (可能及从另一装置接收音频，例如以使能免提通话)。

听力装置可包括多个检测器，其配置成提供与听力装置的当前网络环境 (如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。

多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。预定判据包括正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器可作用于全频带信号(时域)。电平检测器可作用于频带拆分信号 ((时-)频域)。

听力装置可包括话音检测器(VD)，用于估计输入信号(在特定时间点) 是否(或者以何种概率)包括话音信号。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音检测器可适于将用户自己的话音也检测为“话音”。作为备选，话音检测器适于从“话音”的检测排除用户自己的话音。

听力装置可包括自我话音检测器，用于估计特定输入声音(如话音，如语音)是否(或以何种概率)源自听力系统用户的话音。听力装置的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。

多个检测器可包括运动检测器，例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。

听力装置可包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；

c)用户的当前模式或状态(运动、温度、认知负荷等)；

d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

分类单元可基于或者包括神经网络例如经训练的神经网络。

听力装置还可包括用于所涉及应用的其它适宜功能，如压缩、反馈控制等。

听力装置可包括听音装置如助听器、听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器，例如头戴式耳机、耳麦、耳朵保护装置或其组合。听力系统可包括喇叭扩音器(包含多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

在本申请的一方面，公开了包括第一听力装置和辅助装置的双耳听力系统。该双耳听力系统可配置成使能在第一听力装置与辅助装置之间交换数据。

在本申请的一方面，公开了包括第一和第二听力装置的双耳听力系统。该双耳听力系统可配置成使能在第一和第二听力装置之间例如经中间辅助装置交换数据。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。可提供在包括一个或多个助听器(如听力仪器) 的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用，例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等中的用途。

方法

一方面，提供一种听力装置的运行方法。

听力装置可适于位于用户耳朵处或耳朵中，或者适于完全或部分植入在用户头部中。

该方法可包括提供至少一表示用户环境中的声音的电输入信号。

电输入信号可包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量(称为噪声信号分量)。

该方法可包括提供目标语音信号的估计量。

噪声信号分量可至少部分被衰减。

该方法可包括反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音。

该方法还可包括在时间段期间识别噪声信号分量。

自我话音检测器可指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率(OVPP)阈值的概率源自用户话音。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

计算机可读介质或数据载体

本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体)，当计算机程序在数据处理系统上运行时，使得数据处理系统(计算机)执行(完成)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、 EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

其中噪声信号分量至少部分被衰减的、提供目标语音信号的估计量的方法步骤可以软件进行实施。

噪声信号分量可至少部分被衰减。

反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音的方法步骤可以软件进行实施。

在自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率(OVPP)阈值的概率源自用户话音的时间段期间识别噪声信号分量的方法步骤可以软件进行实施。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及辅助装置的听力系统。

听力系统可适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

辅助装置可包括遥控器、智能电话、或者其它便携或可穿戴电子设备如智能手表等。

辅助装置可构成或包括遥控器，用于控制听力装置的功能和运行。遥控器的功能可被实施在智能电话中，智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

辅助装置可以是或包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。

辅助装置可由另一听力装置构成或包括另一听力装置。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。该APP可配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。

定义

在本说明书中，“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。 “听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

听力装置可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元 (具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。听力装置可实施在单一单元 (壳体)中或者可实施在彼此连接的多个单元中。

更一般地，听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的) 存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/ 或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些听力装置中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中，输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激耳蜗神经的多电极阵列)。听力装置可包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)。

在一些听力装置中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中，振动器可植入在中耳和/或内耳中。在一些听力装置中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到听力装置，并由听力装置的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK) 系统、远程会议系统、教室放大系统等的一部分或者与其交互。

本发明的实施例如可用在需要佩戴听力装置的用户的话音的良好(高质量) 估计的应用中。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A示出了根据本发明的听力装置系统的示例性应用情形；

图1B-1D分别示出了根据本发明的、同样时间段的相应话音活动、话音活动检测器(VAD)和噪声更新；

图2A示出了根据本发明的听力装置系统的示例性应用情形；

图2B-2D分别示出了根据本发明的、同样时间段的相应话音活动、话音活动检测器(VAD)和噪声更新；

图3A示出了根据本发明的听力装置系统的示例性应用情形；

图3B-3D分别示出了根据本发明的、同样时间段的相应话音活动、话音活动检测器(VAD)和噪声更新；

图4A示出了示例性输入单元连接到示例性降噪系统；

图4B示出了根据本发明的、示例性输入单元连接到示例性降噪系统；

图5A示出了根据本发明实施例的、包括降噪系统的助听器的示例性框图；

图5B示出了根据本发明实施例的、包括降噪系统的助听器处于免提电话运行模式时的示例性框图；

图5C示出了根据本发明实施例的、包括降噪系统的助听器包括话音控制接口时的示例性框图；

图6示出了根据本发明的听力装置系统的示例性应用情形。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等 (统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微型机电系统(MEMS)、集成电路(例如专用集成电路)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件如传感器，例如用于感测和/或记录环境、设备、用户等的物理性质等。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置如助听器领域。

在现实音频应用中通常需要语音增强和降噪，其中来自声学环境的噪声掩蔽所需要的语音信号通常导致语音可懂度降低。其中降噪有益的音频应用的例子为免提无线通信设备，如头戴式耳机、自动语音识别系统和助听器(HA)。具体地，其中(“远端”)人类听者需要理解由头戴式耳机的传声器拾取的有噪声自我话音的应用如头戴式耳机通信设备，噪声可大大降低声音质量和语音可懂度，从而使对话更困难。

在本说明书中，“头戴式耳机应用”可包括用于例如经网络与“远端讲话者”通信的正常头戴式耳机应用(如办公室或呼叫中心应用)，也可包括其中助听器处于适于拾取用户话音并将其传给另一装置(如远端通信伙伴)同时可能从其它装置(如远端通信伙伴)接收音频的特定“通信或电话模式”的助听器应用。

多传声器设备中实施的降噪算法可包括一组线性滤波器，例如用于对这些传声器拾取的声音进行整形的空间滤波器和时间滤波器。空间滤波器能够通过按方向的函数增强或衰减声音而改变声音，时间滤波器可改变有噪声信号的频率响应以增强或衰减特定频率。为找到最佳滤波器系数，通常需要知道声学环境的噪声特性。遗憾的是，这些噪声特性通常未知并需要在线进行估计。通常需要的、作为多通道降噪算法的输入的特性例如为噪声的互功率谱密度 (CPSDs)。例如最小方差无失真响应(MVDR)波束形成器和多通道齐纳滤波器(MWF)波束形成器均需要噪声CPSDs，这两个为多传声器降噪系统中实施的常见波束形成器。

为估计噪声统计数据，研究人员已开发了大量噪声统计数据的估计器，例如[1–5]。在[1,4]中，提出存在语音期间的噪声CPSD矩阵的最大似然(ML， maximum likelihood)估计器，假定噪声CPSD矩阵保持一样，直到一标量乘数。当噪声CPSD矩阵的根本结构不随时间改变时，例如对于车厢噪声和均质噪声场，该估计器表现很好，但在其它情形下可能失败。在许多现实声学环境中，噪声CPSD矩阵的根本结构不能被假定固定，例如在声学场景中存在显著的、非固定不动的干扰噪声源时。具体地，当干扰为竞争性讲话者时，许多降噪系统在高效抑制竞争性讲话者方面失败，因为很难确定是自我话音还是竞争性讲话者是所需要的语音。

在图1A中，示出了听力装置用户1的环境。该环境被示为包括听力装置用户1、目标声源2和噪声信号分量3。

听力装置用户1可佩戴听力装置，其包括用户1的左耳上的第一传声器4 和第二传声器5及用户1的右耳上的第三传声器6和第四传声器7。

目标声源2可位于听力装置用户1附近并可配置成产生目标语音信号并发射到用户1的环境内。目标声源2可以是人、收音机、电视机等，其产生目标语音信号。目标语音信号可朝向用户1的方向或者可朝向远离用户1的方向。

噪声信号分量3被示为围绕听力装置用户1和目标声源2，因而导致目标声源信号在听力装置用户1处接收。噪声信号分量可包括局部噪声源(如机器、风扇等)和/或分布式(分散、均质)噪声声源。

第一传声器4、第二传声器5、第三传声器6和第四传声器7(中的每一个) 可提供包括目标语音信号和噪声信号分量3的电输入信号。

在图1B中，话音活动(VA)被示为时间段的函数。假定目标声源2和用户1背对背讲话，即在对话的语音之间没有停顿或者仅有最小停顿。用户1被示为在t1与t2之间及t5与t6之间的时间段讲话(记为“自我话音”)，而目标声源2被示为在t3与t4之间及t7与t8之间的时间段讲话(记为“目标声源”)。在图1B的整个时间段期间，有具有随机波动的噪声电平的噪声信号 (记为“噪声”的实线曲线)。

图1C示出了图1B的示例性话音活动可怎样使用自我话音VAD(如自我话音检测器(OVD))及使用VAD(即经典的VAD)进行检测。

自我话音VAD可检测到用户在t1与t2之间的时间段及t5与t6之间的时间段讲话。另一方面，该VAD将在从t1到t8的整个时间段检测语音正(从用户 1和目标声源2)产生。然而，根据所使用的VAD的分辨率，在t2到t3、t4到 t5及t6到t7的时间段检测到的话音活动中可能有小的中断。

图1D示出了听力装置能够更新降噪系统从而提供目标语音信号的估计量及至少部分衰减噪声信号分量3。

在经典方法中(图1D的上部)，VAD可用于检测语音的存在，听力装置的降噪系统将仅在不产生语音(来自用户1和目标声源2)的时间进行更新，因为VAD不能区分来自用户1的语音和来自目标声源2的语音。因而，仅在 VAD未检测到语音的时间，即从t0到t1及从t8之后，降噪系统才将被更新。

使用自我话音VAD(图1D的下部)，听力装置的降噪系统不仅可在未检测到语音时更新，而且可在自我话音VAD检测到来自用户1的语音时更新，即从t0到t2、从t5到t6及从t8之后。

因而，噪声信号分量可在自我话音检测器指明至少一电输入信号或源自其的信号源自用户1的话音或者以高于自我话音存在概率(OVPP)阈值的概率如 60％或70％源自用户1的话音时的时间段(时间间隔)期间识别。

在听力装置中结合自我话音VAD和VAD，降噪系统可配置成既在用户1 讲话时检测又在目标声源2讲话时检测。从而，该降噪系统可在未产生语音信号的时间段期间及用户1讲话的时间段期间进行更新，但被防止在仅目标声源 2产生目标语音信号(讲话)的时间段更新。

在图2A中，示出了听力装置用户1的环境。该环境被示为包括听力装置用户1、竞争性讲话者8和噪声信号分量3。

与图1A的情形一样，听力装置用户1可佩戴听力装置，其包括用户1的左耳上的第一传声器4和第二传声器5及用户1的右耳上的第三传声器6和第四传声器7。

竞争性讲话者8可位于听力装置用户1附近并可配置成产生竞争性语音信号(即不想要的语音信号)并发射到用户1的环境内。竞争性讲话者8可以是人、收音机、电视机等，其产生竞争性语音信号。竞争性语音信号可朝向用户 1的方向或者可朝向远离用户1的方向。

噪声信号分量3被示为围绕听力装置用户1和竞争性讲话者8，因而导致在听力装置的传声器4、5、6、7处接收的、用户1的自我话音即想要的语音信号的估计(例如在听力装置包括或实施头戴式耳机的情形下)。

在图2B中，话音活动(VA)被示为时间段(时间)的函数。假定用户1 在t1到t3的时间段讲话，而竞争性讲话者8在t2到t4的时间段讲话，藉此，竞争性讲话者8的话音与用户1的话音重叠。在图2B的整个时间段期间，有具有随机波动的噪声电平的噪声信号。

图2C示出了图2B的示例性话音活动可怎样使用自我话音VAD及使用(一般)VAD进行检测。

自我话音VAD(图2C的下部)可检测到用户1在t1与t3之间的时间段讲话。另一方面，该VAD(图2C的上部)将在从t1到t4的整个时间段检测语音正(从用户1和竞争性讲话者8)产生。

图2D示出了听力装置能够更新降噪系统从而提供目标语音信号的估计量及至少部分衰减噪声信号分量3。

在经典方法中(图2D的上部)，VAD用于检测语音的存在，听力装置的降噪系统将仅在不产生语音(来自用户1和竞争性讲话者8)的时间进行更新，因为一般VAD不能区分来自用户1的语音和来自竞争性讲话者8的语音。因而，仅在VAD未检测到语音的时间，即从t0到t1(及从t4之后)，降噪系统才可被更新。

使用自我话音VAD(图2D的下部)，听力装置的降噪系统可配置成不仅在未检测到语音时即从t0到t1(及从t4之后)更新，而且在自我话音VAD检测到来自用户1的语音时更新，即(总共)在从t0到t3的时间更新。

因而，(包括来自竞争性讲话者8的)噪声信号分量可在自我话音检测器指明至少一电输入信号或源自其的信号源自用户1的话音或者以高于自我话音存在概率(OVPP)阈值的概率源自用户1的话音时的时间段期间识别。

在听力装置中结合自我话音VAD和一般VAD，降噪系统可配置成既在用户1讲话时检测又在竞争性讲话者8独自讲话时检测。从而，该降噪系统可在未产生语音信号的时间间隔期间及用户1讲话的时间间隔期间进行更新，但被防止在竞争性讲话者8产生语音信号的时间间隔更新。

在图3A中，示出了听力装置用户1的环境。该环境被示为包括听力装置用户1、目标声源2、竞争性讲话者8和噪声信号分量3。

与图1A和图2A的情形一样，听力装置用户1可佩戴听力装置，其包括用户1的左耳上的第一传声器4和第二传声器5及用户1的右耳上的第三传声器6 和第四传声器7。

目标声源2和竞争性讲话者8可位于听力装置用户1附近并可配置成产生语音信号并发射到用户1的环境内。目标语音信号和/或竞争性讲话者语音信号可朝向用户1的方向或者可朝向远离用户1的方向。

噪声信号分量3被示为围绕听力装置用户1、竞争性讲话者8和目标声源 2，因而可影响在听力装置用户1处接收到的目标声源信号。

第一传声器4、第二传声器5、第三传声器6和第四传声器7可提供包括目标语音信号、竞争性讲话者信号和噪声信号分量3的电输入信号。

在图3B中，话音活动(VA)被示为时间间隔(时间)的函数。假定目标声源2和用户背对背讲话，竞争性讲话者8与目标声源2和用户1的语音重叠。用户1被示为在t1与t2之间及t5与t6之间的时间间隔讲话(“自我话音”)，而目标声源2被示为在t3与t4之间及t7与t8之间的时间间隔讲话(“目标声源”)。竞争性讲话者8被示为在t1*与t7*之间的时间间隔讲话(“竞争性讲话者”)。在图3B的整个时间间隔期间，有具有随机波动的噪声电平的噪声信号(记为“噪声”的实线曲线)。

图3C示出了图3B的示例性话音活动可怎样使用自我话音VAD及使用 VAD进行检测。

自我话音VAD将检测到用户1在t1与t2之间的时间间隔及在t5与t6之间的时间间隔讲话。另一方面，所述VAD将在从t1到t8的整个时间间隔检测语音正(从用户1、竞争性讲话者8和目标声源2)产生。

图3D示出了听力装置能够更新降噪系统从而提供目标语音信号的估计量及至少部分衰减包括竞争性讲话者信号的噪声信号分量3的时间间隔。

在经典方法中，VAD可用于检测语音的存在，听力装置的降噪系统将仅在不产生语音(来自用户1、竞争性讲话者8和来自目标声源2)的时间进行更新，因为VAD不能区分来自用户1的语音、来自竞争性讲话者8的语音和来自目标声源2的语音。因而，仅在VAD未检测到语音的时间，即从t0到t1及从 t8之后，降噪系统才将被更新。

使用自我话音VAD，听力装置的降噪系统可配置成不仅在未检测到语音时更新，而且在自我话音VAD检测到来自用户1的语音时更新，即从t0到t2、从t5到t6及从t8之后的时间更新。

因而，噪声信号分量可在自我话音检测器指明至少一电输入信号或源自其的信号源自用户1的话音或者以高于自我话音存在概率(OVPP)阈值的概率源自用户1的话音时的时间段期间识别。

在听力装置中结合自我话音VAD和一般VAD，降噪系统可配置成既在用户1讲话时检测又在目标声源2和竞争性讲话者8讲话时检测。从而，该降噪系统可在未产生语音信号的时间间隔期间及用户1讲话的时间间隔期间进行更新，但被防止在目标声源2产生目标语音信号的时间间隔更新。

在图4A和4B中，降噪系统NRS连接到包括M个输入变换器(IT₁,…,IT_M) 如传声器的输入单元IU，其中M大于或等于2。M个输入变换器可位于单一听力装置如助听器中(例如位于用户耳朵中或耳朵处)。M个输入变换器可跨两个(分开的)听力装置如助听器分布(例如在位于用户的两只耳朵中或耳朵处的两个听力装置中)。后一配置可形成双耳听力系统如双耳助听器系统的一部分或者构成双耳听力系统如双耳助听器系统。双耳助听器系统的每一听力装置可包括一个或多个(至少一个)例如两个以上输入变换器(如传声器)。图6示出了双耳助听器系统的传声器配置，其中每一助听器包括两个传声器。图5A、 5B、5C示出了根据本发明的、包括降噪系统的听力装置(如助听器)的多个不同实施例。

图4A示出了示例性的输入单元IU连接到示例性的降噪系统。M个输入变换器中的每一个(在其相应的、不同位置)接收来自输入声场(包括环境声音) 的声音信号(s₁,…,s_M)。输入单元IU包括M个输入子单元(IU₁,…,IU_M)。每一输入单元包括输入变换器(IT₁,…,IT_M)如传声器，用于将输入声音信号转换为电输入信号(s’₁,…,s’_M)。每一输入变换器可包括模数转换器，用于将模拟输入信号转换为数字信号(以某一采样速率，如20kHz或更高)。每一输入单元还包括分析滤波器组，用于将时域(数字)信号转换为K个(例如≥16，或≥24或≥ 64)子频带信号(S₁(k,n),…,S_M(k,n)，其中k和n分别为频率指数和时间指数，及其中k＝1,…,K。时频表示(k,n)的相应电输入信号(S₁(k,n),…,S_M(k,n))被馈给降噪系统NRS。

降噪系统NRS配置成提供目标语音信号(如助听器用户的自我话音和/或用户环境中的目标讲话者的话音)的估计量

其中噪声信号分量被至少部分衰减。降噪系统NRS包括多个波束形成器。降噪系统NRS包括波束形成器BF如MVDR波束形成器或MWF波束形成器，其连接到输入单元IU并配置成接收时频表示的电输入信号(S₁(k,n),…,S_M(k,n))。波束形成器BF配置成提供至少一波束成形(空间滤波的)信号，例如目标语音信号的估计量

通过波束形成实现定向性/方向性是衰减不想要的噪声的有效方式，因为随方向而变的增益可抵消来自一方向的噪声，同时保留从另一方向传来的感兴趣的声音，从而可能提高目标语音信号的可懂度(进而提供空间滤波)。通常，听力装置如助听器中的波束形成器具有波束图，其被持续调整以使噪声分量最小化，同时从目标方向传来的声音不被改变。通常，噪声信号的声学性质随时间变化。因此，降噪系统实施为自适应系统，其调整方向波束图以使噪声最小化，同时目标声音(方向)不被改变。

图4A的降噪系统NRS还包括话音活动检测器VAD，用于反复估计至少一 (大部分或全部)电输入信号或源自其的信号是否或者以何种概率包括语音。电输入信号(S₁(k,n),…,S_M(k,n))或者其中的至少一个(或其处理后的例如波束成形版本)被馈给VAD，在其基础上，提供指明电输入信号或其处理后版本是否或者以何种概率包含语音的话音活动信号VA。VA被馈给用于更新噪声协方差矩阵C_noise的更新单元UPD-C_noise。噪声协方差矩阵在不存在语音时(在给定时间点)从(有噪声的)电输入信号(S₁(k,n),…,S_M(k,n))确定(假定在这些时刻在声场中仅存在噪声)。更新的噪声协方差矩阵C_noise(k,n)由更新滤波器权重单元 UPD-W使用，其中在噪声协方差矩阵被更新的给定时刻更新的滤波器权重W(k,n)基于最新的噪声协方差矩阵C_noise(k,n)和从目标声源到听力系统(或装置) 的输入单元IU的相应输入变换器的当前相对或绝对声学传递函数的估计量(例如设置中视向量d(k,m)中)进行确定。噪声协方差矩阵C_noise(k,n)和波束形成器权重W(k,n)的计算在现有技术中已知，例如在[11]中和/或EP2701145A1中描述。更新的波束形成器权重W(k,n)在波束形成器BF中应用于电输入信号(S₁(k,n),…, S_M(k,n))，藉此，提供目标信号的估计量

图4B示出了示例性输入单元IU连接到根据本发明的、示例性降噪系统 NRS。图4B的实施例基本等同于图4A的实施例，因为其包含与图4A实施例一样的功能元件。然而，其另外包含自我话音检测器OVAD，用于反复估计至少一(大部分或全部)电输入信号(S₁,S_M)或源自其的信号是否或者以何种概率包括源自用户话音的语音。一些声学事件具有截然不同的方向波束图，这些声学事件可与其它声学事件区分开。听力装置用户的自我话音是这样的事件的一个例子。这在本发明中被利用。通过同时监测(一般的)话音存在(由来自VAD的话音活动信号VA标示)和(特别的)自我话音存在(由来自OVAD的自我话音活动信号OVA标示)，可有利地使用用于识别适合更新噪声协方差矩阵C_noise(k,n)的时间段的另一方案(不同于一般话音不存在)。如图1A、2D、 3D的例子中所示，根据本发明的降噪系统配置成在自我话音语音活动期间(可能及在一般语音不存在期间)更新噪声协方差矩阵C_noise(k,n)。更新单元UPD- C_noise例如可包括自我话音抵消波束形成器，配置成抵消(或衰减)来自用户嘴巴的声音，同时保留来自其它方向的声音不变(或较少衰减)。更新滤波器权重单元UPD-W可包括(单通道)后滤波器的功能，其中，除了目标信号的空间滤波之外，噪声分量还被更新单元UPD-C_noise的自我话音抵消波束形成器衰减。更新滤波器权重单元UPD-W可接收或计算自我话音传递函数(嘴巴到传声器)，例如设置在视向量d中(参见输入d)。视向量可在听力装置运行之前或期间确定。视向量可用于确定当前滤波器权重。视向量可表示到用户自我话音或者到外部目标声源如环境中的目标讲话者的传递函数或相对传递函数。用户自我话音的视向量及环境目标讲话者的视向量均可提供给降噪系统或者由降噪系统自适应确定。降噪系统NRS可包括模式选择输入(“模式”)，配置成指明系统如波束形成器的运行模式和/或更新策略，例如目标信号是用户自我的话音还是来自用户环境的目标信号(及可能指明这样的目标声源的方向或位置)。模式控制信号例如可从用户接口如从遥控装置(例如实施为智能电话或类似装置如智能手表等的APP)提供。用户接口可包括话音控制接口(例如参见图5C)。模式控制信号例如可自动产生，例如使用一个或多个传感器产生，例如由如来自电话的无线信号的接收开始。波束形成器BF的输出可以是用户话音的估计量

或者来自环境的目标声音的估计量

例如参见图5B。

图5A示出了听力装置如助听器HD的示例性框图，其包括根据本发明的降噪系统NRS。该听力装置包括用于从环境拾取声音s_in并提供M个电输入信号 (S₁,…,S_M)的输入单元IU和用于基于电输入信号及非必须地基于结合图4A、 4B描述的另外的信息(如模式控制信号(“模式”))估计输入声音s_in中的目标信号

的降噪系统NRS。该助听器还包括处理器PRO，用于将一个或多个处理算法应用于从输入到输出变换器的正向通路的信号(例如，在此应用于目标信号的估计量

按时频表示

提供)。一个或多个处理算法例如可包括压缩算法，配置成根据用户需要放大(或衰减)信号，从而例如补偿用户的听力受损。其它处理算法可包括频移、反馈控制等。处理器提供处理后的输出OUT，其被馈给输出单元OU，输出信号out因而被转换为可由用户感知为声音的刺激 s_out(感知的输出声音)，例如(空气和/或颅骨中的)声学振动或者耳蜗神经的电刺激。在非助听器如头戴式耳机应用中，处理器可配置成进一步增强来自降噪系统的信号或者可被省掉(使得目标信号的估计量

被直接馈给输出单元)。目标信号可以是用户自我话音和/或用户环境中的目标声音(例如(不同于用户的)人讲话，例如与用户通信)。

图5B示出了听力装置如助听器HD的示例性框图，其包括根据本发明实施例的、处于免提电话运行模式的降噪系统NRS。图5B的实施例包括结合图5A 实施例描述的功能模块。然而，特别地，图5B的实施例配置成在特定通信模式下实施无线头戴式耳机，从而使用户能与远处的通信伙伴进行口头通信。在特定通信运行模式(如电话模式)下，助听器配置成使用输入单元IU_MIC提供的电输入信号拾取用户的话音并使用根据本发明的降噪系统NRS1提供用户话音的估计量

及将该估计量(自我话音音频)经合成滤波器组FBS及适当的发射器Tx和天线电路传给另一装置(如电话机或类似设备)或系统。另外，助听器HD包括辅助音频输入(音频输入)，配置成从另一装置或系统如电话机(或类似设备)(例如通过有线或无线方式)接收直接音频输入。在图5B的实施例中，无线接收的输入(例如来自通信伙伴的口头通信)被示为由助听器经天线和输入单元IU_AUX接收。辅助输入单元IU_AUX包括适当的接收器电路、模数转换器(如果适当)及分析滤波器组以将时频表示的音频信号S_aux提供为子频带信号S_aux(k,n)。图5B的助听器的正向通路包括与结合图5A的实施例描述的一样的元件及另外包括选择器-混合器SEL-MIX，从而使正向通路的信号 (其在处理器PRO中进行处理并作为可感知为声音的刺激呈现给用户)可配置。在模式控制信号的控制下，选择器-混合器SEL-MIX的输出S_x(k,n)可以是a)环境信号S_ENV(k,n)(例如环境中的目标信号的估计量，或者全向信号，例如来自传声器之一)；b)来自另一装置的辅助输入信号S_aux(k,n)；或者c)其混合 (例如(可能经用户接口可配置的)加权混合)。此外，相较于图5A的实施例，图5B实施例的正向通路包括合成滤波器组FBS，配置成将通过多个子频带信号表示的时频域的信号(在此为来自处理器PRO的信号OUT(k,n))转换为时域信号out。助听器(正向通路)还包括输出变换器OT，用于将输出信号out 转换为可由用户感知为声音(输出声音)的刺激s_out，例如(空气和/或颅骨中的)声学振动。输出变换器OT可包括数模转换器，如果适当。

第一降噪系统NRS1配置成提供用户自我话音的估计量

第一降噪系统 NRS1可包括自我话音保持波束形成器和自我话音抵消波束形成器。自我话音抵消波束形成器包括用户讲话时的噪声源。

第二降噪系统NRS2配置成提供目标声源的估计量(例如用户环境中的讲话者的话音

第二降噪系统NRS2可包括环境目标声源保持波束形成器和环境目标声源抵消波束形成器和/或自我话音抵消波束形成器。目标抵消波束形成器包括目标讲话者讲话时的噪声源。自我话音抵消波束形成器包括用户讲话时的噪声源。

图5B可表示一般的头戴式耳机应用，例如通过将传声器到发射器通路 IU_MIC-Tx与直接音频输入到扬声器通路IU_AUX-OT分开。这可以几种方式进行，例如通过去除第二降噪系统NRS2及选择器-混合器SEL-MIX，及可能去除合成滤波器组FBS(如果辅助输入信号S_aux在时域进行处理)，从而将辅助输入信号S_aux直接馈给处理器PRO，其可以或者(一般地)也可不配置成补偿用户的听力受损。

图5C示出了根据本发明的包括降噪系统的助听器的示例性框图，其包括话音控制接口。图5C的实施例包括与图5B的实施例一样的正向通路，除了在图 5C的实施例中省略在由来自输入变换器的电输入信号组成的波束成形信号中包括(例如无线接收的)辅助音频信号的选项之外。在另一实施例中，图5B和 5C的实施例可混合，使得图5C的助听器另外包括来自另一装置的辅助输入及将自我话音信号传给另一装置(以实施通信模式)的选项也可实施。通信模式 (如电话模式)的开始(或终止)例如可经话音接口如话音控制信号Vctr提供。在图5C的实施例中，由第一降噪系统NRS1提供的用户自我话音的估计量

用作话音控制接口VCI的输入。话音控制接口VCI例如可根据唤醒词(由用户说出并从用户话音的估计量

提取)的检测而启动。当话音控制接口启动时，可提取多个预定命令词之中的一个命令词，并可根据其产生控制信号(VCtr, xVCtr)。助听器的功能(例如通过处理器PRO实施)可经话音接口VCI控制，参见信号Vctr。提取的唤醒词(例如“Hey Siri”、“HeyGoogle”或“OK Google”、“Alexa”、“X Oticon”等)和/或命令词可传给另一装置(例如智能电话或其它话音可控制的设备)，参见经(非必须地，合成滤波器组FBS和) 天线和收发器电路TX传给另一装置的控制信号xvctr。

例1

在本申请中，公开了噪声CPSD矩阵的最大似然(ML)估计器，其克服 [1,4]提出的方法的局限性(例如在声学环境中存在显著的干扰时)。提出了扩展噪声CPSD矩阵模型。在下面，呈现了声学场景中的有噪声观察结果的信号模型。基于该信号模型，得出干扰+噪声CPSD矩阵的ML估计器，及所提出的方法通过应用于自我话音取回进行例示。

声学场景由用户配备有多个助听器或者可访问至少M＞2个传声器的头戴式耳机组成。这些传声器从环境拾取声音，及有噪声信号被采样为离散序列

对于所有m＝1，...，M个传声器，

如图6中所示，用户在该声学场景中活动，由用户产生的、所需要的纯净语音信号(我们称为自我话音) 定义为离散序列s_o(t)。干扰被建模为点源(称为v_c(t))，及声学环境中的噪声为v_e，m(t)。由传声器拾取的有噪声信号则为所有三个分量的和，即

x_m(t)＝s_o(t)*d_o，m(t)+v_c(t)*d_m(t，θ_c)+v_e，m(t)， (1)

其中*指卷积，d_o，m(t)为第m个传声器与自我话音来源之间的相对脉冲响应， d_m(t，θ_c)为第m个传声器与从方向θ_c∈Θ到达的干扰之间的相对脉冲响应，其中，在不损失一般性的情形下，我们假定Θ为方向的离散集，Θ＝{-180°，...，180}，具有I个元素。降噪系统的目标则为从有噪声的观察结果x_m(t)取回s_o(t)。

我们将短时傅里叶变换(STFT，short-time Fourier transform)应用于x_m(t) 以将有噪声信号变换到时频(TF)域，具有帧长度T、抽选因子D和分析窗口 w_A(t)，使得

为有噪声信号的TF域表示，其中，

k为频率窗口(frequency bin)指数，及n为帧指数。有噪声观察结果在TF域的信号模型则变成

为了方便，对有噪声观察结果进行向量化，使得x(k，n)＝[x₁(k，n)，...，x_M(k，n)]^T及

我们进一步假定相对传递函数(RTF)向量(即d_o(k，n)和d(k，n，θ_c))随时间保持一样，这样，我们可定义

和

在实践中，通常是s_o(k，n)、v_c(k，n)和v_e(k，n)为无关联的随机处理，意味着有噪声观察结果的CPSD矩阵即

按下式给出

其中λ_s(k，n)、λ_c(k，n)和λ_e(k，n)分别为自我话音、干扰和噪声的功率谱密度(PSD)。Γ_e(k，n)为归一化的噪声CPSD矩阵，1为参考传声器指数，我们假定 Γ_e(k，n)为已知矩阵，但对于大约均质的噪声场，可被建模为

我们假定自我话音RTF向量d_o(k)已知，因为其可在部署之前提前进行测量。剩余要估计的参数为λ_c(k，n)、λ_e(k，n)和θ_c，所提出的、这些参数的ML估计器将在下面的部分提出。

为估计干扰+噪声PSD即λ_c(k，n)和λ_e(k，n)以及干扰方向θ_c，我们首先应用自我话音抵消波束形成器以获得仅干扰+噪声的信号(例如来自自我话音和竞争性讲话者的信号)。自我话音抵消波束形成器使用自我话音阻塞矩阵B_o(k)实施。找到自我话音阻塞矩阵的常见方法是首先找到d_o(k)的正交投影矩阵，然后选择该投影矩阵的前M-1列向量。更清楚地，设I_M×M为M×M单位矩阵，则I_M×M-1为I_M×M的前M-1列向量。自我话音阻塞矩阵则按下式给出

其中B_o(k)∈C^M×M-1。自我话音阻塞的信号z(k，n)可表达为

及自我话音阻塞的CPSD矩阵为

在提出λ_c(k，n)、λ_e(k，n)和θ_c的ML估计器之前，我们介绍自我话音+干扰阻塞矩阵

该步骤是必要的，因为噪声PSDλ_e(k，n)的ML估计器还要求干扰被从自我话音阻塞的信号z(k，n)去除。形成自我话音+干扰阻塞矩阵遵循与形成自我话音阻塞矩阵类似的程序。自我话音+干扰阻塞矩阵可以是

其中

自我话音+干扰阻塞矩阵

为方向的函数，因为干扰的方向一般未知。自我话音+干扰阻塞的信号则为

及阻塞的自我话音+干扰CPSD矩阵为

仅在θ_i＝θ_c时。

假定自我话音、干扰和噪声时间上无关联是常见的[6]。在该假设条件下，阻塞的自我话音+干扰信号根据圆形对称复高斯分布进行分布，即

意味着z(k，n)的N个观察结果的似然函数由下式给出

tr(·)指迹算子，及

为自我话音阻塞的CPSD矩阵的样本估计量。干扰+噪声PSDλ_c(k，n)和λ_e(k，n)的ML估计器已在[1，4]中得出。λ_e(k，n)的ML估计器由下式给出

为自我话音+干扰阻塞的信号的样本协方差，及干扰PSD的ML估计器则为如[7]给出的

其中

为从阻塞的自我话音CPSD矩阵构建的MVDR波束形成器，即

将ML估计量

和

插入到似然函数，我们获得集中的似然函数

我们将其简化为

常见地，通过将自然对数函数应用于集中的似然函数而使对数似然函数最大化。则可表明，集中的对数似然函数正比于[8，9]。

在声学环境中仅存在单一干扰及跨频率窗口的有噪声观察结果不相关的假设下，则可得出宽带集中的对数似然函数

其中K为单边频谱的频率窗口的总数。为获得干扰方向的ML估计量，我们使下面的函数最大化

由于θ_i属于方向的离散集，θ_c的ML估计量通过跨θ_i的穷尽搜索获得。最后，为获得干扰+噪声CPSD矩阵的估计量，我们将ML估计量插入到干扰+噪声CPSD模型内，即

对于自我话音取回，我们实施MWF波束形成器。众所周知，MWF可分解为MVDR波束形成器和单通道后齐纳滤波器。MVDR波束形成器由下式给出

及单通道后齐纳滤波器为

MWF波束形成器系数则为

w_MWF(k，n)＝w_MVDR(k，n)·g(k，n). (23)

最后，自我话音信号可使用波束形成器权重估计为有噪声观察结果的线性组合，即

增强的TF域信号y(k,n)然后使用逆STFT变换回到时域，使得y(t)为取回的自我话音时域信号。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或 “耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者 “可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

[1]U.Kjems and J.Jensen,“Maximum likelihood based noise covariancematrix estimation for multimicrophone speech enhancement,”in 2012Proceedingsof the 20th European Signal Processing Conference(EUSIPCO),Aug 2012,pp.295–299.

[2]Yujie Gu and A.Leshem,“Robust Adaptive Beamforming Based onInterference Covariance Matrix Reconstruction and Steering VectorEstimation,”IEEE Transactions on Signal Processing,vol.60,no.7,pp.3881–3885,July 2012.

[3]Richard C.Hendriks and Timo Gerkmann,“Estimation of the noisecorrelation matrix,”in 2011IEEE International Conference on Acoustics,Speechand Signal Processing(ICASSP),Prague,Czech Republic,May 2011,pp.4740–4743,IEEE.

[4]Jesper Jensen and Michael Syskind Pedersen,“Analysis of beamformerdirected single-channel noise reduction system for hearing aid applications,”in 2015 IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP), South Brisbane,Queensland,Australia,Apr.2015,pp.5728–5732,IEEE.

[5]Mehrez Souden,Jingdong Chen,Jacob Benesty,and Sofi`ene Affes,“AnIntegrated Solution for Online Multichannel Noise Tracking and Reduction,”IEEE Transactions on Audio,Speech,and Language Processing,vol.19,no.7,pp.2159– 2169,Sept.2011.

[6]K.L.Bell,Y.Ephraim,and H.L.Van Trees,“A Bayesian approach torobust adaptive beamforming,”IEEE Transactions on Signal Processing,vol.48,no.2,pp. 386–398,Feb.2000.

[7]Adam Kuklasinski,Simon Doclo,Timo Gerkmann,Soren Holdt Jensen,andJesper Jensen,“Multi-channel PSD estimators for speech dereverberation-Atheoretical and experimental comparison,”in 2015IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),South Brisbane,Queensland,Australia,Apr.2015,pp.91–95,IEEE.

[8]Mehdi Zohourian,Gerald Enzner,and Rainer Martin,“Binaural SpeakerLocalization Integrated Into an Adaptive Beamformer for Hearing Aids,”IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.26,no.3,pp.515–528, Mar.2018.

[9]Hao Ye and D.DeGroat,“Maximum likelihood DOA estimation andasymptotic Cramer-Rao bounds for additive unknown colored noise,”IEEETransactions on Signal Processing,vol.43,no.4,pp.938–949,Apr.1995.

[10]Michael Brandstein and Darren Ward,Microphone Arrays:SignalProcessing Techniques and Applications,2001.

[11]EP2701145A1(Retune,Oticon)26.02.2014

Claims

1.一种听力装置，其适于位于用户耳朵处或耳朵中或者适于完全或部分植入在用户头部中，所述听力装置包括：

用于提供至少一表示用户环境中的声音的电输入信号的输入单元，所述电输入信号包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量即噪声信号分量；

用于提供目标语音信号的估计量的降噪系统，其中所述噪声信号分量被至少部分衰减；

自我话音检测器，用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音；

其中所述噪声信号分量在所述自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率阈值的概率源自用户话音时的时间段期间被识别。

2.根据权利要求1所述的听力装置，其中输入单元包括传声器，每一传声器提供包括目标语音信号和噪声信号分量的电输入信号。

3.根据权利要求1或2所述的听力装置，包括话音活动检测器，用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括语音。

4.根据前面任一权利要求所述的听力装置，包括一个或多个波束形成器，其中输入单元配置成提供连接到一个或多个波束形成器的、至少两个电输入信号，及其中一个或多个波束形成器配置成提供至少一个波束成形信号。

5.根据权利要求4所述的听力装置，其中一个或多个波束形成器包括一个或多个自我话音抵消波束形成器，配置成衰减源自用户嘴巴的信号分量，同时来自所有其它方向的信号分量保持不变或者较少衰减。

6.根据前面任一权利要求所述的听力装置，其中噪声信号分量另外在话音活动检测器指明至少一电输入信号或源自其的信号中不存在语音或者以低于语音存在概率阈值的概率存在语音的时间段期间进行识别。

7.根据前面任一权利要求所述的听力装置，包括用于听力装置或其它设备或系统的话音控制的话音接口。

8.根据前面任一权利要求所述的听力装置，其中来自目标声源的目标语音信号包括来自听力装置用户的自我话音语音信号。

9.根据权利要求1-7任一所述的听力装置，其中目标声源包括听力装置用户环境中的外部讲话者。

10.根据前面任一权利要求所述的听力装置，由助听器、头戴式耳机、主动耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、主动耳朵保护装置或其组合。

11.根据前面任一权利要求所述的听力装置，其中所述听力装置还包括定时器，其配置成确定自我话音语音信号与另一语音信号之间的重叠时间段。

12.根据前面任一权利要求所述的听力装置，其中所述听力装置配置成确定所述时间段是否超过时限，如果是，将另一语音信号标记为噪声信号分量的一部分。

13.一种听力装置的运行方法，所述听力装置适于位于用户耳朵处或耳朵中或者适于完全或部分植入在用户头部中，所述方法包括：

提供至少一表示用户环境中的声音的电输入信号，所述电输入信号包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量即噪声信号分量；

提供目标语音信号的估计量，其中噪声信号分量被至少部分衰减；

反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音；

在自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率阈值的概率源自用户话音时的时间段期间识别噪声信号分量。

14.一种双耳听力系统，包括第一和第二根据权利要求1-12任一所述的听力装置，所述双耳听力系统配置成使能在第一和第二听力装置之间交换数据。

15.一种计算机可读介质，其上存储有包括指令的计算机程序，当所述程序由计算机执行时，使得所述计算机执行根据权利要求13所述的方法的步骤。