CN113543003A

CN113543003A - 包括定向系统的便携装置

Info

Publication number: CN113543003A
Application number: CN202110437844.2A
Authority: CN
Inventors: M·S·彼得森; C·谢尔; M·伯格曼; H·贝; M·彼得森; B·克罗格斯高加特; J·米科尔森; S·格莱姆; J·M·德哈恩; A·T·贝特尔森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2020-04-22
Filing date: 2021-04-22
Publication date: 2021-10-22
Also published as: US11330366B2; DK3902285T3; EP4213500A1; EP3902285B1; US20210337306A1; EP3902285A1

Abstract

本申请公开了包括定向系统的便携装置，其为声音捕获装置，所述声音捕获装置包括：包含多个输入变换器的输入单元；壳体；用于提供目标声音的估计量的定向降噪系统，该定向降噪系统包括在工作时连接到所述多个输入变换器的波束形成器单元，该波束形成器单元包括目标保持、参考波束形成器及目标消除波束形成器；所述定向降噪系统配置成根据模式控制信号至少在定向模式和全向模式下运行；用于建立到另一装置的音频链路的天线和收发器电路，其中所述声音捕获装置配置成将目标声音的估计量传给所述另一装置；及模式控制器，用于根据当前参考信号和当前目标消除信号确定模式控制信号。

Description

包括定向系统的便携装置

技术领域

本发明涉及声音捕获装置，其配置成从环境拾取声音并将处理后的声音传给听力装置如助听器或者传给另一装置或系统。

背景技术

声音捕获装置(和听力装置)可配置成由听力装置用户或另一人佩戴。在不同情形下，例如：

a)声音捕获装置可由听力装置用户佩戴并配置成拾取听力装置用户的自我话音及将其传给另一装置，例如电话或任何其它通信装置或系统；或者

b)声音捕获装置可配置成由与听力装置用户通信的人佩戴并将该人的话音传给听力装置；或者

c)声音捕获装置可被保留在托架如桌子上，并配置成从其环境拾取声音例如来自多个(如两个以上)人的声音及将该声音传给听力装置和/或另一装置或系统如通信装置。

US8391522B2提出了使用加速计来改变外部传声器阵列的处理。US7912237B2提出了使用方向传感器来在外部传声器阵列的全向和定向处理之间改变。

发明内容

本发明包括用于基于声音捕获装置的传声器的估计的定向表现而调节声音捕获装置中的信号处理的方案，例如用于改变信号处理模式的方案，例如在声音捕获装置的定向运行模式与全向运行模式之间改变。

本发明还涉及基于声音捕获装置的传声器的估计的定向表现而检测声音捕获装置如听力装置例如助听器中的用户自我话音。

声音捕获装置

在本申请的一方面，提供一种配置成由人佩戴和/或位于表面如桌子上的声音捕获装置。该声音捕获装置配置成从目标声源s拾取目标声音。该声音捕获装置可包括：

-包含多个输入变换器IT_m,m＝1,2,…,M的输入单元，M大于或等于2，每一输入变换器配置成从声音捕获装置的环境拾取声音并提供对应的电输入信号，每一电输入信号IN_m,m＝1,…,M包括目标信号分量和噪声信号分量；

-壳体，所述多个输入变换器位于其中，及其可包括首选方向；

-用于提供目标声音s的估计量的定向降噪系统，该定向降噪系统包括在工作时连接到所述多个输入变换器IT_m,m＝1,…,M的波束形成器单元，该波束形成器单元可包括

--目标保持、参考波束形成器，配置成保持来自固定目标方向的信号分量相对于来自其它方向的信号分量不衰减或较少衰减，并提供当前参考信号；及

--目标消除波束形成器，配置成衰减来自所述目标方向的信号分量，而来自其它方向的信号分量相对于来自所述目标方向的信号分量较少衰减，并提供当前目标消除信号。

定向降噪系统可配置成根据模式控制信号在至少两种模式下运行：

-定向模式，其中目标声音s的估计量基于来自固定目标方向的目标信号分量；及

-非定向、全向模式，其中目标声音s的估计量基于来自所有方向的目标信号分量。

声音捕获装置还可包括：

-用于建立到另一装置的音频链路的天线和收发器电路，及声音捕获装置可配置成将目标声音s的估计量传给所述另一装置。

声音捕获装置还可包括模式控制器，用于根据当前参考信号和当前目标消除信号确定模式控制信号。

从而可提高声音捕获装置的使用灵活性。

目标保持波束形成器的固定目标方向可与声音捕获装置的壳体的首选方向一致(或者可在声音捕获装置使用之前已知或进行估计)。多个输入变换器可包括传声器阵列。优选地，目标方向为传声器阵列的末端发射方向。即与传声器阵列平行的方向。传声器方向可通过穿过传声器的中心的方向确定。传声器阵列可以是线性阵列，其中(两个以上)传声器位于直线(传声器方向)上。

在实施例中，自我话音波束形成器针对声音捕获装置在人身上的首选置放进行校准，例如使得壳体的首选方向指向人的嘴巴。校准程序可在特殊的校准模式下发生。或者，校准可在使用期间发生，例如在检测自我话音时。

目标保持波束形成器可以是实质上的全向波束形成器(例如参见图2A)。目标保持波束形成器可具有随频率而变的衰减(例如参见图2D)。

目标保持波束形成器与目标消除波束形成器之间的最大差异反映存在佩戴声音捕获装置的人的话音(或者反映传声器方向与朝向当前讲话者的方向一致，例如当声音捕获装置位于当前讲话者附近的表面上时)。

定向降噪系统可配置成根据模式控制信号在全向模式与定向模式之间切换。

输入变换器中的至少一个可以是传声器。输入变换器的大部分或全部可以是传声器。多个输入变换器可由两个传声器构成或者包括两个传声器。多个输入变换器可包括传声器阵列。多个输入变换器可包括MEMS传声器。

声音捕获装置可包括滤波器组。滤波器组可配置成通过在多个子频带提供时域输入信号而使声音捕获装置中的处理能在滤波器组域(频域)进行，例如提供为连续时刻l的多个(K个)频率窗口(k＝1,…,K)，每一频率窗口由相应的频率和时间帧指数(k,l)确定。声音捕获装置的输入单元例如可包括多个(M个)分析滤波器组，每一分析滤波器组连接到M个输入变换器中的不同输入变换器并配置成按子频带/时频表示(k,l)提供M个电输入信号中的每一电输入信号。

相应的当前参考信号和当前目标消除信号的量值或处理后版本可跨时间求平均以提供相应的平滑的参考和目标消除度量。当前参考信号(ref(k,l))和当前目标消除信号(TC(k,l))的量值(或量值平方)可通过相应的量值(或量值平方)运算提供(参见图3中的|ref|,(|ref|²)和|TC|,(|TC|²))。相应的当前参考信号和当前目标消除信号的处理后版本例如可包括a)当前参考信号(的复共轭)的(可能复数)值与当前目标消除信号的乘积(ref^*TC)；及b)当前目标消除信号的量值平方(|TC|²)(例如参见图4)。

声音捕获装置可包括话音活动检测器。声音捕获装置可配置成使得在话音活动检测器检测到用户话音时仅发生按时间帧求平均。话音可利用话音活动检测器进行检测，例如基于调制的话音活动检测器。话音活动检测器可配置成估计在分开的子频带中(例如在每一频率窗口中)的话音存在概率(或二元值)。参考波束形成器(参见OMNI-BF)和目标话音消除波束形成器(参见TC-BF)的平滑的量值可被转换到对数域(参见图3中的单元“log”)。

声音捕获装置可包括组合处理器，配置成比较不同子频带的当前参考信号和当前目标消除信号或者其处理后版本并提供相应的子频带比较信号。

声音捕获装置可包括决策控制器，配置成根据子频带比较信号提供指明定向降噪系统的适当运行模式的模式控制信号。分开的子频带中发现的差异(参见图3中的SUM单元“+”或者图4中的DIV单元“÷”)跨频率组合为联合决策(参见图3、4中的“决策”模块)。决策控制器例如可通过逻辑处理实施，如加权和；或者可通过逻辑递归或神经网络实施。权重可基于有监督的学习进行估计。作为备选，组合功能可手动调整。

决策控制器可配置成根据各个子频带比较信号的加权和提供模式控制信号。当模式控制信号跨频率呈现第一(例如相对大的)值时，其标示当前参考信号与当前目标消除信号或者其处理后版本之间的第一(相对大的)所得的差，这表明定向降噪的好处大，定向降噪系统应被切换到(或保持在)定向模式。否则，如果模式控制信号呈现第二(例如相对小的)值，其标示(第二)所得的差相当小(例如小于3dB或小于6dB或小于9dB)，定向降噪的可能好处有限，定向降噪系统应被切换到(或保持在)全向模式。第一所得的差假定大于第二所得的差。定向模式可自适应(例如其降噪自适应)或固定。模式控制信号可以是二元信号(如0或1)。模式控制信号可以是连续信号(例如呈现区间[0,1]中的值)，及定向降噪系统使用使得可根据模式控制信号在不同方向模式之间平滑过渡。

当模式控制信号指明当前参考信号与当前目标消除信号或其处理后版本之间跨频率具有相当大的差异时，定向降噪系统可适于处于定向模式；及当模式控制信号指明当前参考信号与当前目标消除信号或其处理后版本之间跨频率具有相当小的差异时，定向降噪系统可适于处于全向模式。当模式控制信号小于第一阈值时，定向降噪系统可适于处于全向模式。当模式控制信号大于第二阈值时，定向降噪系统可适于处于定向模式。当模式控制信号呈现第一和第二阈值之间的值时，定向降噪系统可适于处于全向模式与定向模式之间的模式。

声音捕获装置可由传声器装置构成或者包括传声器装置。声音捕获装置例如可由专用无线传声器装置构成。声音捕获装置例如可由听力装置如助听器或者耳机构成，或者形成听力装置如助听器或者耳机的一部分。

另一方面，提供一种配置成由用户佩戴的声音捕获装置如听力装置例如助听器。该声音捕获装置包括：

-包含多个输入变换器IT_m,m＝1,2,…,M的输入单元，M大于或等于2，每一输入变换器配置成从声音捕获装置的环境拾取声音并提供对应的电输入信号，每一电输入信号IN_m,m＝1,…,M包括来自目标信号源的目标信号和来自一个或多个噪声信号源的噪声信号；

-自我话音检测器，配置成提供指明给定电输入信号或其处理后版本是否或者以何种概率源自用户话音的话音控制信号。

自我话音检测器可包括：

-在工作时连接到所述多个输入变换器IT_m,m＝1,…,M的波束形成器单元，该波束形成器单元包括

--目标消除波束形成器，配置成衰减来自所述目标方向的信号分量，而来自其它方向的信号分量相对于来自所述目标方向的信号分量较少衰减，并提供当前目标消除信号；

其中所述固定目标方向为来自朝向用户嘴巴的声音捕获装置的方向，目标信号为用户自我话音；及

-用于根据当前参考信号和当前目标消除信号确定自我话音控制信号的控制器。

控制器可配置成根据当前参考信号与当前目标消除信号的比较确定自我话音控制信号。

控制器可配置成根据参考波束形成器和目标消除波束形成器的量值确定自我话音控制信号。

目标消除波束形成器(在此即自我话音消除波束形成器)例如波束形成器权重可在检测到自我话音时更新。从而，可提高自我话音消除波束形成器的性能(其可能随距离(因近场)及倾斜而变)。

声音捕获装置如听力装置可包括关键词检测器，用于在多个电输入信号之一或其处理后版本中检测有限数量的关键词之一，其中关键词检测器根据自我话音控制信号启动。声音捕获装置可包括使能控制声音捕获装置如听力装置例如助听器的功能的话音控制接口。关键词检测器可连接到话音控制接口。关键词检测器可配置成检测用于启动话音控制接口的唤醒词。关键词检测器可连接到自我话音检测器。

声音捕获装置包括用于提供表示声音的电输入信号的输入单元。输入单元包括用于将输入声音转换为电输入信号的输入变换器如传声器。

声音捕获装置可包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴声音捕获装置的用户的局部环境中的多个声源之中的目标声源。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在声音捕获装置如助听器中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到，例如线性约束最小方差(LCMV)波束形成器。其特殊变型即最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

声音捕获装置可包括天线和收发器电路(如无线收发器或者接收器)，用于将直接电输入信号无线传给另一装置或从另一装置无线接收直接电输入信号，另一装置如通信装置或另一声音捕获装置例如助听器。直接电输入信号可表示或包括音频信号和/或控制信号和/或信息信号。助听器与另一装置之间的通信可处于基带(音频频率范围，如0和20kHz之间)中。优选地，声音捕获装置与另一装置之间的通信基于高于100kHz频率的某类调制。优选地，用于在声音捕获装置和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如蓝牙低功率技术)。

声音捕获装置可具有0.15m级的最大外尺寸(例如手持移动电话)。声音捕获装置可具有0.08m级的最大外尺寸(例如耳机)。声音捕获装置可具有0.04m级的最大外尺寸(例如助听器或听力仪器)。

声音捕获装置可以是便携(即配置成可穿戴)装置或形成其一部分，如包括本机能源如电池例如可再充电电池的装置。声音捕获装置可以是轻质、容易穿戴的装置，例如具有小于100g的总重量。

声音捕获装置可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器和/或发射器之间的正向或信号通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益。声音捕获装置可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。

声音捕获装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。声音捕获装置可包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

声音捕获装置如输入单元和/或天线及收发器电路包括用于提供输入信号的时频表示的时频(TF)转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。声音捕获装置考虑的、从最小频率f_min到最大频率f_max的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率f_max的两倍，即f_s≥2f_max。声音捕获装置的正向通路和/或分析通路的信号可拆分为NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。声音捕获装置可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

声音捕获装置可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括传声器系统的定向模式和非定向(如全向)运行模式。运行模式可包括低功率模式，其中声音捕获装置的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用声音捕获装置的特定特征。

声音捕获装置可包括多个检测器，其配置成提供与声音捕获装置的当前网络环境(如当前声环境)有关、和/或与佩戴声音捕获装置的用户的当前状态有关、和/或与声音捕获装置的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与声音捕获装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一声音捕获装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器、声音捕获装置等。

多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成确定正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。

声音捕获装置可包括话音活动检测器(VAD)，用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选，话音活动检测器可适于从“话音”的检测排除用户自己的话音。

声音捕获装置可包括自我话音检测器，用于估计特定输入声音(如话音，如语音)是否(或以何种概率)源自听力装置系统用户的话音。声音捕获装置的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。

多个检测器可包括运动检测器，例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。运动检测器可配置成检测所涉及的装置(如声音捕获装置或听力装置)是否正在移动或者正保持不动。加速度传感器可配置成检测该装置相对于重力的方向(如角度)。

声音捕获装置可包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”可由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由声音捕获装置接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；

c)用户的当前模式或状态(运动、温度、认知负荷等)；及

d)声音捕获装置和/或与声音捕获装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

分类单元可基于或者包括神经网络，例如经训练的神经网络。

声音捕获装置可由听力装置如助听器或耳机构成。

听力装置如助听器

声音捕获装置可包括听力装置如助听器或者由其构成。

只要适当，上面及下面如具体实施方式中描述的、图中所示的或权利要求中限定的声音捕获实施例的特征可与听力装置如助听器的特征组合，反之亦然。

助听器可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。助听器可包括用于增强输入信号并提供处理后的输出信号的信号处理器。

助听器可包括输出单元，用于基于处理后的电信号提供由用户感知为声学信号的刺激。输出单元可包括耳蜗植入件的多个电极(对于CI型助听器)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。

助听器还可包括用于所涉及应用的其它适宜功能，如压缩、反馈控制等。

助听器可包括听力仪器，例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器，例如耳机、耳麦、耳朵保护装置或其组合。助听系统可包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的声音捕获装置的应用。可提供在包括音频分布的系统中的应用。可提供在包括一个或多个助听器(如听力仪器)的系统、耳机、耳麦、主动耳朵保护系统等中的应用，例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)等中的用途。

方法

一方面，本申请进一步提供配置成由人佩戴和/或位于表面如桌子上的声音捕获装置的运行方法。声音捕获装置可配置成从目标声源s拾取目标声音。该方法可包括下述之一或多个如大部分或全部步骤：

-提供多个(M个)电输入信号，每一电输入信号IN_m,m＝1,…,M包括目标信号分量和噪声信号分量；

-提供目标声音s的估计量；

-提供目标保持、参考波束形成器，其配置成相较固定目标方向衰减来自其它方向的信号分量，而保持来自固定目标方向的信号分量相对于来自其它方向的信号分量不衰减或较少衰减，及根据M个电输入信号提供参考信号；

-提供目标消除波束形成器，配置成衰减来自所述目标方向的信号分量，而来自其它方向的信号分量相对于来自所述目标方向的信号分量较少衰减，及根据M个电输入信号提供目标消除信号；

-根据模式控制信号提供至少两种模式；

--定向模式，其中目标声音s的估计量基于来自固定目标方向的目标信号分量；及

--非定向、全向模式，其中目标声音s的估计量基于来自所有方向的目标信号分量。

-建立到另一装置的音频链路；

-将目标声音s的估计量传给所述另一装置；及

-根据参考信号和目标消除信号确定模式控制信号。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

计算机可读介质或数据载体

本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体)，当计算机程序在数据处理系统(计算机)上运行时，使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的声音捕获装置及另一装置的听力系统。

听力系统可适于在声音捕获装置与“另一装置”之间建立通信链路以使得信息(如控制和/或状态信号，和/或音频信号)可进行交换或者从一装置转发给另一装置。

声音捕获装置可包括遥控装置、智能电话或者具有声音捕获及通信能力的其它便携电子装置如无线传声器单元，或者形成其一部分。

“另一装置”可以是听力装置如助听器。听力装置可包括空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。

听力系统可适于使得声音捕获装置将目标声音的估计量传给“另一装置”。

定义

在本说明书中，“助听器”如听力仪器指适于改善、增强和/或保护用户的听觉能力的装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户的耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。助听器可包括单一单元或几个彼此(例如声学、电学或光学)通信的单元。扬声器可连同助听器的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

更一般地，助听器包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些助听器中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合助听器功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些助听器中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中，输出单元可包括一个或多个输出电极，用于提供电刺激耳蜗神经的电信号(例如给多电极阵列)(耳蜗植入型助听器)。

在一些助听器中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些助听器中，振动器可植入在中耳和/或内耳中。在一些助听器中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中，输出电极可植入在耳蜗中或者颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听性脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

助听器可适应特定用户的需要如听力受损。助听器的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到助听器，并由助听器的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与助听器通信并影响和/或受益于助听器的功能。前述辅助装置可包括至少下述之一：遥控器、远程传声器、音频网关设备、娱乐设备如音乐播放器、无线通信装置如移动电话(例如智能电话)或平板电脑或另一装置，例如包括图形界面。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。助听器或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如TV、音乐播放或卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

本发明的实施例如可用在如连同助听器或助听器系统一起的辅助装置的应用中。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A示出了位于理想位置的声音捕获装置，其附着到人的衬衣并配置成拾取佩戴者的话音；

图1B示出了以欠佳方式定位的声音捕获装置，其中传声器轴指向远离佩戴者嘴巴的方向；

图1C示出了用作桌面传声器的声音捕获装置；

图2A示出了完美的目标消除波束形成器；

图2B示出了声音捕获装置倾斜的情形，使得目标消除波束形成器的零向不直接指向用户嘴巴；

图2C示出了声音捕获装置放置在桌上的情形；

图2D示出了参考波束图为心形的情形，其零向指向远离用户话音的方向；

图3示出了根据本发明的声音捕获装置如传声器单元或听力装置的输入级的第一实施例；

图4示出了根据本发明的声音捕获装置如传声器单元的输入级的第二实施例；

图5A示出了根据本发明的声音捕获装置的实施例，其包括用于标示正确(最佳)位置/方向的光指示器(LED)；

图5B示出了根据本发明的声音捕获装置的实施例，其包括用于标示错误(非最佳)位置/方向的光指示器(LED)；

图6示出了自适应波束形成器配置，其中第k个子频带的自适应波束形成器Y(k)通过将经自适应因子β(k)换算的(如固定)目标消除波束形成器C₂(k)从(如固定)全向波束形成器C₁(k)减去而创建；

图7示出了与图6中所示类似的自适应波束形成器配置，其中自适应波束图Y(k)通过将经自适应因子β(k)换算的目标消除波束形成器C₂(k)从另一固定波束图C₁(k)减去而创建；

图8示出了根据本发明的听力装置的实施例，其包括BTE部分及ITE部分；

图9示出了根据本发明的自我话音检测器的实施例；

图10示出了根据本发明的连接到自我话音检测器的话音控制接口；

图11示出了根据本发明的包括自我话音检测器的听力装置的框图；

图12示出了根据本发明的包括模式检测器的声音捕获装置的框图。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微机电系统(MEMS)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件，例如用于感测和/或记录环境、装置、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及音频通信领域，尤其涉及声音捕获装置如助听器。一方面，其涉及助听器(听力仪器)与外部(辅助)装置的交互。辅助装置可采取(例如无线)声音捕获装置的形式，例如包括传声器阵列，配置成与助听器通信。无线声音捕获装置例如可适于由人如助听器的用户或另一人佩戴，和/或适于位于助听器用户感兴趣的声音可被拾取之处，例如支撑结构如桌子或架子处。无线声音捕获装置可包括至少两个传声器及可配置成应用定向处理以增强需要的、由声音捕获装置的传声器拾取的声音信号。当感兴趣的声音总是传自同一所希望的方向时，定向处理符合需要。当声音捕获装置附着到人身上时，该人的话音(假定)感兴趣。给定声音捕获装置被正确安装，传声器阵列(如线性阵列)总是指向该人的嘴巴。藉此，可应用定向处理以增强该人的自我话音同时衰减背景噪声。

声音捕获装置因而可截住感兴趣的声音并将捕获的声音直接传给例如听力仪器用户。藉此，相较于由听力仪器传声器直接拾取的声音，获得更好的信噪比。

然而，声音捕获装置可能不总是用于拾取单一讲话者的话音。声音捕获装置有时可能放在桌上以拾取桌子周围的任何人的声音。在该情形下，传声器的全向响应相较定向响应可能更符合需要。图1A-1C示出了不同的声音捕获装置使用情形。声音捕获装置如传声器单元MICU包括壳体，两个传声器(M1,M2)位于其中。两个传声器形成传声器方向M-DIR。传声器方向(在图1A-1C的实施例中)平行于壳体形成的纵向(“首选”)方向。目标保持波束形成器的目标方向可相对于传声器方向或者相对于声音捕获装置的壳体的首选方向确定。

图1A示出了位于理想位置的声音捕获装置MICU，其附着到人MICU-W的衬衣并配置成拾取佩戴者的话音。图1A示出了用于自我话音拾取的“夹子式传声器单元”的计划使用。传声器阵列(M1,M2)指向(M-DIR)用户嘴巴(感兴趣的信号)，藉此使能高效率的定向衰减背景声音。背景噪声可利用定向处理进行衰减，背景噪声被衰减，同时用户嘴巴方向OV-DIR不被改变(参见虚线波束图DIR)。如果声音捕获装置MICU未被正确安装，例如如图1B中所示，用户的话音可能被定向系统衰减。图1B示出了以欠佳方式定位的声音捕获装置，其中传声器轴M-DIR指向远离佩戴者嘴巴的方向。在该情形下，为确保目标讲话者MICU-W不被定向降噪系统衰减，定向降噪系统应关闭，使得传感器阵列灵敏度变成全向(切换到全向模式，参见虚线圆形波束图OMNI)。图1C示出了用作桌上传声器的声音捕获装置MICU。在图1C中，声音捕获装置放置在支撑结构SURF如桌子上，以从坐在桌子周围的人拾取话音。在该情形下，定向传声器模式可能衰减部分感兴趣的话音。因此，首选全向传声器灵敏度(参见半球形波束图OMNI)。

根据本发明的声音捕获装置例如图1A-1C中所示的传声器单元MICU的不同使用情形在图2A-2D中示出，聚焦于示例性的、用于控制定向系统的运行模式的波束图。

本发明提出基于可能的定向益处的质量估计量在声音捕获装置MICU中在定向模式和全向模式之间切换。定向波束形成器的质量可基于，相较于参考波束图如全向波束图，零向被怎样好地朝向目标讲话者操纵的估计量进行评估。在许多自适应降噪算法中，有用的模块为目标消除波束形成器。目标消除波束形成器为其零向指向感兴趣的信号的定向波束图，理想地，完全去除目标信号，藉此在不存在目标信号的情形下获得背景噪声的估计量。目标消除波束形成器可针对特定目标位置/方向进行预先校准，例如(理想地)用户自我话音的方向OV-DIR。目标消除波束形成器在图2A中示出(参见记为“DIR”的实线心形)。在该情形下，我们预期完全受益于定向降噪系统，因为我们在目标消除波束形成器DIR与参考波束图(虚线圆形图案，记为OMNI-REF)之间看到大的差异。心形图案的零向直接指向用户嘴巴(OV-DIR)，藉此消除用户的话音(MICU-W)。虚线波束图示出了全向参考波束图OMNI-REF。考虑参考波束图与目标消除波束形成器的波束图之间的差异，我们看到，在目标波束形成器的零向直接指向用户嘴巴时(OV-DIR)获得最高的差异。在此情形下，当声音捕获装置(“夹子阵列”，MICU)倾斜时(图2B)，目标消除波束形成器(实线，DIR)与参考波束图(虚线，OMNI-REF)之间的差异变得更小，用户的话音未被目标消除波束形成器完全消除。在该情形下，看到目标消除波束形成器与参考全向波束图(虚线)之间较小的差异。类似地，当声音捕获装置(“传声器阵列”，MICU)放在桌子(参见图2C中的SURF)上时，感兴趣的声音不可能仅仅从预定目标方向M-DIR到达。感兴趣的话音可能从桌子四周的任何方向到达(取决于实践情形)。因而，在目标消除波束形成器(实线，DIR)与参考波束图(虚线，OMNI-REF)之间不可能观察到高平均差。参考波束图不必然必须为全向，例如，指向目标消除波束形成器(记为DIR的实线心形)相反方向的心形可用作参考波束图。这在图2D中示出(参见记为REF的虚线心形)。图2A-2D的情形与图1A-1C的配置类似，对于同样的元件使用同样的参考名称。

术语“波束图”(如本申请中通篇使用的)也可称为“灵敏度图”，其指明(定向)传声器系统的空间灵敏度(如角度相干性)。

在下面讨论的图3和4中，概述了使用图2A-2D所示的原理的、根据本发明的包括模式检测器(参见图3、4中记为MODE-DET的矩形框)的声音捕获装置MICU的实施例。图3和4示出了声音捕获装置MICU的佩戴者MICU-W及声音捕获装置的输入单元IU的传声器(M1,M2)的理想传声器方向(等于朝向佩戴者的嘴巴的方向OV-DIR)。第一和第二传声器(M1,M2)分别提供(时域，如数字化的)电输入信号x₁,x₂。声音捕获装置包括相应的分析滤波器组，用于按时频表示(分别为X₁,X₂)提供第一和第二电输入信号(分别为x₁,x₂)。(时频域的)第一和第二电输入信号(X₁,X₂)被馈给模式检测器MODE-DET，尤其馈给波束形成器单元F-BF。波束形成器单元配置成提供多个固定波束形成器，包括参考波束形成器ref和目标消除波束形成器TC，每一波束形成器为第一和第二电输入信号(X₁,X₂)的线性组合，其中相应波束形成器的权重w_ij为复数并随频率而变。(参考)(如全向)波束形成器(OMNI-BF，信号ref)与目标话音消除波束形成器(TC-BF，信号TC)之间的差跨频带组合为决策。高差标示定向降噪系统的最佳条件，使能定向增强用户话音。两个波束形成器之间的差较小标示定向降噪系统的欠佳条件。对于在第一和第二阈值之间的差值，可实施全向模式与定向模式之间的渐变。第一阈值可低于第二阈值。这些阈值可随频率而变，例如在不同的子频带不同。优选地，两个定向信号之间的差仅在存在用户话音时更新。用户话音可利用话音活动检测器进行检测。声音捕获装置例如可体现在传声器单元中，例如适于与另一装置如助听器通信。声音捕获装置例如可体现在听力装置如助听器中。

图3示出了根据本发明的声音捕获装置如传声器单元或听力装置的输入级的第一实施例。参考波束形成器(参见OMNI-BF，信号ref)和目标话音消除波束形成器(参见TC-BF，信号TC)的量值即信号|ref|和|TC|分别求平均(例如通过使用一阶低通滤波器(参见相应的单元LP)跨时间帧平滑)，以获得稳定的估计量，参见信号<|ref|>和<|TC|>，藉此避免波动的决策。优选地，平滑仅在检测到用户话音时发生。话音可利用话音活动检测器(参见VAD)进行检测，例如基于调制的话音活动检测器。参考波束形成器OMNI-BF和目标话音消除波束形成器TC-BF的平滑后的量值被分别转换到对数域(参见单元log)，参见信号log(<|ref|>)和log(<|TC|>)。在分开的频道中发现的差(参见图3中的SUM单元“+”)被跨频率组合为联合决策(参见模块COMB-F)。组合单元COMB-F例如可通过加权和或通过逻辑回归或通过神经网络实施。权重可基于有监督的学习进行估计。作为备选，组合功能可手动调整。当估计的、参考定向信号与目标话音消除信号之间的差高时，表明定向降噪系统的益处高，传声器单元MICU应切换到定向降噪。否则，如果该差小(例如小于3dB或小于6dB或小于9dB)，定向降噪的可能益处有限，传声器单元应切换到全向模式。定向模式可自适应或固定。决策(参见“决策”模块)可以是不同定向模式之间的平滑过渡(参见图3中的插图，其示出了随着全向波束形成器与目标消除波束形成器之间的差递增(由信号COMP表示)，从全向模式平滑过渡到定向模式(由信号M-CTR表示))。作为备选，决策可以是定向与全向之间的二元转变。滞后可置入决策中。除了仅在定向模式和全向模式之间切换之外，也可基于检测到的模式改变音频信号的频率整形。模式检测器MODE-DET的输出，在此为决策模块，为模式控制信号M-CTR。

图4中示出了根据本发明的声音捕获装置的输入级的另一实施例。图4实施例的提供电输入信号(X₁,X₂)的输入单元IU及提供参考波束形成器ref和目标消除波束形成器TC形式的固定波束形成器的波束形成器单元F-BF与图3实施例一样。然而，与考虑图3实施例中所示的、参考波束图ref与目标话音波束图TC之间的差相反，图4的实施例提供两个定向信号之间的归一化相关系数β：

参见提供同样信号的模块TC^*ref和|TC|²，及(受话音活动检测器VAD控制的)提供这些信号的平滑版(<TC^*ref>和<|TC|²>)的低通滤波器LP，最后组合单元(除法单元÷)提供β。该系数也可应用为自适应波束形成器中的自适应系数，例如参见[Elko and Pong；1995]或EP3588981A1或EP3253075A1。在目标话音为主(及目标消除波束形成器能够消除目标信号)的情形下，β的值将增大。如果β频繁地具有高值，我们因而可检测用户自我话音的情形(自我话音检测)。如果β的高值频繁出现，我们因而可应用定向处理。优选地，β仅在检测到话音活动时更新，参见图4中的VAD单元(对于其它应用如降噪，可基于不存在话音而求平均)。由于β可跨频道进行计算，这些值应组合为跨频率的单一决策(参见COMB-F和“决策”单元)。决策(参见“决策”模块)可以是不同定向模式之间的平滑过渡(参见图4中的插图，其示出了随着参数β的绝对值递增(参见水平轴上的|β|)，从全向模式平滑过渡到定向模式(由模式控制信号M-CTR表示))。如同图3的实施例中一样，决策可以是定向与全向之间的二元转变。滞后可置入决策中。除了仅在定向模式和全向模式之间切换之外，也可基于检测到的模式改变音频信号的频率整形。模式检测器MODE-DET的输出，在此为决策模块，为模式控制信号M-CTR。如同图3的实施例中一样，组合单元COMB-F(和/或决策单元)例如可通过加权和或通过逻辑回归或通过神经网络实施。权重可基于有监督的学习或者通过手动调整进行估计。

在结合图3和4描述的实施例中，可提供不同的候选自我话音消除波束形成器(例如基于预先确定的波束形成器权重，例如存储在存储器中)。同时具有多个(如几个)候选自我话音波束形成器的优点在于，覆盖一系列嘴巴-声音装置距离变得可能，因为最佳的自我话音消除波束形成器随距离而变。可能的候选自我话音波束形成器例如可覆盖距嘴巴10-30cm的范围。具有最深零向的波束形成器在给定时间点可被选择。

跨不同频带的联合决策可通过跨频率组合差(或参数β)而获得。决策可基于经训练的神经网络。模块COMB-F或模块“决策”可通过经训练的神经网络实施。决策模块中的决策结果为模式控制信号M-CTR，其可被提供为经训练的神经网络的输出向量，其中输入向量为相应的比较单元(图3中的“+”和图4中的“÷”)的组合的(随频率而变的)信号。在图3中，比较单元(+)的输出及“跨频率组合”单元COMB-F的输入为log<|ref(k,l)|>-log<|TC(k,l)|>。在图4中，比较单元(÷)的输出及“跨频率组合”单元COMB-F的输入为β(k,l)，k和l分别为频率指数和时间帧指数。

由于用户MICU-W仅佩戴而不听声音捕获装置，例如在实施为传声器单元MICU时，可能需要定向质量和/或声音捕获装置被怎样好地安装的指示。指示例如可经可视指示器如LED或者具有信息的显示器，或者触觉指示器如振动器，或者声学指示器提供。这在图5A、5B中示出(其示出了与图1A和1B分别相同的情形)。指示可基于前面提及的检测器估计的定向模式。作为备选，指示可基于方向/方位传感器如加速计或磁力计。图5A和5B示出了根据本发明的声音捕获装置MICU的实施例，其包括用于标示声音捕获装置在佩戴者MICU-W上的正确(最佳)(图5A)和错误(非最佳)(图5B)位置/方向的光指示器LED。检测到的定向质量或者声音捕获装置的方向例如可经颜色变化传递给用户，例如从绿色变为红色(例如经作为中间水平的黄色)，或者经恒定不变的闪烁图案等。

图6和7示出了自适应波束形成器配置的相应实施例，其可用于实施用在根据本发明的声音捕获装置中的自我话音波束形成器。图6和7均示出了双传声器配置，这在目前技术发展水平的听力装置如助听器(或其它声音捕获装置)中经常使用。然而，这些波束形成器可基于两个以上的传声器，例如基于三个以上的传声器(例如作为线性阵列，或者可能按非线性配置进行设置)。对于给定频带k，自适应波束图Y(k)通过线性组合两个波束形成器C₁(k)和C₂(k)而获得。C₁(k)和C₂(k)(为简单起见，已省略时间指数)中的每一个分别表示来自第一和第二传声器M1和M2的第一和第二电输入信号X₁和X₂的不同的(可能固定的)线性组合。第一和第二电输入信号X₁和X₂由相应的分析滤波器组(“滤波器组”)提供。频域信号(相应分析滤波器组的下游)用粗箭头标示，而第一和第二传声器(M1,M2)的输出的时域性质标示为细线箭头。图3和4中提供固定波束形成器ref和TC的模块F-BF相当于图6和7中实线矩形框标示的模块F-BF。图3和4的信号ref和TC分别相当于图6的信号C₁(k)和C₂(k)。在另一实施例中，图3和4的信号ref和TC可分别相当于图7的信号C₁(k)和C₂(k)。

图6示出了自适应波束形成器配置，其中第k个子频带的自适应波束形成器Y(k)通过将经自适应因子β(k)换算的(如固定)目标消除波束形成器C₂(k)从(如固定)全向波束形成器C₁(k)减去而创建。自适应因子β例如可被确定为：

图6的两个波束形成器C₁和C₂例如正交。然而实际上并不必须如此。图7的波束形成器不正交。当波束形成器C₁和C₂正交时，当β＝0时，不相关的噪声将被衰减。

在图6中的(参考)波束图C₁(k)为全向波束图(例如参见图2A)的同时，图7中的(参考)波束图C₁(k)为零向朝向C₂(k)的相反方向的波束形成器(例如参见图2D)。也可使用其它的多组固定的波束图C₁(k)和C₂(k)。

图7示出了与图6中所示类似的自适应波束形成器配置，其中自适应波束图Y(k)通过将经自适应因子β(k)换算的目标消除波束形成器C₂(k)从另一固定波束图C₁(k)减去而创建。该组波束形成器不正交。在图6和7中的C₂表示自我话音消除波束形成器的情形下，当存在自我话音时，β将增大。

波束图例如可以是全向延迟和求和波束形成器C₁(k)与其零向指向目标方向(如佩戴声音捕获装置的人的嘴巴，即目标消除波束形成器)的延迟和求减波束形成器C₂(k)的组合，如图6中所示；或者，其可以是两个延迟和求减波束形成器，如图7中所示，其中一个C₁(k)朝向目标方向具有最大增益，另一波束形成器C₂(k)为目标消除波束形成器。也可应用波束形成器的其它组合。优选地，波束形成器应正交，即[w₁₁ w₁₂][w₂₁w₂₂]^H＝0。自适应波束图通过经复值、随频率而变的例如自适应更新的换算因子β(k)换算目标消除波束形成器C₂(k)并将其从C₁(k)减去而得到，即：

其中

为根据图6或图7的复数波束形成器权重，及x＝[x₁,x₂]^T为两个传声器处的输入信号(在滤波器组处理之后)。

在图6和7的上下文中，图3和4的固定的参考波束形成器ref因而相当于

及固定的目标消除波束形成器TC相当于

其中

和

为复数波束形成器权重，例如预先确定并存储在存储器中(或者在使用期间偶尔更新)，及x＝[x₁,x₂]^T表示两个传声器处的(当前)电输入信号(在滤波器组处理之后)。

图8示出了根据本发明的听力装置的实施例，其包括BTE部分及ITE部分。图8示出了根据本发明的听力装置的实施例，其包括位于BTE部分和/或ITE部分中的至少两个输入变换器如传声器。图8的听力装置HD如助听器包括适于位于用户耳朵处或耳后的BTE部分及适于位于用户耳道中或耳道处的ITE部分。BTE部分和ITE部分通过连接元件IC及ITE和BTE部分中的内部接线(例如参见BTE部分中示意性地示为Wx的接线)连接(如电连接)。BTE部分和ITE部分中的每一个可分别包括输入变换器如传声器(M_BTE和M_ITE)，其用于从佩戴听力装置的用户的环境拾取声音，及在某些运行模式下，拾取用户话音。ITE部分可包括耳模，用于使相当大的声压级能传递到用户(例如具有重度到深度听力损失的用户)的耳膜。输出变换器如扬声器可位于BTE部分中，连接元件IC可包括用于将声音声学传播到耳模及经耳模传到用户耳膜的管。

听力装置HD包括输入单元，其包括两个以上输入变换器(如传声器)(每一输入变换器用于提供表示输入声音信号的电输入音频信号)。输入单元还包括两个(可个别选择的)无线接收器(WLR₁,WLR₂)，用于提供相应的直接接收的辅助音频输入和/或控制或信息信号。BTE部分包括衬底SUB，其上安装多个电子元件(MEM,FE,DSP)。BTE部分包括可配置的信号处理器DSP和可从其访问的存储器MEM。在实施例中，信号处理器DSP形成集成电路的一部分，例如(主要为)数字集成电路，而前端芯片FE主要包括模拟电路和/或混合的模拟数字电路(包括到传声器和扬声器的接口)。

听力装置HD包括输出变换器SPK，其基于来自信号处理器DSP的增强的音频信号或源自其的信号将增强的输出信号提供为可由用户感知为声音的刺激。作为备选或另外，根据具体应用场合，来自信号处理器DSP的增强的音频信号可被进一步处理和/或传给另一装置。

在图8的听力装置实施例中，ITE部分包括扬声器(有时称为接收器)SPK形式的输出单元，用于将电信号转换为声学信号。图8实施例的ITE部分还包括用于从环境拾取声音的输入变换器M_ITE(如传声器)。根据声学环境，输入变换器M_ITE可或多或少拾取来自输出变换器SPK的声音(无意的声学反馈)。ITE部分还包括引导件如圆顶件或耳模或微型耳模DO，用于引导并将ITE部分定位在用户的耳道中。

在图8的场景下，(远场)(目标)声源S(与环境的其它声音混合)被相应传播到BTE部分的BTE传声器M_BTE处的声场、ITE部分的ITE传声器M_ITE处的声场S_ITE及耳膜处的声场S_ED。

图8中例示的听力装置HD表示便携装置，且还包括电池BAT如可再充电电池，用于对BTE部分及ITE部分的电子元件供电。在多个不同实施例中，图8的听力装置可实施根据本发明的自我话音检测器OVD(例如参见图9)。自我话音检测器例如可连同电话模式一起使用，和/或连同话音控制接口一起使用，例如参见图10、11。

在实施例中，听力装置HD如助听器(例如处理器DSP)适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)，例如以补偿用户的听力受损。

图8的听力装置包含两个输入变换器(M_BTE和M_ITE)如传声器，当听力装置安装到用户头上时，一个(M_ITE，ITE部分中)位于用户的耳道中或耳道处，另一个(M_BTE，BTE部分中)位于用户耳朵的别处(如用户耳朵(耳廓)后面)。在图8的实施例中，听力装置可配置成使得两个输入变换器(M_BTE和M_ITE)在听力装置安装在用户耳朵处处于正常工作状态时沿实质上水平线OL定位(例如参见图8中的输入变换器M_BTE,M_ITE和双箭头虚线OL)。这具有有助于来自输入变换器的电输入信号在适当(水平)方向波束形成的优点，例如在用户的“视向”(例如朝向目标声源)。作为备选，传声器可定位成使得它们的轴指向用户嘴巴。或者，可包括另一传声器以连同其它传声器之一一起提供传声器轴，从而改善佩戴者的话音的拾取。

图9示出了根据本发明的包括自我话音检测器OVD的声音捕获装置如听力装置的输入级的实施例。自我话音检测器OVD配置成提供自我话音控制信号OV，其指明给定电输入信号(X₁,X₂)或其处理后版本是否或者以何种概率源自佩戴该包括自我话音检测器的装置(如声音捕获装置或听力装置例如助听器)的用户的话音。自我话音检测器配置成接收多个(M个)按时频表示(k,l)的电输入信号(X_m,m＝1,…,M，在此M＝2,X₁,X₂)，其中k和l分别为频率和时间帧指数。自我话音检测器OVD包括在工作时连接到多个输入变换器IT_m,m＝1,…,M(在此为提供多个电输入信号(X₁,X₂)的传声器(M1,M2))的波束形成器单元。波束形成器单元F-BF包括至少两个固定波束形成器，其包括配置成保持来自固定目标方向的信号分量相对于来自其它方向的信号分量不被衰减或较少衰减的目标保持波束形成器(OMNI-REF，称为参考波束形成器)，并提供当前参考信号ref。波束形成器单元F-BF还包括目标消除波束形成器TC-BF，配置成衰减来自目标方向的信号分量，而来自其它方向的信号分量相对于来自目标方向的信号分量较少衰减，并提供当前目标消除信号TC。固定目标方向例如为来自朝向用户嘴巴的助听器(如助听器传声器)的方向，及目标信号为用户自我话音。固定波束形成器(ref,TC)例如为基于例如存储在存储器中的相应多组随频率而变的波束形成器权重(w₁₁,w₁₂,w₂₁,w₂₂)结合图6和7讨论的固定波束形成器。自我话音检测器OVD还包括控制器OVD-PRO，用于根据当前参考信号ref和当前目标消除信号TC确定自我话音控制信号OV。控制器OVD-PRO包括参考波束形成器信号ref和目标话音消除波束形成器信号TC的相应信号通路，每一信号通路包括模块abs、LP和log以分别提供信号log(<|ref|>)和log(<|TC|>)，及包括用于提供两个信号之间的差(按子频带表示)(log(<|ref|>)-log(<|TC|>))的求和单元(“+”)，如结合图3针对模式检测器MODE-DET的实施例所述。如图3中一样，由低通滤波器LP提供的平滑优选仅在检测到用户话音时进行(可选特征由VAD虚线框及到LP单元的VAD控制信号标示)。在分开的频道中发现的差(参见图9中的SUM单元“+”)(如同结合图3所述的那样)以实质上同样的方式跨频率组合为联合决策(参见COMB-F和决策模块)(大的差＝>高自我话音存在概率，小的差＝>小自我话音存在概率)。再次说明，COMB-F和/或决策模块可实施为逻辑模块或经训练的神经网络。

图10示出了用于声音捕获装置如传声器单元或听力装置如助听器的话音控制接口VCI。话音控制接口VCI连接到根据本发明的自我话音检测器OVD(例如如图9中所示)。图10的话音控制接口VCI包括关键词检出系统，其配置成在呈现给关键词检出系统的当前音频流(在此为信号Y，例如来自图6或7的自我话音波束形成器Y)中检测是否或以何种概率存在特定关键词KWx(x＝1,…,Q)。在图10的实施例中，关键词检出系统包括关键词检测器KWD，其被拆分为第一和第二部分(KWDa,KWDb)。关键词检测器的第一部分KWDa包括唤醒词检测器WWD，记为KWDa(WWD)，用于检测所涉及装置如听力装置的话音控制接口VCI的特定唤醒词KW1(从而节能)。关键词检测器的第二部分KWDb配置成检测有限数量的关键词中的其余关键词(KWx,x＝2,…,Q)。听力装置的话音接口配置成通过佩戴听力装置的用户讲出的特定唤醒词启动。在图10的实施例中，根据电输入信号X₁,X₂及关键词检测器的第一部分KWDa(唤醒词检测器)进行的唤醒词KW1的检测，关键词检测器的第二部分KWDb的启动被使得取决于来自自我话音检测器OVD的自我话音指示信号OV。话音控制接口VCI包括存储器MEM，用于存储输入音频流Y的当前时间段，从而使能在关键词检测器检测到唤醒词(或其它关键词)之前在自我话音指示信号OV中检测不存在自我话音的时间段。关键词检测器的第一和/或第二部分可实施为相应的(经训练的)神经网络，其权重在使用之前(或者在训练期间，在使用所涉及装置如听力装置的同时)确定并应用于相应网络。话音控制接口可配置成控制装置的功能，其形成例如听力装置的一部分。可由关键词检测器检测的关键词可包括配置成控制装置的功能的命令词，例如模式切换、音量控制、程序切换、电话呼叫控制、方向性等。话音控制接口VCI包括话音控制接口控制器VC-PRO，用于将关键词检测器KWDb识别的关键词KWx转换为对应的控制信号HA_ctr，用于控制形成例如在此为如图11中所示的助听器的一部分的装置的功能。

图11示出了配置成由用户佩戴及非必须地补偿用户的听力受损的听力装置HD如助听器的框图。助听器HD包括根据本发明的自我话音检测器OVD，例如结合图9所述。自我话音检测器OVD提供自我话音控制信号OV，其指明给定电输入信号(X₁,X₂)或其处理后版本是否或者以何种概率源自用户话音。助听器包括输入单元IU，其包括适于分别提供(时域，如数字化的)电输入信号(x₁,x₂)的第一和第二传声器(M1,M2)。听力装置包括相应的分析滤波器组FB-A，用于按时频表示(X₁,X₂)提供第一和第二电输入信号(x₁,x₂)。(时频域的)第一和第二电输入信号(X₁,X₂)被馈给自我话音波束形成器OV-BF，其提供用户自我话音的估计量Y，如结合图6、7所述。在图11的实施例中，自我话音检测器OVD被分割以与自我话音波束形成器OV-BF共享波束形成器信号(ref和TC)的提供。参考(目标保持)和目标消除波束形成器信号(分别为ref和TC)被馈给(自我话音检测)控制器OVD-PRO，用于根据当前参考信号ref和当前目标消除信号TC确定自我话音控制信号OV，如结合图9所述。来自自我话音波束形成器OV-BF的用户自我话音的估计量Y及来自自我话音检测器(在此为OVD-PRO)的相应自我话音标示信号被馈给话音接口VCI，如结合图10所述，用于提供控制助听器的功能的控制信号HA_ctr。助听器包括从输入单元IU到输出单元OU的正向(信号)通路。该正向通路包括相应的分析滤波器组FB-A，如上所述，其按时频表示提供相应的电输入信号(X₁,X₂)。电输入信号(X₁,X₂)被馈给(远场)波束形成器单元FF-BF，其提供表示来自环境的(空间滤波的)声音(例如来自通信伙伴的声音)的波束成形信号Y_BF。正向通路还包括信号处理器HA-PRO，用于将一个或多个处理算法应用于波束成形信号Y_BF。一个或多个处理算法例如可包括压缩放大算法，用于(通过将随频率和电平而变的增益应用于正向通路的信号如波束成形信号Y_BF)补偿用户的听力受损。信号处理器HA-PRO如一个或多个处理算法例如可经来自话音控制接口VCI的控制信号HA_ctr控制。信号处理器HA-PRO将处理后的信号OUT提供给合成滤波器组FB-S，其将时频域信号OUT转换为时域信号out，该时域信号被馈给输出单元OU。输出单元可包括适当的数模转换器功能及输出变换器，例如空气传导型助听器的扬声器和/或骨导型助听器的振动器的形式。输出单元还可或者作为备选包括耳蜗植入型助听器的电极阵列，用于电刺激耳蜗神经，在该情形下，可省略合成滤波器组。

图12示出了声音捕获装置SCD如传声器单元，其在第一使用情形下适于由人佩戴并拾取该人(佩戴者)的话音，及非必须地，在第二使用情形下，适于位于表面如桌子上，及在该模式下拾取来自环境(如来自讲话的人)的声音。声音捕获装置SCD包括根据本发明的模式检测器MODE-DET，如结合图3、4所述。模式检测器MODE-DET根据给定时间点的相应参考波束形成器信号ref和目标消除波束形成器信号TC提供模式控制信号MCTR。声音捕获装置SCD的输入级包括输入单元，其包括适于分别提供(时域，例如数字化的)电输入信号(x₁,x₂)的第一和第二传声器(M1,M2)；及包括相应的分析滤波器组FB-A，用于按时频表示(X₁,X₂)提供第一和第二电输入信号(x₁,x₂)。(时频域的)第一和第二电输入信号(X₁,X₂)被馈给可配置的降噪系统CONF-BF，用于根据模式控制信号M-CTR提供可配置的输出信号Y_x。在第一使用情形下，声音捕获装置SCD由人佩戴，降噪系统CONF-BF配置成提供用户自我话音的估计量Y_x，例如结合图6、7所述，当模式控制信号M-CTR指明输入单元的传声器的方向与佩戴者嘴巴的方向良好匹配时(在图1A、2A、2D中，分别为M-DIR和OV-DIR)。在第一使用情形下，当模式控制信号M-CTR指明输入单元的传声器的方向M-DIR与佩戴者嘴巴的方向OV-DIR之间不良匹配时(参见图1B、2B)，降噪系统CONF-BF配置成提供全向信号(例如来自传声器之一，例如来自M1(或来自目标保持波束形成器(信号ref)))。在第二使用情形下，声音捕获装置SCD位于载体如桌子上，定向降噪系统CONF-BF的同样的功能根据模式控制信号M-CTR提供。然而，在第二使用情形下，仅对于沿声音捕获装置SCD的传声器轴(M-DIR)的人满足“定向模式”。在预计仅听一人的情形下，声音捕获装置SCD优选可定位成使得传声器轴指向该人。否则，定向降噪系统CONF-BF将处于全向模式，将信号Y_x提供为全向信号。声音捕获装置SCD还包括合成滤波器组FB-S，用于将时频信号Y_x(k,l)转换为时域信号Y_x(n)，其中k为频率指数，l、n为时间指数。声音捕获装置SCD还包括发射器Tx，用于将表示声音捕获装置SCD拾取的声音的信号Y_x(n)(例如无线)传给另一装置如电话、PC、助听器或其它通信装置(参见“传给其它装置”的标示)。

自由掉落检测

由于声音捕获装置MICU可包括运动传感器如加速计，可能检测自由掉落的开始，其可能因用户失手掉落该装置引起。由于存在声音捕获装置MICU将掉落在硬表面上的风险，有另外的、在与硬表面如地板碰撞及可能随后声音捕获装置MICU在该表面上弹跳时产生碰撞噪声的风险，因而需要减轻该大声噪声的风险，因为这可能导致助听器输出变换器产生干扰噪声。当声音捕获装置MICU检测到自由掉落已发生时，有一些选择来减轻可能的碰撞噪声。第一选择是使输入信号静音，即停止记录来自传声器的输入信号然后将没有然后声音信息的信号传给助听器或者中断将信号传给助听器。另一选择是将来自声音捕获装置MICU的信号传给助听器，从而指明已检测到声音捕获装置MICU的自由掉落，及从处理器到输出变换器的声音将被静音或者至少减弱，甚至开始特殊的噪声消除处理。

关于恢复来自声音捕获装置MICU的声音的正常运行，可实施计时器功能。计时器可在声音捕获装置MICU和/或助听器中触发，其后，声音可被恢复到先前的、自由掉落开始之前的水平。恢复可包括渐增，其中音量跨预定时间段或者以固定的步长从无增大到工作水平或预定水平。这可使声音捕获装置MICU的用户能使用声音信号再次定位该装置，及使用户能再次理解周围环境中的声音。声音传输的重新开始也可被来自加速计的、声音捕获装置MICU已首次碰撞地的信号抵消，在该情形下，因声音捕获装置MICU弹跳导致的一些声音可能被传给助听器，但以比通常低的声音电平，从而对用户带去较少的不便。

由于并非所有碰撞声音均可能令用户烦恼，对于第一时间段，自由掉落的开始可触发降低输出电平，如果掉落持续而超出该第一时间段，输出音量则可降低到没有输出，即完全静音。这可在声音捕获装置仅掉落短距离及传自声音捕获装置的声音很快回到正常水平时防止所有声音均被静音。

除自由掉落之外，还可想象声音捕获装置碰撞到某些东西(在碰撞之前没有自由掉落)。由于有小的传输延迟，在已检测到(因碰撞引起的)高加速度之后我们也可具有几毫秒来静音助听器或者停止来自声音装置的声音传输。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

·[Elko&Pong；1995]Gary W Elko,Anh-Tho Nguyen Pong,“A Simple AdaptiveFirst-Order Differential Microphone”.Published in:Proceedings of 1995Workshop on Applications of Signal Processing to Audio and Acoustics,IEEE,Print ISBN:0-7803-3064-1.

·EP3588981A1(Oticon)01.01.2020.

·EP3253075A1(Oticon)06.12.2017.

Claims

1.一种配置成由人佩戴和/或位于表面上的声音捕获装置，所述声音捕获装置配置成从目标声源s拾取目标声音并包括：

-壳体，所述多个输入变换器位于其中，及其包括首选方向；

-用于提供目标声音s的估计量的定向降噪系统，该定向降噪系统包括在工作时连接到所述多个输入变换器IT_m,m＝1,…,M的波束形成器单元，该波束形成器单元包括

所述定向降噪系统配置成根据模式控制信号在至少两种模式下运行：

--非定向、全向模式，其中目标声音s的估计量基于来自所有方向的目标信号分量；

-用于建立到另一装置的音频链路的天线和收发器电路，其中所述声音捕获装置配置成将目标声音s的估计量传给所述另一装置；及

-模式控制器，用于根据当前参考信号和当前目标消除信号确定模式控制信号。

2.根据权利要求1所述的声音捕获装置，其中所述输入变换器中的至少一个是传声器。

3.根据权利要求1所述的声音捕获装置，包括滤波器组。

4.根据权利要求3所述的声音捕获装置，其中相应的当前参考信号和当前目标消除信号的量值或处理后版本跨时间求平均以提供相应的平滑的参考和目标消除度量。

5.根据权利要求4所述的声音捕获装置，包括话音活动检测器，及其中所述声音捕获装置配置成使得在话音活动检测器检测到用户话音时仅发生按时间帧求平均。

6.根据权利要求3所述的声音捕获装置，包括组合处理器，配置成比较不同子频带的当前参考信号和当前目标消除信号或者其处理后版本并提供相应的子频带比较信号。

7.根据权利要求3所述的声音捕获装置，包括决策控制器，配置成根据子频带比较信号提供指明定向降噪系统的适当运行模式的模式控制信号。

8.根据权利要求7所述的声音捕获装置，其中所述决策控制器配置成根据各个子频带比较信号的加权和提供模式控制信号。

9.根据权利要求7所述的声音捕获装置，其中，当模式控制信号指明当前参考信号与当前目标消除信号或者其处理后版本之间跨频率具有相当大的差异时，所述定向降噪系统适于处于定向模式；及当模式控制信号指明当前参考信号与当前目标消除信号或其处理后版本之间跨频率具有相当小的差异时，所述定向降噪系统适于处于全向模式。

10.根据权利要求1所述的声音捕获装置，由传声器装置构成或者包括传声器装置。

11.一种听力系统，包括根据权利要求1所述的声音捕获装置及包括另一装置，其中所述声音捕获装置和所述另一装置配置成在其间建立通信链路，从而使能在其间交换包括音频数据的数据或者将数据从所述声音捕获装置传到所述另一装置。

12.根据权利要求11所述的听力系统，其中所述另一装置为听力装置。

13.根据权利要求12所述的听力系统，其中所述听力装置包括空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。

14.根据权利要求11所述的听力系统，适于使得所述声音捕获装置将目标声音s的估计量传给所述另一装置。

15.配置成由人佩戴和/或位于表面上的声音捕获装置的运行方法，所述声音捕获装置配置成从目标声源s拾取目标声音，所述方法包括：

-提供M个电输入信号，每一电输入信号IN_m,m＝1,…,M包括目标信号分量和噪声信号分量；

-提供目标声音s的估计量；

-根据模式控制信号提供至少两种模式；

-建立到另一装置的音频链路；

-将目标声音s的估计量传给所述另一装置；及

-根据参考信号和目标消除信号确定模式控制信号。

16.根据权利要求1所述的声音捕获装置的用途。