CN114390419A

CN114390419A - 包括自我话音处理器的听力装置

Info

Publication number: CN114390419A
Application number: CN202111172399.8A
Authority: CN
Inventors: M·S·佩德森; J·M·德哈恩; N·H·罗德; A·约苏佩特; S·斯古德松
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2020-10-02
Filing date: 2021-10-08
Publication date: 2022-04-22
Also published as: US12058493B2; US20220272462A1; EP3979666A3; US11356783B2; EP3979666A2; US20220109939A1

Abstract

本申请公开了包括自我话音处理器的听力装置，所述听力装置包括：至少一输入变换器，用于将听力装置环境中的声音转换为表示所述声音的至少一电输入信号；自我话音检测器，配置成估计所述声音是否或者以何种概率源自用户的话音及提供标示其的自我话音控制信号；嘴部穿戴件检测器，配置成在用户讲话的同时估计用户是否或者以何种概率佩戴嘴部穿戴件，并提供标示其的嘴部穿戴件控制信号。本申请还公开了听力装置的运行方法。

Description

包括自我话音处理器的听力装置

技术领域

本申请涉及在佩戴嘴部穿戴件如面罩、吹口或面部保护件时检测自我话音的方法。

背景技术

最近，人们佩戴嘴部穿戴件如面罩已变得越来越普遍。在用户讲话时，面罩改变声学特性，声音由例如听力仪器、可听戴装置或耳机拾取。自我话音拾取和自我话音检测对于免提电话和关键词检出很重要。因而，在人佩戴面罩时适应改变的声学条件很重要。

发明内容

本发明涉及由用户佩戴的听力装置以及用户是否佩戴面罩或类似穿戴件的检测，和/或涉及前述事实的可能应用。

听力装置如助听器或耳机

在本申请的一方面，提供一种配置成佩戴在用户耳朵处或耳朵中的听力装置如助听器或耳机。听力装置包括：

-至少一输入变换器，用于将听力装置环境中的声音转换为表示所述声音的至少一电输入信号；

-自我话音检测器，配置成估计所述声音是否或者以何种概率源自用户的话音及提供标示其的自我话音控制信号。

听力装置还可包括嘴部穿戴件检测器如面罩检测器，配置成在用户讲话的同时估计用户是否或者以何种概率佩戴嘴部穿戴件如面罩，并提供标示其的嘴部穿戴件控制信号如面罩控制信号。

从而可提供改进的助听器。

自我话音检测器和嘴部穿戴件检测器可实施为分开的功能实体或者集成为一个功能实体。

自我话音检测器可按本领域已知的大量方式进行实施，例如参见 EP3588981A1。

嘴部穿戴件检测器一定程度上可基于与用于自我话音检测同样类型的特征，例如谱特征、在自我话音期间由位于不同位置的传声器拾取的传声器信号之间的声学差异等。这些特征可应用于决策模块(如针对源自语音数据(如具有或没有面罩时的自我话音数据)的特征进行训练的神经网络)。或者，这些特征可仅仅基于在神经网络内得到的数据，例如参见图2E。

听力装置例如可包括特征提取器，配置成识别至少一电输入信号中标示用户自我话音的声学特征。声学特征例如可以是或包括或涉及由听力装置捕获的电输入信号或者源自其的信号，例如：

-电输入信号或者源自其的一个或多个信号的量值或功率谱；

-电输入信号之间的相位差；

-输入变换器之间的相对传递函数(例如量值及相位)；

-波束形成的信号或源自其的信号(例如由自我话音消除波束形成器提供的信号，例如在具有或没有面罩时得到)，例如参见图2E。

声学特征可从双耳设置下的电输入信号得到。

听力装置例如可包括存储器，其中存储在用户未佩戴嘴部穿戴件但佩戴听力装置并讲话时从至少一电输入信号提取的声学特征的参考值。参考值例如可包括在用户(或其他人，或模型)佩戴听力装置并讲话时记录的量值或功率谱的参考值或等同参数，例如如图3中所示，例如具有或没有嘴部穿戴件。

听力装置可包括数据记录器(如存储器)，其中自我话音控制信号(OV) 和/或嘴部穿戴件控制信号如面罩控制信号(FM)的检测到的值，和/或自我话音及嘴部穿戴件如面罩(OV+FM)被随时间记录，例如每检测到OV或FM时的计数器。

听力装置例如可包括存储器，其中存储在用户佩戴听力装置并讲话时用户同时佩戴面罩和未佩戴面罩时从至少一电输入信号提取的声学特征的参考值之间的差(例如参见图5)。从而，在用户讲话时，当前提取的声学特征或至少一电输入信号(例如由自我话音控制信号标示)与参考值的简单比较使能检测用户是否佩戴面罩。

听力装置例如可包括信号处理器，用于处理至少一电输入信号或者基于其的一个或多个信号并提供处理后的信号。信号处理器可配置成将一个或多个处理算法应用于输入信号(如至少一电输入信号或者基于其的一个或多个信号)。一个或多个处理算法可包括用于强调环境声音中的目标信号的降噪算法、用于将随频率和电平而变的增益应用于输入信号的压缩放大算法、用于控制从输出变换器到至少一输入变换器的反馈的反馈控制算法等。

听力装置例如可包括输出变换器，用于将电输出信号转换为可由用户感知为声音的刺激。电输出信号可以是来自信号处理器的处理后的信号。输出变换器可包括用于将刺激提供为空气中的声音振动的扬声器、用于将刺激提供为骨导声音振动的振动器、或者用于将刺激提供为直接对用户耳蜗神经的电刺激的植入的多电极。

信号处理器可配置成根据嘴部穿戴件控制信号如面罩控制信号控制至少一电输入信号或者基于其的一个或多个信号的处理。信号处理器可配置成根据嘴部穿戴件控制信号如面罩控制信号以及自我话音控制信号控制至少一电输入信号的处理。

听力装置可包括提供至少两个电输入信号的至少两个输入变换器。

听力装置可包括自我话音波束形成器，配置成根据至少两个电输入信号以及自我话音波束形成器的可配置的波束形成器权重提供用户话音的估计量。用户话音(UOV，波束形成的信号)的估计量可表达为UOV(k)＝W₁(k)·IN₁+ W₂(k)·IN₂。

信号处理器可配置成根据嘴部穿戴件控制信号如面罩控制信号处理用户话音估计量并提供改善的用户话音估计量。

信号处理器可配置成根据嘴部穿戴件控制信号修正用户自我话音的频率形状并提供改善的用户话音估计量。用户自我话音的频率形状可修正以提供对用户及对另一装置的听者更自然的自我话音(例如对于助听器中的免提通话，或者用在其中用户自我话音被传给“远端听者”的耳机中)。换言之，信号处理器可配置成补偿嘴部穿戴件进行的频率整形。

听力装置可包括收发器，配置成将音频信号传给另一装置或系统和/或从另一装置或系统接收音频信号。听力装置例如可在特定通信运行模式下配置成将用户话音估计量或者改善的用户话音估计量传给另一装置。

听力装置可包括关键词检测器，配置成根据自我话音控制信号和嘴部穿戴件控制信号识别至少一电输入信号或源自其的信号中关键短语的特定关键词。在用户讲话的同时检测关键词或唤醒词的关键词检出系统中，也可考虑嘴部穿戴件的存在或不存在，例如通过补偿关键词检测器的输入信号的谱形使得存在嘴部穿戴件和不存在嘴部穿戴件时的自我话音信号的谱特性类似。作为备选，使用人佩戴嘴部穿戴件时的信号以及人未佩戴嘴部穿戴件时的信号训练关键词检测器。关键词检测器可配置成根据改善的用户话音估计量识别至少一电输入信号或源自其的信号中关键短语的特定关键词。

听力装置可包括话音控制接口，配置成在被关键词检测器检测到时通过预定口头命令控制听力装置的功能。话音控制接口可配置成将特定关键词例如用于特定应用如个人数字助理的唤醒词如“Alexa”、“Siri”或“Google Now”传给另一装置。

听力装置可包括或者可连接到用户接口，从而使用户能指明用户可能偶尔佩戴的面罩或面部保护件的具体种类。用户可经用户接口指明其首选的面罩或面部保护件类型，例如可在手术用口罩、具有特定形状、材料和/或层厚度等的面罩、标准口罩(如EN14683、N95、KN95等)之间选择。

听力装置可配置成识别当前位置或者从另一装置接收关于当前位置的信息并配置成基于嘴部穿戴件控制信号触发关于用户当前是否佩戴嘴部穿戴件的提醒。如果用户在佩戴嘴部穿戴件有利或要求佩戴嘴部穿戴件的地方未佩戴嘴部穿戴件，例如可发出提醒。提醒例如可按通过听力装置或经智能电话、智能手表或类似设备播放的音频反馈发出。提醒可基于用户的位置如在用户家外、在公共交通工具中或在购物区域中而触发。

与话音的降噪和/或清晰有关的参数可基于嘴部穿戴件控制信号改变。佩戴面罩可表明其他人也佩戴面罩，因而使其它话音更不清楚。

听力装置可配置成使得自我话音检测器比面罩检测器反应更快，因为自我话音的变化比人戴上和取下面罩快得多。换言之，面罩检测可基于比自我话音检测更多的输入数据。藉此，面罩检测器可配置成比自我话音检测器反应慢。

人佩戴面罩的检测可以异步，即听力装置可配置成在检测到面罩已被取下而进入“正常模式”时相较于进入“面罩模式”反应更快(例如由于模式变化，或者参数，例如与话音频率整形的降噪有关)。

自我话音检测器和/或嘴部穿戴件检测器可完全或部分使用学习算法如经训练的神经网络例如深度神经网络实施。特征提取器例如可完全或部分使用学习算法实施。

听力装置可由耳机、空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合构成或者包括耳机、空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。

助听器可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。助听器可包括用于增强输入信号并提供处理后的输出信号的信号处理器。

助听器可包括输出单元，用于基于处理后的电信号提供由用户感知为声学信号的刺激。输出单元可包括耳蜗植入件的多个电极(对于CI型助听器)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。

助听器可包括用于提供表示声音的电输入信号的输入单元。输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括无线接收器，用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号。无线接收器例如可配置成接收在无线电频率范围(3kHz到300GHz) 的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300 GHz到430THz或者可见光如430THz到770THz)的电磁信号。

助听器可包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在助听器中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR 波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

助听器可包括天线和收发器电路(如无线接收器)，用于从另一装置无线接收直接电输入信号，另一装置如娱乐设备(例如电视机)、通信装置、无线传声器或另一助听器。直接电输入信号可表示或包括音频信号和/或控制信号和 /或信息信号。助听器可包括用于对所接收的直接电输入信号进行解调的解调电路，从而提供表示音频信号和/或控制信号的直接电输入信号，例如用于设置助听器的运行参数(如音量)和/或处理参数。一般地，助听器的天线及收发器电路建立的无线链路可以是任何类型。无线链路可在两个装置之间建立，例如在娱乐装置(如TV)与助听器之间，或者在两个助听器之间，例如经第三中间装置(如处理装置，例如遥控装置、智能电话等)。无线链路可在功率限制条件下使用，例如因为助听器可能由便携式(通常电池驱动的)设备构成或者包括便携式(通常电池驱动的)设备。无线链路可以是基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。无线链路可基于远场电磁辐射。经无线链路的通信可根据特定调制方案进行安排，例如模拟调制方案，如FM(调频)或AM(调幅)或PM(调相)，或数字调制方案，如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。

助听器与另一装置之间的通信可处于基带(音频频率范围，如0和20kHz 之间)中。优选地，助听器与另一装置之间的通信基于高于100kHz频率的某类调制。优选地，用于在助听器和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于 300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz 范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如蓝牙低功耗技术)。

助听器可具有0.08m级的最大外尺寸(例如耳机)。助听器可具有0.04m 级的最大外尺寸(例如听力仪器)。

助听器可以是便携(即配置成可穿戴)装置或形成其一部分，如包括本机能源如电池例如可再充电电池的装置。助听器例如可以是轻质、容易穿戴的装置，例如具有小于100g的总重量，如小于20g。

助听器可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益。助听器可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。

表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到 48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值， N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，如50μs，对于f_s＝20kHz。多个音频样本可按时间帧安排。一时间帧可包括64 个或128个音频数据样本。根据实际应用可使用其它帧长度。

助听器可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入 (例如来自输入变换器如传声器)进行数字化。助听器可包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

助听器如输入单元和/或天线及收发器电路包括用于提供输入信号的时频表示的时频(TF)转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-) 频域中的(时变)信号的傅里叶变换单元。助听器考虑的、从最小频率f_min到最大频率f_max的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率 f_max的两倍，即f_s≥2f_max。助听器的正向通路和/或分析通路的信号可拆分为NI 个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。助听器可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致 (如宽度随频率增加)、重叠或不重叠。

助听器可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式，其中助听器的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用助听器的特定特征。

助听器可包括多个检测器，其配置成提供与助听器的当前网络环境(如当前声环境)有关、和/或与佩戴助听器的用户的当前状态有关、和/或与助听器的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与助听器(如无线)通信的外部装置的一部分。外部装置例如可包括另一助听器、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。

多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成确定正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号 ((时-)频域)。

助听器可包括话音活动检测器(VAD)，用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选，话音活动检测器可适于从“话音”的检测排除用户自己的话音。

助听器可包括自我话音检测器，用于估计特定输入声音(如话音，如语音) 是否(或以何种概率)源自听力装置系统用户的话音。助听器的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。

多个检测器可包括运动检测器，例如加速度传感器。运动检测器可配置成检测用户或用户身体部分的运动例如用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。

助听器可包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”可由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由助听器接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；及

c)用户的当前模式或状态(运动、温度、认知负荷等)；

d)助听器和/或与助听器通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

分类单元可基于或者包括神经网络，例如经训练的神经网络。

助听器还可包括用于所涉及应用的其它适宜功能，如反馈控制、压缩、降噪等。

助听器可包括听力仪器，例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器，例如耳机、耳麦、耳朵保护装置或其组合。助听系统可包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的助听器的应用。可提供在包括音频分布的系统中的应用。可提供在包括一个或多个助听器(如听力仪器)、耳机、耳麦、主动耳朵保护系统等的系统中的应用，例如免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等。

方法

一方面，本申请进一步提供配置成佩戴在用户耳朵处或耳朵中的听力装置如助听器或耳机的运行方法。该方法包括：a)将听力装置环境中的声音转换为表示所述声音的至少一电输入信号；b)估计所述声音是否或者以何种概率源自用户的话音及提供标示其的自我话音控制信号。该方法还可包括c)在用户讲话的同时估计用户是否或者以何种概率佩戴嘴部穿戴件，并提供标示其的嘴部穿戴件控制信号。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

计算机可读介质或数据载体

本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体)，当计算机程序在数据处理系统(计算机)上运行时，使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、 EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器及包括辅助装置的听力系统。

听力系统可适于在助听器与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子装置智能手表等。

辅助装置可由遥控器构成或者包括遥控器，其用于控制助听器的功能和运行。遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听器包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

辅助装置可由音频网关设备构成或者包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给助听器。

辅助装置可由另一助听器构成或者包括另一助听器。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个助听器。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器或听力系统的用户接口。APP可配置成在移动电话如智能电话或另一使能与所述助听器或听力系统通信的便携装置上运行。

APP可配置成与听力装置交换数据并使用户能指明用户可能佩戴的嘴部穿戴件的种类，嘴部穿戴件的种类可在多个不同类型的嘴部穿戴件之中选择，将与所选嘴部穿戴件有关的信息传给听力装置。不同类型的嘴部穿戴件特征在于具有不同的用户自我话音声学传播特性。听力装置或辅助装置可包含存储器，其中存储不同类型的嘴部穿戴件的前述(通常随频率而变的)声学特性(“声学特征”)。

APP可配置成允许或禁止辅助装置的当前位置的确定。

APP可配置成，响应于允许前述确定，将包括当前位置的信息传给听力装置。

例如，可考虑听力装置可配置成识别当前位置或者从另一装置(如辅助装置)接收关于当前位置的信息并配置成基于嘴部穿戴件控制信号触发关于用户当前是否佩戴嘴部穿戴件的提醒的情形。给听力装置用户的提醒可基于当前位置触发。这样的提醒可经APP允许或禁止，例如通过禁止所有位置或者允许区域特定的位置。

要求嘴部穿戴件如面罩的位置可经APP获得，其中例如要求面罩的位置基于本地规定进行更新，例如标记为小卖部、餐厅、机场、公共交通工具等的位置。

定义

在本说明书中，“助听器”如听力仪器指适于改善、增强和/或保护用户的听觉能力的装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户的耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元 (具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。助听器可包括单一单元或几个彼此(例如声学、电学或光学)通信的单元。扬声器可连同助听器的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

更一般地，助听器包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些助听器中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合助听器功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些助听器中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中，输出单元可包括一个或多个输出电极，用于提供电刺激耳蜗神经的电信号(例如给多电极阵列)(耳蜗植入型助听器)。

在一些助听器中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些助听器中，振动器可植入在中耳和/或内耳中。在一些助听器中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中，输出电极可植入在耳蜗中或者颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听性脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

助听器可适应特定用户的需要如听力受损。助听器的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到助听器，并由助听器的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与助听器通信并影响和/或受益于助听器的功能。前述辅助装置可包括至少下述之一：遥控器、远程传声器、音频网关设备、娱乐设备如音乐播放器、无线通信装置如移动电话(例如智能电话)或平板电脑或另一装置，例如包括图形界面。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。助听器或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如TV、音乐播放或卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

本发明的实施例如可用在如助听器、耳机或类似可穿戴听力装置的应用中。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A示出了用户在佩戴包括第一和第二听力装置的双耳助听器系统的同时讲话；

图1B示出了图1A的用户，其同时佩戴有面罩；

图2A示出了根据本发明第一实施例的包括自我话音检测器的听力装置的一部分；

图2B示出了根据本发明第二实施例的包括自我话音检测器的听力装置的一部分；

图2C示出了实施为神经网络的根据本发明的自我话音处理器；

图2D示出了实施为神经网络的根据本发明的自我话音检测器；

图2E示意性地示出了根据本发明的基于神经网络实施自我话音处理器或自我话音检测器时的不同特征层；

图3示出了没有面罩时和具有面罩时记录的声压级之间的差的测量结果；

图4示出了根据本发明实施例的包括自我话音检测器和面罩检测器的助听器的一部分；

图5示出了根据本发明的自我话音处理器的实施例；

图6示出了根据本发明实施例的听力装置，其包括包含自我话音检测器及面罩检测器的自我话音处理器；

图7A示出了包括彼此通信的助听器和辅助装置的听力系统；

图7B示出了图7A的辅助装置，配置成通过运行应用程序而实施用于助听器的用户接口，助听器的运行模式可从其进行选择；

图8示出了根据本发明的包括自我话音估计的耳机或助听器的实施例及将自我话音估计量传给另一装置的选择，及从另一装置接收声音以经扬声器例如与来自用户环境的声音混合呈现给用户。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等 (统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微机电系统(MEMS)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件，例如用于感测和/或记录环境、装置、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置如助听器或耳机领域。本申请涉及处理用户佩戴嘴部穿戴件如吹口、面部保护件或面罩(如手术用口罩)对听力装置如助听器或耳机中用户自我话音的检测和/或估计的声学影响。本申请尤其涉及用户自我话音的检测，特别是在用户佩戴面罩或其它面部保护装置时用户自我话音的检测。本申请还聚焦于识别和/或补偿因前述面罩或面部保护件引起的声学变化。

当检测或估计用户自我话音时，区分听力仪器用户佩戴面罩(或其它面部或嘴部覆盖装置或物品)讲话和未佩戴面罩讲话很重要。图1A示出了用户在佩戴包括第一和第二听力装置(HD1,HD2)的双耳助听器系统时讲话。用户正讲话的事实通过从用户嘴巴到用户的右和左耳因而到第一和第二听力装置(HD1, HD2)的实线箭头标示，每一听力装置包括用于将该听力装置的环境中的声音转换为表示所述声音的电输入信号的至少一输入变换器，所述声音可能包括用户自我话音。

图1B示出了图1A的用户，其同时佩戴面罩FM如手术用口罩。

所提出的方案在图2A、2B中示出。图2A和2B的解决方案可完全或部分使用学习算法如经训练的神经网络例如图2C、2D中所示的深度神经网络实施。

图2A示出了根据本发明实施例的包括自我话音处理器OVP的听力装置如助听器的一部分。听力装置包括M个输入变换器IT_m,m＝1,2,…,M，在此为传声器。也可使用不同于传声器的其它输入变换器，例如振动传感器，例如一个或多个加速计。每一传声器配置成将听力装置周围的声音转换为电输入信号x_m。输入变换器IT_m,m＝1,2,…,M可包括模数转换器，用于将来自传声器的模拟电信号转换为包括数字化样本流的数字化信号x_m,m＝1,2,…,M。输入变换器IT_m还可包括用于处理输入信号的电路，例如分析滤波器组，以视情况按时频表示 x_m(k,n)提供电输入信号x_m(k、n分别为频率和时间帧指数)。图2A(和图2B) 的示例性自我话音处理器OVP产生三个输出概率或二元值，记为：没有OV (没有自我话音)、OVxFM(未佩戴面罩时的自我话音)和OV+FM(佩戴面罩时的自我话音)。给定听力装置的输出概率(或二元值)的置信度例如还可通过与来自双耳听力系统的对侧装置(例如图1A、1B的HD1、HD2)的相应值比较(如组合)而提高。输出概率(或二元值)在听力装置的其它部分可被进一步处理为决策(例如与估计用户自我话音有关，例如结合听力装置的通信模式或者话音控制接口运行模式，例如参见图6、7B)。自我话音与没有自我话音之间的转变一般将比佩戴面罩与未佩戴面罩之间的转变更频繁地变化。因此，相较于面罩/没有面罩决策，希望OV/没有OV决策能更快速地改变/波动。

自我话音决策可基于不同的特征如声学特征(F₁,F₂,…,F_NA)。这在图2B的听力装置实施例(的部分)中示出，其包括与图2A的实施例一样的元件。另外，图2B的实施例包括特征提取器FEX，用于提取电输入信号的特征(x₁,x₂,…, x_M)并提供NA个声学特征(F₁,F₂,…,F_NA)。声学特征(F₁,F₂,…,F_NA)例如可以是或包括或涉及由听力装置捕获的传声器信号x_m或者源自传声器信号的信号，例如：

-传声器信号或者源自其的一个或多个信号的量值或功率谱；

-传声器信号之间的相位差；

-传声器之间的相对传递函数(例如量值及相位)；

-波束形成的信号(例如由自我话音消除波束形成器提供的信号，例如在具有或没有面罩时得到)，或者从波束形成的信号得出的控制信号(作为广义旁瓣抵消器中的自适应系数β)。

声学特征(F₁,F₂,…,F_NA)还可能受一个或多个其它输入信号O-INP的影响，例如来自传感器或检测器的例如与声学环境有关或者与用户目前的状态(运动/ 未运动、精神状态等)有关的一个或多个信号。

由特征提取器FEX提取的特征(F₁,F₂,…,F_NA)被馈给自我话音检测器OVD。自我话音检测器提供自我话音处理器OVP的三个输出功率或二元值：“没有OV”(没有自我话音)、OVxFM(未佩戴面罩时的自我话音)和OV+FM(佩戴面罩时的自我话音)。

也可应用从双耳设置中的传声器信号得出的特征。在实施例中，至少一传声器位于耳道中。除声学特征之外，也可应用其它特征。例如，由位于听力装置内或听力装置外面如耳道附近的加速计拾取的振动可用于区分OV或没有OV (没有FM或未佩戴FM)。自我话音处理器(图2C)或自我话音检测器(图 2D)或特征提取器可完全或部分基于针对不同的类(例如具有和没有(可能特定的)面罩或具有不同的面罩时的自我话音，在不同的信噪环境中，等)训练的神经网络。神经网络的权重可基于所使用的面罩的类型(围巾、手术用口罩、脸盔、用于面罩的材料、面罩的声学衰减等)进行选择。因而可提供用于神经网络的N_FM组不同的优化参数，每一组对应于特定类型的面罩或面部保护产品 (例如参见图5)。

图2E示意性地示出了在根据本发明的基于神经网络DNN实施自我话音处理器OVP(或自我话音检测器OVD)时的不同特征层(特征层#q，q＝1,2,3, 4,…N_F，其中N_F为特征层的数量)。不同的特征层可通过完全分开的功能模块提供，例如：

-分析滤波器组FBA，其按时频表示提供M个电(时域)信号x_m,m＝1,…, M(为M个频域信号X_m,m＝1,…,M)；

-波束形成器滤波单元BFU，其基于电输入信号X_m的组合提供多个波束形成的信号(波束形成器)BFp,p＝1,…,N_BF。

然而，另外或作为备选，不同的特征层可由神经网络如深度神经网络DNN 的不同层的输出提供，神经网络包括：输入层IN-L(将波束形成的信号(或波束形成器)接收为输入并将特征层#3的特征提供为输出)、多个中间(隐藏) 层INT-L(提供特征层#4……特征层#N_F)、及输出层OUT-L(提供函数输出，在此为“没有OV”、“OV”、“没有FM”、“FM”，例如参见图2A-2D和图4)。神经网络DNN例如可包括波束形成器滤波单元BFU。波束形成器滤波单元BFU因而可形成图2B或图4中的特征提取单元FEX的一部分或者构成特征提取单元FEX。但特征提取单元也可被考虑为形成功能特征(在此为根据本发明的自我话音处理器或自我话音检测器或面罩检测器)的神经网络实施的一部分。

图3示出了没有面罩时和具有面罩时记录的声压级之间的差别的测量结果。两条曲线展现在位于分别安装在左和右耳处的听力装置处的传声器记录的电平的差别。两曲线展现(分别在“左”和“右”侧)没有面罩时和具有面罩时之间的差别。在低频(低于阈频f_th，例如低于4或5kHz)，声音似乎从面罩反射，导致在低频(≤f_th)相较于更高频率时(>f_th)具有相对更高的电平。由图 3图示的在较高频率时左和右耳之间的差别例如可能由小的面部面罩安装非对称性引起或者至少受其影响。这种频谱倾斜的变化可用作区分人是否佩戴面罩。助听器可包括存储器，其中存储在助听器的传声器处接收的自我话音的参考数据(例如参见图5)，例如聚焦于低于阈频f_th的频率。这样的数据例如可包括图3中所示的数据或等同数据，其在用户(或其他人，或模型)讲话及具有面罩(或类似装置，如脸盔)时和没有面罩时记录。

在高于阈频f_th的频率，用户自我话音被衰减。面罩对用户话音(例如在用户耳朵处接收的)的影响因此可等于低通滤波器的影响。在高于低通滤波器的 3dB截止频率如阈频f_th的频率，用户自我话音被衰减。

由于用户自我话音在佩戴面罩时的频率倾斜，如果用户佩戴面罩，可能更容易检测自我话音。

在检测自我话音时，聚焦于低于阈频f_th的频率可能有利。

用户自我话音可使用(经训练的)神经网络进行检测。

图3聚焦于量值(电平)的差别。相位的差别也可用于检测是否佩戴了面罩。

图4示出了助听器的自我话音处理器OVP包括自我话音检测器OVD和面罩检测器FMD。图4示出了自我话音检测器OVD和面罩检测器FMD实施为两个不同的检测器的实施例。这可能有利，因为OVD和FMD可具有不同的输入特征。两个检测器可具有相同的、不同的、或者部分重叠的输入特征。例如，自我话音检测器可取决于声学特征和振动有关的特征，面罩检测器主要依赖于声学特征的差异。在图4的例子中，特征F2可表示振动有关的特征，其仅被馈给自我话音检测器(而不馈给面罩检测器)。在实施例中，面罩检测器FMD仅在检测到自我话音时更新(参见来自OVD的输入OV)。FMD和OVD均可利用经训练的神经网络实施(例如参见图2C、2D)。

根据面罩的检测，可采取不同的行动。由于声学特性在用户佩戴面罩时改变(如图3中所示)，可修正用户自我话音的频率形状以对用户和免提通话提供更自然的自我话音。

自我话音增强波束形成器也可利用面罩检测器，因为不同传声器之间的传递函数可根据面罩改变。该波束形成器可实施为MVDR波束形成器，依赖于具有面罩时的相对自我话音传递函数或者没有面罩时的相对自我话音传递函数。相对自我话音传递函数也可在使用期间估计，在用户未佩戴面罩讲话时或在用户佩戴面罩讲话时。

在用户讲话的同时检测关键词或唤醒词的关键词检出系统中，也可考虑面罩的存在或不存在，例如通过补偿关键词检测器的输入信号的谱形使得存在面罩和不存在面罩时的自我话音信号的谱特性类似。作为备选，使用人佩戴面罩时的信号以及人未佩戴面罩时的信号训练关键词检测器。

面罩检测器也可用于触发提醒。例如，如果用户在佩戴面罩有利或要求佩戴面罩的地方未佩戴面罩，用户可被提醒，例如经按通过听力装置或经智能电话、智能手表或类似设备播放的音频反馈提醒。提醒可基于用户的位置允许，例如在用户家外、在公共交通工具中或在购物区域。

佩戴面罩可能是其他人也佩戴面罩的指示。因而，调节听力仪器的设置使得在困难情形下提供更多帮助(增加降噪或者提高语音清晰)可能有利，因为其他人佩戴面罩可导致咕哝增加及缺少读唇线索。

图5示出了根据本发明的自我话音处理器OVP的实施例。自我话音处理器 OVP包括特征提取器FEX，用于提取电输入信号(x₁,x₂,…,x_M)的特征并提供NA 个声学特征(F₁,F₂,…,F_NA)，如结合图2B所述。在图5的例子中，聚焦的声学特性为功率谱密度(PSD)。当前功率谱密度的值(记为PSD(n)，其中n为时间指数)由特征提取器FEX提供。PSD(n)可表示单一电输入信号或者部分或所有电输入信号(x₁,x₂,…,x_M)或者专门的自我话音信号估计量(例如自我话音波束形成器的输出，例如参见图8中的用户自我话音信号UOV)的当前功率谱密度。自我话音处理器OVP还包括存储器MEM，其中存储在听力装置(如助听器)的输入变换器(如传声器)处接收的自我话音的参考数据(参见图5的 MEM模块中的数据PSD*)。参考数据PSD*例如可包括如图3中所示的数据或等同数据，其在用户(或其他人，或模型)佩戴面罩讲话时(PSD*(FMj))及未佩戴面罩讲话时(PSD*(OV))记录。参考数据通常随频率而变，表示声学特性 (声学特征)与用户自我话音有关。频率相依性由参数[f₁,f₂,…,f_K]标示，其中 f为频率(指数)及K为考虑的频率(如频带)数量。数据PSD*(FMj),j＝1,2,…, N_FM，其中N_FM为考虑的不同种类的嘴部穿戴件如面罩的数量，表示在用户 (或用户模型)佩戴所涉及的面罩并讲话时记录的N_FM个不同面罩(例如标准面罩或有标识的面罩，可选地“自制”(或其它无标识的)面罩)的参考值。参考数据PSD*例如还可包括表示不同类型的面罩的声学失真的差异数据ΔPSD*(FMj),j＝1,2,…,N_FM)，换言之，当使用这些值的对数表示时，ΔPSD*(FMj)＝PSD*(OV)-PSD*(FMj)[dB],j＝1,2,…,N_FM。

自我话音处理器OVP还包括比较器COMP，用于将声学特性的当前值 (PSD(n))与存储的参考值(PSD*(OV),PSD*(FMj),ΔPSD*(FMj))比较，并在比较基础上向控制器OVD-FMD-CNT提供比较的相似度(参见信号CMP)从而提供自我话音控制信号“没有OV”、“OV”及面罩控制信号“没有FM”、“FM”，如结合图2A-2D、图4所述。

不同于图5的例子中使用的功率谱密度的其它声学特征也可以同样原理的方式使用。

图6示出了根据本发明实施例的听力装置，其包括包含自我话音检测器和面罩检测器的自我话音处理器。图6示出了根据本发明的听力装置HD的实施例，其包括自我话音处理器OVP(包括自我话音检测器OVD与面罩检测器 FMD的组合)及话音控制接口VCT。图6的听力装置HD如助听器或耳机包括第一和第二传声器(Mic1,Mic2)，分别提供表示听力装置的环境中的声音的第一和第二电(如数字化的)输入信号(IN1,IN2)。听力装置配置成佩戴在用户耳朵处或耳朵中。听力装置包括正向通路，其包括两个传声器、用于将第一和第二 (可能反馈校正的)时域输入信号(IN1,IN2)分别转换为第一和第二子频带信号 (X1,X2)的第一和第二分析滤波器组(FB-A1,FB-A2)。正向通路的子频带信号在图5中由粗线箭头标示。正向通路还包括波束形成器滤波单元BFU，用于根据第一和第二输入信号(X1,X2)提供空间滤波的信号Y_BF。波束形成器滤波单元 BFU例如可配置成实质上保留来自目标方向的信号不被衰减，同时衰减来自其它方向的信号，例如自适应衰减佩戴听力装置的用户周围的噪声源。正向通路还包括处理器HAG，用于将一个或多个处理算法应用于波束形成的信号Y_BF (或源自其的信号)，例如用于根据用户的需要(如听力受损)将随频率和电平而变的压缩(或放大)应用于正向通路的信号的压缩放大算法。处理器HAG 将处理后的信号Y_G提供给合成滤波器组FB-S，其将子频带信号Y_G转换为时域输出信号OUT。正向通路还包括扬声器SP，用于将电输出信号OUT转换为计划传播到用户耳膜的输出声音。第一和第二反馈校正的子频带信号(X₁,X₂)(除波束形成器滤波单元BFU之外还)馈给自我话音检测器OVD，其提供指明电输入信号在给定时间点是否或者以何种概率包括用户的语音的自我话音控制信号OV。自我话音检测器OVD例如可作用于第一和第二(可能反馈校正的)电输入信号(X₁,X₂)中的一个或多个和/或空间滤波的信号(例如来自自我话音波束形成器，Y_OV)。自我话音检测器OVD可配置成通过来自一个或多个传感器或检测器的信号影响其指示(是否有OV，或者p(OV))。类似地，面罩检测器 FMD提供指明用户在给定时间点是否或者以何种概率佩戴面罩的面罩控制信号 FM。自我话音控制信号和面罩控制信号(OV,FM)被馈给关键词检测器KWD，其用于检测用户在给定时间点是否说出特定词或命令。

关键词检测器KWD例如配置成确定当前的电输入信号(X₁,X₂)或者来自自我话音波束形成器的信号Y_OV是否(或者以何种概率p(KWx))包括Q个(例如≤20)预定关键词或关键短语的特定关键词或关键短语KWx。在实施例中，关于当前电输入信号是否或者以何种概率包括由听力装置用户说出的特定关键词(或关键短语)AND的决策被确定为KWD算法(如神经网络)与自我话音检测器OVD的同时输出的组合(例如二元输出的AND(与)运算，或者概率输出的概率的积)。

关键词检测器KWD在给定时间点的结果(如关键词KWx)被馈给话音控制接口VCT，其配置成将给定的检测到的关键词(或关键短语)转换为用于控制听力装置HD的功能的命令(BFctr,Pctr,Xcmd)，例如波束形成器滤波单元 BFU(参见命令BFctr)、处理器HAG(参见命令Pctr)和/或另一装置或系统 (参见转发给发射器以传给另一装置或系统的命令Xcmd)。关键词之一(BFctr) 可能与控制听力装置HD的波束形成器滤波单元BFU有关，例如全向或DIR模式(例如“DIR后”或“DIR右”，以给出波束形成器的当前首选方向，不同于默认方向如视向)，参见信号BFctr。同一或另一关键词可与控制听力装置 HD的处理器HAG的增益有关，例如“调小音量”或“调大音量”以控制听力装置的当前音量，参见信号Gctr。同一或另一关键词可与控制外部装置或系统有关，参见信号Xcmd。听力装置的其它功能可经话音控制接口(和/或经检测器如自我话音检测器)影响，如反馈控制系统，例如是否应启动或停止滤波器系数的更新，和/或是否应改变(例如增大或减小)自适应算法的自适应速率。命令Xcmd可经听力装置中的适当的发射器Tx和天线ANT电路传到另一装置或系统。此外，在电话(或耳机)模式下，其中用户自我话音由专用自我话音波束形成器拾取并传给电话机，音频信号Xaud通过适当的天线和收发器电路 (ANT,Rx)从电话机接收并经听力装置的输出单元(如扬声器，在此为SP)呈现给用户，可使用用户说出的命令(例如“电话”)进入(或保持在)这样的模式(以便接听(或挂断)电话呼叫)。优选地，听力装置的关键词检测器能够识别有限数量的关键词以基于本地处理能力(不依赖于访问服务器或与听力装置通信的另一装置)提供听力装置的基本特征的话音控制，例如程序切换、音量控制、模式控制等。在实施例中，另一装置如智能电话或类似设备上的“个人助理”(如Apple设备的“Siri”、基于Android的设备的“Genie”、用于Google应用的“Google Now”或“OK Google”、或者用于Amazon应用的“Alexa”)的(例如经另一装置的API的)启动可经听力装置的话音控制接口允许。听力装置的关键词检测器可配置成检测作为关键词之一的唤醒词(如“Genie”)，在检测到时将其(或另一命令，或用户或通信伙伴紧接着说出的词或句子)传给智能电话(如APP，例如用于控制听力装置的APP)，个人助理或翻译服务从而可因其而启动(例如通过另一随后的关键词如“翻译”启动)。在所有情形下，用户自我话音的有效检测很重要。因此，有兴趣补偿用户自我话音的、可能降低来自自我话音检测器的自我话音控制信号的置信度的任何失真。这样的补偿可由根据本发明的自我话音处理器OVP提供，例如通过指明用户是否佩戴面罩的面罩控制信号FM补偿。

在检测到面罩FM的情形下，补偿因面罩修改自我话音引起的输入频谱的变化可由听力装置提供。通过补偿因面罩引起的频谱变化，关键词检测器 KWD的输入特征可更类似于未佩戴面罩时的自我话音。

作为备选，关键词检测器KWD可基于在佩戴面罩时记录的数据和在未佩戴面罩时记录的数据进行训练。

图7A和7B一起示出了根据本发明的听力系统(HD1,HD2,AD)的实施例的示例性应用情形。

图7A示出了包括彼此通信的听力装置(HD1,HD2)如助听器及辅助装置AD 的听力系统。图7A示出了头戴式双耳听力系统的实施例，其包括彼此通信并与便携(手持)辅助装置AD通信的左和右听力装置(HD1,HD2)，辅助装置用作双耳助听器系统的用户接口UI(参见图7B)。双耳听力系统可包括辅助装置AD(及用户接口UI)。双耳听力系统可包括左和右听力装置(HD1,HD2)并可连接到(而不包括)辅助装置AD。在图7A的实施例中，听力装置(HD1,HD2)和辅助装置AD配置成在其间建立无线链路WL-RF，例如符合蓝牙标准 (如低功耗蓝牙或等同技术)的数字传输链路形式。作为备选，这些链路可以任何其它便利的无线和/或有线方式实施，并符合任何适当的调制类型或传输标准，可能对于不同的音频源而不同。

听力装置(HD1,HD2)在图7A中被示为安装在用户U的耳朵处(耳后)的装置。可使用其它风格，例如完全位于耳朵中(如耳道中)、完全或部分植入在头中等。如图7A中所示，每一听力装置可包括无线收发器以在听力装置之间建立耳间无线链路IA-WL，例如基于感应通信或RF通信(例如蓝牙技术)。每一听力装置还包括用于建立到辅助装置AD的无线链路WL-RF(例如基于辐射场(RF))的收发器，至少用于接收和/或传输信号如控制信号、信息信号，如包括音频信号。收发器在右听力装置HD2和左听力装置HD1中分别由RF- IA-Rx/Tx-1和RF-IA-Rx/Tx-2标示。

遥控APP可配置成与单一听力装置(代替如图7A中所示的与双耳听力系统)相互作用。

辅助装置AD适于运行应用程序(称为APP)，其包括配置成在辅助装置 (如智能电话)上执行以实施用于听力装置(或听力系统)的用户接口的可执行指令。APP配置成与听力装置交换数据。图7B示出了图7A的辅助装置AD，其配置成通过运行应用程序而实施用于听力装置(HD1,HD2)的用户接口，从用户接口可选择助听器的运行模式及经用户接口可显示用户可选择的选项和/或当前状态信息。

图7B示出了运行用于配置自我话音检测特征的APP的辅助装置。辅助装置AD的用户接口UI的示例性的(配置)屏在图7B中示出。用户接口UI包括显示器(如触敏显示器)，其向用户显示配置听力系统的与自我话音检测有关的特征的指导。用户接口UI实施为辅助装置AD(如智能电话)上的APP。该 APP记为“自我话音检测APP”。经用户接口的显示器，用户U被指令选择“检测面罩”、“启动话音控制”和“启动电话模式”中的一个或多个。话音控制接口可经一个或多个可选择的特征即“改变模式”、“改变音量”、“改变程序”的启动进行配置。也可添加或选择其它特征(如“启动PDA的唤醒词检测”以使能在听力装置中检测用于辅助装置如智能电话的个人数字助理的唤醒词，例如Apple智能电话的“Hey Siri”等)。给定特征的启动通过按压所涉及的“按钮”进行选择，当被选中时，其通过粗体及所启动特征前面的填充的正方形标示。在“自我话音检测APP”的示例性“配置”屏中，特征“检测面罩”和“启动话音控制”(具体为“改变音量”)被选择(启动)。在该屏的下部，可显示听力装置关于所选特征的当前状态的信息，在此提供符号及对应的文本“检测到面罩”，从而通知用户：系统已检测到用户佩戴面罩。在用户接口的该屏的此处，可向用户显示他或她在当前环境中应考虑佩戴面罩的信息 (例如除了经听力装置的输出变换器的声学提醒之外或者作为其备选)。当前环境可通过听力装置和/或辅助装置检测(例如使用从听力装置的电输入信号提取的声学特征和/或辅助装置的GPS功能)。

APP的另外的屏幕(如“选择面罩的类型”屏幕)可使用户能指明用户可能佩戴的面罩的种类。面罩的种类可在多个不同类型的面罩之中选择。不同类型的面罩特征在于具有不同的用户自我话音声学传播特性。听力装置或辅助装置可包含存储器，其中存储不同类型的面罩的前述(通常随频率而变的)声学特性(“声学特征”)(例如参见图5)。APP可配置成将与所选面罩有关的信息(如其种类，例如EN14683、N95、KN95等，和/或其声学特性)传给听力装置。

APP的不同屏之间的切换可经辅助装置底部的左和右箭头或者经集成在用户接口UI的显示器中的“软按钮”实现。

在图7A、7B的实施例中，辅助装置AD被描述为智能电话。然而，辅助装置可以是其它便携电子装置，例如FM发射器、专用遥控装置、智能手表、平板电脑等。

图8示出了根据本发明的包括自我话音估计的耳机或助听器的实施例及将自我话音估计量传给另一装置的选择，及从另一装置接收声音以经扬声器例如与来自用户环境的声音混合呈现给用户。听力装置HD包括提供表示佩戴听力装置的用户环境中的声音的电输入信号(IN1,IN2)的两个传声器(M1,M2)。听力装置还包括空间滤波器DIR和自我话音DIR，每一空间滤波器基于电输入信号 (IN1,IN2)提供空间滤波的信号(分别为ENV和OV)。空间滤波器DIR例如可实施目标保留、噪声消除波束形成器。空间滤波器自我话音DIR实施配置成拾取用户自我话音的空间滤波器。空间滤波器自我话音DIR实施指向用户嘴巴的自我话音波束形成器。自我话音DIR的启动和控制受控于根据本发明的自我话音处理器OVP。自我话音处理器提供控制信号(OV,FM)，分别标示用户自我话音的存在(OV)以及用户是否佩戴面罩(FM)。在电话运行模式下，用户自我话音由传声器M1、M2拾取并由空间滤波器“自我话音DIR”的自我话音波束形成器进行空间滤波，从而提供用户自我话音的估计量(信号UOV)。信号UOV 可被自我话音处理器用作输入以确定自我话音和/或面罩控制信号(OV,FM)，如来自“自我话音DIR”模块和“OVP”模块的虚线箭头标示的。听力装置还包括自我话音信号处理器OV-PRO，配置成改善用户自我话音的估计并根据面罩控制信号FM提供修正的自我话音信号UOVOUT。自我话音信号处理器可配置成根据面罩控制信号FM修正用户自我话音的频率形状。从而可补偿由面罩进行的用户自我话音的频率整形。修正(改善)的自我话音信号UOVOUT被馈给发射器Tx进行发射(通过到另一装置或系统如电话的线缆或无线链路，参见记为“传到电话机”的虚线箭头及电话机符号)。在电话运行模式下，信号 PHIN可通过(有线或无线)接收器Rx从另一装置或系统(如电话机，如电话机符号及记为“自电话机”的虚线箭头所示)接收。当远端讲话者活跃时，信号PHIN包含来自远端讲话者的语音，例如经电话线传输(例如完全或部分无线，但通常至少部分线缆传播)。“远端”电话信号PHIN可在组合单元(在此为选择器/混合器SEL-MIX)中进行选择或与来自空间滤波器DIR的环境信号ENV混合，所选或混合的信号PHENV被馈给输出变换器SPK(如扬声器或者骨导听力装置的振动器)以作为声音呈现给用户。非必须地，如图8中所示，所选或混合的信号PHENV可馈给处理器PRO，从而将一个或多个处理算法应用于所选或混合的信号PHENV而提供处理后的信号OUT，该信号被馈给输出变换器SPK。图8的实施例可表示耳机，在该情形下，所接收的信号PHIN可被选择以呈现给用户，而不与环境信号混合。图8的实施例可表示助听器，在该情形下，所接收的信号PHIN在呈现给用户之前可与环境信号混合(以使用户能保留周围环境的感觉，当然，同样可适合耳机应用，根据使用情形)。此外，在助听器中，处理器PRO可配置成补偿听力装置(助听器)的用户的听力受损。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

参考文献

·P-2019-009EP,when published>17October 2020.

·EP3709115A1(Oticon)16.09.2020.

·EP3588981A1(Oticon)01.01.2020。

Claims

1.一种配置成佩戴在用户耳朵处或耳朵中的听力装置，所述听力装置包括：

-自我话音检测器，配置成估计所述声音是否或者以何种概率源自用户的话音及提供标示其的自我话音控制信号；

其中，所述听力装置还包括嘴部穿戴件检测器，配置成在用户讲话的同时估计用户是否或者以何种概率佩戴嘴部穿戴件，并提供标示其的嘴部穿戴件控制信号。

2.根据权利要求1所述的听力装置，包括特征提取器，配置成识别至少一电输入信号中标示用户自我话音的声学特征。

3.根据权利要求2所述的听力装置，包括存储器，其中存储在用户佩戴听力装置但未佩戴嘴部穿戴件讲话时从至少一电输入信号提取的声学特征的参考值。

4.根据权利要求2所述的听力装置，包括存储器，其中存储在用户佩戴听力装置并佩戴嘴部穿戴件讲话时和未佩戴嘴部穿戴件讲话时从至少一电输入信号提取的声学特征的参考值之间的差。

5.根据权利要求1所述的听力装置，包括信号处理器，用于处理至少一电输入信号或者基于其的一个或多个信号并提供处理后的信号。

6.根据权利要求1-5任一所述的听力装置，包括输出变换器，用于将电输出信号转换为可由用户感知为声音的刺激。

7.根据权利要求5所述的听力装置，其中，信号处理器配置成根据嘴部穿戴件控制信号控制至少一电输入信号或者基于其的一个或多个信号的处理。

8.根据权利要求1所述的听力装置，包括提供至少两个电输入信号的至少两个输入变换器。

9.根据权利要求8所述的听力装置，包括自我话音波束形成器，配置成根据至少两个电输入信号以及自我话音波束形成器的可配置的波束形成器权重提供用户话音的估计量。

10.根据权利要求9所述的听力装置，其中，信号处理器配置成根据嘴部穿戴件控制信号处理用户话音估计量并提供改善的用户话音估计量。

11.根据权利要求10所述的听力装置，其中，信号处理器配置成根据嘴部穿戴件控制信号修正用户自我话音的频率形状并提供改善的用户话音估计量。

12.根据权利要求1所述的听力装置，包括收发器，配置成将音频信号传给另一装置或系统和/或从另一装置或系统接收音频信号。

13.根据权利要求1所述的听力装置，包括关键词检测器，配置成根据自我话音控制信号和嘴部穿戴件控制信号识别至少一电输入信号或源自其的信号中关键短语的特定关键词。

14.根据权利要求13所述的听力装置，包括话音控制接口，配置成在被关键词检测器检测到时通过预定口头命令控制听力装置的功能。

15.根据权利要求1所述的听力装置，包括或者可连接到用户接口，从而使用户能指明用户可能偶尔佩戴的嘴部穿戴件的具体种类。

16.根据权利要求1所述的听力装置，配置成识别当前位置或者从另一装置接收关于当前位置的信息并配置成基于嘴部穿戴件控制信号触发关于用户当前是否佩戴嘴部穿戴件的提醒。

17.根据权利要求1所述的听力装置，其中，自我话音检测器和/或嘴部穿戴件检测器完全或部分使用学习算法实施。

18.根据权利要求1所述的听力装置，由耳机、空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合构成或者包括耳机、空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。

19.配置成佩戴在用户耳朵处或耳朵中的听力装置的运行方法，所述方法包括：

-将听力装置环境中的声音转换为表示所述声音的至少一电输入信号；

-估计所述声音是否或者以何种概率源自用户的话音及提供标示其的自我话音控制信号；

-在用户讲话的同时估计用户是否或者以何种概率佩戴嘴部穿戴件，并提供标示其的嘴部穿戴件控制信号。

20.一种计算机可读存储介质，其上存储称为APP的非短暂应用程序，APP包括配置成将在辅助装置上执行以实施用于根据权利要求1-18任一所述的听力装置的用户接口的可执行指令，APP配置成与听力装置交换数据、使用户能指明用户可能佩戴的嘴部穿戴件的种类及将与所选嘴部穿戴件有关的信息传给听力装置，嘴部穿戴件的种类可在多个不同类型的嘴部穿戴件之中选择。

21.根据权利要求20所述的计算机可读存储介质，其中，APP配置成允许或禁止辅助装置的当前位置的确定；及响应于允许所述确定，将包括当前位置的信息传给听力装置。