CN111836178B

CN111836178B - 包括关键词检测器及自我话音检测器和/或发射器的听力装置

Info

Publication number: CN111836178B
Application number: CN202010308093.XA
Authority: CN
Inventors: N·H·罗德; T·本特森; A·B·奥尔森; A·H·安德森; M·S·彼得森; S·O·皮特森; J·詹森; M·S·克里斯腾森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2019-04-17
Filing date: 2020-04-17
Publication date: 2023-11-24
Anticipated expiration: 2040-04-17
Also published as: US20200336846A1; US20240223973A1; DK3726856T3; US11546707B2; CN117544890A; EP4184949A1; US11968501B2; EP3726856B1; EP3726856A1; CN111836178A; US20230100340A1

Abstract

本申请公开了包括关键词检测器及自我话音检测器和/或发射器的听力装置，该听力装置包括至少一输入变换器、信号处理器、输出单元及关键词检出系统。关键词检出系统包括：关键词检测器，配置成在所述至少一电输入信号中或者在从其得出的信号中检测有限数量的预定关键词或短语或声音，并提供是否或以何种概率检测到所述关键词或短语或声音的关键词标示；用于提供自我话音标示的自我话音检测器；及控制器，配置成提供所述关键词或短语或声音中的给定关键词或短语或声音当前是否或者以何种概率被检测到并由用户说出的自我话音关键词标示，该自我话音关键词标示依赖于所述关键词标示和所述自我话音标示。

Description

包括关键词检测器及自我话音检测器和/或发射器的听力装置

技术领域

本发明涉及听力装置如助听器，尤其涉及听力装置的话音控制。本发明还涉及包括发射器的听力装置。

背景技术

目前正广泛部署用于控制多个不同设备的话音控制接口。这些接口中的许多接口在用户说唤醒词(或句子)及随后说命令词或句子时开启。例子包括所谓的虚拟助理如Siri、Alexa、(Google)Assistant等。这些服务大多数在许多比听力装置如助听器(HA)或听力(助听器)系统具有更多计算资源(如存储器复杂性、计算复杂性、电池功率等)的设备上执行。

发明内容

听力装置(或与听力装置通信的相关设备)的功能可经话音控制接口进行评估(如控制)。话音控制接口可基于关键词检出(keyword spotting，KWS)系统。话音控制接口可通过特定“唤醒词”启用。用于控制听力装置中的功能的口说命令(如“加大音量”)可由唤醒词及之后的命令词组成或者包括唤醒词及之后的命令词。命令词可能需要紧跟在唤醒词之后(之间没有其它命令词)或者在已检测到唤醒词之后的某一时间段内(如果唤醒词启用话音控制接口进行某一时间段，使得您仅需在话音控制接口已被启用时说出命令词)。

这样的系统或在听力装置中运行，或在与听力装置通信的外部设备中运行，或在听力仪器系统与外部设备的结合中运行(例如唤醒词检测在听力装置中，命令词检测(和/或一般的语音识别)在外部设备中)。

由于其有限的大小和电池功率，听力装置(如助听器)相较于外部设备具有有限的计算能力。因而在外部设备中进行计算量大的计算将有利。这样的设置例如在图10中示出，其包括具有位于用户(U)的右和左耳处的第一和第二听力装置(HD1,HD2)的双耳听力系统，该双耳听力系统配置成建立到外部设备(ExD)的通信，例如包括用户接口(UI)。

听力装置通常经无线链路(图10中的WL1,WL2)连接到外部设备。在外部设备中进行的计算因而可能需要听力装置与外部设备之间的数据传输。数据传输如音频信号的传输同样耗用听力装置电池。为此，可能对检测音频信号何时应被传给外部设备感兴趣(及仅在应用考虑感兴趣时传输音频信号)。这在图11A、11B、11C的多个不同实施例中示出。

然而，可能对在听力装置或听力系统本地执行关键词检出算法感兴趣，即用于检测唤醒词/命令词的算法。本发明的目标在于通过将关于用户自我话音(OV)活动的信息包含在KWS过程中而改进现有KWS解决方案。唤醒词检测可由用户经用户接口启动或停止(例如在听力装置的特定运行模式下)。从而可节能，直到用户想要话音控制接口“可启用”为止。作为备选或另外，唤醒词检测可由OV活动的检测启动。

听力装置(如助听器)中的KWS相较例如在智能电话上运行的系统如Siri和Alexa具有潜在的优点：检测用户何时说话更容易。这是因为，对于HA系统，专用传感器或算法可用于检测自我话音活动。对于HA系统，前述传感器(参见下面)可置放在用户身上，因此使能更鲁棒地检测用户的OV活动。

将OV信息与KWS系统结合可导致计算及性能优点，如下所述。

有权使用关于OV活动的可靠信息的KWS系统计算代价较低。具体地，该KWS系统(通常执行的计算代价高)仅需要在OV检测器判断有合理概率存在OV活动时执行。此外，如果OV检测机制因其它目的已经可用或者可从以任何方式执行的算法容易地得出(如助听器系统情形)，则KWS系统除KWS之外不需要处理OV检测(即计算节约)。

此外，当KWS系统实际上执行时(即当OV检测器判断OV活动可能以某一概率存在时)，OV信息可用于改善KWS系统的输出。例如，如果KWS系统判断关键词极可能被说出，但OV活动检测器判断OV活动的概率低，则最终判定可以是关键词未被用户说出，而是可能由竞争性讲话者说出。因此，将OV信息与KWS系统的输出结合可导致性能提高，即降低假正率。

自我话音标示(如“自我话音标志”)可从听力装置传给外部设备，例如用于进一步使用或处理。自我话音的估计对外部设备可能是有用的信息。

关键词检出：对于唤醒词/关键词检出，已经存在几种系统，如Siri、Alexa、GoogleAssistant等。这些系统通常不进行明确的话音活动检测。

话音控制接口可一直打开并准备好检测有限数量的关键词KWx,x＝1,…,Q之一，其中Q可以是2-100级的数，如2到20之间，如5到15之间。然而，话音控制接口也可一般处于低功率“睡眠”模式(或关)，及仅通过特定唤醒词启用(唤醒)，例如仅在佩戴听力装置的用户说话时启用(或者，非必须地，仅由听力装置适合的特定用户启用)。在本申请中，特定唤醒词记为KW1。话音控制接口包括关键词检出系统，其配置成检测呈现给关键词检出系统的当前音频流中是否存在或者以何种概率存在特定关键词KWx。唤醒词可通过特定唤醒词检测器(例如位于听力装置中)进行检测，其余Q-1个关键词可由单独的关键词检出系统(例如位于听力装置或另一装置中)检测。作为备选，唤醒词可由检测其它Q-1个关键词的同一关键词检出系统(例如位于听力装置中或者另一如外部设备中)进行检测。优选地，唤醒词(或短语)应选择为下述之一或多个(如全部)：a)独一无二(在一般会话中不常使用)；b)相当长(以提供其特征的一些变化)但不太长(以不引起不必要的处理)；c)国际化(以简化制造)；d)在有噪声环境中可识别。

用户自我话音检测：通常，一般的话音活动检测算法用于HA系统中的OV检测。这些算法通常基于调制，但存在几种其它原理，如[1,2,3]。也可预见其它、可能更好的OV活动检测方法(参见下面)。

OV的检测也可用于提取(例如用户说出的)音频序列，其为KWS目的进一步处理。该序列例如可在(听力装置中)本地处理，或传到辅助(如外部)装置进行进一步处理。在关键词仅在OV序列开始时出现的(示例性)假设下，仅OV音频序列的第一部分(如少于1-2秒)需要进一步处理以进行KWS。因而，仅在用户自我话音在关键词之前的第一预定时间段尚不存在且在关键词正被说出时用户的话音活动时，关键词可被接受为有效关键词。

关键词检出与用户自我话音检测结合：US20190075406A1及我们于2018年6月22日申请的欧洲未决专利申请EP18179374.6提及使用听力装置中的自我话音波束形成器/检测器识别关键词的想法。

第一听力装置

在本申请的一方面，提供一种听力装置如助听器，其配置成至少部分设置在用户头上或者至少部分植入在用户头中。该听力装置包括：

-至少一输入变换器，用于从环境拾取输入声音信号并提供表示所述输入声音信号的至少一电输入信号；

-连接到所述至少一输入变换器的信号处理器，所述信号处理器配置成分析所述电输入信号并根据其提供传输控制信号。

听力装置还可包括：

-存储缓冲器如循环缓冲器，用于存储某一持续时间的至少一电输入信号或其处理后版本的当前时间段；

-发射器，用于根据所述传输控制信号将所述时间段的电输入信号的至少一部分传给另一装置。

听力装置可包括话音控制接口。

信号处理器可包括连接到至少一输入变换器的自我话音检测器，该自我话音检测器配置成提供估计给定输入声音信号如所述至少一电输入信号是否或者以何种概率源自听力装置用户的话音的自我话音标示。信号处理器可包括配置成根据自我话音标示提供传输控制信号的控制器。信号处理器例如可配置成将存储缓冲器中当前存储的数据的一部分传给外部设备，前述数据部分在自我话音检测之前的(如预定)开始时间段(如≤100ms)开始。类似地，信号处理器例如可配置成在(如预定)停止时间段之后停止从存储缓冲器传输数据。传输时间段因而可限于(如预定)持续时间(例如取决于所涉及的关键词或唤醒词或句子的预期长度)，例如≤5秒，如≤2秒，如≤1秒。

听力装置如助听器可包括唤醒词检测器，其配置成在至少一电输入信号或从其得出的信号中检测预定唤醒词并提供是否或以何种概率检测到唤醒词的唤醒词标示。控制器可配置成根据唤醒词标示和自我话音标示提供传输控制信号。

信号处理器可包括关键词检测器(如唤醒词检测器)，例如下面结合“第二”听力装置的方面所述。唤醒词检测器例如可通过相当简单的(低功率)唤醒词检测算法实施。结合自我话音检测及语言上容易检测的唤醒词或句子，前述唤醒词检测器可提供可接受的置信度。然而，外部设备也可配置成基于来自用户的、传到外部设备的数据(例如在自我话音检测期间)检测唤醒词，如上面结合第一方面所述。有限数量的预定关键词例如可以是一个或两个，例如对应于话音控制接口或者听力装置或外部设备或系统的任何其它功能的唤醒词或短语。听力装置如关键词检出系统可配置成使得仅在关键词的检测前面的第一预定阈值时间段自我话音检测器未检测到用户自我话音时，该关键词如特定唤醒词可被接受为有效关键词(如唤醒词)。听力装置如关键词检出系统可配置成使得仅在关键词的检测前面的第一预定阈值时间段自我话音检测器未检测到用户自我话音且在关键词检测器检测到该关键词时自我话音检测器检测到用户自我话音时，该关键词如特定唤醒词可被接受为有效关键词(如唤醒词)。换言之，听力装置如关键词检出系统可配置成使得，仅在a)自我话音标示指明在关键词前面的第一预定时间段未检测到用户自我话音及b)自我话音标示指明在关键词标示指明检测到所述关键词时检测到用户自我话音时，该关键词被接受为有效关键词。

如结合第二方面所述，关键词检测器(如唤醒词检测器)和/或自我话音检测器可通过基于有监督的学习的算法实施，例如经训练的(如深度)神经网络。神经网络的输入向量可包括至少一电输入信号，例如其多个时间帧。神经网络的输入向量可另外包括指明至少一电输入信号如其所述多个时间帧中存在用户话音的自我话音控制信号。神经网络的输出向量例如可包括检测到的关键词和/或检测到关键词的概率(例如检测到关键词检出系统设计成知道的任何关键词的概率)。神经网络的输出向量例如可包括检测到关键词检出系统设计成知道的、由听力装置用户说出的任何关键词的概率。神经网络可配置成使得仅在关键词前面的第一预定阈值时间段不存在用户自我话音且在关键词正被说出的同时用户话音活动/活跃时，该关键词如特定唤醒词可被接受为有效关键词(如唤醒词)。

信号处理器例如可配置成应用处理算法(例如将随频率而变的增益应用于至少一电输入信号或从其得出的信号，例如以补偿用户的听力受损)及基于所述至少一电输入信号(或从其得出的信号)中的一个或多个提供处理后的信号。听力装置还可包括输出单元，用于将所述处理后的信号或源自其的信号转换为可由用户感知为声音的刺激。

听力装置还可包括关键词检出系统，其包括关键词检测器，配置成在至少一电输入信号中或者在从其得出的信号中检测有限数量的预定关键词或短语或声音并提供是否或以何种概率检测到给定关键词或短语或声音的关键词标示。关键词检出系统可配置成检测用于特定应用的唤醒词或短语，例如用于启用听力装置和/或另一装置的话音控制接口。

关键词检出系统可配置成提供关键词标示及对应的关键词(如唤醒词或句子，或者命令词或句子)。

下面描述的、“具体实施方式”中详细描述的或者权利要求中限定的第二听力装置的部分或所有结构特征可与第一听力装置的实施例结合。

听力装置的第一运行方法

在本申请的一方面，提供听力装置如助听器的(第一)运行方法，所述听力装置配置成至少部分设置在用户头上或者至少部分植入在用户头中。所述方法包括：

-提供表示输入声音信号的至少一电输入信号；

-分析所述至少一电输入信号并根据其提供传输控制信号。

-依次存储某一持续时间的至少一电输入信号或其处理后版本的当前时间段；

-根据所述传输控制信号将所述时间段的电输入信号的至少一部分传给另一装置。

当由对应的过程适当代替时，上面或下面描述的、“具体实施方式”中详细描述的或权利要求中限定的第一或第二听力装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。第一方法的实施具有与对应装置一样的优点。

传输控制信号可取决于自我话音的检测。在电话通话期间的传输控制信号可取决于远端讲话者正在讲话或者未讲话。

传输控制信号可取决于关键词如唤醒词的检测。该方法可使得仅在自我话音检测器在关键词检测前面的第一预定阈值时间段未检测到用户自我话音时，该关键词如唤醒词才被接受为有效关键词。

外部设备的进一步分析可设计成在处理基于外部设备的本地传声器时最佳地工作。因而，如果听力装置(如听力装置的传声器)的频率响应被校准以具有与外部设备中的传声器同样的响应(或特征)，则有利。校正可在听力装置或外部设备中实施(例如分别参见图12A、12B)。

第二听力装置

在本申请的另一方面，提供一种听力装置如助听器，其配置成至少部分设置在用户头上或者至少部分植入在用户头中。

该听力装置可包括：

-基于所述至少一电输入信号中的一个或多个提供处理后的信号的信号处理器；

-输出单元，用于将所述处理后的信号或者源自其的信号转换为可由用户感知为声音的刺激；及

-关键词检出系统。

关键词检出系统可包括：

-关键词检测器，配置成在所述至少一电输入信号中或者在从其得出的信号中检测有限数量的预定关键词或短语或声音；

-控制器，配置成提供所述关键词或短语或声音中的给定关键词或短语或声音当前是否或者以何种概率被检测到并由用户说出的自我话音关键词标示。

关键词检出系统可包括：

-关键词检测器，配置成在所述至少一电输入信号中或者在从其得出的信号中检测有限数量的预定关键词或短语或声音，并提供是否或以何种概率检测到所述关键词或短语或声音的关键词标示；

-用于提供自我话音标示的自我话音检测器，其估计给定输入声音信号是否或以何种概率源自听力装置用户的话音。

听力装置还可包括：

-控制器，配置成提供所述关键词或短语或声音中的给定关键词或短语或声音当前是否或者以何种概率被检测到并由用户说出的自我话音关键词标示，该自我话音关键词标示依赖于所述关键词标示和所述自我话音标示。

从而可提供听力装置的改进的话音控制接口。

在本申请中，术语“<x>标示”及x＝“关键词”、“自我话音”、“自我话音关键词”分别意指或等同于“第一、第二和第三标示”(例如为使特定“标示”的提及更容易理解)。

自我话音标示可提供给定输入声音信号源自听力装置用户的话音的概率的估计量(概率指示[0,1])。关键词标示可提供所述关键词或短语或声音中的给定关键词或短语或声音在给定输入声音信号中检测到的概率的估计量(概率指示[0,1])。自我话音标示可提供给定输入声音信号源自听力装置用户话音(1)或者不是源自听力装置用户话音(0)的(二元如1或0)估计量。关键词标示可提供所述关键词或短语或声音中的给定关键词或短语或声音在给定输入声音信号中检测到(1)或者未检测到(0)的(二元如1或0)估计量。自我话音标示和关键词标示均可为概率指示。自我话音标示和关键词标示均可为二元指示。自我话音标示可以是概率指示，及关键词标示可以是二元指示。自我话音标示可以是二元指示，及关键词标示可以是概率指示。

自我话音关键词标示例如可等于或取决于自我话音标示与关键词标示的积。

在实施例中，关键词检测器(至少在特定运行模式下)“始终开”(准备好在输入信号中寻找预定关键词(和/或特定唤醒词))。然而，控制器可配置成仅在自我话音检测器检测到用户话音时或者仅在以大于阈值的概率检测到用户话音时启动关键词检出系统或其一部分。从而，自我话音检测器用于增大检测到的关键词实际上由用户说出的概率。另外，关键词检出系统的功耗被节省。

在本说明书中，术语“关键词”(或句子)一般用于计划将被如形成话音控制接口的一部分的关键词检出系统(如关键词检测器)识别的预定字/词。术语“关键词”(或句子)计划包括特定的(预定)“唤醒词”(或句子)及其它预定词(或句子)，后者称为“命令词”(或句子)。在实施例中，术语“关键词”(或句子)意指“唤醒词”(或句子)及有限数量的“命令词”(或句子)，例如由听力装置的话音控制接口使用。

听力装置可包括存储缓冲器如循环缓冲器，用于存储某一持续时间的当前时间段的至少一电输入信号或其处理后版本。存储缓冲器例如可允许(暂时)存储高达5秒时间段的音频(等于至少一电输入信号或从其得出)，及例如根据传输控制信号传给外部设备。

听力装置可包括发射器，用于将至少一电输入信号或其处理后版本如其一时间段传给另一装置或系统。

听力装置可包括信号处理器，该信号处理器连接到至少一输入变换器并配置成分析至少一电输入信号或从其得出的信号并提供用于控制所述发射器的传输控制信号。从而传输功率相较于连续传输可实质上节约，例如在部分或所有关键词检出在外部设备中进行的情形下(例如除了唤醒词检测之外)。传输控制信号可根据自我话音标示或自我话音关键词标示或者基于用于与听力装置通信的外部设备或系统的话音控制接口的唤醒词的检测进行确定。

听力装置可包括分析滤波器组，以按包括多个子频带的时频表示提供所述至少一电输入信号。在实施例中，听力装置包括多个分析滤波器组以按包括多个子频带的时频表示提供(可能的)多个电输入信号。术语“时频表示”指其中时域信号在频域中被表示为多个子频带信号(或者连续频谱的图(谱图)，每一频谱表示信号的时间段(如时间帧))的表示。

听力装置可特别适于拾取用户自我话音。听力装置例如可包括特定自我话音传声器或者连接到配置成聚焦于用户嘴巴的自我话音波束形成器的多个传声器，从而提供用户话音的估计量(以使基于用户话音的关键词检出任务容易)。提供用户话音的估计量可形成关键词检测的预处理程序的一部分。听力装置可配置成将前述用户话音的估计量馈给关键词检测器。

听力装置可包括用于从环境拾取输入声音信号并提供对应的电输入信号(如至少一电输入信号)的多个输入变换器。听力装置可包括波束形成器滤波单元，配置成接收电输入信号以根据其提供空间滤波的信号。听力装置可包括降噪系统，如后滤波器或单通道降噪单元，用于(除波束形成器滤波单元执行的空间滤波之外还)降低噪声并提供空间滤波的(波束形成的)噪声降低的信号。

听力装置可包括聚焦于用户嘴巴并配置成拾取用户自我话音的预定和/或自适应更新的自我话音波束形成器。该自我话音波束形成器可配置成提供包括用户自我话音的估计量的信号。用户自我话音的估计量可用作关键词检出系统的输入信号。

听力装置可包括分析单元，用于分析用户自我话音及辨别其特征。用户自我话音的特征例如可包括频谱、基频、共振峰频率、电平、讲话速度等中的一个或多个。

听力装置可包括多个检测器，每一检测器提供与用户自我话音有关的检测器信号。多个检测器例如可包括电平检测器、骨导检测器(如加速计)、频率分析器、语言检测器等。在实施例中，听力装置包括听力装置目前是否正被用户佩戴的检测器。如果明显未被佩戴，则KWS无关并可关闭(低功率或休眠模式)。

听力装置可配置成使得自我话音波束形成器至少在听力装置的特定运行模式下启动并准备好提供用户自我话音的估计量以在电话模式或话音命令模式或请求用户自我话音的其它模式期间传给另一装置。

听力装置可包括连接到关键词检出系统的话音(控制)接口(或者关键词检出系统可形成话音控制接口的一部分)。听力装置可配置成使用户能经话音控制接口启动和/或禁用听力装置的一个或多个特定运行模式。听力装置(如关键词检出系统)可配置成经唤醒词启动(启用)话音命令模式。话音命令模式因而可用于启动多个运行模式(包括电话模式)和/或控制听力装置的功能(包括音量控制、助听器程序控制及可能的通常由遥控装置处理的其它功能)。话音命令模式配置成使能开始与移动电话如智能电话通信，例如智能电话的APP和/或智能电话的“个人助理”。在听力装置的特定“帮助模式”下(例如经听力装置的话音控制接口启动)，用户话音被传到另一装置如智能电话并启动另一装置的“个人助理”(例如经另一装置的应用编程接口(API))，例如问问题(通常经另一装置中的话音控制接口启动)。来自辅助装置的个人助理的输出(问题、回答)被转发给听力装置(例如作为听力装置的传声器拾取的音频或者无线地作为直接电信号，例如在听力装置的AUX输入上)并馈给输出单元(如扬声器)及呈现给用户感知为声音。从而用户与辅助装置(如智能电话或PC)的个人助理的交互可完全基于(自我)话音输入和(音频)输出(即不需要看显示器或经键盘输入数据)。

自我话音检测器可适于基于传声器信号之间的电平差或者基于调制、颌部运动的检测或骨振动或者基于来自残余腔传声器(如朝向耳膜)的信号。

关键词检出系统可配置成检测有限数量的关键词(或句子)，包括用于启动话音控制接口的特定唤醒词。关键词检出系统可配置成检测有限数量的关键词(或句子)，包括多个预定命令词。

关键词检出系统可包括神经网络如深度神经网络。该神经网络可以是经训练的神经网络，配置成使得仅在用户自我话音在关键词之前的第一时间段不存在且在关键词正被说出的同时用户话音活动时关键词才被接受为有效关键词。

听力装置可配置成使得仅在自我话音检测器在检测关键词之前的第一预定阈值时间段未检测到用户自我话音时该关键词如特定唤醒词才可被接受为有效关键词(如唤醒词)。当KWS有效时的时间段可通过自我话音检测确定。该时间段例如可在检测到OV之前开始。预定关键词(如唤醒词)例如可能需要(或假设)位于句子的开始。(小的)延迟可被引入关键词检测以使自我话音检测器能在关键词检测器分析当前输入信号之前提供当前输入信号的自我话音标示。这例如可通过将一时间段的至少一电输入信号或其处理后版本存储在缓冲器中提供。因此，听力装置如关键词检出系统可配置成使得仅在关键词标示反映的自我话音标示指明自我话音检测器在关键词检测前面的第一预定阈值时间段未检测到用户自我话音时，有限数量的预定关键词之中的一关键词如唤醒词才可被接受为有效关键词(如唤醒词)。

听力装置可配置成使得仅在自我话音检测器在关键词检测之前的第二预定阈值时间段未检测到用户自我话音时该关键词才可被接受为有效关键词。从而在关键词(如唤醒词)已被说出之后的停顿是必要的以便接受该关键词。在实施例中，关键词包括唤醒词(如“唤醒奥迪康”)及多个命令词(如“音量减小”)。在实施例中，唤醒词必须在命令词前面(如“唤醒奥迪康”-“音量减小”)以提供由听力装置执行的有效命令。在用于话音控制接口的唤醒词与命令词之间可能需要最大(可能及最小)时间段(ΔT_WW-KW)以接受和执行命令词表示的命令。

在实施例中，听力装置如关键词检出系统配置成使得第一和/或第二预定阈值时间段大于或等于0.5秒或者大于或等于1秒或者大于或等于2秒。检测到的唤醒词与预期的命令词之间的时间段(ΔT_WW-KW)可能需要小于2秒，如小于1秒(以便被关键词检出系统接受)。

神经网络的输入向量可包括一时间段的至少一电输入信号或从其得出的信号。该输入向量还可包括来自自我话音检测器的自我话音标示，其估计该时间段的至少一电输入信号或从其得出的信号是否或以何种概率源自听力装置用户的话音。由输入向量表示的时间段(参见图3B中的“上下文”)的长度可适应所涉及的关键词或关键短语(例如在50ms到2s的范围中)，例如选择成足够长以覆盖所选的关键词或关键短语，但又不长很多以限制计算复杂性(功耗)。

神经网络的输出向量可包括有限数量的关键词(中检测到的关键词的指示)和/或可能的关键词在当前输入向量中出现的概率的当前值。输出向量可包括用户说出的有限数量的关键词在当前输入向量中均未被辨别的专用概率。输出向量可包括专用自我话音语音存在概率。

关键词检出系统可包括唤醒词检测器和命令词检测器。(关键词检出系统的)关键词检测器可包括分开的唤醒词检测器和命令词检测器(例如参见图9)。唤醒词检测器可配置成检测用于话音控制接口(及在实践中可能用于命令词检测器)的特定唤醒词，使得当用户说出的唤醒词被检测到时，命令词检测器启动，使得其准备好辨别(其它)预先确定的关键词(命令词)。唤醒词检测器和命令词检测器可位于听力装置的物理上分开的部分中。唤醒词检测器(优选)可位于听力装置中。命令词检测器可完全或部分位于与听力装置通信的单独装置中，如移动电话，例如智能电话，或者其它可穿戴固定不动的设备。在命令词检测器不活跃的同时，唤醒词检测器可活跃。命令词检测器的启动可取决于唤醒词检测器进行的唤醒词检测。

听力装置可由助听器、头戴式耳机、耳麦、主动耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、主动耳朵保护装置或其组合。

听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。在实施例中，听力装置包括用于增强输入信号并提供处理后的输出信号的信号处理器。

在实施例中，听力装置包括输出单元，用于基于处理后的电信号提供由用户感知为声信号的刺激。在实施例中，输出单元包括耳蜗植入件(用于CI型听力装置)的多个电极或者骨导听力装置的振动器。在实施例中，输出单元包括输出变换器。在实施例中，输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)听力装置中)。在实施例中，输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。

听力装置可包括用于提供表示声音的电输入信号的输入单元。在实施例中，输入单元包括用于将输入声音转换为电输入信号的输入变换器如传声器。在实施例中，输入单元包括用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号的无线接收器。无线接收器例如可配置成接收在射频范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz，或可见光，例如430THz到770THz)的电磁信号。

在实施例中，听力装置包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。在实施例中，定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

听力装置可包括用于从另一装置如从娱乐设备(例如电视机)、通信装置、无线传声器或另一听力装置接收直接电输入信号的天线和收发器电路(如无线接收器)。在实施例中，直接电输入信号表示或包括音频信号和/或控制信号和/或信息信号。

在实施例中，听力装置包括用于对所接收的直接电输入进行解调的解调电路，以提供表示音频信号和/或控制信号的直接电输入信号，例如用于设置听力装置的运行参数(如音量)和/或处理参数。总的来说，听力装置的天线及收发器电路建立的无线链路可以是任何类型。在实施例中，无线链路在两个装置之间建立，例如在娱乐装置(如TV)和听力装置之间，或者在两个听力装置之间，例如经第三中间装置(如处理装置，例如遥控装置、智能电话等)。在实施例中，无线链路在功率约束条件下使用，例如由于听力装置是或包括便携式(通常电池驱动的)装置。在实施例中，无线链路为基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中，无线链路基于远场电磁辐射。在实施例中，经无线链路的通信根据特定调制方案进行安排，例如模拟调制方案，如FM(调频)或AM(调幅)或PM(调相)，或数字调制方案，如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。

在实施例中，听力装置与另一装置之间的通信处于基带(音频频率范围，如0和20kHz之间)中。优选地，用于在听力装置和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。在实施例中，无线链路基于标准化或专用技术。在实施例中，无线链路基于蓝牙技术(如蓝牙低功率技术)。

听力装置可以是便携(即配置成可穿戴)装置或者形成其一部分，如包括本机能源如电池例如可再充电电池的装置。听力装置例如可以是轻质、容易穿戴的装置，例如具有小于100g如小于20g的总重量。

听力装置可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。在实施例中，信号处理器位于该正向通路中。在实施例中，信号处理器适于根据用户的特定需要提供随频率而变的增益。在实施例中，听力装置包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中，分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中，分析通路和/或信号通路的部分或所有信号处理在时域进行。

在实施例中，表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值，N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，对于f_s＝20kHz，如50μs。在实施例中，多个音频样本按时间帧安排。在实施例中，一时间帧包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。

听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。在实施例中，听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，听力装置如输入单元和/或天线及收发器电路包括用于提供输入信号的时频表示的TF转换单元。在实施例中，时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中，TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。在实施例中，TF转换单元包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。在实施例中，听力装置考虑的、从最小频率f_min到最大频率f_max的频率范围包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率f_max的两倍，即f_s≥2f_max。在实施例中，听力装置的正向通路和/或分析通路的信号拆分为NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。在实施例中，助听器适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

听力装置可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式，其中听力装置的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用听力装置的特定特征。

听力装置可包括多个检测器，其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。

在实施例中，多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中，多个检测器中的一个或多个对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

在实施例中，多个检测器包括用于估计正向通路的信号的当前电平的电平检测器。在实施例中，预定判据包括正向通路的信号的当前电平是否高于或低于给定(L-)阈值。在实施例中，电平检测器作用于全频带信号(时域)。在实施例中，电平检测器作用于频带拆分信号((时-)频域)。仅具有某一范围的电平的话音可适合KWS。该电平范围可取决于背景电平。自我话音检测感兴趣的电平范围例如可集成在话音检测器(自我话音检测器)中。

在特定实施例中，听力装置包括话音检测器(VD)，用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中，话音检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。在实施例中，话音检测器适于将用户自己的话音也检测为“话音”。作为备选，话音检测器适于从“话音”的检测排除用户自己的话音。

在实施例中，听力装置包括自我话音检测器，用于估计特定输入声音(如话音，如语音)是否(或以何种概率)源自听力系统用户的话音。在实施例中，听力装置的传声器系统适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。自我话音检测也可结合其它声音如咳嗽的检测一起使用。可仅在已检测到自我话音的时间帧中检测及可能分析咳嗽。咳嗽的检测可被记录。可发出咳嗽频率或时间高于阈值的警报或指示，例如发送给外部设备如智能电话等和/或在外部设备上呈现。

在实施例中，听力装置包括能够确定听力装置是否安装在耳朵处的检测器。OVD和KWS仅在用户实际佩戴听力装置时才必须运行。前述检测器可基于反馈通路估计量(例如参见US20140321682A1或US20150230036A1)。

在实施例中，多个检测器包括运动检测器，例如加速度传感器。在实施例中，运动检测器配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。

听力装置可包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；

c)用户的当前模式或状态(运动、温度、认知负荷等)；

d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

听力装置可包括声(和/或机械)反馈抑制或回声消除系统。反馈控制(例如滤波器权重的更新速率或者自适应算法的自适应速率)可根据一个或多个检测器信号如自我话音检测信号进行或者受其影响。

在实施例中，听力装置还包括用于所涉及应用的其它适宜功能，如压缩、降噪等。

在实施例中，听力装置包括听音装置，如助听器，如听力仪器，例如适于位于耳朵处或者完全或部分位于用户耳道中的听力仪器，如头戴式耳机、耳麦、耳朵保护装置或其组合。在实施例中，助听系统包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。在实施例中，提供在包括音频分布的系统中的应用，例如包括彼此足够接近的传声器和扬声器的系统，从而在用户操作期间导致从扬声器到传声器的反馈。在实施例中，提供在包括一个或多个助听器(如听力仪器)的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用，例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等中的用途。

例如可提供在包括左和右根据本发明的听力装置并能够交换和比较关于检测到的关键词的判定的双耳听力系统中的应用。双耳判定例如可基于逻辑判据，例如“左且右”(两听力装置对用于双耳系统的给定关键词均必须得出同样的判定并接受它)。作为备选，双耳判定可基于左和右概率的组合，例如p(left)*p(right)≥p(thr)，其中p(thr)为阈值，例如p(thr)≥0.6。

听力装置的第二运行方法

一方面，本申请进一步提供听力装置的(第二)运行方法，所述听力装置配置成至少部分设置在用户头上或者至少部分植入在用户头中。所述方法包括：

-从环境拾取输入声音信号并提供表示所述输入声音信号的至少一电输入信号；

-基于所述至少一电输入信号中的一个或多个提供处理后的信号；

-将所述处理后的信号或源自其的信号转换为可由用户感知为声音的刺激。

所述方法可包括下述之一或多个：

-在所述至少一电输入信号中或者在从其得出的信号中检测有限数量的预定关键词或短语或声音，并提供所述关键词或短语或声音是否或以何种概率被检测到的关键词标示；

-提供估计给定输入声音信号是否或以何种概率源自听力装置用户话音的自我话音标示；及

-提供所述关键词或短语或声音中的给定关键词或短语或声音当前是否或以何种概率被检测到并由用户说出的自我话音关键词标示，所述自我话音关键词标示取决于所述关键词标示和所述自我话音标示。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。其它存储介质包括DNA中的存储(例如在合成DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

在另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及包括辅助装置的听力系统。

在实施例中，听力系统适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

在实施例中，辅助装置包括遥控器、智能电话或者其它便携或可穿戴电子设备如智能手表等。

在实施例中，辅助装置是或包括遥控器，用于控制听力装置的功能和运行。在实施例中，遥控器的功能被实施在智能电话中，智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

在实施例中，辅助装置是或包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。

辅助装置可做处理的多个部分(划分例如可以是，OVD及与听力装置的功能有关的几个关键词(包括用于话音控制接口的唤醒词)在听力装置中进行检测，而另外的关键词在辅助装置中进行检测)。

另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置如助听器及包括辅助装置的助听器系统。该助听器系统可适于在助听器与辅助装置之间建立通信链路以使得信息可被交换或者可从一装置转发给另一装置。关键词检出系统可包括唤醒词检测器和命令词检测器。唤醒词检测器可位于助听器中。命令词检测器可完全或部分位于辅助装置中。命令词检测器的启动可依赖于唤醒词检测器进行的唤醒词检测。辅助装置可包括遥控器、智能电话或其它便携或可穿戴电子设备如智能手表等。

在实施例中，辅助装置是或包括另一听力装置。在实施例中，听力系统包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。在实施例中，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的第一和第二听力装置的双耳听力系统，其中第一和第二听力装置中的每一个包括天线和收发器电路，从而使能在其间建立通信链路。例如可提供包括能够交换和比较关于检测到的关键词的判定的左和右听力装置的双耳听力系统。双耳判定例如可基于逻辑判据，例如“左且右”(两听力装置对用于双耳系统的给定关键词均必须得出同样的判定并接受它)。作为备选，双耳判定可基于左和右概率的组合，例如F(p(left),p(right))≥p(thr)，其中p(thr)为阈值，例如p(thr)≥0.6，及F为概率的函数如相乘、MIN或MAX。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。在实施例中，该APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。

用户接口处理可包括：

-与听力装置或与双耳听力系统交换信息；

-提供配置成使用户能校准听力装置或双耳听力系统的自我话音检测器的图形界面；及

-基于经用户接口来自用户的输入执行至少下述之一：

--配置关键词检出系统；

--开始自我话音检测器的校准；

--关键词检测器的(可能进一步的)训练；

--设定关键词检测之前的无自我话音检测的时间段。

唤醒词检测器或检测唤醒词的方法

另一方面，本发明进一步提供唤醒词检测器。该检测器配置成检测计划用于启动话音控制接口和/或用于启动与唤醒词检测器通信的设备(例如唤醒词检测器形成其一部分的设备)的特定功能的唤醒词。唤醒词检测器可配置成仅使能在由非自我话音检测的时间段开始且自我话音检测时间段(紧)随其后的时间窗口中检测唤醒词。唤醒词检测器可配置成仅在自我话音检测器在唤醒词检测之前的第一预定阈值时间段未检测到用户自我话音时才将唤醒词接受为有效唤醒词。

唤醒词检测器可配置成仅使能在由非自我话音检测的时间段开始且自我话音检测时间段(紧)随其后的时间窗口中检测唤醒词。

话音控制接口可形成便携(如可穿戴)电子设备如听力装置例如助听器或头戴式耳机的一部分。

唤醒词检测器可包括神经网络如深度神经网络。该神经网络在给定时间点的输入特征向量可与(刚刚)在前的输入向量(时间上)重叠。

由于唤醒词通常在句子开始时说出，可有利地引入关于用户自我话音的检测的定时的判据。此外，唤醒词检测器可配置成，当已启用唤醒词检测时，仅能在特定时间段(例如句子的前几秒)被启用。当前输入数据(表示所述输入声音信号，例如至少一电输入信号)的时间段如最后2秒例如可连续存储在缓冲器(如循环缓冲器)中。当前存储的数据例如可由唤醒词检测器根据预定判据进行分析。预定判据例如可包括自我话音检测器指明自我话音存在(例如以大于阈值的概率，如大于50％或大于60％)且满足关于自我话音检测的一个或多个定时约束条件。在满足预定判据的基础上，当前存储的、表示所述输入声音信号的数据例如可被传给另一装置进行进一步处理(如自我话音检测、唤醒词检测、命令词检测等)或使用。当前存储的数据可在自我话音检测器指明的自我话音检测之前100ms开始传输。

因而，唤醒词检测器可配置成仅使能在由其后为自我话音检测时间段的非自我话音检测时间段开始的时间窗口中检测唤醒词。唤醒词检测器可配置成在自我话音检测的某一持续时间之后禁用唤醒词的检测，例如≤1s或≤2s或≤5s(换言之，仅在某一例如预定时间窗口中能进行唤醒词检测)。这在图5C、5D中示出。

定义

在本说明书中，“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

听力装置可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

更一般地，听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些听力装置中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中，输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激耳蜗神经的多电极阵列)。在实施例中，听力装置包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)。

在一些听力装置中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中，振动器可植入在中耳和/或内耳中。在一些听力装置中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到听力装置，并由听力装置的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

本发明例如可用在包括头戴听音装置的应用中，如助听器、头戴式耳机或耳麦。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1示意性地示出了根据本发明的关键词检出系统的实施例；

图2A示出了根据本发明的预处理单元的第一实施例；

图2B示出了根据本发明的预处理单元的第二实施例；

图3A示出了根据本发明的、实施为神经网络的关键词检出系统的实施例；

图3B示出了包括用于产生图3A的神经网络的输入向量的音频的电输入信号的上下文；

图3C示出了根据本发明的关键词检出系统的实施例；

图3D示出了包括图3C的关键词检出系统中的神经网络的关键词检测器的训练程序的第一实施例；

图3E示出了包括图3C的关键词检出系统中的神经网络的关键词检测器的训练程序的第二实施例；

图4示出了根据本发明的包括关键词检出系统的听力装置的实施例；

图5A示出了用于根据本发明的听力装置的关键词检出系统的包括关键词的第一示例性语音波形；

图5B示出了用于根据本发明的听力装置的关键词检出系统的包括关键词的第二示例性语音波形；

图5C示出了包括语音的第三示例性波形及对应的语音活动标示；

图5D示出了示例性的自我话音语音波形，其图示了根据本发明的用于检测唤醒词的方案。

图6A示出了根据本发明的关键词检测器的第一示例性输入和输出；

图6B示出了根据本发明的关键词检测器的第二示例性输入和输出；

图6C示出了根据本发明的关键词检测器的第三示例性输入和输出；

图6D示出了根据本发明的关键词检测器的第四示例性输入和输出；

图7A示出了根据本发明实施例的用于包括从自我话音检测器接收控制输入的开-关控制器的话音控制接口的关键词检测器；

图7B示出了根据本发明的包括用于话音控制接口的关键词的示例性语音波形；

图7C示出了来自图7A的自我话音检测器的、对应于图7B的语音波形的控制输出；

图8A示出了根据本发明实施例的用于话音控制接口的关键词检测器，其包括从自我话音检测器接收控制输入的开-关控制器及用于存储关键词检测器的输入信号的多个连续时间帧的存储单元；

图8B示出了用于根据本发明的关键词检测器的包括多个关键词的示例性语音波形；

图8C示出了来自图8A的关键词检测器的、对应于图8B的语音波形的控制输出；

图8D示出了(示意性)示例性输入向量，包括针对话音控制接口的两个示例性关键词的输入信号的多个时间帧的连续声谱；

图9示出了根据本发明的关键词检出系统的实施例；

图10示意性地示出了根据本发明的助听器系统的使用场合；

图11A示意性地示出了根据本发明的听力装置的一部分的第一实施例，其包括基于传入音频信号的分析的、音频数据或从其得出的数据到外部设备的传输控制；

图11B示意性地示出了如图11A中的、根据本发明的听力装置的一部分的第二实施例，其中传入信号的分析包括自我话音检测；

图11C示意性地示出了如图11A或11B中的、根据本发明的听力装置的一部分的第三实施例，其中传入信号的分析包括唤醒词检测；

图12A和12B示出了根据本发明的包括听力装置和外部设备的听力系统的相应实施例；

图13示出了根据本发明的听力系统，其包括听力装置和外部设备，其中关键词检测的元件被示出在听力装置的话音控制接口的上下文中。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置如助听器领域，尤其涉及包括用于控制听力装置或系统的功能和/或用于(经听力装置或系统，及可能经网络和/或无线通信接口)控制其它装置或系统的功能的话音控制接口的听力装置或系统。

在实施例中，提供装备有一个或多个传声器的助听器系统，其执行根据图1的框图的关键词检出。图1示意性地示出了使用关于用户自我话音的信息的关键词检出系统，其可被集成在根据本发明的听力装置中。仅示出了与KWS任务有关的模块。可存在其它功能模块，例如与降噪、听力损失补偿、反馈控制或补偿有关的模块。

图1中的模块即“PreP”(预处理)、“KWD”(关键词检测)、“PostP”(后处理)和“Dec”(判定)以及记为“OV-info1-OV-Info4”的箭头包括如下概述的几个可能操作。一个或多个模块为可选模块(例如PreP和PostP，参见点线框)，即可省略。换言之，该图描述系统的一系列实施例。

关键词检出系统KWSS可配置成(完全或部分)形成听力装置的一部分。听力装置适于位于用户耳朵处或耳朵中，或者适于部分或完全植入在用户耳朵处的头中。一般地，关键词检测系统(例如从一个或多个传声器)接收表示包括关键词检出系统的听力装置的环境中的声音的一个或多个电输入信号。图1的关键词检出系统KWSS的实施例包括M个传声器，M≥2，每一传声器配置成拾取可能包含或可能不包含用户说出的关键词的声学信号。该系统的总目的是检测关键词(或句子)是否在特定时间点由用户说出，如果是，判定(预先确定的固定列表的)哪一关键词被说出。作为备选，该系统可配置成检测例如来自预先确定的固定的一组关键词的关键词(或句子)并判定在特定时间点检测到的关键词是否由用户说出。在实施例中，关键词检测器配置成检测听力装置的话音控制接口的特定唤醒词或句子。在实施例中，关键词检测器配置成检测听力装置的话音控制接口的特定唤醒词或句子是否或者以何种概率由听力装置用户说出。

预处理(PreP)

在图1中，M个传声器(Mic1,…,MicM)向预处理模块PreP提供M个电输入信号(IN1,…,INM)。预处理模块可包括分析滤波器组，其将每一传声器信号分解为多个频带(如K个子频带信号)，例如参见图2A、2B。分析滤波器组可按短时傅里叶变换(STFT)实施。每一频带中的信号可被转换为时间包络信号，例如通过计算(复值)STFT系数的量值或者经子频带信号的希尔伯特变换。包络信号可使用对数变换(或任何其它压缩函数)压缩。随后，傅里叶变换可应用于已压缩的包络信号以计算与倒谱系数(MFCC)相似的量。在任何阶段，这些信号可被二次采样(下采样)，或者可选择特定频带，或者可使用频率翘曲，以降低馈入系统的后面阶段的数据速率。

如图2A、2B中所示，(按上面的任何表示的)信号可传过降噪系统NRS以降低环境噪声的影响。信号也可通过专用自我话音波束形成系统或者专用于取得用户自我话音的任何其它系统捕获，例如参见图2B。具体地，最小方差无失真响应(MVDR，或者MVDR+后滤波器)自我话音波束形成器除信噪比已提高之外还具有优点，即自我话音未失真，而噪声的频率形状通常已改变。这使系统更容易区分自我话音和背景噪声。预处理阶段(以及预处理阶段的各个子单元)可选(参见图1中的点线框)，换言之，存在其中预处理阶段的输出简单地由进入预处理阶段PreP的传声器信号(IN1,…,INM)组成的系统。

在该阶段可使用OV信息(如自我话音检测)(参见图1、2A、2B中的OV-Info1)。如果OV活动信息指明输入声音不可能是用户自己的话音信号，预处理(及所有后面模块中的处理，例如参见图2B中的进一步预处理模块FPreP)可暂停(参见图2B中从OV-Info1单元到FPreP单元的信号OV1ctr)，从而a)节约计算及b)可能相较未使用OV信息的系统提高性能。预处理单元(如图2B中的进一步预处理模块FPreP)可配置成将包括噪声降低的输入信号、波束成形信号或从这些信号提取的特征的“特征向量”(INF1,…,INFN_F，其中N_F为特征数量)提供为输出。特征向量可包括跨电输入信号(或从其得出的波束成形信号)的多个(如10-100)时间帧提取的特征，例如参见图3A、3B或图8A-8D。时间帧可表示输入信号在连续时间指数(m，时频表示(k,m))的频谱(如在多个k时的复值)。作为备选，，时间帧可包括输入信号(时域表示)的多个(如128个)(时间)样本(数字化的振幅对时间)。

图2A示出了根据本发明的预处理单元PreP的第一实施例。图2A示出了听力装置的、向预处理单元PreP提供M个电输入信号(IN1,…,INM)的输入阶段。输入阶段包括M个输入变换器(IT1,…,ITM)如传声器，每一输入变换器用于将声场(声音)的相应声音信号(s1,…,sM)转换为电输入信号(IN1,…,INM)。图2A的预处理单元PreP包括M个分析滤波器组AFB，用于将相应电输入信号(IN1,…,INM)转换为子频带信号，其被馈给降噪系统NRS。降噪系统NRS配置成减小子频带信号(IN1,…,INM)中的噪声分量并根据子频带信号(IN1,…,INM)和自我话音信息(OV-Info1)如自我话音检测信号(例如参见图2B中的OV1ctr)提供噪声降低的信号(INF1,…,INFM)。

图2B示出了根据本发明的预处理单元的第二实施例。图2B的实施例具有与结合图2A所述的听力装置同样的输入阶段。图2B的预处理单元PreP也包括结合图2A所述的M个分析滤波器组AFB，其频域子频带信号馈给降噪系统NRS。降噪系统NRS包括自我话音波束形成器滤波器OV-BF，其提供表示用户自我话音的估计量的空间滤波的信号Y_OV。自我话音波束形成器OV-BF例如可通过(经训练的)神经网络实施。信号Y_OV为电输入信号(IN1,…,INM)的线性或非线性(如基于神经网络的)组合，其中权重Wi,i＝1,…,M可在使用之前确定。输入控制信号OV1ctr例如可包含前述预先确定的波束形成器权重。在波束形成器权重自适应确定的情形下，控制信号OV1ctr例如可包括来自话音活动检测器(如自我话音检测器)的输出，从而例如使能在语音停顿期间更新噪声估计量及可能在用户语音期间更新从目标声源(用户嘴巴)到听力装置的传声器的声学传递函数。降噪系统NRS还包括后滤波器SC-NR，用于进一步减少包括用户话音的空间滤波的信号Y_OV中的噪声，从而提供用户自我话音的噪声降低的估计量Y_OVNR。预处理单元PreP可(非必须地)包括用于进一步处理噪声降低的信Y_OVNR号的处理单元FPreP，从而例如提取其特征如倒谱系数或其它频谱参数，并提供最终的经预处理的信号INF(包括一时间段的输入声音信号的输入特征，或者电输入信号本身)。

图2A和2B示出了预处理单元的示例性实施例。可包括其它功能模块以代替或与图2A和2B中所示的模块组合。例如，其它实施例可包括没有后滤波器SC-NR的自我话音波束形成器OV-BF，或者可包括没有自我话音波束形成器OV-BF的降噪系统，例如基于单一传声器等。

关键词检出(KWS)

关键词检出单元或者关键词检测器KWD将预处理阶段PreP的输出即特征向量(INF1,…,INFN_F)取为输入。具体地，在特定时间点，关键词检测器的输入由覆盖例如600ms(如所涉及信号的多个时间帧)的持续时间的预处理阶段的输出组成。持续时间为设计选择：其被选择成足够长以覆盖感兴趣的任何关键词、关键词序列或句子(通常其被选择为在50ms–2000ms的范围中)。关键词检测器可以是或包括深度神经网络(DNN)，例如由前馈网络、卷积网络(CNN)、递归网络或其组合组成。递归网络的优点在于输入帧的数量可更短，因为存储器被内置到网络结构内。这特别适合小尺寸、低功率设备，如听力装置例如助听器。关键词检测器的输出(PP1,…,PPQ)提供特定关键词被说出的概率p的估计量。网络输出可以是Q(或Q+1)维输出，其中Q指系统词表中的关键词数量。在该情形下，输出(PP1,…,PPQ)表示特定关键词被说出的后验概率。(非必需的)第Q+1个输出(PPQ+1)例如可表示(在与后验概率(PP1,…,PPQ)对应的给定时间点的)自我话音活动的概率p(OV)。(非必需的)第Q+1个输出(PPQ+1)例如可表示“无关键词”或“填充符”。而Q个关键词类别之一可被分配给“无关键词”或“填充符”标示。

神经网络由多个权重参数(如权重矩阵W)表示。W中的权重例如在离线训练程序中确定，其中权重被迭代地调整使得网络输出与针对特定输入的正确输出匹配，例如参见[4]的DNN训练方法。OV检测可在训练程序期间校准。根据本发明的包括关键词检测器的关键词检出系统的训练的例子在图3D、3E中示出。

图3A示出了根据本发明的、实施为神经网络的关键词检出单元的实施例。图3A示意性地示出了深度神经网络(DNN,Ψ^*)，用于从包括时频表示(k,l)的电输入信号或其特有特征的L个时间帧X(k,l),l＝l’-(L-1),…,l’的输入向量确定在给定时间点(l’)特定关键词KWq,q＝1,…,Q+1的出现概率p(KWq,l)，其中k为频率指数及l为时间(帧)指数。在当前时间l＝l’的电输入信号或其特有特征(如倒谱系数或频谱特征等)称为“输入特征”并在图1中记为INF1,…,INFN_F，其中N_F为特征数量，而在图3A、3B中记为X(k,l')。输入信号INF(k,l)的L个(最后)时间帧(X(k,l))构成神经网络在给定时间点l＝l’的示例性输入向量并在图3A、3B中记为

目前时间帧(l’)和L-1个在前时间帧堆叠为向量并用作神经网络中的输入层(一起记为也可参见图3B中记为“上下文”的阴影线时频单元)。每一时间帧X(k,l’)包括电输入信号(或从其提取的特征)的K个值(例如K＝16或K＝24或者K＝64或K＝128)，例如图2B中的INF(k,l’),k＝1,…,K。该信号可通过其量值|X(k,l’)|表示(例如通过忽略其相位/>)，参见图3B。作为备选，输入向量可包括输入信号(时域)的覆盖适当时间段的时间样本。时间帧的适当数量与语音中固有的相关有关。在实施例中，与目前时间帧l＝l’一起考虑的L-1个先前的时间帧例如可对应于持续20ms以上如50ms以上如100ms以上如约500ms的时间段。在实施例中，考虑的时间帧数量(＝L)大于或等于4，如大于或等于10，如大于或等于24，例如在10-100的范围中。在本申请中，神经网络的宽度等于K·L，对于K＝64和L＝10，意味着输入层L1由N_L1＝640个节点(表示音频输入信号的32ms的时间段(对于20kHz的采样频率及每帧64个样本，并假设时间帧无重叠))。随后的层(L2,…,LN)中的节点数量(N_L2,…,N_LN)可大于或小于输入层L1的节点数量N_L1，且一般地，适应相应应用(考虑输入数据集的可用数量及神经网络将估计的参数数量)。在本例子中，输出层LN中的节点数量N_LN为Q+1(如≤20，或10或更小)，因为其包括概率估计器的Q+1个值p(KWq,l’)(q＝1,…,Q+1)，其中针对话音控制接口的Q个关键词中的每一个关键词各一个值及一个(可选的)值用于用户自我话音的检测或用于“填充符”(无关键词)的检测。在实施例中，每当听力装置的滤波器组提供输入信号的新时间帧时，神经网络被馈送新的输入特征向量。为降低计算复杂性(和功耗)，执行神经网络的频率低于每时间帧一次，例如每10个时间帧一次，或者低于每20个时间帧一次(如少于每20ms一次或少于每40ms一次)。优选地，在给定时间点馈给神经网络的上下文(输入特征向量)(在时间上)与先前的上下文重叠。在实施例中，神经网络的每一新执行之间的时间帧数量ΔL小于输入特征向量中的时间帧数量L(ΔL<L，例如ΔL/L≤0.5)以确保上下文重叠。

图3A用于图示任何类型的一般多层神经网络，如深度神经网络，在此体现为标准前馈神经网络。神经网络的深度(层数)在图3A中记为N并可以是任何数，通常适应所涉及的应用(例如受所涉及的设备如便携设备例如助听器的大小和/或电源容量限制)。在实施例中，神经网络中的层数大于或等于2或3。在实施例中，神经网络中的层数小于或等于10，例如在2到8的范围中或者在2到6的范围中。

图3A中图示的神经网络的节点用于实施神经网络的标准功能以使从在前节点到所涉及节点的分支的值同与相应分支相关联的权重相乘及将贡献加在一起作为层u节点v的和值Y’_v,u。和值Y’_v,u随后经历非线性函数f，从而提供层u节点v的合成值Z_uv＝f(Y’_v,u)。该值经使层u中的节点v与层u+1的节点连接的分支馈给下一层(u+1)。在图3A中，层u节点v的和值Y’_v,u(即在应用非线性(激活)函数以提供层u节点v的合成值之前)表达为：

其中w_p,v(u-1,u)指将应用于从层u-1中节点p到层u中节点v的分支的、层L(u-1)中节点p的权重，及Z_p(u-1)为层u-1中第p个节点的信号值。在实施例中，同样的激活函数f用于所有节点(然而并不必须如此)。示例性的非线性激活函数Z＝f(Y)在图3A中的插图中示意性示出。神经网络中使用的典型函数为修正线性单元(ReLu)、双曲正切函数(tanh)、sigmoid或softmax函数。然而，也可使用其它函数。此外，激活函数如ReLu函数可被参数化(例如以允许不同的斜率)。

神经网络的不同层的(可能参数化的)激活函数和权重w(可能及偏置参数b)一起构成神经网络的参数。它们表示在本发明的神经网络的相应迭代程序中(一起)优化的参数。在实施例中，同一激活函数f用于所有节点(这样，“神经网络的参数”由各层的权重构成)。在实施例中，至少对于神经网络的部分节点，未使用激活函数f。然而，激活函数的参数可被包括在优化过程中(例如与节点权重和/或偏置参数一起)。通常，在输出层中使用sigmoid函数进行二元判定。对于多类判定，例如可使用softmax。

通常，根据本发明的神经网络在离线程序中优化(训练)，例如使用人类的头和躯干的模型(如来自Brüel&Kjaer Sound&Vibration Measurement A/S的头和躯干模拟器(HATS)4128C)，其中HATS模型被“配备”听力装置(或一对听力装置)以拾取(声学传播的)训练数据。在实施例中，用于(可能在离线程序中)训练神经网络的数据可在用户佩戴听力装置或听力系统的同时拾取和存储，例如跨较长时间段，如几天、几周甚至几个月。前述数据例如可存储在辅助装置中(如专用、如便携存储装置，或者存储在智能电话中)。这具有训练数据与用户的正常行为和声环境体验有关的优点。理想地，应使用与用户的正常行为和声环境体验有关的训练数据。

OV检测也可用于限定在用户的句子中我们将在哪里寻找关键词。例如，用户不可能计划在句子的中间触发关键词(如唤醒词或命令词)。OV检测可使关键词仅在句子的开始进行检测。例如，可强加规则：仅可在前0.5秒或前1秒或前2秒未检测到自我话音(但“现在”检测到)时才可检测关键词。与例如600ms范围内的任何时间相反，对于我们的KWS方法，这还具有关键词总是在已检测到OV时开始的优点。相较于寻找可能在一时间范围内的任何时间开始的关键词，知道关键词何时开始有利，例如参见图7A-C。可能需要在检测到OV之前的一定时间开始将用于KWS的音频存储在缓冲器中，因为OVD可能包含一定时延。例如，如果花200ms检测OV，可能错过关键词的前200ms，除非已考虑该时延，例如参见图8A-D。

在图3A中，神经网络例示为前馈网络，但也可使用其它神经网络配置，例如卷积网络(CNN)、递归网络或其组合。

在该阶段可使用OV信息(参见图1中的OV-Info2)。在系统的一实例中，OV信息可简单地用作KWS系统的又一输入(其权重W在训练过程期间确定以利用该OV输入)。在系统的另一实例中，OV信息可用于提高输出后验概率的质量。具体地，后验概率可根据OV信息的值进行加权(如缩小)。以这种方式使用OV信息相较不使用OV信息的系统提高性能。

图3C示出了根据本发明的关键词检出系统KWSS的实施例。图3C对应于图1的一部分，包括关键词检测器KWD、后处理模块PostP和判定模块KW-DEC。关键词检测器KWD可通过展现两层以上(即多个隐藏层，例如总共3或4层以上)的神经网络(NN)如深度神经网络(DNN)实施。神经网络可通过权重w(v,u)定义(例如表达为矩阵W，其元素为权重w(v,u)，其中v为节点编号及u为层编号，例如参见图3A)。图3C的关键词检测器的神经网络例如可由通过在听力装置正常运行之前的训练期优化的权重W*实施(参见图3D、3E)。关键词检出系统KWSS可形成根据本发明的听力装置的一部分，如结合图4所述。在图3C的实施例中，后处理单元PostP包括用于辨别具有最大(后验)存在概率(PPx，对应于关键词x)的关键词的最大运算器(MAX)。关键词检出系统还包括自我话音检测器OVD，用于检测当前输入声音信号中是否或以何种概率p(OV)存在用户自我话音。后处理单元PostP还包括组合单元(如相乘单元“X”)，用于将自我话音存在概率(OVPP＝p(OV))与具有最大存在概率的关键词x的关键词存在概率PPx进行组合。所得的“最可能关键词x的精化的后验概率”(PPRx被馈给判定单元KW-DEC。判定单元例如配置成将精化的后验概率PPRx与阈值PPR_TH(例如大于或等于0.5或0.6或0.7)进行比较，并提供所得的关键词(或关键词编号)或者在不满足判定单元的判据时提供“无关键词”。

图3D示出了包括用在图3C的关键词检出系统KWSS中的神经网络的关键词检测器KWD的训练程序的第一实施例。图3D的训练设置类似于图3C中所示的可运行的关键词检出系统。在图3D的训练设置中，在训练中不包括自我话音检测器。换言之，该关键词检测器KWD的神经网络基于非用户特定数据进行训练。训练例如可通过使用数值优化方法如(迭代)随机梯度下降(或上升)或自适应矩估计(Adam)进行。由关键词检测器估计的、当前说出的关键词与“真值”(当前音频序列的已知正确关键词)比较，二者的差度量(ΔE)通过迭代而最小化，其中神经网络的权重根据所选的数值优化方法改变。训练数据例如可包括1)用户(在不同SNR，即在多个不同的或多或少有噪声的环境中)口说的关键词；2)用户口说的非关键词；3)包括非用户说出的关键词的外部声音；4)根本没有声音(安静)。当误差对于真实训练数据(图3C中的数据“真值”)的全数据库均已最小化时，权重W*被冻结并载入到关键词检测器从而在运行期间在听力装置中使用。该训练程序具有独立于特定自我话音检测器的优点(及原则上可基于包括有关关键词的口说版本和上面指明的其它数据的一般数据库)。

图3E示出了包括图3C的关键词检出系统中的神经网络的关键词检测器的训练程序的第二实施例。图3E的训练设置类似于图3C中所示的可运行的关键词检出系统和图3D中的训练设置。与图3D的训练设置的差异在于，图3E的训练设置包括来自实际的(及可能非理想的，即偶尔出错的)自我话音检测器OVD的、关于当前自我话音语音存在概率(OVPP)的输入p(OV)。当前自我话音语音存在概率p(OV)在相乘单元“X”中与(来自MAX运算器的)关键词x的后验概率PPx相乘以提供关键词x的精化的后验概率PPRx。关键词x的精化的后验概率PPRx被馈给检测单元KW-DEC进行评估(如结合图3D指明的)。该训练程序具有在计算神经网络的优化的权重W*时考虑测得的自我话音存在概率的优点(从而在该任务不“浪费”网络的自由度(增大的复杂性))。缺点在于取决于在训练期间使用的实际自我话音检测器。

作为备选，自我话音检测可基于表示话音控制接口的Q个关键词的时间段的字典。这些时间段可按时域波形(参见图7B、8B或8D)和/或谱图(时频表示，参见图3B或8D)获得。每一关键词可由用户在不同声环境(如具有不同SNR)中以不同发声努力说出。在使用期间，听力装置的当前电输入信号为分析的、可能包含用户口说的话音控制接口的关键词的时间段。这些候选时间段与字典的关键词元素比较及根据比较判据(例如包括阈值距离度量)确定可能的匹配。字典可存储在听力装置可访问的存储器中(例如位于听力装置中或辅助装置中(经链路)或经网络的服务器上(如“云中”))。

后处理(PostP)

(可选的)后处理模块PostP可使来自关键词检测器KWD的后验概率(PP1,…,PPQ(or PPQ+1))精化。其目的在于提高后验概率估计量的质量因而最终实现更好的KWS性能。在后处理模块中发生的精化可包括后验概率的1)平滑(跨时间求平均)、2)剪裁(如将低概率设定为0)、3)限制、4)计算中间值等运算。在实施例中，如果在多个连续时间帧中的概率高(高于阈值)，则(认为)检测到唤醒词(或命令词)。

后处理模块PostP也可将序列结构加入到KWS过程中，例如(提供减小后验概率而)而不接受某些关键词序列。

在该阶段可使用OV信息(如OV检测)(参见图1中的OV-Info3)。在系统的一实例中，OV信息可用作关于输出后验概率究竟是否有价值的标示(如果OV信息指明不存在OV，后验概率例如可被设定为0)。在系统的另一实例中，其中就OV活动的概率而言OV信息可用，OV概率和KWS后验概率可相乘以形成精化的后验概率。显然，可预见OV信息与KWS输出(例如后验概率)的几种其它有意义的组合。以这种方式使用OV信息相较于未使用OV信息的系统提高性能。

后处理模块PostP为可选模块(参见图1中的点线框)。存在有意义的系统，而其中没有后处理模块。

最终KWS判定(KW-Dec)

最后，基于(可能精化的)后验概率(PPR1,…,PPRQ(或PPRQ+1))，通常通过与阈值比较，进行是否检测到预定关键词的判定。该判定为a)在给定时间点是否说出关键词(唤醒词/命令词)(参见图3A中的编号l’)，如果是，b)其为哪一关键词。如上所述，可使用OV信息(参见图1中的OV-Info4)来引导判定(以确保关键词是由听力装置用户说出，例如听力装置适应的特定用户(如果是))。所得的关键词估计器KWx(可能和/或该估计器的概率p(KWx))由KW判定单元KW-Dec提供。在未检测到关键词的情形下，这可被标示为KWQ+1(和/或对应的概率，p(KWQ+1))。作为备选，第Q+1个输出可表示存在用户话音的概率p(OV)(或OVPP)。

显然，该过程可在双耳听力系统的两个助听装置中独立进行，及它们的自我话音/KWS判定可进行比较/合并(经两个HA装置之间的耳间链路)从而提高准确度。

用户自我话音检测

图1使用术语OV信息(OV-info1,OV-Info2,OV-Info3,OV-Info4)。该术语应当理解为任何信号(即时间的函数)，其指明用户是否说话。该信息例如可以是时变语音存在概率或者指明OV活动(或无OV活动)的二元信号。

用户的OV活动可使用用于话音活动检测的标准方法进行检测，例如基于调制的方法。

然而，一般地，如果OV检测问题的特殊特性得以考虑，则可实现更好的性能。图1中标示的OV信息可使用下面的一个或多个方法发现：

a)专用OV传感器，例如

i)位于特殊位置的、目的在于检测/取得自我话音的传声器；

ii))骨导传感器如加速计等；

iii)EEG电极，例如用于检测与用户的OV语音产生相关联的肌肉活动；

iv)PPG(光体积描记)传感器；

v)OV活动也可通过佩戴的仪器检测器进行检测或排除(例如基于加速计、陀螺仪、双耳通信、嘴巴的视频录制等)。如果该仪器明显未被用户佩戴，KWS无关且应被关闭(从而例如节能)。

b)单通道/传声器(频)-时话音活动检测器(包括基于调制深度的传统方法，但也包括基于DNN的系统)。

c)多通道/传声器空间-频域方法。自适应波束形成系统在OV活动时趋于指向最大声活动的方向，自适应波束形成器趋于“指向”OV源且这可进行检测。OVD例如可基于最大似然方法(例如参见EP3413589A1)。

d)多通道/传声器空间-频域-时域方法，包括用于取得噪声降低的OV信号的自我话音波束形成系统，其后为单通道话音活动检测器(参见上面的b))。

e)多通道/传声器空间-频域-时域系统，例如具有多个传声器输入的DNN系统，经训练而将OV活动的后验概率给出为输出。。

f)在双耳情形下，上面的任何方法可跨用户的耳朵组合，例如通过在两个助听装置之间(经通信链路)无线交换信息/判定从而提高最终判定的准确度。KWS可基于两个单耳系统(的最终判定)的组合(例如通过逻辑判据，如“与”运算)。

在听力装置应用中，来自传声器(Mic1,…,MicM)的电输入信号(IN1,…,INM)可形成听力装置的正向通路的输入，从而处理由电输入信号提供的声音信号(例如基于波束形成器滤波器提供的电输入信号的(线性或非线性)组合)。正向通路例如(除波束形成器滤波器之外)可还包括用于将一个或多个处理算法应用于正向通路的信号的信号处理器以及用于将可感知为声音的刺激提供给用户的输出单元。图4中示出了包括图1的关键词检出系统KWSS的听力装置的示例性框图。

图4示出了根据本发明的包括关键词检出系统的听力装置的实施例。图4的听力装置HD如助听器包括第一和第二传声器(Mic1,Mic2)，分别提供表示听力装置环境中的声音的第一和第二电(如数字化)输入信号(IN1,IN2)。听力装置配置成佩戴在用户耳朵处或耳朵中。听力装置包括两个传声器、两个组合单元“+”的正向通路，两个组合单元用于将第一和第二反馈通路估计量(EST1,EST2)分别从第一和第二电输入信号减去从而提供第一和第二反馈校正的输入信号(ER1,ER2)。正向通路还包括第一和第二分析滤波器组(FB-A1,FB-A2)，用于将第一和第二反馈校正的(时域)输入信号(称为误差信号)(ER1,ER2)分别转换为第一和第二子频带信号(X1,X2)。正向通路的子频带信号在图4中由粗线箭头标示。正向通路还包括波束形成器滤波单元BFU，用于根据第一和第二(反馈校正的)输入信号(ER1,ER2)提供空间滤波的信号Y_BF。波束形成器滤波单元BFU例如可配置成实质上保留来自目标方向的信号不被衰减，而衰减来自其它方向的信号，例如自适应衰减佩戴听力装置的用户周围的噪声源。正向通路还包括处理器HAG，用于将一个或多个处理算法应用于波束成形信号Y_BF(或从其得出的信号)，例如用于根据用户需要(如听力受损)将随频率和电平而变的压缩(或放大)应用于正向通路的信号的压缩放大算法。处理器HAG将处理后的信号Y_G提供给合成滤波器组FB-S，从而将子频带信号Y_G转换为时域信号OUT。正向通路还包括扬声器SP，用于将电输出信号OUT转换为计划传播到用户的耳膜的输出声音。图4的听力装置HD的实施例包括反馈控制系统，用于提供从扬声器SP分别到第一和第二传声器(Mic1,Mic2)的反馈通路的第一和第二估计量(EST1,EST2)，及通过将第一和第二反馈通路估计量(EST1,EST2)分别从第一和第二电输入信号(IN1,IN2)减去而使第一和第二电输入信号中的反馈最小化(或消除)。这通过第一和第二求和单元“+”进行，从而提供第一和第二反馈校正的输入信号(ER1,ER2)。反馈通路估计量(EST1,EST2)由第一和第二自适应滤波器提供，每一自适应滤波器包括自适应算法(ALG1,ALG2)和可变滤波器(FIL1,FIL2)。可变滤波器例如为线性时不变滤波器以估计反馈通路，其滤波器权重随时间更新(参见信号UP1和UP2)。滤波器权重(系数)的更新例如可使用随机梯度算法进行计算，包括某一形式的最小均方(LMS)或归一化LMS(NLMS)算法(在此通过单元ALG1和ALG2)。它们二者均具有使“误差信号”(在此分别为ER1和ER2)的均方最小化的特性，NLMS算法另外使滤波器更新相对于参考信号(在此为输出信号OUT)的欧几里得范数的平方归一化。第一和第二反馈校正的子频带信号(X₁,X₂)(除波束形成器滤波单元BFU之外还)馈给如图1中所示及结合图1、2A、2B、3A、3B所述的根据本发明的关键词检出系统KWSS。

听力装置HD如关键词检出系统KWSS可包括用于支持自我话音检测的多个检测器(参见图4中的检测器单元DET)。有关检测器例如可以是振动敏感检测器(如加速计、传声器等)、光敏传感器(如摄像头、PPG)、生物传感器(如EEG传感器)、仪器在耳上检测器(检测听力装置当前是否由用户佩戴)、反馈检测器等。一个或多个检测器提供对应的传感器信号(参见图4中的信号OV-Sense)。听力装置如检测器单元DET或关键词检出系统可包括专用自我话音检测器，用于估计给定输入声音(如话音，如语音)是否(或以何种概率)源自系统用户的话音。在实施例中，自我话音检测器适于能够将用户自我话音与另一人的话音及可能与非话音声音区分开。自我话音检测器可配置成检测听力装置针对其进行验配(例如以补偿听力受损)的特定用户的话音。自我话音检测器例如可作用于第一和第二(可能反馈校正的)电输入信号中的一个或多个和/或空间滤波的信号(例如来自自我话音波束形成器，例如参见图2B)。自我话音检测器可配置成通过来自一个或多个检测器的信号影响其(OV或无OV，或者p(OV))标示。关键词检出系统KWSS可包括关键词检测器KWD(例如参见图1、7A、8A、9)，其配置成确定当前电输入信号是否(或以何种概率p(KWx))包括Q(如≤10)个预定关键词中的特定关键词(KWx)。在实施例中，关于当前电输入信号是否或以何种概率包括特定关键词且由听力装置用户说出的判定被确定为KWS算法(如神经网络，例如参见图3A、3B)和自我话音检测器的同时输出的组合(如二元输出的“与”运算或概率输出的概率的积)。

关键词检出系统KWSS在给定时间点的结果(如KWx和/或p(KWx))被馈给话音控制接口VCT，其配置成将给定检测到的关键词转换为用于控制听力装置HD和/或另一装置或系统的功能的命令(BFctr,Gctr,Xcmd)。关键词之一可与控制听力装置HD的波束形成器滤波单元BFU有关，例如全向或定向模式(例如“向后定向”或“向右定向”，以给出波束形成器的当前优选方向，不同于默认方向如视向)，参见信号BFctr。同一或另一关键词可与控制听力装置HD的处理器HAG的增益有关，(如“音量减小”或“音量增大”以控制听力装置的当前音量)，参见信号Gctr。同一或另一关键词可与控制外部设备或系统有关，参见信号Xcmd。听力装置的其它功能可经话音控制接口(和/或经检测器如自我话音检测器)影响，例如反馈控制系统，例如是否应启动或禁止滤波器系数的更新，和/或是否应改变(如增大或减小)自适应算法的自适应速率。命令可经听力装置中的适当发射器(Tx)和天线(ANT)电路传给另一装置或系统。此外，可使用用户口说的命令进入(或离开)电话模式(例如口说“电话”从而接(或关闭)电话呼叫)，其中用户自我话音由专用自我话音波束形成器拾取并传给电话机，音频信号(Xaud)通过适当的天线和接收器电路(ANT,Rx)从电话机接收并经听力装置的输出单元(如扬声器，在此为SP)呈现给用户。优选地，听力装置的关键词检测器能够辨别有限数量的关键词以基于本地处理能力提供听力装置的实质特征的话音控制，如程序切换、音量控制、模式控制等(不依赖于访问与听力装置通信的服务器或另一装置)。在实施例中，另一装置如智能电话或类似设备(如经另一设备的API)上的“个人助理”(如Apple设备的“Siri”或基于Android的设备的“Genie”或用于Google应用的“Google Now”或“OK Google”或者用于Amazon应用的“Alexa”)可经听力装置的话音控制接口启用。听力装置的关键词检测器可配置成将该唤醒词(如“Genie”)作为关键词之一进行检测，在检测到时，将其(或另一命令，或用户随后说出的词或句子，或通信伙伴)传给智能电话(如APP，如用于控制听力装置的APP)，个人助理或翻译设备(例如通过另一随后的关键词如“翻译”启动)从而可从其启动。

图5A和5B示出了用于根据本发明的听力装置的关键词检出系统的包括关键词的第一和第二示例性语音波形。这些图中的每一个示意性地示出了包括语音和语音停顿的信号的时域波形(声压级(SPL)[dB]-时间[s]，(从t＝0到t＝1.5s))。图5A和5B中的每一个包括由相应语音停顿分开的三个语音元素。这些语音元素的中间语音元素表示关键词(在此记为KW1，例如用于话音控制接口的唤醒词)。左和右语音元素不是关键词。中间关键词KW1通过持续时间分别为ΔT_pre-KW和ΔT_pro-KW的语音停顿(可能包含噪声)在时间上与在前的(左)和在后的(右)语音元素分开。图5A和图5B的不同之处在于语音停顿的长度。图5A示出了在关键词KW1之前和之后相对短(≤100ms)的语音停顿，而图5B示出了在关键词KW1之前和之后相对长(≥250ms)的语音停顿。关键词检测器可配置成，在语音元素前面的语音停顿长于预定阈值时，如ΔT_pre-KW,th≥0.5s或≥2s，则仅考虑语音元素(或检测到的关键词作为有效关键词)进行关键词检测。关键词检测器还可配置成，在语音元素后面的语音停顿长于预定阈值时，如ΔT_pro-KW,th≥0.5s或≥2s，则仅考虑语音元素(或检测到的关键词作为有效关键词)进行关键词检测。

图5C(A)示出了在句子开始包括关键词的口说自我话音句子的时域波形-时间的实际例子。示例性自我话音检测器的输出在图5C(B)中示出。可以看出，在词之间不必然检测到“自我话音”。作为KWS的启动者，如果自我话音判定在已检测到自我话音之后(可能在已提供“无自我话音”标示之后)暂时保持因而有利。藉此避免波动(正)。这在图5C(C)中示出。由于关键词通常在句子开始时说出，时间窗口可短于说出的句子，如图5C(D)中所示。例如，如果关键词之后为命令词，该窗口可被延长。此外，该窗口(此时我们寻找关键词)可在检测到自我话音之前一定时间开始，因为检测到的自我话音相较于自我话音句子的起始可能延迟(例如参见图8A-8D)。这也在图5C(D)中示出，参见时延Δt_MEM。图5D示出了示例性的自我话音语音波形(OV语音)-时间(t[s])，其图示了根据本发明的用于检测唤醒词的方案。图5D示意性地示出了其中能进行唤醒词检测的时间窗口。该时间窗口在非OV检测(N-OV)的某一持续时间之后开启，即在自我话音停顿期间。时间段由记为WWD#1,WWD#2,WWD#3的实线矩形标示。时间窗口在已检测到自我话音之后的某一时间段(WWDet)关闭(如电输入信号的时间段周围的实线矩形标示的)。自我话音检测和无自我话音检测的完全时间段被(分别由OV和N-OV)标示。如图5D中所示，唤醒词检测器考虑的时间窗口(由实线矩形标示)包括在自我话音检测前面的非OV检测时间段(参见图5B中的ΔT_pre-KW)及包含自我话音的时间段(在图5D中记为WWDet)。

图6A、6B、6C、6D示出了根据本发明的关键词检测器KWD的第一、第二、第三和第四示例性输入和输出。所有四个实施例均将检测到的关键词KWx(及非必需的自我话音标示KW(Q+1))提供为关键词检测器KWD的输出。作为备选或另外，Q个关键词中的每一关键词的概率p(KWx)及(非必须地)自我话音存在概率(OVPP)被提供为输出，x＝1,…,Q,Q+1。所有四个实施例均在频域向关键词检测器KWD提供输入(如粗箭头标示的，参见图2B的(‘OV-Info1’))。在图6A中，M个电输入信号(如来自M个传声器(例如参见图1))被提供为关键词检测器KWD的输入。图6B的实施例等同于图6A的实施例，除另一自我话音输入(OV-Info)被提供给关键词检测器KWD之外。OV-Info信号可提供自我话音标示-时间关系，例如参见图5C、7C、8C，从而限定和/或控制关键词检测过程(例如参见图7A、8A、9)。在图6C中，自我话音波束形成器(例如参见图2B)的输出Y_OV被提供为关键词检测器KWD的输入。作为备选，另一噪声降低的自我话音信号Y_OVNR(如后滤波器的输出，如图2B中的SC-NR)可被用作关键词检测器的输入。使用来自自我话音波束形成器的信号是因为用户自我话音可以比各个电输入信号(IN1,…,INM)中的任何信号更好的质量提供。图6D的实施例等同于图6C的实施例，除另一自我话音输入(OV-Info)被提供给关键词检测器KWD之外。

包括输入信号(IN1,…,INM)的多个时间帧或Y_OV或Y_OVNR的输入向量可被馈给关键词检测器的神经网络，例如参见图3A、3B。该神经网络优选基于包含由用户和非用户在多个不同声环境说出的关键词和非关键词的已知组合的数据集进行训练。

图7A示出了根据本发明实施例的用于包括从自我话音检测器OVD接收控制输入OVctr的开-关控制器ON/OFF-CTR的话音控制接口的关键词检测器KWD。该关键词检测器KWD将一个或多个输入信号INx(如来自一个或多个传声器)或自我话音波束形成器的输出Y_OV或用于进一步降低来自自我话音波束形成器的自我话音信号Y_OV中的噪声的后滤波器的输出Y_OVNR(参见图6A、6C)接收为输入。关键词检测器的部分或所有输入信号也馈给自我话音检测器OVD，其提供自我话音标示OVctr，从而指明关键词检测器的当前输入(音频)信号是否或以何种概率包括用户自我话音。自我话音标示OVctr被馈给用于控制关键词检测器的启用或禁用的开-关控制器ON/OFF-CTR。开-关控制器ON/OFF-CTR例如配置成仅在自我话音标示OVctr指明存在用户自我话音时启动关键词检测器KWD(在禁用关键词检测时可能具有一定滞后/延迟以避免太快速/频繁的开-关-开-关事件)。图7B示意性地示出了包括语音和语音停顿，具体地，包括由相应语音停顿分开的三个语音元素(参见结合图5A、5B所述)的信号的示例性时域波形(声压级(SPL)[dB]-时间[s])。所有三个语音元素OVa,OVb和OVc均由听力装置用户说出。中间语音元素OVb假定为预定关键词之一(KW1)。图7C示出了来自自我话音检测器OVD的自我话音标示OVctr对应于图7B的波形的时间相干性。自我话音标示OVctr等于跨所示时间段的波形(反映该波形由听力装置用户说出)，关键词检测器因而被启动以分析语音元素并检测中间语音元素OVb提供的预定关键词(KW1)。自我话音检测器的时间常数可配置成使能根据应用在OV检测和非OV检测之间快速切换(参见图中的虚线部分)。小的时间常数(快速检测)可能有利，例如使能检测唤醒词(或其它关键词)之前和之后的小非OV时间段。

图8A示出了根据本发明实施例的用于话音控制接口的关键词检测器KWD，其包括从自我话音检测器接收控制输入OVctr的开-关控制器ON/OFF-CTR及用于存储关键词检测器的输入信号(Inx或Y_OV或Y_OVNR)的多个连续时间帧(例如参见图3A、3B)的存储单元MEM。图8A的实施例等同于图7A的实施例，除了关键词检测器的输入存储单元MEM之外。输入存储单元使能“构建”(如神经网络的)输入向量(例如参见图3A、3B)，其包括关键词检测器的输入信号的当前时间帧之前的多个时间帧(使得关键词检测器KWD具有适当的输入信号“历史”以分析关键词)。输入存储单元MEM还使自我话音检测器OVD能在第一输入向量呈现给关键词检测器之前向开-关控制器ON/OFF-CTR提供自我话音标示OVctr(使得开-关控制器ON/OFF-CTR能及时启动关键词检测器以接收包括自我话音语音元素的第一输入向量)。

图8B示出了用于根据本发明的关键词检测器KWD的包括多个关键词(KW1,KWx)的示例性语音波形。图8B示意性地示出了包括语音和语音停顿，具体地，包括由相应语音停顿分开的三个语音元素(参见结合图5A、5B和7A所述)的信号的示例性时域波形(声压级(SPL)[dB]-时间[s])。在图8B中，第一语音元素(记为NOV，非自我话音)不是由听力装置用户说出，而第二和第三语音元素OVa,OVb由听力装置用户说出。第二语音元素OVa假定为听力装置的话音控制接口的唤醒词(OVA＝KW1)，及第三语音元素OVb为预定关键词(KWx)之一。

图8C示出了来自图8A的关键词检测器的、对应于图8B的语音波形的控制输出，存储单元的输入信号直接馈给自我话音检测器OVD，从而使自我话音标示OVctr能反映图8B的(未被延迟的)输入信号。用户自我话音在时间t1检测到，其中由用户口说的第一语音元素在输入信号INx(OVctr＝‘1’)中出现。在自我话音标示OVctr反映用户自我话音不存在之前(OVctr＝‘0’)。自我话音检测器的时间常数可配置成使能根据应用在OV检测和非OV检测之间快速切换(参见图中的虚线部分)。

图8D示出了(示意性)示例性输入向量，包括针对话音控制接口的两个示例性关键词的、由存储器MEM提供的、关键词检测器KWD的输入向量的多个时间帧的连续频谱。包括由关键词检测器(受自我话音检测器控制)辨别的第一和第二关键词(KW1,KWx)的输入信号的L个连续时间帧的谱图在下部示意性示出。在图8D的上部，标示由用户说出的(输入信号INx的)输入(音频)波形部分但相较于图8B延迟以包括存储器MEM的时延从而建立关键词检测器的输入向量。

图9示出了根据本发明的关键词检出系统KWSS的实施例。关键词检出系统KWSS配置成检测呈现给关键词检出系统的当前音频流(INx(或Y_OV或Y_OVNR等))中是否或以何种概率存在特定关键词KWx(x＝1,…,Q)。在图9的实施例中，关键词检出系统包括拆分为第一和第二部分(KWDa,KWDb)的关键词检测器KWD。关键词检测器的第一部分(KWDa)包括唤醒词检测器WWD，记为KWDa(WWD)，用于检测听力装置的话音控制接口的特定唤醒词(KW1)。关键词检测器的第二部分(KWDb)配置成检测有限数量的关键词中的其余关键词(KWx,x＝2,…,Q)。听力装置的话音控制接口配置成由佩戴听力装置的用户说出的特定唤醒词启动。专用唤醒词检测器(KWDa(WWD))例如位于听力装置中。其余Q-1个关键词可由关键词检测器的可位于听力装置中或另一装置(如智能电话，或可经智能电话访问的服务器)中的第二部分(KWDb)检测。关键词检测器的第一和第二部分的控制遵循结合图8A所述的路线。然而，在图9的实施例中，关键词检测器的第二部分(KWDb)根据自我话音标示OVctr以及关键词检测器的第一部分(KWDa)(唤醒词检测器)进行的唤醒词(KW1)的检测而启动。关键词检测器的第一和/或第二部分可实施为相应的神经网络，其权重在使用之前(或在训练期间、在使用听力装置的同时)确定并应用于相应网络。

根据本发明的听力装置的例子：

图10示出了包括具有有限的计算能力并经相应通信链路(WL1,WL2)无线连接到外部设备ExD的第一和第二听力装置(HD1,HD1)的双耳听力系统。关键词检测算法可部分在听力装置(HD1,HD2)中运行及部分在外部设备ExD中运行。听力系统(如一个或两个听力装置，如与外部设备协作)从而可实施话音控制接口。外部设备ExD例如可配置成运行用于实施用户接口UI的应用(APP)，用户接口用于控制听力系统和/或用于显示与听力系统有关的信息如关键词检测的结果、话音命令的结果等。应用可配置成使能从听力装置接收外部设备(如智能电话)的个人助理的唤醒词，例如“Alexa”，及可能的、由用户说出的另外的词，和/或其在外部设备中的进一步处理。

图11A示出了根据本发明的与外部设备ExD通信的听力装置HD的实施例。音频分析及传输音频均可耗用听力装置的电池功率。因此，希望找到好的平衡，即使用外部设备进行计算代价高的计算同时使将在设备之间传输的数据量(HD-res)最小化。听力装置包括“音频分析”处理器，其基于来自传声器MIC的电输入信号IN提供用于使能或禁止将音频信号传给外部设备的传输控制信号TxCtr，参见单元“将音频或音频特征传给外部设备”。所得的信号(HD-res)(或不)根据传输控制信号TxCtr传给外部设备。在图11A的实施例中，所得的信号例如可包括输入缓冲器的当前内容(其可以是传入的音频信号或从其提取的特征)。外部设备可将分析的结果ExD-res传回到听力装置或者将判定传回到听力装置，如音量改变或程序改变。

在本发明中，为在(具有更大处理能力的)外部设备中进一步分析的目的，提出了确定何时传输(及何时不传输)(如由低功率装置例如听力装置拾取的)音频信号或从该音频信号得出的特征的方案。

一种选择是在外部设备中进行所有处理。然而，这将需要数据恒定地传给外部设备。因此，我们提出在启动传输之前进行音频信号的预分析(例如参见图11A)。

在本发明的一方面，能检测其后跟随话音命令的唤醒词的关键词检出系统完全或部分包括在听力装置中。然而，利用低功率检测系统启动从听力装置传输到外部设备进行进一步分析的想法可能适合不同于关键词检测的其它应用如声音场景检测。

听力装置例如可配置成在检测到用户自我话音时仅传输音频，如图11B中所示。仍然，如果人说得较多，可能有太多数据要传输。由于唤醒词通常在句子开始时说出，第二判据可以是仅传输句子的第一部分如前几秒。数据可持续存储在缓冲器如循环缓冲器中，并基于自我话音的检测而传给外部设备。音频数据例如可在自我话音检测之前的预定时间段(如约100ms)开始传输，及传输的数据的持续时间例如可覆盖电输入信号的一时间段，如高达几秒，例如两秒。这种情形在图11B中示出，其与图11A一样，除了“音频分析”模块具体包括“自我话音检测”模块之外，其提供用于启动或禁止输入缓冲器的当前内容(可以是传入的音频信号或从其提取的特征)传给外部设备ExD的传输标志(传输控制信号TxCtr)。

作为另一备选，传输判据可进一步细化。除自我话音触发的传输之外或者作为备选，传输判据可通过在听力装置中实施小的唤醒词系统(例如基于小的神经网络)而改进。这在图11C中示意性示出。图11C示意性地示出了如图11A或11B中的、根据本发明的听力装置的一部分的第三实施例，其中传入信号的分析包括唤醒词检测。简单的唤醒词检测可用于提供传输控制信号TxCtr。由听力装置的唤醒词检测器辨别的唤醒词(更确切地说，基于其进行检测的音频数据)可在外部设备中进一步分析以实现可接受的准确度。优选地，自我话音检测可以是听力装置的“简单的唤醒词检测”系统的一部分。外部设备ExD例如可与云服务连接从而进行(如来自听力装置的音频数据的)再进一步的分析。

“简单的唤醒词检测”系统例如可具有高命中率(例如接近100％)，但假警报率也高。通过在外部设备中进一步分析，可使唤醒词检测的假警报率最小化。外部设备也可包含另一自我话音检测器，相较于仅听力装置的自我话音检测器，可实现更好的自我话音检测。外部自我话音分析例如可基于讲话者的自我话音的不同特征。外部设备可与云服务连接从而进行更进一步的分析。

在听力装置HD的本地小唤醒词检出算法已检测到唤醒词但被外部设备ExD中的(假定更大和更好的)唤醒词检测器推翻的情形下，外部设备可向听力装置发送反馈信号ExD-res，通知其本地唤醒词检出算法不同意其判定。该信息可用于重新训练/调整“简单的唤醒词检测”系统以改善其表现。这样，听力装置HD的“简单的唤醒词检测”系统可改善其表现从而接近外部设备ExD中的先进唤醒词检测器的表现。

图12A和12B示出了根据本发明的包括听力装置HD和外部设备ExD的听力系统的相应实施例。图12A和12B与图11B的实施例有关，示出了根据本发明的听力装置(的一部分)，包括基于传入音频信号的分析控制音频数据或从其得出的数据向外部设备的传输，该分析包括用户自我话音的检测。听力装置HD例如可配置成在来自传声器MIC的电输入信号IN中检测到用户自我话音时仅传输音频(HD-res)。传输的音频可以是电输入信号IN本身或者其一时间段(或所选的频带)或从其得出的特征(音频特征)，参见单元“将音频或音频特征传给外部设备”，同样在图11B中示出。然而，在图12A和12B的实施例中，外部设备ExD包括提供表示外部设备处的环境中的声音的外部电输入信号INex的传声器Mx。因此，外部设备中进行的进一步分析基于(或可基于)来自听力装置的音频输入HD-res以及外部电输入信号INex(参见单元“进一步分析”)。进一步分析的结果可经信号ExD-res反馈回给听力装置HD并在该听力装置中使用，用作控制或增强信号。

图12A和12B的实施例的目标是使得外部设备ExD进行的进一步分析在处理(还)基于外部设备的本地传声器Mx时最佳地工作。在图12A和12B的实施例中，听力装置HD(的如传声器)的频率响应被校准从而具有与外部设备ExD中的传声器Mx的响应同样的响应(或特性)。校正(体现在单元“校正传声器响应”中)可实施在听力装置HD中(图12A)或外部设备ExD中(图12B)。

图13示出了根据本发明的包括听力装置和外部设备的听力系统，其中关键词检测的元件被示出在听力装置的话音控制接口的上下文中。该听力系统包括结合图9所示和所述的关键词检出系统KWSS。在图13的实施例中，关键词检出系统KWSS在听力装置HD与外部设备ExD之间分割以针对相应设备的可用功率和计算能力优化性能。在图13中，关键词检出系统配置成支持或实施话音控制接口VCT。关键词检出系统的包括唤醒词检测器KWDa(WWD)的第一部分KWSSa(由记为KWSSa的虚线矩形包围)体现在听力装置中。唤醒词检测器KWDa根据来自自我话音检测器OVD的控制信号OVctr启动(参见到唤醒词检测器KWDa的ON/OFF-CTR接口)。自我话音控制信号OVctr和检测到的唤醒词KW1被转发给听力装置的发射器Tx以连同检测到的唤醒词KW1(如“唤醒奥迪康”等)一起传给外部设备ExD(参见到所述发射器Tx的Tx-CTR接口)。检测到的唤醒词KW1还被转发给话音控制接口VCT从而启动话音控制接口(参见到话音控制接口VCT的ON/OFF-CTR接口)。听力装置包括自我话音波束形成器OVBF，用于基于来自输入单元IU(例如包括两个(以上)输入变换器如传声器)的两个电输入信号(IN1,IN2)的组合估计用户自我话音。听力装置可包括存储缓冲器MEM/BUF如循环缓冲器，用于存储至少一电输入信号或其处理后版本的某一持续时间的当前时间段，在此为(波束形成的)自我话音信号Inx(如空间滤波的自我话音信号Y_OV或空间滤波的且进一步降噪的信号Y_OVNR)。包括用户话音的估计量的信号INx被馈给存储缓冲器，其使能(暂时)存储音频(等于输入信号INx或从输入信号得出)的某一长度如高达5s的时间段，及例如根据传输控制信号传给外部设备。从而有利于包括用户自我话音的时间段及没有自我话音的在前时间段(如100ms或更长)(其可指明唤醒词或关键词)的辨别。

关键词检出系统的包括更一般的关键词检测器KWDb的第二部分KWSSb体现在外部设备ExD中，其例如能够辨别用于听力装置的话音控制接口VCT的多个命令词KWx。关键词检出系统的第二部分KWSSb的启动例如取决于自我话音控制信号OVctr和/或唤醒词KW1的检测(参见到唤醒词检测器KWDb的ON/OFF-CTR接口)。外部设备包括无线接收器Rx，其连同听力装置的发射器Tx一起使能在两个设备之间建立无线链路WL(从HD到ExD)。类似地，从外部设备ExD到听力装置HD的无线链路WL可由外部设备的无线发射器Tx和听力装置的接收器Rx建立。外部设备配置成可能在自我话音控制信号OVctr的控制下(参见到所述发射器Tx的CTR接口)(使用外部设备的发射器Tx)将所辨别的任何关键词KWx(判定由听力装置用户说出的关键词)经无线链路WL传给听力装置。由听力装置的接收器Rx接收的关键词被转发给话音控制接口VCT并施加到听力装置的(从输入IU到输出OU的)正向处理通路的信号处理器PRO(参见信号HDctr)，从而控制正向通路中的处理(如改变听力装置的设置，例如程序、音量、运行模式等)。从而用于听力装置的话音控制接口部分实施在听力装置中及部分实施在外部设备中。听力装置HD例如可形成配置成补偿用户的听力受损的助听器的一部分或由这样的助听器构成。外部设备ExD例如可以是便携处理装置如电话机等，或者可以是更固定不动的处理装置，例如位于房间中，例如连接到干线电源。正向处理通路包括提供表示声音的电输入信号(IN1,IN2)的输入单元IU、根据输入信号(IN1,IN2)提供空间滤波的信号Y_BF的波束形成器滤波单元BF、用于处理空间滤波的信号并提供处理后的信号Y_G例如补偿用户的听力受损的信号处理器PRO(处理例如至少部分经或可经话音控制接口VCT控制)、及基于处理后的信号Y_G提供可由用户感知为声音的刺激的输出单元OU。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

·US20190075406A1(Oticon)07.03.2019

·[1]J.R.Deller,J.H.L.Hansen,and J.G.Proakis,”Discrete-TimeProcessing of Speech Signals,”IEEE Press,2000.

·[2]P.C.Loizou,“Speech Enhancement–Theory and Practice,”CRC Press,2007.

·[3]R.C.Hendriks,T.Gerkmann,J.Jensen,”DFT-Domain Based Single-Microphone Noise Reduction for Speech Enhancement,”Morgan and Claypool,2013.

·[4]I.Goodfellow,Y.Bengio,and.A.Courville,“Deep Learning”,MITPress2016.

·US20140321682A1(Oticon)30.10.2014.

·US20150230036A1(Oticon)13.08.2015.

·EP3413589A1(Oticon)12.12.2018.

Claims

1.一种助听器，配置成至少部分设置在用户头上或者至少部分植入在用户头中，所述助听器包括：

-信号处理器，其基于所述至少一电输入信号中的一个或多个提供处理后的信号；

-关键词检出系统，包括：

--关键词检测器，配置成在所述至少一电输入信号中或者在从其得出的信号中检测有限数量的预定关键词或短语或声音，并提供是否或以何种概率检测到所述关键词或短语或声音的关键词标示；

--用于提供自我话音标示的自我话音检测器，其估计给定输入声音信号是否或以何种概率源自助听器用户的话音；及

--控制器，配置成提供所述关键词或短语或声音中的给定关键词或短语或声音当前是否或者以何种概率被检测到并由用户说出的自我话音关键词标示，该自我话音关键词标示依赖于所述关键词标示和所述自我话音标示；

其中，所述关键词检出系统配置成使得仅在a)自我话音标示指明在关键词前面的第一预定时间段未检测到用户自我话音及b)关键词标示指明检测到所述关键词的同时自我话音标示指明检测到用户自我话音时，所述关键词才被接受为有效关键词。

2.根据权利要求1所述的助听器，包括：

-用于从环境拾取所述输入声音信号并提供所述至少一电输入信号的多个输入变换器；及

-波束形成器滤波单元，配置成接收所述至少一电输入信号以根据其提供空间滤波的信号；所述波束形成器滤波单元包括聚焦于用户嘴巴并配置成拾取用户自我话音的预定和/或自适应更新的自我话音波束形成器。

3.根据权利要求1所述的助听器，包括连接到所述关键词检出系统的话音控制接口。

4.根据权利要求3所述的助听器，配置成使用户能经所述话音控制接口启动和/或禁用所述助听器或另一装置或系统的一个或多个特定运行模式。

5.根据权利要求3所述的助听器，其中所述关键词检出系统配置成检测用于启动所述话音控制接口的特定唤醒词。

6.根据权利要求1所述的助听器，其中所述关键词检出系统包括神经网络。

7.根据权利要求6所述的助听器，其中在给定时间点馈给所述神经网络的输入向量在时间上与先前的输入向量重叠。

8.根据权利要求1所述的助听器，配置成在关键词检测时引入延迟以使自我话音检测器能在关键词检测器分析当前输入信号之前提供当前输入信号的自我话音标示。

9.根据权利要求1所述的助听器，配置成使得仅在自我话音检测器在关键词检测之前的第二预定时间段未检测到用户自我话音时一关键词才可被接受为有效关键词，从而需要该关键词已被说出之后的停顿以接受该关键词。

10.根据权利要求1所述的助听器，其中所述预定关键词包括唤醒词和多个命令词，及其中所述关键词检出系统包括唤醒词检测器和命令词检测器。

11.根据权利要求10所述的助听器，其中所述命令词检测器的启动取决于所述唤醒词检测器进行的唤醒词检测。

12.根据权利要求1所述的助听器，包括存储缓冲器，用于存储所述至少一电输入信号或其处理后版本的某一持续时间的当前时间段。

13.根据权利要求1所述的助听器，包括发射器，用于将所述至少一电输入信号或其处理后版本传给另一装置或系统，及其中所述信号处理器配置成分析至少一电输入信号或从其得出的信号并提供用于控制所述发射器的传输控制信号。

14.根据权利要求13所述的助听器，其中所述传输控制信号根据自我话音标示或自我话音关键词标示或者基于用于与助听器通信的外部设备或系统的话音控制接口的唤醒词的检测进行确定。

15.一种助听器系统，包括根据权利要求1-14任一所述的助听器及包括辅助装置，所述助听器系统适于在助听器与辅助装置之间建立通信链路以使得信息可被交换或者可从一装置转发给另一装置，其中所述关键词检出系统包括唤醒词检测器和命令词检测器，及其中唤醒词检测器位于助听器中，命令词检测器完全或部分位于辅助装置中，命令词检测器的启动依赖于唤醒词检测器进行的唤醒词检测。

16.根据权利要求15所述的助听器系统，其中所述辅助装置由遥控器、智能电话或其它便携或可穿戴电子设备构成或者包括遥控器、智能电话或其它便携或可穿戴电子设备。