CN112637749A

CN112637749A - 包括检测器和经训练的神经网络的听力装置

Info

Publication number: CN112637749A
Application number: CN202011074492.0A
Authority: CN
Inventors: M·S·彼得森; A·H·安德森; J·詹森; N·H·罗德; A·B·奥尔森; M·S·克里斯滕森; T·本特森; S·O·彼特森
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2019-10-08
Filing date: 2020-10-09
Publication date: 2021-04-09
Also published as: US20230056617A1; US20210105565A1; EP3806496A1; US11540063B2

Abstract

本申请公开了包括检测器和经训练的神经网络的听力装置，其中所述听力装置包括：输入变换器；预处理器，用于处理至少一电输入信号并提供多个特征向量；神经网络处理器，其适于实施用于实施检测器的神经网络，配置成提供指明至少一电输入信号的特有特性的输出；后处理器，配置成接收及处理输出向量并提供所得的信号；收发器；选择器，用于在自适应运行模式下将特征向量发送到发射器从而传给另一部分或另一装置或服务器，及在正常运行模式下将特征向量发送到神经网络处理器；所述听力装置配置成在自适应运行模式下接收优化的节点参数并应用于神经网络的节点，其中优化的节点参数已根据特征向量根据预定判据在多套节点参数之中选择。

Description

包括检测器和经训练的神经网络的听力装置

技术领域

本申请涉及包括例如用于检测某一声学环境的检测器的听力装置如助听器，前述检测器例如为检测用于话音控制接口的特定关键词的话音检测器。本申请还涉及用于听力装置参数个性化的方案。

背景技术

检测器如环境检测器、自我话音检测器或关键词检测器通常需要参数调整。检测器例如提供决定或提供一个或多个估计的参数值或前述估计的参数值的概率的检测器例如可使用或基于有监督的学习实施，例如完全或部分使用神经网络体系结构。由于神经网络的体系结构非常一般，神经网络通常需要许多参数如权重和偏置参数。由于听力装置中有限的内存，需要所实施的神经网络具有尽可能少的参数。此外，由于在编程期间带宽有限，希望传输尽可能少的参数给听力仪器。

发明内容

听力装置

在本申请的第一方面，提供一种听力装置，其配置成位于用户耳朵处或耳朵中或者完全或部分植入在用户头部中。该听力装置包括：

-输入变换器，其包括至少一用于提供表示听力装置环境中的声音的至少一电输入信号的传声器；

-预处理器，用于处理所述至少一电输入信号并提供表示所述至少一电输入信号的时间段的特征向量(例如多个特征向量)；

-神经网络处理器，其适于实施用于实施检测器或其一部分的神经网络，例如配置成提供指明至少一电输入信号的特有特性的输出，神经网络包括输入层、输出层和多个隐藏层，每一层包括多个节点，每一节点通过多个节点参数定义，神经网络配置成将所述特征向量(或所述多个特征向量)接收为输入向量并根据所述输入向量提供表示所述检测器或其一部分的输出的输出向量(或相应的输出向量)。

听力装置还可包括信号后处理器，其配置成接收所述输出向量及表示环境中的声音的至少一输入信号，及其中所述信号后处理器配置成根据所述输出向量处理表示声音的所述至少一输入信号并提供处理后的输出即所得信号。听力装置还可包括收发器，其包括用于建立到另一部分或另一装置或服务器的通信链路的发射器和接收器，所述通信链路使能至少在自适应运行模式下向另一部分或另一装置或服务器传输数据和从另一部分或另一装置或服务器接收数据。听力装置还可包括选择器，用于在所述自适应运行模式下将所述特征向量发送到所述发射器从而传给另一部分或另一装置或服务器，及在正常运行模式下将所述特征向量发送到所述神经网络处理器而用作所述神经网络的输入。听力装置配置成在自适应运行模式下从另一部分或另一装置或服务器接收优化的节点参数并将所述优化的节点参数应用于神经网络的节点从而在神经网络处理器中实施优化的神经网络，其中优化的节点参数已根据所述特征向量进行确定(例如根据预定判据在用于相应候选神经网络的多套节点参数之中选择)。

“另一部分”例如可以是听力装置的另一部分(例如与听力装置一体，或者与听力装置物理上分开但与听力装置通信)。“另一装置”例如可以是单独的(辅助)装置，例如单独的可穿戴设备如遥控装置或智能电话等。“服务器”例如可以是远离听力装置的例如可经网络如因特网访问的计算机或存储介质。

在第二方面，听力装置自身可包括多个预训练的候选神经网络，使得自适应模式仅可在听力装置中执行，例如自适应模式在听力装置的日常使用期间运行。听力装置可包括多个预训练的候选神经网络(从候选神经网络中选择适当的、针对所涉及用户评估为表现最佳的神经网络在听力装置中使用)，使得自适应模式仅可在听力装置中执行(例如参见图8)。听力装置例如可配置成在听力装置的日常使用期间运行自适应模式。

从而可提供改进的听力装置。

检测器例如可配置成识别至少一电输入信号的特有特性。“特有特性”例如可与涉及当前由至少一传声器拾取并由至少一电输入信号表示的声音的本质的特性有关。“特有特性”例如可与当前声学环境的声学性质有关。“特有特性”例如可与语音分量和噪声分量、自我话音和其它话音、单讲话者环境和多讲话者环境、语音和音乐、给定语音顺序的内容等有关。

预定判据可与使关于所述输出向量的价值函数最小化有关。当所述多个特征向量从具有已知性质的所述至少一电输入信号的时间段提取时，预定判据例如可基于神经网络在所述输出向量的帧正、假正、真拒绝和假拒绝方面的表现。

用于相应候选神经网络的多套节点参数可针对展现不同声学性质的、不同类别的人进行优化。

神经网络处理器可特别适于执行神经网络的计算。神经网络处理器可形成数字信号处理器的一部分。数字信号处理器可包括特别适于执行神经网络的运算的神经网络内核。特定节点的节点参数例如可包括权重参数和(w)偏置参数(b)。与每一节点相关联的非线性函数(f)对于所有节点可完全一样，或者在层之间或在节点之间可不同。非线性函数(f)例如可由sigmoid函数、修正线性单元(ReLU)或softmax函数表示。不同的层可具有不同的非线性函数。然而，非线性函数的参数也可学习(例如包括在优化过程中)。对于参数的修正线性单元正是如此。换言之，非线性函数(f)的参数可形成节点参数的一部分。

给定神经网络可由一套给定的节点参数定义。

通过神经网络实施的检测器(或其一部分)例如可包括唤醒词检测器、关键词检测器或首选讲话者检测器(配偶检测器)。作为备选，通过神经网络实施的检测器(或其一部分)例如还可包括相关检测器、电平估计器、调制检测器、反馈检测器、话音检测器如自我话音检测器、当前电输入信号或源自其的信号的语音可懂度检测器。检测器的输出可包括电输入信号的具体参数或性质或内容的值的估计量或者这样的估计的值的概率。

检测器可包括神经网络处理器或者形成神经网络处理器的一部分。检测器可包括预处理器。检测器可包括后处理器。

术语“环境中的声音”可表示佩戴听力装置的用户周围环境中的任何声音，其可到达至少一传声器并可检测为电输入信号。“环境中的声音”例如可包括环境中的人的任何发声及由机器或设备发出的任何声音。“环境中的声音”可包括特定人(如用户)的特定词或多个特定词。“环境中的声音”可包括自然声音或背景噪声。

听力装置可包括连接到神经网络处理器的神经网络控制器，其用于在自适应运行模式下接收优化的节点参数并将优化的节点参数应用于神经网络的节点从而在神经网络处理器中实施优化的神经网络。听力装置可包括候选神经网络。候选神经网络可属于同一类型，例如前馈、递归或卷积神经网络。候选神经网络可包括不同类型的神经网络。候选神经网络在层数和节点数方面可以不同，例如一些候选神经网络比其它候选神经网络具有更多层(和/或给定层具有更多节点)。从而神经网络的复杂性可适应特定用户。

后处理器可配置成基于神经网络的输出向量提供“决定”。后处理器可配置成基于神经网络的输出向量例如基于多个不同的(估计的)检测器值的概率确定所得的(估计的)检测器值。决定或者所得的估计的检测器值例如可以是或包括话音控制接口的特定唤醒词或命令词或者话音检测器如自我话音检测器的例如指明存在或不存在话音如用户自我话音的特定值。

决策单元(后处理器)的输出即所得的信号例如可以是用于启动话音控制接口的命令词或句子或者唤醒词或句子。作为备选或另外，决策单元(后处理器)的输出可馈给发射器(或收发器)从而传给另一装置并在那里进行进一步处理，例如启动(例如智能电话等的)个人助理。收发器例如可接收来自另一装置例如来自个人助理的响应。该响应例如可用于控制听力装置，或者其可经听力装置的输出变换器(SPK)播放给用户。

听力装置可包括传感器，用于感测用户或听力装置环境的特性及提供表示环境特性的当前值的传感器信号。在本说明书中，听力装置的环境特性可包括佩戴听力装置的用户的特性(如参数或状态)。在本说明书中，听力装置的环境特性可包括物理环境如听力装置的声学环境的特性。在本说明书中，术语“传感器”可指提供反映该传感器适于测量的当前物理参数的值的输出信号的装置。例如，温度传感器给出传感器环境的当前温度作为输出。听力装置可包括多个传感器。传感器可由下述构成或包括下述传感器：运动传感器(如加速计)、磁力计、EEG传感器、EOG传感器、心率检测器或温度传感器等。话音活动检测器(VAD)或OV检测器也可视为传感器。

听力装置可配置成使得传感器信号是预处理器的输入。

预处理器可配置成处理至少一电输入信号和传感器信号以提供特征向量。传感器信号可用于在产生特征向量之前使至少一电输入信号有资格(例如排除其某些时间段(或频带))。作为备选或另外，传感器信号(或其特征)可被包括在预处理器提供的、作为神经网络的输入向量的特征向量中。

听力装置可包括输出单元，用于将处理后的输出信号作为可感知为声音的刺激呈现给用户。输出单元可包括输出变换器。输出单元(如输出变换器)可包括空气传导听力装置的扬声器、骨导听力装置的振动器或者耳蜗植入听力装置的多电极阵列。输出单元可包括发射器，用于将所得的(检测器)信号和/或输出(音频)信号传给另一装置。

听力装置可包括分析滤波器组，用于将时域输入信号转换为多个子频带信号从而提供时频表示(k,l)的输入信号，其中k和l分别为频率和时间指数。对于每一电输入信号和/或传感器信号，输入变换器均可包括分析滤波器组。听力装置可包括分析滤波器组，用于将时域传感器信号转换为多个子频带信号，从而提供时频表示(k,l)的传感器信号，其中k和l分别为频率和时间指数。特征向量可按时频表示提供。如果不需要重构时域信号(如果仅利用特征向量用于检测器，则不需要)，滤波器组可以高于临界下采样的因子进行下采样。我们也可利用滤波器组的可用频道的更小子组的频道，及我们可将频道加在一起。滤波器组频道可在下采样之前进行低通滤波。

预处理器可配置成提取至少一电输入信号和/或传感器信号的特征。至少一电输入信号的特征例如可包括调制、电平、信噪比(SNR)、相关等。相较于从其提取特征的至少一电输入信号和/或传感器信号，特征向量可展现降低的复杂性。特征向量可按(由滤波器组或弯折滤波器组获得的)音频信号的时频表示提供。该时频表示可进一步处理为量值响应，及量值响应可进行低通滤波和/或下采样。在听力装置包括多个传声器(因而有权使用表示声音的多个电输入信号)的情形下，部分或所有电输入信号可组合为定向(波束成形)信号，例如增强用户自我话音的定向信号。定向信号可通过降噪例如使用后滤波器进一步增强。

由给定特征向量覆盖的、至少一电输入信号及非必须地传感器信号的对应值的时间段用作神经网络的输入层的输入，其包括至少一电输入信号的至少一时间帧。该时间段可包括至少一电输入信号的多个时间帧，例如3个以上如5个以上时间帧，如2到50个时间帧，例如对应于多达0.5到1s的音频如对应于一个或多个词。

通过听力装置的收发器的发射器和接收器电路建立的通信链路可以是无线链路。无线链路可以是基于听力装置及另一装置或服务器的电感器之间的感应耦合的感应链路。无线链路可基于辐射场，例如基于听力装置及另一装置或服务器中的蓝牙或WLAN收发器。

听力装置配置成在多个运行模式下运行，包括自适应运行模式和正常运行模式。用户是否被允许进入自适应模式可取决于听力装置是否被检测到安装在耳朵上。。自适应运行模式例如可以是听力装置连接到辅助装置(包括例如智能电话、PC或笔记本电脑等的处理器)时的运行模式。辅助装置例如可配置成运行听力装置的验配软件。验配软件可配置成针对特定用户的需要定制(个性化)听力装置的算法，作为针对所涉及的特定用户对听力装置个性化的一部分，包括确定将在听力装置中应用的神经网络的优化的节点参数。针对给定用户的、神经网络的该组优化的节点参数可根据适当的选择算法在多个预定的、优化的节点参数之中选择。在定制听力装置时使用的、候选神经网络的多个预定的、优化的节点参数可存储在听力装置中。从而，无需使用辅助装置即可例如由用户自己选择适当的一套优化的节点参数。我们也可想象基于在一听力装置中运行的神经网络(NN)及在另一装置中运行的另一NN的决定。一个NN例如可在低SNR环境中使用，而另一NN可在高SNR环境中使用。

通过神经网络实施的检测器或其一部分可以是自我话音检测器和/或关键词检测器。自我话音检测器可通过神经网络实施。关键词检测器(如唤醒词检测器)可通过神经网络实施。特别优化成检测用户说出的词的关键词检测器(如唤醒词检测器)可通过神经网络实施。另外或作为备选，神经网络可实施开/关检测器或者首选讲话者检测器如配偶(话音)检测器。

听力装置可由助听器、头戴式耳机、耳麦、耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。

听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。听力装置可包括用于增强输入信号并提供处理后的输出信号的信号处理器。

听力装置可包括输出单元，用于基于处理后的电信号提供由用户感知为声信号的刺激。输出单元可包括耳蜗植入件(用于CI型听力装置)的多个电极或者骨导听力装置的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)听力装置中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。

听力装置包括用于提供表示声音的电输入信号的输入变换器。输入变换器可包括用于将输入声音转换为电输入信号的传声器。输入变换器可包括用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号的无线接收器。无线接收器例如可配置成接收在射频范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz，或可见光，例如430THz到770THz)的电磁信号。

听力装置可包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。听力装置例如作为降噪系统的一部分，还可包括基于空间的后滤波器。

听力装置可包括用于从另一装置如从娱乐设备(例如电视机)、通信装置、无线传声器或另一听力装置接收直接电输入信号的天线和收发器电路(如无线接收器)。直接电输入信号可表示或包括音频信号和/或控制信号和/或信息信号。听力装置可包括用于对所接收的直接电输入进行解调的解调电路，以提供表示音频信号和/或控制信号的直接电输入信号，例如用于设置听力装置的运行参数(如音量)和/或处理参数。总的来说，听力装置的天线及收发器电路建立的无线链路可以是任何类型。无线链路在两个装置之间建立，例如在娱乐装置(如TV)和听力装置之间，或者在两个听力装置之间，例如经第三中间装置(如处理装置，例如遥控装置、智能电话等)。无线链路通常在功率约束条件下使用，例如由于听力装置是或包括便携式(通常电池驱动的)装置。无线链路为基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中，无线链路基于远场电磁辐射。经无线链路的通信根据特定调制方案进行安排，例如模拟调制方案，如FM(调频)或AM(调幅)或PM(调相)，或数字调制方案，如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。

听力装置与另一装置之间的通信处于基带(音频频率范围，如0和20kHz之间)中。优选地，用于在听力装置和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。无线链路基于标准化或专用技术。无线链路基于蓝牙技术(如蓝牙低功率技术)。

听力装置可以是便携(即配置成可穿戴)装置或者形成其一部分，如包括本机能源如电池例如可再充电电池的装置。听力装置例如可以是轻质、容易穿戴的装置，例如具有小于100g如小于20g的总重量。

听力装置可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器位于该正向通路中。信号处理器适于根据用户的特定需要提供随频率而变的增益。听力装置可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理在频域进行。分析通路和/或信号通路的部分或所有信号处理在时域进行。

表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值，N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，对于f_s＝20kHz，如50μs。多个音频样本按时间帧安排。一时间帧包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。

听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。应当提及的是，尽管听力装置中的(最大)采样速率在听力装置的正向通路中例如为20kHz(支持0-10kHz的音频频率范围)，但在听力装置的其它部分中可使用不同的、更小的频率范围。包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

听力装置如输入变换器和/或天线及收发器电路包括用于提供输入信号的时频表示的TF转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。听力装置考虑的、从最小频率f_min到最大频率f_max的频率范围包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率f_max的两倍，即f_s≥2f_max。听力装置的正向通路和/或分析通路的信号拆分为NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。听力装置适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。对于检测器，例如用于分析正向通路的信号如电输入信号的检测器，我们可具有更少数量的频道，例如NP’≤NP。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

听力装置可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式，其中听力装置的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用听力装置的特定特征。运行模式可包括特定自适应模式，其中听力装置连接到多个不同的候选神经网络(例如位于听力装置中或辅助装置中)，候选神经网络之一计划被选择在听力装置中使用。

听力装置可包括多个检测器，其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。

多个检测器中的一个或多个可配置成对全带信号起作用(时域)。多个检测器中的一个或多个可配置成对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。预定判据可包括正向通路的信号的当前电平是否高于或低于给定(L-)阈值。一个或多个电平检测器可作用于全频带信号(时域)。一个或多个电平检测器可作用于频带拆分信号((时-)频域)。

听力装置可包括话音活动检测器(VAD)，用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器适于将用户自己的话音也检测为“话音”。作为备选，话音检测器适于从“话音”的检测排除用户自己的话音。

听力装置可包括自我话音检测器，用于估计特定输入声音(如话音，如语音)是否(或以何种概率)源自听力系统用户的话音。听力装置的传声器系统(或自我话音检测器)可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。

多个检测器可包括运动检测器，例如加速度传感器。运动检测器配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。

听力装置可包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；

c)用户的当前模式或状态(运动、温度、认知负荷等)；

d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

分类单元可基于或包括神经网络例如经训练的神经网络。

听力装置还可包括用于所涉及应用的其它适宜功能，如压缩、降噪、反馈控制等。

听力装置可包括听音装置，如助听器，如听力仪器，例如适于位于耳朵处或者完全或部分位于用户耳道中的听力仪器，如头戴式耳机、耳麦、耳朵保护装置或其组合。助听系统可包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。可提供在包括音频分布的系统中的应用。可提供在包括一个或多个助听器(如听力仪器)的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用，例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等中的用途。

方法

一方面，本申请还提供用在便携式听力装置中的神经网络的优化参数的选择方法。该方法包括：

-提供将由特定用户使用的便携式听力装置，该听力装置包括适于实施包括输入层、输出层和多个隐藏层的神经网络的神经网络处理器，每一层包括多个节点，每一节点由多个节点参数和非线性函数定义，神经网络配置成接收输入向量并提供作为输入向量的特定非线性函数的输出向量；

-将听力装置安装在用户处；

-提供辅助装置；

-建立使能在听力装置与辅助装置之间交换数据的通信链路；

在听力装置中，所述方法还可包括：

-提供表示佩戴听力装置的用户环境中的声音的至少一电输入信号；

-处理所述至少一电输入信号并提供表示所述至少一电输入信号的一时间段的特征向量；

-将所述特征向量经所述通信链路传给所述辅助装置。

在辅助装置中，所述方法还可包括：

-提供多个预训练的候选神经网络，每一候选神经网络与听力装置的神经网络具有同样的结构，其中每一预训练的网络被视为该人的候选网络，及其中每一预训练的神经网络已基于完全或部分不同的训练数据进行训练；

-从听力装置接收所述特征向量并将其作为输入向量提供给所述多个预训练的候选神经网络；

-由所述多个预训练的候选神经网络确定相应的、与所述特征向量对应的输出向量；

-比较所述输出向量并根据预定判据将多个候选神经网络之一选择为针对听力装置优化的神经网络；

-将多个候选神经网络中所选神经网络的节点参数经所述通信链路传给听力装置，及

在听力装置中，所述方法还可包括：

-接收所述节点参数并将它们馈给所述神经网络处理器并将它们应用于所述神经网络。

另一方面，本发明提供用在便携式听力装置中的神经网络的优化参数的选择方法。该方法包括：

-将听力装置安装在用户处；

-处理所述至少一电输入信号并提供多个特征向量，每一特征向量表示所述至少一电输入信号的一时间段；

-提供多个预训练的候选神经网络，其中每一预训练的网络被视为该用户的候选网络，及其中每一预训练的神经网络已基于完全或部分不同的训练数据进行训练；

-接收所述特征向量并将其作为输入向量提供给所述多个预训练的候选神经网络；

-比较所述输出向量并根据关于所述输出向量的预定判据将多个候选神经网络之一选择为针对听力装置优化的神经网络；

-将多个候选神经网络中所选神经网络的节点参数传给听力装置的神经网络处理器，及

-将所述节点参数接收到所述神经网络处理器中并将它们应用于所述神经网络。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与相应方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

术语“与听力装置的神经网络具有同样结构的神经网络”指每一候选神经网络具有同样的层数及每一层具有同样的节点数，但每一候选神经网络具有不同的、通过用不同的训练数据集预训练确定的节点参数(权重和/或偏置和/或非线性函数)。给定神经网络可由一组给定的节点参数定义。

不同的候选神经网络例如可基于来自不同人群(通过年龄、性别区分)的数据进行训练，位于选择的网络基于提供关于该人的信息(如年龄和/或性别)。

术语“预训练的神经网络已基于完全或部分不同的训练数据进行训练”例如包括，训练数据的噪声部分可相似。噪声例如可包括将检测不到任何有关语音元素的训练数据。训练数据还可包括接近(但不同于)预计由检测器(如关键词检测器)检测到的词的语音数据。

预定判据可基于神经网络在真正、假正、真拒绝和假拒绝方面的表现。

从四个术语即TP、TN、FP和FN(真正、真负、假正、假负)可得到不同的度规，例如“准确度”＝TP+TN/(TP+TN+FP+FN)，“精度”＝TP/(TP+FP)，或者“再调用”＝TP/(TP+FN)(例如参见https://developers.google.com/machine-learning/crash-course/classification/ accuracy？)。

每一候选神经网络可具有同样的结构。至少部分(如一个)候选神经网络可具有不同于其余候选神经网络的结构，例如不同的层数不同的节点数。候选神经网络可包括不同类型的神经网络。神经网络的类型例如可在前馈、递归、卷积等中选择。

每一候选神经网络可已基于来自不同类别的人的训练数据进行训练。这样的训练程序可适合自我话音应用例如自我话音检测(OVD)和关键词检出(KWS)(如唤醒词检测)。不同群组的人属于不同类别。类别例如可从结合图6概述的基本人群产生。不同类别的人可展现不同的声学性质，例如不同的头部相关传递函数(HRTF)、不同的话音(“谱签名”、基频和/或格式频率等)、不同的年龄、不同的性别等。

表示用户或用户环境的特性的当前值的(例如来自传感器的)信号可与至少一电输入信号一起提供在听力装置中并进行处理以提供所述特征向量。

本发明方法可配置成使得神经网络实施自我话音检测器(OVD)和/或关键词检测器(KWD)。

本发明方法可包括提示用户说话。本发明方法可配置成提示用户说一个或多个(例如预定的)词或句子(例如包括与检测器计划识别或检测的词或句子相似的词或句子)。从而，一个或多个词或句子可形成多个特征向量中的至少部分特征向量的基础。从而可知道候选神经网络的输出向量(地面真值)，其可用于检查哪一候选神经网络(即它们的神经网络参数中的每一个，例如针对特定类别的人优化的参数)满足判据(例如最佳地适合当前用户)。

用于选择优化的神经网络参数的预定判据可基于由用户说出的提示词或句子。优化的神经网络参数可通过基于用户说出的提示词或句子比较来自具有相应神经网络参数(例如针对特定类别的人优化的参数)的候选神经网络的输出向量进行选择。所选的神经网络参数可以是来自最满足预定判据(例如在用户说提示词或句子时具有最高数量的输出向量正确值)的候选神经网络的参数。

本发明方法可包括提供几组多个预训练的候选神经网络，每一组的每一候选神经网络具有与听力装置的神经网络同样的结构，其中每一预训练的网络被视为该人的候选网络，及其中每一预训练的神经网络已基于完全或部分不同的训练数据进行训练，及其中每组预训练的候选神经网络目标在于实施不同的检测器。从而可同时进行实施不同检测器的几个不同神经网络的优化参数的选择。不同的检测器例如可包括用于检测有限数量的关键词(如命令词)的关键词检测器、用于检测用于启动话音接口的特定词或词组合的唤醒词检测器等等。

计算机可读介质或数据载体

本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(或数据载体)，当计算机程序在数据处理系统上运行时，使得数据处理系统(计算机)执行(完成)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。其它存储介质包括DNA中的存储(例如在合成DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

在另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及包括辅助装置的听力系统。

听力系统适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子设备如智能手表等。

辅助装置可以是或包括遥控器，用于控制听力装置的功能和运行。遥控器的功能被实施在智能电话中，智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

辅助装置可以是或包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。

辅助装置可做处理的多个部分(划分例如可以是，OVD及与听力装置的功能有关的几个关键词(包括用于话音控制接口的唤醒词)在听力装置中进行检测，而另外的关键词在辅助装置中进行检测)。

辅助装置可由另一听力装置构成或者可包括另一听力装置。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP可包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。该APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。

定义

在本说明书中，“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

听力装置可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

更一般地，听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些听力装置中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中，输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激耳蜗神经的多电极阵列)。听力装置可包括喇叭扩音器(包括多个输入变换器和多个输出变换器，例如用在音频会议情形)。

在一些听力装置中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中，振动器可植入在中耳和/或内耳中。在一些听力装置中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到听力装置，并由听力装置的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

本发明例如可用在如助听器、头戴式耳机或类似设备的应用中。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1示出了根据本发明的具有内置检测器的听力仪器的一部分；

图2示出了听力仪器无线连接到外部设备，其图示了根据本发明的听力仪器中使用的优化神经网络的选择程序；

图3示出了根据本发明的听力装置参数的示例性个性化程序；

图4示出了所提出的用于选择个性化神经网络的方法的实施例的流程图；

图5示出了根据本发明实施例的听力装置，其在听力装置中在处理后的信号呈现给佩戴听力装置的用户之前使用经训练的(针对特定用户个性化的)神经网络控制表示声音的信号的处理；

图6示出了将用于提供训练一神经网络的训练数据的基本人群细分为用于训练多个神经网络的多个子群从而提供多个优化的神经网络的示例性程序，每一优化的神经网络表示受测人员的不同特性；

图7A示出了根据本发明的、实施为神经网络的关键词检测器的实施例；

图7B示出了包括用于产生图7A的神经网络的输入向量的音频的电输入信号的上下文；

图8示出了根据本发明的听力装置的实施例，其包括配置成使能不使用外部设备即可在多套优化参数之中针对一神经网络选择一套优化参数的自适应单元。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置如助听器领域。考虑如图1中所示的、具有传声器及可能具有其它传感器(如加速计、磁力计、EEG传感器、和/或心率检测器等)的听力仪器系统。听力仪器可具有内置检测器(例如包括一个或多个所提及的传感器)。

一种选择可以是仅保留部分的层，例如保持神经网络的第一层(或前几层)的权重固定且仅更新较深的层。藉此较少的参数需要进行编程。

实现更好的性能的一种方式是个性化神经网络/检测器的参数。例如，相较于已针对对于任何人群均可很好地工作进行优化的神经网络，针对特定的人或特定人群(如男性、女性或孩童话音、不同年龄、给定人常见的不同语言或噪声环境)进行优化的神经网络可更好地工作。

在此我们提出个性化神经网络的选择方法。

图1示出了具有内置检测器的听力仪器的一部分。来自一个或多个传声器(M1,M2)和/或一个或多个传感器SENSE的输入信号(IN1,IN2,SIN)被预处理(参见单元Pre-PRO)为特征向量FV。一个或多个传感器SENSE可省略，使得预处理器Pre-PRO的输入信号仅为来自传声器(M1,M2)的电输入信号(IN1,IN2)，因此，使得特征向量仅取决于来自传声器(M1,M2)的电输入信号(IN1,IN2)。预处理的特征向量FV用作神经网络NN的输入。神经网络NN的输出例如可以是用于进行决策和/或检测(例如特定词的检测、自我话音检测或某一声音环境的检测，参见决策单元PostPRO及输出RES)的概率或一组概率p(x)。决策单元的输出RES例如可用于例如在听力装置中决定特定行动，例如启动话音控制接口。决策单元的输出RES例如可传给另一装置或系统，例如用于启动一服务。

在图1中，听力装置包括实施(单一)检测器如自我话音检测器的单一神经网络。听力装置例如可包括几个并行工作的神经网络。听力装置中例如可包括一个用于实施关键词检测器的神经网络及另一用于实施自我话音检测器的神经网络。在该情形下，用于针对特定用户在多个优化的候选神经网络之中选择优化的神经网络的方案相同，甚至例如同时优化。在该情形下，有两组以上例如第一和第二组相应的多个优化的候选网络，每组神经网络优化成实施特定检测器(例如分别实施关键词检测器和自我话音检测器)，第一和第二组中的每一候选网络同时从用户(从听力装置)接收同样的输入向量(参见图2，针对单组候选网络)。当提及表示不同的检测器的多组网络时，第一和第二组不必然具有同样的输入向量。一组(候选)NN(每一NN实施给定类型的OV检测器)可具有不同于用于唤醒词检测的一组NN的输入特征。

神经网络可视为为实现某一性态的输出信号优化的、输入信号的一般化非线性函数。在将信号传过神经网络具有相当低复杂性的同时，估计神经网络的参数计算负担非常重且(非常)耗时。为个性化神经网络，该神经网络需要基于来自特定人的数据进行训练。即使该网络可仅针对个人进行部分训练，例如使用已知的迁移学习技术，训练过程及数据收集仍然非常耗时。关于迁移学习，听力装置可配置成仅更新一部分神经网络参数(例如p个最后层的参数)。藉此，听力仪器中较少参数需要更新。

作为针对个人优化神经网络的备选，我们提出在多个预训练的神经网络之中选择，其中每一预训练的网络视为该人的候选网络。每一预训练的神经网络可基于来自某类人的数据进行训练。预训练的神经网络的数量取决于怎样进行人群类别的实际分类。

包括输入和输出向量的示例性神经网络在图7A、7B中示意性地示出。然而，应当强调的是，也可使用其它NN结构。

考虑图2中所示的系统。图2示出了听力仪器无线连接到外部设备，其图示了根据本发明的听力仪器中使用的优化神经网络的选择程序。在听力仪器HD(由于大小限制)具有有限内存和计算能力的同时，外部设备ExD具有多得多的计算能力和可用内存。这使外部设备能快速评估(可能预处理的)听力仪器声音(特征向量FV形式)，其被提供为几个神经网络(NN₁,…,NN_K)的输入FV’，这些神经网络例如已针对不同的人群预训练但实施同一检测器如自我话音检测器。基于来自听力装置HD的声音例子FV’，例如参见图3，评价不同的神经网络(NN₁,…,NN_K)。具有最佳表现的网络的参数在听力仪器中使用。神经网络的相对表现的评估例如可在真正、假正、真拒绝和假拒绝的数量的比较方面进行。在图2的例子中，不同神经网络的输出为自我话音检测的相应概率p_i(OV),i＝1,…,K。这些概率例如与真值(即特征向量是否表示用户说出的声音)比较以得出对于给定的人表现最好的网络。在另一例子中，神经网络可优化成检测Q个预定的例如话音接口的关键词。在该情形下，每一神经网络的输出向量将表示给定输入特征向量(例如源自用户说出并由助听器传声器拾取的词)等于每一预定的关键词的概率(输出向量包括p(KWi),i＝1,…,Q)。关键词的数量Q例如可在1到10之间的范围中。可实施唤醒词检测器(Q＝1)以检测单一关键词或关键短语，例如“Hey Siri”或“Open sesame”等。

该系统由能够将音频信号或从音频信号得出的特征向量FV(经无线链路WLNK如音频链路)无线传给外部设备ExD的听力装置HD组成。外部设备ExD(如在验配听力装置期间使用的智能电话或PC)比听力仪器具有多得多的内存和计算能力，其能够针对神经网络参数评估不同的预训练的神经网络以(在候选网络之中)选择最适合听力装置用户的一组参数。基于不同的音频例子，外部设备能选择最好的候选网络，及听力装置将用最好的候选网络的参数进行更新。

为节约计算及传输尽可能少的数据，在听力装置处记录的音频，可能连同传感器数据如从加速计获得的数据一起，可被预处理(参见单元Pre-PRO)为特征向量FV，其用作神经网络的输入。特征向量的例子可以是音频信号的时频表示(通过滤波器组或弯折滤波器组获得)。该时频表示可进一步处理为量值响应，及量值响应可被低通滤波和/或下采样。不同的传声器信号可组合为定向传声器信号，例如增强自我话音的定向信号。定向信号可使用后滤波器通过降噪而进一步增强。

在相对低复杂性的情形下，听力装置可配置成存留候选神经网络(针对其优化的节点参数可在针对特定用户验配之前存储在听力装置中)。从而最适合用户需要的候选神经网络的选择和安装可完全由听力装置自身进行(听力装置不必连接到外部设备，及可省略收发器电路)。

特征向量FV可取决于应用。特征向量FV例如可以是或包括来自滤波器组的复值输出，或者简单地，滤波器组输出的量值(或量值的平方)。备选或另外的特征向量可以是倒谱系数如梅尔频率倒谱系数(Mel Frequency Cepstral Coefficients，MFCC)或巴克频率倒谱系数(Bark Frequency Cepstral Coefficients，BFCC)。在自我话音检测情形下，特征向量FV可包含关于不同传声器信号之间的传递函数的信息。

图3示出了根据本发明的听力装置参数的示例性个性化程序。

图3示出了可怎样使用所提出的训练程序的例子。经外部设备ExD，用户被提示重复音频序列如特定的词(例如，对于关键词检出，音频序列可由关键词和混淆词组成)。该音频序列，在此为词“cheese”(或从其得出的特征)由听力装置(HD1,HD2)拾取并传给外部设备ExD(可能作为预处理的特征向量)。该数据被应用于K个不同的预训练的神经网络(NN₁,…,NN_K)。对于每一提示的输入，外部设备评估每一候选神经网络，例如正确词的概率(在此为p(cheese))、错误检测的概率(在此为p(tease))、接收器运行曲线或其它性能度量。基于评估的词(例如所有提示的词)，选择表现最好的网络及该网络的参数被编程到听力仪器内。为在不同的有噪声环境中评估，不同类型的背景噪声可添加到例如在外部设备中录制的声音。图4示出了神经网络的优化参数的选择方法的流程图。

图4示出了所提出的用于选择个性化神经网络的方法的实施例的流程图。该方法包括步骤：

S1：开始个性化程序；

S2：提示词；

S3：将用户说出的词及词/特征传给外部设备；

S4：计算和更新每一预训练的神经网络(参见图2、3中的NN₁,…,NN_K)的表现；

S5：结束？如果否，则返回到步骤S2；如果是，则进行到下一步骤；

S6：用表现最好的网络的参数更新听力装置(参见将神经网络NNx的参数传给听力装置并应用于图2中的神经网络NN*)。

用户也可被提示其它词，例如典型的混淆词。例如peace-cheese，或者被提示读不包含期望的词的文本。

在自我话音(OV)检测情形下，可以想象针对在传声器之间具有类似的OV传递函数的多个群组进行训练的不同网络。给定针对个人测定的OV传递函数(TRF)，可测量测得的OVTRF与表示每一神经网络的OV TRF之间的差距。由具有最高相似度的OV TRF表示的神经网络则可被选择在听力装置中使用。作为备选，测得的OV TRF与表示不同神经网络的OV TRF之间的相似度可基于提供OV最佳检测的神经网络进行测量。

图5示出了根据本发明实施例的听力装置，其在听力装置中在处理后的信号呈现给佩戴听力装置的用户之前使用经训练的(针对特定用户个性化的)神经网络控制表示声音的信号的处理。该听力装置HD包括输入-检测器-决策模块，如图1中所示。决策单元Post-Pro的输出RES被馈给听力装置的处理器PRO。处理器PRO从传声器(M1,M2)接收电输入信号(IN1,IN2)并根据决策单元Post-Pro的输出RES处理这些信号。决策单元Post-Pro的输出RES例如可表示自我话音检测控制信号、话音控制接口的特定唤醒词或(命令)关键词等。在此基础上，处理器PRO提供处理后的输出OUT，其被馈给输出变换器，在此为扬声器SPK，从而呈现给听力装置的用户。从而例如可实施包括话音控制接口(或简单地，唤醒词检测器)的听力装置。处理器PRO也可包含基于NN的检测器(如OV检测器)。OV检测器的输出可以是其它检测器如唤醒词检测器的输入特征。在图5的实施例中，决策单元Post-Pro的输出RES被馈给听力装置的处理器PRO。作为备选或另外，其可馈给听力装置的另一功能部分例如用于基于多个命令词的识别控制听力装置的功能的话音接口。决策单元的输出例如可以是用于启动话音控制接口的命令词或句子或者唤醒词或句子。作为备选或另外，决策单元Post-Pro的输出RES可被馈给发射器(或收发器)，从而传给另一装置并在那里进一步处理，例如以便启动(如智能电话等的)个人助理。收发器例如可接收来自另一装置如来自个人助理的响应。该响应例如可用于控制听力装置，或者其可经听力装置的输出变换器SPK播放给用户。

图6示出了将用于提供训练一神经网络的训练数据的基本人群细分为用于训练多个神经网络的多个子群从而提供多个优化的神经网络的示例性程序，每一优化的神经网络表示受测人员的不同特性。图6示出了神经网络的训练可怎样分为不同的网络，每一网络基于数据集的子集进行训练。从而可提供具有相似语音/话音特征的多个群组。因此，在其基础上，可产生对应数量的多个经训练的网络NN₁,…NN_K。

多组候选网络可通过迭代过程产生。以训练单一NN开始，具有最差NN表现的人被分组，针对这些如训练另一NN(及针对第一组人训练第一NN)。作为备选，分组可基于年龄、性别、音高或者测量不同讲话者之间的差异的相似度的其它方式。从而可能新的个人(其不是训练数据的一部分)将基于至少一经训练的神经网络表现良好。一个优点在于，神经网络的大小可保持小，因为该网络不必普及到所有的人。

图7A示出了根据本发明的、实施为神经网络的关键词检测器的实施例。图7B示出了包括用于产生图7A的神经网络的输入向量的音频的电输入信号的上下文。

图7A示出了根据本发明的、实施为神经网络的关键词检出检测器的实施例。图7A示意性地示出了深度神经网络(DNN)，用于从包括时频表示(k,l)的电输入信号或其特有特征(＝特征向量，FV)的L个时间帧X(k,l),l＝l’-(L-1),…,l’的输入向量确定在给定时间点(l’)特定关键词KWq,q＝1,…,Q的出现概率p(KWq,l)，其中k为频率指数及l为时间(帧)指数。在当前时间l＝l’的电输入信号或其特有特征(如倒谱系数或频谱特征等)，在图1、2中称为“特征向量FV”，而在图7A、7B中记为X(k,l')。输入信号的L个(最后)时间帧(X(k,l))构成神经网络在给定时间点l＝l’的示例性输入向量并在图7A、7B中记为

每一输入向量中包括的这种“上下文”在图7B中示出。关键词检出检测器可配置成使得仅最后q层的参数(在NN候选网络之间)不同。

目前时间帧(l’)和L-1个在前时间帧堆叠为向量并用作神经网络中的输入层(一起记为

也可参见图7B中记为“上下文”的阴影线时频单元)。每一时间帧X(k,l’)包括电输入信号(或从其提取的特征)的K个值(例如K＝16或K＝24或者K＝64或K＝128)。该信号可通过其量值|X(k,l’)|表示(例如通过忽略其相位

)，参见图7B。作为备选，输入向量可包括输入信号(时域)的覆盖适当时间段的时间样本。时间帧的适当数量与语音中固有的相关有关。在实施例中，与目前时间帧l＝l’一起考虑的L-1个先前的时间帧例如可对应于持续20ms以上如50ms以上如100ms以上如约500ms的时间段。在实施例中，考虑的时间帧数量(＝L)大于或等于4，如大于或等于10，如大于或等于24，例如在10-100的范围中。在本申请中，神经网络的宽度等于K·L，对于K＝64和L＝10，意味着输入层L1由N_L1＝640个节点(表示音频输入信号的32ms的时间段(对于20kHz的采样频率及每帧64个样本，并假设时间帧无重叠))。随后的层(L2,…,LN)中的节点数量(N_L2,…,N_LN)可大于或小于输入层L1的节点数量N_L1，且一般地，适应相应应用(考虑输入数据集的可用数量及神经网络将估计的参数数量)。对于在具有有限功率和空间的便携听力装置中的应用，随后的层(N_L2,…,N_LN)可优选包括较少的(如明显少得多的)节点，例如输出节点数量级的节点。在本例子中，输出层LN中的节点数量N_LN为Q(如≤20，或10或更小)，因为其包括概率估计器的Q个值p(KWq,l’)(q＝1,…,Q)，其中针对话音接口的Q个关键词中的每一个关键词各一个值。非必须地，输出层可通过包括一个用于用户自我话音的检测和/或用于“填充符”(无关键词)的检测的值而包括Q+1或Q+2个节点。在实施例中，每当听力装置的滤波器组提供输入信号的新时间帧时，神经网络被馈送新的输入特征向量(即，在该情形下，输入向量间将有一定的时间帧重叠)。然而，为降低计算复杂性(和功耗)，执行神经网络的频率可低于每时间帧一次，例如每10个时间帧一次，或者低于每20个时间帧一次(如少于每20ms一次或少于每40ms一次)。然而，优选地，在给定时间点馈给神经网络的上下文(输入特征向量)(在时间上)与先前的上下文重叠。在实施例中，神经网络的每一新执行之间的时间帧数量ΔL小于输入特征向量中的时间帧数量L(ΔL<L，例如ΔL/L≤0.5)以确保上下文重叠。作为堆叠时间帧的备选，可利用递归网络结构(如LSTM或GRU网络)。藉此，输入层可明显更小。

图7A用于图示任何类型的一般多层神经网络，如深度神经网络，在此体现为标准前馈神经网络。神经网络的深度(层数)在图7A中记为N并可以是任何数，通常适应所涉及的应用(例如受所涉及的设备如便携设备例如助听器的大小和/或电源容量限制)。在实施例中，神经网络中的层数大于或等于2或3。在实施例中，神经网络中的层数小于或等于10，例如在2到8的范围中或者在2到6的范围中。

图7A中图示的神经网络的节点用于实施神经网络的标准功能以使从在前节点到所涉及节点的分支的值同与相应分支相关联的权重相乘及将贡献加在一起作为层u节点v的和值Y’_v,u。和值Y’_v,u随后经历非线性函数f，从而提供层u节点v的合成值Z_uv＝f(Y’_v,u)。该值经使层u中的节点v与层u+1的节点连接的分支馈给下一层(u+1)。在图7A中，层u节点v的和值Y’_v,u(即在应用非线性(激活)函数以提供层u节点v的合成值之前)表达为：

其中w_p,v(u)指将应用于来自层L(u-1)中的节点p的输入的、层u的节点v的权重，及Z_p,v(u-1)为层u-1中第p个节点的信号值。同样的激活函数f用于所有节点(然而并不必须如此)。非线性函数可被参数化，及非线性函数的一个或多个参数可包括在节点参数的优化中。此外，偏置参数b_p,v可与每一节点相关联并参与节点参数的优化。示例性的非线性激活函数Z＝f(Y)在图7A中的插图中示意性示出。神经网络中使用的典型函数为修正线性单元(ReLu)、双曲正切函数(tanh)、sigmoid或softmax函数。然而，也可使用其它函数。如指明的，激活函数如ReLu函数可被参数化(例如以允许不同的斜率)。

神经网络的不同层的(可能参数化的)激活函数f和权重w及偏置参数b一起构成神经网络的参数。它们表示在本发明的神经网络的相应迭代程序中(一起)优化的参数。同一激活函数f可用于所有节点(这样，“神经网络的参数”由各层的权重和偏置参数构成)。在实施例中，至少对于神经网络的部分节点，未使用激活函数f。

通常，根据本发明的候选神经网络在离线程序中优化(训练)，例如使用人类的头和躯干的模型(如来自Brüel&

Sound&Vibration Measurement A/S的头和躯干模拟器(HATS)4128C)，其中HATS模型被“配备”与用户计划使用的听力装置同样类型(风格)的听力装置(或一对听力装置)。听力装置配置成在位于该模型的耳朵处时(就像听力装置由用户正常使用期间一样)拾取(声学传播的)训练数据。(例如根据图6的方案)定义多个不同类别的测试人员或者基于测试人员的参数如年龄、性别、体重/身高比、职业、“体型”等，基于涉及(N_x个)不同的各组人员的训练数据，优化N_x个不同的神经网络。理想地，应使用与用户的正常行为和声环境体验有关的训练数据。

在基于个性化的声学特性训练不同网络的情形下，最好记录来自不同人的声学特性。个人的声学特性例如可按[Moore et al.,2019]中描述的获得。

对于关键词检测器应用，自我话音检测可有利地用于限定在用户的句子中在哪里寻找关键词。因此，自我话音检测信号可用作预处理器(图1、2、5中的Pre-PRO)的输入以限定来自传声器(M1,M2)的电输入信号(IN1,IN2)。作为备选，自我话音检测信号可形成用作神经网络的输入的特征向量的一部分。这可能有利，因为用户不可能计划在句子的中间触发关键词(如唤醒词或命令词)。自我话音存在指示器的使用可使关键词仅在句子的开始进行检测。例如，可强加规则：仅可在前0.5秒或前1秒或前2秒未检测到自我话音(但“现在”检测到)时才可(有效地)检测关键词。

在图7A中，神经网络例示为前馈网络，但也可使用其它神经网络配置，例如卷积网络(CNN)、递归网络或其组合。

图8示出了根据本发明的听力装置的实施例，其包括配置成使能不使用外部设备即可在多套优化参数之中针对一神经网络选择一套优化参数的自适应单元。图8示出了根据本发明的自备式听力装置HD如助听器，其包括优化的神经网络NN*，例如用于实施影响听力装置的处理(参见给信号处理器PRO的控制信号RES)检测器DET。其可实施与结合图2所示和所述同样的功能，但不需要外部设备(图2中的ExD)用于神经网络节点参数优化程序(因而不需要到外部设备的无线链路(图2中的WLNK))。优化的候选神经网络(NN₁,NN₂,…,NN_K)及评估单元(比较和选择CMP-SEL)包括在听力装置中(参见自适应单元ADU)。在图8的实施例中，示出了两个传声器(M1,M2)，每一传声器提供表示环境中的声音的电输入信号。也可使用其它数量的输入变换器如传声器，例如一个、三个或更多个。来自辅助装置如安装在对侧耳朵处的听力装置的输入变换器(或任何其它体戴传声器)也可向神经网络提供输入特征。波束形成器可被包括在预处理器Pre-PRO中以使能基于来自两个以上传声器的电输入信号(IN1,IN2)产生定向信号。该定向信号例如可以是或包括用户自我话音的估计量(例如由朝向用户嘴巴的自我话音波束形成器产生)。波束成形信号(或其特有特征)可以是馈给用于实施检测器如自我话音检测器或关键词检测器的神经网络的信号(参见特征向量FV)。向预处理器Pre-PRO提供传感器控制信号SIN的非必需的传感器SENSE可以也可不形成听力装置HD的一部分。传感器例如可以是运动传感器，例如包括加速度或陀螺仪传感器。其它传感器例如可以是或包括磁力计、脑电图(EEG)传感器、脑磁图(MEG)传感器、心率检测器、血管容积图(PPG)传感器等。电输入信号(IN1,IN2)被馈给处理器PRO。处理器PRO可配置成将随频率和/或电平而变的增益应用于电输入信号(或其处理后版本，例如其空间滤波(波束形成)版本)。处理器PRO提供处理后的输出信号OUT，其被馈给输出变换器，在此为扬声器SPK，从而呈现给听力装置的用户。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

[Moore et al.,2019]Moore,A.H.,de Haan,J.M.,Pedersen,M.S.,Naylor,P.A.,Brookes,M.,&Jensen,J.(2019).Personalized signal-independent beamforming forbinaural hearing aids.The Journal of the Acoustical Society of America,145(5),2971-2981.

Claims

1.一种听力装置，配置成位于用户耳朵处或耳朵中或者完全或部分植入在用户头部中，所述听力装置包括：

-预处理器，用于处理所述至少一电输入信号并提供多个特征向量，每一特征向量表示所述至少一电输入信号的一时间段；

-神经网络处理器，其适于实施用于实施检测器或其一部分的神经网络，配置成提供指明至少一电输入信号的特有特性的输出，神经网络包括输入层、输出层和多个隐藏层，每一层包括多个节点，每一节点通过多个节点参数定义，神经网络配置成将所述多个特征向量接收为输入向量并根据所述输入向量提供表示所述检测器或其一部分的输出的相应的输出向量；

-后处理器，配置成接收所述输出向量，及其中所述后处理器配置成处理所述输出向量并提供所得的信号；

-收发器，其包括用于建立到另一部分或另一装置或服务器的通信链路的发射器和接收器，所述通信链路使能至少在自适应运行模式下向另一部分或另一装置或服务器传输数据和从另一部分或另一装置或服务器接收数据；

-选择器，用于在所述自适应运行模式下将所述特征向量发送到所述发射器从而传给另一部分或另一装置或服务器，及在正常运行模式下将所述特征向量发送到所述神经网络处理器而用作所述神经网络的输入；

所述听力装置配置成在自适应运行模式下从另一部分或另一装置或服务器接收优化的节点参数并将所述优化的节点参数应用于神经网络的节点从而在神经网络处理器中实施优化的神经网络，其中优化的节点参数已根据所述特征向量根据预定判据在用于相应候选神经网络的多套节点参数之中选择。

2.根据权利要求1所述的听力装置，包括传感器，用于感测用户或听力装置环境的特性及提供表示环境特性的当前值的传感器信号，其中所述传感器信号是预处理器的输入。

3.根据权利要求2所述的听力装置，其中所述预处理器配置成处理所述至少一电输入信号和所述传感器信号以提供特征向量。

4.根据权利要求1所述的听力装置，包括输出变换器，用于将处理后的输出信号作为可感知为声音的刺激呈现给用户。

5.根据权利要求1所述的听力装置，包括分析滤波器组，用于将时域输入信号转换为多个子频带信号从而提供时频表示(k,l)的输入信号，其中k和l分别为频率和时间指数。

6.根据权利要求1所述的听力装置，其中预处理器配置成提取至少一电输入信号和/或传感器信号的特征。

7.根据权利要求2所述的听力装置，其中由给定特征向量覆盖的、所述至少一电输入信号的时间段及非必须地所述传感器信号的对应值用作神经网络的输入层的输入，其包括至少一电输入信号的至少一时间帧。

8.根据权利要求1所述的听力装置，其中通过神经网络实施的检测器或其一部分是或包括自我话音检测器和/或关键词检测器。

9.根据权利要求1所述的听力装置，由助听器、头戴式耳机、耳麦、耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。

10.根据权利要求1所述的听力装置，其中所述预定判据与使关于所述输出向量的价值函数最小化有关。

11.根据权利要求1所述的听力装置，其中，当所述多个特征向量从具有已知特性的至少一电输入信号的时间段提取时，所述预定判据基于神经网络在所述输出向量的真正、假正、真拒绝和假拒绝方面的表现。

12.用在便携式听力装置中的神经网络的优化参数的选择方法，所述方法包括：

-将听力装置安装在用户处；

13.根据权利要求12所述的方法，其中每一候选神经网络已基于来自展现不同声学性质的、不同类别的人的训练数据进行训练。

14.根据权利要求12所述的方法，其中表示用户或用户环境的特性的当前值的信号与至少一电输入信号一起提供在听力装置中并进行处理以提供所述特征向量。

15.根据权利要求12所述的方法，包括提示用户说一个或多个词或句子，从而形成多个特征向量中的至少部分特征向量的基础。