CN112995876A

CN112995876A - 听力装置中的信号处理

Info

Publication number: CN112995876A
Application number: CN202011474597.5A
Authority: CN
Inventors: L·布莱姆斯隆
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2019-12-12
Filing date: 2020-12-14
Publication date: 2021-06-18
Also published as: US20230127309A1; US11564048B2; US20210185465A1; EP3836570A1

Abstract

本申请公开了听力装置中的信号处理，其中用于通过机器学习定义和设定听力装置的非线性信号处理的方法包括：提供至少一电输入信号，其表示来自听力装置用户环境的至少一输入声音信号；基于正常听力听觉模型确定至少一电输入信号的正常听力表示；基于听力受损听觉模型确定至少一电输入信号的听力受损表示；通过机器学习确定优化的训练参数，其中确定优化的训练参数包括反复调节训练参数及比较正常听力表示和听力受损表示以确定正常听力表示与听力受损表示之间的匹配度，直到匹配度满足预定要求为止；及当匹配度满足预定要求时，基于优化的训练参数确定听力装置的对应的信号处理参数。

Description

听力装置中的信号处理

技术领域

本申请涉及配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中的听力装置如助听器或头戴式耳机。

背景技术

耳蜗(感觉神经)听力损失在内耳(耳蜗)中导致许多退化，因而以许多方式改变健康耳蜗的非线性性态。动态听力范围减小，谱域和时域分辨率更差，因而，在有噪声情形下听见并识别语音的能力降低。在现代助听器中，这一定程度上通过非线性压缩和降噪来解决。

在听力研究中，正常和受损听力均已利用听觉模型进行研究。这些模型基于耳朵的生理学(生理模型)、心理声学(行为模型)或者二者的结合。所有这些模型将输入信号变换为某类“神经”或“听觉”表示，在进行变换时的处理步骤一般高度非线性。这些模型不是双向模型，因而它们不能直接用于“反推”听力或者得出将受损听觉表示变换为正常听觉表示所需要的信号处理的映射。

在耳蜗植入件中，听觉神经的刺激经插入到耳内的电极进行。相较于耳蜗中可用突触的数量，植入件具有非常少的几个电极，例如24个电极。每一电极刺激一系列附近的突触，由于电流扩布，该刺激不是非常特定的刺激。由于耳蜗植入件中的简单的语音处理及通道和电极数量有限，加上电流扩布，相较于正常听力，耳蜗植入件用户的声音感知严重降级。

听力损失通常测量为听力受损用户对纯音的听觉阈(反映在听力图中)，及听力受损模型应使能基于听力图平均地设定所有模型参数。然而，这并未捕获听力装置用户的个体听力受损的所有方面。

发明内容

在本申请的一方面，提供用于定义和设定听力装置的非线性信号处理的方法(例如用于补偿用户的听力受损)。听力装置可以是助听器或头戴式耳机。

用于定义和设定听力装置的非线性信号处理的方法可通过机器学习(例如有监督的机器学习)实现。

机器学习可包括提供神经网络，如深度神经网络。

该方法可以是训练用于定义和设定听力装置的非线性信号处理的神经网络的方法。

听力装置可配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中。

定义和设定非线性信号处理和/或训练神经网络可在听力装置产品制造期间进行，和/或可在听力装置制造之后进行，和/或可在将听力装置交给听力装置用户之后(例如在使用听力装置期间)进行。

该方法可包括提供至少一电输入信号。电输入信号可表示来自听力装置用户环境的至少一输入声音信号。至少一输入声音信号可包括源自一个或多个语音声源的语音分量。电输入信号可包括包含噪声信号分量的声音。噪声信号分量可源自一个或多个噪声声源。电输入信号可表示听力装置用户环境中的声音。至少一电输入信号可包括来自听力装置用户的日常生活的相应电输入信号的大量素材。例如，至少一电输入信号可包括语音与许多类型的背景噪声的结合，可包括纯净语音，和/或可包括音乐等。

该方法可包括确定至少一电输入信号的正常听力表示，例如与听觉神经中的信号类似的“神经表示”[9]或者与心理声学掩模图类似的“兴奋图”[10]。正常听力表示可基于正常听力听觉模型确定。正常听力表示可指至少一电输入信号的音频的感知，其假定为正常听力听者中大脑可获得的感知。

确定正常听力表示可指采集或选择一个或多个电输入信号及对应的表示。一个或多个电输入信号可源自语音声音信号和/或噪声声音信号和/或其它声音信号的库，例如包括音乐、来自电视的声音、电子声音和/或动物声音。藉此，可在初始训练时得到一个好的默认的正常听力表示版本。

该方法可包括确定至少一电输入信号的听力受损表示。听力受损表示可基于听力受损听觉模型。听力受损表示可指至少一电输入信号的音频的感知，其假定为听力受损听者(如听力装置用户)的大脑可获得的感知。个体听力损失的主要临床描述为听力图(例如[11])，其中0dB HL表示正常听力，及X dB HL表示X dB听力损失。因而，听力图可用作听觉模型的个体输入参数。听力图可包括下述之一或多个：与年龄有关的听力损失、噪声引起的听力损失、遗传性听力损失、反坡听力损失、及咬饼式听力损失。

确定听力受损表示可指采集或选择一个或多个电输入信号及个体或一般听力图(如原型听力图[11])，其将受听力图(如原型听力图)描述的听力损失程度影响。一个或多个电输入信号可源自语音声音信号和/或噪声声音信号和/或其它声音信号的库，例如包括音乐、来自电视的声音、电子声音和/或动物声音。藉此，可在初始训练时得到一个好的默认的听力受损表示版本。

听力受损表示、正常听力表示及对应的听觉模型可在初始训练(及可能的进一步训练)期间使用，但不必存储在听力装置中。

该方法可包括通过机器学习确定优化的训练参数。

该方法可包括确定神经网络(算法)的优化的训练参数(权重)。

机器学习可用于定义和设定听力装置的非线性信号处理。

神经网络可用于通过训练神经网络而定义和设定听力装置的非线性信号处理。

机器学习和/或神经网络可配置成确定至少一电输入信号在一个或多个频率所需的增强和/或衰减。

例如，神经网络可在产品开发阶段基于原型听力图和对应的声音信号库进行训练，使得在神经网络的初始训练之后可获得神经网络参数(和信号处理参数)的好的默认版本。

确定优化的训练参数可包括反复调节训练参数。

训练神经网络可包括反复调节神经网络的训练参数。

确定优化的训练参数和/或训练神经网络可包括反复比较正常听力表示和听力受损表示以确定正常听力表示与听力受损表示之间的匹配度(误差度量)。

确定优化的训练参数和/或训练神经网络可包括反复调节神经网络的参数并比较正常听力表示和听力受损表示以确定正常听力表示与听力受损表示之间的匹配度，直到匹配度满足预定要求为止，例如基于价值函数或损失函数，例如均方误差(MSE)。

神经网络的参数可指神经网络的权重。

比较可包括比较通过所应用的相应听觉模型定义/确定的、构成正常听力表示和听力受损表示的一个或多个参数。

预定要求可指一个或多个预定值。例如，预定要求可以是正常听力表示与听力受损表示之间的偏差(在所有比较的值例如频率时)总共必须低于预定值(如<20％、<10％、<5％、<2％或其它)。例如，预定要求可以是正常听力表示与听力受损表示之间在每一比较的值(例如在每一频率)时的偏差必须低于预定值(如<20％、<10％、<5％、<2％或其它)。

预定要求可包括使价值函数最小化，即使正常听力表示与听力受损表示之间的差最小化，将低于预定值。

该方法可包括，当匹配度满足预定要求时，基于优化的训练参数确定听力装置的对应的信号处理参数。

信号处理参数可指增益(例如包括提供掩模)、降噪、增强(例如谱整形)和/或其它与信号处理有关的参数。

确定听力装置的对应的信号处理参数可包括将神经网络的优化的参数转换为听力装置的对应的信号处理参数。例如，确定听力装置的对应的信号处理参数可包括将神经网络的优化的权重转换为听力装置的对应的信号处理参数。

从而，可在听力受损用户的耳朵中提供输出信号，其具有提高的与对应正常听力感知的相似性。

该方法包括，基于信号处理参数，提供表示可由听力装置用户感知为声音的刺激的至少一输出信号。基于信号处理参数提供至少一输出信号可包括增强和/或放大电输入信号以提供输出信号。

提供至少一电输入信号可包括提供多个电输入信号。例如，可提供至少两个电输入信号。例如，可提供至少三个电输入信号。

多个电输入信号可包括来自听力装置用户的日常生活的相应电输入信号的大量素材，例如语音与许多类型的背景噪声的结合、纯净语音、音乐等。相应电输入信号可存储在存储装置上作为音频信号及对应的听力图的库。从而，在初始训练之后可得到好的听力受损表示(及对应的信号处理参数)。

多个电输入信号可一次提供一个。藉此，可针对第一电输入信号确定神经网络的训练参数和对应的信号处理参数，及针对第二电输入信号进一步调节，等等，直到神经网络已基于多个电输入信号中的所有电输入信号进行训练为止。

多个电输入信号可同时提供两个以上。藉此，神经网络的训练参数和对应的信号处理参数可一次基于两个以上电输入信号进行确定，这是时间效率高的方式，直到神经网络已基于多个电输入信号中的所有电输入信号进行训练为止。

该方法还可包括将电输入信号变换为频谱。

该方法可利用分析滤波器组将电输入信号变换为频谱。

该方法可通过对电输入信号进行傅里叶变换而将电输入信号变换为频谱。

听力装置如输入单元和/或天线和收发器电路可包括TF转换单元，用于提供至少一电输入信号的时频表示。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的数组或映射。TF转换单元可包括分析滤波器组，用于对(时变)输入信号进行滤波并提供多个(时变)输出信号，每一输出信号包括输入信号的截然不同的频率范围。TF转换单元可包括傅里叶变换单元，用于将时变输入信号转换为(时-)频域的(时变)信号。从而，提供频率分解的电输入信号。

分析滤波器组也可设计成模仿与人类听觉类似的频率分解，例如Gammatone滤波器组([12])。

听力的正常听觉阈和听力的听力受损阈可通过听力图参数化。

听力图可通过接近于零dB HL(例如最大15dB HL)而表示正常听力用户。

听力图可通过具有大于零dB HL(例如>30dB HL)的值而表示听力受损用户。

耳朵的生理学(生理模型)、心理声学(行为模型)或者二者的组合可通过正常听力的听力图和/或听力受损的听力图参数化。

从而，提供容易比较且临床上接受的输入参数。

通过机器学习确定优化的训练参数可包括通过训练神经网络确定该神经网络的优化的训练参数。

神经网络可以是深度神经网络。

神经网络和/或深度神经网络提供进行计算集中的训练的可能性。

深度神经网络(DNN)可使用N个样本/系数将输入信号变换为同样类型的N个输出样本/系数。神经网络可以是没有记忆的传统前馈DNN[1]，或长短期记忆(LSTM)或卷积递归神经网络(CRNN)[1]，二者均包含记忆因而能够从先前的输入样本学习。

DNN可包括自编码器。

当使用传统的前馈DNN时，其也可被修改成所谓的自编码器[2]，其中网络的中间层具有比输入和输出维度N小的维度。这将输入变换为更简单的包含实质特征的表示，其然后可被修改以获得给定结果。这些降噪和超分辨率的自编码器已成功用于将有噪声和模糊的图像增强回到无噪声高分辨率图像[3]。

该方法还可包括提供至少一阈上(超阈值)度量。

通过将至少一阈上度量提供为听觉模型的输入，增大神经网络调节其参数的能力，直到正常听力表示与听力受损表示之间的匹配度最佳为止。

确定至少一电输入信号的听力受损表示还可基于至少一阈上度量。

听力损失通常测量为听力受损用户对纯音的听觉阈(听力图)，及听力受损模型应使能基于听力图平均地设定所有其它模型参数。然而，这并未捕获个体听力受损的所有方面。阈上度量可表征例如扩展的听觉滤波[4]、耳蜗压缩的损失[5]或谱-时调制检测[6]。因而，听力受损表示(受损听觉模型)中的参数可进一步基于(适应)阈上度量。阈上度量可以是个体测量结果(定制测量结果)[5]。阈上度量可提供听力装置的神经网络的个别化(定制)训练。

在生理模型中，例如可测量耳蜗压缩，然后插入在该模型中[5]。该模型中的另一重要因素是从总毛细胞损失(从听力图估计)估计内和外毛细胞的相对损失。这可经阈平衡噪声(Threshold equalising noise，TEN)测试进行估计，其中听觉阈使用掩蔽噪声进行测量[15]。在心理声学模型中，等效矩形带宽(equivalent rectangular bandwidth，ERB)可使用切迹噪声方法进行测量[4]。

因而，神经网络的训练可进一步基于从听力装置用户获得的至少一阈上度量。藉此，神经网络(因而听力装置)可被进一步训练以适应个体听力装置用户的需要。神经网络的进一步训练可称为“传递学习”[1]。神经网络的进一步训练可在生产期间、在对用户初始验配听力装置期间和/或在听力装置用户已佩戴听力装置一定时间之后进行。

神经网络的进一步训练可在听力装置用户已开始使用听力装置及听力装置用户在其日常生活中遭遇的实际声音环境的音频样本(测量结果)已被收集之后进行。

至少一阈上度量可包括扩展的听觉滤波。

至少一阈上度量可包括耳蜗压缩的损失。

至少一阈上度量可包括谱-时调制检测。

至少一阈上度量可包括扩展的听觉滤波、耳蜗压缩的损失及谱-时调制检测中的两个以上。

正常听力听觉模型和听力受损听觉模型可基于同一听觉模型。

该方法还可包括提供至少一听力图。

确定至少一电输入信号的听力受损表示还可基于所述至少一听力图。

至少一听力图可包括听力装置用户特有的听力图和/或一般(通用)听力图。

听力受损听觉模型可基于正常听力听觉模型。

正常听力听觉模型和听力受损听觉模型的输出表示(参数)可一样。从而，可发生神经网络的最佳训练，因为正常听力听觉模型和听力受损听觉模型的输出参数可直接比较。

正常听力听觉模型和听力受损听觉模型可一样。从而，听觉模型所需的输入参数类型及听觉模型的输出参数类型可一样，但听觉模型的具体输入参数(如值)可根据用户是听力正常还是听力受损而变化。因而，可发生神经网络的最佳训练，因为正常听力听觉模型和听力受损听觉模型的输出参数可直接比较。

听力图、听觉滤波带宽和/或耳蜗压缩测量结果可用于表示听觉模型的参数。

可提供误差度量。误差度量例如可包括跨频道的均方根(RMS)误差，或者可感知上基于模型中不同加权的不同误差。感知加权的简单例子可以是语音可懂度指数(SpeechIntelligibility Index，SII)(ANSI S3.5,2007)中使用的频带加权，其中，每一频带对语音可懂度的相对重要性乘以同一频带中的语音电平，然后跨频带求和。从而，跨整个训练集的集合误差度量可用作训练质量及与正常听力的匹配的结果度量。也可能基于听觉模型中的内部变量或表示构建其它误差度量，其将反映正常听力表示与听力受损表示之间的匹配质量。

在本申请的一方面，提供一种听力装置。该听力装置可包括助听器或头戴式耳机。该听力装置可适于佩戴在用户耳朵中或耳朵处。该听力装置可适于完全或部分植入在用户头部中。

听力装置可包括输入单元，用于从听力装置用户的环境接收输入声音信号。听力装置可提供表示所述输入声音信号的至少一电输入信号。

听力装置可包括输出单元，用于基于至少一电输入信号的处理后版本提供至少一组可由用户感知为声音的刺激。

听力装置可包括处理单元。

处理单元可连接到所述输入单元。

处理单元可连接到所述输出单元。

处理单元可包括听力装置的信号处理参数。

处理单元可包括听力装置的信号处理参数以提供至少一电输入信号的处理后版本。

信号处理参数可基于优化的训练参数确定。优化的训练参数可通过机器学习确定。优化的训练参数可属于神经网络。神经网络可包括深度神经网络。

神经网络可根据上面描述的方法进行训练。

神经网络的训练可在服务器如云服务器中进行。从而，训练可分布到服务器，及听力装置可接收信号处理参数的经训练的版本。

神经网络的训练可至少部分在外部设备如移动设备中进行。从而，训练可至少部分分布到外部设备，及听力装置可接收信号处理参数的经训练的版本。

由于训练神经网络是计算集中的任务，在听力装置外部如在服务器或外部设备中进行训练可降低听力装置的功耗。

神经网络的训练或者至少部分训练可由连接到听力装置的智能电话或者听力装置自身执行。从而，听力装置可配置成在初始生产及针对听力装置用户验配期间进行训练，但也可在用户已接收听力装置之后，听力装置不必连接到服务器或外部设备，或者至少仅每隔一段时间才需要连接到服务器或外部设备。

神经网络可提供至少一电输入信号的处理后版本。神经网络例如可配置成提供(随频率和时间而变的)信号处理因子以应用于至少一电输入信号(或其处理后版本)。信号处理因子可配置成补偿听力装置佩戴者(用户)的听力受损。听力装置可配置成通过神经网络提供至少一电输入信号的处理后版本。

听力装置可配置成基于信号处理参数基于至少一电输入信号的处理后版本提供至少一组可由用户感知为声音的刺激。

听力装置可配置成由输出单元基于信号处理参数提供至少一输出信号，其表示可由听力装置用户感知为声音的刺激。

处理单元可包括根据上面描述的方法训练的深度神经网络。处理单元可配置成提供至少一电输入信号的处理后版本。处理单元可配置成基于上面描述的经训练的深度神经网络提供至少一电输入信号的处理后版本。

听力装置可配置成基于表示用户环境中的声音的音频进一步训练。

表示用户环境中的声音的音频可包括来自用户或来自其他人的语音、音乐、来自电视的音频、自然产生的音频等。

用于定义和设定听力装置的非线性信号处理的神经网络的进一步训练可在用户已开始使用听力装置之后进行。因此，进一步训练可看作听力装置针对用户的进一步定制，使得听力装置在用户环境中(即在听力装置正常工作的环境中)提供/应用最佳的信号处理参数。

听力装置可包括用于将电输入信号变换为频谱的分析滤波器组。

分析滤波器组可设置在输入单元后面(下游)。分析滤波器组可设置在处理单元前面。

听力装置可包括电输入信号的傅里叶变换。

分析滤波器组(及听力装置)可配置成提供电输入信号的频率分解(频谱)。

分析滤波器组(及听力装置)可配置成将电输入信号的频率分解版本(频谱)提供给处理单元。

电输入信号可直接在时域提供为波形，或者可使用例如分析滤波器组或傅里叶变换而变换到频域。

处理单元可将与电输入信号对应的(基于正常听力听觉模型的)正常听力表示提供给神经网络。

处理单元可将与电输入信号对应的(基于听力受损听觉模型的)听力受损表示提供给神经网络。

听力装置可包括合成滤波器组，用于将至少一电输出信号变换为表示可由听力装置用户感知为声音的刺激的信号。

合成滤波器组可设置在处理单元后面。合成滤波器组可设置在听力装置的输出单元前面。

合成滤波器组可将频率分解的信号(频谱)转换为时间分解的信号。

听力装置可包括增益模块。听力装置可包括掩模。听力装置可包括包含掩模的增益模块。

听力装置可提供非线性时变增益。听力装置的增益模块可提供非线性时变增益。非线性时变增益可通过机器学习如通过神经网络进行计算/确定并可直接应用。

听力装置(如增益模块)可包括时频掩模。例如，时频掩模可结合降噪和/或波束形成使用，其中可应用作为频率和时间的函数的相乘因子(例如在0到1之间，例如二值掩码)。

掩模和/或增益模块可设置在输出单元前面。掩模和/或增益模块可设置在合成滤波器组前面。掩模可设置在提供听力装置的信号处理参数的处理单元后面。

神经网络可估计时频掩模，其然后可被应用于频率分解的电输入信号(频谱)。

听力装置可构成或包括助听器。

助听器可配置成完全或部分植入在用户耳朵处的头部中。

听力装置可构成或包括头戴式耳机。

听力装置可构成或包括耳麦。

听力装置可构成或包括耳朵保护装置。

听力装置可构成或包括助听器、头戴式耳机、耳麦和耳朵保护装置的组合。

听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。听力装置可包括信号处理器，用于增强输入信号并提供处理后的输出信号。

听力装置可包括输出单元，用于基于处理后的电信号提供由用户感知为声信号的刺激。输出单元可包括耳蜗植入件(用于CI型听力装置)的多个电极或者骨导听力装置的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)听力装置中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。

听力装置可包括用于提供表示声音的电输入信号的输入单元。输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号的无线接收器。无线接收器例如可配置成接收在射频范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz，或可见光，例如430THz到770THz)的电磁信号。

听力装置可包括定向传声器系统，其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

听力装置可包括用于从另一装置如从娱乐设备(例如电视机)、通信装置、无线传声器或另一听力装置接收直接电输入信号的天线和收发器电路(如无线接收器)。直接电输入信号可表示或包括音频信号和/或控制信号和/或信息信号。听力装置可包括用于对所接收的直接电输入进行解调的解调电路，以提供表示音频信号和/或控制信号的直接电输入信号，例如用于设置听力装置的运行参数(如音量)和/或处理参数。总的来说，听力装置的天线及收发器电路建立的无线链路可以是任何类型。无线链路在两个装置之间建立，例如在娱乐装置(如TV)和听力装置之间，或者在两个听力装置之间，例如经第三中间装置(如处理装置，例如遥控装置、智能电话等)。无线链路在功率约束条件下使用，例如由于听力装置可以是或包括便携式(通常电池驱动的)装置。无线链路为基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。无线链路可基于远场电磁辐射。经无线链路的通信根据特定调制方案进行安排，例如模拟调制方案，如FM(调频)或AM(调幅)或PM(调相)，或数字调制方案，如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。

听力装置与另一装置之间的通信可处于基带(音频频率范围，如0和20kHz之间)中。优选地，用于在听力装置和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。无线链路基于标准化或专用技术。无线链路基于蓝牙技术(如蓝牙低功率技术)。

听力装置可以是便携(即配置成可穿戴)装置或形成其一部分，如包括本机能源如电池例如可再充电电池的装置。听力装置可以是轻质、容易穿戴的装置，例如具有小于100g的总重量，例如小于10g。

听力装置可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器位于该正向通路中。信号处理器适于根据用户的特定需要提供随频率而变的增益。听力装置可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。

表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值，N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，如50μs，对于f_s＝20kHz。多个音频样本可按时间帧安排。一时间帧可包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。

听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

听力装置如输入单元和/或天线及收发器电路包括用于提供输入信号的时频表示的TF转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。听力装置考虑的、从最小频率f_min到最大频率f_max的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率f_max的两倍，即f_s≥2f_max。听力装置的正向通路和/或分析通路的信号可拆分为NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。听力装置适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

听力装置可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式，其中听力装置的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用听力装置的特定特征。

听力装置可包括多个检测器，其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外，一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。

多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域)，例如在有限的多个频带中。

多个检测器可包括用于估计正向通路的信号的当前电平的电平(L)检测器。检测器可配置成确定正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。

听力装置可包括话音活动检测器(VAD)，用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选，话音活动检测器可适于从“话音”的检测排除用户自己的话音。

听力装置可包括自我话音检测器，用于估计特定输入声音(如话音，如语音)是否(或以何种概率)源自听力系统用户的话音。听力装置的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。

多个检测器可包括运动检测器，例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。

听力装置可包括分类单元，配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中，“当前情形”由下面的一个或多个定义：

a)物理环境(如包括当前电磁环境，例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号)，或者当前环境不同于声学的其它性质)；

b)当前声学情形(输入电平、反馈等)；

c)用户的当前模式或状态(运动、温度、认知负荷等)；

d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。

分类单元可基于或者包括神经网络例如经训练的神经网络。

听力装置还可包括用于所涉及应用的其它适宜功能，如压缩、降噪、反馈控制等。

听力装置可包括听音装置如助听器、听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器，例如头戴式耳机、耳麦、耳朵保护装置或其组合。助听系统可包括喇叭扩音器(包含多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应装置一样的优点。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。可提供在包括音频分布的系统中的应用，例如包括彼此足够接近的传声器和扬声器从而在用户操作期间导致从扬声器到传声器的反馈的系统。可提供在包括一个或多个助听器(如听力仪器)的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用，例如在免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等中的用途。

计算机可读介质或数据载体

本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体)，当计算机程序在数据处理系统上运行时，使得数据处理系统(计算机)执行(完成)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制，前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置，或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的，盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘，其中这些盘通常磁性地复制数据，同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及辅助装置的听力系统。

听力系统适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

辅助装置可包括遥控器、智能电话、或者其它便携或可穿戴电子设备如智能手表等。

辅助装置可由遥控器构成或者可包括遥控器，其用于控制听力装置的功能和运行。遥控器的功能实施在智能电话中，智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

辅助装置可以是或包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。

辅助装置可由另一听力装置构成或者可包括另一听力装置。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。

公开了包括左和右根据上面的听力装置的听力系统。左和右听力装置配置成分别佩戴在用户的左和右耳中或者左和右耳处，和/或分别完全或部分植入在用户的左和右耳处的头部中，及配置成在它们之间建立有线或无线连接从而使数据如音频数据能在它们之间交换，非必须地，经中间装置进行交换。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。

定义

在本说明书中，“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

听力装置可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此(例如声学、电学或光学)通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

更一般地，听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器，例如包括可配置(可编程)的处理器，例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些听力装置中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中，输出单元可包括一个或多个用于(例如向多电极阵列)提供电信号的输出电极，用于电刺激耳蜗神经(耳蜗植入型助听器)。听力装置可包括喇叭扩音器(包括多个输入变换器和多个输出变换器)，例如用在音频会议情形。

在一些听力装置中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中，振动器可植入在中耳和/或内耳中。在一些听力装置中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到听力装置，并由听力装置的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与听力装置通信并影响和/或受益于听力装置的功能。前述辅助装置可包括下述的至少一个：遥控器、远程传声器、音频网关设备、娱乐设备如音乐播放器、无线通信装置如移动电话(例如智能电话)、平板电脑或另一装置例如包括图形界面。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如TV、音乐播放或卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1示出了根据本发明的用于定义和设定听力装置系统的非线性信号处理的神经网络的训练的示例性应用情形；

图2示出了根据本发明的用于定义和设定听力装置系统的非线性信号处理的神经网络的训练的示例性应用情形；

图3示出了根据本发明的用于定义和设定听力装置系统的非线性信号处理的神经网络的训练的示例性应用情形；

图4示出了根据本发明的听力装置的示例性应用情形；

图5示出了根据本发明的听力装置的示例性应用情形；

图6示出了根据本发明的听力装置的示例性应用情形；

图7示出了根据本发明实施例的听力装置，其使用经训练的(针对特定用户个人化的)神经网络在处理后的信号呈现给佩戴听力装置的用户之前控制听力装置中的表示声音的信号的处理；

图8示出了用于提供正常听力或听力受损表示的听觉模型的示例性应用情形。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微机电系统(MEMS)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件，例如用于感测和/或记录环境、装置、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等，无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

本申请涉及听力装置领域，例如助听器、头戴式耳机、耳麦和/或耳朵保护装置。

图1示出了根据本发明的用于定义和设定听力装置系统的非线性信号处理的神经网络的训练的示例性应用情形。

在图1中，在S1，可提供至少一电输入信号。至少一电输入信号可表示来自听力装置用户环境的至少一输入声音信号。至少一输入声音信号可包括来自一个或多个声源的一个或多个语音信号及可包括来自一个或多个其它声源的另外的信号分量(称为噪声信号分量)。电输入信号可在时域提供为波形。电输入信号可通过听力装置的输入单元提供。

在S2，可提供分析滤波器组(和/或傅里叶变换单元)。至少一电输入信号可被提供给分析滤波器组(和/或傅里叶变换单元)(及由其进行处理)。在分析滤波器组中，电输入信号可被变换到频域。分析滤波器组可配置成将至少一电输入信号变换为(频率分解的)频谱。分析滤波器组可设置在听力装置的输入单元后面。

在S4，基于时域或频域的至少一电输入信号，可确定正常听力表示。正常听力表示的确定可基于在S3提供的正常听力听觉模型。正常听力表示可以是听力图形式的输出。

在S6，基于时域或频域的至少一电输入信号，可确定初始的听力受损表示。听力受损表示的确定可基于在S5提供的听力受损听觉模型。听力受损表示可以是听力图形式的输出。

正常听力表示和听力受损表示例如可被提供给误差度量模块，用于在S16提供误差度量(以确定匹配度)。

在包括电输入信号、正常听力表示和听力受损表示的输入基础上，在S7可确定所提供的神经网络的优化的训练参数。如图1中所示，神经网络可以是深度神经网络。确定神经网络的优化的训练参数的步骤可导致听力装置的信号处理参数。

听觉模型已长期用作研究工具及用于开发听觉机构和进一步用作用于不同目的的声音信号的进一步分析和处理的近似前端，例如[14]。

有两种基本的、不同类型的听觉模型：

1)生理模型，其表示耳朵解剖学的不同功能阶段：外耳、中耳、内耳。内耳通过基膜、外毛细胞、内毛细胞、突触、螺旋神经节、听觉神经、中脑等描述。这些模型通常已使用动物数据例如猫的听觉神经纤维记录进行设计和确认。

2)心理声学模型(有时也称为唯象模型)，其基于人耳的功能性度量，例如频率掩蔽、响度增长等。该模型的优点在于其可经不同的经典心理声学测试进行确认。另一方面，相较生理模型，输出不太丰富/详细。

根据听觉模型的类型，表示可基于不同的解释。在生理模型中，该表示可代表听觉神经输出[7]或者中脑(脑干)神经活动[9]。在心理声学模型中，该表示可以是“兴奋图”[11][13]，类似于掩模图或“特定”响度图，其为细分到频带的响度[13][14]。

神经网络的训练可包括反复执行下面的步骤：调节神经网络的训练参数，将正常听力表示与听力受损表示进行比较以确定正常听力表示与听力受损表示之间的匹配度。调节神经网络的训练参数可包括调节神经网络的权重。

例如，训练可包括通过在S16提供误差度量而比较初始的听力受损听力图和正常听力的听力图，及反复调节神经网络的训练参数(及听力受损表示的对应的信号处理参数)，使得应用了所确定的信号处理的听力受损听力图逼近正常听力的听力图。

基于正常听力表示与听力受损表示的比较，可确定正常听力表示与听力受损表示之间的匹配度。例如，比较可包括在对应的电输入信号时比较正常听力的听力图和听力受损听力图。

可进行训练直到匹配度满足预定要求为止。例如，预定要求可指一个或多个预定值。例如，预定要求可以是正常听力表示与听力受损表示之间的偏差(在所有比较的值例如频率时)总共必须低于预定值(如<20％、<10％、<5％、<2％或其它)。例如，预定要求可以是正常听力表示与听力受损表示之间在每一比较的值(例如在每一频率)时的偏差必须低于预定值(如<20％、<10％、<5％、<2％或其它)。

在图1中，如图所示，步骤S3、S4、S5、S6、S7和S16可在一个单元(由点线框标示)中执行。该单元可以是听力装置的处理单元。

该单元也可以是服务器如云服务器或者移动设备。从而，服务器或移动设备可执行计算量大的训练，及听力装置可接收神经网络的经训练的版本或者所得的信号处理参数。

在训练已基于电输入信号完成之后，训练可基于一个或多个另外的电输入信号重复，使得神经网络和对应的信号处理参数可被进一步调节(精调)，使得给听力受损用户的输出信号尽可能接近正常听力用户接收的音频信号。

在神经网络的(初始)训练期间，即在听力装置用户开始使用听力装置之前，用户可提供另外的听力学数据用于训练神经网络。提供另外的听力学数据可包括在S8提供例如来自听力受损用户的日常生活(环境中)的一个或多个听力图，例如与许多类型的背景噪声组合的语音、纯净语音、音乐等。一个或多个听力图可基于下述之一或多个：与年龄有关的听力损失、噪声引起的听力损失、遗传性听力损失、反坡听力损失、及咬饼式听力损失。

提供另外的听力学数据还可包括在S9提供阈上度量，例如扩展的听觉滤波、耳蜗压缩的损失、或者谱-时调制检测。S9的阈上度量可被表示为频率特有Q值(滤波斜率的向量)、频率特有压缩比(压缩向量(CR))、标量值如谱-时调制阈值(dB)[6]或其它形式的输入参数。

另外或作为备选，在听力装置用户已开始使用听力装置之后，神经网络可基于另外的听力学数据进一步训练。

在匹配度满足预定要求时，可确定对应的用于听力装置的信号处理参数。

在电输入信号被提供给分析滤波器组或者被傅里叶变换的情形下，在S10，来自神经网络的输出可被提供给合成滤波器组。在合成滤波器组中，来自神经网络的输出可被变换回到时域。

基于来自神经网络的输出(至少一电输入信号的处理后版本)或来自合成滤波器组的输出，在S11，提供表示可由听力装置用户感知为声音的刺激的至少一输出信号。

图2示出了根据本发明的用于定义和设定听力装置系统的非线性信号处理的神经网络的训练的示例性应用情形。

图1中所示的神经网络的训练步骤的主要部分与图2中的训练步骤类似。因而参考上面图1的描述。

图2区别于图1之处在于，在S12，通过增益模块提供增益，或者作为备选，提供例如至少一电输入信号的处理后版本的掩模。

如图所示，掩模或增益模块可直接从分析滤波器组和/或神经网络接收输入。神经网络可将增益估计为时变增益，时变增益可提供来用于听力损失补偿。神经网络可将掩模估计为时频掩模，其然后可在神经网络训练期间应用于频率分解的电输入信号(频谱)。掩模或增益模块可设置在听力装置的输出单元前面。掩模或增益模块可设置在合成滤波器组前面。因此，掩模或增益模块可在神经网络训练期间应用在调节后的听力受损表示上。此外，掩模或增益模块可应用于从神经网络到听力装置的合成滤波器组和到输出单元的处理后的信号上。

此外，图2的示例性应用情形的方法还可包括提供标准助听器多通道压缩或其它标准助听器算法。标准助听器多通道压缩或其它标准助听器算法可在增益模块(或时频掩模)之前或之后提供。从而，神经网络和掩模和/或增益模块可能正提供所需时频处理的未知的“其余”处理。

图3示出了根据本发明的用于定义和设定听力装置系统的非线性信号处理的神经网络的训练的示例性应用情形。

图1和图2中所示的神经网络的训练步骤的主要部分与图3中的训练步骤类似。因而参考上面图1和图2的描述。

图3区别于图1和图2之处在于，提供用于电刺激的模型，例如[16]，代替听力受损听觉模型。用于电刺激的模型例如可用在听力装置为耳蜗植入件的情形。

这样的模型的输入可以是电流，因此，耳蜗植入件自身需要被包括在系统中以使用脉冲编码策略和音频信号处理提供从声刺激到电刺激的变换。该模型可针对刺激个体的听觉建立(例如用户的电听觉阈和不舒适度，这些均为标准度量)，否则，训练和优化程序可与图1和图2的类似。

因而，在图3中，脉冲生成可在S13由耳蜗植入件提供。用于脉冲生成的耳蜗植入件可通过在S14提供的验配参数(如听力水平，不舒适度等)进行验配。验配参数可基于下述之一或多个：与年龄有关的听力损失、噪声引起的听力损失、遗传性听力损失等。

脉冲生成可提供给在S15提供的电刺激听觉模型。电刺激听觉模型还可被提供阈上度量。听力受损表示可在S6基于电刺激听觉模型提供。

当(例如在S16提供误差度量时)匹配度满足预定要求时，在S11可提供输出信号。

图4示出了根据本发明的听力装置的示例性应用情形。

在图4中，示出了听力装置1，其可以是助听器，适于佩戴在用户耳朵中或耳朵处，和/或适于完全或部分植入在用户头部中。

听力装置1可包括输入单元2，用于从听力装置用户环境接收输入声音信号并提供表示所述输入声音信号的至少一电输入信号。

听力装置1可包括分析滤波器组3。在分析滤波器组3中，至少一电输入信号可被变换到频域。因而，分析滤波器组3可配置成将至少一电输入信号变换为(频率分解的)频谱。

听力装置1的处理单元4可例如经分析滤波器组3连接到输入单元2。处理单元4可包括神经网络的经训练的版本。在图4中，示出了神经网络可以是深度神经网络5。当神经网络被训练(已完成初始训练)时，神经网络的参数被优化和固定。处理单元4(和听力装置1)可配置成基于神经网络的固定的训练参数确定听力装置1的对应的信号处理参数。此外，处理单元4(及听力装置1)可配置成提供例如经分析滤波器组3来自输入单元2的至少一电输入信号的处理后版本(即处理后的信号)。

处理单元4(和听力装置1)可配置成将至少一电输入信号的处理后版本例如经合成滤波器组6提供给听力装置1的输出单元7。输出单元7可配置成将处理后的信号或源自其的信号转换为至少一组可由听力装置用户感知为声音的刺激。

图5示出了根据本发明的听力装置的示例性应用情形。

图5中所示的听力装置1的主要部分与图4中所示的听力装置1类似。因而参考上面图4的描述。

图5区别于图4之处在于施加增益模块8或掩模。

如图所示，增益模块8或掩模可直接从分析滤波器组3和/或神经网络(深度神经网络5)接收输入。神经网络可估计增益模块8的非线性时变增益。

神经网络可将掩模估计为时频掩模，其然后同样可在神经网络训练期间应用于频率分解的电输入信号(频谱)，如上所述。

因而，处理单元4(和听力装置1)可配置成将增益模块8或掩模应用于从神经网络例如经合成滤波器组6到听力装置1的输出单元7的处理后的信号。

作为备选，代替应用包括深度神经网络5的处理单元4，可应用传统的听力装置处理单元4a。

图6示出了根据本发明的听力装置的示例性应用情形。

图6中所示的听力装置1的主要部分与图4和图5中所示的听力装置1类似。因而参考上面图4和图5的描述。

图6与听力装置可以是耳蜗植入件的情形有关。因而，图6不同于图4和图5之处在于，应用脉冲生成模块6a，代替合成滤波器组6。非必须地，脉冲生成模块6a可通过拟合参数6b进行拟合。因而，输出单元7例如可将增强的脉冲序列提供为输出信号。

图7示出了根据本发明实施例的听力装置HD，其使用经训练的(按本说明书中描述的针对特定用户个人化的)神经网络NN*在处理后的信号呈现给佩戴听力装置的用户之前控制听力装置中的表示声音的信号的处理。听力装置HD包括例如从相应传声器(M1,M2)提供电输入信号(IN1,IN2)的输入单元IU。输入单元IU例如包括相应的分析滤波器组以按子频带表示(k,m)提供电输入信号(IN1,IN2)，k和m分别为频率和时间指数。听力装置可包括预处理器Pre-Pro，其接收(至少一)电输入信号(IN1,IN2)并准备给神经网络NN*的适当输入向量FV。输入向量FV可包括电输入信号或其处理后版本(例如一个所述信号的提取的特征)的一个或多个时间帧。优化的神经网络NN*的输出信号GAIN馈给听力装置的处理器PRO。处理器PRO从输入单元IU接收电输入信号(IN1,IN2)(或其波束成形版本)并根据神经网络NN*的输出GAIN处理该信号。输出信号GAIN例如可表示随时间而变的增益G(例如随时间和频率而变的增益G(k,m))，其将被应用于正向通路的信号，例如应用于电输入信号(IN1,IN2)之一或其空间滤波版本。在此基础上，处理器PRO提供处理后的输出OUT，其馈给输出单元OU，例如包括输出变换器如扬声器或振动器，用于呈现可由听力装置用户感知为声音的刺激。输出单元OU(或处理器)可包括合成滤波器组(反向滤波器组)，用于将子频带信号在呈现给输出变换器之前转换为时域信号。

图8示出了用于提供正常听力表示或听力受损表示的听觉模型的示例性应用情形。

在图8中，听觉模型模块9可经输入模块10接收输入参数及可经输出模块11提供输出。

输入参数可包括听力图、听觉滤波带宽、耳蜗压缩测量结果和/或声音文件。

听觉模型模块9可包括用于控制输入参数的控制模块12。控制模块12可配置成检查所有输入参数被正确地设置。当一个或多个输入参数未被正确设置时，可设置默认值以确保听觉模型正确地起作用。

听觉模型模块9还可包括集合模块13。集合模块13可配置成组合/收集听觉模型的一个或多个功能。集合模块13可配置成接收听觉模型的(一个或多个功能的)结果。集合模块13可配置成将接收到的结果输出和/或传输给输出模块11。

听觉模型的可通过集合模块13进行组合/收集的一个或多个功能可包括下述模块：

读模块14，配置成读取声音信号并提供矩阵。矩阵的行可以是所需输入帧大小，及列可受控于声音信号文件和所需输入帧大小。该功能的输出可设置成其按矩阵形式逐行保存每一帧。这意味着第一输入帧可以是矩阵的第一行，第二帧可以是矩阵的第二行，等等。

功率谱模块15，配置成一次计算一个帧的功率谱。例如，功率谱可通过首先将汉宁(Hann)窗应用于时间信号，然后通过计算时间信号的快速傅里叶变换(FFT)而将其转换到频率进行计算。藉此，可计算FFT输出的前半部分的功率谱。可使用前半部分的功率谱以去除FFT产生的镜像频率分量。

第一校正谱模块16，配置成将功率谱校正到声场。

第二校正谱模块17，配置成为了等响线校正功率谱(例如外和中耳传递函数的等效)。

等效矩形带宽(ERB)能量模块18，配置成计算每一ERB频带(没有重叠)中的能量。该功能也可计算每一帧的ERB并将其保存为向量。每一帧的向量可逐行保存，使得最后可包含矩阵。

兴奋图模块19，配置成在ERB能量模块18的输出的基础上计算兴奋图。该模块19可保存每一帧的兴奋图，这意味着最后的输出可预期为矩阵形式。

兴奋度模块20，配置成输出每一帧时的总兴奋度。

响度模块21，配置成计算一帧中的具体响度及响度向量，其可在来自兴奋图模块19的输出基础上进行，也可在来自声压级(SPL)模块22、听觉阈电平(HTL)模块23和不舒适度(UCL)模块24的输出基础上进行。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

因而，本发明的范围应依据权利要求进行判断。

参考文献

[1]Goodfellow,I.,Bengio,Y.,and Courville,A.(2016).Deep Learning,MITPress.

[2]Bengio,Y.(2009).“Learning Deep Architectures for AI,”Found.

Mach.Learn.,doi:10.1561/2200000006.doi:10.1561/2200000006.

[3]Kun,Z.,Yu,J.,Wang,R.,Li,C.,and Tao,D.(2015).“Coupled DeepAutoencoder for Single Image Super-Resolution,”IEEE Trans.Cybern.,47,1–11.

[4]Stone,M.A.,Glasberg,B.R.,and Moore,B.C.J.(1992).“Simplifiedmeasurement of impaired auditory filter shapes using the notched-noisemethod,”Br.J.Audiol.,26,329–334.

[5]Jepsen,M.L.,and Dau,T.(2011).“Characterizing auditory processingand perception in individual listeners with sensorineural hearing loss,”J.Acoust.Soc.Am.,129,262–281.doi:10.1121/1.3518768.

[6]Bernstein,J.G.W.,Mehraei,G.,Shamma,S.,Gallun,F.J.,Theodoroff,S.M.,and Leek,M.R.(2013).“Spectrotemporal modulation sensitivity as a predictor ofspeech intelligibility for hearing-impaired listeners,”J.Am.Acad.Audiol.,24,293–306.doi:10.3766/jaaa.24.4.5.

[7]Zilany,M.S.A.,and Bruce,I.C.(2006).“Modeling auditory-nerveresponses for high sound pressure levels in the normal and impaired auditoryperiphery,”J.Acoust.Soc.Am.,120,1446–1466.doi:10.1121/1.2225512.

[8]Jepsen,M.L.,and Dau,T.(2011).“Characterizing auditory processingand perception in individual listeners with sensorineural hearing loss,”J.Acoust.Soc.Am.,129,262–281.doi:10.1121/1.3518768.

[9]Carney,L.H.(2017).“Fluctuation Contrast and Speech-on-SpeechMasking:Model Midbrain Responses to Simultaneous Speech,”Proc.Int.Symp.Audit.Audiol.Res.,6,75–82.

[10]Chen,Zhangli,Guangshu Hu,Brian R.Glasberg,and Brian CJ Moore."Anew method of calculating auditory excitation patterns and loudness forsteady sounds."Hearing research 282,no.1-2(2011):204-215.

[11]Bisgaard,Nikolai,Marcel S.M.G.Vlaming,and Martin Dahlquist.“Standard Audiograms for the IEC 60118-15 Measurement Procedure.”Trends inAmplification 14,no.2(June 2010):113–20.doi:10.1177/1084713810379609.

[12]Hohmann,V.(2002).Frequency analysis and synthesis using aGammatone filterbank.Acta Acustica united with Acustica,88(3),433-442.

[13]Fastl,H.,and Zwicker,E.(2007).Psychoacoustics,PsychoacousticsFacts Model.,Springer Berlin Heidelberg,Berlin,Heidelberg.doi:10.1007/978-3-540-68888-4.

[14]

L.(2004).“An Objective Estimate of the Perceived Qualityof Reproduced Sound in Normal and Impaired Hearing,”Acta Acust.united withAcust.,90,1007–1018.

[15]Moore,B.C.J.,Glasberg,B.R.,and Stone,M.A.(2004).“New version ofthe TEN test with calibrations in dB HL,”Ear Hear.,doi:10.1097/01.aud.0000145992.31135.89.

[16]Grange,J.A.,Culling,J.F.,Harris,N.S.L.,and Bergfeld,S.(2017).“Cochlear implant simulator with independent representation of the fullspiral ganglion,”J.Acoust.Soc.Am.,doi:10.1121/1.5009602.

Claims

1.用于通过机器学习定义和设定听力装置的非线性信号处理的方法，所述听力装置配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中，所述方法包括：

提供至少一电输入信号，其表示来自听力装置用户环境的至少一输入声音信号；

基于正常听力听觉模型确定至少一电输入信号的正常听力表示；

基于听力受损听觉模型确定至少一电输入信号的听力受损表示；

通过机器学习确定优化的训练参数，其中确定优化的训练参数包括反复

调节训练参数；及

比较正常听力表示和听力受损表示以确定正常听力表示与听力受损表示之间的匹配度，

直到匹配度满足预定要求为止；及

当匹配度满足预定要求时，基于优化的训练参数确定听力装置的对应的信号处理参数。

2.根据权利要求1所述的方法，其中，提供至少一电输入信号包括提供多个电输入信号。

3.根据前面任一权利要求所述的方法，其中所述方法还包括将电输入信号变换为频谱。

4.根据前面任一权利要求所述的方法，其中所述信号处理参数包括增益、降噪、增强和/或其它信号处理参数。

5.根据前面任一权利要求所述的方法，其中，通过机器学习确定优化的训练参数包括通过训练神经网络确定该神经网络的优化的训练参数，及其中所述神经网络是深度神经网络。

6.根据权利要求5所述的方法，其中所述深度神经网络包括自编码器。

7.根据前面任一权利要求所述的方法，其中所述方法还包括提供至少一阈上度量，及其中确定至少一电输入信号的听力受损表示还基于至少一阈上度量确定。

8.根据权利要求7所述的方法，其中至少一阈上度量包括扩展的听觉滤波、耳蜗压缩的损失和/或谱-时调制检测。

9.根据前面任一权利要求所述的方法，其中正常听力听觉模型和听力受损听觉模型基于同一听觉模型。

10.根据前面任一权利要求所述的方法，其中所述方法还包括提供至少一听力图，及其中确定至少一电输入信号的听力受损表示还基于所述至少一听力图确定。

11.根据权利要求10所述的方法，其中至少一听力图包括听力装置用户特有的听力图和/或通用听力图。

12.根据前面任一权利要求所述的方法，其中听力受损听觉模型基于正常听力听觉模型。

13.一种听力装置，适于佩戴在用户耳朵中或耳朵处和/或完全或部分植入在用户头部中，所述听力装置包括：

输入单元，用于从听力装置用户的环境接收输入声音信号并提供表示所述输入声音信号的至少一电输入信号；

输出单元，用于基于至少一电输入信号的处理后版本提供至少一组可由用户感知为声音的刺激；

连接到所述输入单元和所述输出单元的处理单元，其包括听力装置的信号处理参数以提供至少一电输入信号的处理后版本，其中信号处理参数基于根据权利要求1-12任一所述的方法确定的优化的训练参数确定。

14.根据权利要求13所述的听力装置，其中处理单元包括提供优化的训练参数的深度神经网络，所述深度神经网络根据权利要求1-12任一所述的方法训练。

15.根据权利要求13或14所述的听力装置，其中听力装置配置成基于表示用户环境中的声音的音频进一步训练。

16.根据权利要求13-15任一所述的听力装置，其中听力装置包括用于将电输入信号变换为频谱的分析滤波器组。

17.根据权利要求16所述的听力装置，其中听力装置包括合成滤波器组，用于将所述频谱变换为时域信号。

18.根据权利要求13-17任一所述的听力装置，其中听力装置包括掩模和/或增益模块。

19.根据权利要求13-18任一所述的听力装置，其中构成或包括助听器、头戴式耳机、耳麦、耳朵保护装置或其组合。

20.一种听力系统，包括左和右根据权利要求13-19任一所述的听力装置，其中左和右听力装置配置成分别佩戴在用户的左和右耳中或左和右耳处，和/或配置成完全或部分分别植入在用户的左和右耳处的头部中，及配置成在其间建立有线或无线连接以使能在其间交换数据。

21.一种计算机可读介质，其上存储有包含指令的程序，当所述程序由计算机执行时，使得计算机执行根据权利要求1-12任一所述的方法的步骤。