CN110115049A

CN110115049A - 基于记录对象声音的声音信号建模

Info

Publication number: CN110115049A
Application number: CN201780081012.3A
Authority: CN
Inventors: B·德弗里斯; A·范登伯格
Original assignee: GN Hearing AS
Current assignee: GN Hearing AS
Priority date: 2016-12-27
Filing date: 2017-12-20
Publication date: 2019-08-09
Anticipated expiration: 2037-12-20
Also published as: US20190394581A1; EP3343951A1; EP3883265A1; US11140495B2; WO2018122064A1; CN110115049B; JP2020503822A

Abstract

本发明公开了一种听力装置、一种电子装置以及用于在听力装置中对声音信号建模的方法。该听力装置被配置为由用户佩戴。所述听力装置包括用于提供输入信号的第一输入换能器。所述听力装置包括第一处理单元，其被配置成根据第一声音信号模型来处理输入信号。所述听力装置包括耦合到第一处理单元的输出的声学输出换能器，用于将来自第一处理单元的输出信号转换为音频输出信号。该方法包括由记录单元记录第一对象信号。记录是由听力装置的用户发起的。该方法包括通过第二处理单元确定用于第一对象信号的第二声音信号模型的第一组参数值。所述方法包括随后在所述听力装置的第一处理单元中接收输入信号，所述输入信号包括第一信号部分以及第二信号部分，所述第一信号部分至少部分对应于所述第一对象信号。该方法包括应用所确定的第二声音信号的第一组参数值。

Description

基于记录对象声音的声音信号建模

技术领域

本发明涉及一种听力装置、一种电子装置以及用于在听力装置中对声音信号建模的方法。该听力装置被配置为由用户佩戴。所述听力装置包括用于提供输入信号的第一输入换能器。所述听力装置包括第一处理单元，其被配置成根据第一声音信号模型来处理输入信号。该听力装置包括耦合到第一处理单元的输出的声学输出换能器，用于将来自第一处理单元的输出信号转换为音频输出信号。该方法包括由记录单元记录第一对象信号。该记录是由听力装置的用户发起的。

背景技术

在助听器信号处理中，降噪方法通常对将噪声与目标信号(目标信号通常是语音或音乐)分离之物做出强有力的预先假设。例如，助听器波束成形算法假设目标信号来源于前视方向，而基于单麦克风的降噪算法通常假设噪声信号在统计上比目标信号静态(stationary)得多。在实际中，这些特定的条件可能并不总是成立，而收听者仍然受到非目标声音的干扰。因此，有必要改进听力装置的降噪和目标增强(target enhancement)。

发明内容

本发明公开了一种在听力装置中对声音信号建模的方法。该听力装置被配置为由用户佩戴。所述听力装置包括用于提供输入信号的第一输入换能器。所述听力装置包括第一处理单元，其配置用来根据第一声音信号模型处理所述输入信号。该听力装置包括耦合到第一处理单元的输出的声学输出换能器，用于将来自第一处理单元的输出信号转换为音频输出信号。该方法包括由记录单元记录第一对象信号。记录是由听力装置的用户发起的。该方法包括通过第二处理单元确定用于第一对象信号的第二声音信号模型的第一组参数值。所述方法包括随后在所述听力装置的第一处理单元中接收输入信号，所述输入信号包括第一信号部分及第二信号部分，所述第一信号部分至少部分对应于所述第一对象信号。该方法包括将所确定的第二声音信号模型的第一组参数值应用于第一声音信号模型。该方法包括根据第一声音信号模型对输入信号进行处理。

还公开了一种对声音信号建模的听力装置。该听力装置被配置为由用户佩戴。所述听力装置包括用于提供输入信号的第一输入换能器。所述听力装置包括第一处理单元，其配置用来根据第一声音信号模型处理所述输入信号。该听力装置包括耦合到第一处理单元的输出的声学输出换能器，用于将来自第一处理单元的输出信号转换为音频输出信号。第一对象信号由记录单元记录。记录是由听力装置的用户发起的。由第二处理单元为第一对象信号确定第二声音信号模型的第一组参数值。所述听力装置被配置用于，随后在所述听力装置的第一处理单元中接收输入信号，所述输入信号包括第一信号部分及第二信号部分，所述第一信号部分至少部分对应于所述第一对象信号。所述听力装置被配置用于将所确定的第二声音信号模型的第一组参数值应用于所述第一声音信号模型。听力装置被配置用于根据第一声音信号模型处理输入信号。

还公开了一种系统。该系统包括配置为供用户佩戴的听力装置和电子装置。该电子装置包括记录单元。该电子装置包括第二处理单元。所述电子装置配置用于由记录单元记录第一对象信号。记录是由听力装置的用户发起的。所述电子装置被配置用于通过所述第二处理单元确定用于第一对象信号的第二声音信号模型的第一组参数值。所述听力装置包括用于提供输入信号的第一输入换能器。所述听力装置包括第一处理单元，其被配置用于根据第一声音信号模型配置处理输入信号。该听力装置包括耦合到第一处理单元的输出的声学输出换能器，用于将来自第一处理单元的输出信号转换为音频输出信号。所述听力装置被配置用于，随后在所述听力装置的第一处理单元中接收输入信号，其包括第一信号部分和第二信号部分，其中第一信号部分至少部分对应于所述第一对象信号。所述听力装置被配置用于将所确定的第二声音信号模型的第一组参数值应用于所述第一声音信号模型。听力装置被配置用于根据第一声音信号模型处理输入信号。该电子装置还可包括软件应用程序，其包括用户界面，该用户界面配置用于由用户控制，来修改用于第一对象信号的声音信号模型的第一组参数值。

优势在于，用户可以发起记录对象信号，如第一对象信号，因为在此对象信号的一组参数值是对于声音信号模型确定的，其只要听力装置接收到至少部分地包括与之前记录的对象信号对应、相似或类似的声音信号部分的输入信号就可以被应用。因此，如果已记录的信号是噪声信号，例如来自特定机器的噪声，则输入信号可以被抑制噪声(noisesuppresssed)，如果已记录的信号是期望的目标信号，例如来自用户配偶的语音或音乐，则输入信号可以被增强目标(target enhanced)。

优势在于，听力装置可以请求或建议用户对于可能处于噪声模式的形式的对象信号，基于该对象信号中的噪声模式与在所述听力装置中接收的输入信号的匹配，在其第一声音信号模型(其可能是或可能包括降噪算法)中应用所确定的一组参数值中的一个。所述听力装置可具有记忆设置和/或为记录对象信号的特定环境进行调谐的手段。用户关于何时应用降噪或目标增强(target enhancement)的决定可以保存为用户偏好，从而实现自动个性化降噪系统和/或目标增强系统，其中听力装置自动应用适当的降噪或目标增强参数值。

优势在于，该方法、听力装置和/或电子装置可通过听力装置用户，在现场(in-situ)条件下能够构造ad-hoc(特定)降噪或目标增强算法。

另一优势在于，该方法和听力装置和/或电子装置可以通过让用户部分控制他/她的助听器算法对声音所作的处理，提供用于以患者为中心或以用户为中心的方法(patient-centric or user-centric approach)。

另一优势在于，该方法和听力装置可以通过允许用户只记录恼人的声音或期望的声音，并选择性地微调(fine-tune)该声音的噪声抑制或目标增强，可以提供一种非常简单的用户体验。如果它不能像期望的那样工作，那么用户只需取消该算法。

此外，优势在于，通过听力装置用户可创建根据用户的特定环境和偏好进行调谐个性化的降噪系统和/或目标增强系统，该方法和听力装置可提供个性化。

另一个优势在于，该方法和听力装置可提供扩展，因为该构思允许对更高级的实施方案的简单扩展。

此方法用于在听力装置中对声音信号建模和/或在听力装置中处理声音信号。建模和/或处理可用于输入信号的降噪或目标增强。输入信号(input)是听力装置中接收到的接收信号(incoming signal)或声音信号或音频。

第一声音信号模型可以是听力装置中的处理算法。第一声音信号模型可提供输入信号的降噪和/或目标增强。第一声音信号模型可既为该听力装置的用户提供听力补偿，也可提供输入信号的降噪和/或目标增强。第一声音信号模型可以是这样听力装置中的处理算法：其既提供听力补偿，又提供输入信号的降噪和/或目标增强。第一和/或第二声音信号模型可以是滤波器，第一和/或第二声信号模型可以包括滤波器，或第一和/或第二声信号模型可以实现滤波器。参数值可以是滤波器系数。第一声音信号模型包括若干参数。

所述听力装置可以是助听器，如耳内助听器、完全在耳道内的助听器或耳后听力设备。所述听力装置可以是包含两个听力装置的双耳听力系统中的一个听力装置。所述听力装置可以是听力保护装置。所述听力装置可配置为戴在用户的耳朵上。

第二声音信号模型可以是电子装置中的处理算法。该电子装置可与该听力装置相关联。电子装置可以是智能手机，如iPhone、个人电脑、平板电脑、个人数字助理和/或其他配置为与听力装置相关联并配置为由该听力装置的用户控制的电子装置。第二声音信号模型可以是电子装置中的降噪和/或目标增强处理算法。所述电子装置可设置在听力装置的外部。

第二声音信号模型可以是听力装置中的处理算法。

第一输入换能器可以是听力装置中的麦克风。声学输出换能器可以是听力装置的接收器，扩音器，扬声器，用于将音频输出信号传输到听力装置的用户的耳内。

第一对象信号是声音，例如噪声信号或目标信号，如果是噪声信号，则听力装置用户希望抑制它，如果是目标信号，则用户希望增强它。理想情况下，对象信号可以是“干净”的信号，基本上只包含对象声音而不包含其他任何信号(理想情况下)。因此，对象信号可以在理想条件下记录下来，例如在只有对象声音存在的条件下。例如，如果对象声音是来自听力装置用户工作的工作地点的特定的工厂机器的噪声，则当该特定的工厂机器是提供声音的唯一的声源时，听力装置用户可以发起对该特定对象信号的记录。因此，所有其他机器或声源理想情况下应是静音的。用户通常只记录几秒钟的对象信号，如大约1秒、2秒、3秒、4秒、5秒、6秒、7秒、8秒、9秒、10秒等。

用于记录对象信号的由听力装置的用户发起的记录单元，可通常设置在电子装置中，例如用户的智能手机。智能手机中的麦克风可以用来记录对象信号。智能手机中的麦克风可称为第二输入换能器，以将记录对象信号的电子装置的输入换能器与听力装置中的提供输入信号的听力装置输入换能器区分开来。

对象信号的记录由听力装置的用户发起。因此，发起对对象信号的记录的是听力装置的用户他/她自己(例如使用他/她的智能手机进行记录)。而不是听力装置发起对对象信号的记录。因此，本方法区别于助听器中传统的噪声抑制或目标增强方法，传统的噪声抑制或目标增强方法通常接收声音，且助听器的处理器被配置为确定哪个信号部分是噪声，哪个信号部分是目标信号。

在本方法中，用户(优选使用他/她的智能手机)主动决定他/她希望记录哪些对象信号，以便在下次出现类似对象信号时，利用这些记录的对象信号来改善听力装置中的噪声抑制或目标增强处理。

该方法包括通过第二处理单元来确定用于第一对象信号的第二声音信号模型的第一组参数值。确定这些参数值可包括估计、运算和/或计算这些参数值。该确定步骤在第二处理单元中执行。第二处理单元可以是电子装置的处理单元。第二处理单元可以是听力装置的处理单元，例如与第一处理单元相同的处理单元。但是，通常在听力装置中可能没有足够的处理能力(processing power)，因此优选地，在具有比听力装置更大处理能力的电子装置中设置第二处理单元。

因此，两个方法步骤，即记录对象信号和确定参数值可以在电子装置中执行。这两个步骤可以“离线(offline)”执行，即在对输入信号进行实际的噪声抑制或目标增强之前执行。这两个步骤与建模或模型的训练或学习有关。模型的生成包括确定用于特定对象信号的模型中的特定参数值。

接下来的方法步骤涉及使用前面步骤中确定的参数值对听力装置中的输入信号进行信号处理。因此，这些步骤“在线(online)”执行，即当听力装置中接收到输入信号时，且当输入信号包括第一信号部分，其至少部分与用户要么希望抑制(如果第一信号部分是噪声信号)要么希望增强(如果对象信号是目标信号或期望信号)的对象信号相对应或相似或类似时执行。所述方法的信号处理部分的这些步骤包括随后在所述听力装置的第一处理单元中接收输入信号，其包括所述第一信号部分和第二信号部分，其中第一信号部分至少部分对应于第一对象信号。所述方法包括将所确定的第二声音信号模型的第一组参数值应用于第一声音信号模型。所述方法包括根据第一声音信号模型对输入信号进行处理。

因此，在模型建立阶段进行参数值计算后，可以在信号处理阶段利用所确定的参数值对听力装置中的输入信号进行实际的噪声抑制或目标增强。

所记录的对象信号可以是来自特定噪声源的噪声信号的信号部分的一个例子。当听力装置随后接收到包括至少部分与对象信号对应的第一信号部分的输入时，这意味着输入信号的某些部分与对象信号相对应或相似或类似，例如由于噪声信号是来自相同噪声源。因此，至少部分对应于对象信号的输入信号的第一部分可能与对象信号不完全相同。对于对象信号样本和输入信号的第一部分的采样，信号可能不一样。在被记录的对象信号和输入信号的第一部分中，噪声模式(noise pattern)可能不完全相同。然而，对于用户来说，信号可能被感知为相同的信号，如相同的噪声或相同种类的噪声，例如如果噪声的来源，例如工厂的机器，对于对象信号和输入信号的第一部分是相同的话。确定第一信号部分是否至少部分与对象信号对应从而确定输入信号的某些部分与对象信号对应、相似或类似，可以通过频率分析和/或频率模式分析来实现。确定第一信号部分是否至少部分与对象信号对应从而确定输入信号的某些部分与对象信号对应、相似或类似，可通过贝叶斯推理实现，例如通过估计输入信号或输入信号的至少第一部分与对象信号的时频域模式的相似度。

因此，上述处理的噪声抑制或目标增强部分在听力装置的第一声音模型中和电子装置的第二声音模型中可能实质上是相同的，因为第一声音信号模型的其他处理可能是对用户的听力补偿处理部分。

输入信号的第一信号部分可至少部分地对应，或至少部分地相似，或至少部分地类似于对象信号。输入信号的第二信号部分可以是输入信号的与对象信号不对应的剩余部分。例如，输入信号的第一信号部分可以是噪声信号，其至少部分地与对象信号相似或对应。

因此，输入信号的第一部分应该被抑制。输入信号的第二信号部分声音可以是用户希望听到的其余的声音。或者，输入信号的第一信号部分可以是与对象信号至少部地类似或对应的目标信号或期望信号，例如配偶的语音。因此，输入信号的第一部分应该得到增强。输入信号的第二信号部分可以是用户也可能希望听到但没有增强的其余的声音。

在一些实施例中，该方法包括由记录单元记录第二对象信号。记录是由听力装置的用户发起的。该方法包括由第二处理单元确定用于第二对象信号的第二声信号模型的第二组参数值。所述方法包括随后在听力装置的第一处理单元中接收输入信号，其包括第一信号部分和第二信号部分，其中第一信号部分至少部分对应于所述第二对象信号。所述方法包括将所确定的第二声音信号模型的第二组参数值应用于所述第一声音信号模型。所述方法包括根据第一声音信号模型处理输入信号。第二对象信号可以是第一个对象信号之外的另一个对象信号。例如，第二个对象信号可能来自不同种类的声源，例如不同于第一对象信号，来自不同的噪声源或来自另一个目标人。优势在于，用户可以发起对不同的对象信号的记录，例如第一对象信号和第二对象信号，因为由此用户可以创建他/她自己的个性化的针对不同对象信号的声音信号模型的各参数值的集合或库，其每当听力装置接收到至少部分地包括与先前记录的对象信号中一个对象信号相对应、相似或类似的信号部分的输入信号时可以被应用。

在某些实施例中，所述方法包括由记录单元记录多个对象信号，每个记录均由该听力装置的用户发起。

在某些实施例中，对象信号可以由第一换能器记录并提供给第二处理单元。由第一个换能器记录的对象信号可通过例如音频流提供给第二处理单元。

在一些实施例中，所确定的第二声音信号模型的第一组参数值存储在存储器(storage)中。所确定的第二声音信号模型的第一组参数值可配置为由第二处理单元从存储器中检索。存储器可设置在电子装置中。

存储器可设置在听力装置内。如果存储器设置在电子装置中，所述参数值可以从电子装置中的存储器传输到听力装置，例如传输到听力装置的第一处理单元中。当听力装置中的输入信号至少部分地包括与已确定参数值的对象信号相对应、相似或类似的第一信号部分时，这些参数值可从存储器中检索。

在某些实施例中，所述方法包括生成所确定的用于各对象信号的第二声音信号模型的各组参数值的库。对象信号可以包括多个对象信号，其中至少包括第一对象信号和第二对象信号。当所述输入信号至少部分包括各对象信号时，所确定的用于各对象信号的第二声音信号模型的各组参数值可配置为应用于第一信号模型。因此，该库可以离线生成，例如，当听力装置不处理至少部分地对应于对象信号的输入信号时。该库可以在电子装置中生成，例如在第二处理单元中或在存储器中。该库可以在听力装置中生成，例如在第一处理单元中或在存储器中。当输入信号包含至少部分对应于各对象信号的第一信号部分时，所确定的各组参数值可配置为应用于第一声音信号模型，因此将参数值应用于第一声音信号模型的步骤可在线执行，例如当听力装置接收到要抑制噪声或目标增强的输入信号时执行。

在某些实施例中，对听力装置中的输入信号建模或处理包括：提供预先确定的第二声音信号模型。对输入信号建模可以包括为预先确定的第二声音信号模型确定用于相应各对象信号的相应各组参数值。第二声音信号模型可以是预先确定的模型，如算法。第一声音信号模型可以是预先确定的模型，例如算法。假设预先确定的第二和/或第一声信号模型可包括分别在第一和/或第二处理单元中以及在听力装置和/或电子装置的存储器中获取或检索第一和/或第二声音信号模型。

在某些实施例中，第二处理单元设置在电子装置中。所确定的用于各对象信号的第二声音信号模型的各组参数值可以从所述电子装置发送(如传输)到听力装置，以被应用于所述第一声音信号模型。或者，第二处理单元可以设置在听力装置中，例如，第一处理单元和第二处理单元可以是相同的处理单元。

在某些实施例中，被配置为记录各对象信号的记录单元是电子装置的第二输入换能器。第二输入换能器可以是麦克风，例如电子装置的内置麦克风，例如智能手机中的麦克风。此外，记录单元可以包括记录手段(装置)，例如记录和保存对象信号的手段(装置)。

在某些实施例中，用于各对象信号的第二声音模型的各组参数值被配置为可由用户在用户界面上修改。用户界面可以是图形用户界面。用户界面可以是电子装置，例如具有触摸屏的智能手机上的软件应用程序(如app)的可视用户部分。用户界面可以是听力装置上的机械控制通道。用户可以用他/她的手指控制用户界面。用户可以修改声音信号模型的参数值，以改善输入信号的噪声抑制或目标增强。用户也可修改声音信号模型的其他特征和/或输入信号的建模或处理。用户界面可以由用户通过例如手势、按按钮，如软按钮或机械按钮来控制。用户界面可以在智能手机和/或用户佩戴的智能手表上提供和/或控制。

在某些实施例中，根据第一声音信号模型处理输入信号包括估计第一声信号模型的滤波器组(filter bank)的每个频带中的一组平均谱功率系数。

在某些实施例中，根据第一声音信号模型处理输入信号包括：将所估计的平均谱功率系数应用于谱减法计算，其中从输入信号的时变频谱中减去固定对象频谱。可将可调(tunable)标量影响因子加入固定对象谱。谱减法计算可以是谱减法算法或模型。

在某些实施例中，谱减法计算基于输入信号中的特定特征估计时变影响因子。输入信号中的特定特征可能是频率特征。输入信号中的特定特征可能是与声学场景(如纯语音、噪声中的语音、车内、餐厅内等)相关的特征。

在某些实施例中，在听力装置中对输入信号建模包括生成概率建模方法(generative probabilistic modeling approach)。因此，生成概率建模可以通过逐样本地或逐像素地与输入信号匹配进行像素匹配来执行。该匹配可能在高阶信号上进行，因此，如果输入信号和对象信号的高阶统计量相同，或至少部分相同，则声音，例如噪声或目标声音，在信号上可能是相同的。可以生成的信号相似度的模式。即使例如噪声是不规则的或不连续的，生成概率建模方法也可以处理信号。生成概率建模方法可以在更长的时间跨度上(例如若干秒钟)使用。中等时间跨度可以是一秒。一个小的时间跨度可以小于一秒。因此，规则和不规则的模式，例如噪声模式，均可以被处理。

在某些实施例中，第一对象信号是听力装置的用户希望在输入信号中抑制的噪声信号。噪声信号例如可能是来自特定机器的机器噪声，如工厂机器、电脑的嗡嗡声等，也可能是交通噪声、用户伴侣的鼾声等。

在某些实施例中，第一对象信号是听力装置的用户希望在输入信号中增强的期望信号。期望信号或目标信号例如可能是音乐或语音，例如用户的伴侣、同事、家人的声音等。

该系统可以包括可以在智能手机(如iPhone或Android手机)上运行的终端用户应用程序，用于快速设计ad-hoc降噪算法。流程可以如下：

在现场(in-situ)条件下，终端用户用智能手机记录他想要抑制的一段声音。记录结束时，通过智能手机上的“估计算法”运算预先确定的噪声抑制算法的参数。然后将所估计的参数值发送给在降噪算法中要应用的助听器。然后，终端用户可以通过例如转动在智能手机app的用户界面上的拨盘，操纵关键参数来在线地微调降噪算法的性能。

优势在于，整个方法，即记录对象信号，估计参数值，将估计的参数值应用于听力装置的声音信号模型，如听力装置的降噪算法中，均为现场或就地执行。因此，不需要专业人员或程序员的交互来帮助开发特定的降噪算法，并且该方法是用户发起和/或用户驱动的过程。用户可以创建个性化的听力体验，例如个性化的降噪或信号增强听力体验。

下面描述的是一个示例，其可简单地实现所提议的方法。例如，终端用户记录约5秒的他/她的伴侣的鼾声或洗碗机运行的声音。在这个简单的实施例中，参数估计流程中计算助听器算法的滤波器组的各频段中的平均谱功率。然后，将这些平均谱功率系数发送至助听器，其应用于简单的谱减法算法中，在该算法中从接收到的总的信号的时变频谱中减去固定的噪声频谱乘以可调标量影响因子。用户可以通过转动其智能手机app的用户界面上的拨盘，在线调谐降噪算法。拨盘设置被发送至助听器，并控制标量影响因子。

在另一个示例中，用户可以记录特定时间或持续时间的输入信号。所记录的输入信号可以包括一个或多个声音段。用户可能想要抑制或增强一个或多个选定的声音段。用户可以定义所记录输入信号的一个或多个声音段，可替代地或可附加地，处理单元可以基于输入信号的特性定义或细化所记录输入信号的声音段。优势在于，用户因此还可以提供声音配置文件(sound profile)，其对应于例如非常短的噪声，其偶尔发生但可能难以记录。

相同构思的进一步的实施例也是可能的。例如，谱减法算法可以基于接收到的总信号中的某些特征自行估计时变影响因子。

在扩展的实施例中，用户可以创建个人噪声模式库。该助听器可以基于所存储的模式与接收到的信号的“匹配”，在现场向用户建议在其降噪算法中应用其中一种噪声模式。终端用户的决定可以作为用户偏好被保存，从而实现自动个性化的降噪系统。

比上述降噪系统更为通用的是，公开了一种通过如下步骤实现的用于助听器中音频算法的ad-hoc设计的通用框架，具体步骤为:

首先，用户捕获环境的快照(snapshot)。快照可以是声音、照片、电影、地点等。然后用户标记快照。标记(labelling)标签可以是，例如“不喜欢”、“喜欢”等。执行离线处理，在此离线处理中，估计预先确定的算法或声音信号模型的参数值。这种处理可以在智能手机和/或云(Cloud)上，比如在远程存储设备中执行。然后基于上述处理，更新听力装置中的算法参数或者参数值集。在类似的环境条件下，个性化参数被现场应用于听力装置中的输入信号。

本发明涉及不同方面，包括上述和以下所述的方法和听力装置，以及相应的听力装置、方法、装置、系统、网络、工具包(kits)、用途和/或产品手段(product means)，每一个方面都产生结合上述第一个方面描述的一个或多个益处和优势，每一个都具有结合上述第一方面描述的实施例和/或在所附权利要求中公开的实施例相对应的一个或多个实施例。

附图说明

上述和其他特征和优点通过以下参考附图对其示例性实施例的详细描述将很容易为本领域的技术人员所了解，这些附图中:

图1示意性地示出听力装置和电子装置以及用于在该听力装置中对声音信号建模的方法的例子。

图2示意性地示出听力装置和电子装置以及用于在该听力装置中对声音信号建模的方法的例子。

图3示意性地示出该方法包含通过记录单元来记录对象信号的例子。

图4示意性地示出听力装置和电子装置以及用于在该听力装置中对声音信号建模的方法的例子。

图5a示意性地示出电子装置的例子。

图5b示意性地示出听力装置的例子。

图6a)和图6b)示出在听力装置中对声音信号建模的方法的流程图的例子。

图7示意性地示出生成模型的Forney式因子图(FFG)实施例。

图8示意性地示出消息传递调度(message passing schedule)。

图9示意性地示出消息传递调度。

附图标记说明

2 听力装置

4 用户

6 第一输入换能器

8 输入信号

10 第一处理单元

12 第一声音信号模型

14 声学输出换能器

16 输出信号

18 音频输出信号

20 第一对象信号

22 记录单元

24 第二处理单元

26 第一组参数值

28 第二声音信号模型

30 第一信号部分，其至少部分地对应于第一对象信号20

32 第二信号部分

34 第二对象信号

36 第二组参数值

38 存储器

40 库

42 各组参数值

44 各对象信号

46 电子装置

48 第二输入换能器

52 第一声源

54 第二声源

56 各声源

58 系统

601 由记录单元22记录第一对象信号20的步骤；

602 由第二处理单元24确定用于第一对象信号20的第二声音信号模型28的第一组参数值26的步骤

603 随后在所述听力装置2的第一处理单元10中接收输入信号8的步骤，输入信号8包含第一信号部分30和第二信号部分32，第一信号部分30至少部分对应于第一对象信号20

604 将所确定的第二声音信号模型28的第一组参数值26应用到第一声音信号模型12的步骤

605 根据第一声音信号模型12处理输入信号8的步骤

具体实施方式

下面将参照附图描述各种实施例。类似的附图标记在整个说明书中表示类似的元素。因此，将不会关于每个附图的描述对类似的元素进行详细描述。还应该指出，这些附图只是为了方便描述实施例。它们并不是对所要求的发明的详尽描述，也不是对所要求的发明的范围的限制。此外，所示出的实施例不一定具有所示出的所有方面或优点。结合特定实施例描述的方面或优势不一定限于该实施例，也可以在任何其他实施例中实施，即使没有如此说明，或者没有如此明确地描述。

自始至终，相同附图标记用于相同的或相应的部分。

图1和图2示意性地示出了听力装置2和电子装置46以及在听力装置2中对声音信号建模的方法。该听力装置2被配置为由用户4佩戴。听力装置2包括用于提供输入信号8的第一输入换能器6。第一输入换能器可以包括麦克风。听力装置2包括第一处理单元10，其被配置成根据第一声音信号模型12来处理输入信号8。听力装置2包括耦合到第一处理单元10的输出的声学输出换能器14，用于将来自第一处理单元10的输出信号16转换为音频输出信号18。该方法包括由记录单元22记录第一对象信号20。第一对象信号20可以产生自第一声源52或从第一声源52传输。第一对象信号20可以是听力装置2的用户4希望在输入信号8中抑制的噪声信号。第一对象信号20可以是听力装置2的用户4希望在输入信号8中增强的期望信号。

记录单元22可以是电子装置46中的输入换能器48，如麦克风。电子装置46可以是智能手机、PC、平板电脑等。记录由听力装置2的用户4发起。该方法包括由第二处理单元24确定用于第一对象信号20的第二声音信号模型28的第一组参数值26。第二处理单元24可设置在电子装置46中。所述方法包括随后在听力装置2的第一处理单元10中接收输入信号8，输入信号8包括第一信号部分30以及第二信号部分32，所述第一信号部分至少部分对应于所述第一对象信号20。所述方法包括：在听力装置2中，将所确定的第二声音信号模型28的第一组参数值26应用于第一声音信号模型12。所述方法包括：在所述听力装置2中，根据所述第一声音信号模型12处理所述输入信号8。

因此，电子装置46包括记录单元22和第二处理单元24。电子装置46配置为由记录单元22来记录第一对象信号20，记录由听力装置2的用户4发起。电子装置46进一步配置为由第二处理单元24来确定用于第一对象信号20的第二声音信号模型28中的第一组参数值26。

所述电子装置可包括第二处理单元24。因此，所确定的用于第一对象信号20的第二声音信号模型28的第一组参数值26可以从电子装置46发送到听力装置2，以应用于第一声音信号模型12。

图3和图4示意性地示出该方法包括由记录单元22记录第二对象信号34的例子，其中该记录由听力装置2的用户4发起。第二对象信号34可以源自第二声源54或由第二声源54传输。所述方法包括由第二处理单元24确定用于第二对象信号34的第二声音信号模型28的第二组参数值36。所述方法包括随后在所述听力装置2的第一处理单元10中接收输入信号8，输入信号8包括第一信号部分30和第二信号部分32，第一信号部分至少部分对应于所述第二对象信号34。所述方法包括将所确定的第二声音信号模型28的第二组参数值36应用于第一声音信号模型12。该方法包括根据第一声音信号模型12对输入信号8进行处理。设想用户随后或在不同时间可从相同或不同的声源记录更多的对象信号。因此，用户可以记录多个对象信号。该方法可进一步包括确定所述多个声音信号中的每个声音信号所对应的一组参数值。

所述电子装置可包括第二处理单元24。因此，所确定的用于第二对象信号34的第二声音信号模型28的第二组参数值36可从电子装置46发送至听力装置2，并应用于第一声音信号模型12。

此外，所述方法包括由所述记录单元22记录各对象信号44，所述记录由听力装置2的用户4发起。各对象信号44可以源自各声源56或从各声源56传输。该方法包括由第二处理单元24确定用于各对象信号44的第二声音信号模型28的各组参数值42。所述方法包括随后在所述听力装置2的第一处理单元10中接收输入信号8，其包括第一信号部分30以及第二信号部分32，第一信号部分30至少部分对应于相应各对象信号44。所述方法包括将所确定的第二声音信号模型28中的各组参数值42应用于第一声音信号模型12。该方法包括根据第一声音信号模型12对输入信号8进行处理。

所述电子装置可包括第二处理单元24。因此，所确定的用于各对象信号44的第二声音信号模型28的各组参数值42可从电子装置46发送至听力装置2，以应用于第一声音信号模型12。

图5a示意性地示出电子装置46的例子。

所述电子装置可包括第二处理单元24。因此，所确定的用于对象信号的第二声音信号模型28的一组参数值可从电子装置46发送至听力装置，以应用于第一声音信号模型。

所述电子装置46可包括存储器38，用于存储所确定的第二声音信号模型28的第一组参数值26。因此，所确定的第二声音信号模型28的第一组参数值26被配置为由第二处理单元24从存储器38中检索。

所述电子装置可包括库40。因此，该方法可包括生成库40。库40可以包含所确定的各组参数值42，见图3和图4，用于各对象信号44的第二声音信号模型28，见图3和图4。对象信号44包含至少第一对象信号20和第二对象信号34。

所述电子装置46可包括记录单元22。所述记录单元可以是第二输入换能器48，例如用于记录各对象信号44的麦克风，各对象信号44可包括第一对象信号20和第二对象信号34。

所述电子装置可包括用户界面50，例如图形用户界面。用户可以在用户界面50上修改各对象信号44的第二声音信号模型28的各组参数值42。

图5b示意性地示出听力装置2的例子。

听力装置2被配置为由用户佩戴(未示出)。听力装置2包括用于提供输入信号8的第一输入换能器6。听力装置2包括第一处理单元10，其被配置成根据第一声音信号模型12处理输入信号8。听力装置2包括耦合到第一处理单元10的输出的声学输出换能器14，用于将来自第一处理单元10的输出信号16转换为音频输出信号18。

听力装置还包括记录单元22。所述记录单元可以是第二输入换能器48，例如用于记录各对象信号44的麦克风，各对象信号44可包括第一对象信号20和第二对象信号34。

所述方法包括由记录单元22记录第一对象信号20。第一对象信号20可以源自第一声源或从第一声源传输(未示出)。第一对象信号20可能是听力装置2的用户4希望在输入信号8中抑制的噪声信号。第一对象信号20可能是听力装置2的用户4希望在输入信号8中增强的期望信号。

所述听力装置还可包括第二处理单元24。因此，所确定的用于对象信号的第二声音信号模型28的一组参数值，可在听力装置中被处理，以应用于第一声音信号模型。第二处理单元24可以与第一处理单元10相同。第一处理单元10和第二处理单元24可以是不同的处理单元。

第一输入换能器6可以与第二输入换能器22相同。第一输入换能器6可以与第二输入换能器22不同。

听力装置2可包括存储器38，用于存储所确定的第二声音信号模型28的第一组参数值26。因此，所确定的第二声音信号模型28的第一组参数值26被配置为由第二处理单元24或第一处理单元10从存储器38中检索。所述听力装置可包括库40。因此，该方法可包括生成库40。库40可以包括所确定的各组参数值42，见图3和图4，用于各对象信号44的第二声音信号模型28，见图3和图4。对象信号44包括至少第一对象信号20和第二对象信号34。在听力装置中，存储器38可包括库40。

所述听力装置可包括用户界面50，例如图形用户界面，例如机械用户界面。用户可以通过用户界面50修改用于各对象信号44的第二声音信号模型28的各组参数值42。

图6a)和图6b)示出听力装置2中对声音信号建模的方法的流程图的例子。听力装置2被配置为由用户4佩戴。图6a)示出该方法包括参数确定阶段，该参数确定阶段可在与听力装置2相关联的电子装置46中执行。该方法包括，在步骤601中，由记录单元22记录第一对象信号20。记录由听力装置2的用户4发起。该方法包括，在第602步中，由第二处理单元24，确定用于第一对象信号20的第二声音信号模型28的第一组参数值26。

图6b)示出了该方法包括信号处理阶段，其可在听力装置2中执行。听力装置2与电子装置46相关联，在电子装置46中第一组参数值26被确定。因此，第一组参数值26可以从电子装置46传输到听力装置2。所述方法包括，在步骤603中，在听力装置2的第一处理单元10中，随后接收输入信号8，其包括第一信号部分30和第二信号部分32，所述第一信号部分30至少部分对应于所述第一对象信号20。该方法包括，在步骤604中，将所确定的第二声信号模型28的第一组参数值26应用于第一声信号模型12。该方法包括，在步骤605中，根据第一声音信号模型12处理输入信号8。

下面公开的是该系统的技术实现的例子。通常，可以使用多种方法来实现所提出的系统。可采用生成概率建模方法。

模型说明

我们假设音频信号是源信号分量的总和。其中一些信号分量是期望的，例如语音或音乐，我们可能想要放大这些信号。其他一些源分量可能是不期望的，例如工厂机械，我们可能想要抑制这些信号。为了简化问题，我们记作：

x_t＝s_t+n_t

来表示输入信号或收到的音频信号x_t由期望信号s_t和非期望(“噪声”)信号n_t组成，下标t表示时间索引。如上所述，可能存在两个以上的源，但我们将继续阐述混合一个期望信号和一个噪声信号的模型。

我们关注非期望信号的衰减。在这种情况下，我们感兴趣的是产生输出信号

y_t＝s_t+α·n_t

其中0≤α<1为衰减因子。我们可以使用生成概率建模方法。这意味着

p(x_t|s_t,n_t)＝δ(x_t-s_t-n_t)且p(x_t|s_t,n_t)＝δ(y_t-s_t-α·n_t)

每个源信号由相似的概率分层动态系统(HDS)建模。对于源信号s_t，模型由下式给出：

在该模型中，我们用s_t表示时步(time step)t的输出(“观测”)信号,为在时步t第k层的隐藏状态信号，其由θ^(k)参数化。我们用θ＝{θ⁽¹⁾,...,θ^(K)}表示参数的全集，我们通过在变量s中类似的方式收集所有状态。在图7中，我们示出此模型的Forney式因子图(FFG)。FFG是一种特定类型的概率图模型(Loeliger等,2007,Korl2005)。

许多公知模型都服从规定的HDS的方程，包括(分层式)隐马尔可夫模型和卡尔曼滤波器，以及深度神经网络，例如卷积和递归神经网络等。

生成模型可用于从接收到的信号中推导出源信号分量，进而我们能够调整各个信号的放大增益，从而使听觉场景的体验个性化。接下来，我们讨论如何训练生成模型，然后给出信号处理阶段的说明。

训练

我们假设终端用户处于具有干净的观测值的环境中，其要么具有对期望信号类(如讲话或音乐)的干净的观测值，要么具有对不期望信号类(例如噪声源如工厂机械等)干净的观测值。为了简单起见，我们关注具有对不期望噪声信号(与上面的对象信号相对应)的干净观测值的情况。我们用D(即“数据”)来表示数秒的该信号的记录序列。训练的目的是推导出新的源信号的参数。从技术上讲，这可以归结为从生成模型和记录数据推导p(θ|D)。

在优选的实施例中，我们在因子图框架中实现生成模型。在这种情况下，p(θ|D)可以通过消息传递算法，如变分消息传递(Dauwels,2007)自动推导出来。为了清晰起见，我们在图8中表示了适当的消息传递调度。

信号处理

图9示出给出生成模型和输入音频信号x_t，其中音频信号x_t由s_t和n_t的和组成，我们感兴趣的是通过解决推理问题p(y_t,z_t|x_t,z_t-1,θ)来运算增强信号y_t。如果生成模型由图7所示的FFG实现，则推理问题可以通过消息传递算法自动解决。在图8中，我们示出适当的消息传递序列。对于解决同样的推理问题，也可以考虑其他近似贝叶斯推理的流程。

对于生成模型图

图7示意性地示出生成模型的Forney式因子图实施例。在该模型中，我们假设x_t＝s_t+n_t，且源信号分量由概率分层动态系统生成，如分层隐马尔可夫模型或多层神经网络。我们假设输出信号由y_t＝s_t+α·n_t生成。

对于学习图

图8示意性地示出用于运算源信号的p(θ|D)的消息传递调度，其中D包含记录的音频信号。该方案将生成源模型调谐(tune)到记录的音频片段。

对于信号处理图

图9示意性地示出用于从生成模型和新的观测值x_t计算p(y_t,z_t|x_t,z_t-1,θ)的消息传递调度。注意，为了简化此图，我们在生成模型中状态和参数网络周围具有“闭箱(closed-the-box)”(Loeliger et al.，2007)。此方案在系统运行阶段执行信号处理步骤。

参考文献

H.-A.Loeliger et al.,The Factor Graph Approach to Model-Based SignalProcessing,Proc.of the IEEE,95-6,2007.

Sasha Korl,A Factor Graph Approach to Signal Modelling,SystemIdentification and Filtering,Diss.ETH No.16170,2005.

Justin Dauwels,On Variational Message Passing on Factor Graphs,ISITconference,2007.

虽然本文示出和描述了特定特征，但需要明白的是，他们不是为了限制所要求保护的本发明，对本领域技术人员显而易见的是，在不脱离所要求保护的本发明的范围的状态下，可以加以各种变形和修改。因此，说明书和附图应被看作是说明性的，而不是限制性的。所要求保护的本发明旨在涵盖所有替代方案、修改和等同物。

Claims

1.一种在听力装置(2)中对声音信号建模的方法，所述听力装置(2)配置为供用户佩戴(4)，所述听力装置(2)包括:

-用于提供输入信号(8)的第一输入换能器(6)；

-配置为根据第一声音信号模型(12)处理输入信号(8)的第一处理单元(10)；

-耦合到第一处理单元(10)的输出的声学输出换能器(14)，其用于将来自第一处理单元(10)的输出信号(16)转换为音频输出信号(18)；

其中所述方法包括：

-由记录单元(22)记录第一对象信号(20)，所述记录由听力装置(2)的用户(4)发起；

-由第二处理单元(24)确定用于第一对象信号(20)的第二声音信号模型(28)的第一组参数值(26)；

-随后在听力装置(2)的第一处理单元(10)中接收输入信号(8)，该输入信号(8)包括第一信号部分(30)和第二信号部分(32)，其中第一信号部分(30)至少部分对应于第一对象信号(20)；

-将所确定的第二声音信号模型(28)的第一组参数值(26)应用于第一声音信号模型(12)；和

-根据第一声音信号模型(12)处理输入信号(8)。

2.根据上述任意权利要求所述的方法，所述方法包括:

-由记录单元(22)记录第二对象信号(34)，所述记录由听力装置(2)的用户(4)发起；

-由第二处理单元(24)确定用于第二对象信号(34)的第二声音信号模型(28)的第二组参数值(36)；

-随后在听力装置(2)的第一处理单元(10)中接收输入信号(8)，该输入信号(8)包括第一信号部分(30)和第二信号部分(32)，其中第一信号部分(30)至少部分对应于第二对象信号(34)；

-将所确定的第二声音信号模型(28)的第二组参数值(36)应用于第一声音信号模型(12)；和

-根据第一声音信号模型(12)处理输入信号(8)。

3.根据上述权利要求中任一项所述的方法，其中，所确定的第二声音信号模型(28)的第一组参数值(26)被存储在存储器(38)内，并且其中所确定的第二声音信号模型(28)的第一组参数值(26)被配置成通过第二处理单元(24)从存储器(38)内进行检索。

4.根据上述权利要求中任一项所述的方法，所述方法包括生成所确定的用于各对象信号(44)的第二信号模型(28)的各组参数值(42)的库(40)，所述对象信号(44)包括至少第一对象信号(20)和第二对象信号(34)；其中，当输入信号(8)至少部分包括各对象信号(44)时，所确定的用于各对象信号(44)的第二声音信号模型(28)的各组参数值(42)被配置为应用于第一声音信号模型(12)。

5.根据上述权利要求中任一项所述的方法，其中，在听力装置(2)内对输入信号(8)建模包含提供预先确定的第二声音信号(28)，和确定用于各对象信号(44)的用于预先确定的第二声音信号模型(28)的各组参数值(42)。

6.根据上述权利要求中任一项所述的方法，其中，第二处理单元(24)被设置在电子装置(46)内，其中所确定的用于各对象信号(44)的第二声音信号模型(28)的各组参数值(42)从电子装置(46)被发送至听力装置(2)，且被应用于第一声音信号模型(12)。

7.根据上述权利要求中任一项所述的方法，其中，被配置成记录各对象信号(44)的记录单元(22)是电子装置(46)的第二输入换能器(48)。

8.根据上述权利要求中任一项所述的方法，其中，用于各对象信号(44)的第二声音信号模型(28)的各组参数值(42)被配置成可由用户(4)在用户界面(50)上修改。

9.根据上述权利要求中任一项所述的方法，其中，根据第一声音信号模型(12)处理输入信号(8)包括，估计第一声音信号模型(12)的滤波器组的各频带中的一组平均谱功率系数。

10.根据上述权利要求中任一项所述的方法，其中，根据第一声音信号模型(12)处理输入信号(8)包括，将估计的平均谱功率系数应用于谱减法计算，其中从输入信号(8)的时变频谱中减去固定目标频谱。

11.根据上述权利要求中任一项所述的方法，其中所述的谱减法计算根据输入信号(8)的特定特征估计时变影响因子。

12.根据上述权利要求中任一项所述的方法，其中，在听力装置(2)内对输入信号(8)建模包括生成概率建模方法。

13.根据上述权利要求中任一项所述的方法，其中，第一对象信号(20)是听力装置(2)的用户(4)希望在输入信号(8)中抑制的噪声信号，或者其中，第一对象信号(20)是听力装置(2)的用户(4)希望在输入信号(8)中增强的期望信号。

14.一种用于对声音信号建模的听力装置(2)，所述听力装置(2)被配置成由用户(4)佩戴，所述听力装置(2)包括：

-用于提供输入信号(8)的第一输入换能器(6)；

其中由记录单元(22)记录第一对象信号(20)，所述记录由听力装置(2)的用户(4)发起；

其中由第二处理单元(24)确定用于第一对象信号(20)的第二声音信号模型(28)的第一组参数值(26)；

其中听力装置(2)被配置成：

-根据第一声音信号模型(12)处理输入信号(8)。

15.一种系统(58)，包含配置成由用户(4)佩戴的听力装置(2)及电子装置(46)；所述电子装置(46)包含：

-记录单元(22)；

-第二处理单元(24)

其中所述电子装置(46)被配置成：

其中所述听力装置(2)包含：

-提供输入信号(8)的第一输入换能器(6)

-被配置成根据第一声音信号模型(12)处理输入信号(8)的第一处理单元(10)；

其中所述听力装置(2)被配置成：

-根据第一声音信号模型(12)处理输入信号(8)。