CN114650492A

CN114650492A - 经由听力设备进行无线个人通信

Info

Publication number: CN114650492A
Application number: CN202111560026.8A
Authority: CN
Inventors: A·布里尔曼; A·埃尔-霍伊迪
Original assignee: Sonova AG
Current assignee: Sonova Holding AG
Priority date: 2020-12-21
Filing date: 2021-12-20
Publication date: 2022-06-21
Also published as: EP4017021A1; US20220201407A1; US11736873B2

Abstract

一种用于使用听力系统(10)与听力设备(12)进行无线个人通信的方法，包括：通过听力设备(12)监测和分析用户的声学环境，以基于保存在听力系统(10)中的内容无关的说话者声纹识别一个或多个说话人；以及向用户呈现用户接口，用于将已识别说话人通知用户，以及用于建立、加入或离开听力设备(12)与由一个或多个已识别说话人使用的一个或多个通信设备之间的无线个人通信连接。

Description

经由听力设备进行无线个人通信

技术领域

本发明涉及一种用于使用听力设备进行无线个人通信的方法、计算机程序和计算机可读介质，该听力设备由用户佩戴并且配备有至少一个麦克风和声音输出设备。此外，本发明涉及一种听力系统，其包括至少一个这种类型的听力设备并且任选地包括连接的用户设备，例如智能电话。

背景技术

听力设备通常是小而复杂的设备。听力设备可以包括处理器、麦克风、作为声音输出设备的集成扬声器、存储器、外壳和其他电子和机械部件。一些示例听力设备是耳后式(BTE)、耳道内接收器式(RIC)、耳内式(ITE)、完全耳道内式(CIC)和耳道内隐形式(IIC)设备。基于听力损失、审美偏好、生活方式需求和预算，与另一设备相比，用户可以更喜欢这些听力设备中的一个。

不同用户的听力设备可以适配以形成无线个人通信网络，这可以改善在嘈杂的环境中与其他听力设备用户或使用任何类型合适通信设备(例如无线麦克风等)的人通过语音进行的通信(例如对话或收听某人的演讲)。

然后，听力设备用作头戴式设备，其通过其集成麦克风接收其用户的语音，并通过集成扬声器使其他通信参与者的语音可被听到。例如，语音音频流然后从一个用户的听力设备传输到另一个用户的听力设备，或者一般地在两个方向上传输。在这种情况下，还已知在某些情况下使用听力设备中提供的波束成形器来提高信噪比(SNR)：如果扬声器在用户前面并且如果扬声器距离不太远(通常，比大约1.5m近)。

在现有技术中，一些用于在听力设备或其他类型的通信设备之间自动建立无线音频通信的方法是已知的。在基于声学信号和数字音频流的相关性的自动连接建立方面存在相当多的现有技术。然而，这种方法对于这里描述的听力设备网络是不合理的，因为用于个人通信的数字音频信号不打算在网络连接建立之前被流式传输并且这样做会消耗太多功率。进一步的方法要么提到由诸如语音命令之类的语言内容触发的连接，要么基于对当前声学环境的分析或来自与说话者语音分析无关的传感器的信号。

发明内容

本发明的一个目的是提供一种使用听力设备进行无线个人通信的方法和系统，该听力设备由用户佩戴并且配备有至少一个麦克风和声音输出设备，与本领域已知的方法和系统相比，其可以进一步提高用户的舒适度、信号质量和/或节省能源。

这些目的是通过独立权利要求的主题实现的。进一步的示例性实施例根据从属权利要求和以下描述是显而易见的。

本发明的第一方面涉及一种使用由用户佩戴并配备有至少一个集成麦克风和声音输出设备(例如扬声器)的听力设备进行无线个人通信的方法。

该方法可以是计算机实施的方法，该方法可以由听力系统自动执行，用户的听力设备是听力系统的一部分。例如，听力系统可以包括由同一用户使用的一个或两个听力设备。听力设备中的一个或两个可以佩戴在用户的耳朵上和/或佩戴在用户的耳朵中。听力设备可以是助听器，其可以适用于补偿用户的听力损失。人工耳蜗也可以是听力设备。听力系统可以任选地进一步包括至少一个连接的用户设备，例如智能手机、智能手表或用户携带的其他设备和/或个人计算机等。

根据本发明的一个实施例，该方法包括通过听力设备监测和分析用户的声学环境，以基于听力系统中保存的内容无关说话者声纹来识别一个或多个说话人。可以通过从至少一个麦克风(例如至少一个集成麦克风)接收音频信号来监测用户的声学环境。可以通过对音频信号的评估来分析用户的声学环境，从而基于听力系统中保存的与内容无关的说话者声纹来识别一个或多个说话人(在此表示为“说话者识别”)。

根据本发明的一个实施例，该说话者识别被用作可能自动建立、加入或离开用户的听力设备与一个或多个说话人(本文也称为作为此处的“其他对话参与者”)所使用并能够与用户的听力设备进行无线通信的相应通信设备之间的无线个人通信连接的触发因素。在本文中，术语“对话”旨在包括任何类型的语音个人通信(即不仅是两个人的对话，还包括在一个小组中交谈或听某人的演讲等)。

换句话说，所提出方法的基本思想是基于说话者识别技术(即基于文本或内容独立的说话者验证)建立、加入或离开听力设备网络，或至少将这样的连接的可能性通知用户。为此，例如，能够进行无线音频通信的听力设备可以暴露用户自己的内容无关声纹(例如用户的合适说话者模型)，以便属于另一个用户的另一对听力设备可以将它与当前的声学环境进行比较。

说话者识别可以通过识别说话者语音的特征频率、语音韵律和/或语音的动态(dynamics)来执行。说话者识别也可以基于分类方法，例如GMM、SVM、k-NN、Parzen窗口和其他机器学习和/或深度学习分类方法，例如DNN。

例如，这里描述的基于说话者识别的无线个人通信连接的自动激活可能比听力设备用户的手动激活更适合，因为手动激活可能具有以下缺点：

·首先，用户可能难以知道何时激活这种无线个人通信连接可能是有益的。用户也可能忘记使用它的选项。

·其次，用户在相同情况下一次又一次地激活连接可能很麻烦。在这种情况下，根据情况自动激活它会更容易。

·第三，当用户在他想保护自己的隐私并且不知道其他人听到他的声音的情况下忘记停用连接时，这可能会非常令人不安。

另一方面，与以上进一步概述的自动无线连接激活的已知方法相比，本文描述的解决方案可以例如利用以下优势：说话者的听力设备具有说话者语音的先验知识并且能够将他的语音签名(与内容无关的说话者声纹)传达给潜在对话伙伴的设备。因此与本领域已知的方法以及输入的数量相比，降低了复杂性。基本上，这里描述的说话者识别方法只需要声学和无线电接口。

根据本发明的一个实施例，能够与用户的听力设备进行无线通信的通信设备包括其他人的听力设备和/或无线麦克风，即其他对话参与者所使用的听力设备和/或无线麦克风。

根据本发明的一个实施例，在用户的听力设备和/或其他对话参与者的通信设备中采用波束成形器，该波束成形器被特别配置和/或调谐以提高非面对面站立(即扬声器不在用户前面)和/或相隔超过1m、超过1.5m或超过2m的人之间的无线个人通信的信噪比(SNR)。因此，与本领域已知的解决方案相比，在不利收听条件下的SNR可以得到显著改善，其中波束成形器通常仅在说话者在用户前面并且说话者不太远(大约小于1.5m的距离)的某些情况下提高SNR。

根据本发明的一个实施例，用户自己的内容无关声纹也可以保存在听力系统中，并通过与潜在对话参与者使用的通信设备的无线通信共享(即暴露和/或传输)，以便使其能够根据用户自己的内容无关声纹来识别用户。声纹也可能存储在设备外部，例如：在服务器或基于云的服务上。例如，用户自己的内容无关声纹可以保存在用户听力设备或用户听力系统中的连接的用户设备(例如智能手机)的非易失性存储器(NVM)中，以便永久可用。潜在的其他对话参与者的内容无关说话者声纹也可以保存在非易失性存储器中，例如如果有重要的其他人，例如近亲或同事。然而，将潜在对话参与者的内容无关说话者声纹保存在易失性存储器中以便仅在需要时可用可能也是合适的，例如，在诸如会议或其他公共事件之类的用例中。

根据本发明的一个实施例，用户自己的内容无关声纹可以通过以下一种或多种方法与潜在对话参与者的通信设备共享：

当用户的听力设备与另一个对话参与者的通信设备配对进行无线个人通信时，它可以通过用户自己的内容无关声纹和相应的内容无关说话者声纹的交换来共享。这里，不同用户的听力设备之间的配对可以手动或自动完成，例如，使用蓝牙，并且意味着只是为无线个人通信做准备，而不是激活它。换句话说，连接不一定由单独配对的听力设备自动激活。在配对期间，存储在一个听力设备中的语音模型可以被加载到另一个听力设备中，并且当语音模型被识别并且任选地满足如下文所述的另外的条件(例如不良SNR)时，可以建立连接。

附加地或替代地，用户自己的内容无关声纹也可以通过以下方式来共享：由用户的听力设备以预定时间间隔执行的定期广播，和/或根据潜在的其他对话参与者的通信设备的请求发送它。

根据本发明的一个实施例，用户自己的内容无关声纹是使用专业的语音特征提取和声纹建模装置获得的，例如在听力保健专业人员的办公室处验配会话(fittingsession)期间或在另一个医疗或工业办公室或机构处。这可能有一个好处：模型计算的复杂度可以推到这个办公室或机构的专业装置上，例如验配台。这也可能有优点或缺点——模型/声纹是在安静的环境中创建的。

附加地或替代地，用户自己的内容独立声纹也可以通过以下方式来获得：使用用户的听力设备和/或连接的用户设备在用户正在讲话(例如通话)的真实用例(也称为自己的语音拾取，OVPU)期间进行语音特征提取。特别是，听力设备中提供的波束成形器可以调整为拾取用户自己的语音并过滤掉此类实际用例期间的环境噪声。这种方法可能具有的优势是声纹/模型可以在现实生活中随着时间的推移而改进。语音模型(声纹)也可以在线计算：通过听力设备本身或用户的电话或其他连接的设备。

如果模型计算被交换到移动电话或其他连接的用户设备，至少可以考虑两种不同的方法。例如，在用户正在说话并使用连接的用户设备进行声纹建模的实际用例期间，可以使用用户的听力设备和/或连接的用户设备获取用户自己的内容无关声纹以进行语音特征提取。然后可能是用户的听力设备提取语音特征并将它们发送到连接的用户设备，于是连接的用户设备计算或更新声纹模型并任选地将其发送回听力设备。替代地，连接的用户设备可以使用移动应用(例如电话app)，该应用例如在用户同意的情况下监测用户的通话和/或其他说话活动，并且执行附加于声纹建模的语音特征提取部分。

根据本发明的实施例，除了在上文和下文中描述的说话者识别之外，在听力系统中监测和/或分析与所述无线个人通信相关的一个或多个另外的条件。在本实施例中，自动建立、加入和/或离开用户的听力设备与其他对话参与者的相应通信设备之间的无线个人通信连接的步骤还取决于这些另外的条件，这些条件不是基于语音识别的。例如，这些另外的条件可以与声学质量有关，例如麦克风信号的信噪比(SNR)，和/或与决定开始或结束无线个人通信连接相关的任何其他因素或标准。

例如，这些另外的条件可以包括环境信噪比(SNR)，以便每当麦克风信号的环境SNR对于对话来说太差时自动切换到无线通信，反之亦然。作为条件，另外的条件还可以包括与用户和/或其他人和/或周围物体和/或天气(例如用户和/或在汽车内或户外的其他人、风噪声等)有关的预定义环境场景的存在作为条件。例如，这样的场景可以由听力设备或听力系统中提供的相应分类器(传感器和/或软件)自动可识别。

根据本发明的一个实施例，一旦用户的听力设备与另一说话人的通信设备之间建立无线个人通信连接，用户的听力设备就会保持监测和分析用户的声学环境，并在以下情况下停止该无线个人通信连接：这个说话人的内容无关说话者声纹在一段时间内(例如预定的时间段内，例如一分钟或几分钟)没有被进一步识别。从而，例如，在用户或其他对话参与者已经离开对话房间等之后，可以保护用户的隐私不被其他对话参与者进一步听到。此外，当不再识别出说话者的语音时无线声流的自动中断也有助于节省听力设备或系统的能源。

根据本发明的一个实施例，如果用户的听力设备与多个其他对话参与者的通信设备之间建立了无线个人通信连接，则用户的听力设备保持监测和分析用户的声学环境并取决于至少一个预定的排序标准中断到这些通信设备中的一些通信设备的无线个人通信连接，以便形成较小的对话组。上述数量可以是预定的大量对话参与者，例如5人、7人、10人或更多。例如，它可以在听力系统或设备中预设和/或由用户单独可选择。至少一个预定的排序标准可以例如包括以下中的一个或多个：对话(即，内容相关的)重叠；由用户的听力设备确定以便表征用户头部相对于相应的其他对话参与者的取向的方向增益；用户和相应的其他对话参与者之间的空间距离。

根据本发明的一个实施例，该方法包括向用户呈现用户接口，用于将已识别说话人通知用户，以及用于建立、加入或离开听力设备和一个或多个已识别说话人所使用的一个或多个通信设备之间的无线个人通信连接。用户接口可以由听力设备本身呈现为声学用户接口和/或由另外的用户设备(例如智能手机)，例如呈现为图形用户接口。

本发明的进一步方面涉及一种用于使用听力设备进行无线个人通信的计算机程序，该听力设备由用户佩戴并且配备有至少一个麦克风和声音输出设备，该程序在由处理器执行时适于执行上文和下文描述的方法的步骤，以及涉及存储这样的计算机程序的计算机可读介质。

例如，计算机程序可以在听力设备的处理器中执行，该听力设备例如可以由人在耳后携带。计算机可读介质可以是该听力设备的存储器。计算机程序还可以由连接的用户设备的处理器执行，连接的用户设备例如是智能手机或任何其他类型的移动设备，连接的用户设备可以是听力系统的一部分，并且计算机可读介质可以是连接的用户设备的存储器。该方法的步骤也可以由听力设备执行并且该方法的其他步骤由连接的用户设备执行。

一般而言，计算机可读介质可以是软盘、硬盘、USB(通用串行总线)存储设备、RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程只读存储器)或闪存。计算机可读介质也可以是允许下载程序代码的数据通信网络，例如因特网。计算机可读介质可以是非暂时性或暂时性介质。

本发明的另一方面涉及一种听力系统，该听力系统包括由听力设备用户佩戴的听力设备，如上文和下文所述，其中听力系统适于执行上文和下文所述的方法。作为示例，听力系统还可以包括由同一用户佩戴的第二听力设备和/或由同一用户使用的连接的用户设备，例如智能电话或其他移动设备或个人计算机。

根据本发明的一个实施例，听力设备包括：麦克风；处理器，用于处理来自麦克风的信号；声音输出设备，用于将处理后的信号输出到听力设备用户的耳朵；收发器，用于与由其他对话参与者使用的通信设备以及任选地与连接的用户设备和/或与由同一用户佩戴的另一个听力设备交换数据。

必须理解，如上文和下文所述的方法的特征可以是上文和下文所述的计算机程序、计算机可读介质和听力系统的特征，反之亦然。

参考下文描述的实施例，本发明的这些方面和其他方面将变得显而易见并得以阐明。

附图说明

下面，参照附图更详细地描述本发明的实施例。

图1示意性地示出了根据本发明实施例的听力系统。

图2示意性地示出了两个对话参与者(Alice和Bob)通过他们的听力设备所提供的无线连接相互交谈的示例。

图3示出了根据本发明实施例的用于经由图1的听力系统的听力设备进行无线个人通信的方法的流程图。

图4示出了说话者识别方法的示意框图。

图5示出了根据本发明实施例的创建用户自己的内容无关声纹的示意框图。

图6示出了根据本发明的实施例的验证说话者以及取决于该说话者识别的结果自动建立或离开到说话者的通信设备的无线通信连接的示意框图。

附图中使用的参考符号及其含义在参考符号列表中以概要形式列出。原则上，相同的部件在图中具有相同的附图标记。

具体实施方式

图1示意性地示出了听力系统10，其包括听力设备用户(未示出)携带的耳后式设备形式的听力设备12、以及连接的用户设备14，例如智能手机或平板电脑。必须注意，听力设备12是特定实施例并且本文描述的方法也可以由其他类型的听力设备执行，例如耳内式设备。

听力设备12包括耳后部件15和要放置在用户耳道中的部件16。部件15和部件16通过管(tube)18连接。在部件15中，设有麦克风20、声音处理器22和声音输出设备24，例如扬声器。麦克风20可以获取用户的环境声音并且可以产生声音信号，声音处理器22可以放大声音信号并且声音输出设备24可以产生通过管18和耳内部件16引导进入用户的耳道中的声音。

听力设备12可以包括处理器26，其适于调整声音处理器22的参数，使得基于输入音量来调整声音信号的输出音量。这些参数可以由在处理器26中运行的计算机程序确定。例如，使用听力设备12的旋钮28，用户可以选择调节器(modifier)(例如低音、高音、噪声抑制、动态音量等)，并且可以选择这些调节器的级别和/或值，根据该调节器，可以如上文和下文所述创建和处理调整命令。特别地，可以基于调整命令来确定处理参数，并且基于此，例如可以改变声音处理器22的频率相关增益和动态音量。所有这些功能都可以实现为存储在听力设备12的存储器30中的计算机程序，这些计算机程序可以由处理器22执行。

听力设备12还包括收发器32，其可以适于与连接的用户设备14的收发器34进行无线数据通信，该用户设备14可以是智能电话或平板计算机。还可能的是：使用连接的用户设备14调整上述调节器及其级别和/或值，和/或使用连接的用户设备14生成调整命令。这可以通过在连接的用户设备14的处理器36中运行并存储在连接的用户设备14的存储器38中的计算机程序来执行。计算机程序可以在所连接的用户设备14的显示器42上提供图形用户接口40。

例如，为了调整诸如音量之类的调节器，图形用户接口40可以包括诸如滑块之类的控制元素44。当用户调整滑块时，可以生成调整命令，这将改变听力设备12的声音处理，如上文和下文所述。替代地或附加地，用户可以例如通过旋钮28用听力设备12本身来调节调节器。

用户接口40还可以包括指示器元素46，其例如显示当前确定的收听情况。

此外，听力设备12的收发器32适于允许用户的听力设备12和其他人的听力设备之间通过语音进行无线个人通信，以便在不利的声学条件(例如嘈杂的环境)下改善/实现他们的对话(这不仅包括两个人的对话，而且也包括群组交谈或收听某人的演讲等)。

这在图2中示意性地描绘，其示出了两个对话参与者(Alice和Bob)通过由他们的听力设备12或相应的120提供的无线连接相互交谈的示例。如图2所示，听力设备12和120用作头戴式设备(headset)，它们用它们的集成麦克风拾取用户的语音并通过集成扬声器使其他通信参与者的语音可被听到。如图2中的虚线箭头所示，语音音频流然后从一个用户(Alice)的听力设备12无线传输到另一个用户(Bob)的听力设备120，或者一般地在两个方向上传输。

图1中所示的听力系统10适于使用由用户佩戴并配备有至少一个集成麦克风20和声音输出设备24(例如扬声器)的听力设备12来执行用于无线个人通信的方法(例如，如图2所示)。

图3示出了该方法的流程图的示例。该方法可以是在图1的听力系统10中自动执行的计算机实施的方法。

在该方法的第一步骤S100中，用户的声学环境由至少一个麦克风20监测并进行分析，以便基于听力系统10中保存的一个或多个说话人的内容无关说话者声纹来识别一个或多个说话人(“说话者识别”)。

在该方法的第二步骤S200中，该说话者识别被用作自动建立、加入或离开用户的听力设备12和由一个或多个说话人(也称为“其他对话参与者”)使用并且能够与用户的听力设备12进行无线通信的相应通信设备(例如听力设备或无线麦克风)之间的无线个人通信连接的触发因素。

在步骤S200中，也可以首先向用户呈现用户接口，其将已识别说话人通知用户并进行建立。利用用户接口，听力设备也可以由用户触发以加入或离开听力设备(12)与由一个或多个已识别说话人使用的一个或多个通信设备之间的无线个人通信连接。

在该方法的任选的第三步骤S300中(第三步骤S300也可以在第一步骤S100和第二步骤S200之前执行)，获得用户自己的内容无关声纹并将其保存在听力系统10中。

在任选的第四步骤S400中，保存在听力系统10中的用户自己的内容无关声纹通过无线通信被共享(即暴露和/或传输)到潜在的其他对话参与者的通信设备，以便使其能够基于用户自己的内容无关声纹来将用户识别为说话者。

在下文中，将参考图4至图6更详细地描述也包括可能的子步骤的步骤S100-S400中的每一个。例如，步骤S100-S400或其子步骤中的一些或全部可以同时执行或周期性地重复。

首先，将更详细地解释上述对用户的被监测的声学环境的分析，其由听力系统10在步骤S100中执行的并且被表示为说话者识别：

说话者识别技术本身根据其他技术领域同样是已知的。例如，它们通常用于生物特征认证应用和取证，通常用于识别通话录音中的嫌疑人(例如，参见J.H.Hansen andT.Hasan,"Speaker Recognition by Machines and Humans:A tutorial review,"inIEEE Signal Processing Magazine(Volume:32,Issue:6),2015)。

如图4中示意性所示，说话者识别方法可以包括两个阶段：

1)训练阶段S110，其中说话者语音被建模(作为生成上述内容无关说话者声纹的示例)以及

2)测试阶段S120，其中针对模型测试未知语言段(以便如上所述识别说话者)。

然后计算测试片段是由说话者生成的似然度，并可用于做出有关说话者身份的决策。

因此，如图4所示，训练阶段S110可以包括：“特征提取”子步骤S111，其中从他的语音样本中提取说话者的语音特征，以及“说话者建模”子步骤S112，其中提取的语音特征用于内容无关说话者声纹生成。测试阶段S120还可以包括：“特征提取”子步骤S121，其中从根据监测用户声学环境得到的他的语音样本中提取说话者的语音特征，然后是“评分”子步骤S122，其中计算上述似然度，以及“决策”子步骤S123，其中基于所述评分/似然度来做出是否识别出相应说话者的决策。

关于上述语音特征，说话者识别中使用的最流行的语音特征之一被称为梅尔频率倒谱系数(Mel-Frequency Cepstrum Coefficient，MFCC)，因为它们高效地分离了语言内容和语音。在傅里叶分析中，倒谱是计算信号频谱对数的傅里叶逆变换的结果。梅尔(Mel)频率非常接近巴克(Bark)域，这是听力设备中常用的。它包括在对数标度上对声频仓(acoustic frequency bin)进行分组以减少信号的维度。与巴克域相反，使用重叠三角滤波器对频率进行分组。如果听力设备已经实现了巴克域，则巴克频率倒谱系数(BarkFrequency Cepstrum Coefficient，BFCC)可以用于特征，这将节省一些计算。例如，F.u.R.S.K.A.M.&.G.S.Chandar Kumar在2018年iCoMET中公开的“Analysis of MFCC andBFCC in a Speaker Identification System”比较了基于MFCC和BFCC的说话者识别的性能，并揭示了基于BFCC的说话者识别也普遍适用。

然后可以如下计算倒谱系数：

其中X(f)是信号的(梅尔或巴克)频域表示，并且

是傅立叶逆变换。例如，在以下文献中给出了关于倒谱的更多见解：R.W.S.Alan V.Oppenheim,"From Frequency toQuefrency:A History of the Cepstrum,"IEEE Signal Processing Magazine,no.Sept.,pp.95-106,2004。

在这里，应该注意的是，有时傅里叶逆变换会被离散余弦变换(DCT)代替，这可能会更积极地降低维数。在这两种情况下，嵌入对计算的硬件支持的合适的数字信号处理技术基本上被认为是可实现的。

可以在步骤S111和S121中替代地或附加地包括以提高识别性能的其他语音特征例如可以是以下一种或多种：

·LPC系数(线性预测编码系数)

·音高

·音色

在图4的步骤S112中，提取的语音特征被用于构建模型，该模型最好地描述给定说话者的观察到的语音特征。

可以在文献中找到几种建模技术。最常用的一种是高斯混合模型(GaussianMixture Model，GMM)。GMM是几个高斯PDF(概率密度函数)的加权和，每个高斯PDF都由均值向量和权重向量以及在图4中的训练阶段S110期间计算的协方差矩阵表示。如果这些计算步骤中的一些太耗时或太消耗能量或者如果在听力设备12中实现太昂贵，它们也可以交换到听力系统10的连接的用户设备14(参见图1)和/或离线执行(即不在对话期间实时进行)。也就是说，正如下面将要呈现的，模型计算可能是离线完成的。

另一方面，对未知测试段与给定扬声器模型匹配的似然度的计算(参见图4中的步骤S122)可能需要由听力设备实时执行。例如，该计算可能需要像在图3中的Alice和Bob的人的对话期间由他们的听力设备12或相应的120或由他们连接的用户设备14(例如智能手机)执行(参见图1)。

在本示例中，待计算的所述似然度等价于在给定语音模型λ中观察到的语音特征向量x的概率(给定语音模型λ是听力系统10中保存的与内容无关的说话者声纹)。对于上面提到的高斯混合，它意味着计算概率如下：

其中变量的含义如下：

g＝1...M高斯分量指数

π_g第g个高斯混合的权重

N多维高斯函数

μ_g第g个高斯混合的平均向量

∑_g第g个高斯混合的协方差矩阵

K特征向量的大小

用大约10个合理数量的特征计算似然度的复杂性对于听力设备来说可能太耗时或太昂贵。因此，为了有效地降低这种复杂性，可以在听力系统10中进一步实施以下不同的方法：

·一种方法是将模型简化为多元高斯(M＝1)，其中：

o特征独立，其均值不同但方差相等(∑＝σ²·I)或

o特征协方差矩阵相等(∑_i＝∑,

)

在这些情况下，判别函数(discriminant function)简化为线性分隔器(separator)(超平面)，特征位置需要被计算为所述线性分隔器(有关这一点的更多细节，参见下文)。

·所谓的支持向量机(SVM)分类器可以用于步骤S120中的说话者识别。这里的想法是用线性决策边界将说话者模型与背景分开；也称为超平面。然后将在步骤S110的训练阶段期间添加附加的复杂性，但步骤S120中的测试将大大简化，因为可以针对线性函数测试观察到的特征向量。请参阅下面使用线性分类器进行测试的描述。

·取决于整体性能，也可以实现合适的非参数密度估计，例如称为k-NN和Parzen窗口。

如上所述，通过使用上述线性分类器，可以大大降低步骤S120中似然度计算的复杂度。

也就是说，线性分类器的输出由以下等式给出：

g(w^Tx+w₀)

其中变量的含义如下：

g非线性激活函数

x观察到的语音特征向量

w预定的权重向量

w₀预定的标量偏差。

如果上式中的g是符号函数，则图4的步骤S123中的决策由下式给出：

w^Tx+w₀≥0

正如人们很容易认识到的那样，在线性分类器的情况下，决策的复杂性非常低。也就是说，数量级是K个MAC(乘-累加)，其中K是语音特征向量的大小。

参考图5，用于创建用户自己的内容无关声纹(参见图3中的步骤S300)的训练阶段(参见图4中的步骤S110)的具体应用和实施方式将被解释。

如上面已经提到的，用户自己的语音签名(内容无关声纹)可以在不同的情况下获得，例如：

-在听力保健专业人员办公室处进行验配会话期间。

由此，模型计算的复杂性可以推到验配台。但是，该模型是在安静的环境中创建的。

-在自己的语音拾取(OVPU)用例(如通话)期间，其中听力设备的波束成形器可以调谐为拾取用户自己的语音并滤除环境噪音。

因此，模型可以随着时间的推移在现实生活情况下得到改进。然而，模型通常需要在线计算，即当用户正在使用他的听力设备12时。这可以实现为在听力设备12本身中或通过用户的电话(作为图1的用户连接设备14的示例)执行。

需要说明的是，如果将模型计算推送到手机端，图1的听力系统10中可以实现至少两种方式：

1)听力设备12提取特征并将它们发送到电话。然后，电话计算/更新扬声器模型并将其发送回听力设备12。

2)电话app在用户同意的情况下收听通话，并且处理附加于建模的特征提取部分。

图5中示意性地示出了步骤S300的这些子步骤。在子步骤S301中，以任何合适的方式对用户自己在说话的情况下用户听力设备12的麦克风M1和M2所获取的环境声学信号进行预处理。例如，该预处理可以包括噪声消除(NC)和/或波束成形(BF)等。

任选地，可以在子步骤S302中执行对用户自己的语音活动的检测，以确保用户正在说话，例如通过识别与另一个人的通话连接和/或通过识别来自用户的嘴的声学信号的方向。

类似于上面参考图4大体描述的步骤S111和S112，然后在步骤S311中执行用户的语音特征提取，接着在步骤S312中对其语音进行建模，即创建他自己的内容无关声纹。

在步骤S314中，然后可以将用户语音的模型保存在非易失性存储器(NVM)(例如，保存在听力设备12的非易失性存储器、或连接的用户设备14的非易失性存储器)中供将来使用。为了被其他对话参与者的通信设备利用，它可以在步骤S400(参见图3)中与他们共享，例如通过用户听力设备12的收发器32。在该步骤S400中，模型可以

·在无线个人通信网络中配对不同人的听力设备期间进行交换；和/或

·被定期广播；和/或

·每当听力设备可用于进入现有无线个人通信网络或创建新的无线个人通信网络时，以低功耗蓝牙扫描响应方式根据请求而被发送。

如图5所示，在步骤S400中与潜在的其他对话参与者的设备共享用户自己的语音模型也可以被实现为另外取决于用户是否在说话，如在步骤S302中检测的。因此，通过避免在如下情况下不必要的模型共享，可以节省能量：例如，在用户不打算自己说话的情况下，例如当他/她只是在听另一个演讲者进行的演讲或报告时。

参考图6，将使用一些示例性用例来解释和进一步说明：测试阶段的具体应用(参见图4中的步骤S120)以通过用户的听力系统10来验证说话者；以及取决于该说话者识别的结果，自动建立与扬声器的通信设备的无线通信连接或离开该连接(参见图3中的步骤S200)。

在配备有能够进行数字音频无线电传输的听力设备的两个人之间的面对面对话中，例如在图2中的Alice和Bob的情况下，可以在对话期间的特定时间定义角色“演讲者”和“收听者”。收听者被定义为在声音上接收说话者语音的人。在图2所示的特定时刻，Alice是“说话者”，如从她的嘴离开并被她的听力设备12的麦克风20接收到以便将内容无线传输到Bob(他是该情况下的“收听者”)的声波AW所示。

图6中的测试阶段活动是通过收听来执行的。它基于由用户听力设备12的麦克风M1和M2在它们监测用户的声学环境时接收到的信号。在子步骤S101中，麦克风M1和M2所接收的声学信号可以以任何合适的方式进行预处理，例如，噪声消除(NC)和/或波束成形(BF)等。图6中的收听包括从感兴趣的声学信号中提取语音特征，即本示例中的波束成形器信号输出，并使用存储在NVM中的已知的说话者模型计算似然度。例如，可以在步骤S121中提取说话者语音特征，并在步骤S122中计算似然度，以便满足步骤123中关于说话者识别的决策，类似于上面参考图4描述的那些步骤。

如图6所示，可以在说话者识别程序中任选地包括：附加子步骤S102，“说话者语音活动检测”，其中可以在步骤S121中提取其特征之前检测说话者语音的存在；以及附加子步骤S103，其中说话者语音模型(内容无关声纹)(例如，其被保存在非易失性存储器(NVM)中)被提供给决策单元，在决策单元中实施步骤S122和S123的分析。

如上所述，在步骤S200(也参见图2)中，在步骤S122和S123中执行的说话者识别被用作用于自动建立、加入或离开在用户的听力设备12和识别的说话者的相应的通信设备之间的无线个人通信连接的触发因素。该连接可以被实现为包括进一步的子步骤S201，其可以帮助进一步改进所述无线个人通信。例如，这可能包括监测一些附加条件，例如信噪比(SNR)或本底噪声估计(NFE)。

在下文中，将描述所提出的方法可能有益的不同用例的一些示例：

在步骤S200中建立无线个人通信流：

如果收听者的听力系统10检测到所识别的说话者的设备已知是无线网络兼容的，则收听者的听力设备12或系统10可以请求建立到说话者的设备的无线网络连接或加入现有的连接(如果有的话)，这取决于声学参数，例如环境信噪比(SNR)和/或听力设备12中的分类器的结果，这可以识别场景，例如车内的人、室外、风噪声，使得决策是基于所识别的场景做出的。

在步骤S200中离开无线个人通信网络：

在网络中消耗数字音频流的同时，收听者的听力设备12保持分析声学环境。如果活动说话者语音签名在一定量时间期间不存在于声学环境中，则听力设备12可以离开与该说话者的设备的无线网络连接以便保持隐私和/或节省能源。

在步骤S200中拆分无线个人通信组：

如果无线个人通信网络可以随着用户加入网络而自动增长，那么它也可能将自己拆分为较小的网络。如果可以以某种合适的方式识别四到六个人的组，则可以在听力设备网络中实现将对话参与者拆分并分离成这样较小的对话组。

在这种情况下，人将自然地将他的头部朝向他感兴趣的组的方向，这在方向增益方面具有优势。因此，当几个人在一组中同时讲话时，收听者的听力设备可能能够根据他们的相对增益对扬声器进行排序。

基于这样的排序和对话重叠，听力设备可以决定放弃更远的说话者的流。

简而言之，这里公开的新颖方法可以由作为听力设备和连接的用户设备(例如智能手机、个人或平板电脑)的组合的系统来执行。例如，智能手机或计算机可以连接到提供语音模型/语音印记(这里表示为“内容无关声纹”)的服务器。此处描述的分析(即一个或多个分析步骤，例如语音特征提取、语音模型开发、说话者识别、进一步条件(例如SNR)的评估)可以在听力设备中完成和/或它可以在连接的用户设备中完成。语音模型/印记可以存储在听力设备或连接的用户设备中。检测到的语音模型和存储的语音模型的比较可以在听力设备和/或连接的用户设备中实现/完成。

虽然已经在附图和前述说明中详细说明和描述了本发明，但是这样的图示和说明被认为是说明性的或示例性的而不是限制性的；本发明不限于所公开的实施例。通过研究附图、公开内容和所附权利要求，本领域技术人员和实践要求保护的发明可以理解和实现对所公开的实施例的其他变化。在权利要求中，“包括”一词不排除其他要素或步骤，词语“一”或“一个”不排除多个。单个处理器或控制器或其他单元可以实现权利要求中记载的几个项目的功能。在相互不同的从属权利要求中记载某些措施的事实并不表示这些措施的组合不能有利地使用。权利要求中的任何附图标记不应被解释为对范围的限制。

附图标记列表

10 听力系统

12,120 听力设备

14 连接的用户设备

15 耳后部件

16 耳内部件

18 管

20、M1、M2 麦克风

22 声音处理器

24 声音输出设备

26 处理器

28 旋钮

30 存储器

32 收发器

34 收发器

36 处理器

38 存储器

40 图形用户接口

42 显示器

44 控制元素，滑块

46 指示器元素

AW 声波

Claims

1.一种使用听力系统(10)进行无线个人通信的方法，所述听力系统包括由用户佩戴的听力设备(12)，所述方法包括：

通过所述听力设备(12)监测和分析所述用户的声学环境，以基于所述听力系统(10)中保存的内容无关的说话者声纹来识别一个或多个说话人；以及

取决于说话者识别，建立、加入或离开所述听力设备(12)和由一个或多个已识别说话人使用的一个或多个通信设备之间的无线个人通信连接。

2.如权利要求1所述的方法，还包括：

能够与所述用户的听力设备(12)进行无线通信的所述通信设备包括听力设备(120)和/或由其他对话参与者使用的无线麦克风；和/或

在所述用户的听力设备(12)中和/或在所述其他对话参与者的通信设备中，专门配置和/或调谐以便提高非面对面站立和/或相距超过1.5m的人之间无线个人通信的信噪比的波束成形器被采用。

3.如前述权利要求中的一项所述的方法，其中：

所述用户自己的内容无关声纹也保存在所述听力系统(10)中，并且通过无线通信与由潜在对话参与者使用的通信设备共享，以便使得其能够基于所述用户自己的内容无关声纹识别所述用户。

4.如权利要求3所述的方法，其中，所述用户自己的内容无关声纹：

保存在所述用户的听力设备(12)的非易失性存储器或连接的用户设备(14)的非易失性存储器中；和/或

通过以下中的一项或多项与潜在对话参与者的通信设备共享：

当所述用户的听力设备(12)与另一个对话参与者的通信设备配对进行无线个人通信时，所述用户自己的内容无关声纹和相应的内容无关说话者声纹的交换；

由所述用户的听力设备(12)以预定时间间隔执行的定期广播；

根据潜在其他对话参与者的通信设备的请求，发送所述用户自己的内容无关声纹。

5.如权利要求3或4所述的方法，其中，所述用户自己的内容无关声纹是通过以下方式获取的：

在验配会话期间在听力保健专业人员的办公室处，使用专业的语音特征提取和声纹建模装置；和/或

在所述用户说话的实际用例期间，使用所述用户的听力设备(12)和/或连接的用户设备(14)进行语音特征提取。

6.如权利要求5所述的方法，其中，所述用户自己的内容无关声纹是通过以下方式获取的：

在所述用户正在说话的实际用例期间，使用所述用户的听力设备(12)和/或所述连接的用户设备(14)进行语音特征提取，并且使用所述连接的用户设备(14)进行声纹建模，其中：

所述用户的听力设备(12)提取所述语音特征并且将其发送到所述连接的用户设备(14)，由此所述连接的用户设备(14)计算或更新所述声纹模型并且将其发送回所述听力设备(12)；或者

所述连接的用户设备(14)采用移动应用，所述移动应用监测所述用户的通话和/或其他说话活动，并且执行附加于所述声纹建模的语音特征提取部分。

7.如前述权利要求中的一项所述的方法，其中，除了所述说话者识别之外，

在所述听力系统(10)中，对于所述无线个人通信相关的一个或多个另外的声学质量和/或个人通信条件被监测和/或分析；以及

自动建立、加入和/或离开所述用户的听力设备(12)和其他对话参与者的相应的通信设备之间的无线个人通信连接的步骤还取决于所述另外的条件。

8.如权利要求7所述的方法，其中，所述另外的条件包括：

环境信噪比；和/或

与所述用户和/或其他人和/或周围物体和/或天气有关的预定义环境场景的存在，其中，这样的场景能够由所述听力设备(12)或所述听力系统(10)中提供的相应分类器识别。

9.如前述权利要求中的一项所述的方法，

其中，一旦在所述用户的听力设备(12)和另一个说话人的通信设备之间的无线个人通信连接被建立，

所述用户的听力设备(12)保持监测和分析所述用户的声学环境，并且如果在预定的时间间隔期间不再识别出该说话人的内容无关说话者声纹，则断开该无线个人通信连接。

10.如前述权利要求中的一项所述的方法，

其中，如果在所述用户的听力设备(12)和多个其他对话参与者的通信设备之间的无线个人通信连接被建立，

则所述用户的听力设备(12)保持监测和分析所述用户的声学环境，并且取决于至少一个预定的排序标准，断开与这些通信设备中的一些通信设备的无线个人通信连接，以便形成较小的对话组。

11.如权利要求10所述的方法，其中，所述至少一个预定排序标准包括以下中的一项或多项：

对话重叠；

由所述用户的听力设备(12)确定以便表征所述用户的头部相对于相应的其他对话参与者的取向的方向增益；

所述用户和所述相应的其他对话参与者之间的空间距离。

12.如前述权利要求中的一项所述的方法，还包括：

向所述用户呈现用户接口，以用于将已识别说话人通知所述用户，并且用于建立、加入或离开所述听力设备(12)与由所述一个或多个已识别说话人使用的一个或多个通信设备之间的无线个人通信连接。

13.一种用于使用听力设备(12)进行无线个人通信的计算机程序产品，所述听力设备由用户佩戴并且配备有至少一个麦克风(20、M1、M2)和声音输出设备(24)，所述程序在由处理器(26、36)执行时，适于执行如前述权利要求中的一项所述的方法的步骤。

14.一种计算机可读介质，其中存储了根据权利要求13所述的计算机程序。

15.一种听力系统(10)，包括由听力设备用户佩戴的听力设备(12)以及任选的连接的用户设备(14)，其中，所述听力设备(12)包括：

麦克风(20)；

处理器(26)，其用于处理来自所述麦克风(20)的信号；

声音输出设备(24)，其用于将处理后的信号输出到所述听力设备用户的耳朵；

收发器(32)，其用于与由其他对话参与者使用的通信设备以及任选地与所述连接的用户设备(14)交换数据；以及

其中，所述听力系统(10)适于执行如权利要求1至12中的一项所述的方法。