CN115086849A

CN115086849A - 确定感兴趣的讲话者的助听器

Info

Publication number: CN115086849A
Application number: CN202210243489.XA
Authority: CN
Inventors: M·S·佩德森; J·詹森; J·M·德哈恩; P·霍昂
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2021-03-11
Filing date: 2022-03-11
Publication date: 2022-09-20
Also published as: US20220295191A1; EP4057644A1

Abstract

本申请公开了确定感兴趣的讲话者的助听器，其包括：用于提供至少一电输入信号的输入单元；自我话音检测器，用于反复估计至少一电输入信号是否包括源自助听器用户的话音的语音信号并提供标示估计结果的自我话音控制信号；话音活动检测器，用于反复估计至少一电输入信号是否包括无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号并提供标示估计结果的话音活动控制信号；讲话者提取单元，配置成从不同于助听器用户的语音声源确定和/或接收分离的一个或多个语音信号及检测源自助听器用户的话音的语音信号；及降噪系统，配置成确定源自助听器用户的话音的语音信号与分离的一个或多个语音信号中的每一语音信号之间的语音重叠和/或间断。

Description

确定感兴趣的讲话者的助听器

技术领域

本申请涉及适于位于助听器用户的耳朵处或耳朵中或者适于完全或部分植入在助听器用户的头部中的助听器。

本申请还涉及包括助听器和对侧助听器的双耳听力系统。

本申请还涉及助听器的运行方法，其中所述助听器适于位于助听器用户的耳朵处或耳朵中或者适于完全或部分植入在助听器用户的头部中。

背景技术

在多讲话者嘀咕情形下，几个讲话者可被看作助听器用户感兴趣的声音。经常通常出现多个对话。

尤其是，听力受损的听者不能应付所有同时的讲话者。

因而，需要确定助听器用户感兴趣的讲话者和/或这些讲话者的方向。同样，需要确定应被视为不想要的噪声或者至少被归类为助听器用户具有较低兴趣度的讲话者。

发明内容

助听器

在本申请的一方面，提供一种适于位于助听器用户的耳朵处或耳朵中或者适于完全或部分植入在助听器用户的头部中的助听器。

助听器可包括用于提供表示助听器用户环境中的声音的至少一电输入信号的输入单元。

所述电输入信号可包括无语音信号。

所述电输入信号可包括来自一个或多个语音声源的一个或多个语音信号。

所述电输入信号可另外包括来自一个或多个其它声源的信号分量，称为噪声信号。

输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括无线接收器，用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号。无线接收器例如可配置成接收在无线电频率范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz或者可见光如430THz到770THz)的电磁信号。

助听器可包括输出单元，用于基于处理后的电信号提供由助听器用户感知为声学信号的刺激。输出单元可包括耳蜗植入件的多个电极(对于CI型助听器)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给助听器用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给助听器用户的振动器(例如在附着到骨头的或骨锚式助听器中)。

助听器可包括自我话音检测器(OVD)，用于反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括源自助听器用户的话音的语音信号并提供标示估计结果的自我话音控制信号。

例如，自我话音控制信号可包括根据是否存在自我话音(OV)而提供0(“话音不存在”)或1(“话音存在”)的二元模式。

例如，自我话音控制信号可包括提供OV存在的概率p(OV)(例如在0到1之间)。

OVD可估计特定输入声音(如话音，如语音)是否(或以何种概率)源自系统用户的话音。助听器的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。

助听器可包括话音活动检测器(VAD)，用于反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号并提供标示估计结果的话音活动控制信号。

例如，话音活动控制信号可包括根据是否存在话音而提供0(“话音不存在”)或1(“话音存在”)的二元模式。

例如，话音活动控制信号可包括提供话音存在的概率p(Voice)(例如在0到1之间)。

VAD可估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中，话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选，话音活动检测器可适于从“话音”的检测排除用户自己的话音。

助听器可包括话音检测器(VD)，用于反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括无语音信号或者来自包括助听器用户的语音声源的一个或多个语音信号。

VD可配置成估计源自助听器用户的话音的语音信号。

例如，VD可包括用于估计源自助听器用户的话音的语音信号的OVD。

VD可配置成估计无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号。

例如，VD可包括用于估计无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号的VAD。

助听器(或者助听器的VD)可配置成提供话音、自我话音、和/或标示其的话音活动控制信号。

助听器可包括讲话者提取单元。

讲话者提取单元可配置成从不同于助听器用户的语音声源将一个或多个语音信号确定和/或接收为分离的一个或多个语音信号。

确定和/或接收可指助听器(例如讲话者提取单元)配置成从附着到一个或多个可能的说话伙伴的一个或多个分开的设备(例如可穿戴设备，如助听器、耳机等)接收一个或多个语音信号。

例如，一个或多个设备中的每一个可包括传声器、OVD和发射器(例如无线)。

确定和/或接收可指助听器(例如讲话者提取单元)配置成分离VAD估计的一个或多个语音信号。

讲话者提取单元可配置成分离VAD估计的一个或多个语音信号。

讲话者提取单元可配置成分离VD估计的一个或多个语音信号。

讲话者提取单元可配置成检测(例如检测和取回)源自助听器用户的话音的语音信号。

讲话者提取单元可配置成提供分离的信号，每一信号包括所述一个或多个语音信号之一或者指明所述一个或多个语音信号之一的存在。

例如，指明语音信号的存在可包括根据是否存在话音而提供0或1，或者提供存在话音的概率p(Voice)。

从而，讲话者提取单元可配置成提供用户环境中的讲话者的语音信号的估计量。

例如，讲话者提取单元可配置成基于盲源分离技术分离一个或多个语音信号。盲源分离技术可基于例如深度神经网络(DNN)、时域音频分离网络(TasNET)等的使用。

例如，讲话者提取单元可配置成基于助听器的、指向远离助听器用户的不同方向的几个波束形成器分离一个或多个语音信号。从而，几个波束形成器可覆盖助听器用户周围的空间，例如将所述空间划分为声学饼片。

例如，每一讲话者可配备有传声器(例如领夹式传声器)，例如在助听器用户的网络中的情形。作为备选或另外，每一传声器可以是相应的辅助装置的一部分。相应讲话者的辅助装置或助听器可包括用于拾取相应讲话者的自我话音的话音活动检测单元(例如VD、VAD和/或OVD)。话音活动可被传给用户的助听器。从而，助听器的讲话者提取单元可配置成基于附着到讲话者的每一所述传声器检测到的语音信号而分离一个或多个语音信号。藉此，可获得每一讲话者的高信噪比(SNR)估计量，可靠的话音活动估计量变得可用。

例如，(例如辅助装置的)一个或多个传声器可被放在助听器用户周围的空间中。所述一个或多个传声器可以是例如放在桌子(如会议传声器)、墙壁、天花板、吊架等上的一个或多个传声器的一部分。一个或多个传声器(或辅助装置)可包括用于拾取相应讲话者的话音的话音活动检测单元(如VD、VAD和/或OVD)。从而，助听器的讲话者提取单元可配置成基于所述传声器检测到的语音信号分离一个或多个语音信号。

可以预见，两种以上上面例示的用于分离一个或多个语音信号的技术可进行组合以优化所述分离，例如组合使用放在桌子上的传声器和用于将助听器用户周围的空间划分为声学饼片的几个波束形成器。

助听器可包括降噪系统。

降噪系统可配置成确定源自助听器用户的话音的语音信号与所述分离的一个或多个语音信号中的每一语音信号之间的语音重叠和/或间断。

助听器可配置成确定跨某一时间间隔的语音重叠。

例如，时间间隔可以是1s、2s、5s、10s、20s或30s。

例如，时间间隔可少于30s。

可应用某一宽度(例如上面的时间间隔)的滑动窗口以连续确定当前存在的分离的信号(每一信号表示一讲话者)的语音重叠/间断。

时间间隔可依据通过时间常数(例如通过指数衰减给出的加权)指定的有限脉冲响应(IIR)平滑进行指定。

降噪系统可配置成至少部分地衰减至少一电输入信号中的噪声信号。

VAD可配置成确定将被进一步分析的语音信号，以及确定非语音例如无线电/TV因而可能与OV重叠，而不必然必须进行衰减。

因而，为决定对哪些讲话者或者哪一或多个语音信号感兴趣以及哪些讲话者为不需要的讲话者，我们可使用同一对话组内的不同讲话者的语音在时间上极少重叠的社会假设，因为人要不说话要不听别人说话，一次对话内仅单人活跃。

基于该假设，可能仅从电输入信号(例如传声器信号)即可确定助听器用户潜在对哪些讲话者感兴趣及对哪些讲话者不感兴趣。

降噪系统可配置成至少基于估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括源自助听器用户的话音的语音信号和/或来自所述分离的一个或多个语音信号中的每一个的语音信号而确定语音重叠和/或间断。

降噪系统还可配置成基于XOR门估计器确定语音重叠和/或间断。

XOR门估计器可配置成估计源自助听器用户的自我话音的语音信号与每一所述分离的一个或多个语音信号之间的语音重叠和/或间断。

换言之，XOR门估计器可配置成估计源自助听器用户的自我话音的语音信号与每一所述其它分离的一个或多个语音信号(排除源自助听器用户的自我话音的语音信号)之间的语音重叠和/或间断。

XOR门估计器例如可配置成将自我话音控制信号与讲话者提取单元的每一分离的信号进行比较从而针对每一所述分离的信号提供重叠控制信号。讲话者提取单元的每一分离的信号可包括给定讲话者的语音信号和/或指明在给定时间是否(例如二元输入和输出)或者以何种概率(例如非二元输入和输出)存在该讲话者的语音的话音活动控制信号。针对给定语音信号的重叠控制信号识别一个或多个语音信号中的给定语音信号不与助听器用户的话音重叠的时间段。

从而，助听器用户周围的讲话者在给定时间的语音信号可根据与助听器用户的自我话音语音信号最小语音重叠进行排序(和/或可识别其说话与助听器用户的自我话音语音信号具有最小语音重叠的讲话者)。

从而，可提供对话正在助听器用户与其周围的一个或多个讲话者之间进行的概率的指示。此外，通过个别地比较讲话者提取单元的每一分离的信号和所有其它分离的信号并根据与自我话音语音信号的最小重叠对分离的信号排序，可识别不同的对话组。

降噪系统还可配置成基于最大均方差(MSE)估计器确定语音重叠和/或间断。

最大均方差估计器可配置成估计源自助听器用户的自我话音的语音信号与分离的一个或多个语音信号中的每一个之间的语音重叠和/或间断。

换言之，最大均方差估计器可配置成估计源自助听器用户的自我话音的语音信号与其它分离的一个或多个语音信号中的每一个(排除源自助听器用户的自我话音的语音信号)之间的语音重叠和/或间断。

从而，提供最小重叠和/或间断的指示(例如取0到1之间的值，使能提供排序)。MSE度量的优点在于其提供两个讲话者例如助听器用户与(其它)讲话者之一之间的给定(可能)对话的性质的指示。

MSE度量的值为1标示“完美”轮流，即助听器用户与讲话者之一之间(跨所考虑的时间段)交替(无)停顿地讲话。MSE度量的值为0标示两个讲话者具有同样的讲话模式和/或安静(即同时说话或安静，因此未彼此对话的概率高)。最大均方差估计器例如可将下述信号用作输入：a)自我话音控制信号(例如二元输入和输出，或者非二元输入和输出，例如语音存在概率或OVL)；及b)(不同于助听器用户的自我话音的)一个或多个语音信号中的所选信号对应的话音活动控制信号(例如二元输入和输出，或者非二元输入和输出，例如语音存在概率或VAD)。通过相继(或并行)地比较助听器用户的自我话音活动和(当前存在的)其它讲话者中的每一个的话音活动，可提供助听器用户参与与其周围的一个或多个讲话者的对话的概率的排序。另外，可估计(不同于助听器用户的)讲话者彼此对话的概率。换言之，可识别助听器用户周围的当前环境中的不同对话组。

降噪系统还可配置成基于NAND(NOT-AND)门估计器确定所述语音重叠和/或间断。

NAND门估计器可配置成仅在所有其输入均为真(“1”)时产生为假(“0”)的输出。NAND门估计器的输入和输出可以是二元(‘0’,‘1’)或非二元(例如语音存在概率)形式。

NAND门估计器可配置成将助听器用户的自我话音(自我话音控制信号)与每一分离的说话伙伴信号(说话伙伴控制信号)进行比较。

NAND门控制器可配置成指明语音重叠为使讲话者不适格的主要线索。

例如，在正常对话中，可能有长停顿，其间没有人说任何话。为此，可假设语音重叠使不只是两个语音信号之间的间断不适格。换言之，在两个人之间的正常对话中，例如为在响应之前听完另一人说话，有比语音重叠大的间断概率(同样，更大的间断)。

助听器还可包括计时器，配置成确定源自助听器用户的自我话音的语音信号与所述分离的一个或多个语音信号中的每一个之间的所述语音重叠的一个或多个时间段。

从而，可能跟踪和比较每一语音重叠以确定哪些语音信号是助听器用户最感兴趣的及哪些是最不感兴趣的。

例如，计时器可与OVD和VAD(或VD)相关联。在该情形下，计时器可在检测到来自助听器用户的语音信号和另一语音信号时开始计时。计时器可在来自助听器用户的语音信号或者另一语音信号不再被检测到时结束计时。

例如，使讲话者(或讲话者方向)适格为助听器用户感兴趣的讲话者或者适格为背景噪声的一部分的一种方式是考虑其中助听器用户的自我话音活跃的时间帧。如果另一讲话者在助听器用户的自我话音活跃的同时活跃，该另一讲话者可能不是同一对话的一部分(因为该不想要的讲话者正与助听器用户同时说话)。另一方面，如果另一讲话者仅在助听器用户未说话时说话，该讲话者和助听器用户可能均为同一对话的一部分(因此，该讲话者为助听器用户感兴趣的讲话者)。显然存在例外，例如无线电或电视声音不是正常社交的一部分，因而可能与助听器用户的自我话音重叠。

助听器用户的自我话音与一个或多个其他讲话者的语音信号之间的语音重叠量可被接受，因为小的语音重叠在两个以上说话伙伴之间的对话中经常存在。这样的小的语音重叠例如可被视为宽限期。

例如，可接受的语音重叠时间段可以是50ms、100ms或200ms。

助听器可配置成根据源自助听器用户的自我话音的语音信号与所述分离的一个或多个语音信号中的每一个之间的每一语音重叠的时间段对所述分离的一个或多个语音信号排序。

语音信号可按兴趣度的增加为语音重叠的时间段减小的函数进行排序。

降噪系统(和/或波束形成系统)可配置成经输出单元将语音信号作为排序的函数呈现给助听器用户。

降噪系统(和/或波束形成系统)可配置成提供所有排序的语音信号的线性组合，其中所述线性组合中的系数可与所述排序有关。

例如，最高排序的语音信号可被提供比最低排序的语音信号高的权重系数。

助听器用户与每一(多个)其他说话伙伴之间的对话的持续时间可被记录在助听器中(例如助听器的存储器中)。

所述对话的持续时间可通过计时器(计数器)进行测量，例如测量检测到自我话音的时间量和检测到一个或多个说话伙伴(感兴趣)的话音的时间量。

助听器可配置成确定所述一个或多个时间段是否超出时限。

如果所述一个或多个时间段超出时限，则助听器可配置成将相应的语音信号标记为噪声信号的一部分。

如果所述一个或多个时间段超出时限，则助听器可配置成对相应的语音信号排序，相较于未超出所述时限的语音信号，助听器用户对其具有更低的兴趣度。

例如，所述时限可以是至少1/2秒、至少1秒、至少2秒。

相应的语音信号可以是来自竞争讲话者的语音，这样，可被视为噪声信号。因而，相应的语音信号可被标记为噪声信号的一部分使得相应的语音信号可被衰减。

一个或多个语音信号可至少根据通过OVD估计的助听器用户的语音信号与通过VAD估计的一个或多个语音信号之间的语音重叠的量而分组为一个或多个对话组。

一个或多个对话组可用变化的助听器用户兴趣度进行归类。

归类可至少部分基于确定的重叠时间段，例如重叠时间段越大，助听器用户的兴趣度越低。

一个或多个对话组可通过比较一个或多个语音信号中的每一个与一个或多个语音信号中的所有其它语音信号之间的语音重叠进行确定，包括来自助听器用户的语音信号。

例如，可考虑助听器用户位于具有三个其他讲话者的房间中的情形。助听器用户的语音信号可能与讲话者1和2具有可观的重叠(例如>1s)，但与讲话者3不重叠或者仅最小地重叠(例如<200ms)。此外，讲话者1和2的语音信号可能仅最小地重叠(例如<200ms)或者根本不重叠。从而，可估计助听器用户正与讲话者3对话，讲话者1和2正对话。因而，助听器用户和讲话者3处于同一对话组中，讲话者1和2处于另一对话组中。

降噪系统可配置成至少根据确定的方向将一个或多个分离的语音信号分组为一个或多个对话组。

降噪系统可配置成至少根据确定的位置将一个或多个分离的语音信号分组为一个或多个对话组。

降噪系统还可配置成将传自特定方向的声音信号归类为助听器用户对其具有比弥漫性噪声高的兴趣度。

例如，降噪系统可配置成将传自特定方向的声音信号分组在助听器用户具有更高兴趣度的对话组中，相较于弥漫性噪声如竞争性对话被分组的对话组。

降噪系统还可配置成将来自助听器用户正面方向的声音信号归类为助听器用户对其具有更高兴趣度，相较于来自助听器用户背面的声音信号。

例如，降噪系统可配置成将来自助听器用户正面方向的声音信号分组在助听器用户具有更高兴趣度的对话组中，相较于来自助听器用户背面的声音信号被分组的对话组。

降噪系统还可配置成将来自助听器用户附近声源的声音信号归类为助听器用户对其具有更高兴趣度，相较于来自远离助听器用户的声源的声音信号。

例如，降噪系统可配置成将来自助听器用户附近声源的声音信号分组在助听器用户具有更高兴趣度的对话组中，相较于来自远离助听器用户的声源的声音信号被分组的对话组。

助听器(例如助听器的降噪系统)可配置成确定助听器用户的发音努力。

降噪系统可配置成基于助听器用户的确定的发音努力确定一个或多个声源是否位于助听器用户附近和/或位于远离助听器用户之处。

助听器可包括一个或多个波束形成器。

输入单元可配置成提供连接到一个或多个波束形成器的至少两个电输入信号。

一个或多个波束形成器可配置成提供至少一波束形成信号。

一个或多个波束形成器可包括一个或多个自我话音消除波束形成器。

一个或多个自我话音消除波束形成器可配置成衰减通过OVD确定的、源自助听器用户的自我话音的语音信号。

来自所有其它方向的信号分量可被保持不变或较少衰减。

例如，剩余的至少一电输入信号则可包含干扰声音(或者更准确地，干扰语音信号+另外的噪声+例如无线电/电视信号)。

助听器例如其降噪系统可配置成基于不感兴趣的声源的声音信号更新在助听器的一个或多个波束形成器中使用的仅噪声互功率谱密度矩阵。

从而，例如竞争的讲话者或者其它不感兴趣的声源将被抑制。

助听器可配置成基于助听器的输入单元的一个或多个传声器(通过一个或多个波束形成器)产生一个或多个定向波束。

因而，助听器可包括适于对来自环境的声音进行空间滤波的定向传声器系统。

助听器可配置成操纵一个或多个传声器朝向不同的方向。从而，助听器可配置成确定(和操纵)定向波束朝向作为助听器用户的对话的一部分的声音信号(话音)所在的方向。

例如，几个波束形成器可并行运行。

一个或多个波束形成器可使其零向之一朝向助听器用户的自我话音。

基于定向传声器系统，增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源可被增强。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在助听器中，传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地，MVDR波束形成器保持来自目标方向(也称为视向)的信号不变，而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示，其相较原始形式的直接实施提供计算和数字表示优点。

助听器可包括空间滤波器组。

空间滤波器组可配置成使用一个或多个声音信号产生空间声音信号，从而将环境声音的全空间划分为子空间，进而确定子空间配置。每一空间声音信号可表示来自相应子空间的声音。

例如，环境声音输入单元例如可包括助听器上的两个传声器、双耳听力系统中的每一助听器上各一个传声器的组合、传声器阵列和/或配置成从环境接收声音并产生包括该声音的空间信息的声音信号的任何其它声音输入装置。空间信息可通过本领域已知的方法从声音信号得出，例如通过确定声音信号的互相关函数。空间在此意为完整的环境，即助听器用户的周围。子空间为所述空间的一部分，例如可以是助听器用户周围空间的角片。同样，子空间不需要加起来填满全空间，而是可集中于助听器用户周围的全空间的连续或离散空间。

空间滤波器组可包括一个或多个波束形成器中的至少一个。

空间滤波器组可包括几个波束形成器，其可彼此并行工作。

每一波束形成器可配置成通过产生表示来自相应子空间的声音的空间声音信号即波束而处理声音信号。在本说明书中，波束为从例如两个以上传声器产生的声音信号的组合。波束可理解为通过将两个以上传声器组合为单一定向传声器产生的声音信号。传声器的组合产生称为波束图的定向响应。波束形成器的相应波束图对应于相应的子空间。子空间优选为圆柱扇面，也可以为球体、圆柱体、棱锥、十二面体或者使能将空间划分为子空间的其它几何结构。另外或者作为备选，子空间可以是近场子空间，即波束形成器朝向近场声源。子空间优选加在一起形成全空间，意味着子空间完全填满全空间且不重叠，即波束图“总计达1”，例如，其优选按标准谱完美重构滤波器组进行。将相应的子空间加到求和的子空间也可能超出全空间或者占取比全空间小的空间，意味着在子空间之间有空的空间和/或有子空间的重叠。子空间可不同地间隔开。优选地，子空间等距地间隔开。

降噪系统可包括语音排序算法，例如最小重叠间断(minimum overlap gap，MOG)估计器。

语音排序算法可配置成向一个或多个波束形成器提供信息。例如，MOG估计器可配置成通知一个或多个波束形成器，例如，一点源为噪声信号源和/或另一点源为助听器用户感兴趣的语音声源(即目标)。

一个或多个波束形成器可配置成向MOG估计器提供信息。

例如，一个或多个波束形成器可配置成通知MOG估计器，例如，没有点源位于助听器用户后面。从而，MOG估计器可被加速，因为其可舍弃来自后面的点源。

助听器的VAD可配置成确定在相应空间声音信号中是否存在声音信号(话音)。VAD检测空间声音信号中是否存在声音信号可通过本领域已知的方法进行，例如通过使用检测声音信号和/或空间声音信号中是否存在谐波结构和同步能量的装置。

VAD可配置成持续检测声音信号和/或空间声音信号中是否存在话音信号。

助听器可包括声音参数确定单元，其配置成确定声音信号和/或空间声音信号的声音电平和/或信噪比(SNR)，和/或声音信号和/或空间声音信号的声音电平和/或信噪比是否高于预定阈值。

VAD可配置成仅在声音信号和/或空间声音信号的声音电平和/或信噪比高于预定阈值时启动检测声音信号和/或空间声音信号中是否存在话音信号。

VAD和/或声音参数确定单元可以是助听器的电路中的单元或者在助听器的电路中执行的算法。

常见系统中的VAD算法通常直接对声音信号执行，其最可能有噪声。空间滤波器组中处理声音信号导致表示来自某一子空间的声音的空间声音信号。对每一空间声音信号执行独立的VAD算法使更容易检测子空间中的话音信号，因为来自其它子空间的可能的噪声信号已被空间滤波器组拒绝。

空间滤波器组的每一波束形成器提高目标信号-噪声信号比。与几个VAD算法并行处理使能检测几个话音信号即讲话者，如果他们位于不同的子空间中，意味着话音信号处于不同的空间声音信号中。

空间声音信号之后可被提供给声音参数确定单元。声音参数确定单元可配置成确定空间声音信号的声音电平和/或信噪比，和/或确定空间声音信号的声音电平和/或信噪比是否高于预定阈值。

声音参数确定单元可配置成仅确定包括话音信号的空间声音信号的声音电平和/或信噪比。

降噪系统可配置成在所述VAD和OVD均指明在至少一电输入信号或源自其的信号中不存在语音信号的时间段期间另外检测所述噪声信号。

降噪系统可配置成在所述VAD指明以低于语音存在概率(SPP)阈值的概率存在语音的时间段期间另外检测所述噪声信号。

如上面提及的，讲话者提取单元可配置成基于助听器的指向远离助听器用户的不同方向的几个波束形成器分离一个或多个语音信号。从而，几个波束形成器可覆盖助听器用户周围的空间，例如将所述空间划分为N个声学饼片(子空间)。

当N个声学饼片中的一个或多个提供无目标语音信号时，降噪系统可配置成另外根据相应的一个或多个声学饼片中的噪声信号。例如，在N个声学饼片中仅一个饼片提供助听器用户感兴趣的语音信号(即目标语音信号)时，降噪系统可配置成检测N-1个其它声学饼片中的噪声信号。

当在声学饼片之一中发现对话伙伴时，在降噪系统中可使用时间间断来估计所述间断中的噪声信号。

当OVD估计助听器用户的自我话音不活跃时，助听器的一个或多个波束形成器可配置成估计提供语音信号的一个或多个声源的方向。

助听器的一个或多个波束形成器可配置成使用估计的方向更新助听器的一个或多个波束形成器以不衰减所述一个或多个语音信号。

当OVD估计助听器用户的自我话音不活跃时，助听器的一个或多个波束形成器可配置成估计提供语音信号的一个或多个声源的位置。

助听器的一个或多个波束形成器可配置成使用估计的位置更新助听器的一个或多个波束形成器以不衰减所述一个或多个语音信号。

从而，助听器用户可能感兴趣的语音信号可被定位及可能被改善。

助听器还可包括运动传感器。

运动传感器例如可以是加速度传感器、陀螺仪等。

运动传感器可配置成检测助听器用户的例如因语音或咀嚼(例如颌部运动)引起的面部肌肉和/或骨头的运动，和/或助听器用户的面部/头部例如在垂直和/或水平方向的运动/转动，及提供指明检测结果的检测信号。

运动传感器可配置成检测颌部运动。助听器可配置成将颌部运动应用为用于自我话音检测的另外的线索。

降噪系统可配置成在运动传感器检测到运动时，将一个或多个估计的语音信号分组到助听器用户具有高兴趣度的组中。

例如，在助听器用户点头时可检测到运动，例如作为助听器用户跟随对话伙伴/说话伙伴的声音信号/讲话并对其感兴趣的指示。

运动传感器可配置成检测助听器用户跟随(例如通过VD、VAD和/或OVD确定的)语音起始的运动。例如，跟随语音起始的例如头部的运动可以是指明感兴趣声源的注意线索。

当助听器用户转动头部时，例如来自(例如通过盲源分离技术、通过使用几个波束形成器等)提供用户环境中的讲话者的语音信号的估计量的算法的输出可能变得不太可靠，因为声源已相对于用户头部移动。

响应于运动传感器检测到用户头部的运动(例如头部转动)，助听器(例如助听器的讲话者提取单元)可配置成重新开始所述算法。

响应于运动传感器检测到用户头部的运动(例如头部转动)，助听器(例如助听器的讲话者提取单元)可配置成改变例如减小所述算法的时间常数。

响应于运动传感器检测到用户头部的运动(例如头部转动)，可复位一个或多个语音信号的已经有的分离。从而，讲话者提取单元必须(再次)提供分离的语音信号，每一语音信号包括所述一个或多个语音信号之一或者指明所述一个或多个语音信号之一的存在。

响应于运动传感器检测到用户头部的运动(例如头部转动)，助听器(例如助听器的讲话者提取单元)可配置成将助听器的信号处理参数设定为全向设置。例如，全向设置可被保持直到可提供分离的语音声源的更可靠的估计量为止。

助听器(例如助听器的讲话者提取单元)可配置成估计通过运动传感器(如陀螺仪)检测的、用户头部的运动程度。讲话者提取单元可配置成在估计分离的语音信号时补偿估计的、用户头部的运动程度。例如，在运动传感器检测到用户头部已向左转动10度时，讲话者提取单元可配置成例如将(例如用于分离一个或多个语音信号的)一个或多个波束形成器向右移动10度。

助听器可包括关键词检测器。

助听器可包括语音检测器。

关键词检测器或者语音检测器可配置成检测指明助听器用户的兴趣的关键词。例如，关键词如“um-hum”、“yes”或类似关键词可用于指明助听器用户对另一人(对话伙伴/说话伙伴)的话音/语音感兴趣。

降噪系统可配置成在与另一人正讲话同时检测到关键词时将来自另一人的语音分组到助听器用户具有高兴趣度的对话组中。

助听器还可包括语言检测器。

语言检测器可配置成检测一个或多个其它讲话者的声音信号(话音)的语言。处于与助听器用户同样语言的声音信号可优先于其它语言的声音信号(即归类为具有更高的兴趣度)。助听器用户不理解的语言可被视为背景噪声的一部分(例如归类为助听器用户对其具有低兴趣度)。

助听器还可包括测量用户的一个或多个生理信号的一个或多个不同类型的生理传感器，前述生理信号例如为心电图(ECG)、血管容积图(PPG)、脑电图(EEG)、眼动电图(EOG)等。

一个或多个不同类型的生理传感器的电极可设置在助听器的外表面处。例如，电极可设置在助听器的耳后(BTE)部分和/或耳内(ITE)部分的外表面处。从而，当用户佩戴助听器时，电极与用户的皮肤接触(或耳后或耳道中)。

助听器可包括可并行工作的、多个(例如两个以上)检测器和/或传感器。例如，两个以上生理传感器可同时工作以增加测得的生理信号的可靠性。

助听器可配置成经输出单元将分离的一个或多个语音信号作为组合的语音信号呈现给助听器用户。

分离的一个或多个语音信号可根据它们的排序进行加权。

分离的一个或多个语音信号可根据它们的对话组分组进行加权。

分离的一个或多个语音信号可根据它们相对于助听器用户的位置进行加权。例如，来自优选位置例如来自用户右前方的(例如用户通常感兴趣的)语音信号可比来自用户后面方向的语音信号具有更高权重。例如，在一个或多个语音信号基于助听器的指向远离助听器用户的不同方向的几个波束形成器进行分离从而将用户周围的空间划分为声学饼片(即子空间)的情形下，这些声学饼片可被不类似地加权。因而，位于用户前面的声学饼片可比位于用户后面的声学饼片加权更高。

分离的一个或多个语音信号可根据它们的在前权重进行加权。因而，例如用户先前高度感兴趣的声学饼片可比用户先前不感兴趣的声学饼片加权更高。进行中的对话的在前权重可被存储在存储器中。例如，当用户移动(例如转动)头部时，(例如通过陀螺仪)可确定运动程度，在头部的“新”方位时的可能的在前权重可被考虑甚至用作进行语音信号的进一步分离之前的权重起点。

(例如通过声学饼片)分离的一个或多个语音信号可用最小值进行加权，使得无语音信号(或声学饼片)用值零进行加权。

(例如通过声学饼片)分离的一个或多个语音信号中的一个或多个在知道这些语音信号(或声学饼片)应/将为零的情形下可用值零进行加权(例如预置)。

助听器可配置成构建适合呈现给助听器用户的组合的语音信号，其中组合的语音信号可基于一个或多个语音信号的加权。

可提供一个或多个分离的语音信号(例如声学饼片)中的每一个乘以其权重的线性组合。

从而，对话组中排序和/或分组为助听器用户对其具有高兴趣度的语音信号在所呈现的组合的语音信号中可被加权更多，相较于较低感兴趣的对话组中较低排序和/或分组的语音信号。作为备选或另外，仅呈现最高排序/对话组的语音信号。

助听器可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿助听器用户的听力受损。助听器可包括用于增强输入信号并提供处理后的输出信号的信号处理器。

助听器可包括天线和收发器电路，从而使能到娱乐设备(如电视机)、通信装置(如电话)、无线传声器、或另一助听器(对侧助听器)等的无线链路。因而，助听器可配置成从另一装置无线接收直接电输入信号。类似地，助听器可配置成将直接电输出信号无线传输给另一装置。直接电输入或输出信号可表示或包括音频信号和/或控制信号和/或信息信号。

一般地，助听器的天线及收发器电路建立的无线链路可以是任何类型。无线链路可以是基于近场通信的链路，例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。无线链路可基于远场电磁辐射。优选地，用于在助听器和另一装置之间建立通信链路的频率低于70GHz，例如位于从50MHz到70GHz的范围中，例如高于300MHz，例如在高于300MHz的ISM范围中，例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM＝工业、科学和医学，这样的标准化范围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如蓝牙低功耗技术)。

助听器可以是便携式(即配置成可穿戴的)设备或形成其一部分，例如包括本地能源如电池例如可再充电电池的设备。助听器例如可以是重量轻、可容易穿戴的装置，例如具有低于100g如低于20g的总重量。

助听器可包括输入单元(如输入变换器，例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益。助听器可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。

表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点t_n(或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_b比特表示声信号在t_n时的值，N_b例如在从1到48比特的范围中如24比特。每一音频样本因此使用N_b比特量化(导致音频样本的2^Nb个不同的可能的值)。数字样本x具有1/f_s的时间长度，如50μs，对于f_s＝20kHz。多个音频样本可按时间帧安排。一时间帧可包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。

助听器可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。助听器可包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

助听器如输入单元和/或天线及收发器电路可包括用于提供输入信号的时频表示的时频(TF)转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组，每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。助听器考虑的、从最小频率f_min到最大频率f_max的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分，例如从20Hz到12kHz的范围的一部分。通常，采样率f_s大于或等于最大频率f_max的两倍，即f_s≥2f_max。助听器的正向通路和/或分析通路的信号可拆分为NI个(例如均匀宽度的)频带，其中NI例如大于5，如大于10，如大于50，如大于100，如大于500，至少其部分个别进行处理。助听器可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。

助听器可配置成在不同模式下运行，如正常模式及一个或多个特定模式，例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式，其中助听器的功能被减少(例如以便节能)，例如禁用无线通信和/或禁用助听器的特定特征。

多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成确定正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。

助听器还可包括用于所涉及应用的其它适宜功能，如压缩、降噪等。

助听器可包括听力仪器，例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器，例如耳机、耳麦、耳朵保护装置或其组合。助听系统可包括喇叭扩音器(包含多个输入变换器和多个输出变换器，例如用在音频会议情形)，例如包括波束形成器滤波单元，例如提供多个波束形成能力。

应用

一方面，提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的助听器的应用。可提供在包括一个或多个助听器(如听力仪器)、耳机、耳麦、主动耳朵保护系统等的系统中的应用，例如免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等。

方法

一方面，本申请进一步提供助听器的运行方法，所述助听器位于用户的耳朵处或耳朵中或者完全或部分植入在用户的头部中。

该方法可包括通过输入单元提供表示助听器用户环境中的声音的至少一电输入信号。

所述电输入信号可包括无语音信号、或者来自一个或多个语音声源的一个或多个语音信号及来自一个或多个其它声源的另外的信号分量，称为噪声信号。

该方法可包括通过自我话音检测器(OVD反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括源自助听器用户的话音的语音信号并提供标示估计结果的自我话音控制信号。

该方法可包括通过话音活动检测器(VAD)反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号并提供标示估计结果的话音活动控制信号。

该方法可包括通过讲话者提取单元从不同于助听器用户的语音声源将一个或多个语音信号确定和/或接收为分离的一个或多个语音信号及检测源自助听器用户的话音的语音信号。

该方法可包括通过讲话者提取单元提供分离的信号，每一信号包括所述一个或多个语音信号之一或者指明所述一个或多个语音信号之一的存在。

该方法可包括通过降噪系统确定源自助听器用户的话音的语音信号与所述分离的一个或多个语音信号中的每一语音信号之间的语音重叠和/或间断。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的助听器的部分或所有结构特征可与本发明方法的实施结合，反之亦然。方法的实施具有与对应助听器一样的优点。

计算机可读介质或数据载体

本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体)，当计算机程序在数据处理系统(计算机)上运行时，使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

计算机程序

此外，本申请提供包括指令的计算机程序(产品)，当该程序由计算机运行时，导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

听力系统

另一方面，提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器及包括辅助装置的听力系统。

听力系统可适于在助听器与辅助装置之间建立通信链路以使得信息(如控制和状态信号，可能音频信号)可进行交换或者从一装置转发给另一装置。

辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子装置智能手表等。

另一方面，提供包括助听器和辅助装置的听力系统，其中辅助装置包括VAD。

听力系统可配置成将信息从助听器转发给辅助装置。

例如，来自一个或多个语音声源和/或一个或多个其它声源(如噪声)的音频(或表示所述音频的电输入信号)可从助听器转发给辅助装置。

辅助装置可配置成处理从助听器接收到的信息。辅助装置可配置成将处理后的信息转发给助听器。辅助装置可配置成通过VAD估计接收到的信息中的语音信号。

例如，辅助装置可配置成确定语音声源和/或其它声源的方向并将该信息转发给助听器。

例如，辅助装置可配置成(例如利用TasNET、DNN等，参见上面)分离一个或多个语音信号并将该信息转发给助听器。

辅助装置可由遥控器构成或者包括遥控器，其用于控制助听器的功能和运行。遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听器包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。

辅助装置可由音频网关设备构成或者包括音频网关设备，其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给助听器。

辅助装置可以是由另一人携带的领夹式传声器。

辅助装置可包括用于拾取助听器用户的自我话音的话音活动检测单元(例如VD、VAD和/或OVD)。话音活动可被传给助听器。

辅助装置可在不同的助听器用户之间共享。

辅助装置可由另一助听器构成或者包括另一助听器。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个助听器。

一方面，本申请进一步提供包括助听器和对侧助听器的双耳听力系统。

双耳听力系统可配置成使能在助听器与对侧助听器之间例如经中间辅助装置交换数据。

APP

另一方面，本申请还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器或听力系统的用户接口。APP可配置成在移动电话如智能电话或另一使能与所述助听器或听力系统通信的便携装置上运行。

定义

在本说明书中，“助听器”如听力仪器指适于改善、增强和/或保护用户的听觉能力的装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户的耳蜗神经的电信号。

助听器可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。助听器可包括单一单元或几个彼此(例如声学、电学或光学)通信的单元。扬声器可连同助听器的其它部件一起设置在壳体中，或者其本身可以是外部单元(可能与柔性引导元件如圆顶状元件组合)。

助听器可适应特定用户的需要如听力受损。助听器的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到助听器，并由助听器的可配置的信号处理电路执行的处理算法使用。

“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与助听器通信并影响和/或受益于助听器的功能。前述辅助装置可包括至少下述之一：遥控器、远程传声器、音频网关设备、娱乐设备如音乐播放器、无线通信装置如移动电话(例如智能电话)或平板电脑或另一装置，例如包括图形界面。助听器、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。助听器或听力系统例如可形成广播系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如TV、音乐播放或卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明，其中：

图1A示出了助听器用户A和三个讲话者B、C和D；

图1B示出了来自助听器用户A和来自三个讲话者B、C和D的语音信号的例子；

图2示出了用于在几个讲话者之中选择感兴趣的讲话者的助听器的例子；

图3A-3D示出了助听器用户听来自助听器用户周围声音环境的子空间的四种不同配置的声音的示意性图示；

图4示出了助听器用户与多个讲话者之间的重叠/间断的示例性确定。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而，对本领域技术人员显而易见的是，这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因，这些元素可使用电子硬件、计算机程序或其任何组合实施。

图1A示出了助听器用户A和三个讲话者B、C和D。

在图1A中，助听器用户A被示为在左耳处佩戴一助听器1及在右耳处佩戴另一助听器2。助听器用户A能够利用助听器1和2接收来自讲话者B、C和D中的每一个的语音信号。

作为备选，讲话者B、C和D中的每一个可配备有传声器(例如助听器的形式)，其能够传输音频或者关于讲话者B、C和D中的每一个的话音何时活跃的信息。话音可通过VD和/或VAD进行检测。

图1B示出了来自助听器用户A和来自三个讲话者B、C和D的语音信号的例子。

在图1B中，示出了创建一个或多个对话组的情形。对话组可通过比较一个或多个语音信号中的每一个与所有其它一个或多个语音信号(包括来自助听器用户A的语音信号)之间的语音重叠进行确定。换言之，助听器用户A的语音信号可与讲话者B、C和D的每一语音信号进行比较以确定语音重叠。讲话者B的语音信号可与讲话者C、D的语音信号及助听器用户A的语音信号中的每一个进行比较以确定语音重叠。对于讲话者C和D，可进行类似的比较。

如从助听器用户A的语音信号、讲话者B的语音信号以及组合信号A+B看出的，助听器用户A的语音信号在时间上与讲话者B的语音信号不重叠。

类似地，如从讲话者C和D的语音信号以及组合信号C+D看出的，讲话者C的语音信号在时间上与讲话者D的语音信号不重叠。

在图1B的底部，示出了助听器用户A及三个讲话者B、C和D的组合的语音信号。

因而，由于助听器用户A和讲话者B未同时讲话，表明对话正在助听器用户A和讲话者B之间进行。类似地，由于讲话者C和D未同时讲话，表明对话正在讲话者C和D之间进行。

如在组合的语音信号(A+B+C+D)中看出的，讲话者C和讲话者D的语音信号在时间上与助听器用户A和讲话者B重叠。因此，可以推断，讲话者C和D具有同时的对话，与助听器用户A和讲话者B无关。因而，讲话者C与讲话者D之间的对话不太被助听器用户感兴趣，可视为背景噪声信号的一部分。

从而，属于同一组讲话者的讲话者在时间上不重叠，而属于不同对话的讲话者(例如助听器用户A和讲话者C)在时间上重叠。可以假定讲话者B是助听器用户主要感兴趣的讲话者，而对讲话者C和D不太感兴趣，因为讲话者C和D在时间上与助听器用户A和讲话者B重叠。

因此，助听器可基于语音信号的重叠/不重叠将讲话者B的语音信号分组到比包括讲话者C和D的语音信号的对话组具有更高兴趣度的对话组。

图2示出了用于在几个讲话者之中选择感兴趣的讲话者的助听器的例子。

在图2中，助听器3被示为包括用于提供表示助听器用户环境中的声音的至少一电输入信号的输入单元，所述电输入信号包括来自一个或多个语音声源的一个或多个语音信号及来自一个或多个其它声源的另外的信号分量(称为噪声信号)。

输入单元可包括多个(n个)输入变换器4A…4n，例如传声器。

助听器还可包括OVD(未示出)和VAD(未示出)。

助听器3还可包括讲话者提取单元5，用于从多个输入变换器4A…4n接收电输入信号。讲话者提取单元5可配置成分离通过VAD估计的一个或多个语音信号，通过OVD检测源自助听器用户的话音的语音信号。

讲话者提取单元5还可配置成提供分离的信号，每一信号包括所述一个或多个语音信号之一或者指明所述一个或多个语音信号之一的存在。

在图2的例子中，讲话者提取单元5被示为将通过多个输入变换器4A…4n接收的语音信号分离为分离的信号，即来自助听器用户A(自我话音)和来自讲话者B、C和D的信号的形式。

助听器3例如其语音排序和降噪系统6还可配置成通过语音排序算法确定/估计源自助听器用户A的话音的语音信号与分离的一个或多个语音信号(其被示为源自讲话者B、C和D)中的每一语音信号之间的语音重叠。

基于确定的语音重叠，助听器3可配置成确定助听器用户感兴趣的语音信号并经输出单元7输出感兴趣的语音信号和自我话音，从而提供由助听器用户感知为声学信号的刺激。

图3A-3D示出了助听器用户听来自助听器用户周围声音环境的四种不同子空间配置的声音的示意性图示。

图3A示出了助听器用户8在每只耳朵处佩戴助听器9。

助听器用户8周围的全空间10可以是圆柱体，但也可具有任何其它形状。全空间10例如也可由球(或半球、十二面体、立方体、或类似几何结构)表示。全空间10的子空间11可对应于圆柱扇面。子空间11也可以是使能将全空间10分为子空间11的球、圆柱、棱锥、十二面体、或其它几何结构。子空间11加在一起即为全空间10，意味着子空间11完全填充全空间10且没有重叠。每一beam_p,p＝1,2,...,P可构成子空间(截面)，其中P为子空间11的数量(在此等于8)。在子空间11之间也可有空的空间和/或也可有子空间11的重叠。图3A中的子空间11等距，例如8个45度的圆柱扇面。子空间11也可不同地分隔开，例如一个扇面具有100度，第二扇面具有50度，第三扇面具有75度。

空间滤波器组可配置成将一个或多个声音信号划分为与水平“饼”的方向对应的子空间，其例如可被分为各20度的18份/片，全空间10为360度。

子空间11的位置坐标、延伸和数量取决于子空间参数。子空间参数可自适应调整，例如根据VAD的结果等进行调整。子空间11的延伸的调整使能调整子空间11的形状或大小。子空间11的数量的调整使能调整助听器9(或听力系统)的灵敏度、相应的分辨率和计算需求。调整子空间11的位置坐标使能增大某些位置坐标或方向的灵敏度，而减小其它位置坐标或方向的灵敏度。

图3B和3C示出了包括不同的子空间配置的应用情形。在图3B中，助听器用户8周围的全空间10被划分为4个子空间，记为beam₁、beam₂、beam₃和beam₄。每一子空间波束包括全角度空间的四分之一，即每一子空间跨度为90度(在所示平面中)，每一子空间具有同样的形状和大小。但子空间不必须是同样的形状和大小，原则上可以是任何形状和大小(及相对于助听器用户8的位置)。同样，子空间不必须加起来填满全空间，而是可集中于全空间10的连续或离散的空间。

在图3C中，子空间配置仅包括助听器用户8周围的全空间10的一部分，即，其四分之一被分为两个子空间，记为beam₄₁和beam₄₂。

图3B和3C示出了助听器用户8周围空间中的声场使用空间滤波器组的不同子空间配置如第一和第二配置按至少两步进行分析的情形，其中第二配置从第一子空间配置时的声场的分析得出，例如根据预定判据，例如关于子空间配置的空间声音信号的特性的判据。声源S被示为位于由相对于用户8的向量d_s表示的方向。给定子空间配置的子空间的空间声音信号例如可被分析以评估每一对应的空间声音信号的特性(在此假定先前不知道声源S的位置和性质)。基于分析，确定随后的子空间配置(例如图3C中的beam₄₁、beam₄₂)，随后的配置的子空间的空间声音信号被再次分析以评估每一(随后的)空间声音信号的特性。空间声音信号的特性可包括包含信号和噪声(例如SNR)的度量、和/或话音活动检测、和/或其它。子空间beam₄的SNR是图3B的四个SNR值的最大值，因为声源位于该子空间中(或者来自该子空间内的助听器用户的方向)。在此基础上，选择(图3B的)第一配置的、满足预定判据(其SNR最大的子空间)的子空间并进一步细分为第二子空间配置，目标在于可能找到其对应的空间声音信号具有甚至更大的SNR的子空间(例如通过应用与应用于第一子空间配置的判据同样的判据找到)。从而，由图3C中的beam₄₂确定的子空间可被识别为具有最大SNR的子空间。到声源S的大约方向被自动确定(在由子空间beam₄₂确定的空间角度内)。如果必要，可确定基于beam₄₂的第三子空间配置(或者，作为备选或另外，子空间的更细细分(例如两个以上子空间))并应用选择判据。

图3D示出了子空间配置包括固定及自适应确定的子空间的情形。在图3D所示的例子中，固定的子空间(beam_1F)位于朝向助听器用户8前面的已知目标声源S(如人或扬声器)的方向，其余子空间(beam_1D到beam_6D)自适应确定，例如根据当前的声学环境确定。包括固定和动态(如自适应)确定的子空间的混合的其它子空间配置也是可能的。

在图4中，针对助听器用户(“用户”)和多个可能的说话伙伴(‘SP1’,‘SP2’,…‘SPN’)，示出了由VAD(α_x,x＝0…N)确定的话音活动(话音活动控制信号)为时间的函数。大于0的VAD标示存在话音活动，等于0的VAD标示未检测到话音活动。分开的VAD可通过讲话者提取单元确定。

如图所示，每一说话伙伴(‘SP1’,‘SP2’,…‘SPN’)的话音活动可与助听器用户(“用户”)的话音活动比较。

话音活动的比较(从而确定语音重叠)可以几种不同方式中的一种或多种进行。在图4中，语音重叠的确定被示为基于XOR门估计器。另一或者另外的比较话音活动(从而确定语音重叠)的方式可基于最大均方误差(mean-square-error，MSE)。又一或另外的方式可基于NAND(NOT-AND)门估计器。

XOR门估计器可将自我话音(自我话音控制信号)与每一分离的说话伙伴信号(说话伙伴控制信号)进行比较，从而针对每一所述分离的信号提供重叠控制信号。针对语音信号得到的重叠控制信号(“用户”、‘SP1’,‘SP2’,…‘SPN’)通过提供“1”识别说话伙伴控制信号与助听器用户的话音没有重叠的时间段。具有语音重叠的时间段提供“0”。

从而，助听器用户(“用户”)的声音环境中的说话伙伴在给定时间的语音信号可根据与助听器用户的自我话音语音信号的最小语音重叠进行排序(和/或可确定具有最小语音重叠的说话伙伴)。

从而，可提供助听器用户(“用户”)与助听器用户(“用户”)周围的一个或多个说话伙伴(‘SP1’,‘SP2’,…‘SPN’)之间进行对话的概率的指示。此外，通过将每一分离的信号与所有其它分离的信号比较并根据与自我话音语音信号的最小重叠对分离的信号排序，分离的信号可被分组为助听器用户感兴趣变化的不同对话组。

比较的输出可(通过助听器的低通滤波器而)被低通滤波。

例如，低通滤波器可具有1秒、10秒、20秒或100秒的时间常数。

另外，NAND门估计器可将自我话音(自我话音控制信号)与每一分离的说话伙伴信号(说话伙伴控制信号)进行比较。NAND门估计器可配置成指明语音重叠为使说话伙伴不适格的主要线索。

例如，在图4中，助听器用户(“用户”)与一个或多个说话伙伴(‘SP1’,‘SP2’,…‘SPN’)之间的对话可能有长的停顿，例如他们正考虑接下来的对话内容时。为此，可假定语音重叠使一个以上间断不适格。

在图4中，可以看出SP2具有最小重叠，而SPN具有最多重叠。因此，SP2最可能为助听器用户最感兴趣的说话伙伴，对SP1的兴趣次之，SPN最可能参与不同于与助听器用户的对话的另一对话。

助听器用户(“用户”)与每一(多个)说话伙伴(‘SP1’,‘SP2’,…‘SPN’)之间的对话的持续时间可被记录在助听器中(例如助听器的存储器中)。

所述对话的持续时间可通过计时器/计数器进行测量，例如对检测到OV的时间量和检测到一个或多个说话伙伴(‘SP1’,‘SP2’,…‘SPN’)(感兴趣)的话音的时间量进行计数。

当由对应的过程适当代替时，上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到，本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外，特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见，及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面，而是包含与权利要求语言一致的全部范围，其中除非明确指出，以单数形式提及的元件不意指“一个及只有一个”，而是指“一个或多个”。除非明确指出，术语“一些”指一个或多个。

Claims

1.一种适于位于助听器用户的耳朵处或耳朵中或者适于完全或部分植入在助听器用户的头部中的助听器，所述助听器包括：

用于提供表示助听器用户环境中的声音的至少一电输入信号的输入单元，所述电输入信号包括无语音信号、或者来自一个或多个语音声源的一个或多个语音信号、及来自一个或多个其它声源的称为噪声信号的另外的信号分量；

自我话音检测器(OVD)，用于反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括源自助听器用户的话音的语音信号并提供标示估计结果的自我话音控制信号；

话音活动检测器(VAD)，用于反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号并提供标示估计结果的话音活动控制信号；

讲话者提取单元，配置成从不同于助听器用户的语音声源将一个或多个语音信号确定和/或接收为分离的一个或多个语音信号及检测源自助听器用户的话音的语音信号；其中讲话者提取单元还配置成提供分离的信号，每一分离的信号包括所述一个或多个语音信号之一或者指明所述一个或多个语音信号之一的存在；及

降噪系统，配置成确定源自助听器用户的话音的语音信号与所述分离的一个或多个语音信号中的每一语音信号之间的语音重叠和/或间断。

2.根据权利要求1所述的助听器，其中，所述降噪系统配置成至少基于估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括源自助听器用户的话音的语音信号和/或来自所述分离的一个或多个语音信号中的每一个的语音信号而确定语音重叠和/或间断。

3.根据权利要求1或2所述的助听器，其中，所述降噪系统还配置成基于XOR门估计器确定语音重叠和/或间断，所述XOR门估计器用于估计源自助听器用户的自我话音的语音信号与每一所述分离的一个或多个语音信号之间的语音重叠和/或间断。

4.根据前面任一权利要求所述的助听器，其中，所述降噪系统还配置成基于最大均方差估计器确定所述语音重叠和/或间断，所述最大均方差估计器用于估计源自助听器用户的自我话音的语音信号与每一所述分离的一个或多个语音信号之间的语音重叠和/或间断。

5.根据前面任一权利要求所述的助听器，其中，所述助听器还包括计时器，配置成确定源自助听器用户的自我话音的语音信号与所述分离的一个或多个语音信号中的每一个之间的所述语音重叠的一个或多个时间段。

6.根据权利要求5所述的助听器，其中，所述助听器配置成根据源自助听器用户的自我话音的语音信号与所述分离的一个或多个语音信号中的每一个之间的每一语音重叠的时间段对所述分离的一个或多个语音信号排序，其中语音信号按兴趣度的增加为语音重叠的时间段减小的函数进行排序。

7.根据权利要求5或6所述的助听器，其中，所述助听器配置成确定所述一个或多个时间段是否超出时限，在所述一个或多个时间段超出时限时，将相应的语音信号标记为噪声信号的一部分或者将相应的语音信号排序成助听器用户相较于未超出所述时限的语音信号对其具有更低的兴趣度。

8.根据前面任一权利要求所述的助听器，其中，所述一个或多个语音信号至少根据通过OVD估计的助听器用户的语音信号与分离的一个或多个语音信号之间的语音重叠的量而分组为一个或多个对话组，其中一个或多个对话组用变化的助听器用户兴趣度进行归类。

9.根据权利要求8所述的助听器，其中，一个或多个对话组通过比较一个或多个语音信号中的每一个与一个或多个语音信号中的所有其它语音信号之间的语音重叠进行确定，包括来自助听器用户的语音信号。

10.根据前面任一权利要求所述的助听器，其中，所述降噪系统配置成至少根据所述一个或多个语音信号的确定的方向和/或位置将一个或多个分离的语音信号分组为一个或多个对话组。

11.根据前面任一权利要求所述的助听器，其中，所述助听器包括一个或多个波束形成器，其中输入单元配置成提供连接到一个或多个波束形成器的至少两个电输入信号，及其中一个或多个波束形成器配置成提供至少一波束形成信号。

12.根据权利要求11所述的助听器，其中，一个或多个波束形成器包括一个或多个自我话音消除波束形成器，其配置成衰减通过OVD确定的、源自助听器用户的自我话音的语音信号。

13.根据前面任一权利要求所述的助听器，其中，所述降噪系统配置成在所述VAD和OVD均指明在至少一电输入信号或源自其的信号中不存在语音信号或者以低于语音存在概率(SPP)阈值的概率存在语音的时间段期间另外检测所述噪声信号。

14.根据权利要求11-13任一所述的助听器，其中，在OVD估计助听器用户的自我话音不活跃时，助听器的一个或多个波束形成器配置成估计提供语音信号的一个或多个声源的方向和/或位置，并使用估计的方向和/或位置更新助听器的一个或多个波束形成器以不衰减所述一个或多个语音信号。

15.根据权利要求8-14任一所述的助听器，其中，所述助听器还包括运动传感器，其中所述降噪系统配置成在运动传感器检测到运动时，将一个或多个估计的语音信号分组到助听器用户具有高兴趣度的组中。

16.一种双耳听力系统，包括助听器和对侧助听器，所述助听器和对侧助听器均为根据权利要求1-15任一所述的助听器，所述双耳听力系统配置成使能在助听器与对侧助听器之间交换数据。

17.一种助听器的运行方法，所述助听器位于用户的耳朵处或耳朵中或者完全或部分植入在用户的头部中，所述方法包括：

通过输入单元提供表示助听器用户环境中的声音的至少一电输入信号，所述电输入信号包括无语音信号、或者来自一个或多个语音声源的一个或多个语音信号及来自一个或多个其它声源的称为噪声信号的另外的信号分量；

通过自我话音检测器(OVD反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括源自助听器用户的话音的语音信号并提供标示估计结果的自我话音控制信号；

通过话音活动检测器(VAD)反复估计所述至少一电输入信号或源自其的信号是否或者以何种概率包括无语音信号或者来自不同于助听器用户的语音声源的一个或多个语音信号并提供标示估计结果的话音活动控制信号；

通过讲话者提取单元从不同于助听器用户的语音声源将一个或多个语音信号确定和/或接收为分离的一个或多个语音信号及检测源自助听器用户的话音的语音信号；

通过讲话者提取单元提供分离的信号，每一信号包括所述一个或多个语音信号之一或者指明所述一个或多个语音信号之一的存在；及

通过降噪系统确定源自助听器用户的话音的语音信号与所述分离的一个或多个语音信号中的每一语音信号之间的语音重叠和/或间断。