CN111653281A

CN111653281A - 用于对助听器的音频信号进行个性化信号处理的方法

Info

Publication number: CN111653281A
Application number: CN202010080443.1A
Authority: CN
Inventors: M.弗罗利希
Original assignee: Sivantos Pte Ltd
Current assignee: Sivantos Pte Ltd
Priority date: 2019-02-05
Filing date: 2020-02-05
Publication date: 2020-09-11
Also published as: EP3693960A1; DE102019201456B3; US20200251120A1

Abstract

本发明涉及一种用于对助听器的音频信号(12)进行个性化信号处理的方法，其中在识别阶段(1)中，通过辅助设备(4)产生第一图像记录(8)，根据第一图像记录推断出优选的对话者(10)的存在，并且然后关于特征性的讲话者辨别参数(30)对音频信号(12)和/或辅助设备(4)的辅助音频信号的第一音频序列(14)进行分析，并且将在第一音频序列(14)中确定的讲话者辨别参数(30)存储在数据库(31)中，并且其中，在应用阶段(40)中，关于所存储的讲话者辨别参数对音频信号进行分析，并由此关于优选的对话者的存在对音频信号进行评估，并且在识别到存在优选的对话者的情况下，在音频信号中强调优选的对话者的信号份额。

Description

用于对助听器的音频信号进行个性化信号处理的方法

技术领域

本发明涉及一种用于对助听器的音频信号进行个性化信号处理的方法。本发明还涉及一种具有用于执行这种方法的助听器的系统。

背景技术

在对语音信号、即其信号份额在很大程度上来自语音份额的音频信号进行音频信号处理的领域中，通常会产生以下问题：在所记录的音频信号中要相对于噪声背景提高语音份额，即相对于其余的信号份额将语音份额放大。对这种音频信号的这类放大可以通过复杂的、非实时的信号处理算法实现，在这些音频信号中以相对于记录明显时间错开的方式设置了再现，即例如在用于电影制作的声迹记录的情况下，而这对于需要根据噪声背景的类型和根据要产生的输出信号的质量要求实时进行信号处理的情况来说要困难得多。

例如，在使用助听器补偿助听器用户的听力损失时存在这种信号处理。因为对于具有听力损失的人员本身来说，由于由此形成的语音清晰度的损失会恰好在交谈环境下以特别不舒服的形式进行倾听，因此在助听器中相对于噪声背景将语音信号的放大或者通常对具有相应语音信号份额的音频信号的语音清晰度进行改善是特别重要的。

由于助听器在此应以与用户的听力损失尽可能一致的方式向用户提供用户在其中重新找回自己的真实声学环境，因此在此要实时地或以尽可能短的时间延迟进行信号处理。在此，对语音份额的放大特别是在较复杂的声学情况下成为对用户的重要支持，在该较复杂的声学情况下存在多个讲话者，其中可能不是所有的讲话者都被视为是重要的(例如所谓的鸡尾酒会情况)。

然而，由于用户的日常生活和生活状况，通常存在一些人员，由于假定的、他们对用户的重要性要始终将这些人员的语音份额放大，而与其他情况或其他条件无关。对于用户的亲密家庭成员，或者对于尤其是老年用户的护理人员来说通常是这种情况。特别是在较复杂的声学环境和情况下，由用户来控制优选的对话者的语音份额的这种“个性化”放大，会为用户带来频繁地对信号处理的相应模式进行控制和改变，也是由于在对话份额方面对专注度的负面影响，这是非常不希望的。

发明内容

因此，本发明要解决的技术问题是，针对助听器的音频信号提供一种方法，借助该方法能够尽可能自动且可靠地相对于其他信号份额实时地对优选的对话者的语音份额进行强调。此外，本发明还要解决的技术问题是，提供一种具有助听器的系统，该助听器适用于并且被设计为用于执行这种方法。

根据本发明，首先提到的技术问题通过用于对助听器的音频信号进行个性化信号处理的方法来解决，其中针对音频信号在识别阶段中通过辅助设备产生第一图像记录，根据图像记录推断出优选的对话者的存在，并且然后关于特征性的讲话者辨别参数对音频信号和/或辅助设备的辅助音频信号的第一音频序列进行分析，并且将在第一音频序列中确定的讲话者辨别参数存储在数据库中。根据本发明，在此进一步规定，在应用阶段中，关于所存储的讲话者辨别参数对音频信号进行分析，并由此关于优选的对话者的存在对音频信号进行评估，并且在识别到存在优选的对话者的情况下，在音频信号中特别是相对于其他信号份额来强调优选的对话者的信号份额。在下面的描述中提出了有利的并且部分视为有创造性的另外的设计方案。

根据本发明，第二提到的技术问题通过具有助听器和辅助设备的系统来解决，其中辅助设备被设计为用于产生图像记录，并且其中该系统被设计为用于执行之前描述的方法。优选地，辅助设备在此被设计为移动电话。在此，根据本发明的系统共享根据本发明的方法的优点。针对该方法并且针对随后提到的该方法的扩展产生的优点可以比照地转用到系统。

在此，助听器的音频信号特别是包括如下信号：该信号的信号份额直接或以进一步处理的形式经由助听器的输出变换器输出到助听器的用户的听觉器官作为输出声音。特别地，音频信号因此由在助听器中进行的信号处理过程的中间信号给出，并且由此不仅作为次级的控制信号用于对另外的初级信号进行信号处理，在初级信号上发生由助听器的一个或多个输出变换器输出的信号，而且本身还形成这种初级信号。

在此，识别阶段特别是通过确定讲话者辨别参数的时间段来给出，在讲话者辨别参数的基础上，应当在应用阶段中对优选的对话者的存在进行识别。在这种情况下，所述应用阶段本身在此特别是通过在其中根据所描述的识别到优选的对话者的存在而相应地调整信号处理的时间段给出。

在此并且在下文中，图像记录特别是包括静止图像和视频序列，即包括多个静止图像的连续序列。在此，辅助设备特别是相应地被设计为用于产生第一图像记录，即被设计为特别是通过照相机或类似的设备来对周围环境的图像进行光学记录。优选地，辅助设备在此附加地被设计为，除了图像记录或通过图像记录触发之外还将相应的命令发送到助听器，以启动分析过程。

在此，优选在时间上紧邻第一图像记录的产生，从第一图像记录中推断出优选的对话者的存在。因此，优选地在产生第一图像记录与开始音频信号的第一音频序列之间仅度过所述分析所需的时间、即优选小于60秒、特别优选小于10秒，该第一图像记录特别是自动启动了相应的、关于优选的对话者对所产生的图像材料的分析。

然而对于在识别阶段分析音频信号的第一音频序列，在此不需要在第一图像记录之后记录第一音频序列。而是也可以在识别阶段中进行对音频信号的连续(特别是仅在此期间的)记录，并且根据第一图像记录，借助第一图像记录的时间参考从所述音频信号的记录中提取第一音频序列，其中该时间参考不一定必须标记第一音频序列的开始，而是还可以标记例如第一音频序列的中间或结束。

特别地，第一音频序列具有预先给定的长度、优选至少10秒、特别优选至少25秒。

特别是根据由助听器用户预定义的标准、例如通过第一图像记录与人员的图像记录的比较来选择是否将人员视为优选的对话者，所述人员根据助听器用户自己的说明对于用户具有特别重要性、例如是家庭成员或亲密朋友。这种说明例如在对所提到人员的图像的相应分类中可能是作为“收藏夹”的虚拟图片库。但是，该选择还可以在用户没有关于优选的对话者进行明确说明的情况下自动进行，例如通过对存储在辅助设备中的图像数据执行频度分析，并且将频繁重复出现的人员辨别为优选的对话者。

在此，特别是将如下参数理解为特征性的讲话者辨别参数：该参数能够根据语音实现对讲话者的辨别，并且为此能够量化地描述语音信号的特征、即例如例如频谱和/或时间特征、因此特别是韵律特征。现在，根据在识别阶段确定的讲话者辨别参数(其相应地已存储在数据库中)在应用阶段中特别是根据相应的命令或者也在作为标准预设的自己设置的助听程序中关于这些存储的讲话者辨别参数对音频信号进行分析，以便能够根据讲话者辨别参数识别预定义为优选的对话者的人员的存在。

在识别阶段期间根据第一图像记录识别到了优选的对话者的存在，从而启动了对第一音频序列的分析以获得特征性的讲话者辨别参数，而在应用阶段可以恰好根据这些存储在数据库中的讲话者辨别参数来识别优选的对话者的存在。然后，现在对助听器的信号处理进行调谐，使得在音频信号中将优选的对话者的信号份额或估计的信号份额相对于其他信号份额、特别是相对于其他语音份额以及相对于噪声背景进行突出，即相对于这些被放大。在此，优选地在助听器相应的、尤其是非易失性的存储器中实现数据库。

在应用阶段中，关于优选的对话者的存在来评估音频信号在此尤其可以通过比较相应的特征向量、例如通过距离计算或通过计算系数加权的距离来进行。在此，在这种特征向量中，各个条目分别由具体的讲话者辨别参数的数字值给出，从而可以实现以系数的方式与针对优选的对话者存储的特征向量的比较，并且必要时可以关于相应系数的各个界限值实现检查。

有利地，在此根据面部识别对第一图像记录中的优选的对话者进行识别。在此，特别是将面部识别理解为如下算法：该算法被设计和设置为，在图像记录中利用先前未知的图像材料通过模式识别的方法识别出作为人类面部的对象，此外将其与多个预定义的人员中的具体个体相关联。

适宜地，作为辅助设备使用移动电话和/或数据眼镜。特别地，移动电话由助听器的使用者操作，或者使用者将数据眼镜戴在头上。数据眼镜是具有数据处理单元的眼镜，以便例如处理诸如网页等的信息，然后可以针对佩戴者在其视野中可见地进行显示。这种数据眼镜优选地配备有用于产生佩戴者的视野的图像记录的照相机，其中图像记录由数据处理单元采集。

在替换的设计方案中，在此将助听器集成到数据眼镜中，即助听器的输入变换器和输出变换器以及信号处理单元至少部分地连接到或插入到数据眼镜的壳体、例如一个或两个眼镜腿中。

优选地，识别阶段的分析的至少一部分和/或识别阶段的音频信号的产生在辅助设备中进行。特别是在通过移动电话给出辅助设备的情况下，可以将移动电话的与通常的助听器相比高的计算能力用于识别阶段的分析。在此，可以将音频信号从助听器传输到移动电话以进行分析，因为在应用阶段通常应当关于讲话者辨别参数对在助听器本身中产生的音频信号进行检查。因此，不会由于音频信号在两个阶段的产生位置不同而形成不一致。另一方面，移动电话本身在识别阶段中还可以通过集成麦克风产生音频信号。优选地，在识别阶段的分析中和/或在应用阶段的分析中例如通过传递函数相应地考虑在助听器外部的音频信号的这种产生。

在有利的实施中，作为讲话者辨别参数对多个音调和/或多个共振峰频率和/或多个音素谱和/或重音的分布和/或音素和/或语音停顿的时间分布进行分析。特别地，在音调分析的框架内，还可以对诸如中文的声调语言或诸如斯堪的纳维亚语言和方言的声调口音中的不同的音调走向进行分析。在共振峰频率确定元音的背景下，对共振峰频率的分析是特别有利的，元音对于声音的声响是特别有代表性的，从而也可以将其用于潜在地辨别讲话者。在此，该分析尤其包括对单个音调、音素、语音动态重音和/或共振峰或共振峰频率之间的相应过渡的时间走向的分析。然后，优选地可以根据时间走向并且特别是根据所述过渡来确定要存储的讲话者辨别参数。

在此，特别是将音素理解为单独的最小声音事件或能够在声学上分辨的最小语音单元、即例如对应于辅音的爆破音或嘶嘶音。因此，根据音素的频谱分布可以将例如特征性的特性、诸如在发出咝声等时出现的特征性的特性用于潜在地辨别讲话者作为优选的对话者。对重音、即特别是语言语调的分布的分析可以包含重音之间的时间间距和相对幅度差以及关于此分别未重读的段落。在此，对音素和/或语音暂停的时间分布、即有时是语音速度的分析尤其还可以延伸至特征性的不规则性的确定。

将第一音频序列分解为优选部分重叠的多个子序列，进一步被证明是有利的。其中，针对每个子序列分别确定语音清晰度参数、例如“语音清晰度指数”(Speechintellegibility index，SII)和/或信噪比(SNR)，并将其与相关的标准、即特别是与SII或SNR等的阈值进行比较，并且其中针对关于特征性的讲话者辨别参数的分析仅考虑分别满足标准、即特别是高于阈值的子序列。SII是一种参数，其应当根据频谱信息提供针对信号中包含的语音信息的清晰度的尽可能客观的度量。对于定量的语音清晰度参数也存在类似的定义，其在此同样可以进行使用。在此，尤其可以依据要检查的讲话者辨别参数来选择子序列的长度；在此还可以多次“并行地”分解第一音频序列。为了检查各个音调、共振峰频率或音素，在此可以较短地选择子序列，例如在100毫秒至300毫秒的范围内，而对于时间走向优选地可以选择长度为2至5秒的子序列。

有利地，将第一音频序列分解为优选部分重叠的多个子序列，其中对助听器用户自己的语音活动进行监视，并且其中针对关于特征性的讲话者辨别参数的分析仅考虑用户自己的语音活动的比例不超过预先给定的上限、优选地完全没有用户自己的语音活动的子序列。在此，对语音活动的监视例如可以通过助听器的“自我语音检测”(Own VoiceDetection，OVD)实现。仅使用不具有或实际上不具有助听器用户自己的语音活动的子序列，可以确保以尽可能高的概率将在这些子序列中确定的讲话者辨别参数与优选的对话者相关联。

优选地，在辅助设备中产生第二图像记录，其中根据第二图像记录，关于特征性的讲话者辨别参数对音频信号和/或辅助设备的音频信号的第二音频序列进行分析，其中借助根据第二音频序列确定的讲话者辨别参数来调整存储在数据库中的讲话者辨别参数。优选地，第二图像记录在类型上与第一图像记录相同、即例如是更新的静止图像记录或更新的视频序列记录。优选地，第二图像记录用作对第二音频序列进行分析的触发器。特别地，在识别阶段期间，特别是当直到可以将其视为结束时，通过第一图像记录类型的每个图像记录来关于特征性的讲话者辨别参数对音频序列进行分析，然后分别对存储在数据库中的讲话者辨别参数进行相应调整。

然后，在预先给定数量的经分析的音频序列之后，或者当存储在数据库中的讲话者辨别参数以足够高的质量存在时，可以将识别阶段结束。这尤其是如下情况：根据第二音频序列确定的讲话者辨别参数与存储在数据库中的讲话者辨别参数之间的偏差低于界限值，其中还可以以预先给定的次数要求重复的低于。

在此，借助根据识别阶段的第二音频序列或随后的每个音频序列确定的讲话者辨别参数，通过特别是算术、加权或递归的取平均、优选还利用至少一些已经存储的讲话者辨别参数来取平均和/或通过人工神经网络，来进行对存储在数据库中的讲话者辨别参数的调整，已经被证明是有利的。在此，所存储的讲话者辨别参数例如可以构成人工神经网络的输出层(Output layer)，并且在此可以对人工神经网络的各个层之间的连接权重进行调整，使得馈送到人工神经网络的输入层(Input layer)的第二音频序列的讲话者辨别参数以尽可能小的误差映射到输出层，以便产生尽可能稳定的所存储的参考参数的组。

优选地，在应用阶段中，根据辅助设备的另外的图像记录来启动对音频信号的分析。这尤其可以包括，每次由辅助设备产生图像记录时，在助听器中关于存储在数据库中的讲话者辨别参数执行对音频信号的分析，以确定优选的讲话者的存在。特别地，为此也可以关于优选的对话者的存在来评估另外的图像记录，从而在存在优选的对话者时有针对性地关于所存在的优选的对话者的存储在数据库中的讲话者辨别参数对音频信号进行分析。在此，优选地将辅助设备设计为，除了图像记录或者由图像记录触发之外还向助听器发送相应的命令。替换地，这种分析此外还可以通过用户输入来启动，从而例如用户在与其优选的对话者一起较长时间的情形的开始选择相应的模式或助听器程序，在该模式或助听器程序中重复或连续地关于相应的语音信息参数对音频信号进行检查。

在第一图像记录中确定存在的人员的数量，已经被证明是有利的，其中依据存在的人员的数量来分析音频信号的第一音频序列。如果例如从第一图像记录中确定了存在多个甚至大量的人员，并且尤其还面向助听器的用户，则第一音频序列中的语音成分可能不来自或者完全不来自优选的对话者，而是来自另外的人员。这可能会不利地影响要存储的讲话者辨别参数的质量。在这种情况下，可以将识别阶段暂时中止，从而当该分析鉴于存在的潜在讲话者似乎没有足够的成功希望或有用时，可以停止对第一音频序列的分析，以节省电池电量。

在本发明的有利的设计方案中，产生第一图像记录作为第一图像序列、特别是视频序列的一部分，其中在第一图像序列中对优选的对话者的(特别是基于嘴部运动的)语音活动进行识别，并且其中依据识别到的优选的对话者的语音活动来分析音频信号的第一音频序列。这允许，通过辅助设备记录的关于特定个人信息的视频序列的特别的优点也可以用于该方法。例如，如果根据第一图像序列识别出，优选的对话者当前正在讲话，则优选地分析相关的第一音频序列的讲话者辨别参数。反之，如果从第一图像序列明显看出优选的对话者当前没有讲话，则可以停止对相关的音频序列的分析。

有利地，根据定向的信号处理和/或根据盲源分离(blind source separation，BSS)来提高优选的对话者的信号份额。BSS是一种从具有有限信息的多个信号的混合中分离出特定信号的方法，其中数学问题通常在此是非常限定不足的。因此，针对BSS特别是可以考虑讲话者辨别参数，即，不仅将讲话者辨别参数用于识别优选的讲话者的存在，而且还作为附加信息以减少限定不足，从而在可能嘈杂的音频信号中能够更好地相对于背景分离出或相应地加强期望的语音份额。

本发明还涉及一种用于移动电话的移动应用程序，具有程序代码，在移动电话上执行该移动应用程序时，该程序代码用于产生至少一个图像记录；用于在至少一个图像记录中自动识别预定义为优选的人员；并且用于建立用于记录音频信号的第一音频序列的开始命令和/或用于建立用于针对预定义为优选的人员的识别来分析第一音频序列中的特征性的讲话者辨别参数的开始命令。根据本发明的移动应用程序共享根据本发明的方法的优点。在此，针对该方法或其扩展给出的优点在其适用范围内可以比照地转用到移动应用程序。在此，优选地在移动电话上执行移动应用程序，该移动电话作为助听器的辅助设备的以之前描述的方法进行使用。在此，开始命令或每个开始命令特别是从移动电话发送到助听器。

附图说明

下面参照附图对本发明的实施例进行详细说明。在此，附图中：

图1在框图中示意性示出了用于助听器中的个性化信号处理的方法的识别阶段，和

图2在框图中示意性示出了根据图1的用于助听器中的个性化信号处理的方法的应用阶段。

在所有的附图中，彼此对应的部分和参量具有相同的附图标记。

具体实施方式

图1中在框图中示意性示出了用于助听器2中的个性化信号处理的方法的识别阶段1。识别阶段1的目标是，能够以尚待描述的方式从助听器2的用户的更靠近的环境中针对特定的人员确定特定的声学参数，根据这些声学参数能够在助听器2的输入信号中辨别作为所涉及人员的语音份额的信号分量，以便能够为助听器2的用户有针对性地相对于噪声背景、以及相对于其他讲话者的其他语音份额对所涉及人员的语音份额进行强调。这尤其是在如下假设下进行的：由于助听器2的用户与讲话者的个人关系，这些人员的语音份额对于助听器2的用户特别重要。

助听器2的用户利用在此设计为移动电话6的辅助设备4产生第一图像记录8。在此，作为辅助设备4，作为图1中所示的移动电话6的替换或补充可以使用数据眼镜(例如“谷歌眼镜”)或平板电脑，其被设计为用于产生第一图像记录8。在辅助设备4中，现在借助用于面部识别的相应应用程序来检查第一图像记录8是否存在优选的对话者10。在此，特别是存储由助听器2的用户自己在移动电话6的照片应用程序中和/或在移动电话6上安装的社交网络应用程序中标记为重要朋友/最爱/亲密的家庭成员等的人员作为优选的对话者10。

如果用于面部识别的应用程序现在在第一图像记录8中将所提到的人员、从而将优选的对话者10识别为存在，则现在对第一音频序列14进行分析。识别到的优选的对话者10的存在在此用作触发器，以触发对音频信号12的第一音频序列14的分析。作为所示过程的替换，其中第一音频序列由音频信号12生成，音频信号12在助听器2本身中通过其输入变换器(即例如麦克风)产生，针对为此相应地设计辅助设备4的情况，也可以由辅助设备4的辅助音频信号生成第一音频序列14(辅助音频信号例如通过移动电话6的输入信号或麦克风信号产生)。

通过在第一图像记录8中识别出优选的对话者10来具体地在技术上执行对第一音频序列14进行分析的触发机制可以如下进行：一方面，对用于在辅助设备4中产生图像记录的标准应用程序进行配置，在每次产生新的图像记录时、即特别是在产生第一图像记录8时，立即自动地关于优选的对话者10的存在进行分析，其中对于面部识别可以进行与本身存储在标准应用程序中的优选人员的数据比较。另一方面，辅助设备4上对于执行识别阶段专用地设计的的应用程序15可以通过立即直接访问辅助设备4中产生的图像记录来执行面部识别，从而关于优选的对话者10的存在进行分析。

在此，附加地可以进行识别：是否仅存在优选的对话者10，以便由此能够基本上排除对识别阶段1造成潜在干扰的其他讲话者的存在。此外，第一图像记录8可以作为未详细示出的第一图像序列的一部分进行记录，其中此外在第一图像序列中，优选通过专用的应用程序15的手势识别和面部表情识别进行识别：对于优选的对话者10是否正好存在对应于语音活动的嘴巴运动，以便进一步抑制干扰噪声的潜在影响。

如果现在在第一图像记录8中识别到优选的对话者10的存在，则在第一图像记录8中成功识别到优选的对话者10之后，辅助设备4上为该方法设置的专用的应用程序15向助听器2发送触发信号16。随后，在助听器2中根据音频信号12(其通过助听器2的输入变换器获得)生成第一音频序列14以进行进一步分析。在此，在第一图像记录8中识别优选的对话者10可以通过辅助设备4中的标准应用程序执行，使得对于该方法专用的应用程序15仅产生触发信号16，或者对于该方法专用的应用程序15本身可以在第一图像记录8中执行识别，然后还产生触发信号。

还可以想到(未示出)，根据辅助设备4的辅助音频信号产生第一音频序列14以进行进一步的分析。在此，在辅助设备4中用于产生图像记录的标准应用程序可以通过相应的程序接口将触发信号15输出到对于执行该方法专用的应用程序15(如果已经通过标准应用程序进行了识别的话)，并且专用的应用程序15然后可以根据辅助设备4的辅助音频信号(例如通过输入信号或麦克风信号)产生第一音频序列14，并且然后以尚待描述的方式进行进一步分析。作为对此的替换，专用的应用程序15本身可以通过访问在辅助设备4中产生的图像记录，如上所描述的，在第一图像记录8中执行对优选的对话者10的识别，并且然后根据辅助设备4的辅助音频信号生成第一音频序列14以进行进一步分析。

现在，第一音频序列14被分解为多个子序列18。特别地，各个子序列在此可以构成子序列18a、b的不同的组，其中同一组的子序列分别具有相同的长度，使得通过子序列18a、b的组将第一音频序列14划分为分别100毫秒长(18a)的各个块或者2.5秒长(18b)的块，这些块分别完整地再现第一音频序列14。一方面，现在对各个子序列18a、b进行对助听器2用户的自己语音20的语音识别(own voice detection，OVD)，以便过滤掉子序列18a、b中语音活动仅仅或主要来自助听器2用户本身的子序列，因为在这些子序列18a、b中不能合理地提取出关于优选的对话者10的频谱信息。另一方面，关于子序列18a、b的信号质量对其进行评估。这可以例如通过SNR 22以及通过语音清晰度参数24(如其例如可以通过语音清晰度指数speech intelligibility index，SII给出的那样)实现。为了进行进一步分析，仅使用子序列18a、b中存在足够小或者完全不存在助听器2的用户的语音活动、并且具有足够高的SNR 22和足够高的SII 24的子序列。

较短的子序列18a中的不具有助听器2用户自己的语音活动、并且此外在SNR 22和SII 24的意义上具有足够高的信号质量的子序列现在关于音调、共振峰(Formant)频率和个人声音(Phonen音素)的频谱进行分析，以便由此确定讲话者辨别参数30，该讲话者辨别参数是优选的对话者10的特征。在此，特别是关于重复模式、即具体地关于对于频率可识别的共振峰或者音素的重复的特征性频率走向，对子序列18a进行检查。通常、即特别是也在其他可能的实施方式中，可以根据与所存储的其他讲话者的特征性的讲话者辨别参数的比较、例如通过当前的频率值或当前的音素持续时间与相应存储的值的平均值的偏差来确定检查：是否将来自第一音频序列14的存在于特定的优选的对话者10的数据归类为“特征性的”。

没有助听器2用户的明显语音活动并且具有足够高的信号质量(参见上文)的较长子序列18b关于重音和语音停顿的时间走向进行分析，以便由此确定对于优选的对话者10的另外的特征性的讲话者辨别参数30。在此，也可以通过重复模式、特别是通过与针对其他讲话者存储的特征性的讲话者辨别参数的比较以及相应的与其的偏差进行分析。现在将根据第一音频序列14的子序列18a、b确定的讲话者辨别参数30存储在助听器2的数据库31中。

如果现在在辅助设备4中产生第二图像记录32，则可以以上述方式与第一图像记录8类似地也关于优选的对话者的存在、并且因此特别是关于优选的对话者10的存在对第二图像记录32进行检查，并且如果确定了后者，则类似于上述情况根据音频信号12建立第二音频序列34。还根据第二音频序列34确定特征性的讲话者辨别参数36，为此，以未详细描述的方式，但与第一音频序列14类似地将第二音频序列34分解为两种长度的各个子序列，其中仅将具有足够高的信号质量并且没有助听器用户自己的语音份额的子序列用于关于讲话者辨别参数36的信号分析。

根据第二音频序列34确定的讲话者辨别参数36现在可以用于调整根据第一音频序列14确定并且已经存储在助听器2的数据库31中的讲话者辨别参数30，从而在必要时以改变的值来存储讲话者辨别参数30。这可以通过特别是加权或递归的取平均或通过人工神经网络进行。然而，如果根据第二音频序列34确定的讲话者辨别参数36与已经存储的、根据第一音频序列14确定的讲话者辨别参数30的偏差低于预先给定的界限值，则假定所存储的讲话者辨别参数30足够可靠地表征了优选的对话者，并且可以将识别阶段1结束。

如已经说明的，作为上述过程的替换，识别阶段1的部分也可以在辅助设备4中、特别是借助专用的应用程序15执行。特别地，对特征性的讲话者辨别参数30的确定完全可以在设计为移动电话6的辅助设备4上执行，其中仅将讲话者辨别参数30从移动电话6传输到助听器2，以存储在助听器2的存储器中实现的数据库31。

在图2中以框图示意性示出了用于助听器2中的个性化信号处理的方法的应用阶段40。应用阶段40的目的是，能够根据在识别阶段1中确定并存储的特征性的讲话者辨别参数30识别出助听器2的输入信号中的优选的对话者10的语音份额，以便能够在助听器2的用户的输出信号41中有针对性地相对于噪声背景，但也相对于其他讲话者的其他语音份额来强调优选的对话者10的语音份额。

如果识别阶段1结束，则在助听器2的运行中关于所存储的讲话者辨别参数30对助听器2的音频信号12进行分析。在此，如果根据音频信号12信号分量与关于优选的对话者10存储的讲话者辨别参数30的足够高的一致性识别出，音频信号12中的特定的信号分量是优选的对话者10的语音份额，则可以相对于噪声背景并且相对于其他讲话者的语音份额来强调该语音份额。这例如可以通过BSS 42进行，或者还可以通过借助助听器2中的定向麦克风的定向信号处理进行。在此，特别是在存在多个讲话者，其中应当特别强调优选的对话者10的情况下BSS 42是有利的，因为对于其执行不需要关于其位置的更详细的知识，并且可以将其存储的讲话者辨别参数30的知识用于BSS。在此，借助所存储的讲话者辨别参数30关于优选的对话者10的存在对音频信号12的分析一方面可以在后台过程中另外自动运行，另一方面可以依据特定的听觉程序、例如根据针对“鸡尾酒会”的听觉形情设置的听觉程序要么自动通过助听器2中对听觉形情的识别，要么通过由助听器2的用户选择所涉及的听觉程序来启动该分析。

此外，助听器2的用户可以通过可能经由辅助设备4的用户输入、特别是借助对于该方法专用的应用程序15，有针对性地由自己启动分析。此外，还可以通过再次的图像记录来触发对音频信号12的分析，特别是以类似于触发识别阶段1中的分析的方式、即通过在产生图像记录时立即进行的面部识别并且在所产生的图像记录中识别出优选的对话者的情况下触发该分析。

虽然在细节上通过优选的实施例对本发明进行了详细的阐述和描述，但是本发明却不限于这些实施例。本领域技术人员可以从中导出其它变形方案，而不脱离本发明的保护范围。

附图标记列表

1 识别阶段

2 助听器

4 辅助设备

6 移动电话

8 第一图像记录

10 优选的对话者

12 音频信号

14 第一音频序列

15 专用的(移动)应用程序

16 触发信号

18 子序列

18a，18b 子序列

20 OVD/(对自己语音的语音识别)

22 SNR(信噪比)

24 SII/语音清晰度参数

30 讲话者辨别参数

31 数据库

32 第二图像记录

34 第二音频序列

36 讲话者辨别参数

40 应用阶段

41 输出信号

42 BSS (盲源分离)

Claims

1.一种用于对助听器的音频信号(12)进行个性化信号处理的方法，

其中在识别阶段(1)中：

-通过辅助设备(4)产生第一图像记录(8)，

-根据所述第一图像记录(8)推断出优选的对话者(10)的存在，并且然后关于特征性的讲话者辨别参数(30)对所述音频信号(12)和/或所述辅助设备(4)的辅助音频信号的第一音频序列(14)进行分析，并且

-将在所述第一音频序列(14)中确定的讲话者辨别参数(30)存储在数据库(31)中，并且

其中，在应用阶段(40)中，

-关于所存储的讲话者辨别参数(30)对所述音频信号(12)进行分析，并由此关于优选的对话者(10)的存在对所述音频信号进行评估，并且

-在识别到存在优选的对话者(10)的情况下，在所述音频信号(12)中强调优选的对话者的信号份额。

2.根据权利要求1所述的方法，其中根据面部识别对所述第一图像记录(8)中的优选的对话者(10)进行识别。

3.根据权利要求1或2所述的方法，其中作为所述辅助设备(4)使用移动电话(6)和/或数据眼镜。

4.根据上述权利要求中任一项所述的方法，其中所述识别阶段(1)的分析的至少一部分和/或所述识别阶段(1)的音频信号的产生在所述辅助设备(4)中进行。

5.根据上述权利要求中任一项所述的方法，其中作为所述讲话者辨别参数(30)对

-多个音调和/或

-多个共振峰频率和/或

-多个音素谱和/或

-重音的分布和/或

-音素和/或语音停顿的时间走向

进行分析。

6.根据上述权利要求中任一项所述的方法，

其中将所述第一音频序列(14)分解为多个子序列(18，18a，18b)，

其中针对每个子序列(18，18a，18b)分别确定语音清晰度参数(24)和/或信噪比(22)，并将其与相关的标准进行比较，并且

其中针对关于特征性的讲话者辨别参数(30)的分析仅考虑分别满足标准的子序列(18，18a，18b)。

7.根据上述权利要求中任一项所述的方法，

其中对助听器(2)用户自己的语音活动进行监视(20)，并且

其中针对关于特征性的讲话者辨别参数(30)的分析仅考虑用户自己的语音活动的比例不超过预先给定的上限的子序列(18，18a，18b)。

8.根据上述权利要求中任一项所述的方法，

其中通过所述辅助设备(4)产生第二图像记录(32)，

其中根据第二图像记录(32)，关于特征性的讲话者辨别参数(36)对所述音频信号(12)和/或所述辅助设备(4)的辅助音频信号的第二音频序列(34)进行分析，并且

其中借助根据所述第二音频序列(34)确定的讲话者辨别参数(36)来调整存储在所述数据库(31)中的讲话者辨别参数(30)。

9.根据权利要求8所述的方法，其中借助根据所述第二音频序列(34)确定的讲话者辨别参数(36)，通过取平均和/或通过人工神经网络来进行对存储在所述数据库(31)中的讲话者辨别参数(30)的调整。

10.根据权利要求8或9所述的方法，其中，当根据所述第二音频序列(34)确定的讲话者辨别参数(36)与存储在所述数据库中的讲话者辨别参数(30)之间的偏差低于界限值时，将所述识别阶段(1)结束。

11.根据上述权利要求中任一项所述的方法，其中在所述应用阶段(40)中，根据所述辅助设备(4)的另外的图像记录来启动对所述音频信号(12)的分析。

12.根据上述权利要求中任一项所述的方法，

其中在所述第一图像记录(8)中确定存在的人员的数量，并且

其中依据存在的人员的数量来分析所述音频信号或者所述辅助设备(4)的辅助音频信号的第一音频序列(12)。

13.根据上述权利要求中任一项所述的方法，

其中产生所述第一图像记录(8)作为第一图像序列的一部分，

其中在所述第一图像序列中对优选的对话者(10)的语音活动进行识别，并且

其中依据识别到的优选的对话者(10)的语音活动来分析所述音频信号或所述辅助设备(4)的辅助音频信号的第一音频序列(14)。

14.根据上述权利要求中任一项所述的方法，其中根据定向的信号处理和/或根据盲源分离(42)来提高优选的对话者(10)的信号份额。

15.一种包括助听器(2)和辅助设备(4)的系统，

其中所述辅助设备(4)被设计为用于产生图像记录(8，32)，并且

其中所述系统被设计为用于执行上述权利要求中任一项所述的方法。

16.根据权利要求15所述的系统，其中所述辅助设备(4)被设计为移动电话(6)。

17.一种用于移动电话(6)的移动应用程序(15)，具有程序代码，

在移动电话(6)上执行所述移动应用程序(15)时，

所述程序代码

-用于产生和/或采集至少一个图像记录(8，32)，

-用于在所述至少一个图像记录(8，32)中自动识别预定义为优选的人员，并且

-用于建立用于记录音频信号(12)的第一音频序列(14)的开始命令和/或用于建立用于针对预定义为优选的人员的识别来分析第一音频序列(14)中的特征性的讲话者辨别参数(30)的开始命令。