CN113812173B

CN113812173B - 处理音频信号的听力装置系统及方法

Info

Publication number: CN113812173B
Application number: CN202080034790.9A
Authority: CN
Inventors: 彼得·乌多·迪尔; 埃利亚斯·斯普林格尔
Original assignee: Sonova AG
Current assignee: Sonova Holding AG
Priority date: 2019-05-09
Filing date: 2020-04-09
Publication date: 2024-07-02
Anticipated expiration: 2040-04-09

Abstract

本申请描述了用于处理音频信号的听力装置系统(1)及方法。听力装置系统(1)具有至少一个听力装置(2)，至少一个听力装置(2)具有用于记录输入信号(E)的记录装置(5)、用于将至少一个音频信号从输入信号(E)分离的至少一个神经网络(7)和用于播放从至少一个音频信号确定的输出信号(A)的播放装置(6)。校准装置(3)以数据传输方式连接到至少一个听力装置(2)。至少一个神经网络(7)是能由校准装置(3)定制和/或替换的。

Description

处理音频信号的听力装置系统及方法

技术领域

本申请要求德国专利申请DE102019206743.3的优先权，其内容通过引用结合于此。

本发明技术涉及一种用于处理音频信号的听力装置系统。本发明技术还涉及一种处理音频信号的方法。

背景技术

从现有技术中已知具有至少一个听力装置的听力装置系统和用于处理音频信号的方法。

发明内容

本发明技术的目标是提供一种用于改善音频信号的处理的听力装置系统。特别地，目的是在低延迟的同时提高音频信号的处理质量。

该目标通过一个实施例中规定的特征的听力装置系统来实现。听力装置系统具有至少一个听力装置和以数据传输方式连接到至少一个听力装置的校准装置。听力装置具有：记录装置，其用于记录输入信号；至少一个神经网络，其用于将至少一个音频信号从输入信号分离；以及播放装置，其用于播放从至少一个音频信号确定的输出信号。至少一个神经网络是能由校准装置定制和/或替换的。在此和下文中，术语“神经网络”必须理解为表示人工神经网络。

在这里和下文中，术语“信号处理”通常是指修改和/或合成信号。信号处理的子集是“声音增强”，这可以包括“语音增强”。声音增强通常是指提高听者听取特定声音的辨识度或能力。例如，语音增强是指提高信号中的语音的质量，以便听者能够更好地理解该语音。

本发明技术的实质一方面是对至少一个听力装置的信号处理的功能分离，另一方面是通过校准装置替换和/或定制至少一个听力装置的至少一个神经网络。至少一个神经网络的替换和/或定制可以被视为由校准装置对至少一个听力装置的校准的一部分。音频信号的实际处理，即记录输入信号、从输入信号分离一个或多个音频信号以及播放从至少一个音频信号确定的输出信号，仅能由至少一个听力装置执行。对于该信号处理，不需要从至少一个听力装置向外部装置传输信号。这确保了信号处理的最小延迟。输出信号的播放几乎实时发生，即在接收到输入信号后以最小的延迟进行播放。这样避免了干扰延迟和/或回声效应。信号处理效率很高。用于处理音频信号的最大延迟特别地短于40ms，特别地短于20ms，优选地短于10ms。用于处理音频信号的示例性延迟在10ms和20ms之间。

校准装置对至少一个神经网络的可定制性或可替换性还确保了根据各自需求对系统进行定制。即使在不断变化的条件下，也确保输入信号的可靠处理。优选地，由校准装置对至少一个神经网络进行定制和/或替换是自动地和/或动态地发生的。独立于至少一个网络的可定制性和/或可替换性，至少一个听力装置通过校准装置对信号处理进行的可定制性是本发明技术的一个单独方面。

功能分离还具有如下特别的优势：由至少一个听力装置进行的信号处理可以基本上受限于至少一个神经网络的实现。至少一个听力装置优选地实行专用于相应的应用实例的至少一个神经网络。专用神经网络的特点特别在于非常低的硬件要求。可能在计算复杂度低和功耗低的情况下实现至少一个神经网络，特别是至少一个专用神经网络。这进一步提高了该方法的效率。即使当至少一个听力装置的电源容量低时，也确保至少一个听力装置的长时间运行。例如，对于校准至少一个听力装置可能必要的计算上复杂的操作特别可以由校准装置执行。优选地相对于由至少一个听力装置进行的信号处理异步地由校准装置实行计算上复杂的操作。避免了这类计算上复杂的操作对信号处理的延迟的负面影响。计算上复杂的操作可以由校准装置执行，而不会对至少一个听力装置的计算能力或功耗产生不利影响。与至少一个听力装置相比，听力装置系统特别可以使用校准装置的更高的计算能力，以便通过校准来提高信号处理的质量。

作为由至少一个听力装置进行的信号处理的替代方案或补充方案，至少一个音频信号的分离和/或处理可以至少部分地在校准装置上执行。特别地，这在复杂的听力情况下是有利的。无论听力情况如何，都可以保证信号处理的质量。

至少一个听力装置的至少一个神经网络允许高质量的、用户特定的信号处理。输入信号对应于通过使用至少一个记录装置而记录的音景。输入信号通常包括未知数量的不同音频信号。不同音频信号可以特别来自不同的声音源，例如对话者、经过的汽车、背景音乐等。优选地，通过使用至少一个神经网络将一个或多个音频信号从输入信号分离以源特定的方式实现。在这种情况下，特定声音源(例如对话者)的音频信号从输入信号分离。特别优选地，将多个音频信号从输入信号分离。这样，可以彼此独立地对不同声音源的音频信号进行处理。这允许单个音频信号的选择性处理和加权。例如，对话者的音频信号可以被放大，而附近人的谈话则被拒绝。可以以源特定的方式处理音频信号。

措辞“从至少一个音频信号确定的输出信号”必须被特别地理解为表示输出信号包含至少一个音频信号的至少部分。例如，输出信号可以对应于至少一个音频信号。优选地，由于至少一个音频信号与其他音频信号和/或输入信号的其他部分组合，得以确定输出信号。例如，从输入信号分离的多个输出信号可以组合以形成输出信号。优选地，调制至少一个音频信号以确定输出信号。至少一个音频信号可以被放大和/或拒绝。不同的音频信号可以进行不同的调制。音频信号的调制优选地基于优先级参数来实现。例如，优先级参数可以由校准装置来确定和/或规定。

在这里，术语“调制”通常可以包括对音频信号的功率谱的任何改变。其包括特定增益模型和/或频率转换(也称为变换)和/或声音增强调制的应用，特别是净化步骤，更特别地是语音净化步骤。单个的音频信号可以被放大或增强，而其他的音频信号可以被抑制。优选地，可能使用不同的增益模型来放大特定的音频信号。具体地，音频信号的调制可以包括音频信号的频率转换。通过频率转换，音频信号的至少一些部分，特别是其中包含的某些频率范围或分量，可以被变换为不同的频率。例如，频率转换可用于将用户无法听到的频率转换为用户可以听到的频率。优选地，频率转换可以用于将音频信号的不可听部分(例如高频)转换成可听的音频信号。当信号处理装置用于至少一个听力装置的音频信号处理时，这是特别有利的。

优选地，信号处理装置包括增益模型算法和/或频率转换算法。这些算法可以存储在计算机可读介质上，并且可以由信号处理装置的计算单元实行。

计算机可读介质可以是非临时性计算机可读介质，特别是数据存储器。示例性数据存储器是硬盘驱动器或闪存。听力装置系统，特别是听力装置系统和/或校准装置和/或信号处理装置，更通常的信号处理装置优选地包括计算机可读介质。听力装置系统，特别是听力装置和/或校准装置，更通常的信号处理装置可以另外地或替代地与存储有至少一个神经网络的外部计算机可读介质进行数据连接。听力装置系统，特别是听力装置和/或校准装置，更通常的信号处理装置可以包括用于访问计算机可读介质并实行存储在其上的神经网络的计算单元。计算单元可以包括适于执行任意操作的通用处理器，例如中央处理单元(CPU)。计算单元可以替代地或另外地包括专用于实行至少一个神经网络，特别是第一神经网络和/或至少一个第二神经网络的处理器。优选地，计算单元可以包括用于实行至少一个神经网络，特别是第一神经网络和/或至少一个第二神经网络的AI芯片。AI芯片可以高效地实行神经网络。然而，对于至少一个神经网络的实行，并不需要专用的AI芯片。

通过使用校准装置，至少一个神经网络可针对相应的应用实例进行定制。至少一个神经网络可特别针对相应的输入信号进行定制和/或针对要从相应的输入信号分离的至少一个音频信号进行定制。出于定制的目的，与相应的应用实例对应的工作参数例如可从校准装置传输到至少一个听力装置。至少一个神经网络可以被设计为执行对应于工作参数的特定处理步骤。用于神经网络的这种工作参数也被称为矢量。矢量可以包含对应于单个音频数据的参数，特别是对应于单个说话者的参数。至少一个神经网络例如使特定数量的矢量可用作输入参数。通过用作输入参数的矢量，特别规定，在信号处理期间，只有与相应矢量对应的音频信号要与输入信号分离和/或被处理。

矢量特别可在校准装置上进行计算，优选可基于相应的听力情况来进行计算。矢量例如可由校准装置基于的声音源的类型(诸如说话者或车辆)和/或声音源的数量(例如说话者的数量)来进行计算。矢量特别可以通过使用校准装置的至少一个神经校准网络来进行计算。矢量的计算例如可基于先前记录的音频数据来执行，特别是基于校准输入信号来执行。

如果至少一个听力装置具有用于实行至少一个神经网络的专用集成电路(ASIC)，则至少一个神经网络的可定制性是特别有利的。在这种情况下，至少一个听力装置的硬件可以被优化以实行至少一个神经网络。至少一个网络可以高效地并且以省电的方式实行。至少一个神经网络的定制使网络内的权重可根据相应的需求进行定制。在定制期间，可以保留至少一个神经网络的结构。

至少一个神经网络可另外地或替代地由校准装置替换。特别地，校准装置可以确定特别好地适合于相应的应用实例的神经网络。至少一个听力装置的神经网络可以通过使用校准装置由适合于应用实例的神经网络替换。特别是替换至少一个神经网络还使得网络的结构可定制。

校准装置以数据传输方式连接到至少一个听力装置。为了定制至少一个听力装置上的信号处理，特别是和/或替换至少一个神经网络，校准装置特别地将传输信号传输到至少一个听力装置。传输信号具有例如用于定制信号处理的工作参数，特别是用于定制至少一个听力装置的工作参数，特别是矢量。另外地或替代地，传输信号可以具有用于替换至少一个神经网络的工作参数，特别是要替换其自身的至少一个神经网络的工作参数。另外地或替代地，传输信号还可以具有用于由至少一个听力装置定制信号处理的音频数据。传输信号包含的音频数据也可由至少一个听力装置的播放装置交替地再现而作为输出信号的一部分。传输信号通常可以具有音频数据、工作参数(特别是矢量)和/或神经网络。

至少一个神经网络的定制和/或替换可以根据输入信号的类型，即应用实例的相应的音景特征来实现。例如，可以针对不同的应用实例(例如火车站、餐厅和/或道路噪声的音景)考虑不同的神经网络。根据输入信号的类型，也可以分离不同的音频信号。例如，如果用户在火车站，则对话者、到达的列车的音频信号和/或来自车站公告的音频信号可以与输入信号分离。特别地，至少一个神经网络的定制和/或替换取决于要从输入信号中分离的音频信号的数量。例如，如果应该将不同数量的说话者和/或背景噪声从输入信号中分离，则可以使用不同的神经网络。例如可以仅将一个说话者表征为相关，并且可以将适用的音频信号从输入信号分离。替代地，也可以将输入信号包含的来自不同说话者的所有声音信号从输入信号中分离而作为单独的音频信号。

由校准装置定制和/或替换至少一个神经网络特别是基于由校准装置评估校准信号来实现的。校准信号可以包括传感器数据、来自输入信号的片段和/或由校准装置本身记录的音频数据。例如，校准信号可以具有来自校准装置的传感器的传感器数据，特别是GPS传感器和/或运动传感器的传感器数据。然后，可以基于用户的位置和/或运动配置文件来实现对至少一个神经网络的定制或替换。例如，如果基于传感器数据表明用户在火车站中，则至少一个网络可以针对常见的站台声音进行定制和/或替换为针对站台声音优化的神经网络。为了确定用户的下落，还可以使用网络信息，例如已知的WLAN接入点和/或无线小区信息，特别是通过使用不同的移动电话网络塔进行的三角测向。

优选地，校准信号包括来自输入信号的片段和/或由校准装置记录的音频数据。特别优选地，校准信号包括由该校准装置记录的音频数据。包括音频数据的校准信号随后也被称为校准输入信号。具有音频数据的校准信号具有如下优势：基于待处理的信号来实现至少一个神经网络的定制或替换。例如，校准装置本身可以将至少一个音频信号从输入信号的片段和/或从通过使用校准装置记录的校准输入信号中分离，以便将分离的音频信号的类型作为用于确定在此最适合的神经网络和/或在此最适合的工作参数的基础。特别地，多个音频信号可与校准输入信号分离。对校准输入信号的分析优选地使相关音频信号的数量，特别是相关说话者的数量可自动地确定。基于相关音频信号的数量，可以选择和/或定制至少一个神经网络。

使用的校准输入信号可以例如是一段时间内记录的音频数据。例如，音频数据在几秒钟或几分钟内被记录为校准输入信号。例如，对校准输入信号的分析使在一段时间内记录的对应于声音源(特别是说话者)的矢量是可计算的。

校准输入信号特别地可由校准装置进行记录。在这种情况下，校准输入信号通常与由至少一个听力装置记录的输入信号不同。然而，由于校准装置通常接近至少一个听力装置，因此校准输入信号基本上包括与输入信号相同的音频信号。由此，对校准输入信号的分析允许得出关于输入信号的结论，特别是得出关于输入信号的类型和其中所包含的音频信号的结论。

优选地，至少一个神经网络可通过校准装置停用和激活。特别地，至少一个神经网络暂时地停用。当至少一个神经网络停用时，特别地不会将输入信号分成至少一个输出信号。当至少一个神经网络停用时，输入信号能被直接放大。输出信号可以特别对应于被放大的输入信号。这在只有单个声音源存在的简单听力情况下特别有利。例如，如果用户在其他安静的环境中与一个或几个对话者交谈，那么放大输入信号可能就足够了。至少一个神经网络的暂时停用允许降低能量消耗，而不会对用户的信号处理的质量产生不利影响。系统的效率得以提升。至少一个神经网络特别可由校准装置自动重新激活，特别是可通过适当的定制来激活。结果，听力装置系统可以根据不断变化的听力情况(例如添加更多声音源)灵活地定制。

听力装置系统可以具有单个听力装置。优选地，听力装置系统具有与用户的各个耳朵相关联的两个听力装置。在具有多个听力装置的情况下，每个听力装置进行的信号处理都是特别独立的。每个听力装置都可以基于房间中的不同位置记录稍微不同的输入信号。可以适当地处理每个听力装置的输入信号，从而保留空间信息。

当存在多个听力装置时，优选可独立地执行每个听力装置上的信号处理。特别是当有两个听力装置时，空间信息因此是可获得的并可输出给用户。替代地，信号处理能以分布在听力装置上的方式执行。为此，数据可以在单个听力装置之间互换。例如，可能只有一个听力装置被用于分离音频信号。然后，分离的音频信号或从中确定的输出信号可以被传输到另外的听力装置。在后一种情况下，另外的听力装置可以输出与执行分离的听力装置相同的输出信号，或者可以执行对所传送的音频信号的进一步处理。

在本发明技术内容中的听力装置可以是穿戴式听力装置或植入式听力装置或具有植入物的助听器。植入式听力装置例如是中耳植入物、耳蜗植入物或脑干植入物。穿戴式听力装置例如是耳后装置、耳内装置、眼镜式助听器或电话传导听力装置。穿戴式听力装置也可以是合适的耳机，例如所谓的听式耳机或智能耳机。通常，所使用的听力装置可以是具有记录装置、至少一个神经网络和播放装置的信号处理装置。本发明技术的一个单独方面也是具有信号处理装置的信号处理系统，信号处理装置具有用于记录输入信号的记录装置、用于将至少一个音频信号从输入信号分离的至少一个神经网络和用于播放从至少一个音频信号确定的输出信号的播放装置，以及校准装置，其中信号处理装置的至少一个神经网络是能由校准装置定制和/或替换的。

校准装置和至少一个听力装置尤其是彼此独立的。它们特别地具有独立的硬件组件。特别地，至少一个听力装置和校准装置各自具有独立的计算机单元，特别是处理器和主存储器。在这种情况下，至少一个听力装置的硬件可以根据音频信号的处理进行定制。特别地，至少一个听力装置可以具有专用于实行至少一个神经网络的处理器，其被称为AI芯片。至少一个听力装置的这种AI芯片例如具有计算能力为每秒1亿次的浮点运算，特别是每秒10亿次的浮点运算，特别是每秒20亿次的浮点运算，特别是每秒40亿次的浮点运算。超过每秒40亿次的浮点运算的计算能力也是可能的。

根据本发明技术的一个优选方面，校准装置和至少一个听力装置各自具有其自己的电源。特别地，校准装置和至少一个听力装置的电源都采用蓄电池的形式。特别地，至少一个听力装置和校准装置可被供电、可操作、彼此独立。在通过定制和/或替换至少一个神经网络对至少一个听力装置进行校准一次之后，至少一个听力装置可以继续独立于校准装置使用。校准装置的电源的可能的低充电状态不会对至少一个听力装置的进一步信号处理产生不利影响。重新定位校准装置的计算上复杂的操作，特别是用于分析校准信号的计算上复杂的操作，允许延长至少一个听力装置的运行时间。听力装置系统能被可靠地且采用移动的方式使用。

根据本发明技术的另一有利方面，校准装置和至少一个听力装置通过无线数据连接进行连接。例如通过电缆进行的物理数据连接不是必要的。对于无线数据连接，已发现根据本发明技术的功能拆分特别有利，因为无线数据连接具有特别高的延迟。听力装置系统允许在效率上的高增益。无线数据连接可以使用各种连接标准和协议来实现。在蓝牙连接或类似的协议(例如Asha蓝牙)中发现了特别的适用性。其他示例性无线数据连接是FM发射器、aptX LL和/或感应发射器(NFMI)，诸如Roger协议。

根据本发明技术的另一有利方面，校准装置采用移动装置的形式，特别采用移动电话的一部分的形式。这确保了听力装置系统的高度灵活性。这里和在下面，移动电话意味着特别是智能手机。现代移动电话具有高计算能力和蓄电池容量。这允许听力装置系统的独立操作，特别是即使对于通过校准装置进行的计算上复杂的操作。此外，这样具有的优势在于听力装置系统可以通过用户任意携带的硬件实现。其他装置是不必要的。更有利的是，由于根据本发明技术的功能拆分，用户可以完全使用移动电话的计算能力进行其他活动，而不限制至少一个听力装置的信号处理。

根据本发明的另一有利方面，校准装置采用移动装置的形式，特别是采用无线麦克风的一部分的形式。无线麦克风是听力受损者用来提高对噪音中和远距离上的语音的理解的辅助听力装置，诸如由Phonak股份公司制造的Roger Select麦克风。无线麦克风可以根据用于运行神经网络的需要，可能使用专用于神经网络执行的协处理器，来配备有足够的计算能力。这允许听力装置系统的独立操作，特别是即使对于通过校准装置进行的计算上复杂的操作。此外，这样具有的优势在于听力装置系统可以通过用户任意携带的硬件实现。其他装置是不必要的。更有利的是，由于根据本发明的功能拆分，用户可以完全使用移动电话的计算能力进行其他活动，而不限制至少一个听力装置的信号处理。

特别是当校准装置体现为移动电话的一部分时，如果至少一个听力装置具有其自己的电源，则是有利的。如果移动电话的蓄电池充电状态低，则可继续使用至少一个听力装置。

体现为移动电话的一部分的校准装置可以由移动电话的组件来实现。特别优选地，通过一款可在移动电话上安装和执行的可适用的校准软件(例如采用应用程序的形式)而将移动电话的普通硬件组件用于此目的。例如，可以通过使用移动电话的计算单元，特别是移动电话的AI芯片，来进行对校准信号的分析。既有的移动电话具有每秒2万亿次或更多次(例如每秒5万亿次)的浮点运算的AI芯片。可以通过使用移动电话的至少一个麦克风来记录校准输入信号。

特别优选地，听力装置系统可以是模块化设计的。这确保了根据各自的用户偏好灵活地定制听力装置系统。听力装置系统的单个部件是可替换的，特别是在发生故障时。例如，用户在安装了适当的应用程序后，可以使用移动电话作为校准装置。用户可以替换听力装置和/或用作校准装置的移动电话的单个实例。

至少一个神经网络可以输出可变数量的音频信号。优选地，至少一个神经网络具有固定数量的输出。对于至少一个听力装置的信号处理，使用一个神经网络就足够了。在应用程序的其他实例中，至少一个听力装置在每个情况下也可以具有多个神经网络。当使用多个神经网络进行分离时，每个神经网络都可以具有固定数量的输出。在这种情况下，用于分离音频信号的每个神经网络输出从输入信号分离的固定数量的音频信号。因此，分离的音频信号的数量可以基于用于分离的神经网络的数量和各自的输出的数量。例如，所有的神经网络都可以具有三个输出。通过使用至少一个神经网络从输入信号分离的音频信号的数量优选地以灵活的方式规定。

在将音频信号从输入信号分离之前，可以在准备步骤中调节输入信号。准备步骤可以按常规方式实现和/或通过使用至少一个神经调节网络来实现。特别优选地，神经调节网络是可通过校准装置进行定制和/或替换的至少一个神经网络的一部分。

对于至少一个神经网络，有可能使用不同的网络体系结构。用于神经网络的体系结构对于音频信号从输入信号中分离及其进一步处理并不重要。然而，在长短期记忆(LSTM)网络中已经发现了特别的适用性。在一个示例性体系结构中，至少一个神经网络具有3个LSTM层，每个层均具有256个单元。

根据本发明技术的一个有利方面，可通过校准装置从多个不同的神经网络中选择至少一个神经网络。特别地，在每种情况下通过使用校准装置可以选择针对各个应用实例专门定制的神经网络。至少一个听力装置进行的信号处理特别基本上是通过实行针对各自的应用实例定制的至少一个神经网络来实现的。在计算复杂度低和功耗低的情况下，可以执行针对应用实例定制的至少一个神经网络，特别是优化定制的至少一个神经网络。该方法特别高效。

不同的神经网络优选地针对不同类型的输入信号和/或要从中分离的不同的音频信号定制。可通过使用校准装置来选择的不同神经网络特别地专用于从相同类型的输入信号中分离不同类型的音频信号。例如，可以通过使用校准装置来选择不同的神经网络，以便从同一输入信号中分离不同的音频信号(诸如接近的车辆和/或对话者)。有利地，针对各个应用实例定制的至少一个神经网络可通过校准装置进行选择。由至少一个听力装置执行的神经网络可以被由校准装置选择的、更好地针对应用实例定制的神经网络替代。听力装置系统可灵活地校准。

针对不同类型的输入信号和/或音频信号来定制不同的神经网络尤其是通过训练神经网络(例如基于包含这种音频信号的数据记录)来实现的。训练允许特别是针对不同情况相关的音频信号类型来定制神经网络。训练可以特别地基于至少一个听力装置的硬件来实现，特别是通过记录装置来实现。训练可以使用不同的矢量来实现，特别是使用不断变化的矢量来实现。这提高了至少一个神经网络的质量和鲁棒性。训练可以在长时间段内发生。例如，训练可以导致正在被实行的至少一个神经网络的权重的1000万次更新，特别是5000万次更新，特别是1亿次更新，特别是超过1亿次更新。

根据本发明技术的另一有利方面，用于分离音频信号的不同神经网络可从校准装置传输到至少一个听力装置。不同的神经网络不需要存储在至少一个听力装置上。由此，至少一个听力装置不需要具有用于不同神经网络的大容量存储器。特别优选地，在每种情况下，仅将当前用于分离的至少一个神经网络存储在至少一个听力装置上，特别是加载到至少一个听力装置的主存储器中。

例如，将可选择的不同神经网络存储在校准装置的数据存储器中。神经网络可以存储在例如用作校准装置的移动电话的数据存储器中。现代移动电话的存储容量大。因此，大量不同的神经网络是可以存储的。特别地，不同的神经网络(其针对相同的听力情况进行定制但与不同的听力情况一致)是可存储的。例如，不同的神经网络可以或多或少地对音频信号进行过滤和/或处理。对至少一个神经网络的选择不仅依赖于情况，而且还可以根据用户的偏好来执行。另外地或替代地，可用于选择的不同神经网络也可以存储在校准装置之外。特别优选地，不同的神经网络可以存储在校准装置可访问的云存储器中。根据应用实例，也可以将来自云存储器的不同的可能的相关神经网络缓冲存储在校准装置上，以减少所选神经网络传输的延迟。

根据另一有利方面，校准装置具有用于处理校准信号的至少一个神经校准网络。

神经网络可以存储在计算机可读介质上，特别是非临时性计算机可读介质上，特别是数据存储器上。示例性数据存储器是硬盘驱动器或快闪存储器。信号处理装置优选地包括计算机可读介质。信号处理装置可以另外地或替代地与存储有神经网络的外部计算机可读介质进行数据连接。信号处理装置可以包括用于访问计算机可读介质并执行存储在其上的神经网络的计算单元。计算单元可以包括适于执行任意操作的通用处理器，例如，中央处理单元(CPU)。计算单元可以替代地或另外地包括专用于执行神经网络的处理器。优选地，计算单元可以包括用于执行神经网络的AI芯片。AI芯片可以高效地执行神经网络。然而，对于神经网络的执行，并不需要专用的AI芯片。

优选地，通过在计算机可读介质上提供不同的神经元网络和/或调制函数，可以修改(例如交换)神经元网络和/或用于调制音频信号的调制函数的细节，用于应用于音频信号的增益模型。这样，增强了系统的灵活性。此外，可以改装现有系统，特别是根据本发明技术的具有处理能力的现有听力装置。

通过使用至少一个神经校准网络，可以评估特别是包含音频数据的校准输入信号，特别是通过使用校准装置记录的校准输入信号。至少一个神经校准网络可用于将单个音频信号从校准输入信号分离。至少一个校准网络可用于确定校准输入信号的类型或其中包含的音频信号的类型。最优可用于相应输入信号或要从输入信号中分离的音频信号的神经网络可被简单地且可靠地确定。特别地，校准输入信号所包含的音频信号的数量是可确定的。因此，神经网络可以用于精确地分离要被选择的该数量的音频信号。通过使用至少一个神经校准网络，特别是矢量(借助该矢量，至少一个听力装置的至少一个神经网络是可定制的)是可计算的。

特别优选地，对校准输入信号的分析还引起从校准输入信号中分离出来的音频信号与用户的相关性被确定。由此，可以通过使用至少一个神经网络来确保仅与用户相关的音频信号从输入信号分离。如果校准输入信号例如具有多种声音但只有一些声音与用户相关，则可以采用要被创建并从校准装置传输到至少一个听力装置的工作参数的形式描述相关声音，来用于定制至少一个神经网络。此外，可以根据各个音频信号与用户的相关性来规定优先级参数。优先级参数可以作为工作参数的一部分能传输到至少一个听力装置，以便定制至少一个神经网络，使得当确定了输出信号时，适用的音频信号是选择性可调制的，即，选择性可放大或可抑制的。

根据本发明技术的另一优选方面，校准装置具有用于记录音频数据作为校准信号的一部分的校准记录装置。校准记录装置可以包括校准装置的一个或多个麦克风。特别是，如果校准装置采用移动电话的一部分的形式，则校准记录装置可以使用移动电话的至少一个麦克风。现代的移动电话具有不同的麦克风，以便能够记录立体声信息。不同的麦克风还允许通过校准输入信号获得空间信息。

提供校准记录装置具有的优势在于，音频数据可通过使用校准装置来进行分析，而不需要将输入信号从至少一个听力装置传输到校准装置。优选基于记录的音频数据的分析来实现至少一个神经网络的定制和/或替换。

根据本发明技术的进一步优选方面，校准装置具有用于接收用户输入和/或用于向用户输出信息的用户界面。用户界面优选地采用触摸屏的形式。信息可以在触摸屏上简单而可理解地显示给用户。用户可以直观且直接地进行输入。提供用户界面允许用户通过校准装置来影响至少一个神经网络的定制和/或替换。例如，用户可以规定要从输入信号分离的音频信号的数量。至少一个听力装置的信号处理可根据用户的偏好和需要灵活地且动态地进行定制。特别是，用户界面可用于向用户输出关于分离的音频信号的信息。例如，音频信号的文字记录可以显示给用户。例如，用户随后可以读取其可能不理解的语句。

本发明技术的另一目标是改进用于处理音频信号的方法。具体地，目的是指定一种具有尽可能低的延迟的方法。

该目标通过一个实施例中指定的步骤的方法来实现。首先，提供听力装置系统，特别是如上所述的听力装置系统。所提供的听力装置系统具有校准装置和至少一个听力装置，至少一个听力装置具有用于将至少一个音频信号从输入信号分离的至少一个神经网络，其中校准装置和至少一个听力装置以数据传输方式连接。此外，提供校准信号。校准信号由校准装置进行评估。所分析的校准信号被作为通过校准装置替换和/或定制至少一个听力装置的至少一个神经网络的基础。通过使用至少一个听力装置的记录装置来记录输入信号。至少一个听力装置的至少一个神经网络用于将至少一个音频信号从输入信号分离。从至少一个音频信号确定输出信号，所述输出信号通过至少一个听力装置的播放装置输出。

根据本发明技术的方法涉及由校准装置校准至少一个听力装置，借助校准装置来替换和/或定制至少一个听力装置的至少一个神经网络。替换和/或定制基于所分析的校准信号来实现。校准信号的分析(该分析可能涉及计算上复杂的操作)完全在校准装置上实现。通过使用至少一个神经网络而进行的实际信号处理完全由至少一个听力装置实现。这允许在计算复杂度低和功耗低的情况下在至少一个听力装置上执行信号处理。不需要将输入信号传输到外部的信号处理设备。减少了处理音频信号的延迟。信号处理是高效的。特别优选地，可以将至少一个神经网络通过校准装置来停用和激活，特别是暂时停用。方法的其他优点对应于根据本发明技术的听力装置系统的优点。

音频信号的单个或多个实例的分离意味着在方法中它们可以有利地被分离地调制。这允许独立且灵活地处理单个音频信号，特别是独立且灵活地调制单个音频信号。对至少一个音频信号以及特别是从中确定的输出信号的处理可针对相应用户单独地定制。优选地基于优先级参数实现调制。优先级参数特别优选地由校准单元关于校准信号的分析进行规定。优先级参数可以作为工作参数从校准装置传输到至少一个听力装置并且可以用于定制至少一个神经网络。优先级参数特别地向用户传送相应音频信号的相关性。例如，相关的音频信号设置有高优先级参数，并被相应地放大。例如，较少相关的音频信号设置有低优先级参数，并不被放大或拒绝。特别优选地，优先级参数是连续的，使得可以根据相应音频信号的相关性和/或根据用户的偏好来实现调制的连续定制。例如，优先级参数可以介于0和1之间。然后最低相关性例如由优先级参数为0的音频信号所支配，该优先级参数为0的音频信号将被完全拒绝。然后最高优先级例如由优先级参数为1的音频信号所支配，这将为音频信号带来最大增益。替代地，优先级参数也可以是离散的，从而不同的音频信号将被归为不同的类别。

在方法开始时可以实现至少一个神经网络的定制和/或替换。特别优选地，校准装置重复地执行更多校准信号的分析。根据更多分析，可以实现通过校准装置进一步定制和/或进一步替换至少一个神经网络。校准装置检查，特别是自动检查是否需要定制和/或替换至少一个神经网络。至少一个听力装置是可动态且灵活地进行校准的。听力装置系统可灵活地根据变化的使用场景进行定制。特别优选地，定期实现校准装置的检查，特别是更多校准信号的分析，以及必要时的定制和/或替换。检查最多可以每5毫秒实现一次。检查也可以仅每秒实现一次。优选地，检查不少于每10分钟实现一次。检查率可以在每5毫秒一次和每10分钟一次之间变化，优选动态地变化。

根据方法的另一有利方面，通过使用至少一个神经校准网络来实现对校准信号的分析。特别地，至少一个神经校准网络用于分析包含音频数据的校准信号或校准输入信号。至少一个神经校准网络优选用于从校准输入信号中分离一个或多个音频信号。至少一个神经校准网络可用于评估特别是校准输入信号和其中所包含的音频信号的类型。

根据方法的另一优选方面，校准装置从可用的神经网络集中选择至少一个神经网络。可用的神经网络的不同实例可以针对不同类型的输入信号和/或要从中分离的不同音频信号进行定制，如上文参考听力装置系统所述。校准装置可以将校准信号的分析作为用于选择针对输入信号和/或从中分离的音频信号最佳定制的神经网络的基础。可用的神经网络集优选地存储在校准装置上和/或外部的云存储器上。

根据方法的另一有利方面，将所选择的神经网络从校准装置传输到至少一个听力装置。优选地，在每种情况下，仅将用于分离的至少一个神经网络存储在听力装置上，特别是存储在听力装置的主存储器中。校准装置特别用作至少一个听力装置的可扩展和易于访问的存储器。替代地或另外地，可使用的神经网络保存在外部的云存储器上。不需要在至少一个听力装置上提供大容量数据存储器。另外地，用户的偏好和/或用户已知的音频信号的类型(例如声音情况)可以存储在校准装置的数据存储器上和/或云存储器上。

根据方法的另一有利方面，校准装置将至少一个神经网络的工作参数传送给至少一个听力装置。工作参数的传送允许定制至少一个神经网络。工作参数可以包括通过使用神经网络分离的至少一个音频信号的优先级参数。工作参数还可以包含要从输入信号中分离的单个的音频信号的描述。如果例如相同类型的许多音频信号包含在输入信号中，则传送的描述允许定制至少一个神经网络，使得仅将描述所包含的音频信号分离。例如，通过工作参数的切换，可以调整专用于分离人类声音的神经网络，以分离特定声音，例如说话者的对话者的声音。例如，在一个应用实例中，房间中可能有许多不同的说话者。对说话者的单个声音情况的描述允许向至少一个神经网络通知哪些音频信号要被分离。输入信号中包含的与描述不对应的其他声音不通过以这种方式定制的神经网络与输入信号分离。替代地，输入信号包含的与描述不对应的其他音频信号可以组合为剩余信号。剩余信号可以包含例如未与输入信号分离的声音和/或背景噪声。剩余信号可以作为输出信号的一部分被输出。工作参数也被称为矢量。

根据本发明技术的一个优选方面，校准信号包括音频数据、听力装置系统的系统参数、传感器数据和/或用户特定数据。音频数据可以例如是由至少一个听力装置记录的输入信号的部分。这些音频数据可以从至少一个听力装置传输到校准装置。优选地，由独立于听力装置的校准装置记录音频数据。因此，没有必要将音频数据从听力装置传输到校准装置。这进一步降低了系统的延迟，特别是校准的延迟。另外地或替代地，校准信号可以具有传感器数据，例如位置数据(特别是GPS位置数据)和/或运动数据。校准装置可以进一步连接到其他传感器和/或包括其他传感器，以获得某些用户特定数据和/或系统参数。示例性传感器可包括以下传感器中的至少一个：位置传感器(特别是GPS传感器)、加速度计、温度传感器、脉搏血氧计(光体积变化描述波形传感器，PPG传感器)、心电图传感器(ECG或EKG传感器)、脑电图传感器(EEG传感器)和眼电图传感器(EOG传感器)。这例如可以涉及确定用户的位置和/或所述用户的运动，例如用户在路上的事实。可用的用户特定的数据例如是已知的用户偏好和/或之前已经进行的用户输入。因此，例如可以在系统中保存用户特别强烈地希望拒绝的餐厅中的背景音乐。该信息可用于确定背景噪声的适用的优先级参数。用户特定的数据还可以包括用户已知的声音源的样本。因此，例如，可以保存用户已知的说话者。如果检测到该说话者的声音，则所述声音可以被自动分配更高的优先级参数。用户特定的数据优选地保存在校准装置的内部存储器上和/或保存在外部的云存储器上。

校准信号还可以包括听力装置系统的系统参数，特别是校准装置和/或至少一个听力装置的系统参数。示例性系统参数是至少一个听力装置的电源的充电容量。如果校准信号的分析结果是现在至少一个听力装置的蓄电池中仅存在低残留电荷，则可以选择特别省电的神经网络。这允许在需要时延长系统的操作时间。另外地或替代地，校准装置的电源中的剩余残留电荷也可以是校准信号的一部分。例如，如果检测到校准装置现在只有很短的蓄电池工作时间，则可以选择至少一个神经网络以确保对尽可能通用的输入信号进行可靠处理。然后可以省去校准装置的进一步校准。特别是当蓄电池充电状态低时，至少一个神经网络也可以通过校准装置停用。当至少一个神经网络停用时，可以直接放大输入信号。这允许延长听力装置系统的蓄电池工作时间，特别是至少一个听力装置的蓄电池工作时间。

根据方法的另一有利方面，校准装置记录音频数据作为校准信号的一部分。由校准装置记录的音频数据以校准输入信号的形式进行分析。校准输入信号的记录具有如下优点：音频数据，特别是输入信号的部分，不必从至少一个听力装置传输到校准装置进行分析。

根据本发明技术的另一有利方面，用户可以影响至少一个神经网络的定制和/或替换。例如，用户可以通过校准装置的用户界面进行输入。用户可以特别优先处理单个的音频信号。例如，从校准输入信号中分离的音频信号可以通过用户界面显示给用户。用户可以特别地选择这些音频信号中的一个音频信号，并选择性地放大或拒绝该音频信号。用户可以例如规定要从输入信号分离的音频信号的数量。用户可以根据需要单个地干预至少一个听力装置的至少一个神经网络的校准。这使用户能够通过至少一个听力装置对信号处理产生间接影响。优选地，用户还可以从根据相同听力情况定制的不同神经网络中进行选择。例如，不同的神经网络可以在不同程度上对音频信号进行过滤和/或处理。不同的神经网络也可以与不同的声音配置文件相结合。例如，不同的神经网络可以以不同的清晰度和完整性播放人类声音。这允许用户根据自己的喜好更好地定制信号处理。

优选地，用户还可以使用用户界面对所执行的音频信号的分离和处理进行评价。基于该评价，校准装置可以根据用户的偏好更好地定制至少一个听力装置的校准，特别是至少一个神经网络的定制和/或替换。方法是自适应的。

附图说明

参考附图通过示例性实施例的描述获得本发明技术的其他细节、特征和优点，其中：

图1示出了用于处理音频信号的听力装置系统的示意图，以及

图2示出了示意性应用例以及使用图1中所示的听力装置系统来处理音频信号的方法序列。

具体实施方式

图1示意性地示出了用于处理音频信号的听力装置系统1。听力装置系统1具有可佩戴在用户的左右耳上的两个听力装置2。另外地，听力装置系统1具有校准装置3。听力装置2均通过无线数据连接4以数据传输方式连接到校准装置3。在本示例性实施例中，无线数据连接4是蓝牙连接。在其它示例性实施例中，无线数据连接4也可以通过另一连接标准来实现。

听力装置2均具有采用麦克风形式的记录装置5。记录装置5可以由听力装置2使用来以音频数据的形式记录输入信号E。输入信号E通常包括多个音频信号。此外，听力装置2均具有采用扬声器形式的播放装置6，以播放输出信号。听力装置2均有神经网络7。神经网络7用于将至少一个音频信号从输入信号E分离。神经网络7是在所示的示例性实施例中由相应的听力装置2的计算单元8实现的人工神经网络。计算单元8没有被详细描述，并且具有处理器(特别是AI芯片)和主存储器。

另外，听力装置2均具有用于无线数据连接4的数据界面9。在所示的示例性实施例中，数据界面9是蓝牙天线。校准装置3也具有相应的数据界面9。

听力装置2均具有采用蓄电池的形式的电源10。电源10向各个听力装置2，特别是记录装置5、具有神经网络7的计算单元8、播放装置6和数据界面9供应用于使各个听力装置2运行的电力。

在运行期间，听力装置2执行信号处理。这涉及到通过使用相应的记录装置5来记录输入信号E。神经网络7将至少一个音频信号从输入信号E分离。从分离的音频信号中确定输出信号A，所述输出信号通过使用播放装置6进行播放。由此，音频信号的记录、处理和播放在听力装置2中实现，而不需要将所述音频信号传送到外部的装置。从而将信号处理从记录到回放的延迟最小化。

听力装置2的物理特性，特别是听力装置2的小尺寸，意味着蓄电池10的容量和计算单元8的计算能力受到限制。这限制了输入信号E的操作性。为了即使当蓄电池10的容量低且计算单元8的计算能力低时也允许输入信号E的高质量处理和输出信号A的定制，神经网络7针对输入信号E和/或从中分离的音频信号进行定制。以这种方式被专用的神经网络7可以以低计算能力和低功耗运行。为了确保专用于不同的应用实例，神经网络7可通过使用校准装置3来进行定制和/或替换，如下所述。神经网络7的可定制性和/或可替换性确保了即使在不断变化的条件下也可靠处理输入信号E。

校准装置3是移动装置。在所示的示例性实施例中，校准装置3采用移动电话或智能手机的形式。这意味着校准装置3具有商用移动电话的硬件，为校准听力装置2而设计的且在移动电话上被安装并可执行的软件。例如，软件可以采用应用程序的形式加载到移动电话上。既有的移动电话具有高水平的计算能力。因此，这种移动电话可以用于实现对校准信号的复杂分析。此外，商用移动电话经常有AI芯片，AI芯片可以用来高效地实行神经网络。

校准装置3具有采用蓄电池的形式的电源11。既有的移动电话的蓄电池具有充电能力。校准装置3的蓄电池工作时间较长。

校准装置3具有校准记录装置13。校准记录装置13用于记录音频数据作为校准输入信号K。校准记录装置13具有移动电话的至少一个麦克风。既有的移动电话经常有多个麦克风。如果需要，校准记录装置13可以使用多个麦克风，以便使用多个通道记录校准输入信号K，例如作为立体声信号。由此，特别是空间信息可通过校准输入信号K进行确定。

校准装置3具有信号处理单元12。通过使用信号处理装置12，可分析校准信号，特别是校准输入信号K，这将在下面进行详细描述。基于对校准输入信号K的分析，校准装置3确定最适合于处理输入信号E的神经网络7和/或神经网络7的工作参数。神经网络7及其工作参数通过无线数据连接4由校准装置3传送给听力装置2。

校准装置3具有数据存储器14。数据存储器14存储多个不同神经网络7、7a、7b，三个神经网络在图1中以示例方式示出。不同的神经网络7、7a、7b专用于不同的输入信号E和/或要从输入信号中分离的不同的音频信号。通过使用对校准输入信号K的分析而确定的神经网络7从数据存储器14加载，并通过使用数据界面9借助无线数据连接4传送到听力装置2。

通过神经网络7的定制和/或选择，哪些音频信号从输入信号E分离特别会受到影响。例如，神经网络7可以专用于检测人类声音并将人类声音与音频信号分离。神经网络7可以另外地或替代地也专用于相应类型的输入信号。例如，不同的神经网络7可以用于在餐厅中或在路上时分离人类声音。工作参数可用于规定要更准确地分离的音频信号的选择。例如，用户正在交谈的说话者的三种特定声音的描述可以作为工作参数的一部分传递给听力装置2。然后，神经网络7从大型人类声音集中仅分离出与所传递的描述相符的那些声音。工作参数也可用于执行从输入信号E分离的音频信号的优先级。因此，可以规定例如单个音频信号被放大或拒绝。

信号处理单元12还连接到移动电话的其他传感器15。示例性传感器是GPS传感器和/或运动传感器。由传感器15确定的传感器数据S可作为校准输入信号K的补充或替代被用作用于分析和确定最适合的神经网络7及其工作参数的校准信号。

通过使用信号处理单元12，可以以不同的方式实现对校准输入信号K和/或传感器数据S的分析。分析的具体类型对校准和信号处理的功能分离并不重要。在所示的示例性实施例中，信号处理单元12具有至少一个神经校准网络16。信号处理单元12具有移动电话的计算单元(未更具体地示出)。信号处理单元12特别地具有AI芯片。AI芯片例如具有每秒2万亿次的浮点运算，特别是每秒5万亿次的浮点运算。神经校准网络16用于将单独的音频信号从校准输入信号K分离。由此，能确定校准输入信号K，并且特别是其中包含的与用户相关的音频信号。因此可以基于由所述神经网络执行的校准输入信号K的分析来确定最适合通过使用听力装置2进行分离的神经网络7。

信号处理单元12还具有与之连接的用户界面17。在采用移动电话的形式的校准装置3的情况下，通过触摸屏形成用户界面17。用户界面17可用于向用户显示关于听力装置系统1的信息，特别是关于从校准输入信号K分离的音频信号的信息。用户可以使用用户界面17来影响通过校准装置3对神经网络7的替换和/或定制。根据用户输入，例如其他工作参数和/或另一神经网络7、7a、7b可以被传送到听力装置2，以确保听力装置2进行的与用户偏好一致的信号处理。

由先前的用户输入和/或先前分析的校准输入信号K产生的用户特定的数据18可以存储在数据存储器14中。信号处理单元12可以将用户特定的数据18保存在数据存储器14上，并将其作为校准信号的一部分进行检索和分析。用户特定的数据18可以包含例如关于用户的偏好和/或需求的信息，例如，特定类型的音频信号要被放大或拒绝的预设。

校准装置3具有另一个数据界面19。数据界面19用于同外部存储器21进行数据连接20。外部存储器21可以是云存储器。数据界面19特别是移动电话网络或W-LAN数据界面。云存储器21可以用于备份来自数据存储器14的数据。这具有如下优点：用户可以替换校准装置3而不丢失用户特定的数据18。连接到云存储器21的另一优点在于，云存储器21还可用于存储更多数量的神经网络7、7a、7b，以便根据情况最佳定制的神经网络7、7a、7b可以根据需要通过校准装置3加载到听力装置2上。数据界面19还可用于加载用于听力装置系统1的更新，特别是用于校准装置3和听力装置2的更新。

参照图2，示意性地描述了听力装置系统1的应用例。在所描述的应用例中，用户在餐厅22中与三个朋友F_i在一起，其中i＝1，2，3表示各个朋友。其他客人B在餐厅22中并在餐厅22中带来音景G的背景噪声b。

下面讨论在使用听力装置系统1时使用的步骤。在这种情况下，步骤与校准装置3和听力装置2相关联。出于清楚的目的，各个装置被显示为相应的相关方法步骤周围的虚线边框。首先，校准记录步骤25涉及通过使用校准记录装置13将餐厅22的音景G记录为校准输入信号K并传递给信号处理装置12。音景G以及因此的校准输入信号K通常包括未知数量的不同音频信号。在所示的示例性实施例中，校准输入信号K包括与三个朋友F_i有关的说话声音f_i以及背景噪声b。

信号处理装置12用于在分析步骤26中分析校准输入信号K。为此，校准分离步骤27首先涉及到使校准输入信号K包含的多个音频信号从校准输入信号K中分离。在所示的示例性实施例中，将与朋友F_i有关的声音数据f_i和对应于剩余信号的背景噪声b从校准输入信号K中分离。分离在校准分离步骤27中通过使用至少一个神经校准网络16来实现。

校准分离步骤27可以包括用于调节校准输入信号K的准备步骤(未更具体地示出)。准备步骤例如可以包括常规调节。常规调节可以涉及例如将基于多个麦克风确定的方向信息进行确认并且用于将声音标准化。此外，准备步骤可以涉及将第一神经校准网络用以调节校准输入信号K。示例性准备步骤可以例如与参考在DE102019200956.5和DE102019200954.9中的图3描述的准备步骤一致。

例如，经调节的校准输入信号K可以通过第二神经校准网络以特别简单和高效的方式分解为单个的音频信号。在准备步骤之后的实际分离可以使用一个或多个第二神经校准网络来实现。不同的第二神经校准网络可以被定制用于分离不同的音频信号。使用多个第二神经校准网络的分离可以例如同参考DE102019200956.5和DE102019200954.9中的图4所述地那样实现。

校准分离步骤27之后是分类步骤28。分类步骤28涉及对从校准输入信号K分离的音频信号f_i、b进行评估。基于评估，校准装置3检测到用户在餐厅中。因此，分类步骤28可以将可用神经网络7、7a、7b的选择限制为专用于将音频信号从常见餐厅的音景中分离的网络。

分类步骤可以替代地或者另外地还涉及使用在传感器读取步骤29中确定的传感器数据S。例如，用户的GPS位置可用于确定所述用户在餐厅22中的存在。用户的运动配置文件可以用来检测用户没有移动，也就是逗留在餐厅中。此外，其他位置特定数据(例如与餐厅22相关联的W-LAN接入点)也可以用于确定用户的行踪和用于从可用的神经网络7、7a、7b集中选择合适的神经网络7。

为了确定要使用的神经网络7，还会分析从校准输入信号K分离的音频信号f_i、b并且将其与用户偏好和/或用户规范进行匹配。例如，对应于朋友F_i的音频信号f_i可以被识别为用户已知的说话者。为此目的，适用的音频信号f_i可以与之前已经检测到和使用过的声音信号相匹配。用户已知的说话者可以作为用户特定数据存储在数据存储器14和/或云存储器21中，并且可以在数据匹配步骤32中与分离的音频信号f_i相匹配。因此，在分类步骤28中，系统自动检测对用户重要的音频信号f_i。因此，系统可以自动检测到需要可以将对应于朋友F_i的声音的三个音频信号从常见餐厅的音景G中分离的神经网络7。

分析步骤26之后是校准步骤30。校准步骤30涉及从数据存储器14或从云存储器21加载基于校准输入信号K的评估而确定的神经网络7并将其从校准装置3传输到每个听力装置2。神经网络7也用于向听力装置2传输也被称为矢量的工作参数V_i。神经网络7和工作参数V_i一起形成从校准装置3传输到听力装置2的传输信号(7，V_i)。工作参数V_i传送与随后通过神经网络7分离的每个音频信号有关的信息。在所描述的应用实例中，矢量V_i均包含对适用的朋友F_i的声音的描述以及相关的优先级参数。对各个声音的描述用于确保神经网络从音景G中只分离朋友的声音而不分离其他餐厅客人B的声音。各个优先级参数表示各个音频数据f_i各自要被放大的倍数。

在校准步骤30中传输到听力装置2的神经网络7通过使用启动步骤31基于工作参数V_i而在听力装置2中启动。

在使用工作参数V_i启动神经网络7后，可以通过使用听力装置2来实现信号处理。使用既有AI芯片的计算能力，听力装置2可以在提供校准信号之后的短时间内，特别是在记录校准输入信号K之后的短时间内通过校准装置3开始信号处理。启动的时间段特别取决于是否定制或替换至少一个神经网络7。如果只有用于定制神经网络7的工作参数V_i被传输到听力装置2，这例如可以在1s内，特别是在750ms内，特别是在500ms内，特别是在350ms内发生。当替换了神经网络7时，需要传输新的网络，这例如可以在2ms内，在900ms内，特别是在800ms内，特别是在750ms内。

信号处理在每个听力装置2中独立地进行。在记录步骤33中，通过使用记录装置5以输入信号E的形式记录相应的音景G。输入信号E被发送到计算单元8，在此于处理步骤34中进行处理。在处理步骤34中，对应于朋友F_i的音频信号f_i首先在分离步骤35中通过使用神经网络7从输入信号E分离。分离的音频信号f_i随后在调制步骤36中基于与工作参数V_i一起传递的优先级参数进行调制。在这种情况下，音频信号f_i根据用户的偏好被放大或拒绝。被调制后的音频信号f_i在调制步骤36中被组合以产生输出信号A。输出信号A被发送到播放装置6。播放装置6在播放步骤37中以声音输出G’的形式为用户播放输出信号。

在经过校准装置3的校准之后，完全在听力装置2上实现信号处理。记录、处理和播放通过使用听力装置2来实现，并因此对于用户来说没有可察觉的延迟。

进一步的信号处理可以由独立于校准装置3的听力装置2实现。然而，校准装置3可用于执行神经网络7的进一步定制，和/或也替换用于分离步骤35的神经网络7。特别地，通过由校准装置3替换和/或定制的神经网络7，定期检查并在必要时定制校准。

在听力装置2进行信号处理的同时，校准装置3还可以在校准记录步骤25中记录校准输入信号K，并通过使用分析步骤26对其进行分析。这允许提高分析的准确性，从而增加神经网络7的选择和/或定制。例如，校准分离步骤27可以根据分类反馈回路38进行的分类步骤28的结果进行定制。这允许根据分类步骤28的结果对在校准分离步骤27中使用的至少一个神经校准网络16进行定制。如果分类步骤28例如基于传感器数据S和/或从校准输入信号K分离的音频信号识别用户的周边环境，则可以根据用户的周边环境和其中预期的音景对至少一个神经校准网络16进行定制。由此，例如可以使用针对不同情况定制的神经校准网络16。在图2中所描述的应用例中，例如可以使用优化用于人类声音检测的神经校准网络16。专用于人类声音的神经校准网络16可以用来更好地分离并区分人类声音。这首先确保了对应于朋友F_i的音频信号f_i从校准输入信号K分离。其次，还考虑了其他的声音。例如，可以分离服务员的声音。基于对适用音频信号的转录和/或与音频信号fi匹配的分析，例如通过语音中适用的停顿的分析，服务员所说的可以被归类为与用户相关。在这种情况下，通过使用听力装置进行分离需要可以从输入信号E分离出四个人类说话者(即服务员和朋友F_i)的神经网络7。然后可以将具有适用工作参数V_i的适用神经网络7发送到听力装置2，以便替换当前在所述听力装置上使用的神经网络7。校准装置3也可以在听力装置2进行信号处理的过程中替换神经网络7。替代地或另外地，还可以在由听力装置2进行信号处理的过程中对工作参数V_i进行定制。例如服务员接近桌子，描述服务员的声音的、具有适当高优先级参数的矢量V可以传送给听力装置2，以确保服务员的言语也会被正确地理解。另外地，所说内容的转录可以显示在移动电话3的显示器上。然后用户可以阅读其可能尚未理解的言语。

此外，基于在用户输入步骤39中的用户输入，可以定制工作参数V_i或者可以替换神经网络7。用户输入可以通过使用用户界面17进行。例如，用户可以整体上影响信号的调制。此外，在分析步骤26中确定的音频信号f_i、b可通过用户界面17显示给用户。用户可以在用户输入步骤39中有意地选择音频信号f_i、b的单个实例，以便通过使用神经网络7启动所述音频信号的分离和/或影响所述音频信号的调制。

特别是当输入信号E改变时，需要替换神经网络7。例如如果在传感器读取步骤29中确定的传感器数据S用于检测用户正在离开餐厅22，则可以要求替换神经网络7。例如，用户可以离开餐厅22到街道上。在这种情况下，专用于道路噪声的神经网络7可以被选择并被传送给听力装置2。这确保了来自车辆(例如接近的汽车)的音频信号从输入信号E分离并作为输出信号A的一部分为用户播放。

在其他应用实例中，也可以将一个以上的神经网络7传递给听力装置2。例如，当用户和他的朋友F_i一起离开餐厅时。在这种情况下，可要求将朋友F_i的音频信号f_i和来自其他道路用户(例如接近的车辆)的音频信号分离。在这样的应用实例中，两个神经网络7可以被传递给听力装置2，以便能够分离和处理更多数量的音频信号。神经网络7中的一个神经网络可以专用于将接近的车辆从常见的道路交通的输入信号E中分离。第二神经网络7可以专用于将人类声音从常见的道路交通的输入信号E中分离。在这种情况下，与用户相关的音频信号可以以低计算消耗和低功耗地从输入信号E分离。

在其它的应用实例中，校准装置3还可以使听力装置2的神经网络7暂时停用。例如，如果用户在其他安静的环境中与他的朋友F_i在一起，则输入信号E基本上对应于音频信号f_i。因此不需要从输入信号E中分离和/或放大音频信号f_i。当神经网络7停用时，通过直接放大输入信号E而从输入信号E确定输出信号A。这在计算复杂度低和功耗低的情况下是可能的。一旦更多的声音被添加到音频信号f_i中，即，听力情况变得更加复杂，则校准装置就可以检测到这一点并自动重新激活听力装置2的神经网络7。在这种情况下，可以定制和/或替换神经网络7以校准听力装置2。

在另一个应用实例中，如果听力装置2的电源10的充电状态低于预定的极限值，则也可以通过校准装置3将神经网络7停用。这使得即使在电源10的充电状态低时，也能确保在更长的时间段内使用听力装置2。

在上述应用实例中，由校准装置3自动规定要从输入信号E分离的音频信号的数量。通过使用用户界面17，用户可以另外手动地规定要分离的音频信号的数量。用户可以通过用户界面将从校准输入信号K分离的音频信号进行显示，亦即在校准装置3的显示屏上进行显示。然后用户可以选择要分离的单个的音频信号。替代地，用户可以使用适当的控制器来规定要分离的音频信号的数量。然后校准装置3根据通过对校准输入信号的分析而确定的相应的相关性来选择适用的音频信号的数量。

在未示出的另一示例性实施例中，至少一个听力装置的计算单元包括用于执行至少一个神经网络的应用型专用集成电路(ASIC)。计算单元被优化地定制以执行相应的神经网络。因此可以特别高效地实行神经网络。然而，由于使用校准单元计算出的矢量被传递，网络可针对相应的应用实例进行定制，特别是针对要从输入信号分离的音频信号的数量和类型进行定制。定制是通过正在定制的网络中的权重来实现的。在将至少一个听力装置的计算单元实施为应用型专用集成电路的一些示例性实施例中，至少一个神经网络是不可替换的。

在未示出的另一示例性实施例中，听力装置系统不包括外部可穿戴听力装置，而是包括至少一个植入式听力装置。在一个示例性实施例中，至少一个听力装置可以是人工耳蜗。在进一步的示例性实施例中，至少一个听力装置是不同的植入物，例如中耳植入物或脑干植入物。

Claims

1.用于处理音频信号的听力装置系统，具有

1.1.至少一个听力装置（2），具有

1.1.1.记录装置（5），其用于记录输入信号（E），

1.1.2.至少一个神经网络（7），其用于将至少一个音频信号（f_i，b）从所述输入信号（E）分离，和

1.1.3.播放装置（6），其用于播放从所述至少一个音频信号（f_i，b）确定的输出信号（A），以及

1.2.校准装置（3），其以数据传输方式连接到所述至少一个听力装置（2），

1.3.其中，所述至少一个神经网络（7）是能由所述校准装置（3）替换的，

1.3.1.其中所述至少一个神经网络（7）能通过所述校准装置（3）从可用的神经网络（7，7a，7b）集中进行选择，其中所述可用的神经网络（7，7a，7b）集中的不同的神经网络（7，7a，7b）针对不同类型的输入信号（E）和/或要从中分离的不同的音频信号定制，

1.3.2.其中可用的能选择的神经网络（7，7a，7b）集存储在校准装置（3）的数据存储器（14）中和/或所述校准装置（3）访问的云存储器（21）中，以及

1.3.3.其中用于分离音频信号（f_i，b）的所述不同的神经网络（7，7a，7b）能从所述校准装置（3）传输至所述至少一个听力装置（2）。

2.根据权利要求1所述的听力装置系统，其特征在于，对所述至少一个神经网络（7）的替换使得所述至少一个神经网络（7）的结构是可定制的。

3.根据权利要求1所述的听力装置系统，其特征在于，所述校准装置（3）和所述至少一个听力装置（2）各自具有其自己的电源（10，11）。

4.根据前述权利要求中的任一项所述的听力装置系统，其特征在于，所述校准装置（3）和所述至少一个听力装置（2）通过无线数据连接（4）进行连接。

5.根据权利要求1或2所述的听力装置系统，其特征在于，所述校准装置（3）采用移动装置的形式。

6.根据权利要求5所述的听力装置系统，其特征在于，所述校准装置（3）采用移动电话的一部分的形式或无线麦克风的一部分的形式。

7.根据权利要求1或2所述的听力装置系统，其特征在于，所述校准装置（3）具有用于分析校准信号（K，S）的至少一个神经校准网络（16）。

8.根据权利要求1或2所述的听力装置系统，其特征在于，所述校准装置（3）具有用于记录音频数据作为校准信号（K，S）的一部分的校准记录装置（13）。

9.根据权利要求1或2所述的听力装置系统，其特征在于，所述校准装置（3）具有用于接收用户输入和/或向用户输出信息的用户界面（17）。

10.用于处理音频信号的方法，其步骤包括：

10.1.提供听力装置系统（1），其具有

10.1.1.至少一个听力装置（2），其具有用于将至少一个音频信号（f_i，b）从输入信号（E）分离的至少一个神经网络（7），和

10.1.2.校准装置（3），其以数据传输方式连接到所述至少一个听力装置（2），

10.2.提供校准信号（K，S），

10.3.通过所述校准装置（3）评估所述校准信号（K，S），

10.4.基于所分析的校准信号（K，S）通过所述校准装置（3）替换和/或定制所述至少一个听力装置（2）的所述至少一个神经网络（7），

10.4.1. 其中所述校准装置（3）从可用的神经网络（7，7a，7b）集中选择所述至少一个神经网络（7），其中所述可用的神经网络（7，7a，7b）集中的不同的神经网络（7，7a，7b）针对不同类型的输入信号（E）和/或要从中分离的不同的音频信号定制，

10.4.2. 其中可用的能选择的神经网络（7，7a，7b）集存储在校准装置（3）的数据存储器（14）中和/或所述校准装置（3）访问的云存储器（21）中，以及

10.4.3. 用于分离音频信号（f_i，b）的所选择的至少一个神经网络（7，7a，7b）从所述校准装置（3）传输到所述至少一个听力装置（2）

10.5.通过使用所述至少一个听力装置（2）的记录装置（5）来记录输入信号（E），

10.6.通过使用所述至少一个听力装置（2）的所述至少一个神经网络（7）将至少一个音频信号（fi，b）从所述输入信号（E）分离，

10.7.从所述至少一个音频信号（fi，b）确定输出信号（A），以及

10.8.通过使用所述至少一个听力装置（2）的播放装置（6）来输出所述输出信号（A）。

11.根据权利要求10所述的方法，其特征在于，通过使用至少一个神经校准网络（16）来实现对所述校准信号（K，S）的分析。

12.根据权利要求10或11所述的方法，其特征在于，所述校准装置（3）将用于所述至少一个神经网络（7）的工作参数（Vi）传送至所述至少一个听力装置（2）。

13.根据权利要求10或11所述的方法，其特征在于，所述校准信号（K，S）包括所述听力装置系统的音频数据、传感器数据、用户特定数据和/或系统参数。

14.根据权利要求10或11所述的方法，其特征在于，所述校准装置（3）记录音频数据作为所述校准信号（K，S）的一部分。

15.根据权利要求10或11所述的方法，其特征在于，用户能够影响所述至少一个神经网络（7）的选择和/或定制。