CN113366861A

CN113366861A - 用于处理音频信号的信号处理装置、系统和方法

Info

Publication number: CN113366861A
Application number: CN202080010795.8A
Authority: CN
Inventors: 彼得·乌多·迪尔; 埃利亚斯·斯普林格尔
Original assignee: Sonova AG
Current assignee: Sonova Holding AG
Priority date: 2019-01-25
Filing date: 2020-01-24
Publication date: 2021-09-07
Also published as: DE102019200956A1; US20220093118A1; WO2020152324A1; EP3915277A1

Abstract

本发明描述了一种用于处理音频信号的信号处理装置(4)。信号处理装置(4)具有用于接收输入信号的输入接口(13)以及用于输出输出信号的输出接口(14)。此外，信号处理装置(4)具有用于从输入信号中分离一个或多个音频信号的至少一个神经网络(11)。通过使用至少一个神经网络(11)而从输入信号中分离的音频信号的数量是可变的。

Description

用于处理音频信号的信号处理装置、系统和方法

本申请要求德国专利申请DE102019200956.5的优先权，其内容通过引用并入本文。

技术领域

本创新技术涉及一种用于处理音频信号的信号处理装置。此外，本创新技术涉及一种具有这种信号处理装置的系统，尤其是听力装置系统。此外，本创新技术包括一种用于处理音频信号的方法。

背景技术

用于处理音频信号的信号处理设备以及方法在现有技术中是已知的。例如将它们用于听力装置中。

发明内容

本创新技术的目的是提供一种信号处理装置，借助该信号处理装置来改善音频信号的处理。尤其是，目的是提供一种允许对单个音频信号进行处理以及任意组合的信号处理装置。

通过具有权利要求1中规定的特征的信号处理装置来实现该目的。信号处理装置具有用于接收输入信号的输入接口和用于输出输出信号的输出接口。此外，处理装置具有用于从输入信号中分离一个或多个音频信号的至少一个神经网络。此处和下文中，术语“神经网络”要理解为表示人工神经网络。

本创新技术的实质是，从输入信号中分离的音频信号的数量通过使用至少一个神经网络是可变的。这意味着，分离的音频信号的数量，尤其是在任何时候从输入信号中分离的音频信号的数量，可以随时间变化。由此，针对各个要求，信号处理装置是自适应可定制的。这样，在存在多个声源的复杂情况下，例如在道路交通或会议中，可以从输入信号中分离许多不同的音频信号。这确保不会丢失任何相关信息。在只有较少声源的简单情况下，例如在私人谈话的情况下，可以减少音频信号的数量。这尤其降低用于分离音频信号的计算复杂度。还减少分离所需的资源，尤其是功耗。这允许音频信号的高效处理，尤其是音频信号的高效且精确的分离。

根据本创新技术所述的信号处理装置的另一个优点是可以进一步单独处理从输入信号中分离的不同音频信号。在处理(例如调制)之后，可以组合音频信号以形成输出信号。因此，分离的音频信号的数量的可变性也意味着可以针对各个情况灵活地对输出信号进行组合和定制。也可以混合分离的音频信号，以产生不同的输出信号。例如，可以将不同数量的音频信号组合在不同的输出信号中。可以不同地混合输出信号的不同通道，例如以获得立体声或环绕声效果。此外，可以放大组合的单个音频信号，从而不同地产生输出信号。

至少一个神经网络可以输出可变数量的音频信号。优选地，至少一个神经网络具有固定数量的输出。当使用多个神经网络进行分离时，每个神经网络都可以有固定数量的输出。在这种情况下，每个用于分离音频信号的神经网络输出从输入信号中分离的固定数量的音频信号。因此，分离的音频信号的数量可以与用于分离的神经网络的数量和相应的输出数量成比例。例如，所有神经网络可以具有三个输出。以这种方式，例如，当使用两个神经网络进行分离时，能够最多从输入信号中分离六个不同的音频信号。然而，不同的神经网络也可以分别生成不同数量的输出。以这种方式，可以更加灵活地规定通过使用至少一个神经网络从输入信号中分离的音频信号的数量。

输入信号可以例如通过使用一个或多个记录装置被记录并且随后可以被传输到信号处理装置的输入接口。例如，对于每个记录装置，输入信号具有一个或多个通道。以这种方式，尤其可以记录立体声信号。

输入信号通常包括未知数量的不同音频信号。不同音频信号尤其可以来自不同的声源，例如对话者、经过的汽车、背景音乐等。优选地，以源特定的方式将一个或多个音频信号从输入信号中分离。在这种情况下，特定声源(例如对话者)的音频信号从输入信号中分离。特别优选地，多个音频信号从输入信号中分离。以此方式，不同声源的音频信号可以彼此独立地被处理。这允许对单个音频信号进行选择性处理和加权。例如，对话者的音频信号可以被放大，而附近人的谈话被拒收。音频信号的处理可以以源特定的方式进行。通过使用至少一个神经网络分成单个音频信号，尤其是分成与单个声源相关联的音频信号，是本创新技术的独立方面，与从输入信号中分离的音频信号的数量的可变性无关。

示例性输入信号可以包括连续记录的音频数据的最后几毫秒。例如，在传统的音频信号具有每秒采样次数为16000的情况下，输入信号可以包括大约128次采样。输入信号可以表示为矩阵，矩阵的行数对应采样次数，并且矩阵的列数对应输入信号中的通道数。

在将音频信号从输入信号中分离之前，可以在准备步骤中调节输入信号。准备步骤可以常规地和/或通过使用至少一个神经调节网络来实现。至少一个神经调节网络可能连接在用于分离的至少一个神经网络的上游。在此时及在下文中，神经调节网络也被称为第一神经网络。在本创新技术的内容中用于将音频信号从输入信号中分离的神经网络在此时及在下文中也被称为第二神经网络。

可以将至少一个第一神经网络和至少一个第二神经网络优选地按顺序布置。这意味着，第一和第二网络串联连接以处理输入信号。尤其是，来自至少一个第一神经网络的输出用作至少一个第二神经网络的输入。神经网络的顺序布置允许功能地划分成不同的处理步骤。这样，独立于通过使用至少一个第二神经网络从输入信号中分离一个或多个音频信号，通过使用至少一个第一神经网络对输入信号进行调节。这允许音频信号的高效处理，尤其是音频信号的高效且准确分离。音频信号的分离尤其可以实时进行，也就是说没有显著的等待时间。这样，例如可以借助至少一个第一神经网络对输入信号进行调节，使得可以通过至少一个第二神经网络特别容易且高效地处理被调节的输入信号。这也增加了分离的准确度。

神经网络的可行的顺序布置的另一个优点是信号处理装置的改善的灵活性。这样，不同的第一神经网络可以与不同的第二神经网络组合以确保对针对各个输入信号而被定制的音频信号的处理。已经发现，独立于输入信号而规定至少一个第一神经网络是特别高效的，这是因为调节输入信号所需的步骤可以普遍应用于所有不同类型的输入信号。然后，可以特别优选地针对要将从输入信号中分离的各个音频信号来定制至少一个第二神经网络。

借助至少一个第一神经网络对输入信号的可行的调节可以被视为准备步骤的部分。特别优选地，调节精确地受一个第一神经网络影响。已经发现这是实用的，因为它允许对输入信号进行标准处理，而不管其构成(例如组合在其中的通道和/或音频信号)如何。除了通过使用至少一个第一神经网络进行调节之外，还可以进行输入信号的常规调节。例如，可以使输入信号(尤其是输入信号包含的多个通道)归一化。

输入信号的可行的调节具有以下优点：从输入信号中分离一个或多个音频信号不需要使用音频格式。准确地说，可以将输入信号的张量形式的表示传递到至少一个第二神经网络。在当前情况下，可以进行高效且明确的分离。

由第二神经网络输出的音频信号可以被任意地编码。尤其是当按顺序执行调节和分离时，有利地是，至少一个第二神经网络的输出本身可以被编码为音频数据或音频数据的前体。音频信号本身可以由至少一个第一神经网络优化或调节以在至少一个第二神经网络中使用。例如，第一神经网络输出的经调节的音频信号可以由至少一个第二神经网络转换成多个新的音频信号。这意味着至少一个第二神经网络能够以生成方式运行。

不同的网络架构可以用于至少一个第二神经网络。如果也设置至少一个第一神经网络，也可以为此使用不同的网络架构。用于神经网络的架构对于将音频信号从输入信号中分离并不重要。然而，已发现长短期记忆(LSTM)网络特别合适。如果输入信号在不同情况下为被记录仅长数毫秒的音频数据，尤其为被连续记录的音频数据，则这种架构是特别有利的。至少一个第一神经网络的LSTM架构允许将关于较长时段的音频数据的信息存储较长时间。然后，也可以将存储的信息传递到之前未使用的第二神经网络并在那里进一步进行处理。由此，尤其可以以最佳方式初始化至少一个第二神经网络。

在一个优选的架构中，至少一个第一神经网络可以具有一维卷积层和至少一个LSTM层。特别优选地，至少一个第一神经网络具有一个一维卷积层和两个分别具有例如1024和512个单元的LSTM层。因此可以将输入信号放入一个新的、更紧凑的表示中。不同层之间也可能存在所谓的跳跃连接。这允许访问原始输入信号和所有中间结果。出于调节的目的，输入信号可以借助一维卷积层进行转换，并借助一个或多个LSTM层进行改善。

在一个优选的架构中，至少一个第二神经网络可以具有至少一个LSTM层和至少一个完全链接的层，也称为密集层。示例性的第二神经网络例如可以具有两个分别具有265和128个单元的LSTM层，以及后面两个分别具有128个和64个单元的完全链接的层。完全链接的层后面为卷积层。这样的架构允许使用既有的硬件来执行至少一个第二神经网络。例如，具有上述各个优选架构的一个第一神经网络和三个第二神经网络需要0.6teraflop的计算能力来执行。既有的手机具有2teraflop或更多teraflop(例如5teraflop)的人工智能芯片。

当存在多个第二神经网络时，它们可以具有相同或不同的架构。在不同的第二神经网络中，层数量和单元数量可以不同。尤其是，单元数量可能取决于各个神经网络的专用性。例如，可以使用借助于专用的数据记录的训练来减少单元。例如，仅针对道路噪声被训练的第二神经网络可以具有与针对一般噪声被训练的第二神经网络相比小得多的架构。尤其是，当使用多个第二神经网络时，其架构可能有利地较小。这增加第二神经网络的效率。例如，信号处理装置的神经网络可以在任何处理器上执行。专用的人工智能芯片并不是绝对必要的。

优选地，至少一个第一神经网络和至少一个第二神经网络可以是联合神经网络的部分。这样的信号处理装置是特别高效的。例如，至少一个第一神经网络和至少一个第二神经网络可以联合执行，尤其是在单个的处理器上联合执行，尤其是在人工智能芯片上联合执行。至少一个第一神经网络可以被视为联合神经网络的主体，而至少一个第二神经网络充当联合神经网络的可替换头部。联合神经网络尤其可以具有多个第二神经网络，这些第二神经网络可以灵活且相互独立地被替换。在这种情况下，联合神经网络也被称为具有轮替头部的神经网络。联合神经网络中的至少一个第一神经网络和至少第二神经网络的组合还具有以下优点：来自至少一个第一神经网络中的输出直接作为输入被传递到至少一个第二神经网络。避免了来自至少一个第一神经网络中的附加输出和/或输出转换。

如果设置至少一个第一神经网络，首先可以联合地训练至少一个第一神经网络和至少一个第二神经网络。在至少一个第一神经网络足够地专用于输入信号的调节之后，在分离特定类型的音频信号中，只要继续训练至少一个第二神经网络即可。在该训练阶段可以保持至少一个第一神经网络不变。

根据本创新技术所述的信号处理装置可以优选地用于至少一个听力装置的音频信号处理。信号处理装置尤其可以是听力装置或其组件。听力受损的用户可以尤其从根据本创新技术所述的信号处理装置所实现的音频信号处理的改善中受益。本创新技术意义上的听力装置可能包括助听器、听力植入物，尤其是耳蜗植入物和/或听觉脑干植入物，和/或可听戴设备。示例性助听器包括耳后式助听器、耳内式助听器、耳道内助听器、助听镜和/或骨锚式助听器。示例性的可听戴设备包括智能耳机。

根据本创新技术的一个有利方面，信号处理装置被配置用于增强从输入信号中分离的一个或多个音频信号。信号处理装置优选地被配置用于音频信号的声音增强。声音增强的音频信号产生更清楚的输出信号。尤其是，信号处理装置被配置用于对一个或多个音频信号去噪。当信号处理用于至少一个听力装置的音频信号处理时，这是特别有利的。更清楚的音频信号，尤其是更清楚的语音信号可以更容易地被听力受损者理解。

特别优选地，至少一个神经网络，尤其是至少一个第二神经网络被配置用于对从输入信号中分离的一个或多个音频信号进行增强，尤其是去噪。去噪是高效的。例如，至少一个神经网络，尤其是至少一个第二神经网络可以清理从输入信号中分离的一个或多个音频信号。优选地，可以在分离一个或多个音频信号时实现去噪。例如，可能使用至少一个神经网络，尤其是至少一个第二神经网络从一个或多个音频信号中分离噪声。

至少一个神经网络，尤其是第一神经网络和/或至少一个第二神经网络可以存储在计算机可读介质上。计算机可读介质可能是非暂时性计算机可读介质，尤其是数据存储器。示例性数据存储器是硬盘驱动器或闪存。信号处理装置优选地包括计算机可读介质。信号处理装置可以附加地或替代地与外部计算机可读介质处于数据连接，至少一个神经网络存储在该外部计算机可读介质上。信号处理装置可能包括用于访问计算机可读介质并执行存储在其上的神经网络的计算单元。计算单元可能包括适合于执行任意操作的通用处理器，例如中央处理单元(CPU)。计算单元可能替代地或附加地包括专用于执行至少一个神经网络，尤其是第一神经网络和/或至少一个第二神经网络的处理器。优选地，计算单元可能包括用于执行至少一个神经网络，尤其是第一神经网络和/或至少一个第二神经网络的人工智能芯片。人工智能芯片可以高效地执行神经网络。然而，至少一个神经网络的执行不需要专用的人工智能芯片。

优选地，通过在计算机可读介质上提供不同的神经元网络和/或调制功能，可以修改，尤其是交换第一神经元网络和/或至少一个第二神经元网络和/或用于调制音频信号的调制函数，尤其是应用于音频信号的增益模型的细节。由此，增强了系统的灵活性。

输出信号可能包括从输入信号中分离的一个或多个音频信号。例如，可能组合几个分离的音频信号以形成输出信号。单个的音频信号可能优选地在被包含到输出信号之前被调制。在本文中，术语“调制”通常可以包括对音频信号的功率谱的任何改变。它尤其包括特定增益模型和/或频率变换(也称为移调)和/或声音增强调制的应用，尤其是清理步骤，更尤其是语音清理步骤。单个音频信号可能被放大或增强，而其他音频信号可能被抑制。优选地，可能使用不同的增益模型来放大特定的音频信号。尤其是，音频信号的调制可能包括音频信号的频率变换。通过频率变换，至少一些部分的音频信号，尤其是其中包含的某些频率范围或分量，可以被移调为不同的频率。例如，频率变换可用于将用户听不到的频率变换为用户可以听到的频率。优选地，频率变换可用于将音频信号的不能听到的部分(例如高频)变换成能听到的音频信号。当信号处理装置用于至少一个听力装置的音频信号处理时，这是特别有利的。

优选地，信号处理装置包括增益模型算法和/或频率变换算法。这样的算法可能存储在计算机可读介质上并且可能由信号处理装置的计算单元执行。

根据本创新技术的一个有利方面，信号处理装置具有多个第二神经网络，其中每个第二神经网络是针对特定类型的音频信号来定制的。这允许从输入信号中特别高效地分离出特定类型的音频信号。针对不同类型的音频信号来定制多个第二神经网络，意味着可特别灵活且普遍地使用信号处理装置。音频信号的分离可以借助多个第二神经网络中的单个或多个实例进行。用于分离的第二神经网络可以根据输入信号或其他要求从多个第二神经网络中选择。

不同类型的音频信号例如基于其各自的声源(例如说话人或机动车辆)来确定。声源的类型也可能由特定环境确定，例如道路和交通噪音或购物中心中的背景音乐。通过训练神经网络，例如基于包含该等音频信号的数据记录来针对相应类型的音频信号定制第二神经网络。

根据本创新技术的一个有利方面，并行使用至少两个、三个、四个或更多第二神经网络来从输入信号中分离音频信号。这允许从输入信号中分离出大量不同的音频信号。此外，增加了灵活性，这是因为可以组合专用于不同类型音频信号的第二神经网络，从而可以以简单且明确的方式对不同类型的音频信号进行分离。如果设置输入信号借助于至少一个神经网络被调节，将来自至少一个第一神经网络中的输出优选地用作所有并行用于分离的第二神经网络的输入，尤其是相同的输入。这确保将不同的音频信号可靠地从输入信号中分离。

根据本创新技术的另一个有利方面，至少一个第二神经网络是可替换的。用于分离音频信号的至少一个第二神经网络尤其可以从多个专用于不同类型的音频信号的第二神经网络中选择。至少一个第二神经网络的可替换性允许针对各个输入信号灵活地定制信号处理装置。选择各自合适的至少一个第二神经网络也改善用于将音频信号从输入信号中分离的准确度。此外，多个第二神经网络可以并行执行，尤其是在人工智能芯片上并行执行。信号的处理时间进一步减少。

优选地，可彼此独立地替换多个第二神经网络的单一或多个实例。

至少一个第一神经网络和至少一个第二神经网络的有利的顺序布置可以在替换第二神经网络时改善信号一致性。例如，信息被存储在至少一个第一神经网络中并且在替换时不会丢失。避免了音频信号的中断及其分离。

不同的数据记录可用于训练不同的第二神经网络。例如，一个第二神经网络被配置为专用于女性声音的分离，而另一个第二神经网络被配置为专用于道路交通中的警告信号的分离。第二神经网络分别输出它们专用类型的音频信号。因此，针对女性声音被训练的第二神经网络将识别女性声音并输出相应的音频信号。每个第二神经网络优选地具有多个输出。针对女性声音被训练的具有多个输出的第二神经网络可以输出对应于不同女性声音的多个音频信号。如果第二神经网络具有的输出多于输入信号具有的该第二神经网络专用类型的音频信号，则第二神经网络的其他输出也可以包含其他类型的音频信号，不会针对这些类型的音频信号来训练第二神经网络。另一方面，也可能训练第二神经网络，使得它们仅输出它们专用类型的音频信号。例如，专用于女性声音的网络将不会输出男性声音。如果来自第二神经网络的输出数量高于训练第二神经网络所针对的类型的音频信号的数量，则多余的输出可以输出空白信号。空白信号对应于不包含声音，即仅无声的音频信号。如果许多输出包含此类空白信号，则可以减少所使用的第二神经网络的数量。该方法高效且节能。这对于移动应用程序尤其有利。

替代地，可以训练第二神经网络，从而以集中在剩余信号中的方式输出可能的其他音频信号。例如，专用于女性声音的网络可以将男性声音、道路噪声和其他音频信号一起作为附加的剩余信号输出。剩余信号可用作未分离的音频信号的量度。如果这样的剩余信号仍然包括大量信息项，则可以增加第二神经网络的数量和/或每个第二神经网络的输出数量。这允许针对输入信号，尤其是输入信号包含的音频信号的数量来轻松且灵活地定制分离的音频信号的数量。

不同的第二神经网络也可以配置为通过训练而不同程度地进行专用。例如，可以针对一般声音训练第二神经网络，并且可以仅分别针对一个特定类型的声音(深沉、高音、德语、英语等)训练另外的第二神经网络。在这种情况下，当只检测到少数声音时，可以使用识别一般声音的第二神经网络。如果检测到的声音数量增加，则可以使用专用型更高的第二神经网络的多个实例。可灵活地定制分离的音频信号的数量。

根据本创新技术的另一个有利方面，针对用户特定数据、系统参数、输入信号和/或之前已经分离的音频信号可以自动定制信号处理装置。尤其是，可以自动定制使用的网络的数量和类型。由此，从输入信号中分离的音频信号的可变数量可以自动且自适应地改变。系统能够学习并根据用户的需要对系统自身进行定制。

可用的用户特定数据例如是用户的位置和/或移动数据。这样，例如用户的位置和移动配置文件可用于确定所述用户参与道路交通。在这种情况下，可以选择专用于分离交通噪声的第二神经网络。与用户相关的音频信号，例如正接近的汽车或喇叭，因此可靠地从输入信号中分离。例如，用户特定数据可以通过使用合适的传感器被确定，并且可以被传递到信号处理装置。

可以附加地或替代地基于已经分离的音频信号来自动定制信号处理装置，尤其是选择至少一个第二神经网络。例如，分离的音频信号可以被识别为正接近的机动车辆。在这种情况下，可以选择专用于交通噪声的第二神经网络，以便能够可靠地分离源自不同机动车辆的音频信号。为选择至少一个第二神经网络而关注已经分离的音频信号，意味着方法是自适应的。

可以附加地或替代地基于系统参数来自动定制信号处理装置，尤其是自动定制从输入信号中分离的音频信号的数量。示例性系统参数是信号处理装置可用的计算能力和/或信号处理装置仍可用的蓄电池荷电状态。例如如果剩余的蓄电池荷电状态降到预定的极限值以下，则可以减少第二神经网络的数量以执行节能分离。替代地，也可以使用具有较少输出的第二神经网络以允许以较低功耗进行分离。所使用的第二神经网络的数量，尤其是从输入信号中分离的音频信号的数量，也允许对待定制的信号处理装置可用的相应计算能力。如果信号处理装置是移动电话的部分，这是尤其有利的。例如，移动电话的处理器不仅可以用于执行第二神经网络，还可以用于其他计算操作。如果处理器被此类其他计算操作占用，则可以减少第二神经网络的数量。信号处理装置原则上不限制用户对移动电话的其他使用。

特别优选地，信号处理装置连接到另外的传感器和/或具有另外的传感器，以便确定用户特定数据和/或系统参数。示例性传感器可能包括以下传感器中的至少一个传感器：位置传感器，尤其是GPS传感器、加速度计、温度传感器、脉搏血氧计(PPG传感器)、心电图传感器(ECG或EKG传感器)、脑电图传感器(EEG传感器)和眼电图传感器(EOG传感器)。使用位置传感器和加速度计，可以确定用户的移动和位置，以便经由至少一个神经网络改变音频信号的分离。尤其是，可以基于周围环境和用户活动来选择合适的第二神经网络。当信号处理装置用于至少一个听力装置的音频处理时，这是特别有利的。传感器，尤其是PPG传感器、ECG传感器、EOG传感器或温度传感器，可用于监测用户的健康数据。

尤其是，来自位置感测装置，尤其是GPS，和/或加速度计的输入可以用于确定用户是否正在步行，尤其是用于确定用户是否正在参与交通。据此，可以选择性地增强或抑制交通噪音，尤其是汽车噪音。

根据本创新技术的另一个有利方面，信号处理装置具有用于接收用户输入和/或用于向用户输出信息的用户接口。用户接口可以向用户显示例如关于从输入信号中分离的音频信号的信息。然后，用户可以手动地优先处理音频信号的单个实例。这些用户输入可用于处理音频信号。用户的一般偏好，例如对环境声音的拒收，也可以通过使用用户接口被传递到信号处理装置并被关注以处理音频信号。处理装置是特别高度个性化的。

根据本创新技术的另一个方面，信号处理装置可以包括至少一个用于传统音频处理的器件。尤其是，信号处理装置可能包括至少一个用于传统音频信号分离的器件。例如，信号处理装置可能包括数字信号处理器(DSP)和/或盲源分离例程。这里的传统音频处理指的是但不限于数字信号处理步骤或方法，例如滤波、掩蔽、转换、频率变换、压缩方法、盲源分离方法。

可能与至少一个神经网络，尤其是第一和第二神经网络的处理并行地或替代地执行传统音频处理。特别优选地，信号处理装置可能被配置为基于在传统音频处理和基于至少一个神经网络的处理之间切换。信号处理装置是高度灵活的。例如，当需要快速且可靠地分离单个音频信号时，信号处理装置可能使用由至少一个神经网络进行的音频处理。对于具有许多不同音频信号的复杂输入信号，可能就是这种情况。替代地，传统音频处理器件可能用于处理较简单的输入信号，例如当用户处于只有少数声源的安静环境中时。传统音频处理具有较低的计算需求并且需要较少的能源。将至少一个神经网络，尤其是第一和第二神经网络仅用于处理复杂的输入信号，减少了信号处理装置的功耗。延长了电池寿命。即使供电低，也可以使用信号处理装置。传统音频处理和至少一个神经网络的处理之间的切换可以自动执行或基于用户输入执行。优选地，在至少一个神经网络的处理失败的情况下，切换到传统音频处理可以是后备选项。

传统音频处理可以包括一个或多个数字信号处理例程。它尤其可以选自以下列表中的一个或多个方法：线性回归、逻辑回归、支持向量机、过滤技术、掩蔽技术变换，尤其是傅立叶变换。它通常包括在时域和/或频域和/或时频域中对音频信号的处理。

用户可以使用用户接口来影响分离的音频信号的数量和类型。用户尤其可以重写系统的自动定制。用户输入也可以被系统存储和评估。由此，系统可以自动地使用较早的用户输入来识别用户偏好并自适应地对系统自身进行定制。

根据本创新技术的另一个有利方面，信号处理装置具有至少一个数据存储器，用于存储已知类型的音频信号。例如，可以存储特定说话者的声音模式。因此，至少一个数据存储器允许存档关于音频信号的已知信息。从输入信号中新分离的音频信号可以与该数据存储器进行比较。这样，可以识别例如源自用户已知的声源中的音频信号，尤其是用户已知的说话者的音频信号。此外，所识别的说话者的音频信号的相关性可以从保存在数据存储器中的信息中确定。例如，可以存储信号处理装置的用户的家庭成员的声音模式，以便为用户放大源自所述家庭成员中的音频信号。

特别优选地，信号处理装置也可以在外部(例如在云存储器中)存储已知类型的音频信号。这样做的优点是不将用户配置文件绑定到特定的信号处理装置。在更换信号处理装置时，用户可以继续使用为其专门制作的配置文件。

本创新技术的另一个目的是改善用于处理音频信号的系统，尤其是听力装置系统。通过具有权利要求10中规定的特征的系统来实现该目的。

系统具有根据本创新技术所述的信号处理装置。此外，系统具有至少一个用于记录输入信号的记录装置和至少一个用于播放输出信号的播放装置。至少一个记录装置经由输入接口以数据传输的方式与信号处理装置连接。至少一个播放装置经由输出接口以数据传输的方式与信号处理装置连接。系统具有上文讨论的信号处理装置的优点。

根据系统的一个优选方面，系统包括至少一个听力装置。这种系统也被称为听力装置系统。优选地，至少一个听力装置包括至少一个记录装置和至少一个播放装置。如上所述，本创新技术意义上的听力装置可能包括助听器、听力植入物，尤其是耳蜗植入物和/或听觉脑干植入物，和/或可听戴设备。在此，听力装置可以包括一个、两个或更多输出装置，尤其是扩音器，尤其是微型扩音器或耳机。这种输出装置被称为接收器。

根据另一个方面，系统可以包括两个或更多听力装置。

在听力装置系统的情况下，信号处理装置可以被结合在至少一个听力装置中的至少一个中，尤其是在至少一个听力装置中的每一个中。替代地，信号处理装置可以与至少一个听力装置分开。尤其是，至少一个听力装置可连接到信号处理装置。至少一个听力装置和信号处理装置之间的连接优选地是无线数据连接。由于尺寸小，听力装置在计算能力和/或电池容量方面往往是有限的。使用外部装置作为信号处理装置克服了这些缺点。也可以采用某种分布式处理。尤其是，可以将一个或多个神经元网络的一些部分集成在至少一个听力装置中，并且将一个或多个神经元网络的另一部分结合在外部装置中。这种分布式处理使得在本地，即在听力装置中可以执行一些音频处理。外部装置(例如移动装置，尤其是移动电话或虚拟装置，例如可以托管多个神经元网络以便尤其执行部分音频处理并将部分处理的音频信号提供给听力装置的云)的部分处理是可以特别灵活的并进而改善选择性信号增强，尤其是具有低时延。

在由神经元网络对音频信号进行外部处理的情况下，处理可以在移动装置上执行，尤其是在移动电话或外部麦克风上或在托管多个神经元网络以便执行音频处理和/或提供处理后的音频的云上执行。由用户佩戴的听力装置组件，尤其是靠近耳朵的听力装置组件，传输音频信号并接收处理后的音频，这尤其是经由低时延连接(例如标准蓝牙、改进蓝牙，例如Roger、3G、4G或5G)进行。在本文中，Roger是指麦克风可以用来实现更好的音频传输的无线通信协议。该协议的细节可以在WO2011/098140中找到，其内容通过引用并入本文。

在由被结合到听力装置中的神经元网络对音频信号进行内部处理的情况下，这种听力装置托管最合适的神经元网络或多个最合适的神经元网络或通常而言的一个或多个神经元网络并在本地执行音频处理。可根据请求向听力装置提供与移动装置或托管多个神经元网络的云的连接。

根据系统的一个优选方面，至少一个听力装置包括至少一个传统音频处理器件，例如数字信号处理器(DSP)和/或盲源分离例程。优选地，用于对至少一个听力装置进行音频处理的至少一个传统音频处理器件可能被用于至少临时地替换由单独的信号处理装置进行的音频处理。尤其是，至少一个传统音频处理器件可能用于至少临时地替换使用至少一个神经网络，尤其是第一和第二神经网络进行的音频信号处理。例如，当信号处理装置关闭或以其他方式未连接到至少一个听力装置时，输入信号可能由至少一个听力装置的至少一个传统音频处理器件处理。进一步地，至少一个传统音频处理器件可以替换至少一个神经网络，尤其是第一和第二神经网络进行的音频处理以节约能源。这在不需要使用第一和第二神经网络的高质量音频信号处理的情况下(例如在安静的环境中，或作为后备选项)是特别有利的。

信号处理装置可能通过任何类型的合适的数据连接连接到记录装置和播放装置，尤其是连接到至少一个听力装置。优选地，数据连接是无线的。例如，数据连接可能基于标准或修改的蓝牙协议或者基于3G、4G或5G协议。无线数据连接可能优选地用专有协议来实现。示例性专有协议是峰力股份公司(Phonak AG)的Roger协议。其他示例性专有协议可能是通过修改蓝牙协议来实现的蓝牙低功耗协议。专有协议确实具有允许达到比标准协议可以实现的音频延迟更低的音频延迟的优点。

播放装置尤其是如在听力装置中使用的扬声器，优选地是耳机，特别优选地是耳塞式耳机。

至少一个记录装置尤其是麦克风。优选地，提供多个物理上分离的麦克风。例如，两个听力装置可能分别配备有一个麦克风。附加地，可以使用其他麦克风，例如在移动电话上的麦克风，无线麦克风和/或手表，尤其是智能手表。替代地或附加地，也可以使用其他麦克风。例如，其他麦克风可以耦合到信号处理装置，尤其是耦合到包括信号处理装置的移动电话。优选地，可能设计另外的麦克风以在360°的区域中接收到声音。此外，这种附加装置也可以用于听力装置和信号处理装置之间的数据连接。甚至在使用第一神经网络进行调节之前，音频信号就可以定位在空间中。这已经允许获取关于音频信号的大量信息。这提高了系统的准确性。

根据系统的一个优选方面，至少一个信号处理装置是移动装置的形式，尤其是移动电话的部分的形式。这确保了系统，尤其是听力装置系统的高度灵活性。现代的移动电话具有高水平的计算能力和蓄电池容量。这允许系统在较长的时间内自主运行。而且，本实施例的优点是可以使用用户以任何方式携带的硬件来实现该系统。不需要额外的装置。

呈现为移动电话的部分的信号处理装置可能由移动电话的组件来实现。特别优选地，这涉及借助于正在移动电话上执行的软件(例如以应用程序的形式)而正被使用的移动电话的正常硬件组件。例如，至少一个第一神经网络和至少一个第二神经网络，尤其是联合神经网络形式的至少一个第一神经网络和至少一个第二神经网络，可以在移动电话的人工智能芯片上执行。在其他情况下，移动电话可以包括专门为信号处理装置设计的硬件组件。

根据本创新技术的另一个有利方面，信号处理装置包括无线麦克风。它也可以内置到包括外部麦克风和无线发射器的单独的装置中。示例性无线麦克风是听力受损者用来提高对噪音和远距离语音理解的助听装置，例如由峰力股份公司制造的Roger Select麦克风。无线麦克风可以根据运行复杂神经网络的需要配备有足够的计算能力和电池容量，这可能使用专门用于神经网络执行的协处理器。这允许听力装置系统的独立运行，尤其甚至是信号处理装置的计算复杂的运行。此外，其优点是听力装置系统可通过听力受损用户携带的任何硬件来实现。不需要额外的装置。此外，优点是，归功于根据本创新技术所述的功能划分，用户可以将移动电话的计算能力完全用于其他活动，而系统进行的音频信号处理不受限制。

根据本创新技术的另一个有利方面，系统为模块化设计。这确保了根据各个用户偏好来灵活地定制系统。系统的单个组件可以被替换，尤其是在出现故障时被替换。例如，一个或多个听力装置可以与安装有合适软件的任何移动电话组合。

本创新技术的另一个目的是提供一种改善的用于处理音频信号的方法。

通过具有在权利要求16中规定的步骤的方法来实现该目的。首先，提供根据本创新技术所述的信号处理装置。此外，提供输入信号。例如，这可以借助至少一个记录装置来实现。输入信号经由输入接口供给到信号处理装置。至少一个第二神经网络被用于从输入信号中分离单个或多个音频信号。从输入信号中分离的音频信号的数量是可变的。对于每个分离的音频信号而言，确定优先级参数。根据各个优先级参数，调制每个音频信号。随后，经调制的音频信号被组合以产生经由输出接口输出的输出信号。输出信号尤其被提供给接收器。在此，信号传输可以是有线或无线。它尤其可以使用专有的信号传输协议。这可以增强低时延信号传输。

优选地，输入信号可以最初通过使用准备步骤被调节。如上面已经结合信号处理装置所解释的那样，准备步骤可以常规地和/或通过使用至少一个神经调节网络来实现。至少一个调节网络也被称为第一神经网络。根据本发明的方法所述的用于分离音频信号的至少一个神经网络也被称为第二神经网络。

音频信号的单个或多个实例的分离允许在该方法中有利地单独调制音频信号。这允许对单个音频信号进行独立定制，这些音频信号可以针对各个用户被单独定制。优先级参数优选地是连续的，以便可以根据各个音频信号的相关性和/或用户的偏好来连续定制调制。例如，优先级参数可以在0和1之间。最低的相关性然后将属于具有优先级参数0的音频信号，这些音频信号被完全拒收。最高优先级将属于具有优先级参数1的音频信号，这些音频信号将产生音频信号的最大增益。替代地，优先级参数也可能是离散的，从而将不同的音频信号归成不同的类别。

根据本创新技术的一个方面，优先级参数是仅根据音频信号的物理参数来确定的。不需要分析音频信号的内容，尤其是语义内容来确定优先级参数。然而，这种语义分析也是可行的。

根据方法的一个有利方面，分离的音频信号被分类。这要理解为是指音频信号被归类成对应于音频信号各个类型的不同组。优选地，如上所述，针对一个特定类型的音频信号定制至少一个第二神经网络。以这种方式定制的第二神经网络优选地将各个类型的音频信号从输入信号中分离。以此方式，通过使用至少一个神经网络对音频信号的分离执行对分离的音频信号的隐含分类。然而，分类也可以在分离之后进行，例如借助于异步分析的音频信号和/或与其他的用户特定数据相结合的音频信号进行。

特别优选地，音频信号不仅被分类而且被识别。这样，例如不仅可以识别音频信号的类型而且可以识别音频信号的特定源。这样，至少一个第二神经网络首先可以用于将音频信号隐式分类为说话声音。然后，分离的音频信号的分析，例如借助于与存储在数据存储器中的已知音频信号的比较，可以识别相应的说话者。

根据方法的另一个有利方面，针对用户特定数据、系统参数、输入信号和/或之前已经被分离的输入信号来自动定制从输入信号中分离的音频信号的数量。优选地，对分离的音频信号的类型的选择是自动定制的。分离的音频信号的数量和/或类型的选择的定制尤其可以借助用于分离的第二神经网络的数量和类型的自动定制来实现，如已经参考信号处理装置所描述的那样。替代地，从输入信号中分离的音频信号的数量的定制也可以借助来自用于分离音频信号的一个或多个第二神经网络的输出的变动来实现。对分离的音频信号的数量和/或选择的定制允许分离的音频信号根据他们各自的相关性被选择性地调制。然后可以灵活地组合所选择的音频信号以产生输出信号。

根据本创新技术的另一个有利方面，用户可以影响分离的音频信号的数量和/或类型。用户的影响可以例如通过借助用户接口的输入来施加，如已经结合信号处理装置所描述的那样。例如，可以向用户显示从输入信号中分离的音频信号。然后用户可以选择不同的音频信号。用户的选择可以覆盖自动设置。

优选地，优先级参数的确定相对于方法的其他步骤异步进行。优先级参数的确定可能需要对分离的音频信号的进一步分析。优先级参数的异步确定确保了所述确定不会减慢音频信号的调制以及输出信号的输出。音频信号的调制和输出信号的输出可以毫无延迟地进行。用户实时听到调制的音频信号。这提高了方法执行的安全性和准确性。

优先级参数的异步确定是指优先级参数被逐步定制。定制可以以固定的时间间隔或以动态可定制的时间间隔进行。这可以取决于各自的使用情况。例如，如果输入信号，尤其是输入信号包含的音频信号，和/或优先级参数可以经常且快速地改变，例如当用户参与道路交通时，定制将在短周期内发生。另一方面，如果优先级参数不发生变化，例如当看电视时，定制将在更长的周期内发生。定制可以多达每5毫秒一次。定制也可以仅每秒一次。优选地，定制至少每10分钟一次。定制率可以在每5毫秒一次和每10分钟一次之间变化，优选是动态地变化。替代地或附加地，可以在特定信号的检测上进行定制。这种信号可能是喇叭或信号词，例如“你好”。

特别优选地，也可以基于用户特定数据和/或已经分离的音频信号来定制方法的其他步骤。例如，输入信号的常规调节可以基于输入信号包含的音频信号的数量进行。

根据方法的另一个有利方面，优先级参数的确定基于用户特定数据、用户偏好和/或各个音频信号的信息内容进行。

例如，用户特定数据(例如用户的位置或移动模式)可以用于确定用户的周围环境。根据周围环境，确定不同的优先级参数。例如，如果用户参与道路交通，则源自机动车辆的音频信号被放大，其中来自其他道路用户的音频信号的听觉检测与安全相关。但是，如果用户不参与道路交通，例如坐在人行道咖啡馆中，这些声音会被拒收。

用户信息允许关注用户的偏好，例如特别显著地放大特定的人，同时可以选择性地拒收干扰用户的其他声音。基于各个音频信号的信息内容确定优先级参数是特别有利的。例如，喇叭或叫声“小心！”可以被放大，以吸引用户的注意力，尤其是在危险情况下。为了能够确定音频信号的信息内容，例如可以转录音频信号，并且可以评估转录的内容。

根据方法的另一个有利方面，从输入信号中分离的音频信号被改善，尤其是被增强。尤其是，将一个或多个音频信号去噪。音频信号的质量提高，输出信号的质量随之提高。通过至少一个神经网络，尤其是至少一个第二神经网络，可以有利地实现声音增强，尤其是去噪。例如，由劣质麦克风造成的噪声可能不从带有音频信号的输入信号中分离。因此，无论使用何种麦克风，音频信号都具有高质量。附加地或替代地，也可以在各个分离之后调节音频信号。这可以通过使用其他神经网络和/或过滤器来完成。由音频信号组合而成的输出信号具有高质量。尤其是，当在听力装置系统中执行方法时，用户可以以听觉上简单且可靠的方式检测输出信号包含的音频信号。包含说话声音的音频信号清晰可辨。

根据方法的一个优选方面，一个或多个音频信号的调制包括一个或多个音频信号的至少部分的放大或增强和/或频率变换和/或清理。例如，可以通过各种增益模型来实现放大。频率变换可用于将听不见的频率(例如高频率)变换成听得见的频率(例如较低频率)。这对于可能包括某些人，尤其是听力受损者或老年人听不见的高频分量的语音信息是特别有利的。

附图说明

本创新技术的其他细节、特征和优点可从基于附图的示例性实施例的描述中获得，其中：

图1示出了用于处理音频信号的系统的示意图，

图2示出了通过使用图1中所示的系统来处理音频信号的示意性方法序列，

图3示出了图2中所示的方法的准备步骤示意图，

图4示出了图2中所示方法的分离步骤的示意图，以及

图5示出了用于处理音频信号的系统的另一实施例的示意图。

具体实施方式

图1示意性地示出听力装置系统1形式的用于处理音频信号的系统。听力装置系统1包括可以佩戴在用户的左耳和右耳上的两个听力装置2、3。此外，听力装置系统1具有信号处理装置4。信号处理装置4是移动装置5的部分。在示例性实施例中，移动装置5是移动电话。这意味着信号处理装置4由移动电话形式的移动装置5的组件实现。在示出的示例性实施例中，信号处理装置4借助于执行合适软件(该软件例如可以作为应用程序安装在移动电话5上)的移动电话5的组件来实现。信号处理装置4因此使用移动电话5的硬件，由信号处理装置使用的硬件组件以图1中虚线界定的方式示出。听力装置系统1是模块化设计。可以使用不同的移动电话来实现信号处理装置4。也可以仅将听力装置2、3中的一个听力装置耦合到信号处理装置4。

在其他未示出的实施例中，可以在移动电话中提供单独的硬件组件用于实现信号处理装置4。在其他未示出的示例性实施例中，信号处理装置4在其他移动装置5上实现，例如在智能手表或无线麦克风上。信号处理装置4也可以直接集成在听力装置2、3中的一个听力装置中。

听力装置2、3分别具有麦克风6和扬声器7。听力装置2、3分别经由无线数据连接8连接到移动电话5。在示出的示例性实施例中，数据连接8是标准的蓝牙连接。为此，移动装置5和听力装置2、3分别具有蓝牙天线9。

在其他示例性实施例中，也可以使用其他类型的数据连接。数据连接的示例性类型包括专有数据连接协议，例如峰力股份公司的Roger协议或基于蓝牙协议修改的专有协议。数据连接尤其也可以经由附加装置进行。

信号处理装置4具有第一神经网络10和多个第二神经网络11。图1以示例方式示出了两个第二神经网络11。然而，如下文将描述的，第二神经网络11的数量可以变化。第一神经网络10和第二神经网络11按顺序排列，即来自第一神经网络10中的输出作为第二神经网络11的输入。第一神经网络10和第二神经网络11是通过使用信号处理装置4执行的联合神经网络的部分。如上所述，信号处理装置4由移动电话5的组件实现。因此，在示出的示例性实施例中，神经网络10、11在移动电话5的计算单元12上执行。移动电话5的计算单元12具有人工智能芯片，借助人工智能芯片可以特别高效地执行神经网络10、11。例如，人工智能芯片具有2teraflop或更多teraflop。

此外，信号处理装置4具有用于接收输入信号的输入接口13和到输出信号的输出位置的输出接口14。此外，提供数据存储器15，其可用于存储与过程相关的数据。另一数据接口16也可以用于将存储在数据存储器15中的数据存储在外部存储器17中。已经发现，云存储器特别适用于外部存储器17。数据接口16可能尤其是移动电话网络或WLAN接口。此外，信号处理装置4具有用户接口18。例如，用户接口18可用于借助于正在显示器上显示的所述数据将数据输出给用户。此外，用户接口18可以用于将用户输入例如经由移动电话5的触摸屏(未示出)传递给信号处理装置4。

移动电话5具有连接到输入接口13的至少一个另外的麦克风19。此外，计算单元12连接到移动电话5的另外的传感器20。这样，信号处理装置4可以访问例如通过使用GPS传感器确定的位置数据和/或通过使用运动传感器确定的用户的运动数据。

数据存储器15和外部存储器17是非暂时性计算机可读介质。在示例性实施例中，神经网络10、11存储在数据存储器15上。此外，神经网络10、11可能存储在外部存储器17上。计算单元12可以访问数据存储器15和/或外部存储器17。计算单元12可以执行神经网络10、11。

在示例性实施例中，第一神经网络10包括一维卷积层和两个分别具有1024和512个单元的LSTM层。因此可以将输入信号放入一个新的、更紧凑的表示中。层之间的跳跃连接还允许访问原始输入信号和所有中间结果。第二神经网络11具有两个分别具有265和128个单元的LSTM层。第二神经网络11的LSTM层后面是两个分别具有128个和64个单元的完全链接的层以及一个一维卷积层。在其他示例性实施例中，神经网络10、11可以具有不同数量的层和/或单元或者可以具有完全不同的结构。用于神经网络的架构对于将音频信号从输入信号中分离并不重要。

神经网络10、11用于从输入信号中分离单个的音频信号。在这种情况下，第一神经网络10用于调节包括不同音频信号的输入信号，使得第二神经网络可以执行将音频信号从输入信号中的高效分离。无论各个输入信号的形式如何，都会进行调节。因此，无论输入信号如何，始终使用相同的第一神经网络10。这是特别高效的。输入信号包括通过使用麦克风6、19连续记录的最后几毫秒的音频数据。对于音频数据每秒16000次采样的速率，输入信号包括每通道大约128次采样。输入信号以二维张量(矩阵)的形式进行处理，列数代表通道数并且行数代表采样次数。以16位的分辨率处理信号，这提高了效率，而不显著影响语音质量。输入信号首先在第一神经网络11中通过一维卷积层被转换，并借助LSTM层被调节。

针对特定类型的音频信号(例如说话声音或交通噪音)的检测和分离来分别定制第二神经网络11。因此，基于要从输入信号中分离的各个音频信号来选择第二神经网络11。为此，信号处理装置4具有多个针对不同类型的音频信号而定制的第二神经网络。因此，第二神经网络的数量和组成随着各个输入信号而变化，这将在后面详细描述。

第一神经网络10和第二神经网络11一起形成联合网络。在这种情况下，第一神经网络10形成联合神经网络的主体，联合神经网络用于完成不断发生的相同任务。第二神经网络11形成能够根据情况替换的联合神经网络的轮替头部。因此，在不限制音频信号的分离的灵活性的情况下，在第一神经网络10和第二神经网络11之间产生特别高效的组合。可变的第二神经网络11与第一神经网络10的组合尤其确保音频信号分离的连续度。由于信息存储在第一神经网络10中，因此避免了由于一个或多个第二神经网络11被改变而造成的信息丢失。这是特别有利的，这是因为输入信号仅包括几毫秒。LSTM架构可用于在第一神经网络11中存储关于较长时段记录的音频数据的信息。即使在替换第二神经网络之后，该信息随后也可被传递到新的第二神经网络。可以基于存储的信息以最佳方式启动新的第二神经网络。

信号处理装置4增强由神经网络10、11检测和分离的音频信号。通过将音频信号从输入信号和包含在输入信号中的噪声中分离，通过第二神经网络11对音频信号去噪。附加地，信号处理装置4还可能进一步清理音频信号，例如通过使用存储在数据存储器15和/或外部存储器17上的并且由计算单元12执行的清理例程来进行。信号处理装置4增强分离的音频信号的声音质量。

参见图2至图4，使用特定的示例来详细描述单个音频信号的分离。为此，如图2所示，将因此所需的单个步骤划分为功能步骤，而不管其可用的硬件组件如何。

在图2所示的情况下，听力装置系统1的用户面对不同的声源。以示例方式示出的是与听力装置系统1的用户谈话的说话者A。此外，两个正在谈话的路人B1和B2在听力所及范围内。此外，可以听到汽车C和直升机D。

在记录步骤21中，通过使用听力装置3的麦克风6和移动电话5的麦克风19来记录和数字化由声源发出的声音G。数据连接8用于将借助于麦克风6记录和数字化的声音传输给移动电话5。通过使用麦克风6和麦克风19确定的声音被组合成输入信号E(针对每个麦克风6、19，输入信号E包含通道E1、E2、E3)并且被传输给信号处理装置4的输入接口13。在示出的示例性实施例中，信号处理装置4使用移动电话5的一些组件，由信号处理装置使用的组件通过虚线界定。输入信号E在准备步骤22中被调节。准备步骤22在图3中详细示出。输入信号E包含对应于不同麦克风6、19的通道E1、E2、E3。首先，输入信号E在常规准备23期间被调节。例如，可以将输入信号E的不同通道E1、E2、E3作为实现不同音频信号的预分类的基础，例如借助于基于不同的、已知的麦克风位置来确定的相对位置进行。此外，在常规调节23中，将输入信号E的单个通道E1、E2、E3归一化并组合成包括所有通道E1、E2、E3的标准输入信号E'。联合输入信号E'是所有记录声音的标准化表示。联合输入信号E'用作第一神经网络10的输入信号。图3中仅示意性示出第一神经网络10。第一神经网络10调节联合输入信号E'以进一步分离E'中单个的音频信号。经调节的输入信号由第一神经网络10以张量T的形式输出。当张量T被输出时，准备步骤22结束。单个的通道E1、E2、E3包含各个声源的音频信号的不同混合。

准备步骤22之后是分离步骤24。分离步骤24在图4中详细示出。在分离步骤24中，通过使用第二神经网络11分离单个的音频信号。在图4中仅示意性示出第二神经网络11。在示出的示例性实施例中，为此使用了两个不同的第二神经网络11。这涉及在准备步骤22中通过使用最初在复制步骤25中根据第二神经网络11的数量被复制的第一神经网络10而确定的张量T。这确保在分离步骤24中使用的所有第二神经网络11设置有相同的输入，即张量T。换言之，由第一神经网络10确定的张量T被传递给所有第二神经网络11。在分离步骤24中使用的两个第二神经网络11针对不同类型的音频信号被定制。每个第二神经网络输出特定数量的输出。输出数量对于每个第二神经网络11是恒定的，但是对于第二神经网络11的不同实例可能不同。在示出的示例性实施例中，所使用的两个第二神经网络11分别输出三个输出。

在图4上部示出的第二神经网络11专用于说话声音的检测和分离。该网络将分别为对话者A和其他路人B1和B2检测张量T包含的音频信号a、b1、b2，并将它们从张量T中分离。在上部示出的第二神经网络11的输出因此对应于对话者A和其他路人B1和B2的音频信号。

在图4底部示出的第二神经网络11专用于交通噪声的检测和分离。该网络将分别为汽车C和直升机D检测张量T包含的音频信号c和d，并将它们输出为音频信号。由于每个第二神经网络11的输出数量固定，底部示出的第二神经网络11也将对张量T包含的另一音频信号进行分离和输出。在示出的示例中，这是由路人B1发出的说话声音。

由于针对不同类型的音频信号定制不同的第二神经网络11，因此第二神经网络优选地将各个类型的音频信号，例如音频信号，从特定类型的声源(例如汽车或对话者)中分离。通过使用第二神经网络11进行的分离因此将音频信号根据它们各自的类型，尤其是它们各自的来源进行分类。因此，通过使用第二神经网络11对音频信号进行的分离已经允许得出关于各个音频信号的类型的结论。

第二神经网络11不仅用于分离而且用于改善音频信号。例如，源自劣质麦克风6、19的噪声不会与音频信号一起从输入信号中分离。对音频信号去噪并且增强声音质量。无论使用何种麦克风6、19，信号处理装置都允许音频信号的高质量水平。当单个音频信号被输出时，分离步骤24结束。

在分离音频信号的进一步处理之前，在合并步骤26中所述音频信号检查重复。如果来自第二神经网络11的输出的单个实例包含相同的音频信号，则合并这些输出。在示出的示例性实施例中，这涉及路人B1的语音，其包含来自第二神经网络11的两个输出。在合并步骤26之后，每个音频信号都是独一无二的。

合并步骤26之后是调制步骤27。在调制步骤27中，音频信号被调制，即单个音频信号被放大或拒收。通过使用与每个音频信号相关联的优先级参数来做出关于哪个音频信号被放大或拒收的决定。优先级参数可以是介于0(对应于各个音频信号的最大拒收值)和1(对应于各个音频信号的最大放大值)之间的值。

在调制步骤27中，可以使用增益模型放大音频信号。此外，可能使用频率变换来调制音频信号。例如，用户听不到的高频分量可能会被变换成较低的、可听的频率。合适的增益模型和/或频率模型可能由存储在数据存储器15上的以及根据需要由计算单元12访问并执行的各个算法并入。算法可能附加地或替代地存储在外部存储器17上并且根据需要由计算单元12访问和执行。

优先级参数的关联在异步分类步骤28中相对于方法的其他步骤异步进行，如下文所述。为每个分离的音频信号异步确定优先级参数的优点是调制步骤27中的调制毫无延迟地进行。因此，在分离步骤24中分离的音频信号据推测可以基于各个优先级参数毫无延迟地被调制。调制的音频信号在输出步骤29中被组合成输出信号O并通过使用信号处理单元4的输出接口14被输出。在示出的示例性实施例中，这意味着输出信号O通过使用输出接口14被传递给移动电话5的蓝牙天线9并且从所述移动电话被传输给听力装置2、3。听力装置2、3通过使用扬声器7播放输出信号O。为了生成立体声信号，输出信号O包含两个通道，该两个通道形成基于在常规调节23中确定的声源方向而适用的立体声信号。在播放步骤30中，输出信号O包含的通道通过使用适用的扬声器7被播放并且用户是可以听得到的。

在其他示例性实施例中，输出信号O被输出为仅具有一个通道的单声道信号。这种输出信号是特别高效且实用的。

下面以示例性方式描述优先级参数的关联。优先级参数的关联发生在异步分类步骤28中。优先级参数基于用户特定的规定、其他用户特定数据和/或与已知音频信号的比较来确定。例如这可以涉及正用于确定移动电话5的传感器20的传感器数据的传感器读取步骤31。此外，可以使用用户输入读取步骤32来经由用户接口18读取用户输入。数据比较步骤33可用于将经由音频信号确定的数据与关于已经存储在内部数据存储器15和/或外部存储器17中的已知音频信号的信息进行比较。

在图2所示的情况下，与单个音频信号相关联的优先级参数的确定将采用以下形式，例如：

例如，听力装置系统1的用户已经在与对话者A进行主动对话。在异步分类步骤28中，相关联的音频信号a被检测为说话声音，并且可以与对话者A的典型的并保存在数据存储器15中的已知语音模式进行比较。音频信号a被识别为正与对话者相关联并且基于其与听力装置系统1的用户的相关性被归类为是重要的。因此，给音频信号a分配高优先级参数。在异步分类步骤28期间，与两个路人B1、B2相关联的音频信号b1、b2也被检测为说话声音。然而，路人B1、B2对于听力装置系统1的用户是未知的。与存储在数据存储器15中的已知语音模式的比较失败。随后，给音频信号b1、b2分配低优先级参数，从而拒收这些音频信号。然而，如果两个路人中的一个路人参与到与听力装置1的用户的谈话，则可以重新评估其音频信号。例如，这可以借助于正被检测的谈话中的参与而自动发生。这可以涉及评估信号词(例如“你好”或“抱歉”)和/或语音中的停顿的信号处理装置4。此外，可以创建检测到的语音信号的转录并对其内容进行评估。信号处理装置4能够学习并根据用户的器件自动对自己进行定制。附加地，听力装置系统的用户还可以使用移动电话5上的输入，该输入在用户输入读取步骤32中被读取，以将更高的优先级参数分配给各个路人。例如，这可以借助于在移动电话的显示器上正向用户显示的单个的分离的音频信号进行。然后，用户可以借助触摸输入选择要优先处理的各个音频信号。用户输入可以覆盖系统的自动定制。然后在数据比较步骤33中，适用的路人的语音模式可以作为已知的音频源保存在数据存储器15中。

汽车C的音频信号c被检测为靠近听力装置系统1的用户而移动的机动车辆。取决于关于用户的位置和/或移动的哪些其他数据通过使用传感器读取步骤31来确定，与音频信号c相关联的优先级参数可以变化。例如，如果位置测试和移动模式的结果是用户坐在人行道咖啡馆中，则汽车C的音频信号c通常对用户没有任何意义。因此分配低优先级参数。然而，如果用户在道路交通中移动，则移动车辆的听觉检测与在道路交通中的安全参与相关。在这种情况下，给音频信号c分配较高的优先级参数，从而用户可以检测到正接近的机动车辆。

直升机B的情况不同。其音频信号d通常与参与道路交通的安全无关。因此，在异步分类步骤28中，给音频信号d分配低优先级参数。然而，在这种情况下，用户也可以借助合适的用户输入来定制优先级参数。

在异步分类步骤28中对音频信号的识别不仅仅用于模拟单个音频信号的优先级参数。在异步分类步骤28中获得的关于音频信号的信息还用于改善在准备步骤22中的所述音频信号的调节以及在分离步骤24中的所述音频信号的分离。为此，异步分类步骤28经由调节反馈回路34耦合到准备步骤22。调节反馈回路34用于将在异步分类步骤28中获得的信息传递到准备步骤22以用于随后检测到的输入信号。该信息与听力装置系统1的用户的周围环境以及先前分离的音频信号的数量和质量有关。基于该信息，可以定制常规调节23，这例如借助针对音频信号的数量而正被定制的输入信号的标准化进行。

分离反馈回路35用于将在异步分类步骤28中为音频信号确定的信息传输到分离步骤24以用于随后记录的输入信号E。如上所述，用于分离步骤24的第二神经网络11是可替换的。这意味着可以在分离步骤24中使用多个不同配置的或不同专用的第二神经网络11。每个不同的可用的第二神经网络11针对不同类型的音频信号被定制。经由分离反馈回路35传输的信息可以在网络选择步骤36中用于选择要用于分离步骤24的第二神经网络11。网络选择步骤36可以用于替换全部或一些用于分离步骤24的第二神经网络。此外，所使用的第二神经网络11的数量可以变化。分离反馈回路35可用于将例如合并步骤26之后剩余的音频信号的数量传输给准备步骤24。由于每个不同的第二神经网络11输出固定数量的输出，即固定数量的单个音频信号，关于网络数量的信息可用于定制用于分离步骤24的第二神经网络11的数量。可能有其他声源(例如电车或其他行人)对输入信号有贡献，这可能需要增加用于分离步骤24的第二神经网络11的数量。此外，网络选择步骤36可用于根据移动电话5的参数来定制用于分离音频信号的第二神经网络11的数量。例如，如果所述移动电话的蓄电池荷电状态降到预定的极限值以下，可以减少第二神经网络11的数量，从而执行节能分离。然而，如果用户处于具有许多不同音频信号的情况下，并且希望尽可能最准确地分离，则用户可以借助移动电话5上的适当输入来逆转第二神经网络11的数量上的减少。在网络选择步骤36中，所使用的第二神经网络11的数量也可以根据各个可用的计算能力被定制。例如，移动电话5上的计算单元12可能被其他计算操作占用，从而减少第二神经网络11的数量。这确保信号处理装置不会限制用户将移动电话5用于其他目的。

此外，异步分类步骤28还可以用于检查分离的质量，并根据确定的质量借助分离反馈回路35检查第二神经网络11的定制选择。为了确定质量，可以在较长的时段内测量分离音频信号的单个实例的音量。这可以通过使用均方根(也称为RMS)和/或借助于其他特性(例如音频信号的最大音量)来实现。

此外，可以基于异步分类步骤28中的音频信号的分类来选择第二神经网络11。因此，保证对各个音频信号具有最佳定制的第二神经网络11分别用于后续输入信号的音频信号的分离。在图2所示的示例性实施例中，例如听力装置系统1的用户可能进入火车站。当检测到这一点时，例如基于对GPS数据的评估，专用于道路交通的第二神经网络11可以用专用于火车站声音的第二神经网络11代替。专用于火车站声音的第二神经网络11例如可用于拒收正到达列车的音频信号，例如与列车延误有关的火车站公告被放大。

调节反馈路径34和分离反馈路径35确保针对听力装置系统1的用户的相应声音场景和环境而定制信号处理装置。信号处理安装是自适应的。

异步分类步骤28中的音频信号的分类，尤其是其与其他传感器数据和/或存储在数据存储器15中的信息的比较，相对于方法的其他步骤异步进行。这确保分离步骤24中音频信号的分离和调制步骤中音频信号的调制实时进行，而异步分类步骤28中的分类根据音频信号以及其他数据的复杂性在特定时段内进行。例如，说话者的语音模式与存储的语音模式的比较首先需要语音信号的特定序列被记录和分析。然后，优先级参数以及准备步骤22和分离步骤24的定制逐步进行。定制的频率可以取决于移动电话5的硬件组件和/或与周围环境有关的情况。这样，例如在道路交通(其中声音场景可以经常改变)中的优先级参数的定制例如与在观看电视时相比以显著更高的速率进行定制是必要的。定制可以多达每5毫秒一次。定制至少每10分钟一次。在这些限制参数之间，定制速率可以动态变化。

在所示的示例性实施例中，连续地确定每个音频信号的优先级参数。因此，可以根据各自的情况对单个音频信号的相关性进行连续评估。在其他示例性实施例中，优先级参数还可以允许将各个音频信号分类为不同的离散类别。

在示例性实施例中，各个第二神经网络11分别具有特定数量的输出。对于每个输出，输出从输入信号E中分离的音频信号。这样，例如图4底部示出的专用于分离的第二神经网络11也输出路人B1的语音信号b1。在其他示例性实施例中，训练第二神经网络使得它们分别仅输出它们专用类型的音频信号。在图2中以示例方式示出的情况下，专用于交通噪声的第二神经网络将不会输出语音信号b1，而只输出直升机D和汽车C的音频信号d、c。未分配的、多余的第三输出然后将输出对应于不包含声音或静音的音频信号的空白信号。由用于分离的第二神经网络生成的空白信号的数量被信号处理装置用作输入信号包含的音频信号的数量的量度。如果信号处理装置检测到用于分离的第二神经网络的很多输出包含空白信号，则可以减少用于分离的第二神经网络的数量。这样，例如，听力装置系统的用户可能从街道进入房屋。然后，用于检测交通噪音的第二神经网络将只输出空白信号并且可能会被停用。这允许高效且节能地分离音频信号。

在其他示例性实施例中，来自每个第二神经网络的输出包含剩余信号，该剩余信号包含输入信号减去通过使用相应的第二神经网络分离的音频信号。因此，在不同情况下，剩余信号对应于通过使用相应的第二神经网络未从输入信号中分离的所有音频信号的和。在图2中以示例方式示出的情况下，专用于交通噪声的第二神经网络将因此输出汽车C和直升机D的音频信号c、d。剩余信号然后将包括对话者A和路人B1、B2的语音信号a、b1，b2。信号处理装置使用各个剩余信号作为未分离的音频信号的量度。如果剩余信号仍然包括大量信息项，则信号处理装置增加第二神经网络的数量，由此从输入信号中分离出大量音频信号。在这种情况下，也可以通过检测其他系统参数(例如低蓄电池状态)来防止增加所使用的第二神经网络的数量。

图5示意性示出听力装置系统1a形式的用于处理音频信号的系统的另一实施例。上面已经参照图1至图4描述的组件具有相同的附图标记并且将不再进一步详细讨论。

听力装置系统1a包括两个听力装置2a、3a以及信号处理装置4。听力装置2a、3a和信号处理装置4的功能与关于图1至图4所描述的相同。听力装置2a、3a分别包括传统音频处理器件40。传统音频处理器件40包括数字信号处理器(DSP)和/或盲源分离例程。传统音频处理器件40可以使用听力装置领域中已知的传统方法来处理音频信号。在正常使用中，例如在关于图2至图4所描述的使用中，传统音频处理器件40被停用并且输入信号E由信号处理装置4使用神经网络10、11进行处理。传统音频处理器件40可以被启用，以替换由信号处理装置4进行的音频信号处理。在这种情况下，由听力装置2a、3a的麦克风6记录的输入信号E由相应的传统音频处理器件40处理。由扬声器7播放的输出信号O直接在听力装置2a、3a上由传统音频处理器件40计算。

当信号处理装置4关闭或以其他方式未与听力装置2a、3a进行数据连接时，传统音频处理器件40例如可以替换由信号处理装置4进行的音频信号处理。即使在用户不携带移动装置5、移动装置5关闭、电池耗尽或移动装置5不能用于音频信号处理的情况下，用户也可以依赖听力装置系统1a。传统音频处理器件40为可靠的音频信号处理提供后备选项。

还可以暂时使用传统音频处理器件40来替换神经网络10、11。这在不需要神经网络的高质量信号处理来获得足够结果的情况下尤其有用。例如，当用户处于只有少数声源的安静环境中时，传统音频处理可能就足够了。使用传统的音频处理器件40允许减少信号处理装置的功耗。在由传统的音频处理器件40或由神经网络10、11进行的音频信号处理之间的切换可能例如基于异步分类步骤28中对输入信号的分析和/或对音频信号的分类自动执行。用户还可以根据需要在传统音频处理和由神经网络10、11进行的音频处理之间切换。

在其他示例性实施例中，信号处理装置包括至少一个传统音频处理器件。例如，传统音频处理器件可能被并入例如数字信号处理器(DSP)和/或盲源分离例程形式的信号处理装置的计算单元中。在这些实施例中，信号处理装置可以从使用神经网络的音频信号处理切换到传统的音频信号处理。可能执行切换到传统音频信号处理，以暂时减少信号处理的计算需求和功耗。在一些实施例中，至少一个听力装置和信号处理装置分别包括至少一个传统的音频处理器件。

在又一示例性实施例中，包括信号处理装置4的移动装置5是无线麦克风。无线麦克风可用于记录至少部分输入信号。不需要将输入信号从听力装置2、3中传递到信号处理装置，这改善了时延。无线麦克风可由听力装置系统的用户放置以记录特定声音。例如，它可以放置在用户和一个或多个谈话伙伴之间的桌子上。

Claims

1.一种用于处理音频信号的信号处理装置，具有

1.1.用于接收输入信号(E)的输入接口(13)，

1.2.用于从所述输入信号(E)中分离一个或多个音频信号(a，b1，b2，c，d)的至少一个神经网络(11)，以及

1.3.用于输出输出信号(O)的输出接口(14)，

1.4.其中通过使用至少一个所述神经网络(11)而从输入信号(E)中分离的音频信号(a，b1，b2，c，d)的数量是可变的。

2.根据权利要求1所述的信号处理装置，其特征在于，所述信号处理装置(4)被配置为增强从所述输入信号(E)中分离的一个或多个音频信号(a，b1，b2，c，d)。

3.根据权利要求1或2所述的信号处理装置，其特征在于，设有多个神经网络(11)，其中每个所述神经网络(1)是针对特定类型的音频信号(a，b1，b2，c，d)来定制的。

4.根据前述权利要求中任一项所述的信号处理装置，其特征在于，并行使用至少两个所述神经网络(11)，以从所述输入信号(E)中分离所述音频信号(a，b1，b2，c，d)。

5.根据前述权利要求中任一项所述的信号处理装置，其特征在于，至少一个所述神经网络(11)是能替换的。

6.根据前述权利要求中任一项所述的信号处理装置，其特征在于，针对用户特定数据、系统参数、所述输入信号(E)和/或之前已经分离的音频信号(a，b1，b2，c，d)能够自动定制所述信号处理装置(4)。

7.根据前述权利要求中任一项所述的信号处理装置，其特征在于，设有用于接收用户输入和/或用于向用户输出信息的用户接口(18)。

8.根据前述权利要求中任一项所述的信号处理装置，其特征在于，设有至少一个数据存储器(15，17)，用于存储已知类型的音频信号(a，b1，b2，c，d)。

9.一种根据前述权利要求中任一项所述的信号处理装置的用途，用于至少一个听力装置的音频信号处理。

10.一种用于处理音频信号的系统，具有

10.1.至少一个根据权利要求1至8中任一项所述的用于处理音频信号(a，b1，b2，c，d)的信号处理装置(4)，

10.2.用于记录输入信号(E)的至少一个记录装置(6，19)，其中所述记录装置(6，19)经由所述输入接口(13)以数据传输的方式连接到所述信号处理装置(4)，以及

10.3.用于播放输出信号(O)的至少一个播放装置(7)，其中所述播放装置(7)经由所述输出接口(14)以数据传输的方式连接到所述信号处理装置(4)。

11.根据权利要求10所述的系统，其特征在于，所述系统是听力装置系统(1)。

12.根据权利要求11所述的系统，其特征在于，其包括用于传统音频处理的至少一个器件(40)。

13.根据权利要求10至12中任一项所述的系统，其特征在于，至少一个所述信号处理装置(4)是移动装置(5)的形式。

14.根据权利要求10至13中任一项所述的系统，其特征在于，至少一个所述信号处理装置(4)是移动电话、移动电话的部分或无线麦克风的形式。

15.根据权利要求10至14中任一项所述的系统，其特征在于，具有模块化设计。

16.一种用于处理音频信号的方法，具有如下步骤：

16.1.提供根据权利要求1至8中任一项所述的信号处理装置(4)，

16.2.提供输入信号(E)，

16.3.经由所述输入接口(13)将所述输入信号(E)供给到所述信号处理装置(4)，

16.4.通过使用至少一个所述神经网络(11)从所述输入信号(E)中分离一个或多个音频信号(a，b1，b2，c，d)，其中通过使用至少一个所述神经网络(11)而从所述输入信号(E)中分离的音频信号(a，b1，b2，c，d)的数量是可变的，

16.5.确定每个所述音频信号(a，b1，b2，c，d)的优先级参数，

16.6.基于各自的优先级参数调制每个音频信号(a，b1，b2，c，d)，

16.7.组合所述音频信号(a，b1，b2，c，d)，以产生输出信号(O)，

16.8.经由所述输出接口(14)输出所述输出信号(O)。

17.根据权利要求16所述的方法，其特征在于，将分离的所述音频信号(a，b1，b2，c，d)进行分类。

18.根据权利要求16或17所述的方法，其特征在于，针对用户特定数据、系统参数、所述输入信号(E)和/或之前已经分离的音频信号(a，b1，b2，c，d)来自动定制从所述输入信号(E)中分离的音频信号(a，b1，b2，c，d)的数量。

19.根据权利要求16至18中任一项所述的方法，其特征在于，用户能够影响分离的音频信号(a，b1，b2，c，d)的数量和/或类型。

20.根据权利要求16至19中任一项所述的方法，其特征在于，所述优先级参数的确定基于用户特定数据、用户偏好和/或各自音频信号(a，b1，b2，c，d)的信息内容进行。

21.根据权利要求16至20中任一项所述的方法，其特征在于，从所述输入信号(E)中分离的所述音频信号(a，b1，b2，c，d)被改善，尤其被增强。

22.根据权利要求16至21中任一项所述的方法，其特征在于，将从所述输入信号(E)中分离的一个或多个所述音频信号(a，b1，b2，c，d)去噪。

23.根据权利要求16至22中任一项所述的方法，其特征在于，对一个或多个音频信号(a，b1，b2，c，d)的调制包括对一个或多个音频信号(a，b1，b2，c，d)的至少部分的放大和/或频率变换。