CN111540375B

CN111540375B - 音频分离模型的训练方法、音频信号的分离方法及装置

Info

Publication number: CN111540375B
Application number: CN202010357087.3A
Authority: CN
Inventors: 邢照亮; 张卓; 陈新; 谢将剑; 张军国; 杨俊�
Original assignee: Beijing Forestry University; Global Energy Interconnection Research Institute
Current assignee: Beijing Forestry University; Global Energy Interconnection Research Institute
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2023-04-28
Anticipated expiration: 2040-04-29
Also published as: CN111540375A

Abstract

本申请提供了一种音频分离模型的训练方法、音频信号的分离方法及装置，其中，该方法包括：获取样本音频信号，每个样本音频信号具有对应的空间位置；对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征，将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，得到包括训练好的模型参数的音频分离模型。利用本申请中的音频分离模型，能够对存在声音混叠的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

Description

音频分离模型的训练方法、音频信号的分离方法及装置

技术领域

本申请涉及信号处理技术领域，具体而言，涉及一种音频分离模型的训练方法、音频信号的分离方法及装置。

背景技术

在一些森林或深山等野外场所中，存在较多的遮挡物，例如：数目、巨石、灌木丛等，无法通过观察等方式获取到野外场所中的存在动物的诸多状态，从而无法分析出野外场所中存在的动物种类、数量、栖息地等多种状态信息。

考虑到动物大多能够发出声音，并且声音不会因为遮挡物的存在而消失，故而，可以通过声音识别动物物种或个体等，进而判断出野外场所中存在的动物种类、数量、栖息地，甚至包括动物的年龄、性别、健康状态等多种状态信息。

但是，现有技术中，对森林或深山等野外场所中常见的多种动物及环境声音混叠背景下，动物的识别效果较差。有必要对混叠音频信号进行分离，对分离后的信号进行识别，以提高识别的准确率。现有的混叠信号分离方法或者需要已知信号源的数量、或者需要有纯净的声音来进行训练，难以适合野外环境的源信号分离，不利于基于声音获取野外动物的状态信息。

发明内容

有鉴于此，本申请实施例的目的在于提供一种音频分离模型的训练方法、音频信号的分离方法及装置，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

第一方面，本申请实施例提供了一种音频分离模型的训练方法，所述训练方法包括：

获取样本音频信号，每个样本音频信号具有对应的空间位置；

对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征；

将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型；

其中，所述音频分离模型用于基于所述样本音频信号输出的所述各个空间位置存在音频信号的概率，确定出所述各个空间位置存在的音频信号，并分离出多个所述音频信号。

一种可选的实施方式中，所述根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型，包括：

根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数；

基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型。

一种可选的实施方式中，所述获取样本音频信号，包括：

获取音频采集装置采集的样本音频信号；其中，所述音频采集装置包括第一音频采集装置和第二音频采集装置，所述第一音频采集装置和第二音频装置相邻设置；所述样本音频信号包括：第一音频采集装置采集的第一样本音频信号和第二音频采集装置采集的第二样本音频信号；所述音频分离模型包括第一网络和第二网络，所述第一样本音频信号用于训练所述音频分离模型的第一网络；所述第二样本音频信号用于训练所述音频分离模型的第二网络。

一种可选的实施方式中，所述根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数，包括：

根据所述音频分离模型的第一网络输出的各个空间位置存在音频信号的概率和每个第一样本音频信号对应的第一空间位置，确定所述第一网络对应的第一损失函数；

根据所述音频分离模型的第一网络输出的各个空间位置存在音频信号的概率和每个第一样本音频信号对应的第一空间位置以及所述音频分离模型的第二网络输出的各个空间位置存在音频信号的概率和每个第二样本音频信号对应的第二空间位置，确定第二损失函数；

根据所述第一损失函数和所述第二损失函数，确定所述音频分离模型对应的损失函数。

一种可选的实施方式中，所述基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型，包括：

基于所述音频分离模型对应的损失函数，更新所述音频分离模型中第一网络的第一模型参数，直至所述第一网络输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的第一模型参数；

基于所述音频分离模型对应的损失函数，更新所述音频分离模型中第二网络的第二模型参数，直至所述第二网络输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的第二模型参数；

将包括训练好的第一模型参数作为所述音频分离模型的模型参数，或者，将包括训练好的第二模型参数作为所述音频分离模型的模型参数。

第二方面，本申请实施例提供了一种音频信号的分离方法，所述分离方法包括：

获取目标混合音频信号；

对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征；

将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。

一种可选的实施方式中，所述获取目标混合音频信号，包括：

获取原始混合音频信号；

对所述原始混合音频信号进行分帧处理，得到多帧原始混合音频信号；

根据每帧原始混合音频信号对应的信号能量，从所述多个原始混合音频信号中选取对应的信号能量满足预设阈值的目标混合音频信号。

一种可选的实施方式中，所述根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号，包括：

根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置，以及所述多个空间位置对应的多个音频特征；

基于存在音频信号的多个空间位置以及对应的多个音频特征，对所述对应的多个音频特征进行特征逆变换处理，分离出存在音频信号的多个空间位置对应的多个音频信号。

第三方面，本申请实施例还提供一种音频分离模型的训练装置，所述训练装置包括：第一获取模块、第一提取模块、第一输入模块以及训练模块，其中：

所述第一获取模块，用于获取样本音频信号，每个样本音频信号具有对应的空间位置；

所述第一提取模块，用于对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征；

所述第一输入模块，用于将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

所述训练模块，用于根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型；

一种可选的实施方式中，所述训练模块，用于根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型时，包括：

确定单元，用于根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数；

更新单元，用于基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型。

一种可选的实施方式中，所述第一获取模块，用于获取样本音频信号时，具体用于：

一种可选的实施方式中，所述确定单元，用于根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数时，具体用于：

一种可选的实施方式中，所述更新单元，用于基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型时，具体用于：

第四方面，本申请实施例还提供一种音频信号的分离装置，所述分离装置包括：第二获取模块、第二提取模块、第二输入模块以及分离模块，其中：

所述第二获取模块，用于获取目标混合音频信号；

所述第二提取模块，用于对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征；

所述第二输入模块，用于将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

所述分离模块，用于根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。

一种可选的实施方式中，所述第二获取模块，用于获取目标混合音频信号时，具体用于：

获取原始混合音频信号；

一种可选的实施方式中，所述分离模块，用于根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号时，具体用于：

第五方面，本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第六方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第七方面，本申请实施例还提供一种计算机设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

第八方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第二方面，或第二方面中任一种可能的实施方式中的步骤。

本申请实施例提供了一种音频分离模型的训练方法、音频信号的分离方法及装置。在本申请中，首先，利用样本音频信号训练音频分离模型，之后利用训练好的音频分离模型对目标混合音频信号进行分离处理，最终分离出存在音频信号的多个空间位置对应的多个音频信号。通过本申请的音频分离模型的训练方法以及音频信号的分离方法，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的一种音频分离模型的训练方法的流程图；

图2示出了本申请实施例所提供的音频分离模型的训练方法中，样本音频信号的空间示意图；

图3示出了本申请实施例所提供的音频分离模型的训练方法中，音频分离模型的结构图；

图4示出了本申请实施例所提供的一种音频信号的分离方法的流程图；

图5示出了本申请实施例所提供的一种音频分离模型的训练方法的示意图；

图6示出了本申请实施例所提供的音频分离模型的训练装置中，训练模块的具体示意图；

图7示出了本申请实施例所提供的一种音频信号的分离装置的示意图；

图8示出了本申请实施例所提供的一种计算机设备的示意图；

图9示出了本申请实施例所提供的另一种计算机设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中，对森林或深山等野外场所中常见的多种动物及环境声音混叠背景下，动物的识别效果较差。有必要对混叠音频信号进行分离，对分离后的信号进行识别，以提高识别的准确率。现有的混叠信号分离方法或者需要已知信号源的数量、或者需要有纯净的声音来进行训练，难以适合野外环境的源信号分离，不利于基于声音获取野外动物的状态信息。

基于上述研究，本申请实施例提供的一种音频分离模型的训练方法、音频信号的分离方法及装置。在本申请中，首先，利用样本音频信号训练音频分离模型，之后利用训练好的音频分离模型对目标混合音频信号进行分离处理，最终分离出存在音频信号的多个空间位置对应的多个音频信号。通过本申请的音频分离模型的训练方法以及音频信号的分离方法，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本申请针对上述问题所提出的解决方案，都应该是发明人在本申请过程中对本申请做出的贡献。

下面将结合本申请中附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本公开实施例所提供的一种音频分离模型的训练方法、音频信号的分离方法的执行主体一般为具有一定计算能力的计算机设备，该计算机设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该一种音频分离模型的训练方法、音频信号的分离方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为计算机设备为例对本公开实施例提供的一种音频分离模型的训练方法、音频信号的分离方法加以说明。

实施例一

参见图1所示，为本申请实施例一提供的一种音频分离模型的训练方法，所述方法包括步骤S101～S104，其中：

S101：获取样本音频信号，每个样本音频信号具有对应的空间位置。

S102：对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征。

S103：将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。

S104：根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型；

下面分别对上述S101～S104分别加以详细说明。

S101、获取样本音频信号，其中，每个样本音频信号具有对应的空间位置。

请参阅图2，图2为样本音频信号的空间示意图。

其中，可以通过音频采集装置周边的多个样本音频采集点来获取样本音频信号，具体的，以一个音频采集装置的位置为中心，分别在水平方向及竖直方向上以预设间隔角度，确定多个样本音频采集节点；其中，样本音频采集节点的个数与预设间隔角度相关。

其中，所述音频采集装置可以为麦克风、话筒等音频采集装置，该音频采集装置也可以复用于录音机、移动终端等多种设备中。

示例性的，以麦克风的位置为中心，同时将水平方位角表示为φ，仰角表示为λ。分别在水平方向[0，180°]及竖直方向[0，90°]上以预设间隔角度5°调整水平方位角及仰角，并依据水平方位角及仰角确定样本音频采集节点，那么就可以在每个水平方向上划分出36个样本音频采集节点，同样的，在每个竖直方向上划分出18个样本音频采集节点，这样就可以获取36*18，即648个样本音频采集节点。

示例性的，任意一个样本音频采集节点均可以由水平方位角及仰角的组合形式(φ，λ)来表示，如图2所示，样本音频采集节点可以表示为(30°，0°)，或是(90°，40°)等多种水平方位角及仰角的组合形式。每个样本音频信号具有对应的空间位置，即每个样本音频信号都包含有若干组水平方位角及仰角。

此外，每个样本音频信号还包括音频信号标签，标记是若干个0或者1组成的向量，具体的，以648个样本音频采集节点为例，若在648个样本音频采集节点中存在1个样本音频采集节点存在音频信号，其余647个样本音频采集节点不存在音频信号，则该样本音频信号的对应的音频信号标签为1个1以及647个0组成的向量。

S102、对步骤S101中获取的样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征。

示例性的，可以以帧长为N＝480(N＝480＝16kHZ*30ms)对样本音频信号进行分帧处理，得到每帧样本音频信号。

之后，可以利用离散傅里叶变换(Discrete Fourier Transform，DFT)、小波变换(wavelet transform，WT)或是梅尔频率倒谱变换(Mel-Frequency Cepstrum，MFC)提取每帧样本音频信号对应的音频特征，其中，音频特征主要包括：幅值特征和相位特征。

此外，还可以设置一定的重叠率，例如，设定重叠率为50％，依次保证获取每帧样本音频信号的连续性。同时，为了保证每帧样本音频信号具有相同的帧长，还可以对样本音频信号末尾处、帧长不足的样本音频信号帧进行补零，使得每帧样本音频信号的帧长相同。

S103、对步骤S102中获取的每帧样本音频信号对应的音频特征，输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。

示例性的，该音频分离模型可以包括3层扩张卷积和3层双向LSTM，其中，3层扩张卷积的卷积核可以为3×3，扩张率可以分别为1、2、3，对应648个样本音频采集节点的情况，3层双向LSTM的节点数可以分别为512、256、256。此外，该音频分离模型还包括全连接层，同样的，对应648个样本音频采集节点的情况，全连接层共648个节点，每个节点中包含着648个空间信息，即648组水平方位角及仰角组合信息。之后，对全连接层中的648个节点进行逻辑回归，例如，采用sigmoid激活函数，得到所述音频分离模型输出的648个空间位置存在音频信号的648个概率。

S104、根据步骤S103中获取的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型。

具体包括：根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数；

示例性的，该损失函数可以表示为：

其中，y_k代表样本音频信号对应的标签，σ(l_k)表示音频分离模型输出的预测标签。

具体的，在音频分离模型的训练过程中，应使得该损失函数达到预期标准，在损失函数达到预期标准时，更新所述音频分离模型的模型参数。当音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，即可以认为该音频分离模型的参数训练完成，得到训练好的音频分离模型。

此外，所述音频分离模型还可以基于所述样本音频信号输出的所述各个空间位置存在音频信号的概率，确定出所述各个空间位置存在的音频信号，并分离出多个所述音频信号。

示例性的，可以在音频分离模型中，在确定出所述各个空间位置存在的音频信号之后，设置特征逆变换的处理步骤，用于分离出多个所述音频信号。

优选的，本申请中，还可以利用两个音频采集装置采集两组样本音频信号，具体的，音频采集装置包括第一音频采集装置和第二音频采集装置，第一音频采集装置和第二音频装置相邻设置。对应的，样本音频信号包括：第一音频采集装置采集的第一样本音频信号和第二音频采集装置采集的第二样本音频信号；

请参阅图3，图3为音频分离模型的训练方法中，音频分离模型的结构图。

其中，音频分离模型包括第一网络和第二网络，所述第一样本音频信号用于训练所述音频分离模型的第一网络；所述第二样本音频信号用于训练所述音频分离模型的第二网络。

此外，根据所述音频分离模型的第一网络输出的各个空间位置存在音频信号的概率和每个第一样本音频信号对应的第一空间位置，确定所述第一网络对应的第一损失函数；

具体的，第一损失函数为：

第二损失函数为：

音频分离模型对应的损失函数为：

L_w＝L_s+L_v；

其中，y_k代表样本音频信号标签，σ(l_k)表示音频分离模型中第一网络输出的第一预测标签，σ(l_k)表示音频分离模型中第二网络输出的第二预测标签。

优选地，第二损失函数也可以称为校验损失函数，音频分离模型对应的损失函数为第一损失函数和第二损失函数之和。

由于第一音频采集装置和第二音频装置相邻设置，因此对于同一个音频采集节点来说，相对于第一音频采集装置和第二音频装置的空间位置是相近的，所以，可以认为第一音频采集装置和第二音频装置接收到同一音频采集节点的样本音频信号的水平方位角及仰角的方向是近乎相同的。因此，可以通过与第一音频采集装置和第二音频装置对应的第一样本音频信号和第二样本音频信号，建立第一网络和第二网络，该第一网络和第二网络也可以成为孪生网络，以此建立第一网络和第二网络之间的互校验过程，具体的，体现在校验损失函数上。

通过增加校验网络及校验损失函数，可以使得更新音频分离模型中第一网络及第二网络的参数训练更为准确，增加了音频分离模型对于音频分离过程的准确性。

之后，基于所述音频分离模型对应的损失函数，更新所述音频分离模型中第一网络的第一模型参数，直至所述第一网络输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的第一模型参数；

其中，由于对于同一个音频采集节点来说，相对于第一音频采集装置和第二音频采集装置的空间位置是相近的，因此，对应的第一网络和第二网络可以认为是完全相同的，对应的第一网络的第一模型参数和第二网络的第二模型参数也可以认为是完全相同的。由此，可以将包括训练好的第一模型参数作为所述音频分离模型的模型参数，也可以将包括训练好的第二模型参数作为所述音频分离模型的模型参数。

通过两个音频采集装置采集两组样本音频信号，输入至第一网络和第二网络，并基于第一损失函数和第二损失函数，训练第一网络参数和第二网络参数，得到训练好的模型参数的音频分离模型，可以提高损失函数的准确性，从而提高音频分离模型参数的准确性，增加了音频分离模型分离音频信号的准确性。

基于上述研究，本申请实施例提供的一种音频分离模型的训练方法。包括：首先，获取样本音频信号，每个样本音频信号具有对应的空间位置；之后，对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征，将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。最后，根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型。利用本申请中的音频分离模型，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

基于同一发明构思，本申请实施例中还提供了与音频分离模型的训练方法对应的音频分离模型的训练装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述音频分离模型的训练方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例二

参见图4所示，为本申请实施例一提供的一种音频信号的分离方法，所述方法包括步骤S401～S404，其中：

S401：获取目标混合音频信号。

S402：对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征。

S403：将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。

S404：根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。

下面分别对上述S401～S404分别加以详细说明。

S401、获取目标混合音频信号。

具体的，首先获取原始混合音频信号；

之后，对所述原始混合音频信号进行分帧处理，得到多帧原始混合音频信号；

最后，根据每帧原始混合音频信号对应的信号能量，从所述多个原始混合音频信号中选取对应的信号能量满足预设阈值的目标混合音频信号。

示例性的，原始混合音频信号可以为任何场景下真实的音频信号，之后，可以以1s为帧长，将混合音频信号进行分帧处理，得到多帧原始混合音频信号，再对每一帧原始混合音频信号进行能量计算，将多帧原始混合音频信号中能量小于预设能量阈值的信号进行筛除，以保证混合音频信号的连续性。

示例性的，预设能量阈值可以为每帧原始混合音频信号对应的最大能量的50％。此时，可以认为一帧原始混合音频信号能量小于预设能量阈值的该帧原始混合音频信号为静音区信号，通常需要去除掉静音区信号，保留非静音区信号，以保证混合音频信号的连续性。

S402、对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征。

S403、将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。

上述步骤S402以及步骤S403与上述步骤S102以及步骤S103的技术手段相同，并能达到相同的技术效果，在此不做赘述。

S404、根据步骤S403中所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。

具体的，根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置，以及所述多个空间位置对应的多个音频特征；

其中，根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的概率大于预设存在音频信号的概率的对应空间位置处存在音频信号。

示例性的，可以确定存在音频信号的概率大于50％的对应空间位置处存在音频信号，统计存在音频信号的空间位置的个数，并以此个数作为音频信号的个数。

之后，基于音频信号的个数、对应的空间位置以及每帧目标混合音频信号对应的音频特征，确定多个空间位置对应的多个音频特征。

具体的，可以采用自动编码器模型基于音频信号的个数确定与多个空间位置对应的多个音频特征。

示例性的，在本申请中，可以采用β变分自动编码器模型，该β变分自动编码器模型包括编码器模型和解码器模型。其中，β变分自动编码器模型的数量等于音频信号的个数，将每帧目标混合音频信号对应的音频特征输入至该β变分自动编码器模型中，便可以得到分离出的音频信号的音频特征。

其中，编码器模型中包括两层扩张卷积层和两层双向长短时记忆循环神经网络(Bi-directional Long Short-Term Memory，BiLSTM)。解码器模型和编码器模型是对称的，其中的卷积层使用的是反卷积操作。

优选的，该解码器模型的训练过程为：通过多次迭代，不断减小对应的损失函数，并调整解码器模型的对应参数，具体训练过程与上述模型的训练方式类似，在此不做赘述。

最后，基于存在音频信号的多个空间位置以及对应的多个音频特征，对所述对应的多个音频特征进行特征逆变换处理，分离出存在音频信号的多个空间位置对应的多个音频信号。

示例性的，在获取到音频信号的音频特征之后，还可以利用傅里叶逆变换、小波逆变换或是梅尔频谱逆变换等多种逆变换方式对获取到音频信号的音频特征进行特征逆变换，分离出存在音频信号的多个空间位置对应的多个音频信号。

基于上述研究，本申请实施例提供的一种音频信号的分离方法。包括：首先，获取目标混合音频信号，之后，对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征，并将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；最后，根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。利用本申请中的音频信号的分离方法，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

基于同一发明构思，本申请实施例中还提供了与音频信号的分离方法对应的音频信号的分离装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述音频信号的分离方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

实施例三

参照图5所示，为本申请实施例三提供的一种音频分离模型的训练装置500，所述音频分离模型的训练装置500包括：第一获取模块510、第一提取模块520、第一输入模块530以及训练模块540，其中：

所述第一获取模块510，用于获取样本音频信号，每个样本音频信号具有对应的空间位置；

所述第一提取模块520，用于对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征；

所述第一输入模块530，用于将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

所述训练模块540，用于根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型；

基于上述研究，本申请实施例提供的一种音频分离模型的训练装置500。所述音频分离模型的训练装置500用于：首先，获取样本音频信号，每个样本音频信号具有对应的空间位置；之后，对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征，将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率。最后，根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型。利用本申请中音频分离模型的训练装置500，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

一种可能的实施方式中，所述训练模块540，用于根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型时，包括：

请参阅图6，图6示出了本申请实施例所提供的音频分离模型的训练装置中，训练模块540的具体示意图。

确定单元541，用于根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数；

更新单元542，用于基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型。

一种可能的实施方式中，所述第一获取模块510，用于获取样本音频信号时，具体用于：

一种可能的实施方式中，所述确定单元541，用于根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数时，具体用于：

一种可能的实施方式中，所述更新单元542，用于基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型时，具体用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例一中的相关说明，这里不再详述。

实施例四

参照图7所示，为本申请实施例四提供的一种音频信号的分离装置700，所述分离装置包括：第二获取模块710、第二提取模块720、第二输入模块730以及分离模块740，其中：

所述第二获取模块710，用于获取目标混合音频信号；

所述第二提取模块720，用于对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征；

所述第二输入模块730，用于将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

所述分离模块740，用于根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。

基于上述研究，本申请实施例提供的一种音频信号的分离装置700。该分离装置用于：首先，获取目标混合音频信号，之后，对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征，并将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；最后，根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。利用本申请中的音频信号的分离装置700，能够对存在混叠声音的多数场景下的音频信号进行分离处理，提高了对于音频信号分离的准确性。

一种可能的实施方式中，所述第二获取模块710，用于获取目标混合音频信号时，具体用于：

获取原始混合音频信号；

一种可能的实施方式中，所述分离模块740，用于根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号时，具体用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例二中的相关说明，这里不再详述。

实施例五

对应于图1中的音频分离模型的训练方法，本申请实施例还提供了一种计算机设备800，如图8所示，为本申请实施例提供的计算机设备800结构示意图，包括：

处理器81、存储器82、和总线83；存储器82用于存储执行指令，包括内存821和外部存储器822；这里的内存821也称内存储器，用于暂时存放处理器81中的运算数据，以及与硬盘等外部存储器822交换的数据，处理器81通过内存821与外部存储器822进行数据交换，当所述计算机设备800运行时，所述处理器81与所述存储器82之间通过总线83通信，使得所述处理器81在用户态执行以下指令：

一种可能的实施方式中，处理器81执行的指令中，所述根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型，包括：

一种可能的实施方式中，处理器81执行的指令中，所述获取样本音频信号，包括：

一种可能的实施方式中，处理器81执行的指令中，所述根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数，包括：

一种可能的实施方式中，处理器81执行的指令中，所述基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型，包括：

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的音频分离模型的训练方法的步骤。

本申请实施例所提供的路线规划方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的音频分离模型的训练方法的步骤，具体可参见上述方法实施例，在此不再赘述。

实施例六

对应于图9中的音频信号的分离方法，本申请实施例还提供了另一种计算机设备900，如图9所示，为本申请实施例提供的计算机设备900结构示意图，包括：

处理器91、存储器92、和总线93；存储器92用于存储执行指令，包括内存921和外部存储器922；这里的内存921也称内存储器，用于暂时存放处理器91中的运算数据，以及与硬盘等外部存储器922交换的数据，处理器91通过内存921与外部存储器922进行数据交换，当所述计算机设备900运行时，所述处理器91与所述存储器92之间通过总线93通信，使得所述处理器91在用户态执行以下指令：

获取目标混合音频信号；

一种可能的实施方式中，处理器91执行的指令中，所述获取目标混合音频信号，包括：

获取原始混合音频信号；

一种可能的实施方式中，处理器91执行的指令中，所述根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号，包括：

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的音频信号的分离方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种音频分离模型的训练方法，其特征在于，所述训练方法包括：

2.根据权利要求1所述的音频分离模型的训练方法，其特征在于，所述根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型，包括：

3.根据权利要求2所述的音频分离模型的训练方法，其特征在于，所述获取样本音频信号，包括：

4.根据权利要求2所述的音频分离模型的训练方法，其特征在于，所述根据所述音频分离模型基于每帧样本音频信号对应的音频特征输出的各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，确定所述音频分离模型对应的损失函数，包括：

5.根据权利要求2所述的音频分离模型的训练方法，其特征在于，所述基于所述音频分离模型对应的损失函数，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型，包括：

6.一种音频信号的分离方法，其特征在于，所述分离方法包括：

获取目标混合音频信号；

7.根据权利要求6所述的音频信号的分离方法，其特征在于，所述获取目标混合音频信号，包括：

获取原始混合音频信号；

根据每帧原始混合音频信号对应的信号能量，从多个所述原始混合音频信号中选取对应的信号能量满足预设阈值的目标混合音频信号。

8.根据权利要求6所述的音频信号的分离方法，其特征在于，所述根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号，包括：

9.一种音频分离模型的训练装置，其特征在于，所述训练装置包括：

第一获取模块，用于获取样本音频信号，每个样本音频信号具有对应的空间位置；

第一提取模块，用于对所述样本音频信号进行分帧处理，并提取每帧样本音频信号对应的音频特征；

第一输入模块，用于将每帧样本音频信号对应的音频特征输入到音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

训练模块，用于根据所述各个空间位置存在音频信号的概率以及每个样本音频信号对应的空间位置，更新所述音频分离模型的模型参数，直至所述音频分离模型输出的各个空间位置存在音频信号的概率与每个样本音频信号对应的空间位置相匹配，得到包括训练好的模型参数的音频分离模型；

10.一种音频信号的分离装置，其特征在于，所述分离装置包括：

第二获取模块，用于获取目标混合音频信号；

第二提取模块，用于对所述目标混合音频信号进行分帧处理，并提取每帧目标混合音频信号对应的音频特征；

第二输入模块，用于将所述每帧目标混合音频信号对应的音频特征输入至预先训练好的音频分离模型中，得到所述音频分离模型输出的各个空间位置存在音频信号的概率；

分离模块，用于根据所述音频分离模型输出的各个空间位置存在音频信号的概率，确定存在音频信号的多个空间位置以及对应的多个音频特征，分离出存在音频信号的多个空间位置对应的多个音频信号。

11.一种计算机设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当计算机设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至5任一项所述的音频分离模型的训练方法的步骤，或者，执行如权利要求6至8任一项所述的音频信号的分离方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一项所述的音频分离模型的训练方法的步骤，或者，执行如权利要求6至8任一项所述的音频信号的分离方法的步骤。