CN111261186A

CN111261186A - 基于改进自注意力机制与跨频带特征的音频音源分离方法

Info

Publication number: CN111261186A
Application number: CN202010048185.9A
Authority: CN
Inventors: 李泽超; 唐金辉; 黄毅
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-09
Anticipated expiration: 2040-01-16
Also published as: CN111261186B

Abstract

本发明公开了一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤：训练集数据准备，包括混合音频数据以及混合音频数据中待分离的目标音源音频数据；将音频数据均转换为音频的时频谱，记为全频带时频谱；构建若干个满足跨频带特征约束的划分策略；基于每个划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带；基于每个划分策略构建深度神经网络；训练深度神经网络和最小方差滤波器；利用训练后的深度神经网络和最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。本发明方法具有很好的性能和进度，泛化性好，更适用于音频音源分离任务，且分离出的目标音源音频质量更好。

Description

基于改进自注意力机制与跨频带特征的音频音源分离方法

技术领域

本发明属于数字信号处理领域，特别涉及一种基于改进自注意力机制与跨频带特征的音频音源分离方法。

背景技术

音频音源分离可以被描述为:从现有的混合音频信号中分离出一个或者多个音源各自的音频信号。音频音源分离任务的主要难点在于，在实际应用场景中，处理系统所能够直接利用到的输入数据仅仅只有单独的混合音频信号；因此，对于音频音源分离任务而言，需要研究者设计并使用一种智能化的手段来完成该任务。

音频音源分离有着广泛的应用场景，对于语音识别而言，通过音频音源分离来将人声从复杂的背景噪声中分离，能够更加准确地进行人声内容的识别与提取，提高语音转录等任务的效率；对于音频强化而言，通过音频音源分离智能化地将目标音频信号从混合信号中分离，能够更好地辅助人们完成音频消噪、监听等工作；此外，在音乐编辑、创作工作中，音频音源分离能够在没有分轨音频数据的情况下，单独提取出某一轨乐器的音频数据，从而能够方便音乐制作人员对音频进行重混音或者乐谱转录等工作。综上所述，对于涉及到音频处理的相关领域而言，一个良好的、健壮的音源分离系统是必需且必备的工具。

国外早在上世纪50年代就提出了该问题并进行了长期的研究工作。为了解决这个问题，有许多相关方法被提出，这些方法大致分为监督式方法和非监督式方法。监督式方法主要是通过对模型进行训练以获得音源的相关信息，这些方法主要是基于贝叶斯估计、非负矩阵分解(Nonnegative Matrix Factorization，NMF)理论来设计的，而非监督式学习的方法则是让模型从混合音频信号中自行寻找数据特征，这类方法主要是基于稀疏向量理论来设计的。尽管经过数十年的研究和优化，这些方法对于解决音频音源分离问题的进程产生了巨大的推动作用，但是由于这些方法有的严重依赖于手工设计的先验知识，而有的又基于一些很强的假设来简化问题，因此长期以来并不能得到令人满意的效果，阻碍了相关应用在现实需求下的落地。

近年来，由于深度神经网络(Deep Neural Networks，DNN)在解决复杂问题方面展示了出很好的性能，人们也逐渐开始在音频音源分离任务中引入深度神经网络的模型来解决相关问题，相关方法主要分为基于卷积神经网络(Convolutional Neural Networks，CNN)的模型方法和基于循环神经网络(Recurrent Neural Networks，RNN)的模型方法。这些方法相对于传统方法而言，尽管在性能和泛化能力上都获得了长足的进步，但是仍然存在一些缺陷。例如基于卷积神经网络的模型方法受制于卷积的局部感受域特性，因此对长距离的相关依赖不敏感，容易在特征计算中丢失全局信息；而基于循环神经网络的模型方法受制于模型本身的天生的缺点，对于较长的时序数据会产生遗忘问题；两者的缺陷都限制了模型效果的进一步提升。

发明内容

本发明的目的在于提供一种具有泛化性好、分离出的目标音源音频质量更好等特点的音频音源分离方法。

实现本发明目的的技术解决方案为：一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤：

步骤1，训练集数据准备，所述训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据；

步骤2，将训练集中的音频数据均转换为音频的时频谱，记为全频带时频谱；

步骤3，构建若干个满足跨频带特征约束的划分策略；

步骤4，基于每个所述划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带；

步骤5，基于每个所述划分策略构建深度神经网络；

步骤6，训练所述深度神经网络；

步骤7，训练最小方差滤波器；

步骤8，利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。

进一步地，步骤3中所述构建若干个满足跨频带特征约束的划分策略，具体包括：

假设全频带时频谱为S∈R^n×m，其中n为所述短时傅里叶变换操作中频率方向的采样数，m为时间方向的帧数，定义符号G表示对应于全频带时频谱S的频带离散区间；采用λ个划分策略，将S划分为复数个子频带时频谱，λ＞0；所述跨频带特征的定义包括：

定义第l个划分策略对应的子频带时频谱集合C_l：

式中，C_l为一个有序集合，且以LEFT(G_li)升序排序，LEFT(x)表示区间x的左端点值，G_li为表示C_l集合中的第i个子频带区间元素，m_l表示C_l集合中元素的个数；

定义频带边界集合D_l：

D_l＝{b_li|b_li＝RIGHT(F_li),i＝1,2...,m_l-1}

式中，RIGHT(x)表示区间x的右端点值；

定义最小边界重叠大小z∈N，N表示自然数集合；

基于上述定义构建服从以下跨频带特征约束的划分策略：

对于

有b_pi∈G_qj

同时对于

都有

且b_pi-LEFT(G_qj)≥z,RIGHT(G_qj)-b_pi≥z

其中，1≤p≤λ,1≤i≤m_p-1，q≠p,1≤q≤λ,1≤j≤m_q，i′≠i,1≤i′≤m_p-1。

进一步地，步骤5基于每个所述划分策略构建深度神经网络，具体包括：

(1)对于每一个划分策略，构建相应的卷积神经子网络为：

式中，NET_l表示第l个划分策略对应的子卷积神经网络集合，

表示第l个划分策略中的第i个子卷积神经网络，i＝1,2,…,m_l，c表示构建卷积神经网络所采用到的金字塔形式的下采样或上采样的次数，即尺度；其中，

的结构定义为：

式中，Upsample(·)表示上采样层，Concat(·)表示连接操作，Q_k(I)＝Downsample(DenseBlock_k1(I)),k＝1,2...c，k表示第k个尺度，Downsample(·)表示下采样层，I表示子卷积神经网络的输入，W_k表示1x1卷积层，Attention_k(X)表示以平坦化特征图X为输入的改进的自注意力层，X＝{x₁,x₂,…,x_N}∈R^C×N,N＝W×H，C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小，α_k为一个可训练的标量，其初始值为0，DenseBlock(·)表示DenseNet中的Dense Block；

其中，

Attention(X)＝Res(β₁s+β₂c^T+X)∈R^C×W×H

式中，Res(·)表示重塑操作，也即是维度变换操作，β₁和β₂均为可训练的标量变量，初始值为0，用于指示注意力特征的可信度；s表示空间注意力特征图，s∈R^C×N＝{s₁,s₂,...,s_N}，c表示通道注意力特征图，c∈R^N×C＝{c₁,c₂,...,c_C}，其中s_i、c_i′分别为：

式中，

以及

均表示1x1卷积层，

(2)构建处理全频带时频谱的卷积神经网络

该网络的结构与上述

的结构相同，但该网络的输入为全频带时频谱。

进一步地，步骤6训练所述深度神经网络，具体包括：

将步骤2获得的混合音频数据对应的时频谱作为深度神经网络的输入，将步骤2获得的待分离的目标音源音频数据对应的时频谱作为深度神经网络的输出目标，对深度神经网络进行训练。

进一步地，步骤7所述训练最小方差滤波器，具体包括：

步骤7-1，提取训练集中所述混合音频数据对应的时频谱中的相位信号；

步骤7-2，将每个划分策略对应的若干子频带作为该划分策略对应的卷积神经子网络的输入，并合并所有卷积神经子网络的输出特征：

式中，O_s表示所有卷积神经子网络输出s特征的合并结果，Merge(·)表示特征融合操作，γ_t为可训练的标量，初始值为0，t＝2...λ，γ₁也为可训练的标量，其初始值为1，O_l为每一个卷积神经子网络的输出：

式中，S_lr表示子频带区间G_lr对应的子频带时频谱，Concat_frequency(·)表示在频率维度上进行特征连接；

步骤7-3，将所述全频带时频谱作为所述卷积神经网络

的输入，该卷积神经网络的输出特征记为O_f；

步骤7-4，根据所述O_s和O_f获取跨频带特征O：

O＝Concat_channel(O_f,O_s)

式中，Concat_channel(·)表示在通道维度上进行特征连接；

步骤7-5，利用Dense Block和卷积层将所述跨频带特征O转换为预测时频谱；

步骤7-6，通过短时傅里叶逆变换将所述预测时频谱转换为音频信号，在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号；

步骤7-7，将步骤7-6获得的音频信号作为最小方差滤波器的输入，将训练集中待分离的目标音源音频数据作为期望信号，对最小方差滤波器进行训练。

进一步地，步骤8所述利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号，具体过程包括：

步骤8-1，通过短时傅里叶变换将待进行音源分离的混合音频转换为时频谱，并提取该时频谱中的相位信号；

步骤8-2，将步骤8-1获得的时频谱输入至步骤6训练后的深度神经网络，输出目标音源信号的时频谱；

步骤8-3，通过短时傅里叶逆变换将所述目标音源信号的时频谱转换为音频信号，转换过程中时频谱的相位部分采用步骤8-1提取的相位信号；

步骤8-4，将步骤8-3获得的音频信号输入至步骤7训练后的最小方差滤波器中，输出最终的目标音频信号。

本发明与现有技术相比，其显著优点为：1)采用深度学习模型进行目标音频音源信号的估计，相较于传统方法，只需要数据训练，无需引入假设以及借助辅助信息，具有更好的泛化性；2)采用一种带改进的自注意力机制的深度学习模型，使得用于音频音源分离的深度学习模型在特征计算中能够更好地计算全局信息；3)采用一种跨声带特征，使得用于音频音源分离的深度学习模型能够更好地计算频带划分过后频带附近的特征信息；4)综合了改进的自注意力机制和跨声带特征，模型具有更好的性能，所分离出的目标音源音频质量更好。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于改进自注意力机制与跨频带特征的音频音源分离方法的流程图。

图2为本发明中频带划分策略的结构示意图。

图3为本发明中改进的自注意力机制的结构示意图。

图4为本发明基于改进的自注意力机制与跨频带特征方法的模型结构示意图。

具体实施方式

结合图1，本发明提出了一种基于改进自注意力机制与跨频带特征的音频音源分离方法，包括以下步骤：

步骤1，训练集数据准备，训练集数据包括混合音频数据以及混合音频数据中待分离的目标音源音频数据。

步骤2，利用短时傅里叶变换将训练集中的音频数据均转换为音频的时频谱，记为全频带时频谱。

步骤3，构建若干个满足跨频带特征约束的划分策略，具体包括：

假设全频带时频谱为S∈R^n×m，其中n为短时傅里叶变换操作中频率方向的采样数，m为时间方向的帧数，定义符号G表示对应于全频带时频谱S的频带离散区间；采用λ个划分策略，将S划分为复数个子频带时频谱，λ＞0；跨频带特征的定义包括：

定义第l个划分策略对应的子频带时频谱集合C_l：

定义频带边界集合D_l：

D_l＝{b_li|b_li＝RIGHT(F_li),i＝1,2...,m_l-1}

式中，RIGHT(x)表示区间x的右端点值；

定义最小边界重叠大小z∈N，N表示自然数集合；

基于上述定义构建服从以下跨频带特征约束的划分策略：

对于

有b_pi∈G_qj

同时对于

都有

且b_pi-LEFT(G_qj)≥z,RIGHT(G_qj)-b_pi≥z

步骤4，结合图3，基于每个划分策略分别对全频带时频谱的频带进行划分，获得该划分策略对应的若干子频带。

步骤5，基于每个划分策略构建深度神经网络，结合图4，该步具体包括：

(1)对于每一个划分策略，构建相应的卷积神经子网络为：

式中，NET_l表示第l个划分策略对应的子卷积神经网络集合，

的结构定义为：

式中，Upsample(·)表示上采样层，Concat(·)表示连接操作，Q_k(I)＝Downsample(DenseBlock_k1(I)),k＝1,2...c，k表示第k个尺度，Downsample(·)表示下采样层，I表示子卷积神经网络的输入，W_k表示1x1卷积层，Attention_k(X)表示以平坦化特征图X为输入的改进的自注意力层，X＝{x₁,x₂,…,x_N}∈R^C×N,N＝W×H，C、W、H分别表示在平坦化之前特征图X在不同维度上的尺寸大小，α_k为一个可训练的标量，其初始值为0，DenseBlock(·)表示DenseNet中的Dense Block；上采样层的网络结构为插值上采样层与1x1卷积层的组合。

结合图2，其中，

Attention(X)＝Res(β₁s+β₂c^T+X)∈R^C×W×H

式中，

以及

均表示1x1卷积层，

(2)构建处理全频带时频谱的卷积神经网络

该网络的结构与上述

的结构相同，但该网络的输入为全频带时频谱。

步骤6，训练深度神经网络，具体包括：

步骤7，训练最小方差滤波器，具体包括：

步骤7-1，提取训练集中混合音频数据对应的时频谱中的相位信号；

步骤7-3，将全频带时频谱作为卷积神经网络U_fc的输入，该卷积神经网络的输出特征记为O_f；

步骤7-4，根据O_s和O_f获取跨频带特征O：

O＝Concat_channel(O_f,O_s)

式中，Concat_channel(·)表示在通道维度上进行特征连接；

步骤7-5，利用Dense Block和卷积层将跨频带特征O转换为预测时频谱；

步骤7-6，通过短时傅里叶逆变换将预测时频谱转换为音频信号，在转换过程中时频谱的相位部分采用步骤7-1提取的相位信号；

步骤8，利用步骤6训练后的深度神经网络和步骤7训练后的最小方差滤波器处理待进行音源分离的混合音频，输出预测的目标音频信号。该步具体过程包括：

步骤8-3，通过短时傅里叶逆变换将目标音源信号的时频谱转换为音频信号，转换过程中时频谱的相位部分采用步骤8-1提取的相位信号；

下面结合实施例对本发明作进一步详细的描述。

实施例

本实施例对本发明的方法进行验证，具体条件包括：

(1)划分策略数量λ＝2；

(2)最小边界重叠大小

(3)每一个划分策略的子频带为：

(4)每一个子卷积神经网络所拥有的尺度c＝3；

(5)短时傅里叶变换采用2048点采样，采样率为44.1kHz；

(6)采用DSD100公开数据集作为本实施例的数据集。

本实施例分别对DSD100公开数据集中人声、贝斯、鼓和其他乐器的音源各自单独训练了一个模型以完成对应音源的分离工作。所验证的指标为：分别计算模型在验证集中所分离出的人声、鼓、贝斯和其他这四个音源信号的SDR的中位数。表1展示了本发明所提出的方法在DSD100公开数据集上经过训练后，在验证集上与其他现有方法的性能对比。

表1音源分离方法的性能对比

由上述实施例可知，本发明提出的基于改进的自注意力机制和跨声带特征的音频音源分离方法具有很好的性能和进度，泛化性好，更适用于音频音源分离任务，且分离出的目标音源音频质量更好。