CN117409810A

CN117409810A - 歌声分离模型

Info

Publication number: CN117409810A
Application number: CN202311142291.3A
Authority: CN
Inventors: 吴清强; 曾祥健; 任望龙; 徐民洪
Original assignee: Xiaozhi Shenyi Xiamen Artificial Intelligence Research Institute Co ltd
Current assignee: Xiaozhi Shenyi Xiamen Artificial Intelligence Research Institute Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2024-01-16

Abstract

本发明公开了歌声分离模型，包括数据预处理模块、模型训练模块、声音恢复模块，所述数据预处理模块具体为将混合音乐通过短时傅里叶变换生成混合时频谱图和相位谱，所述模型训练具体为将混合时频谱图经过神经网络模型、经过掩蔽生产分离时频谱图，所述声音恢复具体为将相位谱和分离时频谱图通过短时傅里叶变换生成分离音乐数据；本发明与现有的技术相比的优点在于：本发明解决了现有模型中未考虑歌声的上下文语义信息或者是需要中间状态导致歌声分离结果存在这失真或伪影的问题、使得语音信息在提取上下文信息时避免中间状态的传播、具有较强的业务拓展能力。

Description

歌声分离模型

技术领域

本发明涉及音乐信息检索技术领域，具体是歌声分离模型。

背景技术

随着信息技术飞速发展与生活水平的不断提高，人们对娱乐化软件得需求不断提高，对音乐类产品越来越热衷。音乐类产品的生产离不开歌声数据。歌声数据种类繁多，大部分歌声数据包含了背景音乐。相较于人声来说，背景音乐的种类多，变化范围广，对于音乐智能模型的训练存在着消极影响。

目前业界现有的歌声分离方法大部分是基于图像领域的语义分割的思想，歌声是具有上下文关系的时序信号，在分离的时候要考虑这个性质。部分歌声分离算法采用RNN提取上下文信息。使用RNN进行建模会导致不同声音信号帧之间的信息交互需要中间状态传播，即上下文信息之间为间接建模。这样的方法存在着信息失真与音频信号有伪影得问题。

现有方案的步骤都是音乐数据建模，具体步骤为：

(1)整理音乐数据，并进行数据清洗等操作；

(2)进行声音信号变换处理；

(3)利用深度学习模型分离歌声

现有技术现有的歌词转录相关方法基于图像领域的语义分割思想，忽略了歌声信号之间的上下文语义信息。针对这些缺点。本发明通过U-Net、DPTNet等多种算法，利用声音信号特征提取将用户的声音信号转化为图像特征。然后利用U-Net提取信号的深层语义特征，同时融合上下文语义信息，高精度地完成混合歌声信号的分离。

发明内容

本发明要解决的技术问题就是克服以上的技术缺陷，提供歌声分离模型。

为了解决上述问题，本发明的技术方案为：包括数据预处理模块、模型训练模块、声音恢复模块，所述数据预处理模块具体为将混合音乐通过短时傅里叶变换生成混合时频谱图和相位谱，所述模型训练具体为将混合时频谱图经过神经网络模型、经过掩蔽生产分离时频谱图，所述声音恢复具体为将相位谱和分离时频谱图通过短时傅里叶变换生成分离音乐数据。

进一步，包括以下步骤：(1)唱歌数据收集，收集歌唱转录数据与歌唱评价数据，(2)对于收集得到的数据进行数据清洗，(3)利用快速傅里叶变换将混合音频信号转化为对应的时频谱图与相位谱，(4)对得到的时频谱图进行深层语义提取与分割，(5)将提取的深层语义特征传入DPTnet网络提取上下文语义信息，(6)将模型得输出结果与相位谱相结合，恢复出分离后的音源信号。

进一步，所述步骤(1)中收集渠道包括开源数据集、音乐应用软件、开源网站、商业公司、人工采集等。

进一步，所述步骤(2)中数据清洗包括音频格式转换、去除首尾无声段和去噪。

进一步，所述步骤(3)中包括分帧、快速傅里叶变换、幅度谱计算、频谱处理。

进一步，所述步骤(4)中包括深层语义特征提取、语义分割。

进一步，所述步骤(5)中包括分割阶段、DPTBlock处理阶段、重叠相加阶段。

进一步，所述步骤(6)中包括反变换、重叠加和、去窗函数、后处理。

本发明与现有的技术相比的优点在于：

1、本发明建立了一个歌声分离模型，解决了现有模型中未考虑歌声的上下文语义信息或者是需要中间状态导致歌声分离结果存在这失真或伪影的问题。一定程度上缓解了现有这方面模型的问题。

2、本发明的关键核心技术基于DPTnet结构，其具有强大的上下文语义提取能力，能够使得语音信息在提取上下文信息时避免中间状态的传播，这样模型能够对长音频有较优的特征提取能力，较好的分离长音频。

3、本发明未来还可与其他更多领域和娱乐进行联合学习，具有较强的业务拓展能力。

附图说明

图1是本发明歌声分离模型的整体流程图。

具体实施方式

为了使本发明的内容更容易被清楚地理解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

术语解释

时频谱图(Time-Frequency Spectrogram)：是一种显示信号在时间和频率上变化的图形表示方法。它将信号的时间域和频域信息结合在一起，提供了对信号在不同时间和频率上的特征的直观展示。在时频谱图中，时间通常表示在水平轴上，而频率则表示在垂直轴上。图像的颜色或亮度表示信号的能量或幅度。生成时频谱图的方法有多种，其中一种常见的方法是通过应用短时傅里叶变换(Short-Time Fourier Transform，STFT)。

U-Net网络:具有对称的编码器-解码器结构，可以有效地提取图像的局部特征并进行精细的像素级预测。它的网络结构由两个主要部分组成：编码器和解码器。编码器部分由一系列卷积层和池化层构成，用于逐渐减少输入图像的空间分辨率并提取高级抽象特征。这一过程可以看作是对图像进行多次下采样，使得网络能够获取更全局的上下文信息。解码器部分是编码器的镜像反转，由一系列上采样层和卷积层构成。解码器将编码器输出的特征图进行逐步上采样，同时与编码器对应层的特征图进行融合，以恢复图像的空间分辨率并生成精细的预测结果。

Transformer：是一种基于自注意力机制的神经网络，其优点为可并行化、建立长距离依赖关系、更好的表示能力。模型主要包括两部分：编码器(Encoder)和解码器(Decoder)。每个编码器层中都包含了一个自注意力机制层和一个前馈神经网络层。自注意力机制能够计算位置与位置之间的相似度，并根据相似度赋予权重。前馈神经网络则可以进一步处理上一层的输出。通过多个编码器的堆叠，模型可以逐渐提取输入序列的语义信息。解码器负责把编码器输出的语义信息映射为目标输出序列。

DPTnet：是一种用于双路Transformer网络，该网络在语音序列的建模中引入了直接上下文感知。通过引入一种改进的transformer，使得DPTNet能够对语音序列进行直接交互，从而实现对语音序列的直接上下文感知。

如图1所述，歌声分离模型具体步骤如下：

步骤一：歌唱数据收集，收集歌唱转录数据与歌唱评价数据。收集渠道包括开源数据集、音乐应用软件、开源网站、商业公司、人工采集等。

步骤二：对于收集得到的数据进行数据清洗。

(1)音频格式转换：收集得到的数据可能是多种不同的音频类型，为了方便后续的统一和处理，将各种类型的音频转换为wav数据。将所有音频的采样率和声道数等统一。

(2)去除首尾无声段：收集得到的音频可能是含有大量的无声段，为了模型的准确性，统一将音频首尾的无声片段去掉，仅从有声片段开始建模。

(3)去噪：收集到的音频可能含有噪声，明显的噪声将会对模型有消极的影响，因此建模前对音频信号中的噪声降低到某一阈值内。

步骤三：利用快速傅里叶变换将混合音频信号转化为对应的时频谱图与相位谱。具体步骤包括：

(1)分帧：将音频信号切分为短时帧。通常，使用固定长度的窗函数(如汉宁窗)将音频信号分成重叠的帧。典型的帧长度为10-30毫秒，通常会有50％的重叠。

(2)快速傅里叶变换(FFT)：对每个帧应用快速傅里叶变换，将时域信号转换为频域信号。使用FFT算法计算每个帧的频谱。

(3)幅度谱计算：从频域信号中提取振幅信息。通常取FFT结果的绝对值(或幅度)作为频谱的表示，同时转变为相位谱。

(4)频谱处理：对频谱进行进一步处理，对数变换(取对数幅度)和应用滤波器(如梅尔滤波器)获得时频谱图。

步骤四：对得到的时频谱图进行深层语义提取与分割，具体步骤包括：

(1)深层语义特征提取：深层语义特征提取阶段采用了U-Net编码器结构，编码器包含了四层。自上而下的前三个编码器对输入的时频谱图进行下采样，逐步压缩为低分辨率特征图。其中每个编码器包含了一个二维卷积层，一个批次归一化层，一个ReLU激活函数和一个最大池化层。卷积层经过前三个编码器的下采样，输入特征图的尺寸减小了8倍。最后一个编码器包含二维卷积层，批次归一化层和ReLU激活函数，不执行最大池化操作，尺寸无变化。编码阶段得到的高阶特征将通过DPTnet进行上下文语义提取。

(2)语义分割：解码阶段将DPTnet输出的特征图还原为分离歌曲所需的掩蔽矩阵。自下而上的第一个解码器包含了一个二维卷积层，一个批次归一化层和一个ReLU激活函数。后三个解码器除了二维卷积层，批次归一化层和ReLU激活函数外还包含了一个反卷积层。这样经过后三个解码器，特征图被还原为最初输入尺寸的大小。网络在解码阶段同时还接收来之编码器对应层通过跳跃链接传递过来的高层特征。因此每个解码器的卷积层的输入通道数为对应层编码器的输出通道数的二倍，每个解码器的卷积层的输出通道数为对应层编码器的输入通道数。除此之外，最后一个解码器会通过一个卷积层将特征图还原为掩蔽矩阵，掩蔽矩阵的大小为原始图像的大小，最终的输出通道为待分离的通道数。

步骤五：将提取的深层语义特征传入DPTnet网络提取上下文语义信息。上下文语义信息得提取包含了三个阶段，具体步骤包括：

(1)分割阶段：

分割阶段的目的是将按序输入的长序列分割成一系列相同长度的短序列，这些短序列的偏移量为段长的一半。最终，所有的短序列将被重构为一个三维向量，以便学习其块内依赖关系。首先，将U-Net编码器的输出特征通过归一化和线性层之后得到h。然后，通过在时间轴上使用50％的重叠因子将h^'分成大小为C的短序列。最后，将这些短序列依次排列重构成一个三维特征向量h^'。

DPTBlock处理阶段：

将分割好的特征h送到DPTBlock中进行上下文语义信息提取。它由两个Transformer模块顺序连接组成，能够处理短期和长期依赖关系。这两个Transformer分别称为块内Transformer(块内Trans)和块间Transformer(块间Trans)，两者的结构相同。Transformer没有像循环神经网络一样的迭代操作，所以特征在传入块内Trans之前需要借助位置编码模块获得额外的位置信息，使模型能够识别输入的特征向量的语序。块内Trans独立地作用于每个块，建模每个块内的短期依赖关系。其结构包含了层归一化模块(LayerNorm)，多头注意力机制模块(MHA)和前馈神经网络模块(FFW)三部分。为了能够获取长期依赖关系，需要将块内Trans输出的维度重新排列后应用块间Trans来建模跨块之间的转换，这样能够有效地建模跨块之间的长期依赖关系。块间Trans的内部结构与块内Trans相同，对块间Trans 的处理流程与块内Trans相同。

(3)重叠相加阶段：

重叠相加阶段的目的是将三维特征向量重新恢复为长序列，然后通过一个前馈层和一个ReLU激活函数作为DPTnet的输出特征。

步骤六：将模型得输出结果与相位谱相结合，恢复出分离后的音源信号。具体步骤包括：

(1)反变换

对语谱图应用逆短时傅里叶变换(Inverse Short-Time Fourier Transform，ISTFT)，将频谱图与相位谱结合转换回时域信号。ISTFT将每个时间窗口的频谱信息转换回原始信号的短时时域表示。：

(2)重叠加和

由于在分帧时通常采用了重叠的方式，因此需要进行重叠加和以获得平滑的时域信号。将经过ISTFT处理的每个时间窗口的信号进行重叠相加，以恢复连续的声音信号。

(3)去窗函数

由于在STFT过程中应用了窗函数，需要进行去窗函数操作，以减少窗函数引入的伪影。通过与原始窗函数进行叠加和消除，可以恢复更准确的声音信号。

(4)后处理

对恢复的声音信号进行可能的后处理操作，包括音频增益校正、去噪处理或音频平滑处理，以提高声音质量和清晰度。最终得到分离后的音源信号。

其中步骤4中的技术方案里，歌词转录模型架构可以有替代方案，即不仅可以使用本技术提出的基于U-Net与DPTnet的模型，还可以使用其他深度学习模型进行替代。

本发明使用了基于图像分割领域优秀的模型U-Net与语音信号领域优秀的模型DPTnet。相比现在的歌声模型而言，该模型在分离时考虑了歌声是具有上下文关系的时序信号这个性质。部分歌声分离算法采用RNN提取上下文信息。使用RNN进行建模会导致不同声音信号帧之间的信息交互需要中间状态传播，即上下文信息之间为间接建模，这样的方法存在着信息失真与音频信号有伪影得问题。该模型结合了图像分割方法与语音分离方法，有效地避免了现有方法存在的这些问题。

以上对本发明及其实施方式进行了描述，这种描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.歌声分离模型，其特征在于：包括数据预处理模块、模型训练模块、声音恢复模块，所述数据预处理模块具体为将混合音乐通过短时傅里叶变换生成混合时频谱图和相位谱，所述模型训练具体为将混合时频谱图经过神经网络模型、经过掩蔽生产分离时频谱图，所述声音恢复具体为将相位谱和分离时频谱图通过短时傅里叶变换生成分离音乐数据。

2.根据权利要求1所述的歌声分离模型，其特征在于：包括以下步骤：(1)唱歌数据收集，收集歌唱转录数据与歌唱评价数据，(2)对于收集得到的数据进行数据清洗，(3)利用快速傅里叶变换将混合音频信号转化为对应的时频谱图与相位谱，(4)对得到的时频谱图进行深层语义提取与分割，(5)将提取的深层语义特征传入DPTnet网络提取上下文语义信息，(6)将模型得输出结果与相位谱相结合，恢复出分离后的音源信号。

3.根据权利要求2所述的歌声分离模型，其特征在于：所述步骤(1)中收集渠道包括开源数据集、音乐应用软件、开源网站、商业公司、人工采集等。

4.根据权利要求2所述的歌声分离模型，其特征在于：所述步骤(2)中数据清洗包括音频格式转换、去除首尾无声段和去噪。

5.根据权利要求2所述的歌声分离模型，其特征在于：所述步骤(3)中包括分帧、快速傅里叶变换、幅度谱计算、频谱处理。

6.根据权利要求2所述的歌声分离模型，其特征在于：所述步骤(4)中包括深层语义特征提取、语义分割。

7.根据权利要求2所述的歌声分离模型，其特征在于：所述步骤(5)中包括分割阶段、DPTBlock处理阶段、重叠相加阶段。

8.根据权利要求2所述的歌声分离模型，其特征在于：所述步骤(6)中包括反变换、重叠加和、去窗函数、后处理。