CN103871423A

CN103871423A - 一种基于nmf非负矩阵分解的音频分离方法

Info

Publication number: CN103871423A
Application number: CN201210541700.2A
Authority: CN
Inventors: 王雷
Original assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Current assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-18

Abstract

本发明属于语音信号分解领域，具体涉及一种基于NMF非负矩阵分解的音频分离方法，包括辅助音乐语音区分模块和NMF非负矩阵分解模块，该方法通过引入NMF这一新的数学研究成果，结合语音音频与音乐音频的音频特征差异，可以较好地将混合的音频当中语音音频与音乐音频进行分离，从而得到较为清晰地音乐音频与语音音频，结合NMF方法与机器学习算法，可以非常高效的完成这一音频的分离工作。

Description

一种基于NMF非负矩阵分解的音频分离方法

技术领域

本发明涉及语音信号分解领域，具体涉及一种基于NMF非负矩阵分解的音频分离方法。

背景技术

当一段音频当中既混杂有背景的音乐音频，也有语音音频时，为了获取单一的语音音频或者音乐音频以便进行相应的编码、信息检索等工作，便需要利用相应的算法将混杂的音频分离为单纯的语音音频与音乐音频。这样的一种音频处理方式，一般会利用信号分离的相关技术来解决。随着音频处理领域的技术发展，对于这样技术的需要也催生了相应的研究成果。

在面对这类语音和音乐混叠信号的分离的问题时，现在主要是基于基频分析和频谱分解算法来进行的。例如，Klapuri等人提出了一种基于音乐频谱的谐波特性和平滑特性的迭代算法来检测音乐频谱中的多个基频并计算出各基频对应的谐波分量；Li 通过检测歌曲音频信号的主要基频轮廓，用聚类学习的方法从混叠信号中分离出歌声信号等等，都取得了不错的音频分离效果。

目前，NMF即非负矩阵分解法是很多研究者关注的重点。NMF 的基本原理是将信号分解为基本矩阵和相应的系数矩阵，根据代价函数来计算各个信源成分所对应的基本矩阵和系数矩阵，从而实现信号的分离。根据一直音频信号的先验知识获得的多少，可以将NMF分为盲信号模型，监督模型，和半盲模型，即完全不知道先验信号成分基本矩阵，知道所有混叠信号成分的基本矩阵，与只知道部分混叠信号成分的基本矩阵。而代价函数的选取主要包括分离前后信号的相似度与根据所处理信号的特性而加入的一些限制条件两类。因此，目前并没有非负矩阵分解的音频分离方法

本发明所需要处理的问题即属于盲信号模型的NMF信号分离问题；它需要利用分离前后信号的相似度作为代价函数，并辅之以语音音频与音乐音频在音频特征的差异度作为另外的递归终止条件。

发明内容

为克服现有技术上的不足，本发明目的是在于提供了一种基于NMF非负矩阵分解的音频分离方法，其通过利用NMF进行非负矩阵分解，从而将音乐与语音的混杂音频文件分解成为单纯的音乐音频文件和语音音频文件，通过对于每次分解后的音频文件进行特征提取与判别，从而判断每一次分解的结果是否为音乐文件或者语音文件。

为解决上述问题，本发明采用如下技术方案：一种基于NMF非负矩阵分解的音频分离方法，包括辅助音乐语音区分模块和NMF非负矩阵分解模块，

所述的辅助音乐语音区分模块主要利用了机器学习的方法，通过提取大量的语音音乐音频的相关音频特征作为训练样本，通过SVM算法进行训练得到识别模型；

所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法，通过对原音频信号矩阵进行迭代分解，直到分解结果达到代价函数与辅助区分模块的要求则停止。

进一步地，所述的辅助音乐语音区分模块利用机器学习的方法步骤：

a、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本，从而得到相应的区分模型。其中反面样本的选取可以更好的保证；

b、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量，作为及其学习训练的输入向量集。之所以提取这五个特征，是因为语音音频与音乐音频在这五个特征当中有较大的差异，因此利用这五个特征可以有较好的特征提取效果；

c、利用SVM算法对于b中所得到的向量集进行建模，得到所需要的用以识别语音与音乐视频的识别模型。

进一步地，所述的NMF非负矩阵分解模块主要有以下几个方面：

a、首先，我们会得到下面NMF非负矩阵分解的基本依据公式；

b、而后，我们会依据在盲状态模型构建出符合本发明要求的欧几里得距离代价函数，即判断分解结束的主要条件；

c、依据此代价函数与基本函数，我们会得到用以分解原信号矩阵的迭代公式，并依据迭代公式进行迭代分解；

d、当每次迭代完成之后，将利用预先设定的J_Euc1门限进行判别，如果达到门限则提取两个矩阵的相应特征向量，利用之前得到的语音音乐模型进行是否为语音或者音乐的判断。如果判断失败，则继续利用c中所述方法进行迭代分解，如果判断成功则在判断其是否达到门限J_Euc2，直到达到该门限时，停止迭代过程。

进一步地，所述的NMF非负矩阵分解的基本依据公式为：

Y=Y_s+Y_m+V=A_sX_s+A_mX_m+V

其中Y ∈RN×T 为观察信号的幅度谱，A∈ RN×B，X ∈RB×T，V ∈ RN×T 分别表示Y的基本矩阵、系数矩阵和误差残留矩阵。上标N，T，B 分别表示频率点数、帧数和基本矩阵所含向量的维数。A，X 均为非负矩阵，其各元素都大等于0。下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。

进一步地，所述的欧几里得距离代价函数定义为：

J_Euc=0.5||Y-A_sX_s+A_mX_m||_F ²

进一步地，所述的分解原信号矩阵的迭代公式定义为：

h = \max_{j &Element; [j_{f 1}, j_{f 2}]} [R (j)]

h = \underset{j &Element; [j_{f 1}, j_{f 2}]}{Average} [R (j)]

其中，

，

，

，, 这些表示梯度下降学习的速率。在第一次迭代的时候，本发明会利用某音乐音频的信号矩阵A_m与某语音音频的信号矩阵A_s以及单位矩阵作为A_sX_s以及A_mX_m的初始矩阵。

本发明基于NMF非负矩阵分解的音频分离方法的有益效果是：通过引入NMF这一新的数学研究成果，结合语音音频与音乐音频的音频特征差异，可以较好地将混合的音频当中语音音频与音乐音频进行分离，从而得到较为清晰地音乐音频与语音音频，结合NMF方法与机器学习算法，可以非常高效的完成这一音频的分离工作。

附图说明

为了易于说明，本发明由下述的具体实施例及附图作以详细描述。

图1为本发明的基于NMF非负矩阵分解的音频分离方法的整体系统模块架构图；

图2为本发明的基于NMF非负矩阵分解的音频分离方法的机器学习训练流程图；

图3为本发明的基于NMF非负矩阵分解的音频分离方法的NMF矩阵分解及判别流程图。

具体实施方式

如图1、图2和图3所示，本发明的一种基于NMF非负矩阵分解的音频分离方法，包括辅助音乐语音区分模块和NMF非负矩阵分解模块，辅助音乐语音区分模块主要利用了机器学习的方法，通过提取大量的语音音乐音频的相关音频特征作为训练样本，通过SVM算法进行训练得到识别模型；

所述的辅助音乐语音区分模块主要有以下几个方面：

所述的NMF非负矩阵分解模块主要有以下几个方面：

a、首先，我们会得到下面NMF非负矩阵分解的基本依据公式；

所述的NMF非负矩阵分解的基本依据公式为：

Y=Y_s+Y_m+V=A_sX_s+A_mX_m+V

所述的欧几里得距离代价函数定义为：

J_Euc=0.5||Y-A_sX_s+A_mX_m||_F ²

所述的分解原信号矩阵的迭代公式定义为：

其中，

，

，，

, 这些表示梯度下降学习的速率。在第一次迭代的时候，本发明会利用某音乐音频的信号矩阵A_m与某语音音频的信号矩阵A_s以及单位矩阵作为A_sX_s以及A_mX_m的初始矩阵。

本发明分为两个部分，即用以作为语音音乐判别的机器学习判别模块与用以对于原始信号矩阵进行非负矩阵分解的NMF模块，因此我们首先要简述机器学习判别模块的部署过程。

与传统的音频识别方法类似，一般情况下第一步都会收集大量的音频作为训练样本，而在这里，除了大量的音乐音频和语音音频作为样本之外，也需要采集许多即非音乐也非语音的其他音频作为反面样本，从而提升模型的准确度。

当收集到音频之后，便进入了提取音频特征的部分。这里因为主要训练目标是分别出语音音频与音乐音频，因此所选择的音频特征也是基于其语音与音乐音频在该特征当中有较大的差别。本发明所采用的特征为：

a、静音帧率，定义如下

其中，静音帧的判断是利用频域能量值来确定的，即当频域能量小于一定的阈值时，则将其定义为静音帧。

b、高过零率帧比率定义如下：

其中，ZCR_avg是片段中所有帧的过零率均值，ZCR(n)是第n帧的过零率，N是片段中的帧总数，sgn（）是符号函数，即判断参数是否为正。

c、低能量帧率定义为

其中，N是片段中帧总数，E(n)是第n帧的能量，E_avg是片段中各帧能量的均值。

d、谱通量定义为：

其中，A(n,k)是片段中第N帧的傅里叶变换的第k个系数值；K是傅里叶变换的阶数；N是片段中帧的总数；δ是为避免A(n,k)的值为0时导致计算值溢出所引入的一个小常数。

e、和谐度的计算方式为：

首先采用频域的归一化自相关方法估计每个频率是基频的可能性。

其中，是采样信号频谱X(i)零均值化后的值，K是傅里叶变换的阶数，f_s是音频信号的采样率，R(j)的值反映了频率j·f_s/K是基频的可能性。

将一帧信号的和谐度定义为

h = \max_{j &Element; [j_{f 1}, j_{f 2}]} [R (j)]

或者

h = \underset{j &Element; [j_{f 1}, j_{f 2}]}{Average} [R (j)]

其中，[j_f1,j_f2]和考察的频率范围相对应。

当对于每个音频样本的特征采集完成之后，就可以形成每个样本音频的特征向量作为机器学习算法训练的输入。在这里，我们会利用svm算法以及这些样本音频的特征值向量得到可以区分是否为音乐或者语音音频的区分模型。至此，我们的机器学习模块，即辅助NMF进行语音音频区分的识别模块已经得到。

接下来，当我们得到一段音乐与语音混合的音频信号时，我们将开始利用NMF进行迭代的信号矩阵分解。

首先，依据之前提到的公式，我们需要设置两个J_Euc门限值，即当达到第一J_Euc门限，即J_Euc1时，我们将把分解完成之后的两个矩阵A_m与A_s进行特征提取，并输入由之前机器学习算法得到的区分模型，进行区分。

然后，还有第二个门限值即J_Euc2作为当模型已经成功判别所分离的矩阵为语音音频与音乐音频时，NMF算法的终止门限。这里的门限值会根据用户的需要进行设置，其最小值为0，即最后的拆分结果没有任何的误差存在，当然，门限值设置的越小其相应的收敛时间也会越长。

在开始迭代的时候，本发明会用某音乐音频矩阵作为A_m的初始值，某语音音频矩阵作为A_s的初始值，这样就可以最大程度的减少收敛的次数，从而提升算法的效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种基于NMF非负矩阵分解的音频分离方法，其包括辅助音乐语音区分模块和NMF非负矩阵分解模块，其特征在于：其方法为：

所述的辅助音乐语音区分模块利用机器学习的方法通过提取大量的语音音乐音频的相关音频特征作为训练样本，通过SVM算法进行训练得到识别模型；

2.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法，其特征在于：所述的辅助音乐语音区分模块利用机器学习的方法步骤如下：

（a）、需要采集大量的语音、音乐以及既非语音也非音乐的音频文件作为训练样本，从而得到相应的区分模型；

（b）、提取音频特征中的静音帧率、高过零率帧比率、低能量帧率、谱通量以及和谐度五个音频量化特征构成每个音频的特征向量，作为及其学习训练的输入向量集；

（c）、利用SVM算法对于步骤（b）中所得到的向量集进行建模，得到所需要的用以识别语音与音乐视频的识别模型。

3.根据权利要求1所述的基于NMF非负矩阵分解的音频分离方法，其特征在于：所述的NMF非负矩阵分解模块利用NMF非负矩阵分解方法的步骤如下：

（1）、首先，建立NMF非负矩阵分解的基本依据公式；

（2）、而后，依据在盲状态模型构建出符合要求的欧几里得距离代价函数，即判断分解结束的主要条件；

（3）、依据此代价函数与基本函数，会得到用以分解原信号矩阵的迭代公式，并依据迭代公式进行迭代分解；

（4）、当每次迭代完成之后，将利用预先设定的J_Ecu1门限进行判别，若达到门限则提取两个矩阵的相应特征向量，利用之前得到的语音音乐模型进行是否为语音或者音乐的判断；若判断失败，则继续利用c中所述方法进行迭代分解；若判断成功则在判断其是否达到门限J_Ecu2，直到达到该门限时，停止迭代过程。

4.根据权利3所述的基于NMF非负矩阵分解的音频分离方法，其特征在于：所述步骤（1）中，NMF非负矩阵分解的基本依据公式为：

Y=Y_s+Y_m+V=A_sX_s+A_mX_m+V

其中，Y ∈RN×T 为观察信号的幅度谱，A∈ RN×B，X ∈RB×T，V ∈ RN×T 分别表示Y的基本矩阵、系数矩阵和误差残留矩阵；

上标N，T，B 分别表示频率点数、帧数和基本矩阵所含向量的维数；

A，X 均为非负矩阵，其各元素都大等于0；

下表s与m则代表该矩阵属于语音音频的矩阵和音乐音频的矩阵。

5.根据权利3所述的基于NMF非负矩阵分解的音频分离方法，其特征在于：所述步骤（2）中，欧几里得距离代价函数定义为：

J_Ecu=0.5||Y-A_sX_s+A_mX_m||_F ²

6.根据权利3所述的基于NMF非负矩阵分解的音频分离方法，其特征在于：所述步骤（3）中，分解原信号矩阵的迭代公式定义为：

其中，

，，

，

表示梯度下降学习的速率；

在第一次迭代的时，利用某音乐音频的信号矩阵A_m与某语音音频的信号矩阵A_s以及单位矩阵作为A_sX_s以及A_mX_m的初始矩阵。