CN112562726B

CN112562726B - 一种基于mfcc相似矩阵的语音音乐分离方法

Info

Publication number: CN112562726B
Application number: CN202011161333.4A
Authority: CN
Inventors: 龙华; 王延凯; 邵玉斌; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-27
Anticipated expiration: 2040-10-27
Also published as: CN112562726A

Abstract

本发明公开了一种基于MFCC相似矩阵的语音音乐分离方法，属于语音音频处理领域。传统的语音参数一般为39维MFCC参数。在带背景音乐的讲话环境下，说话人的语音信息在相邻帧之间是不连续的，而背景音乐的相邻帧之间的语音信息变化是连续且缓慢的。该方法在此规律的基础上，对39维MFCC参数求解相似矩阵S_MFCC，获取语音相邻帧之间的相关性，根据统计规律区分出讲话语音段和纯背景音乐段并将其切割分离，然后分别将背景音乐段和语音段输入7层双向LSTM神经网络进行数据分离，最后再对分离的数据进行整合，得到分离的说话人声音和背景音乐声音。经过测试，该方法可以提高整体的语音段和非语音段的识别准确率，且运算速度快、计算量较小。

Description

一种基于MFCC相似矩阵的语音音乐分离方法

技术领域

本发明涉及一种基于MFCC相似矩阵的语音音乐分离方法，本发明属于音频信号处理技术领域。

背景技术

近年来语音识别得到了迅速发展，在国际化浪潮以及多民族和多文化的相互交织的大背景下，语音识别越来越受到人们的关注。一直以来，语音分离在音视频领域一直是一个比较重要的研究话题，尤其是在含有背景音乐环境下的人话分离，也一直是一个难点。随着研究的不断深入，语音识别、语音信号处理也取得了不少进展，但是在复杂背景音乐环境下的分析、研究还很局限，且分离后的效果也有待提升。

发明内容

本发明要解决的技术问题在于提出一种基于MFCC相似矩阵的语音、音乐区分方法，引入MFCC相似矩阵、构造矩阵，得到每条语音数据帧与帧之间的关联矩阵，通过柱形图对统计结果进行分析，返回区分的音乐段和讲话段，然后将其转换成时间刻度，将标注后的语音信息，输入到7层双向LSTM神经网络(Bi-LSTM)分离模型，分别将讲话段分离为说话者声音+背景音乐1，将音乐段分离为静音+背景音乐2，最后再将分离的说话者声音+静音整合到一起形成分离出来的说话人语音信息，将背景音乐1+背景音乐2整合到一起形成分离出来的背景音乐信息。此方法通过仿真软件对语音样本进行测试，达到了较好的区分结果。为解决上述技术问题，本发明采用如下技术方案；一种基于MFCC相似矩阵的语音音乐分离方法。

附图说明

图1是本发明流程图

图2是三种不同情况下的MFCC相似矩阵图

图3是相似矩阵S_MFCC1

图4是相似矩阵S_MFCC2

图5是语音文件的频率分布直方图

图6是音频标注流程图

图7是分离模型的网络结构图

图8是本发明详细流程图

具体实施方式

S1.测试音频数据的获取:

使用在喜马拉雅电台下载的任意几段带有背景音乐的说话人的语音文件，使用adobe audition软件将语音文件转码为wav文件，采样率为16k,双声道数据。

S2.提取语音信号的MFCC参数：

其步骤包括预加重、分帧、加窗、FFT变换、梅尔滤波器组、对数变换、DCT、动态差分参数。

S2.1预加重：

为了避免在做FFT变换的时候出现数值问题，需要加强一下高频信息，因为一般高频能量比低频小；

S2.2分帧：

为了保证帧与帧之间的平滑，一般我们设置每一帧的前N个采样点数据与前一帧的后N个采样点数据一致，也就是帧移的概念，帧的长度一般设置为10ms-25ms，测试音频采用的帧长为1024，帧移为512；

S2.3加窗：

加窗是对每一帧加窗的，常见的窗的类型有汉明窗、汉宁窗，测试音频采用的是汉宁窗；

S2.4 FFT变换：

利用FFT变换对每一帧的语音信号进行快速傅里叶变换，得到语音信号的频谱信号；

S2.5梅尔滤波器组：

相比于正常的频率机制，梅尔值更加接近于人耳的听觉机制，其在低频范围内增长速度很快，但在高频范围内，梅尔值的增长速度很慢；

S2.6对数运算：

因为人耳听到的声音与信号本身的大小是幂次方关系，所以要对经过了梅尔滤波器组的每一帧数据进行对数运算，这样更加贴近于人耳的听觉机制；

S2.7 DCT：

升倒谱运算，因为大部分的信号数据一般集中在变换后的低频区，一般选用前13维数据作为变换后的数据返回(第一维为能量信息，后12维为梅尔系数)，此处对能量的对数做离散余弦变换就可以得到MFCC参数：

其中H为矩阵；M代表梅尔滤波器的个数；i代表第几帧数据；n代表第i帧的第n列。

S2.8动态差分参数：

对离散余弦变换后的参数，先进行升倒谱运算，再进行一阶差分、二阶差分，然后拼接到一起，形成一个39维的参数矩阵。

如上公式(2)是进行升倒谱运算公式，目的是提升MFCC参数。其中L为升倒谱系数，i为经验数值。然后再分别对MFCC系数进行一阶、二阶差分，目的是增强帧与帧之间的关联性，其差分公式如公式(3)所示：

df(i,j)＝f(i+1,j)-f(i-1,j)+2·f(i+2,j)-2·f(i-2,j) 公式(3)

i＝1,2,3,……,n；j＝1,2,3,……,13；

其中i表示第i帧语音数据，j代表第j个梅尔滤波器系数，f代表得到的13维的MFCC系数，df代表f的一阶差分，n代表语音总帧数。

S3求取MFCC相似矩阵

原理：

在带背景音乐的讲话环境下，说话人的语音信息在相邻帧之间是不连续的，而背景音乐的相邻帧之间的语音信息变化是连续且缓慢的，而每一帧之间的相似关系又可以由相似矩阵来描述。相似矩阵的计算公式如下所示：

其中n代表矩阵维数，C代表MFCC系数矩阵，i代表第i帧MFCC系数，j_a、j_b分别代表当前帧的第a列、第b列，S_MFCC代表MFCC矩阵的相似矩阵。

S4绘制相似矩阵图像

S4.1原理：

对于生成的相似矩阵，每一个元素代表了第i帧和第j帧之间的相似关系，当i＝j时，则关联关系表示为1，而如果两帧之间的关联性很低，其值很低甚至为负数。基于这个规律，本发明将不同的数值表示为不同的颜色，从而更加直观的展现各帧之间的关系。

4.2绘制不同情况下的相似矩阵

本发明将分别展示三种不同情况下的MFCC相似矩阵的绘制出来的图2所示：

图2标示的序号1、2、3、4表示在该区域内只包含背景音乐的信息，此区域内的帧与帧之间的联系性较强，颜色较单一；而其余未标示部分相邻帧之间的关联性则较差，颜色变化较大。本发明认为引起该差异的原因是，在含有背景音乐环景下的说话人信息，在前后帧之间的关联性较差，而只含有背景音乐的区间段帧与帧之间的关联性则较强，这也就导致了本发明在以上列出的不同环境背景下的语音文件MFCC相似矩阵的差别。

S5点乘构造矩阵

S5.1原理：

考虑到相似矩阵的对角相似性，在实际分析中不需要对全部数据进行处理，所以本发明对相似矩阵进行了预处理，从而得到相邻帧之间的关联关系：

S_MFCC1＝S_MFCC·*M₁ 公式(5)

上式(5)中M₁代表与S_MFCC同等大小的上三角矩阵，S_MFCC1代表点乘后的新相似矩阵。为进一步减小本方法的计算量且突出相邻帧之间的相似关系，本发明提出的方法中又在生成的S_MFCC1的基础上继续对相似矩阵进行处理：

S_MFCC2＝S_MFCC1·*M₂ 公式(6)

上式(6)中M₂代表与S_MFCC1同等大小的构造矩阵，S_MFCC2代表该发明中最终使用的相似矩阵。

S5.2绘制

为了达到上面分析的效果，根据上边提出的公式(5)、公式(6)本发明对相似矩阵进行了预处理(点乘构造矩阵)，这里分两步进行：

Step1:先将相似矩阵S_MFCC点乘一个上三角矩阵M₁，得到矩阵S_MFCC1；如图3所示。

Step2:S_MFCC1点乘构造矩阵M₂，得到相似矩阵S_MFCC2，如图4所示。

这样一来本发明提出的基于MFCC相似矩阵的语音音乐分离方法既可以保留需要的相邻帧之间的关联关系也可以减小计算量。

S6对相邻帧之间的相似系数进行统计

统计相似矩阵的中大于阈值a(经验参数)的元素所在的行和列，形成一个新的参数矩阵D，用来分析各帧出现的次数及频率。

S7绘制频率分布直方图且求其均值

7.1原理

在本发明的上一节可以得到预处理后的相似矩阵，分别统计相似矩阵非零元素个数C₁和超过阈值b(经验参数)的个数C₂:如满足条件

(其中d为通过大量实验获得的经验参数)则判别该语音段全部为音乐，如不满足，则对相似矩阵内各帧出现的次数及频率进行统计，且以每个柱形图代表相邻M帧出现的次数c(i)，其计算公式如公式(7)所示：

其中frame(t)为各帧出现的次数,n为语音数据的总帧数。然后求取各个柱形图区间内各帧出现次数的均值，其计算公式(8)所示：

其中n为语音数据的总帧数，为c(i)相邻M帧出现的次数。要以该公式中提到的mean作为区分音乐段和含语音段的依据。如果柱状图统计的个数多于这个数值，则判别其为音乐段，如果低于该数值，则判别为含语音段。此步骤提出的每个柱形图代表相邻M帧出现次数的总和，一定程度上提高了该方法的自适应性和可变性。

S7.2频率分布直方图且求其均值

根据上边提到的原理，对任意一个语音数据都可得到这样一个柱状统计图，横坐标代表的是帧区间，纵坐标表示的是出现的次数，如图5所示。并且再在此处对频率分布直方图统计出来的结果进行求均值操作，利用此值来区分讲话段和音乐段；

S8返回背景音乐所在的帧区间

综合本发明提出的所有步骤，随机选取一个语音音频进行测试，完成以上所提的1-7步，将MFCC系数传入判别算法，得到判别区间，然后即可根据该判别区间对音频文件进行标注。这里对权利要求书的1-8步进行一下画图介绍，如图6所示.

按照权利要求书的要求，返回背景音乐所在的帧区间并将区间转换为时间刻度，并且完成对语音文件的标注。

S9语音分离模型

本发明提出的一种基于MFCC相似矩阵的语音、音乐分离方法，对要分离的语音文件进行区间标注，这样在进行语音分离的时候就可以不再去对检测出的背景音乐段进行分离，而只需对含语音段进行分离，而后再分别对分离的背景音乐和说话人信息进行整合，即可得到分离后的语音数据。

分离模型采用双向长短时神经网络(Bi-LSTM)训练,因为该模型在处理序列问题时表现突出，但也容易出现梯度消失的情况，为了解决这一问题，在分离模型中提出了使用残差连接(Residual connections)，可以有效的解决在训练过程中的梯度消失问题。

本发明所提出一种基于MFCC相似矩阵的语音音乐分离方法中的分离模型采用了7层双向LSTM,其中前六层均为双向长短时神经网络(Bi-LSTM)，且每一层的输入、输出状态数均不尽相同,第七层采用单向的LSTM网络，该分离模型网络结构如下所示。将前一步获得的音频标注文件读入到音频输入端，在模型内通过不断的迭代最后输出分离后的背景音乐和讲话信息。

图7是本发明提出的分离模型的网络结构。

经过以上步骤，即可实现对于带背景音乐环境下的语音、音乐分离任务。

S10本发明方法简单应用实例

随机采用任意一段25s音频文件，针对本发明所提到的一种基于MFCC相似矩阵的语音音乐分离方法进行实验，按照发明内容中的步骤介绍，检测该语音段的背景音乐段和含讲话段，其表现结果如表1所示。

通过表1的检测结果可以看到，通过本发明提到的方法，检测出的背景语音段的信息全部正确，可见本发明在区分讲话着信息和背景音乐方面还是有较为突出的表现。

表1返回结果判别

帧区间/帧	时间段/秒	真实结果
			26帧-56帧	0.832s-1.792s	√
111帧-131帧	3.552s-4.192s	√
			146帧-221帧	4.672s-7.072s	√
390帧-450帧	12.48s-14.4s	√
			520帧-550帧	16.64s-17.6s	√
570帧-615帧	18.24s-19.68s	√

Claims

1.一种基于MFCC相似矩阵的语音音乐分离方法，包括以下步骤：

S1求取MFCC相似矩阵：根据相似矩阵计算公式，求得其相似矩阵；

S2绘制相似矩阵图像：绘制该相似矩阵的图像，相似度越高，颜色越亮；

S3点乘构造矩阵：将得到的相似矩阵点乘构造矩阵，只保留相邻帧之间的相似系数；

S4对相邻帧之间的相似系数进行统计：统计相似矩阵的中大于阈值a的元素所在的行和列；

S5统计各帧出现的次数：对相似矩阵内各帧出现的次数及频率进行统计；

S6绘制频率分布直方图且求其均值：每相邻M帧数据绘制一个直方图，并求取分布直方图的均值，利用此值来区分讲话段和音乐段；所述讲话段为包含背景音乐和语音的音频段，所述音乐段为不包含语音的纯背景音乐；

S7分别统计相似矩阵非零元素个数C₁和超过阈值b的个数C₂：如果满足

其中d为通过大量实验获得的经验参数，则判别该语音段全部为音乐，所述该语音段为所分析的音频段，所述音乐为不包含语音的纯背景音乐；

如不满足，则对相似矩阵内各帧出现的次数及频率进行统计且以每个柱形图代表相邻M帧出现的次数c(i)；具体计算公式为：

其中frame(i·j)为各帧出现的次数，n为语音数据的总帧数；i为第i帧，j为第j帧；

求取各个柱形图区间内各帧出现次数的均值，具体计算公式为：

其中c(m)为相邻M帧出现的次数；mean作为区分音乐段和含语音段的依据；柱状图统计的个数多于这个数值，则判别其为音乐段，如果低于该数值，则判别为含语音段；所述每个柱形图代表相邻M帧出现次数的总和；

S8时间尺度变换：将得到的帧数，根据分帧公式再次转换到时间尺度上，从而将含有背景音乐的说话人信息区分为背景音乐段和说话段；所述背景音乐段为不包含语音的纯背景音乐，所述说话段为包含语音和背景音乐的音频段；

S9音频分离：分离模型采用的是7层的双向LSTM网络(Bi-LSTM)进行训练，每一层的输入、输出层均不完全相同，且为了解决训练过程中的梯度消失情况，在部分层之间加入了残差连接；所述所分析的音频段在所述时间尺度变换阶段区分、标注完成背景音乐段和说话段后，获得音频标注文件；所述音频标注文件在音频分离模型的输入端读入，通过在模型内不断的迭代后得到分离后的背景音乐和分离后的讲话信息；所述分离后的背景音乐和分离后的讲话信息在整合后，通过分离模型的输出端输出，得到背景音乐和语音；所述音频分离不再对已检测出的背景音乐段进行分离，只需对说话段进行分离。

2.根据权利要求1所述的一种基于MFCC相似矩阵的语音音乐分离方法，其特征在于：求取MFCC相似矩阵：对音频数据提取39维的MFCC参数，再根据相似矩阵计算公式，求得其相似矩阵S_MFCC。

3.根据权利要求1所述的一种基于MFCC相似矩阵的语音音乐分离方法，其特征在于：绘制相似矩阵图像：绘制该相似矩阵的图像，相似度越高，颜色越亮。