CN103871426A

CN103871426A - 对比用户音频与原唱音频相似度的方法及其系统

Info

Publication number: CN103871426A
Application number: CN201210541543.5A
Authority: CN
Inventors: 王雷
Original assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Current assignee: SHANGHAI 8D WORLD NETWORK SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2012-12-13
Filing date: 2012-12-13
Publication date: 2014-06-18

Abstract

本发明公开了一种对比用户音频与原唱音频相似度的方法及其系统，属于音频处理领域，本发明对输入的用户音频，进行音频片段特征提取，用归一化的方法对音频片段特征进行优化，使用DTW算法对优化后的音频片段特征进行相似度对比，从而达到对比用户音频与原唱音频相似度的目的。采用本发明提供的解决方案，能有效对比用户歌声与原唱的相似程度，可在音乐服务领域有着广泛的应用，如KTV评价用户歌声、鉴别劣质音像制品等。

Description

对比用户音频与原唱音频相似度的方法及其系统

技术领域

本发明属于音频处理领域，具体涉及一种对比用户音频与原唱音频相似度的方法及其系统。

背景技术

目前已有的音频相似度评估通常是基于一个说话人语音信息进行特征提取，提取不同的语音特征等信息后，通常的做法是使用机器学习相关算法对该信息进行分类或者聚类。这样做得到的聚类信息对做相似度评估虽然具有一定作用，但是也存在一些问题。一个比较直观的问题就是需要有大量的原唱音频资料作为聚类时的原始输入数据，并且系统复杂度也较高。此外，有时候系统中可能不存在这样的原始音频数据；或者是有时需要对用户输入音频和原唱音频做一个快速对比，于是使用机器学习的方法对原唱音频做聚类的方法便不可行了。

发明内容

本发明克服了现有技术的不足，提供一种简单、且能对用户输入音频和原唱音频做快速对比的对比用户音频与原唱音频相似度的方法及其系统。

考虑到现有技术的上述问题，根据本发明的一个方面，为解决上述的技术问题，本发明采用以下技术方案：

一种对比用户音频与原唱音频相似度的方法：

获得原音音频信号与待比较音音频信号，并将所述原音音频信号与待比较音音频信号分别转换为音频片段的能量谱；

分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，用于得到各自特征矩阵；

比较所述两个特征矩阵的相似程度，用于得到音频的相似度差异。

为了更好地实现本发明，进一步的技术方案是：

在本发明的一个实施例中，所述音频片段的能量谱通过傅里叶变换及运用窗函数得到。

在本发明的一个实施例中，所述音频片段的能量谱通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，用于提取出其相应的能量谱。

在本发明的一个实施例中，所述两个特征矩阵的相似程度是通过DTW算法进行比较。

通过对以上发明内容部分的基于音频特征相似度对比声音的方法的利用，本发明还公开了：

一种对比用户音频与原唱音频相似度的系统，包括：

音频预处理模块，用于获得等长的原音音频与待比较音音频信号，并分别转换为音频片段的能量谱；

Chroma特征值提取模块，用于分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，从而得到各自特征矩阵；

矩阵相似度对比模块，用于比较所述两个特征矩阵的相似程度，从而得到音频的相似度差异。

在本发明的一个实施例中，所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频与待比较音音频信号分别转换为音频片段的能量谱。

在本发明的一个实施例中，所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，从而提取出其相应的能量谱。

在本发明的一个实施例中，所述Chroma特征值提取模块中，对于输入的能量谱，Chroma特征采用如下计算公式来计算：

v_{c} (t) = Σ_{{Oct}_{L}}^{{Oct}_{H}} {&Integral;}_{- \infty}^{\infty} {BOF}_{c, h} (f) ψ_{p} (f, t) df

其中ψ_p(f,t)是输入的能量谱，其中f为相应的对数尺度频率，t为时间变量；BPF_c,h(f)是带通过滤器，v_c(t)中的每一个元素代表某个八度上第c个音高类，其中c = 1，… ，12； Oct_L，Oct_H为八度的范围，分别为3和8，两者覆盖的频率范围为130 Hz到8 kHz；BPF_c,h(f)为在音阶h第c个音高类中只通过对数尺度频率F_c,h的带通过滤器，其计算方法如下：

{BPF}_{c, h} (f) = \frac{1}{2} (1 - \cos \frac{2 π (f - (F_{c, h} - 100))}{200})

而F_c,h的计算方法如下：

F_c,h=1200h+100(c-11)

。

在本发明的一个实施例中，所述矩阵相似度对比模块通过DTW算法比较音频的相似度差异。

在本发明的一个实施例中，所述特征矩阵相似度对比模块利用DTW算法分两步进行，一是计算两个模式各帧之间的距离；二是在帧匹配距离矩阵中找出一条最佳路径；搜索这条最佳路径的过程可以描述如下：搜索从(1,1)点出发，点(i_n,i_m)可达到的前一个格点只可能是(i_n-1,i_m)、(i_n-1,i_m-1)和(i_n-1,i_m-2)；那么(i_n,i_m)一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：

D(i_n,i_m)=d(T(i_n),R(i_m))+min{D(i_n-1, i_m),D(i_n-1, i_m-1),D(i_n-1, i_m-2)}

这样从(1,1)点出发搜索，令D(1,1)=0；反复递推，直到(N,M)就可以得到最优路径，而且D(N,M)就是最佳匹配路径所对应的匹配距离；在进行语音识别时，将测试模板与所有参考模板进行匹配，得到的最小匹配距离D_min (N,M)所对应语音即为识别结果。

与现有技术相比，本发明的有益效果之一是：

本发明提供的一种对比用户音频与原唱音频相似度的方法，将输入的用户音频进行音频片段特征提取，可用归一化的方法对音频片段特征进行优化，使用DTW算法对优化后的音频片段特征进行相似度对比，从而达到对比用户音频与原唱音频相似度的目的，且能有效对比用户歌声与原唱的相似程度；以及在音乐服务领域有着广泛的应用，如KTV评价用户歌声、鉴别劣质音像制品等。

附图说明

为了更清楚的说明本申请文件实施例或现有技术中的技术方案，下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅是对本申请文件中一些实施例的参考，对于本领域技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图得到其它的附图。

图1示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的方法的部分流程示意图。

图2示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的系统示意图。

图3示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的系统的DTW算法流程演示图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

基于音频片段的快速歌声原唱相似度评估算法是对输入音频和原唱音频进行音频特征提取、用归一化的方法对音频特征进行优化、使用DTW算法对优化后的音频特征进行相似度对比的过程。它并不关注语音信号中的语义内容，而是对输入歌声音频和原唱音频进行分帧，提取每个分帧的特征向量形成各自特征向量向量组，最后通过比较两个向量组相似度从而确定两个音频的相似度情况。

DTW（Dynamic Time Warping）既动态时间归整算法，该算法基于动态规划（DP）的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。虽然DTW算法没有一个有效地用统计方法进行训练的框架，也就是说在解决大词汇量、连续语音等数据量较大的语音识别问题时效果不太好，但是它不像其他音频识别算法（如HMM算法）等在训练阶段需要提供大量的语音数据。而且在对数据量较为孤立的音频识别过程中，DTW算法和其他需要大量前期训练过程的音频处理算法在相同条件下,识别效果相差不大，又由于DTW算法本身既简单又有效，故我们使用DTW算法来实现本发明。

为了对比用户音频与原唱音频相似度，以下公开了一种对比用户音频与原唱音频相似度的方法的实施例：

参见图1所示，具体步骤如下：

1）首先是音频特征提取。抽取音频特征是进行音频对比的首要任务，特征提取是寻找原始音频的一种合理表达形式，提取能代表原始音频信号的数据。根据原始音频信号的短时平稳性特征，可以以固定长度的音频帧为单位，统计音频帧内各项音频属性，即音频特征。为了改善音频分类与检索的准确性、速度等性能，选择能够有效表示音频信号能量谱特性短时变化的音频特征是非常重要的。

具体来说，本发明提取用户输入音频和原唱音频信号（均为采样率为16KHz、码率为16bit的连续PCM采样信号），对其进行傅里叶变换并运用窗函数，来得到音频片段的能量谱。在这里将使用4096-sample汉宁窗作为窗函数，利用傅里叶变换提取其能量谱将作为下一个步骤的输入。

注意到本发明的主要内容是实现一个鲁棒的快速原唱对比系统。从人耳的听觉感知经验我们得知，虽然不同版本的流行音乐在配器、演唱者、歌曲长度、音调、音色、节奏等多个方面均可能不同，但其人声部分的歌唱旋律一定不会有大的改变，这是人类听觉将其判断为同一首歌曲的首要前提。

以上提到的原音音频信号与待比较音音频信号可以是等长的。

2）利用步骤1）所得到的两个能量谱作为输入，分别提取其各自每帧的chroma特征向量组成各自的chroma特征向量组，从而得到各自的16k 12chroma特征矩阵。

考虑到上述原因，本步骤2）中引入Chroma特征。Chroma特征其实就是将音频谱信号根据一个音阶中12个的不同音高分入12个块，统计每块中的能量而得到的音频信号特征。客观的说，Chroma特征作为一个基于内容的中层语义特征，应用在音色、节奏、配器等差异较大的流行歌曲中，可以体现出比较强的鲁棒性。本实施例中，将Chroma特征应用到快速原唱歌声对比中，一是可以绕开时间成本较高的众多机器学习算法；二是保证了本发明中快速原唱歌声对比的鲁棒性。

本实施例中Chroma特征的具体提取方法如下：

对于输入的能量谱，Chroma特征采用如下计算公式来计算：

v_{c} (t) = Σ_{{Oct}_{L}}^{{Oct}_{H}} {&Integral;}_{- \infty}^{\infty} {BOF}_{c, h} (f) ψ_{p} (f, t) df

其中ψ_p(f,t)（f为相应的对数尺度频率，t为时间变量）是输入的能量谱，BPF_c,h(f)是带通过滤器，v_c(t)中的每一个元素代表某个八度上第c个（c = 1，… ，12）音高类。其中Oct_L，Oct_H为八度的范围，分别为3和8，两者覆盖的频率范围为130 Hz到8 kHz。BPF_c,h(f)为在音阶h第c个音高类中只通过对数尺度频率F_c,h的带通过滤器，其计算方法如下：

{BPF}_{c, h} (f) = \frac{1}{2} (1 - \cos \frac{2 π (f - (F_{c, h} - 100))}{200})

而F_c,h的计算方法如下：

F_c,h=1200h+100(c-1)

当前情况下，输入的信号是采样率为16KHz、码率为16bit的连续PCM采样信号。通过上述公式得到了16k个12维特征向量。这里得到的16k个12维特征向量作为下个阶段的算法输入。

3）利用步骤2）所得到的两个chroma特征矩阵，利用DTW算法，比较出两个矩阵的相似程度，从而得到音频的相似度差异。

具体而言，就是将输入歌声音频的16k个12维向量与样本歌声音频的16k个12维向量作比对。在本发明中，使用的比对方法是动态时间规整方法（DTW）。DTW（Dynamic Time Warping）既动态时间归整算法，该算法基于动态规划（DP）的思想，解决了发音长短不一的模板匹配问题，是语音识别中出现较早、较为经典的一种算法。DTW有自己的局限性，归根结底来说，由于DTW算法不是一种机器学习算法，也就是说在输入数据为大词汇量、连续语音等数据量较大的场景下效果不太好。

但同样也是由于DTW算法不是一种机器学习算法，所以它不像其他音频识别算法（如HMM算法）等在训练阶段需要提供大量的语音数据。而且在对数据量较为孤立的音频识别过程中，DTW算法和其他需要大量前期训练过程的音频处理算法在相同条件下,识别效果相差不大，换句话说，在本发明的场景下DTW算法本身既简单又有效。这就是本发明中，之所以要用到动态时间规整方法（DTW）的原因。

DTW算法分两步进行，一是计算两个模式各帧之间的距离，即求出帧匹配距离矩阵，二是在帧匹配距离矩阵中找出一条最佳路径。搜索这条路径的过程可以描述如下：搜索从(1,1)点出发，对于局部路径约束如图3，点(i_n,i_m)可达到的前一个格点只可能是(i_n-1,i_m)、(i_n-1, i_m-1)和(i_n-1, i_m-2)。那么(i_n, i_m)一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：

D(i_n, i_m)=d(T(i_n),R(i_m))+min{D(i_n-1, i_m),D(i_n-1, i_m-1),D(i_n-1, i_m-2)}

这样从(1,1)点出发(令D(1,1)=0)搜索，反复递推，直到(N,M)就可以得到最优路径，而且D(N,M)就是最佳匹配路径所对应的匹配距离。在进行语音识别时，将测试模板与所有参考模板进行匹配，得到的最小匹配距离D_min (N,M)所对应语音即为识别结果。

最终本发明通过动态时间规整(DTW)方法得到输入歌声音频的16k个12维向量与样本歌声音频的16k个12维向量的对比结果，从而来简单快速判断输入歌声音频与原唱歌声音频的相似度。

通过对上述实施例的基于音频特征相似度对比声音的方法的利用，在图2中公开了一种对比用户音频与原唱音频相似度的系统，如图1所示，一种基于音频特征相似度对比声音的系统，包括音频输入模块和音频对比模块。

具体地，音频输入模块主要包括音频预处理模块，所述音频预处理模块用于获得等长的原音音频与待比较音音频信号，并分别转换为音频片段的能量谱。更为具体的方案可以是，所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频与待比较音音频信号分别转换为音频片段的能量谱；所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，从而提取出其相应的能量谱。

音频对比模块包括Chroma特征值提取模块和矩阵相似度对比模块。所述Chroma特征值提取模块用于分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，从而得到各自特征矩阵。所述矩阵相似度对比模块用于比较所述两个特征矩阵的相似程度，从而得到音频的相似度差异。

其Chroma特征值提取模块，对于输入的能量谱，Chroma特征采用如下计算公式来计算：

v_{c} (t) = Σ_{{Oct}_{L}}^{Oc t_{H}} {&Integral;}_{- \infty}^{\infty} BP F_{c, h} (f) ψ_{p} (f, t) df

{BPF}_{c, h} (f) = \frac{1}{2} (1 - \cos \frac{2 π (f - (F_{c, h} - 100))}{200})

而F_c,h的计算方法如下：

F_c,h=1200h+100(c-1)。

另外，所述矩阵相似度对比模块可以通过DTW算法比较音频的相似度差异。该算法分两步进行，一是计算两个模式各帧之间的距离，即求出帧匹配距离矩阵，二是在帧匹配距离矩阵中找出一条最佳路径。搜索这条路径的过程可以描述如下：搜索从(1,1)点出发，对于局部路径约束如图3，图3中折线为时间规整函数，点(i_n,i_m)可达到的前一个格点只可能是(i_n-1,i_m)、(i_n-1,i_m-1)和(i_n-1,i_m-2)。那么(i_n,i_m)一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：

D(i_n,i_m)=d(T(i_n),R(i_m))+min{D(i_n-1,i_m),D(i_n-1,i_m-1),D(i_n-1,i_m-2)}

通过使用DTW算法对优化后的音频特征作相似度对比从而对比用户音频与原唱音频相似度，较好的解决了普遍的音频对比算法时间复杂对较高、代价较大的问题。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同相似部分相互参见即可。

尽管这里参照本发明的多个解释性实施例对本发明进行了描述，但是，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种对比用户音频与原唱音频相似度的方法，其特征在于，

分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，并且得到各自特征矩阵；

2.根据权利要求1所述的对比用户音频与原唱音频相似度的方法，其特征在于，所述音频片段的能量谱通过傅里叶变换及运用窗函数得到。

3.根据权利要求2所述的对比用户音频与原唱音频相似度的方法，其特征在于，所述音频片段的能量谱通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，用于提取出其相应的能量谱。

4.根据权利要求1至3任意一项所述的对比用户音频与原唱音频相似度的方法，其特征在于，所述两个特征矩阵的相似程度是通过DTW算法进行比较。

5.一种对比用户音频与原唱音频相似度的系统，其特征在于，包括：

音频预处理模块，用于获得原音音频信号与待比较音音频信号，并分别转换为音频片段的能量谱；

Chroma特征值提取模块，用于分别提取所述两个音频片段能量谱每帧的chroma特征向量，并组成各自的chroma特征向量组，用于得到各自特征矩阵；

矩阵相似度对比模块，用于比较所述两个特征矩阵的相似程度，用于得到音频的相似度差异。

6.根据权利要求5所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频信号与待比较音音频信号分别转换为音频片段的能量谱。

7.根据权利要求6所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号，利用4096-sample汉宁窗作为窗函数，进行傅里叶变换，从而提取出其相应的能量谱。

8.根据权利要求5所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述Chroma特征值提取模块中，对于输入的能量谱，Chroma特征采用如下计算方式：

v_{c} (t) = Σ_{{Oct}_{L}}^{{Oct}_{H}} {&Integral;}_{- \infty}^{\infty} {BOF}_{c, h} (f) ψ_{p} (f, t) df

{BPF}_{c, h} (f) = \frac{1}{2} (1 - \cos \frac{2 π (f - (F_{c, h} - 100))}{200})

而F_c,h的计算方法如下：

F_c,h=1200h+100(c-1)

。

9.根据权利要求5至8任意一项所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述矩阵相似度对比模块通过DTW算法比较音频的相似度差异。

10. 根据权利要求9所述的对比用户音频与原唱音频相似度的系统，其特征在于，所述特征矩阵相似度对比模块利用DTW算法分两步进行，一是计算两个模式各帧之间的距离；二是在帧匹配距离矩阵中找出一条最佳路径；搜索这条最佳路径的过程可以描述如下：搜索从(1,1)点出发，点(i_n,i_m)可达到的前一个格点只可能是(i_n-1, i_m)、(i_n-1, i_m-1)和(i_n-1, i_m-2)；那么(i_n,i_m)一定选择这三个距离中的最小者所对应的点作为其前续格点，这时此路径的累积距离为：

D(i_n,i_m)=d(T(i_n),R(i_m))+min{D(i_n-1, i_m),D(i_n-1, i_m-1),D(i_n-1, i_m-2)}