CN109493853A

CN109493853A - 一种音频相似度的确定方法及终端

Info

Publication number: CN109493853A
Application number: CN201811157460.XA
Authority: CN
Inventors: 王子亮; 郭峰; 邹应双
Original assignee: Fujian Star Net eVideo Information Systems Co Ltd
Current assignee: Fujian Star Net eVideo Information Systems Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-03-19
Anticipated expiration: 2038-09-30
Also published as: CN109493853B

Abstract

本发明公开一种音频相似度的确定方法及终端，分别提取对比音频和标准音频的特征值序列；确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径，对齐所述对比音频和标准音频；根据标准音频的特征值序列统计标准音频的特征总数，计算对齐后的对比音频和标准音频之间的距离，根据所述距离统计特征值匹配的总数，将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度；一方面能够避免直接根据时间轴进行比对造成的偏差，另一方面能够避免直接累加得到匹配值造成的不准确，可以较大地提高确定音频相似度的精确性，提高用户体验，算法简单，通用性广。

Description

一种音频相似度的确定方法及终端

技术领域

本发明涉及音频处理领域，尤其涉及一种音频相似度的确定方法及终端。

背景技术

在不少的场合均需要计算音频之间的相似度，比如音准评分、声纹评分等。而在进行音频相似度的计算时，通常的做法是将用户演唱的音频与标准音频或特征文件的特征按照时间轴直接比对，但是用户演唱的时间往往与标准有偏差，而且这种偏差并不固定，直接比较特征值来确定音频之间的相似度的方法不太准确；还有一些做法采用动态时间规整算法即dtw算法对齐两个特征序列得到整体匹配值再映射成分数。

dtw算法是一种按时间顺序的强制对齐的算法，实际中标准音频和对比音频往往有些帧内容并不一致也被作了对齐，例如，有时会将标准音频的音频帧与对比音频的静音部分作了对齐，这些帧间距离往往较大，也被累加到整体匹配距离；另外dtw算法对音长的匹配较差，例如在演唱音频中，用户某个音演唱过长，出现一个标准音频帧对应多个对比音频帧的情况，即唱音偏长；又例如，当用户某个音演唱过短，则出现多个标准音频帧对应一个对比音频帧的情况，即漏音。在上述唱音偏长或漏音的情况下，由于音长不同，采用dtw算法，则会将标准音频帧和对比音频帧不断复制并对齐，再进行计算帧间距离，从而无形中增加了标准音频帧的个数和对比音频帧的个数，这些增加的音频帧的帧间距离被累加到dtw的整体匹配距离，从而降低了匹配精度。

因此，现有技术由于不能做到计算音频之间的相似度时的精确匹配，导致评分不太精确，影响用户体验效果。

发明内容

本发明所要解决的技术问题是：本发明提供一种音频相似度的确定方法及终端，能够提高确定音频相似度的精确性，提高用户体验。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种音频相似度的确定方法，包括步骤：

S1、分别提取对比音频和标准音频的特征值序列；

S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径，对齐所述对比音频和标准音频；

S3、根据标准音频的特征值序列统计标准音频的特征总数，计算对齐后的对比音频和标准音频之间的距离，根据所述距离统计特征值匹配的总数，将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种音频相似度的确定终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S1、分别提取对比音频和标准音频的特征值序列；

本发明的有益效果在于：先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径，对齐所述对比音频和标准音频，在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离，基于所述距离统计特征值匹配的总数，根据特征值匹配的总数以及标准音频的特征总数确定音频相似度，一方面能够避免直接根据时间轴进行比对造成的偏差，另一方面能够避免直接累加得到匹配值造成的不准确，较大地提高了匹配精度，使相似度计算更加精确，用户体验更好良好。

附图说明

图1为本发明实施例的一种音频相似度的确定方法的步骤流程图；

图2为本发明实施例的一种音频相似度的确定终端的结构示意图；

图3为本发明实施例的dtw算法的最佳对齐路径的示意图；

标号说明：

1、一种音频相似度的确定终端； 2、存储器； 3、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

本发明最关键的构思在于：在根据最佳对齐路径对齐对比音频和标准音频后，再继续计算对比音频和标准音频之间的距离，根据所述距离统计特征值匹配的总数，根据特征值匹配的总数以及标准音频的特征总数确定对比音频和标准音频的相似度。

请参照图1，一种音频相似度的确定方法，包括步骤：

S1、分别提取对比音频和标准音频的特征值序列；

从上述描述可知，本发明的有益效果在于：先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径，对齐所述对比音频和标准音频，在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离，基于所述距离统计特征值匹配的总数，根据特征值匹配的总数以及标准音频的特征总数确定音频相似度，一方面能够避免直接根据时间轴进行比对造成的偏差，另一方面能够避免直接累加得到匹配值造成的不准确，较大地提高了匹配精度，使相似度计算更加精确，用户体验更好良好。

进一步的，所述步骤S2包括：

将所述对比音频特征值序列和标准音频特征值序列代入动态时间规整算法，并通过回溯算法确定所述对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径。

由上述描述可知，动态时间规整算法的基本思想是采用动态规划的方法确定待比对的两个音频之间的距离最小值，满足该距离最小值对应的路径即为最佳匹配路径，因此，通过将对比音频和标准音频的特征值序列代入动态规则算法，再通过回溯算法就能够得到距离最小的对比音频和标准音频之间的最佳对齐路径。

进一步的，所述步骤S3包括：

S31、对标准音频帧序列中的每一帧执行以下步骤直至最后一帧：

S311、判断标准音频当前帧的特征值是否大于第一阈值，若否，则标记当前帧为不处理帧并跳至下一帧，并返回执行步骤S311，否则，将标准音频的特征总数加1，跳至下一帧，并返回执行步骤S311；

S32、对通过所述步骤S31处理后的标准音频帧序列中未被标记为不处理帧的每一帧执行以下步骤直至最后一帧：

S321、确定与所述标准音频当前帧对齐的对比音频帧，计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离，将所述距离作为最小距离；

S322、判断所述最小距离是否大于第二阈值，若是，跳至下一帧，并返回步骤S321，否则，将特征值匹配的总数加1，跳至下一帧，并返回步骤S321；

S33、将所述特征值匹配的总数除以所述标准音频的特征总数，作为所述对比音频和标准音频的相似度。

由上述描述可知，动态时间规整算法其实是一种按照时间顺序的强制对齐，实际中两个音频往往有些帧并不一致也被作了对齐，这些帧之间的距离被累加到动态时间规整算法的整体匹配距离，从而降低了准确性，而本发明在动态时间规整算法对齐的基础上，通过对标准音频进行重新判断，对不合理的标准音频帧不进行计算与对比音频帧的距离，避免相似度结果引入不合理的数据，从而可提高相似度的精确度。同时，只有标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离小于第二阈值时，才计入特征值匹配总数，使得相似度的结果更加精确。

进一步的，所述步骤S321包括：

确定与所述标准音频当前帧对齐的对比音频帧的帧数，若所述帧数为1个，则计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离，将所述距离作为最小距离；

若所述帧数为多个，则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离，将所有距离中的最小值作为最小距离。

进一步的，所述步骤S321包括：

确定与所述标准音频当前帧对齐的对比音频帧，若存在多帧标准音频帧与同一帧对比音频帧对齐，则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离，将所述距离作为各标准音频帧和与其对齐的对比音频帧之间的最小距离，并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧；

所述步骤S322包括：

统计所述各最小距离中小于或者等于第二阈值的总数n，若n＝0，则跳至下一帧，并返回执行步骤S321，否则，将特征值匹配的总数加n*p，0<p<1,跳至下一帧，并返回步骤S321。

由上述描述可知，在dtw算法对齐的基础上，通过最佳对齐路径继续计算帧间距离的过程中，对唱音偏长的情况，舍弃不合理的对比音频帧；对漏音的情况，对匹配度给予一定程度的降低，充分考虑了对齐中标准音频帧和对比音频帧多对一与一对多的情况，较大地提高了匹配精度，使相似度计算更加精确，用户体验更良好。

进一步的，所述步骤S322中若是和跳至下一帧之间还包括：

设置不同的预设阈值，不同的预设阈值均大于所述第二阈值，并且有对应的权值；

判断所述最小距离是否小于所述不同的预设阈值中的任一个，若是，则将特征值匹配的总数加1*a，所述a为所述最小距离小于的并且与所述最小距离最接近的预设阈值对应的权值，并且0<a<1。

由上述描述可知，帧间距离越小，则说明音频相似度越高，通过多个预设阈值，且每个预设阈值对应一个相应的权值来调整特征值匹配的总数，能够区分不同特征值的相似程度，使得计算的相似度考虑到多种情况，相似度计算结果更加客观。

进一步的，所述步骤S33之后还包括步骤：

S34、根据预设公式将所述对比音频和标准音频的相似度换算为分数，所述预设公式为：

P＝F*α*S；

其中，P表示所述分数，F表示预设满分值，α表示调整系数且α>0，S表示所述对比音频和标准音频的相似度。

由上述描述可知，将音频相似度换算成分数，能够使音频相似度直观化，更容易被用户所理解，提高用户体验。

请参照图2，一种音频相似度的确定终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

S1、分别提取对比音频和标准音频的特征值序列；

进一步的，所述步骤S2包括：

进一步的，所述步骤S3包括：

进一步的，所述步骤S321包括：

所述步骤S322包括：

进一步的，所述步骤S322中若是和跳至下一帧之间还包括：

进一步的，所述步骤S33之后还包括步骤：

P＝F*α*S；

实施例一

请参照图1，一种音频相似度的确定方法，其特征在于，包括步骤：

S1、分别提取对比音频和标准音频的特征值序列；

可选的，在提取特征值序列之前，分别对对比音频和标准音频做预处理，所述预处理包括分帧、加窗、端点检测等，再提取所述对比音频和标准音频的特征值序列；

所述特征值可以是短时能量值、音高值、MFCC值等；

当特征值是音高值时，可用于音准评分，当特征值是MFCC值时，可用于声纹评分；

具体的，将所述对比音频特征值序列和标准音频特征值序列代入动态时间规整算法，并通过回溯算法确定所述对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径；

其中，所述动态时间规则算法，也就是dtw算法具体为：

假设一个参考模板的特征参数可以表示为{R(1),R(2),...,R(m),...R(M)}，m为该训练声音的帧标号，M为训练模板总帧数，测试模板的特征参数可表示为{T(1),T(2),...T(n),...T(N)}，n为该测试声音的帧标号，N为测试模板总帧数，比较T和R的相似度就是dtw算法的基本思想，记为D[T,R]，距离越小相似度就越高，设d[T(n),R(m)]表示这两帧矢量间的距离；

由于对齐路径并不是随意选取的，任何一种语言的发音快慢都有可能变化，但是其各部分的先后次序不可能改变，因此所选的路径必定是从左下角出发，右上角结束的路线。假设路径W依次通过的点为(n₁,m₁),...(n_i,m_i),...,(n_N,m_N)，则(n₁,m₁)＝(1,1)，(n_N,m_N)＝(N,M)。斜率设为0.5，1或者2，则路径可能有以下三种情况：

(n_i,m_i)＝(n_i-1+1,m_i-1+2)

(n_i,m_i)＝(n_i-1+1,m_i-1+1)

(n_i,m_i)＝(n_i-1+1,m_i-1)

且最佳路径只可能是：D[(n_i,m_i)]＝d[T(n_i),R(m_i)]+D[(n_i-1,m_i-1)]

其中：D[(n_i,m_i)]由下式决定：

D[(n_i-1,m_i-1)]＝min{D[n_i-1,m_i],D[(n_i-1,m_i-1)],D[(n_i-1,m_i-2)]}

则D(N,M)即为最佳对齐路径所对应的匹配距离；

在确定出最佳对齐路径所对应的匹配距离后，最佳对齐路径可通过回溯法得到，路径初始点为(n_N,m_N)＝(N,M)，由以上公式逆向查找上一个点(n_i-1,m_i-1)，重复进行，直至末尾点(1,1)。由于T与R往往帧数不一致，路径中的点可能出现T中的一帧对应R中的多帧，或者T中的多帧对应R中的一帧，如图3所示；

将所述对比音频与标准音频的特征值序列作为T与R代入dtw算法，并通过回溯算法即可得到最佳对齐路径W；

在确定出对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径后，根据所述最佳对齐路径，对齐所述对比音频特征值序列和标准音频特征值序列；

S3、根据标准音频的特征值序列统计标准音频的特征总数，计算对齐后的对比音频和标准音频之间的距离，根据所述距离统计特征值匹配的总数，将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度；

具体的，计算对齐后的对比音频特征值序列和标准音频特征值序列之间各个特征值对的距离，根据所述距离确定所述对比音频和标准音频的相似度；

其中，所述距离可以是直接做差值，也可以是欧式距离等；

所述步骤S3具体包括：

S311、判断标准音频当前帧的特征值是否大于第一阈值，若否，则标记当前帧为不处理帧并跳至下一帧，并返回执行步骤S311，否则，将标准音频的特征总数加1，跳至下一帧，并返回执行步骤S31；

S33、将所述特征值匹配的总数除以所述标准音频的特征总数，作为所述对比音频和标准音频的相似度；

P＝F*α*S；

其中，P表示所述分数，F表示预设满分值，α表示调整系数且α>0，用于调整分数，S表示所述对比音频和标准音频的相似度。

实施例二

本实施例与实施例一不同在于，所述步骤S321包括：

若所述帧数为多个，则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离，将所有距离中的最小值作为最小距离；

若存在多帧标准音频帧与同一帧对比音频帧对齐，则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离，将所有距离中的最小值作为最小距离，并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧。

实施例三

本实施例与实施例一不同在于，所述步骤S321包括：

所述步骤S322包括：

实施例四

本实施例与实施例一不同在于，所述步骤S322中若是和跳至下一帧之间还包括：

判断所述最小距离是否小于所述不同的预设阈值中的任一个，若是，则将特征值匹配的总数加1*a，所述a为所述最小距离小于的并且与所述最小距离最接近的预设阈值对应的权值，并且0<a<1；

具体的，可以事先设置不同的预设阈值，比如第三阈值、第四阈值、第五阈值，所述第二阈值<第三阈值<第四阈值<第五阈值，分别设置它们对应的权值为0.8、0.6、0.4，若最小距离小于第三阈值，则总数加上1*0.8，若最小距离小于第四阈值，则总数加上1*0.6，若最小距离小于第五阈值，则总数加上1*0.4，依此类推，以此来区分不同特征值的相似程度。

实施例五

请参照图2，一种音频相似度的确定终端1，包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例一中的步骤。

实施例六

请参照图2，一种音频相似度的确定终端1，包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例二中的步骤。

实施例七

请参照图2，一种音频相似度的确定终端1，包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例三中的步骤。

实施例八

请参照图2，一种音频相似度的确定终端1，包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现实施例四中的步骤。

综上所述，本发明提供的一种音频相似度的确定方法及终端，先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径，对齐所述对比音频和标准音频，在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离，基于所述距离统计特征值匹配的总数，根据特征值匹配的总数以及标准音频的特征总数确定音频相似度，在dtw算法对齐的基础上，通过对齐路径继续计算帧间距离的过程中，对唱音偏长的情况，舍弃不合理的对比音频帧；对漏音的情况，对匹配度给予一定程度的降低，充分考虑了对齐中标准音频帧和对比音频帧多对一与一对多的情况，一方面能够避免直接根据时间轴进行比对造成的偏差，另一方面能够避免直接累加得到匹配值造成的不准确，较大地提高了匹配精度，使相似度计算更加精确，用户体验更好良好，该方法不仅可应用于演唱音频，还适用于其他音频，例如语音、乐器演奏音频等，算法简单，通用性广。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种音频相似度的确定方法，其特征在于，包括步骤：

S1、分别提取对比音频和标准音频的特征值序列；

2.根据权利要求1所述的一种音频相似度的确定方法，其特征在于，所述步骤S2包括：

3.根据权利要求1所述的一种音频相似度的确定方法，其特征在于，所述步骤S3包括：

S321、确定与标准音频当前帧对齐的对比音频帧，计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离，将所述距离作为最小距离；

4.根据权利要求3所述的一种音频相似度的确定方法，其特征在于，所述步骤S321包括：

5.根据权利要求3或4所述的一种音频相似度的确定方法，其特征在于，所述步骤S321包括：

所述步骤S322包括：

6.根据权利要求3或4所述的一种音频相似度的确定方法，其特征在于，所述步骤S322中若是和跳至下一帧之间还包括：

7.根据权利要求1-4中任一项所述的一种音频相似度的确定方法，其特征在于，所述步骤S33之后还包括步骤：

P＝F*α*S；

8.一种音频相似度的确定终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

S1、分别提取对比音频和标准音频的特征值序列；

9.根据权利要求8所述的一种音频相似度的确定终端，其特征在于，所述步骤S3包括：

S322、判断所述最小距离是否大于第二阈值，若是，跳至下一帧，并返回步骤S311，否则，将特征值匹配的总数加1，跳至下一帧，并返回步骤S321；

10.根据权利要求8或9所述的一种音频相似度的确定终端，其特征在于，所述步骤S321包括：