CN109493853A - 一种音频相似度的确定方法及终端 - Google Patents

一种音频相似度的确定方法及终端 Download PDF

Info

Publication number
CN109493853A
CN109493853A CN201811157460.XA CN201811157460A CN109493853A CN 109493853 A CN109493853 A CN 109493853A CN 201811157460 A CN201811157460 A CN 201811157460A CN 109493853 A CN109493853 A CN 109493853A
Authority
CN
China
Prior art keywords
audio
frame
characteristic value
comparison
standard audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811157460.XA
Other languages
English (en)
Other versions
CN109493853B (zh
Inventor
王子亮
郭峰
邹应双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Star Net eVideo Information Systems Co Ltd
Original Assignee
Fujian Star Net eVideo Information Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Star Net eVideo Information Systems Co Ltd filed Critical Fujian Star Net eVideo Information Systems Co Ltd
Priority to CN201811157460.XA priority Critical patent/CN109493853B/zh
Publication of CN109493853A publication Critical patent/CN109493853A/zh
Application granted granted Critical
Publication of CN109493853B publication Critical patent/CN109493853B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种音频相似度的确定方法及终端,分别提取对比音频和标准音频的特征值序列;确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度;一方面能够避免直接根据时间轴进行比对造成的偏差,另一方面能够避免直接累加得到匹配值造成的不准确,可以较大地提高确定音频相似度的精确性,提高用户体验,算法简单,通用性广。

Description

一种音频相似度的确定方法及终端
技术领域
本发明涉及音频处理领域,尤其涉及一种音频相似度的确定方法及终端。
背景技术
在不少的场合均需要计算音频之间的相似度,比如音准评分、声纹评分等。而在进行音频相似度的计算时,通常的做法是将用户演唱的音频与标准音频或特征文件的特征按照时间轴直接比对,但是用户演唱的时间往往与标准有偏差,而且这种偏差并不固定,直接比较特征值来确定音频之间的相似度的方法不太准确;还有一些做法采用动态时间规整算法即dtw算法对齐两个特征序列得到整体匹配值再映射成分数。
dtw算法是一种按时间顺序的强制对齐的算法,实际中标准音频和对比音频往往有些帧内容并不一致也被作了对齐,例如,有时会将标准音频的音频帧与对比音频的静音部分作了对齐,这些帧间距离往往较大,也被累加到整体匹配距离;另外dtw算法对音长的匹配较差,例如在演唱音频中,用户某个音演唱过长,出现一个标准音频帧对应多个对比音频帧的情况,即唱音偏长;又例如,当用户某个音演唱过短,则出现多个标准音频帧对应一个对比音频帧的情况,即漏音。在上述唱音偏长或漏音的情况下,由于音长不同,采用dtw算法,则会将标准音频帧和对比音频帧不断复制并对齐,再进行计算帧间距离,从而无形中增加了标准音频帧的个数和对比音频帧的个数,这些增加的音频帧的帧间距离被累加到dtw的整体匹配距离,从而降低了匹配精度。
因此,现有技术由于不能做到计算音频之间的相似度时的精确匹配,导致评分不太精确,影响用户体验效果。
发明内容
本发明所要解决的技术问题是:本发明提供一种音频相似度的确定方法及终端,能够提高确定音频相似度的精确性,提高用户体验。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种音频相似度的确定方法,包括步骤:
S1、分别提取对比音频和标准音频的特征值序列;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种音频相似度的确定终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、分别提取对比音频和标准音频的特征值序列;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。
本发明的有益效果在于:先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频,在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离,基于所述距离统计特征值匹配的总数,根据特征值匹配的总数以及标准音频的特征总数确定音频相似度,一方面能够避免直接根据时间轴进行比对造成的偏差,另一方面能够避免直接累加得到匹配值造成的不准确,较大地提高了匹配精度,使相似度计算更加精确,用户体验更好良好。
附图说明
图1为本发明实施例的一种音频相似度的确定方法的步骤流程图;
图2为本发明实施例的一种音频相似度的确定终端的结构示意图;
图3为本发明实施例的dtw算法的最佳对齐路径的示意图;
标号说明:
1、一种音频相似度的确定终端; 2、存储器; 3、处理器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
本发明最关键的构思在于:在根据最佳对齐路径对齐对比音频和标准音频后,再继续计算对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,根据特征值匹配的总数以及标准音频的特征总数确定对比音频和标准音频的相似度。
请参照图1,一种音频相似度的确定方法,包括步骤:
S1、分别提取对比音频和标准音频的特征值序列;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。
从上述描述可知,本发明的有益效果在于:先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频,在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离,基于所述距离统计特征值匹配的总数,根据特征值匹配的总数以及标准音频的特征总数确定音频相似度,一方面能够避免直接根据时间轴进行比对造成的偏差,另一方面能够避免直接累加得到匹配值造成的不准确,较大地提高了匹配精度,使相似度计算更加精确,用户体验更好良好。
进一步的,所述步骤S2包括:
将所述对比音频特征值序列和标准音频特征值序列代入动态时间规整算法,并通过回溯算法确定所述对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径。
由上述描述可知,动态时间规整算法的基本思想是采用动态规划的方法确定待比对的两个音频之间的距离最小值,满足该距离最小值对应的路径即为最佳匹配路径,因此,通过将对比音频和标准音频的特征值序列代入动态规则算法,再通过回溯算法就能够得到距离最小的对比音频和标准音频之间的最佳对齐路径。
进一步的,所述步骤S3包括:
S31、对标准音频帧序列中的每一帧执行以下步骤直至最后一帧:
S311、判断标准音频当前帧的特征值是否大于第一阈值,若否,则标记当前帧为不处理帧并跳至下一帧,并返回执行步骤S311,否则,将标准音频的特征总数加1,跳至下一帧,并返回执行步骤S311;
S32、对通过所述步骤S31处理后的标准音频帧序列中未被标记为不处理帧的每一帧执行以下步骤直至最后一帧:
S321、确定与所述标准音频当前帧对齐的对比音频帧,计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
S322、判断所述最小距离是否大于第二阈值,若是,跳至下一帧,并返回步骤S321,否则,将特征值匹配的总数加1,跳至下一帧,并返回步骤S321;
S33、将所述特征值匹配的总数除以所述标准音频的特征总数,作为所述对比音频和标准音频的相似度。
由上述描述可知,动态时间规整算法其实是一种按照时间顺序的强制对齐,实际中两个音频往往有些帧并不一致也被作了对齐,这些帧之间的距离被累加到动态时间规整算法的整体匹配距离,从而降低了准确性,而本发明在动态时间规整算法对齐的基础上,通过对标准音频进行重新判断,对不合理的标准音频帧不进行计算与对比音频帧的距离,避免相似度结果引入不合理的数据,从而可提高相似度的精确度。同时,只有标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离小于第二阈值时,才计入特征值匹配总数,使得相似度的结果更加精确。
进一步的,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧的帧数,若所述帧数为1个,则计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
若所述帧数为多个,则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离,将所有距离中的最小值作为最小距离。
进一步的,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧,若存在多帧标准音频帧与同一帧对比音频帧对齐,则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为各标准音频帧和与其对齐的对比音频帧之间的最小距离,并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧;
所述步骤S322包括:
统计所述各最小距离中小于或者等于第二阈值的总数n,若n=0,则跳至下一帧,并返回执行步骤S321,否则,将特征值匹配的总数加n*p,0<p<1,跳至下一帧,并返回步骤S321。
由上述描述可知,在dtw算法对齐的基础上,通过最佳对齐路径继续计算帧间距离的过程中,对唱音偏长的情况,舍弃不合理的对比音频帧;对漏音的情况,对匹配度给予一定程度的降低,充分考虑了对齐中标准音频帧和对比音频帧多对一与一对多的情况,较大地提高了匹配精度,使相似度计算更加精确,用户体验更良好。
进一步的,所述步骤S322中若是和跳至下一帧之间还包括:
设置不同的预设阈值,不同的预设阈值均大于所述第二阈值,并且有对应的权值;
判断所述最小距离是否小于所述不同的预设阈值中的任一个,若是,则将特征值匹配的总数加1*a,所述a为所述最小距离小于的并且与所述最小距离最接近的预设阈值对应的权值,并且0<a<1。
由上述描述可知,帧间距离越小,则说明音频相似度越高,通过多个预设阈值,且每个预设阈值对应一个相应的权值来调整特征值匹配的总数,能够区分不同特征值的相似程度,使得计算的相似度考虑到多种情况,相似度计算结果更加客观。
进一步的,所述步骤S33之后还包括步骤:
S34、根据预设公式将所述对比音频和标准音频的相似度换算为分数,所述预设公式为:
P=F*α*S;
其中,P表示所述分数,F表示预设满分值,α表示调整系数且α>0,S表示所述对比音频和标准音频的相似度。
由上述描述可知,将音频相似度换算成分数,能够使音频相似度直观化,更容易被用户所理解,提高用户体验。
请参照图2,一种音频相似度的确定终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1、分别提取对比音频和标准音频的特征值序列;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。
从上述描述可知,本发明的有益效果在于:先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频,在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离,基于所述距离统计特征值匹配的总数,根据特征值匹配的总数以及标准音频的特征总数确定音频相似度,一方面能够避免直接根据时间轴进行比对造成的偏差,另一方面能够避免直接累加得到匹配值造成的不准确,较大地提高了匹配精度,使相似度计算更加精确,用户体验更好良好。
进一步的,所述步骤S2包括:
将所述对比音频特征值序列和标准音频特征值序列代入动态时间规整算法,并通过回溯算法确定所述对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径。
由上述描述可知,动态时间规整算法的基本思想是采用动态规划的方法确定待比对的两个音频之间的距离最小值,满足该距离最小值对应的路径即为最佳匹配路径,因此,通过将对比音频和标准音频的特征值序列代入动态规则算法,再通过回溯算法就能够得到距离最小的对比音频和标准音频之间的最佳对齐路径。
进一步的,所述步骤S3包括:
S31、对标准音频帧序列中的每一帧执行以下步骤直至最后一帧:
S311、判断标准音频当前帧的特征值是否大于第一阈值,若否,则标记当前帧为不处理帧并跳至下一帧,并返回执行步骤S311,否则,将标准音频的特征总数加1,跳至下一帧,并返回执行步骤S311;
S32、对通过所述步骤S31处理后的标准音频帧序列中未被标记为不处理帧的每一帧执行以下步骤直至最后一帧:
S321、确定与所述标准音频当前帧对齐的对比音频帧,计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
S322、判断所述最小距离是否大于第二阈值,若是,跳至下一帧,并返回步骤S321,否则,将特征值匹配的总数加1,跳至下一帧,并返回步骤S321;
S33、将所述特征值匹配的总数除以所述标准音频的特征总数,作为所述对比音频和标准音频的相似度。
由上述描述可知,动态时间规整算法其实是一种按照时间顺序的强制对齐,实际中两个音频往往有些帧并不一致也被作了对齐,这些帧之间的距离被累加到动态时间规整算法的整体匹配距离,从而降低了准确性,而本发明在动态时间规整算法对齐的基础上,通过对标准音频进行重新判断,对不合理的标准音频帧不进行计算与对比音频帧的距离,避免相似度结果引入不合理的数据,从而可提高相似度的精确度。同时,只有标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离小于第二阈值时,才计入特征值匹配总数,使得相似度的结果更加精确。
进一步的,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧的帧数,若所述帧数为1个,则计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
若所述帧数为多个,则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离,将所有距离中的最小值作为最小距离。
进一步的,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧,若存在多帧标准音频帧与同一帧对比音频帧对齐,则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为各标准音频帧和与其对齐的对比音频帧之间的最小距离,并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧;
所述步骤S322包括:
统计所述各最小距离中小于或者等于第二阈值的总数n,若n=0,则跳至下一帧,并返回执行步骤S321,否则,将特征值匹配的总数加n*p,0<p<1,跳至下一帧,并返回步骤S321。
由上述描述可知,在dtw算法对齐的基础上,通过最佳对齐路径继续计算帧间距离的过程中,对唱音偏长的情况,舍弃不合理的对比音频帧;对漏音的情况,对匹配度给予一定程度的降低,充分考虑了对齐中标准音频帧和对比音频帧多对一与一对多的情况,较大地提高了匹配精度,使相似度计算更加精确,用户体验更良好。
进一步的,所述步骤S322中若是和跳至下一帧之间还包括:
设置不同的预设阈值,不同的预设阈值均大于所述第二阈值,并且有对应的权值;
判断所述最小距离是否小于所述不同的预设阈值中的任一个,若是,则将特征值匹配的总数加1*a,所述a为所述最小距离小于的并且与所述最小距离最接近的预设阈值对应的权值,并且0<a<1。
由上述描述可知,帧间距离越小,则说明音频相似度越高,通过多个预设阈值,且每个预设阈值对应一个相应的权值来调整特征值匹配的总数,能够区分不同特征值的相似程度,使得计算的相似度考虑到多种情况,相似度计算结果更加客观。
进一步的,所述步骤S33之后还包括步骤:
S34、根据预设公式将所述对比音频和标准音频的相似度换算为分数,所述预设公式为:
P=F*α*S;
其中,P表示所述分数,F表示预设满分值,α表示调整系数且α>0,S表示所述对比音频和标准音频的相似度。
由上述描述可知,将音频相似度换算成分数,能够使音频相似度直观化,更容易被用户所理解,提高用户体验。
实施例一
请参照图1,一种音频相似度的确定方法,其特征在于,包括步骤:
S1、分别提取对比音频和标准音频的特征值序列;
可选的,在提取特征值序列之前,分别对对比音频和标准音频做预处理,所述预处理包括分帧、加窗、端点检测等,再提取所述对比音频和标准音频的特征值序列;
所述特征值可以是短时能量值、音高值、MFCC值等;
当特征值是音高值时,可用于音准评分,当特征值是MFCC值时,可用于声纹评分;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
具体的,将所述对比音频特征值序列和标准音频特征值序列代入动态时间规整算法,并通过回溯算法确定所述对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径;
其中,所述动态时间规则算法,也就是dtw算法具体为:
假设一个参考模板的特征参数可以表示为{R(1),R(2),...,R(m),...R(M)},m为该训练声音的帧标号,M为训练模板总帧数,测试模板的特征参数可表示为{T(1),T(2),...T(n),...T(N)},n为该测试声音的帧标号,N为测试模板总帧数,比较T和R的相似度就是dtw算法的基本思想,记为D[T,R],距离越小相似度就越高,设d[T(n),R(m)]表示这两帧矢量间的距离;
由于对齐路径并不是随意选取的,任何一种语言的发音快慢都有可能变化,但是其各部分的先后次序不可能改变,因此所选的路径必定是从左下角出发,右上角结束的路线。假设路径W依次通过的点为(n1,m1),...(ni,mi),...,(nN,mN),则(n1,m1)=(1,1),(nN,mN)=(N,M)。斜率设为0.5,1或者2,则路径可能有以下三种情况:
(ni,mi)=(ni-1+1,mi-1+2)
(ni,mi)=(ni-1+1,mi-1+1)
(ni,mi)=(ni-1+1,mi-1)
且最佳路径只可能是:D[(ni,mi)]=d[T(ni),R(mi)]+D[(ni-1,mi-1)]
其中:D[(ni,mi)]由下式决定:
D[(ni-1,mi-1)]=min{D[ni-1,mi],D[(ni-1,mi-1)],D[(ni-1,mi-2)]}
则D(N,M)即为最佳对齐路径所对应的匹配距离;
在确定出最佳对齐路径所对应的匹配距离后,最佳对齐路径可通过回溯法得到,路径初始点为(nN,mN)=(N,M),由以上公式逆向查找上一个点(ni-1,mi-1),重复进行,直至末尾点(1,1)。由于T与R往往帧数不一致,路径中的点可能出现T中的一帧对应R中的多帧,或者T中的多帧对应R中的一帧,如图3所示;
将所述对比音频与标准音频的特征值序列作为T与R代入dtw算法,并通过回溯算法即可得到最佳对齐路径W;
在确定出对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径后,根据所述最佳对齐路径,对齐所述对比音频特征值序列和标准音频特征值序列;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度;
具体的,计算对齐后的对比音频特征值序列和标准音频特征值序列之间各个特征值对的距离,根据所述距离确定所述对比音频和标准音频的相似度;
其中,所述距离可以是直接做差值,也可以是欧式距离等;
所述步骤S3具体包括:
S31、对标准音频帧序列中的每一帧执行以下步骤直至最后一帧:
S311、判断标准音频当前帧的特征值是否大于第一阈值,若否,则标记当前帧为不处理帧并跳至下一帧,并返回执行步骤S311,否则,将标准音频的特征总数加1,跳至下一帧,并返回执行步骤S31;
S32、对通过所述步骤S31处理后的标准音频帧序列中未被标记为不处理帧的每一帧执行以下步骤直至最后一帧:
S321、确定与所述标准音频当前帧对齐的对比音频帧,计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
S322、判断所述最小距离是否大于第二阈值,若是,跳至下一帧,并返回步骤S321,否则,将特征值匹配的总数加1,跳至下一帧,并返回步骤S321;
S33、将所述特征值匹配的总数除以所述标准音频的特征总数,作为所述对比音频和标准音频的相似度;
S34、根据预设公式将所述对比音频和标准音频的相似度换算为分数,所述预设公式为:
P=F*α*S;
其中,P表示所述分数,F表示预设满分值,α表示调整系数且α>0,用于调整分数,S表示所述对比音频和标准音频的相似度。
实施例二
本实施例与实施例一不同在于,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧的帧数,若所述帧数为1个,则计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
若所述帧数为多个,则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离,将所有距离中的最小值作为最小距离;
若存在多帧标准音频帧与同一帧对比音频帧对齐,则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所有距离中的最小值作为最小距离,并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧。
实施例三
本实施例与实施例一不同在于,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧,若存在多帧标准音频帧与同一帧对比音频帧对齐,则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为各标准音频帧和与其对齐的对比音频帧之间的最小距离,并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧;
所述步骤S322包括:
统计所述各最小距离中小于或者等于第二阈值的总数n,若n=0,则跳至下一帧,并返回执行步骤S321,否则,将特征值匹配的总数加n*p,0<p<1,跳至下一帧,并返回步骤S321。
实施例四
本实施例与实施例一不同在于,所述步骤S322中若是和跳至下一帧之间还包括:
设置不同的预设阈值,不同的预设阈值均大于所述第二阈值,并且有对应的权值;
判断所述最小距离是否小于所述不同的预设阈值中的任一个,若是,则将特征值匹配的总数加1*a,所述a为所述最小距离小于的并且与所述最小距离最接近的预设阈值对应的权值,并且0<a<1;
具体的,可以事先设置不同的预设阈值,比如第三阈值、第四阈值、第五阈值,所述第二阈值<第三阈值<第四阈值<第五阈值,分别设置它们对应的权值为0.8、0.6、0.4,若最小距离小于第三阈值,则总数加上1*0.8,若最小距离小于第四阈值,则总数加上1*0.6,若最小距离小于第五阈值,则总数加上1*0.4,依此类推,以此来区分不同特征值的相似程度。
实施例五
请参照图2,一种音频相似度的确定终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例一中的步骤。
实施例六
请参照图2,一种音频相似度的确定终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例二中的步骤。
实施例七
请参照图2,一种音频相似度的确定终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例三中的步骤。
实施例八
请参照图2,一种音频相似度的确定终端1,包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序,所述处理器3执行所述计算机程序时实现实施例四中的步骤。
综上所述,本发明提供的一种音频相似度的确定方法及终端,先确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频,在对齐所述对比音频和标准音频之后继续计算对比音频和标准音频之间的距离,基于所述距离统计特征值匹配的总数,根据特征值匹配的总数以及标准音频的特征总数确定音频相似度,在dtw算法对齐的基础上,通过对齐路径继续计算帧间距离的过程中,对唱音偏长的情况,舍弃不合理的对比音频帧;对漏音的情况,对匹配度给予一定程度的降低,充分考虑了对齐中标准音频帧和对比音频帧多对一与一对多的情况,一方面能够避免直接根据时间轴进行比对造成的偏差,另一方面能够避免直接累加得到匹配值造成的不准确,较大地提高了匹配精度,使相似度计算更加精确,用户体验更好良好,该方法不仅可应用于演唱音频,还适用于其他音频,例如语音、乐器演奏音频等,算法简单,通用性广。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种音频相似度的确定方法,其特征在于,包括步骤:
S1、分别提取对比音频和标准音频的特征值序列;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。
2.根据权利要求1所述的一种音频相似度的确定方法,其特征在于,所述步骤S2包括:
将所述对比音频特征值序列和标准音频特征值序列代入动态时间规整算法,并通过回溯算法确定所述对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径。
3.根据权利要求1所述的一种音频相似度的确定方法,其特征在于,所述步骤S3包括:
S31、对标准音频帧序列中的每一帧执行以下步骤直至最后一帧:
S311、判断标准音频当前帧的特征值是否大于第一阈值,若否,则标记当前帧为不处理帧并跳至下一帧,并返回执行步骤S311,否则,将标准音频的特征总数加1,跳至下一帧,并返回执行步骤S311;
S32、对通过所述步骤S31处理后的标准音频帧序列中未被标记为不处理帧的每一帧执行以下步骤直至最后一帧:
S321、确定与标准音频当前帧对齐的对比音频帧,计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
S322、判断所述最小距离是否大于第二阈值,若是,跳至下一帧,并返回步骤S321,否则,将特征值匹配的总数加1,跳至下一帧,并返回步骤S321;
S33、将所述特征值匹配的总数除以所述标准音频的特征总数,作为所述对比音频和标准音频的相似度。
4.根据权利要求3所述的一种音频相似度的确定方法,其特征在于,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧的帧数,若所述帧数为1个,则计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
若所述帧数为多个,则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离,将所有距离中的最小值作为最小距离。
5.根据权利要求3或4所述的一种音频相似度的确定方法,其特征在于,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧,若存在多帧标准音频帧与同一帧对比音频帧对齐,则分别计算所述多帧标准音频帧中的每一帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为各标准音频帧和与其对齐的对比音频帧之间的最小距离,并将所述多帧标准音频帧中的最后一帧作为标准音频当前帧;
所述步骤S322包括:
统计所述各最小距离中小于或者等于第二阈值的总数n,若n=0,则跳至下一帧,并返回执行步骤S321,否则,将特征值匹配的总数加n*p,0<p<1,跳至下一帧,并返回步骤S321。
6.根据权利要求3或4所述的一种音频相似度的确定方法,其特征在于,所述步骤S322中若是和跳至下一帧之间还包括:
设置不同的预设阈值,不同的预设阈值均大于所述第二阈值,并且有对应的权值;
判断所述最小距离是否小于所述不同的预设阈值中的任一个,若是,则将特征值匹配的总数加1*a,所述a为所述最小距离小于的并且与所述最小距离最接近的预设阈值对应的权值,并且0<a<1。
7.根据权利要求1-4中任一项所述的一种音频相似度的确定方法,其特征在于,所述步骤S33之后还包括步骤:
S34、根据预设公式将所述对比音频和标准音频的相似度换算为分数,所述预设公式为:
P=F*α*S;
其中,P表示所述分数,F表示预设满分值,α表示调整系数且α>0,S表示所述对比音频和标准音频的相似度。
8.一种音频相似度的确定终端,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1、分别提取对比音频和标准音频的特征值序列;
S2、确定对比音频特征值序列和标准音频特征值序列之间的最佳对齐路径,对齐所述对比音频和标准音频;
S3、根据标准音频的特征值序列统计标准音频的特征总数,计算对齐后的对比音频和标准音频之间的距离,根据所述距离统计特征值匹配的总数,将所述特征值匹配的总数与标准音频的特征总数比值作为对比音频和标准音频的相似度。
9.根据权利要求8所述的一种音频相似度的确定终端,其特征在于,所述步骤S3包括:
S31、对标准音频帧序列中的每一帧执行以下步骤直至最后一帧:
S311、判断标准音频当前帧的特征值是否大于第一阈值,若否,则标记当前帧为不处理帧并跳至下一帧,并返回执行步骤S311,否则,将标准音频的特征总数加1,跳至下一帧,并返回执行步骤S311;
S32、对通过所述步骤S31处理后的标准音频帧序列中未被标记为不处理帧的每一帧执行以下步骤直至最后一帧:
S321、确定与所述标准音频当前帧对齐的对比音频帧,计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
S322、判断所述最小距离是否大于第二阈值,若是,跳至下一帧,并返回步骤S311,否则,将特征值匹配的总数加1,跳至下一帧,并返回步骤S321;
S33、将所述特征值匹配的总数除以所述标准音频的特征总数,作为所述对比音频和标准音频的相似度。
10.根据权利要求8或9所述的一种音频相似度的确定终端,其特征在于,所述步骤S321包括:
确定与所述标准音频当前帧对齐的对比音频帧的帧数,若所述帧数为1个,则计算所述标准音频当前帧的特征值和与其对齐的对比音频帧的特征值之间的距离,将所述距离作为最小距离;
若所述帧数为多个,则分别计算所述标准音频当前帧的特征值和与其对齐的每一个对比音频帧的特征值之间的距离,将所有距离中的最小值作为最小距离。
CN201811157460.XA 2018-09-30 2018-09-30 一种音频相似度的确定方法及终端 Active CN109493853B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811157460.XA CN109493853B (zh) 2018-09-30 2018-09-30 一种音频相似度的确定方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811157460.XA CN109493853B (zh) 2018-09-30 2018-09-30 一种音频相似度的确定方法及终端

Publications (2)

Publication Number Publication Date
CN109493853A true CN109493853A (zh) 2019-03-19
CN109493853B CN109493853B (zh) 2022-03-22

Family

ID=65689554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811157460.XA Active CN109493853B (zh) 2018-09-30 2018-09-30 一种音频相似度的确定方法及终端

Country Status (1)

Country Link
CN (1) CN109493853B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238777A1 (zh) * 2019-05-24 2020-12-03 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
CN112863464A (zh) * 2021-01-20 2021-05-28 小叶子(北京)科技有限公司 一种基于音频交互的钢琴陪练方法及系统
CN113536026A (zh) * 2020-04-13 2021-10-22 阿里巴巴集团控股有限公司 音频搜索方法、装置及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214462A (zh) * 2011-06-08 2011-10-12 北京爱说吧科技有限公司 用于发音评估的方法和系统
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN103354092A (zh) * 2013-06-27 2013-10-16 天津大学 一种带检错功能的音频乐谱比对方法
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置
CN106847260A (zh) * 2016-12-20 2017-06-13 山东山大鸥玛软件股份有限公司 一种基于特征融合的英语口语自动评分方法
US20180075843A1 (en) * 2016-09-15 2018-03-15 Fujitsu Limited Voice recognition device and voice recognition method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214462A (zh) * 2011-06-08 2011-10-12 北京爱说吧科技有限公司 用于发音评估的方法和系统
CN102521281A (zh) * 2011-11-25 2012-06-27 北京师范大学 一种基于最长匹配子序列算法的哼唱计算机音乐检索方法
CN102568475A (zh) * 2011-12-31 2012-07-11 安徽科大讯飞信息科技股份有限公司 用于普通话水平测评的系统和方法
CN103354092A (zh) * 2013-06-27 2013-10-16 天津大学 一种带检错功能的音频乐谱比对方法
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置
US20180075843A1 (en) * 2016-09-15 2018-03-15 Fujitsu Limited Voice recognition device and voice recognition method
CN106847260A (zh) * 2016-12-20 2017-06-13 山东山大鸥玛软件股份有限公司 一种基于特征融合的英语口语自动评分方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020238777A1 (zh) * 2019-05-24 2020-12-03 腾讯科技(深圳)有限公司 音频片段的匹配方法、装置、计算机可读介质及电子设备
US11929090B2 (en) 2019-05-24 2024-03-12 Tencent Technology (Shenzhen) Company Limited Method and apparatus for matching audio clips, computer-readable medium, and electronic device
CN113536026A (zh) * 2020-04-13 2021-10-22 阿里巴巴集团控股有限公司 音频搜索方法、装置及设备
CN113536026B (zh) * 2020-04-13 2024-01-23 阿里巴巴集团控股有限公司 音频搜索方法、装置及设备
CN112863464A (zh) * 2021-01-20 2021-05-28 小叶子(北京)科技有限公司 一种基于音频交互的钢琴陪练方法及系统

Also Published As

Publication number Publication date
CN109493853B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
CN106847260B (zh) 一种基于特征融合的英语口语自动评分方法
US7711560B2 (en) Speech recognition device and speech recognition method
CN109493853A (zh) 一种音频相似度的确定方法及终端
US8374869B2 (en) Utterance verification method and apparatus for isolated word N-best recognition result
TWI423144B (zh) Combined with the audio and video behavior identification system, identification methods and computer program products
CN109065008A (zh) 一种音乐演奏曲谱匹配方法、存储介质及智能乐器
Gevaert et al. Neural networks used for speech recognition
CN102664016B (zh) 唱歌评测方法及系统
CN108346427A (zh) 一种语音识别方法、装置、设备及存储介质
CN110827821B (zh) 一种语音交互装置、方法和计算机可读存储介质
CN107767847B (zh) 一种智能钢琴演奏测评方法及系统
US10366121B2 (en) Apparatus, method, and computer-readable medium for cue point generation
CN108986824A (zh) 一种回放语音检测方法
CN104992712B (zh) 能识别音乐自动成谱的方法
KR100307623B1 (ko) 엠.에이.피 화자 적응 조건에서 파라미터의 분별적 추정 방법 및 장치 및 이를 각각 포함한 음성 인식 방법 및 장치
CN104103280B (zh) 基于动态时间归整算法的离线语音端点检测的方法和装置
CN106816151B (zh) 一种字幕对准方法及装置
CN110246485B (zh) 基于语音识别模型的样本数据获取方法、终端设备及介质
CN108038146B (zh) 音乐演奏人工智能分析方法、系统及设备
CN110211609A (zh) 一种提升语音识别准确率的方法
CN113052138A (zh) 一种舞蹈与运动动作的智能对比矫正的方法
CN101510423A (zh) 发音检测方法及装置
CN108711337B (zh) 键盘乐器辅助练习方法、装置
CN111176544B (zh) 一种基于图像处理的多功能琴谱显示设备及图像处理方法
Yamamoto et al. Robust i-vector extraction tightly coupled with voice activity detection using deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant