CN103871426A - 对比用户音频与原唱音频相似度的方法及其系统 - Google Patents
对比用户音频与原唱音频相似度的方法及其系统 Download PDFInfo
- Publication number
- CN103871426A CN103871426A CN201210541543.5A CN201210541543A CN103871426A CN 103871426 A CN103871426 A CN 103871426A CN 201210541543 A CN201210541543 A CN 201210541543A CN 103871426 A CN103871426 A CN 103871426A
- Authority
- CN
- China
- Prior art keywords
- audio
- similarity
- energy spectrum
- contrast
- original singer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 42
- 238000001228 spectrum Methods 0.000 claims description 34
- 230000005236 sound signal Effects 0.000 claims description 23
- 239000013598 vector Substances 0.000 claims description 22
- 239000012634 fragment Substances 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 239000000203 mixture Substances 0.000 claims description 5
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010606 normalization Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 239000011295 pitch Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000007596 consolidation process Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对比用户音频与原唱音频相似度的方法及其系统,属于音频处理领域,本发明对输入的用户音频,进行音频片段特征提取,用归一化的方法对音频片段特征进行优化,使用DTW算法对优化后的音频片段特征进行相似度对比,从而达到对比用户音频与原唱音频相似度的目的。采用本发明提供的解决方案,能有效对比用户歌声与原唱的相似程度,可在音乐服务领域有着广泛的应用,如KTV评价用户歌声、鉴别劣质音像制品等。
Description
技术领域
本发明属于音频处理领域,具体涉及一种对比用户音频与原唱音频相似度的方法及其系统。
背景技术
目前已有的音频相似度评估通常是基于一个说话人语音信息进行特征提取,提取不同的语音特征等信息后,通常的做法是使用机器学习相关算法对该信息进行分类或者聚类。这样做得到的聚类信息对做相似度评估虽然具有一定作用,但是也存在一些问题。一个比较直观的问题就是需要有大量的原唱音频资料作为聚类时的原始输入数据,并且系统复杂度也较高。此外,有时候系统中可能不存在这样的原始音频数据;或者是有时需要对用户输入音频和原唱音频做一个快速对比,于是使用机器学习的方法对原唱音频做聚类的方法便不可行了。
发明内容
本发明克服了现有技术的不足,提供一种简单、且能对用户输入音频和原唱音频做快速对比的对比用户音频与原唱音频相似度的方法及其系统。
考虑到现有技术的上述问题,根据本发明的一个方面,为解决上述的技术问题,本发明采用以下技术方案:
一种对比用户音频与原唱音频相似度的方法:
获得原音音频信号与待比较音音频信号,并将所述原音音频信号与待比较音音频信号分别转换为音频片段的能量谱;
分别提取所述两个音频片段能量谱每帧的chroma特征向量,并组成各自的chroma特征向量组,用于得到各自特征矩阵;
比较所述两个特征矩阵的相似程度,用于得到音频的相似度差异。
为了更好地实现本发明,进一步的技术方案是:
在本发明的一个实施例中,所述音频片段的能量谱通过傅里叶变换及运用窗函数得到。
在本发明的一个实施例中,所述音频片段的能量谱通过采样率为16KHz、码率为16bit的连续PCM采样信号,利用4096-sample汉宁窗作为窗函数,进行傅里叶变换,用于提取出其相应的能量谱。
在本发明的一个实施例中,所述两个特征矩阵的相似程度是通过DTW算法进行比较。
通过对以上发明内容部分的基于音频特征相似度对比声音的方法的利用,本发明还公开了:
一种对比用户音频与原唱音频相似度的系统,包括:
音频预处理模块,用于获得等长的原音音频与待比较音音频信号,并分别转换为音频片段的能量谱;
Chroma特征值提取模块,用于分别提取所述两个音频片段能量谱每帧的chroma特征向量,并组成各自的chroma特征向量组,从而得到各自特征矩阵;
矩阵相似度对比模块,用于比较所述两个特征矩阵的相似程度,从而得到音频的相似度差异。
在本发明的一个实施例中,所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频与待比较音音频信号分别转换为音频片段的能量谱。
在本发明的一个实施例中,所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号,利用4096-sample汉宁窗作为窗函数,进行傅里叶变换,从而提取出其相应的能量谱。
在本发明的一个实施例中,所述Chroma特征值提取模块中,对于输入的能量谱,Chroma特征采用如下计算公式来计算:
其中ψp(f,t)是输入的能量谱,其中f为相应的对数尺度频率,t为时间变量;BPFc,h(f)是带通过滤器,vc(t)中的每一个元素代表某个八度上第c个音高类,其中c = 1,… ,12; OctL,OctH为八度的范围,分别为3和8,两者覆盖的频率范围为130 Hz到8 kHz;BPFc,h(f)为在音阶h第c个音高类中只通过对数尺度频率Fc,h的带通过滤器,其计算方法如下:
而Fc,h的计算方法如下:
Fc,h=1200h+100(c-11)
。
在本发明的一个实施例中,所述矩阵相似度对比模块通过DTW算法比较音频的相似度差异。
在本发明的一个实施例中,所述特征矩阵相似度对比模块利用DTW算法分两步进行,一是计算两个模式各帧之间的距离;二是在帧匹配距离矩阵中找出一条最佳路径;搜索这条最佳路径的过程可以描述如下:搜索从(1,1)点出发,点(in,im)可达到的前一个格点只可能是(in-1,im)、(in-1,im-1)和(in-1,im-2);那么(in,im)一定选择这三个距离中的最小者所对应的点作为其前续格点,这时此路径的累积距离为:
D(in,im)=d(T(in),R(im))+min{D(in-1, im),D(in-1, im-1),D(in-1, im-2)}
这样从(1,1)点出发搜索,令D(1,1)=0;反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离;在进行语音识别时,将测试模板与所有参考模板进行匹配,得到的最小匹配距离Dmin (N,M)所对应语音即为识别结果。
与现有技术相比,本发明的有益效果之一是:
本发明提供的一种对比用户音频与原唱音频相似度的方法,将输入的用户音频进行音频片段特征提取,可用归一化的方法对音频片段特征进行优化,使用DTW算法对优化后的音频片段特征进行相似度对比,从而达到对比用户音频与原唱音频相似度的目的,且能有效对比用户歌声与原唱的相似程度;以及在音乐服务领域有着广泛的应用,如KTV评价用户歌声、鉴别劣质音像制品等。
附图说明
为了更清楚的说明本申请文件实施例或现有技术中的技术方案,下面将对实施例或现有技术的描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅是对本申请文件中一些实施例的参考,对于本领域技术人员来讲,在不付出创造性劳动的情况下,还可以根据这些附图得到其它的附图。
图1示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的方法的部分流程示意图。
图2示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的系统示意图。
图3示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的系统的DTW算法流程演示图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
基于音频片段的快速歌声原唱相似度评估算法是对输入音频和原唱音频进行音频特征提取、用归一化的方法对音频特征进行优化、使用DTW算法对优化后的音频特征进行相似度对比的过程。它并不关注语音信号中的语义内容,而是对输入歌声音频和原唱音频进行分帧,提取每个分帧的特征向量形成各自特征向量向量组,最后通过比较两个向量组相似度从而确定两个音频的相似度情况。
DTW(Dynamic Time Warping)既动态时间归整算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。虽然DTW算法没有一个有效地用统计方法进行训练的框架,也就是说在解决大词汇量、连续语音等数据量较大的语音识别问题时效果不太好,但是它不像其他音频识别算法(如HMM算法)等在训练阶段需要提供大量的语音数据。而且在对数据量较为孤立的音频识别过程中,DTW算法和其他需要大量前期训练过程的音频处理算法在相同条件下,识别效果相差不大,又由于DTW算法本身既简单又有效,故我们使用DTW算法来实现本发明。
为了对比用户音频与原唱音频相似度,以下公开了一种对比用户音频与原唱音频相似度的方法的实施例:
图1示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的方法的部分流程示意图。
参见图1所示,具体步骤如下:
1)首先是音频特征提取。抽取音频特征是进行音频对比的首要任务,特征提取是寻找原始音频的一种合理表达形式,提取能代表原始音频信号的数据。根据原始音频信号的短时平稳性特征,可以以固定长度的音频帧为单位,统计音频帧内各项音频属性,即音频特征。为了改善音频分类与检索的准确性、速度等性能,选择能够有效表示音频信号能量谱特性短时变化的音频特征是非常重要的。
具体来说,本发明提取用户输入音频和原唱音频信号(均为采样率为16KHz、码率为16bit的连续PCM采样信号),对其进行傅里叶变换并运用窗函数,来得到音频片段的能量谱。在这里将使用4096-sample汉宁窗作为窗函数,利用傅里叶变换提取其能量谱将作为下一个步骤的输入。
注意到本发明的主要内容是实现一个鲁棒的快速原唱对比系统。从人耳的听觉感知经验我们得知,虽然不同版本的流行音乐在配器、演唱者、歌曲长度、音调、音色、节奏等多个方面均可能不同,但其人声部分的歌唱旋律一定不会有大的改变,这是人类听觉将其判断为同一首歌曲的首要前提。
以上提到的原音音频信号与待比较音音频信号可以是等长的。
2)利用步骤1)所得到的两个能量谱作为输入,分别提取其各自每帧的chroma特征向量组成各自的chroma特征向量组,从而得到各自的16k 12chroma特征矩阵。
考虑到上述原因,本步骤2)中引入Chroma特征。Chroma特征其实就是将音频谱信号根据一个音阶中12个的不同音高分入12个块,统计每块中的能量而得到的音频信号特征。客观的说,Chroma特征作为一个基于内容的中层语义特征,应用在音色、节奏、配器等差异较大的流行歌曲中,可以体现出比较强的鲁棒性。本实施例中,将Chroma特征应用到快速原唱歌声对比中,一是可以绕开时间成本较高的众多机器学习算法;二是保证了本发明中快速原唱歌声对比的鲁棒性。
本实施例中Chroma特征的具体提取方法如下:
对于输入的能量谱,Chroma特征采用如下计算公式来计算:
其中ψp(f,t)(f为相应的对数尺度频率,t为时间变量)是输入的能量谱,BPFc,h(f)是带通过滤器,vc(t)中的每一个元素代表某个八度上第c个(c = 1,… ,12)音高类。其中OctL,OctH为八度的范围,分别为3和8,两者覆盖的频率范围为130 Hz到8 kHz。BPFc,h(f)为在音阶h第c个音高类中只通过对数尺度频率Fc,h的带通过滤器,其计算方法如下:
而Fc,h的计算方法如下:
Fc,h=1200h+100(c-1)
当前情况下,输入的信号是采样率为16KHz、码率为16bit的连续PCM采样信号。通过上述公式得到了16k个12维特征向量。这里得到的16k个12维特征向量作为下个阶段的算法输入。
3)利用步骤2)所得到的两个chroma特征矩阵,利用DTW算法,比较出两个矩阵的相似程度,从而得到音频的相似度差异。
具体而言,就是将输入歌声音频的16k个12维向量与样本歌声音频的16k个12维向量作比对。在本发明中,使用的比对方法是动态时间规整方法(DTW)。DTW(Dynamic Time Warping)既动态时间归整算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现较早、较为经典的一种算法。DTW有自己的局限性,归根结底来说,由于DTW算法不是一种机器学习算法,也就是说在输入数据为大词汇量、连续语音等数据量较大的场景下效果不太好。
但同样也是由于DTW算法不是一种机器学习算法,所以它不像其他音频识别算法(如HMM算法)等在训练阶段需要提供大量的语音数据。而且在对数据量较为孤立的音频识别过程中,DTW算法和其他需要大量前期训练过程的音频处理算法在相同条件下,识别效果相差不大,换句话说,在本发明的场景下DTW算法本身既简单又有效。这就是本发明中,之所以要用到动态时间规整方法(DTW)的原因。
DTW算法分两步进行,一是计算两个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。搜索这条路径的过程可以描述如下:搜索从(1,1)点出发,对于局部路径约束如图3,点(in,im)可达到的前一个格点只可能是(in-1,im)、(in-1, im-1)和(in-1, im-2)。那么(in, im)一定选择这三个距离中的最小者所对应的点作为其前续格点,这时此路径的累积距离为:
D(in, im)=d(T(in),R(im))+min{D(in-1, im),D(in-1, im-1),D(in-1, im-2)}
这样从(1,1)点出发(令D(1,1)=0)搜索,反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离。在进行语音识别时,将测试模板与所有参考模板进行匹配,得到的最小匹配距离Dmin (N,M)所对应语音即为识别结果。
最终本发明通过动态时间规整(DTW)方法得到输入歌声音频的16k个12维向量与样本歌声音频的16k个12维向量的对比结果,从而来简单快速判断输入歌声音频与原唱歌声音频的相似度。
图2示出了根据本发明一个实施例的对比用户音频与原唱音频相似度的系统示意图。
通过对上述实施例的基于音频特征相似度对比声音的方法的利用,在图2中公开了一种对比用户音频与原唱音频相似度的系统,如图1所示,一种基于音频特征相似度对比声音的系统,包括音频输入模块和音频对比模块。
具体地,音频输入模块主要包括音频预处理模块,所述音频预处理模块用于获得等长的原音音频与待比较音音频信号,并分别转换为音频片段的能量谱。更为具体的方案可以是,所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频与待比较音音频信号分别转换为音频片段的能量谱;所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号,利用4096-sample汉宁窗作为窗函数,进行傅里叶变换,从而提取出其相应的能量谱。
音频对比模块包括Chroma特征值提取模块和矩阵相似度对比模块。所述Chroma特征值提取模块用于分别提取所述两个音频片段能量谱每帧的chroma特征向量,并组成各自的chroma特征向量组,从而得到各自特征矩阵。所述矩阵相似度对比模块用于比较所述两个特征矩阵的相似程度,从而得到音频的相似度差异。
其Chroma特征值提取模块,对于输入的能量谱,Chroma特征采用如下计算公式来计算:
其中ψp(f,t)(f为相应的对数尺度频率,t为时间变量)是输入的能量谱,BPFc,h(f)是带通过滤器,vc(t)中的每一个元素代表某个八度上第c个(c = 1,… ,12)音高类。其中OctL,OctH为八度的范围,分别为3和8,两者覆盖的频率范围为130 Hz到8 kHz。BPFc,h(f)为在音阶h第c个音高类中只通过对数尺度频率Fc,h的带通过滤器,其计算方法如下:
而Fc,h的计算方法如下:
Fc,h=1200h+100(c-1)。
另外,所述矩阵相似度对比模块可以通过DTW算法比较音频的相似度差异。该算法分两步进行,一是计算两个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳路径。搜索这条路径的过程可以描述如下:搜索从(1,1)点出发,对于局部路径约束如图3,图3中折线为时间规整函数,点(in,im)可达到的前一个格点只可能是(in-1,im)、(in-1,im-1)和(in-1,im-2)。那么(in,im)一定选择这三个距离中的最小者所对应的点作为其前续格点,这时此路径的累积距离为:
D(in,im)=d(T(in),R(im))+min{D(in-1,im),D(in-1,im-1),D(in-1,im-2)}
这样从(1,1)点出发(令D(1,1)=0)搜索,反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离。在进行语音识别时,将测试模板与所有参考模板进行匹配,得到的最小匹配距离Dmin (N,M)所对应语音即为识别结果。
通过使用DTW算法对优化后的音频特征作相似度对比从而对比用户音频与原唱音频相似度,较好的解决了普遍的音频对比算法时间复杂对较高、代价较大的问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似部分相互参见即可。
尽管这里参照本发明的多个解释性实施例对本发明进行了描述,但是,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (9)
1.一种对比用户音频与原唱音频相似度的方法,其特征在于,
获得原音音频信号与待比较音音频信号,并将所述原音音频信号与待比较音音频信号分别转换为音频片段的能量谱;
分别提取所述两个音频片段能量谱每帧的chroma特征向量,并组成各自的chroma特征向量组,并且得到各自特征矩阵;
比较所述两个特征矩阵的相似程度,用于得到音频的相似度差异。
2.根据权利要求1所述的对比用户音频与原唱音频相似度的方法,其特征在于,所述音频片段的能量谱通过傅里叶变换及运用窗函数得到。
3.根据权利要求2所述的对比用户音频与原唱音频相似度的方法,其特征在于,所述音频片段的能量谱通过采样率为16KHz、码率为16bit的连续PCM采样信号,利用4096-sample汉宁窗作为窗函数,进行傅里叶变换,用于提取出其相应的能量谱。
4.根据权利要求1至3任意一项所述的对比用户音频与原唱音频相似度的方法,其特征在于,所述两个特征矩阵的相似程度是通过DTW算法进行比较。
5.一种对比用户音频与原唱音频相似度的系统,其特征在于,包括:
音频预处理模块,用于获得原音音频信号与待比较音音频信号,并分别转换为音频片段的能量谱;
Chroma特征值提取模块,用于分别提取所述两个音频片段能量谱每帧的chroma特征向量,并组成各自的chroma特征向量组,用于得到各自特征矩阵;
矩阵相似度对比模块,用于比较所述两个特征矩阵的相似程度,用于得到音频的相似度差异。
6.根据权利要求5所述的对比用户音频与原唱音频相似度的系统,其特征在于,所述音频预处理模块通过傅里叶变换及运用窗函数将原音音频信号与待比较音音频信号分别转换为音频片段的能量谱。
7.根据权利要求6所述的对比用户音频与原唱音频相似度的系统,其特征在于,所述音频预处理模块通过采样率为16KHz、码率为16bit的连续PCM采样信号,利用4096-sample汉宁窗作为窗函数,进行傅里叶变换,从而提取出其相应的能量谱。
8.根据权利要求5所述的对比用户音频与原唱音频相似度的系统,其特征在于,所述Chroma特征值提取模块中,对于输入的能量谱,Chroma特征采用如下计算方式:
其中ψp(f,t)是输入的能量谱,其中f为相应的对数尺度频率,t为时间变量;BPFc,h(f)是带通过滤器,vc(t)中的每一个元素代表某个八度上第c个音高类,其中c = 1,… ,12; OctL,OctH为八度的范围,分别为3和8,两者覆盖的频率范围为130 Hz到8 kHz;BPFc,h(f)为在音阶h第c个音高类中只通过对数尺度频率Fc,h的带通过滤器,其计算方法如下:
而Fc,h的计算方法如下:
Fc,h=1200h+100(c-1)
。
9.根据权利要求5至8任意一项所述的对比用户音频与原唱音频相似度的系统,其特征在于,所述矩阵相似度对比模块通过DTW算法比较音频的相似度差异。
10. 根据权利要求9所述的对比用户音频与原唱音频相似度的系统,其特征在于,所述特征矩阵相似度对比模块利用DTW算法分两步进行,一是计算两个模式各帧之间的距离;二是在帧匹配距离矩阵中找出一条最佳路径;搜索这条最佳路径的过程可以描述如下:搜索从(1,1)点出发,点(in,im)可达到的前一个格点只可能是(in-1, im)、(in-1, im-1)和(in-1, im-2);那么(in,im)一定选择这三个距离中的最小者所对应的点作为其前续格点,这时此路径的累积距离为:
D(in,im)=d(T(in),R(im))+min{D(in-1, im),D(in-1, im-1),D(in-1, im-2)}
这样从(1,1)点出发搜索,令D(1,1)=0;反复递推,直到(N,M)就可以得到最优路径,而且D(N,M)就是最佳匹配路径所对应的匹配距离;在进行语音识别时,将测试模板与所有参考模板进行匹配,得到的最小匹配距离Dmin (N,M)所对应语音即为识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210541543.5A CN103871426A (zh) | 2012-12-13 | 2012-12-13 | 对比用户音频与原唱音频相似度的方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210541543.5A CN103871426A (zh) | 2012-12-13 | 2012-12-13 | 对比用户音频与原唱音频相似度的方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103871426A true CN103871426A (zh) | 2014-06-18 |
Family
ID=50909889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210541543.5A Pending CN103871426A (zh) | 2012-12-13 | 2012-12-13 | 对比用户音频与原唱音频相似度的方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103871426A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104715760A (zh) * | 2015-02-13 | 2015-06-17 | 朱威 | 一种k歌匹配分析方法及系统 |
CN104992095A (zh) * | 2015-06-29 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 信息验证方法和系统 |
CN105575400A (zh) * | 2015-12-24 | 2016-05-11 | 广东欧珀移动通信有限公司 | 一种获取歌曲信息的方法、终端、服务器和系统 |
CN105788610A (zh) * | 2016-02-29 | 2016-07-20 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN105976849A (zh) * | 2016-05-05 | 2016-09-28 | 广州酷狗计算机科技有限公司 | 一种播放音频数据的方法和装置 |
CN105989837A (zh) * | 2015-02-06 | 2016-10-05 | 中国电信股份有限公司 | 音频匹配方法及装置 |
CN106024033A (zh) * | 2016-06-15 | 2016-10-12 | 北京小米移动软件有限公司 | 播放控制方法及装置 |
WO2016192395A1 (zh) * | 2015-06-05 | 2016-12-08 | 福建星网视易信息系统有限公司 | 一种演唱评分显示方法、装置及系统 |
CN108028051A (zh) * | 2015-09-15 | 2018-05-11 | 雅马哈株式会社 | 评估装置和记录介质 |
CN108665903A (zh) * | 2018-05-11 | 2018-10-16 | 复旦大学 | 一种音频信号相似程度的自动检测方法及其系统 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
CN109192223A (zh) * | 2018-09-20 | 2019-01-11 | 广州酷狗计算机科技有限公司 | 音频对齐的方法和装置 |
CN109887524A (zh) * | 2019-01-17 | 2019-06-14 | 深圳壹账通智能科技有限公司 | 一种演唱评分方法、装置、计算机设备及存储介质 |
CN110277106A (zh) * | 2019-06-21 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110600057A (zh) * | 2019-09-02 | 2019-12-20 | 深圳市平均律科技有限公司 | 演奏声音信息和曲谱信息比对方法及比对系统 |
CN111028860A (zh) * | 2019-11-22 | 2020-04-17 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
WO2020093883A1 (zh) * | 2018-11-09 | 2020-05-14 | 北京达佳互联信息技术有限公司 | 获取视频片段的方法、装置、服务器和存储介质 |
WO2020238777A1 (zh) * | 2019-05-24 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
CN112720527A (zh) * | 2020-12-25 | 2021-04-30 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113284482A (zh) * | 2021-04-13 | 2021-08-20 | 北京雷石天地电子技术有限公司 | 一种歌曲演唱评价方法及系统 |
CN115273892A (zh) * | 2022-07-27 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备、存储介质和计算机程序产品 |
-
2012
- 2012-12-13 CN CN201210541543.5A patent/CN103871426A/zh active Pending
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989837A (zh) * | 2015-02-06 | 2016-10-05 | 中国电信股份有限公司 | 音频匹配方法及装置 |
CN104715760B (zh) * | 2015-02-13 | 2018-06-19 | 朱威 | 一种k歌匹配分析方法及系统 |
CN104715760A (zh) * | 2015-02-13 | 2015-06-17 | 朱威 | 一种k歌匹配分析方法及系统 |
WO2016192395A1 (zh) * | 2015-06-05 | 2016-12-08 | 福建星网视易信息系统有限公司 | 一种演唱评分显示方法、装置及系统 |
CN104992095A (zh) * | 2015-06-29 | 2015-10-21 | 百度在线网络技术(北京)有限公司 | 信息验证方法和系统 |
CN108028051A (zh) * | 2015-09-15 | 2018-05-11 | 雅马哈株式会社 | 评估装置和记录介质 |
CN105575400A (zh) * | 2015-12-24 | 2016-05-11 | 广东欧珀移动通信有限公司 | 一种获取歌曲信息的方法、终端、服务器和系统 |
CN105788610A (zh) * | 2016-02-29 | 2016-07-20 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN105788610B (zh) * | 2016-02-29 | 2018-08-10 | 广州酷狗计算机科技有限公司 | 音频处理方法及装置 |
CN105976849A (zh) * | 2016-05-05 | 2016-09-28 | 广州酷狗计算机科技有限公司 | 一种播放音频数据的方法和装置 |
CN105976849B (zh) * | 2016-05-05 | 2019-05-03 | 广州酷狗计算机科技有限公司 | 一种播放音频数据的方法和装置 |
CN106024033A (zh) * | 2016-06-15 | 2016-10-12 | 北京小米移动软件有限公司 | 播放控制方法及装置 |
CN106024033B (zh) * | 2016-06-15 | 2018-09-11 | 北京小米移动软件有限公司 | 播放控制方法及装置 |
CN108665903A (zh) * | 2018-05-11 | 2018-10-16 | 复旦大学 | 一种音频信号相似程度的自动检测方法及其系统 |
CN108665903B (zh) * | 2018-05-11 | 2021-04-30 | 复旦大学 | 一种音频信号相似程度的自动检测方法及其系统 |
CN109192223A (zh) * | 2018-09-20 | 2019-01-11 | 广州酷狗计算机科技有限公司 | 音频对齐的方法和装置 |
CN109087669A (zh) * | 2018-10-23 | 2018-12-25 | 腾讯科技(深圳)有限公司 | 音频相似度检测方法、装置、存储介质及计算机设备 |
WO2020093883A1 (zh) * | 2018-11-09 | 2020-05-14 | 北京达佳互联信息技术有限公司 | 获取视频片段的方法、装置、服务器和存储介质 |
US11375295B2 (en) | 2018-11-09 | 2022-06-28 | Beijing Dajia Internet Information Technology Co., Ltd. | Method and device for obtaining video clip, server, and storage medium |
CN109887524A (zh) * | 2019-01-17 | 2019-06-14 | 深圳壹账通智能科技有限公司 | 一种演唱评分方法、装置、计算机设备及存储介质 |
WO2020238777A1 (zh) * | 2019-05-24 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
US11929090B2 (en) | 2019-05-24 | 2024-03-12 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for matching audio clips, computer-readable medium, and electronic device |
CN110277106B (zh) * | 2019-06-21 | 2021-10-22 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110277106A (zh) * | 2019-06-21 | 2019-09-24 | 北京达佳互联信息技术有限公司 | 音频质量确定方法、装置、设备及存储介质 |
CN110600057A (zh) * | 2019-09-02 | 2019-12-20 | 深圳市平均律科技有限公司 | 演奏声音信息和曲谱信息比对方法及比对系统 |
CN110600057B (zh) * | 2019-09-02 | 2021-12-10 | 深圳市平均律科技有限公司 | 演奏声音信息和曲谱信息比对方法及比对系统 |
CN111028860A (zh) * | 2019-11-22 | 2020-04-17 | 深圳市康冠智能科技有限公司 | 音频数据处理方法、装置、计算机设备以及存储介质 |
CN112720527A (zh) * | 2020-12-25 | 2021-04-30 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN112720527B (zh) * | 2020-12-25 | 2024-04-09 | 航天科工深圳(集团)有限公司 | 音乐舞蹈自编程机器人 |
CN112802494B (zh) * | 2021-04-12 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN112802494A (zh) * | 2021-04-12 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 语音评测方法、装置、计算机设备和介质 |
CN113284482A (zh) * | 2021-04-13 | 2021-08-20 | 北京雷石天地电子技术有限公司 | 一种歌曲演唱评价方法及系统 |
CN115273892A (zh) * | 2022-07-27 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、设备、存储介质和计算机程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103871426A (zh) | 对比用户音频与原唱音频相似度的方法及其系统 | |
CN111179975B (zh) | 用于情绪识别的语音端点检测方法、电子设备及存储介质 | |
CN108564942B (zh) | 一种基于敏感度可调的语音情感识别方法及系统 | |
Yogesh et al. | A new hybrid PSO assisted biogeography-based optimization for emotion and stress recognition from speech signal | |
CN104732977B (zh) | 一种在线口语发音质量评价方法和系统 | |
CN101136199B (zh) | 语音数据处理方法和设备 | |
Zhang | Music feature extraction and classification algorithm based on deep learning | |
Wu et al. | Audio classification using attention-augmented convolutional neural network | |
CN107274888B (zh) | 一种基于倍频程信号强度和差异化特征子集的情感语音识别方法 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN107767881B (zh) | 一种语音信息的满意度的获取方法和装置 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
CN103714806A (zh) | 一种结合svm和增强型pcp特征的和弦识别方法 | |
CN102592593B (zh) | 一种考虑语音中多线性群组稀疏特性的情绪特征提取方法 | |
Lampropoulos et al. | Evaluation of MPEG-7 descriptors for speech emotional recognition | |
Bandela et al. | Speech emotion recognition using semi-NMF feature optimization | |
Zayene et al. | 3D convolutional recurrent global neural network for speech emotion recognition | |
Weninger et al. | OpenBliSSART: Design and evaluation of a research toolkit for blind source separation in audio recognition tasks | |
Shahzadi et al. | Recognition of emotion in speech using spectral patterns | |
Govoreanu et al. | Speech emotion recognition method using time-stretching in the preprocessing phase and artificial neural network classifiers | |
Ghosal et al. | Automatic male-female voice discrimination | |
WO2023279691A1 (zh) | 语音分类方法、模型训练方法及装置、设备、介质和程序 | |
CN105006231A (zh) | 基于模糊聚类决策树的分布式大型人口语者识别方法 | |
Hu et al. | Singer identification based on computational auditory scene analysis and missing feature methods | |
Polisetty et al. | SWARAM: Spectral Waveform Analysis using ResNet for Acoustic Music Genre Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140618 |