CN106935248A - 一种语音相似度检测方法及装置 - Google Patents
一种语音相似度检测方法及装置 Download PDFInfo
- Publication number
- CN106935248A CN106935248A CN201710080153.5A CN201710080153A CN106935248A CN 106935248 A CN106935248 A CN 106935248A CN 201710080153 A CN201710080153 A CN 201710080153A CN 106935248 A CN106935248 A CN 106935248A
- Authority
- CN
- China
- Prior art keywords
- voice
- audio
- frequency characteristics
- characteristics parameter
- audio frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 46
- 230000003595 spectral effect Effects 0.000 claims abstract description 16
- 238000013519 translation Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 19
- 238000001914 filtration Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000012512 characterization method Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 3
- 210000001260 vocal cord Anatomy 0.000 description 8
- 238000005070 sampling Methods 0.000 description 5
- 241000208340 Araliaceae Species 0.000 description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 235000008434 ginseng Nutrition 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006854 communication Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本发明公开了一种语音相似度检测方法,包括:采集语音的音频数据;从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。相应的,本发明还公开了一种语音相似度检测装置。采用本发明实施例,能够提高语音相似度检测的准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种语音相似度检测方法及装置。
背景技术
现有技术中,通常采用的语音相似度评分方法基本原理是对原始音频和输入音频数据分别进行频谱分析,得到语音的频谱特征,然后对两个频谱特征进行比较,从而得出两个语音相似度的分值。但是,这种方法存在着难以精确区分音调变化,对音量大小和不同人体的声带特色差异很敏感,模仿跟读的完整度对评分结果影响很大等缺点,从而导致语音相似度评分准确率低。
发明内容
本发明实施例提出一种语音相似度检测方法及装置,能够提高语音相似度检测的准确率。
本发明实施例提供一种语音相似度检测方法,包括:
采集语音的音频数据;
从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;
将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
进一步地,所述音频特征参数还包括基音轨迹;
其中,所述基音轨迹的提取方法具体包括:
从所述音频数据中计算获取基音序列;
从所述基音序列中获取候选拐点;
将曲率值大于预设阈值的候选拐点作为拐点;
获取所有相邻两个拐点的线段,并保存到折线序列中;
计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;
将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。
进一步地,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;
所述梅尔倒频谱系数的提取方法具体包括:
将所述音频数据等比例划分为至少一个音频帧;
对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;
分别计算所述至少一个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。
进一步地,所述声音强度的提取方法具体包括:
将所述音频数据划分为N个音频帧;其中,N≥1;
计算每个音频帧的平均声音强度;
根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度。
进一步地,所述平均声音强度的计算公式为 其中,AveMag(n)为音频帧n的平均声音强度,M为音频帧n的采样点个数,Sn(m)为音频帧n中的采样点m的信号幅度值;
所述声音强度的计算公式为其中,Mag(n)为音频帧n的声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度。
进一步地,在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前,还包括:
采用平移公式,对提取的所述基音轨迹进行线性平移;
所述平移公式如下:
其中,f′2(x)为所述语音平移后的基音轨迹,f2(x)为从所述语音中提取的基音轨迹,f1(k)为原始音频的基音轨迹,N为基音轨迹的长度。
进一步地,所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度,具体包括:
根据所述语音的音频特征参数和所述原始音频的音频特征参数,计算所述语音与所述原始音频之间的相关系数;
根据所述相关系数,获取所述语音与所述原始音频之间的相似度。
进一步地,所述相关系数包括但不限于:欧式距离、皮尔森相关系数或似然分数值;
其中,所述欧式距离的计算公式如下:
其中,D为语音与原始音频之间的欧氏距离,Amn为M×N的第一矩阵,Bmn为M×N的第二矩阵。
进一步地,在所述从所述音频数据中提取音频特征参数之前,还包括:
对所述语音的音频数据进行预处理;所述预处理包括预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理。
进一步地,在所述获取所述语音与所述原始音频之间的相似度之后,还包括:
根据所述语音与所述原始音频之间的相似度,计算所述语音的得分。
进一步地,所述音频特征参数还包括文本语音匹配相关特征参数。
相应地,本发明实施例还提供一种语音相似度检测装置,包括:
采集模块,用于采集语音的音频数据;
参数提取模块,用于从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;以及,
对比模块,用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
实施本发明实施例,具有如下有益效果:
本发明实施例提供的语音相似度检测方法及装置,能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数,进而将提取的音频特征参数与原始音频的音频特征参数进行对比,获取语音与原始音频的相似度,克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点,加强对音调匹配度的考察,有效提高相似度检测的准确性;在提取基音轨迹后,对语音的基音轨迹进行线性平移后再与原始音频进行对比,减小由麦克风、人体声带特征等引起的差异问题,进一步提高相似度检测的准确性。
附图说明
图1是本发明提供的语音相似度检测方法的一个实施例的流程示意图;
图2是本发明提供的语音相似度检测方法中基音轨迹的提取方法的一个实施例的流程示意图;
图3是本发明提供的语音相似度检测方法中梅尔倒频谱系数的提取方法的一个实施例的流程示意图;
图4是本发明提供的语音相似度检测装置的一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的语音相似度检测方法的一个实施例的流程示意图,包括:
S1、采集语音的音频数据;
S2、从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;
S3、将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
需要说明的是,在对语音相似度进行检测时,采集待检测的语音的音频数据,从该音频数据中提取出频谱系数和声音强度两种音频特征参数。其中,频谱系数符合人对低频信号更敏感的听觉特征,而声音强度可以刻画语音中音量的大小,其为声波在单位时间内作用在与其传递方向垂直的单位面积上的能量。采用语音的这两种音频特征参数与原始音频的音频特征参数进行对比,可使该对比对音量大小、不同人体的声带特色不敏感,同时考虑到音调因素,更有效地评估待检测的语音与原始音频的相似度,以提高语音检测的准确率。
进一步地,所述音频特征参数还包括基音轨迹;
其中,所述基音轨迹的提取方法具体包括:
从所述音频数据中计算获取基音序列;
从所述基音序列中获取候选拐点;
将曲率值大于预设阈值的候选拐点作为拐点;
获取所有相邻两个拐点的线段,并保存到折线序列中;
计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;
将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。
更具体地,如图2所示,所述基音轨迹的提取方法具体包括:
S21、从所述音频数据中计算获取能量过零率、自相关函数和线性预测系数的均方预测误差,并通过人工神经网络计算出基音序列;
S22、根据曲线链码的差分码,从所述基音序列中获取候选拐点;
S23、将曲率值大于预设阈值的候选拐点作为拐点,并保存所述拐点的位置值;
S24、根据所有拐点的位置值获取所有相邻两个拐点的线段,并保存到折线序列中;
S25、计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;
S26、将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。
需要说明的是,基音轨迹决定了语音中音调的变化,是用来区分声音相似度的重要因素,基音频率反映了说话人的声音特征,包括音量高低、语速快慢、性别、年龄等。对基音曲线进行平滑处理后就可得到基音轨迹,基音轨迹决定了语音中的音调变化,是可以用来区分声音相似度的重要因素。
在提取语音音频数据中的基音轨迹时,先从音频数据中提取基音轨迹,即选取能量过零率、自相关函数、线性预测系数LPC的均方预测误差,共4组特征值作为输入,通过BP人工神经网络计算出基音序列。进而,根据曲线Freeman链码的差分码,从基因序列中寻找候选拐点,如果候选拐点的曲率值大于给定的阈值,表示成功找到了一个拐点,保存该拐点的位置值,并继续寻找下一个拐点,直到找出所有拐点为止。在找出所有拐点后,根据拐点的位置值,获得每个拐点与上一个拐点的线段,即相邻两个拐点的线段,并保存到折线序列中,进而计算每个线段与上一条线段,即相邻两条线段之间的夹角值,并保存到夹角序列中。采用折线序列和夹角序列来表征基音轨迹,在后续对比中,通过对比折线序列和夹角序列即可得到语音的基音轨迹曲线与原始音频的基音轨迹曲线之间的相似度。将夹角和折线作为因子应用到语音相似度评估中,在曲线局部上的小偏差有很好的鲁棒性,同时匹配结果不受语音信号的音量大小影响。另外,在不同的应用场景下,可以适当增减、替换相关的特征参数。例如,要准确区分人的声带特色,可取消使用基音轨迹特征参数。
进一步地,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;
所述梅尔倒频谱系数的提取方法具体包括:
将所述音频数据等比例划分为至少一个音频帧;
对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;
分别计算所述至少一个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。
更具体地,如图3所示,所述梅尔倒频谱系数的提取方法具体包括:
S31、将所述音频数据等比例划分为P个音频帧;其中,P≥1;
S32、分别对所述P个音频帧进行离散快速傅里叶变换并取模的二次方,获得离散功率谱;
S33、采用Q个带通滤波器对所述离散功率谱进行滤波,获得Q个自然对数;其中,Q≥2;
S34、分别计算所述Q个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的Q-1个参数作为所述梅尔倒频谱系数。
需要说明的是,人类听觉系统是一个非线性的系统,对不同频率的声音有着不同的敏感度,人对低频信号更敏感,梅尔倒频谱系数刚好符合人耳的这种听觉特征,因此使用梅尔倒频谱系数作为语音相似度评估中的重要系数,使语音评估结果更接近于人类的主观感受。另外,在对语音相似度评估的准确度要求不高的情况,可使用倒傅里叶频谱系数代替梅尔倒频谱系数,也可使用其他频谱系数。
在提取梅尔倒频谱系数时,先将语音的音频数据等比例划分为P个音频帧s(n),n=1,2,…P。对每个音频帧s(n),通过离散FFT变换(离散快速傅里叶变换)以及取模的二次方,得到离散功率谱S(n)。根据Q个带通滤波器对S(n)进行滤波,得到Q个自然对数Pm,m=1,2,…Q。再对Pm计算其离散余弦变换,得到Dm,m=0,2,…Q-1,去除D0,得到D1,D2,...,DQ-1作为梅尔倒频谱系数特征参数。
进一步地,所述声音强度的提取方法具体包括:
将所述音频数据划分为N个音频帧;其中,N≥1;
采用平均声音强度的计算公式,计算每个音频帧的平均声音强度;所述平均声音强度的计算公式为其中,AveMag(n)为音频帧n的平均声音强度,M为音频帧n的采样点个数,Sn(m)为音频帧n中的采样点m的信号幅度值;
采用声音强度的计算公式,对所述每个音频帧的平均声音强度进行归一化处理,获取所述每个音频帧的声音强度;所述声音强度的计算公式为其中,Mag(n)为音频帧n的声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度。
需要说明的是,语音信号中音量的大小是由声音强度来刻画的,它是声波在单位时间内作用在与其传递方向垂直的单位面积上的能量。在提取声音强度时,先采用声音强度计算公式计算每个音频帧的平均声音强度。而语音录音时的整体音量大小设置不应该影响语音相似度检测结果,因此需对计算出的声音强度进行归一化处理,以减轻录音时音量大小设置对语音相似度检测的结果。
进一步地,在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前,还包括:
采用平移公式,对提取的所述基音轨迹进行线性平移;
所述平移公式如下:
其中,f′2(x)为所述语音平移后的基音轨迹,f2(x)为从所述语音中提取的基音轨迹,f1(k)为原始音频的基音轨迹,N为基音轨迹的长度。
需要说明的是,由于人体声带的固有特征,人与人之间的声音强度有差异,对此还需采用线性平移的方法对基音轨迹f2(x)进行平移,将基音轨迹f2(x)调整为f′2(x),以减小这种差异,从而解决了麦克风差异、人体声带特征差异引起的评分差异问题。
进一步地,所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度,具体包括:
根据所述语音的音频特征参数构建M×N的第一矩阵,根据所述原始音频的音频特征参数构建M×N的第二矩阵;
根据所述第一矩阵和所述第二矩阵,计算所述语音与所述原始音频之间的相关系数;
根据所述相关系数获取所述语音与所述原始音频之间的相似度。
其中,所述相关系数包括但不限于:欧式距离、皮尔森相关系数或似然分数值。
其中,所述欧式距离的计算公式如下:
其中,D为语音与原始音频之间的欧氏距离,Amn为第一矩阵,Bmn为第二矩阵。
需要说明的是,在提取语音的音频特征参数和原始音频的音频特征参数后,分别将两组音频的音频特征参数构建为M×N的矩阵A和B,进而计算矩阵A和B之间的欧式距离,欧式距离越小,则两组音频之间的差异越小,反之亦然,从而最终确定两组音频之间的相似度。采用欧氏距离来描述两组音频之间的相似度,具有简单、高效等优点。计算两组特征参数的相似度使用了欧氏距离,以达到简单高效的目标。在具体应用中,也可以替换或者增加其他相关性计算方法,例如皮尔森相关系数、似然分数值等。
进一步地,在所述从所述音频数据中提取音频特征参数之前,还包括:
对所述语音的音频数据进行预处理;所述预处理包括预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理。
需要说明的是,在使用麦克风采集录制的语音后,将录制语音的音频数据转换为wav格式,以便后续流程中处理。由于人声中的高频部分在传播过程中会出现较多衰减,因此需要对音频数据补偿高频率部分,采用滤波器对语音的音频数据进行预滤波的预处理,其公式为H(z)=1-uz-1,其中,常量u的值决定语音高频部分的幅度大小,一般根据经验取值为0.94。由于音频数据往往受到直流电流干扰和环境声音干扰,使其存在一定的噪声,因此在预滤波后采用高通滤波器有效去除直流和部分环境噪声,再通过低通滤波器以配合高通滤波器有效去除噪声。滤波后,把音频信号在时域上进行等间隔抽样,抽样后对音频信号进行量化,即将信号幅度等比例划分为不同区域,相同区域的幅值设为相同。进而,检测语音端点,即检测音频数据中每一段人声的开始位置和结束位置,以便于排除静音,其中,语音端点检测的依据是音频信号短时间内平稳且能量低于一定阈值。语音端点检测完后,即完成语音的音频数据的预处理。将预处理后的音频数据保存两份以便后续步骤处理,一份用于基音轨迹的提取,另一份用于频谱系数和声音强度的提取。
进一步地,在所述获取所述语音与所述原始音频之间的相似度之后,还包括:
根据所述语音与所述原始音频之间的相似度,计算所述语音的得分。
需要说明的是,在输入语音时,可根据语音端点检测,识别出每段语音,再分别检测每段语音与原始音频的相似度,进而根据相似度计算每段语音的分值,以及整个语音的综合得分,可使用于模仿跟读类型产品,如K歌、英语模仿秀、配音模仿秀等,可提高语音评分的准确度。
进一步地,所述音频特征参数还包括文本语音匹配相关特征参数。
需要说明的是,在标准的阅读口语评分应用中,也可以加入文本语音匹配相关特征参数以辅助达到更准确的识别效果。
另外,在不同应用场景下,可适当增减、替换相关的音频特征参数。例如,要准确区分人的声带特色,可取消使用基音轨迹特征参数;在对评分准确度要求不高的情况,可使用倒傅里叶频谱系数代替梅尔倒频谱系数;在标准的阅读口语评分应用中,也可以加入文本语音匹配相关特征参数以辅助达到更准确的识别效果。在具体应用中,也可采用替换或者增加其他相关性计算方法来计算语音与原始音频的相似度,例如皮尔森相关系数、似然分数值等。此外,对于基音轨迹、梅尔倒频谱系数、声音强度三种特征参数的具体计算方法也可以进行适当的修改,还可以加入人工神经网络模型,应用到特征提取、特征匹配步骤中,以达到同样甚至更好的识别效果。
本发明实施例提供的语音相似度检测方法,能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数,进而将提取的音频特征参数与原始音频的音频特征参数进行对比,获取语音与原始音频的相似度,克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点,加强对音调匹配度的考察,有效提高相似度检测的准确性;在提取基音轨迹后,对语音的基音轨迹进行线性平移后再与原始音频进行对比,减小由麦克风、人体声带特征等引起的差异问题,进一步提高相似度检测的准确性。
相应的,本发明还提供一种语音相似度检测装置,能够实现上述实施例中的语音相似度检测方法的所有流程。
参见图4,是本发明提供的语音相似度检测装置的一个实施例的结构示意图,包括:
采集模块1,用于采集语音的音频数据;
参数提取模块2,用于从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;以及,
对比模块3,用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
进一步地,所述音频特征参数还包括基音轨迹;
所述参数提取模块具体包括:
基音序列获取单元,用于从所述音频数据中计算获取基音序列;
候选拐点获取单元,用于从所述基音序列中获取候选拐点;
拐点获取单元,用于将曲率值大于预设阈值的候选拐点作为拐点;
折线序列获取单元,用于获取所有相邻两个拐点的线段,并保存到折线序列中;
夹角序列获取单元,用于计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;以及,
基音轨迹获取单元,用于将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。
进一步地,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;
所述参数提取模块具体包括:
划分单元,用于将所述音频数据等比例划分为至少一个音频帧;变换单元,用于对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;以及,
系数获取单元,用于分别计算所述至少一个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。
进一步地,所述参数提取模块具体包括:
音频帧划分单元,用于将所述音频数据划分为N个音频帧;其中,N≥1;
计算单元,用于计算每个音频帧的平均声音强度;以及,
声音强度获取单元,用于根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度。
进一步地,所述语音相似度检测装置还包括:
平移模块,用于采用平移公式,对提取的所述基音轨迹进行线性平移;
所述平移公式如下:
其中,f′2(x)为所述语音平移后的基音轨迹,f2(x)为从所述语音中提取的基音轨迹,f1(k)为原始音频的基音轨迹,N为基音轨迹的长度。
进一步地,所述对比模块具体包括:
相干系数计算模块,用于根据所述语音的音频特征参数和所述原始音频的音频特征参数,计算所述语音与所述原始音频之间的相关系数;以及,
相似度获取模块,用于根据所述相关系数,获取所述语音与所述原始音频之间的相似度。
进一步地,所述相关系数包括但不限于:欧式距离、皮尔森相关系数或似然分数值。
本发明实施例提供的语音相似度检测装置,能够从语音的音频数据中提取出频谱系数和声音强度两种音频特征参数,进而将提取的音频特征参数与原始音频的音频特征参数进行对比,获取语音与原始音频的相似度,克服了传统方法中对音量大小敏感、对人体声带特色敏感的缺点,加强对音调匹配度的考察,有效提高相似度检测的准确性;在提取基音轨迹后,对语音的基音轨迹进行线性平移后再与原始音频进行对比,减小由麦克风、人体声带特征等引起的差异问题,进一步提高相似度检测的准确性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种语音相似度检测方法,其特征在于,包括:
采集语音的音频数据;
从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;
将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
2.如权利要求1所述的语音相似度检测方法,其特征在于,所述音频特征参数还包括基音轨迹;
其中,所述基音轨迹的提取方法具体包括:
从所述音频数据中计算获取基音序列;
从所述基音序列中获取候选拐点;
将曲率值大于预设阈值的候选拐点作为拐点;
获取所有相邻两个拐点的线段,并保存到折线序列中;
计算所有相邻两个线段之间的夹角值,并保存到夹角序列中;
将所述折线序列和所述夹角序列中的数据表征为所述基音轨迹。
3.如权利要求1所述的语音相似度检测方法,其特征在于,所述频谱系数包括但不限于:梅尔倒频谱系数或倒傅里叶频谱系数;
所述梅尔倒频谱系数的提取方法具体包括:
将所述音频数据等比例划分为至少一个音频帧;
对所述至少一个音频帧进行离散变换和滤波,获得至少一个自然对数;
分别计算所述至少一个自然对数的离散预选变换,并去除变换后的第一个参数,将剩余的参数作为所述梅尔倒频谱系数。
4.如权利要求1所述的语音相似度检测方法,其特征在于,所述声音强度的提取方法具体包括:
将所述音频数据划分为N个音频帧;其中,N≥1;
计算每个音频帧的平均声音强度;
根据所述每个音频帧的平均声音强度,计算所述每个音频帧的声音强度;
其中,所述平均声音强度的计算公式为n=0,1,2,...,N-1,其中,AveMag(n)为音频帧n的平均声音强度,M为音频帧n的采样点个数,Sn(m)为音频帧n中的采样点m的信号幅度值;
所述声音强度的计算公式为其中,Mag(n)为音频帧n的声音强度,Min为所有音频帧中的最小平均声音强度,Max为所有音频帧中的最大平均声音强度。
5.如权利要求2所述的语音相似度检测方法,其特征在于,在所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比之前,还包括:
采用平移公式,对提取的所述基音轨迹进行线性平移;
所述平移公式如下:
其中,f′2(x)为所述语音平移后的基音轨迹,f2(x)为从所述语音中提取的基音轨迹,f1(k)为原始音频的基音轨迹,N为基音轨迹的长度。
6.如权利要求1所述的语音相似度检测方法,其特征在于,所述将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度,具体包括:
根据所述语音的音频特征参数和所述原始音频的音频特征参数,计算所述语音与所述原始音频之间的相关系数;
根据所述相关系数,获取所述语音与所述原始音频之间的相似度;
其中,所述相关系数包括但不限于:欧式距离、皮尔森相关系数或似然分数值;
其中,所述欧式距离的计算公式如下:
其中,D为语音与原始音频之间的欧氏距离,Amn为M×N的第一矩阵,Bmn为M×N的第二矩阵。
7.如权利要求1所述的语音相似度检测方法,其特征在于,在所述从所述音频数据中提取音频特征参数之前,还包括:
对所述语音的音频数据进行预处理;所述预处理包括预滤波、高通滤波、低通滤波、采样、量化、语音端点检测处理。
8.如权利要求1至7任一项所述的语音相似度检测方法,其特征在于,在所述获取所述语音与所述原始音频之间的相似度之后,还包括:
根据所述语音与所述原始音频之间的相似度,计算所述语音的得分。
9.如权利要求1所述的语音相似度检测方法,其特征在于,所述音频特征参数还包括文本语音匹配相关特征参数。
10.一种语音相似度检测装置,其特征在于,包括:
采集模块,用于采集语音的音频数据;
参数提取模块,用于从所述音频数据中提取音频特征参数;所述音频特征参数包括频谱系数和声音强度;以及,
对比模块,用于将所述音频特征参数与预先提取的原始音频的音频特征参数进行对比,获取所述语音与所述原始音频之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710080153.5A CN106935248B (zh) | 2017-02-14 | 2017-02-14 | 一种语音相似度检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710080153.5A CN106935248B (zh) | 2017-02-14 | 2017-02-14 | 一种语音相似度检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106935248A true CN106935248A (zh) | 2017-07-07 |
CN106935248B CN106935248B (zh) | 2021-02-05 |
Family
ID=59423229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710080153.5A Active CN106935248B (zh) | 2017-02-14 | 2017-02-14 | 一种语音相似度检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106935248B (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945815A (zh) * | 2017-11-27 | 2018-04-20 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
CN108039178A (zh) * | 2017-12-15 | 2018-05-15 | 奕响(大连)科技有限公司 | 一种傅里叶变换时域与频域的音频相似判断方法 |
CN108091346A (zh) * | 2017-12-15 | 2018-05-29 | 奕响(大连)科技有限公司 | 一种局部傅里叶变换的音频相似判断方法 |
CN108513206A (zh) * | 2018-02-08 | 2018-09-07 | 广州视源电子科技股份有限公司 | 一种音响系统控制方法、装置、终端设备和存储介质 |
CN109104409A (zh) * | 2018-06-29 | 2018-12-28 | 康美药业股份有限公司 | 一种用于健康咨询平台的隐私保护方法和系统 |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选系统 |
CN110874526A (zh) * | 2018-12-29 | 2020-03-10 | 北京安天网络安全技术有限公司 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
CN110880329A (zh) * | 2018-09-06 | 2020-03-13 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及设备、存储介质 |
CN110942765A (zh) * | 2019-11-11 | 2020-03-31 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、设备、服务器和存储介质 |
CN111125432A (zh) * | 2019-12-25 | 2020-05-08 | 重庆能投渝新能源有限公司石壕煤矿 | 安全生产培训快速匹配系统及视频匹配方法 |
CN111383662A (zh) * | 2020-03-18 | 2020-07-07 | 斑马网络技术有限公司 | Ecu报警音验证方法及系统 |
CN111462786A (zh) * | 2020-04-09 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 播放声音的录取方法、装置、计算机设备和存储介质 |
CN111489740A (zh) * | 2020-04-23 | 2020-08-04 | 北京声智科技有限公司 | 语音处理方法及装置、电梯控制方法及装置 |
CN111724824A (zh) * | 2020-06-11 | 2020-09-29 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN111899747A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于合成音频的方法和装置 |
WO2020238777A1 (zh) * | 2019-05-24 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
CN112885374A (zh) * | 2021-01-27 | 2021-06-01 | 吴怡然 | 一种基于频谱分析的声音音准判断方法及系统 |
CN112967538A (zh) * | 2021-03-01 | 2021-06-15 | 郑州铁路职业技术学院 | 一种英语发音信息采集系统 |
CN115775562A (zh) * | 2023-02-13 | 2023-03-10 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的声音外泄检测方法 |
CN115839846A (zh) * | 2023-02-27 | 2023-03-24 | 济南嘉宏科技有限责任公司 | 一种基于无线传感器的设备故障预警诊断方法 |
CN116257762A (zh) * | 2023-05-16 | 2023-06-13 | 世优(北京)科技有限公司 | 深度学习模型的训练方法及控制虚拟形象口型变化的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593517A (zh) * | 2009-06-29 | 2009-12-02 | 北京市博汇科技有限公司 | 一种音频比对系统及其音频能量比对方法 |
CN102436806A (zh) * | 2011-09-29 | 2012-05-02 | 复旦大学 | 一种基于相似度的音频拷贝检测的方法 |
CN104810025A (zh) * | 2015-03-31 | 2015-07-29 | 天翼爱音乐文化科技有限公司 | 音频相似度检测方法及装置 |
-
2017
- 2017-02-14 CN CN201710080153.5A patent/CN106935248B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101593517A (zh) * | 2009-06-29 | 2009-12-02 | 北京市博汇科技有限公司 | 一种音频比对系统及其音频能量比对方法 |
CN102436806A (zh) * | 2011-09-29 | 2012-05-02 | 复旦大学 | 一种基于相似度的音频拷贝检测的方法 |
CN104810025A (zh) * | 2015-03-31 | 2015-07-29 | 天翼爱音乐文化科技有限公司 | 音频相似度检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
任雪妮: "语音相似度评价算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945815A (zh) * | 2017-11-27 | 2018-04-20 | 歌尔科技有限公司 | 语音信号降噪方法及设备 |
CN108039178A (zh) * | 2017-12-15 | 2018-05-15 | 奕响(大连)科技有限公司 | 一种傅里叶变换时域与频域的音频相似判断方法 |
CN108091346A (zh) * | 2017-12-15 | 2018-05-29 | 奕响(大连)科技有限公司 | 一种局部傅里叶变换的音频相似判断方法 |
CN108513206B (zh) * | 2018-02-08 | 2020-01-14 | 广州视源电子科技股份有限公司 | 一种音响系统控制方法、装置、终端设备和存储介质 |
CN108513206A (zh) * | 2018-02-08 | 2018-09-07 | 广州视源电子科技股份有限公司 | 一种音响系统控制方法、装置、终端设备和存储介质 |
CN109104409A (zh) * | 2018-06-29 | 2018-12-28 | 康美药业股份有限公司 | 一种用于健康咨询平台的隐私保护方法和系统 |
CN110880329A (zh) * | 2018-09-06 | 2020-03-13 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及设备、存储介质 |
CN110880329B (zh) * | 2018-09-06 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 一种音频识别方法及设备、存储介质 |
CN110874526A (zh) * | 2018-12-29 | 2020-03-10 | 北京安天网络安全技术有限公司 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
CN110874526B (zh) * | 2018-12-29 | 2024-03-01 | 北京安天网络安全技术有限公司 | 一种文件相似性检测方法、装置、电子设备及存储介质 |
CN110033757A (zh) * | 2019-04-04 | 2019-07-19 | 行知技术有限公司 | 一种人声识别算法 |
CN110134819A (zh) * | 2019-04-25 | 2019-08-16 | 广州智伴人工智能科技有限公司 | 一种语音音频筛选系统 |
US11929090B2 (en) | 2019-05-24 | 2024-03-12 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for matching audio clips, computer-readable medium, and electronic device |
WO2020238777A1 (zh) * | 2019-05-24 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 音频片段的匹配方法、装置、计算机可读介质及电子设备 |
CN110942765A (zh) * | 2019-11-11 | 2020-03-31 | 珠海格力电器股份有限公司 | 一种构建语料库的方法、设备、服务器和存储介质 |
CN111125432A (zh) * | 2019-12-25 | 2020-05-08 | 重庆能投渝新能源有限公司石壕煤矿 | 安全生产培训快速匹配系统及视频匹配方法 |
CN111125432B (zh) * | 2019-12-25 | 2023-07-11 | 重庆能投渝新能源有限公司石壕煤矿 | 一种视频匹配方法及基于该方法的培训快速匹配系统 |
CN111383662A (zh) * | 2020-03-18 | 2020-07-07 | 斑马网络技术有限公司 | Ecu报警音验证方法及系统 |
CN111462786A (zh) * | 2020-04-09 | 2020-07-28 | 深圳市友杰智新科技有限公司 | 播放声音的录取方法、装置、计算机设备和存储介质 |
CN111489740A (zh) * | 2020-04-23 | 2020-08-04 | 北京声智科技有限公司 | 语音处理方法及装置、电梯控制方法及装置 |
CN111724824A (zh) * | 2020-06-11 | 2020-09-29 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN111724824B (zh) * | 2020-06-11 | 2021-12-03 | 北京凯视达信息技术有限公司 | 一种音频的储存和检索方法 |
CN111899747A (zh) * | 2020-07-30 | 2020-11-06 | 北京字节跳动网络技术有限公司 | 用于合成音频的方法和装置 |
CN111899747B (zh) * | 2020-07-30 | 2023-03-07 | 抖音视界有限公司 | 用于合成音频的方法和装置 |
CN112885374A (zh) * | 2021-01-27 | 2021-06-01 | 吴怡然 | 一种基于频谱分析的声音音准判断方法及系统 |
CN112967538B (zh) * | 2021-03-01 | 2023-09-15 | 郑州铁路职业技术学院 | 一种英语发音信息采集系统 |
CN112967538A (zh) * | 2021-03-01 | 2021-06-15 | 郑州铁路职业技术学院 | 一种英语发音信息采集系统 |
CN115775562A (zh) * | 2023-02-13 | 2023-03-10 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的声音外泄检测方法 |
CN115775562B (zh) * | 2023-02-13 | 2023-04-07 | 深圳市深羽电子科技有限公司 | 一种用于蓝牙耳机的声音外泄检测方法 |
CN115839846A (zh) * | 2023-02-27 | 2023-03-24 | 济南嘉宏科技有限责任公司 | 一种基于无线传感器的设备故障预警诊断方法 |
CN115839846B (zh) * | 2023-02-27 | 2023-06-20 | 济南嘉宏科技有限责任公司 | 一种基于无线传感器的设备故障预警诊断方法 |
CN116257762A (zh) * | 2023-05-16 | 2023-06-13 | 世优(北京)科技有限公司 | 深度学习模型的训练方法及控制虚拟形象口型变化的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106935248B (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106935248A (zh) | 一种语音相似度检测方法及装置 | |
CN103854646B (zh) | 一种实现数字音频自动分类的方法 | |
CN102054480B (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN101023469B (zh) | 数字滤波方法和装置 | |
CN109256127B (zh) | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 | |
CN103236260A (zh) | 语音识别系统 | |
CN105825852A (zh) | 一种英语口语朗读考试评分方法 | |
CN105679312B (zh) | 一种噪声环境下声纹识别的语音特征处理方法 | |
CN107993663A (zh) | 一种基于Android的声纹识别方法 | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN110767239A (zh) | 一种基于深度学习的声纹识别方法、装置及设备 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家系统身份认证方法 | |
CN110265035B (zh) | 一种基于深度学习的说话人识别方法 | |
CN104887263A (zh) | 一种基于心音多维特征提取的身份识别算法及其系统 | |
CN110299141A (zh) | 一种声纹识别中录音回放攻击检测的声学特征提取方法 | |
CN109473091A (zh) | 一种语音样本生成方法及装置 | |
CN103730112A (zh) | 语音多信道模拟与采集方法 | |
CN106991998A (zh) | 噪声环境下语音端点的检测方法 | |
CN103297590B (zh) | 一种基于音频实现设备解锁的方法和系统 | |
CN107274887A (zh) | 基于融合特征mgfcc的说话人二次特征提取方法 | |
CN104778948A (zh) | 一种基于弯折倒谱特征的抗噪语音识别方法 | |
CN103400578B (zh) | 谱减与动态时间规整算法联合处理的抗噪声声纹识别装置 | |
CN108564967A (zh) | 面向哭声检测系统的Mel能量声纹特征提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |