CN107610715B - 一种基于多种声音特征的相似度计算方法 - Google Patents

一种基于多种声音特征的相似度计算方法 Download PDF

Info

Publication number
CN107610715B
CN107610715B CN201710933415.8A CN201710933415A CN107610715B CN 107610715 B CN107610715 B CN 107610715B CN 201710933415 A CN201710933415 A CN 201710933415A CN 107610715 B CN107610715 B CN 107610715B
Authority
CN
China
Prior art keywords
similarity
audio
characteristic parameters
short
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710933415.8A
Other languages
English (en)
Other versions
CN107610715A (zh
Inventor
龙华
张琳
邵玉斌
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201710933415.8A priority Critical patent/CN107610715B/zh
Publication of CN107610715A publication Critical patent/CN107610715A/zh
Application granted granted Critical
Publication of CN107610715B publication Critical patent/CN107610715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种基于多种声音特征的相似度计算方法,属于音频信号处理技术领域。首先对声音信号进行预处理,预处理过程包括:预加重、分帧处理、加窗函数,然后提取声音信号的时域特征、频域特征、倒谱域特征。时域特征包括:短时平均过零率和短时自相关函数;频域特征包括:短时功率谱密度函数;倒谱域特征包括:梅尔频率倒谱系数和线性预测倒谱系数。分别针对提取的音频特征进行相似度值的计算,通过对待测音频特征分别做互相关的方法,得到每一种特征参数计算的相似度值。

Description

一种基于多种声音特征的相似度计算方法
技术领域
本发明涉及一种基于多种声音特征的相似度计算方法,属于音频信号处理技术领域。
背景技术
在语音识别、语音内容相似性判别系统中,特征提取过程就是抽取保持语音最重要特征,并消除与语音无关信号的干扰。特征参数的选择直接影响着相似性判别的准确率。本发明分别提取时域特征参数、频域特征参数、倒谱域特征参数,因不同特征参数表征的音频信息不同,对相似性判别的贡献不同,对此,为了能够有效准确的比较待测音频的相似性,使以特征参数判别相似性的方法具有更好的鲁棒性,提出了对不同特征参数计算的相似度值线性加权的方法。
发明内容
本发明要解决的技术问题是提供一种基于多种声音特征的相似度计算方法,分别通过时域特征参数、频域特征参数、倒谱域特征参数进行音频信号相似度的计算,并对不同特征参数计算的结果进行线性加权。
本发明的技术方案是:一种基于多种声音特征的相似度计算方法,包括以下步骤:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)提取特征参数:分别提取表征音频信号信息的时域特征,频域特征,倒谱域特征;
(3)相似度值计算:分别计算每种特征参数的相似度值;
(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而确定待测音频的相似度。
上述的一种基于多种声音特征的相似度计算方法,步骤(1)中预处理,其中把待测音频信号进行分帧处理:音频序列是时间轴上的一维信号,为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n)。
设待测的音频信号分别为s(n)和s*(n),经过预处理后的信号为si(n)和
Figure BDA0001429292060000011
其中下标i分别表示分帧后的第i帧。信号s(n)和s*(n)具有相同的采样率,量化精度,时间长度。在本发明中,帧长设为256点,约20.48ms,帧移128点,音频信号的采样率为44.1KHz,待测音频信号均分为m帧,i的取值范围为[1,m];
上述的一种基于多种声音特征的相似度计算方法,步骤(2)中提取特征参数,提取的特征参数有时域、频域、倒谱域特征参数。时域特征参数有短时平均过零率和短时自相关函数,频域特征参数有短时功率谱密度函数,倒谱域特征参数有梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。
对每一帧信号si(n)和
Figure BDA0001429292060000021
分别提取短时平均过零率、短时自相关函数、短时功率谱密度函数、梅尔频率倒谱系数(MFCC)和线性预测倒谱系数(LPCC)。
(1)短时平均过零率:待测音频信号每一帧的短时平均过零率分别为xi
Figure BDA0001429292060000022
则m帧的短时平均过零率则组成了短时平均过零率序列{xi}和
Figure BDA0001429292060000023
分别用符号X(i)和X*(i)表示,下标i表示第i帧,待测音频序列共被分为m帧;
(2)短时自相关函数:对待测音频分别取出帧序列si(n)和
Figure BDA0001429292060000024
因为si(n)和
Figure BDA0001429292060000025
是一帧音频信号,所有能量有限,自相关函数定义为:
Figure BDA0001429292060000026
Figure BDA0001429292060000027
l1是信号第i帧的起始点位置,l2是信号第i帧的结束点位置,k的取值范围为[0,l2-l1],Yi(k)和Yi *(k)分别是音频信号第i帧的自相关函数序列,i的取值范围为[1,m],m为待测音频帧数;
(3)短时功率谱密度函数:反映信号的功率经常是用信号的功率谱密度函数。语音信号是一个非稳态的时变信号,但是在短时间范围内可以认为语音信号是稳态的,时不变的,因此对信号分帧后计算每一帧的短时功率谱密度函数。待测音频帧序列si(n)和
Figure BDA0001429292060000028
相应的功率谱密度函数为Zi(f)和
Figure BDA0001429292060000029
f是频率,单位为Hz,下标i表示第i帧,i的取值范围为[1,m];
(4)梅尔频率倒谱系数(MFCC):Mel频率倒谱系数(MFCC)的分析是在基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个,第一,人的主观感知频域的划定并不是线性的,而是Fmel=2595*log(1+f/700),式中,Fmel是以梅尔(Mel)为单位的感知频率,f是以Hz为单位的实际频率。第二,临界带宽,频率群相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。待测音频帧序列si(n)和
Figure BDA00014292920600000210
相应的梅尔频率倒谱系数为mfcci(n)和mfcci*(n),
Figure BDA0001429292060000031
Figure BDA0001429292060000032
式中,S(i,h)和S*(i,h)是Mel滤波器能量,h是指第h个Mel滤波器(共有H个),下标i表示第i帧,n是离散余弦变换后的谱线;
(5)线性预测倒谱系数(LPCC):在不考虑鼻音和摩擦音的情况下,语音的声道传递函数就是一个全极点模型:
Figure BDA0001429292060000033
p是声道模型阶数,G是增益因子,ai是线性预测的系数。线性预测系数决定了声道特性,预测系数的谱图是信号FFT谱图的包络线,反映声道的共振峰结构。语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,再求傅里叶逆变换得到。由于声道的频率响应H(ejw)反映音频信号的谱包络,因此利用log|H(ejw)|做傅里叶逆变换求出的线性预测倒谱系数(LPCC)也被认为是包含了信号谱的包络信息,因此可以将其看做对原始信号短时倒谱的一种近似。线性预测倒谱系数可以从线性预测系数ai求得。每一帧求得的线性预测倒谱系数的个数是声道模型的阶数p。待测音频帧序列si(n)和
Figure BDA0001429292060000034
相应的线性预测倒谱系数序列为ai(r)和
Figure BDA0001429292060000035
r的取值范围为[1,p],下标i表示第i帧。
上述的一种基于多种声音特征的相似度计算方法,步骤(3)中相似度值计算:(1)若提取的音频特征参数为短时平均过零率序列,互相关函数定义:
Figure BDA0001429292060000036
n为整数,m为待测音频帧数;
取互相关函数R1(n)的最大值R1(n)max为短时平均过零率序列计算的相似度值。
(2)若提取的音频特征参数为短时自相关函数序列,互相关函数定义:
Figure BDA0001429292060000037
n为整数,i∈[1,m];
取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应帧短时自相关函数序列的相似度值。则两个待测音频信号的相似度值为:
Figure BDA0001429292060000038
其中m为待测音频帧数;
(3)若提取的音频特征参数为短时功率谱密度函数序列,互相关函数定义:
Figure BDA0001429292060000039
n为整数,i∈[1,m];
取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应短时功率谱密度函数序列的相似度值:
Figure BDA0001429292060000041
其中m为待测音频帧数;
(4)若提取的音频特征参数为梅尔频率倒谱系数序列,互相关函数定义:
Figure BDA0001429292060000042
H为Mel滤波器个数,i∈[1,m],n是DCT后的谱线l为整数,取每一帧互相关函数Ri(l)的最大值Ri(l)max为相应梅尔频率倒谱系数序列的相似度值:
Figure BDA0001429292060000043
其中m为待测音频帧数;
(5)若提取的音频特征参数为线性预测倒谱系数序列,互相关函数定义:
Figure BDA0001429292060000044
为整数,i∈[1,m],p是声道模型阶数,取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应线性预测倒谱系数序列的相似度值:
Figure BDA0001429292060000045
其中m为待测音频帧数;
上述的一种基于多种声音特征的相似度计算方法,步骤(4)中相似度值线性加权:待测音频信号的特征参数计算的相似度值分别为:R1(n)max、R2、R3、R4、R5,不同的特征参数计算的相似度值也不同,不同的特征参数均表征音频信号的部分信息,但是每一种特征参数,无论是时域,频域,倒谱域,都不能完全详尽的表征音频信号的所有信息。时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。每一种特征参数对相似性的判定所起的作用是不相同的,但是最终的相似性的判定、相似度值需要根据各个特征参数计算的相似度值来定,所以本发明提出了线性加权的相似度值计算方法。待测音频的相似度值为:R=λ1*R1(n)max2*R23*R34*R45*R5,其中λ1、λ,2、λ,3、λ4和λ,5分别为权重系数,且λ12345=1,权重系数值由多次例举试验来确定。
本发明的有益效果是:本发明可用于音频信号的相似度比对,可以应用在广播电视信号的监测方面。把不同特征参数计算的相似度值线性加权,不仅提高相似性判别的准确率,并且逻辑严谨,使相似性判别方法具有更好的鲁棒性。本发明算法简单,理论清晰,技术容易实现。
附图说明
图1是本发明相似度计算流程图;
图2是本发明相似度值线性加权流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-2所示,一种基于多种声音特征的相似度计算方法,具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)提取特征参数:分别提取表征音频信号信息的时域特征参数、频域特征参数、倒谱域特征参数;
(3)相似度值计算:分别计算每种特征参数的相似度值;
(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而计算待测音频的相似度。
所述预处理中的预加重处理、分帧处理、加窗函数具体为:
(1)预加重处理:声门脉冲的频率响应曲线接近于一个二阶低通滤波器,而口腔的辐射响应也接近于一个一阶高通滤波器,预加重的目的是为了补偿高频分量的损失,提升高频分量;
(2)分帧处理:由于语音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看成稳态信号,可用处理稳态信号的方法处理,同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在两帧之间互相有部分重叠;
(3)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。
所述时域特征参数、频域特征参数、倒谱域特征参数具体为:
(1)提取时域特征参数:时域特征参数包括短时平均过零率和短时自相关函数;
(2)提取频域特征参数:频域特征参数是短时功率谱密度函数;
(3)提取倒谱域特征参数:倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数;
把音频信号进行预处理后,分别提取音频信号每一帧的特征参数,提取的每一帧信号分别组成数据集合。
所述相似度值计算包括以下步骤:
(1)若提取的音频特征参数为短时平均过零率序列,提取音频信号每一帧的短时平均过零率,所有帧的短时平均过零率组成一个序列,音频比对是通过互相关函数计算短时平均过零率序列的相似度值;
(2)若提取的音频特征参数为短时自相关函数序列,音频比对是通过互相关函数计算短时自相关函数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(3)若提取的音频特征参数为短时功率谱密度函数序列,音频比对是通过互相关函数计算短时功率谱密度函数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(4)若提取的音频特征参数为梅尔频率倒谱系数序列,音频比对是通过互相关函数计算梅尔频率倒谱系数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(5)若提取的音频特征参数为线性预测倒谱系数序列,音频比对是通过互相关函数计算线性预测倒谱系数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均。
所述相似度值线性加权,时域特征、频域特征、倒谱域特征所表征的声音信号的信息不完全相同,每一种特征只能部分的表征信号信息,并且不同的特征对识别相似性的影响也不同,有的特征对识别相似性的贡献大,有的特征对识别相似性的贡献小,因此最后判定待测的音频信号是否相似,就需要把不同特征计算的相似度值进行线性加权。
所述相似度值线性加权权重系数的设定为:
制定试验方案,通过对不同的权重系数分配进行试验,前提是待测音频信号是已知的实信号,已知相似或不相似,相似的设定特征参数的互相关函数最大值为1,不相似的设定为0,不同权重系数下的相似度值与已知的相似度值进行均方误差比较,在所有设定的不同权重系数组合下,均方误差最小的那一组权重系数即为最优的线性加权系数。
实施例2:如图1-2所示,一种基于多种声音特征的相似度计算方法,包括以下步骤:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)预加重处理:预加重处理的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。预加重一般是在语音信号数字化之后,在参数分析之前在计算机里用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现。一般是一阶的数字滤波器,即,其中,值接近于1,典型值为0.94;
(3)分帧处理:音频序列是时间轴上的一维信号,是一个非稳态时变的信号,但语音是由声门的激励脉冲通过声道形成的,而声道,即人的口腔(或耦合了鼻腔)肌肉运动是缓慢的,“短时间”范围内可以认为语音信号是稳态的,时不变的。所以为了能够对其进行信号分析,需要假设音频信号在毫秒级别的短时间处于稳定状态,因此在此基础上对音频信号进行分帧操作。对音频信号分帧处理可采用连续分段的方法,但为了使帧与帧之间平滑过渡保持其连续性,一般会采用交叠分段的方法。分帧是用可移动的有限长度窗口进行加权的方法来实现的,也就是用一定的窗函数w(n)来乘音频信号s(n),从而形成加窗的音频信号sw(n)=s(n)×w(n)。
(4)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。
(5)提取特征参数:分别提取表征音频信号信息的时域特征,频域特征,倒谱域特征。设待测的音频信号分别为s(n)和s*(n),经过预处理后的信号为si(n)和
Figure BDA0001429292060000071
其中下标i分别表示分帧后的第i帧。信号s(n)和s*(n)具有相同的采样率,量化精度,时间长度。在本发明中,帧长设为256点,约20.48ms,帧移128点,音频信号的采样率为44.1KHz,待测音频信号均分为m帧,i的取值范围为[1,m];
(6)时域特征参数提取:提取的时域特征参数包括短时平均过零率和短时自相关函数。
1:短时平均过零率:待测音频信号每一帧的短时平均过零率分别为xi
Figure BDA0001429292060000072
则m帧的短时平均过零率则组成了短时平均过零率序列{xi}和
Figure BDA0001429292060000073
分别用符号X(i)和X*(i)表示,下标i表示第i帧,待测音频序列共被分为m帧;
2:短时自相关函数:对待测音频分别取出帧序列si(n)和
Figure BDA0001429292060000074
因为si(n)和
Figure BDA0001429292060000075
是一帧音频信号,所有能量有限,自相关函数定义为:
Figure BDA0001429292060000076
Figure BDA0001429292060000077
l1是信号第i帧的起始点位置,l2是信号第i帧的结束点位置,k的取值范围为[0,l2-l1],Yi(k)和Yi *(k)分别是音频信号第i帧的自相关函数序列,i的取值范围为[1,m],m为待测音频帧数;
(7)频域特征参数提取:提取的频域特征参数是短时功率谱密度函数。反映信号的功率经常是用信号的功率谱密度函数。语音信号是一个非稳态的时变信号,但是在短时间范围内可以认为语音信号是稳态的,时不变的,因此对信号分帧后计算每一帧的短时功率谱密度函数。待测音频帧序列si(n)和
Figure BDA0001429292060000078
相应的功率谱密度函数为Zi(f)和
Figure BDA0001429292060000079
f是频率,单位为Hz,下标i表示第i帧,i的取值范围为[1,m];
(8)倒谱域特征参数提取:提取的倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数。
1:梅尔频率倒谱系数(MFCC):Mel频率倒谱系数(MFCC)的分析是在基于人的听觉机理,即依据人的听觉实验结果来分析语音的频谱,期望能获得好的语音特性。MFCC分析依据的听觉机理有两个,第一,人的主观感知频域的划定并不是线性的,而是Fmel=2595*log(1+f/700),式中,Fmel是以梅尔(Mel)为单位的感知频率,f是以Hz为单位的实际频率。第二,临界带宽,频率群相应于人耳基底膜分成许多很小的部分,每一部分对应一个频率群,对应于同一频率群的那些频率的声音,在大脑中是叠加在一起进行评价的。按临界带的划分,将语音在频域上划分成一系列的频率群组成了滤波器组,即Mel滤波器组。待测音频帧序列si(n)和
Figure BDA0001429292060000081
相应的梅尔频率倒谱系数为mfcci(n)和mfcci*(n),
Figure BDA0001429292060000082
Figure BDA0001429292060000083
式中,S(i,h)和S*(i,h)是Mel滤波器能量,h是指第h个Mel滤波器(共有H个),下标i表示第i帧,n是离散余弦变换后的谱线;
2:线性预测倒谱系数(LPCC):在不考虑鼻音和摩擦音的情况下,语音的声道传递函数就是一个全极点模型:
Figure BDA0001429292060000084
p是声道模型阶数,G是增益因子,ai是线性预测的系数。线性预测系数决定了声道特性,预测系数的谱图是信号FFT谱图的包络线,反映声道的共振峰结构。语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,再求傅里叶逆变换得到。由于声道的频率响应H(ejw)反映音频信号的谱包络,因此利用log|H(ejw)|做傅里叶逆变换求出的线性预测倒谱系数(LPCC)也被认为是包含了信号谱的包络信息,因此可以将其看做对原始信号短时倒谱的一种近似。线性预测倒谱系数可以从线性预测系数ai求得。每一帧求得的线性预测倒谱系数的个数是声道模型的阶数p。待测音频帧序列si(n)和
Figure BDA0001429292060000085
相应的线性预测倒谱系数序列为ai(r)和
Figure BDA0001429292060000086
r的取值范围为[1,p],下标i表示第i帧。
(9)相似度值计算:分别计算每种特征参数的相似度值;
1:若提取的音频特征参数为短时平均过零率序列,互相关函数定义:
Figure BDA0001429292060000087
n为整数,m为待测音频帧数;
取互相关函数R1(n)的最大值R1(n)max为短时平均过零率序列计算的相似度值。
2:若提取的音频特征参数为短时自相关函数序列,互相关函数定义:
Figure BDA0001429292060000088
n为整数,i∈[1,m];
取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应帧短时自相关函数序列的相似度值。则两个待测音频信号的相似度值为:
Figure BDA0001429292060000089
其中m为待测音频帧数;
3:若提取的音频特征参数为短时功率谱密度函数序列,互相关函数定义:
Figure BDA0001429292060000091
n为整数,i∈[1,m];
取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应短时功率谱密度函数序列的相似度值:
Figure BDA0001429292060000092
其中m为待测音频帧数;
4:若提取的音频特征参数为梅尔频率倒谱系数序列,互相关函数定义:
Figure BDA0001429292060000093
H为Mel滤波器个数,i∈[1,m],n是DCT后的谱线
l为整数,取每一帧互相关函数Ri(l)的最大值Ri(l)max为相应梅尔频率倒谱系数序列的相似度值:
Figure BDA0001429292060000094
其中m为待测音频帧数;
5:若提取的音频特征参数为线性预测倒谱系数序列,互相关函数定义:
Figure BDA0001429292060000095
为整数,i∈[1,m],p是声道模型阶数,取每一帧互相关函数Ri(n)的最大值Ri(n)max为相应线性预测倒谱系数序列的相似度值:
Figure BDA0001429292060000096
其中m为待测音频帧数;
(10)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而确定待测音频的相似度。待测音频信号的特征参数计算的相似度值分别为:R1(n)max、R2、R3、R4、R5,不同的特征参数计算的相似度值也不同,不同的特征参数均表征音频信号的部分信息,但是每一种特征参数,无论是时域,频域,倒谱域,都不能完全详尽的表征音频信号的所有信息。时域分析方法具有简单、计算量小、物理意义明确等优点,但由于语音信号最重要的感知特性反映在功率谱中,而相位变化只起着很小的作用,所以相对于时域分析来说频域分析更为重要。每一种特征参数对相似性的判定所起的作用是不相同的,但是最终的相似性的判定、相似度值需要根据各个特征参数计算的相似度值来定,所以本发明提出了线性加权的相似度值计算方法。待测音频的相似度值为:R=λ1*R1(n)max2*R23*R34*R45*R5,其中λ1、λ,2、λ,3、λ4和λ,5分别为权重系数,且λ12345=1,权重系数值由多次例举试验来确定。
实施例3:在上述实施例的基础上,本发明的权重系数确定步骤为:
(1)待测音频信号为已知的实信号,前提知道两个待测的音频信号是否相似,本发明是通过实验的方法来计算相似度。设定已知的两个相似的音频信号相似度值为1,不相似的音频信号相似度值为0。
(2)λ12345=1,不同的λ组合,就可以得到不同的待测音频相似度值。λ组合之间的变化步长越小,试验的组合就越多,得到的试验结果就越精确。
(3)不同组合的λ值就得到不同的相似度值,计算不同组合得到的相似度值和1之间的均方误差,选取其中均方误最小的一组λ值,则这一组合就是最优的特征参数的权重系数。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (4)

1.一种基于多种声音特征的相似度计算方法,其特征在于具体步骤为:
(1)预处理:预处理过程分为三个步骤:预加重处理、分帧处理、加窗函数;
(2)提取特征参数:分别提取表征音频信号信息的时域特征参数、频域特征参数、倒谱域特征参数;
(3)相似度值计算:分别计算每种特征参数的相似度值;
(4)相似度值线性加权:把每一种特征参数计算的相似度值进行线性加权,通过试验方法,确定权重系数,从而计算待测音频的相似度;
所述相似度值线性加权权重系数的设定为:
制定试验方案,通过对不同的权重系数分配进行试验,前提是待测音频信号是已知的实信号,已知相似或不相似,相似的设定特征参数的互相关函数最大值为1 ,不相似的设定为0,不同权重系数下的相似度值与已知的相似度值进行均方误差比较,在所有设定的不同权重系数组合下,均方误差最小的那一组权重系数即为最优的线性加权系数。
2.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述预处理中的预加重处理、分帧处理、加窗函数具体为:
(1)预加重处理:声门脉冲的频率响应曲线接近于一个二阶低通滤波器,而口腔的辐射响应也接近于一个一阶高通滤波器,预加重的目的是为了补偿高频分量的损失,提升高频分量;
(2)分帧处理:由于语音信号是一个准稳态的信号,把它分成较短的帧,在每帧中可将其看成稳态信号,可用处理稳态信号的方法处理,同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在两帧之间互相有部分重叠;
(3)加窗函数:加窗函数的目的是减少频域中的泄漏,将对每一帧语音乘以汉明窗或海宁窗。
3.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述时域特征参数、频域特征参数、倒谱域特征参数具体为:
(1)提取时域特征参数:时域特征参数包括短时平均过零率和短时自相关函数;
(2)提取频域特征参数:频域特征参数是短时功率谱密度函数;
(3)提取倒谱域特征参数:倒谱域特征参数包括梅尔频率倒谱系数和线性预测倒谱系数;
把音频信号进行预处理后,分别提取音频信号每一帧的特征参数,提取的每一帧信号分别组成数据集合。
4.根据权利要求1所述的基于多种声音特征的相似度计算方法,其特征在于:所述相似度值计算包括以下步骤:
(1)若提取的音频特征参数为短时平均过零率序列,提取音频信号每一帧的短时平均过零率,所有帧的短时平均过零率组成一个序列,音频比对是通过互相关函数计算短时平均过零率序列的相似度值;
(2)若提取的音频特征参数为短时自相关函数序列,音频比对是通过互相关函数计算短时自相关函数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(3)若提取的音频特征参数为短时功率谱密度函数序列,音频比对是通过互相关函数计算短时功率谱密度函数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(4)若提取的音频特征参数为梅尔频率倒谱系数序列,音频比对是通过互相关函数计算梅尔频率倒谱系数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均;
(5)若提取的音频特征参数为线性预测倒谱系数序列,音频比对是通过互相关函数计算线性预测倒谱系数序列每一帧的相似程度,然后对所有帧计算的相似度值求平均。
CN201710933415.8A 2017-10-10 2017-10-10 一种基于多种声音特征的相似度计算方法 Active CN107610715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710933415.8A CN107610715B (zh) 2017-10-10 2017-10-10 一种基于多种声音特征的相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710933415.8A CN107610715B (zh) 2017-10-10 2017-10-10 一种基于多种声音特征的相似度计算方法

Publications (2)

Publication Number Publication Date
CN107610715A CN107610715A (zh) 2018-01-19
CN107610715B true CN107610715B (zh) 2021-03-02

Family

ID=61067633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710933415.8A Active CN107610715B (zh) 2017-10-10 2017-10-10 一种基于多种声音特征的相似度计算方法

Country Status (1)

Country Link
CN (1) CN107610715B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108231091B (zh) * 2018-01-24 2021-05-25 广州酷狗计算机科技有限公司 一种检测音频的左右声道是否一致的方法和装置
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN108847252B (zh) * 2018-04-26 2022-12-02 杭州电子科技大学 基于声信号语谱图纹理分布的声特征提取方法
CN109036458A (zh) * 2018-08-22 2018-12-18 昆明理工大学 一种基于音频特征参数的多语种场景分析方法
CN109697985B (zh) * 2018-12-25 2021-06-29 广州市百果园信息技术有限公司 语音信号处理方法、装置及终端
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN110085259B (zh) * 2019-05-07 2021-09-17 国家广播电视总局中央广播电视发射二台 音频比对方法、装置和设备
CN110427817B (zh) * 2019-06-25 2021-09-07 浙江大学 一种基于空泡图像定位与声纹理分析的水翼空化特征提取方法
CN110942670A (zh) * 2019-11-20 2020-03-31 神思电子技术股份有限公司 一种高速公路雾区诱导方法
CN111626093B (zh) * 2020-03-27 2023-12-26 国网江西省电力有限公司电力科学研究院 一种基于鸣声功率谱密度的输电线路相关鸟种识别方法
CN112019786B (zh) * 2020-08-24 2021-05-25 上海松鼠课堂人工智能科技有限公司 智能教学录屏方法和系统
CN112885355A (zh) * 2021-01-25 2021-06-01 上海头趣科技有限公司 一种基于多特征的语音识别方法
CN113488063B (zh) * 2021-07-02 2023-12-19 国网江苏省电力有限公司电力科学研究院 一种基于混合特征及编码解码的音频分离方法
CN113780180A (zh) * 2021-09-13 2021-12-10 江苏环雅丽书智能科技有限公司 一种音频长时指纹提取及匹配方法
CN113823089A (zh) * 2021-09-19 2021-12-21 广州丹雅科技有限公司 交通量检测方法、装置、电子设备及可读存储介质
CN116939197A (zh) * 2023-09-15 2023-10-24 海看网络科技(山东)股份有限公司 基于音视频的直播节目首播和重播内容一致性监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854646A (zh) * 2014-03-27 2014-06-11 成都康赛信息技术有限公司 一种实现数字音频自动分类的方法
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置
CN104900238A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于感知滤波的音频实时比对方法
CN105205091A (zh) * 2015-06-04 2015-12-30 浙江大学 一种声景观信息的可视化方法
CN106936129A (zh) * 2017-03-23 2017-07-07 东北大学 基于多特征融合的电力负荷辨识方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717393B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 음성 인식기의 음성 인식에 대한 신뢰도 측정 방법 및 그장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854646A (zh) * 2014-03-27 2014-06-11 成都康赛信息技术有限公司 一种实现数字音频自动分类的方法
CN104464726A (zh) * 2014-12-30 2015-03-25 北京奇艺世纪科技有限公司 一种相似音频的确定方法及装置
CN104900238A (zh) * 2015-05-14 2015-09-09 电子科技大学 一种基于感知滤波的音频实时比对方法
CN105205091A (zh) * 2015-06-04 2015-12-30 浙江大学 一种声景观信息的可视化方法
CN106936129A (zh) * 2017-03-23 2017-07-07 东北大学 基于多特征融合的电力负荷辨识方法及系统

Also Published As

Publication number Publication date
CN107610715A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
CN106935248B (zh) 一种语音相似度检测方法及装置
Dhingra et al. Isolated speech recognition using MFCC and DTW
Zão et al. Speech enhancement with EMD and hurst-based mode selection
KR101266894B1 (ko) 특성 추출을 사용하여 음성 향상을 위한 오디오 신호를 프로세싱하기 위한 장치 및 방법
Shrawankar et al. Techniques for feature extraction in speech recognition system: A comparative study
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN108896878B (zh) 一种基于超声波的局部放电检测方法
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN102543073B (zh) 一种沪语语音识别信息处理方法
CN110459241B (zh) 一种用于语音特征的提取方法和系统
CN109256127B (zh) 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
WO2020034628A1 (zh) 口音识别方法、装置、计算机装置及存储介质
CN108682432B (zh) 语音情感识别装置
Archana et al. Gender identification and performance analysis of speech signals
Alam et al. Low-variance multitaper mel-frequency cepstral coefficient features for speech and speaker recognition systems
CN110942784A (zh) 基于支持向量机的鼾声分类系统
CN112820319A (zh) 一种人类鼾声识别方法及其装置
CN112542174A (zh) 基于vad的多维特征参数声纹识别方法
CN114613389A (zh) 一种基于改进mfcc的非语音类音频特征提取方法
Katsir et al. Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation
Nijhawan et al. A new design approach for speaker recognition using MFCC and VAD
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Vachhani et al. Use of PLP cepstral features for phonetic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant