CN108682432A - 语音情感识别装置 - Google Patents
语音情感识别装置 Download PDFInfo
- Publication number
- CN108682432A CN108682432A CN201810455164.1A CN201810455164A CN108682432A CN 108682432 A CN108682432 A CN 108682432A CN 201810455164 A CN201810455164 A CN 201810455164A CN 108682432 A CN108682432 A CN 108682432A
- Authority
- CN
- China
- Prior art keywords
- short
- mfcc
- voice signal
- frequency
- time energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 28
- 238000012706 support-vector machine Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 13
- 238000012417 linear regression Methods 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 5
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 description 18
- 230000008451 emotion Effects 0.000 description 6
- 241000208340 Araliaceae Species 0.000 description 4
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 4
- 235000003140 Panax quinquefolius Nutrition 0.000 description 4
- 235000008434 ginseng Nutrition 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- -1 (i)-F Chemical class 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- LPXPTNMVRIOKMN-UHFFFAOYSA-M sodium nitrite Substances [Na+].[O-]N=O LPXPTNMVRIOKMN-UHFFFAOYSA-M 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
一种语音情感识别装置,所述装置包括:获取单元,适于获取待处理的语音信号;预处理单元,适于对所获取的语音信号进行预处理,得到预处理后的语音信号;参数提取单元,适于提取预处理后的语音信号的特征参数;所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差;采用所提取的特征参数组成对应的特征矢量序列,得到所述语音信号对应的特征矢量序列;识别单元,适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别,得到对应的语音情感识别结果。上述的方案,可以提高语音情感识别的准确率。
Description
技术领域
本发明涉及语音识别技术领域,具体地涉及一种语音情感识别装置。
背景技术
随着信息技术的高速发展和人类对计算机的依赖性不断的增强,人机交互的能力越来越受到研究者的重视。实际上人机交互中需要解决的问题与人与人交流中的重要因素是一致的,最关键的都是“情感智能”的能力。
目前,关于情感信息处理的研究正在不断地深入中,语音信号中的情感信息处理的研究越来越受到人们的重视。其中的语音情感识别,指利用信号处理技术和模式识别的方法来对语音信号处理和识别,来判断语音属于哪一类情感的技术。
但是,现有的语音情感识别方法,存在着识别准确率低的问题。
发明内容
本发明解决的技术问题是如何提高语音情感识别的准确率。
为解决上述技术问题,本发明实施例提供了一种语音情感识别装置,所述装置包括:
获取单元,适于获取待处理的语音信号;
预处理单元,适于对所获取的语音信号进行预处理,得到预处理后的语音信号;
参数提取单元,适于提取预处理后的语音信号的特征参数;采用所提取的特征参数组成对应的特征矢量序列,得到所述语音信号对应的特征矢量序列;所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差;
识别单元,适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别,得到对应的语音情感识别结果。
可选地,所述预处理单元,适于对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。
可选地,所述预处理单元,适于对于预处理后得到的多个帧进行遍历,获取遍历到的当前帧;计算遍历到的当前帧及其后连续的预设数量的帧的短时能量;当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时,计算遍历到的当前帧与下一帧之间的短时能量的比值;当确定计算得到的比值大于或等于预设的阈值时,确定遍历到的当前帧为所述语音信号的语音起始帧。
可选地,所述预处理后的语音信号的短时能量及其衍生参数,包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。
可选地,所述预处理后的语音信号的基音频率及其衍生参数,包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)!=0的相邻两帧对应的浊音间差分基音;其中,F(i)表示第i帧的基音频率,F(i+1)表示第i+1帧的基音频率。
可选地,所述预处理后的语音信号的音质特征共振峰及其衍生参数,包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率最小值和第二共振峰频率比率均值。
可选地,述对MFCC求取的20阶的Mel倒谱系数,包括1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC。
可选地,所述参数提取单元,适于分别采用如下的公式计算得到1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC:
其中,fMel表示MFCC的频率,fMid-Mel表示Mid-MFCC的频率,fI-Mel表示I-MFCC的频率,f表示实际频率。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
上述的方案,通过对预处理后的语音信号,提取包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数和对MFCC求取的20阶的Mel倒谱系数在内的特征参数,所提取的对MFCC求取的20阶的Mel倒谱系数的特征参数覆盖全频域,与仅覆盖低频的MFCC参数相比,可以提高中、高频域的识别精度,从而可以提高语音情感识别的准确率,提升用户的使用体验。
进一步地,在对所述语音信号进行端点检测时,首先计算遍历到的当前帧及其后连续的预设数量的帧的短时能量,当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时,计算遍历到的当前帧与下一帧之间的短时能量的比值,并当确定计算得到的比值大于或等于预设的阈值时,确定遍历到的当前帧为所述语音信号的语音起始帧,因首先对包括当前帧在内的连续的预设数量的帧进行短时能量是否均大于或等于初始无声段语音信号的短时能量的判断,可以减少甚至避免毛刺干扰对端点检测产生的影响,故可以提高端点检测的准确性。
附图说明
图1是本发明实施例中的一种语音情感识别方法的流程示意图;
图2是本发明实施例中的一种语音情感识别装置的结构示意图。
具体实施方式
本发明实施例中的技术方案通过对预处理后的语音信号,提取包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数和对MFCC求取的20阶的Mel倒谱系数在内的特征参数,所提取的对MFCC求取的20阶的Mel倒谱系数的特征参数覆盖全频域,与仅覆盖低频的MFCC参数相比,可以提高中、高频域的识别精度,从而可以提高语音情感识别的准确率,提升用户的使用体验。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例的一种语音情感识别方法的流程示意图。参考图1,一种语音情感识别方法,所述方法包括:
步骤S101:获取待处理的语音信号。
在具体实施中,所述待处理的语音信号为对对应的模拟信号进行模数转换后得到的数字信号。
步骤S102:对所获取的语音信号进行预处理,得到预处理后的语音信号。
在具体实施中,对所获取的语音信号进行预处理时,首先对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。
在本发明一实施例中,对语音信号进行预加重处理时采用一阶的数字滤波器μ:H(z)=1-μz-1,μ取0.98;分帧时采用的帧长为320,帧移为80;加窗采用的是汉明窗。
在本发明一实施例中,为了提高短点检测的准确性,采用两段式检测法对语言端点进行检测。具体而言:
首先,可以按照顺序对预处理后得到的多个帧的语音信号进行遍历,计算遍历到的当前帧的语音信号其后连续的预设数量的帧的语音信号的短时能量,并将遍历到的当前帧及其后连续的预设数量的帧的短时能量分别与初始无声段语音信号的短时能量进行比较,以确定遍历到的当前帧及其后连续的预设数量的帧的短时能量是否均大于或等于初始无声段语音信号的短时能量。
接着,当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时,可以计算计算遍历到的当前帧与下一帧之间的短时能量的比值,并当确定计算得到的比值大于或等于预设的阈值时,确定遍历到的当前帧为所述语音信号的语音起始帧。
例如,以语音信号的时域表达式为x(l),经过分帧加窗等预处理后得到的第n帧语音信号为xn(m)为例,则其短时能量En为:
其中,N表示每一帧的帧长。
第一段检测为检测连续五帧的语音信号,判断连续五帧的语音信号的短时能量是否满足:
Ej≥Ti(IS),i∈{m,m+1,m+2,m+3,m+4} (2)
其中,IS为语音初始无声段的平均时长,Ti(IS)表示初始无声段语音信号的短时能量大小,即为背景噪声。
通过上述的第一段检测,可以避免毛刺干扰对端点检测产生的影响。
当第一段检测无误,也即确定连续五帧的语音信号的短时能量均大于或等于初始无声段语音信号的短时能量时,则进入第二段比值判决,即:
其中,设σn为第二段检测门限,即预设的阈值,σn表示相邻的两帧语音信号中后一帧的语音信号短时能量与前一帧的语音信号的短时能量之间的比值,用来判断语音的起始段。满足上式的第n帧语音数据,即为语音的起始帧。
采用了两段式检测法对语言端点进行检测,可以提高语音起始帧检测的准确性,从而可以提高语音情感识别的准确性。
步骤S103:提取预处理后的语音信号的特征参数;所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差。
在本发明一实施例中,所述预处理后的语音信号的短时能量及其衍生参数,包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。
其中,因语音信号的能量与情感的表达具有较强相关性,首先采用计算式(1)分别计算预处理后多个帧的语音信号的短时能量,并求取预处理后多个帧的语音信号的短时能量中短时能量的最大值、短时能量的最小值、短时能量的均值和短时能量的方差。
接着,计算得到预处理后多个帧的语音信号的短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。其中:
在本发明一实施例中,预处理后多个帧的语音信号的短时能量抖动采用如下的公式计算:
其中,Es表示短时能量抖动,M表示总帧数。
在本发明一实施例中,预处理后多个帧的语音信号的短时能量的线性回归系数采用如下的公式计算:
其中,Er表示短时能量线性回归系数,M表示总帧数。
在本发明一实施例中,预处理后多个帧的语音信号的短时能量的线性回归系数的均方误差采用如下的公式计算:
其中,Eq表示短时能量的线性回归系数的均方误差。
在本发明一实施例中,所述预处理后多个帧的语音信号的短时能量中250Hz以下短时能量占全部短时能量的比例为:
其中,E250表示在频域中250Hz以下的短时能量之和。
在本发明一实施例中,预处理后的语音信号的基音频率及其衍生参数,包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)!=0的相邻两帧对应的浊音间差分基音。其中:
将声带震动的频率称为基音频率。在本发明一实施例中,采用短时自相关函数来获得基音频率。具体地,首先定义预处理后的每个帧的语音信号对应的自相关系数Rn(k),再通过检测Rn(k)峰值的位置提取出对应的基音周期值,再对得到的基音周期值球倒数即得到对应的基音频率。
在本发明一实施例中,对于预处理后的第n帧的语音信号xn(m),其自相关函数Rn(k)为:
其中,Rn(k)为偶函数,其取值不为零的范围k=(-N+1)~(N-1)。
当求取到预处理后的多个帧的语音信号的基音频率时,可以得到预处理后的多个帧的语音信号的基音频率中基音频率的最大值、基音频率的最小值、基音频率的均值和基音频率的方差。
在本发明一实施例中,将处理后的多个帧的语音信号中的第i个浊音帧的基音频率表示为F0i,处理后的多个帧的语音信号的浊音帧总数表示为M*,处理后的多个帧的语音信号的总帧数表示为M,则对应的一阶基音频率抖动和二阶基音频率抖动分别为:
其中,F0s1表示所述一阶基音频率抖动,F0s2表示所述二阶基音频率抖动。
在本发明一实施例中,在预设的多个帧的语音信号中所有满足F(i)*F(i+1)!=0相邻的两帧之中,对应的浊音间差分基音dF为:
dF(k)=F(i)-F(i+1),1≤k≤M*,1≤i≤M (11)
其中,F(i)表示第i帧的基音频率,F(i+1)表示第i+1帧的基音频率。
在本发明一实施例中,所述预处理后的语音信号的音质特征共振峰及其衍生参数,包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率的最小值和第二共振峰频率比率的均值。
在具体实施中,所述共振峰参数包括共振峰带宽和频率,二者提取的基础是对语音信号的频谱包络进行估计,并采用线性预测(LPC)法从声道模型中估计共振峰参数。
在本发明一实施例中,用LPC法对语音信号进行解卷,得到声道响应的全极模型参数为:
然后,求出预测误差滤波器A(z)的一个根,则i对应的共振峰频率为:
其中,T为采样周期。
将第i个浊音帧的第一、二、三共振峰频率分别表示为F1i、F2i、F3i,则第二共振峰频率比率为:
F2i/(F2i-F1i) (14)
当采用上述的公式计算得到多个帧的语音信号对应的第一、第二、第三共振峰频率时,可以求取多个帧的语音信号对应的第一、第二、第三共振峰频率中第一、第二、第三共振峰频率的最大值、最小值、均值、方差和一阶抖动,以及第二共振峰频率比率的最大值、最小值和均值。
在本发明一实施例中,为了提高识别的准确性,在梅尔(Mel)频率倒谱系数的提取中对Hz-Mel的非线性关系进行了修正,引入了2个新的系数Mid-MFCC和I-MFCC。Mid-MFCC和I-MFCC分别在中、高频区域具有很好的计算精度,可作为对低阶MFCC的补充,实现对全频域的频谱特征进行计算。其中,Mid-MFCC滤波器组的滤波器在中频区域分布较为密集,在低频、高频区域较为稀疏;I-MFCC为逆Mel频率倒谱系数,I-MFCC的滤波器组的滤波器在低频区域分布稀疏,高频区域分布较为密集。
在本发明一实施例中,所述对MFCC求取的20阶的Mel倒谱系数,包括1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC。在本发明一实施例中,1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC分别采用如下的公式计算得到:
其中,fMel表示MFCC的频率,fMid-Mel表示Mid-MFCC的频率,fI-Mel表示I-MFCC的频率,f表示实际频率。
最终,改进的MFCC的特征参数由这20阶的Mel倒谱参数和Mel倒谱系数(MFCC)的一阶差分的最大值、最小值、均值和方差组成。
步骤S104:采用所提取的特征参数组成对应的特征矢量序列,得到所述语音信号对应的特征矢量序列。
在具体实施中,当提取预处理后的多个帧的特征参数时,将所提取的特征参数按照顺序组合成对应特征矢量序列,从而得到所述语音信号对应的特征矢量序列。
步骤S105:采用支持向量机(SVM)对所述语音信号对应的特征矢量序列进行训练和识别,得到对应的语音情感识别结果。
在具体实施中,当得到所述语音信号对应的特征矢量序列时,可以将所述语音信号对应的特征矢量序列采用支持向量机(SVM)进行训练和识别,从而得到对应的语音情感识别结果。
在本发明一实施例中,选取支持向量机核函为径向基函数(RBF),所采用的支持向量机分类器为“one-vs-one”模式的5类支持向量机分类器。
具体地,在训练支持向量机的过程中,对五种情感进行识别,根据“one-vs-one”策略可以构建10个支持向量机分类器,分别是“愤怒-害怕”、“愤怒-悲伤”、“愤怒-中性”、“愤怒-高兴”、“害怕-悲伤”、“害怕-中性”、“害怕-高兴”、“悲伤-中性”、“悲伤-高兴”、“中性-高兴”分类器。
接着,设置每种情绪的训练集样本数为150个,测试集样本数为50个,将在上述的步骤中提取特征参数组成的特征矢量序列输入到训练得到的10个支持向量机分类器。
采用本发明实施例中的语音情感识别方法与现有技术中的语音情感识别方法所得到情感识别的识别准确率的实验对比结果,分别如下表1、表2所示:
表1
表2
通过上述的表格的比较,可以看出本发明实施例中的语音情感识别方法的准确识别率性得到了显著的提升。
上述对本发明实施例中的语音情感识别方法进行了详细的描述,下面将对上述的方法对应的装置进行介绍。
图2示出了本发明实施例中的一种语音情感识别装置的结构。参加图2,所述装置20可以包括获取单元201、预处理单元202、参数提取单元203和识别单元204,其中:
所述获取单元201,适于获取待处理的语音信号。
预处理单元202,适于对所获取的语音信号进行预处理,得到预处理后的语音信号。
参数提取单元203,适于提取预处理后的语音信号的特征参数;采用所提取的特征参数组成对应的特征矢量序列,得到所述语音信号对应的特征矢量序列;所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差。
识别单元204,适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别,得到对应的语音情感识别结果。
在具体实施中,所述预处理单元202,适于对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。
在具体实施中,所述预处理单元202,适于对于预处理后得到的多个帧进行遍历,获取遍历到的当前帧;计算遍历到的当前帧及其后连续的预设数量的帧的短时能量;当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时,计算遍历到的当前帧与下一帧之间的短时能量的比值;当确定计算得到的比值大于或等于预设的阈值时,确定遍历到的当前帧为所述语音信号的语音起始帧。
在本发明一实施例中,所述预处理后的语音信号的短时能量及其衍生参数,包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例;
在本发明一实施例中,所述预处理后的语音信号的基音频率及其衍生参数,包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)!=0的相邻两帧对应的浊音间差分基音;其中,F(i)表示第i帧的基音频率,F(i+1)表示第i+1帧的基音频率。
在本发明一实施例中,所述预处理后的语音信号的音质特征共振峰及其衍生参数,包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率最小值和第二共振峰频率比率均值。
在本发明一实施例中,所述对MFCC求取的20阶的Mel倒谱系数,包括1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC。
在本发明一实施例中,所述参数提取单元203,适于分别采用如下的公式计算得到1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC:
其中,fMel表示MFCC的频率,fMid-Mel表示Mid-MFCC的频率,fI-Mel表示I-MFCC的频率,f表示实际频率
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述的语音情感识别方法的步骤。其中,所述的语音情感识别方法请参见前述部分的介绍,不再赘述。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上储存有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述的语音情感识别方法的步骤。其中,所述的语音情感识别方法请参见前述部分的介绍,不再赘述。
采用本发明实施例中的上述方法,
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (8)
1.一种语音情感识别装置,其特征在于,包括:
获取单元,适于获取待处理的语音信号;
预处理单元,适于对所获取的语音信号进行预处理,得到预处理后的语音信号;
参数提取单元,适于提取预处理后的语音信号的特征参数;采用所提取的特征参数组成对应的特征矢量序列,得到所述语音信号对应的特征矢量序列;所述特征参数包括短时能量及其衍生参数、基音频率及其衍生参数、音质特征共振峰及其衍生参数、对MFCC求取的20阶的Mel倒谱系数和MFCC的一阶差分的最大值、MFCC的一阶差分最小值、MFCC的一阶差分的均值和MFCC的一阶差分的方差:
识别单元,适于采用支持向量机对所述语音信号对应的特征矢量序列进行训练和识别,得到对应的语音情感识别结果。
2.根据权利要求1所述的语音情感识别装置,其特征在于,所述预处理单元,适于对所获取的语音信号进行采样与量化、预加重、分帧加窗、短时能量分析和端点检测。
3.根据权利要求2所述的语音情感识别装置,其特征在于,所述预处理单元,适于对于预处理后得到的多个帧进行遍历,获取遍历到的当前帧;计算遍历到的当前帧及其后连续的预设数量的帧的短时能量;当确定遍历到的当前帧及其后连续的预设数量的帧的短时能量均大于或等于初始无声段语音信号的短时能量时,计算遍历到的当前帧与下一帧之间的短时能量的比值;当确定计算得到的比值大于或等于预设的阈值时,确定遍历到的当前帧为所述语音信号的语音起始帧。
4.根据权利要求1-3任一项所述的语音情感识别装置,其特征在于,所述预处理后的语音信号的短时能量及其衍生参数,包括所述预处理后得到的多个帧的短时能量、短时能量的最大值、短时能量的最小值、短时能量的均值、短时能量的方差、短时能量抖动、短时能量的线性回归系数、短时能量的线性回归系数的均方误差和250Hz以下短时能量占全部短时能量的比例。
5.根据权利要求1-3任一项所述的语音情感识别装置,其特征在于,所述预处理后的语音信号的基音频率及其衍生参数,包括所述预处理后得到的多个帧的基音频率、基音频率的最大值、基音频率的最小值、基音频率的均值、基音频率的方差、一阶基音频率抖动、二阶基音频率抖动和满足F(i)*F(i+1)!=0的相邻两帧对应的浊音间差分基音;其中,F(i)表示第i帧的基音频率,F(i+1)表示第i+1帧的基音频率。
6.根据权利要求1-3任一项所述的语音情感识别装置,其特征在于,所述预处理后的语音信号的音质特征共振峰及其衍生参数,包括所述预处理后得到的多个帧中每个浊音帧的第一、第二和第三共振峰频率的最大值、第一、第二和第三共振峰频率的最小值、第一、第二和第三共振峰频率的均值、第一、第二和第三共振峰频率的方差和第一、第二和第三共振峰频率的一阶抖动、第二共振峰频率比率的最大值和第二共振峰频率比率最小值和第二共振峰频率比率均值。
7.根据权利要求1-3任一项所述的语音情感识别装置,其特征在于,所述对MFCC求取的20阶的Mel倒谱系数,包括1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC。
8.根据权利要求7所述的语音情感识别装置,其特征在于,所述参数提取单元,适于分别采用如下的公式计算得到1~6阶的MFCC、3~10阶的Mid-MFCC和7~12阶的I-MFCC:
其中,fMel表示MFCC的频率,fMid-Mel表示Mid-MFCC的频率,fI-Mel表示I-MFCC的频率,f表示实际频率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810455164.1A CN108682432B (zh) | 2018-05-11 | 2018-05-11 | 语音情感识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810455164.1A CN108682432B (zh) | 2018-05-11 | 2018-05-11 | 语音情感识别装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108682432A true CN108682432A (zh) | 2018-10-19 |
CN108682432B CN108682432B (zh) | 2021-03-16 |
Family
ID=63806381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810455164.1A Active CN108682432B (zh) | 2018-05-11 | 2018-05-11 | 语音情感识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108682432B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098107A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN111415652A (zh) * | 2020-03-31 | 2020-07-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN112394982A (zh) * | 2021-01-21 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 生成语音识别系统的方法、装置、介质及电子设备 |
CN112618911A (zh) * | 2020-12-31 | 2021-04-09 | 四川音乐学院 | 基于信号处理的音乐反馈调节系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
US9495954B2 (en) * | 2010-08-06 | 2016-11-15 | At&T Intellectual Property I, L.P. | System and method of synthetic voice generation and modification |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
-
2018
- 2018-05-11 CN CN201810455164.1A patent/CN108682432B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495954B2 (en) * | 2010-08-06 | 2016-11-15 | At&T Intellectual Property I, L.P. | System and method of synthetic voice generation and modification |
CN102890930A (zh) * | 2011-07-19 | 2013-01-23 | 上海上大海润信息系统有限公司 | 基于hmm/sofmnn混合模型的语音情感识别方法 |
CN106887241A (zh) * | 2016-10-12 | 2017-06-23 | 阿里巴巴集团控股有限公司 | 一种语音信号检测方法与装置 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
Non-Patent Citations (2)
Title |
---|
赵力等: "实用语音情感识别中的若干关键技术", 《数据采集与处理》 * |
韩一等: "基于MFCC的语音情感识别", 《重庆邮电大学学报(自然科学版)》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020098107A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | 基于检测模型的情绪分析方法、装置及终端设备 |
CN111415652A (zh) * | 2020-03-31 | 2020-07-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN111415652B (zh) * | 2020-03-31 | 2022-06-14 | 汕头大学 | 一种用于失语症患者康复训练专用的语音识别方法 |
CN112618911A (zh) * | 2020-12-31 | 2021-04-09 | 四川音乐学院 | 基于信号处理的音乐反馈调节系统 |
CN112394982A (zh) * | 2021-01-21 | 2021-02-23 | 腾讯科技(深圳)有限公司 | 生成语音识别系统的方法、装置、介质及电子设备 |
CN112394982B (zh) * | 2021-01-21 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 生成语音识别系统的方法、装置、介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN108682432B (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305639A (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN108682432A (zh) | 语音情感识别装置 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
KR20130133858A (ko) | 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출 | |
Hui et al. | Convolutional maxout neural networks for speech separation | |
EP1850328A1 (en) | Enhancement and extraction of formants of voice signals | |
Jiao et al. | Convex weighting criteria for speaking rate estimation | |
Mittal et al. | Study of characteristics of aperiodicity in Noh voices | |
Yuan | A time–frequency smoothing neural network for speech enhancement | |
CN110265063B (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
CN108288465A (zh) | 智能语音切轴的方法、信息数据处理终端、计算机程序 | |
Archana et al. | Gender identification and performance analysis of speech signals | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN110277087A (zh) | 一种广播信号预判预处理方法 | |
Hanilçi et al. | Comparing spectrum estimators in speaker verification under additive noise degradation | |
CN108269574A (zh) | 语音信号处理方法及装置、存储介质、电子设备 | |
CN114842878A (zh) | 一种基于神经网络的语音情感识别方法 | |
Chadha et al. | Optimal feature extraction and selection techniques for speech processing: A review | |
CN106356076A (zh) | 基于人工智能的语音活动性检测方法和装置 | |
CN111755029B (zh) | 语音处理方法、装置、存储介质以及电子设备 | |
Huang et al. | DNN-based speech enhancement using MBE model | |
Salhi et al. | Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments | |
Prasetio et al. | Automatic multiscale-based peak detection on short time energy and spectral centroid feature extraction for conversational speech segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |