CN108847255B - 一种利用情感感知谱特征进行语音情感识别的方法 - Google Patents
一种利用情感感知谱特征进行语音情感识别的方法 Download PDFInfo
- Publication number
- CN108847255B CN108847255B CN201811153057.XA CN201811153057A CN108847255B CN 108847255 B CN108847255 B CN 108847255B CN 201811153057 A CN201811153057 A CN 201811153057A CN 108847255 B CN108847255 B CN 108847255B
- Authority
- CN
- China
- Prior art keywords
- emotion
- sub
- band
- spectrum
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 81
- 238000001228 spectrum Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000008447 perception Effects 0.000 title claims abstract description 35
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 25
- 230000003595 spectral effect Effects 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 6
- 230000002996 emotional effect Effects 0.000 claims description 20
- 230000009466 transformation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000006996 mental state Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明涉及一种利用情感感知谱特征进行语音情感识别的方法,首先对输入语音信号采用预加重方法进行高频增强,然后采用快速傅立叶变换将其转换到频率得到语音频率信号;再针对语音频率信号采用情感感知子带划分方法将信号划分为多个子带;对每个子带进行情感感知谱特征计算,谱特征包括情感熵特征、情感谱谐波倾度和情感谱谐波平坦度;再对谱特征进行全局统计特征计算得到全局情感感知谱特征向量;最后将情感感知谱特征向量输入到SVM分类器,得到语音信号的情感类别。本发明根据语音心理声学模型原理,采用感知子带划分方法精确描述情感状态信息,通过子带谱特征进行情感识别,相比传统MFCC特征提高了10.4%的识别率。
Description
技术领域
本发明涉及语音情感识别技术领域,尤其涉及情感感知谱特征的语音情感识别方法。
背景技术
语音是人们交流中最重要的方式,语音信号不仅蕴含了丰富的语义信息,还携带了丰富的情感状态。分析语音中的情感特征,并采用机器学习的方法识别出语音情感状态,可以在很多场景中得到应用,如:虚拟现实中,通过识别人类情感,提高人机交互的自然度;汽车驾驶中,通过识别驾驶员精神状态提高驾驶安全;医学中,通过识别患者精神状态提供诊断依据;自动客服中,通过识别客户情绪提高客服质量。近年来,随着人工智能的迅猛发展,虚拟现实的应用需求,语音情感识别已成为人机交互领域的研究热点。
现有语音情感识别技术领域主要分类特征提取和情感分类。本发明关注语音情感特征提取,并使用支持向量机分类器(SVM)进行语音情感特征识别。语音情感特征主要分为韵律学特征、声音质量特征、谱特征等。其中谱特征以梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)使用最为广泛。这类谱特征能较好地描述语音信号的频率包络特征,因此具有一定的情感状态区分度。但情感信息相比语音内容表现更为细腻,现有MFCC和LPC等传统谱特征难以表达更加接近的情感状态,如:悲伤、害怕。本发明根据语音心理声学模型原理,从情感感知角度出发,通过感知子带划分精确地提取情感状态的谱特征,最后采用SVM分类器进行情感识别。
本发明的方法在SVM分类器下,提供一种利用情感感知谱特征进行情感识别的方法,该方法因可以精确描述情感感知状态,相比传统MFCC特征,识别率提高10.4%以上。
发明内容
本发明的目的是提供一种情感感知谱特征用于语音情感识别的方法,使得在SVM分类器下提高情感识别率。
为达到上述目的,本发明提供一种利用情感感知谱特征进行语音情感识别的方法,包括以下步骤:
步骤1:实现语音信号的预处理和时频变换:对输入的语音信号s(n)进行加窗分帧,然后对每帧信号采用高通滤波器进行高频信号的增强,再对高频增强后的每帧信号采用快速傅立叶变换方法进行时频变换得到语音频率信号Y(n);
步骤2:实现情感感知子带划分:对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法,得到子带划分后的频率系数P(i,mi),i表示子带序号(i=1,2,…,21),mi表示第i个子带的频率系数个数;
步骤3:实现情感感知谱特征的计算:在步骤2所得到的每个感知子带频率系数上计算谱特征E(i,j),i表示子带序号(i=1,2,…,21),j=1,2,3,j=1时表示情感熵特征、j=2时表示情感谱谐波倾度、j=3时表示情感谱谐波平坦度;
步骤4:实现全局统计特征的计算:对步骤3得到的谱特征E(i,j),对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征,形成语句级全局统计特征G(i,j,s),i=1,2,…,21表示子带序号,j=1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度,s=1,2,3,4,5分别代表均值、最大值、最小值、中值和标准差;
步骤5:采用SVM分类器进行分类:将步骤4得到的全局统计特征作为特征向量输入到SVM分类器进行情感识别,得到每段语音信号s(n)的类别label。
与相关技术相比,本发明提供的利用情感感知谱特征进行语音情感识别的方法具有以下有益效果:本方法依据语音心理声学模型原理,对频率信号采用感知子带划分,能精确地描述情感信息在各频率带上的分布特征,采用情感熵特征、情感谱谐波倾度、情感谱谐波平坦度3个谱特征物理量可以精确地区分情感状态。该方法利用了人耳感知机理,有利于去除冗余情感特征;精确的感知子带划分方法可以提高情感特征的有效分辨率,总体提高情感识别率。
附图说明
图1为本发明提供的利用情感感知谱特征进行语音情感识别的方法流程图;
图2为本发明提供的第3子带的能量值分布;
图3为本发明提供的各子带情感熵在CASIA上均值分布;
图4为本发明提供的各子带情感熵在EMODB上均值分布;
图5为本发明提供的各子带情感谱倾斜率在CASIA上均值分布;
图6为本发明提供的各子带情感谱倾斜率在EMODB上均值分布;
图7为本发明提供的各子带情感谱平坦度在CASIA上均值分布;
图8为本发明提供的各子带情感谱平坦度在EMODB上均值分布。
具体实施方式
下面以具体实施例结合附图对本发明的技术方法做进一步说明:
参见图1,本发明实施例提供的利用情感感知谱特征进行语音情感识别的方法,可以采用计算机软件技术手段自动进行流程,具体包括以下步骤:
步骤1:实现语音信号的预处理和时频变换:对输入语音信号先进行加窗和分帧,帧长为1024,帧移为256,窗函数为汉明窗或汉宁窗。考虑到语音产生过程中会受到声道肌肉伸张和呼吸的影响造成信号的衰减,需要对语音信号进行高频增强。增强的方法是对每帧信号进行预加重操作,预加重过程实际上是使语音信号通过一个高通滤波器得到高频区域的信号,实施中是通过一阶差分方程计算:
signal(n)=s(n)-αs(n-1),
式中,s(n)是输入的语音信号,Signal(n)是高频增强后的信号,n是采样点序号,α是一个常量,其值为0到1之间,本发明实验中取值为0.94。
由于语音情感状态在频率域内能较好地体现出区分度,因此,需要通过时频变换将信号转变到频率域,本发明使用最常用的快速傅立叶变换完成时频变换,得到语音频率信号Y(n)。
步骤2:实现情感感知子带划分:根据语音心理声学模型,人耳具有掩蔽效应,由于低能量信号会被旁边的高能量信号所掩蔽而听不见,若听不见的语音信号作为特征被提取出来的话,则会造成特征冗余造成识别率降低。此外,根据人耳听觉感知机理,对于不同频率段信号感知敏感性具有差异性,一般对低频感知要比高频感知更灵敏。为此,可以提高低频分辨率而降低高频分辨率。本发明采用语音压缩中常用的临界子带划分方法对频率信号进行分带,根据Zwicker等人1980年提出的临界子带划分方法,具体实现方法见文献:Zwicker E,Terhardt E.Analytical expressions for critical band rate andcritical bandwidth as a function of frequency.Journal of the AcousticalSociety of America,1980,68(5):1523-1525。将信号在频率上被划分成1~24个临界频带,即Bark域,该文献给出了Bark域的计算方法:
Bark=13tan-1(0.76f/1000)+3.5tan-1(f/7500)2,
式中f表示信号频率,tan表示正切函数。由于常用的语音情感识别方法中采样率一般为16kHz,其频率带宽为8kHz,本发明的实施例中仅使用21个频率子带。根据Bark带和帧级长度(1024样点),每个频率子带的截止样点可通过如下公式换算得到:
Cs(i)=fc(i)/(0.5fs)*frameLen,
式中,fc(i)表示第i个子带的截止频率,fs表示信号的采样率,此处取0.5fs是因为信号带宽只有采样率一半,frameLen表示帧长,本发明实施例计算中fs为16kHz,frameLen为1024。通过感知子带划分得到每帧语音信号P(i,mi),其中mi表示每个子带i的长度,其值为mi=Cs(i)-Cs(i-1)+1,Cs(0)=0。
本发明通过感知子带划分后能较好地区分不同情感在不同子带上的谱能量差异。参见图2,图中给出了第3个子带各帧在不同情感上的谱能量分布,从图中可看出,惊讶的整体谱能量分布较高,而悲伤最低,其他的几类情感也有明显差异,因此,采用感知子带划分具有较好的区分度。
步骤3:实现情感感知谱特征的计算:在步骤2所得到的线个感知子带划的语音信号P(i,mi)上,计算情感熵特征。根据香农熵理论,情感熵实际上是频谱概率密度函数在各频率段上的分布,也即情感熵为语音信号的功率谱分布,可以表示成语谱图,则情感熵特征可直接从频谱子带上提取,计算式如下:
由于情感谱特征中除了能量分布的差异性,还有情感谱谐波的差异,而这种差异体现在谐波的倾斜和平坦上,本发明通过计算情感谱谐波倾度和情感谱谐波平坦度来描述这类谐波差异性。
情感谱谐波倾度的计算如下:
式中μi和σi分别表示第i个子带频率幅度谱的均值和方差,E(·)表示求期望。
情感谱谐波平坦度的计算如下:
步骤4:实现全局统计特征的计算:对步骤3得到的每帧语音信号的谱特征E(i,j)进行全局统计特征的计算,即对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征。这样会得到,每个子带上情感熵特征的5个统计特征,每个子带上情感谱谐波倾度的5个统计特征,每个子带上情感谱谐波平坦度的5个统计特征,这样会得到语句级全局统计特征G(i,j,s),i=1,2,…,21表示子带序号,j=1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度,s=1,2,3,4,5分别表示均值、最大值、最小值、中值和标准差,共有315(21×3×5)个语句级特征向量。
根据步骤4所计算得到的全局统计特征在各个情感上具有较好的区分度,图3,图4,图5,图6,图7,图8分别给出了3个特征在两个情感语料库CASIA和EMODB上的均值分布,从图中可以看出3个情感特征在各个情感类别上具有较好的区分度,这可以提高情感识别率。
步骤5:采用SVM分类器进行分类:将步骤4得到的全局统计特征G(i,j,s)作为特征向量输入到预先训练好的SVM分类器进行情感识别,得到每段语音信号s(n)的类别label。此处SVM分类器使用Chang与Lin实现的LIBSVM软件包,该方法具体实现方法参照文献:LIBSVM:https://www.csie.ntu.edu.tw/~cjlin/libsvm/。
为了更好地说明本发明的先进性,下面给出本发明所涉及的情感感知谱特征与传统MFCC特征的实验对比情况。实验中使用了中文语音情感语料库CASIA,随机选取该语料库中的250句作为SVM的训练集,50句作为测试集,语音信号被下采样至16kHz。语音信号采用汉明窗进行加窗分帧,帧长为1024,帧移为256。本发明的情感感知谱特征按上述步骤1~步骤4进行提取,每句语音提取315个特征,对比实验中的MFCC每句语音提取432个特征,它的提取方法参见文献:Schuller B,Steidl S,Batliner A.The Interspeech 2009 EmotionChallenge.INTERSPEECH 2009,Conference of the International SpeechCommunication Association.DBLP,2009:312-315.实验中所有代码采用matlab 2016a软件编写,SVM分类器由LIBSVM软件包中提供的函数svmtrain(用于训练SVM模型)和svmpredict(用于分类)实现,实验结果参见表1:
表1本发明情感感知谱特征与MFCC实验识别率对比(%)
实验结果表明,本发明的平均识别率相比MFCC提高了10.4%,单个的识别率均比MFCC的高,除了高兴这个情感。由于高兴情感中属于高活性信号,其听觉中在各频率段分布差异较小,因此与MFCC相比识别率接近。但总体来看,本发明所涉及的情感感知谱特征具有比传统MFCC更好的情感区分度,能显著提高情感识别率。
Claims (2)
1.一种利用情感感知谱特征进行语音情感识别的方法,其特征在于,包括以下步骤:
步骤1:实现语音信号的预处理和时频变换:对输入的语音信号s(n)进行加窗分帧,然后对每帧信号采用高通滤波器进行高频信号的增强,再对高频增强后的每帧信号采用快速傅立叶变换方法进行时频变换得到语音频率信号Y(n);
步骤2:实现情感感知子带划分:对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法,得到子带划分后的频率系数P(i,mi),i表示子带序号,i=1,2,…,21,mi表示第i个子带的频率系数个数;
步骤3:实现情感感知谱特征的计算:在步骤2所得到的每个感知子带频率系数上计算谱特征E(i,j),i表示子带序号,i=1,2,…,21,j=1,2,3,j=1时表示情感熵特征、j=2时表示情感谱谐波倾度、j=3时表示情感谱谐波平坦度;
步骤4:实现全局统计特征的计算:对步骤3得到的谱特征E(i,j),对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征,形成语句级全局统计特征G(i,j,s),i=1,2,…,21表示子带序号,j=1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度,s=1,2,3,4,5分别代表均值、最大值、最小值、中值和标准差;
步骤5:采用SVM分类器进行分类:将步骤4得到的全局统计特征作为特征向量输入到SVM分类器进行情感识别,得到每段语音信号s(n)的类别label。
2.根据权利要求1所述利用情感感知谱特征进行语音情感识别的方法,其特征在于,所述情感感知谱特征的提取方法为:首先对语音信号的频率系数进行感知子带划分,再计算每个子带上的谱特征,最后对谱特征进行统计计算得到全局统计特征用以表达情感感知特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811153057.XA CN108847255B (zh) | 2018-09-29 | 2018-09-29 | 一种利用情感感知谱特征进行语音情感识别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811153057.XA CN108847255B (zh) | 2018-09-29 | 2018-09-29 | 一种利用情感感知谱特征进行语音情感识别的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108847255A CN108847255A (zh) | 2018-11-20 |
CN108847255B true CN108847255B (zh) | 2022-05-17 |
Family
ID=64188027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811153057.XA Active CN108847255B (zh) | 2018-09-29 | 2018-09-29 | 一种利用情感感知谱特征进行语音情感识别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108847255B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863517B (zh) * | 2021-01-19 | 2023-01-06 | 苏州大学 | 基于感知谱收敛率的语音识别方法 |
CN113163155B (zh) * | 2021-04-30 | 2023-09-05 | 咪咕视讯科技有限公司 | 用户头像生成方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9195649B2 (en) * | 2012-12-21 | 2015-11-24 | The Nielsen Company (Us), Llc | Audio processing techniques for semantic audio recognition and report generation |
-
2018
- 2018-09-29 CN CN201811153057.XA patent/CN108847255B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
Non-Patent Citations (4)
Title |
---|
中文语音情感常用特征识别性能分析;李文华等;《智能计算机与应用》;20170428(第02期);全文 * |
基于特征融合的语音情感识别方法的研究;巨晓正;《硕士学位论文》;20171231;全文 * |
希尔伯特边际谱在语音情感识别中的应用;谢珊等;《声学技术》;20090415(第02期);全文 * |
语音情感特征提取与识别的研究;向磊;《硕士学位论文》;20141231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108847255A (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ancilin et al. | Improved speech emotion recognition with Mel frequency magnitude coefficient | |
Bhavan et al. | Bagged support vector machines for emotion recognition from speech | |
Biswas et al. | Admissible wavelet packet features based on human inner ear frequency response for Hindi consonant recognition | |
Koolagudi et al. | Emotion recognition from speech using source, system, and prosodic features | |
Dişken et al. | A review on feature extraction for speaker recognition under degraded conditions | |
Samantaray et al. | A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages | |
He et al. | Automatic evaluation of hypernasality based on a cleft palate speech database | |
Paulose et al. | Performance evaluation of different modeling methods and classifiers with MFCC and IHC features for speaker recognition | |
Martinez et al. | On the relevance of auditory-based Gabor features for deep learning in robust speech recognition | |
Patnaik | Speech emotion recognition by using complex MFCC and deep sequential model | |
Waghmare et al. | Emotion recognition system from artificial marathi speech using MFCC and LDA techniques | |
Chenchah et al. | Acoustic emotion recognition using linear and nonlinear cepstral coefficients | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Kandali et al. | Vocal emotion recognition in five native languages of Assam using new wavelet features | |
CN108847255B (zh) | 一种利用情感感知谱特征进行语音情感识别的方法 | |
Shahzadi et al. | Recognition of emotion in speech using spectral patterns | |
Gunawan et al. | Development of language identification system using MFCC and vector quantization | |
Safavi et al. | Identification of gender from children's speech by computers and humans. | |
Patil et al. | Combining evidences from magnitude and phase information using VTEO for person recognition using humming | |
Khanna et al. | Application of vector quantization in emotion recognition from human speech | |
Bansal et al. | Emotional Hindi speech: Feature extraction and classification | |
Sahoo et al. | Analyzing the vocal tract characteristics for out-of-breath speech | |
Nazifa et al. | Gender prediction by speech analysis | |
Alsadi et al. | Automatic Speech Recognition Techniques: A Review | |
Korvel et al. | Comparison of Lithuanian and Polish consonant phonemes based on acoustic analysis–preliminary results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |