CN111081273A - 一种基于声门波信号特征提取的语音情感识别方法 - Google Patents
一种基于声门波信号特征提取的语音情感识别方法 Download PDFInfo
- Publication number
- CN111081273A CN111081273A CN201911407521.8A CN201911407521A CN111081273A CN 111081273 A CN111081273 A CN 111081273A CN 201911407521 A CN201911407521 A CN 201911407521A CN 111081273 A CN111081273 A CN 111081273A
- Authority
- CN
- China
- Prior art keywords
- glottal
- emotion
- wave signal
- feature extraction
- glottal wave
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 8
- 230000009467 reduction Effects 0.000 claims abstract description 7
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 102100032202 Cornulin Human genes 0.000 claims abstract description 5
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 5
- 238000000354 decomposition reaction Methods 0.000 claims abstract 3
- 230000008451 emotion Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 7
- 230000001755 vocal effect Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 claims 1
- 238000013461 design Methods 0.000 claims 1
- 230000002996 emotional effect Effects 0.000 abstract description 11
- 210000001260 vocal cord Anatomy 0.000 abstract description 5
- 210000004704 glottis Anatomy 0.000 abstract description 4
- 230000005236 sound signal Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 230000000241 respiratory effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种基于声门波信号特征提取的语音情感识别方法。其主要是通过采用语谱图和TEO作为CRNN的输入,结合低级描述符和高级统计函数,分别对情感语音特征进行提取、降维和识别算法,最后通过HSF通道进行输出。这其中声门波信号特征的提取主要通过复倒谱相位分解形式实现信号获取,采用PCA方法对特征矢量降维,采用BP神经网络算法识别后输出。本发明所述方法能更好地反映声带振动特性,声门开相、闭相信息明确,有效减小声源谐波成分和声道干扰,且识别正确率高。
Description
技术领域
本发明属于语音识别和智能处理及人机交互领域,具体涉及一种基于声门波信号特征提取的语音情感识别方法。
背景技术
语音作为一种重要的信息资源传递与交流媒介而被广泛适用,在语音的声学信号中包含大量的用户信息、语义信息和丰富的情感信息,语音学任务的发展方向主要有声纹识别、语音识别及情感识别,语音情感识别旨在通过语音信号识别说话者的正确情绪状态,由于语音并非情感生理信号的完整表达形式,在忽略其余感官结果的前提下,如何高效而精确地识别用户表达的情感,是近年来语音学研究的热点问题。而声门波信号特征提取是优化语音情感识别的关键,传统的提取声门波的方法以逆滤波IF(InverseFiltering)为基础,如根据输入信号,在口唇外的自由场通过特殊设计的呼吸气流流速计记录口腔处的气体体积速度,通过IF的手段获取声门波,虽然不易受低频噪声影响,但流速计设计对传感器的精确度要求较高,难以满足普通工厂生产化的要求,而且特征提取方法是残差信号谐波和(SRH算法),其精度也有待进一步突破,此外传统的运用语音信号处理技术中因为提取情感相关特征参数较广,导致维数过多,冗余性高,并且容易造成维数灾难影响语音情感的识别效果。
发明内容
本发明的目的在于提供一种基于声门波信号特征提取的语音情感识别方法,以回应背景技术中所提到的问题。
本发明的目的可以通过以下技术方案实现:一种基于声门波信号特征提取的语音情感识别方法,包括以下步骤:
第一步:语音输入及前端处理,语音信号输入后,采用离散维度表示情感描述模型和CASIA汉语情感语料库,通过TEO及语谱图路径的前端初处理,分别进行预加重、分侦加窗和清浊音判别情感语音信号后进行CRNN传输。
第二步:情感语言特征提取,通过获得一帧嗓音信号声门闭合点的位置,将声门闭合点位置与基音周期相对应,得到每个基音周期内声门闭合点具体位置。获取每个基音周期内的嗓音信号,采用复倒谱的方法将此周期内的嗓音信号分解为最大相位和最小相位信号并微分,与声门闭合点位置结合,最大相的组成部分与声门开相吻合,最小相组成部分与声门闭相吻合,实现微分声门波估计后从而实现情感语言特征提取。
第三步:情感语言特征降维处理,采用PCA方法对特征矢量降维。
第四步:情感语言特征识别算法及输出,采用BP神经网络算法对情感语言特征进行识别,利用前向传播计算出各层网络的激活值,然后利用反向传导算法不断调节各层的权值,从而减少误差、最后实现HSF通道输出。
进一步地,语谱图可使用光谱优化,将语谱图经过短时傅立叶变换之后,获得分段语谱图的原始光谱矩阵后对语音进行路径处理。
进一步地,提取的发音速率、短时能量、基音频率、共振峰和MFCC系数,可先在MATLAB平台上分别化真。
进一步地,可以采用基音同步送代自适应逆滤波方法进行共振峰波纹的滤除。
进一步地,可以采用SOFTMAX回归模型对栈式自编码学习到的特征进行分类。构建多层自编码网络进行算法的自学和完善。进一步融合声门波特征PSP和HRF的均值和方差,实现多维特征分类。
进一步地,本发明选用的是CASIA汉语情感语料库中的数据进行训练和识别,还可在其他的语音情感数据库如(柏林EMO-DB情感数据库/Belfast情感数据库/美国MEEI情感数据库等)进行仿真研究。
本发明的有益效果为:针对声门波信号提取,提出了一种系统的语音情感识别方法,该方法不仅对语音信号预处理过程中的清浊音判别算法进行了优化,而且融合声门波特征后识别效果更佳,提取出的声门波中声带的开相、闭相信息更加明确,谐振波纹较少,更能反应声带的振动特性。
附图说明
图1是本发明所述方法的流程图。
图2是运用本发明所述方法的声门波提取信号图。
具体实施方式
下面将结合实施例对本发明的技术方案进行进一步描述。
如图1所示,本发明实施例的一种基于声门波信号特征提取的语音情感识别方法,包括以下具体步骤:
第一步:语音输入及前端处理,语音信号输入后,采用离散维度表示情感描述模型和CASIA汉语情感语料库,通过TEO及语谱图路径的前端初处理后,通过一个传递函数为式为2.1的滤波器来实现声门激励的预加重,将语音信号截取为长度相同的数据帧,一般帧长取10~50ms,帧叠取5~25ms。然后基于W-SRH算法的清浊音算法来判别情感语音信号,算法通过输入数据后进行预处理,然后小波分析低频重构后计算短时能量,设置一个阈值a,当短时能量小于阈值时,此帧信号为清音,反之为浊音;然后通过分顿加窗计算谐波能量从而实现清浊音的二次区别,确保精准度,后进行CRNN传输。
第二步:情感语言特征提取,通过在数据库中分别提取30~50句语音信号,获得一帧嗓音信号声门闭合点的位置,将声门闭合点位置与基音周期相对应,得到每个基音周期内声门闭合点具体位置。获取每个基音周期内的嗓音信号,采用复倒谱的方法将此周期内的嗓音信号分解为最大相位和最小相位信号并微分,与声门闭合点位置结合,最大相的组成部分与声门开相吻合,最小相组成部分与声门闭相吻合,实现微分声门波估计后从而实现情感语言特征提取。
第三步:情感语言特征降维处理,采用PCA方法对特征矢量降维。从特征矢量中计算出一组不相关的特征向量,设X1.X2,…,Xp为P个原始特征,新特征为=Yi,i=1,2,…,P,y是新特征向量,设定X是变换矩阵。寻找最优的正交变换A使得新持征的方差达到极值,是每个原始持征的方差之和,信号中的大部分信息被包含在较少的主成分里,如果采用多个主成分,则观测主成分的方差之和,采用此方法在CASIA汉语情感语料库中选取30~50句语音的发音速率、短时能量、基音频率、共振峰等多维特征结合中,选取85~90%的方差贡献率,最终选取了18维特征作为新特征。
第四步:情感语言特征识别算法及输出,采用BP神经网络算法,对情感语言特征进行识别,首先构建一个基于梯度下降思想的有监督学习算法进行学习,分为正向传播和反向传导两个过程。利用梯度下降思想沿着误差性能函数梯度的反方向调整权值,然后又进入正向传播阶段,如此反复直到达到预定的迭代次数,或者允许误差低于一个阔值,设计一个H层的网络,使输入神经元个数为M,隐含层个数为I,输出层个数为K个。输入层第m个神经元记为Xm,隐含层第i个神经元记为ki,输出层第1个神经元记为y;从Xm到Yf的连接权值记为Wmf,用u和v分别表示每一层的输入和输出,BP神经网络的隐含层采用Than,输出层采用线性传输函数。然后利用前向传播计算出各层网络的激活值,然后利用反向传导算法不断调节各层的权值,从而减少误差,在自编码过程中深度学习,最后实现HSF通道输出。
而通过对单纯使用逆滤波方法的语音识别效果上来看,本发明所述方法提取出的声门波中声带的开相、闭相信息更加明确,谐振波纹较少,更能反应声带的振动特性。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (8)
1.一种基于声门波信号特征提取的语音情感识别方法,其特征在于,包括语音信号输入、TEO及语谱图路径、CRNN传输、情感语言特征提取、情感语言特征降维、情感语言特征识别算法、HSF通道输出模块。
2.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,具体包括以下步骤:语音信号输入,采用离散维度表示情感描述模型和CASIA汉语情感语料库,通过TEO及语谱图路径的前端初处理,分别进行预加重、分侦加窗和清浊音判别情感语音信号后进行CRNN传输,利用复倒谱将每个基音周期内嗓音信号分解为最大相位信号与最小相位信号,经过微分运算后与声门闭合点位置结合,实现微分声门波估计后从而实现情感语言特征提取,采用PCA方法对特征矢量降维,采用BP神经网络算法对情感语言特征进行识别,利用前向传播计算出各层网络的激活值,然后利用反向传导算法不断调节各层的权值,从而减少误差、最后实现HSF通道输出。
3.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,声门波信号特征的提取主要通过复倒谱相位分解形式实现信号获取,而复倒谱相位分解的声门波估计途径主要是通过LF微分声门波模型通过采用理想化的正弦函数和指数函数对微分声门波建模完成。
4.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,声门波提取时要首先获得嗓音信号的基音周期和每个基音周期内声门闭合点位置。
5.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,要提取每个基音周期内嗓音信号的最大相位和最小相位信息,最大相位信号为声门开相组成部分,最小相位信号为声门闭相组成部分。
6.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,判别清浊音的算法为小波变换结合SRH的W-SRH清浊音判别算法。
7.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,采用PCA方法对特征矢量降维,降维对象包括发音速率、短时能量、基音频率和共振峰。
8.根据权利要求1所述的一种基于声门波信号特征提取的语音情感识别方法,其特征在于,BP神经网络采用多层的网络设计,采用非线性传输函数,采用反向传导算法沿着误差减小的方向,从输出层逐层调整网络的连接权值。且采用批量训练方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407521.8A CN111081273A (zh) | 2019-12-31 | 2019-12-31 | 一种基于声门波信号特征提取的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911407521.8A CN111081273A (zh) | 2019-12-31 | 2019-12-31 | 一种基于声门波信号特征提取的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111081273A true CN111081273A (zh) | 2020-04-28 |
Family
ID=70320561
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911407521.8A Pending CN111081273A (zh) | 2019-12-31 | 2019-12-31 | 一种基于声门波信号特征提取的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111081273A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666892A (zh) * | 2020-06-08 | 2020-09-15 | 西南交通大学 | 一种基于经验小波希尔伯特变换的电力机车空转识别方法 |
CN112735386A (zh) * | 2021-01-18 | 2021-04-30 | 苏州大学 | 一种基于声门波信息的语音识别方法 |
CN116098608A (zh) * | 2021-11-10 | 2023-05-12 | 复旦大学 | 喉部运动信息捕获系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
CN105043766A (zh) * | 2015-06-24 | 2015-11-11 | 北京航空航天大学 | 一种基于Hessian局部线性嵌入的轴承变工况故障诊断方法 |
US20170287510A1 (en) * | 2016-03-31 | 2017-10-05 | OmniSpeech LLC | Pitch detection algorithm based on multiband pwvt of teager energy operator |
CN108281150A (zh) * | 2018-01-29 | 2018-07-13 | 上海泰亿格康复医疗科技股份有限公司 | 一种基于微分声门波模型的语音变调变嗓音方法 |
CN108899051A (zh) * | 2018-06-26 | 2018-11-27 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
CN109119094A (zh) * | 2018-07-25 | 2019-01-01 | 苏州大学 | 一种利用声带建模反演的嗓音分类方法 |
CN109637522A (zh) * | 2018-12-26 | 2019-04-16 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
KR20190085882A (ko) * | 2018-01-11 | 2019-07-19 | 네오사피엔스 주식회사 | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
-
2019
- 2019-12-31 CN CN201911407521.8A patent/CN111081273A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101685634A (zh) * | 2008-09-27 | 2010-03-31 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
CN105043766A (zh) * | 2015-06-24 | 2015-11-11 | 北京航空航天大学 | 一种基于Hessian局部线性嵌入的轴承变工况故障诊断方法 |
US20170287510A1 (en) * | 2016-03-31 | 2017-10-05 | OmniSpeech LLC | Pitch detection algorithm based on multiband pwvt of teager energy operator |
KR20190085882A (ko) * | 2018-01-11 | 2019-07-19 | 네오사피엔스 주식회사 | 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 |
CN108281150A (zh) * | 2018-01-29 | 2018-07-13 | 上海泰亿格康复医疗科技股份有限公司 | 一种基于微分声门波模型的语音变调变嗓音方法 |
CN108899051A (zh) * | 2018-06-26 | 2018-11-27 | 北京大学深圳研究生院 | 一种基于联合特征表示的语音情感识别模型及识别方法 |
CN109119094A (zh) * | 2018-07-25 | 2019-01-01 | 苏州大学 | 一种利用声带建模反演的嗓音分类方法 |
CN109637522A (zh) * | 2018-12-26 | 2019-04-16 | 杭州电子科技大学 | 一种基于语谱图提取深度空间注意特征的语音情感识别方法 |
Non-Patent Citations (3)
Title |
---|
YUEXIAN ZOU: "Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition", 《RESEARCHGATE》 * |
师宏慧: "语音情感识别方法研究", 《知网》 * |
诸心阳: "基于模板匹配的飞行员语音关键词识别", 《知网》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666892A (zh) * | 2020-06-08 | 2020-09-15 | 西南交通大学 | 一种基于经验小波希尔伯特变换的电力机车空转识别方法 |
CN111666892B (zh) * | 2020-06-08 | 2023-04-25 | 西南交通大学 | 一种基于经验小波希尔伯特变换的电力机车空转识别方法 |
CN112735386A (zh) * | 2021-01-18 | 2021-04-30 | 苏州大学 | 一种基于声门波信息的语音识别方法 |
CN112735386B (zh) * | 2021-01-18 | 2023-03-24 | 苏州大学 | 一种基于声门波信息的语音识别方法 |
CN116098608A (zh) * | 2021-11-10 | 2023-05-12 | 复旦大学 | 喉部运动信息捕获系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108305616B (zh) | 一种基于长短时特征提取的音频场景识别方法及装置 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
Chauhan et al. | Speaker recognition using LPC, MFCC, ZCR features with ANN and SVM classifier for large input database | |
CN102800316B (zh) | 基于神经网络的声纹识别系统的最优码本设计方法 | |
JP5554893B2 (ja) | 音声特徴ベクトル変換方法及び装置 | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN112331216A (zh) | 基于复合声学特征和低秩分解tdnn的说话人识别系统及方法 | |
KR20080078466A (ko) | 다단계 음성인식장치 및 방법 | |
CN102568476B (zh) | 基于自组织特征映射网络聚类和径向基网络的语音转换法 | |
CN111081273A (zh) | 一种基于声门波信号特征提取的语音情感识别方法 | |
CN116665669A (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN108010516A (zh) | 一种语义独立的语音情绪特征识别方法及装置 | |
Mistry et al. | Overview: Speech recognition technology, mel-frequency cepstral coefficients (mfcc), artificial neural network (ann) | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
Kumar et al. | Machine learning based speech emotions recognition system | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
Fan et al. | The impact of student learning aids on deep learning and mobile platform on learning behavior | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
CN118098247A (zh) | 一种基于并行特征提取模型的声纹识别方法和系统 | |
Paul et al. | Automated speech recognition of isolated words using neural networks | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
Patil et al. | Emotion detection from speech using Mfcc & GMM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200428 |
|
WD01 | Invention patent application deemed withdrawn after publication |