CN110910902B - 一种基于集成学习的混合模型语音情感识别方法及系统 - Google Patents
一种基于集成学习的混合模型语音情感识别方法及系统 Download PDFInfo
- Publication number
- CN110910902B CN110910902B CN201911225002.XA CN201911225002A CN110910902B CN 110910902 B CN110910902 B CN 110910902B CN 201911225002 A CN201911225002 A CN 201911225002A CN 110910902 B CN110910902 B CN 110910902B
- Authority
- CN
- China
- Prior art keywords
- model
- voice
- emotion recognition
- signal
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 50
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 29
- 238000010276 construction Methods 0.000 claims description 21
- 238000009432 framing Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000007637 random forest analysis Methods 0.000 description 12
- 230000006872 improvement Effects 0.000 description 9
- 230000007935 neutral effect Effects 0.000 description 7
- 238000003066 decision tree Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于集成学习的混合模型语音情感识别方法及系统,具体包括:构建情感识别语音数据集;对语音信号进行预处理;从预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;利用提取的语音信号特征分别采用多种算法进行建模,获得多种模型;利用生成的模型对语音信号进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;根据混合模型的输出结果判断语音信号的情感类别。本发明的有益效果为:通过利用多个集成模型构建混合模型,其鲁棒性更强,算法识别精度更高;同时,将多个集成模型的预测结果利用岭回归模型重新训练,可以更好的削弱不同情感间的相互影响,提高语音情感识别的效果。
Description
技术领域
本发明涉及语音情感识别技术领域,具体而言,涉及一种基于集成学习的混合模型语音情感识别方法及系统。
背景技术
语音识别技术是人机交互中重要的方式和手段之一,语音情感识别可以帮助机器更好的理解人的感情变化从而提升用户体验,给出更完美的解决方案,使机器更加智能。语音情感识别技术可以应用在很多场景中。如:工作中电话客服服务态度监测;生活中司机驾驶疲劳情感监控;教学上可进行教师在线课程情感监控;在医疗中可检测患者情感变化从而进行辅助诊断和治疗。
现有的基于深度学习的神经网络方法可以达到很好的识别效果,但是其网络结构复杂,时间复杂度低,这将导致算法时延高、落地难度大等一系列问题。基于统计学的机器学习方法在算法复杂度上有一定优势,但识别精度较低。本方案基于多集成学习模型及岭回归混合模型,与目前的通用方法相比,可以提升语音情感识别的精度,特别是对于不同情感类型的混淆区分。
发明内容
为解决上述问题,本发明的目的在于提供一种基于多集成学习模型及岭回归混合模型的,对于不同情感类型识别精度高的语音情感识别方法和系统。
为了实现上述目的,本发明提供了一种基于集成学习的混合模型语音情感识别方法,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;
步骤2:对语音信号进行预处理;
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。
作为本发明进一步的改进,步骤2中,预处理包括以下步骤:
步骤S201:对标准化后的数字信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重;
步骤S203:对步骤S202得到的信号进行分帧处理;
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
作为本发明进一步的改进,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
作为本发明进一步的改进,步骤5中,构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;
步骤S502:将步骤S501得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
作为本发明进一步的改进,步骤S201中,使用VAD算法语音信号进行端点检测。
作为本发明进一步的改进,步骤S204中,使用汉明窗对信号进行加窗处理,汉明窗函数w(n)如下:
其中,N是窗的宽度。
本发明中,构建情感识别语音数据集包括以下分类方式:
方式一:愤怒和随和;
方式二:中性、生气、悲伤和高兴;
方式三:中性、生气、害怕、高兴、悲伤、厌恶和无聊。
本发明还提供了一种基于集成学习的混合模型语音情感识别系统,该系统包括:
预处理模块,用于对语音信号进行预处理;
信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;
集成学习模型构造模块,对信号处理模块处理后的语音信号进行建模,生成多种预测模型;
混合模型构造模块,利用集成学习模型构造模块生成的多种模型对语音信号进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
情感识别模块,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别。
作为本发明进一步的改进,预处理模块包括:
端点检测模块,对采样标准化模块标准化后的数字信号进行端点检测,去除音频的首尾静音片段;
信号预加重模块,对语音信号进行预加重;
分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;
加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。
作为本发明进一步的改进,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
作为本发明进一步的改进,混合模型构造模块包括:
模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;
岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
本系统中,语音情感识别分类形式包括:
形式一:愤怒和随和;
形式二:中性、生气、悲伤和高兴;
形式三:中性、生气、害怕、高兴、悲伤、厌恶和无聊。
本发明的有益效果为:通过利用多个集成模型构建混合模型,其鲁棒性更强,算法识别精度更高;同时,将多个集成模型的预测结果利用岭回归模型重新训练,可以更好的削弱不同情感间相互影响,提高语音情感识别的效果。
附图说明
图1为本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法的流程图;
图2为本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法的情感识别分类方式图;
图3为本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法的混合模型结构示意图;
图4为本发明实施例所述的一种基于集成学习的混合模型语音情感识别系统的系统流程图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
实施例1
如图1-3所示,本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;
对情感识别语音数据集进行划分,语音情感识别分类形式包括二分类,四分类和七分类,如图3所示:
二分类:愤怒和随和;
四分类:中性、生气、悲伤和高兴;
七分类:中性、生气、害怕、高兴、悲伤、厌恶和无聊。
其中四分类和七分类均使用的公开数据集,二分类是基于四分类数据集而来,将四分类数据集中的中性和高兴归纳为随和,生气和悲伤归纳为愤怒,从而得到二分类数据集。
步骤2:对语音信号进行预处理;
预处理包括以下步骤:
步骤S201:使用VAD算法对语音信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重,提升高频部分能量,减轻低频干扰;
通过下面的方法进行预加重:
y(t)=x(t)-αx(t-1),0.95<α<0.99
其中,x(t)是t时刻语音信号的幅值,x(t-1)是t-1时刻语音信号的幅值,y(t)是预加重后信号t时刻的幅值,α是差分系数,本实施例中,α=0.97。
语音信号往往会有频谱倾斜现象,一般高频部分的幅度会低于低频部分的幅度,预加重可以增大高频部分的幅度,从而达到平衡频谱的作用。
步骤S203:对步骤S202得到的信号进行分帧处理;
由于语音信号的频率是随时间变化而变化的非平稳信号,信号的频率轮廓会随着时间的推移而丢失,为了提取信号的频域特征,需要对信号进行分帧处理,分帧后的帧信号可以看作是平稳信号,进而提取频域上的特征。本实施中,帧长为30ms,帧移为15ms。
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
为了让帧信号两端平滑的衰减,提高频谱的质量,本实施例中使用汉明窗,汉明窗函数如下:
其中,N是窗的宽度,本实施例中,N=512。
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
具体的,对预处理后的信号,提取其韵律学特征:基频、能量,和频域特征:MFCC特征,特征取平均后并拼接起来。本实施例中,MFCC的特征维度取26,加上基频和能量后,最终的特征维度为28。
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集;多种预测模型均使用该训练集训练,由于预测模型的不同,在同一数据集上可以得到不同的预测结果,形成一组预测概率值。
也可以将情感识别语音数据集分成多份,每一份数据分别作为多种预测模型的预测数据,多种预测模型的预测数据互斥,除作为多种预测模型各自的一组预测数据外,其余几份数据作为多种预测模型各自的训练数据,分别得到多个预测模型的预测概率值,形成一组预测概率值。
步骤S502:将步骤S501得到一组预测概率值的作为训练数据输入岭回归模型重新训练,构建混合模型。
步骤6:待测语音信号经过步骤1~5处理后,根据混合模型的输出结果判断语音信号的情感类别。混合模型输出待测语音信号为各自情绪的概率值,概率值最高的情绪即为该待测语音信号的情感类别。例如:
二分类,对于某待测语音信号,经过预处理,特征提取,输入四种预测模型,得到一组预测概率值,输入混合模型得到最终的预测概率值为[0.33,0.67],第一个值表示该条语音为愤怒的概率,第二个值表示该条语音为随和的概率,则该条语音信号的情绪被识别为随和。
进一步的,步骤4中,采用四种算法建模,包括:
1)基于Bagging的随机森林(Random Forests,RF)算法。RF为以决策树为基学习器的Bagging算法,在RF中构建决策树时,按照以下方法进行节点的属性化分:首先选出具有k个属性的子集,每个属性来自于该决策树节点;然后从该子集中选出一个最优属性进行划分,给出决策结果。
2)基于Boosting的自适应增强(Adaptive Boosting,AdaBoost)算法。Adaboost通过提高基分类器的错误分类样本权值,降低正确分类样本权值来进行模型训练。
3)基于Boosting的梯度提升决策树(Gradient Boosting Decision Trees,GBDT)算法。GBDT也以决策树为基分类器,但其利用损失函数的负梯度值作为提升树算法中残差的近似值,从而拟合一颗决策树。
4)基于Boosting的(Extreme Gradient Boosting,XGB)算法。XGB优化了解析稀疏数据方案,并使用加权分位数图进行有效训练。
生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。相应的,将情感识别语音数据集分成训练集和测试集后,四种预测模型均使用该训练集训练,得到不同的预测结果。预测模型的输出是输出了各种情绪的概率值,例如:二分类实验:对于某条输入语音,
预测模型1输出[0.3,0.7]
预测模型2输出[0.25,0.75]
预测模型3输出[0.35,0.65]
预测模型4输出[0.45,0.55]
第一个值表示该条语音为愤怒的概率,第二个值表示该条语音为随和的概率。两者相加为1。
同理:四分类实验:对于某条输入语音,
预测模型1输出[0.1,0.7,0.1,0.1]
预测模型2输出[0.1,0.6,0.2,0.1]
预测模型3输出[0.2,0.5,0.25,0.05]
预测模型4输出[0.3,0.6,0.04,0.06]
第一个值表示该条语音为中性的概率,第二个值表示该条语音为生气的概率,第三个值表示该条语音为悲伤的概率,第四个值表示该条语音为高兴的概率。四者相加为1。七分类实验同理。
进一步的,将四种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型,从而根据混合模型的输出结果判断语音信号的情感类别。
实施例2
如图4所示。本发明实施例所述的一种基于集成学习的混合模型语音情感识别系统,该系统包括:
预处理模块,用于对语音信号进行预处理;
信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;
集成学习模型构造模块,对信号处理模块处理后的语音信号进行建模,生成多种预测模型;
混合模型构造模块,利用集成学习模型构造模块生成的多种预测模型对特征进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
情感识别模块,将待测语音信号输入到混合模型,根据混合模型的输出结果判断语音信号的情感类别。
其中,预处理模块包括:
端点检测模块,对语音信号进行端点检测,去除音频的首尾静音片段;
信号预加重模块,对语音信号进行预加重;
分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;
加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。
混合模型构造模块包括:
模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;
岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
本实施例中采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
该系统通过预处理模块对语音信号进行预处理,预处理时,对语音信号使用VAD算法进行端点检测,去除音频的首尾静音片段;然后对语音信号进行预加重;并对预加重处理后的信号进行分帧处理(帧长为30ms,帧移为15ms),最后对分帧处理后的每一帧信号采用汉明窗进行加窗处理。进一步的,信号处理模块从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征,集成学习模型构造模块通过四种算法对信号处理模块处理后的语音信号进行建模,生成RF模型、AdaBoost模型、GBDT模型和XBG模型四种模型;进一步的,混合模型构造模块中将情感识别语音数据集分成训练集和测试集,四种预测模型均使用该训练集训练,由于预测模型的不同,在同一数据集上可以得到不同的预测结果,最后通过岭回归模型将四种预测模型的预测结果作为训练数据输入岭回归模型重新训练,构建混合模型;识别时,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别,情感识别模块根据混合模型的输出结果判断语音信号的情感类别。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于集成学习的混合模型语音情感识别方法,其特征在于,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;对情感识别语音数据集进行语音情感识别分类,得到多个语音情感类别;
步骤2:对语音信号进行预处理;
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;每一种预测模型的输出包括所述语音信号中包含的不同语音情感类别的概率值,一种预测模型输出的不同语音情感类别的概率值的和为1;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。
2.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤2中,预处理包括以下步骤:
步骤S201:对语音信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重;
步骤S203:对步骤S202得到的信号进行分帧处理;
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
3.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
4.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤5中,构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;
步骤S502:将得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
5.根据权利要求2所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤S201中,使用VAD算法语音信号进行端点检测。
7.一种基于集成学习的混合模型语音情感识别系统,其特征在于,该系统包括:
预处理模块,对情感识别语音数据集进行语音情感识别分类,得到多个语音情感类别,并对语音信号进行预处理;
信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;
集成学习模型构造模块,利用提取到的语音信号特征分别采用多种算法进行建模,生成多种预测模型;每一种预测模型的输出包括所述语音信号中包含的不同语音情感类别的概率值,一种预测模型输出的不同语音情感类别的概率值的和为1;
混合模型构造模块,利用集成学习模型构造模块生成的多种预测模型对特征进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
情感识别模块,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别。
8.根据权利要求7所述的基于集成学习的混合模型语音情感识别系统,其特征在于,预处理模块包括:
端点检测模块,对语音信号进行端点检测,去除音频的首尾静音片段;
信号预加重模块,对语音信号进行预加重;
分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;
加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。
9.根据权利要求7所述的基于集成学习的混合模型语音情感识别系统,其特征在于,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
10.根据权利要求7所述的基于集成学习的混合模型语音情感识别系统,其特征在于,混合模型构造模块包括:
模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;
岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911225002.XA CN110910902B (zh) | 2019-12-04 | 2019-12-04 | 一种基于集成学习的混合模型语音情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911225002.XA CN110910902B (zh) | 2019-12-04 | 2019-12-04 | 一种基于集成学习的混合模型语音情感识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110910902A CN110910902A (zh) | 2020-03-24 |
CN110910902B true CN110910902B (zh) | 2022-09-06 |
Family
ID=69821858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911225002.XA Active CN110910902B (zh) | 2019-12-04 | 2019-12-04 | 一种基于集成学习的混合模型语音情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110910902B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111816212B (zh) * | 2020-06-19 | 2022-10-11 | 杭州电子科技大学 | 基于特征集融合的语音情感识别及评价方法 |
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN114927143A (zh) * | 2022-04-21 | 2022-08-19 | 厦门大学 | 一种基于深度学习的舞美效果自动生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101506874A (zh) * | 2006-09-13 | 2009-08-12 | 日本电信电话株式会社 | 情感检测方法、情感检测装置、安装了该方法的情感检测程序以及记录了该程序的记录介质 |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN110390956A (zh) * | 2019-08-15 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别网络模型、方法及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9984585B2 (en) * | 2013-12-24 | 2018-05-29 | Varun Aggarwal | Method and system for constructed response grading |
US10872354B2 (en) * | 2015-09-04 | 2020-12-22 | Robin S Slomkowski | System and method for personalized preference optimization |
-
2019
- 2019-12-04 CN CN201911225002.XA patent/CN110910902B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101506874A (zh) * | 2006-09-13 | 2009-08-12 | 日本电信电话株式会社 | 情感检测方法、情感检测装置、安装了该方法的情感检测程序以及记录了该程序的记录介质 |
CN101930735A (zh) * | 2009-06-23 | 2010-12-29 | 富士通株式会社 | 语音情感识别设备和进行语音情感识别的方法 |
CN110390956A (zh) * | 2019-08-15 | 2019-10-29 | 龙马智芯(珠海横琴)科技有限公司 | 情感识别网络模型、方法及电子设备 |
Non-Patent Citations (2)
Title |
---|
A Comparison of Evaluation Measures for Emotion Recognition in Dimensional Space;Robert Jenke et al.;《2013 Humaine Association Conference on Affective Computing and Intelligent Interaction》;20131212;第822-823页 * |
基于极限学习机的语音情感识别;何淑琳等;《微电子学与计算机》;20150705;第51页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110910902A (zh) | 2020-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110910902B (zh) | 一种基于集成学习的混合模型语音情感识别方法及系统 | |
CN110853680B (zh) | 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法 | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
Tong et al. | A comparative study of robustness of deep learning approaches for VAD | |
CN110956953B (zh) | 基于音频分析与深度学习的争吵识别方法 | |
US5594834A (en) | Method and system for recognizing a boundary between sounds in continuous speech | |
US11837252B2 (en) | Speech emotion recognition method and system based on fused population information | |
Shahzadi et al. | Speech emotion recognition using nonlinear dynamics features | |
CN112765323A (zh) | 基于多模态特征提取与融合的语音情感识别方法 | |
KR20200105589A (ko) | 음성 감정 인식 방법 및 시스템 | |
Utane et al. | Emotion recognition through Speech | |
CN111477219A (zh) | 关键词区分方法、装置、电子设备和可读存储介质 | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Praksah et al. | Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier | |
Taspinar et al. | Identification of the english accent spoken in different countries by the k-nearest neighbor method | |
Ling | An acoustic model for English speech recognition based on deep learning | |
CN106297769A (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Sivaram et al. | Data-driven and feedback based spectro-temporal features for speech recognition | |
KR102429656B1 (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
CN103871413A (zh) | 基于svm和hmm混合模型的男女说话声音分类方法 | |
CN111091809B (zh) | 一种深度特征融合的地域性口音识别方法及装置 | |
Halavati et al. | Recognition of human speech phonemes using a novel fuzzy approach | |
Aggarwal et al. | Application of genetically optimized neural networks for hindi speech recognition system | |
Fook et al. | Malay speech recognition in normal and noise condition | |
CN114242045A (zh) | 一种自然语言对话系统意图深度学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |