CN110910902B - 一种基于集成学习的混合模型语音情感识别方法及系统 - Google Patents

一种基于集成学习的混合模型语音情感识别方法及系统 Download PDF

Info

Publication number
CN110910902B
CN110910902B CN201911225002.XA CN201911225002A CN110910902B CN 110910902 B CN110910902 B CN 110910902B CN 201911225002 A CN201911225002 A CN 201911225002A CN 110910902 B CN110910902 B CN 110910902B
Authority
CN
China
Prior art keywords
model
voice
emotion recognition
signal
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911225002.XA
Other languages
English (en)
Other versions
CN110910902A (zh
Inventor
伍林
尹朝阳
李昊奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhexin Information Technology Co ltd
Original Assignee
Hangzhou Zhexin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhexin Information Technology Co ltd filed Critical Hangzhou Zhexin Information Technology Co ltd
Priority to CN201911225002.XA priority Critical patent/CN110910902B/zh
Publication of CN110910902A publication Critical patent/CN110910902A/zh
Application granted granted Critical
Publication of CN110910902B publication Critical patent/CN110910902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于集成学习的混合模型语音情感识别方法及系统,具体包括:构建情感识别语音数据集;对语音信号进行预处理;从预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;利用提取的语音信号特征分别采用多种算法进行建模,获得多种模型;利用生成的模型对语音信号进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;根据混合模型的输出结果判断语音信号的情感类别。本发明的有益效果为:通过利用多个集成模型构建混合模型,其鲁棒性更强,算法识别精度更高;同时,将多个集成模型的预测结果利用岭回归模型重新训练,可以更好的削弱不同情感间的相互影响,提高语音情感识别的效果。

Description

一种基于集成学习的混合模型语音情感识别方法及系统
技术领域
本发明涉及语音情感识别技术领域,具体而言,涉及一种基于集成学习的混合模型语音情感识别方法及系统。
背景技术
语音识别技术是人机交互中重要的方式和手段之一,语音情感识别可以帮助机器更好的理解人的感情变化从而提升用户体验,给出更完美的解决方案,使机器更加智能。语音情感识别技术可以应用在很多场景中。如:工作中电话客服服务态度监测;生活中司机驾驶疲劳情感监控;教学上可进行教师在线课程情感监控;在医疗中可检测患者情感变化从而进行辅助诊断和治疗。
现有的基于深度学习的神经网络方法可以达到很好的识别效果,但是其网络结构复杂,时间复杂度低,这将导致算法时延高、落地难度大等一系列问题。基于统计学的机器学习方法在算法复杂度上有一定优势,但识别精度较低。本方案基于多集成学习模型及岭回归混合模型,与目前的通用方法相比,可以提升语音情感识别的精度,特别是对于不同情感类型的混淆区分。
发明内容
为解决上述问题,本发明的目的在于提供一种基于多集成学习模型及岭回归混合模型的,对于不同情感类型识别精度高的语音情感识别方法和系统。
为了实现上述目的,本发明提供了一种基于集成学习的混合模型语音情感识别方法,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;
步骤2:对语音信号进行预处理;
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。
作为本发明进一步的改进,步骤2中,预处理包括以下步骤:
步骤S201:对标准化后的数字信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重;
步骤S203:对步骤S202得到的信号进行分帧处理;
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
作为本发明进一步的改进,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
作为本发明进一步的改进,步骤5中,构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;
步骤S502:将步骤S501得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
作为本发明进一步的改进,步骤S201中,使用VAD算法语音信号进行端点检测。
作为本发明进一步的改进,步骤S204中,使用汉明窗对信号进行加窗处理,汉明窗函数w(n)如下:
Figure BDA0002301949470000021
其中,N是窗的宽度。
本发明中,构建情感识别语音数据集包括以下分类方式:
方式一:愤怒和随和;
方式二:中性、生气、悲伤和高兴;
方式三:中性、生气、害怕、高兴、悲伤、厌恶和无聊。
本发明还提供了一种基于集成学习的混合模型语音情感识别系统,该系统包括:
预处理模块,用于对语音信号进行预处理;
信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;
集成学习模型构造模块,对信号处理模块处理后的语音信号进行建模,生成多种预测模型;
混合模型构造模块,利用集成学习模型构造模块生成的多种模型对语音信号进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
情感识别模块,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别。
作为本发明进一步的改进,预处理模块包括:
端点检测模块,对采样标准化模块标准化后的数字信号进行端点检测,去除音频的首尾静音片段;
信号预加重模块,对语音信号进行预加重;
分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;
加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。
作为本发明进一步的改进,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
作为本发明进一步的改进,混合模型构造模块包括:
模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;
岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
本系统中,语音情感识别分类形式包括:
形式一:愤怒和随和;
形式二:中性、生气、悲伤和高兴;
形式三:中性、生气、害怕、高兴、悲伤、厌恶和无聊。
本发明的有益效果为:通过利用多个集成模型构建混合模型,其鲁棒性更强,算法识别精度更高;同时,将多个集成模型的预测结果利用岭回归模型重新训练,可以更好的削弱不同情感间相互影响,提高语音情感识别的效果。
附图说明
图1为本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法的流程图;
图2为本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法的情感识别分类方式图;
图3为本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法的混合模型结构示意图;
图4为本发明实施例所述的一种基于集成学习的混合模型语音情感识别系统的系统流程图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
实施例1
如图1-3所示,本发明实施例所述的一种基于集成学习的混合模型语音情感识别方法,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;
对情感识别语音数据集进行划分,语音情感识别分类形式包括二分类,四分类和七分类,如图3所示:
二分类:愤怒和随和;
四分类:中性、生气、悲伤和高兴;
七分类:中性、生气、害怕、高兴、悲伤、厌恶和无聊。
其中四分类和七分类均使用的公开数据集,二分类是基于四分类数据集而来,将四分类数据集中的中性和高兴归纳为随和,生气和悲伤归纳为愤怒,从而得到二分类数据集。
步骤2:对语音信号进行预处理;
预处理包括以下步骤:
步骤S201:使用VAD算法对语音信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重,提升高频部分能量,减轻低频干扰;
通过下面的方法进行预加重:
y(t)=x(t)-αx(t-1),0.95<α<0.99
其中,x(t)是t时刻语音信号的幅值,x(t-1)是t-1时刻语音信号的幅值,y(t)是预加重后信号t时刻的幅值,α是差分系数,本实施例中,α=0.97。
语音信号往往会有频谱倾斜现象,一般高频部分的幅度会低于低频部分的幅度,预加重可以增大高频部分的幅度,从而达到平衡频谱的作用。
步骤S203:对步骤S202得到的信号进行分帧处理;
由于语音信号的频率是随时间变化而变化的非平稳信号,信号的频率轮廓会随着时间的推移而丢失,为了提取信号的频域特征,需要对信号进行分帧处理,分帧后的帧信号可以看作是平稳信号,进而提取频域上的特征。本实施中,帧长为30ms,帧移为15ms。
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
为了让帧信号两端平滑的衰减,提高频谱的质量,本实施例中使用汉明窗,汉明窗函数如下:
Figure BDA0002301949470000051
其中,N是窗的宽度,本实施例中,N=512。
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
具体的,对预处理后的信号,提取其韵律学特征:基频、能量,和频域特征:MFCC特征,特征取平均后并拼接起来。本实施例中,MFCC的特征维度取26,加上基频和能量后,最终的特征维度为28。
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集;多种预测模型均使用该训练集训练,由于预测模型的不同,在同一数据集上可以得到不同的预测结果,形成一组预测概率值。
也可以将情感识别语音数据集分成多份,每一份数据分别作为多种预测模型的预测数据,多种预测模型的预测数据互斥,除作为多种预测模型各自的一组预测数据外,其余几份数据作为多种预测模型各自的训练数据,分别得到多个预测模型的预测概率值,形成一组预测概率值。
步骤S502:将步骤S501得到一组预测概率值的作为训练数据输入岭回归模型重新训练,构建混合模型。
步骤6:待测语音信号经过步骤1~5处理后,根据混合模型的输出结果判断语音信号的情感类别。混合模型输出待测语音信号为各自情绪的概率值,概率值最高的情绪即为该待测语音信号的情感类别。例如:
二分类,对于某待测语音信号,经过预处理,特征提取,输入四种预测模型,得到一组预测概率值,输入混合模型得到最终的预测概率值为[0.33,0.67],第一个值表示该条语音为愤怒的概率,第二个值表示该条语音为随和的概率,则该条语音信号的情绪被识别为随和。
进一步的,步骤4中,采用四种算法建模,包括:
1)基于Bagging的随机森林(Random Forests,RF)算法。RF为以决策树为基学习器的Bagging算法,在RF中构建决策树时,按照以下方法进行节点的属性化分:首先选出具有k个属性的子集,每个属性来自于该决策树节点;然后从该子集中选出一个最优属性进行划分,给出决策结果。
2)基于Boosting的自适应增强(Adaptive Boosting,AdaBoost)算法。Adaboost通过提高基分类器的错误分类样本权值,降低正确分类样本权值来进行模型训练。
3)基于Boosting的梯度提升决策树(Gradient Boosting Decision Trees,GBDT)算法。GBDT也以决策树为基分类器,但其利用损失函数的负梯度值作为提升树算法中残差的近似值,从而拟合一颗决策树。
4)基于Boosting的(Extreme Gradient Boosting,XGB)算法。XGB优化了解析稀疏数据方案,并使用加权分位数图进行有效训练。
生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。相应的,将情感识别语音数据集分成训练集和测试集后,四种预测模型均使用该训练集训练,得到不同的预测结果。预测模型的输出是输出了各种情绪的概率值,例如:二分类实验:对于某条输入语音,
预测模型1输出[0.3,0.7]
预测模型2输出[0.25,0.75]
预测模型3输出[0.35,0.65]
预测模型4输出[0.45,0.55]
第一个值表示该条语音为愤怒的概率,第二个值表示该条语音为随和的概率。两者相加为1。
同理:四分类实验:对于某条输入语音,
预测模型1输出[0.1,0.7,0.1,0.1]
预测模型2输出[0.1,0.6,0.2,0.1]
预测模型3输出[0.2,0.5,0.25,0.05]
预测模型4输出[0.3,0.6,0.04,0.06]
第一个值表示该条语音为中性的概率,第二个值表示该条语音为生气的概率,第三个值表示该条语音为悲伤的概率,第四个值表示该条语音为高兴的概率。四者相加为1。七分类实验同理。
进一步的,将四种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型,从而根据混合模型的输出结果判断语音信号的情感类别。
实施例2
如图4所示。本发明实施例所述的一种基于集成学习的混合模型语音情感识别系统,该系统包括:
预处理模块,用于对语音信号进行预处理;
信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;
集成学习模型构造模块,对信号处理模块处理后的语音信号进行建模,生成多种预测模型;
混合模型构造模块,利用集成学习模型构造模块生成的多种预测模型对特征进行预测,将预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
情感识别模块,将待测语音信号输入到混合模型,根据混合模型的输出结果判断语音信号的情感类别。
其中,预处理模块包括:
端点检测模块,对语音信号进行端点检测,去除音频的首尾静音片段;
信号预加重模块,对语音信号进行预加重;
分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;
加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。
混合模型构造模块包括:
模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;
岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
本实施例中采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
该系统通过预处理模块对语音信号进行预处理,预处理时,对语音信号使用VAD算法进行端点检测,去除音频的首尾静音片段;然后对语音信号进行预加重;并对预加重处理后的信号进行分帧处理(帧长为30ms,帧移为15ms),最后对分帧处理后的每一帧信号采用汉明窗进行加窗处理。进一步的,信号处理模块从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征,集成学习模型构造模块通过四种算法对信号处理模块处理后的语音信号进行建模,生成RF模型、AdaBoost模型、GBDT模型和XBG模型四种模型;进一步的,混合模型构造模块中将情感识别语音数据集分成训练集和测试集,四种预测模型均使用该训练集训练,由于预测模型的不同,在同一数据集上可以得到不同的预测结果,最后通过岭回归模型将四种预测模型的预测结果作为训练数据输入岭回归模型重新训练,构建混合模型;识别时,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别,情感识别模块根据混合模型的输出结果判断语音信号的情感类别。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于集成学习的混合模型语音情感识别方法,其特征在于,该方法包括以下步骤:
步骤1:构建情感识别语音数据集;对情感识别语音数据集进行语音情感识别分类,得到多个语音情感类别;
步骤2:对语音信号进行预处理;
步骤3:从步骤2预处理过后的语音信号中提取帧级别具有时序信息的语音信号特征;
步骤4:利用步骤3提取到的语音信号特征分别采用多种算法进行建模,获得多种预测模型;每一种预测模型的输出包括所述语音信号中包含的不同语音情感类别的概率值,一种预测模型输出的不同语音情感类别的概率值的和为1;
步骤5:利用步骤4生成的多种预测模型对语音信号进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
步骤6:待测语音信号经过步骤2~5处理后,根据混合模型的输出结果判断语音信号的情感类别。
2.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤2中,预处理包括以下步骤:
步骤S201:对语音信号进行端点检测,去除音频的首尾静音片段;
步骤S202:对语音信号进行预加重;
步骤S203:对步骤S202得到的信号进行分帧处理;
步骤S204:将步骤S203分帧后的每一帧信号进行加窗处理。
3.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤4中,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
4.根据权利要求1所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤5中,构建混合模型具体包括:
步骤S501:将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值,形成一组预测概率值;
步骤S502:将得到的一组预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
5.根据权利要求2所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤S201中,使用VAD算法语音信号进行端点检测。
6.根据权利要求2所述的基于集成学习的混合模型语音情感识别方法,其特征在于,步骤S204中,使用汉明窗对信号进行加窗处理,汉明窗函数如下:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
是窗的宽度。
7.一种基于集成学习的混合模型语音情感识别系统,其特征在于,该系统包括:
预处理模块,对情感识别语音数据集进行语音情感识别分类,得到多个语音情感类别,并对语音信号进行预处理;
信号处理模块,从预处理过的语音信号中提取帧级别具有时序信息的语音信号特征;
集成学习模型构造模块,利用提取到的语音信号特征分别采用多种算法进行建模,生成多种预测模型;每一种预测模型的输出包括所述语音信号中包含的不同语音情感类别的概率值,一种预测模型输出的不同语音情感类别的概率值的和为1;
混合模型构造模块,利用集成学习模型构造模块生成的多种预测模型对特征进行预测,得到一组预测概率值,将得到的一组预测概率值作为输入数据加入岭回归模型继续训练,构建混合模型;
情感识别模块,待测语音信号经过预处理模块、信号处理模块、集成学习模型构造模块和混合模型构造模块处理后,根据混合模型的输出结果判断语音信号的情感类别。
8.根据权利要求7所述的基于集成学习的混合模型语音情感识别系统,其特征在于,预处理模块包括:
端点检测模块,对语音信号进行端点检测,去除音频的首尾静音片段;
信号预加重模块,对语音信号进行预加重;
分帧处理模块,对信号预加重模块处理后的信号进行分帧处理;
加窗处理模块,对分帧处理模块处理后的每一帧信号进行加窗处理。
9.根据权利要求7所述的基于集成学习的混合模型语音情感识别系统,其特征在于,采用四种算法建模,包括:基于Bagging的RF算法,基于Boosting的AdaBoost算法,基于Boosting的GBDT算法,以及基于Boosting的XGB算法,生成的四种预测模型为RF模型、AdaBoost模型、GBDT模型和XBG模型。
10.根据权利要求7所述的基于集成学习的混合模型语音情感识别系统,其特征在于,混合模型构造模块包括:
模型训练模块,将情感识别语音数据集分成训练集和测试集,多种预测模型均使用该训练集训练,分别得到多个预测模型的预测概率值;
岭回归模型训练模块,将多种预测模型的预测概率值作为训练数据输入岭回归模型重新训练,构建混合模型。
CN201911225002.XA 2019-12-04 2019-12-04 一种基于集成学习的混合模型语音情感识别方法及系统 Active CN110910902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911225002.XA CN110910902B (zh) 2019-12-04 2019-12-04 一种基于集成学习的混合模型语音情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911225002.XA CN110910902B (zh) 2019-12-04 2019-12-04 一种基于集成学习的混合模型语音情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN110910902A CN110910902A (zh) 2020-03-24
CN110910902B true CN110910902B (zh) 2022-09-06

Family

ID=69821858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911225002.XA Active CN110910902B (zh) 2019-12-04 2019-12-04 一种基于集成学习的混合模型语音情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN110910902B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111816212B (zh) * 2020-06-19 2022-10-11 杭州电子科技大学 基于特征集融合的语音情感识别及评价方法
CN112861984B (zh) * 2021-02-25 2022-07-01 西华大学 一种基于特征融合与集成学习的语音情感分类方法
CN114927143A (zh) * 2022-04-21 2022-08-19 厦门大学 一种基于深度学习的舞美效果自动生成方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506874A (zh) * 2006-09-13 2009-08-12 日本电信电话株式会社 情感检测方法、情感检测装置、安装了该方法的情感检测程序以及记录了该程序的记录介质
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN110390956A (zh) * 2019-08-15 2019-10-29 龙马智芯(珠海横琴)科技有限公司 情感识别网络模型、方法及电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984585B2 (en) * 2013-12-24 2018-05-29 Varun Aggarwal Method and system for constructed response grading
US10872354B2 (en) * 2015-09-04 2020-12-22 Robin S Slomkowski System and method for personalized preference optimization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101506874A (zh) * 2006-09-13 2009-08-12 日本电信电话株式会社 情感检测方法、情感检测装置、安装了该方法的情感检测程序以及记录了该程序的记录介质
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN110390956A (zh) * 2019-08-15 2019-10-29 龙马智芯(珠海横琴)科技有限公司 情感识别网络模型、方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Comparison of Evaluation Measures for Emotion Recognition in Dimensional Space;Robert Jenke et al.;《2013 Humaine Association Conference on Affective Computing and Intelligent Interaction》;20131212;第822-823页 *
基于极限学习机的语音情感识别;何淑琳等;《微电子学与计算机》;20150705;第51页 *

Also Published As

Publication number Publication date
CN110910902A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110910902B (zh) 一种基于集成学习的混合模型语音情感识别方法及系统
CN110853680B (zh) 一种具有多输入多融合策略的双BiLSTM的语音情感识别方法
CN102142253B (zh) 语音情感识别设备及方法
Tong et al. A comparative study of robustness of deep learning approaches for VAD
CN110956953B (zh) 基于音频分析与深度学习的争吵识别方法
US5594834A (en) Method and system for recognizing a boundary between sounds in continuous speech
US11837252B2 (en) Speech emotion recognition method and system based on fused population information
Shahzadi et al. Speech emotion recognition using nonlinear dynamics features
CN112765323A (zh) 基于多模态特征提取与融合的语音情感识别方法
KR20200105589A (ko) 음성 감정 인식 방법 및 시스템
Utane et al. Emotion recognition through Speech
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Praksah et al. Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier
Taspinar et al. Identification of the english accent spoken in different countries by the k-nearest neighbor method
Ling An acoustic model for English speech recognition based on deep learning
CN106297769A (zh) 一种应用于语种识别的鉴别性特征提取方法
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
KR102429656B1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
CN103871413A (zh) 基于svm和hmm混合模型的男女说话声音分类方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
Halavati et al. Recognition of human speech phonemes using a novel fuzzy approach
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
Fook et al. Malay speech recognition in normal and noise condition
CN114242045A (zh) 一种自然语言对话系统意图深度学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant