CN111816212B - 基于特征集融合的语音情感识别及评价方法 - Google Patents
基于特征集融合的语音情感识别及评价方法 Download PDFInfo
- Publication number
- CN111816212B CN111816212B CN202010563652.1A CN202010563652A CN111816212B CN 111816212 B CN111816212 B CN 111816212B CN 202010563652 A CN202010563652 A CN 202010563652A CN 111816212 B CN111816212 B CN 111816212B
- Authority
- CN
- China
- Prior art keywords
- test
- data
- train
- training
- val
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 22
- 238000011156 evaluation Methods 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims description 108
- 238000012549 training Methods 0.000 claims description 65
- 238000000034 method Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种基于特征集融合的语音情感识别及评价方法,本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音情感特征集,建立Stacking集成学习模型,通过Stacking的初级学习器融合四种语音特征集,并通过Stacking的次级学习器建立最终的语音情感识别模型。实验结果表明在EMODB和RAVDESS这两种常见的语音数据库上,Stacking集成学习模型不仅关注单个语音情感特征集,同时可以融合不同语音情感特征集,进而达到更好的情感识别效果。
Description
技术领域
本发明涉及一种语音情感识别方法,具体涉及一种基于特征集融合的语音情感识别及评价方法。
背景技术
语音作为情感的载体之一,包含了丰富的情感信息。在过去几十年中语音情感识别的相关研究取得了巨大的进步并在许多不同的研究领域都有着广阔的前景。随着计算机语音识别等技术的成熟以及相关研究不断涌现,语音情感识别开始更多地应用到教育业、娱乐业、通讯业当中,加强对语音情感、情绪的识别成为了下一代人工智能发展的重点,鉴于此开展针对语音情感识别的研究具有较强的理论价值和实用意义。
情感描述方式一般可分为离散和维度两种形式。PAD三维空间情感模型是既简单又被广泛使用的维度情感描述模型,其中P代表愉悦度(Pleasure-Displeasure),表明了个体情感状态的积极或消极特性;A代表激活度(Arousal-Nonarousal),表明了个体的神经生理激活程度;D代表优势度(Dominance-Submissiveness),表明了个体对环境和他人的主观控制状态。
Stacking是一种集成学习模型,在stacking方法中,我们把个体学习器叫做初级学习器,用于结合的学习器叫做次级学习器,次级学习器用于训练的数据叫做次级训练集。次级训练集是在训练集上用初级学习器得到的。
发明内容
本发明针对目前语音情感识别中特征集单一、预测结果不精准等问题,提出了一种基于特征集融合的语音情感识别及评价方法。通过Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集,基于Stacking的初级学习器融合四种不同语音特征集,建立了不同语音情感特征集的关系,并通过Stacking的次级学习器建立最终的语音情感识别模型,进而达到更好的情感识别效果。
基于特征集融合的语音情感识别及评价方法。实现包括以下步骤:
步骤一:从语音数据库中读取.wav语音文件,对语音文件预处理后提取N种语音特征集;
步骤二:建立Stacking学习模型;
通过初级学习器融合N种语音特征集,并建立Stacking学习模型的次级学习器,通过次级学习器对融合后的语音特征集做最终的语音情感识别预测;
将得到的语音特征集切分为训练数据和测试数据,分别为Training Data、TestData;采用K折交叉验证来切分训练数据得到Train1,Train2…Traink。此时初级学习器要做K次训练和预测。
使用训练数据中的Train2,Train3…Traink做为训练集Set1,Train1做为验证集,基于训练集Set1训练初级学习器,预测得到验证集Train1的预测结果Val1,同时预测得到测试集Test的预测结果Test1。
使用训练数据中的Train1,Train3…Traink做为训练集Set2,Train2做为验证集,基于训练集Set2训练初级学习器,预测得到验证集Train2的预测结果Val2,同时预测得到测试集Test的预测结果Test2。
同理分别预测得到验证集Train3,Train4…Traink的预测结果Val3,Val4…Valk,同时分别预测得到测试集Test的预测结果Test3,Test4…Testk。
将得到的Val1,Val2…Valk进行矩阵拼接,得到1列的Val数据。将此Val数据作为次级学习器的训练数据。
对Test1,Test2…Testk求取平均值得到Testavg,将Testavg作为次级学习器的测试数据。
N种语音情感特征的训练数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的训练数据。
N种语音情感特征集的测试数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的测试数据。
将次级学习器的训练数据作为次级学习器的训练数据,经训练后通过次级学习器的测试数据来验证次级学习器的预测结果。
步骤三:建立评价标准,通过Stacking学习模型得到的预测结果与真实结果进行计算,得到评价该模型的评价标准;
平均绝对误差(MAE)
均方差(MSE)
判定系数(R2)
其中m,yi,分别为测试集样本个数、测试集真实值、测试集预测值及测试集真实值的平均值。其含义是也是解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小则说明效果越差。
皮尔逊相关系数(Pea)
其含义是计算测试集真实值与测试集预测值的相关度,相关系数在[-1,1]之间,Pea值越大,表示相关系数越显著。
作为优选,步骤一中提取的语音特征集,具体为:Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音特征集。
本发明相对于现有技术具有的有益效果:
本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集,采用LightGBM、AdaboostRegressor作为Stacking的初级学习器,初级学习器融合了四种不同语音特征集,建立了不同语音情感特征集的关系,并将岭回归作为Stacking的次级学习器,基于融合后特征集训练岭回归模型,建立最终的语音情感识别模型。
附图说明
图1为基于特征集融合的语音情感识别流程图;
图2为Stacking实验过程示意图;
图3为EMODB语音数据库的平均绝对误差(MAE)结果簇状图;
图4为EMODB语音数据库均方差(MSE)结果簇状图;
图5为EMODB语音数据库判定系数(R_2)结果簇状图;
图6为EMODB语音数据库皮尔逊相关系数(Pcc)结果簇状图;
图7为RAVDESS语音数据库平均绝对误差(MAE)结果簇状图;
图8为RAVDESS语音数据库均方差(MSE)结果簇状图;
图9为RAVDESS语音数据库判定系数(R_2)结果簇状图;
图10为RAVDESS语音数据库皮尔逊相关系数(Pcc)结果簇状图;
具体实施方式
本次实验选取的语音数据库是EMODB和RAVDESS,它们在语音情感识别中应用广泛。EMODB由10位演员对10条语句演绎得到,语音情感包括温和、生气、害怕、高兴、悲伤、厌恶、难过,经过听辨测试后保留男性情感语句233句,女性情感语句302句,共535句语料。RAVDESS语音数据库中由24位专业演员(12位女性,12位男性)用中性的北美口音述说,语音情感包括平静(温和),快乐(高兴),悲伤(难过),愤怒(生气),恐惧(害怕),惊吓和令人厌恶(厌恶),共1440句语料。
上述2个数据库虽然是离散语音情感数据库,但是根据Mehrabian研制的原版PAD情绪量表以及中国科学院心理所修订的中文简化版PAD情绪量表与基本情感类型的对应关系,可以获得数据库中各情感类型的PAD量表值,所以以上2个数据库中语料能够作为本文实验所需的维度情感语音数据,涉及的基本情感类型对应的PAD量表值见表2。
表2基本情感类型对应的PAD量表值
步骤1、使用Opensmile工具包读取语音数据库中.wav语音文件,并分别提取四种语音特征集。
步骤1.1、配置Opensmile工具包读取IS09_emotion特征集,并读取EMODB语音数据库中的每一个.wav语音文件,Opensmile工具包自动提取IS09_emotion的语音特征并保存在.txt文件,将每个.txt文件中的特征集保存在.csv文件中,得到EMODB语音数据库中每一个.wav语音文件的IS09_emotion特征集;
步骤1.2、同理配置Opensmile工具包分别读取IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集,得到EMODB语音数据库中每一个.wav语音文件的IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集;
步骤1.3、同上述提取步骤,得到RAVDESS语音数据库中每一个.wav语音文件的IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集;
步骤2、建立Stacking学习模型。如图1所示,将LightGBM、AdaboostRegressor作为Stacking的M1(初级学习器,下同),通过M1融合四种语音特征集,并将岭回归作为Stacking的M2(次级学习器,下同),通过M2对融合后的语音特征集做最终的语音情感识别预测。如图2所示基于特征集融合的语音情感识别流程图。
LightGBM(Light Gradient Boosting Machine)是GBDT(Gradient BoostingDecision Tree,梯度提升迭代决策树)的一种,2015年由微软公司提出。传统GBDT模型在保证速率时往往会导致精度的丢失,同时在分布式处理时,各机器之间的通信损失,也在一定程度上降低了数据的处理效率。
LightGBM摈弃了level-wise(按层生长)的决策树生长算法,而采用了leaf-wise(按叶子生长)算法。Level-wise是一种低效的算法,因为它不加区分的对待同一层的叶子,带来了很多没必要的开销,因为实际上很多叶子的分裂增益较低,没必要进行搜索和分裂。Leaf-wise每轮迭代都从现有的叶子中找到最大增益的分裂方法,如此循环直至达到给定的最大深度,此方法有效避免了不必要的开销,提高了计算速率。另外,传统GBDT算法中,最耗时的步骤是利用Pre-Sorted的方式在排好序的特征值上枚举所有可能的特征点,然后找到最优划分点,而LightGBM中使用histogram直方图算法替换了传统的Pre-Sorted以减少对内存的消耗。
AdaboostRegressor是Adaboost的回归算法。Adaboost是一种迭代算法,本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
岭回归(Ridge Regression)实质上是一种改良的最小二乘估计法,它是一种专用于共线性数据分析的有偏估计回归方法。最小二乘法可以简单的求得未知的数据,并使得这些求的数据与实际数据之间误差的平方和为最小。如通过线性函数f(x)=AX+b来拟合D={(X1,y1),(X2,y2)...(Xn,yn)}并使得损失函数最小,岭回归算法是在上式基础加入L2正则化,得到损失函数如下:
步骤2.1、分别将EMODB和RAVDESS语音数据切分训练数据集、测试数据集,分别记为Train、Test,切分比例为4∶1。如下表3所示。
表3语音数据库切分
步骤2.2、基于EMODB语音数据库采用4折交叉验证来切分IS09_emotion的训练特征集得到Train1,Train2,Train3,Train4。此时LightGBM模型要进行4次训练和预测。
步骤2.3、将训练数据中的Train2,Train3,Train4做为训练集Set1,Train1做为验证集,基于训练集Set1训练LightGBM模型,预测得到验证集Train1的结果Val1,同时预测得到测试集Test的结果Test1。
步骤2.4、将训练数据中的Train1,Train3,Train4做为训练集Set2,Train2做为验证集,基于训练集Set2训练LightGBM模型,预测得到验证集Train2的结果Val2,同时预测得到测试集Test的结果Test2。
步骤2.5、同理预测得到验证集Train3,Train4的结果Val3,Val4,同时每次预测得到测试集Test的结果Test3,Test4。
步骤2.6、将得到的Val1,Val2Val3,Val4进行矩阵拼接,得到IS09_emotion特征集的融合前训练特征集ValLGBM-09=[Val1,Val2Val3,Val4]T,同理基于AdaboostRegressor模型要进行4次训练和预测,得到IS09_emotion特征集的融合前训练特征集ValAD-09。将此ValLGBM-09、ValAD-09数据作为M2的训练数据。
步骤2.7、对Test1,Test2,Test3,Test4求平均值,得到融合前测试特征集TestLGBM-avg-09=(+Test2+Test3+Test4)/4,同理也可得到TestAD-avg-09,将TestLGBM-avg-09、TestAD-avg-09作为M2的测试数据。
步骤2.8、基于IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集做上述相同操作,分别得到融合前训练特征集ValLGBM-10、ValAD-10、ValLGBM-11、ValAD-11、ValLGBM-12、ValAD-12,同样也可以得到融合前测试特征集TestAD-avg-10、TestAD-avg-11、TestAD-avg-12、TeStLGBM-avg-10、TeStLGB-avg-11、TestLGBM-avg-12
步骤2.9、基于RAVDESS语音数据库做上述相同操作。
步骤3、建立评价标准,通过Stacking学习模型得到的预测结果与真实结果进行计算,得到评价该模型的评价标准。
步骤3.1、基于EMODB语音数据库,将ValLGBM-09、ValAD-09、ValLGBM-10、ValAD-10、ValLGBM-11、ValAD-11、ValLGBM-12、ValAD-12作为岭回归的训练数据,经训练后通过TestAD-avg-09、TestAD-avg-10、TestAD-avg-11、TestAD-avg-12、TestLGBM-avg-09、TestLGBM-avg-10、TestLGBM-avg-11、TestLGBM-avg-12测试数据来验证模型的预测结果。通过预测计算得到各个评价标准值如表4所示。图3、4、5、6分别为MAE、MSE、R_2、Pcc结果簇状图。
表4 EMODB语音数据库的预测结果
步骤3.2、基于RAVDESS语音数据库做上述相同操作,得到最终的预测结果,并通过预测计算得到评价标准如表5所示。图7、8、9、10分别为MAE、MSE、R_2、Pcc结果簇状图。(注意:AD_IS09_EMOTIO意思是在IS09_EMOTIO特征集上使用AdaboostRegresso模型训练预测得到的评价指标;Stacking方法1指的是使用Stacking模型训练预测得到的评价指标,次级学习器做了交叉验证;Stacking方法2指的是使用Stacking模型训练预测得到的评价指标,次级学习器没做交叉验证。上同)。
表5 RAVDESS语音数据库的预测结果
Claims (2)
1.基于特征集融合的语音情感识别及评价方法,其特征在于,具体包括以下步骤:
步骤一:从语音数据库中读取.wav语音文件,对语音文件预处理后提取N种语音特征集;
步骤二:建立Stacking学习模型;
通过初级学习器融合N种语音特征集,并建立Stacking学习模型的次级学习器,通过次级学习器对融合后的语音特征集做最终的语音情感识别预测;
将得到的语音特征集切分为训练数据和测试数据,分别为Training Data、Test Data;采用K折交叉验证来切分训练数据得到Train1,Train2...Traink;此时初级学习器要做K次训练和预测;
使用训练数据中的Train2,Train3...Traink做为训练集Set1,Train1做为验证集,基于训练集Set1训练初级学习器,预测得到验证集Train1的预测结果Val1,同时预测得到测试集Test的预测结果Test1;
使用训练数据中的Train1,Train3...Traink做为训练集Set2,Train2做为验证集,基于训练集Set2训练初级学习器,预测得到验证集Train2的预测结果Val2,同时预测得到测试集Test的预测结果Test2;
同理分别预测得到验证集Train3,Train4...Traink的预测结果Val3,Val4...Valk,同时分别预测得到测试集Test的预测结果Test3,Test4...Testk;
将得到的Val1,Val2...Valk进行矩阵拼接,得到1列的Val数据;将此Val数据作为次级学习器的训练数据;
对Test1,Test2...Testk求取平均值得到Testavg,将Testavg作为次级学习器的测试数据;
N种语音情感特征的训练数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的训练数据;
N种语音情感特征集的测试数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的测试数据;
将次级学习器的训练数据作为次级学习器的训练数据,经训练后通过次级学习器的测试数据来验证次级学习器的预测结果;
步骤三:建立评价标准,通过Stacking学习模型得到的预测结果与真实结果进行计算,得到评价该模型的评价标准;
平均绝对误差
均方差
判定系数
其中m,yi,分别为测试集样本个数、测试集真实值、测试集预测值及测试集真实值的平均值;其含义是也是解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越小则说明效果越差;
皮尔逊相关系数
其含义是计算测试集真实值与测试集预测值的相关度,相关系数在[-1,1]之间,Pcc值越大,表示相关系数越显著。
2.根据权利要求1所述的基于特征集融合的语音情感识别方法,其特征在于:步骤一中提取的语音特征集,具体为:Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音特征集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010563652.1A CN111816212B (zh) | 2020-06-19 | 2020-06-19 | 基于特征集融合的语音情感识别及评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010563652.1A CN111816212B (zh) | 2020-06-19 | 2020-06-19 | 基于特征集融合的语音情感识别及评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816212A CN111816212A (zh) | 2020-10-23 |
CN111816212B true CN111816212B (zh) | 2022-10-11 |
Family
ID=72846270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010563652.1A Active CN111816212B (zh) | 2020-06-19 | 2020-06-19 | 基于特征集融合的语音情感识别及评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816212B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112863549A (zh) * | 2021-01-20 | 2021-05-28 | 广东工业大学 | 一种基于元-多任务学习的语音情感识别方法及装置 |
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN114926206A (zh) * | 2022-05-18 | 2022-08-19 | 阿里巴巴(中国)有限公司 | 预测模型的训练方法、物品销售信息的预测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806722A (zh) * | 2017-04-21 | 2018-11-13 | 艾于德埃林公司 | 用于自动情感状态推断的方法和自动化情感状态推断系统 |
CN109036466A (zh) * | 2018-08-01 | 2018-12-18 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
CN110675853A (zh) * | 2019-09-10 | 2020-01-10 | 苏宁云计算有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN110910902A (zh) * | 2019-12-04 | 2020-03-24 | 杭州哲信信息技术有限公司 | 一种基于集成学习的混合模型语音情感识别方法及系统 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10127927B2 (en) * | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
-
2020
- 2020-06-19 CN CN202010563652.1A patent/CN111816212B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806722A (zh) * | 2017-04-21 | 2018-11-13 | 艾于德埃林公司 | 用于自动情感状态推断的方法和自动化情感状态推断系统 |
CN109036466A (zh) * | 2018-08-01 | 2018-12-18 | 太原理工大学 | 面向情感语音识别的情感维度pad预测方法 |
CN110675853A (zh) * | 2019-09-10 | 2020-01-10 | 苏宁云计算有限公司 | 一种基于深度学习的情感语音合成方法及装置 |
CN110992987A (zh) * | 2019-10-23 | 2020-04-10 | 大连东软信息学院 | 语音信号中针对通用特定语音的并联特征提取系统及方法 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN110910902A (zh) * | 2019-12-04 | 2020-03-24 | 杭州哲信信息技术有限公司 | 一种基于集成学习的混合模型语音情感识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
语音与文本情感识别中愤怒与开心误判分析;胡婷婷等;《计算机技术与发展》;20180629(第11期);130-133,140 * |
Also Published As
Publication number | Publication date |
---|---|
CN111816212A (zh) | 2020-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111816212B (zh) | 基于特征集融合的语音情感识别及评价方法 | |
CN110851645B (zh) | 一种基于深度度量学习下相似性保持的图像检索方法 | |
KR20190062413A (ko) | 인과 관계 인식 장치 및 그것을 위한 컴퓨터 프로그램 | |
CN103473262B (zh) | 一种基于关联规则的Web评论观点自动分类系统及分类方法 | |
CN109684673B (zh) | 一种电力系统暂态稳定结果的特征提取和聚类分析方法 | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
CN108932950A (zh) | 一种基于标签扩增与多频谱图融合的声音场景识别方法 | |
CN101710490A (zh) | 语音评测的噪声补偿方法及装置 | |
CN105389326B (zh) | 基于弱匹配概率典型相关性模型的图像标注方法 | |
CN109003625A (zh) | 基于三元损失的语音情感识别方法及系统 | |
CN106294344A (zh) | 视频检索方法和装置 | |
CN111128128B (zh) | 一种基于互补模型评分融合的语音关键词检测方法 | |
CN111860576A (zh) | 一种基于随机森林的子宫内膜肿瘤分类标记方法 | |
CN110019779B (zh) | 一种文本分类方法、模型训练方法及装置 | |
CN111984790B (zh) | 一种实体关系抽取方法 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN109800309A (zh) | 课堂话语类型分类方法及装置 | |
CN105304078A (zh) | 目标声数据训练装置和目标声数据训练方法 | |
CN110866134A (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN102201237A (zh) | 基于模糊支持向量机的可靠性检测的情感说话人识别方法 | |
CN110867180B (zh) | 一种基于k均值聚类算法生成逐字歌词文件的系统与方法 | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN117350287A (zh) | 一种基于舆情大数据的文本情感分析方法 | |
CN111833842A (zh) | 合成音模板发现方法、装置以及设备 | |
CN114881029B (zh) | 基于混合神经网络的中文文本可读性评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |