CN110348482B - 一种基于深度模型集成架构的语音情感识别系统 - Google Patents

一种基于深度模型集成架构的语音情感识别系统 Download PDF

Info

Publication number
CN110348482B
CN110348482B CN201910490599.4A CN201910490599A CN110348482B CN 110348482 B CN110348482 B CN 110348482B CN 201910490599 A CN201910490599 A CN 201910490599A CN 110348482 B CN110348482 B CN 110348482B
Authority
CN
China
Prior art keywords
classifier
blstm
cnn
new
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910490599.4A
Other languages
English (en)
Other versions
CN110348482A (zh
Inventor
王喆
柴冰
李冬冬
孙琳煜
杜文莉
杨海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201910490599.4A priority Critical patent/CN110348482B/zh
Publication of CN110348482A publication Critical patent/CN110348482A/zh
Application granted granted Critical
Publication of CN110348482B publication Critical patent/CN110348482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Optimization (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深度模型集成架构的语音情感识别系统,包括如下步骤:S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。本发明不仅能够使各个神经网络结构发挥自身的优势,而且具有更为优异的泛化性能。

Description

一种基于深度模型集成架构的语音情感识别系统
技术领域
本发明涉及语音情感识别技术领域,具体地说,本发明涉及一种基于BLSTM和CNNStacking集成架构对语音信号进行情感分类的语音情感识别系统。
背景技术
情感计算是利用机器学习的方法模仿人类对文本、语音、图像等信息做出情感判断。由于语音不仅能传达文本所表达的意思,而且还包含丰富的情感信息(如特殊的语气词、语调的变化等),所以语音情感识别受到了越来越多的关注。目前语音情感识别的任务是对信号提取情感相关的低层次特征,并通过分类器模拟人脑建立特征与类别的映射关系。为了更好地实现人机交互,帮助人们在和机器交流的情况下有效准确地完成给定目标的任务,并且随着技术的深入研究,在诸多领域包括心理医疗、犯罪侦查、通讯检测都有着不错的发展前景,所以通过更加鲁棒的算法分析出语音信号中的情绪是非常有必要的。
语音情感计算分为三个步骤:语音信号的采集、语音信号特征提取以及分类器的选择。在信号选择方面,目前国际上比较认可的数据集包括美国加州大学录制的情感语音库IEMOCAP、柏林工业大学录制的德语情感语音库DMO-DB、儿童德语情感语音库FAU AIBO和中国科学院自动化研究所录制的中文情感语音数据库CASIA。在语音信号特征提取方面,众所周知特征提取表示的是原始的音频信号通过预处理由声学特征来代替的过程。目前声学特征分为韵律学特征(包括时长、基频和能量等等)、基于谱的相关特征(包括LPC、LPCC和MFCC等等)、声音质量特征(包括共振峰频率及其带宽、频率微扰和振幅微扰等等)、融合特征(将韵律学特征、基于谱的相关特征和声音质量特征融合)和基于i-vector的特征(利用高斯混合模型将高维特征映射到低维空间的技术)。在分类器选择方面,在过去是通过GMM、HMM、MLP和SVM对语音统计特征建模,传统的算法由于复杂度不够高,并不能很好地建立特征与情感之间的映射关系。随着深度学习兴起,目前语音情感识别主要通过卷积神经网络CNN和长短期记忆网络LSTM对图像数据包括语谱图、filterbank和低维时序特征编码,再对编码后的数据分类。
目前,两大网络都拥有各自的优势,CNN可以通过感受野发现局部特征之间的相关性并且可以通过池化层过滤掉扰动信号,所以CNN在处理语音数据上有着自己独特的诀窍。LSTM可以通过时序网络处理信号之间的时序关系。针对这两种网络各自的特性,若能集两大网络之所长,将会进一步提高情感识别的正确率。
发明内容
本发明所要解决的技术问题是提供一种更加有效的语音情感识别系统,通过该语音情感识别系统,可以进一步提高情感识别的正确率。由于LSTM能够很好地利用语音特征之间的时序性,CNN能够发现特征与特征之间的相关性,所以如何能够更好地结合两大网络自身的特点去完美剖析语音特征是本发明的一个难点。鉴于上述难点,本发明的目的是提出一种基于BLSTM和CNN Stacking集成架构的语音情感识别系统,通过Stacking集成方法,能够更好地保持两大网络各自的优点,提升模型的总体识别性能。
具体而言,一种基于深度模型集成架构的语音情感识别系统,包括如下步骤:
S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;
S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;
S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;
S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。
优选地,S1所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP;所述收集到的音频信号样本共包括四类感情,分别为:生气,高兴,中性,伤心;所述收集到的音频信号样本的特征由opensmile工具箱提取,并对所述音频信号样本中长度不等长的句子做分割操作得到子样本,使所得到的每一个子样本空间大小一样。
优选地,S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数,所述的交叉熵损失函数可以被定义为,
Figure BDA0002085930520000021
其中,
Figure BDA0002085930520000022
是来自softmax层的每一类的概率分布;/>
Figure BDA0002085930520000023
是L2正则化项。
当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,
Figure BDA0002085930520000024
其中,
Figure BDA0002085930520000025
是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果,所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器。
优选地,所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器,五折交叉验证被用来训练CNN和BLSTM模型,利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布
Figure BDA0002085930520000031
和/>
Figure BDA0002085930520000032
来建立新的样本集ODS,所述新的样本集ODS可以被定义为,
Figure BDA0002085930520000033
然后根据所述五折交叉验证对不同的数据集重复执行五次,通过所述Stacking方法可以获得五个新的数据集OD1,OD2,OD3,OD4,OD5。所述新的数据集OD可以被定义为,
Figure BDA0002085930520000034
其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。
优选地,所述逻辑回归元分类器的预测函数被定义为,
Figure BDA0002085930520000035
Figure BDA0002085930520000036
/>
其中z是线性方程;gw′(.)是sigmoid函数。最后的极大似然函数可以被定义为,
Figure BDA0002085930520000037
其中γ为真实类标。损失函数可以定义为,
Figure BDA0002085930520000038
其中,
Figure BDA0002085930520000039
是L2正则化项,λ′>0作为正则化参数用来权衡L(w′)和w′Tw′的重要程度。
优选地,所述新的测试集是由所训练好的基分类器输出拼接而成,将所得到的新的测试集代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,
Figure BDA00020859305200000310
本发明有益的效果是:本发明的一种基于深度模型集成架构的语音情感识别系统,利用Stacking集成方法集BLSTM和CNN网络结构之所长,CNN能够通过感受野发现特征与特征之间的关联性,BLSTM能够利用自身的特点发掘特征的时序性,从而更好地利用语音特征的多样性。使用本发明的语音情感识别系统不仅能够利用语音特征的时序性,又能够剖析语音特征的结构信息。因此,相对于单个神经网络方法,本方法有着更好的鲁棒性,提高了情感识别的性能。
附图说明
图1是本发明中的Stacking流程图;
图2是本发明在训练步骤的流程图;
图3是本发明在测试步骤的流程图;
具体实施方式
下面结合附图和具体实施例对本发明进行详细描述:本发明的方法共分为四个部分。
第一部分:训练阶段数据预处理
由于每一句话长短不一,但是放入基分类器中的数据必须是相同大小的,所以为了能够使数据更好地适配基分类器,我们对数据进行了分片处理:假设数据集中有U句话,每一句话只有一种情感,那么第i句话的特征矩阵Xi可以表示为:
Figure BDA0002085930520000041
其中Ni表示第i句话的帧长,T表示特征矩阵的维度,U代表句子的数量。由于每句话的长度Ni不同,所以必须要把长度为Ni的矩阵切分为相同大小的L份,每一份长度为Y(如果最后一部分矩阵长度小于Y,则把它丢弃),所以一个由Xi转变而来的新的特征矩阵Di可以被定义为:
Figure BDA0002085930520000051
新的数据集ID由Di,(i=1,2,...,U)列绑定生成。ID可以被定义为:
Figure BDA0002085930520000052
完整的数据集ID′由one-hot编码的类标
Figure BDA0002085930520000053
和ID组成,其可被定义为:
Figure BDA0002085930520000054
其中K表示的是类别数量。
第二部分:训练阶段Stacking BLSTM和CNN的输出
首先通过五折交叉验证获得最好的BLSTM和CNN的模型结构,BLSTM和CNN可以映射输入特征空间到情感类别的概率分布上,它们的损失函数可以被定义为,
Figure BDA0002085930520000055
其中,
Figure BDA0002085930520000056
是来自softmax层的每一类的概率分布;/>
Figure BDA0002085930520000057
是L2正则化项。
当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,
Figure BDA0002085930520000058
其中,
Figure BDA0002085930520000059
是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果,选择泛化性能最好的CNN结构和LSTM结构作为Stacking的基分类器。
在图1中,我们可以看到五折交叉验证被用来训练ID′。在第一折中,ID2′,ID3′,ID4′,ID5′被视为训练集,ID1′被分割为验证集IDV′1和预测集IDT′1。显而易见地,验证集可以被用来调整超参数和网络权重,而预测集可以被用来产生新的训练元分类器的数据集。其中,预测集包含H1句话,并且每一句话包含Li个分片。对于输入的预测集IDT′1,训练好的BLSTM和CNN模型可以输出
Figure BDA0002085930520000061
和/>
Figure BDA0002085930520000062
去建立新的样本集ODS,其中/>
Figure BDA0002085930520000063
和/>
Figure BDA0002085930520000064
为BLSTM和CNN模型softmax层输出的概率分布。新的样本集ODS可以被定义为,
Figure BDA0002085930520000065
输出的每一句预测句子可以被定义为:
Figure BDA0002085930520000066
结合每一句预测句子组成的OD1可以被定义为:
Figure BDA0002085930520000067
然后,根据五折交叉验证对不同的数据集重复执行上述操作五次。最后,通过该Stacking方法可以获得五个新的数据集,OD1,OD2,OD3,OD4,OD5。在图2中,我们可以看到被用来训练元分类器输出的新数据集OD可以被定义为,
Figure BDA0002085930520000068
其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。最后,数据集OD可以扩展为:
Figure BDA0002085930520000069
其中,γ为数据集OD的真实类标。
第三部分:训练阶段逻辑回归训练新数据
在本发明中,逻辑回归将被选择作为元分类器。将数据集OD′放入到逻辑回归元分类器中,对于每一个样本ODS,逻辑回归的预测函数将被定义为:
Figure BDA00020859305200000610
Figure BDA00020859305200000611
其中z是线性方程;gw′(.)是sigmoid函数。最后的极大似然函数可以被定义为,
Figure BDA00020859305200000612
其中γ为真实类标。损失函数可以定义为,
Figure BDA00020859305200000613
其中,
Figure BDA00020859305200000614
是L2正则化项,λ′>0作为正则化参数用来权衡L(w′)和w′Tw′的重要程度,最优参数w′可以由梯度下降法得到。
第四部分:测试阶段
在图3中,我们可以看到将测试样本放入到由五折交叉验证训练的五个CNN和BLSTM模型中,并把五个模型输出结果的平均生成新的测试样本,代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,
Figure BDA0002085930520000071
实验设计
实验数据集:
实验使用IEMOCAP语音情感数据集,该数据集包括五个会话,由个人完成录制,每一个会话由一男一女组成。该情感数据集包含10039句话总时长为12小时,平均时长为4.5小时,整个数据集包含十种情感(高兴、生气、伤心、沮丧、中性、吃惊、害怕、厌恶、兴奋和其它)。我们只选出四种情感(生气、高兴、中性和伤心)的句子作为数据集,并且如果某句话被三个标注员标为三种不同的情感,那么这句话将会被抛弃。表1显示了IEMOCAP情感数据集的描述。
表1 IEMOCAP数据集描述
Figure BDA0002085930520000072
对比算法:
本发明的核心算法为CNN和BLSTM Stacking集成架构,称为BLSTM and CNNStacking Architecture(BCSA),对比算法我们选择卷积神经网络CNN、BLSTM网络、BLSTMand CNN weighted averaging以及BLSTM and CNN simple averaging。
性能度量方法:
实验统一使用权重精度(WA)和非权重精度(UA)来记录不同方法对语音情感数据集的分类结果。WA是在整个样本集上分对的样本数,UA是每一种类别分类正确率,WA与UA的计算公式为:
Figure BDA0002085930520000081
Figure BDA0002085930520000082
实验结果
首先利用BLSTM选取最适合的句长L,由于在IEMOCAP数据库中,最短的句子长度为73帧,所以序列长度的范围定为[5,10,20,30,40,50,60,70]。表2展示了BLSTM在不同序列长度上的结果。
表2不同序列长度下BLSTM的结果
序列长度 WA(%) UA(%)
5 57.16 49.64
10 56.54 49.28
20 57.92 50.38
30 59.68 52.32
40 59.54 52.71
50 60.22 53.01
60 60.49 53.45
70 60.60 54.33
根据实验结果,最终在序列长度为70帧时,达到了最好的效果,所以选取的序列长度为70帧,即把每一句长度不等长的样本分割成长度为70的子样本。
接着用长度为70的样本训练不同结构的卷积神经网络,表3展示了多种不同结构的卷积神经网络和测试结果。
表3不同结构的卷积神经网络的结果
Figure BDA0002085930520000083
Figure BDA0002085930520000091
根据实验结果,最终得出卷积神经网络结构Conv(10*2*2)Max(2*2)Conv(20*2*2)Max(2*2)FC(128)*2能达到最好的结果,所以选择该架构作为基分类器。
最后,为了证明所述BCSA的有效性,与另外的算法作对比是必要的。表4展示了不同算法在IEMOCAP数据集上的实验结果。
表4所有对比算法在IEMOCAP数据集上结果
模型 WA(%) UA(%)
Conv(20*2*2)Max(2*2)Conv(40*2*2)Max(2*2)FC(128) 58.17 53.05
BLSTM(256)*2 60.60 54.33
BLSTM and CNN simple averaging 62.01 56.48
BLSTM and CNN weighted averaging 62.37 56.73
BCSA 63.14 54.88
实验结果表明,所述BCSA算法与其它算法相比,具有较好的性能。
综上所述,本发明的一种基于深度模型集成架构的语音情感识别系统,利用Stacking集成方法集BLSTM和CNN网络结构之所长,能够更好地利用语音特征的多样性,提升了语音情感识别效果。此外,本发明也为同领域内其他相关问题提供了参考,可以以此为依据进行拓展延伸,具有十分广阔的应用前景。

Claims (2)

1.一种基于深度模型集成架构的语音情感识别系统,其特征在于,包括如下步骤:
S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP;所述收集到的音频信号样本共包括四类感情,分别为:生气,高兴,中性,伤心;所述收集到的音频信号样本的特征由opensmile工具箱提取,并对所述音频信号样本中长度不等长的句子做分割操作得到子样本,使所得到的每一个子样本空间大小一样;
S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集,其中S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数,所述的交叉熵损失函数可以被定义为,
Figure FDA0004193536750000011
其中,
Figure FDA0004193536750000012
是来自softmax层的每一类的概率分布;/>
Figure FDA0004193536750000013
是L2正则化项,
当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,
Figure FDA0004193536750000014
其中,
Figure FDA0004193536750000015
是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到,根据分类的结果,所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器;
S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;所述逻辑回归元分类器的预测函数被定义为,
Figure FDA0004193536750000016
Figure FDA0004193536750000017
其中z是线性方程;gw′(.)是sigmoid函数;最后的极大似然函数可以被定义为,
Figure FDA0004193536750000018
其中γ为真实类标,损失函数可以定义为,
Figure FDA0004193536750000021
其中,
Figure FDA0004193536750000022
是L2正则化项,λ′>0作为正则化参数用来权衡L(w′)和w′Tw′的重要程度,最优参数w′可以由梯度下降法得到;
S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,新的测试集是由所训练好的基分类器输出拼接而成,将所得到的新的测试集代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,
Figure FDA0004193536750000023
2.根据权利要求1所述的一种基于深度模型集成架构的语音情感识别系统,其特征在于:所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器,五折交叉验证被用来训练CNN和BLSTM模型,利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布
Figure FDA0004193536750000024
和/>
Figure FDA0004193536750000025
来建立新的样本集ODS,所述新的样本集ODS可以被定义为,
Figure FDA0004193536750000026
然后根据所述五折交叉验证对不同的数据集重复执行五次,通过所述Stacking方法可以获得五个新的数据集OD1,OD2,OD3,OD4,OD5,所述新的数据集OD可以被定义为,
Figure FDA0004193536750000027
其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。
CN201910490599.4A 2019-06-05 2019-06-05 一种基于深度模型集成架构的语音情感识别系统 Active CN110348482B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910490599.4A CN110348482B (zh) 2019-06-05 2019-06-05 一种基于深度模型集成架构的语音情感识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910490599.4A CN110348482B (zh) 2019-06-05 2019-06-05 一种基于深度模型集成架构的语音情感识别系统

Publications (2)

Publication Number Publication Date
CN110348482A CN110348482A (zh) 2019-10-18
CN110348482B true CN110348482B (zh) 2023-06-02

Family

ID=68181593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910490599.4A Active CN110348482B (zh) 2019-06-05 2019-06-05 一种基于深度模型集成架构的语音情感识别系统

Country Status (1)

Country Link
CN (1) CN110348482B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209962B (zh) * 2020-01-06 2023-02-03 电子科技大学 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法
CN111507219A (zh) * 2020-04-08 2020-08-07 广东工业大学 一种动作识别方法、装置及电子设备和存储介质
CN114882906A (zh) * 2022-06-30 2022-08-09 广州伏羲智能科技有限公司 一种新型环境噪声识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN109389992A (zh) * 2018-10-18 2019-02-26 天津大学 一种基于振幅和相位信息的语音情感识别方法
CN109475294A (zh) * 2016-05-06 2019-03-15 斯坦福大学托管董事会 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US20180330718A1 (en) * 2017-05-11 2018-11-15 Mitsubishi Electric Research Laboratories, Inc. System and Method for End-to-End speech recognition
JP7023613B2 (ja) * 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
CN107562784A (zh) * 2017-07-25 2018-01-09 同济大学 基于ResLCNN模型的短文本分类方法
CN108021806B (zh) * 2017-11-24 2021-10-22 北京奇虎科技有限公司 一种恶意安装包的识别方法和装置
CN109767789A (zh) * 2019-03-06 2019-05-17 慧言科技(天津)有限公司 一种用于语音情感识别的新特征提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109475294A (zh) * 2016-05-06 2019-03-15 斯坦福大学托管董事会 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台
CN108415923A (zh) * 2017-10-18 2018-08-17 北京邮电大学 封闭域的智能人机对话系统
CN109389992A (zh) * 2018-10-18 2019-02-26 天津大学 一种基于振幅和相位信息的语音情感识别方法

Also Published As

Publication number Publication date
CN110348482A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110674339B (zh) 一种基于多模态融合的中文歌曲情感分类方法
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
CN106228977B (zh) 基于深度学习的多模态融合的歌曲情感识别方法
Rong et al. Acoustic feature selection for automatic emotion recognition from speech
Bhatti et al. A neural network approach for human emotion recognition in speech
CN102982809B (zh) 一种说话人声音转换方法
Agarwalla et al. Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech
CN110348482B (zh) 一种基于深度模型集成架构的语音情感识别系统
CN110400579A (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN103544963A (zh) 一种基于核半监督判别分析的语音情感识别方法
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN102411932B (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
Chen Simulation of English speech emotion recognition based on transfer learning and CNN neural network
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
Soliman et al. Isolated word speech recognition using convolutional neural network
CN110390929A (zh) 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法
Rani et al. Speech recognition using neural network
Tashakori et al. Designing the Intelligent System Detecting a Sense of Wonder in English Speech Signal Using Fuzzy-Nervous Inference-Adaptive system (ANFIS)
Alrehaili et al. Arabic Speech Dialect Classification using Deep Learning
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture
Poojary et al. Speech Emotion Recognition Using MLP Classifier
CN102750950A (zh) 结合声门激励和声道调制信息的汉语语音情感提取及建模方法
Ashrafidoost et al. Recognizing Emotional State Changes Using Speech Processing
Juyal et al. Emotion recognition from speech using deep neural network
Lounnas et al. Towards an Automatic Dialect Identification System using Algerian Youtube Videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant