CN110348482B - 一种基于深度模型集成架构的语音情感识别系统 - Google Patents
一种基于深度模型集成架构的语音情感识别系统 Download PDFInfo
- Publication number
- CN110348482B CN110348482B CN201910490599.4A CN201910490599A CN110348482B CN 110348482 B CN110348482 B CN 110348482B CN 201910490599 A CN201910490599 A CN 201910490599A CN 110348482 B CN110348482 B CN 110348482B
- Authority
- CN
- China
- Prior art keywords
- classifier
- blstm
- cnn
- new
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007477 logistic regression Methods 0.000 claims abstract description 12
- 230000005236 sound signal Effects 0.000 claims abstract description 12
- 238000002790 cross-validation Methods 0.000 claims abstract description 11
- 230000010354 integration Effects 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000008451 emotion Effects 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 13
- 238000012935 Averaging Methods 0.000 claims description 7
- 239000012634 fragment Substances 0.000 claims description 6
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 208000013875 Heart injury Diseases 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 35
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010063659 Aversion Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000013400 design of experiment Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Optimization (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于深度模型集成架构的语音情感识别系统,包括如下步骤:S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。本发明不仅能够使各个神经网络结构发挥自身的优势,而且具有更为优异的泛化性能。
Description
技术领域
本发明涉及语音情感识别技术领域,具体地说,本发明涉及一种基于BLSTM和CNNStacking集成架构对语音信号进行情感分类的语音情感识别系统。
背景技术
情感计算是利用机器学习的方法模仿人类对文本、语音、图像等信息做出情感判断。由于语音不仅能传达文本所表达的意思,而且还包含丰富的情感信息(如特殊的语气词、语调的变化等),所以语音情感识别受到了越来越多的关注。目前语音情感识别的任务是对信号提取情感相关的低层次特征,并通过分类器模拟人脑建立特征与类别的映射关系。为了更好地实现人机交互,帮助人们在和机器交流的情况下有效准确地完成给定目标的任务,并且随着技术的深入研究,在诸多领域包括心理医疗、犯罪侦查、通讯检测都有着不错的发展前景,所以通过更加鲁棒的算法分析出语音信号中的情绪是非常有必要的。
语音情感计算分为三个步骤:语音信号的采集、语音信号特征提取以及分类器的选择。在信号选择方面,目前国际上比较认可的数据集包括美国加州大学录制的情感语音库IEMOCAP、柏林工业大学录制的德语情感语音库DMO-DB、儿童德语情感语音库FAU AIBO和中国科学院自动化研究所录制的中文情感语音数据库CASIA。在语音信号特征提取方面,众所周知特征提取表示的是原始的音频信号通过预处理由声学特征来代替的过程。目前声学特征分为韵律学特征(包括时长、基频和能量等等)、基于谱的相关特征(包括LPC、LPCC和MFCC等等)、声音质量特征(包括共振峰频率及其带宽、频率微扰和振幅微扰等等)、融合特征(将韵律学特征、基于谱的相关特征和声音质量特征融合)和基于i-vector的特征(利用高斯混合模型将高维特征映射到低维空间的技术)。在分类器选择方面,在过去是通过GMM、HMM、MLP和SVM对语音统计特征建模,传统的算法由于复杂度不够高,并不能很好地建立特征与情感之间的映射关系。随着深度学习兴起,目前语音情感识别主要通过卷积神经网络CNN和长短期记忆网络LSTM对图像数据包括语谱图、filterbank和低维时序特征编码,再对编码后的数据分类。
目前,两大网络都拥有各自的优势,CNN可以通过感受野发现局部特征之间的相关性并且可以通过池化层过滤掉扰动信号,所以CNN在处理语音数据上有着自己独特的诀窍。LSTM可以通过时序网络处理信号之间的时序关系。针对这两种网络各自的特性,若能集两大网络之所长,将会进一步提高情感识别的正确率。
发明内容
本发明所要解决的技术问题是提供一种更加有效的语音情感识别系统,通过该语音情感识别系统,可以进一步提高情感识别的正确率。由于LSTM能够很好地利用语音特征之间的时序性,CNN能够发现特征与特征之间的相关性,所以如何能够更好地结合两大网络自身的特点去完美剖析语音特征是本发明的一个难点。鉴于上述难点,本发明的目的是提出一种基于BLSTM和CNN Stacking集成架构的语音情感识别系统,通过Stacking集成方法,能够更好地保持两大网络各自的优点,提升模型的总体识别性能。
具体而言,一种基于深度模型集成架构的语音情感识别系统,包括如下步骤:
S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;
S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集;
S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;
S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,并把各个基分类器所得到的输出拼接成新的测试集,再代入到步骤S3所训练好的元分类器中进行识别。
优选地,S1所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP;所述收集到的音频信号样本共包括四类感情,分别为:生气,高兴,中性,伤心;所述收集到的音频信号样本的特征由opensmile工具箱提取,并对所述音频信号样本中长度不等长的句子做分割操作得到子样本,使所得到的每一个子样本空间大小一样。
优选地,S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数,所述的交叉熵损失函数可以被定义为,
当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,
其中,是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果,所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器。
优选地,所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器,五折交叉验证被用来训练CNN和BLSTM模型,利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布和/>来建立新的样本集ODS,所述新的样本集ODS可以被定义为,
然后根据所述五折交叉验证对不同的数据集重复执行五次,通过所述Stacking方法可以获得五个新的数据集OD1,OD2,OD3,OD4,OD5。所述新的数据集OD可以被定义为,
其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。
优选地,所述逻辑回归元分类器的预测函数被定义为,
其中z是线性方程;gw′(.)是sigmoid函数。最后的极大似然函数可以被定义为,
其中γ为真实类标。损失函数可以定义为,
优选地,所述新的测试集是由所训练好的基分类器输出拼接而成,将所得到的新的测试集代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,
本发明有益的效果是:本发明的一种基于深度模型集成架构的语音情感识别系统,利用Stacking集成方法集BLSTM和CNN网络结构之所长,CNN能够通过感受野发现特征与特征之间的关联性,BLSTM能够利用自身的特点发掘特征的时序性,从而更好地利用语音特征的多样性。使用本发明的语音情感识别系统不仅能够利用语音特征的时序性,又能够剖析语音特征的结构信息。因此,相对于单个神经网络方法,本方法有着更好的鲁棒性,提高了情感识别的性能。
附图说明
图1是本发明中的Stacking流程图;
图2是本发明在训练步骤的流程图;
图3是本发明在测试步骤的流程图;
具体实施方式
下面结合附图和具体实施例对本发明进行详细描述:本发明的方法共分为四个部分。
第一部分:训练阶段数据预处理
由于每一句话长短不一,但是放入基分类器中的数据必须是相同大小的,所以为了能够使数据更好地适配基分类器,我们对数据进行了分片处理:假设数据集中有U句话,每一句话只有一种情感,那么第i句话的特征矩阵Xi可以表示为:
其中Ni表示第i句话的帧长,T表示特征矩阵的维度,U代表句子的数量。由于每句话的长度Ni不同,所以必须要把长度为Ni的矩阵切分为相同大小的L份,每一份长度为Y(如果最后一部分矩阵长度小于Y,则把它丢弃),所以一个由Xi转变而来的新的特征矩阵Di可以被定义为:
新的数据集ID由Di,(i=1,2,...,U)列绑定生成。ID可以被定义为:
其中K表示的是类别数量。
第二部分:训练阶段Stacking BLSTM和CNN的输出
首先通过五折交叉验证获得最好的BLSTM和CNN的模型结构,BLSTM和CNN可以映射输入特征空间到情感类别的概率分布上,它们的损失函数可以被定义为,
当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,
其中,是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到。根据分类的结果,选择泛化性能最好的CNN结构和LSTM结构作为Stacking的基分类器。
在图1中,我们可以看到五折交叉验证被用来训练ID′。在第一折中,ID2′,ID3′,ID4′,ID5′被视为训练集,ID1′被分割为验证集IDV′1和预测集IDT′1。显而易见地,验证集可以被用来调整超参数和网络权重,而预测集可以被用来产生新的训练元分类器的数据集。其中,预测集包含H1句话,并且每一句话包含Li个分片。对于输入的预测集IDT′1,训练好的BLSTM和CNN模型可以输出和/>去建立新的样本集ODS,其中/>和/>为BLSTM和CNN模型softmax层输出的概率分布。新的样本集ODS可以被定义为,
输出的每一句预测句子可以被定义为:
结合每一句预测句子组成的OD1可以被定义为:
然后,根据五折交叉验证对不同的数据集重复执行上述操作五次。最后,通过该Stacking方法可以获得五个新的数据集,OD1,OD2,OD3,OD4,OD5。在图2中,我们可以看到被用来训练元分类器输出的新数据集OD可以被定义为,
其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。最后,数据集OD可以扩展为:
其中,γ为数据集OD的真实类标。
第三部分:训练阶段逻辑回归训练新数据
在本发明中,逻辑回归将被选择作为元分类器。将数据集OD′放入到逻辑回归元分类器中,对于每一个样本ODS,逻辑回归的预测函数将被定义为:
其中z是线性方程;gw′(.)是sigmoid函数。最后的极大似然函数可以被定义为,
其中γ为真实类标。损失函数可以定义为,
第四部分:测试阶段
在图3中,我们可以看到将测试样本放入到由五折交叉验证训练的五个CNN和BLSTM模型中,并把五个模型输出结果的平均生成新的测试样本,代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,
实验设计
实验数据集:
实验使用IEMOCAP语音情感数据集,该数据集包括五个会话,由个人完成录制,每一个会话由一男一女组成。该情感数据集包含10039句话总时长为12小时,平均时长为4.5小时,整个数据集包含十种情感(高兴、生气、伤心、沮丧、中性、吃惊、害怕、厌恶、兴奋和其它)。我们只选出四种情感(生气、高兴、中性和伤心)的句子作为数据集,并且如果某句话被三个标注员标为三种不同的情感,那么这句话将会被抛弃。表1显示了IEMOCAP情感数据集的描述。
表1 IEMOCAP数据集描述
对比算法:
本发明的核心算法为CNN和BLSTM Stacking集成架构,称为BLSTM and CNNStacking Architecture(BCSA),对比算法我们选择卷积神经网络CNN、BLSTM网络、BLSTMand CNN weighted averaging以及BLSTM and CNN simple averaging。
性能度量方法:
实验统一使用权重精度(WA)和非权重精度(UA)来记录不同方法对语音情感数据集的分类结果。WA是在整个样本集上分对的样本数,UA是每一种类别分类正确率,WA与UA的计算公式为:
实验结果
首先利用BLSTM选取最适合的句长L,由于在IEMOCAP数据库中,最短的句子长度为73帧,所以序列长度的范围定为[5,10,20,30,40,50,60,70]。表2展示了BLSTM在不同序列长度上的结果。
表2不同序列长度下BLSTM的结果
序列长度 | WA(%) | UA(%) |
5 | 57.16 | 49.64 |
10 | 56.54 | 49.28 |
20 | 57.92 | 50.38 |
30 | 59.68 | 52.32 |
40 | 59.54 | 52.71 |
50 | 60.22 | 53.01 |
60 | 60.49 | 53.45 |
70 | 60.60 | 54.33 |
根据实验结果,最终在序列长度为70帧时,达到了最好的效果,所以选取的序列长度为70帧,即把每一句长度不等长的样本分割成长度为70的子样本。
接着用长度为70的样本训练不同结构的卷积神经网络,表3展示了多种不同结构的卷积神经网络和测试结果。
表3不同结构的卷积神经网络的结果
根据实验结果,最终得出卷积神经网络结构Conv(10*2*2)Max(2*2)Conv(20*2*2)Max(2*2)FC(128)*2能达到最好的结果,所以选择该架构作为基分类器。
最后,为了证明所述BCSA的有效性,与另外的算法作对比是必要的。表4展示了不同算法在IEMOCAP数据集上的实验结果。
表4所有对比算法在IEMOCAP数据集上结果
模型 | WA(%) | UA(%) |
Conv(20*2*2)Max(2*2)Conv(40*2*2)Max(2*2)FC(128) | 58.17 | 53.05 |
BLSTM(256)*2 | 60.60 | 54.33 |
BLSTM and CNN simple averaging | 62.01 | 56.48 |
BLSTM and CNN weighted averaging | 62.37 | 56.73 |
BCSA | 63.14 | 54.88 |
实验结果表明,所述BCSA算法与其它算法相比,具有较好的性能。
综上所述,本发明的一种基于深度模型集成架构的语音情感识别系统,利用Stacking集成方法集BLSTM和CNN网络结构之所长,能够更好地利用语音特征的多样性,提升了语音情感识别效果。此外,本发明也为同领域内其他相关问题提供了参考,可以以此为依据进行拓展延伸,具有十分广阔的应用前景。
Claims (2)
1.一种基于深度模型集成架构的语音情感识别系统,其特征在于,包括如下步骤:
S1、对所收集到的音频信号样本提取特征,并对所提取的特征分片处理;所述收集到的音频信号样本来自国际语音情感数据库IEMOCAP;所述收集到的音频信号样本共包括四类感情,分别为:生气,高兴,中性,伤心;所述收集到的音频信号样本的特征由opensmile工具箱提取,并对所述音频信号样本中长度不等长的句子做分割操作得到子样本,使所得到的每一个子样本空间大小一样;
S2、选出泛化性能最好的CNN结构和BLSTM结构作为Stacking的基分类器,对所选出的基分类器做五折交叉验证,把每一折测试数据所得到的输出组合成新的数据集,其中S2所述选出泛化性能最好的CNN结构和BLSTM结构是通过最小化交叉熵损失函数,所述的交叉熵损失函数可以被定义为,
当网络训练完毕时,样本的类标可以通过计算softmax输出的概率分布得到,
其中,是第i句话中第Li个分片的类标,最后Utterance-level的类标由对一句话中所有分片的概率分布求平均得到,根据分类的结果,所述泛化性能最好的CNN结构和LSTM结构会被选择作为Stacking的基分类器;
S3、利用步骤S2所得到的新数据集训练逻辑回归元分类器;所述逻辑回归元分类器的预测函数被定义为,
其中z是线性方程;gw′(.)是sigmoid函数;最后的极大似然函数可以被定义为,
其中γ为真实类标,损失函数可以定义为,
S4、在测试阶段,把样本代入到步骤S2所得到的基分类器中,新的测试集是由所训练好的基分类器输出拼接而成,将所得到的新的测试集代入到所训练好的逻辑回归元分类器,最后的样本可以被预测为,
2.根据权利要求1所述的一种基于深度模型集成架构的语音情感识别系统,其特征在于:所述Stacking使用所得到的泛化性能最好的CNN结构和BLSTM结构作为基分类器,五折交叉验证被用来训练CNN和BLSTM模型,利用所述训练好的BLSTM和CNN模型softmax层输出的概率分布和/>来建立新的样本集ODS,所述新的样本集ODS可以被定义为,
然后根据所述五折交叉验证对不同的数据集重复执行五次,通过所述Stacking方法可以获得五个新的数据集OD1,OD2,OD3,OD4,OD5,所述新的数据集OD可以被定义为,
其中,H2,H3,H4,H5分别是数据集OD2,OD3,OD4,OD5中句子的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490599.4A CN110348482B (zh) | 2019-06-05 | 2019-06-05 | 一种基于深度模型集成架构的语音情感识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910490599.4A CN110348482B (zh) | 2019-06-05 | 2019-06-05 | 一种基于深度模型集成架构的语音情感识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110348482A CN110348482A (zh) | 2019-10-18 |
CN110348482B true CN110348482B (zh) | 2023-06-02 |
Family
ID=68181593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910490599.4A Active CN110348482B (zh) | 2019-06-05 | 2019-06-05 | 一种基于深度模型集成架构的语音情感识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110348482B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111209962B (zh) * | 2020-01-06 | 2023-02-03 | 电子科技大学 | 一种联合热图特征回归的基于cnn特征提取网络的联合图像分类方法 |
CN111507219A (zh) * | 2020-04-08 | 2020-08-07 | 广东工业大学 | 一种动作识别方法、装置及电子设备和存储介质 |
CN114882906A (zh) * | 2022-06-30 | 2022-08-09 | 广州伏羲智能科技有限公司 | 一种新型环境噪声识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108415923A (zh) * | 2017-10-18 | 2018-08-17 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
CN109475294A (zh) * | 2016-05-06 | 2019-03-15 | 斯坦福大学托管董事会 | 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10909329B2 (en) * | 2015-05-21 | 2021-02-02 | Baidu Usa Llc | Multilingual image question answering |
US20180330718A1 (en) * | 2017-05-11 | 2018-11-15 | Mitsubishi Electric Research Laboratories, Inc. | System and Method for End-to-End speech recognition |
JP7023613B2 (ja) * | 2017-05-11 | 2022-02-22 | キヤノン株式会社 | 画像認識装置および学習装置 |
CN107562784A (zh) * | 2017-07-25 | 2018-01-09 | 同济大学 | 基于ResLCNN模型的短文本分类方法 |
CN108021806B (zh) * | 2017-11-24 | 2021-10-22 | 北京奇虎科技有限公司 | 一种恶意安装包的识别方法和装置 |
CN109767789A (zh) * | 2019-03-06 | 2019-05-17 | 慧言科技(天津)有限公司 | 一种用于语音情感识别的新特征提取方法 |
-
2019
- 2019-06-05 CN CN201910490599.4A patent/CN110348482B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109475294A (zh) * | 2016-05-06 | 2019-03-15 | 斯坦福大学托管董事会 | 用于治疗精神障碍的移动和可穿戴视频捕捉和反馈平台 |
CN108415923A (zh) * | 2017-10-18 | 2018-08-17 | 北京邮电大学 | 封闭域的智能人机对话系统 |
CN109389992A (zh) * | 2018-10-18 | 2019-02-26 | 天津大学 | 一种基于振幅和相位信息的语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110348482A (zh) | 2019-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674339B (zh) | 一种基于多模态融合的中文歌曲情感分类方法 | |
CN110634491B (zh) | 语音信号中针对通用语音任务的串联特征提取系统及方法 | |
CN106228977B (zh) | 基于深度学习的多模态融合的歌曲情感识别方法 | |
Rong et al. | Acoustic feature selection for automatic emotion recognition from speech | |
Bhatti et al. | A neural network approach for human emotion recognition in speech | |
CN102982809B (zh) | 一种说话人声音转换方法 | |
Agarwalla et al. | Machine learning based sample extraction for automatic speech recognition using dialectal Assamese speech | |
CN110348482B (zh) | 一种基于深度模型集成架构的语音情感识别系统 | |
CN110400579A (zh) | 基于方向自注意力机制和双向长短时网络的语音情感识别 | |
CN103544963A (zh) | 一种基于核半监督判别分析的语音情感识别方法 | |
CN102810311B (zh) | 说话人估计方法和说话人估计设备 | |
CN102411932B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
Chen | Simulation of English speech emotion recognition based on transfer learning and CNN neural network | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
Soliman et al. | Isolated word speech recognition using convolutional neural network | |
CN110390929A (zh) | 基于cdnn-hmm的中英文民航陆空通话声学模型构建方法 | |
Rani et al. | Speech recognition using neural network | |
Tashakori et al. | Designing the Intelligent System Detecting a Sense of Wonder in English Speech Signal Using Fuzzy-Nervous Inference-Adaptive system (ANFIS) | |
Alrehaili et al. | Arabic Speech Dialect Classification using Deep Learning | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Poojary et al. | Speech Emotion Recognition Using MLP Classifier | |
CN102750950A (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
Ashrafidoost et al. | Recognizing Emotional State Changes Using Speech Processing | |
Juyal et al. | Emotion recognition from speech using deep neural network | |
Lounnas et al. | Towards an Automatic Dialect Identification System using Algerian Youtube Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |