CN106297825B - 一种基于集成深度信念网络的语音情感识别方法 - Google Patents
一种基于集成深度信念网络的语音情感识别方法 Download PDFInfo
- Publication number
- CN106297825B CN106297825B CN201610590174.7A CN201610590174A CN106297825B CN 106297825 B CN106297825 B CN 106297825B CN 201610590174 A CN201610590174 A CN 201610590174A CN 106297825 B CN106297825 B CN 106297825B
- Authority
- CN
- China
- Prior art keywords
- belief network
- deepness belief
- classifier
- speech
- deepness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims abstract description 40
- 230000008909 emotion recognition Effects 0.000 claims abstract description 28
- 230000002996 emotional effect Effects 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 238000012360 testing method Methods 0.000 claims abstract description 5
- 238000005070 sampling Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 7
- 238000012706 support-vector machine Methods 0.000 claims description 6
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 7
- 230000008451 emotion Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 2
- 206010016275 Fear Diseases 0.000 description 1
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于集成深度信念网络的语音情感识别方法,步骤如下:S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;S2、获取待测语音信号的特征向量;S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。本发明方法具有语音情感识别准确率高的优点,并且减少了语音情感特征提取对人的依赖性,能够能识别出多种语言的语音情感。
Description
技术领域
本发明涉及语音处理、识别技术,特别涉及一种基于集成深度信念网络的语音情感识别方法。
背景技术
语音情感识别的目的就在于让计算机能够通过用户的语音来准确分析出用户的情感状态,从而基于这样的情感状态去产生更加精准的反馈,基本的情感状态包括生气、高兴、伤心、惊讶、害怕、厌恶以及平静。语音情感识别有重要的应用价值,比如在客服工作上,可以通过收集客户的语音信息实时了解客户的情感状态,也可以了解服务人员的情感状态,从而提升工作的质量和客户的满意度;在医疗领域则可以通过长时间的收集病人的语音信息来了解病人的情感状态,在病人负面情绪比重较大的时候可以针对性地进行一些药物治疗和心理辅导;而在平时的生活中,一个实时反馈情感状态的工具可以提醒使用者更好地控制自己的情感,减少负面情绪影响生活的几率,促进人与人间的和睦相处。因此,语音情感识别技术可以应用到许多不同的领域之中,为我们的工作提供有价值的参考依据,也有助于日常生活中人与人间的和睦相处。
语音情感识别的主要步骤包括语音信息特征提取和分类器设计。而分类器就是依靠机器学习算法来实现,效果比较显著的有支持向量机(SVM)、神经网络、K最近邻算法(KNN)、高斯混合模型、随机森林、集成学习等等。国内外学者在解决语音情感识别问题时,大都采用这些分类算法,但是这些分类算法极大地依赖于对语音情感的特征抽取,而目前采用的特征抽取方法是人工设计的,再通过特征选择算法剔除冗余或者不相关的特征,得出最优或者次优特征子集,这一步骤的目的一方面是提高识别准确率,另一方面是降低特征的维数,从而提升模型训练速度。这个过程极大地依赖人工专家的经验和反复实验完成的,不仅工作量大,而且很难找到一种最优的语音情感特征表达,从而影响了语音情感识别的效果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种识别准确率高的基于集成深度信念网络的语音情感识别方法。
本发明的目的通过下述技术方案实现:一种基于集成深度信念网络的语音情感识别方法,步骤如下:
S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;
S2、获取待测语音信号的特征向量;
S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。
优选的,所述步骤S1中深度信念网络分类器获取过程具体如下:
S11、针对语音情感识别数据库抽取特征,获取到语音情感识别数据库中每个样本对应的特征向量,从语音情感识别数据库抽取一部分样本作为验证集;
S12、设置子空间规模M以及子空间中每个样本特征向量每次被抽取的维度n;
S13、针对每个样本的特征向量进行M次的随机抽取组成M个子空间,即每次每个样本特征向量被抽取部分组合构成一个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维;
S14、生成M个深度信念网络模型,并且在M个深度信念网络模型输出端共同连接一个分类器,采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练,得到一个深度信念网络分类器;
S15、子空间规模M以步长X值遍历X1~X2值,每个样本特征向量被抽取的维度n以步长Z值遍历Z1~Z2值,然后分别通过步骤S13至步骤S14获取到对应的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器;
S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证,然后选取出识别准确率最高的一个深度信念网络分类器。
优选的,M个深度信念网络模型输出端共同连接的分类器为基于径向基核的支持向量机。
更进一步的,所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成,其中每层RBM神经元数目为80个,受限玻尔兹曼机层的学习率为0.001,外层多层前向神经网络学习率为0.08,不工作比率的值为0.1。
更进一步的,所述X1值为5,X2值为30,X值为5;即步骤S15中子空间规模M以步长5遍历5~30,
更进一步的,所述Z1值为50,Z2值为950,Z值为150,即所述步骤S15中每个样本特征向量被抽取的特征维度n以步长150遍历50~950;分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。
更进一步的,所述深度信念网络分类器中,M个深度信念网络模型的输出经融合后输入至M个深度信念网络模型输出端所连接的分类器中。
更进一步的,M个深度信念网络模型输出的融合采用简单投票法。
优选的,所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成;所述步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下:
S131、在深度信念网络模型第一个RBM层中,输入的值为新的训练集中每个样本对应的特征向量,输出的值则是预训练后经过RBM变换出来的特征;
S132、在接下来的所有RBM层中,当前RBM层的输入为前一个RBM层的输出,而当前RBM的输出则作为下一个RBM层的输入,如此重复训练各个RBM层;
S133、将所有训练好的RBM参数分别作为每层神经网络的初始化参数,之后通过BP算法自顶向下对所有RBM参数进行微调,直到将误差减小到一定范围,则训练终止。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明方法由M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后构成深度信念网络分类器,然后将待测语音信号的特征向量输出至深度信念网络分类器中,通过深度信念网络分类器获取到最终的语音情感类别。本发明方法深度信念网络分类器集成了多个深度信念网络模型,然后将多个深度信念网络模型的输出融合后输入至分类器中,通过分类器获得到最终结果,具有语音情感识别准确率高的优点,并且减少了语音情感特征提取对人的依赖性,能够能识别出多种语言的语音情感,应用广泛。
(2)本发明方法中针对每个样本的特征向量进行M次的随机抽取组成M个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维;通过M个子空间对应的M个新的训练集训练M个深度信念网络模型及它们输出端共同连接的分类器,以得到一个深度信念网络分类器,本发明方法中将子空间规模M以一定步长遍历多个值,将每个样本特征向量随机抽取的维度n以一定步长遍历多个值,针对于不同的M值和n值,通过本发明方法能够获取到多个深度信念网络分类器,本发明方法通过验证集针对多个深度信念网络分类器进行验证,选取出识别准确率最高的深度信念网络分类器作为本发明方法最终的深度信念网络分类器,通过本发明方法能够选取出最优的深度信念网络分类器,大大提高了本发明方法的语音情感识别准确率。
(3)本发明方法中深度信念网络分类器中M个深度信念网络模型分别有M个新的训练集训练得到,其中M个新的训练集为语音情感识别数据中每个样本的特征向量进行M次的随机抽取组成的,因此M个新的训练集为不同的训练集,因此对应训练得到的M个深度信念网络模型的结构为不同的,本发明方法利用多个结构差异化的M个深度信念网络模型集成识别,能够获得更好的语音情感识别性能,进一步提高语音情感识别的准确率。
附图说明
图1是本发明方法中深度信念网络分类器的生成框图。
图2是RBM结构图。
图3是深度信念网络网络结构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
本实施例公开了一种基于集成深度信念网络的语音情感识别方法,步骤如下:
S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络(DBN)模型以及M个深度信念网络模型输出端共同连接的一个分类器;M个深度信念网络模型及M个深度信念网络模型输出端共同连接的一个分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器;本实施例中M个深度信念网络模型输出端共同连接的一个分类器可为基于径向基核的支持向量机SVW。
本步骤中深度信念网络分类器获取过程具体如下:
S11、针对语音情感识别数据库抽取特征,获取到语音情感识别数据库中每个样本对应的特征向量,从语音情感识别数据库抽取一部分样本作为验证集。
S12、设置子空间规模M以及子空间中每个样本特征向量被抽取的维度n;子空间规模M指的是子空间的个数。
S13、针对语音情感识别数据库中的每个样本的特征向量进行M次的随机抽取组成M个子空间,分别为第一子空间、第二子空间、…、第M子空间,即每次每个样本特征向量被抽取部分组合构成一个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维,本实施例中一个子空间中包括所有样本的特征向量中的n维。
S14、生成M个深度信念网络模型,分别第一深度信念网络模型、第二深度信念网络模型、…、第M深度信念网络模型,并且在M个深度信念网络模型输出端共同连接一个分类器,采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练,得到一个深度信念网络分类器;该深度信念网络分类器生成过程具体如图1中所示。
S15、子空间规模M以步长X值遍历X1~X2值,每个样本特征向量被抽取的维度n以步长Z值遍历Z1~Z2值,然后分别通过步骤S13至步骤S14获取到对应的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器;
S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证,然后选取出识别准确率最高的一个深度信念网络分类器。
S2、获取待测语音信号的特征向量。
S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。
本实施例深度信念网络分类器中M个深度信念网络模型的输出经简单投票法融合后输入至M个深度信念网络模型输出端所连接的分类器中,最后通过分类器输出结果。
语音情感特征包括三大类:分别是韵律特征、音质特征以及谱特征。本实施例选取的语音特征包含国际标准语音特征集INTERSPEECH2010的基准特征外,还包括特征LPCC(线性预测倒谱系数)、ZCPA(语音的上升过零率和非线性幅度)、PLP(感知线性预测参数)和HuWSF特征。
本实施例中步骤S15中X1为5,X2为30,X为5,Z1为50,Z2为950,Z为150;即步骤S15中子空间规模M以步长5遍历5~30,每个样本特征向量被抽取的维度n以步长150遍历50~950,那么分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。
本实施例深度信念网络模型为基于受限玻尔兹曼机RBM分层组成;其中RBM的结构如图2所示,中V层为可视层,负责接收外部特征的输入,H层为隐层,负责输出编码后的数据。RBM的作用主要有两个,其一是降维,亦即是通过RBM的编码对原始特征进行组合选择,得到新的特征向量;其二是通过无监督学习的方式去最大限度的拟合输入数据,并将得到的RBM参数值作为BP神经网络的初始化参数,这样做的好处在于能够避免BP神经网络由于随机初始化参数选择不当而导致的陷入局部极小值的问题。而这两个方面的作用都是基于RBM在预训练过程中对其输入数据进行最大程度的拟合。
步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下:
S131、在深度信念网络模型第一个RBM层中,输入的值为新的训练集中每个样本对应的特征向量,输出的值则是预训练后经过RBM变换出来的特征。
S132、在接下来的所有RBM层中,当前RBM的输入为前一个RBM层的输出,而当前RBM层的输出则作为下一个RBM层的输入,如此重复训练各个RBM层。
S133、将所有训练好的RBM参数分别作为每层神经网络的初始化参数,之后通过BP(back propagation,反向传播)算法自顶向下对所有RBM参数进行微调,直到将误差减小到一定范围,则训练终止;其中误差减小到一定范围指的是误差减小到可接受的范围。
本实施案例中,如图3所示,如果训练集中数据是带有标签进行训练的,则顶层RBM中显层上出现的Y1,Y2是代表训练数据的标签值,比如EMODB数据库有7个情感标签,那就对应7个神经元,每个训练数据标签对应的神经元会被置为1,其余置零。如果训练集中数据没有对应标签,则去掉这些标签神经元。深度信念网络模型由于每一层都是用RBM进行预训练,所以其参数已经比较接近最优值,这时再通过BP反向传播算法进行微调一方面可以让RBM的参数相对于整个DBN来说更优,另一方面不会陷入局部极小值的问题,而残差传播的问题由于参数是通过预训练得到的,所以即便调整不到也不会像传统神经网络一样对性能带来重大的影响。
本实施例中选用的深度信念网络模型中每次RBM的神经元数目为80个,受限玻尔兹曼机层的学习率为0.001,外层多层前向神经网络学习率为0.08,DropoutFraction(不工作比率)为0.1。
在EMODB、CASIA和SAVE数据库下,如表1所示为本实施例基于集成深度信念网络的语音情感识别方法ESDBNS和现有方法SLDBN(单层深度信任网络)、DLDBN(双层深度信任网络)、TLDBN(三层深度信任网络)、KNN(基于K个最近邻的分类器)、基于线性核的SVM、集成分类器中效果最优的基分类器(记为BASE)的识别准确率;其中深度信念网络的配置除了层数外,其余沿用与本实施例识别方法一致的配置,即每层神经元为80个,RBM的学习率为0.001,外层多层前向神经网络学习率为0.08,随机抽样比例DropoutFraction的值为0.1。
表1
其中EMODB、CASIA和SAVEE分别作为语音情感识别数据库;EMODB为标准的德语语音数据库、CASIA为中科院自动化所的汉语数据库、SAVEE为英语视听表情情感数据库。情感类别为生气、讨厌、害怕、高兴、中性、伤心和惊讶。这三个数据库的数据在基于情感标签的分布上都是比较平衡的。其中评价标准WA准确率(加权精度):
WA=(识别准确样本总数)/所有测试样本总数;
从表1中可以看出,本实施例方法的识别准确率最高。
当数据库为FAU时,如表2所示,为如表1所示为本实施例基于集成深度信念网络的语音情感识别方法ESDBNS和现有方法SLDBN、DLDBN、TLDBN、KNN、基于线性核的SVM以及集成分类器中效果最优的基础分类器Base的识别准确率;
表2
其中FAU数据库是一个由德国儿童录制而成的语音情感数据库,评价标准UA不加权精度(Unweighted Accuracy):
UA=(所有类别精度和)/(类别个数);
从表2中可以看出,在FAU数据库下,本实施例方法的识别准确率最高。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (8)
1.一种基于集成深度信念网络的语音情感识别方法,其特征在于,步骤如下:
S1、获取深度信念网络分类器,其中该深度信念网络分类器包括M个深度信念网络模型以及M个深度信念网络模型输出端共同连接的分类器;所述M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器经过语音情感识别数据库数据集训练后得到深度信念网络分类器,其中,深度信念网络分类器获取过程具体如下:
S11、针对语音情感识别数据库抽取特征,获取到语音情感识别数据库中每个样本对应的特征向量,从语音情感识别数据库抽取一部分样本作为验证集;
S12、设置子空间规模M以及子空间中每个样本特征向量每次被抽取的维度n;
S13、针对每个样本的特征向量进行M次的随机抽取组成M个子空间,即每次每个样本特征向量被抽取部分组合构成一个子空间,一个子空间对应形成一个新的训练集;其中每次针对每个样本特征向量随机抽取的维度为n维;
S14、生成M个深度信念网络模型,并且在M个深度信念网络模型输出端共同连接一个分类器,采用步骤S12中获取的M个新的训练集分别对对应的M个深度信念网络模型及M个深度信念网络模型输出端共同连接的分类器进行训练,得到一个深度信念网络分类器;
S15、子空间规模M以步长X值遍历X1~X2值,每个样本特征向量被抽取的维度n以步长Z值遍历Z1~Z2值,然后分别通过步骤S13至步骤S14获取到对应的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器;
S16、采用步骤S11中获取到的验证集针对S15获取到的[(X2-X1)/X+1]*[(Z2-Z1)/Z+1]个深度信念网络分类器分别进行验证,然后选取出识别准确率最高的一个深度信念网络分类器;
S2、获取待测语音信号的特征向量;
S3、在测试时,将待测语音信号的特征向量输入步骤S1获取到的深度信念网络分类器中,获得语音情感类别。
2.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法,其特征在于,M个深度信念网络模型输出端共同连接的分类器为基于径向基核的支持向量机。
3.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法,其特征在于,所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成,其中每层RBM神经元数目为80个,受限玻尔兹曼机层的学习率为0.001,外层多层前向神经网络学习率为0.08,不工作比率的值为0.1。
4.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法,其特征在于,所述X1值为5,X2值为30,X值为5;即步骤S15中子空间规模M以步长5遍历5~30。
5.根据权利要求4所述的基于集成深度信念网络的语音情感识别方法,其特征在于,所述Z1值为50,Z2值为950,Z值为150,即所述步骤S15中每个样本特征向量被抽取的特征维度n以步长150遍历50~950;分别通过步骤S13至步骤S14获取到对应60个深度信念网络分类器。
6.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法,其特征在于,所述深度信念网络分类器中,M个深度信念网络模型的输出经融合后输入至M个深度信念网络模型输出端所连接的分类器中。
7.根据权利要求6所述的基于集成深度信念网络的语音情感识别方法,其特征在于,M个深度信念网络模型输出的融合采用简单投票法。
8.根据权利要求1所述的基于集成深度信念网络的语音情感识别方法,其特征在于,所述深度信念网络模型为基于受限玻尔兹曼机RBM分层组成;所述步骤S13中新的训练集对深度信念网络模型进行训练的过程具体如下:
S131、在深度信念网络模型第一个RBM层中,输入的值为新的训练集中每个样本对应的特征向量,输出的值则是预训练后经过RBM变换出来的特征;
S132、在接下来的所有RBM层中,当前RBM层的输入为前一个RBM层的输出,而当前RBM的输出则作为下一个RBM层的输入,如此重复训练各个RBM层;
S133、将所有训练好的RBM参数分别作为每层神经网络的初始化参数,之后通过BP算法自顶向下对所有RBM参数进行微调,直到将误差减小到一定范围,则训练终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610590174.7A CN106297825B (zh) | 2016-07-25 | 2016-07-25 | 一种基于集成深度信念网络的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610590174.7A CN106297825B (zh) | 2016-07-25 | 2016-07-25 | 一种基于集成深度信念网络的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106297825A CN106297825A (zh) | 2017-01-04 |
CN106297825B true CN106297825B (zh) | 2019-10-18 |
Family
ID=57652334
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610590174.7A Active CN106297825B (zh) | 2016-07-25 | 2016-07-25 | 一种基于集成深度信念网络的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106297825B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992000B (zh) * | 2017-04-07 | 2021-02-09 | 安徽建筑大学 | 一种基于预测的多特征融合的老人语音情感识别方法 |
CN107092895A (zh) * | 2017-05-09 | 2017-08-25 | 重庆邮电大学 | 一种基于深度信念网络的多模态情感识别方法 |
CN107545905B (zh) * | 2017-08-21 | 2021-01-05 | 北京合光人工智能机器人技术有限公司 | 基于声音特性的情绪识别方法 |
CN107622276B (zh) * | 2017-08-21 | 2021-03-26 | 北京精密机电控制设备研究所 | 一种基于机器人仿真与物理采样结合的深度学习训练方法 |
CN107808663B (zh) * | 2017-10-25 | 2021-04-27 | 重庆大学 | 基于dbn和rf算法的帕金森病语音数据分类系统 |
CN108960496B (zh) * | 2018-06-26 | 2021-07-23 | 浙江工业大学 | 一种基于改进学习率的深度学习交通流预测方法 |
CN109215678B (zh) * | 2018-08-01 | 2022-10-11 | 太原理工大学 | 一种基于情感维度下的深度情感交互模型的构建方法 |
CN109239527A (zh) * | 2018-09-07 | 2019-01-18 | 福州大学 | 基于深度置信网络的配电网故障识别方法 |
CN109036468A (zh) * | 2018-11-06 | 2018-12-18 | 渤海大学 | 基于深度信念网络和核非线性psvm的语音情感识别方法 |
CN109785863A (zh) * | 2019-02-28 | 2019-05-21 | 中国传媒大学 | 一种深度信念网络的语音情感识别方法及系统 |
CN110619893A (zh) * | 2019-09-02 | 2019-12-27 | 合肥工业大学 | 语音信号的时频特征提取及人工智能情绪监测方法 |
CN114913513A (zh) * | 2021-10-12 | 2022-08-16 | 北京九章云极科技有限公司 | 一种公章图像的相似度计算方法、装置、电子设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474066A (zh) * | 2013-10-11 | 2013-12-25 | 福州大学 | 基于多频带信号重构的生态声音识别方法 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN105719664A (zh) * | 2016-01-14 | 2016-06-29 | 盐城工学院 | 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法 |
CN105741832A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101650944A (zh) * | 2009-09-17 | 2010-02-17 | 浙江工业大学 | 基于保类内核Fisher判别法的说话人辨别实现方法 |
US10127927B2 (en) * | 2014-07-28 | 2018-11-13 | Sony Interactive Entertainment Inc. | Emotional speech processing |
-
2016
- 2016-07-25 CN CN201610590174.7A patent/CN106297825B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103474066A (zh) * | 2013-10-11 | 2013-12-25 | 福州大学 | 基于多频带信号重构的生态声音识别方法 |
CN104008754A (zh) * | 2014-05-21 | 2014-08-27 | 华南理工大学 | 一种基于半监督特征选择的语音情感识别方法 |
CN104157290A (zh) * | 2014-08-19 | 2014-11-19 | 大连理工大学 | 一种基于深度学习的说话人识别方法 |
CN105719664A (zh) * | 2016-01-14 | 2016-06-29 | 盐城工学院 | 基于似然概率模糊熵的紧张状态下语音情绪自动识别方法 |
CN105741832A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106297825A (zh) | 2017-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106297825B (zh) | 一种基于集成深度信念网络的语音情感识别方法 | |
CN110991190B (zh) | 一种文档主题增强系统、文本情绪预测系统和方法 | |
Dumpala et al. | Estimating severity of depression from acoustic features and embeddings of natural speech | |
CN110085216A (zh) | 一种婴儿哭声检测方法及装置 | |
Vimal et al. | Mfcc based audio classification using machine learning | |
Sahu et al. | Modeling feature representations for affective speech using generative adversarial networks | |
Liu | [Retracted] Feature Recognition of English Based on Deep Belief Neural Network and Big Data Analysis | |
Shubhangi et al. | Asthma, Alzheimer's and Dementia Disease Detection based on Voice Recognition using Multi-Layer Perceptron Algorithm | |
Wang et al. | A study of the evaluation metrics for generative images containing combinational creativity | |
Meftah et al. | English emotional voice conversion using StarGAN model | |
Yan et al. | Convoluational transformer with adaptive position embedding for Covid-19 detection from cough sounds | |
Liu et al. | Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism | |
CN117672268A (zh) | 基于相对熵对齐融合的多模态语音情感识别方法 | |
Wang | The application of intelligent speech recognition technology in the tone correction of college piano teaching | |
Matsane et al. | The use of automatic speech recognition in education for identifying attitudes of the speakers | |
Gupta et al. | Detecting emotions from human speech: role of gender information | |
Moriyama et al. | Measurement of human vocal emotion using fuzzy control | |
Chen et al. | Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion | |
Wang et al. | Investigation of the effect of increased dimension levels in speech emotion recognition | |
Falahzadeh et al. | A 3D tensor representation of speech and 3D convolutional neural network for emotion recognition | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 | |
CN111860463B (zh) | 一种基于联合范数的情感识别方法 | |
Tang et al. | Speech Emotion Recognition Via CNN-Transforemr and Multidimensional Attention Mechanism | |
Tiwari et al. | Deep Neural Networks for Comprehensive Multimodal Emotion Recognition | |
Qu et al. | Improved Vocal Tract Length Perturbation for Improving Child Speech Emotion Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |