CN107316654A - 基于dis‑nv特征的情感识别方法 - Google Patents
基于dis‑nv特征的情感识别方法 Download PDFInfo
- Publication number
- CN107316654A CN107316654A CN201710607464.2A CN201710607464A CN107316654A CN 107316654 A CN107316654 A CN 107316654A CN 201710607464 A CN201710607464 A CN 201710607464A CN 107316654 A CN107316654 A CN 107316654A
- Authority
- CN
- China
- Prior art keywords
- dis
- word
- emotion
- features
- blstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Abstract
本发明公开一种基于DIS‑NV特征的情感识别方法,步骤包括:S1.选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类,构建得到DIS‑NV特征集;S2.获取训练语音文本,分别与DIS‑NV特征集进行匹配,提取对应的DIS‑NV特征值,并采用BLSTM模型进行训练,得到BLSTM分类模型;S3.获取待识别语音文本,将待识别语音文本与DIS‑NV特征集进行匹配,提取对应的DIS‑NV特征值,并使用BLSTM分类模型进行识别,输出情感识别结果。本发明能够充分利用不流利、非语言特性的语音文本实现情感识别,且具有实现方法简单、识别效率以及精度高等优点。
Description
技术领域
本发明涉及自动情感识别技术领域,尤其涉及一种基于DIS-NV特征的情感识别方法。
背景技术
情感识别即是识别对话中的情感信息,以判别说话人的情感状态,通过情感的自动识别可以实现更为良好的人机交互,如人机交流、会话代理等。目前情感识别通常都是基于一个类别的处理方法,即认为在大脑中存在几种基本的比较普遍的情感,如包括:高兴、悲伤、惊喜、害怕、生气、厌恶六大类情感,但是说话人情感状态通常较为复杂,单一的情感表情或者有限的离散类别通常难以恰当地描述该复杂的情感状态,一种解决方法即是通过在多维空间中的连续情感标签(即维度情感)来代替分类的情感,如由一个由效价(描述情感的积极和消极程度)和激励(描述了情感的激烈程度)组成的两维的情感空间,在各种连续情感模型中,描述最丰富的一个情感模型是一个四维的情感空间:效价、激励、支配度(在对话中所表达的主导程度)以及期望值(描述期望以及意外程度)。为了简化维度情感识别的过程,同时充分利用到已经逐渐成熟的基于分类的情感识别的成果,有从业者将连续情感标签量化到有限的离散类中,将连续的预测问题转化成一个二分类识别问题(积极vs.消极),或者四类的识别问题等。
现有技术中,上述各类情感识别方法所使用的情感模型各不相同,但使用的音频特征通常都是低级别描述符(LLD),包括如:与能量相关的特征、基频特征、共振峰特征、线性预测系数以及梅尔倒谱系数等的声学特征,再将统计函数应用到上述特征以及上述特征的delta系数上,形成最终的情感特征;目前各种数据库也均是使用上述几种LLDs特征,例如AVEC2012语料库是使用能量、频谱、声音相关作为LLD特征,而IEMOCAP语料库中使用的LLD特征主要包含了能量、频谱以及与基频相关的信息。LLD特征的数量均非常大,基本在1000到2000之间,一方面,针对大量特征值的情感识别模型训练,训练难度大、所需训练时间长,使得识别效率低;另一方面,特征数量过多还会在一定程度上会带来大量的信息冗余,特征之间的依赖关系也难以有效控制,从而影响训练的情感识别模型的精度。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种明能够充分利用不流利、非语言特性的语音文本实现情感识别,且具有实现方法简单、识别效率以及精度高的基于DIS-NV特征的情感识别方法。
为解决上述技术问题,本发明提出的技术方案为:
一种基于DIS-NV特征的情感识别方法,步骤包括:
S1.DIS-NV特征集构建:选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类,构建得到DIS-NV特征集;
S2.情感分类模型训练:获取对应各类情感的训练语音文本,将各所述训练语音文本分别与所述DIS-NV特征集进行匹配,根据匹配结果提取得到对应的DIS-NV特征值,并基于双向时序信息采用BLSTM模型进行训练,得到BLSTM(Bidirectional Long short termmemory,双向长短期记忆网络)分类模型;
S3.情感识别:获取待识别语音文本,将待识别语音文本与所述DIS-NV特征集进行匹配,根据匹配结果提取得到对应的DIS-NV特征值,并使用所述BLSTM分类模型进行识别,输出情感识别结果。
作为本发明的进一步改进,所述DIS-NV特征值的提取步骤为:获取待提取语音文本作为当前语音文本,依次读取当前语音文本中的每个词以及用于标记所述NV特征类的标记词,并分别与所述DIS-NV特征集中各所述DIS特征词、NV特征类进行匹配,若目标词匹配成功,获取目标词在当前语音文本中的持续时间,根据获取到的持续时间计算得到目标词的DIS-NV特征值;否则目标词对应的所述DIS-NV特征值为0。
作为本发明的进一步改进:所述进行匹配具体预先构建具有字符串匹配功能的匹配模块,通过调用所述匹配模块进行匹配。
作为本发明的进一步改进:所述根据获取到的持续时间具体按照下式计算得到对应的DIS-NV特征值;
Dd=td/Td;
其中,Dd为目标特征词d所对应的DIS-NV特征值,td为目标特征词d对应语音的持续时间,Td为目标特征词d所在整个句子的持续时间。
作为本发明的进一步改进:所述DIS-NV特征值计算时,具体使用一个包含指定个词的移动窗依次移过待提取语音文本,计算所述目标词d所在的移动窗内所有词的持续时间之和,并作为所述目标词d所在整个句子的持续时间。
作为本发明的进一步改进,所述步骤S2中得到BLSTM分类模型后还包括模型调整步骤,具体步骤为:使用得到的所述BLSTM情感分类模型计算预测情感值,基于预先确定的模型损失函数将计算得到的所述预测情感值与标准情感值进行比较,根据比较结果调整所述BLSTM情感分类模型,输出最终的BLSTM情感分类模型。
作为本发明的进一步改进:所述BLSTM情感分类模型的模型损失函数具体采用均方误差函数,即通过计算所述预测情感值与标准情感值之间的均方误差,根据误差结果调整所述BLSTM分类模型。
作为本发明的进一步改进:所述DIS特征词具体包括用于作为插入词且为不带有含义的非语言插入类词、用于作为插入词且带有含义的语言插入类词以及具有重复使用特性的语言重复类词中一种或多种。
作为本发明的进一步改进:所述NV特征类包括呼吸声和/或笑声的发声类型。
与现有技术相比,本发明的优点在于:
1)本发明基于DIS-NV特征的情感识别方法,以具有不流利特性的情感词作为DIS特征词,以及具有非语言特性的发声类型作为NV特征类,基于DIS特征词、NV特征类的DIS-NV特征来识别说话人的情感状态,能够充分利用对话当中存在的不流利特性、非语言特性的语音文本,实现准确的情感识别,且使用DIS-NV特征能够大大减少特征量,便于实现分类模型的训练,所需训练时间短,因而实现快速、高效的情感识别;
2)本发明基于DIS-NV特征的情感识别方法,结合基于长距离信息的BLSTM模型训练分类模型,可以同时在两个方向上训练LSTM,能够充分利用情感的时序信息,增强上下文敏感的序列处理,且BLSTM模型能够充分学习到DIS-NV特征所表示的情感信息,从而更加精确有效地预测单词中的情感信息,有效提高情感识别效果,同时基于DIS-NV特征,BLSTM分类模型的训练过程简单、训练效率高;
3)本发明基于DIS-NV特征的情感识别方法,在训练得到BLSTM分类模型后,进一步根据BLSTM分类模型与标准情感值之间的误差调整模型,能够进一步充分利用DIS-NV特征,构建得到高精度的分类模型,有效提高分类模型的精度。
附图说明
图1是本实施例基于DIS-NV特征的情感识别方法的实现流程示意图。
图2是本实施例DIS-NV特征值提取的详细流程示意图。
图3是LSTM模型的基本结构原理示意图。
图4是LSTM模型中记忆细胞的结构原理示意图。
图5是BRNN模型的结构原理示意图。
图6是本实施例获取BLSTM分类模型的实现流程示意图。
图7是本实施例进行情感识别的实现流程示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例基于DIS-NV特征的情感识别方法步骤包括:
S1.DIS-NV特征集构建:选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类,构建得到DIS-NV特征集。
情感可以影响大脑中的神经机制,从而影响情感处理和注意力,因而相比于LLD特征,基于知识的特征能够获得更好的预测性能。本实施例以具有不流利特性的情感词作为DIS特征词,以及具有非语言特性的发声类型作为NV特征类,基于DIS特征词、NV特征类的DIS-NV特征来识别说话人的情感状态,能够充分利用对话当中存在的不流利特性(DIS)、非语言特性(NV)的语音文本,实现准确的情感识别,且相比于传统的LLD特征,使用DIS-NV特征能够大大减少特征量,便于实现分类模型的训练,所需训练时间短,因而实现快速、高效的情感识别。
本实施例具体是基于单词级别的情感识别,即将语音文本中的每一个单词都看做一个数据样本。
本实施例首先构建DIS-NV特征集,DIS-NV特征集包括DIS特征词以及NV特征类,其中DIS特征词具体包括用于作为插入词且不包含带有含义词汇的非语言插入类词、用于作为插入词以保持连续性且包含带有含义词汇的语言插入类词以及具有重复使用特性的语言重复类词三种,具体为:①非语言插入类词即是一种不包含具体词汇的插入词,该类插入单词并没有实际的含义,但是包含有效的情感信息,因而可以利用该特征实现情感识别。例如在句子“Hmm...I don’t know how to do it.”中的单词“Hmm”,即可作为非语言插入类词,以及“em”,“eh”,“oh”等均可作为非语言插入类词。非语言插入类词具体可根据实际需求设定;②语言插入类词即是为了保持对话的连续性所使用的插入词,如当说话人没找到恰当地词描述时而使用的插入词,该类词同样能够表征说话人的情感状态,如“I thoughtI'd,you know,have a chat with you”中的“you know”,即可以作为语言插入类词,以及“well”,“you know”,“I mean”等均可作为语言类插入词;③语言重复类词是重复使用的词,该类词能够表征说话人在表达时的情感状态,如说话人会由于紧张等原因而不自觉地重复某些词或某些词的一部分,例如,在“Ma Maybe it will come true”中出现的“Ma”,即是语言重复类词。
本实施例DIS-NV特征集还包括填充词(如:like、I see)、停顿词(如:Err、Hmm)等,当然DIS特征词也可以根据实际需求采用上述非语言插入类词、语言插入类词以及语言重复类词中任意一种或多种的组合,还可以根据实际需求采用其他类日常生活中频繁使用的单词作为不流利特性的情感词以进一步提高识别效果。
呼吸声、笑声包含了说话人有效的情感信息,本实施例NV特征类具体包括呼吸声和笑声两种发声类型,还可以根据实际需求设定为其中一种,或者考虑其他类型的发声类型以进一步提高识别效果。呼吸声和笑声可使用语音文本中提供的对应呼吸声和笑声的标注词。
以AVEC2012数据库为例,本实施例上述DIS-NV特征集在AVEC2012数据库中出现的比例如表1所示,其中FP对应为非语言插入类词,FL对应为语言插入类词,ST为语言重复类词,LA为笑声,BR为呼吸声,从表中可以看出,数据库中包含大量的DIS-NV特征,基于该DIS-NV特征可有效表征情感状态。
表1:AVEC2012数据库中DIS-NV特征集存在的比例表。
本实施例DIS-NV特征仅需5个,相比于LLD特征,能够大大减少特征数量,从而减小分类模型的训练复杂度。
S2.情感分类模型训练:获取对应各类情感的训练语音文本,将各训练语音文本分别与DIS-NV特征集进行匹配,根据匹配结果提取得到对应的DIS-NV特征值,并基于双向时序信息采用BLSTM模型进行训练,得到BLSTM分类模型。
S21.DIS-NV特征值提取
本实施例训练语言文本具体来自AVEC2012数据库,AVEC2012作为一个自发型的语料库,包含24个人对应不同情感状态(开心、生气、沮丧等)的大量对话语音,数据库中还提供有每段对话对应的情感标签、时间、文本、音频等信息,数据库中提供有呼吸声、笑声的标注词,当然在其他实施例中还可以采用其他数据库,对数据库中使用标记词将各具有非语言特性的发声类型(如呼吸声、笑声等)进行标记,后续通过查找数据库中标记词与DIS-NV特征集中NV特征类进行匹配,得到所存在的NV特征类。本实施例具体使用AVEC2012语料库中单词级别的情感标签,AVEC2012语料库在激励-期望-支配-效价四维情感空间中进行标注,通过激励维度描述主体的主动性,越激烈的情感所对应的值越高;期望维度呈现的是说话人对该话题是否是可预料的,可以表达对该话题的关注程度;通过支配维度可以获取说话人在对话中的所处的身份信息;效价维度表达主体的感受,积极的情感对应着正向的情感值。
本实施例具体基于AVEC2012数据库,将数据库中训练集和发展集合并成一个训练集来训练分类模型。训练过程中,DIS-NV特征值的提取步骤为:获取待提取语音文本作为当前语音文本,依次读取当前语音文本中的每个词以及用于标记NV特征类的标记词,并分别与DIS-NV特征集中各DIS特征词、NV特征类进行匹配,若目标词匹配成功,获取目标词在当前语音文本中的持续时间,根据获取到的持续时间计算得到目标词对应的DIS-NV特征值;否则目标词对应的DIS-NV特征值为0。各语音文本中每个单词提取得到对应5个情感特征值的5个DIS-NV特征。
本实施例中,根据获取到的持续时间具体按照下式(1)计算得到对应的DIS-NV特征值;
Dd=td/Td (1)
其中,Dd为目标词d所对应的DIS-NV特征值;td为目标词d所对应的DIS-NV特征值持续时间,具体可根据单词对应的起始时间、结束时间计算得到;Td为目标词d所在整个句子的持续时间。
本实施例DIS-NV特征集具体使用5个列表分别存储与5个特征相关的单词,遍历与语音对应的文本文档并与列表中的词进行匹配,如果匹配成功,则使用上述式(1)计算对应的DIS-NV特征值;如果匹配失败,则对应的DIS-NV特征值为0。如图2所示,本实施例训练过程中提取DIS-NV特征值的详细流程为:
①开始执行DIS-NV特征值提取,设置i=1;
②读取当前训练语音文本中的第i个单词,将读取到的单词i与DIS-NV特征集进行匹配,查找DIS-NV特征集中是否存在与单词i匹配的单词,如果是,转入执行步骤③,否则将单词i对应的DIS-NV特征值Dd为0,转入执行步骤④;
③计算单词i对应的语音的持续时间td,以及单词i所在句子的持续时间Td,按照公式(1)计算得到单词i对应的DIS-NV特征值Dd;
④判断单词i是否为当前训练语音文本中的最后一个单词,如果是,结束当前训练语音文本的提取过程,否则i=i+1,转入执行步骤②。
由于每个句子之间的时间间隔是不确定的,无法直接计算所在整个句子的持续时间Td。本实施例中,DIS-NV特征值计算时,具体使用一个包含指定个词的移动窗依次移过待提取语音文本,将目标词d对应的移动窗内所有词的持续时间之和作为目标词d所在整个句子的持续时间。
由于通常在15个单词内说话人的情感状态几乎是保持一致的,因而选择移动窗的长度为15个单词。在具体应用实施例中,设定一个移动窗包含15个单词,对应表示一个句子,则一段语音文本中从第一个单词到第十五个单词的移动窗不变,即前15个单词有相同的Td值,从第十六个单词开始,移动窗每次移动一个单词,其中单词wi所在的句子的持续时间Td等于w(i-14)到wi之间的所有单词的时间和,其中i为单词在语音文本中的位置。移动窗的长度具体可根据说话人在对话中每个句子的平均长度进行设定。
本实施例中,将语音文本分别与DIS-NV特征集进行匹配时,具体预先构建具有字符串匹配功能的匹配模块,通过调用匹配模块进行匹配。匹配模块具体使用python编写的字符串匹配算法实现。为了进一步确保所有的结果的正确性,本实施例在通过匹配模块执行完匹配后,进一步进行检查验证,以消除错误识别为DIS特征词的情况,如将“bye bye”误认成语言重复,“well”在“It works well”中错误匹配为填充词等。
S21.情感分类模型训练
本实施例中,步骤S2中采用BLSTM模型对各训练语音文本提取到的DIS-NV特征值进行训练,得到BLSTM情感分类模型。BLSTM模型是结合BRNN(双向的RNN模型)与LSTM(长短期记忆网络)模型得到,LSTM是一个递归神经网络结构,该结构包含一个输入门、一个由自连接的记忆细胞组成的隐藏层和一个输出层。
如图3所示,对于一个给定的输入序列x=(x1,...,xT),T表示x输入的时间,序列x通过隐藏层得到一个新的序列h=(h1,...,hT),隐藏层产生的序列h将作为输出层(通常是一个激励函数)的输入,由输出层得到一个最终的结果y=(y1,...,yT)。对于给定的时刻t,整个过程的迭代方程如下:
(ht,ct)=H(xt,ht-1,ct-1) (2)
yt=Whyht+by (3)
其中t表示当前时刻,t-1表示紧邻的过去时刻,h表示隐藏层的输出,c表示细胞窗台,x是输入,y表示最终的输出结果。第一个函数表示当前的隐藏层的输出ht和当前的细胞状态ct是由当前的输入值x、过去的隐藏层的输出以及过去的细胞状态共同决定的;在第二个函数中,W和b是输出层的激励函数的参数,分别表示权重和偏置值。
隐藏层的LSTM细胞中每个细胞是由3个门组成,包括输入门、输出门和忘记门,LSTM记忆细胞的具体结构如图4所示,具体按照下列方程式执行处理:
ft=δ(Wxfxt+Whfht-1+bf) (4)
it=δ(Wxixt+Whiht-1+bi) (5)
ct=ftct-1+it tanh(Wxcxt+Whcht-1+bc) (6)
ot=δ(Wxoxt+Whoht-1+Wcoct-1+bo) (7)
ht=ot tanh(ct) (8)
其中式(4)为一个sigmoid激励函数,通过该函数可以选择丢弃一些无用的信息,在图中对应的sigmoid层即为忘记门;通过式(5)、(6)确定所需更新的数据以及所需存储的数据值,在图中对应的部分即为输入门;式(7)用于将旧的细胞状态ct-1更新到新的细胞状态ct,对应图中的输出门;通过式(8)计算隐藏层的输出。
由于具有上述特殊的门结构,LSTM-RNN能够将信息从细胞中移除或增加新的信息到细胞中,从而在避免长依赖性问题的同时充分利用到过去的信息。
BRNN模型则由两个隐藏层分别处理两个不同方向的信息,如图5所示,一个隐藏层计算从前往后的结果,另一个隐藏层计算从后往前的结果,在t时刻,最终的输出序列yt是由向前的和向后的共同决定的。对于某一时刻t,其迭代过程如下所示:
BLSTM模型结合了BRNN与LSTM的优势,可以在两个方向有效地利用长距离的上下文信息,在处理离线序列标注任务中非常有效。本实施例在采用上述DIS-NV特征的基础上,综合考虑DIS-NV特征及BLSTM模型的特性,使用能够充分利用序列信息以及适用于离线序列标注任务的BLSTM模型,对DIS-NV特征进行训练以得到情感分类模型。相比于传统的支持向量机、隐马尔科夫模型、条件随机域等传统的模型,本实施例结合基于长距离信息的BLSTM模型训练分类模型,可以同时在两个方向上训练LSTM(长短期记忆网络),能够充分利用情感的时序信息,增强上下文敏感的序列处理,且由于在对话的中情感是连续的、相关联的,相邻单词之间的情感并非是独立的,本实施例通过BLSTM的双向特性能够充分学习到DIS-NV特征所表示的情感信息,从而更加精确有效地预测单词中的情感信息,有效提高识别效果,同时DIS-NV的特征数量少,BLSTM分类模型的训练过程简单、训练效率高,能够充分利用DIS-NV特征进行训练,构建得到高精度的分类模型,实现高效的情感识别。BLSTM模型尤其适用于处理离线序列标注任务
本实施例中,步骤S2中得到情感分类模型后还包括情感分类模型调整步骤,具体步骤为:使用得到的BLSTM情感分类模型计算预测情感值,基于预先确定的模型损失函数将计算得到的预测情感值与标准情感值进行比较,根据比较结果调整BLSTM情感分类模型,输出最终的BLSTM情感分类模型。
本实施例中,BLSTM情感分类模型的模型损失函数具体采用均方误差,即通过计算预测情感值与标准情感值之间的均方误差,根据误差结果调整BLSTM情感分类模型。如图6所示,本实施例对训练数据库进行DIS-NV特征值提取,由提取到的DIS-NV特征值训练BLSTM分类模型,得到BLSTM分类模型后,通过BLSTM分类模型计算预测情感值,并计算与标注情感值之间的均方误差,根据误差值调整BLSTM分类模型,直至误差值在预设范围内。本实施例结合DIS-NV特征的特性,通过根据与标准情感值之间的误差调整BLSTM情感分类模型,能够进一步充分利用DIS-NV特征,进一步提高分类模型的精度。
本实施例具体使用Tensorflow工具来搭建BLSTM-RNN模型,其中在隐藏层,向前和向后的两个方向都设置16个LSTM记忆细胞,在隐藏层和输出层之间添加了一个dropout层,用来避免网络的过拟合问题,丢弃因子设为0.5,以及用Adam算法作为网络的优化器,学习率和动量因子分别设为0.01、0.8。
S3.语音情感识别:获取待识别语音文本,将待识别语音文本与DIS-NV特征词集进行匹配,根据匹配结果提取得到对应的DIS-NV特征值,并使用情感分类模型进行识别,输出情感识别结果。
本实施例中可以直接获取待识别语音文本进行识别,也可以获取待识别语音,转换为对应的语音文本后进行识别。
S31.特征提取
本实施例中,与上述训练语音文本提取DIS-NV特征值相同的,待识别语音文本的DIS-NV特征值的提取步骤为:获取待识别语音文本作为当前语音文本,依次读取当前语音文本中的每个词以及用于标记NV特征类的标记词,并分别与DIS-NV特征集中各DIS特征词、NV特征类进行匹配,若目标词或目标NV特征标记匹配成功,获取目标词或目标NV特征标记在当前语音文本中的持续时间,根据获取到的持续时间计算得到目标词或目标NV特征标记的DIS-NV特征值;否则目标词或目标NV特征标记对应的DIS-NV特征值为0。详细步骤如上S2以及图2所示。
S32.情感识别
如图7所示,本实施例执行识别或测试时,首先对待识别语音文本或测试语音文本进行DIS-NV特征提取,得到对应的DIS-NV特征值,其中待识别语音文本或测试语音文本中每个单词得到对应上述5类DIS-NV特征(非语言类插入词、语言类插入词、语言重复类词以及呼吸声、笑声)的5个DIS-NV特征值,将提取到的DIS-NV特征值输入值训练好的BLSTM分类模型中,输出预测的情感值,得到情感识别结果。
为验证本实施例上述方法的有效性,本实施例使用AVEC2012数据库测试集,分别采用传统的LLD+SVM方法(采用LLD特征、SVM分类模型的方法),LLD+LSTM(采用LLD特征、LSTM分类模型的方法)以及DIS-NV+LSTM方法(采用本实施例上述DIS-NV特征、LSTM分类模型的方法),以及本实施例上述方法(采用DIS-NV特征、BLSTM分类模型)进行情感识别测试,其中将连续的情感标注归一化到[-1,1],每个维度上的连续值分别离散化到单个类别中,其中类别0对应值的范围为[-1,-0.333],类别1对应值的范围为(-0.333,0.333),类别2对应值的范围为[0.333,1]。试验结果如表2所示,其中各测试结果为3个类的加权F值的结果,每个情感维度对应有一个结果,平均值列对应为四个维度的F值得非加权平均值。
表2:各类方法基于AVEC2012数据库的测试结果表。
特征+分类模型 | 激励(%) | 期望(%) | 支配(%) | 效价(%) | 平均值 |
LLD+SVM | 52.4 | 60.8 | 67.5 | 59.2 | 60.0 |
LLD+LSTM | 52.4 | 60.7 | 66.1 | 58.1 | 59.3 |
DIS-NV+LSTM | 54.1 | 65.8 | 68.3 | 60.1 | 62.0 |
DIS-NV+BLSTM | 77.0 | 78.0 | 71.9 | 77.0 | 76.0 |
由上述表2可知,相比于传统的LLD+SVM方法、LLD+LSTM方法以及DIS-NV+LSTM方法,本实施例结合DIS-NV特征和BLSTM模型的DIS-NV+BLSTM方法都具有更好的识别性能,能够实现精度更高的情感识别,能够有效提高情感识别的精确度,在AVEC2012语料库上的识别精度具体能够达到76%,与传统的LSTM+DIS-NV相结合的性能相比,能够提高14%。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。
Claims (9)
1.一种基于DIS-NV特征的情感识别方法,其特征在于,步骤包括:
S1.DIS-NV特征集构建:选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类,构建得到DIS-NV特征集;
S2.情感分类模型训练:获取对应各类情感的训练语音文本,将各所述训练语音文本分别与所述DIS-NV特征集进行匹配,根据匹配结果提取得到对应的DIS-NV特征值,并基于双向时序信息采用BLSTM模型进行训练,得到BLSTM分类模型;
S3.情感识别:获取待识别语音文本,将待识别语音文本与所述DIS-NV特征集进行匹配,根据匹配结果提取得到对应的DIS-NV特征值,并使用所述BLSTM分类模型进行识别,输出情感识别结果。
2.根据权利要求1所述的基于DIS-NV特征的情感识别方法,其特征在于,所述DIS-NV特征值的提取步骤为:获取待提取语音文本作为当前语音文本,依次读取当前语音文本中的每个词以及用于标记所述NV特征类的标记词,并分别与所述DIS-NV特征集中各所述DIS特征词、NV特征类进行匹配,若目标词匹配成功,获取目标词当前语音文本中的持续时间,根据获取到的持续时间计算得到目标词的DIS-NV特征值;否则目标词对应的所述DIS-NV特征值为0。
3.根据权利要求2所述的基于DIS-NV特征的情感识别方法,其特征在于:所述进行匹配具体预先构建具有字符串匹配功能的匹配模块,通过调用所述匹配模块进行匹配。
4.根据权利要求2所述的基于DIS-NV特征的情感识别方法,其特征在于:所述根据获取到的持续时间具体按照下式计算得到对应的DIS-NV特征值;
Dd=td/Td;
其中,Dd为目标词d所对应的DIS-NV特征值,td为目标词d对应语音的持续时间,Td为目标词d所在整个句子的持续时间。
5.根据权利要求4所述的基于DIS-NV特征的情感识别方法,其特征在于:所述DIS-NV特征值计算时,具体使用一个包含指定个词的移动窗依次移过待提取语音文本,计算所述目标词d所在的移动窗内所有词的持续时间之和,并作为所述目标词d所在整个句子的持续时间。
6.根据权利要求1~5中任意一项所述的基于DIS-NV特征的情感识别方法,其特征在于,所述步骤S2中得到BLSTM分类模型后还包括模型调整步骤,具体步骤为:使用得到的所述BLSTM情感分类模型计算预测情感值,基于预先确定的模型损失函数将计算得到的所述预测情感值与标准情感值进行比较,根据比较结果调整所述BLSTM情感分类模型,输出最终的BLSTM情感分类模型。
7.根据权利要求6所述的基于DIS-NV特征的情感识别方法,其特征在于:所述BLSTM情感分类模型的模型损失函数具体采用均方误差函数,即通过计算所述预测情感值与标准情感值之间的均方误差,根据误差结果调整所述BLSTM分类模型。
8.根据权利要求1~5中任意一项所述的基于DIS-NV特征的情感识别方法,其特征在于:所述DIS特征词具体包括用于作为插入词且为不带有含义的非语言插入类词、用于作为插入词且带有含义的语言插入类词以及具有重复使用特性的语言重复类词中一种或多种。
9.根据权利要求8所述的基于DIS-NV特征的情感识别方法,其特征在于:所述NV特征类包括呼吸声和/或笑声的发声类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710607464.2A CN107316654A (zh) | 2017-07-24 | 2017-07-24 | 基于dis‑nv特征的情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710607464.2A CN107316654A (zh) | 2017-07-24 | 2017-07-24 | 基于dis‑nv特征的情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107316654A true CN107316654A (zh) | 2017-11-03 |
Family
ID=60179013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710607464.2A Pending CN107316654A (zh) | 2017-07-24 | 2017-07-24 | 基于dis‑nv特征的情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107316654A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491490A (zh) * | 2017-07-19 | 2017-12-19 | 华东师范大学 | 基于情感中心的文本情感分类方法 |
CN107943974A (zh) * | 2017-11-28 | 2018-04-20 | 合肥工业大学 | 考虑情感的自动会话方法和系统 |
CN108364662A (zh) * | 2017-12-29 | 2018-08-03 | 中国科学院自动化研究所 | 基于成对鉴别任务的语音情感识别方法与系统 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108428382A (zh) * | 2018-02-14 | 2018-08-21 | 广东外语外贸大学 | 一种口语复述评分方法及系统 |
CN108519976A (zh) * | 2018-04-04 | 2018-09-11 | 郑州大学 | 基于神经网络生成大规模情感词典的方法 |
CN109190514A (zh) * | 2018-08-14 | 2019-01-11 | 电子科技大学 | 基于双向长短期记忆网络的人脸属性识别方法及系统 |
CN109243493A (zh) * | 2018-10-30 | 2019-01-18 | 南京工程学院 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN109871843A (zh) * | 2017-12-01 | 2019-06-11 | 北京搜狗科技发展有限公司 | 字符识别方法和装置、用于字符识别的装置 |
CN110019795A (zh) * | 2017-11-09 | 2019-07-16 | 普天信息技术有限公司 | 敏感词检测模型的训练方法和系统 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN111325095A (zh) * | 2020-01-19 | 2020-06-23 | 西安科技大学 | 基于声波信号的设备健康状态智能检测方法和系统 |
CN111930940A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014181524A1 (ja) * | 2013-05-09 | 2014-11-13 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
-
2017
- 2017-07-24 CN CN201710607464.2A patent/CN107316654A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014181524A1 (ja) * | 2013-05-09 | 2014-11-13 | ソフトバンクモバイル株式会社 | 会話処理システム及びプログラム |
CN106886516A (zh) * | 2017-02-27 | 2017-06-23 | 竹间智能科技(上海)有限公司 | 自动识别语句关系和实体的方法及装置 |
Non-Patent Citations (2)
Title |
---|
ANGELIKI METALLINOU ET AL.: "《Context-Sensitive Learning for Enhanced Audiovisual Emotion Classification》", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》 * |
LEIMIN TIAN ET AL.: "《Emotion recognition in spontaneous and acted dialogues》", 《2015 INTERNATIONAL CONFERENCE ON AFFECTIVE COMPUTING AND INTELLIGENT INTERACTION (ACII)》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491490B (zh) * | 2017-07-19 | 2020-10-13 | 华东师范大学 | 基于情感中心的文本情感分类方法 |
CN107491490A (zh) * | 2017-07-19 | 2017-12-19 | 华东师范大学 | 基于情感中心的文本情感分类方法 |
CN110019795A (zh) * | 2017-11-09 | 2019-07-16 | 普天信息技术有限公司 | 敏感词检测模型的训练方法和系统 |
CN107943974A (zh) * | 2017-11-28 | 2018-04-20 | 合肥工业大学 | 考虑情感的自动会话方法和系统 |
CN109871843A (zh) * | 2017-12-01 | 2019-06-11 | 北京搜狗科技发展有限公司 | 字符识别方法和装置、用于字符识别的装置 |
CN109871843B (zh) * | 2017-12-01 | 2022-04-08 | 北京搜狗科技发展有限公司 | 字符识别方法和装置、用于字符识别的装置 |
CN108364662A (zh) * | 2017-12-29 | 2018-08-03 | 中国科学院自动化研究所 | 基于成对鉴别任务的语音情感识别方法与系统 |
CN108363753A (zh) * | 2018-01-30 | 2018-08-03 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108363753B (zh) * | 2018-01-30 | 2020-05-19 | 南京邮电大学 | 评论文本情感分类模型训练与情感分类方法、装置及设备 |
CN108428382A (zh) * | 2018-02-14 | 2018-08-21 | 广东外语外贸大学 | 一种口语复述评分方法及系统 |
CN108519976A (zh) * | 2018-04-04 | 2018-09-11 | 郑州大学 | 基于神经网络生成大规模情感词典的方法 |
CN109190514A (zh) * | 2018-08-14 | 2019-01-11 | 电子科技大学 | 基于双向长短期记忆网络的人脸属性识别方法及系统 |
CN109190514B (zh) * | 2018-08-14 | 2021-10-01 | 电子科技大学 | 基于双向长短期记忆网络的人脸属性识别方法及系统 |
CN109243493A (zh) * | 2018-10-30 | 2019-01-18 | 南京工程学院 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
CN109243493B (zh) * | 2018-10-30 | 2022-09-16 | 南京工程学院 | 基于改进长短时记忆网络的婴儿哭声情感识别方法 |
CN109767788A (zh) * | 2019-02-25 | 2019-05-17 | 南京信息工程大学 | 一种基于lld和dss融合特征的语音情感识别方法 |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110728997A (zh) * | 2019-11-29 | 2020-01-24 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测方法和系统 |
CN110728997B (zh) * | 2019-11-29 | 2022-03-22 | 中国科学院深圳先进技术研究院 | 一种基于情景感知的多模态抑郁症检测系统 |
CN111325095A (zh) * | 2020-01-19 | 2020-06-23 | 西安科技大学 | 基于声波信号的设备健康状态智能检测方法和系统 |
CN111325095B (zh) * | 2020-01-19 | 2024-01-30 | 西安科技大学 | 基于声波信号的设备健康状态智能检测方法和系统 |
CN111930940A (zh) * | 2020-07-30 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN111930940B (zh) * | 2020-07-30 | 2024-04-16 | 腾讯科技(深圳)有限公司 | 一种文本情感分类方法、装置、电子设备及存储介质 |
CN113611286A (zh) * | 2021-10-08 | 2021-11-05 | 之江实验室 | 一种基于共性特征提取的跨语种语音情感识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107316654A (zh) | 基于dis‑nv特征的情感识别方法 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN110517663B (zh) | 一种语种识别方法及识别系统 | |
CN110083831A (zh) | 一种基于BERT-BiGRU-CRF的中文命名实体识别方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN110222163A (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN109637537B (zh) | 一种自动获取标注数据优化自定义唤醒模型的方法 | |
CN111145729B (zh) | 语音识别模型训练方法、系统、移动终端及存储介质 | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
Vu et al. | Multilingual multilayer perceptron for rapid language adaptation between and across language families. | |
Fayek et al. | On the Correlation and Transferability of Features Between Automatic Speech Recognition and Speech Emotion Recognition. | |
CN111144097B (zh) | 一种对话文本的情感倾向分类模型的建模方法和装置 | |
CN112784604A (zh) | 一种基于实体边界网络的实体链接方法 | |
KR20200105057A (ko) | 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법 | |
Yamamoto et al. | Multi-class composite N-gram language model | |
CN110992959A (zh) | 一种语音识别方法及系统 | |
CN110717341A (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN108877769A (zh) | 识别方言种类的方法和装置 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113609849A (zh) | 一种融合先验知识模型的蒙古语多模态细粒度情感分析方法 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171103 |