CN107316654A

CN107316654A - 基于dis‑nv特征的情感识别方法

Info

Publication number: CN107316654A
Application number: CN201710607464.2A
Authority: CN
Inventors: 赵欢; 周晓晓; 肖宇锋; 陈佐
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2017-11-03

Abstract

本发明公开一种基于DIS‑NV特征的情感识别方法，步骤包括：S1.选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类，构建得到DIS‑NV特征集；S2.获取训练语音文本，分别与DIS‑NV特征集进行匹配，提取对应的DIS‑NV特征值，并采用BLSTM模型进行训练，得到BLSTM分类模型；S3.获取待识别语音文本，将待识别语音文本与DIS‑NV特征集进行匹配，提取对应的DIS‑NV特征值，并使用BLSTM分类模型进行识别，输出情感识别结果。本发明能够充分利用不流利、非语言特性的语音文本实现情感识别，且具有实现方法简单、识别效率以及精度高等优点。

Description

基于DIS-NV特征的情感识别方法

技术领域

本发明涉及自动情感识别技术领域，尤其涉及一种基于DIS-NV特征的情感识别方法。

背景技术

情感识别即是识别对话中的情感信息，以判别说话人的情感状态，通过情感的自动识别可以实现更为良好的人机交互，如人机交流、会话代理等。目前情感识别通常都是基于一个类别的处理方法，即认为在大脑中存在几种基本的比较普遍的情感，如包括：高兴、悲伤、惊喜、害怕、生气、厌恶六大类情感，但是说话人情感状态通常较为复杂，单一的情感表情或者有限的离散类别通常难以恰当地描述该复杂的情感状态，一种解决方法即是通过在多维空间中的连续情感标签(即维度情感)来代替分类的情感，如由一个由效价(描述情感的积极和消极程度)和激励(描述了情感的激烈程度)组成的两维的情感空间，在各种连续情感模型中，描述最丰富的一个情感模型是一个四维的情感空间：效价、激励、支配度(在对话中所表达的主导程度)以及期望值(描述期望以及意外程度)。为了简化维度情感识别的过程，同时充分利用到已经逐渐成熟的基于分类的情感识别的成果，有从业者将连续情感标签量化到有限的离散类中，将连续的预测问题转化成一个二分类识别问题(积极vs.消极)，或者四类的识别问题等。

现有技术中，上述各类情感识别方法所使用的情感模型各不相同，但使用的音频特征通常都是低级别描述符(LLD)，包括如：与能量相关的特征、基频特征、共振峰特征、线性预测系数以及梅尔倒谱系数等的声学特征，再将统计函数应用到上述特征以及上述特征的delta系数上，形成最终的情感特征；目前各种数据库也均是使用上述几种LLDs特征，例如AVEC2012语料库是使用能量、频谱、声音相关作为LLD特征，而IEMOCAP语料库中使用的LLD特征主要包含了能量、频谱以及与基频相关的信息。LLD特征的数量均非常大，基本在1000到2000之间，一方面，针对大量特征值的情感识别模型训练，训练难度大、所需训练时间长，使得识别效率低；另一方面，特征数量过多还会在一定程度上会带来大量的信息冗余，特征之间的依赖关系也难以有效控制，从而影响训练的情感识别模型的精度。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种明能够充分利用不流利、非语言特性的语音文本实现情感识别，且具有实现方法简单、识别效率以及精度高的基于DIS-NV特征的情感识别方法。

为解决上述技术问题，本发明提出的技术方案为：

一种基于DIS-NV特征的情感识别方法，步骤包括：

S1.DIS-NV特征集构建：选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类，构建得到DIS-NV特征集；

S2.情感分类模型训练：获取对应各类情感的训练语音文本，将各所述训练语音文本分别与所述DIS-NV特征集进行匹配，根据匹配结果提取得到对应的DIS-NV特征值，并基于双向时序信息采用BLSTM模型进行训练，得到BLSTM(Bidirectional Long short termmemory，双向长短期记忆网络)分类模型；

S3.情感识别：获取待识别语音文本，将待识别语音文本与所述DIS-NV特征集进行匹配，根据匹配结果提取得到对应的DIS-NV特征值，并使用所述BLSTM分类模型进行识别，输出情感识别结果。

作为本发明的进一步改进，所述DIS-NV特征值的提取步骤为：获取待提取语音文本作为当前语音文本，依次读取当前语音文本中的每个词以及用于标记所述NV特征类的标记词，并分别与所述DIS-NV特征集中各所述DIS特征词、NV特征类进行匹配，若目标词匹配成功，获取目标词在当前语音文本中的持续时间，根据获取到的持续时间计算得到目标词的DIS-NV特征值；否则目标词对应的所述DIS-NV特征值为0。

作为本发明的进一步改进：所述进行匹配具体预先构建具有字符串匹配功能的匹配模块，通过调用所述匹配模块进行匹配。

作为本发明的进一步改进：所述根据获取到的持续时间具体按照下式计算得到对应的DIS-NV特征值；

D_d＝t_d/T_d；

其中，D_d为目标特征词d所对应的DIS-NV特征值，t_d为目标特征词d对应语音的持续时间，T_d为目标特征词d所在整个句子的持续时间。

作为本发明的进一步改进：所述DIS-NV特征值计算时，具体使用一个包含指定个词的移动窗依次移过待提取语音文本，计算所述目标词d所在的移动窗内所有词的持续时间之和，并作为所述目标词d所在整个句子的持续时间。

作为本发明的进一步改进，所述步骤S2中得到BLSTM分类模型后还包括模型调整步骤，具体步骤为：使用得到的所述BLSTM情感分类模型计算预测情感值，基于预先确定的模型损失函数将计算得到的所述预测情感值与标准情感值进行比较，根据比较结果调整所述BLSTM情感分类模型，输出最终的BLSTM情感分类模型。

作为本发明的进一步改进：所述BLSTM情感分类模型的模型损失函数具体采用均方误差函数，即通过计算所述预测情感值与标准情感值之间的均方误差，根据误差结果调整所述BLSTM分类模型。

作为本发明的进一步改进：所述DIS特征词具体包括用于作为插入词且为不带有含义的非语言插入类词、用于作为插入词且带有含义的语言插入类词以及具有重复使用特性的语言重复类词中一种或多种。

作为本发明的进一步改进：所述NV特征类包括呼吸声和/或笑声的发声类型。

与现有技术相比，本发明的优点在于：

1)本发明基于DIS-NV特征的情感识别方法，以具有不流利特性的情感词作为DIS特征词，以及具有非语言特性的发声类型作为NV特征类，基于DIS特征词、NV特征类的DIS-NV特征来识别说话人的情感状态，能够充分利用对话当中存在的不流利特性、非语言特性的语音文本，实现准确的情感识别，且使用DIS-NV特征能够大大减少特征量，便于实现分类模型的训练，所需训练时间短，因而实现快速、高效的情感识别；

2)本发明基于DIS-NV特征的情感识别方法，结合基于长距离信息的BLSTM模型训练分类模型，可以同时在两个方向上训练LSTM，能够充分利用情感的时序信息，增强上下文敏感的序列处理，且BLSTM模型能够充分学习到DIS-NV特征所表示的情感信息，从而更加精确有效地预测单词中的情感信息，有效提高情感识别效果，同时基于DIS-NV特征，BLSTM分类模型的训练过程简单、训练效率高；

3)本发明基于DIS-NV特征的情感识别方法，在训练得到BLSTM分类模型后，进一步根据BLSTM分类模型与标准情感值之间的误差调整模型，能够进一步充分利用DIS-NV特征，构建得到高精度的分类模型，有效提高分类模型的精度。

附图说明

图1是本实施例基于DIS-NV特征的情感识别方法的实现流程示意图。

图2是本实施例DIS-NV特征值提取的详细流程示意图。

图3是LSTM模型的基本结构原理示意图。

图4是LSTM模型中记忆细胞的结构原理示意图。

图5是BRNN模型的结构原理示意图。

图6是本实施例获取BLSTM分类模型的实现流程示意图。

图7是本实施例进行情感识别的实现流程示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例基于DIS-NV特征的情感识别方法步骤包括：

S1.DIS-NV特征集构建：选取具有不流利特性的情感词作为DIS特征词、以及具有非语言特性的发声类型作为NV特征类，构建得到DIS-NV特征集。

情感可以影响大脑中的神经机制，从而影响情感处理和注意力，因而相比于LLD特征，基于知识的特征能够获得更好的预测性能。本实施例以具有不流利特性的情感词作为DIS特征词，以及具有非语言特性的发声类型作为NV特征类，基于DIS特征词、NV特征类的DIS-NV特征来识别说话人的情感状态，能够充分利用对话当中存在的不流利特性(DIS)、非语言特性(NV)的语音文本，实现准确的情感识别，且相比于传统的LLD特征，使用DIS-NV特征能够大大减少特征量，便于实现分类模型的训练，所需训练时间短，因而实现快速、高效的情感识别。

本实施例具体是基于单词级别的情感识别，即将语音文本中的每一个单词都看做一个数据样本。

本实施例首先构建DIS-NV特征集，DIS-NV特征集包括DIS特征词以及NV特征类，其中DIS特征词具体包括用于作为插入词且不包含带有含义词汇的非语言插入类词、用于作为插入词以保持连续性且包含带有含义词汇的语言插入类词以及具有重复使用特性的语言重复类词三种，具体为：①非语言插入类词即是一种不包含具体词汇的插入词，该类插入单词并没有实际的含义，但是包含有效的情感信息，因而可以利用该特征实现情感识别。例如在句子“Hmm...I don’t know how to do it.”中的单词“Hmm”，即可作为非语言插入类词，以及“em”，“eh”，“oh”等均可作为非语言插入类词。非语言插入类词具体可根据实际需求设定；②语言插入类词即是为了保持对话的连续性所使用的插入词，如当说话人没找到恰当地词描述时而使用的插入词，该类词同样能够表征说话人的情感状态，如“I thoughtI'd,you know,have a chat with you”中的“you know”，即可以作为语言插入类词，以及“well”，“you know”，“I mean”等均可作为语言类插入词；③语言重复类词是重复使用的词，该类词能够表征说话人在表达时的情感状态，如说话人会由于紧张等原因而不自觉地重复某些词或某些词的一部分，例如，在“Ma Maybe it will come true”中出现的“Ma”，即是语言重复类词。

本实施例DIS-NV特征集还包括填充词(如：like、I see)、停顿词(如：Err、Hmm)等，当然DIS特征词也可以根据实际需求采用上述非语言插入类词、语言插入类词以及语言重复类词中任意一种或多种的组合，还可以根据实际需求采用其他类日常生活中频繁使用的单词作为不流利特性的情感词以进一步提高识别效果。

呼吸声、笑声包含了说话人有效的情感信息，本实施例NV特征类具体包括呼吸声和笑声两种发声类型，还可以根据实际需求设定为其中一种，或者考虑其他类型的发声类型以进一步提高识别效果。呼吸声和笑声可使用语音文本中提供的对应呼吸声和笑声的标注词。

以AVEC2012数据库为例，本实施例上述DIS-NV特征集在AVEC2012数据库中出现的比例如表1所示，其中FP对应为非语言插入类词，FL对应为语言插入类词，ST为语言重复类词，LA为笑声，BR为呼吸声，从表中可以看出，数据库中包含大量的DIS-NV特征，基于该DIS-NV特征可有效表征情感状态。

表1：AVEC2012数据库中DIS-NV特征集存在的比例表。

本实施例DIS-NV特征仅需5个，相比于LLD特征，能够大大减少特征数量，从而减小分类模型的训练复杂度。

S2.情感分类模型训练：获取对应各类情感的训练语音文本，将各训练语音文本分别与DIS-NV特征集进行匹配，根据匹配结果提取得到对应的DIS-NV特征值，并基于双向时序信息采用BLSTM模型进行训练，得到BLSTM分类模型。

S21.DIS-NV特征值提取

本实施例训练语言文本具体来自AVEC2012数据库，AVEC2012作为一个自发型的语料库，包含24个人对应不同情感状态(开心、生气、沮丧等)的大量对话语音，数据库中还提供有每段对话对应的情感标签、时间、文本、音频等信息，数据库中提供有呼吸声、笑声的标注词，当然在其他实施例中还可以采用其他数据库，对数据库中使用标记词将各具有非语言特性的发声类型(如呼吸声、笑声等)进行标记，后续通过查找数据库中标记词与DIS-NV特征集中NV特征类进行匹配，得到所存在的NV特征类。本实施例具体使用AVEC2012语料库中单词级别的情感标签，AVEC2012语料库在激励-期望-支配-效价四维情感空间中进行标注，通过激励维度描述主体的主动性，越激烈的情感所对应的值越高；期望维度呈现的是说话人对该话题是否是可预料的，可以表达对该话题的关注程度；通过支配维度可以获取说话人在对话中的所处的身份信息；效价维度表达主体的感受，积极的情感对应着正向的情感值。

本实施例具体基于AVEC2012数据库，将数据库中训练集和发展集合并成一个训练集来训练分类模型。训练过程中，DIS-NV特征值的提取步骤为：获取待提取语音文本作为当前语音文本，依次读取当前语音文本中的每个词以及用于标记NV特征类的标记词，并分别与DIS-NV特征集中各DIS特征词、NV特征类进行匹配，若目标词匹配成功，获取目标词在当前语音文本中的持续时间，根据获取到的持续时间计算得到目标词对应的DIS-NV特征值；否则目标词对应的DIS-NV特征值为0。各语音文本中每个单词提取得到对应5个情感特征值的5个DIS-NV特征。

本实施例中，根据获取到的持续时间具体按照下式(1)计算得到对应的DIS-NV特征值；

D_d＝t_d/T_d (1)

其中，D_d为目标词d所对应的DIS-NV特征值；t_d为目标词d所对应的DIS-NV特征值持续时间，具体可根据单词对应的起始时间、结束时间计算得到；T_d为目标词d所在整个句子的持续时间。

本实施例DIS-NV特征集具体使用5个列表分别存储与5个特征相关的单词，遍历与语音对应的文本文档并与列表中的词进行匹配，如果匹配成功，则使用上述式(1)计算对应的DIS-NV特征值；如果匹配失败，则对应的DIS-NV特征值为0。如图2所示，本实施例训练过程中提取DIS-NV特征值的详细流程为：

①开始执行DIS-NV特征值提取，设置i＝1；

②读取当前训练语音文本中的第i个单词，将读取到的单词i与DIS-NV特征集进行匹配，查找DIS-NV特征集中是否存在与单词i匹配的单词，如果是，转入执行步骤③，否则将单词i对应的DIS-NV特征值D_d为0，转入执行步骤④；

③计算单词i对应的语音的持续时间t_d，以及单词i所在句子的持续时间T_d，按照公式(1)计算得到单词i对应的DIS-NV特征值D_d；

④判断单词i是否为当前训练语音文本中的最后一个单词，如果是，结束当前训练语音文本的提取过程，否则i＝i+1，转入执行步骤②。

由于每个句子之间的时间间隔是不确定的，无法直接计算所在整个句子的持续时间T_d。本实施例中，DIS-NV特征值计算时，具体使用一个包含指定个词的移动窗依次移过待提取语音文本，将目标词d对应的移动窗内所有词的持续时间之和作为目标词d所在整个句子的持续时间。

由于通常在15个单词内说话人的情感状态几乎是保持一致的，因而选择移动窗的长度为15个单词。在具体应用实施例中，设定一个移动窗包含15个单词，对应表示一个句子，则一段语音文本中从第一个单词到第十五个单词的移动窗不变，即前15个单词有相同的Td值，从第十六个单词开始，移动窗每次移动一个单词，其中单词wi所在的句子的持续时间Td等于w(i-14)到wi之间的所有单词的时间和，其中i为单词在语音文本中的位置。移动窗的长度具体可根据说话人在对话中每个句子的平均长度进行设定。

本实施例中，将语音文本分别与DIS-NV特征集进行匹配时，具体预先构建具有字符串匹配功能的匹配模块，通过调用匹配模块进行匹配。匹配模块具体使用python编写的字符串匹配算法实现。为了进一步确保所有的结果的正确性，本实施例在通过匹配模块执行完匹配后，进一步进行检查验证，以消除错误识别为DIS特征词的情况，如将“bye bye”误认成语言重复，“well”在“It works well”中错误匹配为填充词等。

S21.情感分类模型训练

本实施例中，步骤S2中采用BLSTM模型对各训练语音文本提取到的DIS-NV特征值进行训练，得到BLSTM情感分类模型。BLSTM模型是结合BRNN(双向的RNN模型)与LSTM(长短期记忆网络)模型得到，LSTM是一个递归神经网络结构，该结构包含一个输入门、一个由自连接的记忆细胞组成的隐藏层和一个输出层。

如图3所示，对于一个给定的输入序列x＝(x₁,...,x_T)，T表示x输入的时间，序列x通过隐藏层得到一个新的序列h＝(h₁,...,h_T)，隐藏层产生的序列h将作为输出层(通常是一个激励函数)的输入，由输出层得到一个最终的结果y＝(y₁,...,y_T)。对于给定的时刻t，整个过程的迭代方程如下：

(h_t,c_t)＝H(x_t,h_t-1,c_t-1) (2)

y_t＝W_hyh_t+b_y (3)

其中t表示当前时刻，t-1表示紧邻的过去时刻，h表示隐藏层的输出，c表示细胞窗台，x是输入，y表示最终的输出结果。第一个函数表示当前的隐藏层的输出ht和当前的细胞状态ct是由当前的输入值x、过去的隐藏层的输出以及过去的细胞状态共同决定的；在第二个函数中，W和b是输出层的激励函数的参数，分别表示权重和偏置值。

隐藏层的LSTM细胞中每个细胞是由3个门组成，包括输入门、输出门和忘记门，LSTM记忆细胞的具体结构如图4所示，具体按照下列方程式执行处理：

f_t＝δ(W_xfx_t+W_hfh_t-1+b_f) (4)

i_t＝δ(W_xix_t+W_hih_t-1+b_i) (5)

c_t＝f_tc_t-1+i_t tanh(W_xcx_t+W_hch_t-1+b_c) (6)

o_t＝δ(W_xox_t+W_hoh_t-1+W_coc_t-1+b_o) (7)

h_t＝o_t tanh(c_t) (8)

其中式(4)为一个sigmoid激励函数，通过该函数可以选择丢弃一些无用的信息，在图中对应的sigmoid层即为忘记门；通过式(5)、(6)确定所需更新的数据以及所需存储的数据值，在图中对应的部分即为输入门；式(7)用于将旧的细胞状态c_t-1更新到新的细胞状态c_t，对应图中的输出门；通过式(8)计算隐藏层的输出。

由于具有上述特殊的门结构，LSTM-RNN能够将信息从细胞中移除或增加新的信息到细胞中，从而在避免长依赖性问题的同时充分利用到过去的信息。

BRNN模型则由两个隐藏层分别处理两个不同方向的信息，如图5所示，一个隐藏层计算从前往后的结果，另一个隐藏层计算从后往前的结果，在t时刻，最终的输出序列yt是由向前的和向后的共同决定的。对于某一时刻t，其迭代过程如下所示：

BLSTM模型结合了BRNN与LSTM的优势，可以在两个方向有效地利用长距离的上下文信息，在处理离线序列标注任务中非常有效。本实施例在采用上述DIS-NV特征的基础上，综合考虑DIS-NV特征及BLSTM模型的特性，使用能够充分利用序列信息以及适用于离线序列标注任务的BLSTM模型，对DIS-NV特征进行训练以得到情感分类模型。相比于传统的支持向量机、隐马尔科夫模型、条件随机域等传统的模型，本实施例结合基于长距离信息的BLSTM模型训练分类模型，可以同时在两个方向上训练LSTM(长短期记忆网络)，能够充分利用情感的时序信息，增强上下文敏感的序列处理，且由于在对话的中情感是连续的、相关联的，相邻单词之间的情感并非是独立的，本实施例通过BLSTM的双向特性能够充分学习到DIS-NV特征所表示的情感信息，从而更加精确有效地预测单词中的情感信息，有效提高识别效果，同时DIS-NV的特征数量少，BLSTM分类模型的训练过程简单、训练效率高，能够充分利用DIS-NV特征进行训练，构建得到高精度的分类模型，实现高效的情感识别。BLSTM模型尤其适用于处理离线序列标注任务

本实施例中，步骤S2中得到情感分类模型后还包括情感分类模型调整步骤，具体步骤为：使用得到的BLSTM情感分类模型计算预测情感值，基于预先确定的模型损失函数将计算得到的预测情感值与标准情感值进行比较，根据比较结果调整BLSTM情感分类模型，输出最终的BLSTM情感分类模型。

本实施例中，BLSTM情感分类模型的模型损失函数具体采用均方误差，即通过计算预测情感值与标准情感值之间的均方误差，根据误差结果调整BLSTM情感分类模型。如图6所示，本实施例对训练数据库进行DIS-NV特征值提取，由提取到的DIS-NV特征值训练BLSTM分类模型，得到BLSTM分类模型后，通过BLSTM分类模型计算预测情感值，并计算与标注情感值之间的均方误差，根据误差值调整BLSTM分类模型，直至误差值在预设范围内。本实施例结合DIS-NV特征的特性，通过根据与标准情感值之间的误差调整BLSTM情感分类模型，能够进一步充分利用DIS-NV特征，进一步提高分类模型的精度。

本实施例具体使用Tensorflow工具来搭建BLSTM-RNN模型，其中在隐藏层，向前和向后的两个方向都设置16个LSTM记忆细胞，在隐藏层和输出层之间添加了一个dropout层，用来避免网络的过拟合问题，丢弃因子设为0.5，以及用Adam算法作为网络的优化器，学习率和动量因子分别设为0.01、0.8。

S3.语音情感识别：获取待识别语音文本，将待识别语音文本与DIS-NV特征词集进行匹配，根据匹配结果提取得到对应的DIS-NV特征值，并使用情感分类模型进行识别，输出情感识别结果。

本实施例中可以直接获取待识别语音文本进行识别，也可以获取待识别语音，转换为对应的语音文本后进行识别。

S31.特征提取

本实施例中，与上述训练语音文本提取DIS-NV特征值相同的，待识别语音文本的DIS-NV特征值的提取步骤为：获取待识别语音文本作为当前语音文本，依次读取当前语音文本中的每个词以及用于标记NV特征类的标记词，并分别与DIS-NV特征集中各DIS特征词、NV特征类进行匹配，若目标词或目标NV特征标记匹配成功，获取目标词或目标NV特征标记在当前语音文本中的持续时间，根据获取到的持续时间计算得到目标词或目标NV特征标记的DIS-NV特征值；否则目标词或目标NV特征标记对应的DIS-NV特征值为0。详细步骤如上S2以及图2所示。

S32.情感识别

如图7所示，本实施例执行识别或测试时，首先对待识别语音文本或测试语音文本进行DIS-NV特征提取，得到对应的DIS-NV特征值，其中待识别语音文本或测试语音文本中每个单词得到对应上述5类DIS-NV特征(非语言类插入词、语言类插入词、语言重复类词以及呼吸声、笑声)的5个DIS-NV特征值，将提取到的DIS-NV特征值输入值训练好的BLSTM分类模型中，输出预测的情感值，得到情感识别结果。

为验证本实施例上述方法的有效性，本实施例使用AVEC2012数据库测试集，分别采用传统的LLD+SVM方法(采用LLD特征、SVM分类模型的方法)，LLD+LSTM(采用LLD特征、LSTM分类模型的方法)以及DIS-NV+LSTM方法(采用本实施例上述DIS-NV特征、LSTM分类模型的方法)，以及本实施例上述方法(采用DIS-NV特征、BLSTM分类模型)进行情感识别测试，其中将连续的情感标注归一化到[-1,1]，每个维度上的连续值分别离散化到单个类别中，其中类别0对应值的范围为[-1,-0.333]，类别1对应值的范围为(-0.333,0.333)，类别2对应值的范围为[0.333,1]。试验结果如表2所示，其中各测试结果为3个类的加权F值的结果，每个情感维度对应有一个结果，平均值列对应为四个维度的F值得非加权平均值。

表2：各类方法基于AVEC2012数据库的测试结果表。

特征+分类模型	激励(％)	期望(％)	支配(％)	效价(％)	平均值
						LLD+SVM	52.4	60.8	67.5	59.2	60.0
LLD+LSTM	52.4	60.7	66.1	58.1	59.3
						DIS-NV+LSTM	54.1	65.8	68.3	60.1	62.0
DIS-NV+BLSTM	77.0	78.0	71.9	77.0	76.0

由上述表2可知，相比于传统的LLD+SVM方法、LLD+LSTM方法以及DIS-NV+LSTM方法，本实施例结合DIS-NV特征和BLSTM模型的DIS-NV+BLSTM方法都具有更好的识别性能，能够实现精度更高的情感识别，能够有效提高情感识别的精确度，在AVEC2012语料库上的识别精度具体能够达到76％，与传统的LSTM+DIS-NV相结合的性能相比，能够提高14％。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于DIS-NV特征的情感识别方法，其特征在于，步骤包括：

S2.情感分类模型训练：获取对应各类情感的训练语音文本，将各所述训练语音文本分别与所述DIS-NV特征集进行匹配，根据匹配结果提取得到对应的DIS-NV特征值，并基于双向时序信息采用BLSTM模型进行训练，得到BLSTM分类模型；

2.根据权利要求1所述的基于DIS-NV特征的情感识别方法，其特征在于，所述DIS-NV特征值的提取步骤为：获取待提取语音文本作为当前语音文本，依次读取当前语音文本中的每个词以及用于标记所述NV特征类的标记词，并分别与所述DIS-NV特征集中各所述DIS特征词、NV特征类进行匹配，若目标词匹配成功，获取目标词当前语音文本中的持续时间，根据获取到的持续时间计算得到目标词的DIS-NV特征值；否则目标词对应的所述DIS-NV特征值为0。

3.根据权利要求2所述的基于DIS-NV特征的情感识别方法，其特征在于：所述进行匹配具体预先构建具有字符串匹配功能的匹配模块，通过调用所述匹配模块进行匹配。

4.根据权利要求2所述的基于DIS-NV特征的情感识别方法，其特征在于：所述根据获取到的持续时间具体按照下式计算得到对应的DIS-NV特征值；

D_d＝t_d/T_d；

其中，D_d为目标词d所对应的DIS-NV特征值，t_d为目标词d对应语音的持续时间，T_d为目标词d所在整个句子的持续时间。

5.根据权利要求4所述的基于DIS-NV特征的情感识别方法，其特征在于：所述DIS-NV特征值计算时，具体使用一个包含指定个词的移动窗依次移过待提取语音文本，计算所述目标词d所在的移动窗内所有词的持续时间之和，并作为所述目标词d所在整个句子的持续时间。

6.根据权利要求1～5中任意一项所述的基于DIS-NV特征的情感识别方法，其特征在于，所述步骤S2中得到BLSTM分类模型后还包括模型调整步骤，具体步骤为：使用得到的所述BLSTM情感分类模型计算预测情感值，基于预先确定的模型损失函数将计算得到的所述预测情感值与标准情感值进行比较，根据比较结果调整所述BLSTM情感分类模型，输出最终的BLSTM情感分类模型。

7.根据权利要求6所述的基于DIS-NV特征的情感识别方法，其特征在于：所述BLSTM情感分类模型的模型损失函数具体采用均方误差函数，即通过计算所述预测情感值与标准情感值之间的均方误差，根据误差结果调整所述BLSTM分类模型。

8.根据权利要求1～5中任意一项所述的基于DIS-NV特征的情感识别方法，其特征在于：所述DIS特征词具体包括用于作为插入词且为不带有含义的非语言插入类词、用于作为插入词且带有含义的语言插入类词以及具有重复使用特性的语言重复类词中一种或多种。

9.根据权利要求8所述的基于DIS-NV特征的情感识别方法，其特征在于：所述NV特征类包括呼吸声和/或笑声的发声类型。