CN108564942A

CN108564942A - 一种基于敏感度可调的语音情感识别方法及系统

Info

Publication number: CN108564942A
Application number: CN201810305527.3A
Authority: CN
Inventors: 王蔚; 冯亚琴
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2018-09-21
Anticipated expiration: 2038-04-04
Also published as: CN108564942B

Abstract

本发明公开了一种基于敏感度可调的语音情感识别方法及系统，该方法及系统首先接收用户的输入语音信号，利用语音识别软件对语音信号进行文本识别，建立语音信号特征矢量和文本特征矢量；将语音特征矢量和文本特征矢量分别输入语音情感识别模型和文本情感识别模型中进行识别，判断此语音对应的四种情感的类别概率；用户可以调整四种情感判断的加权值；由融合决策层根据情感感知敏感度加权的四类情感概率得到最终识别结果，实现了情感敏感度可调的情感识别。本发明可为人机交互、情感管理和情感计算带来新的解决方案和应用方法。

Description

一种基于敏感度可调的语音情感识别方法及系统

技术领域

本发明属于语音识别领域，尤其涉及一种基于敏感度可调的语音情感识别方法及系统。

背景技术

情感是人类交流手段的一种常见的表达方式，在人机交互中起着重要的作用。语音作为人类最直接的交流手段，其本身能传递丰富的情感信息，已被成功用于情感的自动识别中。尽管语音情感识别取得了可应用性的成果，但不同的情感对人类交流和反应有着不同重要性，人类在识别不同情感变化时有着不同的敏感度，例如语气中情感的愤怒、悲伤等特殊情感出现时的敏感觉察对有效的交际有着重要的意义。目前的语音情感识别系统一般采用识别错误率最小的决策方式，可以保证整体识别准确率最高，但对敏感情感识别率难以达到要求，而在很多情境下特殊情感如愤怒、开心等的变化对人与人的交往很重要。

现有的语音情感识别方法，主要包括语音特征表示和分类器结构的方法。语音信息本身包含丰富的情感信息，但并不是情感的全部信息，并且音频信号本身存在一些固有缺陷，如信号弱、噪声强等，从单一的语音模型识别情感并不全面。多模态的融合是利用文本、生理信号、面部表情等多个通道的情感信息互补性提高分类器的识别性能，从而提高识别分类器的准确度。不同通道的信息对不同情绪有不同的区别作用，研究表明语音通道对情感强度有较丰富的信息，文本通道包含更敏感的正负情感区分信息。所以，在现有语音情感识别的基础上，将语音与文本两通道的信息融合，在语音情感识别中增加对特殊情感敏感识别功能是人工智能中类人情感交互的亟待解决的问题。

发明内容

发明目的：针对以上存在问题和不足，本发明提出一种基于敏感度可调的语音情感识别方法及系统，该方法及系统可以将语音与文本两通道的信息融合，通过设置情感的敏感度权值，得到不同情感的概率值。

技术方案：为实现本发明的上述目的，本发明所采用的技术方案是：一种基于敏感度可调的语音情感识别方法，包括如下步骤：

(1.1)接收用户语音信号，提取语音的声学特征矢量；

(1.2)将语音信号转换为文本信息，获取语音的文本特征矢量；

(1.3)将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中，分别得到不同情感的概率值；

(1.4)设置不同情感的权值，得到语音情感的最终判断识别结果。

其中，所述情感包括高兴、生气、悲伤和平静。

其中，在步骤(1)中，使用如下方法提取语音的声学特征矢量：

(1.1)将音频分割为帧，对每个语音句子提取帧级的低层次声学特征；

(1.2)应用全局统计函数，将每个语音句子的每一组时长不等的基础声学特征转化为等长的静态特征，得到多维度声学特征矢量。

其中，在步骤(2)中，使用如下方法获取文本信息的文本特征矢量：

(2.1)利用文本数据集对不同种情感分别进行词频与逆词频统计；

(2.2)根据统计结果，每种情感选取前N个词，合并去除重复词后形成去除重复词，合并成基本词汇表；

(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现，出现为1，不出现为0，得到语音文本特征矢量。

其中，在步骤(3)中，使用如下神经网络结构分别训练声音数据集和文本数据集得到所述语音情感识别模型和文本情感识别模型：

a)分类器结构为两个卷积层加上一个全连接层，第一层使用卷积核数目采用32个；第二层卷积层采用64个卷积核，两层都采用一维的卷积层，卷积核的窗长度为10，卷积步长为1，补零策略采用“same”，保留边界处的卷积结果；

b)第一、第二层的激活函数采用“relu”函数，训练的dropoutrate变量设置为0.2以防止过拟合；

c)池化层采用最大值池化方式，池化窗口大小设为2，下采样因子设为2，补零策略采用“same”，保留边界处的卷积结果；

d)最后的全连接层选用softmax激活函数对以上所有的dropout层的输出进行回归得到每类的输出概率。

其中，在步骤(4)中，得到不同情感的判断结果的方法如下：

(4.1)通过语音情感识别模型对语音信号进行处理，得到高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM；

(4.2)通过文本情感识别模型对语音信号进行处理，得到高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM；

(4.3)设置高兴的权值PH、生气的权值PA、悲伤的权值PS和平静的权值PM；

(4.4)通过下述公式计算情感的判断识别结果E：

E＝Max((SH+TH)*PH，(SA+TA)*PA，(SS+TS)*PS，(SM+TM)*PM)，其中Max()表示取最大值，(SH+TH)*PH，(SA+TA)*PA，(SS+TS)*PS，(SM+TM)*PM分别表示加权后的高兴的概率、生气的概率、悲伤的概率和平静的概率。

其中，本发明还提供了一种基于敏感度可调的语音情感识别系统，包括如下模块：

声学特征矢量模块，用于接收用户语音信号，提取语音的声学特征矢量；

文本特征矢量模块，用于将语音信号转换为文本信息，获取语音的文本特征矢量；

情感概率计算模块，将声学特征矢量和文本特征矢量输入语音情情感识别模型和文本情感识别模型中，分别得到不同情感的概率值；

情感权值设置模块，设置调整不同情感的权值；

情感判断识别模块，根据每一情感类别的概率，加权融合后，得到语音情感的最终判断识别结果。

其中，声学特征矢量模块功能如下：

(1.2)应用全局统计函数，将每个语音句子中的每一组时长不等的基础声学特征转化为等长的静态特征，得到多维度的声学特征矢量。

其中，文本特征矢量模块功能如下：

其中，情感判断识别模块功能如下：

(4.3)设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM；

(4.4)通过下述公式计算情感的判断识别结果E：

有益效果：与现有技术相比，本发明具有如下优点：

本发明针对不同场景下用户对不同情感的重要性的需求，可以调节语音情感识别系统对需要关注的情感识别的敏感度，以实现人的人机情感交互，提高对需要关注的语音情感的识别率。

附图说明

图1是情感敏感度可调的语音情感识别方法框架图；

图2是本发明语音和文本情感识别模型建立的框架图；

图3是本发明语音特征矢量和文本特征矢量构建过程图；

图4是情感敏感度调整模块的输入界面。

具体实施方式

下面结合附图和实施示例对本发明作进一步详细地说明。

本发明公开的一种基于敏感度可调的语音情感识别方法及系统的整体框图如图1所示，本方法及系统从语音和通过语音识别软件获得的语音信息和语音文本信息，分别提取语音特征矢量和文本特征矢量；在情感识别时，利用语音识别模块SERModel和文本识别TERModel识别出各种语音情感的概率，利用情感感知灵敏度调节模块ERAdjust设置每种情感的判断权值，由决策融合层得到最终识别的情感。本发明公开的上述方法建立的步骤如下：

(1)模型训练使用的语音和文本数据集收集

四种情感类型分别为高兴、悲伤、生气和平静，通过语音数据集SpeechSet收集：本发明对南加利福利亚大学录制的情感数据库(Interactive Emotional Motion Capture，IEMOCAP)综合提取了四类离散情感识别。IEMOCAP包含12小时的视听数据，即视频、音频和语音文本、面部表情，10名演员，5段对话，每段对话一男一女在有台词或即兴的场景下，引导出情感表达。为了平衡不同情感类别的数据，将高兴和兴奋合并成高兴类，由高兴、生气、悲伤和平静最终构成了4类情感识别数据库，总共5531个句子，如表1所示，其展示了SpeechSet和TextSet数据集中每个情感类别分布。

(1.1)从IEMOCAP数据集中选择高兴、生气、悲伤和平静四类情感，共5531个语音数据样本的SpeechSet集合；

(1.2)利用语音识别软件对SpeechSet中的5531个语音信号样本进行语音识别，获得对应的5531个与语音对应的文本数据集TextSet。

表1

(2)提取声学特征矢量和文本特征矢量

(2.1)提取输入语音样本的特征矢量，进行声音的情感识别，语音预处理如下：

(2.1.1)预加重使语音高频部分得以提升，使声道参数分析或频谱分析更加便捷可靠，其可以利用计算机中6dB/倍频程的提升高频特性的预加重数字滤波器来实现；

(2.1.2)进行加窗分帧处理，一般约为33帧/s到100帧/s，其中选择50帧/s为最佳；本发明中分帧采用交叠分段的方法，这是为了使帧与帧之间平滑过渡，保持其连续性；前一帧与后一帧的交叠部分称为帧移，帧移与帧长的比值取1/2，分帧是用可移动的有限长度窗口进行加权和利用窗函数ω(n)在原始语音信号s(n)之上叠加来实现，公式如下：

s_ω(n)＝s(n)*ω(n)

其中，s_ω(n)就是加窗分帧处理后的语音信号，并且窗函数使用汉明窗函数，表达式如下：

其中，N为帧长。

(2.1.3)去除静音段和噪声段，为了获得更好的端点检测结果，本发明综合短时能量和短时过零率进行两级判决，具体算法如下：

(A)计算短时能量：

其中，s_i(n)为每一帧的信号，i表示帧数，N为帧长；

(B)计算短时过零率：

其中，

(C)计算语音和噪声的平均能量，设置一高一低两个能量门限T₁和T₂，高门限确定语音开端，低门限判断语音结束点；

(D)计算背景噪声的平均过零率，可以设置过零率门限T3，该门限用于判断语音前端的清音位置和后端的尾音位置，从而完成辅助判决。

本发明首先对每个语音句子提取了帧级的低层次声学特征(low leveldescriptors，LLDs)，在基础声学特征上应用了多个不同的统计函数，将每个句子的一组时长不等的基础声学特征转化为等长的静态特征；然后，使用openSMILE工具包将音频分割为帧，计算LLDs，最后应用全局统计函数。本发明参考了Interspeech2010年泛语言学挑战赛(Paralinguistic Challenge)中广泛使用的特征提取配置文件“embose2010.conf”，其中提取基频特征和声音质量特征用40ms的帧窗和10ms的帧移提取，频谱相关特征使用25ms的帧窗和10ms的帧移提取。它包含了多个不同的低层次的声学特征，具体可以按照实际需求，设置低层次声学特征的个数，如MFCC、音量、归一化强度提高到0.3的幂的响度、美尔频率倒谱系数、梅尔频带的对数功率、平滑的基频轮廓线等，优选为38个，多个全局统计函数应用于低层次的声学特征和它们相应的系数，这些统计函数包括最大最小值、均值、时长、方差等，统计函数可以按照实际需要设置，优选为21个，得到共1582维声学特征。部分低层次的声学特征以及统计函数如表2所示：

表2声学特征

(2.2)提取语音识别后的文本样本的特征矢量，进行文本的情感识别，具体步骤如下：

(A)情感词提取：利用文本数据集TextSet对四种情感分别进行词频与逆词频统计，即term frequency-inverse document frequency，tf-idf；

(B)根据tf-idf每种情感选取前400个词共400*4个情感词，合并去除重复词后形成去除重复词，并将它们合并成情感特征基本词汇955；

(C)得到的955个词作为文本的特征矢量TextF，以语音中每个词在每个样本中出现与否作为该特征的值，出现为1，不出现为0，得到语音的文本特征矢量表达。

(3)情感识别模型SERModel和TERModel的建立

(A)声音情感识别模型SERModel的建立：利用声音数据集SpeechSet的样本训练卷积神经网络(convolutional neural network，CNN)分类器，具体训练方法如下：

(a)CNN分类器结构为两个卷积层加上一个全连接层，第一层使用卷积核数目采用32个；第二层卷积层采用64个卷积核，两层都采用一维的卷积层，卷积核的窗长度为10，卷积步长为1，补零策略采用“same”，保留边界处的卷积结果；

(b)第一、第二层的激活函数采用“relu”函数，训练时dropoutrate变量设置为0.2以防止过拟合；

(c)池化层采用最大值池化方式，池化窗口大小设为2，下采样因子设为2，补零策略采用“same”，保留边界处的卷积结果；

(d)最后的全连接层选用softmax激活函数对以上所有的dropout层的输出进行回归得到每类的输出概率，以此得到以最小错误率为决策策略的情感识别模型语音情感识别模型SERModel。输出结果是声音样本属于四种情感高兴H、生气A、悲伤S和平静M的概率值，声音分别为高兴的概率SH、生气的概率SA、悲伤的概率SS和平静的概率SM。

(B)将文本数据集TextSet中的样本进行训练CNN，训练方法同(A)，即可得到文本情感识别模型TERModel。输出是文本样本属于四类情感高兴H、生气A、悲伤S和平静M的概率百分比，四个参数分别为高兴的概率TH、生气的概率TA、悲伤的概率TS和平静的概率TM。

(4)情感感知敏感度调整，用户输入设置四种情感高兴、生气、悲伤和平静的百分值，每个情感缺省为25％，四个总和为100％，当某个情感值大于25％时该情感识别敏感度高，当某个情感值小于25％时识别敏感度低，设置高兴的权值为PH、生气的权值为PA、悲伤的权值为PS和平静的权值为PM。

(5)决策层判断最终结果，根据每一情感类别的概率，加权融合后，识别结果就是概率大的维度代表的情感类别E。决策层根据ERAdjust模块的权值和SERModel和TERModel的输出情感类别E根据下面公式1计算最后识别的情感结果E如下：

E＝Max((SH+TH)*PH，(SA+TA)*PA，(SS+TS)*PS，(SM+TM)*PM)(1)

下面以SpeechSet数据集的样本进行训练，对表4的试验结果进行说明。

在自动情感识别领域，实验的评测标准是不加权的平均召回率，即UnweightedAverage Recall，UAR和准确率，即Accuracy score，ACC。

其中，召回率UAR是指查找出的某类实验样本数和数据库中所有的该类样本数的比率：

c_i表示属于情感类别i分类的正确样本总数，n_i表示情感类别i的样本总数，M表示情感类别个数。

其中，准确率ACC是指对于给定的测试数据集，分类器正确分类的样本数与总样本数之比：

c_i表示属于情感类别i分类的正确样本总数，N表示样本总数，M表示情感类别个数。

本实验采用十组留一交叉验证模式，即用9个说话人的数据做为训练集，1个说话人的数据做为验证集，实验结果如表4所示。实验结果验证了本发明提出的多通道融合的自动语音情感识别方法的有效性，并且本发明可有效调整特定情感的识别灵敏度。

(1)表4第二列，情感感知灵敏度权值使用缺省设置，即PH＝25％，PA＝25％，PS＝25％，PM＝25％，对应的各类情感的样本识别准确率ACC和召回率UAR。

(2)表4第三列，当情感感知灵敏度权值设置为PH＝30％，PA＝24％，PS＝22％，PM＝22％，即高兴的识别灵敏度提高，高兴情绪的召回率由缺省参数时的60％提升到当前的78％。

(3)第4第四列中，当情感感知灵敏度权值设置为PH＝24％，PA＝25％，PS＝30％，PM＝21％，即悲哀的识别灵敏度提高，悲哀情感的召回率由缺省参数时的62％提高到当前的79％。

表4不同情感感知灵敏度下的每类情感召回率和总体准确率

本发明提供的方法可以应用在以下几个领域，但不限制于以下几个领域：

1、在服务业上，本发明提供的语音情感识别技术应用在自动远程电话服务中心系统上，通过理解客户的“画外音”及时发现客户的不满情感，使得公司能够及时有效地做出变通，最大限度地保留住可能的客户资源。

2、在教育业上，本发明提供的语音情感识别技术应用在计算机远程教学系统上，老师可以及时识别学生的情感并做出适当的处理，从而提高教学质量。

3、在医学上，本发明提供的语音情感识别技术应用在医学计算机上，能帮助那些缺乏正常情感反应和交流的孤僻症患者反复练习情感交流，逐步达到康复的目的。

Claims

1.一种基于敏感度可调的语音情感识别方法，其特征在于，包括如下步骤：

(1.1)接收用户语音信号，提取语音的声学特征矢量；

(1.4)设置不同情感的权值，结合不同情感的概率值，加权融合后，得到语音情感的最终判断识别结果。

2.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法，其特征在于，所述情感包括高兴、生气、悲伤和平静。

3.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法，其特征在于，在步骤(1)中，使用如下方法提取语音的声学特征矢量：

4.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法，其特征在于，在步骤(2)中，使用如下方法获取语音的文本特征矢量：

(2.3)判断语音文本中的每个词在每个样本词汇表中是否出现，出现为l，不出现为0，得到语音文本特征矢量。

5.根据权利要求1所述的一种基于敏感度可调的语音情感识别方法，其特征在于，在步骤(3)中，使用如下卷积神经网络结构分别对声音样本数据集和文本样本数据集进行训练，得到所述语音情感识别模型和文本情感识别模型：

(a)分类器结构为两个卷积层加上一个全连接层，第一层使用32个卷积核，第二层卷积层采用64个卷积核，两层都采用一维的卷积层，卷积核的窗长度为10，卷积步长为1，补零策略采用same，保留边界处的卷积结果；

(b)第一、第二层的激活函数采用relu函数，训练时设置变量dropoutrate为0.2；

(c)池化层采用最大值池化方式，池化窗口大小设为2，下采样因子设为2，补零策略采用上下左右补0的方法，保留边界处的卷积结果；

(d)最后的全连接层选用softmax激活函数对所有的dropout层的输出进行回归得到情感类型的输出概率。

6.根据权利要求2所述的一种基于敏感度可调的语音情感识别方法，其特征在于，在步骤(4)中，得到语音情感的最终判断识别结果的方法如下：

(4.4)通过下述公式计算情感的判断识别结果E：

7.一种基于敏感度可调的语音情感识别系统，其特征在于，包括如下模块：

情感权值设置模块，设置调整不同情感的权值；

8.根据权利要求7所述的一种基于敏感度可调的语音情感识别系统，其特征在于，声学特征矢量模块功能如下：

9.根据权利要求7所述的一种基于敏感度可调的语音情感识别系统，其特征在于，文本特征矢量模块功能如下：

10.根据权利要求7所述的一种基于敏感度可调的语音情感识别系统，其特征在于，情感判断识别模块功能如下：

(4.4)通过下述公式计算情感的判断识别结果E：