CN112765323B

CN112765323B - 基于多模态特征提取与融合的语音情感识别方法

Info

Publication number: CN112765323B
Application number: CN202110100299.8A
Authority: CN
Inventors: 任传伦; 郭世泽; 巢文涵; 张先国; 夏建民; 姜鑫; 孙玺晨; 俞赛赛; 刘晓影; 乌吉斯古愣
Original assignee: Beijing Jianwei Technology Co ltd; CETC 15 Research Institute
Current assignee: Beijing Jianwei Technology Co ltd; CETC 15 Research Institute
Priority date: 2021-01-24
Filing date: 2021-01-24
Publication date: 2021-08-17
Anticipated expiration: 2041-01-24
Also published as: CN112765323A

Abstract

本发明公开了一种基于多模态特征提取与融合的语音情感识别方法，首先对输入的音频提取eGeMAPS声学特征集，该特征集定义了88个基本的语音情感分析特征，并规范化了对低层次声学特征的操作方法，解决了可解释性差的问题；其次，本发明提供了一种对用户特征以及音频内容文本特征进行提取的方法，并用层次自注意力将用户特征以及文本特征与声学特征进行融合，充分利用语料数据库中的多模态信息，对语音情感进行更加全面的建模，由此更加有效地实现语音情感识别；最后，本发明利用一种层次化的自注意力机制将多模态特征进行深度融合，以及将不同模态的特征在同一高维语义空间里对齐，增强了情感表述能力，从而提高了语音情感识别的准确率。

Description

基于多模态特征提取与融合的语音情感识别方法

技术领域

本发明涉及语音识别领域，尤其涉及一种基于多模态特征提取与融合的语音情感识别方法。

背景技术

随着信息技术的迅猛发展和各种智能设备的普及，语音识别不再局限于对特定说话人语音中的单一音素和语句进行简单的识别，对诸如远程通话语音、儿童语音、低资源语音、言语障碍者语音以及情感语音进行有效地识别也成为语音识别领域研究的一些新的热点。语音中不仅包含说话人所要表达的文本信息，也包含说话人所要表达的情感信息，对语音中情感的有效识别能够提升语音可懂度，因此，一些研究者试图开发具备人类思维和情感的人性化智能设备，使得这些设备能最大限度地理解用户意图，为人类提供更好的服务。

现有的语音情感识别方法，将语音信号被采集为数字化的时间序列，进入计算机进行预处理，将每一帧预处理后的语音信号提取成一个特征向量，构成语音识别样本，对样本的识别由分类器来实现，分类器包含两个工作阶段：设计阶段与决策阶段。在设计阶段，用大量已知的语音信号来确定分类器模型中的参数；在决策阶段，未知语音信号经过与设计阶段同样的预处理后进入训练好的分类器，分类器给出最终识别结果。

目前的语音情感识别方法大多采用从语音信号中提取声学参数的方法来理解不同情绪和其他情感倾向，其基本的理论假设是，情感的变化能再发音层面影响语音或语言的产生，这些变化可以通过声学波形的不同参数来估计。该类方法使用了大量的声学参数，包括时域(如语速)、频域(如基频(F0)共振峰频率)、幅度域(如强度或能量)，以及谱分布域(如相不同频段的相对频段)，但是并非所有这些参数的精确计算都是经过标准化定义的，这就导致了不同的特征提取步骤的设置，提取到的声学参数在数量、结果上都有不同程度的差异。因此就导致了识别模型的可解释性严重降低。传统的语音情感识别方法仅仅利用了声学特征，却忽略了用户(语音发言人)行为对情感表达的影响以及语音文本内容对情感识别的作用。通过对音频语料库的观察，不同用户往往具有某一特定的情感倾向的表达，而用户所说的内容(文本特征)，往往直接指明了语音的情感，比如用户说话的内容包含了“今天天气真不错”，往往与“开心”的情感相关联。因此，用户的行为特征以及说话内容的文本信息对语音情感识别方法的准确性提高具有潜在的影响，而忽略这些多模态特征只考虑声学特征会导致情感识别模型的学习能力的不足。

在特征提取阶段，有学者提出了一种基于韵律特征参数的语音情感合成算法，通过对情感数据库中生气、无聊、悲伤、和高兴4种情感的韵律参数分析，取得了较高的正确识别率；也有学者利用梅尔频率倒谱系数(Mel Frequency Spectrum Coefficients,MFCC)作为提取到的音频特征作为分类算法的训练输入，也取得了较好的识别效率。但这些技术方案都是基于音频某一方面的特征进行提取，无法全面概括音频的特点，也就无法让分类模型全面针对音频的特点进行情感判别。

发明内容

针对现有语音情感识别方法只基于音频某一方面的特征进行提取，无法使分类模型全面针对音频的特点进行情感判别的缺点，本发明公开了一种基于多模态特征提取与融合的语音情感识别方法，首先对输入的音频提取eGeMAPS声学特征集，该特征集定义了88个基本的语音情感分析特征，并规范化了对低层次声学特征的操作方法，解决了可解释性差的问题；其次，本发明提供了一种对用户特征以及音频内容文本特征进行提取的方法，并用层次自注意力将用户特征以及文本特征与声学特征进行融合，充分利用语料数据库中的多模态信息，对语音情感进行更加全面的建模，由此更加有效地实现语音情感识别。

本发明公开了一种基于多模态特征提取与融合的语音情感识别方法，其步骤包括：

S1，数据预处理；

S11，音频文件预处理，包括：

S111，对音频文件格式的合法性进行检查，对不合法的音频格式将其转换为合法的音频格式后再进行后续处理。具体方式为，检查音频文件的后缀名，若后缀名在合法后缀名列表(包括‘.mp3’,‘.wav’)之内，则通过文件格式检查；若不在合法后缀名列表之内，则利用pyAudio开源Python库将音频文件转换为‘.wav’格式。

S112，限制每个音频文件时长在一定时长以内，超过该时长的音频将被截断，对音频进行去噪处理。利用pyAudio开源Python库获得音频文件的时长信息。该时长可以为10分钟。

S12，将音频文件转换为文字文本，包括：

S121，利用自动语音识别技术(ASR)，将音频文件转换为对应的文字文本。

S122，对转换的文字文本进行文本预处理。

S13，统计出音频语料库中的所有用户信息，赋予每个用户一个唯一的标识符，并建立相应的用户列表。

S2，多模态特征提取，包括：

S21，从输入的音频文件中直接提取eGeMAPS特征集，包括：

S211，以一定的基本时长，将输入的音频文件切割成若干个基本时间单元的语音文件[F₁,F₂,...,F_L]，其中F_i是一个基本时间单元的文件，L是基本时间单元总数。基本时长可选为0.6s。

S212，对每个基本时间单元的音频文件，提取得到88个高水平特征(HSFs,HighLevel Statistics Functions)，该88个高水平特征构成eGeMAPS特征集，因此，每个音频文件最终提取到的特征是一个矩阵S＝[s₁,s₂,...,s_i,...,s_L]∈R^L×88，该矩阵中的元素s_i∈R⁸⁸是一个维度数为88的向量。

所述的提取得到88个高水平特征，先提取其25个低水平特征(LLDs,Low LevelDescriptors)，再对提取的低水平特征进行统计，得到88个高水平特征(HSFs,High LevelStatistics Functions)；

所述的提取得到88个高水平特征，使用openSMILE音频特征提取工具提取特征，直接从openSMILE的输出中获得88个HSFs。

所述的25个LLDs与88个HSFs的关系为，

8个频率相关LLDs为，音高，频率微扰，第一、第二、第三共振峰的中心频率，第一、第二、第三共振峰的带宽；

3个能量/振幅LLDs为，振幅微扰、响度、HNR信噪比；

14个谱特征LLDs为，Alpha比率，Hammarberg指数，0-500Hz和500-1500Hz的频谱斜率，第一、第二、第三共振峰相对能量，第一、第二谐波的差值，第一、第三谐波的差值，1-4阶梅尔频率倒谱系数(MFCC1-4)，频谱流量。

对除了MFCC1-4、频谱流量以及第二和第三共振峰带宽以外的所有18个LLDs在其有声部分(voice segment)均做算术平均以及变异系数操作，得到36个统计特征；然后对响度和音高这两个LLDs再运行8个函数(取20百分位，50百分位，80百分位以及取20-80百分位范围之间的数值，上升和下降语音信号的斜率的均值和标准差)，得到16个统计特征；对Alpha比率，Hammarberg指数，0-500Hz和500-1500Hz的频谱斜率这4个LLDs在其无声部分(unvoice segment)做算术平均，得到4个统计特征；在MFCC1-4和频谱流量的有声和无声两部分上一起做算术平均和变异系数操作，得到10个统计特征；对第二和第三共振峰带宽在其有声部分做算术平均和变异系数操作，得到4个统计特征；对频谱流量在其有声部分做算术平均和变异系数，在无声部分做算术平均，得3个统计特征；对MFCC1-4在其有声部分做算术平均和变异系数运算，得到8个统计特征；此外还有6个时间特征(每秒响度峰值个数；连续有声部分的平均长度和标准差；无声部分的平均长度和标准差；每秒有声部分的个数)和1个等效升级特征，上述一共36+16+4+10+4+3+8+6+1＝88个高水平统计特征。

S213，将步骤S212得到的特征矩阵S输入到一个双向长短期记忆神经网络(BiLSTM)，该网络的隐向量的维度设置为150，从BiLSTM的输出中提取最终的声学特征向量

其中

分别表示BiLSTM最后一步输出的前向与后向隐向量，其维度数均为150，||表示拼接操作，声学特征向量s₀的维度数为300。

步骤S213的具体过程包括，BiLSTM从前向LSTM、后向LSTM两个方向上以一次读取一个向量的形式，输出隐向量，第1次运算，向前向LSTM和后向LSTM分别送入s₁和s_L，得到输出的隐向量

和

第2次运算，向前向LSTM和后向LSTM分别送入s₂和s_L-1，得到输出的隐向量

和

依次类推，第L-1次运算，向前向LSTM和后向LSTM分别送入sL_-1和s2，得到输出的隐向量

和

第L次运算，即最后一次运算，向前向LSTM和后向LSTM分别送入sL和s1，得到输出的隐向量

和

将最后一次运算得到的前向和后向隐向量拼接在一起，即是最终的声学特征向量s₀。

S22，从音频文件中提取文本特征，具体包括：

S221，用结巴分词工具Jieba对步骤S122处理过的文本进行分词处理，切分得到该文本中的每一个词。之后从预训练的Word2vec词向量中，找到每个单词对应的词向量，将切分得到的每一个词映射成一个300维的词向量；对于在Word2vec中无法找到的词，随机初始化一个300维的词向量。因此，对于每一个输入音频文件所对应的文本，提取得到相应的文本矩阵T＝[t₁,t₂,...,t_i,...,t_N]∈R^N×300，其中每个矩阵元素t_i∈R³⁰⁰是一个300维的词向量，N是文本中的单词总数。

S222，将步骤S211得到的文本矩阵T送入到一个与步骤S213具有相同结构的BiLSTM网络中，隐向量的维度设置为150，从BiLSTM的输出中提取最终的文本特征向量

其中

分别表示该BiLSTM网络最后一步输出的前向与后向隐向量，其维度数均为150，文本特征向量t₀的维度数为300。

S23，将音频用户信息转换为one-hot向量后，输入embedding网络层得到用户特征。

其具体包括，对于输入的音频文件所对应的用户，根据其在步骤S13得到的用户列表中的信息，得到相应的one-hot向量y∈R^M，其中M是用户列表的维度数，one-hot向量表示当前用户在用户列表中的位置，one-hot向量元素由0和1组成，向量在用户所对应的位置上的值为1，其他位置值都是0。之后，将其输入一个embedding网络层，该层的输入维度数为M，输出维度数为300，从该层的输出中得到用户特征向量u₀∈R³⁰⁰；

所述的embedding网络层，在输入one-hot向量y∈R^M后，其输出为用户特征向量

其中，W_E∈R^M×300是embedding网络层的可学习权重，在训练过程中不断更新。

S3，利用层次自注意力方法对多模态组合特征充分融合，得到最终的语音情感融合向量，包括：

对m个d维多模态组合特征矩阵b＝[b₁,b₂,...,b_m]进行自注意力操作，其具体公式为：

P_F＝tanh(W_F·b)，

G＝b·α^T，

其中，W_F∈R^d×d以及w_f∈R^d是自注意力可学习权重；α^T∈R^m是注意力向量，G∈R^d是最终的融合向量。多模态组合特征矩阵由声学特征向量s₀、文本特征向量t₀和用户特征向量u₀的几种组合构成。

按照层次结构对组合特征矩阵进行自注意力操作，其具体步骤为：

在第一层，分别对声学特征向量s₀和文本特征向量t₀,声学特征向量s₀和用户特征向量u₀，文本特征向量t₀和用户特征向量u₀所构成的三个多模态组合特征矩阵进行自注意力操作，分别得到融合向量为

在第二层，分别对

和[s₀,t₀,u₀]两个多模态组合特征矩阵进行自注意力操作，分别得到融合向量

与

在第三层，将

与

进行自注意力操作，输出得到最终的语音情感融合向量z。

S4，对音频的情感做出判断：将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC)，得到情感向量，将情感向量输入softmax函数，得到音频文件的情感类别和该情感类别的置信度，即得到音频文件的最终情感识别结果；所述的情感类别包括生气、伤心、中立、惊喜、开心以及恐惧。

所述的步骤S4，将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC)后,全连接网络层的计算过程为：

其中，W_FC为全连接层的权重，e为情感向量；在情感向量e上使用softmax函数，计算生气、伤心、中立、惊喜、开心以及恐惧六个情感类别的置信度，置信度最高的情感类别即音频文件的最终情感识别结果。

本发明的有益效果是：本发明提出了一种基于多模态特征提取与融合的语音情感识别方法，一方面充分利用了音频中的多模态信息，尤其是考虑了用户行为特征对情感表达的影响，克服了传统方法只考虑声学特征导致情感表征能力弱的缺点。另一方面，提出了一种层次化的自注意力机制，来将多模态特征进行深度充分融合，以及将不同模态的特征在同一高维语义空间里对齐，增强了情感表述能力，从而提高了语音情感识别的准确率。

附图说明

图1为本发明的语音情感识别方法的整体流程图；

图2为本发明中对音频的预处理具体流程图；

图3为本发明中步骤S2的多模态特征提取的具体流程图；

图4为本发明中的利用层次自注意力机制进行多模态特征提取的具体流程图；

图5为本发明中对语音情感进行最终判别的具体流程图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

本发明公开了一种基于多模态特征提取与融合的语音情感识别方法，图1为本发明的语音情感识别方法的整体流程图，其步骤包括：

S1，数据预处理；

S11，音频文件预处理，图2为对音频的预处理具体流程图，其包括：

S111，对音频文件格式的合法性进行检查，只有合法的音频格式才能正确提取出声学特征，对不合法的音频格式将其转换为合法的音频格式后再进行后续处理。具体方式为，检查音频文件的后缀名，若后缀名在合法后缀名列表(包括‘.mp3’,‘.wav’)之内，则通过文件格式检查；若不在合法后缀名列表之内，则利用pyAudio开源Python库将音频文件转换为‘.wav’格式。

S112，限制每个音频文件时长在10分钟以内，此步骤是为了保证程序的响应时间。超过该时长的音频将被截断，对音频进行去噪处理。利用pyAudio开源Python库获得音频文件的时长信息。

S12，将音频文件转换为文字文本，包括：

S121，利用自动语音识别技术(ASR)，将音频文件转换为对应的文字文本，以供提取文本特征。

S122，对转换的文字文本进行文本预处理，包括去除非中文字符、去停用词。

S13，统计出音频语料库中的所有用户信息，赋予每个用户一个唯一的标识符，并建立相应的用户列表，以供后续用户特征的提取。

S2，多模态特征提取，图3为本发明的步骤S2的多模态特征提取的具体流程图，包括：

S21，从输入的音频文件中直接提取eGeMAPS特征集，包括：

所述的25个LLDs与88个HSFs的关系为，

3个能量/振幅LLDs为，振幅微扰、响度、HNR信噪比；

其中

步骤S213的具体过程包括，BiLSTM从前向LSTM、后向LSTM两个方向上以一次读取一个向量的形式，输出隐向量，第1次运算，向前向LSTM和后向LSTM分别送入s1和sL，得到输出的隐向量

和

第2次运算，向前向LSTM和后向LSTM分别送入s2和sL_-1，得到输出的隐向量

和

依次类推，第L-1次运算，向前向LSTM和后向LSTM分别送入s_L-1和s₂，得到输出的隐向量

和

第L次运算，即最后一次运算，向前向LSTM和后向LSTM分别送入s_L和s₁，得到输出的隐向量

和

将最后一次运算得到的前向和后向隐向量拼接在一起，即是最终的声学特征向量s0。

S22，从音频文件中提取文本特征，具体包括：

其中

S3，利用层次自注意力方法对多模态组合特征充分融合，得到最终的语音情感融合向量，图4为本发明中的利用层次自注意力机制进行多模态特征提取的具体流程图，包括：

注意力机制是在人类视觉注意力机制基础上形成的。注意力使得人类对视觉捕获信息的重要部分给予更大的关注，尽可能获取所关注目标的细节信息，同时减少对目标周围无关信息的关注，即对无关信息产生抑制。假设自注意力模块的输入是m个300维的向量b＝[b₁,b₂,...,b_m]，那么自注意力模块就是充分利用m个向量之间的相关性，突出彼此之间的共性和差异。该模块的输出是1个300维的向量，该向量是由m个输入向量融合得到的，能将正确的特征赋予更大的权重，同时降低不正确特征的权重，实现一种自动过滤特征的效果，降低情感识别算法过拟合的风险。当输入的向量是不同的模态特征时，通过注意力操作，能将不同的模态特征在同一个高维空间中进行对齐，也就是实现了不同模态特征之间语义表达的一致性，提高了情感识别特征的表征能力。采用层次结构来进行多模态特征的融合，以达到更充分地捕捉到多模态特征之间的长距离依赖关系，以及更突出正确的特征的效果。

P_F＝tanh(W_F·b)，

G＝b·α^T，

在第二层，分别对

与

在第三层，将

与

进行自注意力操作，输出得到最终的语音情感融合向量z。

S4，对音频的情感做出判断，图5为本发明中对语音情感进行最终判别的具体流程图，将步骤S3最终得到的语音情感融合向量输入一个全连接网络层(FC)，得到情感向量，将情感向量输入softmax函数，得到音频文件的情感类别和该情感类别的置信度，即得到音频文件的最终情感识别结果；所述的情感类别包括生气、伤心、中立、惊喜、开心以及恐惧。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于多模态特征提取与融合的语音情感识别方法，其特征在于，其步骤包括：

S1，数据预处理；

S11，音频文件预处理，包括：

S111，对音频文件格式的合法性进行检查，对不合法的音频格式将其转换为合法的音频格式后再进行后续处理；

S112，限制每个音频文件时长在一定时长以内，超过该时长的音频将被截断，对音频进行去噪处理；

S12，将音频文件转换为文字文本，包括：

S121，利用自动语音识别技术，将音频文件转换为对应的文字文本；

S122，对转换的文字文本进行文本预处理；

S13，统计出音频语料库中的所有用户信息，赋予每个用户一个唯一的标识符，并建立相应的用户列表；

S2，多模态特征提取，包括：

S21，从输入的音频文件中直接提取eGeMAPS特征集，包括：

S211，以一定的基本时长，将输入的音频文件切割成若干个基本时间单元的语音文件[F₁,F₂,...,F_L]，其中F_i是一个基本时间单元的文件，L是基本时间单元总数；

S212，对每个基本时间单元的音频文件，提取得到88个高水平特征，该88个高水平特征构成eGeMAPS特征集，因此，每个音频文件最终提取到的特征是一个矩阵S＝[s₁,s₂,...,s_i,...,s_L]∈R^L×88，该矩阵中的元素s_i∈R⁸⁸是一个维度数为88的向量；

S213，将步骤S212得到的特征矩阵S输入到一个双向长短期记忆神经网络BiLSTM，该网络的隐向量的维度设置为150，从BiLSTM的输出中提取最终的声学特征向量

其中

分别表示BiLSTM最后一步输出的前向与后向隐向量，其维度数均为150，||表示拼接操作，声学特征向量s₀的维度数为300；

S22，从音频文件中提取文本特征，具体包括：

S221，用结巴分词工具Jieba对步骤S122处理过的文本进行分词处理，切分得到该文本中的每一个词；之后从预训练的Word2vec词向量中，找到每个单词对应的词向量，将切分得到的每一个词映射成一个300维的词向量；对于在Word2vec中无法找到的词，随机初始化一个300维的词向量；因此，对于每一个输入音频文件所对应的文本，提取得到相应的文本矩阵T＝[t₁,t₂,...,t_i,...,t_N]∈R^N×300，其中每个矩阵元素t_i∈R³⁰⁰是一个300维的词向量，N是文本中的单词总数；

其中

分别表示该BiLSTM网络最后一步输出的前向与后向隐向量，其维度数均为150，文本特征向量t₀的维度数为300；

S23，将音频用户信息转换为one-hot向量后，输入embedding网络层得到用户特征；

S3，利用层次自注意力方法对多模态组合特征充分融合，得到最终的语音情感融合向量，

S4，对音频的情感做出判断：将步骤S3最终得到的语音情感融合向量输入一个全连接网络层，得到情感向量，将情感向量输入softmax函数，得到音频文件的情感类别和该情感类别的置信度，即得到音频文件的最终情感识别结果；所述的情感类别包括生气、伤心、中立、惊喜、开心以及恐惧；

所述的步骤S3，其具体包括：

P_F＝tanh(W_F·b)，

G＝b·α^T，

其中，W_F∈R^d×d以及w_f∈R^d是自注意力可学习权重；α^T∈R^m是注意力向量，G∈R^d是最终的融合向量；多模态组合特征矩阵由声学特征向量s₀、文本特征向量t₀和用户特征向量u₀的几种组合构成；

在第二层，分别对

与

在第三层，将

与

进行自注意力操作，输出得到最终的语音情感融合向量z。

2.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法，其特征在于，所述的步骤S111，具体包括，检查音频文件的后缀名，若后缀名在合法后缀名列表之内，则通过文件格式检查；若不在合法后缀名列表之内，则利用pyAudio开源Python库将音频文件转换为‘.wav’格式。

3.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法，其特征在于，所述的步骤S112，利用pyAudio开源Python库获得音频文件的时长信息。

4.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法，其特征在于，步骤S212所述的提取得到88个高水平特征，使用openSMILE音频特征提取工具提取特征，直接从openSMILE的输出中获得88个HSFs。

5.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法，其特征在于，所述的步骤S213，其具体过程包括，BiLSTM从前向LSTM、后向LSTM两个方向上以一次读取一个向量的形式，输出隐向量，第1次运算，向前向LSTM和后向LSTM分别送入s₁和s_L，得到输出的隐向量

和

和

和

和

6.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法，其特征在于，所述的步骤S23，其具体包括，对于输入的音频文件所对应的用户，根据其在步骤S13得到的用户列表中的信息，得到相应的one-hot向量y∈R^M，其中M是用户列表的维度数，one-hot向量表示当前用户在用户列表中的位置，one-hot向量元素由0和1组成，向量在用户所对应的位置上的值为1，其他位置值都是0；之后，将其输入一个embedding网络层，该层的输入维度数为M，输出维度数为300，从该层的输出中得到用户特征向量u₀∈R³⁰⁰；

7.一种如权利要求1所述的基于多模态特征提取与融合的语音情感识别方法，其特征在于，所述的步骤S4，将步骤S3最终得到的语音情感融合向量输入一个全连接网络层后,全连接网络层的计算过程为：