CN114446324A

CN114446324A - 一种基于声学和文本特征的多模态情感识别方法

Info

Publication number: CN114446324A
Application number: CN202210108118.0A
Authority: CN
Inventors: 金赟; 顾煜; 俞佳佳
Original assignee: Jiangsu Normal University
Current assignee: Jiangsu Normal University
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-06

Abstract

本发明提出了一种基于声学和文本特征的多模态情感识别方法适用于语音和文本情感特征的提取。利用OpenSMILE提取输入语音的情感浅层特征，并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征；再将语音与转录文本进行强制对齐获取停顿信息，然后将语音中的说话停顿信息编码后添加至转录文本，送入分层密集连接DC‑BERT模型中获取文本特征，再与声学特征融合；通过BiLSTM网络利用先验知识，获取有效的上下文信息，并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余，在注意力机制后面添加全局平均池化层代替传统使用的全连接层，最后送入softmax层中进行情感分类。其步骤简单，识别精准，具有广泛的实用价值。

Description

一种基于声学和文本特征的多模态情感识别方法

技术领域

本发明涉及一种基于声学和文本特征的多模态情感识别方法，适用于语音和文本情感特征的提取，属于尤人工智能和语音情感识别技术领域。

背景技术

随着技术的发展，语音情感识别和自然语言处理已经取得了很大的进展，但人类仍然无法与机器进行自然地交流。因此，建立一套能够在人机交互中检测情感的系统是至关重要的。但由于人类情感的多变性和复杂性，这仍然是一项具有挑战性的任务。

传统的情感识别主要针对于单个模态，如：文本、语音、图像等，在识别性能上存在一定的局限性。如在早期的语音情感识别任务中，研究人员主要利用的是语音中的声学特征和一些相关的韵律学特征，往往忽视了语音中所包含的具体语义信息(文本信息)。但在日常会话和社交媒体中，声音往往是对一段文本内容的复述、二者密切相关。考虑到语音和文本模态之间的同一性、互补性和强相关联性，不少研究人员从单模态转向了多模态的情感识别研究。其中，融合语音和文本这两种不同模态信息来进行情感识别也成为了一项热点研究方向。与单个模态相比，同时考虑多种模态信息可以更加准确地捕捉情感。

许多研究机构也在不断探索新的语言模型。2019谷歌研究所首次提出一种新型语言表征模型BERT，该模型可以生成深层次的语言双向表征，对自然语言处理各项任务的结果都有很大的提升。虽然利用BERT可以获得上下文词嵌入来表征转录文本中所包含的信息，但没有考虑到因BERT复杂网络结构与情感语料库数据量不足而不匹配的问题。BERT虽然可以用来生成文本信息的表征，但无法弥补转录文本自身忽视一些潜在情感信息的不足。

在转录文本时并不会体现出说话过程中的停顿信息。在调研说话停顿信息与情感之间的联系后，发现与快乐、积极相比，在悲伤、害怕的情感状态下，沉默停顿的平均时长占整段语音的比例增加了，且注意到处于不同情感状态时，说话停顿的频率、持续时间以及停顿发生的位置也会有所区别。

另一方面，基于注意力机制的深度网络在解码阶段显示了优越的性能，在自然语言处理和语音识别领域中得到了广泛的应用。而在语音情感识别中，由于情感特征在语句中分布并不均匀，因此不少研究人员在情感识别任务中增加了注意力机制，使得网络对包含情感信息较多的部分具有指导性机制，重点突出局部最具情感的信息。为此本发明提出了一种有效提取语音和文本情感特征，同时能添加停顿信息的多模态情感识别方法，设计一种带注意力机制的BiLSTM网络模型对情感进行分类。

发明内容

针对现有技术的不足之处，提供一种结合语音和文本两种模态数据，即能获得转录文本中丰富的语义信息，又能通过语音音频感知任务说话的波动，从而进一步获得准确的情感，纠正单纯通过文本识别情感的歧义的基于声学和文本特征的多模态识别方法。

为实现上述技术目的，本发明的一种基于声学和文本特征的多模态情感识别方法，其特征在于：利用OpenSMILE提取输入语音的情感浅层特征，并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征；利用内容形同的语音与转录文本进行强制对齐获取停顿信息，然后将语音中的说话停顿信息编码后添加至转录文本，送入分层密集连接DC-BERT模型中获取本文特征，再与声学特征融合；利用基于注意力机制的双向长短时记忆神经网络BiLSTM-ATT作为分类器，通过BiLSTM网络利用先验知识，获取有效的上下文信息，并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余，在注意力机制后面添加全局平均池化层代替传统使用的全连接层，可以有效的防止过拟合问题，最后送入softmax层中进行情感分类；

具体步骤如下：

S1：将待判断的原始语音音频输入OpenSMILE中，使用OpenSMILE工具箱中的emobase特征集提取原始语音数据中的浅层声学特征；

S2：将提取出来的浅层声学特征输入Transformer网络，利用Transformer网络的编码器结构有效的学习输入的浅层声学特征之间的关系，从而输出一个情感相关的特征序列，即具有全局信息的深层特征；

S3：将浅层声学特征的序列与深层特征的序列进行拼接融合获得深浅融合特征序列，浅层特征序列内容在前，深层特征在后进行拼接；

S4：对原始语音转录的文本进行预处理：删除文本中的标点符号，并将转录形成的字词格式统一书写形式；

S5：通过宾夕法尼亚大学语音标签强制对齐工具(Penn Phonetics Lab ForcedAligner,P2FA)对步骤S4预处理后的转录文本和原始语音进行强制对齐，从而确定停顿的位置和持续时间；

S6：将语音音频中不同的停顿时长分为六个区间：0.05-0.1s，0.1-0.3s，0.3-0.6s，0.6-1.0s，1.0-2.0s和大于2.0s，将六个区间的停顿时长分别使用：“..”,“...”,“....”,“.....”,“......”,“.......”在转录文本中进行标注，在转录文本中标注的位置匹配语音音频的停顿时长，并在文本中每个说话人的句尾添加标注“.”作为结束的标志；

S7：将标注好停顿编码的转录文本输入训练好的改进DC-BERT中，改进DC-BERT根据转录文本中的停顿编码标注输出话语级文本的情感特征；

S8：将语音音频对应的深浅融合特征序列与话语级文本的情感特征再进行拼接融合，获得该段音频中每一句话的声学文本融合特征；

S9：最后将声学文本融合特征送入带有注意力机制的BiLSTM网络中进行情感分类，输出对应的情感分类，实现情感的识别。

进一步，利用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取，包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值，如最大值、最小值、平均值和标准偏差；

浅层声学特征由低级描述符组成的序列；仅选取情感数据集中表示愤怒，快乐，中立，悲伤的音频和转录文本进行识别，快乐由高兴和兴奋情感合并而成。

进一步，将宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC-BERT中，选择DC-BERT倒数第二层的768维输出序列作为话语级文本特征；

所述改进DC-BERT模型保留了传统BERT模型中Transformer的每个多头自注意层内部的残差连接，在层与层之间新增了密集连接，即每一个多头自注意力层的输入额外增加了前两层的特征信息，用以加快模型的收敛速度，使网络的损失函数更加平滑，而每一层提取的特征也可以在不同的注意层之间被重复使用，提高了特征的利用率；

改进DC-BERT的内部形式是：假设给定一个输入特征序列X，那么x_i＝H(x_i-1)+αx_i-1+βx_i-2，其中x_i为输入特征序列X的第i个元素，H为非线性函数，α和β为保留前两层信息的权重系数，使得每一层都能得到前两层处理的结果，却又不占主导地位；改进DC-BERT模型由12层Transformer组成，每一层的输出理论上都可以作为话语级的文本特征。

进一步，将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中，进行情感分类，BiLSTM网络的注意力机制有三种，即局部注意力机制，自注意力机制，多头注意力机制；

局部注意力机制：该机制只关注一部分编码隐藏层，局部注意力首先在时间t上，为当前节点生成一个对齐位置p_t，然后选择性地设置一个固定大小为2D+1的上下文窗口，公式如下：

其中D是根据经验选择；p_t为窗口中心，由当前隐藏状态的h_t决定，是一个实数；对齐权重alignment weights的计算过程和传统attention相似：

其中标准偏差σ根据经验设定，h_t是当前decoder第t个时间步的隐藏状态，

是encoder第i个时间步的隐藏状态，i表示输入序列的位置，T_x表示序列长度；

自注意力机制利用了输入特征序列元素之间的加权相关性，即输入序列的每个元素都能够通过一个线性函数投影成三种不同的表示形式：查询query、键key、值value，其计算公式如下：

其中x_i表示输入特征序列中第i个元素，q_i，v_i，k_i表示输入特征序列中第i个元素的查询向量，值向量，键向量。

表示获得查询向量，值向量，键向量的三个权重矩阵的转置。

最终注意矩阵如公式所示：

其中Q为查询矩阵，K为键矩阵，V为句子的值矩阵，d_k是比例因子；

在自注意力机制的基础上，对比了多头自注意力机制对语音情感识别任务的影响，多头是指输入特征序列的每个变量：查询query、键key、值value的投影数不止一组，即在参数不共享的前提下，将Q、K、V通过参数矩阵映射后，做单层的自注意力，然后将自注意力层层叠加，多头自注意力计算公式为：

head_i＝attention(QW_i ^Q，KW_i ^K，VW_i ^V)

Multihead(Q，K，V)＝Concat(head₁，...，head_n)。

有益效果：

针对浅层特征只包含全局信息，表达情感不充分的问题，通过将Transformer网络二次学习得到的深层特征，将两者融合获得深浅特征，深浅特征融合后具有多层次的声学特征；同时考虑语音中停顿信息与情感之间的关联，利用音频与转录文本的对齐获取停顿信息，并将不同的停顿信息编码后添加至转录文本，新增了语义与停顿信息的联结，使得转录文本信息更加多元化，可以有效地提高情感识别的准确性；

为了弥补BERT复杂网络结构与情感数据量少的不匹配，使用DC-BERT模型提取话语级文本特征，加快了模型的收敛速度，提高了特征的利用率；对比三种注意力机制在情感识别任务中的影响后选取最好的那一个。

本方法通过语音和文本两种模态数据，在情感识别过程中，即能获得转录文本中丰富的语义信息，又能通过语音音频感知任务说话的波动，从而进一步获得准确的情感，纠正单纯通过文本识别情感的歧义。

本申请的技术优点：

本方法在语音模态方面，利用Transformer Encoder对低级描述符特征二次学习，挖掘其中更加深层的情感信息，并与低级描述符特征进行融合，形成多层次，多方位的声学特征，在文本模态方面，本发明在转录文本中加入了停顿信息，补充了文本模态除语义信息外的其他从属信息，使得文本信息更加的多元化。而声学和文本特征融合在互补了相互缺失信息的同时，可以多方位的挖掘隐藏在特征中的情感信息。一句话的情感往往会体现在句中的某一段或某个词上面，因此使用带有注意力机制的BiLSTM网络作为分类器，可以使得网络更加关注情感浓烈的部分，忽略一些无关紧要的信息，使得分类效果更好。

1)利用OpenSMILE工具箱提取常用的情感识别特征集，这里使用的是emobase特征集，提取了988维浅层声学特征，OpenSMILE提取特征速度快，效果好；

2)Transformer由于多头自注意机制，使其具有全局语音情感分析能力的方法；

3)Transformer计算速度克服了RNN训练慢的特点，可以并行计算；

4)DC-BERT保留了Transformer中每个多头自注意层内部的残差连接，在层与层之间新增了密集连接，即每一个多头自注意力层的输入额外增加了前两层的特征信息，目的是加快模型的收敛速度，使网络的损失函数更加平滑，而每一层提取的特征也可以在不同的注意层之间被重复使用，提高了特征的利用率；

5)采用带有注意力机制的BiLSTM模型具有很好的特征学习能力，同时模型具有较好的泛化能力。

附图说明

图1是本发明基于多模态情感识别方法的系统框架图；

图2是本发明使用的DC-BERT模型的内部结构图；

图3是本发明对转录文本进行停顿编码的流程图。

具体实施方式

为了更充分的解释本发明，下面结合附图和具体实施方式对本发明进行详细说明。

如图1所示，本发明的基于声学和文本特征的多模态情感识别方法，利用OpenSMILE提取输入语音的情感浅层特征，并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征；利用内容形同的语音与转录文本进行强制对齐获取停顿信息，然后将语音中的说话停顿信息编码后添加至转录文本，送入分层密集连接DC-BERT模型中获取本文特征，再与声学特征融合；利用基于注意力机制的双向长短时记忆神经网络BiLSTM-ATT作为分类器，通过BiLSTM网络利用先验知识，获取有效的上下文信息，并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余，在注意力机制后面添加全局平均池化层代替传统使用的全连接层，可以有效的防止过拟合问题，最后送入softmax层中进行情感分类；采用Transformer和BiLSTM联合训练的方式，并且通过人为观察发现网络迭代10次的效果最优，因此选取10次迭代后的模型作为本发明的最终分类器模型。

具体步骤为：

第一步：将原始的语音信号送入OpenSMILE中去，利用它内部的配置文件实现对语音的特征提取，其中包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值，如最大值、最小值、平均值和标准偏差等；

第二步：将第一步提取的浅层声学特征送入Transformer网络中获得具有全局信息的深层特征；

第三步：将第一步和第二步获得的特征进行融合获得深浅层特征；

第四步：利用宾夕法尼亚大学语音标签强制对齐工具(Penn Phonetics LabForced Aligner,P2FA)对预处理后的转录文本和音频进行强制对齐，对齐后会生成每个单词的时间戳，根据单词与单词之间的间隔长度，利用“.”来对停顿进行编码；

第五步：将第四步获得停顿编码文本送入DC-BERT中，本发明选择DC-BERT倒数第二层的768维输出序列作为话语级文本特征；具体如图3所示，

第六步：将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中，进行情感分类；

具体第五步中DC-BERT的内部形式是：假设给定一个输入特征序列X，那么x_i＝H(x_i-1)+αx_i-1+βx_i-2，其中x_i为输入特征序列X的第i个元素，H为非线性函数，α和β为保留前两层信息的权重系数，使得每一层都能得到前两层处理的结果，却又不占主导地位。DC-BERT模型由12层Transformer组成，每一层的输出理论上都可以作为话语级的文本特征，如图2所示。

具体第六步中使用到的注意力机制有三种，即局部注意力机制，自注意力机制，多头注意力机制。

局部注意力机制，该机制只关注一部分编码隐藏层。局部注意力首先在时间t上，为当前节点生成一个对齐位置p_t，然后选择性地设置一个固定大小为2D+1的上下文窗口。公式如下：

其中D是根据经验选择；p_t为窗口中心，由当前隐藏状态的h_t决定，是一个实数；对齐权重(alignment weights)的计算过程和传统attention相似：

其中标准偏差σ根据经验设定。

自注意力机制利用了输入特征序列元素之间的加权相关性。具体来说，输入序列的每个元素都可以通过一个线性函数投影成三种不同的表示形式：查询(query)、键(key)、值(value)，其计算公式如下：

最终注意矩阵如公式所示：

其中Q为查询矩阵，K为键矩阵，V为句子的值矩阵，d_k是比例因子。

本发明在自注意力机制的基础上，对比了多头自注意力机制对语音情感识别任务的影响。多头是指输入特征序列的每个变量(query、key和value)的投影数不止一组。也就是说，在参数不共享的前提下，将Q、K、V通过参数矩阵映射后，做单层的自注意力，然后将自注意力层层叠加。多头自注意力计算公式为：

head_i＝attention(QW_i ^Q，KW_i ^K，VW_i ^V)

Multihead(Q，K，V)＝Concat(head₁，...，head_n)

经过实验发现基于局部注意力机制的BiLSTM网络要比基于自注意力机制或多头自注意力机制的BiLSTM网络表现更好。经分析，在网络结构上，局部注意力机制要比另外两种注意力机制的模型参数小一些，而对于小数据量的情感识别任务，较为庞大的网络结构未必能取得预期效果。因此优选采用基于局部注意力机制的BiLSTM网络作为分类器。

Claims

1.一种基于声学和文本特征的多模态情感识别方法，其特征在于：利用OpenSMILE提取输入语音的情感浅层特征，并与Transformer网络学习浅层特征后得到的深层特征进行融合生成多层次的声学特征；利用内容相同的语音与转录文本进行强制对齐获取停顿信息，然后将语音中的说话停顿信息编码后添加至转录文本，送入分层密集连接DC-BERT模型中获取文本特征，再与声学特征融合；利用基于注意力机制的双向长短时记忆神经网络BiLSTM-ATT作为分类器，通过BiLSTM网络利用先验知识，获取有效的上下文信息，并通过注意力机制抽取特征中突显情感信息的部分以避免信息冗余，在注意力机制后面添加全局平均池化层代替传统使用的全连接层，可以有效的防止过拟合问题，最后送入softmax层中进行情感分类。

2.根据权利要求1所述基于声学和文本特征的多模态情感识别方法，其特征在于具体步骤如下：

S5：通过宾夕法尼亚大学语音标签强制对齐工具P2FA对步骤S4预处理后的转录文本和原始语音进行强制对齐，从而确定停顿的位置和持续时间；

3.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法，其特征在于：利用内置文件对送入OpenSMILE中的原始的语音信号进行浅层声学特征提取，包括强度、响度、梅尔频率倒谱系数、音调以及它们在话语级上每个短帧的统计值，如最大值、最小值、平均值和标准偏差；

4.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法，其特征在于：将宾夕法尼亚大学语音标签强制对齐工具强制对齐并编码后的转录文本送入改进DC-BERT中，选择DC-BERT倒数第二层的768维输出序列作为话语级文本特征；

5.根据权利要求1所述的基于声学和文本特征的多模态情感识别方法，其特征在于：将声学特征和文本特征融合后送入带注意力机制的BiLSTM网络中，进行情感分类，BiLSTM网络的注意力机制有三种，即局部注意力机制，自注意力机制，多头注意力机制；

其中D是根据经验选择；p_t为窗口中心，由当前隐藏状态的h_t决定，是一个实数；对齐权重alignment weights的计算过程和传统attention相似:

其中x_i表示输入特征序列中第i个元素，q_i，v_i，k_i表示输入特征序列中第i个元素的查询向量，值向量，键向量，

表示获得查询向量，值向量，键向量的三个权重矩阵的转置，

最终注意矩阵如公式所示：

head_i＝attention(QW_i ^Q,KW_i ^K,VW_i ^V)

Multihead(Q,K,V)＝Concat(head₁,…,head_n)。