CN114758676A

CN114758676A - 一种基于深度残差收缩网络的多模态情感识别方法

Info

Publication number: CN114758676A
Application number: CN202210401444.0A
Authority: CN
Inventors: 庄全胜; 吕鑫淼
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-15

Abstract

一种基于深度残差收缩网络的多模态情感识别方法，属于语音情感识别方法的领域。现有的情感识别方法受到周围环境噪音的影响，在提取特征的时候由于特征冗余，存在过拟合的问题。本发明将语谱图特征送入加入注意力机制的深度残差收缩网络，去除语谱图特征的冗余特征，之后通过深度神经网络进行深层次特征处理，之后进行情感识别分类；将文本信号送入XLnet模型进行特征处理，之后经过深度神经网络进行深层次特征处理，进行文本情感识别；得到的两个结果进行决策层融合，得到情感识别结果。本发明通过提高情感分析模型预测的准确性，以及将深度残差收缩网络运用到声谱图的特征选择上，提高情感识别方法的准确性。

Description

一种基于深度残差收缩网络的多模态情感识别方法

技术领域

本发明涉及一种语音情感识别方法，特别涉及一种基于深度残差收缩网络的多模态情感识别方法。

背景技术

伴随着科学技术的不断进步，人工智能的时代已经悄然到来。从1946年世界上第一台通用计算机“ENIAC”诞生到如今大家足不出户滑动指尖就可以阅览世界，我们对于机器设备的期望不再只停留于科学计算，如何让计算机更加智能高效、人机交互更加和谐流畅成为越来越多科技从业者的工作目标和价值追求。情感智能被大家广泛认为是改善人机交互的重要组成部分。让机器拥有情感智能，即感知人类的情感并给出适当的反馈，最根本的是要进行情感计算。

情感是人类交流的具体体现，在人机交互中起着重要的作用。而情感识别是情感计算的基础，能否进行情感识别直接影响情感计算的实现。语音信息作为人类最直接的交流手段，其本身能传递丰富的信息资源，但介于音频信号本身存在一些固有缺陷，如信号弱、噪声强等，从单一的模型获得正确的情感状态很难满足当前情感识别系统的需求。值得注意的是，人们在交流中表达个人情感往往是通过不同的表现形式传达的，面部表情、声音语调、谈吐表达、肢体动作等都是表达内心情感的有效途径。人类表达情感方式的多元化也对情感计算提出了更高的要求。

随着移动设备的广泛使用和网络社交平台的极大普及，大量有关于情感且形式多样的数据变得更容易获取。声音信号，文本语句，面部表情，手势姿态等多模态数据为进一步提升人机交互提供了有益的支撑，多模态情感识别应运而生。

多模态学习情感计算是通过采集多模态数据，利用数据融合与建模方法整合多通道情感信息，发现学习过程中真实的情感变化过程，帮助研究者与实践者理解复杂的学习行为，是突破教育发展瓶颈与优化学习理论的重要途径。当前，多模态情感测量涉及心理、行为和生理层面，涵盖文本、语音、面部表情、身体姿态、生理信息等数据维度。其中，心理测量是运用自我报告的方式获取学习者主观的情感体验；行为测量是利用摄像机、麦克风、鼠标、键盘等工具采集相关数据来分析学习情感状态；而生理测量则是采用传感器捕捉学习者生理反应。多模态的融合利用语音、生理信号、面部表情等多个通道的情感信息互补性提高分类器的识别性能，从而提高识别分类器的准确度。多模态融合的优势在于，当某一个通道的特征或者识别过程受到缺失或者影响时，另一个通道仍能保证较好识别率，使识别系统具有一个良好的鲁棒性。

此外，根据情绪产生理论，在交流中人类的情感不仅会受到自己历史情感的影响而且还会捕捉到情景中他人情感传递的影响。与单独语句的情感检测不同，目标说话人和其他说话人的对话句子能够提供语音信息级别的情感识别的补充信息。所以对话中的情感识别引起了研究人员的广泛关注。在人与人的语音对话中，可能会受到周围环境噪音的影响，在提取特征的时候造成特征冗余，造成过拟合。

因此，本发明提出了一种基于深度残差收缩网络的文本和语音的情感识别模型，在提取出语音情感特征后，对冗余特征进行去除，以此来提高情感识别准确率。

发明内容

本发明的目的是为了解决现有的情感识别方法受到周围环境噪音的影响，在提取特征的时候由于特征冗余，存在过拟合的问题，而提出一种基于深度残差收缩网络的多模态情感识别方法。

一种基于深度残差收缩网络的多模态情感识别方法，所述方法通过以下步骤实现：

步骤一、将语音原始信号处理得到语谱图，将语谱图特征送入加入了注意力机制的深度残差收缩网络，以去除语谱图特征的冗余特征；

步骤二、将去除了冗余特征的语谱图特征通过深度神经网络进行深层次特征处理，之后进行情感识别分类；

步骤三、将文本信号送入XLnet模型进行特征处理，之后经过深度神经网络进行深层次特征处理，进行文本情感识别；

步骤四、步骤二和步骤三得到的两个结果进行决策层融合，得到情感识别结果。

优选地，步骤一所述的将语谱图特征送入加入了注意力机制的深度残差收缩网络，以去除语谱图特征的冗余特征的过程为，

步骤一一、设计深度残差收缩网络：

深度残差收缩网络由残差收缩单元堆叠而成，残差收缩单元主要用来获得阈值，使用绝对运算和GAP层将特征图简化为一维矢量，然后传播到两层FC网络中；其中，FC网络中的第二层具有一个以上的神经元，并且神经元的数量等于输入特征图的通道数；

使用下式将FC网络的输出缩放到(0,1)的范围：

其中，z代表神经元的特征，α是缩放系数；那么，阈值计算如下式所示：

其中，τ是代表求得的阈值，i、j、c分别是特征图的宽度，高度和通道的索引；软阈值化的阈值不仅需要为正，而且也不能太大；如果阈值大于特征图的最大绝对值，则软阈值输出将为零；

步骤一二、软阈值化过程：

通过软阈值函数对特征进行转化的过程称为软阈值化，其实质是将接近0的特征转换为0，依旧保留正负特征；软阈值函数如下公式所示；其中，x是输入特征，y是输出特征，thr是阈值；

对输入数据x进行求导，可得公式如下，软阈值函数的导数为1或0；

利用导数的特点和不同的数据形式，软阈值的过程也可表示为下式，其中，x表示需要进行软阈值化的输入数据，thr是学习到的阈值，sign(x)是符号函数；

soft＝(x,a)＝sign(x)*max{|x|-thr,0}

如下公式，当x>0时为1，当x<0时为-1；max是求二者的最大值；

将软阈值化和深度学习方法结合消除噪声并构建高区分性特征；

步骤一三、构建自注意力机制，模型自行学习输入信息的权值分配，通过计算向量之间的关联性进行打分；

首先，将向量矩阵Q与向量矩阵K的各维度向量进行运算得出两者之间的相似度，通过对这些数值计算得出相应的权重值；

然后，通过SoftMax函数对计算出的权重进行归一化处理；

最后，将权值与矩阵V中各个维度的向量加权求和得出最后的注意力矩阵；当K＝V＝Q时，即为自注意力机制；自注意力机制的计算公式如下：

Q＝(q1,q2,…,ql)∈Rn×d、K＝(k1,k2,…,kl)∈Rn×d、V＝(v1,v2,…,vn)∈Rn×d，d表示单个向量的维度，n为输入向量的个数，d和n均是由输入矩阵X进行线性变换得到的；KT表示K的转置；dk是一个用于调节内积的维度为k的矩阵；输入序列线性映射过程公式如下：

其中Wq、Wk、Wv为三个线性映射参数矩阵，由模型在训练中自行学习得出。

优选地，所述的将文本信号送入XLnet模型进行特征处理，之后经过深度神经网络进行深层次特征处理，进行文本情感识别的过程为：

设计基于融合情感词典的XLNet预训练模型，将情感词典匹配得到的情感词与原文拼接，再采用XLNet模型充分学习上下文语义信息，同时，设计基于LSTM+Attention网络层的XLNet预训练模型，在采用XLNet预训练模型学习词向量的基础上，添加LSTM+Attention混合的网络层，通过该网络层对词向量进一步学习并加强特殊词向量的权值。

本发明的有益效果为：

本发明通过优化XLnet模型，获取更为丰富的语义信息，进而提高情感分析模型预测的准确性。并将深度残差收缩网络运用到声谱图的特征选择上，将声谱图中噪声和无关特征去除问题，从而加强深度神经网络从含噪声信号中提取有用特征的能力。以提高语音情感识别的准确性。

具体地：

1)设计基于融合情感词典的XLNet预训练模型，通过将情感词典匹配得到的情感词与原文拼接，增加文本情感极性比重，再采用XLNet模型充分学习上下文语义信息，该模型能解决情感词典在不同语言环境下无法识别正确情感词极性的缺陷，扩大情感词典的适用范围。同时提出基于LSTM+Attention网络层的XLNet预训练模型，在采用XLNet预训练模型学习词向量的基础上，添加LSTM+Attention混合的网络层，该网络层能对词向量进一步学习并加强特殊词向量的权值，使得模型能编译更多的上下文语义信息，提取的高质量词向量语义具有更丰富、更准确的优点，解决静态词向量模型的缺陷，同时更适用于短文本情感分析任务。

2)语音情感识别特征提取，大部分采用MFCC作为特征输入，MFCC经过了较多人工提取步骤，而语音中的情感信息是一个高维的具有模糊性和不确定性的特征，人工无法完整提取，因此在提取MFCC的过程中会损失一部分情感信息，影响情感识别效果。在语音情感识别中，通常提取时域特征和频域特征进行情感识别，但仅仅从时域特征或者频域特征进行情感识别都存在着局限性。时域特征没有直观的体现语音信号的频率特性，频域特征没有体现语音信号随时间的变化关系。本发明采用语谱图，利用语谱图同时具备时域特征和频域特征的优点，表示语音频谱随时间的变化情况，横轴为时间，纵轴为频率，颜色深浅表示该时刻频率成分的能量强弱。颜色深的，频谱能量高，颜色浅的，频谱能量低。

3)使用深度残差收缩网络，通过注意力机制注意到不重要的特征，通过软阈值函数将它们置为零；或者说，通过注意力机制注意到重要的特征，将它们保留下来，从而加强深度神经网络从含噪声信号中提取有用特征的能力。从而在提取特征的过程中，去除与识别感情无关的特征和对话中的噪音，提高神经网络的特征提取能力。

附图说明

图1为本发明方法的流程图。

具体实施方式

具体实施方式一：

本实施方式的一种基于深度残差收缩网络的多模态情感识别方法，如图1所示，所述方法通过以下步骤实现：

目前的情感识别系统多数是采用单通道情感数据进行识别研究，而本发明通过加权融合方法将两种不同来源的数据的分类结果进行再次融合，构建基于语音信号与文本信息的双模态情感识别系统；具体地：

步骤一、将语音原始信号处理得到语谱图，将语谱图特征送入加入了注意力机制的深度残差收缩网络，以去除语谱图特征的冗余特征，从而将学习到的特征进行变换以消除噪声影响；由于语谱图同时具备了时域特征和频域特征的优点，表示语音频谱随时间的变化情况，横轴为时间，纵轴为频率，颜色深浅表示该时刻频率成分的能量强弱。颜色深的，频谱能量高，颜色浅的，频谱能量低。由于语音情感识别特征提取，大部分采用MFCC作为特征输入，MFCC经过了较多人工提取步骤，而语音中的情感信息是一个高维的具有模糊性和不确定性的特征，人工无法完整提取，因此在提取MFCC的过程中会损失一部分情感信息，影响情感识别效果。在语音情感识别中，通常提取时域特征和频域特征进行情感识别，但仅仅从时域特征或者频域特征进行情感识别都存在着局限性。时域特征没有直观的体现语音信号的频率特性，频域特征没有体现语音信号随时间的变化关系。所以本发明采用语谱图特征。

具体实施方式二：

与具体实施方式一不同的是，本实施方式的一种基于深度残差收缩网络的多模态情感识别方法，所述的将语谱图特征送入加入了注意力机制的深度残差收缩网络，以去除语谱图特征的冗余特征的过程为，

步骤一一、设计深度残差收缩网络：

深度残差收缩网络由残差收缩单元堆叠而成，残差收缩单元主要用来获得阈值，获取阈值的步骤是使用绝对运算和GAP层将特征图简化为一维矢量，然后传播到两层FC网络中；其中，FC网络中的第二层具有一个以上的神经元，并且神经元的数量等于输入特征图的通道数；

使用下式将FC网络的输出缩放到(0,1)的范围：

步骤一二、软阈值化过程：

本发明将通过软阈值函数对特征进行转化的过程称为软阈值化，其实质是将接近0的特征转换为0，依旧保留正负特征；软阈值函数如下公式所示；其中，x是输入特征，y是输出特征，thr是阈值；

对输入数据x进行求导，可得公式如下，可以看到软阈值函数的导数为1或0，这对于防止梯度消失和爆炸问题有效；

soft＝(x,a)＝sign(x)*max{|x|-thr,0}

如下公式，当x>0时为1，当x<0时为-1；max是求二者的最大值；为了方便处理，本发明采用式上式进行软阈值化；

软阈值化有一个关键的问题——获取阈值。深度学习作为一种良好的自学习方式，能够自动学习过滤器。因此，将软阈值化和深度学习方法结合是消除噪声并构建高区分性特征的有效的方法；

步骤一三、构建自注意力机制，模型自行学习输入信息的权值分配，通过计算向量之间的关联性进行打分，它可以让模型甄别出关键信息将更多的计算资源投入其中从而学习重要特征。注意力机制实际上就是通过对向量矩阵Q的查询操作得到一系列键值对的映射。

然后，通过SoftMax函数对计算出的权重进行归一化处理；

本发明使用深度残差收缩网络，通过注意力机制注意到不重要的特征，通过软阈值函数将它们置为零；即通过注意力机制注意到重要的特征，将它们保留下来，从而加强深度神经网络从含噪声信号中提取有用特征的能力。

具体实施方式三：

与具体实施方式一或二不同的是，本实施方式的一种基于深度残差收缩网络的多模态情感识别方法，所述的将文本信号送入XLnet模型进行特征处理，之后经过深度神经网络进行深层次特征处理，进行文本情感识别的过程为：

设计基于融合情感词典的XLNet预训练模型，将情感词典匹配得到的情感词与原文拼接，增加文本情感极性比重，再采用XLNet模型充分学习上下文语义信息，该模型能解决情感词典在不同语言环境下无法识别正确情感词极性的缺陷，扩大情感词典的适用范围。同时，设计基于LSTM+Attention网络层的XLNet预训练模型，在采用XLNet预训练模型学习词向量的基础上，添加LSTM+Attention混合的网络层，通过该网络层对词向量进一步学习并加强特殊词向量的权值，使得模型能编译更多的上下文语义信息，提取的高质量词向量语义具有更丰富、更准确的优点，解决静态词向量模型的缺陷，同时更适用于短文本情感分析任务。

本发明的实施例公布的是较佳的实施例，但并不局限于此，本领域的普通技术人员，极易根据上述实施例，领会本发明的精神，并做出不同的引申和变化，但只要不脱离本发明的精神，都在本发明的保护范围内。

Claims

1.一种基于深度残差收缩网络的多模态情感识别方法，其特征在于：所述方法通过以下步骤实现：

2.根据权利要求1所述的一种基于深度残差收缩网络的多模态情感识别方法，其特征在于：步骤一所述的将语谱图特征送入加入了注意力机制的深度残差收缩网络，以去除语谱图特征的冗余特征的过程为，

步骤一一、设计深度残差收缩网络：

使用下式将FC网络的输出缩放到(0,1)的范围：

步骤一二、软阈值化过程：

soft＝(x,a)＝sign(x)*max{|x|-thr,0}

如下公式，当x>0时为1，当x<0时为-1；max是求二者的最大值；

然后，通过SoftMax函数对计算出的权重进行归一化处理；

3.根据权利要求1或2所述的一种基于深度残差收缩网络的多模态情感识别方法，其特征在于：所述的将文本信号送入XLnet模型进行特征处理，之后经过深度神经网络进行深层次特征处理，进行文本情感识别的过程为：