CN114021524B

CN114021524B - 一种情感识别方法、装置、设备及可读存储介质

Info

Publication number: CN114021524B
Application number: CN202111148250.6A
Authority: CN
Inventors: 王斌强; 董刚; 赵雅倩; 李仁刚; 曹其春; 刘海威
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-02-27
Anticipated expiration: 2041-09-29
Also published as: WO2023050708A1; CN114021524A

Abstract

本申请公开了一种情感识别方法、情感识别装置、设备及可读存储介质，考虑到不同模态之间特征对最终情感识别任务的判别性贡献不同，在提取到各模态的特征向量之后，分别利用不同权重的长短时记忆网络对各模态的特征向量进行编码，得到对应的隐含状态向量。为了充分利用文本特征在情感识别当中的强判别性，采用跨越的连接方式和注意力之后的音频隐含状态向量和视频隐含状态向量进行跨层次的拼接，得到融合表达向量，进而拼接相关向量得到综合特征。最终，利用综合特征，得到目标对象的情感识别结果。即，基于非均匀的注意力机制来融合不同模态的特征向量，能够有效提升信息判别性，最终使得情感识别结果更加准确。

Description

一种情感识别方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种情感识别方法、装置、设备及可读存储介质。

背景技术

在人们日常的交互过程中，情感占据着重要的部分。而在应用中，交互从早期的键盘输入到如今的触屏，甚至是语音输入等。在应用中，语音输入，更多识别的还停留在语义内容的层面，如语音翻译成文本，但是这种翻译完全损失了情感相关的信息。

为了使应用能够提供更好的人机交互体验，通过情感识别来将情感信息添加到人机交互当中。早期的情感识别一般是单模态，识别出文本或者语音当中携带的情感信息。但人类情感的自然传递是一个多个感官协同表达的结果。不仅仅是语言中携带的情感，如语调也携带着情感的信息，随后主要基于双模态的情感识别，主要集中在文本和声音。而后，计算机视觉也加入到情感识别中。

即，情感识别已经集中于基于多模态，如视觉，音频和文本三个方面的信息来做出最终的情感识别结果。但是，现有的多模态融合算法应用到具体情感识别当中，存在提取的多模态信息判别性差的问题，进而导致情感识别结果不准确，无法满足实际应用需求。

综上所述，如何有效地解决情感识别中信息判别性差等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本申请的目的是提供一种情感识别方法、装置、设备及可读存储介质，基于非均匀的注意力机制来融合不同模态的特征向量，能够有效提升信息判别性，最终使得情感识别结果更加准确。

为解决上述技术问题，本申请提供如下技术方案：

一种情感识别方法，包括：

对目标对象对应的文本、音频和视频进行特征提取，得到文本特征向量、音频特征向量和视频特征向量；

分别利用不同权重的长短时记忆网络对所述文本特征向量、所述音频特征向量和所述视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量；

将所述文本隐含状态向量分别与所述音频隐含状态向量、所述视频隐含状态向量进行特征拼接，得到文本音频拼接向量和文本视频拼接向量；

获取文本音频注意权重和文本视频注意权重；

利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量；

拼接所述融合表达向量、所述文本隐含状态向量、所述音频隐含状态向量和所述视频隐含状态向量，得到综合特征；

利用所述综合特征，得到所述目标对象的情感识别结果。

优选地，所述获取文本音频注意权重和文本视频注意权重，包括：

将所述文本隐含状态向量和所述音频隐含状态向量输入至音频注意力层，得到输出的所述文本音频注意权重；

将所述文本隐含状态向量和所述视频隐含状态向量输入至视频注意力层，得到输出的所述文本视频注意权重。

优选地，利用所述综合特征，得到所述目标对象的情感识别结果，包括：

对所述综合特征进行线性映射，得到所述目标对象的情感识别结果。

优选地，对所述综合特征进行线性映射，得到所述目标对象的情感识别结果，包括：

对所述综合特征进行预设情感识别类别数目的线性映射，得到所述目标对象的情感识别结果。

优选地，在利用所述综合特征，得到所述目标对象的情感识别结果之后，还包括：

向所述目标对象输出与所述情感识别结果匹配的交互信息。

优选地，利用所述文本音频拼接向量、所述文本音频注意权重、所述文本视频拼接向量和所述文本视频注意权重，得到非均匀注意力的融合表达向量，包括：

对所述文本音频拼接向量和所述文本音频注意权重进行相乘处理，得到文本音频加权向量；

对所述文本视频拼接向量和所述文本视频注意权重进行相乘处理，得到文本视频加权向量；

利用降维层对所述文本音频加权向量和所述文本视频加权向量进行降维，得到文本音频降维向量和文本视频降维向量；

拼接所述文本音频降维向量和所述文本视频降维向量，并在拼接后进行归一化处理，得到所述融合表达向量。

优选地，还包括：

对所述文本隐含状态向量进行降维，得到文本隐含状态降维向量；

相应地，所述拼接所述文本音频降维向量和所述文本视频降维向量，并在拼接后进行归一化处理，得到所述融合表达向量，包括：

拼接所述文本音频降维向量、所述文本视频降维向量和所述文本隐含状态降维向量，并在拼接后进行归一化处理，得到所述融合表达向量。

一种情感识别装置，包括：

特征提取模块，用于对目标对象对应的文本、音频和视频进行特征提取，得到文本特征向量、音频特征向量和视频特征向量；

特征编码模块，用于分别利用不同权重的长短时记忆网络对所述文本特征向量、所述音频特征向量和所述视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量；

特征拼接模块，用于将所述文本隐含状态向量分别与所述音频隐含状态向量、所述视频隐含状态向量进行特征拼接，得到文本音频拼接向量和文本视频拼接向量；

权重确定模块，用于获取文本音频注意权重和文本视频注意权重；

权重融合模块，用于利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量；

综合特征获取模块，用于拼接所述融合表达向量、所述文本隐含状态向量、所述音频隐含状态向量和所述视频隐含状态向量，得到综合特征；

识别结果确定模块，用于利用所述综合特征，得到所述目标对象的情感识别结果。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述情感识别方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述情感识别方法的步骤。

应用本申请实施例所提供的方法，对目标对象对应的文本、音频和视频进行特征提取，得到文本特征向量、音频特征向量和视频特征向量；分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量；将文本隐含状态向量分别与音频隐含状态向量、视频隐含状态向量进行特征拼接，得到文本音频拼接向量和文本视频拼接向量；获取文本音频注意权重和文本视频注意权重；利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量；拼接融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量，得到综合特征；利用综合特征，得到目标对象的情感识别结果。

考虑到不同模态之间特征对最终情感识别任务的判别性贡献不同，在本申请中用不同的注意力机制来加权来自各模态的信息，即在提取到文本特征向量、音频特征向量和视频特征向量之后，分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量。此外，为了充分利用文本特征在情感识别当中的强判别性，采用跨越的连接方式和注意力之后的音频隐含状态向量和视频隐含状态向量进行跨层次的拼接，得到融合表达向量，然后采用拼接融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量的方式，得到综合特征。最终，利用综合特征，得到目标对象的情感识别结果。即，基于非均匀的注意力机制来融合不同模态的特征向量，能够有效提升信息判别性，最终使得情感识别结果更加准确。

相应地，本申请实施例还提供了与上述情感识别方法相对应的情感识别装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种情感识别方法的实施流程图；

图2为本申请实施例中一种基于非均匀注意力机制的情感识别网络主干框架结构示意图；

图3为本申请实施例中一种基于非均匀注意力机制的多模态融合示意图；

图4为本申请实施例中一种情感识别方法的具体实施示意图；

图5为本申请实施例中一种情感识别装置的结构示意图；

图6为本申请实施例中一种电子设备的结构示意图；

图7为本申请实施例中一种电子设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例中一种情感识别方法的流程图，该方法可以应用于如图2所示的基于非均匀注意力机制的情感识别网络主干框架结构中。基于非均匀注意力机制的情感识别网络主干框架结构包括输入层、输入映射层，特征融合层和输出层。输入层接收输入的三种不同模态的特征数据，由于不同模态的数据之间存在巨大的语义鸿沟，在输入层之后，设计输入映射层对输入的不同模态的数据进行语义映射，使得不同模态的数据投射到各自的语义空间。之后，将映射之后的特征输入特征融合层产生融合特征向量，最后，融合特征向量输入到输出层获得最终的情感识别结果。为了更好地建模视频序列间的时间信息，特征融合层的主体框架使用长短时记忆网络。

该情感识别方法包括以下步骤：

S101、对目标对象对应的文本、音频和视频进行特征提取，得到文本特征向量、音频特征向量和视频特征向量。

其中，目标对象可以具体为需要进行情感识别的某个应用的用户。进行特征提取的文本(Textual)、音频(Acoustic)和视频(Visual)则可以具体为该用户输入的文本、音频和视频。

在本实施例中，可以采用文本、音频和视频分别对应的特征提取模型进行相应特征提取，从而得到文本特征向量、音频特征向量和视频特征向量。

为了便于说明，在本申请实施例中，本文特征向量表示为音频特征向量表示为/>视频特征向量即指视频中图像特征向量表示为/>

S102、分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量。

其中，长短时记忆网络(LSTM，Long-Short Term Memory)，是一种特殊的循环神经网络，通过循环地将不同时间步的数据输入到相同结构的记忆结构中，来建模不同时间步间的信息。单个的记忆结构是一组运算的集合，该组运算接收输入数据，生成中间的输出变量，在LSTM中，输出的中间变量称为隐含状态(Hidden States)和细胞状态(Cell States)。每个模态的映射向量分别使用一个LSTM来进行建模，这里以文本数据为例，对LSTM的运算过程进行解释。假设一段文本长度为L，代表这段文本包含L个单词。每个单词经过输入映射层之后的输出为映射向量其中id的范围是1到L，t符号代表该向量对应的是文本(Text)的表达，映射向量的维度是一个整数，用D^m表示，其中m的含义是映射(Mapping)。该文本映射向量就是LSTM的输入。LSTM的结构特点是包含三个门控单元，每个门控单元是用来控制信息流动的。三个门控单元分别为输入门，遗忘门和输出门，每个门控单元的输出是一个和输入等长的向量，该向量中每个数值的取值范围是0到1，0代表对该位置的信息进行屏蔽，1代表对该位置的信息进行全部通过，中间值代表对该位置的信息进行不同程度的控制。因为LSTM的记忆结构是完全相同的，这个结构不仅包含计算方式，还包括其中计算矩阵的权重，为了保持形式的统一，这里需要构建两个向量：隐含状态向量h^t和细胞状态向量c^t，这两个向量的维度用整数D^h表示。输入门的作用是对输入的文本映射向量/>和上一时间步的隐含状态向量/>的信息进行控制，遗忘门的作用是对上一时间步的细胞状态向量的信息流动进行控制，输出门控制的是来自输入门和遗忘门的输出向量流动到下一隐含状态的信息量。具体地，以上过程用公式描述：

其中，·代表矩阵和向量的乘法，*代表对应元素相乘，W_fx，W_ix，W_ox，W_cx代表对进行维度映射的矩阵，矩阵的维度是D^h×D^m，W_fh，W_ih，W_oh，W_ch代表对/>进行维度映射的矩阵，矩阵的维度是D^h×D^h，/>代表的是细胞状态的一个中间变量，σ代表sigmoid函数：

tanh代表非线性映射：

通过以上方式不断更新隐含状态向量h^t和细胞状态向量c^t，一般使用每个时间步的隐含状态向量来代表当前LSTM记忆结构的输出特征向量。

以上即LSTM对单个模态信息编码的过程。

在本申请实施例中，为了充分考虑不同模态间判别性特征的融合，在相邻时间步间的信息传递过程中，以非均匀的注意力机制来融合不同模态的输出特征向量。具体的结构如图3所示，即从整体上看，分别使用三个不同权重的LSTM对输入的本文(Textual)特征向量音频(Acoustic)特征向量/>视频中图像(Visual)特征向量/>进行编码输出对应的隐含状态向量和细胞状态向量：文本隐含状态向量/>文本细胞状态向量/>音频隐含状态向量/>音频细胞状态向量/>视频隐含状态向量/>视频细胞状态向量/>

需要注意的是，在本申请实施例中对于细胞状态向量没有过多阐述，对于细胞状态向量的处理参照LSTM的相关处理方式进行处理即可。

S103、将文本隐含状态向量分别与音频隐含状态向量、视频隐含状态向量进行特征拼接，得到文本音频拼接向量和文本视频拼接向量。

由于文本特征对于情感识别具有强判别性，将文本隐含状态向量和音频隐含状态向量在特征维度上进行特征拼接，得到拼接后的向量，即文本音频拼接向量。

类似的，将文本隐含状态向量和图像隐含状态向量在特征维度上进行特征拼接，得到拼接后的向量，即文本视频拼接向量。

请参考图3中使用id为1和2为例，对文本隐含状态向量分别与音频隐含状态向量、视频隐含状态向量进行特征拼接进行详细说明，将输出的文本隐含状态向量和音频隐含状态向量/>在特征维度上进行特征拼接，得到拼接后的向量/>类似的，将输出的文本隐含状态向量/>和图像隐含状态向量/>在特征维度上进行特征拼接，得到拼接后的向量

S104、获取文本音频注意权重和文本视频注意权重。

在本实施例中，为了区别不同的注意力权重，还可以获取文本音频注意权重和文本视频注意权重。即，文本音频注意权重对应文本音频拼接向量，文本视频注意权重对应文本视频拼接向量。

具体的，获取文本音频注意权重和文本视频注意权重，包括：

步骤一、将文本隐含状态向量和音频隐含状态向量输入至音频注意力层，得到输出的文本音频注意权重；

步骤二、将文本隐含状态向量和视频隐含状态向量输入至视频注意力层，得到输出的文本视频注意权重。

为便于描述，下面将上述两个步骤结合起来进行说明。

可以预先设置一个音频注意力层，如图3所示的音频注意力层(AcousticAttention Layer)，该层的主要结构是线性映射加sigmoid函数，具体为：LinearLayer+Dropout+Sigmoid，其中Linear Layer是线性映射层，Dropout是为了防止训练过程中参数的过拟合，Sigmoid是为了将该层的输出归一化到0和1之间，这样能代表注意力机制当中的注意力程度。该层的输入文本隐含状态向量和音频隐含状态向量，输出为文本音频注意权重。例如，输入为文本隐含状态向量和音频隐含状态向量/>则输出为一个权重向量

相应地，可以设置一个视频注意力层(或称之为图像注意力层)，如图3所示的图像注意力层(Visual Attention Layer)，该层的主要结构是线性映射加sigmoid函数，具体的，Linear Layer+Dropout+Sigmoid，其中Linear Layer是线性映射层，Dropout是为了防止训练过程中参数的过拟合，Sigmoid是为了将该层的输出归一化到0和1之间，这样能代表注意力机制当中的注意力程度。该层的输入为文本隐含状态向量和视频隐含状态向量，输出为文本视频注意权重。例如，当输入为文本隐含状态向量和图像隐含状态向量/>输出是一个权重向量/>

需要注意的是，音频注意力层和视频注意力层分别对应的线性映射层的权重是不共享的，即二者并不相同。

S105、利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量。

完成文本与音频的特征信息拼接，文本与视频的特征信息拼接，并获得文本视频拼接向量和文本视频注意权重之后，便可基于非均匀注意力机制进行融合，最终得到融合表达向量。

具体的，即在LSTM输入部分增加了一个元素，就是代表非均匀注意力机制中的融合表达向量z，z初始化为全0向量，在LSTM的计算单元当中，也存在与z相关的需要学习的参数矩阵。

得到文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重之后，便可对融合表达向量进行赋值，最终得到与当前文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重匹配的融合表达向量。

具体的，利用文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量，包括：

步骤一、对文本音频拼接向量和文本音频注意权重进行相乘处理，得到文本音频加权向量；

步骤二、对文本视频拼接向量和文本视频注意权重进行相乘处理，得到文本视频加权向量；

步骤三、利用降维层对文本音频加权向量和文本视频加权向量进行降维，得到文本音频降维向量和文本视频降维向量；

步骤四、拼接文本音频降维向量和文本视频降维向量，并在拼接后进行归一化处理，得到融合表达向量。

为了便于描述，下面将上述四个步骤结合起来进行说明。

即，首先对文本音频拼接向量进行权重赋值，即对文本音频拼接向量和文本音频注意权重进行相乘处理，得到文本音频加权向量，文本音频加权向量即为对文本音频拼接向量进行权重赋值后的结果。相应地，文本视频拼接向量的权重赋值亦可参照与此，从而得到文本视频加权向量。

例如，将拼接后的向量和对应的权重向量相乘，可以获得加权之后的特征向量

其中，降维层(Dimension Reduction Layer)，将包含语义信息的特征向量的维度进一步压缩，降维层的结构定义为Linear Layer+Dropout，其中Linear Layer是线性映射层，Dropout是为了防止训练过程中参数的过拟合。基于加权得到的文本音频加权向量和文本视频加权向量分别经过不同的降维层进行降维，然后将输出向量，即文本音频降维向量和文本视频降维向量拼接(Concatenate)起来，并经过归一化指数函数(softmax函数)进行归一化获得最终非均匀注意力的融合表达向量。

优选地，为了充分利用本文表达中的有效信息，还可以对文本隐含状态向量进行降维，得到文本隐含状态降维向量，相应地，步骤四拼接文本音频降维向量和文本视频降维向量，并在拼接后进行归一化处理，得到融合表达向量，包括：拼接文本音频降维向量、文本视频降维向量和文本隐含状态降维向量，并在拼接后进行归一化处理，得到融合表达向量。也就是说，将文本隐含状态向量，和基于加权得到的特征向量文本音频加权向量和文本视频加权向量三者分别经过不同的降维层进行降维，然后将输出向量拼接起来，并经过softmax函数进行归一化获得最终非均匀注意力的融合表达向量z₁。

例如，如图3所示，可将文本隐含状态向量和基于加权得到的特征向量/>和三者分别经过不同的降维层进行降维，然后将输出向量拼接起来，并经过softmax函数进行归一化获得最终非均匀注意力的融合表达z₁。

S106、拼接融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量，得到综合特征。

得到融合表达向量、文本隐含状态向量音频隐含状态向量和视频隐含状态向量之后，便可对融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量进行拼接，得到综合特征。在本实施例中，对于拼接顺序并不做限定，仅需训练和应用时保障顺序一致即可。

也就是说，针对每一个id进行不断重复计算过程，最终获得id＝L时对应的表达z_L，然后将四个特征向量拼接(续接)起来，将拼接结果作为综合特征。

S107、利用综合特征，得到目标对象的情感识别结果。

具体的，可以对综合特征进行线性映射，得到目标对象的情感识别结果。

考虑到情感识别可划分为不同识别类别数目，如划分为两大类：积极和消极，如划分为流大类：开心、伤心、恐惧、恶心、生气和惊讶。因此，在对综合特征进行线性映射，得到目标对象的情感识别结果，可以具体包括：对综合特征进行预设情感识别类别数目的线性映射，得到目标对象的情感识别结果。

在利用综合特征，得到目标对象的情感识别结果之后，还可以向目标对象输出与情感识别结果匹配的交互信息。当然，也可以将情感识别结果进行保存，从而追踪目标对象的情感变化。

应用本申请实施例所提供的方法，考虑到不同模态之间特征对最终情感识别任务的判别性贡献不同，在本申请中用不同的注意力机制来加权来自各模态的信息，即在提取到文本特征向量、音频特征向量和视频特征向量之后，分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量。此外，为了充分利用文本特征在情感识别当中的强判别性，采用跨越的连接方式和注意力之后的音频隐含状态向量和视频隐含状态向量进行跨层次的拼接，得到融合表达向量，然后采用拼接融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量的方式，得到综合特征。最终，利用综合特征，得到目标对象的情感识别结果。即，基于非均匀的注意力机制来融合不同模态的特征向量，能够有效提升信息判别性，最终使得情感识别结果更加准确。

为便于本领域技术人员更好地理解本申请实施例所提供的情感识别方法，下面结合具体实施情况，对情感识别方法进行详细说明。

请参考图4，从整体上数据分为训练和测试，在开始实施之前，首先构建训练数据和定义模型，随后使用训练数据对模型参数进行更新，如果不满足模型收敛的条件，则继续进行模型参数的更新，如果满足模型收敛的条件，进入测试阶段，输入测试数据，模型计算输出结果，整个流程结束。

需要注意的是，这里的模型收敛条件不仅包含上述的训练次数到达设定的次数或者训练误差下降程度稳定到一定范围，还可以设定预测值和真实值间的误差的阈值，当模型的误差小于给定阈值的时候，可以判定训练停止。在模型损失函数的定义上，可以根据输入数据包含的情感类别数目进行调整，如果是两种类型(一般定义为积极和消极两种情感)，可以采用平均绝对误差(Mean Absolute Error)作为损失函数，也可以采用均方误差(Mean Square Error)等其他度量的方法。如果是多种类型，可以选用适用于多分类的交叉熵损失函数，或者适用于多分类模型的其他改进方法。在模型的参数更新方面，可以采用RMSprob(Root Mean Square propagation)算法，同时也可以选用其它基于梯度下降的参数优化方法，包括但不限于随机梯度下降(Stochastic Gradient Descent，SGD)，Adagrad(Adaptive Subgradient)，Adam(Adaptive Moment Estimation)，Adamax(Adam基于无穷范数的变种)，ASGD(Averaged Stochastic Gradient Descent)，RMSprob等。

为了更清楚明确地说明本申请的技术方案，接下来按照本申请的内容构建神经网络，进行情感识别，以便对本申请的具体实施进行详细说明。需要注意的是，此处所描述的具体实施方式仅用于解释本申请，而并非限定本申请。

获取多模态的情感识别数据集，该数据集中包含CMUMOSI，CMUMOSEI，IEMOCAP三个数据集，在本文中以CMUMOSI为例进行说明。需要注意的是，同样的操作在包括但不限于CMUMOSEI，IEMOCAP的同类数据集上一样适用。CMUMOSI数据集包含2199个自拍的视频片段，整体上被划分为三个部分：训练集，验证集和测试集。

基于视频数据提取的特征数据，其中训练集可包含1284个样本数据，验证集包含229个样本数据，测试集包含686个样本数据。不同模态数据分别是：文本是一个包含最多50个单词的句子，如果句子单词数目不足50，则使用0来填充；图像数据(即视频中的图像)是对和每个单词对齐的视频序列图像的特征表达，每段视频序列对应的表达是一个维度为20的向量，同样的每个单词对应的音频片段被压缩成一个特征表达，每个音频片段的表达是一个维度为5的向量。对于输出标签，每个样本数据对应一个数值，数值的范围是(-3，3)，分别代表从最消极的情感到最积极的情感，在本次实施中，通过0为分界线，将情感识别分为两分类的任务(大于等于0定义为积极情感，小于0定义为消极情感)。

定义网络结构，参照图2和图3，分别使用三个不同参数的LSTM来进行三个模态的进一步特征表达，在时间步上，插入设计好的非均匀注意力机制模块，用来获得三种模态的融合特征。最后一个时间步的融合特征和各个LSTM最终的隐藏状态向量表达拼接在一起，经过softmax归一化之后，最后通过一个线性的映射层来获得输出。

基于损失函数，根据具体实施情况，选择合适的损失函数来度量训练过程中模型的输出预测值和数据集中的标签值。本次实施中因为是二分类，所以这里采用平均绝对误差(Mean Absolute Error)作为损失函数。

按照上文中的参数优化方法，根据实际实施情况，选择合适的优化方法来更新模型中需要更新的参数。本次实施中采用RMSprob(Root Mean Square propagation)方法来更新参数。

在训练过程中，首先在训练集上进行参数的更新，每次在整个训练集上调整一遍参数(一个Epoch)之后，在验证集上进行损失计算并记录，设置训练的Epoch数目，这里设置为10。选择验证集上损失最小的模型作为最终训练输出的模型。

将测试数据中的三种模态的信息输入到训练好的模型中进行前向计算，得到最终的情感识别输出。

可见，该情感识别方法实施过程中，采用非均匀注意力机制模块的构建模型，非均匀注意力机制的思想是根据不同模态的输入分别采用注意力机制，在具体实现上，在情感识别中具有强判别性的文本特征作为主要特征来指导其他两种特征的融合，主要包括特征拼接操作，两个注意力层，两个和注意力层相连的降维层；基于文本特征的降维层，最终拼接加softmax得到融合特征表达。值得注意的，这里保护的是非均匀注意力机制的框架，其中具体的注意力层和降维层的设计可以选择其他类似功能的模块。

可配置的情感识别类别数目，即针对情感识别任务，本申请根据对数据集标签的不同划分，在具体的实施过程中，将情感识别的类型分为二分类和多分类，并根据不同类型的任务适配不同的损失函数来进行误差度量，同时可适配多种不同的模型参数优化算法进行模型参数更新。

多角度注意力机制的可扩展。即，除了可应用于实施例中列举的情感识别任务外，还可应用于多种涉及多模态特征融合的其他任务，比如多模态视频分类，多模态视频人物识别等。

与现有的多模态情感识别方法相比，本申请所提出情感识别方法，即基于非均匀注意力机制的多模态情感识别方法具有以下显著优点：

(1)、利用不同模态之间特征对最终识别任务的判别性贡献不同，提出采用不同的注意力机制来加权来自各模态的信息；

(2)、充分利用文本特征在情感识别当中的强判别性，采用跨越的连接方式和注意力层之后的音频融合特征和图像融合特征进行跨层次的拼接，补充在注意力层的计算过程中文本信息的损失；

(3)、可配置的情感识别类别数目，通过对数据集的标签进行类别划分，可以实现不同数目情感类型的识别，同时根据识别数目的设置，选择不同的损失函数进行模型参数的更新。

需要注意的是，本申请中的注意力层的个数不限于一个，还可以通过扩展相同的结构，使用不同的权重参数，将不同角度的注意力模块输出拼接起来，需要改变的只是后续降维操作的输入维度，而不需要改变网络的其他结构，从而实现多角度的多头注意力机制。

相应于上面的方法实施例，本申请实施例还提供了一种情感识别装置，下文描述的情感识别装置与上文描述的情感识别方法可相互对应参照。

参见图5所示，该装置包括以下模块：

特征提取模块101，用于对目标对象对应的文本、音频和视频进行特征提取，得到文本特征向量、音频特征向量和视频特征向量；

特征编码模块102，用于分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量；

特征拼接模块103，用于将文本隐含状态向量分别与音频隐含状态向量、视频隐含状态向量进行特征拼接，得到文本音频拼接向量和文本视频拼接向量；

权重确定模块104，用于获取文本音频注意权重和文本视频注意权重；

权重融合模块105，用于利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量；

综合特征获取模块106，用于拼接融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量，得到综合特征；

识别结果确定模块107，用于利用综合特征，得到目标对象的情感识别结果。

应用本申请实施例所提供的装置，考虑到不同模态之间特征对最终情感识别任务的判别性贡献不同，在本申请中用不同的注意力机制来加权来自各模态的信息，即在提取到文本特征向量、音频特征向量和视频特征向量之后，分别利用不同权重的长短时记忆网络对文本特征向量、音频特征向量和视频特征向量进行编码，得到文本隐含状态向量、音频隐含状态向量和视频隐含状态向量。此外，为了充分利用文本特征在情感识别当中的强判别性，采用跨越的连接方式和注意力之后的音频隐含状态向量和视频隐含状态向量进行跨层次的拼接，得到融合表达向量，然后采用拼接融合表达向量、文本隐含状态向量、音频隐含状态向量和视频隐含状态向量的方式，得到综合特征。最终，利用综合特征，得到目标对象的情感识别结果。即，基于非均匀的注意力机制来融合不同模态的特征向量，能够有效提升信息判别性，最终使得情感识别结果更加准确。

在本申请的一种具体实施方式中，权重确定模块104，具体用于将文本隐含状态向量和音频隐含状态向量输入至音频注意力层，得到输出的文本音频注意权重；将文本隐含状态向量和视频隐含状态向量输入至视频注意力层，得到输出的文本视频注意权重。

在本申请的一种具体实施方式中，识别结果确定模块107，具体用于对综合特征进行线性映射，得到目标对象的情感识别结果。

在本申请的一种具体实施方式中，识别结果确定模块107，具体用于对综合特征进行预设情感识别类别数目的线性映射，得到目标对象的情感识别结果。

在本申请的一种具体实施方式中，还包括：

情感交互模块，用于在利用综合特征，得到目标对象的情感识别结果之后，向目标对象输出与情感识别结果匹配的交互信息。

在本申请的一种具体实施方式中，权重融合模块105，具体用于对文本音频拼接向量和文本音频注意权重进行相乘处理，得到文本音加权向量；对文本视频拼接向量和文本视频注意权重进行相乘处理，得到文本视频加权向量；利用降维层对文本音频加权向量和文本视频加权向量进行降维，得到文本音频降维向量和文本视频降维向量；拼接文本音频降维向量和文本视频降维向量，并在拼接后进行归一化处理，得到融合表达向量。

在本申请的一种具体实施方式中，还包括：

文本降维模块，用于对文本隐含状态向量进行降维，得到文本隐含状态降维向量；

相应地，权重融合模块105，具体用于拼接文本音频降维向量、文本视频降维向量和文本隐含状态降维向量，并在拼接后进行归一化处理，得到融合表达向量。

相应于上面的方法实施例，本申请实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种情感识别方法可相互对应参照。

参见图6所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的情感识别方法的步骤。

具体的，请参考图7，图7为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)322(例如，一个或一个以上处理器)和存储器332，存储器332存储有一个或一个以上的计算机应用程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的情感识别方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本申请实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种情感识别方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的情感识别方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

Claims

1.一种情感识别方法，其特征在于，包括：

获取文本音频注意权重和文本视频注意权重；

利用所述综合特征，得到所述目标对象的情感识别结果；

其中，所述获取文本音频注意权重和文本视频注意权重，包括：

将所述文本隐含状态向量和所述视频隐含状态向量输入至视频注意力层，得到输出的所述文本视频注意权重；

其中，所述音频注意力层与所述视频注意力层的结构如下：

Linear Layer+Dropout+Sigmoid，其中Linear Layer为线性映射层，Dropout防止训练过程中参数的过拟合，Sigmoid将该层的输出归一化到0和1之间，代表注意力机制当中的注意力程度；

所述音频注意力层与所述视频注意力层分别对应的线性映射层互不相同；

其中，利用所述文本音频拼接向量、所述文本视频拼接向量、所述文本音频注意权重和所述文本视频注意权重，得到非均匀注意力的融合表达向量，包括：

2.根据权利要求1所述的情感识别方法，其特征在于，利用所述综合特征，得到所述目标对象的情感识别结果，包括：

3.根据权利要求2所述的情感识别方法，其特征在于，对所述综合特征进行线性映射，得到所述目标对象的情感识别结果，包括：

4.根据权利要求1所述的情感识别方法，其特征在于，在利用所述综合特征，得到所述目标对象的情感识别结果之后，还包括：

向所述目标对象输出与所述情感识别结果匹配的交互信息。

5.根据权利要求1所述的情感识别方法，其特征在于，还包括：

6.一种情感识别装置，其特征在于，包括：

识别结果确定模块，用于利用所述综合特征，得到所述目标对象的情感识别结果；

其中，所述权重确定模块，具体用于将所述文本隐含状态向量和所述音频隐含状态向量输入至音频注意力层，得到输出的所述文本音频注意权重；将所述文本隐含状态向量和所述视频隐含状态向量输入至视频注意力层，得到输出的所述文本视频注意权重；

其中，所述音频注意力层与所述视频注意力层的结构如下：

其中，所述权重融合模块，具体用于对所述文本音频拼接向量和所述文本音频注意权重进行相乘处理，得到文本音频加权向量；对所述文本视频拼接向量和所述文本视频注意权重进行相乘处理，得到文本视频加权向量；利用降维层对所述文本音频加权向量和所述文本视频加权向量进行降维，得到文本音频降维向量和文本视频降维向量；拼接所述文本音频降维向量和所述文本视频降维向量，并在拼接后进行归一化处理，得到所述融合表达向量。

7.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至5任一项所述情感识别方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述情感识别方法的步骤。