CN113326703B

CN113326703B - 基于异构空间下多模态对抗融合的情感识别方法及系统

Info

Publication number: CN113326703B
Application number: CN202110884202.7A
Authority: CN
Inventors: 孙喜民; 周晶; 李晓明; 王帅; 李鑫; 刘丹; 孙博; 郑斌
Original assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Current assignee: State Grid E Commerce Co Ltd; State Grid E Commerce Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-11-16
Anticipated expiration: 2041-08-03
Also published as: CN113326703A

Abstract

本发明公开了基于异构空间下多模态对抗融合的情感识别方法及系统，该方法包括：S100：获取由文本信息和图像信息构成的多模态数据；S200：提取文本信息的单词特征向量，获得文本特征集；S300：提取图像信息的区域特征向量，获得图像特征集；S400：在异构空间下映射多模态数据；S500：基于对抗学习的自适应融合；S600：利用softmax层对融合结果进行情感类别预测。本发明实现了情感识别中多元异构数据的互补，可获得更加丰富且准确的情感识别结果。

Description

基于异构空间下多模态对抗融合的情感识别方法及系统

技术领域

本发明涉及情感识别技术领域，具体为基于异构空间下多模态对抗融合的情感识别方法及系统。

背景技术

大数据是多源异构的，在信息技术飞速发展的今天，多模态数据已成为近来数据资源的主要形式。自然现象具有的丰富特征，因此单一模态的信息往往难以提供对感兴趣的现象的完整知识。因此，如何融合每一模态的信息，就成为了多个领域所广泛存在的新挑战。多模态融合可以提供互补信息，提高整体决策的准确性。现有的多模态融合方法将不同模态的数据从各自独立的表示空间映射到一个第三方的公共空间中，这样不可避免地会丢失模态的语义信息，进而影响融合效果。并且当前的模型在融合阶段并没有充分考虑模态间的交互作用，无法在表示空间产生更好的聚类效果。

特别是在情感识别领域，目前大多基于文本信息识别情感，但当文本信息包含讽刺含义，可能导致情感识别不准；在多媒体网络中，表情图像被广泛使用，可以考虑结合表情图像来辅助文本信息识别情感。

发明内容

本发明的目的是提供基于异构空间下多模态对抗融合的情感识别方法及系统，该方法和系统构建异构空间将文本信息和图像信息进行对抗融合，再基于融合后的信息进行识别情感。

本实施例提供的基于异构空间下多模态对抗融合的情感识别方法，包括：

S100：获取由文本信息和图像信息构成的多模态数据；

S200：提取文本信息的单词特征向量，获得文本特征集；

S300：提取图像信息的区域特征向量，获得图像特征集；

S400：在异构空间下映射多模态数据，本步骤包括S410-S430：

S410：将单词特征向量映射到第一表示空间，将区域特征向量映射到第二表示空间；第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间；

S420：在第一表示空间分别计算各区域与所有单词间的相似度，基于相似度构造各区域的文本上下文特征向量

；

S430：在第二表示空间分别计算各单词与所有区域间的相似度，基于相似度构造各单词的图像上下文特征向量

；

S500：基于对抗学习的自适应融合，本步骤包括S510-S560：

在自动编码器端：

S510：

和

输入自动编码器进行融合，得到向量

；

S520：对

进行全连接处理，得到中间表示

，并对

编码得

；

S530：以

和

之间的均方误差为自动编码器的目标函数；

在对抗融合网络端：

S540：选择

或

传入到对抗融合网络的生成器G进行编码，获得

；

S550：

标记为正样本，

标记为负样本，输入鉴别器D，识别输入来源；

S560：使用对抗性损失为目标函数训练鉴别器D，使得鉴别器对于负样本

判别为0，对于正样本

判别为1，直至鉴别器随机输出0或1，此时

和

充分融合，输出中间表示

即融合结果；

S600：利用softmax层对融合结果进行情感类别预测。

可选的，在一些实施例中，单词特征向量采用基于双向门控递归单元的文本编辑器提取。

可选的，在一些实施例中，区域特征向量采用基于深度残差网络的图像编码器提取。

可选的，在一些实施例中，步骤S420中，区域和单词间的相似度

，i、j分别表示区域和单词的编号，S _ij表示区域i与单词j间的相似度，v _i表示区域i的特征向量，

表示单词j的特征向量；所构造的文本上下文特征向量

，

表示区域i的文本上下文特征向量，exp( )表示e为底的指数函数，n表示文本特征集中单词总数。

可选的，在一些实施例中，步骤S430中，单词和区域间的相似度

，i、j分别表示区域和单词的编号，

表示单词j与区域i间的相似度，v _i表示区域i的特征向量，

表示单词j的特征向量；所构造的图像上下文特征向量

，

表示单词j的图像上下文特征向量，exp( )表示e为底的指数函数，k表示图像特征集中区域总数。

可选的，在一些实施例中，对抗性损失

表示为：

；

其中，

代表正样本服从的概率分布，

代表负样本服从的概率分布，

表示概率密度函数的期望。

相应的，本实施例提供的基于异构空间下多模态对抗融合的情感识别系统，包括：

第一模块，用来获取由文本信息和图像信息构成的多模态数据；

第二模块，用来提取文本信息的单词特征向量，获得文本特征集；

第三模块，用来提取图像信息的区域特征向量，获得图像特征集；

第四模块，用来在异构空间下映射多模态数据；

所述第四模块包括第一子模块、第二子模块、第三子模块；

第一子模块，用来将单词特征向量映射到第一表示空间，将区域特征向量映射到第二表示空间；第一表示空间和第二表示空间分别为基于文本的表示空间和基于图像的表示空间；

第二子模块，用来在第一表示空间分别计算各区域与所有单词间的相似度，基于相似度构造各区域的文本上下文特征向量

；

第三子模块，用来在第二表示空间分别计算各单词与所有区域间的相似度，基于相似度构造各单词的图像上下文特征向量

；

第五模块，用来基于对抗学习的自适应融合；

所述第五模块包括第四子模块、第五子模块；

第四子模块用在自动编码器端，用来

和

输入自动编码器进行融合，得到向量

；对

进行全连接处理，得到中间表示

，并对

编码得

；以

和

之间的均方误差为自动编码器的目标函数；

第五子模块用在对抗融合网络端，用来选择

或

传入到对抗融合网络的生成器G进行编码，获得

；

标记为正样本，

标记为负样本，输入鉴别器D，识别输入来源；使用对抗性损失为目标函数训练鉴别器D，使得鉴别器对于负样本

判别为0，对于正样本

判别为1，直至鉴别器随机输出0或1，此时

和

充分融合，输出中间表示

即融合结果；

第六模块，用来利用softmax层对融合结果进行情感类别预测。

与现有技术相比，本发明具有如下优点和有益效果：

本发明将异构空间的模态样本映射，用来避免将不同表示的模态映射到共同子空间，充分保留不同模态的语义信息。通过文本单词和图像区域的细粒度注意力交互作用，为后续的融合奠定了更好的基础。同时，本发明设计的对抗性方式学习表示空间会对表示空间产生聚类效应，实现了多元异构数据的互补，融合语义更加丰富且准确。

附图说明

图1为实施例中的方法流程示意图；

图2为对抗融合网络细节示意图。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

目前多媒体社交平台中信息源丰富，包括但不限于文本信息、图像信息、音频信息等，仅基于其中某一项信息源进行情感识别，识别结果并不准确。本实施例提供的基于异构空间下多模态对抗融合的情感识别方法，则融合文本信息和图像信息来进行情感识别，以获得更加丰富且准确的识别结果。

图1所示为实施例中的方法流程示意图，下面将结合图1提供实施例的具体实施过程。

本发明构建两个表示空间：基于图像的表示空间和基于文本的表示空间，分别使用图像区域和单词作为上下文。为便于描述，后文将基于文本的表示空间和基于图像的表示空间分别记为第一表示空间和第二表示空间。

（一）异构空间的模态样本映射。

本实施例中，使用双向门控递归单元（Bi-GRU）作为文本编码器，来获得文本中每个单词的特征向量，使用深度残差网络（ResNet）作为图像编码器，来获得每个区域的特征向量。将文本的单词特征向量映射到第一表示空间中，第一表示空间通过注意力机制，来关注文本中每一个单词，以此获得每一个单词对应的权重。

具体来说，给定一具有k个区域特征向量v _i的图像特征集V，一具有n个单词特征向量t _j的文本特征集T。利用公式（1）所示的余弦相似矩阵，在第一表示空间计算挖掘所有可能的区域与各单词间的相似度S _ij：

（1）

式（1）中，i、j分别表示区域和单词的编号，

表示第i个区域的特征向量，

表示第j个单词的特征向量；

，

；S _ij表示区域i与单词j间的相似度。

将区域i与文本所有单词进行相似度计算，为区域i构造文本上下文特征向量

：

（2）

式（1）中，exp( )表示e为底的指数函数。

将图像的区域特征向量映射到第二表示空间中，与公式（1）类似，它通过注意力机制来关注图像中的每一个区域，在第二表示空间，计算所有可能的单词与各区域间的相似度：

（3）

将单词j与所有图像区域进行相似度计算，为单词j构造图像上下文特征向量

：

（4）

本步骤将文本的单词和图像的区域在两个表示空间的细粒度交互作用，为后续融合奠定基础。

（二）基于对抗学习的自适应融合。

融合网络N选择文本模态或图像模态作为目标模态，另一种模态即辅助模态，本实施例中，以文本模态为目标模态，以图像模态为辅助模态。融合网络N主要由一个自动编码器和一个生成对抗网络组成，见图2。

在自动编码器中：

（1）

和

为自动编码器的输入，使用concatenate函数对

和

融合，得到向量

，其维度为2D。

（2）使用全连接层处理

，将其维数减少到原来的1/2，即1D维，即得到中间表示

。

（3）使用全连接神经网络对

编码，得到

。

（4）计算

和

之间的均方误差

，均方误差即自动编码器的目标函数。通过减小均方误差使得

和

可以更好地融合。

在生成对抗网络中：

（1）将

传入到对抗融合网络的生成器G中进行编码，获得

，本具体实施方式中生成器G使用全连接神经网络。

（2）将

标记为正样本，将

标记为负样本，输入鉴别器D，识别输入来源。用交叉熵损失函数区分样本真伪，即鉴别器输出0，则表示假；输出1，则表示真。鉴别器采用分类器。

（3）采用常规方法初始化生成器参数，使用目标函数

训练鉴别器D。使得鉴别器对于生成器输出的负样本

判别为0，对于正样本

判别为1。重复训练，最终鉴别器随机输出0或1，证明无法区分正样本和负样本，此时

和

为充分融合。

对抗性损失

表示如下：

（5）

式（5）中，

代表正样本服从的概率分布，

代表负样本服从的概率分布，

表示概率密度函数的期望；

和

表示鉴别器

的输出。

通过以上操作，即可输出多模态融合表示

，下面通过softmax层对情感类别进行预测，输出情感分类结果y：

（6）

其中，y是文本和图像模态融合后得到的多模态情感分类结果，W和b是 softmax层的权重与偏置，可通过训练得到稳定结果。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于异构空间下多模态对抗融合的情感识别方法，其特征是，包括：

S100：获取由文本信息和图像信息构成的多模态数据；

S200：提取文本信息的单词特征向量，获得文本特征集；

S300：提取图像信息的区域特征向量，获得图像特征集；

S400：在异构空间下映射多模态数据，本步骤包括S410-S430：

；

；

步骤S420中，区域和单词间的相似度

，i、j分别表示区域和单词的编号，

表示区域i与单词j间的相似度，

表示区域i的特征向量，

表示单词j的特征向量；所构造的文本上下文特征向量

，

表示区域i的文本上下文特征向量，exp( )表示e为底的指数函数，n表示文本特征集中单词总数；

步骤S430中，单词和区域间的相似度

，i、j分别表示区域和单词的编号，

表示单词j与区域i间的相似度，

表示区域i的特征向量，

表示单词j的特征向量；所构造的图像上下文特征向量

，

表示单词j的图像上下文特征向量，exp( )表示e为底的指数函数，k表示图像特征集中区域总数；

S500：基于对抗学习的自适应融合，本步骤包括S510-S560：

在自动编码器端：

S510：

和

输入自动编码器进行融合，得到向量

；

S520：对

进行全连接处理，得到中间表示

，并对

编码得

；

S530：以

和

之间的均方误差为自动编码器的目标函数；

在对抗融合网络端：

S540：选择

或

传入到对抗融合网络的生成器G进行编码，获得

；

S550：

标记为正样本，

标记为负样本，输入鉴别器D，识别输入来源；

判别为0，对于正样本

判别为1，直至鉴别器随机输出0或1，此时

和

充分融合，输出中间表示

即融合结果；

S600：利用softmax层对融合结果进行情感类别预测。

2.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法，其特征是：

所述单词特征向量采用基于双向门控递归单元的文本编辑器提取。

3.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法，其特征是：

所述区域特征向量采用基于深度残差网络的图像编码器提取。

4.如权利要求1所述的基于异构空间下多模态对抗融合的情感识别方法，其特征是：

所述对抗性损失

表示为：

；

其中，

代表正样本服从的概率分布，

代表负样本服从的概率分布，

表示概率密度函数的期望，

和

表示鉴别器

的输出。

5.基于异构空间下多模态对抗融合的情感识别系统，其特征是，包括：

第四模块，用来在异构空间下映射多模态数据；

所述第四模块包括第一子模块、第二子模块、第三子模块；

；区域和单词间的相似度

，i、j分别表示区域和单词的编号，

表示区域i与单词j间的相似度，

表示区域i的特征向量，

表示单词j的特征向量；所构造的文本上下文特征向量

，

；单词和区域间的相似度

，i、j分别表示区域和单词的编号，

表示单词j与区域i间的相似度，

表示区域i的特征向量，

表示单词j的特征向量；所构造的图像上下文特征向量

，

第五模块，用来基于对抗学习的自适应融合；

所述第五模块包括第四子模块、第五子模块；

第四子模块用在自动编码器端，用来

和

输入自动编码器进行融合，得到向量

；对

进行全连接处理，得到中间表示

，并对

编码得

；以

和

之间的均方误差为自动编码器的目标函数；

第五子模块用在对抗融合网络端，用来选择

或

传入到对抗融合网络的生成器G进行编码，获得

；

标记为正样本，

判别为0，对于正样本

判别为1，直至鉴别器随机输出0或1，此时

和

充分融合，输出中间表示

即融合结果；

第六模块，用来利用softmax层对融合结果进行情感类别预测。