CN116719930A

CN116719930A - 基于视觉方面注意的多模态情感分析方法

Info

Publication number: CN116719930A
Application number: CN202310487113.8A
Authority: CN
Inventors: 赵雪青; 王三元; 侯舒宁; 杨晗; 师昕; 刘浩; 吴祯鴻
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2023-04-28
Filing date: 2023-04-28
Publication date: 2023-09-08

Abstract

本发明公开的基于视觉方面注意的多模态情感分析方法，首先对输入文本信息进行预处理；然后分别使用SACR文本特征提取与VGG16进行视觉特征提取；通过将文本特征与视觉特征投影到注意空间并进行非线性激活；最后通过多模态融合特征进行softmax分类，进行整体评论的情感分析。本发明将视觉方面注意思想引入到评论的情感分析中，通过SACR模型转化文本特征，再使用VistaNet方法融合文本特征与视觉特征得到多模态融合特征，最后进行多模态情感分类，形成基于视觉方面注意的多模态情感分析，提高了评论内容情感评判的准确度。

Description

基于视觉方面注意的多模态情感分析方法

技术领域

本发明属于自然语言处理方法技术领域，具体涉及一种基于视觉方面注意的多模态情感分析方法。

背景技术

随着电子商务的发展，很多电商评论能反映出用户对产品的体验评价，对电商评论进行情感分析与挖掘对电商商户具有很大的意义，但是智能设备(智能手机和平板电脑)的更新换代让评论内容从单一的文本模态逐渐转向多模态。多模态可以包含文本、视觉、音频或视频，而大多数的电商评论目前仅包含文本和视觉，相较于单一的文本可以更好地表达评论者的情感。

人类获取的信息70％-80％来自于视觉，视觉信息是大脑感知外界信息的一个重要组成部分。因此借鉴人脑视觉感知机理，利用视觉信息来提高学习文本特征的质量，在文本学习过程中加入图像视觉特征，获得文本和视觉多模态特征，解决现有的由于特征单一情感分析方法准确率低的问题。

发明内容

本发明的目的在于提供一种基于视觉方面注意的多模态情感分析方法，解决了现有情感分析方法准确率低的问题。

本发明所采用的技术方案是：基于视觉方面注意的多模态情感分析方法，包括以下步骤：

步骤1、通过SACR提取评论内容的文本特征；

步骤2、通过VGG16提取评论内容的视觉特征；

步骤3、将步骤1所得文本特征与步骤2所得视觉特征通过VistaNet方法进行多模态特征融合，得到多模态融合特征；

步骤4、将步骤3所得多模态融合特征进行softmax分类，得到评论内容的真实标签。

本发明的特点还在于，

步骤1具体为：假设评论内容R＝{T,M}，其中T表示文本内容，M表示图像内容，T＝{t_i|i∈[1,n]}，t_i表示文本评论的第i个段落，n表示段落数，t_i＝{w_i,j|j∈[1,m]}，w_i,j表示段落t_i的第j个词；提取评论内容的文本特征过程包括：首先将T进行文本嵌入，选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入，其次通过多层Transformer提取上下文全局特征，最后选用SACR提取不同长度语义特征并作为文本模态的文本特征。

提取评论内容的文本特征过程具体包括以下步骤：

步骤1.1、先将T中所包含的词w进行词频统计并排序得到X_w2n，如公式(1)所示：

X_w2n＝Count(T) (1)

式(1)中，X_w2n＝{(w_i,c_i)|i∈[1,n]}，其中w_i表示词，c_i为词编号，n为T中不重复词的个数；

再将GloVe的词嵌入按词频从高到低进行嵌入查找得到X_w2e，如公式(2)所示：

X_w2e＝Glove(X_w2n)(2)

最后将T中的w与X_w2e进行匹配得到T对应的词嵌入E，如公式(3)所示：

E＝match(T,X_w2e) (3)

步骤1.2、将嵌入输出经过了多层Transformer编码器，每层Transformer编码器都包含多头注意力和前馈神经网络层，最后进行线性归一化；具体为：将嵌入层的输出E＝{e_i|i∈[1,m]}，其中e_i为注意力头的输入，m为注意力头的个数；多头注意力使每个输入e_i先得到初始化的Q_i矩阵、K_i矩阵和V_i，再进行注意力权重的学习；多头注意力的输出O＝{O_i|i∈[1,m]}，其中O_i如公式(4)所示：

式(4)中，A_i,j如公式(5)所示，表示第i个输入i经过多头注意力之后学习到的权重输出，m为注意力头的个数，Τ表示矩阵的转置，λ为注意力头的大小，softmax函数将每个数值映射到[0，1]区间；前馈神经网络的计算如公式(6)所示：

式(6)中，O为多头注意力层的输出，W₁和b₁分别为O的初始化的权重矩阵偏置项，gelu函数的输入小于零会被归为0；线性归一化的计算定义如公式(7)所示：

h＝layernorm(g×W₂+b₂) (7)

式(7)中，h为该层的输出结果，g为多头注意力层的输出，W₂和b₂分别为g初始化的权重矩阵和偏置项，layernorm函数将输入数值服从标准正态分布；

步骤1.3、通过SACR对Transformer编码的输出的h进行卷积和最大池化，对h的卷积过程定义如公式(8)所示：

式(8)中，C^l _x,1,y表示尺度l卷积后(x，1，y)位置的张量值，W_3l和b_3l分别为卷积核l的初始化矩阵和偏置，t、v表示卷积开始的位置，t＝x·s，v＝y·s，s为卷积步长，l、k分别为卷积核的维度，卷积过程中的参数规整选用线性整流函数relu；

卷积后的张量矩阵C^l＝{C^l _1,1,1,C^l _1,1,2,...,C^l _l,1,d}，对C^l进行最大池化的定义如公式(9)所示：

M^l _x,1,y＝max(C^l _t+0,v+0,...,C^l _t+0,v+m,...,C^l _t+n,v+0,...,C^l _t+n,v+m) (9)

式(9)中，M^l _x,1,y表示尺度l池化后(x，1，y)位置的张量值，t、v表示池化开始的位置，t＝x·s，v＝y·s，s为池化的步长，n、m为池化窗口的大小，max函数表示取最大值；

对多尺度CNN的结果进行融合得到η，即η＝{M¹,M²,...,M^δ}，其中η为CNN尺度数，对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示：

其中τ为上下文推理的结果，μ、φ为η的特征矩阵，σ为η的长度，Τ表示矩阵的转置，softmax函数表示线性归一化，μ和φ^Τ的相乘可以学习不同长度文本特征的上下文关联关系，W_μ和W_φ分别为μ、φ的初始化权重矩阵，b_μ和b_φ分别为μ、φ的偏置，上下文关系权重的自适应学习定义如公式(13)及(14)所示：

其中δ为上下文推理的输出，ξ为η的特征矩阵，W_ξ和b_ξ分别为ξ的初始化权重矩阵和偏置项。

步骤2具体为：假设评论内容R＝{T,M}，其中T表示文本内容，M表示图像内容，M＝{m_j|j∈[1,s]}，m_j表示评论中的第j张图像，s表示评论内容中共包含s张图像；采用VGG16对图像m_j编码为4096维向量，获得视觉特征a_j，计算式如公式(15)所示：

a_j＝VGG16(m_j) (15)。

步骤3具体为：将文本特征和视觉特征投影到注意空间并进行非线性激活，对评论文本T的每个文本特征表示δ_i进行投影和非线性激活的过程如公式(16)所示，对于每个图像表示m_j的投影和非线性激活过程如公式(17)所示，激活函数都选用tanh将两者投影到相同的范围，得到的文本投影和图像投影分别为p_i和q_j：

为了学习文本特征与视觉特征的注意力权重，将文本投影p_i和图像投影q_j进行相乘、求和及非线性激活，如公式(18)所示：

式(18)中，V^Τ表示初始化的全局上下文矩阵V的转置，将v_i,j使用softmax进行归一化，得到注意融合特征Ⅰα_j,i，如公式(19)所示：

将含有图像的视觉注意融合特征Ⅰα_i,j与评论文本T的每个文本特征δ_i进行聚合，可以得到图像m_j对于评论文本T的文档表示d_j，将d_j作为视觉注意融合特征Ⅱ，计算如公式(20)所示：

由于每个图像特定的文档表示d_j对最终的文档表示d有不同的贡献，因此引入融合特征Ⅱβ_j，如公式(21)所示，其中k_j的计算如公式(22)所示：

式(22)中，tanh表示非线性激活函数，文档表示d_j通过tanh投射到注意空间，式(21)中，重要性k_j是通过乘以初始化的全局上下文注意向量K得到；将文档表示d_j进行融合得到最终的文档表示d，并作为分类的输入中，如公式(23)所示，d为最终的多模态融合特征：

步骤4具体为：获得步骤3所得多模态融合特征d后，进行softmax分类，在ρ上产生概率分布，如公式(24)所示：

再使用交叉熵作为损失函数，如公式(25)所示，其中ρ为评论内容R的真实标签：

loss＝-Σ_dlogρ_d,l (25)。

本发明的有益效果是：本发明的基于视觉方面注意的多模态情感分析方法，将考虑图像特征的思想引入到文本情感分析中，通过VGG16处理图像得到图像特征，再使用VistaNet方法进行特征融合，形成文本特征和视觉特征的双通道多模态情感分析，提高了评论内容的情感倾向判断的准确率。

附图说明

图1是本发明的基于视觉方面注意的多模态情感分析方法的流程示意图；

图2是本发明的基于视觉方面注意的多模态情感分析方法中SACR-VistaNet的结构示意图；

图3是本发明的基于视觉方面注意的多模态情感分析方法中关于特征融合部分的结构示意图。

具体实施方式

下面结合附图以及具体实施方式对本发明进行详细说明。

本发明提供了一种基于视觉方面注意的多模态情感分析方法，首先对输入文本信息进行预处理；然后分别使用SACR文本特征提取与VGG16进行视觉特征提取；通过将文本特征与视觉特征投影到注意空间并进行非线性激活；最后通过多模态融合特征进行softmax分类，进行整体评论的情感分析。本发明将视觉方面注意思想引入到评论的情感分析中，通过SACR模型转化文本特征，再使用VistaNet方法融合文本特征与视觉特征得到多模态融合特征，最后进行多模态情感分类，形成基于视觉方面注意的多模态情感分析，提高了评论内容情感评判的准确度。如图1和图2所示，具体按照以下步骤实施：

步骤1、通过SACR提取文本特征，具体按照以下步骤实施：

对输入文本信息进行处理，具体包括文本嵌入、Transformer编码部分和SACR过程，其中：

文本嵌入：

假设输入的评论内容R＝{T,M}，其中T表示文本内容，M表示图像内容。文本内容T＝{t_i|i∈[1,n]}，t_i表示文本评论的第i个段落，n表示段落数。T中的t_i＝{w_i,j|j∈[1,m]}，其中w_i,j表示段落t_i的第j个词。而图像内容M＝{m_j|j∈[1,s]}，其中m_j表示评论中的第j张图像，s表示评论内容中共包含s张图像。将T进行文本嵌入，选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入，其次通过多层Transformer提取上下文全局特征，最后选用SACR提取不同长度语义特征，该特征基于全局上下文，因此包含全局上下文和不同长度语义特征，将该特征作为到文本模态的文本特征。

其中，T的嵌入选用GloVe，为了减少重复词的查询次数，先将T中所包含的词w进行词频统计并排序得到X_w2n，再将GloVe的词嵌入按词频从高到低进行嵌入查找得到X_w2e，最后将T中的w与X_w2e进行匹配得到T对应的词嵌入E。该过程定义如公式(1)至公式(3)所示：

X_w2n＝Count(T) (1)

X_w2e＝Glove(X_w2n) (2)

E＝match(T,X_w2e) (3)

其中X_w2n＝{(w_i,c_i)|i∈[1,n]}，其中w_i表示词，c_i为词编号(词频越高编号越小)，n为T中不重复词的个数。

Transformer编码部分：

为了更好地学习全局上下文特征，将嵌入输出经过了多层Transformer编码器，每层Transformer编码器都包含多头注意力和前馈神经网络层，最后进行线性归一化。将嵌入层的输出E＝{e_i|i∈[1,m]}，其中e_i为注意力头的输入，m为注意力头的个数。多头注意力使每个输入e_i先得到初始化的Q_i矩阵、K_i矩阵和V_i，再进行注意力权重的学习。多头注意力的输出O＝{O_i|i∈[1,m]}，其中O_i的定义如公式(4)所示：

其中A_i,j表示第i个输入i经过多头注意力之后学习到的权重输出，m为注意力头的个数，Τ表示矩阵的转置，λ为注意力头的大小，softmax函数将每个数值映射到[0，1]区间。前馈神经网络的计算如公式(6)所示：

其中O为多头注意力层的输出，W₁和b₁分别为O的初始化的权重矩阵偏置项，gelu函数的输入小于零会被归为0。线性归一化的计算定义如公式(7)所示：

h＝layernorm(g×W₂+b₂) (7)

其中h为该层的输出结果，g为多头注意力层的输出，W₂和b₂分别为g初始化的权重矩阵和偏置项，layernorm函数将输入数值服从标准正态分布。

自适应上下文推理机制(Self-Adaptive Context Reasoning Mechanism，以下简称为SACR)过程：

通过SACR对Transformer编码的输出的h进行卷积和最大池化。对h的卷积过程定义如下：

其中C^l _x,1,y表示尺度l卷积后(x，1，y)位置的张量值，W_3l和b_3l分别为卷积核l的初始化矩阵和偏置，t、v表示卷积开始的位置，t＝x·s，v＝y·s，s为卷积步长，l、k分别为卷积核的维度，卷积过程中的参数规整选用线性整流函数relu。

卷积后的张量矩阵C^l＝{C^l _1,1,1,C^l _1,1,2,...,C^l _l,1,d}。对C^l进行最大池化的定义如下：

其中M^l _x,1,y表示尺度l池化后(x，1，y)位置的张量值，t、v表示池化开始的位置，t＝x·s，v＝y·s，s为池化的步长，n、m为池化窗口的大小，max函数表示取最大值。

对多尺度CNN的结果进行融合得到η，即η＝{M¹,M²,...,M^δ}，其中η为CNN尺度数。对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示：

其中τ为上下文推理的结果，μ、φ为η的特征矩阵，σ为η的长度，Τ表示矩阵的转置，softmax函数表示线性归一化，μ和φ^Τ的相乘可以学习不同长度文本特征的上下文关联关系，W_μ和W_φ分别为μ、φ的初始化权重矩阵，b_μ和b_φ分别为μ、φ的偏置。上下文关系权重的自适应学习定义如公式(13)及(14)所示：

步骤2、通过VGG16进行视觉特征提取，具体按照以下步骤实施：

图像特征提取主要对输入的图像m_j进行特征提取。本发明选用VGG16通过模型输入，获取VGG16全连接分类前的最后一个全连接层的输出，得到其特征表示a_j。图像视觉特征a_j是一个由图像m_j编码的4096维向量：

a_j＝VGG16(m_j) (15)。

步骤3、通过VistaNet方法进行多模态特征融合，如图3所示，具体按照以下步骤实施：

先将文本特征和视觉特征投影到注意空间并进行非线性激活。对于评论文本T的每个文本特征表示δ_i，对其进行投影和非线性激活的过程如公式(16)所示，对于每个图像表示m_j的投影和非线性激活过程如公式(17)所示，激活函数都选用tanh将两者投影到相同的范围，得到的文本投影和图像投影分别为p_i和q_j。

为了学习文本特征与视觉特征的注意力权重，将文本投影p_i和图像投影q_j进行相乘、求和及非线性激活，如公式(18)所示，

其中V^Τ表示初始化的全局上下文矩阵V的转置。将v_i,j使用softmax进行归一化，得到注意融合特征1α_j,i。v_i,j的计算方式可以使文本和视觉之间存在有意义的交互。在这两种模态特征之间进行交互时如果没有元素级乘法，而只有求和，则在计算注意融合特征1α_j,i时，视觉特征会通过归一化大幅度减弱。若只有元素的乘法，会导致文本特征的影响显著减弱，因为视觉特征的具有一定的稀疏性。

将含有图像的视觉注意融合特征1α_i,j与文本T的每个文本特征δ_i进行聚合，可以得到图像m_j对于文本T的文档表示d_j，将d_j作为视觉注意融合特征2，计算如公式(20)所示。

由于每个图像特定的文档表示d_j对最终的文档表示d有不同的贡献，因此引入融合特征2β_j，如公式(21)所示，其中k_j的计算如公式(22)所示：

其中tanh表示非线性激活函数，文档表示d_j通过tanh投射到注意空间，重要性k_j是通过乘以初始化的全局上下文注意向量K得到。将文档表示d_j进行融合得到最终的文档表示d，并作为分类的输入中，如公式(23)所示，d为最终的多模态融合特征。

步骤4、进行softmax分类得出评论内容的真实标签，具体按照以下步骤实施：

获得最终的多模态融合特征d后，进行softmax分类，在ρ上产生概率分布，如公式(24)所示。

本文所提出的多模态情感分析模型使用交叉熵作为损失函数，如公式(25)，其中ρ为评论内容R的真实标签。

loss＝-∑_dlogρ_d,l (25)。

实施例

采用的数据集源于Yelp.com平台的多模态公开数据集，提供的一种基于视觉方面注意的多模态情感分析方法，具体按照以下步骤实施：

步骤1、通过SACR提取文本特征，具体为：

文本嵌入：

假设输入的评论内容R＝{T,M}，其中T表示文本内容，M表示图像内容。文本内容T＝{t_i|i∈[1,n]}，t_i表示文本评论的第i个段落，n表示段落数。T中的t_i＝{w_i,j|j∈[1,m]}，其中w_i,j表示段落t_i的第j个词。而图像内容M＝{m_j|j∈[1,s]}，其中m_j表示评论中的第j张图像，s表示评论内容中共包含s张图像。将T进行文本嵌入，选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入，其中嵌入维度为128，其次通过多层Transformer提取上下文全局特征，最后选用SACR提取不同长度语义特征，该特征基于全局上下文，因此包含全局上下文和不同长度语义特征，将该特征作为到文本模态的文本特征。

其中，T的嵌入选用GloVe，预训练的初始化维数为200的单词嵌入作为嵌入词表。为了减少重复词的查询次数，先将T中所包含的词w进行词频统计并排序得到X_w2n，再将GloVe的词嵌入按词频从高到低进行嵌入查找得到X_w2e，最后将T中的w与X_w2e进行匹配得到T对应的词嵌入E。该过程定义如公式(1)至公式(3)所示：

X_w2n＝Count(T) (1)

X_w2e＝Glove(X_w2n) (2)

E＝match(T,X_w2e) (3)

Transformer编码部分：

为了更好地学习全局上下文特征，将嵌入输出经过了多层Transformer编码器，层数为6，每层Transformer编码器都包含多头注意力和前馈神经网络层，全连接层的大小为200，最后进行线性归一化。将嵌入层的输出E＝{e_i|i∈[1,m]}，其中e_i为注意力头的输入，m为注意力头的个数，其中多头注意力的注意力头个数为10，每个注意力头的大小为20，多头注意力使每个输入e_i先得到初始化的Q_i矩阵、K_i矩阵和V_i，再进行注意力权重的学习，训练参数中batchsize为10，epoch为10，学习率为0.001。多头注意力的输出O＝{O_i|i∈[1,m]}，其中O_i的定义如公式(4)所示：

h＝layernorm(g×W₂+b₂) (7)

SACR对Transformer编码的输出的h进行卷积和最大池化。对h的卷积过程定义如下：

对多尺度CNN的结果进行融合得到η，即η＝{M¹,M²,...,M^δ}，其中η为CNN尺度数，设置尺度数为3，卷积核大小为[2,3,4]。对η进行上下文推理的计算定义如公式(10)、(11)及(12)所示：

步骤2、通过VGG16进行视觉特征提取，具体为：

图像特征提取主要对输入的图像m_j进行特征提取。本发明选用VGG16通过模型输入，获取VGG16全连接分类前的最后一个全连接层的输出，得到其特征表示a_j。图像视觉特征a_j是一个由图像m_j编码的4096维向量，注意权重V和K的初始化维度为100。

a_j＝VGG16(m_j) (15)

步骤3、通过VistaNet方法进行多模态特征融合，具体为：

为了学习文本的视觉特定注意权重，将文本投影p_i和图像投影q_j进行相乘、求和及非线性激活，如公式(18)所示，

步骤4、进行softmax分类得出评论内容的真实标签，具体为：

本文所提出的多模态情感分析模型使用交叉熵作为损失函数，如公式(25)，其中为评论内容R的真实标签。

loss＝-∑_dlogρ_d,l (25)。

表1本发明与现有方法对比结果

在该实施例中，将本发明与其余方法在五个城市的数据集上进行对比，其余方法包括：TFN-VGG，BiGRU-VGG，BiGRU-VistaNet，HAN-VGG，HAN-VistaNet，RNN-VistaNet，结果如表1所示。从表1中可以看出本发明的效果最优，且在五个城市的数据对比结果中都有明显的提升。说明本发明具有较好的评价内容判断准确率，SACR-VistaNet优于BiGRU-VistaNet、HAN-VistaNet和RNN-VistaNet。相较于TFN-VGG、BiGRU-VGG、和HAN-VGG，本发明提出的SACR-VistaNet明显效果要好，说明了视觉方面注意可以更好地进行多模态情感分析，因此本发明提出的SACR-VistaNet是有效的。

Claims

1.基于视觉方面注意的多模态情感分析方法，其特征在于，包括以下步骤：

步骤1、通过SACR提取评论内容的文本特征；

步骤2、通过VGG16提取评论内容的视觉特征；

2.如权利要求1所述的基于视觉方面注意的多模态情感分析方法，其特征在于，所述步骤1具体为：假设评论内容R＝{T,M}，其中T表示文本内容，M表示图像内容，T＝{t_i|i∈[1,n]}，t_i表示文本评论的第i个段落，n表示段落数，t_i＝{w_i,j|j∈[1,m]}，w_i,j表示段落t_i的第j个词；提取评论内容的文本特征过程包括：首先将T进行文本嵌入，选用GloVe模型将文本转化为对应的初始化张量维度作为模型计算的输入，其次通过多层Transformer提取上下文全局特征，最后选用SACR提取不同长度语义特征并作为文本模态的文本特征。

3.如权利要求2所述的基于视觉方面注意的多模态情感分析方法，其特征在于，所述提取评论内容的文本特征过程具体包括以下步骤：

X_w2n＝Count(T) (1)

X_w2e＝Glove(X_w2n) (2)

E＝match(T,X_w2e) (3)

h＝layernorm(g×W₂+b₂) (7)

卷积后的张量矩阵对C^l进行最大池化的定义如公式(9)所示：

4.如权利要求1所述的基于视觉方面注意的多模态情感分析方法，其特征在于，所述步骤2具体为：假设评论内容R＝{T,M}，其中T表示文本内容，M表示图像内容，M＝{m_j|j∈[1,s]}，m_j表示评论中的第j张图像，s表示评论内容中共包含s张图像；采用VGG16对图像m_j编码为4096维向量，获得视觉特征a_j，计算式如公式(15)所示：

a_j＝VGG16(m_j) (15)。

5.如权利要求1所述的基于视觉方面注意的多模态情感分析方法，其特征在于，所述步骤3具体为：将文本特征和视觉特征投影到注意空间并进行非线性激活，对评论文本T的每个文本特征表示δ_i进行投影和非线性激活的过程如公式(16)所示，对于每个图像表示m_j的投影和非线性激活过程如公式(17)所示，激活函数都选用tanh将两者投影到相同的范围，得到的文本投影和图像投影分别为p_i和q_j：

6.如权利要求1所述的基于视觉方面注意的多模态情感分析方法，其特征在于，所述步骤4具体为：获得步骤3所得多模态融合特征d后，进行softmax分类，在ρ上产生概率分布，如公式(24)所示：