CN113642332B

CN113642332B - 一种融合多级语义信息的多模态讽刺识别系统方法

Info

Publication number: CN113642332B
Application number: CN202110919005.4A
Authority: CN
Inventors: 廖祥文; 翁钰晨; 魏冬春; 吴君毅; 何佳
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2023-11-14
Anticipated expiration: 2041-08-11
Also published as: CN113642332A

Abstract

本发明提出一种融合多级语义信息的多模态讽刺识别系统方法，所述方法通过融合多级语义信息来分析多模态数据，然后以讽刺识别模块来判别多模态数据中是否存在讽刺感；在生成多模态数据时，以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息，以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段，以语义融合模块融合图文数据的中级、高级语义信息；本发明能够提取图文模态数据的特征表示及图文数据中的中级语义信息，通过注意力机制融合多模态数据，并关联图文模态的中级语义，分析多模态数据中是否存在讽刺感。

Description

一种融合多级语义信息的多模态讽刺识别系统方法

技术领域

本发明涉及多模态信息识别领域，尤其是一种融合多级语义信息的多模态讽刺识别系统方法。

背景技术

讽刺属于一种特殊的情感表达方式，是用户通过夸张、比喻等手法使自己所发表的观点产生更深层次的含义。随着网络文化的不断发展，用户表达自己观点的方式越发多样化，通过讽刺的手法表达自己的观点愈发流行，在当前网络平台中，仅通过传统情感分析、观点发掘方法分析用户观点态度存在较大局限，难以有效利用产品评论、论坛讨论等内容中的信息，通过识别讽刺有利于分析用户真实的观点态度，提高情感分析、观点发掘任务的精确度，

但由于讽刺是一种隐式的情绪表达方法，识别讽刺需要深入理解数据的语义信息，对单一模态数据进行讽刺识别存在着缺乏上下文信息、实现困难等问题。随着深度学习技术的进步，近年来对于多模态融合技术的研究得到了快速的发展，多模态融合任务通过设计模态融合策略，使不同模态的数据相互补充，为下游任务提供更丰富的信息。目前基于多模态融合技术的情感分析、图文检索等任务正在趋于成熟并得到广泛应用。

多模态讽刺识别作为多模态融合任务的下游任务，其研究重点围绕各模态的语义信息展开，通过分析各模态数据间的潜在联系，为讽刺识别模型提供更丰富的上下文信息。目前应用于社交媒体的多模态讽刺识别方法首先针对各模态数据特点，采用多种深度学习网络模型提取图像、文本的特征表示，而后通过注意力机制、图神经网络等深度学习算法将不同模态的数据映射至相同的维度空间进行模态融合，较好的解决了不同模态间数据分布差异的问题。通过注意力机制能够较好的通过关联图文相关内容进行分析，现有的多模态讽刺识别模型围绕多模态融合策略进行了大量的研究，但讽刺感源于关联图文数据后，分析图文语义产生的不协调感，现有方法在设计模态融合策略过程中，未考虑到语义理解是一个循序渐进的过程，模型缺乏对语义变化过程的刻画，导致讽刺识别精度受限。在融合图文数据后，如何发掘其中存在的语义不协调进而提高讽刺识别精度，是多模态讽刺识别任务存在的主要挑战。

发明内容

本发明提出一种融合多级语义信息的多模态讽刺识别系统方法，能够提取图文模态数据的特征表示及图文数据中的中级语义信息，通过注意力机制融合多模态数据，并关联图文模态的中级语义，分析多模态数据中是否存在讽刺感。

一种融合多级语义信息的多模态讽刺识别系统方法，所述方法通过融合多级语义信息来分析多模态数据，然后以讽刺识别模块来判别多模态数据中是否存在讽刺感；在生成多模态数据时，以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息，以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段，以语义融合模块融合图文数据的中级、高级语义信息。

所述特征提取模块提取不同模态数据的特征表示时，可在提取图文特征表示的同时，提取其中所包含的中级语义信息；具体方法为：

方法A1、对于文本数据，采用Glove编码获取本文的词嵌入信息，文本内容经过编码后得到T＝{t₁，t₂，...，t_n}，其中，为单词i的词嵌入表示，通过将文本特征表示输入BiLSTM网络得到文本数据的隐藏层表示：

M_text＝BiLSTM(T) 公式一；

方法A2、对于图像数据，采用RepVGG网络模型进行图像特征提取，为提升所得图像语义的丰富性，采用去除RevVGG模型中的平均池化层的方法，将RepVGG的通道输出作为图像数据的区域特征：

M_region＝RepVGG(I) 公式二；

其中，

r_i表示图像各个区域的特征表示；为优化图像数据与文本数据的融合，通过线性层对图像特征进行维度转化，得到图像隐藏层表示为：

M_image＝tanh(W*RepVGG(I)+b) 公式四；

方法A3、当提取文本数据中的话题信息及图像数据中的ANPs(adjective-nounpairs)作为各模态数据的中级语义信息时，采用Glove编码获取其词嵌入信息，利用tweet话题包含的前后关联，通过BiLSTM网络模型对ANPs及话题进行编码得到其上下文表示T_ANP、T_topic；

方法A4、当部分文本数据中不包含话题内容，同时不同的ANP对模型产生的影响也存在不同时，通过自注意力机制进一步提取T_ANP及T_topic的特征表示：

T_a，t＝BiLSTM(ANPs，Topic) 公式五；

α_a，t＝softmax(u_a，t) 公式七；

其中，a，t∈{ANPs，Topic}，通过上下文向量U^T将ANPs与话题映射至同一维度空间，得到u_a，t用于衡量每个ANP与话题的权重，而后通过Softmax函数得到注意力分布α_a，t，最终计算得到ANPs与话题的特征表示v_a，v_t，在此基础上，串联v_a，v_t，经过线性层连接ANP及话题特征，得到数据的属性特征表示v_attr，使用v_attr对本文特征提取中所用到的BiLSTM网络编码层进行初始化，即

v_attr＝W[v_a：v_t]+b 公式九。

当图文融合模块通过分析图文数据间的语义联系来提取产生讽刺感的关键片段时，采用实体差异注意力机制，通过将注意力权重集中于图文数据间中的差异内容，来优化识别易产生讽刺感的图文片段，包括以下方法；

设提取的特征表示M_text·M_image分别为文本、图像较原始的低级语义特征，为提升所得到的图文语义信息的抽象度，在进行图文融合前，以自注意力机制提取图文数据的特征表示：

v_text，v_image＝SelfATT(M_text，M_image) 公式九；

然后将v_text，v_image与图像、文本所提取的特征表示通过实体差异注意力机制进行融合，首先将图文自注意力计算的结果v_text，v_image与前文所提取的图像、文本隐藏表示进行注意力计算，而后将图文特征表示减去注意力计算的结果，从而使模型将特征提取的重点由图文间的关联信息转移至图像、文本数据中的关键词汇、关键画面，表述为：

p＝tanh(W_pM_m+b_p) 公式十一；

q＝tanh(W_qv_n+b_q) 公式十二；

β＝softmax(p*g) 公式十三；

H_m＝M_m-β 公式十四；

其中，m，n∈{text，image}表示图像、文本两种不同模态，v_n即通过自注意力机制提取得到的图、文特征，M_m为前文特征提取模块所得到的图像、文本数据表示，β为模态间点积注意力计算的结果，为对差异信息增强后的图文特征表示。

所述语义融合模块在融合社交媒体平台图文数据的中级、高级语义信息时，其方法为：在图像情感分析任务执行，所述图像情感分析任务中，ANPs以形容词、名词组合的方式描述图像，被视为图像数据的中级语义信息；所述社交媒体平台中以话题作为对文本内容的高度概括，对文本情绪识别存在重要影响，即被视为文本数据的中级语义信息；在讽刺感受模态间的语义变化影响下，通过将属性特征v_attr与图文融合结果G_m进一步的融合，形成多模态数据语义理解的过程，表述为：

s＝tanh(W_sH_m+b_s) 公式十五；

t＝tanh(W_tv_attr+b_t) 公式十六；

其中，m∈{text，image}为图像、文本两种不同模态，L_m为文本模态序列长度或图像区域数，v_n即融合中级语义信息后的图文特征表示。

当讽刺识别模块对多模态数据进行讽刺识别时，采用以下方法，

通过将所提取的多级语义特征v_text·v_image·v_attr串联后应用于讽刺识别中，即在经过两个线性层的维度转换后，通过Sigmod函数将模型结果用于二分类任务中，表述为

y_text＝Relu(W_t[v_text：v_attr]+b_t) 公式十九；

y_image＝Relu(W_i[v_image：v_attr]+b_i) 公式二十；

其中，y_text·y_image为经过线性层进行维度转换后的特征表示，为最终模型分类的结果，采用交叉熵作为模型的损失函数：

其中，y_i为数据中第i个样例的标签，为模型预测结果，L₂为L2范数，λ为衡量该范数的权重。

所述y_i取值1时识别为讽刺，取值0时识别为非讽刺。

所述方法基于融合多级语义信息的多模态讽刺识别系统实施，针对社交媒体领域的多模态数据信息，该系统使用的多模态讽刺识别模型在训练阶段，根据信息的前向传播和误差的后向传播进行调整，以逐步优化模型的目标函数。

本发明所述方法针对社交媒体领域的多模态数据，包含图像、文本内容，能够针对不同模态数据提取相应数据的隐藏表示，同时提取各模态数据的中级语义信息，同时设计了一种新颖的实体差异注意力机制，在融合图文数据的同时提取数据中易产生讽刺感的关键片段，最后采用点积注意力机制融合各模态数据的中级、高级语义信息，并将融合后的结果应用于讽刺识别。这种融合多级语义的多模态讽刺识别方法相较于传统的方法，能够在融合图像、文本数据后进一步分析数据中产生讽刺感的关键片段，刻画语义理解过程；能够融合图文数据的中级、高级语义信息，分析其中存在的不协调感，有效提高讽刺识别精确度。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明的示意图。

具体实施方式

如图所示，一种融合多级语义信息的多模态讽刺识别系统方法，所述方法通过融合多级语义信息来分析多模态数据，然后以讽刺识别模块来判别多模态数据中是否存在讽刺感；在生成多模态数据时，以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息，以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段，以语义融合模块融合图文数据的中级、高级语义信息。

M_text＝BiLSTM(T) 公式一；

M_region＝RepVGG(I) 公式二；

其中，

M_image＝tanh(W*RepVGG(I)+b) 公式四；

T_a，t＝BiLSTM(ANPs，Topic) 公式五；

α_a，t＝softmax(u_a，t) 公式七；

v_attr＝W[v_a：v_t]+b 公式九。

v_text，v_image＝SelfATT(M_text，M_image) 公式九；

p＝tanh(W_pM_m+b_p) 公式十一；

q＝tanh(W_qv_n+b_q) 公式十二；

β＝softmax(p*q) 公式十三；

H_m＝M_m-β 公式十四；

所述语义融合模块在融合社交媒体平台图文数据的中级、高级语义信息时，其方法为：在图像情感分析任务执行，所述图像情感分析任务中，ANPs以形容词、名词组合的方式描述图像，被视为图像数据的中级语义信息；所述社交媒体平台中以话题作为对文本内容的高度概括，对文本情绪识别存在重要影响，即被视为文本数据的中级语义信息；在讽刺感受模态间的语义变化影响下，通过将属性特征v_attr与图文融合结果H_m进一步的融合，形成多模态数据语义理解的过程，表述为：

s＝tanh(W_sH_m+b_s) 公式十五；

t＝tank(W_tv_attr+b_t) 公式十六；

其中，m∈{text，image}为图像、文本两种不同模态，L_m为文本模态序列长度或图像区域数，v_m即融合中级语义信息后的图文特征表示。

通过将所提取的多级语义特征v_text·v_image·v_attr串联后应用于讽刺识别中，即在经过两个线性层的维度转换后，通过Si_gmod函数将模型结果用于二分类任务中，表述为

y_text＝Relu(W_t[v_text：v_attr]+b_t) 公式十九；

y_image＝Relu(W_i[v_image：v_attr]+b_i) 公式二十；

所述y_i取值1时识别为讽刺，取值0时识别为非讽刺。

Claims

1.一种融合多级语义信息的多模态讽刺识别系统方法，其特征在于：所述方法通过融合多级语义信息来分析多模态数据，然后以讽刺识别模块来判别多模态数据中是否存在讽刺感；在生成多模态数据时，以特征提取模块提取图文数据的特征表示及图文数据的中级语义信息，以图文融合模块融合图文数据的特征表示并提取产生讽刺感的图文片段，以语义融合模块融合图文数据的中级、高级语义信息；

M_text＝BiLSTM(T) 公式一；

M_region＝RepVG6(I) 公式二；

其中，

M_image＝tanh(W*RepVG6(I)+b) 公式四；

方法A3、当提取文本数据中的话题信息及图像数据中的ANPs(adjective-noun pairs)作为各模态数据的中级语义信息时，采用Glove编码获取其词嵌入信息，利用tweet话题包含的前后关联，通过BiLSTM网络模型对ANPs及话题进行编码得到其上下文表示T_ANP、T_topic；

T_a，t＝BiLSTM(ANPs,Topic) 公式五；

α_a，t＝softmax(u_a，t) 公式七；

v_attr＝W[v_a：v_t]+b 公式九；

设提取的特征表示M_text，M_image分别为文本、图像较原始的低级语义特征，为提升所得到的图文语义信息的抽象度，在进行图文融合前，以自注意力机制提取图文数据的特征表示：

v_text，v_image＝SelfATT(M_text，M_image)

p＝tanh(W_pM_m+b_p) 公式十一；

q＝tanh(W_qv_n+b_q) 公式十二；

β＝softmax(p*q) 公式十三；

H_m＝M_m-β 公式十四；

其中，m，n∈{text，image}表示图像、文本两种不同模态，v_n即通过自注意力机制提取得到的图、文特征，M_in为前文特征提取模块所得到的图像、文本数据表示，β为模态间点积注意力计算的结果，为对差异信息增强后的图文特征表示；

s＝tanh(W_sH_m+b_s) 公式十五；

t＝tanh(W_tv_attr+b_t) 公式十六；

其中，m∈{text，image}为图像、文本两种不同模态，L_m为文本模态序列长度或图像区域数，v_m即融合中级语义信息后的图文特征表示；

通过将所提取的多级语义特征v_text,v_image，v_attr串联后应用于讽刺识别中，即在经过两个线性层的维度转换后，通过Sigmod函数将模型结果用于二分类任务中，表述为

y_text＝Relu(W_t[v_text：v_attr]+b_t) 公式十九；

y_image＝Relu(W_i[v_image：v_attr]+b_i) 公式二十；

其中，y_text，y_image为经过线性层进行维度转换后的特征表示，为最终模型分类的结果，采用交叉熵作为模型的损失函数：

2.根据权利要求1所述的一种融合多级语义信息的多模态讽刺识别系统方法，其特征在于：所述y_i取值1时识别为讽刺，取值0时识别为非讽刺。

3.根据权利要求1所述的一种融合多级语义信息的多模态讽刺识别系统方法，其特征在于：所述方法基于融合多级语义信息的多模态讽刺识别系统实施，针对社交媒体领域的多模态数据信息，该系统使用的多模态讽刺识别模型在训练阶段，根据信息的前向传播和误差的后向传播进行调整，以逐步优化模型的目标函数。