CN113806564B

CN113806564B - 多模态信息性推文检测方法及系统

Info

Publication number: CN113806564B
Application number: CN202111106298.0A
Authority: CN
Inventors: 王新刚; 吕建东
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2024-05-10
Anticipated expiration: 2041-09-22
Also published as: CN113806564A

Abstract

本发明提出了多模态信息性推文检测方法及系统，包括：分别提取多模态信息性推文中的图像模态数据特征以及文本模态数据特征；将上述来自不同模态的特征映射到同一数据域中，分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果；将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。能够综合使用和分析推文中的图像数据与文本数据，能够有效地筛选信息性推文并进行进一步分析。

Description

多模态信息性推文检测方法及系统

技术领域

本发明属于信息处理技术领域，尤其涉及多模态信息性推文检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，社交媒体的迅速普及，使其成为各种公共事件期间沟通与交流的重要渠道，用户在社交媒体上发布的推文可应用于情感分析、医学研究以及危机信息检测等多个领域，并且，用户发布的海量、实时性的推文发挥着对传统媒体的补充作用，尤以公共危机事件期间为例，用户发布的推文中通常包含基础设施损坏情况、人员伤亡情况以及对该事件的看法，已有研究表明，若能有效地筛选和分析有关危机事件的推文，将对人道主义救援活动的规划与开展起到支撑作用。

人工筛选明显不是一种可行的方案，因此，挑战之一在于如何从海量推文中筛选信息性的推文。推文中通常包含文本与图像两种模态的数据，不同模态之间的数据具有互补信息却又存在一定的异质性差异，已有研究采用单模态的图像数据或文本数据进行推文的筛选与分析，但忽略了多模态数据之间的互补性，也有相当的工作中综合使用推文中的多模态数据进行推文的筛选与分析，但大多集中于研究在不同的数据域中进行融合分析，难以规避数值差异带来的影响且不能有效的捕捉多模态数据的依赖关系，因此另一个挑战在于如何有效的利用推文中的多模态数据。

发明内容

为克服上述现有技术的不足，本发明提供了多模态信息性推文检测方法，用于融合分析推文中的多模态数据。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

第一方面，公开了多模态信息性推文检测方法，包括：

分别提取多模态信息性推文中的图像模态数据特征以及文本模态数据特征；

将上述来自不同模态的特征映射到同一数据域中，分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果；

将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果。

进一步的技术方案，提取图像模态数据特征之前需要进行预处理：将图像调整为统一大小，之后，使用随机水平翻转与随机垂直翻转对图像数据集进行增广，然后将图像处理为数组之后进行归一化。

进一步的技术方案，预处理步骤之后进行特征提取步骤，具体为：

将经过预处理后的图像数据作为输入进行特征提取，获取图像数据的多通道特征；

之后对多通道特征进行序列信息依赖学习，获取多通道特征之间的相关性；

将最终全连接层的输出作为最终的图像特征。

进一步优选的技术方案，采用ResNet-A对多通道特征进行序列信息依赖学习，包括：

由各个多通道特征分别生成q_i,k_i,v_i矩阵，之后通过计算q_i与k_j之间的相似性，得到关于q_i与k_j的权重系数，通过对v_j加权求和得到最终的注意力输出h_i

将得到的注意力输出进行拍平并使用一层全连接层对得到的特征改变维度。

进一步的技术方案，提取文本模态数据特征之前需要进行预处理：将文本句子中的转发标题用户句柄、以及停用词和标点符号进行删除，之后对句子进行分词操作，最后在每个句子的开头与结尾分别加入设定字符生成经过预处理的文本模态数据。

进一步的技术方案，采用Cycle GAN模型将上述来自不同模态的特征映射到同一数据域中，Cycle GAN模型由生成器和判别器两部分组成；

以图像特征矩阵与文本特征矩阵作为生成器中Bi-LSTM的输入，最后一层的输出施加Self-attention机制获得生成特征矩阵；

将源特征矩阵与生成特征矩阵用于判别器的输入，用于判别。

进一步的技术方案，Cycle GAN模型的损失函数包括生成性损失与循环一致性损失，前者用于保证生成器生成的数据与真实数据同分布，后者用于约束数据映射的一致性。

进一步的技术方案，采用混合融合策略对推文中的多模态数据进行融合，以图像域或文本数据域中的数据为作为输入，使用训练好的生成器将图像数据域或文本数据域中的数据映射到文本数据域或图像域中，得到生成的数据，之后采用早期融合策略将位于文本数据域或图像域下的特征矩阵进行注意力融合，并得到对应的分类决策结果。

第二方面，公开了多模态信息性推文检测系统，包括：

图像特征提取模块，用于提取多模态信息性推文中的图像模态数据特征；

文本特征提取模块，用于提取多模态信息性推文中的文本模态数据特征；

多模态融合模块，用于将上述来自不同模态的特征映射到同一数据域中，分别获取文本数据域下分类决策结果及图像数据域下的分类决策结果；

以上一个或多个技术方案存在以下有益效果：

本发明能够将来自不同数据域中的多模态数据映射到同一数据域中融合，在一定程度上缩小了不同模态数据之间的异质性差异所带来的影响，同时能够更好地综合使用各模态之前的互补性信息。能够综合使用和分析推文中的图像数据与文本数据，能够有效地筛选信息性推文并进行进一步分析，为人道主义救援活动的规划与开展提供一定的支撑。

本发明在图像特征提取过程中使用了一种新的特征提取方式，结合使用预训练的CNN模型与Attention机制，能够有效的学习图像多通道特征之前的相关性，能够更有效的提取图像特征。

本发明包括图像特征提取模块、文本特征提取模块以及多模态融合模块，在大型数据集Crisis MMD上的实验验证了该方法的有效性。并在单模态输入的情况下也有着不错的表现。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例MMC-GAN总览图；

图2为本发明实施例图像特征提取模块中的两个改进模型；

图3为本发明实施例文本特征提取模块；

图4为本发明实施例多模态融合模块。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了多模态信息性推文检测方法，用于融合分析推文中的多模态数据，使用预训练的卷积神经网络与Attention机制提取图像模态数据特征，使用语言模型Bert提取文本模态数据特征，使用Cycle-GAN将来自不同模态的特征映射到同一数据域中，最终使用混合融合策略分别对特征矩阵与决策结果进行早期融合与晚期融合。

在具体实施例子中，使用了由Alam等人创建的Crisis MMD数据集，该数据集是一个多模态数据集。通过抓取用户在公共危机事件期间发布的推文，经过筛选得来，其中的公共危机事件囊括了2017年发生在某国的洪水、野火、飓风与地震等事件。推文中包括文字与图像两种模态的数据。原数据集中包含三个分类任务，因其第三个任务仅应用于图像数据，因此，本申请仅考虑前两个多模态任务，其数据集结构及其划分如表1所示。

Task-1：informative

此任务是一个二分类任务，目的是确定数据集中的推文是否有助于识别因灾害而发生损害的区域，是否能为人道主义救援活动提供可用信息。若是，则该条推文视为信息性推文，设Crisis MMD数据集为D，M_i表示数据集中的第i条推文，M_i中包含图像数据v_i与文本数据t_i，则任务一的函数f_Task-1可表示为：

Task-2：Humanitarian Categories

此任务是一个多分类任务，目的在于了解推文的信息类型，共包括受影响的个人、基础设施和公用设施损坏、非人道主义、其他相关信息、救援志愿或捐赠志愿(affected-individuals、infrastructure and utility-damage、not-humanitarian、other-relevant-information、recue-volunteering or donation-effect)五种，为方便起见，将其分别缩写为A、I、N、O、R，则任务二的函数f_Task-2可表示为：

表1数据集总览及划分

参见附图2所示，关于图像特征提取：

预处理：为了能够输入到预训练的卷积神经网络中，需将图像的大小统一调整为224×224；为了扩大训练样本并提高模型的泛化性能，使用随机水平翻转与随机垂直翻转对图像数据集进行增广；将图像处理为数组之后在[0,1]的范围内进行归一化，最后得到预处理后的图像数据I。

I＝{I₁,…,I_i,...,I_n},I_i∈[0,1]^{(3×224×224)}

特征提取：针对图像特征提取模块，本发明使用了在ImageNet上经过预训练的ResNet152作为基准模型进行改进，去掉最后的全连接层(full conneacted layer)，并将输出尺寸为1×1的AdaptiveAvgPool层更改为输出尺寸为7×7的AdaptiveAvgPool层，将经过预处理后的图像数据进行特征提取，获取图像数据的多通道特征C，其中c_i表示其中的单通道特征向量，n表示通道总个数。如下式所示。

C＝ResNet-part(I)

C＝{c₁,...c_i,...,c_n},n＝2048,c_i∈R^7×7

C：多通道特征；ResNet-part：预训练的ResNet152的特征提取部分；Ci：通道特征中的第i个通道。

之后将多通道特征分别采用self-attention(ResNet-A)与LSTM[32]

(ResNet-L)进行序列信息依赖学习，以学习多通道特征C之间的相关性。

1.对于ResNet-A，使用自注意力机制self-attention来学习各个通道内部特征关联，增强有效区域，首先由c_i分别生成q_i,k_i,v_i矩阵，之后通过计算q_i与k_j(j＝1,...,n)之间的相似性，并使用softmax函数进行归一化得到权重系数a_ij，最终通过对v_j加权求和得到最终的注意力数值h_i，其计算公式如下所示。

q_i＝W_qc_i,k_i＝W_kc_i,v_i＝W_vc_i,i＝1,…,n

其中W表示权重矩阵。将得到的注意力数值H＝{h₁,...,h_n}输入到Flatten层中进行拍平并使用一层全连接层对得到的特征进行维度调整。输出为最终的图像特征矩阵。

2.对于ResNet-L，使用LSTM来学习多通道特征C中的序列依赖信息，我们使用了1个LSTM层，其中包含49个单元，每个单元中有49个隐藏层，取最后一层隐藏层H＝{h₁,...,h_n}作为输出。如下式所示。

{h₁,...,h_n}＝LSTM(C),h_i∈R^7×7

将得到的隐藏层的输出H＝{h₁,...,h_n}输入到Flatten层中进行拍平并使用一层全连接层对得到的特征进行维度调整。

需要说明的是，本申请采用了两种方法提取文本特征，上面采用的是ResNet+selfattention，称为ResNet-A，此处采用的是ResNet+LSTM，称为ResNet-L。

将全连接层的输出作为最终的图像特征，其公式如下，

F_I＝σ(W_IH'+b_I),F_I∈R¹⁰²⁴

其中H'表示经过Flatten层的特征矩阵，W_I表示全连接层的权重矩阵，b_I表示全连接层的偏置矩阵，σ表示ReLU激活函数,F_I表示最终输出的图像特征矩阵也是图像特征提取模块的输出，可表示下式。其中X_I代表模块的输入，θ_I代表模块的参数。

F_I＝f_I(X_I；θ_I)

参见附图3所示，文本特征提取：预处理：为了能够将文本输入到Bert中，需对文本模态的数据进行相应的预处理，首先需将文本句子中的转发标题(如http URLs，RT等)、@username的twitter用户句柄、以及停用词和标点符号进行删除，之后使用Bert Tokenizer对句子进行分词操作，最后在每个句子的开头与结尾分别加入[CLS]与[SEP]字符，生成经过预处理的文本模态数据T＝{T₁,…,T_i,…,T_N}，其中T_i表示推文集合中的第i条推文，一条推文中包含若干个字符，T_i＝{t₁,…,t_j,…,t_N}，其中t_j表示某条推文中第j个位置的字符。

特征提取：近年来，通过在大型语料库上预训练的语言模型在多项NLP任务上都获得了不错的提升，这其中，基于Transformer与Attention机制的Bert脱颖而出，已经成为各种NLP任务中最先进的模型之一。由于在预训练期间预定义的最大长度，Bert适用于诸如推文之类的短文本，因此，在我们的模型中，Bert被用于文本特征提取过程，Bert的参数如下式所示。

BERT_BASE:L＝12,H＝768,A＝12,Total Parameters＝110M

其中L表示Transformer层数，H表示Transformer内部维度，A表示head的数量，采用Fine-tuning方法进行训练，在Bert的隐藏层输出后添加一层全连接层以改变输出特征的维度。

Bert模型的输入由Token Embeddings、Segment Embeddings、PositionEmbeddings三部分组成，其中Token Embeddings为字符的向量表示，Segment Embeddings是当前词所在句子的索引，Position Embeddings指代当前字符在整个输入中的位置索引，如下式所示。

Token Embeddings＝{E([CLS]),E(t₂),...,E([SEP])}

SegmentEmbeddings＝{E(A),E(A),...,E(A)}

PositionEmbeddings＝{E(1),E(2),...,E(N)}

最终输入模型的向量Bert-input表示由它们对应的位置相加，如下式所示。

I(i)＝E(t_i)+E(A)+E(i)

Bert-input＝{I(0),...,I(i),...,I(N)}

之后送入Bert中进行特征提取，获取Bert隐藏层输出的句向量H，如下式所示。

H＝Bert(Bert-input)

H＝{h(0),...,h(i),...,h(N)}

将全连接层的输出作为最终的文本特征，如下式所示。

F_T＝σ(W_TH+b_T),F_T∈R¹⁰²⁴

其中W_T表示全连接层的权重矩阵，b_T表示全连接层的偏置矩阵，σ表示ReLU激活函数，F_T表示最终输出的文本特征矩阵也是文本特征提取模块的输出。

多模态融合：

多模态输入：多模态融合模块的输入包括图像特征提取模块输出的图像特征与文本特征提取模块输出的文本特征两部分。如下式所示。

M-input＝{F_I,F_T}

Cycle-GAN用于特征映射：本文MMC-GAN模型中采用Cycle GAN进行特征映射，在图4中，实线箭头代表Cycle GAN的数据流向，Cycle GAN模型由生成器{G_V,G_T}和判别器{D_v,D_T}两部分组成，生成器采用10层隐藏单元个数为1024的Bi-LSTM与self-Attention组成，判别器则由一维卷积层与max pooling层组成，以图像特征矩阵F_I与文本特征矩阵F_T作为生成器中Bi-LSTM的输入，取最后一层的输出施加self-attention机制获得生成特征矩阵{V_G,T_G}。如下式所示。

{b₁,...,b_n}＝BiLSTM(M-input)

将源特征矩阵与生成特征矩阵输入判别器中进行判别。如下式所示。

{Real,Fake}＝D_v(F_I,V_G)

{Real,Fake}＝D_T(F_T,T_G)

Cycle GAN的损失函数包括生成性损失(Adversarial loss)与循环一致性损失(Cycle Consistency loss)两部分，前者用于保证生成器生成的数据与真实数据同分布，后者用于约束数据映射的一致性。对于生成器G_v:T→V及其判别器D_v，其生成性损失函数可表示为

其中V表示图像数据域，T表示文本数据域。同理，生成器G_T:V→T及其判别器D_T的生成性损失函数可表示L_GAN(G_T,D_T,V,T)。循环一致性损失如下所示。

则整个网络的损失函数为：

L(G_v,G_T,D_v,D_T)＝L_GAN(G_v,D_v,T,V)+L_GAN(G_T,D_T,V,T)+λL_cyc(G_v,G_T)

其中λ是控制生成性损失与循环一致性损失的重要参数，在此将其取值为1，然后通过最大最小化此损失函数即可得到最优的生成器如下式所示。

混合融合过程：本文模型中采用混合融合策略对推文中的多模态数据进行融合，在图4中，虚线箭头表示融合过程中的数据流向，以源图像特征作为输入为例，使用训练好的生成器G_T将源图像特征F_I映射到文本数据域中，得到生成特征矩阵T_G，映射到同一数据域下，可以降低不同模态数据异质性差异所带来的影响。之后采用早期融合策略将位于文本数据域下的特征矩阵{T_G,F_T}进行注意力融合，并采用softmax得到分类决策结果Result-1，如下式所示。

f₁＝score₁×T_G+score₂×F_T

Result-1＝softmax(f₁)

其中score_i表示特征矩阵对应的注意力权重，同理可得到在图像数据域下的分类决策结果Result-2，将两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果Result，如下式所示。

Result＝w₁Result-1+w₂Result-2

本发明中将权重各设置为0.5，本模块函数可表示为可表示为下式。其中θ_M代表模块的参数。

Result＝f_M({F_T,F_I}；θ_M)

在大型数据集Crisis MMD上的实验验证了本申请该方法的有效性。并且在模态缺失的情况下也有着不错的表现。

如图1所示，在仅图像模态输入的情况下，本文所提出的ResNet-A明显优于基线模型。

如表2、表3所示，相较于单模态输入与其他工作中的模型，在多模态输入的情况下，各项性能指标优于单模态输入的分类结果，这些结果证实，多模态学习方法能更好的利用模态间的互补信息，提供了对单模态学习方法的进一步性能改进。这项工作中的MMC-GAN模型明显优于其他工作中的结果。

表2对比结果

注：其中T表示仅文本模态数据输入，V表示仅图像模态数据输入，T+V表示多模态数据输入

表3与相关工作结果对比

当然，在具体实施例子中，也可使用其他合理方法来进行图像与文本的特征提取过程，如其他用于图像特征提取预训练的卷积神经网络，用于文本特征提取的语言模型。

实施例二

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例三

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

实施例四

本实施例的目的是提供多模态信息性推文检测系统，包括：

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.多模态信息性推文检测方法，其特征是，包括：

将上述两个数据域下的分类决策结果进行加权融合获得最终的分类决策结果；

在ImageNet上经过预训练的ResNet152作为基准模型进行改进，去掉最后的全连接层，并修改输出尺寸，得到AdaptiveAvgPool层，将经过预处理后的图像数据进行特征提取，获取图像数据的多通道特征；

在得到图像数据的多通道特征后，使用自注意力机制self-attention来学习各个通道内部特征关联，增强有效区域，计算多通道之间的相似性，加权求和得到最终的注意力数值，将得到的注意力数值输入进行拍平使用一层全连接层对得到的特征进行维度调整，输出为最终的图像特征矩阵；

或，

使用LSTM来学习多通道特征中的序列依赖信息，取最后一层隐藏层，将得到的隐藏层的输出拍平使用一层全连接层对得到的特征进行维度调整，将全连接层的输出作为最终的图像特征矩阵；

使用Bert模型对文本特征数据进行提取，将全连接层的输出作为最终的文本特征矩阵；

采用Cycle GAN模型将上述来自不同模的特征映射到同一数据域中，Cycle GAN模型由生成器和判别器两部分组成；

以图像特征矩阵与文本特征矩阵作为生成器中的输入，去掉最后一层的输出施加self-attention机制获得生成后的特征矩阵；

将原始特征矩阵与生成器的输出用于判别器的输入，用于判别；

Cycle GAN模型的损失函数包括生成性损失与循环一致性损失，前者用于保证生成器生成的数据与真实数据同分布，后者用于约束数据映射的一致性。

2.如权利要求1所述的多模态信息性推文检测方法，其特征是，提取图像模态数据特征之前需要进行预处理：将图像调整为统一大小，之后，使用随机水平翻转与随机垂直翻转对图像数据集进行增广，然后将图像处理为数组之后进行归一化。

3.如权利要求2所述的多模态信息性推文检测方法，其特征是，预处理步骤之后进行特征提取步骤，具体为：

将最终全连接层的输出作为最终的图像特征。

4.如权利要求1所述的多模态信息性推文检测方法，其特征是，采用ResNet-A学习多通道特征之间的相关性，包括：

由各个多通道特征分别生成q_i,k_i,v_i矩阵，之后通过计算q_i与k_j之间的相似性，得到关于q_i与k_j的权重系数，通过对v_j加权求和得到最终的注意力数值h_i

将得到的注意力数值进行拍平并使用一层全连接层对得到的特征进行整流。

5.如权利要求1所述的多模态信息性推文检测方法，其特征是，提取文本模态数据特征之前需要进行预处理：将文本句子中的转发标题用户句柄、以及停用词和标点符号进行删除，之后对句子进行分词操作，最后在每个句子的开头与结尾分别加入设定字符生成经过预处理的文本模态数据。

6.如权利要求1所述的多模态信息性推文检测方法，其特征是，采用混合融合策略对推文中的多模态数据进行融合，以图像域或文本数据域中的数据为作为输入，使用训练好的生成器将图像数据域或文本数据域中的数据映射到文本数据域或图像域中，得到生成的数据，之后采用早期融合策略将位于文本数据域或图像域下的特征矩阵进行注意力融合，并得到对应的分类决策结果。

7.基于如权利要求1-6任一项所述方法的多模态信息性推文检测系统，其特征是，包括：

以图像特征矩阵与文本特征矩阵作为生成器中的输入，去最后一层的输出施加self-attention机制获得生成后的特征矩阵；

8.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现上述权利要求1-6任一所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时执行上述权利要求1-6任一所述方法的步骤。