CN115205640A

CN115205640A - 一种面向谣言检测的多层次图文融合方法及系统

Info

Publication number: CN115205640A
Application number: CN202210716884.5A
Authority: CN
Inventors: 孙涛; 苏孟丽; 权志邦; 张祥; 尹新艳; 钟慎杰
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-10-18

Abstract

本公开提供了一种面向谣言检测的多层次图文融合方法及系统，其属于人工智能技术领域，包括：获取待进行谣言检测的数据信息，其中，所述数据信息包括图像信息和文本信息；基于所述数据信息，进行图像特征和文本特征的提取；将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中，获得融合特征；其中，所述多层次图文融合网络具体执行如下过程：将图像特征和文本特征拼接，获得拼接后的特征向量；将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网络获得不同层次的特征向量，将获得的不同层次的特征向量进行融合，获得融合特征；将所述融合特征输入预先训练的谣言检测模型中，获得数据信息是否为谣言的判别结果。

Description

一种面向谣言检测的多层次图文融合方法及系统

技术领域

本公开属于人工智能技术领域，尤其涉及一种面向谣言检测的多层次图文融合方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

发明人发现，关于谣言检测当前大多数的研究只是基于单模态信息的研究，例如对文本内容、微博评论以及社会属性特征的研究，但是越来越多的谣言发布者选择采用具有误扰性的图像进行谣言的传播。jin等利用循环神经网络提取文本特征，VGG-16提取图片特征；wang 等引入了一个端到端的框架，研究事件的不变特性。但是以上研究在多模态特征融合方面仅仅采用了简单的特征拼接，给每个模态赋予固定的重要性权重，没有考虑到两种模态之间的有效融合，两个模态之后没有做到足够的交互，两者之间的联系比较弱。Khattar等提出了一种多模态变分自编码器来发现模态之间的相关性。与传统方法相比该模型可以更有效的提取语义特征，但是忽略了模态间的全局特征与局部特征。

发明内容

本公开为了解决上述问题，提供了一种面向谣言检测的多层次图文融合方法及系统，所述方案采用自主设计的多层次图文融合网络，该网络采用全局编码器、注意力机制、卷积神经网络三种编码机制，对事件的全局信息、分配不同权重的局部信息以及上下文信息进行建模，将这些信息组合到统一的深层模型中进行融合，将融合后的特征送入谣言检测模型中进行检测，能够有效提高谣言的识别精度，阻止谣言的进一步传播。

根据本公开实施例的第一个方面，提供了一种面向谣言检测的多层次图文融合方法,包括：

获取待进行谣言检测的数据信息，其中，所述数据信息包括图像信息和文本信息；

基于所述数据信息，进行图像特征和文本特征的提取；

将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中，获得融合特征；其中，所述多层次图文融合网络具体执行如下过程：将图像特征和文本特征拼接，获得拼接后的特征向量；将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网络获得不同层次的特征向量，将获得的不同层次的特征向量进行融合，获得融合特征；

将所述融合特征输入预先训练的谣言检测模型中，获得数据信息是否为谣言的判别结果。

进一步的，所述注意力机制模块具体处理流程为：将拼接的图像特征和文本特征输入三个并联的相同尺度的卷积层中进行压缩，分别获得第一特征向量、第二特征向量及第三特征向量；将所述第一特征向量转置操作后与第二特征向量相乘，将获得的结果经归一化层后与第三特征向量相乘，并将得到的结果与输入的拼接向量进行融合，获得融合结果。

进一步的，所述谣言检测模型具体采用softmax分类器。

进一步的，所述谣言检测模型中引入了自适应机制，并通过交叉熵定义所述谣言检测模型的损失函数。

进一步的，所述将获得的不同层次的特征向量进行融合，具体为：将不同层次的特征拼接为一个特征向量。

进一步的，所述图像特征提取采用预先训练的VGG-19网络模型进行图像特征的提取。

进一步的，所述文本特征采用预先训练的ALBERT模型对文本信息进行特征提取，通过所述ALBERT模型中的若干双向Transformer编码器获得文本特征。

根据本公开实施例的第二个方面，提供了一种面向谣言检测的多层次图文融合系统，包括：

数据获取单元，其用于获取待进行谣言检测的数据信息，其中，所述数据信息包括图像信息和文本信息；

特征提取单元，其用于基于所述数据信息，进行图像特征和文本特征的提取；

特征融合单元，其用于将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中，获得融合特征；其中，所述多层次图文融合网络具体执行如下过程：将图像特征和文本特征拼接，获得拼接后的特征向量；将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网络获得不同层次的特征向量，将获得的不同层次的特征向量进行融合，获得融合特征；

谣言判别单元，其用于将所述融合特征输入预先训练的谣言检测模型中，获得数据信息是否为谣言的判别结果。

根据本公开实施例的第三个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，所述处理器执行所述程序时实现所述的一种面向谣言检测的多层次图文融合方法。

根据本公开实施例的第四个方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的一种面向谣言检测的多层次图文融合方法。

与现有技术相比，本公开的有益效果是：

(1)本公开提出了一种面向谣言检测的多层次图文融合方法及系统，所述方案采用自主设计的多层次图文融合网络，该网络采用全局编码器、注意力机制、卷积神经网络三种编码机制，对事件的全局信息、分配不同权重的局部信息以及上下文信息进行建模，将这些信息组合到统一的深层模型中进行融合，将融合后的特征送入谣言检测模型中进行检测，能够有效提高谣言的识别精度，阻止谣言的进一步传播。

(2)本公开所述方案通过所述多层次图文融合模型对多模态(包括图像数据和文本数据) 数据进行融合，能够更有效的融合多模态信息，发挥模态信息的交互互补作用，进而提高谣言的识别精度。

本公开附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1(a)至图1(c)为本公开实施例中展示的不同类型的谣言案例；

图2为本公开实施例中所述的一种面向谣言检测的多层次图文融合方法流程图；

图3为本公开实施例中所述的多层次图文融合网络结构示意图。

具体实施方式

下面结合附图与实施例对本公开做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种面向谣言检测的多层次图文融合方法。

如图2所示，一种面向谣言检测的多层次图文融合方法,包括：

基于所述数据信息，进行图像特征和文本特征的提取；

进一步的，所述谣言检测模型具体采用softmax分类器。

具体的，为了便于理解，以下结合附图对本公开所述方案进行详细说明：

如图1(a)至图1(c)展示的不同类型的谣言案例，为了更有效的融合多模态信息，发挥模态信息的交互互补作用，本实施例提出一种面向谣言检测的多层次图文融合方法，所述方法基于自主提出的一种多层次图文融合网络。具体的，该网络采用全局编码器、注意力机制、卷积神经网络等三种编码机制，对事件的全局信息、分配不同权重的局部信息以及上下文信息进行建模，将这些信息组合到统一的深层模型。本实施例所提出的模型中，首先提取数据信息(此处以网络上的帖子为例进行说明)的文本特征与图像特征，将其送入多层次图文融合网络中进行融合，将融合后的特征送入谣言检测模型中进行检测，及时有效的发现谣言，阻止谣言的进一步传播。

为了解决现有技术中存在的问题，本实施例提供了一种面向谣言检测的多层次图文融合方法 (以下称其采用的模型为MLFRD：Research on multi-level image-textfusion methodfor rumor detection)，具体包括三部分：多模态特征提取、多层次特征融合以及谣言检测；具体的：

(一)多模态特征提取

(1)文本特征提取

以往工作中都没有考虑到文本中的隐藏信息，比如特殊符号、缩写字母等网络用语的含义。机器无法理解其真实含义，将其当做噪声信息处理掉，往往这些网络用语才能真正表达发帖者的真实情感。对于以上问题，本实施例使用词典匹配技术对其进行处理，将一些机器难以理解的热门网络词汇进行词义还原，为谣言检测模型获送入更多有用信息。

为了获取文本的语义信息与上下文信息，本实施例采用预训练模型ALBERT来提取文本特征。推文的文本内容是一个连续的单词列表，其中，E₁,E₂，…，E_n表示序列中的每一个字符，经过多层双向Transformer编码器的训练，最终得到文本的特征向量表示T₁,T₂，…，T_n。然后通过具有ReLU激活函数的全连接层将文本特征调整为d×1维表示(表示为F_T)。

(2)图像特征提取

由于考虑到图片的统计特征难以代表视觉的复杂分布和VGG网络在特征提取的出色表现，本实施例决定采用VGG-19网络对图像特征进行提取，提取的图像特征用Fv表示。在VGG-19 的最后一层附加一个带有ReLU激活函数的全连接层，将视觉特征统一到同一个维度表示，其中Fv∈Fp，提取的图像特征的维度用dv表示。

其中，

是从预先训练的VGG-19得到的视觉特征表示，W_vf是视觉特征提取器中全连通层的权重矩阵。

(二)多层次特征融合

所述多层次特征融合采用如图3所示的多层次图文融合网络，一组帖子经过文本特征提取器得到文本特征表示F_T，经过图像特征提取器得到图像特征F_V，将两部分特征串联拼接得到多层次特征融合的输入F_C，公式如下：

将得到的特征向量送入多层编码融合机制中，得到更加细粒度、多层次的信息，使文本与图像的信息得到足够的交互，使二者之间的联系更加紧密，从而提高谣言检测模型的性能。

(1)全局编码器

本实施例采用均值池化来提取全局特征，通过平均每个帖子的特征来表示事件。在全局编码器中，第i个事件的全局特征表示为：

(2)注意力机制

将融合后的特征向量F_C输入到三个数量相同的1*1卷积中进行压缩，减少了特征向量的信息冗余，同时降低了相似度计算的复杂度。将分支F_c1、F_c2、F_c3分别打包到矩阵Q、K、V 中，Q和K之间点积的相似性决定了V上的注意力分布。将Q的特征向量进行转置操作再与K 进行相乘，将得到的结果送入softmax层进行归一化。将归一化的注意力矩阵与V相乘，再次经过softmax层进行归一化，将结果送入1*1卷积块将通道扩张至F_c的通道数，输出加入注意力后的融合向量F_a。

注意力函数计算过程如下表示：

MA(Q,K,V)＝hW^O (4)

其中，W^O∈F^d×1,

表示向量的串联，输入输出的维度为d×1。如果Q来自文本，K和V来自附加图像，则使用Q和K计算的注意力值可以作为文本和图像之间相似度的度量，然后对图像进行加权。此时输出的特征向量中的关键细节特征相对于原特征图得到了更充分的表达，从而实现注意力重分配。

(3)BILSTM获取上下文信息

对于句子S＝(w₁,w₂,w₃…w_n)的每一个输入w_i，其中w_i∈R_d,d表示词向量的维度，前向的LSTM_L依次输入谣言数据的N个向量{undefinedh_L1,h_L2,h_L3....h_Ln},后向的LSTM_R依次输入谣言数据的N个向量{undefinedh_Rn,h_Rn-1...h_R0}。最后将前向的隐向量与后向的隐向量进行拼接得到{[h_L0,h_Rn][h_L1,h_Rn-1]....[h_Ln,h_R0]},即{undefinedh₀,h₁...h_n}，这样便包含了前向与后向的所有信息。最后，在第i个事件的所有帖子中，我们使用均值池化来获取事件i的上下文特征，表示为：

通过多层次图文融合网络，我们分别得到了事件的全局信息

注意力信息

以及事件的上下文信息

将三种编码结果进行连接，得到事件的多层次融合特征，即

(三)谣言检测

使用Y表示一组标签，其中假新闻被标记为1(即y_i＝1)，真实新闻被标记为0(即y_i＝0)。将谣言检测模型定义为D_f(R_n,θ_f)其中θ_f表示谣言检测模型的参数集，R_n表示谣言检测模型的映射函数。多模态特征R_n将帖子分类为m个事件，该事件是谣言的概率表示为：

Y_m＝D_f(R_n·cⁱ,θ_f) (9)

为了更好的处理新出现的事物，本实施例将域自适应应用到谣言检测模型中，其中θ_k表示域分类器的参数集，K表示域分类器的映射函数。本实施例使用Y_n来表示事件标签集，θ_e表示多模态提取器的参数集，E表示整体映射函数。随后通过交叉熵定义谣言检测模型的损失如下：

式中m表示事件的个数。

进一步的，所述域自适应是指将不同领域的数据特征映射到同一个特征空间，这样可利用其它领域数据来增强目标领域训练。

进一步的，为了证明本实施例所述方案的有效性，以下进行了相应实验：

为了评估模型的有效性，同时为了避免实验的偶然性。我们在Twitter和微博两个公开的数据集上进行了实验。

表1：两个多模态数据集的统计数据

表2 MLFRD模型在两个数据集上的性能比较

从表2中我们可以看出，纯文本模型表现优于纯图像模型，这表明在实验中文本信息比图像信息更重要，且两者在微博数据集上的表现都优于在Twitter数据集上的表现。这种原因出于两个数据集之间的差异，由于中外网友习惯不同，微博推文文本长度普遍长于Twitter 的推文，这使得ALBERT在微博数据集中的表现更佳。但是即使ALBERT表现的再好也不如多模态信息性能更优。另外，Twitter上的推文大多相关，重复出现的信息相对较多，在训练 ALBERT与VGG-19模型时由于训练样本大多相似，导致模型泛化能力不强，很容易过拟合。

在两个数据集的性能分析中我们还能看出，MLFRD-c模型的表现就没有那么令人满意，在与MVAE(出自论文：MVAE:Multimodal Variational Autoencoder for Fake NewsDetection) 比较时明显占下风，这可能是因为MVAE采用了多模态变分自动编码器，变分自编码器能够通过优化观测数据的边际似然值的边界，来学习概率潜在变量模型。MLFRD模型的整体结果都优于其他基线模型，由此我们可以看出，相比于简单的特征拼接，我们提出的多层次特征融合网络更能充分利用所有的特征信息，提高模型的整体性能。

其中，MLFRD-c:没有采用多层次融合网络的MLFRD模型，MLFRD-v:没有视觉特征提取器的MLFRD模型，其是本申请方法的消融实验。

由此我们可以得出结论，单模态模型还是不如多模态模型考虑的全面，而且通过将两个模态的特征进行简单的拼接得到的多模态信息并不能很好的使两个模态信息进行充分的交互，在谣言检测方面还是弱于MLFRD模型。

实施例二：

本实施例的目的是提供一种面向谣言检测的多层次图文融合系统。

一种面向谣言检测的多层次图文融合系统，包括：

进一步的，本实施例所述系统与实施例一所述方法相对应，其技术细节在实施例一中已经进行了详细描述，故此处不再赘述。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例一中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一中所述的方法。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述实施例提供的一种面向谣言检测的多层次图文融合方法及系统可以实现，具有广阔的应用前景。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种面向谣言检测的多层次图文融合方法,其特征在于，包括：

基于所述数据信息，进行图像特征和文本特征的提取；

2.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于，所述注意力机制模块具体处理流程为：将拼接的图像特征和文本特征输入三个并联的相同尺度的卷积层中进行压缩，分别获得第一特征向量、第二特征向量及第三特征向量；将所述第一特征向量转置操作后与第二特征向量相乘，将获得的结果经归一化层后与第三特征向量相乘，并将得到的结果与输入的拼接向量进行融合，获得融合结果。

3.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于，所述谣言检测模型具体采用softmax分类器。

4.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于，所述谣言检测模型中引入了自适应机制，并通过交叉熵定义所述谣言检测模型的损失函数。

5.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于，所述将获得的不同层次的特征向量进行融合，具体为：将不同层次的特征拼接为一个特征向量。

6.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于，所述图像特征提取采用预先训练的VGG-19网络模型进行图像特征的提取。

7.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于，所述文本特征采用预先训练的ALBERT模型对文本信息进行特征提取，通过所述ALBERT模型中的若干双向Transformer编码器获得文本特征。

8.一种面向谣言检测的多层次图文融合系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种面向谣言检测的多层次图文融合方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种面向谣言检测的多层次图文融合方法。