CN115205640A - 一种面向谣言检测的多层次图文融合方法及系统 - Google Patents

一种面向谣言检测的多层次图文融合方法及系统 Download PDF

Info

Publication number
CN115205640A
CN115205640A CN202210716884.5A CN202210716884A CN115205640A CN 115205640 A CN115205640 A CN 115205640A CN 202210716884 A CN202210716884 A CN 202210716884A CN 115205640 A CN115205640 A CN 115205640A
Authority
CN
China
Prior art keywords
text
features
image
fusion
rumor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210716884.5A
Other languages
English (en)
Inventor
孙涛
苏孟丽
权志邦
张祥
尹新艳
钟慎杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210716884.5A priority Critical patent/CN115205640A/zh
Publication of CN115205640A publication Critical patent/CN115205640A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种面向谣言检测的多层次图文融合方法及系统,其属于人工智能技术领域,包括:获取待进行谣言检测的数据信息,其中,所述数据信息包括图像信息和文本信息;基于所述数据信息,进行图像特征和文本特征的提取;将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中,获得融合特征;其中,所述多层次图文融合网络具体执行如下过程:将图像特征和文本特征拼接,获得拼接后的特征向量;将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网络获得不同层次的特征向量,将获得的不同层次的特征向量进行融合,获得融合特征;将所述融合特征输入预先训练的谣言检测模型中,获得数据信息是否为谣言的判别结果。

Description

一种面向谣言检测的多层次图文融合方法及系统
技术领域
本公开属于人工智能技术领域,尤其涉及一种面向谣言检测的多层次图文融合方法及系 统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
发明人发现,关于谣言检测当前大多数的研究只是基于单模态信息的研究,例如对文本 内容、微博评论以及社会属性特征的研究,但是越来越多的谣言发布者选择采用具有误扰性 的图像进行谣言的传播。jin等利用循环神经网络提取文本特征,VGG-16提取图片特征;wang 等引入了一个端到端的框架,研究事件的不变特性。但是以上研究在多模态特征融合方面仅 仅采用了简单的特征拼接,给每个模态赋予固定的重要性权重,没有考虑到两种模态之间的 有效融合,两个模态之后没有做到足够的交互,两者之间的联系比较弱。Khattar等提出了 一种多模态变分自编码器来发现模态之间的相关性。与传统方法相比该模型可以更有效的提 取语义特征,但是忽略了模态间的全局特征与局部特征。
发明内容
本公开为了解决上述问题,提供了一种面向谣言检测的多层次图文融合方法及系统,所 述方案采用自主设计的多层次图文融合网络,该网络采用全局编码器、注意力机制、卷积神 经网络三种编码机制,对事件的全局信息、分配不同权重的局部信息以及上下文信息进行建 模,将这些信息组合到统一的深层模型中进行融合,将融合后的特征送入谣言检测模型中进 行检测,能够有效提高谣言的识别精度,阻止谣言的进一步传播。
根据本公开实施例的第一个方面,提供了一种面向谣言检测的多层次图文融合方法,包括:
获取待进行谣言检测的数据信息,其中,所述数据信息包括图像信息和文本信息;
基于所述数据信息,进行图像特征和文本特征的提取;
将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中,获得融合特征; 其中,所述多层次图文融合网络具体执行如下过程:将图像特征和文本特征拼接,获得拼接 后的特征向量;将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网 络获得不同层次的特征向量,将获得的不同层次的特征向量进行融合,获得融合特征;
将所述融合特征输入预先训练的谣言检测模型中,获得数据信息是否为谣言的判别结果。
进一步的,所述注意力机制模块具体处理流程为:将拼接的图像特征和文本特征输入三 个并联的相同尺度的卷积层中进行压缩,分别获得第一特征向量、第二特征向量及第三特征 向量;将所述第一特征向量转置操作后与第二特征向量相乘,将获得的结果经归一化层后与 第三特征向量相乘,并将得到的结果与输入的拼接向量进行融合,获得融合结果。
进一步的,所述谣言检测模型具体采用softmax分类器。
进一步的,所述谣言检测模型中引入了自适应机制,并通过交叉熵定义所述谣言检测模 型的损失函数。
进一步的,所述将获得的不同层次的特征向量进行融合,具体为:将不同层次的特征拼 接为一个特征向量。
进一步的,所述图像特征提取采用预先训练的VGG-19网络模型进行图像特征的提取。
进一步的,所述文本特征采用预先训练的ALBERT模型对文本信息进行特征提取,通过所 述ALBERT模型中的若干双向Transformer编码器获得文本特征。
根据本公开实施例的第二个方面,提供了一种面向谣言检测的多层次图文融合系统,包 括:
数据获取单元,其用于获取待进行谣言检测的数据信息,其中,所述数据信息包括图像 信息和文本信息;
特征提取单元,其用于基于所述数据信息,进行图像特征和文本特征的提取;
特征融合单元,其用于将所述图像特征和文本特征输入预先训练的多层次图文融合网络 模型中,获得融合特征;其中,所述多层次图文融合网络具体执行如下过程:将图像特征和 文本特征拼接,获得拼接后的特征向量;将所述特征向量分别输入全局编码器、注意力机制 模块及双向长短时记忆网络获得不同层次的特征向量,将获得的不同层次的特征向量进行融 合,获得融合特征;
谣言判别单元,其用于将所述融合特征输入预先训练的谣言检测模型中,获得数据信息 是否为谣言的判别结果。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在 存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种面向谣言检测的多 层次图文融合方法。
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有 计算机程序,该程序被处理器执行时实现所述的一种面向谣言检测的多层次图文融合方法。
与现有技术相比,本公开的有益效果是:
(1)本公开提出了一种面向谣言检测的多层次图文融合方法及系统,所述方案采用自 主设计的多层次图文融合网络,该网络采用全局编码器、注意力机制、卷积神经网络三种编 码机制,对事件的全局信息、分配不同权重的局部信息以及上下文信息进行建模,将这些信 息组合到统一的深层模型中进行融合,将融合后的特征送入谣言检测模型中进行检测,能够 有效提高谣言的识别精度,阻止谣言的进一步传播。
(2)本公开所述方案通过所述多层次图文融合模型对多模态(包括图像数据和文本数据) 数据进行融合,能够更有效的融合多模态信息,发挥模态信息的交互互补作用,进而提高谣 言的识别精度。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显, 或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实 施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1(a)至图1(c)为本公开实施例中展示的不同类型的谣言案例;
图2为本公开实施例中所述的一种面向谣言检测的多层次图文融合方法流程图;
图3为本公开实施例中所述的多层次图文融合网络结构示意图。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指 明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的 相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公 开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图 包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时, 其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种面向谣言检测的多层次图文融合方法。
如图2所示,一种面向谣言检测的多层次图文融合方法,包括:
获取待进行谣言检测的数据信息,其中,所述数据信息包括图像信息和文本信息;
基于所述数据信息,进行图像特征和文本特征的提取;
将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中,获得融合特征; 其中,所述多层次图文融合网络具体执行如下过程:将图像特征和文本特征拼接,获得拼接 后的特征向量;将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网 络获得不同层次的特征向量,将获得的不同层次的特征向量进行融合,获得融合特征;
将所述融合特征输入预先训练的谣言检测模型中,获得数据信息是否为谣言的判别结果。
进一步的,所述注意力机制模块具体处理流程为:将拼接的图像特征和文本特征输入三 个并联的相同尺度的卷积层中进行压缩,分别获得第一特征向量、第二特征向量及第三特征 向量;将所述第一特征向量转置操作后与第二特征向量相乘,将获得的结果经归一化层后与 第三特征向量相乘,并将得到的结果与输入的拼接向量进行融合,获得融合结果。
进一步的,所述谣言检测模型具体采用softmax分类器。
进一步的,所述谣言检测模型中引入了自适应机制,并通过交叉熵定义所述谣言检测模 型的损失函数。
进一步的,所述将获得的不同层次的特征向量进行融合,具体为:将不同层次的特征拼 接为一个特征向量。
进一步的,所述图像特征提取采用预先训练的VGG-19网络模型进行图像特征的提取。
进一步的,所述文本特征采用预先训练的ALBERT模型对文本信息进行特征提取,通过所 述ALBERT模型中的若干双向Transformer编码器获得文本特征。
具体的,为了便于理解,以下结合附图对本公开所述方案进行详细说明:
如图1(a)至图1(c)展示的不同类型的谣言案例,为了更有效的融合多模态信息,发 挥模态信息的交互互补作用,本实施例提出一种面向谣言检测的多层次图文融合方法,所述 方法基于自主提出的一种多层次图文融合网络。具体的,该网络采用全局编码器、注意力机 制、卷积神经网络等三种编码机制,对事件的全局信息、分配不同权重的局部信息以及上下 文信息进行建模,将这些信息组合到统一的深层模型。本实施例所提出的模型中,首先提取 数据信息(此处以网络上的帖子为例进行说明)的文本特征与图像特征,将其送入多层次图 文融合网络中进行融合,将融合后的特征送入谣言检测模型中进行检测,及时有效的发现谣 言,阻止谣言的进一步传播。
为了解决现有技术中存在的问题,本实施例提供了一种面向谣言检测的多层次图文融合方法 (以下称其采用的模型为MLFRD:Research on multi-level image-textfusion methodfor rumor detection),具体包括三部分:多模态特征提取、多层次特征融合以及谣言检测;具 体的:
(一)多模态特征提取
(1)文本特征提取
以往工作中都没有考虑到文本中的隐藏信息,比如特殊符号、缩写字母等网络用语的含 义。机器无法理解其真实含义,将其当做噪声信息处理掉,往往这些网络用语才能真正表达 发帖者的真实情感。对于以上问题,本实施例使用词典匹配技术对其进行处理,将一些机器 难以理解的热门网络词汇进行词义还原,为谣言检测模型获送入更多有用信息。
为了获取文本的语义信息与上下文信息,本实施例采用预训练模型ALBERT来提取文本特 征。推文的文本内容是一个连续的单词列表,其中,E1,E2,…,En表示序列中的每一个字符, 经过多层双向Transformer编码器的训练,最终得到文本的特征向量表示T1,T2,…,Tn。然 后通过具有ReLU激活函数的全连接层将文本特征调整为d×1维表示(表示为FT)。
(2)图像特征提取
由于考虑到图片的统计特征难以代表视觉的复杂分布和VGG网络在特征提取的出色表现, 本实施例决定采用VGG-19网络对图像特征进行提取,提取的图像特征用Fv表示。在VGG-19 的最后一层附加一个带有ReLU激活函数的全连接层,将视觉特征统一到同一个维度表示,其 中Fv∈Fp,提取的图像特征的维度用dv表示。
Figure BDA0003709936220000051
其中,
Figure BDA0003709936220000052
是从预先训练的VGG-19得到的视觉特征表示,Wvf是视觉特征提取器中全连通层的权重矩阵。
(二)多层次特征融合
所述多层次特征融合采用如图3所示的多层次图文融合网络,一组帖子经过文本特征提 取器得到文本特征表示FT,经过图像特征提取器得到图像特征FV,将两部分特征串联拼接得 到多层次特征融合的输入FC,公式如下:
Figure BDA0003709936220000053
将得到的特征向量送入多层编码融合机制中,得到更加细粒度、多层次的信息,使文本 与图像的信息得到足够的交互,使二者之间的联系更加紧密,从而提高谣言检测模型的性能。
(1)全局编码器
本实施例采用均值池化来提取全局特征,通过平均每个帖子的特征来表示事件。在全局 编码器中,第i个事件的全局特征表示为:
Figure BDA0003709936220000061
(2)注意力机制
将融合后的特征向量FC输入到三个数量相同的1*1卷积中进行压缩,减少了特征向量的 信息冗余,同时降低了相似度计算的复杂度。将分支Fc1、Fc2、Fc3分别打包到矩阵Q、K、V 中,Q和K之间点积的相似性决定了V上的注意力分布。将Q的特征向量进行转置操作再与K 进行相乘,将得到的结果送入softmax层进行归一化。将归一化的注意力矩阵与V相乘,再 次经过softmax层进行归一化,将结果送入1*1卷积块将通道扩张至Fc的通道数,输出加入 注意力后的融合向量Fa
注意力函数计算过程如下表示:
MA(Q,K,V)=hWO (4)
Figure BDA0003709936220000062
Figure BDA0003709936220000063
其中,WO∈Fd×1,
Figure BDA0003709936220000064
表示向量的串联,输入输出的维度为d×1。如果Q来自文本,K和V来自附加图像,则使用Q和K计算的注意力值可以作为文本和图像之间相似度的度量,然后对图像进行加权。此时输出的特征向量中的关键细节特征相对于原特征图得到了更充分的 表达,从而实现注意力重分配。
(3)BILSTM获取上下文信息
对于句子S=(w1,w2,w3…wn)的每一个输入wi,其中wi∈Rd,d表示词向量的维度,前向 的LSTML依次输入谣言数据的N个向量{undefinedhL1,hL2,hL3....hLn},后向的LSTMR依次输入谣言数据的N个向量{undefinedhRn,hRn-1...hR0}。最后将前向的隐向量与后向的隐向量进行拼接得到{[hL0,hRn][hL1,hRn-1]....[hLn,hR0]},即{undefinedh0,h1...hn},这样 便包含了前向与后向的所有信息。最后,在第i个事件的所有帖子中,我们使用均值池化来 获取事件i的上下文特征,表示为:
Figure BDA0003709936220000065
通过多层次图文融合网络,我们分别得到了事件的全局信息
Figure BDA0003709936220000066
注意力信息
Figure BDA0003709936220000067
以及事件 的上下文信息
Figure BDA0003709936220000068
将三种编码结果进行连接,得到事件的多层次融合特征,即
Figure BDA0003709936220000071
(三)谣言检测
使用Y表示一组标签,其中假新闻被标记为1(即yi=1),真实新闻被标记为0(即yi=0)。 将谣言检测模型定义为Df(Rn,θf)其中θf表示谣言检测模型的参数集,Rn表示谣言检测模型 的映射函数。多模态特征Rn将帖子分类为m个事件,该事件是谣言的概率表示为:
Ym=Df(Rn·cif) (9)
为了更好的处理新出现的事物,本实施例将域自适应应用到谣言检测模型中,其中θk表 示域分类器的参数集,K表示域分类器的映射函数。本实施例使用Yn来表示事件标签集,θe表 示多模态提取器的参数集,E表示整体映射函数。随后通过交叉熵定义谣言检测模型的损失 如下:
Figure BDA0003709936220000072
式中m表示事件的个数。
进一步的,所述域自适应是指将不同领域的数据特征映射到同一个特征空间,这样可利 用其它领域数据来增强目标领域训练。
进一步的,为了证明本实施例所述方案的有效性,以下进行了相应实验:
为了评估模型的有效性,同时为了避免实验的偶然性。我们在Twitter和微博两个公开 的数据集上进行了实验。
表1:两个多模态数据集的统计数据
Figure BDA0003709936220000073
表2 MLFRD模型在两个数据集上的性能比较
Figure BDA0003709936220000074
Figure BDA0003709936220000081
从表2中我们可以看出,纯文本模型表现优于纯图像模型,这表明在实验中文本信息比 图像信息更重要,且两者在微博数据集上的表现都优于在Twitter数据集上的表现。这种原 因出于两个数据集之间的差异,由于中外网友习惯不同,微博推文文本长度普遍长于Twitter 的推文,这使得ALBERT在微博数据集中的表现更佳。但是即使ALBERT表现的再好也不如多 模态信息性能更优。另外,Twitter上的推文大多相关,重复出现的信息相对较多,在训练 ALBERT与VGG-19模型时由于训练样本大多相似,导致模型泛化能力不强,很容易过拟合。
在两个数据集的性能分析中我们还能看出,MLFRD-c模型的表现就没有那么令人满意, 在与MVAE(出自论文:MVAE:Multimodal Variational Autoencoder for Fake NewsDetection) 比较时明显占下风,这可能是因为MVAE采用了多模态变分自动编码器,变分自编码器能够通 过优化观测数据的边际似然值的边界,来学习概率潜在变量模型。MLFRD模型的整体结果都 优于其他基线模型,由此我们可以看出,相比于简单的特征拼接,我们提出的多层次特征融 合网络更能充分利用所有的特征信息,提高模型的整体性能。
其中,MLFRD-c:没有采用多层次融合网络的MLFRD模型,MLFRD-v:没有视觉特征提取器 的MLFRD模型,其是本申请方法的消融实验。
由此我们可以得出结论,单模态模型还是不如多模态模型考虑的全面,而且通过将两个 模态的特征进行简单的拼接得到的多模态信息并不能很好的使两个模态信息进行充分的交互, 在谣言检测方面还是弱于MLFRD模型。
实施例二:
本实施例的目的是提供一种面向谣言检测的多层次图文融合系统。
一种面向谣言检测的多层次图文融合系统,包括:
数据获取单元,其用于获取待进行谣言检测的数据信息,其中,所述数据信息包括图像 信息和文本信息;
特征提取单元,其用于基于所述数据信息,进行图像特征和文本特征的提取;
特征融合单元,其用于将所述图像特征和文本特征输入预先训练的多层次图文融合网络 模型中,获得融合特征;其中,所述多层次图文融合网络具体执行如下过程:将图像特征和 文本特征拼接,获得拼接后的特征向量;将所述特征向量分别输入全局编码器、注意力机制 模块及双向长短时记忆网络获得不同层次的特征向量,将获得的不同层次的特征向量进行融 合,获得融合特征;
谣言判别单元,其用于将所述融合特征输入预先训练的谣言检测模型中,获得数据信息 是否为谣言的判别结果。
进一步的,本实施例所述系统与实施例一所述方法相对应,其技术细节在实施例一中已 经进行了详细描述,故此处不再赘述。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指 令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘 述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理 器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处 理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的 一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完 成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件 模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器 或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器, 处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细 描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够 以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来 执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来 使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
上述实施例提供的一种面向谣言检测的多层次图文融合方法及系统可以实现,具有广阔 的应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员 来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等 同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种面向谣言检测的多层次图文融合方法,其特征在于,包括:
获取待进行谣言检测的数据信息,其中,所述数据信息包括图像信息和文本信息;
基于所述数据信息,进行图像特征和文本特征的提取;
将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中,获得融合特征;其中,所述多层次图文融合网络具体执行如下过程:将图像特征和文本特征拼接,获得拼接后的特征向量;将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网络获得不同层次的特征向量,将获得的不同层次的特征向量进行融合,获得融合特征;
将所述融合特征输入预先训练的谣言检测模型中,获得数据信息是否为谣言的判别结果。
2.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于,所述注意力机制模块具体处理流程为:将拼接的图像特征和文本特征输入三个并联的相同尺度的卷积层中进行压缩,分别获得第一特征向量、第二特征向量及第三特征向量;将所述第一特征向量转置操作后与第二特征向量相乘,将获得的结果经归一化层后与第三特征向量相乘,并将得到的结果与输入的拼接向量进行融合,获得融合结果。
3.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于,所述谣言检测模型具体采用softmax分类器。
4.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于,所述谣言检测模型中引入了自适应机制,并通过交叉熵定义所述谣言检测模型的损失函数。
5.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于,所述将获得的不同层次的特征向量进行融合,具体为:将不同层次的特征拼接为一个特征向量。
6.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于,所述图像特征提取采用预先训练的VGG-19网络模型进行图像特征的提取。
7.如权利要求1所述的一种面向谣言检测的多层次图文融合方法,其特征在于,所述文本特征采用预先训练的ALBERT模型对文本信息进行特征提取,通过所述ALBERT模型中的若干双向Transformer编码器获得文本特征。
8.一种面向谣言检测的多层次图文融合系统,其特征在于,包括:
数据获取单元,其用于获取待进行谣言检测的数据信息,其中,所述数据信息包括图像信息和文本信息;
特征提取单元,其用于基于所述数据信息,进行图像特征和文本特征的提取;
特征融合单元,其用于将所述图像特征和文本特征输入预先训练的多层次图文融合网络模型中,获得融合特征;其中,所述多层次图文融合网络具体执行如下过程:将图像特征和文本特征拼接,获得拼接后的特征向量;将所述特征向量分别输入全局编码器、注意力机制模块及双向长短时记忆网络获得不同层次的特征向量,将获得的不同层次的特征向量进行融合,获得融合特征;
谣言判别单元,其用于将所述融合特征输入预先训练的谣言检测模型中,获得数据信息是否为谣言的判别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种面向谣言检测的多层次图文融合方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种面向谣言检测的多层次图文融合方法。
CN202210716884.5A 2022-06-23 2022-06-23 一种面向谣言检测的多层次图文融合方法及系统 Pending CN115205640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210716884.5A CN115205640A (zh) 2022-06-23 2022-06-23 一种面向谣言检测的多层次图文融合方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716884.5A CN115205640A (zh) 2022-06-23 2022-06-23 一种面向谣言检测的多层次图文融合方法及系统

Publications (1)

Publication Number Publication Date
CN115205640A true CN115205640A (zh) 2022-10-18

Family

ID=83577557

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716884.5A Pending CN115205640A (zh) 2022-06-23 2022-06-23 一种面向谣言检测的多层次图文融合方法及系统

Country Status (1)

Country Link
CN (1) CN115205640A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597467A (zh) * 2023-07-17 2023-08-15 粤港澳大湾区数字经济研究院(福田) 一种图纸检测方法、系统、设备及存储介质
CN117391051A (zh) * 2023-12-12 2024-01-12 江西师范大学 一种融合情感的共同注意网络多模态虚假新闻检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597467A (zh) * 2023-07-17 2023-08-15 粤港澳大湾区数字经济研究院(福田) 一种图纸检测方法、系统、设备及存储介质
CN116597467B (zh) * 2023-07-17 2023-10-31 粤港澳大湾区数字经济研究院(福田) 一种图纸检测方法、系统、设备及存储介质
CN117391051A (zh) * 2023-12-12 2024-01-12 江西师范大学 一种融合情感的共同注意网络多模态虚假新闻检测方法
CN117391051B (zh) * 2023-12-12 2024-03-08 江西师范大学 一种融合情感的共同注意网络多模态虚假新闻检测方法

Similar Documents

Publication Publication Date Title
CN110413785B (zh) 一种基于bert和特征融合的文本自动分类方法
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN109002852B (zh) 图像处理方法、装置、计算机可读存储介质和计算机设备
WO2021135193A1 (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN105631479B (zh) 基于非平衡学习的深度卷积网络图像标注方法及装置
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
US20210224332A1 (en) Chart question answering
CN115205640A (zh) 一种面向谣言检测的多层次图文融合方法及系统
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN110390363A (zh) 一种图像描述方法
CN113836992B (zh) 识别标签的方法、训练标签识别模型的方法、装置及设备
EP3885966A1 (en) Method and device for generating natural language description information
CN111639186B (zh) 动态嵌入投影门控的多类别多标签文本分类模型及装置
CN111026845B (zh) 一种获取多层次上下文语义的文本分类方法
Gu et al. From pixel to patch: Synthesize context-aware features for zero-shot semantic segmentation
Gao et al. A hierarchical recurrent approach to predict scene graphs from a visual‐attention‐oriented perspective
CN114282013A (zh) 一种数据处理方法、装置及存储介质
CN115293348A (zh) 一种多模态特征提取网络的预训练方法及装置
CN114970517A (zh) 一种基于多模态交互的上下文感知的面向视觉问答的方法
CN111597341A (zh) 一种文档级关系抽取方法、装置、设备及存储介质
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置
CN113505307A (zh) 一种基于弱监督增强的社交网络用户地域识别方法
CN114332893A (zh) 表格结构识别方法、装置、计算机设备和存储介质
CN109766918A (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN116187349A (zh) 一种基于场景图关系信息增强的视觉问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Country or region after: China

Address after: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501

Applicant after: Qilu University of Technology (Shandong Academy of Sciences)

Address before: 250353 University Road, Changqing District, Ji'nan, Shandong Province, No. 3501

Applicant before: Qilu University of Technology

Country or region before: China