CN113934882A - 细粒度的多模态虚假新闻检测方法 - Google Patents

细粒度的多模态虚假新闻检测方法 Download PDF

Info

Publication number
CN113934882A
CN113934882A CN202111152971.4A CN202111152971A CN113934882A CN 113934882 A CN113934882 A CN 113934882A CN 202111152971 A CN202111152971 A CN 202111152971A CN 113934882 A CN113934882 A CN 113934882A
Authority
CN
China
Prior art keywords
visual
news
text
modal
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111152971.4A
Other languages
English (en)
Inventor
曹娟
亓鹏
何覃
谢添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Ruijian Technology Co ltd
Original Assignee
Beijing Zhongke Ruijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Ruijian Technology Co ltd filed Critical Beijing Zhongke Ruijian Technology Co ltd
Priority to CN202111152971.4A priority Critical patent/CN113934882A/zh
Publication of CN113934882A publication Critical patent/CN113934882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种细粒度的多模态虚假新闻检测方法,为:获取待检测多模态新闻的新闻文本和新闻图片;从新闻文本中提取人物类型、地点类型和事件类型的文本实体;从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征;将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;融合上述特征,获得文本表示、视觉CNN表示和视觉实体表示;基于特征向量计算跨模态的人物相似度、地点相似度和事件相似度;基于上述信息计算所述多模态新闻的多模态表示;基于多模态新闻的多模态表示判断该多模态新闻的真实性。

Description

细粒度的多模态虚假新闻检测方法
技术领域
本发明涉及一种细粒度的多模态虚假新闻检测方法。适用于新闻可信度认证领域。
背景技术
近年来社交媒体已成为重要的新闻信息来源,人们逐渐习惯在社交媒体上获取最新的新闻并自由地发表自己的观点。然而,社交媒体的便利性和开放性也为虚假新闻的传播提供了极大的便利,造成了很多消极的社会影响。因此,能否利用技术手段对虚假新闻进行自动检测已经成为自媒体时代亟待解决的问题。文本作为新闻事件的主要描述载体,是传统虚假新闻检测方法的关注重点。最近,假新闻从传统的基于文本的新闻形式逐步向基于多模态内容的新闻形式演变。因此,基于多模态内容(本专利中指文本和图像模态)的检测方法,即多模态虚假新闻检测,成为当前的研究热点。
目前多模态虚假新闻检测任务中最常用的多模态融合框架是:利用预训练的VGG19模型提取通用的视觉特征,然后将其与文本特征进行简单拼接用于分类。基于这个框架,Wang等人引入事件分类作为假新闻分类的辅助任务,以指导模型学习事件不变的多模态特征,从而获得更好的泛化效果;Wang等人提出了一种元神经过程的方法来检测突发事件中的假新闻;Dhruv等人将此框架修改为多模态变分自动编码器,以学习多模态内容的共享表示用于分类;Singhal等人首次将预训练语言模型(文中指BERT)引入该框架。
尽管这些方法在多模态虚假新闻检测任务上取得了显著进展,他们在建模多模态表达上仍存在不足。现有方法往往利用通用的多模态特征表达进行分类,忽略了如何针对虚假新闻检测的具体任务建模有效的多模态表达,从而限制了多模态内容在检测中的有效性。具体地,1)利用在ImageNet上预训练的VGG19 模型提取图片的全局视觉特征,忽略了图片局部展现的高层语义。这种对图片内容的粗粒度建模导致他们无法充分建模图片中的有效线索,进而很难实现有效的多模态推理;2)通过简单的拼接等方式进行粗粒度的多模态特征融合,忽略了虚假新闻中图文交互的复杂性,进而无法充分捕捉潜在的多模态线索。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种细粒度的多模态虚假新闻检测方法。
本发明所采用的技术方案是:一种细粒度的多模态虚假新闻检测方法,其特征在于:
获取待检测多模态新闻的新闻文本和新闻图片;
从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
基于多模态新闻的多模态表示判断该多模态新闻的真实性。
所述利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示,包括:
将文本特征和视觉实体特征输入文本视觉实体协同注意力Transformer模型,获得由视觉实体增强的文本表示和由文本增强的视觉实体表示;
将视觉实体增强的文本表示和视觉CNN特征输入文本视觉特征协同注意力Transformer模型,获得由视觉实体和视觉CNN特征增强的文本表示和由文本增强的视觉CNN表示。
所述从新闻图片中提取新闻图片的视觉CNN特征,包括:
将新闻图片输入VGG19模型,将原始图片分割为m*m的区域,从VGG19 模型的最后一层提取图片的视觉CNN特征,视觉CNN特征包括该新闻图片m*m 个图片区域的视觉特征。
所述从新闻图片中提取人物类型、地点类型和事件类型的视觉实体,包括:
利用名人检测模型识别图片中的名人,作为人物类型的视觉实体;
利用预训练的地标检测模型识别图片中的地标,作为地点类型的视觉实体;
通过特殊符号及服饰检测模型识别图片中的组织机构名,通过预训练的图像识别模型识别有冲击力的视觉概念及通用的目标及场景标签,作为事件类型的视觉实体。
基于文本实体和视觉实体的特征向量计算跨模态的人物相似度,包括:
Figure BDA0003287716350000041
其中,
Figure BDA0003287716350000042
为跨模态的人物相似度;t和v分别为文本实体和视觉实体的特征向量;Tp为多模态新闻中文本人物实体集合;Vp为多模态新闻中视觉人物实体集合;(表示新闻图片包含视觉人物实体v的概率。
所述基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN 表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示,包括:
Figure BDA0003287716350000043
xm=concat(xt,xve,xv,xs).
其中,xs为跨模态实体不一致性特征;
Figure BDA0003287716350000044
为跨模态的人物相似度;
Figure BDA0003287716350000045
为跨模态的地点相似度;
Figure BDA0003287716350000046
为跨模态的事件相似度;xm为多模态新闻的多模态表达;xt为文本的最终表示,对视觉实体和视觉CNN特征增强的文本表示进行平均操作后获得;xve为视觉实体的最终表示,对文本增强的视觉实体表示进行平均操作后获得;xv图片的最终表示,对文本增强的视觉CNN表示进行平均操作后获得。
所述基于多模态新闻的多模态表示判断该多模态新闻的真实性,包括:
使用具有softmax激活的全连接层将多模态新闻的多模态表示xm投影到两类目标空间:真实新闻和虚假新闻,并获得概率分布:
p=softmax(Wxm+b),
其中,p=[p0,p1]是预测的概率向量,p0和p1分别表示真新闻及假新闻的预测概率;W表示权重矩阵,b表示偏置。
一种细粒度的多模态虚假新闻检测装置,其特征在于:
待检测新闻获取模块,用于获取待检测多模态新闻的新闻文本和新闻图片;
文本内容提取模块,用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
图片内容提取模块,用于从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
文本特征获取模块,用于将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
视觉实体特征获取模块,用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
多模态特征融合模块,用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
相似度计算模块,用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
多模态表示计算模块,用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
真实性判断模块,用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述细粒度的多模态虚假新闻检测方法的步骤。
一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述细粒度的多模态虚假新闻检测方法的步骤。
本发明的有益效果是:本发明通过对新闻图片中嵌入的图片文本和视觉实体进行细粒度的建模,从而更好地理解新闻图片的高层语义;通过细粒度的建模文本互补、实体不一致及相互增强三种多模态交互关系,为假新闻检测提供重要线索。
本发明通过词向量计算人物、地点以及事件这三种类型的文本实体与视觉实体的相似度,有效捕捉虚闻图片及新闻文本的不一致性。本发明通过显式提取新闻图片中的图片文字,将其与新闻文本通过[SEP]分隔后拼接,输入到BERT 模型中获得文本特征,以充分利用新闻文本以及图片文本的信息并建模其交互。本发明利用多模态协同注意力Transformer,建模文本特征与视觉实体特征以及视觉特征的交互,从而捕捉图文在不同语义层次上的交互。
附图说明
图1为实施例的流程图。
图2为实施例中多模态协同注意力Transformer模型的框图。
具体实施方式
如图1所述,本实施例为一种细粒度的多模态虚假新闻检测方法,目标是利用输入多模态新闻的新闻文本T和新闻图片,I判断该条新闻为真新闻或假新闻,即利用多模态内容对新闻是否属于虚假新闻进行二分类,具体包括以下步骤:
S1、新闻获取:获取待检测多模态新闻的新闻文本T和新闻图片I。
S2、多模态特征提取。
S21、文本内容提取:从新闻文本中提取人物类型、地点类型和事件类型的文本实体。
利用命名实体识别(named entity recognition,NER)技术从新闻文本中提取人物类型以及地点类型的文本实体PT和LT,采用词性标注(part-of-speech tagging,POS)技术从新闻文本中提取所有的名词作为事件类型的文本实体CT
S22、图片内容提取:从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉 CNN特征包括分区域从该新闻图片中提取出的视觉特征。
图片文本:利用光学字符识别(Optical Character Recognition,OCR)技术新闻图片中提取图片中嵌入的图片文本O。
视觉CNN特征:在虚假新闻图片数据集上对VGG19模型进行微调,将原始图片分割为7*7的区域,从VGG19模型的最后一层提取图片的视觉CNN特征HV=[r1,r2,…rn],n=49,其中ri表示第i个图片区域的视觉特征。
视觉实体:利用预训练的目标检测模型提取新闻图片中的视觉实体VE,具体包括:
1)利用名人检测模型识别图片中的名人作为人物类型的视觉实体PV
2)利用预训练的地标检测模型识别图片中的地标作为地点类型的视觉实体LV
3)通过特殊符号及服饰检测模型识别图片中的组织机构名,通过预训练的图像识别模型识别有冲击力的视觉概念(如暴力、血腥、灾难等)以及通用的目标及场景标签,作为事件类型的视觉实体CV
S23、视觉实体特征获取:在获得视觉实体VE=[PV,LV,CV]后,使用经训练的BERT模型获取人物类型、地点类型和事件类型视觉实体VE的表示向量,视觉实体特征HVE
S3、多模态特征融合。
S31、文本互补。将原始输入的新闻文本T以及从新闻图片中提取的图片文本O通过[SEP]分隔后拼接,输入到BERT模型:
HT=BERT([CLS]T[SEP]O[SEP])
获得文本特征
HT=[w1,…wn],
其中,wi表示第i个单词的特征表示,n为组合文本的长度。
S32、相互增强:利用多模态协同注意力Transformer模型融合文本特征HT、视觉CNN特征HV和视觉实体特征HVE,获得由视觉实体和视觉CNN特征增强的文本表示HT←(VE,V)、由文本增强的视觉CNN表示HV←T和由文本增强的视觉实体表示HVE←T
如图2所示,本实施例中多模态协同注意力Transformer模型采用双流Transformer同时处理文本和视觉信息,并将标准的query-key-value的注意力结构修改为多模态的协同注意力结构。在每一个Transformer层,给定文本和视觉的表达作为文本流以及视觉流的输入,在每个流中分别计算得到对应的查询矩阵Q、键矩阵K和值矩阵V,然后将查询矩阵Q传到另一个流的多头注意力模块,由此可在文本流中得到视觉增强的文本特征以及在视觉流中得到文本增强的视觉特征。本例中多模态协同注意力Transformer模块的剩余结构和标准的 Transformer模块保持一致,包括残差链接,层归一化,以及位置敏感的前馈网络。
本实施中文本特征HT和视觉实体特征HVE在相似的BERT构造的特征空间中进行融合,缓解多模态特征异构的问题。对齐的字词和视觉实体通常能够反映新闻的关键要素,因此本例使用多模态协同注意力Transformer来融合这些特征。本例将文本特征HT和视觉实体特征HVE输入文本视觉实体协同注意力 Transformer模型,获得由视觉实体增强的文本表示HT←VE和文本增强的视觉实体表示HVE←T
视觉实体关注图像的局部高级语义,忽略了全局的低层视觉特征,作为补充,本实施例使用多模态协同注意力Transformer来建模文本特征和视觉CNN 特征之间的相关性。本实施例将由视觉实体增强的文本表示HT←VE和视觉CNN 特征HV输入文本视觉特征协同注意力Transformer模型,获得由视觉实体和视觉CNN特征增强的文本表示HT←(VE,V)和文本增强的视觉CNN特征HV←T
S33、实体不一致性横梁:基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度,并利用跨模态的人物相似度、地点相似度和事件相似度确定跨模态实体不一致特征。
多模态实体不一致性是多模态假新闻潜在的重要线索,因此本例衡量人物、地点以及更一般的事件这三种实体类型的的多模态不一致性。以人物实体为例,将多模态人物相似性定义为所有文本和视觉人物实体对之间的最大相似性。由于神经网络在检测视觉实体时存在不可避免的误差,因此本实施例在计算相似度时考虑了视觉实体的可信度。本实施例将t和v分别定义为文本实体和视觉实体的特征向量,对于一条包含文本人物实体集合Tp和视觉人物实体集合Vp的新闻,计算跨模态的人物相似度为
Figure BDA0003287716350000091
其中ρ(v)表示新闻图片包含视觉人物实体v的概率。对于没有文本实体或视觉实体的新闻,将多模态相似度设为1,表示没有多模态不一致性的线索。
类似地,采用上述公式结合相应集合计算跨模态的地点相似度
Figure BDA0003287716350000092
和事件相似度
Figure BDA0003287716350000093
然后将它们拼接起来,得到跨模态实体不一致特征
Figure BDA0003287716350000094
S34、基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN 表示和文本增强的视觉实体表示,以及跨模态实体不一致特征计算所述多模态新闻的多模态表示。
对文本增强的视觉实体表示HVE←T进行平均操作后获得视觉实体的最终表示xve,对由视觉实体和视觉CNN特征增强的文本表示HT←(VE,V)和文本增强的视觉CNN特征HV←T进行平均操作后获得文本和图片的最终表示xt和xv
将文本的最终表示xt、视觉实体的最终表示xve、图片的最终表示xv和跨模态实体不一致性特征xs拼接起来,得到待检测多模态新闻最终的多模态表示:
xm=concat(xt,xve,xv,xs).
S4、分类:基于多模态新闻的多模态表示xm新闻是否属于虚假新闻进行二分类。
本实施例使用具有softmax激活的全连接层将多模态新闻的多模态表示xm投影到两类目标空间:真实新闻和虚假新闻,并获得概率分布:
p=softmax(Wxm+b),
其中,p=[p0,p1]是预测的概率向量,p0和p1分别表示真新闻及假新闻的预测概率;W表示权重矩阵;b表示偏置。对于每一条新闻,分类模型的目标是最小化二分类交叉熵损失函数,
Figure BDA0003287716350000101
其中,y∈{0,1}表示了真实标签。
本实施例还提供一种细粒度的多模态虚假新闻检测装置,具有待检测新闻获取模块、文本内容提取模块、图片内容提取模块、视觉实体特征获取模块、文本特征获取模块、多模态特征融合模块、相似度计算模块、多模态表示计算模块和真实性判断模块。
本例中待检测新闻获取模块用于获取待检测多模态新闻的新闻文本和新闻图片;文本内容提取模块用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体;图片内容提取模块用于从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;视觉实体特征获取模块用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;文本特征获取模块用于将新闻文本与图片文本拼接后输入 BERT模型,获得文本特征;多模态特征融合模块用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;相似度计算模块用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;多模态表示计算模块用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;真实性判断模块用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中细粒度的多模态虚假新闻检测方法的步骤。
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中细粒度的多模态虚假新闻检测方法的步骤。

Claims (10)

1.一种细粒度的多模态虚假新闻检测方法,其特征在于:
获取待检测多模态新闻的新闻文本和新闻图片;
从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
基于多模态新闻的多模态表示判断该多模态新闻的真实性。
2.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示,包括:
将文本特征和视觉实体特征输入文本视觉实体协同注意力Transformer模型,获得由视觉实体增强的文本表示和由文本增强的视觉实体表示;
将视觉实体增强的文本表示和视觉CNN特征输入文本视觉特征协同注意力Transformer模型,获得由视觉实体和视觉CNN特征增强的文本表示和由文本增强的视觉CNN表示。
3.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述从新闻图片中提取新闻图片的视觉CNN特征,包括:
将新闻图片输入VGG19模型,将原始图片分割为m*m的区域,从VGG19模型的最后一层提取图片的视觉CNN特征,视觉CNN特征包括该新闻图片m*m个图片区域的视觉特征。
4.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述从新闻图片中提取人物类型、地点类型和事件类型的视觉实体,包括:
利用名人检测模型识别图片中的名人,作为人物类型的视觉实体;
利用预训练的地标检测模型识别图片中的地标,作为地点类型的视觉实体;
通过特殊符号及服饰检测模型识别图片中的组织机构名,通过预训练的图像识别模型识别有冲击力的视觉概念及通用的目标及场景标签,作为事件类型的视觉实体。
5.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,基于文本实体和视觉实体的特征向量计算跨模态的人物相似度,包括:
Figure FDA0003287716340000021
其中,
Figure FDA0003287716340000022
为跨模态的人物相似度;t和v分别为文本实体和视觉实体的特征向量;Tp为多模态新闻中文本人物实体集合;Vp为多模态新闻中视觉人物实体集合;ρ(v)表示新闻图片包含视觉人物实体v的概率。
6.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示,包括:
Figure FDA0003287716340000031
xm=concat(xt,xve,xv,xs).
其中,xs为跨模态实体不一致性特征;
Figure FDA0003287716340000032
为跨模态的人物相似度;
Figure FDA0003287716340000033
为跨模态的地点相似度;
Figure FDA0003287716340000034
为跨模态的事件相似度;xm为多模态新闻的多模态表达;xt为文本的最终表示,对视觉实体和视觉CNN特征增强的文本表示进行平均操作后获得;xve为视觉实体的最终表示,对文本增强的视觉实体表示进行平均操作后获得;xv图片的最终表示,对文本增强的视觉CNN表示进行平均操作后获得。
7.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述基于多模态新闻的多模态表示判断该多模态新闻的真实性,包括:
使用具有softmax激活的全连接层将多模态新闻的多模态表示xm投影到两类目标空间:真实新闻和虚假新闻,并获得概率分布:
p=softmax(Wxm+b),
其中,p=[p0,p1]是预测的概率向量,p0和p1分别表示真新闻及假新闻的预测概率;W表示权重矩阵,b表示偏置。
8.一种细粒度的多模态虚假新闻检测装置,其特征在于:
待检测新闻获取模块,用于获取待检测多模态新闻的新闻文本和新闻图片;
文本内容提取模块,用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
图片内容提取模块,用于从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
视觉实体特征获取模块,用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
文本特征获取模块,用于将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
多模态特征融合模块,用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
相似度计算模块,用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
多模态表示计算模块,用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
真实性判断模块,用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。
9.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述细粒度的多模态虚假新闻检测方法的步骤。
10.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述细粒度的多模态虚假新闻检测方法的步骤。
CN202111152971.4A 2021-09-29 2021-09-29 细粒度的多模态虚假新闻检测方法 Pending CN113934882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111152971.4A CN113934882A (zh) 2021-09-29 2021-09-29 细粒度的多模态虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111152971.4A CN113934882A (zh) 2021-09-29 2021-09-29 细粒度的多模态虚假新闻检测方法

Publications (1)

Publication Number Publication Date
CN113934882A true CN113934882A (zh) 2022-01-14

Family

ID=79277239

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111152971.4A Pending CN113934882A (zh) 2021-09-29 2021-09-29 细粒度的多模态虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN113934882A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792424A (zh) * 2022-05-30 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置及电子设备
CN114969269A (zh) * 2022-06-23 2022-08-30 济南大学 基于实体识别和关系抽取的虚假新闻检测方法及系统
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115496140A (zh) * 2022-09-19 2022-12-20 北京邮电大学 一种多模态虚假新闻检测方法及系统
CN116258145A (zh) * 2023-05-06 2023-06-13 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质
CN116340887A (zh) * 2023-05-29 2023-06-27 山东省人工智能研究院 多模态假新闻检测方法及系统
CN116932712A (zh) * 2023-06-30 2023-10-24 上海蜜度信息技术有限公司 一种多模态输入的交互信息生成方法、装置、设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN112131347A (zh) * 2020-09-25 2020-12-25 天津大学 一种基于多模态融合的假新闻检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797326A (zh) * 2020-05-27 2020-10-20 中国科学院计算技术研究所 一种融合多尺度视觉信息的虚假新闻检测方法及系统
CN112131347A (zh) * 2020-09-25 2020-12-25 天津大学 一种基于多模态融合的假新闻检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIASEN LU ET AL: "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks", 《IN ADVANCES IN NEUAL INFORMATION PROCESSING SYSTEM》, 6 August 2019 (2019-08-06), pages 13 - 23 *
PENG QI ET AL: "Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues", 《HTTPS://ARXIV.ORG/ABS/2108.10509》 *
PENG QI ET AL: "Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues", 《HTTPS://ARXIV.ORG/ABS/2108.10509》, 24 August 2021 (2021-08-24), pages 1 - 9 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792424A (zh) * 2022-05-30 2022-07-26 北京百度网讯科技有限公司 文档图像的处理方法、装置及电子设备
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115100664B (zh) * 2022-06-20 2024-04-09 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN114969269A (zh) * 2022-06-23 2022-08-30 济南大学 基于实体识别和关系抽取的虚假新闻检测方法及系统
CN115496140A (zh) * 2022-09-19 2022-12-20 北京邮电大学 一种多模态虚假新闻检测方法及系统
CN115496140B (zh) * 2022-09-19 2023-07-25 北京邮电大学 一种多模态虚假新闻检测方法及系统
CN116258145A (zh) * 2023-05-06 2023-06-13 华南师范大学 多模态命名实体识别方法、装置、设备以及存储介质
CN116340887A (zh) * 2023-05-29 2023-06-27 山东省人工智能研究院 多模态假新闻检测方法及系统
CN116340887B (zh) * 2023-05-29 2023-09-01 山东省人工智能研究院 多模态假新闻检测方法及系统
CN116932712A (zh) * 2023-06-30 2023-10-24 上海蜜度信息技术有限公司 一种多模态输入的交互信息生成方法、装置、设备和介质

Similar Documents

Publication Publication Date Title
CN113934882A (zh) 细粒度的多模态虚假新闻检测方法
Wang et al. Improving weakly supervised visual grounding by contrastive knowledge distillation
CN111079444A (zh) 一种基于多模态关系的网络谣言检测方法
CN113283551A (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN114662497A (zh) 一种基于协同神经网络的虚假新闻检测方法
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
WO2022222850A1 (zh) 一种多媒体内容的识别方法、相关装置、设备及存储介质
Liu et al. Fact-based visual question answering via dual-process system
Bhalekar et al. D-CNN: a new model for generating image captions with text extraction using deep learning for visually challenged individuals
Gao et al. Logically at Factify 2022: Multimodal fact verification
Nadeem et al. SSM: Stylometric and semantic similarity oriented multimodal fake news detection
Zhu et al. Image-based storytelling using deep learning
CN114662586A (zh) 一种基于共注意的多模态融合机制检测虚假信息的方法
Ding et al. Exploring depth information for spatial relation recognition
CN111898528B (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN117521012A (zh) 基于多模态上下文分层分步对齐的虚假信息检测方法
Liu et al. A multimodal approach for multiple-relation extraction in videos
CN117763151A (zh) 一种低资源多领域的假新闻检测方法及系统
CN117390299A (zh) 基于图证据的可解释性虚假新闻检测方法
CN116910683A (zh) 一种基于事件依赖的多模态虚假新闻检测方法
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
Zhang et al. ECENet: Explainable and Context-Enhanced Network for Muti-modal Fact verification
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Tao et al. Florida international university-university of miami trecvid 2019
Lee et al. A mobile picture tagging system using tree-structured layered Bayesian networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination