CN113934882A - 细粒度的多模态虚假新闻检测方法 - Google Patents
细粒度的多模态虚假新闻检测方法 Download PDFInfo
- Publication number
- CN113934882A CN113934882A CN202111152971.4A CN202111152971A CN113934882A CN 113934882 A CN113934882 A CN 113934882A CN 202111152971 A CN202111152971 A CN 202111152971A CN 113934882 A CN113934882 A CN 113934882A
- Authority
- CN
- China
- Prior art keywords
- visual
- news
- text
- modal
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000000007 visual effect Effects 0.000 claims abstract description 244
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 238000000034 method Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 230000008520 organization Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 description 49
- 230000003993 interaction Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种细粒度的多模态虚假新闻检测方法,为:获取待检测多模态新闻的新闻文本和新闻图片;从新闻文本中提取人物类型、地点类型和事件类型的文本实体;从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征;将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;融合上述特征,获得文本表示、视觉CNN表示和视觉实体表示;基于特征向量计算跨模态的人物相似度、地点相似度和事件相似度;基于上述信息计算所述多模态新闻的多模态表示;基于多模态新闻的多模态表示判断该多模态新闻的真实性。
Description
技术领域
本发明涉及一种细粒度的多模态虚假新闻检测方法。适用于新闻可信度认证领域。
背景技术
近年来社交媒体已成为重要的新闻信息来源,人们逐渐习惯在社交媒体上获取最新的新闻并自由地发表自己的观点。然而,社交媒体的便利性和开放性也为虚假新闻的传播提供了极大的便利,造成了很多消极的社会影响。因此,能否利用技术手段对虚假新闻进行自动检测已经成为自媒体时代亟待解决的问题。文本作为新闻事件的主要描述载体,是传统虚假新闻检测方法的关注重点。最近,假新闻从传统的基于文本的新闻形式逐步向基于多模态内容的新闻形式演变。因此,基于多模态内容(本专利中指文本和图像模态)的检测方法,即多模态虚假新闻检测,成为当前的研究热点。
目前多模态虚假新闻检测任务中最常用的多模态融合框架是:利用预训练的VGG19模型提取通用的视觉特征,然后将其与文本特征进行简单拼接用于分类。基于这个框架,Wang等人引入事件分类作为假新闻分类的辅助任务,以指导模型学习事件不变的多模态特征,从而获得更好的泛化效果;Wang等人提出了一种元神经过程的方法来检测突发事件中的假新闻;Dhruv等人将此框架修改为多模态变分自动编码器,以学习多模态内容的共享表示用于分类;Singhal等人首次将预训练语言模型(文中指BERT)引入该框架。
尽管这些方法在多模态虚假新闻检测任务上取得了显著进展,他们在建模多模态表达上仍存在不足。现有方法往往利用通用的多模态特征表达进行分类,忽略了如何针对虚假新闻检测的具体任务建模有效的多模态表达,从而限制了多模态内容在检测中的有效性。具体地,1)利用在ImageNet上预训练的VGG19 模型提取图片的全局视觉特征,忽略了图片局部展现的高层语义。这种对图片内容的粗粒度建模导致他们无法充分建模图片中的有效线索,进而很难实现有效的多模态推理;2)通过简单的拼接等方式进行粗粒度的多模态特征融合,忽略了虚假新闻中图文交互的复杂性,进而无法充分捕捉潜在的多模态线索。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种细粒度的多模态虚假新闻检测方法。
本发明所采用的技术方案是:一种细粒度的多模态虚假新闻检测方法,其特征在于:
获取待检测多模态新闻的新闻文本和新闻图片;
从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
基于多模态新闻的多模态表示判断该多模态新闻的真实性。
所述利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示,包括:
将文本特征和视觉实体特征输入文本视觉实体协同注意力Transformer模型,获得由视觉实体增强的文本表示和由文本增强的视觉实体表示;
将视觉实体增强的文本表示和视觉CNN特征输入文本视觉特征协同注意力Transformer模型,获得由视觉实体和视觉CNN特征增强的文本表示和由文本增强的视觉CNN表示。
所述从新闻图片中提取新闻图片的视觉CNN特征,包括:
将新闻图片输入VGG19模型,将原始图片分割为m*m的区域,从VGG19 模型的最后一层提取图片的视觉CNN特征,视觉CNN特征包括该新闻图片m*m 个图片区域的视觉特征。
所述从新闻图片中提取人物类型、地点类型和事件类型的视觉实体,包括:
利用名人检测模型识别图片中的名人,作为人物类型的视觉实体;
利用预训练的地标检测模型识别图片中的地标,作为地点类型的视觉实体;
通过特殊符号及服饰检测模型识别图片中的组织机构名,通过预训练的图像识别模型识别有冲击力的视觉概念及通用的目标及场景标签,作为事件类型的视觉实体。
基于文本实体和视觉实体的特征向量计算跨模态的人物相似度,包括:
所述基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN 表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示,包括:
xm=concat(xt,xve,xv,xs).
其中,xs为跨模态实体不一致性特征;为跨模态的人物相似度;为跨模态的地点相似度;为跨模态的事件相似度;xm为多模态新闻的多模态表达;xt为文本的最终表示,对视觉实体和视觉CNN特征增强的文本表示进行平均操作后获得;xve为视觉实体的最终表示,对文本增强的视觉实体表示进行平均操作后获得;xv图片的最终表示,对文本增强的视觉CNN表示进行平均操作后获得。
所述基于多模态新闻的多模态表示判断该多模态新闻的真实性,包括:
使用具有softmax激活的全连接层将多模态新闻的多模态表示xm投影到两类目标空间:真实新闻和虚假新闻,并获得概率分布:
p=softmax(Wxm+b),
其中,p=[p0,p1]是预测的概率向量,p0和p1分别表示真新闻及假新闻的预测概率;W表示权重矩阵,b表示偏置。
一种细粒度的多模态虚假新闻检测装置,其特征在于:
待检测新闻获取模块,用于获取待检测多模态新闻的新闻文本和新闻图片;
文本内容提取模块,用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
图片内容提取模块,用于从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
文本特征获取模块,用于将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
视觉实体特征获取模块,用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
多模态特征融合模块,用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
相似度计算模块,用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
多模态表示计算模块,用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
真实性判断模块,用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述细粒度的多模态虚假新闻检测方法的步骤。
一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述细粒度的多模态虚假新闻检测方法的步骤。
本发明的有益效果是:本发明通过对新闻图片中嵌入的图片文本和视觉实体进行细粒度的建模,从而更好地理解新闻图片的高层语义;通过细粒度的建模文本互补、实体不一致及相互增强三种多模态交互关系,为假新闻检测提供重要线索。
本发明通过词向量计算人物、地点以及事件这三种类型的文本实体与视觉实体的相似度,有效捕捉虚闻图片及新闻文本的不一致性。本发明通过显式提取新闻图片中的图片文字,将其与新闻文本通过[SEP]分隔后拼接,输入到BERT 模型中获得文本特征,以充分利用新闻文本以及图片文本的信息并建模其交互。本发明利用多模态协同注意力Transformer,建模文本特征与视觉实体特征以及视觉特征的交互,从而捕捉图文在不同语义层次上的交互。
附图说明
图1为实施例的流程图。
图2为实施例中多模态协同注意力Transformer模型的框图。
具体实施方式
如图1所述,本实施例为一种细粒度的多模态虚假新闻检测方法,目标是利用输入多模态新闻的新闻文本T和新闻图片,I判断该条新闻为真新闻或假新闻,即利用多模态内容对新闻是否属于虚假新闻进行二分类,具体包括以下步骤:
S1、新闻获取:获取待检测多模态新闻的新闻文本T和新闻图片I。
S2、多模态特征提取。
S21、文本内容提取:从新闻文本中提取人物类型、地点类型和事件类型的文本实体。
利用命名实体识别(named entity recognition,NER)技术从新闻文本中提取人物类型以及地点类型的文本实体PT和LT,采用词性标注(part-of-speech tagging,POS)技术从新闻文本中提取所有的名词作为事件类型的文本实体CT。
S22、图片内容提取:从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉 CNN特征包括分区域从该新闻图片中提取出的视觉特征。
图片文本:利用光学字符识别(Optical Character Recognition,OCR)技术新闻图片中提取图片中嵌入的图片文本O。
视觉CNN特征:在虚假新闻图片数据集上对VGG19模型进行微调,将原始图片分割为7*7的区域,从VGG19模型的最后一层提取图片的视觉CNN特征HV=[r1,r2,…rn],n=49,其中ri表示第i个图片区域的视觉特征。
视觉实体:利用预训练的目标检测模型提取新闻图片中的视觉实体VE,具体包括:
1)利用名人检测模型识别图片中的名人作为人物类型的视觉实体PV;
2)利用预训练的地标检测模型识别图片中的地标作为地点类型的视觉实体LV;
3)通过特殊符号及服饰检测模型识别图片中的组织机构名,通过预训练的图像识别模型识别有冲击力的视觉概念(如暴力、血腥、灾难等)以及通用的目标及场景标签,作为事件类型的视觉实体CV。
S23、视觉实体特征获取:在获得视觉实体VE=[PV,LV,CV]后,使用经训练的BERT模型获取人物类型、地点类型和事件类型视觉实体VE的表示向量,视觉实体特征HVE。
S3、多模态特征融合。
S31、文本互补。将原始输入的新闻文本T以及从新闻图片中提取的图片文本O通过[SEP]分隔后拼接,输入到BERT模型:
HT=BERT([CLS]T[SEP]O[SEP])
获得文本特征
HT=[w1,…wn],
其中,wi表示第i个单词的特征表示,n为组合文本的长度。
S32、相互增强:利用多模态协同注意力Transformer模型融合文本特征HT、视觉CNN特征HV和视觉实体特征HVE,获得由视觉实体和视觉CNN特征增强的文本表示HT←(VE,V)、由文本增强的视觉CNN表示HV←T和由文本增强的视觉实体表示HVE←T。
如图2所示,本实施例中多模态协同注意力Transformer模型采用双流Transformer同时处理文本和视觉信息,并将标准的query-key-value的注意力结构修改为多模态的协同注意力结构。在每一个Transformer层,给定文本和视觉的表达作为文本流以及视觉流的输入,在每个流中分别计算得到对应的查询矩阵Q、键矩阵K和值矩阵V,然后将查询矩阵Q传到另一个流的多头注意力模块,由此可在文本流中得到视觉增强的文本特征以及在视觉流中得到文本增强的视觉特征。本例中多模态协同注意力Transformer模块的剩余结构和标准的 Transformer模块保持一致,包括残差链接,层归一化,以及位置敏感的前馈网络。
本实施中文本特征HT和视觉实体特征HVE在相似的BERT构造的特征空间中进行融合,缓解多模态特征异构的问题。对齐的字词和视觉实体通常能够反映新闻的关键要素,因此本例使用多模态协同注意力Transformer来融合这些特征。本例将文本特征HT和视觉实体特征HVE输入文本视觉实体协同注意力 Transformer模型,获得由视觉实体增强的文本表示HT←VE和文本增强的视觉实体表示HVE←T。
视觉实体关注图像的局部高级语义,忽略了全局的低层视觉特征,作为补充,本实施例使用多模态协同注意力Transformer来建模文本特征和视觉CNN 特征之间的相关性。本实施例将由视觉实体增强的文本表示HT←VE和视觉CNN 特征HV输入文本视觉特征协同注意力Transformer模型,获得由视觉实体和视觉CNN特征增强的文本表示HT←(VE,V)和文本增强的视觉CNN特征HV←T。
S33、实体不一致性横梁:基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度,并利用跨模态的人物相似度、地点相似度和事件相似度确定跨模态实体不一致特征。
多模态实体不一致性是多模态假新闻潜在的重要线索,因此本例衡量人物、地点以及更一般的事件这三种实体类型的的多模态不一致性。以人物实体为例,将多模态人物相似性定义为所有文本和视觉人物实体对之间的最大相似性。由于神经网络在检测视觉实体时存在不可避免的误差,因此本实施例在计算相似度时考虑了视觉实体的可信度。本实施例将t和v分别定义为文本实体和视觉实体的特征向量,对于一条包含文本人物实体集合Tp和视觉人物实体集合Vp的新闻,计算跨模态的人物相似度为
其中ρ(v)表示新闻图片包含视觉人物实体v的概率。对于没有文本实体或视觉实体的新闻,将多模态相似度设为1,表示没有多模态不一致性的线索。
S34、基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN 表示和文本增强的视觉实体表示,以及跨模态实体不一致特征计算所述多模态新闻的多模态表示。
对文本增强的视觉实体表示HVE←T进行平均操作后获得视觉实体的最终表示xve,对由视觉实体和视觉CNN特征增强的文本表示HT←(VE,V)和文本增强的视觉CNN特征HV←T进行平均操作后获得文本和图片的最终表示xt和xv。
将文本的最终表示xt、视觉实体的最终表示xve、图片的最终表示xv和跨模态实体不一致性特征xs拼接起来,得到待检测多模态新闻最终的多模态表示:
xm=concat(xt,xve,xv,xs).
S4、分类:基于多模态新闻的多模态表示xm新闻是否属于虚假新闻进行二分类。
本实施例使用具有softmax激活的全连接层将多模态新闻的多模态表示xm投影到两类目标空间:真实新闻和虚假新闻,并获得概率分布:
p=softmax(Wxm+b),
其中,p=[p0,p1]是预测的概率向量,p0和p1分别表示真新闻及假新闻的预测概率;W表示权重矩阵;b表示偏置。对于每一条新闻,分类模型的目标是最小化二分类交叉熵损失函数,
其中,y∈{0,1}表示了真实标签。
本实施例还提供一种细粒度的多模态虚假新闻检测装置,具有待检测新闻获取模块、文本内容提取模块、图片内容提取模块、视觉实体特征获取模块、文本特征获取模块、多模态特征融合模块、相似度计算模块、多模态表示计算模块和真实性判断模块。
本例中待检测新闻获取模块用于获取待检测多模态新闻的新闻文本和新闻图片;文本内容提取模块用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体;图片内容提取模块用于从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;视觉实体特征获取模块用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;文本特征获取模块用于将新闻文本与图片文本拼接后输入 BERT模型,获得文本特征;多模态特征融合模块用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;相似度计算模块用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;多模态表示计算模块用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;真实性判断模块用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中细粒度的多模态虚假新闻检测方法的步骤。
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中细粒度的多模态虚假新闻检测方法的步骤。
Claims (10)
1.一种细粒度的多模态虚假新闻检测方法,其特征在于:
获取待检测多模态新闻的新闻文本和新闻图片;
从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
基于多模态新闻的多模态表示判断该多模态新闻的真实性。
2.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示,包括:
将文本特征和视觉实体特征输入文本视觉实体协同注意力Transformer模型,获得由视觉实体增强的文本表示和由文本增强的视觉实体表示;
将视觉实体增强的文本表示和视觉CNN特征输入文本视觉特征协同注意力Transformer模型,获得由视觉实体和视觉CNN特征增强的文本表示和由文本增强的视觉CNN表示。
3.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述从新闻图片中提取新闻图片的视觉CNN特征,包括:
将新闻图片输入VGG19模型,将原始图片分割为m*m的区域,从VGG19模型的最后一层提取图片的视觉CNN特征,视觉CNN特征包括该新闻图片m*m个图片区域的视觉特征。
4.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述从新闻图片中提取人物类型、地点类型和事件类型的视觉实体,包括:
利用名人检测模型识别图片中的名人,作为人物类型的视觉实体;
利用预训练的地标检测模型识别图片中的地标,作为地点类型的视觉实体;
通过特殊符号及服饰检测模型识别图片中的组织机构名,通过预训练的图像识别模型识别有冲击力的视觉概念及通用的目标及场景标签,作为事件类型的视觉实体。
6.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示,包括:
xm=concat(xt,xve,xv,xs).
7.根据权利要求1所述的细粒度的多模态虚假新闻检测方法,其特征在于,所述基于多模态新闻的多模态表示判断该多模态新闻的真实性,包括:
使用具有softmax激活的全连接层将多模态新闻的多模态表示xm投影到两类目标空间:真实新闻和虚假新闻,并获得概率分布:
p=softmax(Wxm+b),
其中,p=[p0,p1]是预测的概率向量,p0和p1分别表示真新闻及假新闻的预测概率;W表示权重矩阵,b表示偏置。
8.一种细粒度的多模态虚假新闻检测装置,其特征在于:
待检测新闻获取模块,用于获取待检测多模态新闻的新闻文本和新闻图片;
文本内容提取模块,用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体;
图片内容提取模块,用于从新闻图片中提取图片文本,人物类型、地点类型和事件类型的视觉实体,以及新闻图片的视觉CNN特征,其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征;
视觉实体特征获取模块,用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征;
文本特征获取模块,用于将新闻文本与图片文本拼接后输入BERT模型,获得文本特征;
多模态特征融合模块,用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征,获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示;
相似度计算模块,用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度;
多模态表示计算模块,用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示,以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示;
真实性判断模块,用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。
9.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述细粒度的多模态虚假新闻检测方法的步骤。
10.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述细粒度的多模态虚假新闻检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111152971.4A CN113934882A (zh) | 2021-09-29 | 2021-09-29 | 细粒度的多模态虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111152971.4A CN113934882A (zh) | 2021-09-29 | 2021-09-29 | 细粒度的多模态虚假新闻检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113934882A true CN113934882A (zh) | 2022-01-14 |
Family
ID=79277239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111152971.4A Pending CN113934882A (zh) | 2021-09-29 | 2021-09-29 | 细粒度的多模态虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113934882A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792424A (zh) * | 2022-05-30 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置及电子设备 |
CN114969269A (zh) * | 2022-06-23 | 2022-08-30 | 济南大学 | 基于实体识别和关系抽取的虚假新闻检测方法及系统 |
CN115100664A (zh) * | 2022-06-20 | 2022-09-23 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN115496140A (zh) * | 2022-09-19 | 2022-12-20 | 北京邮电大学 | 一种多模态虚假新闻检测方法及系统 |
CN116258145A (zh) * | 2023-05-06 | 2023-06-13 | 华南师范大学 | 多模态命名实体识别方法、装置、设备以及存储介质 |
CN116340887A (zh) * | 2023-05-29 | 2023-06-27 | 山东省人工智能研究院 | 多模态假新闻检测方法及系统 |
CN116932712A (zh) * | 2023-06-30 | 2023-10-24 | 上海蜜度信息技术有限公司 | 一种多模态输入的交互信息生成方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797326A (zh) * | 2020-05-27 | 2020-10-20 | 中国科学院计算技术研究所 | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 |
CN112131347A (zh) * | 2020-09-25 | 2020-12-25 | 天津大学 | 一种基于多模态融合的假新闻检测方法 |
-
2021
- 2021-09-29 CN CN202111152971.4A patent/CN113934882A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797326A (zh) * | 2020-05-27 | 2020-10-20 | 中国科学院计算技术研究所 | 一种融合多尺度视觉信息的虚假新闻检测方法及系统 |
CN112131347A (zh) * | 2020-09-25 | 2020-12-25 | 天津大学 | 一种基于多模态融合的假新闻检测方法 |
Non-Patent Citations (3)
Title |
---|
JIASEN LU ET AL: "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks", 《IN ADVANCES IN NEUAL INFORMATION PROCESSING SYSTEM》, 6 August 2019 (2019-08-06), pages 13 - 23 * |
PENG QI ET AL: "Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues", 《HTTPS://ARXIV.ORG/ABS/2108.10509》 * |
PENG QI ET AL: "Improving Fake News Detection by Using an Entity-enhanced Framework to Fuse Diverse Multimodal Clues", 《HTTPS://ARXIV.ORG/ABS/2108.10509》, 24 August 2021 (2021-08-24), pages 1 - 9 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792424A (zh) * | 2022-05-30 | 2022-07-26 | 北京百度网讯科技有限公司 | 文档图像的处理方法、装置及电子设备 |
CN115100664A (zh) * | 2022-06-20 | 2022-09-23 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN115100664B (zh) * | 2022-06-20 | 2024-04-09 | 济南大学 | 基于相关性信息扩展的多模态虚假新闻识别方法及系统 |
CN114969269A (zh) * | 2022-06-23 | 2022-08-30 | 济南大学 | 基于实体识别和关系抽取的虚假新闻检测方法及系统 |
CN115496140A (zh) * | 2022-09-19 | 2022-12-20 | 北京邮电大学 | 一种多模态虚假新闻检测方法及系统 |
CN115496140B (zh) * | 2022-09-19 | 2023-07-25 | 北京邮电大学 | 一种多模态虚假新闻检测方法及系统 |
CN116258145A (zh) * | 2023-05-06 | 2023-06-13 | 华南师范大学 | 多模态命名实体识别方法、装置、设备以及存储介质 |
CN116340887A (zh) * | 2023-05-29 | 2023-06-27 | 山东省人工智能研究院 | 多模态假新闻检测方法及系统 |
CN116340887B (zh) * | 2023-05-29 | 2023-09-01 | 山东省人工智能研究院 | 多模态假新闻检测方法及系统 |
CN116932712A (zh) * | 2023-06-30 | 2023-10-24 | 上海蜜度信息技术有限公司 | 一种多模态输入的交互信息生成方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113934882A (zh) | 细粒度的多模态虚假新闻检测方法 | |
Wang et al. | Improving weakly supervised visual grounding by contrastive knowledge distillation | |
CN111079444A (zh) | 一种基于多模态关系的网络谣言检测方法 | |
CN113283551A (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
CN112667813B (zh) | 用于裁判文书的敏感身份信息的识别方法 | |
WO2022222850A1 (zh) | 一种多媒体内容的识别方法、相关装置、设备及存储介质 | |
Liu et al. | Fact-based visual question answering via dual-process system | |
Bhalekar et al. | D-CNN: a new model for generating image captions with text extraction using deep learning for visually challenged individuals | |
Gao et al. | Logically at Factify 2022: Multimodal fact verification | |
Nadeem et al. | SSM: Stylometric and semantic similarity oriented multimodal fake news detection | |
Zhu et al. | Image-based storytelling using deep learning | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
Ding et al. | Exploring depth information for spatial relation recognition | |
CN111898528B (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN117521012A (zh) | 基于多模态上下文分层分步对齐的虚假信息检测方法 | |
Liu et al. | A multimodal approach for multiple-relation extraction in videos | |
CN117763151A (zh) | 一种低资源多领域的假新闻检测方法及系统 | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
CN116910683A (zh) | 一种基于事件依赖的多模态虚假新闻检测方法 | |
CN116452688A (zh) | 一种基于共同注意力机制的图像描述生成方法 | |
Zhang et al. | ECENet: Explainable and Context-Enhanced Network for Muti-modal Fact verification | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
Tao et al. | Florida international university-university of miami trecvid 2019 | |
Lee et al. | A mobile picture tagging system using tree-structured layered Bayesian networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |