CN113849599B - 基于模式信息和事实信息的联合虚假新闻检测方法 - Google Patents

基于模式信息和事实信息的联合虚假新闻检测方法 Download PDF

Info

Publication number
CN113849599B
CN113849599B CN202111031772.8A CN202111031772A CN113849599B CN 113849599 B CN113849599 B CN 113849599B CN 202111031772 A CN202111031772 A CN 202111031772A CN 113849599 B CN113849599 B CN 113849599B
Authority
CN
China
Prior art keywords
fact
news
information
vector
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111031772.8A
Other languages
English (en)
Other versions
CN113849599A (zh
Inventor
曹娟
盛强
张雪遥
钟雷
谢添
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Ruijian Technology Co ltd
Original Assignee
Beijing Zhongke Ruijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Ruijian Technology Co ltd filed Critical Beijing Zhongke Ruijian Technology Co ltd
Priority to CN202111031772.8A priority Critical patent/CN113849599B/zh
Publication of CN113849599A publication Critical patent/CN113849599A/zh
Application granted granted Critical
Publication of CN113849599B publication Critical patent/CN113849599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于模式信息和事实信息的联合虚假新闻检测方法。本发明所采用的技术方案是:一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:从待测新闻中提取模式信息触发词、事实信息触发词和普通词;构建异构图;对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。

Description

基于模式信息和事实信息的联合虚假新闻检测方法
技术领域
本发明涉及一种基于模式信息和事实信息的联合虚假新闻检测方法。适用于社交媒体数据挖掘和互联网内容安全领域。
背景技术
社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构成了威胁,为了实现对虚假新闻的高效检测,已有许多研究着眼于开发自动虚假新闻检测系统。
目前,国内外自动检测虚假新闻内容的方法大致可分为两种:
第一类是基于模式信息的检测方法,这类方法关注于虚假新闻是“如何写”的,即不同虚假新闻之间共享的模式信息(如风格、情感、语言运用偏好等),而不关注具体的虚假新闻内容,例如通过检测虚假新闻中的情感信息;
第二类是基于事实信息的检测方法,这类方法与上一类方法的关注点相反,主要通过检索外部证据库以判断给定新闻中描述的事件是否为真,而不关注新闻事件是以怎样的形式表达,例如引入了维基百科作为外部证据库,直接使用搜索引擎得到相关证据,并根据这些证据本身的可信度和其对给定新闻的支持、反对或中立立场,判断给定新闻所描述事件的真实性。
这两类方法在侧重点上各有不同,但至今为止,仍缺少一种联合检测方法将这两类方法中的模型有效结合,实现联合基于模式信息和事实信息的虚假新闻检测,其中的挑战在于,由于模型的关注点不同,基于模式信息和基于事实信息的模型容易受到无关信息的干扰,具体而言:
(1)由于数据集偏差(数据集语料分布与真实世界语料分布的差异)的客观存在,基于模式信息的检测模型很容易过拟合到在训练集上高频出现的事件相关词语上,例如“车祸”、“死亡”等,而这些事件相关词语无法泛化到没有出现过的其它事件上,这限制了模型的性能。
(2)由于社交媒体上的新闻帖往往不仅仅包含狭义的该事件其中的要素,还可能包括发布者的点评或其它背景的补充。这导致一条社交媒体新闻中不仅包含需要被查证的描述,还有需要无法查证或不需要查证的词句,而这些词句会在检索匹配外部证据和根据外部证据进行推理时造成干扰。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种基于模式信息和事实信息的联合虚假新闻检测方法。
本发明所采用的技术方案是:一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:
从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
所述构建异构图,包括:
异构图每个节点的初始表示获取自预训练好的BERT模型,将每个节点的初始表示堆叠起来,构成初始节点特征矩阵H(0)∈Rn×d
对于异构图中第i个和第j个节点,其初始连边权重为
Figure BDA0003245525730000031
所述对异构图使用动态异构图卷积操作,包括:
设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下:
Figure BDA0003245525730000032
其中
Figure BDA0003245525730000033
是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合;
Figure BDA0003245525730000034
是H(l)的子矩阵;
Figure BDA0003245525730000035
是第(l+1)层可学习的权重矩阵;ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);
连边权重矩阵由下式更新:
Figure BDA0003245525730000036
A(l+l)=αA(l)+(1-α)ΔA(l+1)
其中
Figure BDA0003245525730000037
是用于本层连边权重更新的可学习的权重矩阵,σ代表sigmoid函数,α是用于控制更新幅度的常数。
所述生成模式偏好分布和事实偏好分布,包括:
对于异构图中第i个节点,其模式偏好得分mPi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差;
对于异构图中第i个节点,其事实偏好得分mFi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差;
用每个节点的偏好得分构成序列,并进行归一化操作,得到模式偏好分布mP和事实偏好分布mF,如下
Figure BDA0003245525730000041
Figure BDA0003245525730000042
所述基于待测新闻和模式偏好分布得到模式信息感知的聚合向量,包括:
使用模式偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到模式信息感知的聚合向量。
所述基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量,包括:
使用事实偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到事实信息感知的聚合向量;
将事实信息感知的聚合向量和相关证据的整体表达输入推断模块,得到事实信息感知的推理向量;所述相关证据的整体表达由各证据中所有词项表达求平均得到。
所述基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性,包括:
将模式信息感知的聚合向量和事实信息感知的推理向量拼接起来,输入一个多层全连接神经网络和sigmoid层,得到新闻真实性预测结果
Figure BDA0003245525730000043
根据预先设定的阈值thr,得到最终的预测结果,当新闻真实性预测结果大于thr则表明为假新闻,反之为非假新闻。
一种基于模式信息和事实信息的联合虚假新闻检测装置,其特征在于,包括:
词项提取模块,用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
异构图构建模块,用于构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
偏好分布生成模块,用于对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
模式检测模块,用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
事实检测模块,用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
真实性判别模块,用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
本发明的有益效果是:本发明首先根据基于模式或事实信息的虚假新闻检测模型的信息需求特点,分别生成了两类模型的词项偏好分布;之后使用上述偏好分布,分别引导基于模式或事实信息的虚假新闻检测模型关注到待测新闻中自身偏好的部分文字信息,从而实现高效、低干扰的特征学习,两模型学习得到的特征经过融合后被送入分类器,该分类器结合模式和事实信息综合判断待测消息是否为虚假新闻。
本发明提取待测新闻词项中有模式信息或事实信息指示能力的触发词,将词项分为模式信息触发词、事实信息触发词和普通词三类,并构建了含有三类节点的异构图来表示、学习词项之间的关系;通过多层动态异构图卷积网络的学习后,对词项之间的连边权重进行聚合生成两种词项偏好分布,即模式偏好分布和事实偏好分布,用于引导后续真实性判断模型的学习过程。
本发明在典型的基于模式信息和基于事实信息的虚假新闻检测模型中利用注意力机制加入了偏好分布对词项重要性的加权干预,从而实现对检测模型关注点的引导,能有效捕捉基于模式信息和基于事实信息的虚假新闻检测模型的偏好,从而更好地融合了两类方法,提高了虚假新闻检测的性能;经过引导的两种模型分别输出模式信息感知的聚合向量和事实信息感知的推理向量,用于最后分类器(全连接神经网络)的虚假新闻检测任务。
现有基于模式信息和基于事实信息的方法都面临无关信息的干扰问题,泛化性有限。本发明有效融合了这两种模型,在实际使用可以做到取长补短,从而提高了整体检测方案的泛化性,可以应对更多的检测场景。
附图说明
图1为实施例的流程图。
图2为实施例中动态异构图卷积网络示意图。
图3为实施例中基于模式信息的虚假新闻检测模型示意图。
图4为实施例中基于事实信息的虚假新闻检测模型示意图。
具体实施方式
如图1所示,本实施例为一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:
S1、基于图神经网络的词项偏好分布建模。给定一条含有n个词项的待测新闻P,为了预测P中的各个词项更可能提供模式信息还是事实信息(即更可能被基于模式还是事实信息的虚假新闻检测模型偏好),实现输入信息的基于模型偏好的“软”分离,利用图神经网络对P进行了词项偏好分布建模,词项偏好分布,即含有n个0~1实数且总和为1的序列,其中第i个实数对应P中第i个词项的得分,分数越高,说明该词项越可能提供对应模型偏好的信息。建模过程如图2所示。
S1-1、从待测新闻中提取模式信息触发词、事实信息触发词和普通词。提取待测新闻(含有n个词项)中有模式信息或事实信息指示能力的触发词(触发词,即通常而言能够较为稳定地指示信息类别(模式信息或事实信息)的词),将词项分为模式信息触发词、事实信息触发词和普通词三类。
对于模式信息触发词,本例通过与已有的情感词典HowNet(包含否定词、程度词、情感词、主张词等)、大连理工大学中文情感词汇本体库、标点符号列表进行匹配来提取;对于事实信息触发词,本例通过实体识别工具(Lexical Analysis ofChinese)进行提取,提取完成后,待测新闻的n个词项被分为三组:(1)ns个模式信息触发词
Figure BDA0003245525730000071
(2)ne个事实信息触发词
Figure BDA0003245525730000072
Figure BDA0003245525730000073
(3)剩余的nr=n-ns-ne个普通词
Figure BDA0003245525730000074
S1-2、构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词。
为发现触发词对词项偏好分布学习的引导作用,本实施例构建异构图(heterogeneous graph)G,该异构图包含三种节点,分别对应步骤S1-1获得的三组词项,模式信息触发词S、事实信息触发词E和普通词R。
每个节点的初始表示(维度为d)获取自预训练好的BERT模型,将异构图中每个节点的初始表示堆叠起来,构成初始节点特征矩阵H(0)∈Rn×d
为了初始化节点之间的连边权重矩阵(包含两两节点之间的关联程度)A(0)∈Rn×n,本实施例使用归一化后的余弦相似度,对于第i个和第j个节点,其初始连边权重为
Figure BDA0003245525730000081
S1-3、对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布。
本实施例对异构图G使用动态异构图卷积操作,在考虑节点类型不同的前提下,动态地更新两两节点之间的连边权重,以通过触发词的影响,动态学习得到词项偏好分布。
假设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下
Figure BDA0003245525730000082
其中,
Figure BDA0003245525730000083
是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是上述三种词项类型名的集合,即T={S,E,R}。类似地,
Figure BDA0003245525730000084
是H(l)的子矩阵。
Figure BDA0003245525730000085
是第(l+1)层可学习的权重矩阵。ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);在实用中,也可以更换其它非线性激活函数,如LeakyReLU等。
之后,连边权重矩阵由下式更新
Figure BDA0003245525730000091
A(l+1)=αA(l)+(1-α)ΔA(l+1)
其中
Figure BDA0003245525730000092
是用于本层连边权重更新的可学习的权重矩阵,σ代表sigmoid函数,即
Figure BDA0003245525730000093
α是用于控制更新幅度的常数。
经过L层动态异构图卷积网络后,异构图G中的连边权重可以充分地刻画词项之间的复杂关系,从而可以生成词项偏好分布。考虑到之后需要引导基于模式信息和基于事实信息的虚假新闻检测模型,本实施例对应地生成了两个词项偏好分布,即模式偏好分布和事实偏好分布。
对于第i个节点(词项),其模式偏好得分mPi是所有该节点连边权重之和与事实触发词对应节点的连边权重之和的差,即为
Figure BDA0003245525730000094
类似地,其事实偏好得分mFi
Figure BDA0003245525730000095
最后,用每个词项的偏好得分构成序列,并进行归一化操作(使序列和为1),即得到了模式偏好分布mP和事实偏好分布mF,如下
Figure BDA0003245525730000096
Figure BDA0003245525730000097
S2、偏好分布引导的联合虚假新闻检测。分布建模完成后,即可得到待测新闻的模式偏好分布mP和事实偏好分布mF。使用上述分布作为引导,基于模式信息和基于事实信息的虚假新闻检测模型可以关注到符合其信息需求的部分文字,有利于其对待测消息真实性的判断。
S2-1、基于待测新闻和模式偏好分布得到模式信息感知的聚合向量。如图3所示,给定待测新闻P基于模式信息的虚假新闻检测模型首先通过一个文本编码器(如LSTM、BERT等)获得待测新闻P中每个词项的向量表达p1,p2,…,pn,使用步骤S1中学习得到的模式偏好分布mP对待测新闻每个词项的表达向量进行加权聚合,得到模式信息感知的聚合向量pa
Figure BDA0003245525730000101
S2-2、基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量。
如图4所示,给定待测新闻P,基于事实信息的虚假新闻检测模型首先从事实核查源(如在线百科、辟谣文章库、搜索引擎等)进行检索,得到nf个相关证据(文档);之后将待测新闻P和检索到的相关证据都进行文本编码(如使用LSTM、BERT等),获得待测新闻P中每个词项的向量表达q1,q2,…,qn和相关证据的整体表达
Figure BDA0003245525730000102
(由各证据中所有词项表达求平均得到);使用步骤S1学习得到的事实偏好分布mF对每个词项的表达向量进行加权聚合,得到事实信息感知的聚合向量qa
Figure BDA0003245525730000103
将qa
Figure BDA0003245525730000104
输入推断模块(Inference Module),即得到事实信息感知的推理向量
Figure BDA0003245525730000105
此处的推断模块不是固定的,使用任何自然语言推断(Natural LanguageInference)模型均可,例如ESIM。
S3、基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
将上述模式信息感知的聚合向量pa和事实信息感知的推理向量f拼接起来,输入一个多层全连接神经网络(即多层感知机,MLP)和sigmoid层,得到联合模式信息和事实信息的新闻真实性预测结果
Figure BDA0003245525730000111
Figure BDA0003245525730000112
根据预先设定的阈值thr(一般设为0.5),判断得到最终的预测结果:
Figure BDA0003245525730000113
本实施例还提供一种基于模式信息和事实信息的联合虚假新闻检测装置,包括偏好分布建模模块、虚假新闻检测模块和真实性判别模块,其中偏好分布建模模块包括词项提取模块、异构图构建模块和偏好分布生成模块,虚假新闻检测模块包括模式检测模块和事实检测模块。
本例中词项提取模块用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词;异构图构建模块用于构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;偏好分布生成模块用于对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;模式检测模块用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;事实检测模块用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;真实性判别模块用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于模式信息和事实信息的联合虚假新闻检测方法的步骤。

Claims (7)

1.一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:
从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性;
所述对异构图使用动态异构图卷积操作,包括:
设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下:
Figure FDA0003926872890000011
其中
Figure FDA0003926872890000012
是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合;
Figure FDA0003926872890000013
是H(l)的子矩阵;
Figure FDA0003926872890000014
是第(l+1)层可学习的权重矩阵;ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);
连边权重矩阵由下式更新:
Figure FDA0003926872890000021
A(l+1)=αA(l)+(1-α)ΔA(l+1)
其中
Figure FDA0003926872890000022
是用于本层连边权重更新的可学习的权重矩阵,σ代表sigmoid函数,α是用于控制更新幅度的常数;
所述生成模式偏好分布和事实偏好分布,包括:
对于异构图中第i个节点,其模式偏好得分mPi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差;
对于异构图中第i个节点,其事实偏好得分mFi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差;
用每个节点的偏好得分构成序列,并进行归一化操作,得到模式偏好分布mP和事实偏好分布mF,如下
Figure FDA0003926872890000023
Figure FDA0003926872890000024
2.根据权利要求1所述的基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于,所述基于待测新闻和模式偏好分布得到模式信息感知的聚合向量,包括:
使用模式偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到模式信息感知的聚合向量。
3.根据权利要求1所述的基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于,所述基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量,包括:
使用事实偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到事实信息感知的聚合向量;
将事实信息感知的聚合向量和相关证据的整体表达输入推断模块,得到事实信息感知的推理向量;所述相关证据的整体表达由各证据中所有词项表达求平均得到。
4.根据权利要求1所述的基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于,所述基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性,包括:
将模式信息感知的聚合向量和事实信息感知的推理向量拼接起来,输入一个多层全连接神经网络和sigmoid层,得到新闻真实性预测结果
Figure FDA0003926872890000031
根据预先设定的阈值thr,得到最终的预测结果,当新闻真实性预测结果大于thr则表明为假新闻,反之为非假新闻。
5.一种基于模式信息和事实信息的联合虚假新闻检测装置,其特征在于,包括:
词项提取模块,用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
异构图构建模块,用于构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
偏好分布生成模块,用于对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
模式检测模块,用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
事实检测模块,用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
真实性判别模块,用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性;
所述对异构图使用动态异构图卷积操作,包括:
设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下:
Figure FDA0003926872890000041
其中
Figure FDA0003926872890000042
是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合;
Figure FDA0003926872890000043
是H(l)的子矩阵;
Figure FDA0003926872890000044
是第(l+1)层可学习的权重矩阵;ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);
连边权重矩阵由下式更新:
Figure FDA0003926872890000045
A(l+1)=αA(l)+(1-α)ΔA(l+1)
其中
Figure FDA0003926872890000046
是用于本层连边权重更新的可学习的权重矩阵,σ代表sigmoid函数,α是用于控制更新幅度的常数;
所述生成模式偏好分布和事实偏好分布,包括:
对于异构图中第i个节点,其模式偏好得分mPi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差;
对于异构图中第i个节点,其事实偏好得分mFi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差;
用每个节点的偏好得分构成序列,并进行归一化操作,得到模式偏好分布mP和事实偏好分布mF,如下
Figure FDA0003926872890000047
Figure FDA0003926872890000048
6.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~4任意一项所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
7.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~4任意一项所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
CN202111031772.8A 2021-09-03 2021-09-03 基于模式信息和事实信息的联合虚假新闻检测方法 Active CN113849599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111031772.8A CN113849599B (zh) 2021-09-03 2021-09-03 基于模式信息和事实信息的联合虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111031772.8A CN113849599B (zh) 2021-09-03 2021-09-03 基于模式信息和事实信息的联合虚假新闻检测方法

Publications (2)

Publication Number Publication Date
CN113849599A CN113849599A (zh) 2021-12-28
CN113849599B true CN113849599B (zh) 2023-01-24

Family

ID=78973101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111031772.8A Active CN113849599B (zh) 2021-09-03 2021-09-03 基于模式信息和事实信息的联合虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN113849599B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114840771B (zh) * 2022-03-04 2023-04-28 北京中科睿鉴科技有限公司 基于新闻环境信息建模的虚假新闻检测方法
CN115049415B (zh) * 2022-07-20 2024-06-14 北京工商大学 一种基于社区传播结构的社交媒体虚假新闻检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275965A (zh) * 2019-06-27 2019-09-24 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质
AU2020103810A4 (en) * 2020-12-01 2021-02-11 Basant Agarwal A method for detecting fake news using grammatic transformation on neural network computer readable medium
CN112396185A (zh) * 2021-01-21 2021-02-23 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
CN113032525A (zh) * 2021-03-23 2021-06-25 深圳大学 虚假新闻检测方法、装置、电子设备以及存储介质
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188194B (zh) * 2019-04-26 2020-12-01 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统
US11494446B2 (en) * 2019-09-23 2022-11-08 Arizona Board Of Regents On Behalf Of Arizona State University Method and apparatus for collecting, detecting and visualizing fake news
CN111598710B (zh) * 2020-05-11 2023-04-18 北京邮电大学 社交网络事件的检测方法和装置
CN112328859B (zh) * 2020-11-05 2022-09-20 南开大学 一种基于知识感知注意力网络的虚假新闻检测方法
CN112732906A (zh) * 2020-12-21 2021-04-30 中国人民解放军国防科技大学 一种基于传播图神经网络的互联网谣言检测方法
CN112650851B (zh) * 2020-12-28 2023-04-07 西安交通大学 基于多层次交互式证据生成的虚假新闻识别系统及方法
CN112988959B (zh) * 2021-01-13 2023-07-14 西安交通大学 基于证据推断网络的虚假新闻可解释性检测系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275965A (zh) * 2019-06-27 2019-09-24 卓尔智联(武汉)研究院有限公司 假新闻检测方法、电子装置及计算机可读存储介质
AU2020103810A4 (en) * 2020-12-01 2021-02-11 Basant Agarwal A method for detecting fake news using grammatic transformation on neural network computer readable medium
CN112396185A (zh) * 2021-01-21 2021-02-23 中国人民解放军国防科技大学 一种事实验证方法、系统、计算机设备和存储介质
CN113032525A (zh) * 2021-03-23 2021-06-25 深圳大学 虚假新闻检测方法、装置、电子设备以及存储介质
CN113076483A (zh) * 2021-04-27 2021-07-06 昆明理工大学 基于案件要素异构图的舆情新闻抽取式摘要方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
User Preference-aware Fake News Detection;Yingtong Dou 等;《ACM》;20210711;第2051-2055页 *
信息网络表示学习方法综述;鲁军豪等;《河北科技大学学报》;20200415(第02期);第133-147页 *
基于情感特征和用户关系的虚假评论者的识别;邵珠峰等;《计算机应用与软件》;20160515(第05期);第158-161、172页 *
语义增强的多模态虚假新闻检测;亓鹏 等;《计算机研究与发展》;20210816;第1456-1465页 *

Also Published As

Publication number Publication date
CN113849599A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
Huang et al. Attention-emotion-enhanced convolutional LSTM for sentiment analysis
US20220129621A1 (en) Bert-based machine-learning tool for predicting emotional response to text
CN111897964A (zh) 文本分类模型训练方法、装置、设备及存储介质
US20240029436A1 (en) Action classification in video clips using attention-based neural networks
CN107807968B (zh) 基于贝叶斯网络的问答装置、方法及存储介质
Abro et al. Natural language understanding for argumentative dialogue systems in the opinion building domain
CN113849599B (zh) 基于模式信息和事实信息的联合虚假新闻检测方法
CN112861945B (zh) 一种多模态融合谎言检测方法
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
Kang et al. Sinvad: Search-based image space navigation for dnn image classifier test input generation
CN116662522B (zh) 问题答案推荐方法、存储介质和电子设备
Zhang Voice keyword retrieval method using attention mechanism and multimodal information fusion
Dalal et al. Enhancing multiple-choice question answering with causal knowledge
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Hon Artificial neural networks
Wang et al. Multi-task multimodal learning for disaster situation assessment
CN115270807A (zh) 网络用户的情感倾向判定方法、装置、设备及存储介质
CN112131345A (zh) 文本质量的识别方法、装置、设备及存储介质
Sengan et al. Fake news detection using stance extracted multimodal fusion-based hybrid neural network
Sun et al. Rumour detection technology based on the BiGRU_capsule network
Chen et al. CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19
CN111552816B (zh) 面向大数据文本挖掘的动态认知语义匹配方法
Bajaj et al. Bypassing deep learning based sentiment analysis from business reviews
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Chalkiadakis A brief survey of visualization methods for deep learning models from the perspective of explainable ai

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant