CN113849599B - 基于模式信息和事实信息的联合虚假新闻检测方法 - Google Patents
基于模式信息和事实信息的联合虚假新闻检测方法 Download PDFInfo
- Publication number
- CN113849599B CN113849599B CN202111031772.8A CN202111031772A CN113849599B CN 113849599 B CN113849599 B CN 113849599B CN 202111031772 A CN202111031772 A CN 202111031772A CN 113849599 B CN113849599 B CN 113849599B
- Authority
- CN
- China
- Prior art keywords
- fact
- news
- information
- vector
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 55
- 238000009826 distribution Methods 0.000 claims abstract description 81
- 239000013598 vector Substances 0.000 claims abstract description 79
- 230000008447 perception Effects 0.000 claims abstract description 70
- 230000002776 aggregation Effects 0.000 claims abstract description 55
- 238000004220 aggregation Methods 0.000 claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000000034 method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 230000014509 gene expression Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 239000013604 expression vector Substances 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000008451 emotion Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 231100000517 death Toxicity 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于模式信息和事实信息的联合虚假新闻检测方法。本发明所采用的技术方案是:一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:从待测新闻中提取模式信息触发词、事实信息触发词和普通词;构建异构图;对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
Description
技术领域
本发明涉及一种基于模式信息和事实信息的联合虚假新闻检测方法。适用于社交媒体数据挖掘和互联网内容安全领域。
背景技术
社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构成了威胁,为了实现对虚假新闻的高效检测,已有许多研究着眼于开发自动虚假新闻检测系统。
目前,国内外自动检测虚假新闻内容的方法大致可分为两种:
第一类是基于模式信息的检测方法,这类方法关注于虚假新闻是“如何写”的,即不同虚假新闻之间共享的模式信息(如风格、情感、语言运用偏好等),而不关注具体的虚假新闻内容,例如通过检测虚假新闻中的情感信息;
第二类是基于事实信息的检测方法,这类方法与上一类方法的关注点相反,主要通过检索外部证据库以判断给定新闻中描述的事件是否为真,而不关注新闻事件是以怎样的形式表达,例如引入了维基百科作为外部证据库,直接使用搜索引擎得到相关证据,并根据这些证据本身的可信度和其对给定新闻的支持、反对或中立立场,判断给定新闻所描述事件的真实性。
这两类方法在侧重点上各有不同,但至今为止,仍缺少一种联合检测方法将这两类方法中的模型有效结合,实现联合基于模式信息和事实信息的虚假新闻检测,其中的挑战在于,由于模型的关注点不同,基于模式信息和基于事实信息的模型容易受到无关信息的干扰,具体而言:
(1)由于数据集偏差(数据集语料分布与真实世界语料分布的差异)的客观存在,基于模式信息的检测模型很容易过拟合到在训练集上高频出现的事件相关词语上,例如“车祸”、“死亡”等,而这些事件相关词语无法泛化到没有出现过的其它事件上,这限制了模型的性能。
(2)由于社交媒体上的新闻帖往往不仅仅包含狭义的该事件其中的要素,还可能包括发布者的点评或其它背景的补充。这导致一条社交媒体新闻中不仅包含需要被查证的描述,还有需要无法查证或不需要查证的词句,而这些词句会在检索匹配外部证据和根据外部证据进行推理时造成干扰。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种基于模式信息和事实信息的联合虚假新闻检测方法。
本发明所采用的技术方案是:一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:
从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
所述构建异构图,包括:
异构图每个节点的初始表示获取自预训练好的BERT模型,将每个节点的初始表示堆叠起来,构成初始节点特征矩阵H(0)∈Rn×d;
对于异构图中第i个和第j个节点,其初始连边权重为
所述对异构图使用动态异构图卷积操作,包括:
设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下:
其中是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合;是H(l)的子矩阵;是第(l+1)层可学习的权重矩阵;ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);
连边权重矩阵由下式更新:
A(l+l)=αA(l)+(1-α)ΔA(l+1)
所述生成模式偏好分布和事实偏好分布,包括:
对于异构图中第i个节点,其模式偏好得分mPi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差;
对于异构图中第i个节点,其事实偏好得分mFi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差;
用每个节点的偏好得分构成序列,并进行归一化操作,得到模式偏好分布mP和事实偏好分布mF,如下
所述基于待测新闻和模式偏好分布得到模式信息感知的聚合向量,包括:
使用模式偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到模式信息感知的聚合向量。
所述基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量,包括:
使用事实偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到事实信息感知的聚合向量;
将事实信息感知的聚合向量和相关证据的整体表达输入推断模块,得到事实信息感知的推理向量;所述相关证据的整体表达由各证据中所有词项表达求平均得到。
所述基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性,包括:
根据预先设定的阈值thr,得到最终的预测结果,当新闻真实性预测结果大于thr则表明为假新闻,反之为非假新闻。
一种基于模式信息和事实信息的联合虚假新闻检测装置,其特征在于,包括:
词项提取模块,用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
异构图构建模块,用于构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
偏好分布生成模块,用于对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
模式检测模块,用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
事实检测模块,用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
真实性判别模块,用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
本发明的有益效果是:本发明首先根据基于模式或事实信息的虚假新闻检测模型的信息需求特点,分别生成了两类模型的词项偏好分布;之后使用上述偏好分布,分别引导基于模式或事实信息的虚假新闻检测模型关注到待测新闻中自身偏好的部分文字信息,从而实现高效、低干扰的特征学习,两模型学习得到的特征经过融合后被送入分类器,该分类器结合模式和事实信息综合判断待测消息是否为虚假新闻。
本发明提取待测新闻词项中有模式信息或事实信息指示能力的触发词,将词项分为模式信息触发词、事实信息触发词和普通词三类,并构建了含有三类节点的异构图来表示、学习词项之间的关系;通过多层动态异构图卷积网络的学习后,对词项之间的连边权重进行聚合生成两种词项偏好分布,即模式偏好分布和事实偏好分布,用于引导后续真实性判断模型的学习过程。
本发明在典型的基于模式信息和基于事实信息的虚假新闻检测模型中利用注意力机制加入了偏好分布对词项重要性的加权干预,从而实现对检测模型关注点的引导,能有效捕捉基于模式信息和基于事实信息的虚假新闻检测模型的偏好,从而更好地融合了两类方法,提高了虚假新闻检测的性能;经过引导的两种模型分别输出模式信息感知的聚合向量和事实信息感知的推理向量,用于最后分类器(全连接神经网络)的虚假新闻检测任务。
现有基于模式信息和基于事实信息的方法都面临无关信息的干扰问题,泛化性有限。本发明有效融合了这两种模型,在实际使用可以做到取长补短,从而提高了整体检测方案的泛化性,可以应对更多的检测场景。
附图说明
图1为实施例的流程图。
图2为实施例中动态异构图卷积网络示意图。
图3为实施例中基于模式信息的虚假新闻检测模型示意图。
图4为实施例中基于事实信息的虚假新闻检测模型示意图。
具体实施方式
如图1所示,本实施例为一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:
S1、基于图神经网络的词项偏好分布建模。给定一条含有n个词项的待测新闻P,为了预测P中的各个词项更可能提供模式信息还是事实信息(即更可能被基于模式还是事实信息的虚假新闻检测模型偏好),实现输入信息的基于模型偏好的“软”分离,利用图神经网络对P进行了词项偏好分布建模,词项偏好分布,即含有n个0~1实数且总和为1的序列,其中第i个实数对应P中第i个词项的得分,分数越高,说明该词项越可能提供对应模型偏好的信息。建模过程如图2所示。
S1-1、从待测新闻中提取模式信息触发词、事实信息触发词和普通词。提取待测新闻(含有n个词项)中有模式信息或事实信息指示能力的触发词(触发词,即通常而言能够较为稳定地指示信息类别(模式信息或事实信息)的词),将词项分为模式信息触发词、事实信息触发词和普通词三类。
对于模式信息触发词,本例通过与已有的情感词典HowNet(包含否定词、程度词、情感词、主张词等)、大连理工大学中文情感词汇本体库、标点符号列表进行匹配来提取;对于事实信息触发词,本例通过实体识别工具(Lexical Analysis ofChinese)进行提取,提取完成后,待测新闻的n个词项被分为三组:(1)ns个模式信息触发词(2)ne个事实信息触发词 (3)剩余的nr=n-ns-ne个普通词
S1-2、构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词。
为发现触发词对词项偏好分布学习的引导作用,本实施例构建异构图(heterogeneous graph)G,该异构图包含三种节点,分别对应步骤S1-1获得的三组词项,模式信息触发词S、事实信息触发词E和普通词R。
每个节点的初始表示(维度为d)获取自预训练好的BERT模型,将异构图中每个节点的初始表示堆叠起来,构成初始节点特征矩阵H(0)∈Rn×d。
为了初始化节点之间的连边权重矩阵(包含两两节点之间的关联程度)A(0)∈Rn×n,本实施例使用归一化后的余弦相似度,对于第i个和第j个节点,其初始连边权重为
S1-3、对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布。
本实施例对异构图G使用动态异构图卷积操作,在考虑节点类型不同的前提下,动态地更新两两节点之间的连边权重,以通过触发词的影响,动态学习得到词项偏好分布。
假设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下
其中,是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是上述三种词项类型名的集合,即T={S,E,R}。类似地,是H(l)的子矩阵。是第(l+1)层可学习的权重矩阵。ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);在实用中,也可以更换其它非线性激活函数,如LeakyReLU等。
之后,连边权重矩阵由下式更新
A(l+1)=αA(l)+(1-α)ΔA(l+1)
经过L层动态异构图卷积网络后,异构图G中的连边权重可以充分地刻画词项之间的复杂关系,从而可以生成词项偏好分布。考虑到之后需要引导基于模式信息和基于事实信息的虚假新闻检测模型,本实施例对应地生成了两个词项偏好分布,即模式偏好分布和事实偏好分布。
对于第i个节点(词项),其模式偏好得分mPi是所有该节点连边权重之和与事实触发词对应节点的连边权重之和的差,即为
类似地,其事实偏好得分mFi为
最后,用每个词项的偏好得分构成序列,并进行归一化操作(使序列和为1),即得到了模式偏好分布mP和事实偏好分布mF,如下
S2、偏好分布引导的联合虚假新闻检测。分布建模完成后,即可得到待测新闻的模式偏好分布mP和事实偏好分布mF。使用上述分布作为引导,基于模式信息和基于事实信息的虚假新闻检测模型可以关注到符合其信息需求的部分文字,有利于其对待测消息真实性的判断。
S2-1、基于待测新闻和模式偏好分布得到模式信息感知的聚合向量。如图3所示,给定待测新闻P基于模式信息的虚假新闻检测模型首先通过一个文本编码器(如LSTM、BERT等)获得待测新闻P中每个词项的向量表达p1,p2,…,pn,使用步骤S1中学习得到的模式偏好分布mP对待测新闻每个词项的表达向量进行加权聚合,得到模式信息感知的聚合向量pa。
S2-2、基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量。
如图4所示,给定待测新闻P,基于事实信息的虚假新闻检测模型首先从事实核查源(如在线百科、辟谣文章库、搜索引擎等)进行检索,得到nf个相关证据(文档);之后将待测新闻P和检索到的相关证据都进行文本编码(如使用LSTM、BERT等),获得待测新闻P中每个词项的向量表达q1,q2,…,qn和相关证据的整体表达(由各证据中所有词项表达求平均得到);使用步骤S1学习得到的事实偏好分布mF对每个词项的表达向量进行加权聚合,得到事实信息感知的聚合向量qa。
此处的推断模块不是固定的,使用任何自然语言推断(Natural LanguageInference)模型均可,例如ESIM。
S3、基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
根据预先设定的阈值thr(一般设为0.5),判断得到最终的预测结果:
本实施例还提供一种基于模式信息和事实信息的联合虚假新闻检测装置,包括偏好分布建模模块、虚假新闻检测模块和真实性判别模块,其中偏好分布建模模块包括词项提取模块、异构图构建模块和偏好分布生成模块,虚假新闻检测模块包括模式检测模块和事实检测模块。
本例中词项提取模块用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词;异构图构建模块用于构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;偏好分布生成模块用于对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;模式检测模块用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;事实检测模块用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;真实性判别模块用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本例中基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
Claims (7)
1.一种基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于:
从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性;
所述对异构图使用动态异构图卷积操作,包括:
设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下:
其中是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合;是H(l)的子矩阵;是第(l+1)层可学习的权重矩阵;ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);
连边权重矩阵由下式更新:
A(l+1)=αA(l)+(1-α)ΔA(l+1)
所述生成模式偏好分布和事实偏好分布,包括:
对于异构图中第i个节点,其模式偏好得分mPi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差;
对于异构图中第i个节点,其事实偏好得分mFi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差;
用每个节点的偏好得分构成序列,并进行归一化操作,得到模式偏好分布mP和事实偏好分布mF,如下
2.根据权利要求1所述的基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于,所述基于待测新闻和模式偏好分布得到模式信息感知的聚合向量,包括:
使用模式偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到模式信息感知的聚合向量。
3.根据权利要求1所述的基于模式信息和事实信息的联合虚假新闻检测方法,其特征在于,所述基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量,包括:
使用事实偏好分布对待测新闻每个词项的表达向量进行加权聚合,得到事实信息感知的聚合向量;
将事实信息感知的聚合向量和相关证据的整体表达输入推断模块,得到事实信息感知的推理向量;所述相关证据的整体表达由各证据中所有词项表达求平均得到。
5.一种基于模式信息和事实信息的联合虚假新闻检测装置,其特征在于,包括:
词项提取模块,用于从待测新闻中提取模式信息触发词、事实信息触发词和普通词;
异构图构建模块,用于构建异构图,该异构图包含三类节点,分别对应模式信息触发词、事实信息触发词和普通词;
偏好分布生成模块,用于对异构图使用动态异构图卷积操作,动态更新异构图上两两节点之间的连边权重,生成模式偏好分布和事实偏好分布;
模式检测模块,用于基于待测新闻和模式偏好分布得到模式信息感知的聚合向量;
事实检测模块,用于基于待测新闻和事实偏好分布得到事实信息感知的聚合向量,并基于事实信息感知的聚合向量和与待测新闻对应的相关证据得到事实信息感知的推理向量;
真实性判别模块,用于基于模式信息感知的聚合向量和事实信息感知的推理向量判别待测新闻的真实性;
所述对异构图使用动态异构图卷积操作,包括:
设动态异构图卷积网络有L层,在第l层已完成计算的情况下,即已经得到l层的节点特征矩阵H(l)和连边权重矩阵A(l),第(l+1)层的异构图卷积操作如下:
其中是A(l)的子矩阵,仅包含类型τ节点与其它所有节点的连边权重,T是模式信息触发词、事实信息触发词和普通词三种词项类型名的集合;是H(l)的子矩阵;是第(l+1)层可学习的权重矩阵;ReLU是非线性激活函数,其表达式为ReLU(x)=max(0,x);
连边权重矩阵由下式更新:
A(l+1)=αA(l)+(1-α)ΔA(l+1)
所述生成模式偏好分布和事实偏好分布,包括:
对于异构图中第i个节点,其模式偏好得分mPi是所有该节点连边权重之和与事实信息触发词对应节点的连边权重之和的差;
对于异构图中第i个节点,其事实偏好得分mFi是所有该节点连边权重之和与模式信息触发词对应节点的连边权重之和的差;
用每个节点的偏好得分构成序列,并进行归一化操作,得到模式偏好分布mP和事实偏好分布mF,如下
6.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~4任意一项所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
7.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~4任意一项所述基于模式信息和事实信息的联合虚假新闻检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111031772.8A CN113849599B (zh) | 2021-09-03 | 2021-09-03 | 基于模式信息和事实信息的联合虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111031772.8A CN113849599B (zh) | 2021-09-03 | 2021-09-03 | 基于模式信息和事实信息的联合虚假新闻检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113849599A CN113849599A (zh) | 2021-12-28 |
CN113849599B true CN113849599B (zh) | 2023-01-24 |
Family
ID=78973101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111031772.8A Active CN113849599B (zh) | 2021-09-03 | 2021-09-03 | 基于模式信息和事实信息的联合虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113849599B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114840771B (zh) * | 2022-03-04 | 2023-04-28 | 北京中科睿鉴科技有限公司 | 基于新闻环境信息建模的虚假新闻检测方法 |
CN115049415B (zh) * | 2022-07-20 | 2024-06-14 | 北京工商大学 | 一种基于社区传播结构的社交媒体虚假新闻检测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
AU2020103810A4 (en) * | 2020-12-01 | 2021-02-11 | Basant Agarwal | A method for detecting fake news using grammatic transformation on neural network computer readable medium |
CN112396185A (zh) * | 2021-01-21 | 2021-02-23 | 中国人民解放军国防科技大学 | 一种事实验证方法、系统、计算机设备和存储介质 |
CN113032525A (zh) * | 2021-03-23 | 2021-06-25 | 深圳大学 | 虚假新闻检测方法、装置、电子设备以及存储介质 |
CN113076483A (zh) * | 2021-04-27 | 2021-07-06 | 昆明理工大学 | 基于案件要素异构图的舆情新闻抽取式摘要方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188194B (zh) * | 2019-04-26 | 2020-12-01 | 哈尔滨工业大学(深圳) | 一种基于多任务学习模型的假新闻检测方法及系统 |
US11494446B2 (en) * | 2019-09-23 | 2022-11-08 | Arizona Board Of Regents On Behalf Of Arizona State University | Method and apparatus for collecting, detecting and visualizing fake news |
CN111598710B (zh) * | 2020-05-11 | 2023-04-18 | 北京邮电大学 | 社交网络事件的检测方法和装置 |
CN112328859B (zh) * | 2020-11-05 | 2022-09-20 | 南开大学 | 一种基于知识感知注意力网络的虚假新闻检测方法 |
CN112732906A (zh) * | 2020-12-21 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于传播图神经网络的互联网谣言检测方法 |
CN112650851B (zh) * | 2020-12-28 | 2023-04-07 | 西安交通大学 | 基于多层次交互式证据生成的虚假新闻识别系统及方法 |
CN112988959B (zh) * | 2021-01-13 | 2023-07-14 | 西安交通大学 | 基于证据推断网络的虚假新闻可解释性检测系统及方法 |
-
2021
- 2021-09-03 CN CN202111031772.8A patent/CN113849599B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110275965A (zh) * | 2019-06-27 | 2019-09-24 | 卓尔智联(武汉)研究院有限公司 | 假新闻检测方法、电子装置及计算机可读存储介质 |
AU2020103810A4 (en) * | 2020-12-01 | 2021-02-11 | Basant Agarwal | A method for detecting fake news using grammatic transformation on neural network computer readable medium |
CN112396185A (zh) * | 2021-01-21 | 2021-02-23 | 中国人民解放军国防科技大学 | 一种事实验证方法、系统、计算机设备和存储介质 |
CN113032525A (zh) * | 2021-03-23 | 2021-06-25 | 深圳大学 | 虚假新闻检测方法、装置、电子设备以及存储介质 |
CN113076483A (zh) * | 2021-04-27 | 2021-07-06 | 昆明理工大学 | 基于案件要素异构图的舆情新闻抽取式摘要方法 |
Non-Patent Citations (4)
Title |
---|
User Preference-aware Fake News Detection;Yingtong Dou 等;《ACM》;20210711;第2051-2055页 * |
信息网络表示学习方法综述;鲁军豪等;《河北科技大学学报》;20200415(第02期);第133-147页 * |
基于情感特征和用户关系的虚假评论者的识别;邵珠峰等;《计算机应用与软件》;20160515(第05期);第158-161、172页 * |
语义增强的多模态虚假新闻检测;亓鹏 等;《计算机研究与发展》;20210816;第1456-1465页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113849599A (zh) | 2021-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Attention-emotion-enhanced convolutional LSTM for sentiment analysis | |
US20220129621A1 (en) | Bert-based machine-learning tool for predicting emotional response to text | |
CN111897964A (zh) | 文本分类模型训练方法、装置、设备及存储介质 | |
US20240029436A1 (en) | Action classification in video clips using attention-based neural networks | |
CN107807968B (zh) | 基于贝叶斯网络的问答装置、方法及存储介质 | |
Abro et al. | Natural language understanding for argumentative dialogue systems in the opinion building domain | |
CN113849599B (zh) | 基于模式信息和事实信息的联合虚假新闻检测方法 | |
CN112861945B (zh) | 一种多模态融合谎言检测方法 | |
CN108536735B (zh) | 基于多通道自编码器的多模态词汇表示方法与系统 | |
Kang et al. | Sinvad: Search-based image space navigation for dnn image classifier test input generation | |
CN116662522B (zh) | 问题答案推荐方法、存储介质和电子设备 | |
Zhang | Voice keyword retrieval method using attention mechanism and multimodal information fusion | |
Dalal et al. | Enhancing multiple-choice question answering with causal knowledge | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
Hon | Artificial neural networks | |
Wang et al. | Multi-task multimodal learning for disaster situation assessment | |
CN115270807A (zh) | 网络用户的情感倾向判定方法、装置、设备及存储介质 | |
CN112131345A (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
Sengan et al. | Fake news detection using stance extracted multimodal fusion-based hybrid neural network | |
Sun et al. | Rumour detection technology based on the BiGRU_capsule network | |
Chen et al. | CNFRD: A Few‐Shot Rumor Detection Framework via Capsule Network for COVID‐19 | |
CN111552816B (zh) | 面向大数据文本挖掘的动态认知语义匹配方法 | |
Bajaj et al. | Bypassing deep learning based sentiment analysis from business reviews | |
CN117216617A (zh) | 文本分类模型训练方法、装置、计算机设备和存储介质 | |
Chalkiadakis | A brief survey of visualization methods for deep learning models from the perspective of explainable ai |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |