CN116910238A - 一种基于孪生网络的知识感知虚假新闻检测方法 - Google Patents
一种基于孪生网络的知识感知虚假新闻检测方法 Download PDFInfo
- Publication number
- CN116910238A CN116910238A CN202310146479.9A CN202310146479A CN116910238A CN 116910238 A CN116910238 A CN 116910238A CN 202310146479 A CN202310146479 A CN 202310146479A CN 116910238 A CN116910238 A CN 116910238A
- Authority
- CN
- China
- Prior art keywords
- news
- entity
- network
- knowledge
- twin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 61
- 230000008447 perception Effects 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims description 54
- 238000012549 training Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000001537 neural effect Effects 0.000 claims description 3
- 210000005036 nerve Anatomy 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 238000002679 ablation Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 206010044565 Tremor Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
一种基于孪生网络的知识感知虚假新闻检测方法。首先,基于新闻本文抽取知识图谱中的相关知识,构造新闻样本对和知识样本对,构建新闻孪生网络判断新闻样本对是否相似,构建知识孪生网络判断新闻对应的知识对是否相似。其次,对新闻文本进行编码,并使用训练好的新闻孪生网络和知识孪生网络中的分支分别对新闻、知识进行编码,获得新闻孪生表示和知识孪生表示。最后,将新闻表示、新闻孪生表示、知识表示三者相融合,进行虚假新闻检测任务。本发明一方面通过构建的新闻孪生网络来捕捉新闻之间的相似性或差异性特征,另一方面使用构建的知识孪生网络解决新闻文本中实体提及带来的歧义问题,并捕捉新闻对应知识反应新闻真假性的特征。
Description
技术领域
本发明属于人工智能领域,具体涉及社交网络数据,对社交媒体中出现的新闻,提出了一种基于孪生网络的知识感知虚假新闻检测方法。
背景技术
当前的信息化时代,互联网实现跨越式发展。社交媒体凭借信息丰富、信息分享方便、传播快速且广泛等特点,使其成为大多数人获取和交流信息的平台。随着时代的发展,公众获取新闻的渠道也发生了变化。在前互联网时代,主要通过官方媒体获取新闻。在目前所处的移动互联网时代,专业媒体、自媒体、微信、微博、抖音、今日头条等都成为新闻发布和传播的平台。
随着网络媒体数量的增加,网络新闻用户规模也呈现逐年递增的趋势。由于社交网络使用方便,用户数量逐年增长,越来越多的用户在网络上发布和传播新闻,使得社交媒体上的虚假新闻数量飞速增长。虚假新闻通过扭曲真实事实或根据个人意愿随意编造产生,由于编写者往往会紧贴当下的热点事件,所以虚假新闻能够激发用户共情,更容易被用户转发和分享。虚假新闻具有传播速度快、传播影响强的特点,它的广泛传播会给社会和民众造成极大的负面影响,如影响媒体的权威性和公信力,破坏健康的网络舆论环境,损坏相关组织或个人的利益等。因此,进行社交媒体虚假新闻检测是一个亟需研究的问题。
虚假新闻检测目前的方法主要包括手工构建特征并输入到分类器模型中进行分类预测,以及使用各种深度神经网络自动提取新闻中的特征并完成新闻分类。由于新闻蕴含丰富的信息,仅通过新闻文本难以判定新闻的真假,越来越多的研究者开始关注新闻文本特征之外的信息,如用户的基本信息、社交网络特征等,希望能够更加充分的利用各类特征,从而在实际应用中进一步提高虚假新闻检测的准确性。
尽管已有的虚假新闻检测方法取得了比较好的检测效果,但它们往往忽略了人们在判断新闻真假时通常会用的外部知识。虚假新闻检测是一项复杂并且很具有挑战性的任务,由于新闻本身具有的及时性、蕴含信息丰富等特点,使得仅根据新闻本身很难对新闻内容进行较好的理解。为解决上述问题,在虚假新闻检测中引入外部知识十分必要。此外,考虑到同类别的新闻之间存在相似性特征,不同类新闻之间存在差异性特征,且每条新闻对应的知识在一定程度上反应新闻的真假性。因此,本发明提出一个两阶段的基于孪生网络的知识感知虚假新闻检测方法,利用构建的孪生网络捕捉相同类别的新闻或实体知识之间存在的相似性特征以及不同类别的新闻或实体知识之间存在的差异性特征,并将这些特征与新闻相融合,辅助进行虚假新闻检测。
综上所述,基于孪生网络的知识感知虚假新闻检测是一项创新的研究问题,具有重要的研究意义和应用价值。
发明内容
本发明的目的是解决现有的虚假新闻检测方法中对新闻文本理解不充分的问题。为捕捉并融合同类别的新闻之间存在相似性特征,不同类新闻之间存在的差异性特征,以及每条新闻对应的知识在一定程度上反应新闻的真假性特征,创新性的提出了一种基于孪生网络的知识感知虚假新闻检测方法。本方法以深度神经网络为框架,捕捉同类别新闻或实体之间存在相似性特征,不同类别或实体之间存在差异性特征,这些特征反映同类新闻之间的共性以及不同类新闻之间的差异性,并通过有效的方式将新闻或实体之间的相似性特征以及差异性特征融合到新闻文本,对新闻文本的真实性进行分类。
本发明的技术方案
基于孪生网络的知识感知虚假新闻检测方法,该方法的详细内容如下:
第1、数据集获取;
本发明中使用的数据集均为英文数据集,新闻内容来自Twitter平台。通过对爬取的新闻数据进行观察,发现数据中包含一些符号组合,特殊字符,重复新闻等问题。针对这些问题,本发明分别设计不同的过滤规则,使用正则表达式等方式对新闻数据进行清洗和过滤。
完成数据清洗工作后,对新闻文本进行过滤停用词处理。停用词是指新闻文本中出现频率较高但其本身并不具备丰富含义的词。停用词主要为语言中包含的功能词,与其他词相比没有实际的含义,如句子中的“the”、“on”、“which”等词。适当的去掉停用词,可以提升关键词出现的频率,使得句子中的关键词更为突出。
对社交媒体上的新闻进行处理后,抽取出新闻源文本S和真实性标签y作为新闻样本,构造新闻数据集。
第2、根据新闻文本,通过实体链接识别出新闻中的实体提及并链接到知识图谱中对应实体,并抽取实体作为外部知识;
根据实体链接工具tagme识别出新闻中的实体提及并链接到知识图谱中的对应实体;如新闻中的实体提及“Oxxx”与知识图谱中的实体“Barack Oxxx”相对应。通过实体链接后,可以获得新闻文本对应的实体序列E={e1,e2,…,en}。
定义1:实体链接,定义如下:
将文本中所提及的实体链接到知识库中相应实体的过程。实体链接的输入通常包括实体的指代(提及)和上下文,以及待链接的知识库;实体链接的输出是实体提及所对应的知识库中的实体。
定义2:知识图谱,定义如下:
知识图谱是一种以实体为节点,以关系为边的有向图,边可以描述两个实体之间的关系。知识图谱以三元组的形式存储。
第3、构造新闻样本对和实体样本对;
样本对的形式为三元组(x1,x2,c)组成,其中x1和x2是一对样本,c∈{0,1}表示x1和x2是相似的(c=1)还是不同的(c=0)。本方法中采用样本组合的方式构造样本对,对于新闻样本对的构造,将同类别的两条新闻构造成相似新闻样本对,用(Si,S j,C=1)表示,即两条新闻均为真新闻或均为假新闻。不同类别的两条新闻构造成不相似新闻样本对,用(Sm,Sn,C=0)表示,即两条新闻一条为真新闻,一条为假新闻。对于实体对的构造,选用同类别新闻对应的实体序列构造为相似实体对,用(Ei,Ej,C=1)表示,即两个实体序列样本均来自真新闻或均来自假新闻对应的实体序列。选用不同类别对应的实体序列构造为不相似实体对,用(Sm,Sn,C=0),即两个实体序列一个来自真新闻对应的实体序列,另一个来自假新闻对应的实体序列。
在进行样本对构造时,当新闻中的真新闻数量为a,假新闻数量为b时,通过样本组合的方式构造样本对,可以得到相似样本对的数量为不相似样本对的数量为可以看到,当数据集样本数量较多时,构造的样本对数量十分庞大,此时,用所有样本对训练神经网络是不可行的。因此,对于规模较大的数据集,本方法选取数据集中的部分样本进行样本对构造。
第4、构建新闻孪生网络,进行新闻样本对相似性判断任务;
孪生网络由两个神经网络分支组成,输入是一个样本对,输出是样本对是否相似。本方法中采用Transformer编码器作为新闻孪生网络中的基础网络,原因是Transformer能够很好的学习句子中的长距离依赖关系,并且具有较强的特征提取能力。新闻孪生网络的输入为新闻样本对,通过孪生网络中的两个分支分别对样本对中的两个新闻样本进行编码。网络中的两个分支共享网络参数W,使得模型需要学习的参数更少,并确保语义空间中成对表示的一致性,因此,孪生网络需要的训练数据相对较少,也不太容易产生过拟合现象。新闻样本对中的新闻Si和Sj经过孪生网络进行编码后,获得输出表示OSi和OSj,然后将两个输出表示融合并输入到softmax层预测样本对是否相似。在训练过程中使用交叉熵分类损失将网络预测结果与该样本对的标签进行比较:
ca=softmax([OSi,OSj]Ws+bs)
其中,N为新闻样本对的数量,pa为新闻孪生网络对新闻样本对a的预测输出,ca为该样本对的真实类别,θ1表示网络中的参数。
第5、构建实体孪生网络,进行实体样本对相似性判断任务;
实体孪生网络与新闻孪生网络相似,均采用Transformer编码器作为两个分支的基本网络。网络中的参数W由两个分支共享,每个实体样本对中的实体序列Ei和Ej输入到实体孪生网络进行编码后,获得输出表示OEi和OEj,然后将两个输出表示融合并输入到softmax层预测样本对是否相似。训练过程中的目标是最小化交叉熵损失函数:
pa=softmax([OEi,OEj]We+be)
其中,N为新闻样本对的数量,pa为实体孪生网络对实体样本对a的预测输出,ca为该样本对的真实类别,θ2表示网络中的参数。
第6、构建虚假新闻检测模型;
第6.1编码新闻表示;
采用Transformer编码器作为编码新闻文本的核心模块,给定一条长度为n的新闻文本S={w1,w2,…,wn},每个单词wi被映射到一个连续的词嵌入w'i,可以获得新闻的嵌入S'={w'1,w'2,…,w'n}。此外,为了保留新闻文本中的词序,加入位置编码:
ut=w′t+post,
其中post为新闻中第t个词的位置编码,将u=u0,…,un作为Transformer编码器底部的输入编码,通常来说,编码器是由多个相同层的构成,每个层由多头自注意力机制、残差连接、正则化层和全连接前馈网络组成:
在一层的编码器中,输入编码u首先经过多头自注意力机制子层,输出表示被输入到前馈神经网络子层中,每个子层后应用残差连接和正则化层,最后,Transformer编码器的输出p作为新闻的表示。
第6.2通过训练好的新闻孪生网络分支编码新闻,获取新闻孪生表示;
为了获得相同类别新闻之间的相似特征以及不同类别新闻之间的差异性特征,使用训练好的新闻孪生网络的一个分支对新闻进行编码,并将输出的ps作为新闻孪生表示。
第6.3通过训练好的实体孪生网络分支编码实体,获取实体孪生表示;
引入新闻对应的外部知识可以提供更多的补充信息,减少新闻中实体提及引起的歧义。然而,新闻中只有部分单词或短语在知识图谱中有对应的实体,使得获得的实体序列相对比较稀疏。为了从相对稀疏的实体序列中学习更多特征,以及学习同一类别新闻对应实体之间的共同特征和不同类别新闻对应实体的差异特征,使用训练好的实体孪生网络的分支对新闻对应的实体序列进行编码,并将输出qs作为实体孪生表示。
第7、融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经分类器进行分类。
通过将新闻编码p、新闻孪生表示ps和实体孪生表示qs三者进行连接操作后,获得新闻的最终表示形式。之后,将新闻的最终表示送入全连接层进行处理,然后使用softmax函数预测目标新闻标签上P的分布:
P=softmax(Wo[p,ps,qs]+bo)
其中,[,]是数据拼接操作,Wo和bo是第二阶段虚假新闻检测模型的参数。
算法中选用的损失函数为交叉熵损失函数:
其中,D表示整个训练语料库,yi表示新闻i的真实标签,Pi(yi)表示预测值为真实标签的概率,Θ表示模型的参数。整个模型的训练使用Adam优化器优化模型参数,使交叉熵损失函数达到最小值。
本发明的优点和积极效果是:
本发明开创性地提出了一种基于孪生网络的知识感知虚假新闻检测方法,提出利用知识图谱中的实体信息作为外部知识,并设计新闻孪生网络和实体孪生网络,来获得新闻之间以及实体之间存在的共性特征和差异性特征,从而更合理有效的将这些特征融合到新闻文本表示中。本发明有效地建模新闻文本和外部知识,并且能够捕捉并融合新闻之间以及知识之间存在的反映新闻类别信息的特征,从而在很大程度上提高了虚假新闻检测任务的准确性。
附图说明
图1为基于孪生网络的知识感知的虚假新闻检测过程示意图。
图2为新闻数据集中的新闻样例。
图3为社交网络中新闻及其包含的实体提及示例图。
图4孪生网络示意图。
图5新闻/实体孪生网络示意图。
图6虚假新闻检测模型结构示意图。
图7Transformer编码器结构示意图。
图8为新闻数据集及样本对的统计信息图。
图9为与基于新闻文本的检测方法的对比结果示意图。
图10为与融合外部知识检测方法的对比结果示意图。
图11为消融实验结果。
具体实施方式
本发明提出一种基于孪生网络的知识感知虚假新闻检测方法,方法的主要流程如图1所示。下面结合附图详细说明本发明的具体实施方式。
本发明的具体实施过程分为七个步骤:获取新闻数据集;抽取知识图谱中的相关实体作为外部知识;构造新闻样本对和实体样本对;构建新闻孪生网络,对新闻样本对相似性进行判断;构建实体孪生网络,对实体样本对相似性进行判断;构建虚假新闻检测模型,融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经网络分类器进行分类;进行虚假新闻检测。以下是七个步骤的实施过程的具体说明:
第1、数据集获取;
获取来自社交媒体上的新闻后,进行数据处理后,抽取出新闻源文本S和真实性标签y作为新闻样本,构造新闻数据集。图2为典型的社交媒体新闻样本,样本中的被标记的词为实体提及,可以看到,新闻文中包含大量的实体提及,这些提及对于新闻文本的理解起至关重要的作用。
第2、根据新闻文本,抽取知识图谱中的相关实体作为外部知识;
根据实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体。通过实体链接后,将新闻文本中的每一个实体提及和知识图谱中每一个实体相对应,如图3中所示,新闻中的被标记的实体提及“第33区”与知识图谱中的实体“纽约第33选区”相对应,通过将新闻中的每个实体提及与知识图谱中的实体相对齐后,可以获得新闻文本对应的实体序列E={e1,e2,…,en}。
第3、构造新闻样本对和实体样本对;
本方法中采用样本组合的方式构造样本对。对于新闻样本对的构造,将同类别的两条新闻构造成相似新闻样本对,即两条新闻均为真新闻或均为假新闻,用(Si,Sj,C=1)表示,C表示样本对的标签,C=1表示样本对是同类别的。不同类别的两条新闻构造成不相似新闻样本对,即两条新闻一条为真新闻,一条为假新闻,用(Sm,Sn,C=0)表示,C=0表示样本对为不同类别的。对于实体对的构造,选用同类别新闻对应的实体序列构造为相似实体对,用(Ei,Ej,C=1)表示,即两个实体序列样本均来自真新闻或均来自假新闻对应的实体序列。选用不同类别对应的实体序列构造为不相似实体对,用(Sm,Sn,C=0),即两个实体序列一个来自真新闻对应的实体序列,另一个来自假新闻对应的实体序列。
第4、构建新闻孪生网络,进行新闻样本对相似性判断任务;
孪生网络由两个神经网络分支组成,输入是一个样本对,输出是样本对是否相似,如图4所示。本方法中采用Transformer编码器作为新闻孪生网络中的基础网络。新闻孪生网络的输入为新闻样本对,通过孪生网络中的两个分支分别对样本对中的两个新闻样本进行编码,网络中的两个分支共享网络参数W。新闻样本对中的新闻Si和Sj经过孪生网络进行编码后,获得输出表示OSi和OSj,然后将两个输出表示融合并输入到softmax层预测样本对是否相似,新闻孪生网络的结构如图5所示。在训练过程中使用交叉熵分类损失将网络预测结果与该样本对的标签进行比较:
ca=softmax([OSi,OSj]Ws+bs)
其中,N为新闻样本对的数量,pa为新闻孪生网络对新闻样本对a的预测输出,ca为该样本对的真实类别,θ1表示网络中的参数。
第5、构建实体孪生网络,进行实体样本对相似性判断任务;
实体孪生网络与新闻孪生网络相似,均采用Transformer编码器作为两个分支的基本网络。网络中的参数W由两个分支共享,每个实体样本对中的实体序列Ei和Ej输入到实体孪生网络进行编码后,获得输出表示OEi和OEj,然后将两个输出表示融合并输入到softmax层预测样本对是否相似,实体孪生网络与新闻孪生网络结构一致,网络结构如图5所示。训练过程中的目标是最小化交叉熵损失函数:
pa=softmax([OEi,OEj]We+be)
其中,N为新闻样本对的数量,pa为实体孪生网络对实体样本对a的预测输出,ca为该样本对的真实类别,θ2表示网络中的参数。
第6、构建虚假新闻检测模型,融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经分类器进行分类;
完成新闻孪生网络和实体孪生网络的训练后,开始进行虚假新闻检测任务,虚假新闻检测任务的模型结构如图6所示。
第6.1编码新闻表示;
采用Transformer编码器作为编码新闻文本的核心模块,给定一条长度为n的新闻文本S={w1,w2,…,wn},每个单词wi被映射到一个连续的词嵌入w'i,可以获得新闻的嵌入S'={w'1,w'2,…,w'n}。此外,为了保留新闻文本中的词序,加入位置编码:
ut=w′t+post,
其中post为新闻中第t个词的位置编码,将u=u0,…,un作为Transformer编码器底部的输入编码,通常来说,编码器是由多个相同层的构成,每个层由多头自注意力机制、残差连接、正则化层和全连接前馈网络组成:
在一层的编码器中,输入编码u首先经过多头自注意力机制子层,输出表示被输入到前馈神经网络子层中,每个子层后应用残差连接和正则化层,最后,Transformer编码器的输出p作为新闻的表示。新闻文本编码的过程如图7所示。
第6.2通过训练好的新闻孪生网络分支编码新闻,获取新闻孪生表示;
为了获得相同类别新闻之间的相似特征以及不同类别新闻之间的差异性特征,使用训练好的新闻孪生网络的一个分支对新闻文本进行编码,并将输出的ps作为新闻孪生表示,如图6中虚假新闻检测模型图的第二个分支所示。
第6.3通过训练好的实体孪生网络分支编码实体,获取实体孪生表示;
引入新闻对应的外部知识可以提供更多的补充信息,减少新闻中实体提及引起的歧义。然而,新闻中只有部分单词或短语在知识图谱中有对应的实体,使得获得的实体序列相对比较稀疏。为了从相对稀疏的实体序列中学习更多特征,以及学习同一类别新闻对应实体之间的共同特征和不同类别新闻对应实体的差异特征,使用训练好的实体孪生网络的分支对新闻对应的实体序列进行编码,并将输出qs作为实体孪生表示,如图6中虚假新闻检测模型图的第三个分支所示。
第6.4融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经分类器进行分类;
通过将新闻编码p、新闻孪生表示ps和实体孪生表示qs三者进行连接操作后,获得新闻的最终表示形式。之后,将新闻的最终表示送入全连接层进行处理,然后使用softmax函数预测目标新闻标签上P的分布:
P=softmax(Wo[p,ps,qs]+bo)
其中,[,]是数据拼接操作,Wo和bo是第二阶段虚假新闻检测模型的参数。
算法中选用的损失函数为交叉熵损失函数:
其中,D表示整个训练语料库,yi表示新闻i的真实标签,Pi(yi)表示预测值为真实标签的概率,Θ表示模型的参数。整个模型的训练使用Adam优化器优化模型参数,使交叉熵损失函数达到最小值。
第7、虚假新闻检测
本方法中评估虚假新闻检测准确度的主要指标是准确率、召回率、精确度、F1和AUC。实验结果表明,本发明在新闻检测的准确度方面领先于其他方法。
本方法在两个真实的英文虚假新闻检测数据集上进行实验。第一个数据集PolitiFact来自用于虚假新闻检测的基准数据FakeNewsNet。第二个数据集是PHEME,由Twitter平台上的推文组成,收集5种类型的突发新闻。由于PHEME数据集中新闻样本较多,如果使用全部的新闻样本构造样本对,会导致样本对数量过多,因此,在样本对相似性任务中选取该数据集中的部分样本进行样本对构造,正负样本对的选取方式为随机抽取。数据集中的新闻分为真实新闻和虚假新闻两类,数据集的统计信息如图8所示。
本发明中提出的虚假新闻检测方法名为TSN,通过将TSN与基于新闻内容的检测方法的实验结果进行对比可知,本方法在虚假新闻检测的准确度方面取得了较大地提高,实验结果如图9所示。通过对比实验结果可以发现,深度学习方法普遍优于传统方法,这是由于传统方法通过手工特征或者规则进行构建,与深度学习相比,学习特征的能力较差,这也验证了深度学习模型具有较强的自动捕捉新闻本文特征并学习的能力。
除目前常用的基于新闻内容的检测方法外,还将TSN方法与目前已有的融合外部知识的虚假新闻检测方法进行对比。在融合外部知识的检测方法中,通常使用深度学习模型,并且在融合外部知识的帮助下,虚假新闻检测效果较基于新闻内容的方法有了很大的提升。图10展示了TSN方法与其他融合知识的虚假新闻检测方法的实验结果,实验结果表明,TSN方法取得的效果最优。可以证明,通过孪生网络捕捉的新闻样本对和实体样本对的相似性特征及差异性特征,能够与新闻文本本身的特征互补,对于模型判断新闻的真假类别很有利。此外,借助实体孪生网络的方式融合实体知识,在融合实体知识的同时,也对不同实体序列之间的相似性和差异性特征进行融合,能够更充分的利用实体知识。
TSN方法取得较好的效果,其优势归因于三个方面:1)TSN利用新闻孪生网络来捕捉同类新闻样本对的相似性特征,不同类别新闻样本对的差异性特征,并通过新闻孪生网络来学习新闻孪生表示,为新闻文本表示提供与新闻类别相关的补充信息。2)TSN通过实体孪生网络来融合实体序列,可以消除新闻中实体提及引起的歧义,并获得新闻实体之间相似和差异信息。3)通过使用训练好的新闻孪生网络和实体孪生网络来编码新闻和实体,获得两者的表示与新闻表示互补,增强模型的检测能力。
为深入探究TSN方法中各个主要组成部分的重要性,分别设计消除TSN模型中借助新闻孪生网络学习到的新闻孪生表示(News Siamese Representation,NSR)和借助实体孪生网络学习到的实体孪生表示(Entities Siamese Representation,ESR)的消融实验,获得TSN方法去掉NSR的变体TSN\NSR和去掉ESR的TSN\ESR,以分析缺少某些部分时对本章模型的影响。图11清晰的展示TSN方法在两个真实新闻数据集上执行虚假新闻检测任务的消融实验结果。
由消融实验的结果可知,TSN方法整体上比其余消除某些部分的TSN变体检测效果要好。这证明消融实验中的新闻孪生表示和实体孪生表示都是TSN方法的重要组成部分,缺少其中任意一个,TSN模型的检测效果都会有所下降。通过对比两数据集上TSN与TSN\NSR的实验结果,可以发现去掉新闻孪生表示后,实验结果降低,证明新闻孪生表示能够学习到新闻表示之外的特征,并且能够为新闻表示提供辅助信息,有助于判断新闻的真假。通过将表中的TSN与TSN\ESR实验结果进行对比可以发现,去掉实体孪生表示后,实验结果下降明显,由此可以推断,融合与新闻相关的实体知识可以起到消除新闻中实体提及带来歧义的问题,而且通过训练好的实体孪生网络来编码实体序列,可以额外捕捉到与其他实体序列的联系或差异特征。基于此可以推出结论:通过融合基于孪生网络的新闻孪生表示和实体孪生表示对虚假新闻检测十分有益。
综上可知,本发明提出的TSN方法,其一方面能够通过构建的新闻孪生网络来捕捉新闻之间的相似性或差异性特征,另一方面使用构建的知识孪生网络捕捉新闻对应的知识反应新闻真假性的特征。在新闻文本特征的基础上,增加蕴含新闻类别相关的新闻信息和实体知识信息,来进行虚假新闻检测。本发明在两个真实数据集上进行了大量的实验,并与其他虚假新闻检测方法进行对比,证实了本方法的有效性。此外,消融实验表明新闻孪生表示和实体孪生表示对于虚假新闻检测十分有益。
Claims (8)
1.一种基于孪生网络的知识感知虚假新闻检测方法,该方法通过一个两阶段的虚假新闻检测模型同时充分挖掘同类新闻或对应知识之间的相似性特征、不同类新闻或对应知识之间的差异性特征,并将这些特征与新闻本身的特征相融合,来进行虚假新闻检测任务;
第一阶段为基于孪生网络来判断样本对是否相似任务:首先,判断新闻样本对是否相似,即是否为同一类别,通过训练新闻孪生网络完成此任务;其次,判断新闻对应的实体构成的样本对是否相似,即是否为同类别新闻对应的实体序列,并以此为目标训练实体孪生网络;通过第一阶段的训练,获得捕捉同类别新闻或实体序列间的相似性信息、不同类别新闻或实体序列间的差异性信息的神经网络;
第二阶段为虚假新闻检测任务:首先,通过Transformer编码器对新闻文本进行编码,获得新闻表示;其次,使用阶段一训练好的新闻孪生网络和实体孪生网络分支分别对新闻、实体序列进行编码,获得新闻孪生表示和知识孪生表示;最后,将新闻表示、新闻孪生表示和知识孪生表示相融合,通过分类器获得新闻的类别;
该方法的具体步骤如下:
第1、数据集获取;
第2、根据新闻文本,通过实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体,并抽取实体作为外部知识;
第3、构造新闻样本对和实体样本对;
第4、构建新闻孪生网络,进行新闻样本对相似性判断任务;
第5、构建实体孪生网络,进行实体样本对相似性判断任务;
第6、构建虚假新闻检测模型:
第6.1编码新闻表示;
第6.2通过训练好的新闻孪生网络分支编码新闻,获取新闻孪生表示;
第6.3通过训练好的实体孪生网络分支编码实体,获取实体孪生表示;
第7、融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经分类器进行分类。
2.根据权利要求1所述的方法,其特征在于,第1步所述的数据集获取的方法是:
收集社交网络中的新闻并抽取出新闻的文本内容S和真实性标签y作为数据集样本。
3.根据权利要求1所述的方法,其特征在于,第2步所述的根据新闻文本,通过实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体,并抽取实体作为外部知识的方法是:
给定一条长度为n的新闻文本S={w1,w2,…,wn},wi为新闻文本中的第i个单词,基于S,根据实体链接识别出新闻中的实体提及并链接到知识图谱中的对应实体,通过对新闻S进行实体链接操作,识别出新闻中的实体提及,将实体提及链接到知识图谱中的对应实体后,获得新闻文本对应的实体序列E={e1,e2,…,en}。
4.根据权利要求1所述的方法,其特征在于,第3步所述的构造新闻样本对和实体样本对的方法是:
通过样本组合的方式构造样本对,对于新闻样本对的构造,将同类别的两条新闻构造成相似新闻样本对,用(Si,Sj,C=1)表示,即两条新闻均为真新闻或均为假新闻,不同类别的两条新闻构造成不相似新闻样本对,用(Sm,Sn,C=0)表示,即两条新闻一条为真新闻,一条为假新闻,对于实体对的构造,选用同类别新闻对应的实体序列构造为相似实体对,用(Ei,Ej,C=1)表示,即两个实体序列样本均来自真新闻或均来自假新闻对应的实体序列,选用不同类别对应的实体序列构造为不相似实体对,用(Sm,Sn,C=0),即两个实体序列一个来自真新闻对应的实体序列,另一个来自假新闻对应的实体序列。
5.根据权利要求1所述的方法,其特征在于,第4步所述的构建新闻孪生网络,进行新闻样本对相似性判断的方法是:
采用Transformer编码器作为新闻孪生网络中的基础网络,新闻孪生网络的输入为新闻样本对,输出为样本对是否相似,通过孪生网络中的两个分支分别对样本对中的两个新闻样本进行编码,获得两个新闻样本的输出表示,然后将两个输出表示融合并输入到softmax层预测样本对是否相似,在训练过程中使用交叉熵分类损失将网络预测结果与该样本对的真实标签进行比较。
6.根据权利要求1所述的方法,其特征在于,第5步所述的构建实体孪生网络,进行实体样本对相似性判断的方法是:
实体孪生网络与新闻孪生网络相似,均采用Transformer编码器作为两个分支的基本网络,每个实体样本对中的实体序列输入到实体孪生网络进行编码后,获得输出表示,然后将两个输出表示融合并输入到softmax层预测样本对是否相似,训练过程中的目标是最小化交叉熵损失函数。
7.根据权利要求1所述的方法,其特征在于,第6步所述的构建虚假新闻检测模型的方法是:
第6.1、编码新闻表示;
采用Transformer编码器作为编码新闻文本的核心模块,给定一条长度为n的新闻文本S={w1,w2,…,wn},每个单词wi被映射到一个连续的词嵌入w'i,能够获得新闻的嵌入S'={w'1,w'2,…,w'n},此外,为了保留新闻文本中的词序,加入位置编码:
ut=w′t+post,
其中post为新闻中第t个词的位置编码,将u=u0,…,un作为Transformer编码器底部的输入编码,通常来说,编码器是由多个相同层的构成,每个层由多头自注意力机制、残差连接、正则化层和全连接前馈网络组成,在一层的编码器中,输入编码u首先经过多头自注意力机制子层,输出表示被输入到前馈神经网络子层中,每个子层后应用残差连接和正则化层,最后,Transformer编码器的输出作为新闻的表示;
第6.2、通过训练好的新闻孪生网络分支编码新闻,获取新闻孪生表示;
为了获得相同类别新闻之间的相似特征以及不同类别新闻之间的差异性特征,使用训练好的新闻孪生网络的一个分支对新闻进行编码,并将输出的ps作为新闻孪生表示;
第6.3、通过训练好的实体孪生网络分支编码实体序列,获取实体孪生表示;
引入新闻对应的外部知识能够提供更多的补充信息,减少新闻中实体提及引起的歧义,然而,新闻中只有部分单词或短语在知识图谱中有对应的实体,使得获得的实体序列相对比较稀疏,为了从相对稀疏的实体序列中学习更多特征,以及学习同一类别新闻对应实体之间的共同特征和不同类别新闻对应实体的差异特征,使用训练好的实体孪生网络的分支对新闻对应的实体序列进行编码,并将输出qs作为实体孪生表示。
8.根据权利要求1所述的方法,其特征在于,第7步中所述的融合新闻表示、新闻孪生表示和实体孪生表示,通过深度神经分类器进行分类的方法是:
通过将新闻编码p、新闻孪生表示ps和实体孪生表示qs三者进行连接操作后,获得新闻的最终表示形式,之后,将新闻的最终表示送入全连接层进行处理,然后使用softmax函数预测目标新闻标签上的分布,算法中选用的损失函数为交叉熵损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146479.9A CN116910238A (zh) | 2023-02-21 | 2023-02-21 | 一种基于孪生网络的知识感知虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310146479.9A CN116910238A (zh) | 2023-02-21 | 2023-02-21 | 一种基于孪生网络的知识感知虚假新闻检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910238A true CN116910238A (zh) | 2023-10-20 |
Family
ID=88367354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310146479.9A Pending CN116910238A (zh) | 2023-02-21 | 2023-02-21 | 一种基于孪生网络的知识感知虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910238A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591866A (zh) * | 2024-01-16 | 2024-02-23 | 中国传媒大学 | 基于共情理论引导的多模态虚假信息检测方法 |
-
2023
- 2023-02-21 CN CN202310146479.9A patent/CN116910238A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591866A (zh) * | 2024-01-16 | 2024-02-23 | 中国传媒大学 | 基于共情理论引导的多模态虚假信息检测方法 |
CN117591866B (zh) * | 2024-01-16 | 2024-05-07 | 中国传媒大学 | 基于共情理论引导的多模态虚假信息检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Palani et al. | CB-Fake: A multimodal deep learning framework for automatic fake news detection using capsule neural network and BERT | |
RU2662688C1 (ru) | Извлечение информации из смысловых блоков документов с использованием микромоделей на базе онтологии | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN108595708A (zh) | 一种基于知识图谱的异常信息文本分类方法 | |
CN111767368A (zh) | 一种基于实体链接的问答知识图谱构建方法及存储介质 | |
Yang et al. | Microblog sentiment analysis via embedding social contexts into an attentive LSTM | |
CN114444516B (zh) | 一种基于深度语义感知图卷积网络的粤语谣言检测方法 | |
Kaladevi et al. | RETRACTED ARTICLE: Integrated CNN-and LSTM-DNN-based sentiment analysis over big social data for opinion mining | |
CN113806547B (zh) | 一种基于图模型的深度学习多标签文本分类方法 | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
Jia | Sentiment classification of microblog: A framework based on BERT and CNN with attention mechanism | |
CN116910238A (zh) | 一种基于孪生网络的知识感知虚假新闻检测方法 | |
Pai et al. | Real-time Twitter sentiment analytics and visualization using Vader | |
CN115017302A (zh) | 一种舆情监测方法和舆情监测系统 | |
Samih et al. | Enhanced sentiment analysis based on improved word embeddings and XGboost. | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Vikas et al. | User Gender Classification Based on Twitter Profile Using Machine Learning | |
CN115391522A (zh) | 一种基于社交平台元数据的文本主题建模方法及系统 | |
Liu et al. | Thread structure learning on online health forums with partially labeled data | |
CN114595693A (zh) | 一种基于深度学习的文本情感分析方法 | |
Rakhecha et al. | A survey on bias detection in online news using deep learning | |
Fu et al. | A study on recursive neural network based sentiment classification of Sina Weibo | |
Raja et al. | Deep Learning-based Sentiment Analysis of Trip Advisor Reviews | |
CN112989060B (zh) | 一种基于gcn的重大事件趋势预测方法 | |
Medvedeva et al. | Tweet Sentiment Analysis with CNN and XG-BOOST |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |