CN113312479A - 跨领域虚假新闻检测方法 - Google Patents

跨领域虚假新闻检测方法 Download PDF

Info

Publication number
CN113312479A
CN113312479A CN202110523434.XA CN202110523434A CN113312479A CN 113312479 A CN113312479 A CN 113312479A CN 202110523434 A CN202110523434 A CN 202110523434A CN 113312479 A CN113312479 A CN 113312479A
Authority
CN
China
Prior art keywords
domain
rumor
news
cross
false
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110523434.XA
Other languages
English (en)
Other versions
CN113312479B (zh
Inventor
曹娟
王彦焱
徐朝喜
谢添
李锦涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongke Ruijian Technology Co ltd
Original Assignee
Hangzhou Zhongke Ruijian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongke Ruijian Technology Co ltd filed Critical Hangzhou Zhongke Ruijian Technology Co ltd
Priority to CN202110523434.XA priority Critical patent/CN113312479B/zh
Publication of CN113312479A publication Critical patent/CN113312479A/zh
Application granted granted Critical
Publication of CN113312479B publication Critical patent/CN113312479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种跨领域虚假新闻检测方法。本发明适用于虚假新闻检测领域。本发明的技术方案是:一种跨领域虚假新闻检测方法,其特征在于:将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。

Description

跨领域虚假新闻检测方法
技术领域
本发明涉及一种跨领域虚假新闻检测方法。适用于虚假新闻检测领域。
背景技术
在互联网高速发展的今天,网民群体逐渐扩大,以新浪微博、Twitter等为代表的线上社交媒体平台也如雨后春笋般迅速风行。社交媒体的兴起给人们带来方便的同时,也使得假新闻在网络上大肆传播。虚假信息危害的范围之广,小到个体,大到社会,日益肆虐的谣言传播不但对社会的经济造成影响,还会损害政府、媒体的公信力。
虚假新闻被定义为:故意捏造并可被证实为假的消息。为了方便表达,本文中出现的谣言概念等同于虚假新闻。社交媒体平台中的虚假新闻中包括新闻文本、图片、视频等多模态数据。
目前,虚假新闻检测方法主要分为两大类:基于手工特征的虚假新闻检测方法和基于深度学习的虚假新闻检测方法。
基于手工特征的虚假新闻检测方法侧重于手工特征的提取,主要有三个方面的特征:内容特征、用户特征、传播特征。内容特征主要包括文本长度、情感倾向、主题、Url、tag等,用户特征主要包括粉丝数、关注数、是否认证、性别等,传播特征主要包括转发、评论结构、消息传播网络等。基于手工特征的虚假新闻检测方法特征工程难度大、模型表达能力弱。
基于深度学习的虚假新闻检测方法能自动的学习谣言数据的特征表示,比如虚假新闻文本中特定的语义风格特征,之后将学习到的特征表示输入神经网络分类器中,对新闻的可信度做判断。
目前,主流的虚假新闻检测方法都是通用领域的虚假新闻检测,而虚假信息涉及许多领域,比如军事、社会、医药健康等,不同领域中的虚假新闻具有很大的差异性。比如,军事领域中的谣言事件偏向于战争暴恐、篡改军史、编造军队高管黑点等,而医药健康领域中的谣言事件大多集中于夸大食品药物功效、编造致癌物质组合等。
除此之外,不同领域中虚假新闻的数量也有差异,比如社会领域中的谣言数量多、谣言事件丰富,而军事领域中谣言数量少、谣言事件单一。大多数研究将所有领域等同对待,提取所有领域谣言的共性特征,而不同领域谣言之间既有共性特征也有特性特征,仅仅考虑共性特征无法很好的建模谣言分类任务,除此之外,由于领域间数量分布的差异,数量少的领域中的谣言特征会淹没在大领域中,损害了小领域中的谣言检测性能。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种跨领域虚假新闻检测方法。
本发明所采用的技术方案是:一种跨领域虚假新闻检测方法,其特征在于:
将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
所述领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,领域类别分类器前连接梯度反转层;
使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
所述梯度反转层在网络的正向传播时公式为R(x)=x,在梯度求导时为
Figure BDA0003064888590000031
其中λ为超参,I为单位矩阵。
使用textCNN作为共性特征提取器;采用多层全连接层作为领域类别分类器;采用多层全连接层作为谣言分类器。
所述领域特性特征提取模型包括特性特征提取器、领域类别分类器和谣言分类器;
使用特性特征提取器提取新闻文本的领域特性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
所述特性特征提取器使用自注意力机制,将自注意力机制的query设为领域描述子用来知道提取器在不同领域中对不同词汇的关注度。
所述领域类别分类器和谣言分类器均采用交叉熵作为损失函数。
一种跨领域虚假新闻检测装置,其特征在于:
共性特征提取及谣言分类模块,用于将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
特性特征提取及谣言分类模块,用于将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
真实性判定模块,用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述跨领域虚假新闻检测方法的步骤。
一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述跨领域虚假新闻检测方法的步骤。
本发明的有益效果是:本发明通过领域共性特征提取模型在不同领域中寻找谣言共性特征,能够将在大领域中学习到的谣言知识迁移到数据量少的领域,帮助数据量少的领域提升谣言检测性能。本发明通过领域特性特征提取模型在各领域中提取领域特性特征,使得各领域可以保存本领域中谣言特性,减少不同领域之间因数据量差异造成的性能损失。本发明根据领域共性特征提取模型和领域特性特征提取模型的预测结果,得出最终对新闻真实性的判定结果,将两个模型融合,进一步提升了整体的检测性能。
附图说明
图1为实施例的框架图。
图2为实施例中领域共性特征提取模型的框架示意图。
图3为实施例中领域特性特征提取模型的框架示意图。
图4为实施例中自注意力机制的示意图。
具体实施方式
本实施例为一种跨领域虚假新闻检测方法,具体步骤包括:
S1、将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果。
本例中领域共性特征提取模型通过领域间对抗训练的方法来学习领域共性的特征表达,该领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
本例中使用textCNN作为共性特征提取器抽取文本中的领域共性特征;采用多层全连接层作为领域类别分类器,在分类器前连接梯度反转层(GRL),梯度反转层在网络的正向传播时公式为R(x)=x,在梯度求导时为
Figure BDA0003064888590000051
其中λ为超参,I为单位矩阵;采用多层全连接层作为谣言分类器。
本实施例在谣言分类和领域分类中,均采用常用的交叉熵作为损失函数:
Figure BDA0003064888590000052
其中yi为第i个样本xi的真实标签,F(·)为模型映射函数。模型整体的学习目标是从样本xi中抽取特征并利用这些特征进行预测,使之尽可能的与真实标签yi的分布尽可能相似。
对抗训练中,梯度反传时,判别器向领域分类损失最小化的方向更新,同时在梯度值经过梯度反转层流向生成器时使生成器向领域分类损失最大化的方向更新,以此来使不同领域间特征空间对齐,达到提取领域共享特征的目的。在整体训练中,损失函数为领域对抗损失加上谣言分类损失。通过这种multi-task任务的设置使生成器具有提取领域不变谣言特征的能力。
S2、将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果。
本实施例中领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,使用特性特征提取器提取新闻文本的领域特性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
本例通过学习领域描述子来指导模型在不同领域中根据领域的特点调整对新闻中词汇的关注度,关注度使用自注意力机制self-attention机制来实现。Self-attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;第二步一般使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention值。
本实施例基于attention的思想,将领域描述子作为query,新闻文本的wordembedding作为key和value,输入不同的领域描述子,提取器自适应的根据不同领域调整词汇的权重,之后通过对value向量的加权求和,得到新闻文本的领域特性特征。
本例在谣言分类和领域分类中,均采用常用的交叉熵作为损失函数:
Figure BDA0003064888590000061
其中yi为第i个样本xi的真实标签,F(·)为模型映射函数。模型整体的学习目标是从样本xi中抽取特征并利用这些特征进行预测,使之尽可能的与真实标签yi的分布尽可能相似。
S3、将领域共性特征提取模型得出的领域共性特征的谣言分类结果和领域特性特征提取模型得出的领域特性特征的谣言分类结果加权求和,得出新闻真实性的最终判定结果。
本实施例还提供一种跨领域虚假新闻检测装置,包括共性特征提取及谣言分类模块、特性特征提取及谣言分类模块和真实性判定模块。
其中共性特征提取及谣言分类模块用于将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;特性特征提取及谣言分类模块用于将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;真实性判定模块用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中跨领域虚假新闻检测方法的步骤。
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中跨领域虚假新闻检测方法的步骤。

Claims (10)

1.一种跨领域虚假新闻检测方法,其特征在于:
将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
2.根据权利要求1所述的跨领域虚假新闻检测方法,其特征在于:所述领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,领域类别分类器前连接梯度反转层;
使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
3.根据权利要求2所述的跨领域虚假新闻检测方法,其特征在于:所述梯度反转层在网络的正向传播时公式为R(x)=x,在梯度求导时为
Figure FDA0003064888580000011
其中λ为超参,I为单位矩阵。
4.根据权利要求2或3所述的跨领域虚假新闻检测方法,其特征在于:使用textCNN作为共性特征提取器;采用多层全连接层作为领域类别分类器;采用多层全连接层作为谣言分类器。
5.根据权利要求1所述的跨领域虚假新闻检测方法,其特征在于:所述领域特性特征提取模型包括特性特征提取器、领域类别分类器和谣言分类器;
使用特性特征提取器提取新闻文本的领域特性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
6.根据权利要求1所述的跨领域虚假新闻检测方法,其特征在于:所述特性特征提取器使用自注意力机制,将自注意力机制的query设为领域描述子用来知道提取器在不同领域中对不同词汇的关注度。
7.根据权利要求2或5所述的跨领域虚假新闻检测方法,其特征在于:所述领域类别分类器和谣言分类器均采用交叉熵作为损失函数。
8.一种跨领域虚假新闻检测装置,其特征在于:
共性特征提取及谣言分类模块,用于将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
特性特征提取及谣言分类模块,用于将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
真实性判定模块,用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
9.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述跨领域虚假新闻检测方法的步骤。
10.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~7任意一项所述跨领域虚假新闻检测方法的步骤。
CN202110523434.XA 2021-05-13 2021-05-13 跨领域虚假新闻检测方法 Active CN113312479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110523434.XA CN113312479B (zh) 2021-05-13 2021-05-13 跨领域虚假新闻检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110523434.XA CN113312479B (zh) 2021-05-13 2021-05-13 跨领域虚假新闻检测方法

Publications (2)

Publication Number Publication Date
CN113312479A true CN113312479A (zh) 2021-08-27
CN113312479B CN113312479B (zh) 2023-05-30

Family

ID=77373268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110523434.XA Active CN113312479B (zh) 2021-05-13 2021-05-13 跨领域虚假新闻检测方法

Country Status (1)

Country Link
CN (1) CN113312479B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023159755A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 虚假新闻检测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210016A (zh) * 2019-04-25 2019-09-06 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及系统
CN111428039A (zh) * 2020-03-31 2020-07-17 中国科学技术大学 一种方面级别的跨领域情感分类方法及系统
WO2020261362A1 (ja) * 2019-06-25 2020-12-30 日本電気株式会社 学習装置、物体検出装置、学習方法、及び、記録媒体
CN112541081A (zh) * 2020-12-21 2021-03-23 中国人民解放军国防科技大学 一种基于领域自适应的可迁移谣言检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110210016A (zh) * 2019-04-25 2019-09-06 中国科学院计算技术研究所 基于风格引导的双线性神经网络虚假新闻检测方法及系统
WO2020261362A1 (ja) * 2019-06-25 2020-12-30 日本電気株式会社 学習装置、物体検出装置、学習方法、及び、記録媒体
CN111428039A (zh) * 2020-03-31 2020-07-17 中国科学技术大学 一种方面级别的跨领域情感分类方法及系统
CN112541081A (zh) * 2020-12-21 2021-03-23 中国人民解放军国防科技大学 一种基于领域自适应的可迁移谣言检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
潘浩彬: "融合领域知识的深度谣言检测方法研究", 《万方数据知识服务平台》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023159755A1 (zh) * 2022-02-22 2023-08-31 平安科技(深圳)有限公司 虚假新闻检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN113312479B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
Ni et al. MVAN: Multi-view attention networks for fake news detection on social media
Xiao et al. CNN–MHSA: A Convolutional Neural Network and multi-head self-attention combined approach for detecting phishing websites
Yang et al. Detecting malicious URLs via a keyword-based convolutional gated-recurrent-unit neural network
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
Mishra et al. Analyzing machine learning enabled fake news detection techniques for diversified datasets
Boididou et al. Verifying information with multimedia content on twitter: a comparative study of automated approaches
Li et al. Personalized question routing via heterogeneous network embedding
Malhotra et al. Studying user footprints in different online social networks
Ramanathan et al. phishGILLNET—phishing detection methodology using probabilistic latent semantic analysis, AdaBoost, and co-training
Asiri et al. A survey of intelligent detection designs of HTML URL phishing attacks
CN111538929B (zh) 网络链接识别方法、装置、存储介质及电子设备
Ivanov et al. In tags we trust: Trust modeling in social tagging of multimedia content
Ramalingaiah et al. Twitter bot detection using supervised machine learning
Jothi et al. An efficient SQL injection detection system using deep learning
Makkar et al. PROTECTOR: An optimized deep learning-based framework for image spam detection and prevention
Yuan et al. A novel approach for malicious URL detection based on the joint model
Kar et al. Are fake images bothering you on social network? Let us detect them using recurrent neural network
Tsinganos et al. Utilizing convolutional neural networks and word embeddings for early-stage recognition of persuasion in chat-based social engineering attacks
Lee et al. Attacking logo-based phishing website detectors with adversarial perturbations
CN113312479A (zh) 跨领域虚假新闻检测方法
Wu et al. Detecting malicious social robots with generative adversarial networks
Amankeldin et al. Deep Neural Network for Detecting Fake Profiles in Social Networks.
Sharaff et al. Deep Learning Based Sentiment Analysis for Phishing SMS Detection
Wang et al. Bidirectional IndRNN malicious webpages detection algorithm based on convolutional neural network and attention mechanism
Nguyen Attribution of spear phishing attacks: A literature survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Cao Juan

Inventor after: Wang Yanyan

Inventor after: Xie Tian

Inventor before: Cao Juan

Inventor before: Wang Yanyan

Inventor before: Xu Chaoxi

Inventor before: Xie Tian

Inventor before: Li Jintao

GR01 Patent grant
GR01 Patent grant