CN113312479B - 跨领域虚假新闻检测方法 - Google Patents
跨领域虚假新闻检测方法 Download PDFInfo
- Publication number
- CN113312479B CN113312479B CN202110523434.XA CN202110523434A CN113312479B CN 113312479 B CN113312479 B CN 113312479B CN 202110523434 A CN202110523434 A CN 202110523434A CN 113312479 B CN113312479 B CN 113312479B
- Authority
- CN
- China
- Prior art keywords
- domain
- rumor
- news
- commonality
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种跨领域虚假新闻检测方法。本发明适用于虚假新闻检测领域。本发明的技术方案是:一种跨领域虚假新闻检测方法,其特征在于:将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
Description
技术领域
本发明涉及一种跨领域虚假新闻检测方法。适用于虚假新闻检测领域。
背景技术
在互联网高速发展的今天,网民群体逐渐扩大,以新浪微博、Twitter等为代表的线上社交媒体平台也如雨后春笋般迅速风行。社交媒体的兴起给人们带来方便的同时,也使得假新闻在网络上大肆传播。虚假信息危害的范围之广,小到个体,大到社会,日益肆虐的谣言传播不但对社会的经济造成影响,还会损害政府、媒体的公信力。
虚假新闻被定义为:故意捏造并可被证实为假的消息。为了方便表达,本文中出现的谣言概念等同于虚假新闻。社交媒体平台中的虚假新闻中包括新闻文本、图片、视频等多模态数据。
目前,虚假新闻检测方法主要分为两大类:基于手工特征的虚假新闻检测方法和基于深度学习的虚假新闻检测方法。
基于手工特征的虚假新闻检测方法侧重于手工特征的提取,主要有三个方面的特征:内容特征、用户特征、传播特征。内容特征主要包括文本长度、情感倾向、主题、Url、tag等,用户特征主要包括粉丝数、关注数、是否认证、性别等,传播特征主要包括转发、评论结构、消息传播网络等。基于手工特征的虚假新闻检测方法特征工程难度大、模型表达能力弱。
基于深度学习的虚假新闻检测方法能自动的学习谣言数据的特征表示,比如虚假新闻文本中特定的语义风格特征,之后将学习到的特征表示输入神经网络分类器中,对新闻的可信度做判断。
目前,主流的虚假新闻检测方法都是通用领域的虚假新闻检测,而虚假信息涉及许多领域,比如军事、社会、医药健康等,不同领域中的虚假新闻具有很大的差异性。比如,军事领域中的谣言事件偏向于战争暴恐、篡改军史、编造军队高管黑点等,而医药健康领域中的谣言事件大多集中于夸大食品药物功效、编造致癌物质组合等。
除此之外,不同领域中虚假新闻的数量也有差异,比如社会领域中的谣言数量多、谣言事件丰富,而军事领域中谣言数量少、谣言事件单一。大多数研究将所有领域等同对待,提取所有领域谣言的共性特征,而不同领域谣言之间既有共性特征也有特性特征,仅仅考虑共性特征无法很好的建模谣言分类任务,除此之外,由于领域间数量分布的差异,数量少的领域中的谣言特征会淹没在大领域中,损害了小领域中的谣言检测性能。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种跨领域虚假新闻检测方法。
本发明所采用的技术方案是:一种跨领域虚假新闻检测方法,其特征在于:
将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
所述领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,领域类别分类器前连接梯度反转层;
使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
使用textCNN作为共性特征提取器;采用多层全连接层作为领域类别分类器;采用多层全连接层作为谣言分类器。
所述领域特性特征提取模型包括特性特征提取器、领域类别分类器和谣言分类器;
使用特性特征提取器提取新闻文本的领域特性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
所述特性特征提取器使用自注意力机制,将自注意力机制的query设为领域描述子用来知道提取器在不同领域中对不同词汇的关注度。
所述领域类别分类器和谣言分类器均采用交叉熵作为损失函数。
一种跨领域虚假新闻检测装置,其特征在于:
共性特征提取及谣言分类模块,用于将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
特性特征提取及谣言分类模块,用于将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
真实性判定模块,用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述跨领域虚假新闻检测方法的步骤。
一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述跨领域虚假新闻检测方法的步骤。
本发明的有益效果是:本发明通过领域共性特征提取模型在不同领域中寻找谣言共性特征,能够将在大领域中学习到的谣言知识迁移到数据量少的领域,帮助数据量少的领域提升谣言检测性能。本发明通过领域特性特征提取模型在各领域中提取领域特性特征,使得各领域可以保存本领域中谣言特性,减少不同领域之间因数据量差异造成的性能损失。本发明根据领域共性特征提取模型和领域特性特征提取模型的预测结果,得出最终对新闻真实性的判定结果,将两个模型融合,进一步提升了整体的检测性能。
附图说明
图1为实施例的框架图。
图2为实施例中领域共性特征提取模型的框架示意图。
图3为实施例中领域特性特征提取模型的框架示意图。
图4为实施例中自注意力机制的示意图。
具体实施方式
本实施例为一种跨领域虚假新闻检测方法,具体步骤包括:
S1、将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果。
本例中领域共性特征提取模型通过领域间对抗训练的方法来学习领域共性的特征表达,该领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
本例中使用textCNN作为共性特征提取器抽取文本中的领域共性特征;采用多层全连接层作为领域类别分类器,在分类器前连接梯度反转层(GRL),梯度反转层在网络的正向传播时公式为R(x)=x,在梯度求导时为其中λ为超参,I为单位矩阵;采用多层全连接层作为谣言分类器。
本实施例在谣言分类和领域分类中,均采用常用的交叉熵作为损失函数:
其中yi为第i个样本xi的真实标签,F(·)为模型映射函数。模型整体的学习目标是从样本xi中抽取特征并利用这些特征进行预测,使之尽可能的与真实标签yi的分布尽可能相似。
对抗训练中,梯度反传时,判别器向领域分类损失最小化的方向更新,同时在梯度值经过梯度反转层流向生成器时使生成器向领域分类损失最大化的方向更新,以此来使不同领域间特征空间对齐,达到提取领域共享特征的目的。在整体训练中,损失函数为领域对抗损失加上谣言分类损失。通过这种multi-task任务的设置使生成器具有提取领域不变谣言特征的能力。
S2、将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果。
本实施例中领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,使用特性特征提取器提取新闻文本的领域特性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
本例通过学习领域描述子来指导模型在不同领域中根据领域的特点调整对新闻中词汇的关注度,关注度使用自注意力机制self-attention机制来实现。Self-attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;第二步一般使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后的attention值。
本实施例基于attention的思想,将领域描述子作为query,新闻文本的wordembedding作为key和value,输入不同的领域描述子,提取器自适应的根据不同领域调整词汇的权重,之后通过对value向量的加权求和,得到新闻文本的领域特性特征。
本例在谣言分类和领域分类中,均采用常用的交叉熵作为损失函数:
其中yi为第i个样本xi的真实标签,F(·)为模型映射函数。模型整体的学习目标是从样本xi中抽取特征并利用这些特征进行预测,使之尽可能的与真实标签yi的分布尽可能相似。
S3、将领域共性特征提取模型得出的领域共性特征的谣言分类结果和领域特性特征提取模型得出的领域特性特征的谣言分类结果加权求和,得出新闻真实性的最终判定结果。
本实施例还提供一种跨领域虚假新闻检测装置,包括共性特征提取及谣言分类模块、特性特征提取及谣言分类模块和真实性判定模块。
其中共性特征提取及谣言分类模块用于将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;特性特征提取及谣言分类模块用于将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;真实性判定模块用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中跨领域虚假新闻检测方法的步骤。
本实施例还提供一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中跨领域虚假新闻检测方法的步骤。
Claims (9)
1.一种跨领域虚假新闻检测方法,其特征在于:
将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果;
所述领域共性特征提取模型通过领域间对抗训练的方法来学习领域共性的特征表达,该领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务,领域类别分类器前连接梯度反转层;
对抗训练中,梯度反传时,判别器向领域分类损失最小化的方向更新,同时在梯度值经过梯度反转层流向生成器时使生成器向领域分类损失最大化的方向更新,以此来使不同领域间特征空间对齐,达到提取领域共享特征的目的。
3.根据权利要求1或2所述的跨领域虚假新闻检测方法,其特征在于:使用textCNN作为共性特征提取器;采用多层全连接层作为领域类别分类器;采用多层全连接层作为谣言分类器。
4.根据权利要求1所述的跨领域虚假新闻检测方法,其特征在于:所述领域特性特征提取模型包括特性特征提取器、领域类别分类器和谣言分类器;
使用特性特征提取器提取新闻文本的领域特性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务。
5.根据权利要求1所述的跨领域虚假新闻检测方法,其特征在于:所述特性特征提取器使用自注意力机制,将自注意力机制的query设为领域描述子用来知道提取器在不同领域中对不同词汇的关注度。
6.根据权利要求1或4所述的跨领域虚假新闻检测方法,其特征在于:所述领域类别分类器和谣言分类器均采用交叉熵作为损失函数。
7.一种跨领域虚假新闻检测装置,其特征在于:
共性特征提取及谣言分类模块,用于将新闻文本输入经训练的领域共性特征提取模型,提取新闻文本的领域共性特征,并得出领域共性特征的谣言分类结果;
特性特征提取及谣言分类模块,用于将同一新闻文本输入经训练的领域特性特征提取模型,提取新闻文本的领域特性特征,并得出领域特性特征的谣言分类结果;
真实性判定模块,用于将领域共性特征的谣言分类结果和领域特性特征的谣言分类结果加权求和,得到所述新闻文本经虚假新闻检测的判定结果;
所述领域共性特征提取模型通过领域间对抗训练的方法来学习领域共性的特征表达,该领域共性特征提取模型包括共性特征提取器、领域类别分类器和谣言分类器,使用共性特征提取器作为生成器提取新闻文本的领域共性特征,使用领域类别分类器作为判别器,使用谣言分类器做虚假新闻分类任务;
对抗训练中,梯度反传时,判别器向领域分类损失最小化的方向更新,同时在梯度值经过梯度反转层流向生成器时使生成器向领域分类损失最大化的方向更新,以此来使不同领域间特征空间对齐,达到提取领域共享特征的目的。
8.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~6任意一项所述跨领域虚假新闻检测方法的步骤。
9.一种计算机设备,具有存储器和处理器,存储器上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~6任意一项所述跨领域虚假新闻检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523434.XA CN113312479B (zh) | 2021-05-13 | 2021-05-13 | 跨领域虚假新闻检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110523434.XA CN113312479B (zh) | 2021-05-13 | 2021-05-13 | 跨领域虚假新闻检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113312479A CN113312479A (zh) | 2021-08-27 |
CN113312479B true CN113312479B (zh) | 2023-05-30 |
Family
ID=77373268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110523434.XA Active CN113312479B (zh) | 2021-05-13 | 2021-05-13 | 跨领域虚假新闻检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113312479B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114511038A (zh) * | 2022-02-22 | 2022-05-17 | 平安科技(深圳)有限公司 | 虚假新闻检测方法、装置、电子设备及可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210016B (zh) * | 2019-04-25 | 2021-06-04 | 中国科学院计算技术研究所 | 基于风格引导的双线性神经网络虚假新闻检测方法及系统 |
US20220414918A1 (en) * | 2019-06-25 | 2022-12-29 | Nec Corporation | Learning device, object detection device, learning method, and recording medium |
CN111428039B (zh) * | 2020-03-31 | 2023-06-20 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN112541081B (zh) * | 2020-12-21 | 2022-09-16 | 中国人民解放军国防科技大学 | 一种基于领域自适应的可迁移谣言检测方法 |
-
2021
- 2021-05-13 CN CN202110523434.XA patent/CN113312479B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113312479A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Detecting malicious URLs via a keyword-based convolutional gated-recurrent-unit neural network | |
Tian et al. | A distributed deep learning system for web attack detection on edge devices | |
Hu et al. | Social spammer detection with sentiment information | |
US11762990B2 (en) | Unstructured text classification | |
CN109873810B (zh) | 一种基于樽海鞘群算法支持向量机的网络钓鱼检测方法 | |
CN113055386B (zh) | 一种攻击组织的识别分析方法和装置 | |
Liu et al. | An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment | |
Ramalingaiah et al. | Twitter bot detection using supervised machine learning | |
CN113806630B (zh) | 基于注意力的多视角特征融合跨域推荐方法及装置 | |
CN111709223B (zh) | 基于bert的句子向量生成方法、装置及电子设备 | |
CN104915399A (zh) | 基于新闻标题的推荐数据处理方法及系统 | |
Yuan et al. | A novel approach for malicious URL detection based on the joint model | |
CN113312479B (zh) | 跨领域虚假新闻检测方法 | |
Meshram et al. | Automatic detection of fake profile using machine learning on instagram | |
Baria et al. | Theoretical evaluation of machine and deep learning for detecting fake news | |
Cheng et al. | ISC: An iterative social based classifier for adult account detection on twitter | |
Wu et al. | Detecting malicious social robots with generative adversarial networks | |
Yang et al. | A new joint approach with temporal and profile information for social bot detection | |
Suleiman et al. | Cyberbullying detection on twitter using machine learning: A review | |
Vyawahare et al. | Fake profile recognition using profanity and gender identification on online social networks | |
Eckhardt et al. | Convolutional Neural Networks and Long Short Term Memory for Phishing Email Classification | |
Sharaff et al. | Deep learning based sentiment analysis for phishing sms detection | |
Singh et al. | Cyberbullying detection in social networks: A survey | |
Sivanantham et al. | Web Hazard Identification and Detection Using Deep Learning-A Comparative Study | |
Cheng et al. | Negative emotion diffusion and intervention countermeasures of social networks based on deep learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Cao Juan Inventor after: Wang Yanyan Inventor after: Xie Tian Inventor before: Cao Juan Inventor before: Wang Yanyan Inventor before: Xu Chaoxi Inventor before: Xie Tian Inventor before: Li Jintao |
|
GR01 | Patent grant | ||
GR01 | Patent grant |