CN110765108A - 一种基于群智数据融合的假消息早期检测方法 - Google Patents

一种基于群智数据融合的假消息早期检测方法 Download PDF

Info

Publication number
CN110765108A
CN110765108A CN201911015855.0A CN201911015855A CN110765108A CN 110765108 A CN110765108 A CN 110765108A CN 201911015855 A CN201911015855 A CN 201911015855A CN 110765108 A CN110765108 A CN 110765108A
Authority
CN
China
Prior art keywords
user
crowd
data fusion
early detection
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911015855.0A
Other languages
English (en)
Inventor
郭斌
吴广智
丁亚三
於志文
王柱
王亮
梁韵基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Northwest University of Technology
Original Assignee
Northwest University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest University of Technology filed Critical Northwest University of Technology
Priority to CN201911015855.0A priority Critical patent/CN110765108A/zh
Publication of CN110765108A publication Critical patent/CN110765108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于群智数据融合的假消息早期检测方法,建立评论模型:利用2层GRU单元的Attention‑RNN学习评论特征;建立用户属性模型:利用CNN学习用户属性特征;建立联合模型:融合两部分特征,得到最终的消息识别结果。本发明通过Attention‑RNN(Recurrent Neural Network,RNN)学习消息下评论的时序以及内容特征;利用CNN(Convolutional Neural Network,CNN)学习消息下评论用户的属性特征,最终将两部分特征融合,经过全连接神经网络得到识别结果。充分利用早期稀缺的数据资源,且避免繁重的人工设置特征的环节,提高了识别的准确率。

Description

一种基于群智数据融合的假消息早期检测方法
技术领域
本发明涉及深度学习识别系统领域,尤其涉及一种基于群智数据融合的假消息早期检测方法。
背景技术
社交媒体平台的假消息早期识别是网络时代必要的安全应用之一。目前已经有了大量假消息识别的研究,他们分别基于内容、传播、用户等角度识别消息真假。具体地,基于内容的假消息识别,该类方法类似于从知识或规则的角度研究假消息,主要基于假消息中特定的书写风格或者耸人听闻的标题等进行判断,比如词汇特征、句法特征、主题特征、图像特征等。基于传播的假消息识别,该类方法主要利用社交网络的传播特性,将消息和用户映射到特定的网络来评估事件的整体可信度,比如传播网络(Diffusion Network),用户-信息-事件网络(User-Message-Event Network),内容分层网络(Hierarchical ContentNetwork)以及对立观点网络(Conflicting Viewpoints Network)等。基于用户可靠性的假消息识别,该类方法从用户的角度评估消息的可信度,假消息传播过程中,可能存在大量“水军”或者“僵尸”,利用用户画像的方法抽取用户的特征能够帮助提高假消息识别准确率。用户的可靠性主要通过用户的类型、年龄、是否有认证信息、粉丝数、关注数、原创博客数等进行衡量。尽管这些方法在假消息识别上有较好的准确率,但基于内容的识别方法容易被针对性破解,其他两种方法都需要充分的数据支持。若在早期数据稀缺的情况下,可能得不到较好的结果,于是充分利用早期数据成为假消息早期识别的关键。
发明内容
针对以上缺陷,本发明提供一种基于群智数据融合的假消息早期检测方法。
近三年,深度学习在文本处理、图像识别、计算机视觉已取得巨大成功,在识别系统方面也取得了很多突破,表明深度学习可以从内容中直接提取特征,可以更加准确地学习文本和用户的潜在特征。在识别系统中常用的深度学习方法有两种:循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network,CNN)。循环神经网络通常用来学习具有一定长度的时间序列的特征,在自然语言处理上的运用取得了较大的成果;卷积神经网络通常用来学习图像的多种局部特征,在图像识别等领域上取得了较大的成果。由于图像的本质是矩阵,卷计算机网络可以引申到矩阵的学习,提取矩阵中的特征。通过深度学习的方法得到特征,最终从特征得到识别结果。
本发明的技术方案为:一种基于群智数据融合的假消息早期检测方法,通过建立评论模型:利用2层GRU单元的Attention-RNN学习评论特征;建立用户属性模型:利用CNN学习用户属性特征;建立联合模型:融合两部分特征,得到最终的消息识别结果。
具体的,一种基于群智数据融合的假消息早期检测方法包括以下步骤:
S1:获取社交媒体平台上新闻事件消息的帖子,以及帖子下的评论和发表评论的用户的相关信息;
S2:对新闻事件消息的真假性进行标注;
S3:对新闻事件下的评论做向量嵌入,构成时间序列,通过Attention-RNN学习序列中的特征;
S4:对新闻事件下评论用户做向量嵌入,使用用户的属性信息代表用户,构成用户矩阵,通过CNN学习矩阵中的特征;
S5:将评论和用户属性的特征融合,作为一个新闻事件的特征,通过全连接网络得到识别结果。
进一步地,一种基于群智数据融合的假消息早期检测方法,所述S2中标注具体为:定义一个新闻事件消息E={P,S},具有新闻事件原文文本P,以及时间序列S={s1,s2,…,sn},其中si={ui,ti,ci}包含用户ui在时刻ti留下的评论ci,其中ui={a1,a2,...,an}目标是获得一个预测函数F(s),使得它满足:
Figure BDA0002245679720000031
进一步地,一种基于群智数据融合的假消息早期检测方法,所述S2中标注的新闻事件真假性在新浪微博辟谣平台、Snopes.com、Politifact.org行判别。
进一步地,一种基于群智数据融合的假消息早期检测方法,所述S3中首先把新闻事件下的评论按时序排列,将评论按数量分段,在分段之间用TF-IDF算法得到每段的关键词,再用Word2Vec向量作为词的语义嵌入。随后将每个分段输入到2层GRU单元的Attention-RNN网络中,习得评论的特征。
进一步地,一种基于群智数据融合的假消息早期检测方法,所述S4中将用户按时间排序,把用户属性信息构成用户特征矩阵,通过K个滤波器进行卷积后再池化,得到用户的特征向量。
本发明的有益效果为:本发明利用以下原理:深度学习可以通过对大量数据进行处理,习得数据中的潜在特征。通过Attention-RNN(Recurrent Neural Network,RNN)学习消息下评论的时序以及内容特征;利用CNN(Convolutional Neural Network,CNN)学习消息下评论用户的属性特征,最终将两部分特征融合,经过全连接神经网络得到识别结果。充分利用早期稀缺的数据资源,且避免繁重的人工设置特征的环节,提高了识别的准确率。
附图说明
图1为本发明一种基于群智数据融合的假消息早期检测方法的识别模型;
图2为本发明一种基于群智数据融合的假消息早期检测方法的对一条新闻事件消息的划分;
图3为本发明一种基于群智数据融合的假消息早期检测方法的在早期识别准确率随时间的变化。
具体实施方式
下面结合附图来进一步描述本发明的技术方案:如图1、图2所示。
步骤一、获取社交媒体平台上新闻事件消息的帖子,以及帖子下的评论和发表评论的用户的相关信息。
步骤二、对新闻事件消息的真假性进行标注,在新浪微博辟谣平台、Snopes.com、Politifact.org等进行判别。
步骤三、定义一个新闻事件消息E={P,S},具有新闻事件原文文本P,以及时间序列S={s1,s2,...,sn},其中si={ui,ti,ci}包含用户ui在时刻ti留下的评论ci,如图2所示。其中ui={a1,a2,...,an},目标是获得一个预测函数F(s),使得它满足:
Figure BDA0002245679720000051
步骤四、首先把新闻事件下的评论按时序排列,将评论按数量分段,在分段之间用TF-IDF算法得到每段的关键词,再用Word2Vec向量作为词的语义嵌入。随后将每个分段输入到2层GRU单元的Attention-RNN网络中,习得评论的特征。
步骤五、将用户按时间排序,把用户属性信息构成用户特征矩阵,通过K个滤波器进行卷积后再池化,得到用户的特征向量。
步骤六、把评论和用户属性的特征融合,作为一个新闻事件的特征,通过全连接网络得到识别结果。
图3所示为本实施例的系统早期检测准确率随时间的变化曲线图,由图可以看出本发明的技术方案对早期预测消息的真假准确率非常高。

Claims (6)

1.一种基于群智数据融合的假消息早期检测方法,其特征在于:
建立评论模型:利用2层GRU单元的Attention-RNN学习评论特征;
建立用户属性模型:利用CNN学习用户属性特征;
建立联合模型:融合两部分特征,得到最终的消息识别结果。
2.根据权利要求1所述的一种基于群智数据融合的假消息早期检测方法,其特征在于:包括以下步骤:
S1:获取社交媒体平台上新闻事件消息的帖子,以及帖子下的评论和发表评论的用户的相关信息;
S2:对新闻事件消息的真假性进行标注;
S3:对新闻事件下的评论做向量嵌入,构成时间序列,通过Attention-RNN学习序列中的特征;
S4:对新闻事件下评论用户做向量嵌入,使用用户的属性信息代表用户,构成用户矩阵,通过CNN学习矩阵中的特征;
S5:将评论和用户属性的特征融合,作为一个新闻事件的特征,通过全连接网络得到识别结果。
3.根据权利要求2所述的一种基于群智数据融合的假消息早期检测方法,其特征在于:所述S2中标注具体为:定义一个新闻事件消息E={P,S},具有新闻事件原文文本P,以及时间序列S={s1,s2,...,sn},其中si={ui,ti,ci}包含用户ui在时刻ti留下的评论ci,其中ui={a1,a2,...,an}目标是获得一个预测函数F(s),使得它满足:
Figure FDA0002245679710000021
4.根据权利要求2所述的一种基于群智数据融合的假消息早期检测方法,其特征在于:所述S2中标注的新闻事件真假性在新浪微博辟谣平台、Snopes.com、Politifact.org行判别。
5.根据权利要求2所述的一一种基于群智数据融合的假消息早期检测方法,其特征在于:所述S3中首先把新闻事件下的评论按时序排列,将评论按数量分段,在分段之间用TF-IDF算法得到每段的关键词,再用Word2Vec向量作为词的语义嵌入;随后将每个分段输入到2层GRU单元的Attention-RNN网络中,获得评论的特征。
6.根据权利要求2所述的一种基于群智数据融合的假消息早期检测方法,其特征在于:所述S4中将用户按时间排序,把用户属性信息构成用户特征矩阵,通过K个滤波器进行卷积后再池化,得到用户的特征向量。
CN201911015855.0A 2019-10-24 2019-10-24 一种基于群智数据融合的假消息早期检测方法 Pending CN110765108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911015855.0A CN110765108A (zh) 2019-10-24 2019-10-24 一种基于群智数据融合的假消息早期检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911015855.0A CN110765108A (zh) 2019-10-24 2019-10-24 一种基于群智数据融合的假消息早期检测方法

Publications (1)

Publication Number Publication Date
CN110765108A true CN110765108A (zh) 2020-02-07

Family

ID=69333271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911015855.0A Pending CN110765108A (zh) 2019-10-24 2019-10-24 一种基于群智数据融合的假消息早期检测方法

Country Status (1)

Country Link
CN (1) CN110765108A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100515A (zh) * 2020-09-04 2020-12-18 西北工业大学 一种用于社交媒体中假消息的检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797998A (zh) * 2016-08-29 2018-03-13 腾讯科技(深圳)有限公司 含谣言用户生成内容识别方法和装置
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797998A (zh) * 2016-08-29 2018-03-13 腾讯科技(深圳)有限公司 含谣言用户生成内容识别方法和装置
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN110188194A (zh) * 2019-04-26 2019-08-30 哈尔滨工业大学(深圳) 一种基于多任务学习模型的假新闻检测方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NATALI RUCHANSKY ETC.: "CSI: A Hybrid Deep Model for Fake News Detection", 《PROCEEDINGS OF THE 2017 ACM ON INFORMATION AND KNOWLEDGE MANAGEMENT》 *
任文静等: "基于时间序列网络的谣言检测研究", 《智能计算机与应用》 *
廖祥文等: "基于分层注意力网络的社交媒体谣言检测", 《中国科学:信息科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100515A (zh) * 2020-09-04 2020-12-18 西北工业大学 一种用于社交媒体中假消息的检测方法
CN112100515B (zh) * 2020-09-04 2023-07-07 西北工业大学 一种用于社交媒体中假消息的检测方法

Similar Documents

Publication Publication Date Title
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
CN111079444B (zh) 一种基于多模态关系的网络谣言检测方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110019812B (zh) 一种用户自生产内容检测方法和系统
CN107515873B (zh) 一种垃圾信息识别方法及设备
CN111898031B (zh) 一种获得用户画像的方法及装置
EP2973038A1 (en) Classifying resources using a deep network
CN111368075A (zh) 文章质量预测方法、装置、电子设备及存储介质
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN111581966A (zh) 一种融合上下文特征方面级情感分类方法和装置
Boididou et al. Learning to detect misleading content on twitter
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
Shah et al. Multimodal fake news detection using a Cultural Algorithm with situational and normative knowledge
US10762438B1 (en) Extracting questions and answers
Liu et al. Correlation identification in multimodal weibo via back propagation neural network with genetic algorithm
CN111625715A (zh) 信息提取方法、装置、电子设备及存储介质
Alterkavı et al. Novel authorship verification model for social media accounts compromised by a human
CN114357204B (zh) 媒体信息的处理方法及相关设备
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN115248855A (zh) 文本处理方法及装置、电子设备、计算机可读存储介质
CN110765108A (zh) 一种基于群智数据融合的假消息早期检测方法
Zhu et al. A multiview approach based on naming behavioral modeling for aligning chinese user accounts across multiple networks
CN114579876A (zh) 虚假信息检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200207