CN110134873A - 一种基于转发网络层次分析的微博谣言预测方法 - Google Patents

一种基于转发网络层次分析的微博谣言预测方法 Download PDF

Info

Publication number
CN110134873A
CN110134873A CN201910297442.XA CN201910297442A CN110134873A CN 110134873 A CN110134873 A CN 110134873A CN 201910297442 A CN201910297442 A CN 201910297442A CN 110134873 A CN110134873 A CN 110134873A
Authority
CN
China
Prior art keywords
tree
microblogging
rumour
forwarding
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910297442.XA
Other languages
English (en)
Other versions
CN110134873B (zh
Inventor
任国恒
秦东霞
于来行
王伟
高光
刘琳琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhoukou Normal University
Original Assignee
Zhoukou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhoukou Normal University filed Critical Zhoukou Normal University
Priority to CN201910297442.XA priority Critical patent/CN110134873B/zh
Publication of CN110134873A publication Critical patent/CN110134873A/zh
Application granted granted Critical
Publication of CN110134873B publication Critical patent/CN110134873B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于转发网络层次分析的微博谣言预测方法,其步骤如下:步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;本发明提出的基于内核的方法可以比最先进的谣言检测模型更快速、准确地检测谣言。

Description

一种基于转发网络层次分析的微博谣言预测方法
技术领域
本发明属于预测方法技术领域,具体涉及一种基于转发网络层次分析的微博谣言预测方法。
背景技术
以微博为代表的新兴社交媒体具有开放性、低门槛、交互性等特点,为网民提供了一个自由表达意见与交流信息的平台。在当今自媒体盛行、网络红人影响力越来越大的情况下,他们的微博内容时刻影响着大众。所以,在微博平台中,经过某个或几个微博知名用户的转发,就会形成强大的舆论效应。这在权威媒体占主导的当代是不可想象的。这些因素,导致微博很容易成为谣言扩散的平台。针对社交网络上谣言的检测,主要以人工检验和关键词检索为主。对微博来说,目前谣言处理主要采取用户举报、人工判断方式,这导致了处理效率低和时间滞后的问题,为此我们提出一种基于转发网络层次分析的微博谣言预测方法。
发明内容
本发明的目的在于提供一种基于转发网络层次分析的微博谣言预测方法,以解决上述背景技术中提出对微博来说,目前谣言处理主要采取用户举报、人工判断方式,这导致了处理效率低和时间滞后的问题。
为实现上述目的,本发明提供如下技术方案:一种基于转发网络层次分析的微博谣言预测方法,其步骤如下:
步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;
步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;
步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;
步骤四:将每个源微博的传播建模为树结构T= <V,E>,其中r是源微博以及树的根,V指的是一组节点,每个节点表示在某一时间对源推文 r 的一个回应帖子,进而发起循环;E是对应于V中的节点之间的响应关系的一组有向边,如果存在从vi到vj的有向边,则意味着vj是对vi的直接响应;
步骤五:使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码,通过核函数直接测量传播树之间的相似性,学习识别细粒度谣言的判别线索。
优选的,所述步骤四更具体地,每个节点vV被表示为元组v =(uv, cv, tv),其提供以下信息:uv是帖子的创建者,cv表示帖子的文本内容,并且tv是源微博 r和v之间的滞后时间。
优选的,所述步骤一中大多数以前的工作将其定义为事件级别的分类,其中事件由许多源微博用户提供,每个都与一组转发和回复相关联。
优选的,所述相关特征被定义为具有多于一个节点的任何子图,限制是必须包括整个规则生成。
优选的,所述传播树的计算方法为,首先定义一个函数f来评估两个节点vi和vj之间的相似度,我们简化例如vi =(ui,ci,ti)的节点表示如下:
F(vi,vj)=e-t(αε(ui,uj))+(1-α)j(ci,cj))
其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值;
基于用户的相似性被定义为欧氏距离
ε(ui,uj)=||vi -vj||2
其中ui和uj是节点vi和vj的用户向量,|||| 2是向量的2范数。
优选的,所述ci和cj是两个节点中的内容词集合。
优选的,所述Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。
优选的,所述传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。
与现有技术相比,本发明的有益效果是:本发明提出的基于内核的方法可以比最先进的谣言检测模型更快速、准确地检测谣言。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种基于转发网络层次分析的微博谣言预测方法,其步骤如下:
步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;
步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;
步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;
步骤四:将每个源微博的传播建模为树结构T= <V,E>,其中r是源微博以及树的根,V指的是一组节点,每个节点表示在某一时间对源推文 r 的一个回应帖子,进而发起循环;E是对应于V中的节点之间的响应关系的一组有向边,如果存在从vi到vj的有向边,则意味着vj是对vi的直接响应;
步骤五:使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码,通过核函数直接测量传播树之间的相似性,学习识别细粒度谣言的判别线索。
本实施例中,优选的,步骤四更具体地,每个节点vV被表示为元组v =(uv, cv,tv),其提供以下信息:uv是帖子的创建者,cv表示帖子的文本内容,并且tv是源微博 r和v之间的滞后时间。
本实施例中,优选的,步骤一中大多数以前的工作将其定义为事件级别的分类,其中事件由许多源微博用户提供,每个都与一组转发和回复相关联。
本实施例中,优选的,相关特征被定义为具有多于一个节点的任何子图,限制是必须包括整个规则生成。
本实施列中,优选的,传播树的计算方法为,首先定义一个函数f来评估两个节点vi和vj之间的相似度,我们简化例如vi =(ui,ci,ti)的节点表示如下:
F(vi,vj)=e-t(αε(ui,uj))+(1-α)j(ci,cj))
其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值;
基于用户的相似性被定义为欧氏距离
ε(ui,uj)=||vi -vj||2
其中ui和uj是节点vi和vj的用户向量,|||| 2是向量的2范数。
本实施列中,优选的,ci和cj是两个节点中的内容词集合。
本实施列中,优选的,Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。
本实施列中,优选的,传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。
本发明基于核的方法与以下基线进行比较:
SVM-TS:线性SVM分类模型,其使用时间序列来模拟一组手工特征的变化;
DTR:基于决策树的排名方法,用于识别趋势传播的谣言,其中搜索查询短语,并对有争议的事实性声明进行聚类,并根据统计特征对聚类结果进行排名;
DTC和SVM-RBF:使用决策树分类器和基于SVM的RBF核模型的微博用户信息可信度模型,都采用基于对帖子全局统计信息的人工特征;
RFC:随机森林分类器,使用三个参数来适应时间性质和,并采用与用户、语言和结构特征相关的广泛的人工特征;
GRU:具有门控递归单元,用于表示从跨时间相关帖子来学习高级特征;
BOW:通过使用词袋代表每个树中的文本,并使用线性SVM构建谣言分类器,这是一个naive基线;
模型:PTK和cPTK分别是完整的PTK和cPTK模型;PTK-和cPTK-是只使用内容而忽略用户属性设置的模型;
使用带有Theano的LibSVM和GRU的Weka,SVM模型实现了DTC和RFC,在每个数据集中拿出10%的树进行模型调优;像GRU表征学习方法不能轻易地利用复杂的结构信息,来从网络数据中学习重要的特征,相比之下,我们的模型可以从丰富的语言、用户和时间信号的结构化数据中捕获复杂的传播模式,因此,我们的模型的优越性是显而易见的:仅使用文本的PTK已经比GRU更好,表明了传播结构的重要性,结合文本和用户的PTK在两个数据集上产生更好的结果,这意味着两个属性是互补的,并且集成平面和结构化信息的PTK显然更有效。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于转发网络层次分析的微博谣言预测方法,其特征在于:其步骤如下:
步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;
步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;
步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;
步骤四:将每个源微博的传播建模为树结构T= <V,E>,其中r是源微博以及树的根,V指的是一组节点,每个节点表示在某一时间对源推文 r 的一个回应帖子,进而发起循环;E是对应于V中的节点之间的响应关系的一组有向边,如果存在从vi到vj的有向边,则意味着vj是对vi的直接响应;
步骤五:使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码,通过核函数直接测量传播树之间的相似性,学习识别细粒度谣言的判别线索。
2.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述步骤四更具体地,每个节点vV被表示为元组v =(uv, cv, tv),其提供以下信息:uv是帖子的创建者,cv表示帖子的文本内容,并且tv是源微博 r和v之间的滞后时间。
3.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述步骤一中大多数以前的工作将其定义为事件级别的分类,其中事件由许多源微博用户提供,每个都与一组转发和回复相关联。
4.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述相关特征被定义为具有多于一个节点的任何子图,限制是必须包括整个规则生成。
5.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述传播树的计算方法为,首先定义一个函数f来评估两个节点vi和vj之间的相似度,我们简化vi =(ui,ci,ti)的节点表示如下:
F(vi,vj)=e-t(αε(ui,uj))+(1-α)j(ci,cj))
其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值;
基于用户的相似性被定义为欧氏距离
ε(ui,uj)=||vi -vj||2
其中ui和uj是节点vi和vj的用户向量。
6.根据权利要求5所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述ci和cj是两个节点中的内容词集合。
7.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。
8.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。
CN201910297442.XA 2019-04-15 2019-04-15 一种基于转发网络层次分析的微博谣言预测方法 Active CN110134873B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910297442.XA CN110134873B (zh) 2019-04-15 2019-04-15 一种基于转发网络层次分析的微博谣言预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910297442.XA CN110134873B (zh) 2019-04-15 2019-04-15 一种基于转发网络层次分析的微博谣言预测方法

Publications (2)

Publication Number Publication Date
CN110134873A true CN110134873A (zh) 2019-08-16
CN110134873B CN110134873B (zh) 2022-09-27

Family

ID=67569896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910297442.XA Active CN110134873B (zh) 2019-04-15 2019-04-15 一种基于转发网络层次分析的微博谣言预测方法

Country Status (1)

Country Link
CN (1) CN110134873B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN110807556A (zh) * 2019-11-05 2020-02-18 重庆邮电大学 对微博谣言或/和辟谣话题传播趋势的预测方法及装置
CN113326437A (zh) * 2021-06-22 2021-08-31 哈尔滨工程大学 一种基于双引擎网络和drqn的微博早期谣言检测方法
CN113592058A (zh) * 2021-07-05 2021-11-02 西安邮电大学 一种定量预测微博转发广度与深度的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173485A1 (en) * 2011-12-29 2013-07-04 Telefonica, S.A. Computer-implemented method to characterise social influence and predict behaviour of a user
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173485A1 (en) * 2011-12-29 2013-07-04 Telefonica, S.A. Computer-implemented method to characterise social influence and predict behaviour of a user
CN106354845A (zh) * 2016-08-31 2017-01-25 上海交通大学 基于传播结构的微博谣言识别方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔡国永等: "基于标记信息级联传播树特征的谣言检测新方法", 《计算机工程与科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN110807556A (zh) * 2019-11-05 2020-02-18 重庆邮电大学 对微博谣言或/和辟谣话题传播趋势的预测方法及装置
CN110807556B (zh) * 2019-11-05 2022-05-31 重庆邮电大学 对微博谣言或/和辟谣话题传播趋势的预测方法及装置
CN113326437A (zh) * 2021-06-22 2021-08-31 哈尔滨工程大学 一种基于双引擎网络和drqn的微博早期谣言检测方法
CN113326437B (zh) * 2021-06-22 2022-06-21 哈尔滨工程大学 一种基于双引擎网络和drqn的微博早期谣言检测方法
CN113592058A (zh) * 2021-07-05 2021-11-02 西安邮电大学 一种定量预测微博转发广度与深度的方法
CN113592058B (zh) * 2021-07-05 2024-03-12 西安邮电大学 一种定量预测微博转发广度与深度的方法

Also Published As

Publication number Publication date
CN110134873B (zh) 2022-09-27

Similar Documents

Publication Publication Date Title
CN110134873A (zh) 一种基于转发网络层次分析的微博谣言预测方法
Khaled et al. Detecting fake accounts on social media
US9213997B2 (en) Method and system for social media burst classifications
Sun et al. Ddgcn: Dual dynamic graph convolutional networks for rumor detection on social media
US11528290B2 (en) Systems and methods for machine learning-based digital content clustering, digital content threat detection, and digital content threat remediation in machine learning-based digital threat mitigation platform
US10789310B2 (en) Fact machine for user generated content
Alsaedi et al. Arabic event detection in social media
Ramalingaiah et al. Twitter bot detection using supervised machine learning
Li et al. SSDMV: Semi-supervised deep social spammer detection by multi-view data fusion
Raghuram et al. Unsupervised, low latency anomaly detection of algorithmically generated domain names by generative probabilistic modeling
CN108718306A (zh) 一种异常流量行为判别方法和装置
Qiu et al. Graph neural news recommendation with user existing and potential interest modeling
Agrawal et al. Multimodal detection of fake social media use through a fusion of classification and pairwise ranking systems
Wang et al. Detecting fake news on Chinese social media based on hybrid feature fusion method
Guo et al. Adversarial machine learning on social network: A survey
Krithika et al. A detailed survey on cyberbullying in social networks
Wei et al. Uncertainty-aware propagation structure reconstruction for fake news detection
Dong et al. Sentiment-aware fake news detection on social media with hypergraph attention networks
Zhang et al. Rumor detection with hierarchical representation on bipartite ad hoc event trees
de Silva et al. Semantic oppositeness assisted deep contextual modeling for automatic rumor detection in social networks
Kawade et al. Content-based SMS spam filtering using machine learning technique
Das Multi-contextual learning in disinformation research: A review of challenges, approaches, and opportunities
Yazhmozhi et al. Natural language processing and Machine learning based phishing website detection system
Murthy et al. TwitSenti: a real-time Twitter sentiment analysis and visualization framework
Chen et al. A new early rumor detection model based on bigru neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant