CN110134873B - 一种基于转发网络层次分析的微博谣言预测方法 - Google Patents
一种基于转发网络层次分析的微博谣言预测方法 Download PDFInfo
- Publication number
- CN110134873B CN110134873B CN201910297442.XA CN201910297442A CN110134873B CN 110134873 B CN110134873 B CN 110134873B CN 201910297442 A CN201910297442 A CN 201910297442A CN 110134873 B CN110134873 B CN 110134873B
- Authority
- CN
- China
- Prior art keywords
- microblog
- propagation
- tree
- source
- prediction method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 230000003993 interaction Effects 0.000 claims abstract description 4
- 230000001960 triggered effect Effects 0.000 claims abstract description 4
- 230000004044 response Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000003066 decision tree Methods 0.000 description 2
- 241000288113 Gallirallus australis Species 0.000 description 1
- 241000288105 Grus Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于转发网络层次分析的微博谣言预测方法,其步骤如下:步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;本发明提出的基于内核的方法可以比最先进的谣言检测模型更快速、准确地检测谣言。
Description
技术领域
本发明属于预测方法技术领域,具体涉及一种基于转发网络层次分析的微博谣言预测方法。
背景技术
以微博为代表的新兴社交媒体具有开放性、低门槛、交互性等特点,为网民提供了一个自由表达意见与交流信息的平台。在当今自媒体盛行、网络红人影响力越来越大的情况下,他们的微博内容时刻影响着大众。所以,在微博平台中,经过某个或几个微博知名用户的转发,就会形成强大的舆论效应。这在权威媒体占主导的当代是不可想象的。这些因素,导致微博很容易成为谣言扩散的平台。针对社交网络上谣言的检测,主要以人工检验和关键词检索为主。对微博来说,目前谣言处理主要采取用户举报、人工判断方式,这导致了处理效率低和时间滞后的问题,为此我们提出一种基于转发网络层次分析的微博谣言预测方法。
发明内容
本发明的目的在于提供一种基于转发网络层次分析的微博谣言预测方法,以解决上述背景技术中提出对微博来说,目前谣言处理主要采取用户举报、人工判断方式,这导致了处理效率低和时间滞后的问题。
为实现上述目的,本发明提供如下技术方案:一种基于转发网络层次分析的微博谣言预测方法,其步骤如下:
步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;
步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;
步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;
步骤四:将每个源微博的传播建模为树结构T= <V,E>,其中r是源微博以及树的根,V指的是一组节点,每个节点表示在某一时间对源推文 r 的一个回应帖子,进而发起循环;E是对应于V中的节点之间的响应关系的一组有向边,如果存在从vi到vj的有向边,则意味着vj是对vi的直接响应;
步骤五:使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码,通过核函数直接测量传播树之间的相似性,学习识别细粒度谣言的判别线索。
优选的,所述步骤四更具体地,每个节点vV被表示为元组v =(uv, cv, tv),其提供以下信息:uv是帖子的创建者,cv表示帖子的文本内容,并且tv是源微博 r和v之间的滞后时间。
优选的,所述步骤一中大多数以前的工作将其定义为事件级别的分类,其中事件由许多源微博用户提供,每个都与一组转发和回复相关联。
优选的,所述相关特征被定义为具有多于一个节点的任何子图,限制是必须包括整个规则生成。
优选的,所述传播树的计算方法为,首先定义一个函数f来评估两个节点vi和vj之间的相似度,我们简化例如vi =(ui,ci,ti)的节点表示如下:
F(vi,vj)=e-t(αε(ui,uj))+(1-α)j(ci,cj))
其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值;
基于用户的相似性被定义为欧氏距离
ε(ui,uj)=||vi -vj||2
其中ui和uj是节点vi和vj的用户向量,|||| 2是向量的2范数。
优选的,所述ci和cj是两个节点中的内容词集合。
优选的,所述Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。
优选的,所述传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。
与现有技术相比,本发明的有益效果是:本发明提出的基于内核的方法可以比最先进的谣言检测模型更快速、准确地检测谣言。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种基于转发网络层次分析的微博谣言预测方法,其步骤如下:
步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;
步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;
步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;
步骤四:将每个源微博的传播建模为树结构T= <V,E>,其中r是源微博以及树的根,V指的是一组节点,每个节点表示在某一时间对源推文 r 的一个回应帖子,进而发起循环;E是对应于V中的节点之间的响应关系的一组有向边,如果存在从vi到vj的有向边,则意味着vj是对vi的直接响应;
步骤五:使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码,通过核函数直接测量传播树之间的相似性,学习识别细粒度谣言的判别线索。
本实施例中,优选的,步骤四更具体地,每个节点vV被表示为元组v =(uv, cv,tv),其提供以下信息:uv是帖子的创建者,cv表示帖子的文本内容,并且tv是源微博 r和v之间的滞后时间。
本实施例中,优选的,步骤一中大多数以前的工作将其定义为事件级别的分类,其中事件由许多源微博用户提供,每个都与一组转发和回复相关联。
本实施例中,优选的,相关特征被定义为具有多于一个节点的任何子图,限制是必须包括整个规则生成。
本实施列中,优选的,传播树的计算方法为,首先定义一个函数f来评估两个节点vi和vj之间的相似度,我们简化例如vi =(ui,ci,ti)的节点表示如下:
F(vi,vj)=e-t(αε(ui,uj))+(1-α)j(ci,cj))
其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值;
基于用户的相似性被定义为欧氏距离
ε(ui,uj)=||vi -vj||2
其中ui和uj是节点vi和vj的用户向量,|||| 2是向量的2范数。
本实施列中,优选的,ci和cj是两个节点中的内容词集合。
本实施列中,优选的,Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。
本实施列中,优选的,传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。
本发明基于核的方法与以下基线进行比较:
SVM-TS:线性SVM分类模型,其使用时间序列来模拟一组手工特征的变化;
DTR:基于决策树的排名方法,用于识别趋势传播的谣言,其中搜索查询短语,并对有争议的事实性声明进行聚类,并根据统计特征对聚类结果进行排名;
DTC和SVM-RBF:使用决策树分类器和基于SVM的RBF核模型的微博用户信息可信度模型,都采用基于对帖子全局统计信息的人工特征;
RFC:随机森林分类器,使用三个参数来适应时间性质和,并采用与用户、语言和结构特征相关的广泛的人工特征;
GRU:具有门控递归单元,用于表示从跨时间相关帖子来学习高级特征;
BOW:通过使用词袋代表每个树中的文本,并使用线性SVM构建谣言分类器,这是一个naive基线;
模型:PTK和cPTK分别是完整的PTK和cPTK模型;PTK-和cPTK-是只使用内容而忽略用户属性设置的模型;
使用带有Theano的LibSVM和GRU的Weka,SVM模型实现了DTC和RFC,在每个数据集中拿出10%的树进行模型调优;像GRU表征学习方法不能轻易地利用复杂的结构信息,来从网络数据中学习重要的特征,相比之下,我们的模型可以从丰富的语言、用户和时间信号的结构化数据中捕获复杂的传播模式,因此,我们的模型的优越性是显而易见的:仅使用文本的PTK已经比GRU更好,表明了传播结构的重要性,结合文本和用户的PTK在两个数据集上产生更好的结果,这意味着两个属性是互补的,并且集成平面和结构化信息的PTK显然更有效。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种基于转发网络层次分析的微博谣言预测方法,其特征在于:其步骤如下:
步骤一:用传播树来表示每个源微博的传播,该传播树是通过捕获由源微博触发的用户间的互动而产生的;
步骤二:提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征,以估计两个传播树之间的相似度;
步骤三:将在基于传播树核的统一框架中考虑时间、结构和语言信号;
步骤四:将每个源微博的传播建模为树结构T= <V,E>,其中r是源微博以及树的根,V指的是一组节点,每个节点表示在某一时间对源推文 r 的一个回应帖子,进而发起循环;E是对应于V中的节点之间的响应关系的一组有向边,如果存在从vi到vj的有向边,则意味着vj是对vi的直接响应;
步骤五:使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码,通过核函数直接测量传播树之间的相似性,学习识别细粒度谣言的判别线索。
2.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述步骤四更具体地,每个节点vV被表示为元组v =(uv, cv, tv),其提供以下信息:uv是帖子的创建者,cv表示帖子的文本内容,并且tv是源微博 r和v之间的滞后时间。
3.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述步骤一中大多数以前的工作将其定义为事件级别的分类,其中事件由许多源微博用户提供,每个都与一组转发和回复相关联。
4.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述相关特征被定义为具有多于一个节点的任何子图,限制是必须包括整个规则生成。
5.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述传播树的计算方法为,首先定义一个函数f来评估两个节点vi和vj之间的相似度,我们简化vi =(ui,ci,ti)的节点表示如下:
F(vi,vj)=e-t(αε(ui,uj)+(1-α)j(ci,cj))
其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值;
基于用户的相似性被定义为欧氏距离
ε(ui,uj)=||vi -vj||2
其中ui和uj是节点vi和vj的用户向量。
6.根据权利要求5所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述ci和cj是两个节点中的内容词集合。
7.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。
8.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法,其特征在于:所述传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297442.XA CN110134873B (zh) | 2019-04-15 | 2019-04-15 | 一种基于转发网络层次分析的微博谣言预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910297442.XA CN110134873B (zh) | 2019-04-15 | 2019-04-15 | 一种基于转发网络层次分析的微博谣言预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110134873A CN110134873A (zh) | 2019-08-16 |
CN110134873B true CN110134873B (zh) | 2022-09-27 |
Family
ID=67569896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910297442.XA Active CN110134873B (zh) | 2019-04-15 | 2019-04-15 | 一种基于转发网络层次分析的微博谣言预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110134873B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362818A (zh) * | 2019-06-06 | 2019-10-22 | 中国科学院信息工程研究所 | 基于用户关系结构特征的微博谣言检测方法和系统 |
CN110807556B (zh) * | 2019-11-05 | 2022-05-31 | 重庆邮电大学 | 对微博谣言或/和辟谣话题传播趋势的预测方法及装置 |
CN113326437B (zh) * | 2021-06-22 | 2022-06-21 | 哈尔滨工程大学 | 一种基于双引擎网络和drqn的微博早期谣言检测方法 |
CN113592058B (zh) * | 2021-07-05 | 2024-03-12 | 西安邮电大学 | 一种定量预测微博转发广度与深度的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354845A (zh) * | 2016-08-31 | 2017-01-25 | 上海交通大学 | 基于传播结构的微博谣言识别方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173485A1 (en) * | 2011-12-29 | 2013-07-04 | Telefonica, S.A. | Computer-implemented method to characterise social influence and predict behaviour of a user |
-
2019
- 2019-04-15 CN CN201910297442.XA patent/CN110134873B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354845A (zh) * | 2016-08-31 | 2017-01-25 | 上海交通大学 | 基于传播结构的微博谣言识别方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于标记信息级联传播树特征的谣言检测新方法;蔡国永等;《计算机工程与科学》;20180815(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110134873A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134873B (zh) | 一种基于转发网络层次分析的微博谣言预测方法 | |
US11528290B2 (en) | Systems and methods for machine learning-based digital content clustering, digital content threat detection, and digital content threat remediation in machine learning-based digital threat mitigation platform | |
Ma et al. | Detect rumors in microblog posts using propagation structure via kernel learning | |
Sun et al. | Ddgcn: Dual dynamic graph convolutional networks for rumor detection on social media | |
Liu et al. | TASC: Topic-adaptive sentiment classification on dynamic tweets | |
Zhao et al. | A synergistic approach for graph anomaly detection with pattern mining and feature learning | |
Alsaedi et al. | Arabic event detection in social media | |
Zhang et al. | Enhancing video event recognition using automatically constructed semantic-visual knowledge base | |
Li et al. | A rumor events detection method based on deep bidirectional GRU neural network | |
Agrawal et al. | Multimodal detection of fake social media use through a fusion of classification and pairwise ranking systems | |
CN113919440A (zh) | 一种融合双重注意力机制和图卷积社交网络谣言检测系统 | |
CN110929683B (zh) | 一种基于人工智能的视频舆情监测方法及系统 | |
Zhi et al. | Financial fake news detection with multi fact CNN-LSTM model | |
Shaalan et al. | Detecting singleton spams in reviews via learning deep anomalous temporal aspect-sentiment patterns | |
Wang et al. | Detecting fake news on Chinese social media based on hybrid feature fusion method | |
Dong et al. | Sentiment-aware fake news detection on social media with hypergraph attention networks | |
Pu et al. | Spatial-temporal knowledge-embedded transformer for video scene graph generation | |
Chen et al. | Towards topic trend prediction on a topic evolution model with social connection | |
Xing et al. | Mining semantic information in rumor detection via a deep visual perception based recurrent neural networks | |
CN103116651A (zh) | 一种舆情热点动态检测方法 | |
Chen et al. | Joint learning with keyword extraction for event detection in social media | |
CN114124580A (zh) | 一种基于Slater社会选择理论的网络入侵检测方法 | |
Dai et al. | St-etm: A spatial-temporal emergency topic model for public opinion identifying in social networks | |
Zou et al. | Multi-level Interaction Network for Multi-Modal Rumor Detection | |
Liu et al. | Infusing external knowledge into user stance detection in social platforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |