CN110134873B

CN110134873B - 一种基于转发网络层次分析的微博谣言预测方法

Info

Publication number: CN110134873B
Application number: CN201910297442.XA
Authority: CN
Inventors: 任国恒; 秦东霞; 于来行; 王伟; 高光; 刘琳琳
Original assignee: Zhoukou Normal University
Current assignee: Zhoukou Normal University
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2022-09-27
Anticipated expiration: 2039-04-15
Also published as: CN110134873A

Abstract

本发明公开了一种基于转发网络层次分析的微博谣言预测方法，其步骤如下：步骤一：用传播树来表示每个源微博的传播，该传播树是通过捕获由源微博触发的用户间的互动而产生的；步骤二：提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征，以估计两个传播树之间的相似度；步骤三：将在基于传播树核的统一框架中考虑时间、结构和语言信号；本发明提出的基于内核的方法可以比最先进的谣言检测模型更快速、准确地检测谣言。

Description

一种基于转发网络层次分析的微博谣言预测方法

技术领域

本发明属于预测方法技术领域，具体涉及一种基于转发网络层次分析的微博谣言预测方法。

背景技术

以微博为代表的新兴社交媒体具有开放性、低门槛、交互性等特点，为网民提供了一个自由表达意见与交流信息的平台。在当今自媒体盛行、网络红人影响力越来越大的情况下，他们的微博内容时刻影响着大众。所以，在微博平台中，经过某个或几个微博知名用户的转发，就会形成强大的舆论效应。这在权威媒体占主导的当代是不可想象的。这些因素，导致微博很容易成为谣言扩散的平台。针对社交网络上谣言的检测，主要以人工检验和关键词检索为主。对微博来说，目前谣言处理主要采取用户举报、人工判断方式，这导致了处理效率低和时间滞后的问题，为此我们提出一种基于转发网络层次分析的微博谣言预测方法。

发明内容

本发明的目的在于提供一种基于转发网络层次分析的微博谣言预测方法，以解决上述背景技术中提出对微博来说，目前谣言处理主要采取用户举报、人工判断方式，这导致了处理效率低和时间滞后的问题。

为实现上述目的，本发明提供如下技术方案：一种基于转发网络层次分析的微博谣言预测方法，其步骤如下：

步骤一：用传播树来表示每个源微博的传播，该传播树是通过捕获由源微博触发的用户间的互动而产生的；

步骤二：提出一种称为传播树核Propagation Tree Kernel的基于内核的数据驱动方法来自动生成相关特征，以估计两个传播树之间的相似度；

步骤三：将在基于传播树核的统一框架中考虑时间、结构和语言信号；

步骤四：将每个源微博的传播建模为树结构T= <V,E>，其中r是源微博以及树的根，V指的是一组节点，每个节点表示在某一时间对源推文 r 的一个回应帖子，进而发起循环；E是对应于V中的节点之间的响应关系的一组有向边，如果存在从vi到vj的有向边，则意味着vj是对vi的直接响应；

步骤五：使用复杂的结构化模式和关于与树结点相关联的内容、用户和时间的基础信息对假设进行编码，通过核函数直接测量传播树之间的相似性，学习识别细粒度谣言的判别线索。

优选的，所述步骤四更具体地，每个节点vV被表示为元组v =（uv, cv, tv），其提供以下信息：uv是帖子的创建者，cv表示帖子的文本内容，并且tv是源微博 r和v之间的滞后时间。

优选的，所述步骤一中大多数以前的工作将其定义为事件级别的分类，其中事件由许多源微博用户提供，每个都与一组转发和回复相关联。

优选的，所述相关特征被定义为具有多于一个节点的任何子图，限制是必须包括整个规则生成。

优选的，所述传播树的计算方法为，首先定义一个函数f来评估两个节点vi和vj之间的相似度，我们简化例如vi =（ui，ci，ti）的节点表示如下：

F（vi，vj）=e-t（αε（ui，uj））+（1-α）j（ci，cj））

其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值；

基于用户的相似性被定义为欧氏距离

ε（u_i,u_j）=||v_i-v_j||2

其中ui和uj是节点vi和vj的用户向量，|||| 2是向量的2范数。

优选的，所述ci和cj是两个节点中的内容词集合。

优选的，所述Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。

优选的，所述传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。

与现有技术相比，本发明的有益效果是：本发明提出的基于内核的方法可以比最先进的谣言检测模型更快速、准确地检测谣言。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种基于转发网络层次分析的微博谣言预测方法，其步骤如下：

本实施例中，优选的，步骤四更具体地，每个节点vV被表示为元组v =（uv, cv,tv），其提供以下信息：uv是帖子的创建者，cv表示帖子的文本内容，并且tv是源微博 r和v之间的滞后时间。

本实施例中，优选的，步骤一中大多数以前的工作将其定义为事件级别的分类，其中事件由许多源微博用户提供，每个都与一组转发和回复相关联。

本实施例中，优选的，相关特征被定义为具有多于一个节点的任何子图，限制是必须包括整个规则生成。

本实施列中，优选的，传播树的计算方法为，首先定义一个函数f来评估两个节点vi和vj之间的相似度，我们简化例如vi =（ui，ci，ti）的节点表示如下：

F（vi，vj）=e-t（αε（ui，uj））+（1-α）j（ci，cj））

其中t = | ti-tj |是vi和vj的时间滞后之间的绝对值；

基于用户的相似性被定义为欧氏距离

ε（u_i,u_j）=||v_i-v_j||2

其中ui和uj是节点vi和vj的用户向量，|||| 2是向量的2范数。

本实施列中，优选的，ci和cj是两个节点中的内容词集合。

本实施列中，优选的，Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。

本实施列中，优选的，传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。

本发明基于核的方法与以下基线进行比较：

SVM-TS：线性SVM分类模型，其使用时间序列来模拟一组手工特征的变化；

DTR：基于决策树的排名方法，用于识别趋势传播的谣言，其中搜索查询短语，并对有争议的事实性声明进行聚类，并根据统计特征对聚类结果进行排名；

DTC和SVM-RBF：使用决策树分类器和基于SVM的RBF核模型的微博用户信息可信度模型，都采用基于对帖子全局统计信息的人工特征；

RFC：随机森林分类器，使用三个参数来适应时间性质和，并采用与用户、语言和结构特征相关的广泛的人工特征；

GRU：具有门控递归单元，用于表示从跨时间相关帖子来学习高级特征；

BOW：通过使用词袋代表每个树中的文本，并使用线性SVM构建谣言分类器，这是一个naive基线；

模型：PTK和cPTK分别是完整的PTK和cPTK模型；PTK-和cPTK-是只使用内容而忽略用户属性设置的模型；

使用带有Theano的LibSVM和GRU的Weka，SVM模型实现了DTC和RFC，在每个数据集中拿出10％的树进行模型调优；像GRU表征学习方法不能轻易地利用复杂的结构信息，来从网络数据中学习重要的特征，相比之下，我们的模型可以从丰富的语言、用户和时间信号的结构化数据中捕获复杂的传播模式，因此，我们的模型的优越性是显而易见的：仅使用文本的PTK已经比GRU更好，表明了传播结构的重要性，结合文本和用户的PTK在两个数据集上产生更好的结果，这意味着两个属性是互补的，并且集成平面和结构化信息的PTK显然更有效。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于转发网络层次分析的微博谣言预测方法，其特征在于：其步骤如下：

2.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述步骤四更具体地，每个节点vV被表示为元组v =（uv, cv, tv），其提供以下信息：uv是帖子的创建者，cv表示帖子的文本内容，并且tv是源微博 r和v之间的滞后时间。

3.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述步骤一中大多数以前的工作将其定义为事件级别的分类，其中事件由许多源微博用户提供，每个都与一组转发和回复相关联。

4.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述相关特征被定义为具有多于一个节点的任何子图，限制是必须包括整个规则生成。

5.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述传播树的计算方法为，首先定义一个函数f来评估两个节点vi和vj之间的相似度，我们简化vi =（ui，ci，ti）的节点表示如下：

F（v_i，v_j）=e^-t（αε（u_i，u_j）+（1-α）j（c_i，c_j））

其中t = | t_i-t_j|是v_i和v_j的时间滞后之间的绝对值；

基于用户的相似性被定义为欧氏距离

ε（u_i,u_j）=||v_i-v_j||2

其中ui和uj是节点vi和vj的用户向量。

6.根据权利要求5所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述ci和cj是两个节点中的内容词集合。

7.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述Propagation Tree Kernel是在从包含用户、内容和时间特征的传播树中捕获判别模式。

8.根据权利要求1所述的一种基于转发网络层次分析的微博谣言预测方法，其特征在于：所述传播树根据结构、语言和时间属性来反映不同类型的谣言和非谣言的区别。