CN109558483A

CN109558483A - 一种基于朴素贝叶斯模型的谣言识别方法

Info

Publication number: CN109558483A
Application number: CN201811200240.0A
Authority: CN
Inventors: 李大庆; 钟季龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2019-04-02
Anticipated expiration: 2038-10-16
Also published as: CN109558483B

Abstract

本发明提供一种基于朴素贝叶斯的谣言识别方法，步骤如下：1，采集样本数据，构建消息转发网络；2，统计识别谣言转发网络的活跃用户；3，确定谣言识别的条件概率计算公式；通过以上步骤，本发明综合考虑了参与多个谣言转发的活跃用户节点，基于朴素贝叶斯模型，降低存储空间要求的同时提高了识别准确度和计算求解效率，解决了社交网络中谣言识别的问题，具有推广应用价值。

Description

一种基于朴素贝叶斯模型的谣言识别方法

技术领域

本发明提出一种基于朴素贝叶斯模型的谣言识别方法，根据社交网络中谣言传播的活跃用户特征，辅助识别谣言等虚假消息与不实言论，属于机器学习与网络科学交叉领域。

背景技术

随着互联网的高速发展，微博、微信等社交网络媒体普及程度也越来越高。据新浪微博发布的2018年Q1季度财报显示，截至2018年3月，微博月活跃用户已突破4亿；据媒体报道，微信截至2018年，全球用户总人数超过10亿。消息在网络中传播的同时，往往掺杂着各种真实的新闻消息和虚假的谣言信息。由于消息在网络上具有传播速度快、影响范围广等特点，谣言对于社会生活的影响也越来越深远。尤其是在具有重大影响的事件如自然灾害发生后，谣言消息更容易在社交网络中产生和传播，给社会日常生活并带来诸多负面影响。例如2011年日本福岛核电站在地震后发生核泄漏事件，就有食用加碘盐可以预防核辐射的谣言产生并广为传播，导致抢购食盐的群体行为发生，极大扰乱了市场供求关系；再如2014年马来西亚航空MH370航班神秘失踪后，别有用心的人利用外界对航空知识的认识不足，杜撰了多种不同的阴谋论谣言，引发不必要的猜疑和恐慌。因此，根据消息特征进行消息的真假识别对于预防与控制谣言传播具有重要意义。

谣言通常是指在公开渠道对公众感兴趣事务或问题的未经证实的一种解释或阐述。谣言识别技术上属于自然语言处理问题，其本质上是一个分类问题，即把消息分类为谣言和事实。谣言按其内容通常可以分为以下四类：1.纯属虚构，即消息本身子虚乌有；2.夸大事实真相，吸引公众浏览；3.捏造事实细节，真假掺半；4.“旧酒装新瓶”类的消息，即把过去发生的事捏造为当前事件或问题，引发公众关注。近年来，随着机器学习成为研究热点，研究者提出了多种基于不同特征提取如根据文本内容、元素特征、行为特征以及用户属性信息等进行分类的方法，如Boosting方法、支持向量机、KNN算法等。另一些研究考虑了不同拓扑结构下消息的传播特征和时序特征识别预测谣言，典型的包括利用疾病传播模型刻画谣言传播，以进一步理解网络结构对谣言传播的影响。然而，许多考虑谣言传播特性的研究将谣言传播简化为一个单一的过程，忽略了不同谣言可能是由同一组用户创建或转发，这就意味着在不同的谣言转发网络中可以找到一些同时参与多个谣言转发的活跃用户。从这一特点出发，考察消息所形成的转发网络，利用网络中不同的活跃用户这一信息判断一条消息是谣言的概率大小。

早在1998年研究者就首次把朴素贝叶斯模型应用在垃圾邮件过滤中，算法表现出了良好的分类效果。朴素贝叶斯模型是一种监督学习模型，建立在条件独立性假设的基础上，该方法具有分类效果好、训练效率高以及存储空间要求小等优势。由于社交网络样本空间量较大，为解决这样的问题，受上述启发，考虑将朴素贝叶斯模型应用到社交网络的谣言识别问题中，以在提高识别准确度的同时降低存储空间要求。其主要思路是首先构建消息转发网络，从样本中学习训练谣言转发的活跃用户，进一步依据朴素贝叶斯条件独立性假设，简化贝叶斯概率计算公式，利用转发谣言的活跃用户设计一种基于朴素贝叶斯模型的谣言识别方法。

发明内容

(一)发明的目的

本发明目的是提供一种基于朴素贝叶斯模型的谣言识别方法。该方法在条件独立性假设基础上，从活跃用户角度考虑谣言识别问题，为判定消息真假提供技术手段。

(二)技术方案

本发明是一种基于朴素贝叶斯模型的谣言识别方法，其具体实施步骤如下：

步骤1，采集样本数据，构建消息转发网络

首先采集样本数据，用于学习训练，根据转发消息的用户，建立消息转发网络，为进一步识别活跃用户做好数据准备，包括2个子步骤：

1.1采集样本数据，并按标签进行分类；

1.2定义网络节点与连边形式，构建消息转发网络；

步骤2，统计识别谣言转发网络的活跃用户

每一条消息形成一个消息转发网络，网络中存在一些参与不同转发网络的用户，对于谣言转发网络，通过识别这些活跃用户，进一步进行基于朴素贝叶斯模型的谣言转发网络识别，包括2个子步骤：

2.1定义谣言转发的用户活跃度；

2.2统计并筛选谣言转发网络中的所有活跃用户；

步骤3，确定谣言识别的条件概率计算公式

为判定一条消息是否属于谣言，需根据朴素贝叶斯模型确定谣言识别的条件概率计算公式，并在此基础上进行进一步简化公式，使得求解计算效率更高；条件独立性假设是朴素贝叶斯模型中“朴素”一词的来源，该假设目的在于简化联合概率的求解计算，引入该假设后，联合概率计算就转化为各自独立概率的乘积的形式，即

P(x₁，x₂，...，x_n|y)＝P(x₁|y)P(x₂|y)...P(x_n|y)，

式中：P(x₁，x₂，...，x_n|y)表示y条件下事件x₁，x₂，...，x_n同时发生的联合概率，P(x₁|y)表示y条件下事件x₁发生的概率，类似的，P(x_n|y)表示y条件下事件x_n发生的概率；

包括2个子步骤：

3.1根据条件概率计算的一般公式，确定谣言识别的条件概率计算公式；

3.2引入条件独立性假设，简化谣言识别的条件概率计算公式，提高计算效率；

其中，在步骤1.1中所述的“采集样本数据，并按标签进行分类”，其作法如下：首先在社交网络上采集用于学习训练的样本数据，需要采集的信息包括消息内容、创建者标识序号、创建时间、转发者标识序号、转发时间以及类型标签，将数据按类型标签划分为事实和谣言两个类别。

其中，在步骤1.2中所述的“定义网络节点与连边形式，构建消息转发网络”，其做法如下：在步骤1.1采集的样本数据基础上，将网络节点定义为参与消息转发的用户，将连边定义为消息的转发关系，方向为从被转发用户节点指向转发用户节点；因此，按照上述节点和连边的定义，并依据步骤1.1采集的样本数据，按照事实和谣言标签分别构建谣言和事实转发网络；一个消息转发网络示意图如图1所示，每一个网络代表一条消息，节点表示用户，细实线表示转发关系，粗实线表示相同的用户在不同的消息中同时出现。

其中，在步骤2.1中所述的“定义谣言转发的用户活跃度”，其做法如下：谣言网络中活跃用户是转发谣言最多、最活跃的一组用户；为了进行量化评估，首先定义谣言转发的用户活跃度

其中R表示谣言转发用户活跃度，n表示用户在谣言样本数据中参与转发的谣言数，N表示样本数据中谣言总数；谣言转发的用户活跃度表征了用户重复参与谣言转发的频率大小；根据谣言样本数据中每个用户活跃度大小，按降序排列，将活跃度最高的前10％用户则定义为谣言转发活跃用户。

其中，在步骤2.2中所述的“统计并筛选谣言转发网络中的所有活跃用户”，其做法如下：在样本数据中根据标签筛选出所有谣言转发网络，统计谣言转发网络中所用用户的活跃度，活跃用户筛选方法是根据其在不同的谣言转发网络中重复出现的频率，即活跃度，把活跃度最高的前10％用户筛选为活跃用户：

Keynode＝{x|x∈R_x＞R_c}

其中，Keynode表示活跃用户集合，x表示用户活跃x，R_x表示活跃用户x的活跃度，R_c表示活跃用户前10％的活跃度最小值，同时记录谣言转发活跃用户的标识序号。

其中，在步骤3.1中所述的“根据条件概率计算的一般公式，确定谣言识别的条件概率计算公式”，其做法如下：根据条件概率计算的一般公式其中X表示特征，Y表示类别标签P(Y)称为先验概率，P(Y|X)称为后验概率，P(X)表示特征的概率，P(X|Y)表示Y类别中X特征的概率，从消息转发的活跃用户将特征出发，将谣言识别的条件概率计算公式表示为

其中K_i表示活跃用户i，P(Rumor|K₁，K₂...，K_n)表示谣言在一组活跃用户(K₁，K₂...，K_n)在同时参与该条消息转发时的条件概率，即后验概率，P(K₁，K₂...K_n|Rumor表示谣言转发网络中活跃用户(K₁，K₂...，K_n)同时参与转发的联合概率，P(Rumor)表示样本空间中谣言所占的比例，即先验概率，P(K₁，K₂...，K_n)表示的活跃用户参与转发的联合概率。

其中，在步骤3.2中所述的“引入条件独立性假设，简化谣言识别的条件概率计算公式，提高计算效率”，其做法如下：当引入条件独立性假设后，条件联合概率可以分解为条件边缘概率之积，即

P(K₁，K₂...K_n|Rumor)＝P(K₁|Rumor)P(K₂|Rumor)...P(K_n|Runmor)

P(K₁，K₂...K_n|Fact)＝P(K₁|Fact)P(K₂|Fact)...P(K_n|Fact)

另外，在步骤3.1所述的谣言识别的条件概率计算公式中，由于活跃用户参与转发的联合概率P(K₁，K₂...，K_n)不容易计算，为了方便计算并提高计算效率，考虑当一条消息的时，则该消息判定为谣言；因此，将其谣言识别的条件概率计算公式代入上述条件，可将分母的联合概率约去化简，得到简化谣言识别的条件概率计算公式，即

其中x_i＝1则表示消息i为谣言，否则为事实；

代入条件独立性假设后，谣言识别的条件概率计算公式则进一步简化为

其中x_i＝1则表示消息i为谣言，否则为事实；P(Rumor)为样本数据中谣言所占的比例，P(K_i|Rumor)表示谣言转发网络中活跃用户K_i参与转发的比例，同理P(Fact)表示样本数据中事实所占的比例，P(K_i|Fact)表示事实转发网络中活跃用户K_i参与转发的比例。

通过以上步骤，本发明基于朴素贝叶斯模型提出谣言识别的方法，相对于其他机器学习方法，该方法应用效果好，存储要求低，计算效率高，有利于对一条消息是否是谣言进行准确判断，具有推广应用价值。

(三)优点和功效

本发明提供了一种基于朴素贝叶斯模型的谣言识别方法，具有以下优点：

(a)分类效果好。该方法综合考虑了参与不同消息转发的活跃用户，为谣言识别提供了全新的视角。尽管该方法建立在独立性假设基础上，但该假设所产生的消极影响和积极影响互相抵消，使得分类效果在实际应用中表现很好。

(b)存储要求低。该方法得益于条件独立性假设前提，联合概率的求解被分解为单个用户参与条件概率的乘积，因此只需存储所有不重复的用户，而无需存储样本数据所有用户。

(c)计算效率高。相比于其他机器学习分类模型，基于朴素贝叶斯模型的谣言识别训练过程只需扫描一遍样本，并统计用户参与数，训练过程短、速度快，降低了学习训练所消耗的时间。

(d)本方法简单实用，实施容易，具有推广应用价值。可用于社交网络中快速、准确的进行谣言识别，从而提高预防谣言发生，降低谣言传播的可能性。

附图说明

图1消息转发网络示意图。

图2本发明所述的一种基于朴素贝叶斯模型的谣言识别方法流程图。

具体实施方式

本发明提供一种基于朴素贝叶斯模型的谣言识别方法，为进一步阐明其技术手段和效果，下面结合具体的谣言识别实施例，对本发明技术方法进行详细描述。

本发明一种基于朴素贝叶斯模型的谣言识别方法，如图2所示，其具体实施步骤如下：

步骤1，按照消息内容、创建者标识序号、创建时间、转发者标识序号、转发时间以及类型标签等所需信息采集到新浪微博数据谣言和事实分别1863条和2000条，作为训练数据。同时，对采集到的每条消息数据进行类别标记，即标记为事实或谣言。

将网络中的节点定义为参与消息转发的用户，将连边定义为消息的转发关系，方向为从被转发用户节点指向转发用户节点；因此，按照上述节点和连边的定义，并依据采集的样本数据，按照事实和谣言标签分别构建出所有谣言和事实的转发网络，一个消息转发网络示意图如图1所示。

步骤2，统计识别谣言转发网络的活跃用户

2.1谣言网络中活跃用户是转发谣言最多、最活跃的一组用户。为了进行量化评估，首先定义谣言转发的用户活跃度

其中R表示谣言转发用户活跃度，n表示用户在谣言样本数据中参与转发的谣言数，N表示样本数据中谣言总数。谣言转发的用户活跃度表征了用户重复参与谣言转发的频率大小。根据谣言样本数据中每个用户活跃度大小，按降序排列，将活跃度最高的前10％用户则定义为谣言转发活跃用户。

2.2在样本数据中根据标签筛选出所有谣言转发网络，统计谣言转发网络中所用用户的活跃度，活跃用户筛选方法是根据其在不同的谣言转发网络中重复出现的频率，即活跃度，把活跃度最高的前10％用户筛选为活跃用户，同时记录谣言转发活跃用户的标识序号。部分谣言转发网络的计算结果如表1所示。

表1网络数据信息示意表

序号	节点标识序号	活跃度R
			1	2691321762	0.042941
2	1841272905	0.024691
			3	2672687873	0.020934
…	…	…
			576225	2493756854	0.000537

步骤3，确定谣言识别的条件概率计算公式

3.1根据条件概率计算的一般公式其中X表示特征，Y表示类别标签P(Y)称为先验概率，P(Y|X)称为后验概率，P(X)表示特征的概率，P(X|Y)表示Y类别中X特征的概率，从消息转发的活跃用户将特征出发，将谣言识别的条件概率计算公式表示为

其中K_i表示活跃用户i，活跃用户是从表1中按照活跃度前10％的用户得到，即前1863*10％＝186个用户为活跃用户。P(Rumor|K₁，K₂...，K_n)表示谣言在一组活跃用户(K₁，K₂...，K_n)在同时参与该条消息转发时的条件概率，即后验概率，P(K₁，K₂...K_n|Rumor)表示谣言转发网络中活跃用户(K₁，K₂...，K_n)同时参与转发的联合概率，P(Rumor)表示样本空间中谣言所占的比例，即先验概率，P(K₁，K₂...，K_n)表示的活跃用户参与转发的联合概率；

3.2当引入条件独立性假设后，条件联合概率可以分解为条件边缘概率之积，即

P(K₁，K₂...K_n|Rumor)＝P(K₁|Rumor)P(K₂|Rumor)...P(K_n|Rumor)

P(K₁，K₂...K_n|Fact)＝P(K₁|Fact)P(K₂|Fact)...P(K_n|Fact)

另外，在步骤3.1所述的谣言识别的条件概率计算公式中，由于活跃用户参与转发的联合概率P(K₁，K₂...，K_n)不容易计算，为了方便计算并提高计算效率，考虑当一条消息的时，则该消息判定为谣言。因此，将其谣言识别的条件概率计算公式代入上述条件，可将分母的联合概率约去化简，得到简化谣言识别的条件概率计算公式，即

其中x_i＝1则表示消息i为谣言，否则为事实。

其中x_i＝1则表示消息i为谣言，否则为事实。P(Rumor)为样本数据中谣言所占的比例，P(K_i|Rumor)表示谣言转发网络中活跃用户K_i参与转发的比例，同理P(Fact)表示样本数据中事实所占的比例，P(K_i|Fact)表示事实转发网络中活跃用户K_i参与转发的比例。

Claims

1.一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：其具体实施步骤如下：

步骤1，采集样本数据，构建消息转发网络

1.1采集样本数据，并按标签进行分类；

1.2定义网络节点与连边形式，构建消息转发网络；

步骤2，统计识别谣言转发网络的活跃用户

2.1定义谣言转发的用户活跃度；

2.2统计并筛选谣言转发网络中的所有活跃用户；

步骤3，确定谣言识别的条件概率计算公式

P(x₁，x₂，...，x_n|y)＝P(x₁|y)P(x₂|y)...P(x_n|y)，

式中：P(x₁，x₂，...，xn|y)表示y条件下事件x₁，x₂，...，，x_n同时发生的联合概率，P(x₁|y)表示y条件下事件x₁发生的概率，类似的，P(x_n|y)表示y条件下事件x_n发生的概率；

包括2个子步骤：

2.根据权利要求1所述的一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：

在步骤1.1中所述的“采集样本数据，并按标签进行分类”，其作法如下：首先在社交网络上采集用于学习训练的样本数据，需要采集的信息包括消息内容、创建者标识序号、创建时间、转发者标识序号、转发时间以及类型标签，将数据按类型标签划分为事实和谣言两个类别。

3.根据权利要求1所述的一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：

在步骤1.2中所述的“定义网络节点与连边形式，构建消息转发网络”，其做法如下：在步骤1.1采集的样本数据基础上，将网络节点定义为参与消息转发的用户，将连边定义为消息的转发关系，方向为从被转发用户节点指向转发用户节点；因此，按照上述节点和连边的定义，并依据步骤1.1采集的样本数据，按照事实和谣言标签分别构建谣言和事实转发网络。

4.根据权利要求1所述的一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：

在步骤2.1中所述的“定义谣言转发的用户活跃度”，其做法如下：谣言网络中活跃用户是转发谣言最多、最活跃的一组用户；为了进行量化评估，首先定义谣言转发的用户活跃度

5.根据权利要求1所述的一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：

在步骤2.2中所述的“统计并筛选谣言转发网络中的所有活跃用户”，其做法如下：在样本数据中根据标签筛选出所有谣言转发网络，统计谣言转发网络中所用用户的活跃度，活跃用户筛选方法是根据其在不同的谣言转发网络中重复出现的频率，即活跃度，把活跃度最高的前10％用户筛选为活跃用户：

Keynode＝{x|x∈R_x＞R_c}

6.根据权利要求1所述的一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：

在步骤3.1中所述的“根据条件概率计算的一般公式，确定谣言识别的条件概率计算公式”，其做法如下：根据条件概率计算的一般公式

其中X表示特征，Y表示类别标签P(Y)称为先验概率，P(Y|X)称为后验概率，P(X)表示特征的概率，P(X|Y)表示Y类别中X特征的概率，从消息转发的活跃用户将特征出发，将谣言识别的条件概率计算公式表示为

其中Ki表示活跃用户i，P(Rumor|K₁，K₂...，K_n)表示谣言在一组活跃用户(K₁，K₂...，K_n)在同时参与该条消息转发时的条件概率，即后验概率，P(K₁，K₂...K_n|Rumor)表示谣言转发网络中活跃用户(K₁，K₂...，K_n)同时参与转发的联合概率，P(Rumor)表示样本空间中谣言所占的比例，即先验概率，P(K₁，K₂...，K_n)表示的活跃用户参与转发的联合概率。

7.根据权利要求1所述的一种基于朴素贝叶斯模型的谣言识别方法，其特征在于：

在步骤3.2中所述的“引入条件独立性假设，简化谣言识别的条件概率计算公式，提高计算效率”，其做法如下：当引入条件独立性假设后，条件联合概率能分解为条件边缘概率之积，即

P(K₁，K₂...K_n|Rumor)＝P(K₁|Rumor)P(K₂|Rumor)...P(K_n|Rumor)

P(K₁，K₂...K_n|Fact)＝P(K₁|Fact)P(K₂|Fact)...P(K_n|Fact)

其中x_i＝1则表示消息i为谣言，否则为事实；