CN108596276A

CN108596276A - 基于特征加权的朴素贝叶斯微博用户分类方法

Info

Publication number: CN108596276A
Application number: CN201810443273.1A
Authority: CN
Inventors: 黄梅根; 周理含; 王渝
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-05-10
Filing date: 2018-05-10
Publication date: 2018-09-28

Abstract

本发明请求保护一种基于特征加权的朴素贝叶斯微博用户分类方法。本发明目的是区分正常微博用户和恶意微博用户。本发明首先将经过离散化处理的微博用户数据分为训练数据集和测试数据集；然后对训练数据集进行计算得到各个特征的先验概率、条件概率和信息增益，再根据信息增益排名建立目标优化矩阵，确定各个特征的权值；最后对测试数据进行计算后验概率，最大的后验概率所对应的类别即是分类结果。本发明弱化了朴素贝叶斯分类方法的特征之间相互独立且同等重要的假设，通过计算信息增益，确定各特征对分类结果的重要程度，建立目标优化矩阵，确定各个特征的权值，以此提高了微博用户分类的准确性。

Description

基于特征加权的朴素贝叶斯微博用户分类方法

技术领域

本发明属于计算机领域，尤其涉及一种基于特征加权的朴素贝叶斯微博用户分类方法。

背景技术

近几年，随着互联网的快速发展，各种社交平台也跟着迅速崛起。微博作为一种新兴的信息传播平台，具有传播速度快，覆盖面积广的特点。微博成为人们关注时政，获取新闻，发表评论的重要途径。但是在微博带给我们便利的同时，微博平台上也充满着各种各样的恶意信息，如钓鱼链接、垃圾广告信息等。这些恶意信息的产生来源就是微博上的一些恶意用户。为了避免正常用户上当受骗，如何识别微博恶意用户的研究就很有意义。

朴素贝叶斯分类算法，具有简单，分类速度快的特点。但是朴素贝叶斯假设各个特征相互独立且同等重要。但是往往现实中特征对分类结果具有不同的重要性。微博上的恶意用户会有抱团现象，或者就是一个人用机器控制多个账号。这些恶意用户的微博特征信息和正常用户的微博特征信息有区别，这也是区分正常用户和恶意用户的关键。经过收集信息发现，正常用户和恶意用户在某些特征方面有很大的差异，但在一些特征方面，差异不明显。如何改进传统朴素贝叶斯方法对微博用户分类成为迫切需要解决的问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种快速有效的对微博用户进行分类，有效提高微博用户分类的准确率的基于特征加权的朴素贝叶斯微博用户分类方法。本发明的技术方案如下：

一种基于特征加权的朴素贝叶斯微博用户分类方法，其包括以下步骤：

步骤1：获取微博用户信息，组建数据列表；

步骤2：对步骤1中得到的微博用户信息数据进行离散化处理，得到数据集；

步骤3：将数据集分为训练数据集和测试数据集；

步骤4：对于训练数据集，计算微博用户所属类别的先验概率，以及各个特征的条件概率和信息增益；

步骤5：采用改进朴素贝叶斯分类算法，改进点主要在于，通过计算各个特征的信息增益，获知各个特征对于分类结果的重要性，构建目标优化矩阵，根据各个特征信息的增益排名，确定每个特征的权值；

步骤6：计算测试数据的后验概率，并将最大后验概率对应的类作为分类结果。

进一步的，所述步骤1：获取微博用户信息，组建数据列表，具体包括：

步骤1.1：关注目标用户包括正常用户和恶意用户的微博；

步骤1.2：记录这些目标用户的基本特征信息，包括：粉丝数，关注数，微博数，微博年龄，认证情况，阳光信用等级，用一个特征向量表示一个用户，构建数据集。

进一步的，所述步骤2对数据集采用固定步长分组法进行离散化处理，所述分组法的步骤包括：将每个特征的取值范围分为三个小段，每个小段分别用 0,1,2表示。如对于微博注册日期这一特征，2009年至2011年期间注册的用0 表示，2012至2014年期间注册的用1表示，2015年-2017年期间注册的用2表示。

进一步的，所述步骤3将数据集分为训练数据集和测试数据集，具体包括：将数据集随机打乱，分成十份，选取其中九份作为训练数据集，剩下一份作为测试数据集。

进一步的，所述步骤4对于训练数据集，计算微博用户所属类别的先验概率，以及各个特征的条件概率和信息增益；包括：

分别计算正常用户和恶意用户两种类别的先验概率P(Y₁)和P(Y₂),计算公式如下：

其中Y₁代表正常用户，Y₂代表恶意用户，N代表整个训练数据集样本的数量， N_Y1代表训练数据集中正常用户样本的数量，代表训练数据集中恶意用户样本的数量；

步骤4.2：分别计算对于两种不同类别的各个特征的条件概率P(X⁽ⁱ⁾|Y₁)和 P(X⁽ⁱ⁾|Y₂)，其中X⁽ⁱ⁾表示特征向量X中的第i个特征；

步骤4.3：分别计算各个特征的信息增益；

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征 A在给定条件D的经验条件熵H(D|A)之差，即

g(D,A)＝H(D)-H(D|A)

信息增益反映出了特征对分类结果的重要性程度。

进一步的，所述步骤5的目标优化矩阵构建的过程如下：

首先，将特征向量包含的特征依次填入矩阵表的第一行和第一列；

其次，从纵轴的特征1开始，与横轴的特征2，特征3，一直到特征n逐一进行比较，根据计算出的各个特征的信息增益，若特征1比特征2的信息增益大，则在特征1和特征2相交的表格内填1，反之填0，其他特征之间比较也是按照此规则；

最后，统计每行之和作为最后矩阵一列，得到目标优化矩阵。

进一步的，所述各个特征权值获取方式如下：

利用合计项计算权重，可能出现某项特征的合计为0，但实际上该特征对于分类结果还是具有一定的重要性。所以权值计算公式如下：

某特征权值＝1+(某特征的合计得分/所有特征的合计得分之和)。

进一步的，所述步骤6计算测试数据的后验概率，并将最大后验概率对应的类作为分类结果，具体包括：

根据步骤4计算的到的类的先验概率，各个特征的条件概率和步骤5计算得到的各个特征的权值，计算测试数据的后验概率，公式如下：

其中j＝{1,2}，q代表特征x⁽ⁱ⁾的权值，将最大的后验概率对应的类作为测试数据的分类结果。

本发明的优点及有益效果如下：

本发明基于特征加权的朴素贝叶斯微博用户分类方法。通过计算各个特征的信息增益，获知各个特征对于分类结果的重要性，构建目标优化矩阵，确定每个特征的权值。通过本方法能够快速有效的对微博用户进行分类，有效提高微博用户分类的准确率。

附图说明

图1是本发明提供优选实施例微博用户分类方法的流程图；

图2为目标优化矩阵图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

参见图1，一种基于基于特征加权的朴素贝叶斯微博用户分类方法，包括如下步骤：

步骤1：获取微博用户信息，组建数据列表；

步骤1.1：关注目标用户包括正常用户和恶意用户的微博；

步骤1.2：记录这些目标用户的基本特征信息，包括：粉丝数，关注数，微博数，微博年龄，认证情况，阳光信用等级，用一个特征向量表示一个用户，构建数据集；

步骤2：对步骤1得到的数据集采用固定步长分组法进行离散化处理；

步骤3：将数据集分为训练数据集和测试数据集。将数据集随机打乱，分成十份，选取其中九份作为训练数据集，剩下一份作为测试数据集；

步骤4：对于训练数据集，计算类的先验概率，各个特征的条件概率和信息增益；

步骤4.1：分别计算正常用户和恶意用户两种类别的先验概率P(Y₁)和P(Y₂), 计算公式如下：

其中Y₁代表正常用户，Y₂代表恶意用户，N代表整个训练数据集样本的数量， N_Y1代表训练数据集中正常用户样本的数量，代表训练数据集中恶意用户样本的数量。

步骤4.3：分别计算各个特征的信息增益；

在信息论与概率统计中，熵是表示随机变量不确定性的度量。信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度。特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A在给定条件 D的经验条件熵H(D|A)之差，即

g(D,A)＝H(D)-H(D|A)

信息增益反映出了特征对分类结果的重要性程度。

步骤5：建立目标优化矩阵，根据各个特征信息增益排名，计算出各个特征的权值；

步骤5.1:根据特征，构建目标优化矩阵；

步骤5.2：根据目标优化矩阵计算出各个特征的权值；

目标优化矩阵构建的过程如下：

首先，将特征向量包含的特征依次填入矩阵表的第一行和第一列。

其次，从纵轴的特征1开始，与横轴的特征2，特征3，一直到特征n逐一进行比较。根据步骤4计算出的各个特征的信息增益，若特征1比特征2的信息增益大，则在特征1和特征2相交的表格内填1，反之填0。其他特征之间比较也是按照此规则。

各个特征权值获取方式如下：

利用附图2中的合计项计算权重，可能出现某项特征的合计为0，但实际上该特征对于分类结果还是具有一定的重要性。所以权值计算公式如下：

某特征权值＝1+(某特征的合计得分/所有特征的合计得分之和)

步骤6：根据步骤4计算的到的类的先验概率，各个特征的条件概率和步骤 5计算得到的各个特征的权值，计算测试数据的后验概率，公式如下：

其中j＝{1,2}，q代表特征x⁽ⁱ⁾的权值。

将最大的后验概率对应的类作为测试数据的分类结果,如图分类结束。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，包括以下步骤：

步骤1：获取微博用户信息，组建数据列表；

步骤3：将数据集分为训练数据集和测试数据集；

2.根据权利要求1所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述步骤1：获取微博用户信息，组建数据列表，具体包括：

步骤1.1：关注目标用户包括正常用户和恶意用户的微博；

3.根据权利要求1或2所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述步骤2对数据集采用分组法进行离散化处理，所述分组法的步骤包括：将每个特征的取值范围分为三个小段，每个小段分别用0,1,2表示。

4.根据权利要求1或2所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述步骤3将数据集分为训练数据集和测试数据集，具体包括：将数据集随机打乱，分成十份，选取其中九份作为训练数据集，剩下一份作为测试数据集。

5.根据权利要求4所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述步骤4对于训练数据集，计算微博用户所属类别的先验概率，以及各个特征的条件概率和信息增益；包括：

其中Y₁代表正常用户，Y₂代表恶意用户，N代表整个训练数据集样本的数量，N_Y1代表训练数据集中正常用户样本的数量，代表训练数据集中恶意用户样本的数量；

步骤4.2：分别计算对于两种不同类别的各个特征的条件概率P(X⁽ⁱ⁾|Y₁)和P(X⁽ⁱ⁾|Y₂)，其中X⁽ⁱ⁾表示特征向量X中的第i个特征；

步骤4.3：分别计算各个特征的信息增益；

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度，特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A在给定条件D的经验条件熵H(D|A)之差，即

g(D,A)＝H(D)-H(D|A)

信息增益反映出了特征对分类结果的重要性程度。

6.根据权利要求5所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述步骤5的目标优化矩阵构建的过程如下：

7.根据权利要求6所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述各个特征权值获取方式如下：

8.根据权利要求6所述的基于特征加权的朴素贝叶斯微博用户分类方法，其特征在于，所述步骤6计算测试数据的后验概率，并将最大后验概率对应的类作为分类结果，具体包括：