CN110222744A

CN110222744A - 一种基于属性加权的朴素贝叶斯分类模型改进方法

Info

Publication number: CN110222744A
Application number: CN201910437156.9A
Authority: CN
Inventors: 岳希; 唐孟轩; 唐聃; 高燕
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-05-23
Filing date: 2019-05-23
Publication date: 2019-09-10

Abstract

本发明公开了一种基于属性加权的朴素贝叶斯分类模型改进方法，涉及数据处理分类领域。本发明包括如下步骤：S1、数据预处理；S2、计算分组斯皮尔曼系数，剔除冗余属性，更新数据集；S3、求出各类的先验概率和类条件概率；S4、计算更新后的训练集每个属性的加权系数；S5、根据加权后的改进模型进行分类，并统计分类结果。本发明通过属性加权的方式有效的弱化了朴素贝叶斯分类模型的条件独立性假设，并且通过斯皮尔曼系数剔除了冗余属性，改进模型明显的提高了朴素贝叶斯模型的准确性和效率。

Description

一种基于属性加权的朴素贝叶斯分类模型改进方法

技术领域

本发明属于数据处理分类领域，特别是涉及一种基于属性加权的朴素贝叶斯分类模型改进方法。

背景技术

朴素贝叶斯分类算法是最为经典的分类方法。但是由于算法本身的条件独立特性和所有属性对结果影响相同的问题，在实际使用时该算法准确度偏低。目前对朴素贝叶斯算法的改进方法主要有：基于算法本身进行改进，如贝叶斯网络分类算法、双重贝叶斯分类算法、懒惰式贝叶斯网络分类算法等，这些方法使得贝叶斯分类算法的准确率和应用范围有所提升；结合其他方法对朴素贝叶斯分类算法进行改进，这种方法的改进方式较多，比如结合MapReduce框架对朴素贝叶斯算法进行改进，可以在保证准确度的基础上大幅减少运行时间，适用于大规模数据集；结合支持向量机算法对朴素贝叶斯算法进行改进，这种方法在处理多维数据集时有极大优势。

更加有效的是针对属性对结果影响的结合属性加权的朴素贝叶斯分类器，这种方法可以提高准确率；为了弱化属性条件独立性假设的束缚，提高NB的分类性能，通过属性选择或属性加权来提高NB的分类性能，数据集中的冗余属性不仅增加了分类模型学习过程中的计算量，同时还会降低分类的准确率，所以属性选择经常作为提高分类器性能的方法.和准朴素贝叶斯方法相比，属性选择不会改变NB模型的结构，同时可以有效提高NB的分类性能.但是实际中属性对类属性的归属的影响不同，而属性选择不能区分不同属性在分类过程中的重要程度。

为了解决上述问题，本发明选择的属性加权不仅可以排除冗余属性，还可以区分不同属性在分类过程的重要程度NB模型的属性条件独立性假设本质上是假定了各个属性对类属性的贡献相同，通过属性加权可以区分不同属性对类属性归属的不同影响，相较于其他优化方案，此方案减少了对于硬件环境的需求，同时也有效的提高了分类的效率和准确率。

发明内容

本发明的目的在于提供一种基于属性加权的朴素贝叶斯分类模型改进方法，通过属性加权的方式有效的弱化了朴素贝叶斯分类模型的条件独立性假设，并且通过斯皮尔曼系数剔除了冗余属性，改进模型明显的提高了朴素贝叶斯模型的准确性和效率，解决了现有的朴素贝叶斯分类属性间并不总是相互的独立、分类正确率和效率低的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种基于属性加权的朴素贝叶斯分类模型改进方法，包括如下步骤：

步骤S1、数据预处理：将连续型的数据根据高斯分割进行数据离散化，对于非数字类的信息全部转化为数字后，再进行离散化处理；

步骤S2、计算分组斯皮尔曼系数：对于相关性大的组合进行属性融合，剔除冗余属性更新数据集；

步骤S3、求出各类的先验概率和类条件概率：采用拉普拉斯方法计算出各类的先验概率和类条件概率；

步骤S4、计算更新后的训练集每个属性的加权系数；其中，计算方法包括：

步骤S41、计算平均置信度W1；

步骤S42、计算关联度得分ReliefF系数W2；

步骤S43、根据W1和W2计算新的加权系数W；

步骤S5、根据加权后的改进模型进行分类，并统计分类结果；

其中，步骤S41中，具体的平均置信度属性加权过程如下：

A、属性A有五个类别分别为A₁～A₅，C为类别集合存在三个类别y₁～y₃；

B、分别对三个类别找到三个类调节概率最大的值，即找到最大的条件概率分别为P(A_i|y₁)、P(A_j|y₂)、P(A_k|y₃)；

C、令T为代表属性的平均置信度，即与分类结果的关联程度，T值越大则表示关联程度越高；

D、通过公式得到一个加权系数；式中，AC(i)代表属性变量A_i的平均置信度，m代表样本中的属性数；

其中，步骤S42中，具体的ReliefF算法加权过程如下：

每次从训练样本集中随机抽取一个样本R，然后从和R同类的样本集中找出R的k个近邻样本，从每个R的不同类的样本集中据找出k个邻近样本，然后更新每个特征的权重，计算公式如下：

式中，diff(A，R₁，R₂)表示样本在R₁和R₂属性A上的差，M_j(C)表示中第j个最邻近样本。

优选地，所述步骤S1中，数据离散化处理采集高斯分布进行分割，具体流程如下：

A、随机选择数据集中的一列属性A；

B、按照训练集将属性A分为A₁、A₂、A₃；

C、假设A₁、A₂、A₃数据都服从高斯分布，计算其均值μ₁、μ₂、μ₃和方差根据均值和方差得到其概率密度函数：

D、计算相邻的两组数据，A₁、A₂、A₃的概率密度函数的交点对应的具体数值即为分割点；

E、利用焦点对特征属性列中的元素值进行分类，相同的类别取同一值，即连续数据离散化。

优选地，所述步骤S3中，计算各类的先验概率和类条件概率采用拉普拉斯方法，具体计算公式如下：

其中，Yya是训练集中类别y_i且属性x取值为x_j的例子总数，Yy是类别为y_i的总数，N是属性x所有的可能取值个数。

本发明具有以下有益效果：

本发明通过属性加权的方式有效的弱化了朴素贝叶斯分类模型的条件独立性假设，并且通过斯皮尔曼系数剔除了冗余属性，改进模型明显的提高了朴素贝叶斯模型的准确性和效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于属性加权的朴素贝叶斯分类模型改进方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明为一种基于属性加权的朴素贝叶斯分类模型改进方法，包括如下步骤：

步骤S41、计算平均置信度W1；

步骤S42、计算关联度得分ReliefF系数W2；

步骤S43、根据W1和W2计算新的加权系数W；

首先，原始的贝叶斯公式为：

设X＝{a₁，a₂，a₃，...，a_m}为一个待分类项，而每个a为x的一个特征属性，有类别集合C＝{y₁，y₂，y₃，...，y_n}；计算P(y₁|x)，P(y₂|x)，...，P(y_n|x)，根据公式(1)假设各特征属性是条件独立的，则得到：

如果：

P(y_k|x)P(y_i)＝max{P(y₁|x)，P(y₂|x)，...，P(y_n|x)}，则x∈y_k；

其中，步骤S41中，具体的平均置信度属性加权过程如下：

B、分别对三个类别找到三个类调节概率最大的值，即找到最大的条件概率分别为P(A_i|y₁)、P(A_j|y₂)、P(A_k|y₃)，其中的i、j、k的值必须互不相同，如果出现重复，表明A的属性类别与分类效果的联系程度偏低，表明此系数不是一个好的属性，将其删除；

其中，步骤S42中，具体的ReliefF算法加权过程如下：

每次从训练样本集中随机抽取一个样本R，然后从和R同类的样本集中找出R的k个近邻样本(near Hits)，从每个R的不同类的样本集中据找出k个邻近样本(near Misses)，然后更新每个特征的权重，计算公式如下：

(7)式中，diff(A，R₁，R₂)表示样本在R₁和R₂属性A上的差，M_j(C)表示中第j个最邻近样本；

该方法的主要思想式将属性的关联度得分作为属性的权值，计算方式如下所示：

(8)式中，Re(i)代表的是代表属性变量A_i的关联度得分；为了同时考虑到平均置信度加权系数和关联度得分加权系数，本发明定义了一种新的属性加权计算方式为：

(9)式中，w₁代表的式平均置信度加权系数，w₂代表的式关联度得分加权系数；

对于(2)式中的计算需要样本中的m个属性相互独立，但是实际的应用过程中这个是很难满足条件的，即事物之间必定存在某种普遍的联系，不可能达到真正的相互独立，为了弱化他们之间的联系，可以先将属性间关系较强的属性融合为一列属性，再通过对(2)式中的因子进行加权得到新的公式：

其中，步骤S1中，数据离散化处理采集高斯分布进行分割，基于高斯分布进行离散化的方法是建立在连续变量服从某种概率分布的假设的基础上的，因为高斯分布往往被用于表示连续属性的类条件概率分布，所以此处直接采用高斯分布进行分割，离散化的核心在于求取分割点，本发明的分割点是通过对同一属性下相邻的2个高斯分布进行交点求取得到的。以属性A为例具体流程如下：

A、随机选择数据集中的一列属性A；

B、按照训练集将属性A分为A₁、A₂、A₃；

其中，步骤S2中，计算任意属性组合的斯皮尔曼系数，对于相关性大的组合进行属性融合，更新数据集；在统计学中，斯皮尔曼系数用来衡量两变量之间的相关性强度，可以通过单调函数的形式来表示变量间的相关性；其计算方式为：

其中，D为两列变量成对分数的等级差数，N为等级个数或成对的数据个数；计算的过程是：先对两变量的数据进行逆序排序，记录排序后的位置，该位置的值为秩次，然后计算两者之间的差值即为D，最后带入(3)式中得到相关性系数。

设D＝R_x-R_y，则：

通过(3)式计算任意两列属性的斯皮尔曼相关性系数ρ_xy，其取值在-1到1之间。当ρ_xy＝0时，称X，Y不相关；当|ρ_xy|＝1时，称X，Y完全相关，此时，X，Y之间具有线性函数关系；当|ρ_xy|＜1时，X的变动引起Y的部分变动，|ρ_xy|值越大，相关性越高。

通过计算属性的相关性系数，设定某个阈值，若大于阈值，则合并两列属性，达到降维的目的；若小于或者等于阈值，则不合并属性；若出现多组数据都大于阈值，则选取最大的一组。得到属性组后，将两列属性融合成为新的属性，并更新原有的数据集，得到新的训练集

其中，步骤S3中，为了避免零概率和过度拟合问题的出现，需要对先验概率公式进行改进，计算各类的先验概率和类条件概率采用拉普拉斯方法，公式(2)中的P(a_j|y_i)具体计算公式如下：

其中，Yya是训练集中类别y_i且属性x取值为x_j的例子总数，Yy是类别为y_i的总数，N是属性x所有的可能取值个数，最后根据公式(1)算出先验概率和类条件概率。

本实施例的一个具体应用为：

为验证该发明的朴素贝叶斯分类模型改进方法，通过大量实验进行实际测试证实该方法真实有效；本次测试采用数据是UCI Machine Learning Repository中BalanceScale数据集中的部分数据，训练集数据一共包括了20条，测试集数据与训练集数据相同。

具体数据如表1：

表1为训练数据集

S1、本数据集的数据类型为离散型，所以不需要进行数据离散化；

S2、根据斯皮尔曼系数的计算公式(即公式3)计算出每组的相关系数，可得到表3，取最大的值为待处理的数据，具体的数据见下表2。

表2为计算出的每组相关系数

S3、得到相关性最大的组后，从表中可以得到最大的组合是第3列和第4列，且相关性系数为0.829，对两列数据进行融合，达到剔除冗余属性的目的，得到新的数据集。

S4、数据融合完成后得到新的训练集数据，计算平均置信度得分和ReliefF系数得到加权系数，具体的加权系数如表3所示：

表3为加权系数表

S5、通过朴素贝叶斯公式(即公式1)进行模型训练，得到基于属性加权朴素贝叶斯分类改进模型。

S6、用测试集数据对模型进行检验与验证，具体结果见表4。

元数据类别	朴素贝叶斯模类别	改进模型类别
			R	R	R
L	B	B
			B	L	B
L	L	L
			L	L	L
L	L	L
			R	R	R
L	L	L
			L	L	L
L	L	L
			R	R	R
B	B	B
			R	R	R
R	L	R
			B	B	B
R	R	R
			L	L	L
L	L	L
			R	R	R
B	B	B

表4分类结果对比

由表格可以看出朴素贝叶斯分类的正确率为0.85，而改进后的基于属性加权的朴素贝叶斯算法的正确率为0.95，改进后的模型对于分类的正确率有较大的提升。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于属性加权的朴素贝叶斯分类模型改进方法，其特征在于，包括如下步骤：

步骤S41、计算平均置信度W1；

步骤S42、计算关联度得分ReliefF系数W2；

步骤S43、根据W1和W2计算新的加权系数W；

其中，步骤S41中，具体的平均置信度属性加权过程如下：

其中，步骤S42中，具体的ReliefF算法加权过程如下：

2.根据权利要求1所述的一种基于属性加权的朴素贝叶斯分类模型改进方法，其特征在于，所述步骤S1中，数据离散化处理采集高斯分布进行分割，具体流程如下：

A、随机选择数据集中的一列属性A；

B、按照训练集将属性A分为A₁、A₂、A₃；

3.根据权利要求1所述的一种基于属性加权的朴素贝叶斯分类模型改进方法，其特征在于，所述步骤S3中，计算各类的先验概率和类条件概率采用拉普拉斯方法，具体计算公式如下：