CN108615056A

CN108615056A - 一种基于可分解评分函数的树增强朴素贝叶斯分类方法

Info

Publication number: CN108615056A
Application number: CN201810401959.4A
Authority: CN
Inventors: 桑笑楠; 侯君; 李千目
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2018-10-02

Abstract

本发明公开了一种基于可分解评分函数的树增强朴素贝叶斯分类方法。该方法为：构建分类网络时，在树增强朴素贝叶斯的结构基础上，允许每个属性结点没有父结点或只有一个父结点；首先采用低阶CI测试初步剔除无效属性结点，结合属性结点依赖关系，获得各个属性结点的候选父结点集合，过滤掉冗余属性父结点；然后利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找，构建最终的SETAN网络结构。本发明在进行数据分类时去除了冗余属性父结点，增强了分类模型的可靠性，降低了时间的复杂度，且提高了分类的准确率。

Description

一种基于可分解评分函数的树增强朴素贝叶斯分类方法

技术领域

本发明涉及朴素贝叶斯的分类方法技术领域，特别是一种基于可分解评分函数的树增强朴素贝叶斯分类方法。

背景技术

分类是一种常见的监督学习方法，其目标是在训练集上建立分类模型，从而为测试集实例指定合适的类别。贝叶斯网络表达了一种因果关系，它用图模型理论和统计学知识来表示属性之间的概率。在贝叶斯网络中，分类是根据类别的先验分布计算后验概率，从而选择最可能的类。朴素贝叶斯(NB)分类器是一种简单有效的贝叶斯网络，但由于其属性变量之间存在条件独立性假设，分类精度不佳。而树增强朴素贝叶斯(TAN)允许属性结点最多只能依赖于一个非类结点，综合性能良好，是学习效率与分类精度之间的一种折衷。

目前关于TAN分类器的研究通常从构建合适的贝叶斯网络着手，这类低阶或受限的贝叶斯分类模型既避免了由高维计算导致的不稳定性，同时也增强了网络结构中属性之间的因果关系。

发明内容

本发明的目的在于提供一种基于可分解评分函数的树增强朴素贝叶斯分类方法，以增强分类模型的可靠性，降低时间的复杂度，提高分类的准确率。

解决本发明目的的技术解决方案为：一种基于可分解评分函数的树增强朴素贝叶斯分类方法，所述步骤包括：

步骤1，在树增强朴素贝叶斯的结构基础上，允许每个属性结点没有父结点或只有一个父结点；

步骤2，采用低阶CI测试去除无效属性结点，结合属性结点依赖关系，获得各个属性结点的候选父结点集合，过滤掉冗余属性父结点，减小候选属性父结点集的搜索空间；

步骤3，利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找，构建最终的SETAN网络结构图。

进一步地，步骤1所述在树增强朴素贝叶斯的结构基础上，允许每个属性结点没有父结点或只有一个父结点，具体包括：

(1)只有类父结点C；

(2)具有类父结点C和一个属性父结点；

(3)只有一个属性父结点；

(4)没有父结点。

进一步地，步骤2所述采用低阶CI测试去除无效属性结点，具体如下：

步骤2.1、CI测试：

由香农的信息论可知，两个随机变量X_i和X_j之间的互信息为：

其中，H(X_i)为随机变量X_i的熵，即随机变量X_i的平均不确定度的度量；H(X_i|X_j)为随机变量X_i和X_j的条件熵；P(X_i)、P(X_j)分别为随机变量X_i和X_j的概率密度函数；P(X_i,X_j)为随机变量X_i和X_j的联合概率密度函数；

给定条件X_k时，随机变量X_i和X_j的条件互信息为：

当I(X_i,X_j|X_k)＝0或小于阈值ε时，随机变量X_i和X_j在给定X_k时条件独立；

使用条件互信息来进行随机变量的条件独立性测试，即CI测试，其中||X_k||为CI测试的阶数，若则为0阶CI测试；若|X_k|＝1，即X_k中元素的数量为1时，则为1阶CI测试，以此类推；

步骤2.2、采用低阶CI测试去除无效结点：

由于SETAN结构中各个属性结点X_i和类结点C的相关性不同，所以先对类结点和属性结点进行低阶CI测试，符合1阶CI测试的属性结点，能将类结点作为候选父结点；

然后再结合评分函数进一步判断是否能将属性结点作为候选父结点：仅符合0阶CI测试的属性结点，不能将类结点作为候选父结点，且最多只能将一个属性结点作为候选父结点；都不符合的属性结点为冗余结点。

进一步地，步骤3所述利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找，具体如下：

步骤3.1、BDeu评分函数：

BDeu评分为基于Bayesian Dirichlet先验分布的贝叶斯评分准则，在计算过程中无需事先获得属性结点顺序，给定完整训练集D＝{X₁,X₂,…,X_n}，评分函数Score_D如下式所示：

Score_D(G)＝log(p(G)∫p(D|G,ξ)p(ξ|G)dξ)

其中，G是属性结点集合X上的任意一组有向无环图，ξ是给定贝叶斯网络G时的先验值参数；p(G)是图G中属性节点的概率分布；∫p(D|G,ξ)是在先验值参数和图G的条件下训练集D的先验概率；p(ξ|G)是在图G的条件下先验值参数的后验分布；

评分函数Score_D(G)满足可分解性和似然等价性，由可分解性可知，有向无环图G用局部属性结点来表示，即：

其中，n为局部属性节点的数量；X_i为第i个属性节点；Π_i为在最大权重跨度树中X_i的属性父结点；

步骤3.2、有向无环图：

当给定完整训练集D时，D＝{X₁,X₂,…,X_n}，探索最佳贝叶斯网络结构，即可得出可使评分函数最大化的有向无环图G，即：

G_max＝argmax_G∈Gx Score_D(G)

其中，Gx为所有有向无环图的集合；

步骤3.3、利用可分解的BDeu评分函数对局部最优有向无环图进行贪婪查找：

将经过CI测试后的有向无环图，使用BDeu评分函数贪婪查找下一个局部有向无环图G，从而得到最终的有向无环图G_SETAN，公式为：

其中，Π_i,Π_j分别是符合不同CI测试的属性结点的父结点集，k₁是符合1阶CI测试的属性结点个数，k₂是符合0阶CI测试的属性结点个数，所以k₁+k₂≤N，N为图G中的节点个数；

因此，对于概率分布P(X₁,X₂,…,X_n,C)，SETAN分类器的表示形式为：

其中h取0或1；C(x1,…,xn)表示类结点；P(C)表示类父结点集的分布；是SETAN结构中属性X_i的h阶父结点集，而且有G_S表示在C约束下X₁,X₂,…,X_n的最大权重跨度树。

发明与现有技术相比，其显著优点为：(1)在进行数据分类时去除了冗余属性父结点，增强了分类模型的可靠性；(2)降低了时间的复杂度，且提高了分类的准确率。

附图说明

图1为本发明基于可分解评分函数的树增强朴素贝叶斯分类方法的流程图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

本发明基于可分解评分函数的树增强朴素贝叶斯分类方法，包括以下步骤：

作为一种具体示例，步骤1所述在树增强朴素贝叶斯的结构基础上，允许每个属性结点没有父结点或只有一个父结点，具体包括：

(1)只有类父结点C；

(2)具有类父结点C和一个属性父结点；

(3)只有一个属性父结点；

(4)没有父结点。

作为一种具体示例，步骤2所述采用低阶CI测试去除无效属性结点，具体如下：

步骤2.1、CI测试：

给定条件X_k时，随机变量X_i和X_j的条件互信息为：

步骤2.2、采用低阶CI测试去除无效结点：

作为一种具体示例，步骤3所述利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找，具体如下：

步骤3.1、BDeu评分函数：

Score_D(G)＝log(p(G)∫p(D|G,ξ)p(ξ|G)dξ)

其中，n为局部属性节点的数量；X_i为第i个属性节点；П_i为在最大权重跨度树中X_i的属性父结点；

步骤3.2、有向无环图：

G_max＝argmax_G∈Gx Score_D(G)

其中，Gx为所有有向无环图的集合；

其中，П_i,Π_j分别是符合不同CI测试的属性结点的父结点集，k₁是符合1阶CI测试的属性结点个数，k₂是符合0阶CI测试的属性结点个数，所以k₁+k₂≤N，N为图G中的节点个数；

表1

作为一种具体示例，步骤3所述的构建最终的SETAN网络结构图，具体如下：

输入：类结点C，N个结点变量集合X＝{X₁,X₂,…,X_n}，Score_D表示评分函数集合；S₁表示符合0阶、1阶CI测试的属性结点集合，S₂表示仅符合0阶CI测试的属性结点集合，ε为阈值；Parrents[X_i]表示X_i的当前父结点集合；Pa1表示仅有一个属性父结点的属性结点X_i的得分集合，Pa2表示同时拥有类父结点C和一个属性父结点X_j的属性结点X_i的得分集合；E表示属性结点与其父结点之间的全部有向边集合；SETAN网络结构图构建算法如表1所示。

SETAN分类器学习方法主要分为两个部分：

第一部分是类结点与各个属性结点之间的低阶CI测试。主要的计算耗时是1阶CI测试I(C；X_i|X_j)，复杂度是O(Nn²)，N是属性结点个数，n是数据集大小。

第二部分是构建SETAN网络结构，需要比较每个结点和其候选父结点集的连接得分，以此确定其父结点。时间复杂度是O(k₁ ²n²+k₁·k₂n²)，因为k₁+k₂≤N，所以ε取值为0.01～0.05，可知大多数属性结点可符合1阶CI测试，即k₂＜＜k₁。因此，当N＜＜n时，SETAN分类器最终可在O(n²)内完成，和TAN分类模型的时间复杂度相同。本发明相比于其它贝叶斯分类方法，分类准确率更高，分类效果更佳。

Claims

1.一种基于可分解评分函数的树增强朴素贝叶斯分类方法，其特征在于，所述步骤包括：

2.根据权利要求1所述的基于可分解评分函数的树增强朴素贝叶斯分类方法，其特征在于，步骤1所述在树增强朴素贝叶斯的结构基础上，允许每个属性结点没有父结点或只有一个父结点，具体包括：

(1)只有类父结点C；

(2)具有类父结点C和一个属性父结点；

(3)只有一个属性父结点；

(4)没有父结点。

3.根据权利要求1所述的基于可分解的评分函数的树增强朴素贝叶斯分类方法，其特征在于，步骤2所述采用低阶CI测试去除无效属性结点，具体如下：

步骤2.1、CI测试：

给定条件X_k时，随机变量X_i和X_j的条件互信息为：

步骤2.2、采用低阶CI测试去除无效结点：

4.根据权利要求1所述的基于可分解评分函数的树增强朴素贝叶斯分类方法，其特征在于，步骤3所述利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找，具体如下：

步骤3.1、BDeu评分函数：

Score_D(G)＝log(p(G)∫p(D|G,ξ)p(ξ|G)dξ)

步骤3.2、有向无环图：

其中，Gx为所有有向无环图的集合；