CN108615056A - 一种基于可分解评分函数的树增强朴素贝叶斯分类方法 - Google Patents
一种基于可分解评分函数的树增强朴素贝叶斯分类方法 Download PDFInfo
- Publication number
- CN108615056A CN108615056A CN201810401959.4A CN201810401959A CN108615056A CN 108615056 A CN108615056 A CN 108615056A CN 201810401959 A CN201810401959 A CN 201810401959A CN 108615056 A CN108615056 A CN 108615056A
- Authority
- CN
- China
- Prior art keywords
- node
- attribute
- tests
- father
- father node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于可分解评分函数的树增强朴素贝叶斯分类方法。该方法为:构建分类网络时,在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点;首先采用低阶CI测试初步剔除无效属性结点,结合属性结点依赖关系,获得各个属性结点的候选父结点集合,过滤掉冗余属性父结点;然后利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,构建最终的SETAN网络结构。本发明在进行数据分类时去除了冗余属性父结点,增强了分类模型的可靠性,降低了时间的复杂度,且提高了分类的准确率。
Description
技术领域
本发明涉及朴素贝叶斯的分类方法技术领域,特别是一种基于可分解评分函数的树增强朴素贝叶斯分类方法。
背景技术
分类是一种常见的监督学习方法,其目标是在训练集上建立分类模型,从而为测试集实例指定合适的类别。贝叶斯网络表达了一种因果关系,它用图模型理论和统计学知识来表示属性之间的概率。在贝叶斯网络中,分类是根据类别的先验分布计算后验概率,从而选择最可能的类。朴素贝叶斯(NB)分类器是一种简单有效的贝叶斯网络,但由于其属性变量之间存在条件独立性假设,分类精度不佳。而树增强朴素贝叶斯(TAN)允许属性结点最多只能依赖于一个非类结点,综合性能良好,是学习效率与分类精度之间的一种折衷。
目前关于TAN分类器的研究通常从构建合适的贝叶斯网络着手,这类低阶或受限的贝叶斯分类模型既避免了由高维计算导致的不稳定性,同时也增强了网络结构中属性之间的因果关系。
发明内容
本发明的目的在于提供一种基于可分解评分函数的树增强朴素贝叶斯分类方法,以增强分类模型的可靠性,降低时间的复杂度,提高分类的准确率。
解决本发明目的的技术解决方案为:一种基于可分解评分函数的树增强朴素贝叶斯分类方法,所述步骤包括:
步骤1,在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点;
步骤2,采用低阶CI测试去除无效属性结点,结合属性结点依赖关系,获得各个属性结点的候选父结点集合,过滤掉冗余属性父结点,减小候选属性父结点集的搜索空间;
步骤3,利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,构建最终的SETAN网络结构图。
进一步地,步骤1所述在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点,具体包括:
(1)只有类父结点C;
(2)具有类父结点C和一个属性父结点;
(3)只有一个属性父结点;
(4)没有父结点。
进一步地,步骤2所述采用低阶CI测试去除无效属性结点,具体如下:
步骤2.1、CI测试:
由香农的信息论可知,两个随机变量Xi和Xj之间的互信息为:
其中,H(Xi)为随机变量Xi的熵,即随机变量Xi的平均不确定度的度量;H(Xi|Xj)为随机变量Xi和Xj的条件熵;P(Xi)、P(Xj)分别为随机变量Xi和Xj的概率密度函数;P(Xi,Xj)为随机变量Xi和Xj的联合概率密度函数;
给定条件Xk时,随机变量Xi和Xj的条件互信息为:
当I(Xi,Xj|Xk)=0或小于阈值ε时,随机变量Xi和Xj在给定Xk时条件独立;
使用条件互信息来进行随机变量的条件独立性测试,即CI测试,其中||Xk||为CI测试的阶数,若则为0阶CI测试;若|Xk|=1,即Xk中元素的数量为1时,则为1阶CI测试,以此类推;
步骤2.2、采用低阶CI测试去除无效结点:
由于SETAN结构中各个属性结点Xi和类结点C的相关性不同,所以先对类结点和属性结点进行低阶CI测试,符合1阶CI测试的属性结点,能将类结点作为候选父结点;
然后再结合评分函数进一步判断是否能将属性结点作为候选父结点:仅符合0阶CI测试的属性结点,不能将类结点作为候选父结点,且最多只能将一个属性结点作为候选父结点;都不符合的属性结点为冗余结点。
进一步地,步骤3所述利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,具体如下:
步骤3.1、BDeu评分函数:
BDeu评分为基于Bayesian Dirichlet先验分布的贝叶斯评分准则,在计算过程中无需事先获得属性结点顺序,给定完整训练集D={X1,X2,…,Xn},评分函数ScoreD如下式所示:
ScoreD(G)=log(p(G)∫p(D|G,ξ)p(ξ|G)dξ)
其中,G是属性结点集合X上的任意一组有向无环图,ξ是给定贝叶斯网络G时的先验值参数;p(G)是图G中属性节点的概率分布;∫p(D|G,ξ)是在先验值参数和图G的条件下训练集D的先验概率;p(ξ|G)是在图G的条件下先验值参数的后验分布;
评分函数ScoreD(G)满足可分解性和似然等价性,由可分解性可知,有向无环图G用局部属性结点来表示,即:
其中,n为局部属性节点的数量;Xi为第i个属性节点;Πi为在最大权重跨度树中Xi的属性父结点;
步骤3.2、有向无环图:
当给定完整训练集D时,D={X1,X2,…,Xn},探索最佳贝叶斯网络结构,即可得出可使评分函数最大化的有向无环图G,即:
Gmax=argmaxG∈Gx ScoreD(G)
其中,Gx为所有有向无环图的集合;
步骤3.3、利用可分解的BDeu评分函数对局部最优有向无环图进行贪婪查找:
将经过CI测试后的有向无环图,使用BDeu评分函数贪婪查找下一个局部有向无环图G,从而得到最终的有向无环图GSETAN,公式为:
其中,Πi,Πj分别是符合不同CI测试的属性结点的父结点集,k1是符合1阶CI测试的属性结点个数,k2是符合0阶CI测试的属性结点个数,所以k1+k2≤N,N为图G中的节点个数;
因此,对于概率分布P(X1,X2,…,Xn,C),SETAN分类器的表示形式为:
其中h取0或1;C(x1,…,xn)表示类结点;P(C)表示类父结点集的分布;是SETAN结构中属性Xi的h阶父结点集,而且有GS表示在C约束下X1,X2,…,Xn的最大权重跨度树。
发明与现有技术相比,其显著优点为:(1)在进行数据分类时去除了冗余属性父结点,增强了分类模型的可靠性;(2)降低了时间的复杂度,且提高了分类的准确率。
附图说明
图1为本发明基于可分解评分函数的树增强朴素贝叶斯分类方法的流程图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本发明基于可分解评分函数的树增强朴素贝叶斯分类方法,包括以下步骤:
步骤1,在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点;
步骤2,采用低阶CI测试去除无效属性结点,结合属性结点依赖关系,获得各个属性结点的候选父结点集合,过滤掉冗余属性父结点,减小候选属性父结点集的搜索空间;
步骤3,利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,构建最终的SETAN网络结构图。
作为一种具体示例,步骤1所述在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点,具体包括:
(1)只有类父结点C;
(2)具有类父结点C和一个属性父结点;
(3)只有一个属性父结点;
(4)没有父结点。
作为一种具体示例,步骤2所述采用低阶CI测试去除无效属性结点,具体如下:
步骤2.1、CI测试:
由香农的信息论可知,两个随机变量Xi和Xj之间的互信息为:
其中,H(Xi)为随机变量Xi的熵,即随机变量Xi的平均不确定度的度量;H(Xi|Xj)为随机变量Xi和Xj的条件熵;P(Xi)、P(Xj)分别为随机变量Xi和Xj的概率密度函数;P(Xi,Xj)为随机变量Xi和Xj的联合概率密度函数;
给定条件Xk时,随机变量Xi和Xj的条件互信息为:
当I(Xi,Xj|Xk)=0或小于阈值ε时,随机变量Xi和Xj在给定Xk时条件独立;
使用条件互信息来进行随机变量的条件独立性测试,即CI测试,其中||Xk||为CI测试的阶数,若则为0阶CI测试;若|Xk|=1,即Xk中元素的数量为1时,则为1阶CI测试,以此类推;
步骤2.2、采用低阶CI测试去除无效结点:
由于SETAN结构中各个属性结点Xi和类结点C的相关性不同,所以先对类结点和属性结点进行低阶CI测试,符合1阶CI测试的属性结点,能将类结点作为候选父结点;
然后再结合评分函数进一步判断是否能将属性结点作为候选父结点:仅符合0阶CI测试的属性结点,不能将类结点作为候选父结点,且最多只能将一个属性结点作为候选父结点;都不符合的属性结点为冗余结点。
作为一种具体示例,步骤3所述利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,具体如下:
步骤3.1、BDeu评分函数:
BDeu评分为基于Bayesian Dirichlet先验分布的贝叶斯评分准则,在计算过程中无需事先获得属性结点顺序,给定完整训练集D={X1,X2,…,Xn},评分函数ScoreD如下式所示:
ScoreD(G)=log(p(G)∫p(D|G,ξ)p(ξ|G)dξ)
其中,G是属性结点集合X上的任意一组有向无环图,ξ是给定贝叶斯网络G时的先验值参数;p(G)是图G中属性节点的概率分布;∫p(D|G,ξ)是在先验值参数和图G的条件下训练集D的先验概率;p(ξ|G)是在图G的条件下先验值参数的后验分布;
评分函数ScoreD(G)满足可分解性和似然等价性,由可分解性可知,有向无环图G用局部属性结点来表示,即:
其中,n为局部属性节点的数量;Xi为第i个属性节点;Пi为在最大权重跨度树中Xi的属性父结点;
步骤3.2、有向无环图:
当给定完整训练集D时,D={X1,X2,…,Xn},探索最佳贝叶斯网络结构,即可得出可使评分函数最大化的有向无环图G,即:
Gmax=argmaxG∈Gx ScoreD(G)
其中,Gx为所有有向无环图的集合;
步骤3.3、利用可分解的BDeu评分函数对局部最优有向无环图进行贪婪查找:
将经过CI测试后的有向无环图,使用BDeu评分函数贪婪查找下一个局部有向无环图G,从而得到最终的有向无环图GSETAN,公式为:
其中,Пi,Πj分别是符合不同CI测试的属性结点的父结点集,k1是符合1阶CI测试的属性结点个数,k2是符合0阶CI测试的属性结点个数,所以k1+k2≤N,N为图G中的节点个数;
因此,对于概率分布P(X1,X2,…,Xn,C),SETAN分类器的表示形式为:
其中h取0或1;C(x1,…,xn)表示类结点;P(C)表示类父结点集的分布;是SETAN结构中属性Xi的h阶父结点集,而且有GS表示在C约束下X1,X2,…,Xn的最大权重跨度树。
表1
作为一种具体示例,步骤3所述的构建最终的SETAN网络结构图,具体如下:
输入:类结点C,N个结点变量集合X={X1,X2,…,Xn},ScoreD表示评分函数集合;S1表示符合0阶、1阶CI测试的属性结点集合,S2表示仅符合0阶CI测试的属性结点集合,ε为阈值;Parrents[Xi]表示Xi的当前父结点集合;Pa1表示仅有一个属性父结点的属性结点Xi的得分集合,Pa2表示同时拥有类父结点C和一个属性父结点Xj的属性结点Xi的得分集合;E表示属性结点与其父结点之间的全部有向边集合;SETAN网络结构图构建算法如表1所示。
SETAN分类器学习方法主要分为两个部分:
第一部分是类结点与各个属性结点之间的低阶CI测试。主要的计算耗时是1阶CI测试I(C;Xi|Xj),复杂度是O(Nn2),N是属性结点个数,n是数据集大小。
第二部分是构建SETAN网络结构,需要比较每个结点和其候选父结点集的连接得分,以此确定其父结点。时间复杂度是O(k1 2n2+k1·k2n2),因为k1+k2≤N,所以ε取值为0.01~0.05,可知大多数属性结点可符合1阶CI测试,即k2<<k1。因此,当N<<n时,SETAN分类器最终可在O(n2)内完成,和TAN分类模型的时间复杂度相同。本发明相比于其它贝叶斯分类方法,分类准确率更高,分类效果更佳。
Claims (4)
1.一种基于可分解评分函数的树增强朴素贝叶斯分类方法,其特征在于,所述步骤包括:
步骤1,在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点;
步骤2,采用低阶CI测试去除无效属性结点,结合属性结点依赖关系,获得各个属性结点的候选父结点集合,过滤掉冗余属性父结点,减小候选属性父结点集的搜索空间;
步骤3,利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,构建最终的SETAN网络结构图。
2.根据权利要求1所述的基于可分解评分函数的树增强朴素贝叶斯分类方法,其特征在于,步骤1所述在树增强朴素贝叶斯的结构基础上,允许每个属性结点没有父结点或只有一个父结点,具体包括:
(1)只有类父结点C;
(2)具有类父结点C和一个属性父结点;
(3)只有一个属性父结点;
(4)没有父结点。
3.根据权利要求1所述的基于可分解的评分函数的树增强朴素贝叶斯分类方法,其特征在于,步骤2所述采用低阶CI测试去除无效属性结点,具体如下:
步骤2.1、CI测试:
由香农的信息论可知,两个随机变量Xi和Xj之间的互信息为:
其中,H(Xi)为随机变量Xi的熵,即随机变量Xi的平均不确定度的度量;H(Xi|Xj)为随机变量Xi和Xj的条件熵;P(Xi)、P(Xj)分别为随机变量Xi和Xj的概率密度函数;P(Xi,Xj)为随机变量Xi和Xj的联合概率密度函数;
给定条件Xk时,随机变量Xi和Xj的条件互信息为:
当I(Xi,Xj|Xk)=0或小于阈值ε时,随机变量Xi和Xj在给定Xk时条件独立;
使用条件互信息来进行随机变量的条件独立性测试,即CI测试,其中||Xk||为CI测试的阶数,若则为0阶CI测试;若|Xk|=1,即Xk中元素的数量为1时,则为1阶CI测试,以此类推;
步骤2.2、采用低阶CI测试去除无效结点:
由于SETAN结构中各个属性结点Xi和类结点C的相关性不同,所以先对类结点和属性结点进行低阶CI测试,符合1阶CI测试的属性结点,能将类结点作为候选父结点;
然后再结合评分函数进一步判断是否能将属性结点作为候选父结点:仅符合0阶CI测试的属性结点,不能将类结点作为候选父结点,且最多只能将一个属性结点作为候选父结点;都不符合的属性结点为冗余结点。
4.根据权利要求1所述的基于可分解评分函数的树增强朴素贝叶斯分类方法,其特征在于,步骤3所述利用可分解的BDeu评分函数对局部最优无环图进行贪婪查找,具体如下:
步骤3.1、BDeu评分函数:
BDeu评分为基于Bayesian Dirichlet先验分布的贝叶斯评分准则,在计算过程中无需事先获得属性结点顺序,给定完整训练集D={X1,X2,…,Xn},评分函数ScoreD如下式所示:
ScoreD(G)=log(p(G)∫p(D|G,ξ)p(ξ|G)dξ)
其中,G是属性结点集合X上的任意一组有向无环图,ξ是给定贝叶斯网络G时的先验值参数;p(G)是图G中属性节点的概率分布;∫p(D|G,ξ)是在先验值参数和图G的条件下训练集D的先验概率;p(ξ|G)是在图G的条件下先验值参数的后验分布;
评分函数ScoreD(G)满足可分解性和似然等价性,由可分解性可知,有向无环图G用局部属性结点来表示,即:
其中,n为局部属性节点的数量;Xi为第i个属性节点;Πi为在最大权重跨度树中Xi的属性父结点;
步骤3.2、有向无环图:
当给定完整训练集D时,D={X1,X2,…,Xn},探索最佳贝叶斯网络结构,即可得出可使评分函数最大化的有向无环图G,即:
其中,Gx为所有有向无环图的集合;
步骤3.3、利用可分解的BDeu评分函数对局部最优有向无环图进行贪婪查找:
将经过CI测试后的有向无环图,使用BDeu评分函数贪婪查找下一个局部有向无环图G,从而得到最终的有向无环图GSETAN,公式为:
其中,Πi,Πj分别是符合不同CI测试的属性结点的父结点集,k1是符合1阶CI测试的属性结点个数,k2是符合0阶CI测试的属性结点个数,所以k1+k2≤N,N为图G中的节点个数;
因此,对于概率分布P(X1,X2,…,Xn,C),SETAN分类器的表示形式为:
其中h取0或1;C(x1,…,xn)表示类结点;P(C)表示类父结点集的分布;是SETAN结构中属性Xi的h阶父结点集,而且有GS表示在C约束下X1,X2,…,Xn的最大权重跨度树。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810401959.4A CN108615056A (zh) | 2018-04-28 | 2018-04-28 | 一种基于可分解评分函数的树增强朴素贝叶斯分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810401959.4A CN108615056A (zh) | 2018-04-28 | 2018-04-28 | 一种基于可分解评分函数的树增强朴素贝叶斯分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108615056A true CN108615056A (zh) | 2018-10-02 |
Family
ID=63661350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810401959.4A Pending CN108615056A (zh) | 2018-04-28 | 2018-04-28 | 一种基于可分解评分函数的树增强朴素贝叶斯分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108615056A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801473A (zh) * | 2021-01-15 | 2021-05-14 | 北京城市系统工程研究中心 | 基于自然灾害链的灾害预测方法及系统 |
CN117853486A (zh) * | 2024-03-07 | 2024-04-09 | 云南省交通规划设计研究院股份有限公司 | 一种数据缺失条件下隧道工作面岩体质量自动化评价方法 |
-
2018
- 2018-04-28 CN CN201810401959.4A patent/CN108615056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801473A (zh) * | 2021-01-15 | 2021-05-14 | 北京城市系统工程研究中心 | 基于自然灾害链的灾害预测方法及系统 |
CN117853486A (zh) * | 2024-03-07 | 2024-04-09 | 云南省交通规划设计研究院股份有限公司 | 一种数据缺失条件下隧道工作面岩体质量自动化评价方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN110880019B (zh) | 通过无监督域适应训练目标域分类模型的方法 | |
WO2022116440A1 (zh) | 模型训练方法、装置和设备 | |
CN110232434A (zh) | 一种基于属性图优化的神经网络架构评估方法 | |
CN108319987A (zh) | 一种基于支持向量机的过滤-封装式组合流量特征选择方法 | |
CN106228389A (zh) | 基于随机森林算法的网络潜力用户挖掘方法及系统 | |
CN112685504B (zh) | 一种面向生产过程的分布式迁移图学习方法 | |
CN103166830A (zh) | 一种智能选择训练样本的垃圾邮件过滤系统和方法 | |
CN113505239B (zh) | 一种结合图注意力和属性聚类的实体对齐方法 | |
CN109919252A (zh) | 利用少数标注图像生成分类器的方法 | |
CN103473231A (zh) | 分类器构建方法和系统 | |
CN109255029A (zh) | 一种采用加权优化训练集增强自动Bug报告分配的方法 | |
CN108615056A (zh) | 一种基于可分解评分函数的树增强朴素贝叶斯分类方法 | |
CN116090757A (zh) | 一种情报保障体系能力需求满足度评估方法 | |
CN113935398B (zh) | 一种物联网环境下基于小样本学习的网络流量分类方法及系统 | |
CN108446712A (zh) | Odn网智能规划方法、装置及系统 | |
CN107451617A (zh) | 一种图转导半监督分类方法 | |
CN108470251B (zh) | 基于平均互信息的社区划分质量评价方法及系统 | |
CN114663245A (zh) | 一种跨社交网络身份匹配方法 | |
CN113239199B (zh) | 一种基于多方数据集的信用分类方法 | |
CN113783715A (zh) | 一种采用因果卷积神经网络的机会网络拓扑预测方法 | |
CN117787411A (zh) | 一种基于关系图的局部-全局时序知识图谱推理方法 | |
Suyal et al. | Performance evaluation of rough set based classification models to intrusion detection system | |
CN108304568A (zh) | 一种房地产公众预期大数据处理方法及系统 | |
CN110244216B (zh) | 基于云模型优化pnn的模拟电路故障诊断方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181002 |
|
RJ01 | Rejection of invention patent application after publication |