CN102194145A

CN102194145A - 一种自主融合先验知识的贝叶斯网络方法

Info

Publication number: CN102194145A
Application number: CN2011101605328A
Authority: CN
Inventors: 韩志朋
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2011-06-15
Filing date: 2011-06-15
Publication date: 2011-09-21

Abstract

本发明公开了一种自主融合先验知识的贝叶斯网络方法，涉及贝叶斯网络领域，本发明起始于朴素贝叶斯网络，自主生成一个随机节点序，在贝叶斯网络构建过程中另附加有其它约束条件，即“有条件的随机”；通过删除部分不需要的边，能够在一定程度上降低贝叶斯网络的结构复杂性；本发明采用多次运行的方式，根据不同的随机节点序构建多个贝叶斯网络，并从中选择与数据拟合程度最好的一个作为最终的贝叶斯网络模型，本发明提高了贝叶斯网络方法对先验知识的融合效率，满足了实际应用中的需要。

Description

一种自主融合先验知识的贝叶斯网络方法

技术领域

本发明涉及知识发现中的贝叶斯网络领域，特别涉及一种自主融合先验知识的贝叶斯网络方法。

背景技术

贝叶斯网络是一种描述变量之间不确定性关系的图形化表示，由结构模型和条件概率分布两部分构成：结构模型是一个DAG(Directed Acyclic Graph，有向无环图)，图中的节点表示随机变量，是对过程、事件和状态等实体某一特征的描述，图中的边则表示该边连接的两个变量之间具有直接的条件依赖关系。而这种依赖的程度则是由附在每个节点上的概率分布来描述的，其中，根节点X所附的是它的边缘概率分布P(X)，而非根节点X所附的是条件概率分布P(X|(X))。一个完整的贝叶斯网络如图1所示，根据定义，一个n元变量的贝叶斯网络可以形式化的描述为B＝(Bs，Bp)，Bs＝(X，E)为结构模型，X＝(x1，......xn)为节点集，E为有向边的集合。Bp为条件概率分布的集合，当各节点取离散值时，Bp为一组CPT(Conditional Probability Table，条件概率表)。可以从定性和定量两个层面来理解贝叶斯网络。在定性层面，它用一个有向无环图描述了不同变量之间的依赖和独立关系。在定量层面，它使用条件概率分布刻画了变量对其父节点的依赖程度强弱。在语义上，贝叶斯网络是联合概率分布的一种分解表示。具体地讲，假设网络中的变量为X1，...，Xn，那么把各变量所附的概率分布相乘就得到联合分布，即

p (X_{1}, . . ., X_{i}) = Π_{i = 1}^{n} P (X_{i} | (X_{i})) .

作为分析数据的一种方法，贝叶斯网络能够直观地显示和反映数据中各变量属性直接的依赖关系。所谓贝叶斯网络学习(Bayesian Network learning)即是通过数据分析获得贝叶斯网络的过程。因而贝叶斯网络的学习也就是找出一个能够真实地反映现有数据间关系的模型。当数据的属性字段变多时，网络的结构成倍增加，不可能对所有的网络结构进行计算，因此必须在现有的知识下进行网络选择，这在很大程度上依赖于专家知识。

K2方法是由Cooper和Herskovits于1991年提出的贝叶斯网络学习方法，K2方法所产生的贝叶斯网络对初始节点顺序的依赖非常大，根据不同的节点顺序完全可以构造出不同的网络，所花费的时间和空间自然也不同。因此，根据先验知识获得初始节点顺序对K2方法有着举足轻重的影响。

但是，由于缺乏医学方面的专业背景和持续的专家指导，本发明实施例所掌握的先验知识十分有限，对于个变量的节点集可供选择的先验知识节点序接近n！种。如果直接使用K2方法，通过穷举法产生节点序来构造贝叶斯网络，在时间上无法满足本发明实施例的需要。而如何从n！个组合中选出一个与数据最吻合的节点序，根据目前掌握的先验知识，在技术上是难以实现的。

发明人在实现本发明的过程中发现，现有技术中至少存在以下缺点：

现有的贝叶斯网络方法对先验知识的融合效率低下，不能很好的满足实际应用中的需要。

发明内容

为了提高贝叶斯网络方法对先验知识的融合效率，本发明提供了一种自主融合先验知识的贝叶斯网络方法，详见下文描述：

一种自主融合先验知识的贝叶斯网络方法，所述方法包括以下步骤：

(1)从领域专家获取先验知识，将所述先验知识转化为规则格式，同时将所述规则格式转化为m阶方阵，将所述m阶方阵存储到先验知识表中；

(2)初始化当前贝叶斯网络评分为0，对m个节点进行随机排序得到一个随机序例ρ；

(3)对m个节点中每个节点X_j的父节点数量设置一个阈值μ，初始化当前贝叶斯网络为一个空图；

(4)获取所述随机序列ρ中任一节点X_j的父节点集合π_j，获取所述随机序列ρ中在X_j之前，且不是X_j的父节点的变量X_i；

(5)判断是否|π_j|＜μ，如果是，执行步骤(6)；如果否，执行步骤(4)；

(6)在所述先验知识表中查找X_i和X_j之间是否一定不可以有边，如果是，执行步骤(7)；如果否，执行步骤(8)；

(7)直接舍弃X_i和X_j之间的边；

(8)根据所述X_i和X_j之间的边获取新的贝叶斯网络及其新的贝叶斯网络评分，判断所述新的贝叶斯网络评分是否大于所述当前贝叶斯网络评分，如果是，将所述新的贝叶斯网络作为所述当前贝叶斯网络，当所述随机序列ρ中所有节点执行完毕，返回所述当前贝叶斯网络，作为最终贝叶斯网络模型，流程结束；如果否，重新执行步骤(4)。

本发明提供的技术方案的有益效果是：

本发明提供了一种自主融合先验知识的贝叶斯网络方法，和K2方法相比本

发明具有以下的有益效果：

1、K2方法起始于一个空图，需要通过计算来确定根节点与其他所有非根节点之间是否有边，难以保证最终获得的贝叶斯网络是一个完整的图形结构，容易出现与其他所有节点均无依赖关系的孤立节点；本发明起始于朴素贝叶斯网络，无需计算根节点与非根节点之间的边，减少了计算量，同时确保了贝叶斯网络的结构完整性，不存在孤立节点；

2、K2方法要求在开始前明确知道节点的排序，要求研究人员针对问题域掌握非常丰富的先验知识；本发明在开始后自主生成一个随机节点序，实现较简单，不要求先验知识，但是这种随机并不是完全的随机，在贝叶斯网络构建过程中另附加有其它约束条件，即“有条件的随机”；

3、先验知识是否充足对K2方法具有极大的影响，但对本发明的影响较小，本发明掌握的先验知识还不足以明确某一个节点能否成为另一个节点的父节点，但结合研究的需要可以确定哪一些节点之间不可以是父子关系，例如：出院科别outSection与主治医师docCharge属性，在医院中每一个医生都隶属于某一个科室，而每个科室都有自己科别的医生，二者之间存在着必然的关系，从使用K2方法构建的贝叶斯网络中亦能体现出该点，但这种显而易见的联系并不是本发明所需要的；同时，由于此类关系出现频率较大，在贝叶斯网络构建过程中能够获得更高的评分，使得其他潜在关系被舍弃，而这些潜在关系极大的可能与医疗质量有关，因此通过删除部分不需要的边，能够在一定程度上降低贝叶斯网络的结构复杂性；

4、本发明采用“有条件的随机”方式利用先验知识，虽然有一定的优势，但一次随机节点序并不能完全反映出数据之间可能的因果关系。为了弥补这一缺憾，本发明采用多次运行的方式，根据不同的随机节点序构建多个贝叶斯网络，并从中选择与数据拟合程度最好的一个作为最终的贝叶斯网络模型。

附图说明

图1为本发明提供的一种自主融合先验知识的贝叶斯网络方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了提高贝叶斯网络方法对先验知识的融合效率，本发明实施例提供了一种自主融合先验知识的贝叶斯网络方法，参见图1，详见下文描述：

常见的两种表示领域知识拓扑结构的方法：规则格式和矩阵格式。对于领域知识来说规则格式能够很好的从领域专家获得，然后再将这些规则格式转换为矩阵格式，使之能够更容易的转化为网络拓扑结构。

贝叶斯网络学习是找出一个能够最真实地反映现有数据中各个数据变量之间依赖关系的贝叶斯网络模型。因而，提高贝叶斯网络方法的效率要求能够根据一定的先验知识有指导的构建贝叶斯网络模型。

本发明实施例选择采用“有条件的随机”方式获得先验知识节点序，本发明实施例提出了一种自主融合先验知识的贝叶斯网络方法，该方法更适合进行医疗数据挖掘，详见下文描述：

101：从领域专家获取先验知识，将先验知识转化为规则格式，同时将规则格式转化为m阶方阵，将m阶方阵存储到先验知识表中；

例如：选择的数据是病案首页，则从相关的医院中找医院中的专家提供先验知识，具体实现时，本发明实施例对此不做限制。

102：初始化当前贝叶斯网络的评分为0，对m个节点进行随机排序得到一个随机序例ρ；

103：对m个节点中每个节点X_j的父节点的数量设置一个阈值μ，初始化贝叶斯网络为一个空图；

104：获取随机序列ρ中任一节点X_j的父节点集合π_j，获取随机序列ρ中在X_j之前，且不是X_j的父节点的变量X_i；

105：判断是否|π_j|＜μ，如果是，执行步骤106；如果否，执行步骤104；

106：在先验知识表中查找X_i和X_j之间是否一定不可以有边，如果是，执行步骤107；如果否，执行步骤108；

107：直接舍弃X_i和X_j之间的边；

108：根据X_i和X_j之间的边获取新的贝叶斯网络及其新的贝叶斯网络评分，判断新的贝叶斯网络评分是否大于当前贝叶斯网络评分，如果是，将新的贝叶斯网络作为当前贝叶斯网络，当随机序列ρ中所有节点执行完毕，返回当前贝叶斯网络，作为最终贝叶斯网络模型，流程结束；如果否，重新执行步骤104。

下面以一个简单的试验来验证本发明实施例提供的一种自主融合先验知识的贝叶斯网络方法的可行性，详见下文描述：

选择的数据是病案首页，数据属性包括如下字段：出院科别、病人性别、病人家庭地区和icd10(病症编码)。

对于上面的数据，从领域专家可得到病人的性别与病人的家庭地区之间的关系不是想得到的关系，因此可以很方便在m阶方阵中设置Notparentchild(病人性别，病人家庭地区)和NotParentChild(病人家庭地区，病人性别)的值为1禁止病人性别和病人家庭地区中出院关联的边。

通过上述试验，避免了融合先验知识的繁琐，本发明实施例提供的方法可以将计算过程复杂度由4阶缩短为3阶，满足了实际应用中的需要。

综上所述，本发明实施例提供了一种自主融合先验知识的贝叶斯网络方法，本发明实施例起始于朴素贝叶斯网络，无需计算根节点与非根节点之间的边，减少了计算量，同时确保了贝叶斯网络的结构完整性，不存在孤立节点；本发明实施例自主生成一个随机节点序，实现较简单，不要求先验知识，但是这种随机并不是完全的随机，在贝叶斯网络构建过程中另附加有其它约束条件，即“有条件的随机”；本发明实施例通过删除部分不需要的边，能够在一定程度上降低贝叶斯网络的结构复杂性；本发明实施例采用多次运行的方式，根据不同的随机节点序构建多个贝叶斯网络，并从中选择与数据拟合程度最好的一个作为最终的贝叶斯网络模型。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自主融合先验知识的贝叶斯网络方法，其特征在于，所述方法包括以下步骤：

(7)直接舍弃X_i和X_j之间的边；