CN113449869A

CN113449869A - 一种易推理贝叶斯网络的学习方法

Info

Publication number: CN113449869A
Application number: CN202110157200.8A
Authority: CN
Inventors: 吴振旭; 余展鹏; 侯方丞杨; 孙晴晴; 朱允刚
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2021-09-28

Abstract

本发明属于机器学习技术领域，具体为一种易推理贝叶斯网络的学习方法，包括步骤1：为预训练，即初始化贝叶斯网络，利用训练数据判断两个节点之间的互信息值，通过互信息初始化贝叶斯网络；步骤2：为搜索，即在初始化的贝叶斯网络附近搜索与训练数据拟合程度更好的贝叶斯网络；步骤3：为寻找易推理的贝叶斯网络，即寻找一个推理效率高的贝叶斯网，其结构合理，通过对学习贝叶斯网络时的推理效率进行打分，变量序、变量消元和团树传播推理等进行分析与处理，构建新的评分函数，进而通过爬山法学习贝叶斯网络，从而构建出能在保证一定拟合程度的情况下的易推理的贝叶斯网络。为贝叶斯网络走向应用的过程中，满足实际需求。

Description

一种易推理贝叶斯网络的学习方法

技术领域

本发明涉及机器学习技术领域，具体为一种易推理贝叶斯网络的学习方法。

背景技术

贝叶斯网络是用来表示数据概率知识的模型,是以贝叶斯概率理论为基础的,是概率论与论相结合的产物。它可以获得数据集中各变量间的条件概率,判断变量间的因果关系。在许多现实的情况下,一些规则不能对数据进行全面描述。建立数据库完整的模型是比较困难的,而且所建立的模型也比较复杂。贝叶斯网络可以对规则进行补充,它的图形表示方式更容易理解。同时,它是一种数学模型,可以在不确定的情况下进行推理。但是随着贝叶斯网走向应用，由于评分函数的单一考虑与训练数据的吻合性，而忽视了学习出来的贝叶斯网络结构的推理效率，使得耗费了大量的资源学习所得的贝叶斯网络的推理效率低下，不能满足需求，所以如何在保证吻合度的情况下，使得学习所得的贝叶斯网络具有高效的推理效率就成为了关键。

发明内容

本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

本发明提供一种易推理贝叶斯网络的学习方法，可以根据影响贝叶斯网络推理效率的多个因素(属性)对贝叶斯网络的推理效率和与训练数据的拟合程度进行综合评价。

为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：

一种易推理贝叶斯网络的学习方法，其包括如下步骤：

步骤1：为预训练，即初始化贝叶斯网络，利用训练数据判断两个节点之间的互信息值，通过互信息初始化贝叶斯网络，训练数据为无缺省值的数据集，数据集提供的每一个数据项包含n个数据，分别对应n个节点的取值，每个节点的取值有多种情况，通过贝叶斯网络学习的过程中，首先要初始化贝叶斯网络，使用数据集两个节点之间的互信息来表达两个节点这间的相关性，当相关性达到一定程度时，就可以在贝叶斯网络中初始化边信息，遍历完任意两个n个节点中任意两个节点，初始化结束；

步骤2：为搜索，即在初始化的贝叶斯网络附近搜索与训练数据拟合程度更好的贝叶斯网络，寻找bic评分最高的贝叶斯网络，贝叶斯网络是具有n个节点的有向图，在对贝叶斯网络进行初始化之后，得到一个与训练数据初步拟合的贝叶斯网络，在这个贝叶斯网络的附近寻找与训练数据最拟合的贝叶斯网络结构；

步骤3：为寻找易推理的贝叶斯网络，即寻找一个推理效率高的贝叶斯网，在搜索到的贝叶斯网络附近搜索推理复杂度最低的贝叶斯网同时限制他的bic评分在一定的范围内，运用以上训练得到的贝叶斯网络集合，寻找一个在指定bic评分下的一个易推理的贝叶斯网络。

作为本发明所述的一种易推理贝叶斯网络的学习方法的一种优选方案，其中：步骤一包括：

步骤101：设定贝叶斯网络的节点数为n，训练数据有m组；

步骤102：初始化贝叶斯网络，计算任意两个节点之间的互信息，互信息公式：

通过上面的互信息公式，结合贝叶斯网络训练数据，得到每一个的节点的概率分布和任意两个节点这间的联合概率分布，计算得到两个节点的互信息Ⅰ(x,y)>0.1并且在两个节点这间加上边之后不会形成回路时在贝叶斯网络的这两个节点之间加上有向边

步骤103：遍历完贝叶斯网络的所有节点，结束。输出贝叶斯网络。

作为本发明所述的一种易推理贝叶斯网络的学习方法的一种优选方案，其中：步骤2包括：

步骤201：对最大bic评分进行初始化，最大bic评分为初始化贝叶斯网络的bic评分：

步骤202：依次寻找贝叶斯网络临界矩阵中的每个边，对贝叶斯网临界矩阵中的这条边进行加边、减边和转边的操作，然后对变化之后的贝叶斯网进行bic评分。对此贝叶斯网的bic评分与最大bic评分进行比较，得到较大评分的贝叶斯网络，并将更优的贝叶斯网络放入到贝叶斯网络集合当中，重复步骤202直至遍历完临界矩阵中所有的边节点后得到新的贝叶斯网络；

步骤203：循环遍历寻找最优的贝叶斯网络，判断步骤202得到的贝叶斯网络与步骤开始之前的贝叶斯网络是否相同，如果不相同，那么重复步骤202；学习得到贝叶斯网络，计算贝叶斯网络bic评分结果，利用costVE算法的和团树传播算法的时间复杂度分析得到贝叶斯网络推理效率评分结果。

作为本发明所述的一种易推理贝叶斯网络的学习方法的一种优选方案，其中：：步骤三包括：

步骤301：设定一个bic评分下界；

步骤302：遍历贝叶斯网络集合，寻找满足bic评分界限的贝叶斯网络；

步骤303：对于满足条件的贝叶斯网络，采用贝叶斯网络，对其采用变量消元算法的时间复杂度和团树传播算法的时间复杂度进行打分；

步骤304：遍历完所有的贝叶斯网络，选择其中时间复杂度最低的贝叶斯网。

与现有技术相比，本发明的有益效果是：本发明通过对学习贝叶斯网络时的推理效率进行打分，变量序、变量消元和团树传播推理等进行分析与处理，构建新的评分函数，进而通过爬山法学习贝叶斯网络，从而构建出能在保证一定拟合程度的情况下的易推理的贝叶斯网络。为贝叶斯网络走向应用的过程中，满足实际需求。

附图说明

为了更清楚地说明本发明实施方式的技术方案，下面将结合附图和详细实施方式对本发明进行详细说明，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明结构示意图；

图2为本发明团树构造算法结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施方式的限制。

实施例1

以ALARM网学习过程为例，选取bic评分、变量消元时间复杂度costVE、最小缺边算法变量序、最大势搜索变量序、MICS算法变量序、团树构造、团树传播算法、贝叶斯网复杂度等多个指标作为属性作为评分算法依据，训练得到目标贝叶斯网络。

第一部分的具体实现步骤如下：

ALARM包含37个节点，数据集一共有6001条训练数据，每条训练数据包含37个取值，每个取值对应与每一个节点，每个节点存在2-4种可能的取值情况。首先我们对于n个节点贝叶斯网络进行初始化的工作，按照一定的两者这间影响程度的大小来判断两者之间是否存在有向边。

步骤1：读入训练数据，构造一个具有n个节点同时不含任何有向边的邻接矩阵。

步骤2：构造有向边

为任意两个节点之间互信息公式，p(x)为x节点的边缘分布，p(y)为y节点的边缘概率分布,p(x,y)为x和y的联合概率分布。

判断x于y两个节点之间是否具有有向边过程如下：

(1)遍历训练数据计算训练数据中x和y的取值范围。

(2)根据训练数据计算机x，y各自的边缘概率分布以及x与y的联合概率分布函数。

(3)通过互信息公式计算得到x、y两个节点之间的互信息大小，一般情况下当I(x,y)>0.1时则表示x,y之间的联系较强，则在x，y两个节点之间加上一条从x到y的有向边。

(4)遍历完任意的两个节点，完成贝叶斯网的初始化。

第二部分具体实现：对初始化的贝叶斯网络通过bic评分算法进行学习：

通过爬山法，在初始化的贝叶斯网络的基础上通过采用加边、减边、转边的方式，在该贝叶斯网络的周围寻找能拟合程度最好的贝叶斯网络。

(1)初始化最大贝叶斯网络评分。计算初始化的贝叶斯网络的bic评分，依次作为爬山法学习过程的起点，开始学习贝叶斯网络。

(2)对贝叶斯网络中邻接矩阵的任意两个节点进行遍历，如果两个节点之间无有向边，则将贝叶斯网络的邻接矩阵中此边置。然后对改变后的贝叶斯网络进行bic评分计算。如果bic评分大于原贝叶斯网络，则保留此变化，如果bic评分小于原贝叶斯网络，则将贝叶斯网还原。假如两个节点之间存在有向边，则将该有向边删除或者转向之后重复上述操作。

(3)维护贝叶斯网络关联容器，在过程(2)进行过程中，每当遇到一个拟合更好的贝叶斯网络，在改变原贝叶斯网络的同时，将我们的原有贝叶斯网络维护通过构造一个<double，int**>的键值对，插入我们的关联容器中，按从小到大的序列排列。

(4)更新最大贝叶斯评分，当贝叶斯网络发生更新时，计算贝叶斯网络的bic评分，更新贝叶斯网络最大评分。

(5)重复(2)～(4)进行贝叶斯网络学习，直到遍历完贝叶斯网络邻接矩阵所有的节点，贝叶斯网络没有发生变化，这一学习方法过程依赖初始化的贝叶斯网络，爬山法可能会陷入局部最优的情况，所以在一开始选择一个与训练数据拟合程度一定好的贝叶斯网络能有效提高学习效果。

第三部分的具体实现步骤如下：

运用推理效率评分函数对维护的贝叶斯网络关联容器进行选择，选择出推理效率高的贝叶斯网络。

步骤1：初始化推理复杂度，计算第二部分学习结果的贝叶斯网络的推理复杂度。

步骤1-1：使用CostVE算法计算变量消元算法的时间复杂度，首先构造贝叶斯网络的端正图，然后根据最小缺边算法、最大势搜索算法或者MICS算法得到变量消元顺序。根据变量消元顺序依次在端正图中消去每个元素，消去元素的同时，计算元素的邻接节点的个数为n，那么变量消元的复杂度加上2n+1，同时调用ELIM算法在端正图中消去该元素。

步骤1-2：重复上述步骤直到端正图中不含有任何元素。

步骤1-3：构造团树。

步骤1-4：计算团树传播算法的时间复杂度。首先设置证据变量，这里由于我们计算整个贝叶斯网络的时间复杂度，我们设置证据变量为空。然后依次计算团树中每一条有向边所包含的边信息。

步骤1-5：计算团树推理每一个变量时的时间复杂度。

步骤二：寻找满足要求，同时时间复杂度最低的贝叶斯网络。

步骤2-1：设定bic评分范围。一般以最大的bic评分为基础设定为最大bic评分的2-3倍。

步骤2-2：遍历贝叶斯网络关联容器，判断关联容器中的bic评分值是否在设定的bic评分范围当中，如果bic评分在范围当中，重复步骤1-3至1-5，计算关联容器中此贝叶斯网络的推理复杂度，并与前面最小的时间复杂度进行比较。选择更小者对贝叶斯网络进行更新，遍历完整个贝叶斯网络关联容器或者遍历到首个不满bic评分要求的贝叶斯网络，结束。

步骤三：输出学习得到的贝叶斯网络。

虽然在上文中已经参考实施方式对本发明进行了描述，然而在不脱离本发明的范围的情况下，可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是，只要不存在结构冲突，本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用，在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此，本发明并不局限于文中公开的特定实施方式，而是包括落入权利要求的范围内的所有技术方案。

Claims

1.一种易推理贝叶斯网络的学习方法，其特征在于：包括如下步骤：

2.根据权利要求1所述的一种易推理贝叶斯网络的学习方法，其特征在于：步骤一包括：

步骤101：设定贝叶斯网络的节点数为n，训练数据有m组；

3.根据权利要求1所述的一种易推理贝叶斯网络的学习方法，其特征在于：步骤2包括：

步骤203：循环遍历寻找最优的贝叶斯网络，判断步骤202

得到的贝叶斯网络与步骤开始之前的贝叶斯网络是否相同，如果不相同，那么重复步骤202；学习得到贝叶斯网络，计算贝叶斯网络bic评分结果，利用costVE算法的和团树传播算法的时间复杂度分析得到贝叶斯网络推理效率评分结果。

4.根据权利要求1所述的一种易推理贝叶斯网络的学习方法，其特征在于：步骤三包括：

步骤301：设定一个bic评分下界；