CN106056164A

CN106056164A - 一种基于贝叶斯网络的分类预测方法

Info

Publication number: CN106056164A
Application number: CN201610412995.1A
Authority: CN
Inventors: 孙鹏飞; 胡婕; 吴国仕; 熊秋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2016-10-26

Abstract

本发明公开了一种基于贝叶斯网络的分类预测方法包括：获取待训练数据并分块为多个分块数据；为每个分块数据构建一个相对应的贝叶斯子网络；使用每个贝叶斯子网络同时进行分类预测任务。本发明通过使用并行学习获得多个子网结构并同时进行预测分类任务的技术方案，节省了数据量较大情况下贝叶斯网络学习的时间成本，并在特定数据集下取得了较好的表现。

Description

一种基于贝叶斯网络的分类预测方法

技术领域

本发明涉及分类预测，特别地，涉及一种基于贝叶斯网络的分类预测方法。

背景技术

贝叶斯网络作为表示随机变量之间因果关系的一种手段，被认为适于应用于分类预测或成因分析等任务，而使用贝叶斯网络模型完成的分类预测任务的准确率往往也的确高于其他通用算法。然而，由于贝叶斯网络的学习过程的空间与时间复杂度，及对其结构理解的难度，贝叶斯网络在分类预测任务的情境中没有得到广泛的应用。以最大最小爬山算法的启发式算法为例，其时间复杂度具有不确定性。在计算数据量较大的情况下，算法收敛的时间可能随数据量的增加呈指数级增长。

针对现有技术中计算数据量较大的情况下传统贝叶斯网络学习算法学习时间过长的问题，目前尚未有有效的解决方法。

发明内容

有鉴于此，本发明的目的在于提出一种基于贝叶斯网络的分类预测方法，能够在数据量较大情况下节省贝叶斯网络学习的时间成本，并具有更好的学习效果。

基于上述目的，本发明提供的一种基于贝叶斯网络的分类预测方法，其特征在于，包括：

获取待训练数据并分块为多个分块数据；

为每个分块数据构建一个相对应的贝叶斯子网络；

使用每个贝叶斯子网络同时进行分类预测任务。

其中，获取待训练数据并分块为多个分块数据包括：

获取待训练数据集合D，并确定分块数据个数n；

将待训练数据集合D平均分割成n个数据块{D₁,D₂,…,D_n}。

并且，确定分块数据个数n包括：

为待训练数据集合D指定最大分块数量S_max；

生成k个分块方案，第一个分块方案为分成4块，此后每一个分块方案的分块数目都是前一方案的2倍，其中，

根据贝叶斯网络评分标准，分别对k个分块方案建立测试网络N_test与对应的数据子集D_test并进行评估，将得分最高的方案的分块数量值赋给n。

同时，为每个分块数据构建一个相对应的贝叶斯子网络包括：

获取先验知识K；

输入n个数据块{D₁,D₂,…,D_n}与先验知识K，使用最小最大爬山算法训练并输出n个贝叶斯子网{N₁,N₂,…,N_n}，其中，x∈[1,n]。

并且，使用最小最大爬山算法训练并输出n个贝叶斯子网{N₁,N₂,…,N_n}包括：

根据每一个输入数据中的属性f_i，生成候选集合CPC，候选集合CPC中包括与属性f_i关系密切的节点{f₁,f₂,…,f_x}；

根据贝叶斯网络评分标准，对候选集合CPC中的节点进行爬山搜索，通过算子操作构建出n个贝叶斯子网{N₁,N₂,…,N_n}，其中，算子操作包括：加边、减边、反转边。

同时，使用每个贝叶斯子网络同时进行分类预测任务包括：

获取测试数据集D_T，测试数据集D_T包括t条测试样例{d₁,d₂,…,d_t}；

使用n个贝叶斯子网{N₁,N₂,…,N_n}对任一条测试样例d_i进行分类预测，获得n个分类预测结果{r_i1,r_i2,…,r_in}；

使用n个贝叶斯子网{N₁,N₂,…,N_n}对t条测试样例d_i进行分类预测，获得子网分类预测结果M，分类子网预测结果M为t×n的矩阵；

获取t条测试样例{d₁,d₂,…,d_t}的类信息{c₁,c₂,…,c_t}并生成类型值Y，类型值Y为t×1的矩阵；

根据子网分类预测结果M构建弱分类器，使用提升方法将弱分类器升级为强分类器，并使用强分类器获得最终分类预测结果。

并且，使用贝叶斯网络对测试样例进行分类预测，为对概率分布p(x₁,…,x_n,c)，使用对变量C进行预测，其中，N为变量C,X₁,…,X_n的贝叶斯网络结构，π_c是类变量C的父节点集Π_i的配置。

同时，根据子网分类预测结果M构建弱分类器，使用提升方法将弱分类器升级为强分类器，并使用强分类器获得最终分类预测结果包括：

从子网分类预测结果M中提取出每一条测试样例d_i的分类预测结果{r_i1,r_i2,…,r_in}；

根据每一条测试样例d_i的分类预测结果{r_i1,r_i2,…,r_in}与n个贝叶斯子网{N₁,N₂,…,N_n}的权重{r₁,r₂,…,r_n}构建弱分类器{wc₁,wc₂,…,wc_m}；

使用最大化对数似然函数迭代弱分类器{wc₁,wc₂,…,wc_m}，其中，每次迭代过程均包括更新每次回归拟合的变量与通过最小二乘法进行加权回归；

对所有加权回归函数求和获得强分类器sc，并使用强分类器sc获得最终分类预测结果。

从上面所述可以看出，本发明提供的技术方案通过使用并行学习获得多个子网结构并同时进行预测分类任务的技术方案，节省了数据量较大情况下贝叶斯网络学习的时间成本，并在特定数据集下取得了较好的表现。

附图说明

为了更清楚地说明本公开的实施例，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于贝叶斯网络的分类预测方法的流程图；

图2为本发明实施例提供的基于贝叶斯网络的分类预测方法中，进行分布式并行学习阶段的流程示意图；

图3为本发明实施例提供的基于贝叶斯网络的分类预测方法中，根据子网的预测结果进行预测阶段的流程示意图；

图4为本发明实施例提供的基于贝叶斯网络的分类预测方法中，贝叶斯子网执行MapReduce方法的架构图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

根据本发明的一个实施例，提供了一中基于贝叶斯网络的分类预测方法。

如图1所示，根据本发明实施例提供的基于贝叶斯网络的分类预测方法包括：

步骤S101，获取待训练数据并分块为多个分块数据；

步骤S103，为每个分块数据构建一个相对应的贝叶斯子网络；

步骤S105，使用每个贝叶斯子网络同时进行分类预测任务。

其中，获取待训练数据并分块为多个分块数据包括：

获取待训练数据集合D，并确定分块数据个数n；

将待训练数据集合D平均分割成n个数据块{D₁,D₂,…,D_n}。

并且，确定分块数据个数n包括：

为待训练数据集合D指定最大分块数量S_max；

获取先验知识K；

同时，使用每个贝叶斯子网络同时进行分类预测任务包括：

在0-1损失下，贝叶斯网络分类器是最优分类器。

下面根据具体实施例进一步阐述本发明的技术方案。

贝叶斯网络用于确定变量之间的关系。理想的贝叶斯网络结构能够出色地描述数据中各个变量之间的关系，并能在推理预测任务中带来较好的表现。

传统的贝叶斯网络学习方法主要分为两类：一类是由领域专家确定变量之间的因果关系，采用人工的方法完成构建。另一种方法是从现有的数据中学习，通过计算自动学习网络。本发明主要使用的思路是打分-搜索方案，根据给定的数据集合D与先验知识K，通过爬山、贪心搜索方法，确定一个网络结构N，使后验概率P(N|D,K)最大。

N＝argmax_NP(N|D,K)

寻找最优网络结构N的过程已被证明是一个NP难问题。

MMHC(Max-Min Hill Climbing，最大最小爬山)算法通过计算变量两两之间的条件独立性，从而确定出与一个变量可能具有因果关系的其他变量，然后基于打分-搜索机制，结合爬山算法的思想得到输入数据集合D上的网络结构N。MMHC算法通过输入的数据集合D进行结构学习，它结合了基于约束的构造方法与基于打分-搜索方法两种思想，采用BIC(Bayesian Information Criterions，贝叶斯网络评分标准)，在给定数据集合的搜索空间下得到局部最优的网络结构N。MMHC算法可以分为两个阶段，阶段一对于每一个输入数据中的属性f_i，找出与它关系密切的节点{f₁,f₂,…,f_x}作为CPC(candidate parents andchildren of T，候选集合的父集合与子集合)中的节点；然后构建网络N，从空图开始，根据贝叶斯网络评分标准BIC，进行加边、减边和反转边三个算子的操作，完成贪婪爬山搜索。

MMHC算法在实验中能够得到较理想的贝叶斯网络结构N。然而在输入的训练数据集合D包含属性较多，或是样例数量较大的情况下，由于学习结构需要进行的计算量激增，训练算法的收敛时间会非常长。

为了加速贝叶斯网络的学习，本发明实施例的技术方案分为两个阶段。

阶段一：进行分布式并行学习。如图2所示，本发明实施例将训练数据集合D平均分割成n个数据块{D₁,D₂,…,D_n}，分别执行MMHC算法完成训练。训练任务由MapReduce框架下的训练方法完成。得益于MapReduce框架的并行计算能力，以及在数据量较小时MMHC算法的较低时间代价，我们能够在较短的时间内得到分块数据{D₁,D₂,…,D_n}的训练结果——包含n个子网的集合{N₁,N₂,…,N_n}。由于这些网络结构来自数据集合D的子集{D₁,D₂,…,D_n}，故称其为子网。

阶段二：根据子网的预测结果进行预测。如图3所示，本发明实施例使用子网{N₁,N₂,…,N_n}对测试数据集D_T进行预测，设测试数据D_T包含t条测试样例，对于同一条测试样例d_i，将得到来自子网集合{N₁,N₂,…,N_n}的n个预测结果{r₁,r₂,…,r_n}。全体测试数据的子网预测结果被表示为M，M是一个t×n的矩阵。其中每一行对应全体子网{N₁,N₂,…,N_n}输入同一条测试样例d_i的预测结果。图中最右侧Y是一个t×1的矩阵，对应每一条测试样例d_i的类信息，如下表所示：

带入本实施例中的数字后，子网预测结果M如下：

可以看出，子网的预测结果中出现正确类信息的概率非常高；事实上，实验中绝大多数情况下，都存在子网正确预测的中间结果。本发明在预测结果矩阵M的基础上构建弱分类器，结合提升(Boosting)思想，以真实数据作为检验标准，形成一个类投票机制，组合弱分类器得到强分类器，进而计算得出最终的预测结果。

特别需要指出的是，本发明实施例使用的不是权重矩阵合并多个子网{N₁,N₂,…,N_n}的结构信息的方法，而是利用子网预测的中间结果M来进行分类预测的方法。结合Boosting的方法思想，利用多个子网的结构同时进行分类预测任务，模型在任务中的正确率才能够得到保证。

图4示出的是MapReduce的架构图。如图4所示，MapReduce编程架构采用分而治之的思想，将需要处理的数据进行切分，在Map阶段将切分得到的每一个分块分别进行计算，在Reduce阶段将计算的结果整合。

MapReduce任务可以分成两个阶段，第一个阶段为map阶段，指的是Hadoop平台调用多台机器的计算能力来对切分好的n个任务分别进行计算处理；第二个阶段为Reduce阶段，指的是对前一阶段得到的n个分块的结果进行进一步处理，从而得到归并后的结果。这样处理方案可以很大程度上解决由于所处理的数据量过大，导致的程序运行时间过长的问题。

针对贝叶斯网络学习的算法，本文采用借助MR编程架构的并行处理模式，使用多个节点同时完成贝叶斯网络的学习任务。如前所述，大量数据的并行训练步骤包含2个阶段：(1)数据评估与切分；(2)并行本地学习。

在第一阶段的数据评估与切分过程中，数据被切分成n份。本发明实施例通过BIC的打分机制来评估不同的分块数目下得到的网络对于对应数据的描述能力，并判断n的合适取值。对于输入的数据集D，我们指定一个最大分块数量S_max，从4分块开始生成分块方案。接下来的划分数据块数目将在前一方案的基础上乘2。我们假设方案数量为k，那么k与S_max的关系满足下式：

在得到k个分块方案后，模型将分别对k个方案进行评估，就这些方案各建立一个测试网络N_test，并对得到的网络结构N_test和对应数据子集D_test进行打分评估。得分最高的方案的分块数量n将作为最优分块方案。

经过分块处理我们将得到n块大小为的子数据块，然后提交至Hadoop进行网络结构学习，模型进行计算和收敛后得到子网{N₁,N₂,…,N_n}作为输出结果。

提升(Boosting)方法是一种常用的分类方法，它的基本思路是在同一问题情境下通过更改训练样本特征{f₁,f₂,…,f_m}的权值，来学习多个弱分类器{wc₁,wc₂,…,wc_m}，在多次迭代过程中进行调整，将多个弱分类器线性组合成一个强分类器sc。

在本发明实施例中，由于各个子网{N₁,N₂,…,N_n}是由分块的数据{D₁,D₂,…,D_n}训练得来，在对于整个数据集合的描述能力上弱于使用整个数据集合训练得到的网络N。

在完成阶段一，得到n个子网{N₁,N₂,…,N_n}以后，一个直接的问题是如何利用这些结果。

一种方案是将各个子网{N₁,N₂,…,N_n}视为弱分类器，在训练数据D与测试数据D_T间构建一个映射，而完成这一映射的方法即为不断更新训练数据样例的权值，来组合多个弱分类器(子网的概率推理)。可以表示为：

\{\begin{matrix} g (α_{1}, α_{2}, ..., α_{m}) : D &RightArrow; D_{T} \\ α_{1} f_{1} + α_{2} f_{2} + ... + α_{m} f_{m} = D_{w} \\ h (N_{1}, N_{2}, ..., N_{n}) : D_{w} &RightArrow; D_{T} \end{matrix}

其中，{f₁,f₂,…,f_m}表示训练数据包含的全体属性，由于属性数量为m，对应的系数集合{α₁,α₂,…,α_m}的大小也为m。D_w表示经过权重调整后的输入数据集。Boosting方法通过调整输入的测试数据的权重来让弱分类器组合，从而达到更好的预测效果。

另一种方案是不再将子网{N₁,N₂,…,N_n}看做分类器。而是基于子网的预测结果M做二次分类。

记子网集对每一条样例的预测结果为{r₁,r₂,…,r_n}，可以表示为

\{\begin{matrix} g (α_{1}, α_{2}, ..., α_{n}) : M &RightArrow; Y \\ α_{1} r_{1} + α_{2} r_{2} + ... + α_{n} r_{n} = M_{w} \\ h (r_{1}, r_{2}, ..., r_{n}) : D_{T} &RightArrow; Y \end{matrix}

分类器的目标在于在子网预测结果M与测试样例的类信息Y间建立一个映射。我们引入系数集合{α₁,α₂,…,α_n}来对每个子网的预测结果的权重进行调整。先使用子网{N₁,N₂,…,N_n}对全体测试数据D_T做预测，由于子网的个数为n，对于某一条测试样例，我们将得到n个预测结果{r₁,r₂,…,r_n}，这几个结果可能预测准确，也有可能不准。Boosting方法通过调整{r₁,r₂,…,r_n}各项在预测任务中所占的权重，在这n个预测结果和测试数据的类信息Y之间建立一个映射。Boosting方法中的弱分类器将基于子网的预测结果M构建。

两种方案比较起来，第二种方案具有较高的可操作性。同时，我们对比了子网的预测结果{r₁,r₂,…,r_n}与测试数据的类信息，在绝大部分情况下，子网的预测结果{r₁,r₂,…,r_n}中已经包含了正确结果(即绝大部分情况下，存在能够预测准确的子网结果)。

因此，本发明实施例提出一种基于子网预测结果的Boosting方案，利用前一阶段给出的子网结构{N₁,N₂,…,N_n}与全体数据D进行预测。对于每一条测试数据，都有n个来自不同子网的预测结果。然后我们在此基础上构建简单分类器。可以将这个过程理解为每一个子网{N₁,N₂,…,N_n}对最终的结果取值做了一次投票，在这个投票过程中需要考虑各个子网给出的结果的权重{r₁,r₂,…,r_n}，而目标是找出能够让这个投票机制达到最高准确率的数据与分类器组合。

本发明实施例使用LogitBoost算法来完成这一目标。LogitBoost算法采用最大化对数似然函数推导。算法在每一次迭代过程中，先更新每次回归拟合的变量，然后通过最小二乘法做一个加权回归，最后将所有回归函数的和作为最终的分类器。

在使用子网，利用全体数据进行预测的任务中，我们先用不同的子网分别预测得到结果，可以将各个弱分类器使用Boosting方法组合，形成一个类投票机制，得到一个强分类器，用于给出最终的预测结果。LogitBoost算法能在学习过程中不断减少训练误差，即在训练数据集上的分类误差率。

综上所述，本发明从减少学习算法所用时间的目标出发，提出一种结合MapReduce编程框架与MMHC算法的学习贝叶斯网络结构的方法。该方法首先将训练数据分块，利用分块数据训练得到多个贝叶斯网络子网，然后利用这些子网同时进行分类预测任务。多个子网的预测结果的组合过程用到了Boosting方法，实验证明，对于Nursery数据集，朴素贝叶斯分类器在准确度方面的表现不如贝叶斯网络分类器；在时间性能上，朴素贝叶斯由于不需要进行网络结构学习而能得到最高的时间性能，与此同时，贝叶斯网络分类器的学习时间成本远高于朴素贝叶斯分类器，将其学习过程进行并行化处理有利于缩短时间成本，同时会在正确率上有所损失。本发明的方法在大大加快贝叶斯网络的训练过程的同时，保证了较高的分类预测准确率，节省了数据量较大情况下贝叶斯网络学习的时间成本，并在特定数据集下取得了较好的表现。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于贝叶斯网络的分类预测方法，其特征在于，包括：

获取待训练数据并分块为多个分块数据；

为每个所述分块数据构建一个相对应的贝叶斯子网络；

使用每个所述贝叶斯子网络同时进行分类预测任务。

2.根据权利要求1所述的方法，其特征在于，所述获取待训练数据并分块为多个分块数据包括：

获取待训练数据集合D，并确定分块数据个数n；

将所述待训练数据集合D平均分割成n个数据块{D₁,D₂,…,D_n}。

3.根据权利要求2所述的方法，其特征在于，所述确定分块数据个数n包括：

为所述待训练数据集合D指定最大分块数量S_max；

根据贝叶斯网络评分标准，分别对所述k个分块方案建立测试网络N_test与对应的数据子集D_test并进行评估，将得分最高的方案的分块数量值赋给n。

4.根据权利要求2所述的方法，其特征在于，为每个所述分块数据构建一个相对应的贝叶斯子网络包括：

获取先验知识K；

输入所述n个数据块{D₁,D₂,…,D_n}与所述先验知识K，使用最小最大爬山算法训练并输出n个贝叶斯子网{N₁,N₂,…,N_n}，其中，x∈[1,n]。

5.根据权利要求4所述的方法，其特征在于，所述使用最小最大爬山算法训练并输出n个贝叶斯子网{N₁,N₂,…,N_n}包括：

根据每一个输入数据中的属性f_i，生成候选集合CPC，所述候选集合CPC中包括与所述属性f_i关系密切的节点{f₁,f₂,…,f_x}；

根据贝叶斯网络评分标准，对所述候选集合CPC中的节点进行爬山搜索，通过算子操作构建出n个贝叶斯子网{N₁,N₂,…,N_n}，其中，所述算子操作包括：加边、减边、反转边。

6.根据权利要求4所述的方法，其特征在于，使用每个所述贝叶斯子网络同时进行分类预测任务包括：

获取测试数据集D_T，所述测试数据集D_T包括t条测试样例{d₁,d₂,…,d_t}；

使用所述n个贝叶斯子网{N₁,N₂,…,N_n}对任一条测试样例d_i进行分类预测，获得n个分类预测结果{r_i1,r_i2,…,r_in}；

使用所述n个贝叶斯子网{N₁,N₂,…,N_n}对t条测试样例d_i进行分类预测，获得子网分类预测结果M，所述分类子网预测结果M为t×n的矩阵；

获取t条测试样例{d₁,d₂,…,d_t}的类信息{c₁,c₂,…,c_t}并生成类型值Y，所述类型值Y为t×1的矩阵；

根据所述子网分类预测结果M构建弱分类器，使用提升方法将弱分类器升级为强分类器，并使用强分类器获得最终分类预测结果。

7.根据权利要求6所述的方法，其特征在于，使用所述贝叶斯网络对测试样例进行分类预测，为对概率分布p(x₁,…,x_n,c)，使用对变量C进行预测，其中，N为变量C,X₁,…,X_n的贝叶斯网络结构，π_c是类变量C的父节点集Π_i的配置。

8.根据权利要求6所述的方法，其特征在于，根据所述子网分类预测结果M构建弱分类器，使用提升方法将弱分类器升级为强分类器，并使用强分类器获得最终分类预测结果包括：

从所述子网分类预测结果M中提取出每一条测试样例d_i的分类预测结果{r_i1,r_i2,…,r_in}；

根据所述每一条测试样例d_i的分类预测结果{r_i1,r_i2,…,r_in}与所述n个贝叶斯子网{N₁,N₂,…,N_n}的权重{r₁,r₂,…,r_n}构建弱分类器{wc₁,wc₂,…,wc_m}；

使用最大化对数似然函数迭代所述弱分类器{wc₁,wc₂,…,wc_m}，其中，每次迭代过程均包括更新每次回归拟合的变量与通过最小二乘法进行加权回归；

对所有加权回归函数求和获得强分类器sc，并使用所述强分类器sc获得最终分类预测结果。