CN106021524A

CN106021524A - 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

Info

Publication number: CN106021524A
Application number: CN201610351706.1A
Authority: CN
Inventors: 赵立; 廖勇; 沈轩帆
Original assignee: SIMUTECH Inc
Current assignee: SIMUTECH Inc
Priority date: 2016-05-24
Filing date: 2016-05-24
Publication date: 2016-10-12
Anticipated expiration: 2036-05-24
Also published as: CN106021524B

Abstract

本发明提出了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，包括如下步骤：S1，获取海量数据，根据该数据的属性通过贝叶斯网络进行训练学习；S2，向贝叶斯分类器中引入了属性分级的策略方法，将树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器；S3，建立二阶依赖树增广贝叶斯分类器，将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据，根据数据的属性对该数据进行分类匹配，从而准确得到该属性的数据。本发明选择TAN分类器为研究对象，将TAN属性间的依赖关系扩展至二阶，并采用属性分级的策略，提出了二阶依赖树增广朴素贝叶斯分类器结构的设计方法。本发明提高了数据挖掘的准确性。

Description

用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

技术领域

本发明涉及大数据挖掘领域，尤其涉及一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法。

背景技术

大数据与我们的生活密不可分，而基于大数据挖掘的相关技术也已经在实际的场景中有了一定的应用。例如医疗方面，通过研究大量病人的不同症状和病人的诊断结果之间的数据可以更好的为医生的诊断提供依据。而数据分类作为大数据挖掘过程中的关键技术，也受到了国内外广泛的研究。数据分类的本质是对已有数据进行学习以获得所需知识，合理的使用这些学习到的知识设计一个相应的函数或者构建一个相应的模型结构，这个函数或结构体现的是一种映射关系，在获得正确的映射关系后，观测实例的部分已知数据便可通过它们映射得到该实例的类，这个过程称之为数据分类。

目前已有的很多数据挖掘技术都无法给出各个数据属性间的因果关系。在基于贝叶斯网络的数据分类器中，数据之间不同的属性被建模为贝叶斯网络中不同的变量节点。贝叶斯网络通过使用属性间的互信息来寻找相关性，并通过图形化网络展示出属性间的相关性，并将这种相关性称为依赖关系。

将贝叶斯网络数据分类器中的数据分类属性变量节点C称为分类属性节点，分类属性节点是网络中所有其他节点的父节点，变量C的取值表示的是数据分类的结果；贝叶斯网络数据分类器中的属性变量X0，X1，…，XN-1等节点称为属性节点，其中各个属性变量的取值表示的是数据的某一项属性的情况；表示各个属性节点间依赖关系的有向连线称为弧。而前文提到的对已有数据进行学习的过程，在基于贝叶斯网络的数据分类器中被称作训练。在训练的过程中，需要将大量的数据根据贝叶斯网络的结构，进行统计分析；网络中的所有变量均为离散变量，在经过训练以后我们将得到分类属性变量C的先验概率的概率质量函数P(C)，和各个属性变量的条件概率质量函数P(X_i|C)。

基于贝叶斯网络结构的数据分类方法也有很多种。最简单的贝叶斯分类器是朴素贝叶斯分类器(Bayesian Network，NB)。NB的网络结构如附图1所示。基于NB的数据分类器的核心是条件独立性假设，它假设所有属性之间都是条件独立的(即没有关联的)，也就是说，网络结构中所有属性节点之间都不存在弧。朴素贝叶斯分类器的条件独立性假设使得模型的复杂度较低，无需担心过拟合现象。虽然它的结构非常简单，但是在很多应用中的表现却不弱于那些更为复杂的分类算法。然而这种条件独立性假设在现实中是不成立的，并且其结构也导致朴素贝叶斯无法在训练数据中获得更多的分类信息，这将严重影响分类准确率。

树增广朴素贝叶斯分类器(Tree-AugmentedBayes，TAN)是NB的扩展，它通过贪心策略逐步的构建了一个最优的树形结构，进而获取到属性间一些最为重要的依赖关系。TAN的网络结构如附图2所示。TAN由于包含了各个属性之间的部分关联信息，所以相比于NB，TAN普遍被认为具有更优秀的分类性能和更高的复杂度。TAN的设计方法很好的权衡了网络的复杂度和属性间的依赖关系，构造了一个相对完美的一阶贝叶斯网络分类器。但是到目前为止，TAN仍然只能局限于一阶依赖关系。因此，在面对较大的数据量时，TAN将会由于模型的限制而出现拟合度不足的情况，导致了TAN在面对大数据时的乏力。

由于数据在累积过程中，其属性和参数都在不断的增加和改变，用户在对数据进行分析的过程中，如果分类器运算的效率低下，必将导致数据挖掘过程中的运算冗余和效率低下，给用户带来不便，这就亟需本领域技术人员解决相应的技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法。

为了实现本发明的上述目的，本发明提供了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，包括如下步骤：

S1，获取海量数据，根据该数据的属性通过贝叶斯网络进行训练学习；

S2，向贝叶斯分类器中引入了属性分级的策略方法，将树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器；

S3，建立二阶依赖树增广贝叶斯分类器，将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据，根据数据的属性对该数据进行分类匹配，从而准确得到该属性的数据。

所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，优选的，所述S2中向贝叶斯分类器中引入了属性分级的策略包括：

在2D-TAN中，每一个属性变量都将归属于某一个属性等级；在2D-TAN中，首先需要对各个属性变量依照其与类变量之间的互信息排序；之后每个属性变量都将生成一个信息集合Y_i ^*满足，这一集合中包括了该属性变量与类变量C之间的互信息以及与所有排序在其之前的属性变量的条件互信息值在信息集合Y_i ^*中，数值最大的元素决定了属性变量的属性等级；若数值最大的元素为则属性变量的属性等级为1级；若数值最大的元素为且属性变量的属性等级为n级，则属性变量的属性等级为n+1级，其中下标i，j分别表示第i个或第j个属性变量的序号。

所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，优选的，所述树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器包括：

在2D-TAN中，2级及2级以上的属性变量需要在其上一属性等级的属性变量或同级且排序在之前的属性变量中选择至多两个条件互信息量的数值最大或第二大的属性变量作为属性变量的父节点。

所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，优选的，所述S3中二阶依赖树增广贝叶斯分类器工作方法包括：

步骤1，开始；

步骤2，通过训练得到，分类属性变量C的先验概率的概率质量函数P(C)，其他属性变量的先验概率的概率质量函数P(X_i)及其条件概率质量函数P(X_i|C)，每个属性之间的联合先验概率质量函数P(X_i,X_j)，以及各属性间的条件联合概率质量函数P(X_i,X_j|C)；

步骤3，经过计算得到各个属性变量X_i与类变量C之间的互信息I(X_i；C)和各个属性变量之间的条件互信息I(X_i；X_j|C)；

步骤4，依据I(X_i；C)对所有属性变量进行排序得到有序的属性变量其中下标N为正整数；

步骤5，在依赖树网络结构中添加类变量C节点；

步骤6，向依赖树网络中添加第一个属性变量节点并在与C之间添加一条弧，指向并将其归类为1级属性；

重复步骤7至步骤9，直到所有属性变量节点均添加到了依赖树网络中；

步骤7，建立属性变量的信息集合Y_i ^*，满足

Y_{i}^{*} = \{\begin{matrix} I (X_{i}^{*}; C) & I (X_{i}^{*}; X_{0}^{*} | C) & ... & I (X_{i}^{*}; X_{i - 1}^{*} | C) \end{matrix}\};

步骤8，找出Y_i ^*中最大的元素；若该元素为则在与C之间添加一条弧，指向并将归类为1级属性；若该元素为则在与C之间添加一条弧，指向并在与之间添加一条弧，指向若属于第n级属性，则将归类为第n+1级属性，其中n为大于等于1的正整数；

步骤9，若n+1≥2，则需要建立属性变量的属性级别信息集合Y_i ^*(class)，其中仅包含了n级与n+1级的已添加至网络中的属性变量与的条件互信息，找出Y_i ^*(class)中第二大的元素并在与之间添加一条弧，指向

步骤10，判断是否还有属性变量尚未添加到网络中，若没有，则跳转步骤11；若有则按照之前的排序，选择下一属性变量并回到步骤7；

步骤11，结束。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

首先，通过将原有的TAN扩展至二阶贝叶斯分类器，其数据拟合度将大大提升，从而在面对大数据问题时能够有更优的表现。

其次，采用属性分级的策略，有助于网络在训练数据不够充分的情况下，降低稀有数据样本对网络的影响，从而减小分类器的数据敏感度，能够防止过拟合的现象发生。

由于TAN受限于其阶数，面对大数据时会出现拟合度不足的情况，故而将其扩展至二阶以期提升其拟合度，进而增加分类的准确性，同时采用属性分级的策略来降低网络的数据敏感度，防止其出现过拟合的情况，通过该方法对获取数据的准确性方面得到显著提升，提高了数据提炼或者数据挖掘的匹配概率，在大数据环境下降低了过拟合现象，能够更加准确的抓取数据，提高了数据挖掘精确度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为现有技术朴素贝叶斯分类器的结构示意图；

图2为现有技术树增广贝叶斯分类器的结构示意图；

图3本发明二阶依赖树增广贝叶斯分类器的网络构建流程图；

图4本发明二阶依赖树增广贝叶斯分类器的网络结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图3所示，本发明提供了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，包括如下步骤：

假设一个考生就是一个数据单元，考试通过与否的结果对应的就是分类属性变量C，C＝1表示该生考上了，C＝0表示该生没有考上。同时，又通过一些属性变量X来进行描述考生这样一个数据单元，比如，用X₁表示考生的笔试成绩，X₂表示考生的面试成绩等等。现在假设我的数据库中共有N个这样的考生作为数据单元，我能够知道每一个考生的各个分类属性变量C的取值。假设这N个考生中有P个通过了考试，而N-P个没有通过，我就能够从统计学的角度计算出，这样就得到了分类属性变量C的先验概率P(C)。另一方面，此时我知道每一个考生的属性变量的取值，我们以X₁＝1表示这个考生的笔试成绩优秀，X₁＝0，表示该考生笔试成绩不优秀，再假设笔试成绩优秀并通过了考试的考生有P₁个，笔试成绩不优秀通过了考试的考生为P₂个，进而从统计学的角度可以得到通过更多的这样的统计参数就可以利用统计学原理得到条件概率质量函数P(X_i|C)。得到了这两个参数网络的训练就完成了。就可以进入网络构建的阶段了。

或者假设一组海量的医疗病例图片就是一个数据单元，该海量图片对同一区域或者类似区域进行图像采集，是否存在病灶的图片就是分类属性变量C，C＝1表示产生病变坏死区域，C＝0表示没有产生病变坏死区域，或者解释为正常的生理图片。同时，又通过其它一些属性变量X_i来进行描述相关区域的状态信息，比如，用X₁表示血红蛋白偏高，X₂表示血小板数量偏低等等。现在假设图片数据库中共有N个这样的病例图片作为数据单元，我能够知道每一个疑似患病区域图片的分类属性变量C的取值。假设这N个疑似患病区域图片中有P个匹配为已经产生病变坏死区域，而N-P个没有产生病变坏死区域，我就能够从统计学的角度计算出，这样就得到了分类属性变量C的先验概率P(C)。另一方面，此时我知道每一个疑似患病区域图片的属性变量的取值，我们以X₁＝1表示这个产生病变坏死区域很严重，X₁＝0，表示该产生病变坏死区域不严重，再假设产生病变坏死区域很严重有P₁个，产生病变坏死区域不严重为P₂个，进而从统计学的角度可以得到通过更多的这样的统计参数就可以利用统计学原理得到条件概率质量函数P(X_i|C)。得到了这两个参数网络的训练就完成了。就可以进入网络构建的阶段了。

从抽象的角度来讲，叙述如下：

在网络建立之前，需要选择好与分类属性C相关的属性变量X_i(此处假设共有N个属性变量)。然后，获取得到数据库中各个数据单元的属性变量X₁到X_N的取值，再从运用统计学的方法来计算分类属性变量C的先验概率P(C)和各个属性变量X_i的条件概率质量函数P(X_i|C)。

向贝叶斯分类器中引入了属性分级的策略包括：

在2D-TAN中，每一个属性变量都将归属于某一个属性等级；在2D-TAN中，首先需要对各个属性变量依照其与类变量之间的互信息排序；之后每个属性变量都将有一个信息集合Y_i ^*满足，这一集合中包括了该属性变量与类变量C之间的互信息以及与所有排序在其之前的属性变量的条件互信息值在信息集合Y_i ^*中，数值最大的元素决定了属性变量的属性等级；若数值最大的元素为则属性变量的属性等级为1级；若数值最大的元素为且属性变量的属性等级为n级，则属性变量的属性等级为n+1级。

将原有的树增广贝叶斯分类器扩展成为一个二阶的贝叶斯分类器，包括：

在2D-TAN中，2级及2级以上的属性变量需要在其上一属性等级的属性变量或同级且排序在之前的属性变量中选择至多两个条件互信息量的数值最大或第二大的属性变量(当满足要求的节点少于两个时，可以只选择一个)作为属性变量的父节点。

如图4所示，S3，建立二阶依赖树增广贝叶斯分类器，将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据，根据数据的属性对该数据进行分类匹配，从而准确得到该属性的数据。

二阶依赖树增广贝叶斯分类器的结构设计方法的流程包括：

步骤1，开始；

步骤2，通过训练得到，分类属性变量C的先验概率的概率质量函数P(C)，其他属性变量的先验概率的概率质量函数P(X_i)及其条件概率质量函数P(X_i|C)，各个属性之间的联合先验概率质量函数P(X_i,X_j)，以及各属性间的条件联合概率质量函数P(X_i,X_j|C)；

步骤4，依据I(X_i；C)对所有属性变量进行排序得到有序的属性变量

步骤5，在网络结构中添加类变量C节点；

步骤6，向网络中添加第一个属性变量节点并在与C之间添加一条弧，指向并将其归类为1级属性；

重复步骤7至步骤9，直到所有属性变量节点均添加到了网络中；

步骤7，建立属性变量的信息集合Y_i ^*，满足

Y_{i}^{*} = \{\begin{matrix} I (X_{i}^{*}; C) & I (X_{i}^{*}; X_{0}^{*} | C) & ... & I (X_{i}^{*}; X_{i - 1}^{*} | C) \end{matrix}\};

步骤8，找出Y_i ^*中最大的元素；若该元素为则在与C之间添加一条弧，指向并将归类为1级属性；若该元素为则在与C之间添加一条弧，指向并在则在与之间添加一条弧，指向若属于第n级属性，则将归类为第n+1级属性；

步骤9，若n+1≥2，则需要建立属性变量的属性级别信息集合Y_i ^*(class)，其中仅包含了n级与n+1级的已添加至网络中的属性变量与的条件互信息，找出Y_i ^*(class)中第二大的元素并在则在与之间添加一条弧，指向

步骤11，结束。

S4，网络搭建完成后的贝叶斯网络的使用方法。

在网络搭建完成后，又怎么使用这个网络来进行数据分类呢。还是沿用之前的考生的例子。现在我们有了一批还没有参加公务员考试的考生，他们想知道自己考上的概率有多大。于是，他们就按照自己的情况，把网络中各项分类属性变量的取值填入了网络中，比如某一考生笔试成绩优秀，则此时向网络中的属性变量X₁赋值为1，这一考生的面试成绩不优秀，则X₂赋值为0，等等。他将所有的属性变量完成赋值后，网络将会计算得到分类属性变量C的一个后验概率，而这一概率就表征了这一考生通过这次考试的概率。

或者以海量的医疗病例图片为例子。现在我们有了一批还没有对同一区域进行图片分析的海量图像数据，如果想知道患病概率有多大。于是，他们就按照自己的情况，把依赖树网络中各项分类属性变量的取值填入了依赖树网络中，比如某一血红蛋白偏高，则此时向网络中的属性变量X₁赋值为1，某一血小板数量偏低，则X₂赋值为0，等等。他将所有的属性变量完成赋值后，网络将会计算得到分类属性变量C的一个后验概率，而这一概率就表征了这一区域是否为产生病变坏死的区域。

从抽象的角度叙述如下：

网络搭建完成后，当数据单元需要经过网络进行数据分类时，需要根据这一数据的实际情况，向网络中的各个属性变量赋值，网络经过计算以后，将会得到这一数据的分类属性变量C的后验概率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，其特征在于，所述S2中向贝叶斯分类器中引入了属性分级的策略包括：

在2D-TAN中，每一个属性变量都将归属于某一个属性等级；在2D-TAN中，首先需要对各个属性变量依照其与类变量之间的互信息排序；之后每个属性变量都将生成一个信息集合满足，这一集合中包括了该属性变量与类变量C之间的互信息以及与所有排序在其之前的属性变量的条件互信息值在信息集合中，数值最大的元素决定了属性变量的属性等级；若数值最大的元素为则属性变量的属性等级为1级；若数值最大的元素为且属性变量的属性等级为n级，则属性变量的属性等级为n+1级，其中下标i，j分别表示第i个或第j个属性变量的序号。

3.根据权利要求1所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，其特征在于，所述S2树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器包括：

4.根据权利要求1所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法，其特征在于，所述S3中二阶依赖树增广贝叶斯分类器工作方法包括：

步骤1，开始；

步骤4，依据I(X_i；C)对所有属性变量进行排序得到有序的属性变量其中下标N为正整数，表示网络中共有N个属性变量；

步骤5，在依赖树网络结构中添加类变量C节点；

步骤7，建立属性变量的信息集合满足

Y_{i}^{*} = \{\begin{matrix} I (X_{i}^{*}; C) & I (X_{i}^{*}; X_{0}^{*} | C) & ... & I (X_{i}^{*}; X_{i - 1}^{*} | C) \end{matrix}\};

步骤8，找出中最大的元素；若该元素为则在与C之间添加一条弧，指向并将归类为1级属性；若该元素为则在与C之间添加一条弧，指向并在与之间添加一条弧，指向若属于第n级属性，则将归类为第n+1级属性，其中n为大于等于1的正整数；

步骤9，若n+1≥2，则需要建立属性变量的属性级别信息集合其中仅包含了n级与n+1级的已添加至网络中的属性变量与的条件互信息，找出中第二大的元素并在与之间添加一条弧，指向

步骤10，判断是否还有属性变量尚未添加到网络中，若没有，则跳转步骤11；若有则按照之前的排序，选择第i+1个属性变量并回到步骤7；

步骤11，结束。