CN106021524B - 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法 - Google Patents

用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法 Download PDF

Info

Publication number
CN106021524B
CN106021524B CN201610351706.1A CN201610351706A CN106021524B CN 106021524 B CN106021524 B CN 106021524B CN 201610351706 A CN201610351706 A CN 201610351706A CN 106021524 B CN106021524 B CN 106021524B
Authority
CN
China
Prior art keywords
attribute
data
variable
augmented
bayes classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610351706.1A
Other languages
English (en)
Other versions
CN106021524A (zh
Inventor
赵立
廖勇
沈轩帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SIMUTECH Inc
Original Assignee
SIMUTECH Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SIMUTECH Inc filed Critical SIMUTECH Inc
Priority to CN201610351706.1A priority Critical patent/CN106021524B/zh
Publication of CN106021524A publication Critical patent/CN106021524A/zh
Application granted granted Critical
Publication of CN106021524B publication Critical patent/CN106021524B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,包括如下步骤:S1,获取海量数据,根据该数据的属性通过贝叶斯网络进行训练学习;S2,向贝叶斯分类器中引入了属性分级的策略方法,将树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器;S3,建立二阶依赖树增广贝叶斯分类器,将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据,根据数据的属性对该数据进行分类匹配,从而准确得到该属性的数据。本发明选择TAN分类器为研究对象,将TAN属性间的依赖关系扩展至二阶,并采用属性分级的策略,提出了二阶依赖树增广朴素贝叶斯分类器结构的设计方法。本发明提高了数据挖掘的准确性。

Description

用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法
技术领域
本发明涉及大数据挖掘领域,尤其涉及一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法。
背景技术
大数据与我们的生活密不可分,而基于大数据挖掘的相关技术也已经在实际的场景中有了一定的应用。例如医疗方面,通过研究大量病人的不同症状和病人的诊断结果之间的数据可以更好的为医生的诊断提供依据。而数据分类作为大数据挖掘过程中的关键技术,也受到了国内外广泛的研究。数据分类的本质是对已有数据进行学习以获得所需知识,合理的使用这些学习到的知识设计一个相应的函数或者构建一个相应的模型结构,这个函数或结构体现的是一种映射关系,在获得正确的映射关系后,观测实例的部分已知数据便可通过它们映射得到该实例的类,这个过程称之为数据分类。
目前已有的很多数据挖掘技术都无法给出各个数据属性间的因果关系。在基于贝叶斯网络的数据分类器中,数据之间不同的属性被建模为贝叶斯网络中不同的变量节点。贝叶斯网络通过使用属性间的互信息来寻找相关性,并通过图形化网络展示出属性间的相关性,并将这种相关性称为依赖关系。
将贝叶斯网络数据分类器中的数据分类属性变量节点C称为分类属性节点,分类属性节点是网络中所有其他节点的父节点,变量C的取值表示的是数据分类的结果;贝叶斯网络数据分类器中的属性变量X0,X1,…,XN-1等节点称为属性节点,其中各个属性变量的取值表示的是数据的某一项属性的情况;表示各个属性节点间依赖关系的有向连线称为弧。而前文提到的对已有数据进行学习的过程,在基于贝叶斯网络的数据分类器中被称作训练。在训练的过程中,需要将大量的数据根据贝叶斯网络的结构,进行统计分析;网络中的所有变量均为离散变量,在经过训练以后我们将得到分类属性变量C的先验概率的概率质量函数P(C),和各个属性变量的条件概率质量函数P(Xi|C)。
基于贝叶斯网络结构的数据分类方法也有很多种。最简单的贝叶斯分类器是朴素贝叶斯分类器(
Figure BDA0000998612190000021
Bayesian Network,NB)。NB的网络结构如附图1所示。基于NB的数据分类器的核心是条件独立性假设,它假设所有属性之间都是条件独立的(即没有关联的),也就是说,网络结构中所有属性节点之间都不存在弧。朴素贝叶斯分类器的条件独立性假设使得模型的复杂度较低,无需担心过拟合现象。虽然它的结构非常简单,但是在很多应用中的表现却不弱于那些更为复杂的分类算法。然而这种条件独立性假设在现实中是不成立的,并且其结构也导致朴素贝叶斯无法在训练数据中获得更多的分类信息,这将严重影响分类准确率。
树增广朴素贝叶斯分类器(Tree-Augmented
Figure BDA0000998612190000022
Bayes,TAN)是NB的扩展,它通过贪心策略逐步的构建了一个最优的树形结构,进而获取到属性间一些最为重要的依赖关系。TAN的网络结构如附图2所示。TAN由于包含了各个属性之间的部分关联信息,所以相比于NB,TAN普遍被认为具有更优秀的分类性能和更高的复杂度。TAN的设计方法很好的权衡了网络的复杂度和属性间的依赖关系,构造了一个相对完美的一阶贝叶斯网络分类器。但是到目前为止,TAN仍然只能局限于一阶依赖关系。因此,在面对较大的数据量时,TAN将会由于模型的限制而出现拟合度不足的情况,导致了TAN在面对大数据时的乏力。
由于数据在累积过程中,其属性和参数都在不断的增加和改变,用户在对数据进行分析的过程中,如果分类器运算的效率低下,必将导致数据挖掘过程中的运算冗余和效率低下,给用户带来不便,这就亟需本领域技术人员解决相应的技术问题。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法。
为了实现本发明的上述目的,本发明提供了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,包括如下步骤:
S1,获取海量数据,根据该数据的属性通过贝叶斯网络进行训练学习;
S2,向贝叶斯分类器中引入了属性分级的策略方法,将树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器;
S3,建立二阶依赖树增广贝叶斯分类器,将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据,根据数据的属性对该数据进行分类匹配,从而准确得到该属性的数据。
所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,优选的,所述S2中向贝叶斯分类器中引入了属性分级的策略包括:
在2D-TAN中,每一个属性变量都将归属于某一个属性等级;在2D-TAN中,首先需要对各个属性变量依照其与类变量之间的互信息
Figure BDA0000998612190000031
排序;之后每个属性变量
Figure BDA0000998612190000033
都将生成一个信息集合Yi *满足,
Figure BDA0000998612190000041
这一集合中包括了该属性变量
Figure BDA0000998612190000042
与类变量C之间的互信息
Figure BDA0000998612190000043
以及
Figure BDA0000998612190000044
与所有排序在其之前的属性变量的条件互信息值
Figure BDA0000998612190000045
在信息集合Yi *中,数值最大的元素决定了属性变量
Figure BDA00009986121900000416
的属性等级;若数值最大的元素为
Figure BDA0000998612190000046
则属性变量
Figure BDA0000998612190000047
的属性等级为1级;若数值最大的元素为
Figure BDA0000998612190000048
且属性变量
Figure BDA0000998612190000049
的属性等级为n级,则属性变量
Figure BDA00009986121900000410
的属性等级为n+1级,其中下标i,j分别表示第i个或第j个属性变量的序号。
所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,优选的,所述树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器包括:
在2D-TAN中,2级及2级以上的属性变量
Figure BDA00009986121900000411
需要在其上一属性等级的属性变量或同级且排序在
Figure BDA00009986121900000412
之前的属性变量中选择至多两个条件互信息量
Figure BDA00009986121900000413
的数值最大或第二大的属性变量
Figure BDA00009986121900000414
作为属性变量
Figure BDA00009986121900000415
的父节点。
所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,优选的,所述S3中二阶依赖树增广贝叶斯分类器工作方法包括:
步骤1,开始;
步骤2,通过训练得到,分类属性变量C的先验概率的概率质量函数P(C),其他属性变量的先验概率的概率质量函数P(Xi)及其条件概率质量函数P(Xi|C),每个属性之间的联合先验概率质量函数P(Xi,Xj),以及各属性间的条件联合概率质量函数P(Xi,Xj|C);
步骤3,经过计算得到各个属性变量Xi与类变量C之间的互信息I(Xi;C)和各个属性变量之间的条件互信息I(Xi;Xj|C);
步骤4,依据I(Xi;C)对所有属性变量进行排序得到有序的属性变量
Figure BDA0000998612190000051
其中下标N为正整数;
步骤5,在依赖树网络结构中添加类变量C节点;
步骤6,向依赖树网络中添加第一个属性变量节点
Figure BDA0000998612190000052
并在
Figure BDA0000998612190000053
与C之间添加一条弧,指向
Figure BDA0000998612190000054
并将其归类为1级属性;
重复步骤7至步骤9,直到所有属性变量节点均添加到了依赖树网络中;
步骤7,建立属性变量
Figure BDA0000998612190000055
的信息集合Yi *,满足
Figure BDA0000998612190000056
步骤8,找出Yi *中最大的元素;若该元素为
Figure BDA0000998612190000057
则在
Figure BDA0000998612190000058
与C之间添加一条弧,指向
Figure BDA0000998612190000059
并将
Figure BDA00009986121900000510
归类为1级属性;若该元素为
Figure BDA00009986121900000511
则在
Figure BDA00009986121900000512
与C之间添加一条弧,指向
Figure BDA00009986121900000513
并在
Figure BDA00009986121900000514
Figure BDA00009986121900000515
之间添加一条弧,指向
Figure BDA00009986121900000516
Figure BDA00009986121900000517
属于第n级属性,则将
Figure BDA00009986121900000518
归类为第n+1级属性,其中n为大于等于1的正整数;
步骤9,若n+1≥2,则需要建立属性变量
Figure BDA00009986121900000519
的属性级别信息集合Yi *(class),其中仅包含了n级与n+1级的已添加至网络中的属性变量与
Figure BDA00009986121900000520
的条件互信息,找出Yi *(class)中第二大的元素
Figure BDA00009986121900000521
并在
Figure BDA00009986121900000522
Figure BDA00009986121900000523
之间添加一条弧,指向
Figure BDA00009986121900000524
步骤10,判断是否还有属性变量尚未添加到网络中,若没有,则跳转步骤11;若有则按照之前的排序,选择下一属性变量并回到步骤7;
步骤11,结束。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
首先,通过将原有的TAN扩展至二阶贝叶斯分类器,其数据拟合度将大大提升,从而在面对大数据问题时能够有更优的表现。
其次,采用属性分级的策略,有助于网络在训练数据不够充分的情况下,降低稀有数据样本对网络的影响,从而减小分类器的数据敏感度,能够防止过拟合的现象发生。
由于TAN受限于其阶数,面对大数据时会出现拟合度不足的情况,故而将其扩展至二阶以期提升其拟合度,进而增加分类的准确性,同时采用属性分级的策略来降低网络的数据敏感度,防止其出现过拟合的情况,通过该方法对获取数据的准确性方面得到显著提升,提高了数据提炼或者数据挖掘的匹配概率,在大数据环境下降低了过拟合现象,能够更加准确的抓取数据,提高了数据挖掘精确度。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为现有技术朴素贝叶斯分类器的结构示意图;
图2为现有技术树增广贝叶斯分类器的结构示意图;
图3本发明二阶依赖树增广贝叶斯分类器的网络构建流程图;
图4本发明二阶依赖树增广贝叶斯分类器的网络结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图3所示,本发明提供了一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,包括如下步骤:
S1,获取海量数据,根据该数据的属性通过贝叶斯网络进行训练学习;
假设一个考生就是一个数据单元,考试通过与否的结果对应的就是分类属性变量C,C=1表示该生考上了,C=0表示该生没有考上。同时,又通过一些属性变量X来进行描述考生这样一个数据单元,比如,用X1表示考生的笔试成绩,X2表示考生的面试成绩等等。现在假设我的数据库中共有N个这样的考生作为数据单元,我能够知道每一个考生的各个分类属性变量C的取值。假设这N个考生中有P个通过了考试,而N-P个没有通过,我就能够从统计学的角度计算出,
Figure BDA0000998612190000071
这样就得到了分类属性变量C的先验概率P(C)。另一方面,此时我知道每一个考生的属性变量的取值,我们以X1=1表示这个考生的笔试成绩优秀,X1=0,表示该考生笔试成绩不优秀,再假设笔试成绩优秀并通过了考试的考生有P1个,笔试成绩不优秀通过了考试的考生为P2个,进而从统计学的角度可以得到
Figure BDA0000998612190000081
通过更多的这样的统计参数就可以利用统计学原理得到条件概率质量函数P(Xi|C)。得到了这两个参数网络的训练就完成了。就可以进入网络构建的阶段了。
或者假设一组海量的医疗病例图片就是一个数据单元,该海量图片对同一区域或者类似区域进行图像采集,是否存在病灶的图片就是分类属性变量C,C=1表示产生病变坏死区域,C=0表示没有产生病变坏死区域,或者解释为正常的生理图片。同时,又通过其它一些属性变量Xi来进行描述相关区域的状态信息,比如,用X1表示血红蛋白偏高,X2表示血小板数量偏低等等。现在假设图片数据库中共有N个这样的病例图片作为数据单元,我能够知道每一个疑似患病区域图片的分类属性变量C的取值。假设这N个疑似患病区域图片中有P个匹配为已经产生病变坏死区域,而N-P个没有产生病变坏死区域,我就能够从统计学的角度计算出,
Figure BDA0000998612190000082
这样就得到了分类属性变量C的先验概率P(C)。另一方面,此时我知道每一个疑似患病区域图片的属性变量的取值,我们以X1=1表示这个产生病变坏死区域很严重,X1=0,表示该产生病变坏死区域不严重,再假设产生病变坏死区域很严重有P1个,产生病变坏死区域不严重为P2个,进而从统计学的角度可以得到
Figure BDA0000998612190000083
通过更多的这样的统计参数就可以利用统计学原理得到条件概率质量函数P(Xi|C)。得到了这两个参数网络的训练就完成了。就可以进入网络构建的阶段了。
从抽象的角度来讲,叙述如下:
在网络建立之前,需要选择好与分类属性C相关的属性变量Xi(此处假设共有N个属性变量)。然后,获取得到数据库中各个数据单元的属性变量X1到XN的取值,再从运用统计学的方法来计算分类属性变量C的先验概率P(C)和各个属性变量Xi的条件概率质量函数P(Xi|C)。
S2,向贝叶斯分类器中引入了属性分级的策略方法,将树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器;
向贝叶斯分类器中引入了属性分级的策略包括:
在2D-TAN中,每一个属性变量都将归属于某一个属性等级;在2D-TAN中,首先需要对各个属性变量依照其与类变量之间的互信息
Figure BDA0000998612190000091
排序;之后每个属性变量
Figure BDA0000998612190000092
都将有一个信息集合Yi *满足,
Figure BDA0000998612190000093
这一集合中包括了该属性变量
Figure BDA0000998612190000094
与类变量C之间的互信息
Figure BDA0000998612190000095
以及
Figure BDA0000998612190000096
与所有排序在其之前的属性变量的条件互信息值
Figure BDA0000998612190000097
在信息集合Yi *中,数值最大的元素决定了属性变量
Figure BDA0000998612190000098
的属性等级;若数值最大的元素为
Figure BDA0000998612190000099
则属性变量
Figure BDA00009986121900000910
的属性等级为1级;若数值最大的元素为
Figure BDA00009986121900000911
且属性变量
Figure BDA00009986121900000912
的属性等级为n级,则属性变量
Figure BDA00009986121900000913
的属性等级为n+1级。
将原有的树增广贝叶斯分类器扩展成为一个二阶的贝叶斯分类器,包括:
在2D-TAN中,2级及2级以上的属性变量
Figure BDA00009986121900000914
需要在其上一属性等级的属性变量或同级且排序在
Figure BDA00009986121900000915
之前的属性变量中选择至多两个条件互信息量
Figure BDA00009986121900000916
的数值最大或第二大的属性变量
Figure BDA00009986121900000917
(当满足要求的节点少于两个时,可以只选择一个)作为属性变量
Figure BDA00009986121900000918
的父节点。
如图4所示,S3,建立二阶依赖树增广贝叶斯分类器,将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据,根据数据的属性对该数据进行分类匹配,从而准确得到该属性的数据。
二阶依赖树增广贝叶斯分类器的结构设计方法的流程包括:
步骤1,开始;
步骤2,通过训练得到,分类属性变量C的先验概率的概率质量函数P(C),其他属性变量的先验概率的概率质量函数P(Xi)及其条件概率质量函数P(Xi|C),各个属性之间的联合先验概率质量函数P(Xi,Xj),以及各属性间的条件联合概率质量函数P(Xi,Xj|C);
步骤3,经过计算得到各个属性变量Xi与类变量C之间的互信息I(Xi;C)和各个属性变量之间的条件互信息I(Xi;Xj|C);
步骤4,依据I(Xi;C)对所有属性变量进行排序得到有序的属性变量
Figure BDA0000998612190000101
步骤5,在网络结构中添加类变量C节点;
步骤6,向网络中添加第一个属性变量节点
Figure BDA0000998612190000102
并在
Figure BDA0000998612190000103
与C之间添加一条弧,指向
Figure BDA0000998612190000104
并将其归类为1级属性;
重复步骤7至步骤9,直到所有属性变量节点均添加到了网络中;
步骤7,建立属性变量
Figure BDA0000998612190000105
的信息集合Yi *,满足
Figure BDA0000998612190000106
步骤8,找出Yi *中最大的元素;若该元素为
Figure BDA0000998612190000107
则在
Figure BDA0000998612190000108
与C之间添加一条弧,指向
Figure BDA0000998612190000109
并将
Figure BDA00009986121900001010
归类为1级属性;若该元素为
Figure BDA00009986121900001011
则在
Figure BDA00009986121900001012
与C之间添加一条弧,指向
Figure BDA00009986121900001013
并在则在
Figure BDA00009986121900001014
Figure BDA00009986121900001015
之间添加一条弧,指向
Figure BDA00009986121900001016
Figure BDA00009986121900001017
属于第n级属性,则将
Figure BDA00009986121900001018
归类为第n+1级属性;
步骤9,若n+1≥2,则需要建立属性变量
Figure BDA00009986121900001019
的属性级别信息集合Yi *(class),其中仅包含了n级与n+1级的已添加至网络中的属性变量与
Figure BDA00009986121900001020
的条件互信息,找出Yi *(class)中第二大的元素
Figure BDA00009986121900001021
并在则在
Figure BDA00009986121900001022
Figure BDA00009986121900001023
之间添加一条弧,指向
Figure BDA0000998612190000111
步骤10,判断是否还有属性变量尚未添加到网络中,若没有,则跳转步骤11;若有则按照之前的排序,选择下一属性变量并回到步骤7;
步骤11,结束。
S4,网络搭建完成后的贝叶斯网络的使用方法。
在网络搭建完成后,又怎么使用这个网络来进行数据分类呢。还是沿用之前的考生的例子。现在我们有了一批还没有参加公务员考试的考生,他们想知道自己考上的概率有多大。于是,他们就按照自己的情况,把网络中各项分类属性变量的取值填入了网络中,比如某一考生笔试成绩优秀,则此时向网络中的属性变量X1赋值为1,这一考生的面试成绩不优秀,则X2赋值为0,等等。他将所有的属性变量完成赋值后,网络将会计算得到分类属性变量C的一个后验概率,而这一概率就表征了这一考生通过这次考试的概率。
或者以海量的医疗病例图片为例子。现在我们有了一批还没有对同一区域进行图片分析的海量图像数据,如果想知道患病概率有多大。于是,他们就按照自己的情况,把依赖树网络中各项分类属性变量的取值填入了依赖树网络中,比如某一血红蛋白偏高,则此时向网络中的属性变量X1赋值为1,某一血小板数量偏低,则X2赋值为0,等等。他将所有的属性变量完成赋值后,网络将会计算得到分类属性变量C的一个后验概率,而这一概率就表征了这一区域是否为产生病变坏死的区域。
从抽象的角度叙述如下:
网络搭建完成后,当数据单元需要经过网络进行数据分类时,需要根据这一数据的实际情况,向网络中的各个属性变量赋值,网络经过计算以后,将会得到这一数据的分类属性变量C的后验概率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (2)

1.一种用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,其特征在于,包括如下步骤:
S1,获取海量的医疗病例图片为数据单元,该海量图片对同一区域或者类似区域进行图像采集,是否存在病灶的图片就是分类属性变量C,C=1表示产生病变坏死区域,C=0表示没有产生病变坏死区域,通过属性变量Xi来进行描述相关区域的状态信息,用X1表示血红蛋白偏高,X2表示血小板数量偏低,假设图片数据库中共有N个这样的病例图片作为数据单元,对每一个疑似患病区域图片的分类属性变量C进行取值,假设这N个疑似患病区域图片中有P个匹配为已经产生病变坏死区域,而N-P个没有产生病变坏死区域,计算出,
Figure FDA0002313189760000011
得到了分类属性变量C的先验概率P(C),每一个疑似患病区域图片属性变量的取值,以Xj=1表示这个产生病变坏死区域很严重,Xj=0,表示该产生病变坏死区域不严重,再假设产生病变坏死区域很严重有P1个,产生病变坏死区域不严重为P2个,得到
Figure FDA0002313189760000012
得到条件概率质量函数P(Xj|C),然后执行S2,
S2,向贝叶斯分类器中引入了属性分级的策略方法,将树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器;
所述S2中向贝叶斯分类器中引入了属性分级的策略包括:
在2D-TAN中,每一个疑似患病区域图片属性变量都将归属于一个属性等级;在2D-TAN中,首先需要对各个疑似患病区域图片属性变量依照其与分类属性变量之间的互信息
Figure FDA0002313189760000021
排序;之后每个疑似患病区域图片属性变量
Figure FDA0002313189760000022
都将生成一个信息集合Yi *,满足
Figure FDA0002313189760000023
这一集合中包括了该属性变量
Figure FDA0002313189760000024
与分类属性变量C之间的互信息
Figure FDA0002313189760000025
以及
Figure FDA0002313189760000026
与所有排序在其之前的属性变量的条件互信息值
Figure FDA0002313189760000027
在信息集合Yi *中,数值最大的元素决定了属性变量
Figure FDA0002313189760000028
的属性等级;若数值最大的元素为
Figure FDA0002313189760000029
则属性变量
Figure FDA00023131897600000210
的属性等级为1级;若数值最大的元素为
Figure FDA00023131897600000211
且属性变量
Figure FDA00023131897600000212
的属性等级为n级,则属性变量
Figure FDA00023131897600000213
的属性等级为n+1级,其中下标i,j分别表示第i个或第j个属性变量的序号;
S3,建立二阶依赖树增广贝叶斯分类器,将建立完成的二阶依赖树增广贝叶斯分类器导入所获取的数据,根据数据的属性对该数据进行分类匹配,从而准确得到该属性的数据;
进行图片分析的海量图像数据使用建立完成的二阶依赖树增广贝叶斯分类器,把依赖树网络中各项分类属性变量的取值填入了依赖树网络中,某一血红蛋白偏高,则此时向网络中的属性变量X1赋值为1,某一血小板数量偏低,则X2赋值为0,将所有的属性变量完成赋值后,网络将会计算得到分类属性变量C的一个后验概率,而这一概率就表征了这一区域是否为产生病变坏死的区域。
2.根据权利要求1所述的用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法,其特征在于,所述S2中的树增广贝叶斯分类器扩展成为二阶的贝叶斯分类器包括:
在2D-TAN中,2级及2级以上的属性变量
Figure FDA00023131897600000214
需要在其上一属性等级的属性变量或同级且排序在
Figure FDA0002313189760000031
之前的属性变量中选择至多两个条件互信息量
Figure FDA0002313189760000032
的数值最大或第二大的属性变量
Figure FDA0002313189760000033
作为属性变量
Figure FDA0002313189760000034
的父节点。
CN201610351706.1A 2016-05-24 2016-05-24 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法 Active CN106021524B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610351706.1A CN106021524B (zh) 2016-05-24 2016-05-24 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610351706.1A CN106021524B (zh) 2016-05-24 2016-05-24 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

Publications (2)

Publication Number Publication Date
CN106021524A CN106021524A (zh) 2016-10-12
CN106021524B true CN106021524B (zh) 2020-03-31

Family

ID=57094595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610351706.1A Active CN106021524B (zh) 2016-05-24 2016-05-24 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法

Country Status (1)

Country Link
CN (1) CN106021524B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106897743B (zh) * 2017-02-22 2020-05-05 广州市勤思网络科技有限公司 基于贝叶斯模型的移动考勤防作弊大数据检测方法
CN108846838B (zh) * 2018-06-04 2021-05-11 卢龙 一种三维mri半自动病灶图像分割方法及系统
CN110532572A (zh) * 2019-09-12 2019-12-03 四川长虹电器股份有限公司 基于tan树形朴素贝叶斯的拼写检查方法
CN111274349B (zh) * 2020-01-21 2020-12-15 北方工业大学 一种基于信息熵的公共安全数据分级索引方法及装置
CN111275129A (zh) * 2020-02-17 2020-06-12 平安科技(深圳)有限公司 一种图像数据的增广策略选取方法及系统
CN111488138B (zh) * 2020-04-10 2023-08-04 杭州顺藤网络科技有限公司 一种基于贝叶斯算法和余弦算法的b2b推荐引擎
WO2024045005A1 (zh) * 2022-08-31 2024-03-07 上海健康医学院 一种基于动态贝叶斯网络分类器的数据分类方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102956023A (zh) * 2012-08-30 2013-03-06 南京信息工程大学 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102956023A (zh) * 2012-08-30 2013-03-06 南京信息工程大学 一种基于贝叶斯分类的传统气象数据与感知数据融合的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《基于关联规则属性约简的树增广朴素贝叶斯分类器及应用》;王晓龙;《中国优秀硕士学位论文全文数据库CNKI》;20141031;第1-64页 *
《混合树增广朴素贝叶斯分类模型》;崔丽梅等;《计算机工程与设计》;20090930;第30卷(第9期);正文第2254-2256、2273页 *
Josep Roure Alcob'e.《Incremental Learning of Tree Augmented Naive Bayes Classifiers》.《Springer》.2002,正文第32-41页. *

Also Published As

Publication number Publication date
CN106021524A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021524B (zh) 用于大数据挖掘的二阶依赖树增广贝叶斯分类器工作方法
Wu et al. Cascaded fully convolutional networks for automatic prenatal ultrasound image segmentation
Abd Elaziz et al. Medical Image Classification Utilizing Ensemble Learning and Levy Flight‐Based Honey Badger Algorithm on 6G‐Enabled Internet of Things
US20220093270A1 (en) Few-Shot Learning and Machine-Learned Model for Disease Classification
CN109448854A (zh) 一种肺结核检测模型的构建方法及应用
Ahmed et al. TDTD: Thyroid disease type diagnostics
CN107292103A (zh) 一种预测图像生成方法及装置
Nayeem et al. Prediction of disease level using multilayer perceptron of artificial neural network for patient monitoring
Gopalakrishnan et al. cMRI-BED: A novel informatics framework for cardiac MRI biomarker extraction and discovery applied to pediatric cardiomyopathy classification
CN113850753A (zh) 医学图像信息计算方法、装置、边缘计算设备和存储介质
Gemmar An interpretable mortality prediction model for COVID-19 patients–alternative approach
Hung et al. Estimating breast cancer risks using neural networks
Tobin et al. Using a patient image archive to diagnose retinopathy
CN114974508B (zh) 一种运动处方的生成装置及电子设备
Ciecholewski Ischemic heart disease detection using selected machine learning methods
Apaydin et al. Deep convolutional neural networks using U-net for automatic intervertebral disc segmentation in axial MRI
CN114913984A (zh) 基于区块链的神经网络联邦学习方法与系统
CN115359917A (zh) 基于含时空多重注意力残差机制的患者识别方法及其系统
Marchesi et al. Mitigating health data poverty: generative approaches versus resampling for time-series clinical data
CN108346471A (zh) 一种病理数据的分析方法及装置
AlQaralleh et al. Fusion Based Tongue Color Image Analysis Model for Biomedical Applications.
Hu et al. Research on Early Warning Model of Cardiovascular Disease Based on Computer Deep Learning
Zahari et al. Quantifying the Uncertainty in 3D CT Lung Cancer Images Classification
Marticorena et al. Contrast response function estimation with nonparametric Bayesian active learning
Aakkara et al. Comparing Classifiers for the Prediction of the Stenosis of Coronary Artery

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant