CN108304887A - 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 - Google Patents
基于少数类样本合成的朴素贝叶斯数据处理系统及方法 Download PDFInfo
- Publication number
- CN108304887A CN108304887A CN201810165353.5A CN201810165353A CN108304887A CN 108304887 A CN108304887 A CN 108304887A CN 201810165353 A CN201810165353 A CN 201810165353A CN 108304887 A CN108304887 A CN 108304887A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- naive bayesian
- minority class
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 22
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 22
- 230000006835 compression Effects 0.000 claims abstract description 21
- 238000007906 compression Methods 0.000 claims abstract description 21
- 238000007405 data analysis Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000005516 engineering process Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 25
- 238000005070 sampling Methods 0.000 claims description 12
- 238000013459 approach Methods 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 10
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000013398 bayesian method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000000205 computational method Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 238000009499 grossing Methods 0.000 abstract description 2
- 238000003745 diagnosis Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 206010012601 diabetes mellitus Diseases 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000474 nursing effect Effects 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000762 glandular Effects 0.000 description 1
- 239000005433 ionosphere Substances 0.000 description 1
- 239000010985 leather Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
本发明公开了一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法,系统包括医疗信息数据库、数据预处理模块和数据分析模块,医疗信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接,医疗信息数据库,用于存储医疗信息数据包;数据预处理模块,用于对数据进行空缺值填补;所述数据分析模块包含有:数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块,所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接,通过对医疗数据进行缺失填补、平滑处理、剔除冗余和准确分析预测,以达到确保医疗数据的完整性,使对医疗数据的判读更为准确的目的。
Description
技术领域
本发明涉及计算机医疗应用领域,具体涉及一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法。
背景技术
物联网医疗诊断系统(MIoT)旨在通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。近年来,由人工智能、医用机器人和数字化辅助医疗技术等相结合的智能医疗技术,正引领新一轮的医疗变革。智能医疗技术开始贯穿于诊断、手术、护理和康复等医疗的各个环节。在临床诊断过程中,医院一直依赖医务人员来检查乳腺细胞活动。由于医务人员
智慧医疗旨在通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。近年来,由人工智能、医用机器人和数字化辅助医疗技术等相结合的智能医疗技术,正引领新一轮的医疗变革。智能医疗技术开始贯穿于诊断、手术、护理和康复等医疗的各个环节。在临床诊断过程中,医院一直依赖心电图作为监测病人心脏电活动的仪器。由于纸张易破碎且热敏纸字迹不稳定、易消退,多数纸质心电图都遭到了不同程度的破坏。
尽管研究人员在此研究领域上已经取得了一些成果,但由于传统的数据处理方法并不能很好的解决数据的不平衡性,而且以往的特征筛选方法不是效率低就是处理后的数据识别率低,对后续机器学习的模型建立与训练上有很大的影响,所以部分研究人员尝试引入基于趋势得分法填补样本数据和SMOTE-R-ENN数据平衡方法,进一步提高乳腺癌数据诊断预测的性能。现有医疗数据预处理提取和诊断预测模型包含如下几方面缺点:
(1)数据的不完整性
临床采集的乳腺癌数据往往是不完整的,传统的缺失数据的处理方法是删除个例,也就是说如果一记录某个变量值缺失,就把该记录删除,只保留完全的记录。这种方法以减少样本量来换取信息的完备,丢弃了大量隐藏在含有缺失值对象中的信息,尤其当样本量较小时,该方法可能严重影响到数据的客观性和结果的正确性。
(2)数据的高维度
现有的特征选择算法依据评价策略主要分为滤波器方法(Filter)及嵌入式方法(Warpper),Filter与后续学习算法无关,一般直接利用所有训练数据的统计性能评估特征,速度快,但评估与后续学习算法的性能偏差较大。Wrapper利用后续学习算法的训练准确率评估特征子集,偏差小,计算量大,不适合大数据集。
(3)数据不平衡性
现有的SMOTE数据平衡方法,只是在原有的基础上将数据平衡,这样做的结果只会增加数据量,对后续Wrapper方法筛选冗余特征这一步骤的时间效率上产生负面的影响。
(4)朴素贝叶斯的特征假设独立性缺陷
朴素贝叶斯分类方法因其实现简单、处理高效的特点被广泛应用于医疗诊断领域。然而,朴素贝叶斯方法在估计条件概率时,假设数据特征之间是同等重要且条件独立的,该假设在实际情况中很难满足,数据特征之间往往存在着相关性。
发明内容
为解决上述技术问题,本发明提出了一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法,以达到确保医疗数据的完整性,使对医疗数据的判读更为准确的目的。
为达到上述目的,本发明的技术方案如下:一种基于少数类样本合成的朴素贝叶斯数据处理系统,所述系统包括医疗信息数据库、数据预处理模块和数据分析模块,所述医疗信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接,所述医疗信息数据库,用于存储医疗信息数据包;所述数据预处理模块,用于对数据进行空缺值填补;所述数据分析模块包含有:数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块,所述数据平衡压缩模块,用于对数据进行平滑处理和压缩处理;所述Wrapper特征选择模块,用于剔除数据中的冗余特征;所述朴素贝叶斯分析预测模块,用于对数据进行分析预测,所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接。
进一步地,所述数据平衡压缩模块是利用趋势得分法对每个缺失变量的所有观测,均生成一个趋势得分,该得分用来估计每个观测在该变量上发生缺失的概率。然后,根据趋势得分,将所有观测分成若干组,对每组观测采用近似贝叶斯自助法进行插补。
进一步地,所述数据平衡压缩模块利用少数类样本合成数据平衡法对数据进行平滑和压缩处理。
进一步地,所述Wrapper特征选择模块利用Wrapper特征选择法对数据进行特征提取。
进一步地,所述朴素贝叶斯分析预测模块采用朴素贝叶斯算法对数据建模并分析预测。
一种基于少数类样本合成的朴素贝叶斯数据处理方法,通过多重插补-趋势得分法对原始医疗数据进行数据填补,对于填补后的医疗数据,通过基于少数类样本合成技术新型朴素贝叶斯算法进行数据分析,将分析后的结果反馈给用户,以便于用户可以准确的了解自己的身体状况,实现智能化识别和管理,所述方法步骤如下:
步骤1:采用多重插补-趋势得分法对数据的缺失值进行填补;
步骤2:将步骤1处理后的数据,通过少数类样本合成技术进行平滑处理,从而降低数据的大小和不平衡性;
步骤3:将经过少数类样本合成技术处理后的数据进行Wrapper特征选择,剔除数据的冗余特征;
步骤4:对步骤3剔除冗余特征的数据进行朴素贝叶斯方法分析预测,并将分析预测的结果通过设备反馈给医疗机构和用户。
进一步地,所述步骤1中的多重插补-趋势得分法对每个缺失变量的所有观测均生成一个趋势得分,该得分用来估计每个观测在该变量上发生缺失的概率,然后,根据趋势得分,将所有观测分成若干组,对每组观测采用近似贝叶斯自助法进行插补,具体步骤如下:
步骤1.1:创建一个指示变量Ri,其取值为:
步骤1.2:以协变量x1、x2、...、xk来估计Yi发生缺失的概率pi,并计算趋势得分的值,以该值来衡量各观测中发生缺失的概率大小:
pi=P(Ri=0|x1,x2,…,xk)
logit(pi)=β0+β1x1+β2x2+…+βkxk
步骤1.3:根据趋势得分的值,将所有观测分为多组;
步骤1.4:对每组观测采用近似贝叶斯自助法进行插补,在第j组中,以Yobs表示n1个未发生缺失的观测集,以Ymis表示n0个发生缺失的观测集,从Yobs中有放回地随机抽取n0个观测值,对进行插补,重复上述过程,直至每个缺失值都插补完成。
进一步地,所述步骤2中的少数类样本合成技术目的在于提高Wrapper特征选择方法的效率,减小数据集的大小从而提高Wrapper特征选择方法的效率,少数类样本合成技术数据重抽样方法主要集成SMOTE和ENN两种方法的优点,并设置阀值R,通过对R的调整,选择出最合适的数据抽样点,另外,为了解决朴素贝叶斯假设特征独立性的缺点,对决策不利的特征必须尽可能的减少,具体步骤如下:
设训练样本集为T,有m个样本数{xi,yi},i=1,2,…,m,xi是n维特征空间X中的一个样本,yi∈Y={-1,1},代表xi的样本类别.定义ms为少数类样本,定义为多数类样本的数量,则ms≤ml,ms+ml=m,设训练样本集为T,对于训练样本集,设定不同的G-mean值,且对R进行初始化;
步骤2.1:对少数类中的每一个样本x,以欧几里得距离为标准计算它到少数类样本集中每个样本的距离,计算方法如下:
获得其k个最近邻,并记录近邻样本的下标;
步骤2.2:根据数据集中不平衡的比率U设置的采样倍率N,对每一个少数类样本x,从其k个最近邻中随机选择合适的个数,假设其中一个为yij,在x与yij之间进行随机线性插值;
步骤2.3:应用每一个随机选出的近邻yij,分别与原样本按照如下公式,构造出新的少数类样本。即新样本:
Pj=xi+rand(0,1)×(yij-xi)
步骤2.4:预先设定一个R(R>1)初始值且,并根据R值,并对数据集T',使用ENN算法对样本集中的多数类样本进行处理,减少多数类样本的数量,同时删除样本集中的噪声,形成一个新的样本集;
步骤2.5:计算新样本集数据不平衡的程度,将步骤2.4处理后样本,以朴素贝叶斯算法为评价准则,根据算法的灵敏度等指标判断数据集的不平衡度,选择最合适的R,直到数据集满足要求,生成新的数据集T”,否则进入步骤2.3;
步骤2.6:将处理后数据集T”,使用Wrapper特征选择方法,其中评价指标为朴素贝叶斯分类性能,将筛选后的数据集(T”')用于算法的模型训练中;
进一步地,所述步骤3中的Wrapper方法是搜索策略和机器学习算法相结合,选择出最终的算法达到较高的特征子集,首先假如有p个特征,那么就会有2p种特征组合,每种组合对应了一个模型,所述搜索策略为前向搜索,所述机器学习算法:朴素贝叶斯算法,Wrapper特征选择方法具体包括以下步骤:
步骤3.1:初始化特征向量F为空即F=Φ;
步骤3.2:循环n趟直至达到设定点;
for i=1,...,n;then Fi=F∪{i},然后利用交叉验证算法计算Fi的训练误差,令F等于训练误差最小的Fi;
步骤3.3:输出最终训练误差最小的特征向量的子集。
进一步地,所述步骤4是将步骤3处理后的数据集应用于朴素贝叶斯分类器,其中贝叶斯分类方法基于贝叶斯定理,其关键在于使用概率表示各种形式的不确定性,即通过变换事件的先验概率及后验概率,配合决定分类特性的各属性彼此间是相互独立的假设来预测分类的结果,具体步骤如下:
步骤4.1:设数据集T”'用一个n维特征向量来描述n个属性的值,即:
A={a1,a2,...,an}
则给定一个未知的数据集,得到的最有可能的目标值为:
Vmap=argmaxP(Vj|a1,a2,...,an)
其中Vj∈V
步骤4.2:假设有m个
类别,分别用V1,V2,...,Vm表示,给定一个未知数据集X(没有类别号),根据贝叶斯定理得出:
由于P(X)对于所有类为常数,因此,最大后验概率P(Vi|X)可以转化为最大先验概率P(X|Vi)P(Vi);
步骤4.3:由于朴素贝叶斯假设各个属性之间相互独立,即:
其中先验概率p(xk|Vi),k∈1,2,...,n可从训练数据中求得,利用处理好的数据进行决策。
本发明具有如下优点:
(1).本发明通过多重插补-趋势得分法对数据的缺失值进行填补,提高了数据的精准度。
(2).本发明通过少数类样本合成技术进行平滑处理,从而降低数据的大小和不平衡性,使后期的数据分析更为准确。
(3).本发明通过朴素贝叶斯方法对医疗数据进行准确的分析预测,提高判断数据的准确性,为医疗数据诊断提供可靠依据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例公开的基于少数类样本合成的朴素贝叶斯数据处理系统功能模块图;
图2为本发明实施例公开的基于少数类样本合成的朴素贝叶斯数据处理方法流程图;
图3为本发明中少数类样本合成技术数据重抽样的Specificity Accuracy指标结果图;
图4为本发明中少数类样本合成技术数据重抽样的Sensitivity Accuracy指标结果图;
图5为本发明中少数类样本合成技术数据重抽样的MCC指标结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明提供了一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法,其工作原理是通过对医疗数据进行缺失填补、平滑处理、剔除冗余和准确分析预测,以达到确保医疗数据的完整性,使对医疗数据的判读更为准确的目的。
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
如图1和图2所示,一种基于少数类样本合成的朴素贝叶斯数据处理系统,所述系统包括医疗信息数据库1、数据预处理模块2和数据分析模块3,所述医疗信息数据库1、数据预处理模块2和数据分析模块3三者均通过网络设备进行连接,所述医疗信息数据库1,用于存储医疗信息数据包;所述数据预处理模块2,用于对数据进行空缺值填补;所述数据分析模块3包含有:数据平衡压缩模块301、Wrapper特征选择模块302和朴素贝叶斯分析预测模块303,所述数据平衡压缩模块301,用于对数据进行平滑处理和压缩处理;所述Wrapper特征选择模块302,用于剔除数据中的冗余特征;所述朴素贝叶斯分析预测模块303,用于对数据进行分析预测,所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接。
其中,所述数据平衡压缩模块301是利用趋势得分法对每个缺失变量的所有观测,均生成一个趋势得分,该得分用来估计每个观测在该变量上发生缺失的概率。然后,根据趋势得分,将所有观测分成若干组,对每组观测采用近似贝叶斯自助法进行插补。
其中,所述数据平衡压缩模块301利用少数类样本合成数据平衡法对数据进行平滑和压缩处理。
其中,所述Wrapper特征选择模块302利用Wrapper特征选择法对数据进行特征提取。
其中,所述朴素贝叶斯分析预测模块303采用朴素贝叶斯算法对数据建模并分析预测。
一种基于少数类样本合成的朴素贝叶斯数据处理方法,通过多重插补-趋势得分法对原始医疗数据进行数据填补,对于填补后的医疗数据,通过基于少数类样本合成技术新型朴素贝叶斯算法进行数据分析,将分析后的结果反馈给用户,以便于用户可以准确的了解自己的身体状况,实现智能化识别和管理,所述方法步骤如下:
步骤1:采用多重插补-趋势得分法对数据的缺失值进行填补;
步骤2:将步骤1处理后的数据,通过少数类样本合成技术进行平滑处理,从而降低数据的大小和不平衡性;
步骤3:将经过少数类样本合成技术处理后的数据进行Wrapper特征选择,剔除数据的冗余特征;
步骤4:对步骤3剔除冗余特征的数据进行朴素贝叶斯方法分析预测,并将分析预测的结果通过设备反馈给医疗机构和用户。
其中,所述步骤1中的多重插补-趋势得分法对每个缺失变量的所有观测均生成一个趋势得分,该得分用来估计每个观测在该变量上发生缺失的概率,然后,根据趋势得分,将所有观测分成若干组,对每组观测采用近似贝叶斯自助法进行插补,具体步骤如下:
步骤1.1:创建一个指示变量Ri,其取值为:
步骤1.2:以协变量x1、x2、...、xk来估计Yi发生缺失的概率pi,并计算趋势得分的值,以该值来衡量各观测中发生缺失的概率大小:
pi=P(Ri=0|x1,x2,…,xk)
logit(pi)=β0+β1x1+β2x2+…+βkxk
步骤1.3:根据趋势得分的值,将所有观测分为多组;
步骤1.4:对每组观测采用近似贝叶斯自助法进行插补,在第j组中,以Yobs表示n1个未发生缺失的观测集,以Ymis表示n0个发生缺失的观测集,从Yobs中有放回地随机抽取n0个观测值,对进行插补,重复上述过程,直至每个缺失值都插补完成。
其中,所述步骤2中的少数类样本合成技术目的在于提高Wrapper特征选择方法的效率,减小数据集的大小从而提高Wrapper特征选择方法的效率,少数类样本合成技术数据重抽样方法主要集成SMOTE和ENN两种方法的优点,并设置阀值R,通过对R的调整,选择出最合适的数据抽样点,另外,为了解决朴素贝叶斯假设特征独立性的缺点,对决策不利的特征必须尽可能的减少,具体步骤如下:
设训练样本集为T,有m个样本数{xi,yi},i=1,2,…,m,xi是n维特征空间X中的一个样本,yi∈Y={-1,1},代表xi的样本类别.定义ms为少数类样本,定义为多数类样本的数量,则ms≤ml,ms+ml=m,设训练样本集为T,对于训练样本集,设定不同的G-mean值,且对R进行初始化;
步骤2.1:对少数类中的每一个样本x,以欧几里得距离为标准计算它到少数类样本集中每个样本的距离,计算方法如下:
获得其k个最近邻,并记录近邻样本的下标;
步骤2.2:根据数据集中不平衡的比率U设置的采样倍率N,对每一个少数类样本x,从其k个最近邻中随机选择合适的个数,假设其中一个为yij,在x与yij之间进行随机线性插值;
步骤2.3:应用每一个随机选出的近邻yij,分别与原样本按照如下公式,构造出新的少数类样本。即新样本:
Pj=xi+rand(0,1)×(yij-xi)
步骤2.4:预先设定一个R(R>1)初始值且,并根据R值,并对数据集T',使用ENN算法对样本集中的多数类样本进行处理,减少多数类样本的数量,同时删除样本集中的噪声,形成一个新的样本集;
步骤2.5:计算新样本集数据不平衡的程度,将步骤2.4处理后样本,以朴素贝叶斯算法为评价准则,根据算法的灵敏度等指标判断数据集的不平衡度,选择最合适的R,直到数据集满足要求,生成新的数据集T”,否则进入步骤2.3;
步骤2.6:将处理后数据集T”,使用Wrapper特征选择方法,其中评价指标为朴素贝叶斯分类性能,将筛选后的数据集(T”')用于算法的模型训练中;
其中,所述步骤3中的Wrapper方法是搜索策略和机器学习算法相结合,选择出最终的算法达到较高的特征子集,首先假如有p个特征,那么就会有2p种特征组合,每种组合对应了一个模型,所述搜索策略为前向搜索,所述机器学习算法:朴素贝叶斯算法,Wrapper特征选择方法具体包括以下步骤:
步骤3.1:初始化特征向量F为空即F=Φ;
步骤3.2:循环n趟直至达到设定点;
for i=1,...,n;then Fi=F∪{i},然后利用交叉验证算法计算Fi的训练误差,令F等于训练误差最小的Fi;
步骤3.3:输出最终训练误差最小的特征向量的子集。
其中,所述步骤4是将步骤3处理后的数据集应用于朴素贝叶斯分类器,其中贝叶斯分类方法基于贝叶斯定理,其关键在于使用概率表示各种形式的不确定性,即通过变换事件的先验概率及后验概率,配合决定分类特性的各属性彼此间是相互独立的假设来预测分类的结果,具体步骤如下:
步骤4.1:设数据集T”'用一个n维特征向量来描述n个属性的值,即:
A={a1,a2,...,an}
则给定一个未知的数据集,得到的最有可能的目标值为:
Vmap=argmaxP(Vj|a1,a2,...,an)
其中Vj∈V
步骤4.2:假设有m个
类别,分别用V1,V2,...,Vm表示,给定一个未知数据集X(没有类别号),根据贝叶斯定理得出:
由于P(X)对于所有类为常数,因此,最大后验概率P(Vi|X)可以转化为最大先验概率P(X|Vi)P(Vi);
步骤4.3:由于朴素贝叶斯假设各个属性之间相互独立,即:
其中先验概率p(xk|Vi),k∈1,2,...,n可从训练数据中求得,利用处理好的数据进行决策。
本发明数据采用UCI机器学习标准评测数据集[1]。选择了其中6个数据集进行实验,并选择WDBC数据集作为诊断预测数据,数据集的具体信息如表1所示:
Dataset | Sample Size | Attribute | Class |
Magic | 19020 | 10 | 2 |
Spambase | 4601 | 57 | 2 |
Eight | 2534 | 72 | 2 |
Diabetes | 768 | 8 | 2 |
Ionosphere | 351 | 34 | 2 |
Sonar | 208 | 60 | 2 |
Wdbc | 569 | 30 | 2 |
表1
采用10层交叉(10-fold Cross Validation)的方法进行验证,分别记录其Accuracy、Sensitivity Accuracy、Specificity Accuracy以及MCC,最后求得平均值,即可得出分类算法的性能。为了验证本文提出的算法,实验分为三部分。首先,使用SMOTE-R-ENN方法对数据集进行重抽样,通过设置不同的R因子,将数据的不平衡性和实例数降低;其次,通过Wrapper方法将实验1处理好的数据进行特征筛选;最后,对比本文的算法与几个传统的算法比较,并与近期他人提出的方法进行比较。并将其应用于WDBC医疗数据诊断预测中。
少数类样本合成重抽样技术
首先对数据集进行SMOTE抽样,增加少数类的样本数,同时降低数据集的不平衡性,
具体实验结果如表2所示:
表2
由表2可知,当设置R为0(仅使用SMOTE方法)时,经过处理后的数据集,数据的灵敏度有了明显的提高,但是特异性普遍降低,因此仅仅经过SMOTE处理并不能从根本上改变数据的不平衡。通过调整R因子,使用ENN算法对数据进行多次迭代抽样,选择抽样效果最佳的迭代因子R,为了验证抽样后的数据是否还具有其原有特征,在这里我们使用朴素贝叶斯算法的分类性能作为评价指标。根据灵敏度、特异性以及MCC选择最合适的R因子,经过抽样后的三种指标结果如下图3-图5所示。
图3-5显示了6个UCI数据集经过少数类样本合成技术(R≠0)方法重抽样后三种不同评价指标的结果,通常随着R因子的增大,MCC趋于平稳,表明数据已经趋近平衡,根据不平衡数据的少数类更为重要的原则,本文选择将少数类的准确率作为主要指标,根据三种指标的综合结果,得出选择最为合适的R因子,例如diabetes数据集,当R为6时,即可得到最优结果。另外,原始数据集与经过少数类样本合成技术(R≠0)处理后的对比如表3所示:
表3
由表3所知,经少数类样本合成技术(R≠0)算法处理后,可以得出如下结论:
经过处理后的数据集的MCC都有明显的提高,特别是对于Eight,Diabetes和Sonar数据集,有效的解决了数据集的不平衡性。
朴素贝叶斯算法模型构建的时间相对缩短,预测精度也有所提高,通过少数类样本合成技术(R≠0)算法处理后的数据不仅提高了朴素贝叶斯的性能,而且对后续Wrapper特征选择方法工作效率也有极大的改善。
以上所述的仅是本发明所公开的一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种基于少数类样本合成的朴素贝叶斯数据处理系统,其特征在于,所述系统包括医疗信息数据库、数据预处理模块和数据分析模块,所述医疗信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接,所述医疗信息数据库,用于存储医疗信息数据包;所述数据预处理模块,用于对数据进行空缺值填补;所述数据分析模块包含有:数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块,所述数据平衡压缩模块,用于对数据进行平滑处理和压缩处理;所述Wrapper特征选择模块,用于剔除数据中的冗余特征;所述朴素贝叶斯分析预测模块,用于对数据进行分析预测,所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接。
2.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统,其特征在于,所述数据平衡压缩模块是利用趋势得分法对每个缺失变量的所有观测,均生成一个趋势得分,该得分用来估计每个观测在该变量上发生缺失的概率。然后,根据趋势得分,将所有观测分成若干组,对每组观测采用近似贝叶斯自助法进行插补。
3.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统,其特征在于,所述数据平衡压缩模块利用少数类样本合成数据平衡法对数据进行平滑和压缩处理。
4.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统,其特征在于,所述Wrapper特征选择模块利用Wrapper特征选择法对数据进行特征提取。
5.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统,其特征在于,所述朴素贝叶斯分析预测模块采用朴素贝叶斯算法对数据建模并分析预测。
6.一种基于少数类样本合成的朴素贝叶斯数据处理方法,其特征在于,所述方法步骤如下:步骤1:采用多重插补-趋势得分法对数据的缺失值进行填补;
步骤2:将步骤1处理后的数据,通过少数类样本合成技术进行平滑处理,从而降低数据的大小和不平衡性;
步骤3:将经过少数类样本合成技术处理后的数据进行Wrapper特征选择,剔除数据的冗余特征;
步骤4:对步骤3剔除冗余特征的数据进行朴素贝叶斯方法分析预测,并将分析预测的结果通过设备反馈给医疗机构和用户。
7.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法,其特征在于,所述步骤1的具体步骤如下:
步骤1.1:创建一个指示变量Ri,其取值为:
步骤1.2:以协变量x1、x2、...、xk来估计Yi发生缺失的概率pi,并计算趋势得分的值,以该值来衡量各观测中发生缺失的概率大小:
pi=P(Ri=0|x1,x2,…,xk)
logit(pi)=β0+β1x1+β2x2+…+βkxk
步骤1.3:根据趋势得分的值,将所有观测分为多组;
步骤1.4:对每组观测采用近似贝叶斯自助法进行插补,在第j组中,以Yobs表示n1个未发生缺失的观测集,以Ymis表示n0个发生缺失的观测集,从Yobs中有放回地随机抽取n0个观测值,对进行插补,重复上述过程,直至每个缺失值都插补完成。
8.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法,其特征在于,所述步骤2的具体步骤如下:
设训练样本集为T,有m个样本数{xi,yi},i=1,2,…,m,xi是n维特征空间X中的一个样本,yi∈Y={-1,1},代表xi的样本类别.定义ms为少数类样本,定义为多数类样本的数量,则ms≤ml,ms+ml=m,设训练样本集为T,对于训练样本集,设定不同的G-mean值,且对R进行初始化;
步骤2.1:对少数类中的每一个样本x,以欧几里得距离为标准计算它到少数类样本集中每个样本的距离,计算方法如下:
获得其k个最近邻,并记录近邻样本的下标;
步骤2.2:根据数据集中不平衡的比率U设置的采样倍率N,对每一个少数类样本x,从其k个最近邻中随机选择合适的个数,假设其中一个为yij,在x与yij之间进行随机线性插值;
步骤2.3:应用每一个随机选出的近邻yij,分别与原样本按照如下公式,构造出新的少数类样本。即新样本:
Pj=xi+rand(0,1)×(yij-xi)
步骤2.4:预先设定一个R(R>1)初始值且,并根据R值,并对数据集T',使用ENN算法对样本集中的多数类样本进行处理,减少多数类样本的数量,同时删除样本集中的噪声,形成一个新的样本集;
步骤2.5:计算新样本集数据不平衡的程度,将步骤2.4处理后样本,以朴素贝叶斯算法为评价准则,根据算法的灵敏度等指标判断数据集的不平衡度,选择最合适的R,直到数据集满足要求,生成新的数据集T”,否则进入步骤2.3;
步骤2.6:将处理后数据集T”,使用Wrapper特征选择方法,其中评价指标为朴素贝叶斯分类性能,将筛选后的数据集(T”')用于算法的模型训练中。
9.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法,其特征在于,所述步骤3Wrapper特征选择方法包括以下步骤:
步骤3.1:初始化特征向量F为空即F=Φ;
步骤3.2:循环n趟直至达到设定点;
for i=1,...,n;then Fi=F∪{i},然后利用交叉验证算法计算Fi的训练误差,令F等于训练误差最小的Fi;
步骤3.3:输出最终训练误差最小的特征向量的子集。
10.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法,其特征在于,所述步骤4的具体步骤如下:
步骤4.1:设数据集T”'用一个n维特征向量来描述n个属性的值,即:
A={a1,a2,...,an}
则给定一个未知的数据集,得到的最有可能的目标值为:
Vmap=argmaxP(Vj|a1,a2,...,an)
其中Vj∈V
步骤4.2:假设有m个
类别,分别用V1,V2,...,Vm表示,给定一个未知数据集X(没有类别号),根据贝叶斯定理得出:
由于P(X)对于所有类为常数,因此,最大后验概率P(Vi|X)可以转化为最大先验概率P(X|Vi)P(Vi);
步骤4.3:由于朴素贝叶斯假设各个属性之间相互独立,即:
其中先验概率p(xk|Vi),k∈1,2,...,n可从训练数据中求得,利用处理好的数据进行决策。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810165353.5A CN108304887A (zh) | 2018-02-28 | 2018-02-28 | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810165353.5A CN108304887A (zh) | 2018-02-28 | 2018-02-28 | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108304887A true CN108304887A (zh) | 2018-07-20 |
Family
ID=62848955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810165353.5A Pending CN108304887A (zh) | 2018-02-28 | 2018-02-28 | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304887A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240163A (zh) * | 2018-09-25 | 2019-01-18 | 南京信息工程大学 | 用于工业化制造的智能节点及其控制方法 |
CN110471856A (zh) * | 2019-08-21 | 2019-11-19 | 大连海事大学 | 一种基于数据不平衡的软件缺陷预测方法 |
CN110826718A (zh) * | 2019-09-20 | 2020-02-21 | 广东工业大学 | 一种基于朴素贝叶斯的大段不等长缺失数据填补方法 |
CN111277427A (zh) * | 2018-12-05 | 2020-06-12 | 中国移动通信集团河南有限公司 | 一种数据中心网络设备的巡检方法及系统 |
CN111710427A (zh) * | 2020-06-17 | 2020-09-25 | 广州市金域转化医学研究院有限公司 | 宫颈癌癌前早期病变阶段诊断模型及建立方法 |
CN112016597A (zh) * | 2020-08-12 | 2020-12-01 | 河海大学常州校区 | 一种机器学习中基于贝叶斯不平衡度量的深度采样方法 |
CN112905716A (zh) * | 2021-02-24 | 2021-06-04 | 同济大学 | 一种半导体生产过程数据预处理方法及装置 |
CN114420300A (zh) * | 2022-01-20 | 2022-04-29 | 北京大学第六医院 | 中国老年认知损害预测模型 |
CN116665922A (zh) * | 2023-07-31 | 2023-08-29 | 四川天府智链健康科技有限公司 | 一种医患通信方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301409A (zh) * | 2017-07-18 | 2017-10-27 | 云南大学 | 基于Wrapper特征选择Bagging学习处理心电图的系统及方法 |
-
2018
- 2018-02-28 CN CN201810165353.5A patent/CN108304887A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301409A (zh) * | 2017-07-18 | 2017-10-27 | 云南大学 | 基于Wrapper特征选择Bagging学习处理心电图的系统及方法 |
Non-Patent Citations (2)
Title |
---|
解东方: "心血管病流行病调查中缺失数据填补方法的比较与研究", 《中国博士学位论文全文数据库医药卫生科技辑》 * |
陈景年: "选择性贝叶斯分类算法研究", 《中国博士学位论文全文数据库 (信息科技辑)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109240163A (zh) * | 2018-09-25 | 2019-01-18 | 南京信息工程大学 | 用于工业化制造的智能节点及其控制方法 |
CN109240163B (zh) * | 2018-09-25 | 2024-01-02 | 南京信息工程大学 | 用于工业化制造的智能节点及其控制方法 |
CN111277427A (zh) * | 2018-12-05 | 2020-06-12 | 中国移动通信集团河南有限公司 | 一种数据中心网络设备的巡检方法及系统 |
CN110471856A (zh) * | 2019-08-21 | 2019-11-19 | 大连海事大学 | 一种基于数据不平衡的软件缺陷预测方法 |
CN110826718A (zh) * | 2019-09-20 | 2020-02-21 | 广东工业大学 | 一种基于朴素贝叶斯的大段不等长缺失数据填补方法 |
CN111710427A (zh) * | 2020-06-17 | 2020-09-25 | 广州市金域转化医学研究院有限公司 | 宫颈癌癌前早期病变阶段诊断模型及建立方法 |
CN112016597A (zh) * | 2020-08-12 | 2020-12-01 | 河海大学常州校区 | 一种机器学习中基于贝叶斯不平衡度量的深度采样方法 |
CN112905716A (zh) * | 2021-02-24 | 2021-06-04 | 同济大学 | 一种半导体生产过程数据预处理方法及装置 |
CN114420300A (zh) * | 2022-01-20 | 2022-04-29 | 北京大学第六医院 | 中国老年认知损害预测模型 |
CN114420300B (zh) * | 2022-01-20 | 2023-08-04 | 北京大学第六医院 | 中国老年认知损害预测模型 |
CN116665922A (zh) * | 2023-07-31 | 2023-08-29 | 四川天府智链健康科技有限公司 | 一种医患通信方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304887A (zh) | 基于少数类样本合成的朴素贝叶斯数据处理系统及方法 | |
CN104523266B (zh) | 一种心电信号自动分类方法 | |
CN107822622A (zh) | 基于深度卷积神经网络的心电图诊断方法和系统 | |
CN109636061A (zh) | 医保欺诈预测网络的训练方法、装置、设备及存储介质 | |
CN112951413B (zh) | 一种基于决策树和改进smote算法的哮喘病诊断系统 | |
CN108257135A (zh) | 基于深度学习方法解读医学图像特征的辅助诊断系统 | |
CN107730497A (zh) | 一种基于深度迁移学习的血管内斑块属性分析方法 | |
CN107292330A (zh) | 一种基于监督学习和半监督学习双重信息的迭代式标签噪声识别算法 | |
CN109117380A (zh) | 一种软件质量评价方法、装置、设备及可读存储介质 | |
CN111009321A (zh) | 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法 | |
CN106529165A (zh) | 基于稀疏相似矩阵的谱聚类算法识别癌症分子亚型的方法 | |
CN110097975A (zh) | 一种基于多模型融合的医院感染智能诊断方法及系统 | |
CN106529110A (zh) | 一种用户数据分类的方法和设备 | |
CN108511055A (zh) | 基于分类器融合及诊断规则的室性早搏识别系统及方法 | |
CN107169284A (zh) | 一种生物医学关键属性选择方法 | |
CN110111885B (zh) | 属性预测方法、装置、计算机设备及计算机可读存储介质 | |
CN104966106B (zh) | 一种基于支持向量机的生物年龄分步预测方法 | |
CN109935337A (zh) | 一种基于相似性度量的病案查找方法及系统 | |
CN107301409A (zh) | 基于Wrapper特征选择Bagging学习处理心电图的系统及方法 | |
CN113392894A (zh) | 一种多组学数据的聚类分析方法和系统 | |
CN114469120A (zh) | 一种基于相似度阈值迁移的多尺度Dtw-BiLstm-Gan心电信号生成方法 | |
CN109871869A (zh) | 一种肺结节分类方法及其装置 | |
Pandiaraj et al. | Effective heart disease prediction using hybridmachine learning | |
CN106601271A (zh) | 一种语音异常信号检测系统 | |
Nagadeepa et al. | Artificial Intelligence based Cervical Cancer Risk Prediction Using M1 Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180720 |