CN108304887A

CN108304887A - 基于少数类样本合成的朴素贝叶斯数据处理系统及方法

Info

Publication number: CN108304887A
Application number: CN201810165353.5A
Authority: CN
Inventors: 李昕洁; 陈同林; 许召召; 李京华; 吴敏; 王斌
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2018-02-28
Filing date: 2018-02-28
Publication date: 2018-07-20

Abstract

本发明公开了一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法，系统包括医疗信息数据库、数据预处理模块和数据分析模块，医疗信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接，医疗信息数据库，用于存储医疗信息数据包；数据预处理模块，用于对数据进行空缺值填补；所述数据分析模块包含有：数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块，所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接，通过对医疗数据进行缺失填补、平滑处理、剔除冗余和准确分析预测，以达到确保医疗数据的完整性，使对医疗数据的判读更为准确的目的。

Description

基于少数类样本合成的朴素贝叶斯数据处理系统及方法

技术领域

本发明涉及计算机医疗应用领域，具体涉及一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法。

背景技术

物联网医疗诊断系统(MIoT)旨在通过打造健康档案区域医疗信息平台，利用最先进的物联网技术，实现患者与医务人员、医疗机构、医疗设备之间的互动，逐步达到信息化。近年来，由人工智能、医用机器人和数字化辅助医疗技术等相结合的智能医疗技术，正引领新一轮的医疗变革。智能医疗技术开始贯穿于诊断、手术、护理和康复等医疗的各个环节。在临床诊断过程中，医院一直依赖医务人员来检查乳腺细胞活动。由于医务人员

智慧医疗旨在通过打造健康档案区域医疗信息平台，利用最先进的物联网技术，实现患者与医务人员、医疗机构、医疗设备之间的互动，逐步达到信息化。近年来，由人工智能、医用机器人和数字化辅助医疗技术等相结合的智能医疗技术，正引领新一轮的医疗变革。智能医疗技术开始贯穿于诊断、手术、护理和康复等医疗的各个环节。在临床诊断过程中，医院一直依赖心电图作为监测病人心脏电活动的仪器。由于纸张易破碎且热敏纸字迹不稳定、易消退，多数纸质心电图都遭到了不同程度的破坏。

尽管研究人员在此研究领域上已经取得了一些成果，但由于传统的数据处理方法并不能很好的解决数据的不平衡性，而且以往的特征筛选方法不是效率低就是处理后的数据识别率低，对后续机器学习的模型建立与训练上有很大的影响，所以部分研究人员尝试引入基于趋势得分法填补样本数据和SMOTE-R-ENN数据平衡方法，进一步提高乳腺癌数据诊断预测的性能。现有医疗数据预处理提取和诊断预测模型包含如下几方面缺点：

(1)数据的不完整性

临床采集的乳腺癌数据往往是不完整的，传统的缺失数据的处理方法是删除个例，也就是说如果一记录某个变量值缺失，就把该记录删除，只保留完全的记录。这种方法以减少样本量来换取信息的完备，丢弃了大量隐藏在含有缺失值对象中的信息，尤其当样本量较小时，该方法可能严重影响到数据的客观性和结果的正确性。

(2)数据的高维度

现有的特征选择算法依据评价策略主要分为滤波器方法(Filter)及嵌入式方法(Warpper)，Filter与后续学习算法无关，一般直接利用所有训练数据的统计性能评估特征，速度快，但评估与后续学习算法的性能偏差较大。Wrapper利用后续学习算法的训练准确率评估特征子集，偏差小，计算量大，不适合大数据集。

(3)数据不平衡性

现有的SMOTE数据平衡方法，只是在原有的基础上将数据平衡，这样做的结果只会增加数据量，对后续Wrapper方法筛选冗余特征这一步骤的时间效率上产生负面的影响。

(4)朴素贝叶斯的特征假设独立性缺陷

朴素贝叶斯分类方法因其实现简单、处理高效的特点被广泛应用于医疗诊断领域。然而，朴素贝叶斯方法在估计条件概率时，假设数据特征之间是同等重要且条件独立的，该假设在实际情况中很难满足，数据特征之间往往存在着相关性。

发明内容

为解决上述技术问题，本发明提出了一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法，以达到确保医疗数据的完整性，使对医疗数据的判读更为准确的目的。

为达到上述目的，本发明的技术方案如下：一种基于少数类样本合成的朴素贝叶斯数据处理系统，所述系统包括医疗信息数据库、数据预处理模块和数据分析模块，所述医疗信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接，所述医疗信息数据库，用于存储医疗信息数据包；所述数据预处理模块，用于对数据进行空缺值填补；所述数据分析模块包含有：数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块，所述数据平衡压缩模块，用于对数据进行平滑处理和压缩处理；所述Wrapper特征选择模块，用于剔除数据中的冗余特征；所述朴素贝叶斯分析预测模块，用于对数据进行分析预测，所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接。

进一步地，所述数据平衡压缩模块是利用趋势得分法对每个缺失变量的所有观测，均生成一个趋势得分，该得分用来估计每个观测在该变量上发生缺失的概率。然后，根据趋势得分，将所有观测分成若干组，对每组观测采用近似贝叶斯自助法进行插补。

进一步地，所述数据平衡压缩模块利用少数类样本合成数据平衡法对数据进行平滑和压缩处理。

进一步地，所述Wrapper特征选择模块利用Wrapper特征选择法对数据进行特征提取。

进一步地，所述朴素贝叶斯分析预测模块采用朴素贝叶斯算法对数据建模并分析预测。

一种基于少数类样本合成的朴素贝叶斯数据处理方法，通过多重插补-趋势得分法对原始医疗数据进行数据填补，对于填补后的医疗数据，通过基于少数类样本合成技术新型朴素贝叶斯算法进行数据分析，将分析后的结果反馈给用户，以便于用户可以准确的了解自己的身体状况，实现智能化识别和管理，所述方法步骤如下：

步骤1:采用多重插补-趋势得分法对数据的缺失值进行填补；

步骤2:将步骤1处理后的数据，通过少数类样本合成技术进行平滑处理，从而降低数据的大小和不平衡性；

步骤3：将经过少数类样本合成技术处理后的数据进行Wrapper特征选择，剔除数据的冗余特征；

步骤4：对步骤3剔除冗余特征的数据进行朴素贝叶斯方法分析预测，并将分析预测的结果通过设备反馈给医疗机构和用户。

进一步地，所述步骤1中的多重插补-趋势得分法对每个缺失变量的所有观测均生成一个趋势得分，该得分用来估计每个观测在该变量上发生缺失的概率，然后，根据趋势得分，将所有观测分成若干组，对每组观测采用近似贝叶斯自助法进行插补，具体步骤如下：

步骤1.1：创建一个指示变量R_i，其取值为:

步骤1.2：以协变量x₁、x₂、...、x_k来估计Y_i发生缺失的概率p_i，并计算趋势得分的值，以该值来衡量各观测中发生缺失的概率大小：

p_i＝P(R_i＝0|x₁,x₂,…,x_k)

logit(p_i)＝β₀+β₁x₁+β₂x₂+…+β_kx_k

步骤1.3：根据趋势得分的值，将所有观测分为多组；

步骤1.4：对每组观测采用近似贝叶斯自助法进行插补，在第j组中，以Y_obs表示n₁个未发生缺失的观测集，以Y_mis表示n₀个发生缺失的观测集，从Y_obs中有放回地随机抽取n₀个观测值，对进行插补，重复上述过程，直至每个缺失值都插补完成。

进一步地，所述步骤2中的少数类样本合成技术目的在于提高Wrapper特征选择方法的效率，减小数据集的大小从而提高Wrapper特征选择方法的效率，少数类样本合成技术数据重抽样方法主要集成SMOTE和ENN两种方法的优点，并设置阀值R，通过对R的调整，选择出最合适的数据抽样点，另外，为了解决朴素贝叶斯假设特征独立性的缺点，对决策不利的特征必须尽可能的减少，具体步骤如下：

设训练样本集为T，有m个样本数{x_i,y_i}，i＝1,2,…,m，x_i是n维特征空间X中的一个样本，y_i∈Y＝{-1,1}，代表x_i的样本类别.定义m_s为少数类样本，定义为多数类样本的数量，则m_s≤m_l，m_s+m_l＝m，设训练样本集为T，对于训练样本集，设定不同的G-mean值，且对R进行初始化；

步骤2.1：对少数类中的每一个样本x，以欧几里得距离为标准计算它到少数类样本集中每个样本的距离，计算方法如下：

获得其k个最近邻，并记录近邻样本的下标；

步骤2.2：根据数据集中不平衡的比率U设置的采样倍率N，对每一个少数类样本x，从其k个最近邻中随机选择合适的个数，假设其中一个为y_ij，在x与y_ij之间进行随机线性插值；

步骤2.3：应用每一个随机选出的近邻y_ij，分别与原样本按照如下公式，构造出新的少数类样本。即新样本：

P_j＝x_i+rand(0,1)×(y_ij-x_i)

步骤2.4：预先设定一个R(R＞1)初始值且，并根据R值，并对数据集T'，使用ENN算法对样本集中的多数类样本进行处理，减少多数类样本的数量，同时删除样本集中的噪声，形成一个新的样本集；

步骤2.5：计算新样本集数据不平衡的程度，将步骤2.4处理后样本，以朴素贝叶斯算法为评价准则，根据算法的灵敏度等指标判断数据集的不平衡度，选择最合适的R，直到数据集满足要求，生成新的数据集T”，否则进入步骤2.3；

步骤2.6：将处理后数据集T”，使用Wrapper特征选择方法，其中评价指标为朴素贝叶斯分类性能，将筛选后的数据集(T”')用于算法的模型训练中；

进一步地，所述步骤3中的Wrapper方法是搜索策略和机器学习算法相结合，选择出最终的算法达到较高的特征子集，首先假如有p个特征，那么就会有2^p种特征组合，每种组合对应了一个模型，所述搜索策略为前向搜索，所述机器学习算法:朴素贝叶斯算法，Wrapper特征选择方法具体包括以下步骤：

步骤3.1：初始化特征向量F为空即F＝Φ；

步骤3.2：循环n趟直至达到设定点；

for i＝1,...,n；then F_i＝F∪{i},然后利用交叉验证算法计算F_i的训练误差，令F等于训练误差最小的F_i；

步骤3.3：输出最终训练误差最小的特征向量的子集。

进一步地，所述步骤4是将步骤3处理后的数据集应用于朴素贝叶斯分类器，其中贝叶斯分类方法基于贝叶斯定理，其关键在于使用概率表示各种形式的不确定性，即通过变换事件的先验概率及后验概率，配合决定分类特性的各属性彼此间是相互独立的假设来预测分类的结果，具体步骤如下：

步骤4.1：设数据集T”'用一个n维特征向量来描述n个属性的值，即:

A＝{a₁,a₂,...,a_n}

则给定一个未知的数据集，得到的最有可能的目标值为：

V_map＝argmaxP(V_j|a₁,a₂,...,a_n)

其中V_j∈V

步骤4.2：假设有m个

类别，分别用V₁,V₂,...,V_m表示，给定一个未知数据集X(没有类别号)，根据贝叶斯定理得出：

由于P(X)对于所有类为常数，因此，最大后验概率P(V_i|X)可以转化为最大先验概率P(X|V_i)P(V_i)；

步骤4.3：由于朴素贝叶斯假设各个属性之间相互独立，即：

其中先验概率p(x_k|V_i),k∈1,2,...,n可从训练数据中求得，利用处理好的数据进行决策。

本发明具有如下优点：

(1).本发明通过多重插补-趋势得分法对数据的缺失值进行填补，提高了数据的精准度。

(2).本发明通过少数类样本合成技术进行平滑处理，从而降低数据的大小和不平衡性，使后期的数据分析更为准确。

(3).本发明通过朴素贝叶斯方法对医疗数据进行准确的分析预测，提高判断数据的准确性，为医疗数据诊断提供可靠依据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例公开的基于少数类样本合成的朴素贝叶斯数据处理系统功能模块图；

图2为本发明实施例公开的基于少数类样本合成的朴素贝叶斯数据处理方法流程图；

图3为本发明中少数类样本合成技术数据重抽样的Specificity Accuracy指标结果图；

图4为本发明中少数类样本合成技术数据重抽样的Sensitivity Accuracy指标结果图；

图5为本发明中少数类样本合成技术数据重抽样的MCC指标结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明提供了一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法，其工作原理是通过对医疗数据进行缺失填补、平滑处理、剔除冗余和准确分析预测，以达到确保医疗数据的完整性，使对医疗数据的判读更为准确的目的。

下面结合实施例和具体实施方式对本发明作进一步详细的说明。

如图1和图2所示，一种基于少数类样本合成的朴素贝叶斯数据处理系统，所述系统包括医疗信息数据库1、数据预处理模块2和数据分析模块3，所述医疗信息数据库1、数据预处理模块2和数据分析模块3三者均通过网络设备进行连接，所述医疗信息数据库1，用于存储医疗信息数据包；所述数据预处理模块2，用于对数据进行空缺值填补；所述数据分析模块3包含有：数据平衡压缩模块301、Wrapper特征选择模块302和朴素贝叶斯分析预测模块303，所述数据平衡压缩模块301，用于对数据进行平滑处理和压缩处理；所述Wrapper特征选择模块302，用于剔除数据中的冗余特征；所述朴素贝叶斯分析预测模块303，用于对数据进行分析预测，所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接。

其中，所述数据平衡压缩模块301是利用趋势得分法对每个缺失变量的所有观测，均生成一个趋势得分，该得分用来估计每个观测在该变量上发生缺失的概率。然后，根据趋势得分，将所有观测分成若干组，对每组观测采用近似贝叶斯自助法进行插补。

其中，所述数据平衡压缩模块301利用少数类样本合成数据平衡法对数据进行平滑和压缩处理。

其中，所述Wrapper特征选择模块302利用Wrapper特征选择法对数据进行特征提取。

其中，所述朴素贝叶斯分析预测模块303采用朴素贝叶斯算法对数据建模并分析预测。

步骤1:采用多重插补-趋势得分法对数据的缺失值进行填补；

其中，所述步骤1中的多重插补-趋势得分法对每个缺失变量的所有观测均生成一个趋势得分，该得分用来估计每个观测在该变量上发生缺失的概率，然后，根据趋势得分，将所有观测分成若干组，对每组观测采用近似贝叶斯自助法进行插补，具体步骤如下：

步骤1.1：创建一个指示变量R_i，其取值为:

p_i＝P(R_i＝0|x₁,x₂,…,x_k)

logit(p_i)＝β₀+β₁x₁+β₂x₂+…+β_kx_k

步骤1.3：根据趋势得分的值，将所有观测分为多组；

其中，所述步骤2中的少数类样本合成技术目的在于提高Wrapper特征选择方法的效率，减小数据集的大小从而提高Wrapper特征选择方法的效率，少数类样本合成技术数据重抽样方法主要集成SMOTE和ENN两种方法的优点，并设置阀值R，通过对R的调整，选择出最合适的数据抽样点，另外，为了解决朴素贝叶斯假设特征独立性的缺点，对决策不利的特征必须尽可能的减少，具体步骤如下：

获得其k个最近邻，并记录近邻样本的下标；

P_j＝x_i+rand(0,1)×(y_ij-x_i)

其中，所述步骤3中的Wrapper方法是搜索策略和机器学习算法相结合，选择出最终的算法达到较高的特征子集，首先假如有p个特征，那么就会有2^p种特征组合，每种组合对应了一个模型，所述搜索策略为前向搜索，所述机器学习算法:朴素贝叶斯算法，Wrapper特征选择方法具体包括以下步骤：

步骤3.1：初始化特征向量F为空即F＝Φ；

步骤3.2：循环n趟直至达到设定点；

步骤3.3：输出最终训练误差最小的特征向量的子集。

其中，所述步骤4是将步骤3处理后的数据集应用于朴素贝叶斯分类器，其中贝叶斯分类方法基于贝叶斯定理，其关键在于使用概率表示各种形式的不确定性，即通过变换事件的先验概率及后验概率，配合决定分类特性的各属性彼此间是相互独立的假设来预测分类的结果，具体步骤如下：

A＝{a₁,a₂,...,a_n}

则给定一个未知的数据集，得到的最有可能的目标值为：

V_map＝argmaxP(V_j|a₁,a₂,...,a_n)

其中V_j∈V

步骤4.2：假设有m个

步骤4.3：由于朴素贝叶斯假设各个属性之间相互独立，即：

本发明数据采用UCI机器学习标准评测数据集[1]。选择了其中6个数据集进行实验，并选择WDBC数据集作为诊断预测数据，数据集的具体信息如表1所示：

Dataset	Sample Size	Attribute	Class
				Magic	19020	10	2
Spambase	4601	57	2
				Eight	2534	72	2
Diabetes	768	8	2
				Ionosphere	351	34	2
Sonar	208	60	2
				Wdbc	569	30	2

表1

采用10层交叉(10-fold Cross Validation)的方法进行验证，分别记录其Accuracy、Sensitivity Accuracy、Specificity Accuracy以及MCC，最后求得平均值，即可得出分类算法的性能。为了验证本文提出的算法，实验分为三部分。首先，使用SMOTE-R-ENN方法对数据集进行重抽样，通过设置不同的R因子，将数据的不平衡性和实例数降低；其次，通过Wrapper方法将实验1处理好的数据进行特征筛选；最后，对比本文的算法与几个传统的算法比较，并与近期他人提出的方法进行比较。并将其应用于WDBC医疗数据诊断预测中。

少数类样本合成重抽样技术

首先对数据集进行SMOTE抽样，增加少数类的样本数，同时降低数据集的不平衡性，

具体实验结果如表2所示：

表2

由表2可知，当设置R为0(仅使用SMOTE方法)时，经过处理后的数据集，数据的灵敏度有了明显的提高，但是特异性普遍降低，因此仅仅经过SMOTE处理并不能从根本上改变数据的不平衡。通过调整R因子，使用ENN算法对数据进行多次迭代抽样，选择抽样效果最佳的迭代因子R，为了验证抽样后的数据是否还具有其原有特征，在这里我们使用朴素贝叶斯算法的分类性能作为评价指标。根据灵敏度、特异性以及MCC选择最合适的R因子，经过抽样后的三种指标结果如下图3-图5所示。

图3-5显示了6个UCI数据集经过少数类样本合成技术(R≠0)方法重抽样后三种不同评价指标的结果，通常随着R因子的增大，MCC趋于平稳，表明数据已经趋近平衡，根据不平衡数据的少数类更为重要的原则，本文选择将少数类的准确率作为主要指标，根据三种指标的综合结果，得出选择最为合适的R因子，例如diabetes数据集，当R为6时，即可得到最优结果。另外，原始数据集与经过少数类样本合成技术(R≠0)处理后的对比如表3所示：

表3

由表3所知，经少数类样本合成技术(R≠0)算法处理后，可以得出如下结论：

经过处理后的数据集的MCC都有明显的提高，特别是对于Eight，Diabetes和Sonar数据集，有效的解决了数据集的不平衡性。

朴素贝叶斯算法模型构建的时间相对缩短，预测精度也有所提高，通过少数类样本合成技术(R≠0)算法处理后的数据不仅提高了朴素贝叶斯的性能，而且对后续Wrapper特征选择方法工作效率也有极大的改善。

以上所述的仅是本发明所公开的一种基于少数类样本合成的朴素贝叶斯数据处理系统及方法的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于少数类样本合成的朴素贝叶斯数据处理系统，其特征在于，所述系统包括医疗信息数据库、数据预处理模块和数据分析模块，所述医疗信息数据库、数据预处理模块和数据分析模块三者均通过网络设备进行连接，所述医疗信息数据库，用于存储医疗信息数据包；所述数据预处理模块，用于对数据进行空缺值填补；所述数据分析模块包含有：数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块，所述数据平衡压缩模块，用于对数据进行平滑处理和压缩处理；所述Wrapper特征选择模块，用于剔除数据中的冗余特征；所述朴素贝叶斯分析预测模块，用于对数据进行分析预测，所述数据平衡压缩模块、Wrapper特征选择模块和朴素贝叶斯分析预测模块之间均通过数据总线进行通信连接。

2.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统，其特征在于，所述数据平衡压缩模块是利用趋势得分法对每个缺失变量的所有观测，均生成一个趋势得分，该得分用来估计每个观测在该变量上发生缺失的概率。然后，根据趋势得分，将所有观测分成若干组，对每组观测采用近似贝叶斯自助法进行插补。

3.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统，其特征在于，所述数据平衡压缩模块利用少数类样本合成数据平衡法对数据进行平滑和压缩处理。

4.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统，其特征在于，所述Wrapper特征选择模块利用Wrapper特征选择法对数据进行特征提取。

5.根据权利要求1所述的基于少数类样本合成的朴素贝叶斯数据处理系统，其特征在于，所述朴素贝叶斯分析预测模块采用朴素贝叶斯算法对数据建模并分析预测。

6.一种基于少数类样本合成的朴素贝叶斯数据处理方法，其特征在于，所述方法步骤如下：步骤1:采用多重插补-趋势得分法对数据的缺失值进行填补；

7.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法，其特征在于，所述步骤1的具体步骤如下：

步骤1.1：创建一个指示变量R_i，其取值为:

p_i＝P(R_i＝0|x₁,x₂,…,x_k)

logit(p_i)＝β₀+β₁x₁+β₂x₂+…+β_kx_k

步骤1.3：根据趋势得分的值，将所有观测分为多组；

8.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法，其特征在于，所述步骤2的具体步骤如下：

获得其k个最近邻，并记录近邻样本的下标；

P_j＝x_i+rand(0,1)×(y_ij-x_i)

步骤2.6：将处理后数据集T”，使用Wrapper特征选择方法，其中评价指标为朴素贝叶斯分类性能，将筛选后的数据集(T”')用于算法的模型训练中。

9.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法，其特征在于，所述步骤3Wrapper特征选择方法包括以下步骤：

步骤3.1：初始化特征向量F为空即F＝Φ；

步骤3.2：循环n趟直至达到设定点；

步骤3.3：输出最终训练误差最小的特征向量的子集。

10.根据权利要求6所述的基于少数类样本合成的朴素贝叶斯数据处理方法，其特征在于，所述步骤4的具体步骤如下：

A＝{a₁,a₂,...,a_n}

则给定一个未知的数据集，得到的最有可能的目标值为：

V_map＝argmaxP(V_j|a₁,a₂,...,a_n)

其中V_j∈V

步骤4.2：假设有m个

步骤4.3：由于朴素贝叶斯假设各个属性之间相互独立，即：