CN116072302A

CN116072302A - 基于有偏随机森林模型的医疗不平衡数据分类方法

Info

Publication number: CN116072302A
Application number: CN202310129885.4A
Authority: CN
Inventors: 杜建超; 赵梦楠; 王燕宁; 石磊; 陈天艳; 周云
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-05

Abstract

本发明公开了一种基于有偏随机森林模型的医疗不平衡数据分类方法，主要解决现有技术中分类模型对少数类识别精度不够、分类效率低及鲁棒性差的问题。其实现方案是：对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理；对预处理后的数据集进行K均值聚类欠采样，构建平衡数据集；利用投票法对两个子随机森林中的决策树组合，构建有偏随机森林分类模型；利用预处理后的数据集和K均值欠采样后的平衡数据集对有偏随机森林分类模型进行训练；将测试数据输入训练好的模型输出分类结果。本发明通过在训练阶段将采样策略应用到随机森林构建过程中，可提升不平衡医疗数据集中少数类的识别精度，提高分类效率，可用于为医疗疾病诊断提供依据。

Description

基于有偏随机森林模型的医疗不平衡数据分类方法

技术领域

本发明属于数据处理技术领域，具体涉及一种医疗不平衡数据分类方法，可用于为医疗疾病诊断提供依据。

技术背景

大数据时代的到来使越来越多领域的数据可以借助数据挖掘和机器学习有关技术得以高效处理和分析，从而获得大量有价值的信息。为遵循国家针对医疗领域提出的规划路线，大量的医疗数据得到保存积累，但是仅靠人力无法实现对其的分析整理，因此将医疗数据与机器学习、数据挖掘技术进行结合的方案受到广泛的关注。

传统的机器学习算法取得较好分类效果的前提是数据集中每个类别的样本数量大致相同，因为只有在这一条件下，分类算法才可以在学习过程中根据经验或结构风险结构最小化原则对数据集中所有类别一视同仁。而在医疗数据分类领域，常常遇到的是不同类别样本比例不平衡的情况，比如健康者的数量远远多于患者，常见病的患者数量远远多于罕见病的患者数量。此时若利用传统的分类算法处理这些不平衡的数据集，数据集中的少数类将不能被有效识别。这是因为分类算法为了减少学习过程中的错误分类损失，将不可避免的偏向于样本数量较多的类别，从而导致少数类别样本的错分概率增高，即少数类的识别效果降低。

由于现实生活中数据集不平衡问题广泛存在，尤其在医疗和生物信息领域，因此其重要性也随之不断增加，同时也引起了国内外学者的广泛关注，越来越多的不平衡数据分类技术也在医疗领域得以应用。解决不平衡学习问题的最新研究包括数据级和算法级这两大类方法。

基于数据级别的方法，其大致可以分为过采样和欠采样两类，这两类方法都是通过调整数据的分布进而使得数据达到近似平衡状态，然后再使用分类模型进行类别分类。但是欠采样技术不可避免会导致数据信息缺失的问题，会出现数据集信息利用率不高的现象，可能会导致后续分类算法出现欠拟合的问题。而过采样技术也存在数据多样性不足的问题，会出现过拟合现象。

申请号为CN202110418168.4的专利文献中公开了“一种解决不平衡分类问题的新型过采样方法及系统”，其是基于SMOTE的改进过采样技术，该方法在应用SMOTE模型之后使用基于分类器集成的噪声过滤机制对数据进行清理，去除了由合成样本引入的新噪声，以及原始训练集中存在的多数类样本噪声和少数类样本噪声，解决了SMOTE对少数类样本噪声敏感的缺点。但其不足之处在于：该过采样方法会出现改变原始数据集的分布、出现数据分布边缘化的问题，引起分类模型的扭曲，影响分类效果，且该方法以SMOTE采样技术为基础，计算量较大、时间效率较低。

基于算法级别的方法，大多通过代价敏感技术实现，其主要思想是通过定义代价矩阵为不同的误分类情况分配不同的代价，特别是少数类样本被误分为多数类时所付出的代价要远远高于多数类样本的被误分。张钰等人在其发表的论文“一种基于代价敏感集成决策树的不平衡数据分类方法研究”(榆林学院学报，2021,31(2):53-55.公开日期2021.03)中提出了一种基于代价敏感集成决策树的分类方法(CSB-C5.0)。该方法利用网格搜索法对集成迭代参数进行优化；通过构建集成决策树将多个决策树组合生成更准确的分类器，同时引入代价敏感因子，通过为不同种类的分类结果赋予不同的权重来提升少数类的分类识别率。该方法使用代价敏感学习技术解决类不平衡学习问题，其难度在于代价矩阵的定义，现实问题中代价矩阵往往不可知，需要用户凭经验设定，因此算法的鲁棒性较差。

发明内容

本发明的目的在于针对上述现有技术的不足，提出的基于聚类欠采样的有偏随机森林BRF-KMUS模型的医疗不平衡数据分类方法，以保留原始数据分布信息，减少不平衡分类过程中的计算量，提高分类效率，并提升分类模型的鲁棒性。

本发明的技术思路是：首先对不平衡数据集进行混乱格式、缺失值填充、归一化处理得到预处理后的数据集；对预处理后的数据集进行K-Means聚类欠采样生成一个平衡数据集；再分别利用预处理后的数据集和K-Means欠采样后的平衡数据集构建出两个子随机森林模型，最终利用投票法对两个子随机森林模型中的决策树组合，得到有偏随机森林分类模型；本发明提出的模型通过在训练阶段将K-Means聚类欠采样方法应用到随机森林集成分类器的构建过程中，提高对少数类别样本的识别精度和分类效率、增加了模型的鲁棒性。

根据上述技术思路，本发明的实现步骤包括如下：

(1)对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理得到预处理后的数据集X；

(2)对预处理后的数据集X进行K-Means聚类欠采样，构建平衡数据集X′：

(2a)将预处理后数据集X根据极少数类数量|X_min|分为极少数类X_min和多数类集合

其中

k为多数类的种数，g和n_j分别是极少数类和每一多数类的样本总数；

(2b)将极少数类的样本数量g作为K-Means聚类欠采样要生成的每一种多数类样本的数量；

(2c)利用K-Means算法求出每一种多数类X_maj的g个聚簇中心

(2d)对每一种多数类X_maj，计算出其与X′_maj中每个聚簇中心欧式距离最近的样本

其中

(2e)合并每种欠采样后多数类中的样本X′_m′_aj，得到欠采样后的多数类集合

(2f)将欠采样后的多数类集合

与预处理后数据集X中的极少数类X_min进行合并，得到平衡数据集

其中

(3)构建有偏随机森林分类模型：

(3a)选用现有的两个随机森林子模型RF₁和RF₂，分别取出其中所有的决策树

和

并将其进行合并，得到新的决策树集合

其中T为决策树数量；

(3b)利用投票法对新的决策树集合

进行组合，得到有偏随机森林模型BRF；

(4)对有偏随机森林分类模型进行训练：

(4a)将步骤(1)得到的预处理后的数据集X输入到第一随机森林RF₁子模型中，设置决策树数量参数为100，依据基尼系数法进行决策树建立，直到100颗决策树建立完全为止，得到训练好的第一随机森林RF₁子模型；

(4b)将步骤(2)得到的平衡数据集X′输入到第二随机森林RF₂子模型中，设置决策树数量参数为100，依据基尼系数法进行决策树建立，直到100颗决策树建立完全为止，得到训练好的第二随机森林RF₂子模型；

(4c)利用投票法将训练好的第一随机森林RF₁子模型和第二随机森林RF₂子模型中的所有决策树进行合并，得到训练好的有偏随机森林模型BRF；

(5)利用模型进行分类；

(5a)提取患者病例中的有效信息组成一维待分类的医疗数据；

(5b)将待分类的医疗数据输入到训练好的有偏随机森林BRF分类模型中，得到对患者病例信息的分类结果。

本发明与现有技术相比具有以下优点：

第一、由于本发明在生成新的医疗不平衡数据集时采用的是K-Means聚类欠采样技术，比现有的SMOTE过采样技术计算量小、分类效率高；同时由于本发明基于K-Means聚类欠采样技术生成的数据集最大限度的保留了数据集的原始分布特征，相对于其他欠采样技术更加切实有效；

第二、本发明通过对多数类样本欠采样和集成分类器构建的不平衡分类模型，相对于现有处理不平衡分类的代价敏感技术，不需要人工确定任何参数，鲁棒性较强；

第三、本发明由于在训练阶段将采样策略应用到随机森林构建过程中，相对于现有技术中分别基于数据级和算法级的模型，提升了少数类的识别精度。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图对本发明的实施例和效果作进一步详细描述。

参照图1，本实例的实现步骤如下：

步骤1，对原始医疗数据集进行预处理，得到预处理后的数据集X。

1.1)混乱格式处理：对原始医疗数据集中格式混乱的部分进行统一规整，将原始医疗数据集中的文字标识部分转换为数字标识，并对其中的状态信息项进行One-hot编码；

1.2)缺失值处理：对混乱格式处理后所得数据集，根据每个属性中的数据缺失比例不同采取不同的处理方式，即对缺失比例≤30％的属性采用多重插值方式填充，对缺失比例＞30％的属性直接将该属性删除；

1.3)归一化处理：对缺失值处理后所得数据集中的数值项属性进行归一化处理，使其分布于[0,1]区间上，利用下式计算数值项属性的归一化结果x：

其中x′为该数值项属性的原始值，MIN为该数值项属性中的最小值，MAX为该数值项属性中最大值；

1.4)对原始数据集中的所有属性项数据x′_i经过混乱格式、缺失值和归一化处理后得到预处理后的数据集X＝{x₁,x₂,...,x_i,...,x_q}，其中1≤i≤q，q为预处理后数据集中的总样本量。

步骤2，对预处理后的数据集X进行K-Means聚类欠采样得到平衡数据集X′。

2.1)将预处理后数据集X根据极少数类数量|X_min|分为极少数类X_min和多数类集合

其中

2.2)将极少数类的样本数量g作为K-Means聚类欠采样要生成的每一种多数类样本的数量；

2.3)利用K-Means算法求出每一种多数类X_maj的g个聚簇中心X′_maj：

2.3.1)从多数类X_maj中随机选取g个样本

作为初始聚簇中心，其中，0≤j≤k；

2.3.2)计算多数类X_maj中的所有样本

与各初始聚簇中心

的欧式距离

根据最小的

和聚簇中心X_maj′确定

样本所属的聚簇

将样本

划入相应的聚簇

其中，1≤i≤n_j，1≤c≤g，；

2.3.3)重新计算每个聚簇

的聚簇中心

并将其与该聚簇原来的聚簇中心

进行比较：

若

则

否则，保持当前的聚簇中心不变；

2.3.4)判断步骤2.3.3)中每个聚簇

的聚簇中心

是否都与该聚簇原来的聚簇中心

相等：

若是，则结束循环，输出多数类X_maj的g个聚簇中心

否则，返回步骤2.3.3)。

2.4)对每一种多数类X_maj，计算出其与X′_maj中每个聚簇中心欧式距离最近的样本X″_maj：

2.4.1)计算样本

和聚类中心

之间的欧氏距离

其中1≤i≤n_j，1≤c≤g，n为数据的维度，

为数据

的第u维数值，

为数据

的第u维数值；

2.4.2))对每个聚类中心

取

最小值对应的样本

组成样本集合

2.5)合并每种欠采样后多数类中的样本X″_maj，得到欠采样后的多数类集合

2.6)将欠采样后的多数类集合

其中

步骤3，构建有偏随机森林分类模型BRF。

3.1)选用现有的两个随机森林子模型RF₁和RF₂，分别取出其中所有的决策树

和

并将其进行合并，得到新的决策树集合

其中T为决策树数量；

3.2)利用投票法对新的决策树集合

进行组合，得到有偏随机森林模型BRF：

其中，k为数据集类别数；x为测试数据；f_j(x)表示第j颗决策树的输出；I(·)是一个判断函数，当其内容满足要求为真时，I(·)＝1，当其内容不满足要求时，I(·)＝0。

步骤4，对有偏随机森林分类模型BRF进行训练。

4.1)将步骤(1)得到的预处理后的数据集X输入到第一随机森林RF₁子模型中，设置决策树数量参数为100，依据基尼系数法进行决策树建立，直到100颗决策树建立完全为止，得到训练好的第一随机森林RF₁子模型：

4.2)将步骤(2)得到的平衡数据集X′输入到第二随机森林RF₂子模型中，设置决策树数量参数为100，依据基尼系数法进行决策树建立，直到100颗决策树建立完全为止，得到训练好的第二随机森林RF₂子模型：

4.3)利用投票法将训练好的第一随机森林RF₁子模型和第二随机森林RF₂子模型中的所有决策树进行合并，得到训练好的有偏随机森林模型BRF：

步骤5，利用有偏随机森林模型BRF进行分类。

5.1)提取患者病例中的有效信息，即包括人口学指标、既往史、伴随症状、体格检查以及实验室检查结果这些医疗数据集的属性特征，组成一维待分类的医疗数据；

5.2)将待分类的医疗数据输入到训练好的有偏随机森林BRF分类模型中，得到对患者病例信息的分类结果。

下面结合仿真实验对本发明的效果作进一步的说明。

1.仿真条件：

本发明的仿真实验在Pycharm2019、Anaconda版本为4.12.0，Python版本为3.7的环境下进行。

仿真的数据来源于西安交通大学第一附属医院提供的发热待查患者临床数据，在此基础上构建了发热待查医疗数据集，数据集包含10类感染性病例和6类非感染性病例，共计560条诊疗数据,不平衡率IR＝8.82。每条数据包括人口学指标、既往史、伴随症状、体格检查、实验室检查、医生诊断结果等信息，共计186个特征。

2.仿真内容及仿真结果，

首先，对发热待查数据集进行预处理，然后对发热待查数据集的16类共560条样本数据采用10折交叉验证进行模型评估，再分别使用传统分类模型和本发明分类模型对数据集进行训练和测试，利用测试数据的分类准确率、F1值和G-mean值三个评价指标对比两个模型的检测效果，如表1所示。

表1传统分类模型与本发明分类模型性能对比

模型	准确率	F1值	G-mean值
				传统分类模型	0.6869	0.5330	0.7408
本发明分类模型	0.7442	0.6726	0.8367

由上表可以看出，采用本发明方法测试数据的分类准确率、F1值和G-mean值这三项评价指标均优于现有传统的分类模型，证明了本发明的正确性与有效性。

本发明未详细说明部分属于本领域技术人员公知常识。

Claims

1.一种基于有偏随机森林模型的医疗不平衡数据分类方法，其特征在于，包括如下步骤：

其中

(2c)利用K-Means算法求出每一种多数类X_maj的g个聚簇中心

其中

(2e)合并每种欠采样后多数类中的样本X″_maj，得到欠采样后的多数类集合

(2f)将欠采样后的多数类集合

其中

(3)构建有偏随机森林分类模型：

和

并将其进行合并，得到新的决策树集合

其中T为决策树数量；

(3b)利用投票法对新的决策树集合

进行组合，得到有偏随机森林模型BRF；

(4)对有偏随机森林分类模型进行训练：

(5)利用模型进行分类；

(5a)提取患者病例中的有效信息组成一维待分类的医疗数据；

2.根据权利要求1所述的方法，其特征在于：步骤(1)中对原始数据集进行混乱格式、缺失值填充、归一化的预处理，实现如下：

所述混乱格式处理，是对原始医疗数据集中格式混乱的部分进行统一规整，将原始医疗数据集中的文字标识部分转换为数字标识，并对其中的状态信息项进行One-hot编码；

所述缺失值处理，是对混乱格式处理后所得数据集，根据每个属性中的数据缺失比例不同，采取不同的处理方式，即对缺失比例≤30％的属性采用多重插值方式填充，对缺失比例＞30％的属性直接将该属性删除；

所述归一化处理，是对缺失值处理后所得数据集中的数值项属性进行归一化处理，计算公式为：

其中x′为该数值项属性的原始值，MIN为该数值项属性中的最小值，MAX为该数值项属性中最大值。

3.根据权利要求1所述的方法，其特征在于：步骤(2c)中利用K-Means算法求出每一种多数类X_maj的g个聚簇中心，实现如下：

(2c1)从多数类X_maj中随机选取g个样本

作为初始聚簇中心，其中，0≤j≤k；

(2c2)计算多数类X_maj中的所有样本

与各初始聚簇中心

的欧式距离

根据最小的

和聚簇中心X_maj′确定

样本所属的聚簇

将样本

划入相应的聚簇

其中，1≤i≤n_j，1≤c≤g，；

(2c3)重新计算每个聚簇

的聚簇中心

并将其与该聚簇原来的聚簇中心

进行比较：

若

则

否则，保持当前的聚簇中心不变；

(2c4)判断步骤(2c3)中每个聚簇

的聚簇中心

是否都与该聚簇原来的聚簇中心

相等：

若是，则结束循环，输出多数类X_maj的g个聚簇中心

否则，返回步骤(2c2)。

4.根据权利要求1所述的方法，其特征在于：步骤(2d)中对，计算每一种多数类X_maj与X′_maj中每个聚簇中心欧式距离最近的样本集合X″_maj，实现如下：

(2d1)计算样本

和聚类中心

之间的欧氏距离

其中1≤i≤n_j，1≤c≤g，n为数据的维度，

为数据

的第u维数值，

为数据

的第u维数值；

(2d2)对每个聚类中心

取

最小值对应的样本

组成样本集合

5.根据权利要求1所述的方法，其特征在于：步骤(3b)中得到的有偏随机森林模型BRF，表示如下：

其中，k为数据集类别数；T为每个子模型中决策树的数量；x为测试数据；f_j(x)表示第j颗决策树的输出；I(·)是一个判断函数，当其内容满足要求时为真时，I(·)＝1，当其内容满足要求时为假时，I(·)＝0。

6.根据权利要求1所述的方法，其特征在于：步骤(5a)所述患者病例中的有效信息，是指医疗数据集的属性特征，包括人口学指标、既往史、伴随症状、体格检查以及实验室检查结果。