CN116072302A - 基于有偏随机森林模型的医疗不平衡数据分类方法 - Google Patents

基于有偏随机森林模型的医疗不平衡数据分类方法 Download PDF

Info

Publication number
CN116072302A
CN116072302A CN202310129885.4A CN202310129885A CN116072302A CN 116072302 A CN116072302 A CN 116072302A CN 202310129885 A CN202310129885 A CN 202310129885A CN 116072302 A CN116072302 A CN 116072302A
Authority
CN
China
Prior art keywords
data set
random forest
cluster
classes
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310129885.4A
Other languages
English (en)
Inventor
杜建超
赵梦楠
王燕宁
石磊
陈天艳
周云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202310129885.4A priority Critical patent/CN116072302A/zh
Publication of CN116072302A publication Critical patent/CN116072302A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于有偏随机森林模型的医疗不平衡数据分类方法,主要解决现有技术中分类模型对少数类识别精度不够、分类效率低及鲁棒性差的问题。其实现方案是:对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理;对预处理后的数据集进行K均值聚类欠采样,构建平衡数据集;利用投票法对两个子随机森林中的决策树组合,构建有偏随机森林分类模型;利用预处理后的数据集和K均值欠采样后的平衡数据集对有偏随机森林分类模型进行训练;将测试数据输入训练好的模型输出分类结果。本发明通过在训练阶段将采样策略应用到随机森林构建过程中,可提升不平衡医疗数据集中少数类的识别精度,提高分类效率,可用于为医疗疾病诊断提供依据。

Description

基于有偏随机森林模型的医疗不平衡数据分类方法
技术领域
本发明属于数据处理技术领域,具体涉及一种医疗不平衡数据分类方法,可用于为医疗疾病诊断提供依据。
技术背景
大数据时代的到来使越来越多领域的数据可以借助数据挖掘和机器学习有关技术得以高效处理和分析,从而获得大量有价值的信息。为遵循国家针对医疗领域提出的规划路线,大量的医疗数据得到保存积累,但是仅靠人力无法实现对其的分析整理,因此将医疗数据与机器学习、数据挖掘技术进行结合的方案受到广泛的关注。
传统的机器学习算法取得较好分类效果的前提是数据集中每个类别的样本数量大致相同,因为只有在这一条件下,分类算法才可以在学习过程中根据经验或结构风险结构最小化原则对数据集中所有类别一视同仁。而在医疗数据分类领域,常常遇到的是不同类别样本比例不平衡的情况,比如健康者的数量远远多于患者,常见病的患者数量远远多于罕见病的患者数量。此时若利用传统的分类算法处理这些不平衡的数据集,数据集中的少数类将不能被有效识别。这是因为分类算法为了减少学习过程中的错误分类损失,将不可避免的偏向于样本数量较多的类别,从而导致少数类别样本的错分概率增高,即少数类的识别效果降低。
由于现实生活中数据集不平衡问题广泛存在,尤其在医疗和生物信息领域,因此其重要性也随之不断增加,同时也引起了国内外学者的广泛关注,越来越多的不平衡数据分类技术也在医疗领域得以应用。解决不平衡学习问题的最新研究包括数据级和算法级这两大类方法。
基于数据级别的方法,其大致可以分为过采样和欠采样两类,这两类方法都是通过调整数据的分布进而使得数据达到近似平衡状态,然后再使用分类模型进行类别分类。但是欠采样技术不可避免会导致数据信息缺失的问题,会出现数据集信息利用率不高的现象,可能会导致后续分类算法出现欠拟合的问题。而过采样技术也存在数据多样性不足的问题,会出现过拟合现象。
申请号为CN202110418168.4的专利文献中公开了“一种解决不平衡分类问题的新型过采样方法及系统”,其是基于SMOTE的改进过采样技术,该方法在应用SMOTE模型之后使用基于分类器集成的噪声过滤机制对数据进行清理,去除了由合成样本引入的新噪声,以及原始训练集中存在的多数类样本噪声和少数类样本噪声,解决了SMOTE对少数类样本噪声敏感的缺点。但其不足之处在于:该过采样方法会出现改变原始数据集的分布、出现数据分布边缘化的问题,引起分类模型的扭曲,影响分类效果,且该方法以SMOTE采样技术为基础,计算量较大、时间效率较低。
基于算法级别的方法,大多通过代价敏感技术实现,其主要思想是通过定义代价矩阵为不同的误分类情况分配不同的代价,特别是少数类样本被误分为多数类时所付出的代价要远远高于多数类样本的被误分。张钰等人在其发表的论文“一种基于代价敏感集成决策树的不平衡数据分类方法研究”(榆林学院学报,2021,31(2):53-55.公开日期2021.03)中提出了一种基于代价敏感集成决策树的分类方法(CSB-C5.0)。该方法利用网格搜索法对集成迭代参数进行优化;通过构建集成决策树将多个决策树组合生成更准确的分类器,同时引入代价敏感因子,通过为不同种类的分类结果赋予不同的权重来提升少数类的分类识别率。该方法使用代价敏感学习技术解决类不平衡学习问题,其难度在于代价矩阵的定义,现实问题中代价矩阵往往不可知,需要用户凭经验设定,因此算法的鲁棒性较差。
发明内容
本发明的目的在于针对上述现有技术的不足,提出的基于聚类欠采样的有偏随机森林BRF-KMUS模型的医疗不平衡数据分类方法,以保留原始数据分布信息,减少不平衡分类过程中的计算量,提高分类效率,并提升分类模型的鲁棒性。
本发明的技术思路是:首先对不平衡数据集进行混乱格式、缺失值填充、归一化处理得到预处理后的数据集;对预处理后的数据集进行K-Means聚类欠采样生成一个平衡数据集;再分别利用预处理后的数据集和K-Means欠采样后的平衡数据集构建出两个子随机森林模型,最终利用投票法对两个子随机森林模型中的决策树组合,得到有偏随机森林分类模型;本发明提出的模型通过在训练阶段将K-Means聚类欠采样方法应用到随机森林集成分类器的构建过程中,提高对少数类别样本的识别精度和分类效率、增加了模型的鲁棒性。
根据上述技术思路,本发明的实现步骤包括如下:
(1)对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理得到预处理后的数据集X;
(2)对预处理后的数据集X进行K-Means聚类欠采样,构建平衡数据集X′:
(2a)将预处理后数据集X根据极少数类数量|Xmin|分为极少数类Xmin和多数类集合
Figure SMS_1
其中
Figure SMS_2
k为多数类的种数,g和nj分别是极少数类和每一多数类的样本总数;
(2b)将极少数类的样本数量g作为K-Means聚类欠采样要生成的每一种多数类样本的数量;
(2c)利用K-Means算法求出每一种多数类Xmaj的g个聚簇中心
Figure SMS_3
(2d)对每一种多数类Xmaj,计算出其与X′maj中每个聚簇中心欧式距离最近的样本
Figure SMS_4
其中
Figure SMS_5
(2e)合并每种欠采样后多数类中的样本X′maj,得到欠采样后的多数类集合
Figure SMS_6
(2f)将欠采样后的多数类集合
Figure SMS_7
与预处理后数据集X中的极少数类Xmin进行合并,得到平衡数据集
Figure SMS_8
其中
Figure SMS_9
(3)构建有偏随机森林分类模型:
(3a)选用现有的两个随机森林子模型RF1和RF2,分别取出其中所有的决策树
Figure SMS_10
Figure SMS_11
并将其进行合并,得到新的决策树集合
Figure SMS_12
其中T为决策树数量;
(3b)利用投票法对新的决策树集合
Figure SMS_13
进行组合,得到有偏随机森林模型BRF;
(4)对有偏随机森林分类模型进行训练:
(4a)将步骤(1)得到的预处理后的数据集X输入到第一随机森林RF1子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第一随机森林RF1子模型;
(4b)将步骤(2)得到的平衡数据集X′输入到第二随机森林RF2子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第二随机森林RF2子模型;
(4c)利用投票法将训练好的第一随机森林RF1子模型和第二随机森林RF2子模型中的所有决策树进行合并,得到训练好的有偏随机森林模型BRF;
(5)利用模型进行分类;
(5a)提取患者病例中的有效信息组成一维待分类的医疗数据;
(5b)将待分类的医疗数据输入到训练好的有偏随机森林BRF分类模型中,得到对患者病例信息的分类结果。
本发明与现有技术相比具有以下优点:
第一、由于本发明在生成新的医疗不平衡数据集时采用的是K-Means聚类欠采样技术,比现有的SMOTE过采样技术计算量小、分类效率高;同时由于本发明基于K-Means聚类欠采样技术生成的数据集最大限度的保留了数据集的原始分布特征,相对于其他欠采样技术更加切实有效;
第二、本发明通过对多数类样本欠采样和集成分类器构建的不平衡分类模型,相对于现有处理不平衡分类的代价敏感技术,不需要人工确定任何参数,鲁棒性较强;
第三、本发明由于在训练阶段将采样策略应用到随机森林构建过程中,相对于现有技术中分别基于数据级和算法级的模型,提升了少数类的识别精度。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图对本发明的实施例和效果作进一步详细描述。
参照图1,本实例的实现步骤如下:
步骤1,对原始医疗数据集进行预处理,得到预处理后的数据集X。
1.1)混乱格式处理:对原始医疗数据集中格式混乱的部分进行统一规整,将原始医疗数据集中的文字标识部分转换为数字标识,并对其中的状态信息项进行One-hot编码;
1.2)缺失值处理:对混乱格式处理后所得数据集,根据每个属性中的数据缺失比例不同采取不同的处理方式,即对缺失比例≤30%的属性采用多重插值方式填充,对缺失比例>30%的属性直接将该属性删除;
1.3)归一化处理:对缺失值处理后所得数据集中的数值项属性进行归一化处理,使其分布于[0,1]区间上,利用下式计算数值项属性的归一化结果x:
Figure SMS_14
其中x′为该数值项属性的原始值,MIN为该数值项属性中的最小值,MAX为该数值项属性中最大值;
1.4)对原始数据集中的所有属性项数据x′i经过混乱格式、缺失值和归一化处理后得到预处理后的数据集X={x1,x2,...,xi,...,xq},其中1≤i≤q,q为预处理后数据集中的总样本量。
步骤2,对预处理后的数据集X进行K-Means聚类欠采样得到平衡数据集X′。
2.1)将预处理后数据集X根据极少数类数量|Xmin|分为极少数类Xmin和多数类集合
Figure SMS_15
其中
Figure SMS_16
k为多数类的种数,g和nj分别是极少数类和每一多数类的样本总数;
2.2)将极少数类的样本数量g作为K-Means聚类欠采样要生成的每一种多数类样本的数量;
2.3)利用K-Means算法求出每一种多数类Xmaj的g个聚簇中心X′maj
2.3.1)从多数类Xmaj中随机选取g个样本
Figure SMS_17
作为初始聚簇中心,其中,0≤j≤k;
2.3.2)计算多数类Xmaj中的所有样本
Figure SMS_19
与各初始聚簇中心
Figure SMS_21
的欧式距离
Figure SMS_22
根据最小的
Figure SMS_20
和聚簇中心Xmaj′确定
Figure SMS_23
样本所属的聚簇
Figure SMS_24
将样本
Figure SMS_25
划入相应的聚簇
Figure SMS_18
其中,1≤i≤nj,1≤c≤g,;
2.3.3)重新计算每个聚簇
Figure SMS_26
的聚簇中心
Figure SMS_27
并将其与该聚簇原来的聚簇中心
Figure SMS_28
进行比较:
Figure SMS_29
Figure SMS_30
否则,保持当前的聚簇中心不变;
2.3.4)判断步骤2.3.3)中每个聚簇
Figure SMS_31
的聚簇中心
Figure SMS_32
是否都与该聚簇原来的聚簇中心
Figure SMS_33
相等:
若是,则结束循环,输出多数类Xmaj的g个聚簇中心
Figure SMS_34
否则,返回步骤2.3.3)。
2.4)对每一种多数类Xmaj,计算出其与X′maj中每个聚簇中心欧式距离最近的样本X″maj
2.4.1)计算样本
Figure SMS_35
和聚类中心
Figure SMS_36
之间的欧氏距离
Figure SMS_37
其中1≤i≤nj,1≤c≤g,n为数据的维度,
Figure SMS_38
为数据
Figure SMS_39
的第u维数值,
Figure SMS_40
为数据
Figure SMS_41
的第u维数值;
2.4.2))对每个聚类中心
Figure SMS_42
Figure SMS_43
最小值对应的样本
Figure SMS_44
组成样本集合
Figure SMS_45
2.5)合并每种欠采样后多数类中的样本X″maj,得到欠采样后的多数类集合
Figure SMS_46
2.6)将欠采样后的多数类集合
Figure SMS_47
与预处理后数据集X中的极少数类Xmin进行合并,得到平衡数据集
Figure SMS_48
其中
Figure SMS_49
步骤3,构建有偏随机森林分类模型BRF。
3.1)选用现有的两个随机森林子模型RF1和RF2,分别取出其中所有的决策树
Figure SMS_50
Figure SMS_51
并将其进行合并,得到新的决策树集合
Figure SMS_52
其中T为决策树数量;
3.2)利用投票法对新的决策树集合
Figure SMS_53
进行组合,得到有偏随机森林模型BRF:
Figure SMS_54
其中,k为数据集类别数;x为测试数据;fj(x)表示第j颗决策树的输出;I(·)是一个判断函数,当其内容满足要求为真时,I(·)=1,当其内容不满足要求时,I(·)=0。
步骤4,对有偏随机森林分类模型BRF进行训练。
4.1)将步骤(1)得到的预处理后的数据集X输入到第一随机森林RF1子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第一随机森林RF1子模型:
Figure SMS_55
4.2)将步骤(2)得到的平衡数据集X′输入到第二随机森林RF2子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第二随机森林RF2子模型:
Figure SMS_56
4.3)利用投票法将训练好的第一随机森林RF1子模型和第二随机森林RF2子模型中的所有决策树进行合并,得到训练好的有偏随机森林模型BRF:
Figure SMS_57
步骤5,利用有偏随机森林模型BRF进行分类。
5.1)提取患者病例中的有效信息,即包括人口学指标、既往史、伴随症状、体格检查以及实验室检查结果这些医疗数据集的属性特征,组成一维待分类的医疗数据;
5.2)将待分类的医疗数据输入到训练好的有偏随机森林BRF分类模型中,得到对患者病例信息的分类结果。
下面结合仿真实验对本发明的效果作进一步的说明。
1.仿真条件:
本发明的仿真实验在Pycharm2019、Anaconda版本为4.12.0,Python版本为3.7的环境下进行。
仿真的数据来源于西安交通大学第一附属医院提供的发热待查患者临床数据,在此基础上构建了发热待查医疗数据集,数据集包含10类感染性病例和6类非感染性病例,共计560条诊疗数据,不平衡率IR=8.82。每条数据包括人口学指标、既往史、伴随症状、体格检查、实验室检查、医生诊断结果等信息,共计186个特征。
2.仿真内容及仿真结果,
首先,对发热待查数据集进行预处理,然后对发热待查数据集的16类共560条样本数据采用10折交叉验证进行模型评估,再分别使用传统分类模型和本发明分类模型对数据集进行训练和测试,利用测试数据的分类准确率、F1值和G-mean值三个评价指标对比两个模型的检测效果,如表1所示。
表1传统分类模型与本发明分类模型性能对比
模型 准确率 F1值 G-mean值
传统分类模型 0.6869 0.5330 0.7408
本发明分类模型 0.7442 0.6726 0.8367
由上表可以看出,采用本发明方法测试数据的分类准确率、F1值和G-mean值这三项评价指标均优于现有传统的分类模型,证明了本发明的正确性与有效性。
本发明未详细说明部分属于本领域技术人员公知常识。

Claims (6)

1.一种基于有偏随机森林模型的医疗不平衡数据分类方法,其特征在于,包括如下步骤:
(1)对原始医疗数据集依次进行混乱格式、缺失值填充、归一化的预处理得到预处理后的数据集X;
(2)对预处理后的数据集X进行K-Means聚类欠采样,构建平衡数据集X′:
(2a)将预处理后数据集X根据极少数类数量|Xmin|分为极少数类Xmin和多数类集合
Figure FDA0004083420420000011
其中
Figure FDA0004083420420000012
k为多数类的种数,g和nj分别是极少数类和每一多数类的样本总数;
(2b)将极少数类的样本数量g作为K-Means聚类欠采样要生成的每一种多数类样本的数量;
(2c)利用K-Means算法求出每一种多数类Xmaj的g个聚簇中心
Figure FDA0004083420420000013
(2d)对每一种多数类Xmaj,计算出其与X′maj中每个聚簇中心欧式距离最近的样本
Figure FDA0004083420420000014
其中
Figure FDA0004083420420000015
(2e)合并每种欠采样后多数类中的样本X″maj,得到欠采样后的多数类集合
Figure FDA0004083420420000016
(2f)将欠采样后的多数类集合
Figure FDA0004083420420000017
与预处理后数据集X中的极少数类Xmin进行合并,得到平衡数据集
Figure FDA0004083420420000018
其中
Figure FDA0004083420420000019
(3)构建有偏随机森林分类模型:
(3a)选用现有的两个随机森林子模型RF1和RF2,分别取出其中所有的决策树
Figure FDA00040834204200000110
Figure FDA00040834204200000111
并将其进行合并,得到新的决策树集合
Figure FDA00040834204200000112
其中T为决策树数量;
(3b)利用投票法对新的决策树集合
Figure FDA00040834204200000113
进行组合,得到有偏随机森林模型BRF;
(4)对有偏随机森林分类模型进行训练:
(4a)将步骤(1)得到的预处理后的数据集X输入到第一随机森林RF1子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第一随机森林RF1子模型;
(4b)将步骤(2)得到的平衡数据集X′输入到第二随机森林RF2子模型中,设置决策树数量参数为100,依据基尼系数法进行决策树建立,直到100颗决策树建立完全为止,得到训练好的第二随机森林RF2子模型;
(4c)利用投票法将训练好的第一随机森林RF1子模型和第二随机森林RF2子模型中的所有决策树进行合并,得到训练好的有偏随机森林模型BRF;
(5)利用模型进行分类;
(5a)提取患者病例中的有效信息组成一维待分类的医疗数据;
(5b)将待分类的医疗数据输入到训练好的有偏随机森林BRF分类模型中,得到对患者病例信息的分类结果。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中对原始数据集进行混乱格式、缺失值填充、归一化的预处理,实现如下:
所述混乱格式处理,是对原始医疗数据集中格式混乱的部分进行统一规整,将原始医疗数据集中的文字标识部分转换为数字标识,并对其中的状态信息项进行One-hot编码;
所述缺失值处理,是对混乱格式处理后所得数据集,根据每个属性中的数据缺失比例不同,采取不同的处理方式,即对缺失比例≤30%的属性采用多重插值方式填充,对缺失比例>30%的属性直接将该属性删除;
所述归一化处理,是对缺失值处理后所得数据集中的数值项属性进行归一化处理,计算公式为:
Figure FDA0004083420420000021
其中x′为该数值项属性的原始值,MIN为该数值项属性中的最小值,MAX为该数值项属性中最大值。
3.根据权利要求1所述的方法,其特征在于:步骤(2c)中利用K-Means算法求出每一种多数类Xmaj的g个聚簇中心,实现如下:
(2c1)从多数类Xmaj中随机选取g个样本
Figure FDA0004083420420000031
作为初始聚簇中心,其中,0≤j≤k;
(2c2)计算多数类Xmaj中的所有样本
Figure FDA0004083420420000032
与各初始聚簇中心
Figure FDA0004083420420000033
的欧式距离
Figure FDA0004083420420000034
根据最小的
Figure FDA0004083420420000035
和聚簇中心Xmaj′确定
Figure FDA0004083420420000036
样本所属的聚簇
Figure FDA0004083420420000037
将样本
Figure FDA0004083420420000038
划入相应的聚簇
Figure FDA0004083420420000039
其中,1≤i≤nj,1≤c≤g,;
(2c3)重新计算每个聚簇
Figure FDA00040834204200000310
的聚簇中心
Figure FDA00040834204200000311
并将其与该聚簇原来的聚簇中心
Figure FDA00040834204200000312
进行比较:
Figure FDA00040834204200000313
Figure FDA00040834204200000314
否则,保持当前的聚簇中心不变;
(2c4)判断步骤(2c3)中每个聚簇
Figure FDA00040834204200000315
的聚簇中心
Figure FDA00040834204200000316
是否都与该聚簇原来的聚簇中心
Figure FDA00040834204200000317
相等:
若是,则结束循环,输出多数类Xmaj的g个聚簇中心
Figure FDA00040834204200000318
否则,返回步骤(2c2)。
4.根据权利要求1所述的方法,其特征在于:步骤(2d)中对,计算每一种多数类Xmaj与X′maj中每个聚簇中心欧式距离最近的样本集合X″maj,实现如下:
(2d1)计算样本
Figure FDA00040834204200000319
和聚类中心
Figure FDA00040834204200000320
之间的欧氏距离
Figure FDA00040834204200000321
其中1≤i≤nj,1≤c≤g,n为数据的维度,
Figure FDA00040834204200000322
为数据
Figure FDA00040834204200000323
的第u维数值,
Figure FDA00040834204200000324
为数据
Figure FDA00040834204200000325
的第u维数值;
(2d2)对每个聚类中心
Figure FDA00040834204200000326
Figure FDA00040834204200000327
最小值对应的样本
Figure FDA00040834204200000328
组成样本集合
Figure FDA00040834204200000329
5.根据权利要求1所述的方法,其特征在于:步骤(3b)中得到的有偏随机森林模型BRF,表示如下:
Figure FDA0004083420420000041
其中,k为数据集类别数;T为每个子模型中决策树的数量;x为测试数据;fj(x)表示第j颗决策树的输出;I(·)是一个判断函数,当其内容满足要求时为真时,I(·)=1,当其内容满足要求时为假时,I(·)=0。
6.根据权利要求1所述的方法,其特征在于:步骤(5a)所述患者病例中的有效信息,是指医疗数据集的属性特征,包括人口学指标、既往史、伴随症状、体格检查以及实验室检查结果。
CN202310129885.4A 2023-02-17 2023-02-17 基于有偏随机森林模型的医疗不平衡数据分类方法 Pending CN116072302A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310129885.4A CN116072302A (zh) 2023-02-17 2023-02-17 基于有偏随机森林模型的医疗不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310129885.4A CN116072302A (zh) 2023-02-17 2023-02-17 基于有偏随机森林模型的医疗不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN116072302A true CN116072302A (zh) 2023-05-05

Family

ID=86171383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310129885.4A Pending CN116072302A (zh) 2023-02-17 2023-02-17 基于有偏随机森林模型的医疗不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN116072302A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423467A (zh) * 2023-10-18 2024-01-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
CN118194098A (zh) * 2024-05-16 2024-06-14 中国人民解放军总医院 疾病预测领域中针对不均衡数据的优化分类方法和装置
CN118398233A (zh) * 2024-06-24 2024-07-26 湘江实验室 一种面向不平衡医疗数据集的分析处理方法
CN118505380A (zh) * 2024-07-18 2024-08-16 南京昱鑫辰信息技术有限公司 电子信息管理方法及平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117423467A (zh) * 2023-10-18 2024-01-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
CN117423467B (zh) * 2023-10-18 2024-04-19 广州中医药大学(广州中医药研究院) 面向医学临床诊断的缺失值感知和容忍深度网络方法和装置
CN118194098A (zh) * 2024-05-16 2024-06-14 中国人民解放军总医院 疾病预测领域中针对不均衡数据的优化分类方法和装置
CN118398233A (zh) * 2024-06-24 2024-07-26 湘江实验室 一种面向不平衡医疗数据集的分析处理方法
CN118505380A (zh) * 2024-07-18 2024-08-16 南京昱鑫辰信息技术有限公司 电子信息管理方法及平台

Similar Documents

Publication Publication Date Title
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN110059183B (zh) 一种基于大数据的汽车行业用户观点情感分类方法
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN107169504A (zh) 一种基于扩展非线性核残差网络的手写字符识别方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN112434662B (zh) 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法
WO2020136586A1 (en) Marketing engine based on traits and characteristics of prospective consumers
CN108664653A (zh) 一种基于K-means的医疗消费客户自动分类方法
CN111326236A (zh) 一种医疗图像自动处理系统
CN110136113B (zh) 一种基于卷积神经网络的阴道病理图像分类方法
CN116259415A (zh) 一种基于机器学习的患者服药依从性预测方法
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
CN116130105A (zh) 一种基于神经网络的健康风险预测方法
CN117114105B (zh) 基于科研大数据信息的目标对象推荐方法和系统
CN117351484B (zh) 基于ai的肿瘤干细胞特征提取及分类系统
CN117493998A (zh) 一种基于大数据的问卷调查事件智能分类管理方法及系统
CN113257429A (zh) 一种基于关联规则认知发热疾病的系统、设备、存储介质
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN113159220A (zh) 基于随机森林的混凝土侵彻深度经验算法评价方法和装置
Manikis et al. Pollen grain classification using geometrical and textural features
CN116313111A (zh) 基于组合模型的乳腺癌风险预测方法、系统、介质、设备
CN114610941A (zh) 基于对比学习的文物图像检索系统
CN111127184B (zh) 一种分布式组合信用评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination