CN108509982A - 一种处理二分类不平衡医学数据的方法 - Google Patents

一种处理二分类不平衡医学数据的方法 Download PDF

Info

Publication number
CN108509982A
CN108509982A CN201810198315.XA CN201810198315A CN108509982A CN 108509982 A CN108509982 A CN 108509982A CN 201810198315 A CN201810198315 A CN 201810198315A CN 108509982 A CN108509982 A CN 108509982A
Authority
CN
China
Prior art keywords
data
processing
attribute
classification
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810198315.XA
Other languages
English (en)
Inventor
马磊
杜国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810198315.XA priority Critical patent/CN108509982A/zh
Publication of CN108509982A publication Critical patent/CN108509982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种处理二分类不平衡医学数据的方法,属数据分类技术领域,本发明首先对数据进行预处理,初步删除原始数据集中无关、重复数据,接着平滑噪声数据,并处理异常值和缺失值;其次对不同数据源的数据进行集成,解决实体识别和属性冗余问题,并对数据进行规范化处理;然后采用ROSE方法对数据进行不平衡处理;本发明在数据预处理的基础上,采用ROSE和Boruta算法,能够较好的提高对不平衡医学数据的分类精度,解决了医学不均衡数据少类样本的分类正确率低的问题。

Description

一种处理二分类不平衡医学数据的方法
技术领域
本发明涉及一种处理二分类不平衡医学数据的方法,特别涉及一种结合 ROSE数据平衡和Boruta算法进行特征选择进行数据分类的方法,属于数据分类 技术领域。
背景技术
目前大部分的分类算法一般都是假定不同类的比例是均衡的,但是我们在生 活中大部分数据集都存在不平衡现象,如广告的点击预测,商品的推荐或者是信 用卡的欺诈检测,这些数据集都存在一定的极端不平衡分类现象。比如有1%人 是坏人,99%的是好人,识别好人坏人的分类模型自然会将所有的人都划分为好 人,同时这种过拟合得到的模型的准确率高达99%,显然这样的模型准确率是很 高,但是并不会提供什么有效信息。
目前分类算法在医学领域也广为应用,如疾病的分类诊断、癌细胞的识别、 微阵列数据的判别分析等研究。在实际的应用中也同样存在着数据不平衡现象, 如对体检人群中慢性疾病如糖尿病、冠心病进行发病预测筛查,这种发病人群由 于在健康人群中所占的比例较小,因此采用分类算法识别高位人群比较困难。
对不平衡数据的处理方法主要包括两种,一种是从数据层面的重构方法,另 一种是算法层面的改进方法,主要包括集成学习、代价敏感学习等方法。数据集 的重构方法主要集中实现数据的平衡,方法包括数据的过采样、欠采样和综合采 样(过采样与欠采样结合)的方法。过采样技术主要是通过增加少类样本的数量, 实现数据的平衡策略。欠采样技术通过减少多类样本的数量,实现多类样本和少 类样本数量上的均衡。这两种单纯从某类样本数量上采取的平衡措施,都没有从 从根本上解决问题。对多类样本欠采样,可能存在盲目性,导致大部分有用信息 的丢失;而对少类样本的过采样,给样本增加新的信息,导致过拟合。综合采样 是通过使用过采样和欠采样结合的方法,对少量样本过采样,同时对多类样本欠 采样,实现数据的平衡。人工数据集的合成方法,简单来说就是通过人工合成数据,而不是重复原始的观测值,其本质也是一种过采样技术。但是,在实际的应 用领域,普遍关注的是不均衡数据中少类样本的分类正确率,这是目前数据领域 甚至是机器学习领域亟待解决的课题。
发明内容
本发明的目的在于提供一种处理二分类不平衡医学数据的方法,本发明方法 适用于目前医学领域存在数据缺失和分类不平衡的数据,本方法不同于传统对于 不平衡数据分类的常见方法,本方法通过对数据进行预处理,填补缺失值并处理 异常值,在数据规整后进行属性特征选择,有效解决了传统的医学数据分类过程 中少数类分类准确率的问题。
本发明的技术方案如下:首先对数据进行预处理,删除原始数据集中与分类 主题无关、重复数据,接着平滑噪声数据,并处理异常值和缺失值;其次对不同 数据源的数据进行集成,解决实体识别和属性冗余问题,并对数据进行规范化处 理;然后采用ROSE方法对数据进行不平衡处理,从而解决了二分类医学数据的 不平衡问题。
本发明处理二分类不平衡医学数据的方法,具体操作步骤如下:
(1)数据清洗:对需要分类的来自多个数据源的医学原始数据集进行预处 理,删除原始数据集中与分类主题无关、重复的数据,再平滑噪声数据,然后进 行缺失值处理,若某项属性的缺失值大于30%以上,则将该项属性直接删除,若 某项属性的缺失值小于30%,则采用拉格朗日插值法进行缺失值的补充,对于异 常值的处理也按照缺失值的方法进行;
(2)数据集成:将经过步骤(1)清洗后的多个数据源的各项数据进行合并, 采用实体识别和冗余属性的识别方法,将源数据在底层进行转换、提炼以及集成;
(3)数据变换与规约:对步骤(2)集成后的数据进行规范化处理,采用函 数变换将不符合正态分布的数据压缩成正态分布的数据,同时对数值差距较大的 数据进行最小-最大规范化或者零-均值规范化,对连续性数据进行连续属性离散 化和属性的重构造,从而将步骤(2)集成后的数据转变成适合分析处理的格式, 得到平衡前的数据集;
(4)平衡数据:采用ROSE函数对步骤(3)平衡前的数据集进行数据的随 机过采样,基于平滑自助法和核方法将数据集中的数据样本从低维特征空间映射 到高维空间,在新的特征空间中通过条件核密度估计,生成各类数据新的样本集;
(5)生成平衡数据集:重复执行步骤(4)进行平衡数据,直至少数类样本 集的数据量与多数类样本集的数据量的比值≤1时,停止执行步骤(4),生成各 类数据新的样本集;
(6)评估特征重要性:通过Boruta算法对步骤(5)生成的各类数据新的样 本集创建混合副本数据集,从而增加原始数据的随机性,然后,对混合副本数据 集使用随机森林分类器训练样本,从而得到每个特征对目标属性的重要性评估;
(7)特征确认与删除:在步骤(6)特征重要性评估后,对特征属性重要值importance小于20的特征进行删除,大于等于20的属性特征进行保留,当所有 特征得到确认后,特征选择结束;
(8)创建最终数据集:将步骤(7)特征选择后的各类数据集导出,得到一 个完整的二分类平衡医学数据集。
利用以上步骤解决了二分类医学数据不平衡的问题,为了证明本发明方法的 有效性,采用以下步骤对本发明方法进行验证并与其他分类模型进行比较:
a:划分训练样本集和测试样本集:将步骤(8)得到的完整的分类数据集进 行随机排序,然后将数据划分为两部分,前面80%的数据作为训练数据,组成训 练数据集,其余20%数据作为测试数据,组成测试数据集;
b:基于数据进行模型训练:对步骤a的训练数据集分别构建Logistic回归、 决策树、朴素贝叶斯算法分类器模型;
c:评估模型性能:用步骤a的测试数据集来验证步骤b构建的Logistic回归、 决策树、朴素贝叶斯算法分类器模型,得到准确率,召回率,G-mean,F-measure 和AUC值等6个指标;
d:模型性能比较:对步骤(3)的平衡前的数据集重复步骤a~步骤c的过程, 得到平衡前数据集的准确率,召回率,G-mean,F-measure和AUC值等6个指 标,然后与步骤c得到的指标进行对比,发现平衡后的数据集的指标明显优于平 衡前数据集的指标,说明本发明方法解决了数据的不平衡问题。
本发明的有益效果是:
(1)本发明方法采用ROSE和Boruta算法的方法,有效的对医学不平衡数 据进行随机过采样,解决了数据不平衡问题,并准确的进行属性的特征选择,构 建的分类器有效的解决了医学不均衡数据少类样本的分类正确率低的问题。
(2)本发明方法操作简单,具有广阔的应用前景。
附图说明
图1是本发明方法的总体流程图;
图2按行展示部分真实值和缺失值的矩阵图;
图3数据缺失值模式图;
图4特征选择变量重要性图;
图5三类分类模型数据平衡前后分类准确率效果示意图;
图6三类分类模型数据平衡前后G-mean变化效果示意图。
具体实施方式
实施例1:一种处理二分类不平衡医学数据的方法,具体步骤如下:首先对 数据进行预处理,删除原始数据集中与分类主题无关、重复数据,接着平滑噪声 数据,并处理异常值和缺失值;其次对不同数据源的数据进行集成,解决实体识 别和属性冗余问题,并对数据进行规范化处理;然后采用ROSE方法对数据进行 不平衡处理,从而解决了二分类医学数据的不平衡问题。
具体操作步骤如下:
(1)数据清洗:对需要分类的来自多个数据源的医学原始数据集进行预处 理,删除原始数据集中与分类主题无关、重复的数据,再平滑噪声数据,然后进 行缺失值处理,若某项属性的缺失值大于30%以上,则将该项属性直接删除,若 某项属性的缺失值小于30%,则采用拉格朗日插值法进行缺失值的补充,对于异 常值的处理也按照缺失值的方法进行;
(2)数据集成:将经过步骤(1)清洗后的多个数据源的各项数据进行合并, 采用实体识别和冗余属性的识别方法,将源数据在底层进行转换、提炼以及集成;
(3)数据变换与规约:对步骤(2)集成后的数据进行规范化处理,采用函 数变换将不符合正态分布的数据压缩成正态分布的数据,同时对数值差距较大的 数据进行最小-最大规范化或者零-均值规范化,对连续性数据进行连续属性离散 化和属性的重构造,从而将步骤(2)集成后的数据转变成适合分析处理的格式, 得到平衡前的数据集;
(4)平衡数据:采用ROSE函数对步骤(3)平衡前的数据集进行数据的随 机过采样,基于平滑自助法和核方法将数据集中的数据样本从低维特征空间映射 到高维空间,在新的特征空间中通过条件核密度估计,生成各类数据新的样本集;
(5)生成平衡数据集:重复执行步骤(4)进行平衡数据,直至少数类样本 集的数据量与多数类样本集的数据量的比值≤1时,停止执行步骤(4),生成各 类数据新的样本集;
(6)评估特征重要性:通过Boruta算法对步骤(5)生成的各类数据新的样 本集创建混合副本数据集,从而增加原始数据的随机性,然后,对混合副本数据 集使用随机森林分类器训练样本,从而得到每个特征对目标属性的重要性评估;
(7)特征确认与删除:在步骤(6)特征重要性评估后,对特征属性重要值importance小于20的特征进行删除,大于等于20的属性特征进行保留,当所有 特征得到确认后,特征选择结束;
(8)创建最终数据集:将步骤(7)特征选择后的各类数据集导出,得到一 个完整的二分类平衡医学数据集。
实施例2:如图1~6所示,本实施例的数据采用UCI机器学习数据的美国130 个医院10年的糖尿病病人再入院的数据集,处理该医学原始数据不平衡的问题, 具体步骤如下:
(1)数据清洗:对130各医院的10年的医学原始数据集进行预处理,删除 原始数据集中与糖尿病病人再入院无关、重复的数据,再平滑噪声数据,然后进 行缺失值处理,若某项属性的缺失值大于30%以上,则将该项属性直接删除,若 某项属性的缺失值小于30%,则采用拉格朗日插值法进行缺失值的补充,对于异 常值的处理也按照缺失值的方法进行,本实施例按行展示真实值和缺失值的矩阵 图如图2所示,数据缺失值模式图形如图3所示,部分属性的缺失数据汇总情况 如表1所示;
表1部分属性缺失数据汇总
(2)数据集成:将美国130个医院10年的糖尿病病人再入院的数据进行合 并,采用实体识别和冗余属性的识别,将源数据在底层进行转换和提炼以及集成;
(3)对步骤(2)集成后的数据进行规范化处理,采用函数变换将不符合正 态分布的数据压缩成正态分布的数据,同时对数值差距较大的数据进行最小-最 大规范化或者零-均值规范化,对连续性数据进行连续属性离散化和属性的重构 造,从而将步骤(2)集成后的数据转变成适合分析处理的格式,得到平衡前的 数据集,本数据集分类变量readmitted表示是否重新住院,在原始数据中有三种 数值,分别代表30天内重新住院、一年内重新住院和不重新住院,将原始数据 的一年内重新住院和不重新住院合并为30天内不重新住院,从而将本实施例的 分类问题变为二分类问题;
(4)平衡数据:采用ROSE函数对步骤(3)平衡前的数据集进行数据的随 机过采样,假设有数据集Tn=(xi,yi),i=1,Λ,n,其中n为数据集的大小,xi为具 有随机概率密度函数f(x)的数据子集,yi为类标签代表少类样本和多类样本。 合成样本的步骤如下:从数据集c中选择y*=yj,使得yi=y*的概率为从xi数据子集中选择概率分布的矩阵Hj中的样本x*,然后基于平滑自助法和核 方法将数据集中的数据样本x*从低维特征空间映射到高维空间,在新的特征空间 中选择其相邻的观测值,通过条件核密度进行估计合成新的样本集;
(5)生成平衡数据集:重复执行平衡数据重复执行上述步骤m次,生成新 的样本集其样本集大小为m,m的数值可以为原始样本数据量n或其他数值;
(6)评估特征重要性:通过Boruta算法对步骤(5)生成的各类数据新的样 本集创建混合副本数据集,从而增加原始数据的随机性,然后,训练一个随机森 林分类的扩展数据集,并采用一个特征重要性措施,评估的每个特征的重要性, 特征选择变量的重要程度如图4所示;
(7)在步骤(6)特征重要性评估后,对特征属性重要值importance小于20 的特征进行删除,大于等于20的属性特征进行保留,当所有特征得到确认后, 特征选择结束;
(8)将步骤(7)特征选择后的各类数据集导出,得到一个完整的二分类平 衡医学数据集。
利用以上步骤解决了本实施例糖尿病人再入院的医学数据不平衡的问题,为 了证明本实施例方法的有效性,采用以下步骤对本发明方法进行验证并与其他分 类模型进行比较:
a:划分训练样本集和测试样本集:将步骤(8)得到的完整的分类数据集进 行随机排序,然后将数据划分为两部分,前面80%的数据作为训练数据,组成训 练数据集,其余20%数据作为测试数据,组成测试数据集;
b:基于数据进行模型训练:对步骤a的训练数据集分别构建Logistic回归、 决策树、朴素贝叶斯算法分类器模型;
c:评估模型性能:用步骤a的测试数据集来验证步骤b构建的Logistic回归、 决策树、朴素贝叶斯算法分类器模型,得到准确率,召回率,G-mean,F-measure 和AUC值等6个指标,性能比较如表2所示;
表2实验结果
d:模型性能比较:对步骤(3)的平衡前的数据集重复步骤a~步骤c的过程, 得到平衡前数据集的准确率,召回率,G-mean,F-measure和AUC值等6个指 标,然后与步骤c得到的指标进行对比,三类分类模型数据平衡前后分类准确率 和G-mean值变化效果如图5和图6所示,发现平衡后的数据集的指标明显优于 平衡前数据集的指标,说明本发明方法解决了数据的不平衡问题,数据平衡后, 可以最大限度确保模型对实际二分类不平衡医学数据的实用性,对实际分析需求 有一定的实际参考价值。
上面结合附图对本发明的具体实施方式作了详细的说明,但是本发明并不限 于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以再不脱离 本发明宗旨前提下做出各种变化。

Claims (2)

1.一种处理二分类不平衡医学数据的方法,其特征在于,具体步骤如下:首先对数据进行预处理,删除原始数据集中与分类主题无关、重复数据,接着平滑噪声数据,并处理异常值和缺失值;其次对不同数据源的数据进行集成,解决实体识别和属性冗余问题,并对数据进行规范化处理;然后采用ROSE方法对数据进行不平衡处理,从而解决了二分类医学数据的不平衡问题。
2.根据权利要求1所述的处理二分类不平衡医学数据的方法,其特征在于:具体操作步骤如下:
(1)数据清洗:对需要分类的来自多个数据源的医学原始数据集进行预处理,删除原始数据集中与分类主题无关、重复的数据,再平滑噪声数据,然后进行缺失值处理,若某项属性的缺失值大于30%以上,则将该项属性直接删除,若某项属性的缺失值小于30%,则采用拉格朗日插值法进行缺失值的补充,对于异常值的处理也按照缺失值的方法进行;
(2)数据集成:将经过步骤(1)清洗后的多个数据源的各项数据进行合并,采用实体识别和冗余属性的识别方法,将源数据在底层进行转换、提炼以及集成;
(3)数据变换与规约:对步骤(2)集成后的数据进行规范化处理,采用函数变换将不符合正态分布的数据压缩成正态分布的数据,同时对数值差距较大的数据进行最小-最大规范化或者零-均值规范化,对连续性数据进行连续属性离散化和属性的重构造,从而将步骤(2)集成后的数据转变成适合分析处理的格式,得到平衡前的数据集;
(4)平衡数据:采用ROSE函数对步骤(3)平衡前的数据集进行数据的随机过采样,基于平滑自助法和核方法将数据集中的数据样本从低维特征空间映射到高维空间,在新的特征空间中通过条件核密度估计,生成各类数据新的样本集;
(5)生成平衡数据集:重复执行步骤(4)进行平衡数据,直至少数类样本集的数据量与多数类样本集的数据量的比值≤1时,停止执行步骤(4),生成各类数据新的样本集;
(6)评估特征重要性:通过Boruta算法对步骤(5)生成的各类数据新的样本集创建混合副本数据集,从而增加原始数据的随机性,然后,对混合副本数据集使用随机森林分类器训练样本,从而得到每个特征对目标属性的重要性评估;
(7)特征确认与删除:在步骤(6)特征重要性评估后,对特征属性重要值importance小于20的特征进行删除,大于等于20的属性特征进行保留,当所有特征得到确认后,特征选择结束;
(8)创建最终数据集:将步骤(7)特征选择后的各类数据集导出,得到一个完整的二分类平衡医学数据集。
CN201810198315.XA 2018-03-12 2018-03-12 一种处理二分类不平衡医学数据的方法 Pending CN108509982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810198315.XA CN108509982A (zh) 2018-03-12 2018-03-12 一种处理二分类不平衡医学数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810198315.XA CN108509982A (zh) 2018-03-12 2018-03-12 一种处理二分类不平衡医学数据的方法

Publications (1)

Publication Number Publication Date
CN108509982A true CN108509982A (zh) 2018-09-07

Family

ID=63376449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810198315.XA Pending CN108509982A (zh) 2018-03-12 2018-03-12 一种处理二分类不平衡医学数据的方法

Country Status (1)

Country Link
CN (1) CN108509982A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109490704A (zh) * 2018-10-16 2019-03-19 河海大学 一种基于随机森林算法的配电网故障区段定位方法
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN110148115A (zh) * 2019-04-04 2019-08-20 中国科学院深圳先进技术研究院 一种癌转移预测影像特征的筛选方法、装置和存储介质
CN110322968A (zh) * 2019-06-24 2019-10-11 北京科技大学 一种疾病类别医学数据的特征选择方法和装置
CN110796349A (zh) * 2019-10-16 2020-02-14 昆明理工大学 一种信用卡盗刷事件预警模型的建立及评估方法
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法
CN111768846A (zh) * 2020-05-27 2020-10-13 医利捷(上海)信息科技有限公司 一种临床数据管理方法
CN111860586A (zh) * 2020-06-12 2020-10-30 南通大学 一种细粒度宫颈细胞图像三阶段识别方法
CN112905716A (zh) * 2021-02-24 2021-06-04 同济大学 一种半导体生产过程数据预处理方法及装置
CN112988725A (zh) * 2021-03-15 2021-06-18 广东电网有限责任公司清远供电局 一种输电线路数据清洗方法、系统、电子设备和存储介质
CN113516205A (zh) * 2021-09-03 2021-10-19 平安科技(深圳)有限公司 基于人工智能的数据分类方法、装置、设备及存储介质
CN114093448A (zh) * 2021-11-24 2022-02-25 首都医科大学附属北京天坛医院 一种疾病风险预测模型的构建方法
CN116631641A (zh) * 2023-07-21 2023-08-22 之江实验室 一种集成自适应相似患者图的疾病预测装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与系统
CN106504111A (zh) * 2016-09-19 2017-03-15 清华大学 异常电力用户挖掘中类分布不平衡问题的解决方法
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402690A (zh) * 2011-09-28 2012-04-04 南京师范大学 基于直觉模糊集成的数据分类方法与系统
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成
CN106504111A (zh) * 2016-09-19 2017-03-15 清华大学 异常电力用户挖掘中类分布不平衡问题的解决方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
MIRON B. KURSA 等: "Feature Selection with the Boruta Package", 《JOURNAL OF STATISTICAL SOFTWARE》 *
张昆 主编: "《专业学位研究生实验课程.荟萃篇》", 30 November 2017 *
杜国栋 等: "基于ROSE和C5.0算法的打鼾者OSAHS初筛模型", 《计算机工程与应用》 *
董燕杰: "不平衡数据集分类的Random-SMOTE方法研究", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
谷斌 主编: "《数据仓库与数据挖掘实务》", 31 August 2014 *
赵玮: "采用机器学习的聚类模型特征选择方法比较", 《华侨大学学报(自然科学版)》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109490704A (zh) * 2018-10-16 2019-03-19 河海大学 一种基于随机森林算法的配电网故障区段定位方法
CN109948732B (zh) * 2019-03-29 2020-12-22 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN109948732A (zh) * 2019-03-29 2019-06-28 济南大学 基于非平衡学习的异常细胞远处转移分类方法及系统
CN110148115A (zh) * 2019-04-04 2019-08-20 中国科学院深圳先进技术研究院 一种癌转移预测影像特征的筛选方法、装置和存储介质
CN110322968A (zh) * 2019-06-24 2019-10-11 北京科技大学 一种疾病类别医学数据的特征选择方法和装置
CN110825819A (zh) * 2019-09-24 2020-02-21 昆明理工大学 一种处理有缺失值和不平衡非小细胞肺癌数据的二分类方法
CN110796349A (zh) * 2019-10-16 2020-02-14 昆明理工大学 一种信用卡盗刷事件预警模型的建立及评估方法
CN111768846A (zh) * 2020-05-27 2020-10-13 医利捷(上海)信息科技有限公司 一种临床数据管理方法
CN111860586A (zh) * 2020-06-12 2020-10-30 南通大学 一种细粒度宫颈细胞图像三阶段识别方法
CN112905716A (zh) * 2021-02-24 2021-06-04 同济大学 一种半导体生产过程数据预处理方法及装置
CN112988725A (zh) * 2021-03-15 2021-06-18 广东电网有限责任公司清远供电局 一种输电线路数据清洗方法、系统、电子设备和存储介质
CN113516205A (zh) * 2021-09-03 2021-10-19 平安科技(深圳)有限公司 基于人工智能的数据分类方法、装置、设备及存储介质
CN113516205B (zh) * 2021-09-03 2021-12-14 平安科技(深圳)有限公司 基于人工智能的员工稳定性分类方法及相关设备
CN114093448A (zh) * 2021-11-24 2022-02-25 首都医科大学附属北京天坛医院 一种疾病风险预测模型的构建方法
CN114093448B (zh) * 2021-11-24 2022-07-01 首都医科大学附属北京天坛医院 一种疾病风险预测模型的构建方法
CN116631641A (zh) * 2023-07-21 2023-08-22 之江实验室 一种集成自适应相似患者图的疾病预测装置
CN116631641B (zh) * 2023-07-21 2023-12-22 之江实验室 一种集成自适应相似患者图的疾病预测装置

Similar Documents

Publication Publication Date Title
CN108509982A (zh) 一种处理二分类不平衡医学数据的方法
Piri et al. An analytical study of modified multi-objective Harris Hawk Optimizer towards medical data feature selection
US11868856B2 (en) Systems and methods for topological data analysis using nearest neighbors
US11860941B2 (en) Outcome analysis for graph generation
Xin et al. Complex network classification with convolutional neural network
Varma et al. Snuba: Automating weak supervision to label training data
CN106537422B (zh) 用于捕获信息内的关系的系统和方法
US11868851B2 (en) Systems and methods for predicting outcomes using a prediction learning model
WO2018085859A1 (en) Dimension grouping and reduction for model generation, testing, and documentation
WO2018018025A1 (en) Topological data analysis of data from a fact table and related dimension tables
US10599669B2 (en) Grouping of data points in data analysis for graph generation
CN107665248A (zh) 基于深度学习混合模型的文本分类方法和装置
CN108459955A (zh) 基于深度自编码网络的软件缺陷预测方法
CN108960264A (zh) 分类模型的训练方法及装置
Peng et al. The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process
Saraswat et al. Medical Image Analysis Using Soft Computing Feature Selection and Classification of Skin Cancer
Li et al. A new two-stage hybrid feature selection algorithm and its application in Chinese medicine
Wang et al. Discriminatory mining of gene expression microarray data
CN108764296A (zh) 基于K-means与多任务关联学习结合的多分类方法
Feifei et al. Multi-core SVM optimized visual word package model for garment style classification
CN109543747A (zh) 一种基于分层随机森林的数据特征选择方法及装置
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
Perillo et al. Machine learning in the prognostic appraisal of Class III growth
Kulkarni et al. Diabetes Prediction Using Boosting Algorithms: Performance Comparison
Anuradha et al. PBCCUT-priority based class clustered under sampling technique approaches for imbalanced data classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180907