CN112560900B - 一种面向样本不均衡的多疾病分类器设计方法 - Google Patents

一种面向样本不均衡的多疾病分类器设计方法 Download PDF

Info

Publication number
CN112560900B
CN112560900B CN202011365674.3A CN202011365674A CN112560900B CN 112560900 B CN112560900 B CN 112560900B CN 202011365674 A CN202011365674 A CN 202011365674A CN 112560900 B CN112560900 B CN 112560900B
Authority
CN
China
Prior art keywords
sample
classifier
disease
macro
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011365674.3A
Other languages
English (en)
Other versions
CN112560900A (zh
Inventor
方钰
徐蔚
曲艺
陆明名
黄欣
翟鹏珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Publication of CN112560900A publication Critical patent/CN112560900A/zh
Application granted granted Critical
Publication of CN112560900B publication Critical patent/CN112560900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明目的在于克服现有技术的不足,给出一种面向样本不均衡的多疾病分类器设计方法,首先对按其疾病类别将医学病例数据划分为多个病例样本子集,然后对每个样本子集进行病症关联规则的特征选择方法,选择出该病例样本子集的特征向量,然后在不均衡度为上限阈值的前提条件下,迭代随机更新采用概率,对病例样本子集进行均衡化,然后再训练每一个样本子集的弱分类器并计算其分类效果,并最终通过判断macro‑F1的差值是否满足迭代收敛阈值来决定迭代生成多疾病分类器是否结束。

Description

一种面向样本不均衡的多疾病分类器设计方法
技术领域
本发明涉及机器学习领域,具体涉及样本不均衡,集成学习算法。
背景技术
在国内机器学习模型也被逐渐用于多疾病分类方法,但是在医学领域中,对 于那些训练样本较少的医学病例很难直接构建其多疾病分类模型。并且随着诊断 模型诊断能力的提高,其需要的特征数将会不断扩大,病例样本不均衡度也会逐 渐增高,最终会造成特征矩阵维数灾难、运算量过大、分类准确率低、训练样本 稀疏以及过拟合等问题,最终影响分类器的分类质量。
为了攻克这些医学领域中存在的病例样本不均衡的问题,我们可以从抽样技 术层面或者集成技术层面去解决这个问题。在基于抽样技术方面,有欠采样技术 和过采样技术。Kermanidis为了解决数据集不均衡问题,采用了单边采样技术提 高了分类器的分类准确率。同样地,通过运用过采样算法也能够解决小样本数据 量不足从而导致不均衡的问题。在过采样技术领域中SMOTE算法是主流的过采 样算法,但是其也存在一定的弊端,就是因为在样本合成过程中并没有考虑到近 邻样本的分布从而容易造成样本重叠的问题,最终致使样本合成具有很大的盲目 性。
同样的,集成学习模型也被引入到了解决样本不均衡的多分类问题中,并且 成为了解决样本不均衡问题的常用方法。在2009年就由Das提出了一种诊断瓣 膜性心脏病的集成学习算法,该方法通过集成多个神经网络基模型,最终集成出 一个分类性能较优的集成分类器。在集成学习中可以通过采用AdaBoost算法来 生成边界集群数据,并以此来完成样本不均衡分类的方法。另外,Bagging算法 也可以提高不平衡数据集的分类泛化性能,Bagging通过多次又放回采样,并且 训练多个基分类器,最终组合为强分类器来提高分类算法的性能,但是往往会因 为各个基分类器之间的训练相互分离,从而限制了整体性能的提升。
现有研究主要针对基于均衡样本的多疾病分类方法或者是基于不均衡样本 的二分类方法,而面向样本不均衡的多疾病分类问题,因为在医疗这个特殊应用 领域,存在一些特殊性的疑难杂症,其样本数量相对较少,这样会导致在进行分 类时训练样本稀疏,最终会影响分类的准确性和多分类任务的泛化性能,所以面 向样本不均衡的多疾病分类问题是不可忽略的一项重要工程。
发明内容
在基于中文电子病历的疾病诊断决策支持系统中存在样本不均衡的问题,因 为在医院的电子病历系统中往往存储着较多的常见疾病病例,而那些疑难杂症一 类的小样本疾病则存储量少,但是却往往因此而出现患病率低、误诊率高的情况。 所以电子病历数据样本的数量和质量共同决定着疾病诊断的质量,更好的数据往 往比更好的算法更重要。只有解决了不均衡数据集的问题,才能提高小样本疾病 预测的准确率,让人工智能更普及。因此,我们在医疗领域中提出了一种面向病 例数据样本不均衡的多疾病分类方法,该方法适用于为临床医生提供大量的医学 支持,从而帮助临床医生做出最合理的诊断、选择最佳治疗措施。
本发明目的在于克服现有技术的不足,给出一种面向样本不均衡的多疾病分 类器设计方法,首先对按其疾病类别将医学病例数据划分为多个病例样本子集, 然后对每个样本子集进行病症关联规则的特征选择方法,选择出该病例样本子集 的特征向量,然后在不均衡度为上限阈值的前提条件下,迭代随机更新采用概率, 对病例样本子集进行均衡化,然后再训练每一个样本子集的弱分类器并计算其分 类效果,并最终通过判断macro-F1的差值是否满足迭代收敛阈值来决定迭代生 成多疾病分类器是否结束。
通过以下技术方案来实现:
一种面向样本不均衡的多疾病分类器设计方法,其特征在于,包括如下步骤,
步骤一,将不均衡样本按其疾病类别进行样本子集划分;
针对中文电子病历数据集中不同的疾病结果,将整个不均衡的病历数据集划 分成多个样本子集Di。
步骤二,基于病症关联规则的特征选择;
核心操作为对病症的二项频繁集进行置信度排序,然后再利用基分类器的分 类性能作为特征子集评价标准进行序列向前选择方法SFS选择特征子集。
通过使用关联规则挖掘算法(Apriori)对疾病与症状的数据集进行规则挖掘, 然后通过二项频繁集的置信度进行特征排序和以基分类器分类效果为标准的特 征子集划分后,比传统的特征选择方法效果更好,特征子集更小。
步骤三,基于不均衡度为上限值的随机迭代均衡采样;在随机迭代均衡采样 的过程中,采取不均衡度IR值作为随机数的上限阈值。
核心操作是采样概率t在以0位下限值和不均衡度IR为上限值的区间中取 随机数,通过这种方式来在迭代过程中随机调整每一个样本子集Di的不平衡度 IR。不均衡度IR是指样本数据集中多数类别的样例与少数类别的样例的比例, 其主要的作用是为了衡量二分类数据集的不平衡程度。
步骤四,训练弱分类器并计算分类效果;训练和计算为本领域通用方法。
步骤五,通过判断“宏F1”macro-F1的差值是否满足迭代收敛阈值的迭代收 敛。
这里macro-F1的计算公式如式1所示:
Figure BDA0002805360910000031
其中,macro_P和macro_R分别为“宏查准率”macro-precision和“宏查全 率”macro-recall,其计算公式分别如式2、式3所示:
Figure BDA0002805360910000032
Figure BDA0002805360910000033
其中Pi为分类结果的查准率,Ri则表示分类结果的查全率。
通过判断macro-F1的差值是否满足迭代收敛阈值的集成学习,核心操作为 在每一轮采样完毕后训练每个Di样本子集的基分类器fi,待训练完毕后计算其F1值,记为pi,并更新其投票的权重wi,wi的计算公式如式4所示:
Figure BDA0002805360910000041
当在某一轮迭代过程中,多个基分类器fi都训练完毕,并且全部计算得到 其投票权重wi后(通常wi>=0,∑wi=1),通过加权投票公式如式5所示,可 以集成n个基分类器fi,生成当前迭代轮次的集成分类器Ft。
所述基分类器fi为子分类器,多个子分类器fi集成在一起形成一个最终的 疾病分类器,即集成分类器Ft。
Figure BDA0002805360910000042
通过运用macro-F1的差值对收敛阈值θ进行迭代收敛,可以得到分类准确 率更高、分类泛化性能更好和针对小样本疾病预测准确率更高的多疾病分类器。 该步骤为了优化已经得到的集成分类器Ft,通过迭代收敛对算法的收敛阈值进行 更新。
附图说明
附图是用来提动对本发明的进一步理解,并且构成说明书的一部分,与下面 的具体实施方式一起用于解释本公开,但不构成对本发明的限制。在附图中:
图1为面向样本不均衡的多疾病分类方法的流程图。
图2为ARFS算法的流程。
具体实施方式
为了加深对本发明的理解,下面将结合已有方法和附图1对本发明作进一步 详述,已有方法仅用于解释本发明,并不构成对本发明保护范围的限定。
本申请一种面向样本不均衡的多疾病分类方法,具体过程如图1所示,包括 如下5个方面:
步骤1,将不均衡样本按其疾病类别进行样本子集划分;
步骤2,基于病症关联规则的特征选择;
步骤3,基于不均衡度为上限值的随机迭代均衡采样;
步骤4,训练弱分类器并计算分类效果;
步骤5,通过判断macro-F1的差值是否满足迭代收敛阈值的迭代收敛,完成 疾病分类预测。
各个步骤详述如下:
步骤,1,将不均衡样本按其疾病类别进行样本子集划分;
针对中文电子病历数据集中不同的疾病结果,将整个不均衡的病历数据集划 分成多个样本子集Di。将训练样本集D={(x1,y1),(x2,y2),…,(xn,yn)}(其中yi 是示例xi的真实标记)按其类别Y划分为n个样本子集Di;
步骤2,基于病症关联规则的特征选择;
首先,对病症的二项频繁集(如表1所示)进行置信度排序,这里置信度
Figure BDA0002805360910000051
是指包含关联规则先导X和关联规则后继Y′的项集(项目的 集合)子集数与包含X的项集子集数之比,其计算公式为式6:
Figure BDA0002805360910000052
其中|D|表示项集的子集个数。
表1病-症2项频繁集示例
Figure BDA0002805360910000053
再通过使用关联规则挖掘算法(Apriori)对疾病与症状的数据集进行规则挖 掘,然后对每个样本子集Di进行特征选择算法ARFS(如表2所示),选择出合 适的特征向量Vi;并且对每个Di样本子集的特征向量Vi进行去重与整合,形 成样本训练集D的特征向量V;
表2 ARFS算法
Figure BDA0002805360910000061
具体的,ARFS算法首先对特征向量进行初始化;其次需要计算特征属性与 类别之间的2项频繁集L2的置信度值confidence;然后再通过获取某一特征中所有 特征属性置信度的最大值作为该特征的置信度值,记为Max(L2.conf),该特征 的置信度值用来衡量特征和类别的相关性;再根据各个特征和类别的相关性赋予 特征不同的权重,我们就可以对这些特征进行重排序;然后判断特征子集分类精 确度为负的频数i和迭代次数β之间的关系,并以分类和回归树(Classification and Regression Trees,CART)为分类模型的分类正确率作为最终的依据选择相应的 特征子集F_max。这里的特征选择从空集开始,然后依次迭代按特征相关性权重 大小,顺序加入一定步长个数的特征与已选择的特征组合构成特征子集 (feature_vector.add(Vecd)),该过程一直进行,直到选择出分类正确率最高时所对应的特征子集为被选择的最优特征子集F_max。
ARFS算法的流程如图2所示。
步骤3,基于不均衡度为上限值的随机迭代均衡采样;
迭代循环是对每个Di样本子集,根据更新采样概率t进行随机均衡采样。 其中,随机均衡采样的本质就是在迭代过程中通过随机调整样本子集Di的不均 衡度IR,其具体操作是采样概率t在以0位下限值和不平衡度IR为上限值的区 间中取随机数,通过这种方式来在迭代过程中随机调整每一个样本子集Di的不 平衡度IR。不均衡度IR是指样本数据集中多数类别的样例与少数类别的样例的 比例,其主要的作用是为了衡量二分类数据集的不平衡程度。
步骤4,训练弱分类器并计算分类效果;
步骤5,通过判断“宏F1”macro-F1的差值是否满足迭代收敛阈值的迭代收 敛。
这里macro-F1的计算公式如式1所示:
Figure BDA0002805360910000071
其中,macro_P和macro_R分别为“宏查准率”macro-precision和“宏查全 率”macro-recall,其计算公式分别如式2、式3所示:
Figure BDA0002805360910000072
Figure BDA0002805360910000073
其中Pi为分类结果的查准率,Ri则表示分类结果的查全率。
通过判断macro-F1的差值是否满足迭代收敛阈值θ的集成学习,核心操作 为在每一轮采样完毕后训练每个Di样本子集的基分类器fi,待训练完毕后计算 其F1值,记为pi,并更新其投票的权重wi,wi的计算公式如式4所示:
Figure BDA0002805360910000074
当在某一轮迭代过程中,多个基分类器fi都训练完毕,并且全部计算得到 其投票权重wi后(通常wi>=0,∑wi=1),通过加权投票公式如式5所示,可 以集成n个基分类器fi,生成当前迭代轮次的集成分类器Ft。
Figure BDA0002805360910000075
通过运用macro-F1的差值△F1是否大于收敛阈值θ;如果大于就更新当前 最优macro-F1值的集成分类器Ft和均衡采样的概率t,并且进入下一轮迭代; 否则就结束循环并输出最终的集成多分类器F。由此,可以得到分类准确率更高、 分类泛化性能更好和针对小样本疾病预测准确率更高的多疾病分类器。
创新点
提出了一种面向样本不均衡的多疾病分类方法,和现有的多疾病方法相比, 本发明运用了大量的中文电子病历为数据源进行疾病分类模型的训练。在对中文 电子病历数据进行按疾病类别划分病例样本子集后,采取了基于关联规则的病症 特征选择方法和基于不均衡度为上限值的随机迭代均衡采样方法,不断迭代训练 弱分类器并计算分类效果,最终通过判断macro-F1的差值是否满足迭代收敛阈 值,满足则最终生成多疾病分类器,该分类器有效地提高了多疾病分类的准确率 和小样本疾病的预测准确率。
本发明提出的方法在样本不均衡的多疾病数据集中有很好的表现,提高了多 种疾病分类预测的准确率和小样本疾病的预测准确率。

Claims (1)

1.一种面向样本不均衡的多疾病分类器设计方法,其特征在于,首先对按其疾病类别将医学病例数据划分为多个病例样本子集,然后对每个样本子集进行病症关联规则的特征选择方法,选择出该病例样本子集的特征向量,然后在不均衡度为上限阈值的前提条件下,迭代随机更新采用概率,对病例样本子集进行均衡化,然后再训练每一个样本子集的弱分类器并计算其分类效果,并最终通过判断macro_F1的差值是否满足迭代收敛阈值来决定迭代生成多疾病分类器是否结束;
包括如下步骤,
步骤一,将不均衡样本按其疾病类别进行样本子集划分;
针对中文电子病历数据集中不同的疾病结果,将整个不均衡的病历数据集划分成多个样本子集Di;
步骤二,基于病症关联规则的特征选择;
核心操作为对病症的二项频繁集进行置信度排序,然后再利用基分类器的分类性能作为特征子集评价标准进行序列向前选择方法SFS选择特征子集;
通过使用关联规则挖掘算法Apriori对疾病与症状的数据集进行规则挖掘,然后通过二项频繁集的置信度进行特征排序和以基分类器分类效果为标准的特征子集划分;
步骤三,基于不均衡度为上限值的随机迭代均衡采样;
在随机迭代均衡采样的过程中,采取不均衡度IR值作为随机数的上限阈值;
采样概率t在以0位下限值和不均衡度IR为上限值的区间中取随机数,通过这种方式来在迭代过程中随机调整每一个样本子集Di的不平衡度IR;不均衡度IR是指样本数据集中多数类别的样例与少数类别的样例的比例,其作用是为了衡量二分类数据集的不平衡程度;
步骤四,训练弱分类器并计算分类效果;
步骤五,通过判断“宏F1”macro_F1的差值是否满足迭代收敛阈值的迭代收敛;
这里macro_F1的计算公式如式(1)所示:
Figure FDA0003904734760000021
其中,macro_P和macro_R分别为“宏查准率”macro-precision和“宏查全率”macro-recall,其计算公式分别如式(2)、式(3)所示:
Figure FDA0003904734760000022
Figure FDA0003904734760000023
其中Pi为分类结果的查准率,Ri则表示分类结果的查全率;
通过判断macro_F1的差值是否满足迭代收敛阈值的集成学习,在每一轮采样完毕后训练每个Di样本子集的基分类器fi,待训练完毕后计算其F1值,记为pi,并更新其投票的权重wi,wi的计算公式如式(4)所示:
Figure FDA0003904734760000024
当在某一轮迭代过程中,多个基分类器fi都训练完毕,并且全部计算得到其投票权重wi后,通常wi>=0,∑wi=1,通过加权投票公式如式(5)所示,可以集成n个基分类器fi,生成当前迭代轮次的集成分类器Ft;
Figure FDA0003904734760000025
通过运用macro_F1的差值对收敛阈值θ进行迭代收敛,如果大于就更新当前最优macro_F1值的集成分类器Ft和均衡采样的概率t,并且进入下一轮迭代;否则就结束循环并输出最终的集成多分类器F,由此得到分类准确率更高、分类泛化性能更好和针对小样本疾病预测准确率更高的多疾病分类器。
CN202011365674.3A 2020-09-08 2020-11-28 一种面向样本不均衡的多疾病分类器设计方法 Active CN112560900B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010936731 2020-09-08
CN2020109367312 2020-09-08

Publications (2)

Publication Number Publication Date
CN112560900A CN112560900A (zh) 2021-03-26
CN112560900B true CN112560900B (zh) 2023-01-20

Family

ID=75045124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011365674.3A Active CN112560900B (zh) 2020-09-08 2020-11-28 一种面向样本不均衡的多疾病分类器设计方法

Country Status (1)

Country Link
CN (1) CN112560900B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114048320B (zh) * 2022-01-12 2022-03-29 成都信息工程大学 一种基于课程学习的多标签国际疾病分类训练方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN104573708A (zh) * 2014-12-19 2015-04-29 天津大学 组合降采样极限学习机
CN104933053A (zh) * 2014-03-18 2015-09-23 中国银联股份有限公司 非平衡类数据的分类
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105389480A (zh) * 2015-12-14 2016-03-09 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN108597614A (zh) * 2018-04-12 2018-09-28 上海熙业信息科技有限公司 一种基于中文电子病历的辅助诊断决策方法
CN108830321A (zh) * 2018-06-15 2018-11-16 中南大学 不平衡数据集的分类方法
CN109816031A (zh) * 2019-01-30 2019-05-28 南京邮电大学 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN110010248A (zh) * 2019-04-17 2019-07-12 电子科技大学 一种基于代价敏感集成学习模型的再入院风险预测方法
CN110147321A (zh) * 2019-04-19 2019-08-20 北京航空航天大学 一种基于软件网络的缺陷高风险模块的识别方法
CN111048214A (zh) * 2019-11-11 2020-04-21 北京荣之联科技股份有限公司 外来畜禽疫病传播态势的预警方法及装置
CN111079841A (zh) * 2019-12-17 2020-04-28 深圳奇迹智慧网络有限公司 目标识别的训练方法、装置、计算机设备和存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933053A (zh) * 2014-03-18 2015-09-23 中国银联股份有限公司 非平衡类数据的分类
CN104573708A (zh) * 2014-12-19 2015-04-29 天津大学 组合降采样极限学习机
CN104573013A (zh) * 2015-01-09 2015-04-29 上海大学 结合类别权重的集成学习分类方法
CN104951809A (zh) * 2015-07-14 2015-09-30 西安电子科技大学 基于不平衡分类指标与集成学习的不平衡数据分类方法
CN105389480A (zh) * 2015-12-14 2016-03-09 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN105760889A (zh) * 2016-03-01 2016-07-13 中国科学技术大学 一种高效的不均衡数据集分类方法
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN108597614A (zh) * 2018-04-12 2018-09-28 上海熙业信息科技有限公司 一种基于中文电子病历的辅助诊断决策方法
CN108830321A (zh) * 2018-06-15 2018-11-16 中南大学 不平衡数据集的分类方法
CN109816031A (zh) * 2019-01-30 2019-05-28 南京邮电大学 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN110010248A (zh) * 2019-04-17 2019-07-12 电子科技大学 一种基于代价敏感集成学习模型的再入院风险预测方法
CN110147321A (zh) * 2019-04-19 2019-08-20 北京航空航天大学 一种基于软件网络的缺陷高风险模块的识别方法
CN111048214A (zh) * 2019-11-11 2020-04-21 北京荣之联科技股份有限公司 外来畜禽疫病传播态势的预警方法及装置
CN111079841A (zh) * 2019-12-17 2020-04-28 深圳奇迹智慧网络有限公司 目标识别的训练方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于特征选择及Condensing技术的文本取样;郝秀兰等;《模式识别与人工智能》;20091031;第709-717页 *
非均衡分类的集成学习应用研究;从威;《中国优秀硕士学位论文全文数据库信息科技辑》;20180315;第1-53页 *

Also Published As

Publication number Publication date
CN112560900A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
Xu et al. A duplication analysis-based evolutionary algorithm for biobjective feature selection
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN111400180B (zh) 一种基于特征集划分和集成学习的软件缺陷预测方法
CN112069310B (zh) 基于主动学习策略的文本分类方法及系统
CN110942091B (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN114841257B (zh) 一种基于自监督对比约束下的小样本目标检测方法
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN108520284A (zh) 一种改进的谱聚类及并行化方法
CN104035996A (zh) 基于Deep Learning的领域概念抽取方法
CN108877947B (zh) 基于迭代均值聚类的深度样本学习方法
CN110909785B (zh) 基于语义层级的多任务Triplet损失函数学习方法
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN112560900B (zh) 一种面向样本不均衡的多疾病分类器设计方法
CN110334777A (zh) 一种加权多视角无监督属性选择方法
CN110177112B (zh) 基于双重子空间采样和置信偏移的网络入侵检测方法
CN112651499A (zh) 一种基于蚁群优化算法和层间信息的结构化模型剪枝方法
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
CN110009024A (zh) 一种基于id3算法的数据分类方法
CN110796198A (zh) 基于混合蚁群优化算法的高维特征筛选方法
CN115098699A (zh) 一种基于知识图谱嵌入模型的链路预测方法
CN111127184B (zh) 一种分布式组合信用评估方法
CN112819027A (zh) 一种基于机器学习和相似度评分的分类方法
Karanjgaokar et al. Comparison of classification methodologies for predicting the stages of diabetic retinopathy
US20080320014A1 (en) Discriminative Feature Selection System Using Active Mining Technique
CN112784908A (zh) 一种基于极度不平衡数据分类的动态自步集成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant