CN110728291A - 一种基于多中心模式下随机森林算法的特征重要性排序系统 - Google Patents

一种基于多中心模式下随机森林算法的特征重要性排序系统 Download PDF

Info

Publication number
CN110728291A
CN110728291A CN201910629792.1A CN201910629792A CN110728291A CN 110728291 A CN110728291 A CN 110728291A CN 201910629792 A CN201910629792 A CN 201910629792A CN 110728291 A CN110728291 A CN 110728291A
Authority
CN
China
Prior art keywords
feature
center
random forest
importance ranking
importance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910629792.1A
Other languages
English (en)
Other versions
CN110728291B (zh
Inventor
李劲松
杨子玥
胡佩君
张莹
王丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhijiang Laboratory
Zhejiang Lab
Original Assignee
Zhijiang Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhijiang Laboratory filed Critical Zhijiang Laboratory
Priority to CN201910629792.1A priority Critical patent/CN110728291B/zh
Publication of CN110728291A publication Critical patent/CN110728291A/zh
Priority to JP2021532354A priority patent/JP7064681B2/ja
Priority to PCT/CN2020/083589 priority patent/WO2020233259A1/zh
Application granted granted Critical
Publication of CN110728291B publication Critical patent/CN110728291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括部署在参与协同计算的各中心的前置机、接收并整合各中心特征重要性排序结果的中心服务器、将最终特征重要性排序结果反馈给用户的结果展示模块。本发明基于多中心的随机森林算法,在各个中心分别计算特征重要性排序结果;在中心服务器进行整合各个中心的排序结果,形成全局性的特征重要性排序结果。本发明在不暴露各个中心数据的条件下,各个中心的数据始终在各中心,只向中心服务器传递中间参数,不传递原始数据,有效保障了数据安全和数据中包含的个人隐私。

Description

一种基于多中心模式下随机森林算法的特征重要性排序系统
技术领域
本发明属于特征选择技术领域,尤其涉及一种基于多中心模式下随机森林算法的特征重要性排序系统。
背景技术
特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。特征选择可以减少特征数量、降维,使模型泛化能力更强,减少过拟合,增强对特征和特征值的理解,是数据科学领域的关键问题之一。在生物医学领域,经常需要处理诸如组学数据集之类的高维数据,其中变量的数量通常远大于个体的数量,这种情况下特征选择的意义显得尤为重要。随机森林是一种在生物医学领域应用非常广泛的集成学习算法,它能够在分类过程中提供变量重要性的估计,被认为是一种有效的特征选择算法。
多中心数据协同计算是大数据背景下出现的应用场景,它是指地域上处于分散状态的一个群体借助计算机和网络技术,互相协作共同完成一项任务。基于多中心的数据进行特征选择是其中一项重要问题。在大数据背景下,各个中心数据协同计算的需求越来越大。
现有的解决方案需要将各个中心的数据取出,汇集在中心服务器上。接着在中心服务器上进行特征选择,得到全局性的特征选择结果。然而,将数据从各个中心取出的过程隐患重重,可能涉及到数据泄露这样的安全性问题,大大打击了中心之间的协同计算的积极性。尤其在生物医学领域,各个中心也就是各家医院的数据中包含了来医院就医患者的个人隐私,将数据取出集中处理的方法不利于保护患者隐私,具有很大风险。
发明内容
本发明目的在于针对现有技术的不足,根据现实需求,在不暴露各个中心的数据的条件下,提供一种基于多中心模式下随机森林算法的特征重要性排序系统,本系统中各个中心的数据始终在各中心,只向中心服务器传递模型的中间参数,不传递原始数据,最终得到安全有效的全局性的特征重要性排序结果。
本发明的目的是通过以下技术方案来实现的:一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:
A.从本中心数据库接口读取数据作为样本集;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
D.重复步骤B-C共q次,q即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
a)假设样本集有h个特征X1,X2,X3,...,Xh,对于每个特征Xj,计算特征Xj在节点m的重要性
Figure BDA0002128357910000021
即节点m分枝前后的基尼指数变化量,公式如下:
Figure BDA0002128357910000022
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
Figure BDA0002128357910000023
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
b)假设特征Xj在决策树i中出现的节点构成集合E,那么Xj在第i棵决策树的重要性
Figure BDA0002128357910000024
为:
Figure BDA0002128357910000025
c)假设随机森林中有q棵树,计算每个特征Xj的基尼指数评分
Figure BDA0002128357910000026
亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:
Figure BDA0002128357910000027
d)将特征Xj的基尼指数评分进行归一化处理,公式如下:
Figure BDA0002128357910000029
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:
A.接收各中心传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
本发明的有益效果是:本发明基于多中心的随机森林算法,在各个中心分别计算特征重要性排序结果;在中心服务器进行整合各个中心的排序结果,形成全局性的特征重要性排序结果。本发明在不暴露各个中心的数据的条件下,本系统中各个中心的数据始终在中心,只向中心服务器传递模型的中间参数,不传递原始数据,有效保障了数据安全和数据中包含的个人隐私。
附图说明
图1为本发明基于多中心模式下随机森林算法的特征重要性排序系统实现流程图;
图2为本发明基于多中心模式下随机森林算法的特征重要性排序系统组成框图;
图3为各中心前置机内特征重要性排序流程图;
图4为中心服务器内全局重要性排序流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1、2所示,本发明提供的一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,如图3所示,具体计算步骤如下:
A.从本中心数据库接口读取数据作为样本集;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
D.重复步骤B-C共q次,q即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
a)假设样本集有h个特征X1,X2,X3,...,Xh,对于每个特征Xj,计算特征Xj在节点m的重要性
Figure BDA0002128357910000031
即节点m分枝前后的基尼指数变化量,公式如下:
Figure BDA0002128357910000041
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
b)假设特征Xj在决策树i中出现的节点构成集合E,那么Xj在第i棵决策树的重要性
Figure BDA0002128357910000043
为:
Figure BDA0002128357910000044
c)假设随机森林中有q棵树,计算每个特征Xj的基尼指数评分
Figure BDA0002128357910000045
亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:
Figure BDA0002128357910000046
d)将特征Xj的基尼指数评分
Figure BDA0002128357910000047
进行归一化处理,公式如下:
Figure BDA0002128357910000048
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器计算全局特征重要性排序结果,如图4所示,包括以下子步骤:
A.接收各中心传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
以下为一个具体的实例,该实例展示了一种基于多中心模式下随机森林算法的由体检数据预测糖尿病患病风险的特征重要性排序系统,该系统包括:部署在参与协同计算的各医院内的前置机;接收并整合各医院特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各医院的数据库接口读取体检数据,并利用随机森林算法预测糖尿病患病风险,计算出本医院内的糖尿病患病风险特征重要性排序结果,具体计算步骤如下:
A.从本医院数据库接口读取体检数据作为样本集,假设共有5000例体检数据;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取70个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择7个特征,利用这7个特征分别对训练集进行划分;
D.重复步骤B-C共15次,15即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
a)假设样本集有50个特征--年龄、性别、文化水平、腰围、血型、收缩压、血红蛋白等等特征,记为X1,X2,X3,...,X50。对于每个特征Xj,计算特征Xj在节点m的重要性
Figure BDA0002128357910000051
即节点m分枝前后的基尼指数变化量,公式如下:
Figure BDA0002128357910000052
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
Figure BDA0002128357910000053
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
b)假设特征Xj在决策树i中出现的节点构成集合E,那么Xj在第i棵决策树的重要性
Figure BDA0002128357910000054
为:
c)已知随机森林中有15棵树,计算每个特征Xj的基尼指数评分
Figure BDA0002128357910000056
亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:
Figure BDA0002128357910000057
d)将特征Xj的基尼指数评分
Figure BDA0002128357910000058
进行归一化处理,公式如下:
Figure BDA0002128357910000059
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器内计算体检数据中影响糖尿病患病风险的全局特征重要性排序结果,包括以下子步骤:
A.接收各医院传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有医院的基尼指数评分的平均值作为全局性特征重要性值。例如对于特征糖化血红蛋白,它在医院甲的特征重要性评分为0.182483,在医院乙的特征重要性评分为0.150948,在医院丙的特征重要性评分为0.078243,那么它在医院甲、医院乙、医院丙联合开展的多中心体检数据糖尿病风险预测研究中的全局特征重要性值为:(0.182483+0.150948+0.078243)/3=0.137224。
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
本发明在每个站点计算基于基尼指数的局部变量重要性排序,并将其发送到中心服务器。中心服务器整合各个站点的变量重要性排序并计算得出最终的排序结果。在此过程中,中心服务器仅接收各站点的变量重要性排序结果,无需交换患者级别的数据,既得到了有效的全局解,又有效地保障了数据的安全性,为构建特征筛选模型提供了安全可靠高效的解决方案。
以上仅为本发明的实施实例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (1)

1.一种基于多中心模式下随机森林算法的特征重要性排序系统,其特征在于,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:
A.从本中心数据库接口读取数据作为样本集;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
D.重复步骤B-C共q次,q即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
a)假设样本集有h个特征X1,X2,X3,...,Xh,对于每个特征Xj,计算特征Xj在节点m的重要性
Figure FDA0002128357900000011
即节点m分枝前后的基尼指数变化量,公式如下:
Figure FDA0002128357900000012
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
Figure FDA0002128357900000013
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
b)假设特征Xj在决策树i中出现的节点构成集合E,那么Xj在第i棵决策树的重要性为:
c)假设随机森林中有q棵树,计算每个特征Xj的基尼指数评分
Figure FDA0002128357900000016
亦即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量:
Figure FDA0002128357900000021
d)将特征Xj的基尼指数评分
Figure FDA0002128357900000022
进行归一化处理,公式如下:
Figure FDA0002128357900000023
e)对所有特征归一化后的基尼指数评分进行降序排序。
所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:
A.接收各中心传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
CN201910629792.1A 2019-07-12 2019-07-12 一种基于多中心模式下随机森林算法的特征重要性排序系统 Active CN110728291B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910629792.1A CN110728291B (zh) 2019-07-12 2019-07-12 一种基于多中心模式下随机森林算法的特征重要性排序系统
JP2021532354A JP7064681B2 (ja) 2019-07-12 2020-04-07 マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム
PCT/CN2020/083589 WO2020233259A1 (zh) 2019-07-12 2020-04-07 一种基于多中心模式下随机森林算法的特征重要性排序系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910629792.1A CN110728291B (zh) 2019-07-12 2019-07-12 一种基于多中心模式下随机森林算法的特征重要性排序系统

Publications (2)

Publication Number Publication Date
CN110728291A true CN110728291A (zh) 2020-01-24
CN110728291B CN110728291B (zh) 2022-02-22

Family

ID=69217693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910629792.1A Active CN110728291B (zh) 2019-07-12 2019-07-12 一种基于多中心模式下随机森林算法的特征重要性排序系统

Country Status (3)

Country Link
JP (1) JP7064681B2 (zh)
CN (1) CN110728291B (zh)
WO (1) WO2020233259A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401749A (zh) * 2020-03-17 2020-07-10 三峡大学 一种基于随机森林与极限学习回归的动态安全评估方法
CN111982299A (zh) * 2020-08-14 2020-11-24 国家卫星气象中心(国家空间天气监测预警中心) 一种星载微波辐射计数据质量动态评分方法及系统
WO2020233259A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于多中心模式下随机森林算法的特征重要性排序系统

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750029A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 信用风险预测方法、装置、电子设备及存储介质
CN112951324A (zh) * 2021-02-05 2021-06-11 广州医科大学 一种基于欠采样的致病同义突变预测方法
CN113408867B (zh) * 2021-05-28 2023-07-21 北京大学 基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法
CN113762712B (zh) * 2021-07-26 2024-04-09 广西大学 大数据环境下的小水电清理整改评价指标筛选策略
CN113642629B (zh) * 2021-08-09 2023-12-08 厦门大学 一种基于随机森林提高谱学分析可信度的可视化方法及装置
CN113413163B (zh) * 2021-08-24 2021-11-19 山东大学 一种混合深度学习和低差异度森林的心音诊断系统
CN113554519A (zh) * 2021-08-25 2021-10-26 山大地纬软件股份有限公司 一种医保支出风险分析方法及系统
CN115001739A (zh) * 2022-04-19 2022-09-02 中国电子科技网络信息安全有限公司 一种基于随机森林的横向蠕虫攻击检测方法
CN115083519B (zh) * 2022-05-18 2024-06-14 北京大学第三医院(北京大学第三临床医学院) 一种基于多来源基因数据库的基因相关特征融合预测方法
CN116226767B (zh) * 2023-05-08 2023-10-17 国网浙江省电力有限公司宁波供电公司 一种电力系统实验数据自动诊断方法
CN117112859B (zh) * 2023-06-16 2024-05-14 中国联合网络通信有限公司深圳市分公司 人口移动演化的显示方法、装置及计算机可读存储介质
CN117370899B (zh) * 2023-12-08 2024-02-20 中国地质大学(武汉) 一种基于主成分-决策树模型的控矿因素权重确定方法
CN117493856B (zh) * 2024-01-03 2024-06-14 佛山科学技术学院 一种基于随机森林的串果采摘特征因素分析方法及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149744A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 对多个数据源的数据进行统一排序的方法
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
CN106856482A (zh) * 2015-12-08 2017-06-16 中山爱科数字科技股份有限公司 一种健康数据采集方法
CN107908732A (zh) * 2017-11-14 2018-04-13 北京恺思睿思信息技术有限公司 一种相互隔离的多来源大数据融合分析方法及系统
CN109194523A (zh) * 2018-10-01 2019-01-11 西安电子科技大学 隐私保护的多方诊断模型融合方法及系统、云端服务器
CN109376750A (zh) * 2018-06-15 2019-02-22 武汉大学 一种融合中波红外与可见光的遥感影像分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105931224A (zh) * 2016-04-14 2016-09-07 浙江大学 基于随机森林算法的肝脏平扫ct图像病变识别方法
US20180143199A1 (en) * 2016-11-23 2018-05-24 The Board Of Trustees Of The Leland Stanford Junior University Methods of identifying glioblastoma patients as susceptible to anti-angiogenic therapy using quantitative imaging features and molecular profiling
US20190197578A1 (en) * 2017-12-26 2019-06-27 c/o Datorama Technologies, Ltd. Generating significant performance insights on campaigns data
CN109242021A (zh) * 2018-09-07 2019-01-18 浙江财经大学 一种基于多阶段混合模型的分类预测方法
CN110728291B (zh) * 2019-07-12 2022-02-22 之江实验室 一种基于多中心模式下随机森林算法的特征重要性排序系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149744A (zh) * 2007-10-18 2008-03-26 中兴通讯股份有限公司 对多个数据源的数据进行统一排序的方法
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
CN106856482A (zh) * 2015-12-08 2017-06-16 中山爱科数字科技股份有限公司 一种健康数据采集方法
CN107908732A (zh) * 2017-11-14 2018-04-13 北京恺思睿思信息技术有限公司 一种相互隔离的多来源大数据融合分析方法及系统
CN109376750A (zh) * 2018-06-15 2019-02-22 武汉大学 一种融合中波红外与可见光的遥感影像分类方法
CN109194523A (zh) * 2018-10-01 2019-01-11 西安电子科技大学 隐私保护的多方诊断模型融合方法及系统、云端服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘云翔: "一种基于随机森林的改进特征筛选算法", 《现代电子技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020233259A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于多中心模式下随机森林算法的特征重要性排序系统
CN111401749A (zh) * 2020-03-17 2020-07-10 三峡大学 一种基于随机森林与极限学习回归的动态安全评估方法
CN111982299A (zh) * 2020-08-14 2020-11-24 国家卫星气象中心(国家空间天气监测预警中心) 一种星载微波辐射计数据质量动态评分方法及系统
CN111982299B (zh) * 2020-08-14 2021-08-17 国家卫星气象中心(国家空间天气监测预警中心) 一种星载微波辐射计数据质量动态评分方法及系统

Also Published As

Publication number Publication date
WO2020233259A1 (zh) 2020-11-26
JP7064681B2 (ja) 2022-05-11
CN110728291B (zh) 2022-02-22
JP2022508333A (ja) 2022-01-19

Similar Documents

Publication Publication Date Title
CN110728291B (zh) 一种基于多中心模式下随机森林算法的特征重要性排序系统
Chen et al. Accurate EEG-based emotion recognition on combined features using deep convolutional neural networks
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
US7809660B2 (en) System and method to optimize control cohorts using clustering algorithms
US20090287503A1 (en) Analysis of individual and group healthcare data in order to provide real time healthcare recommendations
CN103729395A (zh) 用于推断查询答案的方法和系统
Ramani et al. RETRACTED ARTICLE: MapReduce-based big data framework using modified artificial neural network classifier for diabetic chronic disease prediction
Xiong et al. Prediction of hemodialysis timing based on LVW feature selection and ensemble learning
CN112052874A (zh) 一种基于生成对抗网络的生理数据分类方法及系统
Oğuz et al. Determination of Covid-19 possible cases by using deep learning techniques
Nabi et al. Machine learning approach: Detecting polycystic ovary syndrome & it's impact on bangladeshi women
Manna et al. Diabetes prediction model using cloud analytics
CN117557331A (zh) 一种产品推荐方法、装置、计算机设备及存储介质
CN116705310A (zh) 围术期风险评估的数据集构建方法、装置、设备及介质
Lakshmi et al. A smart clinical decision support system to predict diabetes disease using classification techniques
Cunningham et al. Weighting and complex sampling design adjustments in longitudinal studies
Theodoraki et al. Innovative data mining approaches for outcome prediction of trauma patients
He et al. Diabetes diagnosis and treatment research based on machine learning
Yin et al. Stroke risk prediction: Comparing different sampling algorithms
Chaturvedi et al. Fuzzy c-means based inference mechanism for association rule mining: a clinical data mining approach
CN111986815A (zh) 基于共现关系的项目组合挖掘方法及相关设备
Agrawal et al. Thyroid prediction system using auto associative neural network
Xie et al. Predicting the risk of stroke based on imbalanced data set with missing data
CN115966314B (zh) 一种数据处理方法、装置、电子设备及存储介质
Ruchitha et al. Machine Learning Approaches for Stroke Detection and SMOTE for Imbalanced Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant