CN110728291B - 一种基于多中心模式下随机森林算法的特征重要性排序系统 - Google Patents
一种基于多中心模式下随机森林算法的特征重要性排序系统 Download PDFInfo
- Publication number
- CN110728291B CN110728291B CN201910629792.1A CN201910629792A CN110728291B CN 110728291 B CN110728291 B CN 110728291B CN 201910629792 A CN201910629792 A CN 201910629792A CN 110728291 B CN110728291 B CN 110728291B
- Authority
- CN
- China
- Prior art keywords
- feature
- center
- random forest
- importance ranking
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括部署在参与协同计算的各中心的前置机、接收并整合各中心特征重要性排序结果的中心服务器、将最终特征重要性排序结果反馈给用户的结果展示模块。本发明基于多中心的随机森林算法,在各个中心分别计算特征重要性排序结果;在中心服务器进行整合各个中心的排序结果,形成全局性的特征重要性排序结果。本发明在不暴露各个中心数据的条件下,各个中心的数据始终在各中心,只向中心服务器传递中间参数,不传递原始数据,有效保障了数据安全和数据中包含的个人隐私。
Description
技术领域
本发明属于特征选择技术领域,尤其涉及一种基于多中心模式下随机森林算法的特征重要性排序系统。
背景技术
特征选择是从一组特征中挑选出一些最有效的特征以降低特征空间维数的过程。特征选择可以减少特征数量、降维,使模型泛化能力更强,减少过拟合,增强对特征和特征值的理解,是数据科学领域的关键问题之一。在生物医学领域,经常需要处理诸如组学数据集之类的高维数据,其中变量的数量通常远大于个体的数量,这种情况下特征选择的意义显得尤为重要。随机森林是一种在生物医学领域应用非常广泛的集成学习算法,它能够在分类过程中提供变量重要性的估计,被认为是一种有效的特征选择算法。
多中心数据协同计算是大数据背景下出现的应用场景,它是指地域上处于分散状态的一个群体借助计算机和网络技术,互相协作共同完成一项任务。基于多中心的数据进行特征选择是其中一项重要问题。在大数据背景下,各个中心数据协同计算的需求越来越大。
现有的解决方案需要将各个中心的数据取出,汇集在中心服务器上。接着在中心服务器上进行特征选择,得到全局性的特征选择结果。然而,将数据从各个中心取出的过程隐患重重,可能涉及到数据泄露这样的安全性问题,大大打击了中心之间的协同计算的积极性。尤其在生物医学领域,各个中心也就是各家医院的数据中包含了来医院就医患者的个人隐私,将数据取出集中处理的方法不利于保护患者隐私,具有很大风险。
发明内容
本发明目的在于针对现有技术的不足,根据现实需求,在不暴露各个中心的数据的条件下,提供一种基于多中心模式下随机森林算法的特征重要性排序系统,本系统中各个中心的数据始终在各中心,只向中心服务器传递模型的中间参数,不传递原始数据,最终得到安全有效的全局性的特征重要性排序结果。
本发明的目的是通过以下技术方案来实现的:一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:
A.从本中心数据库接口读取数据作为样本集;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
D.重复步骤B-C共q次,q即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:
A.接收各中心传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
本发明的有益效果是:本发明基于多中心的随机森林算法,在各个中心分别计算特征重要性排序结果;在中心服务器进行整合各个中心的排序结果,形成全局性的特征重要性排序结果。本发明在不暴露各个中心的数据的条件下,本系统中各个中心的数据始终在中心,只向中心服务器传递模型的中间参数,不传递原始数据,有效保障了数据安全和数据中包含的个人隐私。
附图说明
图1为本发明基于多中心模式下随机森林算法的特征重要性排序系统实现流程图;
图2为本发明基于多中心模式下随机森林算法的特征重要性排序系统组成框图;
图3为各中心前置机内特征重要性排序流程图;
图4为中心服务器内全局重要性排序流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1、2所示,本发明提供的一种基于多中心模式下随机森林算法的特征重要性排序系统,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,如图3所示,具体计算步骤如下:
A.从本中心数据库接口读取数据作为样本集;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取n个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
D.重复步骤B-C共q次,q即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器计算全局特征重要性排序结果,如图4所示,包括以下子步骤:
A.接收各中心传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
以下为一个具体的实例,该实例展示了一种基于多中心模式下随机森林算法的由体检数据预测糖尿病患病风险的特征重要性排序系统,该系统包括:部署在参与协同计算的各医院内的前置机;接收并整合各医院特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块。
所述前置机用于从各医院的数据库接口读取体检数据,并利用随机森林算法预测糖尿病患病风险,计算出本医院内的糖尿病患病风险特征重要性排序结果,具体计算步骤如下:
A.从本医院数据库接口读取体检数据作为样本集,假设共有5000例体检数据;
B.用有抽样放回的方法(bootstrap)从样本集中随机选取70个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择7个特征,利用这7个特征分别对训练集进行划分;
D.重复步骤B-C共15次,15即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
a)假设样本集有50个特征--年龄、性别、文化水平、腰围、血型、收缩压、血红蛋白等等特征,记为X1,X2,X3,...,X50。对于每个特征Xj,计算特征Xj在节点m的重要性即节点m分枝前后的基尼指数变化量,公式如下:
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器内计算体检数据中影响糖尿病患病风险的全局特征重要性排序结果,包括以下子步骤:
A.接收各医院传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有医院的基尼指数评分的平均值作为全局性特征重要性值。例如对于特征糖化血红蛋白,它在医院甲的特征重要性评分为0.182483,在医院乙的特征重要性评分为0.150948,在医院丙的特征重要性评分为0.078243,那么它在医院甲、医院乙、医院丙联合开展的多中心体检数据糖尿病风险预测研究中的全局特征重要性值为:(0.182483+0.150948+0.078243)/3=0.137224。
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
本发明在每个站点计算基于基尼指数的局部变量重要性排序,并将其发送到中心服务器。中心服务器整合各个站点的变量重要性排序并计算得出最终的排序结果。在此过程中,中心服务器仅接收各站点的变量重要性排序结果,无需交换患者级别的数据,既得到了有效的全局解,又有效地保障了数据的安全性,为构建特征筛选模型提供了安全可靠高效的解决方案。
以上仅为本发明的实施实例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (1)
1.一种基于多中心模式下随机森林算法的特征重要性排序系统,其特征在于,该系统包括:部署在参与协同计算的各中心的前置机;接收并整合各中心特征重要性排序结果的中心服务器;将最终特征重要性排序结果反馈给用户的结果展示模块;
所述前置机用于从各中心的数据库接口读取数据,并利用随机森林算法计算本中心的特征重要性排序结果,具体计算步骤如下:
A.从本中心数据库接口读取数据作为样本集;
B.用有抽样放回的方法从样本集中随机选取n个样本作为一个训练集;
C.用抽样得到的训练集生成一颗决策树;在决策树的每一个结点,均随机不重复地选择d个特征,利用这d个特征分别对训练集进行划分;
D.重复步骤B-C共q次,q即为随机森林中决策树的个数;
E.用训练得到的随机森林对样本集进行预测;
F.利用基尼指数作为评价指标对步骤E的预测结果进行特征重要性排序,包括以下子步骤:
其中,GIm表示分枝前节点m的基尼指数,GIl和GIr分别表示分枝后两个新节点l和r的基尼指数;基尼指数的计算公式为:
其中,K表示有K个类别,pxk表示节点x中类别k所占的比例;
e)对所有特征归一化后的基尼指数评分进行降序排序;
所述中心服务器计算全局特征重要性排序结果,包括以下子步骤:
A.接收各中心传来的特征重要性排序结果;
B.对于每个特征,求得该特征在所有中心的基尼指数评分的平均值作为全局性特征重要性值;
C.按照全局性特征重要性值由大到小的顺序,对特征进行重新排序。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629792.1A CN110728291B (zh) | 2019-07-12 | 2019-07-12 | 一种基于多中心模式下随机森林算法的特征重要性排序系统 |
PCT/CN2020/083589 WO2020233259A1 (zh) | 2019-07-12 | 2020-04-07 | 一种基于多中心模式下随机森林算法的特征重要性排序系统 |
JP2021532354A JP7064681B2 (ja) | 2019-07-12 | 2020-04-07 | マルチセンターモードにおけるランダムフォレストアルゴリズムに基づく特徴重要度ソートシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629792.1A CN110728291B (zh) | 2019-07-12 | 2019-07-12 | 一种基于多中心模式下随机森林算法的特征重要性排序系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728291A CN110728291A (zh) | 2020-01-24 |
CN110728291B true CN110728291B (zh) | 2022-02-22 |
Family
ID=69217693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910629792.1A Active CN110728291B (zh) | 2019-07-12 | 2019-07-12 | 一种基于多中心模式下随机森林算法的特征重要性排序系统 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP7064681B2 (zh) |
CN (1) | CN110728291B (zh) |
WO (1) | WO2020233259A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110728291B (zh) * | 2019-07-12 | 2022-02-22 | 之江实验室 | 一种基于多中心模式下随机森林算法的特征重要性排序系统 |
CN111401749A (zh) * | 2020-03-17 | 2020-07-10 | 三峡大学 | 一种基于随机森林与极限学习回归的动态安全评估方法 |
CN111982299B (zh) * | 2020-08-14 | 2021-08-17 | 国家卫星气象中心(国家空间天气监测预警中心) | 一种星载微波辐射计数据质量动态评分方法及系统 |
CN112750029A (zh) * | 2020-12-30 | 2021-05-04 | 北京知因智慧科技有限公司 | 信用风险预测方法、装置、电子设备及存储介质 |
CN112951324A (zh) * | 2021-02-05 | 2021-06-11 | 广州医科大学 | 一种基于欠采样的致病同义突变预测方法 |
CN113408867B (zh) * | 2021-05-28 | 2023-07-21 | 北京大学 | 基于手机用户和poi数据的城市入室盗窃犯罪风险评估方法 |
CN113762712B (zh) * | 2021-07-26 | 2024-04-09 | 广西大学 | 大数据环境下的小水电清理整改评价指标筛选策略 |
CN113642629B (zh) * | 2021-08-09 | 2023-12-08 | 厦门大学 | 一种基于随机森林提高谱学分析可信度的可视化方法及装置 |
CN113413163B (zh) * | 2021-08-24 | 2021-11-19 | 山东大学 | 一种混合深度学习和低差异度森林的心音诊断系统 |
CN113554519A (zh) * | 2021-08-25 | 2021-10-26 | 山大地纬软件股份有限公司 | 一种医保支出风险分析方法及系统 |
CN115001739A (zh) * | 2022-04-19 | 2022-09-02 | 中国电子科技网络信息安全有限公司 | 一种基于随机森林的横向蠕虫攻击检测方法 |
CN115083519B (zh) * | 2022-05-18 | 2024-06-14 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于多来源基因数据库的基因相关特征融合预测方法 |
CN116226767B (zh) * | 2023-05-08 | 2023-10-17 | 国网浙江省电力有限公司宁波供电公司 | 一种电力系统实验数据自动诊断方法 |
CN117112859B (zh) * | 2023-06-16 | 2024-05-14 | 中国联合网络通信有限公司深圳市分公司 | 人口移动演化的显示方法、装置及计算机可读存储介质 |
CN117370899B (zh) * | 2023-12-08 | 2024-02-20 | 中国地质大学(武汉) | 一种基于主成分-决策树模型的控矿因素权重确定方法 |
CN117493856B (zh) * | 2024-01-03 | 2024-06-14 | 佛山科学技术学院 | 一种基于随机森林的串果采摘特征因素分析方法及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149744A (zh) * | 2007-10-18 | 2008-03-26 | 中兴通讯股份有限公司 | 对多个数据源的数据进行统一排序的方法 |
US8818910B1 (en) * | 2013-11-26 | 2014-08-26 | Comrise, Inc. | Systems and methods for prioritizing job candidates using a decision-tree forest algorithm |
CN106856482A (zh) * | 2015-12-08 | 2017-06-16 | 中山爱科数字科技股份有限公司 | 一种健康数据采集方法 |
CN107908732A (zh) * | 2017-11-14 | 2018-04-13 | 北京恺思睿思信息技术有限公司 | 一种相互隔离的多来源大数据融合分析方法及系统 |
CN109194523A (zh) * | 2018-10-01 | 2019-01-11 | 西安电子科技大学 | 隐私保护的多方诊断模型融合方法及系统、云端服务器 |
CN109376750A (zh) * | 2018-06-15 | 2019-02-22 | 武汉大学 | 一种融合中波红外与可见光的遥感影像分类方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105931224A (zh) * | 2016-04-14 | 2016-09-07 | 浙江大学 | 基于随机森林算法的肝脏平扫ct图像病变识别方法 |
US20180143199A1 (en) * | 2016-11-23 | 2018-05-24 | The Board Of Trustees Of The Leland Stanford Junior University | Methods of identifying glioblastoma patients as susceptible to anti-angiogenic therapy using quantitative imaging features and molecular profiling |
US20190197578A1 (en) | 2017-12-26 | 2019-06-27 | c/o Datorama Technologies, Ltd. | Generating significant performance insights on campaigns data |
CN109242021A (zh) | 2018-09-07 | 2019-01-18 | 浙江财经大学 | 一种基于多阶段混合模型的分类预测方法 |
CN110728291B (zh) * | 2019-07-12 | 2022-02-22 | 之江实验室 | 一种基于多中心模式下随机森林算法的特征重要性排序系统 |
-
2019
- 2019-07-12 CN CN201910629792.1A patent/CN110728291B/zh active Active
-
2020
- 2020-04-07 JP JP2021532354A patent/JP7064681B2/ja active Active
- 2020-04-07 WO PCT/CN2020/083589 patent/WO2020233259A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149744A (zh) * | 2007-10-18 | 2008-03-26 | 中兴通讯股份有限公司 | 对多个数据源的数据进行统一排序的方法 |
US8818910B1 (en) * | 2013-11-26 | 2014-08-26 | Comrise, Inc. | Systems and methods for prioritizing job candidates using a decision-tree forest algorithm |
CN106856482A (zh) * | 2015-12-08 | 2017-06-16 | 中山爱科数字科技股份有限公司 | 一种健康数据采集方法 |
CN107908732A (zh) * | 2017-11-14 | 2018-04-13 | 北京恺思睿思信息技术有限公司 | 一种相互隔离的多来源大数据融合分析方法及系统 |
CN109376750A (zh) * | 2018-06-15 | 2019-02-22 | 武汉大学 | 一种融合中波红外与可见光的遥感影像分类方法 |
CN109194523A (zh) * | 2018-10-01 | 2019-01-11 | 西安电子科技大学 | 隐私保护的多方诊断模型融合方法及系统、云端服务器 |
Non-Patent Citations (1)
Title |
---|
一种基于随机森林的改进特征筛选算法;刘云翔;《现代电子技术》;20190615;第42卷(第12期);第117-121页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110728291A (zh) | 2020-01-24 |
JP2022508333A (ja) | 2022-01-19 |
JP7064681B2 (ja) | 2022-05-11 |
WO2020233259A1 (zh) | 2020-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728291B (zh) | 一种基于多中心模式下随机森林算法的特征重要性排序系统 | |
Chen et al. | Accurate EEG-based emotion recognition on combined features using deep convolutional neural networks | |
CN113707297B (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
Lu et al. | Optimal nonbipartite matching and its statistical applications | |
US7809660B2 (en) | System and method to optimize control cohorts using clustering algorithms | |
US20090287503A1 (en) | Analysis of individual and group healthcare data in order to provide real time healthcare recommendations | |
CN103729395A (zh) | 用于推断查询答案的方法和系统 | |
WO2022057057A1 (zh) | 一种检测医保欺诈的方法、系统及存储介质 | |
Xiong et al. | Prediction of hemodialysis timing based on LVW feature selection and ensemble learning | |
CN117557331A (zh) | 一种产品推荐方法、装置、计算机设备及存储介质 | |
CN116705310A (zh) | 围术期风险评估的数据集构建方法、装置、设备及介质 | |
CN112052874A (zh) | 一种基于生成对抗网络的生理数据分类方法及系统 | |
Nabi et al. | Machine learning approach: Detecting polycystic ovary syndrome & it's impact on bangladeshi women | |
Manna et al. | Diabetes prediction model using cloud analytics | |
Lakshmi et al. | A smart clinical decision support system to predict diabetes disease using classification techniques | |
CN114822849B (zh) | 基于数字孪生的数据监测方法、装置、设备和存储介质 | |
Gu et al. | An improved muti-task learning algorithm for analyzing cancer survival data | |
Theodoraki et al. | Innovative data mining approaches for outcome prediction of trauma patients | |
He et al. | Diabetes diagnosis and treatment research based on machine learning | |
Yin et al. | Stroke risk prediction: Comparing different sampling algorithms | |
Xie et al. | Predicting the risk of stroke based on imbalanced data set with missing data | |
CN111986815A (zh) | 基于共现关系的项目组合挖掘方法及相关设备 | |
Chaturvedi et al. | Fuzzy c-means based inference mechanism for association rule mining: a clinical data mining approach | |
Wang et al. | Md-mtl: An ensemble med-multi-task learning package for diseasescores prediction and multi-level risk factor analysis | |
Hu et al. | FedIERF: Federated Incremental Extremely Random Forest for Wearable Health Monitoring |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |