CN111898666A - 一种随机森林算法结合模群种群的数据变量选择方法 - Google Patents
一种随机森林算法结合模群种群的数据变量选择方法 Download PDFInfo
- Publication number
- CN111898666A CN111898666A CN202010716827.8A CN202010716827A CN111898666A CN 111898666 A CN111898666 A CN 111898666A CN 202010716827 A CN202010716827 A CN 202010716827A CN 111898666 A CN111898666 A CN 111898666A
- Authority
- CN
- China
- Prior art keywords
- variable
- importance
- random forest
- model
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种随机森林算法结合模群种群的数据变量选择方法,该方法包括:通过MonteCarlo采样从原始数据集中提取出每个子模型的数据集;在选择好数据集后,开始构建随机森林子模型,选择每个随机森林中包含的分类回归树数目;每个子随机森林模型将返回计算其变量的重要度;循环得到子模型的变量重要度后,取其均值作为最终的判断依据,排列变量的重要度选择最重要的变量;将准确率下降作为评估变量重要度的指标,计算每个变量的重要度;对分类模型所得结果进行评价;验证方法的有效性。
Description
技术领域
本发明涉及一种随机森林算法结合模群种群的数据变量选择方法。属于生物信息学领域。
背景技术
随着代谢组学技术的发展,从高通量分析方法得到的数据越来越复杂。因而,当前的研究已经从如何获取代谢组学信息变为如何解析这些高通量信息了。变量选择在代谢组学中是非常重要的,一方面特征选择能帮助构建更好的模型,另一方面特征选择能帮助进一步了解这些代谢组学数据,帮助分析数据模式,确定疾病的标记物。
交互检验的方法常用来解决数据不能劈分的问题,但是在实施过程中都将使用到全部数据集的信息,这样在评估模型的时,对模型的判别错误率出现有偏的估计。因此,如何避免用于训练的数据集不会被当作测试集是构建新的方法时需要考虑的;在变量选择中的另一个问题就是变量重要度计算时的不稳定性,即在对同一数据进行多次运算时得到的结果常常不一致。如何得到一个相对更加稳定的结果也是构建新的变量选择方法需要考虑到的。
发明内容
本发明结合随机森林算法和模群种群分析,提出了一种特征选择方法。为了达到上述目的,本发明的技术解决方案如下:
(1)通过Monte Carlo采样从原始数据集中提取出每个子模型的数据集。
(2)在选择好数据集后,开始构建随机森林子模型,选择每个随机森林中包含的分类回归树数目。
(3)每个子随机森林模型将返回计算其变量的重要度。
(4)循环得到子模型的变量重要度后,取其均值作为最终的判断依据,排列变量的重要度选择最重要的变量。
(5)将准确率下降作为评估变量重要度的指标,计算每个变量的重要度。
(6)对分类模型所得结果进行评价。
(7)验证方法的有效性。
有益效果:已知增加子模型之间的多样性能有效提高随机森林算法的精度,而使用模群种群分析能够有效提高各子模型间的不相似度且没有相关性,因为每次用来建模的数据集都是随机抽取的;当单次适用随机森林算法计算变量的重要度时,每个变量的重要度常常被计算出不同的重要度,这是由每次构建的树结构完全不相同导致的。当使用进行变量计算时,取多次运算结果的均值,因而使得到的结果更加稳定。
附图说明
图1为本发明总体流程图。
具体实施方式
(1)从原始数据中提取80%作为每个随机森林建模数据。
(2)在选择好数据集后,在一个随机森林程序里构建2000棵树,然后将其没有被用来训练的数据(OOB)错误率与构建的树数量作图,三个数据集的错误率都到达相对的最低,且趋近平滑所对应的树数量,选择每个随机森林中包含的分类回归树数目为500,即在一个随机子模型中由500棵树集成而得。
(3)循环1000次,得到1000个子模型的变量重要度后,取其均值作为最终的判断依据,排列变量的重要度选择最重要的变量。
(4)分别采用准确率、灵敏度、特异度、精密度以及相关系数对分类模型所得结果进行评价。
(5)有的变量对分类准确率具有很大的贡献,而有的变量(代谢物)对预测准确率却具有负的贡献,有的变量对准确率没有贡献,将一个变量扰乱后,计算模型准确率下降的程度可以用来评估该变量的重要度。基于该标准,可以将变量分为以下类:有信息的变量、无信息变量、干扰变量,采用的是准确率下降作为评估变量重要度的指标,即在训练的过程中将某个变量换为随机噪音,看模型的预测准确度是否下降,若下降很多则说明改变量十分重要,反之亦然,计算每个变量的重要度。
(6)将其与其他变量选择方法SPA和CARS进行了比较验证方法的有效性,为了保证评估的准确性,只使用这三种分析方法提取出特征变量,随后将它们输入到模型计算分类准确率,以便评估哪种方法提出的特征更加好。
Claims (4)
1.一种随机森林算法结合模群种群分析数据变量选择方法,其特征在于:通过MonteCarlo采样从原始数据集中提取出每个子模型的数据集,在选择好数据集后,开始构建随机森林子模型,选择每个随机森林中包含的分类回归树数目。
2.根据权利要求1所述数据集,其特征在于:分别采用准确率、灵敏度、特异度、精密度以及相关系数对分类模型所得结果进行评价。
3.根据权利要求2所述分类模型,其特征在于:每个子随机森林模型将返回计算其变量的重要度,循环得到子模型的变量重要度后,取其均值作为最终的判断依据,排列变量的重要度选择最重要的变量。
4.根据权利要求3所述变量选择方法,其特征在于:与其他变量选择方法进行比较来验证方法的有效性,为了保证评估的准确性,只提取出特征变量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010716827.8A CN111898666A (zh) | 2020-07-23 | 2020-07-23 | 一种随机森林算法结合模群种群的数据变量选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010716827.8A CN111898666A (zh) | 2020-07-23 | 2020-07-23 | 一种随机森林算法结合模群种群的数据变量选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898666A true CN111898666A (zh) | 2020-11-06 |
Family
ID=73189834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010716827.8A Withdrawn CN111898666A (zh) | 2020-07-23 | 2020-07-23 | 一种随机森林算法结合模群种群的数据变量选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898666A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114530228A (zh) * | 2022-01-28 | 2022-05-24 | 广东工业大学 | 基于平滑处理及融合的血糖预测方法、系统及医疗设备 |
-
2020
- 2020-07-23 CN CN202010716827.8A patent/CN111898666A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114530228A (zh) * | 2022-01-28 | 2022-05-24 | 广东工业大学 | 基于平滑处理及融合的血糖预测方法、系统及医疗设备 |
CN114530228B (zh) * | 2022-01-28 | 2022-09-27 | 广东工业大学 | 基于平滑处理及融合的血糖预测方法、系统及医疗设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6771751B2 (ja) | リスク評価方法およびシステム | |
US20060230018A1 (en) | Mahalanobis distance genetic algorithm (MDGA) method and system | |
CN109388565B (zh) | 基于生成式对抗网络的软件系统性能优化方法 | |
CN106599230A (zh) | 一种分布式数据挖掘模型评估的方法与系统 | |
CN113259325A (zh) | 基于麻雀搜索算法优化Bi-LSTM的网络安全态势预测方法 | |
CN103226595A (zh) | 基于贝叶斯混合公共因子分析器的高维数据的聚类方法 | |
CN112116198A (zh) | 数据驱动的流程工业状态感知网络关键节点筛选方法 | |
CN110781174A (zh) | 一种使用pca和特征交叉的特征工程建模方法和系统 | |
WO2024036709A1 (zh) | 一种异常数据检测方法及装置 | |
CN112529053A (zh) | 一种服务器中时序数据短期预测方法及系统 | |
CN113505477A (zh) | 一种基于svae-wgan的过程工业软测量数据补充方法 | |
CN114529228A (zh) | 一种面向电力监控系统供应链的风险预警方法及系统 | |
CN115394383A (zh) | 磷光材料的发光波长预测方法及系统 | |
Kontonasios et al. | Maximum entropy modelling for assessing results on real-valued data | |
CN112257332B (zh) | 一种仿真模型的评估方法及装置 | |
CN111898666A (zh) | 一种随机森林算法结合模群种群的数据变量选择方法 | |
CN113793057A (zh) | 一种基于回归分析模型的建筑招投标数据生成方法 | |
KR20190075631A (ko) | 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템 | |
Pei et al. | A “seed-refine” algorithm for detecting protein complexes from protein interaction data | |
CN110751400B (zh) | 一种风险评估方法及装置 | |
CN105447222A (zh) | 用于集成电路的工艺变化分析的方法 | |
CN115081515A (zh) | 能效评价模型构建方法、装置、终端及存储介质 | |
CN111026661A (zh) | 一种软件易用性全面测试方法及系统 | |
CN116757098B (zh) | 一种基于swat模型多目标优化的自动化校验方法 | |
Johnson | RIVPACS and alternative statistical modeling techniques: accuracy and soundness of principles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201106 |