CN110600135A - 一种基于改进随机森林算法的乳腺癌预测系统 - Google Patents

一种基于改进随机森林算法的乳腺癌预测系统 Download PDF

Info

Publication number
CN110600135A
CN110600135A CN201910880718.7A CN201910880718A CN110600135A CN 110600135 A CN110600135 A CN 110600135A CN 201910880718 A CN201910880718 A CN 201910880718A CN 110600135 A CN110600135 A CN 110600135A
Authority
CN
China
Prior art keywords
random forest
model
list
decision trees
decision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910880718.7A
Other languages
English (en)
Inventor
丁匀泰
任涛
商冰冰
张妍
田宜聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201910880718.7A priority Critical patent/CN110600135A/zh
Publication of CN110600135A publication Critical patent/CN110600135A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Abstract

本发明提供一种基于改进随机森林算法的乳腺癌预测系统,涉及机器学习领域。本发明包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块;针对乳腺癌数据具有的特性,对传统随机森林模型中的每一棵决策树根据分类性能评价指标AUC值进行排序,从中选取AUC值较高的决策树,通过决策树的预测结果计算决策树之间的相似度,生成相似度矩阵,根据相似度矩阵采用一种聚类方法对决策树进行分类,从每一分类中选出AUC值最大的决策树组成新的随机森林模型,最后根据投票决定最终预测结果,从而达到提升传统随机森林分类精度的目的。

Description

一种基于改进随机森林算法的乳腺癌预测系统
技术领域
本发明涉及机器学习领域,尤其涉及一种基于改进随机森林算法的乳腺癌预测系统。
背景技术
乳腺癌是一种危及妇女健康和生命的最为高发的恶性肿瘤,发病率第一,是导致女性癌症死亡的第二大原因。乳腺癌的早期发现、早期诊断,是提高疗效的关键。随着乳腺癌发现越晚治疗的风险性会增大,治愈的可能性会降低。作为高发病率的癌症,与乳腺癌相关的数据成为检测乳腺癌的重要依据。乳腺癌的病因尚未完全清楚,乳腺癌的发病存在一定的规律性,具有乳腺癌高危因素的女性容易患乳腺癌。所以,如何利用这些大量数据并及时准确地发现乳腺癌成为亟需解决的问题。
现如今,机器学习进入研究热流,可以对大数据进行分析与挖掘。作为一门人工智能的科学,机器学习通过计算机语言对数据进行深度挖掘,对规律进行深度探索。通过构建机器学习模型来实现对乳腺癌的预测,突破传统诊断方法的缺点,实现更精确的诊断,提高工作效率和节省成本。
由于数据集的复杂性和样本抽取的随机性,建立传统随机森林模型的过程中会包含一些分类性能较差的决策树,这些决策树在最后的投票过程中对最终结果会产生一定的消极影响,同时随机化过程中随机森林模型中的决策树之间可能具有较强的相关性,从而产生歧视效果,影响整体随机森林模型的分类性能。同时传统随机森林模型在解决低维样本数据时,可能具有一定的过拟合性,表现为过分依赖于建立模型的训练集,泛化能力较差。
发明内容
针对现有技术存在的问题,本发明提供一种基于改进随机森林算法的乳腺癌预测系统,本发明从功能上更准确地根据乳腺癌数据进行预测,使用的技术主要是随机森林,并运用决策树的分类性能和相关性的知识通过聚类算法建立更好的训练模型,对乳腺癌的预测进行优化。
为解决上述技术问题,本发明所采取的技术方案是:一种基于改进随机森林算法的乳腺癌预测系统,包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块;
所述用户登录注册模块,医生通过医生注册页面进行注册后,进入登入页面进行账号登录;
所述病人数据管理模块,医生登陆后点击病人列表页面的编辑按钮进入病人详细信息页面,可以在病人列表页面添加、删除病人的详细数据,医生点击预测和参考预测按钮,可以分别用传统随机森林模型和改进的随机森林模型对病人数据进行预测;
所述乳腺癌预测模块,医生在病人详细数据页面点击设置模型按钮,进入传统随机森林模型选择页面,医生可以选择已经持久化的模型进行预测,在传统随机森林模型选择页面点击添加模型按钮,进入传统随机森林模型训练页面,医生点击选择样本集按钮选择要加载的样本集数据文件,医生可以设置模型的参数,对模型进行评估,删除模型;医生点击建模按钮对训练模型进行持久化保存,在病人详细数据页面点击参照模型设置按钮,进入改进随机森林模型设置页面;医生可以设置参照模型的参数,对模型进行评估,删除模型。
所述乳腺癌预测模块中,通过改进随机森林模型对病人数据进行预测,包括以下步骤:
步骤1:使用AUC指标对一颗决策树分类性能的好坏进行评价,通过计算每一颗决策树的AUC值,根据AUC值对决策树进行降序排序,选取一定数量AUC值相对较高的决策树;
步骤1.1:通过python中的numpy读取乳腺癌数据并进行存储,将读取到的乳腺癌数据按照4:4:2比例分为训练集、测试集1和测试集2;
步骤1.2:通过Bagging算法对训练集进行有放回的随机取样,针对训练集生成n棵单棵决策树的随机森林,通过roc_auc_score方法对训练集每一棵决策树进行AUC值计算,将决策树编号作为键,对应决策树计算得到的AUC值作为值存入字典AUC中;
步骤1.3:根据AUC值对这些决策树进行降序排序,选取排序后具有较高AUC值的决策树,按排序顺序加入到列表newrandomtree中;
步骤2:计算随机森林中决策树之间的相似值判断两棵决策树之间是否具有相关性,当决策树之间的相似值达到设置的临界值时可判断两颗决策树为相关;计算随机森林模型中决策树之间的相似值得到相似度矩阵,然后根据设置的临界值和相似度矩阵对决策树进行聚类,对分类性能高,但相关性低的决策树进行筛选,从每一个分类中选取出AUC值最高的决策树,把选取出的决策树重新组合在一起,形成改进后的随机森林模型;
步骤2.1:将步骤1.3中选取出的具有较高AUC值的决策树对测试集1进行预测,得到 count组预测结果,将两棵树的预测结果进行比较,预测结果相同的组数记为rcount组,rcount/count即为两棵树的相似度,将计算得到两棵决策树的相似值存储在m*m的二维列表 simarray中;
步骤2.2:将两棵决策树的相似度与相似临界值进行比较,如果相似度大于相似临界值则两棵决策树相似,将两棵决策树的编号以列表对的形式存储在列表list中;
步骤2.3:通过聚类方法将具有相关性的决策树划分为一类,不具相关性的树单独划分一类;
步骤2.3.1:将列表list[0]中第一组相似的决策树对加入列表list1中;
步骤2.3.2:取列表list中下一组相似的决策树对a、b,如果a出现在list1[i]中,则将b 加入到list1[i]中;如果b出现在list1[i]中,则将a加入到list1[i]中;如果a,b都不在list1[i],则将[a,b]存入列表list1中;
步骤2.3.3:遍历list1[i],取其中决策树编号最小值存入列表resultList中,将不具有相关性的决策树编号列表[c]加入列表resultList中;
步骤2.3.4:取列表resultList中每组最小值,即为每组分类性能最好的决策树编号;
步骤2.3.5:根据列表newrandomtree将决策树编号映射到相应的决策树,将对应决策树添加到列表real_tree中;
步骤2.4:由列表real_tree中的决策树组成新的随机森林,根据决策树的预测进行投票决定新生成学习模型的预测结果。
采用上述技术方案所产生的有益效果在于:
通过AUC指标选取到分类效果更好的决策树,同时通过聚类从相似度高的决策树中选出分类效果好的决策树代表;相较于传统的随机森林模型,改进的随机森林模型具有一定的优化效果、预测效果相对稳定、减少了过拟合性;根据AUC评估值测试,改进的随机森林模型分类性能较好且稳定。通过对患者数据进行深度挖掘,对规律进行深度探索,建立基于改进随机森林算法的乳腺癌预测系统,实现对乳腺癌的预测,突破传统诊断方法的缺点,实现更精确的诊断,提高工作效率和节省成本。
附图说明
图1为乳腺癌预测工具功能模块图;
图2为本实施例中医生系统注册界面;
图3为本实施例中医生登录系统界面;
图4为本实施例中医生对病人列表进行操作界面;
图5为本实施例中医生进入病人详细信息界面;
图6为本实施例中医生选择已经持久化的模型进行预测界面;
图7为本实施例中医生进入传统随机森林模型训练界面;
图8为本实施例中医生进入改进随机森林模型设置界面;
图9为本发明总体流程图;
图10为本发明具有相关性决策树的聚类方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施方式的软件环境为WINDOWS 10系统,开发工具为pycharm 2018.1.4,开发语言是Python。
一种基于改进随机森林算法的乳腺癌预测系统,如图1所示,包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块;
所述用户登录注册模块,如图2,图3所示,医生通过医生注册页面进行注册后,进入登入页面进行账号登录;
所述病人数据管理模块,医生登陆后点击病人列表页面的编辑按钮进入病人详细信息页面,如图4,图5所示,可以在病人列表页面添加、删除病人的详细数据,医生点击预测和参考预测按钮,如图6所示,可以分别用传统随机森林模型和改进的随机森林模型对病人数据进行预测;
所述乳腺癌预测模块,医生在病人详细数据页面点击设置模型按钮,如图7所示,进入传统随机森林模型选择页面,医生可以选择已经持久化的模型进行预测,在传统随机森林模型选择页面点击添加模型按钮,进入传统随机森林模型训练页面,医生点击选择样本集按钮选择要加载的样本集数据文件,医生可以设置模型的参数,对模型进行评估,删除模型;医生点击建模按钮对训练模型进行持久化保存,在病人详细数据页面点击参照模型设置按钮,如图8所示,进入改进随机森林模型设置页面;医生可以设置参照模型的参数,对模型进行评估,删除模型。
所述乳腺癌预测模块中,通过改进随机森林模型对病人数据进行预测,如图9所示,包括以下步骤:
步骤1:使用AUC指标对一颗决策树分类性能的好坏进行评价,通过计算每一颗决策树的AUC值,根据AUC值对决策树进行降序排序,选取一定数量AUC值相对较高的决策树;
步骤1.1:通过numpy的loadtxt方法读取csv文件格式的乳腺癌数据存储到列表中,将样本数据按照4:4:2比例分为训练集、测试集1测试集2;
步骤1.2:通过Bagging算法对训练集进行有放回的随机取样,针对训练集生成n棵单棵决策树的随机森林。使用训练集1对每一棵决策树进行AUC值计算,通过roc_auc_score方法计算每棵决策树的AUC值,将决策树编号作为键,对应AUC值作为值存入字典AUC中;
步骤1.3:根据AUC值对这些决策树进行降序排序,选取排序后前m棵具有较高AUC值的决策树,按排序顺序加入到列表newrandomtree中;
步骤2:计算随机森林中决策树之间的相似值判断两棵决策树之间是否具有相关性,当决策树之间的相似值达到设置的临界值时可判断两颗决策树为相关,计算随机森林模型中决策树之间的相似值得到相似度矩阵,然后根据设置的临界值和相似度矩阵对决策树进行聚类,对分类性能高,但相关性低的决策树进行筛选,从每一个分类中选取出AUC值最高的决策树,把选取出的决策树重新组合在一起,形成改进后的随机森林模型;
步骤2.1:将m棵决策树对测试集进行预测后得到count组预测结果,将两棵树的预测结果进行比较,预测结果相同的组数总计为rcount组,rcount/count即为两棵树的相似度。将计算得到两棵决策树的相似值存储在m*m的二维列表simarray中;
步骤2.2:将两棵决策树的相似度与相似临界值进行比较,如果相似度大于相似临界值则两棵决策树相似,将两棵决策树的编号以列表对的形式存储在列表list中;
步骤2.3:通过聚类方法将具有相关性的决策树划分为一类,不具相关性的树单独划分一类,即从m棵决策树中提取到k棵具有相关性的决策树;
如图10所示,步骤2.3的具体步骤为:
步骤2.3.1:将列表list[0]中第一组相似的决策树对加入列表list1中;
步骤2.3.2:取列表list中下一组相似的决策树对a、b,如果a出现在list1[i]中,则将b 加入到list1[i]中;如果b出现在list1[i]中,则将a加入到list1[i]中;如果a,b都不在list1[i],则将[a,b]存入列表list1中;
步骤2.3.3:遍历list1[i],取其中决策树编号最小值存入列表resultList中,将不具有相关性的决策树编号列表[c]加入列表resultList中;
步骤2.3.4:取列表resultList中每组最小值,即为每组分类性能最好的决策树编号;
步骤2.3.5:根据列表newrandomtree将决策树编号映射到相应的决策树,将对应决策树添加到列表real_tree中;
步骤2.4:由real_tree中的k棵决策树组成新的随机森林,根据k棵决策树的预测进行投票决定新生成学习模型的预测结果。

Claims (2)

1.一种基于改进随机森林算法的乳腺癌预测系统,其特征在于:包括用户登录注册模块、病人数据管理模块、乳腺癌预测模块;
所述用户登录注册模块,医生通过医生注册页面进行注册后,进入登入页面进行账号登录;
所述病人数据管理模块,医生登陆后点击病人列表页面的编辑按钮进入病人详细信息页面,可以在病人列表页面添加、删除病人的详细数据,医生点击预测和参考预测按钮,可以分别用传统随机森林模型和改进的随机森林模型对病人数据进行预测;
所述乳腺癌预测模块,医生在病人详细数据页面点击设置模型按钮,进入传统随机森林模型选择页面,医生可以选择已经持久化的模型进行预测,在传统随机森林模型选择页面点击添加模型按钮,进入传统随机森林模型训练页面,医生点击选择样本集按钮选择要加载的样本集数据文件,医生可以设置模型的参数,对模型进行评估,删除模型;医生点击建模按钮对训练模型进行持久化保存,在病人详细数据页面点击参照模型设置按钮,进入改进随机森林模型设置页面;医生可以设置参照模型的参数,对模型进行评估,删除模型。
2.根据权利要求1所述的一种基于改进随机森林算法的乳腺癌预测系统,其特征在于:所述乳腺癌预测模块中,通过改进随机森林模型对病人数据进行预测,包括以下步骤:
步骤1:使用AUC指标对一颗决策树分类性能的好坏进行评价,通过计算每一颗决策树的AUC值,根据AUC值对决策树进行降序排序,选取一定数量AUC值相对较高的决策树;
步骤1.1:通过python中的numpy读取乳腺癌数据并进行存储,将读取到的乳腺癌数据按照4:4:2比例分为训练集、测试集1和测试集2;
步骤1.2:通过Bagging算法对训练集进行有放回的随机取样,针对训练集生成n棵单棵决策树的随机森林,通过roc_auc_score方法对训练集每一棵决策树进行AUC值计算,将决策树编号作为键,对应决策树计算得到的AUC值作为值存入字典AUC中;
步骤1.3:根据AUC值对这些决策树进行降序排序,选取排序后具有较高AUC值的决策树,按排序顺序加入到列表newrandomtree中;
步骤2:计算随机森林中决策树之间的相似值判断两棵决策树之间是否具有相关性,当决策树之间的相似值达到设置的临界值时可判断两颗决策树为相关;计算随机森林模型中决策树之间的相似值得到相似度矩阵,然后根据设置的临界值和相似度矩阵对决策树进行聚类,对分类性能高,但相关性低的决策树进行筛选,从每一个分类中选取出AUC值最高的决策树,把选取出的决策树重新组合在一起,形成改进后的随机森林模型;
步骤2.1:将步骤1.3中选取出的具有较高AUC值的决策树对测试集1进行预测,得到count组预测结果,将两棵树的预测结果进行比较,预测结果相同的组数记为rcount组,rcount/count即为两棵树的相似度,将计算得到两棵决策树的相似值存储在m*m的二维列表simarray中;
步骤2.2:将两棵决策树的相似度与相似临界值进行比较,如果相似度大于相似临界值则两棵决策树相似,将两棵决策树的编号以列表对的形式存储在列表list中;
步骤2.3:通过聚类方法将具有相关性的决策树划分为一类,不具相关性的树单独划分一类;
步骤2.3.1:将列表list[0]中第一组相似的决策树对加入列表list1中;
步骤2.3.2:取列表list中下一组相似的决策树对a、b,如果a出现在list1[i]中,则将b加入到list1[i]中;如果b出现在list1[i]中,则将a加入到list1[i]中;如果a,b都不在list1[i],则将[a,b]存入列表list1中;
步骤2.3.3:遍历list1[i],取其中决策树编号最小值存入列表resultList中,将不具有相关性的决策树编号列表[c]加入列表resultList中;
步骤2.3.4:取列表resultList中每组最小值,即为每组分类性能最好的决策树编号;
步骤2.3.5:根据列表newrandomtree将决策树编号映射到相应的决策树,将对应决策树添加到列表real_tree中;
步骤2.4:由列表real_tree中的决策树组成新的随机森林,根据决策树的预测进行投票决定新生成学习模型的预测结果。
CN201910880718.7A 2019-09-18 2019-09-18 一种基于改进随机森林算法的乳腺癌预测系统 Pending CN110600135A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910880718.7A CN110600135A (zh) 2019-09-18 2019-09-18 一种基于改进随机森林算法的乳腺癌预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910880718.7A CN110600135A (zh) 2019-09-18 2019-09-18 一种基于改进随机森林算法的乳腺癌预测系统

Publications (1)

Publication Number Publication Date
CN110600135A true CN110600135A (zh) 2019-12-20

Family

ID=68860572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910880718.7A Pending CN110600135A (zh) 2019-09-18 2019-09-18 一种基于改进随机森林算法的乳腺癌预测系统

Country Status (1)

Country Link
CN (1) CN110600135A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291896A (zh) * 2020-02-03 2020-06-16 深圳前海微众银行股份有限公司 交互式随机森林子树筛选方法、装置、设备及可读介质
CN112422505A (zh) * 2020-10-13 2021-02-26 北京理工大学 基于高维扩展关键特征向量的网络恶意流量识别方法
CN112836730A (zh) * 2021-01-20 2021-05-25 国家卫生健康委科学技术研究所 用于用户妊娠状态分类的方法、装置、电子设备及介质
CN115358351A (zh) * 2022-10-18 2022-11-18 中国地质大学(北京) 基于乳腺癌变量的分类模型建立方法及系统、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005001740A2 (en) * 2003-06-25 2005-01-06 Siemens Medical Solutions Usa, Inc. Systems and methods for automated diagnosis and decision support for breast imaging
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
CN104346513A (zh) * 2013-08-09 2015-02-11 苏州润新生物科技有限公司 基于推进式决策树的中药成分及化合物肝毒评价系统
CN105718582A (zh) * 2016-01-25 2016-06-29 重庆邮电大学 一种E-learning平台下学习资源个性化推荐系统及方法
CN107767946A (zh) * 2017-09-26 2018-03-06 浙江工业大学 基于pca和pso‑kelm模型的乳腺癌诊断系统
CN109637584A (zh) * 2019-01-24 2019-04-16 上海海云生物科技有限公司 肿瘤基因诊断辅助决策系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005001740A2 (en) * 2003-06-25 2005-01-06 Siemens Medical Solutions Usa, Inc. Systems and methods for automated diagnosis and decision support for breast imaging
CN104346513A (zh) * 2013-08-09 2015-02-11 苏州润新生物科技有限公司 基于推进式决策树的中药成分及化合物肝毒评价系统
US8818910B1 (en) * 2013-11-26 2014-08-26 Comrise, Inc. Systems and methods for prioritizing job candidates using a decision-tree forest algorithm
CN105718582A (zh) * 2016-01-25 2016-06-29 重庆邮电大学 一种E-learning平台下学习资源个性化推荐系统及方法
CN107767946A (zh) * 2017-09-26 2018-03-06 浙江工业大学 基于pca和pso‑kelm模型的乳腺癌诊断系统
CN109637584A (zh) * 2019-01-24 2019-04-16 上海海云生物科技有限公司 肿瘤基因诊断辅助决策系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王日升等: "基于分类精度和相关性的随机森林算法改进", 《科学技术与工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291896A (zh) * 2020-02-03 2020-06-16 深圳前海微众银行股份有限公司 交互式随机森林子树筛选方法、装置、设备及可读介质
CN112422505A (zh) * 2020-10-13 2021-02-26 北京理工大学 基于高维扩展关键特征向量的网络恶意流量识别方法
CN112836730A (zh) * 2021-01-20 2021-05-25 国家卫生健康委科学技术研究所 用于用户妊娠状态分类的方法、装置、电子设备及介质
CN115358351A (zh) * 2022-10-18 2022-11-18 中国地质大学(北京) 基于乳腺癌变量的分类模型建立方法及系统、存储介质

Similar Documents

Publication Publication Date Title
CN110600135A (zh) 一种基于改进随机森林算法的乳腺癌预测系统
CN109994151B (zh) 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统
CN112235327A (zh) 异常日志检测方法、装置、设备和计算机可读存储介质
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN110853756B (zh) 基于som神经网络和svm的食管癌风险预测方法
CN106228554A (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN109801680A (zh) 基于tcga数据库的肿瘤转移复发预测方法及系统
CN112883378B (zh) 图嵌入与深度神经网络相融合的安卓恶意软件检测方法
CN108416373A (zh) 一种基于正则化Fisher阈值选择策略的不平衡数据分类系统
CN108710784A (zh) 一种基因转录变异几率及变异方向的算法
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN112035345A (zh) 一种基于代码片段分析的混合深度缺陷预测方法
CN115809601A (zh) 一种沉积岩构造背景判别方法
CN113177644A (zh) 一种基于词嵌入和深度时序模型的自动建模系统
CN110245234A (zh) 一种基于本体和语义相似度的多源数据样本关联方法
CN106294139A (zh) 一种软件代码中重复片段的检测提取方法
CN112599250A (zh) 一种基于深度神经网络的术后数据分析方法及设备
CN111767546B (zh) 一种基于深度学习的输入结构推断方法和装置
CN113643756A (zh) 一种基于深度学习的蛋白质相互作用位点预测方法
CN109783586B (zh) 基于聚类重采样的水军评论检测方法
CN111863135A (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN116975881A (zh) 一种基于llvm的漏洞细粒度定位方法
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
Lyu et al. Intelligent clustering analysis model for mining area mineral resource prediction
CN110968690A (zh) 词语的聚类划分方法和装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220