CN113362888A - 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 - Google Patents

一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 Download PDF

Info

Publication number
CN113362888A
CN113362888A CN202110614862.3A CN202110614862A CN113362888A CN 113362888 A CN113362888 A CN 113362888A CN 202110614862 A CN202110614862 A CN 202110614862A CN 113362888 A CN113362888 A CN 113362888A
Authority
CN
China
Prior art keywords
feature
gastric cancer
importance
data
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110614862.3A
Other languages
English (en)
Inventor
董祥军
胡艳羽
赵龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202110614862.3A priority Critical patent/CN113362888A/zh
Publication of CN113362888A publication Critical patent/CN113362888A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质,包括特征选择单元、分类单元;特征选择单元用于:使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;分类单元用于:将选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。本发明通过基于随机森林的深度特征选择算法来减少特征维数并提高胃癌预后预测精度,该方法通过随机森林选择出特征重要性较高的特征子集;为了进一步提高数据分类精度,使用神经网络作为分类器执行者,通过层层操作,进而提高胃癌预后预测精度。通过实验证明,该方法具有较高的价值。

Description

一种基于随机森林的深度特征选择算法提高胃癌预后预测精 度系统、方法、设备及介质
技术领域
本发明涉及一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质,属于生物医学技术领域。
背景技术
胃癌起源于胃粘膜上皮恶性肿瘤,在世界上各种恶性肿瘤中发病率占首位。但由于胃癌早期无明显症状,因此胃癌诊断率较低。目前基因表达等组学数据受到广泛关注,有效的数据整合可以提高胃癌预后预测精度,但组学数据都存在高维性问题。随着高通量技术的发展,使组学研究成为了可能,现阶段将特征选择算法用于多组学数据越来越广泛。
最近,Suo等人提出一种驱动基因评分DGscore方法,整合基因组和转录组来预测高危神经母细胞瘤的预后,具体参见:Suo,C.,Deng,W.,Vu,T.N.,Li,M.,Shi,L.,Pawitan,Y.(2018).Accumulation of potential driver genes with genomic alterationspredicts survival of high-risk neuroblastoma patients.Biol.Direct 13:14.doi:10.1186/s13062-018-0218-5.。Zhang通过深度学习算法自编码器整合多组学数据,联合K-means聚类算法,进而识别出两个具有显著生存差异的子类型,具体参见:Deep Learning-Based Multi-Omics Data Integration Reveals Two Prognostic Subtypes in High-Risk Neuroblastoma.[J].Frontiers in genetics,2018.。Yasser通过一种基于多视角特征选择的多组数据集成框架mRmR-mv来预测卵巢癌生存结果,具体参见:El-Manzalawy Y,Hsieh T Y,Shivakumar M,et al.Min-Redundancy and Max-Relevance Multi-viewFeature Selection for Predicting Ovarian Cancer Survival using Multi-omicsData.2018.。Zhang提出ELMO算法来整合RNA序列和甲基化数据提高乳腺癌亚型的预测精度,具体参见:Zhang Y,Shi R,Chen C,et al.ELMO:An Efficient Logistic Regression-Based Multi-Omic Integrated Analysis Method for Breast Cancer IntrinsicSubtypes[J].IEEE Access,2019,PP(99):1-1.。
多组学可以为单组学数据提供补充信息,提高癌症的预后预测精度,但多组学与单组学相比较为困难的一点是,组学类型较多,整合种类多,由于不清楚某一组学内部数据,可能整合后的结果差强人意,现阶段研究者们多使用拷贝数变异(CNV)与其他组学数据进行整合。CNV是结构基因组变异的重要组成部分,它的位点突变率是人类疾病重要致病因素之一,通过与CNV数据整合,可以对遗传致病基因有新的认识。Lin等人提出一种基于多组学的深度神经网络模型DeeoMO通过整合mRNA,CNV和甲基化数据来提高对乳腺癌亚型的预后预测,具体参见:Lin Y,Zhang W,Cao H,et al.Classifying Breast Cancer SubtypesUsing Deep Neural Networks Based on Multi-Omics Data[J].Genes,2020,11(8):888.。He等人通过使用多核MKL学习算法,将体细胞突变整合到基因表达,CNV,甲基化,蛋白质表达等数据中,提高对乳腺癌的预后预测精度,具体参见:He Z,Zhang J,X Yuan,etal.Integrating Somatic Mutations for Breast Cancer Survival Prediction UsingMachine Learning Methods[J].Frontiers in Genetics,2021,11.。Liu等人通过整合四种心房颤动组学数据提高预后预测精度,使用基于机器学习的特征选择算法CFS来选择重要基因,具体参见:Liu Y,Bai F,Tang Z,et al.Integrative transcriptomic,proteomic,and machine learning approach to identifying feature genes ofatrial fibrillation.2020.。Manzalawy等使用CNV、甲基化数据和RNA-Seq预测卵巢癌患者的生存。他们提出了一种两阶段混合的特征选择方法,对三种组学数据分别进行选择后在整合预测预后精度,具体参见:Yasser EL-Manzalawy,Tsung-Yu Hsieh,ManuShivakumar,Dokyoon Kim,Vasant Honavar,Min-redundancy and max-relevance multi-view feature selection for predicting ovarian cancer survival using multi-omics data,BMC Med.Genomics 11(S3)(2018),https://doi.org/10.1186/s12920-018-0388-0.。Yang等利用核融合与遗传算法对核参数进行调整,将CNV、mRNA和miRNA组学数据整合到乳腺癌亚型诊断中,具体参见:H.Yang,H.Cao,T.He,T.Wang,Y.Cui,Multilevelheterogeneous omics data integration with kernel fusion,Brief.Bioinform.00(April)(2018)1–15.。Tao等使用多组学数据预测乳腺癌亚型。利用多核学习算法(MKL)分别对CNV、mRNA和甲基化组学数据使用不同的核(线性、高斯和多项式)生成支持向量机的核,具体参见:M.Tao,et al.,Classifying breast cancer subtypes using multiplekernel learning based on omics data,Genes(Basel)10(3)(2019)200.。
由上可以看出,在多组学研究方面几乎没有对胃癌的研究情况,并且很少有考虑整合基因表达(Exp)数据与CNV数据。另外,组学数据存在高维性问题,多组学数据维度更高并且现有将特征选择应用到组学数据中,很少有考虑将神经网络加入其中从而提高分类精度。以上问题都是需要解决的。
发明内容
现阶段已有不少将特征选择算法用于多组学数据研究中,但很少考虑使用深度特征选择算法来解决多组学数据维度过高和分类精度较低问题,为了解决这些问题,本发明提供了一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统。
本发明通过基于随机森林的深度特征选择算法来提高多组学数据的预后预测精度,该发明主要解决的问题如下:(1)使用机器学习技术处理多组学数据,几乎没有处理胃癌数据的,胃癌仍是世界上最致命的肿瘤之一,提高胃癌数据预后预测精度是非常有必要的。(2)对于多组学数据通过特征选择后保留特征数目较多问题。提出了基于随机森林的特征选择算法,该算法通过特征重要性的大小选择出前n个重要性较高的特征。(3)对于多组学数据分类精度不高问题。提出了通过在特征选择后加入一神经网络来提高多组学数据分类精度。
本发明还提供了上述系统的工作方法以及计算机设备和存储介质。
术语解释:
1、组学数据:主要包括基因组学、蛋白组学、代谢组学、转录组学、脂类组学、免疫组学、糖组学、RNA组学、影像组学、超声组学等,主要研究基因及基因间关系。
2、多组学数据:指的是两个或两个以上组学数据整合分析。
3、基因表达数据(Exp):反映的是直接或间接测量得到的基因转录产物mRNA在细胞中的丰度,这些数据可以用于分析哪些基因的表达发生了改变,基因之间有何相关性,在不同条件下基因的活动是如何受影响的。
4、拷贝数变异(CNV):是由基因组发生重排而导致的,一般指长度为1kb以上的基因。
5、TCGA:隶属于美国健康研究院的美国国家癌症研究所和国家人类基因组研究所,它收录了许多癌症组学数据,包括基因表达、拷贝数变异、蛋白质表达、体细胞突变数据、甲基化数据等。
6、数据整合:指的多种组学数据经过预处理后加载成一种数据。
7、GISTIC2.0:分析CNV的一种在线平台。
8、GenePattern:基因组学分析平台,其中包括专门分析CNV数据的GISTIC2.0平台。
本发明的技术方案为:
一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统,包括特征选择单元、分类单元;
所述特征选择单元用于:使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;所述分类单元用于:将选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。
根据本发明优选的,所述神经网络包括输入层、三层隐含层和输出层,三层隐含层包括第一层隐含层、第二层隐含层、第三层隐含层,节点数依次为128、64、2。
上述基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法,包括步骤如下:
(1)所述特征选择单元使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;
(2)所述分类单元将步骤(1)选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。
根据本发明优选的,步骤(1)的具体实现过程包括:
随机森林包括多棵决策树,根据每个特征在每棵决策树中的贡献率多少求出特征重要性,一个特征在所有决策树上的贡献率求平均,得到该特征的特征重要性;贡献率由基尼指数求得,假设有m个特征X1,X2,X3,...,Xj,...Xm,公式如式(Ⅰ)所示:
Figure BDA0003096979180000041
式(Ⅰ)中,GI表示基尼系数,GIa表示节点a的基尼指数,K表示样本类别个数,Pak表示节点a在类别k所占的比例;
求取Xj在节点a中的特征重要性即求取节点a分支后的基尼指数变化量,求取公式如式(Ⅱ)所示:
VIMja=GIa-GIb-GIc (Ⅱ)
式(Ⅱ)中,VIMja表示Xj在节点a中的重要性,GIb和GIc表示节点a在分支后产生的两个新节点b和c的基尼指数;
假设在第i棵树中,特征Xj出现在A个节点上,则特征Xj在第i棵树的重要性之和如式(Ⅲ)所示:
Figure BDA0003096979180000042
式(III)中,VIMij是指在第i棵树上特征Xj的重要性;
假设随机森林中共有n棵树,则特征Xj在所有树上重要性和如式(IV)所示::
Figure BDA0003096979180000043
式(IV)中,
Figure BDA0003096979180000044
是指在n棵树上特征Xj的重要性之和,其中i∈n;
对特征Xj的重要性总和求平均,公式如式(V)所示:
Figure BDA0003096979180000045
式(V)中,VIMj是指特征Xj的特征重要性,
Figure BDA0003096979180000046
是指m个特征在n棵树上所有重要性之和,其中p=1,2,3,…,n。
通过对所有特征的特征重要性从大到小进行排序,选择出特征重要性较高即排序前n个的特征作为特征子集。
根据本发明优选的,对于隐含层的标准架构如式(VI)所示:
Pr(y|X,θ)=g(ZoutWout+bout),
Zout=σ(ZlWl+bl),
…,
Zk+1=σ(ZkWk+bk),
…,
Z1=σ(XWin+bin)(VI)
式(VI)隐含层所有计算标准;X是指随机森林选出的特征子集,y是指样本标签,θ是指神经网络所有参数,Zout是指输出层,Zk+1是指第k+1层隐含层,Z1是指输入层,k=1,2,3,...,l-1,k是指隐含层神经元个数,Wout与Wk表示特征矩阵权重,bout与bk表示误差值;W和b的维度取决于bin与bk神经元数量,σ(·)为激活函数,g(·)表示softmax函数,将输出层的值转换为概率预测;Pr(y|X,θ)指的是预测结果即分类结果,Zl指的是第l层隐含层,Wl第l层权重值,bl第l层误差值,Win指的是输入层权重值,bin指的是输出层误差值;
根据本发明优选的,神经网络的训练过程如下:
A、获取胃癌组学数据:
下载TCGA,从中获取Exp与CNV,得到胃癌组学数据;
B、对胃癌组学数据进行预处理:
使用R语言分别将Exp与CNV两组胃癌组学数据处理成计算机可识别的两组微阵列数据;
将两组微阵列数据进行数据整合,变成多组学数据;
使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;
C、训练神经网络:
将特征子集作为输入层输入到神经网络中,经过第一层隐含层筛选去掉特征子集中特征中存在的噪声后,输入到第二层隐含层再进行一轮去除噪声操作,最后输入到第三层隐含层,通过第三层隐含层操作后将结果传给输出层,进行分类操作,得到分类结果;进而提高分类精度;
设计epoch为100次,batch size的大小为8,设计网络学习率为0.00001;
使用relu函数作为网络的激活函数,并使用Adam作为优化器;
训练结束后得到训练好的神经网络。
神经网络作为高性能分类器,经过它的处理,可以有效地提高胃癌数据的预后预测精度。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的步骤。
本发明的有益效果为:
本发明通过基于随机森林的深度特征选择算法来减少特征维数并提高胃癌预后预测精度,该方法通过随机森林选择出特征重要性较高的特征子集;为了进一步提高数据分类精度,使用一神经网络作为分类器执行者,通过层层操作,进而提高胃癌预后预测精度。通过实验证明,该方法具有较高的价值。
附图说明
图1为本发明基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的流程示意图;
图2为本发明神经网络的结构框图。
图3为本发明神经网络的详细的网络结构示意图。
图4为本发明对单组学与多组学分类比较结果示意图;
图5为本发明与传统特征选择算法比较结果示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统,包括特征选择单元、分类单元;特征选择单元用于:使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;分类单元用于:将选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。
神经网络包括输入层、三层隐含层和输出层,三层隐含层包括第一层隐含层、第二层隐含层、第三层隐含层,节点数依次为128、64、2。数据通过输入层进入神经网络,通过隐含层进一步处理传入输出层,输出所需的结果。一般输入层与输出层为一层结构,隐含层通过自身需要可设置多层。如图2所示。
实施例2
实施例1所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法,如图1所示,图1中,Preprocessing是指预处理数据,Integration是指整合数据,Featureselection是指特征选择,Featuresubset是指特征子集,Classifyingstomachcancer是指癌症数据分类,Evaluation是指评估;包括步骤如下:
(1)特征选择单元使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;步骤(1)的具体实现过程包括:
对于多组学数据高维性问题,使用随机森林(RF)根据特征重要性排序,选择出特征重要性较高的特征。随机森林作为特征选择的执行者,随机森林包括多棵决策树,根据每个特征在每棵决策树中的贡献率多少求出特征重要性,一个特征在所有决策树上的贡献率求平均,得到该特征的特征重要性;贡献率由基尼指数求得,假设有m个特征X1,X2,X3,...,Xj,...Xm,公式如式(Ⅰ)所示:
Figure BDA0003096979180000071
式(Ⅰ)中,GI表示基尼系数,GIa表示节点a的基尼指数,K表示样本类别个数(本次研究胃癌数据,其中包含两种样本,健康人样本与癌症患者样本,则说明样本类别为2),Pak表示节点a在类别k所占的比例;随机森林中的节点表示一个判定点,判定点的指标为一个特征的取值(判定值的设定是随机森林内部决定,具体如何选取不是人为操作),特征取值大于该判定值则分到右边的节点,反之分到左边节点。特征的取值指的是癌症数据集中的特征数值。
求取Xj在节点a中的特征重要性即求取节点a分支后的基尼指数变化量,求取公式如式(Ⅱ)所示:
VIMja=GIa-GIb-GIc (Ⅱ)
式(Ⅱ)中,VIMja表示Xj在节点a中的重要性,GIb和GIc表示节点a在分支后产生的两个新节点b和c的基尼指数;
假设在第i棵树中,特征Xj出现在A个节点上,则特征Xj在第i棵树的重要性之和如式(III)所示:
Figure BDA0003096979180000072
式(III)中,VIMij是指在第i棵树上特征Xj的重要性。
假设随机森林中共有n棵树,则特征Xj在所有树上重要性和如式(IV)所示::
Figure BDA0003096979180000073
式(IV)中,
Figure BDA0003096979180000081
是指在n棵树上特征Xj的重要性之和,其中i∈n;
对特征Xj的重要性总和求平均,公式如式(V)所示:
Figure BDA0003096979180000082
式(V)中,VIMj是指特征Xj的特征重要性,
Figure BDA0003096979180000083
是指m个特征在n棵树上所有重要性之和,其中p=1,2,3,…,n。
通过对所有特征的特征重要性从大到小进行排序,选择出特征重要性较高即排序前n个的特征作为特征子集。特征重要性具体事由随机森林根据其自身性能来选择,没有人为的设置信息,选出的特征数量也是随机森林根据自己求出的重要性选出的,数量随机,并没有固定设置,这些特征作为输入节点输入到神经网络中,进行下一轮训练学习,进而得到最终的分类效率。
(2)分类单元将步骤(1)选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。提高胃癌的预后预测精度。
为了解决组学数据预后预测精度不高问题,在特征选择后设计一神经网络模型,该模型作为分类器执行者,通过层层操作,进而提高组学数据的分类精度。神经网络类似于人体大脑结构,根据输入数据的类型并告知其应该如何分类,来得到最终分类精度。基于上述RF提供的新的特征子集,经过神经网络一层一层的筛选得到最终的分类结果。
图3为本发明神经网络的详细的网络结构示意图。图3中,设置输入层20个节点,隐含层节点数分别设置为16,8,2,对于隐含层的标准架构如式(VI)所示:
Pr(y|X,θ)=g(ZoutWout+bout),
Zout=σ(ZlWl+bl),
…,
Zk+1=σ(ZkWk+bk),
…,
Z1=σ(XWin+bin)(VI)
式(VI)为隐含层所有计算标准;X是指随机森林选出的特征子集,y是指样本标签,θ是指神经网络所有参数,Zout是指输出层,Zk+1是指第k+1层隐含层,Z1是指输入层,k=1,2,3,...,l-1,k是指隐含层神经元个数,Wout与Wk表示特征矩阵权重,bout与bk表示误差值;W和b的维度取决于bin与bk神经元数量,σ(·)为激活函数,g(·)表示softmax函数,将输出层的值转换为概率预测;Pr(y|X,θ)指的是预测结果即分类结果,Zl指的是第l层隐含层,Wl第l层权重值,bl第l层误差值,Win指的是输入层权重值,bin指的是输出层误差值;
现有技术中将特征选择算法用于多组学数据很少考虑使用神经网络作为分类器执行者,现有的机器学习中也存在不少分类算法,前人对于多组学数据的特征选择研究大多使用已存在分类算法,具有较低的分类结果。而神经网络在分类方面具有较高的性能,本发明使用神经网络作为分类器模型,通过神经网络一层一层的处理,可以明显的提高多组学数据的分类精度,本发明还使用基于随机森林的深度特征选择算法,不仅可以得到特征数目较少的特征子集,并且可以提高多组学数据预后预测精度。
神经网络的训练过程如下:
A、获取胃癌组学数据:
下载TCGA,从中获取Exp与CNV,得到胃癌组学数据;
B、对胃癌组学数据进行预处理:
使用R语言分别将Exp与CNV两组胃癌组学数据处理成计算机可识别的两组微阵列数据;
对于Exp,使用R语言中的edgeR包进行基因表达差异分析,并根据其pvalue>0.5和log2Foldchange>1(两者比较的设定均是遵循差异性分析特定的设定,且计算过程均在R中内部操作实现)规则选择出1468差异性较强的基因。对于CNV数据,使用GISTIC2.0对CNV中的基因进行注释,基因注释过程在网络在线平台GenePattern中实现。之后使用R中maftools包获得CNV中1452包含信息较强的基因。
将两组微阵列数据进行数据整合,变成多组学数据;
使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;
C、训练神经网络:
将特征子集作为输入层输入到神经网络中,经过第一层隐含层筛选去掉特征子集中特征中存在的噪声后,输入到第二层隐含层再进行一轮去除噪声操作,最后输入到第三层隐含层,通过第三层隐含层操作后将结果传给输出层,进行分类操作,得到分类结果;进而提高分类精度;
设计epoch为100次,batch size的大小为8,设计网络学习率为0.00001;
使用relu函数作为网络的激活函数,并使用Adam作为优化器;
训练结束后得到训练好的神经网络。
神经网络作为高性能分类器,经过它的处理,可以有效地提高胃癌数据的预后预测精度。为了进一步验证该方法的有效性,使用accuracy,AUC,SN,SP作为评估标准。其中accuracy代表准确度,AUC代表曲线下方面积,SN表示敏感度,SP表示精确度。
神经网络作为高性能分类器,经过它的处理,可以有效地提高胃癌数据的预后预测精度。
图4为本发明对单组学与多组学分类比较结果示意图;图5为本发明与传统特征选择算法比较结果示意图。图4、图5均是随着选择特征数的降低,分类准确率变化的图。图4、图5中,Exp&CNV是指两种整合数据简称,F-test是指F-检验又称相关系数法,该方法通过检测特征与标签之间的相关性进行特征选择。MI是指互信息特征选择算法,根据特征与标签之间的互信息大小排序,来选择特征。SVM-RFE是指支持向量机-递归消除方法,该方法使用RFE进行特征选择,SVM进行分类。LR-RFE是指L1正则化-递归消除方法,该方法同样使用RFE进行特征选择,LR用来分类。RDFS是指本次发明使用的方法,即基于随机森林的深度特征选择算法。
从图4中可以发现与单组学相比,多组学数据预测精度明显更高,这说明多组学数据在胃癌预后预测方面高于单组学数据。图5是与没有使用神经网络作为分类器的特征选择算法相比,结果也可明显的看出,使用该发明提出的方法得到的结果明显高于其他方法。综上所述,本次发明提出的方法具有很高的研究性。
实施例3
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例2基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例2基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的步骤。

Claims (8)

1.一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统,其特征在于,包括特征选择单元、分类单元;
所述特征选择单元用于:使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;所述分类单元用于:将选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。
2.根据权利要求1所述的一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统,其特征在于,所述神经网络包括输入层、三层隐含层和输出层,三层隐含层包括第一层隐含层、第二层隐含层、第三层隐含层,节点数依次为128、64、2。
3.权利要求2所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法,其特征在于,包括步骤如下:
(1)所述特征选择单元使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;
(2)所述分类单元将步骤(1)选择出的特征子集导入训练好的神经网络中,获得分类结果,分类结果就是预测该数据为健康的或者患胃癌的概率。
4.根据权利要求3所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法,其特征在于,步骤(1)的具体实现过程包括:
随机森林包括多棵决策树,根据每个特征在每棵决策树中的贡献率多少求出特征重要性,一个特征在所有决策树上的贡献率求平均,得到该特征的特征重要性;贡献率由基尼指数求得,假设有m个特征X1,X2,X3,...,Xj,...Xm,公式如式(Ⅰ)所示:
Figure FDA0003096979170000011
式(Ⅰ)中,GI表示基尼系数,GIa表示节点a的基尼指数,K表示样本类别个数,Pak表示节点a在类别k所占的比例;
求取Xj在节点a中的特征重要性即求取节点a分支后的基尼指数变化量,求取公式如式(Ⅱ)所示:
VIMja=GIa-GIb-GIc (Ⅱ)
式(Ⅱ)中,VIMja表示Xj在节点a中的重要性,GIb和GIc表示节点a在分支后产生的两个新节点b和c的基尼指数;
假设在第i棵树中,特征Xj出现在A个节点上,则特征Xj在第i棵树的重要性之和如式(Ⅲ)所示:
Figure FDA0003096979170000021
式(III)中,VIMij是指在第i棵树上特征Xj的重要性;
假设随机森林中共有n棵树,则特征Xj在所有树上重要性和如式(IV)所示::
Figure FDA0003096979170000022
式(IV)中,
Figure FDA0003096979170000023
是指在n棵树上特征Xj的重要性之和,其中i∈n;
对特征Xj的重要性总和求平均,公式如式(V)所示:
Figure FDA0003096979170000024
式(V)中,VIMj是指特征Xj的特征重要性,
Figure FDA0003096979170000025
是指m个特征在n棵树上所有重要性之和,其中p=1,2,3,…,n;
通过对所有特征的特征重要性从大到小进行排序,选择出特征重要性较高即排序前n个的特征作为特征子集。
5.根据权利要求3所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法,其特征在于,所述隐含层的标准架构如式(VI)所示:
Pr(y|X,θ)=g(ZoutWout+bout),
Zout=σ(ZlWl+bl),
…,
Zk+1=σ(ZkWk+bk),
…,
Z1=σ(XWin+bin) (VI)
式(VI)隐含层所有计算标准;X是指随机森林选出的特征子集,y是指样本标签,θ是指神经网络所有参数,Zout是指输出层,Zk+1是指第k+1层隐含层,Z1是指输入层,k=1,2,3,...,l-1,k是指隐含层神经元个数,Wout与Wk表示特征矩阵权重,bout与bk表示误差值;σ(·)为激活函数,g(·)表示softmax函数,将输出层的值转换为概率预测;Pr(y|X,θ)指的是预测结果即分类结果,Zl指的是第l层隐含层,Wl第l层权重值,bl第l层误差值,Win指的是输入层权重值,bin指的是输出层误差值。
6.根据权利要求3-5任一所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法,其特征在于,神经网络的训练过程如下:
A、获取胃癌组学数据:
下载TCGA,从中获取Exp与CNV,得到胃癌组学数据;
B、对胃癌组学数据进行预处理:
使用R语言分别将Exp与CNV两组胃癌组学数据处理成计算机可识别的两组微阵列数据;
将两组微阵列数据进行数据整合,变成多组学数据;
使用随机森林对多组学数据进行特征选择,选择出特征重要性较高的特征子集;
C、训练神经网络:
将特征子集作为输入层输入到神经网络中,经过第一层隐含层筛选去掉特征子集中特征中存在的噪声后,输入到第二层隐含层再进行一轮去除噪声操作,最后输入到第三层隐含层,通过第三层隐含层操作后将结果传给输出层,进行分类操作,得到分类结果;
设计epoch为100次,batch size的大小为8,设计网络学习率为0.00001;
使用relu函数作为网络的激活函数,并使用Adam作为优化器;
训练结束后得到训练好的神经网络。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求3-6任一所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求3-6任一所述的基于随机森林的深度特征选择算法提高胃癌预后预测精度系统的工作方法的步骤。
CN202110614862.3A 2021-06-02 2021-06-02 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质 Pending CN113362888A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110614862.3A CN113362888A (zh) 2021-06-02 2021-06-02 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110614862.3A CN113362888A (zh) 2021-06-02 2021-06-02 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质

Publications (1)

Publication Number Publication Date
CN113362888A true CN113362888A (zh) 2021-09-07

Family

ID=77531345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110614862.3A Pending CN113362888A (zh) 2021-06-02 2021-06-02 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质

Country Status (1)

Country Link
CN (1) CN113362888A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620894A (zh) * 2022-09-20 2023-01-17 贵州医科大学第二附属医院 基于基因突变的肺癌免疫疗效预测方法、系统及存储介质
CN115691813A (zh) * 2022-12-30 2023-02-03 神州医疗科技股份有限公司 基于基因组学和微生物组学的遗传性胃癌评估方法及系统
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116153396A (zh) * 2023-04-21 2023-05-23 鲁东大学 一种基于迁移学习的非编码变异预测方法
CN116417070A (zh) * 2023-04-17 2023-07-11 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN116862861A (zh) * 2023-07-04 2023-10-10 浙江大学 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统
CN117174313A (zh) * 2023-09-03 2023-12-05 南通市康复医院(南通市第二人民医院) 一种脑出血患者神经功能预后预测模型的建立方法及系统
CN117594243A (zh) * 2023-10-13 2024-02-23 太原理工大学 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190043487A1 (en) * 2017-08-02 2019-02-07 Veritone, Inc. Methods and systems for optimizing engine selection using machine learning modeling
CN110375987A (zh) * 2019-06-24 2019-10-25 昆明理工大学 一种基于深度森林机械轴承故障检测方法
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111524606A (zh) * 2020-04-24 2020-08-11 郑州大学第一附属医院 一种基于随机森林算法的肿瘤数据统计方法
CN111860576A (zh) * 2020-06-05 2020-10-30 温州大学 一种基于随机森林的子宫内膜肿瘤分类标记方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190043487A1 (en) * 2017-08-02 2019-02-07 Veritone, Inc. Methods and systems for optimizing engine selection using machine learning modeling
CN110375987A (zh) * 2019-06-24 2019-10-25 昆明理工大学 一种基于深度森林机械轴承故障检测方法
CN111243751A (zh) * 2020-01-17 2020-06-05 河北工业大学 一种基于双重特征选择和XGBoost算法的心脏病预测方法
CN111524606A (zh) * 2020-04-24 2020-08-11 郑州大学第一附属医院 一种基于随机森林算法的肿瘤数据统计方法
CN111860576A (zh) * 2020-06-05 2020-10-30 温州大学 一种基于随机森林的子宫内膜肿瘤分类标记方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘勇等: "《智能优化算法》", 31 August 2019 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115620894B (zh) * 2022-09-20 2023-05-02 贵州医科大学第二附属医院 基于基因突变的肺癌免疫疗效预测系统、装置及存储介质
CN115620894A (zh) * 2022-09-20 2023-01-17 贵州医科大学第二附属医院 基于基因突变的肺癌免疫疗效预测方法、系统及存储介质
CN115691813A (zh) * 2022-12-30 2023-02-03 神州医疗科技股份有限公司 基于基因组学和微生物组学的遗传性胃癌评估方法及系统
CN116052885B (zh) * 2023-02-07 2024-03-08 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116052885A (zh) * 2023-02-07 2023-05-02 齐鲁工业大学(山东省科学院) 基于改进ReliefF的癌症组学特征选择算法提高预后预测精度系统、方法、设备及介质
CN116417070A (zh) * 2023-04-17 2023-07-11 齐鲁工业大学(山东省科学院) 一种基于梯度提升深度特征选择算法提高胃癌分型预后预测精度的方法
CN116153396A (zh) * 2023-04-21 2023-05-23 鲁东大学 一种基于迁移学习的非编码变异预测方法
CN116680594A (zh) * 2023-05-05 2023-09-01 齐鲁工业大学(山东省科学院) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
CN116862861A (zh) * 2023-07-04 2023-10-10 浙江大学 一种基于多组学的胃癌治疗疗效的预测模型训练、预测方法及系统
CN117174313A (zh) * 2023-09-03 2023-12-05 南通市康复医院(南通市第二人民医院) 一种脑出血患者神经功能预后预测模型的建立方法及系统
CN117174313B (zh) * 2023-09-03 2024-05-10 南通市康复医院(南通市第二人民医院) 一种脑出血患者神经功能预后预测模型的建立方法及系统
CN117594243A (zh) * 2023-10-13 2024-02-23 太原理工大学 基于跨模态视图关联发现网络的卵巢癌预后预测方法
CN117594243B (zh) * 2023-10-13 2024-05-14 太原理工大学 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Similar Documents

Publication Publication Date Title
CN113362888A (zh) 一种基于随机森林的深度特征选择算法提高胃癌预后预测精度系统、方法、设备及介质
AU2021282469B2 (en) Deep learning-based variant classifier
US7653491B2 (en) Computer systems and methods for subdividing a complex disease into component diseases
Huang et al. Gene extraction for cancer diagnosis by support vector machines—an improvement
AU2002228000A1 (en) Expert system for classification and prediction of genetic diseases
CN109637579B (zh) 一种基于张量随机游走的关键蛋白质识别方法
US20190347567A1 (en) Methods for data segmentation and identification
Pashaei et al. Gene selection using hybrid dragonfly black hole algorithm: A case study on RNA-seq COVID-19 data
Montserrat et al. Lai-net: Local-ancestry inference with neural networks
Jiang et al. A generative adversarial network model for disease gene prediction with RNA-seq data
CN114596467A (zh) 基于证据深度学习的多模态影像分类方法
Teixeira et al. Learning influential genes on cancer gene expression data with stacked denoising autoencoders
KR20230110615A (ko) 태아 염색체 이상을 검출하는 방법 및 시스템
Li et al. Hierarchical transformer for survival prediction using multimodality whole slide images and genomics
Morovvat et al. An ensemble of filters and wrappers for microarray data classification
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
CN116343915B (zh) 生物序列集成分类器的构建方法及生物序列预测分类方法
Gao et al. A new method based on matrix completion and non-negative matrix factorization for predicting disease-associated miRNAs
Ram et al. Causal modeling of gene regulatory network
Hilal et al. Feature subset selection with optimal adaptive neuro-fuzzy systems for bioinformatics gene expression classification
CN113192562B (zh) 融合多尺度模块结构信息的致病基因识别方法及系统
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
Al-Maitah RETRACTED ARTICLE: Analyzing genetic diseases using multimedia processing techniques associative decision tree-based learning and Hopfield dynamic neural networks from medical images
Uthayan A novel microarray gene selection and classification using intelligent dynamic grey wolf optimization
Cudic et al. Prediction of sorghum bicolor genotype from in-situ images using autoencoder-identified SNPs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210907