CN110010204B - 基于融合网络和多打分策略的预后生物标志物识别方法 - Google Patents

基于融合网络和多打分策略的预后生物标志物识别方法 Download PDF

Info

Publication number
CN110010204B
CN110010204B CN201910270730.6A CN201910270730A CN110010204B CN 110010204 B CN110010204 B CN 110010204B CN 201910270730 A CN201910270730 A CN 201910270730A CN 110010204 B CN110010204 B CN 110010204B
Authority
CN
China
Prior art keywords
scoring
network
sample
prognostic
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910270730.6A
Other languages
English (en)
Other versions
CN110010204A (zh
Inventor
李敏
李幸一
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910270730.6A priority Critical patent/CN110010204B/zh
Publication of CN110010204A publication Critical patent/CN110010204A/zh
Application granted granted Critical
Publication of CN110010204B publication Critical patent/CN110010204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于融合网络和多打分策略的预后生物标志物识别方法,为了减小样本异质性的影响,首先对样本的基因表达数据进行标准化和主成分分析,取前两个主成分、用高斯混合模型对样本进行聚类;对于每一类,融合多种生物网络,并从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分;通过带重启的随机游走算法,获得网络中节点的重要性排序;根据三种打分方式得到的节点重要性排序值综合评估节点的重要性;分别取每一类排序靠前的基因,合并获得预后生物标志物。本发明能有效识别生物可解释性强、与疾病密切相关并在不同预后样本中显著差异表达的生物标志物,用于疾病样本的预后分析。

Description

基于融合网络和多打分策略的预后生物标志物识别方法
技术领域
本发明涉及生物信息学领域,特别是一种基于融合网络和多打分策略的预后生物标志物识别方法。
背景技术
癌症不是由单一因素导致的恶性疾病。相同病理类型和临床分期的癌症病人即使通过相同的治疗,预后也有很大的差异,这说明癌症具有高度的异质性。因此,识别预后生物标志物至关重要,它们不仅可以指导治疗,而且有助于研究癌症的分子机制。
基因不是单独发挥功能,而是相互作用共同维持内部环境的稳定,因此,生物网络中含有大量的生物信息。目前,利用生物网络作为分析手段来识别预后生物标志物的方法有很多,许多方法基于蛋白质相互作用网络、转录调控网络、通路网络等识别患者的预后生物标记物。例如,Cun和
Figure BDA0002018286820000011
[1]基于蛋白质相互作用网络提出了基于支持向量机的特征选择方法stSVM,提取有效的生物标志物作为区分不同标签的样本的特征。但单一网络存在网络信息不完整、假阳性和假阴性等问题,因此基于单个网络识别生物标志物可能不准确。一些生物标志物识别方法虽然结合了多种生物网络信息,例如,Choi等人[2]提出名为CPR的方法,使用改进的PageRank对功能相互作用网络中的基因进行打分和排序,选择排序靠前的基因作为预后生物标志物,但没有从多个生物学角度对含有多种生物信息的网络数据进行分析,这可能导致重要信息被忽略。
同时,基于网络的计算方法通常通过基因在网络中的重要性排序对与疾病样本预后相关的基因进行排序。Winter等人[3]采用与PageRank类似的NetRank算法预测癌症患者的预后效果。然而,这些方法通常受到癌症样本异质性的影响,导致预测效果不佳。
基于目前研究的不足,有必要提供一种基于融合网络和多打分策略的预后生物标志物识别方法。
[1]Cun Y,
Figure BDA0002018286820000012
H.Network and data integration for biomarkersignature discovery via network smoothed t-statistics[J].PloS one,2013,8(9):e73074.
[2]Choi,J.,Park,S.,Yoon,Y.,et al.Improved prediction of breast canceroutcome by identifying heterogeneous biomarkers.Bioinformatics,2017,33(22):3619-3626.
[3]Winter C,Kristiansen G,Kersting S,et al.Google goes cancer:improving outcome prediction for cancer patients by network-based ranking ofmarker genes[J].PLoS computational biology,2012,8(5):e1002511.
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于融合网络和多打分策略的预后生物标志物识别方法,提高不同预后效果的样本的分类准确性。
为解决上述技术问题,本发明所采用的技术方案是:一种基于融合网络和多打分策略的预后生物标志物识别方法,包括以下步骤:
1)对输入的基因表达数据通过Z分数进行标准化及主成分分析,并取前两个主成分;
2)基于所述两个主成分,通过高斯混合模型对样本进行聚类;
3)对于每一类,基于多种生物网络融合后的网络,从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分;
4)通过带重启的随机游走算法,获得网络中节点的重要性排序;根据三种打分方式得到的节点重要性排序值综合评估节点的重要性;分别取每一类排序靠前(如总基因数的前1%)的基因,合并获得预后生物标志物。
通过Z分数对基因表达数据进行标准化的表达式为:
Figure BDA0002018286820000021
x表示每一个样本的基因原始表达值;μ表示每一个样本的所有基因原始表达数据的均值;σ为每一个样本的所有基因原始表达数据的标准差。
步骤1)的具体实现过程包括:
1)求标准化后的基因表达数据中特征的协方差矩阵;
2)求协方差矩阵的特征值及对应的特征向量;
3)将特征值按照从大到小的顺序排序,选择其中最大的两个,然后将其对应的两个特征向量分别作为列向量,组成特征向量矩阵;
4)将样本点投影到选取的特征向量上,设标准化后的基因表达数据是样本数为m,基因数为n的矩阵a,协方差矩阵为n*n维,选取的两个特征向量组成的矩阵为b,那么投影后的数据为:Y=a×b,从而将原始样本的n维特征变成了两维。
步骤2)中,对于每个样本x,高斯混合模型的表达式为:
Figure BDA0002018286820000031
Figure BDA0002018286820000032
其中k表示聚类的个数,
Figure BDA0002018286820000033
表示高斯混合模型中的第k个分量的高斯分布;πk是混合系数。
步骤3)中,对于节点i,其生物功能打分的表达式为:
Figure BDA0002018286820000034
frequency(i)表示节点i包含的基因本体GO项的数目,N表示所有GO项的数目。
步骤3)中,节点的预后能力打分通过节点在不同预后样本中表达值的t统计量获得,表达式为:
Figure BDA0002018286820000035
Figure BDA0002018286820000036
为两类样本的平均数,
Figure BDA0002018286820000037
Figure BDA0002018286820000038
为两类样本的方差,n1、n2为两类样本的容量。
利用下式综合评估节点的重要性:
Figure BDA0002018286820000039
其中m=1,2,3表示三种打分策略,即生物功能、预后能力、与已知致病基因相关程度;scorem(i)为节点i在第m种打分策略下通过带重启的随机游走算法获得的重要性分值。
与现有技术相比,本发明所具有的有益效果为:本发明为了减小样本异质性的影响,首先对样本的基因表达数据进行标准化和主成分分析,取前两个主成分、用高斯混合模型对样本进行聚类;对于每一类,融合多种生物网络,并从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分;通过带重启的随机游走算法,获得网络中节点的重要性排序;根据三种打分方式得到的节点重要性排序值综合评估节点的重要性;分别取每一类排序靠前的基因,合并获得预后生物标志物。本发明能有效识别生物可解释性强、与疾病密切相关并在不同预后样本中显著差异表达的生物标志物,用于疾病样本的预后分析;本发明的方法融合了多种生物信息,可以减小单一数据不完整和噪音影响,并且可以更全面的评估基因的重要程度,有效提高了不同预后效果的样本的分类准确性。
附图说明
图1本发明方法的流程图;
图2为对融合网络中的节点进行排序的具体步骤;
图3为本发明方法在六个数据集上基于基因表达数据前两个主成分的样本聚类分布图;(1)GSE1456;(2)GSE2034;(3)GSE3494;(4)GSE4922;(5)BRCA;(6)NKI;
图4为本发明方法和CPR,NetRank,stSVM方法基于ROC曲线和AUC值评价的比较图;(1)GSE1456(2)GSE2034(3)GSE3494(4)GSE4922(5)BRCA(6)NKI;
图5为本发明方法和CPR,NetRank,stSVM方法的已知致病基因和差异表达基因富集性分析的比较图。
具体实施方式
一、基因表达数据的预处理
读入基因表达数据文件,通过Z分数对基因表达数据进行标准化:
Figure BDA0002018286820000041
x表示每一个样本的基因原始表达值;μ表示每一个样本的所有基因原始表达数据的均值;σ为每一个样本的所有基因原始表达数据的标准差。
二、基因表达数据的主成分分析
基于标准化后的基因表达数据,通过主成分分析获得基因表达矩阵前两个主成分的具体过程为:
1)求标准化后的基因表达数据中特征的协方差矩阵;
2)求协方差矩阵的特征值及对应的特征向量;
3)将特征值按照从大到小的顺序排序,选择其中最大的两个,然后将其对应的两个特征向量分别作为列向量组成特征向量矩阵。
4)将样本点投影到选取的特征向量上。假设标准化后的基因表达数据是样本数为m,基因数为n的矩阵a(m*n维),协方差矩阵为n*n维,选取的两个特征向量组成的矩阵为b(n*2维),那么投影后的数据为:Y=a×b,从而将原始样本的n维特征变成了两维。
三、高斯混合模型对样本聚类
设有随机变量X,高斯混合模型可以表示为:
Figure BDA0002018286820000051
Figure BDA0002018286820000052
表示混合模型中的第k个分量的高斯分布;πk是混合系数。
四、对网络节点打分
对于聚类后的每一类样本,基于融合网络,从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分。
1)从数据库中得到的已知致病基因与疾病的相关性分数作为网络中节点的打分值,不在已知致病基因列表中的基因权重为零;
2)对于节点i,其生物功能打分的表达式为:
Figure BDA0002018286820000053
frequency(i)表示节点i包含的基因本体(GO)项的数目,N表示所有GO项的数目;
3)节点的预后能力打分通过节点在不同预后样本中表达值的t统计量获得,表达式为:
Figure BDA0002018286820000054
Figure BDA0002018286820000055
为两类样本的平均数,
Figure BDA0002018286820000056
为两类样本的方差,n1、n2为两类样本的容量。
五、带重启的随机游走评估基因重要性
基于每一种打分策略,通过带重启的随机游走获得节点的重要性排序值,带重启的随机游走可以表示为:
Pt+1=(1-α)WT Pt+αP0 (5)
其中W表示融合网络的邻接矩阵;P0表示节点的初始概率,即节点的权重值;Pt表示在时间步长t时指向节点的概率;定义Pt+1<10-6且重启概率α等于0.6。
五、获得预后标志物
获得每种打分策略下的节点重要性排序值后,综合评价节点的重要性排序:
Figure BDA0002018286820000061
其中m=1,2,3表示三种打分策略,即生物功能、预后能力、与已知致病基因相关程度;scorem(i)为节点i在第m种打分策略下通过带重启的随机游走获得的重要性分值。
最后通过取每一类排序靠前的节点,合并获得预后生物标志物,本发明方法取所有基因数1%的个数的生物标志物。
六、实验验证
为了验证本方法的有效性,我们在六个乳腺癌的真实数据集上进行了测试。其中包含四个来源于GEO数据库(https://www.ncbi.nlm.nih.gov/geo/),分别为GSE1456、GSE2034、GSE3494、GSE4922,一个来源于TCGA数据库(https://portal.gdc.cancer.gov/projects)的乳腺癌高通量测序(HTS)数据和一个来源于Van De Vijver等人发表在NewEngland Journal of Medicine上的用于乳腺癌病人生存分析的公开数据集NKI。如果患者存活10年以上,样本被标记为预后良好(对于GSE1456,患者存活5年以上标记为预后良好),如果患者生存时间不超过5年,则标记为预后不良。共包含511个预后良好的乳腺癌样本和360个预后不良的乳腺癌样本。由七种生物网络融合得到的网络来源于Menche等人发表在Science上的公开数据集。
为了评价本方法分类的准确性及生物可解释性,进行以下两项分析:
(1)预后样本分类的准确性
对于每一个乳腺癌数据集,基于本发明方法与NetRank,stSVM,CPR中的每一种方法提取到的特征,通过随机森林分类器及五折交叉验证方法评价方法的准确性;为了获得稳定的分类结果,重复进行100次五折交叉验证,基于所有的分类结果计算真阳性率(TPR)和假阳性率(FPR),绘制ROC曲线。采用ROC和AUC指标评价分类结果,AUC值是ROC曲线的线下面积,ROC和AUC值的实验结果分别如图4所示。从图4可以看出,我们的方法在不同数据集下,ROC曲线和AUC值均优于其他的方法。由此可见我们提出的方法具有很好的预后能力和稳定性。
(2)预后生物标志物的生物可解释性
为了检验方法获得的生物标志物的生物可解释性,我们分析了获得的生物标志物对于已知致病基因和差异表达基因的富集程度。对于基因表达数据中的每一个基因,采用t检验获得差异表达基因(P值小于0.01)。通过超几何检验被计算已知致病基因和差异表达基因在生物标志物中富集程度的P值:
Figure BDA0002018286820000071
其中,N为所有基因的数量,M为所有基因中的已知致病基因和差异表达基因的数量,n为生物标志物的数量,m为在生物标志物中的已知致病基因和差异表达基因的数量。P值越小,说明已知致病基因和差异表达基因在生物标志物中的富集程度越高。基于六数据集得到的-log10P的结果如图5所示,从图5可以看出,本发明方法的-log10P总体上比其他方法富集程度更高,且均大于2,即P值小于0.01,说明已知致病基因和差异表达基因在本发明方法获得的生物标志物中的显著富集,即具有良好的生物可解释性。

Claims (7)

1.一种基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,包括以下步骤:
1)对输入的基因表达数据通过Z分数进行标准化及主成分分析,并取前两个主成分;
2)基于所述两个主成分,通过高斯混合模型对样本进行聚类;
3)对于每一类,基于多种生物网络融合后的网络,从生物功能、预后能力、与已知致病基因相关程度三个角度对网络节点进行打分;
4)通过带重启的随机游走算法,获得网络中节点的重要性排序;根据三种打分方式得到的节点重要性排序值综合评估节点的重要性;分别取每一类排序靠前的基因,合并获得预后生物标志物。
2.根据权利要求1所述的基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,通过Z分数对基因表达数据进行标准化的表达式为:
Figure FDA0002018286810000011
x表示每一个样本的基因原始表达值;μ表示每一个样本的所有基因原始表达数据的均值;σ为每一个样本的所有基因原始表达数据的标准差。
3.根据权利要求1所述的基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,步骤1)的具体实现过程包括:
1)求标准化后的基因表达数据中特征的协方差矩阵;
2)求协方差矩阵的特征值及对应的特征向量;
3)将特征值按照从大到小的顺序排序,选择其中最大的两个,然后将其对应的两个特征向量分别作为列向量,组成特征向量矩阵;
4)将样本点投影到选取的特征向量上,设标准化后的基因表达数据是样本数为m,基因数为n的矩阵a,协方差矩阵为n*n维,选取的两个特征向量组成的矩阵为b,那么投影后的数据为:Y=a×b,从而将原始样本的n维特征变成了两维。
4.根据权利要求1所述的基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,步骤2)中,对于每个样本x,高斯混合模型的表达式为:
Figure FDA0002018286810000012
其中k表示聚类的个数,
Figure FDA0002018286810000021
表示高斯混合模型中的第k个分量的高斯分布;πk是混合系数。
5.根据权利要求1所述的基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,步骤3)中,对于节点i,其生物功能打分的表达式为:
Figure FDA0002018286810000022
frequency(i)表示节点i包含的基因本体GO项的数目,N表示所有GO项的数目。
6.根据权利要求1所述的基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,步骤3)中,节点的预后能力打分通过节点在不同预后样本中表达值的t统计量获得,表达式为:
Figure FDA0002018286810000023
Figure FDA0002018286810000024
为两类样本的平均数,
Figure FDA0002018286810000025
为两类样本的方差,n1、n2为两类样本的容量。
7.根据权利要求1所述的基于融合网络和多打分策略的预后生物标志物识别方法,其特征在于,利用下式综合评估节点的重要性:
Figure FDA0002018286810000026
其中m=1,2,3表示三种打分策略,即生物功能、预后能力、与已知致病基因相关程度;scorem(i)为节点i在第m种打分策略下通过带重启的随机游走算法获得的重要性分值。
CN201910270730.6A 2019-04-04 2019-04-04 基于融合网络和多打分策略的预后生物标志物识别方法 Active CN110010204B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910270730.6A CN110010204B (zh) 2019-04-04 2019-04-04 基于融合网络和多打分策略的预后生物标志物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910270730.6A CN110010204B (zh) 2019-04-04 2019-04-04 基于融合网络和多打分策略的预后生物标志物识别方法

Publications (2)

Publication Number Publication Date
CN110010204A CN110010204A (zh) 2019-07-12
CN110010204B true CN110010204B (zh) 2022-12-02

Family

ID=67169951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910270730.6A Active CN110010204B (zh) 2019-04-04 2019-04-04 基于融合网络和多打分策略的预后生物标志物识别方法

Country Status (1)

Country Link
CN (1) CN110010204B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797083B (zh) * 2019-09-18 2023-04-18 中南大学 基于多网络的生物标志物识别方法
CN110675917B (zh) * 2019-10-14 2020-11-13 哈尔滨工业大学 一种个体癌症样本的生物标记物识别方法
CN110890130B (zh) * 2019-12-03 2022-09-20 大连理工大学 基于多类型关系的生物网络模块标志物识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN109101783A (zh) * 2018-08-14 2018-12-28 温州大学 一种基于概率模型的癌症网络标志物确定方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180166170A1 (en) * 2016-12-12 2018-06-14 Konstantinos Theofilatos Generalized computational framework and system for integrative prediction of biomarkers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN109101783A (zh) * 2018-08-14 2018-12-28 温州大学 一种基于概率模型的癌症网络标志物确定方法及系统

Also Published As

Publication number Publication date
CN110010204A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
Bolón-Canedo et al. A review of microarray datasets and applied feature selection methods
US10713590B2 (en) Bagged filtering method for selection and deselection of features for classification
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
Drab et al. Clustering in analytical chemistry
US20070009160A1 (en) Apparatus and method for removing non-discriminatory indices of an indexed dataset
Jeffries Performance of a genetic algorithm for mass spectrometry proteomics
CN112927757A (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
Datta et al. Feature selection and machine learning with mass spectrometry data for distinguishing cancer and non-cancer samples
Huang et al. Spectral clustering strategies for heterogeneous disease expression data
CN111309577B (zh) 一种面向Spark的批处理应用执行时间预测模型构建方法
Dutkowski et al. On consensus biomarker selection
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN116259415A (zh) 一种基于机器学习的患者服药依从性预测方法
CN106951728B (zh) 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
TW202121223A (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
ShahrjooiHaghighi et al. Ensemble feature selection for biomarker discovery in mass spectrometry-based metabolomics
CN114973245A (zh) 基于机器学习的细胞外囊泡分类方法、装置、设备及介质
CN110797083B (zh) 基于多网络的生物标志物识别方法
Leung et al. Gene selection for brain cancer classification
Brasier et al. Analysis and predictive modeling of asthma phenotypes
Lualdi et al. Features Selection and Extraction in Statistical Analysis of Proteomics Datasets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant