CN110797083B - 基于多网络的生物标志物识别方法 - Google Patents

基于多网络的生物标志物识别方法 Download PDF

Info

Publication number
CN110797083B
CN110797083B CN201910881269.8A CN201910881269A CN110797083B CN 110797083 B CN110797083 B CN 110797083B CN 201910881269 A CN201910881269 A CN 201910881269A CN 110797083 B CN110797083 B CN 110797083B
Authority
CN
China
Prior art keywords
sample
network
genes
node
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910881269.8A
Other languages
English (en)
Other versions
CN110797083A (zh
Inventor
李幸一
李敏
项炬
王建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910881269.8A priority Critical patent/CN110797083B/zh
Publication of CN110797083A publication Critical patent/CN110797083A/zh
Application granted granted Critical
Publication of CN110797083B publication Critical patent/CN110797083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • Physiology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多网络的生物标志物识别方法;考虑到样本异质性的影响,本发明方法首先对基因表达谱数据进行标准化处理并对样本进行主成分分析,利用前两个主成分对样本通过高斯混合模型聚类;对于每一类样本,构建一个基于多网络的网络传播模型对网络中的所有基因进行排序,用于初步筛选重要基因;为了获得具有最大区分能力、最小冗余的生物标志物,通过接收者操作特征曲线的线下面积(AUC)优化模型在上一步得到的重要特征中进一步对基因打分排序,获得生物标志物。本发明的方法充分利用了多源生物网络信息,可以有效识别具有最大分类能力、最小冗余和生物可解释性的生物标志物,用于异质的复杂疾病分析。

Description

基于多网络的生物标志物识别方法
技术领域
本发明涉及生物信息学领域,特别是一种基于多网络的生物标志物识别方法。
背景技术
复杂疾病异质性强,易受环境因素影响,这给复杂疾病的诊断和治疗带来困难。因此,异质复杂疾病分析已成为现代医学研究的重点之一。生物标志物是客观测量和评价正常生物过程、病理过程或药物干预反应的指标,也是机体受到损伤时的重要预警指标。从多种生物数据中挖掘有效的生物标志物是解决复杂疾病的关键。
随着系统生物学的深入研究和高通量技术的迅速发展,大量的生物相互作用网络被获得,如蛋白质相互作用网络、代谢网络、调控网络、信号网络、蛋白质复合物等。网络信息反映了生命系统各组成元件之间复杂的相互作用。基于生物网络进行复杂疾病分析可以帮助研究人员了解疾病发生的规律并从网络层面揭示特定的疾病发病过程。近年来,网络传播模型已成功地用于识别与特定疾病相关的生物标志物。例如,Sun等人[1]提出一个改进的随机游走的MarkRank算法,用于在蛋白质相互作用网络上挖掘协同合作的网络生物标志物。Winter等人[2]提出一个与佩奇排序相似的NetRank算法从而提高了生物标志物预测的准确性和可再生性。然而,网络传播模型很大程度上取决于网络数据的可靠性和完整性,基于单一生物网络可能由于网络的不完全性导致结果不准确。
另外一些方法将网络传播模型应用于多信息网络。例如,Choi等[3]利用改进的佩奇排序从包含通路、蛋白质相互作用网络、基因共表达网络和基因本体等信息的功能相互作用网络中的异质生物标志物。但是,直接将多种不同生物相互作用信息整合为一个网络,可能存在不同类型的数据相互干扰、无法很好地反映每种类型网络自身的特征和拓扑结构等问题。
基于目前研究的不足,有必要提供一种基于多网络的生物标志物识别方法。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于多网络的生物标志物识别方法,以提高疾病样本分类的准确性。
为解决上述技术问题,本发明所采用的技术方案是:一种基于多网络的生物标志物识别方法,包括以下步骤:
1)对基因表达谱数据的每一个样本进行Z分数标准化,并进行主成分分析,取前两个主成分用于后续分析;
2)根据前两个主成分,对样本通过高斯混合模型聚类;
3)对于每一类,我们构建了一个基于多网络的网络传播模型对网络中的所有基因进行排序,用于初步筛选重要基因;
4)通过AUC优化模型在上一步得到的重要特征中进一步对基因打分排序,获得生物标志物。
通过Z分数对基因表达数据进行标准化的表达式为:
Figure BDA0002205946330000021
x表示每一个样本的基因原始表达值;μ表示每一个样本的所有基因原始表达数据的均值;σ为每一个样本的所有基因原始表达数据的标准差。
步骤1)的具体实现过程包括:
1)求标准化后的基因表达数据中特征的协方差矩阵;
2)求协方差矩阵的特征值及对应的特征向量;
3)将特征值按照从大到小的顺序排序,选择其中最大的两个,然后将其对应的两个特征向量分别作为列向量,组成特征向量矩阵;
4)将样本点投影到选取的特征向量上,设标准化后的基因表达数据是样本数为m,基因数为n的矩阵a,协方差矩阵为n*n维,选取的两个特征向量组成的矩阵为b,那么投影后的数据为:Y=a×b,从而将原始样本的n维特征变成了两维。
步骤2)中,对于每个样本x,高斯混合模型的表达式为:
Figure BDA0002205946330000022
Figure BDA0002205946330000023
其中k表示聚类的个数,
Figure BDA0002205946330000024
表示高斯混合模型中的第k个分量的高斯分布;πk是混合系数。
步骤3)中,首先对节点通过t统计量打分,作为节点的初始状态,表达式为:
Figure BDA0002205946330000025
Figure BDA0002205946330000026
为两类样本的平均数,
Figure BDA0002205946330000027
为两类样本的方差,n1、n2为两类样本的容量。一个网络可以表示为一个邻接矩阵为A的图:G=(V,E),其中,Aij表示节点vi和vj之间存在相互作用边。V={v1,v2,...,vn}为网络中的节点,E={(vi,vj),i,j=1,...,n,Aij≠0}表示网络中的边。对于一个由S个网络构成的多网络,其邻接矩阵可以表示为:
Figure BDA0002205946330000031
其中,I表示n×n的单位矩阵,As表示第s层网络的邻接矩阵,μ可以量化节点在层内或在层间的概率。基于多网络的网络传播模型的表达式为:Ft+1=αW'Ft+(1-α)T,其中,W'为多网络的邻接矩阵经过行标准化后的矩阵,α可以量化初始状态的相对重要性。通过基于多网络的网络传播模型对多网络中的节点打分排序后,每个节点可以得到S个重要性度量值,通过几何平均求得节点的打分值,根据该打分值计算该节点在该簇中的排序值。最后通过计算每个节点在所有样本簇的平均排序值,作为该节点最终的排序值。
步骤4)中,AUC优化模型的表达式可以通过一个线性规划方程来表示:
Figure BDA0002205946330000032
该线性规划方程服从于:
Figure BDA0002205946330000033
其中X1,X2,...,Xp为正样本,Y1,Y2,...,Yq为负样本,每个样本都由一个k维特征向量表示。ξij+、ξij-分别为σT(Xi-Yj)的正、负部分。σ是一个k维向量,表示为:σ={σk,k=1,..,K};θ是一个K维向量,表示这些K个特征被选为标志物的概率;当给出正负样本的中心指标,即
Figure BDA0002205946330000034
Figure BDA0002205946330000035
ω可以表示为:ω=β+-。λ设为0.00001。
与现有技术相比,本发明所具有的有益效果为:本发明为了减小样本异质性的影响,首先对样本的基因表达数据进行标准化和主成分分析,取前两个主成分、用高斯混合模型对样本进行聚类;对于每一类,我们构建了一个基于多网络的网络传播模型对网络中的所有基因进行排序,用于初步筛选重要基因;为了获得具有最大区分能力、最小冗余的生物标志物,我们通过AUC优化模型在上一步得到的重要特征中进一步对基因打分排序,获得生物标志物。本发明的方法可以有效识别具有最大分类能力和生物可解释性的生物标志物,用于异质的复杂疾病分析。
附图说明
图1本发明方法的流程图;
图2为本发明方法和两个生物标志物识别方法:NetRank和MarkRank,以及三个基准方法:带重启的随机游走(RWR),标签传播(LP),主成分分析(PCA)的AUC值在六个数据集的比较图;(1)BRCA(2)NKI(3)GSE3365(4)GSE36807(5)GSE35713(6)GSE9006;
图3为本发明方法和本发明方法基于单网络的比较图。
图4为本发明方法和本发明方法基于融合网络的比较图。
图5为本发明方法和NetRank,MarkRank方法的已知致病基因和差异表达基因富集性分析的比较图。
具体实施方式
一、基因表达数据的预处理
读入基因表达数据文件,通过Z分数对基因表达数据进行标准化:
Figure BDA0002205946330000041
x表示每一个样本的基因原始表达值;μ表示每一个样本的所有基因原始表达数据的均值;σ为每一个样本的所有基因原始表达数据的标准差。
二、基因表达数据的主成分分析
基于标准化后的基因表达数据,通过主成分分析获得基因表达矩阵前两个主成分的具体过程为:
1)求标准化后的基因表达数据中特征的协方差矩阵;
2)求协方差矩阵的特征值及对应的特征向量;
3)将特征值按照从大到小的顺序排序,选择其中最大的两个,然后将其对应的两个特征向量分别作为列向量组成特征向量矩阵。
4)将样本点投影到选取的特征向量上。假设标准化后的基因表达数据是样本数为m,基因数为n的矩阵a(m*n维),协方差矩阵为n*n维,选取的两个特征向量组成的矩阵为b(n*2维),那么投影后的数据为:Y=a×b,从而将原始样本的n维特征变成了两维。
三、高斯混合模型对样本聚类
设有随机变量X,高斯混合模型可以表示为:
Figure BDA0002205946330000051
Figure BDA0002205946330000052
表示混合模型中的第k个分量的高斯分布;πk是混合系数,代表每个簇被选为随机变量所在族的概率。
四、对网络节点打分排序
对于聚类后的每一类样本,通过基于多网络的网络传播模型对网络节点进行打分排序。具体过程为:
1)首先对节点通过t统计量打分,作为节点的初始状态,表达式为:
Figure BDA0002205946330000053
Figure BDA0002205946330000054
为两类样本的平均数,
Figure BDA0002205946330000055
为两类样本的方差,n1、n2为两类样本的容量。
2)一个网络可以表示为一个邻接矩阵为A的图:G=(V,E),其中,Aij表示节点vi和vj之间存在相互作用边。V={v1,v2,...,vn}为网络中的节点,E={(vi,vj),i,j=1,...,n,Aij≠0}表示网络中的边。对于一个由S个网络构成的多网络,其邻接矩阵可以表示为:
Figure BDA0002205946330000061
其中,I表示n×n的单位矩阵,As表示第s层网络的邻接矩阵,μ可以量化节点在层内或在层间的概率。基于多网络的网络传播模型的表达式为:
Ft+1=αW'Ft+(1-α)T          (4)
其中,W'为多网络的邻接矩阵经过行标准化后的矩阵,α可以量化初始状态的相对重要性,α取值为0.7。
3)通过基于多网络的网络传播模型对多网络中的节点打分排序后,每个节点可以得到S个重要性度量值,通过几何平均求得节点的打分值,根据该打分值计算该节点在该簇中的排序值。
4)通过计算每个节点在所有样本簇的平均排序值,作为该节点最终的排序值。取前1%的基因作为初步筛选后的重要基因。
五、AUC优化模型获得生物标志物
根据上一步得到的重要基因,通过AUC优化模型进一步优化获得生物标志物。AUC优化模型的表达式可以通过一个线性规划方程来表示:
Figure BDA0002205946330000062
该线性规划方程服从于:
Figure BDA0002205946330000063
其中X1,X2,...,Xp为正样本,Y1,Y2,...,Yq为负样本,每个样本都由一个k维特征向量表示。ξij+、ξij-分别为σT(Xi-Yj)的正、负部分。σ是一个k维向量,表示为:σ={σk,k=1,..,K};θ是一个K维向量,表示这些K个特征被选为标志物的概率;当给出正负样本的中心指标,即
Figure BDA0002205946330000071
Figure BDA0002205946330000072
ω可以表示为:ω=β+-。λ设为0.00001。
通过AUC优化模型,基因可以根据概率排序,一组具有高概率的基因被选为生物标志物。
为了验证本方法的有效性,我们从疾病诊断、癌症预后、相似疾病分类三个方面对异质性复杂疾病进行了综合分析。我们在六个疾病的真实数据集上进行了测试,其中包含两个包含一型糖尿病患者和正常人样本的数据集,来源于GEO数据库(https://www.ncbi.nlm.nih.gov/geo/),分别为GSE35713和GSE9006;两个来源于GEO数据库的包含局限性肠炎和溃疡性结肠炎这两个相似疾病的数据集,分别为GSE3365和GSE36807;一个来源于TCGA数据库(https://portal.gdc.cancer.gov/projects)的乳腺癌高通量测序(HTS)数据BRCA和一个来源于Van De Vijver等人发表在New England Journal of Medicine上的用于乳腺癌病人生存分析的公开数据集NKI。如果患者存活10年以上,样本被标记为预后良好(对于BRCA,患者存活5年以上标记为预后良好),如果患者生存时间不超过5年,则标记为预后不良。
Menche等人发表在Science上的六种生物相互作用公开数据集:(1)二元相互作用的酵母双杂交数据;(2)文献验证的低通量实验相互作用数据;(3)调控相互作用数据;(4)代谢相互作用数据;(5)蛋白质复合物;(6)信号网络相互作用数据。
为了评价本方法分类的准确性及生物可解释性,进行以下三项分析:
(1)样本分类的准确性
对于每一个数据集,首先通过五折交叉验证将样本分为训练集和测试集,在训练集上,基于本发明方法与NetRank,MarkRank,RWR,LP,PCA中的每一种方法提取到的特征,通过随机森林分类器在测试集上评价方法的准确性;为了获得稳定的分类结果,重复进行100次。采用AUC指标评价分类结果,AUC值的实验结果分别如图2所示。从图2可以看出,我们的方法得到的AUC值除了在GSE35713数据集上略低于MarkRank,其余数据集上均优于其他的方法。由此可见我们提出的方法具有很好的分类能力和稳定性。
(2)基于多网络与基于单一网络和融合网络方法的比较
为了进一步验证多网络的有效性,我们将本发明方法框架应用于每个单一网络,这意味着在网络传播模型中,只基于单一生物网络。结果如图3所示。在所有六个数据集上,任何单一网络的效果都不如多网络,这证明了我们将不同生物学意义的网络组合在一起的有效性。
同时,我们比较了基于多网络和基于融合网络的性能。融合网络依然包含六种类型的生物相互作用。在六个数据集上,基于多网络和基于融合网络的AUC结果如图4所示。结果表明,基于多网络的性能明显优于基于融合网络的性能,这证实了我们的假设,即不同类型的网络直接融合成一个网络可能导致网络信息的丢失,从而影响生物标志物的识别。
(3)预后生物标志物的生物可解释性
为了检验方法获得的生物标志物的生物可解释性,我们分析了获得的生物标志物对于已知致病基因和差异表达基因的富集程度。对于基因表达数据中的每一个基因,采用t检验获得差异表达基因(P值小于0.01)。通过超几何检验被计算已知致病基因和差异表达基因在生物标志物中富集程度的P值:
Figure BDA0002205946330000081
其中,N为所有基因的数量,M为所有基因中的已知致病基因和差异表达基因的数量,n为生物标志物的数量,m为在生物标志物中的已知致病基因和差异表达基因的数量。P值越小,说明已知致病基因和差异表达基因在生物标志物中的富集程度越高。基于六数据集得到的-log10P的结果如图5所示,从图5可以看出,本发明方法的-log10P总体上比其他方法富集程度更高,说明已知致病基因和差异表达基因在本发明方法获得的生物标志物中的显著富集,即具有良好的生物可解释性。

Claims (5)

1.一种基于多网络的生物标志物识别方法,其特征在于,包括以下步骤:
1)对基因表达谱数据的每一个样本进行Z分数标准化,并进行主成分分析,提取前两个主成分;
2)根据前两个主成分,对样本聚类;
3)对于每一类,构建一个基于多网络的网络传播模型,对网络中的所有基因进行排序,初步筛选重要基因;
4)通过AUC优化模型在步骤3)得到的重要基因中进一步对基因打分排序,获得生物标志物;
AUC优化模型通过以下线性规划方程表示:
Figure FDA0004103213770000011
该线性规划方程服从于:
Figure FDA0004103213770000012
其中X1,X2,...,Xp为正样本,p为正样本数,Y1,Y2,...,Yq为负样本,q为负样本数,每个样本都由一个k维特征向量表示;ξij+、ξij-分别为σT(Xi-Yj)的正、负部分;σ是一个k维向量,表示为:σ={σk,k=1,..,K},σk表示σ中第k个元素;θ是一个K维向量,表示这些K个特征被选为标志物的概率;当给出正负样本的中心指标,即
Figure FDA0004103213770000013
Figure FDA0004103213770000014
ω表示为:ω=β+-,λ设为0.00001。
2.根据权利要求1所述的基于多网络的生物标志物识别方法,其特征在于,步骤1)中,对基因表达谱数据的每个样本进行Z分数标准化的表达式为:
Figure FDA0004103213770000015
x为每一个样本的基因原始表达值;μ是每一个样本的所有基因原始表达数据的均值;σ表示每一个样本的所有基因原始表达数据的标准差。
3.根据权利要求1所述的基于多网络的生物标志物识别方法,其特征在于,步骤1)中,提取前两个主成分的具体实现过程包括:
1)对标准化后的基因表达数据求特征的协方差矩阵;
2)获取协方差矩阵的特征值及对应的特征向量;
3)将特征值按照从大到小的顺序排序,选择其中最大的两个,将其对应的两个特征向量分别作为列向量,组成特征向量矩阵;
4)将样本点投影到选取的特征向量上,设标准化后的基因表达数据是样本数为m,基因数为n的矩阵a,协方差矩阵为n*n维,选取的两个特征向量组成的矩阵为b,则投影后的数据为:Y=a×b,从而将原始样本的n维特征降为两维。
4.根据权利要求1所述的基于多网络的生物标志物识别方法,其特征在于,步骤2)中,利用高斯混合模型对样本聚类;对于每个样本x,高斯混合模型的表达式为:
Figure FDA0004103213770000021
其中k表示聚类的个数,
Figure FDA0004103213770000022
表示高斯混合模型中的第k个分量的高斯分布;πk是混合系数。
5.根据权利要求1所述的基于多网络的生物标志物识别方法,其特征在于,步骤3)的实现过程包括:通过基于多网络的网络传播模型对多网络中的节点打分排序后,每个节点得到S个重要性度量值,通过几何平均求得节点的打分值,根据该打分值计算该节点在样本簇中的排序值;通过计算每个节点在所有样本簇的平均排序值,作为该节点最终的排序值。
CN201910881269.8A 2019-09-18 2019-09-18 基于多网络的生物标志物识别方法 Active CN110797083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910881269.8A CN110797083B (zh) 2019-09-18 2019-09-18 基于多网络的生物标志物识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910881269.8A CN110797083B (zh) 2019-09-18 2019-09-18 基于多网络的生物标志物识别方法

Publications (2)

Publication Number Publication Date
CN110797083A CN110797083A (zh) 2020-02-14
CN110797083B true CN110797083B (zh) 2023-04-18

Family

ID=69427268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910881269.8A Active CN110797083B (zh) 2019-09-18 2019-09-18 基于多网络的生物标志物识别方法

Country Status (1)

Country Link
CN (1) CN110797083B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101783A (zh) * 2018-08-14 2018-12-28 温州大学 一种基于概率模型的癌症网络标志物确定方法及系统
CN109872776A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN110010204A (zh) * 2019-04-04 2019-07-12 中南大学 基于融合网络和多打分策略的预后生物标志物识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109101783A (zh) * 2018-08-14 2018-12-28 温州大学 一种基于概率模型的癌症网络标志物确定方法及系统
CN109872776A (zh) * 2019-02-14 2019-06-11 辽宁省肿瘤医院 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN110010204A (zh) * 2019-04-04 2019-07-12 中南大学 基于融合网络和多打分策略的预后生物标志物识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汪云云 等.基于AUC的分类器评价和设计综述.《模式识别和人工智能》.2011,第24卷(第1期),第65-67页. *

Also Published As

Publication number Publication date
CN110797083A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
US7899625B2 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
US20040153249A1 (en) System, software and methods for biomarker identification
CN112633601B (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
Mukhopadhyay Large-scale mode identification and data-driven sciences
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN107480441B (zh) 一种儿童脓毒性休克预后预测的建模方法及系统
CN112927757A (zh) 基于基因表达和dna甲基化数据的胃癌生物标志物识别方法
CN111950645A (zh) 一种通过改进随机森林提高类不平衡分类性能的方法
CN116825186A (zh) 基于生成对抗网络的单细胞数据批次效应校正方法
WO2022011855A1 (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
CN114334012A (zh) 一种基于多组学数据识别癌症亚型的方法
TWI709904B (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN110797083B (zh) 基于多网络的生物标志物识别方法
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
CN116130105A (zh) 一种基于神经网络的健康风险预测方法
KR102225231B1 (ko) 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
Thenmozhi et al. Distribution based fuzzy estimate spectral clustering for Cancer detection with protein sequence and structural motifs
Liu et al. A Clustering Ensemble Method for Cell Type Detection by Multiobjective Particle Optimization
CN115662640A (zh) 一种基于多源生物信息融合的预后标志物识别方法
Cai et al. Application and research progress of machine learning in Bioinformatics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant