CN106407742B - 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法 - Google Patents

一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法 Download PDF

Info

Publication number
CN106407742B
CN106407742B CN201610738177.0A CN201610738177A CN106407742B CN 106407742 B CN106407742 B CN 106407742B CN 201610738177 A CN201610738177 A CN 201610738177A CN 106407742 B CN106407742 B CN 106407742B
Authority
CN
China
Prior art keywords
protein
data
grid
tumor tissues
normal structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610738177.0A
Other languages
English (en)
Other versions
CN106407742A (zh
Inventor
赵毅
张阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610738177.0A priority Critical patent/CN106407742B/zh
Publication of CN106407742A publication Critical patent/CN106407742A/zh
Application granted granted Critical
Publication of CN106407742B publication Critical patent/CN106407742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供的一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法,将随机森林模型和复杂网络中的节点介数结合在一起,提供一种新的视角分析发现肿瘤致病因子和诊断标记物。通过生物信息学,数学统计分析,建立多层蛋白质网络数据的相关性,从而提出一种更加简便,准确度更高的筛选方法,从而为癌症诊断和药物的发现提供更有价值的参考。

Description

一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法
技术领域
本发明涉及肿瘤标志物技术领域,具体涉及一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法。
背景技术
癌症是严重威胁人类生存和社会发展的重大疾病和严重的公共卫生问题之一,癌症控制已成为世界各国政府的卫生战略重点。近些年,对蛋白质研究越来越多,蛋白质的表达水平与癌症的类型、分期及病人的其它临床数据相关,在癌症生物学的几乎所有方面都扮演角色,如增殖、凋亡、入侵、转移和血管生成。
在选择肿瘤标志物时,仅仅选择一种血清蛋白质作为肿瘤标志物往往特异性较低,若测定多种蛋白质组合或蛋白质表达谱,可提高诊断的准确性。但是目前遇到的问题是癌症的复杂性。尽管系统分子生物学技术极大地提高了发现导致肿瘤恶化的蛋白质表达谱异常的可能性,但产生的海量分子生物学数据很少被系统分析和利用。
尽管现有技术中有研究对癌症大数据和癌症蛋白质数据进行挖掘,找出数据中蕴含的信息,例如,胡跃等利用表面加强激光解吸电离-飞行时间质谱技术及其配套蛋白质芯片对49例乳腺癌患者和33例健康人的血清蛋白质组图谱进行检测,结合人工神经网络软件建立诊断模型并进行验证,表面加强激光解吸电离-飞行时间质谱技术及其配套蛋白质芯片技术具有较高的灵敏度和特异度,可用于乳腺癌早期诊断与肿瘤标志物筛选研究。另外,Wu等人综合比较了线性判别方法、二次判别分析,k近邻,bagging和boosting分类树(装袋和提高分类树),支持向量机和随机森林方法在卵巢癌分类中的应用,随机森林方法优于其他方法(Comparison ofstatistical methods for classification ofovarian cancerusing mass spectrometry data.Baolin Wu,Bioinformatics,2003,19(13):1636–1643.),但是该方法使用比较复杂。另外,人工神经网络需要大量的参数,如网络结构、权值和阈值的初始值。由于不能观察中间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度,并且人工神经网络算法学习时间长,有时甚至可能达不到学习的目的。此外,癌症的 复杂性问题,系统分子生物学技术极大地提高了发现导致肿瘤恶化的蛋白质组异常的可能性,但产生的海量分子生物学数据又很少被系统分析和利用,分析癌症数据也主要集中在临床数据方面。
发明内容
有鉴于此,本发明的目的在于通过对癌症大数据和癌症蛋白质表达谱的数据挖掘,找出数据中蕴含的隐藏信息,提供一种新的视角分析发现肿瘤诊断标记物。
为了实现上述发明目的,本发明提供以下技术方案:
本发明提供了一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法,包括以下步骤:
1)提供肿瘤病人的蛋白质数据,所述蛋白质数据包括肿瘤病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据;
2)将所述步骤1)得到的正常组织的蛋白质数据和肿瘤组织的蛋白质数据分别进行过滤;
3)采用随机森林模型对所述步骤2)中得到同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集,计算最佳子集的蛋白质的最大信息系数MIC;
4)基于所述步骤3)的最佳子集蛋白质的最大信息系数值分别构建正常组织和肿瘤组织的蛋白质网络;
5)计算在正常组织和肿瘤组织的蛋白质网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤蛋白质标志物的种类。
优选的,所述步骤2)中过滤具体为从同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据中挑选相同种类蛋白质。
优选的,所述步骤3)中选择最佳子集后还包括:十折交叉验证对选择的最佳子集的数据进行验证。
优选的,所述十折交叉验证的准确率为90%以上进入计算最佳子集的蛋白质的最大信息系数MIC。
优选的,所述步骤3)中选择最佳子集是采用随机森林模型分类器对蛋白质表达量进行过滤和封装,对正常组织和肿瘤组织的蛋白质表达量进行特征选择。
优选的,所述步骤3)中最佳子集蛋白质的最大信息系数值采用如下计算方法得到:
首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质,然后使用G(k,l)表示;k,l均为正整数;联合随机变量(X,Y)分布在[0,1]×[0,1]中,定义网格G,使得(X,Y)|G=(colG(X),rowG(Y)),所述colG(X)表示网格G的X轴上的网格列数,rowG(Y)表示网格G的Y轴上的网格行数;
其中X,Y表示随机变量,p(x,y)表示联合概率分布,p(x)p(y)表示边际概率分布;
最大信息系数思想:把散点图中的数据用网格进行分区,封存在网格里,计算变量间的MIC值转化成网格的最佳分区;
用M(X,Y)表示(X,Y)的群体特征矩阵如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y),代表的交互信息;n表示数据的数量,s,t分别表示轴和轴分区的数量;
所述的MIC值计算公式为MIC=maxs.t<B(n)M(X,Y)s,t,。
优选的,所述计算节点介数的方法是采用Matlab程序运算。
本发明提供的一种基于多层复杂网络对肿瘤蛋白质标志物的筛选方法,通过构建正常组织和肿瘤组织的蛋白质网络,得到两个网络结构中差异较大的节点介数,从而筛选出肿瘤蛋白质标志物的种类。将随机森林模型和复杂 网络中结点重要性度量—节点介数结合在一起,提供一种新的视角分析发现致病因子或诊断标记物。筛选蛋白质数据库等系统生物组学数据,构建了由多变量组成的癌症分子信息数据结构网络。通过生物信息学,数学统计,建立多层分子网络数据的相关性,从而提供了一种方法更加简便,准确度高的筛选方法,从而为癌症诊断和药物的发现提供有价值的参考。
说明书附图
图1-A为本发明实施例2中肺癌病人正常组织蛋白质表达量的MIC网络;
图1-B为本发明实施例2中肺癌病人肿瘤组织蛋白质表达量MIC网络。
具体实施方式
本发明提供了一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法,包括以下步骤:
1)提供肿瘤病人的蛋白质数据,所述蛋白质数据包括肿瘤病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据;
2)将所述步骤1)得到的正常组织的蛋白质数据和肿瘤组织的蛋白质数据分别进行过滤;
3)采用随机森林模型对所述步骤2)中得到同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集,计算最佳子集的蛋白质的MIC值;
4)基于所述步骤3)的最佳子集蛋白质的MIC值分别构建正常组织和肿瘤组织的蛋白质网络;
5)计算在正常组织和肿瘤组织的蛋白质网络中的同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤蛋白质标志物的种类。
本发明提供的一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法,将随机森林模型和复杂网络中结点重要性度量—节点介数结合在一起,提供一种新的视角分析发现致病因子或诊断标记物。
首先,提供肿瘤病人的蛋白质数据,所述蛋白质数据包括肿瘤病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据。
本发明中,所述肿瘤病人的蛋白质数据的来源为癌症基因信息数据库The CancerGenome Atlas/TCG(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.h tm)。
得到的同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据后,本发明对得到的正常组织的蛋白质数据和肿瘤组织的蛋白质数据分别进行过滤。
本发明中,所述过滤具体优选为从相同病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据中挑选所有相同种类蛋白质。
本发明采用随机森林模型对所述过滤后的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集,计算正常组织的蛋白质数据和肿瘤组织蛋白质数据的最佳子集的蛋白质数据间的MIC值。
本发明中,所述随机森林模型具体优选为采用随机森林模型分类器进行选择。所述选择最佳子集是采用随机森林模型分类器对蛋白质表达量进行过滤和封装,对正常组织和肿瘤组织的蛋白质表达量进行特征选择,以获得一套相同病人的肿瘤组织和正常组织的蛋白质数据。所述过滤和封装具体优选采用R语言caret包中sbf和rfe方法进行特征选择,以降低维度。
本发明中,所述选择最佳子集后优选还包括采用十折交叉对选择的最佳子集的数据进行验证,以检测最佳子集的选择的准确率。所述最佳子集的选择经十折交叉验证准确率≥98.10%时才能进入计算最佳子集的蛋白质的最大信息系数MIC的后续分析。
所述十折交叉的具体方法没有特殊限制,采用本领域技术人员所熟知的十折交叉的技术方法即可。
本发明中,所述计算最佳子集蛋白质的最大信息系数MIC具体是最佳子集中每两个蛋白质之间的MIC值。
本发明中,所述最佳子集蛋白质的MIC值优选采用如下计算方法得到:
首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质,然后使用G(k,l)表示;k,l均为正整数;联合随机变量(X,Y)分布在[0,1]×[0,1]中,定义网格G,使得(X,Y)|G=(colG(X),rowG(Y)),这里的colG(X)表示网格G的X轴上的网格列数,rowG(Y)表示网格G的Y轴上的网格行数;
其中X,Y表示随机变量,p(x,y)表示联合概率分布,p(x)p(y)表示边际概 率分布;
最大信息系数思想:把散点图中的数据用网格进行分区,封存在网格里,计算变量间的MIC值转化成网格的最佳分区;
用M(X,Y)表示(X,Y)的群体特征矩阵如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y)代表的交互信息;n表示数据的数量,s,t分别表示轴和轴分区的数量;
所述的MIC值计算公式为MIC=maxs.t<B(n)M(X,Y)s,t,可知:0≤MIC≤1。对于B(n)=nα中的α=0.6,n表示数据的数量,涉及探索最大上限网格B(n)的划分。B(n)设置太大将导致随机数据的MIC值非零,每个点将落到自身的小空格里;B(n)设置过小将导致MIC只能检测出明显和简单的函数关系。所述B(n)的大小依赖n的大小。MIC-P2:反映非线性关系的程度。其中P为pearson相关系数,由于MIC代表一般性的相关关系,MIC-P2值越大,非线性程度越高。
基于所述正常组织蛋白质的最佳子集的MIC值和肿瘤组织蛋白质的最佳子集的MIC值分别构建正常组织蛋白质网络和肿瘤组织的蛋白质网络。
本发明中,所述构建正常组织蛋白质网络和肿瘤组织的蛋白质网络的具体方法优选为每两个蛋白质之间的MIC作为网络中两个结点边的权重,正常组织的蛋白质网络阈值设为0.45,肿瘤组织的蛋白质网络阈值为0.26,此时两个网络是全连通的。两个网络中最大信息系数分别大于0.45和0.26,两个节点之间才有连边。计算正常组织和肿瘤组织的蛋白质网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤蛋白质标志物的种类。所述发生较大变化的点是根据节点介数数值的大小进行判断。
本发明中,所述计算节点介数的方法优选采用Matlab程序运算。
下面结合实施例对本发明提供的一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法进行详细的说明,但是不能把它们理解为对本发明保护范围的限定。
实施例1
研究数据的来源为癌症基因信息数据库(The Cancer Genome Atlas/TCGA)(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm)。选取浸润性乳腺癌病人蛋白质Experssion-Protein数据水平为3的数据进行下载。其中,蛋白质的数据为285个,来自937个病人。其中在蛋白质表达数据中有45个为乳腺癌病人的正常组织蛋白质数据,其余为乳腺癌病人肿瘤组织蛋白质数据。在正常组织和肿瘤组织的蛋白质数据中,有很多蛋白质不表达或表达率低,去除蛋白质不表达的个体,得到大小为137×45正常组织和乳腺肿瘤组织蛋白质数据,即45个病人中挑选137个不同种类的正常组织蛋白质数据和与正常组织中137个相同种类的肿瘤组织蛋白质数据。
采用随机森林模型对乳腺癌病人正常组织的蛋白质数据和肿瘤组织的蛋白质进行封装和过滤选择筛选择最佳子集。为了选择具有最小基因数量的并保持最高分类准确率的蛋白质子集,采用十折交叉验证进行试验以评估分类器模型,得到蛋白质分类结果如表1所示。对于乳腺癌数据集,当蛋白质子集数量为10时,得到交叉验证准确率为94.76%(表2)。筛选出这10个蛋白质,E.Cadherin、PI3K、Caveolin.、Collagen、GSK3、XBP1、Bax、syk已证实与乳腺癌相关(表3)。
表1乳腺癌病人提取的蛋白质子集
表2采用随机森林分类器所获得的蛋白质10-折交叉验证准确率
表3筛选得到的各种蛋白质在乳腺癌中的作用
实施例2
采用实施例1的方法下载得到肺癌病人蛋白质数据,其中,蛋白质的数据为276个,来自166个病人。同样删除删失数据后,得到137×166肺癌肿瘤组织蛋白质数据,由于肺癌病人缺乏正常组织数据,这里我们选取乳癌病人正常组织数据为对照,即166个病人中挑选131个相同种类的肿瘤组织蛋白质数据和45个病人中131个正常组织蛋白质数据。
采用随机森林模型对肺癌病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据进行封装和过滤选择筛选择最佳子集。为了选择具有最小基因数量的并保持最高分类准确率的蛋白质子集,采用十折交叉验证进行试验以评估分类器模型,得到蛋白质分类结果如表4所示。对于乳腺癌数据集,当蛋白质子集数量为30时,得到交叉验证准确率为98.1%,详细信息见表5。
筛选出这30个蛋白质,计算病人正常组织30个蛋白质之间的MIC值和病人肿瘤组织30个蛋白质之间的MIC值,根据所得到的值构建网络(图1A-B)。每两个蛋白质之间的MIC值作为网络中两个结点边的权重,正常组织网络的阈值为0.45,此时网络全连通。肿瘤组织网络的阈值为0.26,此时 网络全连通。
表4提取的蛋白质子集
表5采用随机森林分类器所获得的蛋白质十折交叉验证准确率
由网络图可知,正常组织和肿瘤组织的蛋白质网络结构存在较大差异,而肺癌关键蛋白质应该在正常组和肿瘤组两个网络结构中发生较大变化,通过比较两个网络结构差异发现乳腺癌的关键蛋白质。节点介数是复杂网络中常用判别节点重要性的一个指标,一个蛋白质在两个网络中,节点介数差别大,说明此蛋白质在正常组织和肿瘤组织间发生了较大变化,也许在癌症发生发展中起重要作用。提取10个节点介数差异较大的蛋白质,ARHI-M-E,Bax-R-V,Bim-R-V,Chk1_pS345-R-C,E-Cadherin-R-V,GSK3-alpha-beta-M-V,Ku80-R-C,mTOR-R-V,Smad1-R-V,CDK1-R-V。查阅文献可知,其中9个与肺癌相关,具体筛选的各蛋白质见表6。
表6肺癌病人筛选得到的蛋白质在肺癌中的作用
由以上实施例可知,本发明提供的一种基于多层复杂网络对肿瘤蛋白质标志物的筛选方法,采用随机森林模型和复杂网络分析方法选取癌症的重要生物分子方法是可靠的,可为癌症的预测、治疗和药物的选择与研发提供有价值的参考。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法,其特征在于,包括以下步骤:
1)提供肿瘤病人的蛋白质数据,所述蛋白质数据包括肿瘤病人正常组织的蛋白质数据和肿瘤组织的蛋白质数据;
2)将所述步骤1)得到的正常组织的蛋白质数据和肿瘤组织的蛋白质数据分别进行过滤;
3)采用随机森林模型对所述步骤2)中得到同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质的表达量选择最佳子集,计算最佳子集的蛋白质的最大信息系数MIC;
4)基于所述步骤3)的最佳子集蛋白质的最大信息系数MIC分别构建正常组织和肿瘤组织的蛋白质网络;
5)计算在正常组织和肿瘤组织的蛋白质网络中同一节点的节点介数,比较并统计正常组织和肿瘤组织的网络中节点介数发生较大变化的点,从而筛选出肿瘤蛋白质标志物的种类。
2.根据权利要求1所述的方法,其特征在于,所述步骤2)中过滤具体为从同一病人的正常组织的蛋白质数据和肿瘤组织的蛋白质数据中挑选相同种类蛋白质。
3.根据权利要求1所述的方法,其特征在于,所述步骤3)中选择最佳子集后还包括:采用十折交叉验证对选择的最佳子集的数据进行验证。
4.根据权利要求3所述的方法,其特征在于,所述十折交叉验证的准确率为90%以上再计算最佳子集的蛋白质的最大信息系数MIC。
5.根据权利要求1所述的方法,其特征在于,所述步骤3)中选择最佳子集是采用随机森林模型分类器对蛋白质表达量进行过滤和封装,对正常组织和肿瘤组织的蛋白质表达量进行特征选择。
6.根据权利要求1所述的方法,其特征在于,所述步骤3)中最佳子集蛋白质的最大信息系数MIC采用如下计算方法得到:
首先定义两个联合随机变量(X,Y)特征矩阵的分布规律的性质,然后使用G(k,l)表示;k,l均为正整数;联合随机变量(X,Y)分布在[0,1]×[0,1]中,定义网格G,使得(X,Y)|G=(colG(X),rowG(Y)),所述colG(X)表示网格G的X轴上的网格列数,rowG(Y)表示网格G的Y轴上的网格行数;
其中X,Y表示随机变量,p(x,y)表示联合概率分布,p(x)p(y)表示边际概率分布;
最大信息系数MIC思想:把散点图中的数据用网格进行分区,封存在网格里,计算变量间的最大信息系数MIC转化成网格的最佳分区;
用M(X,Y)表示(X,Y)的群体特征矩阵如式II所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y),代表的交互信息;n表示数据的数量,s,t分别表示轴和轴分区的数量;
所述的最大信息系数MIC值计算公式为MIC=maxs.t<B(n)M(X,Y)s,t
7.根据权利要求1所述的方法,其特征在于,计算节点介数的方法是采用Matlab程序运算。
CN201610738177.0A 2016-08-26 2016-08-26 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法 Active CN106407742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610738177.0A CN106407742B (zh) 2016-08-26 2016-08-26 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610738177.0A CN106407742B (zh) 2016-08-26 2016-08-26 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法

Publications (2)

Publication Number Publication Date
CN106407742A CN106407742A (zh) 2017-02-15
CN106407742B true CN106407742B (zh) 2018-09-14

Family

ID=58004966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610738177.0A Active CN106407742B (zh) 2016-08-26 2016-08-26 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法

Country Status (1)

Country Link
CN (1) CN106407742B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909781B (zh) * 2017-02-22 2019-12-31 北京航空航天大学 一种用于优化选取脑卒中相关生物标志物的方法
CN111370061A (zh) * 2019-06-20 2020-07-03 深圳思勤医疗科技有限公司 基于蛋白标记物与人工智能的癌症筛查方法
CN115798596B (zh) * 2023-01-18 2023-10-13 安徽省立医院(中国科学技术大学附属第一医院) 一种基于机器学习的肿瘤标志物识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013166373A1 (en) * 2012-05-03 2013-11-07 Zhong Wu Gene expression signature for il-6/stat3 signaling pathway and use thereof
CN104094266A (zh) * 2011-11-07 2014-10-08 独创系统公司 用于识别原因性基因组变体的方法和系统
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN107727865A (zh) * 2016-08-11 2018-02-23 博尔诚(北京)科技有限公司 肿瘤标志物的系统性检测方法及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104094266A (zh) * 2011-11-07 2014-10-08 独创系统公司 用于识别原因性基因组变体的方法和系统
WO2013166373A1 (en) * 2012-05-03 2013-11-07 Zhong Wu Gene expression signature for il-6/stat3 signaling pathway and use thereof
CN104573410A (zh) * 2015-01-20 2015-04-29 合肥工业大学 基于分子子网与随机森林分类器的癌症化疗敏感性预测方法
CN107727865A (zh) * 2016-08-11 2018-02-23 博尔诚(北京)科技有限公司 肿瘤标志物的系统性检测方法及其应用

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
边介数聚类算法在肿瘤基因表达谱中的应用;阮晓钢;《北京工业大学学报》;20080731;第34卷(第7期);第696-700页 *

Also Published As

Publication number Publication date
CN106407742A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
Ganggayah et al. Predicting factors for survival of breast cancer patients using machine learning techniques
Chaure et al. A novel and fully automatic spike-sorting implementation with variable number of features
Sha et al. Multi-field-of-view deep learning model predicts nonsmall cell lung cancer programmed death-ligand 1 status from whole-slide hematoxylin and eosin images
CN109841281B (zh) 基于共表达相似性搭建肺腺癌早期诊断模型
Parise et al. Breast cancer survival defined by the ER/PR/HER2 subtypes and a surrogate classification according to tumor grade and immunohistochemical biomarkers
CN106407742B (zh) 一种基于多层复杂网络筛选肿瘤蛋白质标志物的方法
CN106202984B (zh) 一种基于多层复杂网络对肿瘤miRNA标志物的筛选方法
Exarchos et al. A multiscale and multiparametric approach for modeling the progression of oral cancer
CN109326316A (zh) 一种癌症相关SNP、基因、miRNA和蛋白质相互作用的多层网络模型构建方法和应用
Liu et al. Predicting breast cancer recurrence and metastasis risk by integrating color and texture features of histopathological images and machine learning technologies
CN107885973A (zh) 一种dna修复基因在大肠癌中的临床研究方法
Bratsun et al. Biomechanical modeling of invasive breast carcinoma under a dynamic change in cell phenotype: collective migration of large groups of cells
Wu et al. High cryptic species diversity is revealed by genome-wide polymorphisms in a wild relative of banana, Musa itinerans, and implications for its conservation in subtropical China
McLaughlin et al. Why are there so many species of mining bees (Hymenoptera, Andrenidae)? The possible roles of phenology and Wolbachia incompatibility in maintaining species boundaries in the Andrena proxima‐complex
CN111653355B (zh) 肠癌腹膜转移人工智能预测模型及该模型的构建方法
CN113555112A (zh) 基于影像组学的肝癌肝外转移预测模型、其构建方法及应用
CN111916154B (zh) 一种预测肠癌肝转移的诊断标志物及用途
CN107132268A (zh) 一种用于识别肺癌组织的数据处理装置及系统
CN112768060A (zh) 基于随机生存森林的肝癌术后复发预测方法、存储介质
KR20210001959A (ko) 위암의 다층 다요인 패널과 Computational biological network modeling을 통한 위암 발암에 대한 에티옴 모형
CN107334458A (zh) 一种用于亚裔人群的肺癌检测方法及系统
KR101629773B1 (ko) 약물 펩타이드 후보 선별 장치 및 이를 이용한 약물 펩타이드 후보 선별 방법
Campenni et al. Agent‐based modelling reveals strategies to reduce the fitness and metastatic potential of circulating tumour cell clusters
Hocker et al. Mass profiling of serum to distinguish mice with pancreatic cancer induced by a transgenic Kras mutation
KR101439977B1 (ko) 위암 진단 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant