CN108664762A - 利用关于基因组模型的数据集成的途径识别算法(paradigm) - Google Patents

利用关于基因组模型的数据集成的途径识别算法(paradigm) Download PDF

Info

Publication number
CN108664762A
CN108664762A CN201810729146.8A CN201810729146A CN108664762A CN 108664762 A CN108664762 A CN 108664762A CN 201810729146 A CN201810729146 A CN 201810729146A CN 108664762 A CN108664762 A CN 108664762A
Authority
CN
China
Prior art keywords
approach
gene
network
disease
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810729146.8A
Other languages
English (en)
Inventor
C·J·瓦斯科
S·C·本茨
J·M·斯图尔特
D·豪斯勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of CN108664762A publication Critical patent/CN108664762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/30ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to physical therapies or activities, e.g. physiotherapy, acupressure or exercising
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/40ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mechanical, radiation or invasive therapies, e.g. surgery, laser therapy, dialysis or acupuncture
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/60ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to nutrition control, e.g. diets
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明的题目是利用关于基因组模型的数据集成的途径识别算法(PARADIGM)。根据测量的患者数据和基于途径元素的属性的概率途径模型构建患者样品特异的动态途径图,其中途径元素的一些属性是先验已知的,其中途径元素的其他属性是假定的,并且其中途径元素交叉关联并且指定至少一个途径的影响水平。优选的动态途径图就选择的参考途径活性提供测量的患者数据的背景。

Description

利用关于基因组模型的数据集成的途径识别算法(PARADIGM)
本申请是申请日为2011年10月31日、申请号为201180075918.7(PCT/US2011/001844)、题为“利用关于基因组模型的数据集成的途径识别算法(PARADIGM)”的专利申请的分案申请。
与其它申请的关系
本申请涉及并要求2011年10月26日提交的美国非临时专利申请序列号13/317,769、题目为“利用关于基因组模型的数据集成的途径识别算法(PARADIGM)”的优先权,其通过引用以其整体被并入本文。
本发明部分利用以下美国联邦机构的基金进行:美国国家科学基金会杰出青年教授奖(NSF CAREER award)0845783、美国国家癌症研究所的合同/授权号码5R21CA135937-02和1U24CA143858-01以及国立卫生培训研究院(National Institute of HealthTraining)授权号码T32GM070386-01。美国联邦政府对本发明具有一定的权利。
技术领域
本发明涉及鉴定个体或对象中生物学途径的成分并确定所述个体或对象是否是临床方案或治疗的候选者的方法。本发明还涉及利用该方法诊断对象是否容易患有癌症、自身免疫疾病、细胞周期病症或其它病症。
背景技术
现代癌症治疗的中心前提是患者诊断、预后、风险评估和治疗反应预测可以根据肿瘤的基因组、转录和外因基因组特征和在诊断时搜集的相关临床信息(例如,患者病史、肿瘤组织学和阶段)以及随后的临床随访数据(例如,治疗方案和疾病复发事件)对癌症分层而被提高。
虽然可以用若干高通量技术来探查癌症的分子详细情况,但根据该PARADIGM仅实现了少数成功。例如,表现为ERBB2生长因子受体酪氨酸
激酶的特定扩增或过表达的25%的乳腺癌患者现在可以用曲妥珠单抗(trastuzumab)治疗,所述曲妥珠单抗是靶向受体的一种单克隆抗体(Vogel C,CobleighMA,Tripathy D,Gutheil JC,Harris LN,Fehrenbacher L,Slamon DJ,Murphy M,NovotnyWF,Burchmore M,Shak S,Stewart SJ.First-line,single-agent Herceptin(R)(trastuzumab)in metastatic breast cancer.A preliminary report.Eur.J.Cancer2001 Jan.;37 Suppl 1:25-29)。
然而,即使该成功的情况被患有ERBB2-阳性乳腺癌的50%以下的患者实际上实现曲妥珠单抗的任何治疗益处的事实所遮盖,但是突出了我们对该充分研究的癌途径以及ERBB2-阳性乳腺癌固有的许多治疗抵抗机制的不完全理解(Park JW,Neve RM,SzollosiJ,Benz CC.Unraveling the biologic and clinical complexities ofHER2.Clin.Breast Cancer 2008 Oct.;8(5):392-401)。
这种完全不能将现代进步转到基础癌症生物学中部分归于我们不能全面认识和集成现在针对实际上任何类型的癌症在技术上可获得的所有数据组学(omic)特征。尽管有充分的证据表明组织学上类似的癌症事实上是许多分子亚型的复合物(composite),每一亚型具有明显不同的临床表现,但因为缺乏与预后和治疗选项充分相关的有力特征该知识很少应用于实践中。
癌症是基因组疾病,其与导致细胞系统失调的异常变化有关。现在还不清楚的是:基因组变化如何进入到构成癌症表型基础的遗传途径中。高通量功能基因组学研究在过去十年中已经取得巨大的进步(Alizadeh AA,Eisen MB,Davis RE,Ma C,Lossos IS,Rosenwald A,Boldrick JC,Sabet H,Tran T,Yu X,Powell JI,Yang L,Marti GE,MooreT,Hudson J,Lu L,Lewis DB,Tibshirani R,SHERLOCK G,Chan WC,Greiner TC,Weisenburger DD,Armitage JO,Warnke R,Levy R,Wilson W,Grever MR,Byrd JC,Botstein D,Brown PO,Staudt LM.Distinct types of diffuse large B-cell lymphomaidentified by gene expression profiling.Nature 2000 Feb.;403(6769):503-511.;Golub TR,Slonim DK,Tamayo P,Huard C,Gaasenbeek M,Mesirov JP,Coller H,Loh ML,Downing JR,Caligiuri MA,Bloomfield CD,Lander ES.Molecular classification ofcancer:class discovery and class prediction by gene expressionmonitoring.Science 1999 Oct.;286(5439):531-537.;van de Vijver MJ,He YD,van tVeer LJ,Dai H,Hart AAM,Voskuil DW,Schreiber GJ,Peterse JL,Roberts C,MartonMJ,Parrish M,Atsma D,Witteveen A,Glas A,Delahaye L,van der Velde T,BartelinkH,Rodenhuis S,Rutgers ET,Friend SH,Bernards R.A Gene-Expression Signature asa Predictor of Survival in Breast Cancer.N Engl J Med 2002 Dec.;347(25):1999-2009)。
然而,集成多个数据源来鉴定肿瘤发生和发展的可再生和可解释分子特征的挑战仍然令人困惑。最近,由TCGA和其它人进行的实验性研究弄清楚了需要对基因组干扰的途径水平理解来理解在癌细胞中观察到的变化。这些发现表明,即使在患者具有基因组变化或不同基因的异常表达时,这些基因仍常常参与共同的途径。另外,甚至更引人注目的是,观察到的变化(例如,缺失对比扩增)常常以相同方向改变途径输出——或者都提高或者都降低途径激活。(参见,Parsons DW,Jones S,Zhang X,Lin JCH,Leary RJ,Angenendt P,Mankoo P,Carter H,Siu I,Gallia GL,Olivi A,McLendon R,Rasheed BA,Keir S,Nikolskaya T,Nikolsky Y,Busam DA,Tekleab H,Diaz LA,Hartigan J,Smith DR,Strausberg RL,Marie SKN,Shinjo SMO,Yan H,Riggins GJ,Bigner DD,Karchin R,Papadopoulos N,Parmigiani G,Vogelstein B,Velculescu VE,Kinzler KW.AnIntegrated Genomic Analysis of Human Glioblastoma Multiforme.Science 2008Sep.;321(5897):1807-1812.;Cancer Genome Atlas Research Networks.ComprehensiveGenomic characterization defines human glioblastoma genes and corepathways.Nature 2008 Oct.;455(7216):1061-1068)。
用于解释全基因组癌症数据的方法着重于鉴定与特定表型或疾病状态高度相关的基因表达概况,并已经产生有希望的结果。已经提议利用方差分析、错误发现(false-discovery)的方法和非参数方法(参见Troyanskaya等,2002)。Allison DB,Cui X,PageGP,Sabripour M.Microarray data analysis:from disarray to consolidation andconsensus.Nat.Rev.Genet.2006 Jan.;7(l):55-65.;Dudoit S,Fridlyand J.Aprediction-based resampling method for estimating the number of clusters in adataset.Genome Biol 2002 Jun.;3(7):RESEARCH0036-RESEARCH0036.21.;Tusher VG,Tibshirani R,Chu G.Significance analysis of microarrays applied to theionizing radiation response.Proc.Natl.Acad.Sci.U.S.A.2001 Apr.;98(9):5116-5121;Kerr MX,Martin M,Churchill GA.Analysis of variance for gene expressionmicroarray data.J.Comput.Biol.2000;7(6):819-837;Storey JD,TibshiraniR.Statistical significance for genomewidestudies.Proc.Natl.Acad.Sci.U.S.A.2003 Aug.;100(16):9440-9445;和TroyanskayaOG,Garber ME,Brown PO,Botstein D,Altman RB.Nonparametric methods foridentifying differentially expressed genes in microarray data.Bioinformatics2002 Nov.;18(l l):1454-1461)。
若干途径-水平方法根据基因集(geneset)的过分表现(overrepresentation)使用统计学检验来检测途径是否在疾病状况中被扰乱。在这些方法中,基因根据,例如通过差异表达或拷贝数变化检测到的其分化活性的程度被排序。然后指定概率分数,其反映途径的基因排序接近如在基因集富集分析(GSEA)中使用的分类列表末端的程度(SubramanianA,Tamayo P,Mootha VK,Mukherjee S,Ebert BL,Gillette MA,Paulovich A,Pomeroy SL,Golub TR,Lander ES,Mesirov JP.Gene set enrichment analysis:a knowledge-basedapproach for interpreting genome-wide expressionprofiles.Proc.Natl.Acad.Sci.U.S.A.2005 Oct.;102(43):15545-15550)。其它方法包括使用基于超几何检验的方法来鉴定基因本体论(Ashburner M,Ball CA,Blake JA,Botstein D,Butler H,Cherry JM,Davis AP,Dolinski K,Dwight SS,Eppig JT,HarrisMA,Hill DP,Issel-Tarver L,Kasarskis A,Lewis S,Matese JC,Richardson JE,Ringwald M,Rubin GM,SHERLOCK G.Gene ontology:tool for the unification ofbiology.The Gene Ontology Consortium.Nat Genet 2000 May;25(l):25-29.)或MIPS哺乳动物蛋白质-蛋白质相互作用(Pagel P,Kovac S,Oesterheld M,Brauner B,Dunger-Kaltenbach I,Frishman G,Montrone C,Mark P,Stiimpflen V,Mewes H,Ruepp A,Frishman D.The MIPS mammalian protein-protein interactiondatabase.Bioinformatics 2005 Mar.;21(6):832-834.)差别表达的基因中富集的种类(Tamayo P,Slonim D,Mesirov J,Zhu Q,Kitareewan S,Dmitrovsky E,Lander ES,GolubTR.Interpreting patterns of gene expression with self-organizing maps:methodsand application to hematopoieticdifferentiation.Proc.Natl.Acad.Sci.U.S.A.1999 Mar.;96(6):2907-2912.)。
过分表现分析受其效力限制,因为它们并不结合可增加途径相关性检测信号的、途径中已知的基因之间的相互依赖性。另外,它们将所有基因变化都视为相等,这被预期对于许多生物系统是没有效的。
更复杂的问题是这样的事实,即,许多基因(例如,微小RNA)是多效的,以不同的角色在若干途径中发挥作用(Maddika S,Ande SR,Panigrahi S,Paranjothy T,WeglarczykK,Zuse A,Eshraghi M,Manda KD,Wiechec E,Los M.Cell survival,cell death andcell cycle pathways are interconnected:implications for cancer therapy.DrugResist.Updat.2007 Jan.;10(l-2):13-29)。由于这些因素,过分表现分析常常错过功能-相关途径,而该途径的基因具有临界差别活性。当在小途径中只有单个基因被高度改变时,它们也可以产生许多假阳性。我们关于基因及其表型结果之间详细的相互作用的总体知识正在迅速增长。
虽然知识传统地分散在文献中,而且难以系统地选取,但是新的尝试正在将途径知识编目成公众可得的数据库。包括途径拓扑的一些数据库是Reactome(Joshi-Tope G,Gillespie M,Vastrik I,D'Eustachio P,Schmidt E,de Bono B,Jassal B,Gopinath GR,Wu GR,Matthews L,Lewis S,Birney E,Stein L.Reactome:a knowledgebase ofbiological pathways.Nucleic Acids Res.2005 Jan.;33(Database issue):D428-32;Ogata H,Goto S,Sato K,Fujibuchi W,Bono H,Kanehisa M.KEGG:Kyoto Encyclopediaof Genes and Genomes.Nucleic Acids Res.1999 Jan.;27(1):29-34.))和NCI通路相互作用数据库(Pathway Interaction Database)。期望对这些数据库的更新通过明确地解码基因如何彼此调节和交流来提高我们对生物系统的理解。中心的假设是这些途径的相互作用拓扑可以被采用,用于解释高通量数据集的目的。
直到近来,只有少数计算方法可用于结合途径知识来解释高通量数据集。然而,已经提议若干更加新的方法,其结合途径拓扑(Efroni S,Schaefer CF,BuetowKH.Identification of key processes underlying cancer phenotypes usingbiologic pathway analysis.PLoS ONE 2007;2(5):e425.)。一种方法,称为信号传导途径影响分析(Signaling Pathway Impact Analysis)(SPIA),利用类似于Google的网页级别(PageRank)的方法来测定基因在途径中的影响(Tarca AL,Draghici S,Khatri P,HassanSS,Mittal P,Kim J,Kim CJ,Kusanovic JP,Romero R.A novel signaling pathwayimpact analysis.Bioinformatics 2009 Jan.;25(1):75-82.)。在SPIA中,更多的影响施加在与许多其它基因连接的基因上。SPIA被成功地应用到不同的癌症数据集(肺腺癌和乳腺癌),并显示对于鉴定已知参与这些癌症的途径比过分表现分析和基因集富集分析更好。虽然SPIA代表在利用途径拓扑解释癌症数据集中向前迈了一大步,但它限于仅使用单一类型的全基因组数据。
需要新的计算方法来联系多重基因组变化诸如拷贝数、DNA甲基化、体细胞突变、mRNA表达和微小RNA表达。期望集成的途径分析提高对大集合观察结果的因果解释的精确性和灵敏性,因为单一数据源本身不可能提供全貌。
在过去若干年中,已经开发了概率图模型(PGMs)中的方法,用于获知与多重观察水平一致的因果关系网络。可以利用有效的算法来从数据中自动获知途径(Friedman N,Goldszmidt M.(1997)Sequential Update of Bayesian Network Structure.In:Proceedings of the Thirteenth Conference on Uncertainty in ArtificialIntelligence(UAI'97),Morgan Kaufmann Publishers,pp.165-174;Murphy K,WeissY.Loopy belief propagation for approximate inference:An empirical study.In:Proceedings of Uncertainty in AI.1999),并且所述算法非常适于遗传网络推理中的问题(Friedman N.Inferring cellular networks using probabilistic graphicalmodels.Science 2004 Feb.;303(5659):799-805.)。作为实例,图形模型已被用于鉴定在癌症生物学中形成‘模数’的基因集(Segal E,Friedman N,Kaminski N,Regev A,KollerD.From signatures to models:understanding cancer using microarrays.Nat Genet2005 Jun.;37 Suppl:S38-45.)。它们也已被应用于阐明肿瘤基因型和表达表型之间的关系(Lee S,Pe'er D,Dudley AM,Church GM,Koller D.Identifying regulatorymechanisms using individual variation reveals key role for chromatinmodification.Proc.Natl.Acad.Sci.U.S.A.2006 Sep.;103(38):14062-14067.)以及推测蛋白质信号网络(Sachs K,Perez O,Pe'er D,Lauffenburger DA,Nolan GP.Causalprotein-signaling networks derived from multiparameter single-celldata.Science 2005 Apr.;308(5721):523-529.)和重组基因调节代码(Beer MA,TavazoieS.Predicting gene expression from sequence.Cell 2004 Apr.;117(2):185-198.)。具体地,因子图(factor graph)已被用于模型表达数据(Gat-Viks I,Shamir R.Refinementand expansion of singaling pathways:the osmotic response netwok inyeast.Genome Research 2007 Mar.;17(3):358-367.;Gat-Viks I,Tanay A,Raijman D,Shamir R.The Factor Graph Network Model for Biological Systems.In:HutchisonD,Kanade T,Kittler J,Kleinberg JM,Mattern F,Mitchell JC,Naor M,Nierstrasz O,Pandu Rangan C,Steffen B,Sudan M,Terzopoulos D,Tygar D,Vardi MY,Weikum G,Miyano S,Mesirov J,Kasif S,Istrail S,Pevzner PA,Waterman M,editors.Berlin,Heidelberg:Springer Berlin Heidelberg;2005 p.31-47.;Gat-Viks I,Tanay A,Raijman D,Shamir R.A probabilistic methodology for integrating knowledge andexperiments on biological networks.J.Comput.Biol.2006 Mar.;13(2):165-181.)。
乳腺癌是临床上和基因组学上异质的,其由若干在病理上和分子上不同的亚型组成。患者对常规和靶向的治疗方法的反应在亚型之间不同,激发对标记物引导的治疗策略的开发。对乳腺癌细胞系的收集反映在肿瘤中发现的许多分子亚型和途径,这表明用候选治疗化合物治疗细胞系可以指导鉴定分子亚型、途径和药物反应之间的联系。在对77种治疗化合物的测试中,几乎所有的药物在这些细胞系均显示差别反应,并且,大约一半显示亚型-、途径和/或基因组异常-特异性反应。这些观察结果表明反应和抵抗的机制,其可以告知临床药物部署以及有效组合药物的努力。
以各种水平积累肿瘤的高通量分子概况是世界范围内一个长期且高成本的过程。以各种水平对基因调节的组合分析可以指向特定的生物学功能和分子途径,其在多种上皮癌中被下调,并为新的患者亚群显示定制(tailored)疗法和监测。从大约110个乳腺癌患者,我们已经收集了来自原发性肿瘤、匹配的血液和具有已知微转移状况的新冰冻样本的若干分子水平上的高通量数据(还被称为MicMa数据集)。这些患者是超过900个乳腺癌病例的同龄组(cohort)的一部分,所述病例具有关于播散肿瘤细胞(DTC)的存在、对复发和总存活率长期随访的信息。MicMa集已被用于全基因组mRNA表达的平行试验研究中(1Naume,B等,(2007),Presence of bone marrow micrometastasis is associated withdifferent recurrence risk within molecular subtype of breast cancer,1:160-171)、微阵列-比较基因组杂交(arrayCGH)(Russnes HG,Vollan HKM,Lingjaerde OC,Krasnitz A,Lundin P,Naume B,T,Borgen E,Rye IH,A,Chin S,Teschendorff AE,Stephens PJ,S,Schlichting E,Baumbusch LO,R,Stratton MP,Wigler M,Caldas C,Zetterberg A,Hicks J,A.Genomicarchitecture characterizes tumor progression paths and fate in breast cancerpatients.Sci Transl Med 2010 Jun.;2(38):38ra47)、DNA甲基化(JA,Fleischer T,Solvang HK,Nordgard SH,Edvardsen H,Potapenko I,Nebdal D,DaviaudC,Gut I,Bukholm I,Naume B,-Dale A,Tost J,Kristensen V.Methylationprofiling with a panel of cancer related genes:association with estrogenreceptor,TP53 mutation status and expression subtypes in sporadic breastcancer.Mol Oncol 2011 Feb.;5(1):61-76)、全基因组SNP和SNP-CGH(Van,Loo P.等.,(2010),Allele-specific copy number analysis of tumors,107:16910-169154)、全基因组miRNA表达分析(5Enerly,E.等,(2011),miRNA-mRNA Integrated Analysis RevealsRoles for miRNAs in Primary Breast Tumors,6:e16915-)、TP53突变状态依赖性途径和高通量配对末端测序(Stephens,P.J.等,(2009),Complex landscapes of somaticrearrangement in human breast cancer genomes,462:1005-1010)。这是由单个实验室对乳房原发性肿瘤的相同集合进行的高通量分子数据的全面收集。
癌症研究中极其重要的课题是鉴定驱使癌症发展的基因组异常。利用MicMa同龄组的全基因组拷贝数和表达概况,我们限定若干过滤步骤,每一步骤均被设计成在前一步骤中选择的基因中鉴定最有前景的候选基因。最初两个步骤包括鉴定一般异常的以及与表达基因顺式相关的基因,即,拷贝数变化对表达具有实质影响的基因。随后,该方法考虑选择的基因的反式作用,进一步缩小潜在的新候选驱动基因的范围(Miriam Ragle Aure,Israel Steinfeld Lars Oliver Baumbusch KnutDoron LipsonNaumeVessela N.Kristensen Anne-Lise-Dale Ole-Christianand ZoharYakhini,(2011),A robust novel method for the integrated analysis of copynumber and expression reveals new candidate driver genes in breast cancer)。最近,我们已经发展了一种等位基因-特异性的拷贝数分析,其使我们能够精确地仔细分析实体肿瘤的等位基因-特异性拷贝数(ASCAT),并同时估计和调整肿瘤倍性和非异常细胞混合物(Van,Loo P.等,(2010),Allele-specific compy numer analysis of tumors,107:16910-169154)。这可以计算全基因组等位基因-特异性拷贝数概况,从该拷贝数概况中可以精确地测定获得、丢失、拷贝数无关事件(中性事件,neutral event)和杂合性丢失(LOH)。以等位基因特异性方式观察DNA异常使我们能构建乳腺癌中等位基因偏斜的全基因组图谱,这指示其中一个等位基因优先丢失而其它等位基因优先获得的基因座。我们假定这些可选等位基因对乳腺癌发展具有不同的影响。我们也发现,与其它亚型相比,基底样(Basal-like)乳腺癌具有明显高的LOH频率,并且,它们的ASCAT概况显示在肿瘤发展期间大规模丢失基因组材料,接下来是全基因组复制,产生近三倍体基因组(Van等(2010),同上)。在正常乳房上皮细胞以及乳房肿瘤中已经报道了不同的总DNA甲基化概况。
现在需要提供可用于表征、诊断、预防、治疗和测定疾病和病症结果的方法。
发明内容
发明人已经发现了途径分析的各种系统和方法,其允许集成多个途径元素的多个属性(通常一个或更多个途径),其中至少一个途径元素具有先验已知属性,其中至少另一途径元素具有假定属性,其中途径元素交叉关联并且指定对至少一个途径的具体影响水平,从而构建概率途径模型(PPM)。为患者样品的多个元素测量的属性然后结合PPM使用,从而产生患者样品特异的动态途径图(DPM)。
在本发明主题的一个方面中,发明人考虑产生动态途径图(DPM)的方法,其中在一个步骤中提供对储存多个途径元素的途径元素数据库的访问,其中每一途径元素表征为其参与至少一个途径。在另一步骤中,提供对与途径元素数据库偶联的修正引擎的访问,和利用修正引擎将第一途径元素与至少一个先验已知属性关联。在仍另一步骤中,利用修正引擎将第二途径元素与至少一个假定属性关联,和在又进一步的步骤中,分别使用已知和假定属性,利用修正引擎交叉关联和指定至少一个途径的第一和第二途径元素的影响水平,从而形成概率途径模型。最后,利用概率途径模型通过分析引擎,从患者样本的多个元素的多个测量的属性导出DPM,其具有具体途径的参考途径活性信息。
最优选地,途径在调节途径网络中,和尤其考虑的调节途径网络包括衰老途径网络、凋亡途径网络、稳态途径网络、代谢途径网络、复制途径网络和免疫应答途径网络。同样地,途径也可在信号传导途径网络中和/或在不同途径网络的网络中。例如,合适的信号传导途径网络包括钙/钙调蛋白依赖性信号传导途径网络、细胞因子介导的信号传导途径网络、趋化因子介导的信号传导途径网络、生长因子信号传导途径网络、激素信号传导途径网络、MAP激酶信号传导途径网络、磷酸酶介导的信号传导途径网络、Ras超家族介导的信号传导途径网络和转录因子介导的信号传导途径网络。
在进一步具体考虑的方面,优选的途径元素是蛋白质。例如,优选的蛋白质包括受体、激素结合蛋白质、激酶、转录因子、甲基化酶、组蛋白乙酰酶和组蛋白脱乙酰酶。其中优选的途径元素是核酸,这种核酸通常包括蛋白质编码序列、基因组调节序列、调节RNA和反式激活序列。
更通常地,参考途径活性信息对于正常组织、患病组织、衰老组织和/或恢复组织是特异性的。已知和假定属性通常并且独立地是化合物属性、种类属性、基因拷贝数、转录水平、翻译水平或蛋白质活性,同时测量的属性优选地是突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和/或蛋白质相互作用。
因此,在本发明主题的另一方面中,发明人考虑产生动态途径图(DPM)的方法,其中在一个步骤中,提供对存储概率途径模型的模型数据库的访问,所述概率途径模型包括多个途径元素。如之前所述,一般优选根据已知属性,第一数目的多个途径元素被交叉关联并且指定至少一个途径的影响水平,和根据假定属性第二数目的多个途径元素被交叉关联并且指定至少一个途径的影响水平。在进一步的步骤中,使用患者样品的多个元素的多个测量属性,通过分析引擎,修正概率途径模型,以获得DPM,其中DPM对于具体的途径具有参考途径活性信息。
在这种方法中,通常优选地,途径在调节途径网络、信号传导途径网络,和/或不同途径网络的网络中,和/或途径元素是蛋白质(例如,受体、激素结合蛋白质、激酶、转录因子、甲基化酶、组蛋白乙酰酶、组蛋白脱乙酰酶等)或核酸(例如,基因组调节序列、调节RNA、反式激活序列等)。就参考途径活性信息、已知属性、假定属性和测量属性而言,采用如上述相同的考虑。
因此,并且从不同角度观察,分析生物学相关信息的方法可包括提供对存储动态途径图(DPM)的模型数据库的访问的步骤,其中通过用第一细胞或患者样品的多个元素的多个测量属性修正概率途径模型产生DPM。在另一步骤中,获得第二细胞或患者样品的多个元素的多个测量属性,并且使用DPM和第二细胞或患者样品的多个元素的多个测量属性,通过分析引擎,测定第二细胞或患者样品的预测的途径活性信息。
在该方法具体的优选方面中,第一细胞或患者样品的多个元素的测量属性表征为健康细胞或组织、特定年龄的细胞或组织、特定疾病的细胞或组织、特定疾病阶段的患病细胞或组织、特定性别、特定人种群、特定职业群和/或特定种类。而且,应注意第二细胞或患者样品的多个元素的测量属性包括关于突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和/或蛋白质相互作用的信息。
最典型地,第一和第二样品获得自相同的细胞或患者,并且应认识到治疗(例如,放射、施用药物)可提供至细胞或患者,然后获得第二细胞或患者样品的多个元素的多个测量属性。在考虑的方法用于药物发现的背景的情况中,注意治疗包括施用候选分子至细胞(例如,其中候选分子是候选分子文库的成员)。
在具体的优选方面中,预测的途径活性信息将元素鉴定为至少一个途径的分级主导元素,和/或将元素鉴定为与疾病相关的至少一个途径中的疾病决定元素。为了方便表示,可提供预测的途径活性信息的图形表示,和/或可产生至少部分基于预测的途径活性信息的治疗建议。当然,应认识到预测的途径活性信息可用于表达疾病的诊断、预后或选自治疗选项和/或饮食指导的建议,或鉴定外遗传因子、应激适应、生物体的状态,和/或修复或愈合的状态。
在另一实施方式中,本发明提供产生动态途径图(DPM)的方法,方法包括:提供对存储多个途径元素的途径元素数据库的访问,每一途径元素表征为其参与至少一个途径;提供对偶联至途径元素数据库的修正引擎的访问;使用修正引擎将第一途径元素与至少一个先验已知属性关联;使用修正引擎将第二途径元素与至少一个假定属性关联;分别使用已知和假定属性,利用修正引擎交叉关联并且指定至少一个途径的第一和第二途径元素的影响水平,以形成概率途径模型;和使用概率途径模型,通过分析引擎,从患者样本的多个元素的多个测量的属性导出DPM,其具有具体途径的参考途径活性信息。在一种优选的实施方式中,途径元素是蛋白质。在更优选的实施方式中,蛋白质选自受体、激素结合蛋白质、激酶、转录因子、甲基化酶、组蛋白乙酰酶和组蛋白脱乙酰酶。在可选的优选实施方式中,途径元素是核酸。在更优选的实施方式中,核酸选自蛋白质编码序列、基因组调节序列、调节RNA和反式激活序列。在另一更优选的实施方式中,参考途径活性信息对于正常组织、患病组织、衰老组织或恢复组织是特异性的。在优选的实施方式中,已知属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在另一优选的实施方式中,假定属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在另一可选的实施方式中,测量属性选自突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。在优选的实施方式中,途径在调节途径网络中。在更优选的实施方式中,调节途径网络选自衰老途径网络、凋亡途径网络、稳态途径网络、代谢途径网络、复制途径网络和免疫应答途径网络。在仍更优选的实施方式中,途径在信号传导途径网络中。在可选的仍更优选的实施方式中,途径在不同途径网络的网络中。在最优选的实施方式中,信号传导途径网络选自钙/钙调蛋白依赖性信号传导途径网络、细胞因子介导的信号传导途径网络、趋化因子介导的信号传导途径网络、生长因子信号传导途径网络、激素信号传导途径网络、MAP激酶信号传导途径网络、磷酸酶介导的信号传导途径网络、Ras超家族介导的信号传导途径网络和转录因子介导的信号传导途径网络。
本发明也提供产生动态途径图(DPM)的方法,方法包括:提供对存储概率途径模型的模型数据库的访问,所述概率途径模型包括多个途径元素;其中根据已知属性第一数目的多个途径元素被交叉关联并且指定至少一个途径的影响水平;其中根据假定属性第二数目的多个途径元素被交叉关联并且指定至少一个途径的影响水平;并且使用患者样品的多个元素的多个测量属性,通过分析引擎,修正概率途径模型,以获得DPM,其中DPM对于具体的途径具有参考途径活性信息。
在一个优选的实施方式中,途径在调节途径网络、信号传导途径网络、或不同途径网络的网络内。在另一优选的实施方式中,途径元素是蛋白质,其选自受体、激素结合蛋白、激酶、转录因子、甲基化酶、组蛋白乙酰酶和组蛋白脱乙酰酶,或核酸,其选自基因组调节序列、调节RNA和反式激活序列。在进一步优选的实施方式中,参考途径活性信息对于正常组织、患病组织、衰老组织或恢复组织是特异性的。在另一优选的实施方式中,已知属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在另一优选的实施方式中,假定属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。在进一步优选的实施方式中,测量的属性选自突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。
本发明还提供分析生物学相关信息的方法,包括:提供对存储动态途径图(DPM)的模型数据库的访问,其中所述DPM通过用第一细胞或患者样本的多个元素的多个测量的属性修正概率途径模型而产生;获得第二细胞或患者样本的多个元素的多个测量的属性;和,利用DPM以及所述第二细胞或患者样本的多个元素的多个测量的属性,通过分析引擎,测定所述第二细胞或患者样本的预测的途径活性信息。在一个优选的实施方式中,所述第一细胞或患者样本的多个元素的测量的属性是健康细胞或组织、特定年龄的细胞或组织、特定疾病的细胞或组织、特定疾病阶段的患病细胞或组织、特定性别、特定人种群、特定职业群和特定种类所特有的。在另一优选的实施方式中,所述第二细胞或患者样本的多个元素的测量的属性选自突变、差别遗传序列对象、基因拷贝数、转录水平、翻译水平、蛋白质活性和蛋白质相互作用。在可选的优选实施方式中,第一和第二样本获得自相同的细胞或患者,并且进一步包括在获得所述第二细胞或患者样本的多个元素的多个测量的属性之前,提供治疗给所述细胞或患者。在更优选的实施方式中,治疗选自放射、施用药物给所述患者和施用候选分子给所述细胞。在另一更优选的实施方式中,候选分子是候选分子文库中的成员。在另一优选的实施方式中,预测的途径活性信息将元素鉴定为至少一个途径中的分级主导(hierarchical-dominant)元素。在更优选的实施方式中,预测的途径活性信息将元素鉴定为与疾病有关的至少一个途径中的疾病决定元素。在可选实施方式中,该方法还包括产生预测的途径活性信息的图形表示的步骤。在可选实施方式中,该方法还包括产生治疗建议的步骤,所述治疗建议至少部分基于预测的途径活性信息。在可选实施方式中,该方法还包括利用预测的途径活性信息表达对疾病的诊断、预后或对治疗选项的选择和饮食指导的建议的步骤。在可选实施方式中,该方法还包括利用预测的途径活性信息来鉴定外遗传因子、应激适应、生物体的状态和修复或愈合状态的步骤。
在另一实施方式中,本发明提供变换方法,其生成集成途径活性(integratedpathway activities)(IPAs)的矩阵,以为需要的个体预测临床结果,所述方法包括以下步骤(i)提供策划的(curated)途径集合,其中所述途径包含多个实体;(ii)将每一策划的途径转换成不同的概率图模型(PGM),其中所述PGM源自每一策划的途径的因子图;(iii)提供来自个体的生物样本,其中所述生物样本包含至少一个内源实体,其包含在策划的途径之一中;(iv)测定内源实体在生物样本中的水平;(v)将内源实体的水平与从另一个体的之前测定的对照样本中的实体的那些水平进行比较;(vi)测定内源实体的水平相对于对照实体水平是否是激活的、标称的或失活的;(vii)为所述内源实体指定数字状态,其中表示激活的状态是+1,表示标称活性的状态是0,和其中表示失活的状态是-1;(viii)针对另一内源实体重复步骤ii到(vi);(x)将每一内源实体的数字状态编辑成集成途径活性(IPAs)的矩阵;(x)其中所述集成途径活性的矩阵是A,其中Aij表示生物样本j中实体i的推测的活性;该方法产生集成途径活性的矩阵,用于预测个体的临床结果。
在一个实施方式中,产生IPAs的矩阵的方法包括:预测临床结果、提供诊断、提供治疗、递送治疗、施用治疗、进行治疗、管理治疗或分配治疗给需要的个体。在另一实施方式中,策划的途径的集合来自对人生物学的分析。在另一可选实施方式中,策划的途径的集合来自对非人生物学的分析。在另一实施方式中,测定内源实体的水平相对于对照实体水平利用学生t检验进行。在可选实施方式中,测定内源实体的水平相对于对照实体水平利用ANOVA进行。在另一实施方式中,变换方法包括如下步骤:其中组合来自一个以上个体的集成途径活性的多个矩阵,所述组合的多个矩阵产生聚簇(cluster),并且其中测定所得聚簇的单个矩阵之间的距离。在一个实施方式中,测定的距离用K-平均聚簇分析进行分析。在另一可选的实施方式中,测定的距离用K2-平均聚簇分析进行分析。在再一实施方式中,变换方法包括测定生物样本内源实体的水平的步骤,其包括通过抗体检测内源实体,从而测定内源实体的水平。在可选实施方式中,测定内源实体在生物样本中的水平的步骤包括通过核酸探针检测内源实体,从而测定内源实体的水平。在另一可选的实施方式中,测定内源实体在生物样本中的水平的步骤包括用有机试剂检测内源实体,其中所述有机试剂结合内源实体,从而产生可检测的信号,并从而测定内源实体的水平。
在再进一步的可选实施方式中,测定内源实体在生物样本中的水平的步骤包括用无机试剂检测内源实体,其中所述无机试剂结合内源实体,从而产生可检测的信号,并从而测定内源实体的水平。在另一可选的实施方式中,测定内源实体在生物样本中的水平的步骤包括用有机试剂检测内源实体,其中所述有机试剂与内源实体反应,从而产生可检测的信号,并从而测定内源实体的水平。在另一可选的实施方式中,测定内源实体在生物样本中的水平的步骤包括用无机试剂检测内源实体,其中所述无机试剂与内源实体反应,从而产生可检测的信号,并从而测定内源实体的水平。在优选的实施方式中,测定内源实体在生物样本中的水平的步骤包括在内源实体的最佳波长下测量内源实体的吸光度,并从而测定内源实体的水平。在可选的优选实施方式中,测定内源实体在生物样本中的水平的步骤包括在内源实体的最佳波长下测量内源实体的荧光,并从而测定内源实体的水平。在再进一步可选的优选实施方式中,测定内源实体在生物样本中的水平的步骤包括使内源实体与酶反应,其中所述酶选择性地消化所述内源实体,以产生至少一个产物,检测所述至少一个产物,并从而测定内源实体的水平。在更优选的实施方式中,使内源实体与酶反应的步骤导致产生至少两种产物。在再一更优选的实施方式中,使内源实体与酶反应的步骤产生至少两种产物,接下来是用另一酶处理产物的步骤,其中所述酶选择性地消化产物中的至少一个,以产生至少第三种产物,并从而测定内源实体的水平。
在另一优选的实施方式中,个体选自健康个体、无症状个体和有症状个体。在更优选的实施方式中,个体选自被诊断患有状况的个体,所述状况选自疾病和病症。在优选的实施方式中,状况选自获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎(dermnatomyositis)、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症、静坐不能症(akathesia)、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症(ALS)、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病、克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神分裂症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征,和癌症,包括腺癌、黑素瘤和畸胎癌,尤其是脑癌。在可选的优选实施方式中,状况选自癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症;免疫病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子(episodic lymphopenia with lymphocytotoxins)、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、X连锁布鲁顿无丙种球蛋白血症(X-linkedagammaglobinemia of Bruton)、普通可变性免疫缺陷(CVI)、迪乔治氏综合征(胸腺发育不全)、胸腺发育不全、单一性IgA缺乏症、严重联合免疫缺陷病(SCID)、免疫缺陷伴血小板减少和湿疹(威斯科特-奥尔德里奇综合征)、切-东二氏综合征、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病有关的免疫缺陷;和发育障碍诸如肾小管性酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(维尔姆斯氏肿瘤、无虹膜、生殖泌尿异常和智力迟钝)、史-马二氏(Smith-Magenis)综合征、骨髓增生异常综合征、遗传性粘膜上皮发育不良、遗传性皮肤角化病、遗传性神经病侏儒夏-马-图三氏病和神经纤维瘤、甲状腺功能减退、脑积水、癫痫病症诸如西登哈姆氏舞蹈病(Syndenham's chorea)和大脑性麻痹、脊柱裂、无脑畸形、颅脊柱裂、先天性青光眼、白内障、感觉神经性耳聋和与细胞生长和分化有关的任何病症、胚胎发生和涉及对象的任何组织、器官或系统,例如脑、肾上腺、肾、骨骼或生殖系统的形态发生。在另一优选的实施方式中,状况选自内分泌性病症诸如与脑下垂体机能减退有关的病症,包括性腺功能减退症、席汉氏(Sheehan)综合征、尿崩症、卡尔曼病、汉-许-克三氏病(Hand-Schuller-Christian疾病)、累-赛二氏病、肉样瘤病、空泡蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端巨大症、巨人症和不适当的抗利尿激素(ADH)分泌综合征(SIADH);和与甲状腺功能减退有关的病症,包括甲状腺肿、粘液性水肿、与细菌感染有关的急性甲状腺炎、与病毒感染有关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本氏病)和呆小病;与甲状腺功能亢进有关的病症,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液水肿、毒性多节性甲状腺肿、甲状腺癌和普鲁麦综合征;和与甲状旁腺功能亢进有关的病症,包括Conn病(慢性高钙血综合征(hypercalemia));呼吸病症诸如变态反应、哮喘、急性和慢性肺炎疾病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症;和免疫学病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。
本发明还提供本文公开的变换方法,其中矩阵A然后可以替代原始构成数据集,以鉴定与临床结果的关联。在更优选的实施方式中,策划的途径选自生物化学途径、遗传途径、代谢途径、基因调节途径、基因转录途径、基因翻译途径。在另一更优选的实施方式中,实体选自核酸、肽、蛋白质、肽核酸、糖类、脂类、蛋白聚糖、因子、辅因子、生物化学代谢物、有机组合物、无机组合物和盐。在再其它优选的实施方式中,生物样本选自患者样本、对照样本、试验处理的动物样本、试验处理的组织培养物样本、试验处理的细胞培养物样本和试验处理的体外生物化学组合物样本。在更优选的实施方式中,生物样本是患者样本。
本发明还提供概率图模型(PGM)框架,其具有推断在患者样本中改变的分子途径的输出信息,所述PGM包含多个因子图,其中所述因子图代表集成的生物数据集,并且其中所述推断的、在患者样本中改变的分子途径包括由数据已知的分子途径,并且其中所述分子途径影响临床或非临床状况,其中已知所述推断的分子途径通过临床方案或治疗而被调整,和其中所述输出信息指示临床方案。在优选的实施方式中,数据选自试验数据、临床数据、流行病学数据和物候学数据。在另一优选的实施方式中,状况选自疾病和病症。在更优选的实施方式中,状况选自获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCDD)、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症、静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症(ALS)、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神分裂症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症,包括腺癌、黑素瘤和畸胎癌,尤其是脑癌。在可选的更优选实施方式中,状况选自癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症;免疫病症诸如获得性免疫缺陷综合征(ADDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、X连锁布鲁顿无丙种球蛋白血症、普通可变性免疫缺陷(CVI)、迪乔治氏综合征(胸腺发育不全)、胸腺发育不全、单一性IgA缺乏症、严重联合免疫缺陷病(SCID)、免疫缺陷伴血小板减少和湿疹(威斯科特-奥尔德里奇综合征)、切-东二氏综合征、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病有关的免疫缺陷;和发育障碍诸如肾小管性酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(维尔姆斯氏肿瘤、无虹膜、生殖泌尿异常和智力迟钝)、史-马二氏综合征、骨髓增生异常综合征、遗传性粘膜上皮发育不良、遗传性皮肤角化病、遗传性神经病诸如夏-马-图三氏病和神经纤维瘤、甲状腺功能减退、脑积水、癫痫病症诸如西登哈姆氏舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、颅脊柱裂、先天性青光眼、白内障、感觉神经性耳聋和与细胞生长和分化有关的任何病症、胚胎发生和涉及对象的任何组织、器官或系统,例如脑、肾上腺、肾、骨骼或生殖系统的形态发生。在再其它更优选的实施方式中,状况选自内分泌性病症诸如与脑下垂体机能减退有关的病症,包括性腺功能减退症、席汉氏综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、肉样瘤病、空泡蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端巨大症、巨人症和不适当的抗利尿激素(ADH)分泌综合征(SIADH);和与甲状腺功能减退有关的病症,包括甲状腺肿、粘液性水肿、与细菌感染有关的急性甲状腺炎、与病毒感染有关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本氏病)和呆小病;与甲状腺功能亢进有关的病症,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液水肿、毒性多节性甲状腺肿、甲状腺癌和普鲁麦综合征;和与甲状旁腺功能亢进有关的病症,包括Conn病(慢性高钙血综合征);呼吸病症诸如变态反应、哮喘、急性和慢性炎性肺疾病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症;和免疫学病症诸如获得性免疫缺陷综合征(ADDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。
附图说明
图1图解PARADIGM方法的整体图。PARADIGM使用示意性有功能基因组数据的途径,以推断可用于进一步下游分析的遗传活性。NCI途径在TCGA GBM数据中相互作用。对于所有(n=462)对,其中发现A是NCI-Nature途径数据库中基因B的上游活化因子,从TCGA GBM数据计算的皮尔森相关性(x-轴)以两种不同方式被计算。柱状图描绘A的拷贝数和B的表达之间(C2E,实心红色)以及A的表达与B的表达之间(E2E,实心蓝色)的相关性。对于C2E(虚线红色)和E2E(虚线蓝色),显示随机配对基因之间的相关性柱状图。箭头指向针对C2E(红色)和E2E(蓝色)相关性发现的正相关性富集。
图2图解将遗传途径图变换成PARADIGM模型。PARADIGM方法的整体图。PARADIGM使用示意性有功能基因组数据的途径,以推断可用于进一步下游分析的遗传活性。A.利用基因的一组四个不同生物实体针对单一基因集成关于单一患者的数据,其描述DNA拷贝、mRNA和蛋白质水平以及蛋白质活性。B.PARADIGM模型,在基因中的各种类型的相互作用,包括靶的转录因子(上左)、聚集在复合体中的亚单位(上右)、翻译后修正(下左)和执行冗余功能的家族中的基因集合(下右)。C.小亚途径的玩具实例(Toy example),其涉及P53、抑制剂MDM2和高水平的处理(high level process)、凋亡,如在模型中所表示的。
图3图解癌症基因组图集(Cancer Genome Atlas)(TCGA)项目(http://cancergenome.nih.gov)多形性成胶质细胞瘤(GMB)数据中示例性NCI途径相互作用。对于所有(n=462)对,其中发现A是NCI-Nature途径数据库中基因B的上游活化因子,从TCGAGMB数据计算的皮尔森相关性(x-轴)以两种不同的方式被计算。柱状图绘制A的拷贝数和B的表达之间(C2E,实心红色)以及A的表达和B的表达之间(E2E,实心蓝色)的相关性。对于C2E(虚线红色)和E2E(虚线蓝色),显示随机配对基因之间相关性的柱状图。箭头指向针对C2E(红色)和E2E(蓝色)相关性发现的正相关性富集。
图4图解抗调亡丝氨酸-苏氨酸激酶1(AKTI)的示例性学习参数。在最大期望(EM)算法的每一迭代显示集成途径活性(IPA)直到收敛(convergence)。点显示置换样本的IPA,和圈显示真实样本的IPA。红线表示真实样本中的平均IPA,和绿线表示空样本中的平均(man)IPA。
图5图解利用PARADIGM和信号传导途径影响分析(SPIA)区分诱饵(decoy)与真实途径。通过指定新基因名称给途径中的每一基因产生诱饵途径。然后,用PARADIGM和SPIA计算每一途径的干扰。每一条线均显示用于利用干扰排序区分真实与诱饵途径的接受者-操作者(receiver-operator)特征。在乳腺癌中,例如对于PARADIGM和SPIA,曲线下的区域(AUCs)分别为0.669和0.602。在多形性成胶质细胞瘤(GBM)中,AUC分别为0.642和0.604。
图6针对由乳腺癌中的Akt介导的I类磷脂酰肌醇-3-激酶(PI3K)信号传导事件图解与置换内的IPA相比的示例性患者样本IPA。
生物实体通过患者样本中的平均IPA分类(红色),并与置换样本的平均IPA比较。每一平均值周围的着色区域表示每一集合的标准差(SD)。右边的IPA包括AKT1、CHUK和MDM2。
图7图解ErbB2途径的示例性CIRCLEMAP展示。对于每一个节点,雌激素受体(ER)状态、IPA、表达数据和拷贝数数据从最里面到最外面分别被显示为同心圆。凋亡节点和ErbB2/ErbB3/神经调节蛋白2复合节点仅具有ER状态和IPA的圆,因为没有直接观察这些实体。每一患者的数据沿着从圆中心到边缘的一个角被展示。
图8图解TCGA GBM的IPA的示例性聚簇。每一柱对应于单一样本,并且每一行对应于生物分子实体。分级聚类树下的彩色条表示用于图9的聚簇。
图9图解图8聚簇的Kaplan-Meier存活图(survival plot)。
图10图解细胞系,其显示对治疗化合物的宽范围的应答。A.优先应答AKT抑制的腔和ERBB2AMP细胞系。每一条均代表单一乳腺癌细胞系对Sigma AKT 1-2抑制剂的应答。细胞系通过增加灵敏度被排序(–log10(GI50))并根据亚型进行着色。B.具有相似机制的化合物的GI50值高度相关。热图(Heatmap)显示用各种化合物处理的乳腺癌细胞系的应答之间相关性的分级聚类。C.具有相似作用方式的化合物显示在一组细胞系中相似的应答式样。每一柱代表一个细胞系,每一行代表测试的化合物。GI50值被分级聚类。仅包括具有明显亚型作用的化合物。相似亚型的细胞系趋于聚类在一起,表明它们响应于相同的化合物。灰色代表缺失数据。D.CNA与灵敏性关联。框图显示在标注的基因组位点具有异常(A)和正常(N)拷贝数的细胞系应答灵敏性的分布。标注药物反应和CNA之间关联的FDR p值。a.9p21(CDKN2A)缺失与对伊沙匹隆(ixabepilone)、长春瑞滨(vinerolbine)和fascaplysin的应答有关。b.20ql3(STK15/AURKA)扩增与VX-680和GSK1070916有关。c.在llql3(CCND1)扩增与对卡铂和GSK1070916的应答有关。
图11显示细胞系和TCGA样本的非冗余PARADIGM活性的热图。聚簇树状图代表样本之间的欧几里得距离,其利用艾森聚簇(Eisen Cluster)产生并利用Java Treeview绘制。树状图下的彩色条代表样本亚型(顶部)和样本同龄组(底部)。
图12图解细胞系亚型具有独特的网络特征。在所有图中,图中的每一个节点代表不同的途径“概念”,其或者对应于蛋白质(圆)、多聚体复合体(六角形)或者对应于抽象细胞过程(方形)。按照与差别活性分数的比例绘制节点的大小,以便较大的节点对应于活性与基底细胞系对比非基底细胞系更相关的途径概念。颜色表示该概念是否与基底亚型正相关(红色)或负相关(蓝色)。连接代表不同的相互作用,包括蛋白质-蛋白质水平相互作用(虚线)和转录的相互作用(实线)。只有在它们相互连接差别活性的绝对水平高于平均绝对水平的概念时,相互作用才被包含在图谱中。A.MYC/MAX和ERK1/2子网优先在基底乳腺癌细胞系中被激活。B.CTTNBl网络在密蛋白-低细胞系中被激活。C.FOXA1/FOXA2网络在腔亚型中被上调。D.ERBB2AMP亚型显示对RPS6KB1途径的下调。
图13图解途径图可如何被用于预测对治疗的应答。A.上部图。基底乳腺癌细胞系优先应答于DNA破坏剂(damaging agent)顺铂。下部图。基底细胞系显示在与DNA破坏应答相关的途径中活性增强,提供顺铂,借助于其在这些细胞系中发挥作用的可能机制。B.上部图。ERBB2AMP细胞系对HSP90抑制剂格尔德霉素敏感。下部图。ERBB2-HSP90网络在ERBBP2AMP细胞系中被上调。C.上部图。ERBB2AMP细胞系抵抗极光激酶(aurora kinases)抑制剂VX-680。下部图。通过AURKB和CCNB1的共同调节可以介导抵抗。如在图12中的约定(Convention)。
图14图解乳腺癌细胞系的示例性基因组和转录概况。A.43个乳腺癌细胞系的DNA拷贝数异常通过y-轴上的GISTIC分析的log10(FDR)和x-轴上的染色体位置进行绘制。拷贝数增加以正log10(FDR)显示为红色,和损失以负log10(FDR)显示为绿色。B.55个乳腺癌细胞系的分级一致聚类矩阵(Hierarchical concensus clustering matrix),其基于基因表达特征显示3个聚簇(密蛋白-低、腔、基底)。对于每一细胞系组合,颜色密度与一致性成比例。
图15图解GI50计算可高度再现。A.每一条表示对重复的药物/细胞系组合频率的计数。大部分细胞系针对特定化合物仅测试一次,但一些药物/细胞系组合被测试多次。B.每一框图代表具有3或4次重复的药物/细胞系对的中值平均偏差的分布。
图16显示倍增时间(doubling time)在细胞系亚型中不同。A.乳腺癌细胞系亚型的生长速率——作为中值倍增时间以小时被计算——显示为框图。与腔和ERBB2AMP亚型相比,基底和密蛋白-低亚型具有较短的中值倍增时间,Kruskal-Wallis p值(p=0.006)。B.ANCOVA模型显示两种亚型和生长速率对于对5'FU应答的强烈影响。腔(黑色)和基底/密蛋白-低(红色)乳腺癌系均显示与生长速率明显相关,但具有不同的斜率。
图17显示推断的途径活性在亚型内比在同龄组内更强烈相关。显示的是相同亚型(红色)的细胞系和TCGA样本之间计算的由皮尔森相关性导出的t-统计数值(t-statistic)与不同亚型(黑色)细胞系之间的皮尔森相关性的t-统计数值相比的柱状图。X-轴对应于皮尔森相关性t-统计数值;y-轴显示(细胞系,细胞系)或(细胞系,TCGA样本)对的密度。K-S检验(P<l×10-22)表明相同亚型的细胞系和TCGA样本比其它亚型的细胞系更相似。
补充图18-21图解从超途径鉴定的4个子网络中每一个的示例性网络结构。
图18图解基底途径标记的网络图。图中每一个节点代表不同的途径“概念”,其或者对应于蛋白质(圆)、多聚体复合体(六角形)或者对应于抽象细胞过程(方形)。根据与差别活性分数的比例绘制节点的大小,以便较大的节点对应于活性与基底细胞系对比非基底细胞系更相关的途径概念。颜色表示该概念是否与基底亚型正相关(红色)或负相关(蓝色)。连接代表不同的相互作用,包括蛋白质-蛋白质水平相互作用(虚线)和转录的相互作用(实线)。只有在它们相互连接差别活性的绝对水平高于平均绝对水平的概念时,相互作用才被包含在图谱中。
图19图解密蛋白-低途径标记的示例性网络图。如在图18中的约定。
图20图解腔途径标记的示例性网络图。如在图18中的约定。
图21图解ERBB2AMP途径标记的示例性网络图。如在图18中的约定。
图22图解腔、密蛋白-低和基底细胞系中的示例性URKB-FOXM1-CCNB 1网络。A.在腔细胞系中围绕AURKB和FOXM1的网络。CCNB 1并不被明显下调,因而并不显示在途径图谱上。B.在密蛋白-低细胞系中,AURKB和FOXM1均被上调;CCNB 1的活性不明显。C.AURKB、FOXM1和CCNB 1在基底细胞系中均被上调。如在图18中的约定。
图23图解根据CNA、mRNA表达、DNA甲基化和miRNA表达的MicMa同龄组患者的无监督聚簇和存活曲线的示例性分布。对于每一类型的基因组水平,从左到右绘制每一聚簇的大小,显示存活曲线。通过两种方法(见实施例)评估不同存活率的显著性。
图24图解鉴定的PARADIGM聚簇和存活率的示例性分布。A.每一条代表每一聚簇的大小。B.MicMa数据集的PARADIGM IPL的热图。C.在映射(mapping)到Chin-Naderi-Caldas数据集之后,MicMa PARADIGM聚簇的存活率曲线。
图25图解每一数据集的PARADIGM IPL的示例性热图。每一行显示所有三个同龄组中基因或复合体的IPL。顶部上着色的条显示MicMa推导的PARADIGM聚簇,如在图2中。感兴趣途径的成员通过其途径被标记。红色代表激活的IPL,蓝色代表失活的IPL。
图26图解FOXM1转录因子网络。上部网络图概述来自聚簇pdgm.3的数据,而下部聚簇概述来自其它聚簇的数据。节点形状表示在每一聚簇中最常被干扰的数据类型,和节点颜色表示干扰的方向。边缘箭头表示相互作用的符号,而颜色表示相互作用的类型。
图27图解p53调亡途径的小片段的玩具实例。将NCI的途径图转换成因子图,其同时包括隐藏和观察到的状态。
图28图解推断的途径活性(IPA)的示例性热图。IPA代表被推断为激活(红色)或失活(蓝色)的分子实体的1598个推断(行),该IPA针对316个患者肿瘤样本(柱)中的每一个被绘制。IPA通过途径实体和肿瘤样本被分级聚类,并且,右边的标记显示富含单个途径实体的热图部分。彩色条图例是以log10计。
图29概述所有样本的FOXM1集成途径活性(IPA)。肿瘤样本中FOXM1转录因子网络中每一实体的IPA的算术平均数显示为红色,其中,较深的红色阴影指示两个标准差。灰线和阴影指示从1000个“零”样本中推导的IPA的平均值和两个标准差。
图30显示FOXM1的IPA与NCI途径相互作用数据库(Pathway InteractionDatabase)中其它测试的转录因子(TF)的那些IPA的比较。A.IPA的柱状图,其中非活性(零赋值)IPA被去除。FOXM1目标明显比其它NCI TF更有活性(P<10-267;Kolmogorov-Smirnov(KS)检验)。B.所有IPA——包括非活性IPA的柱状图。利用所有IPA,以稍微高的显著性(F<10-301;KS检验)说明相对于其它TF的FOXMl的活性。
图31图解与浆液性卵巢癌相比FOXMl不在法娄皮欧上皮细胞中表达。利用Tone等(PMID:18593983)的数据将输卵管中FOXMl的表达水平与其在浆液性卵巢癌中的表达水平进行比较。FOXMl的表达在输卵管,包括在携带BRCA1/2突变的样本中低得多,这表明在TCGA浆液性卵巢癌中观察到的FOXMl’提高的表达不仅仅是由于上皮特征。
图32显示在高级癌对低级癌中FOXMl转录因子网络基因的表达。针对低级(I;棕色框;26个样本)和高级(II/III;蓝色框;296个样本)卵巢癌,绘制FOXMl和9个选择的FOXMl目标(基于NCI-PID)的表达水平的图。9个目标中的7个被显示在高级癌中具有明显高的FOXMl表达(学生t-检验;p值标注在框图下面)。CDKN2A也可以被差异表达,但具有临界t-统计数值(P=0.01)。XRCC1被检测为被差异表达。
图33显示细胞系示出对治疗化合物的宽范围的应答。A.腔和ERBB2AMP细胞系优先应答AKT抑制。每一条均代表单一乳腺癌细胞系对Sigma AKT1-2抑制剂的应答。通过增加灵敏性(-log10(GI50))排序细胞系,并根据亚型着色。B.具有相似机制的化合物的GI50值高度相关。热图显示用各种化合物处理的乳腺癌细胞系的应答之间的相关性的分级聚类。C.在一组细胞系中,具有相似作用方式的化合物显示相似的应答式样。每一柱代表一个细胞系,每一行代表测试的化合物。GI50值被分级聚类。仅包含具有明显亚型作用的化合物。相似亚型的细胞系趋于聚类在一起,表明它们响应于相同的化合物。灰色代表缺失数据。D.CNA与灵敏性相关。框图显示在标记的基因组位点具有异常(A)和正常(N)拷贝数的细胞系的应答灵敏性的分布。标注药物反应和CNA之间关联的FDR p值。a.9p21(CDKN2A)缺失与对伊沙匹隆、长春瑞滨和fascaplysin的应答有关。b.20ql3(STK15/AURKA)扩增与VX-680和GSK1070916有关。c.在llql3(CCND1)的扩增与对卡铂和GSK1070916的应答有关。
图34。A.细胞系和TCGA样本的非冗余PARADIGM活性的热图。聚簇树状图代表样本之间的欧几里得距离,其利用艾森聚簇产生,并利用Java Treeview绘制。树状图下面着色的条代表样本亚型(顶部)和样本同龄组(底部)。
图35显示细胞系亚型具有独特的网络特征。在所有图中,图中的每一个节点均代表不同的途径“概念”,其或者对应于蛋白(圆)、多聚复合体(六角形)或者对应于抽象细胞过程(方形)。根据与差别活性分数的比例绘制节点的大小,以便较大的节点对应于活性与基底细胞系对比非基底细胞系更相关的途径概念。颜色表示该概念是否与基底亚型正相关(红色)或负相关(蓝色)。连接代表不同的相互作用,包括蛋白质-蛋白质水平相互作用(虚线)和转录的相互作用(实线)。只有在它们相互连接差别活性的绝对水平高于平均绝对水平的概念时,相互作用才被包含在图谱中。A.MYC/MAX和ERK1/2子网在基底乳腺癌细胞系中被优先激活。B.CTTNBl网络在密蛋白-低细胞系中被激活。C.FOXA1/FOXA2网络在腔亚型中被上调。D.ERBB2AMP亚型显示对RPS6KB1途径的下调。
图36显示途径图可用于预测对治疗的应答。A.上部图。基底乳腺癌细胞系优先应答DNA破坏剂顺铂。下部图。基底细胞系显示在与DNA破坏应答相关的途径中活性增强,这提供顺铂,借助于其在这些细胞系中发挥作用的可能机制。B.上部图。ERBB2AMP细胞系对HSP90抑制剂格尔德霉素敏感。下部图。ERBB2-HSP90网络在ERBBP2AMP细胞系中被上调。C.上部图。ERBB2AMP细胞系抵抗极光激酶抑制剂VX-680。下部图。通过AURKB和CCNB1的共同调节可以介导抵抗。如在图36中的约定。
图37图解基因组拷贝数异常。(a)489个HGS-OvCa的拷贝数概况,与197个多形性成胶质细胞瘤(GBM)肿瘤46的概况比较。拷贝数增加(红色)和减少(蓝色)被绘制为沿正常基因组的函数,(b)显著的、集中扩增的(红色)和删除的(蓝色)区域沿着基因组被绘制。注释包括20个最显著扩增的和删除的区域、具有8个或更少基因的适当定位的区域和具有已知癌基因或通过全基因组功能缺失筛选鉴定的基因的区域。每一区域中包含的基因数目在括号中示出。(c)显著扩增的(红色)和删除的(蓝色)染色体臂。
图38图解分子亚型的基因和miRNA表达图谱以及HGS-OvCa中的结果预测。(a)来自TCGA和Tothill等的肿瘤根据基因表达分成四个聚簇。(b)利用训练(training)数据集,限定前兆基因特征并应用于测试数据集。(c)对四个独立表达概况数据集的Kaplan-Meier分析,比较预测的较高风险对比较低风险患者的存活率。包括风险指数的单变量Cox p-值。(d)根据miRNA表达将肿瘤分成三个聚簇,与所指出的基于基因的聚簇重叠。(e)三个基于miRNA的聚簇之中患者存活率的差异。
图39图解HGS-OvCa中改变的途径。(a)通过策划的分析鉴定的RB和PI3K RAS途径,和(b)通过HotNet分析鉴定的NOTCH途径,通常被改变。通过体细胞突变、DNA拷贝数变化定义变化,或在一些情况下,通过与在二倍体肿瘤中的表达相比明显的上调或下调来定义变化。变化频率以所有情况下的百分比计;激活的基因是红色的,失活的基因为蓝色。(c)HR途径中的基因在高达49%的例子中被改变。针对BRCA突变例子(显示较好的总存活率)的BRCA状况的存活分析显示与BRCA野生型不同的结果,并且BRCA1表观遗传沉默的例子显示较差的存活率。(d)在87%的例子中,FOXM1转录因子网络被激活。每一基因被描述为多环圈,其中其拷贝数(外环)和基因表达(内环)被绘制,以便环中的每一“辐条(spoke)”均代表单一的患者样本,其中样本以FOXM1表达的递增顺序分类。刺激性(红色箭头)和抑制性相互作用(蓝色线)取自NCI途径相互作用数据库。虚线指示转录调节。
图40是产生根据本发明主题的动态途径图的示例性计算机系统的示意图。
发明详述
本文件中公开的实施方式是说明性和示例性的,而并不意图限制本发明。可以使用其它实施方式,并且可以进行结构变化而不背离本发明权利要求书的范围。
如本文和所附权利要求书中所使用的,单数形式“一(a,an)”和“该(the)”包括复数指代,除非上下文另有明确说明。因此,例如提及“一个miRNA”包括多个这样的miRNA和提及“一种药物载体”是指一种或多种药物载体及其等同物等等。
如本文所使用的,术语“策划的”意为利用本领域中悉知的方法诸如分子生物学、生物化学、生理学、解剖学、基因组学、转录物组学、蛋白质组学、代谢物组学、ADME和生物信息技术等等,根据科学和/或临床原理检测、分析和鉴定的一组生物分子和/或非生物分子之间的关系。该关系可以是生物化学关系诸如生物化学途径、遗传途径、代谢途径、基因调节途径、基因转录途径、基因翻译途径、miRNA-调节的途径、假基因调节的途径等等。
高通量数据为癌症组织中的分子变化提供全面的见解。新的技术允许对肿瘤样本和癌细胞系同时进行基因组拷贝数变化状态、基因表达、DNA甲基化和外因遗传学的全基因组分析。
针对一系列的肿瘤,在不久的将来计划进行研究诸如癌症基因组图谱(TheCancer Genome Atlas)(TCGA)、站起来对抗癌症(Stand Up To Cancer)(SU2C)和许多更多的研究。对当前数据集的分析发现患者之间的遗传变化可以不同,但常常涉及共同的途径。因此,鉴定癌症发展中涉及的相关途径并检测它们在不同的患者中如何发生改变是关键的。
发明人已经开发了系统和方法,其中多个途径元素的多个属性集成为概率途径模型,其然后使用患者数据修正,以产生动态途径图。最重要地,应认识到途径中的途径元素的属性不需要已知先验的。实际上,至少一些途径元素的至少一些属性是假定的。途径元素然后被交叉关联并且指定对一个或更多个途径的具体影响水平,以构建概率途径模型,其优选是具体的参考状态(例如,健康的或患病的)的代表。患者样品的多个元素的测量属性然后结合概率途径模型使用,以产生患者样品特异的动态途径图,其为一个或更多个具体的途径提供参考途径活性信息。
尤其应认识到,一个或更多个途径元素的多个类型的属性(合理地)结合一个或更多个其他途径元素的假定多个类型的属性的集成,使得明显减少的受限的分析并且允许具有高度精确性和分辨率的多因子分析。实际上,应注意考虑的系统和方法允许根据相对少的测量患者样品属性产生详细的和构造的(textured)结果。当然,也应注意到考虑的系统和方法允许输入一个或更多个途径元素的大于一种的属性,以产生一个或更多个途径元素的大于一种的属性的输出,其中输入和输出属性和途径元素可完全不同。例如,并且从不同的角度看,可根据预定的概率途径模型得出对基因活性的状态、复合体和细胞过程的患者特异的基因组推论。
应注意,尽管下面描述涉及基于计算机/服务器的途径分析系统,但是各种可选的配置也视为合适的,并且可采用各种计算设备,包括服务器、接口、系统、数据库、媒介物(agent)、等同物(peer)、引擎、控制器或单独或协同操作的其他类型的计算设备。人们应认识到计算设备包括处理器,其配置为执行存储在易失、非易失计算机可读存储器介质(例如,硬盘、固态硬盘、RAM、闪存、ROM等)上的软件指令。软件指令优选地将计算设备配置为提供如就下面公开的装置讨论的角色、职责或其他功能。在特别优选的实施方式中,各种服务器、系统、数据库或接口使用标准化的方案或算法,其可能基于HTTP、HTTPS、AES、公私秘钥交换、web服务器API、已知的财务事项方案或其他电子信息交换方法,来交换数据。数据交换优选地经过包交换网络、Internet、LAN、WAN、VPN或其他类型的包交换网络进行。
而且,下列讨论提供本发明主题的许多示例性实施方式。尽管每一实施方式表示本发明要素的单个组合,但是认为发明主题包括公开要素的所有可能组合。因此,如果一种实施方式包括要素A、B和C,并且第二实施方式包括要素B和D,然后也认为本发明主题包括A、B、C或D的其他剩余的组合,即使没有明确地公开。
我们提出一种新的方法,用于结合基因之中策划的途径相互作用推测患者特异的遗传活性。基因通过因子图被模仿,作为编码基因及其产物的表达和已知活性的一组相互联系的变量,允许结合许多类型的数据组学数据作为证据。
该方法利用概率推理预测途径的活性(例如,基因内状态、相互作用或高水平“输出信息”)在患者中被改变的程度。与竞争途径活性推断方法——称为SPIA——相比,我们的方法以——但不限于——多形性成胶质细胞瘤(GBM)和乳腺癌数据集中较少的假阳性鉴定癌症相关途径中改变的活性。
利用关于基因组模型(PARADIGM)的数据集成的途径识别算法鉴定当认为基因处于隔离时而忽略的GBM患者子集的一致的途径-水平活性。此外,利用算法,根据其明显的途径干扰而使GBM患者分组将它们分成临床上相关的亚组,其具有明显不同的存活结果。
这些发现表明,可以选择治疗方法,其可靶向一组患者或个体的共同被干扰的途径(一个或多个)中关键点处的基因。
我们描述了基于因子图的概率图模型(PGM)框架(Kschischang:2001,同上),其可以集成任何数目的基因组和功能基因组数据集,以推断在患者样本中改变的分子途径。我们针对恶性胶质瘤和乳腺癌数据集,利用拷贝数变化和基因表达数据检测模型。利用构成的途径模型推断的活性成功地将恶性胶质瘤患者分成临床上相关的亚型。结果表明,途径-报告的推断(informed inference)比利用孤立的基因水平数据更有教益。
除了提供较好的前兆和诊断之外,集成的途径激活作用还提供关于可用于消除疾病发展的可能治疗方法的重要线索。
我们发展了一种称作PARADIGM(利用关于基因组模型的数据集成的途径识别算法)的方法,以从集成的患者数据中推断遗传途径的活性。图1图解方法的整体图。对单一患者样本的多种基因组范围的测量结果被组合,以推断单一美国国家癌症研究所(NationalCancer Institute)(NCI)途径的基因活性、产物和抽象过程(abstract process)输入和输出。PARADIGM产生集成途径活性(IPA)的矩阵A,其中Aij代表患者样本j中实体i的推测的活性。矩阵A可用于替代原始构成数据集,以鉴定与临床结果的关系。
我们首先将每一NCI途径转换成不同的概率模型。p53调亡途径的小片段的玩具实例显示在图2(c)中。将NCI的途径图转换成因子图,其同时包括隐藏的和观察的状态(图2)。因子图结合针对基因-和生物过程-相关的状态信息的观察结果与描述实体之中已知相互作用的结构。
为了用因子图表示生物学途径,我们使用变量来描述细胞中实体的状态,诸如特定的mRNA或复合体,并利用因子来代表这些实体之间的相互作用和信息流。这些变量代表与“对照”或正常水平而不是分子实体的直接浓度相比每一实体的差别状态。该表示允许我们模拟许多高通量数据集,诸如通过DNA微阵列检测的基因表达,所述DNA微阵列常常或者直接测量基因的差别状态或者将直接测量结果转换成相对于匹配的对照的测量结果。它也允许基因之中许多类型的调节关系。例如,描述介导p53的泛素-依赖性降解的MDM2的相互作用被模仿,作为抑制p53蛋白质水平的激活的MDM2。
在一个实施方式中,该方法可用于提供可用于各种诊断和治疗应用的临床信息,所述诊断和治疗应用诸如检测癌组织、分期癌组织、检测转移性组织和类似应用;检测神经障碍诸如但不限于阿尔茨海默病、肌萎缩性侧索硬化症(ALS)、帕金森氏病、精神分裂症、癫痫及其并发症;发育障碍诸如迪乔治氏综合征、孤独症、自身免疫病症诸如多发性硬化症、糖尿病和类似病症;治疗感染诸如但不限于病毒感染、细菌感染、真菌感染、利什曼原虫、血吸虫病、疟疾、绦虫、象皮病、由线虫、nematine引起的感染和类似感染。
在一个实施方式中,该方法可用于提供临床信息,以检测和量化改变的基因表达、mRNA的不存在/存在对比过量表达,或在治疗性干预过程中监测mRNA水平。与改变的表达有关的状况、疾病或病症包括获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和,腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症。诊断分析可使用杂交或扩增技术,来比较在来自患者的生物样本中的基因表达与标准样本的基因表达,以检测改变的基因表达。用于这种比较的定性或定量方法在本领域中是悉知的。
在一个实施方式中,该方法可用于提供临床信息,以检测和量化改变的基因表达;mRNA的不存在、存在或过量表达;或在治疗性干预过程中监测mRNA水平。与改变的表达有关的病症包括静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症(ALS)、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神分裂症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症,包括腺癌、黑素瘤和畸胎癌,尤其是脑癌。
在一个实施方式中,该方法可用于针对与改变的哺乳动物蛋白质的表达或活性有关的状况提供临床信息。这种状况的实例包括但不限于获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;和,腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症、静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神分裂症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症,包括腺癌、黑素瘤和畸胎癌,尤其是脑癌。
在一个实施方式中,本文公开的方法可用于检测、分期、诊断和/或治疗与核酸序列降低的表达或活性有关的病症。这种病症的实例包括但不限于癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症;免疫病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染、创伤、X连锁布鲁顿无丙种球蛋白血症、普通可变性免疫缺陷(CVI)、迪乔治氏综合征(胸腺发育不全)、胸腺发育不全、单一性IgA缺乏症、严重联合免疫缺陷病(SCID)、免疫缺陷伴随血小板减少和湿疹(威斯科特-奥尔德里奇综合征)、切-东二氏综合征、慢性肉芽肿性疾病、遗传性血管神经性水肿和与库兴病有关的免疫缺陷;和,发育障碍诸如肾小管性酸中毒、贫血、库兴综合征、软骨发育不全性侏儒、杜兴和贝克尔肌肉萎缩症、癫痫、性腺发育不全、WAGR综合征(维尔姆斯氏肿瘤、无虹膜、生殖泌尿异常和智力迟钝)、史-马二氏综合征、骨髓增生异常综合征、遗传性粘膜上皮发育不良、遗传性皮肤角化病、遗传性神经病诸如夏-马-图三氏病和神经纤维瘤、甲状腺功能减退、脑积水、癫痫病症诸如西登哈姆氏舞蹈病和大脑性麻痹、脊柱裂、无脑畸形、颅脊柱裂、先天性青光眼、白内障、感觉神经性耳聋和与细胞生长和分化有关的任何病症、胚胎发生和涉及对象的任何组织、器官或系统,例如脑、肾上腺、肾、骨骼或生殖系统的形态发生。
在一个实施方式中,本文公开的方法可用于检测、分期、诊断和/或治疗与核酸序列的表达有关的病症。这种病症的实例包括但不限于内分泌性病症诸如与脑下垂体机能减退有关的病症,包括性腺功能减退症、席汉氏综合征、尿崩症、卡尔曼病、汉-许-克三氏病、累-赛二氏病、肉样瘤病、空泡蝶鞍综合征和侏儒症;垂体功能亢进,包括肢端巨大症、巨人症和不适当的抗利尿激素(ADH)分泌综合征(SIADH);和,与甲状腺功能减退有关的病症,包括甲状腺肿、粘液性水肿、与细菌感染有关的急性甲状腺炎、与病毒感染有关的亚急性甲状腺炎、自身免疫性甲状腺炎(桥本氏病)和呆小病;与甲状腺功能亢进有关的病症,包括甲状腺毒症及其各种形式、格雷夫斯病、胫骨前粘液水肿、毒性多节性甲状腺肿、甲状腺癌和普鲁麦综合征;和,与甲状旁腺功能亢进有关的病症,包括Conn病(慢性高钙血综合征);呼吸病症诸如变态反应、哮喘、急性和慢性炎性肺疾病、ARDS、气肿、肺充血和水肿、COPD、间质性肺病和肺癌;癌症诸如腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症;和,免疫学病症诸如获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、支气管炎、胆囊炎、接触性皮炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、发作性淋巴细胞减少伴淋巴细胞毒性因子、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、癌症、血液透析和体外循环并发症、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染和创伤。多核苷酸序列可用于DNA或RNA分析、斑点印记或其它基于膜的技术;用于PCR技术中;用于试纸(dipstick)、针(pin)和ELISA分析;和用于微阵列,其利用来自患者的液体或组织来检测改变的核酸序列表达。这种定性或定量方法在本领域中是悉知的。
本发明的表征和最佳方式
PARADIGM:利用PARADIGM,从多维癌基因组数据推断患者特异的途径活性。
基于途径方法的一个假设是在途径数据库中发现的遗传相互作用携带用于解释癌症中检测的基因表达变化之间的相关性的信息。例如,如果癌症相关途径包括转录活化因子A与目标基因T的连接,我们期望A的表达与T的表达正相关(E2E相关)。类似地,我们也期望A的拷贝数和T的表达之间的正相关(C2E相关)。此外,我们期望C2E相关性比E2E相关性更弱,因为A中的扩增并不一定意味着A以高水平被表达,这反过来对于上调B是必需的。以这种方式,途径中的每一连接提供关于数据的预期;具有许多一致连接的途径对于进一步的考虑可能是有意义的。我们测试这些假设,发现NCI途径包含许多预测最近的TCGA GBM数据的相互作用(The TCGA research network 2008)。
我们已经发展了一种称为PARADIGM(利用关于基因组模型的数据集成的途径识别算法)的方法,以从集成的患者数据中推断遗传途径的活性。
PARADIGM方法结合各种高通量基因组学信息与已知的信号传导途径,以提供关于基因活性的状态、复合体和细胞过程的患者特异的基因组学推断。该方法的核心是使用因子图来调整(leverage)推断,以组合各种数据源。将这种推断取代或结合原始高通量数据集使用提高我们将样本分类成临床上相关亚型的能力。根据PARADIGM-集成的活性聚类GBM患者揭示与不同存活概况相关的患者亚型。相反地,利用表达数据或拷贝数数据聚类样本并不揭示数据集中任何显著的聚簇。
PARADIGM产生对GBM和乳腺癌肿瘤样本中明显改变的基因活性的途径推断。与竞争途径活性推断方法——称为SPIA——相比,我们的方法以较少的假阳性鉴定癌症相关途径中改变的活性。为了计算效率,PARADIGM当前使用现在的NCI途径。
虽然它利用EM推测隐藏量,但它不尝试推断尚未存在于NCI途径中的新相互作用。可以设想扩展该方法,以引进增加似然函数的新的相互作用。虽然该问题通常是难处理的,但启发式方法诸如结构EM(Friedman(1997),同上)可利用计算搜索策略用于鉴定相互作用。
可以通过提出推导自蛋白质-蛋白质相互作用图谱的相互作用或相当数目的表达数据集中相关的基因对来显著加速搜索,而不是重新搜索新的联系(connection)。基于途径的方法的能力是它可以提供关于解释观察存活率中差异的可能机制的线索。有教益的IPA对于建议治疗目标或选择最合适的患者来进行临床试验可能是有用的。例如,ErbB2扩增是悉知的特定形式的乳腺癌标记,该乳腺癌可由药物曲妥珠单抗治疗。然而,具有ErbB2扩增的一些患者具有难以治疗的肿瘤。观察CircleMap显示可以鉴定具有ErbB2扩增的、但其有由PARADIGM推断的失活的或未改变的IPA的患者。具有ErbB2扩增而不具有预测活性的患者可以考虑进行另一治疗。
随着将来可以利用更多的多维数据集,检测这样的途径推断是否提供普及整个同龄组的有力的生物标记将是有趣的。
乳腺癌中对抗癌化合物的亚型和途径特异性应答
800种以上的小分子抑制剂和生物正在被开发,用于治疗人恶性肿瘤(NewMedicines Database|PHRMA.http://newmeds.phrma.org/(2010))。许多这些剂靶向被认为区分肿瘤和正常细胞的分子特征,并且,其范围从广义的特异性常规治疗剂,包括抗-代谢物和DNA交联剂诸如曲妥珠单抗和拉帕替尼(lapatinib),其选择性地靶向在癌症子集中被下调的分子事件(event)和途径(见例如,Slamon,D.J.等.Use of chemotherapy plus amonoclonal antibody against HER2 for metastatic breast cancer thatoverexpresses HER2.N Engl J Med 344,783-792(2001);Vogel,C.L.等.Efficacy andsafety of trastuzumab as a single agent in first-line treatment of HER2-overexpressing metastatic breast cancer.J Clin Oncol 20,719-726(2002);Rusnak,D.W.等.The effects of the novel,reversible epidermal growth factor receptor/ErbB-2 tyrosine kinase inhibitor,GW2016,on the growth of human normal andtumor-derived cell lines in vitro and in vivo.Mol Cancer Ther 1,85-94(2001))。Effects of chemotherapy and hormonal therapy for early breast cancer onrecurrence and 15-year survival:an overview of the randomised trials.Lancet365,1687-1717(2005)。
现在,药物开发的一般趋势正向显示比常规剂功效提高和较低毒性的靶向剂转移(Sawyers,C.Targeted cancer therapy.Nature 432,294-297(2004))。一些药物诸如ERBB2/EGFR抑制剂拉帕替尼显示高的靶向特异性,而其它药物诸如SRC抑制剂达沙替尼(dasatinib)抑制大范围的激酶(Karaman,M.W.等A quantitative analysis of kinaseinhibitor selectivity.Nat Biotechnol 26,127-132(2008))。
现在不断认识到临床试验必需包括应答预测器并将参与试验的患者分成不同的等级。虽然许多分子靶向的治疗剂提供明显的分子特征,根据该分子特征将患者分成不同的等级,但大部分分子并不这样。此外,肿瘤之间的分子和生物学差异、复杂的交叉结合(cross-coupling)和对靶向途径的反馈调节以及不精确的靶向特异性常常使基本的机械预测变得复杂。虽然在基于分子标记的临床试验过程中可以鉴定响应子集,但该方法在逻辑上有困难、昂贵并且不允许试验化合物在选择的、最可能应答的亚群中进行初始测试。事实上,现在正在开发的大部分药物将从不在乳腺癌中被测试,所以仅在患有乳腺癌的患者亚群中非常有效的化合物被错过的概率比较高。一种有前景的方法是应用源自临床前模型的应答预测器将参与临床试验的患者分成不同的等级,这会降低开发成本并鉴定在患者子集中可能特别有效的那些药物。
在一组细胞系中进行的临床前测试有希望允许及早和有效鉴定应答分子亚型,作为早期临床试验的指导。该方法有用性的证据来自这样的研究,该研究显示细胞系组预测(a)具有响应吉非替尼(gefitinib)的EGFR突变的肺癌(Paez,J.G.等.EGFR mutations inlung cancer:correlation with clinical response to gefitinib therapy.Science304,1497-1500(2004)),(b)具有作为对曲妥珠单抗和/或拉帕替尼响应的HER2/ERBB2扩增的乳腺癌(Neve,R.M.等.A collection of breast cancer cell lines for the studyof functionally distinct cancer subtypes.Cancer Cell 10,515-527(2006);Konecny,G.E.等.Activity of the dual kinase inhibitor lapatinib(GW572016)against HER-2-overexpressing and trastuzumab-treated breast cancercells.Cancer Res 66,1630-1639(2006)),和(c)具有突变或扩增的BCR-ABL作为对甲磺酸伊马替尼的抵抗的肿瘤(Scappini,B.等.Changes associated with the development ofresistance to imatinib(STI571)in two leukemia cell lines expressing p210 Bcr/Abl protein.Cancer 100,1459-1471(2004))。NCI的发现治疗计划(NCI's DiscoveryTherapeutic Program)已经大规模地实行该方法,在总计大约60个癌细胞系中鉴定分子特征和对>100,000种化合物的应答之间的联系(Weinstein,J.N.Spotlight on molecularprofiling:"Integromic"analysis of the NCI-60 cancer cell lines.Mol CancerTher 5,2601-2605(2006);Bussey,K.J.等.Integrating data on DNA copy number withgene expression levels and drug sensitivities in the NCI-60 cell linepanel.Mol Cancer Ther 5,853-867(2006))。尽管对于检测具有各种应答的化合物有用,但有证据表明NCI60组在检测亚型特异性应答中能力有限,这是由于在集合中对特定癌症亚型的表示相对稀少。例如,集合仅携带6个乳腺癌细胞系,这不足以充分表示已知的异质性。我们因此促进约50个乳腺癌细胞系的集合的应用,以在统计学上更有力地鉴定乳腺癌中体外治疗化合物应答和分子亚型以及激活的信号传导途径之间的联系。这里我们针对77种化合物报道对定量生长抑制应答和限定亚型和激活途径的分子特征之间的联系的评估,所述77种化合物包括FDA批准的药物和研究化合物。大约一半显示异常或亚型特异性。我们还通过对基因表达和拷贝数数据的集成分析显示,一些观察到的亚型-有关的应答可以通过特定途径活性进行解释。
集成分子概况揭示原位管癌中被曲解的(Distorted)白细胞介素信号传导和浸润性乳腺癌中提高的预后能力
各种水平的肿瘤高通量分子概况的积累在世界范围内是一个长期且高成本的过程。在各种水平对基因调节的组合分析可以指向在多种上皮癌中被下调的特定的生物学功能和分子途径,并揭示新的患者亚群,用于定制疗法和监测。我们已经从大约110个乳腺癌患者(还被称为MicMa数据集)中在若干分子水平收集了高通量数据,该数据源自来自原发性肿瘤、匹配的血液和具有已知微转移状况的新冰冻的样本。这些患者是900个以上乳腺癌病例的同龄组中的一部分,具有关于扩散肿瘤细胞(DTC)的存在、对复发和总存活率的长期随访的信息。MicMa集已经被用于全基因组mRNA表达的平行试验研究中(Naume,B.等,(2007),Presence of bone marrow micrometastasis is associated with differentrecurrence risk within molecular subtypes breast cancer,1:160-17)、微阵列-比较基因组杂交(arrayCGH)(Russnes,H.G.等,(2010),Genomic architecture characterizestumor progression paths and fate in breast cancer patients,2:38ra472)、DNA甲基化(Ronneberg,J.A.等,(2011),Methylation profiling with a panel of cancerrelated genes:association with estrogen receptor,TP53 mutation status andexpression subtypes in sporadic breast cancer,5:61-76)、全基因组SNP和SNP-CGH(Van,Loo P.等,(2010),Allele-specific copy number analysis of tumors,107:16910-169154)、全基因组miRNA表达分析(Enerly E,Steinfeld I,Kleivi K,Leivonen S,Aure MR,Russnes HG,JA,Johnsen H,Navon R,E,R,NaumeB,M,Kallioniemi O,Kristensen VN,Yakhini Z,-Dale A.miRNA-mRNAintegrated analysis reveals roles for miRNAs in primary breast tumors.PLoSONE 2011;6(2):e16915)。TP53突变状态依赖性途径和高通量配对末端测序(Stephens,P.J.等,(2009),Complex landscapes of somatic rearrangement in human breastcancer genomes,462:1005-1010)。这是由单个实验室进行的对乳房原发性肿瘤的相同集合的高通量分子数据全面收集。
下面我们概述这些研究的发现,其中的每一个研究均试图结合mRNA表达与DNA拷贝数、DNA甲基化中的下调或miRNA表达。虽然过去我们和其它人已经看到多种分子水平上的乳腺癌机制,但很少试图通过模拟途径背景下的mRNA、CNA、miRNA和甲基化来结合这些观点。在本文中,我们已经分析了来自乳腺癌的这种数据,同时检测干扰的途径和具有不同表型特征的分子亚型。
在本文所述的MicMa数据集中,我们已经根据甲基化概况鉴定了三个较大的聚簇(和一个较小的),较大的聚簇之一主要由肌上皮起源的肿瘤组成,而另外两个具有主要腔上皮起源的肿瘤。关于TP53突变和ER和ErbB2表达状况以及等级,聚簇是不同的。途径分析鉴定与规范的(策划的)途径的显著联系,包括基因如EGF、NGFR和TNF、树突细胞成熟和NF-κΒ信号传导途径。对原位管癌(DCIS)和浸润性癌样本上的候选基因进行焦磷酸测序鉴定ABCB 1、FOXCl、PPP2R2B和PTEN为原位管癌中甲基化的新基因。理解这些表观改变如何参与触发肿瘤发展对于更好地理解哪种病变处于变成浸润性的“风险”是重要的。
根据其彼此之间以及与临床特点的相关性,我们已经研究MicMa数据集中miRNA和mRNA表达之间的关系。我们能够显示若干细胞过程,诸如增殖、细胞黏着和免疫应答与某些miRNA强相关。在分子固有亚型之间和具有不同增殖水平的样本之间观察到统计学上显著的miRNA的差异表达。我们利用关于细胞系的高通量溶胞产物-微阵列确认miRNA在调节增殖中的作用,并指出该过程的潜在驱动者(Enerly等(2001),同上)。
根据该乳腺癌患者同龄组中10e-6的p-值截止水平处的TP53突变状况,鉴定了40多个显示差别富集(differential enrichment)的KEGG途径。基于两个不同的微阵列平台,在由187个乳腺癌样本组成的跨平台(cross-platform)数据集上也观察到途径的差别富集。差别富集的途径包括若干已知的癌症途径诸如TP53信号传导和细胞周期、信号传导途径——包括免疫应答和细胞因子激活和代谢途径——包括脂肪酸代谢(Joshi等,2011,同上)。
之前描述的每一研究均试图以成对方式(CNA/mRNA、miRNA/rnRNA、DNA甲基化/mRNA、TP53/mRNA)从高通量分子数据中推导生物相互作用。在本研究中,我们已经试图集中于下调的途径并发展集成的预后指数,同时考虑所有分子水平。我们利用关于基因组模型的数据集成的途径识别算法(PARADIGM),来说明各种遗传途径的相对活性,并评价其联合预后潜力。通过PARADIGM鉴定的聚簇和下调的途径然后在另一数据集中被确认(Chin,S.F.等,(2007),Using array-comparative genomic hybridization to define molecularportraits of primary breast cancer,26:1959-1970),并且,也在癌前期瘤形成诸如DCIS(原位管癌)的数据集中进行研究(Muggerud,A.A.等,(2010),Molecular diversityin ductal carcinoma in situ(DCIS)and early invasive breast cancer,4:357-368)。
浆液性卵巢癌中频繁改变的途径
为了通过对拷贝数和基因表达的集成分析来鉴定明显改变的途径,我们应用当前发展的途径活性推断方法PARADIGM(PMID:20529912)。计算模型结合拷贝数变化、基因表达数据和途径结构来针对途径数据库中存在的每一基因、复合体和遗传过程产生集成途径活性(IPA)。我们使用术语“实体”来指代途径中的任何分子,其可以是基因、复合体或小分子。实体的IPA仅指最终活性。对于基因,IPA仅指蛋白质活性状态的推测的活性,这由途径中其它基因的拷贝数、基因表达和信号传导来推断。我们应用PARADIGM到卵巢样本,并且,发现美国国家癌症研究所的途径相互作用数据库(NCI-PID)包含的途径中存在许多不同基因和过程中的变化。我们利用1000次随机模拟来评估推断的变化的显著性,在所述随机模拟中使用具有相同结构的途径但任意基因(arbitrary gene)被指定在途径中的不同点处。换言之,给定途径的一次随机模拟保持相互作用的集合固定,以便任意基因集合与途径的相互作用联系在一起。针对相同的零分布评估所有样本的IPA的显著性,以获得每一样本中每一实体的显著性水平。标准差至少为0.1的IPA显示为图28中的热图。
表3显示相对于PARADIGM发现的置换样本改变至少三个标准差的途径。在所有测试的途径中,在最大数量的样本中FOXMl转录因子网络被改变——当在样本中取平均值时,67%的实体具有改变的活性。相比较,在卵巢同龄组中具有下一个最高水平的改变活性的途径包括PLK1信号传导事件(27%)、极光B信号传导(24%)和血栓烷A2受体信号传导(20%)。因此,在NCI-PDD中的途径中,关于卵巢样本,FOXMl网络具有比其它途径明显多的改变活性。
发现在最高比例的患者样本中,相比正常对照,FOXMl转录因子网络在肿瘤样本中被差异改变(图29)。FOXMl是多功能转录因子,具有三种已知的主导剪接形式,每一种均调节在细胞增殖和DNA修复中具有各种作用的不同的基因亚集。FOXMlc同种型直接调节在细胞增殖中具有已知作用的若干目标,包括AUKB、PLK1、CDC25和BIRC5(ΡΜID:15671063)。另一方面,FOXMlb同种型调节完全不同的基因亚集,所述基因亚集包括DNA修复基因BRCA2和XRCCl(PMID:17101782)。由ATM间接控制的CHEK2直接调节FOXMls表达水平。
我们质疑FOXMl转录因子本身的IPA是否相比其它转录因子的IPA被高度改变。我们比较FOXMl的活性水平与NCI-PID中的所有其它203个转录因子的活性水平。甚至与NCI集合中的其它转录因子进行比较,FOXMl转录因子具有明显较高的活性水平(p<0.0001;K-S检验),进一步表明它可能是重要的特征(图30)。
因为FOXMl也在许多上皮起源的不同正常组织中被表达,所以,我们质疑由PARADIGM鉴定的特征是否是归于在其它组织中被认为正常的上皮特征。为了回答该问题,我们从GEO(GSE10971)(PMID:18593983)中下载了独立数据集,在所述GEO,输卵管上皮细胞和卵巢肿瘤组织被显微解剖并且基因表达被分析。我们发现,与正常相比,肿瘤样本中的FOXMl水平明显更高,表明FOXMl调节在癌组织中确实被提高超出在正常上皮组织中观察到的(图31)。
由于TCGA卵巢的全部同龄组包含源自高级浆液性肿瘤的样本,我们质疑FOXMl特征是否对于高级浆液是特有的。我们从其中低级和高级浆液性肿瘤均被转录概况化的Etemadmoghadam等(2009)(Etemadmoghadam D,deFazio A,Beroukhim R,Mermel C,GeorgeJ,Getz G,Tothill R,Okamoto A,Raeder MB,AOCS Study Group,Harnett P,Lade S,Akslen LA,Tinker AV,Locandro B,Alsop K,Chiew YE,Traficante N,Fereday S,Johnson D,Fox S,Sellers W,Urashima M,Salvesen HB,Meyerson M,BowtellD.Integrated Genome-Wide DNA Copy Number and Expression Analysis IdentifiesDistinct Mechanisms of Primary Chemoresistance in Ovarian Carcinomas.ClinicalCancer Research 2009 Feb.;15(4):1417-1427)的数据集中获得FOXMl和其若干目标的对数表达。该独立数据证实,FOXMl和其若干目标在浆液性卵巢中相对于低级卵巢癌被明显上调(图32)。为了确定FOXMl转录因子网络中的25个基因在高级疾病中是否包含具有更高表达的明显比例的基因,我们利用Etemadmoghadam的数据进行学生t-检验。发现基因组中723个基因(5.4%)在高级癌症对比低级癌症中以0.05的显著性水平被明显上调(利用Benjamini-Hochberg方法针对多重检验进行校正)。发现FOXMl网络的基因中有13个(52%)被差别调节,根据超几何检验(P<3.8*10-l2),这是相当大的比例。因此,当与基因组中的典型基因的表达比较时,FOXMl网络基因的高表达看起来并不与高级疾病特异关联。
FOXMl在许多不同癌症,包括乳腺癌和肺癌中的作用已经被很好地证明,但它在卵巢癌中的作用尚未被研究。FOXMl是多功能转录因子,具有三种已知的剪接形式,每一种均调节在细胞增殖和DNA修复中具有各种作用的不同的基因亚集。与该分析有关的FOXMl的相互作用网络的摘录显示在图27中。FOXMla同种型直接调节在细胞增殖中具有已知作用的若干目标,包括AUKB、PLK1、CDC25和BIRC5。相反地,FOXMlb同种型调节完全不同的基因亚集,所述基因亚集包括DNA修复基因BRCA2和XRCCl。由ATM间接控制的CHEK2直接调节FOXMl表达水平。除了在大部分卵巢患者中提高的FOXMl表达之外,小的亚集也具有通过CBS检测的、提高的拷贝数扩增(在测量的基因组中,所有基因的前5%分位数中19%具有拷贝数增加)。因此,FOXMl的可选剪接调节可以参与DNA修复和细胞增殖之间的控制转换。然而,在这一点上,数据不足以支持该主张,因为区分同种型的外显子结构和外显子阵列探针的位置使其难以区分单个同种型活性。将来对这些样本的mRNA进行高通量测序可以帮助确定FOXMl同种型的差异水平。PARADIGM检测以该转录因子为中心的最高水平的改变活性的观察表明,FOXMl存在于细胞中的关键调节点处。
诊断
本文描述的方法可用于检测和量化改变的基因表达、mRNA的不存在/存在对比过量表达,以及在治疗性干预期间监测mRNA水平。与该改变的表达有关的状况、疾病或病症包括原发性肺动脉高压、继发性肺高血压、细胞增殖病症,尤其是间变性少突神经胶质瘤、星形细胞瘤、少突星形细胞瘤(oligoastrocytoma)、恶性胶质瘤、脑膜瘤、神经节瘤(ganglioneuroma)、神经元赘生物、多发性硬化症、杭廷顿氏病、乳腺癌、前列腺癌、胃腺癌、转移性神经内分泌癌、非增殖性纤维囊肿和增殖性纤维囊肿乳房疾病、胆囊炎和胆石病、骨性关节炎和类风湿性关节炎;获得性免疫缺陷综合征(AIDS)、阿狄森氏病、成人呼吸窘迫综合征、变态反应、强直性脊柱炎、淀粉样变性病、贫血、哮喘、动脉粥样硬化、自身免疫溶血性贫血、自身免疫性甲状腺炎、良性前列腺增生、支气管炎、切-东二氏综合征、胆囊炎、克罗恩病、特应性皮炎、皮肌炎、糖尿病、气肿、胎儿溶血症、结节性红斑、萎缩性胃炎、肾小球性肾炎、古德帕斯彻综合征、痛风、慢性肉芽肿性疾病、格雷夫斯病、桥本氏甲状腺炎、嗜伊红细胞增多症、过敏性肠综合征、多发性硬化症、重症肌无力、心肌或心包炎症、骨性关节炎、骨质疏松、胰腺炎、多囊卵巢综合征、多发性肌炎、牛皮癣、赖特氏综合征、类风湿性关节炎、硬皮病、严重联合免疫缺陷病(SCID)、斯耶格伦氏综合征、系统性过敏症、系统性红斑狼疮、全身性硬化症、血小板减少性紫癜、溃疡性结肠炎、眼色素层炎、维尔纳综合征、血液透析、体外循环、病毒、细菌、真菌、寄生虫、原生动物和蠕虫感染;促乳素产生病症、不孕不育症,包括管疾病、排卵缺陷和子宫内膜组织异位、动情周期中断、月经周期中断、多囊卵巢综合征、卵巢过度刺激综合征、子宫内膜或卵巢肿瘤、子宫纤维瘤(uterine fibroid)、自身免疫病症、子宫外孕和畸形发生;乳腺癌、纤维囊肿乳房疾病和乳溢;精子发生的中断、异常精子生理学、良性前列腺增生、前列腺炎、佩罗尼病、性无能、男子女性型乳房;光化性角化症、动脉硬化、粘液囊炎、硬化、肝炎、混合性缔结组织疾病(MCTD)、骨髓纤维化、阵发性夜间血红蛋白尿、真性红细胞增多症、原发性血小板增多、癌症并发症、癌症,包括腺癌、白血病、淋巴瘤、黑素瘤、骨髓瘤、肉瘤、畸胎癌,和具体地,肾上腺、膀胱、骨、骨髓、脑、乳房、子宫颈、胆囊、神经节、胃肠道、心、肾、肝、肺、肌肉、卵巢、胰腺、甲状旁腺、阴茎、前列腺、唾腺、皮肤、脾脏、睾丸、胸腺、甲状腺和子宫的癌症。在另一方面,本发明的核酸。
本文描述的方法可用于检测和量化改变的基因表达;mRNA的不存在、存在或过量表达;或在治疗性干预期间监测mRNA水平。与改变的表达有关的病症包括静坐不能症、阿尔茨海默病、健忘症、肌萎缩性侧索硬化症、共济失调、双相性抑郁症、紧张症、大脑性麻痹、脑血管疾病克-雅二氏病、痴呆、抑郁症、唐氏综合征、迟发性运动障碍、张力障碍、癫痫、杭廷顿氏病、多发性硬化症、肌肉萎缩症、神经痛、神经纤维瘤、神经病、帕金森氏病、皮克氏病、色素性视网膜炎、精神分裂症、季节性情感障碍、老年性痴呆、中风、德拉图雷特综合征和癌症,包括腺癌、黑素瘤和畸胎癌,尤其是脑癌。
为了提供用于诊断与基因表达有关的状况、疾病或病症的基础,建立正常或标准表达概况。这可以通过在杂交或扩增条件下结合取自正常对象——动物或人——的生物样本与探针来实现。标准杂交可以通过比较利用正常对象获得的值与来自试验——其中使用已知量的基本上纯化的目标序列——的值来量化。以这种方式获得的标准值可以与获得自对于特定状况、疾病或病症有症状的患者样本的值进行比较。与标准值偏向朝向与特定状况有关的那些值被用于诊断该状况。
这种分析也可以用于评价特定治疗方案在动物研究和在临床试验中的功效,或用于监测对个体患者的治疗。一旦状况的存在被确定并且治疗方案开始进行,则可以有规律地重复诊断分析,以确定在患者中的表达水平是否开始接近于在正常对象中观察到的水平。通过连续分析获得的结果可用于显示在从若干天到数月的阶段中治疗的功效。
模型系统
动物模型可被用作生物分析,其中它们显示类似于人的毒性应答,并且,其中暴露状况与人暴露相关。哺乳动物是最常见的模型,并且,因为成本低、可用性和丰富的参考毒理学,大部分毒性研究针对啮齿动物诸如大鼠或小鼠进行。近交繁殖(近亲交配)的啮齿动物品系提供常规模型,用于研究感兴趣基因低表达或过表达的生理学结果和用于发展诊断和治疗疾病的方法。被近交繁殖以过表达特定基因(例如,乳中分泌的基因)的哺乳动物也可用作由该基因表达的蛋白质的常规来源。
毒理学
毒理学是研究剂对活体系的影响。大部分毒性研究是针对大鼠或小鼠进行的,以帮助预测这些剂对人健康的影响。对于生理学、行为、稳态过程和致死率的定性和定量变化的观察被用于产生毒性概况和用于评估在暴露于剂后对人健康的结果。
遗传毒理学鉴定和分析剂产生遗传突变的能力。基因毒性剂通过具有常见的促进与核酸相互作用的化学或物理性质,并且,在染色体异常传递给后代时是最有害的。如果在受孕前将剂施用给双亲之一、在怀孕期间施用给母亲或施用给发育的生物体,毒理学研究可以鉴定增加后代中结构或功能异常频率的剂。小鼠和大鼠最常被用于这些测试,因为它们产生满足统计学要求所需要的生物体数目的生殖周期短。
急性毒性试验基于给对象单一施用剂,以测定该剂的症状或致死率。进行了三个试验:(a)发现初始剂量范围的试验,(b)缩小有效剂量范围的试验,和(c)确定剂量-应答曲线的最终试验。
延长的毒性试验是基于重复施用剂。大鼠和狗通常被用于这些研究中,以提供不同科物种的数据。除了癌发生以外,有相当多的证据表明以高剂量浓度每日施用剂达3到4个月的阶段将揭示成年动物中的大部分毒性形式。
慢性毒性试验——持续时间为一年或更久——被用于证明剂的毒性不存在或致癌潜能。当针对大鼠进行研究时,使用最小的3个测试组加一个对照组,并在开始时和整个试验的间隔检查和监测动物。
转基因动物模型
过表达或低表达感兴趣基因的转基因啮齿动物可以被近交繁殖,并用于模拟人疾病或用于检验治疗剂或毒性剂。(见美国专利号4,736,866;5,175,383;和5,767,337;通过引用被并入本文)。在一些情况中,引入的基因可以在胎儿发育期间或出生后在特定的组织类型中在特定的时间被激活。在挑战药物治疗法之前、期间和之后,通过分析转基因动物中表型或组织-特异性mRNA表达来监测转基因的表达。
胚胎干细胞
分离自啮齿动物胚胎的胚胎干细胞(ES)保持形成胚胎的潜力。当将ES细胞放入到载体胚胎内部时,它们恢复正常发育并对活着出生的动物的所有组织有帮助。ES细胞是用于产生试验敲除和敲入啮齿动物品系的优选细胞。小鼠ES细胞诸如小鼠129/SvJ细胞系衍生自小鼠早期胚胎,并且在本领域中悉知的培养条件下生长。用于敲除品系的载体包含疾病基因候选物,其被修正成包括破坏体内转录和/或翻译的标记基因。载体通过本领域中悉知的转化方法诸如电穿孔法、脂质体递送、微注射和类似方法被引入ES细胞。内源啮齿动物基因在细胞分裂过程中通过同源重组和集成被破坏的疾病基因取代。转化的ES细胞被鉴定并优选微注射到小鼠细胞胚泡诸如来自C57BL/6小鼠品系的那些中。胚泡经手术被转移到假孕雌亲中,并且,所得嵌合后代被基因型分型并杂交,以产生杂合或纯和品系。
ES细胞也被用于体外研究各种细胞类型和组织的分化,诸如神经细胞、造血谱系和心肌细胞(Bain等(1995)Dev.Biol.168:342-357;Wiles和Keller(1991)Development111:259-267;和Klug等(1996)J.Clin.Invest.98:216-224)。最近的发展表明,衍生自人胚泡的ES细胞也可以在体外被操作,以分化成8个独立的细胞谱系,包括内胚层、中胚层和外胚层细胞类型(Thomson(1998)Science 282:1145-1147)。
敲除分析
在基因敲除分析中,人疾病基因候选物的区域被酶促修饰成包括非哺乳动物基因诸如新霉素磷酸转移酶基因(neo;见,例如,Capecchi(1989)Science 244:1288-1292)。插入的编码序列中断目标基因的转录和翻译,并防止疾病候选蛋白质的生物化学合成。修饰的基因被转化到培养的胚胎干细胞(上述)中,转化的细胞被注入到啮齿动物囊胚,并且,囊胚被植入到假孕雌亲中。杂交转基因后代,以获得纯合近交系。
敲入分析
存在于胚胎发育的早期阶段的全能ES细胞可用于产生人疾病的敲入人源化动物(猪)或转基因动物模型(小鼠或大鼠)。通过敲入技术,人基因的区域被注入到动物ES细胞中,并且,人序列通过重组集成到动物细胞基因组中。含有集成的人基因的全能ES细胞被如上所述地处理。近交繁殖动物被研究和处理,以获得关于类似的人状况的信息。这些方法已经被用于模拟若干人疾病。(见,例如,Lee等(1998)Proc.Natl.Acad.Sci.95:11371-11376;Baudoin等(1998)Genes Dev.12:1202-1216;和Zhuang等(1998)Mol.Cell Biol.18:3340-3349)。
非人灵长类动物模型
动物实验领域处理基本科学诸如生理学、遗传性、化学、药理学和统计学的数据和方法。这些数据在评价治疗剂对非人灵长类动物的作用中极为重要,因为它们可能与人类健康相关。猴子在疫苗和药物评价中被用作人类替代者,并且,它们的反应与人暴露在类似条件下有关。食蟹猴(食蟹猴(Macaca fascicularis)、猕猴(Macaca mulata))和普通狨(普通狨(Callithrix jacchus))是这些研究中使用的最常见的非人灵长类动物(NHP)。因为与发展和维持NHP群体有关的巨大成本,早期的研究和毒理学研究通常在啮齿动物模型中进行。在利用行为测量诸如药瘾的研究中,NHP是首选的测试动物。另外,NHP和独立的人对许多药物和毒素显示差别灵敏性,因而可以被分类为这些剂的“泛代谢者”和“乏代谢者”。
本发明的示例性应用
个体化药物(Personalized medicine)有希望给予很可能受益的那些患者特定的治疗。我们已经证明,大约一半的治疗化合物在一种或多种临床上相关的转录或基因组乳腺癌亚型中优先有效。这些发现支持在乳腺癌治疗中限定应答相关分子亚型的重要性。我们也证明,关于细胞系的转录和基因组数据的途径集成揭示子网络,其为观察到的亚型特异性应答提供机制解释。对细胞系和肿瘤之间子网活性的比较分析显示,大部分亚型特异性子网络在细胞系和肿瘤之间是保守的。这些分析支持这样的观点,即,在良好表征的细胞系组中进行试验化合物的临床前筛选可以鉴定与候选物应答有关的分子特征,其可以用于早期临床试验中的灵敏性富集。我们提出,该体外评估方法将提高反应性肿瘤亚型将在化合物的临床开发开始之前被鉴定的可能性,从而降低成本,提高最终FDA批准的概率并可能避免与治疗不太可能应答的患者有关的毒性。在该研究中,我们仅评估限定转录亚型的分子特征和选择的再发生的基因组CNA。我们预期,该方法的能力和精确性将随着另外的分子特征诸如遗传突变、甲基化和可选剪接被包括在该分析中而提高。同样地,增加细胞系组的大小将提高评估组内较不常见的分子式样的能力和提高表现人乳腺癌中存在的更完整的多样性范围的概率。
乳腺癌发展的特征在于在先天的和适应性免疫细胞同时存在下,随着代表肿瘤性基质中存在的最丰富的白细胞的B细胞、T细胞和巨噬细胞而显著增加(DeNardo DG,Coussens LM.Inflammation and breast cancer.Balancing immune response:crosstalk between adaptive and innate immune cells during breast cancerprogression.Breast Cancer Res.2007;9(4):212)。肿瘤基质(和血清)中的高免疫球蛋白(Ig)水平和原发性肿瘤或淋巴结中的滤泡外B细胞、T调节细胞和高比例的CD4/CD8或ΤH2/ΤH1 T淋巴细胞存在的增加已经显示与肿瘤等级、阶段和整体患者存活率有关(Bates,G.J.等,(2006),Quantification of regulatory T cells enables the identificationof high-risk breast cancer patients and those at risk of late relapse,24:5373-5380);一些白细胞显示抗肿瘤活性,包括细胞毒性T淋巴细胞(CTL)和天然杀伤(NK)细胞(34Dunn,G.P.,Koebel,C.M.,和Schreiber,R.D.,(2006),Interferons,immunity andcancer immunoediting,6:836-848),其它白细胞诸如肥大细胞、B细胞树突细胞、粒细胞和巨噬细胞通过其妨碍或加强肿瘤发展的能力显示更两极化的作用(35 de Visser,K.E.和Coussens,L.M.,(2006),The inflammatory tumor microenvironment and its impacton cancer development,13:118-137)。在这些研究中最突出的发现是鉴定免疫应答(TCR)中的干扰和导致用预后值对亚类进行分类的白细胞介素信号传导、IL4、IL6、IL12和IL23信号传导。我们在本文提供证据表明这些事件反映在高通量分子数据中,并用乳房肿瘤的分子亚分类进行强干预。
本公开内容还提供对HGS-OvCa中的异常的第一大规模的综合观点(thefirstlarge scale integrative view)。总的来说,突变谱异常简单。TP53中的突变占优势,发生在至少96%的HGS-OvCa中,而BRCAl/2在22%的肿瘤中突变,这是由于种系和体细胞突变的组合。鉴定了7个其它明显突变的基因,但仅存在于2-6%的HGS-OvCa中。相反地,HGS-OvCa显示显著程度地基因组混乱(genomic disarray)。频繁的SCNA与之前通过恶性胶质瘤46的TCGA发现形成强烈对比,其中存在更多再次突变的基因和少得多的染色体臂水平或焦点SCNA(图37A)。假定DNA修复基因——包括HR组分——中的高度普遍的突变和启动子甲基化块可以解释高度普遍的SCNA。突变谱将HGS-OvCa标记为与其它OvCa组织学亚型完全不同。例如,清楚细胞OvCa具有少量的TP53突变,但具有再发生的ARID1A和PIK3CA47-49突变;子宫内膜样OvCa具有频繁的CTTNB1、ARIDIA和PIK3CA突变和和较低速率的TP5348,49,而粘液性OvCa具有普遍的KRAS突变50。卵巢癌亚型之间的这些差异很可能反映病原和谱系作用的组合,并代表通过亚型-分层护理改进卵巢癌结果的机会。
新治疗方法的鉴定是TCGA的中心目标。具有HR缺陷的大约50%的HGS-OvCa可以受益于PARP抑制剂。在此之外,通常被下调的途径,RB、RAS/PI3K、FOXM1和NOTCH,提供用于治疗性攻击(therapeutic attack)的机会。最后,在再发生的扩增的区域中已经存在22个基因的抑制剂(见下面的实施例XIII等等),确保其中目标基因被扩增的HGS-OvCa中的评估。总的来说,这些发现为治疗HGS-OvCa的方法创造条件,在所述HGS-OvCa中,异常基因或网络被检测,并被选择用来有效抵抗这些特定异常的治疗方法所靶向。
在图40中,提供途径分析生态系统100的示例性总结。生态系统100可包括途径元素数据库120,其优选地存储多个途径元素125A至125N,统称为途径元素125。每一途径元素125可表征为其参与一个或更多个途径。元素125可考虑分开地可操作的数据对象,包括描述元素特征的一个或更多个性质或数值。在一些实施方式中,元素125可考虑n-元组性质或数值,其中元素125元组的每一性质成员可相对其他元素元组中的其他性质成员被比较、分析、对照,或以其他方式评估。
修正引擎110通讯地偶联途径元素数据库120,可能经网络链接(例如,LAN、WAN、Internet、VPN等)。在一些实施方式中,途径元素数据库120对修正引擎110可以是本地的,而在其他实施方式中,途径元素数据库120可以是与修正引擎110远程的。例如,途径元素数据库120可通过National Lambda Rail(见URL www.nlr.net)或Internet访问。进一步,修正引擎110,或讨论的生态系统100,可由使用者通过网络访问,可能缴费。
修正引擎110从途径元素数据库120获得一个或更多个元素125用于分析。优选地,修正引擎110使至少一个元素125(例如,元素125A)与至少一个先验已知属性133关联。进一步,修正110也使另一元素,例如元素125N,与假定属性137关联。在一些实施方式中,修正引擎110可基于推理法则、编程指令或其他技术自动进行关联。例如,已知属性137可获得自已知的研究,而假定属性137可根据属性参数化的空间制订,其中修正引擎110连续,或平行,行走穿过假定属性空间。在其他实施方式中,使用者可根据需要通过一个或更多个可能通过HTTP服务器或其他合适的接口技术操作的使用者界面(未显示),手动关联属性133或137。
修正引擎110进一步使用已知属性133和假定属性137为一个或更多个途径交叉关联途径元素125。进一步,修正引擎110为元素125指定一个或更多个影响水平145。通过交叉关联和指定影响水平145,修正引擎110构建概率途径模型140,其描绘途径可如何被假定属性137或其他因素影响。
在一些实施方式中,概率途径模型140可存储在途径模型数据库150中,用于存档目的,或用于分析,如所指示。与元素125一样,概率途径模型140也可存储为不同的可操作数据对象,其具有描述模型特征的性质或数值,可能存储为n-元组。模型145,或甚至元素125,可根据任何期望的方案存储。可用于构建元素数据库120或模型数据库140的合适的数据库的例子包括MySQL、PostgreSQL、Oracle或其他合适的数据库。在一些实施方式中,数据对象(例如,元素125、概率途径模型145等)可经它们的性质或数值以允许容易搜索或检索的方式被多重索引(multiply indexed)。
生态系统100优选地包括分析引擎160,其配置为就实际的数据进一步分析概率途径模型150。在显示的例子中,分析引擎160获得概率途径模型150,可能在使用者或研究人员的指导下,以得到动态途径模型165。优选地,通过比较来自患者样品的一个或更多个测量属性173与关联概率途径模型140的属性得到动态途径模型160。因此,分析引擎160寻求修正、更新、纠正或以其他方式验证概率途径模型140以形成动态途径模型165。在完成后,动态途径模型165可存储在模型数据库中。在更优选的实施方式中,分析引擎160可将一个或更多个输出设备(例如,显示器、打印机、web服务器等)配置为呈现动态途径模型165。
分析
因此,使用根据本发明主题的系统通常包括途径元素数据库。如上面已经叙述的,应认识到该数据库可物理上位于单个计算机上,但是,分布式数据库也视为适合本文使用。而且,也应认识到,数据库的具体的格式不限于本发明主题,只要这类数据库能够存储和检索多个途径元素,并且只要每一途径元素可表征为其参与至少一个途径。
就考虑的途径元素而言,应注意为途径一部分的所有元素包括在本文中。结果,合适的途径元素将包括一个或更多个蛋白质(其可或不可被修饰,例如,经糖基化、十四酰化等)——单独或与其他细胞组分复合,各种核酸(基因组DNA、染色体外DNA、hnRNA、siRNA、mRNA、rRNA等)——其可以是天然核酸或重组体核酸、脂质、激素、第二信使和药学活性剂,其作为治疗或预防剂提供。因此,并且从不同的角度观察,考虑的途径元素可具有多种功能,并且具体优选的功能包括各种酶功能。例如,合适的功能是激酶/磷酸酶、聚合酶/水解酶、蛋白酶、水解酶(和具体为GTP酶)、羟化酶、甲基转移酶/甲基化酶等。
因此,在途径元素是蛋白质的情况下,合适的途径元素包括各种受体、激素结合蛋白质、激酶、转录因子、起始因子、甲基化酶和甲基转移酶、组蛋白乙酰酶和组蛋白脱乙酰酶。类似地,在途径元素是核酸的情况下,考虑的途径元素将包括编码蛋白质序列的那些、一个或更多个基因组调节序列、调节RNA和反式激活序列。
取决于具体的途径元素,因此应认识到途径的性质可相当地改变,并且所有已知的途径视为适合本文使用。例如,考虑的途径可参与信号转导、细胞周期、细胞生长和/或代谢、修复机制(并且具体地DNA修复)和神经信号传导。结果,特别优选的途径包括钙/钙调蛋白依赖性信号传导途径和功能上关联的途径网络、细胞因子介导的信号传导途径和功能上关联的途径网络、趋化因子介导的信号传导途径和功能上关联的途径网络、生长因子信号传导途径和功能上关联的途径网络、激素信号传导途径和功能上关联的途径网络、MAP激酶信号传导途径和功能上关联的途径网络、磷酸酶介导的信号传导途径和功能上关联的途径网络、Ras超家族介导的信号传导途径和功能上关联的途径网络,和转录因子介导的信号传导途径和功能上关联的途径网络。因此,应认识到途径可以是单个途径以及途径网络中的途径,并且甚至在不同途径网络的网络中。例如,本文考虑的途径可在调节途径网络中。例如,考虑的途径网络包括衰老途径网络、凋亡途径网络、稳态途径网络、代谢途径网络、复制途径网络和免疫应答途径网络。
因此,应显而易见地,途径元素的属性的类型和数值可相当地改变,并且具体的途径元素将很大部分决定属性的类型和数值。例如,在途径元素是核酸的情况下,属性可以是拷贝数、具体的单倍型或突变、调节元素(例如,增强子、阻抑物等)的强度、转录水平或翻译水平。而且,考虑的属性也将包括种类属性(例如,基因通过具体的转录因子活化,或对具体的激素响应元素敏感等)或可以是化合物属性(例如,至少两个不同属性的代表)。类似地,在途径元素是蛋白质的情况下,属性可以是翻译的数量、蛋白质活性、辅助因子的要求、形成多蛋白质复合物以提供活性的要求等)。
如从上面显而易见的,至少一些途径元素的至少一些属性是从现有研究和出版物中已知的,并且可因此作为具体途径元素的先验已知属性用于考虑的系统和方法。另一方面,应认识到许多属性不是已知先验的,但是,许多这种未知的属性可以以合理良好的精确性期望假定。例如,在途径元素是受体的基因组序列的情况下,并且在反式激活因子结合序列元素在该序列之前的情况下,其可合理地假定途径元素的一个属性是结合反式激活因子的要求。而且,在反式激活的强度已知用于类似控制序列的情况下,该途径元素的转录水平可被合理推理。
因此,应注意假定的属性不是随意假定的值,而是假设至少部分基于已知的信息。而且,应注意假定属性的种类和数值也是参考途径的函数。例如,最典型地,参考途径是健康细胞的途径。因此,属性的数值范围和种类将通常是正常细胞的数值范围和种类的反映。但是,应认识到非正常细胞可也用于建立参考途径。
应尤其认识到,因为途径元素的属性通常取决于至少一个或更多个其他途径元素的一个或更多个属性,所以现在可以以概念上简单和有效的方式构建多维途径图,而不需要每一属性的定量覆盖。实际上,由于具有不仅仅表达数值线性值,并且也表达功能信息和相互依赖的属性,现在可以以显著的分辨率和精确性建立复杂的途径模式。
这种途径模式通常使用偶联至途径元素数据库的修正引擎产生,其中修正引擎用于(1)将第一途径元素与至少一个先验已知属性关联,(2)将第二途径元素与至少一个假定属性关联,和(3)分别使用已知和假定属性交叉关联并且指定至少一个途径的第一和第二途径元素的影响水平,以最终形成概率途径模型。例如,第一途径元素与至少一个先验已知属性的关联可以以许多方式进行。但是,尤其优选地,属性表达为n-元组属性之一,其直接关联途径元素。最典型地,已知属性获得自等同综述的出版物。但是,第二信息来源(例如,从各种数据库比如SWISSPROT、EMBL、OMIM、NCI-PID、Reactome、Biocarta、KEGG等汇编的和公众可获得的信息)也视为合适的。类似地,假定的属性可手动,并且更优选地以至少半自动方式关联途径元素。
交叉关联可通过多种技术实现。在一些实施方式中,途径元素可手动地交叉关联。但是,在更优选的实施方式中,元素可通过一个或更多个自动的技术交叉关联。例如,经寻求发现可能相关性的修正引擎,可就它们的性质分析许多元素。修正引擎可配置为经多变量分析、遗传算法、推论推理或其他技术寻求这种相关性。推论推理的实例可包括应用多种形式的逻辑,包括演绎逻辑、假设逻辑(abductive logic)、归纳逻辑或其他形式的逻辑。通过应用不同形式的逻辑,具体的假设逻辑或归纳逻辑,考虑的引擎能够发现研究人员否则可能忽略的可能相关性。推论推理的另一实例可包括使用对概率模型推论的应用,比如置信传播(belief propagation)、环置信传播、联合树(junction tree)、变量消除(variableelimination)或其他推论方法。
影响水平表示在包括具有已知属性的元素的途径上假定属性具有的定量值。影响水平可包括单个值或多个值。单个值的例子可包括权重因子,可能作为绝对值或评估的途径系统中相对其他已知影响的标准化值。示例性多值影响水平可包括具有可能分布宽度的值范围。进一步,影响水平的初始值可通过各种技术建立,包括手动设置。在更优选的实施方式中,初始值可通过修正引擎阐释的手动估计建立。例如,根据一个或更多个元素或途径性质的相对“距离”可用于衡量影响水平的权重。距离可以是精确距离或可以是距离的平方。在另一实例中,影响水平可通过最大化途径系统中所有其他值之间的影响水平的可能性测定。
然后基于途径元素获得的和假定的属性建立交叉关联和影响的指定。而且,因为途径元素是已经已知的途径元素,应注意元素与各自途径的关联是先验建立的。但是,并且与之前已知的系统和方法相反,这样建立的概率途径模型允许使用交叉关联和影响的指定预测给定途径中每一元素的功能相关性和权重影响。当然,应认识到可为健康细胞和组织以及衰老的、挑战的或其他患病的细胞或组织建立概率途径模型。
最优选地,分析引擎将然后采用概率途径模型从患者样品的多个元素的多个测量属性获得动态途径图。例如,患者样品可获得自生物流体、活组织检查或外科手术样品,并且将通常使用本领域熟知的方法分析。因此,测量的属性包括突变、差别遗传序列对象、一个或更多个具体基因的基因拷贝数、一个或更多个具体基因的转录水平、一个或更多个具体蛋白质的翻译水平、蛋白质活性、蛋白质相互作用、分析物(例如,代谢产物)的存在和/或数量、或疾病的标记等,以及其他合适的属性。
在尤其优选的方面中,将测量的属性输入概率途径模型,以获得可指示与概率途径模型偏离的动态途径图。因此,应认识到动态途径图将为使用者提供具体途径(其可对正常组织、患病组织、衰老组织或恢复组织等是特异性的)的参考途径活性信息。结果,并且从不同的角度观察,动态途径图将允许使用者容易基于相对有限数目的测量属性鉴定与患者样品中的一个或更多个途径相关的信息。
因此,发明人也考虑产生动态途径图的方法,其中提供使用者对存储概率途径模型的模型数据库的访问,所述概率途径模型包括多个途径元素。当然,这种访问可以以多种方式控制,因为具体的访问方案将至少部分取决于具体的使用。但是,通常优选的是,访问是按次使用收费(pay-per-use)访问或预授权访问。可选地,模型数据库也可经公众可用的网络访问。如之前已经讨论的,通常优选地,多个途径元素的至少一些根据已知属性交叉关联并且指定至少一个途径的影响水平,和另一数目的多个途径元素根据假定属性交叉关联并且指定至少一个途径的影响水平,和分析引擎用患者样品的多个元素的多个测量属性修正概率途径模型,以获得动态途径图,其中动态途径图包括具体途径的最优选参考途径活性信息。
当然,应认识到考虑的系统和方法不仅仅适合第一样品相对于标准途径模型(例如,表示健康供体)的分析,而且这种系统和方法也允许患病组织相对健康组织的患者内分析,以预测组织的途径活性信息。因此,使用来自相同患者的两个样品(即,来自患病组织和非患病组织),可预测患病组织对某些药物的易感性。结果,发明人也考虑分析生物学相关信息的方法,其中提供对存储动态途径图的模型数据库的访问,其中用第一细胞或患者样品的多个元素的多个测量属性通过修正概率途径模型产生DPM。随后,获得第二细胞或患者样品的多个元素的多个测量属性,并且动态途径图和第二细胞或患者样品的多个元素的多个测量属性然后被分析引擎使用,以测定第二细胞或患者样品的预测的途径活性信息。
结果,第一细胞或患者样品的多个元素的测量属性可表征为健康细胞或组织、特定年龄的细胞或组织、特定疾病的细胞或组织、特定疾病阶段的患病细胞或组织、特定性别、特定人种群、特定职业群和甚至特定种类。所计算的信息可提供关于职业、药物治疗、对疾病的诱因等实际的或可能的途径差异的有价值信息。因此,第一和第二样品可同时或在不同的时间(最典型地在开始治疗之后)获得自相同的细胞或患者。尽管考虑本文提供的系统和方法的许多用途,但尤其优选的用途包括其中基于DPM测试患者疾病细胞对一个或更多个药物的易感性,和药物发现的那些用途。在这种用途中,患者或患者样品可经历治疗(通常外科手术、放射和施用药物),和然后接收具有潜在治疗价值的第二药物。
使用这种系统和方法,应认识到预测的途径活性信息可能够将途径元素鉴定为至少一个途径中的分级主导元素,和/或鉴定为与疾病相关的至少一个途径的疾病决定元素。结果,可以以靶向方式使用药物干预,高几率实现期望的结果。在预测的途径活性信息提供至医师的情况下,通常优选产生预测的途径活性信息的图形表示,以使得该信息与从业者的需要更相关。而且,考虑预测的途径活性信息可被系统和/或使用者使用,以表达疾病的诊断、预后或建议(例如,治疗选项的选择或饮食指导)。可选地,或另外地,预测的途径活性信息也可用于鉴定外遗传因子、应激适应、生物体的状态和/或修复或愈合状态。
对本领域技术人员显而易见,超过已经描述那些的许多修改是可能而不背离本文本发明概念。因此,本发明主题只受所附权利要求范围的限制。而且,在解释说明书和权利要求书时,所有术语应以与上下文一致的最宽的可能方式解释。尤其,术语“包括(comprises,comprising)”应以非排他性方式解释为参考要素、组分或步骤,这指示参考的要素、组分或步骤可存在或使用,或结合没有明确涉及的其他要素、组分或步骤。在说明书权利要求引用至少一个选自A、B、C、...和N的项目的情况下,文本应解释为仅仅要求来自该组的一个要素,而不是A加N,或B加N等。
在另外的实施方式中,多核苷酸核酸可用于尚待开发的任何分子生物学技术中,倘若新技术依赖于当前已知的核酸分子特性——包括但不限于这样的特性诸如三联遗传密码子和特定碱基对相互作用。
通过参考以下实施例,本发明将被更容易地理解,所述实施例被包括,仅为了阐释本发明的特定方面和实施方式的目的,而不是作为限制。
实施例
实施例I:数据源
从NCBI基因表达汇编(Gene Expression Omnibus)(GEO)以登录号GPL5737获得Chin(2007,同上)的乳腺癌拷贝数数据,具有来自GSE8757的相关阵列平台注释。
探针注释被转换成BED15格式,以在UCSC癌症基因组浏览器(Cancer GenomicsBrowser)(Zhu:2009,同上)中进行展示和随后分析。阵列数据通过探针ID被映射到探针注释中。来自Naderi(2007,同上)的匹配的表达数据利用登录号E-UCon-1获得自EBI的MIAMIExpress。人lA(V2)的平台注释信息获得自Agilent网站。表达数据为探针水平中值归一化的,并通过探针ID被映射到HUGO基因名称。
所有数据均利用排序程序——包括所有样本-探针值——进行非参数归一化,并且,每一基因-样本对基于排序被给予有符号的p值。最大p值0.05被用于确定被明显改变的基因-样本对。
来自TCGA的恶性胶质瘤数据获得自TCGA Data Portal,其在Affymetrix U133A平台上提供230个患者样本和10个邻近正常组织的基因表达。患者样本的探针通过减去每一探针的中值标准值被归一化成正常组织。另外,获得相同患者组的CBS分段的(Olshen:2004,同上pl618)拷贝数数据。两个数据集均利用与乳腺癌数据相同的程序进行非参数归一化。
实施例II:途径概略(Compendium)
我们收集可从美国国家癌症研究所途径相互作用数据库(NCI PID)(Schaefer:2009,同上)得到的策划的途径的集合。每一途径均代表根据高水平生物分子过程逻辑上被分组在一起的相互作用的集合,所述高水平生物分子过程描述固有的和外在的亚细胞-、细胞-、组织-或生物体-水平的事件和表型。下载BioPAX水平2格式化的途径。所有实体和相互作用利用Rasqal RDF引擎通过SPARQL查询来提取。
我们提取5种不同类型的生物实体(一种或多种),包括3种物理实体(编码蛋白质的基因、小分子和复合体)、基因家族和抽象过程。当BioPAX蛋白质的交叉参考列出不同基因的蛋白质时,产生基因家族。基因家族代表基因的集合,其中任何单一基因均足以执行特定功能。例如,具有多余功能的同系物和被发现在功能上彼此补偿的基因被组成家族。
提取产生途径中应用的每一实体和相互作用的列表,其中注释描述它们的不同类型。我们还提取抽象过程诸如“凋亡”,其是指可以在NCI集合中发现的一般过程。例如,详细描述涉及p53肿瘤抑制基因的相互作用的途径包括向凋亡和衰老的连接,所述凋亡和衰老可作为机器学习分类的特征被调节(leveraged)。
如所期望的,C2E相关性是中等的,但比起由机会所预期的,其具有激活相互作用之间正相关的显著富集(图3)。E2E相关性甚至更强,并被类似地富集。因此,即使在具有困惑特性的该癌症实施例中,明显的途径亚集相互作用使基因组变化与基因表达中的调节联系起来,支持途径-水平方法值得追求的观点。
实施例III:建模和预测生物学途径
我们首先将每一NCI途径转换成不同的概率模型。小片段p53调亡途径的玩具实例显示在图2中。来自NCI的途径图被转换成因子图,其同时包括隐藏的和观察到的状态。因子图结合对基因-和生物过程-相关状态信息的观察与描述实体之中已知相互作用的结构。
为了用因子图表示生物学途径,我们应用变量来描述实体在细胞中的状态,诸如特定mRNA或复合体,并利用因子来代表这些实体之间的相互作用和信息流。这些变量代表每一实体与“对照”或正常水平而不是分子实体的直接浓度相比的\textit{差别}状态。该表示允许我们模拟许多高通量数据集,诸如通过DNA微阵列检测的基因表达,其常常直接测量基因的差别状态或将直接测量结果转换成相对于匹配的对照的测量结果。它还允许基因之间许多类型的调节关系。例如,描述介导p53的泛素依赖性降解的MDM2的相互作用被模仿为抑制p53的蛋白质水平的激活的MDM2。
因子图利用每一实体的随机变量X={x1,x1,….,xn,}编码细胞的状态和一组非负函数或因子,其限制实体采用生物学有意义的值作为彼此的函数。j-th因子φj在实体亚组上限定了概率分布。
实体和因子的整体图编码所有实体上的联合概率分布为:
其中,Z=∏js xjφj(S)是归一化常数,S X表示S是X中变量的‘合并(setting)’。
每一实体可以呈现三种状态中的一种,所述三种状态对应于相对于对照水平(例如,如在正常组织中测量的)激活的、标称的或失活的状态,并分别被编码为1、0或-1。根据实体的类型(例如,基于、蛋白质等),可以不同地解释状态。例如,激活的mRNA实体代表过表达,而激活的基因组拷贝实体代表基因组中存在两个以上的拷贝。
图2显示单一蛋白质-编码基因的因子图的概念模型。对于途径中的每一蛋白质-编码基因G,实体被引入来代表基因组的拷贝数(GDNA)、mRNA表达(GmRNA)、蛋白质水平(G蛋白质)和蛋白质活性(G蛋白质)(图2中标记“DNA”、“mRNA”、“蛋白质”和“激活”的椭圆)。对于途径中的每一化合物、蛋白质复合体、基因家族和抽象过程,我们包括具有分子类型“激活”的单一变量。
虽然图2中的实施例仅显示一个过程(“凋亡”),但事实上,许多途径具有多个这样的过程,其代表从基因活性的输出信息(例如,“凋亡”和“衰老”)到输入信息(例如,“DNA损坏”)的任何事情。
为了简化因子的构建,我们首先将途径转换成有向图,其中图中的每一矢线(edge)标记有正或负影响。首先,对于每一蛋白质编码基因G,我们向矢线加入从GDNA到GmRNA,从GmRNA到G蛋白质和从G蛋白质到G蛋白质的标记“正”,以从基因拷贝数到其蛋白质产物激活形式的存在反映基因的表达。途径中的每一相互作用被转换成有向图中的单一矢线。
利用该有向图,我们然后构建因子列表,以详细说明因子图。对于每一变量xi,我们加入单一因子φ(Xi),其中Xi={xi}∪{亲本}(xi)}和亲本(xi)是指有向图中所有xi的亲本。由于亲本(xi)的合并,所有值合并的因子的值依赖于xi是否与其期望值一致。
对于该研究,期望的值被设置成亲本变量的多数投票(majority vote)。如果亲本由正矢线连接,它有助于+1次其自身状态的投票给因子值。相反地,如果亲本由负矢线连接,则变量投票-1次其自身状态。通过标记“最小”的矢线与xi连接的变量得到一个投票,并且,该投票的值是这些变量的最小值,产生类似与的连接(AND-like connection)。类似地,通过标记“最大”的矢线与xi连接的变量得到一个投票,并且,该投票的值是这些变量的最大值,产生类似或的连接(OR-like connection)。投票为零被处理为放弃的投票。如果没有投票,则期望的状态是零。否则,多数投票是期望的状态,并且1和-1之间的连接产生-1的期望状态,以给予抑制者(repressor)和删除更多的重视。考虑到期望状态的这种限定,φi(xi,亲本(xi))被规定为:
对于本文所显示的结果,ε被设为0.001,但在对ε的选择中的数量级差异并不明显地影响结果。最后,我们将观察变量和因子加入到因子图,以完成途径和多维功能基因组学数据的结合(图2)。每一离散功能基因组学数据集均与蛋白质编码基因的一种分子类型有关。
对拷贝数变化的阵列CGH/SNP评估与‘基因组’类型有关。基因表达数据与‘mRNA’类型有关。虽然没有表示在本文的结果中,但将来的扩充将包括具有‘mRNA’类型的DNA甲基化数据和具有‘蛋白质’和‘激活’类型的基因组学和基因重测序数据。每一观察变量也是三元值的(ternary valued)。与每一观察的数据类型有关的因子在所有实体中都有,并且是从数据中获得,如在后面描述的。
实施例IV:推断和参数估计
使赋值的集合D={x1=s1,x2=s2,x2,….,xk=sk,}表示针对下标为从1到k的观察变量患者的完整数据集合。使{S D X}表示与D中的赋值一致的变量X的集合的所有可能赋值的集合;即,任何观察变量x1均被固定成其在D中的赋值,而隐藏变量可以变化。
考虑到患者数据,我们想评估特定隐藏实体x1是否有可能处于状态a,例如,TP53的蛋白质活性为-1(失活的)或‘调亡’为+1(激活的)的可能性如何。为此,我们必需在观察患者数据之前计算事件的先验概率。如果Ai(a)表示单独的赋值集合{x1=a}和φ是完全指定的因子图,则该先验概率为:
其中,Z是引入到等式(1)中的归一化常数。类似地,x1与患者的所有观察结果一起处于状态的概率是:
我们使用联合树推断算法和大部分途径的HUGIN更新。对于每个患者花费3秒以上进行推断的途径,我们使用置信传播以及相继的更新、收敛公差为10-9和最多10,000次迭代。所有推断均在实域而不是对数域中进行,并且利用libDAI(Mooij:2009,同上)执行。
为了学习观察因子的参数,我们使用最大期望(EM)算法(Dempster(1977),同上)。简言之,通过在推断隐藏变量的概率和改变参数来最大化给予隐藏变量概率的可能性之间迭代,EM得知具有隐藏变量的模型中的参数。我们写下并贡献编码给libDAI,以执行EM。对于每一途径,我们针对每一患者产生因子图,应用患者的数据和运行EM直到可能性改变小于0.1%。我们将从每一途径学习的参数取平均值,然后使用这些参数来计算每一变量的最终后验信念。
在推断之后,我们输出具有“激活”分子类型的每一变量的集成途径活性。我们利用来自等式2和3的量计算对数似然比,所述等式2和3反映患者数据增加我们的信念——实体i的活性上或下(uo or down)——的程度:
我们然后根据对数似然比计算基因i的单一集成途径活性(IPA)为:
直观地,IPA分数反映对数似然比的有符号的模拟(analog),L。
如果基因更可能被激活,则IPA被设为L。可选地,如果基因更可能被失活的,则IPA被设为对数似然比的负数。如果基因最可能不变,则IPA被设为零。每一途径均独立于其它途径被分析。因此,基因可以与多重推断关联,每一其在其中出现的途径一个。相同基因的不同推断可被看做对作为基因途径背景的函数的数据的可选解释。
实施例V:显著性评估
我们通过数据的两种不同置换评估IPA分数的显著性。对于“内部”置换,置换的数据样本通过选择新的数据元组(即,匹配的基因表达和基因拷贝数)而产生,首先通过选择随机真实样本,然后从相同途径中选择随机基因,直到针对途径中的每一基因均选择了元组。对于“任何”置换,程序是相同的,但随机基因选择步骤可以从基因组中的任何地方选择基因。对于两种置换类型,产生1,000个置换的样本,并计算每一置换样本的干扰分数。置换样本的干扰分数的分布被用作零分布,以评估真实样本的显著性。
实施例VI:信号传导途径影响分析(SPIA)
Tarca(2009,同上)的信号传导途径影响分析(SPIA)在C中实施,以减少运行时间并与我们的分析环境兼容。我们还增加能力来提供更详细的输出信息,以便我们可以直接比较SPIA和PARADIGM输出信息。我们的SPIA版本可以针对途径中的每一实体输出积累的干扰和干扰因子。此代码可应要求提供。
实施例VII:诱饵途径
针对每一癌症数据集产生诱饵途径集合。每一NCI途径均被用于产生诱饵途径,其由相同的结构组成,但其中途径中的每一基因在RefGene中被取代为随机基因。所有复合体和抽象过程保持相同,并且,PARADIGM和SPIA的显著性分析在同时含有真实途径和诱饵途径的途径集合上运行。途径在每一方法中被排序,并且真实途径对比总途径的分数被计算并可视化。
实施例VIII:聚类和Kaplan-Meier分析
利用Eisen(1998,同上,pl621)的方法,在恶性胶质瘤数据上执行具有形心连接(centroid linkage)的非中心相关分级聚类。仅在75个患者样本中具有至少0.25信号的IPA被用于聚类。通过目视观察,出现四个明显的聚簇,其被用于Kaplan-Meier分析。利用R计算Kaplan-Meier曲线,并且,通过对数秩统计获得p-值。
实施例IX:PARADIGM的确认
为了评估EM训练程序的性质,我们利用相对于零数据集的实际患者数据比较EM的收敛,在零数据集中,基因表达和拷贝数(E,C)的元组在基因和患者中被置换。如所期望地,PARADIGM在真实数据集上相对于零数据集收敛快得多。作为实例,将基因AKT1的IPA作为EM迭代的函数绘图(图4)。可以看到,在第一对迭代中活性迅速收敛。当用实际患者数据训练时,EM迅速收敛到激活水平,然而,当给予随机数据时,它收敛到不变的活性。收敛表明途径结构和推断能够成功地鉴定集成的患者数据中的活性式样。
我们接下来在乳腺癌和GBM同龄组上同时运行PARADIGM。我们开发的统计模拟程序来测定哪个IPA明显不同于通过负分布预期的。我们通过在所有患者中和在途径的基因中进行置换建立负分布。根据经验,我们发现仅在途径中的基因之间进行置换对于帮助校正事实——每个基因具有由网络检测的不同拓扑背景——是必要的。在乳腺癌数据集中,发现56,172个IPA(总计的7%)明显高于或低于匹配的阴性对照。平均,NCI途径每一患者具有497个明显的实体,并且,127个途径中的103个在20%或更多患者中具有至少一个改变的实体。在GBM数据集中,发现141,682个IPA(总计的9%)明显高于或低于匹配的阴性对照。平均,NCI途径每一患者具有616个明显的实体,并且,127个途径中的110个在20%或更多患者中具有至少一个改变的实体。
作为另一对照,我们质疑集成的活性是否可以获得自以与NCI途径中的基因相同的方式连接的任意基因。为此,我们评估错误发现率(false discovery rate),并将其与SPIA比较(Tarca:2009,同上)。由于发现许多遗传网络参与癌症,所以我们选择使用模拟的“诱饵”途径作为阴性对照的集合。对于每一NCI途径,我们通过利用与NCI途径相同的网络结构将基因组中的随机基因连接在一起来建立诱饵途径。
我们然后运行PARADIGM和SPIA,来推导NCI和诱饵途径的IPA。对于PARADIGM,我们通过在借助于途径大小归一化后被发现在患者中明显的IPA数目来排序途径。对于SPIA,根据其计算的影响因子来排序途径。我们发现,与SPIA相比,PARADIGM从最高激活的途径中排除更多的诱饵途径(图5)。例如,在乳腺癌中,PARADIGM在前10中排序1个诱饵,在前30中排序2个和在前50中排序4个。相比较,SPIA在前10中排序3个诱饵,在前30中排序12个和在前50中排序22个。通过将排序的积累分布绘图观察到,NCI IPA的整体排序分布在PARADIGM中比在SPIA中高(P<$0.009,K-S检验)。
实施例X:乳腺癌和GBM中的顶部PARADIGM途径
我们根据由我们的置换分析检测的其每一实体的显著IPA的平均数来分类NCI途径,并计算乳腺癌(表1)和GBM(表2)中的前15。
前15之中的若干途径之前已经在其各自的癌症中被暗示过了。在乳腺癌中,SPIA和PARADIGM均能够检测雌激素-和ErbB2-相关途径。在最近的主要元分析研究(WirapatiP,Sotiriou C,Kunkel S,Farmer P,Pradervand S,Haibe-Kains B,Desmedt C,Ignatiadis M,Sengstag T,Schütz F,Goldstein DR,Piccart M,Delorenzi M.Meta-analysis of gene expression profiles in breast cancer:toward a unifiedunderstanding of breast cancer subtyping and prognosis signatures.BreastCancer Res.2008;10(4):R65.)中,Wirapeti等发现雌激素受体和ErbB2状况是乳腺癌中仅有的三个关键预后特征中的两个。PARADIGM也能够鉴定AKT1–相关的PI3K信号传导途径为最高的途径,在若干样本中具有明显的IPA(见图6)。
表1.乳腺癌中的顶部PARADIGM途径
a其中每一实体被检测显著活性的样本平均数目。
b如果途径也被排序在SPIA的前15中,则为是;否则为否。
表2.GBM中的顶部PARADIGM途径
a其中每一实体被检测显著活性的样本平均数目。
b如果途径也被排序在SPIA的前15中,则为是;否则为否
已知抗调亡AKT1丝氨酸-苏氨酸激酶包参与乳腺癌中并与ERBB2途径相互作用(JuX,Katiyar S,Wang C,Liu M,Jiao X,Li S,Zhou J,Turner J,Lisanti MP,Russell RG,Mueller SC,Ojeifo J,Chen WS,Hay N,Pestell RG.Aktl governs breast cancerprogression in vivo.Proc.Natl.Acad.Sci.U.S.A.2007 May;104(18):7438-7443)。在GBM中,FOXM1和HIF-1-α转录因子网络均已被广泛研究并显示在高级恶性胶质瘤对比低级神经胶质瘤中过表达(Liu M,Dai B,Kang S,Ban K,Huang F,Lang FF,Aldape KD,Xie T,Pelloski CE,Xie K,Sawaya R,Huang S.FoxM1B is overexpressed in humanglioblastomas and critically regulates the tumorigenicity of gliomacells.Cancer Res.2006 Apr.;66(7):3593-3602;Semenza GL.HIF-1 and humandisease:one highly involved factor.Genes Dev.2000 Aug.;14(16):1983-1991)。
实施例XI:数据集的可视化
为了显示PARADIGM推断的结果,我们发展了“CircleMap”可视化,来展示以途径中每一基因为中心的多个数据集(图7)。在该展示中,通过围绕基因绘制同心环,将每一基因均与同龄组中所有其数据关联,其中每一环对应于单种类型的测量结果或计算推断。环中的每一记号(tick)均对应于单一的患者样本,而颜色对应于激活的(红色)、失活的(蓝色)或不变的(白色)活性水平。我们绘制ErbB2途径亚集的CircleMap,并包括乳腺癌同龄组的ER状况、IPA、表达和拷贝数数据。
基因表达数据已经被成功地用于限定各种癌症的分子亚型。已经发现,癌症亚型与不同临床结果诸如药物灵敏性和总存活率相关。我们质疑我们是否可以利用PARADIGMIPA而不是原始表达数据鉴定GBM的有教益的亚型。利用IPA的优势是它们提供拷贝数、表达和基因之间已知相互作用的概述,并因而可以提供用于说明有意义的患者亚组的、更有力的特征。我们首先测定在GBM样本中至少被适度再次激活的所有IPA,发现在229样本中的至少75个中,1,755个实体具有0.25的IPA。我们将这些实体的所有IPA收集在活性矩阵中。然后,样本和实体通过非中心皮尔森相关性和形心连接利用分级聚类进行聚类(图8)。
视觉检查揭示基于IPA的四个明显的亚型,其中第四个亚型明显与前三个不同。第四个聚簇显示HIF-1-α转录因子网络的明显下调以及E2F转录因子网络的过表达。HIF-1-α是主转录因子,其参与对缺氧条件应答的调节。相反地,前三个聚簇中的两个具有提高的EGFR特征和失活MAP激酶级联,其参与GATA白细胞介素转录级联。有趣地,EGFR中的突变和扩增与高级神经胶质瘤以及恶性胶质瘤有关(Kuan CT,Wikstrand CJ,Bigner DD.EGFmutant receptor vIII as a molecular target in cancertherapy.Endocr.Relat.Cancer 2001 Jun.;8(2):83-96)。通过二聚物的自我激励或通过配体-独立性激活,扩增和某些突变可以产生构成型活性EGFR。EGFR的构成型活化可以促进肿瘤发生和实体肿瘤的发展。吉非替尼——已知靶向EGFR的分子——现在正被研究其在其它EGFR-驱动癌症中的功效。因此,在质量上,聚簇似乎深入(honing)可以对患者分级的生物学上有意义的主题中。
为了量化这些观察,我们想知道由PARADIGM鉴定的不同GBM亚型是否与不同存活概况一致。通过绘制存活患者的比例对比初始诊断后的月数,我们计算四个聚簇中每一个的Kaplan-Meier曲线。我们绘制四个聚簇中每一个的Kaplan-Meier存活曲线,以了解是否与不同IPA特征有关的任何聚簇对于存活结果是可预测的(图9)。第四个聚簇明显不同于其它聚簇(P<2.11×10-5;Cox比例风险检验)。前三个聚簇中有一半的患者存活超过18个月;存活率对于聚簇4患者明显提高,其中一半存活超过30个月。另外,在20到40个月的范围内,聚簇4中的患者是其它聚簇中的患者存活可能性的两倍。
实施例XII:聚簇的Kaplan-Meier存活图
存活率分析揭示,聚簇4中的患者具有明显更好的存活概况。发现聚簇4具有E2F的上调,其与成视网膜细胞瘤肿瘤抑制剂起作用。因此,E2F的上调与聚簇4患者的肿瘤样本中细胞周期发展的活性抑制一致。另外,聚簇4与HIF-1-α转录因子的失活有关。第四聚簇中的失活可以是肿瘤被更多氧化的标记,表明它们可能是更小或更新的肿瘤。因此,PARADIGMIPA提供有意义的概况集合,用于描绘具有明显不同存活结果的亚型。
为了比较,我们还尝试仅利用表达数据或CNA数据来聚类患者,以推导患者亚型。利用任意一种这些数据源均没有从聚类中发现明显的组,这与在该数据集的原始TCGA分析中的发现一致(TCGA:2008)(见图14)。这表明,基因之间的相互作用和所得单个基因表达的组合输出信息可以提供作为患者结果的这种复合体表型的更好的预测者。
实施例XIII:卵巢癌的集成基因组分析:样本和临床数据。
该报告涵盖对489个临床上注释的II-IV阶段HGS-OvCa和相应的正常DNA的分析。患者反映被诊断患有HGS-OvCa的个体的诊断时的年龄、阶段、肿瘤级别和手术结果。临床数据是2010年8月25日的当前数据。HGS-OvCa样本在系统治疗前被经手术切除,但所有患者均接受铂剂和94%接受紫杉烷。同龄组的中位无进展存活率和总存活率类似于之前公布的试验11、12。25%的患者保持没有疾病和45%在最后随访时存活,而31%在完成基于铂的疗法后的6个月内发展。中位随访为30个月(范围从0到179)。用于TCGA分析的样本被选择具有>70%肿瘤细胞核和<20%坏死。
在独立位点利用多分子检验完成协调分子分析,如表4中两个等级(tier)中所列(数据可以在http://tcga.cancer.gov/dataportal获得)。等级1数据集是公开可得的,而等级2数据集包括可以鉴定个体的临床或基因组信息,因而需要如在http:// tcga.cancer.gov/dataportal/data/access/closed/中所描述的资格。
实施例XIV:突变分析。
针对分离自316个HGS-OvCa样本和每个个体的匹配的正常样本的DNA进行外显子捕获和测序。捕获试剂靶向~18,500个基因的~180,000个外显子,总计~33兆碱基的非冗余序列。在Illumina GAIIx平台上(236个样本对)或ABI SOLiD 3平台上(80个样本对)进行大规模平行测序,每样本产生~14千兆碱基(总计~9×109碱基)。平均,76%的编码碱基在肿瘤和匹配的正常样本中均被足够深地覆盖,以允许可靠的突变检测。注释了19,356个体细胞突变(每个肿瘤~61),其在表4中被分类。在HGS-OvCa病理生理学中可能重要的突变通过如下被鉴定:(a)搜索相对于背景以明显提高的频率存在的非同义或剪接位点突变,(b)比较该研究中的突变与COSMIC和OMIM中的那些,和(c)预测对蛋白质功能的影响。
两种不同的算法鉴定了9个基因(表5),其非同义或剪接位点突变的数目明显高于基于突变分布模型所预期的。与公布的结果13一致,TP53在316个样本的303中发生突变(283通过自动化方法和20在人工检查后),BRCA1和BRCA2分别在9%和8%的例子中具有种系突变,它们在另外3%的例子中均显示体细胞突变。鉴定6个其它统计学上再发生的突变基因;RB1、NF1、FAT3,CSMD3、GABRA6和CDK12。CDK12包含在RNA剪接调节14中,并之前牵连在肺和大肠肿瘤15、16中。9个CDK12突变中的5个是无义的或插入/缺失缺失,表明可能丢失功能,而四个错义突变(R882L、Y901C、K975E和L996F)聚集在其蛋白质激酶结构域中。GABRA6和FAT3均随着明显的突变而出现,但是似乎并不在HGS-OvCa或输卵管组织中表达,所以这些基因的突变在HGS-OvCa中发挥重要作用较不可能。
将该研究中的突变与COSMIC 17和OMIM 18数据库中的突变进行比较,以鉴定通常较少突变的、另外的HGS-OvCa基因。这分别产生477个和211个配对,包括BRAF(N581S)、PIK3CA(E545K和H1047R)、KRAS(G12D)和NRAS(Q61R)中的突变。已经表明这些突变显示转化活性,所以,我们相信这些突变是HGS-OvCa中稀有而重要的驱动者。
我们结合蛋白质家族的序列比对的进化信息和脊椎动物全基因组,预测了居局部蛋白质结构,并选择人SwissProt蛋白质特征,在已知癌基因中的突变和肿瘤抑制剂上进行训练后利用CHASM 19、20鉴定假定的驱动突变。CHASM鉴定了被预测为致癌的122个错义突变。通过比较蛋白质家族序列比对和利用突变评价器(Assessor)在已知或基于同源的三维蛋白质结构中的残基替换,从所有确定的体细胞错义突变的进化信息中推断蛋白质功能中的突变-驱动变化。27%的错义突变被预测为影响蛋白质功能。
实施例XV:拷贝数分析。
489个HGS-OvCa基因组中存在的体细胞的拷贝数变化(SCNA)被鉴定,并与图37A中的多形性成胶质细胞瘤(glioblastome multiforme)数据进行比较。将SCNA分成影响延伸的染色体区域的区域异常和较小的病灶性异常。对于区域异常的统计学分析鉴定8个再发生的获得(gain)和22个丢失(loss),其均在之前被报道过22(图37B)。5个获得和18个丢失发生在50%以上的肿瘤中。
GISTIC被用于鉴定再发生的病灶性SCNA。这产生63个病灶性扩充区域(图37C),包括编码8个或更少基因的26个区域。最常见的病灶性扩充编码CCNEl、MYC和MECOM(图37C),其均在20%以上的肿瘤中被高度扩增。HGS-OvCa中新紧密定位的扩增峰编码以下的受体:激活的C-激酶,ZMYND8;p53目标基因,IRF2BP2;DNA-结合蛋白抑制剂,ID4;胚胎发育基因,PAX8;和端粒末端转移酶催化亚单位,TERT。三个数据源:http://www.ingenuity.com/,http://clinicaltrials.gov和http://www.drugbank.ca被用于鉴定扩增的过表达基因的可能的治疗抑制剂。该搜索鉴定22个基因,其是治疗靶,包括在至少10%的例子中扩增的MECOM、MAPK1、CCNE1和KRAS。
GISTIC也鉴定50个局灶性缺失。已知肿瘤抑制基因PTEN、RB1和NF1位于至少2%肿瘤的纯合子缺失的区域中。重要的是,RB1和NF1也属于明显突变的基因。一个缺失仅包括三个基因,包括必要细胞周期控制基因,CREBBP,其具有5个非同义和2个移码突变。
实施例XVI:mRNA和miRNA表达和DNA甲基化分析
从三个不同平台(Agilent、Affymetrix HuEx、Affymetrix U133A)的11,864个基因的表达测量结果被结合,用于亚型鉴定和结果预测。单个平台测量结果具有有限的、但统计学上显著的批量效应,然而结合的数据集合没有。对结合数据集的分析鉴定~1,500固有的可变基因,其被用于NMF一致聚类。该分析产生四个聚簇(图38a)。应用于Tothill等的公众可得的数据集的相同分析方法也产生四个聚簇。Tothill和TCGA聚簇的比较显示明显的相关性。我们因此推断至少四个强表达亚型存在于HGS-OvCa中。
根据聚簇中的基因含量和之前的观察25,我们将四个HGS-OvCa亚型称为免疫反应性亚型、分化亚型、增殖亚型和间充质亚型。T细胞趋化因子配体,CXCL11和CXCL10和受体,CXCR3表征免疫反应性亚型。转录因子诸如HMGA2和SOX11的高表达、卵巢肿瘤标记(MUCl、MUC16)的低表达和增殖标记诸如MCM2和PCNA的高表达限定增殖亚型。分化亚型与MUC16和MUCl的高表达和与分泌输卵管标记SLPI的表达有关,表明发育的更成熟阶段。暗示增加的基质成分诸如肌成纤维细胞(FAP)和微血管周细胞(ANGPTL2、ANGPTL1)的HOX基因和标记的高表达表征间充质亚型。
提高的DNA甲基化和降低的肿瘤表达暗示与输卵管对照26相比在HGS-OvCa中被表观遗传沉默的168个基因。DNA甲基化与所有样本中降低的基因表达有关。AMT、CCL21和SPARCL1是值得注意的,因为它们在大部分肿瘤中显示启动子超甲基化。难以理解的是,RAB25——之前被报道在卵巢癌中被扩增和过表达——也似乎在肿瘤亚集中被表观遗传沉默。BRCA1启动子在489个肿瘤中的56个(11.5%)中被超甲基化和沉默,如之前报道的。肿瘤中的可变DNA甲基化的一致聚类鉴定四种亚型,其明显与年龄、BRCA失活事件和存活率差异有关。然而,聚簇仅显示适度的稳定性。
对于TCGA数据集中的转录亚型,存活持续时间并不明显不同。增殖组显示MYC扩增和RB1缺失速率的下降,然而,免疫反应性亚型显示3q26.2(MECOM)扩增的频率提高。注意到DNA甲基化聚簇和基因表达亚型之间中等而明显的重叠(p<2.2*10-16,卡方检验、调整后的兰德指数(Adjusted Rand Index)=0.07)。
利用来自215个样本的表达数据集合限定预测总存活率的193个基因的转录特征。在单变量Cox回归分析之后,108个基因与差的存活率有关和85个与好的存活率有关(p-值截止为0.01)。针对255个TCGA样本的独立集合以及三个独立表达数据集合25、29、30验证预测能力。每一确定样本被指定预后基因分数,反映其表达概况和预后基因特征31之间的相似性(图38c)。该特征的Kaplan-Meier存活分析显示与所有确认数据集合中存活率的统计学上显著的相关(图38d)。
miRNA表达数据的NMF一致聚类鉴定三个亚型。有趣的是,miRNA亚型1与mRNA增殖亚型重叠和miRNA亚型2与mRNA间充质亚型重叠(图38d)。存活持续时间在iRNA亚型之间明显不同,其中miRNA亚型1肿瘤中的患者存活明显更长(图38e)。
实施例XVII:影响疾病的途径。
若干分析从316个充分分析的例子中集成数据,以鉴定有助于HGS-OvCa的生物学。对已知癌相关途径具有一个或多个突变、拷贝数变化或基因表达变化的频率的分析显示RBI和PI3K/RAS途径分别在67%和45%的例子中被下调(图39A)。利用HotNet33在大的蛋白质-蛋白质相互作用网络32中搜索改变的子网络鉴定若干已知途径,包括Notch信号传导途径,其在23%的HGS-OvCa样本中被改变(图39B)。
公布的研究已经显示,具有突变或甲基化的BRCA1或突变的BRCA2的细胞具有有缺陷的同源重组(HR),并对PARP抑制剂35-37高度应答。图39C显示,20%的HGS-OvCa在BRCAl/2中具有种系或体细胞突变、11%通过DNA超甲基化已经失去BRCA1表达和BRCA1的表观遗传沉默彼此不包含BRCA1/2突变(P=4.4×10-4,Fisher精确检验)。对BRCA状况的单变量存活分析(图39C)显示BRCA突变例子比BRCA野生型例子更好的总存活率(OS)。有趣的是,表观遗传沉默的BRCA1例子显示类似于BRCAl/2 WT HGS-OvCa的存活率(中值OS 41.5 v.41.9月,P=0.69,对数秩检验)。这表明,BRCA1通过彼此独有的基因组和外因基因组机制被失活和患者存活率取决于失活机制。在该研究中发现的其它HR基因——可能导致细胞对PARP抑制剂敏感——中的基因组变化包括EMSY的扩增或突变(8%)、PTEN的局灶性缺失或突变(7%);RAD51C的超甲基化(3%)、ATM/ATR的突变(2%)和范康尼贫血基因的突变(5%)。总的来说,HR缺陷可以存在于大约一半的HGS-OvCa中,为靶向肿瘤这些HR相关异常的PARP抑制剂的临床试验提供基础。
全部BRCA失活事件的集合与所有再次改变的拷贝数峰值的比较揭示在具有BRCA失活的例子中意想不到的低频率的CCNE1扩增(8%的BRCA改变的例子具有CCNE1扩增对比26%的BRCA野生型例子,FDR调整的P=0.0048)。如之前报道的39,与所有其它例子相比,总存活率对于具有CCNE1扩增的患者趋于更短(P=0.072,对数秩检验)。然而,当仅考虑BRCA野生型例子时,CCNE1-扩增的例子没有存活优势(P=0.24,对数秩检验)是显而易见的,表明之前报道的CCNE1存活差异可以通过BRCA-突变的例子的更好存活率来解释。
最后,概率图模型(PARADIGM40)搜索在NCI途径相互作用数据库——鉴定FOXM1转录因子网络(图39D)在87%的例子中明显改变——中改变的途径。FOXM1和其增殖相关目标基因;AURB、CCNB1、BIRC5、CDC25和PLK1一致地被过表达,但未通过DNA拷贝数变化而被改变,指示转录调节。TP53在在DNA损坏42后阻抑FOXMl,表明在HGS-OvCa中高速率的TP53突变有助于FOXMl过表达。在其它数据集中,FOXMl途径在肿瘤中相对于邻近上皮组织中被明显激活,并与HGS-OvCa相关。
实施例XVIII:浆液性卵巢癌中频繁改变的途径
为了通过对拷贝数和基因表达的集成分析来鉴定明显改变的途径,我们应用PARADIGM。计算模型结合拷贝数变化、基因表达数据和途径结构来产生途径数据库中存在的每一基因、复合体和遗传过程的集成途径活性(IPA)。我们使用术语“实体”来指代途径中的任何分子,其可以是基因、复合体或小分子。实体的IPA仅指最终活性。对于基因,IPA仅指对蛋白质活性状态的推测的活性,其由途径中其它基因的拷贝数、基因表达和信号传导来推断。我们将PARADIGM应用到卵巢样本中,发现美国国家癌症研究所的途径相互作用数据库(NCI-PID)中包含的途径中许多不同基因和过程中的变化。我们利用1000次随机模拟来评估推断的变化的显著性,在所述随机模拟中使用具有相同结构的途径但任意基因被指定在途径中的不同点处。换言之,给定途径的一次随机模拟保持相互作用的集合固定,以便任意基因集合与途径的相互作用联系在一起。针对相同的零分布评估所有样本的IPA的显著性,以获得每一样本中每一实体的显著性水平。IPA和其中它们是显著的样本百分比以及标准差至少为0.1的IPA显示为图28中的热图。
表3显示相对于由PARADIGM发现的置换样本通过至少三个标准差改变的途径。FOXMl转录因子网络在所有测试途径间的最大数目的样本中被改变——当在样本中取平均值时,67%的实体具有改变的活性。相比较,在卵巢同龄组中具有次最高水平的改变活性的途径包括PLK1信号传导事件(27%)、极光B信号传导(24%)和血栓烷A2受体信号传导(20%)。因此,在NCI-PID的途径中,FOXMl网络就卵巢样本而言比其它途径具有明显更高的改变活性。
发现肿瘤样本与正常对照相比,FOXMl转录因子网络在最高比例的患者样本中被差别改变(图29)。FOXMl是多功能转录因子,具有三种已知的主导剪接形式,每一种均调节在细胞增殖和DNA修复中具有各种作用的不同的基因亚集。FOXMlc同种型直接调节在细胞增殖中具有已知作用的若干目标,包括AUKB、PLK1、CDC25和BIRC5。另一方面,FOXMlb同种型调节完全不同的基因亚集,所述基因亚集包括DNA修复基因BRCA2和XRCCl。由ATM间接控制的CHEK2直接调节FOXMl表达水平。
我们想知道FOXMl转录因子本身的IPA是否相比其它转录因子的IPA被高度改变。我们比较FOXMl的活性水平与NCI-PID中的所有其它203个转录因子的活性水平。甚至与NCI集合中的其它转录因子进行比较,FOXMl转录因子具有明显较高的活性水平(p<0.0001;K-S检验),进一步表明它可能是重要的特征(图30)。
因为FOXMl也在许多上皮起源的不同正常组织中被表达,所以,我们想知道由PARADIGM鉴定的特征是否是归于被认为在其它组织中正常的上皮特征。为了回答该问题,我们从GEO(GSE10971)中下载了独立数据集,在所述GEO中,输卵管上皮细胞和卵巢肿瘤组织被显微解剖并且基因表达被分析。我们发现,与正常相比,肿瘤样本中的FOXMl水平明显更高,表明FOXMl调节在癌组织中确实被提高超出在正常上皮组织中观察到的(图31)。
由于TCGA卵巢的全部同龄组包含源自高级浆液性肿瘤的样本,我们想知道FOXMl特征是否对于高级浆液是特有的。我们从其中低级和高级浆液性肿瘤均均被制成转录概况的Etemadmoghadam等(2009)的数据集中获得FOXMl和其若干目标的对数表达。该独立数据证实,FOXMl和其若干目标在浆液性卵巢中相对于低级卵巢癌被明显上调(图32)。为了确定FOXMl转录因子网络中的25个基因是否包含在高级疾病中具有更高表达的明显比例的基因,我们利用Etemadmoghadam的数据进行学生t-检验。发现基因组中723个基因(5.4%)在高级癌症对比低级癌症中以0.05的显著性水平被明显上调(利用Benjamini-Hochberg方法针对多重检验进行校正)。发现FOXMl网络的基因中有13个(52%)被差别调节,根据超几何检验(P<3.8*10-l2),这是相当大的比例。因此,当与基因组中的典型基因的表达比较时,FOXMl网络基因的高表达看起来并不与高级疾病特异关联。
FOXMl在许多不同癌症,包括乳腺癌和肺癌中的作用已经被很好地证明,但它在卵巢癌中的作用尚未被研究。FOXMl是多功能转录因子,具有三种已知的剪接变体,每一种均调节在细胞增殖和DNA修复中具有各种作用的不同基因亚集。与该分析有关的FOXMl的相互作用网络的摘录显示在图27中。FOXMla直接调节在细胞增殖中具有已知作用的若干目标,包括AUKB、PLK1、CDC25和BIRC5。相反地,FOXMlb同种型调节完全不同的基因亚集,所述基因亚集包括DNA修复基因BRCA2和XRCCl。由ATM间接控制的CHEK2直接调节FOXMl的表达水平。除了在大部分卵巢患者中提高的FOXMl表达之外,小的亚集也具有通过CBS检测的、提高的拷贝数扩增(在测量的基因组中,所有基因的前5%分位数中19%具有拷贝数增加)。因此,FOXMl的可变剪接调整可以参与DNA修复和细胞增殖之间的控制转换。然而,在这一点上,数据不足以支持该主张,因为区分同种型的外显子结构和外显子阵列探针的位置使其难以区分单个同种型活性。将来对这些样本的mRNA进行高通量测序可以帮助确定FOXMl同种型的差异水平。PARADIGM检测以该转录因子为中心的最高水平的改变活性的观察表明,FOXMl存在于细胞中的关键调节点处。
实施例XIX:数据集合和途径相互作用
拷贝数和表达数据均被结合到PARADIGM推断中。因为具有8个正常组织对照的集合可以应用在表达数据中进行分析,所以通过减去在正常法娄皮欧对照中观察到的基因中值水平,每一患者的基因-值被归一化。拷贝数数据被归一化,以反映肿瘤中检测的基因水平对比正常血液(blood normal)的之间的拷贝数差异。为了输入到PARADIGM中,表达数据取自用于亚型分析的相同集成数据集,并且,拷贝数取自MSKCC Agilent 1M拷贝数数据的分段调用(segmented calls)。
途径的集合获得自NCI-PID,其包含131个途径、11,563个相互作用和7,204个实体。实体是分子、复合体、小分子或在PARADIGM的图形模型中表示为“节点”的抽象概念。抽象概念对应于一般的细胞过程(诸如“凋亡”或“光吸收”)和共有功能活性的基因家族诸如信号转导蛋白的RAS家族。我们收集相互作用,包括蛋白质-蛋白质相互作用、转录调节相互作用、蛋白质修正诸如磷酸化和泛素化相互作用。
实施例XX:在途径背景中集成分子活性的推断。
我们使用PARADIGM,其指定反映每一实体的拷贝数、基因表达和途径背景的集成途径活性(IPA)。
利用基因-和患者-特有的数据剖面(cross-section)的置换评估IPA的显著性。通过随机选择基因组中每一基因的基因表达和拷贝数对的值产生1000个“零”患者的数据。为了评估PARADIGM IPA的显著性,通过指定随机基因给途径同时保留途径结构,我们建立了零分布。
实施例XXI:FOXMl途径的鉴定
虽然FOXMl网络中的所有基因均被用于在随机模拟过程中评估统计学显著性,但为了使FOXMl途径可视化,与根据图29具有明显改变的IPA的FOXMl直接连接的实体被选择包含在图27中。在这些之中,发现对于与FOXMl相互作用具有文献支持的、在DNA修复和细胞周期控制中具有作用的基因被展示。BRCC复合体成员——未在原始NCI-PED途径中被发现——与BRCA2一起被包含在绘图中,根据NCI-PID,所述BRCA2是FOXMl的靶。通过寻找其它NCI途径中CHEK2的上游调节子(例如,在PLK3信号传导途径中发现与ATM的间接连接),鉴定上游DNA修复靶。
实施例XXII:聚类
推断的活性——表示活性概率的变化而不是直接表示活性——的应用使得各种类型的实体被一起聚类到一个热图中。为了整体显示PARADIGM推断的结果,使用艾森聚簇3.0来执行特征过滤(feature filtering)和聚类。0.1的标准差过滤导致7204个途径实体中的1598个保留,并且,对实体和样本均执行平均联结(average linkage)、非中心相关分级聚簇。
实施例XXIII:细胞系模拟许多重要的肿瘤亚型和特征。
用于鉴定临床相关的分子应答预测物的细胞系的有用性取决于决定在肿瘤中应答的不同分子机制在细胞系中有效的程度。我们之前同时以转录和基因组拷贝数水平9报道了细胞系模型和原发性肿瘤之间的相似性,并且,我们利用更高分辨率平台和分析技术改进本文中的这种比较。尤其地,我们应用基因表达概况的分级一致聚类(HCC)来将50个乳腺癌细胞系和5个非恶性乳房细胞系分类成三个转录亚型:腔、基底和新描述的密蛋白-低(图14A)。这些亚型是本文较早描述的改进形式,其中,基底和密蛋白-低分别映射到之前指定的基底A和基底B亚型,表7。改进的高分辨率SNP拷贝数分析(图14B)确认,细胞谱系模拟在原发性肿瘤中发现的8q24(MYC)、1lql3(CCND1)、17ql2(ERBB2)、20ql3(STK15/AURKA)处的再发生扩增的区域和在9p21(CDKN2A)的纯合缺失。考虑到由曲妥珠单抗和拉帕替尼疗法测定的ERBB2肿瘤亚型的临床相关性,我们检查细胞系,其具有作为被指定为ERBB2AMP的特定亚型的ERBB2的DNA扩增。总的来说,我们对腔、基底、密蛋白-低和ERBB2AMP细胞系的鉴定与临床生物学一致。
实施例XIV:细胞系显示对大部分治疗化合物的差异灵敏性。
我们检查我们的细胞系组对77个治疗化合物的灵敏性。我们使用细胞生长分析,其中定量终点(quantitative endpoint)在以9种浓连续3天暴露于每一种剂之后被测量。测试的抗癌化合物包括常规细胞毒性剂(例如,紫杉烷、顺铂、蒽环类抗生素(anthracyline))和靶向剂(例如,SERM和激酶抑制剂)的混合。在许多情况下,若干剂靶向相同的蛋白质或分子作用机制。我们确定对于每一化合物的应答的定量测量为抑制生长50%(命名为GI50)所需的浓度。在潜在的生长数据质量高但未达到50%抑制的情况下,我们将GI50设置成测试的最高浓度。所有化合物的GI50值提供在表8中。我们在进一步分析中排除三个化合物(PS1145、西妥昔单抗(cetuximab)和黄芩苷元),因为在细胞系应答中的可变性最小。
阐明对Sigma AKT1-2抑制剂应答的变化以及有关转录亚型的代表性瀑布图显示在图10A。对该化合物的灵敏性在腔和ERBB2AMP中最高,而在基底和密蛋白-低乳腺癌细胞系中较低。绘制显示所有化合物在细胞系中的GI50值分布的瀑布图。通过以3或4次重复计算229个化合物/细胞系组合的GI50值的中值绝对偏差,我们确定全部数据集合的再现性。在这些重复中,中值平均偏差为0.15(图15)。通过计算GI50值集合之间的成对皮尔逊相关性,我们评估对8种化合物应答的一致性(图15B)。具有相似作用机制的成对药物的敏感性高度相关,表明相似的作用方式。
实施例XV:许多化合物在细胞系亚集中优先有效。
该研究的重要前体是在应答和临床前细胞系分析中观察的分子亚型之间的关联将在临床中在其中细胞系中的预测分子特征反映在人肿瘤中的实例中重现。通过利用非参数ANOVA比较转录和基因组学亚型中的GI50值,我们建立了应答-亚型关联。
总的来说,74个测试化合物中的33个显示转录亚型特异性应答(FDR p<0.2,表7和表9)。图10C显示与腔、基底、密蛋白-低和ERBB2AMP亚型中的一个或多个有显著相关的34种剂的分级聚类。与亚型最强相关的11种剂是受体酪氨酸激酶信号传导和组蛋白脱乙酰酶的抑制剂,并且在腔和/或ERBB2AMP细胞系中具有最高的功效。三个次最亚型特异性剂——依托泊苷、顺铂和多西紫杉醇——在基底和/或密蛋白-低细胞系中显示优先的活性,如在临床中观察到的。靶向有丝分裂器的剂,包括伊沙匹隆、GSK461364(polo激酶抑制剂)和GSK1070916(极光激酶抑制剂)针对基底和密蛋白-低细胞系也更有活性。AG1478、BIBW2992和吉非替尼——其均靶向EGFR和/或ERBB2——与ERBB2扩增正相关。格尔德霉素,一种HSP90的抑制剂,也与ERBB2扩增正相关。有趣的是,VX-680(极光激酶抑制剂)和CGC-11144(聚胺类似物)均与ERBB2扩增负相关,表明这些对于ERBB2AMP肿瘤是相对差的治疗方法。
我们鉴定应答和再发生的局灶性高水平拷贝数异常之间的7个关联(6种独特化合物)(CNA;样本t-检验,FDR p<0.2,表10)。图10D显示(a)在9p21(CDKN2A和CDKN2B)处的纯合缺失与对长春瑞宾,伊沙匹隆和fascalypsin的应答有关。Fascalypsin抑制CDK4,并且,这种特异性与CDKN2A的pl6INK4A产物在抑制CDK420中的作用一致。(b)在20ql3(其编码AURKA)处的扩增与对靶向AURKB和AURKC23的GSK1070916和VX-680的抵抗而不是灵敏性有关。这表明,AURKA的扩增提供AURKB和AURKC抑制剂的旁路机制。(c)在1lql3(CCND1)处的扩增与对卡铂和AURKB/C抑制剂GSK1070916的灵敏性有关。
实施例XVI:亚型特异性支配生长速率作用。
一般,我们发现腔亚型细胞系比基底或密蛋白-低细胞生长更慢(Kruskal-Wallis检验,p=0.006,图16A和表7),并且,倍增时间的范围较宽(18到300个小时)。这提高大部分灵敏性细胞系是生长最快速的那些的可能性。如果是这样,那么观察的与亚型的关联性可以表示与变量的关联性。通过利用协方差分析(ANCOVA)同时评估亚型和倍增时间的作用,我们检测该假设,发现33个亚型特异性化合物中的22个与亚型比与倍增时间具有更好的关联性(p-值的平均对数比=0.92,标准差1.11)。这支持亚型成员资格(membership)与生长速率相比是应答的更好的预测物的观点。此外,33个亚型特异性化合物中的15个在更缓慢生长的腔细胞系中更有效(表7)。一种剂,5-氟尿嘧啶,在单独的亚型检测中不显著,但在ANCOVA模型中对于类型和倍增时间均显示强的显著性。对5-氟尿嘧啶的应答在腔和基底细胞系中均随倍增时间增加而降低(图16B)。我们推断,在大部分情况下,3-天生长抑制分析检测未被生长速率强烈影响的分子特征-特异性应答。
实施例XVII:拷贝数和转录测量结果的集成鉴定亚型特异性应答的途径。
我们应用网络分析工具PARADIGM24鉴定细胞系组中亚型之中途径活性的差异。通过策划的途径部分重叠的事实来完成分析。例如EGFR,PI3激酶和MEK在实际上它们是单一较大途径的成分时常常被策划作为单独的途径。为了解决该问题,PARADIGM将大约1400个策划的信号转导、转录和代谢途径合并成单个叠加的途径(超途径),以消除这种冗余。同时利用特定细胞系的拷贝数和基因表达数据,PARADIGM应用途径相互作用来推断每一基因、复合体和细胞过程的集成途径水平(IPL)。
我们通过其途径活化利用PARADIGM IPL比较细胞系与原发性乳房肿瘤。利用通过癌症基因组图谱(TCGA)项目(http://cancergenome.nih.gov)产生的数据进行细胞系-肿瘤数据的比较。图11显示每一肿瘤和细胞系在分级聚类之后的途径活性。每一亚型的前5个途径特征列于表11中。总的来说,肿瘤和细胞系亚型显示类似的途径活性,并且,被下调的途径与转录亚型比原来更好地相关联(图13)。然而,与密蛋白低细胞系亚型有关的途径在肿瘤中未被很好地表现——这可能是由于密蛋白-低亚型在细胞系集合中过表达和腔A亚型缺失(图12)。
实施例XVIII:鉴定亚型特异性途径标记。
我们想知道内在途径活性是否是否构成亚型之间差异的基础。为此,我们鉴定超途径的子网络,所述超途径包含在一个亚型的细胞系中与其余相比被差异上调或下调的基因活性。基底细胞系和集合中其余的之间的途径活性的比较鉴定这样的网络,其由通过941条矢线连接的965个节点组成,其中节点表示蛋白质、蛋白质复合体或细胞过程,矢线表示这些元素之间的相互作用诸如蛋白质磷酸化(见图18-22)。图35A显示与增殖、血管发生和肿瘤发生有关的MYC/MAX子网络的上调;和控制细胞周期、黏附、侵入和巨噬细胞活化的ERK1/2子网络的上调。FOXMl和DNA损坏子网络在基底细胞系中也被显著上调。密蛋白-低亚型与所有其它的比较显示许多与基底细胞系中相同的子网络的上调,以及一些例外,包括与基底细胞相比β-联蛋白(CTNNB1)网络在密蛋白低细胞系中的上调(图35B)。β-联蛋白已经涉及肿瘤发生,并与差的预后有关。腔细胞系与所有其它的比较显示ATF2网络的下调,这抑制黑素瘤中的致瘤性,和控制ER-调节的基因的转录和牵涉好的预后腔乳腺癌的FOXA1/FOXA2网络的上调(图35C)。ERBB2AMP细胞系与所有其它的比较显示对于腔细胞常见的许多网络特征——这并不奇怪,因为大部分ERBB2AMP细胞也被分类为腔细胞。然而,图35D显示在ERBB2AMP细胞系中以RPS6KBP1为中心的下调。
利用IPL在细胞系之中进行的差别药物反应的比较分析揭示途径活性,其提供关于应答机制的信息。例如,基底细胞系优先对顺铂、DNA破坏剂敏感,并且也显示DNA-损坏应答子网络的上调,所述子网络包括ATM、CHEKl和BRCA1、与对顺铂34的应答有关的关键因素(图36A)。类似地,ERBB2AMP细胞系对格尔德霉素——HSP90的抑制剂——敏感,并在ERBB2-HSP90子网络中也显示上调(图36B)。该观察与格尔德霉素的作用机制——它结合ERBB2,导致其降解——一致。我们发现,ERBB2AMP细胞系抵抗极光激酶抑制剂VX-680(图36C,上面)和进一步发现对该化合物的灵敏性与在20ql3(AURKA)处的扩增无关。这提高该抵抗能够通过CCNB1介导的可能性,所述CCNB1与AURKB通过FOXM1共调节。在我们的四种亚型中,ERBB2AMP是显示CCNB1的实质下调的唯一一种亚型(图36C和图22)。这种主张的机制得到在原发性肿瘤中CCNB1基因表达与AURKB基因表达显著相关的观察结果的支持。
实施例XVIX:细胞生长抑制分析和生长速率
我们评估了77种化合物在我们的55个乳腺癌细胞系组中的功效。该分析如之前描述地被执行(Kuo,W.L.等,A systems analysis of the chemosensitivity of breastcancer cells to the polyamine analogue PG-11047.BMC Med 7,77,doi:1741-7015-7-77[pii]10.1186/1741-7015-7-77(2009))。简言之,用每种化合物的9种以1:5连续稀释的剂量集合来处理细胞达72小时。利用Cell Titer Glo分析测定细胞生存力。通过未处理孔的72h到0h的比例估计倍增时间(DT)。
我们利用非线性最小二乘方使数据与Gompertz曲线拟合,用以下参数:上和下渐近线、斜率和拐点。利用NCI NIH DTP Human Tumor Cell Line Screen Process描述的和之前描述的方法(Screening Services-NCI-60 DTP Human Tumor Cell LineScreen.http://dtp.nci.nih.gov/branches/btb/ivclsp.html.;Monks,A.等Feasibilityof a high-flux anticancer drug screen using a diverse panel of cultured humantumor cell lines.J Natl Cancer Inst 83,757-766(1991))将拟合的曲线变换成GI曲线。
我们评估各种应答措施,包括抑制生长达50%(GI50)所需要的化合物浓度、完全抑制生长必需的浓度(总生长抑制,TGI)和减少群体达50%必需的浓度(致死浓度50%,LC50)。在潜在的生长数据具有高质量但未达到终点应答(GI50、TGI、LC50)的情况下,将值设置成测试的最高浓度。GI50代表达到的第一阈值,因而包含最精确的测量结果集合。
将药物反应数据过滤,以满足如下标准:1)9个三重数据点中的中值标准差<0.20;2)特定细胞系的中值DT的DT+/-2SD;3)拟合曲线的斜率>0.25;4)最大浓度时的生长抑制<没有明确应答的数据集的50%。大约80%的药物板(drug plate)通过所有的过滤要求。我们使用中值绝对偏差(MAD)——标准差的强大形式——来评估我们对GI50重复测量的可靠性。通过自定义编写的R包执行曲线拟合和过滤。
实施例XX:药物筛选
统计学分析中包含的每一种药物均满足以下数据性质的筛选标准:1)缺失值:不超过40%的GI50值在整个细胞系集合中可以缺失;2)可变性:对于至少3个细胞系,或者GI50>1.5.mGI50或者GI50<0.5.mGI50,其中,mGI50是给定药物的中值GI50。不满足这些标准的化合物从分析中排除。
实施例XXI:SNP阵列和DNA拷贝数分析
Affymetrix Genome-Wide Human SNP Array 6.0被用于测量DNA拷贝数数据。阵列性质和数据处理利用基于R统计框架(http://www.r-project.org)的aroma.affymetrix执行。乳腺癌细胞系SNP阵列利用如所述的20个正常样本阵列(Bengtsson,H.,Irizarry,R.,Carvalho,B.&Speed,T.P.Estimation and assessment of raw copy numbers at thesingle locus level.Bioinformatics(Oxford,England)24,759-767(2008))归一化。利用bioconductor软件包DNAcopy的循环二元分割(circular binary segmentation)(CBS)(Olshen,A.B.,Venkatraman,E.S.,Lucito,R.&Wigler,M.Circular binary segmentationfor the analysis of array-based DNA copy number data.Biostatistics(Oxford,England)5,557-572(2004))来分段数据。利用基于MATLAB的癌症中显著靶标的基因组鉴定(基因组Identification of Significant Targets in Cancer)(GISTIC)(Beroukhim,R.等,Assessing the significance of chromosomal aberrations in cancer:methodology and application to glioma.Proc Natl Acad Sci U S A 104,20007-20012(2007))分析明显的DNA拷贝数变化。原始数据可在欧洲基因型档案馆(The EuropeanGenotype Archive)(EGA)以登录号EGAS00000000059获得。
为了确保检测明显拷贝数变化的最大机会,我们忽略GISTIC分析中的非恶性细胞系。使用每一同基因细胞系对的一个成员的GISTIC分数来推断另一个中的基因组变化:AU565推断自SKBR3;HCC1500推断自HCC1806;LY2推断自MCF7;ZR75B推断自ZR751。
实施例XXII:外显子阵列分析
细胞系的基因表达数据推导自Affymetrix GeneChip Human Gene 1.0 ST外显子阵列。利用aroma.affymetrix R软件包,通过分位数归一化和基于"HuEx-1_0-st-v2,core"芯片类型的对数加法(log-additive)探针水平模型(PLM)计算对表达的基因水平概述。转录物标识符(Transcript identifier)通过询问Ensembl数据库利用BioMart R软件包被转换成HGNC基因符号。所得表达概况随后被过滤,以仅捕获在所有细胞系中在log2-规模上表达标准差大于1.0的那些基因。原始数据可从ArrayExpress(E-MTAB-181)得到。
实施例XXIII:一致聚类
利用分级一致聚类(Monti,S.,Tamayo,P.,Mesirov,J.P.&Golub,T.A.ConsensusClustering:A Resampling-Based Method for Class Discovery and Visualization ofGene Expression Microarray Data.Machine Learning 52,91-118(2003)鉴定细胞系亚型。利用细胞系的500次取样,每细胞80%的细胞系、凝聚分级聚类、欧几里得距离度量和平均联结,计算一致性。
实施例XXIV:临床相关亚型和对治疗剂应答的联系
我们使用三个方案来比较GI50:1)腔对比基底对比密蛋白-低;2)腔对比基底+密蛋白-低;和3)ERBB2-AMP对比非-ERBB2-AMP。根据秩(on the ranks),组的GI50之间的差异在合适的时候通过非参数ANOVA或t-检验计算。我们组合三组测试的p-值,并利用错误发现率(FDR)来校正多重检测。对于三样本检测,通过比较每一组与所有其它的以确定哪一组最灵敏,我们对具有明显类别效应的化合物执行事后分析(post-hoc analysis)。事后检验的p-值一起进行FDR-校正。在所有情况下,FDR p<0.20被视为是显著的。如果是这种情况:即,发现基底+密蛋白-低组在方案2中显著,但这些组中只有一组在方案1中显著,那么我们在指定类别特异性时给予3样本例子优先。在R中进行分析。
实施例XXV:基因组变化和对治疗剂的应答之间的联系
我们应用t-检验来评估再发生的拷贝数变化(在8q24(MYC)、llql3(CCND1)、20ql3(STK15/AURKA))和药物敏感性之间的联系。我们组合成一组具有低扩增或不扩增的细胞系,并将它们与具有高扩增的细胞系比较。对于缺失区域进行比较分析。GI50等于测试的最大浓度的细胞系在分析中被忽略。我们忽略其中任意组少于5个样本的化合物。
实施例XXVI:生长速率和对治疗剂的应答之间的联系
为了评估细胞系类别和生长速率对药物灵敏性的影响,我们执行一组双向协方差分析(ANCOVA)检验,上述三个细胞系分类方案中的每一个作一次检验。这产生6组p-值(2个主要影响×3个分类方案);我们使用单一FDR校正来评估显著性,并公布可能有兴趣的FDRp值<0.20。我们通过函数lm和ANOVA在R中执行这些分析,其可以作为car软件包的一部分获得。
实施例XXVII:集成途径分析
拷贝数、基因表达和途径相互作用数据的集成利用PARADIGM软件执行。简言之,该程序利用来自单一细胞系或患者样本的途径相互作用和基因组和功能基因组数据推断基因、复合体和过程的集成途径水平(IPL)。详见实施例XXXV。
实施例XXVIII:TCGA和细胞系聚类
我们想知道TCGA肿瘤样本中细胞系的活性推断是否与其各自亚型聚类。为了避免由高度连接的中心(hub)基因和高度相关的活性引起的偏差,利用通过相关性分析测定的2351个非冗余活性来聚类细胞系和肿瘤样本。利用Kolmogorov-Smirnov检验计算细胞系与相同亚型的肿瘤样本聚类的程度,以比较从细胞系和相同亚型的肿瘤样本对之间的相关性计算的t-统计量的分布与从不同亚型的细胞系对计算的分布。详见实施例XXXVI。
实施例XXIX:亚型途径标记的鉴定
我们搜索相互连接的基因,其针对特定亚型共同显示差别活性。每一亚型被处理为将细胞系二分成两组:一组包含属于该亚型的细胞系和第二组包含剩余的细胞系。我们应用两因素微阵列显著性分析的R执行(SAM)算法(Tusher,V.G.,Tibshirani,R.&Chu,G.Significance analysis of microarrays applied to the ionizing radiationresponse.Proc Natl Acad Sci U S A 98,5116-5121,doi:10.1073/pnas.091062498[pii](2001))来计算超途径中每一概念的差别活性(DA)分数。对于亚型,与其它细胞系相比,正DA对应于在亚型中较高的活性。
超途径中密切连接的基因的协调上调和下调加强通过PARADIGM推断的活性。如果邻近基因的活性也与特定表型相关,则我们期望发现具有高DA分数的全部子网络。我们鉴定超途径中的区域,其中,高绝对DA的概念通过仅保留连接两个概念——其中两个概念的DA分数均高于平均绝对DA——的那些连接而相互连接。
实施例XXX:集成途径分析
拷贝数、基因表达和途径相互作用数据的集成利用PARADIGM软件24执行。简言之,该程序利用来自单一细胞系或患者样本的途径相互作用和基因组和功能基因组数据推断基因、复合体和过程的集成途径水平(IPL)。TCGA BRCA数据在2010年11月7日获得自TCGADCC。TCGA和细胞系基因表达数据分别是在每一数据集合中心的中值探针。全部数据集中的所有值(细胞系或TCGA肿瘤样本)在提供给PARADIGM之前被秩变换和转换成-log 10秩比。途径以BioPax Level 2格式获得自http://pid.nci.nih.gov/,并包括NCI-PID、Reactome和BioCarta数据库。相互作用被组合成合并的叠加途径(超途径)。基因、复合体和抽象过程(例如,“细胞周期”)被保留作为途径概念。在合并基因概念之前,将所有基因识别符翻译成HUGO术语。所有相互作用均被包括,并且不试图解决不一致的影响。执行从P53(最连接的分量)开始的广度优先无向遍历(breadth-first undirected traversal),以建立单一分量(component)。所得合并的途径结构包含总计8768个概念,代表3491个蛋白、4757个复合体和520个过程。PARADIGM的最大期望参数针对细胞系数据被训练,然后应用到TCGA样本。然后,来自细胞系和肿瘤样本的数据被组成单一数据矩阵。在细胞系或肿瘤样本任意之一的数据中没有高于0.5IPL至少1个值的通路在进一步分析中被排除。
实施例XXXI:TCGA和细胞系聚类
利用PARADIGM IPL,将细胞系与TCGA肿瘤样本聚类在一起,以确定细胞系是否类似于相同亚型的肿瘤样本。超途径的充分研究的区域包含具有许多相互作用(中心)的基因和不能获得直接数据的许多中间复合体和抽象过程的大的信号传导链。为了避免偏向于中心,在细胞系和肿瘤样本中具有高度相关向量的途径概念(皮尔森相关系数>0.9)在聚类之前被一致化成单一向量。这种一致化从原始的8939个途径概念中产生2351个非冗余向量。
利用所得非冗余概念的集合来聚类样本。47个细胞系和183个TCGA肿瘤样本的推断的途径活性矩阵利用在艾森聚簇软件软件包3.0版中实施的全链分级凝聚聚类(hierarchical agglomerative clustering)进行聚类。非中心皮尔森相关性被用作途径概念的度量,欧几里得距离被用于样本度量。
为了量化细胞系与相同亚型肿瘤样本聚类的程度,我们比较源自皮尔森相关性的t-统计量的两种分布。使Cs为亚型s的细胞系集合。类似地,使Ts为亚型s的TCGA肿瘤样本集合。例如,C基底和T基底分别是所有基底细胞系和基底肿瘤样本的集合。第一分布由源自含有细胞系和相同亚型肿瘤样本的每一可能的对之间的皮尔森相关性的t-统计量组成;即,对于所有亚型s,每一成对相关性t-统计量在对(a,b)之间计算,以便a∈Cs和b∈Ts。第二分布由不同亚型细胞系之间的相关性t-统计量形成;即,在(a,b)内进行计算,以便a∈Cs和b∈Cs’和s≠s’。我们执行Kolmogorov-Smirnov检验,以比较分布。
实施例XXXII:集成途径分析
拷贝数、基因表达和途径相互作用数据的集成利用PARADIGM软件24执行。简言之,该程序利用来自单一细胞系或患者样本的途径相互作用和基因组和功能基因组数据推断基因、复合体和过程的集成途径水平(IPL)。TCGA BRCA数据在2010年11月7日获得自TCGADCC。TCGA和细胞系基因表达数据分别是在每一数据集合中心的中值探针。全部数据集中的所有值(细胞系或TCGA肿瘤样本)在提供给PARADIGM之前被秩变换和转换成-log 10秩比。途径以BioPax Level 2格式在2010年10月13日获得自http://pid.nci.nih.gov/,并包括NCI-PID、Reactome和BioCarta数据库。相互作用被组合成合并的叠加途径(超途径)。基因、复合体和抽象过程(例如,“细胞周期”)被保留作为途径概念。在合并基因概念之前,将所有基因识别符翻译成HUGO术语。所有相互作用均被包括,并且没有试图解决不一致影响。执行从P53(最连接的分量)开始的广度优先无向遍历,以建立单一分量。所得合并的途径结构包含总计8768个概念,代表3491个蛋白、4757个复合体和520个过程。PARADIGM的最大期望参数针对细胞系数据被训练,然后应用到TCGA样本。然后,来自细胞系和肿瘤样本的数据被组成单一数据矩阵。在细胞系或肿瘤样本任意之一的数据中没有高于0.5IPL至少1个值的任何通路从进一步分析中被排除。
实施例XXXIII:TCGA和细胞系聚类
利用PARADIGM IPL,将细胞系与TCGA肿瘤样本聚类在一起,以确定细胞系是否类似于相同亚型的肿瘤样本。超途径的充分研究的区域包含具有许多相互作用(中心)的基因和不能获得直接数据的许多中间复合体和抽象过程的大的信号传导链。为了避免偏向于中心,在细胞系和肿瘤样本中具有高度相关的向量的途径概念(皮尔森相关系数>0.9)在聚类之前被一致化成单一向量。这种一致化从原始的8939个途径概念中产生2351个非冗余向量。利用所得非冗余概念的集合来聚类样本。47个细胞系和183个TCGA肿瘤样本的推断的途径活性矩阵利用在艾森聚簇软件软件包3.045版中实施的全链分级凝聚聚类被聚类。非中心皮尔森相关性被用作途径概念的度量,欧几里得距离被用于样本度量。
为了量化细胞系与相同亚型肿瘤样本聚类的程度,我们比较源自皮尔森相关性的t-统计量的两种分布。使Cs为亚型s的细胞系集合。类似地,使Ts为亚型s的TCGA肿瘤样本集合。例如,C基底和T基底分别是所有基底细胞系和基底肿瘤样本的集合。第一分布由源自含有细胞系和相同亚型肿瘤样本的每一可能的对之间的皮尔森相关性的t-统计量组成;即,对于所有亚型s,每一成对相关性t-统计量在对(a,b)之间计算,以便a∈Cs和b∈Ts。第二分布由不同亚型细胞系之间的相关性t-统计量形成;即,在(a,b)内进行计算,以便a∈Cs和b∈Cs’和s≠s’。我们执行Kolmogorov-Smirnov检验,以比较分布。
实施例XXXIV:各种遗传分子水平的肿瘤分子亚型
对乳房肿瘤进行的全基因组基因表达分析的开拓性研究用临床结果中的差异(14Sorlie,T.等,(2001),Gene expression patterns of breast carcinomasdistinguish tumor subclasses with clinical implications,98:10869-10874)已经鉴定了不同的亚类,其最显著地属于雌激素受体(ER)阴性基底细胞样和ER阳性腔亚组(Perou,C.M.等,(2000),Molecular portraits of human breast tumours,406:747-752)。若干分子亚型的存在也已经通过DNA拷贝数分析(2Russnes等(2007),同上)、DNA甲基化(Ronneberg等(2011),同上)和miRNA表达分析(Enerly等(2011),同上)被观察。然而,问题是通过在各种新分子水平的分子分析获得的这些新概况重演通过mRNA表达最初发现的亚类达到什么程度和这些新分类鉴定临床上重要的新患者亚组的潜力如何?为了解决这些问题,我们首先根据每一研究的分子水平(图23)利用无偏、无监督的方法将MicMa数据集的乳腺癌患者聚类。通过每一分子水平分别聚类患者的柱状图和每一患者亚组的存活KM图显示在图23中。有趣的是,该聚类程序导致鉴定mRNA表达的7个聚簇,其与源自Pam50分类的聚簇高度相关。它与Pam50一致,但在试验l-4mRNA聚簇之间分裂腔A聚簇,以及最后三个(试验5-7)聚簇之间的基底和ERBB2。在miRNA水平,三个不同聚簇如之前在(Enerly等(2011),同上)中所述地被获得。在甲基化水平,如所述地观察到三个主要聚簇,并且一个小得多的第四聚簇也被观察到,但在Ronneberg等(2011,同上)中没有进一步论述。在CNA水平,出现6个不同聚簇。显然,在每一水平,不同的患者聚簇与特定式样的存活率式样有关(图23)。然后,评价相同患者在不同分子水平是否形成相应的聚簇。实际上,不同水平聚类之间存在很大程度的良好一致性,最显著的是在DNA甲基化和mRNA表达和DNA拷贝数之间(表12)。然而,虽然一些样本常常在任何水平聚类在一起,但其它的根据研究中的每个特定分子终点聚类在不同组中。
表12
通过根据另一个聚类对推导自一个分子水平的一个亚类的一致分裂可以揭示重要的生物学暗示。例如,如在(3)中论述的,虽然基于甲基化和mRNA表达之间良好相关性的分类被观察到(p=2.29·10-6),但腔-A类别(通过mRNA表达)仍在两个不同甲基化聚簇之间分裂。同样应用于基底细胞样肿瘤,表明尽管与mRNA表达聚簇的强协调性,但通过根据DNA甲基化的聚类提供额外的信息。具有不同DNA甲基化概况的腔A样本在存活率方面不同(Ronneberg,J.A.等,(2011),Methylation profiling with a panel of cancer relatedgenes:association with estrogen receptor,TP53 mutation status and expressionsubtypes in sporadic breast cancer,5:61-76)。我们和其它人的越来越多的新数据集在将来会揭示这些聚簇是否会收敛成若干最和许多不太常见的组合。
尽管在不同分子水平进行重新分类值得进一步研究,因为它可以指出影响不同水平的新的感兴趣的生物学途径,但从类别到类别的样本这种水平重新安排的信息内容可能受到限制。考虑每一途径中这些聚簇内差异表达/改变的基因依赖于先验知识和对已知相互作用的选择,并且不能鉴定新的途径。此外,这些方法将不同数据集中的基因和测量结果处理为独立变量,而且,并不考虑基因在途径中的位置或其相互作用伴侣的数目(即,途径的拓扑),因而易受基因集中一个或少数基因表达的大的波动的影响。通常观察到,特定途径在许多癌症肿瘤中可能被下调,但特定的基因和下调方法在不同肿瘤中不同(CancerGenome Atlas Research Network.Comprehensive genomic characterization defineshuman glioblastoma genes and core pathways.Nature 2008 Oct.;455(7216):1061-1068)。因此,接下来我们应用基于途径的建模方法——模拟针对单一基因的不同数据类型测量结果之间的相互作用以及基因之间的已知相互作用,以在途径和相关数据的背景下表征肿瘤中每一基因的活性水平。我们应用每一基因的集成途径水平(IPL)来根据这些下调的途径直接鉴定和分类患者(在分子数据类型中),然后研究新聚簇与之前描述的类别在各种分子水平的关系。
实施例XXXV:用预后显著性(prognostic significance)对浸润性癌症进行分类的PARADIGM
为了理解基因组变化如何干扰可以解释肿瘤表型的、不同生物学功能并使肿瘤易受靶向治疗的影响,我们需要理解在途径水平的干扰。PARADIGM鉴定患者亚集中的一致活性途径,如果以单一水平研究基因,所述途径是不可区分的。方法将从概率图模型(PGM)到集成功能基因组数据的技术应用到已知途径结构上。它之前已被应用于TCGA恶性胶质瘤和卵巢数据集的拷贝数和mRNA表达数据的分析。PARADIGM分析也可用于将多种水平的基因组变化诸如DNA甲基化或拷贝数、mRNA和miRNA表达联系起来,并因而可以集成每一单个样本中的任意数目的数据组学(omics)层。尽管DNA甲基化和miRNA表达有助于在本文中观察的下调的途径,并似乎均以其自身的能力对MicMa同龄组中乳腺癌的预后和分子概况有贡献(图23),通过加入这两种分子概况类型,我们没有发现PARADIGM聚簇的预后值的提高。对此,一种解释是miRNA和DNA甲基化分析的预后值通过mRNA表达被重现,这是由于其高的相关性。然而,这种推断需要进一步分析关于例如,对分析平台(用于甲基化的有限Illumina1505CpG癌症组)的选择和我们对于真正miRNA靶的有限知识是否可能是限制我们全面测量和有效模拟miRNA和DNA甲基化信息的能力的因素。
基于MicMa同龄组的mRNA表达和拷贝数变化的PARADIGM分析鉴定5个不同聚簇的存在(图24A),并显示组合mRNA表达和DNA拷贝数就预后而言导致比任意分别研究的分子水平更好地区分患者(图24B和图23)。其干扰最有助于这种分类的途径是血管生成素受体Tie2-介导的信号传导的那些,最显著的是免疫应答(TCR)和白细胞介素信号传导的那些,其中几乎途径中的每一基因或复合体偏离正常(图25A)。最突出的是IL4、EL6、IL12和EL23信号传导。其它突出的途径是内皮素、FoxMl转录,其在卵巢和恶性胶质瘤TCGA数据集和ERBB4中也被下调,并且之前发现在乳房和卵巢癌中被下调。根据该分析,我们已经鉴定具有明显不同预后的以下患者组,其可以被粗略地表征如下:
pdgm.l=高FOXM1、高免疫信号传导,
pdgm.2=高FOXM1、低免疫信号传导、巨噬细胞主导的,
pdgm.3=低FOXM1、低免疫信号传导,
pdgm.4=高ERBB4、低血管生成素信号传导,
pdgm.5=高FOXM1、低巨噬细胞特征。
对PARADIGM聚簇的鉴定在两个之前公布的数据集中得到确认,一个数据集来自Chin等2007(Chin,S.F.等,(2007),Using array-comparative genomic hybridizationto define molecular portraits of primary breast cancers,26:1959-1970),其与MicMa数据集比较,具有更高频率的ER-和高级肿瘤,在另一集合中甚至更有趣,其富含非恶性原位管癌(Ductal carcinoma in situ)(12 Muggerud,A.A.等,(2010),Moleculardiversity in ductal carcinoma in situ(DCIS)and early invasive breast cancer,4:357-368)(图25B、25C)。纯原位管癌肿瘤的热图显示在图25D 27中。
在MicMa,pdgm.2中具有最差预后的聚簇中,IL4信号传导与STAT6一起被强下调,这已经在人乳腺癌细胞中被显示来防止生长抑制(16 Gooch,J.L.,Christy,B.,和Yee,D.,(2002),STAT6 mediates interleukin-4 growth inhibition in human breast cancercells,4:324-331)。IL4信号传导的下调也促进可以支持较大肿瘤生长的肥大细胞活化(17de Visser,K.E.,Eichten,A.和Coussens,L.M.,(2006),Paradoxical roles of theimmune system during cancer development,6:24-37)。相反地,在pdgm.5中,巨噬细胞活化被降低,并且天然杀伤细胞活性被提高,这是由于DL23信号传导。一方面,免疫应答朝向Th-2和B细胞补充的癌症依赖性极化,和另一方面,Th-1增殖,已经被论述(1 Ursini-Siegel,J.等,(2010),Receptor tyrosine kinase signaling favors a protumorigenicstate in breast cancer cells by inhibiting the adaptive immune response,70:7776-7787)。假设在某些条件下Thl/CTL免疫应答可以防止小鼠中超常增生向腺瘤的转变,而Th2应答可以借助于使具有慢性炎症状态而促进向癌症的转变。IL4是Th-2衍生的细胞因子,其刺激B细胞分化和癌细胞中的慢性炎症。此外,Th-2细胞分泌IL10,其介导这些癌症中的免疫抑制。该免疫抑制被显示主要发生在基底和ERBB2癌症中。为了支持该假设,最近已经证明“抗肿瘤获得性免疫程序可以在前-肿瘤微环境中被侵占(usurped),并反而通过使先天免疫系统的细胞成分在功能上参与调节上皮细胞行为而促进恶性肿瘤”(DeNardo,D.G.等,(2009),CD4(+)T cells regulate pulmonary metastasis of mammarycarcinomas by enhancing protumor properties of macrophages,16:91-102)。
在这种本文提出的免疫分类和通过mRNA表达(腔A、B、基底、ERBB2、正常样)建立的分类之间存在相当的协调性(图24)。属于基底和ERBB2聚簇的样本主要为prgml(较差的预后)、腔A-prgm 3(最佳预后)。然而,Paradigm聚类提供腔A(prgm3)和腔B(prgm4)聚簇之间相当显著的区别,以及通过非常差的预后鉴定基底肿瘤亚集(prgm2)。
实施例XXXVI:其干扰特异性影响PARADIGM聚类的鉴定的途径
FOXM1转录。
FOXM1是细胞周期进程的关键调节子,并且,其内源FOXM1表达根据细胞周期的阶段而波动。FOXM1被确认为人原癌基因,其被发现在大多数实体人癌症中被上调,包括肝、乳房、肺、前列腺、子宫的子宫颈、结肠、胰腺、脑以及基底细胞癌,其是最常见的人癌症。FOXM1被认为通过其在细胞周期和染色体/基因组维持中的多种作用而促进肿瘤发生(Wonsey,D.R.和Follettie,M.T.,(2005),Loss of the forkhead transcription factor FoxM1causes centrosome amplification and mitotic catastrophe,65:5181-5189)。FOXM1在人原代皮肤角质形成细胞中的异常上调可以以杂合性丢失(LOH)和拷贝数异常的形式直接引起基因组不稳定(Teh M,Gemenetzidis E,Chaplin T,Young BD,PhilpottMP.Upregulation of FOXM1induces genomic instability in human epidermalkeratinocytes.Mol.Cancer 2010;9:45)。最近的报道显示FOXM1在成年人上皮干细胞中的异常上调在三维器官型组织再生系统中引起前癌症表型——类似于人超常增生的状况(Gemenetzidis,E.等,(2010),Induction of human epithelial stem/progenitorexpansion by FOXMl,70:9515-952)。作者证明FOXMl的过度表达通过干扰分化途径而应用干细胞固有的自我更新增殖潜能,从而扩大祖细胞区室。因而,猜测FOXMl通过干/祖细胞扩张而引起癌症开始。我们清楚地看到两组乳腺癌患者,其具有该途径的高和低活性,主要根据白细胞介素信号传导活性而患病。图26图解与具有较差存活率的剩余聚簇相反的聚簇pdgm 3(最佳存活率)的该途径的相对激活形式(被激活的红色对比失活的蓝色)和有助于它的分子水平(根据图的形状,mRNA、CNA、miRNA或DNA甲基化)。可以注意到,MMP2在pdgm3中的下调归于DNA甲基化,而在剩余的肿瘤中,则归于DNA缺失。在miRNA中,已经使7-b在pgm3中被上调和在其余中被下调,与其目标——AURKB互补。DNA扩增和mRNA表达均被视为表达异常的原因。
血管生成素受体tie2-介导的信号传导。
Ang家族在人癌症发展和生长过程中在血管发生中发挥重要的作用。Ang2在血管发生中的作用通过被认为是Angl的拮抗剂,抑制Angl-促进的Tie2信号传导,这对于血管成熟和稳定化是重要的(23)。Ang2以与另一重要的血管因子——血管内皮生长因子A(VEGFA)合作的方式调节血管发生(Hashizume,H.等,(2010),Complementary actions ofinhibitors of angiopoietin-2 and VEGF on tumor angiogenesis and growth,70:2213-2223)。新数据表明Ang2在人癌症发展过程中在癌细胞的浸润性表型中的血管发生中的更复杂的作用。某些血管生成素(Ang)家族成员可以激活Tiel,例如,Angl引起Tiel在内皮细胞中的磷酸化(2Yuan,H.T.等,(2007),Activation of the orphan endothelialreceptor Tie1 modifies Tie2-mediated intracellular signaling and cellsurvival,21:3171-3183)。然而,Tiel磷酸化是Tie2依赖性的,因为当Tie2在内皮细胞中被下调时Angl不能引起Tiel磷酸化,并且,Tiel磷酸化在Angl不存在的情况下由组成型活性形式的Tie2或Tie2拮抗抗体引起(25Yuan等(2007),同上)。Angl-介导的AKT和42/44MAPK磷酸化主要是Tie2介导的,并且,Tiel下调该途径。因此,由于其下调Tie2-驱动信号传导和内皮存活的能力,Tiel的主要作用是调节血管形态发生。Tie2介导的信号传导以及VEGFRl和2介导的信号传导和特定信号均在该数据集中被观察到。
ERBB4
ERBB4有助于乳腺形态发生中的增殖和细胞运动以及表达Erbb4的乳腺原上皮细胞的定向细胞运动,同时促进乳腺细胞命运。Nrg3/Erbb4信号传导的候选效应子已经被鉴定,并在此显示与其它与早期乳腺发育和癌症有关的信号传导途径相互作用。ErbB4在体内的主要功能之一是在怀孕和哺乳感应(induction)期间在乳腺成熟中的作用。怀孕和延长的哺乳持续时间与乳腺癌风险的降低有关,并且ErbB4在肿瘤抑制中的作用可以因此与其在哺乳中的作用有关。大部分报道与ErbB4在逆转青春期期间由其它ErbB家族成员触发的生长刺激中的作用一致,但是,尚未确定存活率与ERBB4表达的明显相关性(Sundvall,M.等,(2008),Role of ErbB4 in breast cancer,13:259-268)。
实施例XXXVII:在原位管癌(DCIS)中用于分类的PARADIGM
考虑到在小鼠模型中癌前期增生腺体中牵涉免疫应答(Ursini-Siegel,J.等,(2010),Receptor tyrosine kinase signaling favors a protumorigenic state inbreast cancer cells by inhibiting the adaptive immune response,70:7776-7787),我们分析之前公布的、由原位管癌例子组成的数据集,以查明在浸润性肿瘤中观察到的强免疫应答和白细胞介素信号传导是否也存在于癌前期阶段。原位管癌(DCIS)是非浸润性形式的乳腺癌,其中一些病变据信快速转变成浸润性管癌(IDC),而其它的保持不变。我们之前已经研究31个纯原位管癌、36的纯浸润性癌症和42例混合诊断(浸润性癌症与原位部分)(Muggerud等(2010),同上)的基因表达方式,并在高组织学级别的原位管癌之间的转录物组中发现异质性,从而鉴定不同的原位管癌亚组,其基因表达特征更类似于晚期肿瘤。PARADIGM的热图产生图25C中该全部同龄组(包括IDC和ILC)和图25D中纯原位管癌样本。纯原位管癌肿瘤没有prgm2类型——以高巨噬细胞活性典型的信号传导为特征(图25)。一致的是,试验研究已经显示,原发性乳腺癌中的巨噬细胞由于其管生成前(proangiogenic)性质而调节晚期癌发生(Lin,E.Y.和Pollard,J.W.,(2007),Tumor-associated macrophagespress the angiogenic switch in breast cancer,67:5064-5066;Lin,E.Y.等,(2007),Vascular endothelial growth factor restores delayed tumor progression intumors depleted of macrophages,1:288-302),以及通过提供表皮生长因子(EGF)给恶性乳腺上皮细胞而促进肺部转移。再次,在由原位管癌中PARDIGM分析鉴定的顶部异常途径之中是包括IL2、4、6、12、23和23信号传导的那些。
在两个数据集(原位管癌、MicMa)中,幼稚CD8+T细胞中的TCR信号传导与已知补充CD8+T细胞的大量趋化因子一起位于列表顶部。一个是IL-12,其由抗原递呈细胞产生,所述抗原递呈细胞被显示刺激从NK和T细胞中产生IFN-γ。IFN-γ途径是下调途径之一,在原位管癌中的列表上更高。IFNγ产生自Thl细胞和NK细胞,并被显示发动抗肿瘤免疫应答。I阶段临床试验已经显示,曲妥珠单抗(赫赛汀)的临床效应通过共同施用IL-12给患有HER2-过表达肿瘤的患者被加强,并且,该效应由在NK细胞中刺激IFNγ产生而介导(29)。在原位管癌中,其它最强的贡献者(表8)是84_NOX4。NOX4,一种氧敏感性NAPHD氧化酶和A型吞噬细胞氧化酶,类似于造成在嗜中性粒细胞——初次免疫应答中大量反应性氧种类(ROS)产生的酶。同样地,FN1(纤连蛋白)和PDGFRB——血小板衍生的生长因子受体——尤其在原位管癌中与COL1A2、IL12/IL12R/TYK2/JAK2/SPHK2、ESR1和KRT14一起反复出现。
这些基因/途径似乎全都有助于细胞外基质中的功能、细胞-细胞相互作用和纤维化以及角化。例如,FN1纤连蛋白-1属于高分子量糖蛋白家族,其存在于细胞表面上、细胞外液体、结缔组织和基膜中。纤连蛋白与其它细胞外基质蛋白和细胞配体诸如胶原蛋白、血纤蛋白和整联蛋白相互作用。纤连蛋白与细胞的粘附和迁移过程有关。PDGFR——血小板衍生的生长因子受体——与表皮生长因子(EGF)一起通过EGF和PDGF受体发信号,所述EGF和PDGF受体是重要的受体酪氨酸激酶(RTK)。重要地是,本文中发现的在某些原位管癌中过表达的PDGFR是舒尼替尼的靶(Fratto,M.E.等,(2010),New perspectives:role ofsunitinib in breast cancer,161:475-482)和甲磺酸伊马替尼(Gleevec)的初级靶(Weigel,M.T.等,(2010),In vitro effects of imatinib mesylate onradiosensitivity and chemosensitivity of breast cancer cells,10:412)。与上述通过增加的INFγ产生而介导的曲妥珠单抗(赫赛汀)的免疫刺激作用不同,伊马替尼被显示通过TCR-激活的CD4(+)T细胞而抑制干扰素-γ。这些观察对于我们关于它们阐释呈现在原位管癌和恶性细胞表面上的生长因子受体和免疫组成之间的相互作用程度的争论是有影响的。显示PDGFR的刺激性自身抗体表现出触发包括Ras、ERK1/ERK2和反应性氧种类(ROS)的细胞内环,其导致I型胶原表达的增加。这与COL1A2表达一致,其在我们的研究中也被观察到在原位管癌中下调。
实施例XXXVIII:材料和方法
分析被应用于收集自ca 110个乳腺癌的数据,其中通过Agilent人全基因组4×44K单色寡核苷酸阵列分析mRNA表达。利用Illumina Human-1109K BeadChip分析拷贝数变化(CNA)。该SNP阵列是以基因为中心的,其包含以30kb的平均物理距离覆盖整个基因组的标记并代表15,969个独特基因(2004年5月组装,hgl7,NCBI Build 35)。每一样本均进行全基因组扩增。基因型报告和logR值利用BeadStudio(v.2.0,Illumina)通过参考dbSNP(构造(build)125)的正向等位基因方向(forward allele orientation)被提取,并且,logR值针对CNA被调整。
利用Agilent技术“人miRNA微阵列试剂盒(V2)”根据制造商的方案进行总RNA的miRNA序型分析(profiling)。在Agilent扫描仪G2565A和特征提取(Feature Extraction)(FE)v9.5上的扫描被用于提取信号。利用对不同阵列和时间点的双重杂交(99个样本)进行试验。两个样本仅被分析一次。重复探针的miRNA信号强度在平台中被平均、被log2变换并归一化成75个百分位数。通过在FE v9.5中的默认设置,每一基因的miRNA表达状况被评价为存在或不存在。
DNA甲基化。DNA的一张微观图是利用EpiTect 96 Bisulfite Kit(Qiagen GmbH,Germany)进行二亚硫酸盐(bisulphite)处理的。500ng二亚硫酸盐处理的DNA利用GoldenGate Methylation Cancer Panel I(Illumina Inc,CA,USA)——其同时分析807个癌相关基因中的1505CpG位点——进行分析。每个基因至少分析2个CpG位点,一个CpG位点位于启动子区域中和一个CpG位点位于第一外显子中。根据制造商的方案,Bead studio软件被用于甲基化数据的初始处理。每一CpG位点的检测p值被用于确认样本性能,并且,数据集基于检测p值被过滤,检测p值>0.05的CpG位点在进一步分析中被忽略。
数据预处理和PARADIGM参数。拷贝数利用CBS被分段,然后通过采用所有区段——跨越hgl8中RefSeq基因的坐标——的中值映射到基因水平测量结果。对于mRNA表达,通过减去每一探针的中值表达值,测量结果首先被探针-归一化。利用UCSCs liftOver工具,将制造商的每一探针的基因组位置从hgl7转换到hgl8。然后,通过采用与RefSeq基因重叠的所有探针的中值值获得每一基因的测量结果。利用制造商的描述使甲基化探针与基因匹配。通过分位数分别变换每一数据集,像之前一样运行Paradigm(10),但是数据被离散到相等大小的收集器(bin)中而不是5%和95%分位数。途径文件来自ΡID(36),如之前解析的。通过计数数据类型中的上或下收集器中观察的分数(fraction)然后用在任何数据类型中具有最高分数的收集器标记每一节点,图26显示离散的输入数据而不是IPL值的概要。
HOPACH无监督聚类。
利用在R版本2.12上运行的HOPACH R执行版本2.10(37)推导聚簇。相关距离度量与所有数据类型一起使用,除了PARADIGM IPL之外,其由于非正态分布和零值的普遍而使用cosangle。对于样本的任何聚簇——包含5个以下的样本,每一样本作为较大聚簇中最类似的样本被映射到相同的聚簇。通过测定MicMa数据集中每一聚簇的mediod(利用中值函数),然后将另一数据集中的每一样本分配到根据cosangle距离最近的任何一个聚簇mediod,将MicMa数据集中的PARADIGM聚簇映射到其它数据类型。
Kaplain-Meier,聚簇富集。利用R版本2.12测定Kaplan-Meier统计学、图和聚簇富集。利用coxph()比例风险模型的Wald检验和survdiff()函数的卡方检验的对数秩p-值测定Cox p-值。通过ANOVA测定聚簇的基因值或途径成员值的整体富集,并且,通过特定聚簇中基因值对比所有其它聚簇中基因值的T检验测定特定聚簇标签的基因的富集。利用关于p调节(p.adjust)的Benjamini&Hochberg方法测定FDR。
实施例XXXIX:数据集合和途径相互作用
拷贝数和表达数据均被结合到PARADIGM推断中。因为可以应用具有8个正常组织对照的集合在表达数据中进行分析,所以通过减去在正常法娄皮欧对照中观察到的基因中值水平,每一患者的基因-值被归一化。拷贝数数据被归一化,以反映肿瘤对比正常血液中检测的基因水平之间的拷贝数差异。为了输入到PARADIGM中,表达数据取自用于亚型分析的相同集成数据集,并且,拷贝数取自MSKCC Agilent 1M拷贝数数据的分段调用。
途径的集合获得自NCI-PID,其包含131个途径、11,563个相互作用和7,204个实体。实体是分子、复合体、小分子或在PARADIGM的图形模型中表示为“节点”的抽象概念。抽象概念对应于一般的细胞过程(诸如“凋亡”或“光吸收”)和共有功能活性的基因家族诸如信号转导蛋白的RAS家族。我们收集相互作用,包括蛋白质-蛋白质相互作用、转录调节相互作用、蛋白质修正诸如磷酸化和泛素化相互作用。
实施例XL:在途径背景中集成分子活性的推断。
我们使用PARADIGM,其指定反映每一实体的拷贝数、基因表达和途径背景的集成途径活性(IPA)。
利用基因-和患者-特有的数据剖面的置换来评估IPA的显著性。通过随机选择基因组中每一基因的基因表达和拷贝数对的值,产生1000个“零”患者的数据。为了评估PARADIGM IPA的显著性,通过指定随机基因到途径同时保留途径结构,我们建立了零分布。
实施例XLI:FOXMl途径的鉴定
虽然FOXMl网络中的所有基因均被用于在随机模拟过程中评估统计学显著性,但为了使FOXMl途径可视化,与根据图29具有明显改变的IPA的FOXMl直接连接的实体被选择包含在图27中。在这些之中,发现对于与FOXMl相互作用具有文献支持的、在DNA修复和细胞周期控制中具有作用的基因被展示。BRCC复合体成员——未在原始NCI-PED途径中被发现——与BRCA2一起被包含在绘图中,根据NCI-PID,所述BRCA2是FOXMl的靶。通过寻找其它NCI途径中CHEK2的上游调节子(例如,在PLK3信号传导途径中发现与ATM的间接连接),鉴定上游DNA修复靶。
实施例XL II:聚类
推断活性——其代表活性概率的变化而不是直接代表活性——的应用使得各种类型的实体被一起聚类到一个热图中。为了整体显示PARADIGM推断的结果,使用艾森聚簇3.0来执行特征过滤和聚类。0.1的标准差过滤导致7204个途径实体中的1598个保留,并且,对实体和样本均执行平均联结、非中心相关分级簇。
实施例XL III:基因组DNA的分离
从患者采集血液样本(2-3ml)并于-80℃存储于含有EDTA的管中直到使用。利用DNA分离试剂盒根据制造商的指示(PUREGENE,Gentra Systems,Minneapolis MN)从血液样本中提取基因组DNA。利用Beckman分光光度计,作为在260和280nmD吸光度比率(1cm光程;A260/A280)测量DNA纯度。
实施例XLIV:SNP的鉴定
利用针对区域特异设计的引物,通过PCR扩增来自患者DNA样本的基因区域。利用本领域中技术人员悉知的方法,如上述方法,将PCR产物测序。利用Phred/Phrap/Consed软件验证在测序迹线(trace)中鉴定的SNP,并将其与存储在NCBI SNP数据库中的已知SNP进行比较。
实施例XLV:统计学分析
值被表示为平均值±SD。χ2分析(Web Chi Square Calculator,GeorgetownLinguistics,Georgetown University,Washington DC)被用于评估正常对象和患有病症的患者基因型频率之间的差异。如所指示地执行单向ANOVA与事后(post-hoc)分析,以比较不同患者组之间的血流动力学。
本领域的技术人员将理解,可以对刚刚描述的实施方式进行各种改编和修正而不背离本发明的范围和精神。本领域中已知的其它合适的技术和方法可以被本领域的技术人员并通过借鉴本文描述的对本发明的描述以许多具体形式被应用。因此,应该理解,除了如本文中具体描述地之外,还可以实施本发明。上述说明意图是说明性的而不是限制性的。在回顾上述描述之后,许多其它实施方式对于本领域的技术人员来说将变得显而易见。因此,本发明的范围应该通过参考所附权利要求书结合这些权利要求被给予的全部等同范围来确定。
表5-HGS-OvCa中明显突变的基因
确认的突变是已经通过独立检验被证实的那些突变。它们中的大部分是利用相同肿瘤的第二独立WGA样本被确认的。未确认的突变尚未被独立地证实,但具有高的可能性是真正的突变。TP53中的另外25个突变通过手动策划(hand curation)被观察。
表6显示明显亚型特异性的治疗化合物。每一栏表示一个ANOVA检验的FDR-修正的p-值。通过在三个检验中达到的最小p-值对化合物进行排列。
表11.肿瘤细胞系比较中的每一亚型的顶部排序途径特征

Claims (10)

1.产生动态途径图(DPM)的方法,包括:
提供对储存多个途径元素的途径元素数据库的访问,每一途径元素表征为其参与至少一个途径;
提供对与所述途径元素数据库偶联的修正引擎的访问;
利用所述修正引擎将第一途径元素与至少一个先验已知的属性关联;
利用所述修正引擎将第二途径元素与至少一个假定属性关联;
分别利用所述已知属性和假定属性,应用所述修正引擎交叉关联并指定至少一个途径的所述第一途径元素和第二途径元素的影响水平,以形成概率途径模型;和
利用所述概率途径模型,通过分析引擎,从样本的多个元素的多个测量的属性导出DPM,其具有特定途径的参考途径活性信息,
其中所述途径在调节途径网络中。
2.权利要求1所述的方法,其中所述调节途径网络选自衰老途径网络、调亡途径网络、稳态途径网络、代谢途径网络、复制途径网络和免疫应答途径网络。
3.权利要求1所述的方法,其中所述途径选自在信号传导途径网络内的途径和在不同的途径网络的网络内的途径。
4.权利要求3所述的方法,其中所述信号传导途径网络选自钙/钙调蛋白依赖性信号传导途径网络、细胞因子介导的信号传导途径网络、趋化因子介导的信号传导途径网络、生长因子信号传导途径网络、激素信号传导途径网络、MAP激酶信号传导途径网络、磷酸酶介导的信号传导途径网络、Ras超家族介导的信号传导途径网络和转录因子介导的信号传导途径网络。
5.权利要求1所述的方法,其中所述途径元素是蛋白质。
6.权利要求5所述的方法,其中所述蛋白质选自受体、激素结合蛋白、激酶、转录因子、甲基化酶、组蛋白乙酰酶和组蛋白脱乙酰酶。
7.权利要求1所述的方法,其中所述途径元素是核酸。
8.权利要求7所述的方法,其中所述核酸选自蛋白质编码序列、基因组调节序列、调节RNA和反式激活序列。
9.权利要求1所述的方法,其中所述参考途径活性信息对于正常组织、患病组织、衰老组织或恢复组织是特异性的。
10.权利要求1所述的方法,其中所述已知属性选自化合物属性、种类属性、基因拷贝数、转录水平、翻译水平和蛋白质活性。
CN201810729146.8A 2011-10-26 2011-10-31 利用关于基因组模型的数据集成的途径识别算法(paradigm) Pending CN108664762A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/317,769 US10192641B2 (en) 2010-04-29 2011-10-26 Method of generating a dynamic pathway map
US13/317,769 2011-10-26
CN201180075918.7A CN104011726A (zh) 2011-10-26 2011-10-31 利用关于基因组模型的数据集成的途径识别算法(paradigm)

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201180075918.7A Division CN104011726A (zh) 2011-10-26 2011-10-31 利用关于基因组模型的数据集成的途径识别算法(paradigm)

Publications (1)

Publication Number Publication Date
CN108664762A true CN108664762A (zh) 2018-10-16

Family

ID=48168183

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201180075918.7A Pending CN104011726A (zh) 2011-10-26 2011-10-31 利用关于基因组模型的数据集成的途径识别算法(paradigm)
CN201810729146.8A Pending CN108664762A (zh) 2011-10-26 2011-10-31 利用关于基因组模型的数据集成的途径识别算法(paradigm)

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201180075918.7A Pending CN104011726A (zh) 2011-10-26 2011-10-31 利用关于基因组模型的数据集成的途径识别算法(paradigm)

Country Status (9)

Country Link
US (2) US10192641B2 (zh)
EP (1) EP2771830A4 (zh)
JP (4) JP6061941B2 (zh)
KR (2) KR20150048909A (zh)
CN (2) CN104011726A (zh)
AU (1) AU2011380013B2 (zh)
CA (2) CA3021833A1 (zh)
IL (2) IL232243A (zh)
WO (1) WO2013062505A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161796A (zh) * 2019-12-30 2020-05-15 中南大学 一种预测PD潜在gene和miRNA的方法及系统
CN111883203A (zh) * 2020-07-03 2020-11-03 上海厦维生物技术有限公司 用于预测pd-1疗效的模型的构建方法
CN113434693A (zh) * 2021-06-23 2021-09-24 重庆邮电大学工业互联网研究院 一种基于智慧数据平台的数据集成方法
CN115203172A (zh) * 2022-06-30 2022-10-18 北京亚控科技发展有限公司 模型构建及模型数据订阅方法、装置、电子设备和介质

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102136041B1 (ko) 2010-04-29 2020-07-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 게놈 모델에 대한 데이터 통합을 이용하는 경로 인지 알고리즘 (paradigm)
DE102011079034A1 (de) 2011-07-12 2013-01-17 Siemens Aktiengesellschaft Ansteuerung eines technischen Systems
JP6471091B2 (ja) 2012-07-06 2019-02-13 ナント ホールディングス アイピー,エルエルシー ヘルスケア解析ストリーム管理
US11361867B2 (en) * 2012-10-05 2022-06-14 H. Lee Moffitt Cancer Center And Research Institute, Inc. Pathways for treating patients
CN104838372B (zh) 2012-10-09 2018-11-02 凡弗3基因组有限公司 用于生物路径中的调控互动的学习和识别的系统和方法
RU2721130C2 (ru) 2012-12-26 2020-05-18 Конинклейке Филипс Н.В. Оценка активности путей клеточной сигнализации с помощью линейной комбинации(ий) экспрессий генов-мишеней
US20160103949A1 (en) * 2013-05-28 2016-04-14 Five3 Genomics, Llc Paradigm drug response networks
KR20160084363A (ko) 2013-06-28 2016-07-13 난토믹스, 엘엘씨 진단 검사의 확인을 위한 경로 분석
US10114925B2 (en) 2013-07-26 2018-10-30 Nant Holdings Ip, Llc Discovery routing systems and engines
KR101874390B1 (ko) 2013-09-26 2018-07-04 파이브3 제노믹스, 엘엘씨 바이러스-연관 종양을 위한 시스템, 방법, 및 조성물
EP3129908B1 (en) 2014-03-25 2021-07-21 Five3 Genomics, LLC Systems and methods for rna analysis in functional confirmation of cancer mutations
AU2015266612A1 (en) * 2014-05-30 2017-01-19 Nant Holdings Ip, Llc Systems and methods for comprehensive analysis of molecular profiles across multiple tumor and germline exomes
JP2018507470A (ja) 2015-01-20 2018-03-15 ナントミクス,エルエルシー 高悪性度膀胱癌の化学療法に対する奏効を予測するシステムおよび方法
CA2989815A1 (en) * 2015-06-15 2016-12-22 Nantomics, Llc Systems and methods for patient-specific prediction of drug responses from cell line genomics
WO2017066339A1 (en) 2015-10-12 2017-04-20 Nantomics, Llc Iterative discovery of neoepitopes and adaptive immunotherapy and methods therefor
KR102375973B1 (ko) * 2015-11-05 2022-03-17 김훈 사례기반 추론엔진을 이용한 보안 서버 및 보안 기능의 설치를 위한 저장 매체
CN105447337B (zh) * 2015-11-13 2018-01-26 大连理工大学 一种基于动态网络图分析的时间序列数据处理方法
JP2019511903A (ja) 2016-02-19 2019-05-09 ナント ホールディングス アイピー エルエルシーNant Holdings IP, LLC 免疫原性調節の方法
US11154597B2 (en) 2016-03-24 2021-10-26 Nantcell, Inc. Sequence arrangements and sequences for neoepitope presentation
AU2017261353A1 (en) * 2016-05-05 2018-11-08 Nantomics, Llc Checkpoint failure and methods therefor
US20170329914A1 (en) * 2016-05-11 2017-11-16 International Business Machines Corporation Predicting Personalized Cancer Metastasis Routes, Biological Mediators of Metastasis and Metastasis Blocking Therapies
AU2017290803A1 (en) 2016-06-30 2019-01-24 Nant Holdings Ip, Llc Nant cancer vaccine
CN109791796A (zh) 2016-06-30 2019-05-21 南托米克斯有限责任公司 合成wgs生物信息学验证
WO2018027076A1 (en) * 2016-08-03 2018-02-08 Nantomics, Llc Dasatinib response prediction models and methods therefor
EP3500966B1 (en) 2016-08-25 2021-04-21 Nantomics, LLC Immunotherapy markers and uses therefor
CA3040930A1 (en) * 2016-11-07 2018-05-11 Grail, Inc. Methods of identifying somatic mutational signatures for early cancer detection
WO2018094204A1 (en) * 2016-11-17 2018-05-24 Arivale, Inc. Determining relationships between risks for biological conditions and dynamic analytes
AU2017360887B2 (en) * 2016-11-17 2023-01-19 Nant Holdings Ip, Llc Validation of inferred anticancer pathways
US11564944B2 (en) 2016-11-21 2023-01-31 Nant Holdings Ip, Llc Fractal combination therapy
US10629292B2 (en) 2016-12-19 2020-04-21 Seven Bridges Genomics, Inc. Generation and use of simulated genomic data
US11229668B2 (en) 2017-02-07 2022-01-25 Nantcell, Inc. Maximizing T-cell memory and compositions and methods therefor
US20180251849A1 (en) * 2017-03-03 2018-09-06 General Electric Company Method for identifying expression distinguishers in biological samples
WO2018183363A1 (en) * 2017-03-28 2018-10-04 Nantomics, Llc MODELING miRNA INDUCED SILENCING IN BREAST CANCER WITH PARADIGM
AU2018258119B2 (en) 2017-04-24 2021-04-01 Nantcell, Inc. Targeted neoepitope vectors and methods therefor
US10686669B2 (en) * 2017-06-16 2020-06-16 Cisco Technology, Inc. Collecting network models and node information from a network
EP3740497A4 (en) 2018-01-17 2021-10-20 NantBio, Inc. INCREASED IMMUNOGENICITY FOR GPI ANCHORED ANTIGENS
RU2741703C1 (ru) * 2018-03-01 2021-01-28 Общество с ограниченной ответственностью «Онкобокс» Платформа анализа генетической информации oncobox
EP3765634A4 (en) 2018-03-16 2021-12-01 Scipher Medicine Corporation METHODS AND SYSTEMS FOR PREDICTING THE RESPONSE TO ANTI-TNF THERAPIES
US11823773B2 (en) 2018-04-13 2023-11-21 Nant Holdings Ip, Llc Nant cancer vaccine strategies
TWI816603B (zh) 2018-04-23 2023-09-21 美商南特細胞公司 新抗原表位疫苗及免疫刺激組合物及方法
US11564980B2 (en) 2018-04-23 2023-01-31 Nantcell, Inc. Tumor treatment method with an individualized peptide vaccine
CN108795934B (zh) * 2018-05-23 2022-06-21 中国农业科学院上海兽医研究所(中国动物卫生与流行病学中心上海分中心) 日本血吸虫SjELAV-like 2基因的siRNA及其应用
US11211148B2 (en) 2018-06-28 2021-12-28 International Business Machines Corporation Time-series phylogenetic tumor evolution trees
US11189361B2 (en) * 2018-06-28 2021-11-30 International Business Machines Corporation Functional analysis of time-series phylogenetic tumor evolution tree
JP7404648B2 (ja) 2019-04-25 2023-12-26 富士通株式会社 治療薬提示方法、治療薬提示装置、及び治療薬提示プログラム
CA3145237A1 (en) 2019-06-27 2020-12-30 Scipher Medicine Corporation Developing classifiers for stratifying patients
CN112816275B (zh) * 2019-11-18 2022-04-05 中国科学院深圳先进技术研究院 脑部修块装置
RU2756883C1 (ru) * 2020-06-09 2021-10-06 ФГАУ "Военный инновационный технополис "ЭРА" Устройство для вероятностного моделирования процесса функционирования телекоммуникационной сети
US11481235B2 (en) * 2021-01-11 2022-10-25 Evicore Healthcare MSI, LLC Database framework model transformation for pathway identification
US11439159B2 (en) 2021-03-22 2022-09-13 Shiru, Inc. System for identifying and developing individual naturally-occurring proteins as food ingredients by machine learning and database mining combined with empirical testing for a target food function
CN113436729A (zh) * 2021-07-08 2021-09-24 湖南大学 一种基于异构图卷积神经网络的合成致死相互作用预测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101268373A (zh) * 2005-05-17 2008-09-17 塞尔艾克特制药有限公司 作为检测早期免疫激活的标记物的tirc7
CN101790731A (zh) * 2007-03-16 2010-07-28 吉恩安全网络公司 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5834248A (en) 1995-02-10 1998-11-10 Millennium Pharmaceuticals Inc. Compositions and methods using rchd534, a gene uregulated by shear stress
US7709454B2 (en) 1997-06-20 2010-05-04 New York University Methods and compositions for inhibiting tumorigenesis
US6980958B1 (en) * 2000-01-11 2005-12-27 Zycare, Inc. Apparatus and methods for monitoring and modifying anticoagulation therapy of remotely located patients
CA2396495A1 (en) 2000-01-25 2001-08-02 Cellomics, Inc. Method and system for automated inference creation of physico-chemical interaction knowledge from databases of co-occurrence data
WO2003017127A2 (en) 2001-08-16 2003-02-27 Biotech Research Ventures Pte Limited Method for modelling biochemical pathways
US20040167763A1 (en) 2002-05-31 2004-08-26 Liebman Michael N Information processing method for evaluating biochemical pathway models using clinical data
US8005620B2 (en) 2003-08-01 2011-08-23 Dna Twopointo Inc. Systems and methods for biopolymer engineering
JPWO2005096207A1 (ja) 2004-03-30 2008-02-21 茂男 井原 文献情報処理システム
JP2006185412A (ja) 2004-12-03 2006-07-13 Kazusa Dna Kenkyusho 情報処理装置、情報処理方法及びそのプログラム
US7848890B2 (en) 2004-12-08 2010-12-07 Electronics And Telecommunications Research Institute Method and system for predicting gene pathway using gene expression pattern data and protein interaction data
US20060293859A1 (en) 2005-04-13 2006-12-28 Venture Gain L.L.C. Analysis of transcriptomic data using similarity based modeling
CA2608359A1 (en) 2005-05-13 2006-11-23 Duke University Gene expression signatures for oncogenic pathway deregulation
JP2007011996A (ja) 2005-07-04 2007-01-18 Fujitsu Ltd 発現情報の解析方法及びそのシステム
JP2007052766A (ja) * 2005-07-22 2007-03-01 Mathematical Systems Inc パスウェイ表示方法、情報処理装置及びパスウェイ表示プログラム
WO2010059742A1 (en) 2008-11-18 2010-05-27 Collabrx, Inc. Individualized cancer treatment
JP5429567B2 (ja) 2009-06-29 2014-02-26 株式会社ジェイテクト アンギュラ玉軸受用樹脂保持器
GB2474694B (en) * 2009-10-23 2011-11-02 Innovia Films Ltd Biodegradable composites
WO2011055820A1 (ja) * 2009-11-09 2011-05-12 大日本住友製薬株式会社 支援装置、支援方法、及びコンピュータプログラム
KR102136041B1 (ko) 2010-04-29 2020-07-20 더 리젠츠 오브 더 유니버시티 오브 캘리포니아 게놈 모델에 대한 데이터 통합을 이용하는 경로 인지 알고리즘 (paradigm)

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101268373A (zh) * 2005-05-17 2008-09-17 塞尔艾克特制药有限公司 作为检测早期免疫激活的标记物的tirc7
CN101790731A (zh) * 2007-03-16 2010-07-28 吉恩安全网络公司 用于清除遗传数据干扰并确定染色体拷贝数的系统和方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHARLES J VASKE ET AL.: "Inference of patient-specific pathway activities from multi-dimensional cancer genomics data using", 《BIOINFORMATICS》 *
IRIT GAT-VIKS ET AL.: "A Probabilistic Methodology for Integrating Knowledge and Experiments on Biological Networks", 《JOURNAL OF COMPUTATIONAL BIOLOGY》 *
SOL EFRONI, CARL F.SCHAEFER,KENNETH H.BUETOW: "Identification of Key Processes Underlying Cancer Phenotypes Using Biologic", 《PLOS ONE》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161796A (zh) * 2019-12-30 2020-05-15 中南大学 一种预测PD潜在gene和miRNA的方法及系统
CN111161796B (zh) * 2019-12-30 2024-04-16 中南大学 一种预测PD潜在gene和miRNA的方法及系统
CN111883203A (zh) * 2020-07-03 2020-11-03 上海厦维生物技术有限公司 用于预测pd-1疗效的模型的构建方法
CN111883203B (zh) * 2020-07-03 2023-12-29 上海厦维医学检验实验室有限公司 用于预测pd-1疗效的模型的构建方法
CN113434693A (zh) * 2021-06-23 2021-09-24 重庆邮电大学工业互联网研究院 一种基于智慧数据平台的数据集成方法
CN115203172A (zh) * 2022-06-30 2022-10-18 北京亚控科技发展有限公司 模型构建及模型数据订阅方法、装置、电子设备和介质
CN115203172B (zh) * 2022-06-30 2023-11-07 北京亚控科技发展有限公司 模型构建及模型数据订阅方法、装置、电子设备和介质

Also Published As

Publication number Publication date
KR101554530B1 (ko) 2015-09-21
JP2014532859A (ja) 2014-12-08
WO2013062505A1 (en) 2013-05-02
EP2771830A4 (en) 2015-03-25
JP6129998B2 (ja) 2017-05-17
CA2853702A1 (en) 2013-05-02
US10192641B2 (en) 2019-01-29
IL248380B (en) 2019-07-31
JP6396532B2 (ja) 2018-09-26
JP2016122451A (ja) 2016-07-07
CA3021833A1 (en) 2013-05-02
US20120158391A1 (en) 2012-06-21
AU2011380013A1 (en) 2014-05-08
KR20140078766A (ko) 2014-06-25
CN104011726A (zh) 2014-08-27
KR20150048909A (ko) 2015-05-07
US20150142465A1 (en) 2015-05-21
AU2011380013B2 (en) 2014-06-05
IL248380A0 (en) 2016-11-30
JP6061941B2 (ja) 2017-01-18
JP2019008812A (ja) 2019-01-17
EP2771830A1 (en) 2014-09-03
JP2017182813A (ja) 2017-10-05
IL232243A0 (en) 2014-06-30
IL232243A (en) 2016-11-30
JP6854792B2 (ja) 2021-04-07

Similar Documents

Publication Publication Date Title
CN102985927B (zh) 利用关于基因组模型的数据集成的途径识别方法(paradigm)
JP6854792B2 (ja) ゲノムモデルに関するデータ統合を用いたパスウェイ認識アルゴリズム(paradigm)
AU2017201919A1 (en) Pathway recognition algorithm using data integration on genomic models (paradigm)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1260836

Country of ref document: HK

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181016

WD01 Invention patent application deemed withdrawn after publication