CN103620608A - 生物医学标记物之间多模态关联的鉴定 - Google Patents

生物医学标记物之间多模态关联的鉴定 Download PDF

Info

Publication number
CN103620608A
CN103620608A CN201180048660.1A CN201180048660A CN103620608A CN 103620608 A CN103620608 A CN 103620608A CN 201180048660 A CN201180048660 A CN 201180048660A CN 103620608 A CN103620608 A CN 103620608A
Authority
CN
China
Prior art keywords
label
network
group
biomedical
gene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201180048660.1A
Other languages
English (en)
Inventor
N·班纳吉
A·贾内夫斯基
S·卡玛拉卡兰
V·瓦拉达恩
N·迪米特罗娃
R·卢西托
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Cold Spring Harbor Laboratory
Original Assignee
Koninklijke Philips Electronics NV
Cold Spring Harbor Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV, Cold Spring Harbor Laboratory filed Critical Koninklijke Philips Electronics NV
Publication of CN103620608A publication Critical patent/CN103620608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及用于鉴定生物医学标记物之间多模态关联的方法,其允许确定网络节点和/或高评级网络成员或其组合,其代表对医学疾病特别是卵巢癌具有诊断、预后或预测值。本发明还涉及生物医学标记物或生物医学标记物组,其与对象对癌症治疗,优选基于铂的癌症治疗具有高响应性的可能性相关,其中所述生物医学标记物或生物医学标记物组包括选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物。另外,提供了用于检测、诊断、分级、监测或预后医学疾病,或用于检测、诊断、监测或预后对象对针对所述医学疾病,特别是卵巢癌的治疗的响应性,以及提供了用于将对象分类的方法和医学决策支持系统。

Description

生物医学标记物之间多模态关联的鉴定
发明领域
本发明涉及用于鉴定生物医学标记物之间多模态关联(multi-modalassociation)的方法,其允许确定网络节点和/或高评级网络成员或其组合,其表明对医学疾病特别是卵巢癌具有诊断、预后或预测值。本发明还涉及生物医学标记物或生物医学标记物组,其与对象对癌症治疗,优选基于铂的癌症治疗具有高响应性的可能性相关,其中所述生物医学标记物或生物医学标记物组包括选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物。另外,提供了用于检测、诊断、分级、监测或预后医学疾病,或用于检测、诊断、监测或预后对象对针对所述医学疾病,特别是卵巢癌的治疗的响应性,以及提供了用于将对象分类的方法和医学决策支持系统。
发明背景
卵巢癌是妇科恶性肿瘤首要致死原因,主要由于其诊断晚、高致死率和仅30%的低五年存活率。此不良结果的原因包括无特异的表现症状和在疾病晚期鉴定,主要由于缺乏可靠的用于早期检测的筛查方法。卵巢癌是全世界第六最常见癌症,全世界有204,000例并且125,000例死亡。卵巢癌发展的确切原因仍未知;然而,具某些风险因素的女性比其它人更可能发展卵巢癌。排名前列的因素包括年龄、产次(如对于乳腺癌)、个人和用药史。
除了正确和及时诊断卵巢癌,它的治疗构成主要挑战。晚期卵巢癌患者频繁接受卡铂作为标准化疗。大多数患者最初响应于此化疗。然而,多达75%的最初铂响应者在前2年内复发耐化疗肿瘤并且最终死于转移性疾病。此外,一小部分卵巢癌最初(primarily)就是铂化合物难以治愈的。
因此,关于癌症是如何通过分子事件发展的信息不仅对诊断目的非常有帮助并允许在癌症患者中癌症早期(当它仍是局部的和易于治疗时)改善临床结果,而且使医生能更加准确地预测这样的癌症有多可能响应特定的治疗性治疗。以这样的方式,基于肿瘤敏感度的知识可合理地设计治疗方案。因此,依据预测治疗结果表征癌症患者使医生能够对患者就治疗方案做出明智的决定,其具适当的风险和利益权衡。
美国专利申请20090011049涉及癌症预后和治疗领域,并公开了癌症中特定基因的异常甲基化模式。这里,编码了DNA修复或DNA损伤响应酶的核酸的沉默用于预后和选择专门针对个体患者的治疗。这些标记物的组合用于提供预后信息。
尽管有报告称若干基因在某些癌症类型和癌症治疗耐受情况中为差异调控的,整合此信息以预测患有或被检出癌症(特别是卵巢癌)的患者的事件的进展,和评估早期治疗性耐受(特别是对基于铂的治疗的耐受)是困难的。
因此,存在用于提供癌症预后信息以及基于其的测定和诊断方法的需求。
发明概述
本发明满足了此需求并提供了允许基于高通量多模态(multiplehigh-throughput modalities)鉴定分层的基因的手段和方法。
具体通过用于鉴定生物医学标记物之间多模态关联的方法完成上述目的,其包括步骤:
获得包含来自多个初级对象的多分子谱模态(multiple molecularprofiling modalities)数据的多个数据集;
获得包含来自多个二级对象的多分子谱模态数据的多个数据集;
将包含初级对象和二级对象的多分子谱模态数据的多个数据集相关联;
鉴定对初级对象和二级对象具有不同值的一或多种分层生物医学标记物;
在所述分层生物医学标记物中鉴定网络和/或子网络;
向鉴定的网络成员赋予评级分数,所述评级分数基于网络度量(network metric);
确定网络节点和/或高评级网络成员或其组合,其代表对医学疾病具有诊断、预后或预测值。
此方法提供了能够在疾病,例如癌症疾病,特别是卵巢癌早期发展阶段提供预测信息的优点。另外,它允许评估治疗性耐受,例如对基于铂如卡铂的治疗的耐受。所述方法已成功地用于鉴定化疗耐受和敏感的患者之间的分层基因。
在本发明优选的实施方案中,所述来自多个初级和二级对象的多模态谱的多个数据集包括甲基化基因座数据和基因表达数据。
在本发明另外优选的实施方案中,鉴定网络和/或子网络的步骤包括计算分层生物医学标记物的显著性值。
在本发明另一个优选的实施方案中,所述网络度量包括选自连通度(connectivity)、邻接度(adjacency)、网络密度、网络中心势(networkcentralization)、网络异质度、内聚度(clinquishness)、枢纽(hub)基因显著性、网络显著性、质心符合度(centroid conformity)、介数(betweenness)、中心度(centricity)、接近度、偏心度的至少一种。
在本发明另一个优选的实施方案中,所述生物医学标记物为基因、编码区中的基因组基因座、非编码区中的基因组基因座、转录物和/或蛋白质。
而在本发明另一个优选的实施方案中,所述初级对象为健康对象并且所述二级对象受医学疾病影响。
在本发明特别优选的实施方案中,所述医学疾病为癌症。
在本发明另一个特别优选的实施方案中,所述癌症为卵巢癌。
在本发明另外优选的实施方案中,所述预测值是对象对治疗具有响应性的可能性的指征,所述治疗包括一或多种基于铂的药物。
在本发明特别优选的实施方案中,所述基于铂的药物为卡铂。
本发明另一方面涉及生物医学标记物或生物医学标记物组,其与对象对癌症治疗,优选基于铂的癌症治疗具有高响应性的可能性相关,其中所述生物医学标记物或生物医学标记物组包括选自表1中所示的PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、15,16、17、18、19、20种或全部标记物。
本发明另外的方面涉及测定,其用于检测、诊断、分级、监测或预后医学疾病,或用于检测、诊断、监测或预后对象对针对所述医学疾病的治疗,优选癌症治疗,更优选卵巢癌治疗的响应性,其至少包括步骤
(a)测试获得自对象的样品中通过如本文上述定义的方法获得或如本文上下文描述的生物医学标记物的列表或组所定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的表达;
(b)测试对照样品中与(a)中相同的标记物、标记物组、网络节点、高评级网络成员或其组的表达;
(c)确定步骤(a)和(b)的标记物的表达差异;和
(d)基于步骤(c)所获得的结果,确定医学疾病的存在或分期或对象对针对所述医学疾病的治疗,优选癌症治疗,更优选卵巢癌治疗的响应性。
在本发明优选的实施方案中,所述检测包括额外的测试获得自对象的样品中通过如本文上述定义的方法获得,或如本文上下文描述的生物医学标记物的列表或组所定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化状态和/或模式的步骤,其中在步骤(c)中额外地确定甲基化状态和/或模式的差异。
在另外的方面本发明涉及用于分类对象的方法,其包括:
(a)提供对象的数据集,其包括通过如本文上述定义的方法获得或如本文上下文描述的生物医学标记物的列表或组所定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化基因座数据和基因表达数据;
(b)访问(accessing)数据库,其包括通过如本文上述定义的方法获得或如本文上下文描述的生物医学标记物的列表或组所定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的数据库值;和
(c)基于步骤(a)和(b)的结果之间的数据库间差异计算对象的分类评分。
在另外的方面本发明涉及医学决策支持系统,其包括:
输入端,其用于提供对象数据集,所述数据集包括通过如本文上述定义的方法获得或如本文上下文描述的生物医学标记物的列表或组所定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化基因座数据和基因表达数据;
计算机程序产品,其用于使处理器能够执行如上述定义的分类对象的方法;和
输出端,其用于输出对象的分类评分。
附图简述
图1显示了鉴定铂耐受中关键通路和基因的分析流程图。
图2描绘了Wnt通路和其为分层基因的成员(圆环),尤其是FZD1、GSK3B和CTNNB1。
图3显示了靶-调节因子(regulator)网络。该图显示了节点,如果它们与已鉴定的分层基因具有至少一种来自生物学数据库的已知的相互作用,则所述节点被包括在内。进一步标明主要参与Wnt信号转导的枢纽的CTNNB1和CCND。进一步标明p53信号通路的PTEN。
图4描绘了甲基化-表达相关性子网络,其显示了具有高介数中心性测量值的节点(红色)。
发明详述
发明人已开发了允许基于高通量多模态鉴定分层基因的手段和方法。
尽管将用具体实施方案描述本发明,此描述不应解释为限制性的含义。
在详细描述本发明示例性的实施方案之前,给出对理解本发明重要的定义。
如本说明书和所附权利要求所用,单数形式的“一(a)”和“一(an)”也包括各自的复数,除非上下文另有明确定义。
就本发明来说,术语“约”和“大约”定义为准确值的区间,本领域技术人员将理解该区间仍确保所考虑的特征的技术效果。该术语通常指所指数值±20%,优选±15%,更优选±10%,甚至更优选±5%的偏差。
应理解术语“包括”是非限制性的。为了本发明的目的,术语“由...组成”被认为是术语“包括”的优选的实施方案。如果下文一个组被定义为包括至少一定数量的实施方案,这也意味着优选涵盖仅由这些实施方案组成的组。
另外,在说明书和权利要求中的术语“第一”、“第二”、“第三”或“(a)”、“(b)”、“(c)”、“(d)”等等用于区分相似的元素,并非描述必须依次或按时间的顺序。应理解这样使用的术语在适当的环境下是可互换的,并且本文描述的本发明的实施方案能够以本文描述或阐述之外的顺序操作。
假如术语“第一”、“第二”、“第三”或“(a)”、“(b)”、“(c)”、“(d)”等涉及方法或用途的步骤,则在步骤之间没有时间或时间间隔连贯(即步骤可同时完成),或在这样的步骤之间可存在秒、分、小时、天、周、月或甚至年的时间间隔,除非在如本文上述或下述列出的应用中另行指出。
应理解本发明不限于本文描述的具体的方法、方案、试剂等,因为这些可以变化。还应理解本文所用的术语仅为了描述具体实施方案的目的,而不是为了限制本发明的范围,本发明的范围仅受限于所附权利要求。除非另有定义,本文所用的所有技术和科学术语具有与本领域普通技术人员通常所理解的相同的意义。
如上文所示,本发明一方面考虑用于鉴定生物医学标记物之间多模态关联的方法,其包括以下步骤:
获得包含来自多个初级对象的多分子谱模态数据的多个数据集;
获得包含来自多个二级对象的多分子谱模态数据的多个数据集;
将包含初级对象和二级对象的多分子谱模态数据的多个数据集相关联;
鉴定对初级对象和二级对象具有不同值的一或多种分层生物医学标记物;
鉴定分层生物医学标记物中的网络和/或子网络;
向鉴定的网络的成员赋予评级分数,所述评级分数基于网络度量;
确定网络节点和/或高评级网络成员或其组合,其代表对医学疾病具有诊断、预后或预测值。
如本文所用,术语“生物医学标记物”指与对象相关的分子、遗传、医学、生物化学、化学、生物学或生理学条件,其在一个对象与另一个对象之间可不同,例如在受疾病折磨的对象与健康对象之间可不同。
如本文所用,术语“多分子谱模态”指与对象(例如待测试的患者)相连的分子、遗传、医学、生物化学、化学、生物学或生理学条件相关的模态。这样的模态的非限制性的实例包括基因或基因组基因座的分子状态,转录物、蛋白质、截短的转录物、截短的蛋白质的存在或缺失或量/水平,细胞标记物的存在或缺失或量/水平,表面标记物的存在或缺失或量/水平,糖基化模式的存在或缺失或量/水平、所述模式的形式,mRNA或蛋白质水平的表达模式的存在或缺失、所述模式的形式,细胞大小,细胞行为,生长和环境刺激应答,活力,组织学参数的存在或缺失或量/水平,染色行为,生物化学或化学标记物(例如肽、次级代谢物、小分子)的存在或缺失或量/水平,转录因子的存在或缺失或量/水平,染色体区域或基因座的形式和/或活性,以及针对提及的条件或针对本领域技术人员已知的其它条件的另外的模态。
术语“多个数据集”指包括上述提及条件的数据的数据集,例如包括与对象相关的一或多种分子、遗传、医学、生化、化学、生物学或生理学条件谱的数据。多个数据集可能包括至少一个数据集,或多于一个数据集,例如2、3、4、5、6、7、8、9、10、20、50、100个或更多数据集。数据集可能包括冗余或非冗余的信息。数据集可以本领域技术人员已知的任何适当的形式提供,例如以生物信息学应用的适当的输入格式作为原始数据等。
如本文所用,术语“初级对象”指对象,例如动物,特别是哺乳动物的组。优选地,初级对象为人类,例如患者。在具体的实施方案中,所述术语还可能指获得自对象的样品。初级对象是区别对应的“二级对象”组的形式,其中它们可与一或多种提及的与对象相关的分子、遗传、医学、生物化学、化学、生物学或生理学条件相关,所述条件在初级对象和二级对象之间不同。
如本文所用,术语“使多个数据集相关联”指数据集或所包含的信息在例如从初级和二级对象获得的数据集之间进行对比,和/或与来源于数据库、外部来源、文献值、平行实验等的数据集进行对比。另外,该术语可包括进行统计学分析或步骤。因此,所述术语还指确定一种模态中的一种标记物对另一种模态中的另一种标记物的值的影响。在优选的实施方案中,所述关联是统计学显著的关系或其在初级和二级对象之间的变化。
如本文所用,术语“分层生物医学标记物”指与对象相关的条件或特征,其可来源于或与提及的分子、遗传、医学、生物化学、化学、生物学或生理学条件相关,其中用作关联步骤的输入的这些条件或特征将初级对象和二级对象区分开。因此,分层生物医学标记物是选自最初获得的多个数据集的区分条件。在典型的实施方案中,这些生物医学标记物显示了所提及分子、遗传、医学、生物化学、化学、生物学或生理学条件的不同的值,优选所述值统计学显著地不同。所述术语包括一种区分标记物,还可多于一种这样的标记物,例如2、3、4、5、6、7、8、9、10种或更多标记物的组。然后可基于组成员之间的对比操作分层,例如基于整个组的平均值或其它本领域技术人员已知的统计学方法。
如本文所用,术语“鉴定网络”指鉴定生物医学标记物之间的相关关系。术语“相关”指可采用本领域技术人员已知的适当的统计学方法确定关系是否显著。通常,可采用阈值或基于排除阈值的适当算法以消除不具有医学或生物学重要性或不具有诊断或治疗医学价值的关系。所述步骤可重复一或若干次。另外,阈值或消除值可变化或不同,例如根据所考虑的标记物的依赖性、所考虑的标记物的数目、所获得的网络的大小等等。“网络”要求每个网络成员与另一个网络成员具有至少一种关系(relationship)或关联(association)。优选地,网络成员与一或多个其它网络成员具有多于一种关系或关联。可能被鉴定的网络的非限制性实例为遗传或生物化学通路、共定位的遗传标记物或遗传基因座、基于相似环境输入的标记物、由转录因子活化的靶基因等。
如本文所用,术语“鉴定子网络”指在已鉴定的与网络中其它成员具有关系的标记物或元件的集合中鉴定成员子集,其显示不同类型的关系或其更高的程度(例如对于某种条件更高的值等)。术语子网络还包括仅部分与网络重叠的网络。所述术语还指网络间多于一阶的层次,例如子-子-网络等。例如,子网络可富集数据库的某些临床参数、某些通路成员、某些通路的存在或缺失、基因组位置、染色体的存在等。
就本发明来说,术语“评级分数”指代表数字值的分数。优选地,评级分数可基于网络度量。术语“网络度量”指网络系统中的性能的度量。所述术语还可包括两或多个独立度量的复合,通常为比值的形式。然而,度量的其它组合也是可能的。
鉴定生物医学标记物之间多模态关联的方法的最终步骤之一是确定网络节点。如本文中所用,术语“网络节点”指与其它网络元件显示出多于单个关联的网络成员。
在优选的实施方案中,网络节点是多重关联元件或网络枢纽。术语“网络枢纽(network hub)”意指节点,在给定网络中其连接数目大于每个节点平均连接数目。
更优选鉴定重要网络枢纽。如本文中所用,术语“重要网络枢纽”指枢纽,在给定网络中其连接数目大于每个枢纽平均的连接数目。
所述方法还可导致鉴定高评级网络成员。术语“高评级网络成员”意指所述网络成员的评级分数高于网络成员的平均评级分数。在具体的实施方案中这样的成员可能不仅拥有一个高评级分数,而优选2、3、4、5或更多个。而在另一个实施方案中,可组合关联和/或评级分数,例如确定步骤可基于两或多种不同的信息元件,例如节点和/或枢纽和/或重要枢纽和/或高评级网络成员,或其任何亚组。
这些节点或网络成员可代表医学疾病或具有医学疾病的诊断、预后或预测值。如本文中所用,术语“医学疾病”指与健康或正常状态不同的医学状况,例如疾病或疾病倾向。术语“医学疾病的诊断值”意指,分别与1、2、3、4、5、6个已鉴定的节点或网络成员相关的分子、遗传、医学、生物化学、化学、生物学或生理学条件的1、2、3、4、5或更多种值可能达到典型的阈值,例如,高于或低于来源于如上述定义的初级对象的条件,其被认为代表医学疾病,例如疾病或疾病倾向的存在。术语“医学疾病的预后值”指根据分别与1、2、3、4、5、6个已鉴定的节点或网络成员相关的分子、遗传、医学、生物化学、化学、生物学或生理学条件的1、2、3、4、5或更多种值预后医学疾病发展,例如从倾向到急性疾病,或从中期向更晚期发展。
术语“医学疾病的预测值”指允许评估医学疾病或所述医学疾病在未来(例如在限定的1-3周、1个月、2个月、3个月、4个月、5个月、6个月、1、2、3、4、5、6、7、10年或更多年或任何其它时间段内)发展的值。所述术语还包括与所述医学疾病相关的所有情况,例如治疗结果、对治疗的响应、耐药性的发展等。
在本发明优选的实施方案中,来自多个初级和二级分区(subsection)的多个多分子谱模态数据集包括甲基化基因座数据和/或基因表达数据。特别优选的是与基因表达数据组合的甲基化基因座数据。
如本文中所用,术语“甲基化基因座”指来源于或存在于对象的核酸,其特征为在所述核酸中的一或多个CpG二核苷酸处存在5-甲基胞嘧啶(“5-mCyt”)。例如,这样的核酸序列可为来源于或存在于对象中的基因组部分或基因座。例如,这些基因座可包括基因组的活性或非活性部分。优选地,这样的基因座为包含表达所编码的遗传信息的所有必须元件(例如顺式和反式作用元件等)的基因。甲基化基因座的信息可优选包括所述基因座或基因组区域或基因或其任何子片段的甲基化状态信息。
就本发明来说,术语“甲基化状态”意指存在于感兴趣的核酸中的甲基化程度。这可表达为绝对或相对的术语,即作为百分比或其它数值,或与另一个组织相比较并且其中描述为超甲基化、低甲基化或拥有显著相似或相同的甲基化状态。
如本文中所用,术语“超甲基化”或“超甲基化的”指这样的平均甲基化状态,相对于正常对照DNA样品中在对应的CpG二核苷酸处发现的5-mCyt的量,在测试DNA样品的DNA序列中一或多个CpG二核苷酸处存在增加的5-mCyt。
如本文中所用,术语“低甲基化”指这样的平均甲基化状态,相对于正常对照DNA样品在对应的CpG二核苷酸处发现的5-mCyt的量,在测试DNA样品的DNA序列中一或多个CpG二核苷酸处存在降低的5-mCyt。
因此,在优选的实施方案中,与初级对象的甲基化状态相比,“甲基化基因座”可能显示超甲基化、低甲基化或无甲基化修饰的状态。
待分析的基因座(locus)或基因座(loci)可包含任何适当的本领域技术人员已知的尺寸。例如,可分析约5、10、20、50或100个核苷酸,1kbp、2kbp、3kbp、4kbp、5kbp、6kbp、7kbp、10kbp、15kbp、20kbp、25kbp、30kbp、35kbp、40kbp、100kbp、整条染色体、多于一条染色体(例如2、3、4、5、6条染色体等)或整个基因组的甲基化状态。
在一个实施方案中,设想了单个基因(包括它们表达所必须的所有元件,例如启动子、增强子、开放读码框、终止子等,或仅其子片段),或联合基因(例如通路成员、或基因的任何组合或联合)的表观遗传分析。另外设想的是调控区域的表观遗传分析。术语“调控区域”意指影响基因表达的核苷酸序列。所述调控区域可能位于所述基因的内部、近端或远端。调控区域包括但不限于组成型启动子、组织特异的启动子、发育特异的启动子、可诱导的启动子以及非编码RNA(例如microRNA)等等。启动子调控元件还可包括某些控制基因转录或翻译效率的增强子序列元件。这些序列可拥有不同水平的结合特异性并可与转录因子以及DNA甲基结合蛋白质(例如MeCP、Kaiso、MBD1-MBD4)相结合。如本文中所用,术语“表观遗传”指由于除基本DNA序列变化之外的生物学行为(即遗传行为)修饰。通常,表观遗传修饰的非限制性的实例为基因组区段或基因座的甲基化、染色质重塑、或DNA与RNA转录物的相互作用。因此,除了分析甲基化或甲基化模式或状态之外,还可确定染色质状态和/或相互作用的RNA物质的存在。
如本文中所用,术语“通路”指发生在一组基因之间的一套相互作用,其中基因依靠其它基因各自单独的功能来使细胞可用网络的聚合功能。
可用本领域技术人员已知的任何适当的(例如甲基化测定)方法确定甲基化,例如,用于确定DNA序列内一或多个CpG二核苷酸序列的甲基化状态的测定。这样的测定可基于采用甲基化特异的PCR或甲基化特异测序来评估DNA甲基化水平。本领域技术人员已知细节。
如本文中所用,“基因表达”指基因的转录和/或翻译。“基因表达”或其缺失可为基因组DNA的表观遗传修饰的结果,所述基因组DNA与标记物基因和/或其调控或启动子区域等相关。遗传修饰可包括SNP、点突变、缺失、插入、重复长度、重排、拷贝数变化和其它多态性。将蛋白质表达水平或mRNA表达的分析概括为基因“表达”分析。所述术语指单个基因的表达,然而还可能包括一组基因的表达,例如定位于通路中的基因、在基因组区域共定位的基因、存在于染色体上或染色体区域中的基因等等。
在本发明的一个实施方案中,如上文描述的甲基化状态数据集与如上文定义的分子、遗传、医学、生物化学、化学、生物学或生理学条件的一或多个其它数据集联合分析。
在本发明另一个实施方案中,如上文描述的基因表达数据集与如上文定义的分子、遗传、医学、生物化学、化学、生物学或生理学因素的一或多个数据集联合分析。
特别优选的是分析甲基化状态数据集和基因表达数据集。例如,基因或通路成员或共定位的基因等的表达数据可能与相同元件,或临近元件或结构的甲基化状态或表观遗传状态相关,反之亦然。或者,基因或通路成员等的表达数据可能与不同基因或不同通路的成员(例如以不同水平或以不同方式相关的元件)的甲基化状态或表观遗传状态相关,反之亦然。
在本发明另外的实施方案中,鉴定网络和/或子网络的步骤包括计算分层生物医学标记物的显著性值的步骤。如本文中所用,术语“显著性值”指允许统计学地相对区分两种情况的任何适当的统计学值。优选地,所述术语涉及计算p值。更优选地,显著性值可为基于超几何分布或Fisher's精确检验的p值。
在具体的实施方案中,可根据下述实例进行显著性值的计算。假定有N个基因,其中N为存在于初级和二级数据集中的基因数目,并且M个基因通过不同的谱模态相关联(例如注释至一通路集中特定的通路,或以其它方式相关),在输入列表中发现n个基因(例如包含在分层基因如差异甲基化的基因中),k代表在输入的列表中也注释至所述特定通路中的基因数目。然后可根据公式计算对任何给定的k的概率,其中k为从1至n的整数集中的整数:
h ( k | N ; M ; n ) : = P ( X = k ) = ( M k ) ( N - M n - k ) ( N n )
在本发明另外的实施方案中,分层生物医学标记物的显著值计算可用适当的校正方法进行补充。特别优选的方法是Benjamin&Hochberg错误发现率(FDR)校正。
在本发明另外的实施方案中,待评估的网络度量包括选自连通度、邻接度、网络密度、网络中心势、网络异质度、内聚度、枢纽基因显著性、网络显著性、质心显著性、质心符合度、介数、中心度、接近度、偏心度的至少一种。
如本文中所用,术语“连通度”指与网络元件(例如基因)邻接或直接连接的网络元件(例如基因)的数目。
如本文中所用,术语“邻接度”或“接近度”指不形成中性关系(例如像或不像其它元件)的网络元件(如基因)的数目。
如本文中所用,术语“网络密度”指平均的非对角邻接。这种度量测量网络元件(如基因)中的总体影响。
术语“网络中心势”指网络的拓扑学结构。例如,中心势为1代表星型布局的网络,而中心势为0代表每个节点具有相同连通度的网络。
如本文中所用,术语“网络异质度”指连通度的差异。
如本文中所用,术语“内聚度”指局部连接的密度度量。
如本文中所用,术语“枢纽基因显著性”指连通度与基因显著性之间的关联。
如本文中所用,术语“网络显著性”指基因的平均基因显著性。这通常是网络元件(如基因)中的平均分级点(grade point)的度量。
如本文中所用,术语“质心显著性”或“中心度”指在网络中适当选择的代表性节点(质心)的基因显著性。
如本文中所用,术语“质心符合度”指网络元件(如基因)与适当选择的代表性节点(质心)之间的邻接度。
如本文中所用,术语“介数”指在网络中网络元件(例如基因)对其它元件(如基因)之间的信息流的高影响。
如本文中所用,术语“偏心度”指在网络中网络元件(如基因)对所有其它单元(如基因)的可达性(accessibility)。
计算相应的度量的进一步的细节以及公式可来源于本领域技术人员已知的适当的科学出版物,例如来自Horvath和Dong,PloS ComputationalBiology,2008,4(8),e1000117,1-27页,特别是第3-7页。
可根据本领域技术人员已知的适当方法(例如在Horvath和Dong中描述的)确定如上文所提及的度量。度量可单独或以任何组合使用。优选地,可确定网络元件(如基因)的介数和/或偏心度和/或连通度。例如,网络元件(如基因)的介数可用作评级方法,并且可另外使用偏心度和/或连通度以提高网络元件的显著性和/或消除非显著的单元。表3中提供了这样的评级的一般实例。
在本发明优选的实施方案中,根据介数度量给网络元件或节点(例如基因)分配评级分数。在非限制性的实例中,仅考虑显示出0.00005或更高如0.0001、0.00015、0.0002等介数值的网络元件或节点(如基因)。在另外的实施方案中,根据偏心度度量给网络元件或节点(例如基因)分配评级分数。在非限制性的实例中,仅考虑显示出约1.35和更高例如约1.4、1.45、1.5、1.55、1.6、1.65、1.7或更高的偏心度值的基因。而在另一个实施方案中,根据连通度度量给网络单元或节点(例如基因)分配评级分数。在非限制性的实例中,仅考虑显示出约2或更高如约3、4、5、6、7、8、9、10、15或更高的连通度值的网络元件或节点(如基因)。在本发明另一个实施方案中,可组合介数、偏心度和连通度的评级分数。所述组合可根据上述提及的任何评级列表(例如根据介数评级,或根据偏心度评级或根据连通度评级,或根据2种评级的组等)进行加权。
在另外的实施方案中,所提及的任何其它度量(即邻接度、网络密度、网络中心势、网络异质度、内聚度、枢纽基因显著性、网络显著性、质心显著性、质心符合度、中心度和接近度)还可用作初级评级输入,即用于定义评级分数。因此,所获得的评级可另外与来源于例如介数、偏心度和/或连通度度量或上述提及的组的任何其它度量相组合,例如作为二级评级输入。可根据适当的方法计算组合,例如基于平均评级位置,或基于加权因子,例如根据输入度量的重要性和/或显著性。
在本发明具体的实施方案中,可在适当的软件工具(例如BingGO和/或Cytoscape)的帮助下完成用于鉴定生物医学标记物之间多模态关联的方法。在非限制性的实例中,可完成下述步骤:
(a)输入作为节点属性的网络度量;
(b)选择节点(例如顶级节点)和连线(edge)(例如最相关和反相关的节点)子集,例如用0.5的阈值;
(c)调用Cytoscape的BingGO插件(另外的细节描述于Maere等人,BINGO:a Cytoscape plugin to assess overrepresentation of GeneOntology categories in biological networks,Bioinformatics,2006,21,3448中,其以其整体并入本文);
(d)可设定BinGO的参数;
(e)本体论:可选择分子功能/生物学过程(Molecular_Function/Biologicalprocess);
(f)注释(生物体):可选择人类(Homo sapiens);
(g)统计学检验:可选择超几何检验;
(h)校正:可选择Benjamini&Hochberg错误发现率(FDR)校正;
(i)显著性水平可设定为0.05;
(j)检验选项可设定为:对全部注释检验聚类;
(k)可执行分析,例如过度代表(overrepresentation)分析。
在本发明另外优选的实施方案中,待评估或分析的生物医学标记物为基因,基因组基因座,转录物和/或蛋白质。基因可为包含确保基因表达的所有必须元件(例如启动子、增强子、开放读码框、终止子或其亚组)的实体。如本文中所用,基因组基因座可为位于非编码区域的基因组基因座。或者,基因组基因座可位于编码区中。基因组基因座可为不同大小的,例如涵盖10-1000核苷酸的短片段,或2kbp、5kbp、10kbps、100kbp、1Mbp的更大片段,染色体臂,或整条染色体。
基因组基因座还可部分位于编码区中并部分位于非编码区中。
转录物可为来源于活性基因的任何形式的核酸,例如mRNA分子、非剪接的mRNA分子、截短的mRNA分子、其短片段等等。蛋白质可为全长蛋白质或其任何片段。或者,可设想特异性结合于蛋白质、结合于RNA或DNA或结合于染色体结构的抗体或配体为待测试的生物医学标记物。
在另外优选的实施方案中,所提及的初级对象为健康对象。术语“健康对象”涉及与二级对象(例如人)相比没有感染特定疾病的人(就相同的疾病来说)。因此术语“健康”指特定的疾病状态,其中对象不显示所述疾病症状。因此所述术语并非意指所述人完全不患有任何疾病。然而,为了本发明的目的仍拟定这些人为健康的。
在另外优选的实施方案中,所述二级对象受到医学疾病的影响。医学疾病可为本领域技术人员已知的任何疾病或病痛。优选地,这样的疾病导致区分生物化学标记物的能力。优选地,所述医学疾病为癌症。更优选地,所述医学疾病为卵巢癌。
在本发明另外特别优选的实施方案中,由确定网络节点和/或高评级网络成员或其组合得到的预测值是对象对治疗具有响应性的可能性的指征。这样的治疗可为任何类型,例如化疗,例如针对疾病的化疗。如本文中所用,术语“具有响应性的可能性”指对象可能对治疗发展出不响应状态的概率,例如对治疗或给定治疗组合物发展出耐受性。如本文中所用,术语“化疗”意指药物学或化学物质用于疾病,特别是治疗癌症的用途。
在特别优选的实施方案中,具有响应性的可能性为对象对包括一或多种基于铂的药物的治疗具有响应性的可能性。基于铂的药物的实例为顺铂和其衍生物或类似物,例如奥沙利铂、沙铂。
在特别优选的实施方案中,所述基于铂的药物为卡铂。因此,如本文上述描述的方法学可能用于鉴定网络元件,例如基因和/或基因组基因座,其允许评估对基于铂的治疗,特别是基于卡铂的治疗的响应可能性,例如在癌症治疗期间,特别是在卵巢癌治疗期间。
本发明另一方面涉及与疾病,特别是癌症疾病例如卵巢癌发展相关的,或与对象对癌症治疗具有高响应性的可能性相关的生物化学标记物或生物化学标记物组。生物化学标记物组包括选自如下述表1中所示的PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物:
表1:
Figure BDA00003019867900171
在本发明特别优选的实施方案中,提及的生物化学标记物或生物化学标记物组与对象对卵巢癌治疗具有高响应性的可能性相关。在本发明另外特别优选的实施方案中,提及的生物化学标记物或生物化学标记物组与对象对包括基于铂的药物的卵巢癌治疗具有高响应性的可能性相关。而在本发明另一个特别优选的实施方案中,提及的生物化学标记物或生物化学标记物组与对象对包括卡铂的卵巢癌治疗具有高响应性的可能性相关。
在本发明另外的实施方案中,在如本文上述定义的生物化学标记物之间鉴定多模态关联的方法可基于数据集,其包括与如上述定义的标记物或标记物组相连的参数,例如选自PKMYT1、SKIL、RAB8A、HIRIP3、
CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、
TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,或在表2、4或5中提及的一或多种标记物或标记物组。优选地,数据集可包括DNA甲基化数据和/或基因表达数据。
在另外的实施方案中,本发明涉及与疾病,特别是癌症疾病例如卵巢癌发育相关的,或与对象对癌症治疗具有高响应性的可能性相关的生物化学标记物组,其中生物化学标记物组包括选自如表1所示的PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,其与表2、4和/或5中提及的至少1、2、3、4、5、6、7、8、9、10种或更多标记物相组合。特别优选的是标记物组,其包括选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,和表2所示的1、2、3、4、5、6、7、8、9、10种或更多标记物。在另外的实施方案中,生物化学标记物组包括选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN、和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,和表2中所示的一或多个通路的至少一种成员,例如雄激素受体、Pitx2驱动的转录调控、Wnt信号通路、Gata3和th2细胞因子基因表达、体节分割时钟、PI3K-akt、白细胞跨内皮迁移和/或通过cdk5/p35的MEKI磷酸化。所示的通路的成员为本领域技术人员已知的和/或可来源于合格的教科书。
本发明设想标记物为遗传单元的形式(例如基因),或表达单元的形式(例如转录物、蛋白质或其衍生物)。此外,标记物可包括二级结合元件,例如抗体、结合配体、对标记物转录物特异的siRNA或反义RNA分子。另外包括的是提及的标记物的基因组基因座,例如表1中所示的基因组DNA或其子片段。标记物还可包括在与标记物相关的基因或基因组基因座内的表观遗传修饰,例如所述基因或基因组基因座的甲基化的形式,所述基因或基因组基因座的低甲基化的形式等。
在本发明的一个实施方案中,标记物组包括PKMYT1和SKIL。在本发明另外的实施方案中,标记物组包括PKMYT1和RAB8A。在本发明另外的实施方案中,标记物组包括PKMYT1和HIRIP3。而在本发明另一个实施方案中,标记物组包括PKMYT1和CTNNB1。而在本发明另一个实施方案中,标记物组包括PKMYT1和NGFR。而在本发明另一个实施方案中,标记物组包括PKMYT1和ZCCHC11。而在本发明另一个实施方案中,标记物组包括PKMYT1和LSP1。而在本发明另一个实施方案中,标记物组包括PKMYT1和CD200。而在本发明另一个实施方案中,标记物组包括PKMYT1和PAX8。而在本发明另一个实施方案中,标记物组包括PKMYT1和CYBRD1。而在本发明另一个实施方案中,标记物组包括PKMYT1和HOXC11。而在本发明另一个实施方案中,标记物组包括PKMYT1和TCEAL1。而在本发明另一个实施方案中,标记物组包括PKMYT1和FZD10。而在本发明另一个实施方案中,标记物组包括PKMYT1和FZD1。而在本发明另一个实施方案中,标记物组包括PKMYT1和BBS4。而在本发明另一个实施方案中,标记物组包括PKMYT1和IRS2。而在本发明另一个实施方案中,标记物组包括PKMYT1和TLX3。而在本发明另一个实施方案中,标记物组包括PKMYT1和TSPAN2。而在本发明另一个实施方案中,标记物组包括PKMYT1和TXN。而在本发明另一个实施方案中,标记物组包括PKMYT1和CFLAR。
在本发明另外的实施方案中,标记物组包括PKMYT1和SKIL和RAB8A。在本发明另外的实施方案中,标记物组包括PKMYT1和SKIL和HIRIP3。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和CTNNB1。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和NGFR。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和ZCCHC11。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和LSP1。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和CD200。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和PAX8。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和CYBRD1。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和HOXC11。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和TCEAL1。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和FZD10。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和FZD1。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和BBS4。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和IRS2。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和TLX3。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和TSPAN2。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和TXN。而在本发明另一个实施方案中,标记物组包括PKMYT1和SKIL和CFLAR。
在本发明另外的实施方案中,标记物组包括PKMYT1和表1的2、3、4、5、6、7、8种或更多标记物。在本发明另外的实施方案中,标记物组包括SKIL和表1的2、3、4、5、6、7、8种或更多标记物。
而在本发明另一个实施方案中,标记物组包括PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200和PAX8的至少1、2、3、4、5、6、7、8、9种或全部。
在另外的特定实施方案中,本发明涉及如表4和/或5中所示的标记物组,例如在基因本体论归类分子功能和/或生物学过程中过度代表的标记物。例如,本发明涉及表4和/或5的“全体”部分中所示的标记物组。在另外的实施方案中,本发明涉及表4和/或表5的“中心度”部分中所示的标记物组。在另外的实施方案中,本发明涉及表4和/或表5的“接近度”部分中所示的标记物组。在另外的实施方案中,本发明涉及表4的“HIGHCONN”部分中所示的标记物组。在另外的实施方案中,本发明涉及表5的“偏心度”部分中所示的标记物组。
在另外的特定实施方案中,本发明涉及组,其包括表1的PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200和PAX8的至少1、2、3、4、5、6、7、8、9种或全部标记物,和如表2所示的至少1、2、3、4、5种或更多标记物。
在另外的方面本发明涉及体外或体内诊断医学疾病(例如癌症疾病,优选卵巢癌)的方法,其中所述方法基于确定与如上述定义的标记物连接的分子参数,例如包括表1的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物的标记物或标记物组。优选地,诊断方法包括确定一或多种标记物的表达产物(例如蛋白质、转录物等)的存在或缺失或量/水平。另外或可选地,可确定二级参数例如标记物的甲基化状态。在特定的实施方案中,所确定表达的标记物与所确定二级参数(例如甲基化状态)的标记物可为不同的。
在另外的方面本发明涉及组合物,其用于体内或体外诊断、检测、监测或预后疾病(优选癌症疾病,更优选卵巢),或用于诊断、检测、监测或预后对象对癌症治疗(优选针对卵巢癌的治疗,更优选基于铂药物的治疗,甚至更优选基于卡铂的治疗)具有响应性的可能性,其包括上述提及的标记物或标记物组的表达产物或蛋白质的核酸亲和配体和/或肽亲和配体。这样的组合物可选地或另外地包含针对任何上述提及的标记物的抗体。
在本发明优选的实施方案中,对所述核酸亲和配体或肽亲和配体进行修饰以作为成像造影剂发挥功能。
另外设想的是鉴定对象对癌症疾病治疗的适合度的方法,其包括:
(a)测试获得自对象的样品中与本文上述所示标记物或标记物组相关的参数;
(b)对所测试参数的水平进行分类;和
(c)当对象的样品分类为具有一或多种如上述提及的标记物的提高表达和/或具有一或多种上述提及的标记物的修饰的甲基化状态时,将所述个体鉴定为适合接受癌症疾病治疗。
另一方面本发明涉及用于检测、诊断、分级、监测或预后医学疾病(优选癌症,更优选卵巢癌)的测定,其至少包括步骤:
(a)测试获得自对象的样品中分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的表达,其中所述成员可根据上文描述的方法获得;或者,可用如本文上述定义的标记物或标记物组进行所述测试;
(b)测试对照样品中如(a)中相同的标记物、标记物组、网络节点、高评级网络成员或其组的表达;
(c)确定步骤(a)和(b)的标记物的表达差异;和
(d)基于步骤(c)获得的结果确定医学疾病的存在或分期或对象对针对所述医学疾病的治疗的响应性。
而在另一方面本发明涉及用于检测、诊断、分级、监测或预后对象对针对所述医学疾病(优选癌症,更优选卵巢癌)的治疗的响应性,甚至更优选对象对基于铂药物(例如卡铂)的治疗的响应性的测定,其至少包括步骤
(a)测试获得自对象的样品中分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的表达,其中所述成员可根据上文描述的方法获得;或者,可用如本文上述定义的标记物或标记物组进行所述测试;
(b)测试对照样品中如(a)中相同的标记物、标记物组、网络节点、高评级网络成员或其组的表达;
(c)确定步骤(a)和(b)的标记物的表达差异;和
(d)根据步骤(c)获得的结果确定医学疾病的存在或分期或对象对针对所述医学疾病(优选癌症,更优选卵巢癌)的治疗的响应性。
在本发明优选的实施方案中,如本文上述描述的测定可包括测试获得自对象的样品中分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化状态和/或模式的额外步骤,其中所述成员可根据上文描述的方法获得;或者,可用如本文上述定义的标记物或标记物组进行所述测试;其中在步骤(c)中额外确定甲基化状态和/或模式的差异。
可选地,用于检测、诊断、分级、监测或预后如本文上述定义的医学疾病(优选癌症,更优选卵巢癌)的测定可在步骤(a)中包括确定获得自对象的样品中的不同的参数。这样的参数的非限制性的实例为全基因组序列,基因组甲基化模式,甲基化的区段或元件的相同性,基因或基因组基因座的分子状态,转录物、蛋白质、截短的转录物、截短的蛋白质的存在或缺失或量/水平,细胞标记物的存在或缺失或量/水平,表面标记物的存在或缺失或量/水平,糖基化模式的存在或缺失或量/水平、所述模式的形式,mRNA或蛋白质水平的表达模式的存在或缺失、所述模式的形式,细胞大小,细胞行为,生长和环境刺激应答,活力,组织学参数、染色行为的存在或缺失或量/水平,生物化学或化学标记物(例如肽、次级代谢物、小分子)的存在或缺失或量/水平,转录因子的存在或缺失或量/水平,染色体区域或基因座的形式和/或活性;和另外的生物医学或遗传学标记物的存在或缺失,例如不包括在表1、2、4或5或其任何组合中的基因或标记物的表达或甲基化。
可选地,用于检测、诊断、分级、监测或预后对象对针对所述医学疾病(优选癌症,更优选卵巢癌)的治疗的响应性,甚至更优选对象对基于铂药物(例如卡铂)的治疗的响应性的测定可在步骤(a)中包括确定获得自对象的样品中的不同的参数。这样的参数的非限制性的实例为全基因组序列,基因组甲基化模式,甲基化的区段或元件的相同性,基因或基因组基因座的分子状态,转录物、蛋白质、截短的转录物、截短的蛋白质的存在或缺失或量/水平,细胞标记物的存在或缺失或量/水平,表面标记物的存在或缺失或量/水平,糖基化模式的存在或缺失或量/水平、所述模式的形式,mRNA或蛋白质水平的表达模式的存在或缺失、所述模式的形式,细胞大小,细胞行为,生长和环境刺激应答,活力,组织学参数、染色行为的存在或缺失或量/水平,生物化学或化学标记物(例如肽、次级代谢物、小分子)的存在或缺失或量/水平,转录因子的存在或缺失或量/水平,染色体区域或基因座的形式和/或活性;和另外的生物医学或遗传学标记物的存在或缺失,例如不包括在表1、2、4或5或其任何组合中的基因或标记物的表达或甲基化。
在另外的具体实施方案中,可通过任何本领域技术人员已知的适当的手段测试表达,优选通过室温聚合酶链式反应(RT-PCR)、RNA测序或微阵列基因表达检测。而在另一个特定实施方案中,可通过使用甲基化特异的PCR(MSP)、重亚硫酸盐测序、采用微阵列技术、直接测序(例如通过PacificBiosciences(R)所实现的)确定甲基化状态或甲基化模式。
而在另一方面,本发明涉及用于将对象分类的方法,包括:
(a)提供对象的数据集,其包括分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化基因座数据和基因表达数据,其中所述成员可根据上文描述的方法获得;或者,所述数据集可基于本文上述定义的标记物或标记物组;
(b)访问(accessing)数据库,其包括分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的数据库值,其中所述成员可根据上文描述的方法获得;或者,可针对如本文上述定义的标记物或标记物组访问所述数据库;
(c)基于步骤(a)和(b)的结果之间的数据库间差异计算对象的分类评分。
在优选的实施方案中,待从对象提供的数据集可包括与如上文定义的标记物或标记物组连接的甲基化基因座数据,例如选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、2,4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,或在表2、4或5中提及的标记物或标记物组。
在本发明另外的具体实施方案中,与本发明的标记物或标记物组相连的,或定位于本发明的标记物或标记物组(特别是表1的标记物)附近的优选的甲基化的基因座,或与为了从对象获得数据集而优选考虑、分析(例如通过如本文定义的甲基化检测手段)或测试的所述标记物相连或位于其附近的基因座示于下述提供了与表1中包含的标记物相连的基因组坐标(genomiccoordinate)的表格中:
染色体 起始 终止 最近基因
1 52730331 52730552 ZCCHCll
1 52730611 52730733 ZCCHCll
1 52730734 52730888 ZCCHCll
1 52731025 52731215 ZCCHCll
1 52731315 52731455 ZCCHCll
1 52731456 52732425 ZCCHCll
1 115343699 115343965 TSPAN2
1 115344225 115344328 TSPAN2
1 115344465 115344664 TSPAN2
2 113750708 113750905 PAX8
2 113751138 113751290 PAX8
2 113751695 113751825 PAX8
2 113751826 113751957 PAX8
2 113751981 113752204 PAX8
2 201808587 201808903 CFLAR
2 172204489 172204729 CYBRD1
2 172204730 172204867 CYBRD1
2 172204868 172204983 CYBRD1
2 172205161 172205286 CYBRD1
2 172205287 172205410 CYBRD1
2 172205411 172205550 CYBRD1
2 201806500 201806648 CFLAR
2 201806881 201806995 CFLAR
2 201807105 201808144 CFLAR
3 41213549 41215233 CTNNB1
3 41215292 41215399 CTNNB1
3 41215404 41215527 CTNNB1
3 41215828 41215935 CTNNB1
3 41216038 41216194 CTNNB1
3 113534054 113534772 CD200
3 113534878 113535030 CD200
3 171557568 171557718 SKIL
3 171557857 171557961 SKIL
3 171558082 171558200 SKIL
3 171558263 171558378 SKIL
3 171558697 171558855 SKIL
5 170666547 170667821 TLX3
5 170667889 170668074 TLX3
5 170668379 170668538 TLX3
5 170668544 170668736 TLX3
5 170668737 170668894 TLX3
5 170668895 170669053 TLX3
5 170669129 170669238 TLX3
5 170669265 170669473 TLX3
5 170669618 170669721 TLX3
5 170669860 170669985 TLX3
5 170670020 170670447 TLX3
5 170670448 170670599 TLX3
7 90537970 90538274 FZD1
7 90538398 90538569 FZD1
7 90539178 90539501 FZD1
7 90539515 90539633 FZD1
7 90539644 90539897 FZD1
7 90539959 90540209 FZD1
7 90540210 90540369 FZD1
7 90540370 90540529 FZD1
9 110096997 110097425 TXN
9 110097512 110097666 TXN
9 110097667 110097868 TXN
9 110097934 110098215 TXN
11 1848448 1848761 LSP1
11 1848762 1849063 LSP1
11 1849064 1849183 LSP1
12 52652610 52653249 HOXC11
12 52653275 52653497 HOXC11
12 52653596 52653696 HOXC11
12 52653697 52653807 HOXC11
12 52653990 52654219 HOXC11
12 52654220 52654341 HOXC11
12 52654342 52654469 HOXC11
12 52654470 52654651 HOXC11
12 52654768 52655073 HOXC11
12 52655173 52655281 HOXC11
12 129169880 129170207 FZD10
12 129170283 129170392 FZD10
12 129170525 129170816 FZD10
12 129170909 129171018 FZD10
12 129171257 129171376 FZD10
12 129171377 129171494 FZD10
12 129171997 129172097 FZD10
12 129172453 129172685 FZD10
12 129173006 129173124 FZD10
12 129173728 129173996 FZD10
13 109234815 109234915 IRS2
13 109235600 109235866 IRS2
13 109235951 109236241 IRS2
13 109236242 109236365 IRS2
13 109236896 109237128 IRS2
13 109237235 109237354 IRS2
13 109237454 109237562 IRS2
13 109237563 109237850 IRS2
13 109237890 109238485 IRS2
15 70765350 70765593 BBS4
15 70765674 70765798 BBS4
16 2969849 2969984 PKMYT1
16 2970065 2970187 PKMYT1
16 2970188 2970331 PKMYT1
16 2970620 2970773 PKMYT1
16 2970867 2971519 PKMYT1
16 29913959 29914151 HIRIP3
16 29914157 29914370 HIRIP3
16 29914439 29914684 HIRIP3
16 29914685 29914964 HIRIP3
17 44927437 44927578 NGFR
17 44927579 44927679 NGFR
17 44927680 44927795 NGFR
17 44928073 44928180 NGFR
17 44928181 44928315 NGFR
17 44928392 44928662 NGFR
19 16083047 16083266 RAB8A
19 16083371 16083493 RAB8A
19 16083525 16083845 RAB8A
19 16083874 16084520 RAB8A
23 102690660 102690795 TCEAL1
11 1831415 1831798 LSP1
在特别优选的实施方案中,可分析上文所示的包含所述区域的基因组区域或区段,例如与所示区域约10nt至约5kb不同的区段中甲基化的核苷酸的存在,甲基化模式的存在或缺失等。优选地,这些与示于表1中的一或多种标记物或标记物组相应的表达数据相关。可单独地或组合地分析这些区域,例如可分析每个标记物的所有示出的区域或其子集。另外,可分析多于一个标记物的任何区域组合。
可选地,数据集可包括与如上文定义的标记物或标记物组相连的其它参数,例如选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,或在表2、4或5中提及的标记物或标记物组。这样的参数的非限制性的实例为全基因组序列,基因组甲基化模式,甲基化的区段或元件的相同性,基因或基因组基因座的分子状态,转录物、蛋白质、截短的转录物、截短的蛋白质的存在或缺失或量/水平,细胞标记物的存在或缺失或量/水平,表面标记物的存在或缺失或量/水平,糖基化模式的存在或缺失或量/水平、所述模式的形式,mRNA或蛋白质水平的表达模式的存在或缺失、所述模式的形式,细胞大小,细胞行为,生长和环境刺激应答,活力,组织学参数、染色行为的存在或缺失或量/水平,生物化学或化学标记物(例如肽、次级代谢物、小分子)的存在或缺失或量/水平,转录因子的存在或缺失或量/水平,染色体区域或基因座的形式和/或活性;和其它的生物医学或遗传学标记物的存在或缺失,例如不包括在表1、2、4或5或其任何组合中的基因或标记物的表达或甲基化。
结果,所述方法还可包括访问数据库的步骤,所述数据库包含上述定义的标记物或标记物组的数据库值,所述标记物或标记物组例如选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,或在表4或5中提及的标记物或标记物组。另外,所述方法可另外包括访问数据库的步骤,所述数据库包含与上述定义的标记物或标记物组相连的其它参数的数据库值,所述标记物或标记物组例如选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、5,6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,或在表4或5中提及的标记物或标记物组。这样的参数的非限制性的实例为全基因组序列,基因组甲基化模式,甲基化的区段或元件的相同性,基因或基因组基因座的分子状态,转录物、蛋白质、截短的转录物、截短的蛋白质的存在或缺失或量/水平,细胞标记物的存在或缺失或量/水平,表面标记物的存在或缺失或量/水平,糖基化模式的存在或缺失或量/水平、所述模式的形式,mRNA或蛋白质水平的表达模式的存在或缺失、所述模式的形式,细胞大小,细胞行为,生长和环境刺激应答,活力,组织学参数、染色行为的存在或缺失或量/水平,生物化学或化学标记物(例如肽、次级代谢物、小分子)的存在或缺失或量/水平,转录因子的存在或缺失或量/水平,染色体区域或基因座的形式和/或活性;和其它的生物医学或遗传学标记物的存在或缺失,例如不包括在表1、2、4或5或其任何组合中的基因或标记物的表达或甲基化。
而在另一方面本发明涉及医学决策支持系统,其包括:
输入端,用于提供对象的数据集,其包括分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化基因座数据和基因表达数据,其中所述成员可根据上文描述的方法获得;或者,所述数据集可基于如本文上述定义的标记物或标记物组;
计算机程序产品,其用于使处理器能够实施对如上述定义的对象进行分类的方法;和输出端,用于输出对象的分类评分。
在优选的实施方案中,待用作输入的数据集可包括与上文定义的标记物或标记物组相连的或来源于所述标记物或标记物组的甲基化基因座数据,所述标记物或标记物组例如选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物,或在表4或5中提及的标记物或标记物组。例如,可特别测试待测试的对象的一或多种如上文定义提及的标记物或标记物组。
在具体的实施方案中所述医学决策支持系统可为分子肿瘤学决策工作站。决策工作站可优选用于决定起始和/或继续对象的癌症治疗。更优选地,决策工作站可用于决定对基于铂的治疗的响应概率和可能性。
本发明另一方面还设想了用于决策工作站的软件或计算机程序。例如,所述软件可基于分析与如上文定义的标记物或标记物组相连的数据集或数据,所述标记物或标记物组例如选自PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN、和CFLAR的至少1、2、3、4、5、6、7、8、9、7,8、9,10、11,12、13、14、15、16、17、18、19、20种或全部标记物,或在表2、4或5中提及的标记物或标记物组。
提供下述实施例和附图用于说明性的目的。因此,应理解实施例和附图不应解释为限制性的。本领域技术人员将清楚地能够拟定本文列出的原则的另外的修改。
实施例
实施例1-一般方法
首先,获得卵巢癌患者的全基因组DNA甲基化数据。根据Kamalakaran等人,Nucleic Acids Res(12):e89,2009,使用寡核苷酸甲基化微阵列分析(MOMA)在正常和肿瘤样品中完成CpG岛甲基化的全基因组扫描,所述文献以其整体并入本文。
将患者样品分为两组:具有<6个月的PFI(无铂间隔)的铂耐受患者(12名患者)和具有>24个月的PFI的铂敏感患者(13名患者)。
基于靶片段大小和强度过滤甲基化探针,在MOMA中覆盖了人类基因组中的27,000个CpG岛的330,000个原始探针中保留~190,000个探针。
使用贝叶斯统计学线性模型和留一法交叉验证寻找统计学显著的和强(robust)分层的探针/基因座。得到可区分耐受和敏感患者的749个候选基因座的列表,其作为进一步的通路和网络分析的输入。图1概括了所述方法的步骤。
候选基因座近端的基因用于鉴定最显著的通路,其使用GeneSpringGX11中的通路分析工具。所述工具将实体列表(例如基因符号)作为输入并且从数据集(collection)中寻找所有的与所述实体列表具有显著重叠的通路。从BilPAx、KEGG库(www.biopax.org;www.genome.jp/kegg/pathway.htm)中输入本分析使用的通路集。这里,重叠指列表和通路之间共有实体的数目。通过共享标识符(即Entrez Gene ID)的存在确定共性。一旦确定了共有实体的数目,基于超几何学方法(或Fisher's精确检验)计算通路的p值。
独立地,输入使用Affymetrix(HGU133a)的分层甲基化探针的近端基因的基因表达谱。基于两种不同的度量,构建了甲基化-表达加权矩阵。使独特的分层基因的甲基化谱与表达谱相关。基因i和j之间的甲基化-表达相似度sij定义为它们的表达和甲基化谱之间的相关系数的绝对值,其根据公式:
s ( i , j ) = cor ( x i , x j ) |
为获得用以选择显著相关性的阈值,将甲基化谱变换(permute)100次并构建100个甲基化-表达相关性矩阵。
基于所有的相关性值的分布,使用0.58(第99百分位数)的硬阈值鉴定最高度相关和反相关的连接。有多个探针(在749个探针中)代表相同的基因,并且有些探针在Affymetrix数据中不存在。最终,有263个独特的基因用于相关性矩阵。
随后,构建以基因作为节点并对所有鉴定到sij>0.58的i和j存在连线的网络图。在i和j之间定向的连线表明i的甲基化谱与j的表达相关(甲基化时不表达)。使用节点介数的网络中心势度量来鉴定关键基因。出现在许多其它节点之间的最短路径上的节点比不出现的那些具有更高的介数。节点的高介数表明基因对网络中其它基因之间的信息流具有高影响性。所计算的其它网络度量包括:连通度(与基因邻接的基因数目)和偏心度(基因对网络中所有其它基因的可达性)。
在网络分析和可视化软件Pajek中(进一步的细节描述于Nooy等人,Exploratory Social Network Analysis with Pajek,Cambridge University Press,2005中,其以其整体并入本文)分析基于相关性矩阵的网络图。
实施例2-评估过度代表的生物学过程
基于如实施例1中描述的网络,还可能在选定的网络子集中评估过度代表的生物学过程或分子功能。通过选择相互连接的基因(其为连接的并已知对一种网络度量为高评级的)的子网络,可能确定过度代表的基因本体论给出的类别。表征这些子网络的富集所采取的步骤包括:
将网络输入Cytoscape(进一步的细节描述于Shannon等人,Cytoscape:a software environment for integrated models ofbiomolecular interaction networks,Genome Research,2003,13(11):2498-2504中,其以其整体并入本文);
输入网络度量作为节点属性;
选择节点(例如顶级节点)和连线(例如最相关和反相关的节点,此处阈值为0.55)的子集;
调用Cytoscape的BingGO插件(详述于Maere等人,BINGO:aCytoscape plugin to assess overrepresentation of Gene Ontologycategories in biological networks,Bioinformatics,2006,21,3448中,其以其整体并入本文);
设定BinGo参数;
选择本体论:分子功能/生物学过程
选择注释(生物体):人类;
选择统计学检验:超几何检验;
选择校正:Benjamini&Hochberg错误发现率(FDR)校正;
选择显著性水平:0.05;
检验选项:对全部注释检验聚类;和
执行过度代表分析。
实施例3-卡铂敏感性通路
如实施例1中描述的线性模型分析鉴定了一套749个探针,其在卵巢癌中对基于铂的药物的耐受性和敏感性不同。将这些探针提交给使用GeneSpring的通路分析。表2中展示了与选择用于分析的基因列表(实体列表)中的基因(实体)显示出显著重叠的通路。
表2:富集的通路和基因列表
所述表还突出了对铂的化学敏感性重要的通路中的基因。已很好鉴定了AR通路、Wnt通路和PI3K-akt通路在卵巢癌中的贡献。已显示甲基化的PITX2在淋巴结阴性乳腺癌患者中可预测预后。
图2中,更详细地显示了显著的通路之一-Wnt通路与已建立的基因列表所重叠的成员,其用蓝色圆环标出:FZD1、GSK3B和CTNNB1。已显示另一个卷曲蛋白SFRP的甲基化可促进卵巢癌发展和化学品耐受性。在许多癌症中也证实了CTNNB1的抑制。
关于列表中的基因在基于生物学已知相互作用的靶调节物关系中是如何相互连接的分析也是可揭示的。由于本应用不专注于一个具体的通路,它可允许研究不同通路的节点之间的通讯(crosstalk)。
在图3中显示了基于GeneSpring所产生的已建立列表的靶-调节物网络。如果节点在生物学数据库中与我们的列表中的基因具有至少一种已知的相互作用,则它们被包括在本图中。枢纽CTNNB1、CCND2显现出主要涉及Wnt信号通路。还描述了来自p53信号通路的PTEN,但大多数相互作用显现出具有一或两个连接。
实施例4-网络结构分析
如上文描述构建加权的甲基化-表达网络。通过在所有节点对之间记录(noting)最短路径计算介数的网络中心势度量(见图4)。本图中大节点对应于频繁发现于基因对之间最短路径中的基因,其赋予它高介数度量。连线e(i,j)代表基因i的甲基化谱与基因j的表达谱之间相关(实线连线)或反相关(虚线连线)。表2尤其提供了图4的中心节点的介数、偏心度和连通度信息。
这些节点的大多数涉及癌症相关的功能或信号通路。一些中心节点包括PKMYT1、CTNNB1、RAB8A和NGFR。NGFR具有低连通度但介数和偏心度度量评级更高,因为它穿过许多基因对的最短路径。已知NGFR通过细胞因子受体相互作用起作用并经常用作卵巢癌的标记物(与CA125和p53一起)。最近,NGFR的表达还用作测量卡铂毒性的标记物。在GeneSpring分析中没有将它鉴定为富集的通路,很可能是因为列表中不存在足够多此通路的成员或通路数据库还不完整。还可能并入表达信息加强它与其它基因的相关性特征。
表3:鉴定的中心节点:中心节点的注释和它们相应的网络度量值:介数BTW(a=2.8e-5;p=O.00013)、偏心度ECC(a=0.59[-1.72,1.72];p=1.5)和连通度CON(a=1.07;p=1.8)。
如可来源于图4的,RAS癌基因家族成员RAB8A是高度连接的。此家族的另一个成员,RAB25的过度表达与乳腺癌和卵巢癌中提高的增殖和攻击性相关。尽管在GeneSpring方法中没有鉴定到RAB8A,网络度量和相关文献搜索表明它可能具有重要作用。在RAB8A和NGFR之间的定向连线暗示RAB8A的甲基化谱和NGFR的表达谱是高度相关的。
通过在本分析中使用甲基化-表达相关性矩阵,我们能够鉴定在化学品敏感性中具重要性的多模态关联。例如,基于甲基化的RAB8A和表达的NGFR,可预测患者对化疗是敏感的。所以,通过合并甲基化和表达数据与网络拓扑学度量,基于2种数据类型的组合分析在某种程度上可获得更大的分层基因列表。
实施例5-过度代表的基因本体论范畴的分析
对相关的子网络(相互连接的基因,其为连接的和已知对一种网络度量为高评级的)中过度代表的基因本体论类别的分析鉴定了相关的生物学过程或分子功能。
下述表4和5代表了此分析的结果:
Figure BDA00003019867900351
Figure BDA00003019867900361
Figure BDA00003019867900371
Figure BDA00003019867900381
Figure BDA00003019867900391
Figure BDA00003019867900401
Figure BDA00003019867900411
Figure BDA00003019867900431
Figure BDA00003019867900451
Figure BDA00003019867900471
Figure BDA00003019867900481
Figure BDA00003019867900501
Figure BDA00003019867900511
Figure BDA00003019867900521
根据上述表4和5代表结果,将下述基因鉴定为显著的(highlighted),即非常相关的:
1)分子功能:(cytoscape bingo MF corr0.55.docx;表4)
全体(所述分析的特定情况,其中选择所有具有高(反)相关连线的节点,不考虑它们的网络度量值)。在此组中,大量的基因为显著的,对应于检测到转录调控和DNA结合功能的过度代表(见表4,“全体”)。
中心度。在此组中,基因CYBRD1、HOXC1和TCEAL1为显著的。
接近度。在此组中,基因FZD10和FZD1为显著的。
HIGHCONN。在此组中,大量的基因为显著的,对应于检测到转录活化、抑制和受体结合的过度代表。
2)生物学过程:(cytoscape bingo BP corr0.55.docx;表5)
全体(所述分析的特定情况,其中选择所有具有高(反)相关连线的节点,不考虑它们的网络度量值)。在此组中,大量的基因为显著的,对应于检测到调控和发育过程的过度代表(见表5,“全体”)。
中心度。在此组中,基因BBS4为显著的。
接近度。在此组中,对应于检测到细胞运动定位和命运过度代表的基因CTNNB1、IRS2、LSP1、NGFR、TLX3、TSPAN2、TXN为显著的。
偏心度。在此组中基因CFLAR和BBS4为显著的,对应于检测到生物合成调控的过度代表。
Figure IDA00003019868400011
Figure IDA00003019868400021
Figure IDA00003019868400031
Figure IDA00003019868400041
Figure IDA00003019868400051
Figure IDA00003019868400061
Figure IDA00003019868400071
Figure IDA00003019868400081
Figure IDA00003019868400101
Figure IDA00003019868400111
Figure IDA00003019868400121
Figure IDA00003019868400131
Figure IDA00003019868400141
Figure IDA00003019868400151
Figure IDA00003019868400161
Figure IDA00003019868400171
Figure IDA00003019868400181
Figure IDA00003019868400191
Figure IDA00003019868400201
Figure IDA00003019868400211
Figure IDA00003019868400221
Figure IDA00003019868400231
Figure IDA00003019868400241
Figure IDA00003019868400251
Figure IDA00003019868400281
Figure IDA00003019868400291
Figure IDA00003019868400311
Figure IDA00003019868400321
Figure IDA00003019868400331
Figure IDA00003019868400341
Figure IDA00003019868400351
Figure IDA00003019868400361
Figure IDA00003019868400371
Figure IDA00003019868400381
Figure IDA00003019868400391
Figure IDA00003019868400401
Figure IDA00003019868400411
Figure IDA00003019868400421
Figure IDA00003019868400431
Figure IDA00003019868400441
Figure IDA00003019868400451
Figure IDA00003019868400461
Figure IDA00003019868400471
Figure IDA00003019868400481
Figure IDA00003019868400491
Figure IDA00003019868400501
Figure IDA00003019868400511
Figure IDA00003019868400521
Figure IDA00003019868400531
Figure IDA00003019868400551
Figure IDA00003019868400561
Figure IDA00003019868400571
Figure IDA00003019868400581
Figure IDA00003019868400591
Figure IDA00003019868400601
Figure IDA00003019868400611
Figure IDA00003019868400621
Figure IDA00003019868400631
Figure IDA00003019868400641
Figure IDA00003019868400651
Figure IDA00003019868400661
Figure IDA00003019868400671
Figure IDA00003019868400681
Figure IDA00003019868400691
Figure IDA00003019868400701
Figure IDA00003019868400711
Figure IDA00003019868400721

Claims (15)

1.一种方法,其用于鉴定生物医学标记物之间的多模态关联,包括步骤:
获得包含来自多个初级对象的多分子谱模态数据的多个数据集;
获得包含来自多个二级对象的多分子谱模态数据的多个数据集;
使包含所述初级对象和二级对象的多分子谱模态数据的多个数据集相关联;
鉴定对所述初级对象和二级对象具有不同值的一或多种分层生物医学标记物;
鉴定所述分层生物医学标记物中的网络和/或子网络;
向所鉴定的网络的成员赋予评级分数,所述评级分数基于网络度量;
确定网络节点和/或高评级网络成员或其组合,其代表具有对医学疾病的诊断、预后或预测值。
2.权利要求1的方法,其中所述来自多个初级和二级对象的多分子谱模态的多个数据集包括甲基化基因座数据和基因表达数据。
3.权利要求1的方法,其中所述鉴定网络和/或子网络的步骤包括计算分层生物医学标记物的显著性值。
4.权利要求1的方法,其中所述网络度量包括选自连通度、邻接度、网络密度、网络中心势、网络异质度、内聚度、枢纽基因显著性、网络显著性、质心显著性、质心符合度、介数、中心度、接近度和偏心度的至少一种。
5.权利要求1的方法,其中所述生物医学标记物为基因、编码区中的基因组基因座、非编码区中的基因组基因座、转录物和/或蛋白质。
6.权利要求1的方法,其中所述初级对象为健康对象并且所述二级对象受医学疾病影响。
7.权利要求1或6的方法,其中所述医学疾病为癌症。
8.权利要求7的方法,其中所述癌症为卵巢癌。
9.权利要求8的方法,其中所述预测值是对象对治疗具有响应性的可能性的指征,所述治疗包括一或多种基于铂的药物。
10.权利要求9的方法,其中所述基于铂的药物为卡铂。
11.生物医学标记物或生物医学标记物组,其与对象对癌症治疗,优选基于铂的癌症治疗具有高响应性的可能性相关,其中所述生物医学标记物或生物医学标记物组包括选自表1所示的PKMYT1、SKIL、RAB8A、HIRIP3、CTNNB1、NGFR、ZCCHC11、LSP1、CD200、PAX8、CYBRD1、HOXC11、TCEAL1、FZD10、FZD1、BBS4、IRS2、TLX3、TSPAN2、TXN和CFLAR的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20种或全部标记物。
12.一种测定,其用于检测、诊断、分级、监测或预后医学疾病,或用于检测、诊断、监测或预后对象对针对所述医学疾病的治疗,优选癌症治疗,更优选卵巢癌治疗的响应性,所述测定至少包括步骤
(a)测试获得自对象的样品中通过权利要求1的方法获得或在权利要求11中定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的表达;
(b)在对照样品中测试与(a)中相同的标记物、标记物组、网络节点、高评级网络成员或其组的表达;
(c)确定步骤(a)和(b)的标记物的表达差异;和
(d)基于步骤(c)所获得的结果,确定医学疾病的存在或分期或所述对象对针对所述医学疾病的治疗,优选癌症治疗,更优选卵巢癌治疗的响应性。
13.权利要求12的测定,其中所述测定包括额外的测试获得自对象的样品中通过权利要求1的方法获得或在权利要求11中定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化状态和/或模式的步骤,其中在步骤(c)中额外地确定甲基化状态和/或模式的差异。
14.一种方法,其用于分类对象,包括:
(a)提供对象数据集,其包括通过权利要求1的方法获得或在权利要求11中定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化基因座数据和基因表达数据;
(b)访问数据库,其包括通过权利要求1的方法获得或在权利要求11中定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的数据库值;
(c)基于步骤(a)和(b)的结果之间的数据库间差异计算对象的分类评分。
15.医学决策支持系统,包括:
输入端,用于提供对象数据集,所述对象数据集包括通过权利要求1的方法获得或在权利要求11中定义的分层生物医学标记物或所述标记物的组,和/或网络节点和/或高评级网络成员或所述节点或成员的组的甲基化基因座数据和基因表达数据;
计算机程序产品,用于使处理器能够实施权利要求14的方法;和输出端,用于输出对象的分类评分。
CN201180048660.1A 2010-10-08 2011-10-04 生物医学标记物之间多模态关联的鉴定 Pending CN103620608A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US39111110P 2010-10-08 2010-10-08
US61/391,111 2010-10-08
PCT/IB2011/054366 WO2012046191A2 (en) 2010-10-08 2011-10-04 Identification of multi-modal associations between biomedical markers

Publications (1)

Publication Number Publication Date
CN103620608A true CN103620608A (zh) 2014-03-05

Family

ID=45023859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180048660.1A Pending CN103620608A (zh) 2010-10-08 2011-10-04 生物医学标记物之间多模态关联的鉴定

Country Status (4)

Country Link
US (1) US10340027B2 (zh)
EP (1) EP2625639A2 (zh)
CN (1) CN103620608A (zh)
WO (1) WO2012046191A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148443A (zh) * 2017-07-25 2019-08-20 上海思路迪生物医学科技有限公司 一种临床检验样本的标识方法及系统
CN110349619A (zh) * 2019-01-17 2019-10-18 哈尔滨工业大学 基于相似度计算的疾病与代谢物网络构建方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878341B2 (en) * 2016-03-18 2020-12-29 Fair Isaac Corporation Mining and visualizing associations of concepts on a large-scale unstructured data
US11339447B2 (en) 2017-03-29 2022-05-24 Crown Bioscience, Inc. (Taicang) System and method for determining Kareniticin sensitivity on cancer

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852974A (zh) * 2003-06-09 2006-10-25 密歇根大学董事会 用于治疗和诊断癌症的组合物和方法
CN101039951A (zh) * 2003-11-03 2007-09-19 基因信息公司 肝癌生物标志物
WO2009037635A2 (en) * 2007-09-17 2009-03-26 Koninklijke Philips Electronics N. V. Method for the analysis of breast cancer disorders
CN101802226A (zh) * 2007-09-17 2010-08-11 皇家飞利浦电子股份有限公司 分析卵巢癌病症的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060019256A1 (en) 2003-06-09 2006-01-26 The Regents Of The University Of Michigan Compositions and methods for treating and diagnosing cancer
US20090011049A1 (en) 2005-07-28 2009-01-08 Oncomethylome Sciences Methylation Markers for Prognosis and Treatment of Cancers

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1852974A (zh) * 2003-06-09 2006-10-25 密歇根大学董事会 用于治疗和诊断癌症的组合物和方法
CN101039951A (zh) * 2003-11-03 2007-09-19 基因信息公司 肝癌生物标志物
WO2009037635A2 (en) * 2007-09-17 2009-03-26 Koninklijke Philips Electronics N. V. Method for the analysis of breast cancer disorders
CN101802226A (zh) * 2007-09-17 2010-08-11 皇家飞利浦电子股份有限公司 分析卵巢癌病症的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NILANJANA BANERJEE ET AL.: "Pathway and network anlysis probing epigenetic influences on chemosensitivity in ovarian cancer", 《GENOMIC SIGNAL PROCESSING AND STATISTICS》, 10 November 2010 (2010-11-10), pages 1 - 4 *
STEVE HORVATH ET AL.: "Geometric interpretationg of gene coexpression network anlysis", 《PLOS COMPUTATIONAL BIOLOGY》, vol. 4, no. 8, 1 January 2008 (2008-01-01), pages 1 - 7 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148443A (zh) * 2017-07-25 2019-08-20 上海思路迪生物医学科技有限公司 一种临床检验样本的标识方法及系统
CN110148443B (zh) * 2017-07-25 2021-04-20 上海思路迪生物医学科技有限公司 一种临床检验样本的标识方法及系统
CN110349619A (zh) * 2019-01-17 2019-10-18 哈尔滨工业大学 基于相似度计算的疾病与代谢物网络构建方法

Also Published As

Publication number Publication date
WO2012046191A2 (en) 2012-04-12
WO2012046191A3 (en) 2012-06-07
US10340027B2 (en) 2019-07-02
US20130196877A1 (en) 2013-08-01
EP2625639A2 (en) 2013-08-14

Similar Documents

Publication Publication Date Title
Pai et al. Patient similarity networks for precision medicine
Ernst et al. Large-scale imputation of epigenomic datasets for systematic annotation of diverse human tissues
Farcomeni A review of modern multiple hypothesis testing, with particular attention to the false discovery proportion
Peng et al. Single-cell RNA-seq clustering: datasets, models, and algorithms
Yuan et al. Patient-specific data fusion defines prognostic cancer subtypes
Liu Identifying network-based biomarkers of complex diseases from high-throughput data
Wijetunga et al. The meta-epigenomic structure of purified human stem cell populations is defined at cis-regulatory sequences
Jenkinson et al. An information-theoretic approach to the modeling and analysis of whole-genome bisulfite sequencing data
Zhao et al. Identification of pan-cancer prognostic biomarkers through integration of multi-omics data
Kuan et al. Integrating prior knowledge in multiple testing under dependence with applications to detecting differential DNA methylation
Brasil et al. Artificial intelligence in epigenetic studies: shedding light on rare diseases
Chen et al. Pharmacogenomic biomarkers for personalized medicine
Zhang et al. A network medicine approach for identifying diagnostic and prognostic biomarkers and exploring drug repurposing in human cancer
Wang et al. Network-guided regression for detecting associations between DNA methylation and gene expression
Sun et al. Molecular subtyping of cancer based on distinguishing co-expression modules and machine learning
CN103620608A (zh) 生物医学标记物之间多模态关联的鉴定
Lin et al. Network-based biomedical data analysis
Simon Challenges of microarray data and the evaluation of gene expression profile signatures
Shin et al. TC-VGC: a tumor classification system using variations in genes’ correlation
Zeng et al. Deep learning for cancer type classification
Singh et al. Deciphering the species-level structure of topologically associating domains
Wang et al. Cross-Platform Omics Prediction procedure: a game changer for implementing precision medicine in patients with stage-III melanoma
Tsiliki et al. On integrating multi-experiment microarray data
US20130090257A1 (en) Pathway analysis for providing predictive information
Katebi et al. Data-driven modeling of core gene regulatory network underlying leukemogenesis in IDH mutant AML

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180105