CN1950826A - 遗传分析的方法 - Google Patents

遗传分析的方法 Download PDF

Info

Publication number
CN1950826A
CN1950826A CNA2005800142868A CN200580014286A CN1950826A CN 1950826 A CN1950826 A CN 1950826A CN A2005800142868 A CNA2005800142868 A CN A2005800142868A CN 200580014286 A CN200580014286 A CN 200580014286A CN 1950826 A CN1950826 A CN 1950826A
Authority
CN
China
Prior art keywords
group
patient
individuality
risk
polymorphic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800142868A
Other languages
English (en)
Inventor
大卫·R·科克斯
马克·麦卡米什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Perlegen Sciences Inc
Original Assignee
Perlegen Sciences Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Perlegen Sciences Inc filed Critical Perlegen Sciences Inc
Publication of CN1950826A publication Critical patent/CN1950826A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明描述了若干用于评估个体发展或表现出多因素性状可能性的方法。所述方法包括在多个双等位基因多态座上确定该个体的多个基因型,使用这些基因型来计算该个体的评分,并将所述评分与至少一个阈值进行比较。

Description

遗传分析的方法
发明背景
构成人类染色体的DNA为体内所有蛋白的合成提供了指导。这些蛋白质具有对生命至关重要的功能。在编码蛋白的DNA序列中的变异在所编码的蛋白中产生了变异或突变,由此影响了细胞的正常功能。尽管环境通常在疾病中起到重要的作用,但个体DNA的变异和/或突变却直接与几乎所有的人类疾病相关,包括心血管疾病,代谢和传染病,癌症,以及自身免疫紊乱。不仅如此,遗传学,尤其是人类遗传学的知识,引导了对由若干基因或其产物的相互作用导致的众多疾病的认识。例如,I型和II型糖尿病就与多个基因相关,每个基因都具有自己的突变模式。
此外,当涉及到药物反应---遗传药理学领域时,人类遗传学知识对个体间差异的理解有所局限。约半个世纪之前,不良药物反应总是和两种药物代谢酶,即血浆胆碱酯酶和葡萄糖-6-磷酸脱氢酶中的氨基酸变异相关。从那时起,精细的遗传分析就将超过35种药物代谢酶,25种药靶和5种药物递质中的序列多态性(变异)与药物效率或安全性的中和水平联系起来(Evans and Relling,Sceince 296:487-91(1999))。在临床上,这样的信息可用来预防药物毒性;例如,对患者进行巯基嘌呤甲基转移酶基因遗传差异的常规筛选,所述基因能引起6-巯基嘌呤或咪唑硫嘌呤代谢的降低。然而在所观察到的药物毒性中,只有一小部分能够由沿用至今依然有效的药理遗传学标记组合进行令人满意地解释。比毒性问题更常见的是这样的情况,即使是证明了对某些个体是安全和/或有效的药物对其他个体不是治疗效率欠佳就是具有尚未可知的副作用。
因为任意两个人的遗传组成是99.9%相似的,所以他们基因组DNA的绝大部分序列是一致的。不过,个体间的DNA序列也有差异。例如,在编码或非编码区的多个重复DNA元件中存在有多碱基DNA片段的缺失,DNA片段的插入和变异,在基因组中单个含氮碱基位置上发生的改变称为“单核苷酸多态性”(SNPs)。人类DNA序列的变异解释了大部分所观察到的个体将的差异,包括对疾病的易感性或抵抗力以及个体如何对特定的治疗剂或治疗方案进行反应。
多因素性状,或复杂性状受到多种因素的影响,例如基因,环境因素和它们的相互作用。通常,会有不止一种遗传和/或遗传因素产生相同的多因素性状,这种复杂性使研究人员很难确定哪一种因素会发展哪一种性状。此外,每种因素的贡献通常与其他每种因素的贡献不相一致。换言之,例如,某些因素会具有较大的贡献而其他的贡献则相对较弱。为了使多因素性状的生物基础变得更加复杂,因素的贡献可以是加和的,协同性的或完全独立于任意其它因素的贡献。某些复杂性状表现出常见疾病,例如心血管疾病,糖尿病,肥胖,和高胆固醇症。其他的复杂性状包括个体对药物或其它医学治疗方案产生反应的表现型。
近来,对疾病遗传基础的深入研究发展了疾病的若干遗传检测。然而,这些检测并不能有效地预测健康人发展常见多因素疾病的可能性。由于每个所涉及基因的不完全外显率和较低的个体贡献,许多研究人员认为对常见多因素性状(例如,疾病)进行的遗传检测在实践中并无甚用(Holtzman and Marteau,2000;Vineis et al 2001)。不过,这些争论大部分都是基于单个座来预测个体是否会表现出所述性状(Beaudet1999;Evans et al 2001)。需要的是一种可靠的方法确定个体发展或表现出基于多个基因座的个体基因型的多因素性状的风险,每一基因座都是所述多因素性状表现中的因素。
发明内容
本申请公开用于确定个体发展或表现出多因素性状的奉献的方法,通过基于在多个双等位基因多态座上个体的基因型确定评分,并将所述评分与至少一个阈值进行比较进行。在一个实施方案中,对于每一多态座而言,个体的基因型可以是相关等位基因的纯合子,非相关等位基因的纯合子或杂合子。如果个体的评分高于阈值,个体就被认为是处于发展或者表现多因素性状的风险之中,并且如果个体的评分等于或者小于阈值,那么个体可能会被认为并不在发展或者表现多因素性状的风险之中。如果个体的评分高于一个阈值但是小于或者等于另一阈值,那么该个体可能被认为是具有发展或者表现多因素性状的中等风险。
本申请还公开了鉴定与多因素性状相关的双等位基因多态座的等位基因的方法,在这里称作“相关等位基因”。该方法包括实施相关分析,其中将显示多因素性状的个体组(“患者组”)的遗传组成与不显示多因素性状的个体组(“对照组”)的遗传组成相比较,并鉴定那些在患者组的遗传组成中比对照组的遗传组成更显著流行的等位基因作为相关等位基因。在某些实施方案中,在用第一患者组和第一对照组在第一相关分析中鉴定的相关等位基因通过用第二患者组和第二对照组实施第二相关分析进行验证。
本申请还公开了用于确定用于多基因检验的阈值的方法。在一个方面,通过分析基于来自患者组的一组评分和来自对照组的一组评分的一系列风险边界值确定阈值。确定阈值包括使用包括但不限于灵敏度,特异性,PPV,NPV,准确度,相对风险,LR+和LR-的信息用于利用每一风险边界值作为阈值的多基因检验;关于多因素性状,潜在的治疗选择,以及接受检验的个体的临床信息;以及来自于至少一家管理机构的信息。
本发明还公开了一种诊断或预测分析,包括设计用于检测生物样品中相关等位基因的核酸探针。在某些实施方案中,所述诊断或预测分析的探针结合于固体基质。
附图说明
图1所示为在多基因检测中建立阈值的示例性受体操作特征曲线。
发明详述
概述
本发明的某些实施方案提供了以较高确定性确定个体发展或表现出多因素性状易感性体质的方法,这些易感性体质可以是,例如发展疾病或其他紊乱,或者是对于药物的阳性或阴性反应。这样的确定是基于多个遗传座上的个体基因型,每种基因座是参与多因素性状表现的遗传因素。所述方法还提供了这样的好处,即在不知道各个遗传因素对该多因素性状表现的影响程度或影响方式的情况下就可进行测定。与以往不同,本发明的方法依赖于多遗传因素的累积效应,并使得本领域技术人员可基于已被确定为与多因素性状发生相关的多个遗传座上的个体的基因型,对该个体发展或表现多因素性状的可能性做出准确的预测。
多因素性状受到多个遗传因素,环境因素,及其相互作用的影响。而且,每个因素的贡献通常与其他各个因素的贡献并不一致。换言之,例如,某些因素会具有较大的贡献而其他的贡献则相对较弱。为了使得多因素性状的生物基础更加复杂,单因素的贡献可以是加和性的,协同性的,或完全独立于任意其他因素的贡献。在某些实施方案中,本文所提供的方法并既不依赖于每种因素对多因素性状的影响程度,也不依赖于是否所述因素的效应是加和性的,协同性的或独立性的。在这样的实施方案中,当计算个体发展这种多因素性状的“风险”(例如,可能性,概率)时,该方法并不需要将每种因素的效应程度考虑在内。在某些实施方案中,所述方法并不要求对包含某种因素,遗传相关于某种因素,或是某种因素产物的任意基因的表达,RNA或蛋白的知识有所了解。在某些实施方案中,所述方法对可能影响所述多因素性状的环境因素的知识没有要求。在某些实施方案中,在此给出的方法依赖于一系列假设,即每个遗传因素的单个贡献与每个其他遗传因素的贡献是相同的,在导致所述多因素性状的所有遗传因素中这样的单个贡献具有简单的加性效应,以及可在缺乏了解环境因素对该多因素性状的表现具有哪些贡献的条件下对该个体的风险进行评估。在其它实施方案中,该方法还考虑到了所述因素的其他特征,例如,每种因素对该多因素性状的效应幅度,和/或当计算个体发展多因子性状的风险时所述因素是否是加和性的,协同性的,抗性的,独立的或上位性的。在某些实施方案中,可以将表达数据考虑在内。在其他实施方案中,对可能影响多因素性状的环境因素的认知会在计算个体发展多因素性状的风险时被考虑在内。
本发明的某些实施方案提供了实施相关研究的方法来鉴定与多因素性状相关的多态座组。同样还提供了确定哪组相关的多态座包括在该多因素性状的多基因检测中的方法,并提供了确定这些检测的确切特征,例如,灵敏度,特异性,阳性预测值,阴性预测值,相关风险,可能性比率,准确度等的手段。此外,还提供了在多基因检测中使用一组相关的多态座来测定个体发展或表现出该多因素性状的易感性的方法。在一个实施方案中,该多因素性状是疾病,并且可以对鉴定为可能发展该疾病的个体进行治疗或其它医疗介入从而对该疾病的发展进行治疗或预防。在另一个实施方案中,本发明的方法可用来对建议性的医疗治疗效率进行预测,其中如果该治疗不是很有效的话,则不会对患者进行给药。在另一个实施方案中,所述多因素性状是对药物治疗产生的副作用的表现。鉴定会表现出副作用的个体可被排除在药物治疗范围之外,或者如果进行药物(例如,万不得已)治疗的话,可以在对副作用的预测中使用其他监控措施。在又一个实施方案中,在此公开的方法可用于药物开发,尤其是通过选择适合于研究的患者来增加药物的效率和安全性。
正如对本领域所属技术人员显而易见地,本发明的方法可用作对具有或处于发展感兴趣多因素性状风险的个体进行鉴定的辅助工具,而且,在此所述的方法也可与涉及到性状,被测个体,和进行个体选择的人群的临床信息,以及其他临床检测和甚至是医务人员的临床“直觉”组合使用。遗传检测通常给医疗人员提供辅助,而支配临床决定的做出。实际上,正是医疗人员来确定如何使用诊断或预测检测,其采用例如,性状的临床知识(例如,疾病)和潜在的治疗选择,所述诊断检测的特征,发展所述检测的人群,以及接受检测的特定患者,且与此同时来对所述检测错误鉴定个体和正确鉴定个体之间的风险和受益进行平衡。在另一方面,医疗人员还应考虑到与被所述检测错误鉴定为“阴性”个体的风险相对比的被所述检测错误鉴定为“阳性”个体的风险(例如,对需要此种治疗的患者停止治疗从而引起比不需要治疗的患者进行给药治疗更严重的伤害?)。
现对本发明的多种实施方案和具体的应用进行详细描述。虽然本发明是连同多种实施方案和应用进行说明的,但仍需理解这些实施方案和应用并非旨在对本发明进行限制。相反,本法明旨在包括可包括于本发明精神和范围之内的替换,修饰和等价变换。
相关分析
在本发明的一个方面,通过实施相关分析鉴定了与多因素性状表现相关的多态坐位组合和对应于这些多态座的相关等位基因,并且这些相关等位基因被进一步用来确定不是患者患者或者对照成员的个体是否是具有发展或表现出所述多因素性状的遗传倾向。多因素性状可以是任意类型的表现型性状,例如疾病或其它医学紊乱的表现,对这些疾病或紊乱的易感性或抵抗力,对药物或其它医疗治疗方式的反应,或其他身体或精神的特征。例如,在一个实施方案中,该多因素性状是一种疾病,而相关分析可对对药物表现出疾病(患者)个体组的遗传组成和未表现出疾病(对照)个体组的遗传组成进行比较。多因素疾病的例子包括,但不局限于,哮喘及其他肺病,牛皮癣,诵读困难,不育症,痛风,白内障,肥胖,糖尿病,胃肠机能紊乱,癌症,心血管疾病,中风,高血压,注意力缺损障碍,精神分裂症,躁郁症,骨质疏松症,免疫系统紊乱,多发性硬化,动脉粥样硬化和癫痫症。某些发育异常也同样包括在这一类别中,比如兔唇/腭,先天性心脏缺损和神经管缺陷。在另一个实施方案中,该多因素性状是对药物的反应,且相关分析可对对药物表现出特定反应的(患者)个体组的遗传组成和未表现出该特定反应(对照)个体组的遗传组成进行比较。在一方面,药物反应可与该药物的效力相关。例如,该药物可能对患者组中的个体具有极高的效力,却对对照组中的个体具有较低的效力,反之亦然。在另一方面,药物反应可能与对给药该药物产生的不良反应相关。例如,患者组中的个体可能具有对于该药物的不良反应,而对照组中的个体则没有该不良反应。尽管在此提供的诸多实施例都描述了本发明的方法与特定多因素性状的组合应用,但这些实施例并非旨在对本发明的范围进行限制,本发明的范围包括了在此所述方法与其表现涉及多个遗传座的任意多因素性状的组合使用。
通常,每个患者组和对照组中都至少为50个个体,优选为至少100个个体。在某些研究中,在至少一个患者组和对照组中有至少200,或至少500个个体。通常对照组中的个体数比患者组中的多。在某些实施方案中,患者组和对照组中的个体是哺乳动物,但患者组和对照组也可以包括非哺乳动物个体,例如,细菌,真菌,原生生物,病毒,古细菌,及其他真核生物,比如,爬行动物,两栖动物,鱼类,鸟类,甲壳类动物,昆虫和植物。在某些实施方案中,患者组和对照组中的个体是人。
通常,除了已经考虑的多因素性状之外,患者组和对照组的组成应该具有类似的特征。例如,在一个实施方案中,每组中选择的都是相似数量的具有相似年龄的男人和女人。在某些实施方案中,环境风险因素也会影响患者组和对照组的组成。例如,在肺癌的研究中,只有吸烟的人(或者只有不吸烟的人)可被选择到患者组和对照组中。在本发明的某些实施方案中,对患者组和对照组的成员资格进行了调整,从而在进行相关分析之前使两个组的人员结构“匹配”。人员结构(或“人员层次”)是指群体内个体遗传组成的异源性。例如,由于两个组别不同的人种来源,主要由意大利人组成的患者组的人员结构就与主要由墨西哥人组成的对照组不尽相同。如果在两个组别不相匹配的情况下进行相关分析,那么与意大利裔祖先而不是与墨西哥裔祖先相关的遗传座就会在研究中错误地与该多因素性状相关。通过对患者组和对照组的人员结构进行匹配,本领域所属技术人员可以对与感兴趣多因素性状非相关的患者组和对照组之间的遗传差异进行控制。因此,通过后续相关分析鉴定出的两组之间的遗传差异更可能是与感兴趣多因素性状偶然相关的座。在实施相关分析之前对患者组和对照组进行匹配的方法已在申请日为2003年4月30日,题为“Method forIdentifying Matched Groups”的美国发明专利申请10/427,696号;和申请日为2003年8月26日,题为“Matching Strategies for GeneticAssociation Studies in Structured Populations”的美国临时专利申请第60/497,771号在中详细公开。
从患者组和对照组的个体中采集核酸样品用于基因型分析。核酸样品可以是DNA或RNA,并且可从多种生物样品中得到,例如,全血,精液,唾液,眼泪,粪便物,尿液,汗液,口腔,皮肤和毛发。在某些方面,核酸样品包括基因组DNA。可以使用本领域公知的任意方法来制备用于分析的样品核酸。优选地,采用这些技术可生产出核酸分子,其纯度足以在该核酸分子的一个或多个位点确定一种或多种多态性的存在与否。这样的技术是公知的,并可在例如Sambrook,et al,Molecular Cloning:A Laboratory Manual(Cold Spring Harbor Laboratory,New York)(2001),和Ausubel,et al,Current Protocols in MolecularBiology(John Wiley and Sons,New York)中找到。
在确定所述核酸中的一种或多种多态存在与否之前,可对一种或多种感兴趣的核酸进行扩增和/或标记。可将本领域所属技术人员公知的任意扩增技术,与包括但不限于聚合酶链反应技术(PCR)的本发明的某些方法共同使用。可使用本领域所属技术人员公知的材料和方法实施PCR。一般的PCR技术可参见:Principals and Application for DNAamplification(ed HA Erlich,Freeman Press,NY,NY,1992);PCRProtocols:A Guide to Methods and Applications(eds Innis,et al,Academic Press,San Diego,CA,1990);Matilla et al,Nucleic Acids Res19:4937(1991);Eckert et al,PCR Methods and Applications 1:17(1991);PCR(eds McPherson et al,IRL Press,Exford)和美国专利第4,683,202号。其他适当的方法还包括连接酶链反应(LCR)(参见Wu and Wallace,Genomics 4:560(1989)and Landergren et al,Science 241:1077(1988)),转录扩增(Kwoh et al,Proc Natl Acad Sci USA 86:1173(1989)),自我维持的序列复制(Guatelli et al,Proc Natl Acad Sci USA 87:1874(1990))和基于核酸的序列扩增(NASBA)。此外,在未决的美国专利申请第10/106,097号,申请日为2002年3月26日,题为“Methods for Genomic Analysis”;第10/042,406号,申请日为2002年1月9日,题为“Algorithms forSelection of Primer Pairs”;第10/042,492号,申请日为2002年1月9日,题为“Methods for Amplification of Nucleic Acids”;第10/236,480号,申请日为2002年9月5日,题为“Methods for Amplification ofNucleic Acids”;第10/174,101号,申请日为2002年6月17日,题为“Methods for Storage of Reaction Cocktails”;第10/447,685号,申请日为2003年5月28日,题为“Liver Related Disease Compositions andMethods”;第10/768,788号,申请日为2004年3月4日,题为“Apparatusand Methods for Analyzing and Characterizing Nucleic Acid Sequences”;和第10/427,696号,申请日为2003年4月30日,题为“Methods forIdentifying Matched Groups”中公开的方法也适于在本发明的某些方法中用来对核酸进行扩增,标记,或进一步操作(即,片段化)。
在相关分析中,在每个患者组和对照组中对每个成员公知为多态的遗传座(例如,SNPs)进行基因型分析,并且根据所述组别中出现的基因型计算每个组别中每个座的相对等位基因频率。换言之,如果对10个多态座进行基因型分析,那么就可确定20个相对等位基因频率,患者组和对照组各10个。对于给定的多态座,可将患者组的相对等位基因频率与对照组的进行比较,如果该多态座在患者组中比在对照组中的相对等位基因频率具有显著差异,则其可被鉴定为与区分患者组和对照组的多因素性状相关的座(“相关座”)。在某些实施方案中,相对等位基因频率的显著差异大于约5%,或者大于约8%,或者大于约10%,或者大于约12%,或者大于约15%。在患者群体中出现更频繁的等位基因可称为“相关等位基因”,而在对照群体中出现更频繁的等位基因可称为“非相关等位基因”。所鉴定的相关座的数量(以及,由此,对于双等位基因相关座的相关等位基因)会随着所研究的对该多因素性状(例如,疾病)具有贡献的多态座的数量发生广泛的变化,或者与具有贡献的座形成连锁不平衡。例如,如果疾病的表现涉及10个基因,那么所鉴定的相关座的数量就会随着与引起该疾病的10个基因的等位基因形成连锁不平衡的在该相关分析中进行基因型分析的多态座的数量变化而变化。通常,涉及多因素性状表现的座数量介于约5个至数百个之间,但也可能更多或更少。关于使用患者组和对照组的相对等位基因频率实施相关分析方法的详细描述,请参见第60/460,329号,申请日为2003年4月3日和第10/768,788号,申请日为2004年1月30日,两者都题为“Apparatus and Methods for Analyzing and CharacterizingNucleic Acid Sequences”的美国专利申请。
可使用本领域所属人员公知的任意技术对个体实施基因型分析。优选的技术允许对最低量的样品操作的多个变异进行快速,准确的测定。一些适当的技术涉及但不限于直接DNA测序,毛细管电泳,杂交,等位基因特异性探针或引物,单链构象多态性分析,核酸分析,珠分析,限制性片段长度多态性分析,剪切酶片段长度多态性分析,随机扩增的多态性DNA,连接酶检测反应,异源双链或片段分析,使用质谱的差异测序,原子力显微观察法,热测序,FRET(即,TaqMan(AppliedBiosystems,Inc,Foster City,CA)和分子信标(Stratagene,La Jolla,CA))分析,以及其他本领域公知的技术。若干DNA测序的方法是本领域公知且通常能够获得的。可参见,例如,Sambrook,et al,Molecular Cloning:A Laboratory Manual(Cold Spring Harbor Laboratory,New York)(2001);Ausubel,et al,Current Protocols in Molecular Biology(John Wiley andSons,New York)(1997),Twyman,et al(2003)“Techniques Patens for SNPGenotyping”,Pharmacogenomics 4(1):67-79;和Kristensen,et al(2001)“High-Throughput Methods for Detection of Genetic Variation”,BioTechniques 30(2):318-332。对于使用核酸分析(DNA芯片)对例如SNPs进行测定的详细情况,请参见Lipshultz等人的美国专利第6,300,063号,和Chee等人的美国专利第5,837,832号,以及HuSNPMapping Assay,试剂盒和用户手册,Affymetrix Part No.90094(Affymetrix,Santa Clara,CA)。
可以直接测定患者组或对照组的相对等位基因频率,通过对群体中的所有个体进行个体的基因型测定来确定在该群体的每个成员中每种等位基因的确切数量。对多个个体进行个体基因型分析的方法已在美国专利申请第10/351,973号,申请日为2003年1月27日,题为“Apparatus and Methods for Determining Individual Genotypes”和美国专利申请第号(未指定),事务所卷号100/1046-20,申请日为2004年2月24日,题为“Improvements to Analysis Methods for IndividualGenotyping”中详细描述。或者,可使用混合的基因型分析来确定每个患者组和对照组的相对等位基因频率。对混合基因型分析而言,可将来自患者组的核酸样品混合到一起(患者混合物)并将来自对照组的核酸样品混合到一起(对照混合物),通过对患者混合物和对照混合物进行分析确定对于该患者组和对照组的相对等位基因频率。实施混合基因型分析的方法在美国专利申请第60/460,329号,申请日为2003年4月3日和第10/768,788号,申请日为2004年1月30日,两者都题为“Apparatus and Methods for Analyzing and Characterizing Nucleic AcidSequences”的美国专利申请中已进行过详细讨论。
基因座
术语“SNP”或“单核苷酸多态性”是指个体之间的遗传差异;例如,在生物体DNA的单个含氮碱基位置上有所差异。SNP在整个基因组中都有发现,有许多个体间的遗传差异就是源于在SNP座上的差异,且通常这样的遗传差异会导致个体间表现型的差异。用于本发明中的SNP及其各自的等位基因可来自多种来源,例如公共数据库(UCSanta Cruz Human Genome BrowserGateway)(http://genomeusucedu/cgi-bin/hgGateway)或NCBI dbSNP网站(http:///www.ncbi.nlm.nih.gov/SNP/),或可如美国专利申请第10/106,097号,申请日为2002年3月26日,题为“Methods for Genomic Analysis”和第10/284,444号,申请日为2002年10月31日,题为“Human GenomicPolymorphisms”所描述的美国专利申请试验性地进行测定。虽然在本说明书给出的某些实施方案中对SNP的使用进行了描述,但应该理解也可以使用其他的双等位遗传标记。双等位基因遗传标记是具有两种多态性形式,或等位基因的遗传标记。如上所述,对与某个性状相关的双等位基因遗传标记而言,与对照组相比在患者组的遗传组成中丰度更高的等位基因被称为“相关等位基因”,而其他等位基因则被称为“非相关等位基因”。因此对每一种与给定性状(例如,疾病或药物反应)相关的双等位多态性而言,都存在相对应的相关等位基因。其他可用于本发明所述方法的双等位基因多态性包括,但不限于,多核苷酸改变,插入,缺失和易位。还应该理解,涉及到本文所述的DNA时还可以包括DNA的衍生物,例如,扩增子,RNA转录物,cDNA,DNA类似物等。在相关分析中筛选到的多态性座可以二倍体或单倍体的形式存在,且理想的,可以存在于跨越基因组中的各个位置。
在本发明的某些实施方案中,相关分析涉及筛选至少约100个SNP,或者少约500个SNP,或者少约1000个SNP,或者少约10,000个SNP,或者少约100,000个SNP,或者少约1,000,000个SNP。在某些实施方案中,认为位于基因组中一个或多个部分的DNA与被筛选的多因素性状相相关。在其他实施方案中,对位于一条或多条染色体上的SNP进行筛选。在另一个实施方案中,对基因组中每一条染色体上的SNP进行筛选。在其它的实施方案中,对来基因组上每条染色体的多个SNP进行筛选。在其他实施方案中,对位于基因编码区或调控区的SNP进行筛选。在其他实施方案中,对发现与基因的差异等位基因表达相关的SNP进行筛选。(在杂合子中,当某个基因的一个等位基因以高于该相同基因其他等位基因的水平进行表达时,发生了差异等位基因表达,详细描述请参见美国专利申请第10/438,184号,申请日为2003年5月13日,题为“Allele-Specific Expression Patterns”)。在某些实施方案中,对全部公知的SNP(迄今为止约3百万个)进行筛选。在其他实施方案中,经过筛选的SNP亚组可用来预测未经过筛选SNP亚组的等位基因组成。由本说明书中所述方法筛选到的SNP在个体中可以是二倍体,或者是单倍体状态的。
由本发明所述方法鉴定出的相关SNP(以及由此而来的相关等位基因)的数量依赖于几个标准。首先,其依赖于涉及疾病表现的遗传座的数量。例如,如果某种多因素疾病的遗传基础只涉及少数几个座,那么该相关SNP和相关等位基因的数量通常就会低于其遗传基础涉及上百个座的多因素疾病的相关SNP和相关等位基因的数量。第二,所鉴定的相关SNP和相关等位基因的数量依赖于在相关分析中筛选的SNP数量。例如,仅对患者组和对照组中一百个SNP进行筛选的相关分析不太可能比对1百万个SNP进行筛选的相关分析中找到的相关SNP数量更多。一般地,本发明的方法可鉴定约10个至数百个的相关SNP/相关等位基因,但也可能鉴定更多或更少。
相关等位基因组的验证
在一个实施方案中,为了证实对相关等位基因的鉴定,使用第二患者和第二对照群体重复该相关分析。这样的第二相关分析确定了是否那些来自于第一次相关分析的相关基因在基于新患者和对照组合的相对等位基因频率基础上依然被鉴定出来,并且那些确实“重复”出来的相关基因由此被证实为相关SNP。在某些实施方案中,在第一次相关分析中筛选过的多态性座同样也在第二次证实相关分析中进行了筛选。在其它实施方案中,在第一次相关分析中筛选过的多态座亚组同样也在第二次证实相关分析中进行了筛选。在一个特定的实施方案中,在第二相关分析中筛选到的多态座组包含有第一次相关分析鉴定的相关多态座。例如,如果在第一次相关分析中鉴定出30,000个SNP与某种疾病的发生相相关,那么随后就在选择了表现出该疾病和未表现出该疾病的第二患者组合第二对照组中对这30,000个SNP进行筛选。在某些实施方案中,根据与第一患者组相同的标准对第二患者组进行选择,根据与第一对照组相同的标准对第二对照组进行选择。在一个方面,第一和第二患者组与第一和第二对照组中没有相同的成员。可以使用混合或个体基因型分析的方法学来实施第二相关分析。
在其他方面,如果使用混合基因型分析来实施相关分析,那么通过混合基因型分析方法确定的相关等位基因的组就可以通过在患者组和对照组中的每个成员的相关SNP组合中进行单个的基因型分析以及对相对等位基因频率进行重新计算和重新比较来证实。与根据个体基因型分析数据得到的对照组相比,在初始混合基因型分析基础上鉴定出的相关等位基因在患者组中具有较高的等位基因频率,由此可证实其是相关等位基因。可对使用混合基因型分析方法的第一次相关分析实施这一证实步骤,或者对使用混合基因型分析的第二次证实相关分析实施这一证实步骤。
在实验设计中,可使用不止一种证实方法来鉴定相关SNP的组。例如,在本发明的一个实施方案中,对表现出某种疾病个体的患者群体和未表现出该疾病个体的对照群体进行了第一次相关分析。使用混合基因型分析方法在大约150万个SNP座对患者组和对照组进行基因型分析,从而鉴定出约30,000个在患者组和对照组中相对等位基因频率差异显著的SNP。在下一个证实步骤中,对所述患者组和对照组在“混合”相关分析中鉴定出的约30,000个SNP中的每一个进行独立的基因型分析,从而鉴定出在基于个体基因型分析的方法中在患者组和对照组之间具有显著差异的相对等位基因频率的约300个SNP。因此,通过个体基因型分析证实了这些约300个的SNP。在进一步的证实步骤中,进行了第二相关分析,其中通过基于个体基因型分析方法用第二患者组和第二对照组进行的第二相关分析进一步证实了由个体基因型分析步骤所证实的约300个SNP。那些在第二相关分析中重复的SNP被分类为该疾病的SNP,且在患者组中丰度高于对照组中的该相关SNP的等位基因被称为相关等位基因。
使用相关等位基因来确定风险边界
在本发明的一个实施方案中,在患者组和对照组个体在每个疾病相关SNP座上的基因型可用来发展一系列边界值,这些边界值可用来确定个体发展将患者组和对照组加以区分的所述多因素性状的易感体质。
在一方面,将患病组和对照组中所有个体在每个相关SNP位置上的基因型都集中起来。如果个体基因型分析是在相关分析中实施的,如上所述,那么在所述相关分析中在所述相关SNP位置上收集到的个体基因型分析数据就是可以使用的。然而,如果个体基因分型尚未确定,那么对相关SNP组而言,必须对患病组和对照组的每一成员进行单独的基因型分析。例如,在双等位SNP的情况下,二倍体个体可具有三种不同的基因型之一,相关等位基因的纯合子,非相关等位基因的纯合子,以及杂合子(含有一个相关等位基因和一个非相关等位基因)。在此介绍的方法可应用于二倍体生物体,或二倍体生物体中的单倍体座(例如,人类的Y染色体座)。对单倍体座而言,只有两种基因型,即每一种可能的等位基因。
在另一方面,根据每一个相关SNP座上的基因型,对患者组和对照组中的每一个个体都赋予了一个评分。在本发明的一个实施方案中,对每个相关等位基因赋值为1分,则该相关等位基因纯合子的每一个SNP基因型为2分,杂合子的每一个基因型为1分,非相关等位基因纯合子的每一个SNP基因型为0分。在单倍体座的一个实施方案中,具有相关等位基因的每个SNP基因型为1分而具有非相关等位基因的每个SNP基因型为0分。在单倍体座的另一个实施方案中,具有相关等位基因的每个SNP基因型为2分而具有非相关等位基因的每个SNP基因型为0分。对给定的个体而言,将所有相关SNP的评分汇总得到一个对于该个体的评分。例如,如果对100个相关SNP进行基因型分析,则该个体的最高评分为200,即该个体在每个相关SNP位置都具有两个相关等位基因。换言之,对每个SNP位置的相关等位基因而言该个体是纯合子。对在任意相关SNP位置上没有相关等位基因的个体,或在每个SNP位置上的非相关等位基因纯合子个体而言,最小评分为0。对患者组和对照组中每个个体的评分都进行计算。例如,在具有102个个体的患者群体和具有405个个体的对照群体中对100个相关SNP进行检验。患者组的最低评分为42且最高评分为97;对对照组而言,最低评分为23且最高评分为79。这是对个体评分进行确定的实施方案的一个实施例,其既不依赖于每个因素对多因素性状的效应程度,也不依赖于是否该因素的效应是加和性的,协同性的或独立性的。此外,该实施方案并不需要对包含任意因素产物,遗传相关于任意因素产物,或者任意因素产物的任意基因,RNA或蛋白的表达谱有所了解。而且,该实施方案并不需要对可能影响所述多因素性状的环境因素的知识有所了解。
在本发明的其他实施方案中,当对个体的评分进行计算时,可将其他因素考虑在内,例如,每种因素对于该多因素性状的效应程度,和/或当计算个体的评分时该因素是否是加和性的,协同性的,对抗性的,独立地或上位性的。例如,第一个等位基因可能比第二个等位基因具有对个体风险高两倍的效应幅度,因此在计算该个体的评分时,赋予第一个等位基因的值比赋予第二个等位基因的值高两倍。在某些实施方案中,给定的因素组可以表现出不同上位性互作的组合。在其他实施方案中,还应该将表达数据加以考虑。例如,作为癌症发展基础的因素的基因(或RNA或其蛋白产物)的特定等位基因的表达水平可以预测发展所述癌症风险的增加或降低。在另一个实施方案中,当计算个体的评分时,可将影响该多因素性状的环境因素的知识也考虑在内。在这样的实施方案中,与一种或多种环境因素出现相关的评分可用于对个体的评分进行计算。
在另一方面,可以确定一系列风险边界值。风险边界值代表了用于遗传检测对个体有可能发展或表现出某种多因素性状进行鉴定的理论阈值。例如,评分高于阈值的个体可被诊断为有可能表现出该多因素性状,而那些评分等于或低于阈值的个体则可被诊断为不太可能表现出该多因素性状。或者,可使用多个阈值来确定个体表现出该多因素性状的风险。
这一系列风险边界值的范围从1到相关分析中对个体计算出的最高评分,无论是否其是患者组或对照组中的一员。在一个实施例中,个体的最高分为97分,因此确定的所述风险边界值(风险边界范围)在1和97之间。在某些方面,风险边界值选自整个风险边界范围,尽管对特定风险边界值的选择在某种程度上是任意的。在某些实施方案中,在所述风险边界范围内的每一个评分都被选择。在其他实施方案中,每第n个(例如,每第5个或每第10个)评分被选择。在其他实施方案中,所述范围被分成百分数,并选择每一第n个百分数。在某些实施方案中,更多的风险边界值选自于整个评分范围的中部而不是该范围的顶部或底部,反之亦然。例如,在整个评分范围介于1至97之间的情况下,可在20和80之间在每一第10分对风险边界值进行选择,同时将55和65的其他风险边界值加入从而对该范围的中部进行更好的评估(参见表1)。
在随后的步骤中,将每一个风险边界值与对患者组和对照组个体计算出的评分进行比较。具体而言,患者(“受影响”)和对照(“未受影响”)个体的评分可用来确定哪个风险边界值提供了最佳的敏感性,特异性,阳性预测值(PPV),阴性预测值(NPV),准确度或其组合,来从那些不太可能表现出多因素性状的个体中将有可能表现出多因素性状的个体鉴别出来,由此鉴定出适于作为使用相关SNP进行多基因检测较好阈值的风险边界值。此外,对合适阈值的鉴定还涉及临床信息的使用(例如,关于正在研究的多因素性状,群体,或被测试的个体)和/或本发明实施人员与外界机构(例如,美国食品和药品管理局(FDA))的相互协助。这样的些阈值可以被发展成遗传检测,例如,在患病组和对照组个体的阈值和评分基础上计算出的具有敏感性,特异性,PPV,NPV和准确度的诊断方法。
双向的遗传检测具有两种可能的结果。阳性检测结果说明个体表现出或有可能表现出感兴趣的性状,而阴性检测结果则说明个体未表现出且没有可能表现出感兴趣的性状。同样地,遗传检测的可靠性与该检测结果能够正确地鉴定个体为该性状的“阳性”或“阴性”的频率相关。真阳性(TP)和真阴性(TN)是分别正确地鉴定出个体为该性状的阳性(例如,“受影响的”)和阴性(例如,“未受影响的”)的检测结果。假阳性(FP)是当将实际上对该性状是阴性的个体错误地鉴别为阳性时的检测结果。同样,假阴性(FN)是当将实际上对该性状是阳性的个体错误地鉴别为阴性时的检测结果。对TP,TN,FP和FN的测定可用来计算遗传检测的灵敏度,特异性,PPV和NPV。
检测的“灵敏度”是对所述检测能够正确鉴定出受影响的个体,或个体会发展所述感兴趣性状的能力。灵敏度越接近1,该检验能越准确鉴定受影响的个体。特别地,灵敏度是指同样由该检测正确诊断出的受影响个体的比例,同时也是由正确鉴定为受影响的(TP)个体数量除以受影响个体的总数(TP+FN)计算出来的。较高的灵敏度是优选的,因为通过所述遗传检测能够将大多数受影响的个体鉴定出来。检验的“特异性”是测定所述检验正确鉴定未受影响的个体,或者不会发展感兴趣的性状的个体。特异性越接近于1,该检测就越能正确地鉴定出未受影响的个体。特别地,特异性是指同样由该检测正确诊断出的未受影响个体的比例,同时也是由正确鉴定为未受影响的(TN)个体数量除以未受影响个体的总数(TN+FP)计算出来的。高特异性是优选的,使得被错误鉴定为受影响个体的数量最小。因此,对于给定的风险边界值而言,灵敏度的计算值为在患者组中评分确实高于风险边界值的个体的比例,而特异性的计算值则为在对照组中评分低于或等于该风险边界值的个体的比例(或,1减去评分高于所述风险边界值的对照个体的比例)。
遗传检测的“阳性预测值”(PPV)对阳性检测成果/结果的可靠性进行了评估,且计算值为具有阳性检测结果确实具有感兴趣性状的人口比例。换言之,是阳性检测结果正确鉴定出个体具有该性状的可能性,且计算值为正确鉴定为受影响个体的数量(TP)除以由该遗传检测鉴定出的受影响个体的总数(TP+FP)。在很多情况下,优选高PPV,从而被鉴定为受影响的大多数个体实际上就受到影响。例如,0.98的PPV是指具有阳性检验结果的个体具有98%的具有和发展所述形状的几率。遗传检测的“阴性预测值”(NPV)对阴性检测成果/结果的可靠性进行了评估,且计算值为具有阴性检测结果确实没有感兴趣性状的人口比例。换言之,其是阴性检测结果正确鉴定出个体没有该性状的可能性,且计算值为正确鉴定为不受影响个体的数量(TF)除以鉴定出的不受影响个体的总数(TN+FN)。较高的NPV有时是指大多数鉴定为不受影响的个体事实上是不受影响的(例如,除了具有给药特异性药物相关副作用风险的受试者)。例如,NPV为0.999意味着具有阴性检测结果的个体只有0.1%的具有或发展该性状(例如,体验到对于该药物的副作用)的几率。因此,对于给定的风险边界值而言,PPV的计算值为在患者组中评分确实高于风险边界值的全部个体的比例,而NPV的计算值则为在对照组中评分确实低于或等于该风险边界值的所有个体的比例。
性状的流行率是指该性状在被测人群中的频率,且计算值为现存患者数量除以在给定时间点的总人口数。虽然考虑到检测的灵敏度和特异性并未受到该性状流行率的影响,但在被测人群中PPV和NPV都受到了该性状流行率的较高影响;越低的疾病流行率导致越低的PPV和越高的NPV。PPV和NPV都可作为灵敏度(sens),特异性(spec)和流行率(prev)的函数来进行计算:
PPV=(sens)(prev)/[(sens)(prev)+(1-spec)(1-prev)]
NPV=(spec)(1-prev)/[(spec)(1-prev)+(1-sens)(prev)]。
也可以使用似然率来选择适于遗传检测的阈值。似然率(LR)是将检测的灵敏度和特异性整合成一个测量值的方法,并基于阳性或阴性检测结果给出了具有或发展给定性状变化的可能性为多少。因为灵敏度和特异性是检测本身的固定特征,所以与PPV和NPV不同,LR是与人群中该性状的流行率相互独立的。LR是与预计没有所述性状的个体的相同结果的可能性相比,给定的检验预计个体具有所述性状的可能性。阳性检测结果的LR(LR+)提供了当该检测为阳性时个体有多少可能性具有或发展性状升高的测量值,且计算值为灵敏度除以(1-特异性)。用于“排除”性状的较好检测是使用最大的LR+的检测。阴性检测结果的LR(LR-)提供了当该检测为阴性时个体有多少可能性具有或发展性状升高的测量值,且计算值为(1-特异性)除以特异性。用于“排除”性状的较好检测是使用较低LR-的检测。大于10或小于0.1的LR值通常用作对高诊断值进行判定。将LR值与“检测前可能性”组合考虑可确定检测个体具有或会发展成感兴趣性状的“检测后可能性”(检测后可能性=检测前可能性×LR)。检测前可能性是通过关于该性状流行性信息,人群特征和特定被测个体的信息进行计算的,且其代表了该个体在检测之前具有或逐渐发展成该性状的可能性。检测后代表了在给定检测结果之后该个体具有或逐渐发展成该性状的可能性。在本发明的一个实施方案中,遗传检测LR的最大值被选为阈值。
遗传检测值或有效性的另一个参数是准确度,其代表了在检测结果与真实疾病状态之间的总的一致性。准确度的计算值等于真阳性与真阴性的和除以样品结果的总数((TP+TN)/(TP+TN+FP+FN))。遗传检测的准确度可用来确定是否一组风险边界值可在多基因检测中用作阈值。
对每一个风险边界值都进行了灵敏度,特异性,PPV,NPV和准确度的计算,下表1所示为在具有102名患者和405名对照的实施例中对这些值进行分析的结果。从全部评分范围中选出的边界值如第一列所示。评分高于其对应边界值的患者个体的数量如第二列所示。第三列所示为评分高于其对应边界值的对照个体的数量。将每个对应边界值都用作阈值进行检测的灵敏度如第四列所示。将每个对应边界值都用作阈值进行检测的特异性如第五列所示。将每个对应边界值都作为阈值进行检测的PPV和NPV分别如第六列和第七列所示。最后,将每个对应边界值都作为阈值进行检测的准确度如第八列所示。
表1
  风险边界值  患者个数(102中的多少个)  对照个数(405中的多少个)   灵敏度   特异性   PPV   NPV   准确度
  80  25  0   0.25   1   1   0.84   0.85
  70  51  2   0.50   0.995   0.96   0.89   0.90
  65  65  8   0.64   0.98   0.89   0.91   0.91
  60  79  34   0.77   0.92   0.70   0.94   0.89
  55  93  81   0.91   0.80   0.53   0.97   0.82
  50  99  154   0.97   0.62   0.39   0.99   0.69
  40  102  318   1   0.21   0.24   1   0.37
  30  102  394   1   0.03   0.21   1   0.22
  20  102  405   1   0   0.20   1   0.20
在最适条件下,具有较高PPV,NPV和准确度的遗传检测是高灵敏和高特异性的,因此所有被测个体都被正确地鉴定为具有或没有感兴趣的性状。不过,在通常情况下,对最适风险边界值的选择是基于,例如,对特异性,灵敏度,PPV,NPV和准确度或其亚组的最佳组合。如表1所示,使用较高的风险边界值提高了所述检测的特异性和PPV却降低了灵敏度和FPV。因此,如果遗传检测是根据较高的风险边界值来确定个体发展疾病的易感性的,那么只有少数个体会被误诊为具有较高的风险发展所述疾病,但大部分确实具有较高风险的人群却没有被鉴定出来。在另一方面,使用较低的风险边界值提高了灵敏度和NPV却降低了特异性和PPV,因此,尽管大多数或全部个体具有较高风险的个体被鉴定了出来,但相当数量低风险的个体也被错误地鉴定为具有较高风险。所以,很明显这两个极端值都是不可用的,但可以考虑的是对特定性状,人群和个体来确定平衡的灵敏度,特异性,PPV和NPV。
对阈值的确定依赖于许多因素。例如,为了实现这样的确定一般都需要对该疾病的临床知识有所了解。此外,对多基因检测的阈值可以是由管理机构(例如,FDA)进行调节的,或由医生根据,例如,关于有效治疗的信息,该多基因检测的特征,或特定患者的具体情况的变化而进行变化的。此外,还可以在二分方式中使用或不使用阈值。例如,对个体的治疗可随该个体的评分高于所述阈值(例如,给药)或低于或等于所述阈值(例如,不给药)发生变化。或者,对评分接近阈值的个体治疗可与评分远离阈值的个体治疗不同。例如,根据其他因素,例如临床知识和该个体的信息,医生可以做出对评分略低于阈值的个体进行给药的决定。此外,将评分与阈值进行比较时的“高于”与“低于或等于”的使用只是一种习惯问题,在本发明的其他实施方案中,还可以使用“高于或等于”和“低于”,这对本领域所属技术人员而言都是清楚明了的。
在一方面,对阈值的确定依赖于疾病的严重程度。例如,如果该性状涉及严重疾病的发展,那么研究人员更倾向于较高的敏感性与较低的特异性,因为鉴定出那些个体具有较高的风险对那些个体而言是至关重要的。例如,可治疗的恶性肿瘤(原位癌症或霍奇金氏病(Hodgkin′s disease))可以被早期发现,所以在对病情的诊断中应该使用较敏感的检测。类似地,为了确保假阴性的数量较低,对严重疾病优选使用较高NPV的检测。由于比理想PPV较低的PPV可使得假阳性的数量明显增加,因此可实施其他的检测,使用,例如,高准确率的“金标准(gold standard)”检测,来对那些检测为阳性/受影响个体的状况进行确认。同样地,当还可方便的具有其他确认诊断措施时,较低的PPV也是更容易接受的。例如,在一般人群中,异常宫颈细胞的比率约为1/1000且早期子宫颈癌涂片检验的灵敏度和特异性分别为0.70和0.90。基于这些数值,早期子宫颈癌涂片检验的PPV和NPV分别为0.00696和0.999,说明早期子宫颈癌涂片检验阳性的个体真正具有异常的可能性非常小,而早期子宫颈癌涂片检验阴性的个人基本上肯定是没有疾病的。
在某些方面,较高的特异性和PPV对遗传检测而言是优选地,例如,当假阳性检测结果具有较高的不希望反应时。例如,当该检测用于对个体是否应该接受具有危险性的治疗方案(移植手术,化疗,辐射,具有严重副作用的药物,乳房切除术等等)作出决定时,重要的是由该检测鉴定为需要治疗的个体确实需要所述治疗。例如,遗传检测可发展为在缺乏心脏移植程序中对具有高死亡风险的个体进行鉴定。因此,评分高于阈值的个体被鉴定为很可能死亡,除非接受新的心脏。这样的检测对具有较高PPV(~10)的个体而言是优选地,因此只有较高死亡可能性的个体会考虑心脏移植。虽然这意味着可将不接受心脏移植就会死亡的相当数量个体排除在治疗之外(较低的NPV),但最重要的是不会有个体接受其完全不需要的心脏移植。
确定遗传检测合适阈值的另一个因素是该疾病在人群中的总流行率。例如,以在人群中非常罕见的性状为例。0.95的特异性看起来是可接受的较高了,但这意味着有5%并不具有高风险的个体被误诊为具有发展该性状的高风险。因此,对在人群中频率为1/10,000的性状而言,在被正确鉴定为具有发展该性状风险的个体中,大约有500个个体会被误诊为“高风险”(假阳性)。所以,最适合的是对罕见的,非严重的性状使用较高特异性的边界,而对常见的,严重的性状使用较高敏感性的边界。此外,如上所述,PPV和NPV对感兴趣性状的流行率具有较高的依赖性。例如,用来对个体发展在人群中疾病流行率较低的所述疾病风险进行鉴定的遗传检测的PPV值低于用来对个体发展在人群中疾病流行率较高的所述疾病风险进行同样鉴定的遗传检测的PPV值。类似地,用来对个体发展在人群中疾病流行率较低的所述疾病风险进行鉴定的遗传检测的NPV值高于用来对个体发展在人群中疾病流行率较高的所述疾病风险进行同样鉴定的遗传检测的NPV值。同样,当具有相当高PPV(或相当高NPV)的遗传检测被用于对一个人群中的个体进行检测时,其并不能被用于感兴趣的性状的流行率与之不同的其他人群中,因此,根据感兴趣性状的流行率不同,对不同的人群应该选择不同的阈值。简言之,不仅使用本文所述的方法,还使用了临床知识和直觉,以及,例如,与诸如FDA的管理结构的相互作用,本领域所属技术人员可以对具有特定给定性状流行率的患者人群选择阈值从而获得一个或多个临床可用的参数,例如灵敏度,特异性,PPV,NPV,准确度等等。
在本发明的一个方面,根据对风险边界值计算得到的灵敏度和特异性,使用ROC(接受器操作特征)曲线确定了使用相关SNP的多基因检测的阈值(Hanley et al(1982)Radiology 143:29-36;和Beck,et al(1986)Arch Pathol Lab Med 110:13-20)。ROC曲线与遗传检测的灵敏度和特异性之间的内在权衡相关,并可通过对每种风险边界值的灵敏度作为1减去特异性的函数作图得到,如图1所示,其所示为使用表1的数据产生的ROC曲线。因此,在ROC曲线上,每一个风险边界值都对应一个“数据点”。曲线下的面积提供了对该遗传检测可靠性的度量。对能够完全区分受影响和不受影响个体(灵敏度和特异性都分别为1)的遗传检测而言,曲线下的面积为1。对不能区分受影响和不受影响个体的遗传检测而言,曲线下的面积为0.5。一般而言,曲线越靠近图的左手部分和顶部边界,该遗传检测就越准确,曲线越靠近ROC空间的45度角,检测就越不准确。通常用来分析ROC曲线的计算机程序是公众可获得的,包括ROCKIT,CORROC2,LABROC4,ROCFIT,CLABROC,ROCPWR,LABMRMC和PROPROC,其全部都可以从进行放射影像研究的Kurt Rossman实验室下载,网址为:www-radiology.uchicago.edu/krl/KRL_ROC/software_index.htm#ROC%20calculations%20Auxiliary%20software。在某些实施方案中,可以从数据点最接近于图左上角的ROC曲线的部分(例如,百分比)的风险边界值中选择阈值。例如,如果数据点选自图1所示图中最接近于左上角的20%ROC曲线(箭头A和B之间),那么就可以从对应于风险边界值为55和60之间的数据点中选择阈值,分别用D和E表示。在其它实施方案中,阈值被确定为由最接近于图中左上角数据点代表灵敏度和特异性的风险边界值。在图1中,这一数据点(D)对应的风险边界值为55。在另一个实施方案中,可以由最接近于图左上角的ROC曲线位置来决定阈值。在图1中,该位置用C表示,对应的灵敏度和特异性为约0.87和约0.84。在这个实施方案中,所确定的风险边界值与该曲线这一位置代表的灵敏度和特异性相对应,且该风险边界值被用作使用相关SNP进行遗传检测的阈值。例如,因为位置C位于数据点D和E之间,用作阈值的最佳风险边界值就应该在55和60之间。为了确定最佳的风险边界值,在基于患者组和对照组评分范围内确定了适于所有风险边界值的灵敏度和特异性(参见表2)。选择的是灵敏度和特异性分别最接近0.87和0.84的风险边界值,在该实施例中,风险边界值为56,灵敏度和特异性为0.88和0.84。因此,56被选为使用相关等位基因进行多基因检测的阈值。
在本发明的另一实施方案中,可根据特殊需要的临床结果对阈值进行选择。例如,遗传检测可发展成为在给定特殊治疗的个体中降低副作用出现的方式从而对患者群体进行分类。例如,由于有4%的副作用出现,药物就被批准为受限制使用,但如果将副作用的出现降低至少50%,其就可以是广泛使用的了。在这个实施方案中,“患者”是对药物产生副作用的个体,而“对照”则是当暴露于所述药物时并未产生副作用的个体。个体经受副作用的风险是通过计算该个体在所述相关座组合基因型的评分,然后,例如,将该评分与遗传分析的阈值进行比较确定,其中所述阈值是通过对基于患者组和对照组评分对遗传检测的PPV,NPV,灵敏度,特异性等等或其它组合进行分析得到的。例如,相关等位基因数量高于阈值的个体被鉴定为具有较高副作用的风险。使用60的阈值能够消除77%的患者和8%的对照。因为公知副作用发生为4%,则1000患者人群中就会有大约40个病例,其中约31(77%)个个体的相关等位基因>60个,而其中9个体的相关等位基因≤60个。同一个患者人群中有约960个对照,其中约77(8%)个个体的相关等位基因>60个,而其中883个个体的相关等位基因≤60个。在将相关等位基因数量≤60的108个个体排除之后,在没有排除的892个个体中副作用出现的计算为:(9/892)×100=1%。。类似地,在被排除的个体中副作用出现的计算为:(31/108)×100=29%。使用相同的计算方法,59和61的风险边界值也被定为诊断检测的阈值。风险边界值为59使得在未被排除治疗个体中的副作用发生预测值为1%,但对照组中的更多个体(92)被排除在外,说明如果将该风险值用作诊断检测中的阈值的话,更多没有副作用风险的个体会被排斥在治疗之外。风险边界值为61使得在未排除治疗个体中的副作用发生预测值为1.2%,其高于风险边界值为60所对应的数值,然而,但更少的对照个体(69)被排除,意味着如果将这一风险边界值用作诊断检测阈值的话,更多没有副作用风险的个体会受益于药物治疗。此外,如果本领域所属人员意图在保持副作用风险为2%或低于2%的情况下,在治疗群体中最大化接受治疗的对照个体数量,69的阈值可仅排除10个对照个体并以2%的副作用风险提供接受治疗的人群。此外,如图2所示,对从需要治疗的患者组中排除足够病例进行鉴定的检测而言,仅需要0.53就可以将副作用的风险降低至2%。因此,在这样的诊断检测中使用阈值为69的风险边界值能够降低在由特定治疗剂治疗的个体人群中副作用的发生,由此增加其风险/收益情况,并允许放宽其标记,与此同时最大化被包括于所述治疗中不具有副作用风险的个体总数。很明显,在接受治疗人群中对特异性副作用风险的选择是确定这类诊断检测阈值的一个重要因素,通过医生与涉及对此类诊断进行批准的管理机构(例如,FDA)的通力合作必定确定了风险水平。例如,如果需要的是1%副作用风险,则可以选择60的阈值,其能够增加所述检测的NPV(由此在接受治疗的人群中降低副作用的实际数量)与此同时牺牲PPV(排除了更多可以受益的个体(对照))。被排除的患者可接受不同的治疗,例如,用不同的药物,或在给药时伴随对副作用的严密监测,或者使用能对抗所述副作用的其他治疗方法或治疗剂的治疗。
 表2
  风险边界值  患者个数(102中的多少个)  对照个数(405中的多少个)   灵敏度   特异性   PPV   NPV   准确度
  69  54  4   0.53   0.99   0.93   0.89   0.90
  61  74  29   0.73   0.93   0.72   0.93   0.89
  60  79  34   0.77   0.92   0.70   0.94   0.89
  59  80  39   0.78   0.90   0.67   0.94   0.88
  58  81  44   0.79   0.89   0.65   0.95   0.87
  57  86  53   0.84   0.87   0.62   0.96   0.86
  56  90  64   0.88   0.84   0.58   0.97   0.85
  55  93  81   0.91   0.80   0.53   0.97   0.82
灵敏度,特异性,PPV,NPV,准确度,似然率和ROC曲线的概念,以及对诊断检测选择适当阈值的方法都是广泛使用的并为本领域所属技术人员公知(参见,例如,Janssen,et al(2004)Am J Hum Genet74:585-588; www.bamc.amedd.army.mil/DCI/articles/dci10972htm;BaumM(1995)Lancet 346:436-437;Forrest P(1990)“Breast Cancer:thedecision to screen”;Nuffield Provincial Hospitals Trust;Morrison,AS(1985)“Screen in Chronic Disease”Oxford University Press Inc USA;www.genome.gov/10002404;med.usd.edu/som/genetics/curriculum/1ITES T.7htm;Bauman A.(1990)Australian Prescriber 13:62-64;Walker et al(1986)Med.J.Aust.145:185-187;Gilbert R(2001)Western J.Med174:405-409;Frohna,J.G.(2001)“Fostering the Efficient,Effective Use ofEvidence-based Medicine in the Clinic”,2nd edition,University ofMichigan;Raglans,RA(2000)“Studying a Study and Testing a Test”,4thedition,Lippincott Williams & Wilkins;www.cebm.net/likelihood rations.asp;和 www1.elsvier.com/gej-ng/10/20/71/52/140/article.htm)。例如,在一研究中,对鉴别肝硬化和肝细胞癌的α-胎蛋白的最佳阈值就是根据ROC曲线下面积,似然率,灵敏度,特异性,PPV和NPV确定的(Soresi et al(2003)Anticancer Res 23(2C):1747-1753)。在其它研究中,对早期胸部肿瘤X射线测定法,声图描记法,和MR早期胸部肿瘤X射线测定法进行比较,从而决定是否这些技术中的一种,或两种或更多种技术的组合能够为使用灵敏度,特异性,PPV,NPV和准确度参数对侵入性癌症和多病灶(multifocal)疾病的测定提供最好的结果(Malur et al(2001)Breast Cancer Res 3:55-60)。全部三种影像技术的组合得到了灵敏度为0.994,特异性为0.953,PPV为0.939,NPV为0.996,和准确度为0.97的最佳结果。在其他研究中,将两次临床检测ROC曲线下的面积进行比较从而确定到底是这些检测中的一种还是两种检测的组合能够最准确地鉴定乳腺损伤的人群(Buscombe et al(2001)J Nuc Med 42(1):3-8)。在其他研究中,发现在前列腺特异性抗原(PSA)边界值为4ng/ml PSA的情况下,对前列腺癌检测的灵敏度为0.86且特异性为0.33,将边界值降低至2ng/ml PSA的情况下灵敏度升高为0.95,但特异性降低为0.20(Hoffman,et al(2002)BMC Fam Pract 3(1):19)。一旦对所有风险边界值进行检验且计算出其分别的特异性,灵敏度,PPVs,NPVs,LR+和LR-值,以及准确度(或其一些的亚组),就可将这些参数,或其一些亚组之间的最佳平衡用于确定阈值。本领域所属技术人员可选择对任一这些参数或其组合进行优化的阈值来获得对患者人群进行分类,例如,诊断,预防,药物基因组学,药物开发,theranostics等等的临床有效方式。
在本发明的某些实施方案中,可确定不止一个阈值,并将其用于对表现出多因素性状的个体风险进行分类。在一个这样的实施方案中,所选择的第一个阈值可以是基于对灵敏度的优化,其可以降低具有较高风险但却不是由该检测鉴定的个体数量(假阴性)。使用第一个阈值在遗传检测中检测为“阳性”的个体随后被用来使用基于对特异性进行优化得到的第二个阈值进行相同的遗传检测。第二阈值可降低检测为阳性但不具有高风险的个体的数量(假阳性)。依次使用这两个阈值可以提高该方法的准确度。
在确定了不止一个阈值并将其用于对表现多因素性状的个体风险进行分类的本发明另一种实施方案是在同一个遗传检测中同时使用多个阈值的实施方案。在这样的检测中,根据个体的评分高于,低于,或等于哪一个阈值来计算该个体的风险。在一个实施方案中,至少使用了大约两个阈值,或至少使用了大约五个阈值,或至少使用了大约10个阈值。在某些实施方案中,每一个对给定多基因检测的可能性评分都可用作阈值,在其他实施方案中,使用了可能性评分的亚组,其中所述亚组可包括评分的特定范围,或包括从整个评分范围内选择的评分。例如,可对第一个阈值进行选择从而将评分高于第一阈值的个体归为具有较高可能性发展疾病的人群并随后用适当的药物进行治疗从而防止疾病发作。可对第二个阈值进行选择从而将评分低于第二阈值的个体归为具有较低可能性发展疾病且无需治疗从而防止疾病发作。那些评分介于第一和第二阈值之间的个体可被归为具有中等可能性发展疾病的人群并随后使用不同于评分高于第一阈值或评分低于第二阈值个体治疗进行不同的治疗,例如,也可不对其给药但监测更加严密从而测定本应该发现的疾病发作。对具有中等风险个体的治疗更加依赖于其他信息,例如关于该疾病,多基因检测,药物,患者的临床信息等等的信息,而不是对不具有中等风险(即,处于“高”或“低”风险)个体进行治疗。
虽然通过相关分析可以鉴定出相关座的组,但在单个多基因检测中并不需要使用到所有的相关座。一旦鉴定了相关座的组,本领域所属技术人员就可以对用于多基因检测中的相关座数量进行调节,并对所述检测的数值进行分析,例如,参照其灵敏度,特异性,相对风险,似然率,PPV,NPV,准确度或其组合。例如,在某些实施方案中,较高的相对风险和较高的灵敏度是优选的。在一方面,本发明的方法可用来对用于多基因检测中的相关座亚组(例如,至少约5,10,15,20,30或50)进行测定。例如,可以选择在患者组和对照组之间具有最大等位基因频率差的相关座。在一些实施方案中,只有等位基因频率差值为至少约8%(0.08),10%(0.1),15%(0.15)或25%(0.25)的座被选用于多基因检测中。在某些实施方案中,可使用来自患者组和对照组的基因型分析数据对所得多基因检测的某些特征进行分析来确定应用于多基因检测中的相关座亚组。例如,可以使用给定的相关座亚组来确定适用于假定多基因检测的灵敏度,特异性,相对风险,似然率,PPV,NPV,准确度或其组合。以这种方式可对多个这样的假定多基因检测进行分析,且可在所述多基因检测中用具有这些特征最佳组合的相关座亚组进行选择。如上所述,在确定适当的阈值时,对于多基因检测的灵敏度,特异性,相对风险,似然率,PPV,NPV,准确度或其亚组的最佳组合依赖于多种临床因素,包括,例如,表现型的严重程度,表现型的流行率,以及其他人群特异性或患者特异性的临床信息。在某些实施方案中,用于多基因检测中的相关座亚组是根据所述相关座的等位基因频率差异和由此产生的多基因检测特征来确定的。因此,使用本发明的方法,本领域所属技术人员可以使用相关座的亚组来对多基因检测的特征进行预测而无需仅使用对这些特征进行测定的亚组来实施患者-对照分析。
本发明的这一方面具有重要的实际应用价值。例如,如果在第二次验证性相关分析中某些相关座并未重复,那么就可以将其从用于多基因分析的相关座组合中排除,而其无需进行其他的相关分析就可以对缺乏“非重复”座的所述多基因检测的特征进行确定。此外,需要对大量座进行基因型分析的多基因检测比实施需要对少数座进行基因型分析的多基因检测要昂贵的多。因此,在保持特定所需要特征(例如,灵敏度,相对风险,等等)的情况下,在多基因检测中降低相关座数量的能力对实施这种检测的可负担性具有直接的影响,并由此对这种检测的实际应用具有直接的影响。
此外,认为每个相关SNP等位基因的贡献且类似或不同程度的表现型效应是加和性的,以及每个相关SNP等位基因与其他各个基因是相互独立(即,分别独立)的多基因检测可用来对每代人群发展多因素性状的风险进行预测。在一个这样的实施方案中,在患者人群和对照人群中确定个体的SNP组合,并在每个人群中确定每种SNP的等位基因频率。假设SNP彼此是处于哈代-韦伯格平衡(Hardy-Weinbergequilibrium)的,在每个人群中所述基因型的频率是根据在该人群中所述等位基因频率来确定的。这种计算的简单说明可通过仅对一个SNP进行基因型分析的实施例来加以示例。如果该SNP具有较低的为0.3的等位基因频率(C),则“CC”基因型的频率为(03)2,“GG”基因型的频率为(0.7)2,而“GC”基因型的频率为2(0.3)(0.7)。因此,如果一个等位基因增加了个体发展感兴趣表现型性状的风险,就可以根据在该患者和对照人群中CC,GG和CG基因型的频率来确定该人群的风险。只要等位基因频率在两代之间是稳定的,这样的风险就不仅适用于当代的人群,还适用于后代的人群,正如在大群体中经常可以见到的情况。在多基因检测中,在患者和对照人群中对多种SNP进行基因型分析,产生了两种基因型组合。如果SNP之间是相互独立的,那么就可将多个SNP的等位基因频率的组用来计算两个人群中基因型频率的组。因为每种基因型都具有与根据其所含相关等位基因数量相关的特定风险,可以根据对基因型组合提供的风险对在人群中个体的总风险进行确定,只要等位基因频率保持相对恒定,这一风险对于其他人群(例如,下一代)中的个体也是相等的。
对个体发展多因素疾病的风险的鉴定
一旦确定了一个或多个阈值,就可以对患者或对照组之外的个体(“检测个体”)进行检测从而确定该个体发展或表现出所感兴趣性状的风险。在本发明的某些实施方案中,所述检测个体与患者组和对照组的个体是相同的物种。在每个相关SNP座都对该检测个体进行基因型分析。以在原始患者组和对照组中对个体进行评分计算的相同方式,根据每个SNP座的基因型,计算所述检测个体的评分。在本发明的一个实施方案中,将计算出的检测个体的评分与一个或多个阈值相比,从而确定该个体是否有可能表现出该疾病。例如,如果某检测个体的评分高于第一阈值,可认为该检测个体会发展或表现出该疾病,而如果该检测个体的评分等于或低于第二阈值,则可认为该检测个体发展该疾病的风险较低。第一阈值和第二阈值可以相同或不同。例如,在55被同时选为第一和第二阈值的实施方案中,评分高于55的检测个体可被诊断为有可能发展该疾病,而评分等于或低于55的检测个体则被诊断为不太可能发展该疾病。此外,根据该疾病的流行率和遗传检测的灵敏度和特异性,本领域所属技术人员可以计算出通过所述检测鉴定出的个体具有较高风险确实具有或发展所述疾病的可能性或似然率。类似地,本领域所属技术人员可以计算出由该检测鉴定为具有较低风险的个体事实上没有或不会发展该疾病的可能性或似然率。
在本发明的另一实施方案中,对检测个体计算出的相对风险可进一步对该个体发展或表现出该疾病可能性进行分析。相对风险是有多少特定的风险因素能够影响具体发病结果风险的度量值。例如,与风险因素相关的为2的相对风险意味着具有该相对风险的个体比没有风险因素的个体具体结果的发病的风险升高了两倍。在一方面,在普通人群中,与所述性状(例如,疾病)的风险相比而言疾病的相对风险是倍增的。通过计算患者组中个体百分比和对照组中个体百分比的比率达到或超过了基于与该疾病相关的SNP组合上其基因型的给定评分来确定相对风险。使用表1所示的数据,例如,评分为至少65的个体的相对风险为(0.64)/(0.02)=32,这意味着基于其在相关SNP位置的等位基因组成,该个体发展该疾病的风险增加了32倍。为了进行比较,评分为至少70的个体的相对风险为(0.5)/(0.005)=100,这意味着根据其在相关SNP位置的等位基因组成情况,该个体发展该疾病的风险增加了100倍。在本发明的一方面,根据在其相关SNP座上的基因型对检测个体计算出了评分,并且对患者组和对照组进行分析从而确定何种比例的患者个体与何种比例的对照个体具有至少与该检测个体一样大的评分。然后,将评分至少与该检测个体一样大的患者个体的百分数除以评分至少与该检测个体一样大的对照个体的百分数来计算所述检测个体的相对风险。
如上所述,相对风险在普通人群中提供了相对于该疾病风险的倍增风险。因此,为了确定检测个体发展该疾病的个体风险,必须将该个体的相对风险与涉及该疾病流行率的临床信息组合考虑。例如,如果疾病的流行率为1∶100,那么相对风险为32的个体发展该疾病的可能性为32∶100,或0.32。然而,对流行率为1∶1,000,000的疾病而言,相对风险为32的个体发展该疾病的可能性为32∶1,000,000,或0.000032。因此,虽然相对风险在这两个实施例中是相同的,但对这两种疾病而言,发展该疾病的实际可能性区别相当大。在本发明的某些方面,可通过将根据在普通人群中该多因素性状流行率测定的个体相对风险相乘,来计算检测个体发展感兴趣多因素性状的风险。对相对风险的测定是公知地并可由本领域所属技术人员常规操作获得(参见Sackett,et al(1991)Clinical Epidemiology:a basic science for clinicalmedicine(second edition)Little Brown,Boston)。
此外,遗传检测的PPV和NPV也可以提供关于基于所述检测结果个体具有或发展疾病风险的信息。例如,如果使用PPV为0.87和NPV为0.99的检测将个体检测为对疾病具有“阳性”,那么该个体具有87%的几率具有或发展该疾病。类似地,如果使用相同的检测对另一个个体检测为对该疾病具有“阴性”,那么该个体仅有1%的几率具有或发展该疾病。
如上所述,似然率使用了检测的灵敏度和特异性提供对有多少特定的检测结果改变了患者具有或没有感兴趣多因素性状似然率的度量值。将灵敏度除以(1-特异性)计算出了阳性检测结果(LR+)的似然率(LR),而将(1-灵敏度)除以特异性计算出了阴性检测结果(LR-)的似然率(LR)。将这些LR值与检测前几率相乘计算出了检测后几率,其代表了将关于疾病流行率,患者群体和特定的患者风险因素(检测前几率)以及关于诊断检测本身的信息(LR)整合起来得到的该个体具有或发展该多因素性状的可能性。通过将检测后几率除以(1+检测后几率),可将检测后几率用于计算检测后可能性。例如,如果被检测为阳性的个体在流行率为1.5%是具有的检测前几率为1-66,而该检测的LR+为6.6,那么该检测后几率就为0.1且检测后可能性为0.09,意味着该个体具有9%的几率具有该疾病。类似地,如果被检测为阴性的个体具有的检测前几率为1-3且该检测的LR-为0.09,那么该检测后几率为0.03,对应于3%的该个体具有疾病的检测后可能性。以这种方式,可将多因素性状的似然率和流行率用来计算个体在基于给定检测结果的情况下具有或发展感兴趣多因素性状的可能性。
预测和诊断用途
预防性度量值在对多种不同疾病的预防中是相当成功的,但这些度量值只有在当个体发生疾病之前被鉴定为具有发展该疾病的风险时是成功的。因为影响多因素疾病发展的因素组相当复杂,所以该多因素疾病的发生是特别难以预测的。同样,个体通常并不知道其具有发展多因素疾病风险直到在要进行预防的时候已经为时过晚。对本领域所属技术人员而言,显而易见此述的方法可以为医生提供有效的工具来作出涉及到患者护理的医疗决定。风险的确定是对个体进行临床分析的一个重要方面,其可被用来确定是否有理由进行医疗干涉,以及哪种干涉最适于给定个体(Bucher,et al(1994)BMJ 309(6957):761-764;Forrow,et al(1992)Am J Med 92(2)121-124)。
在某些实施方案中,本发明提供了鉴定个体具有发展疾病风险的方法(预测),由此可以利用所述测定来防止或延迟疾病的发生。在一个实施方案中,可通过将根据个体在疾病相关SNP组合上的基因型的评分与至少一个阈值进行比较,可确定个体发展给定疾病的风险。如果个体的评分超过了阈值,就可对预防性度量值(例如,辐射或药物治疗)的制定进行调节。在另一个实施方案中,可通过计算个体的相对风险并将所述相对风险乘以该疾病的流行率来确定个体发展疾病的风险。在其他实施方案中,可将遗传检测的灵敏度,特异性,PPV,NPV,和/或准确度用来计算个体发展所述疾病的风险。在又一实施方案中,检测的LR可用来计算个体发展该疾病的检测后几率/可能性。在又一实施方案中,上述方法的组合可用来确定个体具有或发展该疾病的风险。这一信息可为医生所用,从而更好地确定适于患者的治疗方案。通常,这一信息可与关于该疾病,患者,或患者所来自人群的临床信息组合使用。在某些方面,本发明的方法还可用来鉴定对疾病具有抵抗力的个体。例如,有些具有家族病史的个体(例如,乳腺癌)却从来不会形成该疾病。这些知识为这些怀疑会发展疾病的个体进行了更好的风险评估,为那些没有较高风险的个体提供了心灵的平静,在某些情况下,还排除了剧烈的预防性治疗(例如,可选择的乳房切除术)。本发明的方法还可用来鉴定个体具有发展不利的,非疾病状态的升高的风险,由此激发生活方式的改变从而预防所述状态的发生。例如,包括与高血压相关的SNP组的多基因检测为那些已发现具有较高风险的个体提供了进行锻炼以及食用健康膳食的强烈动机。
仅根据在患者中明显的身体症状,某些疾病是难以诊断的。对这些疾病的诊断通常会被该疾病以多种方式在不同个体中的表现方式,和/或其症状类似于多种不相关疾病的症状的事实混淆。在本发明的又一方面,与这种疾病相关的SNP组合可用来协助对具有该疾病指示性表现型的个体进行诊断。因此,对相关SNP组进行个体的基因型分析以及确定个体表现出该疾病的风险可对由身体症状建议的诊断进行支持或反对。如果对诊断有所支持,医生就可以使用这一信息作出适于该个体的治疗决定,从而启动对该疾病的治疗。例如,脂泻病是破坏了小肠并干扰食物营养成分吸收的消化系统自身免疫紊乱。特别地,肠泄病会在小肠中引起对存在于小麦,黑麦和大麦中的面筋的炎症反应,对肠泄病唯一的治疗就是无面筋的膳食。因为不同的个体表现出了不同的症状,所以很难对肠泄病进行诊断。例如,一些人具有初级消化系统症状,如腹部扩张或腹泻,而其他人则仅易怒或抑郁。此外,该症状很容易被误诊,因为该症状类似于许多其他的病症,包括过敏性肠综合征,克罗恩氏病,溃疡性结肠炎,肠憩室病,肠感染。慢性疲劳综合征和抑郁。本发明的方法可用来鉴定与肠泄病相关的遗传座组,而这些座可用来对表现出肠泄病指示性症状的个体进行筛选。基于其遗传组成,那些被发现具有较高风险发展肠泄病的个体可被诊断为患有肠泄病并给予无面筋的膳食。
在其它实施方案中,本发明的方法可用来协助确定是否某种用来预防,例如个体中疾病发展的预防性治疗是有理由的。例如,预防乳腺癌的有效治疗方案依赖于临床病史信息,例如家族史,初潮时间,孩子数量等等。这些因素,尽管在计算检测前几率时是有用的,但在预测某位妇女是否会发展乳腺癌时仅具有微弱的作用。可与检测前几率组合使用的遗传检测将提供相当好的方式,通过提供更多的正确方式来鉴定和定量女性发展乳腺癌的风险,从而确定是否对该个体进行预防性治疗(例如,三苯氧胺)。
在本发明的一个方面,提供了预测性或诊断性分析,其含有包括探针的核酸阵列,该探针设计为对生物样品中存在的相关SNP组合进行测定的探针。从检测个体的生物样品中提取核酸,并将其与所述核酸阵列上的探针杂交。对探针强度进行分析从而提供了在每个相关SNP位点所述检测个体的基因型。将基因型可用来计算检测个体的评分,并根据本发明所述的方法测定个体发展所述疾病的风险。
还可以将相关SNP的组用于鉴定涉及疾病表现型发展的基因组区域。这些SNP可以直接涉及所述疾病的表现,或其可以与直接涉及的座处于连锁不平衡。例如,疾病相关的SNP可以直接影响疾病相关蛋白的表达或功能,或者可与影响该蛋白表达或功能的其他座形成连锁不平衡。直接影响蛋白的表达或功能的例子包括,但不限于,改变所述蛋白多肽序列的多态性,发生在调控区域(即,启动子,增强子,等等)导致所述蛋白表达升高或降低的多态性。在某些实施方案中,可对包含有相关SNP组的基因组区域进行分析从而鉴定直接参与所述疾病生物学基础的基因(“被鉴定的基因”)。
存在于基因编码区中的相关SNP可用作所述疾病的诊断标记对生物样品中的相关等位基因的表达进行检测和定量。例如,含有相关SNP的核酸可用作寡核苷酸探针对拟被检测的生物体或其部分,例如特定组织或器官中的RNA或mRNA水平进行监测,从而确定编码所述RNA或mRNA的基因是否含有相关的等位基因。在一方面,提供了含有寡核苷酸探针的诊断性或预测性试剂盒,在生物样品中对相关的等位基因进行检测。类似地,如果相关等位基因在所编码蛋白的多肽序列中引起了改变,那么就可以使用任一适当的技术,例如免疫学方法(例如,Western杂交,放射免疫沉淀等等)或测定与所述基因产物活性相关的基于活性的分析方法,在蛋白质水平对所述基因的等位基因组成进行分析。在一方面,提供了含有分析的诊断性或预测性试剂盒在生物样品中对相关的等位基因编码的多肽进行检测。对细胞中所存在特定核苷酸或多肽序列进行探测的方法已经建立,无须赘述,参见,例如Sambrook,et al,Molecular Cloning:A Laboratory Manual(Cold SpringHarbor Laboratory,New York)(2001)。
治疗方法
相关SNP组可用于开发适用于预防疾病的治疗方法。在一方面,所鉴定的基因可用于基因治疗。例如,如果所鉴定的基因在表现疾病的个体中是下调的,那么将该基因上调就是一种有效的策略来预防检测个体中疾病的发生。可以通过将不与疾病相关基因的等位基因整合入表达载体,并将该载体导入生物体中,由此在该生物体中将该基因的表达上调,实现对所鉴定基因的上调。这样的载体一般都在启动子序列附近具有方便的限制性位点从而在受体基因组中提供了核酸序列的插入。转录盒的制备可包括转录起始区域,靶基因或其片段,以及转录终止区域。转录盒可被导入多种载体中,例如,质粒;逆转录病毒,例如,慢病毒,腺病毒;等等,其中所述载体能够在细胞中瞬间或稳定维持。可通过任意的方式,包括病毒感染,微注射,或囊泡融合将所述基因或蛋白产物直接导入组织或宿主细胞。喷气注射也可用于进行肌内给药,如Furth Et al,Anal Biochem,205:365-68(1992)所述。或者,可将DNA包被在金微粒上,并通过文献中所述的微粒轰击装置或“基因枪”经皮内进行递送(参见,例如,Tang,et al,Nature,356:152-54(1992))。
如果在与该疾病易感性体质相关的蛋白序列中有氨基酸的改变,那么由所鉴定基因编码的蛋白就可以作为抗体治疗的靶位。例如,如果某个相关等位基因编码的蛋白变异体是引起该疾病的因素,那么就可将对该疾病相关蛋白变异体具有特异性的抗体施用给患者作为抑制该疾病发展的手段。在某些实施方案中,每一种对不同疾病相关蛋白具有特异性的抗体组合,可施用给患者从而预防疾病的发生。
反义分子可用于在细胞中对所鉴定基因相关的等位基因的表达进行下调。反义分子与基因等位基因所编码的mRNA形成双链,由此下调其表达并封闭了对应蛋白的翻译。例如,可以在由相关等位基因编码的mRNA序列基础上发展反义试剂。然后将这样的反义试剂施用给杂合子患者(拥有一个相关等位基因和一个与该疾病非相关的等位基因)来降低相关等位基因的表达,允许非相关等位基因的表达占主要。反义试剂可以是反义寡核苷酸,尤其是具有化学修饰的合成反义寡核苷酸,或表达这种反义分子的核酸构建体,如RNA。可将反义分子的组合给药,其中该组合可包括多种不同的序列。
作为反义抑制剂的替代物,催化核酸化合物,例如,核酶,反义轭合物等等可被用于抑制相关等位基因的表达。核酶可在体外合成并给药于患者,或可在表达载体上被编码,从中可在靶细胞中合成核酶(例如,参见国际专利申请WO 9523225号,和Beigelman,et al,Nucl AcidsRes 23:4434-42(1995))。具有催化活性寡核苷酸的例子在WO 9506764中已有描述。能够介导mRNA水解的具有金属复合物的反义寡核苷酸轭合物,例如,三联吡啶铜(II)在Bashkin,et al,Appl Biochem Biotechnol54:43-56(1995)中已有描述。
由所鉴定基因编码的表达蛋白可用于药物筛选分析,从而鉴定结合于所述蛋白产物,调节或模拟所述蛋白产物活性的配体或底物,由此鉴定出能在,受影响细胞中,例如,提供替换或增强蛋白功能,或调节或取消蛋白功能制剂的治疗剂。出于这一目的,可使用多种分析方法,包括标记的体外蛋白-蛋白结合分析,蛋白-DNA结合分析,电泳迁移率分析,蛋白结合的免疫分析,等等。在此使用的术语“制剂”描述的是任意分子,例如,可以直接或间接对所鉴定基因或基因产物的生理功能具有改变,模拟或屏蔽能力的蛋白或小分子。一般而言,可将所述制剂以不同浓度平行地进行多种分析,从而获得对于不同浓度的不同反应。通常,这些浓度中的一种可作为阴性对照,例如,为零浓度或低于检测水平。同样,全部或部分纯化蛋白变异体可用于测定三维晶体结构,其还可用于测定所述蛋白或其部分的生物学功能,建立分子相互作用的模型,膜融合模型,等等。
候选制剂包括多种化学类型,尽管通常是有机分子或复合物,优选的是分子量大于50小于2,500道尔顿的小有机化合物。候选制剂包括与蛋白进行结构上的相互作用必需的官能团,尤其是氢键,其通常包括至少一个胺,羰基,羟基或羧基,且通常是至少两个官能化学基团。候选制剂通常包括一个或多个上述官能团取代的碳环或杂环结构和/或芳香或多芳香结构。候选制剂还可在生物分子中发现,这些生物分子包括,但不限于:多肽,糖,脂肪酸,类固醇,嘌呤,嘧啶,衍生物,结构类似物或其组合。
可从多种来源,包括合成或天然化合物的文库中得到候选制剂。例如,有多种方法可方便地对多种有机化合物和生物分子进行随机和指导性合成,包括随机寡核苷酸和寡肽的表达。或者,以细菌,真菌,植物和动物提取物形式存在的天然化合物文库是可以获得并容易生产的。而且,通过常规的化学,物理和生物化学手段可对天然或合成生产的文库和化合物进行方便地修饰,并可用于生产组合文库。公知的药理学制剂可用来进行直接或随机的化学修饰,例如,酰化,烷基化,酯化,amidification,等来生产结构类似物。
当筛选分析是结合分析时,可将一种或多种分子轭合于标记,其中所述标记可直接或间接地提供可检测的信号。多种标记包括了放射性同位素,荧光剂,化学发光剂,酶,特异性结合分子,颗粒,例如磁颗粒,等等。特异性结合分子包括成对物质,例如生物素和抗生物素蛋白链菌素,地高辛和抗地高辛,等等。对特异性结合成分而言,其互补成分通常都标记有根据公知方法提供测定的分子。在所述筛选分析中还包括了多种其他试剂。这些包括有如盐,中性蛋白,例如,白蛋白,去污剂等等的试剂可用来协助最佳的蛋白-蛋白结合和/或降低非特异性或背景相互作用。还可以使用提高所述分析效率的试剂,例如,蛋白抑制剂,核酸酶抑制剂,抗微生物制剂等等。
制剂可与药物可接受的载体或稀释剂组合,包括任一和全部溶剂,分散介质,包衣剂,抗氧化剂,等渗剂和吸收延缓剂等等。制剂可与常规的添加剂,如乳糖,甘露醇,玉米淀粉或土豆淀粉;与粘合剂,如结晶纤维素,纤维素衍生物,阿拉伯树胶,玉米淀粉或明胶;与崩解剂,如玉米淀粉,土豆淀粉或羧甲基纤维素钠;与润滑剂,如滑石或硬脂酸镁;以及如果需要的话,与缓冲剂,湿润剂,防腐剂和调味剂组合。对这些具有药物活性物质的介质和制剂的使用在本领域内是公知的,并很容易为公众所获得。此外,药物可接受的辅助物质,例如pH调节剂和缓冲剂,强度调节剂,稳定剂,湿润剂等等都是很容易为公众所获得的。除了与所述活性成分不匹配的任意常规介质或制剂,其在治疗组合物和本发明所述方法中使用都被包括在内。还可在所述组合物中包括补充性的活性成分。
以下方法和赋型剂仅是示例性的并非以任何方式进行限制。所鉴定的本发明制剂可整合入多种配方中来进行治疗性给药。更特别地,通过与适当的,以上讨论的制药可接受的载体或稀释剂组合,所述复合物可被配制成药物组合物,且可以被配制成固体,半固体,液体或气体形式的制剂,例如片剂,胶囊,粉剂,颗粒,油膏,溶液,凝胶,微球体和气雾剂。而且,通过在水溶性或非水溶性溶剂,例如植物油或其他类似油,合成的脂肪酸甘油酯,高级脂肪酸酯或丙二醇中对其进行溶解,悬浮或乳化;如果需要的话,还可与常规添加剂,例如增溶剂,等渗剂,悬浮剂,乳化剂,稳定剂和防腐剂一起将制剂配制成用于注射的制剂。此外,可通过吸入将配制成气雾剂配方的制剂给药。通过本发明方法鉴定的所述制剂可被配制成压缩的可接受挥发剂,例如二氯二氟甲烷,丙烷,氮气等等。或者,通过与多种基质,例如乳化性基质或水溶性基质混合,并可包括载体,例如在体温融化而在室温为固体的可可脂,carbowaxes和聚乙二醇混合,可将制剂制备成适于直肠给药的栓剂。
适用于缓释配方的植入物在本领域中是公知的。植入物可被配制成具有生物降解或非生物降解聚合物的微球体,片等等。例如,乳酸和/或羟基乙酸的聚合物形成了宿主良好耐受的易蚀的聚合物。含有所鉴定制剂的植入物可放置于位置附近,从而使得该活性制剂的局部浓度相对于肌体的其他部分有所升高。还提供了适于口服或直肠给药的单位剂量形式,例如糖浆,酏剂和悬液,其中每种剂量单位,例如,茶匙,汤匙,凝胶胶囊,片剂或栓剂都包含预定量的本发明组合物。类似地,适于注射或静脉给药的单位剂量形式可包括如在无菌水中,常规盐水或其他药物可接受载体溶液中的以组合物形式存在的本发明化合物。适于新单位剂型的规格依赖于所使用的特定化合物和希望达到的效果,以及在宿主中与每种活性成分相关的药效学。
可以多种方式实现所述制剂的给药。所述制剂可通过吸入进行口服给药,或通过例如血管内,肿瘤内(intratumor),皮下,腹内,肌内等等方式进行注射。通过使用在植入位置发挥维持所述活性剂量的植入物,所述制剂可以是局部的,系统性的或定位的。所述治疗配方的剂量可随着所使用的具体制剂和配方,疾病的特征,给药的频率,给药的方式,制剂从宿主中被清除等等的变化而变化,因此足以对疾病或其症状进行治疗而同时将副作用降低到最低。在某些情况中,口服给药的剂量与静脉内给药的剂量并不相同。可将所述化合物以有效剂量给药,因此经过适当的时间该疾病的发展可被基本抑制。起始剂量可以较高,然后是较低的维持剂量。可采用不频繁的,如一天一次,一周一次或两周一次进行所述剂量的给药,或将其归为更小的剂量每天,或半周等等给药来维持有效的剂量水平。治疗可以是短期的,例如,在心室纤维性颤动之后,或长期的,例如,预防心室纤维性颤动的进一步发作。应该理解,为了进行体内使用,所述组合物的获得和使用都应该听从于医生的指导。
药物基因组学
在其他实施方案中,由本发明方法鉴定的相关SNP的组合可用于药物基因组学和药物发展。由于适合对常见多因素疾病进行的治疗选择数量巨大,通常很难确定哪一组治疗选择对给定的患者是最有效的。一般地,在确定哪一种选择是安全和有效的之前,需要尝试若干种选择。与此同时,患者还要继续遭受疾病的影响,并有可能经历由一种或多种治疗选择检测造成的副作用。本发明的方法可在启动治疗方案之前有效地对患者人群进行分类。所鉴定的多态座与患者对药物或其它医学治疗的反应相相关。所述反应可以是副作用或可与治疗的效率相关。将相关座用于对患者人群进行筛选从而获得与该患者相关座相关的遗传资料有助于帮助医生确定应该对哪些个体给药或给于医学治疗而哪些则不需要。例如,对表现出副作用具有易感性体质的个体和不太可能对药物具有有效反应的个体可被排除在该药物的治疗范围之外,而通过其他的方式(不同的药物或其它医学治疗)来进行治疗。
在一个这样的实施方案中,对个体进行了与疾病相关且具有对特殊药物治疗具有公知副作用风险的SNP组的筛选。将那些具有较高风险发展该疾病的个体从该治疗方案中排除出去。例如,当给药抗心律不齐药物时,具有LQTS(长QT综合征)的个体具有较高的心室纤维性颤动风险。有益处的是在给药这样的药物之前,对患者人群进行与LQTS相关座组合的筛选,并且将那些具有较高风险发展LQTS的个体排除出去。通过实施相关分析可以确定与该疾病相关的SNP组,且如上所述分析了该个体发展该疾病的风险。发展所述疾病的较高风险被认为是对抗心律不齐药物产生副作用的风险因素,而这一信息可为医生所用来确定适于该个体的适当治疗选择。例如,如果该个体具有较高的风险发展该疾病,那么就可以避免给药。如果该个体发展该疾病的风险较低,那么给药就是一种可能的治疗选择。
在本发明的另一实施方案中,可基于在与所述药物相关的SNP组合上个体的基因型对药物治疗方案对该个体的有效性进行预测。这一信息可用来确定是否该药物对该个体具有有效地治疗的可能性,或应该考虑其他的药物或治疗选择。例如,可以使用对药物没有有效反应的患者组个体(“无反应者”)和具有有效反应的对照组个体(“反应者”)实施相关分析。在多个SNP位置对患者组和对照组的个体进行基因型分析,并计算每个SNP的相对等位基因频率,由于那些SNP具有的等位基因频率差异在患者组和对照组中差异显著,鉴定出了与有效反应相关的SNP组合。基于在相关SNP上的基因型,对患者组和对照组中每个成员的评分进行计算,并将这些评分用来确定适于遗传检测的一个或多个适当的阈值,所述遗传检测能够预测某个个体对所述药物没有有效应答的风险。对适当阈值的确定还可包括一或多个以下内容:所述药物的临床知识,需要治疗的病症,患者人群,以及对该遗传检测的灵敏度,特异性,PPV,NPV,准确度,LR+和LR-的计算。在每一个相关SNP位置对接受药物的候选个体进行基因型分析,并基于在该SNP组他/她的基因型计算出该个体的评分。如果该个体的评分高于阈值,则该个体可被归为有可能成为未响应者,并可考虑其他的治疗方案。如果该个体的评分等于或低于阈值,则该个体可被归为有可能是响应者并推荐给药。在其他实施方案中,通过计算个体的相对风险并将该相对风险乘以基于该药物公知效率得到的未响应者的流行率,确定了该个体是未响应者的风险。在另一实施方案中,使用多基因检测的准确度,LR+,LR-,PPV和/或NPV计算出了个体是响应者的可能性。这一信息随后可为医生所用来确定适于该个体的适当治疗方式。
在相关的实施方案中,可对适于治疗范围的诊断进行发展从而使得医生能够更高对患者进行个性化治疗。与集中于单一药物不同,治疗领域诊断可提供可能性的信息,即患者可以是涉及单个治疗领域的一系列药物的响应者。例如,市场上有多种治疗抑郁的药物,包括SSRI(选择性血清素再摄入抑制剂),TCA(三环抗抑郁药),MAOI(单胺氧化酶抑制剂)和三唑吡啶(triazolopyridine)。还可以实施相关分析来鉴定与这些药物类型中的每一个的效率都相关的多态座,然后将这些作为用来筛选患者人群,从而确定哪一类药物对给定个体是最有效的座。对每一种药物而言,患者组包括对该药物具有有效反应的患有抑郁的患者,而对照组则包括对该药物没有有效反应的个体。由于那些SNP在患者组和对照组中具有显著差异的等位基因频率,可将相关的SNP鉴定出来。对每一类药物而言,阈值的确定将能鉴定个体有多高的几率(例如,>80%,或>90%或>95%,或>98%)具有有效的反应。对需要抗抑郁治疗的个体进行与每种药物类型相关SNP的筛选,而由医生在基于该个体基因型信息和对每类药物所确定的阈值对该个体的适当治疗选择作出决定。
在又一实施方案中,通过对患者人群进行分类,与药物效率相关的SNP可用来提高所述药物的效率从而将可能的未响应者排除在治疗之外。在一个实施例中,约32%暴露于药物患者被归为响应者。对响应者的患者组和未响应者的对照组进行了相关分析,发现有25个SNP与响应者的表现型相关。基于对患者和对照计算得到的评分,可以发现81%的响应者和40%的未响应者的评分都>19。因此,可以将19作为阈值在给药前对患者人群进行分类,将所述药物的总效率从约32%提高至约50%。在这种情况下,暴露于所述药物的未响应者数量大幅度降低,然后可对那些被排除出来的个体实施其他治疗方式的治疗。在这种程度上的效率改变可帮助新药获得批准,或鼓励已经批准药物更广泛地使用。
在又一个实施方案中,本发明的方法可用于评定是否应该使用商品药,还是使用更便宜的通用名药(generic drug)。例如,可实施相关分析来鉴定与对仿制替代物具有阳性临床反应相关的遗传座。随后对需要治疗的患者在这些相关座上进行基因型分析,并计算出评分。然后将该个体的评分用来预测在该个体内通用名药的效率,而医生也可以使用这一信息来作为对该个体进行治疗的决定。同样,所公开方法的应用还可用于对医疗费用补偿作出决定。例如,如果发现在个体A中通用名药不太可能有效,那么就应该对A给药商品药并将商品药的费用补偿给A;然而,如果个体B有可能对通用名药产生有效反应,那么个体B就不应该被给药更昂贵的商品药,就可以仅仅补偿通用名药的费用。
在本发明的其他实施方案中,基于在与药物相关副作用相关的SNP组合上对个体进行基因型分析,确定该个体会经历对给药所述药物产生副作用的风险。如果发现该个体具有较高风险经历对治疗方式产生的副作用,那么就可以避免使用该治疗方式而考虑其他的治疗选择。例如,可使用对药物表现出副作用个体的患者组和不表现出该副作用个体的对照组实施相关分析。在多个SNP位置对患者组和对照组的个体进行基因型分析,并计算每个SNP的相对等位基因频率,由于那些具有等位基因频率差异的SNP在患者组和对照组中差异显著,鉴定出了与副作用相关的SNP组合。根据在其相关SNP上的基因型,计算出患者组和对照组中每个成员的评分,并将这些评分用于确定适于多基因检测的一个或多个阈值,该多基因检测可以适当水平灵敏度,特异性,PPV,NPV,LR+,LR-和/或准确度预测个体经历对所述药物产生的副作用的风险。如上所述,可以根据临床因素,例如副作用的严重程度,需要治疗的疾病或病症,以及需要治疗的患者的病史对阈值进行选择。例如,如果副作用是死亡的话,那么较高的灵敏度对于鉴定那些一旦给药了所述药物就具有较高死亡可能性个体是至关重要的。在接受所述药物之前,在每个相关SNP位置对个体进行基因型分析,并根据在该SNP组合他/她的基因型计算出该个体的评分。例如,如果该个体的评分高于对患者组和对照组测定的评分,则该个体可被归为一旦给药的就有可能经历副作用的个体,同时可以避免使用药物。如果该个体的评分等于或低于阈值,则该个体可被归为不太可能遭受副作用的个体,同时推荐给药。如果该个体的评分低于或等于一个阈值同时又大于另一个阈值,那么该个体可被归为具有中等可能性经历副作用,同时可使用其他药物治疗,或给药其他药物,例如,仅与严密的监测,或与其他治疗剂组合来中和所述副作用。确定适于具有中等风险经历副作用个体的最佳治疗方案比确定适于具有极高或极低风险个体的最佳治疗方案更依赖于其他信息(例如,临床信息,FDA情况或患者信息,等等)。在又一实施方案中,可通过计算个体的相对风险,并将该相对风险乘以公知的个体经历副作用的流行率,来确定个体经历副作用的风险。这一信息随后可为医生所用,来决定适于该个体的适当治疗方式。对于给药产生的副作用包括,但不限于,过敏反应,心脏心律不齐,中风,支气管痉挛,胃肠紊乱,昏厥,阳萎,皮疹,发烧,肌肉疼痛,头痛,恶心,出生缺陷,潮热,情绪变化,眩晕,激动,呕吐,睡眠紊乱,嗜眠,失眠,对药物成瘾和死亡。
在一个相关实施方案中,可将与药物安全相关的SNP用于提高通过对患者人群进行分类获得的药物安全性,从而将那些有可能表现出对给药所述药物产生副作用的个体排除在治疗范围之外。在一个实施例中,发现一种新药具有极好的效率,耐受和方便性,然而,4%使用所述药物治疗的个体经历了严重的副作用,且这种副作用的发生将该药物的使用仅限制在,例如,那些其他治疗都失败的个体内。然而,管理结构约定如果可将副作用的发生降低至少50%,就可以批准该药物具有更广泛的应用。如果在治疗前对有可能经历副作用的个体进行鉴定,这就是可以达到的,所以对经历副作用个体的患者组和没有鉴定与该副作用相关的20个SNP的个体的对照组实施了相关分析。对该相关分析的结果如表3所示,第一列所示为风险边界值,第二列所示为评分高于对应风险边界值的患者百分数,第三列所示为评分高于对应风险边界值的对照百分数,第四列为相对风险,第五列为灵敏度百分数,第六列为特异性百分数,第七列为PPV(为百分数),第八列为NPV(为百分数)。
表3
  风险边界值   %患者   %对照   相对风险   灵敏度   特异性   PPV   NPV
  20   40.0%   2.8%   14.2   40.0%   97.2%   37.3%   97.5%
  19   51.6%   5.6%   9.2   51.6%   94.4%   27.7%   97.9%
  18   58.0%   9.9%   5.4   58.0%   90.1%   19.6%   98.1%
  16   75.0%   28.5%   2.5   75.0%   71.5%   9.9%   98.6%
  15   91.2%   39.8%   2.3   91.2%   60.2%   8.7%   99.4%
使用这些值,发现使用19为阈值可以排除了大约51.6%对副作用具有最高风险的患者,与此同时只排除了5.6%可受益于所述药物的患者。因此,如果使用19为阈值对1000个患者进行筛选,并假设其中4%的患者都具有较高风险经历所述副作用,则可以排除74[(1000)(0.04)(0.516)+(1000)(0.96)(0.056)]个个体,并对剩余的926个个体进行治疗。那些经过治疗个体的副作用风险因此为[(1000)(0.04)(1-0.516)/926=0.02],或者2%。因此,使用19为阈值在给药所述药物之前的诊断中对患者人群进行分类可以将副作用发生从4%降低至2%,由此使得所述药物可更广泛的使用。类似地,18也可用作阈值,其可将23/1000个体排除,并导致在接受治疗的个体中与其副作用的发生为1.9%。然而,这种副作用发生的降低伴随着该检测特异性和PPV的同时降低。对适当风险/受益诊断阈值的选择不仅需要关于检测本身的信息(特异性,灵敏度,PPV,NPV,等),还需要本发明方法实施者与管理机构(例如,FDA)以及基于医疗机构的判断之间的相互作用。这种药物基因组学检测的目的在于最大化NPV(在接受治疗的个体中降低副作用的发生)同时平衡PPV(将所排除的受益于所述药物的患者最小化)。使用本发明的方法来降低副作用的频率可以帮助新药得到批准,或鼓励已经批准药物的更广泛使用。例如,通过将这样的诊断与药物结合,有可能将副作用的频率降低至商业可接受的水平,从而有效地拯救将不被批准的药物。
对本领域所属技术人员显而易见的是,与药物结合的用于诊断批准的适当阈值主要依赖于药物提供者(例如,制药公司)和管理机构(例如,F.D.A)之间的协商。这是关于所述诊断能否提高药物效率或安全性的情况。例如,尽管在上述实施例中副作用的频率低于2%,管理机构会要求更加严谨的安全水平,因此会得到更低的阈值来鉴定从该药物治疗中排除的个体,由此牺牲PPV而获得更高的NPV。
在某些方面,本发明提供了极大改进的方法来测定个体发展或表现出多因素性状的风险。在某些方面,所述方法可进一步用来发展针对多因素疾病的预防,诊断或治疗。在其他方面,该方法还可进一步用来在给药治疗方案之前预测个体的药物反应。通过提供对个体进行快速寻找正确医疗干预(最有效,最安全,最便宜,等等)的手段,本发明的方法还可进一步帮助降低医疗的总开销,因此不会将宝贵的时间和金钱浪费在有限价值的治疗中。应该理解以上描述旨在进行说明而非进行限制。在不偏离本发明范围和精神的情况下,对已公开的发明所采取的多种实施方案和修改对本领域所属技术人员而言也是显而易见的。本发明的范围,因此,并不是参照以上说明来确定的,而是参照所附的权利要求,以及这些权利要求所要求的等同变换的全部范围来确定的。本文提到的所有出版物都被作为说明性的目的进行引用,而且公开的试剂,方法学和概念都可与本发明结合使用。本文中没有任何内容被认为涉及了本发明的现有技术。在整个公开内容中,参考了多个专利,专利申请和专利公开。除非另有说明,出于所有目的将其每一个都全文引用作为参考。

Claims (64)

1.评估个体发展或表现出多因素性状可能性的方法,包括:
a)在多个双等位基因多态座上测定所述个体的基因型,其中所述多个双等位基因的每一个都有一个相关等位基因和一个非相关的等位基因,且更进一步其中的基因型选自相关等位基因的纯合子,杂合子和非相关等位基因的纯合子;
b)根据在步骤a)中确定的基因型计算所述个体的评分;
c)将所述评分与至少一个阈值进行比较,其中所述比较可用来评估该个体发展或表现出所述多因素性状的可能性,并进一步确定所述个体的适当治疗过程。
2.权利要求1的方法,还包括对表现出多因素性状的患者组和未表现出多因素性状的对照组实施相关分析鉴定出多个双等位基因多态座的相关等位基因和非相关等位基因,从而确定出在患者组中丰度明显高于对照组中的所述多态座的等位基因组合,其中所述等位基因组或其亚组也是相关等位基因。
3.权利要求2的方法,其中每个患者组和对照组包含至少50个个体。
4.权利要求2的方法,其中所述患者组和所述对照组至少之一包含至少100个个体。
5.权利要求2的方法,其中所述患者组和对照组至少之一包含至少200个个体。
6.权利要求2的方法,其中所述患者组和对照组至少之一包含至少500个个体。
7.权利要求2的方法,其中所述患者组和对照组包括为哺乳动物,爬行动物,两栖动物,鱼类,鸟类,甲壳类动物,昆虫,植物,细菌,病毒或古细菌的个体。
8.权利要求2的方法,其中所述患者组和对照组包括人类个体。
9.权利要求2的方法,其中在实施相关分析之前所述患者组和所述对照组是匹配的。
10.权利要求2的方法,其中所述实施相关分析还包括:
a)在包含所述多个双等位基因多态座的多态座组合上对患者组和对照组进行基因型分析;
b)计算每个所述患者组和所述对照组在每个所述多态座组合上的相对等位基因频率;
c)对每个多态座组合而言,将对患者组计算出的相对等位基因频率和对对照组计算出的相对等位基因频率进行比较,从而鉴定出所述多态座组合的亚组,其中每个所述亚组在患者组中的相对等位基因频率与在对照组中的相对等位基因频率具有显著差异;以及
d)确定在所述患者组中丰度高于对照组中的每个亚组的等位基因,其中所述等位基因也是所述相关等位基因之一。
11.权利要求10的方法,其中的多态座组合包含至少约500个多态座。
12.权利要求10的方法,其中的多态座组合包含至少约1000个多态座。
13.权利要求10的方法,其中的多态座组合包含至少约10,000个多态座。
14.权利要求10的方法,其中的多态座组合包含至少约100,000个多态座。
15.权利要求10的方法,其中的多态座组合包含至少约1,000,000个多态座。
16.权利要求10的方法,其中的多态座组合包括来自所述个体基因组中一条或多条染色体的多态座。
17.权利要求10的方法,其中的多态座组合包括来自所述个体基因组中每一条染色体的多态座。
18.权利要求10的方法,其中的多态座组合包括来自所述个体基因组中每一条染色体的多个多态座。
19.权利要求2的方法,其中使用个体基因型分析方法来实施所述相关分析。
20.权利要求2的方法,其中使用混合基因型分析方法来实施所述相关分析。
21.权利要求20的方法,还包括使用个体基因型分析方法对所述患者组和所述对照组实施第二相关分析对所述相关等位基因进行验证,从而根据所述第二相关分析确定哪些所述的相关等位基因在患者组中的丰度显著高于在对照组中的丰度,其中根据第二相关分析得到的在患者组中的丰度显著高于所述对照组中丰度的那些相关等位基因是验证的相关等位基因。
22.权利要求2的方法,还包括对表现出所述多因素性状的第二患者组和未表现出所述多因素性状的第二对照组实施第二相关分析来对所述相关等位基因进行验证,从而确定出哪些所述的相关等位基因在第二患者组中的丰度显著高于在第二对照组中的丰度,其中在第二患者组中的丰度显著高于第二对照组中丰度的那些所述的相关等位基因是验证的相关等位基因。
23.权利要求2的方法,还包括通过含有以下步骤的方法确定所述至少一个阈值中的一个:
a)计算所述患者组和对照组中每个成员的评分;
b)选择一系列风险边界值;
c)对每个所述的系列的风险边界值计算出一组值,其中所述组值包括灵敏度,特异性,PPV,NPV,准确度,相对风险,LR+和LR-中的至少一个;
d)根据所述组值选择一个所述系列的风险边界值作为所述至少一个阈值中的一个,从而确定所述至少一个阈值的所述的一个。
24.权利23的方法,其中计算所述患者组和对照组中每个成员的评分,包括:
a)在所述多个双等位基因多态座上确定所述每个成员的基因型,其中所述基因型选自相关等位基因的纯合子,杂合子和非相关的等位基因的纯合子;
b)将基因型为非相关等位基因纯合子的每个所述多态座赋值为0;
c)将基因型为杂合子的每个所述多态座赋值为1;
d)将基因型为相关等位基因纯合子的每个所述多态座赋值为2;
e)将全部所述多态座在步骤a)至c)中所确定的值求和,从而对所述患者组和所述对照组中的所述每个成员计算出评分。
25.权利要求23的方法,其中所述选择一系列风险边界值包括:
从对所述患者组和所述对照组的每个成员计算的评分中鉴定出一个最高评分;
确定一个风险边界范围,其中所述范围从1到所述所述最高评分;
从交叉的风险边界范围中选择一系列值,从而选出所述的系列风险边界值。
26.权利要求25的方法,其中所述的从交叉的风险边界范围中选择所述系列值包括选自如下的方法:
选择风险边界范围内的每一个值;
选择风险边界范围内的每一第n个值;
将风险边界范围分成百分数并选择每一第n百分数的风险边界范围的值;
从风险边界范围的中部选出比从该风险边界范围顶部或底部更多的值;以及
从风险边界范围的顶部或底部选出比从该风险边界范围中部更多的值。
27.权利要求23的方法,其中对给定风险边界而言,通过确定评分高于所述给定风险边界值的所述患者组中的所述成员的比例计算所述灵敏度,其中所述比例是针对所述给定风险边界值的灵敏度。
28.权利要求23的方法,其中对给定风险边界而言,通过确定评分等于或低于所述给定风险边界值的所述对照组中的所述成员的比例计算所述特异性,其中所述比例是针对所述给定风险边界值的特异性。
29.权利要求23的方法,其中确定所述至少一个阈值中的所述的一个还包括使用至少一个所述多因素性状和所述个体的现有临床知识。
30.权利要求29的方法,其中所述现有临床知识包括该多因素性状的严重程度。
31.权利要求29的方法,其中所述现有临床知识包括所述多因素性状的流行率。
32.权利要求23方法,其中所述确定所述至少一个阈值中的所述的一个还包括使用基于c)中计算的所述灵敏度和特异性的ROC曲线,其中所述ROC曲线的图表呈现方式是图。
33.权利要求32方法,其中所述确定所述至少一个阈值中的所述的一个还包括从最接近所述图左上角的所述ROC曲线部分选择所述至少一个阈值中的所述的一个。
34.权利要求33方法,其中所述部分包括所述ROC曲线的约20%。
35.权利要求32方法,还包括选择对应于比所述ROC曲线上任意其它数据点更接近所述图左上角的所述ROC曲线的数据点的风险边界值作为所述至少一个阈值中的所述一个,其中所述ROC曲线上的每个数据点对应于不同的风险边界值。
36.权利要求32的方法,还包括:
a)确定所述ROC曲线上最接近所述图左上角的位置并确定对应于所位置的灵敏度和特异性;
b)分析所述患者组和所述对照组每个成员的所述评分,从而鉴定出灵敏度和特异性与对应于所述位置的灵敏度和特异性最接近的风险边界值,其中灵敏度和特异性与对应于所述位置的灵敏度和特异性最接近的所述风险边界值是所述至少一个阈值中的一个。
37.权利要求32的方法,其中对给定的风险边界值而言,通过包括以下步骤的方法计算所述的相对风险:
a)测定评分至少与所述给定风险边界值一样大的所述患者组的所述成员的百分数;
b)测定评分至少与所述给定风险边界值一样大的所述对照组的所述成员的百分数;以及
c)用在a)中确定的所述百分数除以在b)中确定的所述百分数来计算所述相对风险。
38.权利要求37的方法,还包括将所述相对风险乘以所述多因素性状的流行率来计算评分等于给定风险边界值的给定个体发展或表现出所述多因素性状的风险。
39.权利要求23的方法,其中对给定风险边界值而言,通过将评分高于所述给定风险边界值的所述患者组的成员的数量除以评分高于所述给定风险边界值的所述患者组和所述对照组中的成员的数量计算所述PPV。
40.权利要求23的方法,其中对给定风险边界而言,通过将评分低于所述给定风险边界值的所述对照组中的成员的数量除以评分低于所述给定风险边界值的所述患者组和所述对照组中的成员的数量计算所述NPV。
41.权利要求1的方法,其中所述多态座是SNP。
42.权利要求1的方法,其中所述个体选自哺乳动物,爬行动物,两栖动物,鱼类,鸟类,甲壳类动物,昆虫,植物,细菌,病毒和古细菌。
43.权利要求1的方法,其中所述个体是人类。
44.权利要求1的方法,其中所述评分的计算还包括:
a)将基因型为非相关等位基因的纯合子的每个所述多态座赋值为0;
b)将基因型为杂合子的每个所述多态座赋值为1;
c)将基因型为相关等位基因纯合子的每个所述多态座赋值为2;
d)将全部所述多态座在步骤a)至c)中所确定的值求和,从而
计算出所述个体的评分。
45.权利要求1的方法,其中所述多因素性状是疾病。
46.权利要求45的方法,还包括如果所述评分高于所述至少一个阈值中的一个,采取措施来预防所述疾病。
47.权利要求45的方法,其中所述疾病对药物的不良反应具有公知的风险。
48.权利要求47的方法,还包括如果所述评分高于所述至少一个阈值中的一个,将所述个体排除在用所述药物治疗之外。
49.权利要求45的方法,其中所述个体具有所述疾病的家族史。
50.权利要求45的方法,其中所述个体表现出所述疾病的症状。
51.权利要求1的方法,其中所述多因素性状是对药物的反应。
52.权利要求51的方法,其中所述反应是对所述药物缺乏有效反应。
53.权利要求52的方法,还包括如果所述评分高于所述至少一个阈值中的一个,将所述个体排除在用所述药物治疗之外。
54.权利要求51的方法,其中所述反应是由所述药物的给药引起的副作用。
55.权利要求54的方法,还包括如果所述评分高于所述至少一个阈值中的一个,将所述个体排除在用所述药物治疗之外。
56.权利要求51的方法,其中所述反应是对通用名药的有效反应,其中所述通用名药在含有至少一种商品药的药物族中,且其中所述个体对所述通用名药具有有效反应的可能性被用来确定是否可将所述通用名药施用给所述个体。
57.权利要求51的方法,其中所述反应是对通用名药的有效反应,其中所述通用名药在含有至少一种商品药的药物族中,且其中所述个体对所述通用名药具有有效反应的可能性被用来确定用所述商品名药的治疗是否可以得到补偿。
58.权利要求1的方法,其中所述比较揭示所述评分大于所述至少一个阈值中的一个,且所述个体被评估为有可能表现出多因素性状。
59.权利要求1的方法,其中所述比较揭示所述评分低于或等于所述至少一个阈值中的一个,且所述个体被评估为不可能表现出多因素性状。
60.权利要求1的方法,其中所述比较揭示所述评分低于或等于所述至少一个阈值中的第一个且大于所述至少一个阈值中的第二个,还包括使用其他因素来确定对所述个体的适当的治疗过程。
61.权利要求60的方法,其中所述其他因素包括选自关于所述多因素性状的信息,关于所述个体的信息,关于潜在治疗选择的信息,来自所述个体的信息,以及来自管理机构的信息中的至少一个因素。
62.诊断或预防分析,包括设计用来在生物样品中测定权利要求1所述的相关基因的核酸探针。
63.权利要求62的分析,其中所述探针结合于固体基质。
64.评估个体发展或表现多因素性状可能性的方法,包括:
a)在多个双等位基因多态座确定所述个体的基因型,其中每个所述多个双等位基因都有一个相关等位基因和一个非相关等位基因,进而其中的基因型选自相关等位基因的纯合子,杂合子,和非相关等位基因的纯合子,且其中用表现多因素性状的患者组和未表现多因素性状的对照组实施相关分析,鉴定所述相关等位基因和所述非相关等位基因,从而确定出在患者组中丰度显著高于对照组的所述多态座的等位基因组合,其中所述等位基因组是相关的等位基因,并且其中在实施相关分析之前所述患者组和所述对照组是匹配的;
b)根据a)中确定的所述基因型计算所述个体的评分,其中所述评分的计算还包括将基因型为非相关等位基因纯合子的每个所述的多态座赋值为0;将基因型为杂合子的每个多态座赋值为1;将基因型为相关等位基因纯合子的每个所述多态座赋值为2;并对全部所述多态座的赋值求和,从而计算出每个成员的评分;以及
c)将评分与至少一个阈值进行比较,其中所述比较可用于确定所述个体的适当治疗过程,其中通过含有以下步骤的方法确定所述至少一个阈值中的每一个:计算所述患者组和所述对照组中每个成员的评分;选择一系列风险边界值;汇编信息,其中所述信息包括灵敏度,特异性,PPV,NPV,准确度,相对风险,LR+,LR-,关于所述多因素性状的临床信息,关于所述个体的临床信息,关于潜在治疗选择的临床信息,以及来自至少一个管理机构的信息中的至少一个;根据所述信息选择所述系列的风险边界值中的一个作为所述至少一个阈值中的所述的每一个,从而确定所述至少一个阈值中的所述的每一个。
CNA2005800142868A 2004-03-05 2005-03-03 遗传分析的方法 Pending CN1950826A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US55066204P 2004-03-05 2004-03-05
US60/550,662 2004-03-05
US60/566,302 2004-04-28
US60/590,534 2004-07-22
US10/956,224 2004-09-30

Publications (1)

Publication Number Publication Date
CN1950826A true CN1950826A (zh) 2007-04-18

Family

ID=38019396

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800142868A Pending CN1950826A (zh) 2004-03-05 2005-03-03 遗传分析的方法

Country Status (1)

Country Link
CN (1) CN1950826A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201393A (zh) * 2010-11-01 2013-07-10 霍夫曼-拉罗奇有限公司 使用多基因计分预测向晚期老年性黄斑变性的进展
CN104114717A (zh) * 2011-12-20 2014-10-22 基因奥尼克斯有限公司 利用遗传分析的产品选择
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103201393A (zh) * 2010-11-01 2013-07-10 霍夫曼-拉罗奇有限公司 使用多基因计分预测向晚期老年性黄斑变性的进展
CN103201393B (zh) * 2010-11-01 2019-01-18 霍夫曼-拉罗奇有限公司 使用多基因计分预测向晚期老年性黄斑变性的进展
CN104114717A (zh) * 2011-12-20 2014-10-22 基因奥尼克斯有限公司 利用遗传分析的产品选择
CN110400597A (zh) * 2018-04-23 2019-11-01 成都二十三魔方生物科技有限公司 一种基于深度学习的基因型预测方法

Similar Documents

Publication Publication Date Title
US11282610B2 (en) Cancer evolution detection and diagnostic
Shen et al. Genetic analysis of quantitative phenotypes in AD and MCI: imaging, cognition and biomarkers
JP2016082984A (ja) 遺伝子分析のための方法
EP2198381B1 (en) Methods for genetic analysis
TWI287975B (en) Methods for predicting an individual's clinical treatment outcome from sampling a group of patients' biological profiles
Simon Genomic biomarkers in predictive medicine. An interim analysis
WO2020242976A1 (en) Methods for diagnosis of polygenic diseases and phenotypes from genetic variation
Abrahams et al. The history of personalized medicine
Caskey Using genetic diagnosis to determine individual therapeutic utility
Meyer Personalized medicine: a personal view
Jain et al. Predictive genomic tools in disease stratification and targeted prevention: a recent update in personalized therapy advancements
US20050136438A1 (en) Genetic analysis for stratification of cancer risk
Mosharaf et al. Meta-data analysis to explore the hub of the hub-genes that influence SARS-CoV-2 infections highlighting their pathogenetic processes and drugs repurposing
CN1950826A (zh) 遗传分析的方法
JP2007535305A (ja) 分子毒性モデリングのための方法
Kechin et al. BRACNAC: A BRCA1 and BRCA2 Copy Number Alteration Caller from Next-Generation Sequencing Data
Zhang et al. Enhancing Chemotherapy Response Prediction via Matched Colorectal Tumor-Organoid Gene Expression Analysis and Network-Based Biomarker Selection
Xie Computational methods for inferring regulatory mechanisms from sequence and expression variation
Dey Intelligent Signal Processing and Data Analysis
Zhang et al. Exploring the evolutionary history of the differentially expressed genes between human populations: Action of recent positive selection
Kim et al. Semantic networks for genome-wide CNV associated with AST and ALT in Korean cohorts
Peer et al. Personalized Therapeutics
McKay Future of Personalized Medicine: moving from art to science

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070418