CN107475371B

CN107475371B - 发现药物基因组生物标志物的方法

Info

Publication number: CN107475371B
Application number: CN201710590820.4A
Authority: CN
Inventors: 罗文�
Original assignee: Hangzhou Suoyuan Biomedical Co Ltd
Current assignee: Hangzhou Suoyuan Biomedical Co Ltd
Priority date: 2011-01-31
Filing date: 2012-01-30
Publication date: 2021-06-11
Anticipated expiration: 2032-01-30
Also published as: EP2707498A1; US20140031242A1; JP2014506459A; JP2016214257A; JP2018148930A; KR20140040700A; KR102006417B1; WO2012106267A1; EP2707498B1; SG192202A1; CN103270176A; AU2012212499A1; IL227696A0; JP6440658B2; US20210108266A1; MX2013008846A; CN107475371A; CA2826109A1

Abstract

本分案申请涉及发现药物基因组生物标志物的方法，所述药物基因组生物标志物与针对治疗剂的各种个体反应(有效性、副作用、及其他终点)相关。本发明提供使用存档临床样本进行全基因组关联研究的方式，以识别新型药物基因组生物标志物。新发现的生物标志物能够被纳入伴随诊断测试中，其有助于预测药物反应，和仅对将受益于治疗的人群用药，或排除那些可能对所述治疗产生副作用的人群。

Description

发现药物基因组生物标志物的方法

本申请为申请号201280002881.X、申请日2012-01-30、发明名称“发现药物基因组生物标志物的方法”的中国发明专利申请的分案申请。

相关专利申请

本发明要求2011年1月31日在美国临时专利申请第61/437,788的权益，该申请的全部内容，包括所有附图和公开的文件以引用的方式并入本文。

技术领域

本发明涉及发现药物基因组生物标志物的方法，所述生物标志物能够结合到伴随诊断测试中，以便预测针对治疗剂的各种个体反应(有效性、副反应或其它)。

发明背景

在“一种药物适应所有病症”的范例下，制药工业已经在操作多年。但是，仅有少数种类药物能够针对所有的患者具有广泛的效力，且其中的一些会在一定的患者人群中引起副作用。除了昂贵的研发费用以及FDA严格的检验标准之外，上述障碍已经导致了许多新研制的药物不能够投放市场。因此，鉴定能够预知药物应答反应性的药物基因组生物标志物，将是能够开发这些失败药物的潜在价值的理想解决方案。

同时，随着HapMap项目的完成和微阵技术的快速发展，遗传多态性的全基因组扫描已经成为常规事务。已成功实施数百例的全基因组关联分析(GWAS)，并且发现大量的已知的和新的与普通疾病相关联的遗传学变体，这些疾病例如心血管疾病、糖尿病等。这项技术为鉴别与药物反应相关的遗传学多态性提供了强大工具。但是，Guessous等人研究了三百组的GWAS分析，其中仅有12组是药物基因组研究(Genome Med(2009)1:46)。这12组研究中，其中仅有2组是用于临床试验的。明显地，与学术研究相比，制药公司接受这项新技术的进程非常缓慢。普遍接受的原因之一是制药公司仅认识到需要在临床试验完成之后进行这样的研究，但在这个时候实际为时已晚，因为没有在试验过程中收集适当的样本。这项方案对于可以预见的未来是不会改变的，直到制药工业广泛采用药物基因组学的概念，并且在开始临床试验之前加入生物标志物。

尽管在技术上的花费及成果都在增加，许多新开发的药物会在临床试验的第三阶段失败，大多数是由于对所有患病人群缺少显著有效性或者令人不满意的安全性。但是，许多失败的药物仍旧能够使患病人群中的一个子集受益，或者仅在少数患者中产生副作用。与“旧”的候基因方法相比，GWAS不是假说，也不需要所研究的临床终端所涉及的现有知识的机制。阵列技术的进步使得一百万或者更多的SNP成为可能，其能够在一个单阵列中覆盖整个人类基因组。因此，GWAS是搜寻药物特异性药物基因组生物标志物的理想选择。

广泛用于GWAS的基因组DNA的源是富含DNA的组织/细胞，例如全血，其能够产生充足的高质量的基因组DNA。但是，多数制药公司没有将药物基因组分析加入到他们的临床试验中。因此，通常没有专门为GWAS研究收集的样本。在许多情况下，可能存在为其他目的而收集的人类样本，例如(为病理学)的活组织检查样本和(用于药物代谢动力学研究的)血浆样本。这些剩余的样本潜在地能够用于得到基因组DNA。有些报告显示基因组DNA能够从血浆样本中提取并在少量SNP成功地基因分型(Sjoholm等，Cancer Epidemiol BiomarkersPrev(2005)14:251；Lu等，Biotechniques(2005)39:511；Park等，Clin Chem(2005)51:1520；Bergen等，Hum Mutat(2005)26:262)。但是，由于不当的处理和保存，来自存档临床样本的基因组DNA的数量和质量不甚理想，尤其是用于GWAS。实际上，在已经发表关于使用在高密度SNP阵列上从血浆样本提取的基因组DNA的若干报道当中，作者认为来自这些样本的DNA质量非常“差”并且它们也许不能够成功地进行GWAS(Croft等，J Mol Diagn(2008)10:249；Bucasas等，BMC Genet(2009)10:85)。仅有的成功进行的GWAS使用的是干燥的血斑样本(Hollegaard等，BMC Genomics(2009)10:297-302)或患者血液(Singer等，Nat Genet(2010)42:711-714)。因此，根据我们的知识，没有人曾经试图使用来自存档临床样本的基因组DNA进行成功的GWAS。

发明概述

虽然已公开的大部分GWAS致力于在精心设计的研究中使用高质量DNA的专用样本(例如全血)发现常见疾病的致病基因变异体，此项强大技术的应用已很少被纳入新药物的临床试验，并且因此在药物基因组研究中取得的成功非常有限。目前的共识是仅能够使用丰富的高质量基因组DNA进行成功的GWAS，次优基因组DNA和/或全基因组扩增DNA在GWAS中是被劝阻或放弃的。本发明描述发现药物基因组生物标志物的方法，利用次优基因组DNA通过GWAS预测药物反应，次优基因组DNA例如从已存档的临床样本中提取的基因组DNA。

在一个方面中，本发明提供一种方法来标识一个或多个药物基因组生物标志物，该方法包括：a)来自显示相关表型的不同数值的至少两个换着的存档临床样本的分离DNA；b)扩增所述分离的DNA；c)获得所述扩增DNA的高密度基因分型数据；以及D)基于所述基因分型数据和所述相关表型的不同数值进行关联分析，其中，所述药物基因组生物标志物被识别。

在一些实施方式中，存档的临床样本可以选自血浆样本、血清样本、干血点、尿液样本、组织样本、肿瘤细胞及颊拭子样本。在一些实施方式中，存档的临床样本可以是血浆样本。在一些实施方式中，存档的临床样本可以来自约2至1000名或更多的患者。

在一些实施方式中，分离的DNA可以是次优基因组DNA。在一些实施方式中，扩增可以是全基因组扩增(WGA)，所得DNA可以是全基因组扩增DNA(wgaDNA)。在一些实施方式中，高密度基因分型可以是全基因组基因分型。在一些实施方式中，可以通过使用单核苷酸多态性(SNP)进行高密度基因分型。在一些实施方式中，约1,000-5,000,000或更多，优选约1,000,000，单核苷酸多态性可以用于高密度基因分型。在一些实施方式中，高密度基因分型可以基于阵列。

在一些实施方式中，可以通过使用全基因组基因型检出算法获得基因分型数据。在一些实施方式中，该方法还可以包括：e)调整全基因组基因型检出算法的检出率临界值。在一些实施方式中，步骤d)和步骤e)可以被重复进行多次，以包括和/或排除样本，并对全基因组基因型检出算法进行优化。在一些实施方式中，全基因组基因型检出算法的优化列入标准可以被识别。在一些实施方式中，可通过使用检出率临界值进行基因型检出，该检出率临界值低于用于高质量基因组DNA的全基因组基因分型典型检出率临界值——可以是约50％、60％、70％、80％、90％或95％。在一些实施方式中，基因型的检出是由AffymetrixGenotyping ConsoleTM软件生成。在一些实施方式中，基因型检出是使用BRLMM算法生成。在一些实施方式中，基因型检出利用归责算法，其中HapMap可用于归责算法。

在一些实施方式中，关联分析可以是GWAS。在一些实施方式中，可以通过计算每个单核苷酸多态性与相关表型相关联的p-值进行关联分析。在一些实施方式中，可以基于等位基因频率和/或基于基因型的测试进行计算。在一些实施方式中，相关表型可以是分类特征、定量特征或另一个相关表型。

在一些实施方式中，方法还可以包括，使用已识别的药物基因组生物标志物根据额外的基因分型数据进行关联分析。在一些实施方式中，约1500或更多的已识别的药物基因组生物标志物可以用于额外的基因分型。在一些实施方式中，来自步骤a)的某些或所有的存档的临床样本和/或附加的临床样本可以用于额外的基因分型。在一些实施方式中，通过使用核查基因型检出算法获得额外的基因分型数据。在一些实施方式中，该方法还包括调整核查基因型检出算法的检出率临界值。在一些实施方式中，基因分型及调整检出率临界值可以重复多次以包括或排除样品。在一些实施方式中，确定最优列入标准用于核查基因型检出算法。在一些实施方式中，该方法还可以包括还包括将通过使用验证基因型检出算法获得的附加基因分型数据与通过使用全基因组基因型检出算法获得的基因分型数据相比较。在一些实施方式中，可以识别来自步骤d)的药物基因组生物标志物的一个子集。

在一些实施方式中，所述方法可用于存档的临床样本的回顾性研究，所述临床样本来自之前进行的临床试验。在一些实施方式中，该方法可以用于重复鉴定药物基因组生物标志物。

在另一个方面，本文提供由本文所公开的方法识别的一种药物基因组生物标志物，或一种药物基因组生物标志物，其中所述生物标志物可以是一个或多个SNP。在一些实施方式中，药物基因组生物标志物可用于识别一个或多个附加的药物基因组生物标志物。在一些实施方式中，药物基因组生物标志物可以用于开发伴随诊断测试。

在另一个方面，此处提供的同伴诊断测试，使用由本文中披露的方法识别的药物基因组生物标志物。本文还提供预测患者对治疗的响应性的方法，该方法使用本文所披露的诊断测试。本文还提供了识别新型药物靶的方法，该方法使用通过本文所披露方法识别的药物基因组生物标志物。本发明的方法对于临床医生确定对患者的治疗、在治疗发展过程中帮助患者选择、当用特定的治疗方案治疗个别患者时预测成功的可能性、评估和监测病情发展、监测治疗效果、和确定个别病人的预后。上述实施方式包括在本发明中。

在另外一个方面，本文提供试剂盒，其包括用于评估根据本文所披露的方法识别药物基因组生物标志物或药物基因组生物标志物的组。在一些实施方式中，试剂盒还可以包括使用药物基因组生物标志物进行伴随诊断测试的说明。

在另一个方面，本发明提供使用次优基因组DNA样本进行基因分型的方法，该方法包括如下步骤：a)接收所述次优基因组DNA样本的序列信息；b)基于上述的序列信息优化列入标准；及c)基于基因型所述序列信息和所述优化的列入标准计算基因型。在一些实施方式中，优化可以被重复多次以包括和/或排除样本。在一些实施方式中，能够鉴定优化的列入标准。在一些实施方式中，基因分型数据通过使用全基因组基因型检出算法和/或验证基因型检出算法而获得。在一些实施方式中，列入标准是基因型检出算法的检出率临界值。在一些实施方式中，基因型的检出可以通过使用低于典型检出率临界值——高质量基因组DNA全基因组基因分型——的检出率临界值，其中使用的检出率临界值可以是大约50％、60％、70％、80％、90％或95％。在一些实施方式中，基因分型数据可以通过使用多个基因分型平台而获得。在一些实施方式中，来自多个基因分型平台的基因分型数据可以被比较以用于优化。

还提供一种使用次优基因组DNA样本的基因分型方法进行关联分析的方法，该方法包括优化列入标准。在一些实施方式中，关联分析可以被重复多次以用于优化。本文还提供了计算机可读介质，其包括用于利用次优基因组DNA样本的基因分型方法的说明，该方法包括如下步骤：a)接收所述次优基因组DNA样本的序列信息；b)根据所述序列信息优化列入标准，和c)基于所述序列信息和所述优化的列入标准计算基因型。

另外一个方面，本文提供使用次优基因组DNA进行GWAS的方法。在一些实施方式中，次优基因组DNA可以来自存档样本。在一些实施方式中，次优基因组DNA可以来自血浆样品。在一些实施方式中，所述次优基因组DNA可以被扩增。在一些实施方式中，可以使用多个基因分型平台。在一些实施方式中，相同或不同的样本可用于多个基因分型平台。在一些实施方式中，该方法还可以使用提供高质量基因组DNA的样本。

附图描述

图1显示使用GWAS的药物基因组生物标志物发现方法的流程图。基因组DNA提取自存档的临床样本，并且使用WGA扩增。在阶段I，发现阶段，N1(数字从1至1000或更多)个来自实验组的样本，M1个来自对照组的样本使用Affymetrix和/或Illumina全基因组SNP阵列进行基因分型。每个SNP与实验-对照状态的关系(即：反应者vs非反应者)是根据等位基因的频率和/或基基因型测试计算而来。随后，1至500或更多显著相关的SNP被选出进行阶段II的研究。在阶段II中，用于阶段I的相同样本使用低密度SNP基因分型平台进行基因分型。另外的样本，来自实验组的N2(数量从1至1000或更多)个样本和来自对照组的M2(数量从1至1000或更多)个样本进行基因分型以复制研究的结果。

图2示出基因组野生型发现阶段的数据分析的流程图。

图3示出证明阶段的数据分析的流程图。

发明详述

本发明提供新方法，能够克服潜在地低质量基因分型结果，其使用来自存档临床样本分离的基因组DNA，使用多于一个的基因分型技术或平台。

A.普通技术

除非特别说明，本发明的实践将采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术，这些技术是本领域技术人员能够使用的。这些技术在文献中被充分说明，例如“Molecular Cloning:A Laboratory Manual”,second edition(Sambrook等,1989)；“Oligonucleotide Synthesis”(M.J.Gait,ed.,1984)；“Animal CellCulture”(R.I.Freshney,ed.,1987)；“Methods in Enzymology”(Academic Press,Inc.)；“Current Protocols in Molecular Biology”(F.M.Ausubel et al.,eds.,1987,andperiodic updates)；“PCR:The Polymerase Chain Reaction”,(Mullis et al.,eds.,1994)。

B.概念

除非另外定义，本文使用的所有科技术语具有本发明所属技术领域的技术人员所理解的通常含义。本文所涉及的所有专利、专利申请、公开的申请以及其他公开出版物以引用的方式全文并入本文。如果此部分所述定义与所述以引用方式并入本文的专利、专利申请、公开的申请以及其他公开出版物相矛盾或在某些方面不一致，本文中所述定义优于以引用方式并入的定义。

如此处所使用的，单数形式“an”、“a”和“所述”，除非特别指明，包括其复数形式。例如，“二聚物”包括一个或多个二聚物。

如本文使用的术语“生物标志物”或“标志物”通常指分子，包括基因、蛋白质、碳水化合物结构，或者糖酯，在一个哺乳动物组织或细胞中的表达或者隐藏，可以用已知的(或本文披露的方法)方法识别并且有预测性；或者，在一些实施方式中，可用于预测(或辅助预测)哺乳动物细胞或组织的敏感度，以预测(或辅助预测)个体对治疗方案的响应能力。

如本文所使用的，“药物基因组生物标志物”是目标生物标志物，与具体的临床药物反应或者患者的易感性相关联(例如，见McLeod等,Eur.J.Cancer(1999)35:1650-1652)。它可以是生物化学的生物标志物、临床标记或症状等。药物基因组生物标志物的存在或数量与患者对特定药物或药物种类在给药前的预测反应相关。通过评估患者中的一种或多种药物基因组生物标志物的存在或数量，可以为患者选择最适当的药物治疗，或者可预计更成功的药物治疗。例如，基于患者中针对特定的肿瘤标志物的DNA、RNA或蛋白的数量或存在，能够选择治疗的药物或过程，使其对可能存在于患者中的特定肿瘤的治疗是最优化的。同样，存在或缺少特定序列突变或多态性能够与药物反应相关联。因此，使用药物基因组生物标志物使得能够对每个患者施用最适当的治疗，而不必事实上施用所述治疗。

如本文所使用的术语“样本”是指从目标患者得到的组合物，其包含细胞和/或其他分子体——将进行特征化和/或识别，例如，根据物理、生化、化学和/或生理特征。例如，短语“临床样本”或“疾病样本”及其变体，是指从目标患者获得的任何样本，将预期或已知所述样本中能够获得细胞和/或分子体，例如将被特征化的生物标志物。

术语“组织或细胞样本”是指从患者组织获得的类似细胞的集合。组织或细胞样本的来源可以来自新鲜、冷冻和/或保存的器官或组织样本的固体组织，或者活组织检查或者抽吸物，血液或任何血液成分；体液如脑脊髓液、羊水、腹腔液或间质液；来自患者的妊娠或发育过程中的任何时间的细胞。组织样本可以是初级或体外培养的细胞或细胞株。可选地，组织或细胞样本从疾病组织/器官获取。组织样本可能包含不语所述组织自然混合的化合物，诸如防腐剂、抗凝血剂、缓冲剂、固定剂、营养剂、抗生素、或类似化合物。

本文所使用的术语“血浆”是指血管内的细胞外液(所有细胞外体液)的流体部分。其主要是水，并包含溶解性蛋白质、葡萄糖、凝血因子、矿物质离子、激素和二氧化碳(血浆成为排泄产品运输的主要媒介)。通过在离心机里旋转装有新鲜血液(含抗凝血剂)的试管来制备血浆，直到血液中的细胞落到试管底部。然后倒出血液血浆。“血清”是不带有血浆纤维蛋白原或其他凝血因子的血浆(不带有细胞和凝血因子的全血)。

“多核苷酸”或者“核苷酸”在本文中替换使用，是指任何长度的核苷酸聚合物，包括DNA和RNA。核苷酸可以是脱氧核糖核苷酸、核糖核苷酸、改性核苷酸或碱基，和/或其类似物，或者能够通过DNA或RNA聚合酶加入到聚合物中的任何基质。多核苷酸可以包括改性核苷酸，诸如甲基化核苷酸及其类似物。如果存在的话，对核苷酸结构的修饰可以在聚合物装配之前或者之后进行。核苷酸序列可以通过非核苷酸元件阻断。多核苷酸可以在聚合之后进一步被修饰，如与标记元件共轭相连。其他类型的修饰包括，例如“保护帽”，用类似物取代一个或多个自然产生的核苷酸；核苷酸内的修饰，例如，用不带电荷连接物(例如甲基膦酸酯、磷酸三酯、磷酰胺)的修饰，以及用带电荷连接物(例如，硫代磷酸酯、二硫代磷酸酯等)的修饰，那些包含吊坠部分(pendant moieties)的修饰，例如，蛋白质(例如，核酸酶、毒素、抗体、信号肽、ply-L-赖氨酸等)，那些用插入剂(如吖啶、补骨脂素等)的修饰，那些含有螯合物(例如金属、放射性金属、硼、氧化金属等)的修饰、那些包含烷基化剂的修饰，那些用改性连接剂(例如，α-异核酸等)的修饰，以及多核苷酸的未修饰形式。此外，通常出现在糖中的任何羟基可以被替换，例如膦酸基、磷酸基，还可以被标准保护基团所保护或激活以准备另外连接到其它核苷酸，或可以共轭到固体支持物。羟基的5'和3'末端可以被磷酸化，或者被1到20个碳原子的胺或有机帽基团部分所取代。其他羟基还可能衍生为标准保护基。多核苷酸还可以包含本领域已知的类似形式的核糖或脱氧核糖，例如，2'-O-甲基-2'-O-烯丙基、2'-氟-或2'-叠核糖、碳环形糖类似物、α-异头糖、异向糖(epimeric sugars)(例如阿拉伯糖)、木糖或来苏糖、吡喃糖、呋喃糖、景天庚醛糖、脂肪族类似物和脱碱核苷类似物如甲基核糖苷。一个或多个磷酸二酯连接物可以由可选择的连接基团取代。这些可选择的连接基团包括但不限于，磷酸盐由P(O)S(“硫代”)、P(S)S(“二硫代”)、“(O)NR 2(“酰胺”)、P(O)R、P(O)OR’、CO或CH2(“甲酰的”)，其中每个R或R'是独立H或者是被取代或未被取代的烷基(1-20C)，可以选择性地包含醚(-O-)连接物、芳基、烯基，环烷基，环烯基或araldyl。不需要所有的多核苷酸中的连接相同。前面的说明适用于本文所述所有的核苷酸，包括RNA和DNA。

本文所使用术语“寡核苷酸”通常是指短的、单链的、合成的聚核苷酸，其长度通常但非必要地小于约200个核苷酸。术语“寡核苷酸”和“聚核苷酸”并不互相排斥。上文关于“聚核苷酸”的描述同样完全适用于“寡核苷酸”。

本文所使用的术语“次优基因组DNA”是指，与从诸如全血等富含DNA的组织/细胞获得的基因组DNA相比，质量和/或数量较差的基因组DNA。次优基因组DNA可能分离自存档临床样本(例如活体检验或血浆)，往往储存和处理有所不当，在质量和/或数量方面远不及优等的基因组DNA，尤其是要用于GWAS。例如，次优基因组DNA样本可能不会提供全覆盖的全基因组，或可能包含短片段的基因组DNA。在一些实施方式中，经过高密度基因分型的次优基因组DNA的样本的检出率低于99％、95％、90％、80％、70％、60％、50％或者更低。通常情况下，用于GWAS的次优基因组DNA需要一个扩增步骤。

本文所使用的术语“扩增”通常是指产生所需序列的多个副本。“多个副本”意味着至少2个副本。“副本”并不必然是与模板序列互补或相同的完整序列。例如，副本可以包括核苷酸类似物，诸如脱氧次黄苷，有意的序列改变(例如，通过包含杂交序列的引物引入的序列变体，但不与模板互补)、和/或序列在扩增过程中发生的序列误差。

本文所使用术语“阵列”或“微阵列”是杂交阵列原件有序排列在基质上，所述杂交阵列原件诸如聚核苷酸探针(例如寡核苷酸)或结合剂(例如抗体)。所述基质可以是固体基质，例如，玻璃或二氧化硅玻片、珠、纤维光学粘结剂或半固态基质，例如硝酸纤维素膜。核苷酸序列可以是DNA、RNA或其中的任何排列。

如本文所使用的，术语“显型”涉及能够在个体之间进行比较的特征，例如存在或者不存在某种条件，个体之间可观察到得外观上的区别，代谢性变异、生理学变异、生物分子功能变异等。显型可以是定性的或者是定量的。显型的一个实例是对诸如药物等治疗是有响应性的。

“响应性”可以使用显示使患者受益的任何指标进行评估，包括但不限于，(1)抑制作用，在一定程度上抑制疾病进展，其包括减缓以及完全抑制；(2)减少疾病发作和/或症状的数量；(3)减少病灶尺寸；(4)抑制(即减少、减缓或完全阻止)疾病细胞渗透到相邻的周边器官和/或组织；(5)抑制(即减少、减缓或完全阻止)疾病传播；(6)在一定程度上缓解与疾病相关联的一种或多种症状；(7)治疗后增加无病表现的时间长度；(8)在治疗后的给定时间点减少死亡率；和/或(9)治疗后无副作用。反应性还能够通过显示对患者副作用和/或毒性的任何指标进行评估。

“治疗”或者“缓解”是指治疗，其目标不以治愈为目的，而是减缓(减少)靶定的病理状况或病症或防止复发。如果接受治疗有效量的治疗剂之后,患者成功地被“治疗”，患者显示出可观测到的和/或可度量的一种或多种特定疾病的迹象和症状的减少或消失。例如，癌细胞数目显著减少或癌细胞消失，减少肿瘤尺寸；抑制(即，在某种程度上减缓，及优选地停止)肿瘤转移；某种程度上抑制肿瘤生长；使在一定程度上减少和/或减轻与特定癌症相关联的一种或多种症状的时间增加；减少的发病率和死亡率，以及改善生活质量。疾病的迹象或症状的减轻能够为患者感知。治疗可以实现完全反应——定义为癌症的所有迹象消失，或部分反应——肿瘤尺寸减小，优选减小的比例超过50％、更优选75％。患者也被视为得到治疗，如果患者感受到疾病稳定。在一些实施例中，治疗剂的治疗是有效的，治疗结果是患者在治疗后具有3个月无病状态，优选6个月，更优选1年、甚至更优选2年或更长时间。评估成功治疗和改善疾病的这些参数易于测量，通过本领域内具有适当技能的医生所熟悉的常规方法进行。

用于本文的术语“预测”(“prediction”或者“prognosis”)是指患者对药物或成套药物有良好反应或有不适反应的可能性。在一个实施方式中，预测是指这些反应的程度。在一个实施方式中，预测是指在治疗之后，患者是否存活或者得到改善，和/或存活或得到改善的可能性，例如，用特定治疗剂治疗，并持续一段时间无疾病复发的可能性。能够在临床上使用本发明的预测方法做出治疗的决定，能够为任何特定患者选择最合适的治疗方式。本发明的预测方法是预测患者是否可能对治疗方案具有良好反应的有利工具，例如，所述治疗方案包括给药治剂或其组合，外科手术、类固醇激素治疗等。

本文所使用的术语“特异性结合”是指特异性结合的成对事物的结合特异性。存在其他潜在目标条件下，由特定目标抗体进行识别是这类结合的特点。特异性结合包括两种不同分子，其中一种分子与第二种分子通过化学或物理方式特异性结合。两种分子在某种意义上相关联，他们彼此之间结合，能够在具有类似特征的试验组份中识别出他们所要结合的搭档。互相结合配对的组成成员被称为配体和受体(抗配体)、特异性结合配对(SBP)和SBP伙伴等。分子也可以是分子聚集体的SBP成员；例如，针对第二抗体的免疫复合物及其相应抗原的抗体可以被认为是所述免疫复合物的SBP成员。

本文所使用术语“同系物”是指核酸——其与自然产生的核酸(即“原型”或“野生型”核酸)不同，其通过对自然产生的核酸进行微小突变，但保持基本核苷酸结构的自然产生的形式。这种变化包括但不限于：一个或几个核苷酸的变化，包括删除(例如，核酸的截短形式)、插入和/或替换。与自然产生的核酸相比，同系物可以有增强、降低或实质相似的性质。同系物可以与自然产生的核酸补充或者匹配。可以使用现有技术中已知的制造核酸的技术制造同系物，这些技术包括但不限于，重组DNA技术、化学合成等。

本文所使用的术语“互补或者匹配”意味着两个核酸序列有至少50％的序列同一性。优选地，两个核酸序列有至少60％、70％、80％、90％、95％、96％、97％、98％、99％或100％的序列同一性。“互补或者匹配”也意味着这两个核酸序列可以在低、中和/或严格条件下杂交。

本文所适用的“实质上互补或者实质上匹配”意味着两个核酸序列有至少90％的序列同一性。优选地，两个核酸序列有至少95％、96％、97％、98％、99％或者100％的序列同一性。或者，“实质上互补或者实质上匹配”是指两个核酸序列可以在严格条件下杂交。

一般而言，杂交体的稳定性是离子浓度和温度的函数。通常情况下，杂交反应是在较低程度严格条件下进行，随后在变化的但是更高的严格条件下洗涤。适度的严格杂交是指允许核酸分子(诸如探针)结合到互补核酸分子的条件。杂交的核酸分子通常有至少60％的同一性，例如，至少70％、75％、80％、85％、90％或至少95％的同一性中的任何一种。适度严格的条件是条件相当于：在

下，在50％甲酰胺，x 5登哈特溶液(Denhardt’ssolution)，5x SSPE，0.2％SDS中进行杂交反应，随后在

下，在0.2x SSPE，0.2％SDS中洗涤。可以提供高度严格条件，例如，通过在

下，在50％甲酰胺、5x登哈特溶液、5xSSPE、0.2％SDS中进行杂交反应，随后在

下，在0.1x SSPE和0.1％SDS中洗涤。

低严格度杂交所指的条件相当于：在10％甲酰胺、5x登哈特溶液，6x SSPE、0.2％SDS中，在

下进行杂交，随后在

下，在1x SSPE、0.2％SDS中洗涤的条件。登哈特溶液包含1％聚蔗糖(ficoll)、1％聚乙烯吡咯烷酮和1％牛血清白蛋白(BSA)。20x SSPE(氯化钠、磷酸钠、乙二胺四乙酸(EDTA))包含3M氯化钠、0.2M磷酸钠和0.025M(EDTA)。其他合适的中等严格度和高严格度杂交缓冲液和条件对于本领域技术人员是熟知的。

能够被理解的是，本文所述发明的各个方面和实施方式包括本发明由这些方面和实施方式“组成”和/或“基本上由”这些方面和实施方式“组成”。

本发明的其它目的、优势和特征将通过下文的说明书并结合其附图得意更清晰详细的描述。

C.基因组DNA基因分型的方法

本发明提供一种新的方法来识别药物基因组生物标志物，该方法利用各种来源的存档临床样本，诸如体液、组织、血液或血液的组成，例如血浆。一方面，本发明提供一种方法来识别一个或多个药物基因组生物标志物，该方法包括：a)从在相关表型中表现不同数值的至少两个患者的存档临床样本分离DNA；b)扩增所述分离的DNA；c)获得所述扩增DNA的高密度基因分型数据；和d)基于所述基因分型数据和有关表型中的不同数值进行关联分析，其中所述药物基因组生物标志物是被鉴定。

在一些实施方式中，所述方法可以用于以前进行的临床试验的存档临床样本的回顾性研究。在一些实施方式中，该方法可以用于药物基因组生物标志物的重新鉴定。

相关表型表现出不同数值的至少两个患者需要所述方法来确定一个或更多药物基因组生物标志物。通常情况下，更多的患者可能需要进行关联分析。在一些实施方式中，已存档的临床样本可能来自约2、5、10、20、50、100、200、500、1000名或更多的患者。本发明能够预期任何相关的表型，例如对治疗的响应性。在一些实施方式中，相关表型可以是分类的特征、定量的特征或另一个相关表型。通常情况下，患者可以被招募到临床试验中，并且他们的表型数据是能够得到的。或者，被招募到多个临床试验的患者可以合并进行关联分析。优选地，所述多个临床试验由相似的医学治疗相互关联，诸如相同的治疗剂，如此，与相关表型关联的数据能够用于所有临床试验。

样本制备

样本的制备可以使用来自哺乳动物(通常人类患者)的组织或细胞样本。样本的例子包括，但不限于组织活检、血液、肺抽吸物、痰液、淋巴液等。样本可以通过本领域中已知的多种规程中获得，包括但不是限于，手术切除、吸气或活检。样本可能是新鲜或冷冻，如存档的临床样本。在一些实施方式中，已存档的临床样本可以从血浆样本、血清样本、干的血点、尿液样本、组织样本、肿瘤细胞和口腔药签选择。在一些实施方式中，已存档的临床样本是血浆样本。在一些实施方式中，样本可以固定并嵌入在石蜡或类似物质中。

存档血浆样本作为例子对本发明进行解释说明。通过使用任何合适的方法，从患者或健康志愿者收集的存档的血浆样本可以用于提取DNA，例如，通过QIAGEN QIAampMinElute病毒自旋试剂盒(巴伦西亚，CA)。此试剂盒可能会与一些修饰共同使用。例如，1毫升血浆简单地形成涡流，与30微克tRNA彻底混合。将这种混合物分为200μl的等分部分，这些等分部分在加入细胞溶解缓冲液之前，孵化1小时。溶解产物在96℃下煮沸5分钟，每个等分部分通过同一柱进行过滤。在10mM三羟甲基氨基甲烷盐酸盐中洗脱DNA(pH 8.5)，真空干燥，并在无菌水中溶解。大多数情况下，从血浆中提取的基因组DNA的数量非常低，不足以随后进行基因分型。因此，在一些实施方式中，分离的DNA可能是次优基因组DNA。可能需要对分离的DNA进行扩增以得到足够的DNA，以便随后基因分型。在一些实施方式中，扩增可能是WGA，由此产生的DNA是wgaDNA。例如，可以使用Amersham Bioscience GenomiPhi DNA扩增试剂盒(Piscataway，NJ)或等效的试剂进行DNA样本扩增，这个过程通常会产生几微克的DNA，足以进行基因分型。

使用SNP的基因分型

任何合适的方法可用于从分离的基因组DNA获取基因分型数据。基因分型方法可同时获取在一个或更多的多态位点的关于一个或更多个体的信息。在一些实施方式中，基因分型可定义为区分在单核苷酸决议在给定的基因位点的等位基因。基因位点定义为基因或DNA标志物的染色体位置。因此，根据本发明的方法具有为个体筛查和诊断信息所必须的精确性，这些作为医疗决策的基础。

用于本文的术语“基因型”是指确定一个或更多个体的基因型的方法，其中“基因型”是在人口中的一个或更多的多态性变种的表示形式。通常，基因分型涉及在一个或多个多态位点评估多态性变体的存在或不存在。在一些实施方式中，可以采用高密度基因分型。在一些实施方式中，高密度基因分型是全基因组基因分型。

本文所使用的术语“多态性位点”是指核酸中的一个区域，大量的来自个体人群的核苷酸样本中，该区域观察到两个或更多供替代的核苷酸序列。例如，多态性位点可以是两个或更多核苷酸的核苷酸序列、插入的核苷酸或核苷酸序列、删除的核苷酸或核苷酸序列，或是在拷贝数小随体中的变体。长度是两个或更多核苷酸的多态性位点可能是3、4、5、6、7、8、9、10、11、12、13、14、15或更多，20或更多，30或更多，50或更多，75或更多，100或更多，500或更多，或约1000个核苷酸的长度，区域内的所有或部分的核苷酸序列不同。多态性位点通常是一个核苷酸长度，本文称为“单核苷酸多态性”或“SNP”。在一些实施方式中，可能利用SNP进行高密度基因分型。在一些实施方式中，可以使用约1,000至5,000,000或更多，优选约1,000,000个SNP。在一些实施方式中，高密度基因分型可以基于阵列。在一些实施方式中，可以通过测序，例如高通量测序进行高密度基因分型。

凡有两个、三个或四个替代核苷酸序列的多态性位点，每个核苷酸序列被称为“多态性变体”或“核酸变体”。存在两种多态性变体，例如，在来自人群的少数样本中体现的多态性变体有时被称为“次要等位基因”，更加普遍体现的多态性变体有时被称为“主要等位基因”。许多生物(如人类)拥有的各种染色体的拷贝，那些拥有两个主要等位基因和两个次要等位基因的个体常被称为多态性的“纯合子”，那些拥有一个主要等位基因和一个次要等位基因的个体通常被称为多态性的“显性”。与杂合个体或相对于另一个等位基因纯和的那些个体相比，相对于一个等位基因纯合的个体有时倾向于不同的显型。

在用于识别一个或更多药物基因组生物标志物的遗传分析中，来自不同个体的样本(在相关显型中有不同的值)通常是等位型的和/或基因型。用于本文的术语“等位基因”是指确定来自案例和对照组的汇集DNA的多态性变体的等位基因频率的方法。通过汇集来自每个组的DNA，计算每个组中的每个位点的等位基因频率。然后比较这些等位基因频率。

基因型或多态性变体可以用术语“单体型”表示，它是指一组DNA变体或多态性，往往要一起遗传。单体型可以指等位基因的组合或在相同染色体上发现的一组SNP。例如，两个SNP可能存在于每个SNP位点包括胞嘧啶变体与腺嘌呤变体的基因之内。人群中的某些个体可能会携带一个等位基因(杂合子)或两个等位基因(纯合子)——包括在每个SNP位点上具有胞嘧啶的基因。对应于基因中的每个SNP的两个胞嘧啶在这些个体的一个或两个等位基因上共同运动，所述个体具有如下特征：具有相对于基因中两个SNP的胞嘧啶单体型。

有时，研究人员报道数据库中的多态性变体，但不确定该变体是否体现在显著部分的人群中。因为这些被报道的多态性变体中的一个子集不存在于人口的统计学显著部分中，其中一些是测序错误或生物学上不相关的。因此，往往不知道所报道的多态性变体是否是统计学上显著的或生物学上相关的，直到在个体的人群中检测到该变体的存在并确定该变体的频率。如果多态性变体表现在1％或更多的人口中，有时5％或更多，10％或更多，15％或更多，或20％或更多的人口中，以及经常25％或更多，30％或更多，35％或更多，40％或更多，45％或更多，或50％或更多的人口，所述多态性变体则是统计学显著的，经常也是生物学相关的。

多态性变异可以在双链核酸的任一或两个链上检测到。此外，多态性变异可能位于基因的内含子和外显子中，或位于调节区的一个部分之内，例如位于启动子、5'非翻译区(UTR)、3'UTR、翻译区、基因间隔区，或不含有已知基因的基因组区域中。多态变异可能会或不会在基因表达、多肽结构或多肽功能方面产生可检测的差异。

参数优化

与来自标准实践中所用的高质量DNA的基因分型结果相比，来自存档样本的DNA得出的基因分型结果表现出不同特征，其可能会明显表现出较低的检出率。与用于标准GWAS中的典型检出率临界值(通常95％或更高)相比，在本发明中使用的分析采用非常规的方法来调整基于所得的基因分型结果的临界检出率，以使分析中包括更多样本。结果，所使用的临界值可能远低于供应商所推荐的标准临界值。本发明产生的结果的另一相关特性是大量的数据可能会丢失，在使用标准或“已知”分析算法时，可能会面临重大挑战。因此，本发明还使用归责算法，基于基因分型多态性位点之间的连锁不平衡(LD)，能够替换丢失的数据。

可以对列入标准进行优化以获得基因分型数据(图2)。在一些实施方式中，基因分型数据是通过使用全基因组基因型检出算法获得的。由于血浆样本生成的次优基因组DNA的质量和进行基因分型前所应用的全基因组扩增，部分样本的检出率可能会显著低于使用高质量基因组DNA时的典型检出率(>95％)。在本发明中，临界检出率被调整到远低于常规标准以包含尽可能多的样本。在一些实施方式中，全基因组基因型检出算法的检出率临界值可以被调整。在一些实施方式中，基因分型检出通过使用比高质量基因组DNA的全基因组基因分型所用的典型检出率临界值更低的检出率临界值，其中使用的检出率临界值约50-95％，约80-90％，或约90％。在一些实施方式中，调整基因型检出算法的检出率临界值，并且基因分型的检出基于调整的检出率临界值，可以重复多次以确定包括和/或排除的样本的标准。在一些实施方式中，优化列入标准，例如检出率临界值，在调节周期的多次反复之后被识别。在一些实施方式中，基因分型检出将使用归责算法，其中HapMap用于归责算法。

在一些实施方式中，使用全基因组SNP阵列(由Affymetrix制造，Santa Clara，CA)对DNA样本进行基因分型。Affymetrix 500K作为例子说明本发明。除了Affymetrix阵列之外，Illumina clips(芯片)和Sequenom MassArray(阵列)也可以用于确认由同一个平台生成的结果。

在一些实施方式中，基因型检出是通过Affymetrix Genotyping ConsoleTM软件生成。在一些实施方式中，基因型检出使用RLMM(Robust Linear Model with theMahalanobis Distance Classifier，鲁棒线性模型与马氏距离分类器)算法、带有贝叶斯定理步骤的RLMM算法，即BRLMM算法、AxiomTMGT1算法、使用完全匹配探针的BRLMM算法，即BRLMM-P算法、或者贝德蒂算法(Birdseed algorithm)(Rabbee等人.,Bioinformatics(2006)22:7-12；Korn et al.,Nat Genet(2008)40:1253-60)生成。

D.通过关联分析识别药物基因组生物标志物

所获得的基因分型数据用于进行相关表型关联分析以识别药物基因组生物标志物(图1)。分类算法，其包括但不限于支持向量机(SVM)和逻辑回归，可以被应用到数据集，并确定最优的生物标志物和评分算法。在一些实施方式中，关联分析是GWAS。在一些实施方式中，通过计算与相关表型各个多态性位点(例如SNP)的关联p-值进行关联分析。在一些实施方式中，所述计算是基于等位基因频率和/或基于基因型的测试。

识别药物基因组生物标志物的相关表型通常与个体对治疗方案的响应能力相关。相关表型可以是定性的或者定量的。响应能力可以是主要的，例如肿瘤质量的减少作为对抗癌症药物的响应，也可以是辅助的，例如甘油三酯升高(HTC)作为对贝沙罗汀的响应。主要和辅助的反应可能彼此相关，也可能不相关。反应可能是正的或负的。负响应可定义为要么缺乏有效响应或有毒副作用的存在。一个或多个相关表型可以用于关联分析用以识别药物基因组生物标志物。

在一些实施方式中，使用不同的检出率临界值，关联分析可以被重复多次，用来优化所使用的标准(图2)。在一些实施方式中，对基因型结果的分析可以使用遗传数据分析软件，如PLINK(Purcell等人，Am J Hum Genet(2007)81:559-5752)来计算与相关表型关联的每个多态性位点的p值。多态位点能够被排序，通过它们计算出的与相关表型的关联性。最显著关联的多态位点可以被鉴定为相关表型的药物基因组生物标志物。

验证和/或复制

通过高密度基因分型鉴定的药物基因组生物标志物可以进行进一步的关联分析或“第二阶段”分析(图1)。通过高密度基因分型和关联分析或所述阶段I分析，进一步的关联分析可被用于验证和/或复制所鉴定的药物基因组生物标志物。来自阶段I的某些或所有已存档的临床样本和/或附加的临床样本可用于额外的基因分型。

在一些实施方式中，进一步的关联分析可以基于使用所鉴定的药物基因组生物标志物的其他基因分型数据。在一些实施方式中，大约1、10、20、50、100、200、500或更多的鉴定的药物基因组生物标志物可以用于额外的基因分型。

在一些实施方式中，从阶段I鉴定的高度关联的SNP可以用低密度基因分型平台进行复制，该基因分型平台可以有别于那些在阶段I中使用的平台、例如Sequenom iPLEXMassArray(阵列)技术等。

阶段II中，阶段I中未使用过的新DNA样本可以进行基因分型，旨在复制阶段I中鉴定的药物基因组生物标志物。更多的临床样本可以来自新的临床试验患者，并且可能是新鲜的临床样本。因此，从附加的临床样本分离的基因组DNA可以质量更高且数量更大，即使没有扩增也适于高密度基因分型。

可以进行列入标准的优化以获得额外的基因分型数据(图3)。在一些实施方式中，通过使用验证基因型检出算法获得额外基因分型数据。在一些实施方式中，进一步的关联分析可以包括调整验证基因型检出算法的检出率临界值。在一些实施方式中，基因分型及调整检出率临界值可以重复多次以包括或排除样本。在一些实施方式中，可确定最优列入标准。在一些实施方式中，该方法还包括将使用验证基因型检出算法获得额外基因分型数据，与通过使用全基因组基因分型检出算法获得的基因分型数据进行比较(图3)。

两个阶段的研究之后，可以鉴定最显著相关的药物基因组生物标志物。在一些实施方式中，使用不同的检出率临界值，关联分析可以重复多次以优化所使用的标准(图3)。在一些实施方式中，药物基因组生物标志物都是阶段I中鉴定的药物基因组生物标志物的一个子群。在一些实施方式中，药物基因组生物标志物可以包括一个或更多SNP。多个药物基因组生物标志物可以位于基因组中彼此靠近的位置，还可以位于基因组中基因内含子/外显子中、基因间隔区中或在不包含任何已知基因的区域中。

E.使用存档样本的全基因组关联研究

本发明的另外一个方面提供了使用次优基因组DNA进行GWAS的方法。在一些实施方式中，次优基因组DNA可以来自存档样本。在一些实施方式中，次优基因组DNA可以来自血浆样本。在一些实施方式中，次优基因组DNA可以进行扩增。本文进一步提供了鉴定药物基因组生物标志物的方法，该方法使用次优基因组DNA进行GWAS，其中所述方法可以是回顾性的方法。

上文所述的两阶段数据分析可用于使用次优基因组DNA的GWAS。在一些实施方式中，可以使用多个基因分型平台。在一些实施方式中，相同或不同的样本可用于多个基因分型平台。在一些实施方式中，所述方法可以进一步使用提供高质量基因组DNA的样本，该样本可用于复制由次优基因组DNA获得的数据。在一些实施方式中，提供高质量基因组DNA的样本是全血样本。

F.药物基因组生物标志物的应用

药物基因组学涉及根据患者的基因型制定治疗方案，因为特定的治疗方案根据基因型而实现不同的效果。例如，根据预后测试的结果，临床医师可以将相关信息和预防或治疗性的治疗方案实施到所靶定的患者，该患者将受益于所述信息或治疗并避免将这类信息和治疗施加于不会从中受益(例如，所述治疗没有疗效和/或患者感受到不良副作用)的患者。由使用本发明所述方法的药物基因组生物标志物生成的信息，可以用于为个体确定适当的剂量和治疗方案。这种知识，当向患者给药治疗组合时，当应用于剂量或药物的选择时，可以避免不良反应或治疗失败并因此提高治疗效率。在一些实施方式中，药物基因组生物标志物可以用于开发伴随诊断测试。

因此，另一个方面，本文提供伴随诊断测试，其使用由本文中披露的方法鉴别的药物基因组生物标志物。例如，在一个实施方式中，当需要确定是否要对患者给药药物组合物时，医师或临床医师可考虑应用从使用本文所述方法的药物基因组生物标志物中获得的知识。在另一个实施方式中，确定向患者给药的剂量，例如每次治疗的量或治疗的频率时，医师或临床医师可以考虑应用这些知识。

发明提供评估或辅助评估患者对治疗的响应能力的方法。发明还提供预测患者的响应能力的方法，或者监测患者的治疗/患者对所述治疗的响应能力的方法。发明提供选择受试者进行治疗并治疗所述受试者的方法。在一些实施方式中，所述方法包括：评估在从患者获得的样本中的一个或多个药物基因组生物标志物；基于所述一个或多个药物基因组生物标志物的基因型，预测、评估、或辅助评估患者对治疗的响应能力。在一些实施方式中，通过使用诸如SVM、逻辑回归、或K-近邻分析等算法对患者进行分类，从而预测或评估响应能力。

以下是药物基因组实施方式的一个示例。具体的治疗方案可以根据患者基因型施加不同的效果。凡候选疗法展现出与主要等位基因的显著相互作用和与次要等位基因的相对较弱的相互作用(例如相互作用的数量级或更大差异)，这种治疗通常将对基因型与次要等位基因纯合的患者给药，并且有时不对基因型与次要等位基因杂合的患者给药。在另一示例中，如果当向与等位基因纯合的受试者给药时，候选疗法并不具有显著毒性，但向与次要等位基因纯合或杂合的受试者给药时，候选疗法具有相对毒性，候选疗法通常不向基因分型为相对于次要等位基因杂合或纯合的那些受试者给药。

本文所述方法是适用于药物基因组的方法，用于防止、减轻或治疗诸如代谢性疾病、心血管疾病、癌症等病症。例如，来自个体的核酸样本可以进行本文所述的预后测试。如果与II型糖尿病风险增加相关联的一个或多个多态性变异在患者中被识别，预防信息或者治疗II型糖尿病和/或一个或更多类型II型糖尿病治疗方案可以被施用到该患者。

在某些实施方式中，治疗方案被具体规定和/或根据个体对治疗方案响应的可能性而施用到最能够得益于该方案的那些个体，所述可能性由本文所描述的方法来评估。因此，所提供的方法用于识别对治疗方案的响应的可能性高的患者，之后对识别为反应可能性高的那些个体开具该治疗方案。因此，某些实施方式涉及治疗患者的方法，其包括：检测患者的核酸样本的核酸序列中是否存在与治疗方案的响应能力相关联的药物基因组生物标志物，并对患者开具处方或施用治疗方案，来自该患者的样本源自其中能够检测到存在与对治疗方案的响应性得药物基因组生物标志物的核酸序列中。

治疗有时是预防性(例如，开具处方或施用疗法以减少疾病产生或发展的概率)，有时是治疗性，和有时是延迟、缓解或阻止病情的进展。用于减轻或防止发生紊乱任何已知的预防性或治疗性的治疗可以被施用。

药物基因组学方法还可以用来分析并预测药物反应。例如，如果药物基因组学分析表明个体将积极响应特定药物治疗的可能性，可以对该个体给药所述药物。相反，如果分析表明个人是可能消极响应特定药物的治疗，将进行替代疗程的治疗。在一项研究背景下，可以预测对治疗的反应，对以下任意人群中的患者进行基因分型：优先响应治疗方案的人群、对治疗方案没有显著性响应的人群、和对治疗方案有不利反应的人群(例如，表现一种或更多种副作用)。这些人群作为示例，连同其他人群和亚群进行分析。根据这些分析的结果，对患者进行基因分型来预测他或她是否对治疗方案有良好响应、对治疗方案不显著响应、或对治疗方案不响应。

分类/预测算法可以使用验证和/或复制的数据集进行开发。可以使用归责算法，其能够基于LD之中的基因型多态性位点替换一些丢失的数据。在一些实施方式中，SNP用于基因分型，诸如Hapmap等的SNP数据库可以用于归责算法。分类/预测算法的开发，验证数据集可以用作培训数据集。一旦开发了分类/预测算法，复制数据集可用于测试算法。

在一些实施方式中，发明的方法包括：使用K-近邻分析将患者分级为响应或不响应的患者，基于来自患者的样本中和已知类型参考样本的药物基因组生物标志物的基因型。在一些实施方式中，通过以下步骤使用K-近邻分析将受试者分类：(1)确定参数K(即，最邻近者的数量)；(2)计算待分类的新样本中标志物基因的测量表达水平和各个参考样本中各自标志物基因的表达水平之间的区别；(3)通过选择新样本和参考样本之间的那些具有最小的加权平均值的绝对差异(WAAD)的样本，确定最接近的参考样本，(4)基于已知的最近的参考样本K的类型确定新样本类型。重量和/或参数K通过使用临床试用样本与已知类交叉验证而确定。例如，5倍(例如，5倍、6倍、7倍、8倍、9倍、或10倍)到N倍交叉验证可用于最小化加权的K-最近邻分类误差，其中N是样本的数目。在一些实施方式中，K是4和13之间的一个整数(例如，4、5、6、7、8、9、10、11、12、和13)。在一些实施方式中，最近的参考样本(最近邻元素)是待分类新样本的表达水平和各个药物基因组生物标志物的各个参考样本的表达水平之间具有绝对差异的最小加权平均值的那些样本。

用于预测、评估或辅助评估的比较和/或计算可以用适于药物基因组生物标志物的测量值和/或参考值的类型的简便方式进行。比较或计算的过程可以手动或者自动(例如，由包括基于计算机的机器进行)。对本领域技术人员显而易见的在于，可以对药物基因组生物标志物进行复制基因分型。

本文还提供使用本文所披露的伴随诊断测试(companion diagnostic test)预测患者对治疗的响应性的一种方法。本所所描述的所述测试还适用于临床药物试验。在一些实施方式中，药物基因组生物标志物还可以用于在临床试验中对患者群体进行分级或选择。在一些实施方式中，药物基因组生物标志物可以用来将可能对治疗出现毒性反应的个体与不会出现毒性反应的个体相区分。在其他实施方式中，药物基因组生物标志物可用于将那些会成为无响应者的个体与会成为有响应者的个体相区别。在基于药物基因组的设计和管理的一项临床试验的实施中，可以使用本文所述的药物基因组生物标志物。

可以使用本文所述方法确定对治疗剂显示响应或对治疗剂显示副作用的一个或更多药物基因组生物标志物。此后，可以对试剂临床试验的潜在参与者进行甄别，以鉴定最可能对药物产生有益响应的那些个体，并排除可能产生副作用的那些个体。以这种方式，在对药物有积极反应的个体中能够测量药物治疗的有效性，而并不由于加入研究的个体不会对治疗产生积极反应而降低测量，同时也没有产生安全问题的风险。

因此，另一个实施方式是对加入治疗或药物的临床试验的个体进行选择方法，包括如下步骤：(a)从个体获取核酸样本；(b)在核酸样本中，确定与治疗或药物的积极响应相关联的多态性变异，或与治疗或药物的消极响应相关联的至少一个多态性变异的特性(identity)；和(c)如果核酸样本中包含与治疗或药物的积极响应相关联的所述多态性变异，或如果核酸样本缺乏与治疗或药物的消极响应相关联的所述多态性变异，则将所述个体加入到临床试验中。此外，本文所描述的为治疗或药物的临床试验选择参与个体的方法包括与本公开内容所描述的任何进一步限定，或那些随后单独或以任意组合方式所描述的任何进一步的限定的方法。步骤(c)可选地包括将药物或治疗施用到所述个体，如果核酸样本中包含与治疗或药物的积极响应相关联的所述多态性变异，以及如果核酸样本缺乏与治疗或药物的消极响应相关联的所述双等位基因标志物。

G.其他药物基因组生物标志物或药物靶

本发明还提供了与已识别的药物基因组生物标志物临近的多态性变异的识别方法。因此，本文所述的方法用于识别与已识别的药物基因组生物标志物邻近的多态性变异。在另一个实施方式中，识别的近端多态性变异有时是公开披露的多态性变异，例如，有时是在公共数据库中所公开的多态性变异。在其他实施方式中，已识别的多态性变异不是公开披露的，并使用已知的方法发现，包括但不是限于，对一组核酸序列样本中在已识别的药物基因组生物标志物周围的区域进行测序。因此，使用此方法识别与已识别的药物基因组生物标志物邻近的多个多态性变异。

临近的多态性变异往往在已识别的药物基因组生物标志物周围的区域中识别。某些实施方式中，这周围区域是已识别的药物基因组生物标志物之侧大约50kb(例如约50kb5'的所述第一多态性变异和约50kb的3'的所述第一多态性变异)，以及该区域有时由较短的旁侧序列构成，例如旁侧序列是约40kb、约30kb、约25kb、约20kb、约15kb、约10kb、约7kb、约5kb、或约2kb的5'和3'已识别的药物基因组生物标志物。在其他实施方式中，该区域由较长旁侧序列构成，例如侧翼序列是约55kb、约60kb、约65kb、约70kb、约75kb、约80kb、约85kb、约90kb、约95kb、或约100kb的5'和3'已识别的药物基因组生物标志物。

在一些实施方式中，药物基因组生物标志物可用于标识一个或更多附加的药物基因组生物标志物。例如，与所述药物基因组生物标志物邻近的其他多态位点可以进行与相关表型关联的分析。此外，邻近药物基因组生物标志物的基因可以被识别，并对其功能进行分析。具有功能的基因直接或间接地与相关表型相关，或者同一细胞途径的其它基因可以用于相关表型的进一步分析的靶，则能够识别新的药物基因组生物标志物。

在某些实施方式中，多态性变异被反复识别。例如，使用上文描述的方法识别第一邻近多态性变异，之后与第一邻近多态性变异临近的另一多态性变异被识别(例如，公开披露或发现)，并且确定是否存在与所述第一邻近多态性变异邻近的一个或更多的多态性变异的联合。

本文所述方法可用于确定或发现额外的多态性变异，可用来进一步描述与病情、疾病或障碍相关的基因、区域或基因位点。例如，来自额外多态性变异的等位基因分型或基因分型数据可用于识别功能性突变或连锁不平衡的区域。在某些实施方式中，使用遗传方法和所述的样本选择技术，将在包含已识别的药物基因组生物标志物的区域内的已识别或发现的多态性变异进行基因分型，可以确定这些多态性变异是否存在与已识别的药物基因组生物标志物的连锁不平衡。使用这些基因分型方法还可以评估与已确定的药物基因组生物标志物连锁不平衡的区域的大小。因此，本文提供的方法用于确定多态性变异是否与已识别的药物基因组生物标志物连锁不平衡，这样的信息可以用于本文所述的预后/诊断方法。

本文进一步提供的方法用于识别新型药物靶，使用通过本文所述方法识别的药物基因组生物标志物。在一些实施方式中，所述生物标志物及其关联SNP或基因可得到相关表型的基础生物学路径或机制或相关的表型的启发，例如疗效、不良影响或其它端点。这些发现可能有助于开发更好的诊断或治疗剂。

H.试剂盒

可能开发基于上文所述的药物基因组生物标志物的诊断试剂盒，他们可以用于预测个体对相应药物的响应。这种测试试剂盒可以包括装置和说明书，使得受试者能够在没有卫生保健提供者的条件下使用试剂盒获取样本，例如口腔细胞或血液。

用于如上所建议或描述的应用中，试剂盒及产品的制造也由本发明提供。这种试剂盒可以包括对基因分型本文所述的药物基因组生物标志物具有特异性的至少一种试剂，并可以进一步包括实施本文所述方法的说明。

在一些实施方式中，本发明提供组合物和试剂盒，其包括引物和引物对，从而使得本发明的多核苷酸或其任何特定部分能够特异性扩增；以及探针，其有选择性地或特异性地与本发明的核酸分子或其任何部分杂交。探针标记为可探测的标记，例如放射性同位素、荧光化合物、发光化合物、化学发光化合物、金属螯合剂或酶。这种探针和引物可用于检测样本中多核苷酸的存在，并作为检测细胞表达多核苷酸所编码的蛋白质的一种手段。本领域技术人员能够理解的是，根据本文所提供的序列可以制备大量不同的引物和探针，并可以高效地用于扩增、克隆和/或确定基因组DNA的存在和/或水平。

在一些实施方式中，所述试剂盒可以包括用于检测是否存在多肽的试剂。这种试剂可以是抗体或其它特异性绑定到多肽的结合分子。在一些实施方式中，这种抗体或结合分子能够区别由于多态性的多肽结构变异，因此可用于基因分型。抗体或结合分子可以被标记为具有可探测的标记，例如，放射性同位素、荧光化合物、发光化合物、化学发光化合物、金属螯合剂、酶制剂、或粒子。试剂盒还可以包含用于绑定试验(如酶联免疫吸附试验ELISA)的其他试剂。

在一些实施方式中，试剂盒所包括的试剂用于基因分型至少两个、至少三个、至少五个、至少十个，或至少十五个药物基因组生物标志物。在一些实施方式中，试剂盒还可以包括一个表面或基底(诸如微阵列)用于捕获检测扩增的核酸用的探针。

试剂盒还可以包括载体，该载体被分隔为容纳在几乎密闭的一个或多个容器装置中，所述容器诸如小瓶、试管等，所述容器装置包括将要用于本发明的分离元件之一。例如，容器装置之一可以包括探针——进行或能够进行可检测标记。这种探针可以是对药物基因组生物标志物特异性的多核苷酸。如果试剂盒采用核酸杂交技术来检测目标核酸，该试剂盒还可以包含用于目标核酸序列扩增的核苷酸和/或包含报道装置的容器，诸如生物素结合蛋白，例如抗生物素蛋白或者抗生蛋白链菌素，所述报道装置绑定到报道分子，例如酶、荧光或放射性同位素标签。

本发明的试剂盒通常将包括上文所述容器和一个或更多其他容器——包括从商业或用户角度来看所需的材料，其包括缓冲剂、稀释剂、筛选器、针头、注射器，和插入包与使用说明。容器上可以存在标签以指示其组成用于特定治疗或非治疗性的应用中，也可能表示体内或体外的用途，如以上描述的那些。

试剂盒还包括用于制备组织或细胞样本和从样本制备核酸(诸如基因组DNA)的一套工具和材料。

发明提供各种适用于实施本发明方法的组合物(可以在试剂盒中使用)。例如本发明提供的表面，例如可用于这种方法的阵列。在一些实施方式中，本发明的阵列包括能够用于检测发明的药物基因组生物标志物的核酸分子的集合或个体。例如，本发明的阵列可以包括一系列的离散放置的单独核酸寡核苷酸或若干组核酸寡核苷酸的组合——与包括靶核酸的样本杂交，藉此，所述杂交指示本发明的药物基因组生物标志物的基因型。

用于将核酸附加到例如载玻片等的固体基底的若干种技术在本领域中是众所周知的。一种方法是将修饰的碱基或类似物加入到被合成的核酸分子中，所述修饰的碱基或类似物包含能够附加到固体基底的部分，例如胺基、胺基衍生物，或带正电的另一基团。此后，合成产物与固体基底(例如载玻片)接触，固体基底涂以醛或另一反应基团，其将与扩增产物上的反应基团形成共价键，并与载玻片共价连接。其他方法，如那些使用氨基丙基硅表面化学的方法，在本领域中也是已知的，如在万维网、cmt.corning.com和cmgm.stanford.edu/pbrown1上公开的。

使用本领域中已知的方法将随后可以转化为反应基团的基团连接到寡聚核苷酸也是可能的。寡聚核苷酸的核苷酸的任何附件将成为寡聚核苷酸的一部分，其将被连接到微阵列的固体表面。在连接到固体基底之前或之后，根据所使用技术的需要和要求，扩增的核酸可以进一步修饰，通过裂解为碎片或附加可探测标签。

本发明可以广泛应用于生物医学领域和个性化医学的新兴领域，为现代药物开发提供一系列的重要优势。这些优势包括但不限于，缩短时间，降低临床发展中识别药物的生物标志物的成本，大幅度提高药物审查的成功几率，挽救不经临床试验中的患者分级则被弃用的药物。

I.计算机可读介质

在另一方面，本发明提供的是计算机可读介质，其包括多个指示用于使用次优基因组DNA样本的基因分型，其包括如下步骤：a)接收所述次优的基因组DNA样本的序列信息；b)基于所述序列信息优化列入标准；和c)基于所述序列信息和所述优化的列入标准计算基因型。

本文还提供使用次优基因组DNA样本的基因分型方法，该方法包括优化列入标准。在一些实施方式中，优化可能会重复多次以包括和/或排除样本。在一些实施方式中，可确定优化列入标准。在一些实施方式中，通过使用全基因组检出算法和/或验证基因型检出算法可以获得基因分型数据。在一些实施方式中，列入标准可能是基因型检出算法的检出率临界值。在一些实施方式中，所使用的检出率临界值低于高质量基因组DNA的全基因组基因分型的典型检出率临界值，可以进行基因分型的检出，其中所使用的检出率临界值是约50％、60％、70％、80％、90％或95％。在一些实施方式中，通过使用多个基因分型平台能够获得基因分型的数据。在一些实施方式中，来自多个基因分型平台的基因分型数据可以被比较用于优化。

本发明还提供了一种方法使用基因分型进行关联分析，所述基因分型使用次优基因组DNA样本，所述方法包括优化列入标准。在一些实施方式中，关联分析可以被重复多次以进行优化。

J.实施例

提供下面的实例来说明，但不用于限制发明。

实施例1

使用来自临床试验的存档血浆样本对药物基因组生物标志物进行回顾性更新识别

患者。参加临床试验和药物治疗的患者当中，能够得到来自400人的血浆样本。案例被定义为那些对药物治疗做出积极反应的人，对照是那些对药物治疗没有反应或产生负面反应的人。研究之前，患者身份和个人的可识别信息已被删除，所有样本由第三方重新标记以保护患者的身份。

DNA制备。DNA是用带有一些修改的QIAGEN QIAamp MinElute Virus Spin(巴伦西亚，加利福尼亚州，美国)试剂盒从血浆样本中提取的。简单地说，1毫升血浆进行简单涡流，与30微克tRNA彻底混合。这种混合物分为200微升的等份，在加入细胞溶解缓冲液之前，孵化1小时。随后，96摄氏度下，裂解液随后煮沸5分钟，每个等份通过同一柱过滤。在10mM三羟甲基氨基甲烷盐酸盐(Tris-HCL)中洗脱DNA(pH8.5)，真空干燥并在无菌水中溶解。大多数情况下，从血浆中提取的基因组DNA的数量非常低，不足以随后进行基因分型，可以使用Amersham Bioscience GenomiPhi DNA扩增试剂盒(Piscataway，NJ)对DNA样本进行扩增。

SNP基因分型和数据分析。阶段I(图1)中，150个样本(75个案例和75个对照)使用Affymetrix GeneChip 500K映像阵列装置——根据Affymetrix标准协议包含500,000个SNP(Santa Clara,CA,USA)。由于血浆样本生成的次优的基因组DNA的质量和进行基因分型前所应用的全基因组扩增，部分样本的检出率可能会显著低于使用高质量基因组DNA时的典型检出率(>95％)。因此，截止检出率被大幅调整使其低于常规标准以包含尽可能多的样本。调整基因型检出算法的检出率临界值，并使基于调整的检出率临界值的基因型检出重复多次以确定最优的准则，以包括或排除样本(图2)。去除检出率低于最优临界值标准的样本之后,使用遗传数据分析软件PLINK(Purcell等，Am J Hum Genet(2007)81:559-5752)分析基因型结果以计算与相关表型相关联的每个多态性位点p-值。多态性位点根据所计算的与相关基因型的关联进行排序。使用Sequenom iPLEX阵列(Sequenom,San Diego,CA,USA)，选择200个最显著关联的SNP用于第II阶段研究。这些阵列被用于对来自临床试验的所有400份DNA样本进行基因分型。其中，用于阶段I中的150份样本作为验证组，其他250份样本用作复制组(图1)。来自MassARRAY Typer套件(Sequenom,San Diego,CA,USA)的Sequenom测定分析器生成最终的基因型检出。来自验证组的基因分型结果与阶段I生成的结果相比。使用高质量基因组DNA时，来自部分样本的检出率可能会显著低于典型调用率(>95％)，截止检出率可以被调整多次以包括和/或排除样本。去除检出率低于最优截止标准的样本以及两阶段之间有过多差异的样本(图3)太多的差异，通过使用PLINK程序计算与相关基因型关联的各个SNP的p-值。可以根据等位基因频率和/或基于基因型的测试进行计算，相关表型可以是断言的特征、量化的特征或另一相关表型。表现出与药物反应有显著关联的药物基因组生物标志物被识别，这些药物基因组生物标志物可能包括一个或更多SNP。被识别的多个药物基因组生物标志物可以位于基因组中彼此靠近的位置，还可以位于基因组中基因内含子/外显子中、基因间隔区中或在不包含任何已知基因的区域中。分类算法，例如支持向量机(SVM)和逻辑回归，可能会应用到数据集来标识最优的生物标志物和评分算法，因此可以正确地预测患者对药物治疗的反应。

以上的实例仅用于说明目的，并不是为了限制本发明的范围。以上所述的许多变体是可能的。因为对于上述实例的修改和变化对于本领域技术人员是显而易见的，本发明的范围仅由所附的权利要求书限定。

Claims

1.识别一个或更多药物基因组生物标志物的方法，该方法包括：

a）对显示相关表型的不同值的至少两个患者的存档临床样本DNA进行分离；

b）扩增所述分离的DNA，其中所述扩增是全基因组扩增（WGA），并且由其产生的DNA是全基因组扩增的DNA（wgaDNA）；

c）获得所述扩增DNA的高密度基因分型数据，其中所述高密度基因分型是全基因组基因分型，所述基因分型数据通过使用全基因组基因型检出算法（genotype callingalgorithm）获得；所述全基因组基因型检出算法的检出率临界值被多次调整以包括或排除样本；其中基于所述扩增DNA的序列信息优化检出率临界值，优化的检出率临界值为小于90%，基于序列信息和优化的检出率临界值计算基因分型；其中所述高密度基因分型使用单核苷酸多态性（SNP）；以及

d）基于所述基因分型数据和所述相关表型的不同值进行关联分析，

其中，所述一个或更多药物基因组生物标志物被识别；

e）通过使用验证性的基因型检出算法从先前进行的临床试验中的其他患者的归档临床样品中获得额外基因分型数据，其中通过多次调整验证基因型检出算法的检出率临界值以包括或排除样品；

f）将通过使用验证性的基因型检出算法获得的附加基因分型数据与通过使用全基因组基因型检出算法获得的基因分型数据相比较；g）基于上述的验证性基因分型数据进行关联分析，以验证在步骤d）中鉴定出的一种或多种药物基因组生物标志物与所述的相关表型之间的相关性；

其中来自步骤d）鉴定的药物基因组生物标志物的一个子集在步骤g）中被验证，用于对来自之前进行的临床试验的存档临床样本的回顾性研究；

其中所述存档的临床样本是血浆样本；

其中分离的DNA是质量和/或数量低于从全血中分离的基因组DNA的次优基因组DNA；

所述步骤c）使用了Affymetrix GeneChip；

所述步骤e），f），g）使用了Sequenom iPLEX阵列；

所述存档的血浆样本不提供全覆盖的全基因组。

2.根据权利要求1所述的方法，其特征在于，调整所述的全基因组基因型检出算法的检出率临界值以包括更多归档的临床样本。

3.根据权利要求1所述的方法，其特征在于，所述全基因组基因型检出算法为归责算法（imputation algorithm）。