CN101680027A

CN101680027A - 检测hiv耐药变异体的系统和方法

Info

Publication number: CN101680027A
Application number: CN200880008644A
Authority: CN
Inventors: B·B·西门; C·卢贝斯基; J·F·西蒙斯
Original assignee: 454 Life Science Corp
Current assignee: 454 Life Science Corp
Priority date: 2007-03-16
Filing date: 2008-03-14
Publication date: 2010-03-24
Also published as: WO2008115427A3; JP2010521156A; US8617816B2; US20100203497A1; EP2121984A2; WO2008115427A2; CA2679511A1

Abstract

在本发明的一个实施方案中描述了检测一个或更多个与耐药性相关的HIV序列变异体低频出现的方法，其包括从HIV样品群的RNA分子生成cDNA种类；从cDNA种类扩增第一扩增子，其中各扩增子包括已扩增拷贝并用限定基因座的核酸引物对扩增；克隆扩增第一扩增子的已扩增拷贝生成第二扩增子，其包括来自第一扩增子已扩增拷贝之一的基本相同拷贝的固定化群；在单个仪器上平行测定来自至少100个固定化群的核酸序列组合物；检测在该至少100个固定化群的核酸序列组合物中出现频率为5％或更低的一个或更多个序列变异体；以及将所检测序列变异体与HIV耐药性相关变异相关联。

Description

检测HIV耐药变异体的系统和方法

相关申请

本申请要求2007年3月16日递交的标题为“设计和应用HIV引物种类的系统和方法”的美国临时专利申请序列号60/918440和2007年9月14日递交的标题为“设计和应用HIV引物种类的系统和方法”的美国临时专利申请序列号60/972387的优先权；本申请也为2005年4月12日递交的标题为“用超深度测序法测定序列变异体的方法”的美国专利申请序列号11/104781的部分继续申请；各以其完整内容通过引用并入本文用于所有目的。

发明领域

本发明提供在目标多聚核苷酸群中平行检测和分析与HIV-1进化枝B和进化枝C的耐药性相关的序列变异体的方法、试剂和系统，其中所述变异体可包括单核苷酸多态性(SNPs)、插入/缺失变异体(称作“indels”)和等位基因频率。本发明也涉及通过平行焦磷酸测序经聚合酶链式反应(PCR)复制的核酸用于鉴定已知和未知序列二者的突变和多态性的研究方法。本发明涉及使用针对HIV RNA或其互补DNA的蛋白酶和逆转录酶区(具有低突变率)特异设计的核酸引物扩增被怀疑包含耐药序列变异体(也称作“准种”)的目标HIV核酸群中的核酸以产生各个的复制子。以大规模平行、有效且低成本的方式对数千的单个HIV扩增子测序以生成扩增子群中发现的序列变异体的分布，其能达到比之前所应用的方法更高的检测灵敏度。

发明背景

除了相同的同胞，不同个体的基因组DNA存在显著差异。许多人类疾病由基因组变异引起。人类和其他生命形式中的遗传多样性解释了疾病易感性的遗传差异。由所述遗传差异引起的疾病包括亨廷顿舞蹈症、囊性纤维化病、假肥大型肌营养不良和一些形式的乳腺癌。这些疾病均与单个基因突变相关。例如多发性硬化、糖尿病、帕金森病、阿耳茨海默病和高血压这样的疾病要复杂得多。这些疾病可归因于多基因(多个基因影响)或多因子(多个基因和环境影响)诱因。基因组中的许多变异不会引起疾病性状。但是如上所述，单个突变可引起疾病性状。而且，已知许多病毒基因组非常多样并具有高度变异性，其中变异可赋予病毒某些性状从而改变疾病进程或治疗方案。扫描人类或病毒基因组以鉴定引起该类疾病病理或与其相关的基因或特定突变的位点的能力是医学和人类生物学中效力非常强大的工具。

若干类型的序列变异，包括插入和缺失(indels)、重复序列数量的差异和单个碱基对差异(SNPs)引起基因组多样性。单个碱基对差异，称作单核苷酸多态性(SNPs)，为人类基因组中最常见的变异类型(约每10³个碱基中出现1个)。SNP为群体中以相对较高频率(大于1％)出现至少两个或更多可供选择的核苷酸等位基因的基因组位点。SNP也可以是单个碱基(或少数碱基)插入/缺失变异体(称作“indels”)。由于它们相对稳定(即表现出低突变率)并且由于单核苷酸变异(包括插入和缺失)可引起遗传性状，SNPs适用于研究序列变异。从上述讨论可知术语SNP也适用指“indel”(定义于下文)。

例如用基于微卫星分析鉴定的多态性已用于各种目的。已成功在多个案例中应用遗传连锁策略鉴定单个孟德尔因子的位点(Benomar等，(1995)，Nat.Genet.，10：84-8；Blanton等(1991)，Genomics，11：857-69)。已通过研究人类肿瘤中的杂合性丢失广泛地完成鉴定肿瘤抑制基因的染色体位点(Cavenee等(1983)，Nature，305：779-784；Collins等(1996)，Proc.Natl.Acad Sci.USA，93：14771-14775；Koufos等(1984)，Nature，309：170-172；和Legius等(1993)，Nat.Genet.，3：122-126)。此外，使用遗传标记推断引起复杂性状(例如I型糖尿病)的基因的染色体位点(Davis等(1994)，Nature，371：130-136；Todd等(1995)，Proc.Natl.Acad.Sci.USA，92：8560-8565)已成为人类遗传学研究的焦点。

尽管在鉴定许多人类疾病的遗传基础中已取得重大进展，但是目前用于开发这一信息的方法受到从大样品群中获得基因型信息需要的高成本和大的工作量的限制。这些限制使得鉴定引起病症(例如糖尿病)的复杂基因突变非常困难。扫描人类基因组以鉴定涉及疾病进程的基因位点的技术起始于20世纪80年代早期，其应用限制片段长度多态性(RFLP)分析(Botstein等(1980)，Am.J.Hum.Genet.，32：314-31；Nakamura等(1987)，Science，235：1616-22)。RFLP分析涉及DNA印迹法和其他技术。当在大量样品中进行时(例如需要鉴定与特定表型相关的复杂基因型)DNA印迹法即费钱又费时。随着基于聚合酶链式反应(PCR)的微卫星标记分析的发展避免了其中的一些问题。微卫星标记为由二、三和四核苷酸重复组成的简单序列长度多态性(SSLPs)。

其他类型的基因组分析基于应用与具有多等位基因变异和高杂合性的DNA高可变区杂交的标记。这些可用于指纹分析基因组DNA的可变区为被称作小卫星的短序列串联重复。多态性归因于重复数量的等位基因差异，其可由有丝分裂或减数分裂的不等交换或通过复制中的DNA滑移引起。

这些现有方法均具有显著的缺陷，因为他们费时并且分辨率有限。虽然DNA测序提供最高的分辨率，它也是测定变异体最昂贵的方法。例如，使用上述方法在1000个不同样品的群中测定SNP频率是非常昂贵的而鉴定100000个样品群中的SNP频率则更是耗资巨大。

人类免疫缺陷病毒(一般称作HIV)是一种DNA测序提供的灵敏度可具有巨大影响的疾病。当DNA测序可在早期治疗中(这时各耐药株的频率在群体中相对较低)提供对耐药HIV株的高灵敏度检测时这一点尤其明显。

尽管已批准了过多化合物用于治疗，HIV一直是世界性的难题。目前有六类药物，包括核苷/核苷酸逆转录酶抑制剂、非-核苷逆转录酶抑制剂、蛋白酶抑制剂、融合抑制剂、趋化因子受体抑制剂和整合酶抑制剂。这些靶向于HIV生命周期的四个阶段：病毒粒子RNA逆转录至DNA，前-病毒DNA整合入宿主基因组、切割多肽病毒基因产物至功能性蛋白质以及病毒侵入细胞表面。

对抗HIV和AIDS的主要问题在于耐药性突变的发展。国际艾滋病协会目前识别了其中的突变与耐药性相关的73个氨基酸残基，37个在蛋白酶中，27个在逆转录酶中，7个在被膜中以及2个在整合酶中(Johnson等，Topics in HIV medicine(2007)，15：119，以其完整内容通过引用并入本文用于所有目的)。这一列表每年都会更新至少一次。这些突变中的一些特异于某些药物，而其他突变或单独或组合导致药物类型耐药性。

由于病毒逆转录酶的易错性和高病毒更新(t¹/₂＝1-3天)，HIV基因组突变很快。估计逆转录酶平均每9.7Kb基因组的复制会产生一处突变，其不会显著影响病毒增殖的能力。这导致“准种”的形成，其中许多不同的突变体以动态关系存在。

就延长生命而言HIV患者获益于抗病毒治疗，但是当他们发展了对某一药物或药物组合的抗性时许多患者经历了数次被称作病毒学失败的事件。病毒学失败显著降低存活几率(Hennessey等，AIDS ResHum Retroviruses(2000)，16：103，以其完整内容通过引用并入本文用于所有目的)。

据推断治疗前单个患者中发现的准种亚组中引起耐药性的突变的存在可导致耐药病毒的生长和后续的病毒学失败(Coffin，Science(1995)，以其完整内容通过引用并入本文用于所有目的)。如果这是正确的，在决定治疗前检测低频存在的突变将是非常有利的。许多实验室已研发了专门的技术(例如寡聚核苷酸阵列或实时PCR测定)，但是这些技术仅限于测定预选核苷酸位点的病毒基因型并且每次识别了新的耐药突变时都需要调整。直接测序更好在于它不对某些核苷酸种类/残基产生偏倚并且也可鉴定新的耐药相关突变。目前，可利用基于传统Sanger测序法的试剂盒检测耐药突变，但是除非病毒种是第一次亚克隆的，否则这些系统不能可靠地检测频率低于25％的突变。亚克隆种的测序已明显表明低频耐药突变确实存在于来源自单个患者的病毒群体并且这些中的许多在标准大批量测序中无法测出(Palmer等，J.Clin.Microbiol(2005)，43：406，以其完整内容通过引用并入本文用于所有目的)。其他工作也显示约10％的慢性HIV感染、没有用药物治疗的(drug-naive)患者具有耐药突变(Novak等，Clin.Infect.Dis.(2005)，40：468，以其完整内容通过引用并入本文用于所有目的)。我们非常有理由假定这些低频、持久的耐药相关突变在治疗起始前存在并影响治疗结果。

因此，经测序有效检测这些突变使得对该疾病和来自早期检测的治疗可能性的认识取得很大进步。而且，高通量测序技术的实施使得称为“大规模平行”的操作比之前的测序技术具有更强大的分析、灵敏度和通量特性。举例而言，应用本文所述发明的HIV特异引物的高通量测序技术可达到对低丰度等位基因(其包括群体中1％或更低频率的等位基因变异体)的检测灵敏度。如上所述，这对于检测HIV变异体，尤其是耐药变异体是重要的，其中高灵敏度提供可带来巨大治疗益处的重要的早期检测机制。

发明简述

本发明涉及通过鉴定特定DNA诊断HIV耐药性中许多低频序列变异体(例如，等位基因变异体、单核苷酸多态性变异体、indel变异体)的方法。目前技术可通过例如聚合酶链式反应(PCR)检测SNPs。然而，通过PCR检测SNPs需要设计与一种类型而不是另一类型的SNP杂交的特异引物。此外，尽管PCR是非常有效的技术，等位基因的特异PCR需要预先了解SNP的性质(序列)以及多个PCR循环和凝胶电泳分析以测定等位基因频率。举例而言，5％等位基因频率(即二十分之一)的检测需要至少20次PCR反应。随着等位基因频率的降低(例如降低到4％、3％、2％或1％或更低)，检测等位基因频率需要的PCR和凝胶电泳数量显著增加。

现有方法均不能提供简单快速的通过鉴定特定DNA序列检测SNPs(包括低丰度SNPs)的方法。

我们已发现一种靶向于已知与耐药性相关的HIV区域的2阶段PCR技术与一种新颖的焦磷酸测序技术偶联可快速、可靠并且低成本地检测低频HIV序列变异体(SNPs、indels和其他DNA多态性)。此外，本发明的方法可检测以非化学计量的等位基因量存在于HIV样品中的序列变异体，例如，以低于50％、低于25％、低于10％、低于5％或低于1％存在的HIV变异体。该技术可以方便地称作“超深度测序”。

根据本发明提供了通过特异扩增和测序核酸样品中的多个等位基因诊断序列变异体(例如等位基因频率、SNP频率、indel频率)的方法。首先通过使用经设计用于扩增所关注区域(其包括已知与HIV耐药性相关的区域)周围区域的PCR引物对扩增核酸。接着进一步在单独的反应器中使用EBCA(基于乳液的克隆扩增(Emulsion BasedClonal Amplification))分别扩增各PCR反应产物(扩增子)。测序EBCA扩增子(在本文中称作第二扩增子)并将来自不同乳液PCR扩增子的序列集合用于测定等位基因频率。

在本发明的一个实施方案中描述了检测一个或更多个与耐药性相关的HIV序列变异体低频出现的方法，其包括以下步骤：从HIV样品群中的各RNA分子生成复数个cDNA种类；从cDNA种类扩增复数个第一扩增子，其中各第一扩增子包括复数个经扩增的拷贝并用限定第一扩增子的基因座的核酸引物对扩增；克隆扩增第一扩增子的已扩增拷贝以产生复数个第二扩增子，其中复数个第二扩增子包括来自第一扩增子已扩增拷贝之一的基本相同拷贝的固定化群；在单个仪器上平行测定来自至少100个固定化群的基本相同拷贝的核酸序列组合物；检测该至少100个固定化群的核酸序列组合物中一个或更多个出现频率为5％或更低的序列变异体；以及将所检测序列变异体与HIV耐药性相关变异相关联。

附图简述

图1图解描述了小珠乳液扩增法的一个实施方案。

图2图解描述了超深度测序法。

图3描述了用引物对SAD1F/R-DD14(A组)、SAD1F/R-DE15(B组)和SAD1F/R-F5(C组)生成的扩增子的质量评价。在BioAnalyzerDNA 1000 BioChip上进行分析，中心峰代表PCR产物并且侧峰为参比大小标记。各峰测定为理论大小(范围在156-181个碱基对之间)的5bp内。

图4描述了扩增子中的核苷酸频率(不匹配频率)，该扩增子代表MHC II基因座中以大约1∶500(A)和1∶1000(B)的比例(C等位基因比T等位基因)混合的两个不同等位基因，或仅有T等位基因(A)，克隆扩增并在454Life Sciences测序平台上测序。各柱形表示与一致序列的偏差频率并根据所得碱基替换用颜色编码(红色＝A；绿色＝C；蓝色＝G；黄色＝T)。

图5描述了如图4B和4C表示的相同数据，但是为用图4A表示的仅含T等位基因的样品减去了背景之后。

图6描述了将来自DD14HLA基因座的各种比例的C比T等位基因混合并在454平台上测序以测定动态范围。将实验观察到的比例对预期比例(横座标)作图。各数据点测序读取的实际数量总结于表1。

图7A：显示定位至1.6Kb 16S基因片段的读取位置的图形显示，表明定位至16S基因前100个碱基的大约12000个读取。B：显示了与7A相似的结果，除了用定位至碱基1000周围区域的V3引物。C：显示使用V1和V3引物二者的读取位置。

图8描述了明确区分了除1个之外所有200个序列中V1(图左半边的较短长度)和V3(图右半边的较长长度)序列的系统发生树。

图9描述了HIV-1进化枝B一致序列的一个实施方式(SEQ IDNo：133)和已知易于突变的区域。

图10描述了图9进化枝B序列的一个实施方式(SEQ ID NO：133)和靶向于设计复数组进化枝B引物的序列区域。

图11描述了HIV-1进化枝B一致序列的一个实施方式(SEQ EDNO：133)，该序列包括已知易于突变的区域和靶向于设计复数组进化枝C引物的序列区域。

图12描述了生成自跨越蛋白酶和逆转录酶区域的HIV RNA的cDNA分子的一个实施方式以及所得扩增子的重叠序列。

图13描述了处理RNA和鉴定低频序列变异体的方法的一个实施方式。

图14描述了从HIV受试者测定的HIV准种变异体混合物的一个实施方式。

图15描述了在HIV受试者样品中鉴定为3.7％频率的与蛋白酶抑制剂抗性相关的HIV准种变异体(SEQ ID No：132)的一个实施方式。

图16描述了在HIV受试者样品中鉴定为1.0％频率的与非-核苷逆转录酶抑制剂抗性相关的HIV准种变异体的一个实施方式。

图17描述了与核苷酸/核苷逆转录酶抑制剂抗性相关的HIV准种变异体的一个实施方式。

图18描述了HIV进化枝B(SEQ ED NO：133)和进化枝C(SEQED NO：134)序列之间的核苷酸序列比对。

发明详述

本发明涉及通过鉴定样品群中数千个(thousands of)特异核酸的序列组合物高灵敏度检测特异于HIV耐药性株的一个或更多个序列变异体的方法。序列变异体包括两个核酸分子之间的任何序列差异。因此，序列变异体应理解为至少也指单核苷酸多态性、插入/缺失(indels)、等位基因频率和核苷酸频率-也就是说这些术语是可互换的。尽管在本说明书中使用特定实施例讨论了不同的检测技术，应理解的是本发明的方法同样可应用于检测任何序列变异体。举例而言，本公开中对检测SNPs方法的讨论也适用于检测indels或核苷酸频率的方法。

本发明的方法可用于扩增和测序特异靶向模板，例如基因组、组织样品、异源细胞群体或环境样品中存在的那些。这些可包括，例如，PCR产物、候选基因、突变热点、进化或医学重要可变区域。它也可应用于例如全基因组扩增，接着通过使用可变或简并扩增引物进行全基因组测序。

至今为止，测序靶向模板需要制备和测序完整的所关注的基因组或对所关注区域的预先PCR扩增以及对该区域的测序。本发明的方法允许以比现有技术提供的远远更深的深度进行SNP测序。

在本公开中，“单核苷酸多态性”(″SNP″)可定义为存在于至少两个变异体中的SNP，其中最不常见的突变体存在于至少1％的群体中(Wang等，1998 Science 280：1077-1082)。群体中以小于1％出现的变异体通常被称作“突变”。应理解本公开的方法可应用于“indels”。因此，尽管本公开引用SNP，但是应理解如果在任何位置用术语“indels”替换“SNP”本公开同样可实施。

如本文所使用，术语“indel”意指与相关核酸序列相比在核酸序列中存在一个或更多个核苷酸的插入或缺失。因此，插入或缺失包括与在相邻的其它核苷酸位点相同的核酸序列相比在核酸序列中存在或不存在独特的一个或复数个核苷酸。插入和缺失可包括例如单个核苷酸、一些核苷酸或许多核苷酸，包括与相关参比序列相比在任何特定位点的5、10、20、50、100或更多核苷酸。应理解的是该术语也包括与相关序列相比核酸序列中的多于一个的插入或缺失。

核酸测序技术近期的发展已通过以比之前的技术大大降低的成本平行测序许多目标核酸分子显著增大了通量。这些发展允许本文所述发明的高灵敏度检测并可使用使与制备和/或测序方法相关的一个或更多个步骤或操作自动化的仪器进行。例如，一些仪器应用反应基底元件例如有孔的板或其他类型的多室结构，其提供在各孔或室中同时进行反应的能力。在一些实施方案中，用于测序的反应基底可包括称作

的阵列(也称作

板)，其形成自通过酸腐蚀产生几十万个非常小的孔的纤维光学面板，各孔可容纳基本相同的模板分子群。高通量测序技术以及用于大规模平行测序的系统和方法的实例描述于美国专利号6274320；6258568；6210891；7211390；7244559和7323305，各以其完整内容通过引用并入本文用于所有目的；以及美国专利申请序列号10/299,180；10/222,298；10/222,592和11/195254，各以其完整内容通过引用并入本文用于所有目的。

如上所述，平行测序许多核酸模板提供了本发明必须的灵敏度。举例而言，泊松统计表明完全上样的60mm×60mm PTP板(2×10⁶高质量碱基，由200,000×100个碱基读取组成)的检测下限(即少于一个事件)为三个事件(检测置信度为95％)和五个事件(检测置信度为99％)，见表1。这直接用读取的数量换算，所以10000个读取、1000个读取或100个读取具有相同的三个或五个事件的检测极限。如本文所使用术语“读取”通常指包括从单个核酸模板分子或该模板核酸分子的复数个基本相同拷贝的群体获得的序列组合物的数据。因为DNA读取的实际量高于上文例子中提供的200000，实际的检测下限预期甚至更低因为测定法的灵敏度增加。用于对比，通过基于焦磷酸测序的SNP检测已报导了检测四倍体基因组上的单独等位基因状态，只要最低频率等位基因比例存在于10％或更多的群体中(Rickert等，2002 BioTechniques.32：592-603)。常规荧光DNA测序灵敏度更低，难以分辨50/50(即50％)杂合子等位基因(Ahmadian等，2000Anal.BioChem.280：103-110)。

表1：检测零个或一个或更多个事件的可能性，基于群体总体的事件数量。“*”表示不能检测出三个事件的可能性为5.0％，因此检测所述事件的可能性为95％；类似地“**”表示检测出现五次的一个或更多个事件的可能性为99.3％。

结果，使用整个60×60mm PTP板检测单个变异体允许以95％置信度检测仅存在于0.002％群体中的变异体或以99％置信度检测存在于0.003％群体中的变异体。自然地，多重分析比该检测深度具有更大的可适用性并且表2显示了可在单个PTP板上同时筛选的变异体数量，以及以95％和99％置信度可检测的最低等位基因频率。

表2

变异体种类	读取数量	群体变异体频率(95％置信度)	群体变异体频率(99％置信度)
变异体种类	读取数量	群体变异体频率(95％置信度)	群体变异体频率(99％置信度)	1	200000	0.002％	0.003％
2	10000	0.030％	0.050％	1	200000	0.002％	0.003％
2	10000	0.030％	0.050％	5	4000	0.075％	0.125％
10	2000	0.15％	0.25％	5	4000	0.075％	0.125％
10	2000	0.15％	0.25％	50	400	0.75％	1.25％
100	200	1.50％	2.5％	50	400	0.75％	1.25％
100	200	1.50％	2.5％	150	133	2.25％	3.75％
200	100	3.0％	5.0％	150	133	2.25％	3.75％
200	100	3.0％	5.0％	500	40	7.5％	12.5％
1000	20	15.0％	25.0％	500	40	7.5％	12.5％

本发明的一个优点为可省去或简化通常与样品制备相关的大量步骤(例如，从组织提取和分离DNA用于测序)。举例而言，由于本方法的灵敏度，不再需要使用研磨组织和化学纯化的常规技术从组织提取DNA。而是将体积小于一微升的小组织样品煮沸并用于第一次PCR扩增。将该溶液扩增的产物直接加入emPCR反应。因此本发明方法减少了时间、精力和产物损失(包括人为失误引起的损失)。

本发明方法的另一优点为该方法非常适用于多重技术。如下文所述，本发明的二重引物允许在单次溶液扩增中将多个基因的引物组与相同的焦磷酸测序引物组组合。或者，可将多次制备的产物置于单次乳液PCR反应中。结果本发明方法显示出高通量应用的巨大潜力。

本发明的一个实施方案涉及测定HIV耐药变异体的等位基因频率(包括SNP和indel频率)的方法。在第一个步骤中，用来自患者(也称作“受试者”)的HIV RNA作为模板生成cDNA分子。接着通过PCR用一组或更多组目标特异引物扩增一个或更多个包括要分析的基因座的核酸群体，产生第一扩增子群。各基因座可包括复数个等位基因例如2、4、10、15或20个或更多等位基因。第一扩增子可为任意大小，例如50至100bp之间、100bp至200bp之间或200bp至1kb之间。本方法的一个优点为不需要知道两个引物之间的核酸序列。

在接下来的步骤中，将第一扩增子群递送至油包水乳液中的水相微反应器中这样复数个水相微反应器包括(1)足够的DNA以起始由单个模板或扩增子主导的扩增反应(2)单个小珠和(3)包含进行核酸扩增必要的试剂的扩增反应溶液(参见下文关于EBCA(基于乳液的克隆扩增(Emulsion Based Clonal Amplification))的讨论)。我们已发现即使微反应器中存在两个或更多个模板也可实现单个模板或扩增子主导的扩增反应。因此本发明也设想了包括多于一个模板的水相微反应器。在优选的实施方案中，各水相微反应器具有用于扩增的DNA模板的单个拷贝。

递送步骤之后，在微反应器中扩增第一扩增子群以形成第二扩增子。可使用例如EBCA(其涉及PCR)在热循环仪中进行扩增以产生第二扩增子。EBCA之后，将第二扩增子结合至微反应器中的小珠上。将这些结合了第二扩增子的小珠递送至平坦表面上的反应室阵列(例如至少10000个反应室的阵列)。调整递送这样复数个反应室包括不多于单个小珠。可通过例如使用其中的反应室足够小仅容纳单个小珠的阵列实现。

同时在复数个反应室上进行测序反应以测定对应于所述复数个等位基因的复数个核酸序列。平行使用反应室平行测序的方法公开于上文的另一部分和实施例中。测序后，可通过分析目标核酸群的序列测定至少两个等位基因的等位基因频率。例如，如果测定了10000个序列并且9900个序列为“aaa”而100个序列为“aag”，可以说该“aaa”等位基因具有90％的频率而“aag”等位基因具有10％的频率。这一点更详细地描述于下面的说明书和实施例中。

本发明方法的一个优点为其允许比之前所达到的更高的HIV序列变异灵敏度水平。如果使用PTP板，本发明的方法可测序每picotiter板中一个等位基因的多于100000或多于300000个不同拷贝。检测灵敏度允许检测在受试者样品中代表1％或更少的等位基因变异体的低丰度等位基因。本发明方法的另一优点为测序反应还提供被分析区域的序列组成。即不需要预先知道被分析基因座的序列信息。

在优选的实施方案中，本发明的方法可检测小于10％、小于5％或小于2％的等位基因频率。在更优选的实施方案中，该方法可检测小于1％，例如小于0.5％或小于0.2％的等位基因频率。检测灵敏度的典型范围为0.1％和100％之间、0.1％和50％之间、0.1％和10％之间(例如0.2％和5％之间)。

在多种实施方案中，核酸的目标群可来自多种来源。例如，HIV样品的来源可为来自对HIV感染易感的患者/受试者或其他生物体的组织或体液。同样地，其他样品类型的来源可包括任何生物体，包括哺乳动物。哺乳动物可为人类或具有商业价值的牲畜例如奶牛、绵羊、猪、山羊、兔子等。所描述方法也允许分析植物的组织和液体样品。尽管可使用所描述方法分析所有的植物，但是优选的植物包括有商业价值的农作物种类，包括单子叶植物和双子叶植物。在一个具体的实施方案中，核酸的目标群可来源自谷粒或食物产品以测定组成该谷粒或食物产品的基因型、等位基因或种类的来源和分布。这些作物包括例如玉蜀黍、甜玉米、南瓜、甜瓜、黄瓜、甜菜(sugerbeet)、向日葵、稻、棉花、油菜、甘薯、豆(bean)、豇豆、烟草、大豆、苜蓿、小麦等。

在一些实施方案中，核酸样品也可收集自多种生物体。例如，可在一个实验中进行1000个体的群体的等位基因频率，分析来自1000个体的混合DNA样品。自然地，对于代表群体等位基因频率的混合DNA样品，群体各成员(各个体)必须向集合样品提供相同(或大致相同)量的核酸(相同拷贝量的等位基因)。举例而言，在基因组等位基因频率的分析中，各个体向集合DNA样品提供来自约1.0×10⁶细胞的DNA。

在另一个实施方案中，可测定单个个体的多态性。即目标核酸可分离自单个个体。举例而言，可检测来自个体多个组织样品的集合核酸的多态性和核苷酸频率。这可用于例如测定个体的肿瘤或怀疑包含肿瘤的组织中的多态性。本发明的方法可用于例如测定个体组织样品(或来自多个组织样品的集合DNA)中已活化癌基因的频率。在这一实施例中，50％或更高等位基因频率的已活化癌基因指示该肿瘤为单克隆的。少于50％的已活化癌基因指示该肿瘤为多克隆的，或该组织样品包含肿瘤组织和正常(非肿瘤)组织的组合。此外，在可疑组织的活组织检查中，例如1％已活化癌基因的存在可指示肿瘤正形成或恶性肿瘤浸润的存在。

目标核酸群可为任何核酸包括DNA、RNA和所述DNA和RNA的各种形式，例如质粒、粘粒、DNA病毒基因组、RNA病毒基因组、细菌基因组、线粒体DNA、哺乳动物基因组、植物基因组。核酸可分离自组织样品或体外培养物。基因组DNA可分离自组织样品、完整生物体或细胞样品。如果需要可将目标核酸群体标准化这样它包含来自组成群体各个体的等同量的等位基因。

本发明的一个优点为可直接使用基因组DNA而不需进一步处理。然而，在优选的实施方案中，该基因组DNA可基本不含影响PCR或杂交过程的蛋白质，并基本不含破坏DNA的蛋白质(例如核酸酶)。优选地，该分离的基因组也不含影响PCR的聚合酶功能的非蛋白抑制剂(例如重金属)和杂交的非蛋白抑制剂。可通过许多本领域已知的方法从分离的基因组去除蛋白质。例如，可使用蛋白酶(例如蛋白酶K或链霉蛋白酶)，通过使用强效去污剂，例如十二烷基硫酸钠(SDS)或十二烷基肌氨酸钠(SLS)，或两者，裂解获得分离基因组的细胞，以去除蛋白质。可用苯酚和氯仿萃取已裂解的细胞产生包含核酸的水相(包括分离的基因组)，其可用乙醇沉淀。

目标核酸群可来源自具有未知来源DNA的来源，例如土壤样品、食物样品等。举例而言，测序存在于来自食物样品的核酸样品中的病原体的等位基因可允许测定食物中是否存在病原体污染。此外，本发明方法可允许测定食物中病原体等位基因的分布。举例而言，本发明方法可测定环境样品例如土壤样品(参见，实施例5)或海水样品中的特定生物体(例如，细菌、病毒、病原体)的株(种)或株(种)分布。

该方法的一个优点为对该方法而言不需预知变异的信息。因为该方法基于核酸测序，一个位置的所有变异均可检测。此外，测序不需克隆。DNA样品按顺序在一系列步骤中扩增而不需克隆、亚克隆以及培养所克隆的DNA。

上述低频变异检测的各方面尤其适用于本发明描述的背景中。例如下文更详细描述的，本发明提供检测和定量与耐药性相关的所有HIV变异体，尤其是在病毒样品中低频出现的变异体。在本实施例中这些病毒样品可包括HIV病毒分离株。在当前描述发明的一些优选实施方案中，“目标群”、“样品群”或“受试者群”可来源自包括可检测滴度的病毒的HIV RNA源。在典型的实施方案中，该来源包括来自人类受试者的样品，其包括从已接受或还未接受药物治疗方案的HIV感染患者(即该患者是或不是使用了药物的(drug-naive))收集的组织或液体样品。而且，如本文描述的本发明方法可测定变异是否在样品中低频存在于逆转录酶和/或蛋白酶区域，其中变异可与已知耐药性或新鉴定的抗性株相关。该方法也提供样品群中各变异体频率的测定，其可应用于决定或改变治疗方案，所述治疗方案可包括由于已鉴定HIV变异体株引起的抗性而避免使用几乎不具有治疗益处的一种或更多种药物、药物类型或药物组合。

所描述方法的其他应用包括序列变异体的群体研究。DNA样品可收集自生物体群并在一个实验中组合和分析以测定等位基因频率。生物体群可包括例如人群、家畜群、收获的谷粒群等。其他应用包括检测和定量来自包括混合群体的肿瘤和正常细胞的活组织检查样品的肿瘤活组织检查样品(例如，肺和结肠直肠癌)中的体细胞突变。本发明的方法也可用于高置信度重新测序临床相关易感性基因(例如，乳腺癌、卵巢癌、结肠直肠癌和胰腺癌、黑色素瘤)。

所描述方法的另一应用涉及鉴定与复数个不同基因组相关的多态性。这些不同的基因组可分离自由一些表型特征、家族起源、物理性相似、种族、类别等相关联的群体。在其他情况下，基因组随机选自群体使得它们之间除了选自相同群体之外不具有关联。在优选的实施方案中，进行该方法以测定具有特异表型特征(例如遗传病或其他性状)的受试者的基因型(例如，SNP含量)。

所描述方法也可用于通过检测杂合性丢失特征化肿瘤的遗传组成或测定特定SNP的等位基因频率。此外，该方法可用于通过鉴定基因组中存在或不存在SNPs组中的每个而生成基因组的基因组分类密码以及测定SNPs的等位基因频率。此处更详细地讨论了这些应用。

本发明优选应用于高通量基因分型法中。“基因分型”为鉴定基因组DNA中存在或不存在特定基因组序列的方法。不同的基因组可分离自由一些表型特征、家族起源、物理性相似、种族、类别等相关联的群体个体，以鉴定与表型家族、位点、种族、类别等相关的多态性(例如，与复数个不同基因组相关者)。或者，不同的基因组可随机分离自群体使得它们之间除了在群体中的起源之外没有关联。这些基因组中多态性的鉴定表明群体整体中存在或不存在多态性，但是不一定与特定表型相关。因为基因组可跨越较长的DNA区域并涉及多个染色体，用于检测基因型的本发明方法需要分析多个位点处的复数个序列变异体以99.99％的可靠度检测基因型。

尽管基因分型经常用于鉴定与特定表型性状相关的多态性，这一相关性并不是必需的。基因分型仅要求存在多态性，其可位于或不位于编码区。当用基因分型鉴定表型特征时，假定多态性影响被特征化研究的表型性状。表型可为有利的、有害的或者在一些情况下是中性的。根据本发明方法鉴定的多态性可影响表型。一些多态性发生在蛋白质编码序列中并因此可影响蛋白质结构，藉此引起或影响所观察到的表型。其他多态性发生在蛋白质编码序列之外但是影响该基因的表达。还有其他多态性仅发生在所关注基因的附近并可用作该基因的标记。单一的多态性可引起或影响多于一种的表型特征，相似地，单一的表型特征可归因于多于一种多态性。一般而言，发生在基因内的多个多态性与相同的表型相关。此外，个体对特定多态性而言是杂合或纯合可影响是否存在特定的表型性状。

通过鉴定显示表型特征的实验受试者群体和不显示该表型特征的对照群体进行表型关联。出现在共享表型特征的实验受试者群体中而不出现在对照群体中的多态性被认为是与表型性状相关的多态性。当鉴定一种多态性与表型性状相关时，可筛选具有潜力发展表型性状或特征的受试者基因组测定受试者基因组中该多态性的出现或未出现以确定这些受试者是否有可能最终发展该表型特征。可在处于发展特定病症(例如亨延顿舞蹈病或乳腺癌)风险的受试者中进行这些类型的分析。

所描述方法的一个实施方案涉及将表型性状与SNP关联的方法。表型性状包括任何类型的遗传疾病、状况或特征，可在受试者中确实地测定其存在或不存在。遗传疾病或状况的表型性状包括其组分为遗传性(例如由于SNP在受试者中的出现)的多因子疾病以及对这些疾病的素因。这些疾病包括但不限于例如哮喘、癌症、自身免疫疾病、炎症、失明、溃疡、心脏或心血管疾病、神经系统病症以及对病原微生物或病毒感染的易感性。自身免疫疾病包括但不限于类风湿关节炎、多发性硬化、糖尿病、全身性红斑狼疮和格雷夫斯病。癌症包括但不限于膀胱癌、脑癌、乳腺癌、结肠癌、食道癌、肾癌、造血系统癌(例如白血病)、肝癌、肺癌、口腔癌、卵巢癌、胰腺癌、前列腺癌、皮肤癌、胃癌和子宫癌。表型性状也包括对药物或其他治疗的易感性、表观、高度、颜色(例如开花植物)、强度、速度(例如赛马的)、头发颜色等。已描述了与遗传变异相关的表型性状的许多实例，参见，例如美国专利号5908978(其鉴定了一些种类的植物中与遗传变异相关的疾病抗性关联)和美国专利号5942392(其描述了与阿耳茨海默病发展相关的遗传标记)。

鉴定遗传变异(例如SNPs的出现)和表型性状之间的关联可用于许多目的。举例而言，鉴定受试者中SNP等位基因的存在和受试者最终发展某一疾病之间的关联尤其可用于给予早期治疗或制定生活方式的改变(例如，减少胆固醇或脂类食物以避免对该疾病具有高于正常的素因的受试者的心血管疾病)，或密切监测患者癌症或其他疾病的发展。其也可用于产前筛选以鉴定胎儿是否患有严重的疾病或易于发展该严重疾病。此外，这一类型的信息可用于筛选为增强或显示期望特征而繁殖的动物或植物。

测定与复数个基因组相关的一个SNP或复数个SNPs的方法为在来源自具有该性状的生物体的复数个基因组样品中筛选存在或不存在SNP。为了确定哪些SNPs与特定表型性状相关，从显示特定表型性状的一组个体中分离基因组样品，并且分析样品中是否存在常见SNPs。可将从各个体获得的基因组样品组合形成集合基因组样品。接着本发明方法可用于测定各SNP的等位基因频率。使用本发明高通量方法中的SNPs组筛选集合基因组样品以测定特定SNP(等位基因)的存在或不存在是否与表型相关。在一些情况下，有可能预测特定受试者显示相关表型的可能性。如果一个特定多态性等位基因存在于30％发展了阿耳茨海默氏病的个体中但是仅存在于1％群体中，那么具有该等位基因的个体具有更高的发展阿耳茨海默氏病的可能性。该可能性也取决于若干因素，例如未患阿耳茨海默氏病的个体是否具有该等位基因以及其他因素是否与阿耳茨海默氏病的发展相关。这一类型的分析可用于测定显示特定表型的可能性。为了增强这一类型分析的预测能力，可分析与特定表型相关的多个SNPs并鉴定相关性数值。

也可能鉴定与特定疾病分离的SNPs。可检测和检验多个多态性位点以鉴定它们之间或标记(SNP)和表型之间的物理连锁。这可用于把与表型性状连锁或相关的基因座定位到染色体位点并藉此揭示与该表型性状相关的一个或更多个基因。如果两个多态性位点随机分离，那么它们或者在分离的染色体上或距离足够远，就它们之间位于相同的染色体上而言它们不是共分离的。如果两个位点以显著频率共分离，那么他们在相同的染色体上相互连锁。这些类型的连锁分析可用于开发遗传图谱，其可确定对表型(包括疾病表型)重要的基因组区域。

可在显示高比率的特定表型或特定疾病的家族成员上进行连锁分析。从显示表型性状的家族成员以及未显示该表型性状的受试者分离生物样品。这些样品各用于产生各个SNPs等位基因频率。可分析这些数据以测定各种SNPs是否与表型性状相关以及是否任何SNPs与表型性状分离。

分析连锁数据的方法已描述于许多参考文献中，包括Thompson和Thompson，Genetics in Medicine(第5版)，W.B.Saunders Co.，Philadelphia，1991；和Strachan，″Mapping the Human Genome″in theHuman Genome(Bios Scientific Publishers Ltd.，Oxford)第4章，并总结于PCT公布的专利申请WO98/18967(Affymetrix，Inc.)中。与当标记和基因座不连锁时的数值相比，通过计算优势log值(LOD值)涉及的连锁分析揭示了标记和基因座之间以某一重组分数的连锁可能性。重组分数表明标记连锁的可能性。已分别开发了用于计算不同重组分数数值的LOD评分和基于特定LOD评分测定重组分数的计算机程序和数学表。参见，例如Lathrop，PNAS，USA 81，3443-3446(1984)；Smith等，Mathematical Tables for Research Workers in Human Genetics(Churchill，London，1961)；Smith，Ann.Hum.Genet.32，127-1500(1968)。用于表型性状遗传定位的LOD值的应用描述于PCT公布的专利申请WO98/18967(Affymetrix，Inc)中。一般而言，正LOD评分值表示两个基因座是连锁的而+3或更大的LOD评分是两个基因座连锁的有力证据。负值表示连锁的可能性较低。

本发明方法也可用于评价肿瘤中杂合性的丢失。肿瘤中的杂合性丢失可用于测定肿瘤状态，例如该肿瘤是否为侵袭性、转移性肿瘤。可通过从获得自患有相同类型肿瘤的复数个受试者的肿瘤样品以及获得自相同受试者的正常(即非癌性的)组织分离基因组DNA实施本方法。这些基因组DNA样品可用于本发明的SNP检测方法。与正常组织产生的SNP等位基因相比肿瘤中不存在该SNP等位基因表明是否出现杂合性丢失。如果一个SNP等位基因与癌症的转移状态相关，该SNP等位基因的不存在可与其在非转移性肿瘤样品或正常组织样品中的存在或不存在相比。可生成出现在正常和肿瘤组织中的SNPs的数据库并且SNPs在患者样品中的出现可与该数据库对比用于诊断或预后目的。

它也可用于分辨非转移性原发肿瘤和转移性肿瘤，因为转移是癌症患者治疗失败的主要原因。如果可在早期检测转移，可积极治疗以减缓疾病进程。转移是一个复杂的过程，其涉及细胞从原发肿瘤上脱离，这些细胞通过血液循环移动并且肿瘤细胞在本地或较远的组织位点最终定居。此外，需要能够检测特定癌症发展的素因这样可起始监控和早期治疗。许多癌症和肿瘤与遗传变异相关。

实体肿瘤从肿瘤发生开始发展经转移阶段至若干遗传畸变发生的阶段，例如Smith等，Breast Cancer Res.Terat.，18 Suppl.1，S5-14，1991。据信遗传畸变可改变肿瘤这样它可发展至下一阶段，即通过引起增殖优势，发展耐药性或血管发生、蛋白质水解或转移能力增强的能力。这些遗传畸变被称作“杂合性丢失”。杂合性丢失可由缺失或重组引起，导致在肿瘤进程中发挥重要作用的遗传突变。据信肿瘤抑制基因的杂合性丢失在肿瘤进程中发挥重要作用。例如，据信位于染色体13q 14的视网膜母细胞瘤抑制基因的突变引起视网膜母细胞瘤、骨肉瘤、小细胞肺癌和乳腺癌的进展。相似地，3号染色体的短臂已显示与癌症例如小细胞肺癌、肾癌和卵巢癌相关。例如，溃疡性结肠炎，一种与癌症风险增加相关的疾病，可能包括多步骤进展，其中包括积累的遗传变化(美国专利号5814444)。已显示患有长期溃疡性结肠炎的患者显示出癌症风险增加并且一个早期标记为8号染色体的远短臂区域的杂合性丢失。这一区域为假定的肿瘤抑制基因的位点，该基因也与前列腺癌和乳腺癌相关。通过在患有溃疡性结肠炎的患者中常规地实施本发明的方法可容易地检测杂合性丢失。相似的分析可使用获自其他已知或被认为与杂合性丢失相关的肿瘤的样品进行。本发明方法尤其有利于研究杂合性丢失因为可一次筛选数千个肿瘤样品。

所描述方法的实施方案涉及处理核酸以测定等位基因频率。该方法可大致定义于下列三个步骤中：(1)样品制备-制备第一扩增子；(2)小珠乳液PCR-制备第二扩增子。(3)通过合成测序-测定第二扩增子的多个序列以测定等位基因频率。下文和实施例部分更详细地描述了各步骤。

本文所述发明的优选实施方案包括使用特别设计的引物组应用上文直接描述的方法步骤，该引物组允许检测包含多个HIV病毒种类的样品中的高频和低频突变。举例而言，通过传统(双脱氧核苷酸终止子)测序法至今还不能检测HIV-1进化枝B和进化枝C样品中的微小变异体(minor variants)。这些微小变异体在这些突变可引起逆转录病毒药物抗性的情况下是重要的。使用一个或更多个引物组并接着进行测序过采样，可低偏倚检测已知的和之前未鉴定的抗性突变(即该方法不完全集中在已知的突变上并且不依赖直接结合至所关注位点邻近的引物，如绝大多数灵敏检测法已发展的那样)。如本文所使用术语“测序过采样”通常指以可提供高灵敏度水平检测该区域的样品群体中序列变异体的频率测序不同来源(即不同病毒颗粒)的相同区域(即在一个扩增子区域中)。

在一些实施方案中，本文描述的引物组可应用于高灵敏度测序法中，例如上文描述的目标特异扩增子(也称作“超深度”)法，其可达到检测以小于1％群体的频率出现的序列变异体的灵敏度。在一些情况下该灵敏度可检测群体中的0.01％频率。

在本文描述的发明中，通过相关领域普通技术人员熟知的方法使用许多已知HIV序列的比对设计引物组。举例而言，本领域可获得多种序列比对方法、算法和应用，包括但不限于Smith-Waterman算法(Smith TF，Waterman MS(1981).″Identification of Common MolecularSubsequences″.Journal of Molecμlar Biology 147：195-197，以其完整内容通过引用并入本文用于所有目的)、BLAST算法(Altschul，S.F.，Gish，W.，Miller，W.，Myers，E.W.& Lipman，DJ.(1990)″Basic localalignment search tool.″J.MoI.Biol.215：403-410，以其完整内容通过引用并入本文用于所有目的)和Clustal(Thompson JD，Gibson TJ，Plewniak F，Jeanmougin F，Higgins DG(1997)，The ClustalX windowsinterface：flexible strategies for mμltiple sequence alignment aided byquality analysis tools.Nucleic Acids Research，25：4876-4882，以其完整内容通过引用并入本文用于所有目的)。在本实施例中，任何上述比对算法可用于进行来自相同一般序列区域的序列的多重比对。这些序列通常可获得自各种公共资源例如熟知的GenBank数据库，或者在HIV的本例中，这些序列可获得自Los Alamos National Laboratory维护的HIV序列数据库。同样在本实施例中也可特异选择与任何进化枝相关的HIV POL区的序列进行比对。如相关领域普通技术人员已知HIV具有巨大的遗传多样性，其中感染可能与某一特定的病毒进化枝(也称作亚型)相关。目前已鉴定9种进化枝，由字母A-K命名，其中一些进化枝类型与特定的地理区域相关。例如，HIV进化枝B通常存在于北美和欧洲而进化枝C通常存在于南非和印度。

图9提供了POL区域中超过6000个HIV进化枝B序列比对结果实例的图解。如图9所示，将数千个不同HIV序列群比对至单个“一致”序列提供了该HIV序列群在各序列位点最频繁核酸种类的身份的表示以及各位点变异性程度和突变频率的测量。这些突变频率的测量在图9的实施例中显示为高于序列表示的柱形并与特定序列位点相关。而且，这些柱形也可包括其他一些特性的图解标识符例如颜色(或其他图解表示例如散列符号等)以表示其他特性例如进化枝的突变频率并且柱形的高度表示频率测定的程度。图9也显示了已知对耐药性相关突变敏感的所关注区域，使用位于一致序列下面的小框表示该序列区域，其中框的颜色再一次表示附加信息例如药物类型或所关注的特定药物。这些药物种类和疗法包括但不限于高活性抗逆转录病毒疗法(也称作HAART)；蛋白酶抑制剂(也称作PI)；核苷酸/核苷逆转录酶抑制剂(也称作NRTI)；以及非核苷逆转录酶抑制剂(NNRTI)。

接着设计图9一致序列区的引物组，其比已知突变易感性的区域更保守(即突变可能性更低)。靶向具有低突变率的序列区域用于引物设计的优点包括可靠地使用已设计的引物而基本上没有失败风险的能力(因为目标区域的突变将导致引物不能结合)，以及使用多个进化枝的相同引物组的可能性。图10提供了选择用于研究进化枝B序列的引物设计的区域的示例性实例，以具有指示箭头(指示所设计引物的相对方向性)的阴影框表示。

显示于图10的已设计的进化枝B引物的实例包括：

SEQ ID

名称序列 No：长度

B-BF GCCTCCCTCGCGCCATCAGTGCCAGGAAGATGGAAACCA 35 39

B-AR GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCCCCTA 36 43

B-CR GCCTTGCCAGCCCGCTCAGGTACAGTTTCAATAGGACTAATGGG 37 44

B-BR GCCTTGCCAGCCCGCTCAGTTGGGCCATCCATTCCTGG 38 38

B-ACF-1 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAACGACC 39 39

B-ACF-2 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAGCGACC 40 39

B-4F GCCTCCCTCGCGCCATCAGGTACCAGTAAAATTAAAGCCAGGAATGG 41 47

B-1F GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAAAAAATAAAAGC 42 47

B-2F GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGAATACCACATCC 43 46

B-1R-1 GCCTTGCCAGCCCGCTCAGGGATGTGGTATTCCTAATTGAACTTCC 44 46

B-1R-2 GCCTTGCCAGCCCGCTCAGGGATGTGGTATTCCTAATTGGACTTCC 45 46

B-4R-1 GCCTTGCCAGCCCGCTCAGCTAGGTATGGTAAATGCAGTATACTTCCT 46 48

B-4R-2 GCCTTGCCAGCCCGCTCAGCTAGGTATGGTAAATGCAGTATACTTTCT 47 48

B-5F GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAGTACAATGT 48 47

B-2R GCCTTGCCAGCCCGCTCAGAAGGCTCTAAGATTTTTGTCAT 49 41

B-3F GCCTCCCTCGCGCCATCAGAGAGCCTTTTAGAAAACAAAATCCAGA 50 46

B-3R GCCTTGCCAGCCCGCTCAGCACTATAGGCTGTACTGTCCATTTATC 51 46

B-5R-1 GCCTTGCCAGCCCGCTCAGAACTTCTGTATGTCATTGACAGTCCA 52 45

B-5R-2 GCCTTGCCAGCCCGCTCAGAACTTCTGTATATCATTGACAGTCCA 53 45

所有引物以5′-3′方向列出。而且，应理解一组中的某一引物可具有多于一个种类，归因于一个或更多个序列位点的序列简并性。例如，B-ACF-1和B-ACF-2代表图10显示的ACF引物的种类，它们之间的差异在于引物序列中相同碱基位点A与G核苷酸种类的差异。

此外，图11提供了进化枝B和进化枝C引物之间差异的图解实例并显示了选择用于研究进化枝C序列的进化枝B引物设计的经修饰的区域，如具有指示箭头(指示所设计引物的相对方向性)的阴影框所示。而且，如上文所述一些引物组具有多于一个种类的引物。举例而言，与进化枝B引物序列相似，C-ACF-1和C-ACF-2引物序列的差异为相同碱基位点的相同A与G核苷酸种类的差异。

显示于图11的已设计的进化枝C引物的实例包括：

SEQ

名称序列 ID No：长度

C-ACF-1 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAACGACC 54 39

C-ACF-2 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAGCGACC 55 39

C-BF-1 GCCTCCCTCGCGCCATCAGTGCCAGGAAAATGGAAACCA 56 39

C-BF-2 GCCTCCCTCGCGCCATCAGTGCCAGGAAATTGGAAACCA 57 39

C-AR-1 GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCCCCTA 58 43

C-AR-2 GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCTCCTA 59 43

C-CR GCCTTGCCAGCCCGCTCAGGCTTTAATTTTACTGGTACAGTTTCAAT 60 47

C-BR GCCTTGCCAGCCCGCTCAGTTGGGCCATCCATTCCTGG 61 38

C-4F GCCTCCCTCGCGCCATCAGGTACCAGTAAAATTAAAGCCAGGAATGG 62 47

C-1F-1 GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAGAAAATAAAAGC 63 47

C-1F-2 GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAAAAAATAAAAGC 64 47

C-1R-1 GCCTTGCCAGCCCGCTCAGGGGTGTGGTATTCCTAATTGAACCTCC 65 46

C-1R-2 GCCTTGCCAGCCCGCTCAGGGGTGTGGTATTCCTAATTGAACTTCC 66 46

C-2F-1 GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGAATACCACACCC 67 46

C-2F-2 GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGGATACCACACCC 68 46

C-4R-1 GCCTTGCCAGCCCGCTCAGATACTAGGTATGGTGAATGCAGTATATTT 69 48

C-4R-2 GCCTTGCCAGCCCGCTCAGATACTAGGTATGGTGAATGCAGTATACTT 70 48

C-5F-1 GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAATATAATGT 71 47

C-5F-2 GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAGTACAATGT 72 47

C-2R GCCTTGCCAGCCCGCTCAGAGGGCTCTAAGATTTTTGTCAT 73 42

C-3F-1 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCAAAAAATCCAGA 74 46

C-3F-2 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCACAAAATCCAGA 75 46

C-3F-3 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCAAAAAACCCAGA 76 46

C-3F-4 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCACAAAACCCAGA 77 46

C-3R GCCTTGCCAGCCCGCTCAGCTGTATAGGCTGTACTGTCCATTTGTC 78 46

C-5R GCCTTGCCAGCCCGCTCAGAACTTCTGTATATCATTGACAGTCCA 79 45

C-ACF-1 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAACGACC 80 39

C-ACF-2 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAGCGACC 81 39

C-BF-1 GCCTCCCTCGCGCCATCAGTGCCAGGAAAATGGAAACCA 82 39

C-BF-2 GCCTCCCTCGCGCCATCAGTGCCAGGAAATTGGAAACCA 83 39

C-AR-1 GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCCCCTA 84 43

C-AR-2 GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCTCCTA 85 43

C-CR GCCTTGCCAGCCCGCTCAGGCTTTAATTTTACTGGTACAGTTTCAAT 86 47

C-BR GCCTTGCCAGCCCGCTCAGTTGGGCCATCCATTCCTGG 87 38

C-4F GCCTCCCTCGCGCCATCAGGTACCAGTAAAATTAAAGCCAGGAATGG 88 47

C-1F-1 GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAGAAAATAAAAGC 89 47

C-1F-2 GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAAAAAATAAAAGC 90 47

C-1R-1 GCCTTGCCAGCCCGCTCAGGGGTGTGGTATTCCTAATTGAACCTCC 91 46

C-1R-2 GCCTTGCCAGCCCGCTCAGGGGTGTGGTATTCCTAATTGAACTTCC 92 46

C-2F-1 GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGAATACCACACCC 93 46

C-2F-2 GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGGATACCACACCC 94 46

C-4R-1 GCCTTGCCAGCCCGCTCAGATACTAGGTATGGTGAATGCAGTATATTT 95 48

C-4R-2 GCCTTGCCAGCCCGCTCAGATACTAGGTATGGTGAATGCAGTATACTT 96 48

C-5F-1 GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAATATAATGT 97 47

C-5F-2 GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAGTACAATGT 98 47

C-2R GCCTTGCCAGCCCGCTCAGAGGGCTCTAAGATTTTTGTCAT 99 42

C-3F-1 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCAAAAAATCCAGA 100 46

C-3F-2 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCACAAAATCCAGA 101 46

C-3F-3 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCAAAAAACCCAGA 102 46

C-3F-4 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCACAAAACCCAGA 103 46

C-3R GCCTTGCCAGCCCGCTCAGCTGTATAGGCTGTACTGTCCATTTGTC 104 46

C-5R GCCTTGCCAGCCCGCTCAGAACTTCTGTATATCATTGACAGTCCA 105 45

C-ACF-1 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAACGACC 106 39

C-ACF-2 GCCTCCCTCGCGCCATCAGATCACTCTTTGGCAGCGACC 107 39

C-BF-1 GCCTCCCTCGCGCCATCAGTGCCAGGAAAATGGAAACCA 108 39

C-BF-2 GCCTCCCTCGCGCCATCAGTGCCAGGAAATTGGAAACCA 109 39

C-AR-1 GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCCCCTA 110 43

C-AR-2 GCCTTGCCAGCCCGCTCAGTGATAAAACCTCCAATTCCTCCTA 111 43

C-CR GCCTTGCCAGCCCGCTCAGGCTTTAATTTTACTGGTACAGTTTCAAT 112 47

C-BR GCCTTGCCAGCCCGCTCAGTTGGGCCATCCATTCCTGG 113 38

C-4F GCCTCCCTCGCGCCATCAGGTACCAGTAAAATTAAAGCCAGGAATGG 114 47

C-1F-1 GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAGAAAATAAAAGC 115 47

C-1F-2 GCCTCCCTCGCGCCATCAGGGCCATTGACAGAAGAAAAAATAAAAGC 116 47

C-1R-1 GCCTTGCCAGCCCGCTCAGGGGTGTGGTATTCCTAATTGAACCTCC 117 46

C-1R-2 GCCTTGCCAGCCCGCTCAGGGGTGTGGTATTCCTAATTGAACTTCC 184 6

C-2F-1 GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGAATACCACACCC 119 46

C-2F-2 GCCTCCCTCGCGCCATCAGGGAAGTTCAATTAGGGATACCACACCC 120 46

C-4R-1 GCCTTGCCAGCCCGCTCAGATACTAGGTATGGTGAATGCAGTATATTT 121 48

C-4R-2 GCCTTGCCAGCCCGCTCAGATACTAGGTATGGTGAATGCAGTATACTT 122 48

C-5F-1 GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAATATAATGT 123 47

C-5F-2 GCCTCCCTCGCGCCATCAGCACCAGGGATTAGATATCAGTACAATGT 124 47

C-2R GCCTTGCCAGCCCGCTCAGAGGGCTCTAAGATTTTTGTCAT 125 42

C-3F-1 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCAAAAAATCCAGA 126 46

C-3F-2 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCACAAAATCCAGA 127 46

C-3F-3 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCAAAAAACCCAGA 128 46

C-3F-4 GCCTCCCTCGCGCCATCAGAGAGCCCTTTAGAGCACAAAACCCAGA 129 46

C-3R GCCTTGCCAGCCCGCTCAGCTGTATAGGCTGTACTGTCCATTTGTC 130 46

C-5R GCCTTGCCAGCCCGCTCAGAACTTCTGTATATCATTGACAGTCCA 131 45

本领域普通技术人员应理解引物组存在一些序列组成变异性。这主要是由于一些序列位点的“序列简并性”，其使得已设计的引物对具有更广泛的应用，例如用于更多种类的进化枝亚类。如本文所使用术语“序列简并性”通常指一个或更多个序列位点的核酸种类替换以适应全部序列组成中的细微差异。而且，引物组的目标区域可轻微移位并因此预期引物序列组成中的一些差异。而且，可细化一致序列，表明目标区域中序列组成的轻微差异并且相似地预期引物序列组成中的一些差异。

如上就生成用于测序的目标特异性扩增子所述，可应用引物种类组生成重叠扩增子，其针对包括逆转录酶、蛋白酶和整合酶区域的HIV区域。图12提供了使用引物种类组实施的图解实例。在图12的实例中，使用引物BR、4R-1/4R-2混合物和5R从HIV RNA生成三种独立的cDNA种类并且各自的相对位置关系显示为相互之间具有重叠区域。从这三个cDNA通过以下引物组生成八个扩增子：

进化枝B：

cDNA BR：扩增子A(PR)：B-ACF-1/B-ACF-2混合物+B-AR

cDNA BR：扩增子B(PR)：B-BF +B-BR

cDNA BR：扩增子C(PR)：B-ACF-1/B-ACF-2混合物+B-CR

cDNA 4R：扩增子1(RT)：B-1F +B-1R-1/B-1R-2混合物

cDNA 5R：扩增子2(RT)：B-2F +B-2R

cDNA 5R：扩增子3(RT)：B-3F +B-3R

cDNA 4R：扩增子4(RT)：B-4F +B-4R-1/B-4R-2混合物

cDNA 5R：扩增子5(RT)：B-5F +B-5R-1/B-5R-2混合物

进化枝C：

cDNA BR：扩增子A(PR)：C-ACF-1/C-ACF-2混合物 +C-AR-1/C-AR-2混合物

cDNA BR：扩增子B(PR)：C-BF-1/C-BF-2混合物 +C-BR

cDNA BR：扩增子C(PR)：C-ACF-1/C-ACF-2混合物 +C-CR

cDNA 4R：扩增子1(RT)：C-1F-1/C-1F-2混合物 +C-1R-1/C-1R-2混合物

cDNA 5R：扩增子2(RT)：C-2F-1/C-2F-2混合物 +C-2R

cDNA 5R：扩增子3(RT)：C-3F-1/C-3F-2/C-3F-3/C-3F-4混合物 +C-3R

cDNA 4R：扩增子4(RT)：C-4F +C-4R-1/C-4R-2混合物

cDNA 5R：扩增子5(RT)：C-5F-1/C-5F-2混合物 +C-5R

与cDNA的表示相似，图12显示了具有重叠区域的扩增子的位置关系。在本实例中，将扩增子混合成各样品来源的多重样品并使用上述测序方法和仪器测序。

图13提供了鉴定HIV亚种(也称作“准种”)中低频变异方法(其包括用于起始RNA质量控制评价的步骤1303)的一个实施方案的说明性实例。在一些实施方案中使用Agilent Technologies的BioAnalyzer RNA Pico芯片进行RNA质量控制，接着等分至每管35ng(足够一次测序运行)。而且通常优选各等分部分也用条形码标记，并且每个HIV RNA样品单独进行。排除任何少于35ng RNA(载体+病毒)或含有明显降解RNA的任何样品。接着，如步骤1305所示处理经质量控制的RNA用于从HIV样品群中生成一种或更多种cDNA模板。在优选的实施方案中，以条形码标记的96孔板的形式在三个单独的反应中使用三条基因特异性引物将各样品用于cDNA合成。接着用RNA酶H处理cDNA以提高之后PCR的性能。

接着，如步骤1310所示，用区域特异性引物对从步骤1305生成的cDNA模板扩增目标区域。各扩增子PCR反应使用3μl的相关cDNA。以条形码标记的96孔板形式经过40个循环的PCR每个样品产生8个扩增子。在一些实施方案中，步骤1310生成的扩增子可接着用固相可逆固定化(也称作SPRI)或相关领域已知的用于尺寸筛选的凝胶切割法净化(clean up)。举例而言，用SPRI小珠单独纯化扩增子并用结合dsDNA的荧光染料(例如Invitrogen Corporation的Picogreen)定量。然后，来自各样品的8个扩增子可以等摩尔比例混合。接着，如步骤1315所示，将扩增子的核酸链引入乳液小滴并如本说明书其它部分所述扩增。在一些实施方案中，每个患者样品可构建两种乳液，一种使用扩增子A试剂盒，一种使用扩增子B试剂盒，两种试剂盒均可从454 Life Sciences获得。应理解的是在不同的实施方案中可应用不同数量的乳液和/或不同的试剂盒。

扩增后破乳并如步骤1320中所示富集含有已扩增固定化核酸群的小珠。例如，可如本说明书其它部分所述富集含DNA的小珠。

接着如步骤1330所示将富集的小珠测序。在一些实施方案中，如本说明书其他部分所述测序各样品。接着如步骤1340所述分析输出的测序数据。在一些实施方案中，使用专门的扩增子软件处理包含经高质量过滤的流程图(flowgram)数据的SFF文件并分析数据相对于来源自6000+HIV-1进化枝B POL区域序列的比对的一致序列的差异。术语“流程图(flowgram)”或“热解图(pyrogram)”在本文中可交替使用，通常指通过本文所述测序方法产生的序列数据的图形表示。而且，数据分析包括测序数据中鉴定的变异与之前鉴定的已知与耐药性相关的变异体的关联，或者所述变异可能鉴定为与耐药性相关的“新”变异体。

应理解的是上述步骤仅用于说明目的并不具有限制性，而且一些或所有步骤可以多种组合应用于不同的实施方案中。

1.核酸模板制备

核酸模板

可从任何来源的核酸(例如任何细胞、组织或生物体)构建模板核酸，并且可经任何本领域认可的方法生成。或者，可通过从RNA，例如信使RNA(mRNA)生成互补DNA(cDNA)库制备模板库。样品制备方法可参见美国专利号7323305和共同未决PCT申请US04/02570并且也公布于WO/04070007中-均以完整内容通过引用并入本文。

核酸模板制备的优选方法为在样品上进行PCR以扩增包含所关注一个等位基因或复数个等位基因的区域。使用相互间隔的寡聚核苷酸引物PCR技术可应用于任何核酸样品(DNA、RNA、cDNA)。引物与双链DNA分子的相反链互补并通常被约50至450或更多个核苷酸(通常不多于2000个核苷酸)分隔开。许多出版物中描述了PCR方法，包括Saiki等，Science(1985)230：1350-1354；Saiki等，Nature(1986)324：163-166；和Scharf等，Science(1986)233：1076-1078。也可参见美国专利号4683194；4683195；和4683202，各专利文本通过引用并入本文。PCR扩增的附加方法描述于：PCR Technology：Principles andApplications for DNA Amplification ed.HA Erlich，Freeman Press，NewYork，N.Y.(1992)；PCR Protocols：A Guide to Methods andApplications，eds.Innis，Gelfland，Snisky和White，Academic Press，SanDiego，Calif(1990)；Mattila等(1991)Nucleic Acids Res.19：4967；Eckert，K.A.和Kunkel，T.A.(1991)PCR Methods and Applications 1：17，以及PCR，eds.McPherson，Quirkes和Taylor，IRL Press，Oxford，通过引用并入本文。

2.核酸模板扩增

为了根据本发明方法对核酸模板(即第一步的PCR方法生成的扩增子)测序必须二次扩增拷贝数生成各模板足够数量的拷贝以产生光检测方法可检测的信号。可使用任何适当的核酸扩增方法。在优选的实施方案中，一种新颖的扩增系统，本文中称作EBCA(基于乳液克隆扩增或小珠乳液扩增(bead emulsion amplification))可用于二次扩增。

将待扩增的模板核酸(例如DNA)结合至固相支持物，优选为大致球珠形式，进行EBCA。根据本发明的样品制备方法制备的单链模板DNA库为用于本扩增方法与小珠结合的起始核酸模板库的适当来源的实例。

小珠与大量的与模板DNA区域互补的单个引物种类(即图1中的引物B)连接。模板DNA与结合小珠的引物退火。小珠悬浮于含水反应混合物并包封于油包水乳液中。该乳液由直径约60至200um的分离的水相微滴组成，其被热稳定油相包被。各微滴优选包含扩增反应溶液(即核酸扩增必要的试剂)。扩增的实例为PCR反应混合物(聚合酶、盐、dNTPs)和一对PCR引物(引物A和引物B)。参见，图1A。微滴群的亚组也包含DNA小珠，其包括DNA模板。这一微滴亚组是扩增的基础。不属于这一亚组的微囊不含模板DNA并且不参与扩增。在一个实施方案中，扩增技术为PCR并且PCR引物以8∶1或16∶1的比例存在(即8或16个一种引物对1个第二种引物)进行不对称PCR。

在这一概述中，DNA与固定化至小珠上的寡聚核苷酸(引物B)退火。在热循环过程中(图1B)，打破了单链DNA模板与小珠上的固定化B引物之间的连接，将模板释放至周围的微囊化溶液中。在这种情况下扩增溶液为PCR溶液，包含附加溶液相引物A和引物B。溶液相B引物容易地结合至互补的模板b′区，因为溶液相引物的结合动力学比固定化引物更快。在早期PCR中，A和B链二者可同样很好地扩增(图1C)。

到中期PCR(即循环10和30之间)，B引物被耗尽，指数扩增停止。该反应接着进入不对称扩增并且扩增子群被A链主导(图1D)。在后期PCR中(图1E)，30至40个循环后，不对称扩增增加了溶液中A链的浓度。多余的A链开始和小珠固定化B引物退火。接着热稳定聚合酶利用A链作为模板合成扩增子的固定化的小珠结合的B链。

在终期PCR中(图1F)，持续的热循环迫使与小珠结合引物额外的退火。在这一阶段溶液相扩增最小化但是固定化B链的浓度增加。接着，乳液被打破，固定化产物通过移除互补A链的变性(通过加热、pH等)形成单链。A引物与固定化链的A′区退火，将固定化链与测序酶以及任何必要的辅助蛋白质一起上样。接着使用已认可的焦磷酸技术(描述于例如美国专利6274320、6258568和6210891，其全部通过引用并入本文)测序小珠。

在优选的实施方案中，用于扩增的引物为二重的-包括5′部分和3′部分。引物的3′部分包含目标特异序列(见图2)并执行PCR引物的功能。引物的5′部分包括可用于测序方法或固定化方法的序列。举例而言，在图2中，用于扩增的两个引物的5′部分包含与小珠上的引物或测序引物互补的序列(标记为454正向和454反向)。即包含正向或反向序列的5′部分允许扩增子结合至包含固定化寡聚核苷酸(与正向或反向序列互补)的小珠。而且，可使用与正向或反向引物序列互补的测序引物起始测序反应。因此包括与二重引物的5′部分互补的序列的一组小珠可用于所有反应。相似地，包括与二重引物的5′部分互补的序列的一组测序引物可用于测序任何用二重引物制备的扩增子。在最优选的实施方案中，用于扩增的所有二重引物组具有相同的5′部分组例如图2显示的454正向引物和454反向引物。在这一情况下，可使用由与5′部分互补的寡聚核苷酸包被的标准小珠分析所有的扩增子。相同的寡聚核苷酸(固定化至小珠上或非固定化)可用作测序寡聚核苷酸。

破乳和小珠回收

扩增模板后将乳液“打破”(在本领域中也称作“破乳”)。有许多破乳的方法(参见，例如，美国专利5989892和其引用的参考文献)并且本领域技术人员可选择适当的方法。破乳的优选方法详细描述于实施例部分。

破乳后，可接着将含已扩增模板的小珠重悬于含水溶液中用于例如根据已知技术的测序反应中(参见，Sanger，F.等，Proc.Natl.Acad.Sci.U.S.A.75，5463-5467(1977)；Maxam，A.M.和Gilbert，W.Proc NatlAcad Sci USA 74，560-564(1977)；Ronaghi，M.等，Science 281，363，365(1998)；Lysov，I.等，Dokl Akad Nauk SSSR 303，1508-1511(1988)；Bains W.& Smith G.C.J.TheorBiol 135，303-307(1988)；Drnanac，R.等，Genomics 4，114-128(1989)；Khrapko，K.R.等，FEBS Lett 256.118-122(1989)；Pevzner P.A.J Biomol Struct Dyn 7，63-73(1989)；Southern，E.M.等，Genomics 13，1008-1017(1992).)如果要将小珠用于基于焦磷酸的测序反应(描述于例如美国专利6274320、6258568和6210891，其全部通过引用并入本文)，那么有必要移除PCR产物的第二链并将测序引物与结合至小珠的单链模板退火。

这时，可直接在小珠上或在不同反应容器中测序小珠上的已扩增DNA。在本发明的一个实施方案中，通过将小珠转移至反应容器并对DNA进行测序反应(例如焦磷酸或Sanger测序)直接在小珠上测序DNA。或者，可分离小珠并将DNA从各小珠上移除并测序。在每一种情况下，可在各单个的小珠上进行测序步骤。

3.测序核酸的方法

一种测序方法为基于焦磷酸的测序。基于焦磷酸的测序中在核苷三磷酸存在下将样品DNA序列和延伸引物进行聚合酶反应，藉此只有核苷三磷酸与目标位点的碱基互补时才可掺入并释放焦磷酸(PPi)，可将核苷三磷酸加入分离的等分样品-引物混合物或连续加入至相同的样品-引物混合物。接着检测PPi的释放以指示掺入了哪一种核苷酸。

在一个实施方案中，通过以下方式测定测序产物的区域：将测序引物与模板核酸的区域退火，接着使测序引物与DNA聚合酶和已知的核苷三磷酸即dATP、dCTP、dGTP、dTTP或这些核苷酸之一的类似物接触。可通过检测测序反应副产物测定该序列，如下文所述。

测序引物可为任何长度或碱基组成，只要其可与已扩增的核酸模板的一个区域特异退火。测序引物不需要特定的结构只要它可以特异引导(prime)已扩增核酸模板上的区域。优选地，测序引物与模板的区域互补，该区域在待特征化研究的序列和可与锚定引物杂交的序列之间。用DNA聚合酶延伸测序引物形成测序产物。在一种或更多种类型的核苷三磷酸存在下进行延伸，如果需要的话还存在辅助结合蛋白。

dNTP的掺入优选通过检测测序副产物的存在测定。在优选的实施方案中，由于dNMP掺入已延伸的测序引物，通过测定从核苷三磷酸(dNTP)释放的无机焦磷酸(PPi)测定测序产物的核苷酸序列。这种称作Pyrosequencing^TM技术(PyroSequencing AB，Stockholm，Sweden)的测序方法可在溶液中(液相)或以固相技术进行。基于PPi的测序法广泛描述于例如WO9813523A1，Ronaghi等，1996.AnalBiochem.242：84-89，Ronaghi等，1998.Science 281：363-365(1998)和USSN 2001/0024790。这些PPi测序法的公开以其完整内容通过引用并入本文，也可参见例如美国专利6210891和6258568，各自的完整内容通过引用并入本文。

在优选的实施方案中，使用454公司(454 Life Sciences)的测序仪和以下公开的方法进行DNA测序：美国专利号7323305和共同未决专利申请USSN：10/768,729、USSN：10/767899和USSN：10/767894-均于2008年1月28日递交。

除非另外定义，本文使用的所有技术和科学术语具有如本发明所属领域的普通技术人员通常理解的相同含义。通常理解的定义包括以下定义的那些：USSN：60/476602，2003年6月6日递交；USSN：60/476504，2003年6月6日递交；USSN：60/443471，2003年1月29日递交；USSN：60/476,313，2003年6月6日递交；USSN：60/476592，2003年6月6日递交；USSN：60/465071，2003年4月23日递交；USSN：60/497985，2003年8月25日递交；美国专利号7323305，2004年1月28日递交；10/767899，2004年1月28日递交；USSN：10/767,894，2004年1月28日递交。所有专利、专利申请和本申请中引用的参考文献均全文通过引用并入本文。

实施例

实施例1 HLA基因座测序

设计五个PCR引物对横跨MHC II类基因座中已知的、公开的SNPs。用Primer3软件(Whitehead Institute for Biomedical Research)用包含目标区的约200个碱基对长度的基因组序列作为输入设计引物。各引物由长度为20至24个碱基的基因座特异3′部分和包括4碱基密匙(base key)(粗体突出显示)的恒定19碱基的5′部分(以小写字母显示)组成。引物购自Integrated DNA Technologies(Coralville，IA)：

SAD1F-DC1 gcctccctcgcgcca tcag ACCTCCCTCTGTGTCCTTACAA(SEQ ID NO：1)

SAD1R-DC1 gccttgccagcccgc tcag GGAGGGAATCATACTAGCACCA(SEQ ID NO：2)

SAD1F-DD14 gcctccctcgcgcca tcag TCTGACGATCTCTGTCTTCTAACC(SEQ ID NO：3)

SAD1R-DD14 gccttgccagcccgc tcag GCCTTGAACTACACGTGGCT(SEQ ID NO：4)

SAD1F-DE15 gcctccctcgcgcca tcag ATTTCTCTACCACCCCTGGC(SEQ ID NO：5)

SAD1R-DE15 gccttgccagcccgc tcag AGCTCATGTCTCCCGAAGAA(SEQ ID NO：6)

SAD1F-GA9 gcctccctcgcgcca tcag AAAGCCAGAAGAGGAAAGGC(SEQ ID NO：7)

SAD1R-GA9 gccttgccagcccgc tcag CTTGCAGATTGGTCATAAGG(SEQ ID NO：8)

SAD1F-F5 gcctccctcgcgcca tcag ACAGTGCAAACACCACCAAA(SEQ ID NO：9)

SAD1R-F5 gccttgccagcccgc tcag CCAGTATTCATGGCAGGGTT(SEQ ID NO：10)

基于260nm处的光密度定量从4个个体获得的人基因组DNA(Cornell Medical Institute for Research，Camden，NJ)，并用100ng(约15000个单倍体基因组等价物)作为各PCR扩增反应的模板。在标准反应条件(60mM Tris-SO₄、pH 8.9、18mM(NH4)₂SO₄)、2.5mMMgSO₄、1mM dNTPs、0.625uM各引物、4.5单位Platinum Taq高保真聚合酶(Invitrogen，Carlsbad，CA))以及下列温度分布下进行PCR反应：94℃ 3min；30个循环的94℃ 30s，57℃ 45s，72℃ 1min；72℃3min。用QiaQuick PCR纯化试剂盒(Qiagen，Valencia，CA)纯化扩增产物，在2100 BioAnalyzer微流体仪上用500 DNA

(AgilentTechnologies，Inc，Palo Alto，CA)验证它们的预期大小(156至181碱基对)。用

dsDNA定量试剂盒(Molecular Probes，Eugene，OR)定量纯化的扩增子，并稀释至每微升10⁷个拷贝。

如上所述以每小珠0.5个扩增子，用扩增引物SAD1F(GCC TCCCTC GCG CCA(SEQ ID NO：11))和SAD1R以及含SADR1(GCC TTGCCA GCC CGC(SEQ ID NO：12))捕获引物(Amersham BioSciences，Piscataway，NJ)的Sepharose捕获小珠完成EBCA(基于乳液的克隆扩增)。所有的进一步操作，包括破乳和PicoTiter板上的测序均按上述方法完成。

实施例2 敏感突变检测

为证明当前系统(即454平台)检测低丰度序列变异体尤其是单个碱基替换的能力，设计实验对以多种比例混合的已知等位基因测序。

检测如上所列6个引物对的扩增效率，用均能产生不同扩增产物的引物对SAD1F/R-DD14、SAD1F/R-DE15和SAD1F/R-F5进行进一步分析(图3)。在454平台上扩增和测序全部8个人基因组DNA样品以测定各基因座的基因型。为简化实验方案，用引物对SAD1F/R-DD14(图3A)和在特定基因座的C或T等位基因上显示为纯合的两个样品完成所有进一步分析。

定量各样品中的初始扩增子并以从10∶90低至1∶1000的特定比例，通常与过量T等位基因混合。混合后，将样品稀释至每微升2×10⁶个拷贝的工作浓度进行EBCA并在454平台上测序。图2显示了从C等位基因以约1∶500和1∶1000的比例混入T等位基因的混合物中获得的测序数据。在两种条件下均可获得约10000个高质量测序读取，并进行Blast分析以鉴别相对于参比序列(本例中为含T等位基因的序列)的核苷酸替换。为使结果可视化，替换频率以相对于参比序列的颜色编码形式进行标绘。数据表明在两个样品中均可轻易鉴别低频率单个碱基替换(图4A-C)。此外，发现样品之间的背景相对一致允许背景扣除。这甚至对1∶1000等位基因通常可产生超过10的信噪比(图5A和B)。使用已知基因型的样品的其它实验已确证检测低至至少0.1％丰度水平的单个核苷酸替换的能力。可从在两个方向测序模板获得低丰度变化的附加置信度。通常两个独立双向数据组的频率间差异在从20％低至1％丰度水平内。

为证明在较广范围等位基因比例内的线性响应，将代表来自DD 14HLA基因座的T和C等位基因的扩增子以1∶10、1∶20、1∶50和1∶200(10％、5％、2％和0.5％)的比例进行混合，EBCA扩增并测序。图6显示在此范围内观测到低频率等位基因相对数量的线性增加(R²＝0.9927)。所记录的绝对频率稍微偏离了预期比例(见下表)，这归因于在尝试精确定量、等分并混合少量DNA时通常观测到的困难。

预期C百分比	总读取	预期C	观测C	观测T	观测C百分比
预期C百分比	总读取	预期C	观测C	观测T	观测C百分比	0.00％	101450	0	1	101449	0.00％
0.50％	72406	361	193	72213	0.27％	0.00％	101450	0	1	101449	0.00％
0.50％	72406	361	193	72213	0.27％	2.00％	103292	2045	1049	102243	1.02％
2.00％	57115	1131	578	56537	1.01％	2.00％	103292	2045	1049	102243	1.02％
2.00％	57115	1131	578	56537	1.01％	5.00％	112378	5452	3340	109038	2.97％
10.00％	104906	9760	7311	97595	6.97％	5.00％	112378	5452	3340	109038	2.97％

用于获得图6曲线的测序概要。2-5列的数字分别表示测序模板的总数以及各等位基因的预期和观测数量。

实施例3 细菌16S工程——检测细菌群体的方法

细菌群体调查是在包括工业过程控制，医药、环境和农业研究的许多领域的重要应用。一种通常方法利用16S核糖体RNA基因序列区分细菌种类(Jonasson，Olofsson等2002；Grahn，Olofsson等2003)。另一种方法相似地测定16S和23S核糖体RNA基因之间的间插序列(Garcia-Martinez，Bescos等2001)。但是，大多数研究者发现用现有样品制备和测序技术不可能完成复杂细菌群体的完整调查；这一工程的工作量需求或者非常昂贵或者需要大量的群体二次取样。

目前，高通量方法并没有常规地用于检测细菌群体。通常的实践利用通用引物扩增16S核糖体RNA基因(或基因内区域)，随后亚克隆至载体并测序。通常在载体上进行限制性内切酶消化以通过去除显示相同限制图谱的载体减少测序负载。将所得序列与来自多种生物体的已知基因数据库进行比较；从种或属特异性基因序列的存在得出对群体组成的估计。本公开的方法具有变革细菌群体研究的潜力，其通过去除克隆和限制性内切酶消化步骤显著减少劳动成本，通过提供16S(也可能是基因间的和23S)RNA区域的完整序列增加信息输出，可能实现之前难以获得的亚株分化，以及通过将测序过采样转换至相对丰度有可能提供群体密度的估计。

核苷酸测序的一个优选方法为454 Life Sciences研发的基于焦磷酸的测序法。将本发明方法与大规模平行454技术的所有方面(其中一些公开于本说明书中)联合使用可显著提高通量并降低群体鉴别的费用。454技术消除了克隆巨大数量的个体PCR产物的需求，同时16S基因的小尺寸(1.4kb)允许同时处理数万的样品。该方法已通过下列方式成功例证。

首先，从PCR2.1载体转化的大肠杆菌TOP10感受态细胞(Invitrogen，Carlsbad，CA.)中获得大肠杆菌16S DNA，所述转化的感受态细胞接种至LB/氨苄西林平板(50μg/ml)并于37℃温育过夜。挑取单菌落，接种至3ml的LB/氨苄西林肉汤中，并于37℃下250RPM振摇6小时。将一微升该溶液作为扩增16S序列V1和V3区域的模板。

设计16S基因两个可变区的二重PCR引物，这两个区如Monstein等所述称作V1和V3(Monstein，Nikpour-Badr等2001)。将由454特异性、19碱基(15个碱基的扩增引物，随后为3′的4碱基(TCGA)密匙(key))的正向或反向引物组成的五个引物标签融合至侧接可变V1和V3区域的区域特异性正向和反向引物。这可以表示为：5′-(15碱基正向或反向扩增引物)-(4碱基密匙)-(正向或反向V1或V3引物)-3′。用于制备16S扩增子的引物包含下列序列，其中大写字母的序列表示V1或V3特异性引物，加粗显示的四个碱基识别为密匙，小写碱基表示454扩增引物：

SAD-V1融合体(正向)：gcctccctcgcgcca tcag GAAGAGTTTGATCATGGCTCAG(SEQ ID NO：13)

SAD-V1融合体(反向)：gccttgccagcccgc tcag TTACTCACCCGTCCGCCACT(SEQ ID NO：14)

SAD-V3融合体(正向)：gcctccctcgcgcca tcag GCAACGCGAAGAACCTTACC(SEQ ID NO：15)

SAD-V3融合体(反向)：gccttgccagcccgc tcag ACGACAGCCATGCAGCACCT(SEQ ID NO：16)

在包含下列试剂的PCR反应中分别生成V1和V3扩增子：1×HiFi缓冲液、2.5mM MgSO₄(Invitrogen)、1mM dNTPs(Pierce，MilwaukeeWI)、1μM V1或V3区域的各正向和反向二重引物(IDT，Coralville，IA)、0.15U/μl Platinum HiFi Taq(Invitrogen)。将一微升大肠杆菌/LB/氨苄西林肉汤加入反应混合物中，然后进行35个循环的PCR(94℃30秒，55℃30秒，68℃150秒，在最终循环之后为10℃无限保温)。随后，取一微升已扩增的反应混合物在Agilent 2100Bioanalyzer(Agilent，Palo Alto，CA)上运行以估算终产物浓度，并保证生成合适大小的产物(V1为155bp，V3为145bp)。

然后将V1和V3产物组合，在每个DNA捕获小珠含0.5至10个模板分子的模板浓度范围内进行乳化，并通过如下文EBCA方案部分所述的EBCA(基于乳液的克隆扩增)方法进行扩增。随后在454基因组测序仪(454 Life Sciences，Branford CT)上测序所得克隆扩增小珠。

将从已扩增小珠获得的序列与大肠杆菌16S基因序列(Entrezgi174375)比对。通过计算各序列的比对分值来区别可接受(或“已定位”)比对和不接受(或“未定位”)比对。分值为观测信号对应预期同聚物概率的平均对数，或：

S＝∑ln[P(s|h)]/N

其中S为算得比对分值，P为特定流(flow)下的概率，s为在此流(flow)下测得的信号，h为在此流(flow)下参比同聚物的预期长度，N为比对流(flow)的总数。然后将各序列的比对分值与最大比对分值或MAS进行比较；将分值小于MAS的比对当作“真实的”并打印至输出文件。在此方案中，采用1.0的MAS(大约相当于95％同一性)。

对于用V1特异性引物产生的序列(共产生13702个序列)，87.75％或11973个读取定位至比对分值小于1.0且读取长度大于21个碱基的基因组。显示定位至1.6Kb 16S基因片段的读取位置的图形显示如图7A所示，表明约12000个读取定位至16S基因的前100个碱基。

将未修饰共有序列

(AAGAGTTTtGATCATGGCTCAGATTGAACGCTGGCGGCAGGCCTAACACATGCAAGTCGA ACGGTAACAGGA(SEQ ID NO：17))

对16S数据库(http://greengenes.llnl.gov)进行BLAST，大肠杆菌匹配为第一已知生物体

>1c1|009704 X80724大肠杆菌菌种Seattle 1946 ATCC 25922.长度＝1452分值＝125bits(63)，期望值＝1e-28同一性＝70/71(98％)，空位＝1/71(1％)链＝正/正查询序列：7 tttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaagtcgaacggta 66||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||目标序列：3tttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaagtcgaacggta 62查询序列：67acgaggaacga 77(SEQID NO：18)|| ||||||||目标序列：63 ac-aggaacga 72(SEQID NO：19)>1c1 1090202 AY319393 大肠杆菌菌种5.2 16S核糖体RNA基因，部分序列长度＝1399分值＝123bits(62)，期望值＝5e-28一致性＝62/62(100％)链＝正/正

将V1共有序列修改为

AAGAGTTT

GATCATGGCTCAGATTGAACGCTGGCGGCAGGCCTAACACATGCAAGTCGAACGGTAACAGGA(SEQ ID NO：20)，

根据极低的置信度分值，评估并去除同聚物延伸第9位的第四个“T”(加粗及下划线标记)。经修改的V1序列的BLAST结果显示对大肠杆菌16S基因的命中提高。

>1c1|076948 AE016770 大肠杆菌 CFT073完整基因组18个部分中的第16部分长度＝1542分值＝141bits(71)，期望值＝1e-33同一性＝71/71(100％)链＝正/正查询序列：1 aagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaagtcgaa 60||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||目标序列：6 aagagtttgatcatggctcagattgaacgctggcggcaggcctaacacatgcaagtcgaa 65查询序列：61 cggtaacagga 71(SEQ ID NO：21)|||||||||||目标序列：66 cggtaacagga 76(SEQ ID NO：22)

用V3特异性引物可获得相似结果。在17329个读取中，71.00％在上文用于V1模板的相同分析条件下定位至16S参比基因组。这一数字比定位的V1读取的87.75％更低，这可能表示V3样品与参比序列之间的差异大于V1样品和参比序列之间的差异。共有序列：

CAACGCGAAGAACCTTACCTGGTCTTGACATCCACGAAGTTTACTAGAGATGAGAATGTGCCGTTCGGGAACCGGTGAGACAGGTGCTGCATGGCTGTCGTCTg(SEQID NO：23)，

定位于如图7B所示的参比基因组的区域966-1067。

与V1序列不同，从未修饰共有序列得出的BLAST结果并不将大肠杆菌匹配为第一已知生物体，而是作为第二生物体。

>1c1|088104 AJ567617 大肠杆菌部分16S rRNA基因，克隆MBAE104长度＝1497分值＝147bits(74)，期望值＝3e-35同一性＝98/102(96％)，空位＝3/102(2％)链＝正/正查询序列：1 caacgcgaagaaccttacctggtcttgacatccacgaagtttactagagatgagaatgtg 60|||||||||||||||||||||||||||||||||||||||||| | |||||||||||||||目标序列：956 caacgcgaagaaccttacctggtcttgacatccacgaagttttc-agagatgagaatgtg 1014查询序列：61 ccgttcgggaaccggtgagacaggtgctgcatggctgtcgtc 102(SEQ ID NO：24)|| |||||||||| ||||||||||||||||||||||||||||目标序列：1015 cc-ttcgggaacc-gtgagacaggtgctgcatggctgtcgtc 1054(SEQ ID NO：25)

根据置信度分值评估并修改共有序列为

CAACGCGAAGAACCTTACCTGGTCTTGACATCCACGAAGTTTACAGAGATGAGAATGTGCCGTTCGGGAACCGTGAGACAGGTGCTGCATGGCTGTCGTCTg(SEQ IDNO：26)

(去除两个碱基)，重新BLAST。BLAST结果为对大肠杆菌的最高等级命中。

>1c1|088104 AJ567617 大肠杆菌部分16S rRNA基因，克隆MBAE104长度＝1497分值＝174bits(88)，期望值＝1e-43同一性＝98/100(98％)，空位＝1/102(1％)链＝正/正查询序列：1 caacgcgaagaaccttacctggtcttgacatccacgaagtttacagagatgagaatgtgc 60|||||||||||||||||||||||||||||||||||||||||| |||||||||||||||||目标序列：956 caacgcgaagaaccttacctggtcttgacatccacgaagttttcagagatgagaatgtgc 1015查询序列：61 cgttcgggaaccgtgagacaggtgctgcatggctgtcgtc 100(SEQ ID NO：27)| ||||||||||||||||||||||||||||||||||||||目标序列：1015 c-ttcgggaaccgtgagacaggtgctgcatggctgtcgtc 1054(SEQ ID NO：28)

进行第二个试验以证明在未处理细菌细胞上使用混合PCR引物的能力，其中使大肠杆菌细胞生长至饱和，取1μl 1∶1000稀释度的细菌肉汤替代模板加入EBCA反应混合物。用于EBCA反应的引物由各0.04μM的V1和V3特异性二重引物以及分别为0.625和0.04μM的正向和反向454扩增引物组成。此外，遵循下述EBCA方案。

数据表明，可从未经处理的细菌细胞集合中成功地同时扩增、测序并区分V1和V3区域。在15484个读取中，87.66％定位至16S参比基因组，序列位于图7C所示的独特V1和V3位置。

通过集合V1和V3序列的100个读取，将原始信号数据转换为二进制串(其中“1”表示在给定流(flow)下存在碱基，“0”表示缺少该碱基)来评估区分V1和V3序列的能力。将同聚物延伸分解为单个正值，因此“A”、“AA”、和“AAAAA”(SEQ ID NO：29)均获得相同的分值“1”。然后通过R统计软件包(Team 2004)中的Hierarchical OrderedPartitioning and Collapsing Hybrid(HOPACH)方法(Pollard和van derLaan 2005)聚簇分解的二进制串。如图8所示，所得系统发生树在除1个以外的所有200个序列中清楚地区分V1(长度较短红色标记)和V3(长度较长蓝色标记)序列。

在相同生物体中相同基因的两个相似区域之间清楚区分的能力表明这一技术应善于区分不同生物体的可变区，提供了有价值的诊断工具。

实施例4EBCA方案

4.1制备DNA捕获小珠

从柱中去除来自1mL N-羟基琥珀酰亚胺酯(NHS)活化的Sepharose HP亲和柱(Amersham Biosciences，Piscataway，NJ)的已填充小珠，并按产品文献(Amersham Pharmacia Protocol #71700600AP)所述活化。二十五微升的含1mM胺标记HEG捕获引物(5′-胺-3个连续的18原子六乙二醇间隔区CCATCTGTTGCGTGCGTGTC-3′(SEQ IDNO：30))(IDT Technologies，Coralville，IA，USA)的20mM磷酸盐缓冲液(pH 8.0)与小珠结合，之后连续通过36和25μm孔径的滤网部分(Sefar America，Depew，NY，USA)筛选25-36μm小珠。将通过第一个滤器但被第二个滤器截留的DNA捕获小珠收集在小珠保存缓冲液(50mM Tris、0.02％Tween、0.02％叠氮化钠，pH 8)中，用Multisizer 3Coulter Counter(Beckman Coulter，Fullerton，CA，USA)定量并于4℃保存备用。

4.2将模板种类结合至DNA捕获小珠

在经UV处理的层流通风橱中将模板分子与DNA捕获小珠上的互补引物退火。将悬浮于小珠保存缓冲液中的六十万DNA捕获小珠转移至200μL PCR管中，在台式迷你离心机中离心10秒钟，将管旋转180°并继续旋转10秒钟以确保形成均匀的沉淀。接着弃去上清，用200μL退火缓冲液(20mM Tris，pH 7.5和5mM醋酸镁)洗涤小珠，涡旋5秒重悬小珠，并如上所述沉淀。去除小珠上方除约10μL外的所有上清，另外加入200μL退火缓冲液。再次涡旋小珠5秒，静置1分钟，然后如上所述沉淀。弃去除10μL外的所有上清，将0.48μL的每μL含2×10⁷分子的模板文库加入小珠。涡旋试管5秒混合内容物，随后在MJ热循环仪中经控制的变性/退火程序下(80℃ 5分钟，然后以0.1℃/秒降至70℃，70℃ 1分钟，以0.1℃/秒降至60℃，60℃保持1分钟，以0.1℃/秒降至50℃，50℃保持1分钟，以0.1℃/秒降至20℃，保持在20℃)使模板与小珠退火。退火过程完成后将小珠保存在冰上备用。

4.3PCR反应混合物的制备和配制

为减少污染的可能性，在置于PCR洁净室的经UV-处理的层流通风橱内制备PCR反应混合物。对于各600000小珠乳液PCR反应，在1.5mL管中制备225μL的反应混合物(1×Platinum HiFi缓冲液(Invitrogen)、1mM dNTPs(Pierce)、2.5mM MgSO₄(Invitrogen)、0.1％乙酰化的分子生物学等级BSA(Sigma)、0.01％Tween-80(AcrosOrganics)、0.003U/μL热稳定焦磷酸酶(NEB)、0.625μM正向(5′-CGTTTCCCCTGTGTGCCTTG-3′(SEQ ID NO：31))和0.039μM反向引物(5′-CCATCTGTTGCGTGCGTGTC-3′(SEQ ID NO：32))(IDTTechnologies，Coralville，IA，USA)以及0.15U/μL Platinum Hi-Fi Taq聚合酶(Invitrogen))。取出二十五微升反应混合物并保存在单独的200μL PCR管中用作阴性对照。反应混合物和阴性对照均保存在冰上备用。此外，在1.5mL管中制备各乳液的240μL模拟扩增混合物(1×Platinum HiFi缓冲液(Invitrogen)、2.5mM MgSO₄(Invitrogen)、0.1％BSA、0.01％Tween)并类似地保存于室温备用。

4.4乳化和扩增

乳化过程产生每微升约10000个分散PCR微反应器的热稳定性油包水乳液，这些微反应器可作为单个分子、目标文库各个分子克隆扩增的基质。按下述方式乳化单个反应的反应混合物和DNA捕获小珠：在经UV-处理的层流通风橱内将200μL的PCR溶液加入含600000个DNA捕获小珠的试管中。通过反复吸移重悬小珠，然后将PCR-小珠混合物于室温静置至少2分钟，使得小珠与PCR溶液平衡。同时，将400μL乳液油(60％(w/w)DC 5225C配方助剂(Formulation Aid)(Dow Chemical CO，Midland，MI)，30％(w/w)DC 749液(Dow ChemicalCO，Midland，MI)和30％(w/w)Ar20硅氧烷油(Sigma))等分放入平顶2mL离心管(Dot Scientific)中。然后将240μL模拟扩增混合物加入400μL乳液油中，盖紧试管并置于TissueLyser MM300(Retsch GmbH& Co.KG，Haan，Germany)的24孔TissueLyser Adaptor(Qiagen)中。以25次振荡/秒匀浆乳液5分钟以产生极细微乳液或可使反应具有附加稳定性的“微细颗粒(microfines)”。

在微细颗粒形成期间，向已退火的模板和DNA捕获小珠混合物中加入一百六十微升的PCR扩增混合物。简略涡旋组合的小珠和PCR反应混合物，然后使其平衡2分钟。微细颗粒形成后，将扩增混合物、模板和DNA捕获小珠加入乳化的材料中。将TissueLyser速度降至每秒15次振荡并匀浆反应混合物5分钟。较低的匀浆速度可制备平均直径为100至150μm(足够包含DNA捕获小珠和扩增混合物)的油包小水滴混合物。

将乳液等分放入7至8个单独的PCR管中，各包含约80μL。将管密封并与先前制备的25μl阴性对照一起置于MJ热循环仪中。使用下列循环次数：1×(94℃ 4分钟)-热启动初始化，40×(94℃ 30秒、58℃ 60秒、68℃ 90秒)-扩增，13×(94℃ 30秒、58℃ 360秒)-杂交延伸。PCR程序完成后，取出反应物，立即破乳(如下所述)或在起始打破过程前将反应物于10℃保存16小时。

4.5破乳和小珠回收

将五十微升的异丙醇(Fisher)加入各包含扩增物质乳液的PCR管中，涡旋10秒以降低乳液粘度。将试管在微量离心机中离心数秒以去除管盖上残留的任何乳化物质。从各管中将乳液-异丙醇混合物吸入安装有平头的16号平头针(Brico Medical Supplies)的10mL BD-一次性注射器(Fisher Scientific)中。再向各PCR管加入50μL异丙醇，涡旋，如之前离心，并加入注射器内容物中。用异丙醇将注射器内容积增至9mL，然后翻转注射器并将1mL空气吸入注射器以利于混合异丙醇和乳液。卸去平头针，将含15μm孔Nitex Sieving Fabric(SefarAmerica，Depew，NY，USA)的25mm Swinlock滤器支架(Whatman)接至注射器luer，再将平头针固定在Swinlock单元的另一面。

将注射器内容物缓慢但完全地通过Swinlock滤器单元和针头排出至含漂白剂的废液容器中。通过平头针和Swinlock滤器单元吸回六毫升新鲜异丙醇至注射器，然后颠倒注射器10次以混合异丙醇、小珠和剩余的乳液组分。将注射器内容物再次排出至废液容器中，重复洗涤过程两次，每次洗涤均用6mL新加异丙醇。用6mL 80％乙醇/1×退火缓冲液(80％乙醇、20mM Tris-HCl，pH 7.6、5mM醋酸镁)重复洗涤步骤。然后依次用6mL含0.1％Tween的1×退火缓冲液(0.1％Tween-20，20mM Tris-HCl，pH 7.6，5mM醋酸镁)和6mL含picopure水的洗液洗涤小珠。

在将最终洗涤液排至废液容器后，将1.5mL 1mM EDTA吸入注射器，卸下Swinlock滤器单元放置一旁。将注射器内容物连续地转移至1.5mL离心管中。在迷你离心机中周期性离心管20秒使小珠沉淀并去除上清，然后将注射器中的剩余内容物加入离心管。再次将Swinlock部件接至滤器并将1.5mL EDTA吸入注射器。最后一次卸下Swinlock滤器，将小珠和EDTA加入离心管，使小珠沉淀并按需去除上清。

4.6去除第二链

通过在碱性熔解溶液中温育去除第二链使固定在捕获小珠上的已扩增DNA成为单链。将1mL新制备的熔解溶液(0.125M NaOH，0.2M NaCl)加入小珠，中等强度涡旋2秒重悬沉淀，接着将管置于Thermolyne LabQuake管旋转器上3分钟。接着如上所述使小珠沉淀，小心去除上清并丢弃。然后通过加入1mL退火缓冲液(20mM Tris-醋酸盐，pH 7.6，5mM醋酸镁)稀释剩余的熔解溶液，随后以中等速度涡旋小珠2秒，小珠沉淀并如前去除上清。重复退火缓冲液洗涤，但在离心后仅去除800μL退火缓冲液。将小珠和剩余的退火缓冲液转移至0.2mL PCR管中，或立即使用或在继续随后的富集过程之前于4℃最多保存48小时。

4.7小珠富集

到此时小珠群体由具有已扩增、固定化的DNA链的小珠和不含扩增产物的无效小珠组成。应用富集方法选择性捕获具有可测序量的模板DNA的小珠并同时丢弃无效小珠。

通过在台式迷你离心机上离心10秒钟将之前步骤的单链小珠沉淀，之后将试管旋转180°并继续旋转10秒钟以确保形成均匀的沉淀。接着去除尽可能多的上清而不干扰小珠。向小珠加入15微升的退火缓冲液，接着加入2μL 100μM生物素化的40碱基HEG富集引物(5′生物素-18原子六乙二醇间隔区-CGTTTCCCCTGTGTGCCTTGCCATCTGTTCCCTCCCTGTC-3′(SEQID NO：33)，IDT Technologies，与小珠固定化模板3′-端上的组合的扩增和测序位点(各长20个碱基)互补。以中等强度涡旋2秒钟将溶液混合，并使用MJ热循环仪上经控制的变性/退火程序(65℃ 30秒，以0.1℃/秒下降至58℃，58℃ 90秒并维持于10℃)使富集引物与固定化DNA链退火。

当引物退火时，通过温和涡旋将SeraMag-30磁性链霉亲和素小珠(Seradyn，Indianapolis，IN，USA)的储备液重悬并将20μL SeraMag小珠加入包含1mL增强液(2M NaCl，10mM Tris-HCl，1mM EDTA，pH7.5)的1.5mL微量离心管中。将SeraMag小珠混合物涡旋5秒钟，将管置于Dynal MPC-S磁体上，将顺磁小珠沉淀在微量离心管的一侧。小心移除并丢弃上清而不干扰SeraMag小珠，从磁体上取下管，加入100μL增强液。将管涡旋3秒钟重悬小珠并将管保存于冰上备用。

退火程序完成时，向包含DNA捕获小珠和富集引物的PCR管中加入100μL退火缓冲液，涡旋管5秒钟并将内容物转移至新的1.5mL微量离心管中。用200μL退火缓冲液洗涤PCR管(其中富集引物与捕获小珠退火)一次并将洗涤液加入1.5mL管中。用1mL退火缓冲液洗涤小珠三次，涡旋2秒钟，如之前所述沉淀，小心地去除上清。在第三次洗涤后用1mL冰冷增强液洗涤小珠两次，涡旋，沉淀并如之前所述去除上清。接着将小珠重悬于150μL冰冷增强液中并将小珠溶液加入已洗涤的SeraMag小珠。

将小珠混合物涡旋3秒钟并在LabQuake管旋转器上于室温温育3分钟，同时结合至生物素化富集引物的链霉亲和素包被的SeraMag小珠与DNA捕获小珠上的固定化模板退火。接着将小珠2000RPM离心3分钟，之后轻“弹”小珠直至重悬。然后将重悬小珠置于冰上5分钟。在冰上温育后，向小珠加入冷的增强液至终体积1.5mL。将管插入Dynal MPC-S磁体，使小珠不受干扰120秒使得小珠对磁体沉淀，之后小心移除并丢弃上清(包含多余的SeraMag和无效DNA捕获小珠)。

从MPC-S磁体上取下管，向小珠加入1mL冷增强液并轻弹重悬小珠。关键的是不能涡旋小珠因为涡旋可破坏SeraMag和DNA捕获小珠之间的连接。将小珠重新放置于磁体并去除上清。再重复该洗涤三次以确保移除了所有的无效捕获小珠。为了从DNA捕获小珠移除已退火的富集引物和SeraMag小珠，将小珠重悬于1mL熔解溶液中，涡旋5秒钟并用磁体沉淀。将包含富集小珠的上清转移至单独的1.5mL微量离心管中，沉淀小珠并丢弃上清。接着将富集小珠重悬于含有0.1％Tween-20的1×退火缓冲液中。再次在MPC上沉淀小珠，将上清转移至新的1.5mL管中，确保最大化移除了剩余的SeraMag小珠。离心小珠，之后去除上清并用1mL 1×退火缓冲液洗涤小珠3次。第三次洗涤之后移除800μL的上清，将剩余的小珠和溶液转移至0.2mL PCR管中。

富集操作的平均产率为加入乳液中原始小珠的33％或每乳液反应198000富集小珠。因为60×60mm PTP形式要求900000个富集小珠，所以每测序60×60mm PTP处理五倍600000小珠乳液。

4.8测序引物退火

将已富集小珠2000RPM离心3分钟并倾去上清，之后加入15μL退火缓冲液和3μL测序引物(100mM SAD1F(5′-GCC TCC CTC GCGCCA-3′(SEQ ID NO：34)，IDT Technologies)。接着将管涡旋5秒钟并置于MJ热循环仪上进行接下来的4阶段退火程序：65℃ 5分钟，以0.1℃/秒降低至50℃，50℃ 1分钟，以0.1℃/秒降低至40℃，于40℃保持1分钟，以0.1℃/秒降低至15℃，保持于15℃。

退火程序结束时从热循环仪中移出小珠并离心10秒钟沉淀，将试管旋转180°并继续旋转10秒钟。丢弃上清并加入200μL退火缓冲液。涡旋5秒钟重悬小珠并如之前所述沉淀小珠。去除上清并将小珠重悬于100μL退火缓冲液中，此时用Multisizer 3 Coulter Counter定量小珠。将小珠保存于4℃，其在至少一周内是稳定的。

4.9将Bst DNA聚合酶，大片段和SSB蛋白与DNA小珠温育

将腺苷三磷酸双磷酸酶(Biotage)(终活性为8.5单位/升)加入包含0.1％BSA的1×测定缓冲液中制备小珠洗涤缓冲液(100ml)。将纤维光学载玻片从picopure水中取出并在小珠洗涤缓冲液中温育。将九十万个之前制备的DNA小珠离心并小心移除上清。将小珠在1290μl小珠洗涤缓冲液中温育，所述小珠洗涤缓冲液包含0.4mg/mL聚乙烯吡咯烷酮(MW 360000)、1mM DTT、175μg大肠杆菌单链结合蛋白(SSB)(United States Biochemicals)和7000单位Bst DNA聚合酶，大片段(New England Biolabs)。在旋转器上于室温温育小珠30分钟。

4.10酶小珠和微粒填充剂的制备

内部制备UltraGlow萤光素酶(Promega)和Bst三磷酸腺苷硫酸化酶作为生物素羧基载体蛋白(BCCP)融合物。87-氨基酸BCCP区包含赖氨酸残基，其在大肠杆菌融合蛋白的体内表达过程中与生物素共价连接。根据制造商的使用说明预混合生物素化萤光素酶(1.2mg)和硫酸化酶(0.4mg)并于4℃结合至2.0mL Dynal M280顺磁小珠(10mg/mL，Dynal SA，Norway)。在2000μL小珠洗涤缓冲液中洗涤酶结合小珠三次并重悬于2000μL的小珠洗涤缓冲液中。

如下制备Seradyn微粒(Powerbind SA，0.8μm，10mg/mL，Seradyn Inc)：用1000μL包含0.1％BSA的1×测定缓冲液洗涤1050μL储备物。将微粒于9300g离心10分钟并移除上清。再重复洗涤2次并将微粒重悬于1050μL包含0.1％BSA的1×测定缓冲液中。将小珠和微粒保存于冰上备用。

4.11小珠沉积

涡旋Dynal酶小珠和Seradyn微粒一分钟并将各1000μL混合于新的微量离心管中，简单涡旋并保存于冰上。将酶/Seradyn小珠(1920μl)与DNA小珠(1300μl)混合并用小珠洗涤缓冲液将终体积调节至3460μL。小珠沉积在有序的层中。从小珠洗涤缓冲液和第1层去除纤维光学载玻片，DNA和酶/Seradyn小珠的混合物沉积。离心后从纤维光学载玻片和第2层吸出第1层的上清，Dynal酶小珠沉积。本部分详细描述如何离心不同的层。

第1层。将在60×60mm纤维光学载玻片表面上形成两个30×60mm活性区域的垫圈小心地安装至夹具顶端指定的不锈钢销子上。纤维光学载玻片放置于夹具中，载玻片光滑的未腐蚀面朝下并且夹具顶端/垫圈安装至载玻片被腐蚀的一面。然后用所提供的螺丝钉通过将两端勒紧至可用手指旋紧适当固定夹具顶端。将DNA-酶小珠混合物经夹具顶端提供的两个入口上样至纤维光学载玻片。应非常小心以最小化上样小珠混合物过程中的气泡。持续轻推移液管活塞完成每次沉积。在安装有GH 3.8-A转子的Beckman Coulter Allegra 6离心机上以2800rpm将完整组件离心10分钟。离心后用移液管去除上清。

第2层。Dynal酶小珠(920μL)与2760μL小珠洗涤缓冲液混合并如前所述将3400μL酶-小珠混悬液上样至纤维光学载玻片。将载玻片组件2800rpm离心10分钟并倾去上清。从夹具上取下纤维光学载玻片并保存于小珠洗涤缓冲液中直至准备好将其上样至仪器上。

4.12在454仪器上测序

在含有0.4mg/mL聚乙烯吡咯烷酮(MW 360000)、1mM DTT和0.1％Tween 20的1×测定缓冲液中制备所有的流动试剂。在含有0.4mg/mL聚乙烯吡咯烷酮(MW 360000)、1mM DTT和0.1％Tween20的1×测定缓冲液中制备底物(300μM D-萤光素(Regis)和2.5μM腺苷磷酰硫酸(Sigma))。通过将腺苷三磷酸双磷酸酶加入含0.4mg/mL聚乙烯吡咯烷酮(MW 360000)、1mM DTT和0.1％Tween 20的1×测定缓冲液中至终活性为每升8.5单位制备腺苷三磷酸双磷酸酶洗液。在底物缓冲液中将脱氧核苷酸dCTP、dGTP和dTTP(GE Biosciences)制备至终浓度6.5μM，将α-硫代脱氧腺苷三磷酸(dATPαS，Biolog)和焦磷酸钠(Sigma)分别制备至终浓度0.5μM和0.1μM。

454测序仪由三个主要组件组成：射流子系统、纤维光学载玻片盒/流室和成像子系统。试剂进口线路、多阀歧管和蠕动泵构成射流子系统的部分。各个试剂与适当的试剂进口线路连接，其允许以预设定的流速和持续时间将试剂递送至流室内，一次一种试剂。纤维光学载玻片盒/流室在载玻片的腐蚀面和流室顶之间具有250μm空间。流室也包括控制试剂和纤维光学载玻片温度的工具以及遮光外罩。载玻片的光滑(未腐蚀)面直接与成像系统接触放置。

通过射流系统的预编程操作实现循环递送测序试剂至纤维光学载玻片孔并从孔中洗涤测序反应副产物。该程序以Interface ControlLanguage(ICL)脚本形式书写，规定试剂名称(洗液、dATPαS、dCTP、dGTP、dTTP和PPi标准液)、流速和各脚本步骤的持续时间。所有试剂的流速设定为4mL/min并且流室中的线性速度为约～1cm/s。将测序试剂的流序组织在核(kernel)中，其中第一个核由PPi流(21秒)，之后14秒的底物流，28秒的腺苷三磷酸双磷酸酶洗液和21秒的底物流组成。第一次PPi流之后为21周期的dNTP流(dC-底物-腺苷三磷酸双磷酸酶洗液-底物dA-底物-腺苷三磷酸双磷酸酶洗液-底物-dG-底物-腺苷三磷酸双磷酸酶洗液-底物-dT-底物-腺苷三磷酸双磷酸酶洗液-底物)，其中各dNTP流由4个单独的核组成。各核长84秒(dNTP-21秒，底物流-14秒，腺苷三磷酸双磷酸酶洗液-28秒，底物流-21秒)；21秒和63秒后捕捉图像。21周期的dNTP流之后引入PPi核，之后为另21周期的dNTP流。测序运行结束后为第三个PPi核。总运行时间为244分钟。完成这次运行需要的试剂体积如下：各洗涤液500mL、各核苷酸溶液100mL。在运行中，所有试剂保存于室温。流室和流室进口管的温度控制在30℃并且将所有进入流室的试剂预热至30℃。

实施例5 土样分析

用本发明方法分析从土壤中的生物体提取的核酸。根据制造商的使用说明用Epicentre(Madison，WI，USA)的DNA提取试剂盒进行提取。

简而言之，向各空的来自Epicentre的旋转柱中加入五百五十微升抑制剂移除树脂。将柱于2000×g离心一分钟压实柱子。移除流过液并向各柱子加入另外550μl的抑制剂移除树脂，然后2000×g离心2分钟。

收集一百毫克的土壤至1.5ml管中并加入250μl土壤DNA提取缓冲液和2μl蛋白酶K。将溶液涡旋后加入50μl土壤裂解缓冲液并再次涡旋。将管于65℃温育10分钟并接着1000×g离心2分钟。将一百八十微升的上清转移至新的管中并加入60μl蛋白沉淀试剂，颠倒试管充分混合。将试管在冰上温育8分钟然后以最大速度离心8分钟。将一百至一百五十微升的上清直接转移至已制备的旋转柱上并将柱子2000×g离心2分钟至1.5ml试管中。丢弃柱子并收集洗脱物。向洗脱物中加入6μl DNA沉淀溶液并简略涡旋混合管。于室温下温育5分钟后，以最大速度离心管5分钟。去除上清并用500μl沉淀洗涤溶液洗涤沉淀。颠倒管混合溶液并接着以最大速度离心3分钟。去除上清并重复洗涤步骤。再次去除上清并将终沉淀重悬于300μl TE缓冲液中。

所产生的DNA样品可用于至少包括检测基因座核苷酸频率的方法的本发明方法。

实施例6 设计HIV进化枝B引物

由于HIV基因组的高度变异性，编辑了大量序列的比对。在LosAlamos National Laboratory维护的HIV序列数据库中搜索具有POL区(其包含蛋白酶、逆转录酶和整合酶编码区)数据的HIV-1进化枝B序列。比对多于6000个高质量的序列并生成一致序列。接着将这些序列上传至应用服务器并且以一致序列作为目标序列生成突变曲线图。从这一曲线图中可鉴定保守区并设计这些区域的引物。

首先测定这些引物从一组4个参比序列(1A、4A、8A和4B)生成预期大小的扩增子的能力。选择最终引物组以获得对蛋白酶和逆转录酶中所有关注区域的多次覆盖。此外，四个引物被设计为各为两个序列的混合物，在一个核苷酸位点存在差异被认为对于引物结合和一大部分(＞10-30％)序列的多态性是必须的。这一策略允许大多数情况下的完全覆盖，即使一个或两个引物在给定序列上失败。引物和扩增子的位点显示于图12的这些图式中。

实施例7 扩增子策略检测

通过测序总共8个参比样品(指定为1A、4A、8A、4B、14、15、17和25)检测实施例6的扩增子策略。这些参比样品为来自巢式PCR方法的1.4Kb扩增子的形式。通过15个循环的PCR从参比样品生成扩增子并使用扩增子A和B试剂盒制成乳液。在一些例子中，测序单个的扩增子，有时将数个扩增子在乳液步骤混合。接着将扩增子测序与精确相同的1.4Kb的扩增子(其已被作为随机库雾化并测序)的测序比较。就检测各位点的实际核苷酸组成而言经雾化的样品被认为具有最小化的偏倚。在所有情况下，扩增子和库测序突变曲线图之间达到非常好的对应性。引物结合区域出现的仅有问题归因于从简并位点引入了突变以及相对于引物的样品突变的表观抑制。使用扩增子数据分析软件可解决这两个问题，该软件可在分析前自动去除各扩增子的引物位点序列。

制备一个长的cDNA片段并接着扩增1.4Kb扩增子(使用总共75个循环的巢式PCR)生成我们的模板并不是最佳的。它涉及大量的PCR循环并且还不确定单-cDNA策略足以反映患者样品中存在的RNA准种的完整集合。因此，应用制备多个cDNA片段的策略，目前有如图12显示的三种(一种用于蛋白酶，两种用于RT-将序列分割成大约相等的三部分)。反应需单独进行因为Superscript II(MMLV RT-来源)在合成中不能从RNA替换cDNA并因此向混合反应物中的3′-最末端序列引入偏倚。

40循环的PCR可得到一致的扩增子扩增，平均产率约每扩增子150ng。对于高病毒载量的样品可使用更少的扩增循环。

实施例8 受试者蛋白酶和RT区域的HIV变异

在HIV阳性受试者(其具有大量相对于一致序列的序列变异体)中检测描述的发明的扩增子策略。包括变异程度的各序列变异体的表示显示于图14。在图14中，“变异频率”表示为对应序列位置柱形的高度并且相对于从0(即HIV受试者中0％频率)至1(即HIV受试者中100％频率)的范围。而且，受试者中对应序列位点的变异体核苷酸种类的身份用颜色表示。如图14所示，该特定患者在蛋白酶和逆转录酶区域具有许多变异体，一些以高频率出现，一小群以低频率出现。应理解的是并不是所有的变异体都与有害作用例如所述的耐药性相关。

实施例9 鉴定与PI耐药性相关的变异体

在HIV阳性受试者中检测描述的发明的扩增子策略，该受试者具有与被称作Nalfinavir(由Pfizer Inc.以

上市)的药物的抗性相关的特定序列变异体，该药物为HIV蛋白酶的选择性、非肽类抑制剂。经鉴定该特定变异在特定受试者中的频率以取自受试者样品中病毒RNA分子的3.7％出现，如图15所示。图15也提供了从受试者样品产生的扩增子序列与一致序列之间的比对的说明性实例，其显示在3.7％被测序的RNA分子中从G核苷酸种类到A核苷酸种类的变化。图15也提供了在受试者样品中被测序的RNA分子数量百分比的变异程度的说明图(以″读取″数量表述)。如本所使用术语“读取”通常指来源自单个核酸模板分子(包括该模板核酸分子基本相同拷贝的克隆群)的完整序列数据。在本实施例中，变异体为序列位点244处的单核苷酸变化，其在通过质量控制标准的超过2000个序列读取的3.7％中出现。

实施例10 鉴定与NNRTI药物抗性相关的变异体

在HIV阳性受试者中检测描述的发明的扩增子策略，该受试者具有与药物地拉韦啶(由Pfizer Inc.以

上市)、奈韦拉平(由Boehringer Ingelheim Pharmaceuticals Inc.以

上市)、依法韦仑(由Bristol Myers Squibb以

上市)和(由TibotecTherapeutics以Intelence上市)的抗性相关的特定序列变异体，这些药物均为非核苷逆转录酶抑制剂(NNRTI)。经鉴定该特定变异在特定受试者中的频率在取自受试者样品中病毒RNA分子的1.0％出现，如图16所示。图16也提供了从受试者样品产生的扩增子序列与一致序列之间的比对的说明性实例，其显示在1.0％被测序的RNA分子中从A核苷酸种类到G核苷酸种类的变化。图16也提供了在受试者样品中被测序的RNA分子数量百分比的变异程度的说明图(以″读取″数量表述)。在本实施例中，变异体为序列位点995处的单核苷酸变化，其在通过质量控制标准的约5000个序列读取的1.0％中出现。

实施例11 鉴定与NRTI耐药性相关的变异体

在HIV阳性患者中检测描述的发明的扩增子策略，该受试者在特定密码子中具有与核苷酸/核苷逆转录酶抑制剂(NRTI)早先抗性相关的序列变异体。所鉴定的变异出现在该密码子的前两个位点，第一个变异体为A核苷酸种类变化至G核苷酸种类而第二个变异体为C核苷酸种类变化至A核苷酸种类，如图17所示。图17的实施例中显而易见第一和第二位点的变化不出现在相同的RNA序列中，而是出现在独立的RNA分子中。

参考文献：

BioAnalyzer User Manual(Agilent)：hypertext transfer protocol://world wideweb.chem.agilent.com/temp/rad31B29/00033620.pdf

BioAnalyzer DNA and RNA LabChip Usage(Agilent)：hypertext transferprotocol://world wide web.agilent.com/chem/labonachip

BioAnalyzer RNA 6000Ladder(Ambion)：hypertext transfer protocol://world wideweb.ambion.com/techlib/spec/sp_7152.pdf

Biomagnetic Techniques in Molecular Biology，Technical Handbook，3rd edition(Dynal，1998)：hypertext transfer protocol://world wide

web.dynal.no/kunder/dynal/DynalPub36.nsf/cb927fbab127a0ad4125683b004b011c/4908f5b1a665858a41256adf005779f2/$FILE/Dynabeads M-280Streptavidin.pdf.

Dinauer等，2000 Sequence-based typing of HLA class II DQB1.Tissue Antigens55：364.

Garcia-Martinez，J.，I.Bescos，等(2001).″RISSC：a novel database for ribosomal16S-23S RNA genes spacer regions.″Nucleic Acids Res 29(1)：178-80.

Grahn，N.，M.Olofsson，等(2003).″Identification of mixed bacterial DNAcontamination in broad-range PCR amplification of 16S rDNA V1 and V3 variable regionsby pyrosequencing of cloned amplicons.″FEMS Microbiol Lett 219(1)：87-91.

Hamilton，S.C.，J.W.Farchaus and M.C.Davis.2001.DNA polymerases as enginesfor biotechnology.Bio Techniques 31：370.

Jonasson，J.，M.Olofsson，等(2002).″Classification，identification and subtypingof bacteria based on pyrosequencing and signature matching of 16S rDNA fragments.″Apmis 110(3)：263-72.

MinElute kit(QIAGEN)：hypertext transfer protocol://world wideweb.qiagen.com/literature/handbooks/minelute/1016839_HBMinElute_Prot_Gel.pdf.

Monstein，H.，S.Nikpour-Badr，等(2001).″Rapid molecular identification andsubtyping of Helicobacter pylori by pyrosequencing of the 16S rDNA variable V1 and V3regions.″FEMS Microbiol Lett 199(1)：103-7.

Norgaard等，1997 Sequencing-based typing of HLA-A locus using mRNA and asingle locus-specific PCR followed by cycle-sequencing with AmpliTaq DNA polymerse.Tissue Antigens.49：455-65.

Pollard，K.S.and M.J.van der Laan(2005).″Clsuter Analysis of Genomic Data withApplications in R.″U.C.Berkeley Division of Biostatistics Working Paper Series # 167.

QiaQuick Spin Handbook(QIAGEN，2001)：hypertext transfer protocol://world wideweb.qiagen.com/literature/handbooks/qqspin/1016893HBQQSpin_PCR_mc_prot.pdf.

Quick Ligation Kit(NEB)：hypertext transfer protocol://world wideweb.neb.com/neb/products/mod_enzymes/M2200.html.

Shimizu等，2002Universal fluorescent labeling(UFL)method for automatedmicrosatellite analysis.DNA Res.9：173-78.

Steffens等，1997 Infrared fluorescent detection of PCR amplified genderidentifying alleles.J.Forensic Sci.42：452-60.

Team，R.D.C.(2004).R：A language and environment for statistical computing.Vienna，Austria，R Foundation for Statistical Computing.

Tsang等，2004 Development of multiplex DNA electronic microarray using auniversal adaptor system for detection of single nucleotide polymorphisms.Biotechniques36：682-88.

序列表

<110>Simen，Birgitte B

Lubeski，Christine

Simons，Jan F

<120>检测HIV耐药变异体的系统和方法

<130>21465-515001WO

<140>TBA

<141>2008-03-14

<160>134

<170>PatentIn version 3.3

<210>1

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>1

gcctccctcg cgccatcaga cctccctctg tgtccttaca a 41

<210>2

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>2

gccttgccag cccgctcagg gagggaatca tactagcacc a 41

<210>3

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>3

gcctccctcg cgccatcagt ctgacgatct ctgtcttcta acc 43

<210>4

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>4

gccttgccag cccgctcagg ccttgaacta cacgtggct 39

<210>5

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>5

gcctccctcg cgccatcaga tttctctacc acccctggc 39

<210>6

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>6

gccttgccag cccgctcaga gctcatgtct cccgaagaa 39

<210>7

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>7

gcctccctcg cgccatcaga aagccagaag aggaaaggc 39

<210>8

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>8

gccttgccag cccgctcagc ttgcagattg gtcataagg 39

<210>9

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>9

gcctccctcg cgccatcaga cagtgcaaac accaccaaa 39

<210>10

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>10

gccttgccag cccgctcagc cagtattcat ggcagggtt 39

<210>11

<211>15

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>11

gcctccctcg cgcca 15

<210>12

<211>15

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>12

gccttgccag cccgc 15

<210>13

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>13

gcctccctcg cgccatcagg aagagtttga tcatggctca g 41

<210>14

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>14

gccttgccag cccgctcagt tactcacccg tccgccact 39

<210>15

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>15

gcctccctcg cgccatcagg caacgcgaag aaccttacc 39

<210>16

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>16

gccttgccag cccgctcaga cgacagccat gcagcacct 39

<210>17

<211>72

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>17

aagagttttg atcatggctc agattgaacg ctggcggcag gcctaacaca tgcaagtcga 60

acggtaacag ga 72

<210>18

<211>71

<212>DNA

<213>大肠杆菌

<400>18

tttgatcatg gctcagattg aacgctggcg gcaggcctaa cacatgcaag tcgaacggta 60

acgaggaacg a 71

<210>19

<211>70

<212>DNA

<213>大肠杆菌

<400>19

tttgatcatg gctcagattg aacgctggcg gcaggcctaa cacatgcaag tcgaacggta 60

acaggaacga 70

<210>20

<211>72

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>20

aagagttttg atcatggctc agattgaacg ctggcggcag gcctaacaca tgcaagtcga 60

acggtaacag ga 72

<210>21

<211>71

<212>DNA

<213>大肠杆菌

<400>21

aagagtttga tcatggctca gattgaacgc tggcggcagg cctaacacat gcaagtcgaa 60

cggtaacagg a 71

<210>22

<211>71

<212>DNA

<213>大肠杆菌

<400>22

aagagtttga tcatggctca gattgaacgc tggcggcagg cctaacacat gcaagtcgaa 60

cggtaacagg a 71

<210>23

<211>104

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>23

caacgcgaag aaccttacct ggtcttgaca tccacgaagt ttactagaga tgagaatgtg 60

ccgttcggga accggtgaga caggtgctgc atggctgtcg tctg 104

<210>24

<211>102

<212>DNA

<213>大肠杆菌

<400>24

caacgcgaag aaccttacct ggtcttgaca tccacgaagt ttactagaga tgagaatgtg 60

ccgttcggga accggtgaga caggtgctgc atggctgtcg tc 102

<210>25

<211>99

<212>DNA

<213>大肠杆菌

<400>25

caacgcgaag aaccttacct ggtcttgaca tccacgaagt tttcagagat gagaatgtgc 60

cttcgggaac cgtgagacag gtgctgcatg gctgtcgtc 99

<210>26

<211>102

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>26

caacgcgaag aaccttacct ggtcttgaca tccacgaagt ttacagagat gagaatgtgc 60

cgttcgggaa ccgtgagaca ggtgctgcat ggctgtcgtc tg 102

<210>27

<211>100

<212>DNA

<213>大肠杆菌

<400>27

caacgcgaag aaccttacct ggtcttgaca tccacgaagt ttacagagat gagaatgtgc 60

cgttcgggaa ccgtgagaca ggtgctgcat ggctgtcgtc 100

<210>28

<211>99

<212>DNA

<213>大肠杆菌

<400>28

caacgcgaag aaccttacct ggtcttgaca tccacgaagt tttcagagat gagaatgtgc 60

cttcgggaac cgtgagacag gtgctgcatg gctgtcgtc 99

<210>29

<211>5

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>29

aaaaa 5

<210>30

<211>20

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>30

ccatctgttg cgtgcgtgtc 20

<210>31

<211>20

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>31

cgtttcccct gtgtgccttg 20

<210>32

<211>20

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>32

ccatctgttg cgtgcgtgtc 20

<210>33

<211>40

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>33

cgtttcccct gtgtgccttg ccatctgttc cctccctgtc 40

<210>34

<211>15

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>34

gcctccctcg cgcca 15

<210>35

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>35

gcctccctcgcgccatcagtgccaggaagatggaaacca 39

<210>36

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>36

gccttgccagcccgctcagtgataaaacctccaattcccccta 43

<210>37

<211>44

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>37

gccttgccagcccgctcaggtacagtttcaataggactaatggg 44

<210>38

<211>38

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>38

gccttgccagcccgctcagttgggccatccattcctgg 38

<210>39

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>39

gcctccctcgcgccatcagatcactctttggcaacgacc 39

<210>40

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>40

gcctccctcgcgccatcagatcactctttggcagcgacc 39

<210>41

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>41

gcctccctcgcgccatcaggtaccagtaaaattaaagccaggaatgg 47

<210>42

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>42

gcctccctcgcgccatcagggccattgacagaagaaaaaataaaagc 47

<210>43

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>43

gcctccctcgcgccatcagggaagttcaattaggaataccacatcc 46

<210>44

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>44

gccttgccagcccgctcagggatgtggtattcctaattgaacttcc 46

<210>45

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>45

gccttgccagcccgctcagggatgtggtattcctaattggacttcc 46

<210>46

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>46

gccttgccagcccgctcagctaggtatggtaaatgcagtatacttcct 48

<210>47

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>47

gccttgccagcccgctcagctaggtatggtaaatgcagtatactttct 48

<210>48

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>48

gcctccctcgcgccatcagcaccagggattagatatcagtacaatgt 47

<210>49

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>49

gccttgccagcccgctcagaaggctctaagatttttgtcat 41

<210>50

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>50

gcctccctcgcgccatcagagagccttttagaaaacaaaatccaga 46

<210>51

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>51

gccttgccagcccgctcagcactataggctgtactgtccatttatc 46

<210>52

<211>45

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>52

gccttgccagcccgctcagaacttctgtatgtcattgacagtcca 45

<210>53

<211>45

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>53

gccttgccagcccgctcagaacttctgtatatcattgacagtcca 45

<210>54

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>54

gcctccctcgcgccatcagatcactctttggcaacgacc 39

<210>55

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>55

gcctccctcgcgccatcagatcactctttggcagcgacc 39

<210>56

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>56

gcctccctcgcgccatcagtgccaggaaaatggaaacca 39

<210>57

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>57

gcctccctcgcgccatcagtgccaggaaattggaaacca 39

<210>58

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>58

gccttgccagcccgctcagtgataaaacctccaattcccccta 43

<210>59

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>59

gccttgccagcccgctcagtgataaaacctccaattcctccta 43

<210>60

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>60

gccttgccagcccgctcaggctttaattttactggtacagtttcaat 47

<210>61

<211>38

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>61

gccttgccagcccgctcagttgggccatccattcctgg 38

<210>62

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>62

gcctccctcgcgccatcaggtaccagtaaaattaaagccaggaatgg 47

<210>63

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>63

gcctccctcgcgccatcagggccattgacagaagagaaaataaaagc 47

<210>64

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>64

gcctccctcgcgccatcagggccattgacagaagaaaaaataaaagc 47

<210>65

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>65

gccttgccagcccgctcaggggtgtggtattcctaattgaacctcc 46

<210>66

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>66

gccttgccagcccgctcaggggtgtggtattcctaattgaacttcc 46

<210>67

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>67

gcctccctcgcgccatcagggaagttcaattaggaataccacaccc 46

<210>68

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>68

gcctccctcgcgccatcagggaagttcaattagggataccacaccc 46

<210>69

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>69

gccttgccagcccgctcagatactaggtatggtgaatgcagtatattt 48

<210>70

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>70

gccttgccagcccgctcagatactaggtatggtgaatgcagtatactt 48

<210>71

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>71

gcctccctcgcgccatcagcaccagggattagatatcaatataatgt 47

<210>72

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>72

gcctccctcgcgccatcagcaccagggattagatatcagtacaatgt 47

<210>73

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>73

gccttgccagcccgctcagagggctctaagatttttgtcat 41

<210>74

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>74

gcctccctcgcgccatcagagagccctttagagcaaaaaatccaga 46

<210>75

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>75

gcctccctcgcgccatcagagagccctttagagcacaaaatccaga 46

<210>76

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>76

gcctccctcgcgccatcagagagccctttagagcaaaaaacccaga 46

<210>77

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>77

gcctccctcgcgccatcagagagccctttagagcacaaaacccaga 46

<210>78

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>78

gccttgccagcccgctcagctgtataggctgtactgtccatttgtc 46

<210>79

<211>45

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>79

gccttgccagcccgctcagaacttctgtatatcattgacagtcca 45

<210>80

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>80

gcctccctcgcgccatcagatcactctttggcaacgacc 39

<210>81

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>81

gcctccctcgcgccatcagatcactctttggcagcgacc 39

<210>82

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>82

gcctccctcgcgccatcagtgccaggaaaatggaaacca 39

<210>83

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>83

gcctccctcgcgccatcagtgccaggaaattggaaacca 39

<210>84

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>84

gccttgccagcccgctcagtgataaaacctccaattcccccta 43

<210>85

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>85

gccttgccagcccgctcagtgataaaacctccaattcctccta 43

<210>86

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>86

gccttgccagcccgctcaggctttaattttactggtacagtttcaat 47

<210>87

<211>38

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>87

gccttgccagcccgctcagttgggccatccattcctgg 38

<210>88

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>88

gcctccctcgcgccatcaggtaccagtaaaattaaagccaggaatgg 47

<210>89

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>89

gcctccctcgcgccatcagggccattgacagaagagaaaataaaagc 47

<210>90

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>90

gcctccctcgcgccatcagggccattgacagaagaaaaaataaaagc 47

<210>91

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>91

gccttgccagcccgctcaggggtgtggtattcctaattgaacctcc 46

<210>92

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>92

gccttgccagcccgctcaggggtgtggtattcctaattgaacttcc 46

<210>93

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>93

gcctccctcgcgccatcagggaagttcaattaggaataccacaccc 46

<210>94

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>94

gcctccctcgcgccatcagggaagttcaattagggataccacaccc 46

<210>95

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>95

gccttgccagcccgctcagatactaggtatggtgaatgcagtatattt 48

<210>96

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>96

gccttgccagcccgctcagatactaggtatggtgaatgcagtatactt 48

<210>97

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>97

gcctccctcgcgccatcagcaccagggattagatatcaatataatgt 47

<210>98

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>98

gcctccctcgcgccatcagcaccagggattagatatcagtacaatgt 47

<210>99

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>99

gccttgccagcccgctcagagggctctaagatttttgtcat 41

<210>100

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>100

gcctccctcgcgccatcagagagccctttagagcaaaaaatccaga 46

<210>101

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>101

gcctccctcgcgccatcagagagccctttagagcacaaaatccaga 46

<210>102

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>102

gcctccctcgcgccatcagagagccctttagagcaaaaaacccaga 46

<210>103

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>103

gcctccctcgcgccatcagagagccctttagagcacaaaacccaga 46

<210>104

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>104

gccttgccagcccgctcagctgtataggctgtactgtccatttgtc 46

<210>105

<211>45

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>105

gccttgccagcccgctcagaacttctgtatatcattgacagtcca 45

<210>106

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>106

gcctccctcgcgccatcagatcactctttggcaacgacc 39

<210>107

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>107

gcctccctcgcgccatcagatcactctttggcagcgacc 39

<210>108

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>108

gcctccctcgcgccatcagtgccaggaaaatggaaacca 39

<210>109

<211>39

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>109

gcctccctcgcgccatcagtgccaggaaattggaaacca 39

<210>110

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>110

gccttgccagcccgctcagtgataaaacctccaattcccccta 43

<210>111

<211>43

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>111

gccttgccagcccgctcagtgataaaacctccaattcctccta 43

<210>112

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>112

gccttgccagcccgctcaggctttaattttactggtacagtttcaat 47

<210>113

<211>38

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>113

gccttgccagcccgctcagttgggccatccattcctgg 38

<210>114

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>114

gcctccctcgcgccatcaggtaccagtaaaattaaagccaggaatgg 47

<210>115

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>115

gcctccctcgcgccatcagggccattgacagaagagaaaataaaagc 47

<210>116

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>116

gcctccctcgcgccatcagggccattgacagaagaaaaaataaaagc 47

<210>117

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>117

gccttgccagcccgctcaggggtgtggtattcctaattgaacctcc 46

<210>118

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>118

gccttgccagcccgctcaggggtgtggtattcctaattgaacttcc 46

<210>119

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>119

gcctccctcgcgccatcagggaagttcaattaggaataccacaccc 46

<210>120

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>120

gcctccctcgcgccatcagggaagttcaattagggataccacaccc 46

<210>121

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>121

gccttgccagcccgctcagatactaggtatggtgaatgcagtatattt 48

<210>122

<211>48

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>122

gccttgccagcccgctcagatactaggtatggtgaatgcagtatactt 48

<210>123

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>123

gcctccctcgcgccatcagcaccagggattagatatcaatataatgt 47

<210>124

<211>47

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>124

gcctccctcgcgccatcagcaccagggattagatatcagtacaatgt 47

<210>125

<211>41

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>125

gccttgccagcccgctcagagggctctaagatttttgtcat 41

<210>126

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>126

gcctccctcgcgccatcagagagccctttagagcaaaaaatccaga 46

<210>127

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>127

gcctccctcgcgccatcagagagccctttagagcacaaaatccaga 46

<210>128

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>128

gcctccctcgcgccatcagagagccctttagagcaaaaaacccaga 46

<210>129

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>129

gcctccctcgcgccatcagagagccctttagagcacaaaacccaga 46

<210>130

<211>46

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>130

gccttgccagcccgctcagctgtataggctgtactgtccatttgtc 46

<210>131

<211>45

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>131

gccttgccagcccgctcagaacttctgtatatcattgacagtcca 45

<210>132

<211>93

<212>DNA

<213>人工的

<220>

<223>合成的寡核苷酸

<400>132

ataggggggcaactaaaggaagctctattagatacaggagcagatgatacagtattagaagaaatgaatttgccaggaag

atggaaaccaaaa 93

<210>133

<211>1260

<212>DNA

<213>人类免疫缺陷病毒

<220>

<223>合成的寡核苷酸

<400>133

cctcagatcactctttggcaacgacccctcgtcaaagtaaagataggggggcaactaaaggaagctctattagatacagg

agcagatgatacagtattagaagaaatgaatttgccaggaagatggaaaccaaaaatgatagggggaattggaggtttta

tcaaagtaagacagtatgatcagatacccatagaaatctgtggacataaagctataggtacagtattagtaggacctaca

cctgtcaacataattggaagaaatctgttgactcagattggttgcactttaaattttcccattagtcctattgaaactgt

accagtaaaattaaagccaggaatggatggcccaaaagttaaacaatggccattgacagaagaaaaaataaaagcattag

tagaaatttgtacagaaatggaaaaggaagggaaaatttcaaaaattgggcctgaaaatccatacaatactccagtattt

gccataaagaaaaaagacagtactaaatggagaaaattagtagatttcagagaacttaataagagaactcaagacttctg

ggaagttcaattaggaataccacatcccgcagggttaaaaaagaaaaaatcagtaacagtactggatgtgggtgatgcat

atttttcagttcccttagataaagacttcaggaagtatactgcatttaccatacctagtataaacaatgagacaccaggg

attagatatcagtacaatgtgcttccacagggatggaaaggatcaccagcaatattccaaagtagcatgacaaaaatctt

agagccttttagaaaacaaaatccagacatagttatctatcaatacatggatgatttgtatgtaggatctgacttagaaa

tagggcagcatagaacaaaaatag

aggaactgagacaacatctgttgaggtggggatttaccacaccagacaaaaaacatcagaaagaacctccattcctttgg

atgggttatgaactccatcctgataaatggacagtacagcctatagtgctgccagaaaaagacagctggactgtcaatga

catacagaagttagtgggaaaattgaattgggcaagtcagatttacgcagggattaaagtaaagcaattatgtaaactcc

ttaggggaaccaaagcactaacagaagtaataccactaacagaagaagcagagctagaactggcagaaaacagggaaatt

ctaaaagaaccagtacatggagtgtattatgaccca

1260

<210>134

<211>1260

<212>DNA

<213>人类免疫缺陷病毒

<220>

<223>合成的寡核苷酸

<400>134

cctcactcaaatctttggcagcgaccccttgtctcaataaaagtagggggccagataaaggaggctctcttagacacagg

agcagatgatacagtattagaagaaataaatttgccaggaaaatggaaaccaaaaatgataggaggaattggaggtttta

tcaaagtaagacagtatgatcaaatacttatagaaatttgtggaaaaaaggctataggtacagtattagtaggacctaca

cctgtcaacataattggaagaaatatgttgactcagcttggatgcacactaaattttccaattagtcccattgaaactgt

accagtaaaattaaagccaggaatggatggcccaaaggttaaacaatggccattgacagaagagaaaataaaagcattaa

cagcaatttgtgaagaaatggagaaggaaggaaaaattacaaaaattgggcctgaaaatccatataacactccagtattt

gccataaaaaagaaggacagtactaagtggagaaaattagtagatttcagggaactcaataaaagaactcaagacttttg

ggaagttcaattaggaataccacacccagcagggttaaaaaagaaaaaatcagtgacagtactggatgtgggggatgcat

atttttcagttcctttagatgaaggcttcaggaaatatactgcattcaccatacctagtataaacaatgaaacaccaggg

attagatatcaatataatgtgcttccacagggatggaaaggatcaccagcaatattccagagtagcatgacaaaaatctt

agagccctttagggcacaaaatccagaaatagtcatctatcaatatatggatgacttgtatgtaggatctgacttagaaa

tagggcaacatagagcaaaaatagaggagttaagagaacatctattaaagtggggatttaccacaccagacaagaaacat

cagaaagaacccccatttctttggatggggtatgaactccatcctgacaaatggacagtacagcctatacagctgccaga

aaaggatagctggactgtcaatgatatacagaagttagtgggaaaattaaactgggcaagtcagatttacccagggatta

aagtaaggcaactttgtaaactccttaggggggccaaagcactaacagacatagtaccactaactgaagaagcagaatta

gaattggcagagaacagggaaattctaaaagaaccagtacatggagtatattatgaccca

1260

Claims

1.检测一个或更多个与耐药性相关的HIV序列变异体低频出现的方法，其包括以下步骤：

(a)从HIV样品群中各RNA分子生成复数个cDNA种类；

(b)从cDNA种类扩增复数个第一扩增子，其中各第一扩增子包括复数个已扩增拷贝并用限定第一扩增子基因座的核酸引物对扩增；

(b)克隆扩增第一扩增子的已扩增拷贝以产生复数个第二扩增子，其中复数个第二扩增子包括来自第一扩增子已扩增拷贝之一的基本相同拷贝的固定化群；

(c)在单个仪器上平行测定来自至少100个固定化群的基本相同拷贝的核酸序列组合物；

(d)检测该至少100个固定化群的核酸序列组合物中以5％或更低频率出现的一个或更多个序列变异体；以及

(e)将所检测序列变异体与HIV耐药性相关变异相关联。

2.权利要求1的方法，其中：

所述HIV耐药性相关变异已知与特定药物种类或药物相关。

3.权利要求2的方法，其中：

所述HIV药物种类选自蛋白酶抑制剂、核苷酸/核苷逆转录酶抑制剂和非核苷逆转录酶抑制剂。

4.权利要求1的方法，其中：

所述复数个cDNA种类包括3个cDNA种类。

5.权利要求1的方法，其中：

所述3个cDNA种类均与至少一个相邻cDNA种类具有重叠序列组成。

6.权利要求1的方法，其中：

所述HIV样品群来源自单个患者。

7.权利要求1的方法，其中：

所述单个患者未使用药物。

8.权利要求1的方法，其中：

所述单个患者之前接触了HIV抗逆转录病毒药物疗法。

9.权利要求1的方法，其中：

所述复数个第一扩增子包括8个扩增子。

10.权利要求1的方法，其中：

所述第一扩增子的引物对靶向低突变频率区域。

11.权利要求1的方法，其中：

所述第一扩增子的引物对特异于选自进化枝B和进化枝C的HIV进化枝。

12.权利要求11的方法，其中：

所述特异于进化枝B的第一扩增子的引物对包括选自以下的引物对组：

B-ACF-1(SeqID No：39)和B-AR(SeqID No：36)；B-ACF-2(SeqID No：40)和B-AR(SeqID No：36)；B-BF(SeqID No：35)和B-BR(SeqID No：38)；B-ACF-1(SeqID No：39)和B-CR(SeqID No：37)；B-ACF-2(SeqID No：40)和B-CR(SeqID No：37)；B-1F(SeqID No：42)和B-1R-1(SeqID No：44)；B-1F(SeqID No：42)和B-1R-2(SeqID No：45)；B-2F(SeqID No：43)和B-2R(SeqID No：49)；B-3F(SeqID No：50)和B-3R(SeqID No：51)；B-4F(SeqID No：41)和B-4R-1(SeqID No：46)；B-4F(SeqID No：41)和B-4R-2(SeqID No：47)；B-5F(SeqID No：48)和B-5R-1(SeqID No：52)；和B-5F(SeqID No：48)和B-5R-2(SeqID No：53)。

13.权利要求11的方法，其中：

所述特异于进化枝C的第一扩增子的引物对包括选自以下的引物对组：

C-ACF-1(SeqID No：54)和C-AR-1(SeqID No：58)；C-ACF-1(SeqID No：54)和C-AR-2(SeqID No：59)；C-ACF-2(SeqIDNo：55)和C-AR-1(SeqID No：58)；C-ACF-2(SeqID No：55)和C-AR-2(SeqID No：59)；C-BF-1(SeqID No：56)和C-BR(SeqID No：61)；C-BF-2(SeqID No：57)混合物和C-BR(SeqID No：61)；C-ACF-1(SeqID No：54)和C-CR(SeqID No：60)；C-ACF-2(SeqID No：55)和C-CR(SeqID No：60)；C-1F-1(SeqID No：63)和C-1R-1(SeqID No：65)；C-1F-1(SeqID No：63)和C-1R-2(SeqID No：66)；C-1F-2(SeqID No：64)和C-1R-1(SeqID No：65)；C-1F-2(SeqID No：64)和C-1R-2(SeqID No：66)；C-2F-1(SeqID No：67)和C-2R(SeqID No：73)；C-2F-2(SeqID No：68)和C-2R(SeqID No：73)；C-3F-1(SeqID No：74)和C-3R(SeqID No：78)；C-3F-2(SeqID No：75)和C-3R(SeqID No：78)；C-3F-3(SeqIDNo：76)和C-3R(SeqID No：78)；C-3F-4(SeqID No：77)和C-3R(SeqID No：78)；C-4F(SeqID No：62)和C-4R-1(SeqID No：69)；C-4F(SeqID No：62)和C-4R-2(SeqID No：70)；C-5F-1(SeqID No：71)和C-5R(SeqID No：79)；和C-5F-2(SeqID No：72)和C-5R(SeqID No：79)

14.权利要求1的方法，其中：

所述第一扩增子的基因座包括与蛋白酶相关的HIV区域。

15.权利要求1的方法，其中：

所述第一扩增子的基因座包括与逆转录酶相关的HIV区域。

16.权利要求1的方法，其中：

使用通用引物对扩增所述第二扩增子。

17.权利要求1的方法，其中：

以99％置信水平检测各序列变异体。

18.权利要求1的方法，其中：

测定来自至少400个固定化群的基本相同拷贝的核酸组合物并且所检测的序列变异体均以1.25％或更低的频率出现。

19.权利要求1的方法，其中：

测定来自至少10000个固定化群的基本相同拷贝的核酸组合物并且所检测的序列变异体均以0.050％或更低的频率出现。

20.权利要求1的方法，其中：

测定来自至少200000个固定化群的基本相同拷贝的核酸组合物并且所检测的序列变异体均以0.003％或更低的频率出现。

21.权利要求1的方法，其中：

所述单个仪器包括单个基底，所述单个基底包括复数个反应位点。

22.权利要求1的方法，其中：

所述单个仪器包括可检测复数个测序反应生成的信号的单个检测装置。

23.实施权利要求1的方法的试剂盒，其包括：

选自以下的一个或更多个特异于HIV进化枝B的引物对：

B-ACF-1(SeqID No：39)和B-AR(SeqID No：36)；B-ACF-2(SeqID No：40)和B-AR(SeqID No：36)；B-BF(SeqID No：35)和B-BR(SeqID No：38)；B-ACF-1(SeqID No：39)和B-CR(SeqID No：37)；B-ACF-2(SeqID No：40)和B-CR(SeqID No：37)；B-1F(SeqID No：42)和B-1R-1(SeqID No：44)；B-1F(SeqID No：42)和B-1R-2(SeqID No：45)；B-2F(SeqID No：43)和B-2R(SeqID No：49)；B-3F(SeqID No：50)和B-3R(SeqID No：51)；B-4F(SeqID No：41)和B-4R-1(SeqID No：46)；B-4F(SeqID No：41)和B-4R-2(SeqID No：47)；B-5F(SeqID No：48)和B-5R-1(SeqID No：52)；和B-5F(SeqID No：48)和B-5R-2(SeqID No：53) 。

24.实施权利要求1的方法的试剂盒，其包括：

选自以下的一个或更多个特异于HIV进化枝C的引物对：

C-ACF-1(SeqID No：54)和C-AR-1(SeqID No：58)；C-ACF-1(SeqID No：54)和C-AR-2(SeqID No：59)；C-ACF-2(SeqID No：55)和C-AR-1(SeqID No：58)；C-ACF-2(SeqID No：55)和C-AR-2(SeqID No：59)；C-BF-1(SeqID No：56)和C-BR(SeqID No：61)；C-BF-2(SeqID No：57)混合物和C-BR(SeqID No：61)；C-ACF-1(SeqIDNo：54)和C-CR(SeqID No：60)；C-ACF-2(SeqID No：55)和C-CR(SeqID No：60)；C-1F-1(SeqID No：63)和C-1R-1(SeqID No：65)；C-1F-1(SeqID No：63)和C-1R-2(SeqID No：66)；C-1F-2(SeqID No：64)和C-1R-1(SeqID No：65)；C-1F-2(SeqID No：64)和C-1R-2(SeqID No：66)；C-2F-1(SeqID No：67)和C-2R(SeqID No：73)；C-2F-2(SeqID No：68)和C-2R(SeqID No：73)；C-3F-1(SeqID No：74)和C-3R(SeqID No：78)；C-3F-2(SeqID No：75)和C-3R(SeqID No：78)；C-3F-3(SeqID No：76)和C-3R(SeqIDNo：78)；C-3F-4(SeqID No：77)和C-3R(SeqID No：78)；C-4F(SeqID No：62)和C-4R-1(SeqID No：69)；C-4F(SeqID No：62)和C-4R-2(SeqID No：70)；C-5F-1(SeqID No：71)和C-5R(SeqID No：79)；和C-5F-2(SeqID No：72)和C-5R(SeqID No：79)