CN110392739A

CN110392739A - 检测dna突变的测序方法

Info

Publication number: CN110392739A
Application number: CN201880017047.5A
Authority: CN
Inventors: 张立峰; 洪儒; 乌迪塔·千多拉
Original assignee: Nanyang Technological University
Current assignee: Zhang Lifeng
Priority date: 2017-03-20
Filing date: 2018-03-20
Publication date: 2019-10-29
Anticipated expiration: 2038-03-20
Also published as: WO2018174821A1; CN110392739B

Abstract

一种检测宿主物种中基因缺失的方法，包括：(a)用至少一对预PCR引物扩增基因缺失周围的第一DNA区域，形成预PCR产物，其中一对预PCR引物中的一个在5'‑末端携带接头序列，接头序列不存在于在宿主物种的基因组中；(b)使预PCR产物与至少一个环化探针杂交，其中所述的至少一个环化探针具有连接臂和与接头序列的互补链杂交的延伸臂。

Description

检测DNA突变的测序方法

关联申请的引用

本申请要求于2017年3月20日提交的新加坡专利申请No.10201702238W的权益和优先权，其内容通过引用并入本文。

技术领域

本发明涉及用于检测DNA突变的测序方法和用于相同目的的试剂盒，特别是检测具有未知或可变边界的大片段DNA缺失。

背景技术

以下对本发明背景的讨论旨在促进对本发明的理解。然而，应该理解的是，该讨论不是承认所提及的任何材料和信息在本申请的优先权日期前在任何司法管辖区中已发表，已知或是公知常识的一部分。

虽然深度测序技术已经使个人基因组的测序成为可能，但是该技术还并没有被应用于大规模筛查人群中的致病基因突变的携带者，其受限于缺乏一个稳定和性价比高，能够可靠检测大片段DNA缺失的靶向测序方法。

首先，采用合适的方法将测序范围集中到少数的DNA靶点区域(靶向测序)是重要的。如果没有靶点富集，绝大多数测序能力将被浪费在对整个基因组(30亿碱基对)的漫无目的测序中。链锁捕获(Zhang,K.et al.Nat Methods 6,613–618(2009))是一种可行的靶向测序方法。链锁探针是为一个特定DNA靶点设计的单链DNA探针(图1A)。每条链锁探针都带有延伸臂和连接臂，延伸臂和链接臂的碱基序列是针对该条探针的DNA靶点特殊设计的。

与一对PCR(Polymerase Chain Reaction)引物类似，一个链锁探针的两臂通过互补碱基配对与模板DNA结合，但与PCR引物对不同是链锁探针的两臂同时结合于模版DNA的一条单链。在探针与其DNA模板结合后，延伸臂的3'末端引发DNA聚合酶延伸反应。

当延伸反应到达连接臂的5'末端时，这条“链锁”就可被连接酶“锁定”成一个单链的环状DNA分子。链锁捕获完成后，反应中残余的线性DNA分子可以通过核酸外切酶有效地清除。公用接头序列所设计允许采用一对公用PCR引物对所有链锁捕获产物进行扩增，然后深度测序。研究表明，一个链锁文库可以包含数万个有效的链锁探针(Zhang,K.et al.NatMethods 6,613–618(2009))。与其它靶向测序的方法相比，链锁捕获更适于群体携带者的筛查。因为一个链锁探针的文库被合成后，该文库可以通过PCR扩增的方法再生利用。而在其它的靶向测序的方法中被用于靶点富集的微阵列芯片或RNA诱饵是昂贵且不可重复使用的(Teer,J.K.et al.Genome research 20,1420–1431(2010))。

其次，用于大量人群筛查的靶向测序方法应该能够检测大片段DNA缺失，特别是边界不固定或未知的大片段DNA缺失，因为这种类型的基因突变经常出现在人类遗传疾病中。一个众所周知的例子是地中海贫血，一种由编码血红蛋白α-链(α-地贫)和β-链(β-地贫)的突变基因引起的遗传性血液病(Weatherall,D.J.Nat Rev Genet 2,245–255(2001))。血红蛋白缺陷导致红细胞功能失常，从而导致轻度或重度贫血。然而，红细胞的功能缺陷也提供了一定程度的抵抗疟疾的能力。研究认为地贫遗传突变杂合载体的选择性存活优势是造成人群中地贫突变基因长期存在的原因(Flint,J.et al.Nature321,744–750(1986))。地中海贫血是世界上最常见的遗传疾病之一，在东南亚，地中海地区，中东和撒哈拉以南的非洲地区构成重要的公共卫生问题(Weatherall,D.J.Nat Rev Genet 2,245–255(2001))。中国广西约有18％的人口(Li,C.G.et al.Hemoglobin 33,296–303(2009))和新加坡约3％的人口(https://www.kkh.com.sg/HealthPedia/Pages/PregnancyPlanningForBabyThalassaemia.aspx)是地贫遗传突变的携带者。与β-地贫中常见的点突变不同(Harteveld,C.L.etal.J Med Genet 42,922–931(2005))，α-地贫中的常见遗传突变是一系列大片段的DNA缺失(～3-40kb)(Galanello,R.&Cao,A.Alpha-thalassemia.Genet Med 13,83–88(2011))。尽管地贫遗传突变的携带率非常高，但基于大量人群的基因突变筛选难以进行。在临床实验室中用于检测地贫大片段DNA缺失的技术(Galanello,R.&Cao,A.Alpha-thalassemia.Genet Med 13,83–88(2011))，例如gap-PCR，是低通量(一个测试只针对一个患者样本)并且单靶点的(一个测试只针对一个特定基因突变)。这些技术仅能被用于地贫患者的DNA确诊，不能适用于基于大量人群的基因突变携带者的筛查。值得注意的是，替代方法，例如纳米孔测序(Nanopore sequencing)(Branton,D.et al.Nature biotechnology26,1146–1153(2008))和双末端长插入序列Illumina测序(paired-end long-insertIllumina sequencing)(Liang,W.S.et al.Nucleic Acids Res 42,e8(2014)，在理论意义上是能够检测大片段DNA缺失的方法。然而，这两种方法都不是靶向测序方法。没有合适的靶点富集步骤，它们不适用于基于大量群体的基因突变载体筛查。而且，这两种方法都不适合临床检测小DNA突变。双末端长插入序列Illumina测序不具有成本效益，因为配对末端测序对于检测小DNA突变是不必要的。对于纳米孔测序，其过高测序错误率使得应用该方法进行DNA突变的临床检测非常困难，特别是对于小DNA突变。

链锁捕获的优势是检测小的DNA突变，例如点突变(SNP，单核苷酸多态性)。设计一个链锁探针库针来检测多个DNA突变是容易实现的。然而，目标突变中无法包括地贫突变中的大片段DNA缺失。不幸的是大片段DNA缺失恰恰是遗传基因突变和体细胞基因突变中最常见的突变类型之一。由链锁探针捕获的DNA区域的长度受链锁探针的合成长度限制(Krishnakumar,S.et al.Proc Natl Acad Sci USA 105,9296–9301(2008))。针对边界可变或未知的大片段DNA缺失，设计链锁探针以直接捕获DNA缺失的接口位点是困难且不可靠的。而且，针对缺失的DNA区域所设计的任何探针都无法区分杂合突变体与野生型，然而这恰恰是基于人群的基因突变携带者筛查中最重要的基因分型信息。总之，在地中海贫血中观察到的大片DNA缺失代表了在人类基因突变中的一类常见基因突变，但是使用常规测序方法难以检测。

因此，需要开发一种新方法来解决或部分解决上述的技术问题。

发明内容

在本发明的一个方面，提供了一种用于检测宿主物种中基因缺失的方法，包括：(a)用至少一对预PCR引物扩增基因缺失周边区域以形成预PCR产物，这对预PCR引物中的一个在5'-末端携带接头序列，这个接头序列在宿主物种的基因组中不存在；(b)将预PCR产物与至少一个环化探针杂交，所述至少一个环化探针具有连接臂和与所述接头序列的互补链杂交的延伸臂。

另一方面，本发明提供了用于检测宿主物种中基因缺失的试剂盒，其中包含：至少一对预PCR引物，用于扩增基因缺失周边区域以形成预PCR产物，所述一对预PCR引物中的一个在5'-末端携带接头序列，所述接头序列在宿主物种的基因组中不存在；至少一个环化探针，其可与所述预PCR产物杂交，其中所述至少一个环化探针具有的连接臂和与所述接头序列的互补链杂交的延伸臂。

本发明的其它方面，在本发明的以下附图，和具体应用实例的说明中可以被本领域普通技术人员理解。

附图说明

通过示例的方式描述本发明并参考如下附图，其中包括：

图1显示Cat-D的实验设计。(A)链锁捕获的一般方法。注意：实线和虚线分别表示DNA模板的正链和反链。(B)“Cat-D”链锁探针和“Kebab”链锁探针的设计。(C)“Cat-D”链锁探针和“Kebab”链锁探针一起使用，来确诊大片段DNA缺失的基因型。

图2显示预PCR反应的优化和方法验证实验的设置。(A)传统的gap-PCR对α-地贫中的两个大片段DNA缺失(-SEA和-FIL)的检测结果。(B)来自一个患者样品(CoriellBiorepository GM10796)的gap-PCR的检测结果显示-FIL的缺失边界在个体患者样品中不同。根据文献14中所报道的结果所估计的PCR扩增产物的大小包括在引物名称中。(C)Cat-D链锁探针成功捕获到--FIL。特殊设计的PCR引物特异性地扩增-FIL的Cat-D链锁捕获产物。PCR引物延伸的方向确保其特异的扩增成功链锁捕获所形成的环状DNA产物。箭头标注预期的链锁捕获产物的大小。～120bp和～240bp条带分别对应于对环状DNA模板的一周和两周的PCR扩增产物(这是环状DNA模版的特征，也是成功连锁捕获的特征)。本次实验结果显示成功的Cat-D至少需要16个预PCR反应循环。另一方面，即使将预PCR反应的循环数加至35个，也不影响野生型样品的阴性检测结果。(D)本此研究中使用的所有基因样本。注意：本图中电泳照片的未剪切的全长原像见图10。

图3显示α-地贫大片段DNA缺失的Cat-D检测结果的量化评分和样本基因型的确诊。(A)测序序列的数量统计。样品的测序深度被标准化为每个样品200K测序序列。对于每个样本，所有针对-FIL设计的Cat-D探针所检测到的可以在基因组上定位的测序序列总数被视为--FIL(Cat-D)的测序数量。用相同的方法分析生成-SEA(Cat-D)和Kebab的测序数量。(B)Cat-D检测结果量化评分的数学计算方法和基因型界定的方法。(C)--FIL。(D)--SEA。(E)Kebab。注意：Cat-D检测评分结果：浅灰色(野生型)，深灰色(突变体)和灰色(待测样本)。基因型界定结果：深灰色(阳性基因型)和灰色(阴性基因型)。

图4显示β-地贫的点突变的Cat-D检测评分和样本基因型的确诊。(A)测序序列的数量统计。(B)对于DNA点突变和其他小DNA突变的Cat-D检测结果量化评分的数学计算方法和基因型界定的方法。(C)链锁捕获产物中的等位基因频率。为了确定数据分析中使用的次要等位基因频率的下限阈值，我们计算了由一个链锁探针所捕获到的所有核苷酸位置的等位基因频率。每个测序序列的前20个核苷酸属于连接臂，链锁捕获序列的区域位于第21个核苷酸和第67个核苷酸之间。对于每个核苷酸位置，我们计算了A，T，C和G的等位基因频率。在数据分析中选择5％作为次要等位基因频率的阈值。β-地贫点突变的位置，密码子17(A>T)，用虚线圆圈标出。(D)Cat-D检测评分。

图5显示了-FIL和-SEA，两种主要见于东南亚的α-地贫大片段DNA缺失。

图6显示了每个DNA样本的链锁捕获的两个重复实验之间的相关系数。将测序深度标准化为每个样本200K读数。沿x和y轴分别绘制一个实验副本中每个链锁探针的测序序列计数。

图7显示用于检测-FIL和-SEA的gap-PCR结果。(A)每个PCR反应含有100ng基因组DNA做为模版DNA。PCR反应进行了35个循环。箭头指示预期大小为-FIL(～3kb)和-SEA(～900bp)的PCR产物。(B)在G304A.Lot1和G304A.Lot2两个样本上重复gap-PCR。每个PCR反应含有200ng基因组DNA做为模版DNA。PCR反应进行了38个循环。在G304A.Lot2中检测到-SEA的清晰PCR产物。该结果证实了Cat-D检测到的基因型结果，并且表明Cat-D比gap-PCR检验敏感度。图10中显示了本图中所示电泳结果的未编辑的全长照片。

图8显示了β-地贫基因突变的Cat-D检测评分。

图9显示了Cat-D所确定的样本中β-地贫基因突变的基因型。浅灰色(野生型)和灰色(待测样本)标记。由于所有样品对于图中包含的所有β-地贫基因突变均为阴性，因此未标记样本名。

图10显示了所有电泳结果的未编辑的全长照片。

具体实施方式

现在将参考附图描述本发明的应用实例。这里使用的术语仅用于描述应用实例的目的，并不意味着限制本发明的应用范围。另外，除非另外定义，否则本文使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常理解的含义相同。在可能的情况下，为了清楚和一致，在整个附图中使用相同的附图标记。

在整个文件中，除非另有相反说明，否则术语“包括”、“由......组成”等应被解释为非穷举的，或换句话说，意思是“包括但不限于”。

在整个说明书中，除非上下文另有要求，否则词语“包括”或其变体将被理解为包含所述整体或整体组和但不排除任何其它整体或整体组。

在整个说明书中，除非上下文另有要求，否则词语“包含”或其变体将被理解为包含所述整体或整体组和但不排除任何其它整体或整体组。

方法

一方面，本发明提供了一种用于检测宿主物种中基因缺失的方法，包括：(a)用至少一对预PCR引物扩增基因缺失周围的第一DNA区域，形成预PCR产物，其中所述一对预PCR引物中的一个在5'-末端携带接头序列，所述接头序列不存在于在所述宿主物种的基因组中；

(b)使所述预PCR产物与至少一个环化探针杂交，其中所述至少一个环化探针具有连接臂和与所述接头序列的互补链杂交的延伸臂。

在一些实施方式中，该方法特别适用于检测大片段基因缺失。使用这种方法，只要在至少一个同源染色体中存在大片段DNA缺失，就会扩增第一DNA区域(大片段缺失的周围)。如果没有大片段的DNA缺失(例如，在野生型中)，由于存在大片段的基因序列，两个预PCR引物相隔太远，在常规PCR的条件下无法进行扩增。因此，没有第一DNA区域的预PCR产物。相反，如果在至少一个同源染色体上存在大片段的DNA缺失(即，纯合或杂合突变)，则两个预PCR引物的位置彼此靠近，第一DNA区域被扩增，产生第一DNA区域的预-PCR产物。因此，本发明能够基于“阳性判读”区分野生型和突变型(例如，纯合和杂合突变)(即，从该方法的阳性读数(即，第一DNA区域的扩增)表明存在大片段DNA缺失)。然而，仅用(a)和(b)，本发明将不能区分纯合和杂合突变，因为只要同源染色体之一携带基因缺失，预PCR产物就会生成。

如本文所用，术语“基因缺失”是指与健康的野生型基因序列相比，来自该基因序列的一段双链DNA序列的丢失。基因序列的丢失应被解释为包括(i)整个基因序列的丢失(整条基因被从染色体中删除)和(ii)丢失部分序列基因。“基因缺失”的实例包括但不限于具有可变或未知缺失边界的大片段基因缺失。术语“大片段基因缺失”是指大片段染色体区域的缺失，导致这些区域内基因功能的丧失。例如，通常在α-地中海贫血中发现的突变是一系列大片段的基因缺失，其大小范围为3至40kb(千碱基对)。术语“小DNA突变”是指序列变化较小的DNA突变，例如点突变(沉默突变，错义突变，无义突变，插入和缺失)。

术语“宿主物种”是指携带基因缺失的生物。“宿主物种”的实例包括但不限于动物，植物，细菌，真菌或病毒。在某些应用中，动物是脊椎动物，优选哺乳动物，例如人，马，牛，小鼠，大鼠或兔。在某些应用中，宿主物种是人。

表述“大片段基因缺失周围的第一DNA区域”应解释为包括但不限于位于野生型基因序列附近的DNA序列(该基因在DNA突变中缺失)。

如本文所用，术语“预PCR”是指特别适于扩增DNA缺失周围的第一DNA区域的PCR反应(即，扩增携带DNA缺失突变的等位基因)。预PCR的目的是形成预PCR产物(即，基因缺失周围的DNA序列)，其被用于后续检测中的链锁捕获。因此，预PCR不必采用完整的PCR循环(例如，30个循环)来完成。相反，少于30个循环，或少于25个循环，或少于20个循环，或少于18个循环，或少于17个循环，或少于16个循环可能就足够了。此外，进行预PCR需要第一DNA区域两侧的一对预PCR引物(例如，反向引物和正向引物)。

如本文所用，术语“接头序列”是位于预PCR引物5'末端的DNA序列。接头序列不应在宿主物种的基因组中存在。也就是说，如果观察到接口序列的互补序列的产生，则证实成功检测(例如，PCR反应是成功的)，而不是由于物种自身DNA序列的“噪声”扩增。在各种实施方式中，接头序列是特别设计的人工序列。在本发明方法的其它一些方面，接头序列的长度为至少20个核苷酸。在本发明方法的一些方面，接头序列包含SEQ ID Nos：1至7中任一个所示的核苷酸序列。

如本文所用，术语“杂交”是指在限定条件(例如PCR)下通过互补或至少部分互补的碱基配对形成双链核酸或发卡状单链核酸。

如本文所用，术语“环化探针”是指，或包括，与靶序列互补的探针序列(包含连接臂和延伸臂)，其适于与靶序列杂交并捕获靶序列。探针序列与靶序列杂交后，探针序列环化。换句话说，当环化探针与靶序列结合以后，探针能够转化为环形。在杂交之前，环化探针可以以线性构型存在。适用于本方法的环化探针的实例包括但不限于链锁探针(padlockprobe)，molecular inversion probe和connector inversion probe。在本方面的方法的一些实施方式中，所述至少一个环化探针包含SEQ ID Nos：8至17中任一个所示的核苷酸序列。

如本文所用，术语“连接臂”是指位于环化探针的5'末端的第一组核酸序列，术语“延伸臂”是指位于环形探针的3'端的另一组核酸序列。连接臂和延伸臂都以碱基互补的形式结合于靶序列，并且两臂结合于同一条单链DNA上。在本发明的方法的一些实施方式中，连接臂和/或延伸臂的长度为至少20个核苷酸。在本发明的方法的一些实施方式中，连接臂和/或延伸臂的Tm(引物退火温度)接近55℃。如本文所用，术语“引物退火温度”具有与本领域已知的相同的含义，其中退火温度(Tm)定义为一半DNA链处于无规卷曲或单链状态的温度。表述“接近55℃”应解释为涵盖50℃至60℃的温度范围(即55℃±5℃)；温度范围为50℃至60℃，包括50℃和60℃，可包括51℃，52℃，53℃，54℃，55℃，56℃，57℃，58℃和59℃。

在本发明的方法的一些实施方式中，可以选择将连接臂设计成特异性的与预PCR引物相邻的第二DNA区域结合，以避免PCR反应中的非特异性引物结合。术语“第二DNA区域”是指预PCR产物中的一段DNA序列，该DNA序列位于例如预PCR引物紧邻下游。

在本发明的方法的一些实施方式中，该方法还包括(c)将第一多个额外环化探针与所述第一DNA区域杂交。在本描述中中，术语“第一多个额外环化探针”是指一系列适于覆盖可能存在基因缺失的第一DNA区域的环化探针。只要同源染色体中的一个仍然携带该DNA区域，第一多个额外环化探针就能够检测和扩增该基因。换句话说，如果第一多个额外环化探针不能检测基因，则可以得出结论：第一DNA区域发生了纯合突变(即两个同源染色体上同时发生基因缺失)。然而，不可能使用第一多个额外环化探针来区分DNA缺失的杂合突变和野生型。

在本发明的方法的一些实施方式中，第一多个额外环化探针是一系列链锁式探针，设计用于覆盖包围所述基因的第一DNA区域(图1B，“Kebab”设计)。可以想象这些链锁探针与模板DNA结合并形成“Kebab”形状。因此，在本方法的上下文中将这些链锁探针命名为“Kebab探针”。Kebab探针检测纯合突变体时返回阴性结果-即，没有从(c)的PCR反应中检测到基因扩增，因为该基因缺失在两个同源染色体上同时发生。在本发明的方法的一些实施方式中，所述第一多个额外环化探针包含SEQ IDs：27-43中任一个所示的核苷酸序列。

在本发明的方法的一些实施方式中，该方法还包括比较从(a)和(b)获得的第一结果和从(c)获得的第二结果，以确定宿主物种的基因缺失的基因型。如上所述，利用从(a)和(b)获得的结果(“第一结果”)，能够区分突变(纯合的和杂合的)和野生型，但不能区分纯合突变和杂合突变。将第一结果与(c)得到的额外的结果(“第二结果”)综合考虑，可以判读基因缺失的基因型：

1.如果第一结果(即，存在突变)和第二结果都是阳性的(即，没有纯合缺失)，则基因型可判读为杂合缺失；

2.如果第一结果是阳性(即存在突变)，但第二结果是阴性的(即，存在纯合缺失)，则基因型可判读为纯合缺失。

3.如果第一结果是阴性的(即没有突变)，但第二结果是阳性的(即，没有纯合缺失)，则基因型可判读为没有DNA缺失。

在本发明的方法的一些实施方式中，该方法特别适用于检测在α-地贫中常见的大片段DNA缺失，因为在α-地贫中经常看到具有未知边界的大片段DNA缺失(约3至40kb)。

为了同时综合评估大DNA突变和小DNA突变，在本发明方法的一些实施方式中，该方法可以进一步包括(d)杂交第二多个额外环化探针用以特定的检测一个或多个小DNA突变，例如，常见于β-地贫中的单核苷酸多态性(SNP)。在本发明方法的一些实施方式中，第二多个额外环化探针是链锁探针。在本发明方法的一些实施方式中，所述第二多个额外环化探针包含SEQ ID NO：18-26中任一个所示的核苷酸序列。

试剂盒

在本发明的另一方面，提供了一种用于检测宿主物种中基因缺失的试剂盒，其包含：

至少一对预PCR引物，其可扩增缺失基因周围的第一DNA区域，形成预PCR产物，其中所述一对预PCR引物中的一个在5'-末端携带接头序列，所述接头序列不存在于在所述宿主物种的基因组中；

至少一个环化探针，其可与所述预PCR产物杂交，其中所述至少一个环化探针具有连接臂和与所述接头序列的互补链杂交的延伸臂。

在一些实施方式中，该试剂盒特别适用于检测大片段基因缺失。如，只要在至少一个同源染色体中存在大片段DNA缺失，就会扩增第一DNA区域(大片段缺失的周围)。如果没有大片段的DNA缺失(例如，在野生型中)，由于存在大片段的基因序列，两个预PCR引物相隔太远，在常规PCR的条件下无法进行扩增。因此，没有第一DNA区域的预PCR产物。相反，如果在至少一个同源染色体上存在大片段的DNA缺失(即，纯合或杂合突变)，则两个预PCR引物的位置彼此靠近，第一DNA区域被扩增，产生第一DNA区域的预-PCR产物。因此，本试剂盒能够基于“阳性判读”区分野生型和突变型(例如，纯合和杂合突变)(即，从该方法的阳性读数(即，第一DNA区域的扩增)表明存在大片段DNA缺失)。然而，仅用所述预PCR引物和所述至少一个环化探针，该试剂盒将不能区分纯合和杂合突变，因为只要同源染色体之一携带基因缺失，第一DNA区域的预PCR产物就会被试剂盒生成。

如本文涉及试剂盒的内容所用，术语“基因缺失”是指与健康的野生型基因序列相比，来自该基因序列的一段双链DNA序列的丢失。基因序列的丢失应被解释为包括(i)整个基因序列的丢失(整条基因被从染色体中删除)和(ii)丢失部分序列基因。“基因缺失”的实例包括但不限于具有可变或未知缺失边界的大片段基因缺失。术语“大片段基因缺失”是指大片段染色体区域的缺失，导致这些区域内基因功能的丧失。例如，通常在α-地中海贫血中发现的突变是一系列大片段的基因缺失，其大小范围为3至40kb(千碱基对)。术语“小DNA突变”是指序列变化较小的DNA突变，例如点突变(沉默突变，错义突变，无义突变，插入和缺失)。

如本文涉及试剂盒的内容所用，术语“宿主物种”是指携带基因缺失的生物。“宿主物种”的实例包括但不限于动物，植物，细菌，真菌或病毒。在某些应用中，动物是脊椎动物，优选哺乳动物，例如人，马，牛，小鼠，大鼠或兔。在某些应用中，宿主物种是人。

如本文涉及试剂盒的内容所用，术语“预PCR”是指特别适于扩增DNA缺失周围的第一DNA区域的PCR反应(即，扩增携带DNA缺失突变的等位基因)。预PCR的目的是形成预PCR产物(即，基因缺失周围的DNA序列)，其被用于后续检测中的链锁捕获。因此，当使用本发明的试剂盒时，预PCR反应不必采用完整的PCR循环(例如，30个循环)来完成。相反，少于30个循环，或少于25个循环，或少于20个循环，或少于18个循环，或少于17个循环，或少于16个循环可能就足够了。此外，进行预PCR需要第一DNA区域两侧的一对预PCR引物(例如，反向引物和正向引物)。

如本文涉及试剂盒的内容所用，术语“接头序列”是位于预PCR引物5'末端的DNA序列。接头序列不应在宿主物种的基因组中存在。也就是说，如果观察到接口序列的互补序列的产生，则证实试剂盒成功检测(例如，不是由于物种自身DNA序列的“噪声”扩增)。

如本文涉及试剂盒的内容所用，术语“杂交”是指在限定条件(例如PCR)下通过互补或至少部分互补的碱基配对形成双链核酸或发卡状单链核酸。

如本文涉及试剂盒的内容所用，术语“环化探针”是指，或包括，与靶序列互补的探针序列(包含连接臂和延伸臂)，其适于与靶序列杂交并捕获靶序列。探针序列与靶序列杂交后，探针序列环化。适用于本方法的环化探针的实例包括但不限于链锁探针(padlockprobe)，molecular inversion probe和connector inversion probe。如本文涉及试剂盒的内容所用，术语“连接臂”是指位于环化探针的5'末端的第一组核酸序列，术语“延伸臂”是指位于环形探针的3'端的另一组核酸序列。连接臂和延伸臂都以碱基互补的形式结合于靶序列，并且两臂结合于同一条DNA链上。在本发明的一些实施方式中，所述至少一个环化探针是链锁探针。在本发明的一些实施方式中，所述至少一个环化探针包含SEQ IDs：8-17中任一个所示的核苷酸序列。

在本发明的一些实施方式中，所述接头序列的长度为至少20个核苷酸。在本发明的一些实施方式中，所述接头序列包含SEQ ID NO：1至7中任一个所示的核苷酸序列。

在本发明的试剂盒的一些实施方式中，连接臂可被设计成特异性的与预PCR引物相邻的第二DNA区域结合，以避免PCR反应中的非特异性引物结合。术语“第二DNA区域”是指预PCR产物中的一段DNA序列，该DNA序列位于例如预PCR引物紧邻下游。在本发明的一些实施方式中，所述连接臂和/或延伸臂设计为长度为至少20个核苷酸。在本发明的一些实施方式中，连接臂和/或延伸臂的引物退火温度(Tm)接近55℃。如本文所用，术语“接近55℃”应解释为涵盖50℃至60℃的温度范围(即55℃±5℃)；温度范围为50℃至60℃，包括50℃和60℃，可包括51℃，52℃，53℃，54℃，55℃，56℃，57℃，58℃和59℃。

在本发明的试剂盒的一些实施方式中，该试剂盒还包括第一多个额外环化探针，该第一多个额外环化探针适于与所述第一DNA区域杂交。在本描述中，术语“第一多个额外环化探针”是指一系列适于覆盖可能存在基因缺失的第一DNA区域的环化探针。只要同源染色体中的一个仍然携带该DNA区域，第一多个额外环化探针就能够检测和扩增该基因。换句话说，如果第一多个额外环化探针不能检测基因，则可以得出结论：第一DNA区域发生了纯合突变(即两个同源染色体上同时发生基因缺失)。然而，不可能使用第一多个额外环化探针来区分DNA缺失的杂合突变和野生型。

在本发明的试剂盒的一些实施方式中，所述第一多个额外环化探针是一系列链锁探针，设计用于覆盖缺失区域(图1B，“Kebab”设计)。可以想象这些链锁探针与模板DNA结合并形成“Kebab”形状。因此，在本试剂盒的上下文中将这些链锁探针命名为“Kebab探针”。如前讨论的，Kebab探针检测纯合突变体时返回阴性结果-即，没有从试剂盒检测到基因扩增，因为该基因缺失在两个同源染色体上同时发生。

如上所述，只利用所述预PCR引物和所述至少一个环化探针，试剂盒只能够区分突变(纯合的和杂合的)和野生型，但不能区分纯合突变和杂合突变(即“第一结果”)。然而，将第一结果与第一多个额外环化探针(例如Kebab探针)结合，试剂盒就可以分辨纯合突变和其它基因型的区别(即“第二结果”)。综上，可通过本发明的试剂盒对基因缺失做以下基因型分析：

为了同时综合评估大DNA突变和小DNA突变，在本发明试剂盒的一些实施方式中，试剂盒可以进一步含有第二多个额外环化探针(例如链锁探针)用以特定的检测一个或多个小DNA突变，例如，常见于β-地贫中的单核苷酸多态性(SNP)。

在本发明的一些实施方式中，所述试剂盒还含有第二多个额外环化探针，其针对一个或多个小DNA突变。在本发明实施例的一些实施方式中，所述第二多个额外环化探针是链锁探针。在本发明实施例的一些实施方式中，所述第二多个额外环化探针包含SEQ IDNO：18-26中任一个所示的核苷酸序列。

关于本发明的应用，下面进一步详述本发明的方法和试剂盒。

结果

Cat-D的实验设计:在本发明的一些实施方案中，我们开发了一种使用链锁探针利用阳性检测数据检测大片段DNA缺失的方法(图1B，“Cat-D”的方法设计)。该方法不依赖于阴性检测数据来检测大片段DNA缺失。它也不依赖于统计高通量测序数据对基因组的覆盖率来检测“基因拷贝数的变化”。在Cat-D中，第一步是PCR反应(图1B，预PCR)。一对特殊设计的PCR引物扩增缺失的DNA片段的周边区域。由于PCR扩增子长度范围的灵活性，PCR引物的设计不要求缺失DNA片段边界的确切信息。该PCR反应只能扩增携带大片段DNA缺失的等位基因。野生型等位基因不可以被PCR扩增，因为缺失的DNA片段太大从而限制引物在PCR反应中的作用。Cat-D中预PCR反应的基本工作原理与一种被称为gap-PCR的常用技术相同。与gap-PCR不同的是Cat-D中的两个预PCR引物之一在其5'末端携带一个特殊设计的接头序列(图1B，以浅灰色标记)。特殊设计的接头的序列是人类基因组中不存在。这个接头的互补链只在成功的PCR扩增反应中生成。由于链锁捕获的靶点是特异于一条单链DNA的，因此可以设计一种特殊的链锁探针“Cat-D探针”(图1B)，来捕获预PCR产物，Cat-D探针的延伸臂靶向结合于接头序列的互补链。Cat-D探针仅在预PCR反应成功发生时有效。为了避免由非特异性PCR反应所带来的噪音，将Cat-D探针的连接臂设计成捕获预PCR引物下游的紧邻区域。总之，可以通过Cat-D探针和Kebab探针的链锁捕获结果来检测大片段DNA缺失的基因型(图1C)。

可以针对多个大片段的DNA缺失，在一个预PCR前反应中包括针对不同DNA片段缺失所设计的多个引物对。每个引物对针对一个DNA缺失片段，并提供一个独特的接头序列用于设计相应的Cat-D探针。Cat-D对每个PCR引物对的扩增子大小没有限制。不同引物对的扩增子大小可以相同，相似，或不同。预PCR产物是一个链锁探针文库的捕获模版，该探针文库中包括针对一系列带检测的DNA突变所设计的探针，其中包括Cat-D探针和其他探针。

预PCR反应的优化和测试实验的设计：因为预PCR反应只负责为下游的链锁捕获提供模版DNA，因此预PCR反应不需要“完整的PCR循环”来实现PCR产物的扩增。我们首先利用gap-PCR成功的检测到患者DNA样本中的两个地贫基因缺失(图2A)。有趣的是，来自患者样品(Coriell Biorepository GM10796)的gap-PCR扩增子的大小比基于先前出版物14所估计的PCR扩增子大小长出～1kb(图2B)。该结果进一步证实了DNA片段的缺失边界在不同患者中有所不同。然后测试Cat-D所需的预PCR反应的循环次数。Cat-D可以在少至16个预PCR循环的条件下成功检测到--FIL(图2C)。

我们建立了一个链锁探针库，其中包含5个针对-FIL的Cat-D探针，5个针对-SEA的Cat-D探针，17个Kebab探针针对-FIL和-SEA中的常见缺失区域，以及针对10种不同的β-地贫中常见的小DNA突变所设计的9条链锁探针(有关这些探针的详细信息，请参阅“方法-链锁探针库设计”)

我们对10个人类基因组DNA样本进行了测试(图2D)。本研究经南洋理工大学伦理委员会批准。对每个样品进行一式两份的链锁捕获。两种常用的人体癌细胞系(293T和HeLa)的基因组DNA样本和另外两个人体基因组DNA样品被认为是“野生型”样品，因为样品的基因型被测试为本研究中包括的所有地贫突变的“野生型”(数据未显示)。除野生型样本外，本研究还包括六个α-地贫的基因组DNA样品和一个β-地贫的基因组DNA样品。从Promega购买的一个特殊的人基因组DNA样本(Cat#G304A)也包含在本研究样本组中。

该样品最初被作为野生型对照包括在本研究中。然而，我们后来意识到Promega(Cat#G304A)是由来自多个匿名捐献者的人类全血制备的。血液样本仅检测确定为HIV和乙型肝炎的阴性。没有关于地中海贫血突变的样本信息。因此，G304A应被视为没有明确基因型的特殊DNA样本。我们在本研究中将G304A列为测试样本。此外，我们采用了G304A的两个不同批次(G304A.1LOT0000189195；G304A.2LOT0000219766)的样本(G304A.1和G304A.2)。因此，G304A.1和G304A.2应被视为两种不同的DNA样本。

从每个样品平均获得～184K的测序序列。为了确认Cat-D实验方法的一致性和可重复性，我们计算了每个样本的两组重复实验的实验结果的相关系数，平均相关系数为0.98×0.01(图6)。该结果证实了Cat-D方法的高度一致性和可重复性。

Cat-D检测到α-地贫的大片段DNA缺失：高通量测序的原始数据(图3A)清楚地显示来自Cat-D探针的链锁捕获产物在携带相应的大片段DNA缺失的样本中的含量明显高于其他样本。在含有复合杂合缺失(-FIL/-SEA)的样品中，Kebab探针捕获产物的含量也显着降低于其他样本。为了对检测结果进行数学判别，我们建立了一种数学方法来计算一个样本的一种基因型的检测分数，并利用此检测分数对该样本的该基因型加以界定(图3B；方法)。对于-FIL和Kebab而言，检测结果几乎是完美的(图3C，E)。所有野生型样品，以及预期为野生型的样本(例如，β-地中海贫血样本(Beta.1和Beta.2)预计是α-地贫突变的野生型样本)的检测结果都是准确无误的。

在所有突变体样品上也都准确地获得了阳性检测结果。除个别样本外，针对-SEA的基因型界定也基本准确(图3D)。两个“预期”为野生型的样品，G304A.Lot2和Beta.1的-SEA的基因型的检测结果为阳性(图3D)。G304A是从多个匿名血液捐献者的基因组DNA的混合物，没有关于献血者DNA中地贫突变的信息。根据我们的检测结果，G304A.Lot2样本血液捐献者的中很可能存在一个或多个-SEA的携带者。

我们通过gap-PCR进一步证实了这一结论(图7)。有趣的是，所有基因组DNA样品的—SEA的基因型在之前进行的gap-PCR中均已确认(图7A)。每个含gap-PCR反应含有100ng基因组DNA，并进行了35个循环。在G304A.Lot2中未检测到--SEA。在确认实验中，每个gap-PCR反应中加入了200ng基因组DNA，并进行了38个循环，结果显示在G304A.Lot2样本中清晰检测到了--SEA。该结果证实了Cat-D检测结果，并说明Cat-D是一种比gap-PCR更敏感的检测方法。关于Beta.1样本，Cat-D的检测结果是假阳性的。这个假阳性检测结果可以通过对照该样本的另一组平行实验的阴性检测结果加以认读和分析(Beta.2)。

β-地贫点突变的检测结果：Cat-D和Kebab探针仅占据链锁探针文库的一小部分，文库中还包括针对小DNA突变(例如SNP)的其他探针。在这项研究中，文库中包含了针对小β-地贫中常见的小DNA突变的链锁探针。本研究中所包括的10个DNA样品中的一个是β-地贫“密码子17(A>T)”的杂合突变体。原始数据(图4A)清楚地显示携带相应突变的样品中的检测结果明显高于其他样本。为了对检测结果进行数学判别，我们建立了一种数学方法来计算一个样本的一种基因型的检测分数，并利用此检测分数对该样本的该基因型加以界定(图4B)。对于DNA点突变，我们简单地选择5％作为阈值来界定“次要等位基因”(minorallele)(图4B；方法)。采用5％作为判别阈值是通过分析链锁捕的获数据确定的(图4C)。利用建立起的计算方法，我们计算了样本的检测分数，并对所有样本的基因型进行了界定(图4D)。结果表明，该方法可以对β-地贫的点突变进行敏感准确的检测。本研究中我们还包括了针对其他β-地贫小DNA突变的链锁探针。因为我们没有找到这些突变的DNA样本，我们预计本研究中包括的所有样本都是这些突变的野生型。我们检测结果清楚地证实了这一判断(图8和9)。

讨论

总之，Cat-D的方法测试取得了非常令人满意的结果。这些结果表明该方法是敏感的(0％假阴性率)和精确的(非常低的假阳性率，-SEA的检测假阳性率约为5％)。从临床角度来看，低假阳性率比低假阴性率更“可接受”。当对大量人群进行基因筛查时，大多数样本是野生型。假阴性率为0％，可以准确地对所有野生型样本的基因型做出诊断，并可以放心地通知知患者测试结果。另一方面，无论实验方法的假阳性率如何，对于那些测试结果呈阳性的少数样本，在向患者发布“坏消息”之前通过实验方法再次验证测试结果是临床上普遍适用的可行方法。总之，Cat-D是一种全覆盖的(单一测试涵盖一整套遗传突变)和高通量的(一次测序运行包含多个样本)方法，适用于基于人群的基因突变的载体筛选。

商业应用

本发明的商业应用是显而易见的。Cat-D和已建立的链锁探针设计可以替代当前用于地中海贫血突变的DNA诊断。与目前的方法相比，Cat-D具有成本效益并节省时间。

此外，Cat-D是一种高通量和全覆盖的方法。已知的地中海贫血突变和许多已知的其他遗传性疾病的突变都可以包括在一项试验中。一次测序运行可以包括多达一百个患者的样本。因此，该方法适用于基于人群的突变携带者的普查。目前，几乎所有地中海贫血突变的DNA诊断都只是为已经患有地中海贫血相关综合症的临床患者提供最终确诊。由于东南亚地区(包括中国的广东省和广西省)，地中海地区，中东和撒哈拉以南的非洲地区，地中海贫血突变携带率很高，因此对地中海贫血突变携带者进行婚前筛查将对这些地区公共健康有极大的益处。

方法

引物设计：预PCR引物的引物部分根据常规PCR引物的设计标准来设计。引物不与基因组中的重复序列区域结合。使用前，利用PCR实验证实引物可以扩增携带相应DNA缺失的基因组DNA样本。对于每个预PCR引物对，两个引物中的一个在其5'端携带Cat-D接口序列。接口序列不存在于人类(或宿主)的基因组中。接口序列的长度至少为20nt(核苷酸)，以实现序列特异性并允许设计多个Cat-D链锁探针。

下面列出了本项研究中使用的引物(引物的接口序列用下划线表示)

SEQ ID NO.1

SEA850F-ADAPTOR

(5′-CGATCGTGCGACGCGTATCGGT

CCCTTCACCCTCCCACAGTTCCTGC-3′)；

SEQ ID NO.2

SEAR1K

(5′-TTTCACCCAGTACAGCGAGTCCTTCC-3′)；

SEQ ID NO.1和SEQ ID NO.2构成检测–SEA的引物对

SEQ ID NO.3

FIL2KR-ADAPTOR

(5′-TATGCGTCGCGTGTCGCGCGTAGATCTGCACCTCTGGGTAGGTTC-3′)；

SEQ ID NO.4

FILF2K

(5′-TCTCAGGCATGGAAGAATGAGGGC-3′)；

SEQ ID NO.3和SEQ ID NO.4构成检测–FIL的引物对

SEQ ID NO.5

FILF1K

(5′-GAGTTGTAAGATATTTTGGGCCAAGCACG-3′)；

SEQ ID NO.6

FILR1K

(5′-CTAGAACGTGGATCCAAGAGGGG-3′)；

SEQ ID NO.7

FILR2K

(5′-GATCTGCACCTCTGGGTAGGTTC-3′).

链锁探针库的设计：每条链锁探针的两个臂为20nt(核苷酸)或更长。将各臂的Tm(引物熔融温度)优化至接近55℃。使用UNAFold(http://homepages.rpi.edu/～zukerm/download/UNAFold_download.html)最小化每条链锁探针捕获目标形成复杂二级结构的可能性。

对于每条Cat-D链锁探针，延伸臂与Cat-D接口的互补序列结合。连接臂的序列与携带Cat-D接头的预PCR引物的延伸产物的DNA序列相同，并且位于携带Cat-D接头的预PCR引物的3'末端的下游。

针对-FIL的Cat-D产物的5条链锁探针：

链锁锁探针的链接臂用下划线表示。

链锁探针的延伸臂以斜体表示。

针对-SEA的Cat-D产物的5条链锁探针：

链锁锁探针的链接臂用下划线表示。

链锁探针的延伸臂以斜体表示。

针对10种不同的β-地贫的小DNA突变设计的9条链锁探针：

链锁锁探针的链接臂用下划线表示。

链锁探针的延伸臂以斜体表示。

针对-FIL和-SEA的共同的DNA缺失区域设计的17条Kebab链锁探针：

链锁锁探针的链接臂用下划线表示。

链锁探针的延伸臂以斜体表示。

预PCR：将Herculase II Fusion DNA Polymerases试剂盒(Cat#600675，Agilent)和100ng基因组DNA用于含有0.8μM每种PCR引物的25μl体积的PCR反应中，并根据以下PCR程序进行扩增：

(1)95℃，3分钟；

(2)18至20个循环(95℃，30秒；63℃，30秒；68℃，90秒；)；

(3)68℃，5分钟；

(4)4℃保温。

用QIAquick PCR纯化试剂盒纯化预PCR产物(Cat#28104，QIAGEN)并洗脱至25μl体积。

链锁捕获：如前所述进行链锁捕获(Zhang，K。等人，Nat Methods6,613-618(2009))。简言之，每个反应在20μl体积中进行，每个反应含有1个单位的扩增酶(A3210K，Epicenter)，1个单位的Phusion高保真DNA聚合酶(M0530，New England BioLabs)，1xPhusion高保真DNA聚合酶缓冲液，10nM dNTP和1ng链锁探针文库。在每个反应中使用2微升纯化过的预PCR产物和800ng基因组DNA。在每个反应中提供终浓度为0.5mM烟酰胺腺嘌呤二核苷酸(NAD+)。

Illumina测序：使用以下引物在实时PCR系统中(CFX Connect，Bio-Rad)中对测序文库进行PCR扩增：

(1)CA2-RA.MiSecret

(5′-AATGATACGGCGACCACCGAGATCTACACGCTACACGCCTATCGGGAAGCTGAAG-3′)；

(2)CA-2-FA.Indx3Sol

(5′-CAAGCAGAAGACGGCATACGAGATGCCTAACGGTCTGCCATCCGACGGTAGTGT-3′)；

(3)CA-2-FA.Indx4Sol

(5′-CAAGCAGAAGACGGCATACGAGATTGGTCACGGTCTGCCATCCGACGGTAGTGT-3′)；

(4)CA-2-FA.Indx5Sol

(5′-CAAGCAGAAGACGGCATACGAGATCACTGTCGGTCTGCCATCCGACGGTAGTGT-3′)；

(5)CA-2-FA.Indx7Sol

(5′-CAAGCAGAAGACGGCATACGAGATGATCTGCGGTCTGCCATCCGACGGTAGTGT-3′)；

(6)CA-2-FA.Indx10Sol

(5′-CAAGCAGAAGACGGCATACGAGATAAGCTACGGTCTGCCATCCGACGGTAGTGT-3′)；

(7)CA-2-FA.Indx12Sol

(5′-CAAGCAGAAGACGGCATACGAGATTACAAGCGGTCTGCCATCCGACGGTAGTGT-3′)；

(8)CA-2-FA.Indx13Sol

(5′-CAAGCAGAAGACGGCATACGAGATTTGACTCGGTCTGCCATCCGACGGTAGTGT-3′)；

(9)CA-2-FA.Indx14Sol

(5′-CAAGCAGAAGACGGCATACGAGATGGAACTCGGTCTGCCATCCGACGGTAGTGT-3′)；

(10)CA-2-FA.Indx15Sol

(5′-CAAGCAGAAGACGGCATACGAGATTGACATCGGTCTGCCATCCGACGGTAGTGT-3′)；

(11)CA-2-FA.Indx16Sol

(5′-CAAGCAGAAGACGGCATACGAGATGGACGGCGGTCTGCCATCCGACGGTAGTGT-3′)；

(12)CA-2-FA.Indx18Sol

(5′-CAAGCAGAAGACGGCATACGAGATGCGGACCGGTCTGCCATCCGACGGTAGTGT-3′)；

(13)CA-2-FA.Indx19Sol

(5′-CAAGCAGAAGACGGCATACGAGATTTTCACCGGTCTGCCATCCGACGGTAGTGT-3′)；

(14)CA-2-FA.Indx25Sol(5′-CAAGCAGAAGACGGCATACGAGATATCAGTCGGTCTGCCATCCGACGGTAGTGT-3′)；

(15)CA-2-FA.Indx45Sol

(5′-CAAGCAGAAGACGGCATACGAGATCGTAGTCGGTCTGCCATCCGACGGTAGTGT-3′)；

(16)CA-2-FA.Indx76Sol

(5′-CAAGCAGAAGACGGCATACGAGATAATAGGCGGTCTGCCATCCGACGGTAGTGT-3′)；

(17)CA-2-FA.Indx91Sol

(5′-CAAGCAGAAGACGGCATACGAGATACATCGCGGTCTGCCATCCGACGGTAGTGT-3′)；

(18)CA-2-FA.Indx92Sol

(5′-CAAGCAGAAGACGGCATACGAGATTCAAGTCGGTCTGCCATCCGACGGTAGTGT-3′)；and

(19)CA-2-FA.Indx93Sol(5′-CAAGCAGAAGACGGCATACGAGATATTGGCCGGTCTGCCATCCGACGGTAGTGT-3′).

每个样本的测序文库都有条形码标记。合并多个样本的测序文库。使用以下测序引物：

(1)Read1.Misecret

(5′-ACACGCTACACGCCTATCGGGAAGCTGAAG-3′)和

(2)IndexRead

(5′-ACACTACCGTCGGATGGCAGACCG-3′).

在Illumina MiSeq系统上进行测序，使用MiSeq Micro流动池(2×150个循环)。使用Illumina bcl2fastq2软件(v.2.17.1.14)从测序仪生成FASTQ文件，并设置默认的测序质量过滤器。

数据分析：我们用perl编写了一个程序链用于数据分析。首先，在测序序列中查找与预期的链锁探针捕获产物完全匹配的前88个核苷酸序列。为了使用来自Cat-D和Kebab探针的数据对大片段DNA缺失的基因型进行鉴别，首先利用四个野生型样品(293T.1，293T.2，HeLa.1和HeLa.2)的平均测序计数来计算针对每个突变的“标准积分单位”。然后以每个样本的测序计数除以标准积分单位作为基因型的原始评分。因为Kebab的测序结果与待测突变(纯合缺失)反相关，低测序计数表明检测到突变，所以Kebab探针的原始基因型评分采用反向计算(标准积分单位除以每个样本的测序记数)。为了使基因型评分更方便于技术人员对数据的解读，将每个测序组别中具有最高原始基因型评分的样品评分记为100分.其余样本的原始基因型评分做等比例变换后记为该样本的基因型评分。然后根据野生型样本的评分计算阈值(图3B)。基因型分数高于阈值的样本被鉴别为阳性突变样本。Cat-D探针所针对的突变是DNA缺失。Kebab探针所针对的突变是“纯合的”DNA缺失。为了鉴别点突变的基因型，我们使用5％作为阈值来鉴别“次要等位基因”的存在(图4B)。

以上是用于检测宿主物种中基因缺失的方法和试剂盒的实施方案的描述。应指出的是，在不脱离本发明的范围的情况下，可重排和/或组合来自以上描述的一个或一个以上的具体实施方案来形成另外的实施方案。

序列表

<110> 南洋理工大学

张立峰

洪儒

乌迪塔.千多拉

<120> 检测DNA突变的测序方法

<130> 2018.P00981

<150> SG 10201702238W

<151> 2017-03-20

<160> 43

<170> PatentIn version 3.5

<210> 1

<211> 47

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 1

cgatcgtgcg acgcgtatcg gtcccttcac cctcccacag ttcctgc 47

<210> 2

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 2

tttcacccag tacagcgagt ccttcc 26

<210> 3

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 3

tatgcgtcgc gtgtcgcgcg tagatctgca cctctgggta ggttc 45

<210> 4

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 4

tctcaggcat ggaagaatga gggc 24

<210> 5

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 5

gagttgtaag atattttggg ccaagcacg 29

<210> 6

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 6

ctagaacgtg gatccaagag ggg 23

<210> 7

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 7

gatctgcacc tctgggtagg ttc 23

<210> 8

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 8

cagggccagc tccctccaac cttcagcttc ccgatatccg acggtagtgt tatgcgtcgc 60

gtgtcgcgcg 70

<210> 9

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 9

gggccagctc cctccaacct cttcagcttc ccgatatccg acggtagtgt tgcgtcgcgt 60

gtcgcgcgta 70

<210> 10

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 10

gccagctccc tccaacctcc cttcagcttc ccgatatccg acggtagtgt cgtcgcgtgt 60

cgcgcgtaga 70

<210> 11

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 11

cagctccctc caacctccac cttcagcttc ccgatatccg acggtagtgt tcgcgtgtcg 60

cgcgtagatc 70

<210> 12

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 12

agctccctcc aacctccaca cttcagcttc ccgatatccg acggtagtgt cgcgtgtcgc 60

gcgtagatct 70

<210> 13

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 13

gacggagcga tctgggctct cttcagcttc ccgatatccg acggtagtgt gatcgtgcga 60

cgcgtatcgg 70

<210> 14

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 14

ggacggagcg atctgggctc cttcagcttc ccgatatccg acggtagtgt cgatcgtgcg 60

acgcgtatcg 70

<210> 15

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 15

cggagcgatc tgggctctgt cttcagcttc ccgatatccg acggtagtgt tcgtgcgacg 60

cgtatcggtc 70

<210> 16

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 16

gagcgatctg ggctctgtgt cttcagcttc ccgatatccg acggtagtgt gtgcgacgcg 60

tatcggtccc 70

<210> 17

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 17

ggagcgatct gggctctgtg cttcagcttc ccgatatccg acggtagtgt cgtgcgacgc 60

gtatcggtcc 70

<210> 18

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 18

agggcagtaa cggcagactt cttcagcttc ccgatatccg acggtagtgt cttaaacctg 60

tcttgtaacc 70

<210> 19

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 19

ggcagtaacg gcagacttct cttcagcttc ccgatatccg acggtagtgt taaacctgtc 60

ttgtaacctt 70

<210> 20

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 20

cagtaacggc agacttctcc cttcagcttc ccgatatccg acggtagtgt aacctgtctt 60

gtaaccttga 70

<210> 21

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 21

gggcagtaac ggcagacttc cttcagcttc ccgatatccg acggtagtgt ttaaacctgt 60

cttgtaacct 70

<210> 22

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 22

ggtagaccac cagcagccta cttcagcttc ccgatatccg acggtagtgt ccttagggtt 60

gcccataaca 70

<210> 23

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 23

gaccaccagc agcctaaggg cttcagcttc ccgatatccg acggtagtgt agggttgccc 60

ataacagcat 70

<210> 24

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 24

agggtagacc accagcagcc cttcagcttc ccgatatccg acggtagtgt caccttaggg 60

ttgcccataa 70

<210> 25

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 25

accagcagcc taagggtggg cttcagcttc ccgatatccg acggtagtgt ttgcccataa 60

cagcatcagg 70

<210> 26

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> 链锁探针

<400> 26

cagcagccta agggtgggaa cttcagcttc ccgatatccg acggtagtgt gcccataaca 60

gcatcaggag 70

<210> 27

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 27

ggaagggagt gccttggcct cttcagcttc ccgatatccg acggtagtgt ttgtctgaaa 60

agcctggggt 70

<210> 28

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 28

gtgccaggcc tggtccagtg cttcagcttc ccgatatccg acggtagtgt cgactcacag 60

tcagggctcc 70

<210> 29

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 29

gtcactggca ctgactgctg cttcagcttc ccgatatccg acggtagtgt ggggatgtag 60

ataacgtggg 70

<210> 30

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 30

cctcagcatg ggatggggcc cttcagcttc ccgatatccg acggtagtgt gtatctacag 60

tatgatggta 70

<210> 31

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 31

ctgactctgc ccacagcctg cttcagcttc ccgatatccg acggtagtgt tagctccgac 60

cagcttagca 70

<210> 32

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 32

ggtcagcacc cttcagcctg cttcagcttc ccgatatccg acggtagtgt acagcctgag 60

aaatcactga 70

<210> 33

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 33

acccacaggc tgcgggaagg cttcagcttc ccgatatccg acggtagtgt tacctttagg 60

tcagacctcc 70

<210> 34

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 34

acccaccctg tgttatgatt cttcagcttc ccgatatccg acggtagtgt gggcacctgc 60

agagattgag 70

<210> 35

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 35

tctttcctca gcccctattc cttcagcttc ccgatatccg acggtagtgt tccccacaca 60

gacccaggat 70

<210> 36

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 36

tctcctactt taagtaacac cttcagcttc ccgatatccg acggtagtgt tgggctgagt 60

tccaaaccct 70

<210> 37

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 37

gaataggaag ttgtacacag cttcagcttc ccgatatccg acggtagtgt tcagtgagac 60

tgtggaatgg 70

<210> 38

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 38

gccttgggca gagaaggaag cttcagcttc ccgatatccg acggtagtgt ctccctgccc 60

tgtctcccca 70

<210> 39

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 39

gggatggtac tgaggagaaa cttcagcttc ccgatatccg acggtagtgt tctggggaag 60

ggtgggaggt 70

<210> 40

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 40

tgaggaagga aggggtggac cttcagcttc ccgatatccg acggtagtgt acaagggccc 60

tgtggttgga 70

<210> 41

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 41

ctcaggggag ctgagtgggt cttcagcttc ccgatatccg acggtagtgt agaagggacc 60

ttctagccag 70

<210> 42

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 42

agagaaaaca cacaccaggg cttcagcttc ccgatatccg acggtagtgt gccagggctt 60

tatggctacc 70

<210> 43

<211> 70

<212> DNA

<213> 人工序列

<220>

<223> kebab 探针

<400> 43

gatattccta tcagttgagg cttcagcttc ccgatatccg acggtagtgt acatcacaaa 60

cgcaggcaga 70

Claims

1.一种检测宿主物种中基因缺失的方法，包括：

(a)用至少一对预PCR引物扩增基因缺失周围的第一DNA区域，形成预PCR产物，其中所述一对预PCR引物中的一个在5'-末端携带接头序列，所述接头序列不存在于在所述宿主物种的基因组中；

2.根据权利要求1的方法，其中所述宿主物种为人。

3.根据权利要求1或2的方法，其中所述接头序列的长度为至少20个核苷酸。

4.根据前述权利要求中任一项的方法，其中所述接头序列包含SEQ ID NO：1至7中任一个所示的核苷酸序列。

5.根据前述权利要求中任一项的方法，其中所述至少一种环化探针包含SEQ ID NO：8至17中任一个所示的核苷酸序列。

6.根据前述权利要求中任一项的方法，其中所述至少一个环化探针是链锁探针。

7.根据前述权利要求中任一项的方法，其中所述连接臂与预PCR引物邻近的第二DNA区域杂交。

8.根据前述权利要求中任一项的方法，其中所述连接臂和/或延伸臂设计为长度为至少20个核苷酸。

9.根据前述权利要求中任一项的方法，其中所述的连接臂和/或延伸臂的Tm在50℃至60℃的范围内。

10.根据前述权利要求中任一项的方法，其中所述的第一DNA区域在(a)中扩增少于30个循环。

11.根据权利要求10的方法，其中所述第一DNA区域在(a)中扩增16个循环。

12.根据前述权利要求中任一项的方法，其中还包括(c)将第一多个额外环化探针与所述第一DNA区域杂交。

13.根据权利要求12的方法，其中还包括比较从(a)和(b)获得的基因缺失检测的第一结果和从(c)获得的基因缺失检测的第二结果，以确定宿主物种的基因缺失的基因型。

14.根据权利要求12或13的方法，其中所述第一多个额外环化探针是kebab探针。

15.根据权利要求14的方法，其中所述第一多个额外环化探针包含SEQ IDs：27-43中任一个所示的核苷酸序列。

16.根据前述权利要求中任一项的方法，其中所述基因缺失是大片段DNA突变。

17.根据权利要求16的方法，其中所述大规模DNA突变是3至40kb的缺失。

18.根据前述权利要求中任一项的方法，其中所述基因缺失是在α-地中海贫血中发现的基因突变。

19.根据前述权利要求中任一项的方法，其中还包括(d)杂交第二多个额外环化探针以检测宿主物种中的一个或多个小DNA突变。

20.根据权利要求19的方法，其中所述一种或多种小DNA突变包含单核苷酸多态性(SNP)。

21.根据权利要求19的方法，其中所述的一种或多种小DNA突变是β-地中海贫血的基因突变。

22.根据权利要求19的方法，其中所述第二多个额外环化探针是链锁探针。

23.根据权利要求19的方法，其中所述第二多个额外环化探针包含SEQ ID NO：18-26中任一个所示的核苷酸序列。

24.一种用于检测宿主物种中基因缺失的试剂盒，其包含：

25.根据权利要求24的试剂盒，其中所述宿主物种为人。

26.根据权利要求24或25的试剂盒，其中所述接头序列的长度为至少20个核苷酸。

27.根据权利要求24-26中任一项的试剂盒，其中所述接头序列包含SEQ ID NO：1至7中任一个所示的核苷酸序列。

28.根据权利要求24-27中任一项的试剂盒，其中所述至少一个环化探针是链锁探针。

29.根据权利要求24-28中任一项的试剂盒，其中所述至少一种环化探针包含SEQ IDNO：8至17中任一个所示的核苷酸序列。

30.根据权利要求24-28中任一项的试剂盒，其中所述连接臂与预PCR引物邻近的第二DNA区域杂交。

31.根据权利要求24-30中任一项的试剂盒，其中所述连接臂和/或延伸臂设计为长度为至少20个核苷酸。

32.根据权利要求24-31中任一项的试剂盒，其中所述的连接臂和/或延伸臂的Tm在50℃至60℃的范围内。

33.根据权利要求24-32中任一项的试剂盒，其中还包含适于与第一DNA区域杂交的第一多个额外环化探针。

34.根据权利要求33的试剂盒，其中所述第一多个额外环化探针是kebab探针。

35.根据权利要求33的试剂盒，其中所述第一多个额外环化探针包含SEQ IDs：27-43中任一个所示的核苷酸序列。

36.根据权利要求24-35中任一项的试剂盒，其中还包含用于检测一个或多个小DNA突变的第二多个额外环化探针。

37.根据权利要求36的试剂盒，其中所述的第二多个额外环化探针是链锁探针。

38.根据权利要求36的试剂盒，其中所述的第二多个额外环化探针包含SEQ ID NO：18-26中任一个所示的核苷酸序列。