CN103484560B

CN103484560B - 精确序列信息及修饰碱基位置确定的方法

Info

Publication number: CN103484560B
Application number: CN201310494873.8A
Authority: CN
Inventors: 潘诏智; 范振业; 邱创汎; 简虹琪; 陈惠玲
Original assignee: Industrial Technology Research Institute ITRI
Current assignee: Industrial Technology Research Institute ITRI
Priority date: 2008-11-07
Filing date: 2009-11-06
Publication date: 2014-11-05
Anticipated expiration: 2029-11-06
Also published as: AU2009311073B2; CN102076871B; US20100121582A1; EP2245187A1; US20180018425A1; EP2740806A3; AU2009311073A1; TWI385253B; US11676682B1; US20150379194A1; CN102076871A; EP2740806B1; JP5483628B2; WO2010051773A1; JP2012507990A; US9767251B2; DK2245187T3; US9747414B2; CN103484560A; US20130230909A1

Abstract

本发明公开确认核酸样本的序列和/或核酸样本中修饰碱基的位置的方法，该核酸样本以具有已知序列的核酸插入物的环状分子呈现，该方法包含获取至少两个插入样本单元的序列信息。在一些实施例中，本发明方法包括使用环状配对互锁分子获取序列信息。在一些实施例中，本发明方法包括通过比较核酸样本序列与核酸插入物的已知序列，计算核酸插入物序列的分数，及根据紧邻于核酸样本序列的重复序列上游或下游之一个或两个插入物的序列分数，接受或拒绝该核酸样本序列的重复序列。

Description

精确序列信息及修饰碱基位置确定的方法

本申请是申请日为2009年11月06日、申请号为200980125207.9、PCT申请号CN2009/074851、发明名称为“精确序列信息及修饰碱基位置确定的方法”的分案申请。

【发明所属的技术领域】

本案涉及确定核酸序列的方法及确定核酸中修饰碱基位置的方法。

【现有技术】

DNA测序技术的最近发展增加了在基因组层次上高度个人化、预防医学的可能性。而且由一个或多个族群中的多个个体快速获取大量的序列信息的可能性，可在生物医学科学上开辟基因组革命的新阶段。

基因型间的单一碱基差异可产生实质的表型效应。例如已有超过300个突变确认位于编码苯丙氨酸羟化酶(PAH)的基因中，该酶在苯丙氨酸代谢及蛋白质与神经递质的生物合成中，将苯丙氨酸(phenylalanine)转换为酪氨酸(tyrosine)，该突变造成酶活性丧失及高苯丙氨酸症(hyperphenylalaninaemia)及苯酮尿症(phenylketonuria)的疾病(如Jennings et al.,Eur J Hum Genet8,683-696(2000))。

序列信息可使用Sanger测序法获得，Sanger测序法中，标记的双脱氧基链终止序列(dideoxy chain terminator)的核苷酸类似物并入大量的引物延伸反应中，分开不同长度的产物并分析确定该并入的终止序列之相同性(如Sanger et al.,Proc Natl Acad Sci USA74,5463-5467(1997))。确实有许多基因组序列依此技术被确定。然而以Sanger测序获取序列信息的成本及速度受到限制。

新的测序技术可以每日数兆碱基的惊人速度产生序列信息，每一个碱基的成本低于Sanger测序(如Kato,Int J Clin Exp Med2,193-202(2009))。但是，使用这些测序技术所得的原始信息较传统的Sanger测序产生更多的错误。这是因为获得的信息来自于个体DNA分子，而非一个庞大的族群。

例如通过合成的单一分子测序中，因为装置错过一个微弱讯号、或者缺少来自荧光染料脱色的信号、或因为聚合酶作用太快以致未被装置检测到，可能会略过一个碱基。所有上述事件皆导致原始序列中的缺失错误。同样地，突变错误及插入错误也会因为潜在的较微弱信号及较传统方法快速的反应等简单原因，更高频率地发生。

低精确度的序列信息更难以组合(assemble)。在大规模测序中，例如测序一个完整的真核基因组，其DNA分子被切成较小片段。这些片段同时被测序，然后组合所得的读取，重新构筑原始样本DNA分子的完整序列。切成片段的过程可由例如机械性剪切或酶性切断所达成。

将序列的小读取组合成大的基因组需要片段的读取精确到足以正确地组合在一起。这对于由Sanger法产生的原始测序信息通常是正确的，Sanger法可具有超过95%的原始信息正确性。精确的单一分子测序技术可应用于检测核酸样本中的单一碱基修饰或突变。然而，因为上述的限制，单一分子测序技术的原始信息精确度可能降低。个别读取原始序列的精确度可低至60-80%(如Harris et al.,Science320:106-109(2008))。因此，提供精确的单一分子测序方法是有用的。

而且，DNA甲基化在基因表达调节中扮演关键角色，例如，启动子处的甲基化通常导致转录沉默(transcriptional silencing)。甲基化也已知是基因组印迹(genomic imprinting)及X染色体失活的必要机制。然而，辨识复杂的整个基因组甲基化概貌(profile)的过程受到限制。因此以高通量确认DNA甲基化概貌的方法是有用的，而且此方法也提供对序列的精确确认。

【发明内容】

在一些实施方案中，本发明提供确认核酸样本序列之方法，包括(a)提供环状核酸分子，该分子包括至少一个插入样本单元，该插入样本单元包括核酸插入物及该核酸样本，其中该插入物具有已知序列；(b)获取序列信息，该序列信息包括至少两个插入样本单元，其中形成包含至少两个插入样本单元的核酸分子；(c)通过比较该插入物的序列与该插入物中的已知序列，计算步骤(b)序列信息的至少两个插入物的序列的分数(score)；(d)根据位于紧邻该核酸样本序列的重复序列的上游及下游之该插入物的一或两个序列的分数，接受或拒绝步骤(b)所得之序列信息的核酸样本序列的至少两个重复序列；(e)汇编一个接受序列组，该接受序列组包含步骤(d)中接受的核酸样本序列的至少一个重复序列；及(f)使用该接受序列组，确认该核酸样本序列。

在一些实施方案中，本发明提供一种系统，包括可操作连接于计算装置的测序装置，该计算装置包括处理器、储存装置、汇流排系统(bus system)、及至少一个使用者界面元件，该储存装置由包括操作系统、使用者界面软件、及使用说明的程序编码，该程序当由该处理器执行时，视需要根据使用者输入，执行下述方法：(a)从环状核酸分子获取序列信息，该环状分子包括至少一个插入样本单元，该插入样本单元包括核酸插入物及核酸样本，其中：(i)该插入具有已知序列，(ii)该序列信息包括至少两个插入样本单元的序列，及(iii)产生一核酸分子包含至少两个插入样本单元；(b)通过比较该插入物的序列与该插入物的已知序列，计算步骤(a)的序列信息至少两个插入物的序列的分数；(c)根据紧邻于该核酸样本序列的重复序列上游及下游的插入物的一或二个序列的分数，接受或拒绝步骤(a)的序列信息中核酸样本序列的至少两个重复序列；(d)汇编一个接受序列组，该接受序列组包括步骤(c)接受的核酸样本序列至少一个重复序列；及(e)使用该接受序列组确定该核酸样本序列，其中，使用该系统的输出，产生至少一个(i)核酸样本的序列；或(ii)指示在核酸样本中至少一个位置上有修饰碱基的标记。

在一些实施方案中，本发明提供一种储存装置，由包括操作系统、使用者界面软件及指示说明的程序编码，当由下述操作系统的处理器运行时，即该操作系统包括可操作连接于包括处理器、储存装置、汇排流系统及至少一个使用者界面元件以及选择性具有使用者输入的计算装置的测序装置，该程序执行下述方法：(a)从环状核酸分子获取序列信息，该环状分子包含至少一个插入样本单元，该插入样本单元包括核酸插入物及核酸样本，其中：(i)该插入物具有已知序列，(ii)该序列信息包括至少两个插入样本单元的序列，及(iii)产生含至少两个插入样本单元的核酸分子；(b)通过比较该插入物的序列与该插入物的已知序列，计算步骤(a)的序列信息至少两个插入物的序列的分数；(c)根据紧邻于该核酸样本序列的重复序列上游及下游的插入物的一或两个序列的分数，接受或拒绝步骤(a)之序列信息的核酸样本序列的至少两个重复序列；(d)汇编接受序列组，该接受序列组包含步骤(c)接受的核酸样本序列至少一个重复序列；及(e)使用该接受序列组，确认该核酸样本序列，其中，该方法导致用于产生下述的输出，即至少一个(i)核酸样本的序列；或(ii)指示在核酸样本中至少一个位置上有修饰碱基的标记。

在一些实施方案中，本发明提供一种确认双链核酸样本的序列及该序列中至少一个修饰碱基的位置的方法，包括：(a)将双链核酸样本的正向链和反向链锁在一起，形成一环状配对互锁分子(circular pair-locked molecule)；(b)经由单一分子测序获得该环状配对互锁分子的序列信息，其中该序列信息包括该环状配对互锁分子的正向链及反向链的序列；(c)比较该环状配对互锁分子的正向链及反向链的序列，确认该双链核酸样本的序列；(d)改变该环状配对互锁分子中特定类型碱基的碱基配对特异性(base-pairing specificity)，产生改变的环状配对互锁分子；(e)获得该改变的环状配对互锁分子的序列信息，其中该序列信息包括该改变的正向链及反向链的序列；及(f)通过比较该改变的正向链及反向链的序列，确认该双链核酸样本序列中修饰碱基的位置。

在一些实施方案中，本发明提供一种确认双链核酸样本之方法，包括：(a)锁住核酸样本的正向链与反向链在一起，形成一环状配对互锁分子；(b)经由单一分子测序，获得该环状配对互锁分子的序列信息，其中序列信息包括该环状配对互锁分子的正向链及反向链的序列；及(c)比较该环状配对互锁分子的正向链及反向链的序列，确认该双链核酸样本的序列。

在一些实施方案中，本发明提供一种确认双链核酸样本的序列及该序列中至少一个修饰碱基的位置之方法，包括：(a)锁住核酸样本的正向链与反向链在一起，形成一环状配对互锁分子；(b)经由单一分子测序，获得该环状配对互锁分子的序列信息，其中序列信息包括该环状配对互锁分子的正向链及反向链的序列；及(c)比较该环状配对互锁分子的正向链及反向链的序列，确定该双链核酸样本的序列及在该双链核酸样本序列中至少一个修饰碱基的位置。

在一些实施方案中，本发明提供一种确定双链核酸样本的序列及该序列中至少一个修饰碱基位置的方法，包括：

(a)将核酸样本的正向链及反向链锁在一起，形成一环状配对互锁分子；(b)改变该环状配对互锁分子中特定形式之碱基的碱基配对特异性；(c)通过单一分子测序，获得该环状配对互锁分子的序列信息，其中序列信息包括该环状配对互锁分子的正向链及反向链的序列；及(d)通过比较该环状配对互锁分子的正向链及反向链的序列，确定该双链核酸样本的序列及在该双链核酸样本序列中至少一个修饰碱基的位置。

(a)将核酸样本的正向链及反向链锁在一起，形成一环状配对互锁分子；(b)通过单一分子测序，获得该环状配对互锁分子的序列信息，其中序列信息包括该环状配对互锁分子的正向链及反向链的序列；(c)比较该环状配对互锁分子的正向链及反向链的序列，确定该双链核酸样本的序列；(d)通过单一分子测序，获得该环状配对互锁分子的序列信息，其中使用至少一个区分碱基及其修饰形式的核苷酸类似物，获得序列信息，该序列信息包括在至少一个位置上并入至少一个鉴别标记的核苷酸类似物；及(e)通过比较该正向链及反向链的序列，确定该双链核酸样本序列中修饰碱基的位置。

在一些实施方案中，本发明提供一种确定双链核酸样本的序列及该序列中至少一个修饰碱基位置的方法，包括：(a)将核酸样本的正向链及反向链锁在一起，形成一环状配对互锁分子；(b)通过单一分子测序，获得该环状配对互锁分子的序列信息，其中使用至少一个区分碱基及其修饰形式的核苷酸类似物，获得序列信息，该序列信息包括在至少一个位置上并入至少一个鉴别标记的核苷酸类似物；及(c)比较该环状配对互锁分子的正向链及反向链的序列，确认该双链核酸样本的序列及在该双链核酸样本序列中至少一个修饰碱基的位置。

本发明提供了：

1.一种确定核酸样本序列的方法，包括：

a.提供环状核酸分子，所述环状核酸分子包括至少一个插入样本单元，所述插入样本单元包括核酸插入物及所述核酸样本，其中所述插入物具有已知序列；

b.获取序列信息，所述序列信息包括至少两个插入样本单元的序列，其中产生包含至少两个插入样本单元的核酸分子；

c.通过比较所述插入物的序列与所述插入物中的已知序列，计算步骤(b)序列信息的至少两个插入物序列的分数(score)；

d.根据位于紧邻所述核酸样本序列的重复序列的上游及下游的所述插入物的一个或二个序列的分数，接受或拒绝步骤(b)所得的序列信息的核酸样本序列的至少两个重复序列；

e.汇编接受序列组，所述接受序列组包含步骤(d)中接受的核酸样本序列的至少一个重复序列；及

f.使用所述接受序列组，确定所述核酸样本序列。

2.如项1所述的方法，其中，获取序列信息包括单一分子测序(single molecule sequencing)。

3.如项2所述的方法，其中所述单一分子测序包括以选自通过合成作用的单一分子测序及连接测序(ligation sequencing)的方法测序。

4.如项3所述的方法，其中所述单一分子测序包括通过合成的实时(real-time)单一分子测序。

5.如项3所述的方法，其中所述单一分子测序包括通过选自下组合成作用的单一分子测序：焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)及第三代测序(third-generation sequencing)。

6.如项3所述的方法，其中所述单一分子测序包括纳米孔测序(nanopore sequencing)。

7.如项1所述的方法，其中提供环状核酸分子，包括使所述核酸样本连接(ligate)至所述核酸插入物，形成所述环状核酸分子。

8.如项1的所述的方法，其中所述环状核酸分子是双链的。

9.如项1所述的方法，其中所述核酸样本自RNA样本获得。

10.如项1所述的方法，其中所述核酸样本自基因组DNA样本获得。

11.如项1所述的方法，其中所述环状核酸分子包括至少两个插入样本单元。

12.如项1所述的方法，其中所述核酸插入物包括启动子，且合成所述产物核酸分子包括使所述启动子与识别所述启动子的RNA聚合酶接触，之后合成包括核糖核苷酸(ribonucleotide)残基的产物核酸分子。

13.如项1所述的方法，其中所述核酸插入物具有30℃至90℃范围的解链温度。

14.如项1所述的方法，其中所述核酸插入物具有14-200个核苷酸残基范围的长度。

15.如项1所述的方法，其中所述接受序列组为选自多元件变异及单一信息字符串(string)的形式，包括步骤(b)的序列信息经过处理，对步骤(e)中拒绝的核酸样本序列的重复序列进行缺少、盖写或省略。

16.如项1所述的方法，其中所述接受序列组是多元件变异形式，选自列表(list)、阵列(array)、散列(hash)及矩阵(matrix)的类型。

17.如项1所述的方法，其中所述核酸样本序列的至少两个重复序列在步骤(d)被接受，且所述核酸样本序列的确定包括基于在步骤(d)被接受的核酸样本序列的至少两个重复序列进行的共有序列(consensus sequence)的确定。

18.如项17所述的方法，其中所述共有序列包括以概率表示的碱基，所述碱基位于至少一个步骤(d)中接受的核酸样本序列的至少两个重复序列彼此不同的位置上。

19.如项17所述的方法，其中所述核酸样本序列的至少三个重复序列在步骤(d)中被接受，且共有序列的确定包括在步骤(d)中被接受的所述核酸样本序列的至少三个重复序列的多数决(majority vote)的确定。

20.如项17所述的方法，其中所述共有序列是位置权重矩阵(positionweight matrix)。

21.如项17所述的方法，其中所述共有序列为平铺式序列(flat sequence)。

22.如项21所述的方法，其中所述平铺式序列(flat sequence)包括至少一个多义密码子(ambiguity code)。

23.如项17所述的方法，其中所述共有序列包括置信水平(confidencelevel)。

24.如项23所述的方法，其中所述置信水平以选自碱基频率、信息含量、及Phred质量分数(phred quality score)的形式表示。

25.如项23所述的方法，其中项1所述之步骤(b)-(f)是实时(real time)进行的，所述共有序列及置信水平是实时(real time)更新的。

26.如项25所述的方法，其中所述方法进行直到在预先选择百分比的共有序列位置达成规定的最小置信水平(a set minimum level of confidence)为止。

27.如项26所述的方法，进一步包括当预先选择百分比的位置达到所述规定的最小置信水平时产生警告。

28.如项26所述的方法，其中所述所述规定的最小置信水平为选自90%、95%、99%、99.5%、99.9%、99.95%或99.99%的碱基判断精确度(base callaccuracy)。

29.如项1所述的方法，进一步包括以至少一个其它的核酸样本重复项1的步骤，所述其它的核酸样本与项1的核酸样本有相同来源、物种或品系，且具有与项1的核酸样本序列部分重叠的序列，从而确定至少一个其它序列，和组合所述至少一个其它序列与步骤(f)的序列，形成重叠群。

30.如项1所述的方法，其中步骤(c)的分数用于评估步骤(b)作为整体的序列信息置信水平。

31.如项1所述的方法，其中分数的计算包括确定所述序列信息的至少两个插入物与所述插入物的已知序列之间的错配(mismatch)数量。

32.如项1所述的方法，其中分数的计算包括确定所述序列信息的至少两个插入物与所述插入物的已知序列之间的同一性百分比(percent identity)。

33.如项1所述的方法，其中分数的计算包括进行所述序列信息的至少两个插入物与所述插入物的已知序列之间的比对。

34.如项33所述的方法，其中进行比对包括使用选自BLAST、MEGABLAST、Smith-Waterman比对及Needleman-Wunsch比对的演算法。

35.如项1所述的方法，其中所述分数是以计数(count)和比率(rate)为基础产生。

36.如项1所述的方法，其中接受或拒绝步骤(b)序列信息的核酸样本序列的至少两个重复序列包括，接受是具有分数大于或等于预定阈值(threshold)的紧邻于样本插入物序列上游或下游的所述核酸样本序列的至少两个重复序列，及拒绝不是的。

37.一种系统，包含可操作连接于计算装置的测序装置，所述计算装置包括处理器、储存装置、汇流排系统(bus system)、及至少一个使用者界面元件，所述储存装置由包括操作系统、使用者界面软件、及使用说明(instruction)的程序编码，当所述程序由所述处理器执行时，可选地由使用者输入，进行下述方法，包括：

a.从环状核酸分子获取序列信息，所述环状分子包含至少一个插入样本单元，所述插入样本单元包括核酸插入物及核酸样本，其中：

(i)所述插入物具有已知序列，

(ii)所述序列信息包括至少两个插入样本单元的序列，及

(iii)产生包含至少两个插入样本单元的核酸分子；

b.通过比较所述序列与所述插入物的已知序列，计算步骤(a)的序列信息的至少两个插入物的序列的分数；

c.根据紧邻于所述核酸样本序列的重复序列上游及下游的插入物之一或二个序列的分数，接受或拒绝步骤(a)序列信息的核酸样本序列的至少两个重复；

d.汇编接受序列组，所述接受序列组包含步骤(c)接受的核酸样本序列至少一个重复序列；及

e.使用所述接受序列组确定所述核酸样本序列，

其中，所述系统的输出用于产生至少一个(i)核酸样本的序列；或(ii)在核酸样本中至少一个位置上有修饰碱基的说明。

38.一种储存装置，由包括操作系统、使用者界面软件及指示说明的程序编码，其中所述程序由下述的操作系统的处理器运行时，即所述系统包括可操作连接于计算装置的测序装置，其中所述计算装置包括处理器、储存装置、汇排流系统及至少一个使用者界面元件，可选地由使用者输入，执行下述方法，包括：

a.由环状核酸分子获取序列信息，所述环状分子包含至少一个插入样本单元，所述插入样本单元包括核酸插入物及核酸样本，其中：

(i)所述插入物具有已知序列，

(ii)所述序列信息包括至少两个插入样本单元的序列，及

(iii)产生包含至少两个插入样本单元的核酸分子；

b.通过比较所述序列与所述插入物的已知序列，计算步骤(a)的序列信息至少两个插入物序列的分数；

c.根据紧邻于所述核酸样本序列的重复序列上游及下游的插入物之一或二个序列的分数，接受或拒绝步骤(a)之序列信息的核酸样本序列的至少两个重复；

d.汇编接受序列组，所述接受序列组包含步骤(c)接受的核酸样本序列的至少一个重复序列；及

e.使用所述接受序列组确定所述核酸样本序列，

其中，上述方法得到的输出用于产生至少一个(i)核酸样本的序列；或(ii)在核酸样本中至少一个位置上有修饰碱基的说明。

39.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

a.将双链核酸样本的正向链及反向链锁在一起，形成一环状配对互锁分子(circular pair-locked molecule)；

b.通过单一分子测序获得所述环状配对互锁分子的序列信息，其中所述序列信息包括所述环状配对互锁分子的正向链及反向链的序列；

c.通过比较所述环状配对互锁分子的正向链及反向链的序列，确定所述双链核酸样本的序列；

d.改变所述环状配对互锁分子中特定类型之碱基的碱基配对特异性(base-pairing specificity)，产生改变的环状配对互锁分子；

e.获取所述改变的环状配对互锁分子的序列信息，其中所述序列信息包括所述改变的正向链及反向链的序列；及

f.通过比较所述改变的正向链及反向链的序列，确定所述双链核酸样本序列中修饰碱基的位置。

40.如项39所述的方法，其中所述双链核酸样本是自细胞来源、病毒来源、或环境来源获得的初级分离物。

41.如项40所述的方法，其中所述初级分离物在项39之步骤(a)之前维持在25℃或25℃以下及实质上没有二价阳离子及核酸修饰酶存在的条件下。

42.如项39所述的方法，其中所述双链核酸样本获得自体外(in vitro)反应或细胞外核酸。

43.如项39所述的方法，其中对环状配对互锁分子中特定形式碱基的碱基配对特异性的改变包括重亚硫酸(disulfite)处理。

44.如项39所述的方法，其中对环状配对互锁分子中特定形式碱基的碱基配对特异性的改变包括光化学转化(photochemical transition)。

45.如项39所述的方法，其中将所述正向链及反向链锁在一起包括使两个核酸插入物分别连接(join)至所述双链核酸样本的两端(one to each end)，所述两个核酸插入物为相同或不同。

46.如项45所述的方法，其中所述核酸插入物具有14-200个核苷酸残基范围的长度。

47.如项45所述的方法，其中所述核酸插入物具有已知序列。

48.如项45所述的方法，其中所述核酸插入物形成具有突出(overhang)的发卡结构(hairpin)，所述核酸样本具有可与所述核酸插入物的突出相容的突出。

49.如项45所述的方法，其中序列信息的获取包括使引物退火(anneal)至模板，并延伸所述引物，其中所述引物与至少一个所述核酸插入物的至少一部分互补。

50.如项45所述的方法，其中至少一个所述核酸插入物包括启动子，序列信息的获取包括使所述启动子与识别所述启动子的RNA聚合酶接触，之后合成包含核糖核苷酸残基的产物核酸分子。

51.如项45所述的方法，其中连接(join)是通过连接反应(ligation)达成。

52.如项39所述的方法，其中所述双链核酸样本包括复数个样本联结(link)在一起。

53.如项52所述的方法，其中所述复数个样本通过中间核酸插入物(intervening nucleic acid inserts)连接。

54.如项53所述的方法，其中将所述正向链及反向链锁在一起，包括连接(ligate)复合体，所述复合体由所述核酸插入物的突出与所述核酸样本的可相容的突出接触所形成。

55.如项39所述的方法，其中所述双链核酸样本是基因组(genomic)DNA片段。

56.如项39所述的方法，其中所述双链核酸样本包括至少一个RNA链。

57.如项39所述的方法，其中所述单一分子测序包括选自通过合成作用的单一分子测序及连接测序(ligation sequencing)的方法。

58.如项39所述的方法，其中所述单分子测序包括通过合成作用的实时单一分子测序。

59.如项39所述的方法，其中所述单一分子测序包括选自下组方法的通过合成作用的单一分子测序：焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)、及第三代测序(third-generationsequencing)。

60.如项39所述的方法，其中所述单一分子测序包括纳米孔测序(nanopore sequencing)。

61.如项39所述的方法，其中：

所述环状配对互锁分子的正向链及反向链经由核酸插入物而锁在一起；

步骤(b)获得的序列信息包括所述环状配对互锁分子序列的至少两个拷贝，每一个拷贝包括第一及第二插入样本单元的序列；

所述第一及第二插入样本单元的序列包括插入序列，所述插入序列可相同或不同，和方向相反(oppositely oriented)的核酸样本序列的重复序列；及

该方法进一步包括：

g.比较所述序列信息中的至少四个插入物的序列与所述插入物的已知序列，计算所述至少四个插入物序列的分数；

h.根据紧邻所述样本序列上游及下游的插入物的1个或2个序列的分数，接受或拒绝所述序列信息中所含的核酸样本序列的至少四个重复序列，条件是每个方向(orietation)至少一个样本序列被接受；

i.汇编接受序列组，所述接受序列组包括步骤(g)接受的每个方向至少一个样本序列；及

j.使用所述接受序列组，确定所述核酸样本的序列。

62.一种确定双链核酸样本序列的方法，包括：

a.将核酸样本的正向链与反向链锁在一起，形成环状配对互锁分子；

b.经由单一分子测序，获取所述环状配对互锁分子的序列信息，其中序列信息包括所述环状配对互锁分子的正向链及反向链的序列；及

c.通过比较所述环状配对互锁分子的正向链及反向链的序列，确定所述双链核酸样本的序列。

63.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基的位置的方法，包括：

a.将核酸样本的正向链及反向链锁在一起，形成环状配对互锁分子；

b.通过单一分子测序，获得所述环状配对互锁分子的序列信息，其中序列信息包括所述环状配对互锁分子的正向链及反向链的序列；及

c.通过比较所述环状配对互锁分子的正向链及反向链的序列，确定所述双链核酸样本的序列及在所述双链核酸样本序列中至少一个修饰碱基的位置。

64.如项63所述的方法，其中所述双链核酸分子包括至少一个选自下组的修饰碱基：5-溴尿嘧啶(5-bromouracil)、尿嘧啶(uracil)、5,6-二氢尿嘧啶(5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7-甲基鸟嘌呤(7-methylguanine)、次黄嘌呤(hypoxanthine)及黄嘌呤(xanthine)。

65.如项63所述的方法，其中所述双链核酸样本中的至少一个修饰碱基与具有不同于其优选配对碱基的碱基配对特异性的碱基配对。

66.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

b.改变所述环状配对互锁分子中特定形式碱基的碱基配对特异性；

c.通过单一分子测序，获得所述环状配对互锁分子的序列信息，其中序列信息包括所述环状配对互锁分子的正向链及反向链的序列；及

d.通过比较所述环状配对互锁分子的正向链及反向链的序列，确定所述双链核酸样本的序列及在所述双链核酸样本序列中至少一个修饰碱基的位置。

67.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

a.将核酸样本的正向链及反向链锁在一起，形成一环状配对互锁分子；

b.通过单一分子测序，获得所述环状配对互锁分子的序列信息，其中序列信息包括所述环状配对互锁分子的正向链及反向链的序列；

c.比较所述环状配对互锁分子的正向链及反向链的序列，确定所述双链核酸样本的序列；

d.通过单一分子测序，获得所述环状配对互锁分子的序列信息，其中使用至少一个区别碱基及其修饰形式的核苷酸类似物(nucleotide analog)获得序列信息，所述序列信息包括至少一个位置上并入至少一个鉴别标记的核苷酸类似物；及

e.通过比较所述正向链及反向链的序列，确定所述双链核酸样本序列中修饰碱基的位置。

68.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

b.通过单一分子测序，获得所述环状配对互锁分子的序列信息，其中使用至少一个区分碱基及其修饰形式的核苷酸类似物获得序列信息，所述序列信息包括在至少一个位置上并入至少一个鉴别标记的核苷酸类似物；及

本发明其它的目的及优点将在下面描述部分中说明，且部分从描述的角度来看是显而易见的，或者可通过实施本发明而学习。本发明的目的和优点将通过后附的权利要求所特别指明的要件及组合而了解及达成。

前述的一般说明及下述的详细描述应了解仅为示例性的，如同所声明，不能用以限制本发明。

附图并入并构成本说明书的一部分，说明本发明的数个实施方式，与描述一起用于解释本发明的原理。

【实施方式】

定义

为了使本发明容易了解，定义各项名词如下。在此未定义的名词具有本发明所属相关技术领域中具有通常知识者一般了解的意义。如”一”、”一个”及”该”并非仅表示单一个体，可包括特定实例可用以说明的一般群组。此述学术用语用于说明本发明的特定实施方案，但其除在权利要求中描述者，并非用于限制本发明。

“核酸”包含寡核苷酸及多核苷酸。

“杂交的高度严谨条件”表示两核酸彼此间必须具有高度同质性(homology)以进行杂交的条件。杂交的高度严谨条件例如在4X氯化钠/柠檬酸钠(SSC)中、65或70℃下杂交，或在4X SSC及50%甲酰胺中、在约42或50℃下杂交，之后伴随至少一次、至少两次、或至少三次在1X SSC中、65或70℃下洗涤。

“解链温度(melting temperature)”表示一半的核酸在溶液中为链解开(melted)状态，另一半核酸为链未解开(unmelted)状态时的温度，假设有足够的互补核酸存在。在寡核苷酸存在超过互补序列的情形时，解链温度为一半的互补序列与该寡核苷酸连接(anneal)的温度。当核酸插入物可形成发卡结构(hairpin)的情形时，解链温度为一半的插入物为部分自我杂交的”发卡结构”时的温度。由于解链温度受条件影响，此述讨论的寡核苷酸解链温度为在50mM氯化钠水溶液中、具有0.5μM寡核苷酸时的解链温度。解链温度可由多种本领域已知方法估算，例如使用最接近热平衡参数(Allawi et al.,Biochemistry,36,10581–10594(1997))及标准的热力学方程计算。

如果核酸分子中的一个位置具有一个独特序列及其长度与组成使互补寡核苷酸具有可接受的解链温度，例如从45℃至70℃、从50℃至70℃、从45℃至65℃、从50℃至65℃、从55℃至70℃、从60℃至70℃、从55℃至60℃、从60℃至65℃、或从50℃至55℃，则该位置适合引物连接。

“延伸引物、寡核苷酸、或核酸”表示在该引物、寡核苷酸、或核酸上添加至少一个核苷酸。此包括以聚合酶(polymerase)或连接酶(ligase)活性催化的反应。

“测序引物”是可连接至核酸分子中适合引物连接及测序反应中延伸的位置，以产生序列信息的寡核苷酸。

当核酸插入物可部分自体杂交且自体杂交形式具有至少15℃的解链温度时，核酸插入物可形成发卡结构(hairpin)。

“突出(overhang)”为位于双链核酸分子或发卡结构末端的单链片段。

“重复序列”为在一个核酸中出现超过一次以上的序列。当重复序列存在一个核酸分子中时，所有该序列，包括第一次出现的序列，都认为是重复序列。重复序列包括彼此反向互补(reverse complement)的序列，例如发生在环状配对互锁分子(circular pair-locked molecule)中。重复序列也包括非完全相同但衍生自相同序列的序列，例如因为在合成中错误加入的事件或其它聚合酶的错误使序列不同，或者一开始相同或完整的反向互补的序列，但因为过程中的修饰作用而使序列不同，例如因为光化学转化(photochemical transition)或重亚硫酸处理(bisulfite treatment)的修饰作用。

当核酸插入物及核酸样本中没有其它插入的重复序列介于该核酸插入物及核酸样本之间时，该核酸插入物及核酸样本紧邻于对方的上游或下游。在单链分子中，上游表示5’端方向，下游表示3’端方向。在双链分子中，此极性可任意决定或可根据具方向性的组成元件(例如启动子、编码序列等)的极性来决定，如果大多数的组成元件方向相同的话。以RNA聚合酶开始合成的方向为下游确定启动子的极性。以从起始密码子向终止密码子的方向为下游确定编码序列的极性。

如果两个重复序列彼此为反向互补，或者其中之一或两者为彼此反向互补的衍生物时，该两个重复序列彼此是正向及反向关系，具有相反的方向(orientation)。定为正向的重复序列可任意决定或根据如前述该重复序列中组成元件的极性而确定。

修饰碱基是除了腺嘌呤(adenine)、胸腺嘧啶(thymine)、鸟嘌呤(guanine)、胞嘧啶(cytosine)或尿嘧啶(uracil)以外，可位于核酸或核苷酸中如前述的一个或一个以上的碱基。

多义密码子(ambiguity code)表示一个序列中的碱基组合的密码子，换句话说，任何其表示的碱基皆可存在，例如Y=嘧啶(C、U或T)；R=嘌呤(A或G)；W=弱(A、T或U)；S=强(G或C)；K=酮基(T、U或G)；M=胺基(C或A)；D=非C(A、G、T或U)；V=非T或U(A、C或G)；H=非G(A、C、T或U)；B=非A(C、G、T或U)。

位置权重矩阵(position weight matrix)是行(row)对应核酸序列中的位置、列(column)对应碱基，或者相反对应的矩阵，矩阵中的每一个组成元件是特定位置上的特定碱基的权重(weight)。通过合计序列中各碱基的权重，可确定该序列对照位置权重矩阵的分数(score)，例如，当序列为ACG时，分数为矩阵第1栏的A权重、第2栏的C权重、及第3栏的G权重的总和，假设这些栏对应该碱基的位置。通过反复对一序列确定对照矩阵的分数，可对一个长度大于该矩阵中位置数目的序列运作位置权重矩阵，其起始位置在每一运作中增加一个位置。在该方法中，可确认产生对应该矩阵的最大或最小分数的序列中的位置。

“储存装置”表示可由计算机获取的数字信息的储存库，包括RAM、ROM、硬盘、非挥发性固态记忆体、光碟、磁碟及其等同物。

“信息结构”是一个物体或含有信息的储存装置中的变量(variable)。信息结构可含有标量数据(scalar data)(例如个别特征、数量、或字符串)、标量数据的集合(例如标量的矩阵或阵列)、或递归的集合(例如包含次表(sub-list)、矩阵、阵列和/或标量作为元件的表列(list)，该表列可为多维度的(multidimentional)，其中所述次表可含有次表、矩阵、阵列和/或数值作为元件)。

核酸样本

本发明方法包括确认核酸样本序列和/或确认核酸样本中修饰碱基的位置。”核酸样本”指本发明方法中待确认的序列和/或修饰碱基位置的核酸。

核酸样本可获自例如DNA(包括基因组DNA、cDNA、mtDNA、叶绿体DNA、及染色体外或细胞外DNA，但不限于此)或RNA(包括mRNA、初级转录本RNA、tRNA、rRNA、miRNA、siRNA、及snoRNA，但不限于此)，但不限于此。核酸样本可来自个体、患者、样本、细胞培养物、生物膜(biofilm)、器官、组织、细胞、孢子、动物、植物、真菌、原生生物、细菌、古细菌(archaeron)、病毒或病毒粒体(virion)。在一些实施方案中，核酸样本获自环境样本，例如来自土壤或水，核酸样本可获自环境样本，无须特别了解核酸是否为细胞、细胞外或病毒来源。而且，核酸可获自化学或酶催化反应，包括合成、重组、或自然发生的核酸经酶修饰的反应，例如经甲基转移酶(methyltransferase)催化。

在一些实施方案中，核酸样本是上述来源经过处理的样本。例如分离的核酸可经剪切片段化，例如经过超声波振动或通过小孔径的移液(pipetting)，或通过酶消化，例如内切酶(endonuclease)而片段化，该内切酶可为限制性内切酶(restriction endonuclease)。在一些实施方案中，核酸样本至少具有一个突出(overhang)。分离的核酸可先被克隆(clone)并在宿主细胞和/或载体(vector)，例如细菌或酵母菌的人造染色体、微染色体(minichromosome)、质粒(plasmid)、粘粒(cosmid)、染色体外元件(extrachromosomal element)、或染色体整合构建体(chromosomally integrated construct)中增殖。

提供环状核酸分子

在一些实施方案中，本发明方法包括提供环状核酸分子，该环状核酸分子包含插入样本单元，该插入样本单元含有核酸插入物和核酸样本，其中该插入物具有已知序列。该环状核酸分子可为单链或双链。

在一些实施方案中，该环状核酸分子是由其来源物分离得到的环状构造分子，如果该环状核酸分子的序列部分是已知的，则其可作为核酸插入物(例如该环状分子所含的基因序列中保守的基序(conserved motif)可能是已知的，或者根据该分子在高度严谨条件下与另一已知序列核酸杂交的能力，可知含有某一序列)。在一些实施方案中，在知道该核酸插入物序列来自严谨杂交性质的情形下，对该核酸插入物序列的认识并不精确。在一些实施方案中，在该环状核酸分子具有已知骨架序列(backbone sequence)或者经工程改造(engineered)含有已知序列的情形下，则对该核酸插入物序列具有精确的认识。

在一些实施方案中，该环状核酸分子来自体外(in vitro)反应或将该核酸样本与核酸插入物一起并入该环状分子的反应。体外反应，在一些实施方案中，可包括连接酶(ligase)催化的接合(ligation)和/或其它，例如可由多种酶催化的链连接反应(strand joining reaction)，包括重组酶(recombinases)和拓扑异构酶(topoisomerases)。DNA连接酶或RNA连接酶，在接头(adapter)分子或联结子(linker)存在或不存在下，可用于使一线状模板的两端酶性连接，形成环状。例如，T4RNA连接酶偶联单链DNA或RNA，如Tessier et al.,AnalBiochem,158:171-78(1986)所述。CIRCLIGASE(TM)(Epicentre,Madison,Wis.)也可用于催化单链核酸接合。或者，双链连接酶，例如E.coli或T4DNA连接酶，可用于环化反应。

在一些实施方案中，提供该环状核酸分子包括以含有互补区域的引物(primer)(引物可为具有已知序列的5’垂悬(flap)的任意引物，该已知序列可作为核酸插入物)放大一核酸模板(template)，环化该经扩增的核酸，例如通过连接酶或重组酶催化。该经扩增的核酸，在一些实施方案中，可在环化之前对其末端进行处理，例如限制切割(restriction)或磷酸化。

在一些实施方案中，该环状核酸分子通过进行化学环化作用提供。化学方法采用已知的偶联剂(coupling agent)，例如BrCN与咪唑及二价金属、N-氰基咪唑(N-cyanoimidazole)与ZnCl2、1-(3-二甲基氨基丙基)-3-乙基碳化二亚胺(ethylcarbodiimide)盐酸盐、及其它碳化二亚胺(carbodiimides)与羰基二咪唑(carbonyl diimidazole)。线状模板的末端也可以通过缩合(condense)5’-磷酸与3’-羟基或5’-羟基与3’-磷酸而连接。

在一些实施方案中，环状核酸分子为环状配对互锁分子(circularpair-locked molecule；cPLM)。此类型的分子在下面详述。

提供核酸样本的正向及反向重复序列；环状配对互锁分子

在一些实施方案中，本发明方法包括提供核酸样本的正向及反向重复序列，及将该正向链及反向链锁在一起形成cPLM。cPLM的一般结构如图3所示。cPLM是单链环状核酸分子，包括核酸样本的正向及反向重复序列，该重复序列由核酸插入物包围，如图3A所示。该核酸插入物可为相同或相异。在一些实施方案中，该插入物具有至少50nt或至少100nt的长度。在一些实施方案中，该插入物的长度为50或100nt至10,000或50,000nt。

线状双链核酸样本的双链可彼此锁在一起，形成cPLM，例如通过接合(ligate)在分子端形成发卡结构(hairpin)的核酸插入物。在一些实施方案中，形成发卡结构的核酸插入物具有至少20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃或70℃的解链温度。该接合(ligation)可为平端(blunt-end)或粘性末端(sticky-end)连接。发卡结构结构具有碱基对的干区(stem region)及未配对的环区(loop region)。在一些实施方案中，插入的核酸包括至少20、22、25、30、或35个核苷酸大小的环区。在一些实施方案中，该环区适合引物连接。在一些实施方案中，该环区以至少45℃、50℃、55℃、60℃、65℃或70℃的解链温度与引物连接。

在一些实施方案中，该核酸样本包含不同的粘性末端(sticky end)，例如可由限制酶分解不同的限制位(restriction sites)而产生，这些不同的粘性末端有利于不同的核酸插入物接合(ligation)。在一些实施方案中，以此方式待转换的双链核酸可通过沿着含有所希望的样本序列的模板延伸包含已知序列的5’垂悬(flap)的任意引物而获得。

双链核酸的双链也可经由酶处理使双链端转换成发卡结构，彼此双链锁在一起形成cPLM，例如经由重组酶(recombinanase)与双链分子的一端形成磷酸酪氨酸(phosphotyrosin)连结，之后另一链对该磷酸酪氨酸的连结作亲核性攻击(nucleophilic attack)，形成发卡结构。λ整合酶(integrase)及Flp重组酶等家族成员(如Chen et al.,Cell69,647-658(1992)；Roth et al.,Proc Natl AcadSci USA90,10788-10792(1993))是该重组酶的实例。在一些实施方案中，核酸样本包括酶的识别序列，该酶使双链端转换成发卡结构。在一些实施方案中，使双链端转换成发卡结构的酶的识别序列附着于该核酸样本，例如通过接合(ligation)。

在一些实施方案中，样本核酸开始以单链形式获得，在形成cPLM前，转换成双链形式。此可通过例如使发卡结构(hairpin)与突出(overhang)接合至该样本核酸的3’端，然后由该接合的发卡结构自3’端延伸，形成互补链而达成。之后可将第二发卡结构连接至该分子，形成cPLM。

核酸插入物

本发明的方法包括提供和/或使用环状核酸分子，包括cPLM，该环状核酸分子包括至少一个核酸插入物。在一些实施方案中，该至少一个核酸插入物具有部分的、不精确的、或完全的已知序列，如上所述。在一些实施方案中，该至少一个核酸插入物的序列是完全已知的。在一些实施方案中，该至少一个核酸插入物包括寡核苷酸的合适结合位点(binding site)，该寡核苷酸包括测序引物。在一些实施方案中，该至少一个插入核酸形成发卡结构(hairpin)。

在一些实施方案中，该至少一个核酸插入物具有10-300个、15-250个、30-200个、或30-100个核苷酸残基的长度。在一些实施方案中，该至少一个核酸插入物具有45℃-70℃或50℃-65℃的解链温度。

在一些实施方案中，该至少一个核酸插入物包括一启动子(promoter)，例如T7RNA聚合酶启动子(如Guo et al.,J Biol Chem280,14956-14961(2005))。启动子由RNA聚合酶辨识，是RNA合成开始的位置。其它的启动子在该技术领域中亦是已知的。

插入样本单元

本发明中使用的环状核酸分子包括至少一个核酸样本及至少一个核酸插入物，组成至少一个插入样本单元。插入样本单元为核酸片段，其中核酸插入物位于紧邻核酸样本的上游或下游。

在一些实施方案中，该环状核酸分子是cPLM，包含两个插入样本单元，在此二插入样本单元中的核酸样本彼此互为相反方向(orientation)，即，一个是核酸样本的正向重复序列，另一个是反向重复序列。需注意cPLM可考虑为包含两个插入样本单元，其中该插入物位于该样本的上游或下游，亦即，依照如图3B所示结构的cPLM，依序包含组成元件11(正向重复序列)、14(插入物)、12(反向重复序列)、及13(插入物)，13接回11，使该环封闭。不论该插入样本单元是否是11与14及12与13，或13与11及14与12，该分子包含两个插入样本单元。在实施例中，当该插入物的方向(orientation)和/或其相对于该样本的定位(positioning)是功能上显著的时，例如该插入物包括一启动子或引物结合位点，其最有效于组合该插入样本单元，从而组合该插入物与样本朝向引物结合位点或启动子的方向，亦即，该样本可由引物结合位点或启动子开始由聚合酶复制。

获取序列信息

测序方法

本发明方法包括获取序列信息。在一些实施方案中，包括至少两个插入样本单元的核酸分子在获取序列信息的步骤中产生。在一些实施方案中，包含至少两个插入样本单元的核酸分子可通过从提供的环状核酸分子合成而产生。在一些实施方案中，包含至少两个插入样本单元的核酸分子可通过改变提供的环状核酸分子而产生，例如通过将该环状核酸分子转换为线状核酸分子，在一些实施方案中，该核酸分子可为单链。在一些实施方案中，核酸分子中的至少一个磷酸二酯键(phosphodiester)在获取序列信息的步骤中形成或断裂，该核酸分子可为提供的环状核酸分子或其模板合成产物。

在一些实施方案中，序列信息通过合成方法测序而获得。在一些实施方案中，序列信息使用单一分子测序方法而获得。在一些实施方案中，单一分子测序方法选自焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversibleterminator sequencing)、连接测序(ligation sequencing)、纳米孔测序(nanoporesequencing)、及第三代测序(third-generation sequencing)。

在一些实施方案中，序列信息使用大量(bulk)测序方法而获得，例如Sanger测序或Maxam-Gilbert测序。

单一分子测序方法与大量测序方法不同在于，单一核酸分子是否为测序过程的一部分而分离。核酸分子可为单链或双链，就目的而言，两个粘合的核酸链被认为是单一分子。单一分子的分离可发生在微孔(microwell)中，经由使用纳米孔(nanopore)，以可光学切割(optically resolvable)形式直接或间接附着于基底物质，例如显微玻片，或者以任何其它容许由个别分子获得序列信息的方式。在间接附着中，单一分子通过连接于该单一分子(例如蛋白质或寡核苷酸)的连接结构(linking structure)附着于基底物质。特别是单一分子被分离、之后扩增，序列信息直接由该扩增产物中获得的方法仍被认为是单一分子方法，因为单一分子被分离，并作为该序列信息的基本来源。(相反地，在大量测序方法中，使用含有多分子的核酸样本，获得含有源自多个分子信号的信息)。在一些实施方案中进行单一分子测序，其中冗余序列(redundant sequence)获得自同一分子。冗余序列可通过在一个分子中对至少两个直接或倒转(inverted)的重复序列测序而获得，或者通过对该分子的相同部份进行一次以上的测序而获得。冗余序列可为完全冗余或有某些变异的部分的冗余，例如因为特定类型碱基的碱基配对特异性(base pairing specificity)改变所造成的差异，或者因为测序过程中可能发生的错误所造成的差异。在一些实施方案中，碱基配对特异性的改变可发生于测序之前。在一些实施方案中，相同的分子被测序数次，可选地经中间处理(intervening treatment)，该中间处理选择性地改变重复测序之间发生的特定类型碱基的碱基配对特异性。

Sanger测序涉及使用标记的双脱氧基链终止序列(dideoxy chainterminator)，是该技术领域所周知的(如Sanger et al.,Proc Natl Acad Sci USA74,5463-5467(1997))。Maxam-Gilbert测序涉及在核酸样本的部分进行多重部分化学降解反应，之后检测及分析片段，推测该序列，亦是该技术领域所周知的(如Maxam et al.,Proc Natl Acad Sci USA74,560-564(1977))。另一大量测序方法是通过杂交测序，其中根据该样本对复数个序列的杂交性质，推导该样本序列，例如在微阵列或生物芯片中(如Drmanac,et al.,Nat Biotechnol16,54-58(1998))。

单一分子测序方法一般性的讨论于，例如Kato,Int J Clin Exp Med2,193-202(2009)，并作为本案参考。

焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminatorsequencing)及连接测序(ligation sequencing)被认为是第二代测序方法。一般而言，这些方法使用产生自单一分子的扩增产物，与产生自其它分子的扩增产物在空间上分离。该空间上的分离可通过使用乳化液、皮升(picoliter)孔、或固定于玻片上进行。序列信息通过核苷酸上的荧光获得，在获取信息后，去除新并入的核苷酸的荧光，并对下一个核苷酸重复此过程。

在焦磷酸测序(pyrosequencing)中，由聚合反应中释放的焦磷酸离子在ATP硫酸化酶(sulfurylase)催化下与腺嘌呤5’磷酸硫酸(adenosine5’phosphosulfate)反应，产生ATP，ATP之后驱动荧光素(luciferin)在荧光素酶(luciferase)催化下转换为氧化荧光素(oxyluciferin)及光。由于荧光为瞬间的，在此方法中不需要另一个分离步骤去除荧光。此时加入一种脱氧核苷酸三磷酸(dNTP)，根据在反应位点上的dNTP产生的明显信号，辨别序列信息。可市购的Roche GS FLX仪器使用此方法获得序列。此技术及其应用如下述详细讨论，例如Ronaghi et al.,Anal Biochem242,84-89(1996)及Marguilies et al.,Nature437,376-380(2005)(更正于Nature441,120(2006))。

可逆终止密码子测序(reversible terminator sequencing)中，在单一碱基延伸反应里并入经荧光染料标记的核苷酸类似物(analog)，因为阻断基(blockinggroup)的存在，该核苷酸类似物是可逆的链终止密码子。根据荧光团(fluorophore)确认碱基，换句话说，每一个碱基与不同的荧光团配对。在获取荧光/序列信息后，化学性移除该荧光团及阻断基，重复此周期，以获取序列信息的下一个碱基。发光GA仪器(Illumina GA instrument)即以此方法操作。该技术及其应用详细讨论于如Ruparel et al.,Proc Natl Acad Sci USA102,5932-5937(2005)及Harris et al.,Science320,106-109(2008)。

连接测序(ligation sequencing)中使用连接酶使具有突出的部份双链的寡核苷酸与待测序的核酸连接，该核酸具有突出，为了使接合(ligation)发生，该二个突出必须互补。部分双链寡核苷酸的突出的碱基可根据连接至该部分双链寡核苷酸和/或连接至与该部分双链寡核苷酸的其它部分杂交的次级核苷酸之荧光团而确认。获取荧光信息后，该接合复合体(ligated complex)在结合位点的上游被切割，例如使用IIs型限制酶，如BbvI，其在距离其识别位点固定距离的位置(该识别位点包含于该部分双链寡核苷酸中)切割。该切割反应在紧邻先前突出的上游暴露出新的突出，并重复此过程。此技术及其应用详细讨论于如Brenner et al.,Nat Biotechnol18,630-634(2000)。在一些实施方案中，本发明方法采用连接测序，获得环状核酸分子的滚环扩增产物，及使用该滚环扩增产物作为模板，进行连接测序。

纳米孔测序(nanopore sequencing)中，单链核酸分子经孔穿过，例如使用电泳驱动力(electrophoretic driving force)，分析该单链核酸分子穿过孔时所获得的信息，推测序列。该信息可为离子电流信息，其中每一个碱基改变该电流，例如经由部分阻断通过孔的电流，使电流为不同、可区别的程度。

第三代测序中，使用表面涂覆具有多小洞(～50nm)的铝涂层之玻片，作为零模式波导(如Levene et al.,Science299,682-686(2003))。该铝表面经由聚磷酸化学，例如聚乙烯磷酸化学使DNA聚合酶附着而受到保护(如Karlach etal.,Proc Natl Acad Sci USA105,1176-1181(2008))。这导致DNA聚合酶分子优先附着于该铝涂层洞中暴露的二氧化硅(silica)。该设置使逐渐消失的波现象(wave phenomena)被用于减少荧光背景，允许使用较高浓度的荧光标记的dNTP。荧光团(fluorophore)附着于dNTP的末端磷酸，从而在并入dNTP时释放荧光，但是荧光团不附着于新并入的核苷酸，表示该复合体可立即进行另一周期的并入。通过该方法可检测该铝涂层洞中个别引物模板复合体的dNTP的并入(如Eid et al,Science323,133-138(2009))。

测序模板；获得的测序信息量

在一些实施方案中，序列信息直接获自环状核酸分子，亦即使用该环状核酸分子作为模板。作为模板的环状核酸分子可为环状配对互锁分子。在一些实施方案中，序列信息获得自产物核酸分子，其自身使用环状核酸分子作为模板而合成，即获得序列信息所使用的模板可为由环状核酸分子模板合成的产物核酸分子。在一些实施方案中，序列信息获自环状核酸分子模板及合成自环状核酸分子模板的产物核酸分子。

在一些实施方案中进行滚环扩增(rolling circle amplication)，包含使用环状核酸分子为模板，合成含有至少两个插入样本单元的产物核酸分子。在一些实施方案中，滚环扩增包括合成含有至少3、4、5、10、15、20、25、50或100个插入样本单元的产物核酸分子。使用滚环扩增以制造大量模板复制物在该技术领域中是周知的(如Blanco et al.,J Biol Chem264,8935-8940(1989)及Banér et al.,Nucleic Acids Res26,5073-5078(1998))。滚环扩增可为测序的一部分，其中该环状核酸分子为测序的模板，或合成作为测序模板的产物核酸分子。

不考虑模板，根据本发明方法获得的序列信息包括该核酸样本序列的至少两个重复序列，该至少两个重复序列在一些实施方案中包括该核酸样本序列中至少一个正向重复序列及该核酸样本序列中至少一个反向重复序列。在一些实施方案中，序列信息包括该核酸样本序列的至少3、4、5、10、15、20、25、50或100个重复序列。在一些实施方案中，序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个正向重复序列。在一些实施方案中，序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个反向重复序列。在一些实施方案中，序列信息包括该核酸样本序列的至少2、3、4、5、10、15、20、25、50或100个正向及反向重复序列。

计算分数

在一些实施方案中，本发明方法包括通过比较该插入物的序列与该插入物中的已知序列，计算该序列信息中至少两个插入物序列的分数。在一些实施方案中，当该插入物序列只有部分已知或不精确地已知，该核酸插入物的已知序列可包括不确定或未知的位置，例如通过使用多义密码子(ambiguitycode)或位置权重矩阵(position weight matrix)。

比较该插入物的序列与该插入物中的已知序列包括确认该序列信息中至少两个插入物的序列。确认该序列在一些实施方案中可以通过目视观察进行，即通过人用视觉扫描序列信息并发现其中的插入核酸序列，或通过计算机帮助比对的方法(如国际专利申请案公开号WO2009/017678)。在一些实施方案中，序列的确认可通过识别该序列的演算法扫描序列信息而进行，例如对序列信息中的多个位置进行重复或探索计算分数，确认对应最接近该核酸插入物中已知序列的局部极值(local extrema)。在一些实施方案中，对至少两个核酸插入物序列的鉴别可与计算分数同时进行，两种方法可使用相同分数。

在一些实施方案中，计算分数包括使用适当比对演算法进行比对，此方法在本领域中多数为已知且容易取得，例如BLAST、MEGABLAST、Smith-Waterman比对及Needlemen-Wunsch比对(如Altschul et al.,J Mol Biol215,403-410(1990))。适当的比对演算法包括容许间隔(gap)及不容许间隔的演算法。或者，在一些实施方案中，计算分数包括使用演算法分析序列，例如对序列运行位置权重矩阵(position weight matrix)并计算对应该序列的矩阵元件的总和。这样，可计算分数，如通过将该矩阵以逐步的方式用于序列读取来计算局部最大值的。

在一些实施方案中，该分数与该至少两个核酸插入序列对已知序列的接近程度呈正相关(例如精确匹配(match)的最大可能分数)。该正相关分数包括同一性百分比(percent identity)、位分数(bit scores)、及符合碱基计数(matchingbase count)，但不限于此。

在一些实施方案中，该分数与该至少两个核酸插入序列对已知序列的接近程度呈负相关(例如精确匹配的最小可能分数)。该负相关分数包括e值(e-value)、误配数(number of mismatches)、误配数及间隔(gap)、误配百分比(percent mismatched)、及误配/间隔百分比(percent mismatched/gapped)，但不限于此。

在一些实施方案中，以比率(rate)为基础计算分数。比率基础上计算的分数的可能范围不会作为待比较的序列长度的函数而改变。比率基础上计算的分数例如同一性百分比(percent identity)及误配/间隔百分比(percentmismatched/gapped)，但不限于此。

在一些实施方案中，以计数(count)为基础计算分数。计数基础上计算的分数的可能范围会作为待比较的序列长度的函数而改变。计数基础上计算的分数例如位分数(bit scores)、误配数(number of mismatches)、误配及间隔数(number of mismatches and gaps)及匹配碱基计数(matching base count)，但不限于此。

接受或拒绝核酸样本序列的重复序列；接受序列组

在一些实施方案中，本发明方法包括接受或拒绝该序列信息中核酸样本序列的重复序列，根据该核酸样本序列的重复序列上游及下游紧邻的插入物之一或两个序列分数来决定。因此在不同的实施例中，紧邻该核酸插入物的上游及下游两者的分数、其中之一的分数、或特定的其中之一的分数，用于决定是否接受或拒绝该序列信息中的核酸样本序列。

在一些实施方案中，当分数与该至少两个核酸插入物序列对已知序列的接近程度为正相关时，若分数大于、大于或等于阈值(threshold value)，则接受序列。适当阈值的选择与多重因素有关，包括使用分数的类型、测序方法的错误率、对时间及冗余(redundancy)的考量。

接受及拒绝该核酸样本序列的重复序列可由多种方式进行，从而使得使用至少一个接受的重复序列，不使用任何一个拒绝的重复序列，来确定该核酸样本序列。接受及拒绝重复序列可以与或可以不与汇编接受序列组以协调的方式进行。例如当接受的重复序列接受进入新的信息结构时，该接受的重复序列的序列可被复制，该信息结构变成接受序列组。或者，当被拒绝时，拒绝的重复序列可被删除或盖写(例如以”O”或”X”字母标示无信息或排除的信息)，在此情形时，一旦拒绝的序列被删除或盖写，原始信息结构就被修改，从而变成接受序列组。在这些实例中，接受及拒绝重复序列与汇编接受序列组以协同的方式进行。

在一些实施方案中，核酸样本序列的重复序列可因额外的因素被拒绝，例如长度偏离该核酸样本序列中其它重复序列的长度(如图7B)。例如，如果该核酸样本序列的重复序列的长度，偏离其它核酸样本序列的平均值或中间值长度的阈值范围(threshold extent)，或偏离接受序列组的预定版本的平均值或中间值长度的阈值范围(threshold extent)，其中该接受序列组包括如前述根据紧邻该核酸样本序列重复序列的上游及下游的插入物之一或两个序列的分数而接受的该核酸样本序列的重复序列，则该核酸样本序列的重复序列被拒绝，计算中间值长度或平均长度可以考虑或可以不考虑暂时移除可能拒绝的该核酸样本序列的重复序列。阈值范围(threshold extent)可以绝对长度表示，例如1、2、5、10、20或50个核苷酸，或以相对长度表示，例如1%、2%、5%、10%、20%或50%，或者以统计测量表示，例如标准差，如0.5、1、1.5、2、2.5、3、3.5、4或5个标准差。

或者，序列可被标记(flagged)为接受或拒绝，且在标记过程完成之后，接受的序列可被复制，形成新的信息结构，或者拒绝的序列可被删除或盖写，产生不同的接受序列组。

接受序列组可选自包括单一信息字符串(single data string)及多元件变异(multi-element variable)的形式，该单一信息字串包括该核酸样本序列的至少一个接受的重复序列及任何额外的连锁状态的接受重复序列，该多元件变异的每一元件表示该核酸样本或其次部分(subpart)序列中接受的重复序列。在一些实施方案中，该多元件变异选自一目录(list)、阵列(array)、散列(hash)及矩阵(matrix)。任何容许储存核酸样本序列至少一个接受的重复序列及随后确定核酸样本序列之信息结构形式皆适合使用。

在一些实施方案中，当接受序列组的形式不同于原始序列信息的形式(例如原始序列资料为字符串(string)形式，接受序列组为多元件信息结构形式，例如阵列)，在获得该原始序列信息之后及产生最终接受序列组之前，原始序列信息可剖析为包含重复序列、插入样本单元、或位于紧邻上游插入物及下游插入物的样本重复序列的组成元件，此剖析(parsing)步骤可发生在上述计算分数的步骤之前或之后。

确定该核酸样本序列；共有序列(consensus sequences)；置信水平(confidence levels)

在一些实施方案中，本发明包括确定核酸样本的序列。

确定核酸样本序列的模式可根据在接受序列组中核酸样本重复序列的数目有条件地选择。例如，当接受序列组仅包含一个接受的重复序列，核酸样本序列可确认为该接受的重复序列的序列。当接受序列组包含两个或至少三个接受的重复序列时，核酸样本序列可确认为该接受的重复序列之共有序列(如下所述)。当接受序列组包含至少三个接受重复序列时，对于共有序列如何确认有更多选择。

共有序列(consensus sequence)

共有序列由接受的重复序列比对而确定(如上述”计算分数”段落所述)，比对中在接受的重复序列具有相同碱基的位置上，共有序列也包含该碱基。在一些实施方案中，在比对中接受的重复序列不包含相同碱基的位置上，共有序列则包含适当的多义密码子(ambiguity code)(例如当接受的重复序列为A及G的位置上，以R表示)。在一些实施方案中，在比对中接受的重复序列不包含相同碱基的位置上，共同性序列则包含N或其它表示未知碱基的符号。在一些实施方案中，在比对中接受的重复序列不包含相同碱基的位置上，共有序列则包含在获取序列时产生更强或更有力的讯号接受的重复序列的碱基(例如，如果原始信息为荧光形式，根据发出的较亮荧光(在一些实施方案中，是在适当的正常化和/或标准化之后)的碱基位于共有序列中)。

当共有序列从包含至少三个接受的重复序列的接受序列组中确认时，在一些实施方案中，共有序列的每一个位置的碱基可经由多数决(majority vote)而确定；即，将存在于接受的重复序列一半以上的位置的碱基，置于共有序列对应的位置。当接受的重复序列在该位置上不一致从而对该位置无法得到多数决时，共有序列中该位置的碱基则以其它方式确定，例如可使用复数决(plurality vote)(即，将最常出现于接受的重复序列中一位置上的碱基，置于共有序列中对应的位置)，或可使用前述方法。

在一些实施方案中，当从包含至少三个接受重复序列的接受序列组确认共有序列时，该共有序列的每一个位置的碱基，在一些实施方案中，可根据该接受重复序列的位置上每一个碱基的频率而被确定。因此，该共有序列可以核酸样本每一个位置的每一个碱基可能性的概率表示。此表示可以位置权重矩阵(position weight matrix)形式表示。在一些实施方案中，位置权重矩阵的组成元件为在接受重复序列比对中每一个位置所观察到的每一个碱基的频率。

在一些实施方案中，位置权重矩阵的组成元件由接受重复序列比对中每一个位置所观察到的每一个碱基的频率来计算，其它因素也可以用于此计算，例如当获得序列中以较其它重复序列具有较强或较稳固的信号所获得的一些接受的重复序列时，接受的重复序列可给予较多权重(weight)，和/或其它重复序列给予较少权重。调整权重的程度可基于例如信号强度而定量确定，或者为固定的调整，例如以相对强信号获得的碱基，其权重可增加如50%或100%，和/或以相对弱讯号获得的碱基，其权重可减少如33%或50%。

在一些实施方案中，位置权重矩阵的组成元件为衍生自每一位置的每一碱基(可能如上述权重)转换频率(transformed frequencies)的值。频率可通过，例如对数化(logarithmically)或指数化(exponentiation)转换，在一些实施方案中，转换具有降低碱基权重(down weighting bases)和/或提高碱基权重(upweighting bases)的作用，其中被降低权重碱基鲜少在位置上观察到，和/或被提高权重的碱基则通常在位置上观察到。例如，如果T在N个接受重复序列的比对中一位置上出现M次，其中N>2且M<N/2，C出现其余次数(即N减M的次数)，则在一些实施方案中，这些频率的转换可导致在位置权重矩阵中T权重少于N/M(或对应的百分比)，和/或C权重大于(N－M)/N(或对应的百分比)。在一些实施方案中，选择转换方式从而使得仅仅最常观察到的碱基(或在频率相同情况下的多个碱基)权重提高。

置信水平(confidence levels)

在一些实施方案中，对于核酸样本序列中至少一个位置确定置信水平。置信水平可以数种方式表现，例如整体碱基判断精确值(overall base callaccuracy value)，以百分比或phred分数(phred score)，或错误率表示。在一些实施方案中，置信水平由位置上最常见的碱基频率来确认，或由非最常见碱基的组合频率而确认。在一些实施方案中，这些频率如上述被转换、提高权重和/或降低权重。

确定整体序列的置信水平；实时(real time)确定核酸样本的序列及置信水平和/或确定核酸样本的序列及置信水平至一希望的置信水平

在一些实施方案中，本发明方法包括确定整体序列的置信水平。整体序列的置信水平可以数种方式表现，例如为整体碱基判断精确值(overall basecall accuracy value)，以百分比或phred分数(phred score)表示；或错误率；或为序列中错误的预期数目。

个别位置的置信水平，如上段所述，可用于计算整体序列的置信水平。例如所有的置信水平可确定为核酸样本序列每一位置的置信水平的统计族群的算数平均值、几何平均值、中间值、或模式置信水平(modal confidentiallevel)。在一些实施方案中，核酸样本序列每一位置的置信水平的统计族群在计算整体序列的置信水平前经过处理，例如排除离群值(outlier)。

在一些实施方案中，本发明方法包含实时确定核酸样本序列及置信水平。这些实施例中，在测序步骤中获得的信息进行确定序列及置信水平并同时获取额外的序列信息，例如来自滚环扩增产物的额外重复序列。当获得该额外的序列信息时，被确定的序列及置信水平皆被更新。在一些实施方案中，实时过程持续到达到预先选择的置信水平为止。预先选择的置信水平可为，例如90%、95%、99%、99.5%、99.9%、99.95%或99.99%的碱基判断精确度。预先选择的置信水平可针对整体序列或序列中部分位置的序列，可选自例如50%、67%、75%、80%、85%、90%、95%、98%、99%、99.5%及99.9%的值。

多样本；组合(assembling)重叠群(contig)

在一些实施方案中，本发明方法包括使用至少一个相同来源、物种、或品系(strain)作为具有如下序列的核酸样本的其它样本，其中该序列与该核酸样本序列部分重叠，重复该方法的步骤，从而确定至少一个其它序列，并组合原始样本序列与该至少一个其它序列，形成一个重叠群。在一些实施方案中，本发明方法包括使用许多样本重复该方法的步骤，从而产生长度超过0.5、1、2、5、10或100kb的重叠群，或超过1、2、5、10、100或1,000Mb的重叠群。在一些实施方案中，该重叠群代表核酸分子的完整序列，或除了核酸分子中异染色质(heterochromatic)或抵抗(refractory)区域之外的完整序列，可为例如染色体、微染色体(minichromosome)、人工染色体、病毒基因组(viral genome)、或染色体外元件，但不限于此。重叠群的组合可使用该技术领域已知方法进行。

修饰的碱基

在一些实施方案中，核酸样本包括至少一个修饰碱基，例如5-甲基胞嘧啶(5-methylcytosine)、5-溴尿嘧啶(5-bromouracil)、尿嘧啶(uracil)、5,6-二氢尿嘧啶(5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7-甲基鸟嘌呤(7-methylguanine)、次黄嘌呤(hypoxanthine)、或黄嘌呤(xanthine)。尿嘧啶在DNA链中可为修饰碱基，核糖胸腺嘧啶在RNA链中可为修饰碱基。在一些实施方案中，双链核酸样本中至少一个修饰碱基以不同于其优选配对碱基的碱基配对特异性(base pairing specificity)进行配对。这出现于，例如当双链分子的一个碱基进行将该碱基由标准碱基转换成修饰碱基的反应(例如因为偶发的氧化作用，或暴露于诱变剂(mutagenizing agent)下，例如放射线或化学诱变原(mutagen))，且该修饰碱基具有不同的优选配对碱基时。

优选的配对碱基基于华生-克立克(Wason-Crick)碱基配对规则。例如腺嘌呤(adenine)的优选配对碱基为胸腺嘧啶(thymine)(或尿嘧啶(uracil))，反之亦然；胞嘧啶(cytosine)的优选配对碱基为鸟嘌呤(guanine)，反之亦然。修饰碱基的优选配对碱基在该技术领域中一般是周知的，或可基于位于类似前述标准碱基的氢键供体与受体的存在而预测。例如次黄嘌呤(hypoxanthine)在嘌呤环的6位上具有一氢键受体(双键氧)，类似鸟嘌呤，因此其优选的配对碱基为胞嘧啶，胞嘧啶在嘧啶环的6位上具有一氢键受体(胺基)。特别是次黄嘌呤可由腺嘌呤脱氨作用(deamination)而形成。由于DNA中的腺嘌呤正常应与胸腺嘧啶配对，该脱氨反应可导致次黄嘌呤-胸腺嘧啶配对，其中该修饰碱基次黄嘌呤不与其优选配对碱基配对。胞嘧啶也可经脱胺而形成尿嘧啶。就DNA而言，尿嘧啶视为修饰碱基，且如果其与鸟嘌呤配对(可由正常双链DNA中的胞嘧啶脱氨作用而造成)，则也是修饰碱基尿嘧啶未与其优选配对碱基配对的情形。

修饰碱基的检测；改变特定类型碱基的碱基配对特异性

在一些实施方案中，本发明的方法包括改变特定类型碱基的碱基配对特异性(base pairing specificity)。改变特定类型碱基的碱基配对特异性包括特异地改变未修饰版本碱基(例如胞嘧啶)的碱基配对特异性。此情形中，不改变至少一种修饰类型碱基(例如5-甲基胞嘧啶)的碱基配对特异性。

或者，改变特定类型碱基的碱基配对特异性可包括特异地改变修饰类型的碱基(例如5-甲基胞嘧啶)碱基配对特异性，但不改变未修饰类型碱基(例如胞嘧啶)。

在一些实施方案中，改变特定类型碱基的碱基配对特异性包括光化学转化(photochemical transition)，将5-甲基胞嘧啶(非未修饰的胞嘧啶)转换成胸腺嘧啶(如Matsumura et al.,Nucleic Acids Symp Ser No.51,233-234(2007))。该反应将进行光化学转化的碱基的碱基配对特异性由鸟嘌呤改变成腺嘌呤(鸟嘌呤与5-甲基胞嘧啶配对，腺嘌呤与胸腺嘧啶配对)。

在其它实施方案中，改变特定类型碱基的碱基配对特异性包括重亚硫酸转换(disulfite conversion)，将胞嘧啶(但非5-甲基胞嘧啶)转换成尿嘧啶(如Laird et al.,Proc Natl Acad Sci USA101,204-209(2004)及Zilberman et al.,Development134,3959-3965(2007))。此反应将进行重亚硫酸转换的碱基的碱基配对特异性由鸟嘌呤改变成腺嘌呤(鸟嘌呤与胞嘧啶配对，腺嘌呤与尿嘧啶配对)。

在另外的其它实施方案中，修饰碱基的检测可不需改变步骤，例如当该修饰碱基具有相对于该碱基未修饰类型的改变的碱基配对特异性的情况下。该碱基的实例可包括5-溴尿嘧啶、尿嘧啶、5,6-二氢尿嘧啶、核糖胸腺嘧啶(ribothymine)、7-甲基鸟嘌呤(7-methylguanine)、次黄嘌呤(hypoxanthine)、或黄嘌呤(xanthine)。如Brown,Genomes,2^ndEd.,John Wiley & Sons,Inc.,NewYORK,NY,2002,chapter14,“Mutation,Repair,and Recombination”讨论5-溴尿嘧啶倾向发生酮-烯醇互变现象(keto-enol tautomerization)，导致其与鸟嘌呤的配对相对于与腺嘌呤的配对增加，以及因腺嘌呤脱氨作用形成次黄嘌呤(次黄嘌呤优先与胞嘧啶配对，胜于胸腺嘧啶)。

区别碱基及其修饰型的核苷酸类似物(nucleotide analog)

在一些实施方案中，使用至少一个区别碱基及其修饰型的核苷酸类似物(“区别类似物”，优先与一碱基配对，但不与其它碱基及其修饰型配对)获得序列信息。核苷酸类似物可如其为4个标准碱基以外的第5个碱基而被使用及被检测，例如通过在可逆终止密码子测序或连接测序中使用差别(differential)的标记，或者将其用于焦磷酸测序中，其中核苷酸可一次加入一个然后清洗去除。在一些实施方案中，该区别的类似物在其对应的天然核苷酸加入之前加入(如在焦磷酸测序中)或以其同系(congate)天然核苷酸浓度之10-100倍以上的浓度范围(如在可逆终止密码子测序中)提供。例如区别的类似物可为脱氧鸟嘌呤三磷酸(deoxyguanosine triphosphate)类似物，其区分胞嘧啶及5-甲基胞嘧啶(例如其与胞嘧啶配对，但不与5-甲基胞嘧啶配对)。该类似物可以高于脱氧鸟嘌呤三磷酸浓度10-100倍范围的浓度提供。在此情形下，该类似物通常应会在其有其优先配对的碱基的相对位置并入，但是天然碱基通常并入该类似物非优选配对的碱基的相对位置。

区别类似物的实例可见于美国专利USP7,399,614，包括例如以下的分子，其可区别未修饰的胞嘧啶及5-甲基胞嘧啶，即优选与前者分子配对：

这些分子分别称为区别类似物1及区别类似物2。

确定核酸样本中修饰碱基的位置

在一些实施方案中，本发明方法包括确定核酸样本中修饰碱基的位置。这些实施方案包括(i)提供双链形式的核酸样本；(ii)使该核酸样本转换成环状配对互锁分子，其中该环状配对互锁分子包括核酸样本序列的正向及反向重复序列及具有已知序列的两个核酸插入物，该两个核酸插入物可为相同或不同；(iii)可选地改变在环状配对互锁分子中特定类型碱基的碱基配对特异性；(iv)然后，以该环状配对互锁分子的正向及反向重复序列或其互补序列为模板，获取序列资料；及(v)使用至少该正向及反向重复序列或其复制本的序列信息，确定该核酸样本中修饰碱基的位置。特别是，以正向重复序列为模板的序列具有该反向重复序列的相同意义(sense)(反之亦然)，但是与该反向重复序列不一定完全相同，差异可能是因为该正向重复序列包含与反向重复序列对应碱基以外的碱基配对的碱基。此情况的例子如，如果cPLM中的正向重复序列含有5-溴尿嘧啶，5-溴尿嘧啶与反向链中的腺嘌呤配对，但在合成测序反应(sequencing-by-synthesis)中却作为加入鸟嘌呤的模板。

获得的序列信息包括至少两个重复序列：样本的至少一个重复序列(例如图5A标记17的重复序列)及正向链新合成的互补体的重复序列(例如图6A标记21的重复序列)；及反向链新合成的互补体的至少一个重复序列(例如图6A标记19的重复序列)及该反向链的重复序列(例如图6A标记16的重复序列)。比对这些重复序列。可使用如上述讨论的任何适当演算法进行比对。这些重复序列之间彼此有不一致的位置(例如第6B图标记41的位置)，表示在该核酸样本中该位置上的碱基，进行过碱基配对特异性的改变。根据存在于样本中或过程中使用的修饰类型、修饰碱基、和/或区分类似物，可确定原始存在于该核酸样本对应位置的碱基。

例如，该环状配对互锁分子经^mC转换为T的改变时(如图5A)，”不一致”表示在一个读取(read)中，^mC位于核酸样本中T或互补于A的位置，在另一个读取中，^mC位于核酸样本中C或互补于G的位置，其逻辑为，在序列不一致的位置，转换反应的产物，碱基T，取代了转换反应的底物，即存在于核酸样本中的^mC。

在另一实施方案中，当环状配对互锁分子经C转换为U的改变时，”不一致”表示在一个读取中，C位于核酸样本中U或T的位置、或互补于A的位置，在另一个读取中，C位于C或互补于G的位置，其逻辑为，序列不一致的位置，转换反应的产物，碱基U(测序系统可读为T)，取代了转换反应的底物，即存在于核酸样本中的C。因为^mC残基不会由于C转换成U而改变，读取中一致显示C的位置和/或G为其互补物的位置，表示^mC存在于该原始样本中的该位置。

在使用如上讨论的区别类似物的实施例中，可推论出区别类似物优先结合的碱基位于原始序列中对应该区别类似物出现的位置。

系统/计算机可读取媒体

在一些实施方案中，本发明涉及一个系统，其包括测序装置，操作连接于包含处理器、储存装置、汇流排系统(bus system)、及至少一个使用者界面元件的计算装置。使用者界面元件可选自显示器、键盘、及鼠标。在一些实施方案中，该系统包括至少一个集成电路和/或至少一个半导体。

在一些实施方案中，测序装置选自安装了进行至少一个上述讨论的测序方法的测序装置。

在一些实施方案中，该显示器可为触控萤幕，作为单独使用者界面元件(sole user interface element)。储存装置由包含操作系统、使用者界面软件、及操作指示的程序编码，该操作指示当由系统处理器执行时，进行前述本发明的方法，该系统包含测序装置，可操作连接于包含处理器、储存装置、汇流排系统、及至少一个使用者界面元件的计算装置。在一些实施方案中，储存装置进一步包括序列信息，序列信息可为如前讨论之任何形式，例如原始序列资料、接受序列组、共有序列、或类似形式。

在一些实施方案中，储存装置及其所有内容位于同一计算机中。在其它实施例中，储存装置分为至少两台计算机，例如经由网络连结的计算机。在一些实施方案中，使用者界面为计算机的一部分，该计算机与至少一台其它计算机通讯，该计算机包括系统中的至少一个组成部分，例如处理软件。

在一些实施方案中，系统输出或由处理器执行的方法的结果是核酸样本中至少一个位置上有修饰碱基的表示。该表示可为任何形式，例如序列中修饰位置的列表、序列的文本或图画表示，其中修饰位置被加亮或标记，例如以星号或类似符号、或粗体、斜体、或下划线格式、彩色文字、或描绘包含修饰碱基结构的核酸的化学结构。

实施例

下述的实施例应解释为仅仅是说明，并不以任何形式限制本公开的剩余部分。即使没有进一步的阐述，相信该技术领域技术人士基于本文的说明，可利用本发明达到本发明最充分的程度。

实施例1：合成环状配对互锁分子的滚环扩增

提供如表1的四个寡脱氧核糖核苷酸。

表1寡核苷酸序列

分别在50μL反应中进行CPLM-1及CPLM-2磷酸化，该反应在5μL的10X T4连接酶缓冲液(NEB;含10mM ATP的10X储存缓冲液)存在下，以1μL的10U/μL的T4多核苷酸激酶(New England Biolabs(“NEB”)Cat.No.M0201S)处理30μL的10μM寡去氧核苷酸(终浓度)。加入14μL的ddH₂O，获得终体积50μL(如表2)。反应在37℃下培养30分钟，之后在65℃下、对酶进行20分钟的去活。

表2磷酸化反应条件(体积以μL为单元)

试剂	5'P-CPLM-1	5'P-CPLM-2
			10uM CPLM-1	30	0
10uM CPLM-2	0	30
			10u/uL T4PNK	1	1
10X T4连接酶缓冲液	5	5
			ddH₂O	14	14
总体积	50	50

将上述反应所得的磷酸化CPLM-1及CPLM-2(分别为5’P-CPLM-1及5’P-CPLM-2)浓度调为6μM。

纯化的磷酸化CPLM-1及CPLM-2在95℃下变性5分钟(denatured)，之后放置在冰上，并与缓冲液、ddH₂O、及T4连接酶(NEB,Cat.No.M0202S)混合反应，形成环状配对互锁分子，如表3所示。连接作用(ligation)发生在25℃，于10、30、60分钟取出18μL的等分试样(aliquots)。同时对无连接酶的负对照组进行反应(表3的L0栏)。

表3连接反应条件

试剂	L0	L3
			6uM5'P-CPLM-1	9	9
6uM5'P-CPLM-2	9	9
			400u/uL T4连接酶	0	3
10X缓冲液	6	6
			ddH₂O	36	33
总体积	60	60

连接反应的产物与pS-T1和/或pS-T2引物、dNTPs、RepliPHI^TMPhi29DNA聚合酶(Epicentre,Cat.No.PP031010)、及适当的10X聚合酶缓冲液合并，如表4所示。

表4环状配对互锁分子的滚环扩增

反应在无Phi29聚合酶下组合，于95℃变性5分钟，置于冰上5分钟后，加入Phi29聚合酶。于30℃培养18小时。

将反应产物样本5μL与1μL6X上样染料(loading dye)(0.03%溴酚蓝、0.03%二甲苯蓝(xylene cyanol)FF、60%甘油、100mM Tris-EDTA(pH7.6))混合，在95℃下加热10分钟，然后立刻放到冰上。第二组反应产物样本以相同方式处理，但是加入1%SDS。

将样本上样至在1X TAE缓冲液中的0.7%琼脂(agarose)胶，在135V下电泳28分钟。使用GelRed^TM预染胶(Biotium,Cat.No.:41003GelRed^TM核酸胶染色，10,000X于水中稀释)使DNA可见。该胶如图9所示。从使用L3连接反应产物及pS-T1及pS-T2引物的反应样本，观察到滚环放大产物的分子量明显大于10kb，但是在L0对照组或未添加引物的样本则未观察到。使用L3连接反应产物及pS-T1及pS-T2引物的样本以SDS处理，显示较多产物滞留孔(well)中，与RCA产物中次级结构的变性相符。

实施例2：模拟使用重亚硫酸(bisulfite)处理线状配对互锁分子使C转换成U的甲基化检测

以重亚硫酸处理使C转换成U，确定假设的双链DNA片段的序列及5-甲基胞嘧啶位置，其模拟如下述。此实施例的大致流程图如第12图所示。DNA序列如下所示。

DNA样本(甲基化C以^mC标记)

5'-AGATGTGGAmCGGGGTGGGmCGGAGGTGGGTTGGGGC-3'(序列识别号：5)

|||||||||/||||||||/||||||||||||||||

3'-TCTACACCTGmCCCCACCCGmCCTCCACCCAACCCCG-5'(序列识别号:6)

此两链经连接作用连接至联结子序列(linker sequence)(以”nnnn”表示)，形成下述产物。联结子序列适合于用作测序引物。

3'-TCTACACCTG^mCCCCACCCG^mCCTCCACCCAACCCCGnnnnCGGGGTTGGGTGGAGG^mCGGGTGGGG^mCAGGTGTAGA-5'(序列识别号：7)

而且，已知序列(未显示)的线状垂悬(linear flap)附于序列识别号：7的分子两端。3’末端的垂悬(flap)适合引物结合，进行测序或复制。5’端的垂悬(flap)的互补适合引物结合，进行测序或复制。

产物以重亚硫酸钠(sodium bisulfite)处理，造成胞嘧啶(但非5-甲基胞嘧啶)残基转换成尿嘧啶，产生下列产物。新形成的尿嘧啶残基以粗体及碱基上的星号标示。

* *** ****** ****** **** *

3'-TUTAUAUUTGmCUUUAUUUGmCUTUUAUUUAAUUUUGnnnnUGGGGTTGGGTGGAGGmCGGGTGGGGmCAGGTGTAGA-5'(序列识别号：8)

互补链(序列识别号：9)的合成经粘合(anneal)引物至3’端的垂悬(flap)进行DNA复制而成。

3'-TUTAUAUUTGCUUUAUUUGCUTUUAUUUAAUUUUGnnnnUGGGGTTGGGTGGAGGCGGGT

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

5'-AAATATAAACGAAATAAACGAAAATAAATTAAAACnnnnACCCCAACCCACCTCCGCCCA

GGGGCAGGTGTAGA-5'(序列识别号：8)

||||||||||||||

CCCCGTCCACATCT-3'(序列识别号：9)

上述双链的两方向皆被测序，测序的中间物如下列所示。由反应a所获得的新合成链为序列识别号：10，由反应b所获得的新合成链为序列识别号：11。

测序反应a

5'-AAATATAAACGAAATAAACGAAAATAAATTAAAACnnnnACCCCAACCCACCTCCGCCCA

|||||||||||||||||||||||||

3'-nnnnTGGGGTTGGGTGGAGGCGGGT

CCCCGTCCACATCT-3'(序列识别号：9)

||||||||||||||

GGGGCAGGTGTAGA-5'(序列识别号：10)

测序反应b

5'-AAATATAAACGAAATAAACGAAAATAAATTAAAACnnnn-3'(序列识别号：11)

|||||||||||||||||||||||||||||||||||||||

3'-TUTAUAUUTGCUUUAUUUGCUTUUAUUUAAUUUUGnnnnUGGGGTTGGGTGGAGGCGGGT

GGGGCAGGTGTAGA-5'(序列识别号：8)

因此，预期获自这些反应的读取(read)包括以下序列。

a:5'-AGATGTGGACGGGGTGGGCGGAGGTGGGTTGGGGTnnnn-3'(序列识别号：10)

b:5'-AAATATAAACGAAATAAACGAAAATAAATTAAAACnnnn-3'(序列识别号：11)

原始样本序列，包括胞嘧啶甲基化状态，由实施以下规则而确定，整理如表5。原始序列的正向链是具有与该二个读取相同意义(sense)的链。

在读取a及读取b皆是A的位置上，原始序列的正向链也是A，反向链是T。在读取a及读取b皆是T的位置上，原始序列的正向链是T，反向链是A。

在读取a及读取b皆是C的位置上，原始序列的正向链是^mC，反向链是G。在读取a及读取b皆是G的位置上，原始序列的正向链是G，反向链是^mC。

当一个读取中是G的位置上，另一个读取是A时，原始序列的正向链是G，反向链是C。

当一个读取中是T的位置上，另一个读取是C时，原始序列的正向链是C，反向链是G。

根据哪个读取在读取不相同的位置含有G及T残基，将读取a及b匹配于表5的栏1及栏2，在此实施例中，读取a对应栏1。

表5：重亚硫酸处理甲基化状态确定规则

将上述规则应用于序列识别号：10及11，导致原始序列的恢复(在连接序列nnnn移除之后)，即序列识别号：5及6。原始序列正向链与读取a及b的比对如图10A所示。

实施例3:模拟使用光化学转化(photochemical transition)线状配对互锁分子使mC转换成T的甲基化检测

通过光化学转化使^mC转换成T，如下述模拟假设的双链DNA片段的序列及5-甲基胞嘧啶位置的确定。此实施例的大致流程图如图13所示。DNA序列如下所示。

DNA样本(甲基化C以^mC标记)

5'-AGATGTGGAmCGGGGTGGGmCGGAGGTGGGTTGGGGC-3'(序列识别号：5)

|||||||||/||||||||/||||||||||||||||

3'-TCTACACCTGmCCCCACCCGmCCTCCACCCAACCCCG-5'(序列识别号:6)

此双链经连接作用连接至联结子序列(linker sequence)(以”nnnn”表示)，形成下述产物。联结子序列适合于作为测序引物。线状垂悬(linear flap)(未显示)也附于此分子的3’及5’端。

以光处理该产物，从而使5-甲基胞嘧啶(但非胞嘧啶)残基光化学转换成胸腺嘧啶，产生下列产物。新形成的胸腺嘧啶残基以粗体及碱基上下的星号标示。

* **

3'-TCTACACCTGTCCCACCCGTCTCCACCCAACCCCGnnnnCGGGGTTGGGTGGAGGTGGGTGGGGTAGGTGTAGA-5'(序列识别号：12)

*

互补链(序列识别号：13)的合成经使用引物结合至3’端的垂悬(flap)，进行DNA复制而成。

3'-TCTACACCTGTCCCACCCGTCTCCACCCAACCCCGnnnnCGGGGTTGGGTGGAGGTGGG||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||

5'-AGATGTGGACAGGGTGGGCAGAGGTGGGTTGGGGCnnnnGCCCCAACCCACCTCCACCC

T GGGGTAGGTGTAGA-5'(序列识别号：12)

||||||||||||||||

ACCCCATCCACATCT-3'(序列识别号：13)

上述双链两方向皆如上述实施例2测序，获得以下的读取(read)。

读取a:5'-AGATGTGGATGGGGTGGGTGGAGGTGGGTTGGGGC-3'(序列识别号：14)

读取b:5'-AGATGTGGACAGGGTGGGCAGAGGTGGGTTGGGGC-3'(序列识别号：15)

原始样本序列，包括胞嘧啶甲基化状态，由实施以下规则而确定，整理如表6所示。原始序列的正向链具有与该两个读取相同的意义(sense)。

在读取a及读取b皆是C的位置上，原始序列的正向链是C，反向链是G。在读取a及读取b皆是G的位置上，原始序列的正向链是G，反向链是C。

当一个读取中是G的位置上，另一读取是A时，原始序列的正向链是G，反向链是^mC。

当一个读取中是T的位置上，另一读取是C时，原始序列的正向链是^mC，反向链是G。

根据哪个读取中在读取不相同的位置上含有G及T残基，将读取a及b匹配于表6的栏1及栏2，在此实施例中，读取a对应栏1。

表6：光化学转化甲基化状态确定规则

将上述规则应用于序列识别号：14及15，导致原始序列的恢复(在连接序列nnnn移除之后)，即序列识别号：5及6。具有原始序列正向链读取a及b的比对如图10B所示。

a=>5'-AGATGTGGATGGGGTGGGTGGAGGTGGGTTGGGGC-3'(序列识别号：14)

b=>5'-AGATGTGGACAGGGTGGGCAGAGGTGGGTTGGGGC-3'(序列识别号：15)

r=>5'-AGATGTGGA^mCGGGGTGGG^mCGGAGGTGGGTTGGGGC-3'(r_a)(序列识别号：5)

3'-TCTACACCTG^mCCCCACCCG^mCCTCCACCCAACCCCG-5'(r_b)(序列识别号：6)

实施例4：比较模拟的单一读取及多重读取测序的精确度

从GenBank下载组合的大肠杆菌基因组(Escherichia coli genome)序列，基因编号GenBank accession No.U00096，长度4,639,675bp。任意选择500bp至2000bp长度范围片段，从中提取序列。这些片段称为主要序列(mastersequence)。

通过使用计算机以预定的速率导入缺失及错误阅读错误(misreadingerrors)，由主要序列产生5个次序列(subsequence)，如图7所示。

包含错误的该5个次序列，使用CLUSTALW演算法(缺省设定)进行多重序列比较分析。CLUSTALW分析结果作为EMBOSS包的程序”cons”的输入，以获得共有序列。程序”cons”描述于Rice et al.,Trends Genet16,276-277(2000),and Mullan et al.,Brief Bioinform3,92-94(2002)。

第1个次序列及共有序列分别与主要序列比对，将间隔(gap)及错误读取(misread)的频率制成表格，如表7所示。结果显示在各种测试的错误率下，使用多重读取形成共有序列，会减少错误读取及间隔的频率。对于每一组的缺少及错误读取的错误率，将单一模拟读取及由5个模拟读取决定的共有序列与主要序列比对。确定错误读取及间隔位置的数目及百分比，以总比对位置数的分数表示。

表7在不同错误率下，比较由5个模拟读取确定的共有序列与个别读取的精确度

实施例5使用cPLM模拟序列的确定

双链核酸样本如实施例2所提供。样本的正向链及反向链通过一个插入物的连接而锁在一起，于分子的两端形成一U字状，如图14的cPLM构建步骤所示，形成环状配对互锁分子。使用结合于插入物的引物，通过合成反应进行单一分子测序。获得包含该样本正向链的至少一个序列及该样本反向链的至少一个序列的序列信息。根据表8，通过比较该环状配对互锁分子的正向及反向链的序列，进行序列分析，以确定核酸样本序列。

表8cPLM序列确定规则

注意：表8及下述的表9至表11，以正向链为模板获取的序列分别对应于图14-17中上排的测序信息(即显示于标记”测序”箭头的下方、及标记”测序分析”箭头上方的序列)。同样地，以反向链为模板获取的序列分别对应于图14-17中下排的测序信息。

实施例6：模拟使用重亚硫酸(bisulfite)处理环状配对互锁分子使C转换成U甲基化的检测

该实施例的大致流程图如图15所示。如实施例2提供包含至少一个5-甲基胞嘧啶的双链核酸样本。环状配对互锁分子的形成如实施例5。重亚硫酸转换的进行如实施例2。序列信息的获取如实施例5所示。序列资料的分析，根据表9的规则，通过比较该环状配对互锁分子的正向链及反向链的序列，确定该核酸样本的序列及该至少一个5-甲基胞嘧啶的位置来进行。

表9cPLM/重亚硫酸处理序列确定规则

实施例7:模拟使用光化学转化(photochemical transition)环状配对互锁分子使mC转换成T甲基化的检测

此实施例的大致流程图如图16所示。包含至少一个5-甲基胞嘧啶的双链核酸样本的提供如实施例3。环状配对互锁分子的形成如实施例5。光化学转化的进行如实施例3。序列信息的获取如实施例5所示。序列资料的分析，根据表10的规则，通过比较该环状配对互锁分子的正向链及反向链的序列，确定该核酸样本的序列及该至少一个5-甲基胞嘧啶的位置来进行。

表10cPLM/光化学转化序列确定规则

实施例8：模拟使用环状配对互锁分子检测5-溴尿嘧啶

此实施例的大致流程图如图17所示。提供包含至少一个5-溴尿嘧啶的双链核酸样本。环状配对互锁分子的形成如实施例5。序列信息的获取如实施例5所示。序列资料的分析，根据表11的规则，通过比较该环状配对互锁分子的正向链及反向链的序列，确定该核酸样本的序列及该至少一个5-溴尿嘧啶的位置来进行。

表11cPLM/5-溴尿嘧啶序列确定规则

基于本说明书中引用的参考资料的教导，本说明书已可充分了解。本说明书中实施方案提供本发明实施方案的说明，不应解释为对本发明范围的限制。本领域技术人员容易了解本发明包含了许多其它实施方案。本公开中引用的所有公开文献及专利全文并入作为参考。对于参考文献中使用的材料与本说明书有矛盾或不一致的范围，本说明书将优先于任何这些材料适用。本文中对任何参考文献的引用并非同意这些参考文献为本发明的现有技术。

除非另行说明，本说明书中，包括权利要求中，所有表现使用的成分、反应条件或类似物质数量的数字，应理解为在任何情况下皆以”约”修饰。因此，除非另行说明，数量参数为近似值，可根据本发明寻求获得的所期望的性质而改变。至少，并非意图将等同原理(doctrine of equivalent)的应用限定于权利要求的范围，每一个数量参数应基于有效数字及通常的数字舍入(rounding)方法来加以解释。在本说明书中列举一系列具有不同位数有效数字的数值，不应解释为暗示给出较少有效数字的数值与给出较多有效数字的数值具有相同的准确度。

“一个”或”一种”当与”包括”(包含)并用于权利要求和/或说明书中时，可表示为”一个”，但亦可表示为”一个或以上”、”至少一个”、及”一个或一个以上”。权利要求中使用”或”表示为”和/或”，除非有明确表示其仅指”两者择一”或”两者相互排除”，然而本公开支持仅指”两者择一”及”和/或”的定义。

除非另行定义，在一系列元件之前使用的”至少”应解释为表示系列中的每一元件。本领域技术人员仅仅使用常规试验，将了解或可以确定许多本文描述的特定实施方式的等价方法。这些等价方法包含于下述的权利要求中。

除非另行定义，本文中所有技术及科学名词具有与本领域一般技术人员通常理解的相同含义。虽然类似或等同于本文所述的任何方法及材料可用于实施及测试本发明，但优选的方法及材料已描述如前。

本文讨论的公开文献仅因其公开早于本案申请日而提供。本文中并无任何可以解释为认同本发明无权根据发明在先而声称先于上述公开文献之处。而且，本文提供的公开文献的日期可能与真实的公开日期不同，其可能需要单独确定。

对于本领域技术人员，考虑到本说明书及本文公开发明的实施，本发明其它的实施方式将是显而易见的。本说明书及实施例仅意欲视为示例性的，本发明的真正范围及精神将表示于后述的权利要求中。

【附图简单说明】

本发明前述各方面及优点可因下述对附图的详细说明而变得显而易见，其中：

图1根据本发明的一些实施方式制造环状DNA分子。

DNA样本1被切成片段，片段2的5’端(菱形状)连接至联结子(linker)3，片段2的3’端(箭头状)连接至另一个联结子4。该联结子3及4互补于相邻的寡核苷酸5的片段。粘合5至3及4提供了一个底物供连接(ligation)以进行环化，该反应产生环状分子6，该环状分子6包含核酸插入物(来自联结子3及4的序列)及核酸样本(来自片段2的序列)。

图2滚环扩增(rolling circle amplification)。

寡核苷酸5粘合(anneal)至如图1所产生的环状分子6，由固定于表面8的聚合酶7结合。该寡核苷酸的延伸形成该环状分子的互补链状复制物9。继续延伸导致链替代(strand displacement)及含有该环状分子数个复制物的分子10的合成。

图3环状配对互锁分子(circular pair-locked molecule)。

(A)包含正向链11及反向链12的双链分子可与形成发卡结构(hairpin)13及14(可相同或相异)的插入物组合，形成环状配对互锁分子(pair lockedmolecule)。在一些实施方案中，该联结子(linker)具有突出(overhang)及嵌入(recessed)端(37及38)。其可使用聚合酶填补或为互补于该双链分子的突出(未显示)。在完整的环状配对互锁分子中，填入37及38并封住，从而使得该分子具有连续的单链及环状骨架。(B)在适当的间隔(gap)填补及端连结之后，形成包含正向链11、联结子14、反向链12、及联结子13的环状DNA，这里以解链形式(melted form)显示。该分子可转换成双链形式，例如通过使引物粘合(anneal)至该联结子其中之一，使用不具有链替代活性(stranddisplacement)的聚合酶延伸，例如E.coli DNA聚合酶I，之后连接(ligation)。

图4使用环状配对互锁分子(pair-locked molecule)确定序列及序列与甲基化概貌(methylation profile)的流程图。

(左流程图)一个环状配对互锁分子可被测序至少一个分子的全长，以提供互补序列的读取；可使用继续测序来提供冗余的序列读取。基于该插入核酸的序列，可比对及评估该序列信息，从而获取该样本核酸的精确序列。(右流程图)特定形式核苷酸的转换，例如经由重亚硫酸转换(disulfideconversion)或光化学转化(photochemical transition)，之后进行测序、比对、及比较该修饰序列及其未修饰的互补物，可用以获取精确的序列信息及甲基化概貌。包含该样本核酸序列数个重复序列的延伸序列的读取可用以增加精确性。

图5核苷酸转换。

(A)对包含插入物13及14、包含至少一5-甲基胞嘧啶(^mC)残基的正向链15、及反向链16的环状配对互锁分子进行处理，例如光化学转化，使^mC转换为T，形成转换的正向链17。该反向链中的互补核苷酸不受影响，形成G-T摆动配对(wobble pair)(如果^mC残基存在于反向链中的，将会因该处理而被转换)。(B)对包含插入物13及14、含有至少一5-甲基胞嘧啶(^mC)残基的正向链15、及反向链16的环状配对互锁分子进行处理，例如重亚硫酸转换，使C(但非^mC)转换为U，形成转换的正向链39及转换的反向链40。互补于该转换的核苷酸的核苷酸不受影响，形成G-U摆动配对。

图6从环状配对互锁分子获取序列信息及甲基化概貌。

(A)将引物18粘合(anneal)至图5A的转换的环状配对互锁分子，用聚合酶延伸，合成一个链，其具有片段19、20、及21，分别互补于序列16、14、及17。(B)获得的序列包含至少两个重复序列：至少一个样本17的重复序列，及正向链21新合成互补的一个重复序列；及反向链19之新合成的互补至少一个重复序列，及反向链16的一个重复序列。比对这些重复序列，这些重复序列中在第41位上不一致，显示在该位置上的碱基经过修饰。根据使用的修饰形式，可确定原始存在该核酸样本的对应位置的碱基。在此实例中，在该环状配对互锁分子通过^mC转换成T而被修饰(如图5A)的位置上，其不一致表示^mC位于核酸样本中正向链的第41位；其逻辑为，在序列不一致的位置上，转换反应的产物碱基T，取代存在于该核酸样本中的转换反应的底物^mC。

图7获取自环状核酸分子模板(template)的原始序列信息及处理过的序列信息。

(A)可由环状模板获得的序列内容如图所示。核酸样本序列以虚线表示，核酸插入序列以圆圈表示。图中的序列从核酸样本的部分序列22开始，接着为核酸插入物23序列；之后依序为该核酸样本序列24、核酸插入物序列25、核酸样本序列26、核酸插入物序列27。28表示未显示在此图中的额外的序列，其后为核酸插入物序列29、核酸样本序列30、核酸插入物序列31、及核酸样本部分序列32。

如果该环状模板包含单一核酸样本及单一核酸插入物，则22及24，以及之后的核酸样本序列26、30及32，皆是同一个单一核酸样本序列，类似的，在此情况下，23、25、27、29、31也会是同一个单一核酸插入物的序列。如果该环状模板包含该核酸样本序列的正向及反向的重复序列及可为相同或相异的两个具已知序列的核酸插入物，正如环状配对互锁分子的情况，则该核酸样本序列具有交替的方向(orientation)且以交替的形式对应与该二个核酸样本重复序列(例如22可为正向，表示其为反向的重复序列，24可为反向，表示其为正向的重复序列，或者反之亦然)。类似的，该核酸插入物序列23、25等序列也应同样地对应以交替的形式环状模板的两个可为相同或不同的核酸插入物。

(B)图7A中显示的序列可分解成片段，每一片段包含该核酸样本序列的重复序列，例如24；该片段也包含该核酸插入物的至少一个重复序列，例如该核酸插入物的两个重复序列，例如23及25。一些片段可仅包含部分序列，例如33，或非常长的序列，如34。这些片段可来自测序过程中的错误。在一些实施方案中，这些片段被排除不做进一步考虑。

图8序列处理步骤的流程图。

在一些实施方案中，如图所示，原始序列信息被检查、处理、及接受或拒绝。

图9滚环扩增的产物。

实施例1所述反应之产物经电泳并于胶上可视化。由左边看来，C1及C2为负对照泳道。最左边的Mr道包含FERMENTAS GENERULER1k ladder(Cat.No.SM0311)，其片段长度范围是250至10,000bp。接下来的10道包含如图上所列的滚环扩增的反应产物，该产物来自使用两个引物或一个引物(扩增控制组)及L0产物(连接反应的负对照组)或L3反应，连接反应在表示的时间发生；见实施例1。接下来的Mr道包含FERMENTAS GENERULER100bp ladder(Cat.No.SM0321)，片段长度范围是100至3,000bp。接下来的10道包含与前面10道相同的产物，但这些产物与含有1%SDS的上样染料混合。

图10显示模拟核酸样本的重复序列及推导的原始序列的比对。

所有比对的序列皆一致的位置以星号标记。(A)实施例2的读取a及b与核酸样本正向链推导的原始序列(标记为”o”)一起显示。原始序列是使用表5的规则推导的。这三个序列显示C的位置是该模拟核酸样本的正向链中甲基化胞嘧啶的位置。这三个序列显示G的位置是该模拟核酸样本的反向链中甲基化胞嘧啶的位置。(B)实施例3的读取a及b与正向链推导的原始序列(标记为”r_a”)一起显示。原始序列是使用表6的规则推导的。推导的原始序列中具有与读取a不一致的C位置，是该模拟核酸样本的正向链中甲基化胞嘧啶的位置。推导的原始序列中具有与读取b不一致的G位置，是该模拟核酸样本的反向链中甲基化胞嘧啶的位置。

图11计算装置及储存装置。

(A)在一些实施方案中，本发明涉及测序装置51，其可操作连接于计算装置52，该计算装置52包含至少一个使用者界面元件，选自显示器57、键盘58及鼠标59，及至少一个计算机53，该计算机53包含储存装置54(见图11B)、汇流排系统(bus system)55及处理器56。(B)在一些实施方案中，本发明涉及储存装置54，其包含操作系统60、使用者界面软件61、及处理软件62。储存装置可额外包含获取自测序装置的序列信息63(图11A的51)。

图12是使用重亚硫酸转换线状配对互锁分子(lnear pair locked molecule)确定序列及5-甲基胞嘧啶位置的一般流程图。

提供包含5-甲基胞嘧啶的双链核酸样本(顶图)。通过连接(ligate)发卡结构(hairpin)插入物至该分子的一个双链末端，构建线状配对互锁分子(第1个箭头下方，右侧)，从而使该双链分子的正向链与反向链双链锁在一起。而且，线状垂悬(linear flap)与该双链的另一股端连接(第1个箭头下方，左侧)。进行重亚硫酸转换，将胞嘧啶(cytosine)转换成尿嘧啶(uracil)，但是不影响5-甲基胞嘧啶。通过提供结合至该线状垂悬的引物，其中该线状垂悬结合于该线状配对互锁分子的3’末端，以聚合酶延伸该引物，来复制该分子。该末端可经过处理，例如以限制酶消化，以制备随后进行克隆(cloning)和/或测序的分子。

图13是使用光化学转化(photochemical transition)线状连结分子以确定序列及5-甲基胞嘧啶位置的一般流程图。

提供包含5-甲基胞嘧啶双链核酸样本(顶图)。通过连接发卡结构插入物至该分子的一个双链末端，构建线状配对互锁分子(第1个箭头下方，右侧)，从而使该双链样本的正向链与反向链双链锁在一起。而且，线状垂悬(linearflap)附于另一个双链末端(第1个箭头下方，左侧)。进行光化学转化，将5-甲基胞嘧啶转换成胸腺嘧啶(thymine)，但是不影响未修饰的胞嘧啶(cyosine)。通过提供结合至该线状垂悬的引物，其中该线状垂悬结合于该线状配对互锁分子的3’端，以聚合酶延伸该引物，来复制该分子。该末端可进行处理，例如以限制酶消化，以制备随后进行克隆(cloning)和/或测序的分子。

图14是使用环状配对互锁分子确定序列的一般流程图。

提供双链核酸样本(顶图)。通过连接发卡结构插入物至该分子的两个双链末端，构建环状配对互锁分子(第1个箭头下方，右侧及左侧)，从而使该双链样本的正向链与反向链双链锁在一起。进行测序，分析序列信息以确定该样本序列，例如实施例5。

图15是使用重亚硫酸转换及环状配对互锁分子确定序列及5-甲基胞嘧啶位置的一般流程图。

提供包含5-甲基胞嘧啶的双链核酸样本(顶图)。通过连接发卡结构插入物至该分子的两个双链末端，构建环状配对互锁分子(第1个箭头下方，右侧及左侧)，从而使该双链样本的正向链与反向链双链锁在一起。进行重亚硫酸转换，将胞嘧啶转换成尿嘧啶，但是不影响5-甲基胞嘧啶。进行测序，分析序列信息以确定该样本序列及5-甲基胞嘧啶的位置，例如实施例6。

图16是使用光化学转化(photochemical transition)及环状双链联结分子确定序列及5-甲基胞嘧啶位置的一般流程图。

提供包含5-甲基胞嘧啶的双链核酸样本(顶图)。通过连接发卡结构插入物至该分子的两个双链末端，构建环状配对互锁分子(第1个箭头下方，右侧及左侧)，从而使该双链样本的正向链与反向链双链锁在一起。进行光化学转化，将5-甲基胞嘧啶转换成胸腺嘧啶，但是不影响未修饰的胞嘧啶。进行测序，分析序列信息以确定该样本序列及5-甲基胞嘧啶的位置，例如实施例7。

图17是使用环状配对互锁分子确定序列及5-溴尿嘧啶(5-bromouracil)位置的一般流程图。

提供包含5-溴尿嘧啶之双链核酸样本(顶图)。通过连接发卡结构插入物至该分子的两个双链末端，构筑一环状配对互锁分子(第1个箭头下方，右侧及左侧)，从而使该双链样本的正向链与反向链双链锁在一起。进行测序，分析序列信息以确定该样本序列及5-溴尿嘧啶的位置，例如实施例8。

Claims

1.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

2.如权利要求1所述的方法，其中所述双链核酸样本是自细胞来源、病毒来源、或环境来源获得的初级分离物。

3.如权利要求2所述的方法，其中所述初级分离物在权利要求1之步骤(a)之前维持在25℃以下及实质上没有二价阳离子及核酸修饰酶存在的条件下。

4.如权利要求1所述的方法，其中所述双链核酸样本获得自体外(in vitro)反应。

5.如权利要求1所述的方法，其中所述双链核酸样本获得自细胞外核酸。

6.如权利要求1所述的方法，其中对环状配对互锁分子中特定形式碱基的碱基配对特异性的改变包括重亚硫酸(disulfite)处理。

7.如权利要求1所述的方法，其中对环状配对互锁分子中特定形式碱基的碱基配对特异性的改变包括光化学转化(photochemical transition)。

8.如权利要求1所述的方法，其中将所述正向链及反向链锁在一起包括使两个核酸插入物分别连接(join)至所述双链核酸样本的两端(one to eachend)，所述两个核酸插入物为相同或不同。

9.如权利要求8所述的方法，其中所述核酸插入物具有14-200个核苷酸残基范围的长度。

10.如权利要求8所述的方法，其中所述核酸插入物具有已知序列。

11.如权利要求8所述的方法，其中所述核酸插入物形成具有突出(overhang)的发卡结构(hairpin)，所述核酸样本具有可与所述核酸插入物的突出相容的突出。

12.如权利要求8所述的方法，其中序列信息的获取包括使引物退火(anneal)至模板，并延伸所述引物，其中所述引物与至少一个所述核酸插入物的至少一部分互补。

13.如权利要求8所述的方法，其中至少一个所述核酸插入物包括启动子，序列信息的获取包括使所述启动子与识别所述启动子的RNA聚合酶接触，之后合成包含核糖核苷酸残基的产物核酸分子。

14.如权利要求8所述的方法，其中连接(join)是通过连接反应(ligation)达成。

15.如权利要求1所述的方法，其中所述双链核酸样本包括复数个样本联结(link)在一起。

16.如权利要求15所述的方法，其中所述复数个样本通过中间核酸插入物(intervening nucleic acid inserts)连接。

17.如权利要求16所述的方法，其中将所述正向链及反向链锁在一起，包括连接(ligate)复合体，所述复合体由所述核酸插入物的突出与所述核酸样本的可相容的突出接触所形成。

18.如权利要求1所述的方法，其中所述双链核酸样本是基因组(genomic)DNA片段。

19.如权利要求1所述的方法，其中所述双链核酸样本包括至少一个RNA链。

20.如权利要求1所述的方法，其中所述单一分子测序包括选自通过合成作用的单一分子测序及连接测序(ligation sequencing)的方法。

21.如权利要求1所述的方法，其中所述单一分子测序包括通过合成作用的实时单一分子测序。

22.如权利要求1所述的方法，其中所述单一分子测序包括选自下组方法的通过合成作用的单一分子测序：焦磷酸测序(pyrosequencing)、可逆终止密码子测序(reversible terminator sequencing)、及第三代测序(third-generationsequencing)。

23.如权利要求1所述的方法，其中所述单一分子测序包括纳米孔测序(nanopore sequencing)。

24.如权利要求1所述的方法，其中：

所述第一及第二插入样本单元的序列包括插入序列，所述插入序列可相同或不同，和方向相反(oppositely oriented)的核酸样本序列的重复序列。

25.如权利要求24所述的方法，该方法进一步包括：

j.使用所述接受序列组，确定所述核酸样本的序列。

26.一种确定双链核酸样本序列的方法，包括：

27.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基的位置的方法，包括：

28.如权利要求27所述的方法，其中所述双链核酸分子包括至少一个选自下组的修饰碱基：5-溴尿嘧啶(5-bromouracil)、尿嘧啶(uracil)、5,6-二氢尿嘧啶(5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7-甲基鸟嘌呤(7-methylguanine)、次黄嘌呤(hypoxanthine)及黄嘌呤(xanthine)。

29.如权利要求27所述的方法，其中所述双链核酸样本中的至少一个修饰碱基与具有不同于其优选配对碱基的碱基配对特异性的碱基配对。

30.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

31.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：

32.一种确定双链核酸样本的序列及所述序列中至少一个修饰碱基位置的方法，包括：