获得和校正生物序列信息的方法
技术领域
本发明在一些方面涉及一种高通量测序方法,属于基因测序领域。
背景技术
高通量测序仪是近几年高速发展的技术。相较于传统桑格测序(Sangersequencing),高通量测序最大的优势是可以同时读出海量的序列信息。虽然准确性不如传统测序方法,但由于海量数据分析,便可得出超出序列本身的信息,如基因表达量、拷贝数变化。
当今主流测序仪均使用SBS(边合成边测序)方法,如Solexa/Illumina、454、IonTorrent等。这些测序仪的结构相似,都包括流体系统、光学系统和芯片系统。测序反应在芯片内发生。测序过程也很类似,都包括:将反应液通入芯片,发生SBS反应,采集信号,洗涤。接下来,进行新的一轮测序。这是一个循环过程。随着循环的增多,测出连续的单碱基非兼并序列信息(如ACTGACTG)。然而,高通量测序仪无法彻底消除测序错误。测序错误可能来源于:反应偶然错误或累积错误、信号采集错误、信号校正带来的误差等等。现有测序仪中,这些化学或光学、软件上的错误可成为噪声,在单个读出位点无法被识别,只能通过深度测序,利用同一序列在不同位点的多次读出进行消除。更准确的读出是高通量测序发展的重要方向。然而,现有技术对准确性的优化多集中在优化化学反应本身以及后续图像信号处理上,没有从测序逻辑上进行革新。因此存在改进的测序方法的需要。
发明内容
本申请要求以下中国专利申请的优先权:2015年11月18日提交的申请号为CN201510822361.9、标题为“一种磷酸修饰荧光团的核苷酸分子测序方法”的中国专利申请、2015年11月18日提交的申请号为CN201510815685.X、标题为“利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法”的中国专利申请、2015年12月11日提交的申请号为CN201510944878.5、标题为“测序结果中序列数据错误的检测和校正方法”的中国专利申请以及2016年10月14日提交的申请号为CN201610899880.X、标题为“一种从高通量DNA测序的原始信号中读取序列信息的方法”的中国专利申请,所述中国专利申请的全部内容均通过引用整体并入本文。
发明内容并非意图用于限制所要求保护的主题的范围。所要求保护的主题的其他特征、细节、效用和优点将从包括在附图和所附权利要求中公开的那些方面的详细描述中显现。
一方面,本文提供了用于获得目标多核苷酸的序列信息的方法,该方法包括:a)在第一多核苷酸复制催化剂存在下向目标多核苷酸提供第一测序试剂,其中第一测序试剂包含各自缀合于第一标记的至少两种不同的核苷酸单体,并且核苷酸单体/第一标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的,其中至少两种不同的核苷酸单体的第一标记相同或不同;和b)在第二多核苷酸复制催化剂存在下向目标多核苷酸提供第二测序试剂,其中第二测序试剂包含各自缀合于第二标记的一种或多种核苷酸单体,并且核苷酸单体/第二标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的,一种或多种核苷酸单体中的至少一种不同于第一测序试剂中存在的核苷酸单体,并且其中第二测序试剂是在提供了第一测序试剂随后提供的,和c)通过在步骤a)和b)中将核苷酸单体掺入多核苷酸之后检测第一标记和第二标记导致的荧光发射,获得至少部分目标多核苷酸的序列信息。
在一个实施方案中,方法用于获得至少部分单个目标多核苷酸的序列信息。在另一实施方案中,方法用于同时获得至少部分多个目标多核苷酸的序列信息。
在任何前述实施方案中,第一多核苷酸复制催化剂和第二多核苷酸复制催化剂可以是相同的多核苷酸复制催化剂或不同的多核苷酸复制催化剂。
在任何前述实施方案中,可通过一次或多次测序反应获得所述序列信息,其中可选地一次或多次测序反应在一个或多个反应体积(例如反应室),例如约1×106至约5×108个反应体积、约1×106至约1×108个反应体积或约1×106至约5×107个反应体积中进行,其中任选地反应体积彼此物理分开和/或反应体积之间没有或基本上没有物料交换,其中可选地反应体积位于阵列如芯片中,其中任选地反应体积是封闭的和/或由与反应体积中的液体不互溶的液体例如油彼此隔离。当反应体积之间基本上没有物料交换时,允许有一些物料交换但这不会影响任何反应体积中的测序结果以导致交叉污染。
在任何前述实施方案中,可在反应室中提供反应体积,并且每个反应室中的目标多核苷酸固定化于反应室中的固体载体上,其中任选地序列信息通过高通量测序获得,例如,其中至少约103、104、105、106、107、108或109条序列并行读取。在任何前述实施方案中,第一多核苷酸复制催化剂和/或第二多核苷酸复制催化剂为聚合酶,例如DNA聚合酶、RNA聚合酶或RNA依赖性RNA聚合酶、连接酶、逆转录酶或末端脱氧核糖核苷转移酶。
在任何前述实施方案中,第一和/或第二测序试剂中的核苷酸单体可选自由以下组成的组:脱氧核糖核苷酸、修饰的脱氧核糖核苷酸、核糖核苷酸、修饰的核糖核苷酸、肽核苷酸、修饰的肽核苷酸、修饰的磷酸糖主链核苷酸及其混合物。在一个实施方案中,第一测序试剂和第二测序试剂中的核苷酸单体均为脱氧核糖核苷酸。在一些实施方案中,核苷酸单体选自由以下组成的组:A、T/U、C和G脱氧核糖核苷酸,及其类似物。在另一实施方案中,第一测序试剂和第二测序试剂中的核苷酸单体均为核糖核苷酸。在具体实施方案中,核苷酸单体选自由以下组成的组:A、U/T、C和G核糖核苷酸,及其类似物。
在任何前述实施方案中,第一和/或第二标记可释放地缀合于核苷酸单体。在一个实施方案中,第一和/或第二标记缀合于核苷酸单体的末端磷酸基团。在具体实施方案中,第一测序试剂中的核苷酸单体/第一标记缀合物和/或第二测序试剂中的一种或多种核苷酸单体/第二标记缀合物具有以下式I的结构:
其中n为0-6,R为核苷碱基,X为H、OH或OMe,或其盐。在一些实施方案中,第一和/或第二标记直到从核苷酸单体的末端磷酸基团释放之后基本上是非荧光的。在一个其他实施方案中,方法还包括利用活化酶从核苷酸单体的末端磷酸基团释放第一和/或第二标记。在一个实施方案中,活化酶是外切核酸酶、磷酸转移酶或磷酸酶。
在任何前述实施方案中,第一测序试剂中的核苷酸单体/第一标记缀合物和/或第二测序试剂中的一种或多种核苷酸单体/第二标记缀合物可具有以下式II的结构:
在任何前述实施方案中,至少两种不同的核苷酸单体的第一标记可以相同或彼此不同。在任何前述实施方案中,方法还可包括步骤a)和b)之间的洗涤步骤。
在任何前述实施方案中,目标多核苷酸固定化于表面,例如固体表面、柔软表面、水凝胶表面、微粒表面或其组合上。在一个实施方案中,固体表面是微反应器的一部分,并且步骤a)和b)在微反应器中进行。在任何前述实施方案中,方法在约20℃至约70℃范围内的温度下进行。
在任何前述实施方案中,可使用第一测序试剂和第二测序试剂的不同组合进行多轮步骤a)和b)。
在任何前述实施方案中,步骤c)中获得的序列信息可以是简并序列。在一个实施方案中,使用与之前一轮或多轮步骤a)和b)中第一测序试剂和第二测序试剂的组合不同的第一测序试剂和第二测序试剂的组合进行至少另外一轮的步骤a)和b),以获得至少一条附加序列,并且将附加序列与简并序列对比以获得非简并序列。
在任何前述实施方案中,步骤c)中获得的初始序列信息可不包含错误,或者包含一个或多个错误。在一个实施方案中,使用与之前一轮或多轮步骤a)和b)中第一测序试剂和第二测序试剂的组合不同的第一测序试剂和第二测序试剂的组合进行至少另外一轮的步骤a)和b),以获得至少一条附加序列,并且将附加序列与初始序列对比以减少或消除序列错误。
在任何前述实施方案中,使用数学分析、算法或方法进行序列对比。在一个实施方案中,数学分析、算法或方法包括马尔科夫模型(Markov model)或基于贝叶斯概型(Bayesian Scheme)的最大似然法。
在任何前述实施方案中,第一测序试剂可包括两种不同的核苷酸单体/第一标记缀合物,每种核苷酸单体/第一标记缀合物包含不同的核苷酸单体。在任何前述实施方案中,第二测序试剂可包括两种不同的核苷酸单体/第二标记缀合物,每种核苷酸单体/第二标记缀合物包含不同的核苷酸单体。在任何前述实施方案中,第一测序试剂中的两种核苷酸单体可以不同于第二测序试剂中的两种核苷酸单体。
在任何前述实施方案中,第一测序试剂中的两种核苷酸单体和第二测序试剂中的两种核苷酸单体可选自由以下组成的组:A、T/U、C和G脱氧核糖核苷酸,以及其类似物。在一个实施方案中,第一测序试剂中的两种核苷酸单体和第二测序试剂中的两种核苷酸单体选自由以下组合组成的组:1)一种测序试剂中的A和T/U脱氧核糖核苷酸以及另一种测序试剂中的C和G脱氧核糖核苷酸;2)一种测序试剂中的A和G脱氧核糖核苷酸以及另一种测序试剂中的C和T/U脱氧核糖核苷酸;和3)一种测序试剂中的A和C脱氧核糖核苷酸以及另一种测序试剂中的G和T/U脱氧核糖核苷酸。在另一实施方案中,进行一轮步骤a)和b)或至少两轮步骤a)和b),将组合1)-3)中的一个组合用于一轮步骤a)和b),并将组合1)-3)中与前一轮步骤a)和b)中所用组合不同的另一个组合用于另一轮步骤a)和b)。一方面,进行三轮步骤a)和b),每轮使用选自组合1)-3)的不同组合。在任何前述实施方案中,可对比从多轮步骤a)和b)获得的序列,以获得非简并序列和/或减少或消除非简并序列中的序列错误。
在任何前述实施方案中,第一测序试剂中的两种核苷酸单体和第二测序试剂中的两种核苷酸单体可选自由以下组成的组:A、T/U、C和G核糖核苷酸,以及其类似物。在一个实施方案中,第一测序试剂中的两种核苷酸单体和第二测序试剂中的两种核苷酸单体选自由以下组合组成的组:1)一种测序试剂中的A和T/U核糖核苷酸以及另一种测序试剂中的C和G核糖核苷酸;2)一种测序试剂中的A和G核糖核苷酸以及另一种测序试剂中的C和T/U核糖核苷酸;和3)一种测序试剂中的A和C核糖核苷酸以及另一种测序试剂中的G和T/U核糖核苷酸。一方面,进行一轮步骤a)和b)或至少两轮步骤a)和b),将组合1)-3)中的一个组合用于一轮步骤a)和b),并将组合1)-3)中与前一轮步骤a)和b)中所用组合不同的另一个组合用于另一轮步骤a)和b)。另一方面,进行至少三轮步骤a)和b),每轮使用组合1)-3)中的不同组合。在任何前述实施方案中,可对比从多轮步骤a)和b)获得的序列,以获得非简并序列和/或减少或消除非简并序列中的序列错误。
在任何前述实施方案中,两种不同核苷酸单体的第一标记可以相同,并且第二标记可与第一标记相同。
在任何前述实施方案中,两种不同核苷酸单体的第一标记可以不同,并且第二标记可与第一标记相同。
在任何前述实施方案中,第一和第二测序试剂中的一种可包含三种不同的核苷酸单体/第一标记缀合物,每种核苷酸单体/第一标记缀合物包含不同的核苷酸单体,而另一种测序试剂可包含一种核苷酸单体/第二标记缀合物,并且一种测序试剂中的三种核苷酸单体可以不同于另一种测序试剂中的核苷酸单体。
在任何前述实施方案中,第一测序和第二测序试剂中的核苷酸单体可选自由以下组成的组:A、T/U、C和G脱氧核糖核苷酸,以及其类似物。在具体实施方案中,第一和第二测序试剂中的核苷酸单体选自由以下组合组成的组:1)一份测序试剂中的C、G和T/U脱氧核糖核苷酸以及另一份测序试剂中的A脱氧核糖核苷酸;2)一份测序试剂中的A、G和T/U脱氧核糖核苷酸以及另一份测序试剂中的C脱氧核糖核苷酸;3)一份测序试剂中的A、C和T/U脱氧核糖核苷酸以及另一份测序试剂中的G脱氧核糖核苷酸;和4)一份测序试剂中的A、C和G脱氧核糖核苷酸以及另一份测序试剂中的T/U脱氧核糖核苷酸。在一个实施方案中,进行一轮步骤a)和b)或至少两轮步骤a)和b),将组合1)-4)中的一个组合用于一轮步骤a)和b),并将组合1)-4)中与前一轮步骤a)和b)中所用组合不同的另一个组合用于另一轮步骤a)和b)。在另一实施方案中,进行三轮步骤a)和b),每轮使用选自组合1)-4)的不同组合。在又一实施方案中,进行四轮步骤a)和b),每轮使用选自组合1)-4)的不同组合。在任何前述实施方案中,可对比从多轮步骤a)和b)获得的序列,以获得非简并序列和/或减少或消除非简并序列中的序列错误。
在任何前述实施方案中,第一测序和第二测序试剂中的核苷酸单体可选自由以下组成的组:A、T/U、C和G核糖核苷酸,以及其类似物。在一个实施方案中,第一和第二测序试剂中的核苷酸单体选自由以下组合组成的组:1)一份测序试剂中的C、G和T/U核糖核苷酸以及另一份测序试剂中的A核糖核苷酸;2)一份测序试剂中的A、G和T/U核糖核苷酸以及另一份测序试剂中的C核糖核苷酸;3)一份测序试剂中的A、C和T/U核糖核苷酸以及另一份测序试剂中的G核糖核苷酸;和4)一份测序试剂中的A、C和G核糖核苷酸以及另一份测序试剂中的T/U核糖核苷酸。在一个实施方案中,进行一轮步骤a)和b)或至少两轮步骤a)和b),将组合1)-4)中的一个组合用于一轮步骤a)和b),并将组合1)-4)中与前一轮步骤a)和b)中所用组合不同的另一个组合用于另一轮步骤a)和b)。在一个具体实施方案中,进行至少三轮步骤a)和b),每轮使用组合1)-4)中的不同组合。在另一实施方案中,进行至少四轮步骤a)和b),每轮使用组合1)-4)中的不同组合。在任何前述实施方案中,可对比从多轮步骤a)和b)获得的序列,以获得非简并序列和/或减少或消除非简并序列中的序列错误。
在任何前述实施方案中,可获得约250bp、约350bp、约400bp、约450bp、约500bp、约550bp、约600bp、约650bp、约700bp、约750bp、约800bp、约850bp、约900bp、约950bp、约1000bp、约1050bp、约1100bp、约1150bp、约1200bp、约1250bp、约1300bp、约1350bp、约1400bp、约1450bp、约1500bp、约1550bp、约1600bp、约1650bp、约1700bp、约1750bp、约1800bp、约1850bp、约1900bp、约1950bp、约2000bp、约2050bp、约2100bp、约2150bp、约2200bp、约2250bp、约2300bp、约2350bp或约2400个碱基对的读长。
在任何前述实施方案中,可获得至少约95%的代码准确率。在任何前述实施方案中,目标多核苷酸可以是单链多核苷酸。
另一方面,本文公开了用于获得目标多核苷酸的序列信息的方法,该方法包括:a)在第一多核苷酸复制催化剂存在下向目标多核苷酸提供第一测序试剂,其中第一测序试剂包含各自缀合于第一标记的两种不同的核苷酸单体,并且核苷酸单体/第一标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的;和b)在第二多核苷酸复制催化剂存在下向目标多核苷酸提供第二测序试剂,其中第二测序试剂包含各自缀合于第二标记的两种不同的核苷酸单体,并且核苷酸单体/第二标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的,并且其中第二测序试剂是在提供了第一测序试剂随后提供的,和c)通过在步骤a)和b)中将核苷酸单体掺入多核苷酸之后检测第一标记和第二标记导致的荧光发射,获得至少部分目标多核苷酸的序列信息,其中第一测序试剂和第二测序试剂中的核苷酸单体选自由以下组合组成的组:1)一份测序试剂中的腺嘌呤(A)核苷酸单体和胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体以及另一份测序试剂中的胞嘧啶(C)核苷酸单体和鸟嘌呤(G)核苷酸单体;2)一份测序试剂中的腺嘌呤(A)核苷酸单体和鸟嘌呤(G)核苷酸单体以及另一份测序试剂中的胞嘧啶(C)核苷酸单体和胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体;和3)一份测序试剂中的腺嘌呤(A)核苷酸单体和胞嘧啶(C)核苷酸单体以及另一份测序试剂中的鸟嘌呤(G)核苷酸单体和胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体。在一个实施方案中,步骤a)中两种不同核苷酸单体的第一标记以及步骤b)中两种不同核苷酸单体的第二标记是相同标记。在另一实施方案中,第一标记包括两个不同的标记,并且其中第一标记中的一个与第二标记中的一个相同,而第一标记中的另一个与第二标记中的另一个相同。在任何前述实施方案中,进行多轮步骤a)和b),每轮使用选自组合1)-3)的组合。在另一实施方案中,在步骤c)中获得至少两套或三套序列信息,方法包括:使用组合1)在第一测序反应体积中进行多轮步骤a)和b),以获得第一套序列信息,使用组合2)在第二测序反应体积中进行多轮步骤a)和b),以获得第二套序列信息,和/或使用组合3)在第三测序反应体积中进行多轮步骤a)和b),以获得第三套序列信息。在一个实施方案中,第一、第二和第三套序列信息从单独的测序反应体积中并行获得。在另一实施方案中,第一、第二和第三套序列信息相继从同一测序反应体积获得,并且在开始下一次测序反应前切除上一次测序反应的产物。在任何前述实施方案中,方法还包括对比至少两套或三套序列信息,以减少或消除序列错误。在一个实施方案中,对比表明当至少两套或三套序列信息彼此一致时,所获得的目标多核苷酸序列中没有错误。在另一实施方案中,对比表明当至少两套或三套序列信息包含目标多核苷酸序列的至少一种核苷酸残基的差异时,所获得的目标多核苷酸序列中存在错误。在一个实施方案中,方法还包括校正所获得的目标多核苷酸序列中的至少一种核苷酸残基,使得在校正之后,至少两套或三套序列信息彼此一致。
在又一方面,本文公开了用于获得目标多核苷酸的序列信息的方法,该方法包括:a)在第一多核苷酸复制催化剂存在下向目标多核苷酸提供第一测序试剂,其中第一测序试剂包含各自缀合于第一标记的三种不同的核苷酸单体,并且核苷酸单体/第一标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的;和b)在第二多核苷酸复制催化剂存在下向目标多核苷酸提供第二测序试剂,其中第二测序试剂包含缀合于第二标记的一种核苷酸单体,并且核苷酸单体/第二标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的,并且其中第二测序试剂是在提供了第一测序试剂之前或随后提供的,和c)通过在步骤a)和b)中将核苷酸单体掺入多核苷酸之后检测第一标记和第二标记导致的荧光发射,获得至少部分目标多核苷酸的序列信息,其中第一测序试剂和第二测序试剂中的核苷酸单体选自由以下组合组成的组:1)一份测序试剂中的胞嘧啶(C)核苷酸单体、鸟嘌呤(G)核苷酸单体和胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体,以及腺嘌呤(A)核苷酸单体;2)一份测序试剂中的腺嘌呤(A)核苷酸单体、鸟嘌呤(G)核苷酸单体和胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体,以及胞嘧啶(C)核苷酸单体;和3)一份测序试剂中的腺嘌呤(A)核苷酸单体、胞嘧啶(C)核苷酸单体和胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体,以及鸟嘌呤(G)核苷酸单体;和4)一份测序试剂中的腺嘌呤(A)核苷酸单体、胞嘧啶(C)核苷酸单体和鸟嘌呤(G)核苷酸单体,以及另一份测序试剂中的胸腺嘧啶(T)/尿嘧啶(U)核苷酸单体。在一个实施方案中,步骤a)中三种不同核苷酸单体的第一标记以及步骤b)中一种核苷酸单体的第二标记是相同标记。在任何前述实施方案中,进行多轮步骤a)和b),每轮使用选自组合1)-4)的组合。在一个实施方案中,在步骤c)中获得至少两套、三套或四套序列信息,方法包括:使用组合1)在第一测序反应体积中进行多轮步骤a)和b),以获得第一套序列信息,使用组合2)在第二测序反应体积中进行多轮步骤a)和b),以获得第二套序列信息,使用组合3)在第三测序反应体积中进行多轮步骤a)和b),以获得第三套序列信息,和/或使用组合4)在第四测序反应体积中进行多轮步骤a)和b),以获得第四套序列信息。在一个实施方案中,第一、第二、第三和第四套序列信息从单独的测序反应体积中并行获得。在另一实施方案中,第一、第二、第三和第四套序列信息相继从同一测序反应体积获得,并且在开始下一次测序反应前切除上一次测序反应的产物。在任何前述实施方案中,方法还包括对比至少两套、三套或四套序列信息,以减少或消除序列错误。在一个实施方案中,对比表明当至少两套、三套或四套序列信息彼此一致时,所获得的目标多核苷酸序列中没有错误。一方面,当使用单色测序方法时,需要至少三套序列信息以监测测序错误。在另一方面,当使用两色测序方法时,仅需要两套序列信息以检测测序错误,因为来自两种荧光标记的信息提供了一份额外信息用于对比序列。
在另一实施方案中,当至少两套、三套或四套序列信息在目标多核苷酸序列的至少一种核苷酸残基上包含差异时,对比表明所获得的目标多核苷酸序列中存在错误。在一个实施方案中,方法还包括校正所获得的目标多核苷酸序列中的至少一种核苷酸残基,使得在校正之后,至少两套、三套或四套序列信息彼此一致。一方面,至少一个核苷酸残基通过在出现错误的位置删除或插入得以校正,以达到正确序列。一方面,出现错误的位置的每个插入将序列延伸至少一个核苷酸,并且将来自其它一轮或多轮测序的序列信息与延伸序列对比,以达到校正的序列。另一方面,出现错误的位置的每个删除将序列缩短至少一个核苷酸,并且将来自其它一轮或多轮测序的序列信息与缩短序列对比,以达到校正的序列。
在又一方面,本文公开了用于获得目标多核苷酸的序列信息的试剂盒或系统,所述试剂盒或系统包括:a)第一测序试剂,其包含至少两种不同的核苷酸单体/第一标记缀合物,所述至少两种不同的核苷酸单体/第一标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入目标多核苷酸之后基本上是非荧光的;和b)第二测序试剂,其包含一种或多种核苷酸单体/第二标记缀合物,所述一种或多种核苷酸单体/第二标记缀合物直到根据与目标多核苷酸的互补性将核苷酸单体掺入多核苷酸之后基本上是非荧光的,一种或多种核苷酸单体的至少一种不同于第一测序试剂中存在的核苷酸单体,和c)检测器,其用于在将核苷酸单体掺入多核苷酸之后检测第一标记和第二标记导致的荧光发射。在一个实施方案中,试剂盒或系统还包括第一多核苷酸复制催化剂和/或第二多核苷酸复制催化剂。在任何前述实施方案中,第一和/或第二标记缀合于核苷酸单体的末端磷酸基团。在一个实施方案中,试剂盒或系统还包括用于从核苷酸单体的末端磷酸基团释放第一和/或第二标记的活化酶。在任何前述实施方案中,试剂盒或系统还可包括目标多核苷酸被配置为固定化于其上的固体表面。在一个实施方案中,固体表面是微反应器的一部分。
在任何前述实施方案中,试剂盒或系统其还包括基于将核苷酸单体掺入多核苷酸之后由第一标记和第二标记导致的荧光发射获得至少一份目标多核苷酸的序列信息的工具。在一个实施方案中,工具包括含有可执行指令的计算机可读介质,当可执行指令被执行时可基于将核苷酸单体掺入多核苷酸之后由第一标记和第二标记导致的荧光发射获得至少部分目标多核苷酸的序列信息。
在任何前述实施方案中,试剂盒或系统还可包括用于对比多条序列以获得非简并序列和/或减少或消除非简并序列中的序列错误的工具。在一个实施方案中,工具包括含有可执行指令的计算机可读介质,当所述可执行指令被执行时可对比序列以获得非简并序列和/或减少或消除所述非简并序列中的序列错误。
一方面,本文提供了校正测序信息错误的方法,其包括:(a)根据在测序反应期间来自一种或多种参考多核苷酸的测序信号以及参考多核苷酸的已知核酸序列进行参数估计,使用所述参数估计获得测序反应的超前的和/或滞后的失相现象的信息;(b)获得在测序反应期间来自目标多核苷酸的测序信号;(c)根据从步骤(a)获得的信息和从步骤(b)获得的测序信号,计算目标多核苷酸的次级超前量;(d)根据从步骤(b)获得的测序信号以及步骤(c)的次级超前量,计算目标多核苷酸的失相量;(e)使用失相量校正从步骤(b)获得的测序信号,以生成目标多核苷酸的预测测序信号;(f)重复步骤(c)至(e)一轮或多轮,其中将来自第i轮的预测测序信号用于计算第i+1轮中目标多核苷酸的次级超前量,直到来自第j轮的目标多核苷酸的预测测序信号在数学上是收敛的,其中i和j是整数并且1≤i<i+1≤j。在一个实施方案中,次级超前现象是指在测序期间,在目标多核苷酸的残基处发生非预期核苷酸延伸,并且非预期延伸被除下一个残基以外的核苷酸进一步延伸。在一个其他实施方案中,失相量包括由于测序期间的超前的和/或滞后的失相现象而导致的测序结果的改变。
在任何前述实施方案中,步骤(a)中的参数估计可包括获得衰减系数。在任何前述实施方案中,步骤(a)中的参数估计还可包括获得偏移量。在任何前述实施方案中,步骤(a)中的参数估计可包括获得单位信号信息。在任何前述实施方案中,步骤(a)中的参数估计可包括获得关于每种核苷酸或核苷酸组合的超前系数和/或滞后系数。
在任何前述实施方案中,方法包括当进行多轮测序反应时获得每轮测序反应的超前和/或滞后失相现象的信息。
另一方面,本文提供了校正测序信息错误的方法,其包括:(a)根据在测序反应期间来自一种或多种参考多核苷酸的测序信号以及参考多核苷酸的已知核酸序列,进行参数估计;(b)获得在测序反应期间来自目标多核苷酸的测序信号;(c)根据在步骤(a)中通过参数估计获得的超前的或滞后的失相获得的信息和从步骤(b)获得的测序信号,计算目标多核苷酸的次级超前量;(d)根据从步骤(b)获得的测序信号以及步骤(c)的次级超前量,计算目标多核苷酸的失相量;(e)使用失相量校正从步骤(b)获得的测序信号,以生成目标多核苷酸的预测测序信号;(f)重复步骤(c)至(e)一轮或多轮,其中将来自第i轮的预测测序信号用于计算第i+1轮中目标多核苷酸的次级超前量,直到来自第j轮的目标多核苷酸的预测测序信号在数学上是收敛的,其中i和j是整数并且1≤i<i+1≤j。一方面,参数估计包括根据来自参考多核苷酸的测序信号和参考多核苷酸的已知核酸序列,获得超前量、滞后量、衰减系数和/或偏移量。在另一方面,次级超前现象是指在测序期间,在目标多核苷酸的残基处发生非预期核苷酸延伸,并且非预期延伸被除下一个残基以外的核苷酸进一步延伸。在又一方面,失相量包括由于测序期间的超前的和/或滞后的失相现象而导致的测序结果的改变。
在又一方面,本文公开了校正测序期间超前量的方法,包括:获得在测序反应期间来自目标多核苷酸的测序信号,测序信号对应于目标多核苷酸的序列;和任选地使用参数估计,用由于次级超前现象而导致的次级超前量来校正来自目标多核苷酸的测序信号。在一个实施方案中,次级超前现象是指在测序期间,在目标多核苷酸的残基处发生非预期核苷酸延伸,并且非预期延伸被除下一个残基以外的核苷酸进一步延伸。
一方面,来自目标多核苷酸的测序信号包括由于初级超前现象而导致的初级超前量,其中初级超前现象是指在测序期间,在目标多核苷酸的残基处发生非预期核苷酸延伸。
在任何前述实施方案中,如果来自目标多核苷酸的特定核苷酸残基的测序信号接近于单位信号,则测序信号可使用次级超前量进行校正。在任何前述实施方案中,其中测序信号强度与单位信号强度的偏差在约60%以内、约50%以内、约40%以内、约30%以内、约20%以内、约10%以内或约5%以内。
在任何前述实施方案中,当获得第n个测序信号时,方法可包括:将参考多核苷酸的测序信号与参考多核苷酸的已知序列对比,以识别测序期间的错误,以及校正错误的方法;使用在n之前的目标多核苷酸的测序信号以及校正错误的方法,以获得校正测序信号,例如,通过反馈在n之前的目标多核苷酸的测序信号到校正错误的方法中;和通过对比在残基n处目标多核苷酸的测序信号与校正测序信号,确定在残基n处是否存在次级超前量。
在任何前述实施方案中,测序可包括向反应液中加入一种或多种测序试剂,其中所述一种或多种测序试剂任选地包含核苷酸和/或酶。在任何前述实施方案中,在测序中,可在每次测序反应中加入一种、两种或三种类型的核苷酸。在任何前述实施方案中,测序反应涉及多核苷酸的开放或未封闭的3’端。在任何前述实施方案中,在测序中,加入的核苷酸可包含A、G、C和T中的一个或多个,或A、G、C和U中的一个或多个。在任何前述实施方案中,检测的测序信号可包括电信号、生物发光信号、化学发光信号,或其任何组合。
在任何前述实施方案中,参数估计可包括:根据参考多核苷酸的序列推断理想信号h,根据预设的参数计算失相信号(或相错配)s和预测的原始测序信号p,以及计算p和实际原始测序信号f之间的相关系数c。一方面,方法还包括使用最优化方法找到一组参数,使得相关系数c达到最优值。在另一方面,该组参数包括超前系数或量、滞后系数或量、衰减系数、偏移量、单位信号,或其任何组合。
在任何前述实施方案中,在测序期间,可提供两组反应液,每组包含不同于另一组的一种或多种核苷酸,并且每次测序反应中提供一份反应液。一方面,将两组反应液以交替方式用于进行测序反应。在任何前述实施方案中,目标多核苷酸和参考多核苷酸的测序同时进行。
在任何前述实施方案中,参考多核苷酸可用于参数估计,以获得测序反应的以下参数中的一个或多个:超前系数或量、滞后系数或量、衰减系数、偏移量和单位信号。在任何前述实施方案中,可使用通过参数估计获得的测序反应的一个或多个参数来校正目标多核苷酸的信号。在任何前述实施方案中,目标多核苷酸可包含标记,所述标记包含已知序列和/或已知量的核苷酸,并且将已知序列和/或已知量的核苷酸用于生成测序反应的单位信号。在任何前述实施方案中,在每个取样点,例如,在目标多核苷酸的每个核苷酸残基处的单位信号可以不同。
在又一方面,本文公开了包括校正测序信息错误的指令的计算机可读介质。一方面,指令包括:a)接收目标多核苷酸和参考多核苷酸的测序信息;和b)使用本文公开的校正测序信息的任何方法来校正目标多核苷酸的测序信息。
另一方面,提供了用于测序的计算机系统,所述系统包括本文公开的计算机可读介质。
附图说明
图1显示了序列数据错误的校正方法。
图2显示了小提琴图和箱型图示出的第1组至第5组数据的数据分布。黑色代表编码准确性,灰色代表解码准确性。序列中从左到右呈现了第1组至第5组数据。
图3显示了频率分布柱状图,示出了5000条序列数据中每条序列在解码中被修改的信号数目。
图4显示了编码中发生错误的信号的数目、以及解码中被错误修改的信号数目之间的相关关系,横坐标表示编码中发生错误的信号的数目,纵坐标表示解码中被错误修改的信号数目之间的相关关系,颜色的灰度表示该点被计数的次数占所有序列中的比例。
图5A-C显示了通过改变荧光团结构来改进TPLFN的荧光基因(fluorogenic)性能。
图6显示了纯化的TPLFN的MALDI-TOF质谱。
图7显示了TG(东京绿(Tokyo Green))的激发和发射光谱。
图8显示了TG(东京绿)、Me-FAM和Me-HCF在相同条件(2μM,pH 8.3,TE缓冲液,用面积归一化计算)下的发射光谱。
图9显示了酶消化之前和之后的TPLFN(TG-dA4P)的吸收光谱。
图10显示了酶消化之前和之后的TPLFN(TG-dA4P)的发射光谱。
图11显示了动力学模式。
图12显示了四种底物之间的反应速率差异。
图13显示了底物竞争。
图14显示了均聚物长度对信号线性测定。
图15A显示了仅由T组成的均聚物。图15B显示了由四个重复TC组成的均聚物。
图16显示了Bst的温度依赖性活性。
图17显示了N-(5-(2-溴乙酰氨基)戊基)丙烯酰胺的合成。
图18示出了引物接枝。
图19显示了玻璃和涂覆有BPAM的表面之间的接触角度差异。
图20显示了ECCS文库设计。图20a显示了固相PCR之前的ECCS文库。图20b显示了固相PCR之前的ECCS文库。图20c显示了将测序引物退火之后的ECCS文库。
图21显示了模板制备过程。
图22显示了PCR产物的凝胶电泳结果。泳道1是标记物(Transgene,100bp Plus IIDNA Ladder);泳道2、3是两个200bp模板(分别为L718-208(330bp)、L10115-201(323bp));泳道4-6是三个300bp模板(分别为L718-308(430bp)、L4418-305(427bp)、L10115-301(423bp));泳道7-9是三个500bp模板(分别为L501-500(622bp)、L30501-500(622bp)、L46499-500(622bp))。
图23显示了固相PCR过程。
图24显示了不同泳道和位置的PCR产物密度的热图(上图)。每个图的x轴标记代表芯片的四条不同泳道;每个图的y轴标记代表泳道的五个不同成像位置。颜色从黑色到绿色表示PCR产物密度从低到高。下图显示了不同模板的PCR产物密度。x轴标记是固相PCR的不同实验组;y轴标记是芯片的每个泳道的平均密度。
图25根据一个实施方案,上图显示了测序仪器、底侧左图显示了典型荧光反应动力学曲线,以及整个测序期间每个反应循环的动力学曲线。
图26显示了失相过程。
图27显示了模拟测序信号(左)和不同位置的DNA浓度分布(右)。色条(灰度条):DNA比例。(图27a和27b)杂质:0;反应时间:300.(图27c和27d)杂质:0.003;反应时间:300.(图27e和27f)杂质:0;反应时间:100.
图28上图显示了一次通过、多次终止(One Pass,More Stop)原理。下图展示了分布和通量矩阵以及两者的关系。分别将超前ε和滞后λ系数设置为2%和1%。这些两个系数的值相对较大,以显示失相的明显效果,而不是实验数据的估计。
图29显示了校正算法的简化流程图。
图30显示了校正算法的应用。
图31显示了失相校正算法。
图32显示了失相系数对(通量矩阵)T的条件数的影响。
图33显示了失相系数偏差对信号校正的影响。
图34显示了全局白噪声会降低校正信号的准确率,并使后一循环易错。
图35显示了在给定的失相系数和全局白噪声下失相校正后无错误循环的数目。
图36显示了某些循环中信号异常的效果。
图37A显示了失相系数估计算法中每个系数的变化轨迹。图37B总结了多轮测序中的失相系数。图37C显示了失相系数和测序反应时间之间的关系。
图38显示了高通量DNA测序中的失相现象。方块代表模板DNA的核苷酸,圆圈代表组成新生DNA链的核苷酸。带斜线的图案代表测序引物区域,填充白色或灰色的图案代表不同类型的核苷酸。
图39示出了初级超前现象和次级超前现象。
图40显示不再发生三级超前。
图41显示了参数估计的基本过程。
图42显示了信号校正的基本过程。
图43显示了单色2+2原始测序信号。
图44显示了单色2+2测序原始信号的参数估计过程中各参数的变化趋势。
图45显示了单色2+2测序的原始信号和失相信号。
图46显示了单色2+2测序信号的信号校正中的迭代步骤。
图47显示了一次双色2+2测序的原始信号。
图48显示了双色2+2测序的参数估计过程中所有参数的变化趋势。
图49显示了初级双色2+2测序的原始信号和失相信号。
图50显示了双色2+2测序的信号校正中的迭代步骤。
图51显示了多次单色2+2测序的信号校正的统计结果。
图52根据本发明的一个方面,显示了简并碱基荧光基因测序原理。
图53根据本发明的一个方面,显示了简并碱基识别(base-calling)结果。
图54根据本发明的一个方面,显示了ECC测序的信息通讯模型。
图55根据本发明的一个方面,显示了使用动态规划的序列解码结果。
图56根据本发明的一个方面,显示解码提升了ECC测序准确性。
图57根据本发明的一个方面,显示了三个碱基组合的循环的范围分布。
图58显示了评分矩阵结构的层和节点遍历顺序的实例。
图59根据本发明的一个方面,显示了ECC解码的隐马尔科夫模型的状态转换网络。
图60显示了根据本发明的一个方面,解码之前和之后准确性的模拟分布。
图61显示了示例性解码结果。
具体实施方式
以下提供所要求保护主题的一个或多个实施方案的详细描述以及说明所要求保护的主题的原理的附图。所要求保护的主题与此类实施方案结合描述,但不限于任何具体实施方案。应理解,所要求保护的主题可以以各种形式来体现,并且涵盖许多替代、修改和等同。因此,本文公开的具体细节不应被解释为限制性的,而是作为权利要求的基础以及作为用于教导本领域技术人员在几乎任何适合的详细系统、结构或方式中采用所要求保护的主题的代表性基础。在以下描述中,提出了许多具体细节,以便提供对本发明的透彻的了解。提供这些细节仅用于示例目的,可以在没有这些具体细节的一些或全部的情况下根据权利要求实践所要求保护的主题。应理解,在不偏离所要求保护主题的范围的情况下,可使用其他实施方案并且可进行结构改变。应理解,在一个或多个单独的实施方案中描述的各种特征和功能不限于它们适用于描述它们的具体实施方案。相反,它们可以单独应用或以某种组合应用于本公开的一个或多个其他实施方案,无论这些实施方案是否被描述,以及这些特征是否被呈现为描述的实施方案的一部分。为了清楚起见,在所要求保护的主题相关的技术领域中已知的技术材料未被详细描述,以免不必要地导致所要求保护的主题模糊不清。
文使用的所有技术术语、符号和其他技术和科学术语意图具有与所要求保护的主题所属领域的普通技术人员通常理解的相同的含义,除非另外定义。在一些情况下,为了清楚和/或便于参考的目的,本文定义了具有通常所理解的含义的术语,并且将此类定义并入本文,但这不应必然理解为表示与本领域通常所理解的含义相比具有实质性的区别。本文描述或参考的很多技术和程序都是本领域技术人员已知并且在使用常规方法时通常采用的。
本申请所涉及的所有出版物,包括专利文件、科学论文和数据库,均出于所有目的以引用的方式整体并入,就如每个单独出版物单独地通过引用并入一样。如果本文阐述的定义与通过引用并入本文的专利、专利申请、公开申请或其他出版物中阐述的定义相反或以其他方式不一致,则本文阐述的定义优先于本文通过引用并入本文的定义。对出版物或文件的引用并不旨在承认它们中的任何一个是相关的现有技术,也不构成对这些出版物或文件的内容或日期的任何承认。
除非特别说明,否则所有标题都是为了方便读者,不应用来限制标题后的文字的含义。
除非另外指出,否则所提供的实施方案的实践将采用有机化学、聚合物技术、分子生物学(包括重组技术)、细胞生物学、生物化学和测序技术的常规技术和描述,其在本领域实施的技术人员理解范围之内。此类常规技术包括多肽和蛋白质合成和修饰、多核苷酸合成和修饰、聚合物阵列合成、多核苷酸的杂交和连接以及使用标记检测杂交。参考本文的实施例可以得到合适技术的具体说明。然而,当然也可以使用其他等效常规程序。此类常规技术和描述可见于标准实验室手册,例如Green等人编,Genome Analysis:A LaboratoryManual Series(第I-IV卷)(1999);Weiner,Gabriel,Stephens编,Genetic Variation:ALaboratory Manual(2007);Dieffenbach,Dveksler编,PCR Primer:A Laboratory Manual(2003);Bowtell and Sambrook,DNA Microarrays:A Molecular Cloning Manual(2003);Mount,Bioinformatics:Sequence and Genome Analysis(2004);Sambrook and Russell,Condensed Protocols from Molecular Cloning:A Laboratory Manual(2006);以及Sambrook和Russell,Molecular Cloning:A Laboratory Manual(2002)(均来自ColdSpring Harbor Laboratory Press);Ausubel等人编,Current Protocols in MolecularBiology(1987);T.Brown编,Essential Molecular Biology(1991),IRL Press;Goeddel编,Gene Expression Technology(1991),Academic Press;A.Bothwell等人编,Methodsfor Cloning and Analysis of Eukaryotic Genes(1990),Bartlett Publ.;M.Kriegler,Gene Transfer and Expression(1990),Stockton Press;R.Wu等人编,Recombinant DNAMethodology(1989),Academic Press;M.McPherson等人,PCR:A Practical Approach(1991),IRL Press at Oxford University Press;Stryer,Biochemistry(第4版)(1995),W.H.Freeman,New York N.Y.;Gait,Oligonucleotide Synthesis:APractical Approach(2002),IRL Press,London;Nelson and Cox,Lehninger,Principles of Biochemistry(2000)3rd编,W.H.Freeman Pub.,New York,N.Y.;Berg,et al.,Biochemistry(2002)5th编,W.H.Freeman Pub.,New York,N.Y.;D.Weir&C.Blackwell编,Handbook ofExperimental Immunology(1996),Wiley-Blackwell;Cellular and MolecularImmunology(A.Abbas等人,W.B.Saunders Co.1991,1994);Current Protocols inImmunology(J.Coligan等人编,1991),所有所述参考文献均出于所有目的通过引用整体并入本文。
在本公开全文中,所要求保护的主题的各个方面以范围格式呈现。应当理解,范围形式的描述只是为了方便和简洁,并且不应被解释为对所要求保护主题的范围的僵化的限制。因此,范围的描述应被认为已具体公开了所有可能的子范围,以及该范围内的单个数值。例如,在提供一定范围的值的情况下,应当理解,该范围的上限和下限之间的每个中间值以及该规定范围中的任何其他规定值或中间值均涵盖在所要求保护的主题中。这些较小范围的上限和下限可以独立地包括在较小范围内,并且还涵盖在所要求保护的主题中,在规定范围内受到任何明确排除的限制。在所说明范围包括所述限值中的一者或两者时,超出那些包括的限值的任何一者或两者的范围也包括在所要求保护的主题中。这种适用无关于范围的广度。例如,范围诸如从1到6的描述应被认为具体地公开了子范围,诸如从1到3、从1到4、从1到5、从2到4、从2到6、从3到6等,以及该范围内的单个数值、例如1、2、3、4、5和6。
I.定义
除非上下文另外明确指示,否则如本文所用,单数形式“一个/种(a/an)”和“所述(the)”包括复数指示物。例如,“一个/种(a/an)”意指“至少一个/种”或“一个或多个/一种或多种”。应理解本文所述的方面和变型包括“由”方面和变型“组成”和/或“基本上由”方面和变型“组成”。
本文所用的术语“约”是指本技术领域的技术人员容易知晓的相应值的常见误差范围。本文中提及“约”某一个值或参数时包括(以及描述)针对所述值或参数本身的实施方式。例如,关于“约X”的描述包括对“X”本身的描述。
术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中可互换使用以指任何长度的核苷酸的聚合形式,并且包括核糖核苷酸、脱氧核糖核苷酸及其类似物或混合物。术语包括三链、双链和单链脱氧核糖核酸(“DNA”),以及三链、双链和单链核糖核酸(“RNA”)。其还包含通过例如烷基化和/或通过封端修饰,以及未修饰形式的多核苷酸。更具体地,术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多脱氧核糖核苷酸(包含2-脱氧-D-核糖)、多核糖核苷酸(包含D-核糖),其包括tRNA、rRNA、hRNA和mRNA(无论剪接还是未剪接)、为嘌呤或嘧啶碱的N-或C-糖苷的任何其它类型的多核苷酸,以及包含非核苷酸主链的其他聚合物,例如,聚酰胺(例如,肽核酸(“PNA”))和聚吗啉代(polymorpholino)(与Neugene一样,可由Anti-Virals,Inc.,Corvallis,OR商购获得)聚合物,以及其他合成的序列特异性核酸聚合物,条件是聚合物在允许碱基配对和碱基堆积的结构中包含核酸碱基,诸如在DNA和RNA的构造中。因此,这些术语包括例如3'-脱氧-2',5'-DNA、寡脱氧核糖核苷酸N3'至P5'磷酰胺酯、2'-O-烷基-取代的RNA、DNA和RNA之间或PNA和DNA或RNA之间的杂合体;还包括已知类型的修饰,例如,标记、烷基化;“加帽”;一种或多种核苷酸被类似物取代;核苷酸间修饰,例如具有不带电荷的键联(例如甲基膦酸酯、磷酸三酯、磷酰胺酯、氨基甲酸酯等)的修饰;具有带负电荷的键联(例如硫代磷酸酯、二硫代磷酸酯等)的修饰;以及具有带正电荷的键联(例如,氨基烷基磷酰胺酯、氨基烷基磷酸三酯)的修饰;含有侧接部分,例如蛋白(包括酶(例如核酸酶)、毒素、抗体、信号肽、多聚-L-赖氨酸等)的修饰;具有嵌入剂(例如,吖啶、补骨脂素等)的修饰;含有螯合物(例如,金属、放射性金属、硼、氧化金属等的螯合物)的修饰;含有烷化剂的修饰;具有修饰的键联(例如,α异头核酸等)的修饰;以及多核苷酸或寡核苷酸的未修饰形式。核酸通常含有磷酸二酯键,但是在一些情况下可包括具有替代主链的核酸类似物,所述替代主链诸如亚磷酰胺、二硫代磷酸酯或甲基磷酰亚胺键联;或肽核酸骨架和键联。其他核酸类似物包括具有双环结构的那些,包括锁核酸、带正电荷主链(positive backbone)、非离子主链和非核糖主链。可通过对核糖-磷酸主链进行修饰以增加分子的稳定性;例如,PNA:DNA杂合体可在某些环境中展现出更高的稳定性。术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”可包括任何合适长度,诸如至少5、6、7、8、9、10、20、30、40、50、100、200、300、400、500、1,000个或更多个核苷酸。
应理解,本文所用的术语“核苷”和“核苷酸”不仅包括已知的嘌呤和嘧啶碱基、还包括被修饰过的其它杂环碱基。此类修饰包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶,或其它杂环。修饰的核苷或核苷酸还可包括在糖基部分上的修饰,例如,其中一个或多个羟基基团被卤素、脂肪族基团取代,或被官能化为醚、胺等。术语“核苷酸单元”意图涵盖核苷和核苷酸。
术语“互补”和“基本上互补”包括杂交或碱基配对,或在核苷酸或核酸之间(例如在双链DNA分子的两个链之间或在寡核苷酸引物和单链核酸上的引物结合位点之间)形成双链体。互补核苷酸通常是A和T(或A和U)或C和G。当一条链的核苷酸(优化地排列和对比以及带有适当的核苷酸插入或删除)与至少约80%的其他链,通常至少约90%至约95%的其他链,甚至约98%至约100%的其他链配对时,可以称为两个单链RNA或DNA分子基本上互补。一方面,核苷酸的两条互补序列能够与相对的核苷酸杂交,优选地少于25%错配,更优选小于15%错配,更加优选小于5%错配,最优选无错配。优选地,两种分子将在高严格性的条件下杂交。
本文所用的“杂交”可以是指两种单链多核苷酸非共价结合以形成稳定双链多核苷酸的过程。一方面,得到的双链多核苷酸可以是“杂合体”或“双链体”。典型的“杂交条件”包括大约小于1M、通常小于约500mM并且可小于约200mM的盐浓度。“杂交缓冲液”包含缓冲的盐溶液,诸如5%SSPE或本领域已知的其他此类缓冲液。杂交温度可以低至5℃,但通常高于22℃,更通常高于约30℃,通常超过37℃。杂交经常在严格条件下进行,所述严格条件即序列将与其目标序列杂交但不会与其他非互补序列杂交的条件。严格条件是与序列相关的并且在不同情况下是不同的。例如,对于特异性杂交,更长的片段可能需要相比短片段更高的杂交温度。由于包括互补链的碱基组成和长度、存在有机溶剂以及碱基错配程度在内的其他因素可影响杂交的严格性,参数的组合要比单独任一参数绝对度量更重要。通常,严格条件被选择为在限定离子强度和pH下比特定序列的Tm低约5℃。解链温度Tm可以是一群双链核酸分子开始半解离为单链时的温度。用于计算核酸的Tm的多个方程是本领域已知的。如标准参考所示,Tm值的简单估计可通过方程Tm=81.5+0.41(%G+C)计算,当核酸在水溶液中在1M NaCl下(参见例如,Anderson和Young,Quantitative Filter Hybridization,inNucleic Acid Hybridization(1985))。其他参考(例如,Allawi和SantaLucia,Jr.,Biochemistry,36:10581-94(1997))包括计算的替代方法,其中考虑将结构和环境以及序列特征用于Tm的计算。
通常,杂合体的稳定性是离子浓度和温度的函数。通常,在较低严格性条件下进行杂交反应,随后以不同但更高的严格性洗涤。示例性严格条件包括在约7.0至约8.3的pH以及至少25℃的温度下,至少0.01M至不超过1M钠离子浓度(或其他盐)的盐浓度。例如,5×SSPE条件(在pH 7.4下,750mM NaCl,50mM磷酸钠,5mM EDTA)和约30℃的温度适于等位基因特异性杂交,不过合适的温度与杂交区域的长度和/或GC含量相关。一方面,确定错配百分比中的“杂交的严格性”可如下所示:1)高严格性:0.1×SSPE,0.1%SDS,65℃;2)中等严格性:0.2×SSPE,0.1%SDS,50℃(也称为中度严格性);和3)低严格性:1.0×SSPE,0.1%SDS,50℃。应理解,使用替代缓冲液、盐和温度可以达到等效严格性。例如,中等严格性杂交可以是指允许诸如探针的核酸分子结合互补核酸分子的条件。杂交核酸分子一般具有至少60%同一性,包括例如至少70%、75%、80%、85%、90%或95%同一性中的任一者。中等严格性条件可以是等效于以下的条件:在50%甲酰胺,5×邓哈特溶液(Denhardt’s solution),5×SSPE,0.2%SDS中在42℃下杂交,随后在0.2×SSPE,0.2%SDS中在42℃下洗涤。例如,高严格性条件可如下提供:在50%甲酰胺,5×邓哈特溶液,5×SSPE,0.2%SDS中在42℃下杂交,随后在0.1×SSPE和0.1%SDS中在65℃下洗涤。低严格性杂交可以是指等效于以下的条件:在10%甲酰胺,5×邓哈特溶液,6×SSPE,0.2%SDS中在22℃下杂交,随后在1x SSPE,0.2%SDS中,在37℃下洗涤。邓哈特溶液含有1%Ficoll、1%聚乙烯吡咯烷酮和1%牛血清白蛋白(BSA)。20×SSPE(氯化钠、磷酸钠、EDTA)含有3M氯化钠、0.2M磷酸钠和0.025MEDTA。其他合适的中度严格性和高严格性杂交缓冲液和条件是本领域技术人员所已知的,并且描述于例如Sambrook等人,Molecular Cloning:A Laboratory Manual,第2版,Cold SpringHarbor Press,Plainview,N.Y.(1989);和Ausubel等人,Short Protocols in MolecularBiology,第4版,John Wiley&Sons(1999)。
或者,当RNA或DNA链将与其补体在选择性杂交条件下杂交时,存在基本互补性。通常,当在至少14至25个核苷酸的序列段上存在至少约65%互补,优选至少约75%,更优选至少约90%互补时,将会发生选择性杂交。参见M.Kanehisa,Nucleic Acids Res.12:203(1984)。
本文所用的“引物”可以是天然的或合成的寡核苷酸,能够在与多核苷酸模板形成双链体后充当核酸合成的启动点,并且能够沿模板从其3'端延伸,从而形成延伸的双链体。通过模板多核苷酸的序列来确定延伸过程中加入的核苷酸序列。通常用聚合酶,例如DNA聚合酶使引物扩增。
“基本上非荧光”的部分是指近似或基本上不发出可检测荧光的部分。例如,在荧光部分和基本上非荧光部分大约相同浓度下,来自荧光部分的可检测绝对荧光发射与来自基本上非荧光部分的可检测绝对值荧光发射的比例为通常大于或等于约500:1,更通常大于或等于约1000:1,更加通常大于或等于约1500:1(例如,约2000:1、约2500:1、约3000:1、约3500:1、约4000:1、约4500:1、约5000:1、约104:1、约105:1、约106:1、约107:1或约108:1)。
“序列测定”等,诸如核苷酸测序方法,包括核酸的核苷酸碱基序列相关信息的测定。该信息可以包括核酸的部分以及全部序列信息的确认或测定。可以用不同程度的统计可靠性或置信度来确定序列信息。一方面,该术语包括确定核酸中多个邻接核苷酸的同一性和排序。“高通量测序”或“下一代测序”包括使用以固有平行方式确定很多(通常数千至数十亿)核酸序列的方法的序列测定,即其中DNA模板被制备用于不是一次一个测序,而是批量处理,并且优选平行读出很多序列,或者使用自身可以平行化的超高通量系列处理。此类方法包括但不限于焦磷酸测序(例如,如由454Life Sciences,Inc.,Branford,CT商业化);通过连接测序(例如,如在SOLiDTM技术,Life Technologies,Inc.,Carlsbad,CA中商业化);通过使用修饰核苷酸合成来测序(诸如在TruSeqTM和HiSeqTM技术中由Illumina,Inc.,San Diego,CA商业化;在HeliScopeTM中由Helicos Biosciences Corporation,Cambridge,MA商业化;以及在PacBio RS中由Pacific Biosciences of California,Inc.,MenloPark,CA商业化),通过离子检测技术(诸如Ion TorrentTM技术,Life Technologies,Carlsbad,CA)测序;DNA纳米球的测序(Complete Genomics,Inc.,Mountain View,CA);基于纳米孔的测序技术(例如,如Oxford Nanopore Technologies,LTD,Oxford,UK所开发),和例如高度并行化的测序方法。
在本文公开的任何实施方案中,获得目标多核苷酸的序列信息的方法可以在多重测定中进行。本文的“多重化”或“多重测定”可以是指测定或其他分析方法其中多个目标(例如多条核酸序列)的存在和/或量可同时被测定,其中每个目标具有至少一种不同的检测特性,例如,荧光特性(例如激发波长、发射波长、发射强度、FWHM(最大峰值一半处的全宽)或荧光寿命)或独特的核酸或蛋白序列特性。
在本文公开的任何实施方案中,目标多核苷酸的测序反应可在阵列,诸如微芯片上进行。阵列可包括例如由设置于阵列上的多个反应室创建的多个反应体积。目标核苷酸序列或其片段可被固定或者固定化于反应体积中,诸如通过吸附或特异性结合到每个反应体积中固体载体上的俘获分子上。在反应混合物中提供反应液并递送至每个反应体积之后,每个反应体积可被封闭和/或与阵列上的其他反应体积分开。然后,可以由每个反应体积检测和/或记录诸如荧光信息的信号。
在本文公开的任何实施方案中,阵列可以是可寻址的。一方面,可寻址性包括微芯片的能力,所述能力引导诸如核酸和酶以及其他扩增组分的物质从微芯片上的一个位置到另一位置(芯片的捕获位点)。在另一方面,可寻址性包括空间编码每个阵列斑点(arrayspot)上的测序反应和/或其测序产物的能力,使得在序列读出之后,测序反应和/或其测序产物可被映射回阵列上的特定斑点,并且与来自该特定斑点的其他识别信息相关联。例如,空间编码标签可被缀合于目标多核苷酸,使得当对缀合目标多核苷酸进行测序时,标记序列揭示了阵列目标所在的位置。
II.测序方法
一方面,本文公开了通过使用磷酸修饰荧光团来对核苷酸分子进行测序的方法。在另一方面,本文公开了使用荧光切换荧光团修饰的核苷酸分子的测序方法。
一方面,本文公开了混合核苷酸的测序方法。在具体实施方案中,本文公开了使用磷酸修饰具有荧光团的混合核苷酸分子的测序方法。此外,本公开还涉及基于具有荧光切换性质的荧光团的测序方法。
一方面,本文公开了使用混合核苷酸分子的测序方法。在具体实施方案中,本文公开了通过使用修饰的具有荧光团的混合核苷酸分子的测序方法。此外,本发明还涉及基于具有荧光切换性质的荧光团的测序方法。本发明将荧光切换测序和混合核苷酸分子测序结合起来,实现了预料不到的技术结果。特殊的信号采集方法和效率使其在基因测序方面前景广阔。
一方面,本文公开了使用核苷酸底物分子的测序方法,其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;每轮测序使用一组反应液,每组反应液包括两份反应液,每份反应液包含具有不同碱基的两种核苷酸。在一个实施方案中,一份反应液中的核苷酸与待测核苷酸序列上的两种碱基互补,另一份反应液中的核苷酸与待测核苷酸序列上的另外两种碱基互补。在一个实施方案中,所述方法包括首先提供待测的核苷酸序列片段(例如,通过将核苷酸序列固定在固体载体上),然后提供一组反应液中的第一反应液,从而开始第一轮测序。在一个实施方案中,所述方法包括检测和记录来自第一轮测序的荧光信号。在一个实施方案中,所述方法则包括提供同一组反应液的第二反应液,以继续第一轮测序。再次检测和记录荧光信号。一方面,重复上述步骤,第一和第二反应液可以按任何合适顺序相继提供,以通过分析荧光信号获得待测核苷酸序列的编码信息。
在一个实施方案中,每份反应液包含具有不同碱基的两种核苷酸,可以用两种不同的或相同的荧光团标记。
在任何前述实施方案中,可通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面,荧光切换性质是指测序后的荧光信号相比测序反应前的情况有明显改变。
在任何前述实施方案中,荧光切换性质可以是指测序后荧光信号相比测序反应前有明显增强(或者说上升)。
一方面,本文还公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法。一方面,通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面,荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强。每轮测序使用一组反应液,每组反应液包括两份反应液,每份反应液包含两种不同碱基的核苷酸底物分子。一方面,其中一份反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一份反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补。一方面,所述方法包括将待测的核苷酸序列片段固定在反应室中,然后通入一组反应液中的第一反应液。一方面,所述方法包括使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换。一方面,所述方法包括通入同一组反应液的第二反应液。一方面,所述方法包括使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换。一方面,所述方法包括以交替方式加入两份反应液,以及通过荧光信息获得待测核苷酸底物的编码信息。
在另一方面,本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法。一方面,通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面,荧光切换性质是指测序后荧光信号强度相比测序反应前的荧光信号强度有明显增强。一方面,每次测序运行使用一组反应液,每组反应液包括至少两份反应液,每份反应液包含A、G、C或T核苷酸底物分子中的至少一种或者A、G、C或U核苷酸底物分子中的至少一种。一方面,首先将待测的核苷酸序列片段固定在反应室中,在反应室中加入来自一组反应液的反应液。测序反应可在合适条件下开始,并记录荧光信号。然后,每次提供一份附加反应液,使得在测序反应中相继提供同一组反应液中的其他反应液。同时,记录来自每份反应液的一个或多个荧光信号。一方面,在包含两种或三种核苷酸分子的反应液组中有至少一份反应液。
在另一方面,本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法,该测序方法是通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸实现的。一方面,荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强。一方面,每次测序运行使用一组反应液,每组反应液至少包括两份反应液,每份反应液包含A、G、C、T核苷酸底物分子中的任一种,或者每份反应液包含A、G、C、U核苷酸底物分子中的任一种。一方面,所述方法包括首先将待测的核苷酸序列片段固定在反应室中,然后通入一组反应液中的一份反应液。一方面,所述方法包括测试和记录荧光信息。一方面,所述方法包括每次加入一份反应液,然后相继加入同一组反应液中的其他反应液。记录来自每次测序反应的荧光信息。
在另一方面,本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法,通过修饰具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序,荧光切换性质是指测序后荧光信号的强度相比测序反应前的情况明显增强。一方面,每轮测序使用一组反应液,反应液包含A、G、C、T四种核苷酸底物分子,或者反应液包含A、G、C、U四种核苷酸底物分子。一方面,所述方法包括将待测的核苷酸序列片段固定在反应室中,通入反应液,以及记录荧光信息。
在任何前述实施方案中,所述方法还可包括用清洗液清除残留的反应液和荧光分子,然后进行下一轮测序反应。在任何前述实施方案中,反应液可在低温下加入,然后加热至酶反应温度,其中对荧光信号进行检测。在任何前述实施方案中,在反应混合物中加入反应液之后,可封闭反应室,并且可检测和/或记录荧光信息。
在任何前述实施方案中,加入反应液之后,可以用油填充反应室外面的空间,从而将反应室隔离并封闭。在任何前述实施方案中,多聚磷酸的核苷酸底物分子可以是指具有4至8个磷酸分子的核苷酸。在任何前述实施方案中,修饰的具有荧光团核苷酸底物分子可以用一种荧光基团标记,以进行单色测序;或者用不同的荧光团标记,以进行多色测序。
在任何前述实施方案中,所述方法可包括使用酶释放具有荧光切换性质的荧光团的核苷酸底物上的荧光团,其中该酶可任选地包括DNA聚合酶和/或碱性磷酸酶。
在任何前述实施方案中,其中待测核苷酸序列上的两个碱基可包括A、G、C和T碱基或者A、G、C和U碱基中的任何两种;其中碱基C是甲基化C或非甲基化C。
在任何前述实施方案中,反应液可包含酶,即将反应液通入待测基因片段所在的反应区域时,所包含的酶可将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放。
在任何前述实施方案中,反应液和酶可不同时加入;即首先通入一组反应液中的第一反应液,然后通入酶溶液;接下来,通入同一反应液组中的第二反应液,然后通入酶溶液。
在任何前述实施方案中,一组反应液可用于进行一轮测序,或者两组反应液可用于进行两轮测序,或者三组反应液可用于三轮测序。
在任何前述实施方案中,所述方法可包括使用一组反应液进行一轮测序以及获得简并代码结果。
在任何前述实施方案中,所述方法可包括使用两组反应液进行两轮测序,获得碱基序列信息。
在任何前述实施方案中,所述方法可包括用三套反应液进行三轮测序,基于三轮测序之间的交互信息(mutual information)中(任意)两轮测序的(对比)结果进行错误检查和校正。
在任何前述实施方案中,具有荧光切换性质的荧光团可包括具有甲基荧光素、卤代甲基荧光素、DDAO、试卤灵(resorufin)类结构的荧光团。
在任何前述实施方案中,所述方法可包括使用酶将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放,其中最优化任选地包括首先使用DNA聚合酶将多磷酸取代的荧光团释放,然后使用磷酸酶将取代多磷酸切除,从而释放荧光团。
在任何前述实施方案中,反应液可包含两种或多种具有不同碱基的核苷酸,可将该反应液简单分解成两种或者多份反应液,使得每份反应液包含一种或多种核苷酸;并且,至少一份反应液中可包含两种或者三种具有不同碱基的核苷酸。
本文还公开了根据任何前述实施方案的高通量测序方法,其中测序反应在具有多个反应室的芯片上进行。所述方法可任选地包括将待测的核苷酸序列片段固定在反应室中。
在另一方面,本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法,和通过使用5’端多磷酸来修饰具有荧光切换性质的荧光团的核苷酸底物分子进行测序。一方面,本文提供的方法包括首先将待测核苷酸序列片段固定化,以及加入含有核苷酸底物分子的反应液。然后,可使用酶将核苷酸底物上的荧光团释放,从而导致荧光切换。
在一个实施方案中,测序方法还包括利用清洗液清除残留的反应液以及荧光分子,然后进行下一轮测序反应。在任何前述实施方案中,测序方法可包括处于低温下的反应液,然后将该反应液加热至酶反应温度。然后可以检测和/或记录荧光信号。
在任何前述实施方案中,核苷酸底物分子可包括包含A、G、C和T碱基的核苷酸分子或者含有A、G、C和U碱基的核苷酸分子;其中C为甲基化C或非甲基化C。在任何前述实施方案中,核苷酸底物分子可包含经5’端多磷酸修饰的具有荧光切换性质的荧光团。在任何前述实施方案中,核苷酸底物分子可包含经5’端磷酸修饰的具有荧光切换性质的荧光团。
本文还公开了根据任何前述实施方案的方法,其中不同的核苷酸底物分子根据碱基不同,可以连接一种荧光团,进行单色测序,或者连接多种荧光团,进行多色测序。
本文公开了根据任何前述实施方案所述的方法,其中荧光切换性质是指每一步的测序反应后,荧光信号相比测序反应前的情况有明显增强或明显减弱,或者发射光频率范围有明显改变。
本文公开了根据任何前述实施方案所述的方法,其中荧光切换性质是指每一步的测序反应后,荧光信号相比测序反应前的情况有明显增强。
本文公开了根据任何前述实施方案的方法,其中将含有核苷酸底物分子的反应液用于测序。核苷酸底物分子是指A、G、C、T核苷酸底物分子中的任何两种或三种的混合物;或者A、G、C、U核苷酸底物分子中的任何两种或三种的混合物。
本文公开了根据任何前述实施方案的方法,其中将含有核苷酸底物分子的反应液用于测序。核苷酸底物分子是指A、G、C、T核苷酸底物分子中的任何一种;或者A、G、C、U核苷酸底物分子中的任何一种。
本文公开了根据任何前述实施方案使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法,其中每轮测序使用一组反应液,每组反应液包括至少两份反应液,每份反应液包含A、G、C、T核苷酸底物分子中的至少一种,或者每份反应液包含A、G、C、U核苷酸底物分子中的至少一种。一方面,所述方法包括固定待测的核苷酸序列片段,通入一组反应液中的一份反应液,以及记录荧光信息。一方面,所述方法包括每次通入一份反应液,并相继通入同一组反应液中的另一份反应液。一方面,反应液组中有至少一份反应液,该反应液包含两种或三种核苷酸分子。
本文公开了根据任何前述实施方案使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法,其中每轮测序使用一组反应液,每组反应液包括两份反应液,每份反应液包含具有不同碱基的两种核苷酸。一方面,其中一份反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补,另一份反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补。一方面,所述方法包括固定待测的核苷酸序列片段,以及通入一组反应液中的第一反应液。然后,加入同一组反应液中的第二份反应液。两份反应液可以交替方式相继加入,以通过荧光信息获得待测核苷酸底物的编码信息。
在任何前述实施方案中,在测序反应中加入反应液之后,可封闭反应室,然后记录荧光信号。
在任何前述实施方案中,在测序反应中加入反应液之后,用能够将反应室隔离和封闭的油或油类物质填充反应室外面的空间。
在任何前述实施方案中,多磷酸核苷酸底物可以是具有约4至约8个磷酸分子的核苷酸。
在任何前述实施方案中,一组反应液可用于进行一轮测序,或者两组反应液可用于进行两轮测序,或者三组反应液可用于三轮测序。
在任何前述实施方案中,所述方法可包括使用酶释放具有荧光切换性质的荧光团的核苷酸底物上的荧光团。酶可包括DNA聚合酶和/或碱性磷酸酶。
在任何前述实施方案中,所述方法可包括使用一组反应液进行一轮测序以及获得简并代码结果。
在任何前述实施方案中,所述方法可包括使用两组反应液进行两轮测序,以及获得碱基序列信息。
在任何前述实施方案中,所述方法可包括使用三份反应液进行三轮测序,以及基于三轮测序中任何两轮测序结果的交互信息(mutual information)进行错误检查和校正。
在任何前述实施方案中,反应液可包含酶。将反应液通入待测基因片段所在的反应区域时,所包含的酶可将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放。
在任何前述实施方案中,反应液和酶可以在不同时间加入。一方面,首先在反应中加入一组反应液的第一反应液,然后加入酶溶液。接下来,加入同一组反应液中的第二反应液,然后加入酶溶液。
在任何前述实施方案中,具有荧光切换性质的荧光团可包括包含诸如甲基荧光素、卤化甲基荧光素、DDAO(7-羟基-9H-(1,3-二氯-9,9-二甲基吖啶-2-酮))和/或试卤灵的基团的荧光团。
在任何前述实施方案中,所述具有荧光切换性质的荧光团的核苷酸底物上的荧光团的释放例如可以使用酶来优化。一方面,优化包括首先使用DNA聚合酶释放被多磷酸取代的荧光团,然后使用磷酸酶切除取代的多磷酸,以释放荧光团。
在任何前述实施方案中,反应液可包含两种或多种具有不同碱基的核苷酸。一方面,可使用两份或多份反应液,使得每份反应液包括一种或多种核苷酸。反应中加入反应液的顺序可以做出适当调整,一方面,至少一份反应液包含两种或三种具有不同碱基的核苷酸。
本文还提供了根据任何前述实施方案的高通量测序方法,其中测序反应在具有多个反应室的芯片上进行。一方面,方法包括将待测的核苷酸序列片段固定化于每个反应室中。
一方面,本发明涉及例如使用混合核苷酸分子的测序方法。更具体地,该测序方法使用修饰(例如经磷酸修饰)的具有荧光团的混合核苷酸分子。此外,本发明还涉及基于具有荧光切换性质的荧光团的测序方法。使用标记有末端磷酸的核苷酸底物对具有荧光切换性质的荧光团进行测序。具有荧光切换性质的荧光团的底物是通过5'端多磷酸或中间磷酸修饰的具有荧光切换性质的荧光团,其特征在于修饰4、5、6或更多个磷酸脱氧核糖核苷酸(包括A、C、G、T、U和其他核苷酸)的末端磷酸或中间磷酸上具有荧光切换性质的荧光团,并且在碱基和3'-羟基上没有标记。该经磷酸修饰的荧光团的吸收光谱和/或发射光谱不同于没有磷酸的荧光团的吸收光谱和/或发射光谱。测序反应通常包括连续且类似的循环。每个循环可包括这样的步骤,如样品注射/涂覆、反应、信号采集和清洗未反应的反应物分子。在之前报告的方法中,当一个带碱基的底物分子进入时,如果其未正确配对将不会出现反应;并且聚合酶将连接底物分子至3'端,释放多磷酸修饰的荧光分子,荧光光谱将会改变。如果与均聚物连续配对,则光谱将会多次改变。在实践中,作为诸如CN104844674涉及的甲基荧光素、卤化甲基荧光素、DDAO、试卤灵和荧光分子等的底物分子的修饰标记,经常使用在末端磷酸酯中没有吸收且释放状态为高量子产率的具有荧光切换性质的荧光团。可以用不同荧光分子来标记四种底物分子。测序过程通过ACGTACGT...中的样品注射或者任何循环或非循环注射过程进行,在有限的阶段中使用包含底物分子的反应液,以获得每个循环的延伸信息,然后获得DNA序列。
一方面,本发明涉及多种核苷酸的测序方法。更具体地,该测序方法使用磷酸来修饰具有荧光团的混合核苷酸分子。通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;每轮测序使用一组反应液,每组反应液包括两份反应液,每份反应液包含两种包含不同碱基的核苷酸;其中一份反应液中的核苷酸可以和待测核苷酸序列上的两种碱基互补,另一份反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补;首先,将待测的核苷酸序列片段固定,通入一组反应液中的第一份反应液;测试并记录荧光信息;然后通入同一组反应液中的第二份反应液;测试并记录荧光信息;两份反应液循环加入,通过荧光信息获得待测核苷酸底物的编码信息。
在一些实施方案中,本发明中的反应液是指一般意义上的测序反应液。使辅助溶液如其他清洗液或洗涤液进入反应液之间的空隙。一方面,每份反应液包含两种不同碱基的核苷酸,可以用不同的或相同的荧光团标记。一方面,通过修饰具有荧光切换性质荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;荧光切换性质是指测序后荧光信号相比测序反应前的情况有明显改变。
一方面,荧光切换性质是指测序后的荧光信号相比测序反应前的情况有明显增强(提升)。其发射光的频率很可能会改变,但是发射光的整体强度或发射光在某些频带的强度将会显著增强。
一方面,本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法,其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强;每轮测序使用一组反应液,每组反应液包括两份反应液,每份反应液包含两种不同碱基的核苷酸底物分子;其中一份反应液中的核苷酸底物分子可以和待测核苷酸序列上的两种碱基互补,另一份反应液中的核苷酸与待测核苷酸序列上的另外两种碱基互补。首先,可将待测的核苷酸序列片段固定在反应室中,然后通入一组反应液中的一份反应液;然后使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;然后通入同一组反应液中的第二份反应液;使用酶将具有荧光切换性质的荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换;两份反应液循环加入,通过荧光信息获得待测核苷酸底物的编码信息。
一方面,本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法,其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强;每轮测序使用一组反应液,每组反应液包括至少两份反应液,每份反应液包含A、G、C或T核苷酸底物分子中的至少一种,或者A、G、C或U核苷酸底物分子中的一种。一方面,可首先将待测的核苷酸序列片段固定在反应室中,通入一组反应液中的一份反应液;测试并记录荧光信息;每次通入一份反应液,相继通入同一组反应液中的另一份反应液。同时,可在通入每份反应液之后检验和记录荧光信息,其中反应液组中有至少一份反应液,该反应液包含两种或三种所述反应液组中的核苷酸分子。
一方面,本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法,其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强;每轮测序使用一组反应液,每组反应液包括至少两份反应液,每份反应液包含A、G、C或T核苷酸底物分子中的任一种,或者A、G、C或U核苷酸底物分子中的任一种。一方面,可首先将待测的核苷酸序列片段固定在反应室中,通入一组反应液中的一份反应液;测试并记录荧光信息;每次通入一份反应液,相继通入同一组反应液中的另一份反应液。同时,可在通入每份反应液之后测试和记录荧光信息。
一方面,本发明涉及一种利用具有荧光切换性质荧光团的核苷酸分子进行测序的方法,其中通过修饰具有荧光团的核苷酸底物分子的5’端或中间磷酸进行测序;荧光切换性质是指测序后荧光信号强度相比测序反应前的情况有明显增强;每轮测序使用一组反应液,反应液包含A、G、C和T核苷酸底物分子,或者A、G、C和U核苷酸底物分子。一方面,可将待测的核苷酸序列片段固定在反应室中,通入反应液,然后测试和记录荧光信息。
一方面,所述方法还包括利用清洗液清除残留的反应液以及荧光分子,然后进行下一轮测序反应。一方面,所述方法包括在低温下传送反应液,然后将其加热至酶反应温度,并测试荧光信号。一方面,通入反应液之后,所述方法包括将反应室封闭,然后测试和记录荧光信息。
一方面,通入反应液之后,所述方法包括用油填充反应室外部的空间,从而将反应室隔离和封闭。一方面,多磷酸的核苷酸底物分子是指具有4-8个磷酸分子的核苷酸。一方面,修饰有荧光团的核苷酸底物分子,根据碱基的不同,可以用一种荧光基团标记,进行单色测序;也可以用不同的荧光团标记,进行多色测序。
一方面,所述方法包括下列步骤:使用酶(例如DNA聚合酶和/或碱性磷酸酶)将具有荧光切换性质的荧光团的核苷酸底物上的荧光团释放。一方面,待测核苷酸序列上的两种碱基是指A、G、C和T碱基中的任何两种或者A、G、C和U碱基中的任何两种,其中碱基C是甲基化C或非甲基化C。一方面,当将反应液通入待测基因片段所位于的反应区域时,反应液中的酶可以释放具有荧光切换性质的荧光团的核苷酸底物上的荧光团。一方面,所述方法包括使用一组反应液进行一轮测序,以及获得简并代码结果。一方面,所述方法包括使用两组反应液进行两轮测序,以及获得碱基序列信息。一方面,所述方法包括使用三份反应液进行三轮测序,并基于三轮测序之间的交互信息中(任意)两轮测序结果进行错误检查和校正。
一方面,本发明涉及混合核苷酸分子的测序方法。更具体地,该测序方法使用磷酸来修饰具有荧光团的混合核苷酸分子。相比未经磷酸修饰的混合核苷酸的测序方法,本方法容易水解,反应完成后未引入其他基团,这有利于延伸测序反应,并且测序反应简单。
一方面,本发明涉及通过使用5’端多磷酸来修饰具有荧光切换性质的荧光团的核苷酸底物分子的混合核苷酸分子的测序方法。一方面,所述方法包括首先固定待测的核苷酸序列片段,并通入包含核苷酸底物分子的反应液。一方面,所述方法包括使用酶将具有荧光切换性质荧光团的核苷酸底物上面的荧光团释放,从而导致荧光切换。一方面,所述方法还包括利用清洗液清除残留的反应液以及荧光分子,然后进行下一轮测序反应。
在另一个实施方案中,本发明将荧光切换测序和混合核苷酸分子测序结合起来,实现了预料不到的效果。例如,用荧光切换为混合核苷酸分子测序提供了数据冗余和检查的特性,改进了测序数据的准确性。而且,3'端封闭测序还使得序列反应中并不需要实时采集信息,提高了信号的准确性。独立于测序化学原理本身,可与不同的测序化学配合。更进一步的,荧光切换性质的2+2模式(每次进入两个碱基的测序方式)与其它混合核苷酸分子测序相比优势明显。例如,数据解析相对容易,并且还提供了数据冗余和校验的特性。特殊的信号采集方法和效率使其在基因测序方面前景广阔。基于荧光切换的多碱基测序,相比基于非荧光切换的核苷酸分子测序,降低了错误率,并且使得反应更加简单。采用本公开的荧光切换方法的混合核苷酸分子测序方法具有高达99.99%的测序准确率,超过Illumina测序的读长,可以达到300nt或300nt以上,并且原料成本非常低。其采用先反应后扫描的方法,无通量的限制。其单轮反应所需时间较短,可以做到快速测试。采用荧光切换和多种核苷酸分子混合测序的策略,可以延长每个反应循环的序列读长和信息量。比如,Illumina测序每个反应循环读长为1nt(1个碱基),信息量为2比特。2+2(每次进入两种具有不同碱基的核苷酸分子,使用共计两份反应液)单色测序在每个反应循环的读长为2nt,信息量为2比特。一方面,2+2双色测序在每个反应循环的读长为2nt,信息量为3.4比特。
在一些方面,本文提供荧光发生和荧光发生荧光团。一些荧光团具有取代基发生改变时,荧光光谱(吸收和反射光谱)发生变化的特性,称为荧光切换。一方面,当在特定的激发和采集(发射)条件下,采集到的信号强度上升,称为荧光发生。
在一些方面,本文提供核苷酸和核苷酸标记。一方面,核苷酸分子由核糖骨架,葡糖苷位置上的碱基分子,以及核糖骨架上的5位羟基上连接的多磷酸链构成。核糖环的2C上可以连接有羟基(成为核糖核苷酸),或仅连接有H(称为脱氧核糖核苷酸)。核苷酸分子可以是4种主要碱基ACGT、尿嘧啶和修饰了的碱基如甲基化碱基、羟甲基化碱基等。磷酸骨架的数目可以为1-8个。其可在多个位置修饰分子基团。在碱基上,核糖骨架的3C羟基上可以有一个或多个修饰位置。例如,磷酸上修饰了荧光团,3C上修饰了乙炔基。
一方面,在发生聚合酶链式反应时,3C上未修饰的多磷酸核苷酸底物(多于3个磷酸)具有3个活性羟基。一方面,只要接下来的碱基依旧可以配对,则聚合酶反应会持续发生,直到缺少配对碱基或结合了3C非羟基的核苷酸分子。在一些方面,本文提供荧光发生核苷酸。一方面,核苷酸分子处于磷酸末端并且标记可被磷酸水解过程切换的荧光发生荧光团,称为荧光发生(或荧光生成)核苷酸。磷酸链的长度可以是4-8。
一方面,磷酸可在末端或侧链上。标记数目可为一个或多个。多个标记可相同或不同。更准确地说,一方面,称其为聚合酶荧光发生核苷酸。另一方面,也可使用不标记在磷酸位置上,也不需要聚合酶的荧光发生的荧光发生核苷酸。核苷酸分子可为核糖核苷酸、脱氧核糖核苷酸或3’C上修饰了的(脱氧)核糖核苷酸。
在一些方面,本文提供荧光发生核苷酸聚合酶反应。一方面,荧光发生核苷酸聚合酶反应使用荧光发生核苷酸,核酸聚合酶(DNA聚合酶),磷酸酶,与核酸底物一起。在一些实施方案中,首先,DNA聚合酶将荧光发生核苷酸聚合进入核酸底物中,以释放出磷酸化的荧光发生荧光团,然后进一步被磷酸酶水解去除磷酸,并释放荧光状态改变的荧光发生荧光团。
在一些方面,本文提供荧光发生测序方法。一方面,所述方法的目的是利用荧光发生核苷酸聚合酶反应,测试荧光发生荧光团的荧光改变(光强度和光谱),便可以得到聚合酶发生反应的信息。在一些方面,本文提供荧光发生测序反应液,可包含荧光发生核苷酸、核酸聚合酶(DNA聚合酶)和磷酸酶。
如本文所述的“荧光发生核苷酸”可包含一种或多种荧光发生核苷酸。如本文所述的“核苷酸”可包含一种或多种核苷酸。在一些实施方案中,多种核苷酸可标记有相同或不同的荧光发生底物。在一些方面,本文提供一套荧光发生测序反应液,可包含两种或多种荧光发生测序反应液,例如包含特定浓度的A、C、G和T反应液,或包含特定浓度的AC和GT反应液。
在一些方面,本文提供荧光测序反应循环,可包括使用一种测序反应液来进行一次荧光发生聚合酶反应并测试荧光信号。在一些方面,本文提供一轮荧光发生测序反应,可包括使用一套荧光发生测序反应液组的成员,按照确定顺序进行测序反应循环。在一些方面,本文提供一组荧光发生测序反应,可包括一轮或多轮荧光发生测序。
在一些方面,本文提供单碱基分辨测序反应。一方面,一种方式是(2+2单色两套),第一份反应液由两种碱基混合(如AC),第二份反应液由另外两种碱基混合(则为GT),将两份反应液交替用于测序。这时,每个循环延伸碱基的数目会增加。在N轮测序后,延伸碱基的数目为2N nt。携带的信息为2N比特。完成上述测序的有3个组合,即AC/GT、AG/CT和AT/CG;或按照标准简并碱基(简并核苷酸)标识,写作M/K、R/Y和W/S。三种组合可以分别测序,或再完成一套测序后,再重新测序。DNA序列上测定的第i个碱基一定在两套测序中的某唯一循环中发生配对反应并释放信号。每套测序中,确定的碱基取样注射循环包括两种类型,所以共有2×2=4种可能的情况,正好对应于四种碱基。测序组合的先后顺序不影响碱基的推断。
表1
表2
表3
在进一步的具体实施中,所述方法还包括在完成两套不同的测序后,使用第三套不同的反应液组合进行测序。DNA序列上测定的第i个碱基必须在三套测序中的某唯一循环中发生配对反应并释放信号。每套测序中,确定的碱基取样注射循环包括两种类型,所以共有2×2×2=8种可能的情况,只有其中四种是合理的,另外四种不合理。在荧光切换测序中,很可能出现插入或删除错误。针对某一碱基,三套测序中的一套出现测序错误,则无法正确推断出序列,并可断定三套测序中的一套或多套在此处定有测序错误出现。
表4
这种错误可以被校正,因为当单套数据中的测序错误被校正时,后续的大量错误会一并被校正。
另一种具体实施方式是2+2双色两轮模式。第一份反应液由两种碱基的混合物制成,并且携带不同的荧光标记(如AX/CY),第二份反应液由另外两种碱基的混合物制成(则为GX/TY)。在此情况下,每个循环延伸的碱基会变多,平均为2nt。携带的信息为2N比特。
III.检测和/或校正测序错误的方法
一方面,本文涉及检测和/或校正测序结果中一个或多个序列数据错误的方法,属于核酸测序领域。
一方面,本文提供检测和/或校正测序结果中序列数据错误的方法。一方面,测序反应液包含至少两种类型的具有不同碱基的核苷酸底物分子。一方面,可获得简并基因编码信息。通过对比两种或多种简并编码信息,可以确定一种或多种核苷酸残基中是否出现冲突序列信息。使用本方法来校正序列信息,任何可减少原测序数据中测序错误率的较小改进均可导致校正的序列信息错误率更显著的减少。
一方面,本文公开了检测和/或校正测序结果中序列数据错误的方法。一方面,所述方法包括对核酸序列进行测序,以获得三条或多条正交核苷酸简并序列的序列数据。在另一方面,所述方法还包括通过对比三条或多条正交核苷酸简并序列,检测序列中的错误。一方面,在对比出现错误的位置,通过修改至少一条序列,获得校正的序列。
本文还公开了检测和/或校正测序结果中序列数据错误的方法,其中所述方法包括对核苷酸序列进行测序反应,以获得三条或多条用字母M、K、R、Y、W、S、B、D、H和V表示的简并序列。一方面,根据IUPAC的核酸符号,用表5中的字母表示本发明中的简并碱基。例如,M代表A和/或C碱基。
表5:表示简并碱基的字母
在任何前述实施方案中,通过对比三条或者多条简并序列,可以检测序列错误。在任何前述实施方案中,在对比期间识别出错误的核苷酸位置,通过修改至少一条序列,可以获得校正的序列;在任何前述实施方案中,对比期间识别出错误的位置可以是测序错误实际发生的位置。
在另一方面,本文公开了检测和/或校正测序结果中序列数据错误的方法,其中所述方法包括对相同核酸序列进行测序,获得两条或多条用字母M、K、R、Y、W、S、B、D、H和V表示的简并序列,以获得核酸残基A、G、T和C中表示的序列信息或核酸残基A、G、U和C中表示的序列信息。在另一方面,所述方法还包括通过使用在测序反应中偶联至不同碱基的一个或多个官能团所产生的光或电信号来检测序列错误。例如,来自在测序反应中偶联至不同碱基的不同荧光基团的光或电信号可用作“冗余”信息,该信息区分序列中特定位置处的一个碱基与另一碱基。在任何前述实施方案中,在对比期间发现错误的核苷酸位置,通过修改至少一条序列,可以获得校正的序列;在任何前述实施方案中,对比期间识别出错误的位置可以是测序错误实际发生的位置。
另一方面,本文公开了利用核酸序列的记忆性来检测和/或校正测序结果中的序列错误的方法。一方面,所述方法包括对同一核酸序列进行测序,以获得三条或者三条以上正交的核酸简并序列的数据。在另一方面,所述方法还包括综合对比简并序列,以及利用核酸序列的记忆性来检测序列错误。一方面,在对比出现错误的位置,通过修改至少一条序列,可以获得校正的序列。在一些实施方案中,每条简并序列仅代表实际多核苷酸模板的部分序列信息,并且在一条简并序列位置的核苷酸同一性不能表明或不一定表明在另一条简并序列的相同位置的核苷酸同一性。
一方面,本文公开了检测和/或校正测序结果中序列数据错误的方法,其中所述方法包括将序列待测的核酸片段固定在载体上,以及提供反应液以引发测序反应,从该测序反应中获得简并核酸序列。测序反应可重复多轮,使得从每轮测序获得简并核酸序列。N轮测序后,可获得N条简并核酸序列。一方面,通过综合对比N条简并序列,可以检测序列出现错误的位置。一方面,所述方法还可包括在对比出现错误的位置,通过修改至少一条序列,获得校正的序列。在任何前述实施方案中,反应液可包含两种或者多种类型的具有不同碱基的核苷酸底物分子。在任何前述实施方案中,N可以是等于或大于2的正整数。
在任何前述实施方案中,所述方法可包括对比N条简并核酸序列中的N-1条,以获得用A、G、T和C编码的核酸序列信息或用A、G、U和C编码的核酸序列信息。一方面,所述方法还包括对比N条简并核酸序列。在任何前述实施方案中,N可以是等于或大于3的正整数。
在任何前述实施方案中,所述方法可包括对比N条简并核酸序列,以获得用A、G、T和C编码的核酸序列信息或用A、G、U和C编码的核酸序列信息。一方面,所述方法还包括通过使用偶联至核苷酸残基的两个或多个官能团提供的光和/或电磁信息,检测出现错误的位置。在任何前述实施方案中,N可以是等于或大于2的正整数。
在另一方面,本文公开了检测和/或校正测序结果中序列数据错误的方法,其中该方法包括将待测核酸片段固定在载体上。一方面,所述方法还包括提供反应液以引发测序反应,其中所述反应液包含用于测序的核苷酸底物分子并且根据不同碱基被分为三组,每组包括两种不同反应液,每份反应液包含具有不同碱基的核苷酸底物分子。一方面,同一组反应液中两份反应液中的核苷酸的碱基之间没有交集(intersection)。一方面,每轮测序使用一组反应液,提供每组的两份反应液,从而与核酸模板以任何合适的顺序相继反应。一方面,使用三组反应液进行三轮测序,以得到三条简并序列。另一方面,通过综合对比三条简并序列,可以检测序列出现错误的位置。在一个实施方案中,在对比出现错误的位置,通过修改至少一条序列,可以获得校正的序列。
在任何前述实施方案中,测序反应可通过使用具有荧光切换性质的荧光团修饰的核苷酸底物分子(诸如dNTP或ddNTP)进行,其中修饰是在核苷酸底物分子的5’-端多磷酸基团上。一方面,荧光切换性质可以是指测序之后的荧光信号相比测序反应前的情况有明显改变。在另一方面,将核苷酸底物经聚合酶催化并入延伸引物后出现荧光切换。一方面,将待测的核苷酸序列片段固定于载体上,然后提供包含核苷酸底物分子的反应液,从而与模板核苷酸序列片段反应。一方面,然后将酶用于从并入延伸引物(和双链体聚合酶延伸产物)的核苷酸底物释放荧光基团,以导致荧光切换。
一方面,每一步的测序反应后,荧光信号相比测序反应前的情况可明显增强或减弱,或者发射光的频率明显改变。
在任何前述实施方案中,序列错误可包括插入和/或删除。在任何前述实施方案中,当至少两条简并核酸序列在某位置不具有公共碱基时可以认为在该位置出现了序列数据错误。
在任何前述实施方案中,校正序列错误可包括校正至少一条序列的核苷酸残基,使得校正的序列在校正的核苷酸残基后面的至少一个位置具有正确核苷酸残基。一方面,如果在相同核苷酸残基位置确定的任何两轮序列的核酸序列信息与另一轮测序的核酸序列信息并没有不一致,则核苷酸残基是正确的。
在任何前述实施方案中,校正序列错误可包括校正至少一条序列的错误,使得在序列的至少一个位置的公共核苷酸残基可通过对比来自多轮测序的序列信息获得。
在任何前述实施方案中,校正序列错误可包括延伸(例如,通过在认为已出现错误的位置插入核酸残基)和/或缩短(例如,通过删除在认为已出现错误的位置的核酸残基)表示来自多轮测序的核酸序列信息的序列。一方面,通过延伸和/或缩短来自多轮测序的至少一条序列,校正的序列将与来自至少一个核苷酸残基位置的其他轮的序列一致。
在任何前述实施方案中,核酸序列的记忆性可以是指在测序结果中,在特定位置的核酸序列信息不仅涉及模板中其相应核酸中的核苷酸残基,还涉及该序列信息之前的序列信息。
在任何前述实施方案中,使用来自其他两轮测序的测序信号,可以将测序信号中的序列延伸(例如,通过在认为已出现错误的位置插入核酸残基)某些长度,以获得校正的核酸序列。在任何前述实施方案中,使用来自其他两轮测序的测序信号,可以将测序信号中的序列缩短(例如,通过在认为已出现错误的位置删除核酸残基)某些长度,以获得校正的核酸序列。
在任何前述实施方案中,反应液可以根据不同碱基被分为三组,其中碱基包括A、G、C和T碱基或者A、G、C和U碱基。在任何前述实施方案中,碱基可以被甲基化,羟甲基化或被醛基或羧基修饰,或者非甲基化、非羟甲基化,或不被醛基或羧基修饰。
在任何前述实施方案中,核苷酸底物反应液可包含不同碱基,可以根据不同碱基被分为两份反应液,例如,一份反应液中A+G而另一份反应液中C+T;一份反应液中A+C而另一份反应液中G+T;或一份反应液中A+T而另一份反应液中C+G。
在任何前述实施方案中,反应液可包括多份反应液,一份反应液可用于测序反应。一方面,每轮测序使用一份或多份反应液。在另一方面,至少一份反应液包含两种或者多种类型的具有不同碱基的核苷酸底物分子。在任何前述实施方案中,不同轮测序中使用的反应液包含不同的核苷酸底物分子组合。
在任何前述实施方案中,核苷酸底物分子可通过荧光进行标记。一方面,荧光基团(或通过化学反应将具有荧光切换性质的官能团)被偶联至核苷酸残基的碱基。一方面,可使用荧光团或官能团中的一种修饰核苷酸底物分子,或者可以使用多个荧光团或官能团,用不同碱基修饰核苷酸底物分子。
随着近年来人们对基因的理解日益深入,基因测序已经为药学和生物学带来巨大变化。常规测序方法包括桑格DNA、限制性片段长度多态性、单链构象多态性以及基于基因芯片的等位基因特异性寡核苷酸杂交测序方法。由于测序过程中的各种影响因素,诸如不准确的CCD发光、流体移动、环境光、杂DNA、信号校正系统出错或测序反应液不纯,在测序结果中会不可避免地出现错误。作为遗传物质,DNA存储了生物体遗传信息,这一特征也使得DNA能够被用作基本信息的存储介质。当将DNA用于储存信息时,需要将该信息编码至DNA序列中,然后用基因测序方法读取信息。为避免编码和/或读数错误,冗余信息经常会被引入编码过程,会将其用于进行读数中的信号校正。例如,George Church等人,“Next-Generation Digital Information Storage in DNA,”Science,2012,使用Reed Solomon代码将信息编码至DNA序列中,并且使用Illumina测序平台读取DNA序列中的信息。DNA编码-读数技术也用于组合化学及其他领域。在之前的DNA编码技术中,每个碱基的类型通常与其他位置的碱基无关(无记忆编码),或仅与其邻近的碱基有关。本文提供基于记忆的、分布式、正交DNA编码方法,并且每个碱基的类型与其前面位置的所有碱基有关。此外,方法可基于多组正交代码的综合对比,有效改进编码读数过程直到解码的准确率。
一方面,本发明提供测序结果中编码错误的检测和/或校正方法,其中所述方法包括对同一核酸序列进行测序,以获得三条或多条正交的核苷酸简并序列数据,其中通过对比三条或多条正交的核酸简并序列,可以检测序列中的错误,并且其中通过在对比期间发现错误的位置修改至少一条序列,可以获得校正的序列。
一方面,本发明提供测序结果中代码错误的检测和/或校正方法,其中所述方法包括对同一核酸序列进行测序,以获得三条或多条用字母M、K、R、Y、W、S、B、D、H和V表示的简并序列数据,其中通过对比三条或多条简并序列,可以检测序列中的错误,并且其中通过在对比期间发现错误的位置修改至少一条序列,可以获得校正的序列。一方面,方法适用于常规测序。在另一方面,只要合理设计测序底物,可通过多轮测序获得三个或多个编码结果,其中信息的冗余可用于检测和/或校正错误代码。
一方面,本发明提供利用基因代码的记忆性检测和/或校正代码错误的方法,其中该方法包括对同一核酸序列进行测序,以获得两条或者多条用字母M、K、R、Y、W、S、B、D、H、V表示的简并序列,或者获得用A、G、T、C编码的核酸序列信息,或者用A、G、U、C编码的核酸序列信息,其中将测序反应中由不同碱基上连接的不同官能团导致的光或电信号作为冗余信息,从而检测序列错误,其中通过在对比期间发现错误的位置修改至少一条序列,可以获得校正的序列。
一方面,本发明提供利用基因代码的记忆性检测和/或校正代码错误的方法,其中该方法包括对同一核酸序列进行测序,以获得三条或者多条正交的核苷酸简并序列数据,以及将简并序列综合对比,并利用核酸序列的记忆性检测序列错误,其中通过在对比期间发现错误的位置修改至少一条序列,可以获得校正的序列,其中在简并序列中,每个序列信号表示部分基因序列信息,其中并不能从中间一个此类简并序列上的信号来推定另一条简并序列上同一位置的信号。
在任何前述实施方案中,所述方法可包括将待测核酸片段固定在载体上,提供反应液以引发测序反应,使得每轮测序均获得简并核酸序列;至少经过N轮测序,获得N条简并的核酸序列,其中通过综合对比N条简并序列,可以检测序列出现错误的位置,其中通过在对比期间发现错误的位置修改至少一条序列,可以获得校正的序列,其中反应液可含有两种或者多种类型的具有不同碱基的核苷酸底物分子,并且其中N为等于或大于2的正整数。
一方面,通过对比N-1条简并的核酸序列,可以获得用A、G、T、C编码的核酸序列信息,或用A、G、U、C为编码的核酸序列信息,并且通过对比N条简并的序列,可以检测序列错误的位置。N可以是等于或大于3的正整数。
一方面,通过对比N条简并的核酸序列,可以获得用A、G、T、C编码的核酸序列信息,或用A、G、U、C为编码的核酸序列信息,并且通过对比N条简并的序列,可以检测序列错误的位置。一方面,出现错误的位置可使用连接于碱基的两个或多个官能团所提供的发光信息检测,并且N为等于或大于2的正整数。在另一方面,所述方法包括在反应过程中释放的磷酸和氢离子等分子的信息的测序反应中,将碱基自身的信息变化作为冗余信息,从而进行校正。
一方面,本发明提供检测和/或校正测序结果中代码错误的方法,其中该方法包括固定待测核酸片段,提供反应液以引发测序反应,其中根据不同碱基将用于测序的核苷酸底物分子的反应液分为三组,每组包括两份不同反应液,每份反应液包含具有不同碱基的核苷酸底物分子。一方面,两份反应液中的核苷酸的碱基之间没有交集。在另一方面,每轮测序使用一组反应液,每组的两份反应液交替提供。一方面,所述方法包括使用三组反应液进行三轮测序,以获得三条简并序列,出现错误的位置可通过综合对比三条简并序列来检测,并且可通过在对比期间发现错误的位置修改至少一条序列来获得校正的序列。
一方面,可将含有两种不同碱基的反应液分为两份反应液;方法的其他步骤可以相应地调整。
一方面,反应液可包含多份反应液,一份用于每次测序,其中每轮测序使用一份或多份反应液,其中至少一份反应液含有两种或更多种类型的具有不同碱基的核苷酸底物分子,并且其中用于不同轮测序的反应液包含核苷酸底物分子的不同组合。
一方面,本发明的测序包括通过使用5’-端多磷酸修饰具有荧光切换性质的荧光团的核苷酸底物分子来测序,其中荧光切换性质是指测序后的荧光信号相比测序反应前的情况有明显改变,其中首先将待测核苷酸序列片段固定在载体上,然后提供含有核苷酸底物分子的反应液,然后使用酶将核苷酸底物上的荧光团释放,从而导致荧光切换。
一方面,“测序后荧光信号相比测序反应前有明显改变”是指,每一步的测序反应后,荧光信号相比测序反应前的情况有明显增强或明显减弱,或者发射光频率范围有明显改变。
一方面,序列错误是指插入错误或删除错误。另一方面,序列数据错误是指,当至少两条核酸序列信息在同一位置不表示相同的碱基的时候,认为出现错误。在又一方面,所述方法包括校正至少一条序列的错误,使得在至少一个位置上的后续序列是正确的,其中序列是正确的是指任何两轮序列在同一位置确定的核酸序列信息,同另一轮序列的核酸序列信息不矛盾,或者说,任何两轮序列在同一位置表示的核酸序列信息,同连接到碱基的官能团所提供的发光信息或者另一测序过程中的信息不矛盾。
一方面,所述方法包括通过以下方式校正序列:校正至少一条序列的错误,使得通过综合对比至少一个位置上的序列可以获得公共碱基。
一方面,通过修改至少一条序列,可在出现错误的位置通过延伸或缩短表示核酸序列信息的序列来获得校正的序列,其中延伸或缩短是指同一检测序列长度的增长或减短,其中当编码导致该位置缩短或延伸时,代码所表示的序列信息不变,结果为相同代码。例如,当简并代码M的信号强度为2,即MM时,可将其延伸至3,即MMM。
一方面,核酸序列的记忆性是指,测序结果中,某一位置的核酸序列信息,不仅和它所对应的待测核酸上的序列有关系,还和它前面的序列信息有关系。
一方面,通过延伸或缩短某位置的一些测序信号,将该位置所代表的基因序列延伸或缩短,以使用其他两轮测序信号获得校正的核酸序列,其中延伸测序信号包括将该位置所代表的基因序列加入或插入特定长度,其中缩短一些测序信号包括将该位置所代表的基因序列缩短或删除特定长度,以及使用其他两轮测序信号获得校正的核酸序列。
一方面,根据碱基不同将反应液分为三组,其中该碱基是指A、G、C、T碱基或A、G、C、U碱基,并且其中碱基可以是甲基化、羟甲基化、具有醛基或羧基的碱基,或者是非甲基化、非羟甲基化、无醛基或羧基的碱基。
一方面,可以将包含两种不同碱基的核苷酸底物反应液根据碱基的不同分成两份反应液。
一方面,核苷酸底物分子可通过荧光进行标记。一方面,所述方法包括对通过核苷酸底物分子的碱基上的化学反应对具有荧光切换的荧光团或官能团进行修饰。在另一方面,可使用荧光团或官能团中的一种修饰核苷酸底物分子,或者可以使用多个荧光团或官能团,用不同碱基修饰核苷酸底物分子。
一方面,通过每轮测序可以获得一组简并基因序列信息。一方面,简并基因序列信息是指包含可能的基因序列信息。例如,当反应液包含具有A和G碱基的核苷酸底物分子时,测序获得的简并基因序列信息包含待测核苷酸序列中C和/或T碱基的基因序列信息。当反应液包含具有A和T碱基的核苷酸底物分子时,测序获得的简并基因序列信息包含待测核苷酸序列中C和/或G碱基的基因序列信息。当反应液包含具有A和C碱基的核苷酸底物分子时,测序获得的简并基因序列信息包含待测核苷酸序列中C和/或T碱基的基因序列信息。当反应液包含具有C和G碱基的核苷酸底物分子时,测序获得的基因序列信息包含待测核苷酸序列中A和/或T碱基的基因序列信息。当反应液包含具有C和T碱基的核苷酸底物分子时,测序获得的基因序列信息包含待测核苷酸序列中A和/或C碱基的基因序列信息。而当反应液包含具有T和G碱基的核苷酸底物分子时,测序获得的基因序列信息包含待测核苷酸序列中C和/或A碱基的基因序列信息。
一方面,在三轮测序的信息的综合对比中,如果一轮测序的信号所表示的基因序列信息是偏大错误测序信号,则可以缩短该序列信号所表示的基因序列信息,使得后面至少一个测序信号的对比结果是正确的。
一方面,在三轮测序的信息的综合对比中,如果一轮测序的信号所代表的基因序列信息是较小错误序列信号,则可在该位置所代表的基因序列信息中加入空位或将其延伸,使得此后至少一个测序信号的对比结果得以校正。例如,当简并代码M的信号强度为2,即MM时,可将其延伸至3,即MMM。
一方面,本文提供了检测和/或校正基因测序编码结果中的错误的方法,特别是使用包含具有两种或多种碱基的核苷酸底物分子的一份或多份反应液的测序方法。在一个特定方面,本方法适用于测序用的SBS(通过合成测序)方法。
一方面,本文的简并基因序列信息包括给定目标(或模板)序列的可能的基因序列信息。例如,当反应液包含具有A和G碱基的核苷酸底物分子时,测序获得的简并基因序列信息包含待测核苷酸序列中C和/或T碱基的基因序列信息。假定由测序反应获得的强度信息为3,则意味着待测基因可包含三个C和/或T,诸如三个C或三个T、或一个C和两个T、或一个T两个C,并且无法基于简并序列区分T和/或C的准确相对位置。简并基因序列信息和简并代码是本领域通常使用的术语。
一方面,本文所述的方法可以检测和/或校正测序中的错误,但所述方法无法完全消除序列错误。有可能序列信号中被修改的特定位置不是出现测序错误的实际位置,但概率极其低。最终准确性可进一步改进。例如,如果将MK、RY和WS的修饰信号放在一起,连续N次信号中修改了两次,将认为很可能已经出现错误,并且应当丢弃对应的序列。这里的N可以是等于或大于2的正整数。N值越大,则序列应当丢弃的概率越高,最终解码比率也是如此。一方面,本文中N的优化值为3。
DNA序列为共聚物,例如,DNA区域包括两种不同的脱氧核糖核苷酸,诸如AAC和GGTG。
一方面,检测和/或校正序列数据错误的方法可以检测出现错误的位置,和/或校正序列错误。
一方面,在实际测序过程中,所述方法包括首先通过循环测序反应获得光学或其他信号的相对强度值,此强度值可以特定形式表示。例如,M表示位置的信息和该位置碱基的量(可接受多个碱基),也可表示简并基因编码结果。通过解码足够量信息的相对强度值,可获得待测的基因序列信息。
一方面,递送或提供试剂或反应液意指向容器中加入试剂或反应液,例如测序反应的反应混合物。一方面,可使用三轮或更多轮测序。可选地,可使用两轮或更多轮测序。一方面,测序信号按次数计数。可记录每次测序时信号的强度信息,并且在一些实施方案中,强度信息完美地与对应共聚物的长度相同。
测序信号可以按水平或按检测特定核苷酸的次数计数。例如,如果信号强度为n,加入反应液中的核苷酸为X,则测序结果表示为XXX...X,其中序列的长度为n个核苷酸。例如,图1中的测序信号当按次数计数时可被转化为按水平计数的测序信号MMMKKKKKMKKKMMK或写为(A/C、A/C、A/C、G/T、G/T、G/T、G/T、G/T、A/C、G/T、G/T、G/T、A/C、A/C和G/T)。
例如,含有dA4P和dC4P(具有4个磷酸基团的核苷酸和标记有荧光基团的端磷酸)的测序反应液可在奇数次使用,含有dG4P和dT4P的测序反应液可在偶数次使用。多次反应后的一组荧光信号值可参见下文表6。
可利用其他荧光标记核苷酸的组合来获得与目标DNA序列相关的荧光信号值。可能的组合实例如下所示:
M/K模式:凡奇数次呈递dA4P和dC4P,凡偶数次呈递dG4P和dT4P;或者二者反过来;
R/Y模式:凡奇数次呈递dA4P和dG4P,凡偶数次呈递dC4P和dT4P;或者二者反过来;以及
W/S模式:凡奇数次呈递dA4P和dT4P,凡偶数次呈递dC4P和dG4P;或者二者反过来。
表6
可将按三种不同核苷酸组合获得的测序数据合并,作为按水平计数的信号。对于每个位置,下一步是解析该位置按水平计数的三个测序信号所表示的核苷酸类型的交集,以获得目标DNA序列。一方面,这是解码信号的基本原理。例如,如果按次数计数的测序信号对应于M/K、R/Y和W/S的组合分别为(3、5、1、3、2、1)、(2、4、3、2、1、3)和(2、1、3、2、3、3、1),则序列可以总结为AACTTTGGATTGCCT(SEQ ID NO:1)。
一方面,三轮测序反应的结果的综合对比包括将化学发光信号或其他形式的强度信号转化为基因序列信息,然后,对比相同碱基位置的三轮测序结果。如果三轮测序获得的结果的表示一致,则认为该位置的测序是正确的;如果三轮序列获得的结果所表示的基因序列信息不一致,则认为该碱基位置的测序结果是错误的。
一方面,如果由于不准确的CCD发光、流体移动、环境光、杂DNA、信号校正系统出错或测序反应液不纯等因素,使得按次数计数的特定时间的序列信号更大或更小,将导致测序信号按水平计数具有对应位置或后续位置表示的核苷酸类型的空交集(emptyintersection),则无法解析核苷酸类型。显然,按次数计数的测序信号中的错误可导致按水平计数的测序信号从出现错误的位置总体偏移。因此,按水平计数的测序信号是一种具有记忆的信号。基于按水平计数的测序信号具有记忆的特征,可以校正测序信号中的错误。
一方面,本发明提供检测和/或校正测序结果中序列数据错误的方法。测序反应液含有至少两种类型的具有不同碱基的核苷酸底物分子;可获得简并基因编码信息。该领域的技术人员可以通过对比两个或多个简并编码信息,判断冲突情况是否出现于该位置的代码中。相比于同一待测底物,使用不同引物或直接测试多轮的方法更容易,经一次测试设计即可完成测试。一方面,本文提供的方法完全不同于同一待测基因的测试多轮的方法。在一些方面,本文提供的方法没有校正基础,如果仅有两种互正交简并基因编码结果(不包括在其中加入冗余信息如颜色的情况)。一方面,本文首先假定三个或多个互相正交简并编码中错误的检测和校正导致该测序类型。
一方面,本文提供检测和/或校正测序结果中序列数据错误的方法。特别地,使用5’端多磷酸来修饰具有荧光切换性质的荧光团的核苷酸底物分子进行测序;该方法也称为荧光切换测序法。当使用与2+2测序方法结合的荧光切换测序方法时,测序方法本身可带来很多优势,诸如300bp的长读数和直至99.99%的测序准确率;所有这些均无法通过仅仅使用2+2测序方法或荧光切换测序方法来实现;此外,使用联合方法还有一些其他优势,如容许通量更高、反应简单、错误率低并且不需要实时获取信息。类似地,在具有荧光切换的其他核苷酸底物分子上测序也具有相同的特性。例如,荧光切换测序方法和2+2测序方法提供三轮测序期间除颜色信息以外的冗余信息(发光信息或其他可检测信息),该冗余信息可被用于校正;其还可以在不改变准确率的情况下延伸有效读数;校正结果取决于测序方法的准确性,并且其可以在测序仪准确性固定的情况下大大改进有效读数的总体准确性;例如,长度为400bp的核酸片段上测序的正确性为直至97.36%。校正后的正确率达到99.17%。因此,如果采用了该错误检测和校正方法的测序仪,则有效读数可被相应地延伸。当使用本文提供的方法进行校正时,可以发现明显的规则:测序方法中可以降低错误率的任何较小改进均可显著降低修改的编码数据的错误率。
IV.一种从高通量DNA测序的原始信号中读取序列信息的方法
一方面,本文涉及读取来自测序反应,诸如高通量DNA测序反应的未加工信号(rawsignals)或原始信号(original signals)的核酸序列信息的方法。在特定方面,本发明涉及读取和/或校正来自第二代测序技术(例如,用于基因或基因组测序)的未加工信号或原始信号的序列信息的方法。一方面,本文考虑了在核酸测序期间导致原始信号与实际序列信息偏差的很多原因,以实现检测序列信息的综合校正,从而由原始测序信号读取准确DNA序列。一方面,本文公开的方法不影响测序反应的正常过程。一方面,本文涉及单色测序信号和多色测序信号两者的处理。一方面,每一类信号的处理均包括参数估计和信号校正。
在高通量DNA测序中,在理想条件下,每次测序反应释放的原始信号的强度与掺入新生DNA链的碱基数目成正比。但是在实际情况中,由于多种原因并不总是存在该比例关系。例如,首先,原始信号的强度一般会由于流体腐蚀、DNA模板的水解和/或碱基错配而衰减。第二,由于测序反应不完全、副(例如不希望的)反应和/或碱基错配,新生DNA链的长度随测序反应进展而逐渐变为去同步化(例如,由于失相现象,新生DNA链的长度不一致)。去同步化的新生DNA链长度进而导致原始信号强度与实际目标DNA序列的偏差。第三,由于核苷酸的自发水解和/或来自测序芯片或底物的背景荧光,原始信号的总体强度将较高。所有这些因素使得难以甚至有时不可能,基于两者在理想条件下的比例关系,直接由原始测序信号的强度读取目标DNA的序列。
从原始测序信号读取序列信息的现有方法仅考虑上文提及的部分原因。例如,454测序技术仅考虑失相现象,校正矩阵变换中失相导致的信号偏差。事实上,由于上述原因同时存在,如果仅考虑失相现象或者如果只是将失相与其他因素诸如衰减和总体高的数值分隔开,将会影响读数DNA序列信息的准确率。此外,454测序技术仅考虑失相现象的初级超前(primary lead),而忽略了次级超前(secondary lead),该次级超前也会影响最终结果的准确性。此外,454测序技术的有效性还受到很多人为设定参数的影响,该技术不方便使用。
Ion Torrent测序技术试图通过改变在测序反应中加入核苷酸的顺序来减轻上述原因导致的信号偏差。但是,一方面,该方法仅能减轻信号偏差,而不是真的校正信号偏差。另一方面,改变在测序反应中加入核苷酸的顺序会降低每次测序反应的平均测序读长。
在另一方面,本文公开了使用具有荧光切换性质的荧光团的核苷酸底物分子的测序方法。一方面,通过修改具有荧光切换性质的荧光团的核苷酸底物分子的5’端或中间磷酸进行测序。一方面,荧光切换性质是指测序后荧光信号强度相比测序反应前的荧光信号强度有明显增强。一方面,每次测序运行使用一组反应液,每组反应液包括至少两份反应液,每份反应液包含A、G、C或T核苷酸底物分子中的至少一种或者A、G、C或U核苷酸底物分子中的至少一种。一方面,首先将待测的核苷酸序列片段固定在反应室中,在反应室中加入来自一组反应液的反应液。测序反应可在合适条件下开始,并记录荧光信号。然后,每次提供一份附加反应液,使得在测序反应中相继提供同一组反应液中的其他反应液。同时,记录来自每份反应液的一个或多个荧光信号。一方面,反应液组中有至少一份反应液包含两种或三种核苷酸分子。
一方面,高通量测序是为了通过进行一系列酶促反应以及检测反应中释放的信号,获得待测DNA的序列信息。如果某些新生DNA链已被延伸至第n个碱基,并且加入当前酶促反应的核苷酸与待测DNA模板的第n+1和n+m个碱基精确配对并且互补,则理想地酶促反应中的新生DNA链将延伸至第n+m个碱基。如果酶促反应中的新生DNA链实际上已经延伸至超过第n+m个碱基,则该酶促反应的新生DNA链中已经出现“超前”(“lead”)。如果酶促反应中的新生DNA链实际尚未延伸至第n+m个碱基,则该酶促反应的新生DNA链中已经出现“滞后”(“lag”)。“超前”和“滞后”现象统称为失相现象。应注意,当新生DNA链延伸至第n个碱基时,可能已经以任何可能的顺序出现多次“超前”和“滞后”。
如图38所示,在测序反应之前所有新生DNA链具有同一长度1。斜线框、白色框或灰色框分别表示待测序列中的核苷酸。例如,如果斜线框表示A,白色框表示T,灰色框表示C,则图38中显示的模板序列是ATCCTT。测序反应之后,DNA分子1、3和5被延伸,延伸是正常的,长度为2。在DNA分子2中,例如,由于副(例如不希望的)反应,已出现“超前”现象,并且由于延伸已超过2个核苷酸的预期长度,其长度为3。在DNA分子4中,例如,由于反应不完全,已出现“滞后”现象,并且其长度为1。一方面,测序反应之后,新生DNA链的长度不同。图38中显示的5个DNA分子仅为示意图,并不是说实际测序中有5个DNA分子,事实上在实际测序中可以有多个DNA分子。
如图39所示,DNA模板1可具有ATCTTT的序列,DNA模板2可具有ATCCTT的序列。将聚合物A正常延伸(DNA模板1,正常延伸,显示聚合物A具有AT的序列)之后,在同一测序反应中,聚合物A(即,AT)可通过副反应被进一步延伸以生成聚合物B(DNA模板1,初级超前,显示聚合物B具有ATC的序列)。由于该测序反应中仅提供了核苷酸T,并且预期聚合物仅延伸至位置2(即,在位置2具有T),聚合物B呈“初级超前”,已经延伸至位置3并且具有ATC的序列。应注意,在该测序反应中,仅提供了核苷酸T,未提供核苷酸C,这意味着在位置3的C可以是污染(例如,由上次测序反应)、副反应或聚合酶错误的结果。在本实施例中,聚合物B可被进一步延伸至位置4以生成聚合物C(具有ATCT的序列),因为序列反应中提供了核苷酸T,该现象称为“次级超前”。将此与DNA模板2对比,后者在位置4为C而不是T。当对DNA模板2进行测序时,因为提供了核苷酸T,可由于副反应而出现初级超前,将聚合物延伸至位置3(C)。然而,一方面,发生另一副反应从而在位置4加入另一个C的概率可忽略不计。因此,DNA模板2不会延伸至位置4,DNA模板2中不会出现次级超前现象。
测序方法
在一些方面,本文采用DNA测序的方法。在一些实施方案中,所述方法包括将待测DNA固定在固体表面,与一个或多个测序引物杂交,和/或连续进行测序反应并检测反应所释放的信号。一方面,每一次反应包括如下步骤:向反应器(如芯片)加入含有核苷酸、酶等反应所必需试剂的反应液,以引发特定的生化反应;检测反应所释放的信号;和/或清洗反应器。所加入的核苷酸可以是天然的脱氧核苷酸,或者是带有化学修饰基团的核苷酸,但在一个方面,其3’端应当有羟基。每次反应所加入的核苷酸类型数目可以是1种、2种或3种,但不能是4种(是指ACGT或ACGU)。一方面,相邻两次反应所加入核苷酸类型的并集包括全部四种核苷酸。例如,如果在第一次反应加入A和G,则在第二次反应中将加入C和T。在另一个实例中,如果在第一次反应加入ACG,则在第二次反应中将加入T。
如果在某一次反应中加入两种类型的核苷酸,则反应中这2种类型的核苷酸可以释放出相同或不同类型的信号。如果在某一次反应中加入3种类型的核苷酸,则这三种类型的核苷酸可以释放出相同或不同类型的信号。可选地,其中两种释放出相同的信号、而另1种释放出不同的信号。本文信号的类型是指信号的形式(例如电信号、生物发光信号、化学发光信号等),或光学信号的颜色(例如绿色荧光信号、红色荧光信号等),或其组合。这里为了简便起见,凡是某一次反应中所有核苷酸所释放信号类型全部相同的,称为单色信号;凡是一次反应中所有核苷酸所释放的类型不止一种的,称为多色信号。这里的“颜色”只是为了简便起见,信号的类型并不限于不同颜色的光学信号(例如,波长)。
在某些实施方案中,本文涉及三种类型的含义不同的信号,分别是:
1.理想信号h,是指根据待测DNA的序列及加入核苷酸的顺序,在理想情况下直接推断出的测序信号,直接反映了DNA的序列信息;
2.失相信号s,是指理想信号h遭受到失相现象后而产生偏差形成的信号;
3.预测的原始测序信号p,是指考虑以下多个因素后由失相信号(或相错配(phasemismatch))s形成的信号:被延伸碱基数目、测序信号强度的倍数关系、信号衰减和整体偏移。预测的原始测序信号p是根据预设的参数对实际原始测序信号的预测;
4.实际原始测序信号f,是指高通量DNA测序中仪器直接测量得到的信号。
参数估计
根据已知序列的一个或多个参考DNA分子及实际原始测序信号,推断出测序反应的相关参数的过程称为参数估计。参数估计的基本过程如图41所示。参数估计涉及描述测序反应中相关性质的一组参数,例如失相系数、单位信号强度、衰减系数、整体偏移系数等。
首先,所述方法包括根据参考DNA分子的序列推断理想信号h,然后根据预设的参数计算失相信号(或相错配)s和预测的原始测序信号p。一方面,方法包括计算p和实际原始测序信号f之间的相关系数c。一方面,方法包括使用最优化方法找到一组参数,使得相关系数c达到最优值。本文的相关系数c包括但不限于皮尔逊相关系数(Pearson correlationcoefficient)、斯皮尔曼相关系数(Spearman correlation coefficient,)、平均互信息、欧几里得距离(Euclidean distance)、汉明距离(Hamming distance)、车比雪夫距离(Chebyshev distance)、切比雪夫距离(Chebyshev distance)、马哈兰诺比斯距离(Mahalanobis distance)、曼哈顿距离(Manhattan distance)、明科斯基距离(Minkowskidistance)、对应信号差值的绝对值的最大值或最小值等。这里的最优化方法包括但不限于网格搜索法、穷举法、梯度下降法、牛顿法、Hessian矩阵法、启发式搜索等,其中启发式搜索包括但不限于遗传算法、模拟退火算法、蚁群算法、谐和算法、火花算法、粒子群算法、免疫算法等。这里提到的相关系数和最优化方法均为数学中的常规知识。这里提及的相关系数和优化方法属于一般数学知识。
一个方面,根据超前、滞后和/或偏移对测序信号的影响,可进行理想信号h与实际原始测序信号f之间的转化(或变换)。在另一方面,在参数估计过程中,在推断理想信号h和实际原始测序信号f之间关系的处理中(例如,基于由已知核苷酸序列的参考序列测量的信号)也可获得这些参数(例如,超前、滞后和/或偏移)。在一些方面,估计过程包括使用矩阵(例如,变换矩阵T)和/或函数(例如,变换函数)。
如果测序中采集到的是单色信号,则直接如上所述进行计算。如果测序中采集到的是多色信号,则将每种类型的信号与多色信号分离开,并使用上述方法单独计算。
一方面,利用h计算s的实施方法包括根据h的特征及有关参数,构造变换矩阵T,并利用T将h变换为s。一方面,利用s计算p的实施方法包括根据有关参数,构建变换函数并利用d将s变换为p。具体实施方法将在下文详述。
信号校正
一方面,信号校正包括根据(1)参数估计(parameter estimation)所得到的参数,以及(2)未知序列的待测DNA的实际原始测序信号,推断出待测DNA序列信息的过程。一方面,信号校正的基本过程如图42所示,基本上可以看作参数估计的逆过程。
在第一方面,所述过程包括根据参数估计得到的参数,利用变换函数的反函数将实际原始测序信号f变换为失相信号(或相错配)s。一方面,所述过程包括将s视为零阶失相信号s0,根据s0和有关参数构建变换矩阵T1,并利用T1的广义逆矩阵将s0变换为一阶失相信号s1。另一方面,该过程还包括根据s1和有关参数构造变换矩阵T2,并利用T2的广义逆矩阵将s1变换为二阶失相信号s2。又一方面,该过程还包括根据si和有关参数构造变换矩阵Ti+1,并利用Ti+1的广义逆矩阵将si变换为(i+1)阶失相信号si+1,其中i为2或更大的整数。一方面,该过程包括计算一系列失相信号s0、s1、s2、...、si+1、...、sj。一方面,若计算中发现两个相邻失相信号si和si+1彼此相等,则停止计算,并返回si作为信号校正的结果。
一方面,上述的广义逆矩阵也可以用吉洪诺夫正则化(Tikhonovregularization)的方法代替。
如果测序中采集到的是单色信号,则直接如上所述进行计算。如果测序中采集到的是多色信号,则将每种类型的信号与多色信号分离开,并使用上述方法单独计算。
上述利用变换函数的反函数将f变换为s的过程,及利用T的广义逆矩阵将si变换为si+1的过程将在下面详述。
变换矩阵T的构造方法
一方面,变换矩阵T的构造依赖于一条测序有关的信号X及与失相参数。在参数估计中,信号a是理想信号h;在信号校正中,信号x是各阶失相信号si。为了改进校正准确率,可以通过在信号x后添加若干个1来延长信号x;在优选的实施方案中,通常添加1-100个1。在具体实施方案中,添加5-10个1。一方面,失相参数包括超前系数ε和滞后系数λ。
一方面,变换矩阵T的构造还包括构造次级矩阵D。一方面,假设信号x具有m个数值,测序反应实际进行了n次,则变换矩阵T和辅助矩阵D均具有n行m列。例如,在辅助矩阵D的第一行中,只有第一列的元素为1,其他元素均为0。
一方面,所述方法包括利用辅助矩阵D的第k行来计算变换矩阵T的第k行。对于变换矩阵T第k行的第1个元素:
1.若k为奇数,则应考虑滞后现象,将该元素指定为(1-λ)D1i;
2.若k为偶数,则将该元素指定为0。
对于变换矩阵T第k行的第i个元素(第1个元素除外):
1.若k和i的奇偶性相同,则应考虑滞后现象,将该元素指定为(1-λ)Dki;
2.若k和i的奇偶性不同,则应考虑初级超前现象,将该元素指定为ε(1-λ)Dk,i-1;
3.若信号x的第i-1个元素小于2,则应考虑次级超前现象,在上述步骤1和2计算结果的基础上,该元素还要再加上变换矩阵T同一行的第i-1个元素Tk,i-1。
一方面,所述方法包括利用变换矩阵T的第k行来计算辅助矩阵的第k+1行。在辅助矩阵D的第1行中,只有第1列的元素为1,其他元素均为0。对辅助矩阵的第k行(第1行除外):
1.第1个元素为辅助矩阵上一行、同一列的元素Dk-1,i和变换矩阵T中对应元素的上一行、同一列元素Tk-1,i的差值;
2.第i个元素(第1个元素除外)在辅助矩阵上一行、同一列的元素Dk-1,i和变换矩阵T中对应元素的上一行、同一列元素Tk-1,i的差值的基础上,再加上变换矩阵T中对应元素的上一行、上一列元素Tk-1,i-1。
因此,一方面,本文先规定辅助矩阵D的第1行的值,然后根据辅助矩阵D的第1行去计算变换矩阵的第1行。一方面,所述方法还包括利用变换矩阵T的第1行去计算辅助矩阵的第2行;利用辅助矩阵D的第2行去计算变换矩阵T的第2行。以相同的方式得到辅助矩阵和变换矩阵的所有元素的值。
一方面,辅助矩阵D只是为了计算上的简便而引入的,可以通过常规的数学变形将其消去,从而直接计算变换矩阵T。
在上述计算中,失相参数与核苷酸类型有关,也和被计算的元素所处的行号k和列号i有关。在实际计算中,为简便起见,可以使失相系数ε和/或λ保持恒定,或者使失相系数ε和λ随核苷酸的类型、行号k和/或列号i而变化。
一方面,在参数估计中,根据预设的失相系数和理想信号h,按照上述计算方法得到变换矩阵T。一方面,失相信号(或相错配)s为变换矩阵T和理想信号h的乘积。若理想信号h表示为一个列向量,则s为T乘以h;若理想信号表示为一个行向量,则s为h乘以T的转置矩阵。
在参数校正期间,可根据预设的失相系数和第i阶失相信号si,按照上述计算方法获得变换矩阵T。一方面,第i+1阶失相信号s为变换矩阵T的广义逆矩阵T+和第i阶失相信号的乘积。若si表示为一个列向量,则si+1为T+乘以si;若si表示为一个行向量,则si+1为si乘以T+的转置矩阵。第i+1阶失相信号si+1在按上述方法计算后,可以再进一步舍入。取整方法包括但不限于:
1.四舍五入:取最接近的整数值;
2.向上取整:取为大于si+1的最小整数;
3.向下取整:取为小于si+1的最大整数
4.向0取整:若si+1大于0,则向下取整;若si+1小于0,则向上取整。
5.正取整:按上述任何一种方式取整,然后将所有的非正数改为1。
变换函数的构造方法
一方面,变换函数与若干参数有关,包括单位信号a(被延伸碱基数目与测序信号强度具有倍数关系)、衰减系数b、整体偏移c等。本文的参数a、b、c可以是单一系数或一组系数。例如,单位信号a与核苷酸的类型以及测序反应发生的次数有关。在计算中,可以为简便起见使用这些参数的单一值,或者为精确起见使这些参数随相关因素而变化,还可以某些参数使用单一值、其他参数随相关因素变化。
变换函数的形式包括但不限于:
在上述函数中,其中和为与a、b、c有关的数学函数,包括但不限于常函数、幂函数、指数函数、对数函数、三角函数、反三角函数、取整函数、特殊函数,以及上述函数相互运算、复合、迭代、分段所产生的函数等。在一些实施方案中,特殊函数包括但不限于椭圆函数、伽马函数、贝塞尔函数、贝塔函数等。
一方面,变换函数将失相信号(或相错配)s变换为预测的原始测序信号p,即一方面,变换函数的反函数将实际原始测序信号f变换为失相信号(或相错配)s,即本文的反函数将采用数学中的常规含义。
相比现有方法(例如,454专利方法,如US 2011/0213563 A1中所公开,System andmethod to correct out of phase errors in DNA sequencing data by use of arecursive algorithm,公布为US 8,364,417),本文主要做了以下三个方面的改进。第一,本文的方法包括同时考虑失相现象中的初级超前、次级超前和滞后来构建变换矩阵,并利用该变换矩阵来校正因失相造成的测序错误。第二,本文的方法包括将衰减、失相或整体偏移所造成的信号偏差作为一个整体来解决。本文的方法既不是只校正单个问题所造成的信号偏差,也不是简单地一个一个地解决问题。第三,改进了信号校正的方法,避免引入需要人为主观因素判断的参数设置,提高了方法的稳健性和可重复性。第四,使用本文公开的方法,既可校正单色信号,也可校正双色信号。
一方面,本文不考虑三级超前(图40)。
一方面,相比背景技术提到的方法,本文公开的方法具有以下效果和优点:
1.在2+2测序方法中,次级超前现象非常显著,所造成的偏差是没有考虑次级超前现象的454专利所无法校正的。在本文中,一方面,考虑了次级超前现象,因此可以很好地校正该现象所造成的信号偏差。
2.在实际运用中,如果只用简单的线性拟合方法来从原始测序信号中读出序列信息,则读取的准确性通常将至多达到大约100bp左右。如果对相同的数据采用本文所描述的方法,将能准确读取到350bp左右,极大地改进测序读长和测序准确率。在一些实施方案中,读数的准确率可达到约400bp、约450bp、约500bp、约550bp、约600bp、约650bp、约700bp、约750bp、约800bp、约850bp、约900bp、约950bp、约1000bp、约1050bp、约1100bp、约1150bp、约1200bp、约1250bp、约1300bp、约1350bp、约1400bp、约1450bp、约1500bp、约1550bp、约1600bp、约1650bp、约1700bp、约1750bp、约1800bp、约1850bp、约1900bp、约1950bp、约2000bp、约2050bp、约2100bp、约2150bp、约2200bp、约2250bp、约2300bp、约2350bp或约2400bp。
3.一方面,本文既能校正单色信号,也能校正双色信号。
4.在另一方面,相比某些本领域方法,例如,如US 2014/0031238A1和美国专利号9,416,413所公开的Ion Torrent测序方法(边合成边测序方法中的替代核苷酸流),本文不影响加入样品和/或试剂(例如,dNTP或ddNTP)用于测序的正常顺序。
一方面,本文公开了反馈模板分子序列数据中迭代生成的错误的方法,包括:a)检测对应于核酸序列的多个信号,这些信号是由于多个核苷酸被引入测序反应而生成的;b)使用检测信号产生定量(归一化或数字化)信息;c)使用参数估计获得一系列超前量和/或滞后量信息;d)使用生成的新核苷酸的量和次级超前量的积累获得相错配;e)使用相错配计算每次反应中生成的新核苷酸的量;和f)重复步骤d)和e)直至每次反应中生成的新核苷酸的量变得收敛,其中所述参数估计是指根据参考序列及其测序信号推断超前量和/或滞后量;其中次级超前量是指在测序反应中出现与该测序反应的核苷酸底物不匹配的延伸,在此基础上,出现与该测序反应的核苷酸底物匹配的延伸;其中相错配是由于超前量和/或滞后的测序结果变化,并且其中新核苷酸的量是加入测序反应液后序列的延伸长度。
一方面,在参数估计中,所述方法还包括获得衰减系数。在另一方面,在参数估计中,所述方法还包括获得偏移量。在另一方面,在参数估计中,所述方法还包括获得单位信号信息。
在另一方面,本文公开了反馈模板分子序列数据中迭代生成的错误的方法,包括:a)检测对应于核酸序列的多个信号,这些信号是由于多个核苷酸被引入测序反应而生成的;b)使用检测信号产生定量(归一化或数字化)信息;c)使用参数估计获得一系列超前量和/或滞后量、衰减系数和偏移量;d)使用生成的新核苷酸的量和次级超前量的积累获得相错配;e)使用相错配计算每次反应中生成的新核苷酸的量;和f)重复步骤d)和e)直至每次反应中生成的新核苷酸的量变得收敛,其中参数估计是指根据参考序列及其测序信号推断超前量和/或滞后量;其中次级超前量是指在测序反应中出现与该测序反应的核苷酸底物不匹配的延伸,在此基础上,出现与该测序反应的核苷酸底物匹配的延伸;其中相错配是由于超前量和/或滞后的测序结果变化,并且其中新核苷酸的量是指加入测序反应液后序列的延伸长度。
一方面,本文公开了使用次级超前量校正测序结果中超前量的方法,其中在测序结果中,如果由特定反应获得的信号类似于单位信号,则所述方法包括使用次级超前量校正信号;其中次级超前量是指在测序反应中出现与测序反应的核苷酸底物不匹配的延伸,然后,出现与该测序反应的核苷酸底物匹配的延伸。
一方面,在测序结果中包括初级超前量,其中初级超前量是指延伸与测序反应中的核苷酸底物不匹配。
一方面,后续超前量的影响包括次级超前量影响,除了第一次级超前量以外的初级超前量将累积到后续测序反应中。
在任何前述实施方案中,由反应获得的信号与单位信号接近是指,由反应获得的信号接近单位信号;由优选反应可获得信号的强度信息同单位信息之间小于约60%的偏差,由进一步优选反应可获得上述两者之间小于约50%的偏差,由进一步优选反应可获得上述两者之间小于约40%的偏差,由进一步优选反应可获得上述两者之间小于约30%的偏差,由进一步优选反应可获得上述两者之间小于约20%的偏差,由进一步优选反应可获得上述两者之间小于约10%的偏差,并且由进一步优选反应可获得上述两者之间小于约5%的偏差。
一方面,在测序反应中,所述方法包括当获得第n个测序信号时,通过反馈模板分子序列数据中迭代产生的错误,使用n之前的测序信号获得校正的测序信号;然后,根据上文所述的判断规则来判断该位置是否存在次级超前量。
在任何前述实施方案中,测序可以是将测序试剂如核苷酸和酶的反应液加入待测核酸序列的过程。
在任何前述实施方案中,在测序中,每次反应中可加入一种类型或两种类型或三种类型或四种类型的核苷酸。
在任何前述实施方案中,测序可以是三个末端开放(ends open)的测序过程。在测序反应中,可以加入一种类型或两种类型或三种类型的核苷酸。在任何前述实施方案中,在测序中,加入的核苷酸可以是A、G、C和T中的一种或多种,或者是A、G、C和U中的一种或多种。
在任何前述实施方案中,在测序中,检测信号可以是电信号、生物发光信号、化学发光信号,或其组合。
在任何前述实施方案中,在参数估计中,所述方法可包括首先根据参考DNA分子推断理想信号h,然后根据预设的参数计算失相信号(或相错配)s以及预测原始测序信号p,以及计算p和实际原始测序信号f之间的相关系数c。
在任何前述实施方案中,方法可包括使用最优化方法找到一组参数,使得相关系数c达到最优值。找到的参数可以包括超前量和/或滞后量,也可包括衰减系数、偏移量和单位信号中的一个或多个。
在任何前述实施方案中,超前量和/或滞后量可以是指由于测序反应中超前量和/或滞后导致的失相程度。
在任何前述实施方案中,在测序中,可将核苷酸分为两组,方法可包括在每次测序反应中加入包含一组核苷酸分子的测序反应液。
实施例
实施例1:通过“2+2单色”方法测序
为了进一步描述本公开,下面提供了具体实施例。除非另外指明,具体参数、步骤等是本领域常规的。具体实施例并不意于限制本发明的范围。
对于通过“2+2单色”方法测序,制备了三套反应液。每套包括两瓶,每瓶包括标记相同荧光基团X的两种碱基。对于每套而言,两瓶恰好包含测序反应的全部四种碱基。6瓶(每套两瓶)溶液彼此不重复。
表7:“2+2单色”方法中的反应液
|
第一瓶 |
第二瓶 |
第一套 |
AX+CX |
GX+TX |
第二套 |
AX+GX |
CX+TX |
第三套 |
AX+TX |
CX+GX |
完整的测序过程包括三轮测序,三轮测序以任何适合的顺序相继进行。每轮测序使用表7中列出的三套反应液中的一套。例如,三轮的顺序可以是第一套→第二套→第三套,或者第二套→第三套→第一套等。每轮的测序过程分别使用上述三套反应液,除此之外其他条件完全相同(例如,三轮均使用相同的测序引物和反应条件)。相同套的反应液中的两个瓶也可按任何适合的顺序使用,例如,第一瓶可以在第二瓶之前或之后使用。
每轮测序包括:
1.将测序引物杂交在已经制备好的DNA阵列上。
2.开始测序反应。可重复2.1-2.4步骤多次。
2.1.向测序反应混合物(例如,在流动池(flowcell)中)中加入第一瓶反应液(例如,第一套的第一瓶或第二瓶),使反应进行,从荧光基团X采集荧光信号。
2.2.清洗流动池中的全部残留反应液和荧光分子。
2.3.向测序反应混合物中加入第二瓶反应液(例如,第一套的第二瓶或第一瓶),使反应进行,采集荧光信号。
2.4.清洗流动池中的全部残留反应液和荧光分子。
3.将延伸过的测序引物解旋。
此时,可以开始新的一轮测序反应。
本实施例中使用的溶液可如下制备。测序反应液的清洗液包含:20mMTris-HCl pH8.8;10mM(NH4)2SO4;50mM KCl;2mM MgSO4;和0.1%20。测序反应的主溶液包含:20mM Tris-HCl pH 8.8;10mM(NH4)2SO4;50mM KCl;2mM MgSO4;0.1%8000单位/mLBst聚合酶;和100单位/mL CIP(碱性磷酸酶,牛肠)。
三套测序反应液如下制备:
第1套(瓶1A和1B):
瓶1A:主溶液+20μM dA4P-TG+20μM dC4P-TG
瓶1B:主溶液+20μM dG4P-TG+20μM dT4P-TG
第2套(瓶2A和2B):
瓶2A:主溶液+20μM dA4P-TG+20μM dG4P-TG
瓶2B:主溶液+20μM dC4P-TG+20μM dT4P-TG
第3套(瓶3A和3B):
瓶3A:主溶液+20μM dA4P-TG+20μM dT4P-TG
瓶3B:主溶液+20μM dC4P-TG+20μM dG4P-TG
将所制备的反应液和主溶液置于4℃冰箱或冰上待用。
为了杂交测序引物,将测序引物溶液(10μM在1×SSC缓冲液中的引物)注射到测序芯片中,然后加热至90℃,然后以5℃/分钟的速率冷却至40℃。然后用清洗液洗去测序引物溶液。
为进行测序反应,将测序芯片置于测序仪上。为进行使用第一组反应液的测序,按以下步骤进行:
1.加入10mL清洗液,以冲洗芯片。
2.将芯片降温至4℃。
3.加入100μL反应液1A。
4.将芯片加热至65℃。
5.等待1分钟。
6.在473nm激发激光波长下,拍摄荧光图像。
7.加入10mL清洗液,以冲洗芯片。
8.将芯片降温至4℃。
9.加入100μL反应液1B。
10.将芯片加热至65℃。
11.等待1分钟。
12.在473nm激发激光波长下,拍摄荧光图像。
13.重复1-12的步骤50次,以得到100个荧光信号。
第二轮测序可如下进行。首先,将芯片冷却至室温。然后加入200μL 0.1M NaOH溶液,以使第一轮测序中延伸的DNA双链变性。然后加入10ml清洗液,以清洗残留NaOH和变性DNA单链。
然后,将测序引物重新杂交于DNA阵列,如上所述。使用第二套反应液的测序反应如下进行:
1.加入10mL清洗液,以冲洗芯片。
2.将芯片降温至4℃。
3.加入100μL反应液2A。
4.将芯片加热至65℃。
5.等待1分钟。
6.在473nm激发激光波长下,拍摄荧光图像。
7.加入10mL清洗液,以冲洗芯片。
8.将芯片降温至4℃。
9.加入100μL反应液2B。
10.将芯片加热至65℃。
11.等待1分钟。
12.在473nm激发激光波长下,拍摄荧光图像。
13.重复1-12的步骤50次,以得到100个荧光信号。
第三轮测序可如下进行。首先,将芯片冷却至室温。然后加入200μL 0.1M NaOH溶液,以使第二轮测序中延伸的DNA双链变性。然后加入10ml清洗液,以清洗残留NaOH和变性DNA单链。
然后,将测序引物重新杂交于DNA阵列,如上所述。使用第三套反应液的测序反应如下进行:
1.加入10mL清洗液,以冲洗芯片。
2.将芯片降温至4℃。
3.加入100μL反应液3A。
4.将芯片加热至65℃。
5.等待1分钟。
6.在473nm激发激光波长下,拍摄荧光图像。
7.加入10mL清洗液,以冲洗芯片。
8.将芯片降温至4℃。
9.加入100μL反应液3B。
10.将芯片加热至65℃。
11.等待1分钟。
12.在473nm激发激光波长下,拍摄荧光图像。
13.重复1-12的步骤50次,以得到100个荧光信号。
此时,三轮测序结束。
实施例2:通过“2+2双色”方法测序
在本实施例中,制备了三套反应液。每套有两瓶,每瓶包括两种核苷酸碱基。用两种不同荧光团标记每瓶中的2种核苷酸碱基(使得其发射波长不同),以区分来自两种核苷酸碱基的信号。
在本实施例中,荧光团的两种类型是X和Y。对于每套而言,两瓶恰好包含测序反应的全部四种碱基。6瓶(每套两瓶)溶液互不重复。
表8:“2+2双色”方法中的反应液
|
第一瓶 |
第二瓶 |
第一套 |
AX+CY |
GX+TY |
第二套 |
AX+GY |
CX+TY |
第三套 |
AX+TY |
CX+GY |
完整的测序过程包括三轮测序,三轮测序以任何适合的顺序相继进行。每轮测序使用表8中列出的三套反应液中的一套。例如,三轮的顺序可以是第一套→第二套→第三套,或者第二套→第三套→第一套等。每轮的测序过程分别使用上述三套反应液,除此之外其他条件完全相同(例如,三轮均使用相同的测序引物和反应条件)。相同套的反应液中的两个瓶也可按任何适合的顺序使用,例如,第一瓶可以在第二瓶之前或之后使用。
每轮测序包括:
1.将测序引物杂交在已经制备好的DNA阵列上。
2.开始测序反应。可重复2.1-2.4步骤多次。
2.1.向测序反应混合物(例如,在流动池中)中加入第一瓶反应液(例如,第一套的第一瓶或第二瓶),使反应进行,分别从荧光基团X和荧光基团Y采集荧光信号。
2.2.清洗流动池中的全部残留反应液和荧光分子。
2.3.向测序反应混合物中加入第二瓶反应液(例如,第一套的第二瓶或第一瓶),使反应进行,分别从荧光基团X和荧光基团Y采集荧光信号。
2.4.清洗流动池中的全部残留反应液和荧光分子。
3.将延伸过的测序引物解旋。
此时,可以开始新的一轮测序反应。
实施例3:对比实施例
对比实施例1
在本对比实施例中,使用四种3’端封闭的核苷酸分子。3’封闭基团可阻碍聚合酶分子使用该核苷酸分子作为底物连续延伸。3’封闭基团可在特殊条件下切除,以生成末端羟基。每种核苷酸分子标记不同的荧光分子基团。此处所使用的分子基团不是具有荧光切换性质的荧光团,并且可在特定条件下切除。荧光标记分别为W、X、Y和Z。标记的核苷酸单体分别为W-A、X-C、Y-G和Z-T。
试剂1为主测序反应液,包含四种3’端封闭的标记荧光的核苷酸分子以及用标记的核苷酸分子进行聚合酶催化延伸的聚合酶。试剂2为清洗液。试剂3为去封闭液,包含切除3’端封闭基团和荧光基团的试剂。
测序时,先将测序引物杂交在模板链上。将试剂1与杂交后的模板混合,以发生聚合酶反应。反应后,使用试剂2将未反应的测序液冲洗干净。采集荧光信号,以判断加至聚合酶延伸反应中测序引物的核苷酸碱基。然后,使用试剂3将全部3’端封闭基团和荧光基团切除。然后,清洗后可将模板多核苷酸用于下一轮测序反应。这种测序方法不具有数据冗余和质量控制特性。
对比实施例2
在本对比实施例中,使用非荧光切换性质的核苷酸进行测序反应。本实施例与实施例1类似,只是荧光标记不在磷酸基团上。本实施例涉及四种核苷酸分子,均可在互补配对的条件下自由被聚合酶延伸。每种核苷酸分子的碱基上标记相同的荧光分子基团,此分子基团不具有荧光切换性质,并且可在特定条件下切除。提供3套反应液,每套两瓶。对于每套而言,两瓶恰好包含测序反应的全部四种碱基。6瓶(每套两瓶)溶液互不重复。
表9:对比实施例2中的反应液
|
第一瓶 |
第二瓶 |
第一套 |
AX+CX |
GX+TX |
第二套 |
AX+GX |
CX+TX |
第三套 |
AX+TX |
CX+GX |
完整的测序过程包括三轮测序,三轮测序以任何适合的顺序相继进行。每轮的测序过程分别使用上述三套反应液,除此之外其他条件完全相同(例如,三轮均使用相同的测序引物和反应条件)。
每轮测序包括:
1.将测序引物杂交在已经制备好的DNA阵列上。
2.开始测序反应。可重复2.1-2.8步骤多次。
2.1.向测序反应混合物中加入第一瓶反应液,使反应进行。
2.2.清洗流动池中的全部残留反应液和荧光分子。
2.3.从荧光基团采集荧光信号。
2.4.加入试剂,以切除荧光标记基团。
2.5.向测序反应混合物中加入第二瓶反应液,使反应进行。
2.6.清洗流动池中的全部残留反应液和荧光分子。
2.7.从荧光基团采集荧光信号。
2.8.加入试剂,以切除荧光标记基团。
3.将延伸过的测序引物解旋。
然后,可以开始新的一轮测序。三轮测序后测序实验结束。
在本实施例中,使用非荧光切换性质的底物(核苷酸分子),因此需要在测序步骤中引入切割试剂以切除荧光标记,测序过程更久。此外,在生成的双链DNA分子上生成并留下分子伤疤,阻碍进一步延伸。
实施例4:检测和/或校正测序错误
在本实施例中,将待测序的单链DNA分子固定在固体表面上。固定的方法可以是化学交联、分子吸附等。可以把DNA的3’端或者5’端固定于表面。该待测DNA包含一段序列已知的固定片段,可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中,待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。
首先,将测序引物杂交到具有目标DNA的已知序列的片段。各核苷酸底物分子的碱基上连接了具有荧光切换性质的官能团;磷酸分子的数目为4。
向反应体系中加入dG4P和dT4P,以及相应的反应缓冲液、酶和金属离子,以引发产生荧光信号的测序反应。通过CCD(电荷耦合装置)采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。
将反应残留的dG4P和dT4P洗去。然后,向反应体系中加入dA4P和dC4P,引发和上述相同的测序反应,并记录荧光信号的值。该反应应当被记录为第二次反应。该方法也被称为单色2+2测序方法。
重复上述过程。凡奇数次反应加入dG4P和dT4P,凡偶数次反应加入dA4P和dC4P,以得到一组测序信号的值:x=(2、3、3、1、1、3、2、1、2、1)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dC4P和dT4P,凡偶数次反应加入dA4P和dG4P,以得到一组测序信号的值:y=(1、4、4、2、2、1、1、4、1、1)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dA4P和dT4P,凡偶数次反应加入dC4P和dG4P,以得到一组测序信号的值:z=(1、1、2、1、4、3、1、3、1、1、2)。
然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基,三个信号中的公共碱基被识别并列于下表,作为该位置的核苷酸残基。
表10:校正前的测序结果
当解析三组信号在每个位置上的公共碱基时,若干位置上均无公共碱基。这表明序列中已经出现错误。在本实施例中,将信号Y的第2个值由4改为3,并且将信号X的第6个值由3改为4,则信号将变为如下表所示。
表11:校正后的测序结果
上表中,“信号y的第2个值由4改为3”被表示为一个带删除线的R,“信号X的第6个值由3改为4”被表示为增加一个M(用斜体、下划线标出)。经过这两次修改后,三组信号的所有位置上均有公共碱基,且这些公共碱基组成的序列为待测DNA序列。该结果表明,通过用简并指示符(例如,M、K、R、Y、W、S、B和D)“编码”DNA,所述方法可有效检测出测序过程中发生的错误,而“解码”序列的方法则可有效地将这些错误校正。本实施例的短序列可有效解释本公开提供的错误校正方法。本实施例中使用的修改方法是变动最小的方法,也是实现后续序列最简单匹配的方法。实际应用中,可以构建数学模型以实现这种变动。实际可行的算法中,所有可能的变动都是基于概率来统计的。经过概率参数校正以后,上述变动是最可能的正确变动。一方面,该计算是基于贝叶斯概型的最大似然法的简单应用。另一方面,该计算方法总体为常规数学方法。
通过编码和解码DNA序列,该方法在应用于DNA测序信号时可有效改进测序准确率。为了解码,将测序信号表示成一个赋权图,如图1所示。一个赋权图记为G(V、E、W),其中V为图的节点,E为图的边,W为每条边的权值(例如,实数)。编码和解码过程解释如下,假设按次数i计数的测序信号为ai。
1)对于每个信号ai,若第i次测序反应中提供的核苷酸为X,则绘制h节点ai,每个节点代表一个X碱基。
2)这ai个节点按顺序顺次、有序相连,即这个节点中的第1个点指向第2个点,第2个点指向第3个点,以此类推。
3)这个节点的最后一个节点具有一个指向自己的环。
4)第i次的所有节点均指向表示第(i+1)次的第一个节点。
5)根据大量测序数据的统计结果,为所有的边分配权值。
如果一条DNA序列分别用M/K、R/Y、W/S组合各测序一次,则得到3个测序信号。将这3个测序信号分别用上述方法表示成图,如图1所示。
序列5’-TGAACTTTAGCCACGGAGTA-3(SEQ ID NO:2)的三组信号分别为(含错误):
M/K:2、3、3、1、1、3、2、1、2、1
R/Y:1、4、4、2、2、1、1、4、1、1
W/S:1、1、2、1、4、3、1、3、1、1、2
定义有向赋权图的路径为:有向赋权图中的一组节点,即v1v2...vn。这组节点可以全不相同,或者某些节点相同(例如v1和v2代表相同的节点)。并且,对该组节点中任意相邻的两个节点vi和vi+1该图中均存在一条有向边从vi指向vi+1。定义路径的权值为该路径中所有边的权值之和。若将各测序信号表示成一个赋权图,则该图中的每一条路径均代表了一种可能的DNA序列。信号解码即找所有图之间的最大公共路径。具体实施的方法有穷举法、贪婪法、动态规划法、启发式搜索法等。
实施例5:检测和/或校正测序错误
根据实施例4中所述的测序方法,对于5000条400bp长的DNA序列进行了解码;将全部DNA分为5组,每组1000个DNA。根据实施例4中的测序校正方法,将编码准确率和解码后的准确率总结于下表中。
表12:测序准确率
组 |
代码准确率 |
解码后准确率 |
1 |
0.9736 |
0.9917 |
2 |
0.9813 |
0.9951 |
3 |
0.9878 |
0.9977 |
4 |
0.9953 |
0.9997 |
5 |
0.9973 |
0.9999 |
显然本文所提供的编码-解码方法可有效改进测序的准确率。例如,当错误率是0.0364(换言之,准确率是0.9736)的时候,校正后将变为0.0083(换言之,准确率变为0.9917)。当错误率是0.0047时,校正后变为0.0003。通过对比,当校正前的错误率降低7.74倍(0.0364除以0.0047)时,校正后将会降低27.6倍(0.0083除以0.0003)。总体数据表现出明显的趋势:降低测序错误率,则推断错误率会在校正后进一步降低。换言之,使用本文公开的校正方法,对于测序方法的可以降低错误率的任何微小改进都可导致修正的测序数据的错误率更加明显的降低。
分别统计各组的编码准确率和解码后准确率,并用小提琴图和箱型图表示,如图2所示。
根据编码中被修改的信号的特征,可以筛选出有较大概率解码正确的序列,进一步改进解码准确率。统计上面数据中每条序列在解码中被修改的信号数目,其频率分布直方图如图3所示。该频率分布直方图具有如下特征:在图像的左侧有一个尖峰,而在该峰的右侧频率呈长尾状分布。如果将下图中处于长尾分布区域的序列丢弃,仅将处于峰区域的序列用于分析,则可以进一步将解码后准确率提高2-10倍。
图4表示了编码中发生错误的信号数目和解码中被错误修改的信号数目之间的关系。横坐标表示编码中发生错误的信号数目,纵坐标表示解码中被错误修改的信号数目之间的相关关系。颜色的灰度表示该点被计数的次数占所有序列中的比例。图3显示在大多数情况下,即使解码中发生了错误,被修改的信号和实际发生错误的信号也相隔非常近。因此,可以利用该特征判断解码的质量。如果某一信号及其邻近的信号在解码中均未被修改,则这一信号所代表的碱基类型具有极高的可信度。
实施例6:检测和/或校正测序错误
在本实施例中,将待测序的单链DNA分子固定在固体表面上。固定的方法可以是化学交联、分子吸附等。可以把DNA的3’端或者5’端固定于表面。该待测DNA包含一段序列已知的固定片段,可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中,待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。
首先,将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入四种类型的dNTP以及相应的反应缓冲液、酶和金属离子。每种类型的dNTP的3’端被化学基团封闭,此外,dGTP和dTTP各自标记相同颜色的荧光基团,而dATP和dCTP各自标记另一种类型的相同颜色的荧光基团。反应中,与模板DNA上待延伸位置上的碱基互补配对的dNTP被DNA聚合酶掺入至DNA新生链上。反应结束后,将残留的dNTP洗去,使用CCD记录荧光信号。重复上述反应,得到一组测序信号的值:x=KKMMMKKKMKMMMKKMKKM。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至DNA模板,重复上述测序过程,但dCTP和dTTP标记相同颜色的荧光基团,而dATP和dGTP标记另一种相同颜色的荧光基团。获得该组测序信号的值:y=YRRRRYYYYRRYYRYRRRRYR。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至DNA模板,重复上述测序过程,但dATP和dTTP标记相同颜色的荧光基团,dCTP和dGTP标记另一种相同颜色的荧光基团。获得该组测序信号的值:z=WSWWSWWWWSSSWSSSWSWW。
然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基,三个信号中的公共碱基被识别并列于下表,作为该位置的核苷酸残基。
表13:校正前的测序结果
信号x |
K |
K |
M |
M |
M |
K |
K |
K |
M |
K |
M |
M |
M |
K |
K |
M |
K |
K |
M |
|
|
信号y |
Y |
R |
R |
R |
R |
Y |
Y |
Y |
Y |
R |
R |
Y |
Y |
R |
Y |
R |
R |
R |
R |
Y |
R |
信号z |
W |
S |
W |
W |
S |
W |
W |
W |
W |
S |
S |
S |
W |
S |
S |
S |
W |
S |
W |
W |
|
公共碱基 |
T |
G |
A |
A |
? |
T |
T |
T |
? |
G |
? |
C |
? |
G |
? |
? |
? |
G |
A |
? |
? |
当解析三组信号在每个位置上的公共碱基时,若干位置上均无公共碱基。这表明序列中已经出现错误。在本实施例中,将信号Y的第2个值由4改为3,并且将信号X的第6个值由3改为4,则信号将变为如下表所示。
表14:校正后的测序结果
上表中,“信号y的第2个值由4改为3”被表示为一个带删除线的R,“信号X的第6个值由3改为4”被表示为增加一个M(用斜体、下划线标出)。经过这两次修改后,三组信号的所有位置上均有公共碱基,且这些公共碱基组成的序列为待测DNA序列。该结果表明,通过用简并指示符(例如,M、K、R、Y、W、S、B和D)“编码”DNA,所述方法可有效检测出测序过程中发生的错误,而“解码”序列的方法可有效地将这些错误校正。
实施例7:检测和/或校正测序错误
在本实施例中,待测DNA包含一段序列已知的固定片段,可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中,待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。
首先,将测序引物杂交到具有目标DNA的已知序列的片段。将装有含杂交测序引物的模板DNA分子的反应体积分为三部分,可平行或相继测定。每份均加入四种类型的dNTP、某些类型的ddNTP以及DNA合成反应所必需的酶和缓冲液。在一些方面,所加入的dNTP为天然dNTP,所加入的ddNTP具有可检测的标记(例如可以被仪器检测的标记),包括但不限于放射性同位素标记、化学荧光基团标记等。第一份中,ddGTP和ddTTP具有相同的标记,而ddATP和ddCTP具有另一种相同的标记。第二份中,ddCTP和ddTTP具有相同的标记,ddATP和ddGTP具有另一种相同的标记。第三份中,ddATP和ddTTP具有相同的标记,ddCTP和ddGTP具有另一种相同的标记。
这三份均在适宜条件下反应一段时间,在此期间发生DNA合成反应。反应完成后,可任选地对反应产物进行清洗或纯化。然后,可对三份反应产物进行DNA电泳。根据电泳条带,可以分别获得三条测序信号:
x=KKMMMKKKMKMMMKKMKKM
y=YRRRRYYYYRRYYRYRRRRYR
z=WSWWSWWWWSSSWSSSWSWW
然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基,三个信号中的公共碱基被识别并列于下表,作为那个位置的核苷酸残基。
表15:校正前的测序结果
信号x |
K |
K |
M |
M |
M |
K |
K |
K |
M |
K |
M |
M |
M |
K |
K |
M |
K |
K |
M |
|
|
信号y |
Y |
R |
R |
R |
R |
Y |
Y |
Y |
Y |
R |
R |
Y |
Y |
R |
Y |
R |
R |
R |
R |
Y |
R |
信号z |
W |
S |
W |
W |
S |
W |
W |
W |
W |
S |
S |
S |
W |
S |
S |
S |
W |
S |
W |
W |
|
公共碱基 |
T |
G |
A |
A |
? |
T |
T |
T |
? |
G |
? |
C |
? |
G |
? |
? |
? |
G |
A |
? |
? |
当解析三组信号在每个位置上的公共碱基时,若干位置上均无公共碱基。这表明序列中已经出现错误。在本实施例中,将信号Y的第2个值由4改为3,并且将信号X的第6个值由3改为4,则信号将变为如下表所示。
表16:校正后的测序结果
上表中,“信号y的第2个值由4改为3”被表示为一个带删除线的R,“信号X的第6个值由3改为4”被表示为增加一个M(用斜体、下划线标出)。经过这两次修改后,三组信号的所有位置上均有公共碱基,且这些公共碱基组成的序列为待测DNA序列。该结果表明,通过用简并指示符(例如,M、K、R、Y、W、S、B和D)“编码”DNA,所述方法可有效检测出测序过程中发生的错误,而“解码”序列的方法则可有效地将这些错误校正。
实施例8:通过“2+2双色三轮”方法测序
在本实施例中,将待测序的单链DNA分子固定在固体表面上。固定的方法可以是化学交联、分子吸附等。可以把DNA的3’端或者5’端固定于表面。该待测DNA包含一段序列已知的固定片段,可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中,待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。
首先,将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入dG4P和dT4P(各自标记发出不同颜色的荧光基团,例如荧光基团X和基团Y),以及相应的反应缓冲液、酶和金属离子,以引发产生荧光信号的测序反应。通过CCD采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。
然后,将反应残留的dG4P和dT4P洗去。然后,向反应体系中加入dA4P和dC4P(各自标记有发出不同颜色的荧光基团,例如荧光基团X和基团Y),以引发与上述相同的测序反应,并记录荧光信号的值。该反应应当被记录为第二次反应。
重复上述过程。凡奇数次反应加入dG4P和dT4P,凡偶数次反应加入dA4P和dC4P。每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组信号的值:x=(1G+1T、2A+1C、0G+3T、1A+0C、1G+0T、1A+2C、2G+0T、1A+0C、1G+1T、1A+0C)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组信号的值:y=(0C+1T、3A+1G、1C+3T、1A+1G、2C+0T、1A+0G、1C+0T、1A+3G、0C+1T、1A+0G)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dG4P和dT4P,凡偶数次反应加入dA4P和dC4P,且每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组测序信号:z=(0A+1T、0C+1G、2A+0T、1C+0G、1A+3T、2C+1G、1A+0T、0C+1G、1A+1T)。
该方法被称为“2+2双色”测序方法。可从其任何两轮测序数据的测序数据获得序列信息。可以认为其是正交的测序结果。
然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基,三个信号中的公共碱基被识别并列于下表,作为该位置的核苷酸残基。
表17:校正前的测序结果
当解析三组信号在每个位置上的公共碱基时,若干位置上均无公共碱基,因此断定序列中出现错误。将信号y的第2个值(3A+1G)改为(2A+1G),同时将信号X的第6个值(1A+2C)改为(1A+3C),则信号将变为如下表所示。
表18:校正后的测序结果
上表中,“信号y的第2个值(3A+1G)改为(2A+1G)”被表示为一个带删除线的A,“信号x的第6个值(1A+2C)改为(1A+3C)”被表示为增加一个C(用斜体、下划线标出)。经过这两次修改后,三组信号的所有位置上均有公共碱基,且这些公共碱基组成的序列为待测DNA序列。该结果表明,通过用简并指示符(例如,M、K、R、Y、W、S、B和D)“编码”DNA,所述方法可有效检测出测序过程中发生的错误,而“解码”序列的方法可有效地将这些错误校正。
实施例9:通过“2+2双色两轮”方法测序
在本实施例中,将待测序的单链DNA分子固定在固体表面上。固定的方法可以是化学交联、分子吸附等。可以把DNA的3’端或者5’端固定于表面。该待测DNA包含一段序列已知的固定片段,可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中,待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。
首先,将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入dG4P和dT4P(各自标记发出不同颜色的荧光基团,例如荧光基团X和基团Y),以及相应的反应缓冲液、酶和金属离子,以引发产生荧光信号的测序反应。通过CCD采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。
然后,将反应残留的dG4P和dT4P洗去。然后,向反应体系中加入dA4P和dC4P(各自标记有发出不同颜色的荧光基团,例如荧光基团X和基团Y),以引发与上述相同的测序反应,并记录荧光信号的值。该反应应当被记录为第二次反应。
重复上述过程。凡奇数次反应加入dG4P和dT4P,凡偶数次反应加入dA4P和dC4P。每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组信号的值:x=(1G+1T、2A+1C、0G+3T、1A+0C、1G+0T、1A+2C、2G+0T、1A+0C、1G+1T、1A+0C)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。每次反应加入两种类型的dN4P均标记不同颜色的荧光基团。可获得一组信号的值:y=(0C+1T、3A+1G、1C+3T、1A+1G、2C+0T、1A+0G、1C+0T、1A+3G、0C+1T、1A+0G)。
然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基,三个信号中的公共碱基被识别并列于下表,作为该位置的核苷酸残基。
表19:校正前的测序结果
当解析两组信号在每个位置上的公共碱基时,若干位置上均无公共碱基,因此断定序列中出现错误。将信号y的第2个值(3A+1G)改为(2A+1G),同时将信号X的第6个值(1A+2C)改为(1A+3C),则信号将变为如下表所示。
表20:校正后的测序结果
上表中,“信号y的第2个值(3A+1G)改为(2A+1G)”被表示为一个带删除线的A,“信号x的第6个值(1A+2C)改为(1A+3C)”被表示为增加一个C(用斜体、下划线标出)。经过这两次修改后,三组信号的所有位置上均有公共碱基,且这些公共碱基组成的序列为待测DNA序列。该结果表明,通过用简并指示符(例如,M、K、R、Y、W、S、B和D)“编码”DNA,所述方法可有效检测出测序过程中发生的错误,而“解码”序列的方法可有效地将这些错误校正。
实施例10:通过“1+3,单色”方法测序
在本实施例中,将待测序的单链DNA分子固定在固体表面上。固定的方法可以是化学交联、分子吸附等。可以把DNA的3’端或者5’端固定于表面。该待测DNA包含一段序列已知的固定片段,可以和测序引物互补杂交。从该片段的3’端至待测DNA的3’端的区域的序列为待测序列的区域。在本实施例中,待测序列为5’-TGAACTTTAGCCACGGAGTA-3’(SEQ ID NO:2)。
首先,将测序引物杂交到具有目标DNA的已知序列的片段。向反应体系中加入dC4P、dG4P和dT4P,以及相应的反应缓冲液、酶和金属离子,以引发产生荧光信号的测序反应。通过CCD采集信号。记录这些荧光信号的值。将该反应记录为第一次反应。
然后,将反应残留的dC4P、dG4P和dT4P洗去。然后,向反应体系中加入dA4P,引发和上述相同的测序反应,并记录荧光信号的值。该反应应当被记录为第二次反应。
重复上述过程。凡奇数次反应加入dC4P、dG4P和dT4P,凡偶数次反应加入dA4P。获得一组信号的值:x=(2、2、4、1、3、1、3、1、2、1)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dA4P、dG4P和dT4P,凡偶数次反应加入dC4P。获得一组信号的值:y=(4、1、6、2、1、1、6)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dA4P、dC4P和dT4P,凡偶数次反应加入dG4P。获得一组信号的值:z=(1、1、7、1、4、2、1、1、2)。
例如,利用高温或强亲水性物质(如尿素和甲酰胺)将上述测序反应中合成的DNA新生链解链并洗去。重新杂交测序引物至模板DNA上。凡奇数次反应加入dT4P,凡偶数次反应加入dA4P、dC4P和dG4P。获得一组信号的值:w=(1、4、3、9、1、1)。
然后根据由信号代表的核苷酸碱基的类型分析上述测序信号值以获得测序信息。对于目标DNA的每个残基,三个信号中的公共碱基被识别并列于下表,作为该位置的核苷酸残基。
表21:校正前的测序结果
信号x |
B |
B |
A |
A |
B |
B |
B |
B |
A |
B |
B |
B |
A |
B |
B |
B |
A |
B |
B |
A |
|
信号y |
D |
D |
D |
D |
C |
D |
D |
D |
D |
D |
D |
C |
C |
D |
C |
D |
D |
D |
D |
D |
D |
信号z |
H |
G |
H |
H |
H |
H |
H |
H |
H |
G |
H |
H |
H |
H |
G |
G |
H |
G |
H |
H |
|
信号w |
T |
V |
V |
V |
V |
T |
T |
T |
V |
V |
V |
V |
V |
V |
V |
V |
V |
T |
V |
|
|
公共碱基 |
T |
G |
A |
A |
C |
T |
T |
T |
A |
G |
? |
C |
? |
? |
? |
G |
A |
? |
? |
? |
? |
当解析两组信号在每个位置上的公共碱基时,若干位置上均无公共碱基,因此断定序列中出现错误。将信号y的第三个值由6改为5,将信号w的第四个值由9改为10,则信号将被改变如下表。
表22:校正后的测序结果
上表中,“信号y的第3三个值由6改为5”被表示为一个带删除线的D,“信号w的第四个值由9改为10”被表示为增加一个V(用斜体、下划线标出)。经过这两次修改后,四组信号的所有位置上均有公共碱基,且这些公共碱基组成的序列为待测目标DNA序列。该结果表明,通过用简并指示符(例如,M、K、R、Y、W、S、B和D)“编码”DNA,所述方法可有效检测出测序过程中发生的错误,而“解码”序列的方法可有效地将这些错误校正。
实施例11:检测和/或校正测序错误的方法
第1节:底物合成和光谱特性
一般方面:所有无水溶剂均利用一般程序(Na或CaH2)新鲜蒸馏。除非另有说明,试剂按来自商业供应商接收时原样使用。在氩气环境下进行空气和/或水分灵敏性实验。用Bruker APEX IV质谱仪和AB Sciex MALDI-TOF5800谱仪进行质谱分析。在Shimadzu LC-20A HPLC系统上进行反相HPLC。将样品溶解于水,并通过分析用Inertsil ODS-3C18柱(250×4.6mm,5μm)在1mL/分钟流速,B(CH3CN)于A中(50mM TEAA pH 7.3)(0-20%B经15分钟,20-30%B经10分钟)梯度下分析。
1.1末端磷酸标记荧光核苷酸(TPLFN)的合成
图5A-C显示了通过改变荧光团结构来改进TPLFN的荧光性能。图5A显示了之前开发的Me-FAM-标记核苷酸。图5B显示了之前开发的Me-HCF-标记核苷酸。图5C显示了本实施例中的TG-标记核苷酸。
对于荧光测序目的,用于标记核苷酸的末端磷酸的荧光团起关键作用。一方面,磷酸化荧光团必须彻底淬灭,这意味着在特定激发波长下检测未检测到荧光发射。然而,荧光团一旦释放,充分的信号检测就需要强的荧光发射强度。按照该原理,选择Me-FAM作为此前报告中的标记染料分子(图5A,参见Sims,P.A.;Greenleaf,W.J.;Duan,H.;Xie,X.“Fluorogenic Pyrosequencing in PDMS Microreactors”Nature Method 2011,8,575–580)。随后,氯化形式的Me-FAM,称为Me-HCF,随激发和发射波长的显著红移而显色,适用于多色测序目的(图5B,Chen,Z.;Duan,H.;Qiao,S.;Zhou,W.;Qiu,H.;Kang,L.;Xie,X.;Huang,Y.Fluorogenic Sequencing using Halogen-Fluorescein LabeledNucleotides.Chembiochem,2015,DOI:10.1002/cbic.201500117)。尽管得以成功应用,但Me-FAM和Me-HCF(来源于FAM和HCF 3’-OH甲基化)的荧光特性仍然存在问题,如图5中列出的参数所示。3’-OH甲基化(或其他保护基团)是产生荧光底物的先决条件,不仅加宽了吸收和发射光谱,还大幅降低了消光系数和量子产率,尤其是对于Me-FAM。因此,仍非常需要开发出具有更佳荧光性能的荧光团。
TG(东京绿)是由Nagano等人开发,Y.Urano,M.Kamiya,K.Kanda,T.Ueno,K.Hirose,T.Nagano,Evolution of fluorescein as a platform for finely tunablefluorescence probes,J.Am.Chem.Soc.,2005,127,4888–4894。TG已经显示出具有极佳的荧光特性。TG相比5(6)-FAM的独特结构在于,使用甲基代替苯部分的羧基,以保持苯环和荧光团彼此正交(orthogonal)。另外,还证明磷酸化TG具有优异的荧光特性。另一适宜方面在于,相比5(6)-FAM或HCF的两个苯酚基团,TG结构上的唯一苯酚基团会促进TPLFN合成,因为不需要甲基化。不存在该保护性甲基不仅使得TPLFN的合成更容易,而且一旦TG荧光团通过酶消化释放,还会保持原始高消光系数和高量子产率特性,导致高得多的荧光/背景对比。详细合成程序如下所述:
(I)TG-单磷酸(S2)的制备
基于报告的程序合成东京绿S1[Y.Urano,M.Kamiya,K.Kanda,T.Ueno,K.Hirose,T.Nagano,Evolution of fluorescein as a platform for finely tunablefluorescence probes,J.Am.Chem.Soc.,2005,127,4888–4894]。
在Ar气氛下在火焰干燥的烧瓶中,将S1(332mg,1.00mmol)悬浮于15mL无水CH2Cl2。在搅拌下向该溶液中加入质子海绵(759mg,3.50mmol)。10分钟后,将混合物冷却至-10℃,加入氯氧化磷(V)(275μL,3.00mmol)。使反应在相同温度下保持30分钟。然后加入TEAA缓冲液(20mL的1M溶液)以淬灭反应并在0℃下水解磷酰氯中间体1小时。然后,分离两相,将水溶液在真空中过滤并浓缩,以通过反相快速LC系统进一步纯化。条件:AQ C-18柱(Agela40g),使用50mM三乙基乙酸铵缓冲液中的0-50%乙腈(PH7.4),流速20ml/分钟。将含有纯产物的部分浓缩并与无水DMF(2mL)共蒸发两次,然后溶解于特定量的无水DMF中,将得到的单磷酸S2(100mMDMF溶液)保存在-20℃冰箱中备用。MS(ESI):C21H15O7P(M-H)计算值411.06。实测值m/z 411.21。
(II).dN4P-δ-TG(TPLFN)的合成
1)dA4P-δ-TG:通过用离子交换树脂(BioRad AG-50W-XB)和三丁胺处理,将2′-脱氧腺苷-5′-三磷酸(dATP)二钠盐(12.5uL 100mM溶液,12.5umol)转化为三丁基铵盐。用油泵在旋转蒸发仪上移除水后,将获得的三丁基铵盐与无水DMF(1mL)共蒸发两次,然后在Ar下溶解于0.5mL无水DMF。向溶液中加入羰基二咪唑(CDI,10.1mg,63μmol),将混合物在室温下搅拌12h。然后,加入MeOH(3.2μL),并将溶液搅拌0.5h。然后,用注射器将来自上一步的TG-单磷酸三丁基铵盐S2(25μmol)DMF溶液(0.25ml)转移至反应中,随后加入DMF(0.5mL)中的MgBr2(25mg,100μmol)。将混合物在室温下搅拌30h。然后,将反应混合物经油泵浓缩,用水稀释,并在C18反相HPLC系统(Shimadzu)上,使用制备型sepax Amethyst C18-H(21.2x150mm)在5mL/分钟流速下,以B(CH3CN)于A中(50mM TEAA pH 7.3)(0-20%B经15分钟,20-30%B经10分钟,30-50%B经10分钟)的梯度纯化。使用Hi-Trap Q-HP 5mL阴离子交换柱(GE Healthcare)收集并浓缩所需级分。收集的含有所需产物的溶液可通过HPLC使用相同洗脱条件再次纯化,并通过Hi-Trap Q-HP柱浓缩。将产物溶液在-20℃下储存备用。MS(MALDI-TOF):C31H31N5O18P4计算值895.0615。实测值m/z 884.1019(M-H)。按照与dA4P-δ-TG相同的程序合成dC4P-δ-TG、dT4P-δ-TG、dG4P-δ-TG。dC4P-δ-TG:MS(MALDI-TOF):C30H31N3O19P4计算值861.0502。实测值m/z 860.0732(M-H)。dT4P-δ-TG:MS(MALDI-TOF):C31H32N2O20P4计算值876.0499。实测值m/z 875.0706(M-H)。dG4P-δ-TG:MS(MALDI-TOF):C31H31N5O19P4计算值901.0564。实测值m/z 900.0903(M-H)。图6显示了纯化TPLFN的MALDI-TOF质谱。
1.2.荧光团和TPLFN的光谱性质
TG(S1)的激发/发射光谱显示于图7。尽管Me-FAM具有与TG类似的最大发射波长,但Me-FAM的消光系数和量子产率要低得多(图8)。同时,Me-FAM宽的发射光谱与其他荧光团如Me-HCF严重重叠,使其不适用于今后的多色测序应用。相反,TG强荧光和更窄的光谱将会更容易地解决问题。图7显示了TG(东京绿)的激发和发射光谱。图8显示了TG(东京绿)、Me-FAM和Me-HCF在相同条件(2μM,pH 8.3,TE缓冲液,用面积归一化计算)下的发射光谱。关于TG、Me-FAM和Me-HCF的光学性质列于下表中(以及图5A-C中)。
表23
|
激发max(nm) |
发射max(nm) |
量子产率(%) |
消光系数 |
TG |
490 |
513 |
82% |
8×104 |
Me-FAM |
463 |
514 |
55% |
2×104 |
Me-HCF |
544 |
567 |
57% |
7×104 |
在测序方法中,要求底物(TPLFN)在通过DNA聚合酶掺入之前是非荧光的。通过聚合酶引物延伸之后,其上仍连接有染料标记的三磷酸被释放,随后通过在磷酸酶存在下的水解生成荧光产物三磷酸。图9和图10显示了TPLFN TG-dA4P和释放的TG荧光团之间吸收和发射的差异。如图9所示,TG-dA4P不会被CIP(牛肠碱性磷酸酶)单独消化。然而,一旦TG-dA4P的多磷酸链被聚合酶或PDE(磷酸二酯酶)分解,则标记有TG的剩余三磷酸链将迅速被消化,得到恢复了强吸收和发射强度的游离TG分子。
在如下条件下记录上述光谱:
首先,在室温下测量TG-dA4P的光谱。对于发射测量:将激发波长设定为460nm,扫描480-600nm的发射;对于吸收测量:扫描310-550nm。然后,加入CIP和PDE,在相同条件下顺次记录光谱。
还要考虑TPLFN底物在某些水性条件下的稳定性,因为TPLFN的自发水解将提高测序反应期间的荧光背景,这会干扰期望信号并且降低测序准确率。幸运的是,TPLFN底物的水解速率在65℃下测量时仍非常低,约为2ppm(底物)/s,相比聚合酶掺入所生成的信号可忽略不计。尽管如此,在一些方面,优选在测序过程中将底物溶液储存于4℃冷冻支架中,在-20℃冰箱中长期储存。
第2节:聚合酶动力学研究
使用荧光计进行关于诸如TPLFN掺入/误掺入比率、均聚物线性测试和温度依赖性的特性的聚合酶动力学测定。图11示出了该边合成边测序过程所提出的动力学途径,其中S是匹配底物(TPLFN)且S*是错配底物;E是酶(聚合酶)且DN是引物/模板对。
尽管TPLFN和模板均作为反应底物,该系统可以被简化为单独底物反应过程,因为底物之一TPLFN(其相比引物/模板大幅过量)的浓度将保持几乎不变。这使得过程的分析容易得多。如图11所示,聚合酶催化反应有3步,包括:a)DNA聚合酶结合于引物/模板;b)掺入互补核苷酸(TPLFN);c)核苷酸沿模板延伸。通过改变诸如引物/模板浓缩、TPLFN的匹配或错配类型以及温度的反应条件,可以评价用于测序过程的聚合酶的动力学特性。
图12显示了TPLFN之间的聚合酶(Bst)掺入比率差异。为了检验和对比反应速率,将全部四种TPLFN(TG-dA4P、TG-dG4P、TG-dC4P、TG-dT4P)调整为相同浓度(2.0μM)。在65℃下,用Bst(120nM)、单碱基延伸引物/模板(相对于四种TPLFN为T、C、G、A)、CIP(0.01U)和pH8.3缓冲液进行反应,经Mn(II)(1mM)触发。通常,标记的多磷酸部分为Bst介导的延伸所释放,需要被CIP水解以生成荧光染料分子。检测反应中过量的CIP并确认水解速率非常快,而且不会变成速率决定步骤从而影响Bst反应速率的观察。在图12中,四种标记核苷酸的实测Bst掺入比率的次序为TG-dC4P>TG-dA4P>TG-dG4P>TG-dT4P。
图12中的4条曲线可被拟合于下表中的函数。拟合结果表明,反应系统可视为针对引物/模板浓度的一级反应。然而,不同于在荧光计上的样品池中运行反应,在芯片上的实际测序反应将略有区别,因为所有引物/模板均接枝于芯片表面上。为了保持不同TPLFN的每个反应循环均在相同时间标度完成,可通过增加运行缓慢的TPLFN的浓度,将四种TPLFN的反应速率调节至相同水平。
表24
底物 |
拟合函数 |
R2 |
dA4P |
9.319×105(1-e-0.05242t) |
0.9976 |
dT4P |
8.698×105(1-e-0.02616t) |
0.9994 |
dC4P |
8.977×105(1-e-0.06189t) |
0.9959 |
dG4P |
8.839×105(1-e-0.0405t) |
0.9961 |
在2+2测序中,将两种不同核苷酸一起加入反应混合物,例如“M”意指dA4P和dC4P在相同循环加入,“K”意指dG4P和dT4P在相同循环加入。如上文图11所述,加入的核苷酸中的一种可用作S*,其不会延伸当前模板核苷但会与互补底物S竞争结合Bst,因此有可能S*可以降低S的延伸速率。因此,通过竞争实验来评价底物竞争。
在该实验中,将在模板3’端仅包含一种待测序的配对核苷的100nM模板-引物、2μM互补底物和2μM错配底物,以及过量的Bst和CIP酶混合在一起。反应在65℃,pH 8.3下进行,由1mM Mn(II)触发。
结果显示,当底物以相同浓度加入时反应速率没有明显降低(参见图13)。这一点可解释如下。Bst酶是来自嗜热脂肪芽孢杆菌细胞(Bacillus stearothermophilus)的聚合酶I。当Bst将引物-模板与Kd在5nM下结合,并且将匹配核苷酸与Kd在5μM下结合时,而错配核苷酸与Kd在5μM-10μM下结合。参见例如,Kornberg和Baker,DNA replication,第2版,2005,University Science Books,第126页。将图11中的步骤1)和步骤2)视为两个热力学平衡,其离解常数(Kd)分别为5nM和30μM(算术平均值)。如果未出现底物竞争,两个平衡可以并为一个,并且新平衡的Kd等于150(nM)(μM)。
因此,DNES和DNE的浓度分别为25.6nM和63.9nM。如果出现竞争,则DNES的浓度为22.6nM,DNES*的浓度为11.3nM,DNE的浓度为56.5nM。计算显示在出现或不出现竞争的情况下,DNES的浓度仅略有改变,因此反应速率也仅有微小差异。
总之,在2+2测序中,四种底物的反应速率可接受地不同,但是可通过改变底物浓度调整为相等。底物之间的竞争不会显著降低反应速率。因此在本方法中,每个循环的反应速率可被设定为特定值,以及被调整为优化的超前和滞后值。
将100nM单碱基延伸引物/模板多聚-G等分至两个PCR管中,两管中均加入误匹配的核苷酸TG-dG4P(2μM),以及过量的Bst和CIP。将两种混合物用氩气鼓泡2分钟后,将加盖的管在不同温度下温育,一个管在4℃下,另一个管在65℃下。1小时后,分别向两个管中加入2μM匹配核苷酸TG-dC4P,均通过荧光计在65℃下测量延伸反应。如果温育过程中出现误掺入,可以预见两个管观察到不同信号水平,在65℃下温育的管低于在4℃下温育的管的信号水平,因为在65℃下的误掺入比率将会更高。但是,图13中的结果显示,两个管中的延伸信号几乎相同,这表明在测序条件下Bst相比TPLFN的误掺入比率处于不可检测水平。
连续荧光测序策略的挑战之一在于,需要通过生成的荧光信号准确测量模板上的均聚物或共聚物区域。图14展示了Bst聚合酶对不同均聚物模板的引物延伸。在荧光仪上使用以下条件进行反应:100nM/各模板多聚-T、多聚-TT、多聚-TTTT和多聚-TTTTTTTT,过量的Bst和CIP,2μM TG-dA4P,pH 8.3缓冲液。65℃,并由Mn(II)触发。图14中的结果显示,所生成的荧光信号与连续相同的碱基数目在相对宽的范围内成比例。另外,图15显示,通过在该线性测定中使用dA-dG混合物代替仅使用dA,杂-聚合物(或共聚物)序列多聚-TCTCTCTC可以给出与多聚-TTTTTTTT相同的信号水平。
除了反应速率以外,聚合酶保真度也是2+2测序策略中的关键问题,尤其是考虑到本文所用的聚合酶在一些方面有校对缺陷。错配核苷酸的掺入不仅会降低测序准确性,还会导致每个测序循环的信号衰减。尽管保真度主要是聚合酶的固有能力,但特定反应条件仍可影响聚合酶区分错误的性能。为了评价聚合酶的保真度,设计了误掺入实验,如下所述:
将过量的Bst和CIP、Mn(II)、100nM引物-模板(模板上除了引物的3’端以外具有G未配对的核苷)和2μM dC4P在65℃,pH 8.3下混合,生成的荧光信号为4.5×105。
然后,将具有相同浓度的Bst、CIP、Mn(II)和引物-模板的混合物与2μMdG4P混合,并用氩气鼓泡以防止Mn(II)氧化。接下来,将一半混合物在65℃下温育30分钟,另一半在65℃下温育1小时。温育后,在混合物中加入2μMdC4P,生成的荧光信号为4.6×105和4.5×105。这表明在使用Bst聚合酶情况下,反应系统中的错配延伸几乎不可检测。微小信号差异主要是由于样品混合不准确导致的。非常慢的错配延伸速率在测序反应中是非常优选的,因为一旦引物-模板被错配延伸,就会在当前核苷位点生成替代突变,改变双链前面的双链体结构,从而阻断该引物-模板的进一步延伸。以这种方式,错配延伸将逐渐降低表面接枝的模板阵列的有效浓度,并且导致每个测序循环中显著的信号衰减。本文的研究已经排除了测序反应中错配延伸的影响,并且确认了反应系统的高准确率。
图16显示,Bst的延伸速率是与温度有关的,在65℃下显示最佳酶活性,在4℃下完全无活性。该温度相关性可有利于测序性能,因为最终高通量测序的所有反应将会被分隔开并限定于所开发的测序芯片上的微反应器中。因此,当在4℃下装载底物和酶时,信号生成和扩散都不是关键要求。但是,一旦温度升高到65℃,聚合酶将变为完全活性,并迅速生成具有高信噪比的信号。
底物TPLFN的稳定性也在不同温度下测量。结果显示,温度越高,水解速率越大。但是,水解速率不会超过2ppm/s,这表明自动水解生成的背景仍远低于聚合酶延伸信号。即便如此,为了更好的性能,底物将优选储存在低温下,以预防延伸开始之前的自动水解。
第3节:测序芯片表面接枝
在寡核苷酸接枝之间,用于测序的玻璃芯片均用水凝胶修饰。修饰方法基于已报告的程序,如下所述。参见例如,美国专利号8,247,177。
3.1.水凝胶聚合物包被
1)BRAPA合成:
水凝胶单体N-(5-(2-溴乙酰氨基)戊基)丙烯酰胺(BRAPA)通过以下方法合成。(图17)
在0℃下将1,5-二氨基戊烷(10.2g,0.1摩尔)溶解于300mL无水甲醇,在搅拌下滴加丙烯酰氯的无水THF溶液(0.9g,0.09mol丙烯酰氯溶解在15ml无水THF中)。加入后,将反应混合物搅拌10h。向反应中加入200g硅胶和1%苯醌,并且用真空蒸发器移除所有溶剂。将其上吸附有化学品的硅胶粉末装载于制备型硅胶柱顶部,用DCM/甲醇(10/1~1/1)洗脱,收集含有所需产物的洗脱液并浓缩,得到13g灰白色粉末,其未经进一步纯化或较长时间储存即直接用于下一步,以防发生聚合反应。
将上述产物悬浮于150mL THF(可加入20mL甲醇以增加溶解度),然后在0℃下加入碳酸氢钠水溶液(2当量)。在℃下向混合物中滴加溴乙酰溴(0.8摩尔),将混合物搅拌10h后终止反应。然后,向溶液中加入50mL盐水,分离两相,并用3X50mL DCM萃取水相。将合并的有机相经Na2SO4干燥,浓缩,并通过硅胶柱(用EA/甲醇洗脱)纯化,得到13.5g呈白色固体的BRAPA。产物可通过在乙酸乙酯中重结晶来进一步纯化。Mp 102-104℃。HRMS C10H18BrN2O2(M+H)计算值277.0541。实测值m/z 277.0546。1H NMR(500MHz,d6-DMSO)δ8.22(s,1H,NH),8.02(s,1H,NH),6.21(dd,J=15Hz,10Hz,1H,CH),6.07(dd,J=15Hz,5Hz,1H,CH),5.55(dd,J=10Hz,5Hz,1H,CH),3.82(s,2H,CH2),3.08(ddd,J=10Hz,5Hz,4H,CH2),1.43(m,4H,CH2),1.27(m,2H,CH2)。13C NMR(126MHz,d6-DMSO)δ166.29,164.93,132.40,125.16,39.40,38.90,30.05,29.17,28.95,24.21。
2)芯片表面清洗:
使用以下程序清洗带通道的玻璃芯片:铬酸清洗液清洗5分钟,然后用milliQ H2O充分洗涤;在120℃烘箱中干燥后,用氧-等离子体处理芯片表面3分钟。然后立即用于表面修饰。
3)水凝胶制备:
向10mL 2%丙烯酰胺的milliQ H2O溶液中,加入BRAPA(70mg,在700μL DMF中),并将溶液充分混合。将混合物经0.22μm过滤器过滤,然后用氩气鼓泡15分钟。然后,加入11.5μL TEMED,随后加入过硫酸钾的milliQ H2O溶液(50mg/mL,100μL)。立即将充分混合的溶液装载于清洁的芯片的通道,并在潮湿氩气环境下保持35分钟。然后,将涂覆有水凝胶的芯片用200mL milliQ H2O充分洗涤。
3.2.引物接枝以及模板扩增和杂交
将5’-硫代磷酸酯寡核苷酸10μM PS-T10-P7(5’-T*T*T*TTTTTTTCAAGCAGAAGACGGCATACGA-3’,*=硫代磷酸酯)在pH 8.0PBS缓冲液中的溶液装载至涂覆通道,并在通道内在50℃下保持1小时。然后,用10mM 2-巯基乙醇在pH 8.0PBS缓冲液中的溶液封闭该接枝的芯片表面40分钟,然后用milliQ H2O充分洗涤。接枝表面显示于图18。
3.3.DNA模板的制备
ECCS文库设计:
将λ噬菌体基因组DNA片段(约300bp)用作测试DNA寡聚体,用于制备测序模板。λDNA获自New England Biolabs,USA。完整测序模板包括在ssDNA模板的5′端上的接头2(43bp)、P7(21bp),以及λssDNA的3′端上的接头1(38bp)和P5(20bp)的反向互补链。除了数个碱基以外,P5、P7、接头1和接头2的序列与illumina完全相同,以便与其相容。
单组分文库制备(从噬菌体λ):
将两步PCR扩增方法用于制备测序模板。在第一步PCR中,将λ基因组DNA(500ng,NEB)、第1步PCR引物(各200nm)和1x Q5高保真度2x主混合物(NEB)在H2O中的50μL混合物用以下PCR热循环谱处理:(i)在95℃下开始加热90秒;(ii)30个循环,每个循环在95℃下30秒,在65℃下30秒,在72℃下30秒。然后扩增产物经PCR纯化试剂盒(Zymo,D4061)纯化,抽入埃彭道夫管(Eppendorf tube)用于第二步PCR扩增。第二步PCR与第一步的条件和热循环谱类似,但用于新生成模板的以下引物来自上文:P5-Adp1(200nM)和P7-Adp2(200nM)。
将PCR产物凝胶纯化,并通过桑格测序用引物P5、P7和P5SeqP1验证。测量其最终浓度后,将含有相同DNA模板的产物储存在-20℃冰箱中备用。
3.4.文库固定化:流动池中的固相PCR
将上文所制备的相同DNA模板与PCR试剂混合在一起,然后装载于流动池中,如上所述用引物P7表面接枝。混合物含有DNA模板(1nM)、引物P5(500nM)、引物P7(62.5nM)、MgCl2(6mM)、dNTP(0.5mM)、铂Taq聚合酶(0.5U/mL,Life Tech)、BSA(0.2mg/mL)、PCR缓冲液(200mM Tris HCl,500mM KCl)。固相扩增热循环包括具有不同温度曲线的两个阶段。第一阶段是不对称预扩增的过程,按照(i)在95℃下热启动90秒;(ii)15个循环,每个循环包括在95℃下30秒,在65-60℃(逐渐降温)下15秒,在72℃下30秒。在不对称扩增后,引物P5衍生的模板链在PCR溶液中非常占优势。然后,进行第二阶段固相PCR的热循环,以主要杂交和延伸流动池表面接枝的寡聚物P7,热循环谱为:30个循环,分别包括在95℃下30秒,在65℃下300秒。然后,使用甲酰胺将样品变性以去除接枝寡聚物的对应物,仅留下流动池表面上模板的P7衍生链。
固相PCR后,使用移液器吸出PCR溶液。将甲酰胺注射到流动池中,以使所有剩余双链DNA变性。最后,用洗涤缓冲液(20mM Tris-HCl缓冲液,pH=8.0,50mM KCl)洗涤芯片,以去除剩余的甲酰胺。
固相ssDNA模板的密度测量
首先,将5μM带荧光探针的寡核苷酸(FAM-T-SeqP1)注射到流动池中,并密封注射口。然后,将芯片置于80℃的加热板放置2分钟,然后在30分钟内冷却至室温(或低于30℃)。使用洗涤缓冲液,充分洗涤流动池。然后,用具有自动载物台的荧光显微镜拍摄芯片的荧光图像。在每个泳道上的5个不同位置拍摄图像,以检测均匀性并使随机错误减至最少。
之前的实验证明,荧光值与FAM修饰引物的数目呈正线性相关。为此,在计算PCR产物浓度时,首先设定标准浓缩曲线。通过记录含有0nM(不含FAM修饰引物的洗涤缓冲液)和100nM TG溶液的泳道的荧光值,建立标准浓度曲线。将这些图像的平均强度拟合于标准浓度曲线,然后得出PCR产物浓度。
固相PCR产物的表征显示于图24。图24的上图显示了不同泳道和位置的PCR产物密度的热图。图24的下图显示了不同模板的PCR产物密度。
通常,用于序列的芯片的PCR产物浓度为约50~150nM(2.5~7.5fmol/mm2)。一个芯片的四条泳道的平均密度大致相同。对不同长度的模板进行固相PCR,不同长度模板的密度没有明显差异。为评价PCR产物密度的均匀度,通过计算芯片的所有成像位置的密度值来测量变异系数(CV)。所有芯片的CV均为0.15±0.13。
在测序引物(P5-SeqP1)杂交之前,用甲酰胺使已鉴定且合格的流动池变性。然后,将该经处理的流动池转移至显微镜平台用于测序。
3.5.测序
为进行测序实验,开发了简单的测序仪器,如图25所示。如图25的上图所示,将测序芯片(HiSeq 2000,仅用于研究)放在温度控制器上,在该温度控制器下是用于3维移动测序芯片的3D平移台。芯片上面是高度敏感的CCD和10×显微镜。当反应期间蓝色光照射在芯片上时,通过CCD经显微镜捕获所发出的绿色光。在芯片的一端,具有连接有阀和泵的细管,以导入反应缓冲液和洗涤缓冲液,而在另一端,芯片被安装至管以导出废液。
对于连续测序策略,在每个反应循环将两种不同核苷酸的混合物加入流动池中。因此,四种核苷酸的配对组合生成三组,每组具有两对核苷酸(AC/GT或AG/TC或AT/GC)。分别用M/K、R/Y和W/S代表六个配对组合。
每次测序运行之前,将试剂预混合并且保存在冷冻支架内两个单独的瓶中。两瓶均含有Bst DNA聚合酶(100U/μL,McLab)、牛肠碱性磷酸酶(0.5U/ml,NEB)、MnCl2(1mM)、DTT(10mM)于反应缓冲液(40mM Tris碱、40mM HN4Cl、100mM KCl)中,一瓶加入TG-dA4P(3μM)/TG-dG4P(3μM)用于R,另一瓶加入TG-dC4P(2.5μM)/TG-dT4P(5μM)用于Y。一次测序运行之后,将试剂瓶转换为W/S,然后转换M/K,配方与R/Y相同。这些核苷酸基团不一定要按特定顺序加入,任何随机序列以相同方式起作用。
将流动池安装于显微镜平台上,试剂瓶置于冷冻支架中,通过以下步骤进行自动测序过程:(i)用洗涤缓冲液洗涤流动池和试剂输入系统(旋转阀,流动池和试剂瓶之间的管道);(ii)用洗涤缓冲液洗涤流动池3次;(iii)将流动池冷却至4℃,通过注射器泵经旋转阀装载混合核苷酸中的一种(对于R为TG-dA4P/TG-dG4P);(iv)将流动池加热至15℃,用CCD摄像头(Hamamatsu)拍摄背景荧光图像;(v)将流动池加热至65℃,以触发聚合酶介导的核苷酸掺入和引物延伸,在65℃下保持1分钟;(vi)将流动池冷却至15℃,拍摄图像以记录荧光信号,然后返回步骤(ii)。这一过程被自动控制,直到整个模板被测序或达到其测序限制。然后,用甲酰胺将流动池变性,以重新生成单链模板。将引物退火后,按照上述相同方式实施不同组试剂混合物的下一轮测序。
图25的底侧左图是典型的荧光反应动力学曲线,记录了每5秒的荧光强度。当芯片在65℃下被加热时,荧光强度在约20秒内显著增强,达到平台区,这表明反应即将完成。然后,将温度控制器冷却至20℃以取得反应后的荧光强度,所以荧光强度因温度降低而升高。但是,单位信号在整个测序过程中由于失相问题和模板损失而下降。图25的底侧右图描绘了整个测序期间每个反应循环的动力学曲线。
表25:本节中使用的寡核苷酸序列
注释:“*”表示硫代磷酸酯键;FAM:5,6-荧光素亚磷酰胺
表26:本节中使用的模板序列
第4节:连续测序失相校正
4.1.信号超前和滞后
对于基于扩增的边合成边测序方法,不可避免的限制因素之一是失相,即延伸的分子失去同步化。这一现象是由于意外加入核苷酸(超前)或不完全延伸(滞后)导致的,并且将导致噪声和测序错误增加。在理想情况下,即,不存在失相的情况下,所有新生DNA分子具有相同的延伸长度;但是当考虑到失相问题时,新生DNA分子可具有不同的延伸长度。随着测序反应的进行,延伸长度的分布会变得越来越分散。
4.2.虚拟测序仪
4.2.1.基于MATLAB的虚拟测序仪
为了监测测序反应中新生DNA延伸长度的分布,通过MATLAB开发出虚拟测序仪程序,用于模拟所有测序反应。对于长度L的DNA序列,考虑的化学反应及其对应的动力学常数如下所示:
表27:虚拟测序仪程序中的化学反应及其相应的动力学常数
其中k=1,2,…L,并且
Bst指示Bst DNA聚合酶,
DNAk-1指示待测序DNA的第(k-1)位,
dNk4P指示末端磷酸标记的荧光核苷酸,其可与DNA的第k位配对,
pFluorescein指示不发荧光的磷酸荧光素,
Phosphatase指示碱性磷酸酶,
p指示磷酸,
Fluorescein指示发荧光的未磷酸化荧光素,
Bst-DNAk-1、Bst-DNAk-1-dNk4P等指示对应的复合物。
模拟中使用的种类的初始浓度列于下表中:
表28:虚拟测序仪程序中各种类的初始浓度
虚拟测序仪程序根据表格读取给定的DNA序列并自动生成系列化学反应,这些化学反应被传递到MATLAB的SimBiology工具箱,以生成相应的常微分方程(ODE)。ODE中使用的所有化学动力学均为质量作用。用4阶龙格-库塔法(Runge-Kutta method)解ODE。
在第一测序循环中,将DNA0的原始值设定为0.05,DNAk(k>0)设定为0。将DNAk(k≥0)的最终值设定为下一循环的初始值。将其他种类的浓度重新设定为表中列出的值。通过轮换每个循环中dN4P的原始值,模拟测序过程的流图(flowgram)。将Fluorescein的最终值视为每个循环的信号。
在通过虚拟测序仪程序模拟的2+2测序中,如果主要dN4P种类的浓度足够并且修饰核苷酸中不存在杂质,则其在每个循环中给出的信号与每种共聚物的长度成正比,并且所有新生DNA分子将具有完全相同的长度(图27a-b)。模拟中使用的序列为L10115-301,碱基组合为M/K。
当修饰的核苷酸中存在杂质或者反应时间不足时,将出现失相现象,测序信号不再与其对应共聚物的长度成比例。通过虚拟测序仪程序,评估了杂质和反应时间对测序信号的影响,监测了新生DNA分子的浓度分布。当存在杂质而反应时间足够时,观察到超前效应(图27c-d)。当不存在杂质但反应时间不足时,观察到滞后效应(图27e-f)。
4.2.2.一次通过、多次终止原理
为了观察失相对于新生DNA分子延伸长度的分布的影响,将虚拟测序仪程序用于通过常微分方程(ODE)模拟测序反应。在模拟中,将待测序分子设定为K(M)nKMM,反应液中的主要核苷酸种类设定为K(G和T),杂质设定为M(A和C)。将诸如反应时间和动力学参数的其他参数设定为估计的正常值。观察到在第一个核苷酸K被主要种类延伸之后,连续M如预期的一样被杂质部分延伸,导致超前效应。如果n=1,则M后面的K将几乎全部被主要核苷酸种类延伸。然而,如果n>1,则该次级超前将迅速减少(图28上图)。该一次通过、多次终止特性使得能够预测DNA延伸长度分布以及开发以下校正算法(参见下文)。
4.3.通过通量矩阵的失相校正
假设在2+2测序运行中,参数如下定义:N指示测序循环数;M指示待测序分子的共聚物数目;h是列向量,其元素hj指示第j个共聚物的长度;s为列向量,其元素si指示循环i的测序信号;DN×M指示分布矩阵,其元素dij指示新生DNA分子与第i个测序循环中延伸的j个共聚物的比例;TN×M指示通量矩阵,其元素tij指示延伸出(穿过)第i个测序循环中第j个共聚物的新生DNA分子的比例;λ指示滞后系数,即具有相同长度且未被给定循环中主要核苷酸种类延伸的新生DNA分子的比例;ε指示超前系数,即具有相同长度且被给定循环中的杂质核苷酸种类延伸的新生DNA分子的比例;并且h’为列向量,其元素
如图27中所示,失相现象导致信号畸变并且降低测序准确性。开发出算法以校正失相导致的该畸变,下文将对此进行详细论述。图28的下图提供了关键概念的总结和校正算法的概述。图28下图的上部和下部分别是分布矩阵DN×M和通量矩阵TN×M的3D展示。D和T的每个条目均表示为立方体,其沿序列轴的尺寸与其对应的共聚物长度相关。矩阵D和T可以按交互和迭代方式计算,两者在其对角或对角附近均为正值,否则为零。最终所有新生DNA链均延伸超过每个共聚物,基于这一事实,T沿循环轴的积累等于1。T沿序列轴的积累即为测量的失相测序信号。矩阵D,T及其沿两个轴的积累均可被分类为三部分:初级、超前和滞后。初级部分是矩阵D和T的对角,表示刚好具有预期长度的新生DNA链。超前和滞后部分是矩阵D和T的上三角和下三角部分,表示长度分别大于或小于预期值的新生DNA链。如图28下图所示,在前几个测序循环中,初级部分在矩阵D,T及其积累中起主导作用,贡献了绝大部分的测序信号。但是,随着测序循环的继续,初级部分减少而超前和滞后部分增多,指示信号畸变。
4.3.1.分布和通量矩阵
作出以下假设:1)在测序反应中没有误掺入核苷酸,因此不是超前的原因;2)超前是由前一循环所残留的杂质核苷酸导致的;3)每个分子的至多一个碱基将被一个给定循环中的杂质核苷酸延伸;4)如果通过杂质核苷酸的共聚物延伸的长度为1,其将会被主要核苷酸进一步延伸,称为次级超前;5)如果被杂质核苷酸延伸的共聚物的长度大于1,将不会发生次级超前;6)次级超前链将不会被杂质核苷酸进一步延伸。第3-6条假设均基于以下事实:杂质核苷酸种类为痕量,与本文通过虚拟测序仪程序的模拟结果一致(一次通过、多次终止原理)。
根据上述假设,对于给定的N、M、h、λ和ε,计算D和T如下:
例如,考虑使用组合M/K与6个循环的序列AAGTCTGTAGGAATCACT的测序,则h=(2,2,1,3,1,2,2,1,3,1)T。假设超前和滞后系数均为0.05,则矩阵D和T为:
不同核苷酸的掺入比率和杂质含量也不同,考虑到这一事实,将不同λ和ε用于两种测序混合物。
失相校正算法
h和s之间的关系如下:
s=T(h’,ε,λ)h (4)
由于dim(s)<dim(h),该线性方程是不定的,所以摩尔-彭若斯(Moore-Penrose)伪逆(Moore-Penrose pseudo-inverse)和迭代算法用于获得最小范数解(图29):
1.设定
2.根据公式(2)和(3)计算矩阵D和T。
3.设定其中是T的伪逆。
4.对比[h2]和[h1],其中[]是舍入操作。如果两者相等,则返回h2。否则,跳到步骤5。
5.设定h1←h2。跳到步骤2。
图29显示了失相校正算法的简化流程图。简言之,算法采用迭代方法来细化测序信号直至其收敛。通常,迭代将在5个循环以内终止。将其应用于真实测序数据的一个实例显示于图30。图30展示了在失相校正算法的迭代期间的细化过程。
4.3.2.方程的一般解
h和s之间的关系如下:
s=T(h’,ε,λ)h (4)
由于dim(s)<dim(h),该线性方程是不定的,存在完全符合方程的无限数目的解。这些解的一般形式如下:
其中I是同一性矩阵,w是任意向量。在失相校正算法中,将w设定为零向量。检查项以观察其对h有何种影响。将序列设定为L10115-301,碱基组合设定为M/K,超前系数设定为0.007,滞后系数设定为0.005,测序循环设定为100,并且发现第1~99行,第1~99列之间R中的条目非常接近于零(~10-16),以至于可将其视为计算误差(图31,其中显示了矩阵的值),因此除最后元素外h是实际决定因素。
4.3.3.失相校正算法的稳健性-条件数
将摩尔-彭若斯伪逆矩阵用于失相校正算法。对于通量矩阵T,将条件数定义为:
大的条件数意味着T元素中的小错误可导致解(solution)的条目中的大错误。评价失相系数对于T的条件数的影响。采用的序列是聚(AG)(AGAGAG…)、聚(AAGG)(AAGGAAGG…)、L718-308、L4418-305、L9730-303和L10115-301,碱基组合为M/K。用于评价的超前和滞后系数为0、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09和0.1。对于每条序列和失相系数,根据式(3)计算通量矩阵T,并根据公式(6)计算其条件数。图32显示了在不同失相系数下条件数的对数。在所有序列中,除聚(AAGG)以外,提高超前或滞后系数均导致条件数增加,这表明失相分子越多,校正越差。但是,在其DPL均等于2的序列聚(AAGG)中,增加超前系数导致条件数减少。这表明长DPL(长度>2)对失相具有显著的阻滞效应。
4.3.4.算法稳健性
A)失相系数偏差对信号校正的影响
失相系数通过拟合参考序列的信号获得,并且用于校正其他未知序列。在理想情况下,参考和未知序列的失相系数相同。但是,由于随机原因,两组之间不可避免会存在微小差异。因此,如果系数不准确,有必要测试其在失相校正中将产生多少错误。随机生成100条370bp的DNA序列,计算其在给定失相系数中的失相信号,并使用不同但非常接近的系数校正。将碱基组合设定为M/K,测序循环数目为150,测试的给定失相系数分别为0.001、0.005和0.010。由于即使失相系数准确,校正算法仍将在最后几个循环产生错误,将使用准确和不准确失相系数之间的错误数目差异用于表征性能,其平均值示于图33,其中显示了失相系数偏差对信号校正的影响。每个图中的星号表示准确系数的位置,颜色条仅限于范围0~5,所以任何大于5的错误数目均显示为深红色。结果显示,失相系数偏离越多,其所产生的错误越多,并且对超前偏差的耐受相对而言大于对滞后偏差的耐受。
B)对全局噪声的耐受性
测序信号噪声可能来自失焦成像、CCD成像、流体或不稳定或异常等。检测全局白噪声对失相校正的影响。首先通过虚拟测序仪来模拟220个循环的2+2测序运行。在模拟中,将序列设定为L8703-1012,碱基组合为M/K,反应时间为130,主要种类和杂质的浓度分别为2和0.002。加入用白噪声模拟中的所有信号,并使用上文所述的算法来校正。当白噪声的标准方差σ为0时,算法与信号精确拟合(相关性0.9996),校正的信号(循环219)中只有1个错误。然而,当σ=0.01时,算法也能较好拟合信号(相关性0.9994),但校正的信号中出现了更多错误(循环1~162无错误,循环163至循环220有10个错误循环)。当σ=0.02时,校正的信号甚至更不精确了(循环1-148无错误,循环149至循环220有27个错误循环)。这些结果表明全局白噪声将降低校正的信号的准确性,并使后一循环易错。
接下来检测在给定的失相系数和全局白噪声下失相校正后无错误循环的数目。计算根据公式(4)的失相信号,加入白噪声,并使用上文所述的算法对信号进行校正。模拟中使用的序列为lam1,碱基组合为M/K,测序循环的数目为500,每个条件(白噪声的给定失相系数和标准变异)重复100次。如果校正的信号中的第一个错误在循环(nef+1)中出现,则术语无错误循环数定义为nef。当失相系数低至0.30%并且σ=0.01时,仅有约50个循环是无错误的,但校正之后所有错误均得到校正。随着失相系数或噪声增加,校正后的无错误循环数也在减少,当仍是校正前的至少3倍(图35,其中显示了在给定的失相系数和全局白噪声下失相校正后无错误循环的数目)。这些结果展示了校正算法在增加读数长度方面的有效性,以及噪声对于读长的不利影响。
C)对尖峰噪声的耐受性
还检测了特定循环中信号异常的影响。根据公式(4)计算失相信号s并校正为h。然后信号在具有给定尖峰的特定单个循环中得以增强,并且得到变化的信号sv,并将sv校正为hv。模拟中使用的序列是L29732-497,碱基组合是M/K,测序循环数是220,测试的尖峰是0.01、0.1和0.5,测试的失相系数是0.001、0.005和0.01,加入尖峰的循环是循环1、25、50、75、100、125、150、175和200。在失相系数为0.01、尖峰为0.5的情况下(图36a),相同尖峰在后面循环中导致比前面循环中更严重的干扰。如果向循环200加入尖峰,hv和h之间的最大差值可达到47.5,但是有0.5的小尖峰。此外,在单个循环中加入尖峰将导致相邻循环中hv的偏差。在其他条件下观察到类似现象。
作出在每个条件下|hv-h|的最大值的热图,将色图的范围设定为[0,1](图36b)。当失相系数、加入的尖峰或循环数目增加时,|hv-h|的最大值增加。这些结果表明,随着新生DNA长度在测序中更加分散,信号对噪声更不稳健,因为一个循环中测序信号的异常情况将导致更多相邻循环的校正的信号的偏差。
4.4.失相系数测定(拟合)
可以从参考DNA分子(即,具有已知序列的分子)的测序结果估计超前和滞后系数。
对于给定的共聚物长度阵列h、超前系数ε和滞后系数λ,测序信号将为:
s=T(h’,ε,λ)h (4)
设定f为通过测序仪的CCD直接收集的原荧光信号的阵列,s(1),s(2)为s的奇偶性分裂,即,
并且
所以,f和s(1),s(2)之间的关系为:
f=a·bt(s(1)+s(2))+cs*(1)+ds*(2)+ξ (11)
其中a、b、c、d和ξ是单位测序信号、衰减系数、两个测序混合物的信号偏移以及白噪声项。t是记录循环数目的阵列,即t=[1,2,…,N]T。
所以对于任何给定的h、ε和λ,可计算s,可以找到最拟合公式(5)的一组a、b、c和d。然后,通过梯度降低策略测定最佳ε和λ。整个算法是:
1.定义x=(ε,λ)。定义函数F(x)如下:根据h和x通过式(4)计算s;
使用信赖域反射算法或莱文贝格-马夸特算法(Levenberg-Marquardtalgorithm)找到最拟合公式(11)的a*、b*、c*和d*;计算并且使用f和之间的皮尔逊相关系数作为F(x)的函数值。
2.将ε和λ的原始值设定为ε0=λ0=0.01或任何其它合理值。将步长γg和γs设定为任意小的正数,比如0.01。
3.考虑序列x(0),x(1),x(2),…,,使得
其中
4.如果|F(x(n+1))-F(x(n))|<∈则停止迭代,其中ε是任意小的正数,比如10-6。
如果考虑将不同失相系数用于每个测序混合物,则将x定义为x=(ε1,ε2,λ1,λ2),其余可以按相同方式完成。
4.4.1.系数变化轨迹;失相系数的总结;以及失相系数和测序反应时间之间的关系
系数变化轨迹
在一轮典型测序中,使用失相系数估计算法荧光信号拟合于DNA序列,每个系数的变化轨迹描述于图37A,其中显示了失相系数估计算法中每个系数的变化轨迹。X标记:迭代次数。在迭代期间所有系数均收敛到恒定值,这表明了系数的准确估计。
失相系数的总结
所有轮测序中的失相系数均计数并总结于图37B中(失相系数,误差条:标准差)。公式(11)中的符号a、b、c和d称为单位、衰减和两个偏移。
失相系数和测序反应时间之间的关系
为了检查失相系数和测序反应时间之间的关系,在相同泳道连续进行5次2+2测序运行,每次运行的反应时间从15s增加到90s。实验中的DNA模板为L4418-305,碱基组合均为M/K,测序循环数均为40。使用上文所述的算法拟合每次运行的测序信号,结果发现反应时间增加导致超前系数增大和滞后系数减小。其他测序实验的最终反应时间采用60s,以便考虑超前和滞后系数的平衡。图37C显示了不同反应时间的失相系数。
第5节:解码
5.1.不同测序流图的特征
5.1.1 DNA的信息熵
对于长度为d的足够长的DNA分子,如果各碱基的类型是独立的,并且每种类型的碱基的出现概率相等,即,
那么,该DNA分子的香农熵(Shannon entropy)是
5.1.2焦磷酸测序的信息熵
在本实施例中,术语“DNA分子的简并序列”用于描述具有相同核苷酸类型的顺序,但是其均聚物长度均等于1的序列。例如,‘ATTCCCG’的简并序列为‘ATCG’。
在本实施例中,术语“黑暗循环”用于描述1×4测序中的反应循环,所述测序的信号强度为0。
用流图(T、C、A、G、T、C、A、G、…)考虑1×4测序过程。在不失去普遍性的情况下,假定循环1不是黑暗循环,递送的核苷酸为T。第二均聚物的类型将会是C、A或G,有1/3的相等概率。如果第二均聚物是C,则循环2不会是黑暗循环。如果第二均聚物为A,则循环2是黑暗循环,而循环3不是黑暗循环。如果第二均聚物是G,则循环2和3都是黑暗循环,而循环4不是黑暗循环。所以,两个非黑暗循环Ndark之间黑暗循环的数目的概率分布如下:
所以Ndark的预期值是即,非黑暗循环和黑暗循环数目的比率为1:1。
非黑暗循环中信号强度x的概率为:
非黑暗循环的平均信号强度(预期)为:
由于非黑暗循环和黑暗循环数目的比率为1:1,任意1x4测序循环的平均信号强度(预期值)为:
长度为d的DNA分子中测序的预期循环为:
1x4测序的单个信号的香农熵是:
注意,如果在没有其前一循环的任何先验知识的情况下考虑1x4测序的单个信号,则信号的强度概率为:
平均信号强度保持不变:
但是,香农熵结果是:
并且:
H′1×4×N1×4=2.31d>HDNA
这一反直觉现象是由于以下事实:相同1x4测序运行中每个循环的信号强度不是独立的,因此其香农熵不能被简单加起来。
5.1.3 ECC测序的信息熵(单色)
2+2测序中信号强度x的概率为:
所以,2+2测序的平均信号强度是:
单个单色2+2测序信号的香农熵是:
因此,一轮单色测序提供了一些信息
5.1.4 ECC测序的信息熵(双色)
2+2测序中信号强度(x,y)的概率为:
单个双色2+2测序信号的香农熵是:
鉴于连续测序的平均信号强度是2,需要d/2循环以完成测序。因此,一轮双色测序提供了一定量的信息
5.1.5三轮ECC测序所需的测序反应差异
对相同分子测序时,不同碱基组合需要不同的循环数。例如,对于序列‘ACACA’,需要5个循环来延伸R/Y的整个分子,但对于M/K仅需1个循环。随机生成长度100bp的10000条不同DNA序列,计算三个碱基组合M/K、R/Y和W/S所需的测序循环。图57显示了三个碱基组合的循环的范围分布。范围的平均值为8.43,如红色垂直线所示。
5.2 ECC解码算法
5.2.1信号的图示
使待测序DNA分子的均聚物长度为h,并且ECC测序中的信号(失相校正后)为s=(s1,s2,...,sn)。假定在循环i中,hi个给定信号si的概率为P(hi|si)。所以,信号可以如下所述的图所示。
s中的每个信号si均以si个节点表示。对于表示信号si的节点,绘制从第j个节点到第(j+1)个节点j=1,2,...si的有向边。绘制从表示信号si的第si个节点(最后一个节点)到自身的有向边。绘制从表示信号si的每个节点到表示si+1的第一个节点的有向边。
图中每个节点可根据该循环中递送的核苷酸种类被标记为1或0。
接下来,定义表示测序信号的图中路径的权重。将路径限定为一系列节点v1v2...vK,其中对于每个相邻节点vk和vk+1,存在从vk到vk+1的有向边。允许vk和vk+1是相同节点,在此情况下两者是表示特定循环的信号的最后节点。
如果在路径v1v2...vK中,均为表示信号si的节点,则这些节点均被分配权重P(ti|si)。路径v1v2...vK的权重定义为其所有节点的权重的产物。为了方便计算,还可以将节点的权重指定为概率的对数,并且将路径的权重分别调整为其所有节点的总和。
图的路径表示来自测序结果的一种可能的DPL(简并聚合物长度),如图1所示。具体地说,从表示si的最后一个节点到其自身的边(edge)表示插入,从表示si的节点(除了最后一个外)到表示si+1的第一节点的边(edge)表示删除。
对于DNA分子,用碱基组合M/K、R/Y和W/S对其进行测序,以获得三个信号。三个信号中的每一个可表示为如上所述的图。假定 和分别是来自三个图的路径,并且具有相同长度K:如果的奇偶性检查对于所有k=1,2,3,...,K为真,则这三条路径称为三个图的公共路径。显然,解码问题实际上是要找到具有最大权重(最大公共路径,MCP)的三幅图的公共路径。
5.2.2通过动态规划的ECC解码
该节中的术语:
码字空间和节点:其中称为节点的元素索引[i,j,k](I,j,k∈N)表示码字的3D离散空间包括第i比特第1轮、第j比特第2轮和第k比特第3轮。相比BS(简并序列),码字空间以直观的方式记录每种可能的码字比对。
跳转:比特与比特之间的单向链接。
连接:节点与节点之间的定向链路。连接包括在不同轮的三个跳转。
节点的奇偶性:节点的三比特的xor值。
必需变量的准备
假设三个二进制字符串的最大长度为N,则将二进制字符串(简并核苷酸序列)预处理为查询表。
BS(二进制字符串)是一个3*N布尔矩阵(Boolean matrix),是测序数据的二进制版本。数值0(或1)代表简并碱基。例如:
[0,0,1,1,1,0,0,0,1,0,1,1,1,0,0,1,0,0,1,0,0;
0,1,1,1,1,0,0,0,0,1,1,0,0,1,0,1,1,1,1,0,1;
1,0,1,1,0,1,1,1,1,0,0,0,1,0,0,0,1,0,1,1,0;]
CNS(循环数目序列)是一个3*N整数矩阵,记录在其中读出二进制比特(简并碱基)的循环数目。
[1,1,2,2,2,3,3,3,4,5,6,6,6,7,7,8,9,9,10,11,11;
1,2,2,2,2,3,3,3,3,4,4,5,5,6,7,8,8,8,8,9,10;
1,2,3,3,4,5,5,5,5,6,6,6,7,8,8,8,9,10,11,11,12;]
DPL(简并聚合物长度)是一个3*N整数矩阵,记录读取循环的DPL。
[2,2,3,3,3,3,3,3,1,1,3,3,3,2,2,1,2,2,1,2,2;
1,4,4,4,4,4,4,4,4,2,2,2,2,1,1,4,4,4,4,1,1;
1,1,2,2,1,4,4,4,4,3,3,3,1,3,3,3,1,1,2,2,1;]
这些表格使得可以容易查询循环和一比特的DPL信息。不同循环数目表示两个不同比特来自不同循环。DPL是动态规划的评分函数的输入。例如,第1轮第11比特的循环数目为CNS(1,11)=6,DPL(该循环中的单体)为DPL(1,11)=3。
初始化比对变量
SCORE=数字矩阵,大小为N*N*N,默认为NaN
CONNECTION=节点矩阵,大小为N*N*N
ROUTABLE=布尔矩阵,大小为N*N*N,默认为假,但Routable(1,1,1)=真查询ROUTABLE(节点)为真则意味着该节点具有返回节点(1,1,1)的连接。
STEP=3元素的元组矩阵,大小为N*N*N,默认为(0,0,0),但Step(1,1,1)=(1,1,1)
STEP(节点)的3元素元组记录该循环中三轮测序中已计数的比特数。循环中每个连接的STEP值增加1,并且在新循环中复位为1。当跨循环跳转时,将STEP值作为校正的DPL值。
比对过程的伪代码
奇偶性(节点)检查节点的奇偶性。节点(i,j,k)的二进制值取自BS(1,i)、BS(2,j)、BS(3,k)。计算三比特的xor。
层和遍历。码字空间的第L层包含框[L,L,L]内的所有节点,而不包含框[L-1,L-1,L-1]内的节点。以第5层为例。该层有61个节点。遍历顺序必须确保每个节点(索引[i,j,k])可以从遍历节点(traversed node)(索引[ii,jj,kk]、ii<=i、jj<=j并且kk<=k)连接。图58显示了一种可能的遍历顺序-评分矩阵结构的层和节点遍历顺序的实例。
5.2.3 ECC解码的隐马尔科夫模型
类似于其序列比对的应用,隐马尔科夫模型也可应用于信号解码问题。引入三个符号来描述状态:匹配(m)、星号(*)和间隔(-)。强度为a的信号表示为a匹配。如果理想信号强度是b且b>a,则在a匹配之后紧邻处加入(b-a)*。如果b<a,则在表示信号的最近匹配的两个正交位置加入(a-b)间隔。例如,三个碱基组合中序列TGAACTTTAGCCACGGAGTA的理想DPL为:
M/K:0、2、3、3、1、1、4、2、1、2、1;
R/Y:0、1、3、4、2、2、1、1、4、1、1;
W/S:1、1、2、1、4、3、1、3、1、1、2。
实验中测量的DPL是:(粗体加下划线的数字指示错误)
M/K:0、2、3、3、1、1、2、1、2、1;
R/Y:0、1、4、2、2、1、1、4、1、1;
W/S:1、1、2、1、4、3、1、3、1、1、2。
使用上述表示方法的解码校正的信号为:
M/K:mmmm-mmmmmmmmm*mmmmmm
R/Y:mmmmmmmmmmmmmmmmmmmmm
W/S:mmmm-mmmmmmmmmmmmmmmm
显然,信号M/K、R/Y和W/S的比对可视为以下比对状态的转换过程:(mmm)、(mmm)、(mmm)、(mmm)、(-m-)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)、(*mm)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)、(mmm)。这启发我们使用隐马尔科夫模型来描述信号比对。
通常,模型的总体隐藏状态是:(mmm)、(m--)、(-m-)、(--m)、(*mm)、(m*m)、(mm*)、(m**)、(*m*)和(**m)。除了(m--)、(-m-)和(--m)以外的每个状态将发出核苷酸,通过对应的测序信号类型确定该核苷酸的类型。状态(m--)、(-m-)和(--m)不会发出任何核苷酸。模拟1百万个DNA读数,以计数状态转换的概率(图59),该隐马尔科夫模型的维特比算法(Vertebi algorithm)将是ECC解码算法的替代实施方式。图59显示了ECC解码的隐马尔科夫模型的状态转换网络。边的宽度表示转换概率的量级。
5.3其他ECC解码结果
示例性解码结果显示于图61。
5.4不同原始精度(raw accuracies)下解码的模拟
为进一步研究ECC解码增强准确性的能力,模拟在5个不同水平的原始精度下解码,每个水平具有10000条DNA序列。将两个参数γ和δ用于生成概率矩阵P,其条目Pij指示具有长度为i的DPL的概率作为长度j被测序,遵循以下步骤:
1.对于P中对每个条目Pij,设定
2.将N(x;μ,σ2)设定为正态分布的概率密度函数,即则
3.归一化P,所得每行的总和均等于一。
在模拟中,将γ分别设定为1.6、1.7、1.8、2.0和2.1,并将δ设定为0.1。在这些参数设置下的总体原始精度分别为97.42%、98.34%、98.97%、99.64%和99.80%。使用相同的10000个随机400bp DNA序列,计算其理论DPL,根据生成的概率矩阵P随机修改为新值,并使用解码算法进行校正。解码算法中使用的评分函数经受其各自的概率矩阵P。如果DNA序列的三个连续DPL中的两个通过解码算法被修改,则由于错误解码的可能性高而将该DNA序列丢弃。测序的准确率定义如下:如果长度为i的DPL被测序(或解码)为长度j,则该DPL中这些i碱基的准确率为在解码之前和之后计算DNA序列的前300bp的准确率分布,并且在解码之后发现显著的准确率偏移(图60),表明解码算法的能力。图60显示了解码之前和之后准确率的模拟分布。
实施例12:校正测序错误的方法
变换矩阵的构造
在本实施例中,使用2+2测序实验方法来形成Μ/K的组合。凡奇数轮加入A或C,凡偶数轮加入G或T。当待测DNA序列为CCTGTATGACCGTATTCCGGGTCCTGTCGGTA(SEQ ID NO:40)时,所获得的理想信号为h=(2、3、1、2、3、2、1、2、2、4、2、3、1、3和1)。
为简便起见,在计算中假设M和K的超前系数以及滞后系数均相同。例如,当超前系数为0.02、滞后系数为0.01、共进行10次测序反应时,根据上述方法构造出的变换矩阵为:
为计算准确性起见,在计算中假设M和K的超前系数以及滞后系数均不同。例如,当M的超前系数和滞后系数分别为0.02和0.01,K的超前系数和滞后系数分别为0.01和0.02,共进行10次测序反应时,根据上述方法构造出的变换矩阵为:
如果使用2+2双色测序方法,则变换矩阵的计算方法不变。区别仅在于参数估计和信号校正中的应用方式。
单色2+2测序的参数估计
在本实施例中,使用初级单色2+2测序实验方法来形成Μ/K的核苷酸组合。凡奇数轮加入A或C,凡偶数轮加入G或T。被测序列如下:
AAGAGCTGGACAGCGATACCTGGCAGGCGGAGCTGCATATCGAAGTTTTCCTGCCTGCTCAGGTGCCGGATTCAGAGCTGGATGCGTGGATGGAGTCCCGGATTTATCCGGTGATGAGCGATATCCCGGCACTGTCAGATTTGATCACCAGTATGGTGGCCAGCGGCTATGACTACCGGCGCGACGATGATGCGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAATCCTACAATGCCGGTGAAAGGTGCCGGGACCACCCTGTGGGTTTATAAGGGGAGCGGTGACCCTTACGCGAATCCGCTTTCAGACGTTGACTGGTCGCGTCTGGCAAAAGTTAAAGACCTGACGCCCGGCGAACTGACCGCTGAGTCCTATGACGACAG(SEQ ID NO:41)。
共进行200次测序反应,得到实际原始测序信号如图43所示。可以看出:原始测序信号的数值范围大约在100-1500之间,整体呈下降趋势。从大约第80次测序反应开始,信号呈交替波动状,无法从中直接读取序列信息。利用上述参数估计方法,根据待测DNA分子的序列及测序方法,可推断理想信号为h=(2,1,1,1,1,3,3,1,1,1,1,1,3,3,2,2,1,2,1,1,1,2,2,1,1,1,1,1,2,5,2,2,2,2,1,1,2,4,2,2,1,2,2,1,1,1,1,3,1,2,1,4,1,3,1,2,3,2,1,3,1,1,2,4,1,2,1,1,1,1,1,1,1,1,3,2,3,3,2,1,1,4,1,1,5,2,1,6,3,1,1,2,1,1,1,2,2,1,3,2,1,1,1,1,2,1,1,2,1,2,1,3,1,6,1,3,2,1,2,1,1,1,1,2,2,2,1,3,2,2,3,1,1,2,3,4,1,2,2,1,1,1,1,2,2,3,6,1,2,1,4,2,2,4,3,4,2,3,7,9,1,1,2,4,1,1,1,4,4,2,2,1,1,1,2,1,2,1,1,3,2,1,2,4,2,4,1,1,1,2,1,3,5,3,3,1,3,2,2,1,3,2,1,1,3,2,3,1,1,2,1,2,2,1,1,2,2,1,3,1)。用上述参数估计方法来估计此次测序中的相关参数。构造变换矩阵时,为准确计算起见,假设M和K的超前和滞后系数均不相同。设t为测序反应的次数。构造变换函数其中:
1.其中a称为单位信号;
2.其中b称为衰减系数;
3.其中d和e分别称为M和K的整体偏移;
4.其中s为失相信号。
参数估计中,所使用的相关系数为皮尔逊相关系数,所使用的最优化方法为梯度下降法。在经过48轮迭代计算后,梯度下降符合收敛条件,得到M的超前系数为0.0117,M的滞后系数为0.0067。K的超前系数为0.0128,K的滞后系数为0.0067。单位信号为519.7,衰减系数为0.9849,M的整体偏移为122.7,K的整体偏移为150.1,相关系数为0.999961。所有参数在迭代计算过程中的变化趋势如图44所示。
单色2+2测序的信号校正
在本实施例中,使用初级单色2+2测序实验:被测序列未知。其实际原始测序信号f,以及经应用实施例1中的变换函数的反函数和有关参数变换得到的失相信号如图45所示(倒三角信号表示该位置上的信号强度与理想信号不符)。
可以看出:在经过变换函数的反函数变换得到的失相信号中依然有许多位置上的信号值与理想信号不符。经过上述信号校正的步骤,共进行4次迭代,分别得到一阶失相信号s1、二阶失相信号s2、三阶失相信号s3和四阶失相信号s4。四舍五入后,s3和s4的所有信号值均彼此相等,因此停止迭代,输出s4作为校正结果。这四阶失相信号如图46所示,其中倒三角表示该位置上的信号强度与理想信号不符。可以看到,随着迭代的进行,倒三角信号逐渐变少,表明准确性越来越高。在最终校正结果中,前173次测序反应的信号均被校正至完全正确。直到第174次测序反应起才出现校正错误。
双色2+2测序的参数估计
在本实施例中,使用初级双色2+2测序实验:核苷酸组合为M/K,其中A和G标记相同颜色的荧光基团,C和T标记相同颜色的荧光基团。被测序列为:
AAGAGCTGGACAGCGATACCTGGCAGGCGGAGCTGCATATCGAAGTTTTCCTGCCTGCTCAGGTGCCGGATTCAGAGCTGGATGCGTGGATGGAGTCCCGGATTTATCCGGTGATGAGCGATATCCCGGCACTGTCAGATTTGATCACCAGTATGGTGGCCAGCGGCTATGACTACCGGCGCGACGATGATGCGGGCTTGTGGAGTTCAGCCGATCTGACTTATGTCATTACCTATGAAATGTGAGGACGCTATGCCTGTACCAAATCCTACAATGCCGGTGAAAGGTGCCGGGACCACCCTGTGGGTTTATAAGGGGAGCGGTGACCCTTACGCGAATCCGCTTTCAGACGTTGACTGGTCGCGTCTGGCAAAAGTTAAAGACCTGACGCCCGGCGAACTGACCGCTGAGTCCTATGACGACAG(SEQ ID NO:41)
共进行200次测序反应,得到实际原始测序信号如图47所示。
可以看出:原始测序信号的数值范围大约在100-1200之间,整体呈下降趋势。从大约第80次测序反应开始,信号呈交替波动状,无法从中直接读取序列信息。由于采用了双色测序方法,因此理想信号、失相信号、原始测序信号等均分别有2条,分别对应A和G标记的荧光基团以及C和T标记的荧光基团。
利用上述参数估计方法,根据待测DNA分子的序列及测序方法,可推断AG标记的荧光基团所对应的理想信号为:h1=(2,1,1,1,0,2,2,1,0,1,1,0,1,2,1,2,0,2,1,1,0,1,1,0,1,0,0,1,2,1,0,1,0,1,0,0,1,3,0,2,1,0,1,1,1,1,0,2,1,1,0,3,1,2,1,1,0,2,1,0,1,0,0,3,1,1,1,1,0,1,1,0,1,0,0,2,1,1,1,1,1,1,1,0,2,1,1,4,1,1,0,2,0,0,1,1,1,0,1,2,0,1,0,1,1,1,1,1,1,1,0,3,0,3,1,1,1,1,0,1,1,0,0,1,1,0,1,1,1,0,1,0,1,1,3,2,1,2,1,1,0,0,1,1,0,1,4,0,0,0,3,1,0,3,3,3,0,3,2,4,1,0,2,4,1,1,0,3,1,0,1,1,0,1,2,0,0,1,0,0,1,1,1,2,1,2,0,1,0,1,0,2,4,1,3,1,1,1,1,1)。C和T标记的荧光基团的理想信号为:h2=(0,0,0,0,1,1,1,0,1,0,0,1,2,1,1,0,1,0,0,0,1,1,1,1,0,1,1,0,0,4,2,1,2,1,1,1,1,1,2,0,0,2,1,0,0,0,1,1,0,1,1,1,0,1,0,1,3,0,0,3,0,1,2,1,0,1,0,0,1,0,0,1,0,1,3,0,2,2,1,0,0,3,0,1,3,1,0,2,2,0,1,0,1,1,0,1,1,1,2,0,1,0,1,0,1,0,0,1,0,1,1,0,1,3,0,2,1,0,2,0,0,1,1,1,1,2,0,2,1,2,2,1,0,1,0,2,0,0,1,0,1,1,0,1,2,2,2,1,2,1,1,1,2,1,0,1,2,0,5,5,0,1,0,0,0,0,1,1,3,2,1,0,1,0,0,1,2,0,1,3,1,0,1,2,1,2,1,0,1,1,1,1,1,2,0,0,2,1,1,0)。
用上述参数估计方法来估计此次测序中的相关参数。构造变换矩阵时,为准确计算起见,假设M和K的超前和滞后系数均不相同。对于某个根据一些给定的失相系数构造的变换矩阵T,假设A和G标记的荧光基团的失相信号为s1=Th1,C和T标记的荧光基团的失相信号为s2=Th2。设t为测序反应的次数。对于A和G标记的荧光基团以及C和T标记的荧光基团,分别构造变换函数和其中
1.其中a1和a2分别是A和G以及C和T标记的荧光基团所释放信号的单位信号;
2.其中b称为衰减系数;
3.其中d1、e1、d2和e2分别是指A、G、C和T的整体偏移;
4.其中s为失相信号。
参数估计中,所使用的相关系数为皮尔逊相关系数,所使用的最优化方法为梯度下降法。在经过17轮迭代计算后,梯度下降符合收敛条件,得到M的超前系数为0.0125,M的滞后系数为0.0067。K的超前系数为0.0126,K的滞后系数为0.0068。A和G以及C和T标记的荧光基团所释放信号的单位信号分别为519.8和480.7,衰减系数为0.9860,A的整体偏移为164.5,G的整体偏移为133.2。C的整体偏移为140.7,T的整体偏移为175.7。相关系数为0.999964。所有参数在迭代计算过程中的变化趋势如图48所示。
双色2+2测序的信号校正
初级双色2+2测序实验:凡奇数轮加入G和T,凡偶数轮加入A和C,其中A和G标记相同颜色的荧光基团。C和T标记相同颜色(不同于A和G的颜色)的荧光基团。被测序列未知。本次测序中获得的原始测序信号f,以及经应用实施例4中的变换函数和的反函数和有关参数变换得到的失相信号如图49所示。由于采用了双色测序方法,因此理想信号、失相信号、原始测序信号等均分别有2条,分别对应A和G标记的荧光基团以及C和T标记的荧光基团。可以看出,图49中有很多倒三角信号,表明在失相信号(或相错配)s中,依然有许多位置上的信号与理想信号不符。
经过上述信号校正的步骤,共进行4次迭代,分别得到一阶失相信号s1、二阶失相信号s2、三阶失相信号s3和四阶失相信号s4。四舍五入后,s3和s4的所有信号值均彼此相等,因此停止迭代,输出s4作为校正结果。这四阶失相信号如图50所示,其中倒三角表示该位置上的信号强度与理想信号不符。可以看到,随着迭代的进行,倒三角信号逐渐变少,表明准确性越来越高。在最终校正结果中,前166次测序反应的信号均被校正至完全正确。直到第167次测序反应起才出现校正错误。
由大量序列得出的综合性能
为综合评估本文从原始测序信号中读取序列信息的准确性,分别进行了五次单色2+2测序实验。一方面,每次测序均进行500次测序反应。每次测序实验中,一部分被测DNA被作为参考,其序列和原始测序信号被用于参数估计;另一部分被测DNA被作为测序样品。将分别使用两种方法进行信号校正:一种根据本文所描述的方法,利用参考DNA所估计出的参数对其进行信号校正;另一种简单地假设原始测序信号和理想信号间存在简单的正比关系,以此推断DNA序列信息。
这五次测序实验中,利用参考DNA的原始测序信号所估计出的失相系数分别为0.001、0.003、0.005、0.010和0.011(参数估计时将超前系数和滞后系数设置为相等)。对于信号校正,分别记录两种方法校正得到的信号中信号强度和理想信号强度不符的第一次测序反应的编号(即完全正确的校正信号的长度),并绘制成柱状图(如图51所示,误差条(error bar)为标准差)。可以看到,当失相系数为0.001时,根据简单正比关系计算获得的校正信号在不到100次测序反应时即出现校正错误,而本文所描述的方法得到了完全正确的校正结果。随着失相系数的增大,两种方法的校正结果的准确率均有所下降。然而,一方面,在本文获得的校正结果中,完全正确的校正信号的长度依然是根据简单正比关系计算值的3-5倍,这体现了本文在改进从原始测序信号中读取DNA序列的准确性和有效读长上的明显优越性。
实施例13:错误校正代码荧光DNA测序
简并碱基荧光测序的原理:
在本实施例中,开发出一系列荧光测序底物(使用高性能荧光团东京绿(TG)),以末端标记四磷酸核苷酸(dN4P或dN,参见图52a和图5A-5C)。TG提供比之前报告的荧光染料更高的荧光量子产率(在490nm下0.82)、更高的吸收系数、更高的开关比以及更佳的光稳定性。在荧光边合成边测序(SBS)过程中,使用固相PCR将单链DNA模板接枝于玻璃流动池的表面上(图23)。然后,将每个模板用测序引物退火,该测序引物的3'端充当SBS反应的开始点。在每个测序循环中,反应混合物(Bst聚合酶、碱性磷酸酶和荧光核苷酸)与那些固定化的引发DNA模板反应。当聚合酶将校正的核苷酸掺入引物末端上时,将同时释放非荧光“黑暗”状态染料-三磷酸,然后通过脱磷酸立即切换为高度-荧光“发亮”状态。该荧光SBS反应产生天然DNA双链体,使合成链的3'端未终止(仍可延伸,待延伸)。可在引物末端形成正确沃森-克里克配对(Watson-Crick pair)的底物将连续延伸,直到遇到第一错配。
已将该特征用于通过单碱基流图对30-40个碱基进行测序,其中在每个循环中将四个底物之一引入反应中。在本实施例中,使用双碱基流图。例如,在测序的第一个循环中(图52b,K(dG&dT)反应混合物带到起始序列ACTTGAAA的引发DNA模板。DNA聚合酶将掺入一个dT和一个dG以与前两个碱基AC配对并得到两个荧光团,然后在第三个碱基T上由于错配而停止。在下一个M循环中,将两个dA和一个dC与接下来的三个碱基TTG配对,得到三个荧光团。缀合混合物M和K交替引入以与引发的DNA模板反应(图52c)。每个循环产生的荧光团的量等于延伸碱基的数目。
完成聚合酶延伸后,测量荧光信号。归一化荧光信号,表示每个循环中延伸碱基的数目,而非实际组合物和序列,称为简并聚合物长度(DPL)。在图52c中,可将DPL阵列(0、2、3、3、1、...)转化为简并序列(KKMMMKKKM...),其中M=A或C,K=G或T。除了该M-K双碱基流图以外,还有两个附加双碱基流图R(A,G)-Y(C,T)和W(A,T)-S(C,G),由此可将相同模板表示为不同的简并序列(YRRRYYYYRRYY…)和(WSWWSWWWW…)。为了获得这三个正交简并序列,需要在测序轮之间进行重置操作以使新生链变性并使测序引物退火。每个实际碱基可通过计算简并碱基的交集由三条序列推断。该测序方法称为错误校正代码(ECC)测序,通过该测序方法可以检测和校正测序错误。
简并碱基识别
在本实施例中,建立实验室原型,以使用双碱基流图进行荧光测序。与其他SBS测序方法类似,荧光强度衰减是不可避免的。主要由于反应不完整和模板或引物的丢失造成的这种衰减已经在碱基识别中引起了严重挑战(图53a)。在典型的荧光简并测序运行中,荧光强度降低可通过指数衰减函数归一化,反应循环之间信号下降约1%。每个循环中归一化的荧光信号应当已被舍入至DPL(图53b)。但是,强度和DPL之间的一致性仅可保存于约前30个循环,此后不可忽略失相,也就是说,每个循环的信号变得显著受相邻循环影响。
失相,即引物集合(primer ensemble)的不同步,有两个主要组成部分:“滞后”和“超前”。滞后链主要是由延伸不完全导致的,而在双碱基测序中超前链主要是由于污染碱基导致的意外延伸。在给定的循环中,不同步的引物集合产生的荧光信号不同于对应的DPL。失相的积累将逐渐降低测序信号和DPL阵列之间的相关性。
然而已经表明,可根据一级反应方式较好地估计信号失相和衰减的积累效应,估计值和测量值之间的残差低于0.2。此外,开发了序列非依赖性迭代失相校正算法,以推断每轮测序的DPL阵列。通过失相校正,DPL阵列长度的低误差范围可以从前50个循环(约100nt)显著延长到超过150个循环(约300nt),超过该循环后,用失相算法不能准确校正邻近错误(crowdederrors)(图53c)。对于相同模板,使用RY和WS流图,此校正方法也可应用于的另外两个正交简并序列(图53d-e)。三条简并序列中的每一条均隐藏有不太可能位于相同碱基位置的罕见错误(<1%)。
ECC测序的信息通讯模型
从信息理论角度,分析双碱基测序中的信息冗余。一方面,从一轮双碱基测序采集的DPL阵列无法提供明确的DNA序列。当没有测序错误时,长度为L-nt的随机序列的DNA信息熵为2L比特,而其DPL阵列的信息熵仅为L比特。正交性质确保从不同流图采集的两个DPL阵列的互信息熵为0比特,节点信息熵为2L比特。因此,两条简并序列提供明确DNA序列的既充分、必要的信息(L+L-0=2L)。利用自不同流图的两个DPL阵列中的简并碱基的交集(intersection),可以推断出明确的DNA序列。例如,如果MK DPL阵列中的碱基被测序为M(A/C),在RY DPL阵列中被测序为R(A/G),则可推断其为碱基A({A,C}∩{A,G}={A})。
然而,由于实验测序错误,DPL阵列(称为l)的熵低于L比特。两个包含此错误的DPL阵列提供的节点信息不足以推断DNA序列(l+l-0<2L)。在我们当前的实验错误率下,引入额外DPL阵列以提供互信息/冗余信息(2L<3l<3L),其可用于检测错误和推断明确序列。
还建立了信息通讯模型,以及含有编码器、解码器和通讯通道的模型,以描绘具有错误检测和校正的内在特性的双碱基测序(图54a)。3个正交双碱基流图将DNA序列、信息来源编码到3个原始DPL阵列(n)中。分析人、酵母和大肠杆菌基因组中的DPL分布,结果发现其接近于P(n)=1/2n,即来自随机DNA序列的DPL的理论分布。从图54b中还发现,仅有0.39%的DPL大于8.0。
测序反应被视为通讯通道,通过该通道测序错误会被不可避免地引入所接收的信息中。例如,在R-Y轮的循环3中,原始DPLn=3被错误地测量为m=4(3-至-4插入错误,图54a)。在42轮双碱基测序数据中分析原始和测量DPL的一致性。5503/5609(98.1%)的原始DPL(n≤9)被如实传递(图54c)。
通过将码字定义为按MK、RY和WS的顺序来自简并碱基序列相同位置处的简并碱基的3-元组,将测量的DPL阵列重写为简并碱基序列。在图54a的情况下,前几个码字是(KYW)、(KRS)、(MRW)等。此类码字可被进一步编译为二进制格式。将M、R和W归属为逻辑1,将K、Y和S归属为逻辑0。任何单个流图中的每条简并序列变为比特字符串(BS)。将码字的奇偶性限定为其三比特的XOR(异或)操作的结果(图54d)。当且仅当奇偶性为逻辑1时,码字中的简并碱基仅有一个公共碱基,该公共碱基被视为解码结果。特别地,111(MRW)被解码为碱基A,100(MYS)被解码为C,010(KRS)被解码为G,001(KYW)被解码为T。这四个合法码字之间的汉明距离(Hamming distance)为2。另一方面,奇偶性逻辑为0(无公共碱基)的其余四个非法码字指示测序错误。如图54a所示的情况下,将DNA序列从BS解码,在奇偶性检查期间通过解码器捕获第5码字处的3-至-4错误(MRS/110)。通常,汉明距离为2的无记忆码字仅仅是可检测错误的(error-detectable),但不是可校正的(correctable)。但是,据发现双碱基测序产生BS格式不是无记忆的而是环境依赖性的,这为错误检测以外的错误校正提供了额外信息。
使用动态规划的序列解码
通过基于动态规划的算法进行错误校正解码。双碱基测序错误,即错误测量的DPL,可以容易地通过奇偶性检查在码字中识别。这些独特错误仅仅是BS中的比特插入或删除,而非比特改变。当发现错误时,有可能通过基于BS环境改变对应的DPL来校正。错误必须从第一个错误按次序校正,因为对应于BS移动操作的DPL改变会影响下游码字。
典型实施例显示于图55a。在码字5下检测第一个非法码字,有三个可能的错误来源:(1)M-K轮循环2插入错误,原始DPL(n=2)被错误地测量为3;(2)R-Y轮循环2中的插入错误,原始DPL(n=3)被测量为4;和(3)W-S轮循环3中的删除错误,原始DPL(n=3)被测量为2。R-Y轮的循环2中的插入错误通过自第6比特左移BS2来校正。经过该移动操作,很多以下非法码字同时经奇偶性检查合格。然后,在碱基14下检测第二个错误。该删除错误连同其余非法码字,均通过自第14比特右移BS1解决。在此情况下,仅通过两次校正操作即将9个非法码字合法化,得到无错误解码的DNA序列。
事实上,有多种可能的操作组合来解码序列。此外,组合的数目随读长以指数增加,使得其不可能在实践中通过对所有可能的组合计数来获得最佳序列。
因此,采用动态规划来确定全局最佳解码序列。将码字空间构造为3维矩阵,用三个BS作为其轴。每个节点(i,j,k)表示由BS1的第i比特、BS2的第j比特和BS3的第k比特组成的码字,可根据奇偶性检验将其分类或区分为两种类型,即合格或错误(图55c)。从节点(1,1,1)开始并且仅穿过合格节点的任何路径均表示可能的解码DNA序列。码字空间中给定路径的概率可通过贝叶斯公式计算。出现长度为n的DPL的先验概率为1/2n(图54b),可从参考序列获得将按长度m测序的长度为n的DPL的概率P(m|n),并将数据与理论值对比(图54c)。然后对于第r轮(r是MK、RY或WS),其长度为mi的第i次测量的DPL是由长度ni的DPL产生的后验概率Pr(ni|mi)可给出如下:
测量的DPL阵列由特定DNA产生的概率Pr是Pr(ni|mi)的累积结果。在三轮ECC测序彼此独立的假设下,给定路径的概率为
PPath=PMK·PRY·PWS
码字空间中每条路径的概率可以按相同方式计算(图55c)。采用动态规划方法来获得具有最大概率的路径。
解码提升ECC测序准确性
ECC解码可以有效校正长测序读数的错误。进行14个较长长度三轮ECC实验,以序列来自λ噬菌体的3个不同模板。在ECC解码之前,在测序信号中偶尔有较小错误。解码后,这些错误在200bp之前被完全消除,在200-250bp也显著减少(图56a-c)。例如在图56a中,尽管在第RY轮的碱基39中出现第一个测序错误,在ECC解码后该错误连同第WS轮中的另外多个测序错误被成功校正。ECC解码后的第一个错误被延迟超过270bp。
ECC解码算法能够准确识别复杂的错误形式。与分散的测序错误相比,相同或不同轮中的相邻错误在校正时更具挑战性,因为在解码算法中需要更多且更精细的校正操作。当三轮测序信号之间的奇偶性检验失败时,算法将计算不同操作的概率。
在一种情况下,第RY轮的3个循环中出现两个测序错误(循环22的1个碱基删除以及循环24的1个碱基插入)。至少两个替代校正途径,各包含两次校正操作,可以修复这些错误(图56b)。第一个方法操作1-至-2插入校正和2-至-1删除校正(p(2|1)*p(1|2)=0.00015,而第二个方法含有1-至-2插入校正和3-至-2删除校正(p(2|1)*p(3|2)=0.00022。因此,第二个方法由于概率更高而被优选。
在另一种情况下,两个相邻的长DPL测序错误分别在第MK轮和第RY轮出现。显然,第WS轮一个碱基的左移也可以恢复奇偶性合法(图56c)。然而,因为长的DPL更易错,算法优选通过对比不同方法的概率来校正两个较长的DPL,而不是较短的一个。
荧光简并测序本质上具有高准确性。沿测序读数分析每50nt的不同DPL的错误频率(图56d)。未经ECC校正,在11062个碱基中发现了106个错误。与其他测序方法类似,这些错误更有可能发生在更长的DPL和考后位置上。参见Forgetta等人(2013)Journal ofBiomolecular Techniques,24(1),3949;和Loman等人(2012)Nature Biotechnology,30(5),4349。前100nt中的原始精度为99.82%,前200nt中的原始精度为99.45%。在99%准确性截止值时,可达到超过250nt的读长。
ECC解码消除大部分测序错误。荧光简并测序方法高的原始精度是ECC校正完全消除前200nt中所有错误(包括DPL直到9nt中的错误)的基础,估计的上边界错误率低至0.034%。此外,ECC解码将250nt的累积错误率从0.96%有效降低至0.33%。
序列表
<110> 赛纳生物科技(北京)有限公司
<120> 获得和校正生物序列信息的方法
<130> 757272000140
<140> Not Yet Assigned
<141> Concurrently Herewith
<150> CN201610899880.X
<151> 2016-10-14
<150> CN201510944878.5
<151> 2015-12-11
<150> CN201510815685.X
<151> 2015-11-18
<150> CN201510822361.9
<151> 2015-11-18
<160> 41
<170> FastSEQ for Windows Version 4.0
<210> 1
<211> 15
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<400> 1
aactttggat tgcct 15
<210> 2
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<400> 2
tgaactttag ccacggagta 20
<210> 3
<211> 31
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> PS3-T10-P7
<400> 3
tttttttttt caagcagaag acggcatacg a 31
<210> 4
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> P5
<400> 4
aatgatacgg cgaccaccga 20
<210> 5
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> P7
<400> 5
caagcagaag acggcatacg a 21
<210> 6
<211> 58
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> P5-SeqP1
<400> 6
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 7
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> FAM-P7rc
<400> 7
tcgtatgccg tcttctgctt g 21
<210> 8
<211> 35
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> FAM-T-SeqP1
<400> 8
ttacactctt tccctacacg acgctcttcc gatct 35
<210> 9
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L10115-301-f
<400> 9
acactctttc cctacacgac gctcttccga tctgtgttcg acggtgagct gagtt 55
<210> 10
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L10115-301-r
<400> 10
gtgactggag ttcagacgtg tgctcttccg atctcaagcc ctgccgcttt ctgc 54
<210> 11
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L4418-305-f
<400> 11
acactctttc cctacacgac gctcttccga tctgtgacag cagagctgcg taatc 55
<210> 12
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L4418-305-r
<400> 12
gtgactggag ttcagacgtg tcatgcgatc atatgagtac ggctgcagcg cccg 54
<210> 13
<211> 57
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L718-308-f
<400> 13
acactctttc cctacacgac gctcttccga tcttatcgaa cagtcaggtt aacaggc 57
<210> 14
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L718-308-r
<400> 14
gtgactggag ttcagacgtg tcatgcgatc atatcaacca gataagggtg ttgc 54
<210> 15
<211> 53
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L501-500-f
<400> 15
acactctttc cctacacgac gctcttccga tctactccgc tgaagtggtg gaa 53
<210> 16
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L501-500-r
<400> 16
gtgactggag ttcagacgtg tcatgcgatc atatttatgc tctataaagt aggc 54
<210> 17
<211> 53
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L30501-500-f
<400> 17
acactctttc cctacacgac gctcttccga tctcactcac aacaatgagt ggc 53
<210> 18
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L30501-500-r
<400> 18
gtgactggag ttcagacgtg tcatgcgatc atatcacgga atgcattttt ctgg 54
<210> 19
<211> 53
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L46499-500-f
<400> 19
acactctttc cctacacgac gctcttccga tctgcctaaa gtaataaaac cga 53
<210> 20
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L46499-500-r
<400> 20
gtgactggag ttcagacgtg tcatgcgatc atatggcata atgcaatacg tgta 54
<210> 21
<211> 53
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L8703-1012-f
<400> 21
acactctttc cctacacgac gctcttccga tctaagagct ggacagcgat acc 53
<210> 22
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L8703-1012-r
<400> 22
gtgactggag ttcagacgtg tgctcttccg atctcatcgc tgactctccg gatt 54
<210> 23
<211> 57
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L718-208-f
<400> 23
acactctttc cctacacgac gctcttccga tcttatcgaa cagtcaggtt aacaggc 57
<210> 24
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L718-208-r
<400> 24
gtgactggag ttcagacgtg tgctcttccg atcttcgctg cccatcgcat tcat 54
<210> 25
<211> 55
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp1-L10115-201-f
<400> 25
acactctttc cctacacgac gctcttccga tctgtgttcg acggtgagct gagtt 55
<210> 26
<211> 54
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> Adp2-L10115-201-r
<400> 26
gtgactggag ttcagacgtg tgctcttccg atctgctgaa aaacaggctg agca 54
<210> 27
<211> 51
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> P7-Adp2-r
<400> 27
caagcagaag acggcatacg agatactgac gtgactggag ttcagacgtg t 51
<210> 28
<211> 45
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> P5-Adp1-f
<400> 28
aatgatacgg cgaccaccga gatctacact ctttccctac acgac 45
<210> 29
<211> 201
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L10115-201
<400> 29
gtgttcgacg gtgagctgag ttttgccctg aaactggcgc gtgagatggg gcgacccgac 60
tggcgtgcca tgcttgccgg gatgtcatcc acggagtatg ccgactggca ccgcttttac 120
agtacccatt attttcatga tgttctgctg gatatgcact tttccgggct gacgtacacc 180
gtgctcagcc tgtttttcag c 201
<210> 30
<211> 193
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L718-208
<400> 30
tatcgaacag tcaggttaac aggctgcggc attttgtccg cgccgggctt cgctcactgt 60
tcaggccgga gccacagacc gccgttgaat gggcggatgc taattactat ctcccgaaag 120
aatccgcata ccaggaaggg cgctgggaaa cactgccctt tcagcgggcc atcatgaatg 180
cgatgggcag cga 193
<210> 31
<211> 308
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L10115-301
<400> 31
tatcgaacag tcaggttaac aggctgcggc attttgtccg cgccgggctt cgctcactgt 60
tcaggccgga gccacagacc gccgttgaat gggcggatgc taattactat ctcccgaaag 120
aatccgcata ccaggaaggg cgctgggaaa cactgccctt tcagcgggcc atcatgaatg 180
cgatgggcag cgactacatc cgtgaggtga atgtggtgaa gtctgcccgt gtcggttatt 240
ccaaaatgct gctgggtgtt tatgcctact ttatagagca taagcagcgc aacaccctta 300
tctggttg 308
<210> 32
<211> 305
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L4418-305
<400> 32
gtgacagcag agctgcgtaa tctcccgcat attgccagca tggcctttaa tgagccgctg 60
atgcttgaac ccgcctatgc gcgggttttc ttttgtgcgc ttgcaggcca gcttgggatc 120
agcagcctga cggatgcggt gtccggcgac agcctgactg cccaggaggc actcgcgacg 180
ctggcattat ccggtgatga tgacggacca cgacaggccc gcagttatca ggtcatgaac 240
ggcatcgccg tgctgccggt gtccggcacg ctggtcagcc ggacgcgggc gctgcagccg 300
tactc 305
<210> 33
<211> 303
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L9730-303
<400> 33
catttgaaca taacggtgtg accgtcacgc tttctgaact gtcagccctg cagcgcattg 60
agcatctcgc cctgatgaaa cggcaggcag aacaggcgga gtcagacagc aaccggaagt 120
ttactgtgga agacgccatc agaaccggcg cgtttctggt ggcgatgtcc ctgtggcata 180
accatccgca gaagacgcag atgccgtcca tgaatgaagc cgttaaacag attgagcagg 240
aagtgcttac cacctggccc acggaggcaa tttctcatgc tgaaaacgtg gtgtaccggc 300
tgt 303
<210> 34
<211> 301
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L718-308
<400> 34
gtgttcgacg gtgagctgag ttttgccctg aaactggcgc gtgagatggg gcgacccgac 60
tggcgtgcca tgcttgccgg gatgtcatcc acggagtatg ccgactggca ccgcttttac 120
agtacccatt attttcatga tgttctgctg gatatgcact tttccgggct gacgtacacc 180
gtgctcagcc tgtttttcag cgatccggat atgcatccgc tggatttcag tctgctgaac 240
cggcgcgagg ctgacgaaga gcctgaagat gatgtgctga tgcagaaagc ggcagggctt 300
g 301
<210> 35
<211> 497
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L29732-497
<400> 35
tactcaaccc gatgtttgag tacggtcatc atctgacact acagactctg gcatcgctgt 60
gaagacgacg cgaaattcag cattttcaca agcgttatct tttacaaaac cgatctcact 120
ctcctttgat gcgaatgcca gcgtcagaca tcatatgcag atactcacct gcatcctgaa 180
cccattgacc tccaaccccg taatagcgat gcgtaatgat gtcgatagtt actaacgggt 240
cttgttcgat taactgccgc agaaactctt ccaggtcacc agtgcagtgc ttgataacag 300
gagtcttccc aggatggcga acaacaagaa actggtttcc gtcttcacgg acttcgttgc 360
tttccagttt agcaatacgc ttactcccat ccgagataac accttcgtaa tactcacgct 420
gctcgttgag ttttgatttt gctgtttcaa gctcaacacg cagtttccct actgttagcg 480
caatatcctc gttctcc 497
<210> 36
<211> 500
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L501-500
<400> 36
actccgctga agtggtggaa accgcattct gtactttcgt gctgtcgcgg atcgcaggtg 60
aaattgccag tattctcgac gggctccccc tgtcggtgca gcggcgtttt ccggaactgg 120
aaaaccgaca tgttgatttc ctgaaacggg atatcatcaa agccatgaac aaagcagccg 180
cgctggatga actgataccg gggttgctga gtgaatatat cgaacagtca ggttaacagg 240
ctgcggcatt ttgtccgcgc cgggcttcgc tcactgttca ggccggagcc acagaccgcc 300
gttgaatggg cggatgctaa ttactatctc ccgaaagaat ccgcatacca ggaagggcgc 360
tgggaaacac tgccctttca gcgggccatc atgaatgcga tgggcagcga ctacatccgt 420
gaggtgaatg tggtgaagtc tgcccgtgtc ggttattcca aaatgctgct gggtgtttat 480
gcctacttta tagagcataa 500
<210> 37
<211> 500
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L30501-500
<400> 37
cactcacaac aatgagtggc agatatagcc tggtggttca ggcggcgcat ttttattgct 60
gtgttgcgct gtaattcttc tatttctgat gctgaatcaa tgatgtctgc catctttcat 120
taatccctga actgttggtt aatacgcttg agggtgaatg cgaataataa aaaaggagcc 180
tgtagctccc tgatgatttt gcttttcatg ttcatcgttc cttaaagacg ccgtttaaca 240
tgccgattgc caggcttaaa tgagtcggtg tgaatcccat cagcgttacc gtttcgcggt 300
gcttcttcag tacgctacgg caaatgtcat cgacgttttt atccggaaac tgctgtctgg 360
ctttttttga tttcagaatt agcctgacgg gcaatgctgc gaagggcgtt ttcctgctga 420
ggtgtcattg aacaagtccc atgtcggcaa gcataagcac acagaatatg aagcccgctg 480
ccagaaaaat gcattccgtg 500
<210> 38
<211> 500
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L46499-500
<400> 38
gcctaaagta ataaaaccga gcaatccatt tacgaatgtt tgctgggttt ctgttttaac 60
aacattttct gcgccgccac aaattttggc tgcatcgaca gttttcttct gcccaattcc 120
agaaacgaag aaatgatggg tgatggtttc ctttggtgct actgctgccg gtttgttttg 180
aacagtaaac gtctgttgag cacatcctgt aataagcagg gccagcgcag tagcgagtag 240
catttttttc atggtgttat tcccgatgct ttttgaagtt cgcagaatcg tatgtgtaga 300
aaattaaaca aaccctaaac aatgagttga aatttcatat tgttaatatt tattaatgta 360
tgtcaggtgc gatgaatcgt cattgtattc ccggattaac tatgtccaca gccctgacgg 420
ggaacttctc tgcgggagtg tccgggaata attaaaacga tgcacacagg gtttagcgcg 480
tacacgtatt gcattatgcc 500
<210> 39
<211> 1011
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<220>
<223> L8703-1012
<400> 39
aagagctgga cagcgatacc tggcaggcgg agctgcatat cgaagttttc ctgcctgctc 60
aggtgccgga ttcagagctg gatgcgtgga tggagtcccg gatttatccg gtgatgagcg 120
atatcccggc actgtcagat ttgatcacca gtatggtggc cagcggctat gactaccggc 180
gcgacgatga tgcgggcttg tggagttcag ccgatctgac ttatgtcatt acctatgaaa 240
tgtgaggacg ctatgcctgt accaaatcct acaatgccgg tgaaaggtgc cgggaccacc 300
ctgtgggttt ataaggggag cggtgaccct tacgcgaatc cgctttcaga cgttgactgg 360
tcgcgtctgg caaaagttaa agacctgacg cccggcgaac tgaccgctga gtcctatgac 420
gacagctatc tcgatgatga agatgcagac tggactgcga ccgggcaggg gcagaaatct 480
gccggagata ccagcttcac gctggcgtgg atgcccggag agcaggggca gcaggcgctg 540
ctggcgtggt ttaatgaagg cgatacccgt gcctataaaa tccgcttccc gaacggcacg 600
gtcgatgtgt tccgtggctg ggtcagcagt atcggtaagg cggtgacggc gaaggaagtg 660
atcacccgca cggtgaaagt caccaatgtg ggacgtccgt cgatggcaga agatcgcagc 720
acggtaacag cggcaaccgg catgaccgtg acgcctgcca gcacctcggt ggtgaaaggg 780
cagagcacca cgctgaccgt ggccttccag ccggagggcg taaccgacaa gagctttcgt 840
gcggtgtctg cggataaaac aaaagccacc gtgtcggtca gtggtatgac catcaccgtg 900
aacggcgttg ctgcaggcaa ggtcaacatt ccggttgtat ccggtaatgg tgagtttgct 960
gcggttgcag aaattaccgt caccgccagt taatccggag agtcagcgat g 1011
<210> 40
<211> 32
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<400> 40
cctgtatgac cgtattccgg gtcctgtcgg ta 32
<210> 41
<211> 425
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic
<400> 41
aagagctgga cagcgatacc tggcaggcgg agctgcatat cgaagttttc ctgcctgctc 60
aggtgccgga ttcagagctg gatgcgtgga tggagtcccg gatttatccg gtgatgagcg 120
atatcccggc actgtcagat ttgatcacca gtatggtggc cagcggctat gactaccggc 180
gcgacgatga tgcgggcttg tggagttcag ccgatctgac ttatgtcatt acctatgaaa 240
tgtgaggacg ctatgcctgt accaaatcct acaatgccgg tgaaaggtgc cgggaccacc 300
ctgtgggttt ataaggggag cggtgaccct tacgcgaatc cgctttcaga cgttgactgg 360
tcgcgtctgg caaaagttaa agacctgacg cccggcgaac tgaccgctga gtcctatgac 420
gacag 425