CN113257351A

CN113257351A - 一种用于多碱基基因测序的基因文库及其构建方法

Info

Publication number: CN113257351A
Application number: CN202010094190.3A
Authority: CN
Inventors: 周文雄; 乔朔; 陈子天; 段海峰
Original assignee: Sina Biotechnology Beijing Co ltd
Current assignee: Sina Biotechnology Beijing Co ltd
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2021-08-13

Abstract

本发明公开一种用于多碱基基因测序的基因文库及其构建方法，特别是一种针对多碱基基因测序，并且3端不封闭的基因测序方法的基因测序文库及其构建方法。其仅适用于3端不封闭的多碱基测序。利用其奇数轮理想信号不完全相等或偶数轮理想信号不完全相同的方式构建文库，可以用于基因测序的后续校正。

Description

一种用于多碱基基因测序的基因文库及其构建方法

技术领域

本发明涉及一种用于多碱基基因测序的基因文库及其构建方法，属于基因测序领域。

背景技术

基因测序属于近年来发展的精准医疗的最关键技术之一。高通量基因测序的过程实际是一个微量体积的化学反应的过程。基因测序中，微坑或者说数据点，一般都是在0.2-2微米的大小。基因信号检测的过程中，需要用物镜或者其它检测方式获得测序的信号。在基因测序的过程中，不同的基因测序方法会使用不同的文库，会有不同的数据表现形式。简单的，illumina所有测序仪使用的是3端封闭的基因测序方法，每次延伸一个碱基。因此，其获得的信号是 1和0。也就是说，发生测序反应的微坑的信号为1，未发生测序反应的信号为 0。3端不封闭的测序信号则完全不同，其每次可能不止延伸一个碱基，因此其获得的信号可以大于1。高通量的基因测序中，由于其信号强度极低，微坑极小，一般在0.2-2微米的范围内进行反应，因此，信号的重复性并不严格。也就是说，在高通量测序的过程中，信号的重复性和一致性并不会很完美。在这个情况下，理想信号的获取方式变得更加复杂。并且，为了更精确的获知每一个微坑中的单位信号，最好的办法是每一个微坑中都有一个参考的理想信号。本发明公开一种针对2+2基因，并且3端不封闭的基因测序方法的基因测序文库及其构建方法。

发明内容

一种用于多碱基基因测序的基因文库，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

1)校准序列的理想信号h的长度X大于等于3；

2)校准序列的理想信号h满足奇数轮的信号不完全相等，或者校准序列的理想信号h满足偶数轮的信号不完全相等；

3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立；

其中所述理想信号指的是理论上，每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大于等于0的整数；其中所述长度X也是测序的轮数。

根据优选的实施方式，所述基因测序指的是3端不封闭的基因测序。

根据优选的实施方式，，所述校准序列同引物结合区部分重合。

根据优选的实施方式，所述校准序列属于测序引物结合区的一部分。

根据优选的实施方式，所述基因测序指的是荧光切换的测序方法。

一种多碱基基因测序的基因文库的构建方法，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

1)校准序列的理想信号h的长度X大于等于3；

其中所述理想信号指的是理论上，待测基因序列每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大于等于0的整数；其中所述长度X也是测序的轮数。

一种基因测序的基因文库的构建方法，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

1.校准序列的理想信号h的长度X大于等于3；

2.校准序列的理想信号h满足奇数轮的信号不完全相等，或者校准序列的理想信号h满足偶数轮的信号不完全相等；

3.条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立；

一种用于基因测序的基因文库，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

1.校准序列的理想信号h的长度X大于等于3；

本发明中，针对测序反应出现“轮”的概念。测序反应的轮数属于测序领域的常见概念。轮指的是测序反应的次数，例如待测序列加入第一个反应液为第1轮，加入第二个反应液为第2轮；以此类推。

M反应液中，包含了A和C两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

K反应液中，包含了G和T两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

R反应液中，包含了A和G两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

Y反应液中，包含了C和T两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

W反应液中，包含了A和T两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

S反应液中，包含了C和G两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

这也对应于上面表格中的意义。值得注意的是，本发明中所述的MKRYWS测序中，每次测序加入的是包含两个核苷酸序列的反应液。

因此，MK循环测序指的是，包含两个反应液，第一个M反应液中包含A和 C，第二个K反应液中包含G和T，两个反应液循环加入进行测序。例如第一轮加入的是M反应液，即可获得信号h1；第二轮加入的K反应液，则获得信号h2；第三轮加入M反应液，获得信号h3；第四轮加入K反应液，获得信号h4。以此类推。

MK测序指的是，有两个反应液，一种为M，另外一种为K，两个反应液循环加入测序。

RY测序指的是，有两个反应液，一种为R，另外一种为Y，两个反应液循环加入测序。

WS测序指的是，有两个反应液，一种为W，另外一种为S，两个反应液循环加入测序。

所述MK测序流程指的是，M反应液和K反应液循环测序。

需要指出的，MK测序并不需要严格的MKMKMK……类似循环过程，在整个测序过程中，根据具体的环境，可以选择某种测序反应液加一次的行为，例如 MKKMK；依照这个基础，当加更多次的时候也是允许的。更特殊需要说明的是, 本发明中所述的奇数轮或者偶数轮,是对应于每一个M或每一个K来说的,也就是说,例如M为奇数轮,则K为偶数轮。相同的情况适用于RY、WS等测序。因此，可以认为，当某种测序的时候，某个测序反应液多次加入反应体系，其仅仅是为了获得额外的信号，并非改变了奇数轮或者偶数轮的计算方式。

所述的奇数轮或者偶数轮，指的是多碱基测序的过程中，每次改变加入的反应液，则认为奇数轮或者偶数轮相互转变。在2+2(MK或RY或WS)多碱基测序的过程中，其中一种反应液对应奇数轮，另一种反应液对应偶数轮。

所述RY测序流程指的是，R反应液和Y反应液循环测序。

所述WS测序流程指的是，W反应液和S反应液循环测序。

相同的RY，WS测序也并不需要严格的RYRYRY…….类似循环过程，测序过程中的重复或者加一次、加几次也是允许的。

值得注意的是，国际标准中，M代表的是A和/或C，本发明中，M反应液或者M测序指的是A和C。同样适用于其他的简并碱基。

所述的校准序列的理想信号h，不包括校准序列与未知序列的综合信号。比如校准序列在MK测序中，理想信号的最后一个碱基为A，进行K测序的时候，发现其测序信号实际长度大于等于2(通过已经发生的测序可以判断)，那么最后一个碱基A的理想信号不能用。

本发明中，所述的测序反应有两种反应液，例如M和K，例如R和Y，例如 W和S。当使用MK反应液进行测序的时候，例如加入M是第1轮，那么加入K 就是第二轮，再次加入M就是第3轮，再次加入K就是第4轮。M和K循环加入，则测序反应的轮数不断增加。同样适用于RY，WS。

本发明公开一种基因测序文库及其构建方法，适用于2+2式，3端不封闭的基因测序方法。

除特殊说明外，本发明中所涉及的词均为本领域的通用说法。

附图说明

图1.DNA文库的结构。

具体实施方式

MKRYWS是常见的国际简并碱基的表示方式。简并碱基指的是根据密码子的兼并性,常用一个符号代替某两个或者更多碱基。

简并碱基的表示含义参见下表：

表格1

该表格中，完全按照国际的表示方式。参见 https://baike.baidu.com/item/％E7％AE％80％E5％B9％B6％E7％A2％B1％E5％9F％BA/43 03878。

申请人之前公开的专利，例如CN201510822361.9也公开了该简并碱基的基因测序。本发明中所述的MK测序指的是，在针对一个未知或者已知的基因序列进行测序的时候，M反应液和K反应液循环加入。同样公开与申请人前面所述的专利中。具体的测序方法并不属于本发明的保护范围，也不是本发明的重点，将不再详述。

1)校准序列的理想信号h的长度X大于等于3；

其中所述理想信号指的是理论上，待测基因序列每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大于0的整数；其中所述长度X也是测序的轮数。

因此，MK测序指的是，有两个反应液，第一个反应液中包含A和C，第二个反应液中包含G和T，两个反应液循环加入进行测序。例如第一轮加入的是M 反应液，即可获得信号h1；第二轮加入的K反应液，则获得信号h2；第三轮加入M反应液，获得信号h3；第四轮加入K反应液，获得信号h4。以此类推。

所述MK测序流程指的是，M反应液和K反应液循环测序。

所述RY测序流程指的是，R反应液和Y反应液循环测序。

所述WS测序流程指的是，W反应液和S反应液循环测序。

优选的，本发明所述的文库应用于荧光切换测序。参见专利 CN201510822361.9。荧光切换测序指的是，利用基团标记反应液中的核苷酸序列(底物分子)；在测序反应之前某个波段并不会明显发光，处于暗态；在测序反应之后，在该波段明显发光。很多的英文文献也报道过具备荧光切换性质的分子，虽然没有用于测序的报道，英文文献中荧光切换为fluogenic。

本发明所述的文库应用于其它测序方法的时候，并不能产生特殊的技术效果。

本发明所述的文库应用于3端封闭的测序的时候，由于其每次产生的信号可能是1和0，并没有特殊的技术效果。因为当信号0的时候，可以比较方便的获得背景信号值。

应用本发明所述的文库，可以校正多碱基测序的单位信号和背景信号。

传统的单核苷酸添加测序技术(single-nucleotide addition,SNA，即我们通常说的1x4)，如焦磷酸测序(pyrosequencing)和半导体测序 (semiconductor sequencing)，通常在DNA文库上的测序引物之后、待测序列之前加入一段校准序列TCAG，来辅助原始测序信号的归一化。该方法并不完全适用于用于2+2式测序，或者说不试用于荧光发生测序，原因是：

1.焦磷酸测序和半导体测序检测的都是实时信号，可以用简单方法从中得到背景信号为0的原始测序信号。这里的简单方法比如是，每一次反应所得实时信号的最后一个值减去第一个值。而荧光发生测序检测的是终点信号，不是实时信号，无法用类似的方法得到背景信号为0的原始测序信号。该校准序列TCAG的特征是在SNA测序方法下，其理想信号为h＝[1，1，1，1]，可以认为原始测序信号的前4个值分别对应四种碱基的单位信号。但在荧光发生测序中，由于原始测序信号中还混杂了背景信号，不能这样简单推断单位信号。

2.在2+2测序中，该校准序列的理想信号为[1,2](MK)或[2](RY)或[1,1,1] (WS)，长度太短，不能用于推断单位信号和背景信号。

校准序列的设计：

如图1所示，我们在DNA文库的测序引物结合区和待测序列之间插入一段校准序列。校准序列满足如下条件：

1.校准序列的理想信号h的长度至少为3；

2.校准序列的理想信号h满足h₁≠h₃；

3.校准序列的理想信号h可以进一步满足h₂≠h₄；

4.若校准序列的理想信号h的长度大于4，则对第5次开始的理想信号不作要求。

5.前述4个条件可以只在MK、RY、WS三种测序流程中的一种中成立，也可以在其中的两种中都成立，也可以在全部三种中都成立。

补充说明：

1.由于校准序列后是未知的待测序列，因此校准序列的最后一个DPL (简并多聚物长度)不能算进理想信号h中去。例如，当校准序列为ACGGCTA 时，如果只考虑该校准序列自身，那么在MK流程下每次延伸的碱基是 [AC,GG,C,T,A]，理想信号是[2,2,1,1,1]。但这个校准序列是和后面待测序列连在一起的，如果待测序列是GT…，那么理想信号前5次的确是 [2,2,1,1,1]；但如果待测序列是AT…，那么理想信号前5次就变成 [2,2,1,1,2]了。由于理想信号第5次的值依赖于未知的待测序列，所以我们认为该校准序列的理想信号的长度为4，而不是5。背景技术中提到校准序列TCAG在1x4下的理想信号、校准序列的理想信号h的长度等，均排除了校正序列的最后一个DPL。

2.前面提到的校正序列所满足的5个条件，也可以是校正序列+索引序列一起满足(图1)。其中，索引序列是一组已知的DNA序列，用于标记不同的DNA样品。

可以进一步要求校准序列(或校准序列+索引序列)进一步满足DNA测序文库设计的一般要求，如GC含量适中、无发夹结构、不易形成二聚体等。

原始测序信号的归一化指消除单位信号和背景信号对测序的影响的过程。具体地，原始测序信号的归一化指通过某种方式使原始测序信号变为归一化信号，其中归一化信号的单位信号为1、背景信号为0。原始测序信号的归一化是测序仪碱基读出中的必要步骤，它既可以独立放在测序仪采集原始测序信号后、碱基读出前，也可以整合到某种碱基读出方法中。此处碱基读出指的是将测序的某种信号(原始荧光信号或归一化信号)转化为DNA序列的过程，可以包含失相校正步骤(也可以不包含)。

当然，校准序列中所述的h₁≠h₃也可以是奇数轮的结果不完全相等即可。后面的归一化过程中也完全证实了这一点。只要满足奇数轮的结果不完全相等，或者偶数轮的结果不完全相等，就可以获得确切的解。

所述的奇数轮或者偶数轮，指的是多碱基测序的过程中，每次改变加入的反应液，则认为奇数轮或者偶数轮相互转变。在2+2多碱基测序的过程中，其中一种反应液对应奇数轮，另一种反应液对应偶数轮。

为了简化讨论的模型，本发明中使用了h₁≠h₃的表达方式。

本发明中所述的h2中的数字2指的是X，测序的长度或者第几个测序信号。部分内容中，所述X用n进行代替，例如hn，含义完全相同。

需要说明的是,本发明所述的理想信号的长度大于等于3；所表示的是，标准序列与索引序列或者未知待测序列或者其它序列连接以后，标准序列部分的理想信号长度大于等于3。可以理解的是，例如当MK测序的时候，建库时添加的校准序列为GTAGCC，。校准序列的理想信号为[2,1,1,2？]；则理想信号的长度为3个信号，为[2,1,1]。其测序次序为GT(M测序信号值为2)A(K测序信号值为1)G(M测序信号值为1)CC(K测序信号值为2,但是信号值可能与后面的序列有关，不能确定信号值，则该信号不能用)。可以看出的是，标准序列的理想信号长度为3([2,1,1])的时候，后面有(或者说可能有)其它序列的时候，则未计算理想信号的部分被放弃。也就是说，测序信号2并不被计算做理想信号的n＝4的情况，因为其理想信号添加了未知序列的理想信号。

上面一段的说明适应于本发明所述的所有关于信号长度的部分。

可以理解的，当标准序列后面的序列是已知的时候，标准序列的理想信号长度n可以出现等于3的情况。当标准序列直接连接未知待测序列的时候，标准序列的理想信号长度n大于3。

需要说明的是，n(X)的数值并不是标准序列的信号值。所述n仅指的是理想信号的测序长度，也就是说，测序的次数。标准序列的理想信号的数值是理论计算的结果。这两个概念是严格区别的。例如所述的h₁的时候，其中的1 即为n(X)，表示第1个测序信号；而h₁整体表示的数值，是测序的理想信号值，根据具体的情况，其可能等于1,2,3,4,5,6等整数。

校准序列连接到待测序列即可，并不限制连接的位置。例如待测序列前添加校准序列，或待测序列前添加校准序列和索引序列。校准序列可以是接头序列或者索引序列的一部分。

在DNA文库中添加校准序列，利用其测序信号可以来推断单位信号和背景信号，并将其扣除，得到归一化信号。

1.DNA文库中，待测序列前添加校准序列，或待测序列前添加校准序列和索引序列。

2.校准序列(或校准序列+索引序列)的理想信号h满足h₁≠h₃。可以进一步满足h₂≠h₄。

3.校准序列(或校准序列+索引序列)的理想信号h的长度可以大于3次或4 次。

4.根据校准序列(或校准序列+索引序列)的理想信号和原始测序信号，列线性方程，求出单位信号和背景信号。

5.保护校准序列的设计方法，不保护DNA文库的其他结构，也不保护索引序列的设计方法。图1中的接头序列、测序引物结合区等可以改为其他结构。

6.不限制DNA文库的构建方法，只要能在指定位置插入校准序列(或校准序列 +索引序列)就行了，具体怎么插入不在本专利保护范围内。

优选的，所述理想信号h的长度大于等于4。理想信号的长度实际也是测序的轮数。轮数是实际测序的次数，因此，其是一个正整数。

优选的，所述理想信号h的长度大于等于5。

优选的，所述标准序列奇数轮和偶数轮的理想信号h，满足奇数轮不完全相等，同时满足偶数轮不完全相等。

优选的，所述校准序列的碱基个数大于等于5。

优选的，所述校准序列的碱基个数大于等于6。

优选的，所述校准序列的碱基个数大于等于7。

优选的，所述校准序列的碱基个数大于等于8。

优选的，所述校准序列包含表格2和表格3的全部。

优选的，所述校准序列非表格2或者表格3中某一个或多个序列。

优选的，所述校准序列的条件(1)和条件(2)在MK、RY、WS三种测序流程中的一种中成立。

优选的，所述校准序列的条件(1)和条件(2)在MK、RY、WS三种测序流程中任意两种中成立。

优选的，所述校准序列的条件(1)和条件(2)在MK、RY、WS三种测序流程中的三种中成立。

必须要提出的是，信号的处理方法并不影响文库的构建。本发明所述文库的构建是为了在理想信号中引入差异，由此可以获得更多的信息。

本发明中所涉及到的词语均为本领域的常见用语。为了更清楚的解释，部分词语的意义给出解释，但并不与本领域的定义冲突。

DNA文库：一组DNA分子，特征是其5’端和3’端有一段公共序列，中间为未知的待测DNA序列。

原始测序信号：测序仪所直接检测到的信号，特征是单位信号和背景信号均未知、且在不同DNA之间差异极大。

本专利中部分文字中出现校准序列，或者标准序列，其意义相同。

同一次测序实验中不同待测DNA之间的单位信号和背景信号差异极大，即使它们在芯片上的空间位置相邻。因此不能利用掺入内参序列的方式获得单位信号和背景信号，并用于待测DNA的原始测序信号的归一化。必须对每条待测 DNA的原始测序信号单独作归一化。掺入内参序列的方式误差会比较大。

信号归一化的整体过程

对图1结构的DNA文库进行2+2测序，得到一组原始测序信号 f＝[f₁，f₂，...，f_n]。设单位信号为x，奇数次背景信号为y，偶数次背景信号为z，校准序列前3次理想信号已知且满足h₁≠h₃，则可以列出线性方程组：

解上述线性方程组，得到x、y、z，然后通过下式得到归一化测序信号系数：

线性方程组的可能变化方式

若校准序列进一步满足h₂≠h₄，则线性方程组变为：

若校准序列的理想信号的长度为m(m>4)，则线性方程可一直列下去：

此时该线性方程组是超定的(over-determined)，一般不存在数学意义上严格的解。此时可以求满足上述线性方程组的最优解。最优解是使线性方程组尽量近似成立的解，举例如下：

1.使

最小的解；

2.使

最小的解。

如果测序中提供了失相、衰减等信息，可以利用这些信息来获得修正后的理想信号h′，并用h′代替前面线性方程里的h。失相、衰减等信息可以用多种方法获得，如添加内参序列、并从其测序信号中估计出来，申请人已经公开的专利，例如CN201610899880.X，也做出过说明。例如，如果已知失相系数中超前为ε、滞后为λ，根据我们之前申请的专利，构建变换矩阵T，于是h′＝Th。

本发明列出了归一化的部分方法，仅为了证明本发明所述文库的技术效果。

实施例1-4中的示例序列均未考虑PCR引物设计的一般要求，如GC含量适中等。本领域技术人员不难从实施例1-4中的示例序列中进一步筛选满足PCR 引物设计一般要求的DNA序列。

实施例1

在不同2+2流程下，理想信号均满足h₁≠h₃的校准序列：

表格2

实施例2

在不同2+2流程下，理想信号均满足h₁≠h₃且h₂≠h₄的校准序列：

表格3

实施例3

采用索引序列为(TGTCTGGA,ATGTATCG,ATGCTGGA,CGTACCGT,TGACCTGA,TCGACTGA,CCGTACGT,GATCTACC,TGATCAAG,GAATCGTT,TCCGTCTA,CGAATGGA, ATCTGAGT)时，在MK、RY、WS三个流程下的理想信号均满足h₁≠h₃且h₂≠h₄的校准序列：ACGGCTA,AGCCGTA,AGTTGCA,ATGGTCA,CGTTGAC,CTGGTAC,TCGGCAT, TGCCGAT。

实施例4

采用索引序列为(CACGCAG,AGTCACT,AATATTT,TGAATTA,CTTGATG, CCTGTCG,GTGCGAC,CGCTAAG,CCGCCAG,AGCCGGT,ATCACTT,ACTGAGT,TCTATAA, GCCCGTC,TCAGGCA,GGTAAGC,CGTCTGG,GTCGGCC)时，在MK、RY两个流程下的理想信号均满足h₁≠h₃且h₂≠h₄的校准序列：TTATAA,TGCTAA,TCGTAA,TATTAA, GTAGCC,GGCGCC,GCGGCC,GATGCC,CTACGG,CGCCGG,CCGCGG,CATCGG,ATAATT, AGCATT,ACGATT,AATATT。

实施例5

对来自大肠杆菌基因组的某DNA序列建库后进行MK测序，得到原始测序信号f＝[f₁，f₂，...，f_n]。建库时添加的校准序列为GTAGCC，索引序列为CACGCAG。校准序列和索引序列的理想信号为[2,1,1,5,1,2]。

据此列出方程：

其中x为单位信号，y为奇数次背景信号，z为偶数次背景信号。求该方程的最优解，即使得

最小的解为：

通过下式得到归一化信号：

原始测序信号大约在几百到数千，而归一化信号都在10以内，且前20次都非常接近整数。约从第35次开始，受失相等因素影响，归一化信号逐渐远离整数值。

实施例6

根据实施例5所述的方法。当使用一个非本发明所述的标准序列的时候。 MK测序获得例如(1，1，1，1)。后续的结果处理的时候，由于其h1＝h3，并且 h2＝h4，那么并不能对于基因测序的信号的归一化信号给出依据。

得到一组原始测序信号f＝[f₁，f₂，...，f_n]。设单位信号为x，奇数次背景信号为y，偶数次背景信号为z，则可以列出线性方程组：

该方程无解。

更多的符合规则的DNA文库分子，由于其数量庞大，本发明中不再列出。

本发明具体实施方式中的具体实施例，仅仅是对于本发明的进一步说明，并不够构成成本发明的限制因素。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种用于多碱基基因测序的基因文库，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

(1)校准序列的理想信号h的长度X大于等于3；

(2)校准序列的理想信号h满足奇数轮的理想信号不完全相等，或者校准序列的理想信号h满足偶数轮的理想信号不完全相等；

(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立；其中所述理想信号指的是理论上，每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大于等于0的整数；其中所述长度X也是测序的轮数。

2.根据权利要求1所述的文库，其特征在于，所述基因测序指的是3端不封闭的基因测序。

3.根据权利要求1-2任一项所述的文库，其特征在于，所述校准序列同索引序列部分重合。

4.根据权利要求1-2任一项所述的文库，其特征在于，所述校准序列属于索引序列的一部分。

5.根据权利要求1-4任一项所述的文库，其特征在于，所述基因测序指的是荧光切换的测序方法。

6.一种多碱基基因测序的基因文库的构建方法，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

(1)校准序列的理想信号h的长度X大于等于3；

(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立；其中所述理想信号指的是理论上，待测基因序列每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大于等于0的整数；其中所述长度X也是测序的轮数。

7.一种基因测序的基因文库的构建方法，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

(1)校准序列的理想信号h的长度X大于等于3；

8.一种用于多碱基基因测序的基因文库，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

(1)校准序列的理想信号h的长度X大于等于3；

(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立；其中所述理想信号指的是理论上，每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大等于于0的整数；其中所述长度X也是测序的轮数。