CN114196744B

CN114196744B - 一种多碱基基因测序中信号归一化的方法

Info

Publication number: CN114196744B
Application number: CN202010986791.5A
Authority: CN
Inventors: 周文雄; 乔朔; 陈子天; 段海峰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2024-04-09
Anticipated expiration: 2040-09-18
Also published as: CN114196744A

Abstract

本发明公开了一种多碱基基因测序中信号归一化的方法，利用标准序列的已知信号，可以获得测序的背景信号，从而将信号归一化。更准确的说，本发明公开了一种多碱基测序的过程中，信号校正的方法，利用一段已知信息的校准序列，结合其测序所获得的测序信号，通过计算测序的背景信号与单位信号，从而信号归一化的方法。本发明所公开的方式适用于多碱基测序。

Description

一种多碱基基因测序中信号归一化的方法

技术领域

本发明涉及一种多碱基基因测序中信号归一化的方法；属于基因测序领域。

背景技术

基因测序在近年越来越受到关注，并且逐步走向成熟。随着研究的不断深入，技术的不断成熟，基因测序的成本也越来越低。基因测序越来越广泛的应用于各个方面。特别的，医疗领域的应用是十分显著的。基因测序技术中，一代基因测序技术由于其成本高、测序速度慢等原因，已经基本上被淘汰。三代或者四代基因测序技术，由于其准确率低，并且通量低，也没有得到广泛的应用。目前，主流的基因测序技术还是二代测序技术，也就是高通量测序技术。二代测序技术主要是利用双链合成中的化学反应，例如化学发光等，检测信号从而得到基因测序的结果。高通量基因测序的过程中，由于其通量十分高，因此一般的每个数据点的大小都很小，在几百纳米到几个微米的级别。这种量级下，准确测量每个点的精确信号是比较复杂的，因此，经常需要根据基因测序技术的不同，对于基因测序的信号区别性的处理。本发明公开一种基因测序中信号归一化的方法，特别适用于多碱基的测序过程，利用标准序列或者参考序列，得到区域性的背景信号和单位信号的数值，从而将基因测序的信号归一化。

发明内容

为了解决所述的多碱基基因测序中信号处理的问题，本发明提出如下技术方案：

本发明公开一种多碱基基因测序中信号归一化的方法，其特征在于包括，

(1)在待测基因序列的端部接入标准序列；

(2)通入测序反应液，对待测序列测序，获得对应于标准序列以及待测基因序列的信号，每次通入测序反应液获得一个测序信号，记为f，多次测序的信号分别记为fnm，其中n为测序反应的轮数,其中m为该轮测序中，通入重复反应液的次数；

(3)利用理想信号hnm，其中n同为测序反应的轮数；以及背景信号U，通过公式hnX+U＝fn获得测序的背景信号、单位信号X；

其中，所述标准序列是已知的；所述理想信号指的是理论上测序延伸的碱基数；

其中，所述方法满足下面两个条件中的至少一种：

条件一：即n大于等于2；并且，多个理想信号hnm中，至少有一个理想信号等于0；

条件二：n大于等于3，标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相同；所述的标准序列的理想信号中，奇数轮的理想信号和/或偶数次的理想信号不完全相等。

同时本发明公开一种多碱基基因测序中获得背景信号的方法，其特征在于包括，

(1)在待测基因序列的端部接入标准序列；

(2)通入测序反应液，测序，获得对应于标准序列以及待测基因序列的信号，每次通入测序反应液获得一个测序信号；

(3)通过下面两种方法中的至少一种，获得背景信号：

方法一：第一次通入反应液的理想信号为0；

方法二：连续通入两次相同的反应液，以第二次的信号作为背景信号；

其中，所述标准序列的基因序列是已知的。

本发明同时提供一种多碱基基因测序中获得单位信号的方法，其特征在于包括，

(1)在待测基因序列的端部接入标准序列；

(3)通过下面两种方法中的至少一种，获得单位信号：

方法一：第一次通入反应液的理想信号为0；

其中，所述标准序列的基因序列是已知的；所述测序反应液至少包括两种包含有不同碱基测序底物分子的反应液。

根据优选的实施方式，所述基因测序指的是，MK，RY，WS测序中的一种或多种。

根据优选的实施方式，所述的测序指的是利用荧光切换的底物分子进行测序的方法。

根据优选的实施方式，所述的背景信号不为零。

根据优选的实施方式，所述MK,RY,WS测序指的是多碱基测序；MK测序指的是，包含两个反应液，第一个反应液中包含A和C，第二个反应液中包含G和T，两个反应液循环加入进行测序；RY测序指的是，包含两个反应液，第一个反应液中包含A和G，第二个反应液中包含C和T，两个反应液循环加入进行测序；WS测序指的是，包含两个反应液，第一个反应液中包含A和T，第二个反应液中包含G和C，两个反应液循环加入进行测序。

根据优选的实施方式，两个反应液循环加入，包括同一个反应液加入多于一次，重复测序的方法。

本发明公开一种多碱基测序中信号归一化的方法，利用标准序列的已知信号，可以获得测序的归一化信号。更准确的说，本发明公开了一种多碱基测序的过程中，信号校正的方法，利用一段已知信息的校准序列，结合其测序所获得的测序信号，可以给出测序的背景。本发明所述的多碱基测序指的是3端不封闭的基因测序。对于3端封闭的测序来说，例如illumina市场化的产品上所用的测序方法中，每次延伸一个碱基，测序的信号分为有和无两种，其根本不需要精确了解单位信号的数据，因此也不需要用本发明所述的方法实现归一化。

除特殊说明外，本发明中所涉及的词均为本领域的通用说法。

附图说明

图1.DNA文库的结构；

图2.某DNA测序的原始测序信号及其归一化信号；

图3.λ噬菌体基因组测序中所得单位信号与背景信号的频率分布直方图，黑色竖直虚线表示均值所在位置。

具体实施方式

申请人之前申请的专利CN202010089613.2中也描述了归一化的方法，然而有缺陷的是，这个方法中，并没有考虑部分情况，例如只需要两轮测序就可以获得背景信号。本发明中，将该方法更进一步的延伸。同样可以参考的是CN202010094190.3,CN202010089595.8。必要的时候，所述专利的内容可以以引用的方式加入本申请。

基因测序中，利用修饰的核苷酸底物分子对待测序列的反应获得测序信号。一般的根据碱基互补的理论，将待测序列上碱基的互补碱基的核苷酸分子加入的时候，可以引发反应，而反应过程中的荧光信号，可以代表是否发生反应或者发生反应的碱基数目。这属于测序领域的通用手段。

一般的测序反应液中包含与待测基因序列配对的核苷酸底物分子。

多碱基测序的时候，例如2+2测序的时候，每次测序都是有反应信号的；并且延伸的碱基数目不止一个。在这种情况下，单位信号是有意义的。需要说明的是，多碱基测序的过程中，一般都是3端不封闭的测序。多碱基测序的过程中，如果使用3端封闭的测序方法，则每次延伸的碱基数量太少，不适合于大规模的基因测序。

奇数轮或者偶数轮的背景信号的计算方式是一样的。实际的测序中，需要获得奇数轮并且获得偶数轮的背景信号。

一般的，奇数轮和偶数轮的背景信号差异在20％以上。一般的，奇数轮和偶数轮的背景信号差异在30％以上。奇数轮和偶数轮的背景信号差异在40％以上。奇数轮和偶数轮的背景信号差异在50％以上。奇数轮和偶数轮的背景信号差异在100％以上。

可以理解的，所述方法的实质是，通过标准序列的理想信号以及实际测序信号获得其他信息。

本发明中所述的奇数轮和偶数轮的背景信号是不同，指的是从测序开始，比如第一轮开始，其测序反应的奇数轮和偶数轮的背景信号就是不同的。并且这种不同会持续。

实际测序同理论有这很大的差别。测序的时候，反应物的纯度、化学结构、外部条件都可能影响到基因测序反应的背景信号。即使比较理想的实验室条件下，背景信号也是有差异的。在一定理想的环境中，调整四种测序底物分子的化学结构和浓度等，可以降低背景信号的差异。必须要指出的是，illumina等测序反应中，因为其化学原理不同于多碱基测序的反应，因此其背景信号可以是隐藏的，也就是说，在整个过程中，可以不计算其背景信号就可以获得比较好的结果。当然，计算背景信号也是可以的，虽然从目前看来，还没有文章报道这种方法，从科研的角度或者实际的角度看，这可能是不必要的。但是对于2+2类似的多碱基反应的体系来说，经过仔细的研究发现，其数据复杂程度明显高于illumina类似反应体系，申请人之前的专利CN201510944878.5与CN201610899880.X也详细讲述了多碱基测序体系的数据特点，并且进行了失相算法，数据校正等方面的研究。在必要的时候，这两个专利中的内容可以以引用的方式加入本专利，用于证实本专利中的研究发现。

根据优选的实施方式，当测序反应处于理想状态的时候，可以将奇数轮和偶数轮的测序背景信号认为一样。

本发明中,部分区域出现了内容标准序列的理想信号长度大于等于某个数字，例如3。可以理解的是，例如当MK测序的时候，建库时添加的校准序列为GTAGCC，。校准序列的理想信号为[2,1,1,2？]；则理想信号的长度为3个信号，为[2,1,1]。其测序次序为GT(M测序信号值为2)A(K测序信号值为1)G(M测序信号值为1)CC(K测序信号值为2,但是信号值可能与后面的序列有关，不能确定信号值，则该信号不能用)。可以看出的是，标准序列的理想信号长度为3([2,1,1])的时候，后面有(或者说可能有)其它序列的时候，则未计算理想信号的部分被放弃。也就是说，测序信号2并不被计算做理想信号的n＝4的情况，因为其理想信号添加了未知序列的理想信号。

明显的区分，理想信号仅为根据序列以及测序反应液为基础，计算出的测序延伸的碱基数目。理想信号均为大于等于0整数值。

背景信号的获得方式同单位信号的获得方式有类似的地方。并且，背景信号和单位信号都需要用到相同的公式计算。在本发明之前，背景信号和单位信号并不被广泛关注。具体的原因在上一段中也有描述。本发明公开了背景信号的获得方式。不仅可以获得背景信号，并且在奇数轮和偶数轮的背景信号不一致的情况下，还可以分别获得奇数轮和偶数轮的背景信号。这在以前是没有出现过的。

然而，实验中发现的是，illumina测序的过程中，计算单位信号或者背景信号是容易实现的(必须要申明的是，此处讲述的是：利用本发明公开的方法，当计算Illumina测序中的背景信号和单位信号的时候，是容易实现的。并未发现本发明之前对于基因测序的背景信号和单位信号的详细计算方式，并且也未发现对于多碱基基因测序体系的相关研究)。但是多碱基测序的过程中，由于其信号的特殊性，一般的标准序列并不能简单的获得单位信号或者背景信号。多碱基测序的过程中，由于其每次延伸不止一个碱基，因此，对于比较短的标准序列，比如2轮即被测穿，则不能够得出单位信号。只有满足一定条件的标准序列才可以容易的获得单位信号。一般的，类似于illumina的测序方法中，并不需要计算或者测量反应的背景信号或者单位信号。其只需要有个阈值即可判断碱基的有无。

多碱基测序中，背景信号是有意义的。背景信号指的是当无碱基延伸时测序仪所检测到的基准信号，和芯片材质、测序反应底物的自发水解等因素有关。并且背景信号也可以是随着测序读长的延长而发生变化的。背景信号属于一般性的定义。

特殊的，首次发现的，2+2式的测序中，两种不同的反应液测序的时候，其背景信号是不一样的。也就是说，奇数轮和偶数轮的背景信号是不一样的。这并不是理论推算的结果，属于实验发现的结果。

本发明中所述的2+2测序，指的是MK、RY、WS三种测序方法。

MKRYWS是常见的国际简并碱基的表示方式。简并碱基指的是根据密码子的兼并性,常用一个符号代替某两个或者更多碱基。

简并碱基的表示含义参见下表：

表格1

该表格中，完全按照国际的表示方式。参见https://baike.baidu.com/item/％E7％AE％80％E5％B9％B6％E7％A2％B1％E5％9F％BA/4303878。

申请人之前公开的专利，例如CN201510822361.9也公开了该简并碱基的基因测序。本发明中所述的MK测序指的是，在针对一个未知或者已知的基因序列进行测序的时候，M反应液和K反应液循环加入。同样公开与申请人前面所述的专利中。具体的测序方法并不属于本发明的保护范围，也不是本发明的重点，将不再详述。

一种用于多碱基基因测序的基因文库，其特征在于，将一段校准序列连接到待测序列，所述校准序列满足：

1)校准序列的理想信号h的长度X大于等于2；

2)校准序列的理想信号h满足奇数轮的信号不完全相等，或者校准序列的理想信号h满足偶数轮的信号不完全相等；

3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立；

其中所述理想信号指的是理论上，待测基因序列每轮测序延伸的碱基数；其中所述的标准序列的理想信号为大于0的整数；其中所述长度X也是测序的轮数。

M反应液中，包含了A和C两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

K反应液中，包含了G和T两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

R反应液中，包含了A和G两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

Y反应液中，包含了C和T两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

W反应液中，包含了A和T两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

S反应液中，包含了C和G两种碱基的核苷酸底物分子；可以是修饰的或者不修饰的。

这也对应于上面表格中的意义。值得注意的是，本发明中所述的MKRYWS测序中，每次测序加入的是包含两个核苷酸序列的反应液。

因此，MK测序指的是，包含两个反应液，第一个反应液中包含A和C，第二个反应液中包含G和T，两个反应液循环加入进行测序。例如第一轮加入的是M反应液，即可获得信号h1；第二轮加入的K反应液，则获得信号h2；第三轮加入M反应液，获得信号h3；第四轮加入K反应液，获得信号h4。以此类推。

MK测序指的是，有两个反应液，一种为M，另外一种为K，两个反应液循环加入测序。

RY测序指的是，有两个反应液，一种为R，另外一种为Y，两个反应液循环加入测序。

WS测序指的是，有两个反应液，一种为W，另外一种为S，两个反应液循环加入测序。

所述MK测序流程指的是，M反应液和K反应液循环测序。

需要指出的，MK测序并不需要严格的MKMKMK……类似循环过程，在整个测序过程中，根据具体的环境，可以选择某种测序反应液加一次的行为，例如MKKMK；依照这个基础，当加更多次的时候也是允许的。更特殊需要说明的是,本发明中所述的奇数轮或者偶数轮,是对应于每一个M或每一个K来说的,也就是说,例如M为奇数轮,则K为偶数轮。相同的情况适用于RY、WS等测序。因此，可以认为，当某种测序的时候，某个测序反应液多次加入反应体系，其仅仅是为了获得额外的信号，并非改变了奇数轮或者偶数轮的计算方式。

所述的奇数轮或者偶数轮，指的是多碱基测序的过程中，每次改变加入的反应液，则认为奇数轮或者偶数轮相互转变。在2+2多碱基测序的过程中，其中一种反应液对应奇数轮，另一种反应液对应偶数轮。

所述RY测序流程指的是，R反应液和Y反应液循环测序。

所述WS测序流程指的是，W反应液和S反应液循环测序。

值得注意的是，国际标准中，M代表的是A和/或C，本发明中，M反应液或者M测序指的是A和C。同样适用于其他的简并碱基。基因测序的时候，反应液中一般的含有dNTP，可以是化学修饰的dNTP。本发明中所述的核苷酸分子底物，包或者M反应液都指的是包含有dNTP的反应液。

由于标准序列是已知的，因此可以设计特定的测序方式来获得标准序列的测序信号。

以2+2测序为例；可以分为MK测序，RY测序，WS测序三种测序方式。常规的测序中，例如MK测序是M反应液和K反应液循环加入，同样的适合于另外两种测序方式。但是由于标准序列的特定序列构成是已知的，因此可以有如下的设计方式。

例如随机的一段序列为AGAAGGAAAGGG。

那么当使用MK反应液循环加入的时候，即M-K-M-K-M-K的方式，这一段序列的理想信号为0112233。在这种情况下，出现了理想信号等于0的特殊信号。根据前面的公式，当理想信号为0的时候，所获得的信根据号hnX+y＝fn可以知道，其获得的信号实际为背景信号的值。当然，所述的序列是随机的可能序列，类似的情况在RY，WS测序中同样存在。

同样的以MK测序为例(同样的情况适用于RY，WS测序)，当第一个测序信号为0的时候。相当于直接获得了该测序轮数的背景信号。那么这种情况相当于是一种对于hnX+y＝fn的简化。

第一个测序信号为0。那么第二个测序信号(例如前面的情况，再次通入K反应液)，其必然不为0。根据经验的结论，单位信号对于奇数轮或者偶数轮是相等的，背景信号并不相等。那么第三次测序的时候，加入通入M反应液，则获得一个理想信号不等于0的对应测序信号。那么通过第一个和第三个信号，简单的数学计算就能够计算出单位信号的数值。当知道单位信号数值的时候，第二个测序信号的背景信号数值也就知道了。这是简化的获得单位信号、背景信号的方法之一。

第二种情况，当第三次测序再次通入K反应液的时候，也就是说，第三次测序和第二次测序通入了相同的反应液。(这里必须要声明的概念，假如第一次测序称为奇数轮，那么第二次和第三次通入反应液的测序，本发明中都称为偶数轮，因此其第二次和第三次反应液是相同的，不再额外计算轮数增长)。那么第三次的理想信号也是0。这种情况下，即为M-K-K-M--测序的方式。通过第二次和第三次测序可以计算出K反应液所对应测序中的单位信号，并且通过第一个0信号和第三个0信号也知道了背景信号。因此，可以简单的信号归一化。这是简化的获得单位信号、背景信号的方法之二。

这里必须要说明的是，前面使用了MK测序的例子，真实使用的时候，MK是可以互换的，MK可以随意的和RY,WS互换。例如将M换为R将K换为Y，或者将M换为Y将K换为R。

前面详细的列举了当第一个测序信号为0的实施方式。

当第一个信号不为0的时候，实际上，也可以通过一定的方式比较简易的获得背景信号和单位信号。还是以MK测序为例。当一个随机的标准序列为GAAGGAAAGGG,在反应液是M-K-M-K-M-K的时候，其理想信号应该为12233。可以看出的是，这个序列很容易得到奇数和偶数轮的背景信号，以及单位信号。那么更短的标准序列是否有取巧的方法呢？例如当通入的反应液是M-K-K-M的时候，则理想信号相应的转变为1202(同前面一致的描述的时候，理想信号0同前面的理想信号2为同一轮，例如偶数轮的理想信号)。可以看出的是，只需要理想信号1-2-0即可完成信号的归一化。得到背景信号和单位信号。同样的，当反应液为M-M-K的时候，得到的理想信号相应的转变为102；那么也可以得到信号的归一化结果。这两种特殊的进液方式，利用了重复进液的方式，也做到了信号的归一化。当然的，包括前面所述的内容，真实使用的时候，MK是可以互换的，MK可以随意的和RY,WS互换。例如将M换为R将K换为Y，或者将

M换为Y将K换为R。注意的是，本发明中所述的理想信号，例如102，代表的是三个理想信号，并不是一百零二的数值。可以撰写成理想信号[1][0][2]。相应的其它理想信号都可以做相同的描述或者处理。

总结两种主要的情况，当第一个测序理想信号为0的时候，所述理想信号在加入0的情况下，包含3个理想信号，根据本发明中前后一致描述的原则，理想信号包含一个奇数轮的理想信号，和一个偶数轮的理想信号，还包含一个不计入奇数或者偶数轮的0零号。则测序文库的长度要求为理想信号的长度实际大于等于2。当第一个测序理想信号不为0的时候，便捷的方式中，理想信号的长度大于等于2则可以获得归一化信号。

根据前面的描述，其中n为测序反应的轮数；以及奇数轮的背景信号y，偶数轮的背景信号z，通过公式hnX+y＝fn以及hnX+z＝fn获得测序反应的奇数轮以及偶数轮的背景信号；其中，所述标准序列的基因序列是已知的。现在根据便捷的方式，做出改进：

hnmX+y＝fnm以及hnmX+z＝fnm；

其中多出来的参数m表示该轮测序中的重复测序的情况，例如：

hnm为h11,则表示第一轮第一个测序的理想信号；h12表示第一轮第2个理想信号。为了更清楚的表示，可以将hnm表示成hn-m,以区分n和m的间隔。

一种多碱基基因测序中信号归一化的方法，其特征在于包括，

(1)在待测基因序列的端部接入标准序列；

(3)利用理想信号hnm，其中n同为测序反应的轮数；以及背景信号U，通过公式hnmX+U＝fnm获得测序的背景信号、单位信号X；

其中，所述标准序列是已知的；即n大于等于2；并且，多个理想信号hnm中，至少有一个理想信号等于0。

当n大于2的时候。例如n等于3，则更容易得到归一化的信号。

例如的，当M-M-K-M-K-M-K-的测序中，可能出现的理想信号为h11,h12,h21,h31,h41等等。仅为简单的举例说明。

更进一步的，综合理想信号等于0以及不等于0的情况，则可以将其描述为：

(4)在待测基因序列的端部接入标准序列；

(5)通入测序反应液，对待测序列测序，获得对应于标准序列以及待测基因序列的信号，每次通入测序反应液获得一个测序信号，记为f，多次测序的信号分别记为fnm，其中n为测序反应的轮数,其中m为该轮测序中，通入重复反应液的次数；

(6)利用理想信号hnm，其中n同为测序反应的轮数；以及背景信号U，通过公式hnX+U＝fn获得测序的背景信号、单位信号X；

其中，所述方法满足下面两个条件中的至少一种：

本发明中，所述的n为理想信号的长度。当本发明中仅用fn描述理想信号的时候，则默认为理想信号的测序过程中，没有重复同一个反应液测序的状况发生。例如f1表示第一个理想信号。

本发明中个，所述的满足两个条件中的至少一种，指的是，满足条件一，或者满足条件二，或者需要同时满足条件一和二。

本发明中，奇数轮和偶数轮的概念是相对的，并没有声明MK测序中的M是奇数轮，K为偶数轮。简单的互换也是可以的，例如MK测序中，M为偶数轮，K为奇数轮；相同的情况适用于RY，WS测序。

本发明中，更多的是以MK测序为示例，相同的情况可以应用到RY，WS测序。

本发明中，所述的例如MK测序，M反应液和K反应液循环加入，并不限定于M反应液的下一次反应液必须为K反应液，可以理解的，M-M-K的反应液加入次序依然是MK测序。扩展的，M反应液更多次的加入，例如3次，也有一定的实际意义。例如的，当相同的碱基比较多的时候，更多次的通入反应液，可以使得反应更加完全，提高测序的准确度。字母m的数值为大于等于1的整数。

优选的，本发明所述的文库应用于荧光切换测序。参见专利CN201510822361.9。荧光切换测序指的是，利用基团标记反应液中的核苷酸序列(底物分子)；在测序反应之前某个波段并不会明显发光，处于暗态；在测序反应之后，在该波段明显发光。很多的英文文献也报道过具备荧光切换性质的分子，虽然没有用于测序的报道，英文文献中荧光切换为fluogenic。

可以知道的是，使用荧光切换的测序方法并不会造成2+2的测序数据结构不同。但是，荧光切换的测序方法可以提升2+2方法的准确性，并且完美与2+2方法结合。这属于已经公开的内容。

首先再次申明本发明中涉及到的一般性的部分术语：

1.DNA文库：一组DNA分子，特征是其5’端和3’端有一段公共序列，中间为未知的待测DNA序列。

2.原始测序信号：测序仪所直接检测到的信号，特征是单位信号和背景信号均未知、且在不同DNA之间差异极大。

3.归一化信号：由原始测序信号经某种方式变换而来的信号，特征是单位信号为1、背景信号为0。

4.理想信号：理想情况下，每条待测DNA在每次测序反应中所延伸的碱基数目。理想情况指无失相、无衰减的情况。理想信号仅与DNA序列和测序流程(1x4还是2+2，MK还是RY)有关。

值得注意的是，本发明中所述的术语是本领域的常见词语，并未超出本领域的常规含义。

在2+2式测序中，当DNA延伸n个碱基时，有两个因素会使原始测序信号并不恰好为n：

1.单位信号：DNA每延伸一个碱基时测序仪所检测信号的上升值，和发生延伸反应的DNA分子数目、相机曝光时间、激发光强度、相机感光能力等有关；

2.背景信号：当无碱基延伸时测序仪所检测到的基准信号，和芯片材质、测序反应底物的自发水解等因素有关。

本发明中所述原始测序信号的归一化指消除单位信号和背景信号对测序的影响的过程。具体地，原始测序信号的归一化指通过某种方式使原始测序信号变为归一化信号，其中归一化信号的单位信号为1、背景信号为0。原始测序信号的归一化是测序仪碱基读出中的必要步骤，它既可以独立放在测序仪采集原始测序信号后、碱基读出前，也可以整合到某种碱基读出方法中。此处碱基读出指的是将测序的某种信号(原始荧光信号或归一化信号)转化为DNA序列的过程，可以包含失相校正步骤(也可以不包含)。

本发明中，将每一轮的测序信号标记，所以，测序信号的长度就是反应的轮数。

原始测序信号的归一化非显而易见的地方在于，实验中发现同一次测序实验中不同待测DNA之间的单位信号和背景信号差异极大，即使它们在芯片上的空间位置相邻。因此不能利用掺入内参序列的方式获得单位信号和背景信号，并用于待测DNA的原始测序信号的归一化。必须对每条待测DNA的原始测序信号单独作归一化。掺入内参序列的方式误差会比较大。

传统的单核苷酸添加测序技术(single-nucleotide addition,SNA，即我们通常说的1x4)，如焦磷酸测序(pyrosequencing)和半导体测序(semiconductor sequencing)，通常在DNA文库上的测序引物之后、待测序列之前加入一段校准序列TCAG，来辅助原始测序信号的归一化。该方法并不完全适用于用于2+2式测序，或者说不试用于荧光发生测序，原因是：

(1)焦磷酸测序和半导体测序检测的都是实时信号，可以用简单方法从中得到背景信号为0的原始测序信号。这里的简单方法比如是，每一次反应所得实时信号的最后一个值减去第一个值。而荧光发生测序检测的是终点信号，不是实时信号，无法用类似的方法得到背景信号为0的原始测序信号。该校准序列TCAG的特征是在SNA测序方法下，其理想信号为h＝[1，1，1，1]，可以认为原始测序信号的前4个值分别对应四种碱基的单位信号。但在荧光发生测序中，由于原始测序信号中还混杂了背景信号，不能这样简单推断单位信号。

(2)在2+2测序中，该校准序列的理想信号为[1,2](MK)或[2](RY)或[1,1,1](WS)，长度太短，不能用于推断单位信号和背景信号。

校准序列的设计

如图1所示，我们在DNA文库的测序引物结合区和待测序列之间插入一段校准序列。标准序列的长度n大于等于2。

信号归一化的整体过程

对图1结构的DNA文库进行2+2测序，得到一组原始测序信号f＝[f₁，f₂，...，f_n]。设单位信号为x，奇数次背景信号为y，偶数次背景信号为z，校准序列前3次理想信号已知且满足h₁≠h₃，则可以列出线性方程组：

解上述线性方程组，得到x、y、z，然后通过下式得到归一化测序信号系数：

线性方程组的可能变化方式

若校准序列进一步满足h₂≠h₄，则线性方程组变为：

若校准序列的理想信号的长度为m(m>4)，则线性方程可一直列下去：

此时该线性方程组是超定的(over-determined)，一般不存在数学意义上严格的解。此时可以求满足上述线性方程组的最优解。最优解是使线性方程组尽量近似成立的解，举例如下：

1.使最小的解；

2.使最小的解。

如果测序中提供了失相、衰减等信息，可以利用这些信息来获得修正后的理想信号h′，并用h′代替前面线性方程里的h。失相、衰减等信息可以用多种方法获得，如添加内参序列、并从其测序信号中估计出来(参见申请人之前申请的专利CN201610899880.X)。例如，如果已知失相系数中超前为ε、滞后为λ，构建变换矩阵T，于是h′＝Th。

考虑到背景信号的物理意义，可以进一步要求背景信号不小于0。当按上述方法求解线性方程组时，若发现某个背景信号(x或y)小于0，可将该背景信号改为0，并在上述线性方程中删去对应的未知数、重新解方程来获得单位信号和另一个背景信号。若发现两个背景信号均小于0，可将两个背景信号都改为0，并在上述线性方程中删去对应的未知数、重新解方程来获得单位信号。

在DNA文库中特定位置添加校准序列，利用其测序信号来推断单位信号和背景信号，并将其扣除，得到归一化信号。

需要说明的，本发明中所述的矩阵计算方式，本领域技术人员可以明确的知道，其仅仅只是计算方式的改变，并没有改变原本公式的意义和性质，也没有增加新的定义或功能。因此，本发明中所述的具体计算方式，同权利要求的描述并没有冲突。本发明的权利要求的保护范围并不限定于所述的矩阵计算方式。

实施例1

对来自大肠杆菌基因组的某DNA序列建库后进行MK测序，得到原始测序信号f＝[f₁，f₂，...，f_n]。建库时添加的校准序列为GTAGCC，索引序列为CACGCAG，待测序列为ATTATCCTCAGCAGTCAACCGGGTACGGACGATCGCGTAACGTGGGTGAAGTCGGTGGATGAAGCCATCGCGGCGTGTGGTGACGTACCAGAAATCATGGTGATTGGCGGCGGTCGCGTTTATGAACAGTTCTTGCCAAAAGCGCAAAAACTGTATCTGACGCATATCGACGCAGAAGTGGAAGGCGACACCCATTTCCCGGATT。校准序列和索引序列的理想信号为[2,1,1,5,1,2]，据此列出方程：

其中x为单位信号，y为奇数次背景信号，z为偶数次背景信号。求该方程的最优解，即使得最小的解为：

通过下式得到归一化信号：

原始测序信号和归一化信号如图2所示。可以看到，原始测序信号大约在几百到数千，而归一化信号都在10以内，且前20次都非常接近整数。约从第35次开始，受失相等因素影响，归一化信号逐渐远离整数值。

实施例2

对λ噬菌体的基因组DNA建库并进行MK测序，每条待测DNA得到一组原始测序信号f＝[f₁，f₂，...，f_n]。建库时添加的校准序列为ACTTAGCATCAGC，未添加索引序列。校准序列的理想信号为[2,2,1,1,2,1,2,1]，据此列出方程：

其中x为单位信号，y为奇数次背景信号，z为偶数次背景信号。对每条被测DNA，列出该方程并求其最优解。一共得到385336条原始测序信号，它们所得单位信号和背景信号的频率分布直方图如图3所示。

实施例3

采用索引序列为(TGTCTGGA,ATGTATCG,ATGCTGGA,CGTACCGT,TGACCTGA,TCGACTGA,CCGTACGT,GATCTACC,TGATCAAG,GAATCGTT,TCCGTCTA,CGAATGGA,ATCTGAGT)时，在MK、RY、WS三个流程下的理想信号均满足h₁≠h₃且h₂≠h₄的校准序列：ACGGCTA,AGCCGTA,AGTTGCA,ATGGTCA,CGTTGAC,CTGGTAC,TCGGCAT,TGCCGAT。

本发明具体实施方式中的具体实施例，仅仅是对于本发明的进一步说明，并不够构成成本发明的限制因素。

Claims

1.一种多碱基基因测序中信号归一化的方法，其特征在于包括，

(1)在待测基因序列的端部接入标准序列；

其中，所述方法满足下面条件：

n大于等于2；并且，多个理想信号hnm中，至少有一个理想信号等于0；其中，所述基因测序指的是，MK，RY，WS测序中的一种或多种；

所述MK,RY,WS测序指的是多碱基测序；MK测序指的是，包含两个反应液，第一个反应液中包含A和C，第二个反应液中包含G和T，两个反应液循环加入进行测序；RY测序指的是，包含两个反应液，第一个反应液中包含A和G，第二个反应液中包含C和T，两个反应液循环加入进行测序；WS测序指的是，包含两个反应液，第一个反应液中包含A和T，第二个反应液中包含G和C，两个反应液循环加入进行测序。

2.根据权利要求1的方法，其特征在于，

所述的测序指的是利用荧光切换的底物分子进行测序的方法。

3.根据权利要求1所述的方法，其特征在于，

所述的背景信号不为零。

4.根据权利要求1所述的方法，其特征在于，两个反应液循环加入，包括同一个反应液加入多于一次，重复测序的方法。