CN113249454A - 一种多碱基基因测序中获得单位信号的方法 - Google Patents
一种多碱基基因测序中获得单位信号的方法 Download PDFInfo
- Publication number
- CN113249454A CN113249454A CN202010089595.8A CN202010089595A CN113249454A CN 113249454 A CN113249454 A CN 113249454A CN 202010089595 A CN202010089595 A CN 202010089595A CN 113249454 A CN113249454 A CN 113249454A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- signal
- sequence
- signals
- reaction solution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 271
- 238000000034 method Methods 0.000 title claims abstract description 66
- 108090000623 proteins and genes Proteins 0.000 title claims description 45
- 238000006243 chemical reaction Methods 0.000 claims description 119
- 239000002773 nucleotide Substances 0.000 claims description 35
- 125000003729 nucleotide group Chemical group 0.000 claims description 35
- 239000000758 substrate Substances 0.000 claims description 31
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 20
- 150000007523 nucleic acids Chemical group 0.000 claims description 15
- 230000000295 complement effect Effects 0.000 claims description 10
- 239000012295 chemical reaction liquid Substances 0.000 claims description 3
- 229910019142 PO4 Inorganic materials 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 239000010452 phosphate Substances 0.000 claims description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 claims 1
- 108020004414 DNA Proteins 0.000 description 19
- 238000010606 normalization Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000012175 pyrosequencing Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 241000701959 Escherichia virus Lambda Species 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001351 cycling effect Effects 0.000 description 2
- 230000007062 hydrolysis Effects 0.000 description 2
- 238000006460 hydrolysis reaction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002269 spontaneous effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 206010034960 Photophobia Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 208000013469 light sensitivity Diseases 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 125000002467 phosphate group Chemical class [H]OP(=O)(O[H])O[*] 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种多碱基测序中获得单位信号的方法,利用标准序列的已知信号,可以获得测序的单位信号。更准确的说,本发明公开了一种多碱基测序的过程中,信号校正的方法,利用一段已知信息的标准序列,结合其测序所获得的测序信号,可以给出测序的单位信号。
Description
技术领域
本发明涉及一种多碱基基因测序中获得单位信号的方法;属于基因测序领域。
背景技术
基因测序属于近年来发展十分迅速。高通量基因测序的过程实际是一个微量体积的化学反应的过程。基因测序中,微坑或者说数据点,一般都是在0.2-20微米的大小。基因信号检测的过程中,需要用物镜或者其它检测方式获得测序的信号。illumina所有测序仪使用的是3端封闭的基因测序方法,每次延伸一个碱基。因此,其获得的信号是1和0。也就是说,发生测序反应的微坑的信号为1,未发生测序反应的信号为0。3端不封闭的测序信号则完全不同,其每次可能不止延伸一个碱基,因此其获得的信号可以大于1。测序中,单位信号的获得是多碱基测序中需要考虑的问题。Illumina的单碱基延伸的反应中,严格来说,并不一定要区分单位信号、背景信号,只需要指出信号的阈值即可实现0和1的区分。3端不封闭的多碱基测序中,需要考虑的并不是阈值的问题,需要精确计算每一个测序信号的量就需要精确的区分单位信号。本发明公开一种利用标准序列获得单位信号的方法,适用于多碱基基因测序过程。
发明内容
本发明提供一种多碱基基因测序中获得单位信号的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,测序,获得对应于标准序列以及待测基因序列的信号;每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(3)标准序列的理想信号记为hn,其中n同为测序反应的轮数,通过公式hnX+y=fn获得测序的单位信号X;
其中,所述标准序列的基因序列是已知的;所述n大于等于3;所述的标准序列的理想信号中,奇数轮的理想信号不完全相等和/或偶数轮的理想信号不完全相等;所述y为背景信号;所述X为单位信号;所述理想信号指的是理论上,每轮测序延伸的碱基数。
根据优选的实施方式,所述标准序列的多次测序的信号指的是MK、RY、WS三种测序流程产生的信号;所述的标准序列的理想信号中,奇数轮的理想信号不完全相等和/或偶数轮的理想信号不完全相等,指的是在MK、RY、WS三种测序流程中的至少一种中成立。
根据优选的实施方式,所述多碱基基因测序指的是,测序反应液中包含两个或者两个以上的核苷酸底物分子。
根据优选的实施方式,所述核苷酸底物分子是5’末端磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子。
根据优选的实施方式,所述测序指的是多碱基测序;更优选的指的是2+2测序,每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补。
根据优选的实施方式,所述的待测核酸序列包括所述的标准序列以及待测基因序列。
根据优选的实施方式,所述测序指的是2+2测序;每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸;其中一个反应液中的核苷酸可以和待测核酸序列上的两种碱基互补,另一个反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补;首先,将待测的核酸序列片段固定,通入一套反应液组中的第一个反应液;检测、记录荧光信息;然后通入同一套反应液组中的第二个反应液;检测、记录荧光信息;两个反应液循环加入,通过荧光信息获得待测核酸序列的测序信号。
根据优选的实施方式,所述标准序列的多个测序信号为大于等于4个测序信号。
本发明公开一种多碱基基因测序中信号校正的方法,其特征在于,在待测序列的端部接入序列信息已知的标准序列,利用标准序列的序列信息结合其测序信号获得单位信号,利用单位信号校正待测序列的测序信号。
本发明公开一种多碱基基因测序的方法,其特征在于,在待测序列的端部加入一段标准序列;其中所述标准序列满足以下条件,
(4)标准序列的理想信号h的长度n大于等于3;
(5)标准序列的理想信号h满足奇数轮的理想信号不完全相等,或者标准序列的理想信号h满足偶数轮的理想信号不完全相等;
(6)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度n也是测序的轮数。
本发明中,所述的测序反应有两种反应液,例如M和K,例如R和Y,例如W和S。当使用MK反应液进行测序的时候,例如加入M是第1轮,那么加入K就是第二轮,再次加入M就是第3轮,再次加入K就是第4轮。M和K循环加入,则测序反应的轮数不断增加。同样适用于RY,WS。
本发明公开一种多碱基测序中获得单位信号的方法,利用标准序列的已知信号,可以获得测序的单位信号。更准确的说,本发明公开了一种多碱基测序的过程中,信号校正的方法,利用一段已知信息的标准序列,结合其测序所获得的测序信号,可以给出测序的单位信号。本发明所述的多碱基测序指的是3端不封闭的基因测序。对于3端封闭的测序来说,例如illumina市场化的产品上所用的测序方法中,每次延伸一个碱基,测序的信号分为有和无两种,其根本不需要精确了解单位信号的数据,因此也不需要用单位信号来校正基因测序信号。
除特殊说明外,本发明中所涉及的词均为本领域的通用说法。
附图说明
图1.DNA文库的结构;
图2.某DNA测序的原始测序信号及其归一化信号;
图3.λ噬菌体基因组测序中所得单位信号与背景信号的频率分布直方图,黑色竖直虚线表示均值所在位置。
具体实施方式
基因测序中,利用修饰的核苷酸底物分子对待测序列的反应获得测序信号。一般的根据碱基互补的理论,将待测序列上碱基的互补碱基的核苷酸分子加入的时候,可以引发反应,而反应过程中的荧光信号,可以代表是否发生反应或者发生反应的碱基数目。这属于测序领域的通用手段。
一般的测序反应液中包含与待测基因序列配对的核苷酸底物分子。
多碱基测序的时候,例如2+2测序的时候,每次测序都是有反应信号的;并且延伸的碱基数目不止一个。在这种情况下,单位信号是有意义的。需要说明的是,多碱基测序的过程中,一般都是3端不封闭的测序。多碱基测序的过程中,如果使用3端封闭的测序方法,则每次延伸的碱基数量太少,不适合于大规模的基因测序。
一种多碱基基因测序中获得单位信号的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f;
(3)标准序列的多个测序信号fn,其中n为测序反应的轮数;以及标准序列的理想信号hn,其中n同为测序反应的轮数,通过公式hnX+y=fn获得测序的单位信号X;
其中,所述标准序列是已知的;所述标准序列的多个测序信号为大于等于3个测序信号;所述的标准序列的多个测序信号中,奇数轮中的理想信号不完全相等和/或偶数轮中的理想信号不完全相等;所述y为背景信号;所述X为单位信号。
所述的标准序列的理想信号hn,不包括标准序列与未知序列的综合信号。比如标准序列在MK测序中,理想信号的最后一个碱基为A,进行K测序的时候,发现其测序信号实际长度大于等于2(通过已经发生的测序可以判断),那么最后一个碱基A的理想信号不能用。
实验中发现的是,illumina测序的过程中,计算单位信号或者背景信号是容易实现的。但是多碱基测序的过程中,由于其信号的特殊性,一般的标准序列并不能简单的获得单位信号或者背景信号。多碱基测序的过程中,由于其每次延伸不止一个碱基,因此,对于比较短的标准序列,比如2轮即被测穿,则不能够得出单位信号。只有满足一定条件的标准序列才可以容易的获得单位信号。因此,本申请中特别提出了标准序列的要求,标准序列的多个测序信号为大于等于3个测序信号;所述的标准序列的多个测序信号中,奇数轮中的理想信号不完全相等和/或偶数轮中的理想信号不完全相等。一般的,类似于illumina的测序方法中,并不需要计算或者测量反应的单位信号。其只需要有个阈值即可判断碱基的有无。
多碱基测序中,单位信号是有意义的。背景信号一般指的是当无碱基延伸时测序仪所检测到的基准信号,和芯片材质、测序反应底物的自发水解等因素有关。并且背景信号也可以是随着测序读长的延长而发生变化的。单位信号指的是核酸/基因测序中,每延伸一个碱基测序信号的上升值。
多碱基测序的过程中,每个测序反应液中不仅仅包含一种核苷酸底物分子,并且其3端不封闭。因此,测序每次延伸的碱基数目为大于等于1。特殊的首轮测序的时候,测序信号可以为0。当首轮测序的时候,如果开头的碱基不能被所利用的测序反应液识别反应,那么测序信号为0。
本发明中所述的2+2测序,指的是MK、RY、WS三种测序方法。
MKRYWS是常见的国际简并碱基的表示方式。简并碱基指的是根据密码子的兼并性,常用一个符号代替某两个或者更多碱基。
简并碱基的表示含义参见下表:
表格1
该表格中,完全按照国际的表示方式。参见https://baike.baidu.com/item/%E7%AE%80%E5%B9%B6%E7%A2%B1%E5%9F%BA/4303878。
申请人之前公开的专利,例如CN201510822361.9也公开了该简并碱基的基因测序。本发明中所述的MK测序指的是,在针对一个未知或者已知的基因序列进行测序的时候,M反应液和K反应液循环加入。同样公开与申请人前面所述的专利中。具体的测序方法并不属于本发明的保护范围,也不是本发明的重点,将不再详述。
需要说明的是,本发明所述的理想信号的长度大于等于3;所表示的是,标准序列与索引序列或者未知待测序列或者其它序列连接以后,标准序列部分的理想信号长度大于等于3。可以理解的是,例如当MK测序的时候,建库时添加的标准序列为GTAGCC,。标准序列的理想信号为[2,1,1,2?];则理想信号的长度为3个信号,为[2,1,1]。其测序次序为GT(M测序信号值为2)A(K测序信号值为1)G(M测序信号值为1)CC(K测序信号值为2,但是信号值可能与后面的序列有关,不能确定信号值,则该信号不能用)。可以看出的是,标准序列的理想信号长度为3([2,1,1])的时候,后面有(或者说可能有)其它序列的时候,则未计算理想信号的部分被放弃。也就是说,测序信号2并不被计算做理想信号的n=4的情况,因为其理想信号添加了未知序列的理想信号。
明显的区分,理想信号仅为根据序列以及测序反应液为基础,计算出的测序延伸的碱基数目。理想信号均为大于等于0整数值。
一种用于多碱基基因测序的基因文库,其特征在于,将一段标准序列连接到待测序列,所述标准序列满足:
1)标准序列的理想信号h的长度X大于等于3;
2)标准序列的理想信号h满足奇数轮的信号不完全相等,或者标准序列的理想信号h满足偶数轮的信号不完全相等;
3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测序的轮数。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
这也对应于上面表格中的意义。值得注意的是,本发明中所述的MKRYWS测序中,每次测序加入的是包含两个核苷酸序列的反应液。
因此,MK循环测序指的是,包含两个反应液,第一个M反应液中包含A和C,第二个K反应液中包含G和T,两个反应液循环加入进行测序。例如第一轮加入的是M反应液,即可获得信号h1;第二轮加入的K反应液,则获得信号h2;第三轮加入M反应液,获得信号h3;第四轮加入K反应液,获得信号h4。以此类推。
MK测序指的是,有两个反应液,一种为M,另外一种为K,两个反应液循环加入测序。
RY测序指的是,有两个反应液,一种为R,另外一种为Y,两个反应液循环加入测序。
WS测序指的是,有两个反应液,一种为W,另外一种为S,两个反应液循环加入测序。
所述MK测序流程指的是,M反应液和K反应液循环测序。
需要指出的,MK测序并不需要严格的MKMKMK……类似循环过程,在整个测序过程中,根据具体的环境,可以选择某种测序反应液加一次的行为,例如MKKMK,MKMMK;依照这个基础,当加更多次的时候也是允许的。更特殊需要说明的是,本发明中所述的奇数轮或者偶数轮,是对应于每一个M或每一个K来说的,也就是说,例如M为奇数轮,则K为偶数轮。相同的情况适用于RY、WS等测序。因此,可以认为,当某种测序的时候,某个测序反应液多次加入反应体系,其仅仅是为了获得额外的信号,并非改变了奇数轮或者偶数轮的计算方式。
同样的,所述的n计算的时候,也是针对于每次更换反应液,则n变成n+1。同上一段的说明是一致的,例如MK测序并不需要严格的MKMKMK……类似循环过程,在整个测序过程中,根据具体的环境,可以选择某种测序反应液加一次的行为,例如MKKMK,MKMMK;依照这个基础,当加更多次的重复测序的时候也是允许的。同样需要说明的是,本发明中所述的n也是针对于每个个M或每一个K来说的,也就是说,当M为n轮反应的时候,更换反应液为K的时候,记为n+1。数学上的简单变换,比如更换记录的方式,或者特殊的标记方式,并不会改变本发明中所述方法的原理。其都属于本发明的描述范围。相同的情况适用于RY、WS等测序。因此,可以认为,当某种测序的时候,某个测序反应液多次加入反应体系,其仅仅是为了获得额外的信号或信息。
所述的奇数轮或者偶数轮,指的是多碱基测序的过程中,每次改变加入的反应液,则认为奇数轮或者偶数轮相互转变。在2+2多碱基测序的过程中,其中一种反应液对应奇数轮,另一种反应液对应偶数轮。
所述RY测序流程指的是,R反应液和Y反应液循环测序。
所述WS测序流程指的是,W反应液和S反应液循环测序。
相同的RY,WS测序也并不需要严格的RYRYRY…….类似循环过程,测序过程中的重复或者加一次、加几次也是允许的。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
值得注意的是,国际标准中,M代表的是A和/或C,本发明中,M反应液或者M测序指的是A和C。同样适用于其他的简并碱基。
优选的,本发明所述的文库应用于荧光切换测序。参见专利CN201510822361.9。荧光切换测序指的是,利用基团标记反应液中的核苷酸序列(底物分子);在测序反应之前某个波段并不会明显发光,处于暗态;在测序反应之后,在该波段明显发光。很多的英文文献也报道过具备荧光切换性质的分子,虽然没有用于测序的报道,英文文献中荧光切换为fluogenic。
可以知道的是,使用荧光切换的测序方法并不会造成2+2的测序数据结构不同。但是,荧光切换的测序方法可以提升2+2方法的准确性,并且完美与2+2方法结合。这属于已经公开的内容。
为了更清楚的描述本发明的内容。本发明中所涉及到的本领域的词语并未有超出一般的含义,并且再次列出其意义如下:
1.DNA文库:一组DNA分子,特征是其5’端和3’端有一段公共序列,中间为未知的待测DNA序列。
2.原始测序信号:测序仪所直接检测到的信号,特征是单位信号和背景信号均未知、且在不同待测DNA团簇之间差异极大。
3.归一化信号:由原始测序信号经某种方式变换而来的信号,特征是单位信号为1、背景信号为0。
4.理想信号:理想情况下,每条待测DNA在每次测序反应中所延伸的碱基数目。理想情况指无失相、无衰减的情况。理想信号仅与DNA序列和测序流程(1x4还是2+2,MK还是RY)有关。
值得注意的是,本发明中所述的术语是本领域的常见词语,并未超出本领域的常规含义。
在2+2式测序中,当DNA延伸n个碱基时,有两个因素会使原始测序信号并不恰好为n:
1.单位信号:DNA每延伸一个碱基时测序仪所检测信号的上升值,和发生延伸反应的DNA分子数目、相机曝光时间、激发光强度、相机感光能力等有关;
2.背景信号:当无碱基延伸时测序仪所检测到的基准信号,和芯片材质、测序反应底物的自发水解等因素有关。
本发明中所述原始测序信号的归一化指消除单位信号和背景信号对测序的影响的过程。具体地,原始测序信号的归一化指通过某种方式使原始测序信号变为归一化信号,其中归一化信号的单位信号为1、背景信号为0。原始测序信号的归一化是测序仪碱基读出中的必要步骤,它既可以独立放在测序仪采集原始测序信号后、碱基读出前,也可以整合到某种碱基读出方法中。此处碱基读出指的是将测序的某种信号(原始荧光信号或归一化信号)转化为DNA序列的过程,可以包含失相校正步骤(也可以不包含)。
本发明中,将每一轮的测序信号标记,所以,测序信号的长度就是反应的轮数。
原始测序信号的归一化非显而易见的地方在于,实验中发现同一次测序实验中不同待测DNA之间的单位信号和背景信号差异极大,即使它们在芯片上的空间位置相邻。因此不能利用掺入内参序列的方式获得单位信号和背景信号,并用于待测DNA的原始测序信号的归一化。必须对每条待测DNA的原始测序信号单独作归一化。掺入内参序列的方式误差会比较大。
同核心内容相关的,本发明还公开一种用于多碱基基因测序的基因文库,其特征在于,将一段标准序列连接到待测序列,所述标准序列满足:
1)标准序列的理想信号h的长度X大于等于3;
2)标准序列的理想信号h满足奇数轮的信号不完全相等,或者标准序列的理想信号h满足偶数轮的信号不完全相等;
3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
4)其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于0的整数;其中所述长度X也是测序的轮数。
根据优选的实施方式,所述基因测序指的是3端不封闭的基因测序。
根据优选的实施方式,,所述标准序列同引物结合区部分重合。
根据优选的实施方式,所述标准序列属于测序引物结合区的一部分。
根据优选的实施方式,所述基因测序指的是荧光切换的测序方法。
一种多碱基基因测序中信号校正的方法,其特征在于,在待测序列的端部接入序列信息已知的标准序列,利用标准序列的序列信息结合其测序信号获得单位信号,利用单位信号校正待测序列的测序信号。
传统的单核苷酸添加测序技术(single-nucleotide addition,SNA,即常见的1x4),如焦磷酸测序(pyrosequencing)和半导体测序(semiconductor sequencing),通常在DNA文库上的测序引物之后、待测序列之前加入一段标准序列TCAG,来辅助原始测序信号的归一化。该方法并不完全适用于用于2+2式测序,或者说不适用于于荧光发生测序,原因是:
1.焦磷酸测序和半导体测序检测的都是实时信号,可以用简单方法从中得到背景信号为0的原始测序信号。这里的简单方法比如是,每一次反应所得实时信号的最后一个值减去第一个值。而荧光发生测序检测的是终点信号,不是实时信号,测序的过程中不存在天然的0信号。该标准序列TCAG的特征是在SNA测序方法下,其理想信号为h=[1,1,1,1],可以认为原始测序信号的前4个值分别对应四种碱基的单位信号。但在荧光发生测序中,由于原始测序信号中还混杂了背景信号,不能这样简单推断单位信号。
2.在2+2测序中,该标准序列的理想信号为[1,2](MK)或[2](RY)或[1,1,1](WS),长度太短,不能用于推断单位信号和背景信号。
标准序列的设计
如图1所示,我们在DNA文库的测序引物结合区和待测序列之间插入一段标准序列。标准序列(标准序列)满足如下条件:
1.标准序列的理想信号h的长度至少为3;
2.标准序列的理想信号h满足h1≠h3;
3.标准序列的理想信号h可以进一步满足h2≠h4;
4.若标准序列的理想信号h的长度大于4,则对第5次开始的理想信号不作要求。
5.前述4个条件可以只在MK、RY、WS三种测序流程中的一种中成立,也可以在其中的两种中都成立,也可以在全部三种中都成立。
信号归一化的整体过程
对图1结构的DNA文库进行2+2测序,得到一组原始测序信号f=[f1,f2,...,fn]。设单位信号为x,奇数次背景信号为y,偶数次背景信号为z,标准序列前3次理想信号已知且满足h1≠h3,则可以列出线性方程组:
解上述线性方程组,得到x、y、z,然后通过下式得到归一化测序信号系数:
线性方程组的可能变化方式
若标准序列进一步满足h2≠h4,则线性方程组变为:
若标准序列的理想信号的长度为m(m>4),则线性方程可一直列下去:
此时该线性方程组是超定的(over-determined),一般不存在数学意义上严格的解。此时可以求满足上述线性方程组的最优解。最优解是使线性方程组尽量近似成立的解,举例如下:
如果测序中提供了失相、衰减等信息,可以利用这些信息来获得修正后的理想信号h′,并用h′代替前面线性方程里的h。失相、衰减等信息可以用多种方法获得,如添加内参序列、并从其测序信号中估计出来(参见申请人之前申请的专利CN201610899880.X)。例如,如果已知失相系数中超前为ε、滞后为λ,构建变换矩阵T,于是h′=Th。
考虑到背景信号的物理意义,可以进一步要求背景信号不小于0。当按上述方法求解线性方程组时,若发现某个背景信号(x或y)小于0,可将该背景信号改为0,并在上述线性方程中删去对应的未知数、重新解方程来获得单位信号和另一个背景信号。若发现两个背景信号均小于0,可将两个背景信号都改为0,并在上述线性方程中删去对应的未知数、重新解方程来获得单位信号。
在DNA文库中特定位置添加标准序列,利用其测序信号来推断单位信号和背景信号,并将其扣除,得到归一化信号。
实施例1
对来自大肠杆菌基因组的某DNA序列建库后进行MK测序,得到原始测序信号f=[f1,f2,...,fn]。建库时添加的标准序列为GTAGCC,索引序列为CACGCAG,待测序列为ATTATCCTCAGCAGTCAACCGGGTACGGACGATCGCGTAACGTGGGTGAAGTCGGTGGATGAAGCCATCGCGGCGTGTGGTGACGTACCAGAAATCATGGTGATTGGCGGCGGTCGCGTTTATGAACAGTTCTTGCCAAAAGCGCAAAAACTGTATCTGACGCATATCGACGCAGAAGTGGAAGGCGACACCCATTTCCCGGATT。标准序列和索引序列的理想信号为[2,1,1,5,1,2],据此列出方程:
通过下式得到归一化信号:
原始测序信号和归一化信号如图2所示。可以看到,原始测序信号大约在几百到数千,而归一化信号都在10以内,且前20次都非常接近整数。约从第35次开始,受失相等因素影响,归一化信号逐渐远离整数值。
实施例2
对λ噬菌体的基因组DNA建库并进行MK测序,每条待测DNA得到一组原始测序信号f=[f1,f2,...,fn]。建库时添加的标准序列为ACTTAGCATCAGC,未添加索引序列。标准序列的理想信号为[2,2,1,1,2,1,2,1],据此列出方程:
其中x为单位信号,y为奇数次背景信号,z为偶数次背景信号。对每条被测DNA,列出该方程并求其最优解。一共得到385336条原始测序信号,它们所得单位信号和背景信号的频率分布直方图如图3所示。
实施例3
采用索引序列为(TGTCTGGA,ATGTATCG,ATGCTGGA,CGTACCGT,TGACCTGA,TCGACTGA,CCGTACGT,GATCTACC,TGATCAAG,GAATCGTT,TCCGTCTA,CGAATGGA,ATCTGAGT)时,在MK、RY、WS三个流程下的理想信号均满足h1≠h3且h2≠h4的标准序列:ACGGCTA,AGCCGTA,AGTTGCA,ATGGTCA,CGTTGAC,CTGGTAC,TCGGCAT,TGCCGAT。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种多碱基基因测序中获得单位信号的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,测序,获得对应于标准序列以及待测基因序列的信号;每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(3)标准序列的理想信号记为hn,其中n同为测序反应的轮数,通过公式hnX+y=fn获得测序的单位信号X;
其中,所述标准序列的基因序列是已知的;所述n大于等于3;所述的标准序列的理想信号中,奇数轮的理想信号不完全相等和/或偶数轮的理想信号不完全相等;所述y为背景信号;所述X为单位信号;所述理想信号指的是理论上,每轮测序延伸的碱基数。
2.根据权利要求1所述的方法,其特征在于,
所述标准序列的多次测序的信号指的是MK、RY、WS三种测序流程产生的信号;所述的标准序列的理想信号中,奇数轮的理想信号不完全相等和/或偶数轮的理想信号不完全相等,指的是在MK、RY、WS三种测序流程中的至少一种中成立。
3.根据权利要求1所述的方法,其特征在于,
所述多碱基基因测序指的是,测序反应液中包含两种或者两种以上的核苷酸底物分子。
4.根据权利要求3所述的方法,其特征在于,
所述核苷酸底物分子是5’末端磷酸修饰有荧光切换性质的荧光团的核苷酸底物分子。
5.根据权利要求1所述的方法,其特征在于,
所述测序指的是多碱基测序;更优选的指的是2+2测序,每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸底物分子;其中一个反应液中的核苷酸底物分子可以和待测核酸序列上的两种碱基互补,另一个反应液中的核苷酸底物分子可以和待测核酸序列上的另外两种碱基互补。
6.根据权利要求5所述的方法,其特征在于,
所述的待测核酸序列包括所述的标准序列以及待测基因序列。
7.根据权利要求1所述的方法,其特征在于,
所述测序指的是2+2测序;每轮测序使用一套反应液组,每套反应液组包括两个反应液,每个反应液包含两种不同碱基的核苷酸;其中一个反应液中的核苷酸可以和待测核酸序列上的两种碱基互补,另一个反应液中的核苷酸可以和待测核酸序列上的另外两种碱基互补;首先,将待测的核酸序列片段固定,通入一套反应液组中的第一个反应液;检测、记录荧光信息;然后通入同一套反应液组中的第二个反应液;检测、记录荧光信息;两个反应液循环加入,通过荧光信息获得待测核酸序列的测序信号。
8.根据权利要求1所述的方法,其特征在于,所述标准序列的多个测序信号为大于等于4个测序信号。
9.一种多碱基基因测序中信号校正的方法,其特征在于,在待测序列的端部接入序列信息已知的标准序列,利用标准序列的序列信息结合其测序信号获得单位信号,利用单位信号校正待测序列的测序信号。
10.一种多碱基基因测序的方法,其特征在于,在待测序列的端部加入一段标准序列;其中所述标准序列满足以下条件,
(1)标准序列的理想信号h的长度n大于等于3;
(2)标准序列的理想信号h满足奇数轮的理想信号不完全相等,或者标准序列的理想信号h满足偶数轮的理想信号不完全相等;
(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度n也是测序的轮数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089595.8A CN113249454A (zh) | 2020-02-12 | 2020-02-12 | 一种多碱基基因测序中获得单位信号的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089595.8A CN113249454A (zh) | 2020-02-12 | 2020-02-12 | 一种多碱基基因测序中获得单位信号的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113249454A true CN113249454A (zh) | 2021-08-13 |
Family
ID=77219747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089595.8A Pending CN113249454A (zh) | 2020-02-12 | 2020-02-12 | 一种多碱基基因测序中获得单位信号的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113249454A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016049929A1 (zh) * | 2014-09-30 | 2016-04-07 | 天津华大基因科技有限公司 | 构建测序文库的方法及其应用 |
US9388462B1 (en) * | 2006-05-12 | 2016-07-12 | The Board Of Trustees Of The Leland Stanford Junior University | DNA sequencing and approaches therefor |
CN106874709A (zh) * | 2015-12-12 | 2017-06-20 | 北京大学 | 测序结果中序列数据错误的检测和校正方法 |
CN107958138A (zh) * | 2016-10-14 | 2018-04-24 | 北京大学 | 一种从高通量dna测序的原始信号中读取序列信息的方法 |
CN108699599A (zh) * | 2015-11-19 | 2018-10-23 | 北京大学 | 获得和校正生物序列信息的方法 |
-
2020
- 2020-02-12 CN CN202010089595.8A patent/CN113249454A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9388462B1 (en) * | 2006-05-12 | 2016-07-12 | The Board Of Trustees Of The Leland Stanford Junior University | DNA sequencing and approaches therefor |
WO2016049929A1 (zh) * | 2014-09-30 | 2016-04-07 | 天津华大基因科技有限公司 | 构建测序文库的方法及其应用 |
CN108699599A (zh) * | 2015-11-19 | 2018-10-23 | 北京大学 | 获得和校正生物序列信息的方法 |
CN106874709A (zh) * | 2015-12-12 | 2017-06-20 | 北京大学 | 测序结果中序列数据错误的检测和校正方法 |
CN107958138A (zh) * | 2016-10-14 | 2018-04-24 | 北京大学 | 一种从高通量dna测序的原始信号中读取序列信息的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019275665A1 (en) | Enzyme- and amplification-free sequencing | |
US20150133312A1 (en) | Compositions and methods for detecting rare nucleic acid molecule mutations | |
JP7373047B2 (ja) | 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法 | |
US10337057B2 (en) | Methods and systems for nucleic acid sequencing validation, calibration and normalization | |
US20180127804A1 (en) | High-throughput sequencing of polynucleotides | |
CN106874709B (zh) | 测序结果中序列数据错误的检测和校正方法 | |
Brouze et al. | Measuring the tail: Methods for poly (A) tail profiling | |
Jia et al. | An atlas of plant full-length RNA reveals tissue-specific and monocots–dicots conserved regulation of poly (A) tail length | |
CN107958138B (zh) | 一种从高通量dna测序的原始信号中读取序列信息的方法 | |
US20140287946A1 (en) | Nucleic acid control panels | |
CN109097446A (zh) | 一种检测miRNA的方法及试剂盒 | |
Yang et al. | Wheat in vivo RNA structure landscape reveals a prevalent role of RNA structure in modulating translational subgenome expression asymmetry | |
WO2012122571A1 (en) | Methods and compositions for the selection and optimization of oligonucleotide tag sequences | |
CN113249454A (zh) | 一种多碱基基因测序中获得单位信号的方法 | |
US11572586B2 (en) | Methods and systems for evaluating microsatellite instability status | |
CN113257351A (zh) | 一种用于多碱基基因测序的基因文库及其构建方法 | |
CN113249455A (zh) | 一种基因测序中获得背景信号的方法 | |
CN114420214A (zh) | 核酸测序数据的质量评估方法和筛选方法 | |
CN116064818A (zh) | 检测igh基因重排及超突变的引物组、方法和系统 | |
WO2022197801A1 (en) | Systems and methods for determining barcodes and screening in situ | |
EP2491509A1 (en) | Analyzing tool for amplification reactions | |
CN110818757A (zh) | 核苷酸类似物以及筛选dna聚合酶的方法 | |
WO2018235938A1 (ja) | 核酸をシークエンシングする方法および解析する方法 | |
CN114196744B (zh) | 一种多碱基基因测序中信号归一化的方法 | |
Hayrabedyan et al. | Single-cell transcriptomics in the context of long-read nanopore sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |
|
RJ01 | Rejection of invention patent application after publication |