CN113249455A - 一种基因测序中获得背景信号的方法 - Google Patents

一种基因测序中获得背景信号的方法 Download PDF

Info

Publication number
CN113249455A
CN113249455A CN202010089613.2A CN202010089613A CN113249455A CN 113249455 A CN113249455 A CN 113249455A CN 202010089613 A CN202010089613 A CN 202010089613A CN 113249455 A CN113249455 A CN 113249455A
Authority
CN
China
Prior art keywords
sequencing
signal
sequence
signals
reaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010089613.2A
Other languages
English (en)
Inventor
周文雄
乔朔
陈子天
段海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Biotechnology Beijing Co ltd
Original Assignee
Sina Biotechnology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Biotechnology Beijing Co ltd filed Critical Sina Biotechnology Beijing Co ltd
Priority to CN202010089613.2A priority Critical patent/CN113249455A/zh
Publication of CN113249455A publication Critical patent/CN113249455A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基因测序中获得背景信号的方法,利用标准序列的已知信号,可以获得测序的背景信号。更准确的说,本发明公开了一种多碱基测序的过程中,信号校正的方法,利用一段已知信息的校准序列,结合其测序所获得的测序信号,可以给出测序的背景信号。本发明所公开的方式适用于多碱基测序。

Description

一种基因测序中获得背景信号的方法
技术领域
本发明涉及一种基因测序中获得背景信号的方法;属于基因测序领域。
背景技术
基因测序属于近年来发展十分迅速。高通量基因测序的过程实际是一个微量体积的化学反应的过程。基因测序中,微坑或者说数据点,一般都是在0.2-2微米的大小。基因信号检测的过程中,需要用物镜或者其它检测方式获得测序的信号。illumina所有测序仪使用的是3端封闭的基因测序方法,每次延伸一个碱基。因此,其获得的信号是1和0。也就是说,发生测序反应的微坑的信号为1,未发生测序反应的信号为0。3端不封闭的测序信号则完全不同,其每次可能不止延伸一个碱基,因此其获得的信号可以大于1。Illumina的单碱基延伸的反应中,严格来说,并不一定要区分单位信号、背景信号,只需要指出信号的阈值即可实现0和1的区分。3端不封闭的多碱基测序中,需要考虑的并不是阈值的问题,需要精确计算每一个测序信号的量就需要精确的区分背景信号。本发明公开一种利用标准序列获得背景的方法,适用于多碱基基因测序过程。
发明内容
一种基因测序中获得背景信号的方法,其特征在于包括,
(4)在待测基因序列的端部接入标准序列;
(5)通入测序反应液,对待测序列测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(6)利用标准序列的理想信号hn,其中n同为测序反应的轮数;以及奇数轮的背景信号y,偶数轮的背景信号z,通过公式hnX+背景信号(y或者z)=fn获得测序反应的奇数轮以及偶数轮的背景信号;
其中,所述标准序列的基因序列是已知的;所述标准序列的信号为大于等于3个测序信号,并且满足标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相等;所述理想信号指的是理论上每轮测序延伸的碱基数;所述X为单位信号。
根据优选的实施方式,hnX+背景信号y=fn获得背景信号y;或者通过hnX+背景信号z=fn获得背景信号z。
根据优选的实施方式,所述奇数轮和偶数轮的背景信号不相等。
根据优选的实施方式,所述多碱基基因测序指的是,MK,RY,WS测序中的一种或多种。
根据优选的实施方式,所述的背景信号不为零。
根据优选的实施方式,所述的测序指的是利用荧光切换的底物分子进行测序的方法。
一种多碱基基因测序中信号归一化的方法,其特征在于,包括,
(4)在待测基因序列的端部接入标准序列;
(5)通入测序反应液,对待测序列测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(6)利用理想信号hn,其中n同为测序反应的轮数;以及奇数轮的背景信号y,偶数轮的背景信号z,通过公式hnX+背景信号(y或者z)=fn获得测序的奇数轮、偶数轮的背景信号、单位信号X;
其中,所述标准序列是已知的;所述标准序列的多个测序信号为大于等于3个测序信号,并且满足标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相等;所述理想信号指的是理论上每轮测序延伸的碱基数。
一种多碱基基因测序中信号校正的方法,其特征在于,利用序列信息已知的标准序列,获得测序的背景信号和单位信号;利用测序信号同背景信号以及单位信号的关系:测序信号为背景信号和单位信号的加和,获得待测基因序列的测序过程中的碱基延伸个数信息。
一种多碱基基因测序中信号归一化的方法,其特征在于包括,
(4)在待测基因序列的端部接入标准序列;
(5)通入测序反应液,对待测序列测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(6)利用理想信号hn,其中n同为测序反应的轮数;以及背景信号U,通过公式hnX+U=fn获得测序的背景信号、单位信号X;
其中,所述标准序列是已知的;所述标准序列的多个测序信号为大于等于3个测序信号,并且满足标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相同;所述理想信号指的是理论上每轮测序延伸的碱基数;所述的标准序列的多个测序信号中,奇数轮的理想信号和/或偶数次的理想信号不完全相等。
根据优选的实施方式,所述MK,RY,WS测序指的是多碱基测序;MK测序指的是,包含两个反应液,第一个反应液中包含A和C,第二个反应液中包含G和T,两个反应液循环加入进行测序;RY测序指的是,包含两个反应液,第一个反应液中包含A和G,第二个反应液中包含C和T,两个反应液循环加入进行测序;WS测序指的是,包含两个反应液,第一个反应液中包含A和T,第二个反应液中包含G和C,两个反应液循环加入进行测序。
根据优选的实施方式,所述的A、G、C、T指的是化学修饰的核苷酸底物。
本发明中,针对测序反应出现“轮”的概念。测序反应的轮数属于测序领域的常见概念。轮指的是测序反应的次数,例如待测序列加入第一个反应液为第1轮,加入第二个反应液为第2轮;以此类推。
所述的校准序列的理想信号h,不包括校准序列与未知序列的综合信号。比如校准序列在MK测序中,理想信号的最后一个碱基为A,进行K测序的时候,发现其测序信号实际长度大于等于2(通过已经发生的测序可以判断),那么最后一个碱基A的理想信号不能用。
本发明中,所述的测序反应有两种反应液,例如M和K,例如R和Y,例如W和S。当使用MK反应液进行测序的时候,例如加入M是第1轮,那么加入K就是第二轮,再次加入M就是第3轮,再次加入K就是第4轮。M和K循环加入,则测序反应的轮数不断增加。同样适用于RY,WS。
本发明公开一种多碱基测序中获得背景的方法,利用标准序列的已知信号,可以获得测序的背景。更准确的说,本发明公开了一种多碱基测序的过程中,信号校正的方法,利用一段已知信息的校准序列,结合其测序所获得的测序信号,可以给出测序的背景。本发明所述的多碱基测序指的是3端不封闭的基因测序。对于3端封闭的测序来说,例如illumina市场化的产品上所用的测序方法中,每次延伸一个碱基,测序的信号分为有和无两种,其根本不需要精确了解单位信号的数据,因此也不需要用单位信号来校正基因测序信号。
除特殊说明外,本发明中所涉及的词均为本领域的通用说法。
附图说明
图1.DNA文库的结构;
图2.某DNA测序的原始测序信号及其归一化信号;
图3.λ噬菌体基因组测序中所得单位信号与背景信号的频率分布直方图,黑色竖直虚线表示均值所在位置。
具体实施方式
基因测序中,利用修饰的核苷酸底物分子对待测序列的反应获得测序信号。一般的根据碱基互补的理论,将待测序列上碱基的互补碱基的核苷酸分子加入的时候,可以引发反应,而反应过程中的荧光信号,可以代表是否发生反应或者发生反应的碱基数目。这属于测序领域的通用手段。
一般的测序反应液中包含与待测基因序列配对的核苷酸底物分子。
多碱基测序的时候,例如2+2测序的时候,每次测序都是有反应信号的;并且延伸的碱基数目不止一个。在这种情况下,单位信号是有意义的。需要说明的是,多碱基测序的过程中,一般都是3端不封闭的测序。多碱基测序的过程中,如果使用3端封闭的测序方法,则每次延伸的碱基数量太少,不适合于大规模的基因测序。
一种多碱基基因测序中获得背景信号的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,对待测序列测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(3)利用标准序列的理想信号hn,其中n同为测序反应的轮数;以及奇数轮的背景信号y,偶数轮的背景信号z,通过公式hnX+背景信号(y或者z)=fn获得测序反应的奇数轮以及偶数轮的背景信号;
其中,所述标准序列的基因序列是已知的;所述标准序列的信号为大于等于3个测序信号,并且满足标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相等;所述理想信号指的是MK,RY,WS测序时候该轮所延伸碱基的个数;所述X为单位信号。
根据优选的实施方式,通过所述的公式,可以获得测序反应的奇数轮的背景信号。
根据优选的实施方式,通过所述的公式,可以获得测序反应的偶数轮的背景信号。
奇数轮或者偶数轮的背景信号的计算方式是一样的。实际的测序中,需要获得奇数轮并且获得偶数轮的背景信号。
一般的,奇数轮和偶数轮的背景信号差异在20%以上。一般的,奇数轮和偶数轮的背景信号差异在30%以上。奇数轮和偶数轮的背景信号差异在40%以上。奇数轮和偶数轮的背景信号差异在50%以上。奇数轮和偶数轮的背景信号差异在100%以上。
可以理解的,所述方法的实质是,通过标准序列的理想信号以及实际测序信号获得其他信息。
本发明中所述的奇数轮和偶数轮的背景信号是不同,指的是从测序开始,比如第一轮开始,其测序反应的奇数轮和偶数轮的背景信号就是不同的。并且这种不同会持续。
实际测序同理论有这很大的差别。测序的时候,反应物的纯度、化学结构、外部条件都可能影响到基因测序反应的背景信号。即使比较理想的实验室条件下,背景信号也是有差异的。在一定理想的环境中,调整四种测序底物分子的化学结构和浓度等,可以降低背景信号的差异。必须要指出的是,illumina等测序反应中,因为其化学原理不同于多碱基测序的反应,因此其背景信号可以是隐藏的,也就是说,在整个过程中,可以不计算其背景信号就可以获得比较好的结果。当然,计算背景信号也是可以的,虽然从目前看来,还没有文章报道这种方法,从科研的角度或者实际的角度看,这可能是不必要的。但是对于2+2类似的多碱基反应的体系来说,经过仔细的研究发现,其数据复杂程度明显高于illumina类似反应体系,申请人之前的专利CN201510944878.5与CN201610899880.X也详细讲述了多碱基测序体系的数据特点,并且进行了失相算法,数据校正等方面的研究。在必要的时候,这两个专利中的内容可以以引用的方式加入本专利,用于证实本专利中的研究发现。
根据优选的实施方式,当测序反应处于理想状态的时候,可以将奇数轮和偶数轮的测序背景信号认为一样。
本发明中,部分区域出现了内容标准序列的理想信号长度大于等于3。可以理解的是,例如当MK测序的时候,建库时添加的校准序列为GTAGCC,。校准序列的理想信号为[2,1,1,2?];则理想信号的长度为3个信号,为[2,1,1]。其测序次序为GT(M测序信号值为2)A(K测序信号值为1)G(M测序信号值为1)CC(K测序信号值为2,但是信号值可能与后面的序列有关,不能确定信号值,则该信号不能用)。可以看出的是,标准序列的理想信号长度为3([2,1,1])的时候,后面有(或者说可能有)其它序列的时候,则未计算理想信号的部分被放弃。也就是说,测序信号2并不被计算做理想信号的n=4的情况,因为其理想信号添加了未知序列的理想信号。
明显的区分,理想信号仅为根据序列以及测序反应液为基础,计算出的测序延伸的碱基数目。理想信号均为大于等于0整数值。
背景信号的获得方式同单位信号的获得方式有类似的地方。并且,背景信号和单位信号都需要用到相同的公式计算。在本发明之前,背景信号和单位信号并不被广泛关注。具体的原因在上一段中也有描述。本发明公开了背景信号的获得方式。不仅可以获得背景信号,并且在奇数轮和偶数轮的背景信号不一致的情况下,还可以分别获得奇数轮和偶数轮的背景信号。这在以前是没有出现过的。
额外的,被发明也公开了单位信号的获得方式。参见下面的内容:
一种多碱基基因测序中获得单位信号的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f;
(3)标准序列的多个测序信号fn,其中n为测序反应的轮数;以及理想信号hn,其中n同为测序反应的轮数,通过公式hnX+y=fn获得测序的单位信号X;
其中,所述标准序列是已知的;所述标准序列的多个测序信号为大于等于3个测序信号;所述的标准序列的多个测序信号中,奇数轮中的理想信号不完全相等和/或偶数轮中的理想信号不完全相等;所述y为背景信号;所述X为单位信号。
然而,实验中发现的是,illumina测序的过程中,计算单位信号或者背景信号是容易实现的(必须要申明的是,此处讲述的是:利用本发明公开的方法,当计算Illumina测序中的背景信号和单位信号的时候,是容易实现的。并未发现本发明之前对于基因测序的背景信号和单位信号的详细计算方式,并且也未发现对于多碱基基因测序体系的相关研究)。但是多碱基测序的过程中,由于其信号的特殊性,一般的标准序列并不能简单的获得单位信号或者背景信号。多碱基测序的过程中,由于其每次延伸不止一个碱基,因此,对于比较短的标准序列,比如2轮即被测穿,则不能够得出单位信号。只有满足一定条件的标准序列才可以容易的获得单位信号。因此,本申请中特别提出了标准序列的要求,标准序列的多个测序信号为大于等于3个测序信号;所述的标准序列的多个测序信号中,奇数轮中的理想信号不完全相等和/或偶数轮中的理想信号不完全相等。
一般的,类似于illumina的测序方法中,并不需要计算或者测量反应的背景信号或者单位信号。其只需要有个阈值即可判断碱基的有无。
多碱基测序中,背景信号是有意义的。背景信号指的是当无碱基延伸时测序仪所检测到的基准信号,和芯片材质、测序反应底物的自发水解等因素有关。并且背景信号也可以是随着测序读长的延长而发生变化的。背景信号属于一般性的定义。
特殊的,首次发现的,2+2式的测序中,两种不同的反应液测序的时候,其背景信号是不一样的。也就是说,奇数轮和偶数轮的背景信号是不一样的。这并不是理论推算的结果,属于实验发现的结果。
本发明中所述的2+2测序,指的是MK、RY、WS三种测序方法。
MKRYWS是常见的国际简并碱基的表示方式。简并碱基指的是根据密码子的兼并性,常用一个符号代替某两个或者更多碱基。
简并碱基的表示含义参见下表:
Figure BDA0002382594510000081
表格1
该表格中,完全按照国际的表示方式。参见https://baike.baidu.com/item/%E7%AE%80%E5%B9%B6%E7%A2%B1%E5%9F%BA/4303878。
申请人之前公开的专利,例如CN201510822361.9也公开了该简并碱基的基因测序。本发明中所述的MK测序指的是,在针对一个未知或者已知的基因序列进行测序的时候,M反应液和K反应液循环加入。同样公开与申请人前面所述的专利中。具体的测序方法并不属于本发明的保护范围,也不是本发明的重点,将不再详述。
一种用于多碱基基因测序的基因文库,其特征在于,将一段校准序列连接到待测序列,所述校准序列满足:
1)校准序列的理想信号h的长度X大于等于3;
2)校准序列的理想信号h满足奇数轮的信号不完全相等,或者校准序列的理想信号h满足偶数轮的信号不完全相等;
3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于0的整数;其中所述长度X也是测序的轮数。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
这也对应于上面表格中的意义。值得注意的是,本发明中所述的MKRYWS测序中,每次测序加入的是包含两个核苷酸序列的反应液。
因此,MK测序指的是,包含两个反应液,第一个反应液中包含A和C,第二个反应液中包含G和T,两个反应液循环加入进行测序。例如第一轮加入的是M反应液,即可获得信号h1;第二轮加入的K反应液,则获得信号h2;第三轮加入M反应液,获得信号h3;第四轮加入K反应液,获得信号h4。以此类推。
MK测序指的是,有两个反应液,一种为M,另外一种为K,两个反应液循环加入测序。
RY测序指的是,有两个反应液,一种为R,另外一种为Y,两个反应液循环加入测序。
WS测序指的是,有两个反应液,一种为W,另外一种为S,两个反应液循环加入测序。
所述MK测序流程指的是,M反应液和K反应液循环测序。
需要指出的,MK测序并不需要严格的MKMKMK……类似循环过程,在整个测序过程中,根据具体的环境,可以选择某种测序反应液加一次的行为,例如MKKMK;依照这个基础,当加更多次的时候也是允许的。更特殊需要说明的是,本发明中所述的奇数轮或者偶数轮,是对应于每一个M或每一个K来说的,也就是说,例如M为奇数轮,则K为偶数轮。相同的情况适用于RY、WS等测序。因此,可以认为,当某种测序的时候,某个测序反应液多次加入反应体系,其仅仅是为了获得额外的信号,并非改变了奇数轮或者偶数轮的计算方式。
所述的奇数轮或者偶数轮,指的是多碱基测序的过程中,每次改变加入的反应液,则认为奇数轮或者偶数轮相互转变。在2+2多碱基测序的过程中,其中一种反应液对应奇数轮,另一种反应液对应偶数轮。
所述RY测序流程指的是,R反应液和Y反应液循环测序。
所述WS测序流程指的是,W反应液和S反应液循环测序。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或者不修饰的。
值得注意的是,国际标准中,M代表的是A和/或C,本发明中,M反应液或者M测序指的是A和C。同样适用于其他的简并碱基。
优选的,本发明所述的文库应用于荧光切换测序。参见专利CN201510822361.9。荧光切换测序指的是,利用基团标记反应液中的核苷酸序列(底物分子);在测序反应之前某个波段并不会明显发光,处于暗态;在测序反应之后,在该波段明显发光。很多的英文文献也报道过具备荧光切换性质的分子,虽然没有用于测序的报道,英文文献中荧光切换为fluogenic。
可以知道的是,使用荧光切换的测序方法并不会造成2+2的测序数据结构不同。但是,荧光切换的测序方法可以提升2+2方法的准确性,并且完美与2+2方法结合。这属于已经公开的内容。
首先再次申明本发明中涉及到的一般性的部分术语:
1.DNA文库:一组DNA分子,特征是其5’端和3’端有一段公共序列,中间为未知的待测DNA序列。
2.原始测序信号:测序仪所直接检测到的信号,特征是单位信号和背景信号均未知、且在不同DNA之间差异极大。
3.归一化信号:由原始测序信号经某种方式变换而来的信号,特征是单位信号为1、背景信号为0。
4.理想信号:理想情况下,每条待测DNA在每次测序反应中所延伸的碱基数目。理想情况指无失相、无衰减的情况。理想信号仅与DNA序列和测序流程(1x4还是2+2,MK还是RY)有关。
值得注意的是,本发明中所述的术语是本领域的常见词语,并未超出本领域的常规含义。
在2+2式测序中,当DNA延伸n个碱基时,有两个因素会使原始测序信号并不恰好为n:
1.单位信号:DNA每延伸一个碱基时测序仪所检测信号的上升值,和发生延伸反应的DNA分子数目、相机曝光时间、激发光强度、相机感光能力等有关;
2.背景信号:当无碱基延伸时测序仪所检测到的基准信号,和芯片材质、测序反应底物的自发水解等因素有关。
本发明中所述原始测序信号的归一化指消除单位信号和背景信号对测序的影响的过程。具体地,原始测序信号的归一化指通过某种方式使原始测序信号变为归一化信号,其中归一化信号的单位信号为1、背景信号为0。原始测序信号的归一化是测序仪碱基读出中的必要步骤,它既可以独立放在测序仪采集原始测序信号后、碱基读出前,也可以整合到某种碱基读出方法中。此处碱基读出指的是将测序的某种信号(原始荧光信号或归一化信号)转化为DNA序列的过程,可以包含失相校正步骤(也可以不包含)。
本发明中,将每一轮的测序信号标记,所以,测序信号的长度就是反应的轮数。
原始测序信号的归一化非显而易见的地方在于,实验中发现同一次测序实验中不同待测DNA之间的单位信号和背景信号差异极大,即使它们在芯片上的空间位置相邻。因此不能利用掺入内参序列的方式获得单位信号和背景信号,并用于待测DNA的原始测序信号的归一化。必须对每条待测DNA的原始测序信号单独作归一化。掺入内参序列的方式误差会比较大。
传统的单核苷酸添加测序技术(single-nucleotide addition,SNA,即我们通常说的1x4),如焦磷酸测序(pyrosequencing)和半导体测序(semiconductor sequencing),通常在DNA文库上的测序引物之后、待测序列之前加入一段校准序列TCAG,来辅助原始测序信号的归一化。该方法并不完全适用于用于2+2式测序,或者说不试用于荧光发生测序,原因是:
1.焦磷酸测序和半导体测序检测的都是实时信号,可以用简单方法从中得到背景信号为0的原始测序信号。这里的简单方法比如是,每一次反应所得实时信号的最后一个值减去第一个值。而荧光发生测序检测的是终点信号,不是实时信号,无法用类似的方法得到背景信号为0的原始测序信号。该校准序列TCAG的特征是在SNA测序方法下,其理想信号为h=[1,1,1,1],可以认为原始测序信号的前4个值分别对应四种碱基的单位信号。但在荧光发生测序中,由于原始测序信号中还混杂了背景信号,不能这样简单推断单位信号。
2.在2+2测序中,该校准序列的理想信号为[1,2](MK)或[2](RY)或[1,1,1](WS),长度太短,不能用于推断单位信号和背景信号。
校准序列的设计
如图1所示,我们在DNA文库的测序引物结合区和待测序列之间插入一段校准序列。校准序列满足如下条件:
1.校准序列的理想信号h的长度至少为3;
2.校准序列的理想信号h满足h1≠h3
3.校准序列的理想信号h可以进一步满足h2≠h4
4.若校准序列的理想信号h的长度大于4,则对第5次开始的理想信号不作要求。
5.前述4个条件可以只在MK、RY、WS三种测序流程中的一种中成立,也可以在其中的两种中都成立,也可以在全部三种中都成立。
信号归一化的整体过程
对图1结构的DNA文库进行2+2测序,得到一组原始测序信号f=[f1,f2,...,fn]。设单位信号为x,奇数次背景信号为y,偶数次背景信号为z,校准序列前3次理想信号已知且满足h1≠h3,则可以列出线性方程组:
Figure BDA0002382594510000131
解上述线性方程组,得到x、y、z,然后通过下式得到归一化测序信号系数:
Figure BDA0002382594510000132
线性方程组的可能变化方式
若校准序列进一步满足h2≠h4,则线性方程组变为:
Figure BDA0002382594510000141
若校准序列的理想信号的长度为m(m>4),则线性方程可一直列下去:
Figure BDA0002382594510000142
此时该线性方程组是超定的(over-determined),一般不存在数学意义上严格的解。此时可以求满足上述线性方程组的最优解。最优解是使线性方程组尽量近似成立的解,举例如下:
1.使
Figure BDA0002382594510000143
最小的解;
2.使
Figure BDA0002382594510000144
最小的解。
如果测序中提供了失相、衰减等信息,可以利用这些信息来获得修正后的理想信号h′,并用h′代替前面线性方程里的h。失相、衰减等信息可以用多种方法获得,如添加内参序列、并从其测序信号中估计出来(参见申请人之前申请的专利CN201610899880.X)。例如,如果已知失相系数中超前为ε、滞后为λ,构建变换矩阵T,于是h′=Th。
考虑到背景信号的物理意义,可以进一步要求背景信号不小于0。当按上述方法求解线性方程组时,若发现某个背景信号(x或y)小于0,可将该背景信号改为0,并在上述线性方程中删去对应的未知数、重新解方程来获得单位信号和另一个背景信号。若发现两个背景信号均小于0,可将两个背景信号都改为0,并在上述线性方程中删去对应的未知数、重新解方程来获得单位信号。
在DNA文库中特定位置添加校准序列,利用其测序信号来推断单位信号和背景信号,并将其扣除,得到归一化信号。
1.DNA文库中,待测序列前添加校准序列,或待测序列前添加校准序列和索引序列。
2.校准序列(或校准序列+索引序列)的理想信号h满足h1≠h3。可以进一步满足h2≠h4
3.校准序列(或校准序列+索引序列)的理想信号h的长度可以大于3次或4次。
4.根据校准序列(或校准序列+索引序列)的理想信号和原始测序信号,列线性方程,求出单位信号和背景信号。
5.对原始测序信号扣除单位信号和背景信号,得到归一化信号。
需要说明的,本发明中所述的矩阵计算方式,本领域技术人员可以明确的知道,其仅仅只是计算方式的改变,并没有改变原本公式的意义和性质,也没有增加新的定义或功能。因此,本发明中所述的具体计算方式,同权利要求的描述并没有冲突。本发明的权利要求的保护范围并不限定于所述的矩阵计算方式。
实施例1
对来自大肠杆菌基因组的某DNA序列建库后进行MK测序,得到原始测序信号f=[f1,f2,...,fn]。建库时添加的校准序列为GTAGCC,索引序列为CACGCAG,待测序列为ATTATCCTCAGCAGTCAACCGGGTACGGACGATCGCGTAACGTGGGTGAAGTCGGTGGATGAAGCCATCGCGGCGTGTGGTGACGTACCAGAAATCATGGTGATTGGCGGCGGTCGCGTTTATGAACAGTTCTTGCCAAAAGCGCAAAAACTGTATCTGACGCATATCGACGCAGAAGTGGAAGGCGACACCCATTTCCCGGATT。校准序列和索引序列的理想信号为[2,1,1,5,1,2],据此列出方程:
Figure BDA0002382594510000151
其中x为单位信号,y为奇数次背景信号,z为偶数次背景信号。求该方程的最优解,即使得
Figure BDA0002382594510000152
最小的解为:
Figure BDA0002382594510000161
通过下式得到归一化信号:
Figure BDA0002382594510000162
原始测序信号和归一化信号如图2所示。可以看到,原始测序信号大约在几百到数千,而归一化信号都在10以内,且前20次都非常接近整数。约从第35次开始,受失相等因素影响,归一化信号逐渐远离整数值。
实施例2
对λ噬菌体的基因组DNA建库并进行MK测序,每条待测DNA得到一组原始测序信号f=[f1,f2,...,fn]。建库时添加的校准序列为ACTTAGCATCAGC,未添加索引序列。校准序列的理想信号为[2,2,1,1,2,1,2,1],据此列出方程:
Figure BDA0002382594510000163
其中x为单位信号,y为奇数次背景信号,z为偶数次背景信号。对每条被测DNA,列出该方程并求其最优解。一共得到385336条原始测序信号,它们所得单位信号和背景信号的频率分布直方图如图3所示。
实施例3
采用索引序列为(TGTCTGGA,ATGTATCG,ATGCTGGA,CGTACCGT,TGACCTGA,TCGACTGA,CCGTACGT,GATCTACC,TGATCAAG,GAATCGTT,TCCGTCTA,CGAATGGA,ATCTGAGT)时,在MK、RY、WS三个流程下的理想信号均满足h1≠h3且h2≠h4的校准序列:ACGGCTA,AGCCGTA,AGTTGCA,ATGGTCA,CGTTGAC,CTGGTAC,TCGGCAT,TGCCGAT。
本发明具体实施方式中的具体实施例,仅仅是对于本发明的进一步说明,并不够构成成本发明的限制因素。

Claims (10)

1.一种基因测序中获得背景信号的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(3)利用标准序列的理想信号hn,其中n同为测序反应的轮数;以及奇数轮的背景信号y,偶数轮的背景信号z,通过公式hnX+y=fn以及hnX+z=fn获得测序反应的奇数轮以及偶数轮的背景信号;
其中,所述标准序列的基因序列是已知的;所述n大于等于3;所述标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相等;所述理想信号指的是理论上每轮测序延伸的碱基数;所述X为单位信号。
2.根据权利要求1所述的方法,其特征在于,
所述测序奇数轮和偶数轮的背景信号不相等。
3.根据权利要求1或2所述的方法,其特征在于,
所述基因测序指的是,MK,RY,WS测序中的一种或多种。
4.根据权利要求1-3任一项所述的方法,其特征在于,
所述的测序指的是利用荧光切换的底物分子进行测序的方法。
5.根据权利要求1所述的方法,其特征在于,
所述的背景信号不为零。
6.本发明提供一种基因测序中信号归一化的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,对待测序列测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(3)利用理想信号hn,其中n同为测序反应的轮数;以及奇数轮的背景信号y,偶数轮的背景信号z,通过公式hnX+背景信号(y或者z)=fn获得测序的奇数轮、偶数轮的背景信号、单位信号X;
其中,所述标准序列是已知的;所述标准序列的多个测序信号为大于等于3个测序信号,并且满足标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相等;所述理想信号指的是理论上每轮测序延伸的碱基数。
7.一种多碱基基因测序中信号校正的方法,其特征在于,利用序列信息已知的标准序列,获得测序的背景信号和单位信号;利用测序信号同背景信号以及单位信号的关系:测序信号为背景信号和单位信号的加和,获得待测基因序列的测序过程中的碱基延伸个数信息。
8.一种基因测序中信号归一化的方法,其特征在于包括,
(1)在待测基因序列的端部接入标准序列;
(2)通入测序反应液,对待测序列测序,获得对应于标准序列以及待测基因序列的信号,每次通入测序反应液获得一个测序信号,记为f,多次测序的信号分别记为fn,其中n为测序反应的轮数;
(3)利用理想信号hn,其中n同为测序反应的轮数;以及背景信号U,通过公式hnX+U=fn获得测序的背景信号、单位信号X;
其中,所述标准序列是已知的;所述标准序列的多个测序信号为大于等于3个测序信号,并且满足标准序列的奇数轮的理想信号和/或偶数轮的理想信号不完全相同;所述理想信号指的是理论上每轮测序延伸的碱基数;所述的标准序列的理想信号中,奇数轮的理想信号和/或偶数次的理想信号不完全相等。
9.根据前面任一项权利要求所述的方法,其特征在于,所述MK,RY,WS测序指的是多碱基测序;MK测序指的是,包含两个反应液,第一个反应液中包含A和C,第二个反应液中包含G和T,两个反应液循环加入进行测序;RY测序指的是,包含两个反应液,第一个反应液中包含A和G,第二个反应液中包含C和T,两个反应液循环加入进行测序;WS测序指的是,包含两个反应液,第一个反应液中包含A和T,第二个反应液中包含G和C,两个反应液循环加入进行测序。
10.根据权利要求9所述的方法,其特征在于,所述的A、G、C、T指的是化学修饰的核苷酸底物分子。
CN202010089613.2A 2020-02-12 2020-02-12 一种基因测序中获得背景信号的方法 Pending CN113249455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010089613.2A CN113249455A (zh) 2020-02-12 2020-02-12 一种基因测序中获得背景信号的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010089613.2A CN113249455A (zh) 2020-02-12 2020-02-12 一种基因测序中获得背景信号的方法

Publications (1)

Publication Number Publication Date
CN113249455A true CN113249455A (zh) 2021-08-13

Family

ID=77219759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010089613.2A Pending CN113249455A (zh) 2020-02-12 2020-02-12 一种基因测序中获得背景信号的方法

Country Status (1)

Country Link
CN (1) CN113249455A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101597643A (zh) * 2009-06-03 2009-12-09 东南大学 带背景验证的信号组合编码dna连接测序方法
CN101724704A (zh) * 2009-12-29 2010-06-09 华东医学生物技术研究所 一种高灵敏度焦测序反应液及其配制方法
US20130090860A1 (en) * 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US20150111762A1 (en) * 2012-05-02 2015-04-23 Mark W. Eshoo Dna sequencing
CN105893788A (zh) * 2016-04-26 2016-08-24 哈尔滨工程大学 利用参考基因组信息的半导体测序平台的测序数据校正方法
CN106755290A (zh) * 2015-11-19 2017-05-31 北京大学 利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法
US20170298430A1 (en) * 2014-11-05 2017-10-19 Illumina Cambridge Limited Sequencing from multiple primers to increase data rate and density
CN108699599A (zh) * 2015-11-19 2018-10-23 北京大学 获得和校正生物序列信息的方法
US20190338352A1 (en) * 2018-04-19 2019-11-07 Omniome, Inc. Accuracy of base calls in nucleic acid sequencing methods

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101597643A (zh) * 2009-06-03 2009-12-09 东南大学 带背景验证的信号组合编码dna连接测序方法
CN101724704A (zh) * 2009-12-29 2010-06-09 华东医学生物技术研究所 一种高灵敏度焦测序反应液及其配制方法
US20130090860A1 (en) * 2010-12-30 2013-04-11 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US20150111762A1 (en) * 2012-05-02 2015-04-23 Mark W. Eshoo Dna sequencing
US20170298430A1 (en) * 2014-11-05 2017-10-19 Illumina Cambridge Limited Sequencing from multiple primers to increase data rate and density
CN106755290A (zh) * 2015-11-19 2017-05-31 北京大学 利用具有荧光切换性质荧光团的核苷酸底物分子进行测序的方法
CN108699599A (zh) * 2015-11-19 2018-10-23 北京大学 获得和校正生物序列信息的方法
CN105893788A (zh) * 2016-04-26 2016-08-24 哈尔滨工程大学 利用参考基因组信息的半导体测序平台的测序数据校正方法
US20190338352A1 (en) * 2018-04-19 2019-11-07 Omniome, Inc. Accuracy of base calls in nucleic acid sequencing methods

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
郑华等: "DNA测序信号去噪分析的一种新方法", 《光谱学与光谱分析》 *
陈之遥等: "焦测序技术的研究进展", 《现代生物医学进展》 *

Similar Documents

Publication Publication Date Title
Deng et al. DNA-sequence-encoded rolling circle amplicon for single-cell RNA imaging
Hou et al. A cost-effective RNA sequencing protocol for large-scale gene expression studies
KR101912401B1 (ko) 다중화된 생화학적 분석에서의 시그널 인코딩 및 디코딩
EP2591433A2 (en) Systems and methods to detect copy number variation
JP7171709B2 (ja) 圧縮分子タグ付き核酸配列データを用いた融合の検出のための方法
US20190360037A1 (en) Methods and systems for nucleic acid sequencing validation, calibration and normalization
Brouze et al. Measuring the tail: Methods for poly (A) tail profiling
US20170218435A1 (en) Methods and compositions for the selection and optimization of oligonucleotide tag sequences
US10740883B2 (en) Background compensation
WO2021120715A1 (zh) 识别核酸中的碱基的方法和系统
Choi et al. Purification of multiplex oligonucleotide libraries by synthesis and selection
Yang et al. Wheat in vivo RNA structure landscape reveals a prevalent role of RNA structure in modulating translational subgenome expression asymmetry
CN113249455A (zh) 一种基因测序中获得背景信号的方法
CN113257351A (zh) 一种用于多碱基基因测序的基因文库及其构建方法
CN113249454A (zh) 一种多碱基基因测序中获得单位信号的方法
CN114196744A (zh) 一种多碱基基因测序中信号归一化的方法
CN112823392A (zh) 用于评估微卫星不稳定性状态的方法和系统
US20210390666A1 (en) Cross Talk Compensation
WO2022197801A1 (en) Systems and methods for determining barcodes and screening in situ
Ganguly et al. Dual DNA binding mode of a turn-on red fluorescent probe thiazole coumarin
Edwards Whole-genome sequencing for marker discovery
CN103014141A (zh) 用于筛查多发畸形综合征的组合探针
Kim et al. A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes
EP2643783A2 (en) Model-based residual correction of intensities
JP2017534277A (ja) 核酸増幅装置およびシステム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination