CN113257351A - 一种用于多碱基基因测序的基因文库及其构建方法 - Google Patents

一种用于多碱基基因测序的基因文库及其构建方法 Download PDF

Info

Publication number
CN113257351A
CN113257351A CN202010094190.3A CN202010094190A CN113257351A CN 113257351 A CN113257351 A CN 113257351A CN 202010094190 A CN202010094190 A CN 202010094190A CN 113257351 A CN113257351 A CN 113257351A
Authority
CN
China
Prior art keywords
sequencing
sequence
signal
calibration sequence
ideal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010094190.3A
Other languages
English (en)
Inventor
周文雄
乔朔
陈子天
段海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Biotechnology Beijing Co ltd
Original Assignee
Sina Biotechnology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Biotechnology Beijing Co ltd filed Critical Sina Biotechnology Beijing Co ltd
Priority to CN202010094190.3A priority Critical patent/CN113257351A/zh
Publication of CN113257351A publication Critical patent/CN113257351A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种用于多碱基基因测序的基因文库及其构建方法,特别是一种针对多碱基基因测序,并且3端不封闭的基因测序方法的基因测序文库及其构建方法。其仅适用于3端不封闭的多碱基测序。利用其奇数轮理想信号不完全相等或偶数轮理想信号不完全相同的方式构建文库,可以用于基因测序的后续校正。

Description

一种用于多碱基基因测序的基因文库及其构建方法
技术领域
本发明涉及一种用于多碱基基因测序的基因文库及其构建方法,属于基因 测序领域。
背景技术
基因测序属于近年来发展的精准医疗的最关键技术之一。高通量基因测序 的过程实际是一个微量体积的化学反应的过程。基因测序中,微坑或者说数据 点,一般都是在0.2-2微米的大小。基因信号检测的过程中,需要用物镜或者 其它检测方式获得测序的信号。在基因测序的过程中,不同的基因测序方法会 使用不同的文库,会有不同的数据表现形式。简单的,illumina所有测序仪使 用的是3端封闭的基因测序方法,每次延伸一个碱基。因此,其获得的信号是 1和0。也就是说,发生测序反应的微坑的信号为1,未发生测序反应的信号为 0。3端不封闭的测序信号则完全不同,其每次可能不止延伸一个碱基,因此其获得的信号可以大于1。高通量的基因测序中,由于其信号强度极低,微坑极 小,一般在0.2-2微米的范围内进行反应,因此,信号的重复性并不严格。也 就是说,在高通量测序的过程中,信号的重复性和一致性并不会很完美。在这 个情况下,理想信号的获取方式变得更加复杂。并且,为了更精确的获知每一 个微坑中的单位信号,最好的办法是每一个微坑中都有一个参考的理想信号。 本发明公开一种针对2+2基因,并且3端不封闭的基因测序方法的基因测序文 库及其构建方法。
发明内容
一种用于多碱基基因测序的基因文库,其特征在于,将一段校准序列连接 到待测序列,所述校准序列满足:
1)校准序列的理想信号h的长度X大于等于3;
2)校准序列的理想信号h满足奇数轮的信号不完全相等,或者校准序列的 理想信号h满足偶数轮的信号不完全相等;
3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,每轮测序延伸的碱基数;其中所述的标 准序列的理想信号为大于等于0的整数;其中所述长度X也是测序的轮数。
根据优选的实施方式,所述基因测序指的是3端不封闭的基因测序。
根据优选的实施方式,,所述校准序列同引物结合区部分重合。
根据优选的实施方式,所述校准序列属于测序引物结合区的一部分。
根据优选的实施方式,所述基因测序指的是荧光切换的测序方法。
一种多碱基基因测序的基因文库的构建方法,其特征在于,将一段校准序 列连接到待测序列,所述校准序列满足:
1)校准序列的理想信号h的长度X大于等于3;
2)校准序列的理想信号h满足奇数轮的信号不完全相等,或者校准序列的 理想信号h满足偶数轮的信号不完全相等;
3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数; 其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测 序的轮数。
一种基因测序的基因文库的构建方法,其特征在于,将一段校准序列连接 到待测序列,所述校准序列满足:
1.校准序列的理想信号h的长度X大于等于3;
2.校准序列的理想信号h满足奇数轮的信号不完全相等,或者校准序列的 理想信号h满足偶数轮的信号不完全相等;
3.条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数; 其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测 序的轮数。
一种用于基因测序的基因文库,其特征在于,将一段校准序列连接到待测 序列,所述校准序列满足:
1.校准序列的理想信号h的长度X大于等于3;
2.校准序列的理想信号h满足奇数轮的信号不完全相等,或者校准序列的 理想信号h满足偶数轮的信号不完全相等;
3.条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数; 其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测 序的轮数。
本发明中,针对测序反应出现“轮”的概念。测序反应的轮数属于测序领 域的常见概念。轮指的是测序反应的次数,例如待测序列加入第一个反应液为 第1轮,加入第二个反应液为第2轮;以此类推。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
这也对应于上面表格中的意义。值得注意的是,本发明中所述的MKRYWS测 序中,每次测序加入的是包含两个核苷酸序列的反应液。
因此,MK循环测序指的是,包含两个反应液,第一个M反应液中包含A和 C,第二个K反应液中包含G和T,两个反应液循环加入进行测序。例如第一轮 加入的是M反应液,即可获得信号h1;第二轮加入的K反应液,则获得信号h2; 第三轮加入M反应液,获得信号h3;第四轮加入K反应液,获得信号h4。以此 类推。
MK测序指的是,有两个反应液,一种为M,另外一种为K,两个反应液循 环加入测序。
RY测序指的是,有两个反应液,一种为R,另外一种为Y,两个反应液循 环加入测序。
WS测序指的是,有两个反应液,一种为W,另外一种为S,两个反应液循 环加入测序。
所述MK测序流程指的是,M反应液和K反应液循环测序。
需要指出的,MK测序并不需要严格的MKMKMK……类似循环过程,在整个测 序过程中,根据具体的环境,可以选择某种测序反应液加一次的行为,例如 MKKMK;依照这个基础,当加更多次的时候也是允许的。更特殊需要说明的是, 本发明中所述的奇数轮或者偶数轮,是对应于每一个M或每一个K来说的,也就 是说,例如M为奇数轮,则K为偶数轮。相同的情况适用于RY、WS等测序。因此, 可以认为,当某种测序的时候,某个测序反应液多次加入反应体系,其仅仅是 为了获得额外的信号,并非改变了奇数轮或者偶数轮的计算方式。
所述的奇数轮或者偶数轮,指的是多碱基测序的过程中,每次改变加入的 反应液,则认为奇数轮或者偶数轮相互转变。在2+2(MK或RY或WS)多碱基 测序的过程中,其中一种反应液对应奇数轮,另一种反应液对应偶数轮。
所述RY测序流程指的是,R反应液和Y反应液循环测序。
所述WS测序流程指的是,W反应液和S反应液循环测序。
相同的RY,WS测序也并不需要严格的RYRYRY…….类似循环过程,测序过 程中的重复或者加一次、加几次也是允许的。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
值得注意的是,国际标准中,M代表的是A和/或C,本发明中,M反应液 或者M测序指的是A和C。同样适用于其他的简并碱基。
所述的校准序列的理想信号h,不包括校准序列与未知序列的综合信号。 比如校准序列在MK测序中,理想信号的最后一个碱基为A,进行K测序的时候, 发现其测序信号实际长度大于等于2(通过已经发生的测序可以判断),那么最 后一个碱基A的理想信号不能用。
本发明中,所述的测序反应有两种反应液,例如M和K,例如R和Y,例如 W和S。当使用MK反应液进行测序的时候,例如加入M是第1轮,那么加入K 就是第二轮,再次加入M就是第3轮,再次加入K就是第4轮。M和K循环加 入,则测序反应的轮数不断增加。同样适用于RY,WS。
本发明公开一种基因测序文库及其构建方法,适用于2+2式,3端不封闭 的基因测序方法。
除特殊说明外,本发明中所涉及的词均为本领域的通用说法。
附图说明
图1.DNA文库的结构。
具体实施方式
MKRYWS是常见的国际简并碱基的表示方式。简并碱基指的是根据密码子的 兼并性,常用一个符号代替某两个或者更多碱基。
简并碱基的表示含义参见下表:
Figure BDA0002384716960000061
表格1
该表格中,完全按照国际的表示方式。参见 https://baike.baidu.com/item/%E7%AE%80%E5%B9%B6%E7%A2%B1%E5%9F%BA/43 03878。
申请人之前公开的专利,例如CN201510822361.9也公开了该简并碱基的基 因测序。本发明中所述的MK测序指的是,在针对一个未知或者已知的基因序列 进行测序的时候,M反应液和K反应液循环加入。同样公开与申请人前面所述 的专利中。具体的测序方法并不属于本发明的保护范围,也不是本发明的重点, 将不再详述。
一种用于多碱基基因测序的基因文库,其特征在于,将一段校准序列连接 到待测序列,所述校准序列满足:
1)校准序列的理想信号h的长度X大于等于3;
2)校准序列的理想信号h满足奇数轮的信号不完全相等,或者校准序列的 理想信号h满足偶数轮的信号不完全相等;
3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;
其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数; 其中所述的标准序列的理想信号为大于0的整数;其中所述长度X也是测序的 轮数。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
这也对应于上面表格中的意义。值得注意的是,本发明中所述的MKRYWS测 序中,每次测序加入的是包含两个核苷酸序列的反应液。
因此,MK测序指的是,有两个反应液,第一个反应液中包含A和C,第二 个反应液中包含G和T,两个反应液循环加入进行测序。例如第一轮加入的是M 反应液,即可获得信号h1;第二轮加入的K反应液,则获得信号h2;第三轮加 入M反应液,获得信号h3;第四轮加入K反应液,获得信号h4。以此类推。
MK测序指的是,有两个反应液,一种为M,另外一种为K,两个反应液循 环加入测序。
RY测序指的是,有两个反应液,一种为R,另外一种为Y,两个反应液循 环加入测序。
WS测序指的是,有两个反应液,一种为W,另外一种为S,两个反应液循 环加入测序。
所述MK测序流程指的是,M反应液和K反应液循环测序。
所述RY测序流程指的是,R反应液和Y反应液循环测序。
所述WS测序流程指的是,W反应液和S反应液循环测序。
M反应液中,包含了A和C两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
K反应液中,包含了G和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
R反应液中,包含了A和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
Y反应液中,包含了C和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
W反应液中,包含了A和T两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
S反应液中,包含了C和G两种碱基的核苷酸底物分子;可以是修饰的或 者不修饰的。
值得注意的是,国际标准中,M代表的是A和/或C,本发明中,M反应液 或者M测序指的是A和C。同样适用于其他的简并碱基。
优选的,本发明所述的文库应用于荧光切换测序。参见专利 CN201510822361.9。荧光切换测序指的是,利用基团标记反应液中的核苷酸序 列(底物分子);在测序反应之前某个波段并不会明显发光,处于暗态;在测序 反应之后,在该波段明显发光。很多的英文文献也报道过具备荧光切换性质的 分子,虽然没有用于测序的报道,英文文献中荧光切换为fluogenic。
本发明所述的文库应用于其它测序方法的时候,并不能产生特殊的技术效 果。
本发明所述的文库应用于3端封闭的测序的时候,由于其每次产生的信号 可能是1和0,并没有特殊的技术效果。因为当信号0的时候,可以比较方便 的获得背景信号值。
应用本发明所述的文库,可以校正多碱基测序的单位信号和背景信号。
传统的单核苷酸添加测序技术(single-nucleotide addition,SNA,即我 们通常说的1x4),如焦磷酸测序(pyrosequencing)和半导体测序 (semiconductor sequencing),通常在DNA文库上的测序引物之后、待测序列 之前加入一段校准序列TCAG,来辅助原始测序信号的归一化。该方法并不完全 适用于用于2+2式测序,或者说不试用于荧光发生测序,原因是:
1.焦磷酸测序和半导体测序检测的都是实时信号,可以用简单方法从中得到背景信号为0的原始测序信号。这里的简单方法比如是,每一次反应所得实时 信号的最后一个值减去第一个值。而荧光发生测序检测的是终点信号,不是 实时信号,无法用类似的方法得到背景信号为0的原始测序信号。该校准序 列TCAG的特征是在SNA测序方法下,其理想信号为h=[1,1,1,1],可以认为 原始测序信号的前4个值分别对应四种碱基的单位信号。但在荧光发生测序 中,由于原始测序信号中还混杂了背景信号,不能这样简单推断单位信号。
2.在2+2测序中,该校准序列的理想信号为[1,2](MK)或[2](RY)或[1,1,1] (WS),长度太短,不能用于推断单位信号和背景信号。
校准序列的设计:
如图1所示,我们在DNA文库的测序引物结合区和待测序列之间插入一段 校准序列。校准序列满足如下条件:
1.校准序列的理想信号h的长度至少为3;
2.校准序列的理想信号h满足h1≠h3
3.校准序列的理想信号h可以进一步满足h2≠h4
4.若校准序列的理想信号h的长度大于4,则对第5次开始的理想信 号不作要求。
5.前述4个条件可以只在MK、RY、WS三种测序流程中的一种中成立, 也可以在其中的两种中都成立,也可以在全部三种中都成立。
补充说明:
1.由于校准序列后是未知的待测序列,因此校准序列的最后一个DPL (简并多聚物长度)不能算进理想信号h中去。例如,当校准序列为ACGGCTA 时,如果只考虑该校准序列自身,那么在MK流程下每次延伸的碱基是 [AC,GG,C,T,A],理想信号是[2,2,1,1,1]。但这个校准序列是和后面待测序 列连在一起的,如果待测序列是GT…,那么理想信号前5次的确是 [2,2,1,1,1];但如果待测序列是AT…,那么理想信号前5次就变成 [2,2,1,1,2]了。由于理想信号第5次的值依赖于未知的待测序列,所以我 们认为该校准序列的理想信号的长度为4,而不是5。背景技术中提到校准 序列TCAG在1x4下的理想信号、校准序列的理想信号h的长度等,均排除 了校正序列的最后一个DPL。
2.前面提到的校正序列所满足的5个条件,也可以是校正序列+索引 序列一起满足(图1)。其中,索引序列是一组已知的DNA序列,用于标记 不同的DNA样品。
可以进一步要求校准序列(或校准序列+索引序列)进一步满足DNA测序文 库设计的一般要求,如GC含量适中、无发夹结构、不易形成二聚体等。
原始测序信号的归一化指消除单位信号和背景信号对测序的影响的过程。 具体地,原始测序信号的归一化指通过某种方式使原始测序信号变为归一化信 号,其中归一化信号的单位信号为1、背景信号为0。原始测序信号的归一化是 测序仪碱基读出中的必要步骤,它既可以独立放在测序仪采集原始测序信号后、 碱基读出前,也可以整合到某种碱基读出方法中。此处碱基读出指的是将测序 的某种信号(原始荧光信号或归一化信号)转化为DNA序列的过程,可以包含 失相校正步骤(也可以不包含)。
当然,校准序列中所述的h1≠h3也可以是奇数轮的结果不完全相等即可。 后面的归一化过程中也完全证实了这一点。只要满足奇数轮的结果不完全相等, 或者偶数轮的结果不完全相等,就可以获得确切的解。
需要指出的,MK测序并不需要严格的MKMKMK……类似循环过程,在整个测 序过程中,根据具体的环境,可以选择某种测序反应液加一次的行为,例如 MKKMK;依照这个基础,当加更多次的时候也是允许的。更特殊需要说明的是, 本发明中所述的奇数轮或者偶数轮,是对应于每一个M或每一个K来说的,也就 是说,例如M为奇数轮,则K为偶数轮。相同的情况适用于RY、WS等测序。因此, 可以认为,当某种测序的时候,某个测序反应液多次加入反应体系,其仅仅是 为了获得额外的信号,并非改变了奇数轮或者偶数轮的计算方式。
所述的奇数轮或者偶数轮,指的是多碱基测序的过程中,每次改变加入的 反应液,则认为奇数轮或者偶数轮相互转变。在2+2多碱基测序的过程中,其 中一种反应液对应奇数轮,另一种反应液对应偶数轮。
为了简化讨论的模型,本发明中使用了h1≠h3的表达方式。
本发明中所述的h2中的数字2指的是X,测序的长度或者第几个测序信号。 部分内容中,所述X用n进行代替,例如hn,含义完全相同。
需要说明的是,本发明所述的理想信号的长度大于等于3;所表示的是,标 准序列与索引序列或者未知待测序列或者其它序列连接以后,标准序列部分的 理想信号长度大于等于3。可以理解的是,例如当MK测序的时候,建库时添加 的校准序列为GTAGCC,。校准序列的理想信号为[2,1,1,2?];则理想信号的长 度为3个信号,为[2,1,1]。其测序次序为GT(M测序信号值为2)A(K测序信 号值为1)G(M测序信号值为1)CC(K测序信号值为2,但是信号值可能与后 面的序列有关,不能确定信号值,则该信号不能用)。可以看出的是,标准序列的理想信号长度为3([2,1,1])的时候,后面有(或者说可能有)其它序列的 时候,则未计算理想信号的部分被放弃。也就是说,测序信号2并不被计算做 理想信号的n=4的情况,因为其理想信号添加了未知序列的理想信号。
上面一段的说明适应于本发明所述的所有关于信号长度的部分。
可以理解的,当标准序列后面的序列是已知的时候,标准序列的理想信号 长度n可以出现等于3的情况。当标准序列直接连接未知待测序列的时候,标 准序列的理想信号长度n大于3。
需要说明的是,n(X)的数值并不是标准序列的信号值。所述n仅指的是 理想信号的测序长度,也就是说,测序的次数。标准序列的理想信号的数值是 理论计算的结果。这两个概念是严格区别的。例如所述的h1的时候,其中的1 即为n(X),表示第1个测序信号;而h1整体表示的数值,是测序的理想信号值, 根据具体的情况,其可能等于1,2,3,4,5,6等整数。
校准序列连接到待测序列即可,并不限制连接的位置。例如待测序列前添 加校准序列,或待测序列前添加校准序列和索引序列。校准序列可以是接头序 列或者索引序列的一部分。
在DNA文库中添加校准序列,利用其测序信号可以来推断单位信号和背景 信号,并将其扣除,得到归一化信号。
1.DNA文库中,待测序列前添加校准序列,或待测序列前添加校准序列和索引 序列。
2.校准序列(或校准序列+索引序列)的理想信号h满足h1≠h3。可以进一步 满足h2≠h4
3.校准序列(或校准序列+索引序列)的理想信号h的长度可以大于3次或4 次。
4.根据校准序列(或校准序列+索引序列)的理想信号和原始测序信号,列线 性方程,求出单位信号和背景信号。
5.保护校准序列的设计方法,不保护DNA文库的其他结构,也不保护索引序列 的设计方法。图1中的接头序列、测序引物结合区等可以改为其他结构。
6.不限制DNA文库的构建方法,只要能在指定位置插入校准序列(或校准序列 +索引序列)就行了,具体怎么插入不在本专利保护范围内。
优选的,所述理想信号h的长度大于等于4。理想信号的长度实际也是测 序的轮数。轮数是实际测序的次数,因此,其是一个正整数。
优选的,所述理想信号h的长度大于等于5。
优选的,所述标准序列奇数轮和偶数轮的理想信号h,满足奇数轮不完全 相等,同时满足偶数轮不完全相等。
优选的,所述校准序列的碱基个数大于等于5。
优选的,所述校准序列的碱基个数大于等于6。
优选的,所述校准序列的碱基个数大于等于7。
优选的,所述校准序列的碱基个数大于等于8。
优选的,所述校准序列包含表格2和表格3的全部。
优选的,所述校准序列非表格2或者表格3中某一个或多个序列。
优选的,所述校准序列的条件(1)和条件(2)在MK、RY、WS三种测序流 程中的一种中成立。
优选的,所述校准序列的条件(1)和条件(2)在MK、RY、WS三种测序流 程中任意两种中成立。
优选的,所述校准序列的条件(1)和条件(2)在MK、RY、WS三种测序流 程中的三种中成立。
必须要提出的是,信号的处理方法并不影响文库的构建。本发明所述文库 的构建是为了在理想信号中引入差异,由此可以获得更多的信息。
本发明中所涉及到的词语均为本领域的常见用语。为了更清楚的解释,部 分词语的意义给出解释,但并不与本领域的定义冲突。
DNA文库:一组DNA分子,特征是其5’端和3’端有一段公共序列,中间 为未知的待测DNA序列。
原始测序信号:测序仪所直接检测到的信号,特征是单位信号和背景信号 均未知、且在不同DNA之间差异极大。
本专利中部分文字中出现校准序列,或者标准序列,其意义相同。
同一次测序实验中不同待测DNA之间的单位信号和背景信号差异极大,即 使它们在芯片上的空间位置相邻。因此不能利用掺入内参序列的方式获得单位 信号和背景信号,并用于待测DNA的原始测序信号的归一化。必须对每条待测 DNA的原始测序信号单独作归一化。掺入内参序列的方式误差会比较大。
信号归一化的整体过程
对图1结构的DNA文库进行2+2测序,得到一组原始测序信号 f=[f1,f2,...,fn]。设单位信号为x,奇数次背景信号为y,偶数次背景信号为z, 校准序列前3次理想信号已知且满足h1≠h3,则可以列出线性方程组:
Figure BDA0002384716960000131
解上述线性方程组,得到x、y、z,然后通过下式得到归一化测序信号系 数:
Figure BDA0002384716960000132
线性方程组的可能变化方式
若校准序列进一步满足h2≠h4,则线性方程组变为:
Figure BDA0002384716960000141
若校准序列的理想信号的长度为m(m>4),则线性方程可一直列下去:
Figure BDA0002384716960000142
此时该线性方程组是超定的(over-determined),一般不存在数学意义上 严格的解。此时可以求满足上述线性方程组的最优解。最优解是使线性方程组 尽量近似成立的解,举例如下:
1.使
Figure BDA0002384716960000143
最小的解;
2.使
Figure BDA0002384716960000144
最小的解。
如果测序中提供了失相、衰减等信息,可以利用这些信息来获得修正后的 理想信号h′,并用h′代替前面线性方程里的h。失相、衰减等信息可以用多种方 法获得,如添加内参序列、并从其测序信号中估计出来,申请人已经公开的专 利,例如CN201610899880.X,也做出过说明。例如,如果已知失相系数中超前 为ε、滞后为λ,根据我们之前申请的专利,构建变换矩阵T,于是h′=Th。
本发明列出了归一化的部分方法,仅为了证明本发明所述文库的技术效果。
实施例1-4中的示例序列均未考虑PCR引物设计的一般要求,如GC含量适 中等。本领域技术人员不难从实施例1-4中的示例序列中进一步筛选满足PCR 引物设计一般要求的DNA序列。
实施例1
在不同2+2流程下,理想信号均满足h1≠h3的校准序列:
Figure RE-GDA0002579760010000151
Figure RE-GDA0002579760010000161
Figure RE-GDA0002579760010000171
表格2
实施例2
在不同2+2流程下,理想信号均满足h1≠h3且h2≠h4的校准序列:
Figure RE-GDA0002579760010000172
Figure RE-GDA0002579760010000181
Figure RE-GDA0002579760010000191
Figure RE-GDA0002579760010000201
Figure RE-GDA0002579760010000211
表格3
实施例3
采用索引序列为(TGTCTGGA,ATGTATCG,ATGCTGGA,CGTACCGT,TGACCTGA,TCGACTGA,CCGTACGT,GATCTACC,TGATCAAG,GAATCGTT,TCCGTCTA,CGAATGGA, ATCTGAGT)时,在MK、RY、WS三个流程下的理想信号均满足h1≠h3且h2≠h4的 校准序列:ACGGCTA,AGCCGTA,AGTTGCA,ATGGTCA,CGTTGAC,CTGGTAC,TCGGCAT, TGCCGAT。
实施例4
采用索引序列为(CACGCAG,AGTCACT,AATATTT,TGAATTA,CTTGATG, CCTGTCG,GTGCGAC,CGCTAAG,CCGCCAG,AGCCGGT,ATCACTT,ACTGAGT,TCTATAA, GCCCGTC,TCAGGCA,GGTAAGC,CGTCTGG,GTCGGCC)时,在MK、RY两个流程下的 理想信号均满足h1≠h3且h2≠h4的校准序列:TTATAA,TGCTAA,TCGTAA,TATTAA, GTAGCC,GGCGCC,GCGGCC,GATGCC,CTACGG,CGCCGG,CCGCGG,CATCGG,ATAATT, AGCATT,ACGATT,AATATT。
实施例5
对来自大肠杆菌基因组的某DNA序列建库后进行MK测序,得到原始测序信 号f=[f1,f2,...,fn]。建库时添加的校准序列为GTAGCC,索引序列为CACGCAG。校 准序列和索引序列的理想信号为[2,1,1,5,1,2]。
据此列出方程:
Figure BDA0002384716960000221
其中x为单位信号,y为奇数次背景信号,z为偶数次背景信号。求该方程 的最优解,即使得
Figure BDA0002384716960000222
最小的解为:
Figure BDA0002384716960000223
通过下式得到归一化信号:
Figure BDA0002384716960000224
原始测序信号大约在几百到数千,而归一化信号都在10以内,且前20次 都非常接近整数。约从第35次开始,受失相等因素影响,归一化信号逐渐远离 整数值。
实施例6
根据实施例5所述的方法。当使用一个非本发明所述的标准序列的时候。 MK测序获得例如(1,1,1,1)。后续的结果处理的时候,由于其h1=h3,并且 h2=h4,那么并不能对于基因测序的信号的归一化信号给出依据。
得到一组原始测序信号f=[f1,f2,...,fn]。设单位信号为x,奇数次背景信号 为y,偶数次背景信号为z,则可以列出线性方程组:
Figure BDA0002384716960000225
该方程无解。
更多的符合规则的DNA文库分子,由于其数量庞大,本发明中不再列出。
本发明具体实施方式中的具体实施例,仅仅是对于本发明的进一步说明, 并不够构成成本发明的限制因素。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易 想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护 范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种用于多碱基基因测序的基因文库,其特征在于,将一段校准序列连接到待测序列,所述校准序列满足:
(1)校准序列的理想信号h的长度X大于等于3;
(2)校准序列的理想信号h满足奇数轮的理想信号不完全相等,或者校准序列的理想信号h满足偶数轮的理想信号不完全相等;
(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;其中所述理想信号指的是理论上,每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测序的轮数。
2.根据权利要求1所述的文库,其特征在于,所述基因测序指的是3端不封闭的基因测序。
3.根据权利要求1-2任一项所述的文库,其特征在于,所述校准序列同索引序列部分重合。
4.根据权利要求1-2任一项所述的文库,其特征在于,所述校准序列属于索引序列的一部分。
5.根据权利要求1-4任一项所述的文库,其特征在于,所述基因测序指的是荧光切换的测序方法。
6.一种多碱基基因测序的基因文库的构建方法,其特征在于,将一段校准序列连接到待测序列,所述校准序列满足:
(1)校准序列的理想信号h的长度X大于等于3;
(2)校准序列的理想信号h满足奇数轮的理想信号不完全相等,或者校准序列的理想信号h满足偶数轮的理想信号不完全相等;
(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测序的轮数。
7.一种基因测序的基因文库的构建方法,其特征在于,将一段校准序列连接到待测序列,所述校准序列满足:
(1)校准序列的理想信号h的长度X大于等于3;
(2)校准序列的理想信号h满足奇数轮的理想信号不完全相等,或者校准序列的理想信号h满足偶数轮的理想信号不完全相等;
(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;其中所述理想信号指的是理论上,待测基因序列每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大于等于0的整数;其中所述长度X也是测序的轮数。
8.一种用于多碱基基因测序的基因文库,其特征在于,将一段校准序列连接到待测序列,所述校准序列满足:
(1)校准序列的理想信号h的长度X大于等于3;
(2)校准序列的理想信号h满足奇数轮的理想信号不完全相等,或者校准序列的理想信号h满足偶数轮的理想信号不完全相等;
(3)条件(1)和(2)在MK、RY、WS三种测序流程中的至少一种中成立;其中所述理想信号指的是理论上,每轮测序延伸的碱基数;其中所述的标准序列的理想信号为大等于于0的整数;其中所述长度X也是测序的轮数。
CN202010094190.3A 2020-02-12 2020-02-12 一种用于多碱基基因测序的基因文库及其构建方法 Pending CN113257351A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094190.3A CN113257351A (zh) 2020-02-12 2020-02-12 一种用于多碱基基因测序的基因文库及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094190.3A CN113257351A (zh) 2020-02-12 2020-02-12 一种用于多碱基基因测序的基因文库及其构建方法

Publications (1)

Publication Number Publication Date
CN113257351A true CN113257351A (zh) 2021-08-13

Family

ID=77219935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094190.3A Pending CN113257351A (zh) 2020-02-12 2020-02-12 一种用于多碱基基因测序的基因文库及其构建方法

Country Status (1)

Country Link
CN (1) CN113257351A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114507723A (zh) * 2022-01-28 2022-05-17 赛纳生物科技(北京)有限公司 一种测序信号归一化的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102686740A (zh) * 2009-12-23 2012-09-19 财团法人工业技术研究院 序列校正方法与序列校正装置
CN106367485A (zh) * 2016-08-29 2017-02-01 厦门艾德生物医药科技股份有限公司 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
CN107002130A (zh) * 2014-11-11 2017-08-01 深圳华大基因研究院 多程测序
CN107958138A (zh) * 2016-10-14 2018-04-24 北京大学 一种从高通量dna测序的原始信号中读取序列信息的方法
CN108699599A (zh) * 2015-11-19 2018-10-23 北京大学 获得和校正生物序列信息的方法
CN109477136A (zh) * 2016-03-29 2019-03-15 威廉马歇莱思大学 对流流动的流体装置中核酸基于表面的检测
CN109801679A (zh) * 2019-01-15 2019-05-24 仲恺农业工程学院 一种用于长链分子的数学序列重建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102686740A (zh) * 2009-12-23 2012-09-19 财团法人工业技术研究院 序列校正方法与序列校正装置
CN107002130A (zh) * 2014-11-11 2017-08-01 深圳华大基因研究院 多程测序
CN108699599A (zh) * 2015-11-19 2018-10-23 北京大学 获得和校正生物序列信息的方法
CN109477136A (zh) * 2016-03-29 2019-03-15 威廉马歇莱思大学 对流流动的流体装置中核酸基于表面的检测
CN106367485A (zh) * 2016-08-29 2017-02-01 厦门艾德生物医药科技股份有限公司 一种用于检测基因突变的多定位双标签接头组及其制备方法和应用
US20200010892A1 (en) * 2016-08-29 2020-01-09 Amoy Diagnostics Co., Ltd. Multi-position double-tag connector set for detecting gene mutation and preparation method therefor and application thereof
CN107958138A (zh) * 2016-10-14 2018-04-24 北京大学 一种从高通量dna测序的原始信号中读取序列信息的方法
CN109801679A (zh) * 2019-01-15 2019-05-24 仲恺农业工程学院 一种用于长链分子的数学序列重建方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114507723A (zh) * 2022-01-28 2022-05-17 赛纳生物科技(北京)有限公司 一种测序信号归一化的方法
CN114507723B (zh) * 2022-01-28 2024-07-23 赛纳生物科技(北京)有限公司 一种测序信号归一化的方法

Similar Documents

Publication Publication Date Title
US11845984B2 (en) Methods for obtaining and correcting biological sequence information
Michel Circular code motifs in transfer and 16S ribosomal RNAs: a possible translation code in genes
Seligmann Coding constraints modulate chemically spontaneous mutational replication gradients in mitochondrial genomes
EP2591433A2 (en) Systems and methods to detect copy number variation
US9268903B2 (en) Systems and methods for sequence data alignment quality assessment
CN113257351A (zh) 一种用于多碱基基因测序的基因文库及其构建方法
CN103764849A (zh) 降低基因组复杂度和多态性检测的方法
Sheikh et al. Designing compressive sensing DNA microarrays
EP3387613B1 (en) Background compensation
CN107958138B (zh) 一种从高通量dna测序的原始信号中读取序列信息的方法
CN114196744B (zh) 一种多碱基基因测序中信号归一化的方法
WO2011103467A2 (en) Methods and systems for nucleic acid sequencing validation, calibration and normalization
Choi et al. Purification of multiplex oligonucleotide libraries by synthesis and selection
CN102952798A (zh) 一种pcr引物设计方法
CN113249455A (zh) 一种基因测序中获得背景信号的方法
CN113249454A (zh) 一种多碱基基因测序中获得单位信号的方法
Uddin et al. Mutation pressure dictates codon usage pattern in mitochondrial Atpase8 in some mammalian species
Ganguly et al. Dual DNA binding mode of a turn-on red fluorescent probe thiazole coumarin
US11021734B2 (en) Systems and methods for validation of sequencing results
WO2006105339A2 (en) Gene synthesis using pooled dna
US20130316918A1 (en) Model-based residual correction of intensities
Lanzillotti et al. A High-Throughput Workflow for Mass Spectrometry Analysis of Nucleic Acids by Nanoflow Desalting
Fujimoto et al. Modeling global and local codon bias with deep language models
Vaudel MS2-based quantitation
CN103073717A (zh) 一种长碳链半芳香族透明聚酰胺的制备方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination