CN109486811A - 双端分子标签接头及其用途和带有该接头的测序文库 - Google Patents

双端分子标签接头及其用途和带有该接头的测序文库 Download PDF

Info

Publication number
CN109486811A
CN109486811A CN201811116202.7A CN201811116202A CN109486811A CN 109486811 A CN109486811 A CN 109486811A CN 201811116202 A CN201811116202 A CN 201811116202A CN 109486811 A CN109486811 A CN 109486811A
Authority
CN
China
Prior art keywords
chain
base
ordering
sequence
molecular label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811116202.7A
Other languages
English (en)
Other versions
CN109486811B (zh
Inventor
郑建超
汪宇盈
羊光辉
刘继龙
叶明芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huada Gene Medical Laboratory Co Ltd
Shenzhen Huada Clinical Laboratory Center
BGI Shenzhen Co Ltd
BGI Genomics Co Ltd
Original Assignee
Guangzhou Huada Gene Medical Laboratory Co Ltd
Shenzhen Huada Clinical Laboratory Center
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huada Gene Medical Laboratory Co Ltd, Shenzhen Huada Clinical Laboratory Center, BGI Shenzhen Co Ltd filed Critical Guangzhou Huada Gene Medical Laboratory Co Ltd
Priority to CN201811116202.7A priority Critical patent/CN109486811B/zh
Publication of CN109486811A publication Critical patent/CN109486811A/zh
Application granted granted Critical
Publication of CN109486811B publication Critical patent/CN109486811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Biomedical Technology (AREA)
  • Wood Science & Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • Medicinal Chemistry (AREA)
  • General Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种双端分子标签接头及其用途和带有该接头的测序文库,该双端分子标签接头包括第一链序列和第二链序列,第一链序列的3’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位;第二链序列的5’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位,且第一链序列的分子标签与第二链序列的分子标签互补配对,第一链序列的具有碱基平衡作用的碱基位与第二链序列的具有碱基平衡作用的碱基位互补配对。该双端分子标签接头用于测序中能够减少测序读长的浪费,解决碱基不平衡问题,提高测序数据质量。

Description

双端分子标签接头及其用途和带有该接头的测序文库
技术领域
本发明涉及测序技术领域,具体涉及一种双端分子标签接头及其用途和带有该接头的测序文库。
背景技术
高通量测序技术由于其高通量、低成本的优势,目前已经成为一种重要的基因检测技术。目前主流的高通量测序技术提供商包括美国的Illumina公司、Thermo fisher公司、Pacbio公司、英国的nanopore公司和中国的华大基因(BGI)等。所有这些测序技术在基本原理上都采用测序前的文库构建以及边合成边测序的策略。由于在文库构建和测序过程中存在多个DNA扩增环节,每次扩增均有一定的概率引入错误碱基,导致人工突变,产生测序的背景噪音。不同测序技术的错误率不同,大约在0.1%-1%之间。
在检测体细胞变异(somatic mutation)时,由于体细胞变异在DNA中的频率往往比较低,较多情况下甚至低于0.1%,而高通量测序过程中的背景噪音往往高于0.1%,会堙没真正的低频突变,导致假阴性结果的产生。另一种情况是在RNA测序中,往往需要准确区分并定量原始的RNA分子的种类和数目,DNA扩增导致的重复(duplication)、错误和偏好性能够引起最终RNA定性错误或定量失真。第三种测序噪音的来源是生物样本在接触某种化学物质时,会导致DNA双链中的某些碱基发生非对称的变异,如石蜡包埋甲醛固定的组织样本(FFPE)会出现很高比例的C>T变异,这种由于体外化学物质导致的非对称的变异也会干扰高通量测序技术对低频突变的检测。
分子标签(UMI,unique molecular identifiers)的出现能够很好的解决以上问题。通过在建库的最初始阶段,以接头连接的方式引入分子标签,可以标记样本中的每一个原始分子,在随后的测序数据分析过程中可以通过识别分子标签,去除DNA扩增导致的重复、错误和偏好性等问题,而双端UMI的出现则可以很好的解决非对称变异的问题。
目前已经有多种分子标签技术的具体实现方法,纽约大学的Jungeui Hong对常见的几种分子标签设计方法进行了总结(参考文献PMID:29185922),如图1所示。然而,这几种方法均有不足。具体而言,图1A中单端UMI放于原有的样本标签(sample index)处会扰乱正常的文库测序,导致测序数据不能正常拆分到每个样本;图1B中单端UMI放于样本标签之后,虽然能够实现正常的数据拆分,但是不能实现对非对称变异的有效过滤;图1C中单端UMI放于第2个样本标签的位置,不仅不能实现对非对称变异的有效过滤,反而需要额外的一次测序,同时不能兼容双标签(index)测序的模式。图1D中双端UMI放于插入片段的两端,虽然可以很好地弥补单端UMI的不足,但是目前实现这种双端UMI的方法较为繁琐和低效。
纽约大学的Jungeui Hong认为分别合成含有6个N(N代表某个位置可能是A、T、C和G的任一种碱基)的接头,然后直接退火成双链,会导致接头退火的不完全匹配,严重影响连接效率。专利“一种用于检测肿瘤突变的双标签接头序列及检测方法”(申请号201510754103.1)通过在接头UMI区的外围引入酶切位点和保护碱基,提高接头退火的效率,然后采用酶切的方法去除部分多余的酶切位点处碱基,整个接头退火纯化过程比较繁琐,回收效率较低。专利“一种分子接头及其应用”(申请号201710240325.0)也采用了类似的酶切纯化的方法。另有专利“一种分子标签的制备方法”(申请号201610496676.3)虽然采用了两步单链延伸的方法避免了酶切,但是也未避免多次的接头反应和纯化过程,操作较为繁琐,接头损失严重。
发明内容
本发明提供一种双端分子标签接头及其用途和带有该接头的测序文库,能够减少测序读长的浪费,解决碱基不平衡问题,提高测序数据质量。
根据第一方面,一种实施例中提供一种双端分子标签接头,包括第一链序列和第二链序列,上述第一链序列的3’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位;上述第二链序列的5’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位,且上述第一链序列的分子标签与第二链序列的分子标签互补配对,上述第一链序列的具有碱基平衡作用的碱基位与上述第二链序列的具有碱基平衡作用的碱基位互补配对。
作为本发明的优选方案,上述分子标签上的每一个碱基各自选自A、T、G、C中的碱基;上述具有碱基平衡作用的碱基位选自G或C或A或没有碱基。
作为本发明的优选方案,上述第一链序列和上述第二链序列上的具有碱基平衡作用的碱基位的数量是1个或以上,优选1个或2个,更优选1个。
作为本发明的优选方案,上述接头具有选自如下(1)至(3)中任意一种的结构:
(1)上述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3ST-3’,上述第二链序列具有如下结构:5’-pSN6N5N4-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基;
(2)上述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2ST-3’,上述第二链序列具有如下结构:5’-pSN4N3-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N4分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N3互补配对,N2与N4互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N2和N4分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N2和N4分别代表各自选自于A、T的碱基;或
(3)上述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3N4ST-3’,上述第二链序列具有如下结构:5’-pSN8N7N6N5-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N8分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N5互补配对,N2与N6互补配对,N3与N7互补配对,N4与N8互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N4和N8分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N4和N8分别代表各自选自于A、T的碱基。
作为本发明的优选方案,上述接头具有选自上述(1)所示的结构。
作为本发明的优选方案,第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3ST-3’,第二链序列具有如下结构:5’-pSN6N5N4-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基。
作为本发明的优选方案,上述第一链序列和第二链序列中的公共接头序列选自BGISEQ或MGISEQ系列测序仪的测序接头序列;优选如下SEQ ID NO:1和SEQ ID NO:2所示的序列:
5’-GAACGACATGGCTACGATCCGACTT-3’(SEQ ID NO:1);
5’-AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQ ID NO:2)。
作为本发明的优选方案,上述第一链序列和第二链序列分别是短链接头序列和长链接头序列,分别具有如下结构:
短链接头序列:5’-GAACGACATGGCTACGATCCGACTTN1N2N3ST-3’(SEQ ID NO:3);
长链接头序列:5’-pSN6N5N4AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQID NO:4);
其中,p代表磷酸基团,S代表G或C或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基。
作为本发明的优选方案,上述短链接头序列中的N1N2N3ST和上述长链接头序列中的pSN6N5N4分别具有如下表1所示的序列:
表1
作为本发明的优选方案,上述第一链序列和第二链序列中至少一个还具有样本标签序列。
根据第二方面,一种实施例中提供一种第一方面的双端分子标签接头在制备测序文库中的用途。
根据第三方面,一种实施例中提供一种测序文库,该测序文库包括来源于样本的插入片段序列,以及位于上述插入片段序列两端的如第一方面的双端分子标签接头。
本发明的双端分子标签接头中双端UMI采用尽可能短的UMI,既保证了UMI的使用效果,又减少了测序读长的浪费;在UMI之后采用至少1个碱基位置用来稀释T-A连接产生相同碱基所带来的碱基不平衡问题,提高测序数据质量;本发明的双端分子标签接头制备步骤简单,不存在任何接头损失,每对接头都能够完全配对,达到最佳的连接效率。
附图说明
图1为现有技术中常见4种UMI的设计原理示意图,每个小图中均展示了接头结构和文库结构,并且标注了不同UMI接头设计方法的UMI和样本标签(sample index)的设计位置以及测序方案,其中A图表示单端UMI双端样本标签,需要单独进行样本标签的拆分,测序时不能与正常的文库混合上机;B图表示单端UMI和单端样本标签在文库的同一侧,需要采用额外的试剂增加标签(样本index)测序的读长;C图表示单端UMI和单端样本标签在文库的不同侧,测序时需要进行额外的一次测序(index2),不利于双端标签的接头设计;D图表示双端UMI和单端样本标签,对于测序产生的干扰较少,接头的制备较为繁琐。
图2为本发明实施例中双端UMI的设计原理示意图及几种实现方式,每个小图中均展示了双端UMI的一种实现方式,其中UMI的设计采用插入DNA左右各3个碱基(图中NNN)的形式,共有64种组合形式,为了减弱连接DNA时T-A碱基的不平衡,在3个N与T之间选择性地引入1个碱基G或C或不引入任何碱基;其中A图为没有样本标签(sample index)的接头结构,B图为单端接头引入1个样本标签;C图和D图均有2个样本标签,D图中样本标签是通过PCR的方式引入的。
图3为本发明实施例中64种UMI的拆分结果,横坐标显示的是64种不同的UMI,纵坐标显示的是每种UMI检测到的测序深度,显示UMI的分布非常均衡,完全满足UMI的使用。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本发明的一种实施例中提供一种双端分子标签接头,包括第一链序列和第二链序列,上述第一链序列的3’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位;上述第二链序列的5’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位,且上述第一链序列的分子标签与第二链序列的分子标签互补配对,上述第一链序列的具有碱基平衡作用的碱基位与上述第二链序列的具有碱基平衡作用的碱基位互补配对。
本发明中,术语“双端分子标签接头”是指带有双端分子标签(UMI,uniquemolecularidentifiers)的接头,可以是测序接头等。所谓“双端分子标签”或“双端UMI”,表示在插入片段的两端均有UMI。在一个实施例中,双端UMI一共有6个碱基,每侧各有3个碱基,优选地,双端UMI上的碱基各自选自A、T、G、C中的碱基;为了实现测序时的碱基平衡,3个碱基的UMI之后会采用至少1个碱基位置减少T-A连接碱基对测序数据质量的影响。
需要说明的是,本发明中具有碱基平衡作用的“碱基位”或“碱基位置”是按照双端分子标签接头的整体设计而言。对于每个具体的双端分子标签接头而言,上述具有碱基平衡作用的“碱基位”或“碱基位置”可能是指1个或以上实际存在的碱基,也可能是指没有碱基存在(碱基数为0)。特别说明的是,即使是在没有碱基存在(碱基数为0)的情况下,也称该处为1个“碱基位”或“碱基位置”。
在一个实施例中,双端UMI的接头结构如图2所示,图2中每个小图中均展示了双端UMI的一种实现方式,其中UMI的设计采用插入DNA左右各3个碱基(图中NNN)的形式,共有64种组合形式;为了减弱连接DNA时T-A碱基的不平衡,在3个N与T之间选择性地引入1个碱基G或C或A或不引入任何碱基(图中S代表的碱基)。其中,A图为没有样本标签(sample index)的接头结构,B图为单端接头引入1个样本标签;C图和D图均有2个样本标签,C图中双端接头引入2个样本标签,D图中样本标签是通过PCR的方式引入的。
需要说明的是,以上实施例和图2仅是示例性的,在其他实施例中,UMI的碱基数采用单侧2个双侧4个碱基或单侧4个双侧8个碱基的设计策略。在其他实施例中,采用2个或更多的具有碱基平衡作用的碱基以达到碱基平衡的目的。此外,接头上样本标签(sampleindex)的数量和存在形式没有限制,无论样本标签的数目是0、1或2个,无论样本标签是直接在接头合成时引入,或通过PCR引物的形式引入,均属于本发明的可行性的技术方式。
本发明的双端分子标签的设计和双端分子标签接头的设计方案,广泛地适用于各种测序平台,包括但不限于美国的Illumina公司、Thermo fisher公司、Pacbio公司、英国的nanopore公司和中国的华大基因(BGI)的测序平台,在一个实施例中,适用于华大基因的BGISEQ或MGISEQ系列测序仪。
基于本发明的原理,本发明实施例中提出了三种双端分子标签接头,包括第一链序列和第二链序列,分别具有选自如下(1)至(3)中任意一种的结构,优选具有选自上述(1)所示的结构:
(1)第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3ST-3’,第二链序列具有如下结构:5’-pSN6N5N4-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基;
(2)第一链序列具有如下结构:5’-第一链公共接头序列-N1N2ST-3’,第二链序列具有如下结构:5’-pSN4N3-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N4分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N3互补配对,N2与N4互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N2和N4分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N2和N4分别代表各自选自于A、T的碱基;或
(3)第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3N4ST-3’,第二链序列具有如下结构:5’-pSN8N7N6N5-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N8分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N5互补配对,N2与N6互补配对,N3与N7互补配对,N4与N8互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N4和N8分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N4和N8分别代表各自选自于A、T的碱基。
在一个实施例中,第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3ST-3’,第二链序列具有如下结构:5’-pSN6N5N4-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基。
在一个实施例中,测序平台是华大基因(BGI)的测序平台BGISEQ或MGISEQ系列测序仪,因此,第一链序列和第二链序列中的公共接头序列选自BGISEQ或MGISEQ系列测序仪的测序接头序列。需要说明的是,各个公司的测序平台的测序接头序列不同,但是其UMI的设计原理均相同,并且这些测序平台的测序接头序列是已知序列,因此根据本发明的原理容易设计适用于每一个测序平台的包含本发明的双端分子标签的测序接头序列。在一个实施例中,针对BGISEQ或MGISEQ系列测序仪,采用如下SEQ ID NO:1和SEQ ID NO:2所示的序列作为第一链序列和第二链序列中的公共接头序列:
5’-GAACGACATGGCTACGATCCGACTT-3’(SEQ ID NO:1);
5’-AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQ ID NO:2)。
需要说明的是,本发明中,第一链序列和第二链序列没有特别限定,在实际应用中,第一链序列可能是测序接头的短链接头序列,也可能是长链接头序列;类似地,第二链序列也可能是测序接头的短链接头序列或长链接头序列。
在一个最优选的实施例中,第一链序列和第二链序列分别是短链接头序列和长链接头序列,分别具有如下结构:
短链接头序列:5’-GAACGACATGGCTACGATCCGACTTN1N2N3ST-3’(SEQ ID NO:3);
长链接头序列:5’-pSN6N5N4AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQID NO:4);
其中,p代表磷酸基团,S代表G或C或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基。
在上述最优选的实施例中,所设计的双端UMI采用单侧3个N,双侧共计6个N的设计方案,既保证了UMI的使用效果,又尽可能节省了测序读长;在UMI之后采用1个碱基的位置稀释T-A连接产生相同碱基的碱基不平衡问题,提高测序数据质量;双端UMI接头可以通过穷举合成64对携带有不同UMI序列,然后分别退火,等比例混合后使用,接头制备步骤简单,不存在任何接头损失,每对接头都能够完全配对,达到最佳的连接效率。
根据测序平台公用接头结构和测序引物的序列,设计SEQ ID NO:3所示的短链接头序列和SEQ ID NO:4所示的长链接头序列,如表1所示,分别合成尾部带有3-4个碱基不等的分子标签序列的接头序列,共计64对。将合成的接头序列按照对应的序号一一配对退火,形成只含有一种UMI的双链接头。按照等物质的量混合64种UMI的已退火接头,然后稀释到工作液的浓度进行使用。
表1
本发明一种实施例中提供本发明上述描述的双端分子标签接头在制备测序文库中的用途。
本发明一种实施例中提供一种测序文库,该测序文库包括来源于样本的插入片段序列,以及位于上述插入片段序列两端的如第一方面的双端分子标签接头。这样的测序文库可应用于肿瘤基因检测的测序噪音过滤和低频突变检出,也可能应用于RNA相关的测序和微生物相关的测序等领域,涉及的样本类型包括但不限于血浆、FFPE、新鲜组织、粪便、尿液等。
以下通过具体实施例详细说明本发明的技术方案和效果,应当理解实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
本实施例采用华大基因的BGISEQ和MGISEQ系列测序仪的常规测序接头进行设计合成双端UMI接头,包括:
64种短链接头序列:5’-GAACGACATGGCTACGATCCGACTTNNNST-3’(SEQ ID NO:3),其中UMI选自上述表1;
64种长链接头序列:5’-pSNNNAAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQ IDNO:4),其中UMI选自上述表1。
上述序列中,p代表磷酸化修饰,S代表G或C或没有碱基。本实施例中上述128条序列通过北京六合华大基因科技有限公司合成,纯化方式为PAGE plus,订购量为5OD。
将合成的DNA序列干粉进行离心,12000rpm,2min。用TE缓冲液将引物稀释到100μM,TE配置如表2所示。
表2TE缓冲液配置
试剂名称 体积
Tris HCl(1M) 500μL
EDTA(0.5M) 100μL
无核酸酶(NF)的水 49.4mL
合计 50mL
震荡混匀,瞬时离心,室温静置2h以上。
按照如下表3配置25μM的接头,其中短链接头序列和长链接头序列按照表1中UMI形成一对一的对应关系。
表3 25μM接头的配置
试剂名称 体积(μL)
长链接头序列(100μM) 5
短链接头序列(100μM) 5
Tris HCl(0.02M) 10
合计 20
震荡混匀,瞬时离心,室温静置30min。
将64对退火好的接头转移混合到1个1.5mL的EP管中,标记为UMI64M,注明浓度为25μM,共计约1280μL。
取200μL的UMI64M(25μM)与300μL的无核酸酶(NF)的水进行混合,配置成UMI64M(10μM)的接头工作液500μL。将UID64M(25μM)和UID64M(10μM)放于-20℃保存,待用。
采用KAPA Hyper Prep Kit建库试剂盒(Kapa Biosystems,KR0961),10ng的cfDNA作为插入片段,采用3μL上述UID64M(10μM)接头进行建库。
采用华大智造的MGISEQ-2000测序仪,按照PE100的测序模式,测序30G的数据量,对R1端的UID进行拆分。如图3所示,显示64种UMI的分布非常均衡,完全满足UMI的使用。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
SEQUENCE LISTING
<110> 深圳华大基因股份有限公司,深圳华大临床检验中心,广州华大基因医学检验所有限公司
<120> 双端分子标签接头及其用途和带有该接头的测序文库
<130> 18I26915
<160> 4
<170> PatentIn version 3.3
<210> 1
<211> 25
<212> DNA
<213> 人工序列
<400> 1
gaacgacatg gctacgatcc gactt 25
<210> 2
<211> 32
<212> DNA
<213> 人工序列
<400> 2
aagtcggagg ccaagcggtc ttaggaagac aa 32
<210> 3
<211> 30
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (26)..(28)
<223> n is a, c, g, or t
<400> 3
gaacgacatg gctacgatcc gacttnnnst 30
<210> 4
<211> 36
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (2)..(4)
<223> n is a, c, g, or t
<400> 4
snnnaagtcg gaggccaagc ggtcttagga agacaa 36

Claims (10)

1.一种双端分子标签接头,其特征在于,所述接头包括第一链序列和第二链序列,所述第一链序列的3’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位;所述第二链序列的5’端包括2至4个碱基组成的分子标签和至少1个具有碱基平衡作用的碱基位,且所述第一链序列的分子标签与第二链序列的分子标签互补配对,所述第一链序列的具有碱基平衡作用的碱基位与所述第二链序列的具有碱基平衡作用的碱基位互补配对。
2.根据权利要求1所述的双端分子标签接头,其特征在于,所述分子标签上的每一个碱基各自选自A、T、G、C中的碱基;所述具有碱基平衡作用的碱基位选自G或C或A或没有碱基;
任选地,所述第一链序列和所述第二链序列上的具有碱基平衡作用的碱基位的数量是1个或以上,优选1个或2个,更优选1个。
3.根据权利要求1所述的双端分子标签接头,其特征在于,所述接头具有选自如下(1)至(3)中任意一种的结构:
(1)所述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3ST-3’,所述第二链序列具有如下结构:5’-pSN6N5N4-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基;
(2)所述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2ST-3’,所述第二链序列具有如下结构:5’-pSN4N3-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N4分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N3互补配对,N2与N4互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N2和N4分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N2和N4分别代表各自选自于A、T的碱基;或
(3)所述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3N4ST-3’,所述第二链序列具有如下结构:5’-pSN8N7N6N5-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或A或没有碱基,N1至N8分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N5互补配对,N2与N6互补配对,N3与N7互补配对,N4与N8互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表A或没有碱基时,N4和N8分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N4和N8分别代表各自选自于A、T的碱基。
4.根据权利要求3所述的双端分子标签接头,其特征在于,所述接头具有选自所述(1)所示的结构;
优选地,所述第一链序列具有如下结构:5’-第一链公共接头序列-N1N2N3ST-3’,所述第二链序列具有如下结构:5’-pSN6N5N4-第二链公共接头序列-3’,其中,p代表磷酸基团,S代表G或C或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基。
5.根据权利要求3所述的双端分子标签接头,其特征在于,所述第一链序列和第二链序列中的公共接头序列选自BGISEQ或MGISEQ系列测序仪的测序接头序列;优选如下SEQ IDNO:1和SEQ ID NO:2所示的序列:
5’-GAACGACATGGCTACGATCCGACTT-3’(SEQ ID NO:1);
5’-AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQ ID NO:2)。
6.根据权利要求3所述的双端分子标签接头,其特征在于,所述第一链序列和第二链序列分别是短链接头序列和长链接头序列,分别具有如下结构:
短链接头序列:5’-GAACGACATGGCTACGATCCGACTTN1N2N3ST-3’(SEQ ID NO:3);
长链接头序列:5’-pSN6N5N4AAGTCGGAGGCCAAGCGGTCTTAGGAAGACAA-3’(SEQ ID NO:4);
其中,p代表磷酸基团,S代表G或C或没有碱基,N1至N6分别代表各自选自于A、T、G、C的碱基,且满足如下条件:(a)N1与N4互补配对,N2与N5互补配对,N3与N6互补配对,第一链序列中的S与第二链序列中的S互补配对;(b)当S代表没有碱基时,N3和N6分别代表各自选自于G、C的碱基;(c)当S代表G或C时,N3和N6分别代表各自选自于A、T的碱基。
7.根据权利要求6所述的双端分子标签接头,其特征在于,所述短链接头序列中的N1N2N3ST和所述长链接头序列中的pSN6N5N4分别具有如下表1所示的序列:
表1
8.根据权利要求1-7任一项所述的双端分子标签接头,其特征在于,所述第一链序列和第二链序列中至少一个还具有样本标签序列。
9.权利要求1-8任一项所述的双端分子标签接头在制备测序文库中的用途。
10.一种测序文库,其特征在于,所述测序文库包括来源于样本的插入片段序列,以及位于所述插入片段序列两端的如权利要求1-8任一项所述的双端分子标签接头。
CN201811116202.7A 2018-09-25 2018-09-25 双端分子标签接头及其用途和带有该接头的测序文库 Active CN109486811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811116202.7A CN109486811B (zh) 2018-09-25 2018-09-25 双端分子标签接头及其用途和带有该接头的测序文库

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811116202.7A CN109486811B (zh) 2018-09-25 2018-09-25 双端分子标签接头及其用途和带有该接头的测序文库

Publications (2)

Publication Number Publication Date
CN109486811A true CN109486811A (zh) 2019-03-19
CN109486811B CN109486811B (zh) 2021-07-27

Family

ID=65689975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811116202.7A Active CN109486811B (zh) 2018-09-25 2018-09-25 双端分子标签接头及其用途和带有该接头的测序文库

Country Status (1)

Country Link
CN (1) CN109486811B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109971827A (zh) * 2019-03-25 2019-07-05 纳昂达(南京)生物科技有限公司 血浆dna的建库方法和建库试剂盒
CN110331187A (zh) * 2019-08-12 2019-10-15 天津华大医学检验所有限公司 组合标签、组合标签接头及其应用
CN110396534A (zh) * 2019-08-12 2019-11-01 华大生物科技(武汉)有限公司 基因文库的构建方法、待测核酸样本基因突变的检测方法及试剂盒
CN110878334A (zh) * 2019-11-12 2020-03-13 北京康普森生物技术有限公司 用于扩增子测序的引物及两步pcr建库方法
CN111910258A (zh) * 2020-08-19 2020-11-10 纳昂达(南京)生物科技有限公司 双端文库标签组合物及其在mgi测序平台中的应用
CN112626173A (zh) * 2020-12-03 2021-04-09 天津诺禾致源生物信息科技有限公司 Rna建库方法
CN112687339A (zh) * 2021-01-21 2021-04-20 深圳吉因加医学检验实验室 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN113981056A (zh) * 2021-11-26 2022-01-28 广州达安基因股份有限公司 基于已知标签的内参进行高通量测序的方法
WO2023092601A1 (zh) * 2021-11-29 2023-06-01 京东方科技集团股份有限公司 Umi分子标签及其应用、接头、接头连接试剂及试剂盒和文库构建方法
EP4060051A4 (en) * 2020-10-14 2023-12-20 Suzhou Basecare Medical Device Co., Ltd. NUCLEIC ACID LIBRARY CONSTRUCTION METHOD AND ITS APPLICATION IN ANALYZING ABNORMAL CHROMOSOME STRUCTURE IN A PREIMPLANTATION EMBRYO

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103305503B (zh) * 2012-03-16 2016-05-11 江苏基谱生物科技发展有限公司 一种用于高通量测序的索引序列组
CN108300716A (zh) * 2018-01-05 2018-07-20 武汉康测科技有限公司 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103305503B (zh) * 2012-03-16 2016-05-11 江苏基谱生物科技发展有限公司 一种用于高通量测序的索引序列组
CN108300716A (zh) * 2018-01-05 2018-07-20 武汉康测科技有限公司 接头元件、其应用和基于不对称多重pcr进行靶向测序文库构建的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A HONG J, GRESHAM D.: "Incorporation of unique molecular identifiers in TruSeq adapters improves the accuracy of quantitative sequencing. BioTechniques.", 《BIOTECHNIQUES》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109971827B (zh) * 2019-03-25 2020-05-01 纳昂达(南京)生物科技有限公司 血浆dna的建库方法和建库试剂盒
CN109971827A (zh) * 2019-03-25 2019-07-05 纳昂达(南京)生物科技有限公司 血浆dna的建库方法和建库试剂盒
CN110331187A (zh) * 2019-08-12 2019-10-15 天津华大医学检验所有限公司 组合标签、组合标签接头及其应用
CN110396534A (zh) * 2019-08-12 2019-11-01 华大生物科技(武汉)有限公司 基因文库的构建方法、待测核酸样本基因突变的检测方法及试剂盒
CN110878334B (zh) * 2019-11-12 2022-08-12 北京康普森生物技术有限公司 用于扩增子测序的引物及两步pcr建库方法
CN110878334A (zh) * 2019-11-12 2020-03-13 北京康普森生物技术有限公司 用于扩增子测序的引物及两步pcr建库方法
CN111910258A (zh) * 2020-08-19 2020-11-10 纳昂达(南京)生物科技有限公司 双端文库标签组合物及其在mgi测序平台中的应用
CN111910258B (zh) * 2020-08-19 2021-06-15 纳昂达(南京)生物科技有限公司 双端文库标签组合物及其在mgi测序平台中的应用
EP4060051A4 (en) * 2020-10-14 2023-12-20 Suzhou Basecare Medical Device Co., Ltd. NUCLEIC ACID LIBRARY CONSTRUCTION METHOD AND ITS APPLICATION IN ANALYZING ABNORMAL CHROMOSOME STRUCTURE IN A PREIMPLANTATION EMBRYO
CN112626173A (zh) * 2020-12-03 2021-04-09 天津诺禾致源生物信息科技有限公司 Rna建库方法
CN112687339A (zh) * 2021-01-21 2021-04-20 深圳吉因加医学检验实验室 一种统计血浆dna片段测序数据中序列错误的方法和装置
CN113981056A (zh) * 2021-11-26 2022-01-28 广州达安基因股份有限公司 基于已知标签的内参进行高通量测序的方法
WO2023092872A1 (zh) * 2021-11-26 2023-06-01 广州达安基因股份有限公司 基于已知标签的内参进行高通量测序的方法
WO2023092601A1 (zh) * 2021-11-29 2023-06-01 京东方科技集团股份有限公司 Umi分子标签及其应用、接头、接头连接试剂及试剂盒和文库构建方法

Also Published As

Publication number Publication date
CN109486811B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN109486811A (zh) 双端分子标签接头及其用途和带有该接头的测序文库
CN108368542B (zh) 用于基因组组装、单元型定相以及独立于靶标的核酸检测的方法
CN113661249A (zh) 用于分离无细胞dna的组合物和方法
JP6925424B2 (ja) 短いdna断片を連結することによる一分子シーケンスのスループットを増加する方法
CN105121664B (zh) 混合物及其相关组合物中的核酸的测序方法
TW201321518A (zh) 微量核酸樣本的庫製備方法及其應用
CN111748551B (zh) 封闭序列、捕获试剂盒、文库杂交捕获方法及建库方法
CN107109698B (zh) Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定
US11370810B2 (en) Methods and compositions for preparing nucleic acids that preserve spatial-proximal contiguity information
CN109536579A (zh) 单链测序文库的构建方法及其应用
CN113005121A (zh) 接头元件、试剂盒及其相关应用
JP7203276B2 (ja) メチル化されたdnaの標的領域に基づいてシーケンシングライブラリーを構築する方法及びキット
CN109576346A (zh) 高通量测序文库的构建方法及其应用
EP4200443B1 (en) A method for the isolation of double-strand breaks
EP4041888A1 (en) Use of cell free bacterial nucleic acids for detection of cancer
CN113462748A (zh) Dna测序文库的制备方法及试剂盒
CN112680796A (zh) 一种靶标基因富集建库方法
US20190218606A1 (en) Methods of reducing errors in deep sequencing
CN110564745B (zh) 一种肺癌稀有alk融合突变基因及其检测引物、试剂盒和检测方法
CN107904297B (zh) 用于微生物多样性研究的引物组、接头组和测序方法
CN114746560A (zh) 改进甲基化多核苷酸结合的方法、组合物和系统
CN113444769A (zh) 一种dna标签序列的构建方法及其应用
WO2023092601A1 (zh) Umi分子标签及其应用、接头、接头连接试剂及试剂盒和文库构建方法
US20240052339A1 (en) Rna probe for mutation profiling and use thereof
WO2023137667A1 (zh) 一种接头及其在构建dnb文库中的应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200402

Address after: 518083 building 1203, South Pearl apartment, No.21, Hong'an Third Street, Donghai community, Yantian street, Yantian District, Shenzhen City, Guangdong Province

Applicant after: Huada digital Biotechnology (Shenzhen) Co., Ltd

Address before: 7, 7 floor, 518083 floor, Hua Da comprehensive garden, No. 21 Hong An street, Yantian District, Shenzhen, Guangdong,

Applicant before: BGI SHENZHEN CO., Ltd.

Applicant before: SHENZHEN HUADA CLINIC EXAMINATION CENTER

Applicant before: BGI-GUANGZHOU MEDICAL LABORATORY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant