CN111808854A - 带有分子条码的平衡接头及快速构建转录组文库的方法 - Google Patents

带有分子条码的平衡接头及快速构建转录组文库的方法 Download PDF

Info

Publication number
CN111808854A
CN111808854A CN202010657691.8A CN202010657691A CN111808854A CN 111808854 A CN111808854 A CN 111808854A CN 202010657691 A CN202010657691 A CN 202010657691A CN 111808854 A CN111808854 A CN 111808854A
Authority
CN
China
Prior art keywords
sequence
library
balanced
rna
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010657691.8A
Other languages
English (en)
Other versions
CN111808854B (zh
Inventor
崔鹏
秦锐
林强
范伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Genomics Institute at Shenzhen of CAAS
Original Assignee
Agricultural Genomics Institute at Shenzhen of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Genomics Institute at Shenzhen of CAAS filed Critical Agricultural Genomics Institute at Shenzhen of CAAS
Priority to CN202010657691.8A priority Critical patent/CN111808854B/zh
Publication of CN111808854A publication Critical patent/CN111808854A/zh
Application granted granted Critical
Publication of CN111808854B publication Critical patent/CN111808854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/06Biochemical methods, e.g. using enzymes or whole viable microorganisms

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Plant Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了带有分子条码的平衡接头及快速构建转录组文库的方法。上述带有分子条码的平衡接头,由长短不同的两种平衡接头混合组成,平衡接头从5’到3’末端依次为测序文库PCR引物识别序列、分子条码序列、末端碱基序列;长平衡接头还包括中间碱基序列。此接头能够彻底解决PCR过程产生的duplication以及非特异退火等原因造成的数据污染问题,及克服了利用SMART技术产品线构建转录组文库且包Lane测序时碱基不平衡问题。本发明还提供了利用上述接头和加入内参标准品快速构建转录组文库的方法,简化了步骤,极大程度缩短了建库时间;且加入内参标准品可对数据结果造成的偏差进行标准化校正,保证后续分析的可靠性。

Description

带有分子条码的平衡接头及快速构建转录组文库的方法
技术领域
本发明涉及基因工程技术领域,具体涉及一种带有分子条码的平衡接头及其应用,利用平衡接头和内参标准品RNA快速构建转录组文库的方法,包含平衡接头和/或内参标准品RNA的试剂和试剂盒,以及数据分析方法。
背景技术
随着科学技术的发展进步,生命科学研究已经进入后基因组时代。而转录组研究作为后基因组时代一个非常重要的组学研究,为研究基因表达及转录水平上的调控提供了重要的手段和方法,也是发掘功能基因的重要途径。转录组这个概念最初由Velcuescu等于1995年在研究酵母基因表达时提出。广义上的转录组是指某一特定条件下,细胞或组织基因组所转录出的所有RNA的总和,其中包括编码RNA(mRNA)和非编码RNA如tRNA、rRNA、scRNA、snRNA、snoRNA、scRNA、miRNA、siRNA等,狭义上的转录组是指所有mRNA的总和。目前转录组的主要研究方法有三类:(1)基于一代Sanger测序技术,比如基因表达序列分析技术(serial analysis of gene expression,SAGE)和大规模平行信号测序系统(massivelyparallel signature sequencing,MPSS)。(2)基于探针杂交的技术,比如基因芯片技术。(3)基于新一代基因测序技术的RNA-seq技术(转录组测序技术)。基因芯片技术需要已知物种的基因序列,因此很难检测未知物种,并且灵敏度低,对于重复序列以及低丰度序列很难识别,还有重复性差、假阳性高等缺陷。SAGE和MPSS技术,无须任何已知基因序列信息,同时还具有分辨率高,背景噪声低等优势,但是测序费用高以及测序时间长等方面限制了该技术的进一步推广。
随着近十几年来第二代基因测序技术的迅猛发展,RNA-Seq技术日渐成熟,广泛应用于微生物和动植物基础研究、临床诊断和药物研发等领域。标准(常规)转录组文库的构建流程包括(1)mRNA的分离和纯化;(2)富集后的RNA进行打断;(3)第一链cDNA反转录;(4)第二链cDNA反转录;(5)纯化;(6)双链cDNA片段末端补平;(7)双链cDNA片段3’端加A尾;(8)双链cDNA片段加接头;(9)连接产物纯化和片段大小分选;(10)PCR扩增;(11)纯化;(12)检测转录组文库的质量;(13)上机测序。在链特异性转录构建过程中,在合成cDNA第二链时引入dUTP,在PCR扩增以前利用特异性降解dUTP的酶将cDNA第二链降解,在PCR扩增时可以特异性扩增第一链,因此时文库中的序列信息具有方向性。另一种转录组文库的构建流程如SMART技术产品线中展示,由于在片段化mRNA反转录的cDNA3’末端加入几个连续的胞嘧啶(C)和/或鸟嘌呤(G),添加接头后的文库插入片段前几个碱基都是C和/或G。Illumina测序平台在测前5个碱基时测序质量很低,特别是在包整条lane测序时,由于文库前几个碱基都是C和/或G,4种碱基不平衡,将会严重影响数据质量。但如果加入平衡文库解决会造成很多的数据浪费。
在文库构建过程中RNA随机打断,也会产生长度和序列完全一致的天然重复片段。如果不把duplication去除掉将会对表达量分析造成干扰。如果将所有的重复去除,那么天然重复也会被去掉,因此,如何区分天然重复和PCR过程产生的duplication也是转录组表达量准确定量的关键,另外在文库构建过程中的引物二聚体,非特异性退火片段也会对测序数据造成污染,对后续数据分析的准确性产生影响。
专利申请号为201810562835.4,名称为一种构建转录组测序文库的方法及相应的接头序列和试剂盒的专利中所提到的NEB、Illumina等品牌的RNA建库试剂盒用于RNA建库,但是目前这些建库试剂盒存在无法解决PCR扩增产生的duplication、引物二聚体和非特异性退火造成的数据污染导致定量偏差及步骤繁多耗时长等诸多缺点。
发明内容
有鉴于此,本发明致力于提供一种带有分子条码的平衡接头,能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题,以及测数据中由于引物二聚体、非特异性退火片段引进的污染问题,从而实现对转录本的精确定量。
本发明第一方面提供了带有分子条码的平衡接头(Barcode Balance Adapter,以下简称BBA),由长短不同的两种平衡接头混合组成。
长平衡接头(简称BBA-L)和短平衡接头(简称BBA-S);所述两种平衡接头的核苷酸序列包括:从5’到3’末端依次为测序文库PCR引物识别序列、分子条码序列、末端碱基(例如3-8个简并性碱基S)序列。
其中,所述分子条码序列为几个至几十个(例如5-10个)随机碱基N;所述两种平衡接头的末端碱基序列部分和/或全部相同;所述长平衡接头在分子条码序列和末端碱基序列之间还包括中间碱基序列(例如3-8个简并性碱基W),中间碱基序列与末端碱基序列的碱基种类不同。
上述平衡接头中,测序文库PCR引物识别序列可以在构建转录组文库的PCR扩增过程中,保证PCR引物能够识别到平衡接头而顺利进行PCR扩增。
分子条码序列优选为5-10个随机碱基N,优选碱基个数为5-7个,最优选6个,N为四种碱基A、T、C、G中的任意一种。所述分子条码序列为特有识别序列的分子条码,在PCR扩增之前平衡接头加到cDNA上,每一条cDNA片段都加上不同的带有特有识别序列的分子条码,因此同一个cDNA片段扩增出来的产物均带有相同的标签,而天然重复片段则带有不同的标签,能够保证数据分析时准确还原PCR前的cDNA片段组成。测序完成后利用分子条码序列过滤数据,将相同分子条码标记的扩增产物进行合并,就能准确去除duplication重复、同时保留样本的天然重复,因此同现有常规转录组技术相比,利用该平衡接头能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题,以及测数据中由于引物二聚体、非特异性退火片段引进的污染问题,从而实现对转录本的精确定量。而且,利用分子条码序列还可以对PCR扩增和测序错误进行纠正,扩增和测序过程中的错误会使得相同分子条码序列对应多个不同的序列,只需比较这些序列的相似性,基于相似性即可纠正这些错误,并将最后的一致性序列作为样本中的原始序列。
平衡接头中的末端碱基序列为3-8个简并性碱基S组成,优选3-5个碱基S,最优选4个碱基S。简并性碱基S为C、G中的任意一种。
短平衡接头(BBA-S)中的末端碱基序列有两个作用:第一可以用于确定分子条码的位置;第二可以和由反转录酶的末端转移酶活性在cDNA第一链3’末端加上的3-4个G和或C碱基互补配对。BBA-L中的末端碱基序列的作用与BBA-S中的作用相同。
在本发明的转录组文库构建过程中,利用反转录酶具有的末端转移酶活性和模板转换活性,在以片段化的mRNA作为模板合成cDNA第一链时,可以在其cDNA 3'端加上连续3个到4个胞嘧啶(C)和/或鸟嘌呤(G)。然后利用体系中加入的平衡接头(BBA)的4个末端简并性碱基S与之互补配对,之后转换以BBA为模板在第一链cDNA的3'端引入BBA的互补序列。同时通过随机接头在cDNA的5'端引入PCR引物识别序列,从而对cDNA进行扩增和文库构建。
长平衡接头(BBA-L)的中间碱基序列为3-8个简并性碱基W组成,优选3-5个碱基W,最优选4个碱基W。简并性碱基W为A、T中的任意一种。
BBA-L的中间碱基序列的位置对应于BBA-S的末端碱基序列(例如4个W简并性碱基对应4个S简并性碱基),在Illumina测序平台测序时在对应的位置起到平衡碱基的作用,可以解决在对应位置如果只由两种S简并碱基组成,而导致碱基种类不平衡造成测序质量太差的问题。同时,4个W简并性碱基也可以用于确定上述分子条形码的位置,另外4个W简并性碱基也可以作为分子条码用于后续数据分析。BBA-L的末端碱基序列(例如4个S简并碱基)则由文库插入片段(待测的cDNA片段)平衡。因此与现有的利用SMART技术产品线,以片段化mRNA反转录合成的一链cDNA两端直接加上测序接头进行转录组建库的技术相比,在利用Illumina测序平台进行包Lane测序时,无需另外加入平衡文库,节约测序成本增加数据产出量。
因此,本发明的平衡接头既能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题;又能够克服由于引物二聚体、非特异性退火片段引进的污染问题,实现对转录本的精确定量;还能够解决上述SMART技术产品线构建转录组文库且包Lane测序时由于碱基不平衡需要额外加入平衡文库造成数据浪费的问题。
进一步,在本发明提供的技术方案的基础上,所述长平衡接头和短平衡接头按照相同和/或相近摩尔比混合。
优选长平衡接头和短平衡接头按照相同摩尔比混合,使合成的cDNA能够以相同的概率去连接BBA-L或BBA-S,使连接到cDNA链上的BBA-L和BBA-S的比例尽量接近1:1,进而使BBA-L的中间碱基序列(例如4个W碱基)和BBA-S中的末端碱基序列(例如4个S碱基)相对应起到平衡碱基的作用,增强平衡接头在转录组文库构建过程中的平衡碱基的作用。
进一步,在本发明提供的技术方案的基础上,所述长平衡接头的核苷酸序列包括:从5’到3’末端依次为Illumina测序文库PCR引物识别序列、6个随机碱基N的分子条码序列、4个简并性碱基W和4个简并性碱基S。
在本发明的一种优选实施方式中,所述长平衡接头的核苷酸序列包括SEQ IDNO.1所示的核苷酸序列:5’-CTACACGACGCTCTTCCGATCTNNNNNNWWWWrSrSrS+S-3’(r表示核糖核甘酸)。
进一步,在本发明提供的技术方案的基础上,所述短平衡接头的核苷酸序列包括:从5’到3’末端依次为Illumina测序文库PCR引物识别序列、6个随机碱基N的分子条码序列、4个简并性碱基S。
在本发明的一种优选实施方式中,所述短平衡接头的核苷酸序列包括SEQ IDNO.2所示的核苷酸序列:5’-CTACACGACGCTCTTCCGATCTNNNNNNrSrSrS+S-3’。
末端碱基序列中简并性碱基S选择核糖核苷酸,可以增强BBA与cDNA链退火的稳定性。
本发明第二方面提供了所述的平衡接头在构建转录组文库中的应用。
本发明第三方面提供了一种快速构建转录组文库的方法,包括采用所述的带有分子条码的平衡接头进行构建。
在本发明的一种优选实施方式中,转录组文库构建方法包括以下步骤:
(1)mRNA的分离和片段化;
(2)反转录合成cDNA第一链及加所述的平衡接头;
(3)文库PCR扩增;
(4)文库质检;
(5)上机测序。
步骤(1)中,优选在mRNA片段化之前加入单链内参标准品RNA。例如可以加入5-130条单链内参标准品RNA。
进一步,所述内参标准品RNA的加入量为mRNA总量的0.5-2%;
进一步,所述内参标准品RNA的GC含量为40-60%。
进一步,所述内参标准品RNA的长度为几十到几千个碱基,优选几百到几千个碱基;更优选为500-5000个;最优选600-2000个。
在本发明的一种优选实施方式中,步骤(1)包括如下操作过程:将质检合格的总RNA样本中加入内参标准品,从总RNA中分离出mRNA和内参标准品,将mRNA和内参标准品片段化(例如采用高温金属离子打断法),片段化的RNA可以无需纯化直接用于反转录;mRNA和内参标准品RNA可以用商品化的oligodT磁珠分离纯化试剂盒从总RNA中分离纯化。内参标准品RNA能评估测序数据质量使测序数据标准化。
进一步,在步骤(1)中的mRNA进行片段化之前加入随机接头(Random adapter),在片段化的温度下(例如85℃,6min,金属镁离子存在的条件下),mRNA被随机打断并与随机接头完成退火。
随机接头从5’端到3’端依次为一段通用接头序列和一段随机序列(几个至几十个随机碱基N)。
在本发明的一种优选实施方式中,通用接头序列为Illumina文库PCR引物识别序列;随机序列为6个随机碱基N,N为四种碱基A、T、C、G中的任意一种。
在一种优选实施方式中,随机接头的核苷酸序列如SEQ ID NO.3所示:5’-AGACGTGTGCTCTTCCGATCTNNNNNN-3’。
进一步,所述内参标准品RNA为5-130条单链RNA按照不同分子拷贝数比例混合而成。
在本发明的一种优选实施方式中,所述内参标准品RNA为9条大小分别为:5条1823nt、4条623nt的单链RNA(优选带有20nt polyA尾巴),按不同分子拷贝数比例混合而成。
进一步,内参标准品RNA的制备方法大致包括如下过程:以构建人的转录组文库为例,选择进化上低等,与待测样本的亲缘关系较远的DNA(如病毒和细菌的DNA)为模板;设计引物PCR扩增出多条(例如5-130条)产物,且保证产物的GC含量在40-60%之间,长度在几十到几千个碱基之间;最后再体外转录为相应条数的单链RNA;将不同的单链RNA按不同分子拷贝数比例混合得到内参标准品RNA。
在本发明的一种优选实施方式中,内参标准品RNA的制备过程如下:以非甲基化的lambda DNA(GenBank-EMBL Accession Number:J02459)作为模板,设计9对引物,PCR扩增得到5条大小为1840bp的产物,4条大小为640bp的产物。其中,5条1840bp产物的GC含量分别:P1840-1为49%、P1840-2为48%、P1840-3为49%、P1840-4为57%、P1840-5为58%,4条640bp产物的GC含量分别为:P640-1为52%、P640-2为41%、P640-3为59%、P640-4为56%。
再以9条PCR扩增DNA产物作为模板体外转录得到9条大小分别为:5条1823nt、4条623nt的带有20nt polyA尾巴的单链RNA。分别命名为P1823-1、P1823-2、P1823-3、P1823-4、P1823-5、P623-1、P623-2、P623-3、P623-4。最后,将P623-1、P623-2、P623-3、P623-4、P1823-1、P1823-2、P1823-3、P1823-4、P1823-5九条单链RNA依次按照9个不同的分子拷贝数比例106、107、108、109、1010、1011、1012、1013、1014混合成内参标准品RNA。
本发明的内参标准品RNA在设计时,选取5条长度为1823nt、4条长度为623nt分别带有20nt PolyA的RNA,GC含量为41%-59%。因此,可以针对由于不同长度、不同GC含量的RNA样本,在上述实验平台、实验方法选择、实验操作手法、分析方法等方面产生的数据结果偏差进行标准化校正。
在转录组文库构建过程中加入内参标准品RNA,由于加入的内参标准品RNA的拷贝数是已知的,理论上来说,经过转录组文库构建后进行数据检测,则其数据应该是已知的。但实际操作过程中,由于人为操作因素,或添加的试剂,或仪器等因素造成的误差,会使获得的关于内参标准品的数据是有偏差的,由此可以根据内参标准品的偏差数据与理论值数据作对比,推测构建的转录组文库的数据是否有偏差而进行校正。
此外,选择不同的测序平台、不同测序平台固有的技术缺陷、选择不同的实验方法、不同的实验条件、实验操作的偏差、数据分析方法的选择、对不同测序平台测序方法产生的大数据进行整合时,都会对RNA-seq产生的数据结果的准确性产生影响,从而直接影响后续分析的可靠性。此时,可以针对由于不同长度、不同GC含量的内参RNA标准品样本,在上述实验平台、实验方法选择、实验操作手法、分析方法等方面产生的数据结果偏差进行标准化校正。
步骤(2)中,加入所述的带有分子条码的平衡接头。
在本发明的一种优选实施方式中,步骤(2)包括如下操作过程:随机接头与片段化的RNA退火后,反转录酶以片段化的mRNA为模板合成cDNA第一链。由于该反转录酶具有末端转移酶和模板转换活性,当到达片段化mRNA的5’末端时,反转录酶通过末端转移酶活性,可以在合成的cDNA第一链3’末端加上3到4个胞嘧啶(C)和/或鸟嘌呤(G),在上述BBA存在下可以与平衡接头3’末端4个S简并碱基退火,反转录酶随后转换模板以BBA为模板继续延伸从而引入BBA互补的序列。
通过上述步骤(2),合成的cDNA第一链两端分别带有Illumina文库PCR引物的识别序列。用Agencourt AMPure Beads(Beckman Coulter)按照插入片段大小250-350nt进行片段大小筛选。
步骤(3)中,文库PCR扩增需要加入通用引物(Universal Primer)和Index引物(Index Primer)。
在一种优选实施方式中,通用引物的核苷酸序列如SEQ ID NO.4所示:5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCG ATC-s-T-3’。(-s-代表硫代)
在一种优选实施方式中,Index引物的核苷酸序列如SEQ ID NO.5所示:5’-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGT GCTCTTCCGATC-s-T-3’。(N代表Index碱基;-s-代表硫代)
在上述两种优选的实施方式中,PCR扩增过程中通用引物和Index引物能够识别和结合cDNA两端接头上的PCR引物识别序列。通用引物和Index引物3’末端的硫代修饰可以减少PCR过程中引物二聚体的生成。
在本发明一种优选实施方式中,以反转录获得的cDNA第一链为模板,用通用引物和Index引物在反应体系下介导PCR扩增反应,再进行扩增产物纯化。
在本发明一种优选实施方式中,步骤(4)和(5)中,对富集到的测序文库进行片段大小分布检测(例如使用安捷伦2100对文库片段大小分布检测)和用Qubit对文库定量,然后进行高通量测序。
本发明提供的转录组文库构建方法,在获取mRNA片段化以后,直接合成cDNA第一链并加平衡接头,再以带有接头的cDNA第一链作为模板进行PCR扩增,获得具有链特异性的转录组文库。与常规的链特异性转录组建库相比,无需在经过cDNA第二链合成、dUTP引入、末端修复、加A尾、加接头、dUTP消化过程,克服了步骤繁多耗时长等缺点。此外,本发明转录组文库构建方法中,只PCR扩增cDNA第一链,获得的是具有链特异性的文库,文库中的序列信息具有方向性。
本发明第四方面提供了一种构建转录组文库的试剂,包括所述的带有分子条码的平衡接头,和/或,所述的内参标准品RNA。
需要说明的是,所述试剂可以分为3种情况:(1)只包括带有分子条码的平衡接头;(2)只包括内参标准品RNA;(3)包括带有分子条码的平衡接头和内参标准品RNA。除此之外,所述试剂还包括本领域技术人员已知的一些其他必备试剂,如缓冲液等。
本发明第五方面提供了一种构建转录组文库的试剂盒,包括所述的带有分子条码的平衡接头,和/或,所述的内参标准品RNA;或所述的试剂。
需要说明的是,所述试剂盒可以分为4种情况:(1)只包括带有分子条码的平衡接头;(2)只包括内参标准品RNA;(3)包括带有分子条码的平衡接头和内参标准品RNA;(3)只包括所述的试剂。除此之外,所述试剂盒还包括本领域技术人员已知的构建转录组文库需要的材料,如缓冲液等。
在本发明一种优选的实施方式中,所述的试剂盒,包括所述的平衡接头,所述的内参标准品RNA,以及构建转录组文库需要的材料(例如通用引物、随机引物、酶及缓冲液等)。
本发明第六方面提供了一种数据分析方法,包括以下步骤:
(1)根据平衡接头的核苷酸序列(优选分子条码序列,末端碱基和/或中间碱基序列),区分检测序列与测序文库构建中的污染源,允许最大错配比例为0.2(错配碱基数/总随机碱基数),去除不含有分子条码序列的测序序列;
(2)根据平衡接头序列和连接的30-60bp序列作为待检测RNA分子片段的标签特征,进行聚类,允许1/30的最大错配比例;
(3)聚类相同的RNA分子,若连接的平衡接头的核苷酸序列(优选分子条码序列,末端碱基和/或中间碱基序列)的差异小于0.2,即判断为在上机文库构建过程中的PCR扩增产物,仅保留一条记录;
(4)从测序结果中去除首末两端接头中的随机序列;
(5)测序数据与参考基因组及内参序列进行比对,使用软件对不同比较组样本进行总量均一化,并对样本差异基因进行过滤。
具体的,在本发明一种优选地实施方式中,所述转录组文库进行数据分析,具体分析过程如下:
(1)根据平衡接头BBA序列中,SEQ ID NO.1与SEQ ID NO.2的特征随机序列,区分检测序列与测序文库构建的中的污染源,允许对大错配比例为0.2(错配碱基数/总随机碱基数),去除不含有特征随机序列的测序序列;
(2)根据BBA连接的30~60bp序列作为待检测RNA分子片段的标签特征,进行聚类,允许1/30的最大错配比例;
(3)相同起始区域聚类在一起的RNA分子,如果连接的BBA的特征随机序列的差异小于0.2,即判断为在上机文库构建过程中的PCR扩增产物,仅保留一条记录;
(4)从测序结果中去除首末两端接头中的随机序列;
(5)测序数据与参考基因组及内参序列进行比对;
(6)应用R软件包中的RUVSeq以及edgeR对不同比较组样本进行总量均一化,并对样本差异基因进行过滤。
本发明采用上述技术方案具有以下有益效果:
(1)本发明提供的带有分子条码的平衡接头,能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题,以及测数据中由于引物二聚体、非特异性退火片段引进的污染问题,从而实现对转录本的精确定量。
(2)本发明提供的带有分子条码的平衡接头,跟mRNA片段化后再利用SMART技术直接在合成的一链cDNA两端加Illumina测序接头构建转录组文库且包Lane测序相比,能够解决碱基种类不平衡造成测序质量太差的问题,无需另外加入平衡文库,节约测序成本增加数据产出量。
(3)本发明提供的转录组文库构建方法,在获取mRNA片段化以后,直接合成cDNA第一链并加平衡接头,再以带有接头的cDNA第一链作为模板进行PCR扩增,获得具有链特异性的转录组文库。与常规的链特异性转录组建库相比,无需在经过cDNA第二链合成、dUTP引入、末端修复、加A尾、加接头、dUTP消化过程,简化了步骤,极大程度缩短了转录组建库反应时间;而且只PCR扩增cDNA第一链,获得的是具有链特异性的文库,文库中的序列信息具有方向性。
(4)本发明在转录组文库建库时添加了内参标准品RNA,能够针对于不同的测序平台、不同测序平台固有的技术缺陷、不同的实验方法、不同的实验条件、实验操作手法、数据分析方法的选择、以及对不同测序平台产生的大数据进行整合时产生的数据结果造成的偏差进行标准化校正,从而保证后续分析的可靠性。
附图说明
图1所示为本发明转录组文件构建的流程示意图。
图2所示为本发明实施例2构建的转录组文库的质检图谱。
图3所示为对比例采用普通的RNA-seq文库流程构建的转录组文库的质检图谱。
图4所示为本发明实施例2的数据分析流程图。
图5所示为本发明实施例2和对比例的测序质量比对结果图。
图6所示为本发明实施例2和对比例的反应测序文库的序列冗余性结果图。
具体实施方式
除非另有定义,本发明中所使用的所有科学和技术术语具有与本发明涉及技术领域的技术人员通常理解的相同的含义。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
下面结合具体实施例详细描述本发明,这些实施例用于理解而不是限制本发明。
术语“cDNA”是指通过逆转录酶的作用由RNA逆转录的合成DNA。cDNA通常指单链,但也可以是双链的,其中一条链具有与RNA序列的一部分基本相同的序列并且第二链是其互补体。
术语“第一链合成”可以是指使用原始核酸(例如RNA)作为用于聚合酶反应的起始模板的第一链的合成。第一链的核苷酸序列相当于与起始模板互补的序列。例如,在使用RNA作为起始模板和逆转录酶(例如RNA依赖性DNA聚合酶)的第一链合成中,所得的第一链(例如第一链cDNA)相当于RNA模板的互补序列。
术语“第一链cDNA”是指通过第一链合成而合成的cDNA链。第一链cDNA的序列与第一链合成的起始模板互补。
术语“引物”或“寡核苷酸”是指通过与靶标或模板杂交而与靶寡核苷酸、靶多核苷酸、或模板多核苷酸结合的通常具有游离3’-OH基团的短的多核苷酸。
术语“接头”是指可以与目标靶多核苷酸或靶多核苷酸链退火并且能够生成目标靶多核苷酸或靶多核苷酸链的扩增产物的已知序列的寡核苷酸。适合的接头包括包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个碱基或更长的单链突出端的双链核酸(DNA或RNA)分子。接头的双链DNA部分还可以包含设计为标记目标样品或序列的指示或条码序列。
术语“逆转录”是指将RNA分子的核苷酸序列拷贝为DNA分子的过程。可以通过使RNA模板与RNA依赖性DNA聚合酶(也被称为逆转录酶)在公知条件下反应来进行逆转录。逆转录酶是将单链RNA转录为单链DNA的DNA聚合酶。
在核苷酸序列的上下文中,术语“随机”是指当与在一群多核苷酸中的其他随机核苷酸序列组合时表示对于给定长度的核苷酸来说全部或基本上全部可能的核苷酸组合的核苷酸的变化的序列。
术语“Duplication”是指测序数据中reads的重复。引起Duplication的主要原因是在测序中有PCR过程,来源于同一个DNA片段PCR的产物被重复测序,就会产生duplication。次要原因是正巧两个插入片段的头和尾的位置完全一致。
下述实施例所使用的平衡接头、随机接头和引物序列如表1所示,N为随机碱基,即A、T、C、G中任意一种碱基;S为C、G中的任意一种碱基;W为A、T中的任意一种碱基;r表示核糖核甘酸;Index引物中的N代表Index碱基;-s-代表硫代。
表1
Figure BDA0002577340510000081
实施例1制备内参标准品RNA
(1)以非甲基化的lambda DNA(GenBank-EMBL Accession Number:J02459)作为模板,设计9对引物。
下述实施例所使用的引物序列如表2所示,F代表PCR正向引物,R代表PCR反向引物。正向引物5’端序列下划线部分为T7启动子序列以及启动子序列后面加的3个G。反向引物5’端序列下划线部分为20个polyT。
表2
Figure BDA0002577340510000091
(2)PCR扩增得到5条大小为1840bp的产物,4条大小为640bp的产物。其中,5条1840bp产物的GC含量分别:P1840-1为49%、P1840-2为48%、P1840-3为49%、P1840-4为57%、P1840-5为58%,4条640bp产物的GC含量分别为:P640-1为52%、P640-2为41%、P640-3为59%、P640-4为56%。
(3)再以9条PCR扩增DNA产物作为模板用体外转录试剂盒T7 High YieldTranscription Kit(Vazyme TR101)得到9条大小分别为:5条1823nt、4条623nt的带有20ntpolyA尾巴的RNA,分别命名为P1823-1、P1823-2、P1823-3、P1823-4、P1823-5、P623-1、P623-2、P623-3、P623-4,核苷酸序列分别如SEQ ID NO.24-SEQ ID NO.32所示。
(4)最后,将P623-1、P623-2、P623-3、P623-4、P1823-1、P1823-2、P1823-3、P1823-4、P1823-5 9条单链RNA依次按照9个不同的分子拷贝数比例106、107、108、109、1010、1011、1012、1013、1014混合成内参标准品RNA。
实施例2转录组文库构建
一、mRNA片段化
(1)取0.1μg来自小鼠C2C12细胞系提取的总RNA,加入实施例1制备得到的内参标准品RNA(加入量为mRNA总量的1%,mRNA量按照总RNA总量的2%计算),用
Figure BDA0002577340510000092
mRNACapture Beads捕获mRNA,获取样本10ul。
(2)将上一步得到的mRNA按下表3,在0.2ml的PCR管中配制片段化反应体系:
表3
Figure BDA0002577340510000101
然后将PCR管放到PCR仪器里,85℃保温6min,4℃保存。
二、反转录合成cDNA以及加接头
(1)在上述17μL mRNA片段样本中加入下表4中的成分:
表4
Figure BDA0002577340510000102
表4中的BBA由长短相差4bp的两种BBA-L和BBA-S按照相同摩尔比例混合。
(2)用移液器轻轻混匀避免气泡产生,离心。将PCR管放入PCR仪器里按下表5的条件设置反应程序。
表5
Figure BDA0002577340510000103
(3)cDNA片段大小选择(片段大小为250-350nt)
a.将Agencourt AMPure XP Beads(Beckman Coulter)提前30min从2-8℃取出,静置使其温度平衡至室温。
b.颠倒或涡旋振荡使Agencourt AMPure XP Beads充分混匀,吸取40μL(1×)加入到上步产物中,使用移液器轻轻吸打10次充分混匀,室温孵育10min,使DNA结合到磁珠上。
c.将样品置于磁力架上,待溶液澄清后(约5min),小心移除上清。
d.保持样品始终处于磁力架上,加入200μL新鲜配制的80%乙醇漂洗磁珠,室温下孵育30sec,去除上清。
e.重复步骤d一次
f.保持样品始终处于磁力架上,在室温下开盖干燥磁珠约5-10min。
g.将样品从磁力架上取出,加入102.5μL Nuclease-free H2O,使用移液器轻轻吸打充分混匀,室温静置2min后置于磁力架上,待溶液澄清后(约5min),小心吸取100μL上清至一个新的Nuclease-free PCR管中。
h.颠倒或涡旋振荡使Agencourt AMPure XP Beads充分混匀,吸取65μL加入到上步100μL产物中,使用移液器轻轻吸打10次充分混匀,室温孵育10min,使DNA结合到磁珠上。
i.将样品置于磁力架上,待溶液澄清后(约5min),保持样品始终处于磁力架上,吸取155μL上清至一个新的Nuclease-free PCR管中。
g.加入10μL Agencourt AMPure XP Beads,使用移液器轻轻吸打10次充分混匀,室温孵育10min,使DNA结合到磁珠上。
k.将样品置于磁力架上,待溶液澄清后(约5min),小心移除上清。
l.保持样品始终处于磁力架上,加入200μL新鲜配制的80%乙醇漂洗磁珠,室温孵育30sec,小心移除上清。
m.重复步骤l一次。
n.保持样品始终处于磁力架上,在室温下干燥磁珠约5-10min。
o.将样品从磁力架上取出,加入22.5μL Nuclease-free H2O,涡旋振荡或使用移液器轻轻吸打充分混匀,室温静置2min置于磁力架上,待溶液澄清后(约5min),小心吸取20μL上清至一个新的Nuclease-free PCR管中。
三、文库PCR扩增
(1)将步骤二获得的cDNA产物进行PCR扩增,按如下表6的组分配置反应体系:
表6
Figure BDA0002577340510000111
Figure BDA0002577340510000121
用移液器轻轻混匀避免气泡产生,离心。
(2)在PCR仪中运行如表7下程序,进行cDNA产物扩增.
表7
Figure BDA0002577340510000122
(3)PCR产物纯化:
a.将Agencourt AMPure XP Beads(Beckman Coulter)提前30min从2-8℃取出,静置使其温度平衡至室温
b.颠倒或涡旋振荡使Agencourt AMPure XP Beads充分混匀,吸取50μL(1×)加入到PCR产物中,使用移液器轻轻吸打10次充分混匀,室温孵育10min,使DNA结合到磁珠上。
c.将样品置于磁力架上,待溶液澄清后(约5min),小心移除上清。
d.保持样品始终处于磁力架上,加入200μl新鲜配制的80%乙醇漂洗磁珠,室温下孵育30sec,去除上清。
e.重复步骤d一次
f.保持样品始终处于磁力架上,在室温下开盖干燥磁珠约5-10min。
g.将样品从磁力架上取出,加入22.5μL Nuclease-free H2O,使用移液器轻轻吸打充分混匀,室温静置2min后置于磁力架上,待溶液澄清后(约5min),小心吸取21μL上清至一个新的Nuclease-free PCR管中。
四、文库质检使用Agilent Bioanalyzer 2100analysis system(Agilent,SantaClara,USA)和相应的检测试剂盒High Sensitivity DNA Kit(Agilent)对文库的片段大小分布进行检测,详细操作根据试剂盒的使用说明书,检测结果如图2所示。
图2为文库Agilent Bioanalyzer 2100片段分布的检测结果。从图2可以看出,文库的片段分布从250bp到750bp,主要集中在479bp左右,成正态分布,符合illumina测序平台PE150测序策略。
使用Qubit fluorometer(Invitrogen)仪器和相应的检测试剂盒QubitTM dsDNAHS Assay Kit(Invitrogen)精确检测文库的质量浓度,详细操作根据试剂盒的使用说明书。用Qubit检测文库质量浓度为5.66ng/ul,符合illumina测序平台上机测序的文库浓度不低于1ng/μL的要求。
对比例
与实施例2的区别,采用普通的RNA-seq文库流程,即不加入BBA,需要加入平衡文库。取0.1μg来自小鼠C2C12细胞系提取的总RNA,加入实施例1制备得到的内参标准品RNA(加入量为mRNA总量的1%,mRNA量按照总RNA总量的2%计算),用
Figure BDA0002577340510000131
mRNA CaptureBeads捕获mRNA,获取样本8ul。样本建库使用SMARTer Stranded RNA-Seq Kits(Takara)详细操作过程根据试剂盒的使用说明书(平衡文库的加入量参照说明书)。文库质检操作方法同实施例2,文库Agilent Bioanalyzer 2100片段分布的检测结果如图3所示。
图3为文库Agilent Bioanalyzer 2100片段分布的检测结果。从图3可以看出,对比例构建的文库的片段分布从250bp到750bp,主要集中在460bp左右,成正态分布,符合illumina测序平台PE150测序策略。用Qubit检测文库质量浓度为3.96ng/ul,符合illumina测序平台上机测序的文库浓度不低于1ng/μL的要求。
数据分析结果
针对实施例2获得的转录组文库进行数据分析,参照图4中的数据分析流程图,具体分析过程如下:
(1)根据平衡接头BBA序列中,SEQ ID NO.1与SEQ ID NO.2的特征随机序列,区分检测序列与测序文库构建的中的污染源,允许对大错配比例为0.2(错配碱基数/总随机碱基数),去除不含有特征随机序列的测序序列;
(2)根据BBA连接的30~60bp序列作为待检测RNA分子片段的标签特征,进行聚类,允许1/30的最大错配比例;
(3)相同起始区域聚类在一起的RNA分子,如果连接的BBA的特征随机序列的差异小于0.2,即判断为在上机文库构建过程中的PCR扩增产物,仅保留一条记录;
(4)从测序结果中去除首末两端接头中的随机序列;
(5)测序数据与参考基因组及内参序列进行比对;
(6)应用R软件包中的RUVSeq以及edgeR对不同比较组样本进行总量均一化,并对样本差异基因进行过滤。
针对对比例获得的转录组文库进行数据分析,采用本领域常规的文库数据分析方法进行分析。再对比实施例2和对比例中的数据分析结果。去除测序引物后,质量评估结果中,BBA接头序列可以平衡测序起始部分的质量,对比常规文库构建需要添加平衡文库的数据。
从图5可以看出:数据初始质量控制,去除低质量及相应接头序列,与未考虑平衡序列的普通RNA-seq文库的测序结果相比,引入BBA标签的文库的测序起始端的测序质量明显较高。应用BBA平衡序列可减少测序过程中平衡文库DNA的加入量。从图6可以看出:以UID标签中平衡接头序列特征进行识别,区分文库构建及测序过程中潜在污染序列。此处,UID标签指的是加入的BBA中的6个随机碱基N的分子条码序列。
解析UID的序列,将带有相似度极高UID序列的reads作为同一个RNA片段分子多个建库测序拷贝;仅保留一条最长reads记录作为代表序列结果;在细胞文库构建过程中,由于基因表达种类较组织测序结果中的少,因此对于未带有UID标签的文库测序结果,去除PCR duplication会导致多数RNA片段在最终计算过程中的损失,而加入UID标签后,超过90%的序列可以被识别为有效表达数目,片段的表达数目估计更为准确。将去除UID标签的序列比对到基因组及内参序列上,计算表达量及矫正差异基因结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的保护范围之内。
序列表
<110> 中国农业科学院农业基因组研究所
<120> 带有分子条码的平衡接头及快速构建转录组文库的方法
<160> 32
<170> PatentIn version 3.5
<210> 1
<211> 36
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (23)..(28)
<223> n is a, c, g, or t
<400> 1
ctacacgacg ctcttccgat ctnnnnnnww wwrsrsrss 36
<210> 2
<211> 32
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (23)..(28)
<223> n is a, c, g, or t
<400> 2
ctacacgacg ctcttccgat ctnnnnnnrs rsrss 32
<210> 3
<211> 27
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (22)..(27)
<223> n is a, c, g, or t
<400> 3
agacgtgtgc tcttccgatc tnnnnnn 27
<210> 4
<211> 58
<212> DNA
<213> 人工序列
<400> 4
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcst 58
<210> 5
<211> 66
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<222> (25)..(32)
<223> n is a, c, g, or t
<400> 5
caagcagaag acggcatacg agatnnnnnn nngtgactgg agttcagacg tgtgctcttc 60
cgatcst 66
<210> 6
<211> 40
<212> DNA
<213> 人工序列
<400> 6
taatacgact cactataggg gaagcagaac cggatcacca 40
<210> 7
<211> 40
<212> DNA
<213> 人工序列
<400> 7
tttttttttt tttttttttt tcaaaacaaa ccggcagcag 40
<210> 8
<211> 40
<212> DNA
<213> 人工序列
<400> 8
taatacgact cactataggg tcgttagttt ctccggtggc 40
<210> 9
<211> 40
<212> DNA
<213> 人工序列
<400> 9
tttttttttt tttttttttt gacgcgatac ggaacgagat 40
<210> 10
<211> 40
<212> DNA
<213> 人工序列
<400> 10
taatacgact cactataggg tcccgttcat ccagcagttc 40
<210> 11
<211> 40
<212> DNA
<213> 人工序列
<400> 11
tttttttttt tttttttttt gaaacagaaa gccgcagagc 40
<210> 12
<211> 40
<212> DNA
<213> 人工序列
<400> 12
taatacgact cactataggg cctgttcgat gctgccattg 40
<210> 13
<211> 40
<212> DNA
<213> 人工序列
<400> 13
tttttttttt tttttttttt taccgtgctg cgatcttctg 40
<210> 14
<211> 40
<212> DNA
<213> 人工序列
<400> 14
taatacgact cactataggg taaaaccggt atgggcgctt 40
<210> 15
<211> 40
<212> DNA
<213> 人工序列
<400> 15
tttttttttt tttttttttt cgggtcatac gtggacttgt 40
<210> 16
<211> 40
<212> DNA
<213> 人工序列
<400> 16
taatacgact cactataggg ttcattcgcc aaaaagcccg 40
<210> 17
<211> 40
<212> DNA
<213> 人工序列
<400> 17
tttttttttt tttttttttt gctaacgtgt gaccgcattc 40
<210> 18
<211> 40
<212> DNA
<213> 人工序列
<400> 18
taatacgact cactataggg cagtggtcgt agcagtcgtt 40
<210> 19
<211> 40
<212> DNA
<213> 人工序列
<400> 19
tttttttttt tttttttttt tcttcacagc gatgccagag 40
<210> 20
<211> 40
<212> DNA
<213> 人工序列
<400> 20
taatacgact cactataggg aacggatggc gctgtttttc 40
<210> 21
<211> 40
<212> DNA
<213> 人工序列
<400> 21
tttttttttt tttttttttt tgtaacagtc cgtcacaccg 40
<210> 22
<211> 40
<212> DNA
<213> 人工序列
<400> 22
taatacgact cactataggg ggtatgccga aagggatgct 40
<210> 23
<211> 40
<212> DNA
<213> 人工序列
<400> 23
tttttttttt tttttttttt caccacattc acctcacgga 40
<210> 24
<211> 1823
<212> RNA
<213> 内参RNA
<400> 24
ggggaagcag aaccggauca ccaaaugcgu acaggcguca ucgccgccca gcaacagcac 60
aacccaaacu gagccguagc cacugucugu ccugaauuca uuaguaauag uuacgcugcg 120
gccuuuuaca caugaccuuc gugaaagcgg guggcaggag gucgcgcuaa caaccuccug 180
ccguuuugcc cgugcauauc ggucacgaac aaaucugauu acuaaacaca guagccugga 240
uuuguucuau caguaaucga ccuuauuccu aauuaaauag agcaaauccc cuuauugggg 300
guaagacaug aagaugccag aaaaacauga ccuguuggcc gccauucucg cggcaaagga 360
acaaggcauc ggggcaaucc uugcguuugc aauggcguac cuucgcggca gauauaaugg 420
cggugcguuu acaaaaacag uaaucgacgc aacgaugugc gccauuaucg ccugguucau 480
ucgugaccuu cucgacuucg ccggacuaag uagcaaucuc gcuuauauaa cgagcguguu 540
uaucggcuac aucgguacug acucgauugg uucgcuuauc aaacgcuucg cugcuaaaaa 600
agccggagua gaagauggua gaaaucaaua aucaacguaa ggcguuccuc gauaugcugg 660
cguggucgga gggaacugau aacggacguc agaaaaccag aaaucauggu uaugacguca 720
uuguaggcgg agagcuauuu acugauuacu ccgaucaccc ucgcaaacuu gucacgcuaa 780
acccaaaacu caaaucaaca ggcgccggac gcuaccagcu ucuuucccgu uggugggaug 840
ccuaccgcaa gcagcuuggc cugaaagacu ucucuccgaa aagucaggac gcuguggcau 900
ugcagcagau uaaggagcgu ggcgcuuuac cuaugauuga ucguggugau auccgucagg 960
caaucgaccg uugcagcaau aucugggcuu cacugccggg cgcugguuau ggucaguucg 1020
agcauaaggc ugacagccug auugcaaaau ucaaagaagc gggcggaacg gucagagaga 1080
uugauguaug agcagaguca ccgcgauuau cuccgcucug guuaucugca ucaucgucug 1140
ccugucaugg gcuguuaauc auuaccguga uaacgccauu accuacaaag cccagcgcga 1200
caaaaaugcc agagaacuga agcuggcgaa cgcggcaauu acugacaugc agaugcguca 1260
gcgugauguu gcugcgcucg augcaaaaua cacgaaggag uuagcugaug cuaaagcuga 1320
aaaugaugcu cugcgugaug auguugccgc uggucgucgu cgguugcaca ucaaagcagu 1380
cugucaguca gugcgugaag ccaccaccgc cuccggcgug gauaaugcag ccuccccccg 1440
acuggcagac accgcugaac gggauuauuu cacccucaga gagaggcuga ucacuaugca 1500
aaaacaacug gaaggaaccc agaaguauau uaaugagcag ugcagauaga guugcccaua 1560
ucgaugggca acucaugcaa uuauugugag caauacacac gcgcuuccag cggaguauaa 1620
augccuaaag uaauaaaacc gagcaaucca uuuacgaaug uuugcugggu uucuguuuua 1680
acaacauuuu cugcgccgcc acaaauuuug gcugcaucga caguuuucuu cugcccaauu 1740
ccagaaacga agaaaugaug ggugaugguu uccuuuggug cuacugcugc cgguuuguuu 1800
ugaaaaaaaa aaaaaaaaaa aaa 1823
<210> 25
<211> 1823
<212> RNA
<213> 内参RNA
<400> 25
gggucguuag uuucuccggu ggcaggacgu cagcauauuu gcucuggcua auggagcaaa 60
agcgacgggc agguaaagac gugcauuacg uuuucaugga uacagguugu gaacauccaa 120
ugacauaucg guuugucagg gaaguuguga aguucuggga uauaccgcuc accguauugc 180
agguugauau caacccggag cuuggacagc caaaugguua uacgguaugg gaaccaaagg 240
auauucagac gcgaaugccu guucugaagc cauuuaucga uaugguaaag aaauauggca 300
cuccauacgu cggcggcgcg uucugcacug acagauuaaa acucguuccc uucaccaaau 360
acugugauga ccauuucggg cgagggaauu acaccacgug gauuggcauc agagcugaug 420
aaccgaagcg gcuaaagcca aagccuggaa ucagauaucu ugcugaacug ucagacuuug 480
agaaggaaga uauccucgca ugguggaagc aacaaccauu cgauuugcaa auaccggaac 540
aucucgguaa cugcauauuc ugcauuaaaa aaucaacgca aaaaaucgga cuugccugca 600
aagaugagga gggauugcag cguguuuuua augaggucau cacgggaucc caugugcgug 660
acggacaucg ggaaacgcca aaggagauua uguaccgagg aagaaugucg cuggacggua 720
ucgcgaaaau guauucagaa aaugauuauc aagcccugua ucaggacaug guacgagcua 780
aaagauucga uaccggcucu uguucugagu caugcgaaau auuuggaggg cagcuugauu 840
ucgacuucgg gagggaagcu gcaugaugcg auguuaucgg ugcggugaau gcaaagaaga 900
uaaccgcuuc cgaccaaauc aaccuuacug gaaucgaugg ugucuccggu gugaaagaac 960
accaacaggg guguuaccac uaccgcagga aaaggaggac guguggcgag acagcgacga 1020
aguaucaccg acauaaucug cgaaaacugc aaauaccuuc caacgaaacg caccagaaau 1080
aaacccaagc caaucccaaa agaaucugac guaaaaaccu ucaacuacac ggcucaccug 1140
ugggauaucc gguggcuaag acgucgugcg aggaaaacaa ggugauugac caaaaucgaa 1200
guuacgaaca agaaagcguc gagcgagcuu uaacgugcgc uaacugcggu cagaagcugc 1260
augugcugga aguucacgug ugugagcacu gcugcgcaga acugaugagc gauccgaaua 1320
gcucgaugca cgaggaagaa gaugauggcu aaaccagcgc gaagacgaug uaaaaacgau 1380
gaaugccggg aaugguuuca cccugcauuc gcuaaucagu gguggugcuc uccagagugu 1440
ggaaccaaga uagcacucga acgacgaagu aaagaacgcg aaaaagcgga aaaagcagca 1500
gagaagaaac gacgacgaga ggagcagaaa cagaaagaua aacuuaagau ucgaaaacuc 1560
gccuuaaagc cccgcaguua cuggauuaaa caagcccaac aagccguaaa cgccuucauc 1620
agagaaagag accgcgacuu accauguauc ucgugcggaa cgcucacguc ugcucagugg 1680
gaugccggac auuaccggac aacugcugcg gcaccucaac uccgauuuaa ugaacgcaau 1740
auucacaagc aaugcguggu gugcaaccag cacaaaagcg gaaaucucgu uccguaucgc 1800
gucaaaaaaa aaaaaaaaaa aaa 1823
<210> 26
<211> 1823
<212> RNA
<213> 内参RNA
<400> 26
gggucccguu cauccagcag uuccagcaca aucgauggug uuaccaauuc auggaaaagg 60
ucugcgucaa auccccaguc gucaugcauu gccugcucug ccgcuucacg cagugccuga 120
gaguuaauuu cgcucacuuc gaaccucucu guuuacugau aaguuccaga uccuccuggc 180
aacuugcaca aguccgacaa cccugaacga ccaggcgucu ucguucaucu aucggaucgc 240
cacacucaca acaaugagug gcagauauag ccuggugguu caggcggcgc auuuuuauug 300
cuguguugcg cuguaauucu ucuauuucug augcugaauc aaugaugucu gccaucuuuc 360
auuaaucccu gaacuguugg uuaauacgcu ugagggugaa ugcgaauaau aaaaaaggag 420
ccuguagcuc ccugaugauu uugcuuuuca uguucaucgu uccuuaaaga cgccguuuaa 480
caugccgauu gccaggcuua aaugagucgg ugugaauccc aucagcguua ccguuucgcg 540
gugcuucuuc aguacgcuac ggcaaauguc aucgacguuu uuauccggaa acugcugucu 600
ggcuuuuuuu gauuucagaa uuagccugac gggcaaugcu gcgaagggcg uuuuccugcu 660
gaggugucau ugaacaaguc ccaugucggc aagcauaagc acacagaaua ugaagcccgc 720
ugccagaaaa augcauuccg ugguugucau accugguuuc ucucaucugc uucugcuuuc 780
gccaccauca uuuccagcuu uugugaaagg gaugcggcua acguaugaaa uucuucgucu 840
guuucuacug guauuggcac aaaccugauu ccaauuugag caaggcuaug ugccaucucg 900
auacucguuc uuaacucaac agaagaugcu uugugcauac agccccucgu uuauuauuua 960
ucuccucagc cagccgcugu gcuuucagug gauuucggau aacagaaagg ccgggaaaua 1020
cccagccucg cuuuguaacg gaguagacga aagugauugc gccuacccgg auauuaucgu 1080
gaggaugcgu caucgccauu gcuccccaaa uacaaaacca auuucagcca gugccucguc 1140
cauuuuuucg augaacuccg gcacgaucuc gucaaaacuc gccauguacu uuucaucccg 1200
cucaaucacg acauaaugca ggccuucacg cuucauacgc gggucauagu uggcaaagua 1260
ccaggcauuu uuucgcguca cccacaugcu guacugcacc ugggccaugu aagcugacuu 1320
uauggccucg aaaccaccga gccggaacuu caugaaaucc cgggagguaa acgggcauuu 1380
caguucaagg ccguugccgu cacugcauaa accaucggga gagcaggcgg uacgcauacu 1440
uucgucgcga uagaugaucg gggauucagu aacauucacg ccggaaguga auucaaacag 1500
gguucuggcg ucguucucgu acuguuuucc ccaggccagu gcuuuagcgu uaacuuccgg 1560
agccacaccg gugcaaaccu cagcaagcag gguguggaag uaggacauuu ucaugucagg 1620
ccacuucuuu ccggagcggg guuuugcuau cacguuguga acuucugaag cggugaugac 1680
gccgagccgu aauuugugcc acgcaucauc ccccuguucg acagcucuca caucgauccc 1740
gguacgcugc aggauaaugu ccggugucau gcugccaccu ucugcucugc ggcuuucugu 1800
uucaaaaaaa aaaaaaaaaa aaa 1823
<210> 27
<211> 1823
<212> RNA
<213> 内参RNA
<400> 27
gggccuguuc gaugcugcca uugcccgcgc cgaugaaacg auacgcgggu acaugggaac 60
gucagccacc auuacauccg gugagcaguc aggugcggug auacguggug uuuuugauga 120
cccugaaaau aucagcuaug ccggacaggg cgugcgcguu gaaggcucca gcccgucccu 180
guuuguccgg acugaugagg ugcggcagcu gcggcgugga gacacgcuga ccaucgguga 240
ggaaaauuuc uggguagauc ggguuucgcc ggaugauggc ggaaguuguc aucucuggcu 300
uggacggggc guaccgccug ccguuaaccg ucgccgcuga aagggggaug uauggccaua 360
aaaggucuug agcaggccgu ugaaaaccuc agccguauca gcaaaacggc ggugccuggu 420
gccgccgcaa uggccauuaa ccgcguugcu ucauccgcga uaucgcaguc ggcgucacag 480
guugcccgug agacaaaggu acgccggaaa cugguaaagg aaagggccag gcugaaaagg 540
gccacgguca aaaauccgca ggccagaauc aaaguuaacc ggggggauuu gcccguaauc 600
aagcugggua augcgcgggu uguccuuucg cgccgcaggc gucguaaaaa ggggcagcgu 660
ucaucccuga aagguggcgg cagcgugcuu guggugggua accgucguau ucccggcgcg 720
uuuauucagc aacugaaaaa uggccggugg caugucaugc agcguguggc ugggaaaaac 780
cguuacccca uugauguggu gaaaaucccg auggcggugc cgcugaccac ggcguuuaaa 840
caaaauauug agcggauacg gcgugaacgu cuuccgaaag agcugggcua ugcgcugcag 900
caucaacuga ggaugguaau aaagcgauga aacauacuga acuccgugca gccguacugg 960
augcacugga gaagcaugac accggggcga cguuuuuuga uggucgcccc gcuguuuuug 1020
augaggcgga uuuuccggca guugccguuu aucucaccgg cgcugaauac acgggcgaag 1080
agcuggacag cgauaccugg caggcggagc ugcauaucga aguuuuccug ccugcucagg 1140
ugccggauuc agagcuggau gcguggaugg agucccggau uuauccggug augagcgaua 1200
ucccggcacu gucagauuug aucaccagua ugguggccag cggcuaugac uaccggcgcg 1260
acgaugaugc gggcuugugg aguucagccg aucugacuua ugucauuacc uaugaaaugu 1320
gaggacgcua ugccuguacc aaauccuaca augccgguga aaggugccgg gaccacccug 1380
uggguuuaua aggggagcgg ugacccuuac gcgaauccgc uuucagacgu ugacuggucg 1440
cgucuggcaa aaguuaaaga ccugacgccc ggcgaacuga ccgcugaguc cuaugacgac 1500
agcuaucucg augaugaaga ugcagacugg acugcgaccg ggcaggggca gaaaucugcc 1560
ggagauacca gcuucacgcu ggcguggaug cccggagagc aggggcagca ggcgcugcug 1620
gcgugguuua augaaggcga uacccgugcc uauaaaaucc gcuucccgaa cggcacgguc 1680
gauguguucc guggcugggu cagcaguauc gguaaggcgg ugacggcgaa ggaagugauc 1740
acccgcacgg ugaaagucac caauguggga cguccgucga uggcagaaga ucgcagcacg 1800
guaaaaaaaa aaaaaaaaaa aaa 1823
<210> 28
<211> 1823
<212> RNA
<213> 内参RNA
<400> 28
ggguaaaacc gguaugggcg cuugccaacg acaugaacug cagugcaggu caguugcuug 60
ccagugccgc cucccggcgu cuggucacgc agaccgcccg gacaggcucc aucggcguca 120
ugauggcuca caguaauuac ggugcugcgc uggagaaaca ggguguggaa aucacgcuga 180
uuuacagcgg cagccauaag guggauggca accccuacag ccaucuuccg gaugacgucc 240
gggagacacu gcagucccgg auggacgcaa cccgccagau guuugcgcag aaggugucgg 300
cauauaccgg ccuguccgug cagguugugc uggauaccga ggcugcagug uacagcgguc 360
aggaggccau ugaugccgga cuggcugaug aacuuguuaa cagcaccgau gcgaucaccg 420
ucaugcguga ugcacuggau gcacguaaau cccgucucuc aggagggcga augaccaaag 480
agacucaauc aacaacuguu ucagccacug cuucgcaggc ugacguuacu gacguggugc 540
cagcgacgga gggcgagaac gccagcgcgg cgcagccgga cgugaacgcg cagaucaccg 600
cagcgguugc ggcagaaaac agccgcauua uggggauccu caacugugag gaggcucacg 660
gacgcgaaga acaggcacgc gugcuggcag aaacccccgg uaugaccgug aaaacggccc 720
gccgcauucu ggccgcagca ccacagagug cacaggcgcg cagugacacu gcgcuggauc 780
gucugaugca gggggcaccg gcaccgcugg cugcagguaa cccggcaucu gaugccguua 840
acgauuugcu gaacacacca guguaaggga uguuuaugac gagcaaagaa accuuuaccc 900
auuaccagcc gcagggcaac agugacccgg cucauaccgc aaccgcgccc ggcggauuga 960
gugcgaaagc gccugcaaug accccgcuga ugcuggacac cuccagccgu aagcugguug 1020
cgugggaugg caccaccgac ggugcugccg uuggcauucu ugcgguugcu gcugaccaga 1080
ccagcaccac gcugacguuc uacaaguccg gcacguuccg uuaugaggau gugcucuggc 1140
cggaggcugc cagcgacgag acgaaaaaac ggaccgcguu ugccggaacg gcaaucagca 1200
ucguuuaacu uuacccuuca ucacuaaagg ccgccugugc ggcuuuuuuu acgggauuuu 1260
uuuaugucga uguacacaac cgcccaacug cuggcggcaa augagcagaa auuuaaguuu 1320
gauccgcugu uucugcgucu cuuuuuccgu gagagcuauc ccuucaccac ggagaaaguc 1380
uaucucucac aaauuccggg acugguaaac auggcgcugu acguuucgcc gauuguuucc 1440
ggugagguua uccguucccg uggcggcucc accucugaau uuacgccggg auaugucaag 1500
ccgaagcaug aagugaaucc gcagaugacc cugcgucgcc ugccggauga agauccgcag 1560
aaucuggcgg acccggcuua ccgccgccgu cgcaucauca ugcagaacau gcgugacgaa 1620
gagcuggcca uugcucaggu cgaagagaug caggcaguuu cugccgugcu uaagggcaaa 1680
uacaccauga ccggugaagc cuucgauccg guugaggugg auaugggccg cagugaggag 1740
aauaacauca cgcaguccgg cggcacggag uggagcaagc gugacaaguc cacguaugac 1800
ccgaaaaaaa aaaaaaaaaa aaa 1823
<210> 29
<211> 623
<212> RNA
<213> 内参RNA
<400> 29
ggguucauuc gccaaaaagc ccgaugauga gcgacucacc acgggccacg gcuucugacu 60
cucuuuccgg uacugaugug auggcugcua uggggauggc gcaaucacaa gccggauucg 120
guauggcugc auucugcggu aagcacgaac ucagccagaa cgacaaacaa aaggcuauca 180
acuaucugau gcaauuugca cacaagguau cggggaaaua ccguggugug gcaaagcuug 240
aaggaaauac uaaggcaaag guacugcaag ugcucgcaac auucgcuuau gcggauuauu 300
gccguagugc cgcgacgccg ggggcaagau gcagagauug ccaugguaca ggccgugcgg 360
uugauauugc caaaacagag cuguggggga gaguugucga gaaagagugc ggaagaugca 420
aaggcgucgg cuauucaagg augccagcaa gcgcagcaua ucgcgcugug acgaugcuaa 480
ucccaaaccu uacccaaccc accuggucac gcacuguuaa gccgcuguau gacgcucugg 540
uggugcaaug ccacaaagaa gagucaaucg cagacaacau uuugaaugcg gucacacguu 600
agcaaaaaaa aaaaaaaaaa aaa 623
<210> 30
<211> 623
<212> RNA
<213> 内参RNA
<400> 30
gggcaguggu cguagcaguc guugauguuc uccgcuucga uaacucuguu gaauggcucu 60
ccauuccauu cuccugugac ucggaagugc auuuaucauc uccauaaaac aaaacccgcc 120
guagcgaguu cagauaaaau aaauccccgc gagugcgagg auuguuaugu aauauugggu 180
uuaaucaucu auauguuuug uacagagagg gcaaguaucg uuuccaccgu acucgugaua 240
auaauuuugc acgguaucag ucauuucucg cacauugcag aauggggauu ugucuucauu 300
agacuuauaa accuucaugg aauauuugua ugccgacucu auaucuauac cuucaucuac 360
auaaacaccu ucgugauguc ugcauggaga caagacaccg gaucugcaca acauugauaa 420
cgcccaaucu uuuugcucag acucuaacuc auugauacuc auuuauaaac uccuugcaau 480
guaugucguu ucagcuaaac gguaucagca auguuuaugu aaagaaacag uaagauaaua 540
cucaacccga uguuugagua cggucaucau cugacacuac agacucuggc aucgcuguga 600
agaaaaaaaa aaaaaaaaaa aaa 623
<210> 31
<211> 623
<212> RNA
<213> 内参RNA
<400> 31
gggaacggau ggcgcuguuu uuccgggacg uaucaugcug gccaacaccu gcaccuggac 60
cuaucgcggu gacgagugcg guuauagcgg uccggcuguc gcggaugaau augaccagcc 120
aacguccgau aucacgaagg auaaaugcag caaaugccug agcgguugua aguuccgcaa 180
uaacgucggc aacuuuggcg gcuuccuuuc cauuaacaaa cuuucgcagu aaaucccaug 240
acacagacag aaucagcgau ucuggcgcac gcccggcgau gugcgccagc ggagucgugc 300
ggcuucgugg uaagcacgcc ggagggggaa agauauuucc ccugcgugaa uaucuccggu 360
gagccggagg cuauuuccgu augucgccgg aagacuggcu gcaggcagaa augcagggug 420
agauuguggc gcugguccac agccaccccg guggucugcc cuggcugagu gaggccgacc 480
ggcggcugca ggugcagagu gauuugccgu gguggcuggu cugccggggg acgauucaua 540
aguuccgcug ugugccgcau cucaccgggc ggcgcuuuga gcacggugug acggacuguu 600
acaaaaaaaa aaaaaaaaaa aaa 623
<210> 32
<211> 623
<212> RNA
<213> 内参RNA
<400> 32
ggggguaugc cgaaagggau gcugaaauug agaacgaaaa gcugcgccgg gagguugaag 60
aacugcggca ggccagcgag gcagaucucc agccaggaac uauugaguac gaacgccauc 120
gacuuacgcg ugcgcaggcc gacgcacagg aacugaagaa ugccagagac uccgcugaag 180
ugguggaaac cgcauucugu acuuucgugc ugucgcggau cgcaggugaa auugccagua 240
uucucgacgg gcucccccug ucggugcagc ggcguuuucc ggaacuggaa aaccgacaug 300
uugauuuccu gaaacgggau aucaucaaag ccaugaacaa agcagccgcg cuggaugaac 360
ugauaccggg guugcugagu gaauauaucg aacagucagg uuaacaggcu gcggcauuuu 420
guccgcgccg ggcuucgcuc acuguucagg ccggagccac agaccgccgu ugaaugggcg 480
gaugcuaauu acuaucuccc gaaagaaucc gcauaccagg aagggcgcug ggaaacacug 540
cccuuucagc gggccaucau gaaugcgaug ggcagcgacu acauccguga ggugaaugug 600
gugaaaaaaa aaaaaaaaaa aaa 623

Claims (13)

1.带有分子条码的平衡接头,其特征在于,由长短不同的两种平衡接头混合组成;
所述两种平衡接头(长平衡接头和短平衡接头)的核苷酸序列包括:从5’到3’末端依次为测序文库PCR引物识别序列、分子条码序列、末端碱基(例如3-8个简并性碱基S)序列;
其中,所述分子条码序列为几个至几十个(例如5-10个)随机碱基N;所述两种平衡接头的末端碱基序列部分和/或全部相同;
所述长平衡接头在分子条码序列和末端碱基序列之间还包括中间碱基序列(例如3-8个简并性碱基W),中间碱基序列与末端碱基序列的碱基种类不同。
2.根据权利要求1所述的平衡接头,其特征在于,所述长平衡接头和短平衡接头按照相同和/或相近摩尔比混合;
优选地,所述末端碱基序列,和/或中间碱基序列的碱基个数为3-5个(优选4个);
优选地,所述分子条码序列的碱基个数为5-7个(优选6个)。
3.根据权利要求1所述的平衡接头,其特征在于,所述两种平衡接头的核苷酸序列均包括:从5’到3’末端依次为Illumina测序文库PCR引物识别序列、6个随机碱基N的分子条码序列、4个简并性碱基S的末端碱基序列;
优选地,所述中间碱基序列为4个简并性碱基W。
4.根据权利要求1-3任一项所述的平衡接头,其特征在于,所述长平衡接头的核苷酸序列包括SEQ ID NO.1所示的核苷酸序列:
5’-CTACACGACGCTCTTCCGATCTNNNNNNWWWWrSrSrS+S-3’(r表示核糖核甘酸);和/或,
所述短平衡接头的核苷酸序列包括SEQ ID NO.2所示的核苷酸序列:5’-CTACACGACGCTCTTCCGATCTNNNNNNrSrSrS+S-3’。
5.权利要求1-4任一项所述的平衡接头在构建转录组文库中的应用。
6.一种快速构建转录组文库的方法,其特征在于,包括采用权利要求1-4任一项所述的平衡接头进行构建。
7.根据权利要求6所述的方法,其特征在于,包括以下步骤:
(1)mRNA的分离和片段化;
(2)反转录合成cDNA第一链及加所述的平衡接头;
(3)文库PCR扩增;
(4)文库质检;
(5)上机测序。
8.根据权利要求7所述的方法,其特征在于,所述步骤(1)在mRNA分离之前加入单链内参标准品RNA(优选加入条数为5-130条单链内参标准品RNA);
优选地,所述内参标准品RNA的加入量为mRNA总量的0.5-2%;
优选地,所述内参标准品RNA的GC含量为40-60%;
优选地,所述内参标准品RNA的长度为几十到几千个碱基。
9.根据权利要求8所述的方法,其特征在于,所述内参标准品RNA为5-130条单链RNA按照不同分子拷贝数比例混合而成;
优选地,所述内参标准品RNA为9条大小分别为:5条1823nt、4条623nt的单链RNA(优选带有20nt polyA尾巴),按不同分子拷贝数比例混合而成。
10.一种构建转录组文库的试剂,其特征在于,包括权利要求1-4任一项所述的平衡接头;和/或,权利要求8或9所述的内参标准品RNA。
11.一种构建转录组文库的试剂盒,其特征在于,包括权利要求1-4任一项所述的平衡接头;和/或,权利要求8或9所述的内参标准品RNA;或权利要求10所述的试剂。
12.根据权利要求11所述的试剂盒,其特征在于,包括权利要求1-4任一项所述的平衡接头,权利要求8或9所述的内参标准品RNA,以及构建转录组文库需要的材料(例如通用引物、随机引物、酶及缓冲液)。
13.一种数据分析方法,其特征在于,包括以下步骤:
(1)根据平衡接头的核苷酸序列(优选分子条码序列,末端碱基和/或中间碱基序列),区分检测序列与测序文库构建中的污染源,允许最大错配比例为0.2(错配碱基数/总随机碱基数),去除不含有分子条码序列的测序序列;
(2)根据平衡接头序列和连接的30-60bp序列作为待检测RNA分子片段的标签特征,进行聚类,允许1/30的最大错配比例;
(3)聚类相同的RNA分子,若连接的平衡接头的核苷酸序列(优选分子条码序列,末端碱基和/或中间碱基序列)的差异小于0.2,即判断为在上机文库构建过程中的PCR扩增产物,仅保留一条记录;
(4)从测序结果中去除首末两端接头中的随机序列;
(5)测序数据与参考基因组及内参序列进行比对,使用软件对不同比较组样本进行总量均一化,并对样本差异基因进行过滤。
CN202010657691.8A 2020-07-09 2020-07-09 带有分子条码的平衡接头及快速构建转录组文库的方法 Active CN111808854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657691.8A CN111808854B (zh) 2020-07-09 2020-07-09 带有分子条码的平衡接头及快速构建转录组文库的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657691.8A CN111808854B (zh) 2020-07-09 2020-07-09 带有分子条码的平衡接头及快速构建转录组文库的方法

Publications (2)

Publication Number Publication Date
CN111808854A true CN111808854A (zh) 2020-10-23
CN111808854B CN111808854B (zh) 2021-10-01

Family

ID=72842064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657691.8A Active CN111808854B (zh) 2020-07-09 2020-07-09 带有分子条码的平衡接头及快速构建转录组文库的方法

Country Status (1)

Country Link
CN (1) CN111808854B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112359093A (zh) * 2020-11-12 2021-02-12 苏州京脉生物科技有限公司 血液中游离miRNA文库制备和表达定量的方法及试剂盒
CN114134206A (zh) * 2021-12-06 2022-03-04 武汉臻和医学检验实验室有限公司 一种ffpe样本rna文库及其构建方法
CN116287124A (zh) * 2023-05-24 2023-06-23 中国农业科学院农业基因组研究所 单链接头预连接方法、高通量测序文库的建库方法及试剂盒
CN116515976A (zh) * 2023-06-16 2023-08-01 上海精翰生物科技有限公司 一种转录组测序的校正方法及其试剂盒
CN117116350A (zh) * 2023-10-25 2023-11-24 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) Rna测序数据的校正方法、装置、电子设备及存储介质
CN117701691A (zh) * 2024-02-01 2024-03-15 上海锐赛循益生物技术有限公司 基于人基因组扩增子的illumina测序文库构建的引物组合

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015121236A1 (en) * 2014-02-11 2015-08-20 F. Hoffmann-La Roche Ag Targeted sequencing and uid filtering
CN108103055A (zh) * 2018-01-09 2018-06-01 上海亿康医学检验所有限公司 一种单细胞rna逆转录与文库构建的方法
CN109797438A (zh) * 2019-01-17 2019-05-24 武汉康测科技有限公司 一种用于16S rDNA可变区定量测序文库构建的接头元件及文库构建方法
CN110396516A (zh) * 2018-04-25 2019-11-01 武汉康测科技有限公司 一种基于特有识别序列的绝对定量转录组文库构建方法
CN110835783A (zh) * 2018-08-17 2020-02-25 深圳华大生命科学研究院 用于长读长高质量测序的核酸文库的构建方法、测序方法及试剂
CN111321208A (zh) * 2020-02-14 2020-06-23 上海厦维生物技术有限公司 一种基于高通量测序的建库方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015121236A1 (en) * 2014-02-11 2015-08-20 F. Hoffmann-La Roche Ag Targeted sequencing and uid filtering
CN108103055A (zh) * 2018-01-09 2018-06-01 上海亿康医学检验所有限公司 一种单细胞rna逆转录与文库构建的方法
CN110396516A (zh) * 2018-04-25 2019-11-01 武汉康测科技有限公司 一种基于特有识别序列的绝对定量转录组文库构建方法
CN110835783A (zh) * 2018-08-17 2020-02-25 深圳华大生命科学研究院 用于长读长高质量测序的核酸文库的构建方法、测序方法及试剂
CN109797438A (zh) * 2019-01-17 2019-05-24 武汉康测科技有限公司 一种用于16S rDNA可变区定量测序文库构建的接头元件及文库构建方法
CN111321208A (zh) * 2020-02-14 2020-06-23 上海厦维生物技术有限公司 一种基于高通量测序的建库方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112359093A (zh) * 2020-11-12 2021-02-12 苏州京脉生物科技有限公司 血液中游离miRNA文库制备和表达定量的方法及试剂盒
CN112359093B (zh) * 2020-11-12 2021-08-27 苏州京脉生物科技有限公司 血液中游离miRNA文库制备和表达定量的方法及试剂盒
CN114134206A (zh) * 2021-12-06 2022-03-04 武汉臻和医学检验实验室有限公司 一种ffpe样本rna文库及其构建方法
CN114134206B (zh) * 2021-12-06 2023-11-24 武汉臻和医学检验实验室有限公司 一种ffpe样本rna文库及其构建方法
CN116287124A (zh) * 2023-05-24 2023-06-23 中国农业科学院农业基因组研究所 单链接头预连接方法、高通量测序文库的建库方法及试剂盒
CN116515976A (zh) * 2023-06-16 2023-08-01 上海精翰生物科技有限公司 一种转录组测序的校正方法及其试剂盒
CN116515976B (zh) * 2023-06-16 2023-10-31 上海精翰生物科技有限公司 一种转录组测序的校正方法及其试剂盒
CN117116350A (zh) * 2023-10-25 2023-11-24 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) Rna测序数据的校正方法、装置、电子设备及存储介质
CN117116350B (zh) * 2023-10-25 2024-02-27 中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心) Rna测序数据的校正方法、装置、电子设备及存储介质
CN117701691A (zh) * 2024-02-01 2024-03-15 上海锐赛循益生物技术有限公司 基于人基因组扩增子的illumina测序文库构建的引物组合
CN117701691B (zh) * 2024-02-01 2024-04-26 上海锐赛循益生物技术有限公司 基于人基因组扩增子的illumina测序文库构建的引物组合

Also Published As

Publication number Publication date
CN111808854B (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN111808854B (zh) 带有分子条码的平衡接头及快速构建转录组文库的方法
CN110129415B (zh) 一种ngs建库分子接头及其制备方法和用途
CN106048009B (zh) 一种用于超低频基因突变检测的标签接头及其应用
CN111440896B (zh) 一种新型β冠状病毒变异检测方法、探针和试剂盒
US9334532B2 (en) Complexity reduction method
TW201321518A (zh) 微量核酸樣本的庫製備方法及其應用
WO2012068919A1 (zh) DNA文库及其制备方法、以及检测SNPs的方法和装置
CN113621609A (zh) 文库构建引物组及其在高通量检测中的应用
CN111748637A (zh) 一种用于亲缘关系分析鉴定的snp分子标记组合、多重复合扩增引物组、试剂盒及方法
WO2012037881A1 (zh) 核酸标签及其应用
CN113668068A (zh) 基因组甲基化文库及其制备方法和应用
CN111979307A (zh) 用于检测基因融合的靶向测序方法
CN113136422A (zh) 通过成组snp位点检测高通量测序样本污染的方法
CN113308514A (zh) 微量m6A的检测文库构建方法和试剂盒、高通量检测方法
US12084652B2 (en) Methods and compositions for processing samples containing nucleic acids
CN118272508A (zh) 基于单端接头转座酶的单细胞基因组测序试剂盒及其应用
CN112795654A (zh) 用于生物体融合基因检测与融合丰度定量的方法及试剂盒
CN115715323A (zh) 一种高兼容性的PCR-free建库和测序方法
CN113337590B (zh) 一种二代测序方法和文库构建方法
EP2333104A1 (en) RNA analytics method
CN114875118B (zh) 确定细胞谱系的方法、试剂盒和装置
CN111501106A (zh) 外泌体rna的高通量测序文库的构建方法及装置、用途
CN114277114B (zh) 一种扩增子测序添加唯一性标识符的方法及应用
CN115961007A (zh) 一种利用简并引物扩增进行全基因组分子标记开发的方法
WO2020259303A1 (zh) 一种快速构建rna 3&#39;端基因表达文库的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant