CN111808854B

CN111808854B - 带有分子条码的平衡接头及快速构建转录组文库的方法

Info

Publication number: CN111808854B
Application number: CN202010657691.8A
Authority: CN
Inventors: 崔鹏; 秦锐; 林强; 范伟
Original assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Current assignee: Agricultural Genomics Institute at Shenzhen of CAAS
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2021-10-01
Anticipated expiration: 2040-07-09
Also published as: CN111808854A

Abstract

本发明提供了带有分子条码的平衡接头及快速构建转录组文库的方法。上述带有分子条码的平衡接头，由长短不同的两种平衡接头混合组成，平衡接头从5’到3’末端依次为测序文库PCR引物识别序列、分子条码序列、末端碱基序列；长平衡接头还包括中间碱基序列。此接头能够彻底解决PCR过程产生的duplication以及非特异退火等原因造成的数据污染问题，及克服了利用SMART技术产品线构建转录组文库且包Lane测序时碱基不平衡问题。本发明还提供了利用上述接头和加入内参标准品快速构建转录组文库的方法，简化了步骤，极大程度缩短了建库时间；且加入内参标准品可对数据结果造成的偏差进行标准化校正，保证后续分析的可靠性。

Description

带有分子条码的平衡接头及快速构建转录组文库的方法

技术领域

本发明涉及基因工程技术领域，具体涉及一种带有分子条码的平衡接头及其应用，利用平衡接头和内参标准品RNA快速构建转录组文库的方法，包含平衡接头和/或内参标准品RNA的试剂和试剂盒，以及数据分析方法。

背景技术

随着科学技术的发展进步，生命科学研究已经进入后基因组时代。而转录组研究作为后基因组时代一个非常重要的组学研究，为研究基因表达及转录水平上的调控提供了重要的手段和方法，也是发掘功能基因的重要途径。转录组这个概念最初由Velcuescu等于1995年在研究酵母基因表达时提出。广义上的转录组是指某一特定条件下，细胞或组织基因组所转录出的所有RNA的总和，其中包括编码RNA(mRNA)和非编码RNA如tRNA、rRNA、scRNA、snRNA、snoRNA、scRNA、miRNA、siRNA等，狭义上的转录组是指所有mRNA的总和。目前转录组的主要研究方法有三类：(1)基于一代Sanger测序技术，比如基因表达序列分析技术(serial analysis of gene expression，SAGE)和大规模平行信号测序系统(massivelyparallel signature sequencing，MPSS)。(2)基于探针杂交的技术，比如基因芯片技术。(3)基于新一代基因测序技术的RNA-seq技术(转录组测序技术)。基因芯片技术需要已知物种的基因序列，因此很难检测未知物种，并且灵敏度低，对于重复序列以及低丰度序列很难识别，还有重复性差、假阳性高等缺陷。SAGE和MPSS技术，无须任何已知基因序列信息，同时还具有分辨率高，背景噪声低等优势，但是测序费用高以及测序时间长等方面限制了该技术的进一步推广。

随着近十几年来第二代基因测序技术的迅猛发展，RNA-Seq技术日渐成熟，广泛应用于微生物和动植物基础研究、临床诊断和药物研发等领域。标准(常规)转录组文库的构建流程包括(1)mRNA的分离和纯化；(2)富集后的RNA进行打断；(3)第一链cDNA反转录；(4)第二链cDNA反转录；(5)纯化；(6)双链cDNA片段末端补平；(7)双链cDNA片段3’端加A尾；(8)双链cDNA片段加接头；(9)连接产物纯化和片段大小分选；(10)PCR扩增；(11)纯化；(12)检测转录组文库的质量；(13)上机测序。在链特异性转录构建过程中，在合成cDNA第二链时引入dUTP，在PCR扩增以前利用特异性降解dUTP的酶将cDNA第二链降解，在PCR扩增时可以特异性扩增第一链，因此时文库中的序列信息具有方向性。另一种转录组文库的构建流程如SMART技术产品线中展示，由于在片段化mRNA反转录的cDNA3’末端加入几个连续的胞嘧啶(C)和/或鸟嘌呤(G)，添加接头后的文库插入片段前几个碱基都是C和/或G。Illumina测序平台在测前5个碱基时测序质量很低，特别是在包整条lane测序时，由于文库前几个碱基都是C和/或G，4种碱基不平衡，将会严重影响数据质量。但如果加入平衡文库解决会造成很多的数据浪费。

在文库构建过程中RNA随机打断，也会产生长度和序列完全一致的天然重复片段。如果不把duplication去除掉将会对表达量分析造成干扰。如果将所有的重复去除，那么天然重复也会被去掉，因此，如何区分天然重复和PCR过程产生的duplication也是转录组表达量准确定量的关键，另外在文库构建过程中的引物二聚体，非特异性退火片段也会对测序数据造成污染，对后续数据分析的准确性产生影响。

专利申请号为201810562835.4，名称为一种构建转录组测序文库的方法及相应的接头序列和试剂盒的专利中所提到的NEB、Illumina等品牌的RNA建库试剂盒用于RNA建库，但是目前这些建库试剂盒存在无法解决PCR扩增产生的duplication、引物二聚体和非特异性退火造成的数据污染导致定量偏差及步骤繁多耗时长等诸多缺点。

发明内容

有鉴于此，本发明致力于提供一种带有分子条码的平衡接头，能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题，以及测数据中由于引物二聚体、非特异性退火片段引进的污染问题，从而实现对转录本的精确定量。

本发明第一方面提供了带有分子条码的平衡接头(Barcode Balance Adapter，以下简称BBA)，由长短不同的两种平衡接头混合组成。

长平衡接头(简称BBA-L)和短平衡接头(简称BBA-S)；所述两种平衡接头的核苷酸序列包括：从5’到3’末端依次为测序文库PCR引物识别序列、分子条码序列、末端碱基(例如3-8个简并性碱基S)序列。

其中，所述分子条码序列为几个至几十个(例如5-10个)随机碱基N；所述两种平衡接头的末端碱基序列部分和/或全部相同；所述长平衡接头在分子条码序列和末端碱基序列之间还包括中间碱基序列(例如3-8个简并性碱基W)，中间碱基序列与末端碱基序列的碱基种类不同。

上述平衡接头中，测序文库PCR引物识别序列可以在构建转录组文库的PCR扩增过程中，保证PCR引物能够识别到平衡接头而顺利进行PCR扩增。

分子条码序列优选为5-10个随机碱基N，优选碱基个数为5-7个，最优选6个，N为四种碱基A、T、C、G中的任意一种。所述分子条码序列为特有识别序列的分子条码，在PCR扩增之前平衡接头加到cDNA上，每一条cDNA片段都加上不同的带有特有识别序列的分子条码，因此同一个cDNA片段扩增出来的产物均带有相同的标签，而天然重复片段则带有不同的标签，能够保证数据分析时准确还原PCR前的cDNA片段组成。测序完成后利用分子条码序列过滤数据，将相同分子条码标记的扩增产物进行合并，就能准确去除duplication重复、同时保留样本的天然重复，因此同现有常规转录组技术相比，利用该平衡接头能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题，以及测数据中由于引物二聚体、非特异性退火片段引进的污染问题，从而实现对转录本的精确定量。而且，利用分子条码序列还可以对PCR扩增和测序错误进行纠正，扩增和测序过程中的错误会使得相同分子条码序列对应多个不同的序列，只需比较这些序列的相似性，基于相似性即可纠正这些错误，并将最后的一致性序列作为样本中的原始序列。

平衡接头中的末端碱基序列为3-8个简并性碱基S组成，优选3-5个碱基S，最优选4个碱基S。简并性碱基S为C、G中的任意一种。

短平衡接头(BBA-S)中的末端碱基序列有两个作用：第一可以用于确定分子条码的位置；第二可以和由反转录酶的末端转移酶活性在cDNA第一链3’末端加上的3-4个G和或C碱基互补配对。BBA-L中的末端碱基序列的作用与BBA-S中的作用相同。

在本发明的转录组文库构建过程中，利用反转录酶具有的末端转移酶活性和模板转换活性，在以片段化的mRNA作为模板合成cDNA第一链时，可以在其cDNA 3'端加上连续3个到4个胞嘧啶(C)和/或鸟嘌呤(G)。然后利用体系中加入的平衡接头(BBA)的4个末端简并性碱基S与之互补配对，之后转换以BBA为模板在第一链cDNA的3'端引入BBA的互补序列。同时通过随机接头在cDNA的5'端引入PCR引物识别序列，从而对cDNA进行扩增和文库构建。

长平衡接头(BBA-L)的中间碱基序列为3-8个简并性碱基W组成，优选3-5个碱基W，最优选4个碱基W。简并性碱基W为A、T中的任意一种。

BBA-L的中间碱基序列的位置对应于BBA-S的末端碱基序列(例如4个W简并性碱基对应4个S简并性碱基)，在Illumina测序平台测序时在对应的位置起到平衡碱基的作用，可以解决在对应位置如果只由两种S简并碱基组成，而导致碱基种类不平衡造成测序质量太差的问题。同时，4个W简并性碱基也可以用于确定上述分子条形码的位置，另外4个W简并性碱基也可以作为分子条码用于后续数据分析。BBA-L的末端碱基序列(例如4个S简并碱基)则由文库插入片段(待测的cDNA片段)平衡。因此与现有的利用SMART技术产品线，以片段化mRNA反转录合成的一链cDNA两端直接加上测序接头进行转录组建库的技术相比，在利用Illumina测序平台进行包Lane测序时，无需另外加入平衡文库，节约测序成本增加数据产出量。

因此，本发明的平衡接头既能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题；又能够克服由于引物二聚体、非特异性退火片段引进的污染问题，实现对转录本的精确定量；还能够解决上述SMART技术产品线构建转录组文库且包Lane测序时由于碱基不平衡需要额外加入平衡文库造成数据浪费的问题。

进一步，在本发明提供的技术方案的基础上，所述长平衡接头和短平衡接头按照相同和/或相近摩尔比混合。

优选长平衡接头和短平衡接头按照相同摩尔比混合，使合成的cDNA能够以相同的概率去连接BBA-L或BBA-S，使连接到cDNA链上的BBA-L和BBA-S的比例尽量接近1:1，进而使BBA-L的中间碱基序列(例如4个W碱基)和BBA-S中的末端碱基序列(例如4个S碱基)相对应起到平衡碱基的作用，增强平衡接头在转录组文库构建过程中的平衡碱基的作用。

进一步，在本发明提供的技术方案的基础上，所述长平衡接头的核苷酸序列包括：从5’到3’末端依次为Illumina测序文库PCR引物识别序列、6个随机碱基N的分子条码序列、4个简并性碱基W和4个简并性碱基S。

在本发明的一种优选实施方式中，所述长平衡接头的核苷酸序列包括SEQ IDNO.1所示的核苷酸序列：5’-CTACACGACGCTCTTCCGATCTNNNNNNWWWWrSrSrS+S-3’(r表示核糖核甘酸)。

进一步，在本发明提供的技术方案的基础上，所述短平衡接头的核苷酸序列包括：从5’到3’末端依次为Illumina测序文库PCR引物识别序列、6个随机碱基N的分子条码序列、4个简并性碱基S。

在本发明的一种优选实施方式中，所述短平衡接头的核苷酸序列包括SEQ IDNO.2所示的核苷酸序列：5’-CTACACGACGCTCTTCCGATCTNNNNNNrSrSrS+S-3’。

末端碱基序列中简并性碱基S选择核糖核苷酸，可以增强BBA与cDNA链退火的稳定性。

本发明第二方面提供了所述的平衡接头在构建转录组文库中的应用。

本发明第三方面提供了一种快速构建转录组文库的方法，包括采用所述的带有分子条码的平衡接头进行构建。

在本发明的一种优选实施方式中，转录组文库构建方法包括以下步骤：

(1)mRNA的分离和片段化；

(2)反转录合成cDNA第一链及加所述的平衡接头；

(3)文库PCR扩增；

(4)文库质检；

(5)上机测序。

步骤(1)中，优选在mRNA片段化之前加入单链内参标准品RNA。例如可以加入5-130条单链内参标准品RNA。

进一步，所述内参标准品RNA的加入量为mRNA总量的0.5-2％；

进一步，所述内参标准品RNA的GC含量为40-60％。

进一步，所述内参标准品RNA的长度为几十到几千个碱基，优选几百到几千个碱基；更优选为500-5000个；最优选600-2000个。

在本发明的一种优选实施方式中，步骤(1)包括如下操作过程：将质检合格的总RNA样本中加入内参标准品，从总RNA中分离出mRNA和内参标准品，将mRNA和内参标准品片段化(例如采用高温金属离子打断法)，片段化的RNA可以无需纯化直接用于反转录；mRNA和内参标准品RNA可以用商品化的oligodT磁珠分离纯化试剂盒从总RNA中分离纯化。内参标准品RNA能评估测序数据质量使测序数据标准化。

进一步，在步骤(1)中的mRNA进行片段化之前加入随机接头(Random adapter)，在片段化的温度下(例如85℃，6min，金属镁离子存在的条件下)，mRNA被随机打断并与随机接头完成退火。

随机接头从5’端到3’端依次为一段通用接头序列和一段随机序列(几个至几十个随机碱基N)。

在本发明的一种优选实施方式中，通用接头序列为Illumina文库PCR引物识别序列；随机序列为6个随机碱基N，N为四种碱基A、T、C、G中的任意一种。

在一种优选实施方式中，随机接头的核苷酸序列如SEQ ID NO.3所示：5’-AGACGTGTGCTCTTCCGATCTNNNNNN-3’。

进一步，所述内参标准品RNA为5-130条单链RNA按照不同分子拷贝数比例混合而成。

在本发明的一种优选实施方式中，所述内参标准品RNA为9条大小分别为：5条1823nt、4条623nt的单链RNA(优选带有20nt polyA尾巴)，按不同分子拷贝数比例混合而成。

进一步，内参标准品RNA的制备方法大致包括如下过程：以构建人的转录组文库为例，选择进化上低等，与待测样本的亲缘关系较远的DNA(如病毒和细菌的DNA)为模板；设计引物PCR扩增出多条(例如5-130条)产物，且保证产物的GC含量在40-60％之间，长度在几十到几千个碱基之间；最后再体外转录为相应条数的单链RNA；将不同的单链RNA按不同分子拷贝数比例混合得到内参标准品RNA。

在本发明的一种优选实施方式中，内参标准品RNA的制备过程如下：以非甲基化的lambda DNA(GenBank-EMBL Accession Number:J02459)作为模板，设计9对引物，PCR扩增得到5条大小为1840bp的产物，4条大小为640bp的产物。其中，5条1840bp产物的GC含量分别：P1840-1为49％、P1840-2为48％、P1840-3为49％、P1840-4为57％、P1840-5为58％，4条640bp产物的GC含量分别为：P640-1为52％、P640-2为41％、P640-3为59％、P640-4为56％。

再以9条PCR扩增DNA产物作为模板体外转录得到9条大小分别为：5条1823nt、4条623nt的带有20nt polyA尾巴的单链RNA。分别命名为P1823-1、P1823-2、P1823-3、P1823-4、P1823-5、P623-1、P623-2、P623-3、P623-4。最后，将P623-1、P623-2、P623-3、P623-4、P1823-1、P1823-2、P1823-3、P1823-4、P1823-5九条单链RNA依次按照9个不同的分子拷贝数比例10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴混合成内参标准品RNA。

本发明的内参标准品RNA在设计时，选取5条长度为1823nt、4条长度为623nt分别带有20nt PolyA的RNA，GC含量为41％-59％。因此，可以针对由于不同长度、不同GC含量的RNA样本，在上述实验平台、实验方法选择、实验操作手法、分析方法等方面产生的数据结果偏差进行标准化校正。

在转录组文库构建过程中加入内参标准品RNA，由于加入的内参标准品RNA的拷贝数是已知的，理论上来说，经过转录组文库构建后进行数据检测，则其数据应该是已知的。但实际操作过程中，由于人为操作因素，或添加的试剂，或仪器等因素造成的误差，会使获得的关于内参标准品的数据是有偏差的，由此可以根据内参标准品的偏差数据与理论值数据作对比，推测构建的转录组文库的数据是否有偏差而进行校正。

此外，选择不同的测序平台、不同测序平台固有的技术缺陷、选择不同的实验方法、不同的实验条件、实验操作的偏差、数据分析方法的选择、对不同测序平台测序方法产生的大数据进行整合时，都会对RNA-seq产生的数据结果的准确性产生影响，从而直接影响后续分析的可靠性。此时，可以针对由于不同长度、不同GC含量的内参RNA标准品样本，在上述实验平台、实验方法选择、实验操作手法、分析方法等方面产生的数据结果偏差进行标准化校正。

步骤(2)中，加入所述的带有分子条码的平衡接头。

在本发明的一种优选实施方式中，步骤(2)包括如下操作过程：随机接头与片段化的RNA退火后，反转录酶以片段化的mRNA为模板合成cDNA第一链。由于该反转录酶具有末端转移酶和模板转换活性，当到达片段化mRNA的5’末端时，反转录酶通过末端转移酶活性，可以在合成的cDNA第一链3’末端加上3到4个胞嘧啶(C)和/或鸟嘌呤(G)，在上述BBA存在下可以与平衡接头3’末端4个S简并碱基退火，反转录酶随后转换模板以BBA为模板继续延伸从而引入BBA互补的序列。

通过上述步骤(2)，合成的cDNA第一链两端分别带有Illumina文库PCR引物的识别序列。用Agencourt AMPure Beads(Beckman Coulter)按照插入片段大小250-350nt进行片段大小筛选。

步骤(3)中，文库PCR扩增需要加入通用引物(Universal Primer)和Index引物(Index Primer)。

在一种优选实施方式中，通用引物的核苷酸序列如SEQ ID NO.4所示：5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCG ATC-s-T-3’。(-s-代表硫代)

在一种优选实施方式中，Index引物的核苷酸序列如SEQ ID NO.5所示：5’-CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGT GCTCTTCCGATC-s-T-3’。(N代表Index碱基；-s-代表硫代)

在上述两种优选的实施方式中，PCR扩增过程中通用引物和Index引物能够识别和结合cDNA两端接头上的PCR引物识别序列。通用引物和Index引物3’末端的硫代修饰可以减少PCR过程中引物二聚体的生成。

在本发明一种优选实施方式中，以反转录获得的cDNA第一链为模板，用通用引物和Index引物在反应体系下介导PCR扩增反应，再进行扩增产物纯化。

在本发明一种优选实施方式中，步骤(4)和(5)中，对富集到的测序文库进行片段大小分布检测(例如使用安捷伦2100对文库片段大小分布检测)和用Qubit对文库定量，然后进行高通量测序。

本发明提供的转录组文库构建方法，在获取mRNA片段化以后，直接合成cDNA第一链并加平衡接头，再以带有接头的cDNA第一链作为模板进行PCR扩增，获得具有链特异性的转录组文库。与常规的链特异性转录组建库相比，无需在经过cDNA第二链合成、dUTP引入、末端修复、加A尾、加接头、dUTP消化过程，克服了步骤繁多耗时长等缺点。此外，本发明转录组文库构建方法中，只PCR扩增cDNA第一链，获得的是具有链特异性的文库，文库中的序列信息具有方向性。

本发明第四方面提供了一种构建转录组文库的试剂，包括所述的带有分子条码的平衡接头，和/或，所述的内参标准品RNA。

需要说明的是，所述试剂可以分为3种情况：(1)只包括带有分子条码的平衡接头；(2)只包括内参标准品RNA；(3)包括带有分子条码的平衡接头和内参标准品RNA。除此之外，所述试剂还包括本领域技术人员已知的一些其他必备试剂，如缓冲液等。

本发明第五方面提供了一种构建转录组文库的试剂盒，包括所述的带有分子条码的平衡接头，和/或，所述的内参标准品RNA；或所述的试剂。

需要说明的是，所述试剂盒可以分为4种情况：(1)只包括带有分子条码的平衡接头；(2)只包括内参标准品RNA；(3)包括带有分子条码的平衡接头和内参标准品RNA；(3)只包括所述的试剂。除此之外，所述试剂盒还包括本领域技术人员已知的构建转录组文库需要的材料，如缓冲液等。

在本发明一种优选的实施方式中，所述的试剂盒，包括所述的平衡接头，所述的内参标准品RNA，以及构建转录组文库需要的材料(例如通用引物、随机引物、酶及缓冲液等)。

本发明第六方面提供了一种数据分析方法，包括以下步骤：

(1)根据平衡接头的核苷酸序列(优选分子条码序列，末端碱基和/或中间碱基序列)，区分检测序列与测序文库构建中的污染源，允许最大错配比例为0.2(错配碱基数/总随机碱基数)，去除不含有分子条码序列的测序序列；

(2)根据平衡接头序列和连接的30-60bp序列作为待检测RNA分子片段的标签特征，进行聚类，允许1/30的最大错配比例；

(3)聚类相同的RNA分子，若连接的平衡接头的核苷酸序列(优选分子条码序列，末端碱基和/或中间碱基序列)的差异小于0.2，即判断为在上机文库构建过程中的PCR扩增产物，仅保留一条记录；

(4)从测序结果中去除首末两端接头中的随机序列；

(5)测序数据与参考基因组及内参序列进行比对，使用软件对不同比较组样本进行总量均一化，并对样本差异基因进行过滤。

具体的，在本发明一种优选地实施方式中，所述转录组文库进行数据分析，具体分析过程如下：

(1)根据平衡接头BBA序列中，SEQ ID NO.1与SEQ ID NO.2的特征随机序列，区分检测序列与测序文库构建的中的污染源，允许对大错配比例为0.2(错配碱基数/总随机碱基数)，去除不含有特征随机序列的测序序列；

(2)根据BBA连接的30～60bp序列作为待检测RNA分子片段的标签特征，进行聚类，允许1/30的最大错配比例；

(3)相同起始区域聚类在一起的RNA分子，如果连接的BBA的特征随机序列的差异小于0.2，即判断为在上机文库构建过程中的PCR扩增产物，仅保留一条记录；

(4)从测序结果中去除首末两端接头中的随机序列；

(5)测序数据与参考基因组及内参序列进行比对；

(6)应用R软件包中的RUVSeq以及edgeR对不同比较组样本进行总量均一化，并对样本差异基因进行过滤。

本发明采用上述技术方案具有以下有益效果：

(1)本发明提供的带有分子条码的平衡接头，能够彻底解决现有技术无法区分样本本身的天然重复和PCR过程产生的duplication问题，以及测数据中由于引物二聚体、非特异性退火片段引进的污染问题，从而实现对转录本的精确定量。

(2)本发明提供的带有分子条码的平衡接头，跟mRNA片段化后再利用SMART技术直接在合成的一链cDNA两端加Illumina测序接头构建转录组文库且包Lane测序相比，能够解决碱基种类不平衡造成测序质量太差的问题，无需另外加入平衡文库，节约测序成本增加数据产出量。

(3)本发明提供的转录组文库构建方法，在获取mRNA片段化以后，直接合成cDNA第一链并加平衡接头，再以带有接头的cDNA第一链作为模板进行PCR扩增，获得具有链特异性的转录组文库。与常规的链特异性转录组建库相比，无需在经过cDNA第二链合成、dUTP引入、末端修复、加A尾、加接头、dUTP消化过程，简化了步骤，极大程度缩短了转录组建库反应时间；而且只PCR扩增cDNA第一链，获得的是具有链特异性的文库，文库中的序列信息具有方向性。

(4)本发明在转录组文库建库时添加了内参标准品RNA，能够针对于不同的测序平台、不同测序平台固有的技术缺陷、不同的实验方法、不同的实验条件、实验操作手法、数据分析方法的选择、以及对不同测序平台产生的大数据进行整合时产生的数据结果造成的偏差进行标准化校正，从而保证后续分析的可靠性。

附图说明

图1所示为本发明转录组文件构建的流程示意图。

图2所示为本发明实施例2构建的转录组文库的质检图谱。

图3所示为对比例采用普通的RNA-seq文库流程构建的转录组文库的质检图谱。

图4所示为本发明实施例2的数据分析流程图。

图5所示为本发明实施例2和对比例的测序质量比对结果图。

图6所示为本发明实施例2和对比例的反应测序文库的序列冗余性结果图。

具体实施方式

除非另有定义，本发明中所使用的所有科学和技术术语具有与本发明涉及技术领域的技术人员通常理解的相同的含义。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

下面结合具体实施例详细描述本发明，这些实施例用于理解而不是限制本发明。

术语“cDNA”是指通过逆转录酶的作用由RNA逆转录的合成DNA。cDNA通常指单链，但也可以是双链的，其中一条链具有与RNA序列的一部分基本相同的序列并且第二链是其互补体。

术语“第一链合成”可以是指使用原始核酸(例如RNA)作为用于聚合酶反应的起始模板的第一链的合成。第一链的核苷酸序列相当于与起始模板互补的序列。例如，在使用RNA作为起始模板和逆转录酶(例如RNA依赖性DNA聚合酶)的第一链合成中，所得的第一链(例如第一链cDNA)相当于RNA模板的互补序列。

术语“第一链cDNA”是指通过第一链合成而合成的cDNA链。第一链cDNA的序列与第一链合成的起始模板互补。

术语“引物”或“寡核苷酸”是指通过与靶标或模板杂交而与靶寡核苷酸、靶多核苷酸、或模板多核苷酸结合的通常具有游离3’-OH基团的短的多核苷酸。

术语“接头”是指可以与目标靶多核苷酸或靶多核苷酸链退火并且能够生成目标靶多核苷酸或靶多核苷酸链的扩增产物的已知序列的寡核苷酸。适合的接头包括包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个碱基或更长的单链突出端的双链核酸(DNA或RNA)分子。接头的双链DNA部分还可以包含设计为标记目标样品或序列的指示或条码序列。

术语“逆转录”是指将RNA分子的核苷酸序列拷贝为DNA分子的过程。可以通过使RNA模板与RNA依赖性DNA聚合酶(也被称为逆转录酶)在公知条件下反应来进行逆转录。逆转录酶是将单链RNA转录为单链DNA的DNA聚合酶。

在核苷酸序列的上下文中，术语“随机”是指当与在一群多核苷酸中的其他随机核苷酸序列组合时表示对于给定长度的核苷酸来说全部或基本上全部可能的核苷酸组合的核苷酸的变化的序列。

术语“Duplication”是指测序数据中reads的重复。引起Duplication的主要原因是在测序中有PCR过程，来源于同一个DNA片段PCR的产物被重复测序，就会产生duplication。次要原因是正巧两个插入片段的头和尾的位置完全一致。

下述实施例所使用的平衡接头、随机接头和引物序列如表1所示，N为随机碱基，即A、T、C、G中任意一种碱基；S为C、G中的任意一种碱基；W为A、T中的任意一种碱基；r表示核糖核甘酸；Index引物中的N代表Index碱基；-s-代表硫代。

表1

实施例1制备内参标准品RNA

(1)以非甲基化的lambda DNA(GenBank-EMBL Accession Number:J02459)作为模板，设计9对引物。

下述实施例所使用的引物序列如表2所示，F代表PCR正向引物，R代表PCR反向引物。正向引物5’端序列下划线部分为T7启动子序列以及启动子序列后面加的3个G。反向引物5’端序列下划线部分为20个polyT。

表2

(2)PCR扩增得到5条大小为1840bp的产物，4条大小为640bp的产物。其中，5条1840bp产物的GC含量分别：P1840-1为49％、P1840-2为48％、P1840-3为49％、P1840-4为57％、P1840-5为58％，4条640bp产物的GC含量分别为：P640-1为52％、P640-2为41％、P640-3为59％、P640-4为56％。

(3)再以9条PCR扩增DNA产物作为模板用体外转录试剂盒T7 High YieldTranscription Kit(Vazyme TR101)得到9条大小分别为：5条1823nt、4条623nt的带有20ntpolyA尾巴的RNA，分别命名为P1823-1、P1823-2、P1823-3、P1823-4、P1823-5、P623-1、P623-2、P623-3、P623-4，核苷酸序列分别如SEQ ID NO.24-SEQ ID NO.32所示。

(4)最后，将P623-1、P623-2、P623-3、P623-4、P1823-1、P1823-2、P1823-3、P1823-4、P1823-5 9条单链RNA依次按照9个不同的分子拷贝数比例10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴混合成内参标准品RNA。

实施例2转录组文库构建

一、mRNA片段化

(1)取0.1μg来自小鼠C2C12细胞系提取的总RNA，加入实施例1制备得到的内参标准品RNA(加入量为mRNA总量的1％，mRNA量按照总RNA总量的2％计算)，用

mRNACapture Beads捕获mRNA，获取样本10ul。

(2)将上一步得到的mRNA按下表3，在0.2ml的PCR管中配制片段化反应体系：

表3

然后将PCR管放到PCR仪器里，85℃保温6min，4℃保存。

二、反转录合成cDNA以及加接头

(1)在上述17μL mRNA片段样本中加入下表4中的成分：

表4

表4中的BBA由长短相差4bp的两种BBA-L和BBA-S按照相同摩尔比例混合。

(2)用移液器轻轻混匀避免气泡产生，离心。将PCR管放入PCR仪器里按下表5的条件设置反应程序。

表5

(3)cDNA片段大小选择(片段大小为250-350nt)

a.将Agencourt AMPure XP Beads(Beckman Coulter)提前30min从2-8℃取出，静置使其温度平衡至室温。

b.颠倒或涡旋振荡使Agencourt AMPure XP Beads充分混匀，吸取40μL(1×)加入到上步产物中，使用移液器轻轻吸打10次充分混匀，室温孵育10min，使DNA结合到磁珠上。

c.将样品置于磁力架上，待溶液澄清后(约5min)，小心移除上清。

d.保持样品始终处于磁力架上，加入200μL新鲜配制的80％乙醇漂洗磁珠，室温下孵育30sec，去除上清。

e.重复步骤d一次

f.保持样品始终处于磁力架上，在室温下开盖干燥磁珠约5-10min。

g.将样品从磁力架上取出，加入102.5μL Nuclease-free H₂O，使用移液器轻轻吸打充分混匀，室温静置2min后置于磁力架上，待溶液澄清后(约5min)，小心吸取100μL上清至一个新的Nuclease-free PCR管中。

h.颠倒或涡旋振荡使Agencourt AMPure XP Beads充分混匀，吸取65μL加入到上步100μL产物中，使用移液器轻轻吸打10次充分混匀，室温孵育10min，使DNA结合到磁珠上。

i.将样品置于磁力架上，待溶液澄清后(约5min)，保持样品始终处于磁力架上，吸取155μL上清至一个新的Nuclease-free PCR管中。

g.加入10μL Agencourt AMPure XP Beads，使用移液器轻轻吸打10次充分混匀，室温孵育10min，使DNA结合到磁珠上。

k.将样品置于磁力架上，待溶液澄清后(约5min)，小心移除上清。

l.保持样品始终处于磁力架上，加入200μL新鲜配制的80％乙醇漂洗磁珠，室温孵育30sec，小心移除上清。

m.重复步骤l一次。

n.保持样品始终处于磁力架上，在室温下干燥磁珠约5-10min。

o.将样品从磁力架上取出，加入22.5μL Nuclease-free H2O，涡旋振荡或使用移液器轻轻吸打充分混匀，室温静置2min置于磁力架上，待溶液澄清后(约5min)，小心吸取20μL上清至一个新的Nuclease-free PCR管中。

三、文库PCR扩增

(1)将步骤二获得的cDNA产物进行PCR扩增，按如下表6的组分配置反应体系：

表6

用移液器轻轻混匀避免气泡产生，离心。

(2)在PCR仪中运行如表7下程序，进行cDNA产物扩增.

表7

(3)PCR产物纯化：

a.将Agencourt AMPure XP Beads(Beckman Coulter)提前30min从2-8℃取出，静置使其温度平衡至室温

b.颠倒或涡旋振荡使Agencourt AMPure XP Beads充分混匀，吸取50μL(1×)加入到PCR产物中，使用移液器轻轻吸打10次充分混匀，室温孵育10min，使DNA结合到磁珠上。

e.重复步骤d一次

g.将样品从磁力架上取出，加入22.5μL Nuclease-free H₂O，使用移液器轻轻吸打充分混匀，室温静置2min后置于磁力架上，待溶液澄清后(约5min)，小心吸取21μL上清至一个新的Nuclease-free PCR管中。

四、文库质检使用Agilent Bioanalyzer 2100analysis system(Agilent,SantaClara,USA)和相应的检测试剂盒High Sensitivity DNA Kit(Agilent)对文库的片段大小分布进行检测，详细操作根据试剂盒的使用说明书，检测结果如图2所示。

图2为文库Agilent Bioanalyzer 2100片段分布的检测结果。从图2可以看出，文库的片段分布从250bp到750bp，主要集中在479bp左右，成正态分布，符合illumina测序平台PE150测序策略。

使用Qubit fluorometer(Invitrogen)仪器和相应的检测试剂盒Qubit^TM dsDNAHS Assay Kit(Invitrogen)精确检测文库的质量浓度，详细操作根据试剂盒的使用说明书。用Qubit检测文库质量浓度为5.66ng/ul，符合illumina测序平台上机测序的文库浓度不低于1ng/μL的要求。

对比例

与实施例2的区别，采用普通的RNA-seq文库流程，即不加入BBA，需要加入平衡文库。取0.1μg来自小鼠C2C12细胞系提取的总RNA，加入实施例1制备得到的内参标准品RNA(加入量为mRNA总量的1％，mRNA量按照总RNA总量的2％计算)，用

mRNA CaptureBeads捕获mRNA，获取样本8ul。样本建库使用SMARTer Stranded RNA-Seq Kits(Takara)详细操作过程根据试剂盒的使用说明书(平衡文库的加入量参照说明书)。文库质检操作方法同实施例2，文库Agilent Bioanalyzer 2100片段分布的检测结果如图3所示。

图3为文库Agilent Bioanalyzer 2100片段分布的检测结果。从图3可以看出，对比例构建的文库的片段分布从250bp到750bp，主要集中在460bp左右，成正态分布，符合illumina测序平台PE150测序策略。用Qubit检测文库质量浓度为3.96ng/ul，符合illumina测序平台上机测序的文库浓度不低于1ng/μL的要求。

数据分析结果

针对实施例2获得的转录组文库进行数据分析，参照图4中的数据分析流程图，具体分析过程如下：

(4)从测序结果中去除首末两端接头中的随机序列；

(5)测序数据与参考基因组及内参序列进行比对；

针对对比例获得的转录组文库进行数据分析，采用本领域常规的文库数据分析方法进行分析。再对比实施例2和对比例中的数据分析结果。去除测序引物后，质量评估结果中，BBA接头序列可以平衡测序起始部分的质量，对比常规文库构建需要添加平衡文库的数据。

从图5可以看出：数据初始质量控制，去除低质量及相应接头序列，与未考虑平衡序列的普通RNA-seq文库的测序结果相比，引入BBA标签的文库的测序起始端的测序质量明显较高。应用BBA平衡序列可减少测序过程中平衡文库DNA的加入量。从图6可以看出：以UID标签中平衡接头序列特征进行识别，区分文库构建及测序过程中潜在污染序列。此处，UID标签指的是加入的BBA中的6个随机碱基N的分子条码序列。

解析UID的序列，将带有相似度极高UID序列的reads作为同一个RNA片段分子多个建库测序拷贝；仅保留一条最长reads记录作为代表序列结果；在细胞文库构建过程中，由于基因表达种类较组织测序结果中的少，因此对于未带有UID标签的文库测序结果，去除PCR duplication会导致多数RNA片段在最终计算过程中的损失，而加入UID标签后，超过90％的序列可以被识别为有效表达数目，片段的表达数目估计更为准确。将去除UID标签的序列比对到基因组及内参序列上，计算表达量及矫正差异基因结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换等，均应包含在本发明的保护范围之内。

序列表

<110> 中国农业科学院农业基因组研究所

<120> 带有分子条码的平衡接头及快速构建转录组文库的方法

<160> 32

<170> PatentIn version 3.5

<210> 1

<211> 36

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (23)..(28)

<223> n is a, c, g, or t

<400> 1

ctacacgacg ctcttccgat ctnnnnnnww wwrsrsrss 36

<210> 2

<211> 32

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (23)..(28)

<223> n is a, c, g, or t

<400> 2

ctacacgacg ctcttccgat ctnnnnnnrs rsrss 32

<210> 3

<211> 27

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (22)..(27)

<223> n is a, c, g, or t

<400> 3

agacgtgtgc tcttccgatc tnnnnnn 27

<210> 4

<211> 58

<212> DNA

<213> 人工序列

<400> 4

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatcst 58

<210> 5

<211> 66

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (25)..(32)

<223> n is a, c, g, or t

<400> 5

caagcagaag acggcatacg agatnnnnnn nngtgactgg agttcagacg tgtgctcttc 60

cgatcst 66

<210> 6

<211> 40

<212> DNA

<213> 人工序列

<400> 6

taatacgact cactataggg gaagcagaac cggatcacca 40

<210> 7

<211> 40

<212> DNA

<213> 人工序列

<400> 7

tttttttttt tttttttttt tcaaaacaaa ccggcagcag 40

<210> 8

<211> 40

<212> DNA

<213> 人工序列

<400> 8

taatacgact cactataggg tcgttagttt ctccggtggc 40

<210> 9

<211> 40

<212> DNA

<213> 人工序列

<400> 9

tttttttttt tttttttttt gacgcgatac ggaacgagat 40

<210> 10

<211> 40

<212> DNA

<213> 人工序列

<400> 10

taatacgact cactataggg tcccgttcat ccagcagttc 40

<210> 11

<211> 40

<212> DNA

<213> 人工序列

<400> 11

tttttttttt tttttttttt gaaacagaaa gccgcagagc 40

<210> 12

<211> 40

<212> DNA

<213> 人工序列

<400> 12

taatacgact cactataggg cctgttcgat gctgccattg 40

<210> 13

<211> 40

<212> DNA

<213> 人工序列

<400> 13

tttttttttt tttttttttt taccgtgctg cgatcttctg 40

<210> 14

<211> 40

<212> DNA

<213> 人工序列

<400> 14

taatacgact cactataggg taaaaccggt atgggcgctt 40

<210> 15

<211> 40

<212> DNA

<213> 人工序列

<400> 15

tttttttttt tttttttttt cgggtcatac gtggacttgt 40

<210> 16

<211> 40

<212> DNA

<213> 人工序列

<400> 16

taatacgact cactataggg ttcattcgcc aaaaagcccg 40

<210> 17

<211> 40

<212> DNA

<213> 人工序列

<400> 17

tttttttttt tttttttttt gctaacgtgt gaccgcattc 40

<210> 18

<211> 40

<212> DNA

<213> 人工序列

<400> 18

taatacgact cactataggg cagtggtcgt agcagtcgtt 40

<210> 19

<211> 40

<212> DNA

<213> 人工序列

<400> 19

tttttttttt tttttttttt tcttcacagc gatgccagag 40

<210> 20

<211> 40

<212> DNA

<213> 人工序列

<400> 20

taatacgact cactataggg aacggatggc gctgtttttc 40

<210> 21

<211> 40

<212> DNA

<213> 人工序列

<400> 21

tttttttttt tttttttttt tgtaacagtc cgtcacaccg 40

<210> 22

<211> 40

<212> DNA

<213> 人工序列

<400> 22

taatacgact cactataggg ggtatgccga aagggatgct 40

<210> 23

<211> 40

<212> DNA

<213> 人工序列

<400> 23

tttttttttt tttttttttt caccacattc acctcacgga 40

<210> 24

<211> 1823

<212> RNA

<213> 内参RNA

<400> 24

ggggaagcag aaccggauca ccaaaugcgu acaggcguca ucgccgccca gcaacagcac 60

aacccaaacu gagccguagc cacugucugu ccugaauuca uuaguaauag uuacgcugcg 120

gccuuuuaca caugaccuuc gugaaagcgg guggcaggag gucgcgcuaa caaccuccug 180

ccguuuugcc cgugcauauc ggucacgaac aaaucugauu acuaaacaca guagccugga 240

uuuguucuau caguaaucga ccuuauuccu aauuaaauag agcaaauccc cuuauugggg 300

guaagacaug aagaugccag aaaaacauga ccuguuggcc gccauucucg cggcaaagga 360

acaaggcauc ggggcaaucc uugcguuugc aauggcguac cuucgcggca gauauaaugg 420

cggugcguuu acaaaaacag uaaucgacgc aacgaugugc gccauuaucg ccugguucau 480

ucgugaccuu cucgacuucg ccggacuaag uagcaaucuc gcuuauauaa cgagcguguu 540

uaucggcuac aucgguacug acucgauugg uucgcuuauc aaacgcuucg cugcuaaaaa 600

agccggagua gaagauggua gaaaucaaua aucaacguaa ggcguuccuc gauaugcugg 660

cguggucgga gggaacugau aacggacguc agaaaaccag aaaucauggu uaugacguca 720

uuguaggcgg agagcuauuu acugauuacu ccgaucaccc ucgcaaacuu gucacgcuaa 780

acccaaaacu caaaucaaca ggcgccggac gcuaccagcu ucuuucccgu uggugggaug 840

ccuaccgcaa gcagcuuggc cugaaagacu ucucuccgaa aagucaggac gcuguggcau 900

ugcagcagau uaaggagcgu ggcgcuuuac cuaugauuga ucguggugau auccgucagg 960

caaucgaccg uugcagcaau aucugggcuu cacugccggg cgcugguuau ggucaguucg 1020

agcauaaggc ugacagccug auugcaaaau ucaaagaagc gggcggaacg gucagagaga 1080

uugauguaug agcagaguca ccgcgauuau cuccgcucug guuaucugca ucaucgucug 1140

ccugucaugg gcuguuaauc auuaccguga uaacgccauu accuacaaag cccagcgcga 1200

caaaaaugcc agagaacuga agcuggcgaa cgcggcaauu acugacaugc agaugcguca 1260

gcgugauguu gcugcgcucg augcaaaaua cacgaaggag uuagcugaug cuaaagcuga 1320

aaaugaugcu cugcgugaug auguugccgc uggucgucgu cgguugcaca ucaaagcagu 1380

cugucaguca gugcgugaag ccaccaccgc cuccggcgug gauaaugcag ccuccccccg 1440

acuggcagac accgcugaac gggauuauuu cacccucaga gagaggcuga ucacuaugca 1500

aaaacaacug gaaggaaccc agaaguauau uaaugagcag ugcagauaga guugcccaua 1560

ucgaugggca acucaugcaa uuauugugag caauacacac gcgcuuccag cggaguauaa 1620

augccuaaag uaauaaaacc gagcaaucca uuuacgaaug uuugcugggu uucuguuuua 1680

acaacauuuu cugcgccgcc acaaauuuug gcugcaucga caguuuucuu cugcccaauu 1740

ccagaaacga agaaaugaug ggugaugguu uccuuuggug cuacugcugc cgguuuguuu 1800

ugaaaaaaaa aaaaaaaaaa aaa 1823

<210> 25

<211> 1823

<212> RNA

<213> 内参RNA

<400> 25

gggucguuag uuucuccggu ggcaggacgu cagcauauuu gcucuggcua auggagcaaa 60

agcgacgggc agguaaagac gugcauuacg uuuucaugga uacagguugu gaacauccaa 120

ugacauaucg guuugucagg gaaguuguga aguucuggga uauaccgcuc accguauugc 180

agguugauau caacccggag cuuggacagc caaaugguua uacgguaugg gaaccaaagg 240

auauucagac gcgaaugccu guucugaagc cauuuaucga uaugguaaag aaauauggca 300

cuccauacgu cggcggcgcg uucugcacug acagauuaaa acucguuccc uucaccaaau 360

acugugauga ccauuucggg cgagggaauu acaccacgug gauuggcauc agagcugaug 420

aaccgaagcg gcuaaagcca aagccuggaa ucagauaucu ugcugaacug ucagacuuug 480

agaaggaaga uauccucgca ugguggaagc aacaaccauu cgauuugcaa auaccggaac 540

aucucgguaa cugcauauuc ugcauuaaaa aaucaacgca aaaaaucgga cuugccugca 600

aagaugagga gggauugcag cguguuuuua augaggucau cacgggaucc caugugcgug 660

acggacaucg ggaaacgcca aaggagauua uguaccgagg aagaaugucg cuggacggua 720

ucgcgaaaau guauucagaa aaugauuauc aagcccugua ucaggacaug guacgagcua 780

aaagauucga uaccggcucu uguucugagu caugcgaaau auuuggaggg cagcuugauu 840

ucgacuucgg gagggaagcu gcaugaugcg auguuaucgg ugcggugaau gcaaagaaga 900

uaaccgcuuc cgaccaaauc aaccuuacug gaaucgaugg ugucuccggu gugaaagaac 960

accaacaggg guguuaccac uaccgcagga aaaggaggac guguggcgag acagcgacga 1020

aguaucaccg acauaaucug cgaaaacugc aaauaccuuc caacgaaacg caccagaaau 1080

aaacccaagc caaucccaaa agaaucugac guaaaaaccu ucaacuacac ggcucaccug 1140

ugggauaucc gguggcuaag acgucgugcg aggaaaacaa ggugauugac caaaaucgaa 1200

guuacgaaca agaaagcguc gagcgagcuu uaacgugcgc uaacugcggu cagaagcugc 1260

augugcugga aguucacgug ugugagcacu gcugcgcaga acugaugagc gauccgaaua 1320

gcucgaugca cgaggaagaa gaugauggcu aaaccagcgc gaagacgaug uaaaaacgau 1380

gaaugccggg aaugguuuca cccugcauuc gcuaaucagu gguggugcuc uccagagugu 1440

ggaaccaaga uagcacucga acgacgaagu aaagaacgcg aaaaagcgga aaaagcagca 1500

gagaagaaac gacgacgaga ggagcagaaa cagaaagaua aacuuaagau ucgaaaacuc 1560

gccuuaaagc cccgcaguua cuggauuaaa caagcccaac aagccguaaa cgccuucauc 1620

agagaaagag accgcgacuu accauguauc ucgugcggaa cgcucacguc ugcucagugg 1680

gaugccggac auuaccggac aacugcugcg gcaccucaac uccgauuuaa ugaacgcaau 1740

auucacaagc aaugcguggu gugcaaccag cacaaaagcg gaaaucucgu uccguaucgc 1800

gucaaaaaaa aaaaaaaaaa aaa 1823

<210> 26

<211> 1823

<212> RNA

<213> 内参RNA

<400> 26

gggucccguu cauccagcag uuccagcaca aucgauggug uuaccaauuc auggaaaagg 60

ucugcgucaa auccccaguc gucaugcauu gccugcucug ccgcuucacg cagugccuga 120

gaguuaauuu cgcucacuuc gaaccucucu guuuacugau aaguuccaga uccuccuggc 180

aacuugcaca aguccgacaa cccugaacga ccaggcgucu ucguucaucu aucggaucgc 240

cacacucaca acaaugagug gcagauauag ccuggugguu caggcggcgc auuuuuauug 300

cuguguugcg cuguaauucu ucuauuucug augcugaauc aaugaugucu gccaucuuuc 360

auuaaucccu gaacuguugg uuaauacgcu ugagggugaa ugcgaauaau aaaaaaggag 420

ccuguagcuc ccugaugauu uugcuuuuca uguucaucgu uccuuaaaga cgccguuuaa 480

caugccgauu gccaggcuua aaugagucgg ugugaauccc aucagcguua ccguuucgcg 540

gugcuucuuc aguacgcuac ggcaaauguc aucgacguuu uuauccggaa acugcugucu 600

ggcuuuuuuu gauuucagaa uuagccugac gggcaaugcu gcgaagggcg uuuuccugcu 660

gaggugucau ugaacaaguc ccaugucggc aagcauaagc acacagaaua ugaagcccgc 720

ugccagaaaa augcauuccg ugguugucau accugguuuc ucucaucugc uucugcuuuc 780

gccaccauca uuuccagcuu uugugaaagg gaugcggcua acguaugaaa uucuucgucu 840

guuucuacug guauuggcac aaaccugauu ccaauuugag caaggcuaug ugccaucucg 900

auacucguuc uuaacucaac agaagaugcu uugugcauac agccccucgu uuauuauuua 960

ucuccucagc cagccgcugu gcuuucagug gauuucggau aacagaaagg ccgggaaaua 1020

cccagccucg cuuuguaacg gaguagacga aagugauugc gccuacccgg auauuaucgu 1080

gaggaugcgu caucgccauu gcuccccaaa uacaaaacca auuucagcca gugccucguc 1140

cauuuuuucg augaacuccg gcacgaucuc gucaaaacuc gccauguacu uuucaucccg 1200

cucaaucacg acauaaugca ggccuucacg cuucauacgc gggucauagu uggcaaagua 1260

ccaggcauuu uuucgcguca cccacaugcu guacugcacc ugggccaugu aagcugacuu 1320

uauggccucg aaaccaccga gccggaacuu caugaaaucc cgggagguaa acgggcauuu 1380

caguucaagg ccguugccgu cacugcauaa accaucggga gagcaggcgg uacgcauacu 1440

uucgucgcga uagaugaucg gggauucagu aacauucacg ccggaaguga auucaaacag 1500

gguucuggcg ucguucucgu acuguuuucc ccaggccagu gcuuuagcgu uaacuuccgg 1560

agccacaccg gugcaaaccu cagcaagcag gguguggaag uaggacauuu ucaugucagg 1620

ccacuucuuu ccggagcggg guuuugcuau cacguuguga acuucugaag cggugaugac 1680

gccgagccgu aauuugugcc acgcaucauc ccccuguucg acagcucuca caucgauccc 1740

gguacgcugc aggauaaugu ccggugucau gcugccaccu ucugcucugc ggcuuucugu 1800

uucaaaaaaa aaaaaaaaaa aaa 1823

<210> 27

<211> 1823

<212> RNA

<213> 内参RNA

<400> 27

gggccuguuc gaugcugcca uugcccgcgc cgaugaaacg auacgcgggu acaugggaac 60

gucagccacc auuacauccg gugagcaguc aggugcggug auacguggug uuuuugauga 120

cccugaaaau aucagcuaug ccggacaggg cgugcgcguu gaaggcucca gcccgucccu 180

guuuguccgg acugaugagg ugcggcagcu gcggcgugga gacacgcuga ccaucgguga 240

ggaaaauuuc uggguagauc ggguuucgcc ggaugauggc ggaaguuguc aucucuggcu 300

uggacggggc guaccgccug ccguuaaccg ucgccgcuga aagggggaug uauggccaua 360

aaaggucuug agcaggccgu ugaaaaccuc agccguauca gcaaaacggc ggugccuggu 420

gccgccgcaa uggccauuaa ccgcguugcu ucauccgcga uaucgcaguc ggcgucacag 480

guugcccgug agacaaaggu acgccggaaa cugguaaagg aaagggccag gcugaaaagg 540

gccacgguca aaaauccgca ggccagaauc aaaguuaacc ggggggauuu gcccguaauc 600

aagcugggua augcgcgggu uguccuuucg cgccgcaggc gucguaaaaa ggggcagcgu 660

ucaucccuga aagguggcgg cagcgugcuu guggugggua accgucguau ucccggcgcg 720

uuuauucagc aacugaaaaa uggccggugg caugucaugc agcguguggc ugggaaaaac 780

cguuacccca uugauguggu gaaaaucccg auggcggugc cgcugaccac ggcguuuaaa 840

caaaauauug agcggauacg gcgugaacgu cuuccgaaag agcugggcua ugcgcugcag 900

caucaacuga ggaugguaau aaagcgauga aacauacuga acuccgugca gccguacugg 960

augcacugga gaagcaugac accggggcga cguuuuuuga uggucgcccc gcuguuuuug 1020

augaggcgga uuuuccggca guugccguuu aucucaccgg cgcugaauac acgggcgaag 1080

agcuggacag cgauaccugg caggcggagc ugcauaucga aguuuuccug ccugcucagg 1140

ugccggauuc agagcuggau gcguggaugg agucccggau uuauccggug augagcgaua 1200

ucccggcacu gucagauuug aucaccagua ugguggccag cggcuaugac uaccggcgcg 1260

acgaugaugc gggcuugugg aguucagccg aucugacuua ugucauuacc uaugaaaugu 1320

gaggacgcua ugccuguacc aaauccuaca augccgguga aaggugccgg gaccacccug 1380

uggguuuaua aggggagcgg ugacccuuac gcgaauccgc uuucagacgu ugacuggucg 1440

cgucuggcaa aaguuaaaga ccugacgccc ggcgaacuga ccgcugaguc cuaugacgac 1500

agcuaucucg augaugaaga ugcagacugg acugcgaccg ggcaggggca gaaaucugcc 1560

ggagauacca gcuucacgcu ggcguggaug cccggagagc aggggcagca ggcgcugcug 1620

gcgugguuua augaaggcga uacccgugcc uauaaaaucc gcuucccgaa cggcacgguc 1680

gauguguucc guggcugggu cagcaguauc gguaaggcgg ugacggcgaa ggaagugauc 1740

acccgcacgg ugaaagucac caauguggga cguccgucga uggcagaaga ucgcagcacg 1800

guaaaaaaaa aaaaaaaaaa aaa 1823

<210> 28

<211> 1823

<212> RNA

<213> 内参RNA

<400> 28

ggguaaaacc gguaugggcg cuugccaacg acaugaacug cagugcaggu caguugcuug 60

ccagugccgc cucccggcgu cuggucacgc agaccgcccg gacaggcucc aucggcguca 120

ugauggcuca caguaauuac ggugcugcgc uggagaaaca ggguguggaa aucacgcuga 180

uuuacagcgg cagccauaag guggauggca accccuacag ccaucuuccg gaugacgucc 240

gggagacacu gcagucccgg auggacgcaa cccgccagau guuugcgcag aaggugucgg 300

cauauaccgg ccuguccgug cagguugugc uggauaccga ggcugcagug uacagcgguc 360

aggaggccau ugaugccgga cuggcugaug aacuuguuaa cagcaccgau gcgaucaccg 420

ucaugcguga ugcacuggau gcacguaaau cccgucucuc aggagggcga augaccaaag 480

agacucaauc aacaacuguu ucagccacug cuucgcaggc ugacguuacu gacguggugc 540

cagcgacgga gggcgagaac gccagcgcgg cgcagccgga cgugaacgcg cagaucaccg 600

cagcgguugc ggcagaaaac agccgcauua uggggauccu caacugugag gaggcucacg 660

gacgcgaaga acaggcacgc gugcuggcag aaacccccgg uaugaccgug aaaacggccc 720

gccgcauucu ggccgcagca ccacagagug cacaggcgcg cagugacacu gcgcuggauc 780

gucugaugca gggggcaccg gcaccgcugg cugcagguaa cccggcaucu gaugccguua 840

acgauuugcu gaacacacca guguaaggga uguuuaugac gagcaaagaa accuuuaccc 900

auuaccagcc gcagggcaac agugacccgg cucauaccgc aaccgcgccc ggcggauuga 960

gugcgaaagc gccugcaaug accccgcuga ugcuggacac cuccagccgu aagcugguug 1020

cgugggaugg caccaccgac ggugcugccg uuggcauucu ugcgguugcu gcugaccaga 1080

ccagcaccac gcugacguuc uacaaguccg gcacguuccg uuaugaggau gugcucuggc 1140

cggaggcugc cagcgacgag acgaaaaaac ggaccgcguu ugccggaacg gcaaucagca 1200

ucguuuaacu uuacccuuca ucacuaaagg ccgccugugc ggcuuuuuuu acgggauuuu 1260

uuuaugucga uguacacaac cgcccaacug cuggcggcaa augagcagaa auuuaaguuu 1320

gauccgcugu uucugcgucu cuuuuuccgu gagagcuauc ccuucaccac ggagaaaguc 1380

uaucucucac aaauuccggg acugguaaac auggcgcugu acguuucgcc gauuguuucc 1440

ggugagguua uccguucccg uggcggcucc accucugaau uuacgccggg auaugucaag 1500

ccgaagcaug aagugaaucc gcagaugacc cugcgucgcc ugccggauga agauccgcag 1560

aaucuggcgg acccggcuua ccgccgccgu cgcaucauca ugcagaacau gcgugacgaa 1620

gagcuggcca uugcucaggu cgaagagaug caggcaguuu cugccgugcu uaagggcaaa 1680

uacaccauga ccggugaagc cuucgauccg guugaggugg auaugggccg cagugaggag 1740

aauaacauca cgcaguccgg cggcacggag uggagcaagc gugacaaguc cacguaugac 1800

ccgaaaaaaa aaaaaaaaaa aaa 1823

<210> 29

<211> 623

<212> RNA

<213> 内参RNA

<400> 29

ggguucauuc gccaaaaagc ccgaugauga gcgacucacc acgggccacg gcuucugacu 60

cucuuuccgg uacugaugug auggcugcua uggggauggc gcaaucacaa gccggauucg 120

guauggcugc auucugcggu aagcacgaac ucagccagaa cgacaaacaa aaggcuauca 180

acuaucugau gcaauuugca cacaagguau cggggaaaua ccguggugug gcaaagcuug 240

aaggaaauac uaaggcaaag guacugcaag ugcucgcaac auucgcuuau gcggauuauu 300

gccguagugc cgcgacgccg ggggcaagau gcagagauug ccaugguaca ggccgugcgg 360

uugauauugc caaaacagag cuguggggga gaguugucga gaaagagugc ggaagaugca 420

aaggcgucgg cuauucaagg augccagcaa gcgcagcaua ucgcgcugug acgaugcuaa 480

ucccaaaccu uacccaaccc accuggucac gcacuguuaa gccgcuguau gacgcucugg 540

uggugcaaug ccacaaagaa gagucaaucg cagacaacau uuugaaugcg gucacacguu 600

agcaaaaaaa aaaaaaaaaa aaa 623

<210> 30

<211> 623

<212> RNA

<213> 内参RNA

<400> 30

gggcaguggu cguagcaguc guugauguuc uccgcuucga uaacucuguu gaauggcucu 60

ccauuccauu cuccugugac ucggaagugc auuuaucauc uccauaaaac aaaacccgcc 120

guagcgaguu cagauaaaau aaauccccgc gagugcgagg auuguuaugu aauauugggu 180

uuaaucaucu auauguuuug uacagagagg gcaaguaucg uuuccaccgu acucgugaua 240

auaauuuugc acgguaucag ucauuucucg cacauugcag aauggggauu ugucuucauu 300

agacuuauaa accuucaugg aauauuugua ugccgacucu auaucuauac cuucaucuac 360

auaaacaccu ucgugauguc ugcauggaga caagacaccg gaucugcaca acauugauaa 420

cgcccaaucu uuuugcucag acucuaacuc auugauacuc auuuauaaac uccuugcaau 480

guaugucguu ucagcuaaac gguaucagca auguuuaugu aaagaaacag uaagauaaua 540

cucaacccga uguuugagua cggucaucau cugacacuac agacucuggc aucgcuguga 600

agaaaaaaaa aaaaaaaaaa aaa 623

<210> 31

<211> 623

<212> RNA

<213> 内参RNA

<400> 31

gggaacggau ggcgcuguuu uuccgggacg uaucaugcug gccaacaccu gcaccuggac 60

cuaucgcggu gacgagugcg guuauagcgg uccggcuguc gcggaugaau augaccagcc 120

aacguccgau aucacgaagg auaaaugcag caaaugccug agcgguugua aguuccgcaa 180

uaacgucggc aacuuuggcg gcuuccuuuc cauuaacaaa cuuucgcagu aaaucccaug 240

acacagacag aaucagcgau ucuggcgcac gcccggcgau gugcgccagc ggagucgugc 300

ggcuucgugg uaagcacgcc ggagggggaa agauauuucc ccugcgugaa uaucuccggu 360

gagccggagg cuauuuccgu augucgccgg aagacuggcu gcaggcagaa augcagggug 420

agauuguggc gcugguccac agccaccccg guggucugcc cuggcugagu gaggccgacc 480

ggcggcugca ggugcagagu gauuugccgu gguggcuggu cugccggggg acgauucaua 540

aguuccgcug ugugccgcau cucaccgggc ggcgcuuuga gcacggugug acggacuguu 600

acaaaaaaaa aaaaaaaaaa aaa 623

<210> 32

<211> 623

<212> RNA

<213> 内参RNA

<400> 32

ggggguaugc cgaaagggau gcugaaauug agaacgaaaa gcugcgccgg gagguugaag 60

aacugcggca ggccagcgag gcagaucucc agccaggaac uauugaguac gaacgccauc 120

gacuuacgcg ugcgcaggcc gacgcacagg aacugaagaa ugccagagac uccgcugaag 180

ugguggaaac cgcauucugu acuuucgugc ugucgcggau cgcaggugaa auugccagua 240

uucucgacgg gcucccccug ucggugcagc ggcguuuucc ggaacuggaa aaccgacaug 300

uugauuuccu gaaacgggau aucaucaaag ccaugaacaa agcagccgcg cuggaugaac 360

ugauaccggg guugcugagu gaauauaucg aacagucagg uuaacaggcu gcggcauuuu 420

guccgcgccg ggcuucgcuc acuguucagg ccggagccac agaccgccgu ugaaugggcg 480

gaugcuaauu acuaucuccc gaaagaaucc gcauaccagg aagggcgcug ggaaacacug 540

cccuuucagc gggccaucau gaaugcgaug ggcagcgacu acauccguga ggugaaugug 600

gugaaaaaaa aaaaaaaaaa aaa 623

Claims

1.带有分子条码的平衡接头，其特征在于，由长短不同的两种平衡接头混合组成；

所述长平衡接头的核苷酸序列从5’到3’末端依次由测序文库PCR引物识别序列、分子条码序列、中间碱基序列、末端碱基序列组成；

所述短平衡接头的核苷酸序列从5’到3’末端依次由测序文库PCR引物识别序列、分子条码序列、末端碱基序列组成；

其中，所述分子条码序列为5-10个随机碱基N；所述两种平衡接头的末端碱基序列部分和/或全部相同；所述中间碱基序列与末端碱基序列的碱基种类不同；

所述末端碱基序列为3-8个简并性碱基S；

所述中间碱基序列为3-8个简并性碱基W。

2.根据权利要求1所述的平衡接头，其特征在于，所述长平衡接头和短平衡接头按照相同和/或相近摩尔比混合；

所述末端碱基序列，和/或中间碱基序列的碱基个数为3-5个；

所述分子条码序列的碱基个数为5-7个。

3.根据权利要求1所述的平衡接头，其特征在于，所述末端碱基序列，和/或中间碱基序列的碱基个数为4个；

所述分子条码序列的碱基个数为6个。

4.根据权利要求1所述的平衡接头，其特征在于，所述两种平衡接头的核苷酸序列均包括：从5’到3’末端依次为Illumina测序文库PCR引物识别序列、6个随机碱基N的分子条码序列、4个简并性碱基S的末端碱基序列；

所述中间碱基序列为4个简并性碱基W。

5.根据权利要求1-4任一项所述的平衡接头，其特征在于，所述长平衡接头的核苷酸序列为SEQ ID NO.1所示的核苷酸序列：

5’-CTACACGACGCTCTTCCGATCTNNNNNNWWWWrSrSrS+S-3’；和/或，

所述短平衡接头的核苷酸序列为SEQ ID NO.2所示的核苷酸序列：

5’-CTACACGACGCTCTTCCGATCTNNNNNNrSrSrS+S-3’。

6.权利要求1-5任一项所述的平衡接头在构建转录组文库中的应用。

7.一种快速构建转录组文库的方法，其特征在于，包括采用权利要求1-6任一项所述的平衡接头进行构建。

8.根据权利要求7所述的方法，其特征在于，包括以下步骤：

(1)mRNA的分离和片段化；

(2)反转录合成cDNA第一链及加所述的平衡接头；

(3)文库PCR扩增；

(4)文库质检；

(5)上机测序。

9.根据权利要求8所述的方法，其特征在于，所述步骤(1)在mRNA分离之前加入单链内参标准品RNA。

10.根据权利要求9所述的方法，其特征在于，所述步骤(1)在mRNA分离之前加入条数为5-130条单链内参标准品RNA。

11.根据权利要求9所述的方法，其特征在于，所述内参标准品RNA的加入量为mRNA总量的0.5-2％。

12.根据权利要求9所述的方法，其特征在于，所述内参标准品RNA的GC含量为40-60％。

13.根据权利要求9所述的方法，其特征在于，所述内参标准品RNA的长度为几十到几千个碱基。

14.根据权利要求9所述的方法，其特征在于，所述内参标准品RNA为5-130条单链RNA按照不同分子拷贝数比例混合而成。

15.根据权利要求9所述的方法，其特征在于，所述内参标准品RNA为9条大小分别为：5条1823nt、4条623nt的单链RNA，按不同分子拷贝数比例混合而成。

16.根据权利要求9所述的方法，其特征在于，所述内参标准品RNA带有20nt polyA尾巴。

17.一种构建转录组文库的试剂，其特征在于，包括权利要求1-5任一项所述的平衡接头；权利要求9-16任一项中所述的内参标准品RNA。

18.一种构建转录组文库的试剂盒，其特征在于，包括权利要求1-5任一项所述的平衡接头；权利要求9-16任一项中所述的内参标准品RNA；任选地权利要求17所述的试剂。

19.根据权利要求18所述的试剂盒，其特征在于，包括权利要求1-5任一项所述的平衡接头，权利要求9-16任一项中所述的内参标准品RNA，以及构建转录组文库需要的材料。