CN110872609A

CN110872609A - 对小rna分子精准建库和测序的方法以及应用

Info

Publication number: CN110872609A
Application number: CN201811026457.4A
Authority: CN
Inventors: 唐冲; 陈智超; 郭梅; 杨林峰; 高强
Original assignee: BGI Technology Solutions Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2018-09-04
Filing date: 2018-09-04
Publication date: 2020-03-10

Abstract

本发明涉及生物测序领域，具体涉及一种对小RNA分子建库和测序的方法以及应用。本发明提供了一种单链寡核苷酸分子，包括：扩增引物结合序列，所述扩增引物结合序列形成在所述单链寡核苷酸分子的5’末端；3’接头结合序列，所述3’接头结合序列形成在所述单链寡核苷酸分子的3’末端；UMI序列，所述UMI序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；Index序列，所述Index序列形成在所述扩增引物结合序列和所述3’接头结合序列之间。同时提供了由此序列构成的双链寡核苷酸分子、测序文库分子、测序文库、构建测序文库的方法以及对插入片段进行测序的方法。由此可以实现对于小RNA分子的精准建库和测序。

Description

对小RNA分子精准建库和测序的方法以及应用

技术领域

本发明涉及生物测序领域，具体涉及一种对于小RNA分子进行精准建库和测序的方法，尤其涉及一种单链寡核苷酸分子、双链寡核苷酸分子、测序文库分子、测序文库、构建测序文库的方法以及对插入片段进行测序的方法。

背景技术

Small RNA(小RNA)是生物体内的一大类调控分子，包括micro RNA、siRNA、piRNA、ncRNA、snoRNA、rasiRNA，它们存在几乎所有生物体内，通过多种多样的作用途径，包括mRNA降解、翻译抑制、异染色质形成以及DNA去除，来调控生物个体发育、代谢及疾病的发生等生理过程。

目前，有多种技术可对Small RNA表达量进行定量。其中，高通量测序技术因其具有通量高、灵敏度高、无需任何预先的序列信息以及二级结构信息、可以发现新的smallRNA分子等优点在small RNA定量领域得到广泛应用。

然后对于小RNA的建库测序还有待进一步改进。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种对于小RNA分子进行建库和测序的方法，具体涉及到一种单链寡核苷酸分子、双链寡核苷酸分子、测序文库分子、测序文库、构建测序文库的方法以及对插入片段进行测序的方法。本文中，小RNA泛指一切小于200nt的RNA分子。

本发明是基于发明人的如下发现所获得的：

本发明的发明人在研究small RNA测序过程中，发现存在两个主要问题：第一，在普通样本中，如细胞total RNA，由于small RNA在total RNA中占比小，small RNA总量很低，而在total RNA以small RNA为主的血浆、血清和外泌体等样品中，total RNA含量低，所以在大部分样品中，特别是低起始量的样本中，可用于建库的small RNA数量较少导致PCR步骤的循环数需要很高才能达到上机所需的PCR产物量，PCR循环数越高，产生的PCR Bias越大，测序的准确度也就越低。第二，Small RNA建库测序流程的一个突出问题是接头二聚体(adapter dimer)污染的存在，尤其是在低起始量的small RNA建库中，接头二聚体可能在数据中占有较大的比例，严重影响测序数据的利用率。

为此，本发明提供了如下技术方案：

根据本发明的第一方面，本发明提供了一种单链寡核苷酸分子，包括：扩增引物结合序列，所述扩增引物结合序列形成在所述单链寡核苷酸分子的5’末端；3’接头结合序列，所述3’接头结合序列形成在所述单链寡核苷酸分子的3’末端；UMI序列，所述UMI序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；Index序列，所述Index序列形成在所述扩增引物结合序列和所述3’接头结合序列之间。本发明提供了一种单链寡核苷酸分子，该寡核苷酸分子在远离3’接头结合序列的部分含有UMI序列(Unique MolecularIdentifier，中文也称独立分子标签或者分子条形码)以及Index序列，其中Index序列用于区分不同的样品，UMI序列为随机碱基，用于不同特异性片段的识别。同时在该寡核苷酸分子的3’末端还含有测序接头结合序列，能够用于在测序文库构建过程中，同3’测序接头结合。由此，本发明提供的单链寡核苷酸分子可以用于不同样品中特定片段的建库和测序，尤其适于小片段分子的建库和测序。其中，UMI序列和Index序列均形成在所述扩增引物结合序列和3’接头结合序列之间，UMI序列和Index序列的位置可以互换。

根据本发明的实施例，以上所述单链寡核苷酸分子可以进一步附加如下技术特征：

在本发明的一些实施例中，所述UMI序列形成在所述测序接头结合序列和所述Index序列之间。

在本发明的一些实施例中，所述UMI序列为8～12个随机碱基。由此利用不同的UMI序列可以用于不同片段的建库和测序，然后通过识别UMI序列的碱基排列，得到各不同片段的测序结果。

在本发明的一些实施例中，所述测序接头结合序列适于与3’测序接头结合。

在本发明的一些实施例中，所述单链寡核苷酸分子为DNA。

在本发明的一些实施例中，所述单链寡核苷酸分子为50bp～80bp。

根据本发明的第二方面，本发明提供了一种双链寡核苷酸分子，包括：第一链和第二链，所述第一链为本发明第一方面所述的单链寡核苷酸分子；所述第二链包含小RNA分子和3’接头序列，所述小RNA分子和所述3’接头序列相连，所述3’接头序列与所述3’接头结合序列匹配形成双链区。本发明提供的双链寡核酸分子，包括两条链，其中第二条链中含有3’接头序列，该3’接头序列能够与第一条链上的3’接头结合序列匹配。由于该双链中含有的一条链具有本发明第一方面提到的单链寡核酸分子的特征和功能，因此本发明所提供的双链寡核酸分子也能够用于不同样品中特定片段的建库和测序，尤其适于小片段分子的建库和测序。

在本发明的第三方面，本发明提供了一种测序文库分子，所述测序文库分子由匹配的双链构成，其中所述双链之一包括：插入片段互补序列，所述插入片段互补序列与插入片段反向互补；3’接头结合序列，所述3’接头结合序列与所述插入片段互补序列的5’末端相连；扩增引物结合序列，所述扩增引物结合序列形成在所述双链的3’末端；UMI序列，所述UMI序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；以及Index序列，所述Index序列形成在所述扩增引物结合序列和所述3’接头结合序列之间。

在本发明的一些实施例中，所述测序文库分子中所述插入片段来自于小RNA分子。

在本发明的一些实施例中，所述小RNA分子选自micro RNA、siRNA、pi RNA、ncRNA、sno RNA或者rasi RNA中的至少一种。

根据本发明的第四方面，本发明提供了一种测序文库，所述测序文库由多个测序文库分子构成，所述测序文库分子为根据本发明第三方面提供的测序文库分子。

根据本发明的第五方面，本发明提供了一种构建测序文库的方法，包括：(1)在插入片段的3’末端连接3’接头序列，以便得到连接有3’接头序列的插入片段；(2)在所述连接有3’接头序列的插入片段匹配所述单链寡核苷酸分子，使得所述3’接头序列与所述3’接头结合序列匹配；(3)对步骤(2)得到的产物进行扩增，以便获得所述测序文库。

根据本发明的实施例，以上构建测序文库的方法可以进一步附加如下技术特征：

在本发明的一些实施例中，步骤(3)进一步包括：(3-1)将步骤(1)得到的产物利用消化酶消化，孵育。利用消化酶对于步骤(2)得到的产物进行消化，可以去除掉多余的3’测序接头，也可以去除3’测序接头与单链寡核苷酸分子的杂交产物，能够实现精准建库。

在本发明的一些实施例中，所述消化酶包括5′去腺苷化酶和Lambda核酸外切酶。

在本发明的一些实施例中，所述孵育为在30摄氏度下孵育20～30分钟，在37摄氏度下孵育15～30分钟。

在本发明的一些实施例中，步骤(3)进一步包括：(3-2)将步骤(2)得到的产物的5’末端连接5’测序接头。

在本发明的一些实施例中，所述扩增引物结合序列为P7PCR引物。

根据本发明的第六方面，本发明提供了一种对插入片段进行测序的方法，包括：根据本发明第五方面所述的方法构建测序文库；以测序读段的接头序列末端为开始，对所述测序文库进行第一轮测序，以便获得插入片段的测序结果；基于同一测序读段，以所述扩增引物结合序列的5’末端为开始，进行第二轮测序，以便获得Index序列与UMI序列的测序结果；基于所述第一测序结果和所述第二测序结果，获得所述插入片段、Index序列和UMI序列的测序结果。

根据本发明的实施例，以上对插入片段进行测序的方法可以进一步包括如下技术特征：

在本发明的一些实施例中，所述第一轮测序为对所述测序文库进行单端测序，测序长度最长为50个核苷酸；所述第二轮测序为对所述测序文库进行单端测序，测序长度为14-23个核苷酸。

本发明所取得的有益效果为：通过本发明提供的产品以及方法，在对小RNA分子进行建库和测序的过程中，引入了UMI序列，实现了小核酸分子的准确定量，而且本发明将UMI序列和index序列设计在扩增引物结合序列以及3’接头结合序列之间，需在测index时多测UMI的8-12个碱基即可，节约了测序成本。尤其适用于small RNA文库的构建和测序。

附图说明

图1是根据本发明的一个实施例提供的单链寡核苷酸分子的结构示意图。

图2是根据本发明的一个实施例提供的双链寡核苷酸分子的结构示意图。

图3是根据本发明的一个实施例提供的对小RNA分子进行建库的技术路线图。

图4是根据本发明的实施例提供的Illumima平台小RNA文库2100质检结果，图注为起始量(10ng/1ng totalRNA)和建库中的PCR循环数(16cycle/18cycle)。图中箭头所示条带为目的条带。

图5是根据本发明的实施例提供的UMI作用分析-基于reads定量结果与基于UMI定量结果的差异(Illumima平台small RNA测序结果)。

图6为UMI作用分析-PCR扩增倍数与UMI count数相关性(Illumima平台small RNA测序结果)。

图7为BGISEQ-500平台small RNA文库2100质检结果。图注中QIA表示使用QIAGEN公司的exoEasy Maxi Kit提取的外泌体作为样本，Life表示使用Invitrogen公司的TotalExosome Isolation(from other body fluids)试剂盒提取的外泌体作为样本，外泌体样本提取自同一份羊水样本。图注中UMI表示使用本发明的方法进行建库，index表示使用常规建库方法(无UMI)进行建库。图中箭头所示条带为目的条带。

图8是根据本发明的实施例提供的UMI作用分析-基于reads定量结果与基于UMI定量结果的差异图(BGISEQ-500平台小RNA测序结果)。

图9是根据本发明的实施例提供的UMI作用分析-PCR扩增倍数与UMI count数相关性(BGISEQ-500平台小RNA测序结果)。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明在small RNA文库中引入了UMI，屏蔽了PCR步骤所产生的Bias；本发明合理的UMI位置设计实现了以最低成本获取UMI序列信息；本发明在small RNA建库中引入了消化3’接头步骤，提高了测序数据可利用率。本发明很好地实现常量和微量的small RNA精确测序与定量。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。而在提到核酸分子的连接、相连时，特指核苷酸分子上的3’羟基和相连核苷酸分子上的5’核苷酸的磷酸基团以3’-5’磷酸二酯键的方式进行连接。

单链寡核苷酸分子

根据本发明的第一方面，本发明提供了一种单链寡核苷酸分子。本发明所提供的单链寡核苷酸的示意图如图1所示，图1中从左到右代表核苷酸序列的5’末端到3’末端，所述单链寡核苷酸分子包括：扩增引物结合序列和3’接头结合序列，所述扩增引物结合序列形成在所述单链寡核苷酸分子的5’末端；所述3’接头结合序列形成在所述单链寡核苷酸分子的3’末端；同时还包括UMI序列以及Index序列，所述UMI序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；所述Index序列形成在所述扩增引物结合序列和所述3’接头结合序列之间。

根据本发明的实施例，所述UMI序列在所述扩增引物结合序列和所述Index序列之间。根据本发明的另一实施例，所述Index序列在所述扩增引物结合序列和所述UMI序列之间。在本发明的一种优选实施方式中，所述UMI序列形成在所述扩增引物结合序列和所述Index序列之间。

双链寡核苷酸分子

根据本发明的另一方面，本发明提供了一种双链寡核苷酸分子，如图2所示，包括：第一链和第二链，所述第一链为本发明所述的单链寡核苷酸分子，所述第二链包含小RNA分子和3’接头序列，所述小RNA分子和所述3’接头序列相连，所述3’接头序列和所述3’接头结合序列匹配形成双链区。

构建测序文库的方法及测序

在本文中，所述插入片段指的是需要分析和测序的目标RNA分子。当对小RNA分子进行分析和测序时，插入片段指的是小RNA分子。

根据本发明的一个方面，本发明提供了一种构建测序文库的方法，包括：

(1)在插入片段的3’末端连接3’接头序列，以便得到连接有3’接头序列的插入片段；

(2)对所述连接有3’接头序列的插入片段匹配单链寡核苷酸分子，使得所述3’接头序列与单链寡核苷酸分子上的3’接头结合序列匹配；所述单链寡核苷酸分子包括：扩增引物结合序列，所述扩增引物结合序列形成在所述单链寡核苷酸分子的5’末端；测序接头结合序列，所述测序接头结合序列形成在所述单链寡核苷酸分子的3’末端；UMI序列，所述UMI序列形成在所述扩增引物结合序列和所述测序接头结合序列之间；Index序列，所述Index序列形成在所述扩增引物结合序列和所述测序接头结合序列之间；

(3)对步骤(2)得到的产物进行扩增，以便获得所述测序文库。

在本发明的一种具体实施方式中，所述扩增引物结合序列可以为P7PCR primer结合序列，例如在HiSeq平台上序列为CAA GCA GAA GAC GGC ATA CGA GAT。

在本发明的又一种具体实施方式中，所述UMI为随机碱基，由8-12个随机或简并碱基组成；其中index序列用于不同样品的区分，每一条index序列不同，且在不同测序平台上有不同的碱基数(例，在HiSeq平台上为6个碱基)。

其中，所述与3’接头结合序列与3’接头序列连接。例如在HiSeq平台上序列为GTGACT GGA GTT CAG ACG TGT GCT CTT CCG ATC T。

在本发明的另一种具体实施方式中，提供消化建库中多余adapter的方法：在单链寡核苷酸分子加入3’接头连接产物中，与3’接头杂交，并与多余的游离3’接头杂交后，加入一组消化酶，在30℃下孵育30min后在37℃孵育15min，去除3’接头与RT primer的杂交产物。

在本发明的又一种具体实施方式中，提供了一种测UMI序列的方法：在测序环节的index序列测序步骤中，多读取8-13个碱基，在获得index序列的同时得到UMI序列。

本发明提供的构建测序文库的方法能够实现精确定量的建库，由此可以进一步实现精确测序，尤其适用于小RNA的建库和测序。

所形成的测序文库中每个测序分子都是由匹配的双链构成的，其中，所述双链中的一条链包括：

插入片段互补序列，所述插入片段互补序列与插入片段反向互补；

3’接头结合序列，所述3’接头结合序列与所述插入片段互补序列的5’末端相连；

扩增引物结合序列，所述扩增引物结合序列形成在所述双链的3’末端；

UMI序列，所述UMI序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；以及

Index序列，所述Index序列形成在所述扩增引物结合序列和所述3’接头结合序列之间。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1构建Illumima平台small RNA文库，并测序。

以羊水外泌体RNA为样本，分别使用10ng和1ng样本量的RNA，基于NEB公司的

Multiplex Small RNA Library Prep Set for Illumina试剂盒进行改造(本实施例中除了RT引物、一条PCR引物、5′去腺苷化酶和Lambda核酸外切酶外，全部试剂均来自于该试剂盒)，按照如下方法构建两个基于Illumina平台的UMI文库并进行测序(如图3所示)。

本实施例提供的方法同时参照

Multiplex Small RNA Library PrepSet for Illumina试剂盒说明书进行实验，且与该试剂盒说明书步骤的区别在于以下几点：

1、在试剂盒说明书的反转录引物杂交步骤中(Hybridize the ReverseTranscription Primer)，将该试剂盒中所用到的SR RT Primer for Illumina更改为本发明的RT引物，将RT引物(RT primer)加入3’接头连接产物中，利用RT引物中的3’接头结合序列与3’接头杂交，形成匹配产物。

其中RT引物(SEQ ID NO:1)包括扩增引物结合序列、3’接头结合序列、UMI序列和Index序列，如下所示：

5’-CAAGCAGAAGACGGCATACGAGAT NNNNNNNN CGTGAT GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’(SEQ ID NO:1)

在SEQ ID NO:1中，CAAGCAGAAGACGGCATACGAGAT为扩增引物结合序列，NNNNNNNN为UMI序列，由8个随机碱基组成，随机碱基为A，T，C，G中的任意一种；CGTGAT作为一种index序列，用于不同样品的区分，每一条RT引物的index序列不同，且在不同测序平台上有不同的碱基数，在该实施例HiSeq平台上为6个碱基；GTGACTGGAGTTC AGACGTGTGCTCTTCCGATCT为3’接头结合序列。

2、在将RT引物与3’接头杂交后，在5’接头连接步骤前，加入一组消化酶，去除3’接头与RT引物的杂交产物，包括：

加入以下组分并混匀：

5’去腺苷化酶(50U/μl，NEB) 0.2μL

Lambda核酸外切酶(5U/μl，NEB) 0.5μL

在PCR仪上进行以下反应：30℃反应30min，37℃反应15min，4℃恒温保持。

通过消化酶处理，能够去除与RT primer连接的3’接头，大幅减少后续步骤可能产生的接头自连。

3、在连接5’接头之后，进行PCR扩增环节，采用RT引物中扩增引物结合序列(5’-CAAGCAGAAGACGGCATACGAGAT-3’)作为PCR引物序列(P7PCR primer)进行扩增，PCR扩增循环数为16-18循环。

4、按照上述方法构建测序文库后，利用6％的聚丙烯酰胺凝胶对于获得的文库进行筛选。

文库制备好后，使用Illumina公司的HiSeq 3000/4000SR簇生成试剂盒进行簇生成反应，使用Illumina公司的HiSeq 3000/4000SBS试剂盒，在HiSeq 4000平台上进行测序，所有操作按照试剂盒说明书进行。使用Read1的测序primer，测出small RNA序列，再使用index测序primer测14-19个碱基(本测试中测14个碱基)，得到UMI序列和index序列信息。

所得到的测试结果如下：

对所述的文库进行2100检测，检测结果如图4所示，样品进行了两次平行实验，且10ng起始文库循环扩增了16次，1ng起始文库循环扩增了18次。结果表明：10ng和1ng起始的文库均有显著的目的条带(160bp左右)，PAGE胶电泳后进行切胶，回收目的条带并上机测序。

测序数据概况如表1所示，clean data比例均大于90％，说明本方法建库测序成功。

表1测序数据

其中，表1中Raw data指的是测序下机数据的数据量；Low quanlity指的是测序质量低的数据；Invalid adapter指的是测到的adaptor序列，这部分数据无用；Short length指的是插入片段小于18nt的序列，这部分数据难以比对；Clean data指的是去除Lowquanlity、Invalid adapter和Short length后的有效数据；genome指的是基因组比对率；miRNA、rRNA、tRNA、snpRNA和piRNA指的是分别比对到这几类RNA的比例；repeat指的是基因组上的重复序列区域；intergenic指的是基因间区。

对测序结果进行数据分析，对所有small RNA进行定量，每个数据分别进行常规count数统计和进行UMI聚类定量统计，实验结果如表2所示。其中，以umi后缀表示统计小RNA拷贝数时将reads数按UMI标签进行聚类后得到的定量结果，而reads后缀表示以reads数进行定量(常规定量方式)。由于PCR扩增会产生扩增偏差，以reads数定量得到的结果包含PCR偏差，而进行UMI聚类统计后，可消除PCR偏差，得到准确的定量结果。

表2定量统计结果

表2示出了Illumima平台小RNA测序的定量一致性结果。定量结果显示技术重复的reads数之间具有高度的一致性(>0.99)，UMI数之间也具有高度的一致性(>0.95)，而reads数与UMI数之间的一致性均低于0.55，说明基于reads数与基于UMI数得到的定量结果具有较大差异，可知UMI对数据起到了明显的校正作用。而1ng起始量和10ng起始量间的重复性，UMI定量(0.947-0.98)高于reads数定量(0.92-0.954)，说明UMI定量可以减小起始量不同所引起的定量差异。

进一步分析UMI对定量的作用，图5为基于reads定量结果与基于UMI定量结果的差异，由图中可知随着RNA表达量的增加，reads数与UMI数的偏差逐渐增大。图6为PCR扩增倍数与UMI count数之间的相关性，由图中可知，总体上PCR扩增倍数越高，UMI数越大。由此可知，UMI对PCR扩增的偏向性起到了矫正作用。

实施例2构建BGISEQ-500平台small RNA文库，并测序。

以羊水外泌体RNA为建库样本，羊水外泌体分别为QIAGEN公司的exoEasy MaxiKit提取的外泌体和Invitrogen公司的Total Exosome Isolation(from other bodyfluids)试剂盒提取的外泌体，外泌体样本提取自同一份羊水样本。基于深圳华大智造科技有限公司的MGIEasy Small RNA试剂文库制备盒V1.0(MGIEasy Small RNA Library PrepKit)进行改造(本实施例中除了RT引物、5′去腺苷化酶和Lambda核酸外切酶外，全部试剂均来自于该试剂盒)，按照如下方法构建基于BGISEQ-500平台的UMI文库并进行测序。

本发明主要按照MGIEasy Small RNA文库制备试剂盒V1.0说明书进行实验，本发明与该试剂盒说明书步骤的区别在于以下几点：

1、在试剂盒说明书的RT引物杂交步骤中(Hybridize the ReverseTranscription Primer)，将该试剂盒中所用到的SR RT Primer for Illumina更改为本发明的RT引物，将RT引物加入3’接头连接产物中，利用RT引物中的3’接头结合序列与3’接头杂交，形成匹配产物。

其中RT引物(SEQ ID NO:2)包括扩增引物结合序列、3’接头结合序列、UMI序列和Index序列：

5’-TGTGAGCCAAGGAGTTG NNNNNNNNNN ATTTATGACATTGTCTTCCTAAGACCGCTTGGCCTCCGACT-3’(SEQ ID NO:2)

其中TGTGAGCCAAGGAGTTG为扩增引物结合序列；NNNNNNNNNN为UMI序列，由10个随机碱基组成；ATTTATGACA为index序列，用于不同样品的区分，每一条RT引物的index序列不同，且在不同测序平台上有不同的碱基数，BGISEQ-500平台上为10个碱基；TTGTCTTCCTAAGACCGCTTGGCCTCCGACT为3’接头结合序列。

2、在将RT引物于3’接头杂交后，在5’接头连接步骤前，加入一组消化酶，去除3’接头与RT引物的杂交产物，包括：

加入以下组分并混匀：

5’去腺苷化酶(50U/μl，NEB) 0.2μl

Lambda核酸外切酶(5U/μl，NEB) 0.5μl

在PCR仪上进行以下反应：30℃反应30min，37℃反应15min，4℃恒温保持。本步骤去除与RT primer连接的3’接头，大幅减少后续步骤可能产生的接头自连。

3、在连接5’接头之后，进行PCR扩增环节，PCR扩增循环数为25循环。

文库制备好后，使用深圳华大智造科技有限公司的BGISEQ-500RS高通量测序试剂盒(PE50)V3.0，在BGISEQ-500平台上进行测序，操作见试剂盒说明书。使用Read1的测序primer，测出small RNA序列，再使用index测序primer测18-23个碱基(本测试中测21个碱基)，得到UMI序列和index序列信息。

所获得的测试结果如下：

对所述测序文库进行2100质检。2100质检结果中(图7)，所构建的文库均有显著的目的条带(125bp左右)，PAGE胶电泳后进行切胶，回收目的条带并制备上机测序。

测序数据概况见表3，clean data比例均大于60％，说本方法建库测序成功。其中，af是amniotic fluid缩写，表示RNA来源羊水外泌体，Life表示外泌体为Life公司旗下的Invitrogen公司的Total Exosome Isolation(from other body fluids)试剂盒提取，QIA表示QIAGEN公司的exoEasy Maxi Kit提取的外泌体。

表3测序数据

对测序结果进行数据分析，对所有small RNA进行定量，每个数据分别进行常规count数统计和进行UMI聚类定量统计，如表4所示。其中，UMI后缀表示统计小RNA拷贝数时将reads数按UMI标签进行聚类后得到的定量结果，而reads后缀表示以reads数进行定量(常规定量方式)。由于PCR扩增会产生扩增偏差，以reads数定量得到的结果包含PCR偏差，而进行UMI聚类统计后，可消除PCR偏差，得到准确的定量结果。

表4定量数据

表4示出了利用BGISEQ-500平台进行小RNA测序的定量一致性结果。定量结果显示技术重复的reads数之间具有高度的一致性(>0.99)，UMI数之间也具有高度的一致性(>0.96)，而reads数与UMI数之间的一致性均低于0.7，说明基于reads数与基于UMI数得到的定量结果具有较大差异，可知UMI对数据起到了明显的校正作用。比较QIAGEN试剂盒提取的外泌体和Life试剂盒提取的外泌体所得到的RNA间的重复性差异，UMI定量的一致性(0.896-0.933)显著高于reads数定量(0.744-0.784)，说明UMI定量可以减小不同试剂盒提取差异所引起的定量差异。

进一步分析UMI对定量的作用，图8为基于reads定量结果与基于UMI定量结果的差异，由图中可知随着RNA表达量的增加，reads数与UMI数的偏差逐渐增大。图9为PCR扩增倍数与UMI count数之间的相关性，由图中可知，总体上PCR扩增倍数越高，UMI数越大。由此可知，UMI对PCR扩增的偏向性起到了矫正作用。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接或彼此可通讯；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

SEQUENCE LISTING

<110> 深圳华大基因科技服务有限公司

<120> 对小RNA分子精准建库和测序的方法以及应用

<130> PIDC3183915

<160> 2

<170> PatentIn version 3.5

<210> 1

<211> 72

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (25)..(32)

<223> n is a, c, g, or t

<400> 1

caagcagaag acggcatacg agatnnnnnn nncgtgatgt gactggagtt cagacgtgtg 60

ctcttccgat ct 72

<210> 2

<211> 68

<212> DNA

<213> 人工序列

<220>

<221> misc_feature

<222> (18)..(27)

<223> n is a, c, g, or t

<400> 2

tgtgagccaa ggagttgnnn nnnnnnnatt tatgacattg tcttcctaag accgcttggc 60

ctccgact 68

Claims

1.一种单链寡核苷酸分子，其特征在于，包括：

扩增引物结合序列，所述扩增引物结合序列形成在所述单链寡核苷酸分子的5’末端；

3’接头结合序列，所述3’接头结合序列形成在所述单链寡核苷酸分子的3’末端；

UMI序列，所述UMI序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；

2.根据权利要求1所述的单链寡核苷酸分子，其特征在于，所述UMI序列形成在所述3’接头结合序列和所述Index序列之间；

任选地，所述UMI序列为8～12个随机碱基；

任选地，所述3’接头结合序列适于与3’测序接头结合。

3.根据权利要求1所述的单链寡核苷酸分子，其特征在于，所述单链寡核苷酸分子为DNA；

任选地，所述单链寡核苷酸分子为50bp～80bp。

4.一种双链寡核苷酸分子，其特征在于，包括：

第一链，所述第一链为权利要求1～3中任一项所述的单链寡核苷酸分子；

第二链，所述第二链包含小RNA分子和3’接头序列，所述小RNA分子和所述3’接头序列相连，所述3’接头序列与所述3’接头结合序列匹配形成双链区。

5.一种测序文库分子，其特征在于，所述测序文库分子由匹配的双链构成，其中，所述双链之一包括：

Index序列，所述Index序列形成在所述扩增引物结合序列和所述3’接头结合序列之间；

任选地，所述插入片段来自于小RNA分子；

任选地，所述小RNA分子选自micro RNA、siRNA、pi RNA、nc RNA、sno RNA或者rasi RNA中的至少一种。

6.一种测序文库，由多个权利要求5所述的测序文库分子构成。

7.一种构建测序文库的方法，其特征在于，包括：

(2)将所述连接有3’接头序列的插入片段匹配权利要求1～3任一项所述单链寡核苷酸分子，使得所述3’接头序列与所述3’接头结合序列匹配；

(3)对步骤(2)得到的产物进行扩增，以便获得所述测序文库。

8.根据权利要求7所述的构建测序文库的方法，其特征在于，步骤(3)进一步包括：

(3-1)将步骤(2)得到的产物利用消化酶消化，孵育；

任选地，所述消化酶包括5′去腺苷化酶和Lambda核酸外切酶；

任选地，所述孵育为在30摄氏度下孵育20～30分钟，在37摄氏度下孵育15～30分钟；

任选地，步骤(3)进一步包括：

(3-2)将步骤(2)得到的产物的5’末端连接5’测序接头；

任选地，所述扩增引物结合序列为P7PCR引物。

9.一种对插入片段进行测序的方法，其特征在于，包括：

按照权利要求7或8所述的方法构建测序文库；

以测序读段的接头序列末端为开始，对所述测序文库进行第一轮测序，以便获得插入片段的测序结果；

基于同一测序读段，以所述扩增引物结合序列的5’末端为开始，进行第二轮测序，以便获得Index序列与UMI序列的测序结果；

基于所述第一测序结果和所述第二测序结果，获得所述插入片段、Index序列和UMI序列的测序结果。

10.根据权利要求9所述的对插入片段进行测序的方法，其特征在于，

所述第一轮测序为对所述测序文库进行单端测序，测序长度最长为50个核苷酸；

所述第二轮测序为对所述测序文库进行单端测序，测序长度为14-23个核苷酸。