CN117844906A

CN117844906A - 反转录接头引物、LncRNA的建库测序方法及应用

Info

Publication number: CN117844906A
Application number: CN202410049819.0A
Authority: CN
Inventors: 田朝阳; 宋驰; 李晓静; 郭登理; 柯瑾瑾; 陈虎; 陈洁; 冀金龙; 李亚丽
Original assignee: Wuhan Bena Technology Co ltd
Current assignee: Wuhan Bena Technology Co ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-04-09

Abstract

本发明具体公开了反转录接头引物、LncRNA的建库测序方法及应用，所述反转录接头引物核苷酸序列如SEQ ID NO：1‑7所示，所述反转录接头引物用于样本RNA连接构建测序文库，能够同时捕获腺苷酸化的mRNA以及无PolyA结构的lncRNA，解决PolyA长度信息丢失的问题；通过长读长测序平台进行测序，可检测转录本表达量及丰度，获得可变剪接信息，且同时能够获得序列PolyA尾长度信息，对于目前的lncRNA研究，有着非常重要的意义。

Description

反转录接头引物、LncRNA的建库测序方法及应用

技术领域

本发明涉及非编码基因建库测序技术领域，具体提供反转录接头引物、LncRNA的建库测序方法及应用。

背景技术

长链非编码RNA(long non-coding RNA，LncRNA)是一类长度在200nt以上，不编码蛋白的RNA分子。近几年的研究表明，LncRNA具有保守的二级结构，可以与蛋白、DNA和RNA相互作用，参与多种生物学过程的调控，在众多生命活动过程中发挥重要作用，具有及其重要的生理功能，这些功能主要包括：遗传印记(genetic imprinting)、基因组重排(genomerearrangement)、染色质修饰(chromatin modification)、细胞周期调控、转录、剪切、mRNA降解及蛋白的翻译。

随着测序技术的发展，人们对lncRNA在不同物种以及细胞类型的类别、丰度、生物发生和功能的了解取得了重大进展。目前已知的lncRNA数量比mRNA的数量多出很多，除了少数lncRNA的功能比较明确外，大部分lncRNA的功能都还未知。对于人类基因组来说，大约93％的DNA可以转录为RNA，而这些RNA中，其中只有2％是编码蛋白质的mRNA，而其余98％是非编码RNA。在这些非编码RNA中，长度超过200个碱基的RNA被归类为lncRNA。LncRNA参与到了生命活动的各个过程，非常值得去深入研究。

目前研究lncRNA主要通过高通量测序的方式获得转录本序列，分析lncRNA的表达情况；测序一般采用短读长测序平台(如：Illumina测序平台或者MGI测序平台)进行，建库方式一般先去除核糖体RNA，再对剩余RNA进行片段化，然后利用随机引物进行反转录，再合成双链cDNA，然后加上测序接头，利用短读长测序平台进行测序。目前存在的缺点是短读长测序平台产生的reads较短，后续还需要利用生物信息学软件进行转录本拼接，拼接会产生拼接错误或拼接不完整的情况；当存在共享外显子的时候，无法确定这些reads是来源哪一条转录本，因此短读长对转录本的定量不准确的；另外当转录本中同时存在多种可变剪切类型时，短读长的reads长度不足，因此无法鉴定同时存在多种可变剪切类型的转录本。

随着测序技术的发展，长读长测序在基因组以及转录水平的应用越来越广泛，但目前尚缺乏基于长读长测序平台针对lncRNA的研究方法，也有一些报道利用腺苷酸聚合酶对lncRNA末端添加多聚腺苷酸PolyA尾，然后利用mRNA建库的方式进行测序，但该方法丢失了PolyA长度信息，而PolyA长度信息对于mRNA稳定以及表达至关重要。

发明内容

本发明的目的在于提出反转录接头引物、LncRNA的建库测序方法及应用，用于解决目前基于短读长测序平台reads长度受限制的问题，同时能够解决基本长读长测序平台丢失PolyA长度信息的问题。

鉴于此，本发明的方案为：

本发明的第一个方面，提出反转录接头引物，包括如SEQ ID NO：1-7所示的核苷酸序列。

本发明的第二个方面，提出lncRNA测序文库的构建方法，步骤包括：

S1.提取样本RNA；

S2.去除rRNA，产物连接权利要求1所述的反转录接头引物；

S3.对连接产物进行反转录合成cDNA；

S4.以cDNA为模板进行PCR扩增；

S5.扩增产物进行末端修复及加dA尾；

S6.连接测序接头，对文库进行纯化。

进一步地，所述反转录接头引物中，5'端分别使用磷酸化修饰，SEQ ID NO：1所示序列的3'端进行C6氨基修饰。

进一步地，步骤S1中对提取RNA的纯度、总量、完整性进行检测。

进一步地，步骤S1中所述rRNA包括真核rRNA和/或原核rRNA；和/或，所述去除rRNA的试剂盒为Ribo-offrRNADepletionKit。

进一步地，所述样本中RNA包括细胞或组织来源的总RNA、RNA结合蛋白免疫沉淀的RNA、不同细胞器来源的RNA中的至少一种。

本发明的第三个方面，提出lncRNA测序文库，由第二个方面提出所述的构建方法得到。

本发明的第四个方面，提出lncRNA测序的方法，包括对第三个方面所述测序文库基于长读长测序平台进行测序的步骤。

进一步地，所述测序步骤将测序文库加载到ONT测序芯片，获得测序数据。

本发明的第五个方面，提出第二个方面所述的构建方法、或第三个方面所述的lncRNA的测序文库，在制备疾病筛查、预后评估、科学基础研究和/或临床疗效监测的产品中的应用。

相对于现有技术，本发明的有益效果为：

1.本发明提供的反转录接头引物，用于长读长测序平台lncRNA建库测序时能够同时捕获腺苷酸化的mRNA以及无PolyA结构的lncRNA，解决PolyA长度信息丢失的问题。

2.本发明提供基于长读长测序平台针对lncRNA测序的建库测序方法，通过检测转录本表达量及丰度，获得可变剪接信息，且同时能够获得序列PolyA尾长度信息，对于目前的lncRNA研究，有着非常重要的意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明所述lncRNA测序文库构建过程流程图。

图2为本发明实施例中全长lncRNA与二代lncRNA鉴定数量韦恩图。

具体实施方式

为了使本发明的目的、技术方案和有益技术效果更加清晰明白，以下结合附图和具体实施方式，对本发明进行进一步详细说明。应当理解的是，本说明书中描述的具体实施方式仅仅是为了解释本发明，并不是为了限定本发明。

材料：

人细胞系293T；

小鼠海马体组织、小鼠皮层组织；

反转录接头引物有5种，由上海生工生物有限公司合成

实验相关试剂购自相关试剂公司。

实施例1反转录接头引物合成及退火

设计反转录接头引物的目的在于配合特定的实验流程，捕获腺苷酸化的mRNA以及无PolyA结构的lncRNA。同时需要规避以下非目标连接产物形成：

1)RNA-RNA(RNA本身自连)；

2)反转录接头-反转录接头(接头本身自连)；

3)RNA-接头-RNA-接头(串联体结构)。

1.合成以下序列：

Lnc-Pm-Cm使用修饰碱基合成，5'端G使用磷酸化修饰，3'端A使用3`NH2C6修饰；

Lnc-Pm-1使用修饰碱基合成，5'端T使用磷酸化修饰；

Lnc-Pm-2使用修饰碱基合成，5'端T使用磷酸化修饰；

Lnc-Pm-3使用修饰碱基合成，5'端T使用磷酸化修饰；

Lnc-Pm-5使用修饰碱基合成，5'端T使用磷酸化修饰；

Lnc-Pm-10使用修饰碱基合成，5'端T使用磷酸化修饰。

2.使用新的N F water溶解引物，先稀释至100uM储存；

3.10x annealing buffer准备

组分	终浓度	Stock	30ul
				Tris-HCl,pH 7.5	1M	1.5M	20
NaCl	1M	5M	6
				H₂O	/	/	4
Total			30

4.引物退火反应

组分	终浓度	Stock	20ul
				1x annealing buffer	1X	10X	2
Lnc-Pm-Cm	10uM	100uM	2
				Lnc-Pm-1/2/3/5/10/20	10uM	100uM	2
RNase Inhibitor	1U/ul	40U	0.5
				H₂O	/	/	13.5

5.加热至80℃反应2分钟，然后降温至25℃，降温速率0.1℃/second；

6.反应完成后分装成多管，使用eppendorf管，置于冰上；

7.将退火后引物各取5ul等量混合，用于后续实验反应。

实施例2构建文库、测序及数据分析

1.待测样品的RNA提取

选取冻存的组织材料，置于液氮中迅速研磨至粉末状，低温转入2ml EP管；加入Trizol(1.0mL)裂解液，巯基乙醇20ul、蛋白酶K10ul，充分混匀，置于冰上10分钟；裂解完成后，4℃12000g/5min离心，转移上清至新EP管；将上清转入新的离心管，加入200uL氯仿，旋涡混匀，4℃12000g/10min，转移上清至新EP管；加入两倍体积的CTAB裂解液，加入尿素至终浓度为2M，加入LiCl至终浓度0.6M，加入Triton x-100至终浓度0.5％；置于冰上10分钟后，转入50℃孵育10min；按照(1000：200)比例加入一定体积氯仿，旋涡混匀，4℃12000g/10min，转移上清至新EP管；加入200uL的异丙醇，置于冰上沉淀30min；4℃12000g/10min，弃废液保留沉淀，加入1mL 75％乙醇，轻微颠倒，让沉淀完全悬浮。重复上述步骤2次。根据沉淀大小，加入适量的无酶水溶解RNA；4℃12000g/2min，转移RNA至新1.5ml EP管。使用Nanodrop检测其吸光值及A260/280、A260/230；使用Qubit检测其浓度，依据体积换算总量。使用琼脂糖凝胶电泳检测RNA降解程度或Agileng 2100检测其RIN值；检测完成后，冻存于-80℃供后续使用。

2.样品rRNA去除(Ribo-offrRNADepletion Kit(Human/Mouse/Rat))

1)在一个Nuclease-free PCR管中，用Nuclease-free ddH2O将0.1-1μg总RNA稀释至11μl，冰上放置备用；在一个Nuclease-free PCR管中配制如下反应液：

2)使用移液器轻轻吸打10次充分混匀，短暂离心收集至管底；将样品置于PCR仪中，68℃反应10min进行探针杂交反应：

温度	时间(min)	备注
			95℃	2min	2min
95-22℃	0.1℃/sec
			22℃	5min

3)瞬时离心将样品收集至管底，并置于冰上，立即进入下步操作；在冰上制备如下反应液进行RNase H消化：

组分	体积(ul)
		RNase H Buffer	4
RNase H	1
		上一步产物	15
Total	20

4)用移液器轻轻吹打混匀，瞬时离心将样品收集至管底；

5)将样品置于PCR仪中，37℃反应30min；

6)瞬时离心将样品收集至管底，并置于冰上，立即进入下步操作。

7)在冰上制备如下反应液进行DNase I消化：

组分	体积(ul)
		DNase I Buffer	29
DNase I	1
		RNase H消化产物	20
Total	50

8)用移液器轻轻吹打混匀，瞬时离心将样品收集至管底；

9)将样品置于PCR仪中，37℃反应30min；

10)瞬时离心将样品收集至管底，并置于冰上，立即进入下步操作。

3.使用VAHTS RNA Clean Beads纯化Ribosomal-depleted RNA

1)涡旋振荡混匀VAHTS RNA Clean Beads，吸取110μl(2.2×)至上步RNA样品中，用移液器吹打10次以彻底混匀；

2)冰上静置15min，使RNA结合到磁珠上；

3)在磁力架上静置5min，待溶液澄清后，小心移除上清；

4)保持样品始终处于磁力架上，加入200μl用Nuclease-free ddH2O新鲜配制的80％乙醇，漂洗磁珠(注意不要吹散磁珠)，室温孵育30sec，小心移除上清；

5)重复上一步骤，总计漂洗2次。

6)保持样品始终处于磁力架上，室温下开盖干燥磁珠5-10min；

7)将样品从磁力架上取出，加入10.5μl的Nuclease-free ddH₂O，用移液器吹打6次以充分混匀，室温静置2min。在磁力架上静置5min，待溶液澄清后，小心吸取8μl上清至一个新的Nuclease-free PCR管中；

8)样品立即进行RNA-seq文库构建或其他分析应用，或置于-80～-65℃保存。

4.反转录接头连接

1)反转录接头和Ribosomal-depleted RNA退火，反应体系：

组分	终浓度	Stock	15ul
				Ribosomal-depletedRNA	/	/	11.5
反转录接头	/	10uM	1
				RNase Inhibitor	1U/ul	40U	0.5
H₂O	/	/	-13

2)用移液器轻轻吹打混匀，瞬时离心将样品收集至管底；

3)65℃反应5min，然后置于冰上快速降温；

4)接头连接反应，加入以下反应体系：

组分	终浓度	Stock	20ul	备注
					上一步反应体系	/	/	13.5
RNACS(RCS),110nM			0.5	Optional
					NEBNext Quick Buffer	/	5X	4
T4 DNA Ligase	/	/	2
					H₂O	/	/	0	/

5)用移液器轻轻吹打混匀，瞬时离心将样品收集至管底；

6)24℃反应30min，期间吹打混匀一次。

5.反转录反应体系

1)反转录反应，加入以下反应体系：

组分	终浓度	Stock	58ul	备注
					上一步反应体系			20
5x RT Buffer	1X	5X	12
					10mM dNTPs	/	/	3
SSP,at 10μM	/	/	1
					RNase Inhibitor	1U/ul	40U	1
H₂O	/	/	21	/
					Total			58

2)用移液器轻轻吹打混匀，瞬时离心将样品收集至管底；

3)42℃反应2min；

4)添加2μl of Maxima H Minus Reverse Transcriptase.总体积为60μl；5)用移液器轻轻吹打混匀，瞬时离心将样品收集至管底；

6)42℃反应90min。

6.扩增反应

1)准备以下扩增反应体系：

组分	50ul
		Reverse-transcribed RNA	5
Barcode Primers	4
		2x LongAmp Taq Master Mix	25
Nuclease-free water	16

2)扩增程序：

3)扩增完成后使用0.9X Ampure XPbeads纯化。

7.使用0.9X Ampure XP beads纯化；

8.使用PCR产物连接测序接头进行测序。

9.数据结果：

1)全长率比较

从全长LncRNA测序数据中鉴定全长序列及新转录本的数据分析流程具体包括：首先使用GUPPY(版本：5.0.16)软件进行Base Calling分析将Nanopore全长LncRNA测序得到的fast5格式数据转换为fastq格式并去除测序数据中的接头序列，同时会根据测序数据的质量值将数据分为pass和fail(默认阈值为7，大于阈值的为pass，小于等于阈值的为fail)，pass数据将用于后续分析。使用Pychopper(版本：2.4.0；参数：-Q 7-z 50)软件根据测序过程中使用的引物序列鉴定pass数据中的全长序列，并使用NanoFilt(版本：2.8.0；参数：-q 7-l 50)过滤，然后计算全长序列的数目占pass序列的数目比例得到全长率。再使用minimap2(版本：2.17-r941；参数：-ax map-ont-uf-k14)比对工具将全长序列比对到核糖体数据库(https://www.arb-silva.de/documentation/release-1381/)，使用samtools(版本：1.11；参数：flagstat)进行比对结果统计得到rRNA比率。之后去除比对上核糖体的全长序列，使用minimap2(版本：2.17-r941；参数：-ax splice-uf-k14)软件将去除核糖体后的全长序列与参考基因组比对，使用samtools(版本：1.11；参数：flagstat)统计比对率。然后使用Pinfish(版本：0.1.0；参数：default)软件基于上步比对参考基因组的结果快速构建非冗余转录本集，该软件首先调用spliced_bam2gff程序将bam文件转化为gff文件；再调用cluster_gff、collapse_partials和polish_clusters程序进行聚类转录本、去冗余和校正转录本后得到一致性序列。将得到的一致序列回比到参考基因组，使用StringTie(版本：2.2.1；参数：–conservative-L-R)对转录本重构，合并仅5’端外显子有差异的比对，得到非冗余转录本序列。利用gffcompare(版本：0.12.1；参数：-R-C-K-M)软件将非冗余转录本与参考基因组的已知转录本进行比较，认为class code为“i”、“j”、“o”、“u”和“x”的转录本是新的转录本。合并新鉴定的转录本与已知转录本得到所有转录本，使用salmon(版本：1.4.0)软件对所有转录本进行表达定量，在任意一个样本中的TPM值不为0的转录本即为鉴定到的转录本。

从二代LncRNA测序数据中鉴定新转录本的数据分析流程具体包括：首先使用SOAPnuke filter(版本：2.0；参数：-Q'2'-G 2-A 0.4)软件去除Illumina LncRNA-seq的原始双端测序数据中的接头序列和低质量序列，再利用序列比对软件bowtie2(版本：2.4.5；参数：默认)将过滤后的序列比对到核糖体数据库进行核糖体去除并统计rRNA比率。使用hisat2(版本：2.2.1；参数：默认)软件将去除核糖体的序列比对到参考基因组并得到比对率统计文件。基于比对参考基因组的bam文件，使用StringTie(版本：2.2.1；参数：-v-rf)软件的组装模式对转录本进行重构，利用gffcompare(版本：0.12.1；参数：-R)软件将重构转录本与参考基因组的已知转录本进行比较，同样认为class code为“i”、“j”、“o”、“u”和“x”的转录本是新的转录本。合并新鉴定的转录本与已知转录本得到所有转录本，使用StringTie(版本：2.2.1；参数：-B-e--rf)软件对所有转录本进行表达定量，在任意一个样本中的TPM值不为0的转录本即为鉴定到的转录本。LncRNA分析过程中的基本信息统计如表1所示。

表1：LncRNA基本信息统计表

2)lncRNA转录本数比较

从鉴定到的新转录本中预测新的LncRNA的数据分析流程具体包括：首先使用TransDecoder(版本：5.5.0；参数：-m 50，–single_best_only)软件对新转录本进行ORF编码区预测，过滤预测出ORF的新转录本并筛选转录本长度≥200bp且≤20kbp的新转录本，使用CNCI(版本：2.0；参数：default)、CPC2(版本：standalone_python3 v1.0.1)以及PLEK(版本：1.2)三个软件对新转录本进行编码潜能预测，取这些没有编码潜能的转录本交集作为可靠的预测结果，即为新鉴定到的LncRNA。根据参考基因组的GFF注释文件，提取已知LncRNA在基因组上的位置信息并与新鉴定到的LncRNA信息合并，得到所有LncRNA的GFF注释文件。根据该GFF注释文件及定量的TPM表达矩阵文件，分别提取Nanopore全长LncRNA和Illumina测序LncRNA分析中表达的已知LncRNA的编号，使用R软件包venn(版本：1.10)进行绘图展示，结果如图2所示。

3)Marker基因转录本的定量结果对比

因全长LncRNA和二代LncRNA分析过程中鉴定到的新转录本集合不同，为了比较特定LncRNA的表达情况，提取所有已知转录本的reads count表达矩阵，重新进行TPM标准化，并比较不同测序分析结果中的特定LncRNA的TPM表达量值。其中铁死亡lncRNA SLCO4A1-AS1的结果如表2所示，LncRNA癌基因PLACT1的结果如表3所示。

表2：SLCO4A1-AS1 LncRNA TPM表达情况表

表3：PLACT1 LncRNA TPM表达情况表

4)鉴定的其他RNA类型

基于salmon定量得到的reads count矩阵和参考基因组中转录本的biotype(https://asia.ensembl.org/info/genome/genebuild/biotypes.html)类型，统计比对到不同转录本的全长序列数目，结果如表4所示。

表4：其他类型RNA统计表

5)PolyA尾长度统计

全长序列比对参考基因组的终点就是poly(A)的插入位点，使用minimap2软件将去除核糖体的全长序列比对到参考基因组，从比对结果bam文件中提取比对到的终点位置，再使用Quantifypoly(A)(https://sourceforge.net/projects/quantifypoly-a/)软件进行poly(A)位点的鉴定、聚类与注释。使用taifindr(版本：1.3；参数：cDNA)(https:// pubmed.ncbi.nlm.nih.gov/31266821/)软件对FAST5原始数据进行poly(A)长度的计算，polyA的长度统计如表5所示。

表5：polyA长度统计表

sample	number	mean	Q25	Q50	Q75
						Sample1	664148	114.82	64.4333	111.01	152.3426
Sample2	419132	113.41	63.37691	109.7094	150.5397

不难得出，全长lncRNA测序，相比二代lncRNA测序的优势：

1)不需要拼接，可以鉴定全长lncRNA；

2)可以对lncRNA转录本进行定量；

3)鉴定lncRNA的可变剪切；

4)鉴定mRNA、tRNA、小RNA等其他类的RNA；

相比其他三代测序平台检测lncRNA的优势：

1)可以检测到不含Poly(A)的lncRNA；

2)可以检测Poly(A)长度。

本发明并不仅仅限于说明书和实施方式中所描述，因此对于熟悉领域的人员而言可容易地实现另外的优点和修改，故在不背离权利要求及等同范围所限定的一般概念的精神和范围的情况下，本发明并不限于特定的细节、代表性的设备和这里示出与描述的图示示例。

Claims

1.反转录接头引物，其特征在于，包括如SEQ ID NO：1-7所示的核苷酸序列。

2.lncRNA测序文库的构建方法，其特征在于，步骤包括：

S1.提取样本RNA；

S2.去除rRNA，产物连接权利要求1所述的反转录接头引物；

S3.对连接产物进行反转录合成cDNA；

S4.以cDNA为模板进行PCR扩增；

S5.扩增产物进行末端修复及加dA尾；

S6.连接测序接头，对文库进行纯化。

3.根据权利要求2所述的构建方法，其特征在于，所述反转录接头引物中，5'端分别使用磷酸化修饰，SEQ ID NO：1所示序列的3'端进行C6氨基修饰。

4.根据权利要求2所述的构建方法，其特征在于，步骤S1中对提取RNA的纯度、总量、完整性进行检测。

5.根据权利要求2所述的构建方法，其特征在于，步骤S1中所述rRNA包括真核rRNA和/或原核rRNA；和/或，所述去除rRNA的试剂盒为Ribo-offrRNA Depletion Kit。

6.根据权利要求2所述的构建方法，其特征在于，所述样本中RNA包括细胞或组织来源的总RNA、RNA结合蛋白免疫沉淀的RNA、不同细胞器来源的RNA中的至少一种。

7.lncRNA测序文库，由权利要求2～6任一项所述的构建方法得到。

8.lncRNA测序的方法，包括对权利要求7所述测序文库基于长读长测序平台进行测序的步骤。

9.根据权利要求8所述的方法，其特征在于，所述测序步骤将测序文库加载到ONT测序芯片，获得测序数据。

10.权利要求2至6中任一项所述的构建方法、或权利要求7所述的lncRNA的测序文库，在制备疾病筛查、预后评估、科学基础研究和/或临床疗效监测的产品中的应用。