具体实施方式
本发明提供了一种新的文库构建和测序方法(以下简称SuperSMART)及其设计和实验验证。这种测序方法是一种超级简便快捷的群体细胞3’端RNA转录组建库和测序方法。与现行的RNA建库测序方法如Illumina Tru-Seq方案相比,该方法免去mRNA组分离及其5’端捕获及体外转录过程,同时早期特异选取和标记各样品mRNA组并合并在单试管进行后续操作。该方法便于简便、快速地进行高通量文库构建,不需要特殊设备,而且测序数据要求大大减少,因而该方法经济而且高效。
在一些实施例中,本发明的文库构建和RNA测序方法,包括以下基本步骤:
1)样品中提取总RNA;
2a)用带有UMI(独特分子标记)和barcode(样品条码)以及Illumina 5’接头的oligo-dT引物反转录polyA-RNA;
2b)带有Illumina 3’接头的3’端随机引物合成cDNA第二条链,随后合并多个样品;
2c)通过物理方法选择文库长度,并用批次索引(Index)专门引物选择性地扩增转录子3’端,完成建库;
3)二代测序,同一测序泳道可包括多个样品文库;
4)数据提取和生物信息分析。
在一些实施例中,本发明采用K562和Jurkat2种细胞系测试SuperSMART测序方法的可行性,并与Tru-Seq测序结果相对照,实验结果显示:
1)两种方法测序reads的CG含量都接近正态分布(但对照组结果更典型),峰值接近45%;
2)本方法和对照方法测序reads比对到基因组中的分布,两者均有超过90%以上的reads分布于外显子区域;
3)SuperSMART的覆盖范围集中在3’端,Illumina Tru-Seq的覆盖范围为5’到3’端,符合建库设计预期;
4)SuperSMART的4个样本平均得到了13381个基因且同种细胞样本间的相关性达到R=0.977,能有效区分不同种细胞系样品的转录组谱;对照组现行方法Illumina Tru-Seq检测K562的2个样本中平均得到了18625个基因且同种细胞样本间的相关性达到R=0.987;
5)进行GO分析(FDR<0.05且P<0.05)发现,SuperSMART富集到2029个通路,而Illumina Tru-Seq富集到2074个通路,双方享有共同通路1814条,重合率近90%;
6)上述分析中,SuperSMART所用读数为Tru-Seq读数的八分之一(1/8),基因检出达饱和;模拟用50%读数分析时,SuperSMART检出基因数减少仅5%。
上述实验结果表明,SuperSMART的设计成功、结果可靠、方法可行、效率提高;其特征是测序结果覆盖mRNA的3’端,因而检测到的基因数数量比金标准Illumina Tru-Seq有所减少(71.8%),符合单端转录子测序与全长测序的预期差异;但检出分子通路数目基本相同,重合率近90%;建库和测序经济效率和工作效率呈数量级提高。SuperSMART是本领域首个针对大量群体样品RNA-Seq的高通量建库、测序方法。与现行方法相比,本发明的SuperSMART具有更高经济效率、工作效率和时间效率,将在二代测序进行群体细胞甚至单细胞转录组图谱研究中发挥重要作用。
发明人所在实验室的研究关注于单细胞测序技术的开发和应用,在开发新的单细胞测序技术的过程中,综合分析前人的建库技术,包括群体细胞和单细胞建库方法,创新地设计了SuperSMART-seq(其优点参见下表1),其能方便、简单、快速、经济地进行群体细胞的RNA-seq文库构建和测序,本发明首次描述第一种针对群体细胞样品RNA的3’端,高通量建库及测序方法。
在一些实施例中,本发明的高通量建库和RNA测序方法,首先直接用oligo-dT引发进行反转录(RT)选择多腺苷酸化RNA,使poly A选择和RT在一个步骤中有效地完成。通过将Illumina接头作为oligo-dT和随机引物的5’端直接插入反转录过程中来消除末端修饰和接头连接这些步骤。同时通过实验程序的早期引入样品条码(barcode),在单链反转录后,立即合并多个样品反应物,实现下游实验程序的单管操作;实验程序早期还同时引入分子标识符(UMI),使得PCR扩增过程中可能产生的拷贝数偏差,在数据分析时能够客观地系统地纠正。这种设计在保证测序质量的前提下减少了实验时间和劳动强度,也减少了对试剂盒的需求,降低了实验成本,提高了建库和测序效率。
表1本发明的SuperSMART和常用4种RNA建库方法的比较
UMIs(Unique Molecular Identifiers)是一种有多个脱氧核糖核苷酸随机组合序列,长度在4-20bp之间。在扩增步骤之前(通常在反转录期间),UMIs被添加在每个转录本cDNA的3’或5’端之后,每个转录本都有独特的UMI标记。它起到的作用,是在经过PCR,再深度测序得到的reads中可以看出哪些reads是来自于一个原始cDNA分子的。这样,就可以将起始于一个原始cDNA分子,因为PCR扩增而产生的多个reads,简并成一个原始的cDNA分子。UMIs可以排除各种cDNA因为PCR扩增效率的不同而导致最后reads数量的偏差,也就是排除“PCR bias”。总的来说,通过使用独特的分子标识符(UMIs)可以消除扩增偏好性,使得样品中的每个分子都不同[2]。同时在反转录引物中加入另外一套样品条码barcode(每个样品各具有独立的barcode),在完成反转录后可将多个样品合并后再进行后续实验,实现高通量测序并可减少批次效应。
此外,和现行的全长RNA-Seq相比,本发明的方法得到的是RNA的3’端,而3’末端测序具有以下几个优点:1)低噪声基因表达谱;2)对RNA样品质量/完整性变化敏感性较低耐受性较强(与poly A富集方案相比);3)需要的测序读数较低;4)建库方法更简单;5)与标准RNA-Seq相比,成本约为全长测序的十分之一到五分之一;6)总体成本低于或等于微阵列分析,但动态范围更高。
在一些实施例中,本发明的方法(命名为SuperSMART)的步骤包括:提取总RNA后,使用带有Illumina 5’接头,UMI和样品barcode的oligo dT引物结合Poly A RNA反转录合成cDNA;RNase H去除单链RNA;再用带有Illumina 3’接头的随机引物进行反转录合成cDNA第二条链;AMPure XP磁珠纯化去除多余的随机引物;最后加入带有批次索引index和测序平台的引物PCR扩增cDNA用于簇生成和测序(如图1C所示)。实际上,本发明的方法获得的数据在反应基因表达差异方面已经基本满足大多数项目的要求。现阶段的RNA测序技术中,一般不需要得到全长转录本的序列,一般并不进行转录组剪切分析。因此,3’端测序是检测RNA表达情况性价比最高的测序方案。
在一个特定实施方案中,本发明的用于RNA高通量测序的方法,包括以下步骤:
(1)获得1个以上样品的RNA;
(2)用二代测序平台相兼容、测序文库5’端相兼容序列相偶联的oligo-dT反转录引物对步骤(1)所得RNA进行反转录,以使poly A选择和反转录合成第一条cDNA同步完成,得到反转录产物;
(3)用二代测序平台相兼容测序文库3’接头的引物合成第二条cDNA,得到双链cDNA;在第二链cDNA合成之前或之后,合并多个样品的产物到一个试管中;
(4)以步骤(3)所得双链cDNA为底物,进行PCR扩增,得到初步测序文库;
(5)将步骤(4)所得双链初步测序文库,进行片段长度选择和纯化(用胶纯化、HPLC纯化,或特定磁珠纯化),获得只包含与mRNA的3’末端相对应的cDNA片段的靶序列的测序文库,该文库排除了不包含3’末端序列的cDNA片段,长度为250-1000bp,优选400bp-800bp、更优选4000bp-700bp、最优选400bp-600bp。
(6)用二代测序平台对步骤(5)所得测序文库测序,以获得混合样品的转录组表达谱;
(7)通过信息分析解码步骤(5)所得转录组表达谱,获得各个批次、和各个样品的转录组表达谱,即得。需要说明的是,该测序方法可用在包括但不限制于文库构建、二代测序、数据分析、产品和应用范围;所述步骤(2)可进行任意数目的多个样品平行操作。
在一个特定实施方案中,所述步骤(5)中还包括第二次PCR扩增,以获得适合二代测序的最终测序文库。应当说明的是,该步骤可以根据需要选择进行或不进行第二次PCR扩增。
在一个特定实施方案中,所述步骤(1)中,在提取总RNA时,将基因组DNA采用物理方法、化学方法或酶解法剔除。
在一个特定实施方案中,所述步骤(1)中的RNA为总RNA或mRNA,总RNA通过去污剂裂解样品细胞膜而释放游离出来,同时剔除基因组DNA。需要说明的是,这种操作适用于(但不限于)单细胞或极微量的细胞群体的总RNA或mRNA文库构建。
在一个特定实施方案中,所述步骤(2)中oligo-dT反转录引物包含转录子水平的独特分子标记(UMI),或/和样品条码(barcode),或/和实验批次索引(Index),和与特定二代测序平台相兼容的测序文库5’接头序列(Adapter 5’)相兼容的序列。优选地所述反转录引物的3’末端的oligo-dT长度为6~40碱基。更优选地,所述反转录引物的5’端或/和3’端具有核苷酸硫代磷酸酯修饰或其他核苷酸保护性修饰。需要说明的是,反转录引物的5’端或/和3’端可以是但不限于硫代磷酸酯Phosphorothiate修饰,还可以采用其它修饰,或者不修饰。
在一个特定实施方案中,引物组所述反转录引物3’末端的oligo-dT末端为TnVN-3’或TnV-3’或Tn-3’或TnN-3’,优选为TnVN-3’或TnV-3’;其中n为6~30;V表示C、G或A;N表示C、G、T和A中任意一种。
在一个特定实施方案中,引物组所述各种引物的独特分子标记(UMI)、和样品条码(barcode)、和实验批次索引(Index)中每个位置的碱基为A、T、C和G中任意一种,3种/2种碱基中任意一种,或特定碱基。由此,碱基的各个位置由完全随机的4种碱基中的任意单碱基(N)组成,或由部分随机的碱基特定组合(简并碱基)或特定碱基(C、G、T、A)所组成。
在一个特定实施方案中,所述步骤(3)中的cDNA第二链合成引物的3’末端序列是完全随机或部分随机序列或特定碱基组成的序列,其长度为3~15个碱基,同时引物5’端有与特定测序平台3’测序系统相兼容的序列。优选地,合成所述cDNA第二链的的引物的碱基序列为“GCCTTGGCACCCGAGAATTCCANNNNNNTT”。
在一个特定实施方案中,所述步骤(3)中的cDNA第二链合成引物的3’末端为1个或2个T。
在一个特定实施方案中,所述独特分子标记(UMI)、或/和样品条码(barcode)、或/和实验批次索引(Index)的序列碱基(寡核苷酸)长度为0~30。其中,0表示该标记不使用的情形。
在一个特定实施方案中,所述步骤(2)中,测序文库5’端相兼容序列相偶联的oligo-dT反转录引物的碱基序列包括但不限于如SEQ ID NO.1~8所示。在本发明中,SEQID NO.1~8作为第一链反转录引物,又称oligo-dT引物。
在一个特定实施方案中,所述步骤(3)中,合成cDNA第二链的引物碱基序列包括但不限于如SEQ ID NO.9或10所示。在本发明中,SEQ ID NO.9或10作为第二链cDNA合成引物,又称随机引物。
在一个特定实施方案中,所述步骤(3)中的cDNA第二链合成之前,或cDNA第二链合成之后,混合多个所有平行操作的样品于单一试管中,然后纯化、浓缩。
在一个特定实施方案中,所述步骤(2)、(3)、(5)中的测序平台包括但不限于Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI)的MGISEQ。
在一个特定实施方案中,所述步骤(4)中初步测序文库进行回收特定长度序列,回收特定序列长度为250-1000bp,优选400bp-800bp、更优选4000bp-700bp、最优选400bp-600bp。
在一个特定实施方案中,所述初步测序文库或/和最终测序文库进行特定长度序列的回收,回收特定序列长度的方法包括但不限于凝胶电泳,还可以是琼脂糖凝胶或PAGE凝胶、可分选DNA长度的磁珠、或HPLC;所述磁珠优选AMPure XP Beads。
在一个特定实施方案中,所述步骤(4)中初步测序文库回收特定长度片段之后,进行第二次PCR扩增,并进行特定长度的文库片段回收,获得最终测序文库。
在一个特定实施方案中,所述第一次PCR扩增和第二次PCR扩增所用引物兼容SEQID NO.1~8、SEQ ID NO.9或10的全长序列、或其部分序列。
在一个特定实施方案中,所述PCR扩增所用引物之一的碱基序列如SEQ ID NO.11所示,引物之二的碱基序列如SEQ ID NO.12所示。需要说明的是,引物之一兼容cDNA第一链引物,用于捕获mRNA的3’端相对应cDNA;引物之二兼容cDNA第二链引物,用于捕获mRNA远3’端方向对应cDNA。
在一个特定实施方案中,所述步骤(5)中测序平台采用Illumina Hiseq X10高通量测序仪,以及双端150bp测序。需要说明的是,单端或双端可进行不同长度的测序。
在一个特定实施方案中,所述步骤(6)中测序数据的信息解码分析方法,包括但不限于如下步骤:
1)对步骤(5)的转录组表达谱测序数据进行预处理,包括但不限于:质量控制、Index分流、barcode分流、去除poly A序列、去除测序接头和低质量碱基、根据UMI进行读数的扩增偏差剔除;
2)对步骤1)预处理后的测序数据进行比对、比对结果质控、Reads count计数、Reads count标准化、计算检出基因数并绘制Venn图、Pearon相关系数评估、检出基因富集分析、GO富集分析、热图分析、相关性分析和差异基因分析。
为更好的说明本发明的目的、技术方案和优点,下面将结合附图和具体实施例对本发明作进一步说明。如无特别说明,本发明中的材料或试剂均可以从市场或其它公开渠道获得。如无特别说明,本发明中的实验方法均为常规方法。在文末提供了本发明中的英文缩略词(表8),以及SuperSMART中K562细胞检测基因富集到的GO通路(表9),和IlluminaTru-Seq中K562细胞检测基因富集到的GO通路(表10)。
下述实施例中涉及的实验分为实验组和对照组,实验组是以K562,Jurkat细胞为材料,使用本发明的建库方法SuperSMART,Illumina HiseqX10为测序平台的数据。对照组是以K562细胞为材料,使用Illumina TruSeq建库试剂盒,Illumina Hiseq2000为测序平台的已发表的公共数据:https://www.encodeproject.org/experiments/ENCSR000AEO/。
实施例1 SuperSMART组(实验组)
1.1实验材料
实验试剂:
RPMI 1640 Medium-RPMI 1640培养基(Gibco,cat.no.11875093)
RNeasy Micro Kit(Qiagen,cat.no.74004)
Klenow fragment–克列诺片段(Takara,cat.no.2140A)
ZymocleanTM Gel DNA Recovery Kit(ZYMO RESEARCH,cat.no.D4007)
Qubit dsDNA high-sensitivity(HS)Kit(Invitrogen,cat.no.Q32851)
DNA-OFF(Takara,cat.no.9036)
RNA-OFF(Takara,cat.no.9037)
Agilent high-sensitivity DNA Kit(Agilent Technologies,cat.no.5067-4626)
Adapter oligos(See Reagent Setup)All oligos were subjected toULTRAPAGE purification.
引物:
第一链反转录引物,或称oligo dT引物(5’-3’),其中B为G、T或C,V表示G、A或C,N表示A、T、C或G。
方案1:
BU1SdT24-1:
GGGAGTTCTACAGTCCGACGATCNBBNBBAGACTCTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.1)
BU1SdT24-2:
GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTAGTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.2)
BU1SdT24-4:
GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTTCTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.3)
BU1SdT24-5:
GGGAGTTCTACAGTCCGACGATCNBBNBBCATGAGTTTTTTTTTTTTTTTTTTTTTTTT(SEQ IDNO.4)
方案2:
BU1SdT24-1a:
GGGAGTTCTACAGTCCGACGATCNBBNBBAGACTCTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.5)
BU1SdT24-2a:
GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTAGTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.6)
BU1SdT24-4a:
GGGAGTTCTACAGTCCGACGATCNBBNBBAGCTTCTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.7)
BU1SdT24-5a:
GGGAGTTCTACAGTCCGACGATCNBBNBBCATGAGTTTTTTTTTTTTTTTTTTTTTTTTVN(SEQ IDNO.8)
第二链cDNA合成引物,或称随机引物(5’-3’)
方案1:
TTRan RTpri:GCCTTGGCACCCGAGAATTCCANNNNNNTT(SEQ ID NO.9)
方案2:
TRan RTpri:GCCTTGGCACCCGAGAATTCCANNNNNNT(SEQ ID NO.10)
第一次和第二次文库扩增的PCR引物,简称扩增引物(5’-3’)
RPI(兼容cDNA第一链引物,相当于扩增mRNA的3’端引物):
AATGATACGGCGACCACCGAGATCTACACGTTCAGAGTTCTACAGTCCGA(SEQ ID NO.11)
RPI1(兼容cDNA第二链引物,相当于扩增、捕获mRNA远3’端方向引物):
CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCCTTGGCACCCGAGAATTCCA(SEQID NO.12)
实验耗材:
程序降温盒(CellHome-30)(Kemesser Technology)
COUNTESS CELL COUNTING CHAMBER(ThermoFisher,cat.no.C10228)
Qubit Assay Tubes(Invitrogen,cat.no.Q32856)
实验设备:
金属浴(天根生化科技(北京)有限公司,cat.no.OSE-DB-01)
E-Gel Safe Imager Real-time Transilluminator(Invitrogen,cat.no.E189045)
Countess II FL Automated Cell Counter(ThermoFisher,cat.no.AMQAF1000)
Magnetic stand(ThermoFisher,cat.no.12331D)
Qubit 3.0 fluorometer(Invitrogen,cat.no.Q33216)
Agilent 2100 Bioanalyzer(Agilent Technologies,cat.no.G2938C)
1.2实验方法
1.2.1细胞培养(K562和Jurkat)
本发明中所使用的细胞系K562和Jurkat由Weissman Lab(Genetics,School ofMedicine,Yale University)提供。
(一)培养基的配制及试剂的分装
1.胎牛血清(500mL)分装成9个50mL+5个10mL试管于-20℃保存;
2.培养基的配制:44mL 1640培养液+5mL胎牛血清+1mL双抗,4℃保存备用;
3.PBS(500mL)分装出50mL,4℃保存备用。
(二)细胞的复苏、换液、传代、冻存、均采用本领域的常规方法,在此省略。
1.2.2 RNA的提取
(一)细胞的计数采用本领域常规方法。
(二)Total RNA的提取
本实验提取RNA所用试剂盒为Qiagen公司的RNeasy Micro Kit(cat.no.74004)
1.准备好1mL细胞悬液于1.5mL离心管中(细胞数目控制在5×105个,如想要最后的RNA浓度更高,可增加细胞数目)。
2. 300×g离心5min,小心用枪头轻轻的弃去上清,注意不要吸走细胞,留下细胞沉淀。
3.加入350μL Buffer RLT重悬细胞。
4.加入一倍体积的70%酒精,吹打均匀。
5.将Rneasy MinElute spin column放在2mL的收集管中,将4中所有的液体转移至层析柱中。小心盖上管盖,≥8000×g(≥10000rpm)离心15s,去除滤液。
6.向层析柱中加入350μL Buffer RW1,小心盖上管盖,≥8000×g(≥10000rpm)离心15s,去除滤液。
7.向70μL的Buffer RDD中加入10μL的DNase I,颠倒混匀。
8.将7中80μL混合液直接加入层析柱中,20℃-30℃孵育15min。
9.向层析柱中加入350μL Buffer RW1,小心盖上管盖,≥8000×g(≥10000rpm)离心15s,去除滤液。
10.将层析柱放在一个新的2mL收集管中,加入500μL Buffer RPE,小心盖上管盖,≥8000×g(≥10000rpm)离心15s,去除滤液。
11.向层析柱中加入500μL的80%酒精,小心盖上管盖,≥8000×g(≥10000rpm)离心2min,去除滤液。
12.将层析柱放在一个新的2mL收集管中,打开管盖,最大转速离心5min,扔掉收集管。
13.将层析柱放在一个新的1.5mL收集管中,向层析柱中央加入14μL RNase-freewater,小心盖上管盖,最大转速离心1min,收集RNA产物,并置于冰上防止RNA降解。
(三)RNA浓度的检测
使用Nano Drop 2000检测RNA浓度。
1.轻轻将得到的RNA混匀待用,并放置于冰上,首先对机器进行blank,用移液枪吸取1μL的dd H2O加入到孔上,然后进行blank,用无尘纸擦拭后,加入1μL的RNA,然后进行测量,得到相应的浓度。
2.样品测完之后,要用移液枪吸取1μL的dd H2O清洗三遍,每次清洗完之后要用无尘纸擦拭。
3.测完之后记得关闭电脑和机器。
(四)RNA完整性的检测
1.取650μL胶加入到带滤膜的离心管中,取下层滤过的胶加1μL的染料,涡旋震荡混匀,13000rpm,10min。
2.取9μL胶加入到芯片中带○G的孔中,枪头不要触及芯片底部。
3.将芯片放到注胶平台上对齐,扣紧注胶平台,注射器下压60s,打开卡位待注射器自然弹回。
4.取9μL胶加入到芯片中另外两个带G的孔中,无须再用注射器压。
5.向芯片中除了带G的孔之外的每个孔中加入5μL Marker,可加入孔底。每个孔中加入1μL的样品,注意不要产生气泡(RNA浓度范围最好在150ng/μL-500ng/μL)。
6.向芯片中的梯子孔总加入1μL Ladder,置于振荡器上2000rpm,1min,放入2100机器内固定好。
7.打开软件,Assay设置检测类型,点击START开始检测。
8.待样品跑完之后,查看相应的实验结果,关闭电脑和2100。
9.向清洗芯片内加满ddH2O,置于电机中浸泡5-10min,室温干燥电极5-10min,再将干燥剂防置于电极下方。
1.2.3 RNA的建库
(一)合成cDNA第一条链
1.通过加入2μL 100μM BU1Sdt引物和18μL的nuclease-free水混合均匀将BU1Sdt引物稀释成10μM。
2.将提取的RNA稀释成1ug/μL。
3.在0.2-mL thin-walled PCR管中加入1μL RNA,1μL BU1Sdt引物,1μL dNTP mixand 1.5μL nuclease-free水
4.盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心,快速放置冰盒上。
5. 72℃孵育3min(热盖温度设置80℃)。
6.将样品取出后放置于冰盒上,简短离心收集管壁液体,再立即转移至冰盒上。现在BU1Sdt引物已与所有mRNA分子的Poly(A)尾结合。
7.混合下表中的试剂,准备反转录反应体系(本次实验中有四个样本,所以准备4.3×的Mix,将Mix加到离心管时,要将试剂加在离心管壁上,加完Mix后要盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心)。
8.每个样品中加入5.5μL的RT混合液,盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心,快速放置冰盒上。
9.在热循环仪中孵育反应,具体反应条件如下(热盖温度85℃):
10.将样品取出后放置于冰盒上,简短离心收集管壁液体,再立即转移至冰盒上。
11.Optional:根据需要和处理的样品数,可以进行多个样品合并,并纯化(除去多余引物和反应试剂、缓冲液),浓缩总样品体积。或者,此步不进行多样品合并,而待二链完成后进行多样品合并和纯化。
(二)合成cDNA第二条链
12.通过混合下表中的试剂,准备下一步反应体系:(本次实验中有四个样本,所以准备4.3×的Mix,将Mix加到离心管时,要将试剂加在离心管壁上,加完Mix后要盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心。)
13.每个样品中加入5μl的混合液,盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心,快速放置冰盒上。
14.在热循环仪中孵育反应,具体反应条件如下(热盖温度50℃):
15.拿出来放在冰盒,简短离心收集管壁液体,再立即转移至冰盒上。
16.每个样品中加入1μL TT random primer(100μM),盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心,快速放置冰盒上。
17.在热循环仪中孵育反应,具体反应条件如下(热盖温度85℃):
18.将样品取出后放置于冰盒上,简短离心收集管壁液体,再立即转移至冰盒上。
19.通过混合下表中的试剂,准备下一步反应体系:(本次实验中有四个样本,所以准备4.3×的Mix,将Mix加到离心管时,要将试剂加在离心管壁上,加完Mix后要盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心。)
20.每个样品中加入4μL的混合液,盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心,快速放置冰盒上。
21.在热循环仪中孵育反应,具体反应条件如下(热盖温度85℃):
22.将样品取出后放置于冰盒上,简短离心收集管壁液体,再立即转移至冰盒上。
23.样品的合并设计在此步进行。根据需要和处理的样品数,可以进行多个样品合并,合并后,并接下一步纯化(除去多余引物和反应试剂、缓冲液),浓缩总样品体积。如果样品较多,总体积过大,先用帮助沉淀剂+乙醇沉淀法先行部分浓缩、溶解DNA沉淀物,以部分减少体积,再接下一步纯化。
(三)第一次纯化
24.在开始纯化步骤之前,涡旋振荡AMPure XP磁珠直至分散,再简短离心将壁珠甩下,在室温下平衡AMPure XP磁珠15分钟。
25.每个样品中加入17μL的beads(0.85倍),吹打10次直至溶液混匀。
26.室温孵育8分钟使DNA与磁珠相结合。
27.置于磁力架上至少五分钟,直至液体清亮。
28.小心弃去上清,避免碰到磁珠。
29.加200μL新配的80%乙醇。
30.孵育至少30秒,弃上清,注意勿吸出磁珠。
31.重复第29步(尽可能的弃去乙醇,先用200μl的吸头,再用10μL的吸头。)
32.室温干燥至少5分钟或直到磁珠表面出现小裂缝。
33.加24μL无核酸酶水重悬。
34.室温孵育2分钟。
35.置于磁力架上至少五分钟,直至液体清亮。
36.将移液枪的体积设定为23μL,吸取上清液而避免碰到磁珠并将其转移到新的0.2mL PCR管中。
(四)PCR扩增
37.通过混合下表中的试剂,准备PCR反应体系(本次实验中有四个样本,所以准备4.3×的Mix,将Mix加到离心管时,要将试剂加在离心管壁上,加完Mix后要盖上离心管盖简短离心,用手指轻触管底混匀,再简短离心。)
38.加入27μL的Mix到上一步纯化后的新的0.2mL PCR管中,总体积为50μL。
39.盖上离心管盖简短离心,再用手指轻触管底混匀,再简短离心,快速放置冰盒上。
40.在热循环仪中孵育反应,具体反应条件如下(热盖温度105℃,循环数29):
(五)第二次纯化
41.在开始纯化步骤之前,涡旋振荡AMPure XP磁珠直至分散,再简短离心将壁珠甩下,在室温下平衡AMPure XP磁珠15分钟。
42.每个样品中加入30μL的磁珠(0.6倍),吹打10次直至溶液混匀。
43.室温孵育8分钟使DNA与磁珠相结合。
44.置于磁力架上至少五分钟,直至液体清亮。
45.小心的弃去上清,避免碰到磁珠。
46.加200μL新配的80%乙醇。
47.孵育至少30秒,弃上清,注意勿吸出磁珠。
48.重复第46步(尽可能的弃去乙醇,先用200μL的吸头,再用10μL的吸头)
49.室温干燥至少5分钟或直到磁珠表面出现小裂缝。
50.加21μL无核酸酶水重悬。
51.室温孵育2分钟。
52.置于磁力架上至少五分钟,直至液体清亮。
53.将移液枪的体积设定为20μL,吸取上清液而避免碰到磁珠并将其转移到新的0.2mL PCR管中。
(六)Run 2%E-gel
54打开2%的预制胶,做好标记。
55.点样:向两个Marker孔中加入16μL的H2O和4μL的50bp Marker。
55.跑胶:0.8%~2%的胶跑18min,按GO开始跑(由于本次跑E胶为了回收300bp~800bp的胶,所以需要50bp片段跑到接近E胶黑色阴影即可,不可变黑色阴影遮挡,以免观察不到)
56.看胶:在凝胶成像系统上观看条带情况并拍照。
57.切胶回收:将胶背过来装进仪器中,用笔将所要回收的区域画出来。从仪器上将胶取出来,正面朝上,用平铲沿胶缝小心撬开。用一次性手术刀片将回收区域的胶切下来回收到1.5mL离心管中(一般一个样本有1个胶:300bp~800bp),保存于4℃中。
58.看胶:切好胶回收之后,将不要的胶盖好,重新拿到凝胶成像系统进行拍照。
(七)胶回收
59. 0.1g胶加3倍的ADB,大约300μL(每个样本有一块胶,即300bp-800bp)。
60. 55℃金属浴溶解15分钟。
61.上下颠倒混匀后,简短离心并将混合液转移至层析柱中,25℃,10000rpm离心30s后弃去滤液,重复利用收集管。
62.向层析柱中加入200μL Wash buffer,25℃,10000rpm离心30s后弃去滤液,重复利用收集管。
63.重复步骤62。
64.将层析柱重新置于一个新的1.5mL离心管中,向层析柱中加入8μL预热60℃的H2O,室温孵育1min,25℃,10000rpm离心1min;离心后,再直接加入8μL预热60℃的H2O,25℃10000rpm离心1min。最后收集在离心管中的DNA样品约14μL
(八)检测文库最终浓度
用Qubit 3.0fluorometer测量每个文库的浓度。首先在做实验之前先将实验试剂拿到室温平衡直至试剂完全呈均匀液体状态,由于实验中有荧光染料,所以整个实验过程中避光。
65.做实验之前先对仪器进行标准化,首先取两个0.5mL离心管置于桌面上,向每个管子中加入199μL的working buffer,然后再加入1μL的荧光染料,简短离心后再涡旋混匀,离心后置于桌面上,用枪头弃掉10μL液体,然后再入10μL的标准试剂,简短离心后再涡旋混匀,离心后置于桌面上,室温静置,孵育2分钟后,将管子置于仪器中,按照指示进行标准化。
66.测量浓度。根据样本数量取与之相对应的离心管,置于桌面上,向每个离心管中加入199μL的working buffer,并向每个离心管中依次加入1μL的荧光染料,盖好盖子,并将每个离心管做好标记,简短离心后再涡旋混匀,离心后置于桌面上,每个样品用枪头弃掉1μL溶液,再向每个离心管中加入1μL的样品,简短离心后再涡旋混匀,离心后置于桌面上,室温静置,孵育2分钟后,将管子置于仪器中以测浓度。
(九)Agilent 2100Bioanalyzer检测文库质量
67.取650μL胶加入到带滤膜的离心管中,取下层滤过的胶加1μL的染料,涡旋震荡混匀,13000rpm,10min。
68.取9μL胶加入到芯片中带○G的孔中,枪头不要触及芯片底部。
36.将芯片放到注胶平台上对齐,扣紧注胶平台,注射器下压60s,打开卡位待注射器自然弹回。
69.取9μL胶加入到芯片中另外两个带○G的孔中,无须再用注射器压。
70.向芯片中除了带○G的孔之外的每个孔中加入5μL的Marker,可加入孔底。
71.每个孔中加入1μL的样品,注意不要产生气泡。
72.向芯片中的梯子孔中加入1μL的Ladder,置于振荡器上2000rpm,1min,放入2100机器内固定好。
73.打开软件,Assay设置检测类型,点击START开始检测。
74.待样品跑完之后,根据实验需要选取相应的片段,关闭电脑和2100。
75.向清洗芯片内加满dd H2O,置于电机中浸泡5-10min,室温干燥电极5-10min,再将干燥剂放置于电极下方。
(十)测序方法
构建好测序文库后待检测合格后上机测序,测序仪选择Illumina Hiseq X10高通量测序仪,采用双端150bp测序。
实施例2 Illumina Tru-Seq组(对照组)
(对照组实验材料及方法来源于https://www.encodeproject.org/experiments/ ENCSR000AEO/)
2.1实验材料
K562细胞
Agilent TapeStation仪器(cat.no.5067-5576)
Trizol(LifeTech cat.no.15596-018)
RNA Screen Tape
Illumina TruSeq Stranded mRNA样品制备试剂盒(目录号RS-122-2101或RS-122-2102)
AMPure XP磁珠(Beckman Coulter,cat.no.A63881)
Agilent Tapestation D100 screen tape(cat.no.50675582)
2.2实验方法
2.2.1细胞培养
1.从液氮储存罐中取出K562冻存管。
2. 37℃水浴溶解。
3.当细胞冻存液溶解时,转移至培养基中。
4.细胞离心,1000rpm,5min。
5.用枪头重悬细胞,使细胞浓度达到1×105。
6. 2-3天将细胞进行传代。
7.培养细胞到所需要的浓度。
2.2.2 RNA质量检测
从K562细胞中提取RNA(Trizol(LifeTech cat.no.15596-018))。使用具有RNA筛选胶带的Agilent TapeStation仪器(cat.no.5067-5576)测量RNA的质量。
1.混合1μL RNA和5μL RNA样品缓冲液。
2.涡旋并短暂旋转以确保样品位于管的底部。
3.将热循环仪中的样品加热至72℃3分钟。
4.将样品置于冰上,然后短暂旋转以确保样品位于离心管底部。
5.在RNA Screen Tape上运行样品。
2.2.3文库制备
按照Illumina TruSeq Stranded mRNA样品制备试剂盒(目录号RS-122-2101或RS-122-2102)制备RNA-Seq文库,Spike-in RNAs从NIH获得(目录号ERCC-78A-11119)。
(一)mRNA的纯化和片段化
该方法使用poly-dT寡核苷酸连接的磁珠,对含有polyA的mRNA分子进行两轮纯化。
在
第二轮polyA RNA的洗脱中,RNA也被片段化并用于cDNA合成。
1.在含有1:1000比例的掺入spike-ins的0.3mL PCR管中,用无核酸酶的超纯水稀释1μg总RNA至终体积25μL。
2.剧烈涡旋振荡oligo-dT磁珠直至分散。
3.向样品中加入25μL磁珠,使poly A RNA与oligo dT磁珠结合。
4.轻轻地吹打六次直至溶液混合均匀。
5.将样品在65℃热循环仪中孵育5分钟后放在4℃保存,使RNA变性并促进RNA与磁珠的结合。
6.将样品在室温下置于磁力架上5分钟,以从溶液中分离出与polyARNA结合的磁珠。
7.弃上清,从磁力架上取下样品。
8.加入150μL磁珠洗涤缓冲液除去未结合的RNA。
9.轻轻地吹打六次直至溶液混合均匀。
10.将样品置于磁力架上室温孵育5分钟。
11.弃上清,从磁力架上取下样品。
12.向样品中加入25μL洗脱缓冲液,轻轻地吹打6次,彻底混匀。
13.将样品在80℃热循环仪中孵育2分钟并保持在25℃,以从磁珠中洗脱mRNA。
14.当热循环仪降到25℃时取出样品,室温放置。
15.向样品中加入25μL磁珠结合缓冲液,使mRNA特异性地重新结合磁珠,同时减少非特异性结合的rRNA的量。
16.轻轻地吹打六次直至溶液混合均匀。
17.将样品置于室温下的磁力架上5分钟。
18.弃上清,从磁力架上取下样品。
19.加入150μL磁珠洗涤缓冲液洗涤磁珠。
20.轻轻地吹打六次以彻底混合。
21.将样品置于磁力架上室温孵育5分钟。
22.弃上清,从磁力架上取下样品。
23.向样品中加入11μL Fragment,Prime,Finish Mix。
24.轻轻地吹打整个体积6次以彻底混合。
(Fragment,Prime,Finish Mix分别为用于反转录的随机六聚体和用作第一链cDNA合成的反应缓冲液。)
25.将样品置于94℃热循环仪中孵育4分钟并在4℃保存,以洗脱片段化RNA。
26.从热循环仪中取出样品并短暂离心。
(二)合成cDNA第一条链
该过程使用反转录酶和随机引物将片段化的RNA反转录成cDNA第一条链。向Firsttrand Synthesis Act D添加放线菌素D可防止假DNA依赖性合成,同时允许RNA依赖性合成,提高链特异性。
1.将样品置于磁力架上室温孵育5分钟。
2.将8.5μL上清液转移到新的0.3mL离心管中。
3.将Super Script II添加到第一个Strand Synthesis Act D混合管中,使FirstStrand Synthesis Act D Mix与Super Script II的比例9:1。
4.将4μL第三步中的混合物加入到样品中,轻轻地吹打六次以彻底混合。
5.将样品置于热循环仪中,在25℃下孵育10分钟,在42℃下孵育15分钟,在70℃下孵育15分钟,并保存在4℃。
6.从热循环仪中取出样品,立即进行cDNA第二链的合成反应。
(三)合成cDNA第二条链
1.向反应中加入2.5μL重悬缓冲液。
2.向反应中加入10μL第二链标记混合物(Second Strand Marking Master Mix)。
3.轻轻地上下吹打六次以彻底混合。
4.将反应物置于预热的热循环仪中,关闭盖子并在16℃下孵育1小时。
5.从热循环仪中取出反应物,室温放置。
6.向样品中加入45μL充分混合的AMPure XP磁珠(Beckman Coulter,cat.no.A63881)。
7.轻轻地上下吹打十次以彻底混合并在室温下孵育15分钟。
8.将反应物置于磁力架上室温孵育5分钟。
9.从反应中取出并弃去65μL上清液。
10.将离心管放在磁力架上,加入150μL新鲜配制的80%乙醇,注意不要碰到磁珠。
11.在室温下孵育30秒,弃除上清液。
12.重复步骤10-11,总共进行两次80%乙醇洗涤。
13.在室温下静置15分钟使其干燥,然后从磁力架上取下。
14.加入11.25μL重悬缓冲液,轻轻地上下吹打10次,彻底混匀。
15.在室温下孵育2分钟后,置于磁力架上室温孵育5分钟。
16.将8.75μL上清液(ds cDNA)从管中转移到新的0.3mL PCR管中
(四)3’端加’A’尾
将单个’dA’添加到cDNA3’末端以防止在接头连接反应期间彼此连接,同时接头3’末端上相应的单个’dT’提供了互补的突出端,便于将接头连接到cDNA上。
1.向每个反应中加入6.25μL解冻的dA-Tailing混合物。
2.轻轻地上下吹打10次以彻底混合。
3.将离心管置于热循环仪中,将热盖预热至100℃,盖上盖子,在37℃下孵育30分钟,在70℃下孵育5分钟,并保存在4℃。
(五)连接接头
该过程将多个带有index的接头连接到ds cDNA的末端,便于它们与测序平台结合。
1.向每个反应中加入1.25μL重悬缓冲液。
2.向每个反应中加入1.25μL连接混合物。
3.向每个反应中加入1.25μL RNA接头。
4.轻轻地上下吹打10次以彻底混合。
5.将样品放入预热的热循环仪中,盖上盖子,在30℃下孵育10分钟。
6.从热循环仪中取出样品。
7.向每个反应中加入2.5μL终止连接缓冲液以灭活连接酶。
8.轻轻地上下吹打10次以彻底混合。
9.将AMPure XP磁珠涡旋至少1分钟或直至磁珠分散均匀。
10.在每个反应中加入21μL混合的AMPure XP Beads。
11.轻轻地上下吹打10次以彻底混合。
12.将样品在室温下孵育15分钟。
13.将样品放置在磁力架上5分钟或直至液体澄清。
14.弃38μL上清液,注意不要碰到磁珠。
15.将离心管置于磁力架上,加入150μL新鲜制备的80%乙醇,避免触碰磁珠。
16.在室温下孵育30秒,弃除上清液,避免触碰磁珠。
17.重复步骤15-16,共进行两次80%乙醇洗涤。
18.将样品置于磁力架上室温干燥15分钟。
19.从磁力架上取下离心管。
20.向每个离心管管中加入27.5μL重悬缓冲液。
21.轻轻地上下吹打10次以彻底混合或直至磁珠完全重悬。
22.在室温下孵育2分钟。
23.将反应物置于磁力架上室温孵育5分钟或直至液体澄清。
24.将25μL上清液从试管转移到新的0.3mL PCR管中。避免触碰磁珠。
25.涡旋AMPure XP磁珠,直到分散均匀。
26.向每个样品中加入25μL混合的AMPure XP磁珠进行第二次纯化。
27.轻轻地上下吹打10次以彻底混合。
28.在室温下孵育15分钟。
29.将样品置于磁力架上孵育5分钟或直至液体澄清。
30.弃47.5μL上清液,避免触碰磁珠。
31.将离心管放在磁力架上,加入150μl新鲜制备的80%乙醇,避免触碰磁珠。
32.在室温下孵育30秒,弃除上清液。
33.重复步骤31-32,总共进行两次80%乙醇洗涤。
34.将离心管放在磁力架上,室温干燥15分钟,从磁力架中取出离心管。
35.将12.5μL重悬缓冲液加入管中。
36.轻轻地上下吹打10次以彻底混合或直至磁珠完全重悬。
37.在室温下孵育2分钟。
38.将样品置于磁力架上室温孵育5分钟或直至液体澄清。
39.将10μL上清液转移到新的0.3mL PCR管中,避免触碰磁珠注意不要碰到磁珠。
(六)扩增DNA片段
该过程使用PCR选择性地富集两端均具有接头的DNA片段并扩增文库中DNA的量。应最大限度地减少PCR循环次数,以避免文库产生偏差。
1.向样品中加入2.5μL PCR引物混合物。
2.向样品中加入12.5μL PCR Master混合物。
3.轻轻地上下吹打10次以彻底混合。
4.将离心管放入预先设好程序并将热盖预热至100℃的热循环仪中,盖上盖子,在98℃下孵育30秒,在98℃下孵育10秒,60℃下30秒,72℃下30秒,这三步进行15个循环,72℃下孵育5分钟,并保存在4℃。
5.向管中加入25μL AMPureXP磁珠。
6.轻轻地上下吹打10次以彻底混合。
7.将样品在室温下孵育15分钟。
8.将样品置于磁力架上室温孵育5分钟或直至液体澄清。
9.弃47.5μL上清液。
10.在磁力架上,加入150μL新鲜配制的80%乙醇,不要碰到磁珠。
11.在室温下孵育30秒,然后弃所有上清液。
12.重复步骤10-11,总共进行两次80%乙醇洗涤。
13.将样品置于磁力架上干燥15分钟后,从磁力架上取下样品。
14.向样品中加入27.5μL重悬缓冲液。
15.轻轻地上下吹打10次以彻底混合。
16.在室温下孵育2分钟。
17.将样品置于磁力架上室温孵育5分钟或直至液体澄清。
18.将25μL上清液从管中转移到新的0.3mL PCR管中。
(七)检测文库质量
1.首先通过Nanodrop或Tecan对文库进行定量。
2.通过在Agilent Tapestation D100 screen tape(cat.no.50675582)上运行来进一步验证文库。将每个库中的1μL样品稀释到3μL样品缓冲液并在Tapestation上运行。
(八)测序方法
构建好测序文库后待检测合格后上机测序,测序仪选择Illumina Hiseq 2000
高通量测序仪,采用双端100bp测序。
实施例3数据分析流程
3.1概述
SuperSMART为群体细胞RNA测序(K562,Jurkat各两个生物学重复),IlluminaTru-Seq群体K562细胞RNA测序数据(两个样本)。本实施例对数据的处理包括拆分、质控、过滤、再进行比对、组装、检测基因统计、相关性分析、特殊基因和通路分析、绘制相关性图及韦恩图。
3.2文库结构及分析思路
SuperSMART文库结构如图2所示,包括:P5 adapter,Read1 SP,Barcode
(6bp),UMI(6bpNBBNBB),poly-dT,insert cDNA,随机引物,Read2 SP,index,P5adapter。
P5/P7 adapter:连接到测序仪上的接头序列;
Read1/Read2-SP:测序引物;
Barcode:区分不同的单细胞,序列为NBBNBB,共6bp;其中,B表示G、T、C这3种碱基中的任意一种,但不是A碱基;
UMI(Unique Molecular indentifier):转录分子识别标签;
Index:区分不同样本序列。
3.3数据预处理
3.3.1质量控制
软件:通过FastQC[3]实现原始数据的质量控制。
由图3可以看出受poly-dT序列影响,read 1数据从40bp开始碱基质量低于20,且Barcode(6bp)+UMI(6bp)+poly-dT(24bp)序列已有36bp,Insert cDNA部分质量很低无法使用,故read 1只用来记录BC和UMI序列信息,根据read 1序列信息将read 2序列分流和记录UMI,再用read 2单端进行后续分析。这种read 1和read 2组合分析及其质量特点在预期之中,也符合其他类似分析的情况。
3.3.2 Barcode分流
测序数据首先根据4种Barcode分出4种细胞reads,并进行reads数和分流率统计,结果如表2所示:
表2 SuperSMART分流结果统计
实际fastqc报告中,barcode位置理论上在1bp~6bp处,而实际上在1bp~7bp,原因可能与测序质量有关,Rawdata base Q30:54.1700%。
3.3.3去除测序接头及低质量碱基
软件:通过cutadapt[4]去除测序接头及低质量碱基。
-a 3’端接头序列;
-m当去接头后去掉长度小于40的reads;
-q过滤质量低于28的碱基
3.3.4去除polyA序列
运用perl语言脚本,当识别多于5个A碱基时,提取polyA其前面的序列结果文件:
3.4比对
软件:采用Tophat2[5]进行序列比对,比对结果参见表3。
-p为安排运行tophat所需要的CPU线程数。
-o为文件输出路径。
-G参考基因组的注释文件,首先被tophat2调用bowtie2建立index。
结果文件:
表3 SuperSMART比对结果
3.5 Reads count计数
软件:采用htseq-count[6]进行Reads count计数。
htseq-count是一款用于reads计数的软件,能对位于基因组上的一些单位的reads数进行统计。
-f指定输入文件的格式,可以是sam或bam格式,默认是sam;
-r对于双端测序数据,必须要对SAM文件进行排序,可以是name或pos,默认是name;
-s<yes/no/reverse>这个数据是否来自链特异性建库,默认yes;
-a指定一个最低read mapping质量值,低于会被过滤;
-t指定最小计数单位类型,指定后其他单位类型将被忽略,默认值exon;
-I GFF文件的属性,默认采用Ensembl GTF文件类型时,默认值gene_id;
-m reads属于某个基因的模型,用来判断统计reads的时候对一些比较特殊的reads定义是否计入。包括:默认的union和intersection-strict、intersection-nonempty(默认union)。
-q屏蔽程序报告和警告
3.6 Reads count标准化——构建RPKM矩阵
一般来讲每个基因比对上的reads数受基因长度和测序深度的影响,基因长度越长,比对reads数目越多,测序深度越深,比对reads数目越多,所以需要对每个基因比对上的reads数目进行标准化。RPKM(Reads Per Kilobase per Million mapping reads)与FPKM(Fragments Per Kilobase per Million mapping reads)是经典的对测序深度和基因长度进行校正的方法,由于本论文的测序数据中read 1端含有poly-dT序列,根据质量控制结果read 1质量低,故使用单端read 2进行比对。因此,本发明根据htseq-count的mapping reads count结果求RPKM表达量,进行测序深度和基因长度标准化,分为如下几个步骤:基因长度的提取、测序深度标准化和基因长度标准化。
3.6.1从gtf文件获取基因长度
R包:采用GenomicFeatures[7]获取基因长度。
3.6.2通过R语言程序进行计算
3.7比对结果质控
软件:通过RSeQC[8]对比对结果进行质控。
RSeQC提供许多模块,可以全面综合评估高通量RNA-seq数据的结果,包括reads比对基因组区域分布、覆盖度评估、链特异性、GC含量、测序饱和度、RNA完整性等特征。同时也包括可变剪接注释。
3.8检出基因数计算
为避免假阳性基因检出,发明人选取RPKM>0.1作为基因检出阈值,分别计算SuperSMART和Truseq方法检出基因找到共同检出基因、二者特异检出基因,并绘制Venn图[9]。
3.9 Pearson相关系数
为评估其样本重复之间的稳定性和SuperSMART与Truseq基因表达相关性,我们选取Pearson相关系数进行评估。Pearson相关系数是由Karl Pearson根据Francis Galton的一个相关理念在18世纪80年代开发的[10],它是两个变量的协方差除以各自标准差的乘积,即均值调整后的随机变量乘积的均值;
相关性不会低于-1,相关系数为-1的数据点恰好位于直线下降线上,变量完全呈负线性关系;相关性为0意味着两变量没有任何线性关系。但是,两个变量之间可能存在一些非线性关系。相关系数不会高于1,相关系数为1表示两个变量完全正线性相关,数据点恰好位于上升线上。故当Pearson相关系数越趋近于1,两个变量相关性越强。
3.10检出基因富集分析
应用Cluster Profiler包对两种方法各自检出的基因进行GO富集分析[11]。
结果与分析
采用实施例1~3的方法得到的实验结果包括如下:
4.1细胞培养结果
正常培养的k562细胞(如图4)和Jurkat细胞(如图5)是均匀地悬浮在培养液中的,在10倍倒置显微镜下折光性很好,总体大小一致,形态良好,用Countless II测细胞活性,活性均在90%以上。K562细胞数量为5.04×105/mL,活性为97.68%。Jurkat细胞数量为2.61*106/mL,活性为94.18%(如图6)。
4.2 RNA质量图
RNA的质量可以通过安捷伦2100生物分析仪测量,K562细胞的RNA分子完整数(RIN)为10,rRNA比值(28S/18S)是1.9(如图7)。Jurkat细胞的RNA分子完整数(RIN)为10,rRNA比值(28S/18S)是2.0(如图8)。RIN数值越大表明RNA分子完整性越高,其中数值为10时,RNA分子的完整性最高,降解最少。如果28S/18S为1.8-2.0表明所提取RNA完整性较好,基本无降解发生。对照组使用Agilent TapeStation检测RNA质量(如图9)。
图10来源于https://www.encodeproject.org/experiments/ENCSR000AEO/
4.3建库质量图
将每种细胞系做两个生物学重复,在跑胶图(如图10)中可以看到初级文库的分布,E-gel的最外边两条带是已经均匀跑开的Marker条带,中间标注的数字(K1,K2,JK1,JK2)是对应的K562#1,K562#2,Jurkat#1,Jurkat#2样品条带,下文称为样品1、2、3、4。从图10可知样品已经均匀的从加样孔中向远端跑开,一般来说,亮度越高,浓度越高。各个样品条带间用水隔开防止相互交叉污染。
目的文库片段为300bp至800bp,切下每个样品相应的文库区间进行切胶回收(如图11)。再用Qubit 3.0荧光计测得每个样品的浓度(如图12),样品1的浓度为1.85ng/μL,样品2的浓度为1.43ng/μL,样品3的浓度为1.39ng/μL,样品4的浓度为1.21ng/μL。
最后在送测序前可通过在Agilent 2100生物分析仪上运行来进一步验证最终文库的分布(如图13)。可以看出四个文库的分布较为均匀,峰值集中在700bp左右。
Illumina Tru-Seq在Agilent Tapestation D100 screen tape上运行验证文库,文库分布均匀,区间位于300bp至700bp中,峰值在400bp左右(如图14)。
图14来源于https://www.encodeproject.org/experiments/ENCSR000AEO/
4.4测序结果
4.4.1测序数据结果
实验组四个样本一起测序共获得21.8G数据量,但在测序得到的某些原始下机序列含有测序接头序列以及低质量序列。为了保证数据分析的质量,测序公司会对原始序列进行过滤,得到较高质量的Clean Reads,再进行后续分析,后续分析都基于Clean Reads(如表4)。
对照组可从https://www.encodeproject.org/experiments/ENCSR000AEO/得到数据量。其中一个样本Read 1数据是5.25G,Read2数据是5.14G,共10.39G,另一个样本Read1数据是6.69G,Read2数据是6.73G,共13.42G。由于数据过滤的结果是由测序公司直接提供,所以关于对照组的数据过滤统计结果就不得而知。
表4 SuperSMART数据过滤统计分析表
注释:(Raw Reads Number:原始未过滤数据的Reads数;Raw Base Number:原始未过滤数据的碱基数;Clean Reads Number:过滤后剩余的Reads数;Clean Reads Rate(%):过滤后剩余的Reads数占原始未过滤Reads数的比例,这个值越大,说明测序质量或者文库质量越好;Clean Base Number:过滤后剩余的碱基数;Low-quality Reads Number:被低质量过滤标准去掉的Reads数;Low-quality Reads Rate(%):被低质量过滤标准去掉的Reads的比例;Ns Reads Number:由于含N过高,被去掉的序列数;Ns Reads Rate(%):由于含N过高,被去掉的序列占原始下机序列的比例;Adapter Polluted Reads Number:去掉含有接头污染的Reads数;Adapter Polluted Reads Rate(%):去掉含有接头污染的Reads数占原始未过滤Reads数的比例;PolyG Reads Number:去掉含有polyG(reads中G碱基数超过75)的reads数;PolyG Reads Rate(%):去掉含有polyG的reads占原始未过滤Reads数的比例;Raw Q30 Base Rate(%):过滤前,原始序列中质量值大于30(错误率小于0.1%)的碱基数占总碱基数的比例;Clean Q30Base Rate(%):过滤后,总序列中质量值大于30(错误率小于0.1%)的碱基数的比例,该值越大说明测序质量越好。)
4.4.2测序质量结果
查看原始reads的质量常用的工具就是fastqc(http://www.bioinformatics.babraham.ac.uk/projects/fastqc/)。fastqc的详细使用说明书:http://www.bioinformatics,babraham.ac.uk/projects/fastqc/Help/。如果输入的fastq文件名是target.fq,fastqc的输出的压缩文件将是target.fq_fastqc.zip。解压后,查看html格式的结果报告。重要结果分为以下几项:
(1)Basic Statistics(如表5):统计了SuperSMART和Illumina Tru-Seq中所有样品的总读数,序列长度以及GC含量的百分比。由于SuperSMART中有一端读数受poly-dT影响,读数质量太低,所以只选取Read 2的读数。SuperSMART中所有样品平均读数为5663573,序列长度是40-142bp,GC平均含量43%。Illumina Tru-Seq中所有样品平均读数为46060183,序列长度为45-95bp,GC平均含量是46%。
表5所有样品数据基本统计表
(2)Per base sequence quality:横轴为read长度,纵轴为质量得分,Q=-10*log10(error P)。柱状表示该位置所有序列的测序质量的统计,柱状是25%~75%区间质量分布,error bar是10%~90%区间质量分布,蓝线表示平均数。一般要求所有位置的10%分位数大于20,即大于最多允许该位置10%的序列低于Q20。SuperSMART(如图15)中四个样品的平均数都位于Q30以上,Q30比例达到100%,10%分位数均大于Q20,所以碱基质量与预期相符,可用于后续分析。Illumina Tru-Seq(如图16)的两个样品的平均数都位于Q30以上,Q30比例达到100%,10%分位数均大于Q20,所以碱基质量与预期相符,可用于后续分析。
(3)Per tile sequence quality:每个tail测序情况,横轴表示碱基位置,纵轴表示tail的编号,这个图主要是为了防止在测序过程中某些tail受到不可控因素的影响而出现测序质量偏低,蓝色表示测序质量很高,暖色表示测序质量不高。当某些tail出现暖色,在后续的分析中会把该tail测序结果全部去除。SuperSMART(如图17)中四个样品的背景大多为蓝色,偶有暖色但无太大影响,所以测序质量较高。Illumina Tru-Seq(如图18)中两个样品的背景几乎为蓝色,所以测序质量高。
(4)Per base sequence content:对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:横轴为位置,纵轴为百分比。SuperSMART中(如图19)几个样品的四条线在某些位置纷乱交织,可能是部分位置碱基的比例出现bias,或者出现overrepresentedsequence的污染。Illumina Tru-Seq(如图20)的两个样品四种碱基的出现频率是接近的,四条线平行且接近。
(5)Per sequence GC content:统计reads的平均GC含量的分布。横轴表示GC含量,纵轴表示reads的GC分布。SuperSMART(如图21)四个样品的整体形状呈锯齿状,与正态分布存在一定偏差,这可能是由于reads数少,AT含量的影响等。Illumina Tru-Seq的形状和位置都接近正态分布(如图22)。
4.4.3比对结果
(1)基因组不同区域分布:检测SuperSMART和Illumina Tru-Seq中六种细胞比对到的Reads在基因组中的分布,可以发现超过90%以上位于外显子区域(如图23)。SuperSMART方法中K562样品1有91.64%位于外显子区域,6.67%位于内含子区域,1.69%位于基因间区域;K562样品2有92.6%位于外显子区域,5.82%位于内含子区域,1.58%位于基因间区域;Jurkat样品1有92.86%位于外显子区域,5.23%位于内含子区域,1.9%位于基因间区域;Jurkat样品2有93.51%位于外显子区域,4.88%位于内含子区域,1.6%位于基因间区域。Illumina Tru-Seq方法中K562样品1有94.23%位于外显子区域,4.59%位于内含子区域,1.18%位于基因间区域;K562样品2有93.57%位于外显子区域,5.09%位于内含子区域,1.34%位于基因间区域。
(2)基因的序列覆盖度:指的是基因组上至少被检测到1次的区域占整个基因组的比例。(如图24)可以看出SuperSMART的覆盖范围几乎集中在3’端,而Illumina Tru-Seq的覆盖范围从5’到3’端都有。这个结果也恰好与这两种建库方法相对应,SuperSMART检测RNA的3’端,而Illumina Tru-Seq检测RNA的全长。
4.4.4检测基因数及相关性
(1)基因数的检测:为了避免假阳性,我们将RPKM>0.1作为基因检出的标准。SuperSMART方法中K562样品1的比对率是91.2%,检测到的基因数量是13728个;K562样品2的比对率是71.4%,检测到的基因数量是13428个;Jurkat样品1的比对率是86.1%,检测到的基因数量是13111个;Jurkat样品2的比对率是87.3%,检测到的基因数量是13255个。
Illumina Tru-Seq方法中K562样品1的比对率是92.6%,检测到的基因数量是18544个;K562样品2的比对率是91.7%,检测到的基因数量是18707个(如表6)。
表6 SuperSMART和Illumina Tru-Seq检测基因数(RPKM>0.1)
(2)测序读数与检测基因数分析:用SuperSMART方法中K562#1样本的有效读数进行随机抽样分析,以期查明读数与检测的基因数的关系,见表格7及图25。结果表明,目前的有效读数而言,检测到的基因数已经处于饱和状态。当读数下降到原来来读数的50%时,检测到的基因数为13000,比原来的基因数(13728)减少仅5.3%;当读数下降到原来来读数的10%时,检测到的基因数为9614,比原来的基因数(13728)减少30%。
表7 SuperSMART方法中K562#1文库的测序饱和度分析
(3)相关性检测:在SuperSMART的K562两样本中,二者RPKM>0的基因表达相关性为0.977402,大于0.95有显著相关性;在SuperSMART的Jurkat两样本中,二者RPKM>0.1的基因表达相关性为0.9759779,大于0.95有显著相关性;在Illumina Tru-Seq的K562两样本中,二者RPKM>0.1的基因表达相关性为0.9872312,大于0.95有显著相关性。这说明同种建库方法在同种细胞样本之间的一致性显著(如图26)。
同时,接着对SuperSMART与Illumina Tru-Seq两种方法中所有细胞样本中RPKM>0的基因进行相关性分析,其中SuperSMART两个同种细胞样品间的相关性R=0.97,SuperSMART两个不同种细胞样品间即K562细胞与Jurkat细胞间的相关性R=0.86,Illumina Tru-Seq两个同种细胞样品之间的相关性R=0.99,两种方法中K562细胞样品的最高相关性R=0.78(如图27)。
(3)GO富集分析:将SuperSMART中K562两个样品中同时满足RPKM>0.1的11763个基因与Illumina Tru-Seq中K562两个样品中同时满足RPKM>0.1的17292个基因对比,通过比对可以看出双方都能检测到的基因数量有10962个,SuperSMART特异检测到的基因数为801个,Illumina Tru-Seq特异检测到的基因数为6330个(如图28)。
将SuperSMART中K562两个样品中同时满足RPKM>0.1的11763个基因与IlluminaTru-Seq中K562两个样品中同时满足RPKM>0.1的17292个基因使用R包Cluster Profiler进行GO富集分析(FDR<0.05且P<0.05)。SuperSMART富集到2029个通路,Illumina Tru-Seq富集到2074个通路,通过比对可以发现双方富集到的通路有1814个相同,SuperSMART富集到的特异通路有215个,Illumina Tru-Seq富集到的特异通路有260个(如图29)。这些结果表明虽然SuperSMART只能检测RNA的3’端,但是其能富集到的通路与现行方法有90%的重合。列举了这两种方法富集到的P值最小即最显著的20条通路,有参与非编码RNA的加工,核糖体的生物合成,RNA剪切,DNA复制等功能(如图30),其余的请参考表9和10(由于篇幅有限,表9和10中只列出P值最小的前100条通路)。在这前20条最显著通路中,两个方法有15条相同,重复率达到75%;在前100条最显著通路中有86条相同,重复率达到86%。
上述实验结果研究表明,SuperSMART设计成功、结果可靠、方法可行。本发明的SuperSMART相对于现行金标准Illumina Tru-Seq试剂盒方案的优势体现在以下方面:
(1)步骤简单,而且可以进行早期合并多个样品实施单管操作,便于实现大量样品的高通量建库,大大提高了建库效率。
(2)快速高效。例如对于现行方法,大约需要7个实验框架和较多个反应步骤,而SuperSMART建库,每个样品仅需要5个实验框架和较少的实验步骤,从开始到结束,所有步骤均可在七个小时内完成;重要的是SuperSMART方法允许在样品标记后合并多个样品,随后所有反应步骤在单一试管中进行。相比之下,Illumina Tru-Seq现行方法需要十一个小 时,而且每个样品必须从头到尾独立操作,每人每次操作的样品及其有限,劳动强度大。SuperSMART的这些改进大大简化了群体细胞样品RNA-Seq文库构建的步骤。考虑到多个样 品高通量建库,时间和劳动强度将成几何数量级的减少。
(3)成本大降。现行方法利用市售的试剂盒进行扩增和测序文库制备,IlluminaTru-Seq试剂盒的市场价约30,000RMB,仅能做48个样品,平均每个样品约600RMB。而SuperSMART平均每个样品约200RMB,这使得SuperSMART的成本更低。考虑到多个样品高通量建库时后续步骤都在同一试管中操作,试剂成本将更随着通量增加而显著减少,例如:如果一次操作96个样品,成本将下降近20-50倍。同时,理论上,3’mRNA末端测序需要检测大约200bp,而全长mRNA测序检测大约2000bp,故测序成本也成10倍左右的下降。
实际上,目前的实验结果中,SuperSMART四个样品平均可用的读数为5,663,575,而现行方法两个样品平均可用读数为46,060,183,每个样品两种方法测序读数的量相差近8倍。但是,发明人发现即使用1/8的读数,superSMART方法检测的基因数已经足够并接近饱和,并且与此前3’端测序和全长测序所检测到的基因数的趋势一致[12]。
(4)分析相对简单。由于专注3’端测序分析,分析更简单,用户将容易自己掌握,并潜在地能够有更多机会发现新的转录子3’端。
(5)SuperSMART与Illumina Tru-Seq建库测序的结果,无论检出的转录子数目,通路数目,read序列的CG含量,等都具有可比性,能够反映同一样品的同源性和不同细胞系之间的差异。例如,在使用R包Cluster Profiler对各自检出的基因进行GO分析。SuperSMART富集到2029个通路,Illumina Tru-Seq富集到2074个通路,双方检测到的通路有1814个相同。这些结果表明虽然SuperSMART只能检测RNA的3’端,但是其能富集到的通路与现行全长测序的金标准方法有90%的重合,而且检测到的通路数目接近。
4.5结论
本发明主要围绕创建高效高通量群体细胞转录组测序技术及其验证。本发明人在分析现有RNA-Seq技术的建库流程和优缺点的基础上,设计了新的文库构建和测序技术SuperSMART,阐述了该技术方案的原理和优势,同时与现有最常用的Illumina Tru-Seq技术为对照进行比较,以实验数据初步验证SuperSMART方案的可行性及有效性。小结如下:
(1)SuperSMART是基于RNA 3’端的建库测序技术,其基本步骤包括:1)从感兴趣的样品中提取总RNA;2a)直接用带有UMI(独特分子标记)和barcode(样品条码)以及Illumina5’接头的oligo-dT引物反转录polyA-RNA,使poly A选择和反转录cDNA在一个步骤中有效地完成;2b)再用带有Illumina 3’接头的3’端随机引物合成cDNA第二条链,随后合并多个样品(从此多个样品在单一试管中进行;可轻松进行大量的样品的建库);2c)在胶电泳纯化或磁珠方法选择文库长度的基础上进行PCR指数扩增、完成建库;3)进行Illumina平台测序;4)数据提取和分析。
(2)与Illumina Tru-Seq技术相比,SuperSMART建库程序具有以下特点:1)免去mRNA纯化及mRNA 5’端捕获及体外转录过程。2)同时早期标记各样品RNA并合并,随后单管操作。该方法便于简便快速地进行高通量文库构建,不需要特殊设备,而且测序数据量要求少,因而具有可靠而高效的潜力。
(3)与Illumina Tru-Seq技术相比,SuperSMART测序结果特点是:1)SuperSMART每个样品读数5.66百万(为本实验分析所用有效数据),已经饱和,而Illumina Tru-Seq每个样品读数是46百万(为本实验分析所用数据),每个样品两种方法测序读数的量相差近8倍。2)对比测序的到的Reads在基因组中的分布情况,SuperSMART的覆盖范围集中在3’端,而Illumina Tru-Seq的覆盖范围从5’到3’端都有;这与两种建库方法的原理相对应,SuperSMART检测RNA的3’端,而Illumina Tru-Seq检测RNA的全长。3)两种建库方法的到的Reads均超过90%以上位于外显子区域,SuperSMART略低于Illumina Tru-Seq(均值92.65%VS93.90%)。4)两种方法的有效测序数据的CG含量都接近正态分布,峰值接近45%,但Illumina True-Seq结果更呈典型正态分布。5)检测基因数量方面,SuperSMART稍低于Illumina Tru-Seq(均值13381 VS 18626)。6)对SuperSMART与Illumina Tru-Seq两种方法中所有细胞样本中RPKM>0的基因进行相关性分析,与Illumina Tru-Seq相比,两种方法同种细胞系样品间的相关性R均高于0.95(0.97VS 0.99)。7)对两种方法中在同种K562细胞系样本中检测到的RPKM>0.1的基因进行GO富集分析,SuperSMART富集到2029个通路,Illumina Tru-Seq富集到2074个通路,且有1814个通路为双方共有(~87.5%)。
(4)相对于现有的其它基于Illumina测序平台的RNA-Seq建库方法,SuperSMART具有以下优势:1)建库方法超级简单,操作方便;2)能进行高通量操作:程序早期合并多个样品之后单管操作,减少操作过程中的批次效应和劳动强度;3)时间大大缩短:7个小时内可完成一批文库构建;4)文库构建成本大大下降;5)需要的测序读数较低、测序经济效率高;6)对RNA样品质量有较好的耐受性;7)数据更低噪声、分析更简单;8)该方法具有需要更少起始RNA的潜力,甚至进行单细胞RNA测序。
(5)总之,SuperSMART是本领域针对多个群体细胞样品mRNA转录组测序的第一种高通量建库、测序方法。与现行的基于Illumina测序平台的RNA-Seq方法/金标准相比,SuperSMART高通量文库构建新技术质量可靠,而且具有更高的经济效率、工作效率和时间效率。在前期实验设计的基础上,发明人以2种细胞系为材料进行了初步实验研究,特别是在整体实验程序、引物、试剂等方面及相应数据分析技术进行了创新和初步优化。实验结果分析显示,SuperSMART的设计是成功的,结果是可靠的,方法是可行的,效率大大提升。其特征是测序结果覆盖mRNA的3’端,因而检测到的基因数和分子通路的数量比Illumina Tru-Seq略有减少,加上建库可实现高通量,总的经济效率呈数量级别提高(经济效率将可能提高2位数量级以上),工作效率和建库速度也将大大提高。同时,实验结果表明,总体测序结果质量与标准方法Tru-Seq接近,具有可比性,方法可靠。
表8英文缩略词表
表9:SuperSMART中K562细胞检测基因富集到的GO通路
表10:Illumina Tru-Seq中K562细胞检测基因富集到的GO通路
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
参考文献:
[1]Sanger F,Nicklen S,Coulson A R.DNA sequencing with chain-terminating inhibitors.1977[J].Biotechnology(Reading,Mass.).1992,24:104.
[2]Kivioja T,
A,Karlsson K,et al.Counting absolute numbers ofmolecules using unique molecular identifiers[J].Nature Methods.2012,9(1):72-74.
[3]Angela R Wu N F N T.Quantitative assessment of single-cell RNA-sequencing methods[J].Nature Methods.2014,11(1):41-46.
[4]Martin M.CUTADAPT removes adapter sequences from high-throughputsequencing reads[Z].2011:17.
[5]Kim D,Pertea G,Trapnell C,et al.TopHat2:accurate alignment oftranscriptomes in the presence of insertions,deletions and gene fusions[J].Genome Biology.2013,14(4):R36.
[6]Simon A,Paul Theodor P,Wolfgang H.HTSeq--a Python framework towork with high-throughput sequencing data[J].Bioinformatics.2015,31(2):166-169.
[7]Lawrence M,Huber W,Pagès H,et al.Software for Computing andAnnotating Genomic Ranges[J].PLOS Computational Biology.2013,9(8):e1003118.
[8]Liguo W,Shengqin W,Wei L.RSeQC:quality control of RNA-seqexperiments.[J].Bioinformatics(Oxford,England).2012,28(16).
[9]Chen H,Boutros P C.VennDiagram:a package for the generation ofhighly-customizable Venn and Euler diagrams in R[J].BMC Bioinformatics.2011,12(1):35.
[10]Pearson K.Note on Regression and Inheritance in the Case of TwoParents[J].Proceedings of the Royal Society of London.1895,58:240-242.
[11]Yu G,Wang L,Han Y,et al.clusterProfiler:an R package forcomparing biological themes among gene clusters[J].Omics:a journal ofintegrative biology.2012,16(5):284-287.
[12]Ziegenhain C,Vieth B,Parekh S,et al.Comparative Analysis ofSingle-Cell RNA Sequencing Methods[J].Molecular Cell.2017,65(4):631-643.
[13]Xinghua Pan and Sherman M.Weissman.An approach for globalscanning of single nucleotide variations[J]PNAS.2002 99(14)9346-9351;https://doi.org/10.1073/pnas.132218699.
SEQUENCE LISTING
<110> 广州序科码生物技术有限责任公司;南方医科大学
<120> 一种新的RNA高通量测序的方法、引物组和试剂盒及其应用
<130> 2020
<160> 12
<170> PatentIn version 3.3
<210> 1
<211> 59
<212> DNA
<213> 人工序列
<400> 1
gggagttcta cagtccgacg atcnbbnbba gactcttttt tttttttttt ttttttttt 59
<210> 2
<211> 59
<212> DNA
<213> 人工序列
<400> 2
gggagttcta cagtccgacg atcnbbnbba gctagttttt tttttttttt ttttttttt 59
<210> 3
<211> 59
<212> DNA
<213> 人工序列
<400> 3
gggagttcta cagtccgacg atcnbbnbba gcttcttttt tttttttttt ttttttttt 59
<210> 4
<211> 59
<212> DNA
<213> 人工序列
<400> 4
gggagttcta cagtccgacg atcnbbnbbc atgagttttt tttttttttt ttttttttt 59
<210> 5
<211> 61
<212> DNA
<213> 人工序列
<400> 5
gggagttcta cagtccgacg atcnbbnbba gactcttttt tttttttttt tttttttttv 60
n 61
<210> 6
<211> 61
<212> DNA
<213> 人工序列
<400> 6
gggagttcta cagtccgacg atcnbbnbba gctagttttt tttttttttt tttttttttv 60
n 61
<210> 7
<211> 61
<212> DNA
<213> 人工序列
<400> 7
gggagttcta cagtccgacg atcnbbnbba gcttcttttt tttttttttt tttttttttv 60
n 61
<210> 8
<211> 61
<212> DNA
<213> 人工序列
<400> 8
gggagttcta cagtccgacg atcnbbnbbc atgagttttt tttttttttt tttttttttv 60
n 61
<210> 9
<211> 30
<212> DNA
<213> 人工序列
<400> 9
gccttggcac ccgagaattc cannnnnntt 30
<210> 10
<211> 29
<212> DNA
<213> 人工序列
<400> 10
gccttggcac ccgagaattc cannnnnnt 29
<210> 11
<211> 50
<212> DNA
<213> 人工序列
<400> 11
aatgatacgg cgaccaccga gatctacacg ttcagagttc tacagtccga 50
<210> 12
<211> 63
<212> DNA
<213> 人工序列
<400> 12
caagcagaag acggcatacg agatcgtgat gtgactggag ttccttggca cccgagaatt 60
cca 63