CN107488725A

CN107488725A - 适用于单细胞基因组甲基化测序的文库建立方法及其应用

Info

Publication number: CN107488725A
Application number: CN201710864047.6A
Authority: CN
Inventors: 王芳; 李静; 陈昌岳; 张祥林; 胡秋萍; 任; 任一; 路远; 黄克非; 闫丽
Original assignee: Shanghai Meiji Medical Inspection Co Ltd
Current assignee: Shanghai Meiji Medical Inspection Co Ltd
Priority date: 2017-09-22
Filing date: 2017-09-22
Publication date: 2017-12-19

Abstract

本发明涉及分子生物学技术领域，具体公开了一种适用于单细胞基因组甲基化测序的文库建立方法及其应用。本发明提供的适用于单细胞基因组甲基化测序的文库建立方法包括如下步骤：（1）对样本的基因组DNA进行重亚硫酸盐转化；（2）对步骤（1）中转化后的基因组DNA进行线性扩增；（3）对步骤（2）中线性扩增的扩增子进行指数扩增，所述指数扩增的扩增子用作测序文库。所述文库建立方法的样本基因组DNA起始量可低至pg级，采用所述方法建立的文库进行测序，可对全基因组的绝大多数胞嘧啶进行检测，可以覆盖到全基因组的绝大多数区域。

Description

适用于单细胞基因组甲基化测序的文库建立方法及其应用

技术领域

本发明涉及分子生物学技术领域，特别是涉及一种适用于单细胞基因组甲基化测序的文库建立方法及其应用。

背景技术

以甲基化修饰为代表的DNA的表观修饰一直以来都是研究热点。DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变，从而调控基因表达。研究表明甲基化修饰与癌症发生、早期胚胎发育等生理过程密切相关。

现有技术中基因组甲基化测序方法如表1所示：

表1

表1中的甲基化测序方法可以概括为三大类：重亚硫酸盐测序；基于限制性内切酶的测序；靶向富集甲基化位点测序。基于这三大类方法方法衍生出了如BS-seq、RRBS-seq、MeDIP-seq等具体的实验方案。

现有的方案存在的缺点有，需要大量的起始样本(纳克甚至微克级)，需要以组织或细胞团为起始材料，样本来源具有一定程度局限性；多针对CpG岛进行研究，CpG岛是富含CpG二核苷酸序列的区域，在成本有限的情况下是一种性价比高的研究手段。但是CpG岛的信息量只占所有CpG位点的约10％的数据量，会丢失绝大部分的有用信息。并且现有的实验方案如RRBS-seq、MeDIP-seq等在用酶切或相应抗体富集目的片段后用重亚硫酸盐处理进行建库测序。这样的改进可以达到单碱基的分辨率，但是都只能富集部分可以被相应的内切酶识别或相应抗体结合的DNA片段，会丢失绝大部分甲基化信息。另一方面用免疫沉淀的方法，由于抗体的质量问题及结合后的背景问题还无法达到单细胞的水平。

另外，现有的甲基化测序文库的建库方案都采用先加测序接头再进行重亚硫酸盐转化的方案，基因组DNA在重亚硫酸盐转化过程中极易随机断裂而导致基因组DNA信息丢失，不适用单细胞基因组的测序。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种适用于单细胞基因组甲基化测序的文库建立方法及其应用，实现样本基因组DNA甲基化测序的高覆盖率和甲基化信息的低丢失率。

为实现上述目的及其他相关目的，本发明的第一方面提供了一种适用于单细胞基因组甲基化测序的文库建立方法，包括如下步骤：

(1)对样本的基因组DNA进行重亚硫酸盐转化；

(2)对步骤(1)中转化后的基因组DNA进行线性扩增；

(3)对步骤(2)中线性扩增的扩增子进行指数扩增，所述指数扩增的扩增子用作测序文库。

进一步地，所述样本基因组DNA由单细胞样本裂解获得或由多细胞样本抽提获得。

此外，可以是在进行步骤(1)之前，先对单细胞样本裂解或对多细胞样本抽提，从而获得所述样本基因组DNA。也可以采用由他人利用本领域所熟知的技术已经由单细胞样本裂解获得或由多细胞样本抽提获得的样本基因组DNA。

进一步地，当样本的细胞数目在十万个以下时，可直接裂解获得样本基因组DNA，而无需进行抽提。

所述细胞可以是原核细胞或真核细胞。所述真核细胞可以是植物细胞或动物细胞及微生物。所述动物细胞具体选自组织消化的细胞、培养所得的细胞、胚胎发育早期的细胞、癌症早期的细胞、未经富集培养的微生物细胞、流式分选获得的细胞、有限稀释获得的细胞、激光捕获等方法获得的细胞中的任一种。

进一步地，所述样本基因组DNA的质量可以大于等于6pg。

进一步地，在步骤(1)对样本的基因组DNA进行重亚硫酸盐转化前后均无需进行DNA打断操作。

进一步地，步骤(3)中，所述线性扩增的引物为随机引物对。所述随机引物对对基因组DNA的一链和二链可以分开或同时进行扩增。

进一步地，所述随机引物对包括第一引物和第二引物，所述第一引物的结构为：5’-测序平台匹配引物序列-随机序列-3’，所述第二引物的序列为5’-测序平台匹配引物序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-随机序列-三联重复序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’。

进一步地，所述第一引物中的测序平台匹配引物序列如SEQ ID NO.1所示，具体为：ACACGACGCTCTTCCGATCT；所述第二引物中测序平台匹配引物序列如SEQ ID NO.2所示，具体为：CTGAACCGCTCTTCCGATC。

进一步地，所述第一引物中的随机序列的长度可以为4～20nt，所述第二引物中的随机序列的长度可以为4～20nt。

进一步地，所述第一引物中的随机序列的长度可以为4～10nt，所述第二引物中的随机序列的长度可以为4～10nt。

进一步地，所述第一引物中的随机序列的长度可以为6～8nt，所述第二引物中的随机序列的长度可以为6～8nt。进一步地，所述第一引物中的三联重复序列记为XXX，所述第二引物中的三联重复序列记为YYY，则XXX为TTT、YYY为GGG；XXX为AAA、YYY为GGG；XXX为TTT、YYY为CCC；或者XXX为AAA、YYY为CCC。

进一步地，所述分子标签序列可以是确定的序列也可以是随机序列，优选的为2-20nt的随机序列，更优选的为4-10nt的随机序列，更优选的为6-8nt的随机序列。

进一步地，步骤(3)中，所述线性扩增的DNA聚合酶为具有链置换活性的酶；其中，所述链置换活性的酶选自包含但不限于其中任意一种或几种：klenow片段(3′→5′exo-)、bst DNA聚合酶、vent DNA聚合酶(3′→5′exo-)、vent DNA聚合酶、Phi 29DNA聚合酶、deepvent DNA聚合酶(3′→5′exo-)、deep vent DNA聚合酶。

进一步地，所述步骤(3)中，所述线性扩增的循环次数可以为2～20。

进一步地，步骤(4)中，所述指数扩增的引物包括第三引物和第四引物；所述第三引物的序列如SEQ ID NO：3所示，具体为：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’；所述第四引物的序列如SEQ ID NO：4所示，具体为：

5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATC-3’，其中，NNNNNN为索引index序列。

引物SEQ ID NO：3和SEQ ID NO：4的3’端也可加入2-20nt的随机或特定序列作为分子标签(UMI)，优选的分子标签的长度为4-12nt,更优选的分子标签的长度为6-9nt。加入分子标签的优点是可以在后续的分析过程中识别分子的来源，从而判断细胞中甲基化位点以及真实含有的分子拷贝数，排除PCR扩增对分析的影响，增加校对的功能，加强分析的准确度。

本发明的第二方面，提供前述文库建立方法用于单细胞样本或多细胞样本的基因组DNA甲基化测序及甲基化位点分析中的用途。

本发明的第三方面，提供一种确定单细胞样本或多细胞样本中基因组DNA甲基化位点的方法，包括如下步骤：采用如权利要求前述方法建立文库后，对所获得的文库进行测序，基于测序结果，对单细胞样本或多细胞样本的基因组DNA甲基化情况进行分析，确定甲基化位点。

本发明的第四方面，提供一种测序文库构建试剂盒，包括：重亚硫酸盐试剂、线性PCR反应物和指数PCR反应物。

进一步地，所述试剂盒还包括细胞裂解液。

所述重亚硫酸盐试剂用于对样本的基因组DNA进行重亚硫酸盐转化。

所述线性PCR反应物用于对转化后的基因组DNA进行线性扩增。

所述指数PCR反应物用于线性扩增的扩增子进行指数扩增。

所述指数扩增的扩增子可用作测序文库。

进一步地，所述线性PCR反应物包括线性扩增的随机引物对和具有链置换活性的酶。

进一步地，所述第一引物中的随机序列的长度为4～20nt，所述第二引物中的随机序列的长度为4～20nt。

进一步地，所述第一引物中的随机序列的长度可以为6～8nt，所述第二引物中的随机序列的长度可以为6～8nt。

进一步地，所述第一引物中的三联重复序列记为XXX，所述第二引物中的三联重复序列记为YYY，则XXX为TTT、YYY为GGG；XXX为AAA、YYY为GGG；XXX为TTT、YYY为CCC；或者XXX为AAA、YYY为CCC。

进一步地，所述链置换活性的酶选自包含但不限于其中任意一种或几种：klenow片段(3′→5′exo-)、klenow片段、bst DNA聚合酶、vent DNA聚合酶(3′→5′exo-)、vent DNA聚合酶、Phi 29DNA聚合酶、deep vent DNA聚合酶(3′→5′exo-)、deep vent DNA聚合酶。

进一步地，所述指数PCR反应物包括指数扩增的引物，所述指数扩增的引物包括第三引物和第四引物；所述第三引物的序列如SEQ ID NO：3所示，具体为：

引物SEQ ID NO：3和SEQ ID NO：4的3’端也可加入3-20nt的随机或特定序列作为分子标签(UMI)，优选的分子标签的长度为4-12nt,更优选的分子标签的长度为6-9nt。加入分子标签的优点是可以在后续的分析过程中识别分子的来源，从而判断细胞中甲基化位点以及真实含有的分子拷贝数，排除PCR扩增对分析的影响，增加校对的功能，加强分析的准确度。

本发明的第五方面，提供一种基因组甲基化测序产品，即前述测序文库构建试剂盒，适用于多种测序平台。

进一步地，所述测序可以是一代测序、二代测序或三代测序。

进一步地，所述测序平台优选地是illumina测序平台。

与现有技术相比，本发明具有如下有益效果：

1、测序所需的DNA起始量低，可以对单个细胞的基因组进行甲基化测序；

2、覆盖全基因组，除了可以覆盖富含CpG岛的启动子区域，还可以覆盖散落的CpG位点、CHG\CHH位点，可以覆盖可以覆盖启动子、增强子、转录起始位点、非编码区(UTR)、外显子、基因间区段(intergenic)、基因体(gene body)等，实现了绝大多数胞嘧啶进行检测，可以覆盖到全基因组的绝大多数区域；

3、在进行重亚硫酸盐转化的同时，打断基因组，从而减少了操作步骤，并最大限度的避免基因组信息的丢失；

4、在线性扩增的时候控制文库大小，避免文库筛选的操作步骤，节约操作时间及成本。

5、可选的在线性扩增时加入或单端加入或双端加入分子标签，在后续的分析过程中可以识别分子的来源，增加分析的准确度；

6、可选的在线性扩增时加入或单端加入或双端加入分子标签，灵活的根据需要选择加入分子标签的长度，控制实验成本；

7、可选的在指数扩增时加入或单端加入或双端加入分子标签，在后续的分析过程中可以识别分子的来源，增加分析的准确度；

8、可选的在指数扩增时加入或单端加入或双端加入分子标签，灵活的根据需要选择加入分子标签的长度，控制实验成本；

9、可选的在线性扩增时加入相斥的三联分子标签，避免过多引物二聚体的产生；

10、可以实现线性扩增时一链与二链的同时扩增，简化操作步骤，减低试剂、时间成本；

11、在完成线性扩增后进行单链的消化，可减少引物二聚体的产生；

12、在完成线性扩增后可选的进行磁珠纯化，可减少引物二聚体的产生。

附图说明

图1为本发明实施例提供的单细胞基因组甲基化测序方法构建的测序文库的质检结果；

图2为本发明实施例提供的单细胞基因组甲基化测序方法的测序结果的原始数据碱基质量分布图；

图3为本发明实施例提供的单细胞基因组甲基化测序方法的测序结果的原始数据碱基分布图。

图4为本发明实施例提供的单细胞全基因甲基化测序方法的加入分子标签(UMI)与不加入分子标签(UMI)的拷贝数变异分析结果比较图。

具体实施方式

近年来测序技术发展迅猛，已成为生物学研究的重要手段。高通量测序技术的兴起，使大规模、低成本研究DNA序列以及DNA序列的表观修饰成为可能。单细胞测序是对单个细胞的基因组、转录组、甲基化化组等进行测序的技术。细胞是生命体最小的单位。每个细胞所包含的遗传信息并不是完全相同的，即细胞具有异质性。传统的大样本多细胞测序实际上是对一个细胞群体的分析，这种分析方案将所有细胞的信息平均化，从而掩盖了其中每个细胞的情况。如果了解每个单细胞的功能，就可以重建出整个系统，而且这种重建的过程能够提供更多有价值的信息，但是反之却不成立。而且，有些样本如胚胎发育早期，癌症早期，细胞数量非常稀缺，难以用传统方法开展研究，这时候单细胞测序就显得尤为重要。

通过对单细胞的全基因组甲基化进行测序，可以研究癌症细胞的特异性机理、解读早期胚胎发育进程、开发干细胞疗法、嵌合子分析、对难以培养的微生物、珍贵样品的遗传密码的解读、进行表观遗传学研究、进行胚胎早期的遗传筛选、开展神经生物学方向的研究。

鉴于此，本发明实施例提供了一种适用于单细胞基因组甲基化测序方法及测序文库构建试剂盒。可以对单个细胞的基因组进行测序，可在单细胞层面实现全基因组覆盖度，并且映射至基因组(mapping)效率稳定在50％左右。

本发明实施例提供的适用于单细胞基因组甲基化测序方法基于重亚硫酸测序法，实现单细胞起始量的全基因组甲基化测序。与基于限制性内切酶的测序、靶向富集甲基化位点测序的方法相比，重亚硫酸盐测序法被认为是甲基化测序研究的金标准，因为重亚硫酸的转化效率可达到99.9，并可通过加入λDNA等质控品检测重亚硫酸盐的转化效率而保证实验的准确性。同时重亚硫酸盐测序法还可达到单碱基的分辨率，这是单纯的基于限制性内切酶的测序、靶向富集甲基化位点测序的方法所不能比拟的。

在进一步描述本发明具体实施方式之前，应理解，本发明的保护范围不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围；在本发明说明书和权利要求书中，除非文中另外明确指出，单数形式“一个”、“一”和“这个”包括复数形式。

当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外，根据本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。

除非另外说明，本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。这些技术在现有文献中已有完善说明，具体可参见Sambrook等MOLECULAR CLONING：A LABORATORY MANUAL，Second edition，Cold Spring HarborLaboratory Press，1989and Third edition，2001；Ausubel等，CURRENT PROTOCOLS INMOLECULAR BIOLOGY，John Wiley&Sons，New York，1987and periodic updates；theseries METHODS IN ENZYMOLOGY，Academic Press，San Diego；Wolffe，CHROMATINSTRUCTURE AND FUNCTION，Third edition，Academic Press，San Diego，1998；METHODS INENZYMOLOGY，Vol.304，Chromatin(P.M.Wassarman and A.P.Wolffe，eds.)，AcademicPress，San Diego，1999；和METHODS IN MOLECULAR BIOLOGY，Vol.119，ChromatinProtocols(P.B.Becker，ed.)Humana Press，Totowa，1999等。

本发明实施例提供了一种适用于单细胞基因组甲基化测序的文库建立方法，包括如下步骤：(1)对样本的基因组DNA进行重亚硫酸盐转化；

(2)对步骤(1)中转化后的基因组DNA进行线性扩增；

在一个示例中，所述样本基因组DNA由单细胞样本裂解获得或由多细胞样本抽提获得。

可以采用试剂盒或者通过配置的试剂裂解一个细胞，使细胞的基因组得以释放。单个细胞的起始量一般为6pg，现有的甲基化测序方案的起始量最低为5ng。相比现有技术，本发明提供的适用于单细胞基因组甲基化测序的文库建立方法的样本起始量减少了3个数量级。对于细胞异质性的探索、珍惜样本的研究具有极其重要的意义。

重亚硫酸盐可以将未甲基化的胞嘧啶(C)转化为为尿嘧啶(U)。对于大量起始的DNA样本，一般是先打断基因组在重亚硫酸盐转化。基因组DNA在重亚硫酸盐转化过程中极易随机断裂而导致基因组DNA信息丢失。单细胞基因组信息只有约2个拷贝，为避免先打断基因组在重亚硫酸盐转化造成基因组信息的大量丢失。本发明实施例不进行基因组打断而是直接利用重亚硫酸盐转化基因组。更具体地，本发明实施例通过控制重亚硫酸盐的处理时间，使基因组在重亚硫酸盐转化的同时被打断，并结合后续步骤中的线性PCR扩增，获得合适大小的DNA片段，无需打断操作，也避免了传统的PAGE胶切胶回收或磁珠片段筛选的繁复操作，从而减少了操作步骤，既避免了人为操作引入污染的机会，同时最大限度地避免基因组的损失。可以通过加入适量的λDNA(1:100-1:1000),检测重亚硫酸盐的转化效率，剔除转化率低的样品而控制样品质量。在转化后的回收过程中可以加入糖原、carrier RNA、重复序列DNA或不会影响后续扩增或分析的核酸及化学物质提高回收效率，也可以采用其他DNA回收试剂盒或其他DNA回收方案替换。

在一个示例中，重亚硫酸盐的处理时间为50min～4h。

在进行指数扩增之前，先进行线性扩增重亚硫酸盐转化后的基因组，以避免扩增导致的测序导致的测序高偏向问题。

经过所述指数扩增得到的扩增子可以用于构建一代测序文库，也可以用于构建二代测序文库，也可以构建三代测序文库。本发明实施例可以根据构建的测序文库的类别，采用相应的PCR进行扩增，以构建不同的测序文库。

单细胞的起始DNA量只有6pg，极易丢失及引入污染。可以通过加入阴性对照的方法，并且在无菌台中操作的办法，对每一步扩增都进行严格的质控，避免人为操作引入的污染。

在指数扩增中，采用超高保真酶，从而保证测序信息的准确性。还可以对指数扩增循环数进行严格控制，以降低重复数据。

需要说明的是，本发明实施例提供的适用于单细胞基因组甲基化测序方法的起始样本可以为一个细胞的基因组，仅用于说明而非限定。容易理解的是，本发明实施例提供的适用于单细胞基因组甲基化测序的文库建立方法的起始样本也可以是多个细胞的基因组。

本发明实施例提供的适用于单细胞甲基化测序的文库建立方法覆盖了全基因组，包括富含CpG岛的启动子区域、散落的CpG位点、CHG\CHH位点；除了基因组启动子区域还包括增强子、转录起始位点、非编码区(UTR)、外显子、基因间区段(intergenic)、基因体(genebody)等，对全基因组的绝大多数胞嘧啶进行检测。

在该示例的一个例子中，所述线性扩增的循环次数为2～20。由于DNA起始量只有6pg,并且经过重亚硫酸盐处理后胞嘧啶转化为尿嘧啶，使得全基因组DNA的A\T\G\C\U的含量及分布极不均匀。通过2-20轮的线性扩增的方式，最大限度的使含有随机序列的引物覆盖到全基因组的范围，从而减少由于PCR而导致的后续测序中的高偏向性问题。

在一个示例中，所述线性扩增的引物为随机引物对。所述随机引物对包括第一引物和第二引物，所述第一引物的结构为：5’-测序平台匹配引物序列-随机序列-3’，所述第二引物的序列为5’-测序平台匹配引物序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-随机序列-三联重复序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’。所述第一引物中的测序平台匹配引物序列如SEQ ID NO.1所示，具体为：ACACGACGCTCTTCCGATCT；所述第二引物中测序平台匹配引物序列如SEQ ID NO.2所示，具体为：CTGAACCGCTCTTCCGATC。所述第一引物中的随机序列的长度可以为4～20nt，优选地为4～10nt，更优选地为6～8nt；所述第二引物中的随机序列的长度可以为4～20nt，优选地为4～10nt，更优选地为6～8nt。所述第一引物中的三联重复序列记为XXX，所述第二引物中的三联重复序列记为YYY，则XXX为TTT、YYY为GGG；XXX为AAA、YYY为GGG；XXX为TTT、YYY为CCC；或者XXX为AAA、YYY为CCC。所述分子标签序列可以是确定的序列也可以是随机序列，优选的为2-20nt的随机序列，更优选的为4-10nt的随机序列，更优选的为6-8nt的随机序列。

在该示例中，对经重亚硫酸盐转化后的DNA双链同时进行线性PCR扩增，减少了线性扩增的时间，提高了实验操作的效率。

在一个示例中，所述基因组DNA的质量大于等于6pg。

在一个示例中，所述细胞具体为原核细胞或真核细胞。

在一个示例中，所述真核细胞具体为植物细胞或动物细胞。

在一个示例中，所述动物细胞具体选自组织消化的细胞、培养所得的细胞、胚胎发育早期的细胞、癌症早期的细胞、未经富集培养的微生物细胞、流式分选获得的细胞、有限稀释获得的细胞、激光捕获等方法获得的细胞中的任一种。

前述文库建立方法可用于单细胞样本或多细胞样本的基因组DNA甲基化测序及甲基化位点分析。

本发明实施例还提供了一种确定单细胞样本或多细胞样本中基因组DNA甲基化位点的方法，包括如下步骤：采用如权利要求前述方法建立文库后，对所获得的文库进行测序，基于测序结果，对单细胞样本或多细胞样本的基因组DNA甲基化情况进行分析，确定甲基化位点。

本发明实施例还提供了一种测序文库构建试剂盒，包括：重亚硫酸盐试剂、线性PCR反应物和指数PCR反应物。

进一步地，所述试剂盒还包括细胞裂解液。

所述线性PCR反应物用于对转化后的基因组DNA进行线性扩增。

所述指数PCR反应物用于线性扩增的扩增子进行指数扩增。

所述指数扩增的扩增子可用作测序文库。在一个示例中，所述线性PCR反应物包括线性扩增的随机引物对和具有链置换活性的酶。

在一个示例中，所述指数PCR反应物包括指数扩增的引物和热启动聚合酶。

在一个示例中，所述PCR反应物包括线性扩增的随机引物对和具有链置换活性的酶；以及指数扩增的引物和热启动聚合酶。线性扩增的随机引物对和具有链置换活性的酶；以及指数扩增的引物和热启动聚合酶均如前所述。

一种基因组甲基化测序产品，包括前述测序文库构建试剂盒。

进一步地，所述测序可以是一代测序、、二代测序或三代测序。

下文以具体实施例1对本发明实施例的技术方案进行更具体地说明。

实施例1

可先对单细胞样本裂解或对多细胞样本抽提，从而获得样本基因组DNA。也可以采用由他人利用本领域所熟知的技术已经由单细胞样本裂解获得或由多细胞样本抽提获得的样本基因组DNA。

作为示例：本申请实施例中的样本基因组DNA可由如下步骤0和步骤1获得：

步骤0，单细胞分离。

可以从动物组织中分离出一个细胞。

步骤1，细胞裂解。

可以采用但不限于EZ DNA Methylation-Gold^TM Kit(zymo research，货号：d5005)甲基化试剂盒裂解该细胞，以释放基因组。具体操作方案，可以参照该试剂盒的说明书。

步骤2，重亚硫酸盐转化

采用但不限于EZ DNA Methylation-Gold^TM Kit(zymo research，货号：d5005)甲基化试剂盒转化基因组，具体操作方案，具体操作方案，可以参照该试剂盒的说明书。

步骤2和步骤1可以在同一反应管中进行，从而简化了实验操作。

步骤3，线性扩增。

步骤3.1，在PCR仪上将步骤2中获得的样品95℃保温3min，使双链打开，然后迅速转移到冰上。

步骤3.2，按照表2往PCR管中加入PCR反应物。

表2

试剂	体积
		DNA样品	25ul
dNTPs(2.5mM)	6.4ul
		引物A(10uM)	1.6ul
引物B(10uM)	1.6ul
		无核酸水	9.4ul
缓冲液(10X)	5ul
		klenow片段(3′→5′exo-)(5U/ul)	1ul
总体积	50ul

表2中klenow片段(3′→5′exo-)可以替换为klenow片段(3′→5′exo-)、bst DNA聚合酶、vent DNA聚合酶(3′→5′exo-)、vent DNA聚合酶、Phi 29DNA聚合酶、deep vent DNA聚合酶(3′→5′exo-)、deep vent DNA聚合酶d等中的任一种，也可以替换为包含klenow片段(3′→5′exo-)、bst DNA聚合酶、vent DNA聚合酶(3′→5′exo-)、vent DNA聚合酶、Phi29DNA聚合酶、deep vent DNA聚合酶(3′→5′exo-)、deep vent DNA聚合酶等中多种的混合物。

引物A和引物B组成线性扩增的随机引物对，引物A的结构为：5’-测序平台匹配引物序列-随机序列-3’，引物B的结构为：5’-测序平台匹配引物序列-随机序列-3’。

或者，所述引物A的结构为5’-测序平台匹配引物序列-随机序列-三联重复序列-3’，引物B的结构均为：5’-测序平台匹配引物序列-随机序列-三联重复序列-3’。

或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-3’。

或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’。

引物A中测序平台匹配引物序列如SEQ ID NO：1所示，具体为：

ACACGACGCTCTTCCGATCT。

引物B中测序平台匹配引物序列如SEQ ID NO：2所示，具体为：

CTGAACCGCTCTTCCGATC。

引物A中随机引物的长度可以为4～20nt，优选地为4～10nt，更优选地为6～8nt。引物B中随机序列的长度可以为4～20nt，优选地为4～10nt，更优选地为6～8nt。

所述引物A中的三联重复序列记为XXX，所述引物B中的三联重复序列记为YYY，则XXX为TTT、YYY为GGG；XXX为AAA、YYY为GGG；XXX为TTT、YYY为CCC；或者XXX为AAA、YYY为CCC。所述引物A中的三联重复序列与所述引物B中的三联重复序列可以减少引物二聚体的形成。

所述引物A中的分子标签序列可以是确定的序列也可以是随机序列，优选的为2-20nt的随机序列，更优选的为4-10nt的随机序列，更优选的为6-8nt的随机序列。所述引物B中的分子标签序列可以是确定的序列也可以是随机序列，优选的为2-20nt的随机序列，更优选的为4-10nt的随机序列，更优选的为6-8nt的随机序列。

步骤3.2，瞬时离心，将样品收集到PCR管底部。按表3中的程序进行PCR反应。

表3

步骤	温度(℃)	时间
			1	4	50s
2	10	50s
			3	15	50s
4	20	50s
			5	25	50s
6	30	50s
			7	37	20min
8	4	保持(hold)

步骤3.4，用PCR仪将样品95℃，45S，使双链打开迅速转移到冰上迅速降温使其维持单链状态。

步骤3.5，瞬时离心，加入0.5ul的klenow片段(3′→5′exo-)(5U/ul)。

步骤3.6，瞬时离心，将样品收集到PCR管底部。按照表4程序进行PCR反应。

表4

步骤	温度(℃)	时间
			1	4	50s
2	10	50s
			3	15	50s
4	20	50s
			5	25	50s
6	30	50s
			7	37	20min
8	4	保持

步骤3.7，重复步骤3.4～3.6推荐但不限于0-20次，可根据样品情况进行调整。

步骤3.7，加入2ul的核酸外切酶(Exonuclease)I和48ul的无核酸水到样品中，并用PCR仪37℃消化1h，热盖温度为50℃。

步骤4，线性扩增产物纯化。

步骤4.1，AMPure XP珠(beads)在室温平衡30min以上。

步骤4.2，将80ul平衡后的AMPure XP beads置于100ul线性扩增产物中，混匀。

步骤4.3，在室温孵育10min。

步骤4.4，将样品转移到磁力架上，待样品澄清后弃去上清。

步骤4.5，用200ul的80％(vol/vol)的乙醇，清洗beads。

步骤4.6，弃去上清。

步骤4.7，重复步骤4.5～步骤4.6一次。

步骤4.8，室温开盖等待，至乙醇充分挥发。

步骤4.9，按照表5加入的指数PCR的反应物：

表5

试剂	体积
		dNTPs(2.5mM)	1ul
引物C(10uM)	1ul
		引物D(10uM)	1ul
缓冲液(5x)	10ul
		指数扩增酶	1U
无核酸水	补齐至50ul

引物C的序列为SEQ ID NO：3，具体为：

5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3。引物D的序列为SEQ ID NO：4，具体为：

5’-CAAGCAGAAGACGGCATACGAGATNNNNNNGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATC-3’；其中，“NNNNNN”为illumina通用索引(index)。因此，以该引物进行扩增的扩增子可以用于构建illumina测序的测序文库。

引物SEQ ID NO：3和SEQ ID NO：4的3端也可加入3-20nt的随机或特定序列作为分子标签(UMI)，优选的分子标签的长度为4-12nt,更优选的分子标签的长度为6-9nt。通过加入分子标签的优点是可以在后续的分析过程中识别分子的来源，从而判断细胞中真实含有的分子拷贝数，排除PCR扩增对分析的影响，增加校对的功能，加强分析的准确度。

可选地，指数扩增酶可以是包含High-Fidelity DNA Polymerase、High-Fidelity DNA Polymerase、PrimeSTAR HS DNA聚合酶、Ex Taq、ExFi Tusion DNA聚合酶、Vent DNA聚合酶、PfuDNA聚合酶等的任意一种或几种的组合。

室温孵育10min，使DNA充分洗脱。

步骤5，指数扩增。

将步骤4中的混合物按照表6的程序进行PCR扩增。

表6

需要说明的是，表6的程序可以根据不同的实验进行调整。

步骤6，测序文库构建。

步骤6.1，AMPure XP beads在室温平衡30min以上。

步骤6.2，将80ul平衡后的AMPure XP beads的上清与50ul指数扩增的产物和50ul无核酸水用枪吹打混匀。

步骤6.3，在室温孵育10min。

步骤6.4，将步骤6.3的样品转移到磁力架上，待样品澄清后弃去上清。

步骤6.5，用200ul 80％(vol/vol)的乙醇，清洗beads。

步骤6.6，弃去上清。

步骤6.7，重复步骤6.5～步骤6.7一次。

步骤6.8，弃去上清。

步骤6.8，室温开盖等待，至乙醇充分挥发。

步骤6.9，加入15ul的无核酸水与beads充分混匀。

步骤6.10，室温孵育10min后，转到磁力架上，待溶液澄清后吸取上清至干净EP管中。

上述DNA的纯化方式也可以为过柱法、沉淀法等其他方式。

步骤9，测序文库质检

使用安捷伦2100生物分析仪对测序文库进行质检，具体操作步骤如下：

取1ul步骤6.10制备的样品至1ul体系，进行2100高灵敏芯片，操作步骤严格遵循2100操作手册。质检结果如图1所示，在进行指数扩增之后的片段大小为200bp-1000bp，主峰集中在400-600bp。

步骤10，测序及分析

使用illumina测序平台进行测序，并对测序结果进行分析。

测序结果中的原始数据碱基质量如图2所示，所述图2是由Fast QC软件制作，其中的线1表示其对应的reads碱基质量值的中位数。reads碱基质量值越高，说明测序错误率越低。图2表明，本发明实施例构建的测序文库的碱基质量良好。

测序结果中的原始数据碱基分布如图3所示，横坐标是reads碱基坐标，表示reads上从5’到3’端依次碱基的排列；纵坐标是所有reads在该测序位置A、C、G、T碱基分别占的百分比。由于经过了重亚硫酸盐处理，C或G的含量会偏低。并且从图上可以看出该测序文库中的检测分布均匀，并且几乎看不到模糊碱基N，说明模糊碱基N数量少，测序文库受系统AT偏好影响小。

采用本发明实施例提供的单细胞基因组甲基化测序方法分别对A、B、C、D四个样本单细胞进行了测序。可以监控四个细胞的两个reads的重亚硫酸盐的转化效率。监控转化效率具体可以为在基因组比对后，挑选出非CpG区域的C，统计其中发生了C-T转换的比例，估算转化效率；监控转化效率也可以通过加入外源的经过基因组改造的未甲基化的λDNA进行计算。

结果如表7所示。可知，转化效率都在98％以上。

表7

A、B、C、D四个样本测序结果的数据质量如表8所示。

表8

注：Q20％：Phred数值大于20的碱基占总体碱基的百分比；Q30％：Phred数值大于30的碱基占总体碱基的百分比；序列数(条)为测序的所得到的reads数。

A、B、C、D四个样本的测序数据比对结果如表9所示。

表9

注：Cleans reads:经过质控后，可用于下游比对的reads数；unique Mappedreads：能唯一比对到参考基因组上的reads数；Mapping rate：能唯一比对到参考基因组上的reads数占clean reads的比例；Deduplicated reads：由于PCR产生的完全一样的reads数；Final reads:经过去重后能唯一比对上基因组上的reads数。

A、B、C、D四个样本在约3X测序深度的情况下，对基因组的覆盖度结果如表10所示。从表中可见，从单细胞起始的样品在低测序深度的情况下，对基因组有约40％左右的覆盖，情况良好。从理论上来说，测序深度越深，对基因组的覆盖度越高，同时合并同批次的数据可实现对全基因组绝大多数C位点的覆盖。

表10

注：raw reads:测序获得的reads数；raw data(M base):测序获得的碱基数；clean reads:经过质控后获得的reads数；clean data(M base):经过质控后获得的碱基数的碱基数；coverage rate:对于全基因组的覆盖度。

综上所述，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

序列表

<110> 上海美吉医学检验有限公司

<120> 适用于单细胞基因组甲基化测序的文库建立方法及其应用

<130> 173414

<160> 4

<170> SIPOSequenceListing 1.0

<210> 1

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

acacgacgct cttccgatct 20

<210> 2

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

ctgaaccgct cttccgatc 19

<210> 3

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 4

<211> 71

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

caagcagaag acggcatacg agatnnnnnn gagatcggtc tcggcattcc tgctgaaccg 60

ctcttccgat c 71

Claims

1.一种适用于单细胞基因组甲基化测序的文库建立方法，其特征在于，包括如下步骤：

(1)对样本的基因组DNA进行重亚硫酸盐转化；

(2)对步骤(1)中转化后的基因组DNA进行线性扩增；

2.根据权利要求所述的文库建立方法，其特征在于，所述样本基因组DNA由单细胞样本裂解获得或由多细胞样本抽提获得。

3.根据权利要求1所述的文库建立方法，其特征在于，步骤(2)中，所述线性扩增的引物为随机引物对。

4.根据权利要求3所述的文库建立方法，其特征在于，所述随机引物对包括第一引物和第二引物，所述第一引物的结构为：5’-测序平台匹配引物序列-随机序列-3’，所述第二引物的序列为5’-测序平台匹配引物序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-随机序列-三联重复序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’。

5.根据权利要求4所述的文库建立方法，其特征在于，所述第一引物中的测序平台匹配引物序列如SEQ ID NO.1所示，具体为：ACACGACGCTCTTCCGATCT；所述第二引物中测序平台匹配引物序列如SEQ ID NO.2所示，具体为：CTGAACCGCTCTTCCGATC。

6.根据权利要求4所述的文库建立方法，其特征在于，所述第一引物中的随机序列的长度为4～20nt，所述第二引物中的随机序列的长度为4～20nt。

7.根据权利要求4所述的文库建立方法，其特征在于，所述第一引物中的三联重复序列记为XXX，所述第二引物中的三联重复序列记为YYY，则XXX为TTT、YYY为GGG；XXX为AAA、YYY为GGG；XXX为TTT、YYY为CCC；或者XXX为AAA、YYY为CCC；所述分子标签序列为确定的序列或随机序列，优选的为2-20nt的随机序列，更优选的为4-10nt的随机序列，更优选的为6-8nt的随机序列。

8.根据权利要求1所述的文库建立方法，其特征在于，步骤(3)中，所述线性扩增的DNA聚合酶为具有链置换活性的酶；其中，所述链置换活性的酶选自但不限于klenow片段(3′→5′exo-)、klenow片段、bst DNA聚合酶、vent DNA聚合酶(3′→5′exo-)、vent DNA聚合酶、Phi 29DNA聚合酶、deep vent DNA聚合酶(3′→5′exo-)、deep vent DNA聚合酶中的任一种或多种。

9.根据权利要求1所述的文库建立方法，其特征在于，步骤(3)中，所述指数扩增的引物包括第三引物和第四引物；所述第三引物的序列如SEQ ID NO：3所示，具体为：

10.如权利要求1-9任一项所述文库建立方法用于单细胞样本或多细胞样本的基因组DNA甲基化测序及甲基化位点分析中的用途。

11.一种确定单细胞样本或多细胞样本中基因组DNA甲基化位点的方法，其特征在于，包括如下步骤：采用如权利要求1-9任一项所述方法建立文库后，对所获得的文库进行测序，基于测序结果，对单细胞样本或多细胞样本的基因组DNA甲基化情况进行分析，确定甲基化位点。

12.一种测序文库构建试剂盒，其特征在于，包括：重亚硫酸盐试剂、线性PCR反应物和指数PCR反应物。

13.根据权利要求12所述的测序文库构建试剂盒，其特征在于，所述线性PCR反应物包括线性扩增的随机引物对和具有链置换活性的酶。

14.根据权利要求13所述的测序文库构建试剂盒，其特征在于，所述随机引物对包括第一引物和第二引物，所述第一引物的结构为：5’-测序平台匹配引物序列-随机序列-3’，所述第二引物的序列为5’-测序平台匹配引物序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-随机序列-三联重复序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-3’；或者，所述第一引物的结构为5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’，所述第二引物的结构均为：5’-测序平台匹配引物序列-分子标签序列-随机序列-三联重复序列-3’。

15.根据权利要求14所述的测序文库构建试剂盒，其特征在于，所述第一引物中的测序平台匹配引物序列如SEQ ID NO.1所示，具体为：ACACGACGCTCTTCCGATCT；所述第二引物中测序平台匹配引物序列如SEQ ID NO.2所示，具体为：

CTGAACCGCTCTTCCGATC。

16.根据权利要求14所述的测序文库构建试剂盒，其特征在于，所述第一引物中的随机序列的长度为4～20nt，所述第二引物中的随机序列的长度为4～20nt。

17.根据权利要求14所述的测序文库构建试剂盒，其特征在于，所述第一引物中的三联重复序列记为XXX，所述第二引物中的三联重复序列记为YYY，则XXX为TTT、YYY为GGG；XXX为AAA、YYY为GGG；XXX为TTT、YYY为CCC；或者XXX为AAA、YYY为CCC；所述分子标签序列为确定的序列或随机序列，优选的为2-20nt的随机序列，更优选的为4-10nt的随机序列，更优选的为6-8nt的随机序列。

18.根据权利要求13所述的测序文库构建试剂盒，其特征在于，所述链置换活性的酶选自但不限于klenow片段(3′→5′exo-)、klenow片段、bst DNA聚合酶、vent DNA聚合酶(3′→5′exo-)、vent DNA聚合酶、Phi 29DNA聚合酶、deep vent DNA聚合酶(3′→5′exo-)、deepvent DNA聚合酶中的任一种或多种。

19.根据权利要求13所述的测序文库构建试剂盒，其特征在于，所述指数PCR反应物包括指数扩增的引物，所述指数扩增的引物包括第三引物和第四引物；所述第三引物的序列如SEQ ID NO：3所示，具体为：

20.一种基因组甲基化测序产品，其特征在于，包括如权利要求12-19任一项所述测序文库构建试剂盒。