CN115125624A

CN115125624A - 一组条码接头以及中通量多重单细胞代表性dna甲基化建库和测序方法

Info

Publication number: CN115125624A
Application number: CN202110336815.7A
Authority: CN
Inventors: 潘星华; 麦丽瑶; 练志伟; 张裕龙; 林献威; 李爽; 杨香; 彭佳佳
Original assignee: Guangzhou Prescription Gene Technology Co ltd; Southern Medical University
Current assignee: Guangzhou Sequmed Biotechnology Inc
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-09-30
Also published as: US20240132949A1; WO2022199242A1

Abstract

本发明提供了一组含样品条码的粘性接头，用于特异标记不同样品；每个接头由短寡核苷酸和长寡核苷酸形成，不同接头设置独特的条码序列；该接头直接连接限制性酶切的基因组DNA片段末端，用于标记多个单细胞或群体细胞或纯化的DNA样品并可进行其扩增。本发明还提供了同时检测多个样品CpG甲基化的方法，简称M‑scRRBS，及其替代性方法M‑scRRAS，采用上述接头特异标记多个样品，包括每个样品的所有DNA片段，再把多个样品合并，实现多样品的单管反应，进行后续的转化、测序文库构建和测序、各样品读数分流解码及下游分析。本发明的建库技术与scWGBS和scRRBS方法相比，具有高效率、低成本、操作稳定方便等优势。

Description

一组条码接头以及中通量多重单细胞代表性DNA甲基化建库和测序方法

技术领域

本发明涉及DNA测序技术领域，尤其涉及一组条码接头以及中通量多重单细胞代表性DNA甲基化建库和测序方法。

背景技术

甲基化和DNA甲基化研究及其意义：甲基化研究是疾病研究的热点，与基因表达、表型性状息息相关。生物体的DNA甲基化是指在DNA甲基转移酶 (DNA methyltransferase，DMT)的催化下，以s-腺苷甲硫氨酸(S-adenosylmethionine,SAM)为甲基供体，将甲基转移到特定碱基上的过程。 DNA甲基化可以发生在腺嘌呤的N-6位、鸟嘌呤的N-7位、胞嘧啶的C-5位等。但在哺乳动物中DNA甲基化主要发生在5'-CpG-3'的C上生成5-甲基胞嘧啶 (5mC)。在哺乳动物中CpG以两种形式存在：①CpG二核苷酸分散于DNA序列中；②CpG二核苷酸呈现高度聚集状态，形成CpG岛(CpG island)。在哺乳动物正常基因组序列中，70％～90％分散的CpG被甲基化修饰，而CpG岛则往往处于非甲基化状态(除有些特殊区域和基因外)，且CpG岛常位于转录调控区附近，与56％的人类基因组编码基因相关，因此对基因转录区CpG岛甲基化状态的研究十分重要。

人类基因组序列草图分析结果表明，人类基因组CpG岛约为28890个，大部分染色体每1Mb就有5-15个CpG岛，平均值为每Mb含10.5个CpG岛。DNA 甲基化与人类发育、分化、衰老和疾病的关系密切，特别是CpG岛甲基化所致抑癌基因转录失活问题，基因组重复序列的低甲基化导致基因组稳定性下降的问题等。DNA甲基化已经成为表观遗传学和表观基因组学的重要研究内容。

近年来，DNA甲基化特征已成为多种肿瘤诊断和预后的生物标志物。DNA 甲基化的研究为揭示癌症的发生、发展机制，癌症组织的细胞异质性，癌症的早期发现和预后效果评估以及进行癌症的研究治疗提供了可能。除此之外，研究DNA序列中CpG岛的甲基化情况对于从表观水平阐述人类多种疾病的发生发展机理、筛查诊断和治疗靶标都有重要意义。

DNA甲基化测序的经典方法：传统的DNA甲基化研究方法主要有三类： (1)重亚硫酸氢盐特异转化(conversion)非甲基化的胞嘧啶(C)和测序(Bisulfite Sequencing,BS)；(2)甲基化或非甲基化C或CpGDNA的特异性结合，例如：甲基化DNA免疫沉淀(MethylatedDNA Immunoprecipitation,MeDIP)或甲基化结合蛋白(MeCP2)的特异结合富集；(3)甲基化DNA对甲基化敏感限制性核酸内切酶的阻断(Resistance toMethylation-sensitiveRestriction Endonuclease, MRE)。然而，无论是BS、MeDIP，还是MRE，都需要大量的DNA样品才能保证产出可信的读数。而BS方法能精准定量且分辨率可达到给出单个碱基的分辨率，是DNA甲基化分析的金标准。哺乳动物群体细胞基因组CpG和CpG岛甲基化检测以全基因组重亚硫酸氢盐测序(WGBS)和简化代表性重亚硫酸氢盐测序(RRBS)等方法应用最广。

群体细胞全基因组BS(WGBS)技术可用于研究群体细胞全基因组DNA 甲基化情况，但由于其随机覆盖整个基因组的全部碱基，所以建库和测序费用非常昂贵；而简化代表性BS(RRBS)技术为我们提供了一种相对高效、经济、覆盖度集中的群体细胞DNA甲基化研究方法。(1)RRBS技术首先采用富含 CG的特异性限制性核酸内切酶来消化基因组DNA，其中较短片段往往富含CG，对这些片段的富集，就能选择CpG岛及启动子区域特异性的片段。酶切后的 DNA片段进行重亚硫酸氢盐处理、扩增建库并测序。通过测序大约10％的小鼠或人类基因组，RRBS可有效覆盖基因组大部分信息量丰富的CpG位点，一般可以包括>70％的启动子，>80％的CpG岛(CpG island)，及部分增强子、外显子、 UTRs和重复元件。(2)WGBS覆盖全基因组，这一技术的DNA片段化是随机进行的。一般是利用亚硫酸氢盐处理(转化)前或后，进行全基因组DNA的覆盖、转化、扩增建库和测序，最初被用来绘制拟南芥和人的甲基化图谱。和 RRBS方法相比，WGBS(或称BS)覆盖的基因组CpG数较多，较全面，理论上可以全部覆盖，但是成本要昂贵很多，这也在一定程度上限制了该方法的应用。重要的是，它不便进行从头开始的多个样品的中、高通量的操作。

最近丰富的单细胞测序研究报告尤其是单细胞转录组测序(scRNA-seq)表明，在几乎所有组织、所有阶段，甚至在特异富集和细胞系群体中，细胞之间大多具有高度(或多或少)的异质性。初步研究发现，正如单细胞的RNA表达谱的异质性，不同细胞之间甲基化也具有很大的异质性，这种异质性差异大多位于基因活性的控制位点，不仅是细胞亚群分析也是不同细胞状态分析的一个重要依据，有重要的生物学意义。此前检测DNA甲基化是在大量单细胞合并(往往是有不同类型细胞组成的群体细胞)进行的，只能获得群体细胞的平均DNA 甲基化情况，不能检测细胞之间的异质性。单细胞分辨率的DNA甲基化的检测可以从单细胞水平阐述不同细胞亚群之间或同一细胞亚群中不同细胞之间的 DNA甲基化水平差异，而群体细胞水平上的WGBS和RRBS等技术由于需要的起始DNA样品量高，一般需要微克级别的起始基因组DNA，相当于百万数量级的细胞；最新改进的技术也需要纳克级别的DNA起始量，相当于数千个单细胞的群体。而一个细胞只含有pg级别DNA，故传统的WGBS和RRBS技术不适用于单细胞DNA甲基化研究。

单细胞DNA甲基化测序的主要方法：近年来，有研究人员开发出了适用于单细胞DNA甲基化研究的技术：单细胞全基因组重亚硫酸盐测序scBS(或 scWGBS)和单细胞简化代表性重亚硫酸盐测序scRRBS新技术，如图1所示。

(1)scBS(或scWGBS)首先用重亚硫酸氢盐处理裂解细胞释放出来的 DNA，然后对这些DNA进行建库、扩增和高通量测序，检测甲基化的定位和受到影响的基因。scBS(或scWGBS)技术能够更全面的覆盖全基因组高达～48％的CpG位点。但是如上所述，由于WGBS/BS随机覆盖整个基因组的全部碱基，因此建库测序费用昂贵，而且单细胞基因序列易丢失，覆盖度低、覆盖度的一致性也低。更重要的是，scBS/scWGBS不便进行从头多样品高通量的建库。

(2)scRRBS则改良了原始的RRBS的方法，在PCR扩增之前将一个样品所有实验步骤整合到单管反应中完成。这样的改良使得scRRBS能够以单碱基分辨率提供单个二倍体小鼠或人类细胞内约100万CpG位点(1000000/2500000) 的数字化甲基化信息。相比于单细胞重亚硫酸氢盐测序(scBS)技术(370万)， scRRBS覆盖的CpG位点少一些，但它以较低的费用更好地覆盖了CpG岛：可能是DNA甲基化信息量最丰富的元件。scRRBS原理是利用具有特异性富集 DNA序列中CpG岛位点的MspⅠ酶(也可以用别的限制酶)，将基因组DNA 酶切成DNA片段，利用重亚硫酸氢盐将DNA片段的CpG二核苷酸中未甲基化的C转化形成U，而CpG二核苷酸中甲基化的C还是保持原有的甲基化状态，再用聚合酶链式反应(PCR)扩增目的DNA片段以达到所需的测序浓度要求，经过二代测序后，通过生物信息分析可以获得基因组DNA的甲基化情况。

scRRBS方法的一般步骤为：①裂解单细胞，释放双链基因组DNA；②加入微量的非甲基化λDNA作为重亚硫酸氢盐(Bisulfite)转化效率的内对照；③MspⅠ酶酶切基因组DNA成DNA片段；④DNA片段末端修复(形成平末端) 及加A(腺嘌呤)处理；⑤给DNA片段末端连接二代测序接头；⑥重亚硫酸氢盐对连接好接头的DNA片段进行转化，将未甲基化的C转化为U，甲基化的C 不转化；⑦层析柱纯化DNA片段(加10ng的tDNA作为carrier，降低酶对目的DNA的损伤)；⑧利用PCR反应对转化后的DNA片段进行扩增；⑨二代测序和数据分析解码。

通过非甲基化的λDNA，检测到重亚硫酸氢盐转化对C的平均效率必须在 99％的水平上。研究人员用RRBS技术对群体细胞进行建库，通过测序可以检测到大约250万个CpG位点，而通过scRRBS技术对单细胞(小鼠胚胎干细胞mESC) 建库测序，检测出的平均CpG位点为102万，这主要是因为DNA片段的破坏和损失，CpG检测效率大约40％(102万/250万)。

RRBS用于群体细胞建库测序所检测到的每个碱基(C，胞嘧啶)位置的甲基化状态是连续性数字化的，而scRRBS检测一个二倍体单细胞时，某一特定的 C碱基只有甲基化、未甲基化和未检测到这三种状态。同时，对每一个细胞来说， scRRBS都能获得一个独立的全基因组范围的CpG甲基化的数据，尽管主要覆盖富含CG的DNA区域，但是能可以精准地反映特定细胞群体的单细胞水平的甲基化异质性。对一个复杂细胞群体来说，往往需要分析一定数量的单细胞才能反映整个多细胞群体的甲基化状况。

scRRBS建库流程如图2所示，scRRBS的主要特点是用较少的测序数据，能探测到单细胞中代表性的CpG位点，同时靶向覆盖甲基化CpG岛，与scBS (或scWGBS)相比费用较低，覆盖度的一致性较好，适合于研究单细胞CpG 岛等DNA甲基化情况，能达到单碱基水平的分辨率。

单细胞DNA甲基化测序的其他方法：2017年，潘星华等人发表了一种不依赖于BS的单细胞甲基化分析技术：单细胞CGI测序技术(scCGI-seq)。scBS (或scWGBS)和scRRBS实验由于重亚硫酸氢盐处理对DNA造成严重的破坏和损失。甲基化敏感限制性核酸内切酶(Methylation-sensitive restriction endonuclease,MRE)不需要重亚硫酸氢盐处理可以直接覆盖到CGI甲基化，因此减少DNA的随机丢失。scCGI-seq技术是结合MRE消化来区分甲基化和非甲基化CGI，通过MDA技术选择性扩增含有甲基化CGI的长DNA链，而短DNA 链则不扩增。测序分析后，不仅基因组尺度覆盖度与BS技术结果一样，而且明显地提高了覆盖度的一致性(如图3所示)。但是，该方法有改进成为高通量技术的潜力，但是也有一个缺点：不能达到单碱基的分辨率。

单细胞DNA甲基化测序技术scRRBS的缺点和可改进之处：scRRBS技术在一个反应体系中只能对一个细胞进行建库，只能得到一个细胞的DNA甲基化数据，实验步骤操作繁琐，且这些技术存在一些重要缺点：(1)操作低效：scRRBS 技术不能批量的在同一个反应体系中对多个细胞进行建库，而是每一个细胞大量步骤的独立操作(重亚硫酸氢盐转化、纯化DNA片段、连接上不同的测序接头、扩增、片段长度的选择等)。(2)覆盖率低：单个细胞DNA极其微量，容易损坏，尤其是酶切基因组DNA片段的末端修复及处理、重亚硫酸氢盐转化、连接二代测序接头等，导致序列覆盖率低；(3)成本高：虽然与scBS(或scWGBS) 技术相比，scRRBS技术在实验成本上偏低，但相对于本专利发明的M-scRRBS 技术来说，scRRBS技术一个反应体系中每个细胞分别独立进行建库，通量非常低，而实验成本要高。(4)实验操作一致性不稳定：用scRRBS技术构建96 个单细胞文库，需要96个独立的反应体系，导致其在实验操作上很难达到一致性。如果对96个样品进行早期条码标记后合并在一个反应体系中(一个试管中)，那么可以大大地提高实验操作的一致性。(5)scRRBS技术设计的测序接头过长，连接后在重亚硫酸氢盐转化时容易断裂，导致序列可扩增的比率和覆盖率过低。

大量单细胞的表观组学分析是解决细胞群体异质性机制的必要手段，单细胞RNA测序(scRNA-seq)一次可获得数千上万个单细胞数据，单细胞染色质 Accessibility测序(scATAC-seq)也有相应的高通量方案。但是无论是scBS和 scWGBS技术，还是scRRBS，效率不高、数据质量不好，以及应用成本过高是它们的短板，极大地限制了他们的应用。由于测序费用昂贵，所以目前发表的单细胞甲基化测序研究报告所分析的单细胞数目极少，一般只有几十个单细胞。

发明内容

基于上述问题，本发明的目的在于提供一组条码接头用以克服上述scRRBS 现有技术的不足之处以及提供一种同时检测多个单细胞CpG甲基化文库构建的中高通量方法。

为了能够更好满足单细胞CpG甲基化单细胞水平的异质性的研究，本发明设计和实验了一种新的基于早期条码标记的多重单细胞简化代表性重亚硫酸氢盐测序技术(multiple-scRRBS，M-scRRBS)，同时设计和实验了其一个替代性版本，替代版本中用APOBEC酶对非甲基化胞嘧啶(C)转化以代替重亚硫酸氢盐转化，暂时名为M-scRRAS(multiple-scRRAS，M-scRRAS)，旨在提供一种适用于大规模单细胞CpG甲基化分析测序技术，主要侧重于CpG岛及启动子等CpG富集序列的分析，与scBS(或scWGBS)和scRRBS方法相比，具有高通量、低成本、操作稳定等优势。

为实现上述目的，本发明采取的技术方案包括以下三个主要方面：一组条码接头、实验方案(即检测方法)和应用。

在第一个方面，本发明提供了用于单细胞CpG甲基化文库构建的一组条码接头和相应引物，其中所述条码接头包含PCR扩增引物序列、切除扩增产物中引物所需限制性内切酶相关序列及预设的后续接头连接粘性序列、样品条码序列(Barcode)和CG末端粘性序列。

所述条码接头，在连接酶的作用下不能相互形成二聚体或多聚体，而是能够与具有互补粘性末端的DNA片段形成“接头+插入DNA片段+接头”的三联体结构，而且在相对高浓度接头与低浓度DNA片段共存时，所有DNA片段获得高效覆盖形成三联体。

所述条码接头还可包含实验批次索引(Index)以及与特定二代和三代测序平台相兼容的测序文库接头序列(Adapter)相兼容的序列。

在一个特定实施方案中，所述的一组条码接头，或/和实验批次索引(Index) 中每个位置的碱基为A、T、C和G中任意一种，3种/2种碱基中任意一种，或特定碱基。

在一个特定实施方案中，所述的一组条码接头，所述多个序列不同的条码接头均由短寡核苷酸和长寡核苷酸组成，短寡核苷酸Tm值要求：10℃＜Tm＜ 60℃，优先地14℃＜Tm＜56℃，短寡核苷酸和长寡核苷酸经变性后退火形成长短DNA双链接头。

在一个特定实施方案中，所述的一组条码接头，所述长寡核苷酸从5'端到3' 端依次含有样品条码序列、切除引物所需限制性内切酶识别相关序列及预设的后续接头连接粘性序列、PCR扩增引物序列。

在一个特定实施方案中，所述的一组条码接头，其特征在于，所述短寡核苷酸的3'端经具有阻止连接或聚合酶延伸功能的基团修饰，包括但不限于3'ddC (3'双脱氧胞苷)、3'Inverted dT(3'反向dT)、3'C3 spacer(3'C3间臂)、3'Amino (3'氨基)及3'phosphorylation(3'磷酸化)等修饰。

优选地，所述具有抑制外切酶酶解功能的基团为3'ddT或3'氨基。

在一个特定实施方案中，所述的一组条码接头5'和/或3'末端及近末端第1-10 核苷酸位置之间的某2个或任意个核苷酸之间具有稳定核苷酸免于降解的修饰，更优选地，所述修饰为硫代磷酸酯修饰。

在一个特定实施方案中，所述的一组条码接头，所述短寡核苷酸从3'端到5' 端依次含有粘性末端(在MspI酶切情况下是CG)、所述条码序列的互补序列或和部分其他序列。

在一个特定实施方案中，所述的一组条码接头，所述长短双链DNA接头均含有PCR扩增引物序列(接头的5'端序列的作用)。

在一个特定实施方案中，所述的一组条码接头，所述长寡核苷酸中的胞嘧啶是经甲基化修饰的胞嘧啶(5mC)。

在一个特定实施方案中，所述的一组条码接头，所述寡核苷酸的每个位置的碱基为A、T、C和G中任意一种，3种/2种碱基中任意一种，或特定碱基；其中，所述长寡核苷酸中的胞嘧啶是经甲基化修饰的胞嘧啶。

在一个特定实施方案中，所述的一组条码接头，所述条码序列、或/和实验批次索引(Index)的碱基个数大于等于2个。

优选地，所述条码序列的碱基个数可为6个、8个或10个。

更优选地，所述条码序列的碱基个数为6个。

在一个特定实施方案中，所述的一组条码接头，所述多个不同的条码接头的条码序列不同。

在一个特定实施方案中，所述的一组条码接头，所述多个序列不同的条码接头的PCR扩增引物序列相同。

在一个特定实施方案中，所述的一组条码接头，所述多个序列不同的条码接头兼容PCR扩增引物，用于捕获/连接并扩增基因组片段。

在一个特定实施方案中，所述的一组条码接头和引物序列分别为，长寡核苷酸序列：5'AAG TAG GTA TCmCm GTG AGT GGTG AAGAAT；短寡核苷酸序列：5'CG ATTCTT CACCA/3ddC/；引物序列之一：5'AAG TAG GTA TCC GTG AGT GGTG。

在一个特定实施方案中，所述的一组条码接头，所述样品可为单细胞、群体细胞、器官组织提取的DNA。

在一个特定实施方案中，所述的一组条码接头，所述高通量测序平台是Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI) 的MGISEQ，或三代测序平台如PacBio或nanopore。

在一个特定实施方案中，所述的一组条码接头，所述高通量测序平台是 IlluminaHiSeq×10高通量测序仪。

在一个特定的实施方案中，一组条码接头的PCR扩增引物等部分包含实验批次索引(Index)以及与特定二代或/和三代高通量测序平台相兼容的测序文库接头序列(Adapter)，而不包含引物切除酶相关序列。

本发明提供了上述所述的一组条码接头的制备方法，所述制备方法是将多个序列不同的条码接头进行组合得到的。

所述多个序列不同的条码接头均是由以下方法制备：将短寡核苷酸和长寡核苷酸溶于TE缓冲液中，在94℃下反应，之后迅速降到80℃，然后自然下降到室温，形成部分碱基互补配对的条码接头。

在第二个方面，在上述接头和引物的基础上，本发明提供了一种同时检测多个单细胞CpG甲基化的中高通量建库和测序方法，包括以下步骤：

(1)将多个样品独立裂解，释放出各自的基因组DNA；

(2)将释放出的基因组DNA进行纯化或不纯化而直接进行下一步处理；

(3)对基因组DNA进行片段化，得到片段长度不一的DNA片段；

(4)对每个样品的DNA片段分别连接到具有不同条码的条码接头；

(5)将连接有接头的多个样品的DNA片段进行合并；

(6)将合并后的DNA片段池用DNA聚合酶进行接头修复，构建完整条码接头；

(7)对得到的DNA片段进行非甲基化胞嘧啶的转化；

(8)将转化后的DNA片段进行第一轮PCR扩增，用于接头相兼容的引物；

(9)基于引物切除限制酶相关序列并采用相应的限制酶，切除第一轮PCR反应扩增后DNA片段末端的引物序列，保留DNA片段中的条码序列；

(10)对步骤(9)中的DNA片段连接上带有第二轮PCR扩增引物的接头，该接头序列与特定二代或/和三代高通量测序平台相兼容；

(11)对步骤(10)中的连接产物进行片段长度选择、富集或回收，和纯化，获得适合于测序平台的长度的初步文库；

(12)对步骤(11)连接产物进行PCR扩增，其中3'引物包含批次索引(Index)，引物对与特定二代或三代测序平台相兼容；

(13)对步骤(12)中的扩增产物进行片段长度选择、富集或回收，和纯化，获得适合于测序平台的长度的文库；

(14)用特定二代或三代测序平台对步骤(13)所得测序文库测序，以获得混合样品的甲基化数据；

(15)通过信息分析解码步骤(14)所得甲基化数据，获得各个批次、和各个样品的甲基化图谱，即得。。

优选地，所述步骤(1)中的裂解细胞释放DNA包括采用物理方法、化学方法或酶解法，其中化学方法包括但不限于离子去污剂和非离子去污剂如十二烷基硫酸钠(SDS)、十二烷基肌氨酸钠(Sarkosyl或Sarcosyl)、triton X-100、tween 20、tween 80等。

优选地，所述步骤(1)中的DNA包括单个细胞释放的基因组DNA，或者是多个细胞，又或者是组织器官中提取的基因组DNA。

优选地，所述步骤(2)中的对基因组DNA进行最基本的纯化，主要是除去抑制下游反应的成分，纯化DNA的方法包括无水乙醇共沉淀和磁珠富集等。

优选地，所述步骤(3)中采用片段化的方法包括物理方法、化学方法或甲基化不敏感性限制酶切法，

优选地，甲基化不敏感性限制性内切酶法片段化DNA并富集CG丰富区域，并优选MspI(CCGG)，其次可选TaqαI，或选其他酶如：AluI、BfaI、HaeIII、 HpyCH4V、MluCI、MseI，也可以是5-6个甚至8个碱基识别序列的甲基化不敏感的限制酶，或用2种或多种酶处理同一样品的各一等份细胞；相应地，长寡核苷酸和短寡核苷酸组成的接头的粘性末端的序列需要调整以与之互补，回收的 DNA片段长度也需要调整以高效回收适合与片段化方法和测序平台的文库长度。

优选地，所述步骤(3)中回收富集得到的DNA片段长度为30-400bp，优选地30-200bp，或者60-300bp。

另外的替代方案是，选用具有5-6个甚至8个碱基识别序列的、CG含量丰富的甲基化不敏感的限制酶来富集CGI序列；相应地，所述步骤(3)中回收富集得到的DNA片段长度为0.5kb-5kb；相应地，三代测序技术如PacBio及其相关引物将用于这种长片段的测序。

优选地，所述步骤(4)中条码接头选自所述的一组条码接头；连接方法使用DNA连接酶，优选Fast-Link^TMDNA Ligation kit。

优选地，所述步骤(5)中的合并多个样品数目大于等于2个，多达96个，或多达384个，或超过384个，相应地用PCR多连管或在微孔版上或定制的微孔板上操作。

优选地，所述步骤(6)中接头修复所用的酶为DNA聚合酶，具有碱基替代活性(strand displacement)或不具有碱基替代活性，优选为Sulfolobus DNA polymerase IV并辅助用4种单核苷酸(dGTP，dATP，dTTP，5mC即5mdCTP)；其中dCNP为经甲基化修饰的胞嘧啶(5mC)以保证转化后barcode和接头引物的序列不变。

优选地，所述步骤(7)中转化方法包括重亚硫酸氢盐和酶学转化。

优选地，所述酶学转化方法指采用基于APOBEC酶的转化方法，包括但不限于基于NEB Next Enzymatic Methyl-seq(EM-seq^TM)的APOBEC酶和缓冲液。

优选地，所述步骤(8)中将PCR扩增循环数根据DNA的质量以及样品数量的变化而改变。

优选地，所述步骤(9)中的切除片段的方法包括物理方法、化学方法或酶解法，优选BciVI酶切。

优选地，所述步骤(10)中连接方法使用DNA连接酶，优选Fast-LinkTMDNALigation kit；连接的引物接头为单链或者双链，优选双链。

优选地，所述步骤(11)(13)中初步测序文库或/和最终测序文库进行特定长度序列的回收，回收特定序列长度的方法为凝胶电泳、可分选DNA长度的磁珠、或HPLC；所述凝胶电泳优选2％E-Gel；所述磁珠优选AMPure XP Beads。

优选地，所述步骤(11)中初步测序文库进行纯化或回收特定长度序列，回收特定序列长度为120bp-1000bp，优选120bp-500bp，更优选120bp-400bp，最优选120bp-300bp或者150-390bp。

优选地，所述步骤(13)中最终测序文库进行纯化或回收特定长度序列，回收特定序列长度为170bp-1000bp，优选170bp-500bp，更优选170bp-400bp，最优选170bp-350bp或者200-440bp。

优选地，所述步骤(11)、(12)、(13)、(14)中的测序平台为Illumina 测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI)的 MGISEQ，或三代测序仪如nanapore、PacBio等，优选Illumina Hiseq X10高通量测序仪，以及双端或单端测序；优选地，所述双端测序长度为150bp。

更优选地，单端或双端进行不同长度测序。

优选地，所述步骤(15)中测序数据的信息解码分析方法，包括如下步骤：

1)对步骤(14)的甲基化数据进行预处理，包括对连接的批次(Index)和条码(Barcode)数据进行分流、质量控制、去除测序接头和低质量碱基；

2)对步骤1)预处理后的测序数据进行比对、比对结果质控、计算转化率和检出甲基化位点以及甲基化岛数目、Pearon相关系数评估、甲基化图谱分析、相关性分析、差异甲基化分析、富集分析。

优选地，将所述步骤(15)中来自不同样品的DNA片段分别连接不同的二代测序接头后测序。

本发明还涵盖所述各步骤从分选样品、加样到文库制备的部分或全部步骤处理相关的自动化和半自动化机电仪器设备。

在第三个方面，本发明提供了上述的引物组、试剂盒、相关设备、或测序方法的应用领域包括在生物科学研究、医学研究、临床诊断或药物研发，和农业、植物、动物、微生物研究中的应用，包括但是不限于发育、肿瘤、免疫、遗传病、实验针对、病毒、畜牧、中药、药物研发领域。

本发明提供的新方法，称为M-scRRBS(其替代方案M-scRRAS与之类似，下同)，不仅简化了操作程序，减少了DNA和接头在酶学和化学处理时的损伤，而且从操作的最早期，在最少处理的情况下即给每个细胞加特异性条码后立即合并(pool)不同的样品(优选单细胞)，并在单一试管中操作，从而实现高度的多重性(高通量)：一次可以操作大量的样品(或单细胞)，从而(在操作大量样品或单细胞时)极大减少了文库构建操作的复杂性，提高了同批次不同单细胞操作的一致性，大大降低了实验成本,减少了DNA的损伤，提高了序列的覆盖度及实验结果的一致性。

相比传统的scRRBS方法，M-scRRBS主要的优势体现在：(1)操作高效：操作人员一次性可以在一个反应体系中同时对96个、384个、更多或较少的单细胞(或多细胞样品、或DNA样品)进行建库，细胞的多少主要取决于条码(条码，其序列结构和说明见附图1)的种类及细胞分选平台；通过二代测序可以获得一个由大量单细胞组成的单细胞甲基化数据；最后，应用生物信息学分析能够获得相应每个细胞的DNA甲基化情况。很明显，相对于之前的scRRBS，新方法M-scRRBS能够一次性对大量单细胞(灵活安排)进行建库，具有高效率，大大节省时间，简化操作步骤。虽然也有人(包括我们自己)曾试图用常规Illumina二代测序的含有Index的长接头作为每个单细胞的链接接头而试图建立多重RRBS方案，但是鲜有成功报道，原因是：上述常规接头太长，在BS转化时接头断裂机会巨多而使得该片段的回收失败；常规的连接需要预先对极其微量DNA酶切后的DNA片段进行多重酶学修饰，此类酶学反应也导致DNA 损伤。我们也曾实验了可以直接连接DNA酶切片段的双链共价键连接接头，由于MspI形成的CG粘性末端往往导致接头本身由于数量大而优先相互连接，大量的接头二聚体的形成严重抑制接头与DNA片段的有效连接每页导致实验失败。本发明克服了这3个关键问题。(2)低成本：单细胞甲基化测序主要的流程为：单细胞获取、文库构建、高通量测序、数据分析。其中，文库构建涉及十余个步骤，所需成本、时间和操作过程中的变数最大。传统的scRRBS方法在同一个反应体系中，只能对一个细胞进行建库；而本发明方法M-scRRBS，用基本同样的成本，可以一次性的对数十甚至数百个单细胞进行建库，即在操作的早期，在最少处理细胞的情况下，给每个细胞加特异性条码后立即合并所有细胞，并在单管中操作，这种批量建库可以大大降低实验成本。(3)较好的覆盖度和一致的覆盖度：由于特殊设计的条码接头，经过特殊的方法处理后(见附图1说明)，可以直接连接短条码接头，减少了由于接头断裂而造成的DNA序列的丢失的覆盖度过低。(4)技术操作变异少：由于步骤减少，批量操作，样品处理的一致性得到保证，较少或避免了样品之间的操作差异。因此，M-scRRBS在单细胞DNA甲基化研究中具有巨大的优势。

M-scRRBS在原理上与scRRBS具有相同点，又有突破点。相同点：同样是利用限制性内切酶MspⅠ(或别的对CpG甲基化修饰不敏感的、富含CG的限制性内切酶中的频切酶，一般是4个碱基，不多于6碱基)将单细胞基因组DNA 酶切成DNA片段以富集CpG甲基化岛序列。突破点：本发明在早期的实验操作步骤中，在酶切后的单细胞基因组DNA片段末端，不必经过DNA处理(不用进行末端补平，及加A的酶促反应)，而是直接连接上特定设计具有标记作用的带条码的短接头而非长接头(条码接头)。并且在第一轮扩增后，切除不必要的PCR扩增引物/接头部分，连接上与所用二代或三代测序平台相兼容的常规测序文库接头，从而使得本发明的技术具有更好的适应性；即使以后有新的测序平台出现，本发明也很容易调整文库的最终接头序列适应新的测序平台。另外，本发明首次使用APOBEC蛋白(包括但不限于基于NEB Next Enzymatic Methyl-seq(EM-seq)试剂的APOBEC的酶学转化法)将CpG二核苷酸中未甲基化的C转化为U，改变传统的重亚硫酸氢盐转化方法从而降低对基因组 DNA的损伤，用以结合本发明的其他设计。

相对于scRRBS技术所用的长测序接头(Index接头)来说，本发明的短接头直接连接DNA酶切片段的优点在于：

(1)本发明所设计的短接头含有条码序列(条码接头)，其主要作用是特异性标记酶切后的每一个单细胞(或每一个样品，下同)的所有DNA片段，也就是说每个细胞的所有DNA片段被1种含条码的短接头标记，早期标记后的不同单细胞的连接标记产物可以直接合并在同一个试管中，进行甲基化转化、扩增等文库构建实验操作；最后进行二代测序，用生物信息学分析可以根据不同的条码种类将不同单细胞的DNA片段分归于各自细胞，从而平行实验检测分析大量单细胞的甲基化情况。

(2)本发明所设计的短条码接头能直接与酶切的DNA片段连接。一方面，后者不需要预先在多种酶的作用下进行磷酸化补平、加A(腺嘌呤)从而减少酶学操作和DNA损伤，也提高链接效率；第二方面，接头修复过程包括适度高温使得短接头片段融解脱落，以及在Sulfolobus DNA polymerase IV指导下与长寡核苷酸接头完全互补的全长新链的高效合成，其中加添的甲基化dCTP保证了该碱基在其后的转化过程中不改变序列；第三方面，与Illumina常规接头相比，本发明的短接头发生断裂的机率较少，大大降低了DNA片段的损失。

(3)上述条码接头并不与Illumina NGS现有测序长接头和Index系统相矛盾，而是互补。短接头在每个单细胞DNA经酶切之后马上连接，在经过甲基化转化后，PCR扩增DNA，用BciVI作用下切除无关引物部分，加上常规测序文库长接头进行第二轮扩增。两者的结合大大增加文库构建和测序的通量和分析的科学性。如：条码接头可以区分不同单细胞(或多细胞样品、或DNA样品)，而文库Index可以标记不同批次的样品(技术重复)等。

本发明的目的是解决scRRBS的效率低、成本高、CpG岛序列覆盖度低且不一致、实验操作变异大等不足，最终实现单细胞CpG甲基化广泛应用的科学性和大量单细胞分析的可行性。

本发明的有益效果在于：

(1)高效操作流程：操作人员一次性可以在一个反应体系中同时对96个、 384个、更多或较少的细胞(细胞的多少主要取决于条码的种类)进行建库；同一种细胞也可用不同index标记(细胞特异性，即称为批次特异性标记)，便于比较批次效应、技术重复、生物学重复、时间及剂量效应和对照等系统样品操作，也便于对同一样品测定更多的单细胞；通过二代测序可以获得一个由大量单细胞组成的单细胞甲基化数据；最后，应用生物信息学分析能够得出相应每个细胞的DNA甲基化情况。

(2)低成本建库：传统的scRRBS技术费时费试剂；而M-scRRBS新技术，用基本同样的一个单个细胞的成本，从最早期条码标记各个单细胞DNA后就合并大量(数十到数百个)不同的单细胞样品，可以一次性的对数百(甚至更多) 单细胞进行建库。这种批量建库可以大大降低实验成本，因为主要试剂和操作时间可以节省数十倍甚至数百倍。

(3)更好的数据质量：新型技术流程减少了样品的操作程序，增加了DNA 转化等出来过程中的总DNA量，从而减少DNA损伤和丢失。新型接头和连接方法的设计，便于高通量处理大量样品，从而提高了样品处理的一致性，从而减小或避免了样品之间覆盖度的显著差异。

附图说明

图1为scBS(或scWGBS)建库流程及CpG位点覆盖度。

图2为scRRBS建库流程。

图3为scCGI-seq技术建库流程。

图4为oligo1和oligo2特殊处理后形成的短接头。

图5为条码接头连接及构建。

图6为本发明方法的部分流程图。

图7为本发明方法中的点样图。

图8为本发明建库方法完整流程图。

图9是K562细胞示意图。

图10是K562细胞系16个单细胞pooling建库的E-Gel成像仪图像，从左往右依次为Maker、无核酸酶纯水、样品和无核酸酶纯水，其中，A为第一轮PCR 的E-Gel成像仪图像；B为第一轮PCR切胶回收后的E-Gel成像仪图像；C为第二轮PCR的E-Gel成像仪图像；D为第二轮PCR切胶回收后的E-Gel成像仪图像。

图11是K562细胞系16个单细胞pooling建库后文库浓度Qubit 3.0荧光计检测结果图。

图12是K562细胞系16个单细胞pooling建库后片段分布图像。

图13是K562甲基化文库碱基质量图，其中：A是Read 1碱基质量图；B 是Read 2碱基质量图。

图14是K562甲基化文库ATCG四种碱基的分布结果图，其中：A是Read 1中所有reads的每一个位置中ATCG四种碱基的分布图；B是Read 2中所有 reads的每一个位置中ATCG四种碱基的分布。

图15是K562甲基化文库reads平均GC含量的分布结果图，其中：A是 Read 1中所有reads平均GC含量的分布图；B是Read 2中所有reads平均GC 含量的分布。

图16是K562甲基化文库单细胞的比对率图像。

图17是K562甲基化文库单细胞的测序饱和度分析结果图像，分别计算了单细胞在不同reads数下检测1x、3x和5x下的CpG位点饱和度曲线。

图18是K562甲基化文库单细胞barcode 20样品的Reads比对到基因组不同区域分布结果图。

具体实施方式

本发明的原理是：

在目前scRRBS基础上，(1)用限制性核酸内切酶MspⅠ将单细胞基因组 DNA特异性酶切成片段，在不同的单细胞DNA片段末端直接连接上具有标记作用的条码的接头，将多个单细胞样品的DNA片段合并在同一反应体系中。(2) 在甲基化转化DNA序列后，(片段的CpG中未甲基化的C被转化成U，而甲基化的C保持原有的甲基化状态)，通过PCR反应对单细胞基因组DNA片段进行一轮PCR扩增，继而酶切切除原接头但保留条码序列，再连接测序接头进行第二轮PCR扩增，给每个样品加上特异的Index，完成文库构建。(3)二代测序后用生物信息学分析根据不同的条码种类将不同单细胞的DNA片段归类，并依据index区分样品批次，从而分析大量单细胞的甲基化情况。

主要的实验操作步骤为：(1)单细胞裂解；(2)基因组DNA的纯化或不纯化；(3)MspⅠ酶酶切；(4)带条码的长短DNA双链接头连接；(5)不同单细胞基因组DNA片段的合并；(6)构建完整接头；(7)非甲基化胞嘧啶的转化；(8)第一轮PCR反应扩增DNA片段；(9)BciⅥ酶切切除第一轮扩增接头但保留条码；(10)连接二代测序接头；(11)电泳分离并胶纯化回收目的片段；(12)第二轮PCR反应扩增含有样品Index的DNA片段；(13)电泳分离并胶纯化回收目的DNA片段；(14)质检测序。

本发明具体实验细节如下：

(1)单细胞裂解：向含有单细胞的PCR管中加入4μl的1×GC lysis buffer 裂解液(Zymo)，室温裂解细胞15分钟，充分释放出基因组DNA。由于单细胞的基因组DNA含量很低，所以这一步必须彻底裂解细胞释放DNA。裂解时间为7.5分钟时，用手指轻弹几下。(注意：裂解期间不可剧烈震荡，如不可用枪头吹打，避免基因组DNA断裂)。裂解方式可以有多种其他选择，如Qiagen Protease等。

(2)基因组DNA的纯化：细胞彻底裂解之后，除了基因组DNA，其他物质也被释放在溶液中，所以需要把基因组DNA纯化，除去可能抑制下游反应的成分。我们用乙醇沉淀方法纯化DNA。按顺序加入表1试剂，混匀后放置于-20℃冰箱静置，10min后，用高速冷冻离心机13300rpm以上4℃离心15min；离心结束后，吸弃上清，向PCR管中加入200μl 80％乙醇(-20℃预冷)，再10000rpm 4℃离心10min；最后，吸弃上清，打开盖子风干。如果采用Qiagenprotease,就不需要任何纯化而只要按说明书加热灭活Qiagen protease.

表1纯化试剂

(3)MspⅠ酶酶切：利用MspⅠ酶对单细胞基因组DNA进行特异性酶切，得到片段长度不一的DNA片段。按照顺序依次向PCR管加入表2试剂，混匀后置于PCR仪，反应条件为：37℃(热盖温度为50℃)酶切2.5h。(carrier DNA 的作用：可代替基因组DNA给过多的酶消化，避免基因组DNA的损伤；非甲基化λDNA的作用：检测甲基化转化处理对完全未甲基化的C转化效率)

表2酶切试剂

(4)与条码接头连接：将不同种类的条码接头连接到不同的单细胞DNA 片段中，即每一个单细胞对应一种条码。按照顺序依次向PCR管加入表3试剂，混匀后置于PCR仪，反应条件为：25℃20min，16℃14h，25℃20min(此步热盖温度为50℃)；之后75℃15min灭活酶(灭活需热盖温度90℃)。连接结束后，立即将样品放于冰盒上，10000rpm离心10秒以收集壁珠。向每个反应管中加入1μl浓度稀释为125mM的EDTA，充分混匀后置于PCR仪上37℃孵育15min，热盖温度为50℃。

表3条码接头连接试剂

(5)不同单细胞基因组DNA片段的合并：对不同单细胞标记不同种类的条码后，将所有单细胞样品合并到同一个反应体系(PCR管)中。向合并样品的PCR管加入管中溶液1.5倍体积的AMPure XP Beads(使用前磁珠需震荡混匀后室温静置15min)，混匀后，室温静置15min；然后将PCR管置于磁力架上静置至少5min，直到溶液澄清，吸弃澄清液体(此步在磁力架上操作，枪头不要碰到磁珠)；加入200μl 80％乙醇(现配现用)，静置30s后吸弃澄清液体 (此步重复2次)；将PCR管从磁力架取下，自然风干，大约5min后，向PCR 管加入19μl无核酸酶纯水，将管中的磁珠轻轻吹打混匀10次左右，室温静置 2min；最后，把PCR管放置于磁力架上静置2min后，将18μl含有DNA的澄清液吸到新的PCR管中。

(6)构建完整接头：修复接头，获得完整双链接头。按照顺序依次向PCR 管加入表4试剂，混匀后置于PCR仪，反应条件为：55℃30min(需热盖105℃)。 (注意：①合并样品及试剂都需要在冰上进行；②反应必须热启动，即PCR仪事先预热，再快速将反应管从冰上转移到PCR仪上。)

表4修复试剂

(7)重亚硫酸氢盐处理：利用重亚硫酸氢盐，将未甲基化的C转化成U，而甲基化的C保持原有的甲基化状态。按照顺序依次向PCR管中加入表5试剂，混匀后置于PCR仪。

表5重亚硫酸氢盐处理所用试剂

反应条件为：95℃5min，60℃10min，95℃5min，60℃20min(需热盖105℃)；反应结束后，将PCR管中所有溶液转移到1.5ml的EP管中；根据实验样品数量，结合下表，配制新鲜的BL buffer+Carrier RNA，向含有溶液的EP管加入310μl 的现配BL buffer+CarrierRNA；向EP管加入250μl 100％乙醇(-20℃保存)，手拿EP管用振荡器振荡15S(手放在振荡器上持续3S，共5次)，将EP管中所有溶液转移到套有收集管的层析柱中，放入离心机中，25℃13300rpm离心1min；倒弃收集管中的液体，将层析柱重新套回收集管中，向层析柱加入500μl的BW buffer，置于离心机中，25℃13300rpm离心1min；倒弃收集管中的液体，将层析柱重新套回收集管中，向层析柱加入500μl的BD buffer，室温孵育15min后，置于离心机，25℃13300rpm离心1min；倒弃收集管中的液体，将层析柱重新套回收集管中，向层析柱加入500μl的BW buffer，置于离心机，25℃13300rpm离心1min(此步重复2次)；向层析柱加入250μl的100％乙醇(-20℃保存)，置于离心机，25℃13300rpm离心1min；将层析柱套入新的收集管中，置于离心机，25℃13300rpm空柱离心1min，以去除残余的溶液，离心结束后，再将层析柱套入一个新的EP管中；向层析柱膜的正中间加入17μl的预热到60℃的无核酸酶纯水，轻轻盖上盖子，室温孵育1min后，置于离心机，25℃13300rpm离心1min，以洗脱DNA(此步重复2次)。

配制BL buffer+Carrier RNA，如表6：

表6 BL buffer+Carrier RNA配制

(8)第一轮PCR反应扩增DNA片段：扩增单细胞基因组DNA的片段，提高DNA浓度至ng级别。将上一步洗脱下来的所有DNA样品转移到新的PCR 管中，按照顺序依次向PCR管加入表7试剂，混匀后置于PCR仪，反应条件为： 95℃5min(1个循环)，95℃30s、56℃30s、72℃45s(27个循环)，72℃10min (1个循环)(需热盖105℃)；反应结束后，纯化DNA引物并除去多余引物，如果用Zymo试剂纯化，步骤如下：将PCR管中的溶液(约50μl)转移到新的 EP管中，向EP管加入8倍溶液体积，即400μl(400μl buffer：50μl样品)的 DNA Binding buffer(DNAClean&concentrator-5)，混匀后，再将EP管中450μl 溶液转移到套有收集管的层析柱中，置于离心机，25℃10000rpm离心30s，倒弃滤液；将层析柱重新套回收集管，向层析柱加入200μl的Wash buffer，置于离心机，25℃10000rpm离心30s，倒弃滤液(此步重复2次)；将层析柱套在一个新的EP管中，向层析柱加入9μl预热60℃的无核酸酶纯水，孵育1min后，置于离心机，25℃10000rpm离心1min；离心后，再直接向层析柱加入9.5μl预热60℃的无核酸酶纯水，孵育1min后，置于离心机，25℃10000rpm离心1min，以洗脱DNA。

表7第一轮PCR反应体系

(9)BciⅥ酶切切除第一轮扩增接头但保留条码：切除PCR反应扩增后DNA 片段末端的引物。按照顺序依次向PCR管加入表8试剂，混匀后置于PCR仪，反应条件为：37℃2h，65℃20min(热盖温度50℃)；反应结束后，用步骤8 方法纯化DNA。

表8酶切体系

(10)连接二代测序接头：按照顺序依次向PCR管加入表9试剂，连接二代测序接头序列。连接操作及条件参考步骤4，纯化DNA方法参考步骤8。

表9连接二代测序接头所用试剂

(11)电泳分离及胶纯化回收目的片段：DNA片段大小不一，弥散分布，跑胶可以回收目的片段，同时以条带的亮度可以初步判断DNA浓度大小。取2％的预制胶装在仪器上，向两个Maker孔中加入16μl无核酸酶纯水和4μl 50bp Maker，样品孔加入20μl样品(见附图2)；启动跑胶仪器，待50bp片段Maker 跑到最下面方可结束(大约18-21min)；在凝光成像系统上观看条带情况并拍照后，回收125-300bp分别置于新的EP管中，做好标记，保存于4℃冰箱；用电子天平称量每块回收胶的重量，按照每0.1g胶加300μl ADB的标准，向EP 管加入ADB溶液，置于55℃金属浴溶解10-15min后，将EP管溶液转移到套有收集管的层析柱中，置于离心机，25℃10000rpm离心30s，倒弃滤液，将层析柱重新套回收集管中；向层析柱中加入200μl Wash buffer，置于离心机，25℃ 10000rpm离心30s，倒弃滤液(此步重复2次)；将层析柱套在一个新的EP管中，向层析柱加入10μl预热60℃的无核酸酶纯水，孵育1min后，置于离心机， 25℃10000rpm离心1min；离心结束后，再向层析柱加入15μl预热60℃的无核酸酶纯水，孵育1min后，置于离心机，25℃10000rpm离心1min，以洗脱DNA。用Qubit 3.0测DNA浓度。

(12)第二轮PCR反应扩增含有样品Index的DNA片段：按照顺序依次向 PCR管加入表10试剂，连接上测序所需的Index，并扩增连接有Index的DNA 片段。吸取5ng上一步洗脱的DNA样品到新的PCR管中，混匀后置于PCR仪，反应条件为：95℃1min(1个循环)，95℃30s、57℃30s、72℃45s(7-8个循环)，72℃10min(1个循环)(需热盖105℃)；反应结束后，参考步骤8方法纯化DNA。

表10第二轮PCR反应体系

(13)跑胶纯化回收目的DNA片段：参考步骤(11)。(注意：本次回收 DNA片段大小为175-350bp)

(14)质控测序：Qubit 3.0检测DNA的浓度，浓度大约3ng/μl，需要12μl。 Illumina公司的Hiseq X10平台测序。

本发明包括新型条码接头和引物，和相应的配套实验试剂或者/和仪器设备，和实验程序、数据分析程序。

(1)本发明所用的短接头(条码接头)是由一段短寡核苷酸(记为：oligo1) 和一段长寡核苷酸(记为：oligo2)经过特殊处理后形成的(如图4所示)。两种寡核苷酸oligo都不需要磷酸化5'末端，但是短寡核苷酸的3'端需要加一个阻断基团修饰。条码接头具体制作程序为：①用1×TE缓冲液分别溶解oligo1和 oligo2至浓度为2nmol/μl和0.5nmol/μl。(1×TE缓冲液含有10mM Tris-HCl和 1mM EDTA等成分，可以给序列提供一个低盐的缓冲环境)②在一个反应体系中各加入2μl的10×T4 DNA连接缓冲液、oligo1和oligo2，10μl的无核酸酶纯水，然后密封好置于94℃水浴3min，之后迅速将水温降到80℃，让其自然下降到室温。③最后向反应体系加入20μl无核酸酶纯水，此时最终浓度为0.05nmol/μl，最后使用时用无核酸酶纯水稀释至0.01nmol/μl。用此方法处理后的oligo1和 oligo2能够形成部分碱基互补配对的短接头。

(2)本发明在条码接头连接前不需要补平DNA片段的末端，也不用在末端加A(因为末端补平及加A效率较低，很容易造成有些DNA片段没有加A，从而无法连接接头，导致DNA损失；在单细胞pg量DNA水平上，额外的酶促操作会增加DNA损伤的机率，而且不同样品难以达到高度一致性)；而是在连接酶作用下，短接头中的oligo2能够与DNA片段5'端连接(DNA片段5'端有磷酸化)，而oligo1(5'端没有磷酸化)则不能与DNA片段3端连接，在适当较高温度下，oligo1会脱离。当在聚合酶Sulfolobus DNA polymeraseⅣ、dNTP (包括甲基化d^mCTP)等反应条件下，温度达到55℃时，连接在DNA片段的 oligo2会合成互补链，从而构建完整的接头。聚合酶Sulfolobus DNA polymerase Ⅳ的特点是：模板依赖性、较高的温度下有最佳活性(55℃时避免oligo1与 Oligo2复性)、不具有链替换活性(strand displacement)(从而不会在具有缺口的长DNA情况下产生新DNA链合成，后者具有造成人工甲基化状态的缺点)。 (如图5所示)

(3)本发明可以设计出大量的不同的条码序列，可以是十个、百个，甚至千个万个；一个条码标记一个单细胞，可以标记大量的单细胞。正是因为如此，本发明所用的技术方案就是用不同条码标记好不同单细胞后，将这些被标记的单细胞合并在一个反应体系中建库，从而提高了实验的效率，降低了实验成本，实现了实验操作的一致性。而目前现有的技术方案中没有用这种早期的条码去标记单细胞，而是在每个细胞独立反应进行重亚硫酸盐处理转换，并且在独立进行PCR并将每个细胞加上不同的Index之后，才能将不同单细胞样品合并在一管，以获得单细胞信息。如果96个单细胞没有通过标记而在同一个反应体系中同时建库的话，那么就不叫单细胞甲基化建库，而是属于少量群体细胞建库，最后是无法将各个单细胞的甲基化情况归类分析的。

新型条码接头的设计方案的关键点：(1)能直接连接酶切后的DNA片段，而不必进行DNA片段的酶促补平或切平，不必在3'端加A，减少DNA损失，简化单个细胞的操作。(2)短接头能使得DNA在甲基化转化过程中断裂的机会较少，从而减少目标DNA片段的损失，增加覆盖度。(3)带细胞特异性的条码的接头的连接，使之能够早期合并样品，在单一试管内进行下游操作(重亚硫酸盐、PCR、电泳胶分离和靶DNA长度选择等等)，从而将大量单个细胞的独立操作简化为一个样品的类似群体细胞操作，而又不损失不同细胞独立的标记。(4)这一操作，不影响第二轮扩增，在不同样品中加Index。我们(也许有同行)曾尝试用常规二代测序接头来连接单细胞酶切DNA片段，但是每个细胞要独立操作，直到PCR扩增之后，费时费试剂；覆盖度低，而且不一致。我们也曾设计直接连接DNA互补末端的常规双链接头，但是极易形成稳定的接头二聚体，在后续PCR过程中超大量扩增，完全阻断了目的DNA的扩增。在本发明中，这一步骤(连接常规接头)仅仅是样品特异性的标记为同一批样品大量单细胞的操作。

与上述接头相补充的是本实验的优化设计，如：二步法扩增；根据DNA片段大小分段回收；用特异设计的片段DNA附加物carrier(或称shield盾牌)等来抵抗甲基化转化对目标DNA的损伤等。

1、图6的说明：

含有条码的接头由两条短单链序列经过特殊的方法处理而成，具体方法见“第六大点”。接头短的优点在于不容易断裂，能够更好地与DNA片段结合。其中：

(1)长寡核苷酸中的两个C_m(双下划线)表示是经过甲基化修饰的C，这是为了避免在甲基化转化处理的过程中C被转化为U。

(2)短寡核苷酸的3'端经过氨基修饰(单下划线加粗字体，3’Amino)，氨基修饰可以阻止连接或聚合酶连接，5'端则有5'-CG-3'，它可以与MspⅠ酶切产生粘性末端的DNA片段互补配对(单下划线)，从而使接头定位到DNA 片段末端。

(3)方框内的6对互补配对碱基为具有标记作用的条码序列，理论上，条码4⁶种；而实际上，条码还可以由8对、10对碱基对组成，所以条码的种类远不止4⁶种，可以是4⁸种、4¹⁰种或更多。

(4)括号内的5个碱基是用来与第一次PCR反应用的J10P4引物结合进行 DNA片段扩增的。

2、图7的说明：

(1)点样时，Maker与样品，样品与样品之间都要用无核酸酶纯水隔开，这样可以避免它们相互污染。

(2)当Maker条带的50bp片段跑到接近胶的底部时方可结束跑胶，这样可以让DNA片段充分跑开，有利于片段的回收。

最后所应当说明的是，以上实施例仅用以说明本发明的一个技术方案，上文说明并非对本发明保护范围的全部限制。尽管参照较佳实施例对本发明作了详细说明，本领域的普通技术人员应当理解，即使对本发明的技术方案进行修改或者某些替换，并不脱离本发明保护的技术的实质和范围。

Claims

1.一组条码接头用于甲基化高通量测序文库构建，其特征在于，包括末端粘性序列、样品条码序列和PCR扩增引物相关序列以及引物，所述条码接头旨在捕获和直接连接并利于多样品高通量转化和扩增含粘性末端的基因组DNA片段，而不形成接头二聚体，用于代表性CpG甲基化测序文库构建。

2.根据权利要求1所述的一组条码接头，其特征在于，所述接头在条码序列和PCR引物之间插入为扩增后切除引物预设的IIs类型的限制性内切酶和预设接头粘性末端相关序列，且所述限制性内切酶酶切后形成3’端突出的1个碱基，而且所述限制性内切酶能够加热灭活。

3.根据权利要求2所述的一组条码接头，其特征在于，所述引物切除所采用IIs类的限制性内切酶序列为5'GTATCCNNNNNT3'，限制性内切酶酶切后形成3’端突出的1个碱基为T，优选地，所述IIs类的限制性内切酶为BciVI。

4.根据权利要求1所述的一组条码接头，其特征在于，所述多个序列不同的条码接头均由短寡核苷酸和长寡核苷酸，对短寡核苷酸的Tm值的基本要求是10℃＜Tm＜60℃，优先地14℃＜Tm＜56℃形成，短寡核苷酸和长寡核苷酸经变性后退火形成长短DNA双链接头，所述双链接头与长寡核苷酸的3'端相对应的末端为粘性，该末端与M-scRRBS程序富集CG片段的限制性内切酶酶切的DNA片段末端直接互补。

5.根据权利要求1或2任一所述的一组条码接头，其特征在于，所述长寡核苷酸从5'端到3'端依次含有部分PCR扩增引物序列、切除引物所需限制性内切酶识别序列和预设接头粘性末端相关序列、及样品条码序列。

6.根据权利要求1或2任一所述的一组条码接头，其特征在于，所述短寡核苷酸从5'端到3'端依次含有末端粘性序列和所述条码序列的互补序列。

7.根据权利要求1-4任一所述的一组条码接头，其特征在于，在M-scRRBS程序中富集CG片段的限制性内切酶为MspI酶的情况下，短寡核苷酸的末端粘性突出序列为5'CG，该CG碱基不与长ologo的3'末端互补而形成粘性末端。

8.根据权利要求1所述的一组条码接头，其特征在于，所述短寡核苷酸的3'端经具有阻止连接或聚合酶延伸功能的基团修饰，包括但不限于3'ddC(3'双脱氧胞苷)、3'InverteddT(3'反向dT)、3'C3 spacer(3'C3间臂)、3'Amino(3'氨基)或3'phosphorylation(3'磷酸化)，优选为3'ddC，或优选3'Amino。

9.根据权利要求1-8任一所述的一组条码接头，其特征在于，所述短寡核苷酸和长寡核苷酸的每个位置的碱基为A、T、C和G中任意一种，3种2种碱基中任意一种，或特定碱基；其中，所述长寡核苷酸中的胞嘧啶选用甲基化胞嘧啶(5mC)。

10.根据权利要求1-9任一所述的一组条码接头，其特征在于，所述条码序列的碱基个数为2-10个，优选为6个。

11.根据权利要求1-10任一所述的一组条码接头，其特征在于，所述多个不同的条码接头的条码序列不同，而一组多个序列不同的条码接头的PCR扩增引物序列相同。

12.根据权利要求1-11任一所述的一组条码接头和引物，任意2个核苷酸位置之间具有稳定核苷酸而免于被核酸酶降解的修饰，优选地，其接头5'和/或3'末端及近末端第1-5核苷酸之间予以修饰，更优选地，近末端第1-3核苷酸之间予以修饰，优先地，所述修饰为phosphorothioate(硫代磷酸酯)修饰。

13.根据权利要求1所述的一组条码接头，其特征在于，所述样品可为单细胞、群体细胞或提取纯化的DNA。

14.根据权利要求1所述的一组条码接头，其特征在于，所述高通量测序平台是Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq或华大基因(BGI)的MGISEQ，或三代测序平台如PacBio或Nanopore。

15.根据权利要求1所述的一组条码接头，其特征在于，所述高通量测序平台是Illumina HiSeq×10高通量测序仪。

16.如权利要求1～15任一所述的方法，其特征在于，接头序列为，长寡核苷酸序列：5’AAG TAG GTA TCmCm GTG AGT GGTG AAGAAT；短寡核苷酸序列：5’CG ATTCTT CACCA/3ddC/；引物序列之一：5'AAG TAG GTA TCC GTG AGT GGTG。

17.根据权利要求1-14任一所述的一组条码接头，PCR扩增引物包含实验批次索引(Index)以及与特定二代或/和三代高通量测序平台相兼容的测序文库接头序列(Adapter)，而不包含引物切除酶相关序列。

18.一种同时检测多个样品CpG甲基化的方法，其特征在于，包括以下步骤：

(1)将多个样品独立裂解，释放出各自的基因组DNA；

(3)对基因组DNA进行片段化，得到片段长度不一的DNA片段；

(5)将连接有接头的多个样品的DNA片段进行合并；

(7)对得到的DNA片段进行非甲基化胞嘧啶的转化；

(9)基于引物切除限制酶相关序列并采用相应的限制酶，切除第一轮PCR反应扩增后DNA片段末端的引物序列，保留DNA片段中的样品条码序列；

(15)通过信息分析解码步骤(14)所得甲基化数据，获得各个批次、和各个样品的甲基化图谱，即得。

19.根据权利要求18所述的方法，其特征在于，所述步骤(1)中的DNA包括单个细胞释放的基因组DNA，或者是多个细胞基因组DNA，又或者是组织器官中提取的基因组DNA。

20.根据权利要求18所述的方法，其特征在于，所述步骤(1)中的裂解细胞释放DNA包括采用物理方法，或生物酶解法如Qiagen Protease，或化学方法包括但不限于含离子去污剂和非离子去污剂如十二烷基硫酸钠(SDS)、十二烷基肌氨酸钠(Sarkosyl或Sarcosyl)、Triton X-100、Tween 20、Tween 80的试剂，或Zymo Research的Lysis buffer。

21.根据权利要求18所述的方法，其特征在于，所述步骤(2)中的对基因组DNA进行纯化浓缩或富集，富集的方法包括加助沉剂如Acrylcarrier、Glycogen的乙醇共沉淀法和AMPure XP等磁珠富集法等。

22.根据权利要求18所述的方法，其特征在于，所述步骤(3)中得到的DNA片段长度为30-2000bp，优选地30-300bp，更优选30-200bp，或60-300bp。

23.根据权利要求18或22所述的方法，其特征在于，所述步骤(3)中采用片段化的方法包括物理方法如超声波法、化学方法或酶解法，优选甲基化不敏感性限制性内切酶法富集CG丰富区域，优选MspI，也可选TaqαI，或选其他酶如：AluI、BfaI、HaeIII、HpyCH4V、MluCI、MseI；相应地，长寡核苷酸和短寡核苷酸组成的接头的粘性末端的序列需要与之互补，回收的DNA片段长度也需要调整以高效回收适合与片段化方法和测序平台的文库长度。

24.根据权利要求18所述的方法，其特征在于，所述步骤(4)中条码接头选自权利要求1-16任一所述的一组条码接头。

25.根据权利要求18所述的方法，其特征在于，所述步骤(5)中的合并多个样品数目大于等于2个，多达96个，或多达384个，或超过384个，相应地用PCR多连管或在微孔版上或定制的微孔板上操作。

26.根据权利要求18所述的方法，其特征在于，所述步骤(6)中接头修复所用的酶为模板依赖的DNA聚合酶，优选为Sulfolobus DNA polymerase Ⅳ并用4种单核苷酸(dGTP，dATP，dTTP，5mC即5mdCTP)，其中dCTP为经甲基化修饰的胞嘧啶(5mC)以保证转化后barcode和接头引物的序列不变。

27.根据权利要求18所述的方法，其特征在于，所述步骤(7)中转化方法包括重亚硫酸氢盐和酶学转化，其中酶学转化方法包括但不限于APOBEC酶学转化。

28.根据权利要求18所述的方法，其特征在于，所述步骤(8)中将PCR扩增循环数根据DNA的质量以及样品数量的变化而改变。

29.根据权利要求18所述的方法，其特征在于，所述步骤(9)中的切除片段的方法根据权利要求2、3而定，优选BciⅥ酶。

30.根据权利要求18所述的方法，其特征在于，所述步骤(4)和(10)中连接方法使用DNA连接酶，优选Fast-Link^TMDNA Ligation kit。

31.根据权利要求18所述的方法，其特征在于，所述步骤(11)和(13)中初步测序文库或/和最终测序文库进行特定长度序列的回收，回收特定序列长度的方法为凝胶电泳、可分选DNA长度的磁珠或HPLC；所述凝胶电泳优选2％E-Gel；所述磁珠优选AMPure XP Beads。

32.根据权利要求18所述的方法，其特征在于，所述步骤(11)中测序文库进行纯化或回收特定长度序列，回收特定序列长度为120bp-1000bp，优选120bp-300bp，或者150bp-390bp。

33.根据权利要求18所述的方法，其特征在于，所述步骤(11)、(12)、(13)、(14)中的测序平台为Illumina测序平台HiSeq、NextSeq、MiniSeq、MiSeq、NovaSeq、或华大基因(BGI)的MGISEQ，优选Illumina Hiseq X10高通量测序仪，以及双端或单端测序；优选地，所述双端测序长度为150bp，更优选地，单端或双端进行不同长度测序。

34.根据权利要求18所述的方法，其特征在于，所述各步骤从分选样品、加样到文库制备和测序的部分或全部步骤处理相关的自动化和半自动化设备，包括但是不限于微流控设备。

35.根据权利要求18所述的方法，其特征在于，所述步骤(15)中测序数据的信息解码分析方法，包括但不限于如下步骤和方面：

1)对步骤(14)的甲基化数据进行预处理，包括先后基于批次索引(Index)和样品条码(Barcode)进行数据分流，并去除测序接头和低质量碱基，并除去不合格低测序数据相关样品；

2)对步骤1)预处理后的测序数据进行基因组序列比对、比对结果质控、计算转化率和检出甲基化位点以及甲基化岛数目，质控除去不符合质量的样品，并进行下游功能分析包括但是不限于Pearon相关系数评估、甲基化图谱分析、差异甲基化分析、信号通路分析、调控分析、分群分析、亚群鉴定。

36.权利要求1～17任一所述的引物组所产生的试剂、权利要求18～34任一所述的方法及相关试剂和设备、权利要求35的相关的程序和算法、软件及其在生物科学研究、医学研究、临床诊断或药物研发，和农业、植物、动物、微生物研究中的应用，包括发育、肿瘤、免疫、遗传病、实验针对、病毒、畜牧、中药、药物研发领域。