CN117089597A

CN117089597A - 一种单细胞文库构建测序方法及其应用

Info

Publication number: CN117089597A
Application number: CN202311039013.5A
Authority: CN
Inventors: 董灵; 刘炯; 梁骞
Original assignee: Hangzhou Yuezhen Biotechnology Co ltd
Current assignee: Hangzhou Yuezhen Biotechnology Co ltd
Priority date: 2023-08-17
Filing date: 2023-08-17
Publication date: 2023-11-21

Abstract

本发明提供了一种单细胞文库构建测序方法及其应用，所述方法包括将单细胞或单细胞核样本进行原位标记反应，使所述单细胞或单细胞核样本带上第一序列；将所述单细胞或单细胞核样本与带有第二序列的微珠置于单个反应空间中进行反应；和在所述单个反应空间中内进行核酸分子聚合与扩增，得到所述单细胞或单细胞核样本的扩增文库。

Description

一种单细胞文库构建测序方法及其应用

技术领域

本发明属于单细胞基因测序分析技术领域，特别涉及一种单细胞文库构建测序方法及其应用。

背景技术

细胞异质性一直是困扰发育生物学家以及肿瘤工作研究者的难题，因为群体水平的测序仅能提供不同类型细胞的基因表达平均值，从而掩盖了细胞类型特异性的表达谱。近年飞速发展的单细胞测序能有效地解决这个难题，它主要是依靠微流控或微孔系统，将单个细胞锁定到单独的反应空间，随后进行二代测序文库的构建，从而一次实验能得到几千到上万的细胞。例如，以微流控为主的Drop-seq(Macosko,E.Z.,et al.,HighlyParallel Genome-wide Expression Profiling of Individual Cells Using NanoliterDroplets.Cell,2015.161(5):p.1202-1214.)和inDrop-seq(Klein,Allon M.,et al.,Droplet Barcoding for Single-Cell Transcriptomics Applied to Embryonic StemCells.Cell,2015.161(5):p.1187-1201.)平台，以微孔板为主的Microwell-seq(Han,X.,et al.,Mapping the Mouse Cell Atlas by Microwell-Seq.Cell,2018.173(5):p.1307.)和Seq-well(Gierahn,T.M.,et al.,Seq-Well:portable,low-cost RNAsequencing of single cells at high throughput.Nat Methods,2017.14(4):p.395-398.)平台以及常见的商用平台10x Genomics Chromium Single Cell Gene ExpressionSolution平台。然而以10x微流控平台为例，当细胞投入量超过推荐上样量时，会出现一个液滴内同时存在两个甚至两个以上细胞的情况，导致同一液滴内的多个细胞无法在后续分析中被区分开来；为了控制每个液滴内只有一个细胞，必须严格控制细胞的上样浓度，这样又会造成大部分液滴内没有细胞，形成“空载”，大大降低了实验通量以及细胞利用率。

近一两年，另一种思路也被采用于单细胞测序，那就是将细胞固定后，进行细胞内的原位转录本合成再测序。例如，Sci-RNA-seq([1]Cao,J.,et al.,Comprehensivesingle-cell transcriptional profiling of a multicellular organism.Science,2017.357(6352):p.661-667.[2]Cao,J.,et al.,The single-cell transcriptionallandscape of mammalian organogenesis.Nature,2019.566(7745):p.496-502.)和SPLiT-seq(Rosenberg,A.B.,et al.,Single-cell profiling of the developing mousebrain and spinal cord with split-pool barcoding.Science,2018.360(6385):p.176-182.)，他们首先对新鲜的细胞进行固定、透化，随后将细胞均匀分到多孔板内，利用孔特异性的反转录引物给细胞打上第一轮标签；随后将细胞收集混合，再均匀地将其分到新的多孔板带上新的标记，最终通过多轮分子标记的组合区分单个细胞。但由于后续标记的引入都是基于细胞内的连接反应，存在反应效率低、细胞与细胞之间的转录本易泄露等问题，故这些平台的灵敏度以及污染率都存在较大的提升空间。奥地利科学院分子医学研究中心的Paul等(Datlinger,P.,et al.,Ultra-high throughput single-cell RNA sequencingby combinatorial fluidic indexing.Nature Methods,2021.)首次将组合索引思路应用到了微流控平台，他们利用反转录给固定的细胞带上一轮含有96种的预标签后，结合微流控的方法将单细胞测序的通量提高了15倍，但他们的方法要求每一个液滴中最多只能有一个微珠，会形成有液滴但是没有微珠的“空载”，造成样品细胞的损失。

除转录组外，近年来染色质转座酶可接近性分析(ATAC)也逐渐从批量群体测序转向单细胞水平。与转录组不同，ATAC测序根据转座酶识别染色质无核小体聚集的开放区域，对其进行切割产生特定长度范围的片段，从而确定细胞整个基因组的开放状态，提供染色质可接近区域的信息，并揭示细胞基因转录活跃区域。单细胞ATAC-seq的主流的思路同样分为两种：一是先通过液滴或者微孔将单个细胞分离出来，再对其进行转座酶切使其带上特异性标签以及测序接头，得到扩增文库；另一种是基于组合索引的思路，即先通过转座反应引入第一轮标签，随后通过连接反应或者PCR扩增引入后续标签，在保证标签组合数足够的前提下达到区分单个细胞组合标签的目的。有研究报道了sci-ATAC-seq与sci3-ATAC-seq，分别提供了几万和几十万细胞通量的单细胞ATAC研究。与Sci-RNA-seq类似，sci-ATAC-seq受限于组合数，通量较低且细胞间污染率较高。而sci3-ATAC-seq在前者的基础上采用了不带标签的转座酶切割后连续两轮连接的方法，提高了组合数，但由于体内两轮连接的效率问题牺牲了部分灵敏度。且所有上述组合标记方法的标记步骤都需要依赖连接酶来完成寡核苷酸连接标记。大规模实验所耗费的连接酶成本比较高。

因此，本领域中存在对低成本，高通量，具有半开放系统特征的高适配性的单细胞多组学测序系统的需求。

发明内容

为了解决上述问题，在第一个方面，本发明提供一种单细胞文库构建测序方法，所述方法包括：将单细胞或单细胞核样本在载体上的反应室中进行原位标记反应，使所述单细胞或单细胞核样本带上第一序列；将所述单细胞或单细胞核样本与带有第二序列的微珠置于单个反应空间，以使所述第一序列和所述第二序列进行反应；和在所述单个反应空间中内进行核酸分子聚合与扩增，得到所述单细胞或单细胞核样本的扩增文库。

在优选的实施方案中，本发明的方法中将所述单细胞或单细胞核样本形成悬液以进行所述原位标记反应。

在优选的实施方案中，本发明的方法中所述扩增文库为转录组文库和/或表观组文库。

在具体的实施方案中，本发明的方法中所述第一序列的分子包含用于标记细胞身份的细胞标签1和用于后续扩增的文库接头序列1；所述第二序列包含用于后续扩增的文库接头序列2、用于标记细胞身份的细胞标签2和用于标记不同的核酸分子的分子标签序列。

在具体的实施方案中，本发明的方法中当在所述载体上的多个反应室进行原位标记反应时，不同的反应室中加入不同的所述第一序列。在优选的实施方案中，本发明的方法中当在所述载体上的多个反应室进行原位标记反应时，同一个反应室中加入相同的所述第一序列。

在具体的实施方案中，本发明的方法中至少一个所述单细胞或单细胞核样本与至少一个所述微珠在所述单个反应空间中进行反应。

在优选的实施方案中，本发明的方法中至少两个所述单细胞或单细胞核样本与至少两个所述微珠在所述单个反应空间中进行反应。

在优选的实施方案中，本发明的方法中所述第一序列和所述第二序列在所述单个反应空间中进行杂交和延伸反应。

在具体的实施方案中，本发明的方法中所述单细胞或单细胞核样本经过固定处理或者不经过固定处理。

在具体的实施方案中，本发明的方法还包括对所述扩增文库进行测序，利用序列相似性分析得到单细胞多组学转录组文库和/或单细胞多组学表观组文库。

在具体的实施方案中，本发明的方法中所述序列相似性分析包括：对每个微珠对采取遍历配对计算，计算内容为每个微珠捕获序列的相似性表达评分。

在具体的实施方案中，本发明的方法中所述第二序列包括条件性可断裂位点，所述条件性可断裂位点选自dU碱基修饰、二硫键修饰、可光裂解接头以及限制性内切酶识别序列中的任意一种。

在具体的实施方案中，本发明的方法中当扩增文库为转录组文库时，所述第一序列为单链寡核苷酸，并且包含用于捕获所述单细胞或单细胞核样本中核酸分子的随机引物。在具体的实施方案中，所述单细胞或单细胞核样本中核酸分子是目标RNA。在优选的实施方案中，本发明的方法中所述第一序列包含所述随机引物、细胞标签序列1和文库接头序列1；所述第二序列包含文库接头序列2、细胞标签2、分子标签序列和捕获接头互补序列。

在具体的实施方案中，本发明的方法中当扩增文库为表观组文库时，所述第一序列为包含包埋固定序列的寡核苷酸，所述包埋固定序列可被转座酶识别。在优选的实施方案中，本发明的方法中所述第一序列包含转座酶接头序列1、所述包埋固定序列、细胞标签序列1和文库接头序列1；所述第二序列包含文库接头序列2、细胞标签2、分子标签序列和可与转座酶接头序列1杂交的转座酶接头序列2。

在具体的实施方案中，本发明中单细胞为相同类型或不同类型的细胞。

在具体的实施方案中，当采用本发明的方法进行转录组文库测序时，具体步骤可以包括：对细胞样本进行预处理得到单细胞或单细胞核悬液；将所述单细胞或单细胞核悬液以及第一序列放置于载体上的反应室中进行原位反转录，获得带有所述第一序列的第一cDNA，所述第一序列包含所述随机引物、所述细胞标签序列1和所述文库接头序列1；将第一cDNA加捕获接头，之后与带有第二序列的微珠置于单个反应空间中进行反应，得到带有第二序列的第二cDNA；和在所述单个反应空间中内进行核酸分子聚合与扩增，得到所述单细胞或单细胞核样本的转录组文库。

在具体的实施方案中，当采用本发明的方法进行表观组文库测序时，具体步骤可以包括：对细胞样本进行预处理得到单细胞或单细胞核悬液；将所述单细胞或单细胞核悬液以及第一序列放置于载体上的反应室中进行原位转座酶切反应，获得带有第一序列的寡核苷酸，所述第一序列包含所述转座酶接头序列1、包埋固定序列、细胞标签序列1和文库接头序列1，其中所述包埋固定序列经转座酶切后插入基因组开放区域；与带有第二序列的微珠置于单个反应空间中进行反应，得到双链DNA；和在所述单个反应空间中内进行核酸分子聚合与扩增，得到所述单细胞或单细胞核样本的表观组文库。

在第二方面中，本发明提供如第一方面所述的方法在单细胞、单细胞核、单个微生物的全转录组测序中的应用。在优选的实施方案中，所述应用是在微生物学、基础医学、临床医学、农学、细胞生物学、免疫学、发育生物学、病理学、神经生物学及发育、遗传学、干细胞、肿瘤、生殖健康、宏基因组学及微生态、新药研发领域中的应用。

有益效果：

与现有技术相比，本发明的文库构建测序方法具有以下优点：

(1)可以允许单个反应空间中同时存在多个微珠和多个单细胞/单细胞核样本，显著提高了单细胞测序的通量。

(2)微珠以及细胞样本的利用率都大大增加，大幅度降低单细胞建库测序成本。

(3)对捕获单细胞/单细胞核和微珠的操作精度要求降低，多个微珠能充分捕获样本中的每一个细胞，对细胞数量稀少的珍贵样品十分友好，同时方法实施更加简便。

附图说明

图1为本发明的文库构建测序方法的流程示意图。

图2为本发明实施例1中使用单细胞核悬液进行转录组实验的流程示意图。

图3为本发明实施例1中微珠和细胞核经过微孔板被捕获在芯片微孔内的分布示意图。

图4为本发明实施例1中转录组数据人与小鼠物种细胞混合实验的污染比率图。

图5为本发明实施例1中转录组数据中转录本在基因全长范围的分布比例图。

图6为本发明实施例1中经过序列相似性计算后，不同微珠配对的相关性评分以及需要进行合并的微珠阈值。

图7为本发明实施例2中使用单细胞核悬液进行表观组测序文库的流程示意图。

图8为本发明实施例2表观组测序文库数据中人与小鼠物种细胞混合实验的污染比率图。

图9为本发明实施例2表观组测序文库数据中捕获人(左)和小鼠(右)基因组开放片段的类型注释。

具体实施方式

本发明提供了一种高通量的单细胞组学文库构建测序方法，通过在单细胞/单细胞核原位标记反应引入第一序列以获得细胞标签1，将至少一个微珠和至少一个单细胞/单细胞核加载到单个反应空间中，将微珠上的第二序列中的细胞标签2结合到单细胞/单细胞核的核酸中，在单个反应空间中内进行核酸聚合与扩增反应，利用测序序列相似性分析来解析多个微珠和多个细胞，在单细胞水平还原分析单细胞的多组学遗传信息。具体地，本发明的单细胞文库构建测序方法(如图1所示)，该方法的具体步骤可以包括：对细胞样本进行预处理得到单细胞或单细胞核悬液；将所述单细胞或单细胞核悬液放置于载体(例如多孔板)中进行原位标记反应，使来自所述单细胞或单细胞核样本的核酸带上第一序列；将所述单细胞或单细胞核样本与带有第二序列的微珠置于单个反应空间中进行反应；和在所述单个反应空间中内进行核酸分子聚合与扩增，得到所述单细胞或单细胞核样本的扩增文库。

在本发明的一些实施例中，对于转录组测序文库构建，使用包含随机引物、细胞标签序列1和文库接头序列1的第一序列进行反转录反应，从而可以随机地与核酸的任意区域进行杂交配对，随后进行无偏差的核酸全长区域的逆转录反应并在反应后加上捕获接头(常用Poly(dA)序列)；相应地，微珠连接的第二序列包括四个部分：文库接头序列2、细胞标签2、分子标签和捕获接头互补序列(常用Poly(dT)序列)，其中文库接头序列1和2用于后续的上机测序；细胞标签2和细胞标签1共同组合用以识别不同的细胞；分子标签是由随机碱基组成的一段序列，每个DNA分子都含有一个独特的分子标签，用以识别混合测序时区分不同的DNA分子；捕获接头互补序列(常用Poly(dT)序列)则是用于捕获含有捕获接头(常用Poly(dA)序列)的cDNA分子。

在本发明的一些实施例中，对于表观组测序文库构建，使用含有转座酶接头序列1、包埋固定序列、细胞标签序列1和文库接头序列1的第一序列进行基因组开放区域的打断，其中包埋固定序列可被转座酶识别；相应地，用于表观组测序文库的微珠连接的第二序列包括四个部分：文库接头序列2、细胞标签2、分子标签和转座酶接头序列2。其中文库接头序列1和文库接头序列2用于后续的上机测序；细胞标签2和细胞标签1共同组合用以识别不同的细胞；分子标签是由随机碱基组成的一段序列，每个DNA分子都含有一个独特的分子标签，用以识别混合测序时区分不同的DNA分子；转座酶接头序列2则是用于捕获第二序列中的转座酶接头序列1。

在示例性的实施方案中，本发明中的细胞标签2可以由三段96种固定序列组合而成，此时细胞标签2具有884736种不同的序列。

本发明的方法中可以在载体的不同反应室中加入不同的第一序列，而同一个反应室内具有相同的第一序列。这样可以在单细胞/单细胞核内部原位进行RNA逆转录或表观组打断的同时，给单细胞/单细胞核带上细胞标签1，便于在后续分析过程中快速准确确定来自不同样本的单细胞/单细胞核。

在本发明的一些实施例中，当所述单细胞/单细胞核中原位标记反应的对象为RNA时，微珠表面第二序列的核酸分子可以携带oligo-dT以便与处理后的单细胞/单细胞核中的含有捕获接头(常用Poly(dA)序列)的cDNA杂交结合；当所述单细胞/单细胞核中原位标记反应的对象为DNA时，微珠表面第二序列的核酸分子可以携带的固定杂交序列(例如转座酶接头序列2)以便与处理后的单细胞/单细胞核中的DNA(例如转座酶接头序列1)杂交结合。

在本发明的一些实施例中，微珠表面的已知碱基核酸分子的多段延伸包括split-pool分段式PCR杂交延伸扩增和split-pool分段式连接酶连接延伸，可根据实际条件进行选择。

在本发明的一些实施例中，单细胞/单细胞内分子的扩增方式包括等温聚合，等温扩增，热循环PCR指数扩增，热循环PCR线性扩增中的任意一种，可根据需要选择不同的聚合延伸方式。

在本发明的一些实施例中，在数据分析过程中，首先通过数据中微珠所携带的细胞标签和捕获遗传信息的相似性计算相似性表达评分，由于细胞标签1和2(尤其是细胞标签2)的数量足够多，因此可以基于细胞标签1和2的组合信息确定哪些微珠位于同一个微孔中，并合并同一微孔中所有微珠的遗传序列信息，对于在同一微孔内的单细胞/单细胞核，通过单细胞/单细胞核身份标签，将微珠合并的遗传序列信息分配还原给单个单细胞/单细胞核，得到单细胞分辨率的组学数据。

本发明的测序及数据处理方法，可以包括以下步骤：

对获得的单细胞转录组/表观组文库进行测序，得到单细胞转录组数据/表观组数据；

如上文所述将第一序列和微珠上第二序列的位置信息和遗传信息对应，从而得到待测多样本中不同样本的遗传信息。

具体的，进行高通量测序时，分别或混合的对得到的转录组、表观组文库进行测序，测序仪可以选择Illumina平台或华大基因平台以及能够兼容测序接头的其他测序平台；进一步的，本领域普通技术人员可以根据不同测序平台的要求修改细胞标签前的寡核苷酸引物序列信息以适用于不同的测序仪，这些引物序列改动均不影响本发明的技术保护范围。

具体的，进行高通量测序数据分析时，首先根据第一序列和第二序列的细胞标签得到有效的细胞数据集。通过所述数据中核酸序列相似性计算还原单细胞数据遗传信息，根据分子标签序列检测对应细胞的RNA表达情况和DNA拷贝数情况。

定义

本文中的单细胞包括但不限于真核细胞的单细胞/单细胞核、原核生物(细菌、放线菌、立克次氏体、衣原体、支原体、蓝细菌和古细菌等)、单细胞藻类、病毒等。

本文中的细胞样本包括但不限于细胞的固定样本、冰冻保存样本、石蜡包埋样本(FFPE)等。

本文中的反应室可以是载体上载有的彼此间隔的独立空间，例如可以是多孔玻片、孔板等载体上载有的反应孔。

本文中的单个反应空间可以是具有微孔阵列结构的载体上载有的微管道、微孔、微反应室等彼此间隔的独立空间，所述载体可以是例如微流控芯片、微孔板或者数字PCR芯片等生物芯片等，根据单细胞/单细胞核以及分子大小，以及反应空间表面微孔间距工艺调整或修饰的需要，选择不同的载体以及反应空间的形状或尺寸等。

本文中的微珠可以是聚合物微珠、磁性微珠、水凝胶微珠、可降解聚合物微珠的任意一种。根据需求，将核酸分析交联连接在微珠表面或者聚合在可降解微珠的内部。微珠直径尺寸根据微孔尺寸变动。所述微珠表面包含羧基修饰，第二序列的核酸分子包含氨基修饰，条件性可断裂位点包括dU碱基修饰。通过酰化反应使第二序列的核酸分子连接到磁珠表面，并通过dU碱基的切割使核酸分子能够释放到单个反应空间的液体环境中进行反应。

本文中的不同类型的细胞可以是不同物种的细胞，也可以是相同物种的细胞(例如不同培养批次的细胞、不同来源的细胞)。

本文中的随机引物是指在构建单细胞多组学转录组文库中用来与目标RNA序列结合的序列，由6个随机碱基序列(即5’-下游扩增引物互补片段扩增-标签序列-NNNNNN-3’,N＝dG，dA，dT或dC)组成，同时也是转录组测序中纳入遍历配对计算的序列。

本文中的细胞标签1和细胞标签2能够配合组成细胞标签序列，用于标识所构建的测序文库中各核酸分子的细胞来源。

本文中的文库接头序列1和文库接头序列2能够配合组成文库的扩增引物结合序列，用于后续测序文库的扩增。

本文中的分子标签序列是指用于标识所构建文库中各序列所对应的核酸分子。

本文中的包埋固定序列是指转座酶行使打断功能特异性识别的序列。

本文中的基因组开放区域是指经染色质重塑后呈现出的松散状态的DNA区域。

本文中的转座酶接头序列1和转座酶接头序列2是指当构建表观组文库时，分别包含在第一序列和第二序列的互补序列。本文中的遍历配对计算是指在转录组测序中，纳入计算的序列为随机引物序列；在染色质可及性测序中计算序列为捕获到的遗传信息。

下文中将对本发明测序方法中的主要步骤进行概括性描述。

微珠的准备

本步骤采取“分散-合并-分散”的策略实现多段核酸标记的微珠的制备，示例性的制备方案可参考专利CN106498040B。本发明中采用的具体制备步骤如下：

设计第二序列的核酸分子：将核酸分子分成三段，相邻两段之间设置有PCR杂交接头序列，其中5’端开始的第一段包括氨基修饰，固定的文库接头序列2和第一段细胞标签2，第一段细胞标签2的3’端可以和第二段序列互补耦联，第一段序列5’端的核苷酸的C6位上使用胺基取代羟基(5NH2C6)。对于转录组和表观组而言，第二段序列均为第二段细胞标签2，第二段细胞标签2的5’端可以和第一段序列互补耦联且3’端可以和第三段序列互补耦联。对于转录组而言，第三段序列含有第三段细胞标签序列2、分子标签序列和多聚T尾；对于表观组而言，第三段序列含有第三段细胞标签序列2、分子标签序列和转座酶接头序列2，第三段细胞标签2的5’端可以和第二段序列互补耦联。其中所有序列中属于细胞标签序列部分均设计96种序列，每种独立放置。

在微珠表面连接第二序列：将等量的羧基修饰微珠分别与96种第一段序列耦联，然后收集获得96种带修饰的磁珠，混合均匀后，再均分为96等份，与96种第二段序列混合后进行PCR序列延伸，然后再均分为96等份，与96种第三段序列混合后进行PCR序列延伸，然后变性解链获得具有884736种单链寡核苷酸修饰的磁珠。

样本预处理

制备单细胞悬液：可对应不同类型的细胞样本选择相应的消化酶，以将细胞样本制备成单细胞悬液。比如对于培养细胞可用胰酶/EDTA消化成单细胞；对于新鲜组织可用相应的消化酶(如肌肉组织选择胶原酶Ⅰ和分散酶、肝脏组织选择胶原酶Ⅳ)消化后经过滤、洗涤制备成单细胞；对于冰冻保存样本需要先将样本在25～60℃水浴锅中快速融化；对于石蜡包埋样本(FFPE)需要先用二甲苯或其他环保型脱蜡剂脱蜡，再进行解交联；对于单细胞核转录组测序，需要先对单细胞样本用强非离子表面活性剂(NP-40等)处理裂解细胞膜。

固定单细胞：当待测样品为单一细胞类型时，将待测细胞样本的单细胞悬液用固定液固定。当待测样品包含不同类型细胞时，可以将各个类型待测细胞样本的单细胞悬液分别用固定液固定后混合，并再进行后续反转录；或者可以将待测细胞样本混合后制成单细胞悬液并用固定液固定，并再进行后续反转录；或者还可以将各个类型待测细胞样本的单细胞悬液分别用固定液固定，并在进行后续反转录之后细胞分隔之前将不同类型细胞的样本混合。一般使用固定液处理样本，将单细胞/单细胞核内部大分子(RNA、蛋白质等)结构固定，使其在后续实验过程中保持完整的单细胞/单细胞核形态、结构及组成，并且RNA能稳定地固定在单细胞/单细胞核内。操作时可根据不同样本类型特点，选择合适的固定液，固定液包括但不限于多聚甲醛、甲醛、福尔马林、甲醇、丙酮、乙醇、醋酸、苦味酸、铬酸、重铬酸钾、升汞等单纯固定液，以及醋酸-酒精混合液、福尔马林-醋酸-酒精液、包因氏固定液等混合固定液。以及不同的固定时间，例如15min～30min或者过夜。

第一序列的准备

转录组第一序列根据所述结构设计合成后交由引物合成公司合成获得。表观组文库第一序列则是将设计好的包埋固定序列、转座酶接头序列进行混合、退火混匀。

原位反转录

在固定后的细胞的RNA上通过多位点结合用于反转录的引物发生原位预标记，其中所使用的引物即为所述的第一序列。细胞分隔后可允许至少部分单独的反应室中包含两个或两个以上细胞，以在96孔板中进行的反转录为例，不同的孔中进行反转录，每个孔中加入携带特定标签序列的第一序列，后续在细胞分隔步骤中携带不同标签序列的细胞可以被分在同一个反应空间中。

反转录体系中还可加入10％ TritonX-10对细菌的细胞膜起通透作用，使反应试剂可以更容易地进入细菌内部。

加捕获接头

反转录后的第一条cDNA链3’尾端需要加一个捕获接头使其能与编码微珠单链cDNA上的捕获接头互补链结合以进一步合成cDNA第二条链。本发明的实施方案中可以通过末端转移法在第一条cDNA链尾端加上Poly(dA)、Poly(dT)、Poly(dG)或Poly(dC)作为捕获接头；也可以通过DNA连接法在第一条cDNA链尾端加上一段特定的捕获接头；也可以采用模板置换法，在反转录步骤使用反转录酶在反转录后的第一条cDNA链尾端加上三个dC作为捕获接头。而相对地，编码微珠单链cDNA上的捕获接头互补链可作相应调整。

细胞分隔

细胞分隔是指形成包含一个或多个编码微珠、一个或多个单细胞/单细胞核、反应试剂的单独的反应空间。为了完成后续合成DNA第二条链的延伸反应，所述单独的反应空间中的延伸反应试剂通常包括DNA聚合酶、dNTPs和反应缓冲液。可以根据不同细胞的大小和类型，设计不同的微流控芯片产生微液滴进行细胞分隔或使用微孔板(microwell)技术进行细胞分隔。一般根据测序所需检测的细胞数量收集相应数量的单液滴或者制备相应数量的微孔。本发明的方法中细胞分隔后单独的反应空间中将包含至少一个单细胞/单细胞核和至少一个微珠，例如可以包含两个或两个以上的单细胞和一个微珠，也可以包含一个单细胞和两个或两个以上微珠，还可以包含两个或两个以上单细胞和两个或两个以上微珠。

原位转座酶切反应

将样品细胞进行分隔后，可允许至少部分单独的反应室中包含两个或两个以上细胞，以在96孔板中进行的转座酶切反应为例，不同的孔中进行转座酶酶切反应，每个孔中加入携带特定第一序列的转座酶，后续在细胞分隔步骤中携带不同第一序列的细胞可以被分在同一个细胞分隔中。

合成双链DNA

在转录组测序中，将编码微珠连接的第二序列上的捕获接头互补链与加在第一条DNA链上的捕获接头结合，随后在DNA聚合酶等扩增试剂作用下延伸合成第二cDNA，由此得到的双链DNA中含有文库接头序列1和2、细胞标签1和2、分子标签、捕获接头及其互补链。

在表观组测序中，将编码微珠连接的第二序列的转座酶接头序列2与第一序列上的转座酶接头序列1结合，形成不完整的双链DNA，随后在DNA聚合酶等扩增试剂作用下扩增形成完整的双链DNA，所获得的双链DNA中含有文库接头序列1和2、细胞标签1和2、分子标签、基因开放区域、转座酶接头序列(互补的序列1和2)。

构建文库及高通量测序

首先用磁珠法纯化出上一步延伸反应后的原始双链DNA，加入上游引物和下游引物以及PCR扩增反应的试剂，对原始双链DNA进行PCR扩增。用磁珠法纯化PCR扩增产物，在PCR扩增产物两端连接上测序接头(adapter)，例如可采用TA克隆连接接头建库法或PCR法。构建好的文库可用Illumina测序平台或华大智造测序平台进行高通量测序。PCR扩增反应的上游引物和下游引物分别根据编码微珠单链DNA上的上游扩增引物互补片段和反转录随机引物中的下游扩增引物互补片段设计并合成。

多微珠多细胞的解析

对基因表达矩阵的细胞签组合进行过滤，卡掉低质量(低于500分子标签)的细胞。根据测序数据中按位置提取的细胞标签，将所有的微珠进行两两分组遍历配对的组合排列。对每个磁珠配对采取遍历配对计算，计算内容为微珠捕获序列的相似性表达评分。在转录组测序中，纳入计算的序列为随机引物序列；在表观组测序中计算序列为捕获到的遗传信息。将微珠根据相似性表达评分进行排序。根据微孔实际含有的孔数，对序列相似性高微珠配对进行合并操作，再根据细胞标签将遗传信息分配给不同的细胞。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例1：物种混合细胞的单细胞转录组文库构建测序实验

样品准备

按照图1方法流程，使用人293T细胞系和鼠3T3细胞系进行单细胞转录组文库构建测序，流程及文库结构如图2所示。将消化下来的两种细胞系用1×PBS溶液洗一遍，随后分别用1mL裂解液(含有0.1％ IGEPAL CA-630的RSBT洗液)重悬，置于冰上裂解3min，加入5mLRSBT(10mM Tris-HCl pH7.5，10mM NaCl，3mM MgCl2，0.1％ Tween-20,1％ RNA酶抑制剂)洗液终止裂解反应。

反转录

利用4％ PFA对细胞核进行固定，固定后的细胞核用PBST重悬，随后加入含反转录酶、反转录反应缓冲液、dNTPs、反转录随机引物、RNA酶抑制剂、10％TritonX-10、40％PEG8000的反转录试剂，混合均匀后，均分到96孔板中进行反转录反应。反转录反应结束后，加入10μl 40mM EDTA，37℃孵育15分钟以终止反应，随后用3×SSC洗涤3次，PBS洗涤1次。

外切

反转录后的样品加入含有EXO I外切酶、外切酶反应缓冲液、RNA酶抑制剂的外切酶试剂，置于37℃反应30分钟以清除多余的随机引物，随后用3×SSC洗涤3次，PBS洗涤1次。

加捕获接头

外切后的样品加入含有末端转移酶、末端转移酶反应缓冲液、RNA酶抑制剂、dATP的反应体系中，置于37℃反应30分钟，反应结束后用PBST洗涤3次。

扩增反应

取5μl细胞核(约400万/mL)重悬于约3万分子标记磁珠中，再加入1μl P7接头和5μl 2×高保真聚合酶，混匀。随后在微孔板芯片上进行细胞分隔，使整体磁珠和细胞核的捕获分布如图3所示，可以看到芯片上至少部分单独的反应空间中含有至少两个单细胞核和至少两个微珠，芯片内细胞核和微珠落孔率大于70％。随后在第一次加样的反面均匀加入含有恒温聚合酶、RNA酶H、USER酶和高保真聚合酶的扩增体系，将芯片竖直放置在离心管中，加入密封油封住微孔使其形成单独的反应空间，置于PCR热循环仪内进行扩增。

收集液体，纯化

反应完毕后，通过多次离心将芯片中的液体和分子标记磁珠充分收集下来，置于磁力架上，吸取上清转移至新的反应管中。用移液器量取其总体积(A)，随后加入DNA CleanBeads纯化磁珠，加入量为1.5A进行纯化获得cDNA溶液。

文库构建

将获得的cDNA加入到含有标签引物的P5、P7以及高保真聚合酶的扩增体系中进行扩增，获得带有index的测序文库，随后利用DNA Clean Beads纯化磁珠获得文库，使用Qubit 3.0荧光剂测定文库浓度，置于-20℃保存。

测序及数据预处理

将所获得的文库使用华大DNBSEQ-T7测序平台PE150测序模式测序，返回原始fastq数据进行根据细胞标签序列提取筛分，比对Read2到人和小鼠参考基因组得到基因表达谱，进一步分析其中不同物种细胞单个细胞内检测到的转录本数量与单个细胞内污染交叉物种细胞转录本的情况，结果如图4所示，可知两种细胞基因表达情况平均转录本接近3000，物种间转录组交叉污染率约为1％，说明该方法的细胞交叉污染率低，检测转录本数量和灵敏度高。整体捕获转录本在全基因5到3端的分布范围均匀，如图5所示，说明随机引物捕获到的转录本为基因全长范围内的转录本。

多磁珠多细胞解码计算

对基因表达矩阵的细胞标签组合进行过滤，过滤掉低质量(低于500分子标签)的细胞。根据测序数据中按位置提取的细胞标签，将所有的微珠进行两两分组遍历配对的组合排列。对每个磁珠配对采取遍历配对计算，计算内容为微珠捕获序列的相似性表达评分。在转录组测序中，纳入计算的序列为随机引物序列；在染色质可及性测序中计算序列为捕获到的遗传信息。将微珠根据相似性表达评分进行排序(图6)。根据微孔实际含有的孔数，对序列相似性高微珠配对进行合并操作，再根据细胞标签将遗传信息分配给不同的细胞。

实施例2：物种混合细胞的单细胞染色质可及性表观组文库构建测序实验样品、试剂准备

按照图1方法流程，使用人293T细胞系和鼠3T3细胞系进行单细胞染色质可及性表观组文库构建及测序，流程及文库结构如图7所示。将转座酶可识别的包埋识别固定序列和细胞标签序列(384种组合)的引物置于PCR仪中95℃2分钟并以0.1℃/秒降温速度降至25℃，用无酶水稀释成工作液分装至多个96孔板中。将含有Tn5转座酶，耦联缓冲液以及稀释缓冲液的混合试剂加入到退火好的引物工作液中，充分混匀，30℃孵育1小时，孵育后的酶于-20℃冰箱保存。

转座酶切反应

将混合好的人鼠细胞核平均分配至96孔板中，随后向每个孔中加入含有包埋好的带寡核苷酸细胞标签序列的转座酶、2×酶切反应液、1％洋地黄皂苷、10％ Tween-20和1×PBS的酶切体系，充分混匀，置于55℃恒温反应半小时。反应完成后取出96孔板，置于冰上5min终止酶切反应，用排枪收集96孔板的细胞，500g/5min离心，随后用RSBT洗液洗两遍。

释放酶切片段

取5μl细胞核(约400万/mL)重悬于约3万分子标记磁珠中，再加入7μl 50mM EDTA和5μl 2×高保真聚合酶，混匀。随后加载到订制的六边形微孔芯片(对角线长度60μm，孔间距15μm，厚度800μm)上进行细胞分隔，并且使至少部分单独的反应空间中含有至少两个单细胞核和至少两个微珠，使芯片内细胞核和微珠落孔率大于70％。扣紧管盖，随后将离心管置于50℃恒温反应30min，释放酶切打断基因组片段，置于PCR热循环仪内进行扩增。

片段释放及扩增反应

取3-4万分子标记磁珠，用1×PBS清洗两遍后置于冰上备用。将酶切后的细胞密度调整至500万/mL，取4μl细胞重悬分子标记磁珠。将14μl配置好的体系吹匀，用枪头迅速均匀地加载到微孔板芯片上。扣紧管盖，随后将离心管置于50℃恒温反应30min，释放酶切打断基因组片段。将芯片取出，加入扩增试剂，用枪头轻刮表面待液体完全吸收。使用密封油封住微孔使其形成单独的反应空间，随后将其置于PCR热循环仪内进行模板扩增。

收集液体，纯化

文库构建

将获得的DNA加入到含有标签引物的P5、P7以及高保真聚合酶的扩增体系中进行扩增，获得带有index的测序文库，随后利用DNA Clean Beads纯化磁珠获得测序文库，使用Qubit 3.0荧光剂测定文库浓度，置于-20℃保存。

测序及数据预处理

将所获得的文库使用华大DNB-SEQ T7测序平台，PE150测序模式测序，数据分析具体同实施例1。单个细胞内物种DNA比对reads在物种交叉污染率，结果如图8所示，物种间基因组reads交叉污染率约为0.7％，说明该方法检测基因组染色质开放程度的单细胞物种交叉污染比例极低，切特异捕获的单细胞reads读数接近20万，特异灵敏度非常高，对捕获到的人和小鼠开放区域片段进行注释，如图9所示，有15％的典型富集比例位于启动子范围内，说明捕获到的开放区域片段正确。

综上所述，本发明提供一种高通量单细胞文库构建测序方法，利用细胞/细胞核原位标记同时结合测序序列相似性分析快速高效的对大量单细胞进行捕获隔离，在芯片内对单细胞的遗传信息进行一步法的扩增，随后构建测序文库，从而在单细胞水平高通量的检测多组学的遗传信息。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应当了解，在本发明不受上述实施例的限制，上述实施例和说明书中的描述只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种单细胞文库构建测序方法，其特征在于，所述方法包括：将单细胞或单细胞核样本在载体上的反应室中进行原位标记反应，使所述单细胞或单细胞核样本带上第一序列；将所述单细胞或单细胞核样本与带有第二序列的微珠置于单个反应空间，以使所述第一序列和所述第二序列进行反应；和在所述单个反应空间中内进行核酸分子聚合与扩增，得到所述单细胞或单细胞核样本的扩增文库；优选地，将所述单细胞或单细胞核样本形成悬液以进行所述原位标记反应；更优选地，所述扩增文库为转录组文库和/或表观组文库。

2.如权利要求1所述的方法，其特征在于，其中所述第一序列的分子包含用于标记细胞身份的细胞标签1和用于后续扩增的文库接头序列1；其中所述第二序列包含用于后续扩增的文库接头序列2、用于标记细胞身份的细胞标签2和用于标记不同的核酸分子的分子标签序列。

3.如权利要求1或2所述的方法，其特征在于，当在所述载体上的多个反应室进行原位标记反应时，不同的反应室中加入不同的所述第一序列；优选地同一个反应室中加入相同的所述第一序列。

4.如权利要求1或2所述的方法，其特征在于，其中至少一个所述单细胞或单细胞核样本与至少一个所述微珠在所述单个反应空间中进行反应；优选地，至少两个所述单细胞或单细胞核样本与至少两个所述微珠在所述单个反应空间中进行反应；其中所述单细胞或单细胞核样本经过固定处理或者不经过固定处理。

5.如权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括对所述扩增文库进行测序，利用序列相似性分析得到单细胞多组学转录组文库和/或单细胞多组学表观组文库。

6.如权利要求5所述的方法，其特征在于，所述序列相似性分析包括：对每个微珠对采取遍历配对计算，计算内容为每个微珠捕获序列的相似性表达评分。

7.如权利要求1-6中任一项所述的方法，其特征在于，其中所述第二序列包括条件性可断裂位点，所述条件性可断裂位点选自dU碱基修饰、二硫键修饰、可光裂解接头以及限制性内切酶识别序列中的任意一种。

8.如权利要求1-6中任一项所述的方法，其特征在于，其中当扩增文库为转录组文库时，所述第一序列为单链寡核苷酸，并且包含用于捕获所述单细胞或单细胞核样本中核酸分子的随机引物；优选地，所述第一序列包含所述随机引物、细胞标签序列1和文库接头序列1。

9.如权利要求1-6中任一项所述的方法，其特征在于，其中当扩增文库为表观组文库时，所述第一序列为包含包埋固定序列的寡核苷酸，所述包埋固定序列可被转座酶识别；优选地，所述第一序列包含转座酶接头序列1、所述包埋固定序列、细胞标签序列1和文库接头序列1。

10.如权利要求1-9中任一项所述的方法在单细胞、单细胞核、单个微生物的全转录组测序中的应用；优选地所述应用是在微生物学、基础医学、临床医学、农学、细胞生物学、免疫学、发育生物学、病理学、神经生物学及发育、遗传学、干细胞、肿瘤、生殖健康、宏基因组学及微生态、新药研发领域中的应用。