CN117106873A

CN117106873A - 基于三代测序平台的单细胞多组学并行测序方法及其应用

Info

Publication number: CN117106873A
Application number: CN202311032554.5A
Authority: CN
Inventors: 范小英; 常蕾; 邓恩泽; 王俊
Original assignee: Bioisland Laboratory
Current assignee: Bioisland Laboratory
Priority date: 2023-03-22
Filing date: 2023-08-15
Publication date: 2023-11-24

Abstract

本公开提供一种基于三代测序平台的新型单细胞基因组和转录组并行测序技术(scGTP)，利用羧酸磁珠分核的方案，对裂解液中的细胞质内容物进行Smart‑seq2转录组测序，对磁珠结合的细胞核进行SMOOTH‑seq基因组测序建库及Nanopore平台测序。本公开还提供一种基于三代测序平台得到的基因组测序数据挖掘染色体外环形DNA(ecDNA)的生物信息学分析流程ecDNAFinder，利用三代测序平台的长读长优势，解析出单细胞中的ecDNA信息，结合同一细胞中的转录组测序数据，可有效阐释ecDNA对基因转录的影响。此外，本公开提供的scGTP技术还能揭示染色体结构变异(SV)对转录本可变剪切多样性的调控。该技术被证实在癌症临床样品中具有应用可行性，可用于发现与癌症进程、预后紧密相关的ecDNA和SV事件。

Description

基于三代测序平台的单细胞多组学并行测序方法及其应用

技术领域

本公开属于单细胞多组学测序领域，具体涉及同时检测单细胞的基因组和转录组的方法及其应用，以及对应的生物信息学分析流程。

背景技术

在过去的十年中，单细胞测序技术的蓬勃发展使研究者能够排除大量细胞测序造成的均一化效应，在单细胞分辨率下解析细胞群体的异质性，特别是在细胞组成复杂的实体肿瘤临床样品中，具有精准诊断和治疗的广泛应用前景。目前，单细胞测序技术可以应用于单细胞层面的基因组序列、DNA甲基化组、染色质开放性和转录组等测定，但是大部分都基于二代测序。二代测序受测序平台设计原理的限制，所检测的文库片段通常小于1kb，需要依靠拼接得到大尺度序列信息。拼接过程对基因组覆盖度和测序深度要求高。而单细胞测序文库通常覆盖度较低，因此二代测序对检测单细胞中复杂度高的序列效果较差。基于二代测序平台的单细胞全基因组测序，数据分析多围绕对序列精准性要求较高的小尺度变化，包括拷贝数变异(CNV)和单核苷酸多态性(SNV)，对于基因组上的大尺度结构变异(SV)，如ecDNA和SV等，通常不做提及和分析。近期出现的SMOOTH-seq技术改变了这一现状，利用三代测序长度长的优势，可以在单细胞水平上鉴定ecDNA和SV。

单细胞多组学技术的发展进一步扩展了单细胞测序的应用，与单组学相比具有以下四个优势：首先，单细胞多组学能够整合来自多个组学层面的信息，基因型(全基因组序列，表观调控如DNA甲基化组，染色质开放性和组蛋白修饰)与表型(转录组和蛋白质组)之间的关联更加直接明确。第二，根据中心法则，基因组变异可导致转录组变异，进而引起单细胞之间表型的差异。单细胞多组学测序可以得到同一细胞内的基因组变异和转录组变异信息，准确区分造成单细胞间表型差异的调控层面。第三，通过单细胞全基因组和转录组数据可以绘制细胞谱系轨迹，鉴定出影响细胞命运转变的关键性突变。第四，全基因组和转录组数据测定到的突变可以互相验证，增加数据准确性，对高精度的应用场景，如辅助生殖胚胎筛选至关重要。2014年，在同一细胞内同时测定DNA和RNA序列的实验首次被报道，随后相继出现了DR-seq、G&T-seq、SIDR和TARGET-seq等单细胞全基因组和转录组双组学测序技术。应用以上技术，研究者发现基因组上的拷贝数变异与基因转录水平之间呈现正相关性。然而，以上技术均依赖于二代测序平台，只能推断拷贝数变异与基因表达关系，无法进一步判定大尺度结构变异对基因表达的影响。从原理上而言，利用三代测序准确检测单细胞中ecDNA和SV等信息，同时测定该细胞转录组，则能够建立大尺度基因组结构变异与基因表达量及转录本可变剪切之间的直接关联。为解析ecDNA和SV对基因表达的调控作用提供有力工具。

建立基于三代测序平台的单细胞全基因组和转录组并行测序技术需要克服以下难点：之前报道的单细胞多组学测序技术中，得到的转录组测序数据质量普遍较差，覆盖度较低。为了准确解析出基因组结构变异对转录本结构的影响，需要优化实验流程，得到高质量的转录组测序数据。之前方法中采用的单细胞基因组DNA和RNA的分离策略各有缺陷：在不分离基因组DNA和转录组RNA的情况下，直接在全细胞裂解缓冲液中进行逆转录，产生cDNA，之后cDNA和基因组DNA同时进行准线性扩增，将产物分成两部分，一部分进行全基因组扩增，另一个部分通过体外转录的方式进行单链cDNA扩增。这一方法虽然不会损失基因组DNA或RNA，但是操作复杂，体系兼容性差。可以采用细胞膜选择性裂解缓冲液处理细胞，破坏细胞膜但保持细胞核膜的完整性，基因组DNA保留在完整的细胞核中，然后通过离心从细胞质中分离出细胞核。但是，这一方法会损失细胞核中的RNA，造成转录组测序的偏差。另外，可以利用多聚胸腺嘧啶修饰的磁珠，选择性结合3’端带有多聚腺苷酸的mRNA，之后再用磁力架分离磁珠结合的mRNA和留在上清液中的基因组DNA。但这一方法同样存在RNA损失的问题。

此外，针对单细胞全基因组三代测序数据得挖掘分析的生物信息学工具尚缺乏，特别是在分析ecDNA方面，尚无系统有效的成熟有效的分析流程。另外，在SV对应转录本可变剪切的分析上，也需要开发新的算法流程。

为此，需要开发新的基于三代测序平台的新型单细胞基因组和转录组并行测序方法及对应生物信息学分析工具。

发明内容

本公开旨在至少解决上述现有技术中存在的技术问题之一。为此，本公开提出一种分离单细胞的细胞核的方法，以及基于三代测序同时检测单细胞的基因组和转录组的方法。

根据本公开的一个方面，提供了一种基于三代测序平台的单细胞多组学并行测序方法(single-cell paralleled genome and transcriptome sequencing on a third-generation platform,scGTP)，所述方法包括：用裂解缓冲液对单细胞进行处理，以获得细胞裂解物；在所述细胞裂解物中加入羧酸磁珠，以吸附细胞核，使所述单细胞的细胞质内容物和细胞核分离；对在所述裂解缓冲液中的细胞质内容物进行转录组扩增，获得转录组测序文库；和，对羧酸磁珠吸附的细胞核进行全基因组扩增，获得基因组测序文库。

图1中示出了根据本公开的方法，同时进行基因组DNA和转录组RNA测序的示意图。如图中所示，单个细胞通过本公开的分离细胞核的方法，将细胞核与含细胞内容物的上清液分离开。其中上清液中含有转录组RNA。细胞核经裂解后，对基因组DNA进行测序。

根据本公开的一些实施方式，所述羧酸磁珠为MyOne^TM羧酸磁珠。

根据本公开的一些实施方式，在加入所述细胞裂解物中之前，使用磁珠处理缓冲液和无核酸水对所述羧酸磁珠进行预处理。根据本公开的一些实施方式，所述磁珠处理缓冲液包括10mM Tris-HCl、1mM乙二胺四乙酸和2M NaCl。

根据本公开的一些实施方式，所述裂解缓冲液包括0.2％ Triton X-100、10mM二硫苏糖醇、0.04％吐温20和2×SuperScript^TMII第一链合成缓冲液。根据本公开的一些实施方式，所述裂解冲液还可以包括0.8U/μL RNA酶抑制剂。

根据本公开的一些实施方式，在使所述单细胞的细胞质内容物和细胞核分离之前，进行震荡和离心处理。震荡处理可有助于细胞膜通透，离心处理可以避免少量液体粘连在管壁上造成RNA和DNA损失。将加入羧酸磁珠的细胞裂解物放在磁力架上，以分离细胞核。可以将磁力架置于冰上预冷处理，以避免分核过程中RNA降解。

根据本公开的一些实施方式，所述对在所述裂解缓冲液中的细胞质内容物进行转录组扩增，获得转录组测序文库包括以下步骤：采用Smart seq2，对所述细胞质内容物中的转录组进行逆转录并进行PCR扩增；采用二代测序建库技术，获得所述转录组测序文库。根据本公开的一些实施方式，对所述转录组测序文库进行二代高通量测序。根据本公开的一些实施方式，采用二代测序建库试剂盒，构建转录组测序文库。根据本公开的一些实施方式，可以通过Illumina测序平台对转录组RNA文库进行测序。

根据本公开的一些实施方式，所述对羧酸磁珠吸附的细胞核进行全基因组扩增，获得基因组测序文库包括以下步骤：采用SMOOTH-seq，对所述单细胞的全基因组片段化并进行扩增；采用三代测序建库技术，获得所述基因组测序文库。根据本公开的一些实施方式，对所述基因组测序文库进行三代高通量测序。根据本公开的一些实施方式，采用三代建库试剂盒构建基因组测序文库。

根据本公开的一些实施方式，所述三代高通量测序是在Nanopore和/或PacBio三代测序平台上进行的。根据本公开的一些实施方式，所述三代高通量测序优选在Nanopore三代测序平台上进行。

本公开的另一方面，提供了一种分析单细胞中的ecDNA的方法，所述单细胞中的ecDNA的数据来自于本公开的上述方法中获得的对基因组测序文库的测序数据。在一些具体实施方式中，所述分析单细胞中的ecDNA的方法是生物信息学分析方法，在本文中被命名为ecDNAFinder。根据本公开的一些实施方式，可以对所述基因组测序文库进行三代高通量测序。根据本公开的一些实施方式，可以在Nanopore和/或PacBio三代测序平台上，对所述基因组测序文库进行三代高通量测序。

根据本公开的一些实施方式，所述分析单细胞中的ecDNA的方法包括如下步骤：从比对文件中提取序列信息；根据序列信息，对所述序列进行筛选合并处理，找出包含断点的序列和与其相关的序列，进行记录；从经过处理的序列中寻找断点；合并样本的断点，得到ecDNA序列的信息；根据ecDNA序列在单个样本中最小支持序列数和所有样本中最小支持序列数，对所述环形序列信息进行筛选，得到最终ecDNA序列数据；和，整合所得到的最终ecDNA序列数据，进行绘图。其中，根据序列信息，对所述序列进行筛选合并处理的步骤包括，判断序列长度是否达到最小值、序列是否存在包含关系和/或序列间是否有重叠区域。

根据本公开的一些实施方式，所述分析单细胞中的ecDNA的方法包括，对三代全基因组测序数据进行生物信息学分析，来检测单细胞的ecDNA。根据本公开的一些实施方式，所述分析单细胞中的ecDNA的方法由生物信息学分析流程ecDNAFinder来进行。

根据本公开的一些实施方式，上述分析单细胞中的ecDNA的方法包括，输出所述ecDNA序列的信息，所述信息包括基因组区间坐标、环化点坐标、拷贝数、长度、类型和/或基因名称，其中所述类型指所述ecDNA序列的单端或多段环化类型。

根据本公开的一些实施方式，本公开的方法可用于获得基因组拷贝数变异和染色体结构变异。例如，可以通过目前已有的生物信息学分析流程，对本公开的方法得到的基因组测序数据和/或转录组测序数据进行分析，获得基因组拷贝数变异和/或染色体结构变异。

本公开的所述基于三代测序平台的单细胞多组学并行测序方法，或者分析单细胞中的ecDNA的方法，可用于制备确定待测细胞是否为癌细胞的试剂盒，可以用于确定待测细胞是否为癌细胞，确定ecDNA对基因表达量的调控，确定在染色体结构变异对转录本可变剪切多样性调控，或用于寻找与癌症进程、预后紧密相关的ecDNA和染色体结构变异。所述癌症可以包括胰腺癌、脑胶质瘤和/或肝癌。所述癌细胞可以包括来源于胰腺癌、脑胶质瘤和/或肝癌的癌细胞。

本公开的细胞处理方法利用了经预处理的羧酸磁珠分离基因组DNA和RNA，可基本排除分离过程对转录组测序效果的影响。对SMOOTH-seq所使用三代测序平台进行优化，采用新的生物信息学分析流程ecDNAFinder，可以实现在单细胞分辨率下，建立ecDNA及染色体结构变异与基因表达量及转录本可变剪切之间的直接关联。这样在寻找癌症新的诊断及治疗靶标以及后续临床癌症诊断中具有广泛的应用前景。本公开发现，与PacBio测序平台相比，Nanopore测序平台能够检测到更多的ecDNA，且结果更可信。同时，本公开利用三代测序的长读长优势，在改进的SMOOTH-seq全基因组测序数据中鉴定出ecDNA及染色体结构变异，对应同一细胞中的转录组数据，建立ecDNA及染色体结构变异与基因表达量及转录本可变剪切之间的直接关联。

附图说明

下面结合附图和实施例对本公开做进一步的说明，其中：

图1为根据本公开的一个实施方式的基于三代测序平台的单细胞多组学并行测序方法scGTP的示意图。

图2为根据本公开的一个实施方式的对分别采用分核和不采用分核的体外培养的肿瘤细胞系进行转录组测序的比较。(a)示出了单细胞转录组测序得到的基因种类数的小提琴图。U2OS、HEK293T、COLO320DM、PC3为分核后测序结果，U2OS_C和HEK293T_C为全细胞未分核测序结果。(b)示出了细胞的分群的主成分分析(PCA)图，其中U2OS_1和U2OS_2来自图2a的U2OS组，表示不同实验批次获得的结果。(c)示出了细胞聚类情况的分级聚类图。

图3示出了根据本公开的一个实施方式的Pacbio和Nanopore两种三代测序平台获得数据之间的质量对比。其中，示出了每组细胞中，比对到人类参考基因组上的读长序列的(a)比率，(b)总数量，(c)平均长度和(d)最大长度，以及(e)参考基因组覆盖度和(f)比对参考基因组区域的平均深度。

图4示出了根据本公开的一个实施方式的10种ecDNA的数据以及PCR引物的序列。

图5示出了根据本公开的一个实施方式的ecDNA分析结果。(a)通过Nanopore和PiaBio测序平台，在U2OS细胞中检测到的ecDNA的重叠的维恩图。(b)在ecDNA环化位点，向外进行PCR的PCR产物的Sanger测序结果。(c)通过在环化位点两侧的外向引物扩增的ecDNA产物的琼脂糖凝胶电泳图。

图6示出了本公开的一个实施方式，对三代全基因组测序数据进行生物信息学分析检测单细胞ecDNA的方法ecDNAFinder的分析流程示意图。

图7示出了根据本公开的一个实施方式的ecDNA和其对应的读长示意图。(a)ecDNAFinder鉴定ecDNA候选分子的流程示意图。(b)ecDNA候选分子对应读长的示意图。

图8示出了根据本公开的一个实施方式的检测的16种外源环形质粒的ecDNA计数与其绝对拷贝数之间的关系拟合分析。

图9示出了根据本公开的一个实施方式的对染色体结构变异的分析。(a)示出了U2OS细胞的结构变异的Circos圈图。在该Circos圈图中，从内到外分别为：易位，缺失，插入，RNA表达水平。图中标记出了具有染色体结构变异的转录本的基因。(b)U2OS细胞中的基因组和对应的转录本中的缺失和插入事件的PCR验证。(c)对来自缺失-1、缺失-2、缺失-3、插入-1、插入-2和插入-3的PCR产物的Sanger测序结果。

图10示出了根据本公开的一个实施方式的单细胞多组学方法在胰腺癌细胞中的应用。(a)示出了ecDNA在胰腺癌细胞中Circos圈图。在该Circos圈图中，从内到外分别为：ecDNA环化位点，ecDNA拷贝数，拷贝数变异，RNA水平。(b)示出了胰腺癌细胞中的ecDNA和非ecDNA基因的表达水平的箱型图。p值使用两侧Wilcoxon-Mann-Whitney检验计算。(c)通过在胰腺癌细胞中检测到的ecDNA基因富集的基因本体(GO)功能注释。(d)TCGA数据库中，胰腺癌患者的ecDNA基因PNISR的存活曲线。

具体实施方式

以下将结合实施例对本公开的构思及产生的技术效果进行清楚、完整地描述，以充分地理解本公开的目的、特征和效果。显然，所描述的实施例只是本公开的一部分实施例，而不是全部实施例，基于本公开的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本公开保护的范围。

本文所使用的术语“细胞”泛指生物体的基本结构和功能单位。在本公开中的一些实施方式中，细胞优选是来自真核生物的细胞，包括由核膜包被的细胞核。

术语“转录组”广义上指一生理条件下，细胞内所有转录产物的集合，包括信使RNA(mRNA)、核糖体RNA(rRNA)、转运RNA(rRNA)和非编码RNA，狭义上指所有mRNA的集合。

本文所使用的术语“染色体外DNA”或“ecDNA”是在染色体外的，位于细胞核内部或外部的一类环状DNA，通常包含数百个至数兆个碱基对。ecDNA在人类癌细胞中普遍存在，通过增加拷贝数和改变基因调控介导癌基因的高表达。

本文所使用的术语“基因组覆盖度”，是指测序获得的序列占整个靶序列如基因组序列的比例。由于基因组中的高GC、重复序列等复杂结构的存在，测序最终拼接组装获得的序列往往无法覆盖所有的区域。例如，如果基因组测序的覆盖度是98％，就意味着2％的序列区域未通过测序获得。单细胞基因组覆盖度是指，单细胞基因组扩增后，测序得到的基因组序列占整个基因组(参考基因组)序列的百分比。

本文所使用的术语“核酸”、“核酸分子”、“寡核苷酸”和“多核苷酸”可以互换使用，并且指任何长度的核苷酸的聚合形式，即脱氧核糖核苷酸或核糖核苷酸，或其类似物。术语涵盖例如DNA、RNA及其改性形式。多核苷酸可以具有任何三维结构，并且可进行任何已知或未知的功能。多核苷酸的非限制性实例包括基因、基因片段、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、任何序列的分离的DNA、控制区，任何序列的分离的RNA、核酸探针和引物。核酸分子可以是线性的或环状的。

本文所使用的术语“逆转录聚合酶链反应(Reverse Transcription PolymeraseChain Reaction)”、“RT-PCR”和“逆转录PCR”可互换使用，这是为一种使用RNA为模板扩增特定基因的方法，广泛用于基因工程领域。在RT-PCR中，先使用逆转录酶(RNA依赖性DNA聚合酶)将RNA逆转录成cDNA，然后通过耐热DNA聚合酶扩增至该cDNA可检测水平。

本文所使用的SMART(Switching Mechanism At 5'end of the RNA Transcript)技术，其原理简单来讲是在从mRNA逆转录成cDNA的反应中，加入3'末端带Oligo(dG)的“模板转换引物”(也称为SMART引物)。当逆转录酶到达mRNA的5'末端(对应于cDNA的3'末端)时，碰到真核mRNA特有的“帽子结构”，即甲基化的G时会连续在合成的cDNA末端加上几个(dC)。SMART引物的Oligo(dG)与合成cDNA末端突出的几个C配对后形成cDNA的延伸模板，逆转录酶会自动转换模板，以SMART引物作为延伸模板继续延伸cDNA单链直到引物的末端，这样得到的所有cDNA单链的一端有含Oligo(dT)的起始引物序列，另一端有已知的SMART引物序列，合成第二链后可以利用通用引物进行扩增。由于有5'帽子结构的mRNA才能利用这个反应得到能扩增的cDNA，因此扩增得到的cDNA是全长cDNA。

实施例1：单细胞裂解缓冲液经磁珠分核后进行转录组测序

(1)分核磁珠预处理。从培养的细胞(例如HEK293T、U2OS、COLO320DM和PC3细胞)中分离得到单个细胞。每个单细胞使用0.2μL的MyOne^TM羧酸(CA)磁珠(Invitrogen，cat.#65011)进行分核。按照制造商的说明书，先用100μL的磁珠处理缓冲液(成分如下表1所示)清洗磁珠，然后置于磁力架上。待磁珠吸附到侧壁，去除上清。之后用100μL无核酸水洗涤磁珠1次，经磁力架富集磁珠后，除去洗涤的无核酸水。

表1

(2)单细胞裂解分核。用裂解缓冲液重悬经过预处理的CA磁珠。裂解缓冲液配方如下表2所示：

表2

逆转录引物的序列如下表3所示：

表3

用胰蛋白酶消化贴壁培养细胞，将分离的单个细胞移入独立的反应管中，每管中加入5μL上述含有CA磁珠的细胞裂解缓冲液。涡旋震荡混合30秒后，1,000×g离心30秒。将反应管置于预冷的磁力架上保持5分钟，待磁珠充分吸附到侧壁，转移上清液到新的反应管中。

(3)RNA分子变性。将转移到新反应管中的上清液放入PCR仪中，72℃孵育3分钟，使RNA分子进行变性，之后保持在4℃。

(4)体外逆转录反应。在每个经过RNA分子变性的反应管中加入5μL逆转录反应液。逆转录反应液的配方如下表4所示：

表4.

模板转换引物序列如下表5所示：

表5.

注：rg为核糖鸟嘌呤、+g为XNA修饰g。

充分混匀并离心，之后进行体外逆转录，PCR仪反应程序如下表6所示：

表6.

(5)PCR扩增反应。在每个完成体外转录的反应管中，加入15μL扩增反应液，对体外逆转录得到的cDNA进行PCR扩增反应，扩增反应液配方如下表7所示：

表7.

PCR扩增引物序列如下表8所示：

表8.

充分混匀，之后进行PCR扩增，PCR仪反应程序如下表9所示：

表9.

(6)cDNA纯化。将PCR产物用0.8×XP磁珠(Beckman,Cat.A63882)纯化两次。先将0.8倍体积的磁珠与产物混合，室温孵育5分钟，然后置于磁力架上，待磁珠吸附到侧壁，去除上清。磁珠用80％乙醇洗涤2次，晾干，用适量体积的无核酸水溶液重悬磁珠，室温静置2分钟后，置于磁力架上，上清产物转移到新的样品管中。重复纯化步骤一次，纯化产物溶解在20μL无核酸水中，总量需大于1ng，以满足二代测序文库构建的起始要求。

实施例2：分核磁珠的全基因组测序

(1)将在实施例1中，分核后的CA磁珠重悬于2.5μL的DNA裂解缓冲液中。DNA裂解缓冲液配方如下表10所示：

表10.

涡旋震荡进行混合，50℃孵育1小时，然后70℃孵育30分钟使蛋白酶充分失活。在进行下一步操作前，将样品冻存于-80℃，待转录组测序分析完毕，根据转录组数据质量选择适合进行全基因组测序的样品。

(2)将商业化合成DNA序列接头(序列如下表12所示)稀释到100μM，1:1退火反应得到接头混合液。在PCR仪中进行梯度退火反应：75℃，15分钟；60℃，10分钟；50℃，10分钟；40℃，10分钟；25℃，30分钟。包埋体系如下表11所示，充分吹打混匀，30℃孵育1小时，得到的Tn5转座酶复合物，-20℃保存。

表11.

接头序列如下表12所示：

表12.

(3)转座子介导的DNA片段化。向步骤(1)中的2.5μL DNA裂解产物中加入7.5μL片段化反应液，温和吹打几次使混匀。片段化反应液配方如下表13所示：

表13.

在PCR仪上进行如下反应：55℃，10分钟，之后于4℃持温。加入2.5μL的0.2％ SDS终止反应，混匀后室温放置5分钟，完成DNA片段化。

(4)PCR扩增反应。向DNA片段化产物中加入37.5μL的PCR扩增反应液，使最终反应体系为50μL，PCR扩增反应液配方如下表14所示：

表14.

PCR扩增程序如下表15所示：

表15.

PCR引物I5-PB如下表16所示，其中包含了16bp的随机条形码序列(N)和位于3'末端的14bp与模板DNA末端接头互补的锚定序列：

表16.

(5)样品混合及纯化。将连接上不同条码序列的单细胞基因组DNA扩增样品混合在一起，用0.4×XP磁珠纯化。先将0.4倍体积的磁珠与样品混合，室温孵育5分钟，然后置于磁力架上，待磁珠吸附到侧壁，去除上清。磁珠用80％乙醇洗涤2次，晾干，用适量体积的水溶液重悬磁珠。室温静置2分钟后，置于磁力架上，上清产物转移到新的样品管中。重复纯化步骤一次。将纯化的产物溶解在适量无核酸水中，使终浓度大于50ng/μL，以满足后续三代测序文库构建的起始要求。

(6)文库构建和测序。分别使用SMRTbell Template Prep试剂盒1.0(PacificBiosciences)，或由Nanopore:NextOmics公司，按照Nanopore测序平台要求对扩增产物进行文库构建和测序。简单来讲，使用NEBNext FFPE Repair Mix(NEB,M6630)修复DNA，使用NEBNext End repair/dA-tailing Module(NEB,E7546)，NEBNext Quike ligation Module(NEB,E6056)在DNA末端连接测序接头，使用Ligation Sequencing Kit(Oxford,SQK-LSK109)、Pro Flow Cell Priming Kit(Oxford,EXP-FLP001.PRO.6)和PromethION FlowCells(Oxford,FLO-PRO002)，完成Nanopore PromethION上机测序。

实施例3：对体外培养的细胞的转录组测序分析

采用实施例1的方法，对U2OS、HEK293T、COLO320DM、PC3四种体外培养的肿瘤细胞系进行单细胞分核后，对细胞质中的RNA部分进行转录组扩增。使用TruePrep DNALibraryPrep Kit V2 for Illumina(Vazyme,Cat:TD501/TD502/TD503)对扩增产物进行文库构建。根据实际纯化产物总量选择建库试剂盒。在llunima Hiseq XTEN测序平台进行上机测序。所得基因种类均在6000种以上，除COLO320DM细胞系外，大部分细胞中基因种类均在8000种以上，结果如图2a中的U2OS、HEK293T、COLO320DM、PC3所示。

按照实施例1的步骤(2)至(6)，不对U2OS和HEK293T两种体外培养的肿瘤细胞系进行分核处理，直接进行转录组扩增。同样，使用TruePrep DNA LibraryPrep Kit V2 forIllumina(Vazyme,Cat:TD501/TD502/TD503)进行文库构建，并在llunima Hiseq XTEN测序平台进行上机测序，测序结果如图2a中的U2OS_C和HEK293T_C所示。从图2a所示，所得基因的种类数与分核后的测序结果(U2OS和HEK293T)没有统计学上的显著性差异。

根据转录组或全基因组测序中得到的差异表达基因，可以将单细胞分成不同的群，相同种类的肿瘤细胞聚集在同一个群中，结果如图2b所示。同种肿瘤细胞中，分核和未分核的细胞无明显分群，不同批次处理的细胞也无明显分群。图2c示出了基于转录组的分级聚类结果，各细胞系倾向于自聚集，不同实验批次的分核与未分核细胞相间分布。由此可以看出，分核单细胞转录组测序数据质量良好，但分核过程对于转录组测序没有显著性影响。

实施例4：分别使用Nanopore测序平台和PacBio测序平台对ecDNA进行分析

(1)按照实施例2，在分核磁珠的全基因组测序中的步骤获得12个U2OS细胞和12个HEK293T细胞在Nanopore PromethION测序平台的测序数据，同时获得另12个U2OS细胞、12个COLO320DM细胞和12个PC3细胞在Pacbio sequel II测序平台HiFi模式下的测序数据。

(2)对Nanopore PromethION测序平台得到的数据进行处理。读长序列通过guppy(牛津Nanopore科技，2.3.7版)从fast5文件中提取，然后通过Cutadapt(3.3版)使用参数“-q 13,11-m100”修剪，并使用Minimap2(2.17版)，按以下参数，将读长对应到人类参考基因组上“-ax map-ont-t 20--cs--MD-Y-L--secondary no”。

(3)对PacBio测序平台得到的数据进行处理。读长序列通过CCS(4.2.0版)进行提取。通过Lima(2.0.0版)，对细胞条形码序列进行多路分解，来鉴定文库中的不同细胞。使用PBMM2(1.4.0版)将读长对应到人类参考基因组上。

(4)通过FastQC(0.11.9版)对读长质量进行分析，通过Samtools(1.1版)对读长与基因组的对应情况进行分析。结果示于图3中。

分析结果发现，两种测序平台得到的三代测序数据中，98％以上的读长均可以成功对应到人类参考基因组上。如图3a和3b所示，Nanopore平台测得数据中，得到每个细胞的可对应到基因组上的读长总数量比PacBio平台测得的数据显著更多。如图3c所示，平均读长长度受到Tn5转座酶在不同细胞基因组上剪切效率不同的影响，在不同细胞系间差异较大。但是，如图3d所示，在U2OS细胞系中，Nanopore平台能得到比PacBio平台更长的读长长度。如图3e所示，Nanopore平台测序数据具有比PacBio平台更大的人类参考基因组覆盖率同时，如图3f所示，Nanopore平台测序数据具有比PacBio平台更大的测序深度。

(5)尽管使用Nanopore测序平台可在每个单细胞中获得更多能对应到参考基因组上的读长，但其在检测ecDNA上是否具有优势有待进一步确认。为此，通过ecDNAFinder对Nanopore和PacBio测序平台分别测得的U2OS细胞系的单细胞全基因组测序数据进行分析。

在Nanopore测序平台测序数据中找到109种ecDNA，而在PacBio测序平台数据中仅找到25种ecDNA，其中13种为两种测序平台所共有的ecDNA。从两个ecDNA的数据集中挑选12种ecDNA通过PCR进行验证。通过NCBI网站，在ecDNA的环化位点两端设计反向PCR引物。图4中示出了其中10种能被成功检测的ecDNA的信息以及PCR引物的序列，但有两种无法扩增出目标产物。

为了提取纯化的U2OS细胞和阴性对照人类胚胎干细胞(hESC)基因组为模板，利用Phanta Max Super-Fidelity DNA Polymerase(Vazyme，P505)进行PCR扩增。得到的PCR产物在400bp到1000bp之间。PCR产物进行1.5％的琼脂糖凝胶电泳，并通过Sanger测序。图5中示出了部分结果。

结果显示，10种在Nanopore测序平台测序数据中挖掘到的ecDNA(包含与PacBio共有)，能从U2OS细胞的基因组中扩增出长度正确的产物(图5a)，且Sanger测序结果能得到ecDNA环化点序列(图5b)。而在hESC基因组中无法扩增出产物，符合ecDNA多存在于癌细胞的特征。2种仅在PacBio测序平台测序数据中挖掘到的ecDNA无法扩增出跨过环化点的片段(图5c)。综上，与PacBio测序平台相比，Nanopore测序平台测序数据在ecDNA的检测效率和准备性上均有优势。

实施例5.ecDNAFinder分析流程及准确性测试

本实施例对实施例4中利用三代测序数据分析ecDNA的ecDNAFinder进行详细阐述。ecDNAFinder的分析思路是，将多个比对的读长区间映射到最一致的参考基因组区域，并从最长比对区间里删除次级比对结果。由于测序误差，可能会导致读长中的重复短片段被合并。然后，包含至少两个反向定位的基因组比对区域的读长，被标记为跨越环化点的候选ecDNA。

对于较长的ecDNA，读长只能覆盖环化位点附近的一部分序列。而在较短的ecDNA中，ecDNA可能被一个或多个读长完全覆盖。为了消除由测序误差可能引起的假阳性结果，而采用严格的筛选标准。经筛选后，将单细胞中鉴定出的ecDNA按照其环化位点的基因组坐标进行合并，并根据ecDNA中检测到的基因组片段数来确定ecDNA的类型。

每个细胞中相应的ecDNA丰度和读长覆盖率，仅使用跨越ecDNA环化位点的读长来量化计算。通过该算法，可以获得单个细胞的ecDNA类型、染色质区间、环化位点坐标、归一化读长数目，以及每个ecDNA的读长覆盖范围等信息。

图6中给出了ecDNAFinder的分析流程示意图。

(1)从比对文件中提取序列：对次级比对序列、未匹配序列、重复序列、质量控制失败序列和比对质量低的序列进行过滤，仅保留长度大于阈值的序列。最后留下带有补充比对的序列。

·比对质量通过参数minmapQ控制，默认值0，代表不控制。

·长度阈值通过参数minsoftdrop控制，默认值20。

(2)对序列进行标记处理：首先对各个比对序列的子序列标记为DROP，然后按照如下的操作打上不同的标记，最后留下有断点的序列。

a.比对长度标记，标记比对长度小于阈值的子序列为LOWALIGN。

·长度阈值通过参数minalignlenght控制，默认值100。

b.包含序列标记，标记完全被包含的序列为OVER。

·比对通过参数dropcigarover控制是否开启，默认为True，代表开启。

·比对误差通过参数overmaperrors控制，默认值100。

c.重叠序列标记，标记两段重叠的序列为DUPLIC，插入一条新的序列并标记为DUPMER。

·完全包含通过参数maxneighboneend控制，默认值100。

●相邻子序列通过参数maxneighbtwoends控制，默认值250。

d.断点寻找，标记符合条件的断点序列为EcBP，插入新的序列并标记为INTER。

·子序列最小比对长度通过参数minneighbplen控制，默认值500。

·最大相邻覆盖通过参数maxneiboverlap控制，默认值800。

e.找出断点序列的首尾，并标记为HEAD或TAIL，完整序列标记为HTBREAKP。

(3)从序列中寻找断点：对样本的多个序列进行合并，并找到可能的断点。

a.判断序列的子序列是否处于多个染色体上并标记为MultiChr，对子序列进行两两比较，如果存在包含情况则标记为Trim。

●序列包含通过参数overtrimerrors控制，默认值500。

b.合并位置相似的序列，找到起始和结束位置相差不到阈值的序列，并重新设置起始和结束位置。

·阈值通过参数maxreadstwoends控制，默认值500。

c.对合并后的序列的信息进行统计，计算支持样本名，支持序列数，覆盖率、测序深度。

d.根据合并后的序列，找出环中包含的基因。

(4)合并多个样本的断点：将所有样本的数据进行合并，步骤同3。

(5)对合并后的环进行筛选：筛选条件如下：

·单个样本最小连接数通过参数minhubsize控制，默认值3。

·单个样本最小支持序列长度通过参数minhublen控制，默认值1000。

●单个样本最小支持序列数通过参数minhubnum控制，默认值5。

●所有样本最小支持序列数通过参数minsupportnum控制，默认值3。

●最小支持样本数通过参数minsidnum控制，默认值1。

●最小断点数通过参数breakpiontnum控制，默认值2。

●通过参数maxlinklen控制，默认值10000000。

●通过参数maxcoverage控制，默认值0.4。

·通过参数maxdepth控制，默认值0.85。

(6)整合数据进行绘图：整合环化位点、支持数目和基因，进行绘图。

a.对各个环进行排序、合并、去重，计算每个区间支持的序列数。

b.对各个环计算出环化的首尾位点。

c.找出各个环中包含的基因。

图7示出了ecDNA和与其对应的读长示意图。其中，图7a示出了ecDNAFinder如何鉴定ecDNA候选分子的读长示意图。共有环的候选读长通过动态编程进行重合，并且转化成计数矩阵。图7b示出了ecDNA候选分子对应读长的示意图。

为验证建立的单细胞多组学测序技术所获得的单细胞全基因组测序数据结合ecDNAFinder分析流程鉴定ecDNA的准确性，在单细胞基因组中掺入了16种外源环形质粒，长度分布在3300bp到27300bp之间。这些质粒提取自大肠杆菌，利用Exonuclease V(RecBCD,NEB，M0345)除去非环形组分并纯化，通过数字PCR仪(Stilla Technologies)预先定量，按100倍差距内的固定比例混合。将质粒的测序分析得到的拷贝数与已知掺入拷贝数进行关系拟合。结果示于图8中。

图8示出了每一反应中，所检测到的ecDNA计数与16种外源环形质粒的绝对拷贝数之间的关系拟合分析。在图8中，每一个圆点表示一个质粒，直线表示线性回归曲线。可以看出，所有掺入的质粒种类均能被检测到，测得拷贝数与已知掺入拷贝数之间的线性正比关系良好，R²均值在0.7左右。这表明通过ecDNAFinder对单细胞全基因组三代测序数据进行分析，可以准确分析出外源ecDNA的种类和相对数量，同时可以检测到细胞质内的环形DNA(线粒体DNA)。

实施例6.利用单细胞全基因组三代测序数据分析染色体结构变异

本实施例使用了带有默认参数的Sniffles(1.0.12版)，检测U2OS细胞系中单细胞全基因组三代测序数据的染色体结构变异，然后根据结构变异的长度和质量过滤出符合质量标准的结构变异。这里主要关注三种类型的结构变异：缺失、插入和易位。对于缺失和插入，最大长度分别设置为100kb和2.5kb，而最小长度均为100bp。最后，只保留质量为“PRECISE”的结构变异事件。

值得注意的是，许多细胞可能共享相同的结构变异事件，即来自同一细胞系不同细胞的同种结构变异发生在相同的染色体中，并且具有相似的基因组区间。这种某一癌症细胞系普遍存在的结构变异被定义如下：在基因组中，如果定义结构变异A发生在断点I_a和J_a而结构变异B发生在断点I_b和J_b上，当(I_a-500)<I_b<(I_a+500)和(J_a-500)<J_b<(J_a+500)。通过这种方式，将不同细胞中相似的结构变异合并为一个具有相对广泛性的基因组位置的单个结构变异。接下来，只保留至少有3个细胞支持的结构变异事件以尽可能多得去除由于扩增和测序过程中引起的假阳性事件。最终在24个U2OS细胞的单细胞全基因组Nanopore测序数据中，辨识出166个缺失事件，83个插入事件以及85个易位事件。对符合条件的结构变异进行注释，使用bedtools(2.30版)找出与结构变异位置相同的基因，并区分出外显子和内含子。接下来，联合转录组数据，对结构变异进一步的筛选过滤，去除了相关基因没有表达的结构变异，最终证明44个插入事件和28个缺失事件相关的基因参与了转录。结果示于图9a中。

确认结构变异是否会产生新的转录本结构。对于每个插入事件，生成了一个新的参考基因组，它线性连接了插入基因位点内识别出的所有插入序列，与此同时生成相应的新的位置注释信息。使用bwa(0.7.17版)的BWA-MEM算法和默认参数将转录组的读长比对到新参考基因组。重新比对后，如果长度为150bp的测序序列的80％可以映射到某个插入事件的序列，则该测序片段将被视为由该插入事件产生的候选新转录本。类似地，对于一个缺失事件，连接结构变异基因组坐标侧翼500bp序列生成新的基因组。如果单端的测序片段可以跨越断点并在断点两侧覆盖至少50bp长度，则将它们视为缺失事件生成的候选新转录本。

为验证染色体结构变异导致的变异新转录本的真实性，设计对应引物分别在DNA和cDNA水平上进行了PCR验证。结果示于图9b中。从图9b可以看出，3个插入事件和3个缺失事件的从基因组和cDNA(转录组)的PCR产物大小相同，说明这些插入和缺失事件在基因组和转录组层面同时发生。图9c中，通过Sanger测序对其中的3个插入事件和3个缺失事件进行了验证。

实施例7.在胰腺癌临床样品中应用基于三代测序的单细胞双组学测序

体外培养的癌细胞系具有很强的稳定性和活性，但体内肿瘤组织具有极高的异质性，并且样本制备需要先经过离体、消化、分选等步骤才能获得单细胞悬液进行后续扩增建库实验，往往难以获得高质量的测序结果。本实施例在胰腺癌临床样品中应用，以验证该技术对于体内肿瘤细胞检测的普适性。

从患者身上切除胰腺癌组织，将切除的癌组织保存在4℃组织保存液(MiltenyiBiotec,Cat:130-100-008)中，3小时内进行处理。取1g胰腺癌组织，在DMEM细胞培养液中切碎成1mm³左右的小块。按照美天旎癌组织解离试剂盒(Miltenyi Biotec,Cat.130-095-929)说明书，分别加入三种酶H、R和A的酶解液。在美天旎gentleMACS Octo解离器中运行37C_h_TDK_3程序，解离组织。组织解离液过70μm细胞滤网后，将悬浮细胞在4℃，以400×g，离心10分钟，去除上清液。将细胞重悬在含有10％胎牛血清的1×磷酸缓冲液中，按照说明书，用罗氏的红细胞裂解缓冲液除去细胞悬液中的红细胞。通过人类CD326 EpCAMMicroBeads(Miltenyi Biotec,Cat.130-061-101)富集上皮细胞。对富集到的上皮细胞，按照实施例1的步骤进行单细胞裂解缓冲液磁珠分核后，进行转录组测序。根据转录组数据的质量挑选出12个细胞，按照实施例2的步骤进行分核磁珠的全基因组测序。从拷贝数变异(CNV)判断癌细胞，发现12个细胞中仅有3个为癌细胞。从这3个癌细胞中，找到17个ecDNA和549个ecDNA基因，结果示于图10a中。

图10b示出了这3个细胞中的ecDNA和非ecDNA的表达水平，发现ecDNA的表达高于非ecDNA。ecDNA基因与癌症相关。本实施例发现其中一个ecDNA基因的高表达与胰腺癌病人的不良预后密切相关。图10c示出了通过在胰腺癌细胞中检测到的ecDNA基因富集的基因本体(GO)功能注释。图10d示出了TCGA数据库中，胰腺癌患者的ecDNA基因PNISR的存活曲线。

上面结合附图对本公开实施例作了详细说明，但是本公开不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本公开宗旨的前提下作出各种变化。此外，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

Claims

1.一种基于三代测序平台的单细胞多组学并行测序方法，其特征在于，包括如下步骤：

用裂解缓冲液对单细胞进行处理，以获得细胞裂解物；

在所述细胞裂解物中加入羧酸磁珠，以吸附细胞核，使所述单细胞的细胞质内容物和细胞核分离；

对在所述裂解缓冲液中的细胞质内容物进行转录组扩增，获得转录组测序文库；

对羧酸磁珠吸附的细胞核进行全基因组扩增，获得基因组测序文库。

2.根据权利要求1所述的方法，其特征在于，所述羧酸磁珠为MyOne^TM羧酸磁珠。

3.根据权利要求1或2所述的方法，其特征在于，在加入所述细胞裂解物中之前，使用磁珠处理缓冲液和无核酸水对所述羧酸磁珠进行预处理，其中所述磁珠处理缓冲液包括10mMTris-HCl、1mM乙二胺四乙酸和2M NaCl。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述裂解缓冲液包括0.2％Triton X-100、10mM二硫苏糖醇、0.04％吐温20和2×SuperScript^TMII第一链合成缓冲液，优选地，所述裂解缓冲液进一步包括0.8U/μL RNA酶抑制剂。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在使所述单细胞的细胞质内容物和细胞核分离之前，进行震荡和离心处理，以使细胞膜充分通透，同时避免液体粘连在管壁上造成RNA和DNA损失。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述对在所述裂解缓冲液中的细胞质内容物进行转录组扩增，获得转录组测序文库包括以下步骤：采用Smart seq2对所述细胞质内容物中的转录组进行逆转录并进行PCR扩增；采用二代测序建库技术，获得所述转录组测序文库；对所述转录组测序文库进行二代高通量测序。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述对羧酸磁珠吸附的细胞核进行全基因组扩增，获得基因组测序文库包括以下步骤：采用SMOOTH-seq对所述单细胞的全基因组片段化并进行扩增；采用三代测序建库技术，获得所述基因组测序文库；对所述基因组测序文库进行三代高通量测序。

8.根据权利要求7所述的方法，其特征在于，所述三代高通量测序是在Nanopore和/或PacBio三代测序平台上进行的，优选地，在Nanopore三代测序平台上进行。

9.一种分析单细胞中的ecDNA的方法，其特征在于，所述单细胞中的ecDNA的数据来自于权利要求1至8中任一项所述的方法中获得的对基因组测序文库的测序数据，

优选地，对所述基因组测序文库进行三代高通量测序，更优选地是在Nanopore和/或PacBio三代测序平台上进行的。

10.根据权利要求9所述的方法，其特征在于，所述方法包括如下步骤：

从比对文件中提取序列信息；

根据序列信息，对所述序列进行筛选合并处理，找出包含断点的序列和与其相关的序列，进行记录；

从经过处理的序列中寻找断点；

合并样本的断点，得到ecDNA序列的信息；

根据ecDNA序列在单个样本中最小支持序列数和所有样本中最小支持序列数，对所述ecDNA序列信息进行筛选，得到最终ecDNA序列数据；和

整合所得到的最终ecDNA序列数据数据，进行绘图。

11.根据权利要求9或10所述的方法，其特征在于，所述方法包括，输出所述ecDNA序列的信息，所述信息包括基因组区间坐标、环化点坐标、拷贝数、长度、类型和/或基因名称，其中所述类型指所述ecDNA序列的单端或多段环化类型。

12.根据权利要求1至11中任一项所述的方法在分析基因组拷贝数变异和染色体结构变异中的应用。

13.根据权利要求1至11中任一项所述的方法在制备确定待测细胞是否为癌细胞的试剂盒中的应用。

14.根据权利要求1至11中任一项所述的方法在确定ecDNA对基因表达量的调控，染色体结构变异对转录本可变剪切多样性调控，或寻找与癌症进程、预后紧密相关的ecDNA和染色体结构变异中的应用。

15.根据权利要求13或14所述的应用，其特征在于，所述癌症包括胰腺癌、脑胶质瘤和/或肝癌。