CN115066503A

CN115066503A - 使用批量测序数据指导单细胞测序数据的分析

Info

Publication number: CN115066503A
Application number: CN202180009949.6A
Authority: CN
Inventors: 吴捷; 张贻谦
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2020-01-20
Filing date: 2021-01-13
Publication date: 2022-09-16
Also published as: WO2021148283A1; US20230061214A1

Abstract

一种系统(400)，被配置为从单细胞样品生成变异谱和基因表达谱，包括：变异验证数据和基因表达比较数据；单细胞DNA测序数据，包括多个经证实的变异；单细胞RNA测序数据，包括针对样品的基因表达谱；处理器(420)，被配置为：(i)通过以下方式使用变异验证数据验证已标识的变异：将已标识的变异与验证数据进行比较；以及如果变异对应于验证数据，则将经验证的分类状态分配给变异；(ii)将所获得的基因表达数据与所获得的表达比较数据进行比较；以及(iii)基于该比较并且使用投影函数生成针对单细胞样品的最终基因表达谱；以及用户接口(440)，被配置为提供包括已标识的变异和所生成的最终基因表达谱的报告。

Description

使用批量测序数据指导单细胞测序数据的分析

技术领域

本公开总体上涉及用于从单细胞数据中改进变异调用和基因表达估计的方法和系统。

背景技术

单细胞分析是用于以更高分辨率剖析基因组学、转录组学和蛋白质组学的新兴工具。这种相对较新的技术的直接优势在于，它允许研究人员分析不同细胞之间的异质性。例如，即使在来自同一患者的同一组织中，肿瘤一般也是异质性的。这种单细胞分析使研究人员能够研究肿瘤亚克隆之间的差异，以发现生物标记物，并且深入了解肿瘤细胞的进化。

虽然单细胞分析有许多优点，但也有一些主要局限性。其中之一是由于有限的材料和技术性质而产生的稀疏和噪声信号。单细胞DNA-Seq(scDNA-Seq)在扩增提取的有限数量的DNA时一般存在偏差，这导致沿基因组的覆盖不均匀。此外，由于基因组覆盖率较低且不均匀，从单细胞数据中调用突变，尤其是单核苷酸变异(SNV)具有挑战性。

单细胞RNA-Seq(scRNA-Seq)协议，诸如Drop-Seq，基本上对mRNA的3’端进行测序。缺失在scRNA-Seq中很常见，并且在大多数协议中，读取仅覆盖mRNA的3’位点。由于文库制备协议的性质以及在单细胞分辨率下管理RNA的困难，scRNA-Seq数据一般稀疏且有噪声。与通常扩增整个转录本的典型批量样品的传统RNA-Seq协议相比，scRNA-Seq更像数字基因表达(DGE)剖析，具有更多的缺失。此外，由于对数千个细胞进行测序的成本，通常对每个细胞进行较小数目的读取测序。

发明内容

持续需要从单细胞数据生成更准确的变异谱和/或基因表达谱的方法和系统。本公开涉及用于表征来自单细胞数据的多个变异的发明方法和系统，以及用于表征来自单细胞数据的基因表达谱的发明方法和系统。本文中的各种实施例和实施方式涉及从针对多个样品的DNA测序数据中获得包括变异的变异验证数据的系统和方法。通过标识从单细胞获得的DNA测序数据中的变异来分析单细胞样品。通过将变异与变异验证数据进行比较，以及如果变异对应于验证数据，则将经证实的或经验证的分类状态分配给变异，来分析每个已标识的变异。该系统编译经证实的/经验证的已标识的变异，以生成包括针对单细胞样品的已表征DNA序列数据的报告，然后经由用户接口或其他机制提供报告。

本文中的各种实施例和实施方式还涉及获得包括多个基因表达谱的基因表达比较数据的系统和方法。通过从单细胞获得基因表达数据来分析单细胞样品。系统将所获得的基因表达数据与所获得的表达比较数据进行比较。基于该比较并且使用投影函数，系统生成针对单细胞样品的基因表达谱。然后，该系统可生成并且提供包括所生成的针对单细胞样品的基因表达谱的报告。

一般而言，在一个方面，是用于从单细胞样品生成变异谱和基因表达谱的系统。该系统包括：(i)变异验证数据，包括来自DNA测序数据的多个变异；(ii)基因表达比较数据，包括一个或多个基因表达谱；(iii)单细胞DNA测序数据，被用于标识多个变异；(iv)单细胞RNA测序数据，被用于生成针对单细胞样品的基因表达谱；(v)处理器，被配置为：使用变异验证数据验证已标识的多个变异中的至少一些已标识的变异，包括对于每个已标识的变异：将已标识的变异与验证数据进行比较；以及如果变异对应于验证数据，则将经验证的分类状态分配给变异；将所获得的基因表达数据与所获得的表达比较数据进行比较；并且基于比较并且使用投影函数生成针对单细胞样品的最终基因表达谱；以及(vi)用户接口，被配置为提供报告，该报告包括被分配有经验证的分类状态的已标识的变异和所生成的针对单细胞样品的最终基因表达谱。

根据一个实施例，变异验证数据包括从来自相同样品的多个单细胞中的每一个获得的合并的DNA测序数据、从批量DNA测序数据获得的经证实的变异、和/或从公共或私有数据库获得的变异数据。

根据一个实施例，基因表达比较数据包括从来自相同样品的多个单细胞中的每个单细胞获得的合并的基因表达、从批量RNA测序数据获得的基因表达谱、和/或从公共或私有数据库获得的多个基因表达谱。

根据另一方面，是一种用于使用单细胞分析系统表征单细胞样品的DNA序列的方法。该方法包括：(i)获得变异验证数据，变异验证数据包括来自DNA测序数据的多个变异；(ii)获得针对单细胞样品的DNA测序数据；(iii)从DNA测序数据标识DNA测序数据中的多个变异；(iv)使用所获得的变异验证数据验证已标识的多个变异中的至少一些已标识的变异，包括对于每个已标识的变异：将已标识的变异与验证数据进行比较；以及如果变异对应于验证数据，则将经验证的分类状态分配给变异；以及(v)编译至少那些被分配有经验证的分类状态的已标识的变异，以生成包括针对单细胞样品的已表征DNA序列的报告，并且提供该报告。

根据一个实施例，该方法还包括如果变异不对应于验证数据，则将未验证的分类状态分配给变异，并且其中该报告包括一个或多个未验证的变异。

根据一个实施例，分类状态包括验证置信度等级。

根据一个实施例，标识DNA测序数据中的多个变异的步骤包括：使用变异验证数据指导变异调用。

根据一个实施例，单细胞分析系统包括机器学习算法，该机器学习算法被配置为验证在DNA测序数据中标识的变异，其中机器学习算法使用变异验证数据而被训练。

根据另一方面，是一种用于使用单细胞分析系统从单细胞样品生成基因表达谱的方法。该方法包括：(i)获得基因表达比较数据，包括基因表达谱；(ii)获得针对单细胞样品的基因表达数据；(iii)将所获得的基因表达数据与所获得的表达比较数据进行比较；(iv)基于比较并且使用投影函数生成针对单细胞样品的最终基因表达谱；以及(v)生成并且提供包括所生成的针对单细胞样品的基因表达谱的报告。

在各种实施方式中，处理器或控制器可以与一种或多种存储介质(本文中统称为“存储器”，例如易失性和非易失性计算机存储器，诸如RAM、PROM、EPROM和EEPROM、软盘、光盘、磁带等)相关联。在一些实施方式中，存储介质可编码有一个或多个程序，当在一个或多个处理器和/或控制器上执行时，这些程序执行本文论述的功能中的至少一些。各种存储介质可固定在处理器或控制器内，或者可以是可移动的，使得存储在其上的一个或多个程序可加载到处理器或控制器中，以便实施本文所论述的各种方面。本文中术语“程序”或“计算机程序”在一般意义上用于指代可以用于对一个或多个处理器或控制器进行编程的任何类型的计算机代码(例如，软件或微码)。

应理解，上述概念和以下更详细论述的附加概念的所有组合(前提是此类概念不相互矛盾)被视为本文所公开的发明主题的一部分。特别地，出现在本公开末尾的要求保护的主题的所有组合被视为本文所公开的发明主题的一部分。还应理解，本文中明确使用的术语(也可能出现在通过引用并入的任何公开内容中)应被赋予与本文所公开的特定概念最一致的含义。

参考下文所描述的(多个)实施例，各种实施例的这些和其他方面将变得显而易见并得到阐述。

附图说明

在附图中，类似的参考字符一般指不同视图中的相同部分。此外，附图不一定按比例绘制，而是一般将重点放在说明各种实施例的原理上。

图1是根据一个实施例的使用单细胞分析系统从单细胞数据生成更准确变异谱和/或基因表达谱的方法的流程图。

图2是根据一个实施例的用于从单细胞数据生成变异谱的方法的流程图。

图3是根据一个实施例的用于从单细胞数据生成基因表达谱的方法的流程图。

图4是根据一个实施例的用于从单细胞数据生成更准确的变异谱和/或基因表达谱的系统的示意图。

具体实施方式

本公开描述了系统和方法的各种实施例，该系统和方法用于改进从单细胞获得的DNA测序数据的变异分析，并且改进从单细胞获得的RNA测序数据的基因表达谱的生成。更一般而言，申请人已认识到并意识到，提供一种将批量测序数据与单细胞数据相结合的方法，以增强从单细胞数据进行变异调用和基因表达估计将是有益的。为了改进DNA变异调用，该系统标识从单细胞获得的DNA测序数据中的变异。该系统还生成或收集变异验证数据，该数据包括来自针对多个样品的DNA测序数据的变异。通过将每个变异与变异验证数据进行比较；以及如果变异对应于验证数据，则将经验证的分类状态分配给变异，来分析从单细胞测序中标识的变异。该系统编译经验证的已标识的变异以生成包括针对单细胞样品的已表征DNA序列数据的报告，然后经由用户接口或其他机制提供报告。类似地，为了提高从单细胞数据生成的基因表达谱的准确性，系统从单细胞生成基因表达数据。该系统还生成或获得包括多个基因表达谱的基因表达比较数据。通过将所获得的基因表达数据与所获得的基因表达比较数据进行比较，来分析为单细胞生成的基因表达谱。基于该比较并且使用投影函数，系统生成针对单细胞样品的基因表达谱。然后，该系统生成并且提供包括所生成的针对单细胞样品的基因表达谱的报告。

参考图1，在一个实施例中，是用于使用单细胞分析系统从单细胞数据生成更准确的变异谱和/或基因表达谱的方法100的流程图。单细胞分析系统可以是本文所描述或以其他方式设想的任何系统，并且包括可以包括本文所描述或以其他方式设想的任何组件。

在该方法的步骤110，获得样品，将从该样品中分析一个或多个单细胞。样品可以是包含一种或多种用于分析的细胞的任何样品，并且可从任何生物体中获得。例如，根据一个实施例，单细胞是肿瘤细胞。肿瘤样品可以是从患者的肿瘤中获得的任何样品，或者从怀疑是肿瘤或包括肿瘤的组织或位置获得的任何样品。例如，肿瘤可以被定义为多个癌细胞，并且可以是集中的或扩散的。可以使用任何细胞收集方法或系统来收集肿瘤样品，诸如通过活组织检查或其他肿瘤收集方法。可从肿瘤样品中提取一个或多个单细胞用于单细胞分析。

在该方法的步骤112，单细胞分析系统从样品的基因组信息的至少一部分来生成测序数据，或以其他方式接收从样品获得的测序数据。从来自样品中获得的细胞中提取DNA和/或RNA，并且对遗传物质进行测序。测序可以是全基因组测序、全外显子组测序、靶向外显子组测序、靶向SNP分析、和/或任何其他类型的测序。对于DNA分析，测序可以被设计成能够标识变异。对于RNA分析，测序可以被设计成能够生成基因表达谱。

根据一个实施例，单细胞分析系统包括测序平台，该测序平台被配置为从样品中获得测序数据。测序平台可以是任何测序平台，包括但不限于本文所描述或以其他方式设想的任何系统。例如，测序平台可以是实时单分子测序平台，诸如基于孔的测序平台，尽管许多其他测序平台是可能的。可以使用任何制备方法制备样品和/或其中的核酸以进行测序，这可以至少部分取决于测序平台。根据一个实施例，在许多其他制备或治疗中，可提取、纯化和/或扩增核酸。

根据一个实施例，单细胞分析系统接收由测序平台从样品中获得的测序数据。例如，单细胞分析系统可以与独立于单细胞分析系统的本地或远程测序平台通信，或者以其他方式从该平台接收测序数据。

DNA和/或RNA测序数据可以立即用于如本文所描述或以其他方式设想的分析，和/或测序数据可以被储存以供以后分析。例如，所获得的测序数据可以直接送入单细胞分析系统进行分析，或者可以本地或远程存储在单细胞分析系统内或与单细胞分析系统分离，以供以后分析。所生成的和/或所接收的测序数据可以被存储在本地或远程数据库中，供单细胞分析系统使用。例如，单细胞分析系统包括可以包括存储测序数据的数据库，和/或可以与存储测序数据的数据库通信。这些数据库可以位于单细胞分析系统中，也可以位于远离系统的位置，诸如在云存储装置和/或其他远程存储装置中。

在该方法的步骤114，单细胞分析系统分析DNA测序数据，以标识单细胞样品内的变异。所生成的和/或所接收的DNA测序数据包括多个不同的变异类型，包括但不限于单核苷酸变异、插入、缺失、拷贝数变异、和基因融合。许多其他变异类型也是可能的。可以使用许多不同的工具来标识变异。例如，GATK是可以用于标识变异的一个软件包的示例。可以使用多个系统检测基因融合，包括但不限于具有Breakpointer的dRanger、FusionMap和/或其他工具。可以使用各种系统检测其他结构变异，诸如倒位、易位、和其他，包括但不限于SVDetect、BreakDancer、和/或其他工具。

在该方法的步骤116，单细胞分析系统分析RNA测序数据，以生成针对单细胞样品的基因表达谱。所生成的和/或所接收的RNA测序数据还包括表达数据，包括但不限于基因表达数据、转录表达数据、外显子表达数据、剪接数据、和/或等位基因特异性表达数据。使用任何方法从RNA测序数据中获得、分析、报告、和/或储存表达数据。表达数据包括可以包括关于等位基因特异性表达(ASE)的信息；等位基因特异性剪接(ASS)；外显子、转录本和基因(包括长非编码RNA，即lncRNA)表达；差异外显子、转录本和基因(包括lncRNA)表达。可以利用许多不同的工具从RNA测序数据生成针对单细胞的基因表达谱。

根据一个实施例，用于标识scDNA-Seq数据和/或scRNA-Seq数据中的变异的工具包括可以被调整的变异调用阈值或过滤器。由于从scDNA-Seq数据和/或scRNA-Seq数据中标识变异的固有困难，针对该工具的阈值或过滤器可以降低或以其他方式修改。这可有助于标识变异。

根据另一实施例，在scDNA-Seq数据和/或scRNA-Seq数据中标识变异不仅仅使用单细胞分析。例如，根据一个实施例，如果针对相关单细胞的批量测序数据可用，则从批量测序数据标识变异以获得变异的高置信度列表。作为另一示例，来自两个或更多相关单细胞(通常来自同一群体)的scDNA-Seq数据和/或scRNA-Seq数据可以被合并，并且合并后的数据可以用于标识变异。可将来自两个或更多来源的变异列表进行组合，以生成更全面的变异列表。例如，来自批量测序数据、两个或更多单细胞、和/或其他来源的变异列表可以被组合为一个全面的变异列表。

在该方法的步骤120，单细胞分析系统获得用于变异调用和/或验证目的的比较数据。对于DNA分析，单细胞分析系统获得或接收变异验证数据，包括来自针对多个样品的DNA测序数据的多个变异。经验证的变异可从公共或私有数据库(诸如dbSNP和ClinVar)中收集，或者可从高质量的公共或私有数据集(诸如TCGA、GIAB等)中获取。根据一个实施例，如本文所描述或以其他方式设想，该比较数据可以作为参考和/或用作附加数据，以提高单细胞分析中变异调用的质量。

根据另一实施例，为验证目的获得的比较数据包括来自相同或类似样品源的批量测序数据。该批量测序数据可从另一来源获得，或者可从分析单细胞的相同样品中通过批量测序获得。作为另一示例，为验证目的获得的比较数据包括来自两个或更多单细胞分析的合并的数据。可从相同或类似的样品源分析两个或更多单细胞，并且可以组合来自这两个或更多单细胞分析的变异。

对于RNA分析，单细胞分析系统获得或接收包括多个基因表达谱的基因表达比较数据。基因表达谱可从公共或私有数据库(诸如CCLE)中收集，或者可从针对类似样品的高质量公共或私有基因表达剖析数据集中计算。根据一个实施例，如本文所描述或以其他方式设想的，该比较数据可以用作参考和/或可以用作附加数据，以增强针对单细胞分析的基因表达估计。

根据一个实施例，在步骤120中收集和/或标识的比较数据可以用于协助方法的步骤114中的变异调用和/或方法的步骤116中的基因表达谱生成。例如，比较数据包括可以包括一个或多个类似于单细胞样品的样品，因此在这些一个或多个样品中标识的变异可以与单细胞样品中的变异更相关，并且可以由调用工具用于改进单细胞样品中的调用。

在该方法的步骤122，将来自单细胞分析的已标识的变异与用于验证的比较数据进行比较。根据一个实施例，该比较的结果验证或拒绝来自单细胞样品的一个或多个已标识的变异。可以使用本文所描述或设想的任何方法将来自单细胞分析的已标识的变异与比较数据进行比较。

对于DNA分析，单细胞分析系统将多个已标识的变异中的一个或多个已标识的变异与验证数据进行比较，并且为变异分配变异分类状态。例如，在该方法的步骤124，如果变异对应于验证数据，则系统可将经验证的分类状态分配给变异。如果在单细胞分析和比较数据二者中都发现变异，则变异可能对应于验证数据，比较数据可以是所获得的变异数据库数据、批量测序数据、和/或单细胞分析池，以及其他来源。变异分类状态包括可以包括多个状态。例如，状态可以是标识符，诸如可能已验证、未验证、高置信度、低置信度等。此外，将变异分类为已验证或类似状态可以包括未经最终验证的状态。许多标识符、分类器和标签均是可能的。

根据一个实施例，单细胞分析系统可以使用一个或多个便于分析的操作参数，来执行比较和分类状态分配。例如，系统可在批量测序数据可以代表单细胞池的假设或结论下运行。备选地或附加地，该系统可在这样的假设或结论下运行，即从相同样品(典型地非常接近)获得的单细胞子集将共享相同的变异。备选地或附加地，该系统可在这样的假设或结论下运行，即从批量测序数据中调用的大多数变异应至少存在于几个(n)单细胞中，尽管当然也有例外，并且可在单细胞中发现私有CNV和其他变异。这些操作参数可以显著促进单细胞分析中标识的变异的分析。

根据一个实施例，单细胞分析系统可以基于使用各种不同方法的比较将变异分类状态分配给变异，这些方法可单独使用或以任何数目的不同组合使用。例如，系统可将单细胞分析中标识的变异与包括批量测序和/或合并的数据中标识的变异的比较数据进行比较，并且如果在批量测序和/或合并的数据中发现单细胞变异，则可给予其变异分类状态，诸如经验证或经证实，或者可相应地标记或以其他方式标识，或者给予指示准确性或验证的高置信度的置信度得分。类似地，如果在批量测序和/或合并的数据中未发现单细胞变异，则可给予其变异分类状态，诸如未证实的或未验证的，或者可相应地标记或以其他方式标识，或者给予指示准确性或证实/验证的低置信度或无置信度的置信度得分。另一示例是，系统可以直接验证从单细胞中的批量或合并的测序数据调用的变异，而不是比较变异，这增加了单细胞数据中的灵敏度。

根据另一实施例，机器学习算法可以用于学习真实变异的属性，诸如批量或合并的数据中的高置信度变异、以及假变异，诸如仅存在于极少量细胞中的变异。使用这些训练数据，机器学习算法可生成模型，以将单细胞分析中标识的变异分类为真和假。当然，标识符“真”和“假”可以是任何标识符，诸如已验证的和未验证的、高置信度和低置信度，等等。机器学习算法可以使用多个特征中的任何，包括但不限于碱基质量、碱基在读取中的位置、变异的位置、核苷酸变化类型、位置深度、变异频率等。

参考图2，其为示出使用单细胞分析系统进行DNA变异分析的方法200的一个可能实施例的流程图。在步骤210，获得一个或多个样品用于分析和/或证实/验证。在220，分析单细胞以生成scDNA-seq数据。在230，对样品的至少一部分执行批量测序以生成批量DNA-seq数据。在240，分析批量DNA-seq数据以标识高质量变异。该步骤还包括可以包括来自其他公共或私有来源的变异数据，诸如来自公共或私有数据库，和/或来自合并的单细胞分析，以及其他可能的来源。在250，如本文所描述或以其他方式设想的，已标识的高质量变异用于指导来自scDNA-seq数据的变异调用。类似地，在步骤260，已标识的高质量变异用于证实或验证如本文所描述或以其他方式设想的在scDNA-seq数据中标识的变异。在270，编译来自scDNA-seq数据的经验证的、高置信度的或以其他方式类似标记的变异。

部分或全部变异和/或变异标签或分类可以立即用于分析或生成本文所描述或以其他方式设想的报告，和/或可以存储数据以供以后分析。例如，变异和/或变异标签或分类可以本地或远程存储在单细胞分析系统内或与单细胞分析系统分离，以供以后分析。例如，单细胞分析系统包括可以包括存储变异和/或变异标签或分类的数据库，和/或可以与存储数据的数据库通信。

对于RNA分析，单细胞分析系统将从单细胞分析的scRNA-Seq数据生成的基因表达数据与比较数据进行比较，并且生成单细胞基因表达谱。例如，在该方法的步骤126，系统利用本文所描述或以其他方式设想的投影函数f’，来生成单细胞基因表达谱。

根据一个实施例，当比较单细胞的scRNA-Seq数据与批量测序数据时，系统必须考虑或说明单细胞和批量RNA-Seq的不同协议。由于协议不同，来自样品的scRNA-Seq数据不会产生与来自相同样品的批量测序数据相同的基因表达谱。因此，有必要弥合scRNA-Seq数据和批量测序数据(或其他比较数据)之间的差距。如本文所描述或以其他方式设想的，可开发一种功能，将来自单细胞数据的基因表达谱投影到与来自批量测序数据的谱相当的谱。

根据一个实施例，该系统包括从来自相同样品S的n个细胞测序的scRNA-Seq数据。对于每个细胞i，存在基因表达谱e_i。此外，对于从其获得表达谱E_b的相同样品，存在批量RNA-Seq数据。e_i和E_b之间存在以下关系：

其中S是对来自单细胞的表达值求和的函数，并且f是将来自单细胞的基因表达谱投影到批量样品的投影函数。投影函数可以使用E_b和

拟合，然后该函数可以用于将单个单细胞表达谱e_i投影到与批量测序基因表达谱E_i相当的谱：

E_i＝f(e_i) (等式2)

类似地，用于将基因表达谱从批量样品转换为单细胞数据的投影函数f’也可以被定义为：

e_i＝f′(E_i) (等式3)

因此，来自任一技术的谱均可以被转换为另一技术的相当的谱。

参考图3，其为示出使用单细胞分析系统生成RNA基因表达谱的方法300的一个可能实施例的流程图。在步骤310，获得一个或多个样品用于基因表达谱生成。在320，分析单细胞以生成scRNA-Seq数据，并且在330，该scRNA-Seq数据用于生成单细胞基因表达谱。在340，对样品的至少一部分执行批量测序以生成批量RNA-Seq数据。在350，分析批量RNA序列数据以生成批量RNA序列基因表达谱。该步骤还可以来自其他公共或私有来源的基因表达谱，诸如来自公共或私有数据库、和/或来自诸如步骤360所示的合并的单细胞分析、以及其他可能的来源。在370，如本文所描述或以其他方式设想的，将批量RNA-seq基因表达谱和/或合并的单细胞基因表达谱与单细胞基因表达谱一起用于投影函数，以生成与批量RNA-seq基因表达谱相当的最终单细胞基因表达谱。

最终单细胞基因表达谱可以立即用于分析或生成本文所描述或以其他方式设想的报告，和/或可以存储数据以供以后分析。例如，单细胞基因表达谱可以本地或远程存储在单细胞分析系统内或与单细胞分析系统分离，以供以后分析。例如，单细胞分析系统包括可以包括存储单细胞基因表达谱的数据库，和/或可以与存储数据的数据库通信。

在该方法的步骤128，单细胞分析系统生成并且提供包括经分类的变异和/或单细胞基因表达谱的报告。该报告包括可以包括如本文所描述或以其他方式设想的生成或获得的任何数据或信息。报告可以是电子版或打印版的，并且可以被存储。例如，报告包括可以包括基于文本的文件或其他格式。该报告包括可以包括可搜索特定的变异或基因的数据库。报告可以是可排序的，或者为组织而另外配置，以允许信息的容易分析和提取。

根据一个实施例，单细胞分析系统可在屏幕或其他显示方法上直观地显示关于多个变异中的变异或多个变异和已表征表达状态的信息。临床医生或研究人员可能只对一个或多个变异感兴趣，因此可以指示或以其他方式设计或编程变异分析系统，以仅显示为一个或多个变异获得的信息。

根据一个实施例，报告或信息可以存储在临时和/或长期存储器或其他存储装置中。附加地和/或备选地，可将报告或信息传达或以其他方式传输到另一系统、接收者、过程、设备、和/或其他本地或远程位置。

根据一个实施例，一旦生成报告或信息，就可将其提供给研究人员、临床医生、或其他用户，并且以基于所提供的信息审查和实施动作或响应。例如，研究人员或临床医生可以利用该信息挖掘样品中的变异和/或基因表达，诸如患者或研究对象的肿瘤。用户可手动审查报告，以审查所有变异或基因表达信息，或者通过过滤和分级来标识特定变异或基因表达，或者可以使用软件或其他方法。标识变异和分析基因表达是疾病研究、疾病诊断、和疾病治疗的一个重要方面。因此，临床医生可以例如基于报告的输出来诊断遗传性疾病或假设特定遗传性疾病的存在。临床医生可以基于报告的输出来附加地或备选地地选择特定治疗。

参考图4，在一个实施例中，是单细胞分析系统400的示意图，该单细胞分析系统被配置为使用单细胞分析系统从单细胞数据生成更准确的变异谱和/或基因表达谱。单细胞分析系统400可以是本文所描述或以其他方式设想的任何系统，并且包括可以包括本文所描述或以其他方式设想的任何组件。

根据一个实施例，系统400包括经由一条或多条系统总线412互连的以下一个或多个：处理器420、存储器430、用户接口440、通信接口450、和存储装置460。在一些实施例中，诸如系统包括或直接实施DNA和/或RNA测序器或测序平台的那些实施例中，硬件可以包括附加的测序硬件415。将理解，图4在一些方面构成抽象，并且系统400的组件的实际组织可不同于所示的且比所示的更复杂。

根据一个实施例，系统400包括处理器420，该处理器能够执行存储在存储器430或存储装置460中的指令，或以其他方式处理数据，例如，执行该方法的一个或多个步骤。处理器420可由一个或多个模块形成。处理器420可采取任何合适的形式，包括但不限于微处理器、微控制器、多个微控制器、电路、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、单处理器、或多个处理器。

存储器430可采用任何合适的形式，包括非易失性存储器和/或RAM。存储器430可以包括各种存储器，诸如L1、L2、或L3高速缓存或系统存储器。因此，存储器430可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)、或其他类似的存储器设备。除其他外，存储器可以存储操作系统。RAM由处理器用于临时存储数据。根据一个实施例，操作系统可含有代码，该代码当由处理器执行时，控制系统400的一个或多个组件的操作。清楚地，在处理器以硬件实施本文所描述的功能中的一个或多个功能的实施例中，可以省略在其他实施例中描述为对应于此类功能性的软件。

用户接口440可以包括一个或多个用于实现与用户通信的设备。用户接口可以是允许传输和/或接收信息的任何设备或系统，并且可以包括用于接收用户命令的显示器、鼠标、和/或键盘。在一些实施例中，用户接口440可以包括可经由通信接口450呈现给远程终端的命令行接口或图形用户接口。用户接口可以位于系统的一个或多个其他组件的位置，或者可以位于远离系统并且经由有线和/或无线通信网络进行通信的位置。

通信接口450可以包括一个或多个设备，用于实现与其他硬件设备的通信。例如，通信接口450可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。此外，通信接口450可以实施用于根据TCP/IP协议进行通信的TCP/IP堆栈。通信接口450的各种备选或附加硬件或配置将是清楚地。

存储装置460可以包括一个或多个机器可读存储介质，诸如只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备或类似存储介质。在各种实施例中，存储装置460可以存储由处理器420执行的指令或处理器420操作的数据。例如，存储装置460可以存储用于控制系统400的各种操作的操作系统461。在系统400实施测序器并且包括测序硬件415的情况下，存储装置460可以包括用于操作测序硬件415的测序指令462以及由测序硬件415获得的测序数据463，尽管测序数据463可从相关联测序平台以外的来源获得。

显然地，存储在存储装置460中描述的各种信息可附加地或备选地存储在存储器430中。在这方面，存储器430也可以被视为构成存储设备，并且存储装置460可以被视为存储器。各种其他布置将是明显的。此外，存储器430和存储装置460均可以被视为非瞬态机器可读介质。如本文所用，术语非瞬态将被理解为排除瞬态信号，但包括所有形式的存储，包括易失性和非易失性存储器。

虽然单细胞分析系统400被显示为包括每种所述组件中的一种，但各种组件可在各种实施例中复制。例如，处理器420可以包括多个微处理器，这些微处理器被配置为独立执行本文所描述的方法，或者被配置为执行本文所描述的方法的步骤或子例程，使得多个处理器协作以实现本文所描述的功能。此外，在云计算系统中实施系统400的一个或多个组件的情况下，各种硬件组件可以属于单独的物理系统。例如，处理器420可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。许多其他变型和配置是可能的。

根据一个实施例，单细胞分析系统400的存储装置460可以存储一个或多个算法和/或指令，以执行本文所描述或以其他方式设想的方法的一个或多个功能或步骤。例如，处理器420包括可以包括比较数据指令464、变异分析指令465、变异验证指令466、基因表达谱生成指令467、和/或报告指令468。

根据一个实施例，比较数据指令464引导系统获得用于变量调用和/或验证目的的比较数据。系统可从多个不同的可能来源中的任何一个获得比较数据。例如，对于DNA分析，单细胞分析系统可以获得或接收变异验证数据，包括来自针对多个样品的DNA测序数据的多个变异。变异数据还包括可以包括批量测序数据、合并的单细胞分析数据、来自一个或多个私有或公共来源的变异数据、和/或来自一个或多个其他来源的变异数据。例如，对于RNA分析，单细胞分析系统可以获得或接收包括多个基因表达谱的基因表达比较数据。基因表达数据还包括可以包括来自批量测序的基因表达数据、来自合并的单细胞分析数据、或来自一个或多个私有或公共来源的基因表达数据、和/或来自一个或多个其他来源的基因表达数据。

根据一个实施例，变异分析指令465引导系统从单细胞样品中标识DNA测序数据中的一个或多个变异，和/或分析RNA测序数据以生成针对单细胞样品的基因表达谱。可以利用任何方法或工具来标识变异或生成基因表达谱。根据一个实施例，变异分析指令465引导系统使用可调节的变异调用阈值或过滤器来标识scDNA-Seq数据和/或scRNA-Seq数据中的变异。根据另一实施例，变异分析指令465引导系统使用不仅仅是单细胞分析来标识scDNA-Seq数据和/或scRNA-Seq数据中的变异。例如，根据一个实施例，如果针对相关单细胞的批量测序数据可用，则从批量测序数据标识变异以获得变异的高置信度列表。作为另一示例，来自两个或更多相关单细胞(通常来自同一群体)的scDNA-Seq数据和/或scRNA-Seq数据可以被合并，并且合并后的数据可以用于标识变异。可将来自两个或更多来源的变异列表进行组合，以生成更全面的变异列表。例如，来自批量测序数据、两个或更多单细胞、和/或其他来源的变异列表可以被组合为全面的变异列表。

根据一个实施例，变异验证指令466引导系统验证单细胞数据中标识的一个或多个变异。例如，对于scDNA-seq数据，将来自单细胞分析的已标识的变异与比较数据进行比较以进行验证。根据一个实施例，比较结果验证或拒绝来自单细胞样品的一个或多个已标识的变异。对于DNA分析，单细胞分析系统将已标识的变异中的一个或多个已标识的变异与验证数据进行比较，并且为变异分配变异分类状态。例如，如果变异对应于验证数据，则系统可将经证实的分类状态分配给变异。单细胞分析系统可以基于使用各种不同方法的比较将变异分类状态分配给变异，这些方法可单独使用或以任何数目的不同组合使用。例如，系统可将单细胞分析中标识的变异与包括在批量测序和/或合并的数据中标识的变异的比较数据进行比较，并且如果在批量测序和/或合并的数据中发现单细胞变异，则可以给予其变异分类状态，诸如经证实的，或者可以相应地标记或以其他方式标识，或者给予指示准确性或证实的高置信度的置信度得分。类似地，如果在批量测序和/或合并的数据中未发现单细胞变异，则可以给予其变异分类状态，诸如未证实的，或者可以相应地标记或以其他方式标识，或者给予指示准确性或证实的低置信度或无置信度的置信度得分。另一示例是，系统可以直接验证从单细胞中的批量或合并的测序数据调用的变异，而不是比较变异，这增加了单细胞数据中的灵敏度。

根据一个实施例，基因表达谱生成指令467引导系统将从单细胞分析的scRNA-Seq数据生成的基因表达数据与比较数据进行比较，并且生成单细胞基因表达谱。例如，如本文所描述或以其他方式设想的，该系统可以利用投影函数f’，来生成单细胞基因表达谱。投影函数可以利用由批量RNA序列数据生成的批量RNA序列基因表达谱。类似地，投影函数可以利用来自其他公共或私有来源的基因表达谱，诸如来自公共或私有数据库，和/或来自合并的单细胞分析，以及其他可能的来源。

根据一个实施例，报告指令468引导系统生成包括关于由单细胞分析系统执行的分析的信息的用户报告。例如，报告包括可以包括如本文所描述或以其他方式设想的生成或获得的任何数据或信息。报告可以是电子版或打印版的，并且可以被存储。例如，报告包括可以包括基于文本的文件或其他格式。该报告包括可以包括可搜索特定变异或基因的数据库。报告可以是可排序的，或者为组织而另外配置，以允许信息的容易分析和提取。

报告指令468可以引导系统将所生成的报告或信息存储在临时和/或长期存储器或其他存储装置中。这可以是系统400内的本地存储装置或与系统400相关联的本地存储装置、或者可以是从系统400或经由系统400接收报告或信息的远程存储装置。附加地和/或备选地，可将报告或信息传达或以其他方式传输到另一系统、接收者、过程、设备、和/或其他本地或远程位置。

报告指令468可以引导系统向用户或其他系统提供所生成的报告。例如，单细胞分析系统可在用户接口上直观地显示关于变异和/或基因表达的信息，用户接口可以是屏幕或其他显示器。临床医生或研究人员可能只对一个或多个变异或基因感兴趣，因此可以指示或以其他方式设计或编程变异分析系统，以仅显示为一个或多个变异或基因获得的信息。

根据一个实施例，本文所描述或以其他方式设想的单细胞分析系统和方法使研究人员、临床医生、或其他用户能够更准确地确定遗传样品的基因型和基因表达谱，从而在研究、诊断、治疗、和/或其他决策中实施该信息。这显著改善了研究人员、临床医生、或其他用户的研究、诊断、和/或治疗决策。这对于癌症诊断、治疗、和研究尤其重要，这是单细胞分析最常见的用途之一。

值得注意的是，本文所描述的方法和系统包括不同的限制，每个限制包括并且分析数百万条信息。例如，下一代DNA测序数据包括数百万甚至数十亿次读数。同样，根据Illumina的说法，“大多数(RNA-Seq研究)需要每样品读取5百万-2亿次读数，这取决于生物体的复杂性和大小。”因此，在比对和变异调用期间，标识针对细胞样品的scDNA-seq数据和scRNA-seq数据中的变异(以及批量、合并和/或以其他方式获得的比较数据)将包括数百万甚至数十亿次比较和计算。类似地，将scDNA-seq和scRNA-seq数据中的已标识的变异与细胞样品与比较数据进行比较将包括数百万甚至数十亿次比较和计算。仅仅是这些步骤，不算本文所描述或以其他方式设想的其他步骤，就构成了数百万或数十亿个比较点，这是人类大脑所不具备的，即使用钢笔和铅笔也无法完成的。

本文定义和使用的所有定义应理解为控制字典定义、通过引用合并的文件中的定义、和/或所定义的术语的普通含义。

除非明确指出相反，否则本说明书和权利要求书中使用的不定冠词“a(一)”和“an(一个)”应理解为意指“至少一个(at least one)”

本说明书和权利要求书中使用的短语“和/或(and/or)”应理解为意指如此连接的元素中的“任一个或两个(either or both)”，即，在一些情况下连接存在，而在其他情况下分离存在的元素。用“和/或”列出的多个元素应以相同的方式进行解释，即，“一个或多个(one or more)”如此连接的元素。除“和/或”条款中明确标识的元素外，还可任选地存在其他元素，无论是与明确标识的那些元素相关还是无关。

如本说明书和权利要求书中所用，“或(or)”应理解为与上述定义的“和/或”具有相同的含义。例如，当分隔列表中的项目时，“或”或“和/或”应被解释为包括性的，即包括至少一个，但也包括一个以上的多个或一系列元素，以及任选地，附加的未列出的项目。只有明确指示相反的术语，诸如“仅其中的一个(only one of)”或“恰好其中的一个(exactlyone of)”，或者当在权利要求中使用时，“由...组成(consisting of)”，将指包括多个或一系列元素中的恰好一个元素。一般而言，如本文所用，术语“或”仅应被解释为在排它性术语诸如“任一个”、“其中的一个”、“仅其中的一个”或“恰好其中的一个”之前表示排它性的替代物(即“一个或另一个，但不是两者(one or the other but not both)”)。

如本文在说明书和权利要求书中使用的，短语“至少一个”参考一个或多个元素的列表，应理解为意指从元素列表中的元素中的任何一个或多个选择的至少一个元素，但不一定包括元素列表内具体列出的每个元素中的至少一个，也不排除元素列表中元素的任何组合。该定义还允许除了在短语“至少一个”所指的元素列表中具体标识的元素之外，元素可任选地存在，无论这些元素与具体标识的那些元素相关还是无关。

还应理解，除非明确指示相反的情况，否则在本文中要求的包括多个步骤或动作的任何方法中，该方法的步骤或动作的顺序不必限于该方法的步骤或动作的叙述顺序。

在权利要求书以及上述说明书中，所有过渡短语，例如“包括(comprising)”、“包括(including)”、“携带(carrying)”、“具有(having)”、“含有(containing)”、“涉及(involving)”、“持有(holding)”、“由...构成(composed of)”等，应理解为开放式的，即意指包括但不限于。只有过渡短语“由...组成”和“基本上由...组成(consistingessentially of)”应分别为封闭或半封闭的过渡短语。

虽然本文描述和说明了若干个发明实施例，但本领域的普通技术人员将很容易设想用于执行功能和/或获得本文所述结果和/或一个或多个优点的各种其他手段和/或结构，并且此类变化和/或修改中的每一个均被视为在本文所描述的发明实施例的范围内。更一般地，本领域技术人员将容易理解，本文中描述的所有参数、尺寸、材料和配置均意指示例性的，并且实际参数、尺寸、材料和/或配置将取决于使用本发明教导的具体应用。本领域技术人员将认识到，或仅使用常规实验就能够确定本文所描述的特定发明实施例的许多等效物。因此，应理解，上述实施例仅以示例的方式呈现，并且在所附权利要求书及其等效物的范围内，本发明实施例可按不同于具体描述和要求的方式实施。本公开的发明性实施例针对本文所描述的每个单独特征、系统、物品、材料、套件和/或方法。此外，如果两个或更多此类特征、系统、物品、材料、套件和/或方法不相互矛盾，则它们的任何组合均包括在本公开的发明范围内。

Claims

1.一种单细胞分析系统(400)，被配置为从单细胞样品生成变异谱和基因表达谱，所述单细胞分析系统包括：

变异验证数据，包括来自DNA测序数据的多个变异；

基因表达比较数据，包括一个或多个基因表达谱；

单细胞DNA测序数据，被用于标识多个变异；

单细胞RNA测序数据，被用于生成针对所述单细胞样品的基因表达谱；

处理器(420)，被配置为：(i)使用所述变异验证数据来验证已标识的所述多个变异中的至少一些已标识的变异，包括对于每个已标识的变异：将所述已标识的变异与所述验证数据进行比较；以及如果所述变异对应于所述验证数据，则将经验证的分类状态分配给所述变异；(ii)将所获得的所述基因表达数据与所获得的所述表达比较数据进行比较；以及(iii)基于所述比较并且使用投影函数生成针对所述单细胞样品的最终基因表达谱；以及

用户接口(440)，被配置为提供报告，所述报告包括被分配有经验证的分类状态的所述已标识的变异和所生成的针对所述单细胞样品的所述最终基因表达谱。

2.根据权利要求1所述的系统，其中所述变异验证数据包括：从来自相同样品的多个单细胞中的每个单细胞获得的合并的DNA测序数据、从批量DNA测序数据获得的经证实的变异、和/或从公共或私有数据库获得的变异数据。

3.根据权利要求1所述的系统，其中所述基因表达比较数据包括：从来自相同样品的多个单细胞中的每个单细胞获得的合并的基因表达、从批量RNA测序数据获得的基因表达谱、和/或从公共或私有数据库获得的多个基因表达谱。

4.一种用于使用单细胞分析系统(400)表征单细胞样品的DNA序列的方法(100)，包括：

获得(120)变异验证数据，所述变异验证数据包括来自DNA测序数据的多个变异；

获得(112)针对所述单细胞样品的DNA测序数据；

从DNA测序数据标识(114)所述DNA测序数据中的多个变异；

使用所获得的所述变异验证数据来验证已标识的所述多个变异中的至少一些已标识的变异，包括对于每个已标识的变异：(i)将所述已标识的变异与所述验证数据进行比较(122)；以及(ii)如果所述变异对应于所述验证数据，则将经验证的分类状态分配(124)给所述变异；以及

编译(128)至少那些被分配有经验证的分类状态的已标识的变异，以生成包括针对所述单细胞样品的已表征DNA序列的报告，并且提供所述报告。

5.根据权利要求4所述的方法，还包括：如果所述变异不对应于所述验证数据则将未验证的分类状态分配给所述变异的步骤，并且其中所述报告包括一个或多个未验证的变异。

6.根据权利要求4所述的方法，其中所述分类状态包括验证置信度等级。

7.根据权利要求4所述的方法，其中所述变异验证数据包括：从来自相同样品的多个单细胞中的每个单细胞获得的合并的DNA测序数据。

8.根据权利要求4所述的方法，其中所述变异验证数据包括：从批量DNA测序数据获得的经证实的变异。

9.根据权利要求4所述的方法，其中所述变异验证数据包括：从公共或私有数据库获得的变异数据。

10.根据权利要求4所述的方法，其中标识所述DNA测序数据中的多个变异的步骤包括：使用所述变异验证数据指导变异调用。

11.根据权利要求4所述的方法，其中所述单细胞分析系统包括机器学习算法，所述机器学习算法被配置为验证在所述DNA测序数据中标识的变异，其中所述机器学习算法系使用所述变异验证数据而被训练。

12.一种用于使用单细胞分析系统(400)从单细胞样品生成基因表达谱的方法(100)，包括：

获得(120)基因表达比较数据，包括基因表达谱；

获得(114)针对所述单细胞样品的基因表达数据；

将所获得的所述基因表达数据与所获得的所述表达比较数据进行比较(122)；

基于所述比较并且使用投影函数生成(126)针对所述单细胞样品的最终基因表达谱；以及

生成并且提供(128)包括所生成的针对所述单细胞样品的所述基因表达谱的报告。

13.根据权利要求12所述的方法，其中所述基因表达比较数据包括：从来自相同样品的多个单细胞中的每个单细胞获得的合并的基因表达。

14.根据权利要求12所述的方法，其中所述基因表达比较数据包括：从批量RNA测序数据获得的基因表达谱。

15.根据权利要求12所述的方法，其中所述基因表达比较数据包括：从公共或私有数据库获得的多个基因表达谱。