CN114391042A

CN114391042A - 用于将单细胞成像与rna转录组学相关联的系统和方法

Info

Publication number: CN114391042A
Application number: CN202080060771.3A
Authority: CN
Inventors: 杰奎琳·杜瓦尔; 布兰登·汤普森; 彼得·艾伦·西姆斯; 袁锦洲; 刘周泽蕊; 多乌坎·米兹拉克; 史蒂文·C·格布哈特; 彼得·格林·布恩
Original assignee: Cell Microsystems Inc; Columbia University in the City of New York
Current assignee: Cell Microsystems Inc; Columbia University in the City of New York
Priority date: 2019-06-27
Filing date: 2020-06-26
Publication date: 2022-04-22
Also published as: WO2020264387A1; CA3145243A1; US20230212556A1; JP2022538359A; EP3990658A4; EP3990658A1

Abstract

用于将单细胞成像数据与RNA转录组学相关联的系统和方法。将单个细胞分离到微孔中，该微孔具有在表面结合有寡核苷酸的微珠。每个寡核苷酸都包括对于该珠唯一的细胞识别光学条形码和在细胞裂解后捕获RNA的结合序列。该系统被配置为将单个细胞加载到微阵列中，并将细胞裂解缓冲液和其它试剂流入微阵列，以进行RNA文库样品制备。该系统还被配置用于将与细胞识别光学条形码互补并被光学标记的光学杂交探针流到微孔阵列上，并且用于响应所述探针获得微孔的图像。该系统和独特的细胞识别光学条形码以及互补光学杂交探针促进了微孔阵列上存在的细胞的表型成像与单细胞全转录组测序之间的连接。

Description

用于将单细胞成像与RNA转录组学相关联的系统和方法

优先权要求

本申请要求2019年6月27日提交的美国临时申请序列号62/867,830的权益，其公开内容通过引用以其整体并入本文。

技术领域

本说明书一般地涉及用于将单细胞成像与全基因组RNA转录谱相关联的自动化系统和方法。

背景技术

微流体和cDNA条形码的最新进展已经导致单细胞RNA-Seq(scRNA-seq)的通量显著增加[1-5]。但是，与早期或可扩展性较低的技术[6-8]不同，这些新工具没有提供一种直截了当的方式来将从单个活细胞获得的表型信息与其表达谱直接联系起来。尽管如此，基于微孔的scRNA-seq实现与多种表型测量兼容，所述表型测量包括活细胞成像、免疫荧光和蛋白质分泌测定[3,9-12]。这些方法涉及在微制造室阵列中将单个细胞和条形码RNA捕获珠共封装。因为条形码珠随机分布到微孔中，所以不能直接将在微孔中测量的表型与其相应的表达谱关联起来。

本公开提供用于将单细胞成像数据与全基因组RNA转录谱相关联的自动化系统和方法。

发明内容

本说明书描述了用于自动化单细胞成像和样品制备的方法和系统，其使单细胞成像数据与RNA转录组学相关联。示例系统包括仪器组件，该仪器组件包括流体子系统、热子系统和成像子系统，该成像子系统包括被配置用于保持和扫描微孔阵列的机动载物台。该系统包括耦接(couple，耦合)到仪器组件的控制子系统，并且该控制子系统被配置用于执行操作。所述操作包括使用流体子系统将多个细胞流动到微孔阵列上，其中细胞的一个子集(a subset of the cells，细胞的子集)作为单个细胞存在于微孔中，和使用成像子系统为微孔阵列中的每个位置获得在该位置的一个或多个第一图像。所述控制子系统被配置用于使用流体子系统将具有细胞识别光学条形码序列和RNA结合序列的微珠流动到微孔阵列上，其中所述微珠的一个子集作为单个细胞-珠对存在于微孔中。所述控制子系统被配置为使用流体子系统将细胞裂解缓冲液和一种或多种用于RNA文库制备的试剂流动到微孔阵列上。所述控制子系统被配置用于使用流体子系统将多个光学杂交探针的N个池的第一个流动到微孔阵列上并且将所述探针杂交到位于其中的珠，所述珠在附接于其上的细胞识别光学条形码序列中具有互补核苷酸序列。所述控制子系统被配置用于使用成像子系统针对每个位置获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个用于创建描述在至少一个光学杂交探针和细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码。所述控制子系统被配置用于为所述N个探针池中的每一个重复流动和杂交步骤并且获得一个或多个第二图像步骤。所述控制子系统被配置用于通过将所述N个探针池的每一个的二进制代码映射到所述细胞识别条形码序列，以使用第二图像为每个位置确定该位置的细胞识别光学条形码，并存储该位置的细胞识别光学条形码和该位置处的第一图像之间的数据关联。

一种示例方法包括用于将单细胞成像数据与RNA转录组学相关联的自动化方法。该方法包括使用流体子系统将多个细胞流动到微孔阵列上，其中所述细胞的一个子集作为单个细胞存在于微孔中；使用成像子系统，为微孔阵列中的多个位置中的每个位置获得该位置处的一个或多个第一图像；使用流体子系统，将具有细胞识别光学条形码序列和RNA结合序列的多个微珠流动到微孔阵列上，其中所述珠的一个子集作为单个细胞-珠对存在于微孔中；使用流体子系统，将细胞裂解缓冲液和用于RNA文库制备的一种或多种试剂流动到微孔阵列上；使用流体子系统，将多个光学杂交探针的N个池中的第一个流动到微孔阵列上，并将所述探针与定位在其中的珠杂交，所述珠具有与其附接的细胞识别光学条形码序列中的互补核苷酸序列。所述控制子系统被配置为使用成像子系统，为所述多个位置中的每个位置获得一个或多个第二图像，以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个被用于创建二进制代码，其描绘所述光学杂交探针中至少一个与所述细胞识别光学条形码之间的匹配或缺乏匹配；对所述N个探针池中的每一个重复所述流动和杂交步骤以及获得所述一个或多个第二图像步骤；对于所述多个位置中的每个位置，通过将所述N个探针池中的每一个的二进制代码映射到所述细胞识别条形码序列，使用第二图像确定该位置的细胞识别光学条形码，并且存储该位置的细胞识别光学条形码和该位置处第一图像之间的数据关联；和对于所述多个位置中的每个位置，在接收到每个细胞识别光学条形码的核酸测序数据后，存储所述核酸测序数据、所述细胞识别光学条形码和与该细胞识别光学条形码相关联的第一图像之间的数据关联。

本说明书中描述的计算机系统可以以硬件、软件、固件或其任何组合来实现。在一些示例中，所述计算机系统可以使用其上存储有计算机可执行指令的计算机可读介质来实现，当由计算机的处理器执行时，所述计算机可执行指令控制计算机以执行步骤。合适的计算机可读介质的示例包括非暂时性计算机可读介质，例如磁盘存储装置、芯片存储装置、可编程逻辑装置和应用专用集成电路。此外，实现本文描述的主题的计算机可读介质可以位于单个设备或计算平台上，或者可以分布在多个设备或计算平台上。

提供了一种用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的示例方法。该方法包括：初始化系统，该系统包含：仪器组件，该仪器组件包含流体子系统、热子系统和成像子系统，其中所述成像子系统包含被配置用于保持微孔阵列的台；耦接到所述仪器组件的控制子系统，该控制子系统包含至少一个处理器和存储器；和使用所述控制子系统执行操作。该操作包括使用所述流体子系统将多个细胞流动到微孔阵列上，其中所述细胞的一个子集作为单细胞存在于微孔中；对于微孔阵列中多个位置中的每个位置，使用成像子系统获得该位置处的一个或多个第一图像并测量一个或多个细胞光学表型特征；使用流体子系统，将具有细胞识别光学条形码序列和RNA结合序列的多个微珠流动到微孔阵列上，其中所述珠的一个子集作为单细胞-珠对存在于微孔中；使用流体子系统，将细胞裂解缓冲液和用于RNA文库制备的一种或多种试剂流动到微孔阵列上；使用流体子系统，将多个光学杂交探针的N个池中的第一个流动到微孔阵列上并使所述探针与位于其中的珠杂交，所述珠在细胞识别光学条形码序列中具有互补核苷酸序列；对于所述多个位置中的每个位置，使用成像子系统获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个被用于创建描述所述光学杂交探针中的至少一个与所述细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码；对所述N个探针池中的每一个重复所述流动和杂交步骤，以及获得所述一个或多个第二图像步骤；通过将所述N个探针池中的每一个的二进制代码映射到所述细胞识别条形码序列，为所述多个位置中的每个位置，确定该位置的细胞识别光学条形码，并存储该位置的细胞识别光学条形码与第一图像之间的数据关联；对于所述多个位置中的每个位置，在接收到每个细胞识别光学条形码的核酸测序数据后，存储所述核酸测序数据、所述细胞识别光学条形码和与所述细胞识别光学条形码相关的第一图像之间的数据关联。该方法包括生成所述一个或多个细胞光学表型特征和与每个所述第一图像相关联的核酸测序数据之间的关系表示，其中所述单细胞表型特征和相关联的测序数据之间的相关性识别了单细胞光学表型和细胞类型、谱系或克隆(基于该单细胞转录组学)之间的对应性。

除了制备RNA文库之外，本公开的自动化系统和方法还可用于制备核酸测序文库。例如，可以使具有细胞识别光学条形码序列和用于捕获细胞核酸的引物序列的多个微珠流动到微孔阵列上。所述引物序列可以是用于捕获RNA、mRNA和非编码RNA的寡(dT)；用于捕获任何DNA或RNA的随机序列；或靶向DNA基因座或RNA转录物的特异性序列。以这种方式，所述自动化系统被提供用于将单细胞成像与唯一(unique，独特的)光学条形码读出(readout，读取)以及核酸文库的制备相关联。类似地，提供了一种用于将单细胞成像数据与核酸测序数据相关联的自动化方法。此外，提供了一种用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法，其中所述单细胞表型特征与相关的测序数据之间的相关性识别了单细胞光学表型与基于该单细胞的核酸序列的细胞类型、谱系或克隆之间的对应性。

附图说明

图1A-1C是用于将单个细胞图像与唯一光学条形码读出和RNA文库的制备相关联的示例自动化系统的示意图；

图2示出了用于实现所述系统的示例机械装置；

图3A示出了带有外壳的装置的3D模型；

图3B示出了所述装置的示例实施方式，其移除了侧盖以示出内部组件；

图4示出了示例成像子系统的3D模型；

图5A是示例热子系统的俯视图；

图5B是包括试剂筒和流体歧管之间的接口的示例子系统的框图；

图6A-6B是用于将单细胞图像与唯一光学条形码读出相关联，并使用自动化系统制备RNA文库以将细胞表型数据与全基因组RNA转录序列数据相关联的示例方法的流程图；

图6C-6F示出了可由所述系统执行的过程；

图7A-7C是示出具有多个附接的寡核苷酸的微珠的设计实例的示意图，所述寡核苷酸包括PCR手柄、细胞识别光学条形码、唯一分子标识符和寡(dT)RNA结合序列(A-上图)，并且示出了与细胞识别光学条形码杂交的互补光学杂交探针的两个不同示例(B-中图和C-底图)；

图8A示出了本公开的自动化系统的数据和图像，包括细胞加载(10,000个微孔阵列中的～1000个细胞)、加载细胞的明场检测和荧光成像、珠加载(10,000个微孔阵列中的～8,500个珠)，以及然后在所述阵列的各个微孔内进行的细胞裂解；

图8B示出了阵列的各个微孔内细胞裂解的图像，然后洗涤显示荧光细胞裂解物的去除，随后的图像显示从经过装置上工作流的珠和阴性对照珠(未经受装置上工作流的珠)提取的无珠PCR产物的毛细管和凝胶电泳分析；

图9是用于自动细胞成像和样品制备的示例方法的流程图；

图10A示出了根据本公开一个或多个实施方式的分段和标记的微孔的二进制图像；

图10B示出了根据本公开一个或多个实施方式的微孔中细胞的明场图像；

图10C示出了根据本公开一个或多个实施方式的活染色细胞的荧光图像；

图10D示出了根据本公开一个或多个实施方式的细胞裂解后图10C中的微孔的荧光图像；

图11A是示出附接到微珠的多个寡核苷酸的设计示例的示意图，所述微珠包括PCR手柄、分成3个独立部分(NN、NN和NNNN)的8-核苷酸的独特分子标识符(UMI)、细胞条形码S、细胞条形码Q和寡(dT)RNA结合序列，其中所述细胞条形码S和细胞条形码Q的独特组合构成根据本公开主题的一个或多个实施方式的每个珠的细胞识别光学条形码；

图11B是示出一组微珠的分池、固相合成的示例的示意图，该微珠具有附接的寡核苷酸，该寡核苷酸包括两个8-核苷酸序列(细胞条形码S和细胞条形码Q，每个都是96个序列的池中的成员)，其中根据本公开主题的一个或多个实施方式，在两轮分池之后的序列的独特组合构成总共96²＝9,216个独特的细胞识别光学条形码；

图11C是示出根据本公开主题一个或多个实施方式的合成顺序杂交探针池的示意图；

图12是散点图，示出了在使用本公开的自动化系统进行的单细胞RNA-seq实验中，每个细胞识别条形码的人类-和小鼠-比对转录物分子的数量，说明虽然大多数细胞识别条形码与一个物种密切相关，但有些与两个物种都相关，表明多个细胞与珠的共同封装；

图13示出了对于来自使用本公开的自动化系统的单细胞RNA-seq实验的与人类或小鼠转录组注释(其中至少70％的分子与人类或小鼠转录组对齐)相关的细胞识别条形码，每个细胞检测到的转录分子数量分布的小提琴图；

图14示出了对于来自使用本公开的自动化系统的单细胞RNA-seq实验的与人类或小鼠转录组注释(其中至少70％的分子与人类或小鼠转录组对齐)相关的细胞识别条形码，每个细胞检测到的基因数量分布的小提琴图；

图15A示出了比较8碱基Cy3标记的和8碱基Cy5标记的光学探针的原始和分析荧光图像的图像，所述光学探针杂交至本公开自动化系统中阵列的各个微孔中存在的珠上的互补细胞识别光学条形码；

图15B示出了荧光杂交成像循环的图像，其中将一组汇集的8碱基Cy5标记的寡核苷酸和一组8碱基Cy3标记的寡核苷酸引入装载有珠的阵列中，并在通道2和3的每一个中成像，以分别探测本公开的自动化系统中每个珠上的第一和第二序列；

图16是显示荧光杂交成像循环的软件分析的图像，其用以识别每个珠上一起形成细胞识别光学条形码序列的两个条形码序列。由8碱基Cy5标记的寡核苷酸和8碱基Cy3标记的寡核苷酸组成的一组汇集的互补光学探针被引入到装载有珠的阵列装置中，并在通道2和3中的每一个中成像，以分别探测在本公开的自动化系统中的每个珠上的第一和第二条形码序列。这种汇集探针混合的软件分析表明检测到的荧光，通道2为“阳性”，通道3为“阳性”，或两者均为阳性；

图17A是示出可以以‘逐珠’解码策略执行的细胞识别光学条形码的光学解码的预言示例的示意图。比例尺：根据本公开一个或多个实施方式，50μm(多孔图像)和10μm(单孔图像)；

图17B是一个预言示例的条形图，示出了在根据本公开一个或多个实施方式的‘逐珠’和‘逐循环’解码方法之间的比较中，可以成功链接到细胞图像的scRNA-seq表达谱的分数；

图18A是预言实例的图，以小提琴图示出了分子捕获效率，该小提琴图示出了根据本公开一个或多个实施方式的混合物种实验中，在不同测序读数深度下每个细胞可检测的分子数量的分布；

图18B是预言实例的图，以小提琴图示出了分子捕获效率，该小提琴图示出了根据本公开一个或多个实施方式的混合物种实验中在不同测序读数深度下每个细胞可检测的基因数目的分布；

图18C是示出根据本公开一个或多个实施方式可通过在去除多重峰之前链接到图像的每个细胞识别光学条形码的唯一比对的人和小鼠读数的数目获得的链接准确度的预言示例的散点图，如人类和小鼠活体染色的荧光强度比所示；

图18D是示出根据本公开一个或多个实施方式可通过在去除多重峰后链接到图像的每个细胞识别光学条形码的唯一比对的人类和小鼠读数的数目获得的链接准确度的预言示例的散点图，如人类和小鼠活体染色的荧光强度比所示；

图19A示出了根据本公开的一个或多个实施方式，在scRNA-seq表达谱聚类的预言示例图中，胶质母细胞瘤中细胞的成对光学和转录表型测量，示出了来自胶质母细胞瘤中所有链接的细胞的单细胞分层泊松分解(scHPF)分析的细胞评分矩阵的UMAP嵌入；

图19B示出了根据本公开的一个或多个实施方式，在scRNA-seq表达谱聚类的预言示例图中，胶质母细胞瘤中细胞的成对光学和转录表型测量，示出了由来自scHPF分析的细胞谱系因子的分数着色的细胞谱系因子的分数(列出了每个细胞谱系因子的标记基因)；

图19C示出了根据本公开的一个或多个实施方式，胶质母细胞瘤中细胞的成对光学和转录表型测量，在预言示例热图中示出了成像元特征的识别，包括16个细胞成像特征的z评分值，并且在树状图中示出了来自无监督分层聚类的三个特征簇、细胞大小、形状和钙黄绿素染色强度；

图19D示出了根据本公开的一个或多个实施方式，胶质母细胞瘤中细胞的成对光学和转录表型测量，在预言示例箱线图中示出了scRNA-seq表达谱的聚类，显示了细胞成像表型的异质性和每个Phenograph细胞簇中成像元特征的分布；

图20示出了根据本公开的一个或多个实施方式，光学表型和转录谱系之间的关系，因为只需将成像特征聚类即可区分胶质母细胞瘤中两个主要肿瘤细胞谱系，如由细胞成像簇着色的恶性细胞的二维扩散图的预言示例图所示；

图21包括用于控制过程的各个方面的示例GUI的屏幕截图；

图22是示例GUI的另一屏幕截图；

图23是一个示例GUI的屏幕截图，用于查看荧光通道之一中微孔阵列的实时图像以设置该扫描通道的成像参数；

图24是用于设置细胞加载操作的各个步骤及其参数的示例GUI的屏幕截图；

图25是用于查看微孔阵列扫描的明场成像结果的示例GUI的屏幕截图；和

图26是用于查看微孔阵列扫描的荧光成像结果的另一GUI的屏幕截图。

具体实施方式

在用于单细胞分离和下一代测序(NGS)样品制备的市售系统中，没有一个能够将单细胞图像与唯一光学条形码读出相关联，以及制备单细胞RNA文库以使单细胞表型数据与RNA转录组学相关联。本说明书描述了允许高质量多通道荧光成像与自动化单细胞、全转录组RNA文库制备相结合的方法和系统，例如每4-5小时运行数千个单细胞的全转录组RNA文库制备。该系统可以建立单细胞全转录组测序(‘RNA-Seq’)数据质量度量。在操作中，该系统自动采集单细胞图像、将单细胞图像与相应的唯一光学条形码读出关联(基于唯一细胞识别光学条形码序列)和下一代测序(NGS)样品制备方法，被称为单细胞光学表型和表达测序或SCOPESeq。

在本公开的自动化细胞成像和RNA文库样品制备系统中，将单细胞连同在表面缀合有多个寡核苷酸的微珠一起分离到微孔阵列的单个反应室中。每个寡核苷酸包括对于该珠唯一的细胞识别光学条形码序列以及用于细胞裂解后RNA捕获的RNA结合序列。‘细胞识别光学条形码序列’在本文中也可互换地称为‘细胞识别光学条形码’。具有细胞识别光学条形码和RNA结合序列的微珠在本文中也可互换地称为‘mRNA捕获珠’或‘RNA捕获珠’或‘微珠’或在某些情况下称为‘珠’。微珠上的寡核苷酸可包括用于测序(例如用于在lllumina平台上测序)的衔接子序列(也称为‘PCR手柄’)。本公开的具有细胞识别光学条形码和互补光学杂交探针的微珠描述于2016年5月26日提交并且公开为WO 2016/191533的美国专利申请PCT/US2016/034270和2018年11月27日提交并且公布为WO 2019/104337的美国专利申请PCT/US2018/62650中，它们的全文通过引用并入本文。该系统被配置为使与细胞识别光学条形码互补并用光学标签(例如荧光团)标记的光学杂交探针流动到微孔阵列上，并用于响应探针获得微孔的图像。该系统和唯一细胞识别光学条形码和互补光学杂交探针有助于驻留在微孔阵列上细胞的表型成像与单细胞全转录组测序之间的链接。

图1A-1C是用于单细胞分离和样品制备的示例系统100的图。系统100可用于表型表征多个单细胞以及捕获和制备用于测序的核酸含量。通过使用RNA捕获珠和来自光学杂交探针的唯一光学条形码读出，系统100可以提供活细胞图像和由单细胞表达的RNA序列之间的直接链接。

图1A是系统100的概览图。系统100包括计算机子系统102、仪器组件104、实验环境106(例如一件或多件实验室设备，例如电源和环境控制子系统)和用户108。仪器组件104包括用于接收微孔阵列112的可选转接板。

通常，用户108会将微孔阵列112加载到可选转接板中并将其放置到系统100中。系统100将细胞从输入储存器流入微孔阵列112并允许细胞沉降到单独的微孔中。系统100提供扫描、图像分析和RNA文库样品制备协议。样品制备可以包括控制流体和热子系统。

图1B是计算机子系统102的框图。计算机子系统102包括至少一个处理器120、存储器122、使用处理器120和存储器122实现为计算机程序的控制器124以及图形用户界面(GUI)126。例如，计算机子系统102可以是具有监视器、键盘和鼠标的台式计算机，或者计算机子系统102可以是笔记本电脑或平板电脑或任何其它适当的设备。计算机子系统102例如通过通用串行总线(USB)电缆可操作地耦接到仪器组件104。在一些示例中，计算机子系统102被集成到仪器中。

控制器124被编程用于识别各自含有单个细胞的微孔。控制器124可以被编程以识别微孔内细胞图像中的其它相关特征。

控制器124被编程用于使系统100自动化所述SCOPESeq过程，如下面参照图6A-6B所述。例如，控制器124可以被编程为存储阵列130中每个微孔的记录并且将每个微孔记录与该微孔的一个或多个图像和该微孔内容物的识别特征相关联，所述识别特征为例如细胞的表型信息和与存在互补光学杂交探针时存在于微孔中的微珠相关的光学条形码读出(例如荧光信号)。

图1C是仪器组件104的框图。仪器组件104可以包括用于对微孔阵列130上的单个微孔130进行成像的各种组件。例如，仪器组件104可以包括电源分线板138和用于控制各种电机的电机控制系统132。电机控制系统132可以含有例如允许控制器124控制或寻址仪器组件104的各种组件的TTL和快门函数。

仪器组件104可以包括数码相机140或其它合适的成像设备、通信集线器(例如USB集线器142)、荧光发光二极管(LED)引擎144和光导146。光导146将来自LED引擎的荧光激发光传送到显微镜。替代配置包括光纤束或甚至将LED引擎直接耦接到显微镜光学系统。

荧光LED引擎144可以包括多个窄带LED，这些LED被配置为通过光导适配器146照亮微孔阵列112。

仪器组件104包括显微镜子系统(例如内部倒置显微镜)，其包括机动化XY台148和配置用于平移显微镜物镜152的自动对焦电机150。通常，相机140和荧光LED引擎144以及显微镜子系统以落射荧光构造布置。仪器组件104包括用于在成像期间照亮微孔阵列112的明场LED 158。

仪器组件104包括微流体子系统和热子系统152。热子系统152可以包括例如XY平台148上的平台加热器和用于控制平台加热器的热控制系统。微流体子系统包括泵、压力控制器和流体歧管。微流体子系统包括各种合适的阀，例如用于从试剂筒施加试剂的6通阀和24个试剂阀。控制器124被编程以控制微流体子系统和热子系统以使SCOPE-seq过程自动化，如下面参照图6A-6B进一步描述的。

在一些示例中，微流体子系统被配置用于例如十八种不同试剂的微流体流动控制以实现SCOPEseq过程的生化反应。此外，可以使用从例如10μL/min到200μL/min的各种流量，这些流量被控制在设定点的5μL/min以内。

微流体子系统可以包括流量单元(flow rate unit，流速单元)，该流量单元被配置用于准确和简单的流量测量能力，其可以与范围从有机到水性到氟化油的各种试剂兼容。该单元可以具有对流量控制器的测量反馈能力，这将在整个微流体子系统中提供精确的流量控制。

微流体子系统可以包括配置用于无脉冲流动的流动控制单元，以促进没有细胞剪切应力的流体运动。该单元在试剂切换和无气泡流体流动之间可以具有毫秒响应时间。

微流体子系统可以包括阀门单元，例如两组独特的阀门单元。首先，一个可以与第二多路阀复用的多路双向阀可用于在不同的试剂之间切换以流入微芯片。这些切换单元具有毫秒响应时间，可快速调整至新的试剂流量。这将为使用氟化油的微孔密封提供适当的流量响应。其次，多路阀可用于将试剂从微芯片的输出端口引导到样品收集或废物储存器。多路阀门单元还可消除任何流体静力流动，提供成像和加热所需的加压流动池。

微流体子系统可以包括加压试剂储存器。例如，可以使用试剂筒来确保试剂的适当密封，以及维持足够的加压环境以供流体流入微流体子系统。

热子系统可以包括一个或多个珀尔帖单元，其可以在整个工作流程中加热和冷却，以在必要时提供恒温控制，以促进用于各种生化测定的适当条件。在一些示例中，热子系统包括比例、积分、微分(PID)热控制单元，例如具有1℃的精度，以促进对珀尔帖单元的适当PID反馈，从而设置和控制适当的测定温度。在一些示例中，热子系统包括与XY平台集成的平台加热器，例如如图5A所示。热子系统可用于例如加速裂解、促进RT和EXO1过程，以及在某些情况下促进光学探针杂交的解链。

图2示出了用于系统100的示例机械装置200。装置200包括荧光引擎202、转接板204、阵列台208、台加热器206和XYZ台控制系统224。装置200包括泵210和压力控制器212。装置200包括明场模块214、流体控制装置216和试剂筒218。装置200包括照相机220和光学堆栈222。装置200包括电子装置(例如电源)和流体控制装置226。

图3A示出了带有外壳的装置200的3D模型。图3B示出了装置200的示例实施方式，其中侧盖被移除以示出内部组件。

图4示出了示例成像子系统400的3D模型。成像子系统400包括XY台402、物镜404和滤光器组406。成像子系统400包括液体光导入口408、聚焦驱动器410和相机412。成像子系统400包括LED引擎414，其可以包括例如LED控制器、LED、组合光学器件和光导出口端口。

图5A是示例热子系统500的俯视图。子系统500包括XY台502和用于加热微孔阵列502的台加热器504。子系统500可以包括玻璃组件506以允许在对样品加热的同时对样品进行成像。在一些示例中，计算机控制子系统被配置为自动化控制子系统500。

图5B是包括试剂筒和流体歧管之间的接口的示例子系统550的框图。子系统550包括用于固定子系统550的压力扣552；在详细视图554中示出了示例压力扣。子系统550包括多个流体管线556、单个压力输入558和不同尺寸的储液器560和562。

图6A-6B是用于使用自动化系统从单个细胞制备用于测序的RNA文库的示例方法的流程图，以及用于关联单细胞表型和基因表达序列数据的唯一光学条形码读出的捕获。

细胞首先流动到微孔阵列上以提供随机分布，其中较大比例的细胞单独存在于给定的微孔中。此时可以在微孔阵列上对细胞进行成像，以收集表型数据以及确定含有单个细胞的那些微孔。细胞可以以本领域普通技术人员理解的任何方式染色以促进表型信息的收集。然后微珠流入腔室。孔的大小和珠子的大小相协调以确保在给定的微孔中只有一个珠，并且使用的珠浓度大于例如75％、80％、85％或95％的孔含有单个珠子。

然后可以将裂解缓冲液流动到微孔阵列上，紧接着是全氟化油。油有效地“密封”每个微孔，防止水交叉污染。RNA然后在裂解后被珠捕获，然后可以使逆转录酶混合物流动到微孔阵列上。此时，珠上捕获的RNA已被逆转录为cDNA，并且可以使互补光学杂交探针流入并成像以确定珠-细胞联系。微孔位置的细胞识别光学条形码与该位置的第一图像之间的数据关联由系统存储，并用于将文库制备之前拍摄的细胞图像与测序期间生成的基因组(或转录组)数据联系起来。

图6B是系统执行的过程600的流程图。图6B示出了通过微孔图像的图像分析对细胞裂解的自动验证602。图6B还示出了将单个细胞图像与唯一光学条形码读出604相关联的方法，通过加载多个光学杂交探针、对微孔阵列成像N次、并进行图像分析，以确定光学杂交探针与每个微孔位置的细胞识别光学条形码之间的匹配。该方法包括存储该位置的细胞识别光学条形码与在加载珠之前捕获的该位置的微孔内容物的第一图像之间的数据关联。

图6C-6F示出了可以由系统在执行图6B中所示的过程600时执行的过程。

图6C是由系统执行的成像的过程610的流程图。过程610包括确定用于扫描的微孔阵列极限(612)。过程610包括扫描阵列以将地址分配给阵列位置并确定每个微孔的XY和自动聚焦(Z)位置(614)。过程610包括扫描阵列以获得细胞表型的一个或多个第一图像并确定每个微孔中的细胞数量(616)。过程610包括扫描阵列以量化珠负载和单个细胞-珠对(618)。过程610包括扫描阵列以评估细胞裂解的完成(620)。过程610包括扫描阵列以评估细胞裂解物的洗涤(622)。过程610包括扫描阵列以获得用于珠光解复用的一个或多个第二图像(624)。

图6D是用于确定芯片扫描极限的过程626的流程图。过程626包括将视场的当前位置移动到初始位置(628)和自动聚焦、获取图像和分割图像(630)。过程626包括确定当前位置是否在拐角处(632)。如果当前位置不在拐角处，则过程626包括将当前位置移向微孔阵列的左上角(634)并重复直到找到拐角。当找到拐角时，过程626包括记录拐角的XY位置和自动聚焦(Z)阵列的左上角。过程626包括对右下角进行重复。

图6E是用于探针杂交和解链的系统控制的过程638的流程图。过程638包括流入杂交缓冲液540。过程638包括流入下一个光学杂交探针池，然后暂停编程的时间长度以允许杂交(642)。过程638包括在一个或多个通道中执行荧光扫描(644)。过程638包括流入解链缓冲液并暂停编程的时间长度以允许解链(648)。过程638包括在一个或多个通道中执行荧光扫描以评估解链(650)。过程638包括对N个光杂交探针池中的每一个重复步骤640、642、644、648和650，直到附接到每个珠的唯一细胞识别光学条形码序列可以被解码。

图6F是用于光解复用的过程652的流程图。对每个含有珠的微孔和荧光通道执行过程652。过程652包括量化N个探针池的每次扫描的荧光强度(654)。过程652包括从低到高将强度排序(656)。过程652包括计算排序列表中的值之间的强度差(658)。过程652包括基于最大强度差来确定强度阈值(660)，例如通过在界定最大强度差的两个强度之间选择阈值。过程652包括向强度低于阈值强度的池分配0值并且向强度高于阈值强度的池分配1值(662)。该过程包括将由0和1值产生的二进制代码映射到细胞识别光学条形码序列(664)。

例如，考虑以下对实施例5中描述的用于光解复用的示例方法的讨论。在该示例方法中，使用了256个可能的二进制代码中的96个(有关珠和光学杂交探针的设计和合成，请参见图11A-11C以及实施例2和3)。在这一实施方式中，测序的细胞识别光学条形码的数量(自动化系统的微孔阵列上每个实验～1,000个细胞)远少于总共9,216个可能的条形码(即96X 96＝9,216个唯一条形码)。因此，光学解码中的错误将主要导致为珠分配不可映射的二进制代码，或未出现在测序数据中的细胞识别光学条形码。两种类型的错误分配进一步导致链接成像和测序数据集的失败，而不是错误的链接。因此，更准确的光学解码方法将提供更高比例的链接成像和测序数据。

为了从成像中解码细胞条形码序列，可以使用‘逐循环’方法，该方法根据每个杂交循环中所有珠的强度值的双峰分布调用每个珠的二进制代码。当‘一’状态群体的珠荧光强度值与‘零’状态群体的珠荧光强度值很好地分开时，这种方法效果很好。然而，由于珠在较短的波长下表现出自发荧光，因此两个群体在Cy3发射通道中没有清楚地分开。

为了从成像中准确解码细胞条形码序列，该系统可以利用改进的‘逐珠’荧光强度分析策略。通过将八个强度值按升序排序，计算每对相邻值之间的相对强度变化，根据最大相对强度变化建立阈值以分配二进制代码，并将二进制代码映射到实际细胞条形码序列，从而确定每个微珠的细胞条形码序列(参见图17A)。对于那些不可映射的二进制代码，根据下一个最大的相对强度变化重复地重新分配二进制代码，直到代码可以成功映射到细胞条形码序列。由于此方法独立解码每个珠，因此当‘一’和‘零’强度状态分离不佳时，它可以提供更好的结果。

实施例5描述了逐循环和逐珠方法的比较。在数据集PJ070和PJ069中，46％和57％的scRNA-seq谱使用‘逐珠’方法与细胞图像相关联，相比之下，使用‘逐循环’方法的比例仅为24％和37％。在两个数据集中，使用‘逐珠’方法(图17B)观察到的链接细胞的比例至少增加了20％，这表明‘逐珠’方法更适合通过图像分析的细胞识别光学条形码序列解码。

●逐循环

逐循环方法由逐阶段解码方法修改而来

■对于每个循环和每个荧光通道；

■获取N个对数转换后的平均强度值；

■使用50个bin计算强度直方图；

■确定中值强度值M，将强度值小于M的最高bin识别为B₁并且将强度值大于M的最高bin确定为B₂；

■识别具有处于B₁和B₂之间的强度值的最低bin B₃；

■获取bin B₃的中等强度值I，然后将小于I的强度值赋值0，将大于I的强度值赋值1。

■参考二进制代码表。如果赋值的代码在表中，则返回对应的细胞条形码序列。

●逐珠

逐珠方法是由逐分解码方法修改而来的■对于每个珠和每个荧光通道；

■获得八个平均荧光强度值x₁、x₂、…、x₈；

■令y_l、y₂、…、y₈为排序后的值；

■令f_n＝(y_n+1-y_n)/y_n，n＝1、2、…、7是相邻排序值之间的相对

强度倍数变化；

■确定最大的倍数变化

然后将0赋给值y₁、y₂、…、y_N，并且将1赋给值y_N+1、y_N+2、…、y₈；

■参考二进制代码表。如果第4步赋值的代码在表中，则返回对

应的细胞条形码序列；

■否则，从列表{f_n}中删除f_N并重复步骤4、5，直到返回相应的细胞条形码序列或列表{f_n}为空。

图7A-7C示出了光学杂交探针与微珠上互补细胞识别光学条形码序列的结合。图7A描绘了具有附接的寡核苷酸的微珠的实例，所述寡核苷酸包括衔接子序列、对于珠唯一的细胞识别光学条形码序列、唯一分子标识符(UMI)序列和用于RNA捕获的寡聚-dT。图7B描绘了通过光学杂交探针与微珠的互补细胞识别光学条形码序列的杂交而结合，其中荧光团直接附着在探针上，以便在成像过程中进行识别。图7C描绘了一个替代实施方式，其中光学杂交探针由两个单独的分子组成，其中第一个含有与细胞识别光学条形码互补的序列和通用结合序列，并且第二个含有与所述通用结合序列互补的序列并且还包含光学标签，例如荧光标记，以促进荧光探针的简单且具有成本效益的合成。在这种情况下，光学杂交探针的第一分子流动到微孔阵列上，然后是第二分子，接着是成像，并去除两个探针。多个杂交探针可以一次流动到系统的微孔阵列上以最小化N个重复的数量，如图6B的604所示。

图8A-8B示出了本公开的系统100和方法的细胞和珠加载的数据和图像，随后在各个孔中进行细胞裂解。描述了使用流体子系统的10％细胞负载(10,000个微孔阵列中的～1000个细胞)，然后是荧光标记的细胞的荧光成像，其中图像显示了含有单个细胞的微孔。可以加载细胞以获得每个微孔中的大部分单细胞。使用流体子系统以比细胞更高的密度加载珠子，并且可以加载以最大化单个细胞-单个珠对的数量。该系统的微孔阵列如图8A所示，珠负载为85％(10,000个微孔阵列中～8,500个珠)。细胞裂解可以在加载珠后进行，其中使用流体子系统将裂解缓冲液流动到微孔阵列上，然后迅速流入油中以密封微孔。如图8A所示，细胞在荧光检测下开始是小点，但随着细胞裂解，染料扩散到整个微孔中，表明裂解已成功完成。此外，荧光信号保留在孔内，表明微孔之间没有发生交叉污染(即油正确覆盖了孔)。

图8B更详细地示出了裂解，其中可以看到细胞的残余物，裂解物充满微孔。系统100的图像处理可以通过分析染料扩散自动检测裂解的成功完成。

当油在裂解后被洗掉时，将裂解物从微孔中完全去除，在成像时显示暗响应。此QC步骤确认微孔阵列已成功洗涤，并且RT混合物能够与每个珠接触(此时RNA附接在珠上并因此不能被洗掉或导致交叉污染)。在系统100操作完成后，珠被取出并且可以被合并用于进一步的cDNA文库制备，包括DNA扩增，随后是核酸测序。图8B中的电泳图显示用本公开的系统100和方法制备的cDNA具有测序所需的cDNA的正确长度和浓度。

图9是用于将单细胞成像数据与RNA转录组学相关联的示例自动化方法800的流程图。方法800可由控制子系统执行，例如图1的控制器124。

方法800包括使细胞流动到系统100的微孔阵列上(802)，并使用成像子系统为微孔阵列中的每个位置获得该位置处的一个或多个第一图像(804)。第一图像可以描绘例如加载到阵列的微孔中的细胞和关于细胞表型的信息。每个图像都与阵列中微孔的相应位置相关联。可以将位置指定例如为微孔阵列上的X-Y坐标。在一些示例中，方法800包括为每个位置，使用该位置的第一图像确定对应于该位置的微孔中描绘的细胞数量。这允许下游消除含有多个细胞的微孔的数据。

方法800包括使用流体子系统将具有附接的细胞识别光学条形码序列的RNA捕获珠流动到微孔阵列上(806)。方法800包括使用流体子系统将裂解缓冲液流动到微孔阵列上并使用成像子系统对微孔阵列进行成像并且进行图像分析以监测微孔内的裂解是否完成(808)。方法800包括在基于执行图像分析确定裂解完成后，使用流体子系统将逆转录混合物流动到微孔阵列上(810)。

方法800包括使用流体子系统使N个光学杂交探针池中的第一个流动到微孔阵列上并使探针与位于其中的珠杂交，所述珠在与其附接的细胞识别光学条形码序列中具有互补核苷酸序列(812)。方法800包括为所述多个位置中的每个位置，使用成像子系统获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个用于创建描述所述光学杂交探针中的至少一个与所述细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码(814)。可以识别匹配，在流过光学杂交探针后，在含有微珠的微孔图像中识别出足够强度的光。

方法800包括为N个探针池中的每一个重复流动和杂交步骤以及获得一个或多个第二图像步骤(816)。

方法800包括通过将N个探针池中的每一个的二进制代码映射到细胞识别条形码序列，为所述多个位置中的每个位置，确定该位置的细胞识别光学条形码并且存储该位置处的细胞识别光学条形码和该位置处的第一图像之间的数据关联(818)。例如，确定细胞识别光学条形码可以包含格式化的数字值，使得值中的每个比特位置对应于光学杂交探针或光学杂交探针池与细胞识别光学条形码之间的匹配或缺乏匹配。

在方法800中，从微孔阵列中取出微珠用于测序。方法800包括为所述多个位置中的每个位置，在接收到每个细胞识别光学条形码的核酸测序数据之后，存储在核酸测序数据、细胞识别光学条形码和与细胞识别光学条形码相关的第一图像之间的数据关联(820)。

方法800可以包括显示用于控制过程的各个方面的图形用户界面(GUI)。例如，GUI可以提供用于启动和停止运行的控件。GUI可以在运行的各个阶段提供指定细胞的图像。GUI可以在运行期间显示状态报告。

在一些示例中，方法800包括回收微珠。例如，回收微珠可以包括倒置芯片以允许珠在重力作用下沉降到流动通道中。回收微珠可以包括在高密度流体中流动，该流体将使珠“漂浮”到流动通道中。回收微珠可以包括脉动流动以将珠从它们的孔中搅动到流动通道中。回收微珠可以包括对珠进行超声处理以将珠从它们的孔中搅动到流动通道中。回收微珠可包括从珠上化学或光学切割cDNA，以允许在留下珠本身的同时收集cDNA。

图10A-10D示出了图像分析。图10A示出了分段和标记的微孔的二进制图像。图10B示出了微孔中细胞的明场图像。图10C示出了活染色细胞的荧光图像。图10D示出了细胞裂解后图10C中微孔的荧光图像。

图11A是示出附接到RNA捕获珠的细胞识别光学条形码序列的一个实施方式的图，其允许光学解码以识别与微孔阵列中的珠共包封的给定细胞的图像。在这个例子中，细胞条形码含有两个8-核苷酸序列，每个序列都是96个序列池的成员。8-核苷酸随机序列被分散成三个部分，并作为唯一分子标识符(UMI)和珠上其它功能序列之间的间隔物。所有珠上的寡核苷酸都有两个共同序列-5’-端的通用PCR衔接子和3’-端的寡聚(dT)，其用于RNA捕获和cDNA扩增。寡核苷酸可以通过如实施例2中所述和图11B中所示的分池固相合成法合成。将珠汇集在一起以添加共同序列和随机UMI，并分成96个反应以添加96个细胞条形码序列中的一个。经过两轮分池之后，总共生成了96²＝9,216个细胞条形码。为了在使用自动化系统的方法中从细胞中生成cDNA，将细胞与这些珠共同封装，将细胞裂解，之后通过杂交在珠上捕获细胞RNA，然后逆转录RNA。

为了将细胞成像与来自同一细胞的scRNA-seq关联起来，通过顺序荧光探针杂交在微孔阵列中识别每个珠上的细胞识别光学条形码序列。每个细胞条形码(即图11A中的“S”和“Q”)对应于细胞识别光学条形码序列中唯一预定义的8-位二进制代码。所述二进制代码的每一位都可以通过一个循环的探针杂交读出，其中杂交探针的存在或不存在分别指示一或零。可以使用两组不同颜色的荧光探针同时解码细胞识别光学条形码序列的两个部分。为了实现该解码方案，为每个杂交循环生成荧光探针池(参见实施例3)。将可以与以相应二进制代码‘1’标记的细胞条形码序列杂交的所有探针汇集并与荧光团例如Cy5或Cy3缀合。然后将针对包含细胞识别光学条形码序列的两个8-核苷酸序列的不同荧光团-缀合的探针汇集在一起以形成最终探针池(图11C)。因此，所有可能的细胞条形码序列都可以通过两色探针杂交的八个循环进行解码。这种方法与更高速度的成像兼容，从而导致更高的通量。

图12-14示出了使用自动化仪器从cDNA文库制备中获得的测序数据的准确性。在该示例方法中，如实施例1中所述，使用用两种不同颜色的活染色染料标记的混合人类(U87)和小鼠(3T3)细胞进行实验。5次实验的测序数据见表1。数据显示自动化系统可以从多种细胞类型产生高纯度的cDNA文库。

图12是一个散点图，示出了单细胞RNA-seq实验中每个细胞识别条形码的人类和小鼠对齐转录分子的数量，说明虽然大多数细胞识别条形码与一个物种密切相关，但一些与两者都相关，表明了多个细胞与珠共同封装。本公开的方法允许从数据集中去除多重峰。图13示出了对于来自单细胞RNA-seq实验的与人类或小鼠转录组注释(其中至少70％的分子与人类或小鼠转录组对齐)相关的细胞识别条形码，每个细胞检测到的转录分子数量分布的小提琴图。图14示出了对于来自单细胞RNA-seq实验的与人类或小鼠转录组注释(其中至少70％的分子与人类或小鼠转录组对齐)相关的细胞识别条形码，每个细胞检测到的基因数量分布的小提琴图。

实施例4中描述了自动化系统上光学杂交探针的成像。图15A示出了比较与阵列各个微孔中存在的珠上的互补细胞识别光学条形码杂交的8-碱基Cy3-标记的和8-碱基Cy5-标记的光学探针的原始和分析的荧光图像的图像。图15B示出了荧光杂交成像循环的图像，其中将一组汇集的8-碱基Cy5-标记的寡核苷酸和一组8-碱基Cy3-标记的寡核苷酸引入装有珠的阵列装置中，并在通道2和3的每一个中成像以分别探测每个珠上的第一和第二序列。

图16是显示荧光杂交成像循环的软件分析的图像，以识别每个珠上一起形成细胞识别光学条形码序列的两个条形码序列。将由8-碱基Cy5-标记的寡核苷酸和8-碱基Cy3-标记的寡核苷酸组成的一组汇集的杂交探针引入装有珠的阵列装置中，并在通道2和3的每一个中成像，以分别探测在每个珠上的第一和第二条形码序列。这种混合汇集探针的软件分析表明检测到的荧光对于通道2为“阳性”、通道3为“阳性”或两者均为阳性。本公开的自动化系统和方法可以导致如实施例6中所述的成像和测序数据的高准确度链接。例如，进行了一项实验以在通量、分子捕获效率以及链接成像和测序数据的准确性方面证明使用含有细胞识别光学条形码的RNA捕获珠以链接单细胞表型图像和核酸序列数据。该实验使用用两种不同颜色的活染色染料标记的混合人类(U87)和小鼠(3T3)细胞进行。将混合细胞加载到微孔中，并从单个实验中获得转录谱。在饱和测序深度下，从每个细胞的3,548个基因中平均检测到10,245个RNA转录物(图18A、18B)。为了评估链接准确性，通过荧光标签的颜色和RNA-seq中物种-特异性比对率识别每个细胞的物种(具有>90％读数与给定物种的转录组对齐的细胞是被认为是物种-特异性的)，并检查两个细胞物种调用的一致性。在与成像数据成功链接的4,145个scRNA-seq谱中，获得了99.2％(0.8％错误率)的类平衡链接准确率，98.8％的人类细胞和99.6％的小鼠细胞与来自双色成像的物种调用一致(图18C)。此外，通过从双色细胞图像中手动识别混合物种和单一物种多重峰，可以自信地去除多重峰。通过比较基于图像和基于测序的混合物种多重峰，获得了68.8％的多重检测灵敏度和97.0％的特异性。去除了大部分低纯度的转录谱(图18D)。由于确认了高链接准确性，因此怀疑通过测序而不是成像检测到的混合物种多重峰是因为作为基本事实的scRNA-seq数据存在缺陷。

本公开的自动化系统和方法可用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性。例如，实施例7中描述了恶性转化的胶质母细胞瘤(GBM)细胞的成像特征和谱系身份之间关系的识别。为了证明使用本文所述的细胞识别光学条形码从人类组织样本中收集成对的光学和转录表型，对从人类GBM手术样本中解离并用钙黄绿素AM(一种报告酯酶活性的荧光染料)标记的细胞进行了实验。获得了1,954个scRNA-seq谱，其中1,110个与活细胞图像相关联。基于成像分析去除细胞多重峰。基于基因表达，一大群细胞被识别为具有7号染色体扩增和10号染色体缺失，这是在GBM中普遍存在的两种常见的非整倍体。通过计算分析识别了定义种群的关键基因签名。恢复了先前从GBM的scRNA-seq中报道的所有主要细胞类型，包括髓细胞、内皮细胞、周细胞、恶性转化的星形胶质细胞样细胞、间充质样细胞、少突胶质细胞-祖细胞样/神经母细胞-祖细胞样细胞(OPC/NPC)和循环细胞(图19A、19B)。从细胞图像中测量了16个成像特征，这些特征使用无监督分层聚类分为细胞大小、形状和钙黄绿素AM强度三类(图19C)，以创建三个基于成像的元特征。通过将元特征与scRNA-seq细胞类型关联起来，发现骨髓细胞(7和12簇)相对圆形和小，具有高酯酶活性；内皮细胞如预期的那样大而不圆，并且具有中等的酯酶活性；且周皮细胞具有中等形状、大小和强度(图19D)。

GBM中的恶性细胞可以类似于多个神经谱系并表现出间充质表型。由于已知恶性GBM细胞具有高度的可塑性并经历分化和去分化，因此使用扩散图来可视化它们的谱系关系。如上所述，基于非整倍体选择恶性细胞，降低恶性细胞基因表达的维度，并用扩散图将分解数据可视化，这揭示了两个主要分支。一个分支由星形胶质细胞样细胞组成并以间充质样细胞终止，而另一个分支由OPC/NPC细胞和循环细胞组成。这与先前发表的研究一致，表明星形胶质细胞样和间充质胶质瘤细胞比OPC-样胶质瘤细胞明显更静止。

为了探索恶性细胞的成像特征如何与两个主要细胞谱系相关，询问细胞成像特征的无监督聚类是否对应于scRNA-seq中观察到的两个主要谱系。通过上述三个成像元特征使用分层聚类对恶性细胞进行聚类，并识别出两个主要的细胞成像簇。通过在恶性细胞的扩散图嵌入上绘制两个成像簇，发现圆形、低强度和小尺寸的细胞(成像簇0)在OPC/NPC循环分支中富集，而具有粗糙形状、高强度和大尺寸的细胞(成像簇1)在星形胶质细胞-间充质分支中富集(图20)。这一发现得到了比较两个成像簇中细胞表达谱的差异表达分析的进一步支持。正如预期的那样，OPC/NPC(MAP2、OLIG1、DLL3)和循环细胞(CDK6)的标志物在成像簇0中显著富集，而星形胶质细胞样细胞(APOE、GFAP、GJA1、AQP4、ALDOC)和间充质细胞(CHI3L1、CD44、CHI3L2、CCL2)的标志物在成像簇1中显著富集。因此，该肿瘤中恶性转化细胞的主要基因表达与基本成像学特征之间存在明显的对应性。

提供了一种用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的示例方法。该方法包括：初始化系统，该系统包含：仪器组件，包括流体子系统、热子系统和成像子系统，其中成像子系统包含被配置用于保持微孔阵列的台；耦接到仪器组件的控制子系统，该控制子系统包含至少一个处理器和存储器；并使用所述控制子系统执行操作。该操作包括使用流体子系统将多个细胞流动到微孔阵列上，其中所述细胞的一个子集作为单个细胞存在于微孔中；对于微孔阵列中多个位置中的每个位置，使用成像子系统获得该位置处的一个或多个第一图像并测量细胞光学表型特征的一个或多个；使用流体子系统，将具有细胞识别光学条形码序列和RNA结合序列的多个微珠流动到微孔阵列上，其中所述珠的一个子集作为单个细胞-珠对存在于微孔中；使用流体子系统，将用于RNA文库制备的细胞裂解缓冲液和一种或多种试剂流动到微孔阵列上；使用流体子系统，将多个光学杂交探针的N个池中的第一个流动到微孔阵列上，并使探针与位于其中的珠杂交，所述珠在细胞识别光学条形码序列中具有互补核苷酸序列；对于所述多个位置中的每个位置，使用成像子系统获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个被用于创建描绘所述光学杂交探针中至少一种与细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码；对N个探针池中的每一个重复所述流动和杂交步骤以及获得一个或多个第二图像步骤；对于所述多个位置的每个位置，通过将N个探针池中的每一个的二进制代码映射到细胞识别条形码序列，确定该位置处的细胞识别条形码序列；和存储该位置的细胞识别光学条形码与该位置处的第一图像之间的数据关联；对于所述多个位置的每一个位置，在接收到每个细胞识别光学条形码的核酸测序数据后，存储该核酸测序数据、细胞识别光学条形码和与细胞识别光学条形码相关的第一图像之间的数据关联。该方法包括生成所述一个或多个细胞光学表型特征和与每个所述第一图像相关联的核酸测序数据之间的关系的表示，其中所述单细胞表型特征和相关联的测序数据之间的相关性识别了单细胞光学表型和基于该单细胞转录组学的细胞类型、谱系或克隆之间的对应性。

在一个实例中，细胞光学表型特征是面积、平均强度、强度的标准偏差、最小强度、最大强度、中值强度、周长、宽度、高度、长轴、短轴、圆度(circularity，环形)、费雷特直径(Feret’s diameter)、最小费雷特直径、正圆度(roundness)或坚固度；然而，该方法不限于这些细胞光学表型特征。这种方法的一个优点是可以测量广泛的细胞光学表型特征，除表面特征之外，还包括细胞内特征。这与FACS形成对比，在FACS中只能识别细胞表面表达的变化。

如本领域技术人员所理解的，细胞光学表型特征可源自明场、暗场、荧光、发光、拉曼或散射显微镜或其它显微镜。

在识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法中，所述细胞可以包含组织、肿瘤、细胞培养物或任何类型的体液，包括但不限于血液样本、尿液样本或唾液样品。

在该方法中，细胞可以是人类、哺乳动物或动物细胞。在一个例子中，细胞是免疫细胞、T细胞、B细胞、基质细胞、干细胞、神经细胞或肿瘤细胞。

在识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法的一个实例中，细胞是免疫细胞并且所测量的光学表型特征包括免疫表型特征，例如本领域技术人员已知的免疫表型特征，以表征免疫细胞类型的免疫表型。

在识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法的另一个实例中，该方法中使用的细胞是经过基因修饰的细胞。通过测量基因编辑细胞的一个或多个细胞光学表型特征，目标是识别光学表型特征与具有或不具有基因修饰的细胞克隆之间的对应性。一旦识别了这种对应性，就可以通过光学方法识别基因修饰呈阳性或阴性的所需细胞克隆，而不需要更昂贵的基因测序。这适用于免疫疗法用的细胞以及其它细胞。在一个例子中，经过基因修饰的细胞是干细胞、免疫细胞、T细胞或B细胞。

图21包括一个示例GUI的屏幕截图，用于控制过程的各个方面，特别是设置微孔阵列的明场和多通道荧光扫描的参数。图21示出了用于控制实验的明场和荧光通道的各种用户界面控件。GUI还包括用于手动移动XY平台和自动对焦电机的用户界面控件。

图22是示例GUI的另一屏幕截图，用于查看微孔阵列的实时明场图像以设置扫描的明场通道的成像参数。图22示出了示例实时视图，即来自成像系统的微孔阵列视图。使用用户界面控件，用户可以查看实时图像，例如以查看焦点是否合适，或标记微孔阵列的左上角和右下角以设置扫描用边界。

图23是示例GUI的屏幕截图，用于查看荧光通道之一中微孔阵列的实时图像，以设置扫描通道的成像参数。在图23所示的示例中，GUI示出了荧光实时馈送，例如用于观察细胞或珠。

图24是用于为细胞加载操作设置各种参数的示例GUI的屏幕截图。GUI包括用于指定实验属性和启动微孔阵列扫描的各种用户界面元素。

图25是用于查看微孔阵列扫描的明场成像结果的示例GUI的屏幕截图。图25中所示的示例示出了拼接在一起形成单一图像的不同图像的马赛克拼图。

图26是用于查看微孔阵列扫描的荧光成像结果的另一GUI的屏幕截图。该用户界面控件可用于指定查看参数。

在本公开的自动化系统的一个示例中，该系统被用于将单细胞成像与唯一光学条形码读出相关联，以及制备除RNA文库之外的测序文库。例如，该系统包含：仪器组件，其包括流体子系统、热子系统和成像子系统，其中成像子系统包括配置用于保持微孔阵列的台；与仪器组件耦接的控制子系统，该控制子系统包括至少一个处理器和存储器，该控制子系统被配置为执行操作，包含：使用流体子系统将多个细胞流动到微孔阵列上，其中细胞作为单个细胞存在于微孔中；使用成像子系统为微孔阵列中的多个位置中的每个位置获得该位置处的细胞的一个或多个第一图像；使用流体子系统使具有细胞识别光学条形码序列和用以捕获细胞核酸的引物序列的多个微珠流动到微孔阵列上，其中所述珠的一个子集作为单个细胞-珠对存在于微孔中；使用流体子系统，将用于测序文库制备的细胞裂解缓冲液和一种或多种试剂流动到微孔阵列上；使用流体子系统，将多个光学杂交探针的N个池中的第一个流动到微孔阵列上并使探针与位于其中的珠杂交，所述珠在细胞识别光学条形码序列中具有互补核苷酸序列；对于所述多个位置中的每个位置，使用成像子系统获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个被用于创建描绘所述光学杂交探针中至少一种与细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码；对所述N个探针池中的每一个重复所述流动和杂交步骤以及获得一个或多个第二图像步骤；通过将所述N个探针池中的每一个的二进制代码映射到细胞识别条形码序列，对所述多个位置中的每个位置，确定该位置的细胞识别光学条形码，并存储该位置的细胞识别光学条形码与该位置处的第一张图像之间的数据关联。

在自动化系统的这个例子中，设计用于捕获细胞核酸的引物序列可以是用于捕获RNA、mRNA和非编码RNA的寡(dT)；用于捕获任何DNA或RNA的随机序列；或靶向DNA基因座或RNA转录物的特异序列。

在一个示例中，本公开的自动化系统可用于将单细胞成像数据与核酸测序数据相关联的方法中，而不仅仅是用于RNA转录组学。例如，该方法包含：初始化系统，该系统包含：仪器组件，其包括流体子系统、热子系统和成像子系统，其中成像子系统包括被配置用于保持微孔阵列的台；耦接到仪器组件的控制子系统，该控制子系统包含至少一个处理器和存储器；以及使用控制子系统执行操作，包含：使用流体子系统将多个细胞流动到微孔阵列上，其中细胞的一个子集作为单个细胞存在于微孔中；使用成像子系统为微孔阵列中的多个位置中的每个位置获得该位置处的一个或多个第一图像；使用流体子系统将具有细胞识别光学条形码序列和用以捕获细胞核酸的引物序列的多个微珠流动到微孔阵列上，其中所述珠的一个子集作为单个细胞-珠对存在于微孔中；使用流体子系统，将用于测序文库制备的细胞裂解缓冲液和一种或多种试剂流动到微孔阵列上；使用流体子系统，将多个光学杂交探针的N个池中的第一个流动到微孔阵列上，并使探针与位于其中的珠杂交，所述珠在细胞识别光学条形码序列中具有互补核苷酸序列；对于所述多个位置中的每个位置，使用成像子系统获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个被用于创建描绘所述光学杂交探针中至少一种与细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码；对所述N个探针池中的每一个重复所述流动和杂交步骤和获得一个或多个第二图像步骤；通过将所述N个探针池中的每一个的二进制代码映射到细胞识别条形码序列，对所述多个位置中的每个位置，确定该位置的细胞识别光学条形码，并存储该位置的细胞识别光学条形码和该位置处的第一图像之间的数据关联；和对于所述多个位置中的每个位置，在接收到每个细胞识别光学条形码的核酸测序数据后，存储所述核酸测序数据、细胞识别光学条形码和与该细胞识别光学条形码相关联的第一图像之间的数据关联，其中所述单细胞成像数据由此与该细胞的核酸序列相关联。

在此自动化方法的示例中，所述引物序列可以是用于捕获RNA、mRNA和非编码RNA的寡(dT)；用于捕获任何DNA或RNA的随机序列；或靶向DNA基因座或RNA转录物的特异序列。

在一个示例中，本公开的自动化系统可用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法，包含：初始化系统，该系统包含：仪器组件，其包含流体子系统、热子系统和成像子系统，其中成像子系统包含配置用于保持微孔阵列的台；耦接到仪器组件的控制子系统，该控制子系统包含至少一个处理器和存储器；使用控制子系统执行操作，包含：使用流体子系统将多个细胞流动到微孔阵列上，其中所述细胞的一个子集作为单个细胞存在于微孔中；对于微孔阵列中多个位置中的每个位置，使用成像子系统获得该位置处的一个或多个第一图像，并测量一个或多个细胞光学表型特征；使用流体子系统将具有细胞识别光学条形码序列和用于结合细胞核酸的引物序列的多个微珠流动到微孔阵列上，其中所述珠的一个子集作为单个细胞-珠对存在于微孔中；使用流体子系统，将用于测序文库制备的细胞裂解缓冲液和一种或多种试剂流动到微孔阵列上；使用流体子系统，将多个光学杂交探针的N个池中的第一个流动到微孔阵列上，并使探针与位于其中的珠杂交，所述珠在细胞识别光学条形码序列中具有互补核苷酸序列；对于所述多个位置中的每个位置，使用成像子系统获得一个或多个第二图像以量化该位置处的荧光强度，所述一个或多个第二图像中的每一个被用于创建描绘所述光学杂交探针中至少一种与细胞识别光学条形码之间的匹配或缺乏匹配的二进制代码；对所述N个探针池中的每一个重复所述流动和杂交步骤以及获得一个或多个第二图像步骤；通过将所述N个探针池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定该位置的细胞识别光学条形码，并存储该位置的细胞识别光学条形码和该位置的第一图像之间的数据关联；在接收到每个细胞识别光学条形码的核酸测序数据后，针对所述多个位置中的每个位置，存储所述核酸测序数据、细胞识别光学条形码和与该细胞识别光学条形码相关联的第一图像之间的数据关联。该方法包括生成所述一个或多个细胞光学表型特征和与每个第一图像相关联的核酸测序数据之间的关系的表示，其中所述单细胞表型特征和相关联的测序数据之间的相关性识别了单细胞光学表型和基于该单细胞核酸序列的细胞类型、谱系或克隆之间的对应性。

在示例方法中，所述引物序列可以是用于捕获RNA、mRNA和非编码RNA的寡(dT)；用于捕获任何DNA或RNA的随机序列；或靶向DNA基因座或RNA转录物的特异序列。

因此，虽然已经参考特定实施方式、特征和说明性实施方式描述了所述方法和系统，但应理解的是，本主题的效用并不因此受到限制，而是扩展到并且涵盖基于本文的公开内容，本主题领域的普通技术人员自身可以想到的许多其它变化、修改和替代实施方式。

预期了本文中描述的结构和特征的各种组合和子组合，并且其对于具有本公开知识的技术人员来说将是显而易见的。除非本文有相反指示，否则本文公开的各种特征和元素中的任何一个都可以与一个或多个其它公开特征和元素组合。相应地，下文要求保护的主题旨在被广泛地诠释和解释为包括在其范围内的所有此类变化、修改和替代实施方式并且包括权利要求的等同物。

实施例

实施例1

自动化系统上的单细胞RNA-Seq

装置制备。由聚二甲基硅氧烷(PDMS)(一种常用的弹性聚合物)制成微孔阵列装置，并在使用前一天储存在潮湿室中的洗涤缓冲液(20mM Tris-HCl pH 7.9，50mM NaCl，0.1％吐温-20)中。

细胞制备。进行了五项不同的实验，其中4项实验涉及混合的小鼠(3T3)/人类(U87)细胞，并且一项是使用单独的U87人类细胞。使用0.25％胰蛋白酶-EDTA(LifeTechnologies,cat#25200-072)将细胞解离成单细胞悬浮液；人类U87细胞用钙黄绿素AM(ThermoFisher Scientific,cat#C3100MP)染色，并且小鼠3T3细胞用钙黄绿素红橙色(ThermoFisher Scientific,cat#C34851)在1X TBS中在37℃下染色15分钟。U87和3T3细胞以1:1的比例混合，最终总细胞浓度为1000个细胞/μl。

初始化系统。将微孔阵列装置插入仪器组件中，并将自动化系统配置为自动加载细胞和珠，然后进行单细胞RNA测序文库制备。将单细胞悬液加载到细胞加载储存器中。将珠(Chemgenes Drop-SEQ珠)添加到珠装载储存器中。将单细胞RNA-Seq文库制备试剂装入试剂储存器中，并将试剂储存器连接到仪器组件。

在自动化系统上执行了以下步骤：

细胞加载。在Tris-缓冲盐水(TBS)流过装置后，单个细胞以大约10％的密度加载到装置的各个微孔中(见图8A)。

细胞成像。在明场和荧光通道下扫描了加载细胞的微孔装置(图8A)。使用LED光源和宽视野10x 0.3NA物镜拍摄明场图像。使用LED光源、四波段滤光器组、宽视野10x 0.3NA物镜拍摄荧光图像，分别使用470nm(GFP通道)和555nm(TRITC通道)激发钙黄绿素AM和钙黄绿素红橙色。

基于成像的多重峰识别。将双色活染色荧光图像与绿色的钙黄绿素AM信号和品红色的钙黄绿素红橙色信号合并。在最小的边界正方形内自动检查每个孔。将具有混合物种细胞的孔确定为具有至少一个绿色物体和一个品红色物体；将具有单个细胞的孔确定为只有一个绿色物体或一个品红色物体。

珠加载和成像。用TBS洗涤微孔装置后，将珠加装到装置的各个微孔中至密度为约80％，通过成像确认(图8A)。

细胞裂解和成像。用TBS洗涤微孔阵列装置后，将裂解缓冲液(1％2-巯基乙醇(Fisher Scientific，cat#BP176-100)、99％缓冲液TCL(Qiagen，cat#1031576))、然后是全氟化油(Sigma-Aldrich，cat#F3556-25ML)流入所述装置并在50℃下温育20分钟以促进细胞裂解。该装置被成像作为质量控制步骤，以评估细胞裂解的程度(图8A)。裂解后，装置的温度在25℃下保持90分钟以促进RNA捕获到珠上。将补充有RNase抑制剂的洗涤缓冲液(洗涤缓冲液中，0.02U/μL SUPERaseIN(Thermo Fisher Scientific，cat#AM2696))冲洗通过该装置以打开微孔并去除任何未捕获的RNA分子。再次将该装置成像作为质量检查，以确保充分去除荧光细胞裂解物(参见图8B)。

图像分析。使用ImageJ分析图像来确认裂解。为了识别微孔，在背景和明场图像之间取得差异，然后使用Otsu方法(https://doi.org/10.1109/TSMC.1979.4310076)计算阈值。将该阈值用于生成二进制图像，然后对其进行膨胀并填充孔洞。识别二进制对象以创建孔的掩膜，从而测量细胞加载和裂解效率。细胞加载后，测量活染色图像中微孔的平均荧光强度。平均强度值遵循双峰分布，较高强度的群体对应于含有细胞的微孔。细胞裂解后，测量微孔装置的荧光强度并计算最初含有细胞的孔的裂解效率。图10A示出了分段和标记的微孔的二进制图像。图10B示出了微孔中细胞的明场图像。图10C示出了活染色细胞的荧光图像。图10D示出了细胞裂解后图10C中微孔的荧光图像。

逆转录。逆转录混合物(1X Maxima RT缓冲液、1mM dNTP、1U/μLSUPERaseIN、2.5μM模板转换寡核苷酸、10U/μL Maxima H Minus逆转录酶(Thermo Fisher Scientific，cat#EP0752)、0.1％吐温-20)流入装置，然后在25℃下温育30分钟，然后在42℃下温育90分钟。使补充有RNase抑制剂的洗涤缓冲液冲洗通过装置。

从仪器组件中取出微孔装置，使核酸外切酶I反应混合物(1X Exo-I缓冲液、1U/μLExo-I(New England Biolabs，cat#M0293L))流过该装置，然后在37℃温育45分钟。使TE/TW缓冲液(10mM Tris pH 8.0、1mM EDTA、0.01％吐温-20)冲洗通过装置。收集珠并汇集用于测序。图8B示出了从经过装置上工作流程的珠和阴性对照珠(即未进行装置上逆转录的Drop-SEQ珠)中提取的无珠PCR产物的毛细管和凝胶电泳分析图。

在自动化系统外进行的PCR和测序：

汇集的珠依次用TE/SDS缓冲液(10mM Tris-HCl、1mM EDTA、0.5％SDS)、TE/TW缓冲液和无核酸酶水洗涤。在50μL PCR溶液(1X Hifi热启动就绪混合物(Kapa Biosystems，cat#KK2601)、1μM SMRTpcr引物(表EV5))中进行cDNA扩增，在热循环仪上进行14个扩增循环(95℃3min，4循环的(98℃20s、65℃45s、72℃3min)，10个循环的(98℃20s，67℃20s，72℃3min)，72℃5min)。使用AMPure顺磁珠(Beckman,cat#A63881)以0.6:1的珠与样品的体积比纯化PCR产物。然后使用用于体外转座的Nextera试剂盒(Illumina,FC-131-1024)标记和扩增纯化的cDNA。将0.8ng cDNA用作每个反应的输入。使用独特的i7索引引物对文库加条形码。将i5索引引物替换为通用P5引物，用于选择性扩增cDNA的5’端(对应于RNA的3’端)。对Nextera PCR产物依次进行两轮基于SPRI顺磁珠的纯化，珠与样品的体积比为0.6:1和1:1，以获得可测序的文库。在lllumina NextSeq 500上测序之前掺入20％PhiX文库(lllumina，FC-131-1024)，使用26个循环读数1、58个循环读数2和8个循环索引读数。将自定义测序引物用于读数1。

表1示出了从上述5个实验产生的测序数据。数据显示自动化系统可以从多种细胞类型产生高纯度的cDNA文库。

表1

样本	细胞数	平均计数/细胞	纯度(％)	多重峰比率(％)
					1	790	5,600	N.D.	N.D.
2	270	3,200	94	18
					3	588	3,700	96	23
4	355	6,300	98	34
					5	347	4,700	89	26

子采样分析。为了分析scRNA-seq数据的饱和行为和灵敏度，将对齐的读数随机子采样并使用scRNA-seq分析重新处理。然后基于从总读数中发现的细胞计算两个统计数据，每个细胞的分子和每个细胞的基因。

验证数据。图12-14示出了验证自动化系统上来自混合物种实验的测序结果的附加数据。

图12是散点图，示出了来自上述混合物种实验之一的每个细胞识别条形码的人类和小鼠比对转录物分子的数量。该图说明，虽然大多数细胞识别条形码与一个物种密切相关，但有些与两者都相关，表明多个细胞与珠子共同封装。

图13示出了对于来自上述混合物种实验之一与人类或小鼠转录组注释(其中至少70％的分子与人类或小鼠转录组对齐)相关的细胞识别条形码，每个细胞检测到的转录分子数量分布的小提琴图。

图14示出了对于来自上述混合物种实验之一与人类或小鼠转录组注释(其中至少70％的分子与人类或小鼠转录组对齐)相关的细胞识别条形码，每个细胞检测到的基因数量分布的小提琴图。

实施例2

构建具有细胞识别光学条形码序列的珠

使用R包“DNAbarcodes”设计8-nt细胞条形码序列，标准如下：序列彼此之间至少有3个Levenshtein距离；含有长度超过2个核苷酸的均聚物、GC含量<40％或>60％的序列或完全自互补序列被删除。基于较少的二级结构形成进一步选择序列。

珠设计如图11A所示。珠合成由Chemgenes Corp(Wilmington,MA)进行，如图11B所示。将带有柔性链接头的Toyopearl HW-65S树脂(平均粒径～30微米)(TosohBiosciences，cat#19815，Tosoh Bioscience)用作反向亚磷酰胺合成的固体支持物。以50微摩尔规模用序列‘TTTTTTTAAGCAGTGGTATCAACGCAGAGTACNN’合成珠，分成96部分以添加“S”细胞条形码序列之一，汇集在一起以添加‘NN’，分成96部分以添加“Q”细胞条形码序列之一，并且汇集在一起以添加‘NNNN’和30个T。

实施例3

用于光解码的光杂交探针池的标记和生成

合成和纯化与具有3’-氨基修饰的8-nt细胞条形码互补的192寡核苷酸(Sigma-Aldrich)，然后以200μM重悬于水中。为了生成对应于二进制代码中每一位的探针混合物，取出标记为‘1’的寡核苷酸(参见图11C)，汇集并以最终浓度22μM重新悬浮在0.1M四硼酸钠(pH 8.5)耦接缓冲液中，具有0.6μg/μL反应性荧光团。在室温下，将磺基-CY5 NHS酯(Lumiprobe,cat#21320)与S寡核苷酸池耦接，并且将磺基-CY3 NHS酯(Lumiprobe，cat#23320)与Q寡核苷酸池耦接过夜。去除多余的荧光团并且通过乙醇沉淀(80％乙醇、0.06MNaCl、6μg/mL糖原)回收寡核苷酸。使用NanoDrop(Thermo Scientific)量化探针的浓度。将探针池稀释，使得每个探针的最终浓度为～20nM，并且在使用前，对于每个二进制代码位，将两个明显标记的探针池混合在一起。

实施例4

自动化系统上光学杂交探针的成像

图6B中显示的加载光学杂交探针、成像和移除探针的自动化系统步骤验证如下。将DROP SEQ珠(Chemgenes)加载到如上文实施例1中所述的微孔阵列中。然后通过使成像缓冲液(2xSSC，0.1％吐温-20)流过装置进行洗涤。在明场、Cy3和Cy5发射通道中扫描该装置。使用LED光源(Lumencor,AURA III,390/22nm,475/28nm,555/28nm,635/22nm)、四波段滤光器组(Semrock,LED-DA/FI/TR/Cy5-B-000)、宽视野10倍物镜(Olympus,UPLFLN10X2)以及分别用于Cy3和Cy5的555nm和649nm激发，采集荧光图像。将在成像缓冲液中浓度为20nM的一个或一组杂交探针流入装置中并温育10分钟。通过使成像缓冲液流过装置进行洗涤以去除未杂交的探针。在明场、Cy3和Cy5发射通道中扫描该装置。成像后，将解链缓冲液流入装置并温育10分钟以去除杂交探针。使用一种或多种单一或混合探针，将这些步骤重复一次或多次。完成后，通过流入成像缓冲液洗涤装置。

图15A示出了比较在本公开的自动化系统中，与阵列的各个微孔中存在的珠上的互补细胞识别光学条形码杂交的8-碱基Cy3-标记和8-碱基Cy5-标记的光学探针的原始和分析的荧光图像的图像。

图15B示出了荧光杂交成像循环的图像，其中将一组汇集的8-碱基Cy5-标记的寡核苷酸和一组8-碱基Cy3-标记的寡核苷酸引入装载有珠的阵列装置中，并在通道2和3的每一个中分别探测每个珠上的第一和第二序列。

图16是显示荧光杂交成像循环的软件分析以识别每个珠上一起形成细胞识别光学条形码序列的两个条形码序列的图像。将由8-碱基Cy5-标记的寡核苷酸和8-碱基Cy3-标记的寡核苷酸组成的一组汇集的杂交探针引入装有珠的阵列装置中，并在通道2和3中的每一个中成像，以分别探测位于每个珠上的第一和第二条形码序列。这种混合汇集探针的软件分析表明通道2检测到的荧光为“阳性”、通道3为“阳性”或两者均为阳性。

实施例5

使用具有细胞识别光学条形码序列的RNA捕获珠进行的单细胞RNA-Seq和光学解码

在本项实验中，使用了256个可能二进制代码中的96个(参见图11A-C和实施例2和3，用于珠和光学杂交探针的设计和合成)，更重要的是，已测序的细胞识别光学条形码的数量(每个实验<10,000个细胞)比总共92,160个可能条形码少得多。因此，光学解码中的错误将主要导致为珠分配不可映射的二进制代码，或未出现在测序数据中的细胞识别光学条形码。两种类型的错误分配进一步导致链接成像和测序数据集的失败，而不是错误的链接。因此，更准确的光学解码方法将提供更高比例的链接的成像和测序数据。

为了比较‘逐珠’光解码方法和‘逐循环’方法，在两个数据集上测试了两种方法。

为了从成像中解码细胞识别光学条形码序列，使用了‘逐循环’方法，该方法基于每个杂交循环中所有珠的强度值的双峰分布来调用每个珠的二进制代码。当‘一’状态群的珠荧光强度值与‘零’状态群的珠荧光强度值很好地分开时，这种方法效果很好。然而，由于珠在较短的波长下表现出自发荧光，因此两个群在Cy3发射通道中没有清楚地分开。

为了从成像中准确解码细胞条形码序列，使用了经修饰的‘逐珠’荧光强度分析策略。通过将八个强度值按升序排序，计算每对相邻值之间的相对强度变化，基于最大相对强度变化建立阈值以分配二进制代码，并且将二进制代码映射到实际的细胞条形码序列，从而确定每个珠的细胞条形码序列(图17A)。对于那些不可映射的二进制代码，基于下一个最大的相对强度变化重复重新分配二进制代码，直到代码可以成功地被映射到细胞条形码序列。由于这种方法独立解码每个珠，因此当‘一’和‘零’强度状态分离不佳时，可以预期提供更好的结果。

在数据集PJ070和PJ069中，使用‘逐珠’方法将46％和57％的scRNA-seq谱与细胞图像相链接，相比之一，使用‘逐循环’方法的比例仅为24％和37％。在两个数据集中，使用‘逐珠’方法观察到的链接细胞的比例至少增加了20％(图17B)，这表明‘逐珠’方法更适合通过图像分析的细胞识别光学条形码序列解码。

进行以下实验以比较光解码方法：

制备。用洗涤缓冲液(20mM Tris-HCl pH7.9，50mM NaCl，0.1％Twe20)填充微孔阵列装置并在使用前一天储存在潮湿室中。将细胞培养物或组织样本分解成单细胞悬液，并用所需的荧光染料染色。

细胞加载。预填充的微孔阵列装置用Tris-缓冲盐水(TBS)冲洗。将单细胞悬液移液到微孔阵列装置中。3分钟后，用TBS冲洗掉未捕获的细胞然后。

细胞成像。使用自动荧光显微镜(Nikon，Eclipse Ti2)在明场和荧光通道下扫描装载有细胞的微孔装置。使用RGB光源(Lumencor，Lida)和宽视野10x 0.3NA物镜(Nikon，cat#MRH00101)拍摄明场图像。使用LED光源(Lumencor，SPECTRA X)、四波段滤光器组(Chroma，cat#89402)、宽视野10x 0.3NA物镜(Nikon，cat#MRH00101)，分别使用用于钙黄绿素AM和钙黄绿素红橙色的470nm(GFP通道)和555nm(TRITC通道)激发，拍摄荧光图像。

scRNA-seq(在微孔装置上进行的步骤)。将珠(Chemgenes)吸入微孔装置中，并且用1x TBS冲洗掉未捕获的珠。如前所述，将含有细胞和珠的微孔装置连接到计算机控制的试剂和温度输送系统。将裂解缓冲液(1％2-巯基乙醇(Fisher Scientific，cat#BP176-100)、99％缓冲液TCL(Qiagen，cat#1031576)和全氟化油(Sigma-Aldrich，cat#F3556-25ML)流入装置中，随后在50℃下温育20分钟以促进细胞裂解，然后在25℃下温育90分钟以捕获RNA。使补充有RNase抑制剂的洗涤缓冲液(0.02U/μLSUPERaseIN(Thermo FisherScientific,cat#AM2696)在洗涤缓冲液中)冲洗通过装置，以打开微孔并去除任何未捕获的RNA分子。使逆转录混合物(1X Maxima RT缓冲液，1mM dNTP，1U/μL SUPERaseIN，2.5μM模板切换寡核苷酸，10U/μL Maxima H Minus逆转录酶(Thermo Fisher Scientific，cat#EP0752)，0.1％吐温-20)流入装置，然后在25℃下温育30分钟，然后在42℃下温育90分钟。使补充有RNase抑制剂的洗涤缓冲液冲洗通过装置。将装置与自动试剂输送系统断开连接。将核酸外切酶I反应混合物(1X Exo-I缓冲液，1U/μL Exo-I(New England Biolabs，cat#M0293L))移液到装置中，然后在37℃下温育45分钟。使TE/TW缓冲液(10mM Tris pH 8.0，1mM EDTA，0.01％吐温-20)冲洗通过装置。

光解复用方法。将含有具有cDNA的珠的微孔装置连接到计算机控制的试剂输送和扫描系统。将解链缓冲液(150mM NaOH)注入装置中并且温育10分钟。然后用成像缓冲液(2xSSC，0.1％吐温-20)洗涤装置。自动成像程序在明场Cy3和Cy5发射通道中扫描装置。使用LED光源(Lumencor，光谱x)、四波段滤光器组(Chroma,cat#89402)、宽视野10x物镜(Nikon,cat#MRH00101)以及分别用于Cy3和Cy5的555nm和649nm激发，采集荧光图像。将杂交溶液(补充有探针池A的成像缓冲液，如下所述)注入装置并温育10分钟。然后用成像缓冲液洗涤该装置。自动成像程序在明场Cy3和Cy5发射通道下扫描装置。使用探针池B到H重复上一步骤7次。将解链缓冲液注入装置并温育10分钟。然后用成像缓冲液洗涤装置，然后将其与自动试剂输送系统断开。

创建光学探针池。为了将细胞成像与来自同一细胞的scRNA-seq联系起来，通过顺序荧光探针杂交识别微孔阵列中每个珠上的细胞识别光学条形码序列。使用时间条形码策略，其中每个细胞识别光学条形码序列对应于唯一预定义的8位二进制代码(见图11A-11B)。二进制代码的每一位都可以通过一个循环的探针杂交读出，其中杂交探针的存在或不存在分别表示一或零。可以使用两组不同颜色的荧光探针同时解码细胞条形码的两个部分。为了实现这种解码方案，为每个杂交循环产生荧光探针池。将可以与在相应二进制代码中标记为‘1’的细胞条形码序列杂交的所有探针汇集并与荧光团Cy5或Cy3缀合(图11C)。然后将包含所述细胞识别光学条形码的针对两个8-核苷酸细胞条形码序列“S”和“Q”的不同荧光团缀合的探针汇集在一起，以形成最终的探针池(图11C)。因此，所有可能的细胞条形码序列都被八个循环的双色探针杂交解码。这种方法是可扩展的，并在珠表面上提供了亮信号，因为每个引物都含有可光学解码的条形码。因此，含有细胞识别光学条形码的珠与高速成像兼容，从而实现高通量。

在微孔装置上进行的scRNA-seq步骤。将全氟化油移液到含有细胞和珠的装置中以密封微孔。然后将装置切成10个区域。通过将每小块含有珠的PDMS浸泡在100％乙醇中、涡旋、水浴超声处理和在1.7mL微量离心管中离心来分离萃取每个区域的珠。然后用镊子去除PDMS。从每个区域提取的珠在单独的反应中进行处理，用于下游文库构建。珠依次用TE/SDS缓冲液(10mM Tris-HCl，1mM EDTA，0.5％SDS)、TE/TW缓冲液和无核酸酶水洗涤。在50μLPCR溶液(1X Hifi热启动就绪混合物(Kapa Biosystems，cat#KK2601)、1μM SMRTpcr引物)中进行cDNA扩增，在热循环仪上进行了14个扩增循环(95℃3min，4个循环的(98℃20s，65℃45s，72℃3min)，10个循环的(98℃20s，67℃20s，72℃3min)，72℃5min)。将来自每个小块的PCR产物汇集并使用SPRI顺磁珠(Beckman,cat#A63881)纯化，珠与样品的体积比为0.6:1。然后使用用于体外转座的Nextera试剂盒(Illumina,FC-131-1024)标记和扩增纯化的cDNA。将0.8ng cDNA用作每个反应的输入。将独特的i7索引引物用于对从装置的每一小块获得的库进行条形码。将i5索引引物替换为通用P5引物，用于选择性扩增cDNA的5’端(对应于RNA的3’端)。在Nextera PCR产物上依次进行两轮基于SPRI-顺磁珠的纯化，珠与样品的体积比为0.6:1和1:1，以获得测序就绪的文库。在lllumina NextSeq 500上进行测序之前，汇集所得的单细胞RNA-Seq文库，并掺入20％PhiX文库(lllumina，FC-131-1024)，其中26个循环读数1、58个循环读数2和8个循环索引读数。将自定义测序引物用于读数1。

自动试剂输送系统。自动试剂输送和扫描系统为自动光学解码而设计。在该系统中，将由压力调节器(SMC Pneumatics,cat#AW20-N02-Z-A)稳定的固定正压(～1psi)用于驱动流体流动。微孔装置在温育步骤中不断加压，以防止蒸发和气泡形成。两个10-通道旋转选择阀(IDEX Health&Science，cat#MLP778-605)并联连接以在14个试剂通道之间切换。将位于微孔装置下游的三通电磁阀(Cole-Parmer,cat#EW-01540-11)用作试剂流的开/关切换。多通道选择阀由USB数字I/O设备(National Instruments，cat#SCB-68A)控制。三通电磁阀由同一USB数字I/O设备控制，但通过自制的晶体管开关电路。该系统由成像软件(Nikon，NIS-Elements)控制。

珠光解码分析。将八个探针杂交循环(A到H)用于细胞条形码光学解码。对于每个循环，将装置在明场Cy3和Cy5发射通道中成像。通过ImageJ粒子分析器插件首先在明场图像中识别珠，并记录明场图像中珠的位置。然后测量Cy3和Cy5图像中每个珠的平均荧光强度。将在循环B到H中识别的珠映射到循环A中最近的珠。因此，得到了探针杂交矩阵，n个珠x16个强度值(Cy3的8个和Cy5的8个)。为了从成像数据中调用细胞条形码，测试了两种方法：

逐循环。在逐循环方法中，对于每个循环和每个荧光通道；获取N个对数转换后的平均强度值；使用50个bin计算强度直方图；确定中值强度值M，和将强度值小于M的最高bin识别为B₁并且将强度值大于M的最高bin识别为B₂；识别具有处于之间的强度值的最低binB₃；获得的bin B₃的中值强度值I，然后将小于I的强度值赋值0并将大于I的强度值赋值1。参考二进制代码表。如果赋值的代码在表中，则返回对应的细胞标识光学条形码序列。

逐珠。在逐珠法中，对于每个珠和每个荧光通道；得到八个平均荧光强度值x₁、x₂、…、x₈；令y₁、y₂、…、y₈为排序后的值；令f_n＝(y_n+1-y_n)/yn，n＝1、2、…、7，为相邻排序值之间的相对强度倍数变化；确定最大的倍数变化

然后将0赋值给y₁、y₂、…、y_N并将1赋值给值y_N+1、y_N+2、…、y₈；参考二进制代码表。如果赋值的代码在表中，则返回对应的细胞条形码序列；否则，从列表{f_n}中删除f_N并使用下一个最大的倍数变化重复该过程，直到返回相应的细胞条形码序列或列表{f_n}为空。

实施例6

使用含有细胞识别光学条形码的RNA捕获珠链接成像和测序数据的准确性

进行了一项实验，以在通量、分子捕获效率以及链接成像和测序数据的准确性方面展示使用含有细胞识别光学条形码的RNA捕获珠将单细胞表型图像和核酸序列数据链接起来。

使用用两种不同颜色的活染色染料标记的混合人类(U87)和小鼠(3T3)细胞进行该实验。将混合细胞以相对较高的密度加载到微孔中，并且从单个实验中获得9,061个转录谱。在饱和测序深度下，从每个细胞的3,548个基因中平均检测到10,245个RNA转录物(图18A、18B)。为了评估链接准确性，从荧光标记的颜色和RNA-seq中物种特异性比对率(具有>90％的读数与给定物种的转录组对齐的细胞被认为是物种特异性的)识别每个细胞的物种，并检查两个细胞物种调用的一致性。在与成像数据成功链接的4,145个scRNA-seq谱中，获得了99.2％(0.8％错误率)的类平衡链接准确率，98.8％的人类细胞和99.6％的小鼠细胞与来自双色成像的物种调用一致(图18C)。此外，通过手动识别来自双色细胞图像的混合物种和单物种多重峰，可以自信地去除多重峰。通过比较基于图像和基于测序的混合物种多重峰，获得68.8％的多重峰检测灵敏度和97.0％的特异性。去除了大部分低纯度的转录谱(图18D)。由于确认了高链接准确性，因此怀疑通过测序而不是成像检测到的混合物种多重峰是因为作为基本事实的scRNA-seq数据存在缺陷。

方法。

细胞培养。在37℃和5％二氧化碳下，在补充有10％牛胎儿血清(FBS,LifeTechnologies,cat#16000044)的Dulbecco氏改良eagle培养基(DMEM，Life Technologies，cat#11965118)中培养人类U87和小鼠3T3细胞。

人类和小鼠细胞混合实验。人类U87细胞用钙黄绿素AM(ThermoFisherScientific，cat#C3100MP)染色并且小鼠3T3细胞用钙黄绿素红橙(ThermoFisherScientific，cat#C34851)在37℃下在培养基中染色10分钟。然后通过0.25％胰蛋白酶-EDTA(Life Technologies，cat#25200-072)将染色的细胞解离成单细胞悬液，并重新悬浮在TBS缓冲液中。U87和3T3细胞以1:1的比例混合，最终总细胞浓度为1000个细胞/μl。对混合细胞悬液进行处理和测序，并如上文实施例5中所述处理图像和测序数据。

基于成像的多重峰识别。将双色活染色荧光图像与绿色的钙黄绿素AM信号和品红色的钙黄绿素红橙信号合并。在最小的边界正方形内手动检查每个孔。将具有混合物种细胞的孔确定为具有至少一个绿色物体和一个品红色物体；将具有单个细胞的孔确定为只有一个绿色物体或一个品红色物体。

子采样分析。为了分析scRNA-seq数据的饱和行为和灵敏度(图18A)，将对齐的读数随机子采样，并使用上文描述的程序通过scRNA-seq分析重新处理。然后基于从总读数中发现的细胞计算两个统计数据，每个细胞的分子和每个细胞的基因。

链接成像和scRNA-seq数据的准确性。将链接准确性定义为基于scRNA-seq和成像的物种之间调用与单个物种相关的细胞条形码的一致性。在scRNA-seq数据中，将具有>90％的读数与给定物种唯一对齐的细胞视为对应到单一物种。在成像数据中，基于成像的物种调用是基于细胞活染色颜色确定的。钙黄绿素AM强度>724的细胞称为基于成像的人类细胞；钙黄绿素红橙强度>2,048的细胞称为基于成像的小鼠细胞。将强度阈值确定为强度值的双峰高斯分布的两个平均值之间的最短bin的强度。

实施例7

人类胶质母细胞瘤样本中单细胞RNA-Seq和细胞表型图像分析的整合

为了证明使用本文所述的细胞识别光学条形码从人类组织样本中收集成对的光学和转录表型，对从人类胶质母细胞瘤(GBM)手术样本中分离并用钙黄绿素AM(一种报告酯酶的荧光染料)标记的细胞进行了实验。获得了1,954个scRNA-seq谱，并且将其中的1,110个与活细胞图像链接。基于成像分析去除细胞多重峰。钙黄绿素AM通常用作活染色剂，因此，低荧光强度的离群细胞也会被去除。恶性转化的GBM细胞通常类似于成人大脑中的非肿瘤性神经细胞类型，因此简单的基于标志物的分析不足以确认恶性状态。为了解决这一点，基于基因表达，使用7号染色体扩增和10号染色体缺失(这是在GBM中普遍存在的两种常见的非整倍体)，识别了大量细胞。然后，使用单细胞分层泊松分解(scHPF)计算数据的低维表示，以识别定义种群的关键基因签名，并使用均匀流形近似和投影(UMAP)可视化它们在细胞中的分布。恢复了先前从GBM的scRNA-seq中报道的所有主要细胞类型，包括髓细胞、内皮细胞、周细胞、恶性转化的星形胶质细胞样细胞、间充质样细胞、少突胶质细胞-祖细胞样/神经母细胞-祖细胞样细胞(OPC/NPC)和循环细胞(图19A、19B)。从细胞图像中测量了十六个成像特征，并且使用无监督分层聚类将这些特征分组为细胞大小、形状和钙黄绿素AM强度三类(图19C)，以创建三个基于成像的元特征。通过将元特征与scRNA-seq细胞类型链接起来，发现骨髓细胞(7和12簇)相对圆形且小，具有高酯酶活性；内皮细胞很大，不如预期的圆，并且具有中等的酯酶活性；并且周细胞具有中等形状、大小和强度(图19D)。

恶性转化的GBM细胞的成像特征和谱系身份之间关系的识别。GBM中的恶性细胞可以类似于多个神经谱系并表现出间充质表型。由于已知恶性GBM细胞具有高度的可塑性并经历分化和去分化，因此使用扩散图来可视化它们的谱系关系。如上所述，基于非整倍体选择恶性细胞，通过scHPF降低恶性细胞基因表达的维度，并使用扩散图对分解数据进行可视化，这揭示了两个主要分支。一个分支由星形胶质细胞样细胞组成并以间充质样细胞终止，而另一个分支由OPC/NPC细胞和循环细胞组成。这与先前发表的研究一致，表明星形胶质细胞样和间充质胶质瘤细胞比OPC样胶质瘤细胞明显更静止。

为了探索恶性细胞的成像特征如何与两个主要细胞谱系相关，询问细胞成像特征的无监督聚类是否对应于scRNA-seq中观察到的两个主要谱系。恶性细胞通过上述三个成像元特征使用分层聚类进行聚类，并识别出两个主要的细胞成像簇。通过在恶性细胞的扩散图嵌入上绘制两个成像簇，发现圆形、低强度和小尺寸的细胞(成像簇0)在OPC/NPC-循环分支中富集，而形状粗糙、高强度和大尺寸的细胞(成像簇1)富含星形胶质细胞-间充质分支(图20D)。这一发现得到了比较两个成像簇中细胞表达谱的差异表达分析的进一步支持。正如预期的那样，OPC/NPC(MAP2、OLIG1、DLL3)和循环细胞(CDK6)的标志物在成像簇0中显著富集(FDR<0.05，曼-惠特尼U检验)，而星形胶质细胞样细胞(APOE、GFAP、GJA1、AQP4、ALDOC)和间充质细胞(CHI3L1、CD44、CHI3L2、CCL2)的标志物在成像簇1中显著富集(FDR<0.05，曼-惠特尼U检验)。因此，该肿瘤中恶性转化细胞的主要基因表达与基本影像学特征之间存在明显的对应性。

方法。

GBM组织处理。从WHO IV级GBM手术切除过程中收集的多余材料中获得单细胞悬液。患者是匿名且样本已去标识化。在Hank平衡盐溶液中，在37℃下与木瓜蛋白酶一起温育30分钟后，将组织机械分离。在100xg下离心后将细胞重新悬浮在TBS中，然后在室温下用氯化铵选择性裂解红细胞15分钟。最后，用TBS洗涤细胞并使用Countess(ThermoFisher)进行定量。细胞用钙黄绿素AM(ThermoFisher Scientific,cat#C3100MP)染色。GBM细胞悬液使用含有细胞识别光学条形码的RNA捕获珠进行处理和测序，并且如本文实施例5-7中所述处理成像和测序数据。基于钙黄绿素AM荧光图像最小边界正方形内每个孔的手动检查，去除多重峰。基于钙黄绿素AM荧光强度识别死细胞。将高斯分布拟合到荧光强度直方图上，设置低于5个百分点的阈值，并去除强度低于阈值的细胞。

活细胞成像分析。使用ImageJ软件分析图像。为了识别带有细胞的微孔，使用局部阈值将微孔轮廓识别为来自明场图像的对象，然后测量活染色图像中微孔的平均荧光强度。平均强度值遵循双峰分布，较高强度的群体对应于含有细胞的微孔。为了提取细胞光学表型，只选择带有细胞的微孔，并在相应微孔的最小边界正方形内单独分析每个细胞。使用自动阈值和粒子分析仪在活染色荧光图像中识别细胞。由软件识别的具有多个细胞的微孔被排除在外。为荧光图像中的每个细胞测量十六个成像特征：面积、平均强度、强度标准偏差、最小强度、最大强度、中值强度、周长、宽度、高度、长轴、短轴、圆度、费雷特直径、最小值费雷特直径、正圆度和坚固度。

使用光学条形码珠分析scRNA-seq。为了分析使用含有细胞识别光学条形码序列的珠收集的scRNA-seq数据，首先基于设计的寡核苷酸序列NN(8-nt细胞条形码S)NN(8-nt细胞条形码Q)NNNN。对于所有序列对，192个8-nt细胞条形码序列的汉明距离至少为3。因此，在细胞条形码序列中纠正了一个替换错误。仅保留具有完整细胞条形码的读数。接下来，在去除3’聚(A)尾(由>7A的大片区域表示)和聚(A)尾去除后少于24个核苷酸的片段之后，使用STAR v.2.7.0对准器，将读数从读数2对齐到合并的人类/小鼠基因组(GRCh38用于人类且GRCm38用于小鼠)，具有合并GENCODE转录组注释(对于两种物种，GENCODE v.24)。下游分析只包括唯一映射到注释链上的外显子的读数。具有相同细胞条形码、UMI(经过一次替换错误更正后)和基因映射的读数被认为来自相同的cDNA分子并被折叠。最后，该信息用于生成分子计数矩阵。

用于链接细胞成像和测序数据的光学条形码珠。为了将从成像中识别出的细胞识别光学条形码与细胞成像表型链接起来，将在光学解码过程中获得的微孔装置的明场图像映射到基于左上角和右下角微孔的活细胞成像图像。然后将细胞注册到微孔半径内最近的映射珠。为了将细胞成像表型与表达谱链接起来，只考虑带有注册细胞的细胞条形码，然后从成像和测序中找到细胞识别光学条形码的准确和唯一映射。

单细胞分层泊松分解(scHPF)分析。为了降低scRNA-seq结果的维度，使用scHPF以默认参数和K＝13对基因计数矩阵进行分解。其中因素之一含有基因评分高的多个热休克(在前50个基因中)，可能表明某些细胞中存在解离伪影。在所有下游分析中都删除了该因素。

恶性细胞识别。如前所述，基于scHPF模型进行细胞非整倍性分析。为了计算scHPF估算的表达矩阵，在scHPF模型中将基因和细胞权重矩阵(变量θ和β的期望矩阵)相乘，然后将结果矩阵对数转换为log₂(预期计数/10000+1)。如前所述，使用scHPF估算的计数矩阵计算每个体细胞染色体上的平均基因表达。将恶性评分定义为7号染色体基因与10号染色体基因的平均表达之间的差，<log₂(7号染色体表达)>-<log₂(10号染色体表达)>。将双高斯分布拟合至恶性评分，并且将两个平均强度之间最短bin的评分用作区分恶性和非恶性细胞群的阈值。将恶性和非恶性细胞之间染色体平均表达的差计算为：表达减去非恶性细胞的平均表达。

scRNA-seq聚类和可视化。为了可视化scHPF模型(图19A)，使用从细胞评分矩阵计算的Pearson相关距离矩阵生成UMAP嵌入。为了对scRNA-seq谱进行聚类，使用Louvain社区检测的Phenograph实现，用Pearson相关矩阵和k＝50来构建k-最近邻图。

细胞光学表型聚类。为了降低细胞成像特征的维数，使用python模块‘SciPy’中的‘连接(linkage)’方法并使用相关距离将16个细胞成像特征进行z-归一化和分层聚类。将图19C中的树状图切割为k＝3以形成对应于细胞大小、形状和酯酶活性的三个成像特征簇。将元特征的值计算为每个簇内成像特征的平均值。为了基于其光学表型对恶性细胞进行聚类，使用python模块‘SciPy’中的‘连接(linkage)’方法并使用相关距离对成像元特征进行分层聚类。

恶性转化的GBM细胞的扩散图嵌入。使用scHPF以默认参数和K＝15对恶性转化的GBM细胞(通过如上所述的非整倍体分析确定)的分子计数矩阵进行分解。在进一步分析之前，删除了15个因素中的一个，其在热休克反应基因方面表现出高分，因为它可能代表细胞子集中的解离伪影。然后使用DMAPS Python库计算扩散分量。将从scHPF细胞评分矩阵计算的Pearson相关距离矩阵用作输入，内核带宽为0.5。将前两个扩散分量绘制在图19D中。

scRNA-seq差异表达。使用曼惠特尼U检验进行差异表达分析。对于两组细胞的成对比较，将具有更多细胞的组随机子采样至与具有较少细胞的组相同的细胞数。接下来，将来自每个细胞检测到的平均分子数较高的组中的检测分子随机子采样，以便两组具有相同的每细胞检测到的分子平均数。然后使用在扫描R包中实现的随机池化方法对所得的子采样矩阵进行归一化。最后，使用Python包SciPy中的‘mannwhitneyu’函数，使用曼惠特尼U检验对得到的归一化矩阵进行基因间差异表达检验。使用Python包statsmodels中‘multipletests’函数中实现的Benjamini-Hochberg方法校正得到的p值。

参考文献

1.Macosko EZ,Basu A,Satija R,Nemesh J,Shekhar K,Goldman M,Tirosh I,Bialas AR,Kamitaki N,Martersteck EM,et al:Highly Parallel Genome-wideExpression Profiling of Individual Cells Using Nanoliter Droplets.Cell 2015,161:1202-1214.

2.Klein AM,Mazutis L,Akartuna I,Tallapragada N,Veres A,Li V,PeshkinL,Weitz DA,Kirschner MW:Droplet barcoding for single-cell transcriptomicsapplied to embryonic stem cells.Cell 2015,161:1187-1201.

3.Bose S,Wan Z,Carr A,Rizvi AH,Vieira G,Pe'er D,Sims PA:Scalablemicrofluidics for single-cell RNA printing and sequencing.Genome Biol 2015,16:120.

4.Rotem A,Ram O,Shoresh N,Sperling RA,Schnall-Levin M,Zhang H,Basu A,Bernstein BE,Weitz DA:High-Throughput Single-Cell Labeling(Hi-SCL)for RNA-SeqUsing Drop-Based Microfluidics.PLoS One 2015,10:e0116328.

5.Fan HC,Fu GK,Fodor SP:Expression profiling.Combinatorial labelingof single cells for gene expression cytometry.Science 2015,347:1258367.

6.Shalek AK,Satija R,Adiconis X,Gertner RS,Gaublomme JT,RaychowdhuryR,Schwartz S,Yosef N,Malboeuf C,Lu D,et al:Single-cell transcriptomicsreveals bimodality in expression and splicing in immune cells.Nature 2013,498:236-240.

7.Lane K,Van Valen D,DeFelice MM,Macklin DN,Kudo T,Jaimovich A,CarrA,Meyer T,Pe'er D,Boutet SC,Covert MW:Measuring Signaling and RNA-Seq in theSame Cell Links Gene Expression to Dynamic Patterns of NF-kappaBActivation.Cell Syst 2017,4:458-469e455.

8.Goldstein LD,Chen YJ,Dunne J,Mir A,Hubschle H,Guillory J,Yuan W,Zhang J,Stinson J,Jaiswal B,et al:Massively parallel nanowell-based single-cell gene expression profiling.BMC Genomics 2017,18:519.

9.Yuan J,Sims PA:An Automated Microwell Platform for Large-ScaleSingle Cell RNA-Seq.Sci Rep 2016,6:33883.

10.Gierahn TM,Wadsworth MH,2nd,Hughes TK,Bryson BD,Butler A,Satija R,Fortune S,Love JC,Shalek AK:Seq-Well:portable,low-cost RNA sequencing ofsingle cells at high throughput.Nat Methods 2017,14:395-398.

11.Love JC,Ronan JL,Grotenbreg GM,van der Veen AG,Ploegh HL:Amicroengraving method for rapid selection of single cells producing antigen-specific antibodies.Nature Biotechnology 2006,24:703-707.

12.Sims CE,Allbritton NL:Analysis of single mammalian cells on-chip.Lab on a Chip 2007,7:423-440。

Claims

1.一种用于将单细胞成像与唯一光学条形码读出相关联和制备RNA文库的自动化系统，所述系统包括：

仪器组件，所述仪器组件包括流体子系统、热子系统和成像子系统，其中，所述成像子系统包括被配置用于保持微孔阵列的台；

耦接到所述仪器组件的控制子系统，所述控制子系统包括至少一个处理器和存储器，所述控制子系统被配置用于执行操作，所述操作包括：

使用所述流体子系统，使多个细胞流动到所述微孔阵列上，其中，所述细胞的一个子集作为单个细胞存在于微孔中；

使用所述成像子系统，对于所述微孔阵列中的多个位置中的每个位置获得在所述位置处的所述细胞的一个或多个第一图像；

使用所述流体子系统，使具有细胞识别光学条形码序列和RNA结合序列的多个微珠流动到所述微孔阵列上，其中，珠的一个子集作为单个细胞-珠对存在于所述微孔中；

使用所述流体子系统，使用于RNA文库制备的细胞裂解缓冲液和一种或多种试剂流动到所述微孔阵列上；

使用所述流体子系统，使多个光学杂交探针的N个池中的第一个流动到所述微孔阵列上，并使所述探针与位于所述微孔阵列中的所述珠杂交，所述珠在所述细胞识别光学条形码序列中具有互补核苷酸序列；

使用所述成像子系统，对于所述多个位置中的每个位置，获得一个或多个第二图像以量化所述位置处的荧光强度，将所述一个或多个第二图像中的每一个用于创建二进制代码，所述二进制代码描绘所述光学杂交探针中的至少一种与细胞识别光学条形码之间的匹配或缺乏匹配；

对于所述探针的N个池中的每一个，重复流动和杂交步骤和获得一个或多个第二图像步骤；和

通过将所述探针的N个池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定针对所述位置的细胞识别光学条形码，并且存储针对所述位置的所述细胞识别光学条形码与所述位置处的所述第一图像之间的数据关联。

2.根据权利要求1所述的系统，所述操作包括：

使用所述成像子系统，对所述微孔阵列进行成像，并进行图像分析以监测所述微孔内细胞裂解的完成。

3.根据权利要求1所述的系统，其中，用于RNA文库样品制备的所述一种或多种试剂包括逆转录混合物，并且所述操作包括：

在基于执行图像分析确定细胞裂解完成后，使用所述流体子系统使逆转录混合物流动到所述微孔阵列上。

4.根据权利要求1所述的系统，所述操作包括：

对于所述多个位置中的每个位置，使用所述位置的所述第一图像，确定在对应于所述位置的微孔中描绘的多个细胞。

5.根据权利要求1所述的系统，所述操作包括：回收所述微珠。

6.根据权利要求1所述的系统，所述操作包括：

对于每个细胞识别光学条形码，接收核酸测序数据；和

存储所述核酸测序数据、所述细胞识别光学条形码与所述第一图像之间的数据关联，所述第一图像与所述细胞识别光学条形码相关联。

7.根据权利要求1所述的系统，包括微孔阵列。

8.根据权利要求1所述的系统，其中，所述热子系统与所述保持微孔阵列的台热连接，并且其中，所述操作包括控制所述热子系统以向所述微孔阵列施加热量。

9.根据权利要求1所述的系统，其中，所述流体子系统包括流量单元、流量控制单元、一个或多个阀门单元以及一个或多个加压试剂储存器，并且其中，所述操作包括控制所述流量控制单元并控制阀门切换。

10.一种用于将单细胞成像数据与RNA转录组学相关联的自动化方法，所述方法包括：

将系统初始化，所述系统包括：

耦接到所述仪器组件的控制子系统，所述控制子系统包括至少一个处理器和存储器；和

使用所述控制子系统执行操作，所述操作包括：

使用所述成像子系统，对于微孔阵列中的多个位置中的每个位置获得所述位置处的一个或多个第一图像；

对于所述多个位置中的每个位置，使用所述成像子系统获得一个或多个第二图像以量化所述位置处的荧光强度，将所述一个或多个第二图像中的每一个用于创建二进制代码，所述二进制代码描绘所述光学杂交探针中的至少一种与细胞识别光学条形码之间的匹配或缺乏匹配；

对于所述探针的N个池中的每一个，重复流动和杂交步骤和获得一个或多个第二图像步骤；

通过将所述探针的N个池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定针对所述位置的所述细胞识别光学条形码，并存储针对所述位置的所述细胞识别光学条形码与所述位置处的所述第一图像之间的数据关联；和

对于所述多个位置中的每个位置，在对于每个细胞识别光学条形码接收核酸测序数据后，存储所述核酸测序数据、所述细胞识别光学条形码与所述第一图像之间的数据关联，所述第一图像与所述细胞识别光学条形码相关联；

其中，所述单细胞成像数据由此与所述细胞的RNA转录组相关联。

11.根据权利要求10所述的方法，包括：

12.根据权利要求11所述的方法，其中，用于RNA文库制备的所述一种或多种试剂包括逆转录混合物，并且所述方法包括：

13.根据权利要求10所述的方法，包括：

对于所述多个位置中的每个位置，使用所述位置的所述第一图像确定在对应于所述位置的微孔中描绘的多个细胞。

14.根据权利要求10所述的方法，包括回收所述微珠。

15.根据权利要求10所述的方法，包括控制热子系统以向所述微孔阵列施加热量。

16.根据权利要求10所述的方法，其中，所述流体子系统包括流量单元、流量控制单元、一个或多个阀门单元和一个或多个加压试剂储存器，并且其中，所述方法包括控制所述流量控制单元并控制阀门切换。

17.根据权利要求10所述的方法，其中，使用成像子系统获得所述位置处的一个或多个第一图像，还包括：

测量一个或多个细胞光学表型特征；和

生成所述一个或多个细胞光学表型特征与所述核酸测序数据之间的关系的表示，所述核酸测序数据与所述第一图像中的每一个相关联，

其中，单细胞表型特征与相关测序数据之间的相关性识别单细胞光学表型与基于所述单细胞的转录组学的细胞类型、谱系或克隆之间的对应性。

18.根据权利要求10所述的方法，其中，所述细胞光学表型特征包括以下中的一个或多个：面积、平均强度、强度标准偏差、最小强度、最大强度、中值强度、周长、宽度、高度、长轴、短轴、圆度、费雷特直径、最小费雷特直径、正圆度或坚固度。

19.一种用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法，包括：

使系统初始化，所述系统包括：

耦接到所述仪器组件的控制子系统，所述控制子系统包括至少一个处理器和存储器；

使用所述控制子系统执行操作，所述操作包括：

对于所述微孔阵列中的多个位置中的每个位置，使用所述成像子系统获得所述位置处的一个或多个第一图像并测量一个或多个细胞光学表型特征；

对于所述探针的N个池中的每一个，重复流动和杂交步骤以及获得一个或多个第二图像步骤；

通过将所述探针的N个池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定针对所述位置的细胞识别光学条形码，并且存储针对所述位置的所述细胞识别光学条形码与所述位置处的所述第一图像之间的数据关联；对于所述多个位置中的每个位置，在对于每个细胞识别光学条形码接收核酸测序数据后，存储所述核酸测序数据、所述细胞识别光学条形码与所述第一图像之间的数据关联，所述第一图像与所述细胞识别光学条形码相关联；和

20.根据权利要求19所述的方法，其中，所述细胞光学表型特征包括以下中的一个或多个：面积、平均强度、强度标准偏差、最小强度、最大强度、中值强度、周长、宽度、高度、长轴、短轴、圆度、费雷特直径、最小费雷特直径、正圆度或坚固度。

21.根据权利要求19所述的方法，其中，所述细胞光学表型特征源自明场、暗场、荧光、冷光、拉曼或散射显微术中的一种或多种。

22.根据权利要求19所述的方法，其中，所述细胞包括组织、肿瘤、细胞培养物、体液、血样、尿样或唾液样品。

23.根据权利要求19所述的方法，其中，所述细胞是人类、哺乳动物或动物细胞。

24.根据权利要求19所述的方法，其中，所述细胞是免疫细胞、T细胞、B细胞、基质细胞、干细胞、神经细胞或肿瘤细胞。

25.根据权利要求19所述的方法，其中，所述细胞是免疫细胞，并且其中，所述一个或多个细胞光学表型特征包括免疫表型特征。

26.根据权利要求19所述的方法，其中，所述细胞是经过基因修饰的细胞，并且其中，识别的对应性是所述光学表型特征与具有或不具有所述基因修饰的细胞克隆之间的对应性。

27.根据权利要求26所述的方法，其中，所述经过基因修饰的细胞是干细胞、免疫细胞、T细胞或B细胞。

28.一种用于将单细胞成像与唯一光学条形码读出相关联以及制备测序文库的自动化系统，所述系统包括：

使用所述成像子系统，对于所述微孔阵列中的多个位置中的每个位置获得所述位置处的细胞的一个或多个第一图像；

使用所述流体子系统，使具有细胞识别光学条形码序列和用于捕获细胞核酸的引物序列的多个微珠流动到所述微孔阵列上，其中，珠的一个子集作为单个细胞-珠对存在于所述微孔中；

使用所述流体子系统，使用于测序文库制备的细胞裂解缓冲液和一种或多种试剂流动到所述微孔阵列上；

对于所述探针的N个池中的每一个，重复流动和杂交步骤以及获得一个或多个第二图像步骤；和

通过将所述探针的N个池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定针对所述位置的所述细胞识别光学条形码，并存储针对所述位置的所述细胞识别光学条形码与所述位置处的所述第一图像之间的数据关联。

29.根据权利要求28所述的系统，其中，所述引物序列是：

用于捕获RNA、mRNA和非编码RNA的寡(dT)；

用于捕获任何DNA或RNA的随机序列；或

靶向DNA基因座或RNA转录物的特异性序列。

30.根据权利要求28所述的系统，所述操作包括：

使用所述成像子系统对所述微孔阵列进行成像，并进行图像分析以监测所述微孔内细胞裂解的完成。

31.根据权利要求28所述的系统，所述操作包括：

32.根据权利要求28所述的系统，所述操作包括：回收所述微珠。

33.根据权利要求28所述的系统，所述操作包括：

对于每个细胞识别光学条形码，接收核酸测序数据；和

34.根据权利要求28所述的系统，包括微孔阵列。

35.根据权利要求28所述的系统，其中，所述热子系统与所述保持微孔阵列的台热连接，并且其中，所述操作包括控制所述热子系统以向所述微孔阵列施加热量。

36.根据权利要求28所述的系统，其中，所述流体子系统包括流量单元、流量控制单元、一个或多个阀门单元和一个或多个加压试剂储存器，并且其中，所述操作包括控制所述流量控制单元并控制阀门切换。

37.一种用于将单细胞成像数据与核酸测序数据相关联的自动化方法，所述方法包括：

使系统初始化，所述系统包括：

使用所述控制子系统执行操作，所述操作包括：

通过将所述探针的N个池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定针对所述位置的细胞识别光学条形码，并存储针对所述位置的所述细胞识别光学条形码与所述位置处的所述第一图像之间的数据关联；和

其中，所述单细胞成像数据由此与所述细胞的核酸序列相关联。

38.根据权利要求37所述的方法，其中，所述引物序列是：

用于捕获RNA、mRNA和非编码RNA的寡(dT)；

用于捕获任何DNA或RNA的随机序列；或

靶向DNA基因座或RNA转录物的特异性序列。

39.根据权利要求37所述的方法，包括：

40.根据权利要求37所述的方法，包括：

41.根据权利要求37所述的方法，包括回收所述微珠。

42.根据权利要求37所述的方法，包括控制热子系统以向所述微孔阵列施加热量。

43.根据权利要求37所述的方法，其中，所述流体子系统包括流量单元、流量控制单元、一个或多个阀门单元和一个或多个加压试剂储存器，并且其中，所述方法包括控制所述流量控制单元并且控制阀门切换。

44.一种用于识别单细胞光学表型与细胞类型、谱系或克隆之间的对应性的方法，包括：

使系统初始化，所述系统包括：

使用所述控制子系统执行操作，所述操作包括：

对于所述微孔阵列中的多个位置中的每个位置，使用所述成像子系统获得所述位置处的一个或多个第一图像并且测量一个或多个细胞光学表型特征；

使用所述流体子系统，使具有细胞识别光学条形码序列和用于结合细胞核酸的引物序列的多个微珠流动到所述微孔阵列上，其中，珠的一个子集作为单个细胞-珠对存在于所述微孔中；

使用所述流体子系统，将用于测序文库制备的细胞裂解缓冲液和一种或多种试剂流动到所述微孔阵列上；

通过将所述探针的N个池中的每一个的二进制代码映射到细胞识别条形码序列，对于所述多个位置中的每个位置，确定针对所述位置的细胞识别光学条形码，并存储针对所述位置的所述细胞识别光学条形码与所述位置处的所述第一图像之间的数据关联；

对于所述多个位置中的每个位置，在对于每个细胞识别光学条形码接收核酸测序数据后，存储所述核酸测序数据、所述细胞识别光学条形码与所述第一图像之间的数据关联，所述第一图像与所述细胞识别光学条形码相关联；和

其中，单细胞表型特征与相关测序数据之间的相关性识别单细胞光学表型与基于所述单细胞的核酸序列的细胞类型、谱系或克隆之间的对应性。

45.根据权利要求44所述的方法，其中，所述引物序列是：

用于捕获RNA、mRNA和非编码RNA的寡(dT)；

用于捕获任何DNA或RNA的随机序列；或

靶向DNA基因座或RNA转录物的特异性序列。

46.根据权利要求44所述的方法，其中，所述细胞光学表型特征包括以下中的一个或多个：面积、平均强度、强度标准偏差、最小强度、最大强度、中值强度、周长、宽度、高度、长轴、短轴、圆度、费雷特直径、最小费雷特直径、正圆度或坚固度。

47.根据权利要求44所述的方法，其中，所述细胞光学表型特征源自明场、暗场、荧光、冷光、拉曼或散射显微术中的一种或多种。

48.根据权利要求44所述的方法，其中，所述细胞包括组织、肿瘤、细胞培养物、体液、血样、尿样或唾液样品。

49.根据权利要求44所述的方法，其中，所述细胞是人类、哺乳动物或动物细胞。

50.根据权利要求44所述的方法，其中，所述细胞是免疫细胞、T细胞、B细胞、基质细胞、干细胞、神经细胞或肿瘤细胞。

51.根据权利要求44所述的方法，其中，所述细胞是免疫细胞，并且其中，所述一个或多个细胞光学表型特征包括免疫表型特征。

52.根据权利要求44所述的方法，其中，所述细胞是经过基因修饰的细胞，并且其中，识别的对应性是所述光学表型特征与具有或不具有所述基因修饰的细胞克隆之间的对应性。

53.根据权利要求44所述的方法，其中，经过基因修饰的细胞是干细胞、免疫细胞、T细胞或B细胞。