CN117642515A

CN117642515A - 组织基因表达数据三维重建的方法和系统

Info

Publication number: CN117642515A
Application number: CN202280048881.7A
Authority: CN
Inventors: J·爱丽思; N·卡拉伊斯科斯; N·拉杰夫斯基; G·马基诺; A·维勒; E·泽内尔; S·阿比亚蒂; S·阿尤布; S·埃里格; S·普赖比施
Original assignee: Max Delbrueck Centrum fuer Molekulare in der Helmholtz Gemeinschaft
Current assignee: Max Delbrueck Centrum fuer Molekulare in der Helmholtz Gemeinschaft
Priority date: 2021-05-19
Filing date: 2022-05-17
Publication date: 2024-03-01
Also published as: WO2022243303A1; EP4341429A1

Abstract

本发明涉及一种计算机实现的组织样品中含poly‑A的RNA空间丰度分析，包括以下步骤：(i)获得成像数据和测序数据，(ii)配准成像数据并检测珠粒，并采用第一种机器学习方法从成像数据中获得第一条形码集，(iii)处理测序数据以从测序数据中获得第二条形码集，(iv)通过最优传输框架和/或监督机器学习处理第一和第二条形码集，以使数据集彼此匹配并获得匹配的条形码，(v)基于匹配的条形码输出一个矩阵，所述矩阵包含在所述数据中发现的每个珠粒中鉴别的每个基因的表达值。

Description

组织基因表达数据三维重建的方法和系统

技术领域

本发明涉及一种用于组织基因表达数据的三维(3D)重建的方法和系统。具体地，本发明涉及用于组织基因表达或转录组数据的三维(3D)重建、它们各自的可视化和分析的系统和方法。

背景技术

组织样品的全基因组基因表达模式的3D可视化和分析可以用于若干生物医学应用中，例如在肿瘤组织中的转移过程的研究中。在过去已经广泛地进行了患病组织的基因表达谱的研究，其对于疾病机制的基本理解是重要的。

对于鉴别新的药物靶点和生物标志物以改善患者的预后尤其重要。对所有基因进行平行无偏见研究对于发现新的治疗实体至关重要，并且这只能通过下一代测序(NGS)技术实现。由于肿瘤和其他患病组织由各种细胞组成，每个细胞对疾病有不同的贡献，因此以单细胞分辨率分析基因表达的方法是辨别分子机制的关键。

在另一个方面，细胞排列在空间中，这对于理解例如免疫细胞和癌细胞的相互作用是重要的，这是免疫肿瘤学的中心话题。已经开发了多种方法以单细胞分辨率和在2D组织切片中研究所有基因的表达，参见Rodriquez等人，Science(2019)363，1463-1467；Vickovic等人。Nat Methods(2019)16，987-990。

由于肿瘤组织是三维的，二维(2D)测量不足以捕捉其异质性。因此，本发明通过a)用于生成2D基因表达“图像”的改进方法和b)用于从2D基因表达图像构建3D表示的新方法来扩展和推进所提出的概念。这些3D基因表达“图像”可以可视化，供研究人员研究感兴趣基因的表达，但也可以作为集成数据集进行分析，以鉴别新的疾病机制、靶点和生物标志物。

已经描述了使用所谓的Slide-Seq技术以高空间分辨率进行的全基因组表达分析(Rodriquez等人，Science 363，1463-1467(2019)；WO 2019/213254A1)。在Slide-seq方法中，将唯一DNA条形码化的10mm微粒(“珠粒”)堆积在涂有橡胶的玻璃盖玻片上，以形成称为“捕获片(puck)”的单层。

在下文中，术语“条形码”是指用于明确鉴别微粒的分子标签。

这些捕获片用于捕获从组织冷冻切片中释放的mRNA。然后使用SOLiD(通过寡核苷酸连接和检测进行测序)化学分析所捕获的mRNA。

Villacappa等人(https://doi.org/10.1101/2020.07.24.219758)描述了福尔马林固定石蜡包埋(FFPE)组织中的全基因组空间表达谱分析。该程序利用成熟的、商业上可获得的成像和空间条形码方法，使用带有条形码化oligo(dT)探针斑点的载玻片来捕获组织切片中的mRNA分子的3'端。

发明内容

本发明旨在提供三维表达数据。本发明的一般原理是将来自二维成像技术(优选显微镜成像)的数据与来自测序技术的数据组合，随后获得所述数据的3D可视化。因此，本发明的方法基于类似于SlideSeq技术的技术，即使用冷冻切片和/或Villacappa等人的方法(loc.cit.)，即使用FFPE切片，如上所述，然而，本发明特别考虑了样品的三维性质。

可以在本发明的情形中使用的其他合适的基本技术包括高分辨率空间转录组学(high-definition spatial transcriptomics，HDST)(Vickovic等人，Nature Methods16:987-990(2019))和Visium技术(10X Genomics；例如WO 2012/140224A1，WO 2014/060483A1)。

一般，为了分析组织样品的基因表达模式，可以结合测序技术使用基于显微镜的捕获片成像。然而，这样的组合会产生两种不同类型的数据：

(1)成像数据，所述成像数据在对捕获片(以下也称为“阵列结构”)成像以在其上配准珠粒位置时获得；和

(2)测序数据，所述测序数据量化每个珠粒中的基因表达。

因此，本发明的目的是提供一种改进的方法和系统，以匹配两种不同类型的数据。进一步的目的是提供组织样品的基因表达模式的高度自动化的、空间分辨的3D可视化和分析。

上述目的通过独立权利要求的主题得以解决。从属权利要求涉及本发明的进一步方面。

本发明的优选的方面涉及在mRNA水平上分析基因表达。然而，在进一步的实施方案中，本发明适用于通过使用寡核苷酸标记的抗体来检测组织中的空间蛋白质分布。为了检测组织切片中的蛋白质，将组织切片与抗体孵育，所述抗体用DNA条形码标记，所述DNA条形码包含对每个抗体特异的鉴别序列和寡A序列。在与抗体温育和洗涤后，DNA标签可以结合到oligodT包被的珠粒上。结合的抗体DNA标签也被转换为下一代测序文库，该文库能够对捕获片上每个位置的抗体进行定量，其用作每个位置处的蛋白质计数的指标。

因此，本发明广泛地涉及一种用于分析来自受试者的组织样品中的生物大分子(优选RNA、DNA或蛋白质，更优选含poly-A的RNA如mRNA)的空间丰度的方法，包括以下步骤：

(a)提供所述组织样品的多个连续切片，优选冷冻切片，

(b)通过对每个阵列结构在固体载体上沉积平均直径为1至100μM的珠粒来产生多个阵列结构(“捕获片”)，

其中每个珠粒包含至少1000个连接的寡核苷酸，并且其中每个珠粒的至少1000个连接的寡核苷酸中的每一个包含：

(I)珠粒鉴别序列，所述珠粒鉴别序列是每个珠粒上全部至少1000个寡核苷酸共有的并且在各自的阵列结构中对每个珠粒是唯一的，以及

(II)生物大分子特异性捕获序列，优选寡核苷酸序列，例如poly-T序列，以捕获所述样品中的生物大分子，

(c)通过使用显微镜执行边合成边测序技术，为每个阵列结构鉴别所述珠粒鉴别序列以及沉积在固体载体上的珠粒中的单个珠粒在固体载体上的相关二维位置，

(d)将多个阵列结构中的每个阵列结构与所述组织样品的多个切片中的一个切片接触并透化组织切片，从而通过连接在珠粒上的所述捕获序列捕获所述样品中的生物大分子，

(e)对每个阵列结构，鉴别与珠粒的寡核苷酸结合的生物分子以及针对每个待鉴别的生物大分子的相关珠粒鉴别序列，

(f)为每个阵列结构匹配在步骤(c)和(e)中确定的珠粒鉴别序列，其中阵列结构中的二维位置被分配给每个捕获的生物分子的身份(例如在RNA基础上的序列)，

(g)对在步骤(f)中获得的连续切片的二维序列数据进行比对，从而从组织样品中获得空间可分辨的生物大分子丰度数据，其中所述比对包括对在步骤(f)中获得的连续切片的二维序列数据中的一个或多个参考生物分子(即，通常为参考基因产物，例如mRNA或蛋白质)进行转换。

步骤(g)中的术语转换是指任何计算方法，优选计算机视觉方法，更优选图像处理方法，其允许将一系列连续切片对齐为三维。这可以包括尺度不变特征转换(ScaleInvariant Feature Transform，SIFT)，以鉴别所有符合任何一对切片之间的共同转换(例如z方向上的+/-2)的基因。SIFT提取相应的兴趣点。此转换是刚性转换，仅包括平移和旋转。

该转换还可以包括全局最小化所有连续切片的所有相应图像点之间的距离，从而为每个切片生成单个刚性模型。

在细化的步骤中，转换可以进一步包括在所有未被解析为图像的测序点上使用迭代最近点算法，其中具有相似表达的最近相邻点被指定为对应(correspondences)。

该转换可以进一步包括使用所有上述对应来全局解析和鉴别每个切片的仿射变换模型(affine transformation model)。

该方法的一个非常重要的应用是空间mRNA丰度的分析。在这种情况下，生物大分子特异性捕获序列通常是足够长的poly-T序列(通常是DNA poly-T)，以捕获mRNA的互补poly-A链。下面将详细描述这种方法。然而，当要分析一种蛋白质或多种蛋白质的空间丰度时，可以使用针对一种或多种目标蛋白质的(单克隆)抗体，其中这些抗体缀合至poly-A寡核苷酸序列，所述poly-A寡核苷酸序列(优选DNA)与珠粒上的poly-T序列(优选DNA)互补。如果要分析多种不同的蛋白质，则与抗体缀合的寡核苷酸序列(包含poly-A序列)还包括具有特定特异性的针对每种抗体的唯一鉴别序列。因此，一种或多种目标蛋白质将被抗体捕获，而抗体本身将被珠粒上的poly-T序列捕获。然后测序可以将珠粒鉴别序列与抗体的鉴别序列关联。

步骤(g)的参考生物分子通常是参考基因，或者更准确地说是参考基因的产物(mRNA或蛋白质，取决于要分析其丰度的生物分子)，其具有相对较高的丰度(即表达)和组织之间/组织内的变异性，因此适合提供额外的空间信息。参考基因/基因产物也可以称为“高信息基因”。例子包括果蝇胚胎中的基因eve、ftz、twi和zen或小鼠脑部小脑中的浦肯野细胞标记基因Pcp4。

因此，在一个特别突出的方面，本发明涉及一种用于分析来自受试者的组织样品中含poly-A的RNA的空间丰度的方法，其包括以下步骤：

(a)提供所述组织样品的多个连续切片，优选冷冻切片，

(b)通过对每个阵列结构在固体载体上沉积平均直径为1至100μM的珠粒来产生多个阵列结构，

(ii)poly-T序列，所述poly-T序列用于捕获所述样品中的mRNA分子，(c)通过使用显微镜执行边合成边测序技术，为每个阵列结构鉴别所述珠粒鉴别序列以及沉积在固体载体上的珠粒中的单个珠粒在固体载体上的相关二维位置，

(d)将多个阵列结构中的每个阵列结构与所述组织样品的多个切片中的一个切片接触并透化组织切片，从而通过连接在珠粒上的所述寡核苷酸捕获所述样品中含poly-A的RNA，

(e)对每个阵列结构，测序与珠粒的寡核苷酸结合的RNA分子以及测序的每个RNA的相关珠粒鉴别序列，

(f)为每个阵列结构匹配在步骤(c)和(e)中确定的珠粒鉴别序列，其中阵列结构中的二维位置被分配给每个捕获的RNA的核苷酸序列，

(g)对在步骤(f)中获得的连续切片的二维序列数据进行比对，从而从组织样品中获得空间可分辨的RNA丰度数据，其中所述比对包括对在步骤(f)中获得的连续切片的二维序列数据中的含poly-A的RNA的一个或多个参考进行转换。

如上所述，在一个优选的方面，含poly-A的RNA是mRNA。

样品可以来自任何组织。然而，特定的样品类型包括从由脑、心脏、肾脏、肝脏、肺脏和胰脏组成的组中选择的样品。样品可以例如是来自癌症组织的样品。本文中的受试者通常是哺乳动物，优选地是人。例如，癌症患者是应用本发明方法的特别相关的患者。

在步骤(d)之后，可以通过胰蛋白酶、胶原酶和/或其他酶使组织透化。在某些方面，在步骤(d)之后，通过胰蛋白酶、胶原酶和/或其它酶使组织透化。

固体载体可以特别是矩形玻璃载玻片或胶带。所述固体载体通常可以具有0.1至100mm的直径。在优选方面，所述直径为1至100mm，更优选为1至40mm，甚至更优选为1至10mm。示例性直径为约3mm。通常，所述固体载体是粘合塑料或玻璃表面或聚二甲基硅氧烷PDMS基质。其也可以是丙烯酸玻璃。可以使用聚硅氧烷或其他胶/粘合剂来促进玻璃上的珠附着。

珠粒有利地在固体载体上形成单层。通常，每个阵列结构包括10000至10000000个珠粒，优选50000至200000个珠粒，更优选约100000个珠粒。珠粒可以包括聚苯乙烯、玻璃、聚甲基丙烯酸酯和/或聚丙烯酰胺。因此，在特定方面，珠粒是聚苯乙烯、聚(甲基丙烯酸甲酯)PMMA或玻璃珠粒。

珠粒的平均直径通常为1至30μm。在优选的方面，珠粒的平均直径为1-10μm，更优选为10μm。每个珠粒通常包含1×10³至1×10⁹个连接的寡核苷酸，优选1×10⁵至1×10⁸个连接的寡核苷酸，更优选1×10⁷至1×10⁸个连接的寡核苷酸，甚至更优选约3×10⁷个连接的寡核苷酸。

连接的寡核苷酸最典型的是DNA寡核苷酸。它们包含：珠粒鉴别序列和poly-T序列，所述珠粒鉴别序列是每个珠粒上全部至少1000个寡核苷酸共有的并且在各自的阵列结构中对每个珠粒是唯一的，所述poly-T序列用于捕获所述样品中的mRNA分子。寡核苷酸可进一步包含唯一分子标识符UMI序列，优选长度为6至12个核苷酸，优选8nt。珠粒鉴别序列通常具有4至20个核苷酸的长度，优选12nt。寡核苷酸可进一步包含接头序列和/或一个或多个引物杂交序列。因此，在某些方面，步骤(c)中的测序包括将阵列结构与引物接触。引物可以是DNA引物或LNA引物。

在某些方面，步骤(e)中RNA分子的测序包括逆转录以获得cDNA，所述cDNA连接至珠粒的寡核苷酸，并通过下一代测序(NGS)技术对cDNA分子进行测序。NGS技术优选是边合成边测序SBS，例如Illumina染料测序。

在本发明方法的优选方面，在步骤(f)中使用基于最优传输问题的方法和/或在步骤(g)中使用尺度不变特征转换算法。

本发明还涉及本发明的方法用于组织样品的基因表达谱分析的用途。

本发明进一步涉及一种用于对组织样品中的生物分子，特别是含poly-A的RNA的空间丰度进行计算机实现的分析的方法，其包括以下步骤：

i)以如上所述的方法获得成像数据和测序数据，

ii)配准所述成像数据并检测所述珠粒，并且采用第一机器学习方法从所述成像数据获得第一条形码(即，分子标签)集，

iii)处理所述测序数据以从所述测序数据获得第二条形码集，

iv)通过最优传输框架和/或监督机器学习处理第一和第二条形码集，以使数据集彼此匹配并获得匹配的条形码，

v)基于匹配的条形码输出一个矩阵，所述矩阵包含在数据中发现的每个珠粒中鉴别的每个基因的表达值。

因此，本发明涉及一种用于对组织样品中含poly-A的RNA的空间丰度进行计算机实现的分析的方法，包括以下步骤：

i)获取

(i1)所述组织样品的多个连续切片的成像数据，以及

(i2)所述切片中的所述含poly-A的RNA的二维测序数据，优选二维定量基因表达数据，

优选地以根据权利要求1至10中任一项所述的方法获得，

ii)配准所述成像数据并检测所述成像数据中珠粒的二维位置，并且采用第一机器学习方法从所述成像数据获得第一条形码集，

iii)处理所述二维测序数据以从所述测序数据获得第二条形码集，

iv)通过最优传输框架和/或监督机器学习来处理第一和第二条形码集，以使数据集彼此匹配并获得匹配的条形码，

本发明的方法可以进一步包括以所述组织样品的三维表示将输出可视化的步骤。

在相关方面，本发明涉及一种数据处理系统，该数据处理系统包括用于执行方法的步骤的装置，该方法用于对组织样品中的生物分子(特别是含poly-A的RNA)的空间丰度进行计算机实现的分析。

在进一步的相关方面，本发明涉及一种计算机程序产品，其包含指令，当程序由计算机执行时，该指令使计算机执行方法的步骤，该方法用于对组织样品中的生物分子(特别是含poly-A的RNA)的空间丰度进行计算机实现的分析。

进一步，本发明涉及一种包含指令的计算机可读存储介质，所述指令在由计算机执行时使计算机执行方法的步骤，所述方法用于对组织样品中的生物分子(特别是含poly-A的RNA)的空间丰度进行计算机实现的分析。

本发明的核心概念是，由于珠粒条形码的序列数据是通过显微成像和测序确定的，因此通过匹配过程等改善各个方法的可能的误差。

在本发明的一般方面，对于冷冻保存的组织切片的空间基因表达分析，制备具有特殊颗粒和/或珠粒的阵列，以下称为“捕获片阵列”或“阵列结构”。特别地，这些珠粒携带用DNA条形码标记的oligo(dT)寡核苷酸，其随后用于以位置特异性方式(即珠粒依赖性)鉴别生物组织切片的相应基因序列。

在本发明的一般方面，通过显微镜对要检查的组织切片以及制备的珠子阵列的荧光图像进行成像，并且优选地根据记录的不同荧光光谱对个体颗粒和/或珠粒进行解码，这在下文中称为“原位索引”。

在本发明的一般方面，校正方法在数学上基于所谓的最优传输理论。基于校正方法，确定了两个数据集的最佳可能匹配。另外或备选地，使用监督机器学习(优选递归神经网络)进行校正。已经发现机器学习工作得更好，即获得了两个数据集之间更好的匹配。

在本发明的一般方面，校正之后是所获得的表达数据与从珠粒条形码获得的相关空间信息，即二维信息的组合。在该情形中，条形码序列是允许鉴别相应珠粒的唯一标识符核酸序列，在本文中也称为“珠粒鉴别序列”。条形码序列的长度至多为20nt，优选地为4至20nt，典型地为12nt长。它们可以包含多个区段。另外，可以任选地使用唯一分子鉴别UMI核酸序列，该序列鉴别输入核酸。它们通常具有6-12个核苷酸的长度，优选8nt。

在本发明的一般方面，使用“最优传输理论”，优选地与其他程序相结合，执行用于具有整合的基因表达数据的组织图像的最终3D重建的图像配准。

在本发明的一般方面，为了确定基因表达，将组织切片与珠粒阵列融合，从而结合聚腺苷酸化的mRNA，并且可以使用已知的方法定量基因表达。在本发明的优选的实施方案中，这还包括优选使用NGS方法、更优选Illumina测序方法对颗粒条形码测序。

本发明的一般优点是，通过校正和配准方法，可以实现高度自动化。此外，使用特定软件，包括已知的人工智能方法，可以进一步提高过程的子步骤中的自动化程度。

附图说明

当结合附图考虑时，通过以下对本发明某些优选实施方案的详细描述，将更容易理解本发明的上述目的、优点和特征以及其他方面，其中：

图1显示了根据本发明实施方案的显微镜设置130的示意图；

图2a显示了根据本发明实施方案的用于生成3D分子组织模型的工作流程的概述；

图2b显示了根据本发明实施方案的文库制备流程的概述；

图3显示了根据本发明实施方案的用于计算分析的管线流程图；

图4a至4c显示了根据本发明实施方案在代表不同z截面的不同后续连续冷冻切片处从捕获片120获得的光学测序数据304的示意图。

图5a至5c显示了根据本发明实施方案从测序获得的测序数据402的示意图；

图6显示了根据本发明实施方案的空间转录组学数据集的对齐的示意图；

图7显示了根据本发明实施方案的空间转录组学数据集的对齐的流程图；

图8显示了根据本发明实施方案的空间转录组学数据集的对齐的流程图，包含优选的可选步骤；

图9a显示了根据本发明实施方案的脑部小脑2D切片和Pcp4基因的基因表达。每个亮点代表捕获片上珠粒所在的位置以及表达Pcp4的位置；和

图9b显示了根据本发明的实施方案的果蝇胚胎的3D表示，其中突出显示了两个基因：eve和ftz。每个亮的位置代表胚胎中细胞的真实位置，并表达eve或ftz。

具体实施方案

在下文中，将描述本发明的示例性实施方案。注意，除非另有说明或显而易见，否则所描述的实施方案中的任何一个的一些方面也可以在另一些实施方案中找到。然而，为了提高可理解性，将仅在第一次提及时详细描述每个方面，并且将省略对相同方面的任何重复描述。

图1a显示了根据本发明实施方案的显微镜设置130的示意图。使用两个激光器101和102来激发捕获片120上的荧光核苷酸。通过对应于相应荧光团的最优发射特性的四个滤波器111、112、113、114收集发射分布。强度分布被记录在4个通道加上2个对照通道131中，在对照通道中，激发/发射设置不应该导致可检测的信号。

图2a显示了根据本发明实施方案的用于生成3D分子组织模型的工作流的概述。将组织的连续冷冻切片放置在捕获片上，并处理成下一代测序文库，从而在步骤S1中产生基因表达的2D表示。该过程在步骤S2中优选地是自动化的。在步骤S3中，将2D组织模型计算集成到基因表达的3D组织模型中。数据集在步骤S4中被存储在具有接口的数据库中，用于在步骤S5中的数据可视化和在步骤S6中的下游分析，优选地通过机器学习算法进行。

图2b显示了根据本发明实施方案的文库制备流程的概述。在步骤S1a中将组织样品放置在捕获片120上，在步骤S1b中固定并酶消化以释放RNA。在步骤S1c中，聚腺苷酸化的RNA与oligodT DNA捕获序列杂交，所述oligodT DNA捕获序列连接到在捕获片表面上的珠粒。然后在步骤S1d中逆转录RNA，并且在步骤S1e中使用随机DNA引物合成第二链。在步骤S1f中对得到的第二条链进行PCR扩增，并通过NGS进行测序。

图3显示了根据本发明实施方案的用于计算分析的管线流程图。右侧：通过显微镜收集的成像数据(300)被分析以检测捕获片上的珠粒并配准不同光学测序循环的图像(301)。该数据被进一步处理(302)，进一步处理包括标准化、串扰和/或相位校正中的一个或多个。监督的机器学习(303)优选地用于碱基判定(basecalling)以获得第一条形码集304。左侧：通过测序获得的数据(400)被处理(401)，优选地用标准数据分析工具进行处理，标准数据分析工具生成第二条形码集402。然后将第一和第二条形码集304和402彼此进行比较并优选地通过监督机器学习和/或最优传输方法进行匹配，从而得到匹配的条形码集501。

图4a至4c：显示了根据本发明实施方案在代表不同z截面的不同后续连续冷冻切片处从捕获片120获得的光学测序数据304的示意图。也就是说，图4a显示了在位置z＝1处的第一捕获片120a的表示和得到的光学测序数据304a；图4b显示了在位置z＝2处的第二个捕获片120b的表示以及由此产生的光学测序数据304b；图4c显示了在位置z＝3处的第三个捕获片120c的表示以及由此产生的光学测序数据304c。捕获片被表示为一个圆盘，已在其上检测到珠粒，并用4位条形码表示。这些可以通过在前4个位置依次读取ACGT来获得。这些数字说明了在数据分析后确定珠粒条形码核苷酸的碱基判定。

在进一步的步骤中，将组织样品放置在捕获片上。每个组织切片等于一个z位置。接下来，进行cDNA下一代测序文库的制备，并对含有珠粒DNA序列的cDNA文库进行测序。

图5a至5c显示了根据本发明实施方案从测序获得的测序数据402的示意图。鉴于已经获得了捕获片的条形码，参见图4a至4c，现在可以基于匹配的条形码匹配两个数据集的数据。换句话说，特定捕获片上的特定位置可以与包含相应条形码的特定测序数据相匹配。结果是空间转录组学数据集501。每个数据集都是一个捕获片120a、120b、120c，珠粒在空间中配准，并包含每个珠粒的基因表达计数。对于每个基因，在z方向上，这些数据集可以被视为相似但扭曲的图像，例如旋转、平移和/或拉伸。在图5a至5c中，数据集从图5a至图5b顺时针旋转45度，从图5a至5c顺时针旋转180度。

在本发明的优选实施方案中，第一，如果光学测序数据304与测序数据402具有相同的条形码序列，例如ACGTAGTACG＝＝ACGTAGTACG，则通过匹配珠粒来执行光学测序数据304与测序数据402的匹配500。第二，机器学习用于校正光学测序数据中判定的碱基。优选地，机器学习模型针对光学测序数据304与测序数据402的匹配、以及在不匹配测序数据的任何条形码的光学测序数据的条形码上的运行进行训练。这大大增加了匹配的数量。第三，可选地，使用最优传输方法来找到光学测序数据304的剩余条形码与测序数据402之间的最优匹配。

图6显示了基于使用SIFT 600的基因组信息的空间转录组学数据集501a、501b、501c和基于对齐的捕获片图像的z切片的3D重建700的空间转录组学数据集501a、501b、501c的对齐。

在本发明的优选实施方案中，对基因表达数据进行SIFT对齐600，为此目的，可以将捕获片上的每个基因都视为图像，并且同时对所有基因进行比对，并且找到用于对齐捕获片的最优转换。

图7显示了根据本发明实施方案的空间转录组学数据集的对齐流程图。对齐包括预处理S3a、数据访问S3b和图像对齐S3c。

在优选的实施方案中，预处理S3a包括收集(801)空间转录组学数据集501，优选地关于单个捕获片(2D)或多个捕获片(3D)的基于CSV文件的格式。在优选的实施方案中，预处理S3a还包括收集的数据集的对数标准化802。在优选的实施方案中，预处理S3a还包括将数据集转换(803)为N5格式，其允许并行写入、缓存、快速和/或部分访问。

在优选的实施方案中，数据访问S3b包括通过ImgLib2的访问(804)，并使用基于随机样品位置的高斯分布将每个基因渲染为图像。在优选的实施方案中，数据访问S3b还包括单个表达值和位置的访问(805)。

在优选的实施方案中，图像对齐S3c包括使用SIFT 600对所有捕获片(z+-2)进行成对对齐。在优选实施方案中，图像对齐S3c还包括解析(601)跨越所有捕获片的全局最优对齐变换。在优选实施方案中，图像对齐S3c还包括将变换保存(602)到N5，其优选地用于所有后续操作。在优选的实施方案中，图像对齐S3c还包括使用迭代最近点算法细化(refining，602)所有捕获片(z+-2)的成对对齐。

图8显示了根据本发明实施方案的空间转录组学数据集的对齐流程图，包括优选的任选步骤。附加的任选步骤包括后处理S3d、表达强度调整S3e、可视化/质量控制S5以及下游处理和科学分析S6中的一个或多个。

在优选的实施方案中，后处理S3d包括应用用于平滑的图像滤波器，例如中值滤波单点。

在优选的实施方案中，表达强度调整S3e包括全局最小化跨越所有捕获片的所有捕获片表达水平之间的距离和/或将转换保存到用于可视化的N5。

在优选实的实施方案中，下游处理和科学分析S6包括通过Java和/或Python提供访问。

在优选的实施方案中，可视化/质量控制S5包括使用BigDataViewer交互式显示2D/3D数据和/或将2D/3D数据渲染为TIFF图像。

I.实验设置

如上所述，图1显示了根据本发明实施方案的显微镜设置。在本发明的优选实施方案中，显微镜设置100配备有两个激发激光器101和102以及四个发射滤波片111、112、113和114，优选地调整为荧光核苷酸的发射光谱，优选地调整为延伸试剂混合物中包含的荧光核苷酸的光谱，所述延伸试剂混合物用于边合成边测序反应。使用激发激光器和发射滤波片设置的不同组合130进行成像，激发连接在四种类型的DNA核苷酸(即A、T、G或C)中的每一种上的特定荧光团，用于随后解码珠粒DNA条形码。

发射滤波片优选配置为记录各个核苷酸的最大发射带宽的发射强度。例如，激发激光器1和发射滤波器2可以编码腺苷A碱基。成像可以在4个通道中进行，即激发1–发射1、激发1–发射2等，或在6个通道中进行，其中2个通道用作内部对照，因为激发激光器1不应产生在滤波片4带宽内发射的荧光核苷酸的发射。由于某些核苷酸组合具有重叠的激发和发射光谱，因此可能需要对光谱重叠进行计算校正，请参见下面的光谱分解。

因此，显微镜设置产生具有4或6个通道的二维图像，所述通道对应于荧光碱基的激发/发射特性。此外，也可以任选地执行Z方向上的成像，以校正聚焦区域的差异。另外，可以任选地执行多个图像的平铺扫描，以捕获成像对象(即捕获片)的较大区域。

光学解码

在本发明的一个实施方案中，空间基因表达谱分析需要在捕获片内配准珠粒颗粒的空间坐标。为此，将寡核苷酸引物退火至光学测序柄(optical sequencing handle)，该柄存在于每个珠粒上的所有寡核苷酸上。

在随后的12个循环中，通过合成反应以序列解码每个珠粒的唯一随机DNA细胞条形码。优选地，类似于Illumina系统，在杂交的DNA引物的末端掺入至少一个荧光标记的核苷酸，所述荧光标记的核苷酸与细胞条形码中对应碱基互补。

在本发明的优选实施方案中，所述核苷酸经过化学修饰，使得化学基团阻止其他核苷酸的掺入。该反应使用DNA聚合酶和在核苷酸的3'羟基处具有化学封闭基团的荧光核苷酸(延伸试剂混合物)进行。

对于每个珠粒颗粒，记录获得的荧光光谱。光谱可以记录在4或6通道图像中，任选地跨越几个焦点区域(Z方向)和平铺扫描(如上所述)。化学去除每个核苷酸的封闭基团，并切割荧光染料，以便可以掺入更多的荧光核苷酸。该步骤使用钯催化剂(去阻断剂混合物)等试剂进行。

在本发明的一个实施方案中，重复该过程，使得每个珠粒的完整细胞条形码被解码，优选地重复12次。在本发明的优选实施方案中，使用延伸试剂混合物和去阻断试剂混合物进行该过程。

在执行光学解码后，每个珠粒颗粒的细胞条形码在珠粒的空间位置的背景下被解码，见图4a至4c。

为了解码每个珠粒DNA条形码在捕获片上的空间位置，使边合成边测序化学对珠粒特异性DNA条形码进行解码，该边合成边测序化学使用专门配置的显微镜设置原位进行。

为了进行边合成边测序反应，首先将定制测序引物(优选LNA测序引物)与退火反应中连接到珠粒上的每个寡核苷酸上的光学序列柄杂交。

LNA引物杂交后，加入含有荧光核苷酸和聚合酶的延伸试剂混合物。荧光核苷酸3'末端被封闭，使得每轮中仅掺入单个碱基。

荧光掺入后，洗涤捕获片并使用上述显微镜设置扫描捕获片。

使用显微镜的不同激发/发射设置记录4或6通道图像。另外，可以将图像记录为z堆栈，或者可以对捕获片相邻读数的多个图像进行成像(平铺扫描)。然后使用去封闭混合物切割荧光部分。在同一步骤中，核苷酸被去封闭，这使得能够进行另一轮核苷酸掺入、成像和去封闭。

这些步骤重复12次。如计算方法中所述处理来自每个测序循环的图像。

II.样品处理

在本发明的一个实施方案中，使用10μm聚苯乙烯珠粒，例如购自Chemgenes(Boston,MA)。通过Split-and-Pool合成(Macosko等人，Cell 161，1202–1214(2015))合成珠粒，以产生12nt DNA条形码，这些条形码对于连接在珠粒上的所有寡核苷酸都是唯一的，但在珠粒之间不同。备选地，可以通过组合索引方法产生每个珠粒上的唯一DNA条形码。为此，具有恒定DNA序列的珠粒池分布在大量池中。

将唯一条形码DNA寡核苷酸添加到每个库中，该库包含与珠粒上最初存在的序列互补的恒定DNA序列和具有已知序列的唯一DNA序列，唯一DNA序列在每个库之间不同。条形码寡核苷酸与珠粒杂交，并使用聚合酶或通过连接酶连接在引物延伸反应中延伸。然后将珠粒再次合并并再次分布在几个孔中，并重复该过程。

所得珠粒池的唯一条形码数量是每轮条形码寡核苷酸数量的乘积(例如96x96个条形码＝9216个条形码)。重要的是，产生的条形码序列不是随机的，而是遵循初始条形码寡核苷酸池的组合，这与Split-and-Pool程序相反，这有利于以后在原位索引过程中校正错误。

连接到每个珠粒上的寡核苷酸优选包含：

a)连接到聚苯乙烯表面的接头序列；

b)PCR柄序列，其用于扩增文库，即所谓的“SMART”序列；

c)可选的唯一分子标识符，其为每个寡核苷酸特有的简并8nt DNA序列，用于在下一代测序后消除PCR偏倚；

d)珠粒特异性12-nt DNA条形码，其优选为12-nt序列，并且对于一个珠粒上的所有寡核苷酸是相同的，但珠粒之间是不同的。

e1)光学测序柄，优选用于光学测序的(LNA)引物杂交的DNA序列；或

e2)备选地，在组合条形码过程中生成2个或更多个DNA条形码的组合，每个条形码紧邻一个特定的光学测序柄，例如两个6nt条形码区段，每个区段两个20nt光学测序柄，以及

f)oligo(dT)片段，其捕获mRNA分子，优选用于聚腺苷酸化RNA杂交的oligo(dT)序列。

通过将珠粒悬浮液(即TE缓冲液中的珠粒)与乙醇混合来制造捕获片。将悬浮液涂在粘合薄膜上并干燥。每个捕获片加入约80000个珠粒颗粒，以形成直径约3mm的捕获片。然后将捕获片在水中洗涤并晾干，详情如下所述。

为了制造微粒阵列，将珠粒液滴放置在尺寸约5cm x 2cm的矩形载玻片或粘合薄膜上。液滴晾干，默认制造尺寸为3mm的圆形捕获片结构，或者在聚硅氧烷罩内干燥以制造捕获片。

然后如上所述对捕获片进行光学解码。

组织制备和Illumina文库生成

如上所述，图2b显示了根据本发明实施方案的文库制备流程的示意图。

将新鲜冷冻的生物标本(任何种类)包埋在包埋介质中，优选TissueTec OCT基质，并在干冰上冷冻。优选地使用低温切片机将包埋的样本切成10μm的冷冻切片。然后将冷冻切片施加于附着在粘合膜上的光学解码捕获片。

然后将冷冻切片和捕获片在100％冷甲醇中固定几分钟，优选地5至15分钟，最优选地10分钟。

将捕获片上的固定的冷冻切片在PBS缓冲液中复水合，并在约37℃下用胶原酶混合物处理几分钟，优选地15至25分钟，最优选地20分钟。

接下来，使用胃蛋白酶在37℃下将固定的切片透化约10至15分钟。在透化过程中，来自切片的RNA从组织中释放出来，并与珠粒上的oligo(dT)序列杂交。

在本发明的一个实施方案中，圆形塑料垫片放置在捕获片上，允许添加小体积(即小于100μL)的反应混合物。

杂交的RNA在室温(RT)下使用MaximaH-RTase逆转录约30分钟，并在约52℃或42℃下90分钟。所述步骤可以利用酶的末端转移酶活性以及添加另一个引物来进行，该引物可以在模板转换反应中附加到cDNA的3'端。然后在56℃下使用蛋白酶K消化组织约60分钟。

通过添加0.08M KOH使逆转录过程中合成的DNA-RNA杂交物变性，并洗去RNA链。通过将含有随机序列和PCR柄(handle)序列的DNA寡核苷酸与第一链杂交并通过Klenow片段聚合酶在37℃延伸约1小时来合成第二条DNA链。

然后使用聚合酶对连接在每个捕获片珠粒上的cDNA文库进行PCR扩增。对于该步骤，从粘合薄膜上切下捕获片并置于PCR管中。

备选地，使用碱性溶液从微粒阵列中洗脱第二链cDNA。洗脱液用作PCR扩增的输入。

然后使用转座酶将扩增的cDNA文库片段化。使用Illumina Nextera试剂再次对片段化的文库进行PCR扩增，并在Illumina下一代测序仪上测序。

备选地，将PCR扩增子直接用作第二个PCR步骤的输入，引入测序衔接物以多路复用多个样品。

程序简介

将约80000个珠粒的溶液点涂在包被有聚硅氧烷的玻璃表面或粘合薄膜上，以制造捕获片。将液体干燥，留下带有固定的珠粒的固体捕获片。然后对珠粒上的DNA条形码进行光学解码。

然后将10μm新鲜冷冻的低温恒温组织切片置于捕获片上。将组织在甲醇中固定并透化并复水合。将附着在粘合薄膜上的捕获片和组织放入垫片中。添加胶原酶和胃蛋白酶以透化组织以有效释放RNA。聚腺苷酸化的RNA与珠粒上的oligo-dT序列杂交。用蛋白酶消化组织。然后可以在PCR反应中扩增连接在捕获片上的cDNA，并在第二次PCR反应中加工成下一代测序文库。任选地，可以在逆转录后进行第二链合成。在这种情况下，可以在PCR扩增之前从捕获片上洗脱cDNA第二链。

Illumina测序数据处理

在本发明的一个实施方案中，Illumina测序数据的分析是使用广泛可用的标准方法和工具进行的，例如bcl2fastq(将原始数据转换为基因组序列的软件)、Drop-seqtoolkit(用于操纵高通量测序数据的工具集合)、STAR(将测序读数映射到基因组的比对工具)等。优选地，输入是配对末端读数，这意味着对每个捕获的分子的两个不同部分进行测序。第一部分read1包含细胞条形码和潜在的唯一分子标识符UMI，第二部分read2包含捕获的分子并针对基因组进行定位。

输出是一个大矩阵，其中约100000个细胞(或珠粒)作为列，所有约20000个基因(取决于基因组种类)的UMI数量的量化值作为行。

III.数据处理

如上所述，图3显示了根据本发明实施方案的数据处理。详细地，配准成像数据(也称为光学测序数据)300并检测珠粒301，然后对数据进行标准化、串扰和/或相位校正302。第一机器学习303用于从成像数据判定碱基，即A、C、G或T，以获得第一条形码集304。另一方面，在标准分析401中处理测序数据400，并获得第二条形码集402。

然后通过最优传输框架和/或监督机器学习500处理条形码集401和402，以匹配数据集并获得匹配的条形码501，其也被称为空间转录组学数据集。

图像数据采集

在第一步中，可以根据焦点区域对每个循环的图像进行校正并标准化。

数据分析从采集显微镜图像开始，以解码单个珠粒上的细胞条形码。这是在循环复循环的基础上完成的。首先，从每个显微镜图像中鉴别珠粒，并存储它们在捕获片上的位置。

对捕获片上的每个珠粒鉴别光学测序循环的核苷酸。随后，将来自循环(优选12个循环)的图像对齐，并获得每个珠粒和每个循环的原始荧光强度。

在优选的方面，这两个步骤导致每个珠粒在二维中具有坐标，以及包含每个循环的四个(或六个)通道的原始强度的12x4(12x6)矩阵。

数据类型

重要的是要记住，有两方面和两种不同类型的数据：

(1)成像数据300，当对捕获片120成像以在其上配准珠粒位置时获得；和

(2)测序数据400，其量化了每个珠粒中的基因表达。

原始成像数据是捕获片的显微镜图像，优选地具有对应于4个碱基A、C、G和T的4个或6个通道。在数据分析之后，最终产物，即获得的数据集，优选地是具有珠粒位置和相关条形码的矩阵。

原始测序数据采用标准格式，优选是带有配对末端短读数的“.fastq”文件。Read1包含每个珠粒的条形码和唯一分子标识符UMI。Read 2包含将被映射到基因组以量化基因表达的序列。原始测序数据是数据分析的输入，输出是一个矩阵，其包含在数据中发现的每个珠粒中鉴别出的每个基因的表达值(如单细胞基因表达矩阵)。

图像配准

在不同循环的成像过程中，捕获片在显微镜中的位置可能略有不同。这种情况可能导致旋转、平移、剪切或缩放。因此，成像数据的所有图像都需要与参考帧对齐。在优选实施方案中，最后一个循环的图像被用作参考帧。

图像配准的步骤优选地包括以下一个或多个步骤：

i)定义了运动模型。优选地，该模型做欧几里得运动，其包括旋转和平移。另外，或者备选地，该模型是一个仿射运动模型，另外还包括剪切和缩放。运动模型基本上是旋转、平移、剪切和缩放中至少一个的参数矩阵。

ii)迭代配准。优选地，使用金字塔配准系统，其中配准以不同的分辨率进行。这有助于首先配准较粗糙的结构，然后转移到更精细的配准。对于每个级别，通过使用OpenCV1中执行的增强交叉相关最大化(Enhanced Cross Correlation Maximization，Rodriquez等人，Science(2019)363，1463-1467)算法，以检测翘曲矩阵(warping matrix)，即运动模型参数。这是一种对光照差异具有鲁棒性的算法，并且该算法使用图像之间的相关系数进行优化过程。

iii)将叠加图像和通道图像转换为共有参考帧。在计算每个循环的翘曲矩阵(配准到最后一个循环)后，该矩阵用于将叠加图像和通道图像转换为共有参考帧。

背景校正

在本发明的优选实施方案中，使用基于形态学运算的步骤来校正背景信号对捕获片的影响。优选地，应用具有64x64圆形核的形态学开口来计算背景图像，并且从图像中减去该开口以去除背景信号。

珠粒鉴别

珠粒检测是从显微镜图像中检测和分割珠粒的过程。对于条形码的每个核苷酸，即循环，都有一个6维显微镜图像。珠粒检测算法的步骤包括：

i)将通道强度相加以创建灰度叠加图像。这是将用于珠粒检测的复合图像。

ii)应用中值滤波器来清除噪声。

iii)由于一些图像的强度水平较低，可能会阻碍珠粒检测的准确性，因此使用对比度受限的自适应直方图均衡化CLAHE来增加对比度，参见Li，Lei和Terence P.Speed.“Anestimate of the crosstalk matrix in four-dye fluorescence-based DNAsequencing。”ELECTROPHORESIS:An International Journal 20.7(1999):1433-1442。这种方法适用于小片图像，并防止对比度过度放大。

iv)通过模糊图像、阈值化和计算应该对应于捕获片的最大连通片(biggestconnected component)来检测捕获片的边界。然后，滤除捕获片外部的物体或珠粒。

v)为了检测珠粒，使用了霍夫圆变换算法(Hough Circle transform algorithm，Massingham，Tim和Nick Goldman.“All Your Base:a fast and accurate probabilisticapproach to base calling.”Genome biology 13.2(2012)：R13)。霍夫圆变换使用两步法。首先，检测图像中的边缘，其次，像素表明可能的圆的中心和半径。为了使用霍夫变换，指定了一些初始参数，例如预期珠粒的近似半径和边缘检测算法的阈值参数。

vi)应用霍夫变换和圆检测后，获得珠粒中心和估计的半径。

来自光学测序数据的碱基判定算法

在本发明的实施方案中，使用不同的算法将通道强度信号转换为有意义的碱基。

这里的挑战是适当地处理原始强度，以便为每个循环(优选12个循环)和每个珠粒判定正确的A、C、G或T碱基。

在本发明的一个实施方案中，使用基于概率的碱基判定。可以假设原始核苷酸序列被两个因素混淆，即光谱串扰和相位。

基于串扰和相位的相互作用矩阵的估算，逆矩阵用于校正观察到的强度并获得实际强度的估算。该过程包括两个主要步骤：估算串扰矩阵和相位矩阵。

串扰估算包括以下步骤：

i)从第一个循环中取出每对通道，并散点绘制珠粒强度。第一个轴是通道A，第二个轴是通道B。对于具有光谱串扰的通道，图的臂(arm)不平行于各自的轴。也就是说，当一个通道的强度很高时，另一个通道也可能有一定的强度。

ii)对于串扰矩阵，每个非对角元对应于臂的斜率。对于每个臂，在分位数范围内接收数据点，并对数据点进行分箱(binned)。

iii)使用简单的线性回归对分箱数据点拟合一条线，以计算各个臂的斜率。

iv)这个计算出的斜率是插入串扰矩阵的值，然后可以转换强度。

该过程将迭代进行，直到臂与轴平行或达到最大迭代次数。

相位矩阵估算包括以下步骤：

创建一个相位矩阵，即循环复循环大小的矩阵，表示循环之间的相互作用。该矩阵是通过考虑三种可能性而创建的。a)存在相位的概率为p；b)存在预相位的概率为q；c)没有相位或预相位的概率为1-p-q。

相位矩阵是根据给定的概率创建的，它会累积到最后一个循环。

在本发明的一个实施方案中，相位矩阵与串扰矩阵一起用于校正强度值。来自这些校正强度的最大强度碱基称为相应的碱基，即A、C、G或T。

在本发明的一个实施方案中，使用基于梯度的碱基判定。在某些情况下，由于光谱串扰等混杂因素，观察到错误碱基的高强度值。

例如，在“C”的参考光谱中，第6个通道的强度最高，而第5个通道由于串扰仍具有一定的强度值。对于“A”核苷酸亦然。但是，由于平方差之和SSD方法不考虑两个通道之间的差异方向，因此由于平方运算，可能会判定错误的碱基，因为它们具有相同的误差贡献。

在本发明的一个实施方案中，计算强度分布和参考光谱的梯度，以获得可以考虑通道之间差异方向的值。然后，以与SSD方法相同的方式计算相似性。

在一些情况下，由于光谱串扰等混杂因素，观察到错误碱基的高强度值。例如，在“C”的参考光谱中，第6个通道的强度最高，而第5个通道由于串扰仍然具有一定的强度值。对于“A”核苷酸亦然。但是，由于SSD方法因平方运算而不考虑两个通道之间的差异方向，因此可能会判定错误的碱基，因为它们具有相同的误差贡献。为了解决这个问题，计算强度分布的梯度，并计算参考光谱以获得可以考虑通道之间差异方向的值。然后，以与SSD方法相同的方式计算相似性。

光谱分离

光谱分离使用观察到的强度是原始核苷酸组成的线性组合的假设。因此，它通过分解光谱来计算不同核苷酸的比率。

平方差

计算珠粒强度光谱和参考光谱的通道值的平方差之和。选择具有最小距离(即最高相似性)的核苷酸作为碱基。

在本发明的一个实施方案中，机器学习方法500用于碱基判定。在本发明的优选实施方案中，如上所述，在碱基判定管线中使用机器学习模块，通过利用来自上述任何一种或多种其他方法的已经匹配的良好条形码来增加光学条形码匹配的数量。

对于每个实验，将与概率建模方法匹配的Illumina序列的光学条形码作为机器学习数据集。数据集被分成训练集(优选80％)和测试集(优选20％)，并且使用该分割对模型进行训练和测试，优选地还具有交叉验证。

为每个循环训练分类器，这些分类器可用于预测不匹配数据点的碱基。对于训练，使用神经网络，优选地基于随机森林和/或梯度提升树模型。优选地，为了训练一个或多个：神经网络，随机森林和梯度提升树被用作模型。训练后，使用性能最佳的模型预测当前样品中每个条形码的碱基。

对于输入数据点，使用原始强度，背景校正后的强度和标准化的强度的组合。此外，之前的循环强度被添加为每个连续循环的特征，以包括相位效应。

如果通过上述组合条形码程序产生的珠粒用于制作捕获片，则可以将产生的碱基判定与用于产生珠粒的已知条形码相匹配，以纠正错误。

光学测序和Illumina数据的匹配

在处理测定两侧的数据后，通过显微镜成像获得的条形码序列需要与来自Illumina测序的条形码序列相匹配。

如果一切都能完美工作，就不需要开发鉴别平台两侧条形码的工具。

在本发明的实施方案中，这是使用上述部分中描述的机器学习方法或通过使用最优传输框架下的方法来执行的。

机器学习方法

如上所述，碱基判定管线的机器学习模块旨在通过利用来自其他方法的已经匹配的良好条形码来增加光学条形码匹配的数量。对于每个实验，将与概率建模方法匹配的Illumina序列的光学条形码作为机器学习数据集。

对于输入数据点，使用原始强度、背景校正后的强度和标准化强度的组合。此外，之前的循环强度被添加为每个连续循环的特征，以包括相位效应。

此外，在本发明的一个实施方案中，机器学习方法用于两个条形码集(即光学/显微镜和Illumina)之间的匹配。优选地，对于模糊匹配机制，使用各种字符串距离度量(例如Levenshtein距离)执行该匹配。

这是由光学一侧的数据补充的，即原始和标准化强度、判定的碱基等；以及Illumina一侧的可用数据，即判定的碱基、来自“.fastq”文件的“phred”评分、基因表达；它们可以结合起来训练LSTM网络。已经发现，机器学习方法优于基于最优传输的方法。

最优传输方法

在计算科学中，最优传输框架用于估算过程的最小成本，例如以最小的努力将一堆泥土从一个地方移动到另一个地方，即计算成本。

在本发明的一个实施方案中，最优传输框架用于估算光学解码和Illumina测序的细胞条形码之间的两组条形码的最佳匹配。

为此，首先为数据的每一侧计算距离矩阵。这个距离矩阵可以用不同的方法和不同的特征来计算。优选地，使用两个条形码序列之间的汉明距离，但可以容易地使用其他特征，例如不同核苷酸的数量或连续核苷酸、组合等。

然后，每个距离矩阵是N个条形码的对称NxN矩阵，对角线为0，第i行和第j列中条形码(i，j)之间的汉明距离，并且由于对称性，也在第j行和第i列中。距离矩阵是最优传输框架的输入。

输出是来自每个数据侧的条形码对的列表，以及它们相关的汉明距离。

连续切片的3D对齐

然后对连续的2D组织切片的虚拟表示进行计算对齐，以创建组织的三维表示700。3D表示可用于可视化S5和基因表达数据的探索，但也可用于进一步的下游分析S6，这对于研究空间组织的异质性很重要。

为了实现3D对齐，使用了已建立的计算机视觉方法，这些方法首先用于图像的对齐和配准。本发明的方面自动选择少量高熵基因，将其渲染为图像，并使用尺度不变特征转换进行对齐，在计算机视觉中，尺度不变特征转换通常用于全景对齐，优选其次是为对齐大型电子显微镜采集而开发的全局优化器。该方面可以应用于任意数量的切片，并且与每个切片/捕获片中捕获的珠粒数量以及切片之间的重叠区域无关。

最优传输理论的技术也可以用于此步骤，因为它们自然允许图像配准。

处理和可视化3D基因表达数据

对齐的切片可以在3D重建中直观地表示，见图9。图9a描绘了脑部小脑2D切片和基因Pcp4的基因表达。每个亮点代表捕获片上珠粒所在的位置以及表达Pcp4的位置。图9b显示了果蝇胚胎的3D表示，其中突出显示了两个基因：eve和ftz。每个明亮的位置代表胚胎中细胞的真实位置，并表达eve或ftz。

根据本发明，使用了基于ImgLib2、BigDataViewer和N5的框架，该框架可以有效地存储、获取、显示和运行针对高维空间分辨测序数据的算法。因此，该框架可以扩展到PB范围，因此设置用于扩大测序工作。此外，上述框架允许将空间分辨的测序数据与成像数据无缝集成。集成需要使用现有的图像配准工具进行图像对齐，这些工具可以使用开发的框架应用于数据。

IV.进一步处理

数据QC

在本发明的一个实施方案中，使用标准工具(例如FastQC)执行质量控制(QC)。然而，优选在数据的两侧进行额外的质量控制。

在本发明的一个实施方案中，对于成像数据，存在关于下述的各种QC：通道强度，它们在捕获片上的空间分布方式，以及测量回收的条形码是否有意义的熵度量。

在本发明的一个实施方案中，对于测序数据，存在基于下述的QC：熵度量，条形码每个循环的核苷酸组成等。优选地，使用机器学习，其使用通过Drop-seq多年来累积的所有现有良好数据，以及来自成像实验的现有良好和不良数据，以及合成的好数据和坏数据，以建立一个模型，该模型可以鉴别每一侧(即成像或测序)的给定条形码是否容易出错。

3Denes数据的存储

优选遵守法律问题并仔细存储数据。特别是，需要加密数据，特别是包含RNA或DNA序列且可能追溯到个人(患者或其他人)的部分。

比较和集成数据集的方法

提供了一种深度学习方法，用于集成和鉴别来自单细胞组学数据集的模式。该方法从独特鉴别病理区的RNA/DNA/蛋白质组/代谢组学中学习模式。使用这些方法，可以根据多个患者的分子谱轻松比较和分类来自多个患者的样品或样品切片。

自动数据注释的方法(例如细胞类型，组织区域)

提供了用于鉴别用于空间测序和单细胞测序的细胞类型和组织区域的方法。这些方法依赖于从大型数据集中挖掘的特征基因集。基因表达的数值通过一个数学函数传递，该函数提供了细胞是某种类型的可能性。提供这些函数用于肿瘤微环境相关细胞，如免疫系统细胞、成纤维细胞和血管内皮细胞。

匿名方法

任何患者元数据，例如性别(gender、sex)、吸烟状况等，都必须匿名。匿名的原因是患者元数据被用作我们使用测序和成像数据的机器学习和计算方法的一部分。提供了在不丢失数据统计结构的情况下匿名患者数据的方法。数据通过随机转换传递，机器学习算法不知道这种转换，但可以相同地执行。用户需要算法生成的密钥来对新数据应用相同的转换，或者将提供给机器学习的数据反向转换为其原始结构。

元数据的解释/预测方法

从数据分析中获得的免疫细胞类型的比例和位置、突变和癌症相关异常等模式用于预测生存率和疾病严重程度信息。通过数学函数传递的这些模式的数值定义了患者的生存概率。

本文描述和说明的是本发明的实施方案以及一些变化。本文使用的术语、描述和数字仅作为说明，不作为限制。本领域技术人员将认识到，在本发明的精神和范围内可能有许多变化，本发明的精神和范围旨在由以下权利要求及其等同物定义，除非另有说明，否则所有术语均以其最广泛的合理意义表示。

本文引用的所有参考文献通过引用全部并入本文。

本发明特别涉及以下项目：

1.一种分析受试者组织品中含poly-A的RNA空间丰度的方法，包括以下步骤：

(a)提供所述组织样品的多个连续切片，优选冷冻切片，

(i)鉴别序列，所述珠粒鉴别序列是每个珠粒上全部至少1000个寡核苷酸共有的并且在各自的阵列结构中对每个珠粒是唯一的，以及

(f)为每个阵列结构匹配在步骤(c)和(e)中确定的珠粒鉴别序列，其中所述阵列结构中的二维位置被分配给每个捕获的RNA的核苷酸序列，

2.根据第1项所述的方法，其中所述含poly-A的RNA是mRNA。

3.根据项目1至2所述的方法，其中所述珠粒的平均直径为1至30μm，优选珠粒的平均直径为1至10μm，更优选为10μm。

4.根据项目1至3所述的方法，其中所述固体载体的直径为1至100mm，优选1至40mm，更优选1至10mm，甚至更优选约3mm。

5.根据第1至4项所述的方法，其中所述固体载体是粘合塑料或玻璃表面或聚二甲基硅氧烷PDMS基质。

6.根据项目1至5所述的方法，其中每个珠粒包含1×10³至1×10⁹个连接的寡核苷酸，优选1×10⁵至1×10⁸个连接的寡核苷酸，更优选1×10⁷至1×10⁸个连接的寡核苷酸，甚至更优选约3×10⁷个连接的寡核苷酸，和/或其中寡核苷酸是DNA寡核苷酸。

7.根据项目1至6所述的方法，其中所述珠粒是聚苯乙烯、聚甲基丙烯酸甲酯PMMA或玻璃珠粒，和/或其中所述珠粒在固体载体上形成单层。

8.根据项目1至7所述的方法，其中每个阵列结构包含10000至10000000个珠粒，优选50000至200000个珠粒，更优选约100000个珠粒。

9.根据项目1至8所述的方法，其中步骤(e)中RNA分子的测序包括逆转录以获得cDNA，所述cDNA连接至珠粒的寡核苷酸，并通过下一代测序NGS技术对cDNA分子进行测序，优选其中NGS技术是边合成边测序SBS。

10.根据第1至9项所述的方法，其中在步骤(f)中使用基于最优传输问题的方法和/或在步骤(g)中使用尺度不变特征转换算法。

11.一种用于以计算机实现的组织样品中含poly-A的RNA空间丰度分析的方法，包括以下步骤：

i)获得

(i1)所述组织样品的多个连续切片的成像数据，以及

(i2)所述切片中所述含poly-A的RNA的二维测序数据，优选二维定量基因表达数据，

优选以根据第1项至第10项中任一项所述的方法获得，

ii)配准成像数据并检测所述成像数据中珠粒的二维位置，并采用第一机器学习方法从成像数据中获得第一条形码集，

iii)处理二维测序数据以从测序数据获得第二条形码集，

12.根据第11项的方法，所述方法还包括以所述组织样品的三维表示将输出可视化的步骤。

13.一种数据处理系统，其包含用于执行第11项所述的方法的步骤的装置。

14.一种包含指令的计算机程序产品，当所述程序由计算机执行时，所述指令使计算机执行第11项所述的方法的步骤。

15.一种计算机可读的存储介质，其包含当由计算机执行时使计算机执行第11项所述的方法的步骤的指令。

序列表

<110> 马克思-德布鲁克-分子医学中心亥姆霍兹联合会

(Max-Delbrück-Centrum für Molekulare Medizin in der Helmholtz-Gemeinschaft)

<120> 组织基因表达数据三维重建的方法和系统

<130> AD2771 PCT BLN

<150> EP21 174 687.0

<151> 2021-05-19

<160> 1

<170> BiSSAP 1.3.6

<210> 1

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 条形码序列

<400> 1

acgtagtacg 10

Claims

1.一种用于以计算机实现的组织样品中含poly-A的RNA空间丰度分析的方法，所述方法包括以下步骤：

i)获得

(i1)所述组织样品的多个连续切片的成像数据，以及

ii)配准所述成像数据并检测所述成像数据中珠粒的二维位置，并采用第一机器学习方法从成像数据中获得第一条形码集，

iii)处理所述二维测序数据以从测序数据获得第二条形码集，

v)基于匹配的条形码输出一个矩阵，所述矩阵包含在所述数据中发现的每个珠粒中鉴别的每个基因的表达值。

2.根据权利要求1所述的方法，所述方法还包括以所述组织样品的三维表示将输出可视化的步骤。

3.根据权利要求1或2所述的方法，其中步骤1)以包含以下步骤的方法执行：

(a)提供所述组织样品的多个连续切片，优选冷冻切片，

(f)为每个阵列结构匹配在步骤(c)和(e)中确定的所述珠粒鉴别序列，其中所述阵列结构中的二维位置被分配给每个捕获的RNA的核苷酸序列，(g)对在步骤(f)中获得的连续切片的二维序列数据进行比对，从而从组织样品中获得空间可分辨的RNA丰度数据，其中所述比对包括对在步骤(f)中获得的连续切片的二维序列数据中的含poly-A的RNA的一个或多个参考进行转换。

4.一种数据处理系统，其包含用于执行权利要求1至3所述的方法的步骤的装置。

5.一种包含指令的计算机程序产品，当所述程序由计算机执行时，所述指令使计算机执行权利要求1至3所述的方法的步骤。

6.一种计算机可读的存储介质，其包含当由计算机执行时使计算机执行权利要求1至3所述的方法的步骤的指令。

7.一种分析受试者组织样品中含poly-A的RNA空间丰度的方法，其包括以下步骤：

(a)提供所述组织样品的多个连续切片，优选冷冻切片，

其中每个珠粒包含至少1000个连接的寡核苷酸，其中每个珠粒的至少1000个连接的寡核苷酸中的每一个包含：

8.根据权利要求7所述的方法，其中所述含poly-A的RNA是mRNA。

9.根据权利要求7至8所述的方法，其中所述珠粒的平均直径为1至30μm，优选所述珠粒的平均直径为1至10μm，更优选为10μm。

10.根据权利要求7至3所述的方法，其中所述固体载体的直径为1至100mm，优选为1至40mm，更优选为1至10mm，甚至更优选为约3mm。

11.根据权利要求7至4所述的方法，其中所述固体载体是粘合塑料或玻璃表面或聚二甲基硅氧烷PDMS基质。

12.根据权利要求7至5所述的方法，其中每个珠粒包含1×10³至1×10⁹个连接的寡核苷酸，优选1×10⁵至1×10⁸个连接的寡核苷酸，更优选1×10⁷至1×10⁸个连接的寡核苷酸，甚至更优选约3×10⁷个连接的寡核苷酸，和/或其中寡核苷酸是DNA寡核苷酸。

13.根据权利要求7至12所述的方法，其中所述珠粒是聚苯乙烯、聚甲基丙烯酸甲酯PMMA或玻璃珠粒和/或其中所述珠粒在固体载体上形成单层。

14.根据权利要求7至13所述的方法，其中每个阵列结构包含10000至10000000个珠粒，优选50000至200000个珠粒，更优选约100000个珠粒。

15.根据权利要求7至14所述的方法，其中步骤(e)中RNA分子的测序包括逆转录以获得cDNA，所述cDNA连接至珠粒的寡核苷酸，并通过下一代测序NGS技术对cDNA分子进行测序，优选其中NGS技术是边合成边测序SBS。

16.根据权利要求7至15所述的方法，其中在步骤(f)中使用基于最优传输问题的方法和/或在步骤(g)中使用尺度不变特征转换算法。