CN117457081A

CN117457081A - 一种基于超图的空间转录组数据处理方法及系统

Info

Publication number: CN117457081A
Application number: CN202311417636.1A
Authority: CN
Inventors: 马园园; 柳利芳; 赵永标
Original assignee: Hubei University of Arts and Science
Current assignee: Hubei University of Arts and Science
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-01-26

Abstract

本发明提供一种基于超图的空间转录组数据处理方法及系统，属于生物信息技术领域，包括：本发明利用超图来编码细胞之间的高阶复杂关系，并将该超图用于图卷积网络的输入；而且利用空间正则化来同时保持细胞之间的转录相似性及其空间邻近性，使得到生成的细胞低维表示具有良好的聚类性能，能够识别不同组织的空间结构域，并具有较好的可视化效果，域特异的基因空间表达也与相应的空间结构域一致。

Description

一种基于超图的空间转录组数据处理方法及系统

技术领域

本发明涉及生物信息技术领域，尤其涉及一种基于超图的空间转录组数据处理方法及系统。

背景技术

空间转录组学技术的发展，使得能够以多细胞甚至单细胞水平的分辨率对捕获的相对位置的转录表达进行全基因组分析，例如10X Visium、Slide-seq、Stereo-seq、osmFISH、PIXEL-seq和Seq-Scope。与非空间单细胞RNA测序技术相比，空间转录组学可以捕获同一组织中的细胞异质性及其空间坐标，从而提供细胞功能的生物学见解。整合基因表达和空间坐标信息以学习空间转录组数据的良好表示至关重要。因此，迫切需要有效的计算工具和方法来剖析单个细胞的空间组织域和功能。

越来越多的证据表明，某些细胞类型，例如神经元和内皮细胞，具有高度异质性和特定的空间表达模式。即使对于相同类型的细胞，例如室管膜细胞，也观察到高空间自亲和力。此外，还测量了小胶质细胞和星形胶质细胞抑制性神经元的空间自我逃避能力。因此，细胞的空间邻居可以为理解细胞异质性和组织域注释提供有价值的信息。然而，一些最初针对非空间单细胞多组学数据设计的单细胞整合方法无法利用空间信息来增强其分析能力。这种情况对空间数据分析提出了重大挑战。

最近，已经开发了几种用于空间转录组学数据分析的新计算方法。SpaGCN将基因表达、空间坐标和组织学信息集成到无向加权图中，然后采用图卷积将这些点聚类到不同的空间域中。stLearn在形态数据上利用深度神经网络(CNN)来提取低维形态特征，并计算相邻点之间的形态相似性，然后，根据每个点的形态相似性和空间邻居建立基因表达矩阵的归一化，然后使用PCA和UMAP进行降维。BayesSpace假设包含相同细胞类型的点在空间上应该彼此更为接近，并使用贝叶斯统计方法训练模型。SpaceFlow利用深度图infomax(DGI)框架，通过对比学习策略来训练图编码器；同时，在DGI的目标函数中添加空间正则化项，以保持低维点嵌入的空间一致性。用于长文档密集检索的分段表示学习(SegmentRepresentation Learning for Long Documents Dense Retrieval，SEDR)使用深度自动编码器网络和变分图自动编码器网络来学习转录组轮廓矩阵的低维表示，其中空间信息用于构建邻域图。图1给出了SEDR在空间转录组数据分析中的流程，通过给定空间转录组数据，SEDR首先使用深度自编码器学习从基因表达空间到低维特征空间的非线性映射；同时，利用变分图自动编码器对细胞的基因表达及其空间坐标数据进行整合，以产生空间嵌入；然后，将基因表示和空间嵌入级联起来，形成用于重建基因表达的最终潜在表示。然后，采用无监督聚类方法来增强学到的细胞潜在表示。这种迭代深度聚类生成一种软聚类形式，为每一个细胞以一定概率分配给某个聚类。最后，学习到的潜在表示可以应用于各种分析任务。这些采用GCN(包括SpaGCN、SEDR和SpaceFlow)的方法主要依赖于基于每个点的k近邻(kNN)计算的相似图，忽略了复杂组织中的高阶结构信息，限制了它们对未知和复杂数据的应用。与SpaGCN和SpaceFlow相比，stLearn的一个缺点是使用线性PCA对归一化的基因表达矩阵进行降维，无法建模细胞间复杂的非线性关系。BayesSpace的缺点是可解释性：它不能生成基因表达和空间坐标的联合嵌入，阻碍了其在一些下游分析任务中的应用。

发明内容

本发明提供一种基于超图的空间转录组数据处理方法及系统，用以解决现有技术中存在的缺陷。

第一方面，本发明提供一种基于超图的空间转录组数据处理方法，包括：

获取基因表达矩阵和细胞空间坐标；

基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络；

采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入；

利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类以及空间正则化约束，得到超图卷积嵌入聚类模型；

将待处理空间转录数据集输入所述超图卷积嵌入聚类模型，得到空间转录数据聚类结果。

根据本发明提供的一种基于超图的空间转录组数据处理方法，获取基因表达矩阵和细胞空间坐标，包括：

采集原始基因表达数据，过滤所述原始基因表达数据中的稀有基因；

对过滤后的基因表达数据进行归一化，使每个细胞中所有基因总计数为1，并采用伪计数1对矩阵条目进行对数转换，按照比例缩放至单位方差和零均值，得到归一化表达数据；

采用主成分分析对超过预设基因数量的归一化表达数据进行降维，得到所述基因表达矩阵和所述细胞空间坐标。

根据本发明提供的一种基于超图的空间转录组数据处理方法，基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络，包括：

以V表示点或细胞的集合，E是V的子集，对于任何超边e，∪_e∈E＝V，每个超边e对应的权重表示为w(e)，加权超图表示为G＝(V,E,W)，G对应的关联矩阵P∈R^|V|×|E|包括：

以|V|表示顶点数，|E|表示超边数量，假定v∈V和超边e∈E，对应的度分别定义为d(v)＝∑_e∈Ew(e)p(v,e)以及δ(e)＝|e|，令D_v和D_e分别表示点的度矩阵和超边的度矩阵，W_e表示超边的权重矩阵，得到标准化的超图拉普拉斯矩阵L_hp：

基于标准化的超图拉普拉斯矩阵得到超图的标准化邻接矩阵A_hp：

其中，P^T表示关联矩阵P的转置矩阵。

根据本发明提供的一种基于超图的空间转录组数据处理方法，采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，包括：

在编码器部分，采用两个具有Elu激活函数的全连接线性层进行堆叠，从预处理转录谱矩阵生成预设低维细胞嵌入矩阵/>

在解码器部分，基于潜在的细胞表示矩阵采用全连接的线性层重构转录谱矩阵/>

其中，是通过级联的预设低维细胞嵌入矩阵H_f和空间嵌入获得，空间嵌入H_g由超图卷积网络获得，N是细胞数量，M是特征数量，D_f,D_g分别是自编码器特征维度和空间嵌入特征维度，D＝D_f+D_g，表示从超图卷积网络学习得到的最终特征维度；

确定目标损失函数最小化转录谱矩阵X和重构转录谱矩阵X′之间的损失：

Loss_rec＝MSE(X,X′)

其中，MSE(*)表示均方误差损失函数。

根据本发明提供的一种基于超图的空间转录组数据处理方法，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入，包括：

确定标准化邻接矩阵A_hp的权重矩阵W_i，得到两层超图卷积网络：

HGCN(A_hp,H_f)＝A_hpReLU(A_hpH_fW₁)W₂

其中，H_f表示预设低维细胞嵌入矩阵，W₁表示图卷积神经网络中第一层的权重矩阵，W₂表示图卷积神经网络中第二层的权重矩阵；

引入参数化的变分图自动编码器VGAE推理模型：

其中，h_i表示第i个细胞的低维表示向量，μ_i表示第i个细胞的均值向量，σ_i表示第i个细胞的标准差向量，σ是标准差向量矩阵，μ＝HGCN_μ(A_hp,H_f)是均值向量矩阵，logσ＝HGCN_σ(A_hp,H_f)。

根据本发明提供的一种基于超图的空间转录组数据处理方法，利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类，包括：

采用深度嵌入聚类DEC的KL散度确定软聚类Q和辅助目标分布T的目标函数Loss_clu：

其中，q_ik代表细胞h_i与聚类中心μ_k之间的距离：

t_ik代表辅助目标分布中细胞i与聚类中心k之间的距离：

k′代表与k为不同的聚类中心。

根据本发明提供的一种基于超图的空间转录组数据处理方法，利用深度自编码聚类框架对所述联合潜在嵌入进行空间正则化约束，包括：

其中，代表细胞i与细胞j之间的欧式空间距离，/>代表细胞i与细胞j之间的嵌入距离；

将重构损失Loss_rec、聚类损失Loss_clu和空间正则化Loss_spa进行结合，得到超图卷积神经网络的最终目标损失函数L：

L＝Loss_rec+λLoss_clu+λLoss_spa

其中λ和γ分别是聚类损失参数和空间正则化参数。

第二方面，本发明还提供一种基于超图的空间转录组数据处理系统，包括：

获取模块，用于获取基因表达矩阵和细胞空间坐标；

构建模块，用于基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络；

嵌入模块，用于采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入；

聚类模块，用于利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类以及空间正则化约束，得到超图卷积嵌入聚类模型；

处理模块，用于将待处理空间转录数据集输入所述超图卷积嵌入聚类模型，得到空间转录数据聚类结果。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于超图的空间转录组数据处理方法。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于超图的空间转录组数据处理方法。

本发明提供的基于超图的空间转录组数据处理方法及系统，通过利用超图来编码细胞之间的高阶复杂关系，并将该超图用于图卷积网络的输入，而且利用空间正则化来同时保持细胞之间的转录相似性及其空间邻近性，使得到生成的细胞低维表示具有良好的聚类性能，能够识别不同组织的空间结构域，并具有较好的可视化效果，域特异的基因空间表达也与相应的空间结构域一致。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的SEDR在空间转录组数据分析中的流程图

图2是本发明提供的基于超图的空间转录组数据处理方法的流程示意图；

图3是本发明提供的基于超图的空间转录组数据处理方法的整体框架图；

图4是本发明提供的构建超图示例图；

图5是本发明提供的ARI、NMI和Moran's Index评估的聚类性能对比图；

图6是本发明提供的HyperGCN改善了空间域的识别，并在DLPFC数据上生成了一致的嵌入的对比图；

图7是本发明提供的在DLPFC其它子数据集上的可视化图；

图8是本发明提供的基于超图的空间转录组数据处理系统的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

针对现有技术存在的种种问题，本发明提出的一种基于超图的空间转录组数据处理方法，在两个方面很好地解决了以上问题：其一是利用超图编码了细胞的空间邻近关系，能够对多个细胞之间的复杂关系进行刻画，克服传统上仅依靠简单图描述细胞成对关系的缺陷；其二，利用空间正则化约束，在生成的低维空间中不仅保持了细胞之间的转录相似性，同时还保持了其空间邻近性。

图2是本发明实施例提供的基于超图的空间转录组数据处理方法的流程示意图，如图2所示，包括：

步骤100：获取基因表达矩阵和细胞空间坐标；

步骤200：基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络；

步骤300：采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入；

步骤400：利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类以及空间正则化约束，得到超图卷积嵌入聚类模型；

步骤500：将待处理空间转录数据集输入所述超图卷积嵌入聚类模型，得到空间转录数据聚类结果。

需要说明的是，本发明实施例提出的超图卷积神经网络HyperGCN，用于空间转录组数据的整合分析，HyperGCN是一种多功能工具，可以实现细胞的精确聚类和可视化，并促进下游分析，如层结构的识别、域特异的标记基因的表征等问题，同时也是一种新颖的计算框架，与SpaGCN和SEDR利用近邻信息编码细胞之间的空间邻近性不同，HyperGCN通过超图卷积和空间正则化对细胞的语义关系进行建模，更好地处理了空间转录组数据中的细胞高阶交互问题。HyperGCN不仅整合了转录组数据和空间坐标信息，而且保留了原始高维空间中的几何结构。

具体地，将HyperGCN应用到来自不同组织(包括人类背外侧前额皮质、小鼠大脑和小鼠嗅球组织)和技术(包括10X visium、osmFISH和Stereo-seq)的四个真实空间转录组数据集上，通过大量实验，结果表明：HyperGCN在空间转录组数据分析方面是有效的，其获得了良好的聚类和域分割效果，捕获并增强了其他方法不易识别的组织域结构，其获得的聚类结果也具有潜在的生物学应用和意义，识别的域特异性基因(top 1)显示出较强的空间特异性表达模式，即在组织域内高表达，在组织域外低表达。

针对空间转录组数据，本发明实施例采用如图3所示的HyperGCN框架，a部分Spatial coordinate表示HyperGCN的输入是基因表达矩阵和点/细胞的空间坐标；b部分Spot hypergraph表示基于空间信息构造超图，并将其用作超图卷积网络Hypergraphconvolution的输入；c部分Deep autoencoder表示深度自动编码器网络将基因表达编码到低维表示空间中，同时，利用两层变分超图卷积网络来生成低维的空间嵌入。然后将生成的空间嵌入与低维表示连接起来，形成联合潜在嵌入，用于重构原始基因表达；d部分Clustering loss、Spatial regularization和Reconstruction loss表示对联合嵌入施加空间正则化约束以保持细胞在生成的低维空间中的近邻一致性，聚类是在细胞的联合嵌入上实现的，同时优化基因表达矩阵的重构损失、深度嵌入聚类(DEC)损失和正则化损失，直到收敛；e部分Iterative training表示从经过训练的编码器获得的联合嵌入；f部分Jointly low-dimensional representation表示yperGCN的输出可应用于域分割(Domainsegmentation)、UMAP可视化(Visualization)、探索空间基因表达模式(Spatialexpression pattern)、GO富集分析(Enrichment analysis)等领域。

本发明通过利用超图来编码细胞之间的高阶复杂关系，并将该超图用于图卷积网络的输入，而且利用空间正则化来同时保持细胞之间的转录相似性及其空间邻近性，使得到生成的细胞低维表示具有良好的聚类性能，能够识别不同组织的空间结构域，并具有较好的可视化效果，域特异的基因空间表达也与相应的空间结构域一致。

基于上述实施例，获取基因表达矩阵和细胞空间坐标，包括：

具体地，本发明实施例采用SCANPY包对原始基因表达数据进行预处理，此处应用的SCANPY包是Python软件中的单细胞RNA测序数据分析工具，用于存储和处理单细胞数据。

首先对稀有基因进行过滤，即少于5个细胞中表达的基因；其次，对数据进行归一化，使每个细胞中所有基因的总计数等于1。为了减少极值的影响，矩阵中的条目使用伪计数1进行对数转换，并按比例缩放到单位方差和零均值。最后，使用200个主成分分析PCA对归一化的表达数据进行降维；特别地，对于只有33个基因的osmFISH数据，本发明实施例不进行PCA降维处理，因为该数据的特征维度较低。

基于上述实施例，本发明实施例研究发现先前的研究假设细胞之间存在成对关系，通常使用简单图来描述成对关系，在简单图中，如果两个细胞在空间上相邻，则通过一条边将他们连接；然而，在许多实际问题中，仅使用简单图来表示一组复杂对象可能会导致信息丢失。

例如，为了将一个俱乐部内的成员分组到不同的社区，首先构建一个简单图，其中如果两个成员具有相同的教练，则将他们连接起来；然后，利用谱图技术进行聚类。而在同一个教练共同教导两个以上成员的场景中，上述方法可能会丢失一些有用的信息。这种意外的信息丢失可能会导致下游聚类算法的性能下降。因为由同一个教练执教的这些成员很可能属于同一个社区，处理上述信息丢失问题的一种自然方法是使用超图来表示高阶关系。如图4所示，a)部分显示在超图中，超边e可以连接两个以上的节点，超图是基于这些超边构建的；b)部分为超图关联矩阵，其中当v_i属于e_j时，项(v_i,w_j)等于1，否则为0。

V表示点/细胞的集合，E是V的子集。对于任何超边e，∪_e∈E＝V。每个超边e对应的权重表示为w(e)，加权超图表示为G＝(V,E,W)，G对应的关联矩阵P∈R^|V|×|E|定义如下：

假定v∈V和超边e∈E，它们的度分别定义为d(v)＝∑_e∈Ew(e)p(v,e)，δ(e)＝|e|。令D_v和D_e表示点和超边的度矩阵，W_e表示超边的权重矩阵。标准化的超图拉普拉斯矩阵可以表示为：

超图的标准化邻接矩阵可以定义如下，并与空间转录组数据一起用于HyperGCN的输入：

其中，P^T表示关联矩阵P的转置。与之前的研究相反，本发明实施例为每个节点添加自相似性以保持数值稳定性。

需要注意的是，首先使用点的空间坐标来构建kNN图，然后使用上述方法基于kNN图构建超图。在整个实验中，为所有数据集设置k＝20，并设置W_e为单位矩阵，这里的k指的是在KNN图中近邻数，即：选择每个点的k个空间邻居来构建KNN图。

基于上述实施例，本发明实施例通过使用深度自动编码器来学习细胞的低维表示。

在编码器部分，采用两个具有Elu激活函数的全连接线性层堆叠在一起，并从预处理的转录谱矩阵生成低维的细胞嵌入矩阵/>

在解码器部分，基于潜在的细胞表示矩阵使用一个全连接的线性层来重构转录谱矩阵/>H是通过级联的低维的细胞嵌入H_f和空间嵌入获得，H_g从超图卷积网络习得。N是细胞数量，M是特征的数量，D_f,D_g分别是自编码器和空间嵌入的特征维度。D＝D_f+D_g是从HyperGCN学习到的最终特征维度，被应用于各种下游分析任务。

深度自动编码器的目标是最小化转录谱矩阵X和重构矩阵X′之间的损失，目标函数定义如下：

Loss_rec＝MSE(X,X′)

其中，MSE(*)代表均方误差损失函数。

进一步地，利用超图卷积生成细胞的高阶空间嵌入，与简单图相比，超图能够刻画细胞之间的高阶空间关系，并且能够识别其潜在的空间域。鉴于图卷积网络的良好性能，本发明实施例使用超图卷积来嵌入相邻细胞的空间信息。

给定超图的归一化邻接矩阵A_hp和相应的权重矩阵W_i，两层超图卷积网络定义如下。

HGCN(A_hp,H_f)＝A_hpReLU(A_hpH_fW₁)W₂

其中，W₁表示图卷积神经网络中第一层的权重矩阵，W₂表示图卷积神经网络中第二层的权重矩阵。

H_f是从深度自动编码器获得的细胞低维表示，为了增强H_g的表示能力，本发明实施例引入了变分图自动编码器(VGAE)框架。VGAE利用潜变量并通过以下函数学习可解释且有意义的嵌入：g:(A_hp,H_f)→H_g。根据式(5)，参数化的VGAE推理模型定义为：

此处，在提出的HyperGCN模型中，本发明实施例仅训练基于基因表达矩阵X的重构损失的自动编码器，不考虑VGAE损失。

基于上述实施例，本发明实施例中HyperGCN在自编码器的低维嵌入H上实现无监督深度嵌入聚类。为了增强聚类的初始化步骤，采用k均值来生成质心。对于所有数据集，HyperGCN中的质心数量设置为10。

深度嵌入聚类(DEC)采用Kullback-Leibler(KL)散度来衡量软聚类Q和辅助目标分布T之间的聚类一致性，目标函数定义如下：

此处q_ik代表细胞h_i与聚类中心μ_k之间的距离，利用t-distribution计算如下：

对于辅助目标分布T，t_ik代表辅助目标分布中细胞i与聚类中心k之间的距离，定义如下：

HyperGCN使用聚类损失进行迭代细化聚类，并改进k均值对质心的初始估计。因此，学习到了高置信度的细胞聚类。

进一步采用空间正则化增强空间一致性，嵌入空间的接近程度不仅反映了细胞之间的转录相似性，还反映了它们的空间邻近性。为了增强细胞之间的空间一致性，空间正则化定义如下：

其中，代表细胞i与细胞j之间的欧式空间距离；/>代表细胞i与细胞j之间的嵌入距离。显然，通过施加空间正则化，在生成的嵌入空间中，空间上距离较远的细胞也会被进一步推开。空间正则化越强，细胞嵌入愈平滑，这可能不符合更复杂的生物异质性。为了解决上述问题，引入正则化参数γ来控制空间正则化的强度。过度平滑或欠平滑问题可能会对域分割和聚类的性能产生较大影响，在整个实验中，根据经验设置γ＝1以简化分析。

结合重构损失Loss_rec、聚类损失Loss_clu和空间正则化Loss_spa，HyperGCN的最终目标定义如下：

L＝Loss_rec+λLoss_clu+γLoss_spa

其中λ、γ分别是聚类损失参数和空间正则化参数。在整个实验中，本发明实施例在所有数据集上设置λ＝0.1，γ＝1。

此外，针对HyperGCN训练过程，本发明将HyperGCN与最近开发的几种空间转录组数据方法进行比较，包括SpaGCN、BayesSpace、SEDR和SpaceFlow。在实验中，对于DLFPC数据和osmFISH数据，聚类数设置为注释的层数；对于10X Visium数据和Stereo-seq数据，将簇数分别设置为12和7。

使用SpaGCN进行测试时，在所有数据集上使用其正文中推荐的参数设置，例如s＝1,b＝49和p＝0.5。

对于BayesSpace，getTopHVGs方法用于选择高变基因(HVG，前2000个)，spatialPreprocess方法用于对表达矩阵进行对数归一化，runPCA方法用于降维。然后，使用spatialCluster函数对细胞进行5000次MCMC迭代聚类，并针对不同测序平台使用默认的参数gamma。

对于SEDR，使用了在线教程中描述的默认参数，包括epochs＝200,lr＝0.01,k＝50。

对于SpaceFlow，使用其在线教程中提供的默认参数设置和数据预处理方法。

在完成训练后，本发明还采用几种典型的性能评价指标进行模型评价，使用调整的兰德指数(ARI)、标准互信息(NMI)和莫兰指数评估不同模型的聚类性能。

令G表示真实的细胞标签，P表示预测的聚类标记。ARI计算如下：

其中，N是细胞数，N_ij是聚类P中C_i类标记中包含的的细胞数。N_i是P中C_i类包含的细胞数，N_j是/>类包含的细胞数。

NMI计算如下：

其中，MI(G,P)表示G和P之间的互信息，H(G)和H(P)分别表示G和P的信息熵。

这里的ARI和NMI衡量聚类之间的一致性，一般来说，ARI和NMI值越高，表明算法的聚类性能越好。

另外，还使用莫兰指数的变体来评估聚类性能[34]。莫兰指数不需要真实标签，定义为：

其中N是细胞数，A代表使用细胞的空间信息计算的kNN图(k＝20)。I^label测量细胞类型的空间浓度。换句话说，物理空间上接近的点也应该被分配相同的标签，高I^label分数表示算法良好的性能，ARI、NMI和I^label的取值范围为0到1。

如图5所示的ARI、NMI和Moran's Index评估的聚类性能对比图中，图5a部分为在DLPFC数据上，12个空间分辨的RNA-seq数据集上的ARI、NMI和Moran’s Index的聚类结果比较；图5b部分是osmFISH、10Xmbs和Stereo-seq数据集上的聚类结果比较，在计算ARI和NMI时，原始出版物中细胞的注释层被用作真实标签。莫兰指数量化了细胞的空间相关性，不需要真实细胞标签。

在图5中，可以看出所提出的HyperGCN算法在四个数据集上的ARI、NMI和Moran’sIndex指标均表现良好。对于DLPFC数据，BayesSpace在ARI和NMI方面也表现良好。对于Moran’s Index，HyperGCN是所有方法中最好的；对于osmFISH数据集，HyperGCN在三个聚类指标上显着优于其他方法。对于没有真实标签的10Xmbs和Stereo-seq数据，HyperGCN在Moran’s Index中也表现良好。表1中提供了聚类指标的数值。

表1

为了进一步评估HyperGCN嵌入的聚类性能，我们首先计算每种方法的域分割，并可视化其输出，图6a展示了DLPFC数据集上151671切片的结果。手动注释的层和白质(WM)用作真实的层标记。可以看出，HyperGCN捕获了最佳的层结构。SpaGCN和HyperGCN都可以识别注释中观察到的第5、6层和WM域，但SpaGCN显示出了域之间的噪声边界。SEDR识别出了第6层和WM域，但无法捕获其他剩余结构(第3层、第4层、第5层和第6层)。SpaceFlow捕获WM结构，但显示不规则和不连续的域结构。

图6a中对于DLPFC数据的151671子数据集，SpaGCN、SEDR、SpaceFlow和HyperGCN生成相应的域分割，左上图为注释的层结构；图6b中使用SpaGCN、SEDR、SpaceFlow和HyperGCN的低维嵌入对层细胞进行UMAP可视化，点的颜色代表注释的层标记；图6c为HyperGCN识别的空间基因表达热图(top-1标记基因)。

如图6a所示，HyperGCN在第3层的右上角发现了一个子域(标记为灰色)。这个结果也与SpaceFlow中观察到的域分割一致，接下来，通过UMAP可视化来比较SpaGCN、SEDR、SpaceFlow和HyperGCN的性能。点的颜色基于原始论文中提供的注释着色。如图6b所示，与其他方法相比，HyperGCN可以很好地根据层结构分离斑点。对于DLPFC的其他数据集，HyperGCN仍然具有良好的性能，如图7所示。这些结果表明了HyperGCN可以实现更好的可视化嵌入。

在图7中，分别以a取值151670，b取值151672，c取值151674，d取值151676，进行了域特异性基因表达分析，以检查HyperGCN中识别域的有效性。使用HyperGCN的聚类结果，检测每层的top-1域特异性基因。例如，灰色域的域特异性基因Saa1(右上角，如图6a)显示出空间特异的表达模式，即在该域内Saa1表达水平高，而该域外其表达水平较低。Tsmb10和Mbp具有类似的空间表达模式。

本发明利用超图来编码细胞之间的高阶复杂关系，并将该超图用于图卷积网络的输入；而且利用空间正则化来同时保持细胞之间的转录相似性及其空间邻近性，使得到生成的细胞低维表示具有良好的聚类性能，能够识别不同组织的空间结构域，并具有较好的可视化效果，域特异的基因空间表达也与相应的空间结构域一致。

下面对本发明提供的基于超图的空间转录组数据处理系统进行描述，下文描述的基于超图的空间转录组数据处理系统与上文描述的基于超图的空间转录组数据处理方法可相互对应参照。

图8是本发明实施例提供的基于超图的空间转录组数据处理系统的结构示意图，如图8所示，包括：获取模块81、构建模块82、嵌入模块83、聚类模块84和处理模块85，其中：

获取模块81用于获取基因表达矩阵和细胞空间坐标；构建模块82用于基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络；嵌入模块83用于采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入；聚类模块84用于利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类以及空间正则化约束，得到超图卷积嵌入聚类模型；处理模块85用于将待处理空间转录数据集输入所述超图卷积嵌入聚类模型，得到空间转录数据聚类结果。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行基于超图的空间转录组数据处理方法，该方法包括：获取基因表达矩阵和细胞空间坐标；基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络；采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入；利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类以及空间正则化约束，得到超图卷积嵌入聚类模型；将待处理空间转录数据集输入所述超图卷积嵌入聚类模型，得到空间转录数据聚类结果。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的基于超图的空间转录组数据处理方法，该方法包括：获取基因表达矩阵和细胞空间坐标；基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络；采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入；利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类以及空间正则化约束，得到超图卷积嵌入聚类模型；将待处理空间转录数据集输入所述超图卷积嵌入聚类模型，得到空间转录数据聚类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于超图的空间转录组数据处理方法，其特征在于，包括：

获取基因表达矩阵和细胞空间坐标；

2.根据权利要求1所述的基于超图的空间转录组数据处理方法，其特征在于，获取基因表达矩阵和细胞空间坐标，包括：

3.根据权利要求1所述的基于超图的空间转录组数据处理方法，其特征在于，基于所述基因表达矩阵和所述细胞空间坐标构建超图卷积网络，包括：

以V表示点或细胞的集合，E是V的子集，对于任何超边e，U_e∈E＝V，每个超边e对应的权重表示为w(e)，加权超图表示为G＝(V，E，W)，G对应的关联矩阵P∈R^|V|×|E|包括：

以|V|表示顶点数，|E|表示超边数量，假定v∈V和超边e∈E，对应的度分别定义为d(v)＝∑_e∈Ew(e)p(v，e)以及δ(e)＝|e|，令D_v和D_e分别表示点的度矩阵和超边的度矩阵，W_e表示超边的权重矩阵，得到标准化的超图拉普拉斯矩阵L_hp：

其中，P^T表示关联矩阵P的转置矩阵。

4.根据权利要求1所述的基于超图的空间转录组数据处理方法，其特征在于，采用深度自动编码器网络将所述基因表达矩阵编码至预设低维表示空间，包括：

其中，是通过级联的预设低维细胞嵌入矩阵H_f和空间嵌入/>获得，空间嵌入H_g由超图卷积网络获得，N是细胞数量，M是特征数量，D_f，D_g分别是自编码器特征维度和空间嵌入特征维度，D＝D_f+D_g，表示从超图卷积网络学习得到的最终特征维度；

Loss_rec＝MSE(X，X′)

其中，MSE(*)表示均方误差损失函数。

5.根据权利要求4所述的基于超图的空间转录组数据处理方法，其特征在于，利用两层变分超图卷积网络生成预设低维空间嵌入，连接所述预设低维表示空间和所述预设低维空间嵌入，生成重构原始基因表达的联合潜在嵌入，包括：

HGCN(A_hp，H_f)＝A_hpReLU(A_hpH_fW₁)W₂

引入参数化的变分图自动编码器VGAE推理模型：

其中，h_i表示第i个细胞的低维表示向量，μ_i表示第i个细胞的均值向量，σ_i表示第i个细胞的标准差向量，σ是标准差向量矩阵，μ＝HGCN_μ(A_hp，H_f)是均值向量矩阵，logσ＝HGCN_σ(A_hp，H_f)。

6.根据权利要求4所述的基于超图的空间转录组数据处理方法，其特征在于，利用深度自编码聚类框架对所述联合潜在嵌入进行深度嵌入聚类，包括：

其中，q_ik代表细胞h_i与聚类中心μ_k之间的距离：

t_ik代表辅助目标分布中细胞i与聚类中心k之间的距离：

k′代表与k为不同的聚类中心。

7.根据权利要求6所述的基于超图的空间转录组数据处理方法，其特征在于，利用深度自编码聚类框架对所述联合潜在嵌入进行空间正则化约束，包括：

L＝Loss_rec+λLoss_clu+γLoss_spa

其中λ和γ分别是聚类损失参数和空间正则化参数。

8.一种基于超图的空间转录组数据处理系统，其特征在于，包括：

获取模块，用于获取基因表达矩阵和细胞空间坐标；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于超图的空间转录组数据处理方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于超图的空间转录组数据处理方法。