CN115985403A

CN115985403A - 一种空间转录组的双重自监督聚类分析方法及系统

Info

Publication number: CN115985403A
Application number: CN202211418640.5A
Authority: CN
Inventors: 高瑞; 于娜; 张道良; 刘治平; 谯旭
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-04-18

Abstract

本发明提出了一种空间转录组的双重自监督聚类分析方法及系统，涉及生物信息学领域,对待分析的空间转录组数据进行预处理，得到由基因表达数据、细胞图像特征和邻接矩阵组成的样本数据；将样本数据输入到训练好的双重自监督模型中进行聚类，得到样本数据的聚类分布；依据聚类分布，得到细胞标签，作为最终识别的细胞类型；所述双重自监督，是线性自编码器的自我监督训练和构建全局目标分布监督图卷积神经网络编码器的训练；本发明通过线性自编码器的自我监督训练和构建全局目标分布监督图卷积神经网络编码器的训练，以双重自监督的方式，提高编码器的训练效果，实现对空间转录组细胞的高效准确分类识别。

Description

一种空间转录组的双重自监督聚类分析方法及系统

技术领域

本发明属于生物信息学领域，涉及一种空间转录组的双重自监督聚类分析方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

空间转录组学作为一项开创性技术，不仅能够获得组织样本中的所有基因活动，还能定位基因活动发生的坐标，有助于更好地了解生物过程和疾病；其中，空间转录组细胞类型的发现和测定是研究分析生命过程的关键问题之一。

传统的统计模型难以处理多模态数据，而现有机器学习方法没有涉及有效利用空间信息；图神经网络的出现推进了网络分析，然而其在空间转录组上的应用尚处于探索阶段，目前尚不能有效利用每个细胞的高维信息精准识别、分析细胞类型。

因此，发展一种高效准确的空间转录组聚类分析方法，成为值得研究的一个课题。

发明内容

为克服上述现有技术的不足，本发明提供了一种空间转录组的双重自监督聚类分析方法及系统，通过线性自编码器的自我监督训练和构建全局目标分布监督图卷积神经网络编码器的训练，以双重自监督的方式，提高编码器的训练效果，实现对空间转录组细胞的高效准确分类识别。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种空间转录组的双重自监督聚类分析方法；

一种空间转录组的双重自监督聚类分析方法，包括：

对待分析的空间转录组数据进行预处理，得到由基因表达数据、细胞图像特征和邻接矩阵组成的样本数据；

将样本数据输入到训练好的双重自监督模型中进行聚类，得到样本数据的聚类分布；

依据聚类分布，得到细胞标签，作为最终识别的细胞类型；

所述双重自监督，是线性自编码器的自我监督训练和构建全局目标分布监督图卷积神经网络编码器的训练。

进一步的，所述线性自编码器，以细胞基因表达与细胞图像特征为输入，输出第一聚类分布Q(z)，具体为：用训练好的编码器对细胞基因表达与细胞图像特征进行学习，得到融合编码特征z，基于融合编码特征z，计算第一聚类分布Q(z)。

进一步的，所述图卷积神经网络编码器，以PCA降维后的基因表达矩阵、邻接矩阵和线性自编码器学习到的融合编码特征为输入，输出第二聚类分布Q(h)，具体为：用训练好的图卷积网络对邻接矩阵和融合编码特征进行学习，得到图嵌入特征h，基于图嵌入特征h，计算第二聚类分布Q(h)。

进一步的，所述以PCA降维后的基因表达矩阵、邻接矩阵和线性自编码器学习到的融合编码特征为输入，是将线性自编码器的每一层与图卷积神经网络编码器连接起来，线性自编码器学习到的融合编码特征将输入到图卷积神经网络编码器中继续进行表示学习。

进一步的，其特征在于，所述第一聚类分布Q(z)和第二聚类分布Q(h)的计算方式相同，都是基于特征，使用Student’s T分布作为核函数，计算特征和聚类中心之间的相似性；

基于第二聚类分布Q(h)，计算出第二目标分布P(h)。

进一步的，所述线性自编码器的自我监督训练，是将重构损失函数和第一目标分布P(z)构建的第一KL散度损失函数，作为线性自编码器的损失函数，监督线性自编码器的训练过程。

进一步的，所述构建全局目标分布监督图卷积神经网络编码器的训练，是将第一目标分布P(z)和第二目标分布P(h)进行拼接，得到全局目标分布P，使用全局目标分布P构建第二KL散度损失函数，监督图卷积神经网络编码器的训练过程。

本发明第二方面提供了一种空间转录组的双重自监督聚类分析系统。

一种空间转录组的双重自监督聚类分析系统，包括数据处理模块、分布聚类模块和类型识别模块：

数据处理模块，被配置为：对待分析的空间转录组数据进行预处理，得到由基因表达数据、细胞图像特征和邻接矩阵组成的样本数据；

分布聚类模块，被配置为：将样本数据输入到训练好的双重自监督模型中进行聚类，得到样本数据的聚类分布；

类型识别模块，被配置为：依据聚类分布，得到细胞标签，作为最终识别的细胞类型；

其中，所述双重自监督，是线性自编码器的自我监督训练和构建全局目标分布监督图卷积神经网络编码器的训练。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种空间转录组的双重自监督聚类分析方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种空间转录组的双重自监督聚类分析方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明提供了一种空间转录组的双重自监督聚类分析方法及系统，通过线性自编码器的自我监督训练和构建全局目标分布监督图卷积神经网络编码器的训练，以双重自监督的方式，提高编码器的训练效果，实现对空间转录组细胞的高效准确分类识别。

构建重构损失函数和目标分布构建的散度损失函数，来自我监督线性自编码器的训练，而用线性自编码器的目标分布和图卷积神经网络编码器的目标分布来监督图卷积神经网络编码器的训练，提高训练的效率和精度，从整体上改善空间转录组细胞的分类识别效果。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例的空间转录组组织图像。

图3为第一个实施例的双重自监督模型结构图。

图4为第一个实施例五种方法的识别效果图。

图5为第二个实施例的系统结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明；除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式；如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例公开了一种空间转录组的双重自监督聚类分析方法；

如图1所示，一种空间转录组的双重自监督聚类分析方法，包括：

步骤S101：对待分析的空间转录组数据进行预处理，得到由基因表达数据、细胞图像特征和邻接矩阵组成的样本数据。

空间转录组数据是把动物组织平铺到切片上，获取组织图像，如图2所示，识别图像中每个细胞的信息，包括基因表达数据、位置信息和细胞图像，对空间转录组数据的预处理，包括：

(1)处理基因表达数据

对基因表达数据进行基因筛选、正则化、降维等操作；删除细胞数不足的数据，然后将基因表达数据正则化，得到处理后的数据X，利用PCA对X进行降维，得到降维数据X’。

(2)提取细胞图像特征

对于同一个批次下的细胞组，给定细胞的二维空间坐标为(l_xi,l_yi)，在高表达组织图像中，以(l_xi,l_yi)为中心的40x 40像素区域作为每个细胞对应的图像数据Y_i，选取合适的特征提取器，如Vision-Transformer(ViT)模型提取图像特征U_i＝VIT(Y_i)。

(3)构建邻接矩阵

基于空间转录组数据中的细胞位置信息，计算两两细胞之间的距离，即欧氏距离：

构建邻接矩阵时，要求距离相近的细胞间具有更大的权重，距离较远的细胞权重更小，因此邻接矩阵公式为：

其中，引入t超参，设置邻接矩阵向对角线聚集的程度。

步骤S102：将样本数据输入到训练好的双重自监督模型中进行聚类，得到样本数据的聚类分布；

如图3所示，所构建的双重自监督模型包含图卷积神经网络编码器(GAE)和线性自编码器(AE)，图编码器包含两层GCN，AE包含两个线性层的编码器Encoder和两个线性层的解码器Decoder。

线性自编码器(AE)，以细胞基因表达X与细胞图像特征U为输入，输出第一聚类分布Q(z)，具体为：用训练好的编码器对细胞基因表达X与细胞图像特征U进行学习，得到融合编码特征z，即：

基于融合编码特征z，计算第一聚类分布Q(z)。

线性自编码器(AE)，是将基因表达数据X与细胞图像特征U拼接后，与邻接矩阵A一同输入编码器Encoder中，得到融合编码特征Z，即：

将融合编码特征Z输入Decoder中，重构出原始数据，即

图卷积神经网络编码器(GAE)，以PCA降维后的基因表达矩阵，邻接矩阵A和线性自编码器学习到的融合编码特征z为输入，输出第二聚类分布Q(h)，具体为：用训练好的图卷积网络对邻接矩阵A和融合编码特征z进行学习，得到图嵌入特征h，即：

基于图嵌入特征h，计算第二聚类分布Q(h)。

将线性自编码器的每一层与图卷积神经网络编码器连接起来，线性自编码器学习到的融合编码特征，和图卷积神经网络编码器每一卷积层的输出相加，作为下一卷积层的输入。

第一聚类分布Q(z)和第二聚类分布Q(h)的计算方式相同，都是基于特征，使用Student’s T分布作为核函数，计算特征和聚类中心μ_j之间的相似性；以图嵌入特征h例，第二聚类分布Q(h)的公式为：

其中，μ_j可通过K-means算法初始化。

基于第一聚类分布Q(z)和第二聚类分布Q(h)，分别计算出第一目标分布P(z)和第二目标分布P(h)，以图嵌入特征h为例，第二目标分布P(h)为：

用同样的方法，计算融合编码特征z的第一聚类分布Q(z)和第一目标分布P(z)。

设计了双重自监督机制，第一重是线性自编码器(AE)基于第一聚类分布Q(z)和第一目标分布P(z)完成自我监督训练，第二重是构建全局目标分布P监督图卷积神经网络编码器(GAE)的训练。

线性自编码器的自我监督训练，是将重构损失函数L_res和第一目标分布P(z)构建的第一KL散度损失函数L_zkl，作为线性自编码器的损失函数L_z，监督线性自编码器的训练过程。

第一KL散度损失函数定义为Kullback-Leibler(KL)散度损失，即：

重构损失函数L_res采用均方误差MSE，即：

损失函数L_z最终为：L_z＝L_res+L_zkl。

监督图卷积神经网络编码器(GAE)训练的全局目标分布P，是将第一目标分布P(z)和第二目标分布P(h)进行拼接，得到全局目标分布P，使用全局目标分布P构建第二KL散度损失函数L_hkl，监督图卷积神经网络编码器的训练过程，具体为：

构建拼接函数，得到全局目标分布P：

P＝s(P(z),P(h))

此处，拼接函数使用的为均值函数，第二KL散度损失函数L_hkl定义为Kullback-Leibler(KL)散度损失，即：

步骤S103：依据聚类分布，得到细胞标签，作为最终识别的细胞类型；

将基因表达样本数据输入训练好的双重自监督模型中计算得到每一个细胞的目标分布，通过softmax激活函数得到细胞标签，以最终识别细胞类型。

通过对比实验验证本实施例分析方法的效果，作为对比例，本实验采用的现有方法有BayesSpace、SEDR、SpaGCN和STAGATE：

BayesSpace：采用完全贝叶斯统计方法，使用空间先验来促进相邻的位置细胞属于同一个集群。

SEDR：采用深度自编码器网络和图自编码器来嵌入空间信息。

SpaGCN：结合基因表达、空间位置和组织学数据，通过生成捕获空间依赖性的无向加权图来提高聚类性能。

STAGATE：使用图注意力自编码器框架，通过整合空间信息和基因表达谱来进行空间转录组的数据分析。

对比实验的具体做法为：分别采用上述四种方法和本实施例的方法STJL识别同一数据集的细胞类型，计算调整兰德系数ARI和归一化互信息NMI，实验结果如下表所示：

表1聚类结果比较

从表1中可以看到，STJL在所有方法中实现了最高的ARI和NMI值，具有最好的聚类结果；五种方法的识别效果如图4所示，STJL聚类显示出更平滑的边界，而使用其他比较方法获得的聚类更加碎片化，带有明显的噪声。

实施例二

本实施例公开了一种空间转录组的双重自监督聚类分析系统；

如图5所示，一种空间转录组的双重自监督聚类分析系统，包括数据处理模块、分布聚类模块和类型识别模块：

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例一所述的一种空间转录组的双重自监督聚类分析方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例一所述的一种空间转录组的双重自监督聚类分析方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种空间转录组的双重自监督聚类分析方法，其特征在于，包括：

依据聚类分布，得到细胞标签，作为最终识别的细胞类型；

2.如权利要求1所述的一种空间转录组的双重自监督聚类分析方法，其特征在于，所述线性自编码器，以细胞基因表达与细胞图像特征为输入，输出第一聚类分布Q(z)，具体为：用训练好的编码器对细胞基因表达与细胞图像特征进行学习，得到融合编码特征z，基于融合编码特征z，计算第一聚类分布Q(z)。

3.如权利要求1所述的一种空间转录组的双重自监督聚类分析方法，其特征在于，所述图卷积神经网络编码器，以PCA降维后的基因表达矩阵、邻接矩阵和线性自编码器学习到的融合编码特征为输入，输出第二聚类分布Q(h)，具体为：用训练好的图卷积网络对邻接矩阵和融合编码特征进行学习，得到图嵌入特征h，基于图嵌入特征h，计算第二聚类分布Q(h)。

4.如权利要求3所述的一种空间转录组的双重自监督聚类分析方法，其特征在于，所述以PCA降维后的基因表达矩阵、邻接矩阵和线性自编码器学习到的融合编码特征为输入，是将线性自编码器的每一层与图卷积神经网络编码器连接起来，线性自编码器学习到的融合编码特征将输入到图卷积神经网络编码器中继续进行表示学习。

5.如权利要求2或3任一项所述的一种空间转录组的双重自监督聚类分析方法，其特征在于，所述第一聚类分布Q(z)和第二聚类分布Q(h)的计算方式相同，都是基于特征，使用Student’s T分布作为核函数，计算特征和聚类中心之间的相似性；

基于第一聚类分布Q(z)和第二聚类分布Q(h)，分别计算出第一目标分布P(z)和第二目标分布P(h)。

6.如权利要求5所述的一种空间转录组的双重自监督聚类分析方法，其特征在于，所述线性自编码器的自我监督训练，是将重构损失函数和第一目标分布P(z)构建的第一KL散度损失函数，作为线性自编码器的损失函数，监督线性自编码器的训练过程。

7.如权利要求5所述的一种空间转录组的双重自监督聚类分析方法，其特征在于，所述构建全局目标分布监督图卷积神经网络编码器的训练，是将第一目标分布P(z)和第二目标分布P(h)进行拼接，得到全局目标分布P，使用全局目标分布P构建第二KL散度损失函数，监督图卷积神经网络编码器的训练过程。

8.一种空间转录组的双重自监督聚类分析系统，其特征在于，包括数据处理模块、分布聚类模块和类型识别模块：

9.计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种空间转录组的双重自监督聚类分析方法中的步骤。

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种空间转录组的双重自监督聚类分析方法中的步骤。