CN116741273A

CN116741273A - 一种识别空间转录组空间区域和细胞类型的特征学习方法

Info

Publication number: CN116741273A
Application number: CN202310129121.5A
Authority: CN
Inventors: 谢志; 尉园园; 何尧
Original assignee: Zhongshan Ophthalmic Center
Current assignee: Zhongshan Ophthalmic Center
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-09-12

Abstract

本发明公开一种识别空间转录组空间区域和细胞类型的特征学习方法，融合统计分布假设与深度学习的模型框架，同时识别空间转录组数据的空间区域和细胞类型。本发明适用于多种空间转录组数据，包括各种测序平台产生的具有不同分辨率和通量的数据。尤其是对于稀疏程度极高，且具备高通量和单细胞分辨率的空间转录组数据，效果提升非常大。同时，本发明还保留了明确的生物学信号，可以实现良好的低维特征可视化和正确的轨迹推断。

Description

一种识别空间转录组空间区域和细胞类型的特征学习方法

技术领域

本发明涉及生物信息学领域，更具体地，涉及一种识别空间转录组空间区域和细胞类型的特征学习方法。

背景技术

空间转录组测序是一种新兴的测序技术，它能够以多细胞、单细胞、甚至亚细胞分辨率提供带有空间坐标位置的转录组信息，为细胞功能、表型和组织微环境中位置的关系提供了重要信息，而解析这些问题的第一步就是正确划分空间区域。

划分空间区域的关键在于如何学习单个细胞的特征，以及如何融合空间位置信息。现有的多个方法可以进行空间区域的划分。其中BayesSpace(Zhao,E.et al.“Spatialtranscriptomics at subspot resolution with BayesSpace.(使用BayesSpace的亚斑点分辨率空间转录组学)”Nat Biotechnol 39,1375-1384,2021)使用带有马尔可夫随机场的贝叶斯模型来实现空间聚类；SpaGCN(Hu,J.et al.“SpaGCN:Integrating geneexpression,spatial location and histology to identify spatial domains andspatially variable genes by graph convolutional network.(SpaGCN：整合基因表达、空间位置和组织学，通过图卷积网络识别空间域和空间可变基因)”Nat Methods 18,1342-1351,2021)使用图卷积网络整合基因表达，空间位置以及组织图像来识别空间域；STAGATE(Dong,K.&Zhang,S，“Deciphering spatial domains from spatially resolvedtranscriptomics with an adaptive graph attention auto-encoder.(使用自适应图注意力自动编码器从空间分辨的转录组学中破译空间域)”Nat Commun 13,1739,2022)使用自适应的图注意力自编码器学习空间区域。

现有方法的主要问题是：(1)对空间位置的利用不够，导致区域划分效果有限。现有方法仅基于每个细胞与相邻细胞的表达相似性聚合邻居信息，这是对表达数据的过度利用，从而造成表达相似细胞的过度平滑。(2)没有数据的测序噪声进行显式的建模，这使得这些方法难以处理稀疏程度高的空间转录组数据。但随着测序技术的发展，数据的分辨率逐渐升高，稀疏程度也随之提高，建模数据的测序噪声也变得尤为重要。(3)对于兼具单细胞分辨率的空间转录组数据，不能同时识别空间区域和细胞类型，使得数据分析流程复杂化。

发明内容

本发明提供一种识别空间转录组空间区域和细胞类型的特征学习方法，同时识别空间转录组数据的空间区域和细胞类型，还保留了明确的生物学信号，可以实现良好的低维特征可视化和正确的轨迹推断。

为解决上述技术问题，本发明的技术方案如下：

一种识别空间转录组空间区域和细胞类型的特征学习方法，包括以下步骤：

S1：通过空间转录组测序方法获取定量的基因表达矩阵和空间坐标位置矩阵；

S2：对所述基因表达矩阵进行标准化，得到标准化后的基因表达矩阵；

S3：利用结合零膨胀负二项分布(zero-inflated negative binomialdistribution,简称ZINB)的分布假设的自编码器(autoencoder，简称AE)模块进行降噪低维特征的学习，所述自编码器模块的输入为标准化后的基因表达矩阵，所述自编码器模块的输出为细胞类型相关特征(Cell type-related embedding，简称CE)，通过对细胞类型相关特征进行聚类得到每个细胞的细胞类型标签；

S4：将细胞类型相关特征和空间坐标位置矩阵作为图注意力网络(graphattention network，简称GAT)模块的输入，图注意力网络模块输出空间区域相关特征(Spatial domain-related embedding，简称SE)，通过对空间区域相关特征进行聚类得到每个细胞的空间区域标签。

优选地，步骤S1中基因表达矩阵和空间坐标位置矩阵，具体为：

基因表达矩阵X中的每行代表一个测序基本单元，包含单个细胞或多个细胞，一共有N个细胞，基因表达矩阵X中的每列代表一个基因，一共有G个基因；

空间坐标位置矩阵Y的每行代表一个细胞，空间坐标位置矩阵Y的列是该细胞的二维或三维位置信息。

优选地，步骤S2中对所述基因表达矩阵进行标准化，具体为：

式中，x_n表示细胞n的基因表达向量，为所述基因表达矩阵的第n行，s_n表示细胞n的文库大小，s_f表示标准化后所有细胞的文库大小(library size)，表示标准化后的细胞n的基因表达向量。

优选地，所述基因表达矩阵中的每个元素都遵循零膨胀负二项分布，其参数为(π_ng，r_ng，p_g)，其中π_ng是观察到真实基因表达值为0的概率，(r_ng，p_g)是负二项分布的标准参数，x_ng是在达到r_ng次失败时的成功次数，p_g是每个伯努利试验的失败概率。

优选地，x_ng的似然函数为：

其中，δ₀()表示狄拉克函数，Γ()表示伽马函数。

优选地，步骤S3中自编码器模块包括两层编码器和两层解码器，表示为：

Z′＝f₂(Z)

R′＝f₃(Z′)

Π＝f₄(Z′)

式中，f₁是编码器，编码器包含两层，分别将输入数据从G维降维至m′维、从m′维降维至m维，表示标准化后的基因表达矩阵，Z为降维后的细胞类型相关特征矩阵；f₂、f₃、f₄分别为解码器的三个输出，解码器包括两层，分别将输入数据从m维升维至m′维、m′维升维至G维，Z′为解码器的第一个输出，f₃、f₄分别作用于Z′以学习参数R′和参数Π，参数R和参数Π分别为N×G维的矩阵，分别由元素r_ng和π_ng组成，R′由元素r′_ng组成，r_ng＝s′_nr′_ng，其中s′_n是细胞n的缩放系数，s′_n＝exp(log₁₀s_n)。

优选地，由元素l_g组成的参数向量L是通过指数变换从可学习向量获得的，具体为：

式中，l_g是负二项分布的logit。

优选地，所述自编码器模块的损失函数定义为负二项分布的负对数似然函数(Negative log-likelihood function，简称NLL)：

Loss₁＝NLL_ZINB(X；Π，R，P)

式中，NLL_ZINB()表示负二项分布的负对数似然函数。

优选地，步骤S4具体为：

首先根据各个细胞的位置构建对称的邻接矩阵A，节点的集合写成V＝{v₁，v₂，...，v_N}，那么邻接矩阵A的每个元素a_ij可以表示为：

式中，是节点v_j的近邻节点集合，通过KNN或距离截断来计算；

构建相似性矩阵∑，令细胞之间的空间区域相关特征相关性随着距离的增加而减少，并趋于指数衰减，所以理想情况下∑是基于高斯核的N×N维空间相关矩阵：

式中，γ表示带宽参数；

所述图注意力网络模块包括两个图注意层，令图注意层的输入是N×n维的特征矩阵为H＝(h₁，h₂，...，h_N)，输出为N×n′维的矩阵H′＝(h′₁，h′₂，...，h′_N)，则：

式中，W是n′×n维的权重矩阵，是v_j邻点的集合，α_ij是使用SoftMax函数的归一化注意力系数矩阵：

e_ij＝a^T(Wh_i||Wh_j)

其中a是可学习向量，||是连接操作，在图注意层中使用指数线性单元作为激活函数σ；

空间区域相关特征U经过学习，可以表示为：

U＝GAT₂(GAT₁(Z))

式中，GAT₁()、GAT₂()分别表示第一层图注意层和第二层图注意层。

优选地，所述图注意力网络模块的目标函数为：

Loss₂＝λ_spatial*L_spatial+λ_rec*L_rec

式中，L_spatial＝MSE(UU^T，∑)，L_rec＝MSE(U，Z)，λ_spatial和λ_rec为权重参数。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明融合了统计分布假设和深度学习算法，使得模型兼具统计建模的表征能力和深度学习的学习效率，显著提高了空间转录组数据的区域划分能力和特征学习效果。

(2)本发明的AE模块的建模学习到了精细可靠的细胞类型相关特征，因此对于具有单细胞分辨率的空间转录组数据，可以同时输出细胞类型和空间区域的标签，简化了空间转录组数据的分析步骤。

(3)本发明的GAT模块充分利用空间位置信息，利用全局的位置信息来防止局部过拟合的出现。同时，可以自适应地更新低维表征，保留了数据的生物学意义，学习到可解读的特征空间和可靠的轨迹推断结果。

附图说明

图1为本发明的方法流程示意图。

图2为本发明的方法框架示意图。

图3为实施例提供的利用LISI指标评估多种数据的区域划分结果示意图。

图4为实施例提供的利用ARI、NMI、ACC评估几种算法在皮层数据中的区域划分的准确性结果示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种识别空间转录组空间区域和细胞类型的特征学习方法，如图1所示，包括以下步骤：

S3：利用结合零膨胀负二项分布的分布假设的自编码器模块进行降噪低维特征的学习，所述自编码器模块的输入为标准化后的基因表达矩阵，所述自编码器模块的输出为细胞类型相关特征，通过对细胞类型相关特征进行聚类得到每个细胞的细胞类型标签；

S4：将细胞类型相关特征和空间坐标位置矩阵作为图注意力网络模块的输入，图注意力网络模块输出空间区域相关特征，通过对空间区域相关特征进行聚类得到每个细胞的空间区域标签。

实施例2

本实施例在实施例1的基础上，继续公开以下内容：

步骤S1中基因表达矩阵和空间坐标位置矩阵，具体为：

各种空间转录组测序方法都可以得到定量的基因表达矩阵和空间坐标位置矩阵，其中，基因表达矩阵X中的每行代表一个测序基本单元，包含单个细胞或多个细胞，一共有N个细胞，基因表达矩阵X中的每列代表一个基因，一共有G个基因；

步骤S2中对所述基因表达矩阵进行标准化，具体为：

式中，x_n表示细胞n的基因表达向量，为所述基因表达矩阵的第n行，s_n表示细胞n的文库大小，s_f表示标准化后所有细胞的文库大小，表示标准化后的细胞n的基因表达向量，对每个细胞的表达式均进行上式所述的标准化，从而得到标准化后的表达矩阵/>

模型的整个框架如图2所示，结合了零膨胀负二项分布和深度学习方法进行特征学习，模型包含自编码器和图注意力网络两个模块。其中，AE模块结合了ZINB的分布假设，使用自编码器框架进行降噪低维特征的学习。此模块的输入为标准化后的基因表达矩阵输出为细胞类型相关特征CE。CE可以通过聚类进而得到每个细胞的细胞类型标签。GAT模块将CE矩阵和坐标位置Y作为输入，学习空间区域相关特征SE矩阵。GAT模块首先根据坐标位置构建邻接矩阵和相似矩阵，然后根据邻接矩阵整合邻居细胞的特征从而更新目标细胞的SE，同时，为了充分利用空间位置，在训练过程中，约束SE的相似性随着细胞物理距离的增加而减小。在学习得到SE矩阵后，可以进一步通过聚类得到每个细胞的空间区域标签。

所述基因表达矩阵中的每个元素都遵循零膨胀负二项分布，其参数为(π_ng，r_ng，p_g)，其中π_ng是观察到真实基因表达值为0的概率，(r_ng，p_g)是负二项分布的标准参数，x_ng是在达到r_ng次失败时的成功次数，p_g是每个伯努利试验的失败概率。

x_ng的似然函数为：

其中，δ₀()表示狄拉克函数，f()表示伽马函数。

使用AE模块来同时学习Z和分布参数，ZINB参数是N×G维的参数矩阵Π、R和G维的参数向量P，分别由元素π_ng，r_ng和p_g组成。

步骤S3中自编码器模块包括两层编码器和两层解码器，表示为：

Z′＝f₂(Z)

R′＝f₃(Z′)

Π＝f₄(Z′)

式中，f₁是编码器，编码器包含两层，分别将输入数据从G维降维至m′维、从m′维降维至m维，表示标准化后的基因表达矩阵，Z为降维后的细胞类型相关特征矩阵(N×m维)；f₂、f₃、f₄分别为解码器的三个输出，解码器包括两层，分别将输入数据从m维升维至m′维、m′维升维至G维，Z′为解码器的第一个输出，f₃、f₄分别作用于Z′以学习参数R′和参数Π，参数R和参数Π分别为N×G维的矩阵，分别由元素r_ng和π_ng组成，R′由元素r′_ng组成，r_ng＝s′_nr′_ng，其中s′_n是细胞n的缩放系数，在此，假设基因表达水平的对数与测序深度的基数10的对数之间存在线性关系，s′_n＝exp(log₁₀s_n)，所以重建的表达是/>

由元素l_g组成的参数向量L是通过指数变换从可学习向量获得的，具体为：

式中，l_g是负二项分布的logit。

所述自编码器模块的损失函数定义为负二项分布的负对数似然函数：

Loss₁＝NLL_zINB(X；Π，R，P)

式中，NLL_zINB()表示负二顶分布的负对数似然函数。

GAT模块的输入是CE和空间坐标Y，它首先从空间位置构建相邻矩阵和相似性矩阵，然后用两个图注意层进行学习并输出N×m维的SE特征U。

步骤S4具体为：

式中，γ表示带宽参数，控制空间位置对特征的影响程度，γ越大影响越大；

e_ij＝a^T(Wh_i||Wh_j)

空间区域相关特征U经过学习，可以表示为：

U＝GAT₂(GAT₁(Z))

GAT模块学习的目标是使不同位置的U相关性呈现指数衰减，同时保持Z中的信息，即n个位置U之间的相关性UU^T接近∑，U接近Z，因此，目标函数可以写成，所以，所述图注意力网络模块的目标函数为：

Loss₂＝λ_spatial*L_spatial+λ_rec*L_rec

实施例2

本实施例在实施例1和实施例2的基础上，提供以下具体实施例：

使用以下设定进行数据的处理和分析。首先，不同层分别使用了不同的非线性激活函数。其中，编码器和解码器的f₂均使用了线性整流函数(Rectified Linear Unit，简称ReLU)，解码器的f₃和f₄分别使用指数函数(Exponential function，简称exp)和逻辑函数(Logistic function，通常称作sigmoid)。模型损失函数的λ_spatial和λ_rec默认设置为1.0(0.5～2)和0.08(0.05～1)；KNN计算邻域点的数量为10；γ为距离矩阵的0.05分位值。在训练过程中，我们使用适应性矩估计(Adaptive moment estimation，简称Adam)优化器来最小化损失函数，学习率为0.001(0.0001～0.01)，网络中随机丢弃(dropout)概率为0.1(0～0.5)，默认迭代次数为50(40～400)。

在实施例中，此模型应用于不同平台的空间转录组数据，包括Stereo-seq的嗅球(0lfactory bulb)数据、Slide-seq的海马体(Hippocampus)数据、具有标准分层的STARmap的视觉皮层(Visual cortex)数据，以及具有复杂组织结构的Stereo-seq全脑(Brain)数据，验证此模型的准确性和普适性。图3用Local inverse Simpson’s index(简称LISI)指标(Korsunsky，I.et al.“Fast，sensitive and accurate integration of single-celldata with Harmony(使用Harmony快速、灵敏且准确地集成单细胞数据).”Nat Methods16，1289-1296，2019)评估了区域划分效果。LISI用于衡量空间区域的区域聚集性，取值范围为[1，∞)，越低的LISI值代表越高的区域聚集程度。本发明(SECE)在所有数据中都具有最低的LISI取值和最小的标准差，表明SECE在所有数据中均有最优的表现。图4展示了几种算法在具有金标准分层的Cortex数据中的区域划分结果。利用指标Adjusted Rand index(简称ARI)、Normalized mutual information(简称NMI)、Accuracy(简称ACC)评估区域划分的准确性。SECE的ARI、NMI和ACC均达到最高，表明SECE得到了与已知区域最相近的区域划分结果。以上证据显示SECE比现有方案准确性更好，普适性更好。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，包括以下步骤：

S3：利用结合零膨胀负二项分布假设的自编码器模块进行降噪低维特征的学习，所述自编码器模块的输入为标准化后的基因表达矩阵，所述自编码器模块的输出为细胞类型相关特征，通过对细胞类型相关特征进行聚类得到每个细胞的细胞类型标签；

2.根据权利要求1所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，步骤S1中基因表达矩阵和空间坐标位置矩阵，具体为：

3.根据权利要求2所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，步骤S2中对所述基因表达矩阵进行标准化，具体为：

式中，x_n表示细胞n的基因表达向量，为所述基因表达矩阵的第n行，s_n表示细胞n的文库大小，s_f表示标准化后所有细胞的文库大小，表示标准化后的细胞n的基因表达向量。

4.根据权利要求3所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，所述基因表达矩阵中的每个元素都遵循零膨胀负二项分布，其参数为(π_ng,r_ng,p_g)，其中π_ng是观察到真实基因表达值为0的概率，(r_ng,p_g)是负二项分布的标准参数，x_ng是在达到r_ng次失败时的成功次数，p_g是每个伯努利试验的失败概率。

5.根据权利要求4所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，x_ng的似然函数为：

其中，δ₀()表示狄拉克函数，Γ()表示伽马函数。

6.根据权利要求5所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，步骤S3中自编码器模块包括两层编码器和两层解码器，表示为：

Z′＝f₂(Z)

R′＝f₃(Z′)

Π＝f₄(Z′)

7.根据权利要求6所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，由元素l_g组成的参数向量L是通过指数变换从可学习向量获得的，具体为：

式中，l_g是负二项分布的logit。

8.根据权利要求7所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，所述自编码器模块的损失函数定义为负二项分布的负对数似然函数：

Loss₁＝NLL_ZINB(X；Π,R,P)

式中，NLL_ZINB()表示负二项分布的负对数似然函数。

9.根据权利要求8所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，步骤S4具体为：

首先根据各个细胞的位置构建对称的邻接矩阵A，节点的集合写成V＝{v₁,v₂,…,v_N}，那么邻接矩阵A的每个元素a_ij可以表示为：

构建相似性矩阵Σ，令细胞之间的空间区域相关特征相关性随着距离的增加而减少，并趋于指数衰减，所以理想情况下Σ是基于高斯核的N×N维空间相关矩阵：

式中，γ表示带宽参数；

所述图注意力网络模块包括两个图注意层，令图注意层的输入是N×n维的特征矩阵为H＝(h₁,h₂,…,h_N)，输出为N×n′维的矩阵H′＝(h′₁,h′₂,…,h′_N)，则：

e_ij＝a^T(Wh_i||Wh_j)

空间区域相关特征U经过学习，可以表示为：

U＝GAT₂(GAT₁(Z))

10.根据权利要求9所述的识别空间转录组空间区域和细胞类型的特征学习方法，其特征在于，所述图注意力网络模块的目标函数为：

Loss₂＝λ_spatial*L_spatial+λ_rec*L_rec

式中，L_spatial＝MSE(UU^T,Σ)，L_rec＝MSE(U,Z)，λ_spatial和λ_rec为权重参数。