CN116741273A - 一种识别空间转录组空间区域和细胞类型的特征学习方法 - Google Patents
一种识别空间转录组空间区域和细胞类型的特征学习方法 Download PDFInfo
- Publication number
- CN116741273A CN116741273A CN202310129121.5A CN202310129121A CN116741273A CN 116741273 A CN116741273 A CN 116741273A CN 202310129121 A CN202310129121 A CN 202310129121A CN 116741273 A CN116741273 A CN 116741273A
- Authority
- CN
- China
- Prior art keywords
- spatial
- matrix
- dimension
- gene expression
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012163 sequencing technique Methods 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 84
- 230000014509 gene expression Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 37
- 239000013598 vector Substances 0.000 claims description 9
- 108090000623 proteins and genes Proteins 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 7
- 239000013604 expression vector Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000003556 assay Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012800 visualization Methods 0.000 abstract description 2
- 230000004907 flux Effects 0.000 abstract 2
- 238000013136 deep learning model Methods 0.000 abstract 1
- 210000004027 cell Anatomy 0.000 description 61
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000001320 hippocampus Anatomy 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 210000000857 visual cortex Anatomy 0.000 description 2
- 238000013316 zoning Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 210000004460 N cell Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001054 cortical effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 210000000956 olfactory bulb Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Genetics & Genomics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种识别空间转录组空间区域和细胞类型的特征学习方法,融合统计分布假设与深度学习的模型框架,同时识别空间转录组数据的空间区域和细胞类型。本发明适用于多种空间转录组数据,包括各种测序平台产生的具有不同分辨率和通量的数据。尤其是对于稀疏程度极高,且具备高通量和单细胞分辨率的空间转录组数据,效果提升非常大。同时,本发明还保留了明确的生物学信号,可以实现良好的低维特征可视化和正确的轨迹推断。
Description
技术领域
本发明涉及生物信息学领域,更具体地,涉及一种识别空间转录组空间区域和细胞类型的特征学习方法。
背景技术
空间转录组测序是一种新兴的测序技术,它能够以多细胞、单细胞、甚至亚细胞分辨率提供带有空间坐标位置的转录组信息,为细胞功能、表型和组织微环境中位置的关系提供了重要信息,而解析这些问题的第一步就是正确划分空间区域。
划分空间区域的关键在于如何学习单个细胞的特征,以及如何融合空间位置信息。现有的多个方法可以进行空间区域的划分。其中BayesSpace(Zhao,E.et al.“Spatialtranscriptomics at subspot resolution with BayesSpace.(使用BayesSpace的亚斑点分辨率空间转录组学)”Nat Biotechnol 39,1375-1384,2021)使用带有马尔可夫随机场的贝叶斯模型来实现空间聚类;SpaGCN(Hu,J.et al.“SpaGCN:Integrating geneexpression,spatial location and histology to identify spatial domains andspatially variable genes by graph convolutional network.(SpaGCN:整合基因表达、空间位置和组织学,通过图卷积网络识别空间域和空间可变基因)”Nat Methods 18,1342-1351,2021)使用图卷积网络整合基因表达,空间位置以及组织图像来识别空间域;STAGATE(Dong,K.&Zhang,S,“Deciphering spatial domains from spatially resolvedtranscriptomics with an adaptive graph attention auto-encoder.(使用自适应图注意力自动编码器从空间分辨的转录组学中破译空间域)”Nat Commun 13,1739,2022)使用自适应的图注意力自编码器学习空间区域。
现有方法的主要问题是:(1)对空间位置的利用不够,导致区域划分效果有限。现有方法仅基于每个细胞与相邻细胞的表达相似性聚合邻居信息,这是对表达数据的过度利用,从而造成表达相似细胞的过度平滑。(2)没有数据的测序噪声进行显式的建模,这使得这些方法难以处理稀疏程度高的空间转录组数据。但随着测序技术的发展,数据的分辨率逐渐升高,稀疏程度也随之提高,建模数据的测序噪声也变得尤为重要。(3)对于兼具单细胞分辨率的空间转录组数据,不能同时识别空间区域和细胞类型,使得数据分析流程复杂化。
发明内容
本发明提供一种识别空间转录组空间区域和细胞类型的特征学习方法,同时识别空间转录组数据的空间区域和细胞类型,还保留了明确的生物学信号,可以实现良好的低维特征可视化和正确的轨迹推断。
为解决上述技术问题,本发明的技术方案如下:
一种识别空间转录组空间区域和细胞类型的特征学习方法,包括以下步骤:
S1:通过空间转录组测序方法获取定量的基因表达矩阵和空间坐标位置矩阵;
S2:对所述基因表达矩阵进行标准化,得到标准化后的基因表达矩阵;
S3:利用结合零膨胀负二项分布(zero-inflated negative binomialdistribution,简称ZINB)的分布假设的自编码器(autoencoder,简称AE)模块进行降噪低维特征的学习,所述自编码器模块的输入为标准化后的基因表达矩阵,所述自编码器模块的输出为细胞类型相关特征(Cell type-related embedding,简称CE),通过对细胞类型相关特征进行聚类得到每个细胞的细胞类型标签;
S4:将细胞类型相关特征和空间坐标位置矩阵作为图注意力网络(graphattention network,简称GAT)模块的输入,图注意力网络模块输出空间区域相关特征(Spatial domain-related embedding,简称SE),通过对空间区域相关特征进行聚类得到每个细胞的空间区域标签。
优选地,步骤S1中基因表达矩阵和空间坐标位置矩阵,具体为:
基因表达矩阵X中的每行代表一个测序基本单元,包含单个细胞或多个细胞,一共有N个细胞,基因表达矩阵X中的每列代表一个基因,一共有G个基因;
空间坐标位置矩阵Y的每行代表一个细胞,空间坐标位置矩阵Y的列是该细胞的二维或三维位置信息。
优选地,步骤S2中对所述基因表达矩阵进行标准化,具体为:
式中,xn表示细胞n的基因表达向量,为所述基因表达矩阵的第n行,sn表示细胞n的文库大小,sf表示标准化后所有细胞的文库大小(library size),表示标准化后的细胞n的基因表达向量。
优选地,所述基因表达矩阵中的每个元素都遵循零膨胀负二项分布,其参数为(πng,rng,pg),其中πng是观察到真实基因表达值为0的概率,(rng,pg)是负二项分布的标准参数,xng是在达到rng次失败时的成功次数,pg是每个伯努利试验的失败概率。
优选地,xng的似然函数为:
其中,δ0()表示狄拉克函数,Γ()表示伽马函数。
优选地,步骤S3中自编码器模块包括两层编码器和两层解码器,表示为:
Z′=f2(Z)
R′=f3(Z′)
Π=f4(Z′)
式中,f1是编码器,编码器包含两层,分别将输入数据从G维降维至m′维、从m′维降维至m维,表示标准化后的基因表达矩阵,Z为降维后的细胞类型相关特征矩阵;f2、f3、f4分别为解码器的三个输出,解码器包括两层,分别将输入数据从m维升维至m′维、m′维升维至G维,Z′为解码器的第一个输出,f3、f4分别作用于Z′以学习参数R′和参数Π,参数R和参数Π分别为N×G维的矩阵,分别由元素rng和πng组成,R′由元素r′ng组成,rng=s′nr′ng,其中s′n是细胞n的缩放系数,s′n=exp(log10sn)。
优选地,由元素lg组成的参数向量L是通过指数变换从可学习向量获得的,具体为:
式中,lg是负二项分布的logit。
优选地,所述自编码器模块的损失函数定义为负二项分布的负对数似然函数(Negative log-likelihood function,简称NLL):
Loss1=NLLZINB(X;Π,R,P)
式中,NLLZINB()表示负二项分布的负对数似然函数。
优选地,步骤S4具体为:
首先根据各个细胞的位置构建对称的邻接矩阵A,节点的集合写成V={v1,v2,...,vN},那么邻接矩阵A的每个元素aij可以表示为:
式中,是节点vj的近邻节点集合,通过KNN或距离截断来计算;
构建相似性矩阵∑,令细胞之间的空间区域相关特征相关性随着距离的增加而减少,并趋于指数衰减,所以理想情况下∑是基于高斯核的N×N维空间相关矩阵:
式中,γ表示带宽参数;
所述图注意力网络模块包括两个图注意层,令图注意层的输入是N×n维的特征矩阵为H=(h1,h2,...,hN),输出为N×n′维的矩阵H′=(h′1,h′2,...,h′N),则:
式中,W是n′×n维的权重矩阵,是vj邻点的集合,αij是使用SoftMax函数的归一化注意力系数矩阵:
eij=aT(Whi||Whj)
其中a是可学习向量,||是连接操作,在图注意层中使用指数线性单元作为激活函数σ;
空间区域相关特征U经过学习,可以表示为:
U=GAT2(GAT1(Z))
式中,GAT1()、GAT2()分别表示第一层图注意层和第二层图注意层。
优选地,所述图注意力网络模块的目标函数为:
Loss2=λspatial*Lspatial+λrec*Lrec
式中,Lspatial=MSE(UUT,∑),Lrec=MSE(U,Z),λspatial和λrec为权重参数。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明融合了统计分布假设和深度学习算法,使得模型兼具统计建模的表征能力和深度学习的学习效率,显著提高了空间转录组数据的区域划分能力和特征学习效果。
(2)本发明的AE模块的建模学习到了精细可靠的细胞类型相关特征,因此对于具有单细胞分辨率的空间转录组数据,可以同时输出细胞类型和空间区域的标签,简化了空间转录组数据的分析步骤。
(3)本发明的GAT模块充分利用空间位置信息,利用全局的位置信息来防止局部过拟合的出现。同时,可以自适应地更新低维表征,保留了数据的生物学意义,学习到可解读的特征空间和可靠的轨迹推断结果。
附图说明
图1为本发明的方法流程示意图。
图2为本发明的方法框架示意图。
图3为实施例提供的利用LISI指标评估多种数据的区域划分结果示意图。
图4为实施例提供的利用ARI、NMI、ACC评估几种算法在皮层数据中的区域划分的准确性结果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
一种识别空间转录组空间区域和细胞类型的特征学习方法,如图1所示,包括以下步骤:
S1:通过空间转录组测序方法获取定量的基因表达矩阵和空间坐标位置矩阵;
S2:对所述基因表达矩阵进行标准化,得到标准化后的基因表达矩阵;
S3:利用结合零膨胀负二项分布的分布假设的自编码器模块进行降噪低维特征的学习,所述自编码器模块的输入为标准化后的基因表达矩阵,所述自编码器模块的输出为细胞类型相关特征,通过对细胞类型相关特征进行聚类得到每个细胞的细胞类型标签;
S4:将细胞类型相关特征和空间坐标位置矩阵作为图注意力网络模块的输入,图注意力网络模块输出空间区域相关特征,通过对空间区域相关特征进行聚类得到每个细胞的空间区域标签。
实施例2
本实施例在实施例1的基础上,继续公开以下内容:
步骤S1中基因表达矩阵和空间坐标位置矩阵,具体为:
各种空间转录组测序方法都可以得到定量的基因表达矩阵和空间坐标位置矩阵,其中,基因表达矩阵X中的每行代表一个测序基本单元,包含单个细胞或多个细胞,一共有N个细胞,基因表达矩阵X中的每列代表一个基因,一共有G个基因;
空间坐标位置矩阵Y的每行代表一个细胞,空间坐标位置矩阵Y的列是该细胞的二维或三维位置信息。
步骤S2中对所述基因表达矩阵进行标准化,具体为:
式中,xn表示细胞n的基因表达向量,为所述基因表达矩阵的第n行,sn表示细胞n的文库大小,sf表示标准化后所有细胞的文库大小,表示标准化后的细胞n的基因表达向量,对每个细胞的表达式均进行上式所述的标准化,从而得到标准化后的表达矩阵/>
模型的整个框架如图2所示,结合了零膨胀负二项分布和深度学习方法进行特征学习,模型包含自编码器和图注意力网络两个模块。其中,AE模块结合了ZINB的分布假设,使用自编码器框架进行降噪低维特征的学习。此模块的输入为标准化后的基因表达矩阵输出为细胞类型相关特征CE。CE可以通过聚类进而得到每个细胞的细胞类型标签。GAT模块将CE矩阵和坐标位置Y作为输入,学习空间区域相关特征SE矩阵。GAT模块首先根据坐标位置构建邻接矩阵和相似矩阵,然后根据邻接矩阵整合邻居细胞的特征从而更新目标细胞的SE,同时,为了充分利用空间位置,在训练过程中,约束SE的相似性随着细胞物理距离的增加而减小。在学习得到SE矩阵后,可以进一步通过聚类得到每个细胞的空间区域标签。
所述基因表达矩阵中的每个元素都遵循零膨胀负二项分布,其参数为(πng,rng,pg),其中πng是观察到真实基因表达值为0的概率,(rng,pg)是负二项分布的标准参数,xng是在达到rng次失败时的成功次数,pg是每个伯努利试验的失败概率。
xng的似然函数为:
其中,δ0()表示狄拉克函数,f()表示伽马函数。
使用AE模块来同时学习Z和分布参数,ZINB参数是N×G维的参数矩阵Π、R和G维的参数向量P,分别由元素πng,rng和pg组成。
步骤S3中自编码器模块包括两层编码器和两层解码器,表示为:
Z′=f2(Z)
R′=f3(Z′)
Π=f4(Z′)
式中,f1是编码器,编码器包含两层,分别将输入数据从G维降维至m′维、从m′维降维至m维,表示标准化后的基因表达矩阵,Z为降维后的细胞类型相关特征矩阵(N×m维);f2、f3、f4分别为解码器的三个输出,解码器包括两层,分别将输入数据从m维升维至m′维、m′维升维至G维,Z′为解码器的第一个输出,f3、f4分别作用于Z′以学习参数R′和参数Π,参数R和参数Π分别为N×G维的矩阵,分别由元素rng和πng组成,R′由元素r′ng组成,rng=s′nr′ng,其中s′n是细胞n的缩放系数,在此,假设基因表达水平的对数与测序深度的基数10的对数之间存在线性关系,s′n=exp(log10sn),所以重建的表达是/>
由元素lg组成的参数向量L是通过指数变换从可学习向量获得的,具体为:
式中,lg是负二项分布的logit。
所述自编码器模块的损失函数定义为负二项分布的负对数似然函数:
Loss1=NLLzINB(X;Π,R,P)
式中,NLLzINB()表示负二顶分布的负对数似然函数。
GAT模块的输入是CE和空间坐标Y,它首先从空间位置构建相邻矩阵和相似性矩阵,然后用两个图注意层进行学习并输出N×m维的SE特征U。
步骤S4具体为:
首先根据各个细胞的位置构建对称的邻接矩阵A,节点的集合写成V={v1,v2,...,vN},那么邻接矩阵A的每个元素aij可以表示为:
式中,是节点vj的近邻节点集合,通过KNN或距离截断来计算;
构建相似性矩阵∑,令细胞之间的空间区域相关特征相关性随着距离的增加而减少,并趋于指数衰减,所以理想情况下∑是基于高斯核的N×N维空间相关矩阵:
式中,γ表示带宽参数,控制空间位置对特征的影响程度,γ越大影响越大;
所述图注意力网络模块包括两个图注意层,令图注意层的输入是N×n维的特征矩阵为H=(h1,h2,...,hN),输出为N×n′维的矩阵H′=(h′1,h′2,...,h′N),则:
式中,W是n′×n维的权重矩阵,是vj邻点的集合,αij是使用SoftMax函数的归一化注意力系数矩阵:
eij=aT(Whi||Whj)
其中a是可学习向量,||是连接操作,在图注意层中使用指数线性单元作为激活函数σ;
空间区域相关特征U经过学习,可以表示为:
U=GAT2(GAT1(Z))
式中,GAT1()、GAT2()分别表示第一层图注意层和第二层图注意层。
GAT模块学习的目标是使不同位置的U相关性呈现指数衰减,同时保持Z中的信息,即n个位置U之间的相关性UUT接近∑,U接近Z,因此,目标函数可以写成,所以,所述图注意力网络模块的目标函数为:
Loss2=λspatial*Lspatial+λrec*Lrec
式中,Lspatial=MSE(UUT,∑),Lrec=MSE(U,Z),λspatial和λrec为权重参数。
实施例2
本实施例在实施例1和实施例2的基础上,提供以下具体实施例:
使用以下设定进行数据的处理和分析。首先,不同层分别使用了不同的非线性激活函数。其中,编码器和解码器的f2均使用了线性整流函数(Rectified Linear Unit,简称ReLU),解码器的f3和f4分别使用指数函数(Exponential function,简称exp)和逻辑函数(Logistic function,通常称作sigmoid)。模型损失函数的λspatial和λrec默认设置为1.0(0.5~2)和0.08(0.05~1);KNN计算邻域点的数量为10;γ为距离矩阵的0.05分位值。在训练过程中,我们使用适应性矩估计(Adaptive moment estimation,简称Adam)优化器来最小化损失函数,学习率为0.001(0.0001~0.01),网络中随机丢弃(dropout)概率为0.1(0~0.5),默认迭代次数为50(40~400)。
在实施例中,此模型应用于不同平台的空间转录组数据,包括Stereo-seq的嗅球(0lfactory bulb)数据、Slide-seq的海马体(Hippocampus)数据、具有标准分层的STARmap的视觉皮层(Visual cortex)数据,以及具有复杂组织结构的Stereo-seq全脑(Brain)数据,验证此模型的准确性和普适性。图3用Local inverse Simpson’s index(简称LISI)指标(Korsunsky,I.et al.“Fast,sensitive and accurate integration of single-celldata with Harmony(使用Harmony快速、灵敏且准确地集成单细胞数据).”Nat Methods16,1289-1296,2019)评估了区域划分效果。LISI用于衡量空间区域的区域聚集性,取值范围为[1,∞),越低的LISI值代表越高的区域聚集程度。本发明(SECE)在所有数据中都具有最低的LISI取值和最小的标准差,表明SECE在所有数据中均有最优的表现。图4展示了几种算法在具有金标准分层的Cortex数据中的区域划分结果。利用指标Adjusted Rand index(简称ARI)、Normalized mutual information(简称NMI)、Accuracy(简称ACC)评估区域划分的准确性。SECE的ARI、NMI和ACC均达到最高,表明SECE得到了与已知区域最相近的区域划分结果。以上证据显示SECE比现有方案准确性更好,普适性更好。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,包括以下步骤:
S1:通过空间转录组测序方法获取定量的基因表达矩阵和空间坐标位置矩阵;
S2:对所述基因表达矩阵进行标准化,得到标准化后的基因表达矩阵;
S3:利用结合零膨胀负二项分布假设的自编码器模块进行降噪低维特征的学习,所述自编码器模块的输入为标准化后的基因表达矩阵,所述自编码器模块的输出为细胞类型相关特征,通过对细胞类型相关特征进行聚类得到每个细胞的细胞类型标签;
S4:将细胞类型相关特征和空间坐标位置矩阵作为图注意力网络模块的输入,图注意力网络模块输出空间区域相关特征,通过对空间区域相关特征进行聚类得到每个细胞的空间区域标签。
2.根据权利要求1所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,步骤S1中基因表达矩阵和空间坐标位置矩阵,具体为:
基因表达矩阵X中的每行代表一个测序基本单元,包含单个细胞或多个细胞,一共有N个细胞,基因表达矩阵X中的每列代表一个基因,一共有G个基因;
空间坐标位置矩阵Y的每行代表一个细胞,空间坐标位置矩阵Y的列是该细胞的二维或三维位置信息。
3.根据权利要求2所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,步骤S2中对所述基因表达矩阵进行标准化,具体为:
式中,xn表示细胞n的基因表达向量,为所述基因表达矩阵的第n行,sn表示细胞n的文库大小,sf表示标准化后所有细胞的文库大小,表示标准化后的细胞n的基因表达向量。
4.根据权利要求3所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,所述基因表达矩阵中的每个元素都遵循零膨胀负二项分布,其参数为(πng,rng,pg),其中πng是观察到真实基因表达值为0的概率,(rng,pg)是负二项分布的标准参数,xng是在达到rng次失败时的成功次数,pg是每个伯努利试验的失败概率。
5.根据权利要求4所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,xng的似然函数为:
其中,δ0()表示狄拉克函数,Γ()表示伽马函数。
6.根据权利要求5所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,步骤S3中自编码器模块包括两层编码器和两层解码器,表示为:
Z′=f2(Z)
R′=f3(Z′)
Π=f4(Z′)
式中,f1是编码器,编码器包含两层,分别将输入数据从G维降维至m′维、从m′维降维至m维,表示标准化后的基因表达矩阵,Z为降维后的细胞类型相关特征矩阵;f2、f3、f4分别为解码器的三个输出,解码器包括两层,分别将输入数据从m维升维至m′维、m′维升维至G维,Z′为解码器的第一个输出,f3、f4分别作用于Z′以学习参数R′和参数Π,参数R和参数Π分别为N×G维的矩阵,分别由元素rng和πng组成,R′由元素r′ng组成,rng=s′nr′ng,其中s′n是细胞n的缩放系数,s′n=exp(log10sn)。
7.根据权利要求6所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,由元素lg组成的参数向量L是通过指数变换从可学习向量获得的,具体为:
式中,lg是负二项分布的logit。
8.根据权利要求7所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,所述自编码器模块的损失函数定义为负二项分布的负对数似然函数:
Loss1=NLLZINB(X;Π,R,P)
式中,NLLZINB()表示负二项分布的负对数似然函数。
9.根据权利要求8所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,步骤S4具体为:
首先根据各个细胞的位置构建对称的邻接矩阵A,节点的集合写成V={v1,v2,…,vN},那么邻接矩阵A的每个元素aij可以表示为:
式中,是节点vj的近邻节点集合,通过KNN或距离截断来计算;
构建相似性矩阵Σ,令细胞之间的空间区域相关特征相关性随着距离的增加而减少,并趋于指数衰减,所以理想情况下Σ是基于高斯核的N×N维空间相关矩阵:
式中,γ表示带宽参数;
所述图注意力网络模块包括两个图注意层,令图注意层的输入是N×n维的特征矩阵为H=(h1,h2,…,hN),输出为N×n′维的矩阵H′=(h′1,h′2,…,h′N),则:
式中,W是n′×n维的权重矩阵,是vj邻点的集合,αij是使用SoftMax函数的归一化注意力系数矩阵:
eij=aT(Whi||Whj)
其中a是可学习向量,||是连接操作,在图注意层中使用指数线性单元作为激活函数σ;
空间区域相关特征U经过学习,可以表示为:
U=GAT2(GAT1(Z))
式中,GAT1()、GAT2()分别表示第一层图注意层和第二层图注意层。
10.根据权利要求9所述的识别空间转录组空间区域和细胞类型的特征学习方法,其特征在于,所述图注意力网络模块的目标函数为:
Loss2=λspatial*Lspatial+λrec*Lrec
式中,Lspatial=MSE(UUT,Σ),Lrec=MSE(U,Z),λspatial和λrec为权重参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310129121.5A CN116741273A (zh) | 2023-02-15 | 2023-02-15 | 一种识别空间转录组空间区域和细胞类型的特征学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310129121.5A CN116741273A (zh) | 2023-02-15 | 2023-02-15 | 一种识别空间转录组空间区域和细胞类型的特征学习方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116741273A true CN116741273A (zh) | 2023-09-12 |
Family
ID=87917484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310129121.5A Pending CN116741273A (zh) | 2023-02-15 | 2023-02-15 | 一种识别空间转录组空间区域和细胞类型的特征学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116741273A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854600A (zh) * | 2024-03-07 | 2024-04-09 | 北京大学 | 基于多组学数据的细胞识别方法、装置、设备及存储介质 |
CN118016149A (zh) * | 2024-04-09 | 2024-05-10 | 太原理工大学 | 一种整合空间转录组多模态信息的空间域识别方法 |
-
2023
- 2023-02-15 CN CN202310129121.5A patent/CN116741273A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854600A (zh) * | 2024-03-07 | 2024-04-09 | 北京大学 | 基于多组学数据的细胞识别方法、装置、设备及存储介质 |
CN117854600B (zh) * | 2024-03-07 | 2024-05-21 | 北京大学 | 基于多组学数据的细胞识别方法、装置、设备及存储介质 |
CN118016149A (zh) * | 2024-04-09 | 2024-05-10 | 太原理工大学 | 一种整合空间转录组多模态信息的空间域识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Graphical models via univariate exponential family distributions | |
CN116741273A (zh) | 一种识别空间转录组空间区域和细胞类型的特征学习方法 | |
CN112966114B (zh) | 基于对称图卷积神经网络的文献分类方法和装置 | |
EP1598751B1 (en) | Estimation of distribution algorithm (EDA) | |
CN111274903A (zh) | 一种基于图卷积神经网络的宫颈细胞图像分类方法 | |
Dinh et al. | Consistent feature selection for analytic deep neural networks | |
Gong et al. | Missing value imputation for multi-view urban statistical data via spatial correlation learning | |
Cui et al. | Learning global pairwise interactions with Bayesian neural networks | |
CN114091603A (zh) | 一种空间转录组细胞聚类、分析方法 | |
CN114943859B (zh) | 面向小样本图像分类的任务相关度量学习方法及装置 | |
CN111259938B (zh) | 基于流形学习和梯度提升模型的图片偏多标签分类方法 | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
CN114783526A (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
CN111242028A (zh) | 基于U-Net的遥感图像地物分割方法 | |
Perera et al. | Generative moment matching networks for genotype simulation | |
Mestres et al. | Selection of the regularization parameter in graphical models using network characteristics | |
CN114186518A (zh) | 一种集成电路良率估算方法及存储器 | |
Lall et al. | A copula based topology preserving graph convolution network for clustering of single-cell RNA-seq data | |
CN116956993A (zh) | 一种构建图集成模型的方法、装置及存储介质 | |
CN115661498A (zh) | 一种自优化单细胞聚类方法 | |
CN116383441A (zh) | 社群检测方法、装置、计算机设备和存储介质 | |
CN114202671A (zh) | 一种图像预测优化处理方法及装置 | |
CN114298276A (zh) | 基于卷积神经网络的多智能体系统网络鲁棒性评估方法 | |
CN110504004B (zh) | 一种基于复杂网络结构可控性基因的识别方法 | |
CN112071362A (zh) | 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |