CN115359845A - 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法 - Google Patents

一种融合单细胞转录组的空间转录组生物组织亚结构解析方法 Download PDF

Info

Publication number
CN115359845A
CN115359845A CN202210944249.2A CN202210944249A CN115359845A CN 115359845 A CN115359845 A CN 115359845A CN 202210944249 A CN202210944249 A CN 202210944249A CN 115359845 A CN115359845 A CN 115359845A
Authority
CN
China
Prior art keywords
transcriptome
data
spatial
node
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210944249.2A
Other languages
English (en)
Inventor
刘佳贝
陈新
李浩宇
黄永慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210944249.2A priority Critical patent/CN115359845A/zh
Publication of CN115359845A publication Critical patent/CN115359845A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质,包括以下步骤:S1.获取公开的空间转录组数据并进行预处理;S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。本发明提高了空间转录数据的聚类精度及单细胞数据分类准确度。

Description

一种融合单细胞转录组的空间转录组生物组织亚结构解析 方法
技术领域
本发明涉及生物信息技术领域,更具体地,涉及一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质。
背景技术
随着生物信息学技术的快速发展,特别是转录组学和遗传学的研究改变了人们对癌症的认识。单细胞RNA测序(scRNA-seq)技术的进展可以让研究人员更清楚地了解肿瘤的细胞组成内部结构,通过scRNA-seq技术研究分析肿瘤相关细胞,并根据细胞的分子谱将细胞的类型划分成更精细的细胞亚群。在scRNA-seq技术中,聚类分析技术极为关键。现有的基于基因表达方法主要是用pearson相关系数、spearman相关系数等指标进行分析。细胞亚群形成了复杂的生态系统,它们之间的相互作用会影响肿瘤进展和治疗结果,但关于肿瘤相关细胞亚群相互作用的方式还没研究透彻。scRNA-seq的缺陷在于对组织样本进行处理的时候失去了组织的空间背景(即细胞环境),而空间转录组测序可以同时获得细胞的空间位置信息和基因表达数据,更适合研究肿瘤基质中的细胞相互作用和空间基因表达。
目前空间转录组的技术主要有两种:基于NGS技术的方法和基于成像的方法(包括基于ISS的和基于ISH的)。
基于NGS技术的方法:2016年,空间转录组学(ST)技术被提出,以获得空间分辨的全转录组信息。2018年底,ST技术被进一步开发为10xVisium。10xVisium检测法在分辨率以及运行时间上都有改进。Slide-seq利用放置在载玻片上的随机barcode(一种用于区分的编码)珠子来捕获mRNA。在Slide-seq方法发表后不久,出现了另一种使用更小的barcode珠子的技术——高分辨率空间转录组技术(HDST)。DBiT-seq可在组织中使用确定性barcode进行空间组测序,该方法基于微流体的方法将barcode传递到组织玻片的表面,以实现10μm像素大小的分辨率。Stereo-seq使用随机barcodeDNA纳米球沉积在阵列模式中,以实现纳米级分辨率。Seq-scope已经实现了亚细胞分辨率的空间barcode,可以用来可视化核和细胞质转录。NanostringGeoMXDSP技术是将数据的捕获放在了一个个圆形的感兴趣区域(ROI)中,其将紫外线照射到ROI上,释放可光裂解的基因标签以进行测序定量。在所有基于NGS的方法中,均为收集空间barcodeRNA并进行测序,其中测序数据的基本单元是reads(测序短片段)。每个测序短片段(reads)的barcode用于绘制空间位置,而测序reads的其余部分被映射到基因组,以识别转录源,共同生成一个基因表达矩阵。
基于ISH(原位杂交)和基于ISS(原位测序)的方法:
上述两类方法均是以图像处理生成基因表达矩阵。基于ISH的方法是以ISH技术为基础,通过互补荧光探针杂交检测目标序列。smFISH利用多条短的寡核苷酸探针来靶向同一mRNA转录本的不同区域。虽然smFISH具有高灵敏度和亚细胞空间分辨率,但由于标准显微镜中光谱重叠的固有限制,它一次只能针对几个基因。seqFISH是一种多路smFISH方法,通过连续几轮杂交、成像和探针剥离,多次检测单个转录本,但既昂贵又耗时。为了弥补seqFISH的大量耗时,MERFISH技术于2015年被发布。这种技术可以鉴定单个细胞中数千种RNA的拷贝数和空间定位。它利用组合标签、连续成像等技术来提高检测通量,并通过二进制barcode来抵消单分子标记和检测错误。
基于ISS的方法是直接读出组织内转录本的序列。BaristaSeq是一种基于缺口填充挂锁的方法,其读取长度增加到15个碱基。STARmap使用barcode挂锁探针,与靶标杂交,通过添加第二个引物,针对挂锁探针旁边的位点,避免了逆转录(RT)步骤。这种方法避免了cDNA转换的效率障碍,并通过增加第二个杂交步骤来降低噪音。前面所提到的方法都是基于对靶标的先验知识,而FISSEQ是一种非靶标的方法,即捕获所有种类的RNA,但非靶向扩增会导致光学拥挤和灵敏度降低。
为了提高空间数据的精度,在空间转录技术没有突破的情况下,整合多层面多维度的数据是一个可行的办法,两种或多种数据模态的计算集成可以更好地表征组织中的空间细胞类型组成和局部细胞状态,比如将scRNA-seq数据与用空间转录组数据整合用于聚类分析,可以得到更精准的分类结果。
发明内容
本发明提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法、系统及计算机可读存储介质,提高了空间转录数据的聚类精度及单细胞数据分类效果。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明第一方面提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,包括以下步骤:
S1.获取公开的空间转录组数据并进行预处理;
S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
进一步的,步骤S1中对公开的空间转录组数据并进行预处理包括:数据的归一化、数据格式调整。
进一步的,STAGATE框架包括:空间邻居网络SNN和图注意力自动编码器,其中,空间邻居网络用于,所述图注意力编码器用于学习具有空间信息和基因表达的低维潜在向量embedding。
进一步的,空间邻居网络SNN构建的具体过程为:
根据预定义的半径r将空间信息转换为无向邻居网络,定义A为SNN的邻接矩阵,当且仅当节点i和节点j之间的欧几里德距离小于r时,Aij=1,Aij表示邻接矩阵A的第i行,第j列元素;对于其他不同技术的空间转录组数据,则根据数据的具体分辨率选择r,以每个节点为圆心,以r为半径,平均包含6-15个邻居节点;最后给每个节点添加自循环。
进一步的,图注意力自动编码器包括:编码器、解码器和图注意层,图注意力层嵌在编码器与解码器中;
其中,编码器将节点的归一化的基因表达作为输入,并通过聚合该节点邻居的信息来生成节点向量spotembedding,编码器中的图注意力层共L-1层(k∈{1,2,...,L-1});
xi是节点i的归一化表达式,L是编码器的层数,
Figure BDA0003785153280000031
为编码器第k层输出的节点向量spotembedding,Si为节点s的邻居的集合,Wk是可训练的权重矩阵;
将节点的表达谱作为初始节点向量spotembedding,则有:
Figure BDA0003785153280000041
其中
Figure BDA0003785153280000042
是第k个图注意层输出中节点i和节点j之间的边权重;
从节点i到其邻居节点j的边权重
Figure BDA0003785153280000043
Figure BDA0003785153280000044
其中
Figure BDA0003785153280000045
Figure BDA0003785153280000046
是可训练的权重向量,Sigmoid表示sigmoid激活函数;
为了使空间相似性权重具有可比性,通过softmax函数对其进行归一化:
Figure BDA0003785153280000047
即第k个图注意层输出中节点i和节点j之间的边权重;
编码器第L层不采用注意力机制,输出为
Figure BDA0003785153280000048
即最终输出的节点向量spotembedding;
所述解码器在倒数第k层重构了节点i在第k-1层的embedding:
Figure BDA0003785153280000049
Figure BDA00037851532800000410
节点i在解码器最后一层的输出
Figure BDA00037851532800000411
其中
Figure BDA00037851532800000412
损失函数为
Figure BDA00037851532800000413
进一步的,在对XGBoost分类模型进行训练时,参数设置如下:设置预调整的参数学习率eta=0.7,迭代次数nround=20,节点分裂所需的最小损失函数下降值gamma=0.001,树的最大深度max_depth=5,最小样本权重的和min_child_weight=10。
进一步的,利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成具体步骤为:
首先构成超图G,V代表所有基聚类的结果(簇)的集合,Ci为其中的一个簇,E代表基于V构建的超边ei的集合,超边同时连接的点数大于或等于2个,每条超边中包含有多个节点,超边与超边之间包含的节点可以有重复,权重
Figure BDA00037851532800000414
Figure BDA00037851532800000415
构成超图后,用MCLA算法将图G分割成k个平衡的元簇类
Figure BDA00037851532800000416
每个元簇类被一个表征示例和元簇类间的关联程度的m维指示向量
Figure BDA00037851532800000417
Figure BDA00037851532800000418
所表示,接下来将每个示例分配给与其最相关的元簇类,得到集成聚类簇λ,既优化后的最终聚类结果。
本发明第二方面提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析系统,该系统包括:存储器、处理器,所述存储器中包括一种融合单细胞转录组的空间转录组生物组织亚结构解析方法程序,所述一种融合单细胞转录组的空间转录组生物组织亚结构解析方法程序被所述处理器执行时实现如下步骤:
S1.获取公开的空间转录组数据并进行预处理;
S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括融合单细胞转录组的空间转录组生物组织亚结构解析方法程序,所述融合单细胞转录组的空间转录组生物组织亚结构解析方法程序被处理器执行时,实现所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法的步骤。
与现有技术相比,本发明技术方案的有益效果是:
本发明利用STAGATE转录组数据进行降维、分析与聚类,利用XGBoost对单细胞转录数据聚,提高了空间转录数据的聚类精度及单细胞数据分类效果,同时利用,超图分割将两个聚类结果集成起来,获得精度更高的聚类结果。
附图说明
图1为本发明一种融合单细胞转录组的空间转录组生物组织亚结构解析方法流程图。
图2为本发明一种融合单细胞转录组的空间转录组生物组织亚结构解析系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明第一方面提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,包括以下步骤:
S1.获取公开的空间转录组数据并进行预处理;
需要说明的是,对转录组数据进行预处理包括:数据的归一化、数据格式调整。将转录组数据进行归一化(筛选高差异基因等)、将数据格式转化为符合算法输入数据的格式。
S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
需要说明的是,STAGATE框架包括:空间邻居网络SNN和图注意力自动编码器,其中,空间邻居网络用于,所述图注意力编码器用于学习具有空间信息和基因表达的低维潜在embedding。STAGATE首先基于节点的相对空间位置构建空间邻居网络(SNN),然后通过图注意力自动编码器学习具有空间信息和基因表达的低维潜在embedding(表示一个物体的一个抽象的向量),每个节点的归一化表达式先由编码器转换为d维潜在embedding,再通过解码器反转回重建的表达谱。其中,编码器和解码器的中间层采用了注意力机制,能自适应地学习SNN的边缘权重(即相邻节点之间的相似性),并通过聚合某个节点的邻居的信息,用SNN来更新该节点的表达。
在一个具体的实施例中,空间邻居网络SNN构建的具体过程为:
根据预定义的半径r将空间信息转换为无向邻居网络,定义A为SNN的邻接矩阵,当且仅当节点i和节点j之间的欧几里德距离小于r时,Aij=1,Aij表示邻接矩阵A的第i行,第j列元素。比如,对于10xVisium数据,我们将SNN网络的半径r设置为能将每个节点的六个最近的节点包含进去的数值。对于其他不同技术的空间转录组数据,则根据数据的具体分辨率选择r,以每个节点为圆心,以r为半径,平均包含6-15个邻居节点;最后给每个节点添加自循环。
图注意力自动编码器包括:编码器、解码器和图注意层,图注意力层嵌在编码器与解码器中;
其中,编码器将节点的归一化的基因表达作为输入,并通过聚合该节点邻居的信息来生成节点向量spotembedding,编码器中的图注意力层共L-1层(k∈{1,2,...,L-1});
xi是节点i的归一化表达式,L是编码器的层数,
Figure BDA0003785153280000071
为编码器第k层输出的节点向量spotembedding,Si为节点s的邻居的集合,Wk是可训练的权重矩阵;
将节点的表达谱作为初始节点向量spotembedding,则有:
Figure BDA0003785153280000072
其中
Figure BDA0003785153280000073
是第k个图注意层输出中节点i和节点j之间的边权重;
从节点i到其邻居节点j的边权重
Figure BDA0003785153280000074
Figure BDA0003785153280000075
其中
Figure BDA0003785153280000076
Figure BDA0003785153280000077
是可训练的权重向量,Sigmoid表示sigmoid激活函数;
为了使空间相似性权重具有可比性,通过softmax函数对其进行归一化:
Figure BDA0003785153280000078
即第k个图注意层输出中节点i和节点j之间的边权重;
编码器第L层不采用注意力机制,输出为
Figure BDA0003785153280000079
即最终输出的节点向量spotembedding;
所述解码器在倒数第k层重构了节点i在第k-1层的embedding:
Figure BDA00037851532800000710
Figure BDA00037851532800000711
节点i在解码器最后一层的输出
Figure BDA00037851532800000712
解码器的公式与编码器类似,其中
Figure BDA00037851532800000713
损失函数为
Figure BDA00037851532800000714
需要说明的是,本发明使用Louvain算法对编码器输出对比结果(即节点向量spotembedding)进行聚类,得到空间转录组数据的聚类结果。其中Louvain算法的分辨率是可以手动选择的,能够适应不同分辨率的空间转录组数据。
S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
需要说明的是,预处理包括数据进行归一化、调整数据格式等操作,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集。
S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
需要说明的是,在对XGBoost分类模型进行训练时,参数设置如下:设置预调整的参数学习率eta=0.7,迭代次数nround=20,节点分裂所需的最小损失函数下降值gamma=0.001,树的最大深度max_depth=5,最小样本权重的和min_child_weight=10。其中,如果训练后对分类精度不满意,可以在此基础上对参数进行相应的调整。最后使用训练后的模型对空间转录组数据同源(同一样本)的单细胞测序数据集进行分类,得到单细胞分类结果。
S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
需要说明的是,利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成具体步骤为:
首先构成超图G,V代表所有基聚类的结果(簇)的集合,Ci为其中的一个簇,E代表基于V构建的超边ei的集合,超边同时连接的点数大于或等于2个,每条超边中包含有多个节点,超边与超边之间包含的节点可以有重复,权重
Figure BDA0003785153280000081
Figure BDA0003785153280000082
构成超图后,用MCLA算法将图G分割成k个平衡的元簇类
Figure BDA0003785153280000083
每个元簇类被一个表征示例和元簇类间的关联程度的m维指示向量
Figure BDA0003785153280000084
Figure BDA0003785153280000085
所表示,接下来将每个示例分配给与其最相关的元簇类,得到集成聚类簇λ,既优化后的最终聚类结果。
如图2所示,本发明第二方面提供了一种融合单细胞转录组的空间转录组生物组织亚结构解析系统,该系统包括:存储器、处理器,所述存储器中包括一种融合单细胞转录组的空间转录组生物组织亚结构解析方法程序,所述一种融合单细胞转录组的空间转录组生物组织亚结构解析方法程序被所述处理器执行时实现如下步骤:
S1.获取公开的空间转录组数据并进行预处理;
S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
本发明第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括融合单细胞转录组的空间转录组生物组织亚结构解析方法程序,所述融合单细胞转录组的空间转录组生物组织亚结构解析方法程序被处理器执行时,实现所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法的步骤。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (9)

1.一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,包括以下步骤:
S1.获取公开的空间转录组数据并进行预处理;
S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
2.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,步骤S1中对公开的空间转录组数据并进行预处理包括:数据的归一化、数据格式调整。
3.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,STAGATE框架包括:空间邻居网络SNN和图注意力自动编码器,其中,空间邻居网络用于,所述图注意力编码器用于学习具有空间信息和基因表达的低维潜在向量。
4.根据权利要求3所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,空间邻居网络SNN构建的具体过程为:
根据预定义的半径r将空间信息转换为无向邻居网络,定义A为SNN的邻接矩阵,当且仅当节点i和节点j之间的欧几里德距离小于r时,Aij=1,Aij表示邻接矩阵A的第i行,第j列元素;对于其他不同技术的空间转录组数据,则根据数据的具体分辨率选择r,以每个节点为圆心,以r为半径,平均包含6-15个邻居节点;最后给每个节点添加自循环。
5.根据权利要求3所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,图注意力自动编码器包括:编码器、解码器和图注意层,图注意力层嵌在编码器与解码器中;
其中,编码器将节点的归一化的基因表达作为输入,并通过聚合该节点邻居的信息来生成spot embedding(节点向量),编码器中的图注意力层共L-1层(k∈{1,2,...,L-1});
xi是节点i的归一化表达式,L是编码器的层数,
Figure RE-FDA0003891253050000021
为编码器第k层输出的节点embedding,Si为节点s的邻居的集合,Wk是可训练的权重矩阵;
将节点的表达谱作为初始节点向量spot embedding,则有:
Figure RE-FDA0003891253050000022
其中
Figure RE-FDA0003891253050000023
是第k个图注意层输出中节点i和节点j之间的边权重;
从节点i到其邻居节点j的边权重
Figure RE-FDA0003891253050000024
Figure RE-FDA0003891253050000025
其中
Figure RE-FDA0003891253050000026
Figure RE-FDA0003891253050000027
是可训练的权重向量,Sigmoid表示sigmoid激活函数;
为了使空间相似性权重具有可比性,通过softmax函数对其进行归一化:
Figure RE-FDA0003891253050000028
即第k个图注意层输出中节点i和节点j之间的边权重;
编码器第L层不采用注意力机制,输出为
Figure RE-FDA0003891253050000029
即最终输出的节点向量spot embedding;
所述解码器在倒数第k层重构了节点i在第k-1层的向量:
Figure RE-FDA00038912530500000210
Figure RE-FDA00038912530500000211
节点i在解码器最后一层的输出
Figure RE-FDA00038912530500000212
其中
Figure RE-FDA00038912530500000213
损失函数为
Figure RE-FDA00038912530500000214
6.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,在对XGBoost分类模型进行训练时,参数设置如下:设置预调整的参数学习率eta=0.7,迭代次数nround=20,节点分裂所需的最小损失函数下降值gamma=0.001,树的最大深度max_depth=5,最小样本权重的和min_child_weight=10。
7.根据权利要求1所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法,其特征在于,利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成具体步骤为:
首先构成超图G,V代表所有基聚类的结果(簇)的集合,Ci为其中的一个簇,E代表基于V构建的超边ei的集合,超边同时连接的点数大于或等于2个,每条超边中包含有多个节点,超边与超边之间包含的节点可以有重复,权重
Figure RE-FDA0003891253050000031
Figure RE-FDA0003891253050000032
构成超图后,用MCLA算法将图G分割成k个平衡的元簇类
Figure RE-FDA0003891253050000033
每个元簇类被一个表征示例和元簇类间的关联程度的m维指示向量
Figure RE-FDA0003891253050000034
Figure RE-FDA0003891253050000035
所表示,接下来将每个示例分配给与其最相关的元簇类,得到集成聚类簇λ,既优化后的最终聚类结果。
8.一种融合单细胞转录组的空间转录组生物组织亚结构解析系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括一种融合单细胞转录组的空间转录组生物组织亚结构解析方法程序,所述一种融合单细胞转录组的空间转录组生物组织亚结构解析方法程序被所述处理器执行时实现如下步骤:
S1.获取公开的空间转录组数据并进行预处理;
S2.利用STAGATE框架对预处理后的空间转录组数据进行编码,使用Louvain算法对编码结果进行聚类,得到空间转录组数据聚类结果;
S3.获取公开的单细胞RNA测序数据并进行预处理,将预处理后的单细胞RNA测序数据划分为训练数据集和测试数据集;
S4.利用训练数据集和测试数据集对XGBoost分类模型进行训练,空间转录组数据同源的单细胞测序数据集进行分类,得到单细胞分类结果;
S5.利用超图分割对空间转录组数据聚类结果和单细胞分类结果进行集成。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括融合单细胞转录组的空间转录组生物组织亚结构解析方法程序,所述融合单细胞转录组的空间转录组生物组织亚结构解析方法程序被处理器执行时,实现如权利要求1至7中任一项所述的一种融合单细胞转录组的空间转录组生物组织亚结构解析方法的步骤。
CN202210944249.2A 2022-08-05 2022-08-05 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法 Pending CN115359845A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210944249.2A CN115359845A (zh) 2022-08-05 2022-08-05 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210944249.2A CN115359845A (zh) 2022-08-05 2022-08-05 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法

Publications (1)

Publication Number Publication Date
CN115359845A true CN115359845A (zh) 2022-11-18

Family

ID=84001265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210944249.2A Pending CN115359845A (zh) 2022-08-05 2022-08-05 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法

Country Status (1)

Country Link
CN (1) CN115359845A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312782A (zh) * 2023-05-18 2023-06-23 南京航空航天大学 一种融合影像基因数据的空间转录组spot区域聚类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116312782A (zh) * 2023-05-18 2023-06-23 南京航空航天大学 一种融合影像基因数据的空间转录组spot区域聚类方法

Similar Documents

Publication Publication Date Title
Sarhan Cancer classification based on microarray gene expression data using DCT and ANN.
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
US8600718B1 (en) Computer systems and methods for identifying conserved cellular constituent clusters across datasets
NL2023311B1 (en) Artificial intelligence-based generation of sequencing metadata
NL2023310B1 (en) Training data generation for artificial intelligence-based sequencing
US20190347567A1 (en) Methods for data segmentation and identification
Wang et al. A novel neural network approach to cDNA microarray image segmentation
CN117153268A (zh) 一种细胞类别确定方法及系统
CN115359845A (zh) 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法
Nasab et al. Deep learning in spatially resolved transcriptomics: a comprehensive technical view
Liu et al. A comprehensive overview of graph neural network-based approaches to clustering for spatial transcriptomics T. Liu et al. Overview of Spatial Transcriptomics’ Spatial Clutering
Tasoulis et al. Unsupervised clustering of bioinformatics data
WO2007042270A1 (en) Method of identifying pattern in a series of data
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法
WO2021133911A1 (en) Mixseq: mixture sequencing using compressed sensing for in-situ and in-vitro applications
Peng et al. A deep learning-based unsupervised learning method for spatially resolved transcriptomic data analysis
Bao et al. Characterizing tissue composition through combined analysis of single-cell morphologies and transcriptional states
CN117037895B (zh) 模型训练方法、装置、电子设备及存储介质
CN117912570B (zh) 一种基于基因共表达网络的分类特征确定方法及系统
Ma et al. Predicting locus-specific DNA methylation based on deep neural network
Samadi et al. Spatial motifs reveal patterns in cellular architecture of complex tissues
Masud et al. OPEN ACCESS EDITED BY
Adhikari et al. A selective review of recent developments in spatially variable gene detection for spatial transcriptomics
Prasad et al. Deep Learning Approach for Identifying and Classifying Cancer Types Using BPSO and GAN.
CN113128587A (zh) 基于位置学习图卷积神经网络的图分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination