CN118136120A - 基于注意力的单细胞rna数据聚类模型及其构建方法 - Google Patents
基于注意力的单细胞rna数据聚类模型及其构建方法 Download PDFInfo
- Publication number
- CN118136120A CN118136120A CN202311517075.2A CN202311517075A CN118136120A CN 118136120 A CN118136120 A CN 118136120A CN 202311517075 A CN202311517075 A CN 202311517075A CN 118136120 A CN118136120 A CN 118136120A
- Authority
- CN
- China
- Prior art keywords
- attention
- cell
- features
- layer
- constructing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title abstract description 10
- 230000004927 fusion Effects 0.000 claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 35
- 230000014509 gene expression Effects 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000006870 function Effects 0.000 claims description 45
- 230000004913 activation Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 6
- 238000009792 diffusion process Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 5
- 235000019580 granularity Nutrition 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 5
- 239000012633 leachable Substances 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000004321 preservation Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012174 single-cell RNA sequencing Methods 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biotechnology (AREA)
- Probability & Statistics with Applications (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Genetics & Genomics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于注意力的单细胞RNA数据聚类模型及其构建方法,该方法包括:利用图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征;使用图神经网络来表述和聚合细胞‑细胞关系,获得单细胞RNA数据的高阶结构特征;利用异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;利用多尺度特征融合对不同层GNN学习的多尺度特征进行动态拼接;最后利用相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化图神经网络和图注意自编码器模块,获得更好的细胞聚类结果。通过本发明可以用于解决节点属性特征和细胞间的高阶结构特征以及嵌入在不同层的多尺度信息无法灵活地融合的问题,为以后的单细胞RNA数据聚类任务开辟了新的思路。
Description
技术领域
本发明涉及一种基于注意力的单细胞RNA数据聚类模型及其构建方法。
背景技术
单细胞组学技术越来越多地用于生物医学研究,为复杂的细胞生态系统和潜在的分子互联性提供高分辨率的见解。其中,单细胞RNA测序技术引领了这波组学浪潮,它能够阐明单个细胞的遗传异质性,这对于基于转录组学特征细胞类型、研究发育生物学、发现复杂疾病及推断细胞发展轨迹都起到关键作用。因此,准确识别细胞类型已成为单细胞RNA-seq分析的重要一步。然而,由于对细胞类型的一致和严格定义仍不明确,细胞类型注释仍面临挑战。传统依据形态、大小、表面蛋白存在与否等特征识别细胞类型的方法,仍无法准确区分细胞类型。
目前,研究者开发了许多单细胞转录表达聚类方法。这些方法典型地采用简单的线性降维技术对基因表达式矩阵进行预处理,然后计算细胞之间的距离或相似度,最后依据距离矩阵进行硬聚类。相比通用聚类算法,这些方法更加考虑了单细胞数据的特点,为单细胞聚类分析建立了良好基础。然而,由于单细胞数据的高维稀疏特性,线性降维难以捕捉数据中的非线性结构信息。此外,特征提取与聚类分离的流程,也容易导致聚类结果的质量下降。
最近,一些研究采用了端到端的深度学习框架,以提取非线性特征表示并优化聚类目标。这类方法能够同时学习特征表达和细胞划分,并在一定程度上缓解了维数灾难和dropout噪声的影响。然而,存在一些局限,例如,过度依赖预训练,导致特征学习与聚类目标脱节,或者忽略了单细胞数据的图结构信息。最近,图神经网络被证明可以自然捕捉数据的图相关性特征。将图网络与深度学习联合,形成图嵌入聚类框架,可以同时学习表达和结构。但现有图嵌入聚类方法简单地混合结构和属性特征,限制了表示学习的效果。此外,它们只利用最终图嵌入结果进行聚类,而忽略了多层次的结构信息。
综上所述,尽管以上的方法已经取得了一些较好的结果,然而在处理节点属性特征和结构特征融合以及多尺度特征融合的问题时仍然存在一定的局限性。
发明内容
本发明提供一种基于注意力的单细胞RNA聚类模型及其构建方法,用于解决节点属性特征和结构特征融合以及多尺度特征融合的聚类任务时存在局限性的问题。
一种基于注意力的单细胞RNA聚类模型及其构建方法,包括:
图注意自编码器,所述图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征;
图神经网络,所述图神经网络用来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征;
异构智能融合模块,所述异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;
多尺度智能融合模块,所述多尺度特征融合对不同层GNN学习的多尺度特征进行动态拼接;
相互监督模块,所述相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化整个网络框架,获得更好的细胞聚类结果。
在一个具体实施方式中,所述构建图注意自编码器,其具体步骤包括:
使用含有4个堆叠图注意层的编码器,对细胞进行编码以获取潜在表示。编码器中的每个图注意层会聚合相邻细胞的特征,并根据细胞本身和相邻细胞的特征自动学习权重。这样可以自然地捕获细胞之间的潜在联系。之后,结构对称的解码器用于重构原始输入,以实现自监督训练。具体来说,图注意层的函数定义公式如下:
公式中,Hi’是单元格i的新特征,Ni是单元格i的邻居集合,Hj是单元格j的输入特征,W是一个可学习的变换矩阵,σ是一个非线性激活函数。αij为权重系数,表示单元格j对单元格i的重要性;
为了衡量一个细胞对另一个细胞的重要性,受GAT的影响将它们的特征连接起来,得到注意力系数eij,且通过softmax函数对其进行归一化,使其在不同单元间具有可比性,其定义公式如下:
eij=LeakyReLU(aT[WHi||WHj])
公式中,LeakyReLU是一个非线性函数,a是一个可学习的权重向量,||是连接操作;
编码器-解码器模块通过最小化原始数据与重构数据之间的重构损失来提取潜在表示,其定义公式如下:
使用注意力系数这种机制,可以自动区分不同邻居对单元格的重要性。因此,一个细胞可以选择性地接收来自不同邻居的信息,明确地将细胞间的相似信息整合到注意计算中,可以改善学习到的特征;
通过聚合不同权重邻居的特征来学习细胞嵌入,以特征矩阵和辅助图两部分作为输入,输出重构矩阵,最终通过最小化原始数据与重构数据之间的重构损失来提取潜在表示。
在一个具体实施方式中,所述构建图神经网络层,包括:
其中原始邻接矩阵A通过归一化,其中I∈RN×N,为对应度矩阵,Wi为网络权值;
图神经网络的输入是KNN图结构,随后,GNN通过权值计算逐层扩散学习;通过这种信息传播,我们获得了细胞间的结构化信息。
在一个具体实施方式中,所述构建异构智能融合模块,包括:
计算图神经网络特征和自动编码器特征之间的注意力系数,首先将Z和H两种变量连接为[Zi||Hi];然后,定义一个全连接层的参数矩阵Wi a参数化,用来捕捉拼接特征之间的关系;接下来,计算[Zi||Hi]与W的乘积,并使用LeakyReLU激活函数(负斜率为0.2)进行非线性转换;最后,我们对LeakyReLU激活单元的输出先进行softmax归一化,再进行l2归一化;归一化后的结果即为图卷积特征Zi和自编码器特征Hi之间的注意力系数,其定义公式如下:
Mi=l2(softmax((LeakyReLU([Zi||Hi]Wi a))))
其中Mi=[mi,1||mi,2]为条目大于0的关注系数矩阵,mi,1,mi,2分别为衡量Zi、Hi重要性的权重向量;
自适应地将GNN特征Zi和GAE特征Hi融合在一起,其定义公式为:
Z′i=(mi,11i)⊙Zi+(mi,21i)⊙Hi
式中1i表示所有为1的向量,⊙表示矩阵的哈达玛积。然后,将得到的矩阵Z′i作为(i+1)GNN层的输入,学习表示Zi+1;
异构智能融合模块通过计算图神经网络特征和自动编码器特征之间的注意力系数,来捕捉它们的重要性,接着根据学习到的注意力系数对图神经网络特征和自动编码器特征进行加权融合,这样可以选择性地强调来自异构源的重要特征,抑制不重要特征,最终输出的融合特征期望更具判别性。
在一个具体实施方式中,所述构建多尺度智能融合模块,包括:
通过多层图卷积网络提取的不同层的特征包含了不同粒度的信息,因为各层特征维度不同,为了进行融合,我们先对各层特征进行预处理,采用串联的方式将其拼接在一起,表示为:
Z′=[Z1||…||Zi||…||Zl||Zl+1]
定义全连接层参数矩阵Ws用来建模各层特征之间的关系,计算[Z1||...||Zi||...||Zl||Zl+1]与Ws的乘积,并通过LeakyReLU激活函数进行非线性转换,通过对每行元素使用′softmax-I2′归一化,来缩放输出权重值,使注意力系数易于比较,注意系数矩阵可以表示为:
U=l2(softmax(LeakyReLU([Z1||L||Zi||L||Z1||Zl+1]Ws)))
其中,U=[u1||...||ui||...||ul||ul+1],其中ui是对应层Zi的注意力系数;为了充分探索嵌入在多尺度特征上的信息,用学习到的注意力系数对多尺度特征进行加权,特征融合可以表示为:
Z′=[(u1l1)⊙Z1||…||(uili)⊙Zi||…||(ulll)⊙Zl||(ul+1ll+1)⊙Zl+1]
将融合特征Z′作为最终预测层的输入,学习表示Z∈RN×C,N为细胞数,C为聚类数。利用拉普拉斯平滑算子和softmax函数得到后续预测的合理概率分布,其定义公式为:
公式中,W为可学习参数,当网络训练良好时,我们可以通过Z直接推断出预测的聚类标签,表示为:
其中,yi为数据xi的预测标签。
在一个具体实施方式中,所述构建相互监督模块,包括:
对于第i个样本和第j个聚类,定义一个软标签:qij∈Q,它表示当前编码层的数据表示h(i)与K-means聚类初始化的聚类中心向量μ(j)之间的相似度。Q表示所有单元格被分配到集群中心的概率集,使用Student t分布来度量h(i)和μ(j)之间的相似度,其定义公式为:
v是自由度;
使用软标签频率F来获得更高置信度的数据表示pij∈P,其定义公式为:
通过最小化P和Q之间的二进制交叉熵来获得更好的聚类结果,损失函数定义为:
Lclu=-pijlog(qij)-(1-pij)log(1-qij)
在图神经网络的逐层传播中,我们得到一个既包含数据特征又包含细胞间关系的表示Z,同样,在学习过程中我们可以用P来监督Z,其定义公式为:
最后,将模型的损失函数定义为:
L=Lres+αLclu+βLgnn
其中,ɑ和β是两个超参数,用于平衡单细胞RNA数据的局部结构保存和聚类优化的贡献,设置ɑ=0.1和β=0.01。
一种基于注意力的单细胞RNA聚类模型,包括:
构建图注意自编码器,所述图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征;
构建图神经网络,所述图神经网络用来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征;
构建异构智能融合模块,所述异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;
构建多尺度智能融合模块,所述多尺度特征融合对不同层GNN学习的多尺度特征进行动态拼接;
构建相互监督模块,所述相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化整个网络框架,获得更好的细胞聚类结果。
在一个具体实施方式中,所述构建图注意自编码器,其具体步骤包括:
使用含有4个堆叠图注意层的编码器,对细胞进行编码以获取潜在表示。编码器中的每个图注意层会聚合相邻细胞的特征,并根据细胞本身和相邻细胞的特征自动学习权重。这样可以自然地捕获细胞之间的潜在联系。之后,结构对称的解码器用于重构原始输入,以实现自监督训练。具体来说,图注意层的函数定义公式如下:
公式中,Hi’是单元格i的新特征,Ni是单元格i的邻居集合,Hj是单元格j的输入特征,W是一个可学习的变换矩阵,σ是一个非线性激活函数。αij为权重系数,表示单元格j对单元格i的重要性;
为了衡量一个细胞对另一个细胞的重要性,受GAT的影响将它们的特征连接起来,得到注意力系数eij,且通过softmax函数对其进行归一化,使其在不同单元间具有可比性,其定义公式如下:
eij=LeakyReLU(aT[WHi||WHj])
公式中,LeakyReLU是一个非线性函数,a是一个可学习的权重向量,||是连接操作;
编码器-解码器模块通过最小化原始数据与重构数据之间的重构损失来提取潜在表示,其定义公式如下:
使用注意力系数这种机制,可以自动区分不同邻居对单元格的重要性。因此,一个细胞可以选择性地接收来自不同邻居的信息,明确地将细胞间的相似信息整合到注意计算中,可以改善学习到的特征;
通过聚合不同权重邻居的特征来学习细胞嵌入,以特征矩阵和辅助图两部分作为输入,输出重构矩阵,最终通过最小化原始数据与重构数据之间的重构损失来提取潜在表示。
在一个具体实施方式中,所述构建图神经网络层,包括:
其中原始邻接矩阵A通过归一化,其中I∈RN×N,为对应度矩阵,Wi为网络权值;
图神经网络的输入是KNN图结构,随后,GNN通过权值计算逐层扩散学习;通过这种信息传播,我们获得了细胞间的结构化信息。
在一个具体实施方式中,所述构建异构智能融合模块,包括:
计算图神经网络特征和自动编码器特征之间的注意力系数,首先将Z和H两种变量连接为[Zi||Hi];然后,定义一个全连接层的参数矩阵Wi a参数化,用来捕捉拼接特征之间的关系;接下来,计算[Zi||Hi]与W的乘积,并使用LeakyReLU激活函数(负斜率为0.2)进行非线性转换;最后,我们对LeakyReLU激活单元的输出先进行softmax归一化,再进行l2归一化;归一化后的结果即为图卷积特征Zi和自编码器特征Hi之间的注意力系数,其定义公式如下:
Mi=l2(softmax((LeakyReLU([Zi||Hi]Wi a))))
其中Mi=[mi,1||mi,2]为条目大于0的关注系数矩阵,mi,1,mi,2分别为衡量Zi、Hi重要性的权重向量;
自适应地将GNN特征Zi和GAE特征Hi融合在一起,其定义公式为:
Z′i=(mi,11i)⊙Zi+(mi,21i)⊙Hi
式中1i表示所有为1的向量,⊙表示矩阵的哈达玛积。然后,将得到的矩阵Zi′作为(i+1)GNN层的输入,学习表示Zi+1;
异构智能融合模块通过计算图神经网络特征和自动编码器特征之间的注意力系数,来捕捉它们的重要性,接着根据学习到的注意力系数对图神经网络特征和自动编码器特征进行加权融合,这样可以选择性地强调来自异构源的重要特征,抑制不重要特征,最终输出的融合特征期望更具判别性。
在一个具体实施方式中,所述构建多尺度智能融合模块,包括:
通过多层图卷积网络提取的不同层的特征包含了不同粒度的信息,因为各层特征维度不同,为了进行融合,我们先对各层特征进行预处理,采用串联的方式将其拼接在一起,表示为:
Z′=[Z1||…||Zi||…||Zl||Zl+1]
定义全连接层参数矩阵Ws用来建模各层特征之间的关系,计算[Z1||...||Zi||...||Zl||Zl+1]与Ws的乘积,并通过LeakyReLU激活函数进行非线性转换,通过对每行元素使用′softmax-I2′归一化,来缩放输出权重值,使注意力系数易于比较,注意系数矩阵可以表示为:
U=l2(softmax(LeakyReLU([Z1||L||Zi||L||Z1||Z1+1]Ws)))
其中,U=[u1||...||ui||...||ul||ul+1],其中ui是对应层Zi的注意力系数;为了充分探索嵌入在多尺度特征上的信息,用学习到的注意力系数对多尺度特征进行加权,特征融合可以表示为:
Z′=[(u1l1)⊙Z1||…||(uili)⊙Zi||…||(ulll)⊙Zl||(ul+1ll+1)⊙Zl+1]
将融合特征Z′作为最终预测层的输入,学习表示Z∈RN×C,N为细胞数,C为聚类数。利用拉普拉斯平滑算子和sofimax函数得到后续预测的合理概率分布,其定义公式为:
公式中,w为可学习参数,当网络训练良好时,我们可以通过Z直接推断出预测的聚类标签,表示为:
其中,yi为数据xi的预测标签。
在一个具体实施方式中,所述构建相互监督模块,包括:
对于第i个样本和第j个聚类,定义一个软标签:qij∈Q,它表示当前编码层的数据表示h(i)与K-means聚类初始化的聚类中心向量μ(j)之间的相似度。Q表示所有单元格被分配到集群中心的概率集,使用Student t分布来度量h(i)和μ(j)之间的相似度,其定义公式为:
v是自由度;
使用软标签频率F来获得更高置信度的数据表示pij∈P,其定义公式为:
通过最小化P和Q之间的二进制交叉熵来获得更好的聚类结果,损失函数定义为:
Lclu=-pijlog(qij)-(1-pij)log(1-qij)
在图神经网络的逐层传播中,我们得到一个既包含数据特征又包含细胞间关系的表示Z,同样,在学习过程中我们可以用P来监督Z,其定义公式为:
最后,将模型的损失函数定义为:
L=Lres+αLclu+βLgnn
其中,ɑ和β是两个超参数,用于平衡单细胞RNA数据的局部结构保存和聚类优化的贡献,设置ɑ=0.1和β=0.01。
本发明提供一种基于注意力的单细胞RNA数据聚类模型及其构建方法,该方法包括:构建图注意自编码器,图注意自编码器通过聚合不同权重邻居的特征来学习细胞嵌入,将基因表达数据嵌入到低维空间中,获得单细胞RNA数据的节点属性特征;使用图神经网络来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征;利用异构智能融合模块计算图神经网络特征和自动编码器特征之间的注意力系数,根据学习到的注意力系数对同一层的图神经网络特征和自动编码器特征进行加权融合;为了挖掘不同层所蕴含的多尺度信息,利用多尺度智能融合模块计算图神经网络各层特征之间的注意力系数,利用注意力系数对不同层GNN学习的多尺度特征进行动态拼接;最后利用相互监督模块整合图注意自编码器和图神经网络的优势,对结构信息和特征表示的端到端学习过程进行监督,共同优化图神经网络和图注意自编码器模块,使模型既考虑了图结构,也注重了节点属性,获得更好的细胞聚类结果。与其他单细胞RNA聚类模型相比,本发明提供的单细胞RNA聚类模型可以用于解决节点属性特征和细胞间的高阶结构特征以及嵌入在不同层的多尺度信息无法灵活地融合的问题,为以后的单细胞RNA数据聚类任务开辟了新的思路。
附图说明
图1是本发明提供的基于注意力的单细胞RNA数据聚类模型的构建方法的流程图;
图2是本发明提供的基于注意力的单细胞RNA数据聚类模型的一种具体数据执行流程图;
图3是本发明提供的基于注意力的单细胞RNA数据聚类模型的整体结构示意图;
图4是本发明提供给的基于注意力的单细胞RNA数据聚类模型的一种具体网络结构图。
具体实施方式
基于注意力的单细胞RNA数据聚类模型的构建方法实施例:
本实施例提供一种基于注意力的单细胞RNA数据聚类模型的构建方法,该构建方法的硬件执行主体可以为台式电脑、笔记本电脑、服务器设备、智能移动终端(平板电脑、智能手机等)等等,本实施例不做限定。
如图1所示,该构建方法包括:
步骤1:构建图注意自编码器,所述图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征:
图注意自编码器,首先对数据进行预处理,并构造细胞图;
然后,使用含有4个堆叠图注意层的编码器,对细胞进行编码以获取潜在表示。编码器中的每个图注意层会聚合相邻细胞的特征,并根据细胞本身和相邻细胞的特征自动学习权重。这样可以自然地捕获细胞之间的潜在联系。之后,结构对称的解码器用于重构原始输入,以实现自监督训练。具体来说,图注意层的函数定义公式如下:
公式中,Hi’是单元格i的新特征,Ni是单元格i的邻居集合,Hj是单元格j的输入特征,W是一个可学习的变换矩阵,σ是一个非线性激活函数。αij为权重系数,表示单元格j对单元格i的重要性;
为了衡量一个细胞对另一个细胞的重要性,受GAT的影响将它们的特征连接起来,得到注意力系数eij,且通过softmax函数对其进行归一化,使其在不同单元间具有可比性,其定义公式如下:
eij=LeakyReLU(aT[WHi||WHj])
公式中,LeakyReLU是一个非线性函数,a是一个可学习的权重向量,||是连接操作;
编码器-解码器模块通过最小化原始数据与重构数据之间的重构损失来提取潜在表示,其定义公式如下:
使用注意力系数这种机制,可以自动区分不同邻居对单元格的重要性。因此,一个细胞可以选择性地接收来自不同邻居的信息,明确地将细胞间的相似信息整合到注意计算中,可以改善学习到的特征;
通过聚合不同权重邻居的特征来学习细胞嵌入,以特征矩阵和辅助图两部分作为输入,输出重构矩阵,最终通过最小化原始数据与重构数据之间的重构损失来提取潜在表示。
步骤2:构建图神经网络,所述构建图神经网络用来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征,具体公式为:
其中原始邻接矩阵A通过归一化,其中I∈RN×N,为对应度矩阵,Wi为网络权值;
图神经网络的输入是KNN图结构,随后,GNN通过权值计算逐层扩散学习;通过这种信息传播,我们获得了细胞间的结构化信息。
步骤3:构建异构智能融合模块,所述异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;
计算图神经网络特征和自动编码器特征之间的注意力系数,首先将Z和H两种变量连接为[Zi||Hi];然后,定义一个全连接层的参数矩阵Wi a参数化,用来捕捉拼接特征之间的关系;接下来,计算[Zi||Hi]与W的乘积,并使用LeakyReLU激活函数(负斜率为0.2)进行非线性转换;最后,我们对LeakyReLU激活单元的输出先进行softmax归一化,再进行l2归一化;归一化后的结果即为图卷积特征Zi和自编码器特征Hi之间的注意力系数,其定义公式如下:
Mi=l2(softmax((LeakyReLU([Zi||Hi]Wi a))))
其中Mi=[mi,1||mi,2]为条目大于0的关注系数矩阵,mi,1,mi,2分别为衡量Zi、Hi重要性的权重向量;
自适应地将GNN特征Zi和GAE特征Hi融合在一起,其定义公式为:
Z′i=(mi,11i)⊙Zi+(mi,21i)⊙Hi
式中1i表示所有为1的向量,⊙表示矩阵的哈达玛积。然后,将得到的矩阵Z′i作为(i+1)GNN层的输入,学习表示Zi+1;
异构智能融合模块通过计算图神经网络特征和自动编码器特征之间的注意力系数,来捕捉它们的重要性,接着根据学习到的注意力系数对图神经网络特征和自动编码器特征进行加权融合,这样可以选择性地强调来自异构源的重要特征,抑制不重要特征,最终输出的融合特征期望更具判别性。
步骤4:构建多尺度智能融合模块,所述多尺度智能融合模块对不同层GNN学习的多尺度特征进行动态拼接,包括:
通过多层图卷积网络提取的不同层的特征包含了不同粒度的信息,因为各层特征维度不同,为了进行融合,我们先对各层特征进行预处理,采用串联的方式将其拼接在一起,表示为:
Z′=[Z1||…||Zi||…||Zl||Zl+1]
定义全连接层参数矩阵Ws用来建模各层特征之间的关系,计算[Z1||...||Zi||...||Zl||Zl+1]与Ws的乘积,并通过LeakyReLU激活函数进行非线性转换,通过对每行元素使用′softmax-|2′归一化,来缩放输出权重值,使注意力系数易于比较,注意系数矩阵可以表示为:
U=l2(softmax(LeakyReLU([Z1||L||Zi||L||Z1||Z1+1]Ws)))
其中,U=[u1||...||ui||...||ul||ul+1],其中ui是对应层Zi的注意力系数;为了充分探索嵌入在多尺度特征上的信息,用学习到的注意力系数对多尺度特征进行加权,特征融合可以表示为:
Z′=[(u1l1)⊙Z1||…||(uili)⊙Zi||…||(ulll)⊙Zl||(ul+1ll+1)⊙Zl+1]
将融合特征Z′作为最终预测层的输入,学习表示Z∈RN×C,N为细胞数,C为聚类数。利用拉普拉斯平滑算子和softmax函数得到后续预测的合理概率分布,其定义公式为:
公式中,W为可学习参数,当网络训练良好时,我们可以通过Z直接推断出预测的聚类标签,表示为:
其中,yi为数据xi的预测标签。
步骤5:构建相互监督模块,所述相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化整个网络框架,获得更好的细胞聚类结果;
对于第i个样本和第j个聚类,定义一个软标签:qij∈Q,它表示当前编码层的数据表示h(i)与K-means聚类初始化的聚类中心向量μ(j)之间的相似度。Q表示所有单元格被分配到集群中心的概率集,使用Student t分布来度量h(i)和μ(j)之间的相似度,其定义公式为:
v是自由度;
使用软标签频率F来获得更高置信度的数据表示pij∈P,其定义公式为:
通过最小化P和Q之间的二进制交叉熵来获得更好的聚类结果,损失函数定义为:
Lclu=-pijlog(qij)-(1-pij)log(1-qij)
在图神经网络的逐层传播中,我们得到一个既包含数据特征又包含细胞间关系的表示Z,同样,在学习过程中我们可以用P来监督Z,其定义公式为:
最后,将模型的损失函数定义为:
L=Lres+αLclu+βLgnn
其中,ɑ和β是两个超参数,用于平衡单细胞RNA数据的局部结构保存和聚类优化的贡献,设置ɑ=0.1和β=0.01。
本发明提供的单细胞RNA聚类模型可以用于解决节点属性特征和细胞间的高阶结构特征以及嵌入在不同层的多尺度信息无法灵活地融合的问题,为以后的单细胞RNA数据聚类任务开辟了新的思路。
基于注意力的单细胞RNA数据聚类模型实施例:
本实施例提供一种基于注意力的单细胞RNA数据聚类模型,与上述基于注意力的单细胞RNA数据聚类模型的构建方法相对应,如图3所示,基于注意力的单细胞RNA数据聚类模型包括:
图注意自编码器,所述图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征;
图神经网络,所述图神经网络用来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征;
异构智能融合模块,所述异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;
多尺度智能融合模块,所述多尺度特征融合对不同层GNN学习的多尺度特征进行动态拼接;
相互监督模块,所述相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化整个网络框架,获得更好的细胞聚类结果。
对于各个处理层的具体实现方式参见上述基于注意力的单细胞RNA数据聚类模型的构建方法实施例,不再赘述。
图4为基于注意力的单细胞RNA数据聚类模型的一种具体网络结构图。
上述实施例仅以一种具体的实施方式说明本发明的技术方案,任何对本发明进行的等同替换及不脱离本发明精神和范围的修改或局部替换,其均应涵盖在本发明权利要求保护的范围之内。
Claims (12)
1.一种基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,包括:
构建图注意自编码器,所述图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征;
构建图神经网络,所述图神经网络用来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征;
构建异构智能融合模块,所述异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;
构建多尺度智能融合模块,所述多尺度特征融合对不同层GNN学习的多尺度特征进行动态拼接;
构建相互监督模块,所述相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化整个网络框架,获得更好的细胞聚类结果。
2.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建图注意自编码器,其具体步骤包括:
使用含有4个堆叠图注意层的编码器,对细胞进行编码以获取潜在表示。编码器中的每个图注意层会聚合相邻细胞的特征,并根据细胞本身和相邻细胞的特征自动学习权重。这样可以自然地捕获细胞之间的潜在联系。之后,结构对称的解码器用于重构原始输入,以实现自监督训练。具体来说,图注意层的函数定义公式如下:
公式中,Hi’是单元格i的新特征,Ni是单元格i的邻居集合,Hj是单元格j的输入特征,W是一个可学习的变换矩阵,σ是一个非线性激活函数。αij为权重系数,表示单元格j对单元格i的重要性;
为了衡量一个细胞对另一个细胞的重要性,受GAT的影响将它们的特征连接起来,得到注意力系数eij,且通过softmax函数对其进行归一化,使其在不同单元间具有可比性,其定义公式如下:
eij=LeakyReLU(aT[WHi||WHj])
公式中,LeakyReLU是一个非线性函数,a是一个可学习的权重向量,||是连接操作;
编码器-解码器模块通过最小化原始数据与重构数据之间的重构损失来提取潜在表示,其定义公式如下:
使用注意力系数这种机制,可以自动区分不同邻居对单元格的重要性。因此,一个细胞可以选择性地接收来自不同邻居的信息,明确地将细胞间的相似信息整合到注意计算中,可以改善学习到的特征;
通过聚合不同权重邻居的特征来学习细胞嵌入,以特征矩阵和辅助图两部分作为输入,输出重构矩阵,最终通过最小化原始数据与重构数据之间的重构损失来提取潜在表示。
3.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建图神经网络,包括:
其中原始邻接矩阵A通过归一化,其中I∈RN×N,为对应度矩阵,Wi为网络权值;
图神经网络的输入是KNN图结构,随后,GNN通过权值计算逐层扩散学习;通过这种信息传播,我们获得了细胞间的结构化信息。
4.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建异构智能融合模块,包括:
计算图神经网络特征和自动编码器特征之间的注意力系数,首先将Z和H两种变量连接为[Zi||Hi];然后,定义一个全连接层的参数矩阵Wi a参数化,用来捕捉拼接特征之间的关系;接下来,计算[Zi||Hi]与W的乘积,并使用LeakyReLU激活函数(负斜率为0.2)进行非线性转换;最后,我们对LeakyReLU激活单元的输出先进行softmax归一化,再进行l2归一化;归一化后的结果即为图卷积特征Zi和自编码器特征Hi之间的注意力系数,其定义公式如下:
Mi=l2(softmax((LeakyReLU([Zi||Hi]Wi a))))
其中Mi=[mi,1||mi,2]为条目大于0的关注系数矩阵,mi,1,mi,2分别为衡量Zi、Hi重要性的权重向量;
自适应地将GNN特征Zi和GAE特征Hi融合在一起,其定义公式为:
Z′i=(mi,11i)⊙Zi+(mi,21i)⊙Hi
式中1i表示所有为1的向量,⊙表示矩阵的哈达玛积。然后,将得到的矩阵Zi′作为(i+1)GNN层的输入,学习表示Zi+1;
异构智能融合模块通过计算图神经网络特征和自动编码器特征之间的注意力系数,来捕捉它们的重要性,接着根据学习到的注意力系数对图神经网络特征和自动编码器特征进行加权融合,这样可以选择性地强调来自异构源的重要特征,抑制不重要特征,最终输出的融合特征期望更具判别性。
5.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建多尺度智能融合模块,包括:
通过多层图卷积网络提取的不同层的特征包含了不同粒度的信息,因为各层特征维度不同,为了进行融合,我们先对各层特征进行预处理,采用串联的方式将其拼接在一起,表示为:
Z′=[Z1||…||Zi||…||Zl||Zl+1]
定义全连接层参数矩阵Ws用来建模各层特征之间的关系,计算[Z1||...||Zi||...||Zl||Zl+1]与Ws的乘积,并通过LeakyReLU激活函数进行非线性转换,通过对每行元素使用'softmax-l2'归一化,来缩放输出权重值,使注意力系数易于比较,注意系数矩阵可以表示为:
其中,U=[u1||...||ui||...||ul||ul+1],其中ui是对应层Zi的注意力系数;为了充分探索嵌入在多尺度特征上的信息,用学习到的注意力系数对多尺度特征进行加权,特征融合可以表示为:
Z′=[(u1l1)⊙Z1||…||(uili)⊙Zi||…||(ulll)⊙Zl||(ul+1ll+1)⊙Zl+1]
将融合特征Z′作为最终预测层的输入,学习表示Z∈RN×C,N为细胞数,C为聚类数。利用拉普拉斯平滑算子和softmax函数得到后续预测的合理概率分布,其定义公式为:
公式中,W为可学习参数,当网络训练良好时,我们可以通过Z直接推断出预测的聚类标签,表示为:
其中,yi为数据xi的预测标签。
6.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建相互监督模块,包括:
对于第i个样本和第j个聚类,定义一个软标签:qij∈Q,它表示当前编码层的数据表示h(i)与K-means聚类初始化的聚类中心向量μ(j)之间的相似度。Q表示所有单元格被分配到集群中心的概率集,使用Student t分布来度量h(i)和μ(j)之间的相似度,其定义公式为:
v是自由度;
使用软标签频率F来获得更高置信度的数据表示pij∈P,其定义公式为:
通过最小化P和Q之间的二进制交叉熵来获得更好的聚类结果,损失函数定义为:
Lclu=-pijlog(qij)-(1-pij)log(1-qij)
在图神经网络的逐层传播中,我们得到一个既包含数据特征又包含细胞间关系的表示Z,同样,在学习过程中我们可以用P来监督Z,其定义公式为:
最后,将模型的损失函数定义为:
L=Lres+αLclu+βLgnn
其中,ɑ和β是两个超参数,用于平衡单细胞RNA数据的局部结构保存和聚类优化的贡献,设置ɑ=0.1和β=0.01。
7.一种基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,包括:
图注意自编码器,所述图注意自编码器学习嵌入的基因表达模式,获得单细胞RNA数据的节点属性特征;
图神经网络,所述图神经网络用来表述和聚合细胞-细胞关系,获得单细胞RNA数据的高阶结构特征;
异构智能融合模块,所述异构智能融合模块对同一层的图神经网络特征和图注意自编码器特征进行自适应融合;
多尺度智能融合模块,所述多尺度特征融合对不同层GNN学习的多尺度特征进行动态拼接;
相互监督模块,所述相互监督模块对结构信息和特征表示的端到端学习过程进行监督,共同优化整个网络框架,获得更好的细胞聚类结果。
8.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建图注意自编码器,其具体步骤包括:
使用含有4个堆叠图注意层的编码器,对细胞进行编码以获取潜在表示。编码器中的每个图注意层会聚合相邻细胞的特征,并根据细胞本身和相邻细胞的特征自动学习权重。这样可以自然地捕获细胞之间的潜在联系。之后,结构对称的解码器用于重构原始输入,以实现自监督训练。具体来说,图注意层的函数定义公式如下:
公式中,Hi’是单元格i的新特征,Ni是单元格i的邻居集合,Hj是单元格j的输入特征,W是一个可学习的变换矩阵,σ是一个非线性激活函数。αij为权重系数,表示单元格j对单元格i的重要性;
为了衡量一个细胞对另一个细胞的重要性,受GAT的影响将它们的特征连接起来,得到注意力系数eij,且通过softmax函数对其进行归一化,使其在不同单元间具有可比性,其定义公式如下:
eij=LeakyReLU(aT[WHi||WHj])
公式中,LeakyReLU是一个非线性函数,a是一个可学习的权重向量,||是连接操作;
编码器-解码器模块通过最小化原始数据与重构数据之间的重构损失来提取潜在表示,其定义公式如下:
使用注意力系数这种机制,可以自动区分不同邻居对单元格的重要性。因此,一个细胞可以选择性地接收来自不同邻居的信息,明确地将细胞间的相似信息整合到注意计算中,可以改善学习到的特征;
通过聚合不同权重邻居的特征来学习细胞嵌入,以特征矩阵和辅助图两部分作为输入,输出重构矩阵,最终通过最小化原始数据与重构数据之间的重构损失来提取潜在表示。
9.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建图神经网络,包括:
其中原始邻接矩阵A通过归一化,其中I∈RN×N,为对应度矩阵,Wi为网络权值;
图神经网络的输入是KNN图结构,随后,GNN通过权值计算逐层扩散学习;通过这种信息传播,我们获得了细胞间的结构化信息。
10.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建异构智能融合模块,包括:
计算图神经网络特征和自动编码器特征之间的注意力系数,首先将Z和H两种变量连接为[Zi||Hi];然后,定义一个全连接层的参数矩阵Wi a参数化,用来捕捉拼接特征之间的关系;接下来,计算[Zi||Hi]与W的乘积,并使用LeakyReLU激活函数(负斜率为0.2)进行非线性转换;最后,我们对LeakyReLU激活单元的输出先进行softmax归一化,再进行l2归一化;归一化后的结果即为图卷积特征Zi和自编码器特征Hi之间的注意力系数,其定义公式如下:
Mi=l2(softmax((LeakyReLU([Zi||Hi]Wi a))))
其中Mi=[mi,1||mi,2]为条目大于0的关注系数矩阵,mi,1,mi,2分别为衡量Zi、Hi重要性的权重向量;
自适应地将GNN特征Zi和GAE特征Hi融合在一起,其定义公式为:
Zi′=(mi,11i)⊙Zi+(mi,21i)⊙Hi
式中1i表示所有为1的向量,⊙表示矩阵的哈达玛积。然后,将得到的矩阵Z′i作为(i+1)GNN层的输入,学习表示Zi+1;
异构智能融合模块通过计算图神经网络特征和自动编码器特征之间的注意力系数,来捕捉它们的重要性,接着根据学习到的注意力系数对图神经网络特征和自动编码器特征进行加权融合,这样可以选择性地强调来自异构源的重要特征,抑制不重要特征,最终输出的融合特征期望更具判别性。
11.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建多尺度智能融合模块,包括:
通过多层图卷积网络提取的不同层的特征包含了不同粒度的信息,因为各层特征维度不同,为了进行融合,我们先对各层特征进行预处理,采用串联的方式将其拼接在一起,表示为:
Z′=[Z1||…||Zi||…||Zl||Zl+1]
定义全连接层参数矩阵Ws用来建模各层特征之间的关系,计算[Z1||...||Zi||...||Zl||Zl+1]与Ws的乘积,并通过LeakyReLU激活函数进行非线性转换,通过对每行元素使用'softmax-l2'归一化,来缩放输出权重值,使注意力系数易于比较,注意系数矩阵可以表示为:
其中,U=[u1||...||ui||...||ul||ul+1],其中ui是对应层Zi的注意力系数;为了充分探索嵌入在多尺度特征上的信息,用学习到的注意力系数对多尺度特征进行加权,特征融合可以表示为:
Z′=[(u1l1)⊙Z1||…||(uili)⊙Zi||…||(ulll)⊙Zl(ul+1ll+1)⊙Zl+1]
将融合特征Z′作为最终预测层的输入,学习表示Z∈RN×C,N为细胞数,C为聚类数。利用拉普拉斯平滑算子和softmax函数得到后续预测的合理概率分布,其定义公式为:
公式中,W为可学习参数,当网络训练良好时,我们可以通过Z直接推断出预测的聚类标签,表示为:
其中,yi为数据xi的预测标签。
12.根据权利要求1所述的基于注意力的单细胞RNA数据聚类模型的构建方法,其特征在于,所述构建相互监督模块,包括:
对于第i个样本和第j个聚类,定义一个软标签:qij∈Q,它表示当前编码层的数据表示h(i)与K-means聚类初始化的聚类中心向量μ(j)之间的相似度。Q表示所有单元格被分配到集群中心的概率集,使用Student t分布来度量h(i)和μ(j)之间的相似度,其定义公式为:
v是自由度;
使用软标签频率F来获得更高置信度的数据表示pij∈P,其定义公式为:
通过最小化P和Q之间的二进制交叉熵来获得更好的聚类结果,损失函数定义为:
Lclu=-pijlog(qij)-(1-pij)log(1-qij)
在图神经网络的逐层传播中,我们得到一个既包含数据特征又包含细胞间关系的表示Z,同样,在学习过程中我们可以用P来监督Z,其定义公式为:
最后,将模型的损失函数定义为:
L=Lres+αLclu+βLgnn
其中,ɑ和β是两个超参数,用于平衡单细胞RNA数据的局部结构保存和聚类优化的贡献,设置ɑ=0.1和β=0.01。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311517075.2A CN118136120A (zh) | 2023-11-14 | 2023-11-14 | 基于注意力的单细胞rna数据聚类模型及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311517075.2A CN118136120A (zh) | 2023-11-14 | 2023-11-14 | 基于注意力的单细胞rna数据聚类模型及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118136120A true CN118136120A (zh) | 2024-06-04 |
Family
ID=91230796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311517075.2A Pending CN118136120A (zh) | 2023-11-14 | 2023-11-14 | 基于注意力的单细胞rna数据聚类模型及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118136120A (zh) |
-
2023
- 2023-11-14 CN CN202311517075.2A patent/CN118136120A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070183B (zh) | 一种弱标注数据的神经网络模型训练方法及装置 | |
CN114898121B (zh) | 基于图注意力网络的混凝土坝缺陷图像描述自动生成方法 | |
CN113821670B (zh) | 图像检索方法、装置、设备及计算机可读存储介质 | |
CN113269647A (zh) | 基于图的交易异常关联用户检测方法 | |
CN117036760A (zh) | 一种基于图对比学习的多视图聚类模型实现方法 | |
CN117494051A (zh) | 一种分类处理的方法、模型训练的方法以及相关装置 | |
CN117690178A (zh) | 一种基于计算机视觉的人脸图像识别方法与系统 | |
CN113705242B (zh) | 面向教育咨询服务的智能语义匹配方法和装置 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN110335160A (zh) | 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统 | |
CN112668633A (zh) | 一种基于细粒度领域自适应的图迁移学习方法 | |
Liu et al. | TD-GAT: Graph neural network for fault diagnosis knowledge graph | |
CN114818681B (zh) | 一种实体识别方法及系统、计算机可读存储介质及终端 | |
CN115801152A (zh) | 基于层次化transformer模型的WiFi动作识别方法 | |
CN118136120A (zh) | 基于注意力的单细胞rna数据聚类模型及其构建方法 | |
CN112699271B (zh) | 一种提升用户视频网站留存时间的推荐方法 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN112348275A (zh) | 一种基于在线增量学习的区域生态环境变化预测方法 | |
Chen | Brain Tumor Prediction with LSTM Method | |
CN118607886B (zh) | 物资供需平衡规划方法及系统 | |
CN117520551B (zh) | 一种小样本文本自动分类方法及系统 | |
CN117237857B (zh) | 视频理解任务的执行方法、装置和存储介质及电子设备 | |
CN113627366B (zh) | 基于增量聚类的人脸识别方法 | |
CN113378454A (zh) | 一种基于多类多标签演化超网络的多目标回归方法 | |
CN116307852A (zh) | 一种广电无线覆盖系统健康评估和故障预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |