CN116312782A - 一种融合影像基因数据的空间转录组spot区域聚类方法 - Google Patents

一种融合影像基因数据的空间转录组spot区域聚类方法 Download PDF

Info

Publication number
CN116312782A
CN116312782A CN202310563365.4A CN202310563365A CN116312782A CN 116312782 A CN116312782 A CN 116312782A CN 202310563365 A CN202310563365 A CN 202310563365A CN 116312782 A CN116312782 A CN 116312782A
Authority
CN
China
Prior art keywords
image
matrix
spot
node
transcriptome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310563365.4A
Other languages
English (en)
Other versions
CN116312782B (zh
Inventor
邵伟
石航
张道强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202310563365.4A priority Critical patent/CN116312782B/zh
Publication of CN116312782A publication Critical patent/CN116312782A/zh
Application granted granted Critical
Publication of CN116312782B publication Critical patent/CN116312782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合影像基因数据的空间转录组spot区域聚类方法,对空间转录组中每个spot的基因表达进行预处理,获取基因表达矩阵;还原预处理后的每个spot所在区域的图像;使用对比学习网络提取图像特征;以各spot之间不同关系进行排序,构件多模态图结构;将多模态图结构的邻接矩阵及节点特征矩阵输入图对比学习网络模型,然后将输出输入多模态融合网络,再将输出输入全连接神经网络,得到节点特征表示;然后采用降维、聚类算法处理后,识别空间转录组spot区域类型。基于图对比学习的融合影像基因数据的spot区域聚类方法,将深度学习技术与空间转录组领域的知识相结合,从而实现降噪、高效聚类等目的。

Description

一种融合影像基因数据的空间转录组spot区域聚类方法
技术领域
本发明涉及生物信息学领域,具体是涉及一种融合影像基因数据的空间转录组spot区域聚类方法。
背景技术
空间转录组学能够同时获得捕获区域中被标记的点(spot)的空间位置信息和基因表达数据,且不需要制备细胞悬液,进一步推进了对组织原位细胞真实基因表达的研究,为组织细胞功能、微环境互作、发育过程谱系追踪、疾病病理学等多个领域提供了重要的研究手段。
目前对此类数据的分析借鉴Bulk RNA-seq 和scRNA-seq分析策略,大都基于概率统计模型,但是依赖特定先验知识,难以处理高维、稀疏的空间位置信息和基因表达数据,并且未能充分利用空间转录组学所具有的多模态特征。其中,对spot区域聚类分析是众多数据分析和下游研究的必须步骤,现有spot区域聚类方法未充分利用空间转录组学多模态特征,依赖于特定先验知识,无法满足高效处理spot区域聚类的问题。
发明内容
发明目的:针对以上缺点,本发明提供一种实现降噪、高效聚类的融合影像基因数据的空间转录组spot区域聚类方法。
技术方案:为解决上述问题,本发明采用一种融合影像基因数据的空间转录组spot区域聚类方法,包括以下步骤:
(1)对空间转录组中每个spot的基因表达进行预处理,并获取每个spot的基因表达矩阵;
(2)还原预处理后的每个spot所在区域的图像;
(3)使用对比学习网络提取图像特征,得到图像特征矩阵;
(4)以各spot之间不同关系进行排序,构建多模态图结构;采用基因表达矩阵或者步骤(3)提取的图像特征矩阵作为多模态图结构的节点特征矩阵;
(5)将多模态图结构的邻接矩阵及节点特征矩阵输入图对比学习网络模型,得到具有空间信息的节点特征表示;
(6)将具有空间信息的节点特征表示输入多模态融合网络,得到唯一的节点特征表示;
(7)将步骤(6)得到的节点特征表示输入全连接神经网络MLP,得到融合影像基因数据的节点特征表示;
(8)将步骤(7)得到的融合影像基因数据的节点特征表示采用降维、聚类算法处理后,识别空间转录组spot区域类型。
进一步的,所述步骤(2)具体步骤为:
(2.1)以每个spot像素坐标上下左右各若干个像素范围内的像素点的颜色值,将其还原为图像,得到矩形图像;
(2.2)以矩形图像长宽数值中较小的数值为圆形图像的直径,生成长宽均为圆直径并且像素点颜色值均为白色的图像;计算矩形图像中每一个像素点与圆心的欧几里得距离,圆心为矩形图像中心点,若距离小于圆形图像的半径,则将该像素点颜色值存储在新图像对应位置,得到圆形图像;
(2.3)计算圆形图像之间的结构相似性
Figure SMS_1
Figure SMS_2
其中,
Figure SMS_4
是图像/>
Figure SMS_9
和图像/>
Figure SMS_11
之间的亮度比较,/>
Figure SMS_5
是图像/>
Figure SMS_8
和图像/>
Figure SMS_12
之间的对比度比较,/>
Figure SMS_14
是图像/>
Figure SMS_3
和图像/>
Figure SMS_7
之间的结构比较,/>
Figure SMS_10
、/>
Figure SMS_13
、/>
Figure SMS_6
均为调节参数。
进一步的,所述步骤(3)中构建并训练对比学习网络模型,使用训练后的对比学习网络模型提取图像特征,构建并训练对比学习网络模型的具体步骤为:
(3.1)采集N个样本图像,对每张图像进行两次随机数据增强,得到数据增强后的图像;产生2N个样本对;N为大于1的自然数;
(3.2)将数据增强后的图像输入编码器,并将输出输入Projection Head得到特征表示;
(3.3)根据步骤(3.2)得到的特征表示,计算每一张图像与其他图像的余弦相似度
Figure SMS_15
Figure SMS_16
其中,
Figure SMS_17
表示数据增强后的图像/>
Figure SMS_18
的特征表示,/>
Figure SMS_19
表示数据增强后的图像/>
Figure SMS_20
的特征表示,/>
Figure SMS_21
表示求向量的长度;
计算每组图像之间相似的概率
Figure SMS_22
Figure SMS_23
其中,
Figure SMS_24
表示指示函数,当且仅当时/>
Figure SMS_25
,其值为1,/>
Figure SMS_26
为超参数;
计算所有样本对的平均损失
Figure SMS_27
Figure SMS_28
(3.4)根据平均损失训练对比学习网络模型。
进一步的,所述步骤(4)的具体内容为:
多模态图结构包括第一模态图结构、第二模态图结构和第三模态图结构;所述第一模态图结构根据点
Figure SMS_31
与其他点/>
Figure SMS_32
,/>
Figure SMS_34
之间的欧几里得距离大小进行排序,筛选前/>
Figure SMS_30
个点作为/>
Figure SMS_33
的邻接节点,构建邻接矩阵/>
Figure SMS_35
;节点特征为基因表达矩阵/>
Figure SMS_36
;/>
Figure SMS_29
为大于1的自然数;
所述第二模态图结构根据点
Figure SMS_38
与其他点/>
Figure SMS_40
,/>
Figure SMS_42
之间的余弦相似度大小进行排序,筛选前/>
Figure SMS_39
个点作为/>
Figure SMS_41
的邻接节点,构建邻接矩阵/>
Figure SMS_43
;节点特征为基因表达矩阵/>
Figure SMS_44
;/>
Figure SMS_37
为大于1的自然数;
所述第三模态图结构根据根据点
Figure SMS_46
与其他点/>
Figure SMS_49
,/>
Figure SMS_51
的结构相似性大小进行排序,筛选前/>
Figure SMS_47
个点作为/>
Figure SMS_48
的邻接节点,构建邻接矩阵/>
Figure SMS_50
;节点特征为步骤(3)提取的图像特征矩阵/>
Figure SMS_52
;/>
Figure SMS_45
为大于1的自然数。
进一步的,所述步骤(5)中,将每一个模态图结构的节点特征表示矩阵以及邻接矩阵输入图注意力网络,并在第
Figure SMS_53
层输出节点特征表示矩阵/>
Figure SMS_54
Figure SMS_55
其中,
Figure SMS_57
是可训练的权重矩阵,/>
Figure SMS_59
是第/>
Figure SMS_61
个spot的邻接节点集合,/>
Figure SMS_58
是第/>
Figure SMS_60
个图注意力层中第/>
Figure SMS_62
个spot和第/>
Figure SMS_63
个spot之间边的权重,/>
Figure SMS_56
表示非线性激活函数。
进一步的,所述步骤(5)中,对于每一个模态图结构,保持邻接矩阵不变,采用随机扰动节点特征策略,生成新的图
Figure SMS_64
,将原始图/>
Figure SMS_65
和新的图/>
Figure SMS_66
的节点特征表示矩阵以及邻接矩阵分别输入图注意力网络,图注意力网络采用共享参数策略;图对比学习损失函数为:
Figure SMS_67
其中,
Figure SMS_76
为原始图/>
Figure SMS_69
的节点特征表示矩阵;/>
Figure SMS_72
为原始图/>
Figure SMS_71
的邻接矩阵;/>
Figure SMS_73
为图
Figure SMS_77
的节点特征表示矩阵;/>
Figure SMS_81
为图/>
Figure SMS_78
的邻接矩阵;/>
Figure SMS_82
为原始图/>
Figure SMS_68
经图注意力网络的输出矩阵,/>
Figure SMS_74
为图/>
Figure SMS_85
经图注意力网络的输出矩阵,/>
Figure SMS_88
和/>
Figure SMS_87
为使用readout函数获得的原始图/>
Figure SMS_89
和图/>
Figure SMS_80
的全局特征表示;/>
Figure SMS_84
为正样本对,/>
Figure SMS_86
为负样本对;/>
Figure SMS_90
用以区分不同样本之间的差异;/>
Figure SMS_70
和/>
Figure SMS_75
分别表示图/>
Figure SMS_79
和图/>
Figure SMS_83
所对应的标签。
进一步的,所述第
Figure SMS_91
个图注意力层中节点/>
Figure SMS_92
和节点/>
Figure SMS_93
之间边的权重计算公式为:
Figure SMS_94
其中,
Figure SMS_95
表示拼接函数,拼接两组经过变换后的特征矩阵。
使用softmax函数对权重进行规范化,
Figure SMS_96
得到的权重将在之后在网络中更新嵌入向量,不同模态图注意力网络不共享参数,输出集成了邻接信息的spot嵌入向量。
进一步的,将全连接神经网络与空间转录组spot原始特征计算损失,同时将对比学习损失引入损失函数进行优化,整个模型的损失函数为:
Figure SMS_97
其中,
Figure SMS_98
为融合影像基因数据的节点特征表示,/>
Figure SMS_99
表示均方差损失函数。
有益效果:本发明相对于现有技术,其显著优点是基于图对比学习的融合影像基因数据的spot区域聚类方法,将深度学习技术与空间转录组领域的知识相结合,从而实现降噪、高效聚类等目的。
附图说明
图1为本发明聚类方法的流程示意图。
图2为网络结构示意图。
具体实施方式
如图1所示,本实施例中的一种融合影像基因数据的空间转录组spot区域聚类方法,包括如下步骤:
步骤1:高通量空间转录组测序技术生成的数据具有高维、稀疏和多模态等特征,部分spot未检出基因表达信息,使用scanpy包读取空间转录组数据并筛除无效spot,数据存储格式为AnnData。对spot中基因表达数据进行对数变换与归一化,并筛选高可变基因。
步骤2:根据空间转录组的spot坐标,在对应病理图像上分别裁剪矩形、圆形图像,具体包括:
步骤2.1:读取每一个spot像素坐标上下左右各50个像素范围内的像素点的颜色值,将其还原为图像,得到矩形图像;
步骤2.2:使用矩形图像长宽数值中较小的数值作为圆形图像直径,生成长宽均为圆直径并且像素点颜色值均为白色的图像。遍历矩形图像,计算每一个像素点与圆心的欧几里得距离,圆心为矩形图像中心点,若距离小于圆半径,则将该像素点颜色值存储在新图像对应位置,得到圆形图像;
步骤2.3:计算图像之间结构相似性
Figure SMS_100
Figure SMS_101
其中,
Figure SMS_103
是图像/>
Figure SMS_106
和图像/>
Figure SMS_109
之间的亮度比较,/>
Figure SMS_102
是图像/>
Figure SMS_107
和图像/>
Figure SMS_110
之间的对比度比较,/>
Figure SMS_112
是图像/>
Figure SMS_105
和图像/>
Figure SMS_108
之间的结构比较,/>
Figure SMS_111
、/>
Figure SMS_113
、/>
Figure SMS_104
均为调节参数。
步骤3:使用对比学习提取图像特征,具体包括:
步骤3.1:设置对比学习网络batch_size(批大小)为N,对于batch中每一张图像
Figure SMS_114
,进行两次随机数据增强,包括裁剪、调整大小、颜色失真,得到2张数据增强后的图像,构建2N个样本对;
步骤3.2:使用预训练模型ResNet-50作为编码器
Figure SMS_115
,将增强后的图像输入编码器,并将输出输入Projection Head />
Figure SMS_116
得到特征表示;
步骤3.3:根据步骤3.2中得到的特征表示计算batch中每一张图像与其他图像的余弦相似度
Figure SMS_117
Figure SMS_118
其中,
Figure SMS_119
表示数据增强后的图像/>
Figure SMS_120
的特征表示,/>
Figure SMS_121
表示数据增强后的图像/>
Figure SMS_122
的特征表示,/>
Figure SMS_123
表示求向量的长度;
计算每个batch中每组图像之间相似的概率
Figure SMS_124
Figure SMS_125
其中,
Figure SMS_126
表示指示函数,当且仅当时/>
Figure SMS_127
,其值为1,/>
Figure SMS_128
为超参数;
计算每个batch中的所有样本对的平均损失
Figure SMS_129
Figure SMS_130
根据平均损失训练对比学习网络。
步骤3.4:使用训练后的网络提取图像特征:
提取图像的特征参考对比学习框架simclr,详细的步骤参考现有文献: Chen T ,Kornblith S , Norouzi M , et al. A Simple Framework for Contrastive Learningof Visual Representations[J]. 2020.在本实施例中不再赘述。
步骤4:构建多模态图结构及其节点特征表示,多模态图结构包括第一模态图结构、第二模态图结构和第三模态图结构;
第一模态图结构:计算
Figure SMS_131
与其他/>
Figure SMS_132
之间欧几里得距离,根据距离大小排序,筛选前/>
Figure SMS_133
个spot作为/>
Figure SMS_134
的邻接节点,构建邻接矩阵/>
Figure SMS_135
。节点特征为基因表达矩阵/>
Figure SMS_136
第二模态图结构:计算
Figure SMS_137
与其他/>
Figure SMS_138
之间余弦相似度,根据相似度大小排序,筛选前/>
Figure SMS_139
个spot作为/>
Figure SMS_140
的邻接节点,构建邻接矩阵/>
Figure SMS_141
。节点特征为基因表达矩阵/>
Figure SMS_142
第三模态图结构:根据
Figure SMS_143
与其他/>
Figure SMS_144
结构相似性大小排序,结构相似性由步骤2.3获得,筛选前/>
Figure SMS_145
个spot作为/>
Figure SMS_146
的邻接节点,构建邻接矩阵
Figure SMS_147
。节点特征为使用对比学习提取的图像特征/>
Figure SMS_148
步骤5:训练图对比学习网络,具体包括:
对于每一个模态图结构,保持邻接矩阵不变,采用随机扰动节点特征策略,生成新的图
Figure SMS_149
。将图/>
Figure SMS_150
和/>
Figure SMS_151
的节点特征表示矩阵/>
Figure SMS_152
以及邻接矩阵/>
Figure SMS_153
分别输入图注意力网络,图注意力网络采用共享参数策略。并在第/>
Figure SMS_154
层输出矩阵
Figure SMS_155
Figure SMS_156
其中,
Figure SMS_158
,/>
Figure SMS_162
表示节点特征矩阵,N表示节点的个数,
Figure SMS_165
是可训练的权重矩阵,/>
Figure SMS_159
是第/>
Figure SMS_161
个spot的邻接节点集合(包括自身),/>
Figure SMS_164
是第/>
Figure SMS_166
个图注意力层中第/>
Figure SMS_157
个和第/>
Figure SMS_160
个spot之间边的权重,/>
Figure SMS_163
表示非线性激活函数。
注意力机制就是一个单层的前馈神经网络,在图节点之间共享权重参数。节点
Figure SMS_167
和节点/>
Figure SMS_168
之权重为:
Figure SMS_169
使用softmax函数对权重进行规范化,
Figure SMS_170
得到的权重将在之后在网络中更新嵌入向量,不同模态图注意力网络不共享参数,输出集成了邻接信息的spot嵌入向量。
图注意力网络参考文献为:VelikoviP ,Cucurull G , Casanova A , et al.Graph Attention Networks[J]. 2017.
使用readout函数获得图
Figure SMS_171
和/>
Figure SMS_172
的全局特征表示/>
Figure SMS_173
和/>
Figure SMS_174
,/>
Figure SMS_175
分别构建正样本对/>
Figure SMS_176
与负样本对/>
Figure SMS_177
。图对比学习损失函数为:
Figure SMS_178
其中,
Figure SMS_179
用以区分不同样本之间的差异。
图对比学习采用文献:Zhu Y , Xu Y , Yu F , et al. Graph ContrastiveLearning with Adaptive Augmentation[J]. 2020.中的方法。
步骤6:将所述多模态数据特征表示输入多模态融合网络,得到唯一的节点特征表示
Figure SMS_180
步骤7:将节点特征表示输入全连接层MLP得到融合影像基因数据的节点特征表示
Figure SMS_181
,将全连接层输出结果与空间转录组spot原始特征计算损失,同时将对比学习损失引入损失函数进行优化,整个模型的损失函数为:
Figure SMS_182
步骤8:对所述节点特征表示采用PCA降维,其中n_components设置为10。通过python调用r语言中mclust包对降维后的数据识别所述空间转录组spot区域类型。

Claims (10)

1.一种融合影像基因数据的空间转录组spot区域聚类方法,其特征在于,包括以下步骤:
(1)对空间转录组中每个spot的基因表达进行预处理,并获取每个spot的基因表达矩阵;
(2)还原预处理后的每个spot所在区域的图像;
(3)使用对比学习网络提取图像特征,得到图像特征矩阵;
(4)以各spot之间不同关系进行排序,构建多模态图结构;采用基因表达矩阵或者步骤(3)提取的图像特征矩阵作为多模态图结构的节点特征矩阵;
(5)将多模态图结构的邻接矩阵及节点特征矩阵输入图对比学习网络模型,得到具有空间信息的节点特征表示;
(6)将具有空间信息的节点特征表示输入多模态融合网络,得到唯一的节点特征表示;
(7)将步骤(6)得到的节点特征表示输入全连接神经网络MLP,得到融合影像基因数据的节点特征表示;
(8)将步骤(7)得到的融合影像基因数据的节点特征表示采用降维、聚类算法处理后,识别空间转录组spot区域类型。
2.根据权利要求1所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(2)具体步骤为:
(2.1)以每个spot像素坐标上下左右各若干个像素范围内的像素点的颜色值,将其还原为图像,得到矩形图像;
(2.2)以矩形图像长宽数值中较小的数值为圆形图像的直径,生成长宽均为圆直径并且像素点颜色值均为白色的图像;计算矩形图像中每一个像素点与圆心的欧几里得距离,圆心为矩形图像中心点,若距离小于圆形图像的半径,则将该像素点颜色值存储在新图像对应位置,得到圆形图像;
(2.3)计算圆形图像之间的结构相似性
Figure QLYQS_1
Figure QLYQS_2
其中,
Figure QLYQS_5
是图像/>
Figure QLYQS_8
和图像/>
Figure QLYQS_11
之间的亮度比较,/>
Figure QLYQS_4
是图像/>
Figure QLYQS_9
和图像/>
Figure QLYQS_12
之间的对比度比较,/>
Figure QLYQS_14
是图像/>
Figure QLYQS_3
和图像/>
Figure QLYQS_7
之间的结构比较,/>
Figure QLYQS_10
、/>
Figure QLYQS_13
、/>
Figure QLYQS_6
均为调节参数。
3.根据权利要求2所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(3)中构建并训练对比学习网络模型,使用训练后的对比学习网络模型提取图像特征,构建并训练对比学习网络模型的具体步骤为:
(3.1)采集N个样本图像,对每张图像进行两次随机数据增强,得到数据增强后的图像;产生2N个样本对;N为大于1的自然数;
(3.2)将数据增强后的图像输入编码器,并将输出输入Projection Head得到特征表示;
(3.3)根据步骤(3.2)得到的特征表示,计算每一张图像与其他图像的余弦相似度
Figure QLYQS_15
Figure QLYQS_16
其中,
Figure QLYQS_17
表示数据增强后的图像/>
Figure QLYQS_18
的特征表示,/>
Figure QLYQS_19
表示数据增强后的图像/>
Figure QLYQS_20
的特征表示,/>
Figure QLYQS_21
表示求向量的长度;
计算每组图像之间相似的概率
Figure QLYQS_22
Figure QLYQS_23
其中,
Figure QLYQS_24
表示指示函数,当且仅当时/>
Figure QLYQS_25
,其值为1,/>
Figure QLYQS_26
为超参数;
计算所有样本对的平均损失
Figure QLYQS_27
Figure QLYQS_28
(3.4)根据平均损失训练对比学习网络模型。
4.根据权利要求3所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(4)的具体内容为:
多模态图结构包括第一模态图结构、第二模态图结构和第三模态图结构;所述第一模态图结构根据点
Figure QLYQS_30
与其他点/>
Figure QLYQS_33
,/>
Figure QLYQS_35
之间的欧几里得距离大小进行排序,筛选前/>
Figure QLYQS_31
个点作为/>
Figure QLYQS_32
的邻接节点,构建邻接矩阵/>
Figure QLYQS_34
;节点特征为基因表达矩阵/>
Figure QLYQS_36
;/>
Figure QLYQS_29
为大于1的自然数;
所述第二模态图结构根据点
Figure QLYQS_37
与其他点/>
Figure QLYQS_40
,/>
Figure QLYQS_42
之间的余弦相似度大小进行排序,筛选前/>
Figure QLYQS_39
个点作为/>
Figure QLYQS_41
的邻接节点,构建邻接矩阵/>
Figure QLYQS_43
;节点特征为基因表达矩阵/>
Figure QLYQS_44
;/>
Figure QLYQS_38
为大于1的自然数;
所述第三模态图结构根据根据点
Figure QLYQS_46
与其他点/>
Figure QLYQS_49
,/>
Figure QLYQS_51
的结构相似性大小进行排序,筛选前/>
Figure QLYQS_47
个点作为/>
Figure QLYQS_48
的邻接节点,构建邻接矩阵/>
Figure QLYQS_50
;节点特征为步骤(3)提取的图像特征矩阵/>
Figure QLYQS_52
;/>
Figure QLYQS_45
为大于1的自然数。
5.根据权利要求4所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(5)中,将每一个模态图结构的节点特征表示矩阵以及邻接矩阵输入图注意力网络,并在第
Figure QLYQS_53
层输出节点特征表示矩阵/>
Figure QLYQS_54
Figure QLYQS_55
其中,
Figure QLYQS_58
是可训练的权重矩阵,/>
Figure QLYQS_59
是第/>
Figure QLYQS_61
个spot的邻接节点集合,/>
Figure QLYQS_57
是第/>
Figure QLYQS_60
个图注意力层中第/>
Figure QLYQS_62
个spot和第/>
Figure QLYQS_63
个spot之间边的权重,/>
Figure QLYQS_56
表示非线性激活函数。
6.根据权利要求5所述的空间转录组spot区域聚类方法,其特征在于,所述步骤(5)中,对于每一个模态图结构,保持邻接矩阵不变,采用随机扰动节点特征策略,生成新的图
Figure QLYQS_64
,将原始图/>
Figure QLYQS_65
和新的图/>
Figure QLYQS_66
的节点特征表示矩阵以及邻接矩阵分别输入图注意力网络,图注意力网络采用共享参数策略;图对比学习损失函数为:
Figure QLYQS_67
其中,
Figure QLYQS_83
为原始图/>
Figure QLYQS_76
的节点特征表示矩阵;/>
Figure QLYQS_80
为原始图/>
Figure QLYQS_86
的邻接矩阵;/>
Figure QLYQS_89
为图/>
Figure QLYQS_87
的节点特征表示矩阵;/>
Figure QLYQS_90
为图/>
Figure QLYQS_77
的邻接矩阵;/>
Figure QLYQS_81
为原始图/>
Figure QLYQS_68
经图注意力网络的输出矩阵,
Figure QLYQS_73
为图/>
Figure QLYQS_78
经图注意力网络的输出矩阵,/>
Figure QLYQS_84
和/>
Figure QLYQS_85
为使用readout函数获得的原始图/>
Figure QLYQS_88
和图
Figure QLYQS_71
的全局特征表示;/>
Figure QLYQS_74
为正样本对,/>
Figure QLYQS_70
为负样本对;/>
Figure QLYQS_72
用以区分不同样本之间的差异;/>
Figure QLYQS_69
和/>
Figure QLYQS_75
分别表示图/>
Figure QLYQS_79
和图/>
Figure QLYQS_82
所对应的标签。
7.根据权利要求6所述的空间转录组spot区域聚类方法,其特征在于,
所述第
Figure QLYQS_91
个图注意力层中节点/>
Figure QLYQS_92
和节点/>
Figure QLYQS_93
之间边的权重计算公式为:
Figure QLYQS_94
其中,
Figure QLYQS_95
表示拼接函数,拼接两组经过变换后的特征矩阵。
8.根据权利要求7所述的空间转录组spot区域聚类方法,其特征在于,使用softmax函数对权重进行规范化,
Figure QLYQS_96
得到的权重将在之后在网络中更新嵌入向量,不同模态图注意力网络不共享参数,输出集成了邻接信息的spot嵌入向量。
9.根据权利要求8所述的空间转录组spot区域聚类方法,其特征在于,将全连接神经网络与空间转录组spot原始特征计算损失,同时将对比学习损失引入损失函数进行优化,整个模型的损失函数为:
Figure QLYQS_97
其中,
Figure QLYQS_98
为融合影像基因数据的节点特征表示,/>
Figure QLYQS_99
表示均方差损失函数。
10.根据权利要求1所述的空间转录组spot区域聚类方法,其特征在于,对所述节点特征表示采用PCA降维,通过python调用r语言中mclust包对降维后的数据识别所述空间转录组spot区域类型。
CN202310563365.4A 2023-05-18 2023-05-18 一种融合影像基因数据的空间转录组spot区域聚类方法 Active CN116312782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310563365.4A CN116312782B (zh) 2023-05-18 2023-05-18 一种融合影像基因数据的空间转录组spot区域聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310563365.4A CN116312782B (zh) 2023-05-18 2023-05-18 一种融合影像基因数据的空间转录组spot区域聚类方法

Publications (2)

Publication Number Publication Date
CN116312782A true CN116312782A (zh) 2023-06-23
CN116312782B CN116312782B (zh) 2023-08-01

Family

ID=86796358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310563365.4A Active CN116312782B (zh) 2023-05-18 2023-05-18 一种融合影像基因数据的空间转录组spot区域聚类方法

Country Status (1)

Country Link
CN (1) CN116312782B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036762A (zh) * 2023-08-03 2023-11-10 北京科技大学 一种多模态数据聚类方法
CN117292747A (zh) * 2023-11-24 2023-12-26 南京航空航天大学 一种基于HSIC-bottleneck的空间转录组spot基因表达预测方法
CN117476247A (zh) * 2023-12-27 2024-01-30 杭州深麻智能科技有限公司 一种疾病多模态数据智能分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091603A (zh) * 2021-11-22 2022-02-25 上海交通大学 一种空间转录组细胞聚类、分析方法
CN114882955A (zh) * 2022-04-08 2022-08-09 广州国家实验室 转录组图像生成装置、方法和应用
CN114944193A (zh) * 2022-05-20 2022-08-26 南开大学 整合单细胞转录组与空间转录组数据的分析方法及系统
CN115359845A (zh) * 2022-08-05 2022-11-18 广东工业大学 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法
CN115732034A (zh) * 2022-11-17 2023-03-03 山东大学 一种空间转录组细胞表达模式的识别方法及系统
CN115985403A (zh) * 2022-11-14 2023-04-18 山东大学 一种空间转录组的双重自监督聚类分析方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091603A (zh) * 2021-11-22 2022-02-25 上海交通大学 一种空间转录组细胞聚类、分析方法
CN114882955A (zh) * 2022-04-08 2022-08-09 广州国家实验室 转录组图像生成装置、方法和应用
CN114944193A (zh) * 2022-05-20 2022-08-26 南开大学 整合单细胞转录组与空间转录组数据的分析方法及系统
CN115359845A (zh) * 2022-08-05 2022-11-18 广东工业大学 一种融合单细胞转录组的空间转录组生物组织亚结构解析方法
CN115985403A (zh) * 2022-11-14 2023-04-18 山东大学 一种空间转录组的双重自监督聚类分析方法及系统
CN115732034A (zh) * 2022-11-17 2023-03-03 山东大学 一种空间转录组细胞表达模式的识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
敬明?;: "基于深度神经网络的多模态特征自适应聚类方法", 计算机应用与软件, no. 10 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036762A (zh) * 2023-08-03 2023-11-10 北京科技大学 一种多模态数据聚类方法
CN117036762B (zh) * 2023-08-03 2024-03-22 北京科技大学 一种多模态数据聚类方法
CN117292747A (zh) * 2023-11-24 2023-12-26 南京航空航天大学 一种基于HSIC-bottleneck的空间转录组spot基因表达预测方法
CN117292747B (zh) * 2023-11-24 2024-03-29 南京航空航天大学 一种基于HSIC-bottleneck的空间转录组spot基因表达预测方法
CN117476247A (zh) * 2023-12-27 2024-01-30 杭州深麻智能科技有限公司 一种疾病多模态数据智能分析方法
CN117476247B (zh) * 2023-12-27 2024-04-19 杭州乐九医疗科技有限公司 一种疾病多模态数据智能分析方法

Also Published As

Publication number Publication date
CN116312782B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN116312782B (zh) 一种融合影像基因数据的空间转录组spot区域聚类方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
WO2018052587A1 (en) Method and system for cell image segmentation using multi-stage convolutional neural networks
CN111444881A (zh) 伪造人脸视频检测方法和装置
Bani-Hani et al. Classification of leucocytes using convolutional neural network optimized through genetic algorithm
You et al. Traffic sign detection method based on improved SSD
CN115830387A (zh) 一种模型训练方法、训练装置、分类方法及分类装置
CN113780423A (zh) 一种基于多尺度融合的单阶段目标检测神经网络及工业品表面缺陷检测模型
CN116091823A (zh) 一种基于快速分组残差模块的单特征无锚框目标检测方法
Li et al. A motion blur QR code identification algorithm based on feature extracting and improved adaptive thresholding
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN114399763A (zh) 一种单样本与小样本微体古生物化石图像识别方法及系统
CN112836748A (zh) 一种基于crnn-ctc的铸件标识字符识别方法
Reale et al. Facial action unit analysis through 3d point cloud neural networks
Shao et al. A novel hybrid transformer-CNN architecture for environmental microorganism classification
CN115640401B (zh) 文本内容提取方法及装置
CN116524255A (zh) 基于Yolov5-ECA-ASFF的小麦赤霉病孢子识别方法
CN112529025A (zh) 一种数据处理方法及装置
CN116091946A (zh) 一种基于YOLOv5的无人机航拍图像目标检测方法
CN115131671A (zh) 一种跨域高分辨率遥感图像典型目标细粒度识别方法
Yuan et al. An efficient attention based image adversarial attack algorithm with differential evolution on realistic high-resolution image
Jule et al. Micrarray Image Segmentation Using Protracted K-Means Net Algorithm in Enhancement of Accuracy and Robustness
CN112668643A (zh) 一种基于格式塔法则的半监督显著性检测方法
Contreras et al. Using ant colony optimization for edge detection in gray scale images
Shuai et al. Heterogeneous iris one-to-one certification with universal sensors based on quality fuzzy inference and multi-feature fusion lightweight neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant