CN115099287A - 基于图傅里叶变换的空间可变基因识别与分析系统 - Google Patents

基于图傅里叶变换的空间可变基因识别与分析系统 Download PDF

Info

Publication number
CN115099287A
CN115099287A CN202211015383.0A CN202211015383A CN115099287A CN 115099287 A CN115099287 A CN 115099287A CN 202211015383 A CN202211015383 A CN 202211015383A CN 115099287 A CN115099287 A CN 115099287A
Authority
CN
China
Prior art keywords
matrix
gene
fourier transform
graph
spectral domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211015383.0A
Other languages
English (en)
Other versions
CN115099287B (zh
Inventor
刘丙强
马勤
刘吉新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211015383.0A priority Critical patent/CN115099287B/zh
Publication of CN115099287A publication Critical patent/CN115099287A/zh
Application granted granted Critical
Publication of CN115099287B publication Critical patent/CN115099287B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及空间转录组学技术领域,公开了基于图傅里叶变换的空间可变基因识别与分析系统,基于待识别的基因表达矩阵生成无向图;获取无向图对应的邻接矩阵和度矩阵;基于两个矩阵确定拉普拉斯矩阵;对矩阵进行谱分解得到特征值和特征向量;将特征值作为频率,将特征向量作为傅里叶模;采用图傅里叶变换将当前基因在每个位点的表达值从空间域转换到谱域,得到谱域信号;基于特征值和谱域信号计算出待识别基因表达矩阵在空间域分布的随机性得分;根据随机性得分确定出空间可变基因。对空间可变基因进行聚类将每一个聚类簇作为识别的组织模块输出;对空间可变基因的谱域信号进行增强;对增强后的谱域信号进行傅里叶逆变换得到增强的基因表达信号。

Description

基于图傅里叶变换的空间可变基因识别与分析系统
技术领域
本发明涉及空间转录组学技术领域,特别是涉及基于图傅里叶变换的空间可变基因识别与分析系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
相较于单细胞转录组学数据,空间转录组学技术(例如 Visium,ST,slide-seq等)不需要解离,从而保留了测序位点的空间结构,这些测序位点(spot)包含两种信息:1.基因表达信息,2.空间坐标信息。这项技术为不同分辨率(亚细胞、细胞和微细胞群)的分子组织生物学研究提供了强大工具。在空间转录组学的研究和应用中,一个基础且重要的任务是如何融合基因表达信息和spot的空间位置,进而完成生物发现。
识别空间转录组数据中的空间可变基因(Spatially variable gene, SVG)是空间转录组分析中最基础且重要的一步,它的目的是识别出具有特定空间表达模式的基因,称为空间可变基因,即这些基因的表达在空间各位置上并不是相互独立的,而是与空间位置有密切关联,表现为空间临近的位置有相似的基因表达。
现有的空间可变基因预测方法,主要是基于统计框架(如SpatialDE)或图神经网络(如SpaGCN)开发的。虽然这些方法也具有一定的SVG检测性能,具有严格的统计评价,为不同的生物系统提供了有价值的见解,但仍存在两个局限性,包括:
1.这些由前提假设驱动的方法可以有效识别某些明确的模式(如径向热点、曲线带或梯度条纹),但它们在不规则模式下对异质性肿瘤组织的识别能力出现下降;
2.现有的大多数工具都具有较高的SVG识别精度,但牺牲了可拓展性,即难以应用到大规模数据集。
Regev和Theis将组织模块(Tisue module,TM)定义为包含周期性细胞群落并在不同部位执行特定功能的结构区域,是研究分子组织生物学中关于健康或患病空间转录组数据中分子组成和功能的关键概念。然而,由于组织模块的分子特征和空间结构都是未知的,组织模块的识别还没有一个严格的识别方法。
发明内容
为了解决现有技术的不足,本发明提供了基于图傅里叶变换的空间可变基因识别与分析系统;
基于图傅里叶变换的空间可变基因识别与分析系统,包括:
获取模块,其被配置为:获取待识别的基因表达矩阵;
预处理模块,其被配置为:基于待识别的基因表达矩阵,生成无向图;获取无向图对应的邻接矩阵;获取无向图对应的度矩阵;基于邻接矩阵和度矩阵,确定无向图的拉普拉斯矩阵;对拉普拉斯矩阵进行谱分解,得到拉普拉斯矩阵的特征值和特征值对应的特征向量;
转换模块,其被配置为:将特征值作为图傅里叶变换中的频率,将特征值对应的特征向量作为图傅里叶变换中的傅里叶模;采用图傅里叶变换,将当前基因在每个位点的表达值从空间域转换到谱域,得到谱域信号;
空间可变基因识别模块,其被配置为:基于拉普拉斯矩阵的特征值和谱域信号,计算出待识别基因表达矩阵在空间域分布的随机性得分;根据随机性得分,确定出空间可变基因。
与现有技术相比,本发明的有益效果是:
本发明(SpaGFT)是为空间转录组学(spatial transcriptomics)设计的基于图傅里叶变换(graph Fourier transform)的空间可变基因识别、组织模块识别、基因表达信号增强算法。
本发明利用空间转录组数据的图结构特性,首次将基因表达数据和图拓扑结构有机地结合在一起,通过图傅里叶变换将基因表达数据从空间域(spatial domain)映射到谱域(frequency domain),得到基因表达数据的新可解释性表示。在谱域中,本发明通过设计空间可变基因分数GFTscore,实现了对空间可变基因的高效、快速识别。
本发明通过对所有空间可变基因的谱域信号进行聚类,首次用计算方法识别出执行特定功能的组织模块。
本发明设计了基因表达数据低通滤波器,实现了基因表达数据有效降噪和信号增强。
相较于当前那些仅能识别空间可变基因的方法,本发明无任何对数据分布假设的约束,这意味着本发明可以应用在各类空间转录组技术中,包括基于成像的空间转录组技术(osmFISH,seqFISH, MERFISH等)和基于测序的空间转录组技术(ST,Visium,Slide-seq等)。本发明开创性地构建起经典的信号处理领域和新兴的空间转录组学的桥梁,可以应用在生命科学研究中包括肿瘤微环境和胚胎发育在内的各个领域。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的系统功能模块图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
本实施例所有数据的获取都在符合法律法规和用户同意的基础上,对数据的合法应用。
实施例一
本实施例提供了基于图傅里叶变换的空间可变基因识别与分析系统;
如图1所示,基于图傅里叶变换的空间可变基因识别与分析系统,包括:
获取模块,其被配置为:获取待识别的基因表达矩阵;
预处理模块,其被配置为:基于待识别的基因表达矩阵,生成无向图;获取无向图对应的邻接矩阵;获取无向图对应的度矩阵;基于邻接矩阵和度矩阵,确定无向图的拉普拉斯矩阵;对拉普拉斯矩阵进行谱分解,得到拉普拉斯矩阵的特征值和特征值对应的特征向量;
转换模块,其被配置为:将特征值作为图傅里叶变换中的频率,将特征值对应的特征向量作为图傅里叶变换中的傅里叶模;采用图傅里叶变换,将当前基因在每个位点的表达值从空间域转换到谱域,得到谱域信号;
空间可变基因识别模块,其被配置为:基于拉普拉斯矩阵的特征值和谱域信号,计算出待识别基因表达矩阵在空间域分布的随机性得分;根据随机性得分,确定出空间可变基因。
进一步地,获取待识别的基因表达矩阵;其中矩阵的纬度为
Figure 100002_DEST_PATH_IMAGE001
;其中,
Figure 345291DEST_PATH_IMAGE002
表示位点的个数;
Figure 100002_DEST_PATH_IMAGE003
表示基因的个数。
进一步地,所述基于待识别的基因表达矩阵,生成无向图,具体包括:
先计算出所有两两位点之间的空间距离;
将每一个位点视为无向图的一个节点;
判断一个节点是否是另外一个节点的
Figure 891810DEST_PATH_IMAGE004
个最近的邻居,如果是,则表示这两个节点之间存在连接边,如果否,则表示这两个位点之间不存在连接边;
进而得到无向图。
示例性地,生成无向图
Figure 100002_DEST_PATH_IMAGE005
,其中,
Figure 940669DEST_PATH_IMAGE006
对应于
Figure 100002_DEST_PATH_IMAGE007
个位点;
Figure 889033DEST_PATH_IMAGE008
是边集,
Figure DEST_PATH_IMAGE009
满足:
Figure 794673DEST_PATH_IMAGE010
当且仅当
Figure DEST_PATH_IMAGE011
Figure 828488DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
近邻或者
Figure 477775DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
Figure 280646DEST_PATH_IMAGE016
近邻。
进一步地,所述获取无向图对应的邻接矩阵,具体包括:
对于无向图
Figure 419503DEST_PATH_IMAGE017
,它对应的邻接矩阵(adjacent matrix)
Figure 100002_DEST_PATH_IMAGE018
定义为:
Figure 940614DEST_PATH_IMAGE019
进一步地,所述获取无向图对应的度矩阵,具体包括:
对于无向图
Figure 100002_DEST_PATH_IMAGE020
,它对应的度矩阵(degree matrix)
Figure 139732DEST_PATH_IMAGE021
为对角矩阵,定义为:
Figure 100002_DEST_PATH_IMAGE022
进一步地,所述基于邻接矩阵和度矩阵,确定无向图的拉普拉斯矩阵,具体包括:
Figure 62689DEST_PATH_IMAGE023
对应的拉普拉斯矩阵(Laplacian matrix)
Figure 100002_DEST_PATH_IMAGE024
为:
Figure 247813DEST_PATH_IMAGE025
进一步地,所述对拉普拉斯矩阵进行谱分解,得到拉普拉斯矩阵的特征值和特征值对应的特征向量,具体包括:
对拉普拉斯矩阵
Figure 52958DEST_PATH_IMAGE026
进行谱分解得到:
Figure 309627DEST_PATH_IMAGE027
Figure 149407DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
其中,
Figure 567750DEST_PATH_IMAGE030
是对角矩阵,其对角元素
Figure DEST_PATH_IMAGE031
为拉普拉斯矩阵
Figure 797875DEST_PATH_IMAGE032
的特征值(eigenvalue),
Figure DEST_PATH_IMAGE033
是特征值
Figure 592655DEST_PATH_IMAGE034
对应的特征向量(eigenvector),也称为傅里叶模(Fourier mode,FM)。
进一步地,所述将特征值作为图傅里叶变换中的频率,将特征值对应的特征向量作为图傅里叶变换中的傅里叶模;采用图傅里叶变换,将当前基因在每个位点的表达值从空间域转换到谱域,得到谱域信号,具体包括:
对于傅里叶模
Figure DEST_PATH_IMAGE035
Figure 224625DEST_PATH_IMAGE036
表示
Figure DEST_PATH_IMAGE037
在位点
Figure 813869DEST_PATH_IMAGE038
上的表达值。
Figure DEST_PATH_IMAGE039
的平滑度(smoothness)反映第
Figure 796869DEST_PATH_IMAGE040
个FM在所有相互相邻的点上的总差异性变化,
Figure 129761DEST_PATH_IMAGE039
的平滑度公式表示为:
Figure 100002_DEST_PATH_IMAGE041
Figure 616237DEST_PATH_IMAGE039
的平滑度公式,改写为:
Figure 704279DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE043
Figure 908995DEST_PATH_IMAGE044
的转置;根据平滑度的定义,如果一个特征向量对应一个小的特征值,说明FM值在相邻节点上的变化较小。特征值的增大趋势对应于特征向量振荡强度的增加趋势;因此,用拉普拉斯矩阵
Figure 45578DEST_PATH_IMAGE024
的特征值和特征向量分别作为我们的图傅里叶变换中的频率和傅里叶模(FM)。直观上看,一个小的特征值对应一个低频FM,而一个大的特征值对应一个高频FM。
对于基因,令
Figure DEST_PATH_IMAGE045
表示该基因在
Figure 386561DEST_PATH_IMAGE046
个位点上的表达值,是一个
Figure 645504DEST_PATH_IMAGE046
维向量;称
Figure 71937DEST_PATH_IMAGE047
为基因
Figure DEST_PATH_IMAGE048
的空间域信号(signal in spatial domain)。接下来,对该信号进行图傅里叶变换,将其从空间域(spatial domain)的
Figure 12212DEST_PATH_IMAGE049
转换到谱域(frequency domain)的
Figure 100002_DEST_PATH_IMAGE050
,得:
Figure 473280DEST_PATH_IMAGE051
由此,
Figure 100002_DEST_PATH_IMAGE052
可以看作
Figure 840807DEST_PATH_IMAGE053
在傅里叶模
Figure 100002_DEST_PATH_IMAGE054
上的投影,反映了
Figure 754537DEST_PATH_IMAGE055
Figure 232923DEST_PATH_IMAGE053
的贡献,
Figure 100002_DEST_PATH_IMAGE056
。这种傅里叶变换统筹了基因表达及其空间分布,得到对空间转录组学数据中基因的新表示方法。
进一步地,所述基于拉普拉斯矩阵的特征值和谱域信号,计算出待识别基因表达矩阵在空间域分布的随机性得分,具体包括:
采用打分算法GFTscore,用来定量测量基因表达在空间域分布的随机性,打分算法GFTscore定义为:
Figure 814077DEST_PATH_IMAGE057
Figure 149243DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE059
是拉普拉斯
Figure 815848DEST_PATH_IMAGE060
的第
Figure DEST_PATH_IMAGE061
个特征值,
Figure 832345DEST_PATH_IMAGE062
Figure DEST_PATH_IMAGE063
为分别为经过标准化处理后的和原始的谱域信号中第
Figure 268006DEST_PATH_IMAGE064
个分量,
Figure DEST_PATH_IMAGE065
表示该基因在
Figure 711757DEST_PATH_IMAGE066
个位点上的表达值。
进一步地,所述根据随机性得分,确定出空间可变基因,具体包括:
根据随机性得分,采用Kneedle算法识别出所有基因得分中的拐点并将拐点对应的得分设为设定阈值;
将得分高于设定阈值的基因作为空间可变基因。
应理解地,高GFTscore的基因在空间域上倾向于非随机分布基因,反之亦然。因此这些高GFTscore的基因就是空间可变基因(SVG)。至此,已经得到所有基因的GFTscore。为了筛选出这些SVG,本发明采用Kneedle算法识别出具有显著性高的GFTscore的基因。
进一步地,所述根据随机性得分,确定出空间可变基因;还包括:
通过单端秩和检验(Wicoxonone-sided rank sum test )计算各基因的
Figure DEST_PATH_IMAGE067
值,然后对
Figure 803340DEST_PATH_IMAGE068
值进行FDR(false discovery rate)校正来降低假阳性,从而实现更高的识别精度降低错误率,最终将
Figure DEST_PATH_IMAGE069
值小于0.05的基因作为空间可变基因。
应理解地,除了采用Kneedle算法,本发明也加入非参数检验方法来检验低频信号与高频信号中值的差值。其零假设是,SVG的低频信号的中值等于或低于高频元素的中值。通过Wilcoxon单端秩和检验计算各基因的
Figure 623529DEST_PATH_IMAGE069
值,然后使用错误发现率(FDR)方法进行调整。最终,根据以下两个准则确定空间可变基因,1.采用Kneedle算法识别出的高得分的基因,2. Wilcoxon检验中adjusted
Figure 710434DEST_PATH_IMAGE070
value 小于0.05的基因。
进一步地,所述系统还包括:组织模块识别模块;
其中,组织模块识别模块,其被配置为:采用聚类算法对空间可变基因进行聚类,每一个聚类簇内包含若干个空间可变基因,将每一个聚类簇作为识别的组织模块输出。
示例性地,具有相似模式的空间可变基因在频域也具有相似的低频信号,这为聚类提供了理论可行性。本发明采用了Louvain算法对得到的谱域信号进行聚类。根据上述的图傅里叶变换方法得到这些空间可变基因前
Figure 856244DEST_PATH_IMAGE071
低频信号作为聚类特征,输入Louvain算法得到空间可变基因的聚类结果。
为了可视化组织模块,对于在同一个簇(cluster)的空间可变基因
Figure DEST_PATH_IMAGE072
,它们支撑了一个组织模块TM。此外,设计了
Figure 231862DEST_PATH_IMAGE073
来表示该组织模块在位点
Figure DEST_PATH_IMAGE074
上的虚拟表达值:
Figure 578443DEST_PATH_IMAGE075
进一步地,所述系统还包括:空间可变基因信号增强模块;
其中,空间可变基因信号增强模块,其被配置为:通过低通滤波器对空间可变基因的谱域信号进行增强;
所述低通滤波器设有目标函数;采用凸优化的方式对目标函数进行求解,得到增强后的谱域信号;
对增强后的谱域信号,进行傅里叶逆变换,得到增强的基因表达信号。
进一步地,所述低通滤波器的目标函数,包括:
选取最优化问题的最优解作为
Figure DEST_PATH_IMAGE076
的良估计:
Figure 988696DEST_PATH_IMAGE077
其中,
Figure DEST_PATH_IMAGE078
是2-范数,
Figure 774249DEST_PATH_IMAGE079
为解空间(solution space)中的变量,
Figure DEST_PATH_IMAGE080
Figure 637163DEST_PATH_IMAGE081
是一个常数,用来平衡相似性和平滑性。
其中,上述目标函数具有两个特点,包括:
第一,增强后的信号与原始谱域信号具有相似性;
第二,相邻位点的基因表达值具有相似性。
某些TM的SVG可能会出现低表达或脱落(dropout)问题,表现为检测到的基因表达信号具有较高的噪声。为了解决这个问题,本发明SpaGFT采用了低通过滤器(low-passfilter)来增强空间可变基因的谱域信号,降低基因表达信号中的噪声。对于带有噪声的基因表达信号
Figure DEST_PATH_IMAGE082
,设
Figure 799154DEST_PATH_IMAGE083
为真实的基因表达信号,并且有
Figure DEST_PATH_IMAGE084
,其中,
Figure 63914DEST_PATH_IMAGE085
表示噪声。
本发明将通过低通滤波器得到
Figure DEST_PATH_IMAGE086
Figure 285947DEST_PATH_IMAGE087
是对
Figure DEST_PATH_IMAGE088
一个良估计(well estimation)。一个良估计应该满足两个条件:(1)增强信号(估计的基因表达)应与原始信号相似;(2)在估计的基因表达在保持相邻的位点之间具有低差异。
根据凸优化(convex optimization),最优化问题的最优解
Figure 636157DEST_PATH_IMAGE089
满足:
Figure DEST_PATH_IMAGE090
其中,
Figure 336260DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE092
为单位矩阵。
Figure 455526DEST_PATH_IMAGE093
为低通滤波器(low-pass filter),
Figure DEST_PATH_IMAGE094
表示增强的谱域信号。
最终
Figure 848461DEST_PATH_IMAGE095
代表经过傅里叶逆变换(inverse graph Fouriertransform,iGFT)的增强基因表达信号。
本发明是为空间转录组学(Spatial Transcriptomics)设计的基于图傅里叶变换(graph Fourier transform)的空间可变基因识别、组织模块识别、基因表达数据降噪算法。
本发明利用空间转录组数据的图结构特性,首次将基因表达数据和图拓扑结构有机地结合在一起,通过图傅里叶变换将基因表达数据从空间域映射到谱域, 得到基因表达数据的可解释性新表示。
在谱域中,本发明通过设计空间可变基因平滑分数,实现了对空间可变基因的高效、快速识别。
本发明通过对所有空间可变基因的谱域信号进行聚类,首次用计算方法识别出具有生物学功能的组织模块。
本发明设计了基因表达数据低通滤波器,实现了基因表达数据有效降噪,从而大幅提升了功能区域检测算法的性能。
相较于当前仅能识别空间可变基因的方法,本发明无任何数据分布假设,这意味着本发明可以应用在各类空间转录组技术中,包括基于成像的空间转录组技术(osmFISH,seqFISH,MERFISH等)和基于测序的空间转录组技术(ST,Visium,Slide-seq等)。
本发明开创性地构建起经典信号处理领域和新兴空间转录组学的桥梁,可以应用在生命科学研究中包括肿瘤微环境和胚胎发育在内的各个领域。
1,识别空间可变基因。空间可变基因可以反映出复杂组织中结构特征和分子功能差异,通过识别和分析这些空间可变基因,进而实现对宏观结构的微端解释。
2,识别空间特异性组织模块。组织模块是研究分子组织生物学中关于健康或患病空间转录组数据中分子组成和功能的关键概念,本发明通过对空间可变基因的谱域信号聚类,找出单样本或多样本中的空间特性组织模块,有助于生物功能的分子解释。
3,基因表达信号增强。基于测序的空间转录组数据具有往往具有极高的噪声,本发明设计出低通滤波器,有效地降低生物数据中的噪声,有利于生物结构性区域的识别。
我们假设一个可靠的组织模块应该由一组空间可变基因(spatially variablegene)决定,这些基因在空间位置上共享一个重复出现的空间表达模式。本发明首次为组织模块识别提供了一种新的计算框架。
本发明首次提出了一个无数据分布假设的图傅里叶变换(GTF)框架,命名为SpaGFT,用于从空间转录组准确地检测空间可变基因和组织模块。由于它在分子组织生物学、前沿空间转录组技术和高效的信号处理方法之间建立了桥梁,因此它具有高效的计算效率和良好的可解释性。
本发明创造性地利用图傅里叶变换在频率/谱域上得到基因的新表示方法。这样的新表示同时反映了基因在所有位点上的表达信息和由这些位点所构建的空间结构信息。
因此,在多组学中,通过分析这些新表示,可以实现三个重要功能,包括:1.空间可变基因的识别,2.组织模块的识别,3.基因表达信号的增强。
总的来说,本发明SpaGFT构造了一个
Figure DEST_PATH_IMAGE096
最近邻图(KNN)来利用spot的空间信息。然后,根据图的拓扑结构得到不同的傅里叶模 (Fourier modes,FM)。
该方法将一个基因表达作为图上的图信号,采用图傅里叶变换(GFT)获得该基因的频域表示。在频域,通过强调频域信号在低频区域上的强度,可以实现空间可变基因的识别;通过在频域上对相似频域信号的基因进行聚类来寻找组织模块;通过低通滤波器(low-pass filter)实现基因的降噪。
本发明可以分为两个流程,包括将基因表达信号从空间域转换到频域的图傅里叶变换,和对这些基因在频域的表示进行分析实现若干功能。在第一个流程中,需要实现三个步骤,包括构造KNN图(graph),计算傅里叶模(Fourier mode)和图的傅里叶变换(GFT)。第二个流程,通过对谱域上的信号进行处理和分析,从而实现识别空间可变基因、识别组织模块、增强基因表达信号增强的功能。SpaGFT优越的准确性、可扩展性和可解释性表明,它是一种新颖而强大的工具,可以获得对各种生物学问题的新见解。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,包括:
获取模块,其被配置为:获取待识别的基因表达矩阵;
预处理模块,其被配置为:基于待识别的基因表达矩阵,生成无向图;获取无向图对应的邻接矩阵;获取无向图对应的度矩阵;基于邻接矩阵和度矩阵,确定无向图的拉普拉斯矩阵;对拉普拉斯矩阵进行谱分解,得到拉普拉斯矩阵的特征值和特征值对应的特征向量;
转换模块,其被配置为:将特征值作为图傅里叶变换中的频率,将特征值对应的特征向量作为图傅里叶变换中的傅里叶模;采用图傅里叶变换,将当前基因在每个位点的表达值从空间域转换到谱域,得到谱域信号;
空间可变基因识别模块,其被配置为:基于拉普拉斯矩阵的特征值和谱域信号,计算出待识别基因表达矩阵在空间域分布的随机性得分;根据随机性得分,确定出空间可变基因。
2.如权利要求1所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述基于待识别的基因表达矩阵,生成无向图,具体包括:
先计算出所有两两位点之间的空间距离;
将每一个位点视为无向图的一个节点;
判断一个节点是否是另外一个节点的
Figure DEST_PATH_IMAGE001
个最近的邻居,如果是,则表示这两个节点之间存在连接边,如果否,则表示这两个位点之间不存在连接边;
进而得到无向图。
3.如权利要求1所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述获取无向图对应的邻接矩阵,具体包括:
对于无向图
Figure 221683DEST_PATH_IMAGE002
,它对应的邻接矩阵
Figure DEST_PATH_IMAGE003
定义为:
Figure 630799DEST_PATH_IMAGE004
所述获取无向图对应的度矩阵,具体包括:
对于无向图
Figure DEST_PATH_IMAGE005
,它对应的度矩阵
Figure 357447DEST_PATH_IMAGE006
为对角矩阵,定义为:
Figure DEST_PATH_IMAGE007
4.如权利要求1所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述基于邻接矩阵和度矩阵,确定无向图的拉普拉斯矩阵,具体包括:
Figure 724974DEST_PATH_IMAGE008
对应的拉普拉斯矩阵
Figure 904283DEST_PATH_IMAGE009
为:
Figure DEST_PATH_IMAGE010
所述对拉普拉斯矩阵进行谱分解,得到拉普拉斯矩阵的特征值和特征值对应的特征向量,具体包括:
对拉普拉斯矩阵
Figure 117089DEST_PATH_IMAGE009
进行谱分解得到:
Figure 760560DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
Figure 33410DEST_PATH_IMAGE013
其中,
Figure DEST_PATH_IMAGE014
是对角矩阵,其对角元素
Figure 637698DEST_PATH_IMAGE015
为拉普拉斯矩阵
Figure DEST_PATH_IMAGE016
的特征值,
Figure 654195DEST_PATH_IMAGE017
是特征值
Figure DEST_PATH_IMAGE018
对应的特征向量,也称为傅里叶模。
5.如权利要求1所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述将特征值作为图傅里叶变换中的频率,将特征值对应的特征向量作为图傅里叶变换中的傅里叶模;采用图傅里叶变换,将当前基因在每个位点的表达值从空间域转换到谱域,得到谱域信号,具体包括:
对于傅里叶模
Figure 89856DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
表示
Figure 799186DEST_PATH_IMAGE021
在位点
Figure DEST_PATH_IMAGE022
上的表达值;
Figure 687507DEST_PATH_IMAGE023
的平滑度反映第
Figure DEST_PATH_IMAGE024
个FM在所有相互相邻的点上的总差异性变化,
Figure 507696DEST_PATH_IMAGE025
的平滑度的公式表示为:
Figure DEST_PATH_IMAGE026
Figure 532283DEST_PATH_IMAGE027
的平滑度的公式,改写为:
Figure DEST_PATH_IMAGE028
其中,
Figure 678094DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
的转置;根据平滑度的定义,如果一个特征向量对应一个小的特征值,说明FM值在相邻节点上的变化较小;特征值的增大趋势对应于特征向量振荡强度的增加趋势;因此,用拉普拉斯矩阵
Figure 53712DEST_PATH_IMAGE031
的特征值和特征向量分别作为图傅里叶变换中的频率和傅里叶模;
对于基因,令
Figure DEST_PATH_IMAGE032
表示该基因在
Figure 412012DEST_PATH_IMAGE033
个位点上的表达值,是一个
Figure DEST_PATH_IMAGE034
维向量;称
Figure 822265DEST_PATH_IMAGE035
为基因
Figure DEST_PATH_IMAGE036
的空间域信号;接下来,对该信号进行图傅里叶变换,将其从空间域的
Figure 873397DEST_PATH_IMAGE037
转换到谱域的
Figure DEST_PATH_IMAGE038
,得:
Figure 736311DEST_PATH_IMAGE039
由此,
Figure 898302DEST_PATH_IMAGE040
看作
Figure DEST_PATH_IMAGE041
在傅里叶模
Figure 897482DEST_PATH_IMAGE042
上的投影,反映了
Figure 119516DEST_PATH_IMAGE042
Figure 532043DEST_PATH_IMAGE037
的贡献,
Figure 497725DEST_PATH_IMAGE043
6.如权利要求1所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述基于拉普拉斯矩阵的特征值和谱域信号,计算出待识别基因表达矩阵在空间域分布的随机性得分,具体包括:
采用打分算法GFTscore,用来定量测量基因表达在空间域分布的随机性,打分算法GFTscore定义为:
Figure DEST_PATH_IMAGE044
Figure 616991DEST_PATH_IMAGE045
其中,
Figure 806663DEST_PATH_IMAGE046
是拉普拉斯
Figure DEST_PATH_IMAGE047
的第
Figure 644169DEST_PATH_IMAGE048
个特征值,
Figure 882384DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
为分别为经过标准化处理后的和原始的谱域信号中第
Figure 387314DEST_PATH_IMAGE048
个分量,
Figure 747889DEST_PATH_IMAGE051
表示该基因在
Figure DEST_PATH_IMAGE052
个位点上的表达值;
所述根据随机性得分,确定出空间可变基因,具体包括:
根据随机性得分,采用Kneedle算法识别出所有基因得分中的拐点并将拐点对应的得分设为设定阈值;将得分高于设定阈值的基因作为空间可变基因。
7.如权利要求1所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述系统还包括:组织模块识别模块;
其中,组织模块识别模块,其被配置为:采用聚类算法对空间可变基因进行聚类,每一个聚类簇内包含若干个空间可变基因,将每一个聚类簇作为识别的组织模块输出。
8.如权利要求7所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,所述系统还包括:空间可变基因信号增强模块;
其中,空间可变基因信号增强模块,其被配置为:通过低通滤波器对空间可变基因的谱域信号进行增强;
所述低通滤波器设有目标函数;采用凸优化的方式对目标函数进行求解,得到增强后的谱域信号;
对增强后的谱域信号,进行傅里叶逆变换,得到增强的基因表达信号。
9.如权利要求8所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,低通滤波器的目标函数,包括:
选取最优化问题的最优解作为
Figure 998655DEST_PATH_IMAGE053
的良估计:
Figure DEST_PATH_IMAGE054
其中,
Figure 306140DEST_PATH_IMAGE055
是2-范数,
Figure DEST_PATH_IMAGE056
为解空间中的变量,
Figure 134418DEST_PATH_IMAGE057
Figure DEST_PATH_IMAGE058
是一个常数,用来平衡相似性和平滑性。
10.如权利要求9所述的基于图傅里叶变换的空间可变基因识别与分析系统,其特征是,目标函数具有两个特点,包括:增强后的信号与原始谱域信号具有相似性;相邻位点的基因表达值具有相似性。
CN202211015383.0A 2022-08-24 2022-08-24 基于图傅里叶变换的空间可变基因识别与分析系统 Active CN115099287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211015383.0A CN115099287B (zh) 2022-08-24 2022-08-24 基于图傅里叶变换的空间可变基因识别与分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211015383.0A CN115099287B (zh) 2022-08-24 2022-08-24 基于图傅里叶变换的空间可变基因识别与分析系统

Publications (2)

Publication Number Publication Date
CN115099287A true CN115099287A (zh) 2022-09-23
CN115099287B CN115099287B (zh) 2022-11-11

Family

ID=83300056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211015383.0A Active CN115099287B (zh) 2022-08-24 2022-08-24 基于图傅里叶变换的空间可变基因识别与分析系统

Country Status (1)

Country Link
CN (1) CN115099287B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000052625A2 (en) * 1999-02-22 2000-09-08 Vialogy Corporation Method and apparatus for analyzing hybridized biochip patterns using resonance interactions
US20130144151A1 (en) * 2008-03-05 2013-06-06 Purdue Research Foundation System and Method For Determining Modified States of Health of Living Tissue
WO2016087589A1 (en) * 2014-12-03 2016-06-09 Ventana Medical Systems, Inc. Methods, systems, and apparatuses for quantitative analysis of heterogeneous biomarker distribution
CN111568409A (zh) * 2020-04-27 2020-08-25 南京航空航天大学 基于双谱分析和图傅里叶变换的心电信号特征提取方法
CN112149725A (zh) * 2020-09-18 2020-12-29 南京信息工程大学 基于傅立叶变换的谱域图卷积3d点云分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000052625A2 (en) * 1999-02-22 2000-09-08 Vialogy Corporation Method and apparatus for analyzing hybridized biochip patterns using resonance interactions
US20130144151A1 (en) * 2008-03-05 2013-06-06 Purdue Research Foundation System and Method For Determining Modified States of Health of Living Tissue
WO2016087589A1 (en) * 2014-12-03 2016-06-09 Ventana Medical Systems, Inc. Methods, systems, and apparatuses for quantitative analysis of heterogeneous biomarker distribution
CN111568409A (zh) * 2020-04-27 2020-08-25 南京航空航天大学 基于双谱分析和图傅里叶变换的心电信号特征提取方法
CN112149725A (zh) * 2020-09-18 2020-12-29 南京信息工程大学 基于傅立叶变换的谱域图卷积3d点云分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZENG XIANGXIANG等: "deepDR: a network-based deep learning approach to in silico drug repositioning", 《 BIOINFORMATICS 》 *
傅琨: "基于多源异构数据的药物疾病关联预测", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Also Published As

Publication number Publication date
CN115099287B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
Moon et al. Visualizing structure and transitions in high-dimensional biological data
Liu et al. Reconstructing cell cycle pseudo time-series via single-cell transcriptome data
Yu et al. Graph-based consensus clustering for class discovery from gene expression data
Van Hulse et al. Feature selection with high-dimensional imbalanced data
Jeong et al. Efficient global optimization (EGO) for multi-objective problem and data mining
Lee et al. Gene selection and sample classification on microarray data based on adaptive genetic algorithm/k-nearest neighbor method
Mandal et al. An improved minimum redundancy maximum relevance approach for feature selection in gene expression data
Saraswat et al. Feature selection and classification of leukocytes using random forest
CN108681659B (zh) 基于样本数据预测蛋白质复合物的方法
Mohammadi et al. Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms
CN112735536A (zh) 一种基于子空间随机化单细胞集成聚类方法
Wang et al. Approximate spectral clustering
Wang et al. Impact of data preprocessing on cell-type clustering based on single-cell RNA-seq data
Wang et al. A density weighted fuzzy outlier clustering approach for class imbalanced learning
Faceli et al. Partitions selection strategy for set of clustering solutions
CN115099287B (zh) 基于图傅里叶变换的空间可变基因识别与分析系统
Ferguson et al. Theoretical analysis and computation of the sample Frechet mean for sets of large graphs based on spectral information
CN106485286B (zh) 一种基于局部敏感判别的矩阵分类模型
Makarenkov et al. Inferring multiple consensus trees and supertrees using clustering: A review
Liu et al. MTGDC: A multi-scale tensor graph diffusion clustering for single-cell RNA sequencing data
Hamraz et al. Regulatory Genes Through Robust-SNR for Binary Classification Within Functional Genomics Experiments.
Zhang et al. A hybrid graph-theoretic method for mining overlapping functional modules in large sparse protein interaction networks
Dudas et al. Decision trees in proper edge k-coloring of cubic graphs
Rodrigues et al. A complex networks approach for data clustering
Giurcărneanu et al. Fast iterative gene clustering based on information theoretic criteria for selecting the cluster structure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant