CN117274982A - 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 - Google Patents
一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 Download PDFInfo
- Publication number
- CN117274982A CN117274982A CN202210654110.4A CN202210654110A CN117274982A CN 117274982 A CN117274982 A CN 117274982A CN 202210654110 A CN202210654110 A CN 202210654110A CN 117274982 A CN117274982 A CN 117274982A
- Authority
- CN
- China
- Prior art keywords
- gene
- cancer
- subtype
- network
- subtypes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 128
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 119
- 201000011510 cancer Diseases 0.000 title claims abstract description 112
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 33
- 230000014509 gene expression Effects 0.000 claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 22
- 238000010201 enrichment analysis Methods 0.000 claims abstract description 13
- 238000012800 visualization Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 210000004027 cell Anatomy 0.000 claims description 90
- 201000001441 melanoma Diseases 0.000 claims description 33
- 230000004547 gene signature Effects 0.000 claims description 28
- 208000035250 cutaneous malignant susceptibility to 1 melanoma Diseases 0.000 claims description 26
- 230000002068 genetic effect Effects 0.000 claims description 22
- 210000004881 tumor cell Anatomy 0.000 claims description 17
- 238000012174 single-cell RNA sequencing Methods 0.000 claims description 9
- 238000010224 classification analysis Methods 0.000 claims description 8
- 238000007621 cluster analysis Methods 0.000 claims description 8
- 230000003211 malignant effect Effects 0.000 claims description 7
- 238000011551 log transformation method Methods 0.000 claims description 2
- 210000002752 melanocyte Anatomy 0.000 claims description 2
- 230000008236 biological pathway Effects 0.000 abstract description 2
- 230000031018 biological processes and functions Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010187 selection method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 101000636670 Homo sapiens NADH dehydrogenase [ubiquinone] 1 beta subcomplex subunit 1 Proteins 0.000 description 2
- 101000658157 Homo sapiens Thymosin beta-4 Proteins 0.000 description 2
- 101000854906 Homo sapiens WD repeat-containing protein 72 Proteins 0.000 description 2
- 102100031923 NADH dehydrogenase [ubiquinone] 1 beta subcomplex subunit 1 Human genes 0.000 description 2
- 102100035000 Thymosin beta-4 Human genes 0.000 description 2
- 102100020708 WD repeat-containing protein 72 Human genes 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 108700039887 Essential Genes Proteins 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000002601 intratumoral effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008099 melanin synthesis Effects 0.000 description 1
- 210000002780 melanosome Anatomy 0.000 description 1
- 230000008284 neuronal mechanism Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/69—Microscopic objects, e.g. biological cells or cellular parts
- G06V20/698—Matching; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,所述方法是基于单细胞测序技术,该方法包括:1)原始真实数据搜集,2)数据预处理,3)利用残差低秩网络来识别不同癌症亚型的基因特征,4)下游分析包括差异表达基因分析、基于被识别基因特征的不同亚型分类和聚类分析、不同潜在亚型的可视化、不同亚型基因特征的功能富集分析。本发明属于生物信息分析技术领域,本发明提供的基于单细胞转录组测序的癌症亚型基因特征的识别方法,可以自动识别潜在的癌症亚型及对应的不同基因特征,不同亚型的基因特征揭示了关键的生物学过程和途径,有利于理解细胞异质性和肿瘤的复杂生态系统。
Description
技术领域
本发明涉及生物信息分析技术领域,特别是涉及一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统。
背景技术
单细胞 RNA 测序 (scRNA-seq) 技术已经促进了更多的转录组研究。由于传统的bulk RNA-seq技术获取一组细胞的平均基因表达,因此在肿瘤样本中识别出的细胞亚群的信息通常是模糊的。scRNA-seq 可量化单个细胞的基因表达,这有助于分析细胞差异。对于癌症相关疾病,scRNA-seq 能够表征肿瘤内异质性,这有助于研究人员在单细胞层次了解癌症亚型、细胞群和细胞功能。此外,scRAN-seq 分析也已被用于研究免疫系统和大脑神经元机制。
基于单细胞表达数据的基因特征识别有助于从大量异质细胞中区分不同的细胞类型,这可被应用于多样化的下游表达分析。许多机器学习方法已被用于识别基因特征并确定scRNA-seq 数据中的细胞类型。例如,一些基因选择方法利用具有冗余信息的基因作为特征去分类癌症亚型。为了减少无用的基因,许多特征选择算法被用来识别精确和有效的基因特征。例如Mundra等人提出了基于T-score的基因排序方法,这个方法将基因视为独立的特征,从排名靠前的基因中选择一组特征来区分癌症亚型。Reyes 等人将Relief-F扩展到多标签学习上,这也可以被用于选择基因。Guyon 等人提出集成递归特征消除(RFE)。它是一种常用特征选择方法,可以被结合到支持向量机(SVM)中,即SVM-RFE,用于去除不重要的基因。其他方法使用基于网络的排序来识别基因作为生存指标。然而,大多数现有方法单独选择基因,而不考虑基因和癌症亚型之间的关联。许多人类疾病是异质性的,这导致了难以理解疾病机制。因此,有必要识别与潜在癌症亚型相关的可解释基因特征。
为了提高scRNA-seq 数据分析的能力,我们提出了一种新的基因选择方法,自动关联特征学习 (AAFL),它可以同时自动识别不同细胞亚群(癌症亚型)的不同基因特征。所提出的 AAFL 方法将残差网络与低秩网络相结合,低秩网络选择与相应细胞亚群最相关的基因。此外,在基因选择之前我们获取差异表达基因(DEG)以过滤冗余基因。我们再将 AAFL应用于真实的癌症scRNA-seq 数据集,以识别未知癌症亚型的基因特征。实验结果表明与广泛使用的基因选择方法相比,AAFL有更好的有效性。特别地,通过探索每个亚型的未知基因关联,每个亚型的相关基因可以被用来解释不同的亚型模式。系统的基因本体富集分析通过总结关键的生物学过程和途径证明了不同癌症亚型已识别基因特征的潜在功能。
发明内容
为解决目前本领域面临的上述问题,本发明提供了一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将残差网络与低秩网络相结合,自动选择与癌症亚型相关的基因特征,差异表达基因(DEG)被使用以过滤冗余基因,以此来识别与相应癌症亚型最相关的基因特征。
为实现上述目的,本发明提供了如下方案:
一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
S1:搜集原始真实数据集;
S2: 数据预处理;
S3:估计潜在癌症亚型的数量;
S4: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S5: 初始化低秩的数量,最大迭代次数和超参;
S6: 预测低秩网络系数和权重;
S7: 计算重构基因表达和原始基因表达之间的误差;
S8: 利用误差更新下一代的网络权重;
S9: 获得潜在亚型对应的低秩网络系数和权重;
S10: 识别各个亚型对应的不同基因特征;
S11:下游分析,包括差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
优选地,所述估计潜在癌症亚型的数量,具体包括:
为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2。为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数。根据聚类数的结果,我们将提出的的AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
优选地,所述设计残差网络,具体包括:
, 其中/>代表第k个细胞,n和m分别是细胞和基因的数量。残差网络的每一层公式为:/>其中/>表示第g层输出,/>和/>表示权重矩阵和偏差,/>表示恒等映射,G表示所有残差层的数量。每个/>都记录了一定程度的非线性。连接后,/>的第/>行包含基因/>的一组非线性。在以下部分中,/>可以表示为/>。
优选地,所述设计低秩网络,具体包括:
在每一个癌症亚型中,低秩网络对应。/>表示每一个亚型c所对应的基因关联图。我们使用低秩网络来近似关联矩阵,计算如下:其中/>表示矩阵转置,表示/>-rank矩阵,/>,with />,在/>下,/>的度矩阵为/>,为双曲正切函数,/>为一个矩阵的对角线函数。输出为/>,其第 j 列表示来自基因 j 的相关非线性关系。这里,可学习参数的数量(/>的大小)为/>,在/>下,/>远小于/>。根据经验,/>的默认值设置为 1。
优选地,所述设计全连接网络,具体包括:
全连接网络由一系列全连接层组成,从低秩网络的输出中取来学习每个癌症亚型相关基因之间更深层的非线性。第j层输出如下:/>其中/>是第 j-1 层的输出,/>为权重矩阵,/>为偏置向量,P为全连接网络的所有层数。我们设置/>和/>。全连接网络的最终输出是/>,/>中的第i行表示来自癌症亚型 c 中/>的相关基因的更深层次的非线性。
优选地,所述计算所述初始化低秩的数量、最大迭代次数和超参,具体包括:经验上来说,低秩的数量被设置为1,最大迭代次数为300代。对于良性细胞和恶性细胞,我们设置c为2。对于恶性黑色素瘤细胞中潜在的癌症亚型,我们根据探索结果设置c为3。
优选地,所述计算所述预测低秩网络系数和权重,具体包括:
在每一次迭代中,我们都可以获得更新的低秩网络,由此可以预测每个潜在癌症亚型对应的低秩网络系数和权重w。
优选地,所述计算重构基因表达和原始基因表达之间的误差,具体包括:
在基因重建中,我们使用来自全连接网络的输出对 />进行回归。此处,可学习的权重矩阵是/>。基因重建是通过基因点积进行的,如下所示: 平方误差被应用于实际基因/>和重建基因 />之间的误差计算。最终残差如下:/>,其中n代表细胞数,c是被识别的癌症亚型系数,C表示癌症亚型的数量,/>。来自 /> 的第一个非平凡左特征向量。最后,最小残差和亚型系数 c 决定了每个细胞对应于癌症亚型的的标签。
优选地,所述计算所述利用误差更新下一代的网络权重,具体包括:
在每一次迭代中,我们根据每一次的最终残差来更新残差网络、低秩网路及全连接网络的权重。
优选地,所述计算所述获得潜在亚型对应的低秩网络系数和权重,具体包括:
根据最优的低秩网络,我们可以获得每个潜在癌症亚型对应的低秩网络系数和权重w。
优选地,所述计算所述识别各个亚型对应的不同基因特征,具体包括:
根据每个癌症亚型对应的低秩网络系数,我们可以搜集每个潜在癌症亚型所对应的最高排序的基因。在每个亚型中,最高排序的k个基因作为相应的基因特征。
优选地,所述下游分析,具体包括:
差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,包括:
数据搜集模块,用于搜集原始真实数据集;
数据预处理模块,用于过滤低质量细胞、获得差异表达基因及数据规范化;
亚型数量估计模块,用于估计潜在癌症亚型的数量;
网络构建模块,用于设计残差网络,低秩网络和全连接网络,并初始化权重;
初始化模块,用于初始化低秩的数量,最大迭代次数和超参;
系数预测模块,用于预测低秩网络系数和权重;
误差计算模块,用于计算重构基因表达和原始基因表达之间的误差;
估计值更新模块,用于利用误差更新下一代网络权重;
最优权重模块,用于获得潜在亚型对应的低秩网络系数和权重;
基因特征识别模块,用于识别各个亚型对应的不同基因特征;
下游分析模块,用于差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明以单细胞测序数据为研究对象,提供了一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将基因特征与癌症亚型相关联,残差低秩网络被应用于基因特征识别的过程中,利用细胞异质性来识别不同亚型的基因特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1一种用于单细胞测序数据的癌症亚型基因特征识别方法流程图。
图2为本发明实施例2一种用于单细胞测序数据的癌症亚型基因特征识别系统结构图。
图3为本发明实施例3一种用于单细胞测序数据的癌症亚型基因特征识别方法的概述框架图。
图4为使用 EDMomics 工具计算恶性黑色素瘤细胞和良性肿瘤细胞之间不同基因的密度图。 (A) WDR72 (基因) 的密度图。(B) NDUFB1 (基因) 的密度图。(C) 带有TMSB4X (基因) 的密度图。A组代表一组恶性黑色素瘤肿瘤细胞。B组代表一组良性肿瘤细胞。
图5为所提出的 AAFL与其他方法在 scRAN-seq 数据上的性能评估比较。所选基因的数量从 1 到 14 不等。(A)不同方法对分类案例的准确性。 (B) 基于聚类任务的不同方法的调整兰德指数 (ARI)。
图6探索恶性黑色素瘤细胞的癌症亚型数量。 (A) 最佳簇数(子类型)。k(x 轴)表示癌症亚型的数量。 (B) 具有 3 个可能簇(癌症亚型)的恶性细胞的可视化。
图7为在恶性黑色素瘤细胞中,每种潜在癌症亚型所对应基因特征的排序结果。
图8为在恶性黑色素肿瘤细胞中,提出的 AAFL方法识别的癌症亚型的可视化。(A) t-SNE 的结果。 (B) UMAP 的结果。
图9为在黑色素瘤细胞中,不同癌症亚型所对应的重要基因特征及其相应的功能富集分析结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将基因特征与癌症亚型相关联,残差低秩网络被应用于基因特征识别的过程中,利用细胞异质性来识别不同亚型的基因特征。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
图1为本发明实施例1一种用于单细胞测序数据的癌症亚型基因特征识别方法流程图。如图1所示,一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
步骤101:搜集原始真实数据集,具体包括:
真实数据Human melanoma tumor scRNA-seq dataset (GEO access number:GSE72056)。此数据集包含来自19个患者的4645个单细胞和23686个基因。其中,4645个单细胞由1257个恶性黑色素肿瘤细胞和3388个良性肿瘤细胞组成。
步骤102:数据预处理,具体包括:
首先,采用log-transformation方法,进行表达量规范化。其次,在少于6%的细胞中进行表达的基因(稀有基因)和在超过94% 的细胞中进行表达的基因(普遍存在的基因)被过滤,以此获得12693个基因。最后,我们使用EMDomics工具来识别差异表达基因,以此获得1170个差异表达基因。
步骤103:估计潜在癌症亚型的数量,具体包括:
为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2。为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数。根据聚类数的结果,我们将提出的的AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
步骤104:设计残差网络,低秩网络和全连接网络,并初始化权重,具体包括:
设计残差网络如下,, 其中 /> 代表第k个细胞,n和m分别是细胞和基因的数量。残差网络的每一层公式为: 其中/>表示第g层输出,/> 和表示权重矩阵和偏差,/>表示恒等映射,G表示所有残差层的数量。 每个/> 都记录了一定程度的非线性。 连接后,/>的第/>行包含基因/>的一组非线性。在以下部分中,可以表示为 />。
设计低秩网络如下,在每一个癌症亚型中,低秩网络对应。表示每一个亚型c所对应的基因关联图。我们使用低秩网络来近似关联矩阵,计算如下:/> 其中 />表示矩阵转置,/>表示 />-rank矩阵,/>,with />,在/>下,/>的度矩阵为/> ,/>为双曲正切函数, />为一个矩阵的对角线函数。 输出为 />,其第 j 列表示来自基因 j 的相关非线性关系。 这里,可学习参数的数量(/>的大小)为,在/>下,/>远小于 />。根据经验,/> 的默认值设置为 1。
设计全连接网络如下,全连接网络由一系列全连接层组成,从低秩网络的输出中取来学习每个癌症亚型相关基因之间更深层的非线性。第j层输出如下:其中 />是第 j-1 层的输出,/>为权重矩阵,/>为偏置向量,P为全连接网络的所有层数。我们设置/> 和/>。全连接网络的最终输出是 />,/>中的第 i 行表示来自癌症亚型 c 中 />的相关基因的更深层次的非线性。
步骤105:初始化低秩的数量,最大迭代次数和超参,具体包括:
经验上来说,低秩的数量被设置为1,最大迭代次数为300代。对于良性细胞和恶性细胞,我们设置c为2。对于恶性黑色素瘤细胞中潜在的癌症亚型,我们根据探索结果设置c为3。
步骤106:预测低秩网络系数和权重,具体包括:
在每一次迭代中,我们都可以获得更新的低秩网络,由此可以预测每个潜在癌症亚型对应的低秩网络系数和权重w。
步骤107:计算重构基因表达和原始基因表达之间的误差,具体包括:
在基因重建中,我们使用来自全连接网络的输出 对 /> 进行回归。此处,可学习的权重矩阵是 />。基因重建是通过基因点积进行的,如下所示: 平方误差被应用于实际基因 />和重建基因之间的误差计算。 最终残差如下:/> 其中n代表细胞数,c是被识别的癌症亚型系数,C表示癌症亚型的数量,/>。来自 /> 的第一个非平凡左特征向量。 最后,最小残差和亚型系数 c 决定了每个细胞对应于癌症亚型的的标签。
步骤108:利用误差更新下一代的网络权重,具体包括:
在每一次迭代中,我们根据每一次的最终残差来更新残差网络、低秩网路及全连接网络的权重。
步骤109:获得潜在亚型对应的低秩网络系数和权重,具体包括:
根据最优的低秩网络,我们可以获得每个潜在癌症亚型对应的低秩网络系数和权重w。
步骤110:识别各个亚型对应的不同基因特征,具体包括:
根据每个癌症亚型对应的低秩网络系数,我们可以搜集每个潜在癌症亚型所对应的最高排序的基因。在每个亚型中,最高排序的k个基因作为相应的基因特征。
步骤111:下游分析,具体包括:
差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
本发明以提出了一种新的单细胞测序的癌症亚型基因特征识别方法AAFI,将基因特征与癌症亚型相关联,残差低秩网络被应用于基因特征识别的过程中,利用细胞异质性来识别不同亚型的基因特征。
本发明提出一种用于单细胞测序数据的癌症亚型基因特征识别方法的创新型主要体现在四个方面:第一,本发明利用残差网络和低秩网络来识别不同亚型的基因特征。第二,本发明采用了自动关联特征学习,能够识别每个亚型相应可解释的基因特征。第三,本发明有助于识别潜在的癌症亚型和对应的基因特征。第四,本发明所获得的生物发现可以被黑色素瘤生物学的最新知识所解释,有助于理解细胞异质性的重要意义和复杂的肿瘤生态系统。
实施例2:
图2为本发明实施例2一种用于单细胞测序数据的癌症亚型基因特征识别系统结构图。如图2所示,一种用于单细胞测序数据的癌症亚型基因特征识别系统,包括:
数据搜集模块201,用于搜集原始真实数据集;
数据预处理模块202,用于过滤低质量细胞、获得差异表达基因及数据规范化;
亚型数量估计模块203,用于估计潜在癌症亚型的数量;
网络构建模块204,用于设计残差网络,低秩网络和全连接网络,并初始化权重;
初始化模块205,用于初始化低秩的数量,最大迭代次数和超参;
系数预测模块206,用于预测低秩网络系数和权重;
误差计算模块207,用于计算重构基因表达和原始基因表达之间的误差;
估计值更新模块208,用于利用误差更新下一代网络权重;
最优权重模块209,用于获得潜在亚型对应的低秩网络系数和权重;
基因特征识别模块210,用于识别各个亚型对应的不同基因特征;
下游分析模块211,用于差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
实施例3:
图3为本发明实施例3一种用于单细胞测序数据的癌症亚型基因特征识别方法的概述框架图。如图3所示,一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
S1:搜集原始真实数据集;
S2: 数据预处理;
S3:获得含有细胞相关信息的基因表达数据X;
S4:估计潜在癌症亚型的数量;
S5: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S6: 初始化低秩的数量,最大迭代次数和超参;
S7:将数据X输入到本发明提出的单细胞测序数据的癌症亚型基因特征识别方法AAFI中,其目标的数学描述如下:
(1)
其中,n代表细胞数,c是被识别的癌症亚型系数,C表示癌症亚型的数量,。/>来自/>的第一个非平凡左特征向量。最后,最小残差和亚型系数 c 决定了每个细胞对应于癌症亚型的的标签;
S8: 预测低秩网络系数和权重;
S9: 计算重构基因表达和原始基因表达之间的误差;
S10: 利用误差更新下一代的网络权重;
S11: 获得潜在亚型对应的低秩网络系数和权重;
S12: 识别各个亚型对应的不同基因特征;
S13: 下游分析,包括差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
实施例4:
为了验证本发明一种用于单细胞测序数据的癌症亚型基因特征方法的有效性,将本发明的方法与现有的基因特征识别方法AAFL−RF、AAFL−SVM、Chi2−RF、Chi2−SVM、RFE−RF和RFE−SVM方法进行了比较。对于不同的任务和目的,有不同的评估指标和比较方法。
图4为使用 EDMomics 工具计算恶性黑色素瘤细胞和良性肿瘤细胞之间不同基因的密度图。 (A) WDR72 (基因) 的密度图。(B) NDUFB1 (基因) 的密度图。(C) 带有TMSB4X (基因) 的密度图。A组代表一组恶性黑色素瘤肿瘤细胞。B组代表一组良性肿瘤细胞。
实验结果表明,我们选择的差异表达基因具有明显的区分性,有利于后续不同癌症亚型的基因特征的识别。
图5为所提出的 AAFL与其他方法在 scRAN-seq 数据上的性能评估比较。所选基因的数量从 1 到 14 不等。(A)不同方法对分类案例的准确性。 (B) 基于聚类任务的不同方法的调整兰德指数 (ARI)。
实验结果表明,对于不同分类和聚类任务,本发明提出的方法超过了其他方法,更能有效地识别出不同癌症亚型的基因特征。这是因为本发明的方法考虑了细胞异质性,并利用癌症亚型与基因之间的关联来自动识别出基因特征。
图6探索恶性黑色素瘤细胞的癌症亚型数量。 (A) 最佳簇数(子类型)。 k(x 轴)表示癌症亚型的数量。 (B) 具有 3 个可能簇(癌症亚型)的恶性细胞的可视化。
实验结果表明,在恶性黑色素肿瘤细胞中,为了确定可能存在的潜在癌症亚型的数量,我们使用聚类方法探索出了最佳簇数,以此作为可能最佳的癌症亚型数量。便于后续自动关联到不同癌症亚型的基因特征。
图7为在恶性黑色素瘤细胞中,每种潜在癌症亚型所对应基因特征的排序结果。
实验结果表明,我们识别出了三个亚型的不同基因特征,并分析了被识别的基因特征可以作为比较有效的黑色素瘤标志物。
图8为在恶性黑色素肿瘤细胞中,提出的 AAFL方法识别的癌症亚型的可视化。(A) t-SNE 的结果。 (B) UMAP 的结果。
实验结果表明,我们根据三个亚型的不同基因特征可视化了不同的癌症亚型细胞。可分离的癌症亚型结果表明了被识别基因特征的有效性。
图9为在黑色素瘤细胞中,不同癌症亚型所对应的重要基因特征及其相应的功能富集分析结果。
实验结果表明,我们对三个亚型的不同基因特征进行了有效的功能富集分析。这些识别出的具有不同亚型的基因特征富含生物学上与黑色素瘤相关的重要过程,包括黑色素生物合成过程和黑素体。总体而言,这些在不同癌症中鉴定的基因特征可以用来产生重要的参考来寻找新的标记,说明了生物学上的意义,有利于理解肿瘤异质性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以
上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,包括:
S1:搜集原始真实数据集;
S2: 数据预处理;
S3:估计潜在癌症亚型的数量;
S4: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S5: 初始化低秩的数量,最大迭代次数和超参;
S6: 预测低秩网络系数和权重;
S7: 计算重构基因表达和原始基因表达之间的误差;
S8: 利用误差更新下一代的网络权重;
S9: 获得潜在亚型对应的低秩网络系数和权重;
S10: 识别各个亚型对应的不同基因特征;
S11: 下游分析,包括差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
2.根据权利要求1所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述进行所述原始真实数据集,具体包括:真实数据Human melanoma tumorscRNA-seq dataset (GEO access number: GSE72056),此数据集包含来自19个患者的4645个单细胞和23686个基因,其中,4645个单细胞由1257个恶性黑色素肿瘤细胞和3388个良性肿瘤细胞组成。
3.根据权利要求2所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述数据预处理,具体包括:首先,采用log-transformation方法,进行表达量规范化,其次,在少于6%的细胞中进行表达的基因(稀有基因)和在超过94% 的细胞中进行表达的基因(普遍存在的基因)被过滤,以此获得12693个基因,最后,我们使用EMDomics工具来识别差异表达基因,以此获得1170个差异表达基因。
4.根据权利要求3所述的一种用于单细胞测序数据的所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述估计潜在癌症亚型的数量,具体包括:
为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2,为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数,根据聚类数的结果,我们将提出的的AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
5.根据权利要求4所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述初始化低秩的数量,最大迭代次数和超参,具体包括:
经验上来说,低秩的数量被设置为1,最大迭代次数为300代,对于良性细胞和恶性细胞,我们设置c为2,对于恶性黑色素瘤细胞中潜在的癌症亚型,我们根据探索结果设置 c为3。
6.根据权利要求5所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述预测低秩网络系数和权重,具体包括:在每一次迭代中,我们都可以获得更新的低秩网络,由此可以预测每个潜在癌症亚型对应的低秩网络系数和权重w。
7.根据权利要求6所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述利用误差更新下一代的网络权重,具体包括:
在每一次迭代中,我们根据每一次的最终残差来更新残差网络、低秩网路及全连接网络的权重。
8.根据权利要求7所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述获得潜在亚型对应的低秩网络系数和权重,具体包括:
根据最优的低秩网络,我们可以获得每个潜在癌症亚型对应的低秩网络系数和权重w。
9.根据权利要求8所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述识别各个亚型对应的不同基因特征,具体包括:根据每个癌症亚型对应的低秩网络系数,我们可以搜集每个潜在癌症亚型所对应的最高排序的基因,在每个亚型中,最高排序的k个基因作为相应的基因特征。
10.根据权利要求9所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述下游分析,具体包括:
差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210654110.4A CN117274982A (zh) | 2022-06-10 | 2022-06-10 | 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210654110.4A CN117274982A (zh) | 2022-06-10 | 2022-06-10 | 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117274982A true CN117274982A (zh) | 2023-12-22 |
Family
ID=89216499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210654110.4A Pending CN117274982A (zh) | 2022-06-10 | 2022-06-10 | 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117274982A (zh) |
-
2022
- 2022-06-10 CN CN202210654110.4A patent/CN117274982A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9141913B2 (en) | Categorization and filtering of scientific data | |
CN108198621B (zh) | 一种基于神经网络的数据库数据综合诊疗决策方法 | |
Wang et al. | LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization | |
US8364665B2 (en) | Directional expression-based scientific information knowledge management | |
US8275737B2 (en) | System and method for scientific information knowledge management | |
CN112635063B (zh) | 一种肺癌预后综合预测模型、构建方法及装置 | |
Li et al. | Co-mention network of R packages: Scientific impact and clustering structure | |
Rasheed et al. | Metagenomic taxonomic classification using extreme learning machines | |
CN108206056B (zh) | 一种鼻咽癌人工智能辅助诊疗决策终端 | |
CN108335756B (zh) | 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
CN114927162A (zh) | 基于超图表征与狄利克雷分布的多组学关联表型预测方法 | |
CN116680594A (zh) | 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法 | |
Min et al. | Structured Sparse Non-negative Matrix Factorization with $\ell _ {2, 0} $-Norm | |
CN108320797B (zh) | 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法 | |
Carrieri et al. | A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes | |
CN116543832A (zh) | 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用 | |
CN114141306B (zh) | 基于基因相互作用模式优化图表示的远处转移识别方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
WO2009039425A1 (en) | Directional expression-based scientific information knowledge management | |
CN117274982A (zh) | 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 | |
CN112768001A (zh) | 一种基于流形学习和主曲线的单细胞轨迹推断方法 | |
Ghai et al. | Proximity measurement technique for gene expression data | |
Ji et al. | Predicting miRNA-Disease Associations via a New MeSH Headings Representation of Diseases and eXtreme Gradient Boosting | |
Banu et al. | Informative Gene Selection-An evolutionary approach | |
CN115881232A (zh) | 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |