CN117274982A - 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 - Google Patents

一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 Download PDF

Info

Publication number
CN117274982A
CN117274982A CN202210654110.4A CN202210654110A CN117274982A CN 117274982 A CN117274982 A CN 117274982A CN 202210654110 A CN202210654110 A CN 202210654110A CN 117274982 A CN117274982 A CN 117274982A
Authority
CN
China
Prior art keywords
gene
cancer
subtype
network
subtypes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210654110.4A
Other languages
English (en)
Inventor
黄梦
张易恒
高明浩
黄磊
龙昶周
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210654110.4A priority Critical patent/CN117274982A/zh
Publication of CN117274982A publication Critical patent/CN117274982A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,所述方法是基于单细胞测序技术,该方法包括:1)原始真实数据搜集,2)数据预处理,3)利用残差低秩网络来识别不同癌症亚型的基因特征,4)下游分析包括差异表达基因分析、基于被识别基因特征的不同亚型分类和聚类分析、不同潜在亚型的可视化、不同亚型基因特征的功能富集分析。本发明属于生物信息分析技术领域,本发明提供的基于单细胞转录组测序的癌症亚型基因特征的识别方法,可以自动识别潜在的癌症亚型及对应的不同基因特征,不同亚型的基因特征揭示了关键的生物学过程和途径,有利于理解细胞异质性和肿瘤的复杂生态系统。

Description

一种用于单细胞测序数据的癌症亚型基因特征识别方法及 系统
技术领域
本发明涉及生物信息分析技术领域,特别是涉及一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统。
背景技术
单细胞 RNA 测序 (scRNA-seq) 技术已经促进了更多的转录组研究。由于传统的bulk RNA-seq技术获取一组细胞的平均基因表达,因此在肿瘤样本中识别出的细胞亚群的信息通常是模糊的。scRNA-seq 可量化单个细胞的基因表达,这有助于分析细胞差异。对于癌症相关疾病,scRNA-seq 能够表征肿瘤内异质性,这有助于研究人员在单细胞层次了解癌症亚型、细胞群和细胞功能。此外,scRAN-seq 分析也已被用于研究免疫系统和大脑神经元机制。
基于单细胞表达数据的基因特征识别有助于从大量异质细胞中区分不同的细胞类型,这可被应用于多样化的下游表达分析。许多机器学习方法已被用于识别基因特征并确定scRNA-seq 数据中的细胞类型。例如,一些基因选择方法利用具有冗余信息的基因作为特征去分类癌症亚型。为了减少无用的基因,许多特征选择算法被用来识别精确和有效的基因特征。例如Mundra等人提出了基于T-score的基因排序方法,这个方法将基因视为独立的特征,从排名靠前的基因中选择一组特征来区分癌症亚型。Reyes 等人将Relief-F扩展到多标签学习上,这也可以被用于选择基因。Guyon 等人提出集成递归特征消除(RFE)。它是一种常用特征选择方法,可以被结合到支持向量机(SVM)中,即SVM-RFE,用于去除不重要的基因。其他方法使用基于网络的排序来识别基因作为生存指标。然而,大多数现有方法单独选择基因,而不考虑基因和癌症亚型之间的关联。许多人类疾病是异质性的,这导致了难以理解疾病机制。因此,有必要识别与潜在癌症亚型相关的可解释基因特征。
为了提高scRNA-seq 数据分析的能力,我们提出了一种新的基因选择方法,自动关联特征学习 (AAFL),它可以同时自动识别不同细胞亚群(癌症亚型)的不同基因特征。所提出的 AAFL 方法将残差网络与低秩网络相结合,低秩网络选择与相应细胞亚群最相关的基因。此外,在基因选择之前我们获取差异表达基因(DEG)以过滤冗余基因。我们再将 AAFL应用于真实的癌症scRNA-seq 数据集,以识别未知癌症亚型的基因特征。实验结果表明与广泛使用的基因选择方法相比,AAFL有更好的有效性。特别地,通过探索每个亚型的未知基因关联,每个亚型的相关基因可以被用来解释不同的亚型模式。系统的基因本体富集分析通过总结关键的生物学过程和途径证明了不同癌症亚型已识别基因特征的潜在功能。
发明内容
为解决目前本领域面临的上述问题,本发明提供了一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将残差网络与低秩网络相结合,自动选择与癌症亚型相关的基因特征,差异表达基因(DEG)被使用以过滤冗余基因,以此来识别与相应癌症亚型最相关的基因特征。
为实现上述目的,本发明提供了如下方案:
一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
S1:搜集原始真实数据集;
S2: 数据预处理;
S3:估计潜在癌症亚型的数量;
S4: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S5: 初始化低秩的数量,最大迭代次数和超参;
S6: 预测低秩网络系数和权重;
S7: 计算重构基因表达和原始基因表达之间的误差;
S8: 利用误差更新下一代的网络权重;
S9: 获得潜在亚型对应的低秩网络系数和权重;
S10: 识别各个亚型对应的不同基因特征;
S11:下游分析,包括差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
优选地,所述估计潜在癌症亚型的数量,具体包括:
为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2。为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数。根据聚类数的结果,我们将提出的的AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
优选地,所述设计残差网络,具体包括:
, 其中/>代表第k个细胞,n和m分别是细胞和基因的数量。残差网络的每一层公式为:/>其中/>表示第g层输出,/>和/>表示权重矩阵和偏差,/>表示恒等映射,G表示所有残差层的数量。每个/>都记录了一定程度的非线性。连接后,/>的第/>行包含基因/>的一组非线性。在以下部分中,/>可以表示为/>
优选地,所述设计低秩网络,具体包括:
在每一个癌症亚型中,低秩网络对应。/>表示每一个亚型c所对应的基因关联图。我们使用低秩网络来近似关联矩阵,计算如下:其中/>表示矩阵转置,表示/>-rank矩阵,/>,with />,在/>下,/>的度矩阵为/>为双曲正切函数,/>为一个矩阵的对角线函数。输出为/>,其第 j 列表示来自基因 j 的相关非线性关系。这里,可学习参数的数量(/>的大小)为/>,在/>下,/>远小于/>。根据经验,/>的默认值设置为 1。
优选地,所述设计全连接网络,具体包括:
全连接网络由一系列全连接层组成,从低秩网络的输出中取来学习每个癌症亚型相关基因之间更深层的非线性。第j层输出如下:/>其中/>是第 j-1 层的输出,/>为权重矩阵,/>为偏置向量,P为全连接网络的所有层数。我们设置/>和/>。全连接网络的最终输出是/>,/>中的第i行表示来自癌症亚型 c 中/>的相关基因的更深层次的非线性。
优选地,所述计算所述初始化低秩的数量、最大迭代次数和超参,具体包括:经验上来说,低秩的数量被设置为1,最大迭代次数为300代。对于良性细胞和恶性细胞,我们设置c为2。对于恶性黑色素瘤细胞中潜在的癌症亚型,我们根据探索结果设置c为3。
优选地,所述计算所述预测低秩网络系数和权重,具体包括:
在每一次迭代中,我们都可以获得更新的低秩网络,由此可以预测每个潜在癌症亚型对应的低秩网络系数和权重w。
优选地,所述计算重构基因表达和原始基因表达之间的误差,具体包括:
在基因重建中,我们使用来自全连接网络的输出对 />进行回归。此处,可学习的权重矩阵是/>。基因重建是通过基因点积进行的,如下所示: 平方误差被应用于实际基因/>和重建基因 />之间的误差计算。最终残差如下:/>,其中n代表细胞数,c是被识别的癌症亚型系数,C表示癌症亚型的数量,/>来自 /> 的第一个非平凡左特征向量。最后,最小残差和亚型系数 c 决定了每个细胞对应于癌症亚型的的标签。
优选地,所述计算所述利用误差更新下一代的网络权重,具体包括:
在每一次迭代中,我们根据每一次的最终残差来更新残差网络、低秩网路及全连接网络的权重。
优选地,所述计算所述获得潜在亚型对应的低秩网络系数和权重,具体包括:
根据最优的低秩网络,我们可以获得每个潜在癌症亚型对应的低秩网络系数和权重w。
优选地,所述计算所述识别各个亚型对应的不同基因特征,具体包括:
根据每个癌症亚型对应的低秩网络系数,我们可以搜集每个潜在癌症亚型所对应的最高排序的基因。在每个亚型中,最高排序的k个基因作为相应的基因特征。
优选地,所述下游分析,具体包括:
差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,包括:
数据搜集模块,用于搜集原始真实数据集;
数据预处理模块,用于过滤低质量细胞、获得差异表达基因及数据规范化;
亚型数量估计模块,用于估计潜在癌症亚型的数量;
网络构建模块,用于设计残差网络,低秩网络和全连接网络,并初始化权重;
初始化模块,用于初始化低秩的数量,最大迭代次数和超参;
系数预测模块,用于预测低秩网络系数和权重;
误差计算模块,用于计算重构基因表达和原始基因表达之间的误差;
估计值更新模块,用于利用误差更新下一代网络权重;
最优权重模块,用于获得潜在亚型对应的低秩网络系数和权重;
基因特征识别模块,用于识别各个亚型对应的不同基因特征;
下游分析模块,用于差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明以单细胞测序数据为研究对象,提供了一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将基因特征与癌症亚型相关联,残差低秩网络被应用于基因特征识别的过程中,利用细胞异质性来识别不同亚型的基因特征。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1一种用于单细胞测序数据的癌症亚型基因特征识别方法流程图。
图2为本发明实施例2一种用于单细胞测序数据的癌症亚型基因特征识别系统结构图。
图3为本发明实施例3一种用于单细胞测序数据的癌症亚型基因特征识别方法的概述框架图。
图4为使用 EDMomics 工具计算恶性黑色素瘤细胞和良性肿瘤细胞之间不同基因的密度图。 (A) WDR72 (基因) 的密度图。(B) NDUFB1 (基因) 的密度图。(C) 带有TMSB4X (基因) 的密度图。A组代表一组恶性黑色素瘤肿瘤细胞。B组代表一组良性肿瘤细胞。
图5为所提出的 AAFL与其他方法在 scRAN-seq 数据上的性能评估比较。所选基因的数量从 1 到 14 不等。(A)不同方法对分类案例的准确性。 (B) 基于聚类任务的不同方法的调整兰德指数 (ARI)。
图6探索恶性黑色素瘤细胞的癌症亚型数量。 (A) 最佳簇数(子类型)。k(x 轴)表示癌症亚型的数量。 (B) 具有 3 个可能簇(癌症亚型)的恶性细胞的可视化。
图7为在恶性黑色素瘤细胞中,每种潜在癌症亚型所对应基因特征的排序结果。
图8为在恶性黑色素肿瘤细胞中,提出的 AAFL方法识别的癌症亚型的可视化。(A) t-SNE 的结果。 (B) UMAP 的结果。
图9为在黑色素瘤细胞中,不同癌症亚型所对应的重要基因特征及其相应的功能富集分析结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统,将基因特征与癌症亚型相关联,残差低秩网络被应用于基因特征识别的过程中,利用细胞异质性来识别不同亚型的基因特征。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1:
图1为本发明实施例1一种用于单细胞测序数据的癌症亚型基因特征识别方法流程图。如图1所示,一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
步骤101:搜集原始真实数据集,具体包括:
真实数据Human melanoma tumor scRNA-seq dataset (GEO access number:GSE72056)。此数据集包含来自19个患者的4645个单细胞和23686个基因。其中,4645个单细胞由1257个恶性黑色素肿瘤细胞和3388个良性肿瘤细胞组成。
步骤102:数据预处理,具体包括:
首先,采用log-transformation方法,进行表达量规范化。其次,在少于6%的细胞中进行表达的基因(稀有基因)和在超过94% 的细胞中进行表达的基因(普遍存在的基因)被过滤,以此获得12693个基因。最后,我们使用EMDomics工具来识别差异表达基因,以此获得1170个差异表达基因。
步骤103:估计潜在癌症亚型的数量,具体包括:
为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2。为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数。根据聚类数的结果,我们将提出的的AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
步骤104:设计残差网络,低秩网络和全连接网络,并初始化权重,具体包括:
设计残差网络如下,, 其中 /> 代表第k个细胞,n和m分别是细胞和基因的数量。残差网络的每一层公式为: 其中/>表示第g层输出,/>表示权重矩阵和偏差,/>表示恒等映射,G表示所有残差层的数量。 每个/> 都记录了一定程度的非线性。 连接后,/>的第/>行包含基因/>的一组非线性。在以下部分中,可以表示为 />
设计低秩网络如下,在每一个癌症亚型中,低秩网络对应表示每一个亚型c所对应的基因关联图。我们使用低秩网络来近似关联矩阵,计算如下:/> 其中 />表示矩阵转置,/>表示 />-rank矩阵,/>,with />,在/>下,/>的度矩阵为/> ,/>为双曲正切函数, />为一个矩阵的对角线函数。 输出为 />,其第 j 列表示来自基因 j 的相关非线性关系。 这里,可学习参数的数量(/>的大小)为,在/>下,/>远小于 />。根据经验,/> 的默认值设置为 1。
设计全连接网络如下,全连接网络由一系列全连接层组成,从低秩网络的输出中取来学习每个癌症亚型相关基因之间更深层的非线性。第j层输出如下:其中 />是第 j-1 层的输出,/>为权重矩阵,/>为偏置向量,P为全连接网络的所有层数。我们设置/> 和/>。全连接网络的最终输出是 />,/>中的第 i 行表示来自癌症亚型 c 中 />的相关基因的更深层次的非线性。
步骤105:初始化低秩的数量,最大迭代次数和超参,具体包括:
经验上来说,低秩的数量被设置为1,最大迭代次数为300代。对于良性细胞和恶性细胞,我们设置c为2。对于恶性黑色素瘤细胞中潜在的癌症亚型,我们根据探索结果设置c为3。
步骤106:预测低秩网络系数和权重,具体包括:
在每一次迭代中,我们都可以获得更新的低秩网络,由此可以预测每个潜在癌症亚型对应的低秩网络系数和权重w。
步骤107:计算重构基因表达和原始基因表达之间的误差,具体包括:
在基因重建中,我们使用来自全连接网络的输出 对 /> 进行回归。此处,可学习的权重矩阵是 />。基因重建是通过基因点积进行的,如下所示: 平方误差被应用于实际基因 />和重建基因之间的误差计算。 最终残差如下:/> 其中n代表细胞数,c是被识别的癌症亚型系数,C表示癌症亚型的数量,/>来自 /> 的第一个非平凡左特征向量。 最后,最小残差和亚型系数 c 决定了每个细胞对应于癌症亚型的的标签。
步骤108:利用误差更新下一代的网络权重,具体包括:
在每一次迭代中,我们根据每一次的最终残差来更新残差网络、低秩网路及全连接网络的权重。
步骤109:获得潜在亚型对应的低秩网络系数和权重,具体包括:
根据最优的低秩网络,我们可以获得每个潜在癌症亚型对应的低秩网络系数和权重w。
步骤110:识别各个亚型对应的不同基因特征,具体包括:
根据每个癌症亚型对应的低秩网络系数,我们可以搜集每个潜在癌症亚型所对应的最高排序的基因。在每个亚型中,最高排序的k个基因作为相应的基因特征。
步骤111:下游分析,具体包括:
差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
本发明以提出了一种新的单细胞测序的癌症亚型基因特征识别方法AAFI,将基因特征与癌症亚型相关联,残差低秩网络被应用于基因特征识别的过程中,利用细胞异质性来识别不同亚型的基因特征。
本发明提出一种用于单细胞测序数据的癌症亚型基因特征识别方法的创新型主要体现在四个方面:第一,本发明利用残差网络和低秩网络来识别不同亚型的基因特征。第二,本发明采用了自动关联特征学习,能够识别每个亚型相应可解释的基因特征。第三,本发明有助于识别潜在的癌症亚型和对应的基因特征。第四,本发明所获得的生物发现可以被黑色素瘤生物学的最新知识所解释,有助于理解细胞异质性的重要意义和复杂的肿瘤生态系统。
实施例2:
图2为本发明实施例2一种用于单细胞测序数据的癌症亚型基因特征识别系统结构图。如图2所示,一种用于单细胞测序数据的癌症亚型基因特征识别系统,包括:
数据搜集模块201,用于搜集原始真实数据集;
数据预处理模块202,用于过滤低质量细胞、获得差异表达基因及数据规范化;
亚型数量估计模块203,用于估计潜在癌症亚型的数量;
网络构建模块204,用于设计残差网络,低秩网络和全连接网络,并初始化权重;
初始化模块205,用于初始化低秩的数量,最大迭代次数和超参;
系数预测模块206,用于预测低秩网络系数和权重;
误差计算模块207,用于计算重构基因表达和原始基因表达之间的误差;
估计值更新模块208,用于利用误差更新下一代网络权重;
最优权重模块209,用于获得潜在亚型对应的低秩网络系数和权重;
基因特征识别模块210,用于识别各个亚型对应的不同基因特征;
下游分析模块211,用于差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
实施例3:
图3为本发明实施例3一种用于单细胞测序数据的癌症亚型基因特征识别方法的概述框架图。如图3所示,一种用于单细胞测序数据的癌症亚型基因特征识别方法,包括:
S1:搜集原始真实数据集;
S2: 数据预处理;
S3:获得含有细胞相关信息的基因表达数据X;
S4:估计潜在癌症亚型的数量;
S5: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S6: 初始化低秩的数量,最大迭代次数和超参;
S7:将数据X输入到本发明提出的单细胞测序数据的癌症亚型基因特征识别方法AAFI中,其目标的数学描述如下:
(1)
其中,n代表细胞数,c是被识别的癌症亚型系数,C表示癌症亚型的数量,。/>来自/>的第一个非平凡左特征向量。最后,最小残差和亚型系数 c 决定了每个细胞对应于癌症亚型的的标签;
S8: 预测低秩网络系数和权重;
S9: 计算重构基因表达和原始基因表达之间的误差;
S10: 利用误差更新下一代的网络权重;
S11: 获得潜在亚型对应的低秩网络系数和权重;
S12: 识别各个亚型对应的不同基因特征;
S13: 下游分析,包括差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
实施例4:
为了验证本发明一种用于单细胞测序数据的癌症亚型基因特征方法的有效性,将本发明的方法与现有的基因特征识别方法AAFL−RF、AAFL−SVM、Chi2−RF、Chi2−SVM、RFE−RF和RFE−SVM方法进行了比较。对于不同的任务和目的,有不同的评估指标和比较方法。
图4为使用 EDMomics 工具计算恶性黑色素瘤细胞和良性肿瘤细胞之间不同基因的密度图。 (A) WDR72 (基因) 的密度图。(B) NDUFB1 (基因) 的密度图。(C) 带有TMSB4X (基因) 的密度图。A组代表一组恶性黑色素瘤肿瘤细胞。B组代表一组良性肿瘤细胞。
实验结果表明,我们选择的差异表达基因具有明显的区分性,有利于后续不同癌症亚型的基因特征的识别。
图5为所提出的 AAFL与其他方法在 scRAN-seq 数据上的性能评估比较。所选基因的数量从 1 到 14 不等。(A)不同方法对分类案例的准确性。 (B) 基于聚类任务的不同方法的调整兰德指数 (ARI)。
实验结果表明,对于不同分类和聚类任务,本发明提出的方法超过了其他方法,更能有效地识别出不同癌症亚型的基因特征。这是因为本发明的方法考虑了细胞异质性,并利用癌症亚型与基因之间的关联来自动识别出基因特征。
图6探索恶性黑色素瘤细胞的癌症亚型数量。 (A) 最佳簇数(子类型)。 k(x 轴)表示癌症亚型的数量。 (B) 具有 3 个可能簇(癌症亚型)的恶性细胞的可视化。
实验结果表明,在恶性黑色素肿瘤细胞中,为了确定可能存在的潜在癌症亚型的数量,我们使用聚类方法探索出了最佳簇数,以此作为可能最佳的癌症亚型数量。便于后续自动关联到不同癌症亚型的基因特征。
图7为在恶性黑色素瘤细胞中,每种潜在癌症亚型所对应基因特征的排序结果。
实验结果表明,我们识别出了三个亚型的不同基因特征,并分析了被识别的基因特征可以作为比较有效的黑色素瘤标志物。
图8为在恶性黑色素肿瘤细胞中,提出的 AAFL方法识别的癌症亚型的可视化。(A) t-SNE 的结果。 (B) UMAP 的结果。
实验结果表明,我们根据三个亚型的不同基因特征可视化了不同的癌症亚型细胞。可分离的癌症亚型结果表明了被识别基因特征的有效性。
图9为在黑色素瘤细胞中,不同癌症亚型所对应的重要基因特征及其相应的功能富集分析结果。
实验结果表明,我们对三个亚型的不同基因特征进行了有效的功能富集分析。这些识别出的具有不同亚型的基因特征富含生物学上与黑色素瘤相关的重要过程,包括黑色素生物合成过程和黑素体。总体而言,这些在不同癌症中鉴定的基因特征可以用来产生重要的参考来寻找新的标记,说明了生物学上的意义,有利于理解肿瘤异质性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以
上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,包括:
S1:搜集原始真实数据集;
S2: 数据预处理;
S3:估计潜在癌症亚型的数量;
S4: 设计残差网络,低秩网络和全连接网络,并初始化权重;
S5: 初始化低秩的数量,最大迭代次数和超参;
S6: 预测低秩网络系数和权重;
S7: 计算重构基因表达和原始基因表达之间的误差;
S8: 利用误差更新下一代的网络权重;
S9: 获得潜在亚型对应的低秩网络系数和权重;
S10: 识别各个亚型对应的不同基因特征;
S11: 下游分析,包括差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
2.根据权利要求1所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述进行所述原始真实数据集,具体包括:真实数据Human melanoma tumorscRNA-seq dataset (GEO access number: GSE72056),此数据集包含来自19个患者的4645个单细胞和23686个基因,其中,4645个单细胞由1257个恶性黑色素肿瘤细胞和3388个良性肿瘤细胞组成。
3.根据权利要求2所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述数据预处理,具体包括:首先,采用log-transformation方法,进行表达量规范化,其次,在少于6%的细胞中进行表达的基因(稀有基因)和在超过94% 的细胞中进行表达的基因(普遍存在的基因)被过滤,以此获得12693个基因,最后,我们使用EMDomics工具来识别差异表达基因,以此获得1170个差异表达基因。
4.根据权利要求3所述的一种用于单细胞测序数据的所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述估计潜在癌症亚型的数量,具体包括:
为了识别恶性黑色素瘤细胞和良性肿瘤细胞之间的不同基因特征,我们将潜在癌症亚型的数量 C 设置为 2,为了探索恶性黑色素瘤细胞中潜在癌症亚型的不同基因特征,我们使用 R 包 (factoextra) 来识别恶性黑色素瘤细胞的簇数,根据聚类数的结果,我们将提出的的AAFL 中恶性黑色素瘤肿瘤细胞的 C 设置为 3。
5.根据权利要求4所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述初始化低秩的数量,最大迭代次数和超参,具体包括:
经验上来说,低秩的数量被设置为1,最大迭代次数为300代,对于良性细胞和恶性细胞,我们设置c为2,对于恶性黑色素瘤细胞中潜在的癌症亚型,我们根据探索结果设置 c为3。
6.根据权利要求5所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述预测低秩网络系数和权重,具体包括:在每一次迭代中,我们都可以获得更新的低秩网络,由此可以预测每个潜在癌症亚型对应的低秩网络系数和权重w。
7.根据权利要求6所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述利用误差更新下一代的网络权重,具体包括:
在每一次迭代中,我们根据每一次的最终残差来更新残差网络、低秩网路及全连接网络的权重。
8.根据权利要求7所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述获得潜在亚型对应的低秩网络系数和权重,具体包括:
根据最优的低秩网络,我们可以获得每个潜在癌症亚型对应的低秩网络系数和权重w。
9.根据权利要求8所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述计算所述识别各个亚型对应的不同基因特征,具体包括:根据每个癌症亚型对应的低秩网络系数,我们可以搜集每个潜在癌症亚型所对应的最高排序的基因,在每个亚型中,最高排序的k个基因作为相应的基因特征。
10.根据权利要求9所述的一种用于单细胞测序数据的癌症亚型基因特征识别方法,其特征在于,所述下游分析,具体包括:
差异表达基因分析、分类和聚类分析、可视化和功能富集分析等。
CN202210654110.4A 2022-06-10 2022-06-10 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统 Pending CN117274982A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210654110.4A CN117274982A (zh) 2022-06-10 2022-06-10 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210654110.4A CN117274982A (zh) 2022-06-10 2022-06-10 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统

Publications (1)

Publication Number Publication Date
CN117274982A true CN117274982A (zh) 2023-12-22

Family

ID=89216499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210654110.4A Pending CN117274982A (zh) 2022-06-10 2022-06-10 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统

Country Status (1)

Country Link
CN (1) CN117274982A (zh)

Similar Documents

Publication Publication Date Title
US9141913B2 (en) Categorization and filtering of scientific data
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
Wang et al. LDGRNMF: LncRNA-disease associations prediction based on graph regularized non-negative matrix factorization
US8364665B2 (en) Directional expression-based scientific information knowledge management
US8275737B2 (en) System and method for scientific information knowledge management
CN112635063B (zh) 一种肺癌预后综合预测模型、构建方法及装置
Li et al. Co-mention network of R packages: Scientific impact and clustering structure
Rasheed et al. Metagenomic taxonomic classification using extreme learning machines
CN108206056B (zh) 一种鼻咽癌人工智能辅助诊疗决策终端
CN108335756B (zh) 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN116680594A (zh) 一种利用深度特征选择算法提高多组学数据的甲状腺癌的分类精度方法
Min et al. Structured Sparse Non-negative Matrix Factorization with $\ell _ {2, 0} $-Norm
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
CN116543832A (zh) 基于多尺度超图卷积的疾病-miRNA关系预测方法、模型及应用
CN114141306B (zh) 基于基因相互作用模式优化图表示的远处转移识别方法
CN113838519B (zh) 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统
WO2009039425A1 (en) Directional expression-based scientific information knowledge management
CN117274982A (zh) 一种用于单细胞测序数据的癌症亚型基因特征识别方法及系统
CN112768001A (zh) 一种基于流形学习和主曲线的单细胞轨迹推断方法
Ghai et al. Proximity measurement technique for gene expression data
Ji et al. Predicting miRNA-Disease Associations via a New MeSH Headings Representation of Diseases and eXtreme Gradient Boosting
Banu et al. Informative Gene Selection-An evolutionary approach
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination