CN116959562A - 一种识别疾病表型相关的细胞亚群的方法 - Google Patents

一种识别疾病表型相关的细胞亚群的方法 Download PDF

Info

Publication number
CN116959562A
CN116959562A CN202310852512.XA CN202310852512A CN116959562A CN 116959562 A CN116959562 A CN 116959562A CN 202310852512 A CN202310852512 A CN 202310852512A CN 116959562 A CN116959562 A CN 116959562A
Authority
CN
China
Prior art keywords
cell
disease
sample
module
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310852512.XA
Other languages
English (en)
Inventor
汪国华
刘崇辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Forestry University
Original Assignee
Northeast Forestry University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Forestry University filed Critical Northeast Forestry University
Priority to CN202310852512.XA priority Critical patent/CN116959562A/zh
Publication of CN116959562A publication Critical patent/CN116959562A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种识别疾病表型相关的细胞亚群的方法,属于生物医学领域。为识别疾病表型相关的细胞亚群,本发明收集疾病的单细胞RNA测序数据得到单细胞表达矩阵,收集疾病的bulk表达矩阵和对应的表型标签,下载人类蛋白质相互作用数据构建蛋白质相互作用网络;提取细胞和样本的基因特征签名映射到蛋白质相互作用网络中形成相应的细胞模块、样本模块;计算每个细胞模块和每个样本模块之间的距离,确定多个样本模块的集合作为疾病表型的样本模块集合;计算细胞模块与疾病表型的样本模块集合之间的距离;创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性,并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞。

Description

一种识别疾病表型相关的细胞亚群的方法
技术领域
本发明属于生物医学领域,具体涉及一种识别疾病表型相关的细胞亚群的方法。
背景技术
单细胞测序技术的出现使得生物学研究领域发生了革命性的变化。在过去十年中,随着单细胞测序技术的快速发展和单细胞数据的爆发式增长,单细胞分析在生命科学和精准医学方面得到了越来越多的关注。如今,我们已经能够获得单个细胞的基因组、转录组、表观基因组学等数据并在全基因组的水平上对细胞的DNA、RNA、组蛋白修饰、染色体可及性、DNA甲基化等方面进行进一步的研究。其中,单细胞RNA测序更是处在这些方法的前沿,其在吞吐量方面从最初的不足100个细胞,到如今一次实验的数万甚至数十万个细胞。单细胞RNA测序在处理微量RNA的技术上也有了长足的进出,提高了单细胞RNA测序在小样本上的稳定性。
单细胞数据分析的一般思路是通过标准化,特征选择,降维,聚类等方法在异质性组织中识别不同细胞亚群的细胞类型和推导细胞分化轨迹。单细胞测序能在单个细胞的水平上深入分析组织的异质性和识别影响疾病表型的重要细胞群,有利于阐明疾病致病和结果相关的机制,加深对疾病发展过程的理解。虽然现有的很多的方法能将细胞簇与表型进行关联研究,却不能将单个细胞与特定表型联系起来且目前大多数单细胞实验涉及不足20个患者样本,这缺乏统计能力来识别表型相关的细胞亚群。有研究证实,驱动疾病表型改变的往往只是一小部分关键细胞的变化,因此识别表型相关的这部分细胞亚群对于疾病的机制研究和靶向治疗具有重要意义。
发明内容
本发明要解决的问题是识别表型相关的细胞亚群,提出一种识别疾病表型相关的细胞亚群的方法。
本发明通过以下技术方案实现:
一种识别疾病表型相关的细胞亚群的方法,包括如下步骤:
一种识别疾病表型相关的细胞亚群的方法,包括如下步骤:
S1、基于Gene Expression Omnibus数据库收集疾病的单细胞RNA测序数据得到单细胞表达矩阵,基于The Cancer Genome Atlas数据库收集疾病的bulk表达矩阵和对应的表型标签,基于MINT数据库下载人类蛋白质相互作用数据构建蛋白质相互作用网络;
S2、从步骤S1得到的单细胞表达矩阵和疾病的bulk表达矩阵提取细胞和样本的基因特征签名,并将细胞和样本的基因特征签名映射到蛋白质相互作用网络中形成相应的细胞模块、样本模块;
S3、基于蛋白质相互作用网络中的最短路径长度,计算步骤S2映射到蛋白质相互作用网络中的每个细胞模块和每个样本模块之间的距离,基于表型标签确定多个样本模块的集合作为疾病表型的样本模块集合;
S4、基于步骤S3得到的疾病表型的样本模块集合,计算细胞模块与疾病表型的样本模块集合之间的距离;
S5、创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性,并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞。
进一步的,步骤S1中所述单细胞表达矩阵和疾病的bulk表达矩阵经过TPM/FPKM归一化处理,并且基因作为矩阵的行,细胞或样本作为矩阵的列。
进一步的,步骤S2中所述细胞和样本的基因特征签名由具有最高相对丰度的前150个基因组成。
进一步的,步骤S3中所述每个细胞模块与每个样本模块之间的距离的计算表达式为:
其中,S为样本模块的蛋白质集合,C为细胞模块的蛋白质集合,d(S,C)为细胞模块和样本模块之间的路径长度,d(s,c)为网络中节点s和节点c之间的最短路径,s为样本模块中的网络节点,c为细胞模块中的网络节点;
所述最短路径长度通过在网络中计算节点之间的最短路径来确定。
进一步的,步骤S4中所述细胞模块与疾病表型的样本模块集合之间的距离的计算公式为:
其中,P为疾病表型相关的样本模块集合,d(P,C)为细胞模块与疾病表型模块集合之间的距离。
进一步的,步骤S5中背景距离分布是通过在网络中随机选择与原始细胞模块大小相匹配的蛋白质集进行创建。
进一步的,步骤S5中统计显著性是通过计算背景距离分布中低于实际距离的随机距离数量,除以总随机细胞模块数量,来确定实际距离的经验P值。
进一步的,样本的疾病表型标签应与疾病的bulk表达矩阵的二进制分组相匹配。
本发明的有益效果:
本发明所述的一种识别疾病表型相关的细胞亚群的方法,基于网络邻近度的识别方法,能够显著的识别驱动疾病表型改变的细胞亚群,有利于疾病致病机制的研究和靶向特异细胞群的细胞治疗。本发明整合了生物学分子遗传信息和生物学网络拓扑信息,具有更加综合无偏的预测能力。本研究无需对单细胞数据进行无监督聚类,避免了因为人为设定聚类簇数目造成的结果不准确问题。
附图说明
图1为本发明所述的一种识别疾病表型相关的细胞亚群的方法的流程图;
图2为本发明所述的一种识别疾病表型相关的细胞亚群的方法的头颈鳞状细胞癌单细胞RNA测序数据的无监督聚类图;
图3为本发明所述的一种识别疾病表型相关的细胞亚群的方法识别出的与头颈鳞状细胞癌相关的细胞亚群;
图4为本发明所述的一种识别疾病表型相关的细胞亚群的方法识别出的细胞亚群的细胞类型占比;
图5为本发明所述的一种识别疾病表型相关的细胞亚群的方法预测结果的ROC曲线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施方式,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明,即所描述的具体实施方式仅仅是本发明一部分实施方式,而不是全部的具体实施方式。通常在此处附图中描述和展示的本发明具体实施方式的组件可以以各种不同的配置来布置和设计,本发明还可以具有其他实施方式。
因此,以下对在附图中提供的本发明的具体实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定具体实施方式。基于本发明的具体实施方式,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他具体实施方式,都属于本发明保护的范围。
为能进一步了解本发明的发明内容、特点及功效,兹例举以下具体实施方式,并配合附图1-附图5详细说明如下:
具体实施方式一:
一种识别疾病表型相关的细胞亚群的方法,包括如下步骤:
S1、基于Gene Expression Omnibus数据库收集疾病的单细胞RNA测序数据得到单细胞表达矩阵,基于The Cancer Genome Atlas数据库收集疾病的bulk表达矩阵和对应的表型标签,基于MINT数据库下载人类蛋白质相互作用数据构建蛋白质相互作用网络;
进一步的,步骤S1中所述单细胞表达矩阵和疾病的bulk表达矩阵经过TPM/FPKM归一化处理,并且基因作为矩阵的行,细胞或样本作为矩阵的列;
S2、从步骤S1得到的单细胞表达矩阵和疾病的bulk表达矩阵提取细胞和样本的基因特征签名,并将细胞和样本的基因特征签名映射到蛋白质相互作用网络中形成相应的细胞模块、样本模块;
进一步的,步骤S2中所述细胞和样本的基因特征签名由具有最高相对丰度的前150个基因组成;
S3、基于蛋白质相互作用网络中的最短路径长度,计算步骤S2映射到蛋白质相互作用网络中的每个细胞模块和每个样本模块之间的距离,基于表型标签确定多个样本模块的集合作为疾病表型的样本模块集合;
进一步的,步骤S3中所述每个细胞模块与每个样本模块之间的距离的计算表达式为:
其中,S为样本模块的蛋白质集合,C为细胞模块的蛋白质集合,d(S,C)为细胞模块和样本模块之间的路径长度,d(s,c)为网络中节点s和节点c之间的最短路径,s为样本模块中的网络节点,c为细胞模块中的网络节点;
所述最短路径长度通过在网络中计算节点之间的最短路径来确定;
S4、基于步骤S3得到的疾病表型的样本模块集合,计算细胞模块与疾病表型的样本模块集合之间的距离;
进一步的,步骤S4中所述细胞模块与疾病表型的样本模块集合之间的距离的计算公式为:
其中,P为疾病表型相关的样本模块集合,d(P,C)为细胞模块与疾病表型模块集合之间的距离;
S5、创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性,并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞;
进一步的,步骤S5中背景距离分布是通过在网络中随机选择与原始细胞模块大小相匹配的蛋白质集进行创建。
进一步的,步骤S5中统计显著性是通过计算背景距离分布中低于实际距离的随机距离数量,除以总随机细胞模块数量,来确定实际距离的经验P值。
进一步的,样本的疾病表型标签应与疾病的bulk表达矩阵的二进制分组相匹配。
进一步的,从Gene Expression Omnibus(GEO:accession number:GSE103322)数据库下载的头颈鳞状细胞癌单细胞RNA测序数据集。该单细胞RNA测序数据是来自18例口腔肿瘤患者,去除掉淋巴结来源的和细胞类型无法识别的细胞,剩余4244个细胞,如图2所示。使用GDCRNATools R包下载TCGA-HNSC的bulk表达数据和与bulk数据集相匹配的二进制表型标签。每个基因的reads计数进一步转化为转录本/百万量化(TPM)。从MINT数据库下载了69,567个经过实验证实的人类蛋白质相互作用数据作为真实案例数据;
进一步的,本实施方式方法识别出了46个与头颈鳞状细胞癌表型相关的细胞,如图3所示,其中97.8%是恶性细胞,其余的是成纤维细胞,如图4所示。ROC分析显示,该方法获得的AUC值为0.86,表明其在识别头颈鳞状细胞癌相关细胞方面具有较高的敏感性和特异性,如图5所示。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然在上文中已经参考具体实施方式对本申请进行了描述,然而在不脱离本申请的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本申请所披露的具体实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本申请并不局限于文中公开的特定具体实施方式,而是包括落入权利要求的范围内的所有技术方案。

Claims (8)

1.一种识别疾病表型相关的细胞亚群的方法,其特征在于,包括如下步骤:
S1、基于GeneExpressionOmnibus数据库收集疾病的单细胞RNA测序数据得到单细胞表达矩阵,基于TheCancerGenomeAtlas数据库收集疾病的bulk表达矩阵和对应的表型标签,基于MINT数据库下载人类蛋白质相互作用数据构建蛋白质相互作用网络;
S2、从步骤S1得到的单细胞表达矩阵和疾病的bulk表达矩阵提取细胞和样本的基因特征签名,并将细胞和样本的基因特征签名映射到蛋白质相互作用网络中形成相应的细胞模块、样本模块;
S3、基于蛋白质相互作用网络中的最短路径长度,计算步骤S2映射到蛋白质相互作用网络中的每个细胞模块和每个样本模块之间的距离,基于表型标签确定多个样本模块的集合作为疾病表型的样本模块集合;
S4、基于步骤S3得到的疾病表型的样本模块集合,计算细胞模块与疾病表型的样本模块集合之间的距离;
S5、创建背景距离分布评估细胞模块与疾病表型的样本模块集合间距离的统计显著性,并确定与疾病表型的样本模块集合距离显著小于背景距离分布的细胞。
2.根据权利要求1所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,步骤S1中所述单细胞表达矩阵和疾病的bulk表达矩阵经过TPM/FPKM归一化处理,并且基因作为矩阵的行,细胞或样本作为矩阵的列。
3.根据权利要求2所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,步骤S2中所述细胞和样本的基因特征签名由具有最高相对丰度的前150个基因组成。
4.根据权利要求3所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,步骤S3中所述每个细胞模块与每个样本模块之间的距离的计算表达式为:
其中,S为样本模块的蛋白质集合,C为细胞模块的蛋白质集合,d(S,C)为细胞模块和样本模块之间的路径长度,d(s,c)为网络中节点s和节点c之间的最短路径,s为样本模块中的网络节点,c为细胞模块中的网络节点;
所述最短路径长度通过在网络中计算节点之间的最短路径来确定。
5.根据权利要求4所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,步骤S4中所述细胞模块与疾病表型的样本模块集合之间的距离的计算公式为:
其中,P为疾病表型相关的样本模块集合,d(P,C)为细胞模块与疾病表型模块集合之间的距离。
6.根据权利要求5所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,步骤S5中背景距离分布是通过在网络中随机选择与原始细胞模块大小相匹配的蛋白质集进行创建。
7.根据权利要求6所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,步骤S5中统计显著性是通过计算背景距离分布中低于实际距离的随机距离数量,除以总随机细胞模块数量,来确定实际距离的经验P值。
8.根据权利要求7所述的一种识别疾病表型相关的细胞亚群的方法,其特征在于,样本的疾病表型标签应与疾病的bulk表达矩阵的二进制分组相匹配。
CN202310852512.XA 2023-07-12 2023-07-12 一种识别疾病表型相关的细胞亚群的方法 Pending CN116959562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310852512.XA CN116959562A (zh) 2023-07-12 2023-07-12 一种识别疾病表型相关的细胞亚群的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310852512.XA CN116959562A (zh) 2023-07-12 2023-07-12 一种识别疾病表型相关的细胞亚群的方法

Publications (1)

Publication Number Publication Date
CN116959562A true CN116959562A (zh) 2023-10-27

Family

ID=88461283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310852512.XA Pending CN116959562A (zh) 2023-07-12 2023-07-12 一种识别疾病表型相关的细胞亚群的方法

Country Status (1)

Country Link
CN (1) CN116959562A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992858A (zh) * 2024-04-03 2024-05-07 中山大学 一种免疫细胞亚群识别方法、系统、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992858A (zh) * 2024-04-03 2024-05-07 中山大学 一种免疫细胞亚群识别方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Causton et al. Microarray gene expression data analysis: a beginner's guide
US20210381056A1 (en) Systems and methods for joint interactive visualization of gene expression and dna chromatin accessibility
CN111913999B (zh) 基于多组学与临床数据的统计分析方法、系统和存储介质
Yang et al. MetaCluster: unsupervised binning of environmental genomic fragments and taxonomic annotation
CN116959562A (zh) 一种识别疾病表型相关的细胞亚群的方法
CN114708910B (zh) 一种利用单细胞测序数据计算池测序中细胞亚群富集分数的方法
CN113470743A (zh) 一种基于bd单细胞转录组和蛋白组测序数据的差异基因分析方法
Kumar et al. An amalgam method efficient for finding of cancer gene using CSC from micro array data
Videm et al. BlockClust: efficient clustering and classification of non-coding RNAs from short read RNA-seq profiles
US20140058682A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
US20140019062A1 (en) Nucleic Acid Information Processing Device and Processing Method Thereof
US20020169560A1 (en) Analysis mechanism for genetic data
KR20200102182A (ko) 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치
German et al. Microarray classification from several two-gene expression comparisons
US20160378914A1 (en) Method of and apparatus for identifying phenotype-specific gene network using gene expression data
KR20190069929A (ko) 분석 서버에서 miRNA 데이터를 분석하는 방법
Babichev et al. Filtration of DNA nucleotide gene expression profiles in the systems of biological objects clustering
KR102405732B1 (ko) 세포 클러스터링 방법 및 장치
CN116864001B (zh) 基于ai的动物模型rna表达量化分析系统及方法
Mukhopadhyay et al. Identifying potential gene markers using SVM classifier ensemble
McLoughlin Scaling the Shared Identified Differential Expression (SIDEseq) Measure for Massive Scale Single Cell RNA Sequencing Data and Exploring Extension of the Measure to Chromatin Accessibility Co-Assays
Wang et al. Mining raw gene expression microarray data for analyzing synchronous and metachronous liver metastatic lesions from colorectal cancer
KR20190069922A (ko) 분산 처리에 기반한 miRNA 분석 시스템
Sundarrajan et al. 5 Big Data and
JP5952480B2 (ja) 核酸情報処理装置およびその処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination