CN111312334A - 一种影响细胞间通讯的受体-配体系统分析方法 - Google Patents

一种影响细胞间通讯的受体-配体系统分析方法 Download PDF

Info

Publication number
CN111312334A
CN111312334A CN202010157450.7A CN202010157450A CN111312334A CN 111312334 A CN111312334 A CN 111312334A CN 202010157450 A CN202010157450 A CN 202010157450A CN 111312334 A CN111312334 A CN 111312334A
Authority
CN
China
Prior art keywords
cell
receptor
ligand
relationship
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010157450.7A
Other languages
English (en)
Other versions
CN111312334B (zh
Inventor
桑运霞
左冰云
宋青芳
吴崇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuanzi Biotechnology Co ltd
Original Assignee
Shanghai Yuanzi Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuanzi Biotechnology Co ltd filed Critical Shanghai Yuanzi Biotechnology Co ltd
Priority to CN202010157450.7A priority Critical patent/CN111312334B/zh
Publication of CN111312334A publication Critical patent/CN111312334A/zh
Application granted granted Critical
Publication of CN111312334B publication Critical patent/CN111312334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学,特别是涉及一种影响细胞间通讯的受体‑配体系统分析方法。本发明提供一种分析方法,包括:根据所提供的基因表达定量数据,对细胞进行一次聚类分析;将所提供的细胞群进行差异基因表达分析;筛选所提供的差异基因;根据所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;和/或,根据所提供的差异基因和所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。本发明所提供的分析方法基于单细胞测序而不是传统RNA‑seq,能够在单细胞分辨率下深入了解转录组,可以对肿瘤内异质性有更深入的了解,并可以结合外部的公共数据集,进一步构建预后风险模型。

Description

一种影响细胞间通讯的受体-配体系统分析方法
技术领域
本发明涉及生物信息学,特别是涉及一种影响细胞间通讯的受体-配体系统分析方法,所 述分析方法基于单细胞测序。
背景技术
肿瘤微环境由多种细胞组成,包括恶性细胞、基质细胞和免疫细胞,而每个细胞类型的 异质性(如肿瘤细胞的不同克隆或免疫细胞的各种亚群)进一步增加了肿瘤细胞复杂性,这 些不同的细胞类型都通过配体-受体相互作用进行相互通讯。此外,这些不同类型的细胞之间 的交流与肿瘤发生、发展的机制、抗药性、免疫浸润和炎症有关,鉴于配体-受体相互作用对 患者预后的重要性,靶细胞-细胞相互作用的治疗方法已成为临床实践中的有用工具,尽管这 些疗法在几种肿瘤类型中取得了明显的成功,但其疗效有限,这种有限的应答率很可能是因 为肿瘤微环境中存在着复杂的细胞-细胞相互作用网络,我们对此的了解还不完全。为了更好 地发现可被靶向的相互作用,需要更全面地了解肿瘤微环境中发生的细胞-细胞相互作用以及 这些相互作用如何发挥作用机制。
单细胞rna测序(scrna-seq)方法已经广泛被用于计算肿瘤相关细胞类型的丰度,同时利 用单细胞测序我们也能预知细胞即时的功能状态,这种测序手段对于分析细胞组成的异质性 也具有重要意义。然而,除了描述肿瘤的细胞组成外,了解不同的细胞间如何相互作用,从 而导致肿瘤的突发行为是至关重要的。虽然已有研究表明细胞间可以通过受体-配体的结合实 现通讯,但是大部分的研究都是基于功能性实验来进行,这些实验费时且每次仅限于单一的 交互作用。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种影响细胞间通讯的受体-配体 系统分析方法,所述分析方法基于单细胞测序,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种影响细胞间通讯的受体-配体系 统分析方法,其特征在于,所述分析方法包括:
S1:提供多个单细胞的基因表达定量数据;
S2:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细 胞群和肿瘤细胞群;
S3:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基 因;
S4:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
S5:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供 配体和受体的关系对所对应的细胞群间通讯关系。
本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处 理器执行时实现上述的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明另一方面提供一种设备,包括:处理器和存储器,所述存储器用于存储计算机程 序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行上述的影响细胞 间通讯的受体-配体系统分析方法的步骤。
本发明另一方面提供一种装置,所述装置可以包括:
数据提供模块,用于提供多个单细胞的基因表达定量数据;
一次聚类分析模块,用于根据数据提供模块所提供的基因表达定量数据,对细胞进行一 次聚类分析,以提供正常细胞群和肿瘤细胞群;
第一分析模块,用于将一次聚类分析模块所提供的细胞群进行差异基因表达分析,以提 供各个细胞群之间的差异基因;
第二分析模块,用于筛选第一分析模块所提供的差异基因,以提供差异基因中所涉及的 配体和受体的关系对;
第三分析模块,用于根据第二分析模块所提供的配体和受体的关系对,以提供富集的通 路和/或生物学过程;
和/或,用于根据第一分析模块所提供的差异基因和第二分析模块所提供的配体和受体的 关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系;
可选的,还可以包括:
模型构建模块,用于根据第三分析模块所提供的细胞群间通讯关系和第二分析模块所提 供的配体和受体的关系对,构建预后风险模型。
附图说明
图1显示为本发明影响细胞间通讯的受体-配体系统分析方法流程示意图。
图2显示为本发明红细胞UMI占比的分布和关系图示意图。
图3显示为本发明基因数量与UMI数相关性示意图。
图4显示为本发明聚类分析结果示意图。
图5显示为本发明配体和受体的关系对分析结果示意图。
图6显示为本发明生物学过程和通路富集示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露 的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加 以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精 神下进行各种修饰或改变。
请参阅图1。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本 构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸 绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也 可能更为复杂。
本发明第一方面提供一种影响细胞间通讯的受体-配体系统分析方法,所述分析方法包 括:
S1:提供多个单细胞的基因表达定量数据;
S2:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细 胞群和肿瘤细胞群;
S3:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基 因;
S4:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
S5:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供 配体和受体的关系对所对应的细胞群间通讯关系。本发明所提供的影响细胞间通讯的受体- 配体系统分析方法,可以通过使用单细胞测序数据来分析受体-配体的结合,同时将这些特征 与感兴趣的生物学结果和临床生存信息联系起来,从而有效预测细胞与细胞间的相互通讯并 合理解释这些相互交流发挥作用的机制。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法可以包括:提供多个单细胞的 基因表达定量数据。所述基因表达定量数据具体是各个单细胞中的基因表达量。获取并提供 基因表达定量数据的方法对于本领域技术人员来说应该是已知的,例如,所述步骤S1中,可 以根据单细胞测序下机数据获取多个单细胞的基因表达定量数据,再例如,此处的多个单细 胞通常可以包括多类细胞,多个单细胞的数量具体可以是数百、数千、数万或更多的数量, 例如,可以是500~1000、1000~2000、2000~4000、4000~6000、6000~10000、10000~20000、 20000~40000、或更多的数量。具体来说,可以将测序reads与参考基因组进行比对,对比对 上的基因reads数进行定量。通常来说,原始的单细胞测序下机数据通常需要进行质控,以获 得高质量的测序reads,并进一步将测序reads与参考基因组进行比对。合适的质量控制方法、 以及合适的将测序reads与参考基因组进行比对的方法对于本领域技术人员来说应该是已知 的,例如,可以采用Cell Ranger等分析方法对原始的单细胞测序下机数据通常需要进行质控, 质控过程中可以包括对细胞的分子标签cellbarcode、RNA reads数及质量和UMI进行分析 统计以确定数据是否合格,再例如,可以采用Cell Ranger中的STAR等方法对Reads2序列 进行基因组比对,以提供各个单细胞中的基因表达量。在获得的各个单细胞中的基因表达量 的数据后,还可以进一步进行过滤和/或筛选,从而可以提供所需的基因在各个单细胞中的表 达定量数据。在过滤和/或筛选过程中,可以去除一些不需要的细胞数据(例如,基因数量过 少的细胞数据),还可以去除一些不需要的基因数据(例如,表达量过低的基因数据)。例 如,可以使用Cell Ranger等软件进行过滤和/或筛选。在过滤和/或筛选之后,可以对数据进 行标准化和/或归一化处理,以提供多个单细胞的基因表达定量数据。例如,可以使用R包 Seruat等进行数据标准化和/或归一化处理。
在本发明一具体实施例中,所述步骤S1的具体步骤可以包括:基于单细胞测序的原始下 机reads数据,分别将原始数据截取成Read1和Read2两部分用于后续分析,其中Read1为 28bp,包括16bp的Barcode序列和12bp的UMI(unique molecular identifer),Read2为96 bp的RNA序列部分。之后采用Cell Ranger分析流程,对原始数据进行质量评估,质量评 估的具体规则如下:有效的Barcodes比例、Qphred数值大于30的碱基占总体碱基的百分比、 Barcode序列大于Q30比例、RNA序列大于Q30比例以及UMI序列大于Q30比例分别达到 90%以上,若测序数据符合这些标准,则认为是质量评估合格的数据,并使用CellRanger中 的STAR方法,采用软件的默认参数对Reads2序列进行基因组比对。之后基于Read2比对 结果,对UMI数据进行校正,去除PCR重复,UMI的校正标准如下:(1)UMI为非同聚物,如AAAAAAAAAA;(2)UMI为非N;(3)UMI的每个碱基质量值大于10;(4) 同一细胞有一个碱基不匹配的UMI可校正到reads支持多的UMI上。接着对每个cell barcode的不同基因进行UMI统计分析,得到有效细胞数量,根据识别到的细胞信息,对不 同细胞基因表达值进行定量统计,得到Cell Ranger生成的基因表达矩阵之后,根据基因检出 数,线粒体UMI占比等指标对细胞进行再次过滤,去除异常值,以保证后续分析结果的可靠 性和准确性。每个样本细胞的基因检出数,UMI数目,线粒体UMI占比,红细胞UMI占比 的分布和关系图如图2所示,图中每一个黑点为一个细胞,横坐标为样本名,纵坐标分别为 基因数量,UMI数量和线粒体基因的百分比,红细胞UMI占比。UMI映射(mapping)到 MT-genes(线粒体)基因的百分比(%)是一个常见的scRNA-seq QC度量标准。通常情况 下,随着测序数据量的增加,检测到的基因数量和UMI数量也随之增加,存在一定相关性。 如果出现基因数和UMI关系明显离群的细胞,可能是潜在的多重细胞,需要去除。基因数量 与UMI数相关性图如图3所示。基于过滤之后得到的细胞-基因表达矩阵,采用现有主流分 析软件包Seruat进行数据标准化和归一化处理,具体地,使用全局缩放归一化方法 "LogNormalize",这使每个细胞的基因表达量通过总表达量(total expression)标准化,将其乘以一 个比例因子(a scalefactor)(默认为10,000),再对结果进行log-transform,最终得到基因在各个 细胞的标准化表达定量结果矩阵。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S1所 提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群。如 上所述,参与分析的多个单细胞通常可以包括多类细胞,如果想要对细胞间的联系进行分析, 则需要对细胞进行聚类分析。例如,所述多个单细胞可以包括正常细胞和肿瘤细胞,肿瘤与 周围的基质细胞和细胞外基质共同构成了肿瘤微环境,它们在肿瘤发生的每一步中都起着至 关重要的作用,通常由多种类型细胞构成,通过一次聚类分析,则可以提供正常细胞群和肿 瘤细胞群。现有技术中存在的聚类方法有很多,例如常见的线性降维PCA、PCoA,但这些算 法常常难以有效的区分不同的样品特征,而且忠实于相互距离的线性算法往往难以获得满意 的排序结果。而本申请中,可以通过t-SNE方法对细胞进行一次聚类分析,以提供正常细胞 群和肿瘤细胞群,所述t-SNE方法是一种用于探索高维数据的非线性降维机器学习算法,它 将多维数据映射到适合于人类观察的两个或多个维度,是基于在邻域图上随机游走的概率分 布来找到数据内的结构,目标是在高维空间中将具有相似局部邻域的细胞放在一起,放在低 维空间中,从而可以准确地对正常细胞群和肿瘤细胞群进行聚类。
所述步骤S2还可以包括:对正常细胞群进行二次聚类分析,以提供多个正常细胞亚群, 优选的,通过细胞的标记基因对正常细胞群进行二次聚类分析。由于肿瘤细胞的异质性更强, 因此聚类结果中,肿瘤细胞群通常是由病人个体细胞组成的,而正常细胞群通常会有多个病 人的细胞混杂到一起,因此进一步基于已知的表征各个细胞类型的标记基因(这些标记基因 通常是来源于已发表的文献),可以对正常细胞群进一步进行二次聚类分析,识别出构成健 康细胞的特定细胞簇,这样即可得到肿瘤细胞群以及正常细胞亚群(例如,正常细胞的各个 亚型簇)。不同的正常细胞亚群通常由不同的个体提供,或者隶属于同一个体的不同器官、 部位等,正常细胞因为异质性不强,所以不同病人或器官的细胞会聚到一起,所以要进行二 次聚类,将正常细胞群进行亚群分析。
在本发明一具体实施例中,对来自10个胶质瘤病人的6341个胶质瘤细胞使用t-SNE算 法进行降维聚类,首先选取在6341个细胞间高变异的top 1%基因,利用R包Seurat,基于 t-SNE算法进行降维,并在二维空间进行展示,具体结果如图4所示。其次由于肿瘤细胞的 异质性更强,因此聚类结果中,每个病人的肿瘤细胞群通常会被聚到一起,如图中的cluster1-10 所示,而正常细胞群通常会有多个病人的细胞混杂到一起,如cluster11-13所述,因此进一步 基于已知的表征各个细胞类型的标记基因,这里使用神经元(例如,NPY、SST、CCK、GAD1 等)、少突胶质细胞(例如,PLP1、MBP、OPALIN、MOG、MOBP等)、小胶质细胞/巨噬细胞(例如,CD83、CCL3、CX3CR1、TNF等)和内皮细胞(例如,CLDN5、ELTD1、 ICAM2等)等的标记基因,对正常细胞群进一步进行二次聚类分析,并对健康的细胞亚群进 行注释,得到不同的正常细胞亚群。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:将步骤S2所提 供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因。不同的细胞群间表 达存在差异的基因是导致细胞群形成的关键基因,筛选出在某个细胞群和其余细胞群之间存 在差异表达的基因。本领域技术人员可选择合适的方法获得各个细胞群之间(例如,在某个 细胞群或某个细胞亚群、与其它细胞群或其它细胞亚群之间)的差异基因。例如,可以通过 R包Limma将步骤S2所提供的细胞群(例如,各细胞群和/或细胞亚群)进行差异基因表达 分析,筛选出各个细胞群之间存在差异表达的基因。在分析过程中,可以设定合适的阈值, 以提供所需的各个细胞群之间的差异倍数大于设定阈值的差异基因,例如,所设定的阈值可 以是差异倍数大于2倍,所述差异倍数可以利用R包Limma计算获得,具体指某一个基因在 某一个细胞群的表达平均值除以在其它细胞群的倍数。
在本发明一具体实施例中,可以对巨噬细胞和肿瘤类干细胞进行差异基因表达分析。如 上所述,巨噬细胞和肿瘤类干细胞的聚类可以通过标记基因进行,根据这些基因在不同细胞 中的表达情况,挑选对应表达量(例如,高表达)的细胞作为对应的细胞群。进一步的,可 以通过R包LIMMA对巨噬细胞和肿瘤类干细胞进行差异分析,得到每个基因的差异倍数, 设定阈值大于2倍的基因作为差异基因。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:筛选步骤S3所 提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对。配体及其受体的表达水 平可以反映细胞间通讯的水平,配体-受体进行共表达分析是细胞进行通讯的分子基础。对于 配体和受体的关系对的分析,通常需要基于配体-受体相互作用关系网络,这对于本领域技术 人员来说应该是已知的,例如,可以基于CellPhoneDB(https://www.cellphonedb.org/) Ramilowski等人于2015年在Nature communication上发表的Adraft network of ligand-receptor-mediated multicellular signalling in human描述的一组配体和受体等数据库。通 过已知的配体-受体相互作用关系网络,可以从步骤S3所提供的差异基因中筛选出差异表达 中所包括的配体和受体的关系对。步骤S4中所提供的配体和受体的关系对中,配体和受体通 常要求处于不同的细胞群中(例如,配体隶属于某个细胞群或细胞亚群,而受体则需要隶属 于另一个细胞群或细胞亚群)。在分析过程中,可以设定合适的阈值,以提供所需的配体和 受体的关系对,例如,可以计算配体和受体的关系对之间的相关系数,以提供相关系数大于 设定阈值的关系对,所述相关系数优选为Spearman相关系数,再例如,所设定的阈值可以为 0.4~0.9、0.4~0.5、0.5~0.6、0.6~0.7、0.7~0.8、或0.8~0.9。通常来说,细胞越多则相关系数总 体来说相对较小,为了后续分析就要适当降低相关系数。相关系数通常越高越好,最大为1, 但是通常来说相关系数是不可能达到1的,因为两个基因的表达数据一般不会完全一样。
在本发明一具体实施例中,可以导入外部数据库,该数据库为已发表的配体-受体相互作 用关系网络,包括696个配体和653个同源受体(2419对配体-受体关系对)(来自Ramilowski 等人于2015年在Nature communication上发表的A draft network ofligand-receptor-mediated multicellular signalling in human描述的一组配体和受体),并从中筛选出在巨噬细胞和肿瘤类 干细胞间差异表达的配体和受体,使用R语言的“cor”函数,计算配体-受体之间的Spearman 相关系数,以0.4为阈值,筛选出相关系数绝对值大于0.4的关系,从而提供差异基因中所涉 及的配体和受体的关系对,具体的关系图如图5所示。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S4所 提供的配体和受体的关系对,以提供富集的通路和/或生物学过程。通过对配体和受体的关系 对之间通路和/或生物学过程的分析,可以用于进一步阐明关键的受体-配体是如何导致细胞间 进行通讯,从而解释特定的细胞群之间交流的功能机制。本领域技术人员可选择合适的方法, 针对配体和受体的关系对进行分析以提供富集的通路和/或生物学过程,例如,可以利用R包 clusterProfiler,再例如,可以通过GO BP(http://geneontology.org/)和KEGG pathway (https://www.kegg.jp/)等数据库进行富集分析,数据库的加载可以通过合适的软件进行,例 如,可以使用clusterProfiler等软件。在分析过程中,可以选择合适的阈值,以提供大于阈值 的富集的通路和/或生物学过程,例如,具体可以选择的阈值种类可以是p.value、富集的基因 个数等各种可以调整的通路或生物学过程参数,再例如,所设定的阈值可以是p.value<0.05, 再例如,所设定的阈值可以是富集的基因个数≥2。
在本发明一具体实施例中,可以利用R包“clusterProfiler”,将巨噬细胞和肿瘤类干细 胞间存在共表达的配体和受体转化成可识别的基因ID,之后分别对其进行GO BP和KEGG pathway富集分析,设定阈值为p.value<0.05,找到这些配体、受体共同富集到的生物学过程 和通路,具体结果如图6所示,从而可以为细胞间的交流提供功能层面的依据。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S3所 提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供配体和受体的关系对所对应 的细胞群间通讯关系。通过结合各个细胞群之间的差异基因和差异基因中所涉及的配体和受 体的关系对,可以获知究竟是哪两个细胞群间进行相互交流。由于差异基因已经是相对的高 表达基因,所以可以当差异基因在的某个细胞群(例如,某个正常细胞群、肿瘤细胞群、或 正常细胞亚群)时,可以以该差异基因作为该细胞群的标记基因,这样通过将受体配体共表 达关系对中的基因分别分配到不同的细胞群中,从而可以从分子水平的交流信息获取细胞水 平之间的交流信息。
在本发明一具体实施例中,主要预测了巨噬细胞和肿瘤类干细胞之间的通讯,首先根据 得到的配体-受体共表达关系对,结合差异分析结果,以基因在某个细胞群高表达作为该细胞 群的标记基因,得到巨噬细胞和肿瘤类干细胞相应的配体或受体标记基因,结果表明,配体 在类干细胞中高表达,而受体在巨噬细胞中高表达,从而确定细胞通讯方向为配体高表达的 类干细胞群可能通过募集受体高表达的巨噬细胞群实现相互通讯。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S5所 提供的细胞群间通讯关系和步骤S4所提供的配体和受体的关系对构建模型,所述模型优选为 预后风险模型。通过步骤S5所提供的细胞群间通讯关系和步骤S4所提供的配体和受体的关 系对,可以选择感兴趣的基因用于构建预后风险模型,例如,可以构建各个样本的Risk score (风险评分)与基因表达之间的模型等。模型本身的具体构建方法对于本领域技术人员来说 应该是已知的,例如,可以选择合适的数据库进行模型构建,具体可以是例如TCGA外部数 据集等;再例如,可以选择一定比例的样本进行训练,具体可以是70%-80%、70%-75%、或 75%-80%的样本进行训练,以构建模型;再例如,可以选择一定比例的样本进行验证,具体 可以是构建模型剩余的样本进行模型验证,模型验证时可以使用ROC曲线等方法。
在本发明一具体实施例中,可以利用TCGA-GBM的外部数据集的基因表达谱及临床生 存信息,随机选取70%样本为测试集,使用机器学习算法XGBoost,对巨噬细胞和肿瘤类干 细胞之间交流的配体-受体进行预后模型构建,模型公式如下:
Figure BDA0002404591120000091
其中,RS表示风险评分(Risk score),n表示模型中基因个数,Coef(i)表示第i个基因 的回归系数,X(i)表示第i个基因的表达值。这样,每个样本都会的得到一个Riskscore值, 接着按照中位数将样本分成高表达组和低表达组,绘制K-M生存曲线,同时采用logrank检 验计算显著性,判断高低风险组的生存率存在显著差异。另外利用剩余30%的样本进行模型 的验证,通过绘制ROC曲线评估模型的精确性。
本发明第二方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处 理器执行时实现本发明第一方面所提供的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明第三方面提供一种设备,包括:处理器和存储器,所述存储器用于存储计算机程 序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行本发明第一方面 所提供的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明第四方面提供一种装置,所述装置可以包括:
数据提供模块,用于提供多个单细胞的基因表达定量数据;
一次聚类分析模块,用于根据数据提供模块所提供的基因表达定量数据,对细胞进行一 次聚类分析,以提供正常细胞群和肿瘤细胞群;
第一分析模块,用于将一次聚类分析模块所提供的细胞群进行差异基因表达分析,以提 供各个细胞群之间的差异基因;
第二分析模块,用于筛选第一分析模块所提供的差异基因,以提供差异基因中所涉及的 配体和受体的关系对;
第三分析模块,用于根据第二分析模块所提供的配体和受体的关系对,以提供富集的通 路和/或生物学过程;
和/或,用于根据第一分析模块所提供的差异基因和第二分析模块所提供的配体和受体的 关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系;
可选的,还可以包括:
模型构建模块,用于根据第三分析模块所提供的细胞群间通讯关系和第二分析模块所提 供的配体和受体的关系对,构建预后风险模型。
本发明中,上述装置中各模块的运行原理可以参照如上所述的影响细胞间通讯的受体- 配体系统分析方法,在此不做赘述。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法,基于单细胞测序而不是传统 RNA-seq,能够在单细胞分辨率下深入了解转录组,可以对肿瘤内异质性有更深入的了解, 并可以结合外部的公共数据集,进一步构建预后风险模型。此外,本发明所提供的分析方法 主要着眼于细胞间的受体-配体系统,而不是单个的差异基因,从而能够从分子水平来预测细 胞之间的相互通讯方式,从分子交流水平上升到细胞间的交流,为临床治疗提供更多的靶点 选择方向,具有良好的产业化前景。
综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技 术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡 所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等 效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述分析方法包括:
S1:提供多个单细胞的基因表达定量数据;
S2:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
S3:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
S4:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
S5:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。
2.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S1中,根据单细胞测序下机数据提供多个单细胞的基因表达定量数据。
3.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S2中,通过t-SNE方法对细胞进行一次聚类分析;
和/或,所述步骤S2还包括:对正常细胞群进行二次聚类分析,以提供多个正常细胞亚群,优选的,通过细胞的标记基因对正常细胞群进行二次聚类分析。
4.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S3中,通过R包LIMMA将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异倍数大于设定阈值的差异基因。
5.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S4中,所述配体和受体的关系对中,配体和受体分别属于不同的细胞群;
和/或,所述步骤S4还包括:计算配体和受体的关系对之间的相关系数,以提供相关系数大于设定阈值的关系对,所述相关系数优选为Spearman相关系数。
6.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S5中,通过R包clusterProfiler对步骤S4所提供的配体和受体的关系对进行分析,以提供p.value和/或富集的基因个数大于阈值的富集的通路和/或生物学过程。
7.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,还包括:
S6:根据步骤S5所提供的细胞群间通讯关系和步骤S4所提供的配体和受体的关系对构建模型,所述模型优选为预后风险模型。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一权利要求所述的影响细胞间通讯的受体-配体系统分析方法的步骤。
9.一种设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1-7任一权利要求所述的影响细胞间通讯的受体-配体系统分析方法的步骤。
10.一种装置,所述装置可以包括:
数据提供模块,用于提供多个单细胞的基因表达定量数据;
一次聚类分析模块,用于根据数据提供模块所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
第一分析模块,用于将一次聚类分析模块所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
第二分析模块,用于筛选第一分析模块所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
第三分析模块,用于根据第二分析模块所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,用于根据第一分析模块所提供的差异基因和第二分析模块所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系;
可选的,还可以包括:
模型构建模块,用于根据第三分析模块所提供的细胞群间通讯关系和第二分析模块所提供的配体和受体的关系对,构建预后风险模型。
CN202010157450.7A 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法 Active CN111312334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010157450.7A CN111312334B (zh) 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010157450.7A CN111312334B (zh) 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法

Publications (2)

Publication Number Publication Date
CN111312334A true CN111312334A (zh) 2020-06-19
CN111312334B CN111312334B (zh) 2023-09-08

Family

ID=71151103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010157450.7A Active CN111312334B (zh) 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法

Country Status (1)

Country Link
CN (1) CN111312334B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112466403A (zh) * 2020-12-31 2021-03-09 广州基迪奥生物科技有限公司 一种细胞通讯分析方法及系统
CN112700820A (zh) * 2021-01-07 2021-04-23 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法
CN113393895A (zh) * 2021-07-23 2021-09-14 罗翌陈 一种阻断肿瘤mapk信号通路微环境演化系统
CN116612822A (zh) * 2023-07-21 2023-08-18 北京恩泽康泰生物科技有限公司 一种基于单细胞转录组数据和外泌体组学分析细胞外泌体通讯的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040048883A (ko) * 2001-10-18 2004-06-10 롯데제과주식회사 카카오 콩 또는 콩껍질 분획물을 함유하는 암 예방 및억제 효능을 갖는 식품첨가제
CN104250634A (zh) * 2014-02-28 2014-12-31 曾杰 一种生物传感器的逻辑细胞模型设计与合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040048883A (ko) * 2001-10-18 2004-06-10 롯데제과주식회사 카카오 콩 또는 콩껍질 분획물을 함유하는 암 예방 및억제 효능을 갖는 식품첨가제
CN104250634A (zh) * 2014-02-28 2014-12-31 曾杰 一种生物传感器的逻辑细胞模型设计与合成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARIA SOLOVEY: "COMUNET: a tool to explore and visualize intercellular communication" *
陈龙辉: "2型糖尿病脾虚证免疫与物质代谢相关基因差异表达的研究" *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112466403A (zh) * 2020-12-31 2021-03-09 广州基迪奥生物科技有限公司 一种细胞通讯分析方法及系统
CN112466403B (zh) * 2020-12-31 2022-06-14 广州基迪奥生物科技有限公司 一种细胞通讯分析方法及系统
CN112700820A (zh) * 2021-01-07 2021-04-23 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法
CN112700820B (zh) * 2021-01-07 2021-11-19 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法
CN113393895A (zh) * 2021-07-23 2021-09-14 罗翌陈 一种阻断肿瘤mapk信号通路微环境演化系统
CN116612822A (zh) * 2023-07-21 2023-08-18 北京恩泽康泰生物科技有限公司 一种基于单细胞转录组数据和外泌体组学分析细胞外泌体通讯的方法
CN116612822B (zh) * 2023-07-21 2023-10-20 北京恩泽康泰生物科技有限公司 一种基于单细胞转录组数据和外泌体组学分析细胞外泌体通讯的方法

Also Published As

Publication number Publication date
CN111312334B (zh) 2023-09-08

Similar Documents

Publication Publication Date Title
Lähnemann et al. Eleven grand challenges in single-cell data science
CN111312334A (zh) 一种影响细胞间通讯的受体-配体系统分析方法
Tang et al. GAPIT version 2: an enhanced integrated tool for genomic association and prediction
Xu et al. Genotype-free demultiplexing of pooled single-cell RNA-seq
Chuang et al. Network‐based classification of breast cancer metastasis
CN102272764B (zh) 从基因库选择候选基因集合的方法和系统
Yuan et al. Probability theory-based SNP association study method for identifying susceptibility loci and genetic disease models in human case-control data
Lehermeier et al. Genomic variance estimates: With or without disequilibrium covariances?
CN112048559A (zh) 基于m6A相关的IncRNA网络胃癌预后的模型构建及临床应用
US20050159896A1 (en) Apparatus and method for analyzing data
Ostrovnaya et al. Clonality: an R package for testing clonal relatedness of two tumors from the same patient based on their genomic profiles
US20210090686A1 (en) Single cell rna-seq data processing
Qu et al. Quantitative trait associated microarray gene expression data analysis
CN115762792A (zh) 一种基于lncRNA的优化模型预测膀胱癌患者生存预后的方法
CN113192556B (zh) 基于小样本的多组学数据中基因型与表型关联分析方法
CN114038502A (zh) 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法
Winn et al. Profiling of Fusarium head blight resistance QTL haplotypes through molecular markers, genotyping-by-sequencing, and machine learning
Zhang et al. MaLAdapt reveals novel targets of adaptive introgression from Neanderthals and Denisovans in worldwide human populations
KR20210110241A (ko) 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법
Shah et al. Model-based clustering of array CGH data
Muzio et al. networkGWAS: a network-based approach to discover genetic associations
CN111785319B (zh) 基于差异表达数据的药物重定位方法
US20230046438A1 (en) Method for predicting cell spatial relation based on single-cell transcriptome sequencing data
Zubi et al. Sequence mining in DNA chips data for diagnosing cancer patients
CN114242158B (zh) ctDNA单核苷酸变异位点检测方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant