CN111312334B - 一种影响细胞间通讯的受体-配体系统分析方法 - Google Patents

一种影响细胞间通讯的受体-配体系统分析方法 Download PDF

Info

Publication number
CN111312334B
CN111312334B CN202010157450.7A CN202010157450A CN111312334B CN 111312334 B CN111312334 B CN 111312334B CN 202010157450 A CN202010157450 A CN 202010157450A CN 111312334 B CN111312334 B CN 111312334B
Authority
CN
China
Prior art keywords
receptor
ligand
pair
cell
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010157450.7A
Other languages
English (en)
Other versions
CN111312334A (zh
Inventor
桑运霞
左冰云
宋青芳
吴崇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuanzi Biotechnology Co ltd
Original Assignee
Shanghai Yuanzi Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuanzi Biotechnology Co ltd filed Critical Shanghai Yuanzi Biotechnology Co ltd
Priority to CN202010157450.7A priority Critical patent/CN111312334B/zh
Publication of CN111312334A publication Critical patent/CN111312334A/zh
Application granted granted Critical
Publication of CN111312334B publication Critical patent/CN111312334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学,特别是涉及一种影响细胞间通讯的受体‑配体系统分析方法。本发明提供一种分析方法,包括:根据所提供的基因表达定量数据,对细胞进行一次聚类分析;将所提供的细胞群进行差异基因表达分析;筛选所提供的差异基因;根据所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;和/或,根据所提供的差异基因和所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。本发明所提供的分析方法基于单细胞测序而不是传统RNA‑seq,能够在单细胞分辨率下深入了解转录组,可以对肿瘤内异质性有更深入的了解,并可以结合外部的公共数据集,进一步构建预后风险模型。

Description

一种影响细胞间通讯的受体-配体系统分析方法
技术领域
本发明涉及生物信息学,特别是涉及一种影响细胞间通讯的受体-配体系统分析方法,所述分析方法基于单细胞测序。
背景技术
肿瘤微环境由多种细胞组成,包括恶性细胞、基质细胞和免疫细胞,而每个细胞类型的异质性(如肿瘤细胞的不同克隆或免疫细胞的各种亚群)进一步增加了肿瘤细胞复杂性,这些不同的细胞类型都通过配体-受体相互作用进行相互通讯。此外,这些不同类型的细胞之间的交流与肿瘤发生、发展的机制、抗药性、免疫浸润和炎症有关,鉴于配体-受体相互作用对患者预后的重要性,靶细胞-细胞相互作用的治疗方法已成为临床实践中的有用工具,尽管这些疗法在几种肿瘤类型中取得了明显的成功,但其疗效有限,这种有限的应答率很可能是因为肿瘤微环境中存在着复杂的细胞-细胞相互作用网络,我们对此的了解还不完全。为了更好地发现可被靶向的相互作用,需要更全面地了解肿瘤微环境中发生的细胞-细胞相互作用以及这些相互作用如何发挥作用机制。
单细胞rna测序(scrna-seq)方法已经广泛被用于计算肿瘤相关细胞类型的丰度,同时利用单细胞测序我们也能预知细胞即时的功能状态,这种测序手段对于分析细胞组成的异质性也具有重要意义。然而,除了描述肿瘤的细胞组成外,了解不同的细胞间如何相互作用,从而导致肿瘤的突发行为是至关重要的。虽然已有研究表明细胞间可以通过受体-配体的结合实现通讯,但是大部分的研究都是基于功能性实验来进行,这些实验费时且每次仅限于单一的交互作用。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种影响细胞间通讯的受体-配体系统分析方法,所述分析方法基于单细胞测序,用于解决现有技术中的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述分析方法包括:
S1:提供多个单细胞的基因表达定量数据;
S2:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
S3:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
S4:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
S5:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。
本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明另一方面提供一种设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行上述的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明另一方面提供一种装置,所述装置可以包括:
数据提供模块,用于提供多个单细胞的基因表达定量数据;
一次聚类分析模块,用于根据数据提供模块所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
第一分析模块,用于将一次聚类分析模块所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
第二分析模块,用于筛选第一分析模块所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
第三分析模块,用于根据第二分析模块所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,用于根据第一分析模块所提供的差异基因和第二分析模块所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系;
可选的,还可以包括:
模型构建模块,用于根据第三分析模块所提供的细胞群间通讯关系和第二分析模块所提供的配体和受体的关系对,构建预后风险模型。
附图说明
图1显示为本发明影响细胞间通讯的受体-配体系统分析方法流程示意图。
图2显示为本发明红细胞UMI占比的分布和关系图示意图。
图3显示为本发明基因数量与UMI数相关性示意图。
图4显示为本发明聚类分析结果示意图。
图5显示为本发明配体和受体的关系对分析结果示意图。
图6显示为本发明生物学过程和通路富集示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
请参阅图1。需要说明的是,本实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明第一方面提供一种影响细胞间通讯的受体-配体系统分析方法,所述分析方法包括:
S1:提供多个单细胞的基因表达定量数据;
S2:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
S3:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
S4:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
S5:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。本发明所提供的影响细胞间通讯的受体-配体系统分析方法,可以通过使用单细胞测序数据来分析受体-配体的结合,同时将这些特征与感兴趣的生物学结果和临床生存信息联系起来,从而有效预测细胞与细胞间的相互通讯并合理解释这些相互交流发挥作用的机制。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法可以包括:提供多个单细胞的基因表达定量数据。所述基因表达定量数据具体是各个单细胞中的基因表达量。获取并提供基因表达定量数据的方法对于本领域技术人员来说应该是已知的,例如,所述步骤S1中,可以根据单细胞测序下机数据获取多个单细胞的基因表达定量数据,再例如,此处的多个单细胞通常可以包括多类细胞,多个单细胞的数量具体可以是数百、数千、数万或更多的数量,例如,可以是500~1000、1000~2000、2000~4000、4000~6000、6000~10000、10000~20000、20000~40000、或更多的数量。具体来说,可以将测序reads与参考基因组进行比对,对比对上的基因reads数进行定量。通常来说,原始的单细胞测序下机数据通常需要进行质控,以获得高质量的测序reads,并进一步将测序reads与参考基因组进行比对。合适的质量控制方法、以及合适的将测序reads与参考基因组进行比对的方法对于本领域技术人员来说应该是已知的,例如,可以采用Cell Ranger等分析方法对原始的单细胞测序下机数据通常需要进行质控,质控过程中可以包括对细胞的分子标签cell barcode、RNAreads数及质量和UMI进行分析统计以确定数据是否合格,再例如,可以采用Cell Ranger中的STAR等方法对Reads2序列进行基因组比对,以提供各个单细胞中的基因表达量。在获得的各个单细胞中的基因表达量的数据后,还可以进一步进行过滤和/或筛选,从而可以提供所需的基因在各个单细胞中的表达定量数据。在过滤和/或筛选过程中,可以去除一些不需要的细胞数据(例如,基因数量过少的细胞数据),还可以去除一些不需要的基因数据(例如,表达量过低的基因数据)。例如,可以使用Cell Ranger等软件进行过滤和/或筛选。在过滤和/或筛选之后,可以对数据进行标准化和/或归一化处理,以提供多个单细胞的基因表达定量数据。例如,可以使用R包Seruat等进行数据标准化和/或归一化处理。
在本发明一具体实施例中,所述步骤S1的具体步骤可以包括:基于单细胞测序的原始下机reads数据,分别将原始数据截取成Read1和Read2两部分用于后续分析,其中Read1为28bp,包括16bp的Barcode序列和12bp的UMI(unique molecular identifer),Read2为96bp的RNA序列部分。之后采用Cell Ranger分析流程,对原始数据进行质量评估,质量评估的具体规则如下:有效的Barcodes比例、Qphred数值大于30的碱基占总体碱基的百分比、Barcode序列大于Q30比例、RNA序列大于Q30比例以及UMI序列大于Q30比例分别达到90%以上,若测序数据符合这些标准,则认为是质量评估合格的数据,并使用CellRanger中的STAR方法,采用软件的默认参数对Reads2序列进行基因组比对。之后基于Read2比对结果,对UMI数据进行校正,去除PCR重复,UMI的校正标准如下:(1)UMI为非同聚物,如AAAAAAAAAA;(2)UMI为非N;(3)UMI的每个碱基质量值大于10;(4)同一细胞有一个碱基不匹配的UMI可校正到reads支持多的UMI上。接着对每个cell barcode的不同基因进行UMI统计分析,得到有效细胞数量,根据识别到的细胞信息,对不同细胞基因表达值进行定量统计,得到Cell Ranger生成的基因表达矩阵之后,根据基因检出数,线粒体UMI占比等指标对细胞进行再次过滤,去除异常值,以保证后续分析结果的可靠性和准确性。每个样本细胞的基因检出数,UMI数目,线粒体UMI占比,红细胞UMI占比的分布和关系图如图2所示,图中每一个黑点为一个细胞,横坐标为样本名,纵坐标分别为基因数量,UMI数量和线粒体基因的百分比,红细胞UMI占比。UMI映射(mapping)到MT-genes(线粒体)基因的百分比(%)是一个常见的scRNA-seq QC度量标准。通常情况下,随着测序数据量的增加,检测到的基因数量和UMI数量也随之增加,存在一定相关性。如果出现基因数和UMI关系明显离群的细胞,可能是潜在的多重细胞,需要去除。基因数量与UMI数相关性图如图3所示。基于过滤之后得到的细胞-基因表达矩阵,采用现有主流分析软件包Seruat进行数据标准化和归一化处理,具体地,使用全局缩放归一化方法"LogNormalize",这使每个细胞的基因表达量通过总表达量(total expression)标准化,将其乘以一个比例因子(a scale factor)(默认为10,000),再对结果进行log-transform,最终得到基因在各个细胞的标准化表达定量结果矩阵。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群。如上所述,参与分析的多个单细胞通常可以包括多类细胞,如果想要对细胞间的联系进行分析,则需要对细胞进行聚类分析。例如,所述多个单细胞可以包括正常细胞和肿瘤细胞,肿瘤与周围的基质细胞和细胞外基质共同构成了肿瘤微环境,它们在肿瘤发生的每一步中都起着至关重要的作用,通常由多种类型细胞构成,通过一次聚类分析,则可以提供正常细胞群和肿瘤细胞群。现有技术中存在的聚类方法有很多,例如常见的线性降维PCA、PCoA,但这些算法常常难以有效的区分不同的样品特征,而且忠实于相互距离的线性算法往往难以获得满意的排序结果。而本申请中,可以通过t-SNE方法对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群,所述t-SNE方法是一种用于探索高维数据的非线性降维机器学习算法,它将多维数据映射到适合于人类观察的两个或多个维度,是基于在邻域图上随机游走的概率分布来找到数据内的结构,目标是在高维空间中将具有相似局部邻域的细胞放在一起,放在低维空间中,从而可以准确地对正常细胞群和肿瘤细胞群进行聚类。
所述步骤S2还可以包括:对正常细胞群进行二次聚类分析,以提供多个正常细胞亚群,优选的,通过细胞的标记基因对正常细胞群进行二次聚类分析。由于肿瘤细胞的异质性更强,因此聚类结果中,肿瘤细胞群通常是由病人个体细胞组成的,而正常细胞群通常会有多个病人的细胞混杂到一起,因此进一步基于已知的表征各个细胞类型的标记基因(这些标记基因通常是来源于已发表的文献),可以对正常细胞群进一步进行二次聚类分析,识别出构成健康细胞的特定细胞簇,这样即可得到肿瘤细胞群以及正常细胞亚群(例如,正常细胞的各个亚型簇)。不同的正常细胞亚群通常由不同的个体提供,或者隶属于同一个体的不同器官、部位等,正常细胞因为异质性不强,所以不同病人或器官的细胞会聚到一起,所以要进行二次聚类,将正常细胞群进行亚群分析。
在本发明一具体实施例中,对来自10个胶质瘤病人的6341个胶质瘤细胞使用t-SNE算法进行降维聚类,首先选取在6341个细胞间高变异的top 1%基因,利用R包Seurat,基于t-SNE算法进行降维,并在二维空间进行展示,具体结果如图4所示。其次由于肿瘤细胞的异质性更强,因此聚类结果中,每个病人的肿瘤细胞群通常会被聚到一起,如图中的cluster1-10所示,而正常细胞群通常会有多个病人的细胞混杂到一起,如cluster11-13所述,因此进一步基于已知的表征各个细胞类型的标记基因,这里使用神经元(例如,NPY、SST、CCK、GAD1等)、少突胶质细胞(例如,PLP1、MBP、OPALIN、MOG、MOBP等)、小胶质细胞/巨噬细胞(例如,CD83、CCL3、CX3CR1、TNF等)和内皮细胞(例如,CLDN5、ELTD1、ICAM2等)等的标记基因,对正常细胞群进一步进行二次聚类分析,并对健康的细胞亚群进行注释,得到不同的正常细胞亚群。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因。不同的细胞群间表达存在差异的基因是导致细胞群形成的关键基因,筛选出在某个细胞群和其余细胞群之间存在差异表达的基因。本领域技术人员可选择合适的方法获得各个细胞群之间(例如,在某个细胞群或某个细胞亚群、与其它细胞群或其它细胞亚群之间)的差异基因。例如,可以通过R包Limma将步骤S2所提供的细胞群(例如,各细胞群和/或细胞亚群)进行差异基因表达分析,筛选出各个细胞群之间存在差异表达的基因。在分析过程中,可以设定合适的阈值,以提供所需的各个细胞群之间的差异倍数大于设定阈值的差异基因,例如,所设定的阈值可以是差异倍数大于2倍,所述差异倍数可以利用R包Limma计算获得,具体指某一个基因在某一个细胞群的表达平均值除以在其它细胞群的倍数。
在本发明一具体实施例中,可以对巨噬细胞和肿瘤类干细胞进行差异基因表达分析。如上所述,巨噬细胞和肿瘤类干细胞的聚类可以通过标记基因进行,根据这些基因在不同细胞中的表达情况,挑选对应表达量(例如,高表达)的细胞作为对应的细胞群。进一步的,可以通过R包LIMMA对巨噬细胞和肿瘤类干细胞进行差异分析,得到每个基因的差异倍数,设定阈值大于2倍的基因作为差异基因。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对。配体及其受体的表达水平可以反映细胞间通讯的水平,配体-受体进行共表达分析是细胞进行通讯的分子基础。对于配体和受体的关系对的分析,通常需要基于配体-受体相互作用关系网络,这对于本领域技术人员来说应该是已知的,例如,可以基于CellPhoneDB(https://www.cellphonedb.org/)Ramilowski等人于2015年在Nature communication上发表的Adraft network of ligand-receptor-mediated multicellular signalling in human描述的一组配体和受体等数据库。通过已知的配体-受体相互作用关系网络,可以从步骤S3所提供的差异基因中筛选出差异表达中所包括的配体和受体的关系对。步骤S4中所提供的配体和受体的关系对中,配体和受体通常要求处于不同的细胞群中(例如,配体隶属于某个细胞群或细胞亚群,而受体则需要隶属于另一个细胞群或细胞亚群)。在分析过程中,可以设定合适的阈值,以提供所需的配体和受体的关系对,例如,可以计算配体和受体的关系对之间的相关系数,以提供相关系数大于设定阈值的关系对,所述相关系数优选为Spearman相关系数,再例如,所设定的阈值可以为0.4~0.9、0.4~0.5、0.5~0.6、0.6~0.7、0.7~0.8、或0.8~0.9。通常来说,细胞越多则相关系数总体来说相对较小,为了后续分析就要适当降低相关系数。相关系数通常越高越好,最大为1,但是通常来说相关系数是不可能达到1的,因为两个基因的表达数据一般不会完全一样。
在本发明一具体实施例中,可以导入外部数据库,该数据库为已发表的配体-受体相互作用关系网络,包括696个配体和653个同源受体(2419对配体-受体关系对)(来自Ramilowski等人于2015年在Nature communication上发表的A draft network ofligand-receptor-mediated multicellular signalling in human描述的一组配体和受体),并从中筛选出在巨噬细胞和肿瘤类干细胞间差异表达的配体和受体,使用R语言的“cor”函数,计算配体-受体之间的Spearman相关系数,以0.4为阈值,筛选出相关系数绝对值大于0.4的关系,从而提供差异基因中所涉及的配体和受体的关系对,具体的关系图如图5所示。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程。通过对配体和受体的关系对之间通路和/或生物学过程的分析,可以用于进一步阐明关键的受体-配体是如何导致细胞间进行通讯,从而解释特定的细胞群之间交流的功能机制。本领域技术人员可选择合适的方法,针对配体和受体的关系对进行分析以提供富集的通路和/或生物学过程,例如,可以利用R包clusterProfiler,再例如,可以通过GO BP(http://geneontology.org/)和KEGG pathway(https://www.kegg.jp/)等数据库进行富集分析,数据库的加载可以通过合适的软件进行,例如,可以使用clusterProfiler等软件。在分析过程中,可以选择合适的阈值,以提供大于阈值的富集的通路和/或生物学过程,例如,具体可以选择的阈值种类可以是p.value、富集的基因个数等各种可以调整的通路或生物学过程参数,再例如,所设定的阈值可以是p.value<0.05,再例如,所设定的阈值可以是富集的基因个数≥2。
在本发明一具体实施例中,可以利用R包“clusterProfiler”,将巨噬细胞和肿瘤类干细胞间存在共表达的配体和受体转化成可识别的基因ID,之后分别对其进行GO BP和KEGG pathway富集分析,设定阈值为p.value<0.05,找到这些配体、受体共同富集到的生物学过程和通路,具体结果如图6所示,从而可以为细胞间的交流提供功能层面的依据。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。通过结合各个细胞群之间的差异基因和差异基因中所涉及的配体和受体的关系对,可以获知究竟是哪两个细胞群间进行相互交流。由于差异基因已经是相对的高表达基因,所以可以当差异基因在的某个细胞群(例如,某个正常细胞群、肿瘤细胞群、或正常细胞亚群)时,可以以该差异基因作为该细胞群的标记基因,这样通过将受体配体共表达关系对中的基因分别分配到不同的细胞群中,从而可以从分子水平的交流信息获取细胞水平之间的交流信息。
在本发明一具体实施例中,主要预测了巨噬细胞和肿瘤类干细胞之间的通讯,首先根据得到的配体-受体共表达关系对,结合差异分析结果,以基因在某个细胞群高表达作为该细胞群的标记基因,得到巨噬细胞和肿瘤类干细胞相应的配体或受体标记基因,结果表明,配体在类干细胞中高表达,而受体在巨噬细胞中高表达,从而确定细胞通讯方向为配体高表达的类干细胞群可能通过募集受体高表达的巨噬细胞群实现相互通讯。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法还可以包括:根据步骤S5所提供的细胞群间通讯关系和步骤S4所提供的配体和受体的关系对构建模型,所述模型优选为预后风险模型。通过步骤S5所提供的细胞群间通讯关系和步骤S4所提供的配体和受体的关系对,可以选择感兴趣的基因用于构建预后风险模型,例如,可以构建各个样本的Risk score(风险评分)与基因表达之间的模型等。模型本身的具体构建方法对于本领域技术人员来说应该是已知的,例如,可以选择合适的数据库进行模型构建,具体可以是例如TCGA外部数据集等;再例如,可以选择一定比例的样本进行训练,具体可以是70%-80%、70%-75%、或75%-80%的样本进行训练,以构建模型;再例如,可以选择一定比例的样本进行验证,具体可以是构建模型剩余的样本进行模型验证,模型验证时可以使用ROC曲线等方法。
在本发明一具体实施例中,可以利用TCGA-GBM的外部数据集的基因表达谱及临床生存信息,随机选取70%样本为测试集,使用机器学习算法XGBoost,对巨噬细胞和肿瘤类干细胞之间交流的配体-受体进行预后模型构建,模型公式如下:
其中,RS表示风险评分(Risk score),n表示模型中基因个数,Coef(i)表示第i个基因的回归系数,X(i)表示第i个基因的表达值。这样,每个样本都会的得到一个Riskscore值,接着按照中位数将样本分成高表达组和低表达组,绘制K-M生存曲线,同时采用logrank检验计算显著性,判断高低风险组的生存率存在显著差异。另外利用剩余30%的样本进行模型的验证,通过绘制ROC曲线评估模型的精确性。
本发明第二方面提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明第一方面所提供的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明第三方面提供一种设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行本发明第一方面所提供的影响细胞间通讯的受体-配体系统分析方法的步骤。
本发明第四方面提供一种装置,所述装置可以包括:
数据提供模块,用于提供多个单细胞的基因表达定量数据;
一次聚类分析模块,用于根据数据提供模块所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
第一分析模块,用于将一次聚类分析模块所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
第二分析模块,用于筛选第一分析模块所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;
第三分析模块,用于根据第二分析模块所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,用于根据第一分析模块所提供的差异基因和第二分析模块所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系;
可选的,还可以包括:
模型构建模块,用于根据第三分析模块所提供的细胞群间通讯关系和第二分析模块所提供的配体和受体的关系对,构建预后风险模型。
本发明中,上述装置中各模块的运行原理可以参照如上所述的影响细胞间通讯的受体-配体系统分析方法,在此不做赘述。
本发明所提供的影响细胞间通讯的受体-配体系统分析方法,基于单细胞测序而不是传统RNA-seq,能够在单细胞分辨率下深入了解转录组,可以对肿瘤内异质性有更深入的了解,并可以结合外部的公共数据集,进一步构建预后风险模型。此外,本发明所提供的分析方法主要着眼于细胞间的受体-配体系统,而不是单个的差异基因,从而能够从分子水平来预测细胞之间的相互通讯方式,从分子交流水平上升到细胞间的交流,为临床治疗提供更多的靶点选择方向,具有良好的产业化前景。
综上所述,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述分析方法包括:
S1:根据单细胞测序下机数据提供多个单细胞的基因表达定量数据;
S2:根据步骤S1所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
S3:将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
S4:筛选步骤S3所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对;计算配体和受体的关系对之间的相关系数,以提供相关系数大于设定阈值的关系对;
S5:根据步骤S4所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,根据步骤S3所提供的差异基因和步骤S4所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。
2.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S2中,通过t-SNE方法对细胞进行一次聚类分析;
和/或,所述步骤S2还包括:对正常细胞群进行二次聚类分析,以提供多个正常细胞亚群,优选的,通过细胞的标记基因对正常细胞群进行二次聚类分析。
3.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S3中,通过R包LIMMA将步骤S2所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异倍数大于设定阈值的差异基因。
4.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,所述步骤S4中,所述配体和受体的关系对中,配体和受体分别属于不同的细胞群;
和/或,所述步骤S4还包括:所述相关系数为Spearman相关系数。
5.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,步骤S5中,通过R包clusterProfiler对步骤S4所提供的配体和受体的关系对进行分析,以提供p.value和/或富集的基因个数大于阈值的富集的通路和/或生物学过程。
6.如权利要求1所述的影响细胞间通讯的受体-配体系统分析方法,其特征在于,还包括:
S6:根据步骤S5所提供的细胞群间通讯关系和步骤S4所提供的配体和受体的关系对构建模型,所述模型优选为预后风险模型。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一权利要求所述的影响细胞间通讯的受体-配体系统分析方法的步骤。
8.一种设备,包括:处理器和存储器,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述设备执行如权利要求1-6任一权利要求所述的影响细胞间通讯的受体-配体系统分析方法的步骤。
9.一种装置,所述装置包括:
数据提供模块,用于根据单细胞测序下机数据提供多个单细胞的基因表达定量数据;
一次聚类分析模块,用于根据数据提供模块所提供的基因表达定量数据,对细胞进行一次聚类分析,以提供正常细胞群和肿瘤细胞群;
第一分析模块,用于将一次聚类分析模块所提供的细胞群进行差异基因表达分析,以提供各个细胞群之间的差异基因;
第二分析模块,用于筛选第一分析模块所提供的差异基因,以提供差异基因中所涉及的配体和受体的关系对,计算配体和受体的关系对之间的相关系数,以提供相关系数大于设定阈值的关系对;
第三分析模块,用于根据第二分析模块所提供的配体和受体的关系对,以提供富集的通路和/或生物学过程;
和/或,用于根据第一分析模块所提供的差异基因和第二分析模块所提供的配体和受体的关系对,以提供配体和受体的关系对所对应的细胞群间通讯关系。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
模型构建模块,用于根据第三分析模块所提供的细胞群间通讯关系和第二分析模块所提供的配体和受体的关系对,构建预后风险模型。
CN202010157450.7A 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法 Active CN111312334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010157450.7A CN111312334B (zh) 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010157450.7A CN111312334B (zh) 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法

Publications (2)

Publication Number Publication Date
CN111312334A CN111312334A (zh) 2020-06-19
CN111312334B true CN111312334B (zh) 2023-09-08

Family

ID=71151103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010157450.7A Active CN111312334B (zh) 2020-03-09 2020-03-09 一种影响细胞间通讯的受体-配体系统分析方法

Country Status (1)

Country Link
CN (1) CN111312334B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133370A (zh) * 2020-08-20 2020-12-25 中南大学湘雅医院 细胞分类方法、装置、计算机设备和存储介质
CN112466403B (zh) * 2020-12-31 2022-06-14 广州基迪奥生物科技有限公司 一种细胞通讯分析方法及系统
CN112700820B (zh) * 2021-01-07 2021-11-19 广州华银健康医疗集团股份有限公司 一种基于单细胞转录组测序的细胞亚群注释方法
CN113393895B (zh) * 2021-07-23 2023-06-02 罗翌陈 一种阻断肿瘤mapk信号通路微环境演化系统
CN116612822B (zh) * 2023-07-21 2023-10-20 北京恩泽康泰生物科技有限公司 一种基于单细胞转录组数据和外泌体组学分析细胞外泌体通讯的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040048883A (ko) * 2001-10-18 2004-06-10 롯데제과주식회사 카카오 콩 또는 콩껍질 분획물을 함유하는 암 예방 및억제 효능을 갖는 식품첨가제
CN104250634A (zh) * 2014-02-28 2014-12-31 曾杰 一种生物传感器的逻辑细胞模型设计与合成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040048883A (ko) * 2001-10-18 2004-06-10 롯데제과주식회사 카카오 콩 또는 콩껍질 분획물을 함유하는 암 예방 및억제 효능을 갖는 식품첨가제
CN104250634A (zh) * 2014-02-28 2014-12-31 曾杰 一种生物传感器的逻辑细胞模型设计与合成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈龙辉.2型糖尿病脾虚证免疫与物质代谢相关基因差异表达的研究.《中华医药杂志》.2015,第3634-3638页. *

Also Published As

Publication number Publication date
CN111312334A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111312334B (zh) 一种影响细胞间通讯的受体-配体系统分析方法
Lähnemann et al. Eleven grand challenges in single-cell data science
Burgarella et al. A western Sahara centre of domestication inferred from pearl millet genomes
Heslot et al. Impact of marker ascertainment bias on genomic selection accuracy and estimates of genetic diversity
Matthies et al. Population structure revealed by different marker types (SSR or DArT) has an impact on the results of genome-wide association mapping in European barley cultivars
Kaya et al. Genome wide association study of 5 agronomic traits in olive (Olea europaea L.)
Sallam et al. Improving prediction accuracy using multi-allelic haplotype prediction and training population optimization in wheat
CN115083521B (zh) 一种单细胞转录组测序数据中肿瘤细胞类群的鉴定方法及系统
CA3154621A1 (en) Single cell rna-seq data processing
Zhang et al. Adjusting for population stratification in a fine scale with principal components and sequencing data
CN112117003A (zh) 一种肿瘤风险等级划分方法、系统、终端以及存储介质
CN110010195A (zh) 一种探测单核苷酸突变的方法及装置
Rabier et al. On the inference of complex phylogenetic networks by Markov Chain Monte-Carlo
Miclaus et al. Batch effects in the BRLMM genotype calling algorithm influence GWAS results for the Affymetrix 500K array
Long et al. Genome-wide imputation using the practical haplotype graph in the heterozygous crop cassava
CN114038502A (zh) 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法
CN113192556B (zh) 基于小样本的多组学数据中基因型与表型关联分析方法
Winn et al. Profiling of Fusarium head blight resistance QTL haplotypes through molecular markers, genotyping-by-sequencing, and machine learning
Vi et al. Genome-wide admixture mapping identifies wild ancestry-of-origin segments in cultivated Robusta coffee
Wang et al. Interpretation of Manhattan plots and other outputs of genome-wide association studies
CN113981081A (zh) 一种基于rna编辑水平的乳腺癌分子标志物及诊断模型
Videla et al. Relative performance of cluster algorithms and validation indices in maize genome-wide structure patterns
CN109390039B (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
Dittberner et al. Approximate Bayesian computation untangles signatures of contemporary and historical hybridization between two endangered species
Hao et al. Genome-wide hierarchical mixed model association analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant