CN111681710B - 基于基因表达特征的细胞分类方法、装置和电子设备 - Google Patents

基于基因表达特征的细胞分类方法、装置和电子设备 Download PDF

Info

Publication number
CN111681710B
CN111681710B CN202010497164.5A CN202010497164A CN111681710B CN 111681710 B CN111681710 B CN 111681710B CN 202010497164 A CN202010497164 A CN 202010497164A CN 111681710 B CN111681710 B CN 111681710B
Authority
CN
China
Prior art keywords
genes
population
tissue sample
gene
tissue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010497164.5A
Other languages
English (en)
Other versions
CN111681710A (zh
Inventor
胡朔枫
应晓敏
何振
武家琦
刘璞
卢康
冯超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Pharmacology and Toxicology of AMMS
Original Assignee
Institute of Pharmacology and Toxicology of AMMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Pharmacology and Toxicology of AMMS filed Critical Institute of Pharmacology and Toxicology of AMMS
Priority to CN202010497164.5A priority Critical patent/CN111681710B/zh
Publication of CN111681710A publication Critical patent/CN111681710A/zh
Application granted granted Critical
Publication of CN111681710B publication Critical patent/CN111681710B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于基因表达特征的细胞分类方法、装置和电子设备,涉及细胞分类技术领域,该方法通过计算第一组织样本与第二组织样本的第一差异表达基因,基于第一差异表达基因选取在第一组织样本与第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集;计算第一组织特征基因集和第二组织特征基因集在细胞群体的每个细胞中的第一平均表达值和第二平均表达值,并采用聚类算法将细胞群体中的细胞分为第一细胞群体和第二细胞群体两类,能够降低现有单细胞测序数据分析中细胞分类方法的局限性,实现提高细胞分类准确率,减小分类误差的效果。

Description

基于基因表达特征的细胞分类方法、装置和电子设备
技术领域
本发明涉及单细胞测序技术领域,尤其是涉及一种基于基因表达特征的细胞分类方法、装置和电子设备。
背景技术
单细胞转录组测序技术能够对细胞群体中每个细胞的基因表达情况进行定量检测。对相同谱系来源的细胞群体分类是单细胞数据分析中的关键技术环节。拷贝数变异(copy number variation,简称CNV)是由基因组发生重排而导致的,研究表明一些变异细胞相比于正常细胞具有更高的整体CNV水平,现有的细胞群体分类方法采用计算手段评估每个细胞的CNV整体水平,并以此分类正常上皮细胞与非正常细胞,从而进一步对分类后的细胞进行分析。
但由于非正常细胞中的种类繁多,已发现存在CNV整体水平较低类型的非正常上皮细胞甚至肿瘤细胞,导致此种方法对细胞进行分类存在一定的局限性,导致产生分类准确率低、误差大等问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于基因表达特征的细胞分类方法、装置及电子设备,以缓解现有技术中细胞分类准确率低、分类误差大的问题。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种基于基因表达特征的细胞分类方法,该方法包括:计算第一组织样本与第二组织样本的第一差异表达基因,所述第一差异表达基因包括所述第一组织样本与所述第二组织样本中表达不一致的若干个基因;基于所述第一差异表达基因,选取在所述第一组织样本和所述第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集;计算所述第一组织特征基因集和所述第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值,所述细胞群体包括若干个细胞;基于所述第一平均表达值和所述第二平均表达值,采用聚类算法将所述细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
在可选的实施方式中,基于所述第一差异表达基因,选取在所述第一组织样本和所述第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集的步骤,包括:确定所述第一差异表达基因在所述第一组织样本中的平均表达值大于在所述第二组织样本中的平均表达值的第一差异基因;计算所述第一差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;基于所述变化倍数将所述第一差异基因排序,并获取排序中的前第一数量个基因组成第一组织特征基因集;确定所述第一差异表达基因在所述第二组织样本中的平均表达值大于在所述第一组织样本中的平均表达值的第二差异基因;计算所述第二差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;基于所述变化倍数将所述第二差异基因排序,并获取排序中的前第一数量个基因组成第二组织特征基因集。
在可选的实施方式中,该方法还包括:计算所述第一细胞群体与所述第二细胞群体的第二差异表达基因,所述第二差异表达基因包括所述第一细胞群体与所述第二细胞群体中表达不一致的若干个基因;在所述第二差异表达基因中选取在所述第一细胞群体和所述第二细胞群体中高表达的前第一数量个基因,分别组成第一群体差异基因集和第二群体差异基因集。
在可选的实施方式中,该方法还包括:如果所述第一组织特征基因集与所述第一群体差异基因集不一致,则更新所述第一组织特征基因集为第一群体差异基因集;或者,如果所述第二组织特征基因集与所述第二群体差异基因集不一致,则更新所述第二组织特征基因集为第二群体差异基因集。
在可选的实施方式中,该方法还包括:重复执行以下操作,直至所述第一组织特征基因集与所述第一群体差异基因集一致,且所述第二组织特征基因集与所述第二群体差异基因集一致,根据此时所述细胞群体的分类情况确定所述细胞的分类结果:计算所述第一组织特征基因集和所述第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值;基于所述第一平均表达值和所述第二平均表达值,采用聚类算法将所述细胞群体中的细胞分为第一细胞群体和第二细胞群体两类;计算所述第一细胞群体与所述第二细胞群体的第二差异表达基因;将所述第二差异表达基因按表达频率排序,分别在所述第一细胞群体与所述第二细胞群体中获取所述排序中的前第一数量个基因,组成第一群体差异基因集和第二群体差异基因集。
在可选的实施方式中,该方法还包括:如果所述第一组织特征基因集与所述第一群体差异基因集一致,且所述第二组织特征基因集与所述第二群体差异基因集一致,则根据所述细胞群体的分类情况确定所述细胞的分类结果。
第二方面,本发明实施例提供了一种基于基因表达特征的细胞分类装置,该装置包括:第一计算模块,用于计算第一组织样本与第二组织样本的第一差异表达基因,所述第一差异表达基因包括所述第一组织样本与所述第二组织样本中表达不一致的若干个基因;获取模块,用于基于所述第一差异表达基因,选取在所述第一组织样本和所述第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集;第二计算模块,用于计算所述第一组织特征基因集和所述第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值,所述细胞群体包括若干个细胞;分类模块,用于基于所述第一平均表达值和所述第二平均表达值,采用聚类算法将所述细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
在可选的实施方式中,所述获取模块包括:确定单元,用于确定所述第一差异表达基因在所述第一组织样本中的平均表达值大于在所述第二组织样本中的平均表达值的第一差异基因;计算单元,用于计算所述第一差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;排序单元,用于基于所述变化倍数将所述第一差异基因排序,并获取排序中的前第一数量个基因组成第一组织特征基因集;所述确定单元,还用于确定所述第一差异表达基因在所述第二组织样本中的平均表达值大于在所述第一组织样本中的平均表达值的第二差异基因;所述计算单元,还用于计算所述第二差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;所述排序单元,还用于基于所述变化倍数将所述第二差异基因排序,并获取排序中的前第一数量个基因组成第二组织特征基因集。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面任一项所述的方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行第一方面任一项所述的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种基于基因表达特征的细胞分类方法、装置和电子设备,该方法通过计算第一组织样本与第二组织样本的第一差异表达基因,基于第一差异表达基因选取在第一组织样本和第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集;计算第一组织特征基因集和第二组织特征基因集在细胞群体中每个细胞的第一平均表达值和第二平均表达值,并采用聚类算法将细胞群体中的细胞分为第一细胞群体和第二细胞群体两类,能够降低现有单细胞测序数据分析中细胞二分类方法的局限性,实现提高细胞分类准确率,减小分类误差的效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于基因表达特征的细胞分类方法的流程示意图;
图2为本发明实施例提供的另一种基于基因表达特征的细胞分类方法的流程示意图;
图3为本发明实施例提供的一种具体的基于基因表达特征的细胞分类方法的流程示意图;
图4为本发明实施例提供的一种基于基因表达特征的细胞分类装置的结构示意图;
图5为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
单细胞转录组测序技术是近年来细胞研究中的一种重要技术手段。由于大部分肿瘤细胞起源于上皮细胞,因此肿瘤组织内部同时含有恶性肿瘤细胞与非恶性的上皮细胞,并且这两类细胞在基因表达层面具有一定的相似性,在单细胞测序数据的分析过程中,一个重要的问题就是如何将二者区分开来。过往的研究表明,大部分的恶性肿瘤细胞相比于正常细胞具有更高的整体拷贝数变异(copy number variation,简称CNV)水平。现有研究主要采用的策略正是利用计算手段评估每个细胞的CNV整体水平,并以此对肿瘤细胞与正常上皮细胞进行初步分类,从而进一步对分类后的细胞进行分析,其具体的计算策略是:1)在细胞i中,计算基因j所在染色体位置上下游各50个基因的平均表达值CNV0(i,j);2)计算全体细胞中基因j平均表达值的平均值Base(j);3)计算CNV0(i,j)减去Base(j),得到CNV(i,j);4)计算细胞i中,全体基因CNV的平方和,以此估计细胞i的CNV整体水平。
2014年TCGA组织发表在Nature杂志的胃腺癌分析文章指出,胃癌群体中存在一类CNV整体水平较低的类型,而其他部位的肿瘤也可能存在类似的CNV水平较低的亚群。因此在通过计算每个细胞的CNV整体水平的方法来细胞是否正常进行区分时往往存在准确率低、误差大等问题。
基于此,本发明实施例提供的一种基于基因表达特征的细胞分类方法、装置及电子设备,通过该方法可以缓解现有单细胞测序数据分析中细胞分类方法局限性大、准确率低的问题。为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于基因表达特征的细胞分类方法进行详细介绍,参见图1所示的一种基于基因表达特征的细胞分类方法的流程示意图,该方法可以由电子设备执行,主要包括以下S110至S140:
S110,计算第一组织样本与第二组织样本的第一差异表达基因。
其中,第一差异表达基因包括第一组织样本与第二组织样本中表达不一致的若干个基因。
具体的,第一组织样本可以是非正常组织样本,如肿瘤组织样本;第二组织样本可以是正常组织样本,组织样本可以包括若干个细胞。计算差异表达基因可以首先在两类组织样本中分别进行组织测序,得到多个细胞的平均基因表达,然后确定两类组织中大量细胞的平均基因表达中表达不一致的若干个基因,得到第一差异表达基因。
S120,基于第一差异表达基因,选取在第一组织样本和第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集。
其中,第一数量可以根据组织样本中所包含的细胞数量、差异表达基因种类以及计算精度等参数来确定,一般可以为几十个。例如,第一组织样本为肿瘤组织样本,第二组织样本为正常组织样本,肿瘤组织样本中有大量肿瘤细胞,正常组织样本中有大量正常上皮细胞;计算肿瘤组织样本与正常组织样本的差异表达基因,根据排名在肿瘤组织中选择高表达的前50个基因组成集合T(第一组织特征基因集),以及在正常组织中选择高表达的前50个基因组成集合N(第二组织特征基因集)。其中,不同组织样本的数据可以从公开数据库获得,如癌症和肿瘤基因图谱(The Cancer Genome Atlas,TCGA)等。
进一步的,高表达可以是指基因在组织样本中的平均表达值较大,或者是指基因在两种组织样本中的变化倍数较大,例如,将差异基因按照变化倍数排序,基因a在第一组织样本中的平均表达是3,在第二组织样本中的平均表达是1,则基因a的变化倍数为3,基因a是第一组织样本中的高表达基因。
S130,计算第一组织特征基因集和第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值。
其中,细胞群体包括若干个细胞。
S140,基于第一平均表达值和第二平均表达值,采用聚类算法将细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
其中,聚类算法可以是K均值聚类算法、K中心点聚类算法等。
例如,对细胞群体中的若干个细胞分别计算集合T和集合N的平均表达值,并记为E(T)和E(N),根据计算得到的平均表达值E(T)和E(N),采用K均值聚类算法将细胞群体中的全部细胞聚成两类,根据聚类结果可以区分肿瘤细胞群体和正常上皮细胞群体。
本实施例提供的基于基因表达特征的细胞分类方法,通过计算第一组织样本与第二组织样本的第一差异表达基因,将第一差异表达基因按表达频率排序后,分别在第一组织样本与第二组织样本中获取排序中的前第一数量个基因,组成第一组织特征基因集和第二组织特征基因集;计算第一组织特征基因集和第二组织特征基因集在细胞群体的每个细胞中的第一平均表达值和第二平均表达值,并采用聚类算法将细胞群体中的细胞分为第一细胞群体和第二细胞群体两类,能够降低现有单细胞测序数据分析中细胞分类方法的局限性,实现提高细胞分类准确率,减小分类误差的效果。
在一些实施方式中,上述步骤S120包括:
步骤a),确定所述第一差异表达基因在所述第一组织样本中的平均表达值大于在所述第二组织样本中的平均表达值的第一差异基因;
步骤b),计算所述第一差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;
步骤c),基于所述变化倍数将所述第一差异基因排序,并获取排序中的前第一数量个基因组成第一组织特征基因集;
步骤d),确定所述第一差异表达基因在所述第二组织样本中的平均表达值大于在所述第一组织样本中的平均表达值的第二差异基因;
步骤e),计算所述第二差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;
步骤f),基于所述变化倍数将所述第二差异基因排序,并获取排序中的前第一数量个基因组成第二组织特征基因集。
作为一个具体示例:第一组织样本和第二组织样本比较,得到差异表达基因,其中在第一组织样本中高表达的基因为第一组织特征基因集,在第二组织样本中高表达的为第二组织差异基因集。差异基因可以按照变化倍数排序,例如,基因a在第一组织样本中的平均表达是3,在第二组织样本中的平均表达是1,则基因a的变化倍数为3,变化倍数越高说明这个基因越能体现第一组织样本的特征,反之,若在该基因在第二组织样本中的平均表达越高,则越能体现第二组织样本的特征。
在一些实施方式中,该基于基因表达特征的细胞分类方法还包括图2所示的以下步骤:
S210,计算第一细胞群体与第二细胞群体的第二差异表达基因。
其中,第二差异表达基因包括第一细胞群体与第二细胞群体中表达不一致的若干个基因。
具体的,第一细胞群体可以是非正常细胞群体,如肿瘤细胞群体;第二细胞群体可以是正常细胞群体,细胞群体可以包括若干个细胞。计算第二差异表达基因可以首先在两类细胞群体中分别进行单细胞测序,得到每个细胞的基因表达,然后在两类细胞群体中单个细胞的基因表达中确定表达不一致的若干个基因,得到第二差异表达基因。
S220,在第二差异表达基因中选取在第一细胞群体和第二细胞群体中高表达的前第一数量个基因,分别组成第一群体差异基因集和第二群体差异基因集。
例如,第一细胞群体为肿瘤细胞群体,第二细胞群体为正常细胞群体,肿瘤细胞群体中有大量肿瘤细胞,正常细胞群体中有大量正常上皮细胞;计算肿瘤细胞群体与正常细胞群体的差异表达基因,根据排名在肿瘤细胞群体中选择高表达的前50个基因组成集合T0(第一群体差异基因集),以及在正常细胞群体中选择高表达的前50个基因组成集合N0(第二群体差异基因集)。
在一些实施方式中,该基于基因表达特征的细胞分类方法还包括:
S230,如果第一组织特征基因集与第一群体差异基因集不一致,则更新第一组织特征基因集为第一群体差异基因集;或者,如果第二组织特征基因集与第二群体差异基因集不一致,则更新第二组织特征基因集为第二群体差异基因集。
例如,若集合T0与集合T不一致,或集合N0与集合N不一致,则更新集合T和集合N的值,使其分别与集合T0和集合N0一致。
在一些实施方式中,该基于基因表达特征的细胞分类方法还包括:重复执行以下操作,直至第一组织特征基因集与第一群体差异基因集一致,且第二组织特征基因集与第二群体差异基因集一致,根据此时细胞群体的分类情况确定细胞的分类结果:
步骤(1),计算第一组织特征基因集和第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值。
其中,第一组织特征基因集为更新后的第一组织特征基因集,第二组织特征基因集为更新后的第二组织特征基因集。
步骤(2),基于第一平均表达值和第二平均表达值,采用聚类算法将细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
步骤(3),计算第一细胞群体与第二细胞群体的第二差异表达基因。
其中,第二差异表达基因包括第一细胞群体与第二细胞群体中表达不一致的若干个基因。
步骤(4),将第二差异表达基因按表达频率排序,分别在第一细胞群体与第二细胞群体中获取排序中的前第一数量个基因,组成第一群体差异基因集和第二群体差异基因集。
在一些实施方式中,该基于基因表达特征的细胞分类方法还包括:
S240,如果第一组织特征基因集与第一群体差异基因集一致,且第二组织特征基因集与第二群体差异基因集一致,则根据细胞群体的分类情况确定细胞的分类结果。
本实施例提供的基于基因表达特征的细胞分类方法,将组织样本与单细胞的转录组数据结合起来,采用迭代策略反复对细胞群体进行聚类,最终能够获得稳定分类的细胞群体。
参照图3,本实施例提供了一种具体的基于基因表达特征的细胞分类方法,用于区分肿瘤细胞与正常细胞。
首先根据肿瘤组织和正常组织的组织测序结果计算第一差异表达基因,根据排序获取高表达的基因集合分别为肿瘤组织差异基因集T和正常组织差异基因集N;然后基于单细胞测序结果,分别计算集合T和集合N的平均表达值E(T)和E(N);基于平均表达值,进行K均值聚类分析,将待分类细胞分为肿瘤细胞群体和正常细胞群体两类。
进一步计算肿瘤细胞群体和正常细胞群体的第二差异表达基因,根据排序选择高表达的基因集合分别为肿瘤群体差异基因集T0和正常群体差异基因集N0;分别比较集合T与集合T0、集合N与集合N0,如果集合T与集合T0一致且集合N与集合N0一致,则输出细胞分类结果;反之,则更新集合T和集合N的值,使其分别与集合T0和集合N0一致,重复执行计算集合T和集合N的平均表达值及以后的步骤,直至满足集合T与集合T0一致且集合N与集合N0一致。
本实施例提供的基于基因表达特征的细胞分类方法不涉及评估细胞的CNV水平,因此对于部分CNV整体水平较低的肿瘤亚群,本方法能够有效克服CNV策略无法准确区分肿瘤细胞与正常上皮细胞的困难。相比于仅在单细胞数据中基于单一或多个基因的区分方法,本方法利用整体的表达谱数据,能够更准确地识别每个细胞的分子特征,同时本方法结合了组织样本的转录组数据,能够对单细胞数据进行信息补充,因此能够精确地对两类细胞进行区分。
本发明实施例提供了一种基于基因表达特征的细胞分类装置,如图4所示,该装置包括:
第一计算模块410,用于计算第一组织样本与第二组织样本的第一差异表达基因,第一差异表达基因包括第一组织样本与第二组织样本中表达不一致的若干个基因;
获取模块420,用于基于第一差异表达基因,选取在第一组织样本和第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集;
第二计算模块430,用于计算第一组织特征基因集和第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值,细胞群体包括若干个细胞;
分类模块440,用于基于第一平均表达值和第二平均表达值,采用聚类算法将细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
在一些实施方式中,获取模块包括:
确定单元,用于确定第一差异表达基因在第一组织样本中的平均表达值大于在第二组织样本中的平均表达值的第一差异基因;
计算单元,用于计算第一差异基因在第一组织样本和第二组织样本中的变化倍数;
排序单元,用于基于变化倍数将第一差异基因排序,并获取排序中的前第一数量个基因组成第一组织特征基因集;
确定单元,还用于确定第一差异表达基因在第二组织样本中的平均表达值大于在第一组织样本中的平均表达值的第二差异基因;计算单元,还用于计算第二差异基因在第一组织样本和第二组织样本中的变化倍数;排序单元,还用于基于变化倍数将第二差异基因排序,并获取排序中的前第一数量个基因组成第二组织特征基因集。
在一些实施方式中,该装置还包括:
第三计算模块,用于计算第一细胞群体与第二细胞群体的第二差异表达基因,第二差异表达基因包括第一细胞群体与第二细胞群体中表达不一致的若干个基因;
第二获取模块,用于在第二差异表达基因中选取在第一细胞群体和第二细胞群体中高表达的前第一数量个基因,分别组成第一群体差异基因集和第二群体差异基因集。
在一些实施方式中,该装置还包括:更新模块,用于如果第一组织特征基因集与第一群体差异基因集不一致,则更新第一组织特征基因集为第一群体差异基因集;更新模块还用于如果第二组织特征基因集与第二群体差异基因集不一致,则更新第二组织特征基因集为第二群体差异基因集。
在一些实施方式中,该装置还包括:判断模块,用于如果所述第一组织特征基因集与所述第一群体差异基因集一致,且所述第二组织特征基因集与所述第二群体差异基因集一致,则根据所述细胞群体的分类情况确定所述细胞的分类结果。
本申请实施例所提供的基于基因表达特征的细胞分类装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。本申请实施例提供的基于基因表达特征的细胞分类装置与上述实施例提供的基于基因表达特征的细胞分类方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本申请实施例还提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图5为本申请实施例提供的一种电子设备的结构示意图,该电子设备500包括:处理器50,存储器51,总线52和通信接口53,所述处理器50、通信接口53和存储器51通过总线52连接;处理器50用于执行存储器51中存储的可执行模块,例如计算机程序。
其中,存储器51可能包含高速随机存取存储器(RAM,RandomAccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口53(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线52可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器51用于存储程序,所述处理器50在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器50中,或者由处理器50实现。
处理器50可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器50中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器50可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器51,处理器50读取存储器51中的信息,结合其硬件完成上述方法的步骤。
对应于上述基于基因表达特征的细胞分类方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述方法的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种基于基因表达特征的细胞分类方法,其特征在于,包括:
计算第一组织样本与第二组织样本的第一差异表达基因,所述第一差异表达基因包括所述第一组织样本与所述第二组织样本中表达不一致的若干个基因;
确定所述第一差异表达基因在所述第一组织样本中的平均表达值大于在所述第二组织样本中的平均表达值的第一差异基因;
计算所述第一差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;
基于所述变化倍数将所述第一差异基因排序,并获取排序中的前第一数量个基因组成第一组织特征基因集;
确定所述第一差异表达基因在所述第二组织样本中的平均表达值大于在所述第一组织样本中的平均表达值的第二差异基因;
计算所述第二差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;
基于所述变化倍数将所述第二差异基因排序,并获取排序中的前第一数量个基因组成第二组织特征基因集;
计算所述第一组织特征基因集和所述第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值,所述细胞群体包括若干个细胞;
基于所述第一平均表达值和所述第二平均表达值,采用聚类算法将所述细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
2.根据权利要求1所述的方法,其特征在于,还包括:
计算所述第一细胞群体与所述第二细胞群体的第二差异表达基因,所述第二差异表达基因包括所述第一细胞群体与所述第二细胞群体中表达不一致的若干个基因;
在所述第二差异表达基因中选取在所述第一细胞群体和所述第二细胞群体中高表达的前第一数量个基因,分别组成第一群体差异基因集和第二群体差异基因集。
3.根据权利要求2所述的方法,其特征在于,还包括:
如果所述第一组织特征基因集与所述第一群体差异基因集不一致,则更新所述第一组织特征基因集为第一群体差异基因集;
或者,如果所述第二组织特征基因集与所述第二群体差异基因集不一致,则更新所述第二组织特征基因集为第二群体差异基因集。
4.根据权利要求3所述的方法,其特征在于,还包括:
重复执行以下操作,直至所述第一组织特征基因集与所述第一群体差异基因集一致,且所述第二组织特征基因集与所述第二群体差异基因集一致,根据此时所述细胞群体的分类情况确定所述细胞的分类结果:
计算所述第一组织特征基因集和所述第二组织特征基因集在细胞群体群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值;
基于所述第一平均表达值和所述第二平均表达值,采用聚类算法将所述细胞群体中的细胞分为第一细胞群体和第二细胞群体两类;
计算所述第一细胞群体与所述第二细胞群体的第二差异表达基因;
将所述第二差异表达基因按表达频率排序,分别在所述第一细胞群体与所述第二细胞群体中获取排序中的前第一数量个基因,组成第一群体差异基因集和第二群体差异基因集。
5.根据权利要求3所述的方法,其特征在于,还包括:
如果所述第一组织特征基因集与所述第一群体差异基因集一致,且所述第二组织特征基因集与所述第二群体差异基因集一致,则根据所述细胞群体的分类情况确定所述细胞的分类结果。
6.一种基于基因表达特征的细胞分类装置,其特征在于,包括:
第一计算模块,用于计算第一组织样本与第二组织样本的第一差异表达基因,所述第一差异表达基因包括所述第一组织样本与所述第二组织样本中表达不一致的若干个基因;
获取模块,用于基于所述第一差异表达基因,选取在所述第一组织样本和所述第二组织样本中高表达的前第一数量个基因,分别组成第一组织特征基因集和第二组织特征基因集;
所述获取模块包括:
确定单元,用于确定所述第一差异表达基因在所述第一组织样本中的平均表达值大于在所述第二组织样本中的平均表达值的第一差异基因;
计算单元,用于计算所述第一差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;
排序单元,用于基于所述变化倍数将所述第一差异基因排序,并获取排序中的前第一数量个基因组成第一组织特征基因集;
所述确定单元,还用于确定所述第一差异表达基因在所述第二组织样本中的平均表达值大于在所述第一组织样本中的平均表达值的第二差异基因;
所述计算单元,还用于计算所述第二差异基因在所述第一组织样本和所述第二组织样本中的变化倍数;
所述排序单元,还用于基于所述变化倍数将所述第二差异基因排序,并获取排序中的前第一数量个基因组成第二组织特征基因集;
第二计算模块,用于计算所述第一组织特征基因集和所述第二组织特征基因集在细胞群体的每个细胞中的平均表达值,分别记为第一平均表达值和第二平均表达值,所述细胞群体包括若干个细胞;
分类模块,用于基于所述第一平均表达值和所述第二平均表达值,采用聚类算法将所述细胞群体中的细胞分为第一细胞群体和第二细胞群体两类。
7.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至5任一项所述的方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行所述权利要求1至5任一项所述的方法。
CN202010497164.5A 2020-06-03 2020-06-03 基于基因表达特征的细胞分类方法、装置和电子设备 Active CN111681710B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010497164.5A CN111681710B (zh) 2020-06-03 2020-06-03 基于基因表达特征的细胞分类方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010497164.5A CN111681710B (zh) 2020-06-03 2020-06-03 基于基因表达特征的细胞分类方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN111681710A CN111681710A (zh) 2020-09-18
CN111681710B true CN111681710B (zh) 2021-08-27

Family

ID=72453144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010497164.5A Active CN111681710B (zh) 2020-06-03 2020-06-03 基于基因表达特征的细胞分类方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN111681710B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083522B (zh) * 2022-08-18 2022-10-28 天津诺禾致源生物信息科技有限公司 细胞类型的预测方法、装置及服务器
CN116453593B (zh) * 2023-06-12 2023-10-03 普瑞基准生物医药(苏州)有限公司 一种细胞状态特征分值的获取方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN103377317A (zh) * 2012-04-30 2013-10-30 国际商业机器公司 用于转录组测序数据的差异表达分析的排序标准化的计算机实施的方法和计算机系统
CN107609348B (zh) * 2017-08-29 2020-06-23 上海三誉华夏基因科技有限公司 高通量转录组数据样本分类数目估计方法
CN110827924B (zh) * 2019-09-23 2024-05-07 平安科技(深圳)有限公司 基因表达数据的聚类方法、装置、计算机设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法

Also Published As

Publication number Publication date
CN111681710A (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN111681710B (zh) 基于基因表达特征的细胞分类方法、装置和电子设备
JP6741216B2 (ja) ログ分析システム、方法およびプログラム
CN104794371B (zh) 检测逆转座子插入多态性的方法和装置
Lehmussola et al. Evaluating the performance of microarray segmentation algorithms
Kirsche et al. Jasmine: Population-scale structural variant comparison and analysis
CN113517022B (zh) 基因检测方法、特征提取方法、装置、设备及系统
CN107247873A (zh) 一种差异甲基化位点识别方法
Xiao et al. Modified screening and ranking algorithm for copy number variation detection
Shi et al. Sparse discriminant analysis for breast cancer biomarker identification and classification
CN110322926A (zh) miRNA海绵模块的识别方法和装置
Kim et al. MarkerCount: A stable, count-based cell type identifier for single-cell RNA-seq experiments
CN108229507A (zh) 数据分类方法以及装置
CN112217908B (zh) 基于迁移学习的信息推送方法、装置及计算机设备
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN116610987A (zh) 基于分布式样本筛选的kmeans日志分类方法和装置
CN114513341B (zh) 恶意流量检测方法、装置、终端及计算机可读存储介质
US11210605B1 (en) Dataset suitability check for machine learning
Shah et al. Model-based clustering of array CGH data
CN112132239B (zh) 一种训练方法、装置、设备和存储介质
CN111383716B (zh) 基因对的筛选方法、装置、计算机设备和存储介质
CN114550832A (zh) 蛋白组临床生物标志物整体筛选方法、系统和介质
JP2016048485A (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN113806636A (zh) 项目推荐方法、装置、电子设备和计算机存储介质
CN109686400B (zh) 一种富集程度检验方法、装置及可读介质、存储控制器
CN112860991A (zh) 基于用户习惯的书籍优选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant