CN115083522B - 细胞类型的预测方法、装置及服务器 - Google Patents

细胞类型的预测方法、装置及服务器 Download PDF

Info

Publication number
CN115083522B
CN115083522B CN202210989777.XA CN202210989777A CN115083522B CN 115083522 B CN115083522 B CN 115083522B CN 202210989777 A CN202210989777 A CN 202210989777A CN 115083522 B CN115083522 B CN 115083522B
Authority
CN
China
Prior art keywords
cell
marker gene
sub
type
population
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210989777.XA
Other languages
English (en)
Other versions
CN115083522A (zh
Inventor
陈明
李本萍
王一鸣
张丽君
吴帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Novogene Biological Information Technology Co ltd
Original Assignee
Tianjin Novogene Biological Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Novogene Biological Information Technology Co ltd filed Critical Tianjin Novogene Biological Information Technology Co ltd
Priority to CN202210989777.XA priority Critical patent/CN115083522B/zh
Publication of CN115083522A publication Critical patent/CN115083522A/zh
Application granted granted Critical
Publication of CN115083522B publication Critical patent/CN115083522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种细胞类型的预测方法、装置及服务器,涉及细胞类型测量的技术领域,包括:获取待预测细胞群的分群结果;根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值;对每个子细胞群进行差异分析,得到每个子细胞群中对应的标记基因的差异倍数;根据表达值和差异倍数,确定每个子细胞群的预测细胞类型。本发明可以显著提升细胞类型预测的速度和精确度。

Description

细胞类型的预测方法、装置及服务器
技术领域
本发明涉及细胞类型测量的技术领域,尤其是涉及一种细胞类型的预测方法、装置及服务器。
背景技术
在单细胞转录组测序数据的生物信息分析流程中,细胞类型定义是单细胞数据分析的关键环节,目前,相关技术提出,可以通过算法及定义工具代替人工进行细胞类型的定义,基于细胞标记基因集,根据细胞群的标记基因表达量进行打分,该方案忽略了同一细胞存在多种标记基因的可能性,从而导致特异性较差,进而使细胞类型预测结果的准确度较低。
发明内容
有鉴于此,本发明的目的在于提供一种细胞类型的预测方法、装置及服务器,通过模拟人工细胞类型定义过程,可以显著提升细胞类型预测的速度和精确度。
第一方面,本发明实施例提供了一种细胞类型的预测方法,方法包括:获取待预测细胞群的分群结果;其中,分群结果是根据待预测细胞群的单细胞转录组数据得到的分群结果包括多个子细胞群;根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值;对每个子细胞群进行差异分析,得到每个子细胞群中对应的标记基因的差异倍数;根据表达值和差异倍数,确定每个子细胞群的预测细胞类型。
在一种实施方式中,根据表达值和差异倍数,确定每个子细胞群的预测细胞类型的步骤,包括:对于每个子细胞群对应的每个标记基因,将该标记基因的表达值与差异倍数相乘,得到该标记基因的基因打分结果;对于每个子细胞群,获取该子细胞群中每个细胞对应的标记基因类别,并将标记基因类别相同的细胞对应的标记基因的基因打分结果相加,得到标记基因类别的第一类别打分结果;根据该子细胞群中每个标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型。
在一种实施方式中,方法还包括:如果该子细胞群中的细胞包含未标记基因,将标记基因类别相同的细胞对应的未标记基因的基因打分结果相加,得到标记基因类别的第二类别打分结果;将第一类别打分结果与第二类别打分结果相减得到目标打分结果;根据目标打分结果确定该子细胞群的预测细胞类型。
在一种实施方式中,根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值的步骤,包括:根据预先配置的标记基因集确定目标标记基因,将目标标记基因带入子细胞群对应的表达矩阵中,得到每个子细胞群对应的标记基因的表达值。
在一种实施方式中,根据该子细胞群中每个标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型的步骤,包括:对于每个标记基因类别,确定属于该标记基因类别的细胞相对于子细胞群的数量占比;如果数量占比满足预设阈值,则确定该标记基因类别为有效标记基因类别;根据有效标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型。
在一种实施方式中,方法还包括:如果数量占比不满足预设阈值,则确定该标记基因类别为无效标记基因类别;当子细胞群中无效标记基因类别的第一类别打分结果大于零,且有效标记基因类别的第一类别打分结果小于或等于零,则确定子细胞群为未定义子细胞群。
在一种实施方式中,在根据表达值和差异倍数,确定每个子细胞群的预测细胞类型的步骤之后,方法包括:通过对单细胞转录组数据进行初步分析,确定第一分群结果,并计算第一分群结果中一级子细胞群的预测细胞类型,其中,初步分析包括校正和降维聚类;基于一级子细胞群的预测细胞类型建立细胞类型树;其中,细胞类型树包括多级子细胞群;将当前级子细胞群对应的上一级子细胞群作为节点,计算当前级子细胞群的预测细胞类型,并将当前级子细胞群的预测细胞类型替代上一级子细胞群的预测细胞类型,作为细胞类型树的目标定义结果。
第二方面,本发明实施例还提供一种细胞类型的预测装置,装置包括:初步分析模块,获取待预测细胞群的分群结果;其中,分群结果是根据待预测细胞群的单细胞转录组数据得到的分群结果包括多个子细胞群;表达值确定模块,根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值;差异倍数确定模块,对每个子细胞群进行差异分析,得到每个子细胞群中对应的标记基因的差异倍数;细胞类型预测模块,根据表达值和差异倍数,确定每个子细胞群的预测细胞类型。
第三方面,本发明实施例还提供一种服务器,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现第一方面提供的任一项的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面提供的任一项的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种细胞类型的预测方法、装置及服务器,其中,获取待预测细胞群的分群结果;根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值;对每个子细胞群进行差异分析,得到每个子细胞群中对应的标记基因的差异倍数;根据表达值和差异倍数,确定每个子细胞群的预测细胞类型。上述方法在预测细胞类型时,同时考虑了细胞标记基因的表达量和特异性,提供了更为准确可靠的定义结果,并且没有细胞标记基因数量的限制,即使只有一个细胞标记基因也可以正常进行细胞类型的定义,相较于相关技术中,基于细胞标记基因集,根据细胞群的标记基因表达量进行打分,或基于参考数据集或训练好的机器学习模型,通过机器学习方法去对细胞类型进行定义的方案,本发明实施例通过模拟人工细胞类型定义过程,可以显著提升细胞类型预测的速度和精确度。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种细胞分群的示意图;
图2为本发明实施例提供的一种细胞类型的预测方法的流程示意图;
图3为本发明实施例提供的一种细胞类型的预测方法的算法流程示意图;
图4为本发明实施例提供的一种递归回帖算法的示意图;
图5为本发明实施例提供的一种细胞类型的预测方法的信号处理流程示意图;
图6为本发明实施例提供的一种准确性测试结果的示意图;
图7为本发明实施例提供的另一种细胞类型的预测方法的流程示意图;
图8为本发明实施例提供的一种细胞类型的预测装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在单细胞转录组测序数据的生物信息分析流程中,细胞类型定义是单细胞数据分析的关键环节,在该环节中,针对通过非监督的一些方法分类得到的细胞群,根据一些细胞标记基因在细胞群中的表达情况将它们定义为不同的细胞类型,如图1所示的一种细胞分群的示意图,该环节是所有单细胞转录组数据分析的源头,如果无法对得到的细胞类群进行准确的分类和细胞类型定义,接下来的科学研究将无从展开,甚至因此会导致错误的研究结论,目前主流的细胞类型定义方法是基于细胞特异表达的标记基因对细胞群进行定义,该方法的优势是结果解释性强,较为准确,但是缺点是严重依赖研究人员的细胞生物学背景,且在细胞数量增多,测序组织复杂度变高的情况下难度显著增加,这些问题增加了单细胞数据分析的门槛,阻碍了众多的研究者利用单细胞测序技术进行研究,因此,需要开发准确度高,解释性强的自动化的细胞类型定义工具。
细胞类型定义的过程一般是基于参考数据集或者参考的细胞标记基因集作为我们的先验知识,基于这些知识通过细胞定义算法去预测新的单细胞数据集的各个细胞群的细胞类型,目前已经由多种算法及细胞类型定义工具,若基于细胞标记基因集,根据细胞群的标记基因表达量进行打分的定义方式,一般会同时使用一些统计学的方法,例如超几何检验,来最终决定细胞群的细胞类型,但该方案中很多细胞标记基因的特异性可能不是很好,这里的特异性是指,细胞标记基因并不一定只在一种细胞类型中表达,更多的情况是,在超过一种细胞类型中表达,目前已经有的技术往往考虑了细胞标记基因的表达量情况,而缺少对细胞标记基因本身特异性的考量,从而导致细胞类型定义结果出现偏移;若基于参考数据集或训练好的机器学习模型,通过机器学习方法去对细胞类型进行定义,这里的参考数据集主要来自于已经发表的文献中的人工定义结果作为标准集,一些基于统计学的方法,例如AUC或者超几何分布算法,对于细胞标记基因的数量是有要求的,太少的话无法达成统计学上的显著水平,但是实际情况是很多细胞类型的特异性标记基因数量本身较少,例如免疫细胞的特异性标记基因一般为PTPRC等;细胞类型定义往往是一个由浅入深的过程,即先定义大的类群,再将大的类群的数据单独取出后,再进行新一轮的分析,并得到组成该大群的小的细胞类群定义结果,最后将小类群回帖到大类群中。这样的过程是符合研究人员的研究进程的,也利于研究人员对于细胞定义结果进行循序渐进的研究。但是目前的细胞类型定义软件都不是这样设计的,也不支持这样的功能,基于此,本发明实施提供的细胞类型的预测方法,开发了一种应用于单细胞测序数据的新的细胞类型定义算法,并使用python编程语言实现了该算法,达到了自动化的实现准确快速的细胞类型定义效果,此外,本发明通过模拟了人工细胞类型定义的过程,通过构建细胞类型树,来实现递归回帖的细胞类型定义方式,通过模拟人工细胞类型定义过程,可以显著提升细胞类型预测的速度和精确度。
基于图1所示的一种细胞分群的示意图,本发明实施例对细胞类型的预测方法进行详细介绍,参见图2所示的一种细胞类型的预测方法的流程示意图,该方法主要包括以下步骤S202至步骤S208:
步骤S202,获取待预测细胞群的分群结果。其中,分群结果是根据待预测细胞群的单细胞转录组数据得到的分群结果包括多个子细胞群,在一种实施方式中,普通的转录相当于把一群细胞或者一个器官混合到一起去提取RNA,相当于遮盖了不同细胞类型的差异,而单细胞转录组是将选取的细胞组中的每个细胞单独提取RNA,从而保留了不同细胞类型的差异性。
在一种实施方式中,将单细胞转录组数据进行LogNormalized的校正,并通过降维聚类算法得到初步的分群结果,单细胞转录组中还包括表达矩阵。
步骤S204,根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值。其中,标记基因的表达值不是细胞群中标记基因的数量,在一种实施方式中,表达矩阵的横坐标为标记基因,纵坐标为表达值,根据预先配置的标记基因集确定目标标记基因,将目标标记基因带入子细胞群对应的表达矩阵中,得到每个子细胞群对应的标记基因的表达值。
步骤S206,对每个子细胞群进行差异分析,得到每个子细胞群中对应的标记基因的差异倍数。在一种实施方式中,使用t-test或者wilcoxon算法对细胞群进行ONE VS Rest的差异分析,即一个细胞群与剩余所有细胞进行差异基因的分析,计算差异倍数(foldchange)并计算可信度P-value,以及进行FDR的多重检验校正。
步骤S208,根据表达值和差异倍数,确定每个子细胞群的预测细胞类型。在一种实施方式中,将差异倍数作为该细胞标记基因表达值的权值,对每个细胞群一一进行细胞标记基因的打分,并根据每个细胞类型包含的细胞标记基因来对每个细胞群分别进行总的打分,即将每个细胞类型包含的细胞标记基因的打分求和作为该细胞类型在该细胞群的总的打分,并最终选取得分最高的那个细胞类型作为算法预测的细胞类型。
本发明实施例提供的上述细胞类型的预测方法,在预测细胞类型时,同时考虑了细胞标记基因的表达量和特异性,提供了更为准确可靠的定义结果,并且没有细胞标记基因数量的限制,即使只有一个细胞标记基因也可以正常进行细胞类型的定义,并且通过模拟人工细胞类型定义过程,可以显著提升细胞类型预测的速度和精确度。
本发明实施例还提供了一种确定每个子细胞群的预测细胞类型的实施方式,如图3所示的一种细胞类型的预测方法的算法流程示意图,具体的参见如下(1)至(3):
(1)对于每个子细胞群对应的每个标记基因,将该标记基因的表达值与差异倍数相乘,得到该标记基因的基因打分结果,其中,基因表达结果包括各细胞群中,各标记基因和未标记基因的表达结果,不同细胞群中的同一标记基因的表达值可能不同。
(2)对于每个子细胞群,获取该子细胞群中每个细胞对应的标记基因类别,并将标记基因类别相同的细胞对应的标记基因的基因打分结果相加,得到标记基因类别的第一类别打分结果,其中,第一类别打分结果为细胞标记基因的打分结果,在一种实施方式中,若一个细胞群中,标记基因1的打分结果为A,标记基因2的打分结果为B,标记基因3的打分结果为C,且细胞A包含标记基因1和标记基因3,则在该细胞群中,细胞A的打分结果为A+ C。
(3)如果该子细胞群中的细胞不包含未标记基因,则根据该子细胞群中每个标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型;如果该子细胞群中的细胞包含未标记基因,将标记基因类别相同的细胞对应的未标记基因的基因打分结果相加,得到标记基因类别的第二类别打分结果,将第一类别打分结果与第二类别打分结果相减得到目标打分结果,并根据目标打分结果确定该子细胞群的预测细胞类型。其中,第二打分结果为细胞未标记基因的打分结果,在一种实施方式中,当细胞群中某一细胞同时包含标记基因和未标记基因,且标记基因的打分值小于未标记基因的打分值时,则该细胞的打分结果可能为负值。
在一种实施方式中,对于每个标记基因类别,确定属于该标记基因类别的细胞相对于子细胞群的数量占比,如果数量占比满足预设阈值,则确定该标记基因类别为有效标记基因类别,根据有效标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型,其中,如果某个细胞标记基因在该细胞群中只有少量的细胞表达,超过设定的阈值(默认为70%)的细胞没有表达则该细胞标记基因的权值设置为0。
在一种实施方式中,如果数量占比不满足预设阈值,则确定该标记基因类别为无效标记基因类别,当子细胞群中无效标记基因类别的第一类别打分结果大于零,且有效标记基因类别的第一类别打分结果小于或等于零,则确定子细胞群为未定义子细胞群,其中,如果某个细胞类型中包含的细胞标记基因只有低于阈值(默认70%)的细胞标记基因在该细胞群中的打分大于0,则将该细胞群定义为undefined(未定义)。
本发明实施例还提供了一种通过递归回帖算法建立细胞类型树的实施方式,参见图4所示的一种递归回帖算法的示意图,通过对单细胞转录组数据进行初步分析,确定第一分群结果,并计算第一分群结果中一级子细胞群的预测细胞类型,其中,初步分析包括校正和降维聚类,基于一级子细胞群的预测细胞类型建立细胞类型树;将当前级子细胞群对应的上一级子细胞群作为节点,计算当前级子细胞群的预测细胞类型,并将当前级子细胞群的预测细胞类型替代上一级子细胞群的预测细胞类型,作为细胞类型树的目标定义结果,其中,细胞类型树包括多级子细胞群,在一种实施方式中,在细胞标记基因集配置文件中通过Celltype和Parent列,前者指定细胞类型,后者指定为该细胞类型的上一级细胞类型,例如CD4+T细胞的上一级是T细胞,前者是后者的一个子类,基于这两列实现一棵细胞类型树,基于构建好的树型结构,从根节点开始,在每个节点都事先将该节点包含的所有细胞取出,进而从新进行一次完整的细胞类型定义过程,该过程涉及重新的特征基因提取,降维聚类,细胞类型打分等过程,最终在每个节点都定义完成后逐步的用分支的定义结果取代上一级的定义结果,达到最终的逐步递归回帖的定义方式。
实际应用中,参见图5所示的一种细胞类型的预测方法的信号处理流程示意图,本发明提供了一种可以实现细胞类型的预测的细胞定义软件,细胞定义软件包括输入单元、处理单元和输出单元,将细胞标记基因和单细胞转录组的表达矩阵输入,处理单元对节点处的细胞类型进行降维聚类并计算细胞群的差异基因,从而进行初步分群,根据初步分群结果基于细胞标记基因的表达值和差异倍数进行打分,并构建细胞类型树,在细胞类型树的不同节点运行打分算法,从而根据分值高低定义不同细胞群所属的细胞类型,它同时考虑了细胞标记基因的表达量与特异性,达到了较高的细胞定义准确度,同时对细胞标记基因的数量没有要求,即使一个细胞标记基因也可以正常进行细胞类型的定义,此外,该算法还独创性的实现了一种递归回帖细胞类型定义过程,通过构建细胞类型关系树去逐级进行细胞类型定义,达到先定义细胞大类,再定义细胞小类,最终将小类回帖回大类的定义算法。
在一种实施方式中,参见图6所示的一种准确性测试结果的示意图,该示意图展示了不同软件对四种不同的数据集进行细胞类型预测的结果,横坐标代表软件类别,纵坐标代表预测结果与文献给出的结果一致的比率,图6中(a)展示了fast-celltype、celltypist-high、scibet、celltypist-low、CellID、SCINA、scSorter七种不同软件对脐带血数据集进行细胞定义的预测正确率,图6中(b)展示了fast-celltype、SCINA、scSorter、CellID四种不同软件对胰腺数据集进行细胞定义的预测正确率,图6中(c)展示了fast-celltype、SCINA、scSorter、CellID四种不同软件对肝组织数据集进行细胞定义的预测正确率,图6中(d)展示了fast-celltype、SCINA、scSorter、CellID四种不同软件对唾液腺数据集进行细胞定义的预测正确率,通过与目前已有的一些自动化细胞类型定义软件进行比较,可确定该细胞定义软件拥有更高的细胞类型定义准确性。
为便于对上述实施例提供的一种细胞类型的预测方法进行理解,本发明实施例提供了一种细胞类型的预测方法的应用示例,参见图7所示的另一种细胞类型的预测方法的流程示意图,该方法主要包括以下步骤S702至步骤S710:
步骤S702,对单细胞转录组数据进行校正和降维聚类,得到初步分群结果。其中,分群结果是根据待预测细胞群的单细胞转录组数据得到的分群结果包括多个子细胞群,在一种实施方式中,普通的转录相当于把一群细胞或者一个器官混合到一起去提取RNA,相当于遮盖了不同细胞类型的差异,而单细胞转录组是将选取的细胞组中的每个细胞单独提取RNA,从而保留了不同细胞类型的差异性。
在一种实施方式中,将单细胞转录组数据进行LogNormalized的校正,并通过降维聚类算法得到初步的分群结果,单细胞转录组中还包括表达矩阵。
步骤S704,针对初步分群得到的细胞群进行差异分析,计算差异倍数。在一种实施方式中,使用t-test或者wilcoxon算法对细胞群进行ONE VS Rest的差异分析,即一个细胞群与剩余所有细胞进行差异基因的分析,计算差异倍数(foldchange)并计算可信度P-value,以及进行FDR的多重检验校正。
步骤S706,获取细胞标记基因集提供的细胞标记基因和单细胞转录组的表达矩阵,并根据表达矩阵和细胞标记基因确定细胞标记基因的表达值。其中,标记基因的表达值不是细胞群中标记基因的数量,在一种实施方式中,表达矩阵的横坐标为标记基因,纵坐标为表达值,根据预先配置的标记基因集确定目标标记基因,将目标标记基因带入子细胞群对应的表达矩阵中,得到每个子细胞群对应的标记基因的表达值。
步骤S708,根据表达值和差异倍数进行打分,确定细胞群的预测细胞类型。在一种实施方式中,将差异倍数作为该细胞标记基因表达值的权值,对每个细胞群一一进行细胞标记基因的打分,并根据每个细胞类型包含的细胞标记基因来对每个细胞群分别进行总的打分,即将每个细胞类型包含的细胞标记基因的打分求和作为该细胞类型在该细胞群的总的打分,并最终选取得分最高的那个细胞类型作为算法预测的细胞类型。
步骤S710,根据细胞类型的预测结果建立细胞类型树,以各子细胞群为节点,分别重新分群、打分、预测细胞类型,得到更精确的细胞类型预测结果。在一种实施方式中,在细胞标记基因集配置文件中通过Celltype和Parent列,前者指定细胞类型,后者指定为该细胞类型的上一级细胞类型,例如CD4+T细胞的上一级是T细胞,前者是后者的一个子类,基于这两列实现一棵细胞类型树,基于构建好的树型结构,从根节点开始,在每个节点都事先将该节点包含的所有细胞取出,进而从新进行一次完整的细胞类型定义过程,该过程涉及重新的特征基因提取,降维聚类,细胞类型打分等过程,最终在每个节点都定义完成后逐步的用分支的定义结果取代上一级的定义结果,达到最终的逐步递归回帖的定义方式。
综上所述,本发明基于细胞标记基因集进行细胞类型的预测,预测过程同时考虑了细胞标记基因的表达量和特异性,提供了更为准确可靠的定义结果,且没有细胞标记基因数量的限制,即使只有一个细胞标记基因也可以正常进行细胞类型的定义;同时模拟了人工进行细胞类型定义的方式,遵循研究规律,递归的逐步对细胞类型进行定义,保留了中间的定义过程,最终通过将小的细胞群回帖到大群的方式来进行逐步的细胞类型定义,从而可以显著提升细胞类型预测的速度和精确度。
对于前述实施例提供的细胞类型的预测方法,本发明实施例提供了一种细胞类型的预测装置,参见图8所示的一种细胞类型的预测装置的结构示意图,该装置包括以下部分:
初步分析模块802,获取待预测细胞群的分群结果;其中,分群结果是根据待预测细胞群的单细胞转录组数据得到的分群结果包括多个子细胞群;
表达值确定模块804,根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值;
差异倍数确定模块806,对每个子细胞群进行差异分析,得到每个子细胞群中对应的标记基因的差异倍数;
细胞类型预测模块808,根据表达值和差异倍数,确定每个子细胞群的预测细胞类型。
本申请实施例提供的上述细胞类型的预测装置在预测细胞类型时,同时考虑了细胞标记基因的表达量和特异性,提供了更为准确可靠的定义结果,并且没有细胞标记基因数量的限制,即使只有一个细胞标记基因也可以正常进行细胞类型的定义,并且通过模拟人工细胞类型定义过程,可以显著提升细胞类型预测的速度和精确度。
一种实施方式中,在进行根据表达值和差异倍数,确定每个子细胞群的预测细胞类型的步骤时,上述细胞类型预测模块808还用于:对于每个子细胞群对应的每个标记基因,将该标记基因的表达值与差异倍数相乘,得到该标记基因的基因打分结果;对于每个子细胞群,获取该子细胞群中每个细胞对应的标记基因类别,并将标记基因类别相同的细胞对应的标记基因的基因打分结果相加,得到标记基因类别的第一类别打分结果;根据该子细胞群中每个标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型。
一种实施方式中,上述细胞类型预测模块808还用于:如果该子细胞群中的细胞包含未标记基因,将标记基因类别相同的细胞对应的未标记基因的基因打分结果相加,得到标记基因类别的第二类别打分结果;将第一类别打分结果与第二类别打分结果相减得到目标打分结果;根据目标打分结果确定该子细胞群的预测细胞类型。
一种实施方式中,在进行根据预先配置的标记基因集,确定每个子细胞群对应的标记基因的表达值的步骤时,上述表达值确定模块804还用于:根据预先配置的标记基因集确定目标标记基因,将目标标记基因带入子细胞群对应的表达矩阵中,得到每个子细胞群对应的标记基因的表达值。
一种实施方式中,在进行根据该子细胞群中每个标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型的步骤时,上述细胞类型预测模块808还用于:对于每个标记基因类别,确定属于该标记基因类别的细胞相对于子细胞群的数量占比;如果数量占比满足预设阈值,则确定该标记基因类别为有效标记基因类别;根据有效标记基因类别的第一类别打分结果,确定该子细胞群的预测细胞类型。
一种实施方式中,上述细胞类型预测模块808还用于:如果数量占比不满足预设阈值,则确定该标记基因类别为无效标记基因类别;当子细胞群中无效标记基因类别的第一类别打分结果大于零,且有效标记基因类别的第一类别打分结果小于或等于零,则确定子细胞群为未定义子细胞群。
一种实施方式中,在进行根据表达值和差异倍数,确定每个子细胞群的预测细胞类型的步骤之后,上述细胞类型预测模块808还用于:通过对单细胞转录组数据进行初步分析,确定第一分群结果,并计算第一分群结果中一级子细胞群的预测细胞类型,其中,初步分析包括校正和降维聚类;基于一级子细胞群的预测细胞类型建立细胞类型树;其中,细胞类型树包括多级子细胞群;将当前级子细胞群对应的上一级子细胞群作为节点,计算当前级子细胞群的预测细胞类型,并将当前级子细胞群的预测细胞类型替代上一级子细胞群的预测细胞类型,作为细胞类型树的目标定义结果。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种电子设备,具体的,该电子设备包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法 。
图9为本发明实施例提供的一种电子设备的结构示意图,该电子设备100包括:处理器90,存储器91,总线92和通信接口93,所述处理器90、通信接口93和存储器91通过总线92连接;处理器90用于执行存储器91中存储的可执行模块,例如计算机程序。
其中,存储器91可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口93(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线92可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器91用于存储程序,所述处理器90在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器90中,或者由处理器90实现。
处理器90可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器90中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器90可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器91,处理器90读取存储器91中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种细胞类型的预测方法,其特征在于,所述方法包括:
获取待预测细胞群的分群结果;其中,所述分群结果是根据所述待预测细胞群的单细胞转录组数据得到的,所述分群结果包括多个子细胞群;
根据预先配置的标记基因集,确定每个所述子细胞群对应的标记基因的表达值;
对所述每个所述子细胞群进行差异分析,得到每个所述子细胞群中对应的所述标记基因的差异倍数;
根据所述表达值和所述差异倍数对每个所述子细胞群对应的每个标记基因进行打分,得到该标记基因的基因打分结果;
对于每个所述子细胞群,获取该子细胞群中每个细胞对应的标记基因类别,并将所述标记基因类别相同的细胞对应的标记基因的所述基因打分结果相加,得到所述标记基因类别的第一类别打分结果;
根据该子细胞群中每个所述标记基因类别的所述第一类别打分结果,确定该子细胞群的预测细胞类型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述表达值和所述差异倍数对每个所述子细胞群对应的每个标记基因进行打分,得到该标记基因的基因打分结果的步骤,包括:
对于每个所述子细胞群对应的每个标记基因,将该标记基因的所述表达值与所述差异倍数相乘,得到该标记基因的基因打分结果。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果该子细胞群中的所述细胞包含未标记基因,将所述标记基因类别相同的所述细胞对应的所述未标记基因的所述基因打分结果相加,得到所述标记基因类别的第二类别打分结果;
将所述第一类别打分结果与所述第二类别打分结果相减得到目标打分结果;
根据所述目标打分结果确定该子细胞群的预测细胞类型。
4.根据权利要求1所述的方法,其特征在于,所述根据预先配置的标记基因集,确定每个所述子细胞群对应的标记基因的表达值的步骤,包括:
根据预先配置的标记基因集确定目标标记基因,将所述目标标记基因带入所述子细胞群对应的表达矩阵中,得到每个所述子细胞群对应的标记基因的表达值。
5.根据权利要求1所述的方法,其特征在于,所述根据该子细胞群中每个所述标记基因类别的所述第一类别打分结果,确定该子细胞群的预测细胞类型的步骤,包括:
对于每个所述标记基因类别,确定属于该标记基因类别的细胞相对于所述子细胞群的数量占比;
如果所述数量占比满足预设阈值,则确定该标记基因类别为有效标记基因类别;
根据所述有效标记基因类别的所述第一类别打分结果,确定该子细胞群的预测细胞类型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
如果所述数量占比不满足预设阈值,则确定该标记基因类别为无效标记基因类别;
当所述子细胞群中所述无效标记基因类别的所述第一类别打分结果大于零,且所述有效标记基因类别的所述第一类别打分结果小于或等于零,则确定所述子细胞群为未定义子细胞群。
7.根据权利要求1所述的方法,其特征在于,在所述根据该子细胞群中每个所述标记基因类别的所述第一类别打分结果,确定该子细胞群的预测细胞类型的步骤之后,所述方法包括:
通过对所述单细胞转录组数据进行初步分析,确定第一分群结果,并计算所述第一分群结果中一级子细胞群的所述预测细胞类型,其中,所述初步分析包括校正和降维聚类;
基于一级子细胞群的所述预测细胞类型建立细胞类型树;其中,所述细胞类型树包括多级子细胞群;
将当前级子细胞群对应的上一级子细胞群作为节点,计算所述当前级子细胞群的所述预测细胞类型,并将所述当前级子细胞群的所述预测细胞类型替代所述上一级子细胞群的所述预测细胞类型,作为所述细胞类型树的目标定义结果。
8.一种细胞类型的预测装置,其特征在于,所述装置包括:
初步分析模块,获取待预测细胞群的分群结果;其中,所述分群结果是根据所述待预测细胞群的单细胞转录组数据得到的,所述分群结果包括多个子细胞群;
表达值确定模块,根据预先配置的标记基因集,确定每个所述子细胞群对应的标记基因的表达值;
差异倍数确定模块,对所述每个所述子细胞群进行差异分析,得到每个所述子细胞群中对应的所述标记基因的差异倍数;
细胞类型预测模块,根据所述表达值和所述差异倍数对每个所述子细胞群对应的每个标记基因进行打分,得到该标记基因的基因打分结果;
对于每个所述子细胞群,获取该子细胞群中每个细胞对应的标记基因类别,并将所述标记基因类别相同的细胞对应的标记基因的所述基因打分结果相加,得到所述标记基因类别的第一类别打分结果;
根据该子细胞群中每个所述标记基因类别的所述第一类别打分结果,确定该子细胞群的预测细胞类型。
9.一种服务器,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至7任一项所述的方法。
CN202210989777.XA 2022-08-18 2022-08-18 细胞类型的预测方法、装置及服务器 Active CN115083522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210989777.XA CN115083522B (zh) 2022-08-18 2022-08-18 细胞类型的预测方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210989777.XA CN115083522B (zh) 2022-08-18 2022-08-18 细胞类型的预测方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN115083522A CN115083522A (zh) 2022-09-20
CN115083522B true CN115083522B (zh) 2022-10-28

Family

ID=83244315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210989777.XA Active CN115083522B (zh) 2022-08-18 2022-08-18 细胞类型的预测方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN115083522B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110582578A (zh) * 2017-02-10 2019-12-17 洛克菲勒大学 用于细胞类型特异性谱分析以鉴定药物靶标的方法
CN111627502A (zh) * 2020-05-22 2020-09-04 中山大学 一种单细胞数据可视化的方法、系统、装置及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589099B2 (en) * 2011-07-21 2017-03-07 The Chinese University Of Hong Kong Determination of gene expression levels of a cell type
WO2020154885A1 (zh) * 2019-01-29 2020-08-06 北京大学 单细胞类型检测方法、装置、设备和存储介质
EP4055611A1 (en) * 2019-11-08 2022-09-14 Regeneron Pharmaceuticals, Inc. Accurate and robust information-deconvolution from bulk tissue transcriptomes
CN111681710B (zh) * 2020-06-03 2021-08-27 中国人民解放军军事科学院军事医学研究院 基于基因表达特征的细胞分类方法、装置和电子设备
CN112289379B (zh) * 2020-10-15 2022-11-22 天津诺禾致源生物信息科技有限公司 细胞类型的确定方法、装置、存储介质及电子装置
CN113674800B (zh) * 2021-08-25 2022-02-08 中国农业科学院蔬菜花卉研究所 基于单细胞转录组测序数据的细胞聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110582578A (zh) * 2017-02-10 2019-12-17 洛克菲勒大学 用于细胞类型特异性谱分析以鉴定药物靶标的方法
CN111627502A (zh) * 2020-05-22 2020-09-04 中山大学 一种单细胞数据可视化的方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN115083522A (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
WO2020140386A1 (zh) 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN112256828B (zh) 医学实体关系抽取方法、装置、计算机设备及可读存储介质
US10262272B2 (en) Active machine learning
US11915104B2 (en) Normalizing text attributes for machine learning models
CN110084271B (zh) 一种图片类别的识别方法和装置
CN111309912A (zh) 文本分类方法、装置、计算机设备及存储介质
CN114021799A (zh) 风电场日前风电功率预测方法及系统
CN108154198A (zh) 知识库实体归一方法、系统、终端和计算机可读存储介质
CN109918498B (zh) 一种问题入库方法和装置
CN112560964A (zh) 基于半监督学习训练中草药病虫害识别模型的方法与系统
CN110362814B (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN108108347B (zh) 对话模式分析系统及方法
US20230170047A1 (en) Genetic testing method, signature extraction method, apparatus, device, and system
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
CN110491443B (zh) 一种基于投影邻域非负矩阵分解的lncRNA蛋白质关联预测方法
CN116401555A (zh) 双胞识别模型的构建方法、系统及存储介质
CN115083522B (zh) 细胞类型的预测方法、装置及服务器
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN113344125A (zh) 长文本匹配识别方法、装置、电子设备及存储介质
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
EP3929928A1 (en) Associating pedigree scores and similarity scores for plant feature prediction
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN112183622A (zh) 一种移动应用bots安装作弊检测方法、装置、设备及介质
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant