CN109891508B - 单细胞类型检测方法、装置、设备和存储介质 - Google Patents

单细胞类型检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN109891508B
CN109891508B CN201980000101.XA CN201980000101A CN109891508B CN 109891508 B CN109891508 B CN 109891508B CN 201980000101 A CN201980000101 A CN 201980000101A CN 109891508 B CN109891508 B CN 109891508B
Authority
CN
China
Prior art keywords
expression
entropy
gene
data set
single cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980000101.XA
Other languages
English (en)
Other versions
CN109891508A (zh
Inventor
李辰威
刘宝琳
康博熙
刘烨丹
任仙文
张泽民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Publication of CN109891508A publication Critical patent/CN109891508A/zh
Application granted granted Critical
Publication of CN109891508B publication Critical patent/CN109891508B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明公开了一种单细胞类型检测方法、装置、设备和存储介质,所述方法包括:将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型通过训练所述参考数据得到;计算所述信息基因在所述每一类细胞中的出现概率;当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型发明名称。本发明提升单细胞表达数据的分析效率和准确度,实现迅速准确检测细胞类型。

Description

单细胞类型检测方法、装置、设备和存储介质
技术领域
本发明实施例涉及单细胞转录组测序数据分析领域,具体涉及一种单细胞类型检测方法、装置、设备和存储介质。
背景技术
在过去几年里,单细胞捕获技术有了明显的提高,科学家利用现有的技术可以捕获数十万甚至数百万的细胞。随之产生的巨大信息量给生物信息学分析带来了极大的机遇和挑战,其中对单细胞表达数据聚类是得到生物学结论至关重要的基础分析方法。如图1所示,为现有技术中单细胞分析方法流程图。现有的聚类方法在识别highly variably genes(高变异基因)时采用gini-index(基尼系数),dropout rates(流失率),以及方差等方法,对基因表达量的描述有着严重的偏差;而在类群的marker gene(标记基因)选择上使用(主成分分析)pca score(seurat)和神经网络(scQuery)等方法,对所选基因的可解释性差,且需要运用生物学知识根据算法得到的marker gene(标记基因)对类群进行注释。最近,也有细胞分类算法产生(Seurat3,scmap等),但其没有进行很好的假阳性控制且对细胞的分类从训练到预测需要大量的时间和内存。以上现有分析方法都对使用者的生物学背景和计算硬件提出了很高的要求。
随着单细胞转录组测序技术的不断发展,海量不同测序平台(Smart-seq2,10Xgenomics等)产生的数据之间如何进行整合;在可利用资源和时间受限的情况下如何准确快速的分析更多单细胞数据是现阶段急需解决的问题。
发明内容
本发明提供一种单细胞类型检测方法、装置、设备和存储介质,提升单细胞表达数据的分析效率和准确度,实现迅速准确检测细胞类型。
第一方面,本发明实施例提供了一种单细胞类型检测方法,包括:
将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型通过训练所述参考数据得到;
计算所述信息基因在所述每一类细胞中的出现概率;
当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。
进一步地,在将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因之前,还包括:
将所述表达谱数据集标准化得到基因表达量数据集;
根据所述基因表达量数据集进行表达熵计算,生成第一表达熵数据集;所述表达熵为信使核糖核酸表达的离散程度;
根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建。
进一步地,所述将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因,包括:
将所述参考数据输入所述表达熵模型中,生成所述M个基因对应的第二表达熵数据集;
根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选,确定所述参考数据中每一类细胞包含的信息基因。
进一步地,所述根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建,包括:
根据所述基因表达量数据集获得所述M个基因的平均基因表达量;
对所述第一表达熵数据集和所述平均基因表达量进行回归分析,调整所述表达熵模型的参考系数;
根据调整后的参考系数构建所述表达熵模型。
进一步地,所述方法还包括:
当接收到对待测单细胞进行检测获得的基因数据时,将所述基因数据输入所述表达熵模型得到虚拟表达熵数据集;
根据所述基因数据进行表达熵计算,生成实际表达熵数据集;
根据所述虚拟表达熵数据集和所述实际表达熵数据集进行计算,确定所述待测细胞的纯度。
进一步地,所述根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选,确定所述参考数据中每一类细胞包含的信息基因,包括:
根据所述第一表达熵数据集和所述第二表达熵数据集,获取每一所述基因对应的第一表达熵数据和第二表达熵数据;
计算每一所述基因对应的第二表达熵数据与第一表达熵数据的差值,获得所述M个基因的差值集合;
按照选取规则从所述差值集合中选出X个差值,将所述X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。
在第二方面,本发明实施例还提供一种单细胞类型检测装置,包括:
信息基因确定模块,用于将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型根据所述参考数据训练生成;
概率计算模块,用于计算所述信息基因在所述每一类细胞中的出现概率;
细胞类型确定模块,用于当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。
进一步地,所述装置还包括:
数据标准化模块,用于将所述参考数据标准化得到基因表达量数据集;
表达熵计算模块,用于根据所述基因表达量数据集进行表达熵计算,生成第一表达熵数据集;所述表达熵为信使核糖核酸的基因表达的离散程度;
模型构建模块,用于根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建。
在第三方面,本发明实施例还提供一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面提供的单细胞类型检测方法。
在第四方面,本发明实施例还提供一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行第一方面所述的单细胞类型检测方法。
本发明实施例提供的一种单细胞类型检测方法、装置、设备和存储介质,将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述表达熵模型通过训练所述参考数据得到;计算所述信息基因在所述每一类细胞中的出现概率;当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因,并计算信息基因在每一细胞类型的出现概率,最后通过计算接收到的待测单细胞属于每一类细胞类型的概率,确定待测单细胞的细胞类型,实现将待测单细胞迅速定义到已有的细胞类型中,无需进行繁琐的现有单细胞分析流程,直接给出每个细胞的类型,极大的节省了单细胞数据分析的时间和资源。
附图说明
图1为现有技术中单细胞分析方法流程图;
图2是本发明实施例的单细胞类型检测方法的第一实施例的流程示意图;
图3是本发明实施例的单细胞类型检测方法的第二实施例的流程示意图;
图4是本发明实施例的单细胞类型检测方法的第三实施例的流程示意图;
图5是本发明实施例的单细胞类型检测方法的第四实施例的流程示意图;
图6是本发明实施例的单细胞类型检测方法的第五实施例的流程示意图;
图7是本发明实施例的单细胞类型检测装置的结构示意图;
图8是本发明实施例的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
由于现有技术中单细胞分析的方法采用gini-index(基尼系数),dropout rates(流失率),以及方差等方法,对基因表达量的描述有着严重的偏差;而在类群的标记基因选择上使用主成分分析和神经网络等方法,对所选基因的可解释性差,并且现有的细胞分类算法从训练到预测需耗费大量的时间和内存。为解决现有单细胞分析技术的效率及准确率低的问题,本发明提供一种单细胞类型检测方法,通过构建并使用表达熵模型,提升单细胞表达数据的分析效率和准确度,实现迅速准确检测细胞类型。
实施例一
如图2所示,是本发明实施例的单细胞类型检测方法的第一实施例的流程示意图。本实施例可适用于单细胞转录组测序数据分析,该方法可以由处理器来执行。
需要说明的是,在将参考数据输入表达熵模型以进行单细胞类型检测之前,本发明实施例提供的一种单细胞类型检测方法还包括该表达熵模型的构建过程。
在本发明实施例中,表达熵模型的构建过程包括:
S210、将表达谱数据集标准化得到基因表达量数据集;
具体地,参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型通过训练所述参考数据得到。在此实施例中参考数据为海量不同测序平台(Smart-seq2,10Xgenomics等)产生的数据,包括26个已发表的单细胞的表达谱数据集。由于来自不同平台的数据所采用的衡量标准不一致,需对该表达谱数据集进行标准化,使得该表达谱数据集统一使用TPM(Transcripts Per Million)这一基因表达量的衡量指标,从而获得基因表达量数据集。
S220、根据所述基因表达量数据集进行表达熵计算,生成第一表达熵数据集;所述表达熵为信使核糖核酸表达的离散程度;
具体地,表达熵描述的是mRNA(信使核糖核酸)表达的离散程度。将由M个基因和N个单细胞组成的基因表达量数据集进行下游分析,即将该基因表达量数据集中每个基因的表达划分为一组向量:
Figure BDA0001963499150000071
通过计算将每个基因中的表达量每间隔120TPM划分为一个bin,从而将基因表达数据集中每个基因的表达分到不同的bin中,并且认为划分在同一个bin中的基因对应的细胞在该基因上具有相同的表达水平。根据对基因表达量数据集的划分得到表达熵的计算方法为:
Figure BDA0001963499150000072
其中,S为表达熵;bk为在第K个bin中的细胞数。
根据基因表达量数据集划分后的每一个bin所包含的细胞数代入表达熵的计算算式进行计算后生成第一表达熵数据集。
S230、根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建。
具体地,当获得第一表达熵数据集后,通过对该第一表达数据集进行训练完成表达熵模型的构建。
如图3所示,是本发明实施例的单细胞类型检测方法的第二实施例的流程示意图。进一步地,在本发明实施例的一个实施示例中,训练第一表达数据集并构建表达熵模型的过程,包括:
S310、根据所述基因表达量数据集获得所述M个基因的平均基因表达量;
具体地,根据基因表达量数据集中的M个基因的表达总量计算获得参考数据中M个基因的平均基因表达量Em
S320、对所述第一表达熵数据集和所述平均基因表达量进行回归分析,调整所述表达熵模型的参考系数;
具体地,对第一表达熵数据集和平均基因表达量进行回归分析,得到关系式:S(Em)=a·ln(b·Em+1);其中,S为表达熵;Em为平均基因表达量;将第一表达熵数据集和平均基因表达量输入上述关系式,调整上述关系式的参考系数a和b。通过对代入第一表达熵数据集计算该关系式获得的a和b的值取平均值,获得调整后的表达熵的参考系数:a=0.18;b=0.03。
S330、根据调整后的参考系数构建所述表达熵模型。
具体地,根据调整后的参考系数:a=0.18;b=0.03,得到统一的表达熵模型,该表达熵模型为:
S(Em)=0.18·ln(0.03·Em+1)
从而完成表达熵模型的构建。
图4是本发明实施例的单细胞类型检测方法的第三实施例的流程示意图。本实施例可适用于单细胞转录组测序数据分析,进一步地,在完成表达熵模型构建后,通过该表达熵进行单细胞类型检测的过程,具体包括如下步骤:
S410、将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型通过训练所述参考数据得到;
具体地,将参考数据输入表达熵模型实现更具有生物学意义的基因筛选。在本发明实施例的一个实施示例中,将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因的过程为:
将所述参考数据输入所述表达熵模型中,生成所述M个基因对应的第二表达熵数据集;根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选,确定参考数据中每一类细胞包含的信息基因(informative genes)。
S420、计算所述信息基因在所述每一类细胞中的出现概率;
需要说明的是,当确定参考数据中每一类细胞包含的信息基因后,对于参考数据中每一个细胞类型,计算信息基因i的出现概率,其出现概率的计算公式为:
Figure BDA0001963499150000091
其中,Emi是信息基因i在第j类细胞中的平均表达量。通过计算每一类细胞类型中信息基因i的出现概率,获得每个细胞类型的概率向量。
S430、当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。
具体地,当接收到对待测单细胞进行检测获得的信息基因对应的表达量时,根据表达量和信息基因在每一细胞类型的出现概率计算待测单细胞属于每一类细胞类型的概率;其中,待测单细胞属于每一类细胞类型的概率的计算公式为:
Figure BDA0001963499150000092
其中,Ei为待测单细胞的信息基因对应的表达量(log2[TPM+1])。当计算获得待测单细胞属于每一类细胞类型的概率集合,在概率集合中概率最高值(即Pj最高)所对应的细胞类型即为待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因,并计算信息基因在每一细胞类型的出现概率,最后通过计算接收到的待测单细胞属于每一类细胞类型的概率,确定待测单细胞的细胞类型,实现将待测单细胞迅速定义到已有的细胞类型中,无需进行繁琐的现有单细胞分析流程,直接给出每个细胞的类型,极大的节省了单细胞数据分析的时间和资源。
需要说明的是,本发明实施例提供的一种单细胞类型检测方法,将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述表达熵模型通过训练所述参考数据得到;计算所述信息基因在所述每一类细胞中的出现概率;当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因,并计算信息基因在每一细胞类型的出现概率,最后通过计算接收到的待测单细胞属于每一类细胞类型的概率,确定待测单细胞的细胞类型,实现将待测单细胞迅速定义到已有的细胞类型中,无需进行繁琐的现有单细胞分析流程,直接给出每个细胞的类型,极大的节省了单细胞数据分析的时间和资源。
实施例二
图5是本发明实施例的单细胞类型检测方法的第四实施例的流程示意图。在实施例一的基础上,本实施例增加了将参考数据输入表达熵模型实现基因筛选的筛选方法。在本发明实施例的一个实施示例中,本发明基于表达熵模型进行无监督基因筛选,具体步骤包括:
S510、根据所述第一表达熵数据集和所述第二表达熵数据集,获取每一所述基因对应的第一表达熵数据和第二表达熵数据;
具体地,第一表达熵数据集为根据基因表达量数据集划分后的每一个bin所包含的细胞数代入表达熵的计算算式进行计算后生成第一表达熵数据集;第二表达熵数据集为将所述参考数据输入所述表达熵模型中生成的所述M个基因对应的第二表达熵数据集。获取M个基因中每一基因对应的第一表达熵数据和第二表达熵数据。
S520、计算每一所述基因对应的第二表达熵数据与第一表达熵数据的差值,获得所述M个基因的差值集合;
具体地,根据每一基因对应的第一表达熵数据和第二表达熵数据,进行差值计算:ds(i)=S′i-Si;其中,Si为任一基因的第一表达熵数据;S′i为该基因的第二表达熵数据。每一基因的第一表达熵数据和第二表达熵数据通过上式计算后获得M个基因的差值集合。
S530、按照选取规则从所述差值集合中选出X个差值,将所述X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。
具体地,用户可以根据需求从差值集合中选出ds最大的前X个差值,将这X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。
在本发明实施例的另一个实施示例中,本发明基于表达熵模型进行有监督基因筛选E-test,具体步骤包括:用熵减作为统计量来进行有监督的基因选择。对于任意两类细胞类型T1和T2,每个基因的熵减定义为:
Figure BDA0001963499150000121
其中,Em1表示基因i在T1类细胞中的平均表达,Em2表示基因i在T2类细胞中的平均表达。因此,对于更对的细胞类型来说,每个基因的熵减定义为:
Figure BDA0001963499150000122
每一基因在参考数据中所包含的多个细胞类型的平均表达数据集通过上式计算后获得M个基因的差值集合;用户可以根据需求从差值集合中选出ds最大的前X个差值,将这X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。
实施例三
图6是本发明实施例的单细胞类型检测方法的第五实施例的流程示意图。在实施例二的基础上,本实施例增加了无监督基因筛选的应用场景。在本发明实施例的一个实施示例中,本发明基于表达熵模型进行无监督基因筛选判断一类细胞的纯度,具体步骤包括:
S610、当接收到对待测单细胞进行检测获得的基因数据时,将所述基因数据输入所述表达熵模型得到虚拟表达熵数据集;
S620、根据所述基因数据进行表达熵计算,生成实际表达熵数据集;
S630、根据所述虚拟表达熵数据集和所述实际表达熵数据集进行计算,确定所述待测细胞的纯度。
具体地,当接收到对待测单细胞进行检测获得的基因数据时,将基因数据中基因的平均表达量输入表达熵模型得到虚拟表达熵数据集,即表达熵S′i;根据基因数据进行表达熵计算,获得实际表达熵数据集,即基因经过标准化的表达熵Si。根据表达熵S′i以及基因经过标准化的表达熵Si进行计算,确定所述待测细胞的纯度,确定细胞纯度的计算公式为:
Figure BDA0001963499150000131
其中,Si是经过标准化的表达熵,S′i是通过将基因的平均表达量带入公式得到的表达熵。通过上述方法确定细胞纯度使以前没有衡量标准的一类细胞的纯度或者异质性得到了很好的定量描述。
实施例四
如图7所示,是本发明实施例的单细胞类型检测装置的结构示意图。本发明还提供一种单细胞类型检测装置,该装置可适用于执行实施例一至三任一种的单细胞类型检测方法,该装置包括:
信息基因确定模块701,用于将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型根据所述参考数据训练生成;
概率计算模块702,用于计算所述信息基因在所述每一类细胞中的出现概率;
细胞类型确定模块703,用于当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。
进一步地,所述装置还包括:
数据标准化模块704,用于将所述参考数据标准化得到基因表达量数据集;
表达熵计算模块705,用于根据所述基因表达量数据集进行表达熵计算,生成第一表达熵数据集;所述表达熵为信使核糖核酸的基因表达的离散程度;
模型构建模块706,用于根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建。
需要说明的是,本发明实施例提供的一种单细胞类型检测装置,将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述表达熵模型通过训练所述参考数据得到;计算所述信息基因在所述每一类细胞中的出现概率;当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因,并计算信息基因在每一细胞类型的出现概率,最后通过计算接收到的待测单细胞属于每一类细胞类型的概率,确定待测单细胞的细胞类型,实现将待测单细胞迅速定义到已有的细胞类型中,无需进行繁琐的现有单细胞分析流程,直接给出每个细胞的类型,极大的节省了单细胞数据分析的时间和资源。
实施例五
本发明实施例还提供一种设备,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现实施例一至实施例三中任一实施例中的单细胞类型检测方法。
如图8所示,为本发明实施例五提供的一种设备的结构示意图,该设备包括处理器801和存储装置802;设备中处理器801的数量可以是一个或多个,图8中以一个处理器801为例;设备中的处理器801和存储装置802可以通过总线或其他方式连接,图8中以通过总线连接为例。
存储装置802作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的命令处理方法对应的程序指令/模块(例如,信息基因确定模块701、概率计算模块702、细胞类型确定模块703、数据标准化模块704、表达熵计算模块705和模型构建模块706)。处理器801通过运行存储在存储装置802中的软件程序、指令以及模块,从而执行设备中的各种功能应用以及数据处理,即实现上述的命令处理方法。
实施例六
本发明实施例还提供一种存储介质,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行实施例一至实施例三中任一实施例中的单细胞类型检测方法。
当然,本发明实施例所提供的一种处理器可执行指令的存储介质,其处理器可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的单细胞类型检测方法中的相关操作。
综上所述,本发明实施例提供的一种单细胞类型检测方法、装置、设备和存储介质,将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述表达熵模型通过训练所述参考数据得到;计算所述信息基因在所述每一类细胞中的出现概率;当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型。通过向表达熵模型输入参考数据确定参考数据中每一类细胞类型包含的信息基因,并计算信息基因在每一细胞类型的出现概率,最后通过计算接收到的待测单细胞属于每一类细胞类型的概率,确定待测单细胞的细胞类型,实现将待测单细胞迅速定义到已有的细胞类型中,无需进行繁琐的现有单细胞分析流程,直接给出每个细胞的类型,极大的节省了单细胞数据分析的时间和资源。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述锂电池的充电方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种单细胞类型检测方法,其特征在于,包括:
将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型通过训练所述参考数据得到;
计算所述信息基因在所述每一类细胞中的出现概率;
当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型;
其中,在将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因之前,还包括:
将所述表达谱数据集标准化得到基因表达量数据集;
根据所述基因表达量数据集进行表达熵计算,生成第一表达熵数据集;所述表达熵为信使核糖核酸表达的离散程度;
根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建;
所述将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因,包括:
将所述参考数据输入所述表达熵模型中,生成所述M个基因对应的第二表达熵数据集;
根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选,确定所述参考数据中每一类细胞包含的信息基因。
2.如权利要求1所述的单细胞类型检测方法,其特征在于,所述根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建,包括:
根据所述基因表达量数据集获得所述M个基因的平均基因表达量;
对所述第一表达熵数据集和所述平均基因表达量进行回归分析,调整所述表达熵模型的参考系数;
根据调整后的参考系数构建所述表达熵模型。
3.如权利要求1所述的单细胞类型检测方法,其特征在于,所述方法还包括:
当接收到对待测单细胞进行检测获得的基因数据时,将所述基因数据输入所述表达熵模型得到虚拟表达熵数据集;
根据所述基因数据进行表达熵计算,生成实际表达熵数据集;
根据所述虚拟表达熵数据集和所述实际表达熵数据集进行计算,确定所述待测单细胞的纯度。
4.如权利要求1所述的单细胞类型检测方法,其特征在于,所述根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选,确定所述参考数据中每一类细胞包含的信息基因,包括:
根据所述第一表达熵数据集和所述第二表达熵数据集,获取每一所述基因对应的第一表达熵数据和第二表达熵数据;
计算每一所述基因对应的第二表达熵数据与第一表达熵数据的差值,获得所述M个基因的差值集合;
按照选取规则从所述差值集合中选出X个差值,将所述X个差值对应的基因作为所述参考数据中每一类细胞包含的信息基因。
5.一种单细胞类型检测装置,其特征在于,包括:
信息基因确定模块,用于将参考数据输入表达熵模型,确定所述参考数据中每一类细胞包含的信息基因;所述参考数据包括N个单细胞中M个基因的表达谱数据集;所述表达熵模型根据所述参考数据训练生成;
概率计算模块,用于计算所述信息基因在所述每一类细胞中的出现概率;
细胞类型确定模块,用于当接收到对待测单细胞进行检测获得的所述信息基因对应的表达量时,根据所述出现概率和所述表达量确定所述待测单细胞的细胞类型;
所述装置还包括:
数据标准化模块,用于将所述参考数据标准化得到基因表达量数据集;
表达熵计算模块,用于根据所述基因表达量数据集进行表达熵计算,生成第一表达熵数据集;所述表达熵为信使核糖核酸的基因表达的离散程度;
模型构建模块,用于根据所述第一表达熵数据集对所述表达熵模型进行训练,完成所述表达熵模型的构建;
其中,所述信息基因确定模块,具体用于:
将所述参考数据输入所述表达熵模型中,生成所述M个基因对应的第二表达熵数据集;
根据所述第一表达熵数据集和所述第二表达熵数据集进行基因筛选,确定所述参考数据中每一类细胞包含的信息基因。
6.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的单细胞类型检测方法。
7.一种存储介质,其特征在于,所述存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述存储介质所在设备执行如权利要求1至4任意一项所述的单细胞类型检测方法。
CN201980000101.XA 2019-01-29 2019-01-29 单细胞类型检测方法、装置、设备和存储介质 Active CN109891508B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2019/073647 WO2020154885A1 (zh) 2019-01-29 2019-01-29 单细胞类型检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN109891508A CN109891508A (zh) 2019-06-14
CN109891508B true CN109891508B (zh) 2023-05-23

Family

ID=66938359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980000101.XA Active CN109891508B (zh) 2019-01-29 2019-01-29 单细胞类型检测方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN109891508B (zh)
WO (1) WO2020154885A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243675A (zh) * 2020-01-07 2020-06-05 广州基迪奥生物科技有限公司 一种交互式细胞异质性分析可视化平台及其实现方法
CN112289379B (zh) * 2020-10-15 2022-11-22 天津诺禾致源生物信息科技有限公司 细胞类型的确定方法、装置、存储介质及电子装置
CN112837754B (zh) * 2020-12-25 2022-10-28 北京百奥智汇科技有限公司 一种基于特征基因的单细胞自动分类方法和装置
CN113889180B (zh) * 2021-09-30 2024-05-24 山东大学 一种基于动态网络熵的生物标记物识别方法与系统
CN114038505B (zh) * 2021-10-19 2024-06-14 清华大学 一种在线整合多来源单细胞数据的方法和系统
CN114107512B (zh) * 2022-01-26 2022-05-13 北京大学 一种免疫治疗获得性耐药的早期筛查装置及其应用
CN115083522B (zh) * 2022-08-18 2022-10-28 天津诺禾致源生物信息科技有限公司 细胞类型的预测方法、装置及服务器
CN116189770B (zh) * 2022-11-02 2023-08-18 杭州链康医学检验实验室有限公司 一种单细胞转录组rna污染去除方法、介质和设备
WO2024119330A1 (zh) * 2022-12-05 2024-06-13 深圳华大生命科学研究院 基因图像数据校正方法、系统、电子设备及存储介质
CN116564418B (zh) * 2023-04-20 2024-06-11 深圳湾实验室 细胞类群相关性网络构建方法和装置、设备及存储介质
CN117116356B (zh) * 2023-10-25 2024-01-30 智泽童康(广州)生物科技有限公司 细胞亚群关联网络图的生成方法、存储介质和服务器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092478A (ja) * 2004-09-27 2006-04-06 National Institute Of Advanced Industrial & Technology 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
CN102952854A (zh) * 2011-08-25 2013-03-06 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN104598774A (zh) * 2015-02-04 2015-05-06 河南师范大学 基于logistic与相关信息熵的特征基因选择方法
CN105297142A (zh) * 2015-08-19 2016-02-03 南方科技大学 同时对单细胞基因组和转录组构库及测序的方法基于单细胞整合基因组学的测序方法及应用
CN106295251A (zh) * 2015-05-25 2017-01-04 中国科学院青岛生物能源与过程研究所 基于单细胞表现型数据库的表型数据分析处理方法
CN106701995A (zh) * 2017-02-20 2017-05-24 元码基因科技(北京)有限公司 通过单细胞转录组测序进行细胞质量控制的方法
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010033777A2 (en) * 2008-09-19 2010-03-25 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Discovery of t -homology in a set of sequences and production of lists of t-homologous sequences with predefined properties
CN108897988A (zh) * 2018-05-14 2018-11-27 浙江大学 一种群智能寻优的结肠癌癌细胞检测仪

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092478A (ja) * 2004-09-27 2006-04-06 National Institute Of Advanced Industrial & Technology 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム
CN102952854A (zh) * 2011-08-25 2013-03-06 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN104598774A (zh) * 2015-02-04 2015-05-06 河南师范大学 基于logistic与相关信息熵的特征基因选择方法
CN106295251A (zh) * 2015-05-25 2017-01-04 中国科学院青岛生物能源与过程研究所 基于单细胞表现型数据库的表型数据分析处理方法
CN105297142A (zh) * 2015-08-19 2016-02-03 南方科技大学 同时对单细胞基因组和转录组构库及测序的方法基于单细胞整合基因组学的测序方法及应用
CN106701995A (zh) * 2017-02-20 2017-05-24 元码基因科技(北京)有限公司 通过单细胞转录组测序进行细胞质量控制的方法
CN108520249A (zh) * 2018-04-19 2018-09-11 赵乐 一种细胞分类器的构建方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Single-cell entropy for accurate estimation of differentiation potency from a cell’s transcriptome;Andrew E. Teschendorff等;《nature communications》;20170601;全文 *
单细胞基因表达分析技术在神经科学研究中的应用;李旭平等;《生理科学进展》;20060130(第01期);全文 *

Also Published As

Publication number Publication date
WO2020154885A1 (zh) 2020-08-06
CN109891508A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN109891508B (zh) 单细胞类型检测方法、装置、设备和存储介质
CN106650780B (zh) 数据处理方法及装置、分类器训练方法及系统
Sun et al. An objective-based scenario selection method for transmission network expansion planning with multivariate stochasticity in load and renewable energy sources
Jaskowiak et al. On the selection of appropriate distances for gene expression data clustering
WO2022213789A1 (zh) 锂电池soc估计方法、装置及计算机可读存储介质
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN113780443B (zh) 一种面向威胁检测的网络安全态势评估方法
CN109633448B (zh) 识别电池健康状态的方法、装置和终端设备
CN112287980B (zh) 基于典型特征向量的动力电池筛选方法
CN112363896A (zh) 日志异常检测系统
CN112305441B (zh) 一种集成式聚类下的动力电池健康状态评估方法
CN115409395A (zh) 一种水利施工工程的质量验收检查方法及系统
CN110796159A (zh) 基于k-means算法的电力数据分类方法及系统
US20230385597A1 (en) Multi-granularity perception integrated learning method, device, computer equipment and medium
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
Kim et al. A method to identify differential expression profiles of time-course gene data with Fourier transformation
CN116365519B (zh) 一种电力负荷预测方法、系统、存储介质及设备
CN112070180B (zh) 基于信息物理双侧数据的电网设备状态判断方法及装置
CN115831219B (zh) 一种质量预测方法、装置、设备及存储介质
CN116466237B (zh) 一种锂电池的充电安全监测预警方法及系统
CN113591400B (zh) 一种基于特征相关性分区回归的电力调度监控数据异常检测方法
CN112485694B (zh) 电池组的检测方法及装置
CN112102882B (zh) 一种用于肿瘤样本ngs检测流程的质控系统和方法
CN109726401B (zh) 一种专利组合生成方法及系统
Ycart et al. Checking False Discovery Rates on Pvplots

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant