CN112837754A - 一种基于特征基因的单细胞自动分类方法和装置 - Google Patents

一种基于特征基因的单细胞自动分类方法和装置 Download PDF

Info

Publication number
CN112837754A
CN112837754A CN202011567060.3A CN202011567060A CN112837754A CN 112837754 A CN112837754 A CN 112837754A CN 202011567060 A CN202011567060 A CN 202011567060A CN 112837754 A CN112837754 A CN 112837754A
Authority
CN
China
Prior art keywords
cell
gene expression
gene
characteristic
negative binomial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011567060.3A
Other languages
English (en)
Other versions
CN112837754B (zh
Inventor
黄智豪
周祺
康博熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baiaozhihui Technology Co ltd
Original Assignee
Beijing Baiaozhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baiaozhihui Technology Co ltd filed Critical Beijing Baiaozhihui Technology Co ltd
Priority to CN202011567060.3A priority Critical patent/CN112837754B/zh
Publication of CN112837754A publication Critical patent/CN112837754A/zh
Application granted granted Critical
Publication of CN112837754B publication Critical patent/CN112837754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于特征基因的单细胞自动分类方法和装置,所述方法包括:将单细胞基因表达矩阵进行数据过滤、标准化和选择高变异基因后,进行降维处理和聚类处理,获得一个或多个细胞类群;采用负二项分布,从细胞类群中筛选特征基因集;将筛选的特征基因集与细胞类型数据库进行比对,采用超几何分布对比对结果进行检验统计,完成单细胞类型注释和单细胞自动分类。本发明的基于特征基因的单细胞自动分类方法AngryCell涵盖数据预处理、降维聚类、基于负二项分布的特征基因筛选、基于超几何分布的细胞类型匹配以及下游富集分析以及结果可视化等部分,获得的结果可靠准确、可解释性强。

Description

一种基于特征基因的单细胞自动分类方法和装置
技术领域
本发明属于单细胞测序技术领域,涉及一种基于特征基因的单细胞自动分类方法和装置。
背景技术
目前,主流的单细胞转录组数据分析流程的核心步骤包括:获取单细胞基因表达定量矩阵并进行降维处理,将同一批实验测到的所有细胞分为数个细胞类群,这一步骤即聚类(Clustering);接下来将各个细胞类群互相比较,找到每个细胞类群特征性高表达的基因,称为特征基因(Marker);再根据特征基因,预测每个细胞类群所属的细胞类型,并对每个细胞类群进行标注(Cluster annotation),标注的细胞数据用于科学问题的深度分析,这种对单细胞类群进行标注的过程称为单细胞分类。
单细胞分类在大部分单细胞数据分析过程中由人工完成。数据分析人员在获取特征基因后,通过查询数据库、文献或根据经验,对每个细胞类群的归属进行预测和判断。这一预测过程完全由人为判断,既耗时耗力,又受到操作者的经验限制,有时会出现错误。另外,由于人工行为不具有可重复性,往往导致结果的科学可靠性受到质疑。因此,近年来国际上逐步建立了单细胞数据的自动分类方法。已有的单细胞自动分类方法有两种思路:一种基于参考数据,一种基于参考基因集。
基于参考数据的自动分类方法包括SingleR(Aran D,Looney AP,Liu L,etal.Reference-based analysis of lung single-cell sequencing reveals atransitional profibrotic macrophage[J].Nature immunology,2019,20(2):163-172.)、SCMAP(Kiselev V Y,Yiu A,Hemberg M.scmap:projection of single-cell RNA-seq data across data sets[J].Nature methods,2018,15(5):359-362.)和SciBet(LiC,Liu B,Kang B,et al.SciBet as a portable and fast single cell typeidentifier[J].Nature communications,2020,11(1):1-8.)等。该方法使用人工标注的单细胞数据作为参考,进行模型拟合,再利用拟合的模型对新的单细胞数据进行预测,可以归类为使用机器学习的方法。基于参考数据的自动分类方法既可以对单个细胞进行预测,也可以对聚类产生的细胞类群进行预测。
基于参考基因集的自动分类方法目前仅有Garnett(Pliner H A,Shendure J,Trapnell C.Supervised classification enables rapid annotation of cell atlases[J].Nature methods,2019,16(10):983-986.)一种。它的原理是使用人工定义的各种细胞类型的特征基因集,先在待检测的单细胞数据中寻找符合特征基因定义的阳性细胞,再使用阳性细胞拟合模型,对剩下的单细胞数据进行预测,这一方法也归类于机器学习方法。
然而,基于参考数据的自动分类方法的最大问题是不能完全脱离人工监督。机器学习方法需要根据合适的已经进行人工鉴定的数据,才能够对新数据做出预测判断,如果没有已经标注好的单细胞数据,该方法将不能使用。对于单细胞测序方兴未艾的今天,很多单细胞数据来源于从未研究过的疾病和组织,研究者仅仅知道其中可能存在的细胞类型,没有可以用作拟合数据的单细胞数据集;其次,模型拟合方法给出的结果是否准确,完全取决于参考数据的准确性,如果标注的数据质量差或存在错误,则新数据的预测结果将存在错误;再次,该方法只能拟合参考数据里已经覆盖的细胞类型,对于参考数据里不存在的细胞类型,该方法无法学习其特征,鉴定出的细胞类型会较参考数据中的细胞类型更少。目前,单细胞测序研究的重要目的是发现新的细胞类群,而现有的基于参考数据的自动分类方法不能完全满足这一需要。
基于参考基因集的自动分类方法,Garnett的问题是使用了复杂的网络模型设置细胞身份,计算缓慢,效果也不甚理想。同时,该方法需要使用者手工指定细胞类型的参考基因列表,尽管有一些数据库可供查询,但是很难得到一个高质量的参考基因列表。在两次分析中,如果不同的分析人员输入了不同的参考基因列表,计算结果可能截然不同。因此,这一方法受到操作者人为因素的影响较大。
以上方法都使用了机器学习的核心思想,模型是拟合得出的,必然无法脱离参考数据,且存在一定程度的难以解释的成分。对每个自动判断的细胞类群,既不输出其他潜在的候选类型,也不输出判断依据,结果的可解释性较差。总而言之,现有的自动化分析方法无法完全复现分析人员在进行细胞标注时的思考过程,结果的可利用性较低。
发明内容
针对现有技术的不足和实际需求,本发明提供了一种基于特征基因的单细胞自动分类方法和装置,所述方法基于特征基因进行单细胞自动分类,避免了参考数据的限制性,模拟分析人员的决策过程,给出判断依据,结果的可解释性强,分类标准统一,结果的准确性和可靠性高。
为达此目的,本发明采用以下技术方案:
第一方面,本发明提供了一种基于特征基因的单细胞自动分类方法,所述方法包括:
将单细胞基因表达矩阵进行数据过滤、标准化和选择高变异基因后,进行降维处理和聚类处理,获得一个或多个细胞类群;
采用负二项分布,从细胞类群中筛选特征基因集;
将筛选的特征基因集与细胞类型数据库进行比对,采用超几何分布对比对结果进行检验统计,完成单细胞类型注释和单细胞自动分类。
本发明中,基于特征基因的单细胞自动分类方法AngryCell将单细胞基因表达矩阵进行预处理、降维聚类处理后,采用基于负二项分布的特征基因筛选方法和基于超几何分布的细胞类型匹配方法,不依赖于参考数据和机器学习思想,实现了基于特征基因的单细胞自动分类,各个步骤各司其职、承上启下、相辅相成,保证了分类结果的准确性和可解释性。
优选地,所述基于特征基因的单细胞自动分类方法AngryCell首先将单细胞基因表达矩阵和细胞样本信息作为输入数据,过滤去除质量不合格的细胞和基因,并进行数据标准化,移除测序深度差异的影响;随后基于方差值的排序,选择具体参数(例如,前2000个基因)作为高变异基因;
采用传统的线性降维方法,将基于高变基因X细胞的零均值化表达矩阵进行降维处理,例如采用奇异值分解方法或主成分分析(PCA)获取低维(<100d)空间信息,引用Seurat基于社区划分的Louvain算法进行聚类处理,获得一个或多个细胞类群;
从细胞类群中筛选特征基因集,并与细胞类型数据库进行比对,完成单细胞类型注释和单细胞自动分类。
优选地,所述特征基因集的筛选方法根据单细胞基因表达量平均数与基因零表达比例呈负二项分布的特性,确定每个细胞类群的零表达比例阈值,根据零表达比例阈值筛选特征基因集,包括:
根据细胞类群的基因表达数据获取基因表达量平均数μ和基因表达量方差Var,将所述基因表达量平均数μ和基因表达量方差Var进行数学拟合,获得细胞类群的负二项分布参数
Figure BDA0002861942870000051
根据细胞类群的基因表达量平均数μ和负二项分布参数
Figure BDA0002861942870000052
计算负二项分布拟合的零表达比例
Figure BDA0002861942870000053
并根据初始零表达比例α确定零表达比例阈值cutoff;
根据零表达比例阈值cutoff筛选细胞类群的特征基因集。
优选地,所述基因表达量平均数和基因表达量方差进行数学拟合的公式为:
Figure BDA0002861942870000054
其中,μ为基因表达量平均数,
Figure BDA0002861942870000055
为负二项分布参数,Var为基因表达量方差;
所述负二项分布拟合的零表达比例的计算公式为:
Figure BDA0002861942870000056
其中,μ为基因表达量平均数,
Figure BDA0002861942870000057
为负二项分布参数,
Figure BDA0002861942870000058
为负二项分布拟合的零表达比例;
所述零表达比例阈值为:
Figure BDA0002861942870000059
其中,α为初始零表达比例,
Figure BDA00028619428700000510
为负二项分布参数,cutoff为零表达比例阈值。
在一个具体实施例中,AngryCell根据管家基因负二项分布拟合的零表达比例
Figure BDA0002861942870000061
和初始零表达比例α,筛选特征基因集。
本发明中,细胞分群特征基因集的筛选是AngryCell的关键部分,根据单细胞基因表达量平均数与基因零表达比例之间特殊的负二项分布关系,AngryCell用基因零表达比例直接推断每个细胞类群的特征基因,避免了进行细胞类群间的差异基因分析,显著节省了程序运行时间。
本发明中,细胞类群的零表达比例阈值可以设置为统一的数值,也可以根据负二项分布的标准化模型拟合计算,拟合计算的零表达比例阈值反应了细胞类群的异质性,异质性越大,拟合的零表达比例阈值越低,获取的特征基因数量也越少,标准化模型拟合的零表达比例阈值可以使异质性大的细胞类群偏向于大类的注释,提高细胞注释的准确度。
优选地,AngryCell的细胞注释基于细胞类型特征基因比对的原理进行,细胞类型特征基因收集于名为AngryCellDB的细胞类型数据库中,共分为三层注释:第一层为最大类,第二层为细胞类型,第三层为细分的亚类,用户根据数据的来源和质量情况选择不同层次的注释;AngryCell根据筛选的特征基因集和选择的数据库进行比对,并采用超几何分布对比对结果进行检验统计,获取的细胞类型匹配值P进行Benjamini-Hochberg校正,细胞类型匹配值P越小,代表预测的细胞类型越可信。
优选地,所述细胞类型匹配值P的计算公式为:
Figure BDA0002861942870000062
其中,N为所有基因数目,M为细胞类型数据库基因数目,n为细胞类群的特征基因数目,k为匹配的基因数目,P为细胞类型匹配值。
本发明中,AngryCell的另一关键部分是对细胞类群的注释匹配,结合特征基因集和细胞类型数据库AngryCellDB,对每个细胞类群进行快速且准确的细胞类型注释,输出数据类型丰富,包括表格、基因表达图或网络富集图,可视化和可读性高。
第二方面,本发明提供了一种基于特征基因的单细胞自动分类装置,所述装置包括:
数据预处理模块,用于将单细胞基因表达矩阵进行数据过滤和标准化;
高变异基因选择模块,用于根据数据的方差值去除噪音数据;
降维处理模块,用于对过滤和标准化的单细胞基因表达矩阵进行奇异值分解和/或主成分分析;
聚类处理模块,用于基于Louvain算法处理降维的单细胞基因表达数据;
细胞注释模块,包括特征基因集筛选单元和数据比对单元,用于基于负二项分布筛选细胞类群的特征基因集,并将筛选的特征基因集与细胞类型数据库进行比对。
优选地,所述特征基因集筛选单元用于:
根据细胞类群的基因表达数据获取基因表达量平均数和基因表达量方差,将所述基因表达量平均数和基因表达量方差进行数学拟合,获得细胞类群的负二项分布参数;
根据细胞类群的基因表达量平均数和负二项分布参数,计算负二项分布拟合的零表达比例,并根据初始零表达比例确定零表达比例阈值;
根据零表达比例阈值筛选细胞类群的特征基因集;
所述基因表达量平均数和基因表达量方差进行数学拟合的公式为:
Figure BDA0002861942870000081
其中,μ为基因表达量平均数,
Figure BDA0002861942870000082
为负二项分布参数,Var为基因表达量方差;
所述负二项分布拟合的零表达比例的计算公式为:
Figure BDA0002861942870000083
其中,μ为基因表达量平均数,
Figure BDA0002861942870000084
为负二项分布参数,
Figure BDA0002861942870000085
为负二项分布拟合的零表达比例;
所述零表达比例阈值为:
Figure BDA0002861942870000086
其中,α为初始零表达比例,
Figure BDA0002861942870000087
为负二项分布参数,cutoff为零表达比例阈值。
优选地,所述数据比对单元包括:
采用超几何分布计算比对结果的细胞类型匹配值,并对所述细胞类型匹配值进行Benjamini-Hochberg校正;
所述细胞类型匹配值的计算公式为:
Figure BDA0002861942870000091
其中,N为所有基因数目,M为细胞类型数据库基因数目,n为细胞类群的特征基因数目,k为匹配的基因数目,P为细胞类型匹配值。
与现有技术相比,本发明具有如下有益效果:
(1)本发明的基于特征基因的单细胞自动分类方法AngryCell从单细胞基因表达矩阵开始,到细胞类型注释和结果可视化,过程涵盖数据预处理、降维聚类、特征基因筛选、细胞类型匹配以及下游富集分析以及结果可视化等部分,包含多项自主研发的算法和数据架构,如基于负二项分布的特征基因选择算法和基于超几何分布的细胞类型匹配算法,各个算法各司其职、承上启下、相辅相成,保证结果的可靠性;
(2)AngryCell特征基因筛选不依赖于参考数据和机器学习思想,根据单细胞基因表达量平均数与基因零表达比例呈负二项分布关系,用基因零表达比例直接推断每个细胞类群的特征基因,避免了进行细胞类群间的差异基因分析,显著节省了程序运行时间;
(3)AngryCell细胞类型注释基于筛选的特征基因和细胞类型数据库,输出结果包含匹配细胞类型的特征基因以及文献来源等,与人工注释结果匹配度高,结果准确,可视化效果丰富多样,可解释性强。
附图说明
图1为单细胞自动分类方法AngryCell的主流程图;
图2为单细胞自动分类方法AngryCell的框图;
图3为不同类型免疫细胞的特征基因集;
图4A为PBMC的细胞类型注释结果的网络富集图,图4B为PBMC的细胞类型注释结果的基因表达图。
具体实施方式
为进一步阐述本发明所采取的技术手段及其效果,以下结合实施例和附图对本发明作进一步地说明。可以理解的是,此处所描述的具体实施方式仅仅用于解释本发明,而非对本发明的限定。
实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。
实施例1
基于特征基因的单细胞自动分类方法AngryCell的主流程图如图1所示,框图如图2所示,步骤如下:
(1)数据预处理:将单细胞基因表达矩阵和细胞样本信息作为输入数据,过滤去除质量不合格的细胞和基因,并进行数据标准化,移除测序深度差异的影响;
(2)高变异基因选择:基于方差值的排序,选择前2000个基因作为高变异基因;
(3)降维:采用传统的线性降维方法,例如奇异值分解方法或Seurat的主成分分析(PCA)方法,将基于高变基因X细胞的零均值化表达矩阵进行降维处理,获取低维(<100d)空间信息;
(4)聚类:引用Seurat基于社区划分的Louvain算法进行聚类处理,获得多个细胞类群;
(5)细胞类型注释:基于负二项分布和零表达比例的标准化模型,从细胞类群中筛选特征基因集,并与收集有公共数据库(Cellmarker、NCBI)和文献报道的细胞类型特征基因的细胞类型数据库AngryCellDB进行比对,基于超几何分布进行检验统计,完成单细胞类型注释和单细胞自动分类;
(6)输出表格、基因表达图或网络富集图等可视化数据。
其中,基于负二项分布和零表达比例的标准化模型:
Figure BDA0002861942870000111
Figure BDA0002861942870000112
基于超几何分布进行检验统计:
Figure BDA0002861942870000113
实施例2
本实施例以公共10×PBMC数据为测试数据,进行过滤、标准化、选择高变异基因、降维聚类处理后,获得多个细胞类群,对所述细胞类群进行细胞类型注释,步骤如下:
(1)特征基因集筛选
根据细胞类群的管家基因表达数据获取管家基因表达量平均数μ和管家基因表达量方差Var,将所述管家基因表达量平均数μ和管家基因表达量方差Var进行数学拟合,获得细胞类群的负二项分布参数
Figure BDA0002861942870000121
Figure BDA0002861942870000122
根据细胞类群的管家基因表达量平均数μ和负二项分布参数
Figure BDA0002861942870000123
计算负二项分布拟合的零表达比例
Figure BDA0002861942870000124
并根据初始零表达比例α确定零表达比例阈值cutoff;
Figure BDA0002861942870000125
Figure BDA0002861942870000126
根据零表达比例阈值cutoff筛选细胞类群的特征基因集;
如图3所示,不同类型免疫细胞的特征基因集位于负二项分布曲线的右下方;
(2)特征基因集与细胞类型数据库的比对
采用超几何分布计算比对结果的细胞类型匹配值,并对所述细胞类型匹配值进行Benjamini-Hochberg校正;
所述细胞类型匹配值的计算公式为:
Figure BDA0002861942870000127
其中,N为所有基因数目,M为细胞类型数据库基因数目,n为细胞类群的特征基因数目,k为匹配的基因数目,P为细胞类型匹配值,P越小,代表预测的细胞类型越可信。
表1
Figure BDA0002861942870000131
如表1、图4A和图4B所示为输出结果,从不同角度反映了PBMC的细胞类型注释结果,表1中,Celltype_predicted是AngryCell的自动注释结果,可以匹配人工注释的结果Orig_Idents,还展示了特征基因(Specific marker)、参考文献(Reference)等重要信息。
综上所述,本发明的基于特征基因的单细胞自动分类方法根据单细胞基因表达量平均数与基因零表达比例呈负二项分布关系,用基因零表达比例直接推断每个细胞类群的特征基因,避免了参考数据的限制性,模拟分析人员的决策过程,给出判断依据,结果的可解释性强。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (10)

1.一种基于特征基因的单细胞自动分类方法,其特征在于,所述方法包括:
将单细胞基因表达矩阵进行数据过滤、标准化和选择高变异基因后,进行降维处理和聚类处理,获得一个或多个细胞类群;
采用负二项分布,从细胞类群中筛选特征基因集;
将筛选的特征基因集与细胞类型数据库进行比对,采用超几何分布对比对结果进行检验统计,完成单细胞类型注释和单细胞自动分类。
2.根据权利要求1所述的方法,其特征在于,所述特征基因集的筛选方法包括:
根据细胞类群的基因表达数据获取基因表达量平均数和基因表达量方差,将所述基因表达量平均数和基因表达量方差进行数学拟合,获得细胞类群的负二项分布参数;
根据细胞类群的基因表达量平均数和负二项分布参数,计算负二项分布拟合的零表达比例,并根据初始零表达比例确定零表达比例阈值;
根据零表达比例阈值筛选细胞类群的特征基因集。
3.根据权利要求2所述的方法,其特征在于,所述基因表达量平均数和基因表达量方差进行数学拟合的公式为:
Figure FDA0002861942860000011
其中,μ为基因表达量平均数,
Figure FDA0002861942860000012
为负二项分布参数,Var为基因表达量方差;
所述负二项分布拟合的零表达比例的计算公式为:
Figure FDA0002861942860000013
其中,μ为基因表达量平均数,
Figure FDA0002861942860000021
为负二项分布参数,
Figure FDA0002861942860000022
为负二项分布拟合的零表达比例;
所述零表达比例阈值为:
Figure FDA0002861942860000023
其中,α为初始零表达比例,
Figure FDA0002861942860000024
为负二项分布参数,cutoff为零表达比例阈值。
4.根据权利要求1所述的方法,其特征在于,所述采用超几何分布对比对结果进行检验统计包括:
采用超几何分布计算比对结果的细胞类型匹配值,并对所述细胞类型匹配值进行Benjamini-Hochberg校正。
5.根据权利要求4所述的方法,其特征在于,所述细胞类型匹配值的计算公式为:
Figure FDA0002861942860000025
其中,N为所有基因数目,M为细胞类型数据库基因数目,n为细胞类群的特征基因数目,k为匹配的基因数目,P为细胞类型匹配值。
6.根据权利要求1所述的方法,其特征在于,所述降维处理包括对过滤和标准化的单细胞基因表达矩阵进行奇异值分解和/或主成分分析。
7.根据权利要求1所述的方法,其特征在于,所述聚类处理包括采用Louvain算法处理降维的单细胞基因表达数据。
8.一种基于特征基因的单细胞自动分类装置,其特征在于,所述装置包括:
数据预处理模块,用于将单细胞基因表达矩阵进行数据过滤和标准化;
高变异基因选择模块,用于根据数据的方差值去除噪音数据;
降维处理模块,用于对过滤和标准化的单细胞基因表达矩阵进行奇异值分解和/或主成分分析;
聚类处理模块,用于基于Louvain算法处理降维的单细胞基因表达数据;
细胞注释模块,包括特征基因集筛选单元和数据比对单元,用于基于负二项分布筛选细胞类群的特征基因集,并将筛选的特征基因集与细胞类型数据库进行比对。
9.根据权利要求8所述的装置,其特征在于,所述特征基因集筛选单元用于:
根据细胞类群的基因表达数据获取基因表达量平均数和基因表达量方差,将所述基因表达量平均数和基因表达量方差进行数学拟合,获得细胞类群的负二项分布参数;
根据细胞类群的基因表达量平均数和负二项分布参数,计算负二项分布拟合的零表达比例,并根据初始零表达比例确定零表达比例阈值;
根据零表达比例阈值筛选细胞类群的特征基因集;
所述基因表达量平均数和基因表达量方差进行数学拟合的公式为:
Figure FDA0002861942860000031
其中,μ为基因表达量平均数,
Figure FDA0002861942860000032
为负二项分布参数,Var为基因表达量方差;
所述负二项分布拟合的零表达比例的计算公式为:
Figure FDA0002861942860000041
其中,μ为基因表达量平均数,
Figure FDA0002861942860000042
为负二项分布参数,
Figure FDA0002861942860000043
为负二项分布拟合的零表达比例;
所述零表达比例阈值为:
Figure FDA0002861942860000044
其中,α为初始零表达比例,
Figure FDA0002861942860000045
为负二项分布参数,cutoff为零表达比例阈值。
10.根据权利要求8所述的装置,其特征在于,所述数据比对单元包括:
采用超几何分布计算比对结果的细胞类型匹配值,并对所述细胞类型匹配值进行Benjamini-Hochberg校正;
所述细胞类型匹配值的计算公式为:
Figure FDA0002861942860000046
其中,N为所有基因数目,M为细胞类型数据库基因数目,n为细胞类群的特征基因数目,k为匹配的基因数目,P为细胞类型匹配值。
CN202011567060.3A 2020-12-25 2020-12-25 一种基于特征基因的单细胞自动分类方法和装置 Active CN112837754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011567060.3A CN112837754B (zh) 2020-12-25 2020-12-25 一种基于特征基因的单细胞自动分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011567060.3A CN112837754B (zh) 2020-12-25 2020-12-25 一种基于特征基因的单细胞自动分类方法和装置

Publications (2)

Publication Number Publication Date
CN112837754A true CN112837754A (zh) 2021-05-25
CN112837754B CN112837754B (zh) 2022-10-28

Family

ID=75924756

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011567060.3A Active CN112837754B (zh) 2020-12-25 2020-12-25 一种基于特征基因的单细胞自动分类方法和装置

Country Status (1)

Country Link
CN (1) CN112837754B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380341A (zh) * 2021-06-10 2021-09-10 北京百奥智汇科技有限公司 一种药物靶标毒性预测模型的构建方法及其应用
CN115579055A (zh) * 2022-12-05 2023-01-06 百图生科(苏州)智能科技有限公司 细胞对象分类方法、装置、电子设备和存储介质
WO2024117241A1 (ja) * 2022-12-02 2024-06-06 富士フイルム株式会社 情報処理装置、情報処理装置の作動方法、および情報処理装置の作動プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102952854A (zh) * 2011-08-25 2013-03-06 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
CN109891508A (zh) * 2019-01-29 2019-06-14 北京大学 单细胞类型检测方法、装置、设备和存储介质
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
CN111798925A (zh) * 2020-06-28 2020-10-20 东南大学 基于基因表达谱识别组织样本中细胞类型及组分的方法
CN111951892A (zh) * 2020-08-04 2020-11-17 荣联科技集团股份有限公司 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102952854A (zh) * 2011-08-25 2013-03-06 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
US20140206006A1 (en) * 2011-08-25 2014-07-24 Bgi Shenzhen Single cell classification method, gene screening method and device thereof
CN109891508A (zh) * 2019-01-29 2019-06-14 北京大学 单细胞类型检测方法、装置、设备和存储介质
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
CN111798925A (zh) * 2020-06-28 2020-10-20 东南大学 基于基因表达谱识别组织样本中细胞类型及组分的方法
CN111951892A (zh) * 2020-08-04 2020-11-17 荣联科技集团股份有限公司 一种基于单细胞测序数据分析细胞轨迹的方法及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENWEI LI 等: "SciBet as a portable and fast single cell type identifier", 《NATURE COMMUNICATIONS》 *
鹿无为: "DESeq2的建模原理及简单用法", 《简书》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380341A (zh) * 2021-06-10 2021-09-10 北京百奥智汇科技有限公司 一种药物靶标毒性预测模型的构建方法及其应用
CN113380341B (zh) * 2021-06-10 2024-05-17 北京百奥智汇科技有限公司 一种药物靶标毒性预测模型的构建方法及其应用
WO2024117241A1 (ja) * 2022-12-02 2024-06-06 富士フイルム株式会社 情報処理装置、情報処理装置の作動方法、および情報処理装置の作動プログラム
CN115579055A (zh) * 2022-12-05 2023-01-06 百图生科(苏州)智能科技有限公司 细胞对象分类方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112837754B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN112837754B (zh) 一种基于特征基因的单细胞自动分类方法和装置
Grabusts The choice of metrics for clustering algorithms
CN107944487B (zh) 一种基于混合协同过滤算法的作物育种品种推荐方法
WO2019042097A1 (zh) 系统参数设计空间优化方法及装置
CN116189764A (zh) 基于单细胞转录组测序数据的分析方法、装置及设备
CN108537249B (zh) 一种密度峰值聚类的工业过程数据聚类方法
CN108519760A (zh) 一种基于变点检测理论的制丝过程稳态识别方法
CN114996525A (zh) 一种大数据的分析方法及系统
CN110544047A (zh) 一种不良数据辨识方法
CN103136440B (zh) 数据处理方法和装置
CN116681556A (zh) 一种基于教育大数据的智慧远程教学云平台系统及方法
CN116646014A (zh) 基于多重蛋白流式数据筛选设门分群方法、装置
CN116756373A (zh) 基于知识图谱更新的项目评审专家筛选方法、系统及介质
CN115527610A (zh) 一种单细胞组学数据的聚类分析方法
Zachariasen et al. Identification of representative species-specific genes for abundance measurements
CN112488410A (zh) 基于设备综合效率的生产设备性能优化方法及装置
Tinnevelt et al. Resolving complex hierarchies in chemical mixtures: how chemometrics may serve in understanding the immune system
CN113298148A (zh) 一种面向生态环境评价的不平衡数据重采样方法
CN111080150A (zh) 生产数据分析方法、装置、设备及介质
CN107609348B (zh) 高通量转录组数据样本分类数目估计方法
CN118092362B (zh) 烧结过程异常原因分析方法、装置及设备
CN111143436A (zh) 用于大数据的数据挖掘方法
CN111755079B (zh) 一种多晶硅最优原料配比方案确定方法及系统
CN115346604B (zh) Dna样本均衡性分析方法及装置
CN118294407B (zh) 一种近红外光谱建模样本筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant