CN117116364B - 单细胞数据库及其关联细胞亚群自动推荐方法 - Google Patents
单细胞数据库及其关联细胞亚群自动推荐方法 Download PDFInfo
- Publication number
- CN117116364B CN117116364B CN202311385435.8A CN202311385435A CN117116364B CN 117116364 B CN117116364 B CN 117116364B CN 202311385435 A CN202311385435 A CN 202311385435A CN 117116364 B CN117116364 B CN 117116364B
- Authority
- CN
- China
- Prior art keywords
- cell
- subset
- single cell
- similarity
- subgroup
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000010276 construction Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 230000014509 gene expression Effects 0.000 claims description 121
- 108090000623 proteins and genes Proteins 0.000 claims description 100
- 239000011159 matrix material Substances 0.000 claims description 96
- 230000000875 corresponding effect Effects 0.000 claims description 86
- 238000004422 calculation algorithm Methods 0.000 claims description 65
- 238000007477 logistic regression Methods 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 49
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000011160 research Methods 0.000 claims description 19
- 238000010219 correlation analysis Methods 0.000 claims description 16
- 230000002596 correlated effect Effects 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 101100367084 Caenorhabditis elegans such-1 gene Proteins 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 101150010487 are gene Proteins 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- POFWRMVFWIJXHP-UHFFFAOYSA-N n-benzyl-9-(oxan-2-yl)purin-6-amine Chemical compound C=1C=CC=CC=1CNC(C=1N=C2)=NC=NC=1N2C1CCCCO1 POFWRMVFWIJXHP-UHFFFAOYSA-N 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24317—Piecewise classification, i.e. whereby each classification requires several discriminant rules
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种单细胞数据库构建方法、单细胞数据库、基于单细胞数据库的关联细胞亚群自动推荐方法、存储介质和服务器。该构建方法为:S1.收录多个单细胞数据集中各个细胞亚群及其功能信息;S2.通过计算细胞亚群之间的相似度来确定上述各个细胞亚群的关联细胞亚群信息,并收录这些关联细胞亚群信息。按照上述构建方法构建得到的单细胞数据库能够基于用户所查询的细胞亚群自动为用户推荐与其所查询的细胞亚群关联性较高的其他细胞亚群,用户据此进行横向对比分析。
Description
技术领域
本发明涉及单细胞数据库技术领域,尤其涉及一种单细胞数据库及其构建方法,以及基于单细胞数据库的关联细胞亚群自动推荐方法。
背景技术
单细胞测序技术能够揭示每个细胞独特的基因表达特征,精细区分细胞类型,便于系统化地深入研究细胞间的相互作用关系,在肿瘤研究、免疫研究、神经生物学研究、发育研究等领域发挥着重要作用。业内已有大量学者发表了关于单细胞数据研究的文献,积累了大量研究数据。目前业内有不少公司收集这些研究数据进行整理,开发出一些单细胞数据库。但现有单细胞数据库存在以下缺陷:用户查询细胞亚群类型只能得到该细胞亚群类型的功能信息,不便于与其他细胞亚群进行横向对比分析。
发明内容
本发明所要达到的目的是提供一种单细胞数据库构建方法、基于该方法所构建得到的单细胞数据库、基于该单细胞数据库的关联细胞亚群自动推荐方法、存储有被执行时实现该方法的计算机程序的计算机可读存储介质以及可执行该关联细胞亚群自动推荐方法的单细胞数据库服务器,按照该构建方法所构建的单细胞数据库可以实现上述关联细胞亚群自动推荐方法,即该构建方法所构建的单细胞数据库能够基于用户所查询的细胞亚群自动为用户推荐与其所查询的细胞亚群关联性较高的其他细胞亚群,便于用户将所查询的细胞亚群和与该细胞亚群关联性较高的其他细胞亚群进行横向对比分析。
为了达到上述目的,本发明提供了一种单细胞数据库构建方法,按照如下步骤收录对应数据从而构建得到单细胞数据库:
S1.收录多个单细胞数据集中的各个细胞亚群以及各个细胞亚群的功能信息;
S2.通过计算细胞亚群之间的相似度来确定上述各个细胞亚群的关联细胞亚群信息,并收录这些关联细胞亚群信息。
进一步地,该方法可选地,包括步骤S3:
S3.整理出所述多个单细胞数据集的核心功能表达元件,并把各个核心功能表达元件收录至核心功能表达元件列表中。
进一步地,该方法包括步骤S4:
S4.把全部细胞亚群划分为多个关键细胞亚群类别,并把各个关键细胞亚群类别收录至关键细胞亚群类别列表中。
进一步地,步骤S1具体地:
从多篇单细胞研究文献中分别收录其所研究的单细胞数据集、单细胞数据集中的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息;
按照上述多篇单细胞研究文献的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息,把各个单细胞数据集内的各个单细胞按照所在单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群,并为每个细胞亚群关联其所属分类标签所对应的功能信息。
进一步地,步骤S2包括以下S21和S22步骤:
S21.对每个细胞亚群,计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度;
S22.把相似度高于预设程度的细胞亚群设为本细胞亚群的关联细胞亚群。
进一步地,步骤S3包括以下步骤S31:
S31.通过约束非负矩阵分解算法和/或自组织特征图对所有单细胞数据集中的全部基因进行聚类,得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件。
进一步地,步骤S4包括以下步骤S41:
S41.采用聚类算法对各个细胞亚群进行聚类分析,从而划分为多个关键细胞亚群类别。
进一步地,所述聚类分析所采用的算法为K-means算法或高斯混合算法。
本发明还提供了一种单细胞数据库,该单细胞数据库按照如上所述的单细胞数据库构建方法构建得到。
本发明还提供了基于单细胞数据库的关联细胞亚群自动推荐方法,包括如下步骤:
P3.对每个细胞亚群,计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度;
P4.把相似度高于预设程度的细胞亚群设为本细胞亚群的关联细胞亚群;
Q.若接收到细胞亚群查询指令,则输出该指令所查询的细胞亚群的功能信息以及所查询的细胞亚群的关联细胞亚群的名称及其功能信息。
进一步地,在步骤P3之前执行如下步骤P2:
P2.构建单细胞数据集,对单细胞数据集中涉及的全部基因进行聚类,得到基因集合,构建基因集合与细胞亚群之间的信号强度矩阵。
进一步地,该方法包括在步骤P3之前或步骤P2之前执行如下步骤P1:
P1.获取单细胞数据集、其细胞亚群分类标签和对应的功能信息,并对所述单细胞数据集进行数据标准化处理。
进一步地,步骤P3按照如下步骤P31~P34中的至少两个步骤计算得出至少两个相似值,然后根据所述至少两个相似值计算所述相似度,相似度与各个相似值正相关:
P31.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的基因贡献度矩阵与所述其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的相似值Re1;
P32.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re2;
P33.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re3;
P34.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Re4。
进一步地,步骤P31经历主成分值获取步骤、主成分平均值获取步骤、细胞亚群的基因贡献度矩阵形成步骤、斯皮尔曼相关系数计算步骤实现。
进一步地,所述主成分值获取步骤包括如下P311步骤:
P311.采用主成分分析算法对各个细胞亚群中各个单细胞的基因表达矩阵进行降维分析,从而得到每个细胞亚群的各个单细胞的各个主成分值以及每个单细胞中的每个基因的各个主成分值。
进一步地,所述主成分平均值获取步骤包括如下P312步骤:
P312.根据每个细胞亚群中各个单细胞的各个主成分值,按照如下公式计算得出每个细胞亚群中的各个主成分平均值:
其中,μ n是细胞亚群中的第n个主成分平均值,Cell pin是细胞亚群中第i个单细胞的第n个主成分值,m是细胞亚群中的单细胞个数,是细胞亚群中所有单细胞的第n个主成分值之和。
进一步地,所述细胞亚群的基因贡献度矩阵形成步骤包括如下P313步骤:
P313.根据每个细胞亚群中各个主成分平均值以及该细胞亚群中每个基因的各个主成分值,按照如下公式计算得出每个细胞亚群中每个基因对细胞亚群的贡献度,据此形成每个细胞亚群的基因贡献度矩阵:
其中,Wx是细胞亚群中第x个基因对细胞亚群的贡献度,μ i是细胞亚群中的第i个主成分平均值,Gene pxi是细胞亚群中第x个基因的第i个主成分值,n是主成分的个数。
进一步地,所述斯皮尔曼相关系数计算步骤包括如下P314步骤:
P314.计算所述本细胞亚群的基因贡献度矩阵与所述其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的斯皮尔曼相关系数,该系数即是所述相似值Re1。
进一步地,步骤P32具体地,对所述其他单细胞数据集的每个细胞亚群,把该细胞亚群中各个单细胞的基因表达矩阵分别输入已训练的二项分类器,从而使该二项分类器对各个单细胞进行分类预测,得到预测结果,以该细胞亚群中预测结果是属于所述本细胞亚群的单细胞数量占该细胞亚群单细胞总数的百分比作为所述相似值Re2。
进一步地,步骤P32中,所述二项分类器经如下步骤获得:
P321.采用XGBoost构建二项分类器;
P322.以本细胞亚群所属单细胞数据集中的一个单细胞的基因表达矩阵作为输入数据,以该单细胞是否属于本细胞亚群作为输出结果,组成一组训练样本;
P323.采用多组所述的训练样本对二项分类器进行训练,从而使二项分类器具备根据单细胞的基因表达矩阵预测该单细胞是否属于所述本细胞亚群的能力。
进一步地,步骤P33具体地:对所述其他单细胞数据集的每个细胞亚群,把该细胞亚群中各个单细胞的基因表达矩阵分别输入已训练的逻辑回归模型,从而使该逻辑回归模型对各个单细胞进行分类预测,得到预测结果,以该细胞亚群中预测结果是属于所述本细胞亚群的单细胞数量占该细胞亚群单细胞总数的百分比作为所述本细胞亚群与该细胞亚群之间的相似值Re3。
进一步地,步骤P33中,所述逻辑回归模型经如下步骤获得:
P331.采用LASSO构建所述逻辑回归模型;
P332. 以本细胞亚群所属单细胞数据集中的一个单细胞的基因表达矩阵作为输入数据,以该单细胞是否属于本细胞亚群作为输出结果,组成一组训练样本;
P333.采用多组所述的训练样本对逻辑回归模型进行训练,从而使逻辑回归模型具备根据单细胞的基因表达矩阵预测该单细胞是否属于所述本细胞亚群的能力。
进一步地,步骤P34具体地:采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找所述本细胞亚群所属单细胞数据集与其他单细胞数据集之间的锚点,然后根据各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对所述其他单细胞数据集的每个细胞亚群进行预测,得到该细胞亚群属于所述本细胞亚群的概率值,以该概率值作为所述本细胞亚群与该细胞亚群之间的相似值Re4。
进一步地,步骤P2包括如下步骤:
P21.通过约束非负矩阵分解算法和/或自组织特征图对所有单细胞数据集中的全部基因进行聚类,得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件;
P22.对每个细胞亚群,计算各个核心功能表达元件在该细胞亚群中的表达强度,根据各个核心功能表达元件在该细胞亚群中的表达强度构建该细胞亚群的核心功能表达元件信号强度矩阵。
进一步地,步骤P21具体是通过约束非负矩阵分解算法和自组织特征图共同对所有单细胞数据集中的全部基因进行聚类得到多个不同功能的基因集合。
进一步地,步骤P21所述聚类的过程如下:
通过约束非负矩阵分解算法对所有数据集中的全部基因进行聚类,得到多个不同功能的初始基因集合,记为Scnmf1,Scnmf2,…ScnmfN;
通过自组织特征图对所有数据集中的所有全部基因进行聚类,得到多个不同功能的初始基因集合,记为Ssom1,Ssom2,…SsomM;
对初始基因集合Scnmf i,分别取Scnmf i与Ssom1,Ssom2,…SsomM 的交集,以所取得的每个交集作为目标基因集合,其中,i取值为1至N,所得到的各个目标基因集合作为通过约束非负矩阵分解算法和自组织特征图共同对所有单细胞数据集中的全部基因进行聚类得到多个不同功能的基因集合。
进一步地,步骤P22中具体采用单细胞数据分析软件Seurat中的AddModuleScore函数计算各个核心功能表达元件在该细胞亚群中的表达强度。
进一步地,步骤P3按照如下步骤P35~P38中的至少两个步骤计算得出至少两个相似值,然后根据所述至少两个相似值计算所述相似度,相似度与各个相似值正相关:
P35.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的核心功能表达元件信号强度矩阵与所述其他单细胞数据集的各个细胞亚群的核心功能表达元件信号强度矩阵之间的相似值Rs1;
P36.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs2;
P37.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs3;
P38.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Rs4。
进一步地,步骤P36具体地:分别把所述其他单细胞数据集的每个细胞亚群的核心功能表达元件信号强度矩阵输入已训练的二项分类器,从而使该二项分类器对每个细胞亚群进行分类预测,得到预测结果作为该细胞亚群与所述本细胞亚群之间的相似值Rs2。
进一步地,步骤P37具体地:分别把所述其他单细胞数据集的每个细胞亚群的核心功能表达元件信号强度矩阵输入已训练的逻辑回归模型,从而使该逻辑回归模型对每个细胞亚群进行分类预测,得到预测结果作为该细胞亚群与所述本细胞亚群之间的相似值Rs3。
进一步地,步骤P38具体地:采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找所述本细胞亚群所属单细胞数据集与其他单细胞数据集之间的锚点,然后根据各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对所述其他单细胞数据集的每个细胞亚群进行预测,得到该细胞亚群属于所述本细胞亚群的概率值Rs4。
进一步地,步骤P3具体是把所计算得出的至少两个相似值代入线性回归模型计算得出所述相似度,并记录为R,其中,/>是所计算得出的第i个相似值,/>为/>所占的权重。
进一步地,步骤P3具体是把所计算得出的至少两个相似值代入线性回归模型计算得出所述相似度,并记录为R,其中,/>是所计算得出的第i个相似值,/>为/>所占的权重。
进一步地,所述步骤P1包括如下步骤:
P11.获取多个单细胞数据集、每个单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息;
P12.把每个单细胞数据集内的各个单细胞按照所在单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群,并为每个细胞亚群关联其所属分类标签所对应的功能信息,以及对所述单细胞数据集进行数据标准化处理。
进一步地,步骤P11具体是从多篇单细胞研究文献中获取单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息,并通过所述多篇单细胞研究文献所提供的单细胞数据集来源信息获取对应的单细胞数据集。
本发明还提供了一种基于单细胞数据库的关联细胞亚群自动推荐方法,包括如下步骤:
P3.对每个细胞亚群,采用下述两种相似度计算方式分别计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度,两种计算方式计算得出的相似度分别记为Re、Rs;
P4.把相似度Re高于预设程度的细胞亚群以及相似度Rs高于预设程度的细胞亚群设为本细胞亚群的关联细胞亚群;
Q.若接收到细胞亚群查询指令,则输出该指令所查询的细胞亚群的功能信息以及所查询的细胞亚群的关联细胞亚群的名称及其功能信息;
其中,第一种相似度计算方式具体是按照如下步骤P31~P34当中的至少两个步骤计算得出至少两个相似值,然后根据所述至少两个相似值计算所述相似度Re,相似度Re与各个相似值正相关:
P31.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的基因贡献度矩阵与所述其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的相似值Re1;
P32.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re2;
P33.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re3;
P34.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Re4;
第二种相似度计算方式具体按照如下步骤P35~P38当中的至少两个步骤计算得出的至少两个相似值,然后根据所述至少两个相似值计算所述相似度Rs,相似度Rs与各个相似值正相关:
P35.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的核心功能表达元件信号强度矩阵与所述其他单细胞数据集的各个细胞亚群的核心功能表达元件信号强度矩阵之间的相似值Rs1;
P36.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs2;
P37.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs3;
P38.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Rs4。
进一步地,所述核心功能表达元件信号强度矩阵按照下述方式构建得到:
P21.通过约束非负矩阵分解算法和/或自组织特征图对所有单细胞数据集中的全部基因进行聚类,得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件;
P22.对每个细胞亚群,计算各个核心功能表达元件在该细胞亚群中的表达强度,根据各个核心功能表达元件在该细胞亚群中的表达强度构建该细胞亚群的核心功能表达元件信号强度矩阵。
本发明还提供了一种计算机可读存储介质,其上存储有可执行的计算机程序,该计算机程序被执行时实现如上所述的单细胞数据库构建方法或者如上所述的基于单细胞数据库的关联细胞亚群自动推荐方法。
本发明还提供了一种单细胞数据库服务器,包括处理器以及如上所述的计算机可读存储介质,该处理器执行该存储介质中的计算机程序从而实现如上所述的单细胞数据库构建方法或者如上所述的基于单细胞数据库的关联细胞亚群自动推荐方法。
按照上述单细胞数据库构建方法的步骤S1、S2进行数据收录入库,构建得到单细胞数据库。基于该单细胞数据库可以实现上述关联细胞亚群自动推荐方法,该推荐方法具体地:预先确定每个细胞亚群的关联细胞亚群,具体通过步骤P3来计算每个细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度,相似度高于预设程度的细胞亚群即是本细胞亚群的关联细胞亚群,然后即可执行步骤Q.若接收到细胞亚群查询指令,则输出该指令所查询的细胞亚群的功能信息以及所查询的细胞亚群的关联细胞亚群及其功能信息。按照上述构建方法构建得到的单细胞数据库能够基于用户所查询的细胞亚群自动为用户推荐与其所查询的细胞亚群关联性较高的其他细胞亚群,便于用户对所查询的细胞亚群和与该细胞亚群关联性较高的其他细胞亚群进行横向对比分析。
附图说明
图1是第一实施例的单细胞数据库构建方法的流程示意图。
图2是第二实施例的单细胞数据库构建方法的流程示意图。
图3是第一实施例、第二实施例的基于单细胞数据库的关联细胞亚群自动推荐方法的流程示意图。
具体实施方式
以下结合具体实施方式对本发明创造作进一步详细说明。
第一实施例
单细胞数据库服务器包括处理器和计算机可读存储介质,该计算机可读存储介质中存储有可执行的计算机程序,该处理器执行该计算机程序从而实现如图1所示的单细胞数据库构建方法以及如图3所示的基于单细胞数据库的关联细胞亚群自动推荐方法。
单细胞数据库服务器首先执行如图1所示的单细胞数据库构建方法来构建单细胞数据库,构建过程如下:
业内有许多学者会对一些单细胞数据集进行研究,然后根据单细胞数据集中的各个单细胞的功能特性归纳出若干个细胞亚群分类标签,同时给定各个细胞亚群标签所分别对应的功能信息,据此撰写一篇单细胞研究文献,文献中会包含单细胞数据集的来源信息、该单细胞数据集的若干个细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息。
单细胞数据库服务器(下文简称为服务器)从已发表的单细胞研究文献中,下载单细胞测序原始数据,并从文献及其发布的相关信息中获取数据集元数据(metadata)收录到数据库中,从而构建得到单细胞数据库,具体地,服务器获取到单细胞研究文献相关数据后,就执行图1的步骤S1:从各篇单细胞研究文献中获取其所研究的单细胞数据集的来源信息,据此从单细胞数据集来源处下载单细胞数据集,同时从各篇单细胞研究文献中获取其所研究的单细胞数据集的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息;然后把每个单细胞数据集内的各个单细胞按照该单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群,并为每个细胞亚群关联其所属分类标签所对应的功能信息,然后对各个单细胞数据集进行数据标准化处理,最后把上述各个单细胞数据集、各个细胞亚群及其功能信息收录到一个空白的数据库中,如此就初步构建得到了一个单细胞数据库。业内构建单细胞数据库时通常会对细胞亚群重新进行分类及注释,丢失了原始单细胞研究文献中对细胞亚群的功能信息注释,用户查询时难以确定原始单细胞研究文献所提到的重要细胞亚群在重新分类后的分群结果中所在的亚群,不便于用户进行跨数据集比较,难以给用户自动化地获得真正有用的信息。而本实施例在构建单细胞数据库时直接沿用单细胞研究文献的细胞亚群分类标签及其注释,这样一来,用户所查询到的就是单细胞研究文献中的细胞亚群分类结果以及功能信息,便于用户进行跨数据集比较。
由于现有的单细胞数据库只为用户展示其所查询的细胞亚群类型的简单功能信息,不便于用户将所查询的细胞亚群类型与其他细胞亚群进行横向对比分析。为了方便用户将所查询的细胞亚群类型与其他细胞亚群进行横向对比分析,故本实施例给单细胞数据库设计了关联细胞亚群自动推荐功能。要实现该功能,单细胞数据库服务器需要确定各个细胞亚群的关联细胞亚群信息,单细胞数据库服务器按照如图1的步骤S2来确定单细胞数据库中各个细胞亚群的关联细胞亚群信息,并将各个细胞亚群的关联细胞亚群信息收录到单细胞数据库中,步骤S2包括S21和S22两个步骤,具体执行过程如下:
服务器预先执行步骤S21:对单细胞数据库内划分得到的每个细胞亚群,计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度R。由于单一算法计算出来的相似值可能存在一定的局限性,不一定完全准确,为此,本实施例分别采用四种算法分别计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似值,然后再根据四个相似值结果综合计算得出最终的相似度R,如此则可避免采用单一算法进行计算的局限性。这四种算法的计算过程见下文,为便于描述,下文把上述本细胞亚群记为目标细胞亚群,本细胞亚群所属单细胞数据集记为目标单细胞数据集。
(1)基于斯皮尔曼相关系数算法的相似值计算
P311.服务器首先采用主成分分析算法(PCA算法)对各个细胞亚群的基因表达矩阵进行降维分析,从而得到每个细胞亚群的各个单细胞的各个主成分值以及每个单细胞中的每个基因的各个主成分值。
P312.服务器然后根据每个细胞亚群中各个单细胞的各个主成分值,按照如下公式计算得出每个细胞亚群中的各个主成分平均值:
其中,μ n是细胞亚群中的第n个主成分平均值,Cell pin是细胞亚群中第i个单细胞的第n个主成分值,m是细胞亚群中的单细胞个数,是细胞亚群中所有单细胞的第n个主成分值之和。
P313.服务器接着根据每个细胞亚群中各个主成分平均值以及该细胞亚群中每个基因的各个主成分值,按照如下公式计算得出每个细胞亚群中每个基因对细胞亚群的贡献度,据此形成每个细胞亚群的基因贡献度矩阵:
其中,Wx是细胞亚群中第x个基因对细胞亚群的贡献度,μ i是细胞亚群中的第i个主成分平均值,Gene pxi是细胞亚群中第x个基因的第i个主成分值,n是主成分的个数。
P314.服务器计算得出每个细胞亚群的基因贡献度矩阵之后,就采用斯皮尔曼相关系数算法,计算目标细胞亚群的基因贡献度矩阵与除目标单细胞数据集以外的其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的斯皮尔曼相关系数,以该系数作为相似值Re1。
(2)基于XGBoost二项分类器的相似值计算
技术人员需要预先按照如下步骤为每个细胞亚群构建其所对应的二项分类器:
P321.技术人员预先采用XGBoost构建二项分类器的初始模型。
P322.二项分类器的初始模型需要经过训练之后才能使用,故服务器在单细胞数据库获得了单细胞数据集以及相应的细胞亚群数据之后,就构建每个细胞亚群所对应二项分类器所需的训练样本。以细胞亚群a为例,服务器自动把该细胞亚群a所属的单细胞数据集A中的一个单细胞的基因表达矩阵作为输入数据,以该单细胞是否属于细胞亚群a作为输出结果,组成一组用于训练细胞亚群a所对应的二项分类器的训练样本,单细胞数据集A的每个单细胞都可以用来构成用于训练细胞亚群a所对应的二项分类器的训练样本,如此则可以得到多组用于训练细胞亚群a所对应的二项分类器的训练样本。
P323.服务器接着为各个细胞亚群配置其所分别对应的二项分类器的初始模型,然后采用各个细胞亚群所分别对应的二项分类器所需的多组训练样本,对各个细胞亚群所分别对应的二项分类器的初始模型进行训练,从而使二项分类器具备根据单细胞的基因表达矩阵预测该单细胞是否属于本二项分类器所对应的细胞亚群的能力。
服务器自动训练好各个细胞亚群所分别对应的二项分类器之后,就采用目标细胞亚群所对应的二项分类器,计算目标细胞亚群与除目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群的相似值Re2。以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似值Re2ab为例,细胞亚群a来自单细胞数据集A,细胞亚群b来自单细胞数据集B,服务器把细胞亚群b中各个单细胞的基因表达矩阵分别输入细胞亚群a所对应的已训练好的二项分类器,从而使该二项分类器对各个单细胞进行分类预测,得到预测结果,然后计算细胞亚群b中预测结果是属于细胞亚群a的单细胞数量占细胞亚群b的单细胞总数的百分比,以该百分比作为细胞亚群a与细胞亚群b之间的相似值Re2ab。
(3)基于LASSO逻辑回归模型的相似值计算
技术人员需要预先按照如下步骤为每个细胞亚群构建其所对应的逻辑回归模型:
P331.技术人员预先采用LASSO构建逻辑回归模型。
P332.逻辑回归模型要经过训练之后才能使用,故服务器在单细胞数据库获得了单细胞数据集以及相应的细胞亚群数据之后,就构建每个细胞亚群所对应逻辑回归模型所需的训练样本。以细胞亚群a为例,服务器自动把该细胞亚群a所属的单细胞数据集A中的一个单细胞的基因表达矩阵作为输入数据,以该单细胞是否属于细胞亚群A作为输出结果,组成一组用于训练细胞亚群a所对应的逻辑回归模型的训练样本,单细胞数据集A的每个单细胞都可以用来构成用于训练细胞亚群a所对应的逻辑回归模型的训练样本,如此则可以得到多组用于训练细胞亚群a所对应的逻辑回归模型的训练样本。
P333.服务器接着为各个细胞亚群配置其所分别对应的逻辑回归模型,然后采用各个细胞亚群所分别对应的逻辑回归模型所需的训练样本,对各个细胞亚群所分别对应的逻辑回归模型进行训练,从而使逻辑回归模型具备根据单细胞的基因表达矩阵预测该单细胞是否属于本逻辑回归模型所对应的细胞亚群的能力。
服务器自动训练好各个细胞亚群所分别对应的逻辑回归模型之后,就采用目标细胞亚群所对应的逻辑回归模型,计算目标细胞亚群与目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群的相似值Re3。以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似值Re3ab为例,细胞亚群a来自单细胞数据集A,细胞亚群b来自单细胞数据集B,服务器把细胞亚群b中各个单细胞的基因表达矩阵分别输入细胞亚群a所对应的已训练好的逻辑回归模型,从而使该逻辑回归模型对各个单细胞进行分类预测,得到预测结果,然后计算细胞亚群b中预测结果是属于细胞亚群a的单细胞数量占细胞亚群b的单细胞总数的百分比,以该百分比作为细胞亚群a与细胞亚群b之间的相似值Re3ab。
(4)基于典型相关分析算法的相似值计算
典型相关分析(Canonical Correlation analysis)是研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法,它能够揭示出两组变量之间的内在联系。单细胞数据分析软件Seurat中的FindTransferAnchors函数和TransferData函数的分析思路正是典型相关分析。故本实施例采用单细胞数据分析软件Seurat中的FindTransferAnchors函数和TransferData函数来进行相似值计算,具体地,服务器先采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找目标细胞亚群所属目标单细胞数据集与其他单细胞数据集之间的锚点,然后根据各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群进行预测,得到该细胞亚群属于目标细胞亚群的概率值,以该概率值作为目标细胞亚群与该细胞亚群之间的相似值Re4。同样以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似值Re4ab为例,服务器采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找细胞亚群a所属单细胞数据集A与细胞亚群b所属单细胞数据集B之间的锚点,然后根据所找到的各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对单细胞数据集B的细胞亚群b进行预测,得出细胞亚群b属于细胞亚群a的概率值,以该概率值作为细胞亚群a与细胞亚群b之间的相似值Re4ab。
服务器按照上述四种算法计算得到目标细胞亚群与来自除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群之间的相似值Re1、Re2、Re3、Re4之后,按照预设的线性回归模型计算得出目标细胞亚群与来自除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群之间的相似度R,该线性回归模型如下:
其中,是所计算得出的第i个相似值,/>为/>所占的权重(由技术人员预先设定)。
以细胞亚群a作为目标细胞亚群为例,服务器按照上述四种算法计算得到细胞亚群a与细胞亚群b之间的相似值为Re1ab、Re2ab、Re3ab、Re4ab,细胞亚群a与细胞亚群c之间的相似值为Re1ac、Re2ac、Re3ac、Re4ac,细胞亚群a与细胞亚群d之间的相似值为Re1ad、Re2ad、Re3ad、Re4ad,那么细胞亚群a与细胞亚群b、c、d之间的相似度R分别为:
其中,W1、W2、W3、W4由技术人员设定,可以按照各相似值对相似度的作用设定,例如在一个实施例中可以将W1、W2、W3、W4分别设定为25%,或在另一个实施例中将W1、W2、W3、W4分别设定为20%、30%、30%、20%,等等。
本实施例采用上述四种算法计算得出相应的相似值后再据此综合计算得出最终的相似度R,非优选地,其他实施例可以改为只采用上述四种算法当中的至少两种计算得出相应的相似值,然后再把计算得出的相似值代入上述线性回归模型中,计算得出最终的相似度R。
服务器在计算出目标细胞亚群与除目标单细胞数据集以外的其他单细胞数据集的细胞亚群之间的相似度R之后,就执行步骤S22把相似度R高于预设程度的细胞亚群,设为目标细胞亚群的关联细胞亚群。预设程度例如是80%,即把相似度R高于80%的细胞亚群设为目标细胞亚群的关联细胞亚群。以上述细胞亚群a、b、c、d为例,假设上面计算得出细胞亚群a与细胞亚群b之间的相似度Reab为86%,与细胞亚群c之间的相似度Reac为92%,与细胞亚群d之间的相似度Read为40%,Reab和Reac均大于80%,服务器则把细胞亚群b和细胞亚群c设为细胞亚群a的关联细胞亚群,而Read小于80%,故细胞亚群d不是细胞亚群a的关联细胞亚群。作为一种可替换的实施方式,其他实施例可以改为从50%至100%区间中取任一数值作为上述预设程度,例如取50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%;还可以改为前10名作为上述预设程度,即改为把相似度R排名前10的细胞亚群设为目标细胞亚群的关联细胞亚群。
服务器按照上述过程逐一确定单细胞数据库中各个细胞亚群的关联细胞亚群信息之后,就执行图1中的步骤S2把各个细胞亚群的关联细胞亚群信息收录到单细胞数据库中。这样一来,单细胞数据库即可为用户提供关联细胞亚群推荐功能了。
本实施例通过如图3所示的基于单细胞数据库的关联细胞亚群自动推荐方法来实现关联细胞亚群推荐功能,其中,图3的步骤P1两者与上述步骤S1实质上相同,图3的步骤P3、P4分别与上述步骤S21、S22实质上相同,即图3的步骤P1、P3、P4均已在上文执行,下文通过实例来说明步骤Q的执行过程:
用户如果想要了解某个细胞亚群,就登录单细胞数据库客户端,然后输入所要查询的细胞亚群名称,单细胞数据库服务器接收到用户在单细胞数据库中输入的细胞亚群查询指令,就从单细胞数据库中获取所查询的细胞亚群的功能信息,并获取该细胞亚群的关联细胞亚群的名称及其功能信息,然后输出该指令所查询的细胞亚群的功能信息给用户,同时把该细胞亚群的关联细胞亚群的名称及其功能信息作为推荐信息输出给用户。
本实施例能够基于用户所查询的细胞亚群自动为用户推荐与其所查询的细胞亚群关联性较高的其他细胞亚群,便于用户对所查询的细胞亚群和与该细胞亚群关联性较高的其他细胞亚群进行横向对比分析。
第二实施例
本实施例与第一实施例相比,大体上相同,下文仅描述本实施例相比于第一实施例的区别之处,相同之处请参考上文第一实施例内容,此处不再赘述。
本实施例中,单细胞数据库服务器采用如图2所示的单细胞数据库构建方法来构建单细胞数据库,除了像第一实施例那样通过执行步骤S1、S2、来收录多个单细胞数据集中各个细胞亚群及其功能信息以及各个细胞亚群的关联细胞亚群信息以外,还执行图2中的步骤S3对各个单细胞数据集进行核心功能表达元件整理,然后把所整理出来的核心功能表达元件收录至单细胞数据库的核心功能表达元件列表中。核心功能表达元件整理过程如下:
单细胞数据库服务器第一方面通过约束非负矩阵分解算法(cNMF算法)对所有数据集中的全部基因进行聚类,得到多个不同功能的初始基因集合,记为Scnmf1,Scnmf2,…ScnmfN;第二方面通过自组织特征图(SOM算法)对所有数据集中的所有全部基因进行聚类,得到多个不同功能的初始基因集合,记为Ssom1,Ssom2,…SsomM。然后单细胞数据库服务器把约束非负矩阵分解算法的分类结果Scnmf1,Scnmf2,…ScnmfN与自组织特征图的分类结果Ssom1,Ssom2,…SsomM进行交集处理,获取最小分割单元,交集处理过程具体为:对Scnmf1,分别取Scnmf 1与Ssom1,Ssom2,…SsomM 的交集,以所取得的每个交集作为目标基因集合;对Scnmf2,分别取Scnmf 2与Ssom1,Ssom2,…SsomM 的交集,以所取得的每个交集作为目标基因集合;对Scnmf3,分别取Scnmf 2与Ssom1,Ssom2,…SsomM 的交集,以所取得的每个交集作为目标基因集合;以此类推,对Scnmf i,分别取Scnmf i与Ssom1,Ssom2,…SsomM 的交集,以所取得的每个交集作为目标基因集合,其中,i取值为1至N。所得到的各个目标基因集合即是通过约束非负矩阵分解算法和自组织特征图共同对所有单细胞数据集中的全部基因进行聚类得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件。单细胞数据库服务器把所得到的各个核心功能表达元件收录至单细胞数据库中的核心功能表达元件列表中。
单细胞数据库服务器还执行图2中的步骤S4收录关键细胞亚群类别信息,具体地,采用K-means算法或高斯混合算法对单细胞数据库中全部细胞亚群进行聚类分析,从而划分为多个关键细胞亚群类别,然后把各个关键细胞亚群类别收录至单细胞数据库的关键细胞亚群类别列表中。
本实施例中,单细胞数据库服务器不同细胞亚群之间的相似度的计算方式不同于第一实施例,本实施例是基于核心功能表达元件来计算不同细胞亚群之间的相似度,计算方式具体如下:
上文已得到了单细胞数据库中所有单细胞数据集的核心功能表达元件列表,单细胞数据库服务器对每个细胞亚群,采用单细胞数据分析软件Seurat中的AddModuleScore函数计算各个核心功能表达元件在该细胞亚群中的表达强度。核心功能表达元件在该细胞亚群中的表达强度的计算公式如下:
/>
其中,是核心功能表达元件的第i个基因在细胞亚群中的表达均值,/>是核心功能表达元件的第i个基因的方差,score是核心功能表达元件在细胞亚群中的表达强度。计算出各个核心功能表达元件在细胞亚群中的表达强度之后,单细胞数据库服务器据此构建该细胞亚群的核心功能表达元件信号强度矩阵。单细胞数据库服务器基于各个细胞亚群的核心功能表达元件信号强度矩阵来计算不同细胞亚群之间的相似度。本实施例同样是分别采用四种算法来计算相似度,各种算法的计算过程见下文。
(1)基于斯皮尔曼相关系数算法的相似值计算
P35.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的核心功能表达元件信号强度矩阵与所述其他单细胞数据集的各个细胞亚群的核心功能表达元件信号强度矩阵之间的斯皮尔曼相关系数,以该系数作为相似值Rs1。
(2)基于XGBoost二项分类器的相似值计算
技术人员需要预先按照如下方式为每个细胞亚群构建其所对应的二项分类器:
技术人员预先采用XGBoost构建二项分类器的初始模型。二项分类器的初始模型需要经过训练之后才能使用,服务器需要获取各个细胞亚群所对应的二项分类器所需的训练样本。以细胞亚群a为例,服务器自动把该细胞亚群a所属的单细胞数据集A中的一个细胞亚群的核心功能表达元件信号强度矩阵作为输入数据,以该细胞亚群是否属于细胞亚群a作为输出结果,组成一组用于训练细胞亚群a所对应的二项分类器的训练样本,单细胞数据集A的每个细胞亚群都可以用来构成用于训练细胞亚群a所对应的二项分类器的训练样本,如此则可以得到多组用于训练细胞亚群a所对应的二项分类器的训练样本。
服务器在获取到各个细胞亚群所对应的二项分类器所需的训练样本之后,就为各个细胞亚群配置其所分别对应的二项分类器的初始模型,然后采用各个细胞亚群所分别对应的二项分类器所需的多组训练样本,对各个细胞亚群所分别对应的二项分类器的初始模型进行训练,从而使二项分类器具备根据单细胞的核心功能表达元件信号强度矩阵预测该单细胞是否属于本二项分类器所对应的细胞亚群的能力。
服务器自动训练好各个细胞亚群所分别对应的二项分类器之后,就采用目标细胞亚群所对应的二项分类器,分别把除目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群的核心功能表达元件信号强度矩阵输入已训练好的二项分类器,从而使该二项分类器对每个细胞亚群进行分类预测,得到预测结果作为该细胞亚群与所述本细胞亚群之间的相似值Rs2。以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似值Rs2ab为例,细胞亚群a来自单细胞数据集A,细胞亚群b来自单细胞数据集B,服务器把细胞亚群b的核心功能表达元件信号强度矩阵分别输入细胞亚群a所对应的已训练好的二项分类器,从而使该二项分类器对细胞亚群b进行分类预测,得到预测结果作为细胞亚群a与细胞亚群b之间的相似值Rs2ab。
(3)基于LASSO逻辑回归模型的相似值计算
技术人员预先采用LASSO构建逻辑回归模型。逻辑回归模型需要经过训练之后才能使用,服务器需要获取各个细胞亚群所对应的逻辑回归模型所需的训练样本。以细胞亚群a为例,服务器自动把该细胞亚群a所属的单细胞数据集A中的一个细胞亚群的核心功能表达元件信号强度矩阵作为输入数据,以该细胞亚群是否属于细胞亚群a作为输出结果,组成一组用于训练细胞亚群a所对应的二项分类器的训练样本,单细胞数据集A的每个细胞亚群都可以用来构成用于训练细胞亚群a所对应的逻辑回归模型的训练样本,如此则可以得到多组用于训练细胞亚群a所对应的逻辑回归模型的训练样本。
服务器在获取到各个细胞亚群所对应的逻辑回归模型所需的训练样本之后,就为各个细胞亚群配置其所分别对应的逻辑回归模型,然后采用各个细胞亚群所分别对应的逻辑回归模型所需的多组训练样本,对各个细胞亚群所分别对应的逻辑回归模型进行训练,从而使逻辑回归模型具备根据单细胞的核心功能表达元件信号强度矩阵预测该单细胞是否属于本逻辑回归模型所对应的细胞亚群的能力。
服务器自动训练好各个细胞亚群所分别对应的逻辑回归模型之后,就采用目标细胞亚群所对应的逻辑回归模型,分别把除目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群的核心功能表达元件信号强度矩阵输入已训练好的逻辑回归模型,从而使该逻辑回归模型对每个细胞亚群进行分类预测,得到预测结果作为该细胞亚群与所述本细胞亚群之间的相似值Rs3ab。以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似值Rs3ab为例,细胞亚群a来自单细胞数据集A,细胞亚群b来自单细胞数据集B,服务器把细胞亚群b的核心功能表达元件信号强度矩阵分别输入细胞亚群a所对应的已训练好的逻辑回归模型,从而使该逻辑回归模型对细胞亚群b进行分类预测,得到预测结果作为细胞亚群a与细胞亚群b之间的相似值Rs3ab。
(4)基于典型相关分析算法的相似值计算
典型相关分析(Canonical Correlation analysis)是研究两组变量(每组变量中都可能有多个指标)之间相关关系的一种多元统计方法,它能够揭示出两组变量之间的内在联系。单细胞数据分析软件Seurat中的FindTransferAnchors函数和TransferData函数的分析思路正是典型相关分析。故本实施例采用单细胞数据分析软件Seurat中的FindTransferAnchors函数和TransferData函数来进行相似值计算,具体地,单细胞数据库服务器先采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找所述本细胞亚群所属单细胞数据集与其他单细胞数据集之间的锚点,然后根据各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对所述其他单细胞数据集的每个细胞亚群进行预测,得到该细胞亚群属于所述本细胞亚群的概率值Rs4。同样以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似值Rs4ab为例,服务器采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找细胞亚群a所属单细胞数据集A与细胞亚群b所属单细胞数据集B之间的锚点,然后根据所找到的各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对单细胞数据集B的细胞亚群b进行预测,得出细胞亚群b属于细胞亚群a的概率值,以该概率值作为细胞亚群a与细胞亚群b之间的相似值Rs4ab。
服务器按照上述四种算法计算得到目标细胞亚群与来自除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群之间的相似值Rs1、Rs2、Rs3、Rs4之后,按照预设的线性回归模型计算得出目标细胞亚群与来自除了目标单细胞数据集以外的其他单细胞数据集的每个细胞亚群之间的相似度R,该线性回归模型如下:
其中,是所计算得出的第i个相似值,/>为/>所占的权重(由技术人员预先设定)。
以细胞亚群a作为目标细胞亚群为例,服务器按照上述四种算法计算得到细胞亚群a与细胞亚群b之间的相似值为Rs1ab、Rs2ab、Rs3ab、Rs4ab,细胞亚群a与细胞亚群c之间的相似值为Rs1ac、Rs2ac、Rs3ac、Rs4ac,细胞亚群a与细胞亚群d之间的相似值为Rs1ad、Rs2ad、Rs3ad、Rs4ad,那么细胞亚群a与细胞亚群b、c、d之间的相似度R分别为:
其中,W1、W2、W3、W4由技术人员设定,可以按照各相似值对相似度的作用设定,例如在一个实施例中可以将W1、W2、W3、W4分别设定为25%,或在另一个实施例中将W1、W2、W3、W4分别设定为30%、15%、25%、30%,等等。
本实施例采用上述四种算法计算得出相应的相似值后再据此综合计算得出最终的相似度R,非优选地,其他实施例可以改为只采用上述四种算法当中的至少两种计算得出相应的相似值,然后再把计算得出的相似值代入上述线性回归模型中,计算得出最终的相似度R。
本实施例中,单细胞数据库服务器除了输出该指令所查询的细胞亚群的功能信息、该细胞亚群的关联细胞亚群的名称及其功能信息给用户以外,还输出该指令所查询的细胞亚群所在的关键细胞亚群类别信息,便于用户分析该细胞亚群所属类别中的其他细胞亚群。
第三实施例
上述第一、第二实施例采用不同的方式来计算不同细胞亚群之间的相似度,而本实施例综合第一、第二实施例,同时采用两种计算方式进行相似度计算,具体地采用第一实施例的相似度计算方式计算不同细胞亚群之间的相似度,记为Re,采用第二实施例的相似度计算方式计算不同细胞亚群之间的相似度,Rs。以细胞亚群a作为目标细胞亚群,计算细胞亚群a与细胞亚群b之间的相似度为例,单细胞数据库服务器先采用第一实施例的相似度计算方式计算细胞亚群a与细胞亚群b之间的相似度,该相似度记为Reab,然后采用第二实施例的相似度计算方式计算细胞亚群a与细胞亚群b之间的相似度,该相似度记为Rsab。本实施例单细胞数据库服务器把相似度Re高于预设程度的细胞亚群设为本细胞亚群的第一关联细胞亚群,把相似度Rs高于预设程度的细胞亚群设为本细胞亚群的第二关联细胞亚群。例如上述细胞亚群a与细胞亚群b之间的相似度Reab高于预设程度,但相似度Rsab低于预设程度,那么细胞亚群b就是细胞亚群a的第一关联细胞亚群,但不是细胞亚群a的第二关联细胞亚群。假若细胞亚群a与细胞亚群b之间的相似度Reab和相似度Rsab都高于预设程度,那么细胞亚群b既是细胞亚群a的第一关联细胞亚群,也是细胞亚群a的第二关联细胞亚群。
本实施例单细胞数据库服务器接收到用户在单细胞数据库中输入的细胞亚群查询指令,就从单细胞数据库中获取所查询的细胞亚群的功能信息,并获取该细胞亚群的第一关联细胞亚群、第二关联细胞亚群的名称及其功能信息,然后输出该指令所查询的细胞亚群的功能信息给用户,同时把该细胞亚群的第一关联细胞亚群、第二关联细胞亚群的名称及其功能信息作为推荐信息输出给用户,其中,第一关联细胞名称及其功能信息、第二关联细胞名称及其功能信息分别作为两列数据输出给用户。
如上所述仅为本发明创造的实施方式,不以此限定专利保护范围。本领域技术人员在本发明创造的基础上作出非实质性的变化或替换,仍落入专利保护范围。
Claims (36)
1.一种单细胞数据库构建方法,其特征是,按照如下步骤收录对应数据从而构建得到单细胞数据库:
S1.收录多个单细胞数据集中的各个细胞亚群以及各个细胞亚群的功能信息;
S2.通过计算细胞亚群之间的相似度来确定上述各个细胞亚群的关联细胞亚群信息,并收录这些关联细胞亚群信息;
步骤S1具体地:
——从多篇单细胞研究文献中分别收录其所研究的单细胞数据集、单细胞数据集中的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息;
——按照上述多篇单细胞研究文献的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息,把各个单细胞数据集内的各个单细胞按照所在单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群,并为每个细胞亚群关联其所属分类标签所对应的功能信息;
S3.整理出所述多个单细胞数据集的核心功能表达元件,并把各个核心功能表达元件收录至核心功能表达元件列表中;
S4.把全部细胞亚群划分为多个关键细胞亚群类别,并把各个关键细胞亚群类别收录至关键细胞亚群类别列表中。
2.如权利要求1所述的单细胞数据库构建方法,其特征是,步骤S2包括以下S21和S22步骤:
S21.对每个细胞亚群,计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度;
S22.把相似度高于预设程度的细胞亚群设为本细胞亚群的关联细胞亚群。
3.如权利要求1所述的单细胞数据库构建方法,其特征是,步骤S3包括以下步骤S31:
S31.通过约束非负矩阵分解算法和/或自组织特征图对所有单细胞数据集中的全部基因进行聚类,得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件。
4.如权利要求1所述的单细胞数据库构建方法,其特征是,步骤S4包括以下步骤S41:
S41.采用聚类算法对各个细胞亚群进行聚类分析,从而划分为多个关键细胞亚群类别。
5.如权利要求4所述的单细胞数据库构建方法,其特征是,所述聚类分析所采用的算法为K-means算法或高斯混合算法。
6.一种单细胞数据库,其特征是,该单细胞数据库按照如权利要求1至5中任一所述的单细胞数据库构建方法构建得到。
7.基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,单细胞数据库按照如权1至5中任一所述的单细胞数据库构建方法构建得到,包括如下步骤:
P3.对每个细胞亚群,计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度;
P4.把相似度高于预设程度的细胞亚群设为本细胞亚群的关联细胞亚群;
Q.若接收到细胞亚群查询指令,则单细胞数据库输出该指令所查询的细胞亚群的功能信息以及所查询的细胞亚群的关联细胞亚群的名称及其功能信息。
8.如权利要求7所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,在步骤P3之前执行如下步骤P2:
P2.构建单细胞数据集,对单细胞数据集中涉及的全部基因进行聚类,得到基因集合,构建基因集合与细胞亚群之间的信号强度矩阵。
9.如权利要求7或8所述的关联细胞亚群自动推荐方法,其特征是,包括在步骤P3之前或步骤P2之前执行如下步骤P1:
P1.获取单细胞数据集、其细胞亚群分类标签和对应的功能信息,并对所述单细胞数据集进行数据标准化处理。
10.如权利要求7所述的关联细胞亚群自动推荐方法,其特征是,步骤P3按照如下步骤P31~P34中的至少两个步骤计算得出至少两个相似值,然后根据所述至少两个相似值计算所述相似度,相似度与各个相似值正相关:
P31.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的基因贡献度矩阵与所述其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的相似值Re1;
P32.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re2;
P33.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re3;
P34.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Re4。
11.如权利要求10所述的关联细胞亚群自动推荐方法,其特征是,步骤P31经历主成分值获取步骤、主成分平均值获取步骤、细胞亚群的基因贡献度矩阵形成步骤、斯皮尔曼相关系数计算步骤实现。
12.如权利要求11所述的关联细胞亚群自动推荐方法,其特征是,所述主成分值获取步骤包括如下P311步骤:
P311.采用主成分分析算法对各个细胞亚群中各个单细胞的基因表达矩阵进行降维分析,从而得到每个细胞亚群的各个单细胞的各个主成分值以及每个单细胞中的每个基因的各个主成分值。
13.如权利要求11所述的关联细胞亚群自动推荐方法,其特征是,所述主成分平均值获取步骤包括如下P312步骤:
P312.根据每个细胞亚群中各个单细胞的各个主成分值,按照如下公式计算得出每个细胞亚群中的各个主成分平均值:
其中,μ n是细胞亚群中的第n个主成分平均值,Cell pin是细胞亚群中第i个单细胞的第n个主成分值,m是细胞亚群中的单细胞个数,是细胞亚群中所有单细胞的第n个主成分值之和。
14.如权利要求11所述的关联细胞亚群自动推荐方法,其特征是,所述细胞亚群的基因贡献度矩阵形成步骤包括如下P313步骤:
P313.根据每个细胞亚群中各个主成分平均值以及该细胞亚群中每个基因的各个主成分值,按照如下公式计算得出每个细胞亚群中每个基因对细胞亚群的贡献度,据此形成每个细胞亚群的基因贡献度矩阵:
其中,W x是细胞亚群中第x个基因对细胞亚群的贡献度,μ i是细胞亚群中的第i个主成分平均值,Gene pxi是细胞亚群中第x个基因的第i个主成分值,n是主成分的个数。
15.如权利要求11所述的关联细胞亚群自动推荐方法,其特征是,所述斯皮尔曼相关系数计算步骤包括如下P314步骤:
P314.计算所述本细胞亚群的基因贡献度矩阵与所述其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的斯皮尔曼相关系数,该系数即是所述相似值Re1。
16.如权利要求10所述的关联细胞亚群自动推荐方法,其特征是,步骤P32具体地,对所述其他单细胞数据集的每个细胞亚群,把该细胞亚群中各个单细胞的基因表达矩阵分别输入已训练的二项分类器,从而使该二项分类器对各个单细胞进行分类预测,得到预测结果,以该细胞亚群中预测结果是属于所述本细胞亚群的单细胞数量占该细胞亚群单细胞总数的百分比作为所述相似值Re2。
17.如权利要求16所述的关联细胞亚群自动推荐方法,其特征是,步骤P32中,所述二项分类器经如下步骤获得:
P321.采用XGBoost构建二项分类器;
P322.以本细胞亚群所属单细胞数据集中的一个单细胞的基因表达矩阵作为输入数据,以该单细胞是否属于本细胞亚群作为输出结果,组成一组训练样本;
P323.采用多组所述的训练样本对二项分类器进行训练,从而使二项分类器具备根据单细胞的基因表达矩阵预测该单细胞是否属于所述本细胞亚群的能力。
18.如权利要求10所述的关联细胞亚群自动推荐方法,其特征是,步骤P33具体地:对所述其他单细胞数据集的每个细胞亚群,把该细胞亚群中各个单细胞的基因表达矩阵分别输入已训练的逻辑回归模型,从而使该逻辑回归模型对各个单细胞进行分类预测,得到预测结果,以该细胞亚群中预测结果是属于所述本细胞亚群的单细胞数量占该细胞亚群单细胞总数的百分比作为所述本细胞亚群与该细胞亚群之间的相似值Re3。
19.如权利要求18所述的关联细胞亚群自动推荐方法,其特征是,步骤P33中,所述逻辑回归模型经如下步骤获得:
P331.采用LASSO构建所述逻辑回归模型;
P332. 以本细胞亚群所属单细胞数据集中的一个单细胞的基因表达矩阵作为输入数据,以该单细胞是否属于本细胞亚群作为输出结果,组成一组训练样本;
P333.采用多组所述的训练样本对逻辑回归模型进行训练,从而使逻辑回归模型具备根据单细胞的基因表达矩阵预测该单细胞是否属于所述本细胞亚群的能力。
20.如权利要求10所述的关联细胞亚群自动推荐方法,其特征是,步骤P34具体地:采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找所述本细胞亚群所属单细胞数据集与其他单细胞数据集之间的锚点,然后根据各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对所述其他单细胞数据集的每个细胞亚群进行预测,得到该细胞亚群属于所述本细胞亚群的概率值,以该概率值作为所述本细胞亚群与该细胞亚群之间的相似值Re4。
21.如权利要求8所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P2包括如下步骤:
P21.通过约束非负矩阵分解算法和/或自组织特征图对所有单细胞数据集中的全部基因进行聚类,得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件;
P22.对每个细胞亚群,计算各个核心功能表达元件在该细胞亚群中的表达强度,根据各个核心功能表达元件在该细胞亚群中的表达强度构建该细胞亚群的核心功能表达元件信号强度矩阵。
22.如权利要求21所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P21具体是通过约束非负矩阵分解算法和自组织特征图共同对所有单细胞数据集中的全部基因进行聚类得到多个不同功能的基因集合。
23.如权利要求21所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P21所述聚类的过程如下:
通过约束非负矩阵分解算法对所有数据集中的全部基因进行聚类,得到多个不同功能的初始基因集合,记为Scnmf1,Scnmf2,…ScnmfN;
通过自组织特征图对所有数据集中的所有全部基因进行聚类,得到多个不同功能的初始基因集合,记为Ssom1,Ssom2,…SsomM;
对初始基因集合Scnmf i,分别取Scnmf i与Ssom1,Ssom2,…SsomM 的交集,以所取得的每个交集作为目标基因集合,其中,i取值为1至N,所得到的各个目标基因集合作为通过约束非负矩阵分解算法和自组织特征图共同对所有单细胞数据集中的全部基因进行聚类得到多个不同功能的基因集合。
24.如权利要求21所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P22中具体采用单细胞数据分析软件Seurat中的AddModuleScore函数计算各个核心功能表达元件在该细胞亚群中的表达强度。
25.如权利要求21-24任一所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P3按照如下步骤P35~P38中的至少两个步骤计算得出至少两个相似值,然后根据所述至少两个相似值计算所述相似度,相似度与各个相似值正相关:
P35.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的核心功能表达元件信号强度矩阵与所述其他单细胞数据集的各个细胞亚群的核心功能表达元件信号强度矩阵之间的相似值Rs1;
P36.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs2;
P37.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs3;
P38.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Rs4。
26.如权利要求25所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P36具体地:分别把所述其他单细胞数据集的每个细胞亚群的核心功能表达元件信号强度矩阵输入已训练的二项分类器,从而使该二项分类器对每个细胞亚群进行分类预测,得到预测结果作为该细胞亚群与所述本细胞亚群之间的相似值Rs2。
27.如权利要求25所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P37具体地:分别把所述其他单细胞数据集的每个细胞亚群的核心功能表达元件信号强度矩阵输入已训练的逻辑回归模型,从而使该逻辑回归模型对每个细胞亚群进行分类预测,得到预测结果作为该细胞亚群与所述本细胞亚群之间的相似值Rs3。
28.如权利要求25所述的基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,步骤P38具体地:采用单细胞数据分析软件Seurat中的FindTransferAnchors函数寻找所述本细胞亚群所属单细胞数据集与其他单细胞数据集之间的锚点,然后根据各个锚点,采用单细胞数据分析软件Seurat中的TransferData函数对所述其他单细胞数据集的每个细胞亚群进行预测,得到该细胞亚群属于所述本细胞亚群的概率值Rs4。
29.如权利要求10所述的关联细胞亚群自动推荐方法,其特征是,步骤P3具体是把所计算得出的至少两个相似值代入线性回归模型计算得出所述相似度,并记录为R,其中,/>是所计算得出的第i个相似值,/>为/>所占的权重。
30.如权利要求25所述的关联细胞亚群自动推荐方法,其特征是,步骤P3具体是把所计算得出的至少两个相似值代入线性回归模型计算得出所述相似度,并记录为R,其中,/>是所计算得出的第i个相似值,/>为/>所占的权重。
31.如权利要求9所述的关联细胞亚群自动推荐方法,其特征是,所述步骤P1包括如下步骤:
P11.获取多个单细胞数据集、每个单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息;
P12.把每个单细胞数据集内的各个单细胞按照所在单细胞数据集的细胞亚群分类标签分别划归到对应的细胞亚群,并为每个细胞亚群关联其所属分类标签所对应的功能信息,以及对所述单细胞数据集进行数据标准化处理。
32.如权利要求31所述的关联细胞亚群自动推荐方法,其特征是,步骤P11具体是从多篇单细胞研究文献中获取单细胞数据集所对应的细胞亚群分类标签以及各个细胞亚群分类标签所分别对应的功能信息,并通过所述多篇单细胞研究文献所提供的单细胞数据集来源信息获取对应的单细胞数据集。
33.一种基于单细胞数据库的关联细胞亚群自动推荐方法,其特征是,单细胞数据库按照如权利要求1至5中任一所述的单细胞数据库构建方法构建得到,包括如下步骤:
P3.对每个细胞亚群,采用下述两种相似度计算方式分别计算本细胞亚群与来自除本细胞亚群所属单细胞数据集以外的其他单细胞数据集的各个细胞亚群之间的相似度,两种计算方式计算得出的相似度分别记为Re、Rs;
P4.把相似度Re高于预设程度的细胞亚群以及相似度Rs高于预设程度的细胞亚群设为本细胞亚群的关联细胞亚群;
Q.若接收到细胞亚群查询指令,则单细胞数据库输出该指令所查询的细胞亚群的功能信息以及所查询的细胞亚群的关联细胞亚群的名称及其功能信息;
其中,第一种相似度计算方式具体是按照如下步骤P31~P34当中的至少两个步骤计算得出至少两个相似值,然后根据所述至少两个相似值计算所述相似度Re,相似度Re与各个相似值正相关:
P31.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的基因贡献度矩阵与所述其他单细胞数据集的各个细胞亚群的基因贡献度矩阵之间的相似值Re1;
P32.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re2;
P33.根据各个细胞亚群的各个单细胞基因表达矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Re3;
P34.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Re4;
第二种相似度计算方式具体按照如下步骤P35~P38当中的至少两个步骤计算得出的至少两个相似值,然后根据所述至少两个相似值计算所述相似度Rs,相似度Rs与各个相似值正相关:
P35.采用斯皮尔曼相关系数算法,计算所述本细胞亚群的核心功能表达元件信号强度矩阵与所述其他单细胞数据集的各个细胞亚群的核心功能表达元件信号强度矩阵之间的相似值Rs1;
P36.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的二项分类器分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs2;
P37.根据各个细胞亚群的核心功能表达元件信号强度矩阵,采用已训练的逻辑回归模型分别预测所述其他单细胞数据集的每个细胞亚群与所述本细胞亚群之间的相似值Rs3;
P38.采用典型相关分析算法分析所述本细胞亚群与所述其他单细胞数据集的每个细胞亚群之间的相似值Rs4。
34.如权利要求33所述的关联细胞亚群自动推荐方法,其特征是,所述核心功能表达元件信号强度矩阵按照下述方式构建得到:
P21.通过约束非负矩阵分解算法和/或自组织特征图对所有单细胞数据集中的全部基因进行聚类,得到多个不同功能的基因集合,每个基因集合记为一个核心功能表达元件;
P22.对每个细胞亚群,计算各个核心功能表达元件在该细胞亚群中的表达强度,根据各个核心功能表达元件在该细胞亚群中的表达强度构建该细胞亚群的核心功能表达元件信号强度矩阵。
35.一种计算机可读存储介质,其上存储有可执行的计算机程序,其特征是,该计算机程序被执行时实现如权利要求1至5任一所述的单细胞数据库构建方法或者如权利要求7至34中任一所述的基于单细胞数据库的关联细胞亚群自动推荐方法。
36.一种单细胞数据库服务器,其特征是,包括处理器以及如权利要求35所述的计算机可读存储介质,该处理器执行该存储介质中的计算机程序从而实现如权利要求1至5所述的单细胞数据库构建方法或者如权利要求7至34中任一所述的基于单细胞数据库的关联细胞亚群自动推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385435.8A CN117116364B (zh) | 2023-10-25 | 2023-10-25 | 单细胞数据库及其关联细胞亚群自动推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311385435.8A CN117116364B (zh) | 2023-10-25 | 2023-10-25 | 单细胞数据库及其关联细胞亚群自动推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117116364A CN117116364A (zh) | 2023-11-24 |
CN117116364B true CN117116364B (zh) | 2024-02-20 |
Family
ID=88798806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311385435.8A Active CN117116364B (zh) | 2023-10-25 | 2023-10-25 | 单细胞数据库及其关联细胞亚群自动推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117116364B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243678A (zh) * | 2020-01-07 | 2020-06-05 | 北京唐颐惠康生物医学技术有限公司 | 一种基于锁定技术的细胞库存安全保障方法及系统 |
CN112700820A (zh) * | 2021-01-07 | 2021-04-23 | 广州华银健康医疗集团股份有限公司 | 一种基于单细胞转录组测序的细胞亚群注释方法 |
CN113517031A (zh) * | 2020-10-23 | 2021-10-19 | 北京生万生物医药科技有限公司 | 一种mest数据库及其构建方法 |
CN113918786A (zh) * | 2021-10-20 | 2022-01-11 | 上海烈冰生物医药科技有限公司 | 一种细胞亚型智能判定方法 |
CN115064220A (zh) * | 2022-06-14 | 2022-09-16 | 浙江大学 | 一种单细胞的跨物种细胞类型鉴定方法 |
CN115547416A (zh) * | 2022-10-17 | 2022-12-30 | 浙江泉生生物科技有限公司 | 一种源细胞与细胞受者数据的互动筛选方法、系统及制品 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030009293A1 (en) * | 2001-01-09 | 2003-01-09 | Anderson Norman G. | Reference database |
US20200090782A1 (en) * | 2018-09-18 | 2020-03-19 | California Institute Of Technology | Systems and methods for dissecting heterogeneous cell populations |
-
2023
- 2023-10-25 CN CN202311385435.8A patent/CN117116364B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111243678A (zh) * | 2020-01-07 | 2020-06-05 | 北京唐颐惠康生物医学技术有限公司 | 一种基于锁定技术的细胞库存安全保障方法及系统 |
CN113517031A (zh) * | 2020-10-23 | 2021-10-19 | 北京生万生物医药科技有限公司 | 一种mest数据库及其构建方法 |
CN112700820A (zh) * | 2021-01-07 | 2021-04-23 | 广州华银健康医疗集团股份有限公司 | 一种基于单细胞转录组测序的细胞亚群注释方法 |
CN113918786A (zh) * | 2021-10-20 | 2022-01-11 | 上海烈冰生物医药科技有限公司 | 一种细胞亚型智能判定方法 |
CN115064220A (zh) * | 2022-06-14 | 2022-09-16 | 浙江大学 | 一种单细胞的跨物种细胞类型鉴定方法 |
CN115547416A (zh) * | 2022-10-17 | 2022-12-30 | 浙江泉生生物科技有限公司 | 一种源细胞与细胞受者数据的互动筛选方法、系统及制品 |
Non-Patent Citations (1)
Title |
---|
Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data;Duanchen Sun et al.;《Nature Biotechnology》;20211111;第527-538页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117116364A (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Keegan et al. | MG-RAST, a metagenomics service for analysis of microbial community structure and function | |
Adeniyi et al. | Automated web usage data mining and recommendation system using K-Nearest Neighbor (KNN) classification method | |
US7243112B2 (en) | Multidimensional biodata integration and relationship inference | |
Ji et al. | Identifying time-lagged gene clusters using gene expression data | |
Bertolazzi et al. | Learning to classify species with barcodes | |
Gustafsson et al. | Constructing and analyzing a large-scale gene-to-gene regulatory network Lasso-constrained inference and biological validation | |
KR20200027900A (ko) | 시료 미생물의 동정 및 분류 방법 | |
US20060179051A1 (en) | Methods and apparatus for steering the analyses of collections of documents | |
Carstens et al. | A global analysis of bats using automated comparative phylogeography uncovers a surprising impact of Pleistocene glaciation | |
Rani et al. | Multistage model for accurate prediction of missing values using imputation methods in heart disease dataset | |
CN104969221B (zh) | 格式化数据库中的半结构化数据 | |
US20200395095A1 (en) | Method and system for generating and comparing genotypes | |
CN113379457A (zh) | 面向金融领域的智能营销方法 | |
Lin et al. | Discriminative variable subsets in Bayesian classification with mixture models, with application in flow cytometry studies | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
Dong et al. | scSemiAE: a deep model with semi-supervised learning for single-cell transcriptomics | |
Fahad et al. | Review on semantic document clustering | |
CN103425748B (zh) | 一种文档资源建议词的挖掘方法和装置 | |
Yuan et al. | Automated annotation of developmental stages of Drosophila embryos in images containing spatial patterns of expression | |
CN117116364B (zh) | 单细胞数据库及其关联细胞亚群自动推荐方法 | |
Zhen et al. | A review and performance evaluation of clustering frameworks for single-cell Hi-C data | |
Kumbhar et al. | Web mining: A Synergic approach resorting to classifications and clustering | |
CN117116356B (zh) | 细胞亚群关联网络图的生成方法、存储介质和服务器 | |
Manek et al. | Classification of drugs reviews using W-LRSVM model | |
Jayasurya et al. | Feature selection for microarray data using WGCNA based fuzzy forest in map reduce paradigm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |