CN112750502A - 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 - Google Patents
一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 Download PDFInfo
- Publication number
- CN112750502A CN112750502A CN202110061290.0A CN202110061290A CN112750502A CN 112750502 A CN112750502 A CN 112750502A CN 202110061290 A CN202110061290 A CN 202110061290A CN 112750502 A CN112750502 A CN 112750502A
- Authority
- CN
- China
- Prior art keywords
- cell
- data
- clustering
- distribution structure
- dimensional distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Discrete Mathematics (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biochemistry (AREA)
- Library & Information Science (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,包括:获取多个细胞的单细胞转录组测序数据得到的基因表达矩阵,在过滤和标准化处理后,构建二维特征矩阵并进行线性归一化;根据归一化后的二维特征矩阵计算细胞间的欧式距离,从而建立细胞最小生成树;通过自适应阈值对细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定数据的二维分布结构;对具有模糊簇间边界和连续二维分布结构的数据,推荐并应用层次聚类算法,而对具有明显簇间边界和分块二维分布结构的数据,推荐并应用谱聚类算法。本发明能为单细胞转录组测序数据在层次聚类和谱聚类中推荐更适合其二维分布结构的方法作为下游聚类分析方法,提高聚类准确性。
Description
技术领域
本发明涉及生物信息学领域,涉及一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法。
背景技术
在细胞生物学领域,单细胞分析是在单细胞水平上对基因组学、转录组学、蛋白质组学和代谢组学的研究。它提供了一种超灵敏的工具来阐明特定的分子机制和途径,并揭示了细胞异质性的本质。随着技术的发展和成本的下降,应用于单细胞全基因组的转录组测序(scRNA-seq)技术正在迅速成为生物学和生物医学研究等许多领域的选择。在单细胞分辨率下研究全基因组的基因表达克服了传统RNA测序的内在局限性,单细胞转录组测序使研究人员能够更严格地解决有关组织的细胞组成,转录物异质性和细胞类型的问题,使单细胞转录组测序已用于研究癌症,宏基因组学以及调控和进化网络。近些年来,单细胞异质性分析研究成为了生物信息领域的一大研究热点。为了剖析细胞异质性,就有必要在单细胞水平进行基因表达分析。单细胞转录组测序技术能获得单个细胞内近万个基因的表达信息,为辨别生物组织中各种细胞类型的转录特征和全面揭示细胞之间的基因表达差异提供了有力的工具。在单细胞转录组测序数据分析中,鉴定种群结构是至关重要的一步。对单细胞转录组测序数据进行的下游分析涉及多个步骤,包括质量控制,定量,归一化,聚类,寻找轨迹和鉴定差异表达的基因等。目前已经提出了很多单细胞聚类方法来对细胞进行划分,其中层次聚类和谱聚类是下游聚类分析中应用最多的两个聚类方法:
层次聚类:将单个数据迭代的合并为较大的簇(凝聚聚类)或将一个大类迭代的划分为较小的簇(分裂聚类),并通过得到的树状图中层次树的分支结构来表示最终的聚类结果。层次聚类可以通过切割树状图来获得不同的聚类结果,但方法缺少对簇间边界的精准定义,这将导致其在具有模糊边界结构的数据上的聚类效果不够理想。
谱聚类:将所有数据看作空间中的点,点之间用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。因此,谱聚类可以处理更为复杂的数据分布结构,例如模糊边界问题,但方法缺点在于十分依赖相似性矩阵的准确性。
两种聚类方法由于基于不同的理论和策略,因而可能在具有不同分布结构的数据上的聚类结果存在差异。在通过分析每组数据的二维分布结构以选择更合适的聚类方法方面,还有进一步提升的空间。
因此,有必要提供一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,能够为具有不同二维分布结构的数据在层次聚类和谱聚类中推荐更合适的聚类方法,提高聚类准确性。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计基因在每个细胞中的表达量得到基因表达矩阵,并进行过滤和标准化处理;然后通过均匀流形近似和投影构建二维特征矩阵,并将二维特征矩阵进行线性归一化;
步骤2,根据归一化后的二维特征矩阵,计算每两个细胞间的欧式距离,并建立基于距离矩阵的细胞最小生成树;
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;所述自适应阈值根据细胞数N定义得到;
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
在更优的技术方案,所述步骤1对二维特征矩阵进行线性归一化的公式为:
其中,Y′表示通过均匀流形近似和投影构建的二维特征矩阵,Ymax和Ymin分别表示初始基因表达矩阵中表达量的最大值和最小值。
在更优的技术方案,所述步骤2对归一化后的二维特征矩阵计算细胞间距离的公式为:
其中,dij表示细胞i到细胞j之间的欧式距离,yim和yjm分别为细胞i和细胞j的第m个基因的表达量。
在更优的技术方案,所述步骤2中,基于距离矩阵,通过快速EMST双树Boruvka算法,建立基于距离矩阵的细胞最小生成树。
在更优的技术方案,所述步骤3中根据细胞数N定义自适应阈值的公式为:
Threshold=λ×pCR
在更优的技术方案,所述步骤3中,若细胞最小生成树中所有边长均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
在更优的技术方案,所述预设比例为8:2。
有益效果
本发明能为单细胞转录组测序数据集在层次聚类和谱聚类中推荐更适合其二维分布结构的方法作为下游聚类分析方法,并提高聚类准确性。
附图说明
图1为本发明的流程图;
图2、图3为本发明针对实施例中6套数据集确定的数据二维分布结构与使用tSNE和UMAP两种可视化方法在具有真实标签的分化数据集和亚型数据集上进行二维可视化的结果比较图;
图4、图5分别为本发明针对实施例中另外6套数据集确定的数据二维分布结构与使用tSNE和UMAP两种可视化方法在具有真实标签的分化数据集和亚型数据集上进行二维可视化的结果比较图。
图6和图7为用选择的10个经典相关方法的预处理策略,分别结合层次聚类和谱聚类作为下游聚类方法所得到的聚类结果的NMI比较图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计测序数据中基因在每个细胞中的表达量得到基因表达矩阵X=[x1,x2,…,xN],xi=[xi1,xi2,…,xim],i=1,2,…,N,m表示细胞中的基因数,xi1,xi2,…,xim表示细胞i分别在m个基因中的表达量;将基因表达矩阵X中表达量为0的基因删除以完成过滤后,再对过滤后的基因表达矩阵进行标准化处理;再通过对标准化处理后的基因表达矩阵进行均匀流形近似和投影[1],以构建二维特征矩阵Y,并将二维特征矩阵Y按以下公式进行线性归一化处理:
其中,Y′为归一化后的二维特征矩阵,Ymax和Ymin分别表示初始基因表达矩阵中表达量矩阵表达值的最大值和最小值。
步骤2,根据归一化后的二维特征矩阵Y′,计算每两个细胞间的欧式距离;然后基于欧式距离构成的距离矩阵,通过快速EMST双树Boruvka(fast EMST Dual-Tree Boruvka)算法[2],建立基于距离矩阵的细胞最小生成树;
每两个细胞间的欧式距离计算公式为:
其中,dij表示细胞i到细胞j之间的欧式距离,yim和yjm分别为细胞i和细胞j的第m个基因的表达量。
基于欧式距离矩阵的快速EMST双树Boruvka算法的步骤为:
其中,Cq表示包含q的分支,d(Cq)表示Cq中当前最近邻的距离(初始值为无穷大),e(Cq)表示Cq与其最近邻构成的边集合,d(Q,R)表示Q与R中结点的最小距离。
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;
其中的自适应阈值,根据细胞数N按以下公式定义得到:
Threshold=λ×pCR
另外,本实施例中单细胞转录组测序数据的二维分布结构的确定方法具体为:若细胞最小生成树中所有欧式距离计算所得的边长值均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例8:2时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
[1]McInnes L,Healy J and Melville J.UMAP:uniform manifoldapproximation and projection.arXiv 2018;1802.03426.
[2]March WB,Ram P and Gray AG.Fast euclidian minimum spanning tree:algorithm analysis,and applications.16th ACM SIGKDD International Conferenceon Knowledge Discovery and Data mining 2010.
实验验证:
为了验证本发明方法的有效性,从已发表文献和公共数据库(GEO、ArrayExpress)收集了12套来自不同物种或不同组织或不同规模的单细胞数据集,包括细胞的基因表达矩阵和真实类别标签,并在这12套真实数据集上测试本发明提出的方法。12套数据集的详细信息如表1所示。为客观评价本发明方法的有效性,选用常用指标NMI作为聚类评价标准,同时选择10个经典的分别以相似性计算、填充和降维方法作为预处理策略的单细胞相关方法来验证推荐的准确性,其中包括SPEARMAN、UMAP、SC3、RAFSIL、SIMLR、MPSSC、CIDR、SINCERA、SEURAT和ZIFA。对两组不同的标签F1和F2,NMI的计算公式为:
其中,I(F1,F2)表示F1和F2两者的互信息,H(F1)、H(F2)分别表示两者的信息熵。
为了评价本发明方法分类的准确性及功能可解释性,进行以下三项分析:
1、分析确定的数据二维分布结构及推荐的聚类方法
该部分针对12套数据集中的样本分别进行分析。使用本发明确定每套数据集的二维分布结构和推荐的聚类方法。实验结果如表2所示。
2、分析确定的结构与可视化的一致性
该部分针对12套数据集中的样本分别进行分析。对每套数据集,分别通过tSNE和UMAP结合数据真实标签进行二维可视化,结果如图2至图5所示。从图2至图5可以看出,两种可视化的结果均与本发明确定的数据二维分布结构显示出一致性。
3、分析推荐的聚类方法的准确性
该部分针对12套数据集中的样本分别进行分析。使用选择的10个经典相关方法的预处理策略,分别结合层次聚类和谱聚类作为下游聚类方法。采用NMI指标评价聚类结果。NMI的实验结果如图6和图7所示,从图6和图7可以看出,本发明能够对12套数据集分别从层次聚类和谱聚类中推荐更合适的聚类方法,并以此进一步提高聚类的准确性。
实验结果表明,本发明方法具有很好的鲁棒性和准确性。
表1数据集信息
数据集 | 细胞数 | 基因数 | 类别数 | 计量单位 |
Ting | 114 | 14405 | 5 | RPM |
Buettner | 182 | 8989 | 3 | FPKM |
Pollen | 249 | 14805 | 11 | TPM |
Ginhoux | 251 | 11834 | 3 | RPKM |
LaManno | 337 | 14703 | 13 | UMI |
Darmanis | 420 | 22085 | 8 | CPM |
Leng | 460 | 19084 | 4 | TPM |
Camp | 465 | 18999 | 6 | FPKM |
Gokce | 1208 | 16379 | 10 | TPM |
Nestorowa | 1645 | 3991 | 3 | UMI |
Close | 1733 | 23045 | 4 | TPM |
Zeisel | 3005 | 4412 | 9 | UMI |
表2本方法确定的数据二维分布结构和推荐方法
数据集 | 细胞数 | 阈值 | 切割边数 | 簇平衡性 | 数据分布结构 | 推荐方法 |
Ting | 114 | 0.4683 | 1 | 平衡 | 分块结构 | 层次聚类 |
Buettner | 182 | 0.3706 | 0 | - | 连续结构 | 谱聚类 |
Pollen | 249 | 0.3169 | 2 | 平衡 | 分块结构 | 层次聚类 |
Ginhoux | 251 | 0.3156 | 0 | - | 连续结构 | 谱聚类 |
LaManno | 337 | 0.2724 | 0 | - | 连续结构 | 谱聚类 |
Darmanis | 420 | 0.2440 | 2 | 平衡 | 分块结构 | 层次聚类 |
Leng | 460 | 0.2331 | 0 | - | 连续结构 | 谱聚类 |
Camp | 465 | 0.2319 | 2 | 平衡 | 分块结构 | 层次聚类 |
Gokce | 1208 | 0.1439 | 4 | 平衡 | 分块结构 | 层次聚类 |
Nestorowa | 1645 | 0.1233 | 1 | 不平衡 | 连续结构 | 谱聚类 |
Close | 1733 | 0.1201 | 1 | 不平衡 | 连续结构 | 谱聚类 |
Zeisel | 3005 | 0.0912 | 3 | 平衡 | 分块结构 | 层次聚类 |
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。
Claims (7)
1.一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,其特征在于,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计基因在每个细胞中的表达量得到基因表达矩阵,并进行过滤和标准化处理;然后通过均匀流形近似和投影构建二维特征矩阵,并将二维特征矩阵进行线性归一化;
步骤2,根据归一化后的二维特征矩阵,计算每两个细胞间的欧式距离,并建立基于距离矩阵的细胞最小生成树;
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;所述自适应阈值根据细胞数N定义得到;
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
4.根据权利要求1所述的方法,其特征在于,所述步骤2中,基于距离矩阵,通过快速EMST双树Boruvka算法,建立基于距离矩阵的细胞最小生成树。
6.根据权利要求1所述的方法,其特征在于,所述步骤3中,若细胞最小生成树中所有边长均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
7.根据权利要求5所述的方法,其特征在于,所述预设比例为8:2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061290.0A CN112750502B (zh) | 2021-01-18 | 2021-01-18 | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110061290.0A CN112750502B (zh) | 2021-01-18 | 2021-01-18 | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750502A true CN112750502A (zh) | 2021-05-04 |
CN112750502B CN112750502B (zh) | 2022-04-15 |
Family
ID=75652277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110061290.0A Active CN112750502B (zh) | 2021-01-18 | 2021-01-18 | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750502B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257365A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 面向非标准化单细胞转录组测序数据的聚类方法及系统 |
CN113257364A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN113393898A (zh) * | 2021-06-29 | 2021-09-14 | 中国科学院深圳先进技术研究院 | 一种基于自监督学习的宏基因组重叠群分类方法 |
CN114171117A (zh) * | 2021-09-06 | 2022-03-11 | 百图生科(北京)智能技术有限公司 | 用于单细胞测序的方法、装置、设备、介质和程序产品 |
CN115188421A (zh) * | 2022-09-08 | 2022-10-14 | 杭州联川生物技术股份有限公司 | 基于高通量测序的基因聚类数据预处理方法、设备及介质 |
CN115631793A (zh) * | 2022-12-01 | 2023-01-20 | 新格元(南京)生物科技有限公司 | 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备 |
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
WO2023193267A1 (zh) * | 2022-04-08 | 2023-10-12 | 广州国家实验室 | 转录组图像生成装置、方法和应用 |
WO2024113164A1 (zh) * | 2022-11-29 | 2024-06-06 | 深圳华大智造科技股份有限公司 | 原位测序及对原位测序结果进行区域划分的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023030A (zh) * | 2016-05-13 | 2016-10-12 | 南通大学 | 一种用于异常脑组织病历分类的自适应分层邻域半径方法 |
CN108171012A (zh) * | 2018-01-17 | 2018-06-15 | 河南师范大学 | 一种基因分类方法与装置 |
CN109658981A (zh) * | 2018-12-10 | 2019-04-19 | 海南大学 | 一种单细胞测序的数据分类方法 |
CN110097072A (zh) * | 2019-03-19 | 2019-08-06 | 河南理工大学 | 一种基于二分模块度的模糊聚类评价方法 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
WO2020006183A1 (en) * | 2018-06-28 | 2020-01-02 | 10X Genomics, Inc. | Systems and methods for visualization of single-cell resolution characteristics |
CN110827921A (zh) * | 2019-11-12 | 2020-02-21 | 玉林师范学院 | 一种单细胞聚类方法、装置、电子设备及存储介质 |
-
2021
- 2021-01-18 CN CN202110061290.0A patent/CN112750502B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106023030A (zh) * | 2016-05-13 | 2016-10-12 | 南通大学 | 一种用于异常脑组织病历分类的自适应分层邻域半径方法 |
CN108171012A (zh) * | 2018-01-17 | 2018-06-15 | 河南师范大学 | 一种基因分类方法与装置 |
WO2020006183A1 (en) * | 2018-06-28 | 2020-01-02 | 10X Genomics, Inc. | Systems and methods for visualization of single-cell resolution characteristics |
CN109658981A (zh) * | 2018-12-10 | 2019-04-19 | 海南大学 | 一种单细胞测序的数据分类方法 |
CN110097072A (zh) * | 2019-03-19 | 2019-08-06 | 河南理工大学 | 一种基于二分模块度的模糊聚类评价方法 |
CN110222745A (zh) * | 2019-05-24 | 2019-09-10 | 中南大学 | 一种基于相似性学习及其增强的细胞类型鉴定方法 |
CN110827921A (zh) * | 2019-11-12 | 2020-02-21 | 玉林师范学院 | 一种单细胞聚类方法、装置、电子设备及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257365A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 面向非标准化单细胞转录组测序数据的聚类方法及系统 |
CN113257364A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN113393898A (zh) * | 2021-06-29 | 2021-09-14 | 中国科学院深圳先进技术研究院 | 一种基于自监督学习的宏基因组重叠群分类方法 |
CN113393898B (zh) * | 2021-06-29 | 2024-01-05 | 中国科学院深圳先进技术研究院 | 一种基于自监督学习的宏基因组重叠群分类方法 |
CN114171117A (zh) * | 2021-09-06 | 2022-03-11 | 百图生科(北京)智能技术有限公司 | 用于单细胞测序的方法、装置、设备、介质和程序产品 |
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
WO2023193267A1 (zh) * | 2022-04-08 | 2023-10-12 | 广州国家实验室 | 转录组图像生成装置、方法和应用 |
CN115188421A (zh) * | 2022-09-08 | 2022-10-14 | 杭州联川生物技术股份有限公司 | 基于高通量测序的基因聚类数据预处理方法、设备及介质 |
WO2024113164A1 (zh) * | 2022-11-29 | 2024-06-06 | 深圳华大智造科技股份有限公司 | 原位测序及对原位测序结果进行区域划分的方法 |
CN115631793A (zh) * | 2022-12-01 | 2023-01-20 | 新格元(南京)生物科技有限公司 | 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112750502B (zh) | 2022-04-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750502B (zh) | 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 | |
Lähnemann et al. | Eleven grand challenges in single-cell data science | |
Wang et al. | Clustering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study | |
Girotto et al. | MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures | |
Datta et al. | Methods for evaluating clustering algorithms for gene expression data using a reference set of functional classes | |
Wirth et al. | Mining SOM expression portraits: feature selection and integrating concepts of molecular function | |
CN110222745B (zh) | 一种基于相似性学习及其增强的细胞类型鉴定方法 | |
Hanczar et al. | Small-sample precision of ROC-related estimates | |
CN111899882B (zh) | 一种预测癌症的方法及系统 | |
Datta et al. | Evaluation of clustering algorithms for gene expression data | |
CN107247873B (zh) | 一种差异甲基化位点识别方法 | |
Van Wieringen et al. | Nonparametric testing for DNA copy number induced differential mRNA gene expression | |
CN112466404A (zh) | 一种宏基因组重叠群无监督聚类方法及系统 | |
Asyali et al. | Reliability analysis of microarray data using fuzzy c-means and normal mixture modeling based classification methods | |
Jeong et al. | PRIME: a probabilistic imputation method to reduce dropout effects in single-cell RNA sequencing | |
CN114864003A (zh) | 基于混合实验组和对照组单细胞样本的差异分析方法及系统 | |
Ressom et al. | Adaptive double self-organizing maps for clustering gene expression profiles | |
CN115274136A (zh) | 整合多组学与必需基因的肿瘤细胞系药物响应预测方法 | |
Olman et al. | CUBIC: identification of regulatory binding sites through data clustering | |
CN107103206B (zh) | 基于标准熵的局部敏感哈希的dna序列聚类 | |
Khalilabad et al. | Fully automatic classification of breast cancer microarray images | |
Bezerra et al. | Bioinformatics data analysis using an artificial immune network | |
CN113035279B (zh) | 基于miRNA测序数据的帕金森疾病演化关键模块识别方法 | |
Qin et al. | An efficient method to identify differentially expressed genes in microarray experiments | |
Tasoulis et al. | Unsupervised clustering of bioinformatics data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |