CN112750502A - 一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 - Google Patents

一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法 Download PDF

Info

Publication number
CN112750502A
CN112750502A CN202110061290.0A CN202110061290A CN112750502A CN 112750502 A CN112750502 A CN 112750502A CN 202110061290 A CN202110061290 A CN 202110061290A CN 112750502 A CN112750502 A CN 112750502A
Authority
CN
China
Prior art keywords
cell
data
clustering
distribution structure
dimensional distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110061290.0A
Other languages
English (en)
Other versions
CN112750502B (zh
Inventor
李敏
田宇
郑瑞清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202110061290.0A priority Critical patent/CN112750502B/zh
Publication of CN112750502A publication Critical patent/CN112750502A/zh
Application granted granted Critical
Publication of CN112750502B publication Critical patent/CN112750502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Discrete Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,包括:获取多个细胞的单细胞转录组测序数据得到的基因表达矩阵,在过滤和标准化处理后,构建二维特征矩阵并进行线性归一化;根据归一化后的二维特征矩阵计算细胞间的欧式距离,从而建立细胞最小生成树;通过自适应阈值对细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定数据的二维分布结构;对具有模糊簇间边界和连续二维分布结构的数据,推荐并应用层次聚类算法,而对具有明显簇间边界和分块二维分布结构的数据,推荐并应用谱聚类算法。本发明能为单细胞转录组测序数据在层次聚类和谱聚类中推荐更适合其二维分布结构的方法作为下游聚类分析方法,提高聚类准确性。

Description

一种基于二维分布结构判定的单细胞转录组测序数据聚类推 荐方法
技术领域
本发明涉及生物信息学领域,涉及一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法。
背景技术
在细胞生物学领域,单细胞分析是在单细胞水平上对基因组学、转录组学、蛋白质组学和代谢组学的研究。它提供了一种超灵敏的工具来阐明特定的分子机制和途径,并揭示了细胞异质性的本质。随着技术的发展和成本的下降,应用于单细胞全基因组的转录组测序(scRNA-seq)技术正在迅速成为生物学和生物医学研究等许多领域的选择。在单细胞分辨率下研究全基因组的基因表达克服了传统RNA测序的内在局限性,单细胞转录组测序使研究人员能够更严格地解决有关组织的细胞组成,转录物异质性和细胞类型的问题,使单细胞转录组测序已用于研究癌症,宏基因组学以及调控和进化网络。近些年来,单细胞异质性分析研究成为了生物信息领域的一大研究热点。为了剖析细胞异质性,就有必要在单细胞水平进行基因表达分析。单细胞转录组测序技术能获得单个细胞内近万个基因的表达信息,为辨别生物组织中各种细胞类型的转录特征和全面揭示细胞之间的基因表达差异提供了有力的工具。在单细胞转录组测序数据分析中,鉴定种群结构是至关重要的一步。对单细胞转录组测序数据进行的下游分析涉及多个步骤,包括质量控制,定量,归一化,聚类,寻找轨迹和鉴定差异表达的基因等。目前已经提出了很多单细胞聚类方法来对细胞进行划分,其中层次聚类和谱聚类是下游聚类分析中应用最多的两个聚类方法:
层次聚类:将单个数据迭代的合并为较大的簇(凝聚聚类)或将一个大类迭代的划分为较小的簇(分裂聚类),并通过得到的树状图中层次树的分支结构来表示最终的聚类结果。层次聚类可以通过切割树状图来获得不同的聚类结果,但方法缺少对簇间边界的精准定义,这将导致其在具有模糊边界结构的数据上的聚类效果不够理想。
谱聚类:将所有数据看作空间中的点,点之间用边连接起来。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重和尽可能的低,而子图内的边权重和尽可能的高,从而达到聚类的目的。因此,谱聚类可以处理更为复杂的数据分布结构,例如模糊边界问题,但方法缺点在于十分依赖相似性矩阵的准确性。
两种聚类方法由于基于不同的理论和策略,因而可能在具有不同分布结构的数据上的聚类结果存在差异。在通过分析每组数据的二维分布结构以选择更合适的聚类方法方面,还有进一步提升的空间。
因此,有必要提供一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,能够为具有不同二维分布结构的数据在层次聚类和谱聚类中推荐更合适的聚类方法,提高聚类准确性。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计基因在每个细胞中的表达量得到基因表达矩阵,并进行过滤和标准化处理;然后通过均匀流形近似和投影构建二维特征矩阵,并将二维特征矩阵进行线性归一化;
步骤2,根据归一化后的二维特征矩阵,计算每两个细胞间的欧式距离,并建立基于距离矩阵的细胞最小生成树;
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;所述自适应阈值根据细胞数N定义得到;
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
在更优的技术方案,所述步骤1对二维特征矩阵进行线性归一化的公式为:
Figure BDA0002902450490000021
其中,Y′表示通过均匀流形近似和投影构建的二维特征矩阵,Ymax和Ymin分别表示初始基因表达矩阵中表达量的最大值和最小值。
在更优的技术方案,所述步骤2对归一化后的二维特征矩阵计算细胞间距离的公式为:
Figure BDA0002902450490000022
其中,dij表示细胞i到细胞j之间的欧式距离,yim和yjm分别为细胞i和细胞j的第m个基因的表达量。
在更优的技术方案,所述步骤2中,基于距离矩阵,通过快速EMST双树Boruvka算法,建立基于距离矩阵的细胞最小生成树。
在更优的技术方案,所述步骤3中根据细胞数N定义自适应阈值的公式为:
Threshold=λ×pCR
其中,Threshold为定义的自适应阈值,λ=5为默认常数值,pCR为单个细胞分辨率,且
Figure BDA0002902450490000031
在更优的技术方案,所述步骤3中,若细胞最小生成树中所有边长均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
在更优的技术方案,所述预设比例为8:2。
有益效果
本发明能为单细胞转录组测序数据集在层次聚类和谱聚类中推荐更适合其二维分布结构的方法作为下游聚类分析方法,并提高聚类准确性。
附图说明
图1为本发明的流程图;
图2、图3为本发明针对实施例中6套数据集确定的数据二维分布结构与使用tSNE和UMAP两种可视化方法在具有真实标签的分化数据集和亚型数据集上进行二维可视化的结果比较图;
图4、图5分别为本发明针对实施例中另外6套数据集确定的数据二维分布结构与使用tSNE和UMAP两种可视化方法在具有真实标签的分化数据集和亚型数据集上进行二维可视化的结果比较图。
图6和图7为用选择的10个经典相关方法的预处理策略,分别结合层次聚类和谱聚类作为下游聚类方法所得到的聚类结果的NMI比较图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例以本发明的技术方案为依据开展,给出了详细的实施方式和具体的操作过程,对本发明的技术方案作进一步解释说明。
本实施例提供一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计测序数据中基因在每个细胞中的表达量得到基因表达矩阵X=[x1,x2,…,xN],xi=[xi1,xi2,…,xim],i=1,2,…,N,m表示细胞中的基因数,xi1,xi2,…,xim表示细胞i分别在m个基因中的表达量;将基因表达矩阵X中表达量为0的基因删除以完成过滤后,再对过滤后的基因表达矩阵进行标准化处理;再通过对标准化处理后的基因表达矩阵进行均匀流形近似和投影[1],以构建二维特征矩阵Y,并将二维特征矩阵Y按以下公式进行线性归一化处理:
Figure BDA0002902450490000041
其中,Y′为归一化后的二维特征矩阵,Ymax和Ymin分别表示初始基因表达矩阵中表达量矩阵表达值的最大值和最小值。
步骤2,根据归一化后的二维特征矩阵Y′,计算每两个细胞间的欧式距离;然后基于欧式距离构成的距离矩阵,通过快速EMST双树Boruvka(fast EMST Dual-Tree Boruvka)算法[2],建立基于距离矩阵的细胞最小生成树;
每两个细胞间的欧式距离计算公式为:
Figure BDA0002902450490000042
其中,dij表示细胞i到细胞j之间的欧式距离,yim和yjm分别为细胞i和细胞j的第m个基因的表达量。
基于欧式距离矩阵的快速EMST双树Boruvka算法的步骤为:
Figure BDA0002902450490000043
Figure BDA0002902450490000051
其中,Cq表示包含q的分支,d(Cq)表示Cq中当前最近邻的距离(初始值为无穷大),e(Cq)表示Cq与其最近邻构成的边集合,d(Q,R)表示Q与R中结点的最小距离。
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;
其中的自适应阈值,根据细胞数N按以下公式定义得到:
Threshold=λ×pCR
其中,Threshold为定义的自适应阈值,λ=5为默认常数值,pCR为单个细胞分辨率(定义为随机平铺在1x1平面的每个细胞间距离),本实施例中取
Figure BDA0002902450490000052
另外,本实施例中单细胞转录组测序数据的二维分布结构的确定方法具体为:若细胞最小生成树中所有欧式距离计算所得的边长值均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例8:2时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
[1]McInnes L,Healy J and Melville J.UMAP:uniform manifoldapproximation and projection.arXiv 2018;1802.03426.
[2]March WB,Ram P and Gray AG.Fast euclidian minimum spanning tree:algorithm analysis,and applications.16th ACM SIGKDD International Conferenceon Knowledge Discovery and Data mining 2010.
实验验证:
为了验证本发明方法的有效性,从已发表文献和公共数据库(GEO、ArrayExpress)收集了12套来自不同物种或不同组织或不同规模的单细胞数据集,包括细胞的基因表达矩阵和真实类别标签,并在这12套真实数据集上测试本发明提出的方法。12套数据集的详细信息如表1所示。为客观评价本发明方法的有效性,选用常用指标NMI作为聚类评价标准,同时选择10个经典的分别以相似性计算、填充和降维方法作为预处理策略的单细胞相关方法来验证推荐的准确性,其中包括SPEARMAN、UMAP、SC3、RAFSIL、SIMLR、MPSSC、CIDR、SINCERA、SEURAT和ZIFA。对两组不同的标签F1和F2,NMI的计算公式为:
Figure BDA0002902450490000061
其中,I(F1,F2)表示F1和F2两者的互信息,H(F1)、H(F2)分别表示两者的信息熵。
为了评价本发明方法分类的准确性及功能可解释性,进行以下三项分析:
1、分析确定的数据二维分布结构及推荐的聚类方法
该部分针对12套数据集中的样本分别进行分析。使用本发明确定每套数据集的二维分布结构和推荐的聚类方法。实验结果如表2所示。
2、分析确定的结构与可视化的一致性
该部分针对12套数据集中的样本分别进行分析。对每套数据集,分别通过tSNE和UMAP结合数据真实标签进行二维可视化,结果如图2至图5所示。从图2至图5可以看出,两种可视化的结果均与本发明确定的数据二维分布结构显示出一致性。
3、分析推荐的聚类方法的准确性
该部分针对12套数据集中的样本分别进行分析。使用选择的10个经典相关方法的预处理策略,分别结合层次聚类和谱聚类作为下游聚类方法。采用NMI指标评价聚类结果。NMI的实验结果如图6和图7所示,从图6和图7可以看出,本发明能够对12套数据集分别从层次聚类和谱聚类中推荐更合适的聚类方法,并以此进一步提高聚类的准确性。
实验结果表明,本发明方法具有很好的鲁棒性和准确性。
表1数据集信息
数据集 细胞数 基因数 类别数 计量单位
Ting 114 14405 5 RPM
Buettner 182 8989 3 FPKM
Pollen 249 14805 11 TPM
Ginhoux 251 11834 3 RPKM
LaManno 337 14703 13 UMI
Darmanis 420 22085 8 CPM
Leng 460 19084 4 TPM
Camp 465 18999 6 FPKM
Gokce 1208 16379 10 TPM
Nestorowa 1645 3991 3 UMI
Close 1733 23045 4 TPM
Zeisel 3005 4412 9 UMI
表2本方法确定的数据二维分布结构和推荐方法
数据集 细胞数 阈值 切割边数 簇平衡性 数据分布结构 推荐方法
Ting 114 0.4683 1 平衡 分块结构 层次聚类
Buettner 182 0.3706 0 - 连续结构 谱聚类
Pollen 249 0.3169 2 平衡 分块结构 层次聚类
Ginhoux 251 0.3156 0 - 连续结构 谱聚类
LaManno 337 0.2724 0 - 连续结构 谱聚类
Darmanis 420 0.2440 2 平衡 分块结构 层次聚类
Leng 460 0.2331 0 - 连续结构 谱聚类
Camp 465 0.2319 2 平衡 分块结构 层次聚类
Gokce 1208 0.1439 4 平衡 分块结构 层次聚类
Nestorowa 1645 0.1233 1 不平衡 连续结构 谱聚类
Close 1733 0.1201 1 不平衡 连续结构 谱聚类
Zeisel 3005 0.0912 3 平衡 分块结构 层次聚类
以上实施例为本申请的优选实施例,本领域的普通技术人员还可以在此基础上进行各种变换或改进,在不脱离本申请总的构思的前提下,这些变换或改进都应当属于本申请要求保护的范围之内。

Claims (7)

1.一种基于二维分布结构判定的单细胞转录组测序数据聚类推荐方法,其特征在于,包括以下步骤:
步骤1,获取N个细胞的单细胞转录组测序数据,通过统计基因在每个细胞中的表达量得到基因表达矩阵,并进行过滤和标准化处理;然后通过均匀流形近似和投影构建二维特征矩阵,并将二维特征矩阵进行线性归一化;
步骤2,根据归一化后的二维特征矩阵,计算每两个细胞间的欧式距离,并建立基于距离矩阵的细胞最小生成树;
步骤3,通过自适应阈值对构建的细胞最小生成树进行切割,并以切割后构成的簇的平衡性来确定单细胞转录组测序数据的二维分布结构;所述自适应阈值根据细胞数N定义得到;
步骤4,根据数据二维分布结构的差异并结合层次聚类和谱聚类的方法特性,对计算确定具有模糊簇间边界和连续二维分布结构的数据,推荐并使用层次聚类算法进行下游聚类分析,而对计算确定具有明显簇间边界和分块二维分布结构的数据,推荐并使用谱聚类算法进行下游聚类分析。
2.根据权利要求1所述的方法,其特征在于,所述步骤1中,对二维特征矩阵进行线性归一化的公式为:
Figure FDA0002902450480000011
其中,Y′表示通过均匀流形近似和投影构建的二维特征矩阵,Ymax和Ymin分别表示初始基因表达矩阵中表达量的最大值和最小值。
3.根据权利要求1所述的方法,其特征在于,所述步骤2中,对归一化后的二维特征矩阵计算细胞间距离的公式为:
Figure FDA0002902450480000012
其中,dij表示细胞i到细胞j之间的欧式距离,yim和yjm分别为细胞i和细胞j的第m个基因的表达量。
4.根据权利要求1所述的方法,其特征在于,所述步骤2中,基于距离矩阵,通过快速EMST双树Boruvka算法,建立基于距离矩阵的细胞最小生成树。
5.根据权利要求1所述的方法,其特征在于,所述步骤3中,根据细胞数N定义自适应阈值的公式为:
Threshold=λ×pCR
其中,Threshold为定义的自适应阈值,λ=5为默认常数值,pCR为单个细胞分辨率,且
Figure FDA0002902450480000021
6.根据权利要求1所述的方法,其特征在于,所述步骤3中,若细胞最小生成树中所有边长均小于阈值,则确定数据为具有模糊簇间边界和连续的二维分布结构;反之若存在大于阈值的树边,则将满足条件的边进行切割并计算重新构成的簇间的平衡性,当最大簇与次大簇中细胞的数量比超过预设比例时,确定数据为具有模糊簇间边界和连续的二维分布结构,否则将数据确定为具有明显簇间边界和分块的二维分布结构。
7.根据权利要求5所述的方法,其特征在于,所述预设比例为8:2。
CN202110061290.0A 2021-01-18 2021-01-18 二维分布结构判定的单细胞转录组测序数据聚类推荐方法 Active CN112750502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110061290.0A CN112750502B (zh) 2021-01-18 2021-01-18 二维分布结构判定的单细胞转录组测序数据聚类推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110061290.0A CN112750502B (zh) 2021-01-18 2021-01-18 二维分布结构判定的单细胞转录组测序数据聚类推荐方法

Publications (2)

Publication Number Publication Date
CN112750502A true CN112750502A (zh) 2021-05-04
CN112750502B CN112750502B (zh) 2022-04-15

Family

ID=75652277

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110061290.0A Active CN112750502B (zh) 2021-01-18 2021-01-18 二维分布结构判定的单细胞转录组测序数据聚类推荐方法

Country Status (1)

Country Link
CN (1) CN112750502B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257365A (zh) * 2021-05-26 2021-08-13 南开大学 面向非标准化单细胞转录组测序数据的聚类方法及系统
CN113257364A (zh) * 2021-05-26 2021-08-13 南开大学 基于多目标进化的单细胞转录组测序数据聚类方法及系统
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN114171117A (zh) * 2021-09-06 2022-03-11 百图生科(北京)智能技术有限公司 用于单细胞测序的方法、装置、设备、介质和程序产品
CN115188421A (zh) * 2022-09-08 2022-10-14 杭州联川生物技术股份有限公司 基于高通量测序的基因聚类数据预处理方法、设备及介质
CN115631793A (zh) * 2022-12-01 2023-01-20 新格元(南京)生物科技有限公司 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备
CN114462548B (zh) * 2022-02-23 2023-07-18 曲阜师范大学 一种提高单细胞深度聚类算法精度的方法
WO2023193267A1 (zh) * 2022-04-08 2023-10-12 广州国家实验室 转录组图像生成装置、方法和应用
WO2024113164A1 (zh) * 2022-11-29 2024-06-06 深圳华大智造科技股份有限公司 原位测序及对原位测序结果进行区域划分的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106023030A (zh) * 2016-05-13 2016-10-12 南通大学 一种用于异常脑组织病历分类的自适应分层邻域半径方法
CN108171012A (zh) * 2018-01-17 2018-06-15 河南师范大学 一种基因分类方法与装置
CN109658981A (zh) * 2018-12-10 2019-04-19 海南大学 一种单细胞测序的数据分类方法
CN110097072A (zh) * 2019-03-19 2019-08-06 河南理工大学 一种基于二分模块度的模糊聚类评价方法
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
WO2020006183A1 (en) * 2018-06-28 2020-01-02 10X Genomics, Inc. Systems and methods for visualization of single-cell resolution characteristics
CN110827921A (zh) * 2019-11-12 2020-02-21 玉林师范学院 一种单细胞聚类方法、装置、电子设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106023030A (zh) * 2016-05-13 2016-10-12 南通大学 一种用于异常脑组织病历分类的自适应分层邻域半径方法
CN108171012A (zh) * 2018-01-17 2018-06-15 河南师范大学 一种基因分类方法与装置
WO2020006183A1 (en) * 2018-06-28 2020-01-02 10X Genomics, Inc. Systems and methods for visualization of single-cell resolution characteristics
CN109658981A (zh) * 2018-12-10 2019-04-19 海南大学 一种单细胞测序的数据分类方法
CN110097072A (zh) * 2019-03-19 2019-08-06 河南理工大学 一种基于二分模块度的模糊聚类评价方法
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法
CN110827921A (zh) * 2019-11-12 2020-02-21 玉林师范学院 一种单细胞聚类方法、装置、电子设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113257365A (zh) * 2021-05-26 2021-08-13 南开大学 面向非标准化单细胞转录组测序数据的聚类方法及系统
CN113257364A (zh) * 2021-05-26 2021-08-13 南开大学 基于多目标进化的单细胞转录组测序数据聚类方法及系统
CN113393898A (zh) * 2021-06-29 2021-09-14 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN113393898B (zh) * 2021-06-29 2024-01-05 中国科学院深圳先进技术研究院 一种基于自监督学习的宏基因组重叠群分类方法
CN114171117A (zh) * 2021-09-06 2022-03-11 百图生科(北京)智能技术有限公司 用于单细胞测序的方法、装置、设备、介质和程序产品
CN114462548B (zh) * 2022-02-23 2023-07-18 曲阜师范大学 一种提高单细胞深度聚类算法精度的方法
WO2023193267A1 (zh) * 2022-04-08 2023-10-12 广州国家实验室 转录组图像生成装置、方法和应用
CN115188421A (zh) * 2022-09-08 2022-10-14 杭州联川生物技术股份有限公司 基于高通量测序的基因聚类数据预处理方法、设备及介质
WO2024113164A1 (zh) * 2022-11-29 2024-06-06 深圳华大智造科技股份有限公司 原位测序及对原位测序结果进行区域划分的方法
CN115631793A (zh) * 2022-12-01 2023-01-20 新格元(南京)生物科技有限公司 一种单细胞转录组Pseudo-Cell分析方法、模型及存储介质和设备

Also Published As

Publication number Publication date
CN112750502B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
Lähnemann et al. Eleven grand challenges in single-cell data science
Wang et al. Clustering of the SOM easily reveals distinct gene expression patterns: results of a reanalysis of lymphoma study
Girotto et al. MetaProb: accurate metagenomic reads binning based on probabilistic sequence signatures
Datta et al. Methods for evaluating clustering algorithms for gene expression data using a reference set of functional classes
Wirth et al. Mining SOM expression portraits: feature selection and integrating concepts of molecular function
CN110222745B (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
Hanczar et al. Small-sample precision of ROC-related estimates
CN111899882B (zh) 一种预测癌症的方法及系统
Datta et al. Evaluation of clustering algorithms for gene expression data
CN107247873B (zh) 一种差异甲基化位点识别方法
Van Wieringen et al. Nonparametric testing for DNA copy number induced differential mRNA gene expression
CN112466404A (zh) 一种宏基因组重叠群无监督聚类方法及系统
Asyali et al. Reliability analysis of microarray data using fuzzy c-means and normal mixture modeling based classification methods
Jeong et al. PRIME: a probabilistic imputation method to reduce dropout effects in single-cell RNA sequencing
CN114864003A (zh) 基于混合实验组和对照组单细胞样本的差异分析方法及系统
Ressom et al. Adaptive double self-organizing maps for clustering gene expression profiles
CN115274136A (zh) 整合多组学与必需基因的肿瘤细胞系药物响应预测方法
Olman et al. CUBIC: identification of regulatory binding sites through data clustering
CN107103206B (zh) 基于标准熵的局部敏感哈希的dna序列聚类
Khalilabad et al. Fully automatic classification of breast cancer microarray images
Bezerra et al. Bioinformatics data analysis using an artificial immune network
CN113035279B (zh) 基于miRNA测序数据的帕金森疾病演化关键模块识别方法
Qin et al. An efficient method to identify differentially expressed genes in microarray experiments
Tasoulis et al. Unsupervised clustering of bioinformatics data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant