CN115512772A - 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 - Google Patents

一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 Download PDF

Info

Publication number
CN115512772A
CN115512772A CN202211159840.3A CN202211159840A CN115512772A CN 115512772 A CN115512772 A CN 115512772A CN 202211159840 A CN202211159840 A CN 202211159840A CN 115512772 A CN115512772 A CN 115512772A
Authority
CN
China
Prior art keywords
clustering
matrix
cell
graph
consensus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211159840.3A
Other languages
English (en)
Inventor
吴昊
周昊茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202211159840.3A priority Critical patent/CN115512772A/zh
Publication of CN115512772A publication Critical patent/CN115512772A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于标记基因和集成学习的高精度单细胞聚类方法及系统,包括:步骤一:特征提取;采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达;步骤二:内层聚类;经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;内层聚类方法包括单细胞聚类方法SNN‑Cliq和深度学习的自组织映射方法SOM;步骤三:计算共识矩阵;使用基于聚类的相似度划分算法CSPA计算共识矩阵C;步骤四:共识聚类;根据共识矩阵C构建图c,图c中的节点Node表示细胞,边的权值edge表示两节点在同一个划分的概率。

Description

一种基于标记基因和集成学习的高精度单细胞聚类方法及 系统
技术领域
本发明涉及一种基于标记基因和集成学习的高精度单细胞聚类方法及系统,属于数据聚类技术领域。
背景技术
单细胞的聚类工作是单细胞RNA测序数据分析中最重要的一部分。单细胞RNA测序数据存在噪音、和稀疏性高的问题,为高精度聚类算法带来了很大的挑战。对于单细胞聚类来说,特征选择的质量对于聚类精度有着显著影响。目前的单细胞聚类工具对于特征的处理主要依赖于一些简单的无监督特征选择方法,而忽略了现有的研究成果对于特征提取的指导性作用。例如,特征处理部分经常使用与基因表达的统计矩相关的量的简单度量方法,结合主成分分析(Principal ComponentAnalysis,PCA)、t分布随机近邻嵌入(t-distributed Stochastic Neighbor Embedding,t-SNE)或均匀流形近似和投影(UniformManifold Approximation and Projection,UMAP)等经典数据降维操作,最后使用谱聚类、层次聚类、K-means等聚类方法进行聚类。这样的特征处理方式容易丢失表征细胞类型的特征。因此,构建一个高精度细胞聚类算法,以实现特征的准确提取与细胞的准确分群是很必要的。
细胞标记基因作为在不同细胞群中特异表达的基因,它们的表达模式可以有效指导细胞分群的进行。许多单细胞聚类算法之所以聚类精度不高,易被噪声影响,一个可能的原因是无监督的特征提取不易识别出细胞群间差异最大的基因集。
发明内容
针对现有技术的不足,本发明利用细胞标记基因集作为先验知识集进行特征提取,并集成两种性能优异的聚类方法,包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射(SOM)进行单细胞聚类。本发明提出了一种高精度的单细胞聚类算法-SCMcluster(Single cell cluster using markergenes),使用整合后的两个单细胞标志物数据库将其应用于特征提取并构建了一个集成聚类模型用于特征处理之后的进一步聚类。
本发明的技术方案为:
一种基于标记基因和集成学习的高精度单细胞聚类方法,包括步骤如下:
步骤一:特征提取;采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达,其中,列对应细胞,行对应基因/转录本;
步骤二:内层聚类;经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;
经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq,包括:
首先,使用欧氏距离计算表达矩阵M对应的相似矩阵D;
然后,对于相似矩阵D,将其视为有权图来构建KNN图;
再次,根据KNN图构建共享邻居图;
最后,通过在构建的共享邻居图中寻找quasi-cliques的策略,不断迭代,直到得到最后的子图;参数r_cutoff和merge_cutoff分别表示每对Cliq的最近邻半径和合并阈值;
经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM,SOM的拓扑结构包括输入层,竞争层和输出层;输入层用于接收并传递经过特征提取的表达矩阵;竞争层用于对表达矩阵进行分析比较,寻找规律并归类;输出层用于输出聚类结果;
步骤三:计算共识矩阵;使用基于聚类的相似度划分算法CSPA计算共识矩阵C;
步骤四:共识聚类;根据共识矩阵C构建图c,图c中的节点Node表示细胞,边的权值edge表示两节点在同一个划分的概率;最终输出的单细胞聚类结果为进行共识聚类后得到的标签。
进一步优选的,步骤一中,具体是指:使用marker基因集对细胞表达矩阵的列进行筛选,提取对细胞类型影响较大的特征;并设定方差阈值,通过方差筛选进一步的降维,方差变化低于方差阈值的基因被筛除。
进一步优选的,步骤二中,欧氏距离计算公式如式(I)所示:
Figure BDA0003859224750000021
式(I)中,d(x,y)表示两个细胞间的距离,n代表了特征的数量;x,y分别表示细胞x和细胞y,xi、yi分别表示细胞x和细胞y的第i个表达值。
进一步优选的,步骤二中,对于相似矩阵D,将其视为有权图来构建KNN图,包括:将相似矩阵D中的节点作为KNN图中的节点,K为最近邻居的数量,两节点之间的距离为该两节点的欧氏距离。
进一步优选的,步骤二中,根据KNN图构建共享邻居图,包括:共享邻居图的节点是细胞,边则根据是否存在至少拥有一个共同的KNN一对节点定义;边e(xi,yi)的权值w(xi,xj)定义为k与KNN图中最高的平均排名的差值,计算公式如式(II)所示:
Figure BDA0003859224750000031
式(II)中,k为最近邻列表的大小,rank(v,xi)表示节点v在xi最近邻列表NN(xi)中的位置,rank(v,xj)表示节点v在xj最近邻列表NN(xj)中的位置。
进一步优选的,r_cutoff=0.7,merge_cutoff=0.5。
进一步优选的,步骤二中,通过在构建的共享邻居图中寻找quasi-cliques的策略,不断迭代,直到得到最后的子图,包括:首先,在共享邻居图中使用贪心算法寻找与每个节点相关联的最大拟团,在找到所有可能的准团之后,通过删除完全包含在其他准团中的准团来消除冗余;接着,通过合并准团识别集群,最后,将节点分配给唯一的集群。
根据本发明优选的,步骤二中,经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM,具体包括:
首先,从数据集即特征提取后的表达矩阵中随机抽取m个输入样本作为初始权值,对细胞向量X和权向量W,归一化处理得到
Figure BDA0003859224750000032
Figure BDA0003859224750000033
Figure BDA0003859224750000034
初始化优胜邻域r_t;细胞向量X是指由细胞的基因表达值构成的向量,权向量W的初始化由随机选取细胞向量X进行;
然后,对归一化样本包括
Figure BDA0003859224750000035
Figure BDA0003859224750000036
计算点积,选择计算后点积最大的节点作为获胜节点,如式(III)所示:
Figure BDA0003859224750000037
最后,对优胜邻域内的节点调整权值,即对获胜的神经元拓扑邻域内的神经元采用内星规则进行更新,如式(IV)所示:
Figure BDA0003859224750000038
最终得到的网络权值趋近于各输入向量的平均值;判断学习率η是否低于阈值eps,当学习率衰减到低于阈值eps时,迭代结束。
根据本发明优选的,步骤三中,共识矩阵C的元素mij被定义为两细胞被划分为同一类的概率,定义如式(V)、式(VI)所示:
C={mij}n×n (V)
Figure BDA0003859224750000039
其中,n表示细胞数,M表示内层第一层的聚类方法数,
Figure BDA0003859224750000041
表示在第一层的第m个聚类方法中细胞i,j是否被划分在同一类。
进一步优选的,M=2。
根据本发明优选的,步骤四中,根据共识矩阵C构建图c,如式(VII)、式(VIII)所示:
Node=n_of_C (VII)
edge=mij (VIII)
其中,n表示共识矩阵D中的点,即细胞序号,构建得到的图c中的节点(Node)与共识矩阵中的节点顺序一致。
一种基于标记基因和集成学习的高精度单细胞聚类系统,包括:
特征提取模块,被配置为:采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;
内层聚类模块,被配置为:经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;经过特征提取后的表达矩阵分别作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;
共识矩阵计算模块,被配置为:使用基于聚类的相似度划分算法CSPA计算共识矩阵C;
共识聚类模块,被配置为:根据共识矩阵C构建图c。
本发明的有益效果为:
1、本发明提出的单细胞聚类算法-SCMcluster中的标记基因集作为先验知识可以减少噪声对单细胞数据的影响,有效提取表征细胞的特征。
2、本发明提出的单细胞聚类算法-SCMcluster中的集成聚类模型结合了不同聚类方法的优点,进一步提高了聚类的准确性和鲁棒性。通过测试证明,本发明提出的单细胞聚类算法-SCMcluster在特征提取和聚类性能方面都优于现有方法。
附图说明
图1为本发明基于标记基因和集成学习的高精度单细胞聚类方法的流程示意图;
图2为本发明将特征处理前后的单细胞RNA测序数据应用于八种不同的聚类方法并用五种评价指标来衡量聚类结果的示意图;
图3为本发明SCMcluster与t-SNE、pcaReduce中使用的PCA以及UMAP降维效果对比示意图;
图4(a)为真实数据集Muraro上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图;
图4(b)为真实数据集Baron上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于标记基因和集成学习的高精度单细胞聚类方法,如图1所示,包括步骤如下:
SCMcluster以细胞表达矩阵M’作为输入,其中,列对应细胞,行对应基因/转录本;M’的每个元素对应于一个基因/转录本在给定细胞中的表达;SCMcluster是基于五个基本步骤的(图1)。对于这些步骤中的每个参数,用户都可以很容易地进行调整,也可以设置为合理的默认值。
步骤一:特征提取;单细胞RNA测序数据通常维度和稀疏性高,所以在本发明中,为了减少多余的数据维度,提升特征的表征能力,提升聚类算法的运算速度,采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达,其中,列对应细胞,行对应基因/转录本;
特征筛选部分仅仅使用构建的标记基因集,可以通过构建更健全的标记基因评分体制和集成更全面的标记基因数据集来实现特征提取。
步骤二:内层聚类;经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;本发明集成了两种先进的聚类方法,内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;
经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq,包括:
SNN-Cliq是一种基于子图划分的单细胞聚类算法,该算法适合稀疏的大型的单细胞RNA数据集。首先,使用欧氏距离计算表达矩阵M对应的相似矩阵D;
然后,对于相似矩阵D,将其视为有权图来构建KNN(K-Nearest Neighbor)图;
再次,根据KNN图构建共享邻居图(SNN图);
最后,通过在单细胞聚类方法SNN-Cliq构建的共享邻居图中寻找quasi-cliques的策略,不断迭代,直到得到最后的子图;参数r_cutoff和merge_cutoff分别表示每对Cliq的最近邻半径和合并阈值;
经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM,SOM的拓扑结构包括输入层,竞争层和输出层;输入层用于接收并传递经过特征提取的表达矩阵;竞争层用于对表达矩阵进行分析比较,寻找规律并归类;输出层用于输出聚类结果;
竞争层的拓扑结构为一维线性结构。由于SOM可以将高维的input数据在低维的空间表示,具有降维的能力,因此,为了保存数据的全局特征,本发明在SOM使用时去除了降维操作。
此外,在SOM的设计上,可以使用改进的网络以实现更快的聚类。
步骤三:计算共识矩阵;使用基于聚类的相似度划分算法CSPA计算共识矩阵C;
步骤四:共识聚类;在本发明的聚类框架中,最终的划分结果使用谱聚类得到。根据共识矩阵的定义可知,共识矩阵与图的邻接矩阵有类似的结构,均为对称的方阵。因此根据共识矩阵C构建图c,图c中的节点Node表示细胞,边的权值edge表示两节点(也就是细胞)在同一个划分的概率。谱聚类算法作为一种子图分割方法,在寻找子图时表现出良好的性能。本发明在共识矩阵C构建的有权图c上使用谱聚类方法,得到最终的细胞分群结果。
最终输出的单细胞聚类结果为进行共识聚类(谱聚类在共识矩阵上的聚类)后得到的标签。
实施例2
根据实施例1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其区别在于:
步骤一中,具体是指:使用marker基因集对细胞表达矩阵的列进行筛选,提取对细胞类型影响较大的特征;并设定方差阈值,通过方差筛选进一步的降维,方差变化低于方差阈值的基因被筛除。详细步骤包括:首先,构造标记基因集。使用两个收录比较全面的公共单细胞数据库-CellMarker数据库(http://biocc.hrbmu.edu.cn/CellMarker/download.jsp)和PanglaoDB数据库(http://biocc.hrbmu.edu.cn/CellMarker/download.jsp),提取PanglaoDB数据库中不同物种的Official gene symbol和CellMarker数据库中来自cancer cell的geneSymbol作为标记基因集。接着,使用构造的标记基因集对表达矩阵的行进行筛选,提取涵盖的基因的作为特征。最后,使用方差筛选方法进一步降维。设定方差阈值,方差变化低于方差阈值的基因被筛除,根据以上步骤得到特征提取后的表达矩阵。
步骤二中,欧氏距离计算公式如式(I)所示:
Figure BDA0003859224750000061
式(I)中,d(x,y)表示两个细胞间的距离,n代表了特征的数量;x,y分别表示细胞x和细胞y,xi、yi分别表示细胞x和细胞y的第i个表达值。
步骤二中,对于相似矩阵D,将其视为有权图来构建KNN图,包括:将相似矩阵D中的节点作为KNN图中的节点,K为最近邻居的数量,两节点之间的距离为该两节点的欧氏距离。
步骤二中,根据KNN图构建共享邻居图,包括:共享邻居图的节点是细胞,边则根据是否存在至少拥有一个共同的KNN一对节点(也就是一对细胞)定义;边e(xi,yi)的权值w(xi,xj)定义为k与KNN(K-Nearest Neighbor)图中最高的平均排名的差值,计算公式如式(II)所示:
Figure BDA0003859224750000071
式(II)中,k为最近邻列表的大小,rank(v,xi)表示节点v在xi最近邻列表NN(xi)中的位置,rank(v,xj)表示节点v在xj最近邻列表NN(xj)中的位置。
r_cutoff=0.7,merge_cutoff=0.5。
步骤二中,通过在构建的共享邻居图中寻找quasi-cliques的策略,不断迭代,直到得到最后的子图,包括:首先,在共享邻居图中使用贪心算法寻找与每个节点相关联的最大拟团,在找到所有可能的准团之后,通过删除完全包含在其他准团中的准团来消除冗余;接着,通过合并准团识别集群,最后,将节点分配给唯一的集群。
步骤二中,经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM,具体包括:
首先,从数据集即特征提取后的表达矩阵中随机抽取m个输入样本作为初始权值,对细胞向量X和权向量W,归一化处理得到
Figure BDA0003859224750000072
Figure BDA0003859224750000073
Figure BDA0003859224750000074
初始化优胜邻域r_t;细胞向量X是指由细胞的基因表达值构成的向量,权向量W的初始化由随机选取细胞向量X进行;
然后,对归一化样本包括
Figure BDA0003859224750000075
Figure BDA0003859224750000076
计算点积,选择计算后点积最大的节点作为获胜节点,如式(III)所示:
Figure BDA0003859224750000077
最后,对优胜邻域内的节点调整权值,即对获胜的神经元拓扑邻域内的神经元采用内星规则进行更新,如式(IV)所示:
Figure BDA0003859224750000078
最终得到的网络权值趋近于各输入向量的平均值;判断学习率η是否低于阈值eps,当学习率衰减到低于阈值eps时,迭代结束。阈值eps为学习率衰减的终点,可根据实际需要确定。不指定时默认为0。
步骤三中,共识矩阵C的元素mij被定义为两细胞被划分为同一类的概率,定义如式(V)、式(VI)所示:
C={mij}n×n (V)
Figure BDA0003859224750000081
其中,n表示细胞数,M表示内层第一层的聚类方法数,
Figure BDA0003859224750000082
表示在第一层的第m个聚类方法中细胞i,j是否被划分在同一类。
M=2。
步骤四中,根据共识矩阵C构建图c,如式(VII)、式(VIII)所示:
Node=n_of_C (VII)
edge=mij (VIII)
其中,n表示共识矩阵D中的点,即细胞序号,构建得到的图c中的节点(Node)与共识矩阵中的节点顺序一致。
为了全方位本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能,引入了五种常用的聚类评价指标:包括兰德系数(Rand Index,RI),调整兰德系数(AdjustedRand Index,ARI),归一化互信息(Normalized Mutual Information,NMI),调整互信息(AMI,Adjusted MutualInformation),FM指数(Fowlkes and Mallows Index,FMI)。此外,构建了稀疏性系数用于量化矩阵的稀疏程度。具体定义如下:
Sparce_index=x÷num(M)
其中,x表示矩阵M中的0元素的数量,num(M)表示矩阵中元素的总数。
将SCMcluster与四种传统聚类算法以及四种广泛使用的单细胞聚类算法(表1)进行比较验证了方法的优越性,如表1所示:
表1
Figure BDA0003859224750000083
将特征处理前后的单细胞RNA测序数据应用于八种不同的聚类方法(四种传统聚类方法和四种单细胞聚类方法)并用五种评价指标来衡量聚类结果的正确性。图2为本发明将特征处理前后的单细胞RNA测序数据应用于八种不同的聚类方法并用五种评价指标来衡量聚类结果的示意图;考虑到三种单细胞聚类方法SC3,Seurat,pcaReduce内部涵盖数据的降维处理以及SOM本身也可以视作一种降维算法,为了验证的可靠性,在应用以上方法时去掉了方差筛选的步骤。
还对比了一些被广泛应用于单细胞聚类的降维子步骤,包括t-SNE,pcaReduce中使用的PCA以及UMAP三种方法。图3为本发明SCMcluster与t-SNE、pcaReduce中使用的PCA以及UMAP降维效果对比示意图。
本发明将提出的方法与通用单细胞聚类方法分别在人类和小鼠细胞两个单细胞RNA数据集进行了比较,对比了在跨物种数据集上的性能。图4(a)为真实数据集Muraro上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图;图4(b)为真实数据集Baron上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图。结果显示,SCMcluster在所有基准数据集上的表现都优于六种测试方法。具体地,在人类数据集muraro上,ARI值比排名第二的谱聚类高出了8.5%,比排名第三的SC3高出了20.0%;在小鼠数据集上,SCMcluster的性能更远高于其他方法,五个指标值分别取得了94.41%,97.74%,89.83%,89.66%,95.99%,而排名第二的SC3结果仅仅为43.36%,81.70%,73.19%,72.64%,58.18%。分析和比较结果表明,本发明提出的聚类模型SCMcluster在特征处理和聚类性能上表现是最佳的。
实施例3
一种基于标记基因和集成学习的高精度单细胞聚类系统,包括:
特征提取模块,被配置为:采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;
内层聚类模块,被配置为:经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;经过特征提取后的表达矩阵分别作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;
共识矩阵计算模块,被配置为:使用基于聚类的相似度划分算法CSPA计算共识矩阵C;
共识聚类模块,被配置为:根据共识矩阵C构建图c。

Claims (10)

1.一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,包括步骤如下:
步骤一:特征提取;采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达,其中,列对应细胞,行对应基因/转录本;
步骤二:内层聚类;经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;
经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq,包括:
首先,使用欧氏距离计算表达矩阵M对应的相似矩阵D;
然后,对于相似矩阵D,将其视为有权图来构建KNN图;
再次,根据KNN图构建共享邻居图;
最后,通过在构建的共享邻居图中寻找quasi-cliques的策略,不断迭代,直到得到最后的子图;参数r_cutoff和merge_cutoff分别表示每对Cliq的最近邻半径和合并阈值;
经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM,SOM的拓扑结构包括输入层,竞争层和输出层;输入层用于接收并传递经过特征提取的表达矩阵;竞争层用于对表达矩阵进行分析比较,寻找规律并归类;输出层用于输出聚类结果;
步骤三:计算共识矩阵;使用基于聚类的相似度划分算法CSPA计算共识矩阵C;
步骤四:共识聚类;根据共识矩阵C构建图c,图c中的节点Node表示细胞,边的权值edge表示两节点在同一个划分的概率;最终输出的单细胞聚类结果为进行共识聚类后得到的标签;
进一步优选的,r_cutoff=0.7,merge_cutoff=0.5。
2.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤一中,具体是指:使用marker基因集对细胞表达矩阵的列进行筛选,提取对细胞类型影响较大的特征;并设定方差阈值,通过方差筛选进一步的降维,方差变化低于方差阈值的基因被筛除。
3.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤二中,欧氏距离计算公式如式(I)所示:
Figure FDA0003859224740000011
式(I)中,d(x,y)表示两个细胞间的距离,n代表了特征的数量;x,y分别表示细胞x和细胞y,xi、yi分别表示细胞x和细胞y的第i个表达值。
4.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤二中,对于相似矩阵D,将其视为有权图来构建KNN图,包括:将相似矩阵D中的节点作为KNN图中的节点,K为最近邻居的数量,两节点之间的距离为该两节点的欧氏距离。
5.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤二中,根据KNN图构建共享邻居图,包括:共享邻居图的节点是细胞,边则根据是否存在至少拥有一个共同的KNN一对节点定义;边e(xi,yi)的权值w(xi,xj)定义为k与KNN图中最高的平均排名的差值,计算公式如式(II)所示:
Figure FDA0003859224740000021
式(II)中,k为最近邻列表的大小,rank(v,xi)表示节点v在xi最近邻列表NN(xi)中的位置,rank(v,xj)表示节点v在xj最近邻列表NN(xj)中的位置。
6.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤二中,通过在构建的共享邻居图中寻找quasi-cliques的策略,不断迭代,直到得到最后的子图,包括:首先,在共享邻居图中使用贪心算法寻找与每个节点相关联的最大拟团,在找到所有可能的准团之后,通过删除完全包含在其他准团中的准团来消除冗余;接着,通过合并准团识别集群,最后,将节点分配给唯一的集群。
7.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤二中,经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM,具体包括:
首先,从数据集即特征提取后的表达矩阵中随机抽取m个输入样本作为初始权值,对细胞向量X和权向量W,归一化处理得到
Figure FDA0003859224740000022
Figure FDA0003859224740000023
Figure FDA0003859224740000024
初始化优胜邻域r_t;细胞向量X是指由细胞的基因表达值构成的向量,权向量W的初始化由随机选取细胞向量X进行;
然后,对归一化样本包括
Figure FDA0003859224740000025
Figure FDA0003859224740000026
计算点积,选择计算后点积最大的节点作为获胜节点,如式(III)所示:
Figure FDA0003859224740000027
最后,对优胜邻域内的节点调整权值,即对获胜的神经元拓扑邻域内的神经元采用内星规则进行更新,如式(IV)所示:
Figure FDA0003859224740000031
最终得到的网络权值趋近于各输入向量的平均值;判断学习率η是否低于阈值eps,当学习率衰减到低于阈值eps时,迭代结束。
8.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤三中,共识矩阵C的元素mij被定义为两细胞被划分为同一类的概率,定义如式(V)、式(VI)所示:
C={mij}n×n (V)
Figure FDA0003859224740000032
其中,n表示细胞数,M表示内层第一层的聚类方法数,
Figure FDA0003859224740000033
表示在第一层的第m个聚类方法中细胞i,j是否被划分在同一类;
进一步优选的,M=2。
9.根据权利要求1-8任一所述的一种基于标记基因和集成学习的高精度单细胞聚类方法,其特征在于,步骤四中,根据共识矩阵C构建图c,如式(VII)、式(VIII)所示:
Node=n_of_C (VII)
edge=mij (VIII)
其中,n表示共识矩阵D中的点,即细胞序号,构建得到的图c中的节点(Node)与共识矩阵中的节点顺序一致。
10.一种基于标记基因和集成学习的高精度单细胞聚类系统,其特征在于,包括:
特征提取模块,被配置为:采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征;
内层聚类模块,被配置为:经过特征提取后的表达矩阵作为输入被应用于内层聚类方法;内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;经过特征提取后的表达矩阵分别作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM;
共识矩阵计算模块,被配置为:使用基于聚类的相似度划分算法CSPA计算共识矩阵C;
共识聚类模块,被配置为:根据共识矩阵C构建图c。
CN202211159840.3A 2022-09-22 2022-09-22 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统 Pending CN115512772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211159840.3A CN115512772A (zh) 2022-09-22 2022-09-22 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211159840.3A CN115512772A (zh) 2022-09-22 2022-09-22 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

Publications (1)

Publication Number Publication Date
CN115512772A true CN115512772A (zh) 2022-12-23

Family

ID=84505285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211159840.3A Pending CN115512772A (zh) 2022-09-22 2022-09-22 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

Country Status (1)

Country Link
CN (1) CN115512772A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384949A (zh) * 2023-06-05 2023-07-04 北京东联世纪科技股份有限公司 一种基于数字化管理的智慧政务信息数据管理系统
CN116844649A (zh) * 2023-08-31 2023-10-03 杭州木攸目医疗数据有限公司 一种可解释的基于基因选择的细胞数据分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116384949A (zh) * 2023-06-05 2023-07-04 北京东联世纪科技股份有限公司 一种基于数字化管理的智慧政务信息数据管理系统
CN116384949B (zh) * 2023-06-05 2023-08-11 北京东联世纪科技股份有限公司 一种基于数字化管理的智慧政务信息数据管理系统
CN116844649A (zh) * 2023-08-31 2023-10-03 杭州木攸目医疗数据有限公司 一种可解释的基于基因选择的细胞数据分析方法
CN116844649B (zh) * 2023-08-31 2023-11-21 杭州木攸目医疗数据有限公司 一种可解释的基于基因选择的细胞数据分析方法

Similar Documents

Publication Publication Date Title
CN108846259B (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN115512772A (zh) 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN110222745B (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
CN106991296B (zh) 基于随机化贪心特征选择的集成分类方法
CN111368891B (zh) 一种基于免疫克隆灰狼优化算法的K-Means文本分类方法
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
CN111625576B (zh) 一种基于t-SNE的成绩聚类分析方法
CN110866134B (zh) 一种面向图像检索的分布一致性保持度量学习方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN112599187B (zh) 一种基于双流神经网络预测药物与靶标蛋白结合分数的方法
Mohammed et al. Evaluation of partitioning around medoids algorithm with various distances on microarray data
CN110956248A (zh) 一种基于隔离森林的海量数据异常值检测算法
Torkey et al. Machine learning model for cancer diagnosis based on RNAseq microarray
CN111723897A (zh) 一种基于粒子群算法的多模态特征选择方法
Qin et al. Two-stage feature selection for classification of gene expression data based on an improved Salp Swarm Algorithm
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
CN104318306A (zh) 基于非负矩阵分解和进化算法优化参数的自适应交叠社区检测方法
CN116861964A (zh) 一种基于双判别器生成式对抗网络的异常数据检测方法
Chiu et al. Ap-based consensus clustering for gene expression time series
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
Akey Sungheetha An efficient clustering-classification method in an information gain NRGA-KNN algorithm for feature selection of micro array data
Bosio et al. Feature set enhancement via hierarchical clustering for microarray classification
Chen Comparative Analysis of Machine Learning Models for Lung Cancer Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination