CN115512772A

CN115512772A - 一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

Info

Publication number: CN115512772A
Application number: CN202211159840.3A
Authority: CN
Inventors: 吴昊; 周昊茹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2022-12-23

Abstract

本发明涉及一种基于标记基因和集成学习的高精度单细胞聚类方法及系统，包括：步骤一：特征提取；采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征；细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达；步骤二：内层聚类；经过特征提取后的表达矩阵作为输入被应用于内层聚类方法；内层聚类方法包括单细胞聚类方法SNN‑Cliq和深度学习的自组织映射方法SOM；步骤三：计算共识矩阵；使用基于聚类的相似度划分算法CSPA计算共识矩阵C；步骤四：共识聚类；根据共识矩阵C构建图c,图c中的节点Node表示细胞，边的权值edge表示两节点在同一个划分的概率。

Description

一种基于标记基因和集成学习的高精度单细胞聚类方法及系统

技术领域

本发明涉及一种基于标记基因和集成学习的高精度单细胞聚类方法及系统，属于数据聚类技术领域。

背景技术

单细胞的聚类工作是单细胞RNA测序数据分析中最重要的一部分。单细胞RNA测序数据存在噪音、和稀疏性高的问题，为高精度聚类算法带来了很大的挑战。对于单细胞聚类来说，特征选择的质量对于聚类精度有着显著影响。目前的单细胞聚类工具对于特征的处理主要依赖于一些简单的无监督特征选择方法，而忽略了现有的研究成果对于特征提取的指导性作用。例如，特征处理部分经常使用与基因表达的统计矩相关的量的简单度量方法，结合主成分分析(Principal ComponentAnalysis，PCA)、t分布随机近邻嵌入(t-distributed Stochastic Neighbor Embedding，t-SNE)或均匀流形近似和投影(UniformManifold Approximation and Projection，UMAP)等经典数据降维操作，最后使用谱聚类、层次聚类、K-means等聚类方法进行聚类。这样的特征处理方式容易丢失表征细胞类型的特征。因此，构建一个高精度细胞聚类算法，以实现特征的准确提取与细胞的准确分群是很必要的。

细胞标记基因作为在不同细胞群中特异表达的基因，它们的表达模式可以有效指导细胞分群的进行。许多单细胞聚类算法之所以聚类精度不高，易被噪声影响，一个可能的原因是无监督的特征提取不易识别出细胞群间差异最大的基因集。

发明内容

针对现有技术的不足，本发明利用细胞标记基因集作为先验知识集进行特征提取，并集成两种性能优异的聚类方法,包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射(SOM)进行单细胞聚类。本发明提出了一种高精度的单细胞聚类算法-SCMcluster(Single cell cluster using markergenes)，使用整合后的两个单细胞标志物数据库将其应用于特征提取并构建了一个集成聚类模型用于特征处理之后的进一步聚类。

本发明的技术方案为：

一种基于标记基因和集成学习的高精度单细胞聚类方法，包括步骤如下：

步骤一：特征提取；采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征；细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达，其中，列对应细胞，行对应基因/转录本；

步骤二：内层聚类；经过特征提取后的表达矩阵作为输入被应用于内层聚类方法；内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM；经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM；

经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq，包括：

首先，使用欧氏距离计算表达矩阵M对应的相似矩阵D；

然后，对于相似矩阵D，将其视为有权图来构建KNN图；

再次，根据KNN图构建共享邻居图；

最后，通过在构建的共享邻居图中寻找quasi-cliques的策略，不断迭代，直到得到最后的子图；参数r_cutoff和merge_cutoff分别表示每对Cliq的最近邻半径和合并阈值；

经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM，SOM的拓扑结构包括输入层，竞争层和输出层；输入层用于接收并传递经过特征提取的表达矩阵；竞争层用于对表达矩阵进行分析比较，寻找规律并归类；输出层用于输出聚类结果；

步骤三：计算共识矩阵；使用基于聚类的相似度划分算法CSPA计算共识矩阵C；

步骤四：共识聚类；根据共识矩阵C构建图c,图c中的节点Node表示细胞，边的权值edge表示两节点在同一个划分的概率；最终输出的单细胞聚类结果为进行共识聚类后得到的标签。

进一步优选的，步骤一中，具体是指：使用marker基因集对细胞表达矩阵的列进行筛选，提取对细胞类型影响较大的特征；并设定方差阈值，通过方差筛选进一步的降维，方差变化低于方差阈值的基因被筛除。

进一步优选的，步骤二中，欧氏距离计算公式如式(I)所示：

式(I)中，d(x,y)表示两个细胞间的距离，n代表了特征的数量；x,y分别表示细胞x和细胞y，x_i、y_i分别表示细胞x和细胞y的第i个表达值。

进一步优选的，步骤二中，对于相似矩阵D，将其视为有权图来构建KNN图，包括：将相似矩阵D中的节点作为KNN图中的节点，K为最近邻居的数量，两节点之间的距离为该两节点的欧氏距离。

进一步优选的，步骤二中，根据KNN图构建共享邻居图，包括：共享邻居图的节点是细胞，边则根据是否存在至少拥有一个共同的KNN一对节点定义；边e(x_i,y_i)的权值w(x_i,x_j)定义为k与KNN图中最高的平均排名的差值,计算公式如式(II)所示：

式(II)中，k为最近邻列表的大小，rank(v,x_i)表示节点v在x_i最近邻列表NN(x_i)中的位置，rank(v,x_j)表示节点v在x_j最近邻列表NN(x_j)中的位置。

进一步优选的，r_cutoff＝0.7，merge_cutoff＝0.5。

进一步优选的，步骤二中，通过在构建的共享邻居图中寻找quasi-cliques的策略，不断迭代，直到得到最后的子图，包括：首先，在共享邻居图中使用贪心算法寻找与每个节点相关联的最大拟团，在找到所有可能的准团之后，通过删除完全包含在其他准团中的准团来消除冗余；接着，通过合并准团识别集群，最后，将节点分配给唯一的集群。

根据本发明优选的，步骤二中，经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM，具体包括：

首先，从数据集即特征提取后的表达矩阵中随机抽取m个输入样本作为初始权值，对细胞向量X和权向量W，归一化处理得到

和

初始化优胜邻域r_t；细胞向量X是指由细胞的基因表达值构成的向量，权向量W的初始化由随机选取细胞向量X进行；

然后，对归一化样本包括

和

计算点积，选择计算后点积最大的节点作为获胜节点，如式(III)所示：

最后，对优胜邻域内的节点调整权值，即对获胜的神经元拓扑邻域内的神经元采用内星规则进行更新,如式(IV)所示：

最终得到的网络权值趋近于各输入向量的平均值；判断学习率η是否低于阈值eps，当学习率衰减到低于阈值eps时，迭代结束。

根据本发明优选的，步骤三中，共识矩阵C的元素m_ij被定义为两细胞被划分为同一类的概率，定义如式(V)、式(VI)所示：

C＝{m_ij}_n×n (V)

其中，n表示细胞数，M表示内层第一层的聚类方法数，

表示在第一层的第m个聚类方法中细胞i,j是否被划分在同一类。

进一步优选的，M＝2。

根据本发明优选的，步骤四中，根据共识矩阵C构建图c，如式(VII)、式(VIII)所示：

Node＝n_of_C (VII)

edge＝m_ij (VIII)

其中，n表示共识矩阵D中的点，即细胞序号，构建得到的图c中的节点(Node)与共识矩阵中的节点顺序一致。

一种基于标记基因和集成学习的高精度单细胞聚类系统，包括：

特征提取模块，被配置为：采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征；

内层聚类模块，被配置为：经过特征提取后的表达矩阵作为输入被应用于内层聚类方法；内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM；经过特征提取后的表达矩阵分别作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM；

共识矩阵计算模块，被配置为：使用基于聚类的相似度划分算法CSPA计算共识矩阵C；

共识聚类模块，被配置为：根据共识矩阵C构建图c。

本发明的有益效果为：

1、本发明提出的单细胞聚类算法-SCMcluster中的标记基因集作为先验知识可以减少噪声对单细胞数据的影响，有效提取表征细胞的特征。

2、本发明提出的单细胞聚类算法-SCMcluster中的集成聚类模型结合了不同聚类方法的优点，进一步提高了聚类的准确性和鲁棒性。通过测试证明，本发明提出的单细胞聚类算法-SCMcluster在特征提取和聚类性能方面都优于现有方法。

附图说明

图1为本发明基于标记基因和集成学习的高精度单细胞聚类方法的流程示意图；

图2为本发明将特征处理前后的单细胞RNA测序数据应用于八种不同的聚类方法并用五种评价指标来衡量聚类结果的示意图；

图3为本发明SCMcluster与t-SNE、pcaReduce中使用的PCA以及UMAP降维效果对比示意图；

图4(a)为真实数据集Muraro上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图；

图4(b)为真实数据集Baron上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

一种基于标记基因和集成学习的高精度单细胞聚类方法，如图1所示，包括步骤如下：

SCMcluster以细胞表达矩阵M’作为输入，其中，列对应细胞，行对应基因/转录本；M’的每个元素对应于一个基因/转录本在给定细胞中的表达；SCMcluster是基于五个基本步骤的(图1)。对于这些步骤中的每个参数，用户都可以很容易地进行调整，也可以设置为合理的默认值。

步骤一：特征提取；单细胞RNA测序数据通常维度和稀疏性高，所以在本发明中，为了减少多余的数据维度，提升特征的表征能力，提升聚类算法的运算速度，采用特征提取算法和降维算法降低细胞表达矩阵的维度并提取细胞特征；细胞表达矩阵中每个元素对应于一个基因/转录本在给定细胞中的表达，其中，列对应细胞，行对应基因/转录本；

特征筛选部分仅仅使用构建的标记基因集，可以通过构建更健全的标记基因评分体制和集成更全面的标记基因数据集来实现特征提取。

步骤二：内层聚类；经过特征提取后的表达矩阵作为输入被应用于内层聚类方法；本发明集成了两种先进的聚类方法，内层聚类方法包括单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM；经过特征提取后的表达矩阵作为输入被应用于单细胞聚类方法SNN-Cliq和深度学习的自组织映射方法SOM；

SNN-Cliq是一种基于子图划分的单细胞聚类算法，该算法适合稀疏的大型的单细胞RNA数据集。首先，使用欧氏距离计算表达矩阵M对应的相似矩阵D；

然后，对于相似矩阵D，将其视为有权图来构建KNN(K-Nearest Neighbor)图；

再次，根据KNN图构建共享邻居图(SNN图)；

最后，通过在单细胞聚类方法SNN-Cliq构建的共享邻居图中寻找quasi-cliques的策略，不断迭代，直到得到最后的子图；参数r_cutoff和merge_cutoff分别表示每对Cliq的最近邻半径和合并阈值；

竞争层的拓扑结构为一维线性结构。由于SOM可以将高维的input数据在低维的空间表示，具有降维的能力，因此，为了保存数据的全局特征，本发明在SOM使用时去除了降维操作。

此外，在SOM的设计上，可以使用改进的网络以实现更快的聚类。

步骤四：共识聚类；在本发明的聚类框架中，最终的划分结果使用谱聚类得到。根据共识矩阵的定义可知，共识矩阵与图的邻接矩阵有类似的结构，均为对称的方阵。因此根据共识矩阵C构建图c,图c中的节点Node表示细胞，边的权值edge表示两节点(也就是细胞)在同一个划分的概率。谱聚类算法作为一种子图分割方法，在寻找子图时表现出良好的性能。本发明在共识矩阵C构建的有权图c上使用谱聚类方法，得到最终的细胞分群结果。

最终输出的单细胞聚类结果为进行共识聚类(谱聚类在共识矩阵上的聚类)后得到的标签。

实施例2

根据实施例1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其区别在于：

步骤一中，具体是指：使用marker基因集对细胞表达矩阵的列进行筛选，提取对细胞类型影响较大的特征；并设定方差阈值，通过方差筛选进一步的降维，方差变化低于方差阈值的基因被筛除。详细步骤包括：首先，构造标记基因集。使用两个收录比较全面的公共单细胞数据库-CellMarker数据库(http://biocc.hrbmu.edu.cn/CellMarker/download.jsp)和PanglaoDB数据库(http://biocc.hrbmu.edu.cn/CellMarker/download.jsp)，提取PanglaoDB数据库中不同物种的Official gene symbol和CellMarker数据库中来自cancer cell的geneSymbol作为标记基因集。接着，使用构造的标记基因集对表达矩阵的行进行筛选，提取涵盖的基因的作为特征。最后，使用方差筛选方法进一步降维。设定方差阈值，方差变化低于方差阈值的基因被筛除，根据以上步骤得到特征提取后的表达矩阵。

步骤二中，欧氏距离计算公式如式(I)所示：

步骤二中，对于相似矩阵D，将其视为有权图来构建KNN图，包括：将相似矩阵D中的节点作为KNN图中的节点，K为最近邻居的数量，两节点之间的距离为该两节点的欧氏距离。

步骤二中，根据KNN图构建共享邻居图，包括：共享邻居图的节点是细胞，边则根据是否存在至少拥有一个共同的KNN一对节点(也就是一对细胞)定义；边e(x_i,y_i)的权值w(x_i,x_j)定义为k与KNN(K-Nearest Neighbor)图中最高的平均排名的差值,计算公式如式(II)所示：

r_cutoff＝0.7，merge_cutoff＝0.5。

步骤二中，通过在构建的共享邻居图中寻找quasi-cliques的策略，不断迭代，直到得到最后的子图，包括：首先，在共享邻居图中使用贪心算法寻找与每个节点相关联的最大拟团，在找到所有可能的准团之后，通过删除完全包含在其他准团中的准团来消除冗余；接着，通过合并准团识别集群，最后，将节点分配给唯一的集群。

步骤二中，经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM，具体包括：

和

然后，对归一化样本包括

和

最终得到的网络权值趋近于各输入向量的平均值；判断学习率η是否低于阈值eps，当学习率衰减到低于阈值eps时，迭代结束。阈值eps为学习率衰减的终点，可根据实际需要确定。不指定时默认为0。

步骤三中，共识矩阵C的元素m_ij被定义为两细胞被划分为同一类的概率，定义如式(V)、式(VI)所示：

C＝{m_ij}_n×n (V)

其中，n表示细胞数，M表示内层第一层的聚类方法数，

M＝2。

步骤四中，根据共识矩阵C构建图c，如式(VII)、式(VIII)所示：

Node＝n_of_C (VII)

edge＝m_ij (VIII)

为了全方位本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能，引入了五种常用的聚类评价指标：包括兰德系数(Rand Index,RI),调整兰德系数(AdjustedRand Index,ARI),归一化互信息(Normalized Mutual Information,NMI),调整互信息(AMI,Adjusted MutualInformation),FM指数(Fowlkes and Mallows Index,FMI)。此外，构建了稀疏性系数用于量化矩阵的稀疏程度。具体定义如下：

Sparce_index＝x÷num(M)

其中，x表示矩阵M中的0元素的数量，num(M)表示矩阵中元素的总数。

将SCMcluster与四种传统聚类算法以及四种广泛使用的单细胞聚类算法(表1)进行比较验证了方法的优越性，如表1所示：

表1

将特征处理前后的单细胞RNA测序数据应用于八种不同的聚类方法(四种传统聚类方法和四种单细胞聚类方法)并用五种评价指标来衡量聚类结果的正确性。图2为本发明将特征处理前后的单细胞RNA测序数据应用于八种不同的聚类方法并用五种评价指标来衡量聚类结果的示意图；考虑到三种单细胞聚类方法SC3,Seurat,pcaReduce内部涵盖数据的降维处理以及SOM本身也可以视作一种降维算法，为了验证的可靠性，在应用以上方法时去掉了方差筛选的步骤。

还对比了一些被广泛应用于单细胞聚类的降维子步骤，包括t-SNE,pcaReduce中使用的PCA以及UMAP三种方法。图3为本发明SCMcluster与t-SNE、pcaReduce中使用的PCA以及UMAP降维效果对比示意图。

本发明将提出的方法与通用单细胞聚类方法分别在人类和小鼠细胞两个单细胞RNA数据集进行了比较，对比了在跨物种数据集上的性能。图4(a)为真实数据集Muraro上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图；图4(b)为真实数据集Baron上本发明基于标记基因和集成学习的高精度单细胞聚类方法的性能对比示意图。结果显示，SCMcluster在所有基准数据集上的表现都优于六种测试方法。具体地，在人类数据集muraro上，ARI值比排名第二的谱聚类高出了8.5％，比排名第三的SC3高出了20.0％；在小鼠数据集上，SCMcluster的性能更远高于其他方法，五个指标值分别取得了94.41％，97.74％，89.83％，89.66％，95.99％，而排名第二的SC3结果仅仅为43.36％，81.70％，73.19％，72.64％，58.18％。分析和比较结果表明，本发明提出的聚类模型SCMcluster在特征处理和聚类性能上表现是最佳的。

实施例3

共识聚类模块，被配置为：根据共识矩阵C构建图c。

Claims

1.一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，包括步骤如下：

首先，使用欧氏距离计算表达矩阵M对应的相似矩阵D；

然后，对于相似矩阵D，将其视为有权图来构建KNN图；

再次，根据KNN图构建共享邻居图；

步骤四：共识聚类；根据共识矩阵C构建图c,图c中的节点Node表示细胞，边的权值edge表示两节点在同一个划分的概率；最终输出的单细胞聚类结果为进行共识聚类后得到的标签；

进一步优选的，r_cutoff＝0.7，merge_cutoff＝0.5。

2.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，步骤一中，具体是指：使用marker基因集对细胞表达矩阵的列进行筛选，提取对细胞类型影响较大的特征；并设定方差阈值，通过方差筛选进一步的降维，方差变化低于方差阈值的基因被筛除。

3.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，步骤二中，欧氏距离计算公式如式(I)所示：

4.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，步骤二中，对于相似矩阵D，将其视为有权图来构建KNN图，包括：将相似矩阵D中的节点作为KNN图中的节点，K为最近邻居的数量，两节点之间的距离为该两节点的欧氏距离。

5.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，步骤二中，根据KNN图构建共享邻居图，包括：共享邻居图的节点是细胞，边则根据是否存在至少拥有一个共同的KNN一对节点定义；边e(x_i,y_i)的权值w(x_i,x_j)定义为k与KNN图中最高的平均排名的差值,计算公式如式(II)所示：

6.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，步骤二中，通过在构建的共享邻居图中寻找quasi-cliques的策略，不断迭代，直到得到最后的子图，包括：首先，在共享邻居图中使用贪心算法寻找与每个节点相关联的最大拟团，在找到所有可能的准团之后，通过删除完全包含在其他准团中的准团来消除冗余；接着，通过合并准团识别集群，最后，将节点分配给唯一的集群。

7.根据权利要求1所述的一种基于标记基因和集成学习的高精度单细胞聚类方法，其特征在于，步骤二中，经过特征提取后的表达矩阵作为输入被应用于深度学习的自组织映射方法SOM，具体包括：