CN110222745B

CN110222745B - 一种基于相似性学习及其增强的细胞类型鉴定方法

Info

Publication number: CN110222745B
Application number: CN201910438507.8A
Authority: CN
Inventors: 李敏; 梁珍兰; 郑瑞清
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2021-04-30
Anticipated expiration: 2039-05-24
Also published as: CN110222745A

Abstract

本发明公开了一种新的基于相似性学习及其增强的细胞类型鉴定的方法，该方法设计了一种新的全局相似性计算方法，同时结合另外三种常规的局部相似性信息，对基因做了筛选并且对具有稀疏性质的全局相似性做了增强处理。本发明的方法不仅使用了与传统计算局部点对点间相似性不同的全局相似性计算方法，并且通过结合包括全局相似性和局部相似性在内的多种不同相似性进行了基因选择和相似性增强，得到信息丰富的相似性矩阵。该方法能够有效地减少单细胞数据本身携带的技术噪声、生物噪声等因素的影响，更准确地鉴定单细胞的类型。

Description

一种基于相似性学习及其增强的细胞类型鉴定方法

技术领域

本发明属于生物信息学领域，涉及一种基于相似性学习及其增强的细胞类型鉴定方法。

背景技术

单细胞技术的快速发展，使生物学的研究能够在单细胞水平进行。而单细胞RNA-seq技术的出现使得基于单细胞转录组测序数据的分析成为热门研究主题之一，其中包括细胞异质性分析，细胞命运分析，疾病发病机制等等。在这一系列的相关研究主题中，细胞类型鉴定扮演着一个基础却重要的角色。然而，不同于以往将一整块细胞的表达均值作为细胞群的表达值的细胞群体测序，单细胞测序仅仅对单个细胞中的表达量进行测定。这一做法在给相关研究带来机遇的同时也带来很多计算问题上的挑战。由于单个细胞中的基因表达量较低，目前测序技术无法准确地测定单个细胞中所有的基因表达值，从而导致单细胞数据伴有高水平噪声和高dropout的特点。这使得现有的很多用于群体细胞数据分析的方法无法直接运用到单细胞数据。因此，针对单细胞数据特点的细胞类型鉴定方法的提出对促进单细胞研究进一步发展具有重大意义。

目前单细胞类型鉴定的方法主要集中在基因表达数据填充、相似性学习、聚类三个方面。表达值填充类的方法是从原始基因表达数据出发，利用数学概率理论和应用统计分析方法对数据进行误差分析、校正、填充等操作，从而减少数据噪声及dropout对类型鉴定结果的影响。基于相似性学习的方法的出发点是：细胞间的相似性计算越准确越有利于聚类分析。由于细胞的基因表达数据样本数量较少，而基因的维度非常高，这导致普通的距离或相似性计算方法非常敏感。为了构建更可靠的相似性矩阵，此类方法利用多核学习、数据降维、K最近邻信息等手段来学习细胞两两间的相似性。这些相似性计算方法虽然针对单细胞数据特点做了特殊的建模，但其中最根本的相似性或距离计算方法仍然是局部的两两计算方式，这将导致相似性矩阵信息不充分。与前两者不同，基于聚类分析的方法常常只需对原始数据做简单的预处理操作，再使用常规方法计算细胞间的相似度，最后重点处理细胞聚类过程。常用的聚类方法有kmeans算法、谱聚类、层次聚类。但基于聚类分析的这一类方法往往不直接使用常规聚类方法，而是通过一些图相关的方法来控制聚类过程。常见的有公共最近邻、连通子图、图扩散、共识聚类等。尽管目前已经有了一些细胞类型鉴定的方法，但在准确度，已经泛化能力上均有进一步提升的空间。

发明内容

针对现有单细胞类型鉴定方法的不足，充分考虑单细胞数据本身的特征，提出一种基于相似性学习及其增强的细胞类型鉴定的方法，该方法融合多种不同相似性所携带的信息，得到信息更全面的相似性矩阵以获得准确度更高的细胞类型鉴定结果。

一种基于相似性学习及其增强的细胞类型鉴定方法，包括以下步骤：

步骤1：基因过滤；

从给定的所有细胞的基因表达矩阵中，删除表达值均为0的基因；

细胞的基因表达矩阵中，每一行表示一个基因，每一列表示一个细胞；

步骤2：细胞相似性计算；

利用经过基因过滤后的所有细胞的基因表达矩阵，采用四种相似性指标进行细胞间的相似性计算，得到四个细胞相似性矩阵；

其中，所述四种相似性指标分别为稀疏表示sparse，皮尔森相关系数pearson，斯皮尔曼相关系数spearman和余弦相似度cosine；

细胞相似性矩阵中的元素是指基因表达矩阵中两个细胞对应的列向量之间的相似性值；

步骤3：利用基因拉普拉斯分值，选取重要基因集合；

计算每个基因在各种相似性指标下的拉普拉斯分值，并将各种相似性指标度量下的基因按拉普拉斯分值从大到小排序，基于拉普拉斯分值越高的基因对于区分不同细胞类型越重要的原则，利用四种相似性指标度量下的排列在前50％的重要基因求交集，获得最终的重要基因集合；

步骤4：利用最终的重要基因集合构成的所有细胞的基因表达矩阵，重新计算细胞间的相似性，并利用sim_pearson，sim_spearman，sim_cosine三种细胞相似性矩阵，对sim_sparse细胞相似性矩阵进行增强；

步骤5：求解增强后的sim_sparse细胞相似性矩阵的规范化拉普拉斯矩阵的奇异值和对应的特征向量，并根据奇异值的大小估计聚类类别数Knum，同时将奇异值从小到大排列，选取前K个奇异值对应的特征向量作为所有细胞的特征表达矩阵；

细胞的特征表达矩阵中，每一行代表一个细胞在新的特征空间中的表示，每一列表示一个奇异值对应的特征向量；

步骤6：利用K-means聚类算法对细胞的特征表达矩阵中的行向量表示的细胞对象进行聚类，从而实现对细胞的聚类，得到每个细胞所属的细胞类别。

求解细胞的特征表达矩阵中任意两个行向量之间的距离，根据距离值大小进行细胞分类，细胞的特征表达矩阵中的行向量表示一个细胞；

进一步地，所述利用sim_pearson，sim_spearman，sim_cosine三种细胞相似性矩阵，对sim_sparse细胞相似性矩阵进行增强的过程如下：

步骤2.1：判别sim_sparse细胞相似性矩阵的重要缺失值；

对于任意一种sim_p细胞相似性矩阵，按以下公式计算n*n的标志矩阵P^p：

其中，KNN^p(x_i)表示在sim_p细胞相似性矩阵中细胞x_i的k个最近邻集合，且k＝

n表示细胞数量；p＝{sparse，pearson，spearman，cosine}；

KNN^p(x_i)表示sim_p细胞相似性矩阵中与细胞x_i的相似值最大的细胞的集合；

当sim_sparse(x_i,x_j)＝0，且sim_pearson，sim_spearman，sim_cosine三者中任意一个细胞相似性矩阵对应的标志矩阵P存在P(x_i,x_j)＝1时，则sim_sparse(x_i,x_j)被判别为一个重要缺失值；

步骤2.2：确定补充值；

其中，Isim_sparse(x_i,x_j)为用于替代被判别为重要缺失值的sim_sparse(x_i,x_j)处的元素值，CN(x_i,x_j)表示在稀疏表示细胞相似性矩阵中细胞x_i和x_j的公共邻居集合，即集合CN(x_i,x_j)中的任何细胞与细胞x_i和x_j的稀疏表示相似性sim_sparse均不为0，|Г(x_z)|则表示细胞x_z的邻居个数；当

时，Isim_sparse(x_i,x_j)＝0。

进一步地，所述稀疏表示细胞相似性矩阵sim_sparse的具体计算过程如下：

sim_sparse＝|C|+|C|^T

其中，|*|表示对矩阵*中的元素取绝对值；

对于给定的具有m个基因的n个细胞的基因表达矩阵X＝[x₁,x₂,…,x_n]∈R^m×n，构建如下优化目标函数：

其中，λ是惩罚系数，设置为矩阵X^T*X中除对角线元素外的最大元素值，C是待求的系数矩阵，‖*‖₁表示矩阵的一范数，‖*‖_F表示矩阵的Frobenius范数；

其中第一项

用于求解系数矩阵C，表示每一个细胞能由其他细胞的线性组合来表示，而‖C‖₁则保证了C的稀疏结构，同时diag(C)＝0保证任何细胞不能被自身表达。

使用交替方向乘子法求解上面的目标函数，重写目标函数如下：

其中Z为辅助矩阵；

首先构造目标函数对应的增广拉格朗日函数如下：

其中

为惩罚参数，用户手动设置，默认为10，Y是一个对偶变量；

交替方向乘子法通过每次固定Z、C、Y中的两个来求解另一个的方式交替迭代求解Z、C、Y，在第k次迭代中，Z^k+1、C^k+1、Y^k+1的具体更新规则如下：

其中，

I^n*n表示n*n的单位矩阵；初始化C¹＝0^n*n,Y¹＝0ⁿ ^*n，当‖C-Z‖和‖X-XZ‖的Frobenius范数收敛或迭代次数达到上限时，求得最后的Z、C、Y。

进一步地，选取任意一种相似性指标度量下的拉普拉斯分值排列在前50％的重要基因集时，按照以下过程确定：

将所有基因按LS值从高到低排列，通过设置阈值t将基因分成LS值大于等于t的集合G₁和LS得分小于t的集合G₂，选择G₁中的基因作为重要基因集；

阈值t的选取满足两个条件：

min var(LS_G1)+var(LS_G2)

s.t.|G₁|>0.1*m,|G₁|<0.5*m

其中，LS_G1表示集合G₁中所有基因的LS值的集合、LS_G2表示集合G₂中所有基因的LS值的集合，var(*)表示集合*中元素的方差，|G₁|表示集合G₁中元素的个数，m表示总基因数；

对于任意基因g，其在相似性指标p下的LS值的计算公式为：

其中，sim_p表示相似性指标为p时的细胞相似性矩阵，行向量f表示基因g在所有细胞中的表达值，f^T表示f的转置。

进一步地，规范化拉普拉斯矩阵的计算，以及聚类类别数Knum的确定过程如下：

(1)增强后的sim_sparse相似性矩阵Esim_sparse的规范拉普拉斯矩阵为：

L＝I-DSD

其中，S＝Esim_sparse，

I^n*n为单位矩阵；

(2)聚类类别数Knum的确定：

矩阵L的奇异值从小到大为(u₁,u₂,...u_n)，对于给定的取值范围[k1,k2]，Knum的取值满足最大化取值范围中相邻两个奇异值之间的差值，即满足：

max(u_Knum+1-u_Knum),Knum∈[k1,k2]

k1，k2为超参，用户可根据自身需求设定，默认情况下，k1＝1，

其中n表示细胞数量，

表示对0.1*n上取整。

进一步地，最小奇异值的个数K等于聚类类别数Knum。

有益效果

本发明提出一种新的基于相似性学习及其增强的细胞类型鉴定的方法，该方法设计了一种新的全局相似性计算方法，同时结合另外三种常规的局部相似性信息，对基因做了筛选并且对具有稀疏性质的全局相似性做了增强处理。本发明的方法不仅使用了与传统计算局部点对点间相似性不同的全局相似性计算方法，并且通过结合包括全局相似性和局部相似性在内的多种不同相似性进行了基因选择和相似性增强，得到信息丰富的相似性矩阵。该方法能够有效地减少单细胞数据本身携带的技术噪声、生物噪声等因素的影响，更准确地鉴定单细胞的类型。

在真实的数据集上的实验结果表明，与多个现有方法相比，本方法具有更高的准确度和更好的鲁棒性。

附图说明

图1为本发明所述方法的流程图。

具体实施方式

下面结合流程图及具体实施方式对本发明作进一步的描述。

本发明公开了一种基于相似性学习及其增强的细胞类型鉴定的方法，针对单细胞数据高水平噪声的特点，该方法使用了与传统计算细胞局部相似性不同的新的全局相似性计算方法。并充分利用不同相似性的优点，通过基因选择策略和相似性增强策略来学得更好的相似性，最终基于学得的相似性产生更准确的细胞类型鉴定结果。

如图1所示，一种基于相似性学习及其增强的细胞类型鉴定方法，包括以下步骤：

步骤1：基因过滤；

步骤2：细胞相似性计算；

所述稀疏表示细胞相似性矩阵sim_sparse的具体计算过程如下：

sim_sparse＝|C|+|C|^T

其中，|*|表示对矩阵*中的元素取绝对值；

其中第一项

其中Z为辅助矩阵；

首先构造目标函数对应的增广拉格朗日函数如下：

其中

为惩罚参数，用户手动设置，默认为10，Y是一个对偶变量；

其中，

步骤3：利用基因拉普拉斯分值，选取重要基因集合；

所述利用sim_pearson，sim_spearman，sim_cosine三种细胞相似性矩阵，对sim_sparse细胞相似性矩阵进行增强的过程如下：

步骤2.1：判别sim_sparse细胞相似性矩阵的重要缺失值；

其中，KNN^p(x_i)表示在sim_p细胞相似性矩阵中细胞x_i的k个最近邻集合，且

n表示细胞数量；p＝{sparse，pearson，spearman，cosine}；

步骤2.2：确定补充值；

其中，Isim_sparse(x_i,x_j)为用于替代被判别为重要缺失值的sim_sparse(x_i,x_j)处的元素值，CN(x_i,x_j)表示在稀疏表示细胞相似性矩阵中细胞x_i和x_j的公共邻居集合，即集合CN(x_i,x_j)中的任何细胞与细胞x_i和x_j的稀疏表示相似性sim_sparse均不为0，|Γ(x_z)|则表示细胞x_z的邻居个数；当

时，Isim_sparse(x_i,x_j)＝0。

选取任意一种相似性指标度量下的拉普拉斯分值排列在前50％的重要基因集时，按照以下过程确定：

阈值t的选取满足两个条件：

min var(LS_G1)+var(LS_G2)

s.t.|G₁|>0.1*m,|G₁|<0.5*m

对于任意基因g，其在相似性指标p下的LS值的计算公式为：

规范化拉普拉斯矩阵的计算，以及聚类类别数Knum的确定过程如下：

L＝I-DSD

其中，S＝Esim_sparse，

I^n*n为单位矩阵；

(2)聚类类别数Knum的确定：

max(u_Knum+1-u_Knum),Knum∈[k1,k2]

其中n表示细胞数量，

表示对0.1*n上取整。

步骤6：利用K-means聚类算法对细胞的特征表达矩阵中的行向量表示的细胞对象进行聚类，从而实现对细胞的聚类，得到每个细胞所属的细胞类别；

最小奇异值的个数K等于聚类类别数Knum。

求解细胞的特征表达矩阵中任意两行向量之间的距离，根据距离值大小进行细胞分类，细胞的特征表达矩阵中的行向量表示一个细胞。

为了验证本方法的有效性，从已发表文献和公共数据库(GEO、ArrayExpress)收集了十套来自不同物种或不同组织或不同规模的单细胞数据集，包括细胞的基因表达矩阵和真实类别标签，并在这十套真实数据集上测试本发明提出的方法。十套数据集的详细信息被列在表1中。为客观评价本方法的有效性，选用两个常用指标NMI和ARI作为评价标准，同时与7个经典的相关方法进行比较，其中包括SC,SNN-Cliq,SIMLR,SC3,NMF,MPSSC,Corr。对两组不同的标签L1和L2，NMI用下面的公式计算：

其中I(L1,L2)表示L1和L2两者的互信息，H(L1)、H(L2)分别表示两者的信息熵。另外，ARI的计算公式为：

其中，n_ij表示既属于L1中第i类又属于L2中第j类的细胞的数量，a_i和b_j分别表示L1中第i类细胞的总数和L2中第j类细胞的总数。

本发明方法和被比较的7个方法在十套数据集上的NMI,ARI分别列在表2和表3中，因为方法Corr在细胞数大于1000的数据集上运行时间过大(超过三天)，所以不比较方法Corr在Haber,Vento,Macosko三个数据集上的结果。

表1数据集信息

数据集	细胞数	基因数	类别数	计量单位
					Treutlein	80	959	5	FPKM
Yan	90	20214	7	RPKM
					Deng	135	12548	7	RPKM
Goolam	124	40315	5	CPM
					Ting	114	14405	5	RPM
Song	214	27473	4	TPM
					Engel	203	23337	4	TPM
Haber	1522	20108	9	TPM
					Vento	5418	33693	38	HTSeq-count
Macosko	6418	12822	39	UMI

表2本方法和7个比较方法在十套数据集上的NMI值

表3本方法和7个比较方法在十套数据集上的ARI值

从表2和表3可以看出，本方法较另外7种单细胞类型鉴定的方法有更高的NMI和ARI。对于指标NMI，除了在数据集Deng和Engel上略低于SIMLR和SC3，位于第二，在其余数据集上，本方法一致优于其他方法。另对于ARI指标，本方法也在8套数据集上都取得最优的结果，在其它2套数据集上排第二位。特别值得注意的是，在大部分方法在大数据集上表现不佳的情况下，本方法在三个细胞数大于1000的数据集(Haber,Vento,Macosko)上表现一致地好。本方法在来源不同的多规模数据集上的突出表现，表明了它更好的鲁棒性和更高的准确度。

Claims

1.一种基于相似性学习及其增强的细胞类型鉴定方法，其特征在于，包括以下步骤：

步骤1：基因过滤；

步骤2：细胞相似性计算；

步骤3：利用基因拉普拉斯分值，选取重要基因集合；

步骤4：利用最终的重要基因集合构成的所有细胞的基因表达矩阵，重新计算细胞间的相似性，并利用sim_pearson，sim_spearman，sim_cosine三种细胞相似性矩阵，对sim_sparse细胞相似性矩阵进行增强；sim_p表示相似性指标为p时的细胞相似性矩阵，p＝{sparse，pearson，spearman，cosine}；

步骤2.1：判别sim_sparse细胞相似性矩阵的重要缺失值；