CN110222745B - 一种基于相似性学习及其增强的细胞类型鉴定方法 - Google Patents

一种基于相似性学习及其增强的细胞类型鉴定方法 Download PDF

Info

Publication number
CN110222745B
CN110222745B CN201910438507.8A CN201910438507A CN110222745B CN 110222745 B CN110222745 B CN 110222745B CN 201910438507 A CN201910438507 A CN 201910438507A CN 110222745 B CN110222745 B CN 110222745B
Authority
CN
China
Prior art keywords
similarity
matrix
cell
sim
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910438507.8A
Other languages
English (en)
Other versions
CN110222745A (zh
Inventor
李敏
梁珍兰
郑瑞清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910438507.8A priority Critical patent/CN110222745B/zh
Publication of CN110222745A publication Critical patent/CN110222745A/zh
Application granted granted Critical
Publication of CN110222745B publication Critical patent/CN110222745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明公开了一种新的基于相似性学习及其增强的细胞类型鉴定的方法,该方法设计了一种新的全局相似性计算方法,同时结合另外三种常规的局部相似性信息,对基因做了筛选并且对具有稀疏性质的全局相似性做了增强处理。本发明的方法不仅使用了与传统计算局部点对点间相似性不同的全局相似性计算方法,并且通过结合包括全局相似性和局部相似性在内的多种不同相似性进行了基因选择和相似性增强,得到信息丰富的相似性矩阵。该方法能够有效地减少单细胞数据本身携带的技术噪声、生物噪声等因素的影响,更准确地鉴定单细胞的类型。

Description

一种基于相似性学习及其增强的细胞类型鉴定方法
技术领域
本发明属于生物信息学领域,涉及一种基于相似性学习及其增强的细胞类型鉴定方法。
背景技术
单细胞技术的快速发展,使生物学的研究能够在单细胞水平进行。而单细胞RNA-seq技术的出现使得基于单细胞转录组测序数据的分析成为热门研究主题之一,其中包括细胞异质性分析,细胞命运分析,疾病发病机制等等。在这一系列的相关研究主题中,细胞类型鉴定扮演着一个基础却重要的角色。然而,不同于以往将一整块细胞的表达均值作为细胞群的表达值的细胞群体测序,单细胞测序仅仅对单个细胞中的表达量进行测定。这一做法在给相关研究带来机遇的同时也带来很多计算问题上的挑战。由于单个细胞中的基因表达量较低,目前测序技术无法准确地测定单个细胞中所有的基因表达值,从而导致单细胞数据伴有高水平噪声和高dropout的特点。这使得现有的很多用于群体细胞数据分析的方法无法直接运用到单细胞数据。因此,针对单细胞数据特点的细胞类型鉴定方法的提出对促进单细胞研究进一步发展具有重大意义。
目前单细胞类型鉴定的方法主要集中在基因表达数据填充、相似性学习、聚类三个方面。表达值填充类的方法是从原始基因表达数据出发,利用数学概率理论和应用统计分析方法对数据进行误差分析、校正、填充等操作,从而减少数据噪声及dropout对类型鉴定结果的影响。基于相似性学习的方法的出发点是:细胞间的相似性计算越准确越有利于聚类分析。由于细胞的基因表达数据样本数量较少,而基因的维度非常高,这导致普通的距离或相似性计算方法非常敏感。为了构建更可靠的相似性矩阵,此类方法利用多核学习、数据降维、K最近邻信息等手段来学习细胞两两间的相似性。这些相似性计算方法虽然针对单细胞数据特点做了特殊的建模,但其中最根本的相似性或距离计算方法仍然是局部的两两计算方式,这将导致相似性矩阵信息不充分。与前两者不同,基于聚类分析的方法常常只需对原始数据做简单的预处理操作,再使用常规方法计算细胞间的相似度,最后重点处理细胞聚类过程。常用的聚类方法有kmeans算法、谱聚类、层次聚类。但基于聚类分析的这一类方法往往不直接使用常规聚类方法,而是通过一些图相关的方法来控制聚类过程。常见的有公共最近邻、连通子图、图扩散、共识聚类等。尽管目前已经有了一些细胞类型鉴定的方法,但在准确度,已经泛化能力上均有进一步提升的空间。
发明内容
针对现有单细胞类型鉴定方法的不足,充分考虑单细胞数据本身的特征,提出一种基于相似性学习及其增强的细胞类型鉴定的方法,该方法融合多种不同相似性所携带的信息,得到信息更全面的相似性矩阵以获得准确度更高的细胞类型鉴定结果。
一种基于相似性学习及其增强的细胞类型鉴定方法,包括以下步骤:
步骤1:基因过滤;
从给定的所有细胞的基因表达矩阵中,删除表达值均为0的基因;
细胞的基因表达矩阵中,每一行表示一个基因,每一列表示一个细胞;
步骤2:细胞相似性计算;
利用经过基因过滤后的所有细胞的基因表达矩阵,采用四种相似性指标进行细胞间的相似性计算,得到四个细胞相似性矩阵;
其中,所述四种相似性指标分别为稀疏表示sparse,皮尔森相关系数pearson,斯皮尔曼相关系数spearman和余弦相似度cosine;
细胞相似性矩阵中的元素是指基因表达矩阵中两个细胞对应的列向量之间的相似性值;
步骤3:利用基因拉普拉斯分值,选取重要基因集合;
计算每个基因在各种相似性指标下的拉普拉斯分值,并将各种相似性指标度量下的基因按拉普拉斯分值从大到小排序,基于拉普拉斯分值越高的基因对于区分不同细胞类型越重要的原则,利用四种相似性指标度量下的排列在前50%的重要基因求交集,获得最终的重要基因集合;
步骤4:利用最终的重要基因集合构成的所有细胞的基因表达矩阵,重新计算细胞间的相似性,并利用simpearson,simspearman,simcosine三种细胞相似性矩阵,对simsparse细胞相似性矩阵进行增强;
步骤5:求解增强后的simsparse细胞相似性矩阵的规范化拉普拉斯矩阵的奇异值和对应的特征向量,并根据奇异值的大小估计聚类类别数Knum,同时将奇异值从小到大排列,选取前K个奇异值对应的特征向量作为所有细胞的特征表达矩阵;
细胞的特征表达矩阵中,每一行代表一个细胞在新的特征空间中的表示,每一列表示一个奇异值对应的特征向量;
步骤6:利用K-means聚类算法对细胞的特征表达矩阵中的行向量表示的细胞对象进行聚类,从而实现对细胞的聚类,得到每个细胞所属的细胞类别。
求解细胞的特征表达矩阵中任意两个行向量之间的距离,根据距离值大小进行细胞分类,细胞的特征表达矩阵中的行向量表示一个细胞;
进一步地,所述利用simpearson,simspearman,simcosine三种细胞相似性矩阵,对simsparse细胞相似性矩阵进行增强的过程如下:
步骤2.1:判别simsparse细胞相似性矩阵的重要缺失值;
对于任意一种simp细胞相似性矩阵,按以下公式计算n*n的标志矩阵Pp
Figure BDA0002071314560000031
其中,KNNp(xi)表示在simp细胞相似性矩阵中细胞xi的k个最近邻集合,且k=
Figure BDA0002071314560000032
n表示细胞数量;p={sparse,pearson,spearman,cosine};
KNNp(xi)表示simp细胞相似性矩阵中与细胞xi的相似值最大的细胞的集合;
当simsparse(xi,xj)=0,且simpearson,simspearman,simcosine三者中任意一个细胞相似性矩阵对应的标志矩阵P存在P(xi,xj)=1时,则simsparse(xi,xj)被判别为一个重要缺失值;
步骤2.2:确定补充值;
Figure BDA0002071314560000033
其中,Isimsparse(xi,xj)为用于替代被判别为重要缺失值的simsparse(xi,xj)处的元素值,CN(xi,xj)表示在稀疏表示细胞相似性矩阵中细胞xi和xj的公共邻居集合,即集合CN(xi,xj)中的任何细胞与细胞xi和xj的稀疏表示相似性simsparse均不为0,|Г(xz)|则表示细胞xz的邻居个数;当
Figure BDA0002071314560000034
时,Isimsparse(xi,xj)=0。
进一步地,所述稀疏表示细胞相似性矩阵simsparse的具体计算过程如下:
simsparse=|C|+|C|T
其中,|*|表示对矩阵*中的元素取绝对值;
对于给定的具有m个基因的n个细胞的基因表达矩阵X=[x1,x2,…,xn]∈Rm×n,构建如下优化目标函数:
Figure BDA0002071314560000035
其中,λ是惩罚系数,设置为矩阵XT*X中除对角线元素外的最大元素值,C是待求的系数矩阵,‖*‖1表示矩阵的一范数,‖*‖F表示矩阵的Frobenius范数;
其中第一项
Figure BDA0002071314560000036
用于求解系数矩阵C,表示每一个细胞能由其他细胞的线性组合来表示,而‖C‖1则保证了C的稀疏结构,同时diag(C)=0保证任何细胞不能被自身表达。
使用交替方向乘子法求解上面的目标函数,重写目标函数如下:
Figure BDA0002071314560000041
其中Z为辅助矩阵;
首先构造目标函数对应的增广拉格朗日函数如下:
Figure BDA0002071314560000042
其中
Figure BDA0002071314560000043
为惩罚参数,用户手动设置,默认为10,Y是一个对偶变量;
交替方向乘子法通过每次固定Z、C、Y中的两个来求解另一个的方式交替迭代求解Z、C、Y,在第k次迭代中,Zk+1、Ck+1、Yk+1的具体更新规则如下:
Figure BDA0002071314560000044
Figure BDA0002071314560000045
Figure BDA0002071314560000046
其中,
Figure BDA0002071314560000047
In*n表示n*n的单位矩阵;初始化C1=0n*n,Y1=0n *n,当‖C-Z‖和‖X-XZ‖的Frobenius范数收敛或迭代次数达到上限时,求得最后的Z、C、Y。
进一步地,选取任意一种相似性指标度量下的拉普拉斯分值排列在前50%的重要基因集时,按照以下过程确定:
将所有基因按LS值从高到低排列,通过设置阈值t将基因分成LS值大于等于t的集合G1和LS得分小于t的集合G2,选择G1中的基因作为重要基因集;
阈值t的选取满足两个条件:
min var(LSG1)+var(LSG2)
s.t.|G1|>0.1*m,|G1|<0.5*m
其中,LSG1表示集合G1中所有基因的LS值的集合、LSG2表示集合G2中所有基因的LS值的集合,var(*)表示集合*中元素的方差,|G1|表示集合G1中元素的个数,m表示总基因数;
对于任意基因g,其在相似性指标p下的LS值的计算公式为:
Figure BDA0002071314560000051
其中,simp表示相似性指标为p时的细胞相似性矩阵,行向量f表示基因g在所有细胞中的表达值,fT表示f的转置。
进一步地,规范化拉普拉斯矩阵的计算,以及聚类类别数Knum的确定过程如下:
(1)增强后的simsparse相似性矩阵Esimsparse的规范拉普拉斯矩阵为:
L=I-DSD
其中,S=Esimsparse
Figure BDA0002071314560000052
Figure BDA0002071314560000053
In*n为单位矩阵;
(2)聚类类别数Knum的确定:
矩阵L的奇异值从小到大为(u1,u2,...un),对于给定的取值范围[k1,k2],Knum的取值满足最大化取值范围中相邻两个奇异值之间的差值,即满足:
max(uKnum+1-uKnum),Knum∈[k1,k2]
k1,k2为超参,用户可根据自身需求设定,默认情况下,k1=1,
Figure BDA0002071314560000054
其中n表示细胞数量,
Figure BDA0002071314560000055
表示对0.1*n上取整。
进一步地,最小奇异值的个数K等于聚类类别数Knum。
有益效果
本发明提出一种新的基于相似性学习及其增强的细胞类型鉴定的方法,该方法设计了一种新的全局相似性计算方法,同时结合另外三种常规的局部相似性信息,对基因做了筛选并且对具有稀疏性质的全局相似性做了增强处理。本发明的方法不仅使用了与传统计算局部点对点间相似性不同的全局相似性计算方法,并且通过结合包括全局相似性和局部相似性在内的多种不同相似性进行了基因选择和相似性增强,得到信息丰富的相似性矩阵。该方法能够有效地减少单细胞数据本身携带的技术噪声、生物噪声等因素的影响,更准确地鉴定单细胞的类型。
在真实的数据集上的实验结果表明,与多个现有方法相比,本方法具有更高的准确度和更好的鲁棒性。
附图说明
图1为本发明所述方法的流程图。
具体实施方式
下面结合流程图及具体实施方式对本发明作进一步的描述。
本发明公开了一种基于相似性学习及其增强的细胞类型鉴定的方法,针对单细胞数据高水平噪声的特点,该方法使用了与传统计算细胞局部相似性不同的新的全局相似性计算方法。并充分利用不同相似性的优点,通过基因选择策略和相似性增强策略来学得更好的相似性,最终基于学得的相似性产生更准确的细胞类型鉴定结果。
如图1所示,一种基于相似性学习及其增强的细胞类型鉴定方法,包括以下步骤:
步骤1:基因过滤;
从给定的所有细胞的基因表达矩阵中,删除表达值均为0的基因;
细胞的基因表达矩阵中,每一行表示一个基因,每一列表示一个细胞;
步骤2:细胞相似性计算;
利用经过基因过滤后的所有细胞的基因表达矩阵,采用四种相似性指标进行细胞间的相似性计算,得到四个细胞相似性矩阵;
其中,所述四种相似性指标分别为稀疏表示sparse,皮尔森相关系数pearson,斯皮尔曼相关系数spearman和余弦相似度cosine;
细胞相似性矩阵中的元素是指基因表达矩阵中两个细胞对应的列向量之间的相似性值;
所述稀疏表示细胞相似性矩阵simsparse的具体计算过程如下:
simsparse=|C|+|C|T
其中,|*|表示对矩阵*中的元素取绝对值;
对于给定的具有m个基因的n个细胞的基因表达矩阵X=[x1,x2,…,xn]∈Rm×n,构建如下优化目标函数:
Figure BDA0002071314560000061
其中,λ是惩罚系数,设置为矩阵XT*X中除对角线元素外的最大元素值,C是待求的系数矩阵,‖*‖1表示矩阵的一范数,‖*‖F表示矩阵的Frobenius范数;
其中第一项
Figure BDA0002071314560000071
用于求解系数矩阵C,表示每一个细胞能由其他细胞的线性组合来表示,而‖C‖1则保证了C的稀疏结构,同时diag(C)=0保证任何细胞不能被自身表达。
使用交替方向乘子法求解上面的目标函数,重写目标函数如下:
Figure BDA0002071314560000072
其中Z为辅助矩阵;
首先构造目标函数对应的增广拉格朗日函数如下:
Figure BDA0002071314560000073
其中
Figure BDA0002071314560000074
为惩罚参数,用户手动设置,默认为10,Y是一个对偶变量;
交替方向乘子法通过每次固定Z、C、Y中的两个来求解另一个的方式交替迭代求解Z、C、Y,在第k次迭代中,Zk+1、Ck+1、Yk+1的具体更新规则如下:
Figure BDA0002071314560000075
Figure BDA0002071314560000076
Figure BDA0002071314560000077
其中,
Figure BDA0002071314560000078
In*n表示n*n的单位矩阵;初始化C1=0n*n,Y1=0n *n,当‖C-Z‖和‖X-XZ‖的Frobenius范数收敛或迭代次数达到上限时,求得最后的Z、C、Y。
步骤3:利用基因拉普拉斯分值,选取重要基因集合;
计算每个基因在各种相似性指标下的拉普拉斯分值,并将各种相似性指标度量下的基因按拉普拉斯分值从大到小排序,基于拉普拉斯分值越高的基因对于区分不同细胞类型越重要的原则,利用四种相似性指标度量下的排列在前50%的重要基因求交集,获得最终的重要基因集合;
步骤4:利用最终的重要基因集合构成的所有细胞的基因表达矩阵,重新计算细胞间的相似性,并利用simpearson,simspearman,simcosine三种细胞相似性矩阵,对simsparse细胞相似性矩阵进行增强;
所述利用simpearson,simspearman,simcosine三种细胞相似性矩阵,对simsparse细胞相似性矩阵进行增强的过程如下:
步骤2.1:判别simsparse细胞相似性矩阵的重要缺失值;
对于任意一种simp细胞相似性矩阵,按以下公式计算n*n的标志矩阵Pp
Figure BDA0002071314560000081
其中,KNNp(xi)表示在simp细胞相似性矩阵中细胞xi的k个最近邻集合,且
Figure BDA0002071314560000082
Figure BDA0002071314560000083
n表示细胞数量;p={sparse,pearson,spearman,cosine};
KNNp(xi)表示simp细胞相似性矩阵中与细胞xi的相似值最大的细胞的集合;
当simsparse(xi,xj)=0,且simpearson,simspearman,simcosine三者中任意一个细胞相似性矩阵对应的标志矩阵P存在P(xi,xj)=1时,则simsparse(xi,xj)被判别为一个重要缺失值;
步骤2.2:确定补充值;
Figure BDA0002071314560000084
其中,Isimsparse(xi,xj)为用于替代被判别为重要缺失值的simsparse(xi,xj)处的元素值,CN(xi,xj)表示在稀疏表示细胞相似性矩阵中细胞xi和xj的公共邻居集合,即集合CN(xi,xj)中的任何细胞与细胞xi和xj的稀疏表示相似性simsparse均不为0,|Γ(xz)|则表示细胞xz的邻居个数;当
Figure BDA0002071314560000085
时,Isimsparse(xi,xj)=0。
选取任意一种相似性指标度量下的拉普拉斯分值排列在前50%的重要基因集时,按照以下过程确定:
将所有基因按LS值从高到低排列,通过设置阈值t将基因分成LS值大于等于t的集合G1和LS得分小于t的集合G2,选择G1中的基因作为重要基因集;
阈值t的选取满足两个条件:
min var(LSG1)+var(LSG2)
s.t.|G1|>0.1*m,|G1|<0.5*m
其中,LSG1表示集合G1中所有基因的LS值的集合、LSG2表示集合G2中所有基因的LS值的集合,var(*)表示集合*中元素的方差,|G1|表示集合G1中元素的个数,m表示总基因数;
对于任意基因g,其在相似性指标p下的LS值的计算公式为:
Figure BDA0002071314560000091
其中,simp表示相似性指标为p时的细胞相似性矩阵,行向量f表示基因g在所有细胞中的表达值,fT表示f的转置。
步骤5:求解增强后的simsparse细胞相似性矩阵的规范化拉普拉斯矩阵的奇异值和对应的特征向量,并根据奇异值的大小估计聚类类别数Knum,同时将奇异值从小到大排列,选取前K个奇异值对应的特征向量作为所有细胞的特征表达矩阵;
细胞的特征表达矩阵中,每一行代表一个细胞在新的特征空间中的表示,每一列表示一个奇异值对应的特征向量;
规范化拉普拉斯矩阵的计算,以及聚类类别数Knum的确定过程如下:
(1)增强后的simsparse相似性矩阵Esimsparse的规范拉普拉斯矩阵为:
L=I-DSD
其中,S=Esimsparse
Figure BDA0002071314560000092
Figure BDA0002071314560000093
In*n为单位矩阵;
(2)聚类类别数Knum的确定:
矩阵L的奇异值从小到大为(u1,u2,...un),对于给定的取值范围[k1,k2],Knum的取值满足最大化取值范围中相邻两个奇异值之间的差值,即满足:
max(uKnum+1-uKnum),Knum∈[k1,k2]
k1,k2为超参,用户可根据自身需求设定,默认情况下,k1=1,
Figure BDA0002071314560000094
其中n表示细胞数量,
Figure BDA0002071314560000095
表示对0.1*n上取整。
步骤6:利用K-means聚类算法对细胞的特征表达矩阵中的行向量表示的细胞对象进行聚类,从而实现对细胞的聚类,得到每个细胞所属的细胞类别;
最小奇异值的个数K等于聚类类别数Knum。
求解细胞的特征表达矩阵中任意两行向量之间的距离,根据距离值大小进行细胞分类,细胞的特征表达矩阵中的行向量表示一个细胞。
为了验证本方法的有效性,从已发表文献和公共数据库(GEO、ArrayExpress)收集了十套来自不同物种或不同组织或不同规模的单细胞数据集,包括细胞的基因表达矩阵和真实类别标签,并在这十套真实数据集上测试本发明提出的方法。十套数据集的详细信息被列在表1中。为客观评价本方法的有效性,选用两个常用指标NMI和ARI作为评价标准,同时与7个经典的相关方法进行比较,其中包括SC,SNN-Cliq,SIMLR,SC3,NMF,MPSSC,Corr。对两组不同的标签L1和L2,NMI用下面的公式计算:
Figure BDA0002071314560000101
其中I(L1,L2)表示L1和L2两者的互信息,H(L1)、H(L2)分别表示两者的信息熵。另外,ARI的计算公式为:
Figure BDA0002071314560000102
其中,nij表示既属于L1中第i类又属于L2中第j类的细胞的数量,ai和bj分别表示L1中第i类细胞的总数和L2中第j类细胞的总数。
本发明方法和被比较的7个方法在十套数据集上的NMI,ARI分别列在表2和表3中,因为方法Corr在细胞数大于1000的数据集上运行时间过大(超过三天),所以不比较方法Corr在Haber,Vento,Macosko三个数据集上的结果。
表1数据集信息
数据集 细胞数 基因数 类别数 计量单位
Treutlein 80 959 5 FPKM
Yan 90 20214 7 RPKM
Deng 135 12548 7 RPKM
Goolam 124 40315 5 CPM
Ting 114 14405 5 RPM
Song 214 27473 4 TPM
Engel 203 23337 4 TPM
Haber 1522 20108 9 TPM
Vento 5418 33693 38 HTSeq-count
Macosko 6418 12822 39 UMI
表2本方法和7个比较方法在十套数据集上的NMI值
Figure BDA0002071314560000111
表3本方法和7个比较方法在十套数据集上的ARI值
Figure BDA0002071314560000112
从表2和表3可以看出,本方法较另外7种单细胞类型鉴定的方法有更高的NMI和ARI。对于指标NMI,除了在数据集Deng和Engel上略低于SIMLR和SC3,位于第二,在其余数据集上,本方法一致优于其他方法。另对于ARI指标,本方法也在8套数据集上都取得最优的结果,在其它2套数据集上排第二位。特别值得注意的是,在大部分方法在大数据集上表现不佳的情况下,本方法在三个细胞数大于1000的数据集(Haber,Vento,Macosko)上表现一致地好。本方法在来源不同的多规模数据集上的突出表现,表明了它更好的鲁棒性和更高的准确度。

Claims (5)

1.一种基于相似性学习及其增强的细胞类型鉴定方法,其特征在于,包括以下步骤:
步骤1:基因过滤;
从给定的所有细胞的基因表达矩阵中,删除表达值均为0的基因;
步骤2:细胞相似性计算;
利用经过基因过滤后的所有细胞的基因表达矩阵,采用四种相似性指标进行细胞间的相似性计算,得到四个细胞相似性矩阵;
其中,所述四种相似性指标分别为稀疏表示sparse,皮尔森相关系数pearson,斯皮尔曼相关系数spearman和余弦相似度cosine;
步骤3:利用基因拉普拉斯分值,选取重要基因集合;
计算每个基因在各种相似性指标下的拉普拉斯分值,并将各种相似性指标度量下的基因按拉普拉斯分值从大到小排序,基于拉普拉斯分值越高的基因对于区分不同细胞类型越重要的原则,利用四种相似性指标度量下的排列在前50%的重要基因求交集,获得最终的重要基因集合;
步骤4:利用最终的重要基因集合构成的所有细胞的基因表达矩阵,重新计算细胞间的相似性,并利用simpearson,simspearman,simcosine三种细胞相似性矩阵,对simsparse细胞相似性矩阵进行增强;simp表示相似性指标为p时的细胞相似性矩阵,p={sparse,pearson,spearman,cosine};
步骤5:求解增强后的simsparse细胞相似性矩阵的规范化拉普拉斯矩阵的奇异值和对应的特征向量,并根据奇异值的大小估计聚类类别数Knum,同时将奇异值从小到大排列,选取前K个奇异值对应的特征向量作为所有细胞的特征表达矩阵;
步骤6:利用K-means聚类算法对细胞的特征表达矩阵中的行向量表示的细胞对象进行聚类,从而实现对细胞的聚类,得到每个细胞所属的细胞类别;
所述利用simpearson,simspearman,simcosine三种细胞相似性矩阵,对simsparse细胞相似性矩阵进行增强的过程如下:
步骤2.1:判别simsparse细胞相似性矩阵的重要缺失值;
对于任意一种simp细胞相似性矩阵,按以下公式计算n*n的标志矩阵Pp
Figure FDA0002966987060000011
其中,KNNp(xi)表示在simp细胞相似性矩阵中细胞xi的k个最近邻集合,且
Figure FDA0002966987060000012
Figure FDA0002966987060000021
n表示细胞数量;p={sparse,pearson,spearman,cosine};
当simsparse(xi,xj)=0,且simpearson,simspearman,simcosine三者中任意一个细胞相似性矩阵对应的标志矩阵P存在P(xi,xj)=1时,则simsparse(xi,xj)被判别为一个重要缺失值;
步骤2.2:确定补充值;
Figure FDA0002966987060000022
其中,Isimsparse(xi,xj)为用于替代被判别为重要缺失值的simsparse(xi,xj)处的元素值,CN(xi,xj)表示在稀疏表示细胞相似性矩阵中细胞xi和xj的公共邻居集合,即集合CN(xi,xj)中的任何细胞与细胞xi和xj的稀疏表示相似性simsparse均不为0,|Γ(xz)|则表示细胞xz的邻居个数;当
Figure FDA0002966987060000023
时,Isimsparse(xi,xj)=0。
2.根据权利要求1所述的方法,其特征在于,所述稀疏表示细胞相似性矩阵simsparse的具体计算过程如下:
simsparse=|C|+|C|T
其中,|*|表示对矩阵*中的元素取绝对值;
对于给定的具有m个基因的n个细胞的基因表达矩阵X=[x1,x2,…,xn]∈Rm×n,构建如下优化目标函数:
Figure FDA0002966987060000024
其中,λ是惩罚系数,设置为矩阵XT*X中除对角线元素外的最大元素值,C是待求的系数矩阵,‖*‖1表示矩阵的一范数,‖*‖F表示矩阵的Frobenius范数;
使用交替方向乘子法求解上面的目标函数,重写目标函数如下:
Figure FDA0002966987060000025
s.t.,Z-C=0,diag(C)=0
其中Z为辅助矩阵;
首先构造目标函数对应的增广拉格朗日函数如下:
Figure FDA0002966987060000026
其中
Figure FDA0002966987060000027
为惩罚参数,用户手动设置,默认为10,Y是一个对偶变量;
交替方向乘子法通过每次固定Z、C、Y中的两个来求解另一个的方式交替迭代求解Z、C、Y,在第k次迭代中,Zk+1、Ck+1、Yk+1的具体更新规则如下:
Figure FDA0002966987060000031
Figure FDA0002966987060000032
Figure FDA0002966987060000033
其中,
Figure FDA0002966987060000034
In*n表示n*n的单位矩阵;初始化C1=0n*n,Y1=0n*n,当‖C-Z‖和‖X-XZ‖的Frobenius范数收敛或迭代次数达到上限时,求得最后的Z、C、Y。
3.根据权利要求1-2任一项所述的方法,其特征在于,选取任意一种相似性指标度量下的拉普拉斯分值排列在前50%的重要基因集时,按照以下过程确定:
将所有基因按LS值从高到低排列,通过设置阈值t将基因分成LS值大于等于t的集合G1和LS得分小于t的集合G2,选择G1中的基因作为重要基因集;
阈值t的选取满足两个条件:
min var(LSG1)+var(LSG2)
s.t.|G1|>0.1*m,|G1|<0.5*m
其中,LSG1表示集合G1中所有基因的LS值的集合、LSG2表示集合G2中所有基因的LS值的集合,var(*)表示集合*中元素的方差,|G1|表示集合G1中元素的个数,m表示总基因数;
对于任意基因g,其在相似性指标p下的LS值的计算公式为:
Figure FDA0002966987060000035
其中,simp表示相似性指标为p时的细胞相似性矩阵,行向量f表示基因g在所有细胞中的表达值,fT表示f的转置。
4.根据权利要求1-2任一项所述的方法,其特征在于,规范化拉普拉斯矩阵的计算,以及聚类类别数Knum的确定过程如下:
(1)增强后的simsparse相似性矩阵Esimsparse的规范拉普拉斯矩阵为:
L=I-DSD
其中,S=Esimsparse
Figure FDA0002966987060000041
Figure FDA0002966987060000042
In*n为单位矩阵;
(2)聚类类别数Knum的确定:
矩阵L的奇异值从小到大为(u1,u2,...un),对于给定的取值范围[k1,k2],Knum的取值满足最大化取值范围中相邻两个奇异值之间的差值,即满足:
max(uKnum+1-uKnum),Knum∈[k1,k2]
k1,k2为超参,用户可根据自身需求设定,默认情况下,k1=1,
Figure FDA0002966987060000043
其中n表示细胞数量,[0.1*n]表示对0.1*n上取整。
5.根据权利要求4所述的方法,其特征在于,最小奇异值的个数K等于聚类类别数Knum。
CN201910438507.8A 2019-05-24 2019-05-24 一种基于相似性学习及其增强的细胞类型鉴定方法 Active CN110222745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910438507.8A CN110222745B (zh) 2019-05-24 2019-05-24 一种基于相似性学习及其增强的细胞类型鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910438507.8A CN110222745B (zh) 2019-05-24 2019-05-24 一种基于相似性学习及其增强的细胞类型鉴定方法

Publications (2)

Publication Number Publication Date
CN110222745A CN110222745A (zh) 2019-09-10
CN110222745B true CN110222745B (zh) 2021-04-30

Family

ID=67818090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910438507.8A Active CN110222745B (zh) 2019-05-24 2019-05-24 一种基于相似性学习及其增强的细胞类型鉴定方法

Country Status (1)

Country Link
CN (1) CN110222745B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797089B (zh) * 2019-10-30 2023-05-16 华东交通大学 一种基于单细胞rna测序数据识别细胞类型的方法
CN110827921B (zh) * 2019-11-12 2022-06-14 玉林师范学院 一种单细胞聚类方法、装置、电子设备及存储介质
CN111681710B (zh) * 2020-06-03 2021-08-27 中国人民解放军军事科学院军事医学研究院 基于基因表达特征的细胞分类方法、装置和电子设备
CN112289379B (zh) * 2020-10-15 2022-11-22 天津诺禾致源生物信息科技有限公司 细胞类型的确定方法、装置、存储介质及电子装置
CN112837754B (zh) * 2020-12-25 2022-10-28 北京百奥智汇科技有限公司 一种基于特征基因的单细胞自动分类方法和装置
CN112750502B (zh) * 2021-01-18 2022-04-15 中南大学 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN113178233B (zh) * 2021-04-27 2023-04-28 西安电子科技大学 大规模单细胞转录组数据高效聚类方法
CN113611368B (zh) * 2021-07-26 2022-04-01 哈尔滨工业大学(深圳) 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备
CN113782093B (zh) * 2021-09-16 2024-03-05 平安科技(深圳)有限公司 一种基因表达填充数据的获取方法及装置、存储介质
CN114580497B (zh) * 2022-01-26 2023-07-11 南京航空航天大学 一种分析基因对多模态脑影像表型影响的方法
EP4227948A1 (en) 2022-02-09 2023-08-16 Université de Genève Machine-learning based prediction of the survival potential of cells
CN114974435B (zh) * 2022-05-10 2024-04-09 华东交通大学 一种统一细胞类型和状态特征的细胞相似性度量方法
CN115391516B (zh) * 2022-10-31 2023-04-07 成都飞机工业(集团)有限责任公司 一种非结构化文档提取方法、装置、设备及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1317044A (zh) * 1998-07-28 2001-10-10 加利福尼亚大学董事会 编码与感觉转导有关的蛋白质的核酸
CN102227731A (zh) * 2008-12-02 2011-10-26 索尼公司 基因聚类程序、基因聚类方法及基因聚类分析装置
CN103492590A (zh) * 2011-02-22 2014-01-01 卡里斯生命科学卢森堡控股有限责任公司 循环生物标志物
CN103544406A (zh) * 2013-11-08 2014-01-29 电子科技大学 一种用一维细胞神经网络检测dna序列相似度的方法
CN104517123A (zh) * 2014-12-24 2015-04-15 西安理工大学 一种采用局部运动特征相似性引导的子空间聚类方法
CN105556309A (zh) * 2013-09-20 2016-05-04 加州理工学院 用于完整全组织的表型分析的方法
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107862179A (zh) * 2017-11-06 2018-03-30 中南大学 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN107924457A (zh) * 2015-06-11 2018-04-17 匹兹堡大学高等教育联邦体系 用于在多路复用/超复合荧光组织图像中查找苏木精和曙红(h&e)染色的组织图像中的感兴趣区域并量化肿瘤内细胞空间异质性的系统和方法
CN108369230A (zh) * 2015-09-25 2018-08-03 阿布维特罗有限责任公司 用于对天然配对t细胞受体序列进行t细胞受体靶向鉴别的高通量方法
CN108796055A (zh) * 2018-06-12 2018-11-13 深圳裕策生物科技有限公司 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
CN109074430A (zh) * 2016-05-26 2018-12-21 赛卢拉研究公司 分子标记计数调整方法
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495515B1 (en) * 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
US20120047172A1 (en) * 2010-08-23 2012-02-23 Google Inc. Parallel document mining
US20140178348A1 (en) * 2011-05-25 2014-06-26 The Regents Of The University Of California Methods using DNA methylation for identifying a cell or a mixture of cells for prognosis and diagnosis of diseases, and for cell remediation therapies
CN102945552A (zh) * 2012-10-22 2013-02-27 西安电子科技大学 基于自然场景统计中稀疏表示的无参考图像质量评价方法
US9613102B2 (en) * 2014-04-01 2017-04-04 Tableau Software, Inc. Systems and methods for ranking data visualizations
US20160171539A1 (en) * 2014-12-12 2016-06-16 Staples, Inc. Inference-Based Behavioral Personalization and Targeting
GB2545877B (en) * 2015-09-10 2021-09-15 Sierra Medical Ltd ATR-FTIR computational analysis of Barrett's esophagus and esophageal cancers
CN105825078B (zh) * 2016-03-16 2019-02-26 广东工业大学 基于基因大数据的小样本基因表达数据分类方法
WO2017164936A1 (en) * 2016-03-21 2017-09-28 The Broad Institute, Inc. Methods for determining spatial and temporal gene expression dynamics in single cells
US10643120B2 (en) * 2016-11-15 2020-05-05 International Business Machines Corporation Joint learning of local and global features for entity linking via neural networks
CN108376400B (zh) * 2018-02-12 2021-11-23 华南理工大学 一种骨髓细胞自动分类方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1317044A (zh) * 1998-07-28 2001-10-10 加利福尼亚大学董事会 编码与感觉转导有关的蛋白质的核酸
CN102227731A (zh) * 2008-12-02 2011-10-26 索尼公司 基因聚类程序、基因聚类方法及基因聚类分析装置
CN103492590A (zh) * 2011-02-22 2014-01-01 卡里斯生命科学卢森堡控股有限责任公司 循环生物标志物
CN105556309A (zh) * 2013-09-20 2016-05-04 加州理工学院 用于完整全组织的表型分析的方法
CN103544406A (zh) * 2013-11-08 2014-01-29 电子科技大学 一种用一维细胞神经网络检测dna序列相似度的方法
CN104517123A (zh) * 2014-12-24 2015-04-15 西安理工大学 一种采用局部运动特征相似性引导的子空间聚类方法
CN107924457A (zh) * 2015-06-11 2018-04-17 匹兹堡大学高等教育联邦体系 用于在多路复用/超复合荧光组织图像中查找苏木精和曙红(h&e)染色的组织图像中的感兴趣区域并量化肿瘤内细胞空间异质性的系统和方法
CN108369230A (zh) * 2015-09-25 2018-08-03 阿布维特罗有限责任公司 用于对天然配对t细胞受体序列进行t细胞受体靶向鉴别的高通量方法
CN109074430A (zh) * 2016-05-26 2018-12-21 赛卢拉研究公司 分子标记计数调整方法
CN107368707A (zh) * 2017-07-20 2017-11-21 东北大学 基于us‑elm的基因芯片表达数据分析系统及方法
CN107862179A (zh) * 2017-11-06 2018-03-30 中南大学 一种基于相似性和逻辑矩阵分解的miRNA‑疾病关联关系预测方法
CN108796055A (zh) * 2018-06-12 2018-11-13 深圳裕策生物科技有限公司 基于二代测序的肿瘤新生抗原检测方法、装置和存储介质
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"microRNA和基因功能网络构建与分析方法";徐云刚;《中国博士学位论文全文数据库 基础科学辑》;20150112(第(2015)1期);A006-55 *
"SC3: consensus clustering of single-cell RNA-seq data";Kiselev, V等;《Nature Methods 》;20170327;第14卷;483–486 *
"Visualization and analysis of single-cell RNA-seq data by kernel-based similarity learning";Wang, B等;《Nature Methods 》;20170306;第14卷;414–416 *
"血液细胞的分类计数研究";张士合;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20170215(第(2017)2期);E060-153 *

Also Published As

Publication number Publication date
CN110222745A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN110222745B (zh) 一种基于相似性学习及其增强的细胞类型鉴定方法
Xu et al. Clustering gene expression data using a graph-theoretic approach: an application of minimum spanning trees
Van der Laan et al. A new algorithm for hybrid hierarchical clustering with visualization and the bootstrap
Xu et al. Minimum spanning trees for gene expression data clustering
Yu et al. Self-paced learning for k-means clustering algorithm
US20050021528A1 (en) High-dimensional data clustering with the use of hybrid similarity matrices
CN110827921B (zh) 一种单细胞聚类方法、装置、电子设备及存储介质
CN112750502B (zh) 二维分布结构判定的单细胞转录组测序数据聚类推荐方法
CN106991296B (zh) 基于随机化贪心特征选择的集成分类方法
Datta et al. Evaluation of clustering algorithms for gene expression data
Huang et al. Exploiting local coherent patterns for unsupervised feature ranking
Afzalan et al. An automated spectral clustering for multi-scale data
Chehreghani et al. Information theoretic model validation for spectral clustering
Mohammed et al. Evaluation of partitioning around medoids algorithm with various distances on microarray data
Zhao et al. Whale optimized mixed kernel function of support vector machine for colorectal cancer diagnosis
Amelio et al. Data mining: clustering
Li et al. Bregmannian consensus clustering for cancer subtypes analysis
McLachlan et al. Clustering
Vengatesan et al. The performance analysis of microarray data using occurrence clustering
WO2022166362A1 (zh) 一种基于隐空间学习和流行约束的无监督特征选择方法
Weber et al. Perron cluster analysis and its connection to graph partitioning for noisy data
Maji et al. Multimodal Omics Data Integration Using Max Relevance--Max Significance Criterion
CN112071362B (zh) 一种融合全局和局部拓扑结构的蛋白质复合体的检测方法
CN112967755A (zh) 一种面向单细胞rna测序数据的细胞类型识别方法
Lovato et al. S-BLOSUM: classification of 2D shapes with biological sequence alignment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant