CN110797089B - 一种基于单细胞rna测序数据识别细胞类型的方法 - Google Patents

一种基于单细胞rna测序数据识别细胞类型的方法 Download PDF

Info

Publication number
CN110797089B
CN110797089B CN201911042318.5A CN201911042318A CN110797089B CN 110797089 B CN110797089 B CN 110797089B CN 201911042318 A CN201911042318 A CN 201911042318A CN 110797089 B CN110797089 B CN 110797089B
Authority
CN
China
Prior art keywords
cell
matrix
clustering
rna sequencing
sequencing data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911042318.5A
Other languages
English (en)
Other versions
CN110797089A (zh
Inventor
张伟
徐佳
李圆媛
陈海林
薛晓丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN201911042318.5A priority Critical patent/CN110797089B/zh
Publication of CN110797089A publication Critical patent/CN110797089A/zh
Application granted granted Critical
Publication of CN110797089B publication Critical patent/CN110797089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于单细胞RNA测序数据识别细胞类型的方法。该方法有效地将高维矩阵低秩表示(Low Rank Representation)模型和图正则化理论结合起来,同时考虑数据的全局结构和局部结构特征来构建优化模型,通过采用交替方向乘子法(ADMM)来求解模型得到可靠的细胞与细胞间相似性矩阵,然后采用谱聚类方法对相似性矩阵进行聚类,从而实现对单细胞进行聚类,识别细胞类型。该方法可以显著提高单细胞RNA测序数据的聚类效果。

Description

一种基于单细胞RNA测序数据识别细胞类型的方法
技术领域
本发明涉及数学与生物学交叉研究领域,具体涉及通过聚类算法进行细胞分类的方法。
背景技术
传统测序技术得到的是一群细胞(肿瘤细胞、免疫细胞、成纤维细胞和巨噬细胞的混合物)基因表达值的平均化,这样忽视了细胞之间基因表达的差异性,很难鉴别细胞之间表达的异质性。
近些年来,随着生物技术的不断发展,单细胞RNA测序技术能得到单个细胞内大量基因的表达信息,为辨别生物组织中各种细胞类型的转录组特征和全面揭示细胞之间基因表达的异质性提供了非常有力的工具。与传统的全基因组测序相比,单细胞测序不仅测量基因表达水平更加精确,而且还能检测到微量的基因表达子或罕见非编码RNA,其优势是全方位和多层次的。
通过对单细胞RNA测序数据进行聚类,可以有效地将不同类型细胞进行区分,有助于识别新的细胞类型。另外,准确地将单细胞进行聚类,对后面重构细胞伪轨迹、识别显著表达基因以及揭示未知细胞状态为进一步理解异质性有着重要的意义。
然而,由于技术原因,目前单细胞RNA测序得到的数据具有高维度、高噪声、数据缺失、稀疏的特点,这给对单细胞RNA测序数据的聚类算法设计带来了巨大的困难和挑战。传统基于批量平均化RNA测序数据的方法无法胜任单细胞RNA测序数据的分析。因此,迫切需要一种有效的方法来对单细胞RNA测序数据进行聚类。近几年来国内外学者提出了很多基于单细胞RNA测序数据进行聚类的方法,例如,Xu et al.,等学者提出了一种名为SNN-Cliq的方法对细胞进行有效分类,首先采用共享最邻近邻居(SNN)方法来计算细胞之间的相似性,然后使用图论中聚类理论模型来实现对单细胞RNA测序数据进行聚类。Wang et al.等学者认为不同的核函数可以刻画数据的不同信息表示,提出了一种融合多个核函数的方法SIMLR来构造细胞-细胞间相似性矩阵,然后基于构建的相似性矩阵采用传统谱聚类的方法来对细胞进行有效分类。Park et al.等学者基于SIMLR提出了一种改进的方法MPSSC来对单细胞RNA测序数据进行聚类,首先加入双随机相似性矩阵来得到相似性矩阵,然后通过对目标矩阵强加稀疏性约束来得到细胞分类。基于矩阵分解方面,Shao et al.等人采用非负矩阵分解(nonnegative matrix factorization(NMF))方法对单细胞RNA测序数据进行分解,得到基矩阵和系数矩阵,然后应用基矩阵来对单细胞进行分类,采用系数矩阵来识别特征基因。为了进一步提高聚类效果,Elyanow et al.,等人结合基因相互作用关系先验信息,提出了一种新的融合已知基因相互作用网络的非负矩阵分解方法NMFsc来将原始矩阵分解为两个低维矩阵:基因矩阵和细胞矩阵,认为已知网络中两基因如果相互连接那么在低维的基因矩阵中也有相似的表示。该方法不仅可以通过将降维的低阶细胞矩阵进行聚类,也可以用于原始数据矩阵中缺失元素的填充。然而,该方法的聚类效果依赖于高质量的已知基因网络。由于单细胞RNA测序数据存在严重的数据缺失(dropout),这给传统降维、聚类的方法带来了巨大挑战,为了克服这个问题,一些学者提出了一些列数据填充的方法,如MAGIC,sclmpute,Mclmpute等来尝试通过各种方法先补全缺失数据,然后基于补全的数据再进行聚类。近来Li et al.等学者提出一个基于网络嵌入(network embedding)的表示学习方法SCRL,通过数据驱动的非线性映射和引进先验信息(比如基因相互作用信息,pathway information)来对细胞和基因学习一个更有意义的低维表示矩阵,然后基于这个低维表示矩阵来进行聚类。Zheng et al.等学者提出了一种新的基于非负低秩表示的方法SinNLRR来获取细胞-细胞间相似性矩阵,然后通过对相似性矩阵进行谱聚类的方法对单细胞进行有效分类,识别新的细胞类型。
虽然上述方法在对单细胞RNA测序数据聚类方面做了一些工作,但是目前针对单细胞RNA测序数据进行聚类的精度和效率仍有待提高。
发明内容
本发明旨在提供一种新的基于单细胞RNA测序数据识别细胞类型的方法,基于矩阵低秩表示和非负约束的方法来对带噪声高维稀疏单细胞RNA测序数据进行聚类,从而识别细胞类型。
本发明提供的一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:
(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;
(2)建立增广的拉格朗日函数,采用交替方向乘子法(ADMM)来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;
(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。
优选的,步骤(1)所述的基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型具体为:
Figure BDA0002253191390000031
Figure BDA0002253191390000032
其中,
X表示含n个细胞m个基因的RNA测序数据;
E表示误差项,用于刻画数据噪声;
Z表示表征矩阵,用于度量细胞-细胞间相似性;
||Z||*表示矩阵Z的核范数;
Figure BDA0002253191390000033
用于度量细胞i与细胞j间的相当距离关系,其中α为0-1之间参数。
优选的,步骤(2)所述的增广的拉格朗日函数具体为:
Figure BDA0002253191390000034
其中,
S和U表示引入的变量,初始值都设为Z;
C1、C2和C3表示拉格朗日乘子;
λ1、λ2和μ表示正则化参数,防止过拟合;
<·>表示矩阵内积,例如<A,B>=tr(ATB);
||·||F表示Frobenius范数。
优选的,步骤(2)所述的采用交替方向乘子法(ADMM)来优化目标函数值包括以下具体步骤:
(2.1)通过如下公式更新Z
Figure BDA0002253191390000035
(2.2)通过求解如下问题来更新S
Figure BDA0002253191390000041
其中
Figure BDA0002253191390000042
di、ri分别为矩阵D、矩阵R的第i行,si表示矩阵S的第i行;
(2.3)通过如下公式更新U
Figure BDA0002253191390000043
其中Θ表示奇异值阈值计算(singular valuethresholding operator);
(2.4)通过如下公式更新E
Figure BDA0002253191390000044
其中υ表示收缩运算(shrinkage operator);
(2.5)分别通过下列公式更新C1、C2、C3、u
C1=C1+μ(X-XZk-Ek)
C2=C2+μ(Zk-Sk)
C3=C3+μ(Zk-Uk)
μ=min(μρ,μmax),其中ρ,μmax皆为给定常数;
进行迭代,迭代误差计算如下:
Error_value=max(leq1,max(abs(L3(:)));
leq1=max(max(abs(L1(:))),max(abs(L2(:))));
L1=X-XZk-Ek;L2=Zk-Sk;L3=Zk-Uk
当迭代次数满足设定的最大迭代步数(一般设定为100)或者误差值Error_value小于设定1e-5时终止迭代,得到优化后的Z;然后按照公式S=(|Z|+|ZT|)/2计算得到迭代优化后的细胞-细胞间相似性矩阵S。
优选的,步骤(3)所述的采用谱聚类方法对所述的相似性矩阵S进行聚类包括以下具体步骤:
(3.1)构建规范化拉普拉斯矩阵L=D-1/2SD-1/2,其中D为对角矩阵
Figure BDA0002253191390000045
(3.2)计算矩阵L的特征值,得到k个最小特征值对应的特征向量V=[v1,v2,…vk];
(3.3)采用L2范数对V进行规范化
Figure BDA0002253191390000046
(3.4)采用Kmeans方法对规范化的矩阵V进行聚类,得到k个类,每个类对应一种细胞类型。
本发明的技术效果是:与现有的技术相比,本发明的方法在考虑数据的全局结构特征基础上,有效的挖掘细胞与细胞间内在关联特性,该方法能有效提高聚类效果;本发明的方法在聚类效果上与已有方法相比具有明显优势,能有效的对实测的单细胞RNA测序数据进行聚类,得到较准确的细胞类型的划分,有助于识别肿瘤单细胞RNA测序数据中的新的细胞类型,为阐明肿瘤细胞异质性提供可靠依据。
附图说明
图1为本发明方法(SCCLRR)与其它四种聚类方法(SinNLRR、tsne、SIMLR、MPSS)在测试数据Kold下聚类结果可视化图的比较,图中点表示细胞,聚为同一类的细胞用一种记号标注。
图2为本发明方法(SCCLRR)与其它四种聚类方法(SinNLRR、tsne、SIMLR、MPSS)在测试数据Ting下聚类结果可视化图的比较,图中点表示细胞,聚为同一类的细胞用一种记号标注。
具体实施方式
下面将结合实例详细说明本发明所具有的有益效果,旨在帮助阅读者更好地理解本发明的实质,但不能对本发明的实施和保护范围构成任何限定。
本发明公提供的一种基于单细胞RNA测序数据识别细胞类型的方法,基于矩阵低秩表示模型和图正则化约束的方法来对带噪声高维稀疏单细胞RNA测序数据进行聚类,有效挖掘单细胞RNA测序数据的全局结构特征和局部关联特性,提出了新的预测关键蛋白质的计算方法。该方法的主要步骤包括:
(1)基于单细胞RNA测序数据X,将细胞与细胞间相似性矩阵构建转化为优化问题,得到该优化问题的数学模型;
(2)基于所构建的优化问题模型,采用交替方向乘子法(ADMM)对问题进行优化求解,选定一个变量,令其它变量固定,单独优化选定的这个变量,然后通过迭代更新的方法来进行优化求解;基于迭代优化后的Z,按照公式S=(|Z|+|ZT|)/2计算得到最终的细胞-细胞间相似性矩阵S;
(3)由上述步骤得到的相似性矩阵S及已知的类的个数,采用谱聚类方法基于相似性矩阵S进行聚类,得到对单细胞的分类。
为了测试本发明方法的有效性,采用文献中提供的单细胞RNA测序数据,具体七组单细胞RNA测序数据说明及数据来源如下:
Kold数据从ArrayExpress database数据库中序列号为E-MTAB-2600下载得到,为老鼠胚胎干细胞多能状态在三种条件下的生物学实验数据,过滤掉全为0和缺失的数据后,得到一个包含3个类型涵盖704个细胞10685个基因的单细胞RNA测序数据。
Darmanis数据从GEO(Gene Expression Omnibus)数据库中编号为GSE67835下载得到,去掉混合细胞后得到一个包含8个细胞类型中420个细胞22085个基因的单细胞RNA测序数据。
Treutlein数据从GEO数据库中编号为GSE52583下载得到,过滤掉全部为0的数据后,单细胞RNA测序包含80个肺上皮细胞和5种细胞类型,涉及9352个基因。
Ting数据从GEO数据库中编号为GSE51372下载得到,单细胞RNA测序包括114个细胞14405个基因,共5种细胞类型。
Deng数据从GEO数据库中下载得到,编号为GSE45719,小鼠胚胎单细胞在不同植入期的转录数据,处理后的单细胞RNA测序数据包含7种细胞类型,135个细胞,12548个基因。
Yan_human数据从GEO数据库中下载得到,编号为GSE36552,对人类植入前胚胎和胚胎干细胞的单细胞测序数据,处理后的单细胞RNA测序数据包含8种细胞类型,124个细胞,3840个基因。
Li_islet数据从GEO数据库中下载得到,编号为GSE73727,去掉12个未定义的单细胞及基因的少于20的细胞后,得到包含6种细胞类型的60个单细胞,4494个基因的单细胞RNA测序数据。
首先将这些收集的单细胞RNA测序数据,整理成矩阵格式X,X的行对应细胞,列对应基因。对单细胞RNA测序数据X进行聚类,具体步骤如下:
步骤1.建立联合低秩表示模型和图正则化的数学模型如下:
Figure BDA0002253191390000061
其中,X表示含n个细胞m个基因的RNA测序数据;E表示误差项,用于刻画数据噪声;Z为表征矩阵,λ1和λ2分别表示正则化参数;||Z||*表示矩阵Z的核范数;F(xi,xj)度量细胞i与细胞j间的相当距离关系,定义如下:
Figure BDA0002253191390000071
其中第一项为两细胞间规范化的欧拉矩阵,第二项为两细胞间余弦相似性,α为0-1之间参数。
步骤2.对上述所建立的优化模型采用交替方向乘子法(ADMM)进行优化求解。首先基于所建立模型引入变量S,U得到的增广的拉格朗日函数如下:
Figure BDA0002253191390000072
其中,C1、C2、C3为拉格朗日乘子;λ1、λ2和μ为正则化参数;<·>表示矩阵内积,<A,B>=tr(ATB);||·||F表示Frobenius范数。
基于上述增广拉格朗日函数L,分别选定一个变量,然后固定其它变量情况下对所选变量进行单独优化,得到如下迭代的方法优化步骤(1)中目标函数:
(1).通过如下公式更新Z,第k+1步
Figure BDA0002253191390000073
(2).通过求解如下问题来更新S
Figure BDA0002253191390000074
其中
Figure BDA0002253191390000075
di、ri分别为矩阵D及R的第i行,si表示矩阵S的第i行;
(3).通过如下公式更新U
Figure BDA0002253191390000076
其中Θ表示奇异值阈值计算(singular valuethresholding operator);
(4).通过如下公式更新E
Figure BDA0002253191390000077
其中υ表示收缩运算(shrinkage operator);
(5).更新C1、C2、C3、μ
C1=C1+μ(X-XZk-Ek)
C2=C2+μ(Zk-Sk)
C3=C3+μ(Zk-Uk)
μ=min(μρ,μmax),其中ρ,μmax皆为给定常数。
进行迭代,迭代误差计算如下:
Error_value=max(leq1,max(abs(L3(:)));
leq1=max(max(abs(L1(:))),max(abs(L2(:))));
L1=X-XZk-Ek;L2=Zk-Sk;L3=Zk-Uk
当迭代次数满足最大迭代步数100或者误差值Error_value小于1e-5时终止迭代,得到优化后的Z。基于迭代优化后的Z,按照公式S=(|Z|+|ZT|)/2计算得到最终的细胞-细胞间相似性矩阵S。
步骤3.基于上述步骤得到的相似性矩阵S,采用谱聚类方法对单细胞数据进行有效聚类,具体操作步骤如下:
(1)构建规范化拉普拉斯矩阵L=D-1/2SD-1/2,其中D为对角矩阵
Figure BDA0002253191390000081
(2)计算矩阵L的特征值,得到k个最小特征值对应的特征向量V=[v1,v2,…vk];
(3)采用L2范数对V进行规范化
Figure BDA0002253191390000082
(4)采用Kmeans方法对规范化的矩阵V进行聚类,得到k个类,每个类对应一种细胞类型。
本发明的方法可以归结为三个步骤,基于单细胞RNA测序数据矩阵,建立联合低秩表示和自适应图正则化的数学模型,然后采用交替方向乘子法,基于已建立优化模型,构建增广拉格朗日函数L分别选定一个变量然后固定其它变量情况下对所选变量进行单独优化,得到求解优化问题的迭代更新算法,求解出表示矩阵Z,得到细胞与细胞间相似性矩阵S,最后采用谱聚类方法对相似性矩阵S进行聚类,得到对单细胞的分类。
通常,为了评估聚类方法的好坏,采用标准化互信息(NMI)和兰德指数(ARI)来度量,两个度量越大意味着该方法聚类效果越好。
假设真实的聚类标签T,和预测的聚类标签Y,NMI的定义如下:
Figure BDA0002253191390000091
Figure BDA0002253191390000092
Figure BDA0002253191390000093
其中,MI(T,Y)是聚类标签T和Y之间的互信息,H(Y)、H(T)分别是聚类标签Y和T对应的熵,P(t,y)表示t和y的联合概率分布,p(t)和p(y)分别表示t和y的边缘概率。
ARI的定义如下:
Figure BDA0002253191390000094
其中aty表示在真实类和预测的类中都属于同一类的点对数,at表示在真实类种属于同一类但是在预测聚类种不属于同一类的点对数,ay表示在预测的类中属于同一类,但是在真实类中不属于同一类的点对数,a表示在真实类和预测的类中都不属于同一类的点对数。
为了评估本发明方法的有效性,将本发明方法与文献中最新的代表性方法Kmeans、Spectral、tsne、SIMLR、Corr、MPSSC、SinNLRR{Alsabti K.An efficient k-meansclustering algorithm[J].1997;Cristianini N.Spectral kernel methods forclustering[C]//Advances in neural information processing systems.2002:649-655;Van der Maaten L.Visualizing data using t-SNE[J].Journal of MachineLearning Research,2008,9(2579-2605):85;Wang B.Visualization and analysis ofsingle-cell RNA-seq data by kernel-based similarity learning[J].Naturemethods,2017,14(4):414;Jiang H.Single cell clustering based on cell-pairdifferentiability correlation and variance analysis[J].Bioinformatics,2018,34(21):3684-3694;Park S.Spectral clustering based on learning similarity matrix[J].Bioinformatics,2018,34(12):2069-2076;Zheng R.SinNLRR:a robust subspaceclustering method for cell type detection by non-negative and low-rankrepresentation[J].Bioinformatics,2019}在已有的单细胞RNA测序数据下进行比较,采用NMI和ARI两种度量方法对聚类效果进行评估,比较各种方法的优劣。
A.基于聚类结果NMI指标的比较
表1结果显示,本发明方法与其它六种聚类方法7种测试的单细胞RNA测序数据下聚类结果NMI指标的比较,本发明方法在所有数据下的聚类结果均优于其它几种聚类方法,其中,在Kold,Ting,Li_islet数据下聚类结果与真实细胞类型完全一致。
表1.新发明方法与其它几种聚类方法在测试单细胞RNA测序数据下聚类结果NMI的比较。
Figure BDA0002253191390000101
B.基于ARI指标的比较
表2为本发明方法在七组测试的单细胞RNA测序数据下聚类结果的ARI指标与其它几种方法聚类结果的比较,ARI越大意味着该方法聚类效果越好,从表2中可以看出本发明方法聚类效果明显优于其它方法。
表2.新发明方法与其它几种聚类方法在测试单细胞RNA测序数据下聚类结果ARI的比较。
Figure BDA0002253191390000102
由此可知,本发明方法具有很好的普适性,可以适用于不同物种下单细胞RNA测序数据的聚类,适用范围广、精确度高。
以上所述的仅仅是对本发明的实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (4)

1.一种基于单细胞RNA测序数据识别细胞类型的方法,包括以下步骤:
(1)基于单细胞RNA测序数据,定义一个基于低秩表示的同时刻画数据全局结构和局部关联特征结构的优化模型;
Figure FDA0004131186100000011
Figure FDA0004131186100000012
其中,
X表示含n个细胞m个基因的RNA测序数据;
E表示误差项,用于刻画数据噪声;
Z表示表征矩阵,用于度量细胞-细胞间相似性;
||Z||*表示矩阵Z的核范数;
Figure FDA0004131186100000013
用于度量细胞i与细胞j间的相当距离关系,其中α为0-1之间参数;
(2)基于优化模型建立增广的拉格朗日函数,采用交替方向乘子法ADMM来优化目标函数值,获得迭代优化后的细胞-细胞间相似性矩阵S;
(3)采用谱聚类方法对所述的相似性矩阵S进行聚类,从而得到对应的细胞类型划分。
2.根据权利要求1所述的方法,其特征在于:步骤(2)所述的增广的拉格朗日函数具体为:
Figure FDA0004131186100000014
其中,
S和U表示引入的变量,初始值都为Z;
C1、C2和C3表示拉格朗日乘子;
λ1、λ2和μ表示正则化参数,防止过拟合;
<·>表示矩阵内积;
||·||F表示Frobenius范数。
3.根据权利要求2所述的方法,其特征在于:步骤(2)所述的采用交替方向乘子法ADMM来优化目标函数值包括以下具体步骤:
(2.1)通过如下公式更新Z
Figure FDA0004131186100000021
(2.2)通过求解如下问题来更新S
Figure FDA0004131186100000022
其中
Figure FDA0004131186100000023
di、ri分别为矩阵D、矩阵R的第i行,si表示矩阵S的第i行;
(2.3)通过如下公式更新U
Figure FDA0004131186100000024
其中Θ表示奇异值阈值计算singular value thresholdingoperator;
(2.4)通过如下公式更新E
Figure FDA0004131186100000025
其中υ表示收缩运算shrinkage operator;
(2.5)分别通过下列公式更新C1、C2、C3、μ
C1=C1+μ(X-XZk-Ek)
C2=C2+μ(Zk-Sk)
C3=C3+μ(Zk-Uk)
μ=min(μρ,μmax),其中ρ,μmax皆为给定常数;
进行迭代,迭代误差计算如下:
Error_value=max(leq1,max(abs(L3(:)));
leq1=max(max(abs(L1(:))),max(abs(L2(:))));
L1=X-XZk-Ek;L2=Zk-Sk;L3=Zk-Uk
当迭代次数满足设定的最大迭代步数设定为100或者误差值Error_value小于设定1e-5时终止迭代,得到优化后的Z;然后按照公式S=(|Z|+|ZT|)/2计算得到迭代优化后的细胞-细胞间相似性矩阵S。
4.根据权利要求1所述的方法,其特征在于:步骤(3)所述的采用谱聚类方法对所述的相似性矩阵S进行聚类包括以下具体步骤:
(3.1)构建规范化拉普拉斯矩阵L=D-1/2SD-1/2,其中D为对角矩阵
Figure FDA0004131186100000031
(3.2)计算矩阵L的特征值,得到k个最小特征值对应的特征向量V=[v1,v2,…vk];
(3.3)采用L2范数对V进行规范化
Figure FDA0004131186100000032
(3.4)采用Kmeans方法对规范化的矩阵V进行聚类,得到k个类,每个类对应一种细胞类型。
CN201911042318.5A 2019-10-30 2019-10-30 一种基于单细胞rna测序数据识别细胞类型的方法 Active CN110797089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911042318.5A CN110797089B (zh) 2019-10-30 2019-10-30 一种基于单细胞rna测序数据识别细胞类型的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911042318.5A CN110797089B (zh) 2019-10-30 2019-10-30 一种基于单细胞rna测序数据识别细胞类型的方法

Publications (2)

Publication Number Publication Date
CN110797089A CN110797089A (zh) 2020-02-14
CN110797089B true CN110797089B (zh) 2023-05-16

Family

ID=69441972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911042318.5A Active CN110797089B (zh) 2019-10-30 2019-10-30 一种基于单细胞rna测序数据识别细胞类型的方法

Country Status (1)

Country Link
CN (1) CN110797089B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785329B (zh) * 2020-07-24 2024-05-03 中国人民解放军国防科技大学 基于对抗自动编码器的单细胞rna测序聚类方法
CN112289379B (zh) * 2020-10-15 2022-11-22 天津诺禾致源生物信息科技有限公司 细胞类型的确定方法、装置、存储介质及电子装置
CN112735536A (zh) * 2020-12-23 2021-04-30 湖南大学 一种基于子空间随机化单细胞集成聚类方法
CN112967755B (zh) * 2021-03-04 2023-06-13 深圳大学 一种面向单细胞rna测序数据的细胞类型识别方法
CN113160886B (zh) * 2021-04-02 2023-04-07 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN113178233B (zh) * 2021-04-27 2023-04-28 西安电子科技大学 大规模单细胞转录组数据高效聚类方法
CN113257364B (zh) * 2021-05-26 2022-07-12 南开大学 基于多目标进化的单细胞转录组测序数据聚类方法及系统
CN115456264B (zh) * 2022-09-01 2023-07-25 北京科技大学 一种中小型转炉的终点碳含量和终点温度预测方法
CN117437973B (zh) * 2023-12-21 2024-03-08 齐鲁工业大学(山东省科学院) 一种单细胞转录组测序数据插补方法
CN117746995B (zh) * 2024-02-21 2024-05-28 厦门大学 基于单细胞rna测序数据的细胞类型识别方法、装置及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171012A (zh) * 2018-01-17 2018-06-15 河南师范大学 一种基因分类方法与装置
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109215741A (zh) * 2018-08-20 2019-01-15 中国矿业大学 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
CN109359525A (zh) * 2018-09-07 2019-02-19 西安电子科技大学 基于稀疏低秩的判别谱聚类的极化sar图像分类方法
CN109378039A (zh) * 2018-08-20 2019-02-22 中国矿业大学 基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235600B2 (en) * 2015-06-22 2019-03-19 The Johns Hopkins University System and method for structured low-rank matrix factorization: optimality, algorithm, and applications to image processing

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108171012A (zh) * 2018-01-17 2018-06-15 河南师范大学 一种基因分类方法与装置
CN109215741A (zh) * 2018-08-20 2019-01-15 中国矿业大学 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
CN109378039A (zh) * 2018-08-20 2019-02-22 中国矿业大学 基于离散约束和封顶范数的肿瘤基因表达谱数据聚类方法
CN109166604A (zh) * 2018-08-22 2019-01-08 华东交通大学 一种融合多数据特征预测关键蛋白质的计算方法
CN109359525A (zh) * 2018-09-07 2019-02-19 西安电子科技大学 基于稀疏低秩的判别谱聚类的极化sar图像分类方法
CN110222745A (zh) * 2019-05-24 2019-09-10 中南大学 一种基于相似性学习及其增强的细胞类型鉴定方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Wei Zhang,Jeremy Chien.Network-based machine learning and graph theory algorithms for precision oncology.npj Precision Oncology.2017,全文. *
张媛 ; 贾克斌 ; ZHANG Aidong ; .基于多视图融合的蛋白质功能模块检测方法.电子学报.2014,(第12期),第3-10页. *
郭坦.基于稀疏与低秩模型的图像表达与分类研究.中国博士学位论文电子期刊.2018,I138-88. *

Also Published As

Publication number Publication date
CN110797089A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
CN110797089B (zh) 一种基于单细胞rna测序数据识别细胞类型的方法
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
US20190347567A1 (en) Methods for data segmentation and identification
Albergante et al. Estimating the effective dimension of large biological datasets using Fisher separability analysis
CN110826635B (zh) 基于整合非负矩阵分解的样本聚类和特征识别方法
CN112232413A (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN113889192B (zh) 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
CN112735536A (zh) 一种基于子空间随机化单细胞集成聚类方法
Zhu et al. Integrative spatial single-cell analysis with graph-based feature learning
EP2410447B1 (en) System and program for analyzing expression profile
CN105139037B (zh) 基于最小生成树的集成多目标进化自动聚类方法
Vignes et al. Gene clustering via integrated Markov models combining individual and pairwise features
Mohammadi et al. Multi-resolution single-cell state characterization via joint archetypal/network analysis
Irigoien et al. The depth problem: identifying the most representative units in a data group
CN109215741B (zh) 基于双超图正则化的肿瘤基因表达谱数据双聚类方法
CN114613433A (zh) 单细胞转录组数据伪时间轨迹的分析方法及计算机系统
CN107609348B (zh) 高通量转录组数据样本分类数目估计方法
CN112768001A (zh) 一种基于流形学习和主曲线的单细胞轨迹推断方法
Yu et al. CNLLRR: a novel low-rank representation method for single-cell RNA-seq data analysis
Bao et al. Characterizing tissue composition through combined analysis of single-cell morphologies and transcriptional states
CN117877590B (zh) 基于测序数据的细胞聚类方法、装置、设备及存储介质
CN116844649B (zh) 一种可解释的基于基因选择的细胞数据分析方法
CN115223659A (zh) 一种基于低秩表征和改进谱聚类的单细胞rna测序数据聚类方法
CN117437973B (zh) 一种单细胞转录组测序数据插补方法
KR102405732B1 (ko) 세포 클러스터링 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant