CN113889192A - 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 - Google Patents
一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 Download PDFInfo
- Publication number
- CN113889192A CN113889192A CN202111152923.5A CN202111152923A CN113889192A CN 113889192 A CN113889192 A CN 113889192A CN 202111152923 A CN202111152923 A CN 202111152923A CN 113889192 A CN113889192 A CN 113889192A
- Authority
- CN
- China
- Prior art keywords
- data
- cell rna
- encoder
- seq data
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003559 RNA-seq method Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 77
- 239000000203 mixture Substances 0.000 claims abstract description 23
- 238000012880 independent component analysis Methods 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 18
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 11
- 201000011510 cancer Diseases 0.000 claims abstract description 10
- 230000014509 gene expression Effects 0.000 claims abstract description 9
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 7
- 210000004027 cell Anatomy 0.000 claims description 58
- 230000006870 function Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013079 data visualisation Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000002087 whitening effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 210000003701 histiocyte Anatomy 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 230000002411 adverse Effects 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000010276 construction Methods 0.000 abstract 1
- 238000005065 mining Methods 0.000 abstract 1
- 238000000926 separation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2134—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Probability & Statistics with Applications (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于深层降噪自编码器的单细胞RNA‑seq数据聚类方法,首先调整单细胞RNA‑seq数据的批次效应并对数据进行标准化从而减少技术噪声造成的不利影响;其次使用基于零膨胀负二项分布的深层降噪自编码器有效挖掘单细胞RNA‑seq数据的特征信息;然后使用快速独立成分分析方法对单细胞RNA‑seq数据进行降维,提高方法模型的计算效率;最后通过基于期望最大化的高斯混合模型对细胞展开更加准确的聚类,并使用T分布随机近邻嵌入的方法对最终的单细胞RNA‑seq数据聚类结果进行可视化。本发明能够有效降低单细胞RNA‑seq数据维度高、噪声大等特点对数据聚类的干扰,准确学习单细胞RNA‑seq数据的基因表达信息进而聚类细胞,为基因网络构建、发现细胞类型、癌症早期发现与治疗提供帮助。
Description
技术领域
本发明属于生物信息学中的单细胞RNA-seq数据分析技术领域,具体涉及一种基于深层降噪自编码器的单细胞RNA-seq(RiboNucleicAcid-sequencing)数据聚类方法。
背景技术
随着测序技术的快速发展,研究人员获得了大量的单细胞RNA-seq数据。无监督聚类对单细胞RNA-seq数据的分析有着重要的作用,针对单细胞RNA-seq数据的聚类方法不仅可以识别未知的细胞类型,还能揭示细胞的异质性。通过对单细胞RNA-seq数据的聚类方法研究,研究人员可以更加准确地鉴定细胞状态、搭建细胞之间的网络结构、深入理解癌症细胞等的分化过程,为未来癌症的早期发现和治疗奠定基础。目前,层次聚类、谱聚类和具有噪声的基于密度的聚类方法等传统聚类方法已经被广泛使用,但是,单细胞RNA-seq数据具有其独特的特征,这使得传统的聚类方法无法对这些数据进行有效聚类。
发明内容
为了克服以上技术问题,本发明提供了一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,将自编码器和快速独立成分分析等方法结合起来以实现单细胞RNA-seq数据聚类过程中特征学习、降维等目的,最终使用高斯混合聚类对单细胞RNA-seq数据进行聚类,并通过引入零膨胀负二项分布重构数据来降低数据噪声对聚类效果的影响。
为了实现上述目的,本发明采用的技术方案是:
一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,包括以下步骤;
1)调整批次效应与数据标准化预处理:
选用从ArrayExpress和GEO数据库中下载的5个公开的真实单细胞RNA-seq数据集来对单细胞进行聚类,进一步发现细胞亚型,为相关癌症的早期发现和针对性治疗提供帮助,这5个公开数据集中的基因表达值取自于各种组织细胞,包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322,读取原始的单细胞RNA-seq数据并对其进行批次效应调整和标准化预处理,避免因为样本数据在不同的批次处理和测量时引入的与生物状态不相关的系统性技术偏差;
2)数据重构与降噪:
由于单细胞RNA-seq数据中存在着大量的零值,这些零值既可能表示某些细胞的部分基因确实没有表达,也可能是技术误差导致的结果,这些噪声将会极大地干扰细胞亚型的发现,将经过对数标准化处理后的单细胞RNA-seq数据输入到深层降噪自编码器中,深层降噪自编码器使用零膨胀负二项分布来重构数据,重构出的数据能够较好地保存生物的原始特征;
3)数据降维:
深层降噪自编码器重构出的单细胞RNA-seq数据仍然是高维的,高维的单细胞RNA-seq数据给细胞亚型的鉴定带来了非常大的困难,使用快速独立成分分析的方法降低样本数据的维度,消除数据中的冗余部分,进一步避免因为数据中的冗余部分干扰癌症的早期发现和相关治疗;
4)高斯混合聚类与数据可视化:
得到低维低噪声的单细胞RNA-seq数据之后,使用高斯混合模型对细胞进行聚类并确定细胞类型,得到的细胞类型即为发现的潜在细胞亚型,采用T分布随机近邻嵌入方法可视化最终的聚类结果,并结合现有的细胞及癌症数据库上对聚类结果进行分析,帮助医生开展癌症的早期发现。
所述步骤1)中对单细胞RNA-seq数据调整批次效应和标准化预处理的步骤包括:首先使用层次贝叶斯模型来调整单细胞RNA-seq数据的批次效应,同时解决测量灵敏度带来的不确定性问题;接着筛选出基因表达量正常的细胞;然后,采用对数标准化方法对数据的测序深度和基因长度进行标准化。
所述步骤2)中所使用的深层降噪自编码器通过零膨胀负二项分布来重构单细胞RNA-seq数据,整个自编码器有三个输出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差;
所述的待分析单细胞RNA-seq数据使用X来表示,自编码器中编码阶段表示为h(X)=σh(WX+b),W表示编码过程中的权重矩阵,b则表示偏置项,而自编码器的解码阶段则和编码阶段相对应,将编码后的数据进行重构,自编码器的输入维度和用于训练的单细胞RNA-seq数据的维度一致,编码器和解码器各有五层网络,在负二项分布(NB)模型的基础上加入一个零膨胀因子,也可以理解为在零点处增加一个脉冲函数,即用零膨胀负二项分布(Zero-Inflated Negative Binomial)来建模单细胞RNA-seq数据,公式化表示为ZINB(X|π,μ,θ)=πδ0(X)+(1-π)ΝΒ(X|μ,θ),如果Y=σo(W′h(X)+b′)表示解码器的最后一个隐层,在其后添加三个独立的全连接层,也就是说整个自编码器会有三个输出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差,降噪自编码器的降噪部分的损失函数表示为Ld=-log(ZINB(X|π,μ,θ))。
所述步骤3)中使用快速独立成分分析的方法降低单细胞RNA-seq数据的维度,独立成分分析假设所有数据的各部分彼此独立,并认为所有成分同等重要,将原始的数据分解成统计意义相互独立的非高斯数据成分的线性组合;
假设重构后的单细胞RNA-seq数据服从模型X=AS,其中的S是具有独立分量的未知源数据,A是未知混合矩阵,S中的每个独立成分和A中的每个混合系数均是未知的,独立成分分析方法只通过X中每个观测到的信号数据来预估混合系数与独立分量,该方法会先对原始的数据进行中心化以及白化预处理,经过上述预处理后,采用快速独立成分分析的方法来处理样本数据,首先是初始化向量w,定义W=A-1,w是W中的行向量。其次,令w+=E{Xg(wTX)}-E{g′(wTX)}w,上式中的g是一个非线性标量函数,并令w=w+/||w+||,如果上述过程没有收敛,则不断重复这一步骤,最后,使用快速独立成分分析方法对包含重要信息的几个独立分量进行估计,实现降低单细胞RNA-seq数据维度的目的。
所述步骤4)中使用高斯混合模型对细胞进行聚类并确定细胞类型,具体步骤包括:
首先初始化高斯混合分布的模型参数,然后基于期望最大化算法反复迭代优化模型的参数;期望最大化算法中的E迭代步骤:基于第i个高斯混合分量计算出第i个样本数据的后验概率γji:;期望最大化算法中的M迭代步骤:反复迭代优化模型的其他参数μi,∑i和αi,基于以下公式计算: 当实验过程中达到最大的迭代次数时候停止迭代,如果不满足上述条件则继续迭代更新参数,最后,样本数据xj的聚类标签λj使用λj=argmaxγji计算得到,使用T分布随机近邻嵌入方法对最终的聚类结果进行可视化,使聚类结果显示到二维坐标上。
所述的使用高斯混合模型进行初始化过程中,采用k-means++来解决质心初始化的问题,其方法是从输入的数据点集合中随机选择一个点作为第一个聚类中心;对与数据集中的每一个对象,计算它与最近聚类中心的相似性;选择一个新的数据点作为新的聚类中心,选择的原则是:相似性较大的点,被选取作为聚类中心的概率较大;重复上面的步骤直到k个聚类中心被选出,利用这k个初始的聚类中心来运行标准的k-means算法。
本发明的有益效果:
本发明将自编码器和快速独立成分分析方法结合起来学习单细胞RNA-seq数据的表示,并对数据进行降维,使用零膨胀负二项分布重构数据降低了数据噪声对聚类结果的影响,同时,使用高斯混合聚类对低维的单细胞RNA-seq数据进行聚类,最终使用T分布随机近邻嵌入方法可视化聚类结果,不仅可以鉴定细胞亚型,还能帮助开展癌症的早期发现和相关诊疗。
附图说明
图1为本发明总体流程图。
具体实施方式
下面结合实施例对本发明作进一步详细说明。
如图1所示,显示了本发明基于深层降噪自编码器提升单细胞RNA-seq数据聚类效果的四大步骤,调整批次效应与数据标准化预处理、数据重构与降噪、数据降维、高斯混合聚类与数据可视化。
本发明提供了一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,本发明包括以下步骤:
步骤一、调整批次效应与数据标准化预处理。本发明选用从ArrayExpress和GEO数据库中下载的5个公开数据集来验证本发明的有效性,这5个公开数据集中的基因表达值取自于各种组织细胞,包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322。这些数据作为初始输入的原始数据,本发明使用层次贝叶斯模型来调整单细胞RNA-seq数据的批次效应,同时解决测量灵敏度带来的不确定性问题。本发明使用一个基于Python的单细胞基因表达分析包SCANPY对原始的单细胞RNA-seq数据进行有效筛选和过滤,去除测序质量差的数据,随后将数据做标准化处理,以方便后续的网络学习。
步骤二、数据重构与降噪。由于数据扩增和数据丢失等问题,会干扰单细胞RNA-seq数据的分析。本发明使用降噪自编码器技术将输入的单细胞RNA-seq数据映射到嵌入空间。在实验过程中,对使用的数据加入随机高斯噪声,并用全连接层构建自编码器。为了更好地捕获单细胞RNA-seq数据,本发明在解码器最后一个隐层的后面添加三个独立的全连接层,三个输出分别学习零膨胀负二项分布的脉冲函数调节因子、负二项分布的均值和稀疏程度。进一步将降噪自编码器的降噪部分的损失函数定义为零膨胀负二项分布公式的负对数。待分析单细胞RNA-seq数据使用X来表示,则自编码器中编码阶段表示为h(X)=σh(WX+b),W表示编码过程中的权重矩阵,b则表示偏置项,而自编码器的解码阶段则和编码阶段相对应,将编码后的数据进行重构。自编码器的输入维度和用于训练的单细胞RNA-seq数据的维度一致,编码器和解码器各有五层网络。近年来针对单细胞RNA-seq数据的科研进展表明,单细胞RNA-seq数据最接近负二项分布(Negative Binomial,NB),公式化表示为因为单细胞RNA-seq数据的离散通常是高度扭曲的,方差往往会大于均值,因此不适合采用泊松分布来近似,而单细胞RNA-seq数据的方差通常会随着均值的改变而改变。单细胞RNA-seq数据除了上面的特点外,还有一个特点就是零值特别多。由于基因表达数据中的零值既可能来自生物过程中不表达的基因(TrueZero),还可能来自测序过程中由于技术原因导致的丢失(Dropout Zero)。为了更好地捕获单细胞RNA-seq数据,本发明改进了传统的降噪自编码器,在负二项分布(NB)模型的基础上加入一个零膨胀因子,也可以理解为在零点处增加一个脉冲函数,即用零膨胀负二项分布(Zero-Inflated Negative Binomial)来建模单细胞RNA-seq数据。公式化表示为ZINB(X|π,μ,θ)=πδ0(X)+(1-π)ΝΒ(X|μ,θ),如果Y=σo(W′h(X)+b′)表示解码器的最后一个隐层,本发明在其后添加三个独立的全连接层,也就是说整个自编码器会有三个输出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差。本发明将降噪自编码器的降噪部分的损失函数表示为Ld=-log(ZINB(X|π,μ,θ))。
步骤三、数据降维。在数据降维的过程中,本发明首先对高维的单细胞RNA-seq数据进行中心化以及白化预处理,在预处理后的数据基础上计算出分离矩阵,并对分离矩阵进行初始化;然后不断优化分离矩阵,并一直判断是否收敛,若已经收敛,则可求出最终的低维单细胞RNA-seq数据,若没有收敛,则持续优化分离矩阵。
假设重构后的单细胞RNA-seq数据服从模型X=AS,其中的S是具有独立分量的未知源数据,A是未知混合矩阵,S中的每个独立成分和A中的每个混合系数均是未知的。独立成分分析方法只通过X中每个观测到的信号数据来预估混合系数与独立分量。该方法会先对原始的数据进行中心化以及白化预处理,经过上述预处理后,本发明采用快速独立成分分析的方法来处理样本数,首先是初始化向量w,定义W=A-1,w是W中的行向量。其次,令w+=E{Xg(wTX)}-E{g′(wTX)}w,上式中的g是一个非线性标量函数,并令w=w+/||w+||,如果上述过程没有收敛,则不断重复这一步骤。最后,使用快速独立成分分析方法对包含重要信息的几个独立分量进行估计,实现降低单细胞RNA-seq数据维度的目的。
步骤四、高斯混合聚类与数据可视化。使用高斯混合模型进行初始化的过程中,采用k-means++来解决质心初始化的问题。首先初始化高斯混合分布的模型参数,然后基于期望最大化算法反复迭代优化模型的参数;期望最大化算法中的E迭代步骤:基于第i个高斯混合分量计算出第i个样本数据的后验概率γji:;期望最大化算法中的M迭代步骤:反复迭代优化模型的其他参数μi,∑i和αi,基于以下公式计算: 当实验过程中达到最大的迭代次数时候停止迭代,如果不满足上述条件则继续迭代更新参数。最后,样本数据xj的聚类标签λj使用λj=argmaxγji计算得到。最后使用T分布随机近邻嵌入方法对聚类结果进行可视化。
所述的使用高斯混合模型进行初始化过程中,采用k-means++来解决质心初始化的问题,其方法是从输入的数据点集合中随机选择一个点作为第一个聚类中心;对与数据集中的每一个对象,计算它与最近聚类中心的相似性;选择一个新的数据点作为新的聚类中心,选择的原则是:相似性较大的点,被选取作为聚类中心的概率较大;重复上面的步骤直到k个聚类中心被选出,利用这k个初始的聚类中心来运行标准的k-means算法。
对于高斯混合模型,本发明使用scikit-learn混合模块中的高斯混合函数,其中的参数保持默认值。本发明使用的聚类性能评价指标主要包括Normalized MutualInformation(标准化互信息),Clustering Accuracy(聚类准确率),Adjusted Rand Index(调整兰德指数),这三个评价指标的数值越高,表明方法的聚类性能越好。
本发明具有以下特点:
1.降低单细胞RNA-seq数据批次效应对最终聚类效果的影响;
2.降低单细胞RNA-seq数据维度高、噪声大对聚类结果的影响;
3.对单细胞RNA-seq数据聚类过程中,能够有效学习数据的表示,具备强大的数据表征能力;
4.聚类结束后有良好的数据可视化能力。
自编码器模型是一种无监督的深度学习方法,该方法不仅可以对输入数据进行有效降维,还可以通过调整神经网络层数、优化网络训练过程等方式来学习所分析数据的隐含特征,并通过数据重建过程对数据进行恢复。降噪自编码器允许带有噪声信息的损坏数据成为网络的输入数据,使重构数据对输入数据中的噪声获得一定鲁棒性。
单细胞RNA-seq数据不仅维度较高,还含有较大噪声,这些噪声通常表现为单细胞RNA-seq数据比较稀疏,大量的零值一方面来源于某些确实没有表达的基因,另一方面则来源于因为测序等技术的缺陷导致没有测出有表达的基因数值。
在对单细胞RNA-seq数据进行深度聚类的过程中,本发明设计了一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,将自编码器、快速独立成分分析、高斯混合聚类、T分布随机近邻嵌入等方法结合起来解决单细胞RNA-seq数据聚类过程中遇到的特征学习、降维、聚类和数据可视化等难题,并通过引入零膨胀负二项分布重构数据来降低数据噪声对聚类效果的影响。
Claims (6)
1.一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,其特征在于,包括以下步骤;
1)调整批次效应与数据标准化预处理:
选用从ArrayExpress和GEO数据库中下载的5个公开的真实单细胞RNA-seq数据集来对单细胞进行聚类,这5个公开数据集中的基因表达值取自于各种组织细胞,包括GSE60361、GSE65525、GSE72056、GSE76312和GSE103322,读取原始的单细胞RNA-seq数据并对其进行批次效应调整和标准化预处理;
2)数据重构与降噪:
将经过对数标准化处理后的单细胞RNA-seq数据输入到深层降噪自编码器中,深层降噪自编码器使用零膨胀负二项分布来重构数据,重构出的数据能够较好地保存生物的原始特征;
3)数据降维:
深层降噪自编码器重构出的单细胞RNA-seq数据仍然是高维的,高维的单细胞RNA-seq数据给细胞亚型的鉴定带来了非常大的困难,使用快速独立成分分析的方法降低样本数据的维度,消除数据中的冗余部分,进一步避免因为数据中的冗余部分干扰癌症的早期发现和相关治疗;
4)高斯混合聚类与数据可视化:
得到低维低噪声的单细胞RNA-seq数据之后,使用高斯混合模型对细胞进行聚类并确定细胞类型,得到的细胞类型即为发现的潜在细胞亚型,采用T分布随机近邻嵌入方法可视化最终的聚类结果,并结合现有的细胞及癌症数据库上对聚类结果进行分析,帮助医生开展癌症的早期发现。
2.根据权利要求1所述的一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤1)中对单细胞RNA-seq数据调整批次效应和标准化预处理的步骤包括:首先使用层次贝叶斯模型来调整单细胞RNA-seq数据的批次效应,同时解决测量灵敏度带来的不确定性问题;接着筛选出基因表达量正常的细胞;然后,采用对数标准化方法对数据的测序深度和基因长度进行标准化。
3.根据权利要求1所述的一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤2)中所使用的深层降噪自编码器通过零膨胀负二项分布来重构单细胞RNA-seq数据,整个自编码器有三个输出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差;
所述的待分析单细胞RNA-seq数据使用X来表示,自编码器中编码阶段表示为h(X)=σh(WX+b),W表示编码过程中的权重矩阵,b则表示偏置项,而自编码器的解码阶段则和编码阶段相对应,将编码后的数据进行重构,自编码器的输入维度和用于训练的单细胞RNA-seq数据的维度一致,编码器和解码器各有五层网络,在负二项分布(NB)模型的基础上加入一个零膨胀因子,也可以理解为在零点处增加一个脉冲函数,即用零膨胀负二项分布(Zero-Inflated Negative Binomial)来建模单细胞RNA-seq数据,公式化表示为ZINB(X|π,μ,θ)=πδ0(X)+(1-π)ΝΒ(X|μ,θ),如果Y=σo(W′h(X)+b′)表示解码器的最后一个隐层,在其后添加三个独立的全连接层,也就是说整个自编码器会有三个输出,分别学习零膨胀负二项分布的零膨胀因子、均值和方差,降噪自编码器的降噪部分的损失函数表示为Ld=-log(ZINB(X|π,μ,θ))。
4.根据权利要求1所述的一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤3)中使用快速独立成分分析的方法降低单细胞RNA-seq数据的维度,独立成分分析假设所有数据的各部分彼此独立,并认为所有成分同等重要,将原始的数据分解成统计意义相互独立的非高斯数据成分的线性组合;
假设重构后的单细胞RNA-seq数据服从模型X=AS,其中的S是具有独立分量的未知源数据,A是未知混合矩阵,S中的每个独立成分和A中的每个混合系数均是未知的,独立成分分析方法只通过X中每个观测到的信号数据来预估混合系数与独立分量,该方法会先对原始的数据进行中心化以及白化预处理,经过上述预处理后,采用快速独立成分分析的方法来处理样本数据,首先是初始化向量w,定义W=A-1,w是W中的行向量。其次,令w+=E{Xg(wTX)}-E{g′(wTX)}w,上式中的g是一个非线性标量函数,并令w=w+/||w+||,如果上述过程没有收敛,则不断重复这一步骤,最后,使用快速独立成分分析方法对包含重要信息的几个独立分量进行估计,实现降低单细胞RNA-seq数据维度的目的。
5.根据权利要求1所述的一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,其特征在于,所述步骤4)中使用高斯混合模型对细胞进行聚类并确定细胞类型,具体步骤包括:
首先初始化高斯混合分布的模型参数,然后基于期望最大化算法反复迭代优化模型的参数;期望最大化算法中的E迭代步骤:基于第i个高斯混合分量计算出第i个样本数据的后验概率γji:
6.根据权利要求5所述的一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法,其特征在于,所述的使用高斯混合模型进行初始化过程中,采用k-means++来解决质心初始化的问题,其方法是从输入的数据点集合中随机选择一个点作为第一个聚类中心;对与数据集中的每一个对象,计算它与最近聚类中心的相似性;选择一个新的数据点作为新的聚类中心,选择的原则是:相似性较大的点,被选取作为聚类中心的概率较大;重复上面的步骤直到k个聚类中心被选出,利用这k个初始的聚类中心来运行标准的k-means算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111152923.5A CN113889192B (zh) | 2021-09-29 | 2021-09-29 | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111152923.5A CN113889192B (zh) | 2021-09-29 | 2021-09-29 | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113889192A true CN113889192A (zh) | 2022-01-04 |
CN113889192B CN113889192B (zh) | 2024-02-27 |
Family
ID=79008210
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111152923.5A Active CN113889192B (zh) | 2021-09-29 | 2021-09-29 | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113889192B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115527610A (zh) * | 2022-11-09 | 2022-12-27 | 上海交通大学 | 一种单细胞组学数据的聚类分析方法 |
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
CN116665786A (zh) * | 2023-07-21 | 2023-08-29 | 曲阜师范大学 | 一种基于图卷积神经网络的rna分层嵌入聚类方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107075543A (zh) * | 2014-04-21 | 2017-08-18 | 哈佛学院院长及董事 | 用于条形码化核酸的系统和方法 |
US20190071718A1 (en) * | 2016-04-15 | 2019-03-07 | Koninklijke Philips N.V. | Sub-population detection and quantization of receptor-ligand states for characterizing inter-cellular communication and intratumoral heterogeneity |
CN110147648A (zh) * | 2019-06-20 | 2019-08-20 | 浙江大学 | 基于独立成分分析和稀疏去噪自编码器的汽车传感器故障检测方法 |
CN110890132A (zh) * | 2019-11-19 | 2020-03-17 | 湖南大学 | 基于自适应高斯混合模型的癌症突变簇识别方法 |
CN111428768A (zh) * | 2020-03-18 | 2020-07-17 | 电子科技大学 | 基于Hellinger距离-高斯混合模型的聚类方法 |
CN111785329A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
CN112735536A (zh) * | 2020-12-23 | 2021-04-30 | 湖南大学 | 一种基于子空间随机化单细胞集成聚类方法 |
CN112967755A (zh) * | 2021-03-04 | 2021-06-15 | 深圳大学 | 一种面向单细胞rna测序数据的细胞类型识别方法 |
-
2021
- 2021-09-29 CN CN202111152923.5A patent/CN113889192B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107075543A (zh) * | 2014-04-21 | 2017-08-18 | 哈佛学院院长及董事 | 用于条形码化核酸的系统和方法 |
US20190071718A1 (en) * | 2016-04-15 | 2019-03-07 | Koninklijke Philips N.V. | Sub-population detection and quantization of receptor-ligand states for characterizing inter-cellular communication and intratumoral heterogeneity |
CN110147648A (zh) * | 2019-06-20 | 2019-08-20 | 浙江大学 | 基于独立成分分析和稀疏去噪自编码器的汽车传感器故障检测方法 |
CN110890132A (zh) * | 2019-11-19 | 2020-03-17 | 湖南大学 | 基于自适应高斯混合模型的癌症突变簇识别方法 |
CN111428768A (zh) * | 2020-03-18 | 2020-07-17 | 电子科技大学 | 基于Hellinger距离-高斯混合模型的聚类方法 |
CN111785329A (zh) * | 2020-07-24 | 2020-10-16 | 中国人民解放军国防科技大学 | 基于对抗自动编码器的单细胞rna测序聚类方法 |
CN112464004A (zh) * | 2020-11-26 | 2021-03-09 | 大连理工大学 | 一种多视角深度生成图像聚类方法 |
CN112735536A (zh) * | 2020-12-23 | 2021-04-30 | 湖南大学 | 一种基于子空间随机化单细胞集成聚类方法 |
CN112967755A (zh) * | 2021-03-04 | 2021-06-15 | 深圳大学 | 一种面向单细胞rna测序数据的细胞类型识别方法 |
Non-Patent Citations (2)
Title |
---|
栾志玲;: "DNA基因深度特征选择策略的研究现状及发展趋势", 佳木斯职业学院学报, no. 05, 15 May 2019 (2019-05-15) * |
高美加;: "基于loess回归加权的单细胞RNA-seq数据预处理算法", 智能计算机与应用, no. 05, 1 May 2020 (2020-05-01) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462548B (zh) * | 2022-02-23 | 2023-07-18 | 曲阜师范大学 | 一种提高单细胞深度聚类算法精度的方法 |
CN115527610A (zh) * | 2022-11-09 | 2022-12-27 | 上海交通大学 | 一种单细胞组学数据的聚类分析方法 |
CN115527610B (zh) * | 2022-11-09 | 2023-11-24 | 上海交通大学 | 一种单细胞组学数据的聚类分析方法 |
CN116665786A (zh) * | 2023-07-21 | 2023-08-29 | 曲阜师范大学 | 一种基于图卷积神经网络的rna分层嵌入聚类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113889192B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113889192B (zh) | 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法 | |
CN108805167B (zh) | 一种基于Laplace函数约束的稀疏深度置信网络图像分类方法 | |
CN114022693B (zh) | 一种基于双重自监督的单细胞RNA-seq数据聚类方法 | |
CN111564183B (zh) | 融合基因本体和神经网络的单细胞测序数据降维方法 | |
CN110826635B (zh) | 基于整合非负矩阵分解的样本聚类和特征识别方法 | |
Yan et al. | Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology | |
CN116580848A (zh) | 一种基于多头注意力机制的分析癌症多组学数据方法 | |
Bellazzi et al. | The Gene Mover's Distance: Single-cell similarity via Optimal Transport | |
CN114783526A (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
Zhang et al. | SLRRSC: single-cell type recognition method based on similarity and graph regularization constraints | |
CN111178427A (zh) | 一种基于Sliced-Wasserstein距离的深度自编码嵌入聚类的方法 | |
Wang et al. | scDSSC: deep sparse subspace clustering for scRNA-seq data | |
CN115661498A (zh) | 一种自优化单细胞聚类方法 | |
CN117497038A (zh) | 一种基于核方法的快速优化培养基配方的方法 | |
CN114997303A (zh) | 一种基于深度学习的膀胱癌代谢标志物筛选方法及系统 | |
CN112768001A (zh) | 一种基于流形学习和主曲线的单细胞轨迹推断方法 | |
Peng et al. | A deep learning-based unsupervised learning method for spatially resolved transcriptomic data analysis | |
CN117727373B (zh) | 基于样本和特征双加权的特征约简中智c-均值聚类方法 | |
Uddin et al. | Practical analysis of macromolecule identity from cryo-electron tomography images using deep learning | |
Hu et al. | WEDGE: recovery of gene expression values for sparse single-cell RNA-seq datasets using matrix decomposition | |
CN116913390B (zh) | 一种基于多视角图注意力网络的基因调控网络预测方法 | |
Murugesan et al. | Weighted Fuzzy Score Normalization and Bayesian Independent Principal Component Analysis Imputation for Breast Cancer Gene Expression Analysis. | |
CN118016149B (zh) | 一种整合空间转录组多模态信息的空间域识别方法 | |
Ma et al. | Cell-type composition analysis of scRNA-seq data with deep convolution neural network | |
CN118196490A (zh) | 一种基于图注意自动编码器的单细胞类型注释方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |