CN114819056A - 一种基于域对抗和变分推断的单细胞数据整合方法 - Google Patents

一种基于域对抗和变分推断的单细胞数据整合方法 Download PDF

Info

Publication number
CN114819056A
CN114819056A CN202210277775.8A CN202210277775A CN114819056A CN 114819056 A CN114819056 A CN 114819056A CN 202210277775 A CN202210277775 A CN 202210277775A CN 114819056 A CN114819056 A CN 114819056A
Authority
CN
China
Prior art keywords
cell data
single cell
data
domain
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210277775.8A
Other languages
English (en)
Inventor
呼加璐
赵芮
尚学群
钟源珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210277775.8A priority Critical patent/CN114819056A/zh
Publication of CN114819056A publication Critical patent/CN114819056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Bioethics (AREA)
  • Neurology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种基于域对抗和变分推断策略的单细胞数据整合的方法,该方法通过整合跨技术、跨模态、跨样本的大规模的单细胞数据实现高维多模态单细胞数据的降维和去噪,它可以从多种不同角度准确描述细胞的类型、状态。本发明由于采用深度神经网络学习的框架,训练过程中采用小批量随机梯度下降的策略搜索最优的模型参数,从而可以利用GPU提高训练并行规模,减少时间,提高效率。该发明的主要特征是:1)具有较强的通用性;2)具有可扩展性,3)可以应用于大规模的单细胞数据。

Description

一种基于域对抗和变分推断的单细胞数据整合方法
技术领域
本发明涉及单细胞多模态数据整合方法,特别涉及一种基于域对抗学习和变分推断的单细胞数据整合方法。
背景技术
单细胞测序技术可以定量测量基因的表达水平、全基因组上的DNA甲基化水平、染色质开放区域可及性和单细胞空间转录组表达水平。利用这些技术,现如今已产生了跨越不同的技术、不同样本和不同模态的庞大的、全息的、多维度单细胞数据集,这些数据可以用于构建大规模的综合性单细胞图谱。目前,还没有已知的计算方法可以有效地同时对跨技术、跨样本、跨模态的大规模单细胞数据进行整合。
这一问题难点在于各类数据整合的噪声特点不一,且各类数据特征各异,最大的挑战在于寻找一个最优的非线性模型,能够同时拟合各种特征的单细胞数据,识别细胞类型子类及一些稀有细胞。这一问题的解决,急需要设计合适的统计模型和计算方法,开发可扩展且有效的计算方法来集成大型跨样本、技术和模式的单细胞数据集,并获得对细胞异质性、生物状态、细胞类型、细胞发育和复杂组织的空间模式的生物学规律。单细胞数据整合的主要问题是去除各种数据噪声,包括批次效应。
在已有的方法中,基于参考数据集的scmap和scAlign算法将参考集图谱的知识转移到查询的单细胞转录组数据上,但是这两个算法无法预测出新的细胞类型;基于因子分析的算法,如:scMerge,LIGER,SPOTLight和Duren等人提出的方法,由于需要消耗大量计算资源,故它们难以整合大规模的数据;一些深度学习方法的变体,如:DCA,scVI,scGen和DESC,基于自编码器可以在瓶颈层得到无批次的细胞表示,但由于这些方法的基础模型是专门为scRNA-seq数据设计的,所以无法应用于整合多模态单细胞数据;另一类方法是基于相互最近邻算法(MNNs)设计的,如:Seurat3.0和Scanorama;还有基于图的方法BBKNN,基于聚类的方法Harmony,DC3等,在这些方法中,Seurat3.0,LIGER,DC3用于整合跨膜态的单细胞数据;Duren等人提出的方法用于整合scRNA-seq数据和scATAC-seq数据;SPOTLight针对于整合scRNA-seq和空间转录组数据提出;其他的方法只能用到scRNA-seq数据上。总的来说,尽管上述方法可以整合多种单细胞数据集,虽然有少数几个已知的算法可以用于整合跨样本、跨技术、跨模态的单细胞数据,但是还没有任何方法能够完成以上整合任务的同时,还可以整合成对匹配的多模态数据,以及用于大规模单细胞数据的整合。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于域对抗和变分推断的单细胞数据整合方法。
技术方案
一种基于域对抗和变分推断的单细胞数据整合方法,其特征在于步骤如下:
步骤1:需要整合的、从不同的单细胞测序数据集中收集到的标准化的基因表达矩阵输入到模型中;所述的模型由一个特征提取器、一个非线性函数映射和一个域分类器组成;所述特征提取器部分使用KL正则化项使变分推断的神经网络学习到单细胞数据的低维特征,即隐变量Z;所述非线性函数映射部分用于将从特征提取器中学到的低维特征还原到原始的数据分布;所述域分类器通过梯度反转层连接到神经网络的瓶颈层,使得本模型在提取特征的同时混淆不同批次数据的来源以进行批次效应的去除;该模型将这三部分融合,共同构建了一个目标损失函数;
步骤2:通过最小化目标函数,模型输出可用于下游分析的隐变量Z,即去除批次效应的单细胞低维嵌入特征,完成单细胞数据整合的任务。
本发明进一步的技术方案:所述的特征提取器是一个变分推断的神经网络,输入n*p的基因表达矩阵,n为细胞数,p为基因数,通过三个全连接层连接,输出两个n*d的低维矩阵,分别表示隐变量Z的后验概率分布的均值和协方差矩阵;估计的分布与Z的先验分布的KL散度为损失函数的第一项。
本发明进一步的技术方案:所述的非线性函数映射:输入特征提取器产生的隐变量Z的样本,经过3个全连接层的转换后,输出重构的表达矩阵;重构误差为损失函数的第二项。
本发明进一步的技术方案:所述域分类器:输入特征提取器产生的隐变量Z的样本,首先经过1个梯度反转层,然后经过2个全连接层的转换,最后经过softmax激活函数得到分类结果;分类结果和批次标签的均方差作为损失函数的第三项。
本发明进一步的技术方案:所述隐变量Z的先验分布是标准的高斯分布;为了避免变分编码器不可求导,采用重参数的方法对隐变量Z进行采样。
有益效果
本发明提出的一种基于域对抗和变分推断策略的单细胞数据整合的方法,采用了深度神经网络学习的框架实现整个方法,训练过程中采用小批量随机梯度下降的策略搜索最优的模型参数,从而可以利用GPU提高训练并行规模,减少时间,提高效率。通过上述方法,本发明可以同时完成以下类型的单细胞数据整合的任务:(1)将多种scRNA-seq整合到一个参考图谱中;(2)将被详细表征的scRNA-seq数据的标签转移到scATAC-seq数据,以及空间转录组数据上;(3)整合配对的多模态单细胞数据;(4)整合大规模单细胞数据。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1本发明一种基于域对抗和变分推断策略的单细胞数据整合的方法的流程示意图。它是一种用于整合多种单细胞数据的对抗学习和变分推断的深度神经网络,其中包括一个变分推断模型(蓝色部分)、一个非线性映射(灰色部分)和一个域对抗分类器(粉色部分)。使用梯度反转层(GRL)反向传播时,传到前一层之前改变梯度的符号来实现对抗机制。
图2整合跨样本人类DC的scRNA-seq数据集。图a-f为UMAP对六种方法结果的可视化,DAVAE是本发明的方法。每个点表示一个细胞,并按批次(第一行)或细胞类型(第二行)着色。图g通过ARI细胞类型说明聚类精确度,并通过1-ARI说明批次的混合质量;图h显示了在采样率为15%到25%的邻域范围内四种细胞类型在每个集成的数据上的平均kBET接受率。
图3整合来自scRNA-seq和scNuc-seq的小鼠大脑数据集。图a-e为使用五种方法(RAW、DAVAE、Scanorama、DESC、scGen)整合后数据的UMP可视化,每个细胞由一个点表示,并按批次(第一行)或细胞类型(第二行)着色。通过两个指标:ARI和kBET接受率来比较算法的整体整合效果。图f通过ARI细胞类型说明聚类精确度,并通过1-ARI说明批次的混合质量;图g展示了数据集中三种主要细胞类型在采样率的5-25%范围内的平均kBET接受率。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提出的一种基于域对抗和变分推断策略的单细胞数据整合的方法,该方法主要实现高维多模态单细胞数据的降维和去噪,它可以从多种不同角度准确描述细胞的类型、状态。具体来说,本发明提出一种非线性统计模型拟合单细胞观测数据,具体方法包括以下三个部分:1)变分推断的神经网络模型近似求解样本后验概率分布;2)深度学习解码器模型实现从隐变量到观测变量的非线性函数映射;3)域对抗神经网络模型实现细胞类型和批次分类的对抗学习。域对抗和变分自编码器,将归一化后的基因表达(或染色质可及性)拟合成的一个非线性模型,该模型将隐变量z转换成一个含有非线性函数、KL正则化器和域对抗正则化器的表达空间。该方法使用含有变分近似网络、生成贝叶斯神经网络和域对抗分类器的深度神经多层感知机的结构进行回归。深度神经网络可以高效地从大规模数据中学习到回归模型,低维共享空间中的隐变量可以用于聚类、轨迹推断、跨膜态迁移学习以及其他下游综合分析。
上述模型的具体内容包括以下部分:
(a)非线性模型:
设X={X(1),X(2),...,X(k)}为从k个不同单细胞数据集中得到的k个归一化后的基因表达矩阵,以及与之相关的批次特异性one-hot向量{b(1),b(2),...,b(k)},其中,第m个矩阵X(m)是维数为nm×p的基因表达矩阵,nm为细胞数,p为基因数。当把模型扩展到scATAC-seq数据或空间转录组数据上时,X(m)代表的是染色质可及区域或空间中“点”的计数矩阵。
为了整合scRNA-seq数据,需要找一组由nm×d的矩阵Z(n)组成的低维矩阵Z={Z(1),Z(2),...,Z(j)},其中d<<p,期望Z可以反映细胞真实的生物学状态,并可以用于识别细胞亚群、轨迹推断、可视化等下游分析。为了得到Z,将归一化后的基因表达矩阵建模成把隐变量z转换成表达空间的非线性模型。
数学上,可以写成:
Figure BDA0003549755570000051
Figure BDA0003549755570000052
其中,
Figure BDA0003549755570000053
是一个单细胞表达的向量;f是一个非线性回归函数,它将
Figure BDA0003549755570000054
从一个d维隐空间转换为一个one-hot向量b(m)和一组参数θ1
Figure BDA0003549755570000061
是服从N(0,σ2I)分布的残差向量。假设潜在因子
Figure BDA0003549755570000062
服从一个标准的多元正态分布N(0,I),此时,不同数据集的隐变量将位于同一个d维空间上。采用以
Figure BDA0003549755570000063
b(m)为输入,一个p维向量为结果的生成式深度神经网络结构来构造非线性函数f(·)。在深度神经网络中,
Figure BDA0003549755570000064
和b(m)连接为一个(d+k)维的层。该层以(d+k)→32→64→128→p的形式连接到p维的输出层。所有中间层通过批归一化层、relu激活函数和dropout层相互全连接。
(b)域分类器:
将域对抗分类器
Figure BDA0003549755570000065
嵌入到学习潜在特征表示的过程,试图得到潜在因子
Figure BDA0003549755570000066
使其满足:(1)可以用于表示跨数据集的细胞的生物学状态;(2)原始批次的标签无法通过学习潜在表示来区分。通过神经网络构造域分类器,该网络以
Figure BDA0003549755570000067
为输入,中间通过一个梯度反转层(GRL)和一个全连接层输出概率分布。GRL通过relu激活函数与后面的16维全连接层连接,使用softmax作为激活函数得到最终k维的输出层,输出概率与b(m)之间的分类交叉熵作为损失函数
Figure BDA0003549755570000068
(c)特征提取器:
(1)KL散度正则项作用于特征提取器,目的是学习单细胞数据的低维嵌入表示。
边缘对数似然由单个细胞的边缘对数似然的和组成,可以写成:
Figure BDA0003549755570000069
第一项是变分分布与后验分布之间的KL散度,第二项被称为证据下界(ELBO),由于KL散度非负,极大似然估计等价于最大化证据下界。也就是说,当KL散度完全接近于0时,ELBO达到X的对数概率。ELBO可以写为:
Figure BDA00035497555700000610
简单起见,假设先验
Figure BDA00035497555700000611
和变分近似后验具有对角协方差的高斯分布,即:
Figure BDA00035497555700000612
Figure BDA0003549755570000071
方程(4)中的KL部分可以被分析计算得到,为了估计式子(4)中的第二项,通过从
Figure BDA0003549755570000072
中采用
Figure BDA0003549755570000073
次来使用蒙特卡洛估计,因为残差服从N(0,σ)分布,故第二项可改写为:
Figure BDA0003549755570000074
求关于σ的导数,并将其设置为0,就会产生一个更新规则:
Figure BDA0003549755570000075
此时,目标函数受KL正则器的约束,可以写为:
Figure BDA0003549755570000076
在这里,
Figure BDA0003549755570000077
Figure BDA0003549755570000078
决定了
Figure BDA0003549755570000079
从什么样的变分分布中采样,σ是式子(2)中残差分布的偏差,由于采用蒙特卡洛采样时会导致深度神经网络中瓶颈层差分化,因此使用了一个重参数化的技巧:
Figure BDA00035497555700000710
在这里,重写了期望值并从分布p(∈)中抽取了
Figure BDA00035497555700000711
的样本,使采样的过程独立于
Figure BDA00035497555700000712
Figure BDA00035497555700000713
符号⊙代表两个向量逐个元素相乘。此时,式(9)的目标损失函数可以写为:
Figure BDA00035497555700000714
这里的
Figure BDA00035497555700000715
Figure BDA00035497555700000716
分别为负期望误差和KL正则器的误差。
(2)域分类器损失
Figure BDA00035497555700000717
通过梯度反转层(GRL)作用于特征提取器的1
Figure BDA00035497555700000718
Figure BDA00035497555700000719
两部分损失形成对抗,能去除批次效应的同时保留细胞异质性。
目标函数:
为向量
Figure BDA0003549755570000081
和隐变量
Figure BDA0003549755570000082
构建了一个非线性模型
Figure BDA0003549755570000083
推断模型
Figure BDA0003549755570000084
和域对抗学习模型
Figure BDA0003549755570000085
可以将目标损失函数写为:
Figure BDA0003549755570000086
这样,将积分问题转化为了优化问题,通过最小化方程(12)中的目标函数来寻找(接近)最优参数。这个正则化回归模型有两个超参数:λ≥0,它控制着两个正则化器的整体惩罚,α∈[0,1]决定了两个惩罚Lkl和Lg的比例。使用梯度下降法更新每一组参数。
(d)用于应用拓展的跨模态转移标签
使用多层感知器(MLP)分类器将细胞类型标签从scRNA-seq参考数据集转移到跨模式查询数据集(例如scATAC-seq或空间转录组学数据)。MLP分类器将嵌入特征
Figure BDA0003549755570000087
作为输入并输出特定的细胞类型的概率向量
Figure BDA0003549755570000088
其中每个值
Figure BDA0003549755570000089
表示细胞属于类别i的概率。在深度神经网络中,输入特征通过两个中间层以d→64→32→k的形式连接到k维输出层。前三层中的每一层都使用了relu激活函数,并且输出层有一个softmax激活函数。这个分类器的损失函数是
Figure BDA00035497555700000810
和细胞类型标签的one-hot向量y之间的分类交叉熵。把具有细胞类型标签先验知识的scRNA-seq数据集用作训练数据,而scATAC-seq数据或空间转录组学数据被当作测试数据。根据使用scRNA-seq数据训练的模型,可以为测试数据中的每个细胞分配一个细胞类型的标签。
下面结合具体实施方式,举例详细说明本发明的应用效果。
(a)整合来自不同样本的人体树突状细胞
这一应用中本发明采用的数据集是使用Smart-Seq2得到的人血液树突状细胞(参考文献Villani AC,Satija R,et al.Single-cell RNA-seq reveals new types ofhuman blood dendritic cells,monocytes,and progenitors.Science.2017Apr 21;356(6335):eaah4573.doi:10.1126/science.aah4573.PMID:28428369;PMCID:PMC5775029)。为了验证本方法可以有效去除批次效应,将其应用于来自8个样本的人血液树突状细胞,将“P7”、“P8”、“P9”和“P10”视为第1批次,将“P3”、“P4”、“P13”和“P14”视为第2批次。由于存在批次效应等因素,使用这两个批次原始的RNA-seq数据无法进行整合,本研究的目标是整合的过程中保留真实的生物信息且消除批次效应。使用本研究提出的方法DAVAE进行整合,并与其他四个整合算法DESC,Scanorama,Seurat3.0和scGen的效果进行比较,结果如图(2)所示。
根据UMAP可视化结果,这五个算法在混合两个批次细胞并保留细胞类型异质性方面具有相似的性能。接下来,使用ARI来定量评估细胞类型纯度和批次混合效果,计算ARI细胞类型和1-ARI批次分数,这些方法的1-ARI批次分数相近但DAVAE和scGen在ARI细胞类型上比其他三种方法更加有效。此外,还做了kBET测试,可以看到DAVAE的kBET接受率为最高。总的来说,DAVAE可以整合来自不同样本的scRNA-seq数据。
(b)整合小鼠大脑上的scRNA-seq和scNuc-seq数据集
本研究采用的数据集是两个小鼠大脑数据:一个由Drop-seq产生的含316546个细胞的scRNA-seq数据集(参考文献Saunders A,Macosko EZ,et al.Molecular Diversityand Specializations among the Cells of the Adult Mouse Brain.Cell.2018Aug 9;174(4):1015-1030.e16.doi:10.1016/j.cell.2018.07.028.PMID:30096299;PMCID:PMC6447408.),另一个是由SPLiT-seq产生的含有154319个细胞核的scNuc-seq数据集(参考文献Rosenberg AB,Roco CM,et al.Single-cell profiling of the developingmouse brain and spinal cord with split-pool barcoding.Science.2018Apr 13;360(6385):176-182.doi:10.1126/science.aam8999.Epub 2018Mar 15.PMID:29545511;PMCID:PMC7643870)。为了验证DAVAE及同类方法整合scRNA-seq和scNuc-seq数据的能力,本研究在两个小鼠大脑数据上做了测试。在原始数据上使用UMAP可视化,图(3)a中的绿色部分是来自Drop-seq的数据,灰色部分来自SPLiT-seq,说明在集成之前,两个数据集之间存在不同的批次效应。图(3)b-f中的结果表明,使用DAVAE和scGen进行整合后,两个数据集中大多数细胞类型的细胞混合到同一簇中,而Scanorama未能将任何细胞类型混合在一起,而DESC将一些主要细胞类型(例如神经元和少突胶质细胞)分成许多不同的簇。接下来,使用ARI细胞类型和ARI批次定量评估这些方法,图(3)结果仍然表明,scGen和DAVAE在1-ARI细胞类型和ARI批次上优于其他两种工具。最后,分别对神经元、少突胶质细胞、星形胶质细胞等三种主要细胞类型(≥30000个细胞)整合后的数据进行了kBET测试。从图(3)g中,可以看到:(1)DAVAE和scGen在神经元细胞上获得了比其他两种方法更高的接受率,以及(2)DAVAE和DESC在少突胶质细胞和星形胶质细胞上都是前两名。综上,可以得出结论,DAVAE可以用于使用两种不同技术产生的大型数据(即总共超过400000个细胞)的整合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (5)

1.一种基于域对抗和变分推断的单细胞数据整合方法,其特征在于步骤如下:
步骤1:需要整合的、从不同的单细胞测序数据集中收集到的标准化的基因表达矩阵输入到模型中;所述的模型由一个特征提取器、一个非线性函数映射和一个域分类器组成;所述特征提取器部分使用KL正则化项使变分推断的神经网络学习到单细胞数据的低维特征,即隐变量Z;所述非线性函数映射部分用于将从特征提取器中学到的低维特征还原到原始的数据分布;所述域分类器通过梯度反转层连接到神经网络的瓶颈层,使得本模型在提取特征的同时混淆不同批次数据的来源以进行批次效应的去除;该模型将这三部分融合,共同构建了一个目标损失函数;
步骤2:通过最小化目标函数,模型输出可用于下游分析的隐变量Z,即去除批次效应的单细胞低维嵌入特征,完成单细胞数据整合的任务。
2.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法,其特征在于:所述的特征提取器是一个变分推断的神经网络,输入n*p的基因表达矩阵,n为细胞数,p为基因数,通过三个全连接层连接,输出两个n*d的低维矩阵,分别表示隐变量Z的后验概率分布的均值和协方差矩阵;估计的分布与Z的先验分布的KL散度为损失函数的第一项。
3.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法,其特征在于:所述的非线性函数映射:输入特征提取器产生的隐变量Z的样本,经过3个全连接层的转换后,输出重构的表达矩阵;重构误差为损失函数的第二项。
4.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法,其特征在于:所述域分类器:输入特征提取器产生的隐变量Z的样本,首先经过1个梯度反转层,然后经过2个全连接层的转换,最后经过softmax激活函数得到分类结果;分类结果和批次标签的均方差作为损失函数的第三项。
5.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法,其特征在于:所述隐变量Z的先验分布是标准的高斯分布;为了避免变分编码器不可求导,采用重参数的方法对隐变量Z进行采样。
CN202210277775.8A 2022-03-16 2022-03-16 一种基于域对抗和变分推断的单细胞数据整合方法 Pending CN114819056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210277775.8A CN114819056A (zh) 2022-03-16 2022-03-16 一种基于域对抗和变分推断的单细胞数据整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210277775.8A CN114819056A (zh) 2022-03-16 2022-03-16 一种基于域对抗和变分推断的单细胞数据整合方法

Publications (1)

Publication Number Publication Date
CN114819056A true CN114819056A (zh) 2022-07-29

Family

ID=82531317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210277775.8A Pending CN114819056A (zh) 2022-03-16 2022-03-16 一种基于域对抗和变分推断的单细胞数据整合方法

Country Status (1)

Country Link
CN (1) CN114819056A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985402A (zh) * 2023-03-20 2023-04-18 北京航空航天大学 一种基于归一化流理论的跨模态数据迁移方法
CN117854599A (zh) * 2024-03-07 2024-04-09 北京大学 多模态细胞数据的批次效应处理方法、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985402A (zh) * 2023-03-20 2023-04-18 北京航空航天大学 一种基于归一化流理论的跨模态数据迁移方法
CN115985402B (zh) * 2023-03-20 2023-09-19 北京航空航天大学 一种基于归一化流理论的跨模态数据迁移方法
CN117854599A (zh) * 2024-03-07 2024-04-09 北京大学 多模态细胞数据的批次效应处理方法、设备及存储介质
CN117854599B (zh) * 2024-03-07 2024-05-28 北京大学 多模态细胞数据的批次效应处理方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107622182B (zh) 蛋白质局部结构特征的预测方法及系统
Payan et al. Predicting Alzheimer's disease: a neuroimaging study with 3D convolutional neural networks
CN111785329B (zh) 基于对抗自动编码器的单细胞rna测序聚类方法
Lee et al. Gene selection and sample classification on microarray data based on adaptive genetic algorithm/k-nearest neighbor method
CN114819056A (zh) 一种基于域对抗和变分推断的单细胞数据整合方法
US20190347567A1 (en) Methods for data segmentation and identification
CN110516537B (zh) 一种基于自步学习的人脸年龄估计方法
WO2023217290A1 (zh) 基于图神经网络的基因表型预测
Zhang et al. Modularity based community detection in heterogeneous networks
CN111209939A (zh) 一种具有智能参数优化模块的svm分类预测方法
Hassan et al. Quantitative description of genomic evolution of olfactory receptors
Galimberti et al. Penalized factor mixture analysis for variable selection in clustered data
Örkçü et al. A hybrid applied optimization algorithm for training multi-layer neural networks in data classification
Cho et al. Fuzzy Bayesian validation for cluster analysis of yeast cell-cycle data
CN115661498A (zh) 一种自优化单细胞聚类方法
Sun et al. Deep generative autoencoder for low-dimensional embeding extraction from single-cell RNAseq data
Meyer et al. LiMMBo: a simple, scalable approach for linear mixed models in high-dimensional genetic association studies
Mousavi A New Clustering Method Using Evolutionary Algorithms for Determining Initial States, and Diverse Pairwise Distances for Clustering
Shen et al. High-order organization of weighted microbial interaction network
Chan et al. Gene trajectory clustering with a hybrid genetic algorithm and expectation maximization method
Zhao et al. Detecting regions of differential abundance between scRNA-seq datasets
Budiarto et al. Explainable supervised method for genetics ancestry estimation
Padma et al. A modified algorithm for clustering based on particle swarm optimization and K-means
Feng et al. Elf: extract landmark features by optimizing topology maintenance, redundancy, and specificity
Guimarães et al. Self-Organizing Maps and its applications in sleep apnea research and molecular genetics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination