CN114819056A

CN114819056A - 一种基于域对抗和变分推断的单细胞数据整合方法

Info

Publication number: CN114819056A
Application number: CN202210277775.8A
Authority: CN
Inventors: 呼加璐; 赵芮; 尚学群; 钟源珂
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-07-29

Abstract

本发明涉及一种基于域对抗和变分推断策略的单细胞数据整合的方法，该方法通过整合跨技术、跨模态、跨样本的大规模的单细胞数据实现高维多模态单细胞数据的降维和去噪，它可以从多种不同角度准确描述细胞的类型、状态。本发明由于采用深度神经网络学习的框架，训练过程中采用小批量随机梯度下降的策略搜索最优的模型参数，从而可以利用GPU提高训练并行规模，减少时间，提高效率。该发明的主要特征是：1)具有较强的通用性；2)具有可扩展性，3)可以应用于大规模的单细胞数据。

Description

一种基于域对抗和变分推断的单细胞数据整合方法

技术领域

本发明涉及单细胞多模态数据整合方法，特别涉及一种基于域对抗学习和变分推断的单细胞数据整合方法。

背景技术

单细胞测序技术可以定量测量基因的表达水平、全基因组上的DNA甲基化水平、染色质开放区域可及性和单细胞空间转录组表达水平。利用这些技术，现如今已产生了跨越不同的技术、不同样本和不同模态的庞大的、全息的、多维度单细胞数据集，这些数据可以用于构建大规模的综合性单细胞图谱。目前，还没有已知的计算方法可以有效地同时对跨技术、跨样本、跨模态的大规模单细胞数据进行整合。

这一问题难点在于各类数据整合的噪声特点不一，且各类数据特征各异，最大的挑战在于寻找一个最优的非线性模型，能够同时拟合各种特征的单细胞数据，识别细胞类型子类及一些稀有细胞。这一问题的解决，急需要设计合适的统计模型和计算方法，开发可扩展且有效的计算方法来集成大型跨样本、技术和模式的单细胞数据集，并获得对细胞异质性、生物状态、细胞类型、细胞发育和复杂组织的空间模式的生物学规律。单细胞数据整合的主要问题是去除各种数据噪声，包括批次效应。

在已有的方法中，基于参考数据集的scmap和scAlign算法将参考集图谱的知识转移到查询的单细胞转录组数据上，但是这两个算法无法预测出新的细胞类型；基于因子分析的算法，如：scMerge,LIGER,SPOTLight和Duren等人提出的方法，由于需要消耗大量计算资源，故它们难以整合大规模的数据；一些深度学习方法的变体，如：DCA,scVI,scGen和DESC，基于自编码器可以在瓶颈层得到无批次的细胞表示，但由于这些方法的基础模型是专门为scRNA-seq数据设计的，所以无法应用于整合多模态单细胞数据；另一类方法是基于相互最近邻算法(MNNs)设计的，如：Seurat3.0和Scanorama；还有基于图的方法BBKNN，基于聚类的方法Harmony，DC3等，在这些方法中，Seurat3.0,LIGER,DC3用于整合跨膜态的单细胞数据；Duren等人提出的方法用于整合scRNA-seq数据和scATAC-seq数据；SPOTLight针对于整合scRNA-seq和空间转录组数据提出；其他的方法只能用到scRNA-seq数据上。总的来说，尽管上述方法可以整合多种单细胞数据集，虽然有少数几个已知的算法可以用于整合跨样本、跨技术、跨模态的单细胞数据，但是还没有任何方法能够完成以上整合任务的同时，还可以整合成对匹配的多模态数据，以及用于大规模单细胞数据的整合。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提出一种基于域对抗和变分推断的单细胞数据整合方法。

技术方案

一种基于域对抗和变分推断的单细胞数据整合方法，其特征在于步骤如下：

步骤1：需要整合的、从不同的单细胞测序数据集中收集到的标准化的基因表达矩阵输入到模型中；所述的模型由一个特征提取器、一个非线性函数映射和一个域分类器组成；所述特征提取器部分使用KL正则化项使变分推断的神经网络学习到单细胞数据的低维特征，即隐变量Z；所述非线性函数映射部分用于将从特征提取器中学到的低维特征还原到原始的数据分布；所述域分类器通过梯度反转层连接到神经网络的瓶颈层，使得本模型在提取特征的同时混淆不同批次数据的来源以进行批次效应的去除；该模型将这三部分融合，共同构建了一个目标损失函数；

步骤2：通过最小化目标函数，模型输出可用于下游分析的隐变量Z，即去除批次效应的单细胞低维嵌入特征，完成单细胞数据整合的任务。

本发明进一步的技术方案：所述的特征提取器是一个变分推断的神经网络，输入n*p的基因表达矩阵，n为细胞数，p为基因数，通过三个全连接层连接，输出两个n*d的低维矩阵，分别表示隐变量Z的后验概率分布的均值和协方差矩阵；估计的分布与Z的先验分布的KL散度为损失函数的第一项。

本发明进一步的技术方案：所述的非线性函数映射：输入特征提取器产生的隐变量Z的样本，经过3个全连接层的转换后，输出重构的表达矩阵；重构误差为损失函数的第二项。

本发明进一步的技术方案：所述域分类器：输入特征提取器产生的隐变量Z的样本，首先经过1个梯度反转层，然后经过2个全连接层的转换，最后经过softmax激活函数得到分类结果；分类结果和批次标签的均方差作为损失函数的第三项。

本发明进一步的技术方案：所述隐变量Z的先验分布是标准的高斯分布；为了避免变分编码器不可求导，采用重参数的方法对隐变量Z进行采样。

有益效果

本发明提出的一种基于域对抗和变分推断策略的单细胞数据整合的方法，采用了深度神经网络学习的框架实现整个方法，训练过程中采用小批量随机梯度下降的策略搜索最优的模型参数，从而可以利用GPU提高训练并行规模，减少时间，提高效率。通过上述方法，本发明可以同时完成以下类型的单细胞数据整合的任务：(1)将多种scRNA-seq整合到一个参考图谱中；(2)将被详细表征的scRNA-seq数据的标签转移到scATAC-seq数据，以及空间转录组数据上；(3)整合配对的多模态单细胞数据；(4)整合大规模单细胞数据。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1本发明一种基于域对抗和变分推断策略的单细胞数据整合的方法的流程示意图。它是一种用于整合多种单细胞数据的对抗学习和变分推断的深度神经网络，其中包括一个变分推断模型(蓝色部分)、一个非线性映射(灰色部分)和一个域对抗分类器(粉色部分)。使用梯度反转层(GRL)反向传播时，传到前一层之前改变梯度的符号来实现对抗机制。

图2整合跨样本人类DC的scRNA-seq数据集。图a-f为UMAP对六种方法结果的可视化，DAVAE是本发明的方法。每个点表示一个细胞，并按批次(第一行)或细胞类型(第二行)着色。图g通过ARI细胞类型说明聚类精确度，并通过1-ARI说明批次的混合质量；图h显示了在采样率为15％到25％的邻域范围内四种细胞类型在每个集成的数据上的平均kBET接受率。

图3整合来自scRNA-seq和scNuc-seq的小鼠大脑数据集。图a-e为使用五种方法(RAW、DAVAE、Scanorama、DESC、scGen)整合后数据的UMP可视化，每个细胞由一个点表示，并按批次(第一行)或细胞类型(第二行)着色。通过两个指标：ARI和kBET接受率来比较算法的整体整合效果。图f通过ARI细胞类型说明聚类精确度，并通过1-ARI说明批次的混合质量；图g展示了数据集中三种主要细胞类型在采样率的5-25％范围内的平均kBET接受率。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提出的一种基于域对抗和变分推断策略的单细胞数据整合的方法，该方法主要实现高维多模态单细胞数据的降维和去噪，它可以从多种不同角度准确描述细胞的类型、状态。具体来说，本发明提出一种非线性统计模型拟合单细胞观测数据，具体方法包括以下三个部分：1)变分推断的神经网络模型近似求解样本后验概率分布；2)深度学习解码器模型实现从隐变量到观测变量的非线性函数映射；3)域对抗神经网络模型实现细胞类型和批次分类的对抗学习。域对抗和变分自编码器，将归一化后的基因表达(或染色质可及性)拟合成的一个非线性模型，该模型将隐变量z转换成一个含有非线性函数、KL正则化器和域对抗正则化器的表达空间。该方法使用含有变分近似网络、生成贝叶斯神经网络和域对抗分类器的深度神经多层感知机的结构进行回归。深度神经网络可以高效地从大规模数据中学习到回归模型，低维共享空间中的隐变量可以用于聚类、轨迹推断、跨膜态迁移学习以及其他下游综合分析。

上述模型的具体内容包括以下部分：

(a)非线性模型：

设X＝{X⁽¹⁾,X⁽²⁾,...,X^(k)}为从k个不同单细胞数据集中得到的k个归一化后的基因表达矩阵，以及与之相关的批次特异性one-hot向量{b⁽¹⁾,b⁽²⁾,...,b^(k)}，其中，第m个矩阵X^(m)是维数为n_m×p的基因表达矩阵，n_m为细胞数，p为基因数。当把模型扩展到scATAC-seq数据或空间转录组数据上时，X^(m)代表的是染色质可及区域或空间中“点”的计数矩阵。

为了整合scRNA-seq数据，需要找一组由n_m×d的矩阵Z⁽ⁿ⁾组成的低维矩阵Z＝{Z⁽¹⁾,Z⁽²⁾,...,Z^(j)}，其中d＜＜p，期望Z可以反映细胞真实的生物学状态，并可以用于识别细胞亚群、轨迹推断、可视化等下游分析。为了得到Z，将归一化后的基因表达矩阵建模成把隐变量z转换成表达空间的非线性模型。

数学上，可以写成：

其中，

是一个单细胞表达的向量；f是一个非线性回归函数，它将

从一个d维隐空间转换为一个one-hot向量b^(m)和一组参数θ₁；

是服从N(0,σ²I)分布的残差向量。假设潜在因子

服从一个标准的多元正态分布N(0,I)，此时，不同数据集的隐变量将位于同一个d维空间上。采用以

b^(m)为输入，一个p维向量为结果的生成式深度神经网络结构来构造非线性函数f(·)。在深度神经网络中，

和b^(m)连接为一个(d+k)维的层。该层以(d+k)→32→64→128→p的形式连接到p维的输出层。所有中间层通过批归一化层、relu激活函数和dropout层相互全连接。

(b)域分类器：

将域对抗分类器

嵌入到学习潜在特征表示的过程，试图得到潜在因子

使其满足：(1)可以用于表示跨数据集的细胞的生物学状态；(2)原始批次的标签无法通过学习潜在表示来区分。通过神经网络构造域分类器，该网络以

为输入，中间通过一个梯度反转层(GRL)和一个全连接层输出概率分布。GRL通过relu激活函数与后面的16维全连接层连接，使用softmax作为激活函数得到最终k维的输出层，输出概率与b^(m)之间的分类交叉熵作为损失函数

(c)特征提取器：

(1)KL散度正则项作用于特征提取器，目的是学习单细胞数据的低维嵌入表示。

边缘对数似然由单个细胞的边缘对数似然的和组成，可以写成：

第一项是变分分布与后验分布之间的KL散度，第二项被称为证据下界(ELBO)，由于KL散度非负，极大似然估计等价于最大化证据下界。也就是说，当KL散度完全接近于0时，ELBO达到X的对数概率。ELBO可以写为：

简单起见，假设先验

和变分近似后验具有对角协方差的高斯分布，即：

方程(4)中的KL部分可以被分析计算得到，为了估计式子(4)中的第二项，通过从

中采用

次来使用蒙特卡洛估计，因为残差服从N(0,σ)分布，故第二项可改写为：

求关于σ的导数，并将其设置为0，就会产生一个更新规则：

此时，目标函数受KL正则器的约束，可以写为：

在这里，

和

决定了

从什么样的变分分布中采样，σ是式子(2)中残差分布的偏差，由于采用蒙特卡洛采样时会导致深度神经网络中瓶颈层差分化，因此使用了一个重参数化的技巧：

在这里，重写了期望值并从分布p(∈)中抽取了

的样本，使采样的过程独立于

和

符号⊙代表两个向量逐个元素相乘。此时，式(9)的目标损失函数可以写为：

这里的

和

分别为负期望误差和KL正则器的误差。

(2)域分类器损失

通过梯度反转层(GRL)作用于特征提取器的1

和

两部分损失形成对抗，能去除批次效应的同时保留细胞异质性。

目标函数：

为向量

和隐变量

构建了一个非线性模型

推断模型

和域对抗学习模型

可以将目标损失函数写为：

这样，将积分问题转化为了优化问题，通过最小化方程(12)中的目标函数来寻找(接近)最优参数。这个正则化回归模型有两个超参数：λ≥0，它控制着两个正则化器的整体惩罚，α∈[0,1]决定了两个惩罚L_kl和L_g的比例。使用梯度下降法更新每一组参数。

(d)用于应用拓展的跨模态转移标签

使用多层感知器(MLP)分类器将细胞类型标签从scRNA-seq参考数据集转移到跨模式查询数据集(例如scATAC-seq或空间转录组学数据)。MLP分类器将嵌入特征

作为输入并输出特定的细胞类型的概率向量

其中每个值

表示细胞属于类别i的概率。在深度神经网络中，输入特征通过两个中间层以d→64→32→k的形式连接到k维输出层。前三层中的每一层都使用了relu激活函数，并且输出层有一个softmax激活函数。这个分类器的损失函数是

和细胞类型标签的one-hot向量y之间的分类交叉熵。把具有细胞类型标签先验知识的scRNA-seq数据集用作训练数据，而scATAC-seq数据或空间转录组学数据被当作测试数据。根据使用scRNA-seq数据训练的模型，可以为测试数据中的每个细胞分配一个细胞类型的标签。

下面结合具体实施方式，举例详细说明本发明的应用效果。

(a)整合来自不同样本的人体树突状细胞

这一应用中本发明采用的数据集是使用Smart-Seq2得到的人血液树突状细胞(参考文献Villani AC,Satija R,et al.Single-cell RNA-seq reveals new types ofhuman blood dendritic cells,monocytes,and progenitors.Science.2017Apr 21；356(6335):eaah4573.doi:10.1126/science.aah4573.PMID:28428369；PMCID:PMC5775029)。为了验证本方法可以有效去除批次效应，将其应用于来自8个样本的人血液树突状细胞，将“P7”、“P8”、“P9”和“P10”视为第1批次，将“P3”、“P4”、“P13”和“P14”视为第2批次。由于存在批次效应等因素，使用这两个批次原始的RNA-seq数据无法进行整合，本研究的目标是整合的过程中保留真实的生物信息且消除批次效应。使用本研究提出的方法DAVAE进行整合，并与其他四个整合算法DESC,Scanorama,Seurat3.0和scGen的效果进行比较，结果如图(2)所示。

根据UMAP可视化结果，这五个算法在混合两个批次细胞并保留细胞类型异质性方面具有相似的性能。接下来，使用ARI来定量评估细胞类型纯度和批次混合效果，计算ARI细胞类型和1-ARI批次分数，这些方法的1-ARI批次分数相近但DAVAE和scGen在ARI细胞类型上比其他三种方法更加有效。此外，还做了kBET测试，可以看到DAVAE的kBET接受率为最高。总的来说，DAVAE可以整合来自不同样本的scRNA-seq数据。

(b)整合小鼠大脑上的scRNA-seq和scNuc-seq数据集

本研究采用的数据集是两个小鼠大脑数据：一个由Drop-seq产生的含316546个细胞的scRNA-seq数据集(参考文献Saunders A,Macosko EZ,et al.Molecular Diversityand Specializations among the Cells of the Adult Mouse Brain.Cell.2018Aug 9；174(4):1015-1030.e16.doi:10.1016/j.cell.2018.07.028.PMID:30096299；PMCID:PMC6447408.)，另一个是由SPLiT-seq产生的含有154319个细胞核的scNuc-seq数据集(参考文献Rosenberg AB,Roco CM,et al.Single-cell profiling of the developingmouse brain and spinal cord with split-pool barcoding.Science.2018Apr 13；360(6385):176-182.doi:10.1126/science.aam8999.Epub 2018Mar 15.PMID:29545511；PMCID:PMC7643870)。为了验证DAVAE及同类方法整合scRNA-seq和scNuc-seq数据的能力，本研究在两个小鼠大脑数据上做了测试。在原始数据上使用UMAP可视化，图(3)a中的绿色部分是来自Drop-seq的数据，灰色部分来自SPLiT-seq，说明在集成之前，两个数据集之间存在不同的批次效应。图(3)b-f中的结果表明，使用DAVAE和scGen进行整合后，两个数据集中大多数细胞类型的细胞混合到同一簇中，而Scanorama未能将任何细胞类型混合在一起，而DESC将一些主要细胞类型(例如神经元和少突胶质细胞)分成许多不同的簇。接下来，使用ARI细胞类型和ARI批次定量评估这些方法，图(3)结果仍然表明，scGen和DAVAE在1-ARI细胞类型和ARI批次上优于其他两种工具。最后，分别对神经元、少突胶质细胞、星形胶质细胞等三种主要细胞类型(≥30000个细胞)整合后的数据进行了kBET测试。从图(3)g中，可以看到：(1)DAVAE和scGen在神经元细胞上获得了比其他两种方法更高的接受率，以及(2)DAVAE和DESC在少突胶质细胞和星形胶质细胞上都是前两名。综上，可以得出结论，DAVAE可以用于使用两种不同技术产生的大型数据(即总共超过400000个细胞)的整合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于域对抗和变分推断的单细胞数据整合方法，其特征在于步骤如下：

2.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法，其特征在于：所述的特征提取器是一个变分推断的神经网络，输入n*p的基因表达矩阵，n为细胞数，p为基因数，通过三个全连接层连接，输出两个n*d的低维矩阵，分别表示隐变量Z的后验概率分布的均值和协方差矩阵；估计的分布与Z的先验分布的KL散度为损失函数的第一项。

3.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法，其特征在于：所述的非线性函数映射：输入特征提取器产生的隐变量Z的样本，经过3个全连接层的转换后，输出重构的表达矩阵；重构误差为损失函数的第二项。

4.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法，其特征在于：所述域分类器：输入特征提取器产生的隐变量Z的样本，首先经过1个梯度反转层，然后经过2个全连接层的转换，最后经过softmax激活函数得到分类结果；分类结果和批次标签的均方差作为损失函数的第三项。

5.根据权利要求1所述基于域对抗和变分推断的单细胞数据整合方法，其特征在于：所述隐变量Z的先验分布是标准的高斯分布；为了避免变分编码器不可求导，采用重参数的方法对隐变量Z进行采样。