CN114187969A

CN114187969A - 一种处理单细胞多模态组学数据的深度学习方法及系统

Info

Publication number: CN114187969A
Application number: CN202111392177.7A
Authority: CN
Inventors: 胡桓; 卢雨儿; 陈玲玲; 程烽; 帅建伟
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-03-15
Anticipated expiration: 2041-11-19
Also published as: CN114187969B

Abstract

本发明公开了一种处理单细胞多模态组学数据的深度学习方法及系统，包括：对多组学测序中捕获的转录组数据和蛋白质数据进行归一化处理；对归一化处理后的转录组数据进行降维；采用第一编码器对降维后的转录组数据进行特征提取；采用第一解码器还原降维后的单细胞转录组数据；对解码后的转录组数据进行升维；采用第二编码器对归一化处理后的蛋白质数据进行特征提取；采用第二解码器还原蛋白质数据；多模态组学数据整合，采用混合编码器混合编码后的转录组信息和蛋白质信息；采用混合解码器还原转录组特征信息和蛋白质特征信息。本发明从多组学的角度来捕获和表征细胞异质性，从而能对多种模式的数据进行综合分析。

Description

一种处理单细胞多模态组学数据的深度学习方法及系统

技术领域

本发明属于单细胞多组学分析领域，具体涉及一种处理单细胞多模态组学数据的深度学习方法及系统，将大量的单细胞所产生的转录组学和蛋白质组学的数据进行深度学习分析和整合处理，能多角度地描绘细胞间的异质性，从而更加全面和系统地描绘细胞的状态和命运，在生命科学、医学疾病诊断和治疗等领域有广泛重要的应用价值。

背景技术

随着分子生物学、微流体和纳米技术的发展，人们提出了多种类型的单细胞测序技术。现有的单细胞测序实验技术侧重于独立模式的测量，尤其是转录组的测量。单细胞转录组测序发展了许多强大的分析方法，广泛应用于细胞类型识别、轨迹推断、调控网络推断、单细胞转录组动力学分析等。这些基于独立模式的分析方法促进了人们对细胞多样性和发育景观的理解，在生命科学、医学疾病诊断和治疗等领域有广泛重要的应用前景。

如今，在单个细胞中同时检测和分析多模式组学，以构建更全面的细胞分子视图变得更加重要。例如，2017年提出了CITE-seq(通过测序对转录组和表位进行细胞索引)，它可以同时测量单细胞转录组和细胞特异性蛋白质数据，STOECKIUS M,HAFEMEISTER C,STEPHENSON W,et al.Simultaneous epitope and transcriptome measurement insingle cells[J].Nature Methods,2017。同年，引入了REAP-seq(RNA表达和蛋白质测序分析)，与CITE-seq类似，使用寡核苷酸交联抗体检测细胞蛋白质和转录水平，PETERSON V M,ZHANG K X,KUMAR N,et al.Multiplexed quantification of proteins andtranscripts in single cells[J].Nature Biotechnology,2017。这两种测量技术具有相似的原理。通过捕获转录组，同时捕获抗体衍生标签(antibody-derived tags，ADT)以计算蛋白质的表达数量。其他技术，如RNA邻近连接分析(PLAYR)，也可以在单细胞水平上检测特定蛋白质的表达水平，FREI A P,BAVA F A,ZUNDER E R,et al.Highly multiplexedsimultaneous detection of RNAs and proteins in single cells[J].NatureMethods,2016。与其他技术相比，CITE-Seq和REAP-seq具有成熟的商业解决方案，是目前最流行的单细胞多模态组学测量技术之一。由于REAP-seq和CITE-seq的多模态组学数据格式相似，分析程序也相似，下面将使用CITE-seq来统称这两种技术。

目前已经为CITE-seq技术提出了几种单细胞多模态数据分析方法。2018年，Satija Lab推出了Seurat v3，可以分别分析转录组(RNA)和蛋白质(ADT)数据，但无法整合它们，STUART T,BUTLER A,HOFFMAN P,et al.Comprehensive Integration of Single-Cell Data[J].Cell,2019,177(7):1888-902.e21，后构建加权最近邻图来整合这些模式，HAO Y,HAO S,ANDERSEN-NISSEN E,et al.Integrated analysis of multimodal single-cell data[J].2021。2021年，Gayoso等人基于深度学习开发的totalVI分别为转录组数据和蛋白质数据构建了两个变分自动编码器，GAYOSO A,STEIER Z,LOPEZ R,et al.Jointprobabilistic modeling of single-cell multi-omic data with totalVI[J].NatureMethods,2021:1-11，其中两个自动编码器共享它们的平均参数，作为多模式组学的综合表征，用于下游分析，如细胞聚类。下面简单介绍一下这两种单细胞多组学数据分析方法。

1.Seurat v4：Seurat v4引入了加权最近邻分析，分别为转录组和蛋白质设置权重，然后构建加权最近邻图来整合这些模式。

“加权最近邻(weighted-nearest neighbor，WNN)”分析，是一个无监督的框架，可用来学习每个细胞中每种数据类型的相对效用。基于非监督策略来学习细胞中特定模态的“权重”，它反映每个模态的信息内容，并确定其在下游分析中的相对重要性。对于每个细胞，Seurat首先对每个模态分别计算k＝20个最近邻的集合。接下来，分别对蛋白质邻居和转录组邻居的分子谱进行平均(即预测相邻细胞的分子含量)，并将平均值与原始测量值进行比较。然后，Seurat利用这些预测的相对准确性来计算转录组和蛋白质的模态“权重”，描述每个细胞的相对信息内容。使用Softmax变换计算模态权重。转录组和蛋白质模态权重是非负的，对每个细胞都是唯一的，总和为1。

2.TotalVI算法：TotalVI学习成对测量数据的联合概率表示，它解释了每种模态的独特噪声和技术偏差，以及批量效应。对于转录组，totalVI使用类似于变分自编码器的建模策略。对于蛋白质，totalVI引入了一种新的模型，将蛋白质信号分离为背景和前景成分，从而实现背景校正。TotalVI学到的概率表示是建立在转录组和蛋白质数据的低维联合表示上的，这些数据是通过神经网络获得的。TotalVI可以用于完成不同的分析任务，包括联合降维、数据集成(包含或缺失蛋白质)、蛋白质背景校正、基因和/或蛋白质之间的相关性估计以及差异表达测试。

现有的研究大多使用单一模式(通常是转录组RNA)的标准工作流程分析CITE-seq数据来聚类细胞，同时使用来自其他模式的信息对这些结果进行背景化。这种顺序方法使分析偏向于一种模式，并且随着CITE-seq测量的蛋白质数量扩展到数百种，而变得越来越低效。

尽管已有几种方法可以分析多模态组学数据，但多模态组学分析仍然存在一些挑战。除了预处理的过程可能会引入错误信号，现有工作面临最主要的挑战是，转录组和蛋白质数据具有不同的生物学特性和功能，如何在保留各自特征的前提下，又能整合多模态组学数据，使其对应独立模态的分析结果，并给出整合的特征。

发明内容

本发明提供了一种处理单细胞多模态组学数据的深度学习方法及系统，解决的一问题为混合多种单细胞模态数据，并生成可用于单细胞下游分析的转录组数据、蛋白质数据和多模态整合数据，从而提供多角度分析的三组数据集；本发明解决的另一问题为实现对单细胞转录组数据的插补，修复单细胞转录组数据因实验技术问题，而导致缺失的表达量值，从而降低数据噪音。

本发明采用如下技术方案：

一方面，一种处理单细胞多模态组学数据的深度学习方法，包括：

数据标准化预处理，对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理；

降维处理，对归一化处理后的转录组数据进行降维；

转录组数据分析，采用第一编码器对降维后的转录组数据进行特征提取，以表征细胞在转录组水平的异质性；采用第一解码器还原降维后的单细胞转录组数据；

升维处理，采用降维处理的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据；

蛋白质数据分析，采用第二编码器对归一化处理后的蛋白质数据进行特征提取，以表征细胞在蛋白质水平的异质性；采用第二解码器还原蛋白质数据；

多模态组学数据整合，采用混合编码器混合编码后的转录组信息和蛋白质信息，以表征多模态组学水平的细胞异质性；采用混合解码器还原转录组特征信息和蛋白质特征信息。

优选的，对转录组数据进行归一化，表示如下：

其中，

表示标准化之后的转录谱；U_ij表示转录谱中第i个细胞的第j个基因的表达量；对多组学测序中同时捕获的蛋白质数据进行归一化，表示如下：

其中，

表示标准化处理之后的所有细胞的蛋白质数据；A_ik表示第i个细胞的第k个蛋白质丰度。

优选的，对归一化处理后的转录组数据进行降维的方法包括主成分分析法。

优选的，采用第一编码器对降维后的转录组数据进行特征提取，以表征细胞在转录组水平的异质性，具体包括：

接收降维处理后的P维转录组数据，输入到一个P维神经网络层；

所述P维神经网络层连接至第一平均数层和第一方差层，所述第一平均数层和第一方差层均为P维神经网络层；所述第一平均数层用于估算正态分布的平均数μ_RNA；所述第一方差层用于估算正态分布的方差参数σ_RNA；

将第一平均数层和第一方差层均连接至第一正态分布层，以把输出的转录组数据转化为正态分布形式，所述正态分布层为P维神经网络层；

采用第一解码器还原降维后的单细胞转录组数据，具体包括：

首先通过一个P维神经网络层连接所述第一正态分布层以解码转录组特征；然后通过与P维神经网络层相连的另外两个P维神经网络层还原第一平均数层和第一方差层压缩的特征；最后再通过一个相连接的P维神经网络层还原降维后的单细胞转录组数据。

优选的，把输出的转录组数据转化为正态分布形式，具体如下：

其中，z_RNA表示转录组正态分布数据，用于表征细胞在转录组水平的异质性；N(0,1)表示标准正态分布。

优选的，采用第二编码器对蛋白质数据进行特征提取，以表征细胞在蛋白质水平的异质性，具体包括：

接收预处理后的蛋白质数据，输入到一个Q维神经网络层；

所述Q维神经网络层连接至第二平均数层和第二方差层，所述第二平均数层和第二方差层均为Q维神经网络层；所述第二平均数层用于估算正态分布的平均数μ_Protein；所述第二方差层用于估算正态分布的方差参数σ_Protein；

将第二平均数层和第二方差层均连接至第二正态分布层，以把输出的蛋白质数据转化为正态分布形式，所述正态分布层为Q维神经网络层；

采用第二解码器还原蛋白质数据，具体包括：

首先通过一个Q维神经网络层连接所述第二正态分布层以解码蛋白质特征；然后通过与Q维神经网络层相连的另外两个Q维神经网络层还原第二平均数层和第二方差层压缩的特征；最后再通过一个相连接的Q维神经网络层还原蛋白质数据。

优选的，把输出的蛋白质数据转化为正态分布形式，具体如下：

其中，z_Protein表示蛋白质正态分布数据，用于表征细胞在蛋白质水平的异质性；N(0,1)表示标准正态分布。

优选的，采用混合编码器混合编码后的转录组信息和蛋白质信息，以表征多模态组学水平的细胞异质性，具体包括：

同时接收所述第一平均数层和所述第二平均数层的输出，输入至多模态组学平均数层，以混合转录组平均数和蛋白质平均数获得多模态组学平均数μ_multiomic；所述多模态组学平均数层为M维神经网络层，M默认被设置为(P+Q)/2取整；

同时接收第一方差层和第二方差层的输出，输入至多模态组学方差层，以混合转录组方差和蛋白质方差获得多模态组学方差σ_multiomic；所述多模态组学平均数层为M维神经网络层；

将多模态组学平均数层和多模态组学方差层均连接至多模态组学正态分布层，以用正态分布形式的特征数据表征多模态组学水平的细胞异质性；所述多模态组学正态分布层为M维神经网络层；

采用混合解码器还原转录组特征信息和蛋白质特征信息，具体包括：

通过与多模态组学正态分布层直接相连的转录组信息层和蛋白质信息层重构转录组信息和蛋白质信息；转录组信息层和蛋白质信息层的神经元个数皆为M，它们的输出分别记为Z′_RNA和Z′_Protein；使用均方误差MSE约束z′_RNA和z′_Protein使z′_RNA和z′_Protein分别与转录组正态分布数据z_RNA和蛋白质正态分布数据z_Protein接近，当MSE(z_RNA,z′_RNA)和MSE(z_Protein,z′_Protein)取最小值时说明多模态组学的混合解码器重构回了转录组信息和蛋白质信息。

优选的，用正态分布形式的特征数据表征多模态组学水平的细胞异质性，具体如下：

其中，z_multiomic表示多模态组学正态分布数据，用于表征多模态组学水平的细胞异质性；N(0,1)表示标准正态分布。

另一方面，一种处理单细胞多模态组学数据的深度学习系统，包括：

数据标准化预处理模块，用于对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理；

降维模块，用于对归一化处理后的转录组数据进行降维；

转录组数据分析模块，包括第一编码器和第一解码器；所述第一编码器用于对降维后的转录组数据进行特征提取，以表征细胞在转录组水平的异质性；所述第一解码器用于还原降维后的单细胞转录组数据；

升维模块，用于采用降维模块的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据；

蛋白质数据分析模块，包括第二编码器和第二解码器；所述第二编码器用于对归一化处理后的蛋白质数据进行特征提取，以表征细胞在蛋白质水平的异质性；所述第二解码器用于还原蛋白质数据；

多模态组学数据整合模块，包括混合编码器和混合解码器，所述混合编码器用于混合转录组和蛋白质信息，以表征多模态组学水平的细胞异质性；所述混合解码器用于还原转录组和蛋白质特征信息。

本发明的有益效果如下：

(1)本发明通过数据标准化预处理、降维处理、转录组数据分析、升维处理、蛋白质数据分析和多模态组学数据整合，能够很好地整合单细胞转录组数据和细胞表面蛋白质数据，并能多角度的描绘细胞间的异质性，从而更全面和系统地描绘细胞状态和命运；

(2)本发明的数据标准化预处理、降维处理和升维处理，能够实现对单细胞转录组数据的插补，修复单细胞转录组数据因实验技术问题，而导致缺失的表达量值，从而降低数据噪音。

以下结合附图及实施例对本发明作进一步详细说明，但本发明的一种处理单细胞多模态组学数据的深度学习方法及系统不局限于实施例。

附图说明

图1为本发明实施例的处理单细胞多模态组学数据的深度学习方法的处理流程图；

图2为本发明实施例的处理单细胞多模态组学数据的深度学习系统的工作流程；

图3为本发明实施例的第一编码器和第一解码器的结构图；

图4为本发明实施例的第二编码器和第二解码器的结构图；

图5为本发明实施例的混合编码器和混合解码器的结构图；

图6为本发明在CBMC数据集的应用实例上产生的转录组(RNA)水平分析结果；

图7为本发明在CBMC数据集的应用实例上产生的蛋白质(ADT)水平分析结果；

图8为本发明在CBMC数据集的应用实例上产生的多模态组学水平分析结果；

图9为本发明在CBMC数据集的应用实例上的小鼠细胞簇中Hmga2基因表达的小提琴图；

图10为本发明在CBMC数据集的应用实例上的NK细胞簇中CD56(上)和CD16(下)ADT丰度的小提琴图；

图11为本发明在CBMC数据集的应用实例上的多模态组学水平分析结果一；其中(a)为多模态组学水平得到的NK细胞和Monocyte的聚类结果，(b)中箱线图显示了CD56和CD16的NK细胞标志物、CD11c和CD14的Monocyte标志物的不同ADT丰度，以及六个不同簇中的增殖标记CD45RA；

图12为本发明在CBMC数据集的应用实例上的多模态组学水平分析结果二；其中(a)为CD45RA蛋白丰度的分布图；(b)为CD45RA蛋白在转录组水平分析结果中的CD4+MemoryT细胞和CD4+Naive T细胞内的密度分布；(c)为CD45RA蛋白在ADT水平分析结果中的CD4+Memory T细胞和CD4+Naive T细胞内的密度分布；(d)为CD45RA蛋白在多模态组水平分析结果中的CD4+Memory T细胞和CD4+Naive T细胞内的密度分布。

具体实施方式

以下通过具体实施方式对本发明作进一步的描述。应当说明的是，此处所述具体实施例仅用于方便说明和解释本发明的具体实施方式，并不用于限定本发明。

为了使本发明的目的、技术方案更加清晰明了，以下结合附图以及案例，对本发明进行进一步说明。应当理解，此处所描述的案例仅用于解释本发明，并不用于限定本发明。

参见图1所示，本发明一种处理单细胞多模态组学数据的深度学习方法，其特征在于，包括：

S101，数据预处理，对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理；

S102，降维处理，对归一化处理后的转录组数据进行降维；

S103，转录组数据分析，采用第一编码器对降维后的转录组数据进行特征提取，以表征细胞在转录组水平的异质性；采用第一解码器还原降维后的单细胞转录组数据；

S104，升维处理，采用降维处理的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据；

S105，蛋白质数据分析，采用第二编码器对归一化处理后的蛋白质数据进行特征提取，以表征细胞在蛋白质水平的异质性；采用第二解码器还原蛋白质数据；

S106，多模态组学数据整合，采用混合编码器混合编码后的转录组信息和蛋白质信息，以表征多模态组学水平的细胞异质性；采用混合解码器还原转录组特征信息和蛋白质特征信息。

进一步的，参见图2所示，本发明的处理单细胞多模态组学数据的深度学习系统，包括数据标准化预处理模块、降维模块、转录组数据分析模块、升维模块、蛋白质数据分析模块和多模态组学数据整合模块，以整合转录组(RNA)数据和蛋白质(ADT)数据。

具体的，所述数据标准化预处理模块用于对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理。

本实施例中，采用如下方法对转录组数据进行归一化：

其中，

是标准化之后的转录谱，U_ij代表转录谱中第i个细胞的第j个基因的表达量。

对多组学测序中同时捕获的蛋白质数据做如下的变换：

其中，

是标准化处理之后的所有细胞的蛋白质数据，A_ik代表第i个细胞的第k个蛋白质(ADT)丰度。

具体的，所述降维模块，用于对归一化处理后的转录组数据进行降维。

对经过标准化处理后的数据，使用主成分分析(PCA)对转录组数据进行降维：

X_{PCA_RNA}＝PCA(X_RNA)

使其维度下降到与蛋白质数据维度接近，能消除转录组数据与蛋白质数据维度差异。

本实施例中，所述转录组数据分析模块由第一编码器和第一解码器两部分组成，它的结构如图3所示。转录组数据分析模块的第一编码器的主要功能是提取转录组数据特征，它的工作流程如下：首先，使用主成分分析算法将转录组数据降维至P维。通常情况下选择P＝32即可。维度参数P越大包含的转录组特征信息越多，但这也会增加下游分析的计算时间与内存开销。接着，P维的转录组数据被输入到一个P维全连接神经网络层。然后，该神经网络层连接两个P维神经网络层，它们分别被称为第一平均数层和第一方差层。根据变分自编码器的设计原理，这两个神经网络层分别用于估算正态分布的平均数μ_RNA和方差参数σ_RNA。最后，这两个神经网络层共同连接至P维神经网络层，即第一正态分布层，并根据下式把输出的转录组数据转化为正态分布形式。

其中，N(0,1)表示标准正态分布。

这个正态分布数据表示细胞在转录组水平的异质性，它可用于细胞聚类、可视化、差异基因分析、细胞发育轨迹推断等单细胞下游分析任务。

转录组数据分析模块的第一解码器负责还原降维后的单细胞转录组数据，本发明中第一解码器为一个三层网络结构。第一解码器与第一编码器的网络结构是对称的。第一解码器的第一层是一个P维全连接神经网络层。其中P的维数与编码器的P维全连接神经网络一致，它的主要作用是解码转录组特征。第二层由两个P维的神经网络层构成，它们用于还原第一编码器中第一平均数层和第一方差层压缩的特征。第三层网络的维度与编码器的输入层相同。第一解码器输出的数据经过主成分分析的逆操作(升维模块)可以还原为单细胞转录组数据。

本实施例中，蛋白质数据由蛋白质数据分析模块处理，它与转录组数据分析模块类似。蛋白质数据分析模块由第二编码器和第二解码器两部分组成，它的网络结构如图4所示。

蛋白质数据分析模块的第二编码器负责提取蛋白质数据特征。首先，将标准化预处理后的蛋白质数据输入到一个Q维全连接神经网络层，参数Q与输入的数据的维数一致。然后，该神经网络层连接两个Q维神经网络层，它们分别被称为第二平均数成和第二方差层。根据变分自编码器的设计原理，这两个神经网络层分别用于估算正态分布的平均数μ_Protein和方差参数σ_Protein。最后，这两个神经网络层共同连接至一个Q维神经网络层，即第二正态分布层，它根据下式把数据转化为正态分布形式：

其中，N(0,1)是标准正态分布。

这个正态分布表示细胞在蛋白质水平的异质性，它可用于细胞聚类、可视化、差异基因分析、细胞发育轨迹推断等单细胞下游分析任务。

蛋白质数据分析模块的第二解码器负责还原蛋白质数据，本发明中第二解码器为一个三层网络结构。第二解码器与第二编码器的网络结构是对称的。第二解码器的第一层是Q维神经网络层。其中Q的维数与编码器的Q维全连接神经网络一致，它的主要作用是解码蛋白质特征。第二层由两个Q维的分支神经网络层构成，它们用于还原第二编码器中估算平均数和方差的网络层压缩的特征。第三层网络的维度与第二编码器的输入层相同，它的输出即为解码后的蛋白质数据。

本实施例中，多模态组学深度整合模块主要作用是混合转录组和蛋白质信息，进而得到多组学水平的细胞异质性信息。多模态组学深度整合模块类似于自编码器，它由混合编码器和混合解码器组成，它的网络结构如图5所示。

多模态组学深度整合模块的混合编码器依赖于转录组数据分析模块和蛋白质数据分析模块。它的目标是混合转录组和蛋白质信息以获得多模态组学信息。一方面，转录组数据分析模块的第一平均数层和蛋白质数据分析模块的第二平均数层的输出同时输入至一个M维神经网络层，该神经网络层的作用是混合转录组平均数和蛋白质平均数获得多模态组学平均数μ_multiomic。维度参数M，默认被设置为

取整。另一方面，转录组数据分析模块的第一方差层和蛋白质数据分析模块的第二方差层的输出同时输入至另一个M维神经网络层，该神经网络层的作用是混合转录组方差和蛋白质方差获得多模态组学方差σ_multiomic。接着，多模态组学平均数μ_multiomic和多模态组学方差σ_multiomic根据

被转化为正态分布形式的特征数据，其中N(0,1)是标准正态分布。

这个正态分布形式的特征数据即为多模态组学水平的细胞异质性，它可用于细胞聚类、可视化、差异基因分析、细胞发育轨迹推断等单细胞下游分析任务。

多模态组学深度整合模块的混合解码器的作用是还原转录组和蛋白质特征信息。多模态组学的混合解码器与正态分布层直接相连，它仅由转录组信息层和蛋白质信息层构成。这两个神经网络层的神经元个数皆为M，它们的输出分别记为Z′_RNA和Z′_Protein。在本发明中，我们使用均方误差(MSE)约束z′_RNA和z′_Protein使它们分别与z_RNA和z_Protein接近。当MSE(z_RNA,z′_RNA)和MSE(z_Protein,z′_Protein)取最小值时说明多模态组学的混合解码器重构回了转录组信息和蛋白质信息。

如下对来自CITE-seq的人类脐带血单个核细胞(CBMC)数据集进行处理分析。CBMC数据集包含8617个细胞，每个细胞检测了36281种基因并同时测量了11种细胞表面蛋白质(ADT)的丰度。值得注意的是CBMC数据集中还混合了少量的小鼠细胞，这些小鼠细胞可以用来检验分析模型的灵敏度。

具体处理过程如下：

(1)模型构建

分析流程主要包括数据标准化预处理模块、主成分分析转换模块(包括降维模块和升维模块)、转录组与蛋白质数据分析模块、多模组组学数据分析模块。

(2)数据标准化预处理模块

CBMC数据集包含单细胞转录组和ADT。每一个细胞视为一条数据，它同时包含细胞内所有基因的表达量即转录组数据，和11种细胞表面蛋白的表达量即ADT数据。首先对转录组数据做加1对数变换：

上式中，

代表标准化预处理后的转录组数据，U_ij代表第i个细胞的第j个基因的表达量。在这个案例中i最大值为细胞数即8617，j最大值为基因种类数即36281。

然后对蛋白质数据做加1对数变换：

上式中，

代表标准化处理后的蛋白质(ADT)数据，A_ik代表第i个细胞的第k个基因的表达量。在这个案例中，i最大值为细胞数即8617，k最大值为蛋白质(ADT)种类数即11。

(3)主成分分析转换模块

转录组数据经处理后输入主成分分析转化模块，其主要作用是去除转录组数据的稀疏性。在这个案例中蛋白质数据仅有11维，而转录组数据的维度超过3万，主成分分析降维后的转录组数据为1000维，足以概括转录组数据的异质性。由转录组解码器输出的1000维数据，经过主成分分析的逆操作，将数据重新升维至36281维，也使所有的基因数据都得到插补处理和降噪。

(4)转录组数据分析模块和蛋白质数据分析模块

本发明提出的分析方法，能用来分别分析单独的转录组数据或蛋白质数据。处理后的转录组和蛋白质数据分别被输入两个变分自编码器进行降维，根据经验，编码器网络中的神经网络层维度数设置为10即可表征单细胞转录组数据和单细胞蛋白质数据，用户可根据实际需求调整编码器神经网络层的维度数。降维后的数据可用于细胞分群等单细胞下游分析任务。

参见附图6和7分别展示了转录组和蛋白质水平的细胞分群结果，通过对比可以发现尽管大多数细胞注释结果很相似，但转录组和蛋白质水平的细胞注释结果在细胞亚型上有差别。参见附图9所示，转录组水平可以识别出CBMC数据集中的小鼠细胞亚型，而蛋白质水平无法识别出这些小鼠细胞。参见附图10所示，在蛋白质水平识别出了三种NK细胞亚型(CD56bright NK、CD8-NK、CD8+NK)，而转录组水平没有识别出这些NK细胞亚型。

(5)多模态组学数据整合模块

本发明提出的分析方法，不仅能用来分析单独的转录组数据或蛋白质数据，也能从整合的角度分析整合的多模态组学数据。转录组和蛋白质变分自编码器中的平均数参数经过多模态组学混合深度模块混合后，可以得到多模态组学水平的单细胞数据表示，它表示细胞在多模态组学水平的异质性，可直接用于细胞分群等单细胞下游分析任务。多模态组学兼顾了转录组和蛋白质模态的优势，多模态组学水平的细胞注释与独立模态的细胞注释很相似，并且能够成功识别独立模态水平特异性注释的细胞亚型。

参见附图8和9所示，多模态组学水平成功识别出了只有转录组水平才能识别出的小鼠细胞的两个亚型。参见附图8和10所示，多模态组学水平成功的识别出了只有蛋白质水平才能识别出的NK细胞的三个亚型。

多模态组学识别出的其他细胞亚型也与独立模态识别出的细胞亚型有很好的一致性。参见图11所示，多模态组学也成功识别出了Monocyte的三种亚型。另外，本发明同时给出的三种水平的细胞异质性，可以用相同的标准进行比较。参见图12所示，三种水平都识别出了CBMC数据集中CD4+T细胞的两亚型即CD4+Memory T和CD4+

T，它们可以用CD45RA进行区分。转录组水平的分析结果无法区分出这两种CD4+T细胞亚型。蛋白质水平的分析结果可以区分出这两种细胞亚型。多模态组学水平的分析结果也可以区分出这两种细胞亚型。上述例子都说明，整合后产生的多模态组学数据能够很好的兼顾独立模态数据的特征，在下游单细胞分析中具有很好的鲁棒性。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进与变换，而所有这些改进与变化都应属于本发明所附权利要求的保护范围。

Claims

1.一种处理单细胞多模态组学数据的深度学习方法，其特征在于，包括：

降维处理，对归一化处理后的转录组数据进行降维；

2.根据权利要求1所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，对转录组数据进行归一化，表示如下：

其中，

表示标准化之后的转录谱；U_ij表示转录谱中第i个细胞的第j个基因的表达量；

对多组学测序中同时捕获的蛋白质数据进行归一化，表示如下：

其中，

3.根据权利要求1所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，对归一化处理后的转录组数据进行降维的方法包括主成分分析法。

4.根据权利要求1所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，采用第一编码器对降维后的转录组数据进行特征提取，以表征细胞在转录组水平的异质性，具体包括：

5.根据权利要求4所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，把输出的转录组数据转化为正态分布形式，具体如下：

其中，z_RNA表示转录组正态分布数据，用于表征细胞在转录组水平的异质性；N(0，1)表示标准正态分布。

6.根据权利要求4所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，采用第二编码器对蛋白质数据进行特征提取，以表征细胞在蛋白质水平的异质性，具体包括：

接收预处理后的蛋白质数据，输入到一个Q维神经网络层；

采用第二解码器还原蛋白质数据，具体包括：

7.根据权利要求6所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，把输出的蛋白质数据转化为正态分布形式，具体如下：

其中，z_Protein表示蛋白质正态分布数据，用于表征细胞在蛋白质水平的异质性；N(0，1)表示标准正态分布。

8.根据权利要求6所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，采用混合编码器混合编码后的转录组信息和蛋白质信息，以表征多模态组学水平的细胞异质性，具体包括：

通过与多模态组学正态分布层直接相连的转录组信息层和蛋白质信息层重构转录组信息和蛋白质信息；转录组信息层和蛋白质信息层的神经元个数皆为M，它们的输出分别记为Z′_RNA和Z′_Protein；使用均方误差MSE约束z′_RNA和z′_Protein使z′_RNA和z′_Protein分别与转录组正态分布数据z_RNA和蛋白质正态分布数据z_Protein接近，当MSE(z_RNA，z′_RNA)和MSE(z_Protein，z′_Protein)取最小值时说明多模态组学的混合解码器重构回了转录组信息和蛋白质信息。

9.根据权利要求8所述的处理单细胞多模态组学数据的深度学习方法，其特征在于，用正态分布形式的特征数据表征多模态组学水平的细胞异质性，具体如下：

其中，z_multiomic表示多模态组学正态分布数据，用于表征多模态组学水平的细胞异质性；N(0，1)表示标准正态分布。

10.一种处理单细胞多模态组学数据的深度学习系统，其特征在于，包括：

降维模块，用于对归一化处理后的转录组数据进行降维；