CN114187969A - 一种处理单细胞多模态组学数据的深度学习方法及系统 - Google Patents

一种处理单细胞多模态组学数据的深度学习方法及系统 Download PDF

Info

Publication number
CN114187969A
CN114187969A CN202111392177.7A CN202111392177A CN114187969A CN 114187969 A CN114187969 A CN 114187969A CN 202111392177 A CN202111392177 A CN 202111392177A CN 114187969 A CN114187969 A CN 114187969A
Authority
CN
China
Prior art keywords
data
protein
transcriptome
layer
omics
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111392177.7A
Other languages
English (en)
Other versions
CN114187969B (zh
Inventor
胡桓
卢雨儿
陈玲玲
程烽
帅建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111392177.7A priority Critical patent/CN114187969B/zh
Publication of CN114187969A publication Critical patent/CN114187969A/zh
Application granted granted Critical
Publication of CN114187969B publication Critical patent/CN114187969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种处理单细胞多模态组学数据的深度学习方法及系统,包括:对多组学测序中捕获的转录组数据和蛋白质数据进行归一化处理;对归一化处理后的转录组数据进行降维;采用第一编码器对降维后的转录组数据进行特征提取;采用第一解码器还原降维后的单细胞转录组数据;对解码后的转录组数据进行升维;采用第二编码器对归一化处理后的蛋白质数据进行特征提取;采用第二解码器还原蛋白质数据;多模态组学数据整合,采用混合编码器混合编码后的转录组信息和蛋白质信息;采用混合解码器还原转录组特征信息和蛋白质特征信息。本发明从多组学的角度来捕获和表征细胞异质性,从而能对多种模式的数据进行综合分析。

Description

一种处理单细胞多模态组学数据的深度学习方法及系统
技术领域
本发明属于单细胞多组学分析领域,具体涉及一种处理单细胞多模态组学数据的深度学习方法及系统,将大量的单细胞所产生的转录组学和蛋白质组学的数据进行深度学习分析和整合处理,能多角度地描绘细胞间的异质性,从而更加全面和系统地描绘细胞的状态和命运,在生命科学、医学疾病诊断和治疗等领域有广泛重要的应用价值。
背景技术
随着分子生物学、微流体和纳米技术的发展,人们提出了多种类型的单细胞测序技术。现有的单细胞测序实验技术侧重于独立模式的测量,尤其是转录组的测量。单细胞转录组测序发展了许多强大的分析方法,广泛应用于细胞类型识别、轨迹推断、调控网络推断、单细胞转录组动力学分析等。这些基于独立模式的分析方法促进了人们对细胞多样性和发育景观的理解,在生命科学、医学疾病诊断和治疗等领域有广泛重要的应用前景。
如今,在单个细胞中同时检测和分析多模式组学,以构建更全面的细胞分子视图变得更加重要。例如,2017年提出了CITE-seq(通过测序对转录组和表位进行细胞索引),它可以同时测量单细胞转录组和细胞特异性蛋白质数据,STOECKIUS M,HAFEMEISTER C,STEPHENSON W,et al.Simultaneous epitope and transcriptome measurement insingle cells[J].Nature Methods,2017。同年,引入了REAP-seq(RNA表达和蛋白质测序分析),与CITE-seq类似,使用寡核苷酸交联抗体检测细胞蛋白质和转录水平,PETERSON V M,ZHANG K X,KUMAR N,et al.Multiplexed quantification of proteins andtranscripts in single cells[J].Nature Biotechnology,2017。这两种测量技术具有相似的原理。通过捕获转录组,同时捕获抗体衍生标签(antibody-derived tags,ADT)以计算蛋白质的表达数量。其他技术,如RNA邻近连接分析(PLAYR),也可以在单细胞水平上检测特定蛋白质的表达水平,FREI A P,BAVA F A,ZUNDER E R,et al.Highly multiplexedsimultaneous detection of RNAs and proteins in single cells[J].NatureMethods,2016。与其他技术相比,CITE-Seq和REAP-seq具有成熟的商业解决方案,是目前最流行的单细胞多模态组学测量技术之一。由于REAP-seq和CITE-seq的多模态组学数据格式相似,分析程序也相似,下面将使用CITE-seq来统称这两种技术。
目前已经为CITE-seq技术提出了几种单细胞多模态数据分析方法。2018年,Satija Lab推出了Seurat v3,可以分别分析转录组(RNA)和蛋白质(ADT)数据,但无法整合它们,STUART T,BUTLER A,HOFFMAN P,et al.Comprehensive Integration of Single-Cell Data[J].Cell,2019,177(7):1888-902.e21,后构建加权最近邻图来整合这些模式,HAO Y,HAO S,ANDERSEN-NISSEN E,et al.Integrated analysis of multimodal single-cell data[J].2021。2021年,Gayoso等人基于深度学习开发的totalVI分别为转录组数据和蛋白质数据构建了两个变分自动编码器,GAYOSO A,STEIER Z,LOPEZ R,et al.Jointprobabilistic modeling of single-cell multi-omic data with totalVI[J].NatureMethods,2021:1-11,其中两个自动编码器共享它们的平均参数,作为多模式组学的综合表征,用于下游分析,如细胞聚类。下面简单介绍一下这两种单细胞多组学数据分析方法。
1.Seurat v4:Seurat v4引入了加权最近邻分析,分别为转录组和蛋白质设置权重,然后构建加权最近邻图来整合这些模式。
“加权最近邻(weighted-nearest neighbor,WNN)”分析,是一个无监督的框架,可用来学习每个细胞中每种数据类型的相对效用。基于非监督策略来学习细胞中特定模态的“权重”,它反映每个模态的信息内容,并确定其在下游分析中的相对重要性。对于每个细胞,Seurat首先对每个模态分别计算k=20个最近邻的集合。接下来,分别对蛋白质邻居和转录组邻居的分子谱进行平均(即预测相邻细胞的分子含量),并将平均值与原始测量值进行比较。然后,Seurat利用这些预测的相对准确性来计算转录组和蛋白质的模态“权重”,描述每个细胞的相对信息内容。使用Softmax变换计算模态权重。转录组和蛋白质模态权重是非负的,对每个细胞都是唯一的,总和为1。
2.TotalVI算法:TotalVI学习成对测量数据的联合概率表示,它解释了每种模态的独特噪声和技术偏差,以及批量效应。对于转录组,totalVI使用类似于变分自编码器的建模策略。对于蛋白质,totalVI引入了一种新的模型,将蛋白质信号分离为背景和前景成分,从而实现背景校正。TotalVI学到的概率表示是建立在转录组和蛋白质数据的低维联合表示上的,这些数据是通过神经网络获得的。TotalVI可以用于完成不同的分析任务,包括联合降维、数据集成(包含或缺失蛋白质)、蛋白质背景校正、基因和/或蛋白质之间的相关性估计以及差异表达测试。
现有的研究大多使用单一模式(通常是转录组RNA)的标准工作流程分析CITE-seq数据来聚类细胞,同时使用来自其他模式的信息对这些结果进行背景化。这种顺序方法使分析偏向于一种模式,并且随着CITE-seq测量的蛋白质数量扩展到数百种,而变得越来越低效。
尽管已有几种方法可以分析多模态组学数据,但多模态组学分析仍然存在一些挑战。除了预处理的过程可能会引入错误信号,现有工作面临最主要的挑战是,转录组和蛋白质数据具有不同的生物学特性和功能,如何在保留各自特征的前提下,又能整合多模态组学数据,使其对应独立模态的分析结果,并给出整合的特征。
发明内容
本发明提供了一种处理单细胞多模态组学数据的深度学习方法及系统,解决的一问题为混合多种单细胞模态数据,并生成可用于单细胞下游分析的转录组数据、蛋白质数据和多模态整合数据,从而提供多角度分析的三组数据集;本发明解决的另一问题为实现对单细胞转录组数据的插补,修复单细胞转录组数据因实验技术问题,而导致缺失的表达量值,从而降低数据噪音。
本发明采用如下技术方案:
一方面,一种处理单细胞多模态组学数据的深度学习方法,包括:
数据标准化预处理,对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理;
降维处理,对归一化处理后的转录组数据进行降维;
转录组数据分析,采用第一编码器对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性;采用第一解码器还原降维后的单细胞转录组数据;
升维处理,采用降维处理的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据;
蛋白质数据分析,采用第二编码器对归一化处理后的蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性;采用第二解码器还原蛋白质数据;
多模态组学数据整合,采用混合编码器混合编码后的转录组信息和蛋白质信息,以表征多模态组学水平的细胞异质性;采用混合解码器还原转录组特征信息和蛋白质特征信息。
优选的,对转录组数据进行归一化,表示如下:
Figure BDA0003364684680000031
其中,
Figure BDA0003364684680000032
表示标准化之后的转录谱;Uij表示转录谱中第i个细胞的第j个基因的表达量;对多组学测序中同时捕获的蛋白质数据进行归一化,表示如下:
Figure BDA0003364684680000033
其中,
Figure BDA0003364684680000034
表示标准化处理之后的所有细胞的蛋白质数据;Aik表示第i个细胞的第k个蛋白质丰度。
优选的,对归一化处理后的转录组数据进行降维的方法包括主成分分析法。
优选的,采用第一编码器对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性,具体包括:
接收降维处理后的P维转录组数据,输入到一个P维神经网络层;
所述P维神经网络层连接至第一平均数层和第一方差层,所述第一平均数层和第一方差层均为P维神经网络层;所述第一平均数层用于估算正态分布的平均数μRNA;所述第一方差层用于估算正态分布的方差参数σRNA
将第一平均数层和第一方差层均连接至第一正态分布层,以把输出的转录组数据转化为正态分布形式,所述正态分布层为P维神经网络层;
采用第一解码器还原降维后的单细胞转录组数据,具体包括:
首先通过一个P维神经网络层连接所述第一正态分布层以解码转录组特征;然后通过与P维神经网络层相连的另外两个P维神经网络层还原第一平均数层和第一方差层压缩的特征;最后再通过一个相连接的P维神经网络层还原降维后的单细胞转录组数据。
优选的,把输出的转录组数据转化为正态分布形式,具体如下:
Figure BDA0003364684680000041
其中,zRNA表示转录组正态分布数据,用于表征细胞在转录组水平的异质性;N(0,1)表示标准正态分布。
优选的,采用第二编码器对蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性,具体包括:
接收预处理后的蛋白质数据,输入到一个Q维神经网络层;
所述Q维神经网络层连接至第二平均数层和第二方差层,所述第二平均数层和第二方差层均为Q维神经网络层;所述第二平均数层用于估算正态分布的平均数μProtein;所述第二方差层用于估算正态分布的方差参数σProtein
将第二平均数层和第二方差层均连接至第二正态分布层,以把输出的蛋白质数据转化为正态分布形式,所述正态分布层为Q维神经网络层;
采用第二解码器还原蛋白质数据,具体包括:
首先通过一个Q维神经网络层连接所述第二正态分布层以解码蛋白质特征;然后通过与Q维神经网络层相连的另外两个Q维神经网络层还原第二平均数层和第二方差层压缩的特征;最后再通过一个相连接的Q维神经网络层还原蛋白质数据。
优选的,把输出的蛋白质数据转化为正态分布形式,具体如下:
Figure BDA0003364684680000042
其中,zProtein表示蛋白质正态分布数据,用于表征细胞在蛋白质水平的异质性;N(0,1)表示标准正态分布。
优选的,采用混合编码器混合编码后的转录组信息和蛋白质信息,以表征多模态组学水平的细胞异质性,具体包括:
同时接收所述第一平均数层和所述第二平均数层的输出,输入至多模态组学平均数层,以混合转录组平均数和蛋白质平均数获得多模态组学平均数μmultiomic;所述多模态组学平均数层为M维神经网络层,M默认被设置为(P+Q)/2取整;
同时接收第一方差层和第二方差层的输出,输入至多模态组学方差层,以混合转录组方差和蛋白质方差获得多模态组学方差σmultiomic;所述多模态组学平均数层为M维神经网络层;
将多模态组学平均数层和多模态组学方差层均连接至多模态组学正态分布层,以用正态分布形式的特征数据表征多模态组学水平的细胞异质性;所述多模态组学正态分布层为M维神经网络层;
采用混合解码器还原转录组特征信息和蛋白质特征信息,具体包括:
通过与多模态组学正态分布层直接相连的转录组信息层和蛋白质信息层重构转录组信息和蛋白质信息;转录组信息层和蛋白质信息层的神经元个数皆为M,它们的输出分别记为Z′RNA和Z′Protein;使用均方误差MSE约束z′RNA和z′Protein使z′RNA和z′Protein分别与转录组正态分布数据zRNA和蛋白质正态分布数据zProtein接近,当MSE(zRNA,z′RNA)和MSE(zProtein,z′Protein)取最小值时说明多模态组学的混合解码器重构回了转录组信息和蛋白质信息。
优选的,用正态分布形式的特征数据表征多模态组学水平的细胞异质性,具体如下:
Figure BDA0003364684680000051
其中,zmultiomic表示多模态组学正态分布数据,用于表征多模态组学水平的细胞异质性;N(0,1)表示标准正态分布。
另一方面,一种处理单细胞多模态组学数据的深度学习系统,包括:
数据标准化预处理模块,用于对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理;
降维模块,用于对归一化处理后的转录组数据进行降维;
转录组数据分析模块,包括第一编码器和第一解码器;所述第一编码器用于对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性;所述第一解码器用于还原降维后的单细胞转录组数据;
升维模块,用于采用降维模块的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据;
蛋白质数据分析模块,包括第二编码器和第二解码器;所述第二编码器用于对归一化处理后的蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性;所述第二解码器用于还原蛋白质数据;
多模态组学数据整合模块,包括混合编码器和混合解码器,所述混合编码器用于混合转录组和蛋白质信息,以表征多模态组学水平的细胞异质性;所述混合解码器用于还原转录组和蛋白质特征信息。
本发明的有益效果如下:
(1)本发明通过数据标准化预处理、降维处理、转录组数据分析、升维处理、蛋白质数据分析和多模态组学数据整合,能够很好地整合单细胞转录组数据和细胞表面蛋白质数据,并能多角度的描绘细胞间的异质性,从而更全面和系统地描绘细胞状态和命运;
(2)本发明的数据标准化预处理、降维处理和升维处理,能够实现对单细胞转录组数据的插补,修复单细胞转录组数据因实验技术问题,而导致缺失的表达量值,从而降低数据噪音。
以下结合附图及实施例对本发明作进一步详细说明,但本发明的一种处理单细胞多模态组学数据的深度学习方法及系统不局限于实施例。
附图说明
图1为本发明实施例的处理单细胞多模态组学数据的深度学习方法的处理流程图;
图2为本发明实施例的处理单细胞多模态组学数据的深度学习系统的工作流程;
图3为本发明实施例的第一编码器和第一解码器的结构图;
图4为本发明实施例的第二编码器和第二解码器的结构图;
图5为本发明实施例的混合编码器和混合解码器的结构图;
图6为本发明在CBMC数据集的应用实例上产生的转录组(RNA)水平分析结果;
图7为本发明在CBMC数据集的应用实例上产生的蛋白质(ADT)水平分析结果;
图8为本发明在CBMC数据集的应用实例上产生的多模态组学水平分析结果;
图9为本发明在CBMC数据集的应用实例上的小鼠细胞簇中Hmga2基因表达的小提琴图;
图10为本发明在CBMC数据集的应用实例上的NK细胞簇中CD56(上)和CD16(下)ADT丰度的小提琴图;
图11为本发明在CBMC数据集的应用实例上的多模态组学水平分析结果一;其中(a)为多模态组学水平得到的NK细胞和Monocyte的聚类结果,(b)中箱线图显示了CD56和CD16的NK细胞标志物、CD11c和CD14的Monocyte标志物的不同ADT丰度,以及六个不同簇中的增殖标记CD45RA;
图12为本发明在CBMC数据集的应用实例上的多模态组学水平分析结果二;其中(a)为CD45RA蛋白丰度的分布图;(b)为CD45RA蛋白在转录组水平分析结果中的CD4+MemoryT细胞和CD4+Naive T细胞内的密度分布;(c)为CD45RA蛋白在ADT水平分析结果中的CD4+Memory T细胞和CD4+Naive T细胞内的密度分布;(d)为CD45RA蛋白在多模态组水平分析结果中的CD4+Memory T细胞和CD4+Naive T细胞内的密度分布。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。应当说明的是,此处所述具体实施例仅用于方便说明和解释本发明的具体实施方式,并不用于限定本发明。
为了使本发明的目的、技术方案更加清晰明了,以下结合附图以及案例,对本发明进行进一步说明。应当理解,此处所描述的案例仅用于解释本发明,并不用于限定本发明。
参见图1所示,本发明一种处理单细胞多模态组学数据的深度学习方法,其特征在于,包括:
S101,数据预处理,对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理;
S102,降维处理,对归一化处理后的转录组数据进行降维;
S103,转录组数据分析,采用第一编码器对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性;采用第一解码器还原降维后的单细胞转录组数据;
S104,升维处理,采用降维处理的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据;
S105,蛋白质数据分析,采用第二编码器对归一化处理后的蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性;采用第二解码器还原蛋白质数据;
S106,多模态组学数据整合,采用混合编码器混合编码后的转录组信息和蛋白质信息,以表征多模态组学水平的细胞异质性;采用混合解码器还原转录组特征信息和蛋白质特征信息。
进一步的,参见图2所示,本发明的处理单细胞多模态组学数据的深度学习系统,包括数据标准化预处理模块、降维模块、转录组数据分析模块、升维模块、蛋白质数据分析模块和多模态组学数据整合模块,以整合转录组(RNA)数据和蛋白质(ADT)数据。
具体的,所述数据标准化预处理模块用于对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理。
本实施例中,采用如下方法对转录组数据进行归一化:
Figure BDA0003364684680000081
其中,
Figure BDA0003364684680000082
是标准化之后的转录谱,Uij代表转录谱中第i个细胞的第j个基因的表达量。
对多组学测序中同时捕获的蛋白质数据做如下的变换:
Figure BDA0003364684680000083
其中,
Figure BDA0003364684680000084
是标准化处理之后的所有细胞的蛋白质数据,Aik代表第i个细胞的第k个蛋白质(ADT)丰度。
具体的,所述降维模块,用于对归一化处理后的转录组数据进行降维。
对经过标准化处理后的数据,使用主成分分析(PCA)对转录组数据进行降维:
XPCA_RNA=PCA(XRNA)
使其维度下降到与蛋白质数据维度接近,能消除转录组数据与蛋白质数据维度差异。
本实施例中,所述转录组数据分析模块由第一编码器和第一解码器两部分组成,它的结构如图3所示。转录组数据分析模块的第一编码器的主要功能是提取转录组数据特征,它的工作流程如下:首先,使用主成分分析算法将转录组数据降维至P维。通常情况下选择P=32即可。维度参数P越大包含的转录组特征信息越多,但这也会增加下游分析的计算时间与内存开销。接着,P维的转录组数据被输入到一个P维全连接神经网络层。然后,该神经网络层连接两个P维神经网络层,它们分别被称为第一平均数层和第一方差层。根据变分自编码器的设计原理,这两个神经网络层分别用于估算正态分布的平均数μRNA和方差参数σRNA。最后,这两个神经网络层共同连接至P维神经网络层,即第一正态分布层,并根据下式把输出的转录组数据转化为正态分布形式。
Figure BDA0003364684680000085
其中,N(0,1)表示标准正态分布。
这个正态分布数据表示细胞在转录组水平的异质性,它可用于细胞聚类、可视化、差异基因分析、细胞发育轨迹推断等单细胞下游分析任务。
转录组数据分析模块的第一解码器负责还原降维后的单细胞转录组数据,本发明中第一解码器为一个三层网络结构。第一解码器与第一编码器的网络结构是对称的。第一解码器的第一层是一个P维全连接神经网络层。其中P的维数与编码器的P维全连接神经网络一致,它的主要作用是解码转录组特征。第二层由两个P维的神经网络层构成,它们用于还原第一编码器中第一平均数层和第一方差层压缩的特征。第三层网络的维度与编码器的输入层相同。第一解码器输出的数据经过主成分分析的逆操作(升维模块)可以还原为单细胞转录组数据。
本实施例中,蛋白质数据由蛋白质数据分析模块处理,它与转录组数据分析模块类似。蛋白质数据分析模块由第二编码器和第二解码器两部分组成,它的网络结构如图4所示。
蛋白质数据分析模块的第二编码器负责提取蛋白质数据特征。首先,将标准化预处理后的蛋白质数据输入到一个Q维全连接神经网络层,参数Q与输入的数据的维数一致。然后,该神经网络层连接两个Q维神经网络层,它们分别被称为第二平均数成和第二方差层。根据变分自编码器的设计原理,这两个神经网络层分别用于估算正态分布的平均数μProtein和方差参数σProtein。最后,这两个神经网络层共同连接至一个Q维神经网络层,即第二正态分布层,它根据下式把数据转化为正态分布形式:
Figure BDA0003364684680000091
其中,N(0,1)是标准正态分布。
这个正态分布表示细胞在蛋白质水平的异质性,它可用于细胞聚类、可视化、差异基因分析、细胞发育轨迹推断等单细胞下游分析任务。
蛋白质数据分析模块的第二解码器负责还原蛋白质数据,本发明中第二解码器为一个三层网络结构。第二解码器与第二编码器的网络结构是对称的。第二解码器的第一层是Q维神经网络层。其中Q的维数与编码器的Q维全连接神经网络一致,它的主要作用是解码蛋白质特征。第二层由两个Q维的分支神经网络层构成,它们用于还原第二编码器中估算平均数和方差的网络层压缩的特征。第三层网络的维度与第二编码器的输入层相同,它的输出即为解码后的蛋白质数据。
本实施例中,多模态组学深度整合模块主要作用是混合转录组和蛋白质信息,进而得到多组学水平的细胞异质性信息。多模态组学深度整合模块类似于自编码器,它由混合编码器和混合解码器组成,它的网络结构如图5所示。
多模态组学深度整合模块的混合编码器依赖于转录组数据分析模块和蛋白质数据分析模块。它的目标是混合转录组和蛋白质信息以获得多模态组学信息。一方面,转录组数据分析模块的第一平均数层和蛋白质数据分析模块的第二平均数层的输出同时输入至一个M维神经网络层,该神经网络层的作用是混合转录组平均数和蛋白质平均数获得多模态组学平均数μmultiomic。维度参数M,默认被设置为
Figure BDA0003364684680000092
取整。另一方面,转录组数据分析模块的第一方差层和蛋白质数据分析模块的第二方差层的输出同时输入至另一个M维神经网络层,该神经网络层的作用是混合转录组方差和蛋白质方差获得多模态组学方差σmultiomic。接着,多模态组学平均数μmultiomic和多模态组学方差σmultiomic根据
Figure BDA0003364684680000101
被转化为正态分布形式的特征数据,其中N(0,1)是标准正态分布。
这个正态分布形式的特征数据即为多模态组学水平的细胞异质性,它可用于细胞聚类、可视化、差异基因分析、细胞发育轨迹推断等单细胞下游分析任务。
多模态组学深度整合模块的混合解码器的作用是还原转录组和蛋白质特征信息。多模态组学的混合解码器与正态分布层直接相连,它仅由转录组信息层和蛋白质信息层构成。这两个神经网络层的神经元个数皆为M,它们的输出分别记为Z′RNA和Z′Protein。在本发明中,我们使用均方误差(MSE)约束z′RNA和z′Protein使它们分别与zRNA和zProtein接近。当MSE(zRNA,z′RNA)和MSE(zProtein,z′Protein)取最小值时说明多模态组学的混合解码器重构回了转录组信息和蛋白质信息。
如下对来自CITE-seq的人类脐带血单个核细胞(CBMC)数据集进行处理分析。CBMC数据集包含8617个细胞,每个细胞检测了36281种基因并同时测量了11种细胞表面蛋白质(ADT)的丰度。值得注意的是CBMC数据集中还混合了少量的小鼠细胞,这些小鼠细胞可以用来检验分析模型的灵敏度。
具体处理过程如下:
(1)模型构建
分析流程主要包括数据标准化预处理模块、主成分分析转换模块(包括降维模块和升维模块)、转录组与蛋白质数据分析模块、多模组组学数据分析模块。
(2)数据标准化预处理模块
CBMC数据集包含单细胞转录组和ADT。每一个细胞视为一条数据,它同时包含细胞内所有基因的表达量即转录组数据,和11种细胞表面蛋白的表达量即ADT数据。首先对转录组数据做加1对数变换:
Figure BDA0003364684680000102
上式中,
Figure BDA0003364684680000103
代表标准化预处理后的转录组数据,Uij代表第i个细胞的第j个基因的表达量。在这个案例中i最大值为细胞数即8617,j最大值为基因种类数即36281。
然后对蛋白质数据做加1对数变换:
Figure BDA0003364684680000104
上式中,
Figure BDA0003364684680000111
代表标准化处理后的蛋白质(ADT)数据,Aik代表第i个细胞的第k个基因的表达量。在这个案例中,i最大值为细胞数即8617,k最大值为蛋白质(ADT)种类数即11。
(3)主成分分析转换模块
转录组数据经处理后输入主成分分析转化模块,其主要作用是去除转录组数据的稀疏性。在这个案例中蛋白质数据仅有11维,而转录组数据的维度超过3万,主成分分析降维后的转录组数据为1000维,足以概括转录组数据的异质性。由转录组解码器输出的1000维数据,经过主成分分析的逆操作,将数据重新升维至36281维,也使所有的基因数据都得到插补处理和降噪。
(4)转录组数据分析模块和蛋白质数据分析模块
本发明提出的分析方法,能用来分别分析单独的转录组数据或蛋白质数据。处理后的转录组和蛋白质数据分别被输入两个变分自编码器进行降维,根据经验,编码器网络中的神经网络层维度数设置为10即可表征单细胞转录组数据和单细胞蛋白质数据,用户可根据实际需求调整编码器神经网络层的维度数。降维后的数据可用于细胞分群等单细胞下游分析任务。
参见附图6和7分别展示了转录组和蛋白质水平的细胞分群结果,通过对比可以发现尽管大多数细胞注释结果很相似,但转录组和蛋白质水平的细胞注释结果在细胞亚型上有差别。参见附图9所示,转录组水平可以识别出CBMC数据集中的小鼠细胞亚型,而蛋白质水平无法识别出这些小鼠细胞。参见附图10所示,在蛋白质水平识别出了三种NK细胞亚型(CD56bright NK、CD8-NK、CD8+NK),而转录组水平没有识别出这些NK细胞亚型。
(5)多模态组学数据整合模块
本发明提出的分析方法,不仅能用来分析单独的转录组数据或蛋白质数据,也能从整合的角度分析整合的多模态组学数据。转录组和蛋白质变分自编码器中的平均数参数经过多模态组学混合深度模块混合后,可以得到多模态组学水平的单细胞数据表示,它表示细胞在多模态组学水平的异质性,可直接用于细胞分群等单细胞下游分析任务。多模态组学兼顾了转录组和蛋白质模态的优势,多模态组学水平的细胞注释与独立模态的细胞注释很相似,并且能够成功识别独立模态水平特异性注释的细胞亚型。
参见附图8和9所示,多模态组学水平成功识别出了只有转录组水平才能识别出的小鼠细胞的两个亚型。参见附图8和10所示,多模态组学水平成功的识别出了只有蛋白质水平才能识别出的NK细胞的三个亚型。
多模态组学识别出的其他细胞亚型也与独立模态识别出的细胞亚型有很好的一致性。参见图11所示,多模态组学也成功识别出了Monocyte的三种亚型。另外,本发明同时给出的三种水平的细胞异质性,可以用相同的标准进行比较。参见图12所示,三种水平都识别出了CBMC数据集中CD4+T细胞的两亚型即CD4+Memory T和CD4+
Figure BDA0003364684680000121
T,它们可以用CD45RA进行区分。转录组水平的分析结果无法区分出这两种CD4+T细胞亚型。蛋白质水平的分析结果可以区分出这两种细胞亚型。多模态组学水平的分析结果也可以区分出这两种细胞亚型。上述例子都说明,整合后产生的多模态组学数据能够很好的兼顾独立模态数据的特征,在下游单细胞分析中具有很好的鲁棒性。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进与变换,而所有这些改进与变化都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种处理单细胞多模态组学数据的深度学习方法,其特征在于,包括:
数据标准化预处理,对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理;
降维处理,对归一化处理后的转录组数据进行降维;
转录组数据分析,采用第一编码器对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性;采用第一解码器还原降维后的单细胞转录组数据;
升维处理,采用降维处理的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据;
蛋白质数据分析,采用第二编码器对归一化处理后的蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性;采用第二解码器还原蛋白质数据;
多模态组学数据整合,采用混合编码器混合编码后的转录组信息和蛋白质信息,以表征多模态组学水平的细胞异质性;采用混合解码器还原转录组特征信息和蛋白质特征信息。
2.根据权利要求1所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,对转录组数据进行归一化,表示如下:
Figure FDA0003364684670000011
其中,
Figure FDA0003364684670000012
表示标准化之后的转录谱;Uij表示转录谱中第i个细胞的第j个基因的表达量;
对多组学测序中同时捕获的蛋白质数据进行归一化,表示如下:
Figure FDA0003364684670000013
其中,
Figure FDA0003364684670000014
表示标准化处理之后的所有细胞的蛋白质数据;Aik表示第i个细胞的第k个蛋白质丰度。
3.根据权利要求1所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,对归一化处理后的转录组数据进行降维的方法包括主成分分析法。
4.根据权利要求1所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,采用第一编码器对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性,具体包括:
接收降维处理后的P维转录组数据,输入到一个P维神经网络层;
所述P维神经网络层连接至第一平均数层和第一方差层,所述第一平均数层和第一方差层均为P维神经网络层;所述第一平均数层用于估算正态分布的平均数μRNA;所述第一方差层用于估算正态分布的方差参数σRNA
将第一平均数层和第一方差层均连接至第一正态分布层,以把输出的转录组数据转化为正态分布形式,所述正态分布层为P维神经网络层;
采用第一解码器还原降维后的单细胞转录组数据,具体包括:
首先通过一个P维神经网络层连接所述第一正态分布层以解码转录组特征;然后通过与P维神经网络层相连的另外两个P维神经网络层还原第一平均数层和第一方差层压缩的特征;最后再通过一个相连接的P维神经网络层还原降维后的单细胞转录组数据。
5.根据权利要求4所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,把输出的转录组数据转化为正态分布形式,具体如下:
Figure FDA0003364684670000021
其中,zRNA表示转录组正态分布数据,用于表征细胞在转录组水平的异质性;N(0,1)表示标准正态分布。
6.根据权利要求4所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,采用第二编码器对蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性,具体包括:
接收预处理后的蛋白质数据,输入到一个Q维神经网络层;
所述Q维神经网络层连接至第二平均数层和第二方差层,所述第二平均数层和第二方差层均为Q维神经网络层;所述第二平均数层用于估算正态分布的平均数μProtein;所述第二方差层用于估算正态分布的方差参数σProtein
将第二平均数层和第二方差层均连接至第二正态分布层,以把输出的蛋白质数据转化为正态分布形式,所述正态分布层为Q维神经网络层;
采用第二解码器还原蛋白质数据,具体包括:
首先通过一个Q维神经网络层连接所述第二正态分布层以解码蛋白质特征;然后通过与Q维神经网络层相连的另外两个Q维神经网络层还原第二平均数层和第二方差层压缩的特征;最后再通过一个相连接的Q维神经网络层还原蛋白质数据。
7.根据权利要求6所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,把输出的蛋白质数据转化为正态分布形式,具体如下:
Figure FDA0003364684670000022
其中,zProtein表示蛋白质正态分布数据,用于表征细胞在蛋白质水平的异质性;N(0,1)表示标准正态分布。
8.根据权利要求6所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,采用混合编码器混合编码后的转录组信息和蛋白质信息,以表征多模态组学水平的细胞异质性,具体包括:
同时接收所述第一平均数层和所述第二平均数层的输出,输入至多模态组学平均数层,以混合转录组平均数和蛋白质平均数获得多模态组学平均数μmultiomic;所述多模态组学平均数层为M维神经网络层,M默认被设置为(P+Q)/2取整;
同时接收第一方差层和第二方差层的输出,输入至多模态组学方差层,以混合转录组方差和蛋白质方差获得多模态组学方差σmultiomic;所述多模态组学平均数层为M维神经网络层;
将多模态组学平均数层和多模态组学方差层均连接至多模态组学正态分布层,以用正态分布形式的特征数据表征多模态组学水平的细胞异质性;所述多模态组学正态分布层为M维神经网络层;
采用混合解码器还原转录组特征信息和蛋白质特征信息,具体包括:
通过与多模态组学正态分布层直接相连的转录组信息层和蛋白质信息层重构转录组信息和蛋白质信息;转录组信息层和蛋白质信息层的神经元个数皆为M,它们的输出分别记为Z′RNA和Z′Protein;使用均方误差MSE约束z′RNA和z′Protein使z′RNA和z′Protein分别与转录组正态分布数据zRNA和蛋白质正态分布数据zProtein接近,当MSE(zRNA,z′RNA)和MSE(zProtein,z′Protein)取最小值时说明多模态组学的混合解码器重构回了转录组信息和蛋白质信息。
9.根据权利要求8所述的处理单细胞多模态组学数据的深度学习方法,其特征在于,用正态分布形式的特征数据表征多模态组学水平的细胞异质性,具体如下:
Figure FDA0003364684670000031
其中,zmultiomic表示多模态组学正态分布数据,用于表征多模态组学水平的细胞异质性;N(0,1)表示标准正态分布。
10.一种处理单细胞多模态组学数据的深度学习系统,其特征在于,包括:
数据标准化预处理模块,用于对多组学测序中捕获的转录组数据和蛋白质数据分别进行归一化处理;
降维模块,用于对归一化处理后的转录组数据进行降维;
转录组数据分析模块,包括第一编码器和第一解码器;所述第一编码器用于对降维后的转录组数据进行特征提取,以表征细胞在转录组水平的异质性;所述第一解码器用于还原降维后的单细胞转录组数据;
升维模块,用于采用降维模块的逆操作将所述第一解码器输出的数据还原为单细胞转录组数据;
蛋白质数据分析模块,包括第二编码器和第二解码器;所述第二编码器用于对归一化处理后的蛋白质数据进行特征提取,以表征细胞在蛋白质水平的异质性;所述第二解码器用于还原蛋白质数据;
多模态组学数据整合模块,包括混合编码器和混合解码器,所述混合编码器用于混合转录组和蛋白质信息,以表征多模态组学水平的细胞异质性;所述混合解码器用于还原转录组和蛋白质特征信息。
CN202111392177.7A 2021-11-19 2021-11-19 一种处理单细胞多模态组学数据的深度学习方法及系统 Active CN114187969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111392177.7A CN114187969B (zh) 2021-11-19 2021-11-19 一种处理单细胞多模态组学数据的深度学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111392177.7A CN114187969B (zh) 2021-11-19 2021-11-19 一种处理单细胞多模态组学数据的深度学习方法及系统

Publications (2)

Publication Number Publication Date
CN114187969A true CN114187969A (zh) 2022-03-15
CN114187969B CN114187969B (zh) 2024-08-02

Family

ID=80541209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111392177.7A Active CN114187969B (zh) 2021-11-19 2021-11-19 一种处理单细胞多模态组学数据的深度学习方法及系统

Country Status (1)

Country Link
CN (1) CN114187969B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974421A (zh) * 2022-05-20 2022-08-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN115101130A (zh) * 2022-06-30 2022-09-23 山东大学 一种基于网络对抗学习的单细胞数据插补方法及系统
CN115938470A (zh) * 2023-01-04 2023-04-07 抖音视界有限公司 蛋白质特征预处理方法、装置、介质及设备
CN115985388A (zh) * 2022-12-27 2023-04-18 上海人工智能创新中心 基于预处理降噪和生物中心法则的多组学集成方法和系统
CN117854599A (zh) * 2024-03-07 2024-04-09 北京大学 多模态细胞数据的批次效应处理方法、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544517A (zh) * 2018-11-06 2019-03-29 中山大学附属第医院 基于深度学习的多模态超声组学分析方法及系统
CN110577983A (zh) * 2019-09-29 2019-12-17 中国科学院苏州生物医学工程技术研究所 高通量单细胞转录组与基因突变整合分析方法
GB202104204D0 (en) * 2021-02-02 2021-05-12 Univ Beijing Method for performimg quality control on protein biosynthesis system by trna proteomics
CN112884010A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于自编码器的多模态自适应融合深度聚类模型及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109544517A (zh) * 2018-11-06 2019-03-29 中山大学附属第医院 基于深度学习的多模态超声组学分析方法及系统
CN110577983A (zh) * 2019-09-29 2019-12-17 中国科学院苏州生物医学工程技术研究所 高通量单细胞转录组与基因突变整合分析方法
CN112884010A (zh) * 2021-01-25 2021-06-01 浙江师范大学 基于自编码器的多模态自适应融合深度聚类模型及方法
GB202104204D0 (en) * 2021-02-02 2021-05-12 Univ Beijing Method for performimg quality control on protein biosynthesis system by trna proteomics

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王权;王铸;张振;李晨;张萌萌;叶颖江;王杉;姜可伟;: "单细胞测序的技术概述", 中国医药导刊, no. 07, 15 July 2020 (2020-07-15), pages 4 - 10 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114974421A (zh) * 2022-05-20 2022-08-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN114974421B (zh) * 2022-05-20 2024-04-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN115101130A (zh) * 2022-06-30 2022-09-23 山东大学 一种基于网络对抗学习的单细胞数据插补方法及系统
CN115985388A (zh) * 2022-12-27 2023-04-18 上海人工智能创新中心 基于预处理降噪和生物中心法则的多组学集成方法和系统
CN115985388B (zh) * 2022-12-27 2024-05-28 上海人工智能创新中心 基于预处理降噪和生物中心法则的多组学集成方法和系统
CN115938470A (zh) * 2023-01-04 2023-04-07 抖音视界有限公司 蛋白质特征预处理方法、装置、介质及设备
CN115938470B (zh) * 2023-01-04 2024-01-19 抖音视界有限公司 蛋白质特征预处理方法、装置、介质及设备
CN117854599A (zh) * 2024-03-07 2024-04-09 北京大学 多模态细胞数据的批次效应处理方法、设备及存储介质
CN117854599B (zh) * 2024-03-07 2024-05-28 北京大学 多模态细胞数据的批次效应处理方法、设备及存储介质

Also Published As

Publication number Publication date
CN114187969B (zh) 2024-08-02

Similar Documents

Publication Publication Date Title
CN114187969A (zh) 一种处理单细胞多模态组学数据的深度学习方法及系统
Maji et al. Rough-fuzzy clustering for grouping functionally similar genes from microarray data
US20230222311A1 (en) Generating machine learning models using genetic data
CN111564183B (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
EP2354988B1 (en) Gene clustering program, gene clustering method, and gene cluster analyzing device
Albergante et al. Estimating the effective dimension of large biological datasets using Fisher separability analysis
CN115240772B (zh) 一种基于图神经网络的解析单细胞通路活性的方法
CN112908414B (zh) 一种大规模单细胞分型方法、系统及存储介质
Golugula et al. Evaluating feature selection strategies for high dimensional, small sample size datasets
CN110191964B (zh) 确定生物样本中预定来源的游离核酸比例的方法及装置
CN115346602A (zh) 数据分析方法和装置
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
KR20140090296A (ko) 유전 정보를 분석하는 방법 및 장치
Noble et al. Integrating information for protein function prediction
CN117158997A (zh) 一种基于深度学习的癫痫脑电信号分类模型的建立方法、分类方法
Li et al. An empirical Bayes approach for multiple tissue eQTL analysis
CN116842996A (zh) 一种基于深度压缩感知的空间转录组方法及装置
Gong et al. Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism
CN107330512B (zh) 预测蛋白质序列的远同源性关系的系统及方法
Syafiandini et al. Cancer subtype identification using deep learning approach
CN114999661A (zh) 皮肤癌识别模型的构建方法、皮肤癌识别装置、电子设备
Maitra et al. Unsupervised neural network for single cell Multi-omics INTegration (UMINT): an application to health and disease
CN114861940A (zh) 预测植物lncRNA中sORFs的贝叶斯优化集成学习方法
KR102225231B1 (ko) 엑소좀 miRNA를 기준으로 암 환자를 판별하는 방법 및 장치
CN117877590B (zh) 基于测序数据的细胞聚类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant