CN116629123A

CN116629123A - 基于配对的单细胞多组学数据整合方法及系统

Info

Publication number: CN116629123A
Application number: CN202310601945.8A
Authority: CN
Inventors: 刘健; 闫乘玮; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-08-22

Abstract

本发明属于单细胞多组学分析领域，提供了一种基于配对的单细胞多组学数据整合方法及系统，包括获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵；基于不同组学的表达矩阵，利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合，得到整合后的单细胞多组学数据；在训练阶段基于不同组学的表达矩阵，利用不同的变分自编码器生成不同的细胞表达矩阵，该数据将有助于得到更好的预先训练好的孪生神经网络模型。本发明进行配对细胞联合嵌入时，消除了不同批次数据的批次效应问题，且保护了大量生物学信息，使得在低纬空间下的细胞类型分布更加明显，并保持了高水平的细胞对齐关系。

Description

基于配对的单细胞多组学数据整合方法及系统

技术领域

本发明属于单细胞多组学分析技术领域，具体涉及一种基于配对的单细胞多组学数据整合方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

近年来，单细胞多组学测序技术是指在同一个细胞上进行多个组学测量的技术，随着该技术的不断发展和完善，其克服了单一组学可能无法精确解释细胞状态以及异质性的问题，提供了在细胞层面更精细的分子分析，也成为了了解生物体的细胞功能和探究生物体的调控机理的数据基础。

现有的许多机器学习方法都在尝试通过联合嵌入的方式充分地整合多组学数据，但其大多都是无监督学习。发明人发现这类方法虽然可以解决更广泛的多组学联合嵌入问题，但是对于配对的多组学数据往往无法做到更好，因为其没有利用细胞标签的对应关系。而随着测序技术的不断发展，配对的单细胞多组学数据也会越来越多，之前的方法对于处理该类数据上所发挥的效果是有限的，其针对细胞对齐效果、去除批次效应效果和根据细胞类型分群效果的综合表现一般。因此，开发一种专注于处理配对的单细胞多组学数据的整合方法以解决上述问题是必要的。

发明内容

为了解决上述问题，本发明提出了一种基于配对的单细胞多组学数据整合方法及系统，本发明通过将单细胞多组学数据联合嵌入在同一特征空间，同时尽可能地消除了数据的批次效应问题，并保护了大量生物学信息。从而为多组学的下游分析提供了数据支持。

根据一些实施例，本发明的第一方案提供了一种基于配对的单细胞多组学数据整合方法，采用如下技术方案：

基于配对的单细胞多组学数据整合方法，包括：

获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵；

基于不同组学的表达矩阵，利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合，得到整合后的单细胞多组学数据；

其中，伪孪生神经网络模型的训练过程，具体为：

对不同组学的表达矩阵，利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵；

利用伪孪生神经网络模型，将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下，得到整合后的单细胞多组学数据；

在嵌入维度计算分类损失和三重损失以不断优化伪孪生神经网络模型，得到训练好的伪孪生神经网络模型。

进一步地，所述获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵，具体为：

获取配对的单细胞多组学数据；

过滤掉不同组学的细胞中线粒体基因含量高、细胞计数深度浅以及基因表达数据低的细胞；

得到不同组学的表达矩阵。

进一步地，所述对不同组学的表达矩阵，利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵，具体为：

将一组学的表达矩阵进行第一次编码并映射，得到一次编码数据；

对一次编码数据同时进行两种不同的第二次编码，得到两个二次编码数据；

基于两个二次编码数据，通过重参数化的方式采样得到隐变量；

对隐变量进行两次解码，得到细胞表达矩阵。

进一步地，所述不同组学的表达矩阵对应不同参数的训练好的变分自编码器；

所述变分自编码器的结构相同，包括由一个全连接层组成的第一编码器，第一隐藏层，由两个全连接层组成的第二编码器，由一个全连接层组成的第一解码器，第二隐藏层，由一个全连接层组成的第二解码器。

进一步地，所述利用伪孪生神经网络模型，将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下，得到整合后的单细胞多组学数据，包括：

基于不同组学的表达矩阵和细胞表达矩阵，构建不同组学的输入三元组；

利用伪孪生神经网络模型，将不同维度的两两组学的输入三元组缩放到同一维度空间下；

通过公有的嵌入单元将同一维度空间下的编码结果再嵌入到需要的公共低维空间，得到整合后的单细胞多组学数据；

在输入三元组对应的细胞类型可知的情况下，利用一个由全连接层组成的分类器在该维度进行细胞类型的分类以学习细胞类型的特征。

进一步地，所述基于不同组学的表达矩阵和细胞表达矩阵，构建不同组学的输入三元组，具体为：

锚细胞选取第一组学中任意行的行表达矩阵；

则正例细胞选取与锚细胞行标签一一对应的第二组学中的行表达矩阵；

而负例细胞选取与锚细胞行标签保持完全不同的第二组学中的行表达矩阵；

基于锚细胞、正例细胞以及负例细胞，构成不同组学的输入三元组。

进一步地，所述伪孪生神经网络模型的结构，包括两个独立的编码器分别处理不同的两个组学数据，公有的嵌入单元以及一个由全连接层组成的分类器。

根据一些实施例，本发明的第二方案提供了一种基于配对的单细胞多组学数据整合系统，采用如下技术方案：

基于配对的单细胞多组学数据整合系统，包括：

数据获取模块，被配置为获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵；

数据整合模块，被配置为基于不同组学的表达矩阵，利用预先训练好的伪孪生神经网络模型将不同组学的表达矩阵嵌入在同一维度空间下进行数据整合，得到整合后的单细胞多组学数据；

其中，伪孪生神经网络模型的训练过程，具体为：

根据一些实施例，本发明的第三方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一个方面所述的基于配对的单细胞多组学数据整合方法中的步骤。

根据一些实施例，本发明的第四方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的基于配对的单细胞多组学数据整合方法中的步骤。

与现有技术相比，本发明的有益效果为：

本发明使得配对的单细胞多组学可以嵌入在同一特征空间下，并且尽可能地消除了原本数据中的批次效应；保留了原本配对单细胞多组学数据的细胞一一对应关系，使得在嵌入维度上，有同一细胞标签的不同组学的数据尽可能在低维空间下欧氏距离相近，保护了生物学信息，使得在嵌入维度下不同组学的相同细胞类型的细胞可以克服技术和批次效应聚集在一起。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例中一种基于配对的单细胞多组学数据整合方法的流程图；

图2为本发明实施例中变分自编码器的结构图；

图3为本发明实施例中伪孪生神经网络训练流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了一种基于配对的单细胞多组学数据整合方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器和系统，并通过终端和服务器的交互实现。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务器、云通信、中间件服务、域名服务、安全服务CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本实施例中，该方法包括以下步骤：

其中，伪孪生神经网络模型的训练过程，具体为：

本实施例提供了一种对配对的单细胞多组学数据联合嵌入以进行整合的方法，该方法可以应用在各种不同的配对的单细胞多组学数据，其能够通过变分自编码器得到更多样、可参考的高质量的细胞表达矩阵，之后通过利用这些生成的表达矩阵以及原本的表达矩阵构建三元组，得到预先训练好的伪孪生神经网络。通过预先训练好的伪孪生神经网络将不同组学的数据嵌入在同一个维度上，进而为以后的下游分析提供数据支撑。

如图3所示，伪孪生神经网络模型的训练过程和测试过程，包括以下步骤：

步骤1：对配对的单细胞多组学数据集进行质量控制和预处理，包括：

过滤线粒体基因含量高、细胞计数深度浅以及基因表达数量低的细胞，筛选高表达量基因等。

该方法针对不同组学数据有不同的筛选策略。

本实施例中选用了Cite-seq数据集中含有12名健康人类捐赠者的骨髓单核细胞数据，是由90261个细胞和13953个基因以及90261个细胞和134个蛋白组成的配对的多组学数据。首先对数据进行初步筛选，使用s1d1、s1d3、s2d1、s2d4、s2d5、s3d1以及s3d6的数据作为训练集。对于转录组数据，根据线粒体基因含量、细胞计数深度以及基因表达数量进行细胞质控，最终筛选得到44277个细胞，之后通过筛选高表达量基因，得到了含有2175个基因特征的表达矩阵X；对于蛋白组数据，对细胞筛选使用和转录组数据相同的筛选结果，而对蛋白特征不再进行筛除，得到最终的表达矩阵Y。

步骤2：构建变分自编码器，生成高质量、可参考的表达矩阵，包括：

对不同组学构建不同的变分自编码器网络，以学习不同组学数据集的表达矩阵的隐变量分布；

通过对隐变量的随机采样，以获得与输入相近的高质量的细胞组学参考数据。

如图2所示，在本实施例中，对于两个不同的组学分别设计不同的变分自编码器模型，其输入分别为经过步骤1得到的预处理后的单细胞多组学数据，假设两个组学的表达矩阵分别为X和Y。现以表达矩阵X为例，构建其自编码器网络。首先根据表达矩阵X的基因数设计一层由全连接层组成的编码器，将输入映射到隐藏层H_x，之后再构建两个由全连接层组成的编码器得到μ_x和σ_x，最后通过重参数化的方式采样得到隐变量Z_x；接着通过一层由全连接层组成的解码器映射到隐藏层H′_x，最后通过一层由全连接层组成的解码器生成最终的高质量细胞表达矩阵X′。

变分自编码器的公式表示如下：

H_x＝LeakyRelu(XW_H)

μ_x＝H_xW_μ

σ_x＝H_xW_σ

Z_x＝μ_x+εσ_x，ε∈Norm(0，1)

X′＝LeakyRelu(H′_xW_X，)

其中，W_*代表不同全连接层的权重参数，网络中使用LeakyRelu函数作为激活函数，增加了收敛速度也防止了梯度消失。Z_x的嵌入维度选择为32维。

另外一个组学也需设计独立的变分自编码器网络，其公式和嵌入维度与上述类似，但学习的是与之不同的参数。

变分自编码器的损失函数可表示为：

其中，第一项为重构损失，衡量了生成的表达矩阵与输入的表达矩阵的差值，第二项是KL loss，其通过迭代拟合后验概率p(Z_x|X)，以此学习输入X的嵌入Z_x。

步骤3：通过训练好的变分自编码器，生成可参考的、高质量的表达矩阵。具体为：对于每一个组学的表达矩阵，训练好其特有的变分自编码器模型，设置训练的轮数为100次，学习率为10-4，隐变量的维度设置为32，隐藏层的维度对于X表达矩阵设置为1024，对于Y表达矩阵设置为64。训练结束后，得到两个组学的可参考的表达矩阵。

步骤4：构建伪孪生神经网络的输入三元组。

数据来源于经过质控和预处理的表达矩阵以及通过变分自编码器网络生成的可参考的高质量细胞表达矩阵。

当以第一个组学中任意行作为锚细胞得到行表达矩阵X_anchor时，则正例需选取为与锚细胞行标签一一对应的第二个组学中的行表达矩阵Y_positive，而负例选取为与X_anchor细胞行标签保持完全不同的第二个组学中的行表达矩阵Y_negative；同理，以第二个组学中任意行作为锚细胞得到行表达矩阵Y_anchor时，构建思想与上述一致，则正例细胞需选取为与锚细胞行标签一一对应的第一个组学中的行表达矩阵X_positive，而负例选取为与Y_anchor细胞行标签保持完全不同的第一个组学中的行表达矩阵X_negative。

可以理解的是，第一组学和第二组学中每一行数据代表一个细胞的表达矩阵，即行表达矩阵，在选取输入三元组时，以行为单位进行选取。

步骤5：构建伪孪生神经网络，将两个组学嵌入在同一低维空间下，以供后续的下游分析。以学习单细胞多组学的联合嵌入空间，拉近同一细胞标签的不同组学数据在低维空间下的距离。其构建方法如下：

构建两个独立的编码器，其分别对应处理两个不同的组学数据，并将输入数据经过编码器缩放在同一隐藏层维度上。

之后通过一个两个组学共享权重的全连接层作为公有的嵌入单元将编码结果再嵌入到需要的公共低维空间。

获取输入锚和正例的细胞类型，在输入表达矩阵对应的细胞类型可知的情况下，最后再构建一个由全连接层组成的分类器在该维度进行细胞类型的分类以学习细胞类型的特征。

孪生神经网络使用的损失函为：

loss2＝γ×d(a，p)+max(d(a，p)-d(a，n)+margin，0)γ∈(0，1)

loss＝loss1+β×loss2，β∈(0，1)

loss1为交叉熵损失函数，其中，M为细胞类型的总数，X_ic为符号函数，如果细胞i的细胞类型与细胞类型c一致则为1否则为0，p_ic代表细胞i属于细胞类型c的概率。

loss2代表改进后的三重损失函数。其中a代指锚，p代指正例，n代指负例，以上表达矩阵在公共低维空间下的表示。d(a，p)代表锚和正例在嵌入的低维空间下的欧式距离，其余距离同理。margin代表界限值，γ和β代表的是比例系数。

loss2相比原本的三重损失函数加入了损失项d(a，p)，避免了硬截断问题，使得在原本损失函数为0时仍然继续拉近锚和正例的距离。该损失函数保证了拉近不同组学的同一细胞在低维空间下的距离，并远离了不同组学的不同细胞在低维空间下的距离，符合了多组学联合嵌入的假设条件，使得生物状态相近的细胞尽可能聚集在一起。

步骤6：基于训练好的伪孪生神经网络模型，对未涉及的s1d2和s3d7组成的测试集进行联合嵌入。模型的输入需要经过和测试集相同的预处理，即可以得到在低维空间下的转录组和蛋白组的嵌入矩阵。可以理解的是，这里说的转录组和蛋白组的嵌入矩阵就是说转录组和蛋白组经过孪生神经网络后其维度变成一致的了，也就是得到一个公共低维的数据。因为如果不流经孪生神经网络其转录组和蛋白组的表达矩阵维度不一致。低维空间下的转录组和蛋白组嵌入矩阵就是俩个不同组学的数据进行联合嵌入得到的。

通过对转录组和蛋白组进行联合嵌入，消除了原本数据所具有的批次效应，并保证了高水平的细胞对齐关系，与此同时，也使得相同类型的细胞在降维空间下聚集，具有很高的平均轮廓宽度。这样高质量的嵌入矩阵为后续的下游分析提供了数据基础。

本实施例公开了一种整合配对的单细胞多组学数据的方法，涉及到生物信息学中消除数据的批次效应，并进行多组学联合嵌入的相关问题。包括两个关键步骤，使用生成模型创建更多的高质量细胞组学参考数据，以对训练数据进行数据增强；利用改进的三重损失函数训练孪生神经网络进行多组学联合嵌入，完成了消除单细胞多组学数据的批次效应问题，并鼓励拥有相同生物状态的细胞相互靠近。本实施例进行配对细胞联合嵌入时，消除了不同批次数据的批次效应问题，且保护了大量生物学信息，使得在低纬空间下的细胞类型分布更加明显，并保持了高水平的细胞对齐关系。

实施例二

本实施例提供了一种基于配对的单细胞多组学数据整合系统，包括：

其中，伪孪生神经网络模型的训练过程，具体为：

上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于配对的单细胞多组学数据整合方法中的步骤。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于配对的单细胞多组学数据整合方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于配对的单细胞多组学数据整合方法，其特征在于，包括：

其中，伪孪生神经网络模型的训练过程，具体为：

2.如权利要求1所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述获取配对的单细胞多组学数据并进行预处理，得到不同组学的表达矩阵，具体为：

获取配对的单细胞多组学数据；

得到不同组学的表达矩阵。

3.如权利要求1所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述对不同组学的表达矩阵，利用不同的预先训练好的变分自编码器生成不同的细胞表达矩阵，具体为：

对隐变量进行两次解码，得到细胞表达矩阵。

4.如权利要求3所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述不同组学的表达矩阵对应不同参数的训练好的变分自编码器；

5.如权利要求1所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述利用伪孪生神经网络模型，将不同维度的两两组学的细胞表达矩阵和表达矩阵嵌入在同一维度空间下，得到整合后的单细胞多组学数据，包括：

6.如权利要求5所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述基于不同组学的表达矩阵和细胞表达矩阵，构建不同组学的输入三元组，具体为：

锚细胞选取第一组学中任意行的行表达矩阵；

基于输入锚细胞、正例细胞以及负例细胞，构成不同组学的输入三元组。

7.如权利要求5所述的基于配对的单细胞多组学数据整合方法，其特征在于，所述伪孪生神经网络模型的结构，包括两个独立的编码器分别处理不同的两个组学数据，公有的嵌入单元以及一个由全连接层组成的分类器。

8.基于配对的单细胞多组学数据整合系统，其特征在于，包括：

其中，伪孪生神经网络模型的训练过程，具体为：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于配对的单细胞多组学数据整合方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于配对的单细胞多组学数据整合方法中的步骤。