CN115985402B

CN115985402B - 一种基于归一化流理论的跨模态数据迁移方法

Info

Publication number: CN115985402B
Application number: CN202310264757.0A
Authority: CN
Inventors: 邓岳; 刘少华
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-03-20
Filing date: 2023-03-20
Publication date: 2023-09-19
Anticipated expiration: 2043-03-20
Also published as: CN115985402A

Abstract

本发明公开了一种归一化流理论的跨模态数据迁移方法，属于机器学习领域。该方法采用两阶段优化方法，在第一阶段的训练过程中，分别针对每个单细胞数据域单独设计一个基于归一化流的分布估计模块，将指定数据域特有的、复杂的数据分布一一映射到达隐空间中相对简单的数据分布；在第二阶段的训练过程中，针对特定的2个数据域，设计另外一个基于归一化流的模态迁移模块，在不同模态对应的隐空间中实现基于模态特征的单细胞跨模态数据迁移任务。本发明摆脱了常见的单细胞跨模态数据迁移算法需要成对数据进行训练的瓶颈，从而能够适用于多样化的单细胞跨模态数据迁移需求。

Description

一种基于归一化流理论的跨模态数据迁移方法

技术领域

本发明涉及机器学习领域，具体来说涉及跨模态数据迁移领域，更具体地说，涉及一种基于归一化流框架的跨模态数据迁移方法。

背景技术

单细胞技术的发展为从多个不同角度精确表征并分析细胞内的基因调控情况提供了可能，然而，标准单细胞技术也存在显著的局限性，那就是通常每次只能采用一种测量方式（如RNA测序、染色质可及性测量、甲基化观测、蛋白质组学测量等诸多单细胞技术中的某一种）来对给定的细胞进行观测与分析，进而失去了从不同模态、不同的层次来进行单细胞基因调控分析与表征的能力。

多模态分析能够联合分析同一细胞内的多种模态，进而达到获得并分析单细胞内不同阶段、不同层次情况下的单细胞基因调控如何相互作用的关键信息。然而，同时获得同一细胞内的多种模态面临着观测手段不同会互相引入误差、不同层次的生物分子观测存在干扰、同时开展多项观测会引入额外的较大观测误差、联合观测成本高昂等问题与难点。

因此如何获得相对准确的单细胞多模态数据成为一项亟待解决的难题。

发明内容

有鉴于此，本发明提供了一种基于归一化流理论的跨模态数据迁移方法，用于解决背景技术中存在的技术问题。

为了实现上述目的，本发明采用如下技术方案：

一种基于归一化流理论的跨模态数据迁移方法，包括以下步骤：

获取单细胞观测的不同模态数据，并构建不同模态数据对应的数据域；所述不同模态数据来自同一组织或群体的不同单细胞，包括第一模态数据和第二模态数据；

分别构建不同数据域对应的分布估计模块和隐空间，

所述分布估计模块用于将每个数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换；

并将所述隐空间划分为跨模态共享子空间和自身模态特异子空间，所述跨模态共享子空间中的样本数据服从标准正态分布，所述自身模态特异子空间中的样本数据服从可变参量的正态分布；

构建不同分布估计模块的负似然函数，采用随机梯度下降算法，以负似然函数最小化为目标对分布估计模块进行优化，获取优化后的分布估计模块；

构建跨模态数据迁移模块，所述跨模态数据迁移模块用于输入第一模态隐变量和第二模态辅助隐变量，输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据；

其中，所述第一模态隐变量为第一模态数据域中真实样本经对应分布估计模块转换后得到的样本数据；

所述第二模态辅助隐变量为第二模态数据域对应的自身模态特异子空间中的采样数据；

所述第二模态隐变量为第二模态数据域中真实样本经对应分布估计模块转换后得到的样本数据；

所述第一模态辅助隐变量为第一模态数据域对应的自身模态特异子空间中的采样数据；

对跨模态数据迁移模块中的可学习参数进行优化，获取优化后的跨模态数据迁移模块；

利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的数据迁移。

优选的，所述分布估计模块包括若干网络结构相同的可逆神经网络单元，每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

优选的，所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元，每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

优选的，所述第一模态数据包括RNA测序模态数据，所述第二模态数据包括染色质可及性测序模态数据。

优选的，构建不同分布估计模块的负似然函数，具体包括：

构建RNA测序模态数据分布估计模块的负似然函数：式中，表示RNA测序模态数据分布估计模块中的可学习参数，u_r与σ_r表示RNA测序模态数据自身模态特异子空间所服从分布的可变参量，x_r表示RNA测序模态数据域中的样本，P_rna（x_r）表示RNA测序模态数据域中的样本的真实概率分布函数，/>表示RNA测序模态数据隐空间对应点的概率密度函数，F_rna（）表示RNA测序模态数据分布估计函数；

构建染色质可及性测序模态数据分布估计模块的负似然函数：

式中，/>表示染色质可及性测序模态数据分布估计模块中的可学习参数，u_a与σ_a表示染色质可及性测序模态数据自身模态特异子空间所服从分布的可变参量，x_a表示染色质可及性测序模态数据域中的样本，P_atac(x_a)表示染色质可及性测序模态数据域中的样本的真实概率分布函数，/>表示染色质可及性测序模态数据隐空间对应点的概率密度函数，F_atac（）表示染色质可及性测序模态数据分布估计函数。

优选的，对跨模态数据迁移模块中的可学习参数进行优化，具体包括以下步骤：

冻结RNA测序模态数据分布估计模块F_rna和染色质可及性测序模态数据分布估计模块F_atac中的可学习参数保持不变；

建立跨模态数据迁移模块T的优化目标函数：式中，Θ_T表示跨模态数据迁移模块T中的可学习参数；

采用随机梯度下降方法对优化目标函数中的可学习参数Θ_T进行优化：

式中，/>表示迁移后满足染色质可及性测序模态隐变量概率分布的样本数据，/>表示迁移后获得的满足RNA测序模态辅助隐变量概率分布的样本数据；/>表示迁移生成的染色质可及性测序模态数据中的样本数据；

式中，/>表示迁移后满足RNA测序模态隐变量概率分布的样本数据，/>表示迁移后获得的满足染色质可及性测序模态辅助隐变量概率分布的样本数据；/>表示迁移生成的RNA测序模态数据中的样本数据。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于归一化流理论的跨模态数据迁移方法，具有以下有益效果：

1、本专利基于归一化流理论为每一个不同模态的观测数据设计一个分布估计模块，通过训练来获得能够输出给定数据在所属分布中概率密度的估计值，进而实现在后续跨模态迁移任务中不再需要成对的数据作为指导，摆脱了常见的单细胞跨模态数据迁移算法需要成对数据进行训练的瓶颈，从而能够适用于多样化的单细胞跨模态数据迁移需求；

2、本专利方法中采用的网络结构完全是基于可逆神经网络单元来实现的，因此能够直接利用似然函数进行优化，训练过程更加稳定，且能够达到全局最优。

3、本专利中隐空间跨模态迁移模块具有双向可逆生成的特点，一旦优化完成即可实现双向的跨模态数据迁移，而且整个过程完全可逆、无信息损失、可解释性更强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的A模态对应的分布估计模块基本结构与数据流动示意图；

图2为本发明实施例提供的B模态对应的分布估计模块的基本结构与数据流动示意图；

图3为本发明实施例提供的跨模态数据迁移模块T的基本结构示意图；

图4为本发明实施例提供的从A模态迁移至B模态的数据流程图；

图5为本发明实施例提供的从B 模态迁移至A模态的数据流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于归一化流理论的跨模态数据迁移方法，包括以下步骤：

分别构建不同数据域对应的分布估计模块和隐空间，

其中，所述分布估计模块包括若干网络结构相同的可逆神经网络单元，每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

同样的，所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元，每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层。

下面对本发明的发明原理进行进一步阐述，本发明整体采用两阶段的训练方式，

在第1阶段，针对两种不同模态的每个数据域的数据构建一个基于归一化流的分布估计模块（distribution estimator），将指定数据域特有的、复杂的数据分布一一映射到达隐空间（latent space）中相对简单的数据分布（如高斯分布、泊松分布等等）本实施例中以正态分布（高斯分布）为例进行说明，从而达到学习数据域潜在分布的效果，进而具备判断给定数据是否属于指定数据域的能力，达到GAN相关方法中判别器的效果。此外，本阶段完全利用不配对的数据进行训练，不依赖成对数据集，摆脱了常见跨模态数据迁移算法需要成对数据进行训练的瓶颈。

在第2阶段，针对每2种不同模态之间的数据迁移任务，构建一个基于归一化流的跨模态数据迁移模块T（modality transfer module），建立不同模态数据域隐空间中的联系，实现“第一模态数据域数据-第一模态数据域隐空间特征-第二模态数据域隐空间特征-第二模态数据域数据”这一转换过程，由于整个过程完全是基于归一化流框架实现的，因此能够直接利用似然函数进行优化，训练过程更加稳定，且能够达到全局最优。此外，由于完全采用可逆映射模块，因此本专利所提跨模态数据迁移方法还具备无信息损失、可解释性强、双向可逆生成的特点。

相比既有传统方法，本专利所提方法能够适用于不具备成对数据条件下的跨模态数据迁移任务，通过为每个不同模态引入一个分布估计模块，不仅能够达到CycleGAN中判别器的效果，其采用似然函数进行优化带来了更加稳定的训练过程，此外，只需构造1个模态迁移模块即可实现指定2个数据域之间的双向迁移，省去了CycleGAN中额外训练1个生成器和判别器的多余环节。

在接下来的阐述中，本实施例主要以两个模态（如A模态和B模态）数据迁移为例，可自然推广至三个及以上模态情况下的数据迁移情况，对于三个及以上模态的数据迁移，假设只有A、B、C这3个模态的时候，那么就分别训练3个分布估计模块F_A、F_B、F_C，然后训练3个可逆跨模态数据迁移模块T_AB、T_AC、T_BC就可以了。三个及以上模态的数据迁移本质上还是通过两个模态之间的两两迁移来实现的。

本发明实施例中假设A模态和B模态是观测单细胞内基因表达情况与调控情况的不同观测手段所造成的不同观测结果，如单细胞RNA测序（RNA sequencing, RNA-seq）、染色质可及性测序（assay for transposase-accessible chromatin using sequencing，ATAC-seq）、甲基化作用（Methylation）或蛋白质组学（Proteomics）等等多种检测手段中的某2种，在此以A模态和B模态为记号表示。

因此A模态数据和B模态数据从特征分析方面应具备一定的相似、相同之处，但同样不同模态所观测到的数据还具备另一种模态所观测不到的、欠缺的特异之处。基于这一假设，本专利所述方法将能从采集到的指定模态的数据中解耦跨模态共享特征和模态特异性特征，并在第2种模态观测结果未知的前提下，根据第1种模态的单一观测结果解耦、重构出期望的、相应的第2种模态的观测结果。结合图1-5，下面是具体的过程和原理表述。

获取两个不同的模态数据，A模态和B模态，其中A模态数据构成了数据域，其中|A|表示A模态数据所包含的维度，B模态数据构成了数据域/>，其中|B|表示B模态数据所包含的维度。本专利所述方法主要包括数据域X_A的分布估计模块F_A、数据域X_B的分布估计模块F_B和跨模态数据迁移模块T，本专利通过采用两阶段优化思路来分阶段优化上述基本模块，最终实现面向无配对数据的跨模态数据迁移任务。

在第一阶段的优化过程中，首先要针对不同模态的每个数据域分别设计一个分布估计模块（distribution estimator），所述分布估计模块可以由多个网络结构相同或相似的可逆神经网络单元（invert neural network unit, INNU）组成，每个可逆神经网络单元则由通道交换层（channel swapping layer）、仿射耦合层（affine coupling layer）、加性耦合层（additive coupling layer）等组成。下面介绍通道交换层、仿射耦合层和加性耦合层的基本结构：

通道交换层的主要功能是将给定向量的不同维度的进行随机的顺序替换。假设给定输入是一个D维的向量，则通道交换层在初始化时将随机生成一个由D个行交换或列交换的初等矩阵相乘实现的通道交换矩阵W，由于W是由D个任意的行交换或列交换的初等矩阵相乘实现的，因此W是一个可逆矩阵。该层的输出y=Wx则同样是一个D维的向量，相对应的通道交换层的逆变换可以表示为：x=W^-1Y。这里，通道交换层是不具有可学习参数的，一旦该层随机初始化完成，W固定生成了，那么通道交换层就固定不变了，不会随着网络的训练而继续变化。

仿射耦合层和加性耦合层的功能类似，是归一化流理论实现的核心部件，本实施例中将仿射耦合层和加性耦合层统称为耦合层。数据在耦合层中前向传播时，假设耦合层的给定输入是一个D维的向量，其中/>，/>，耦合层的输出是，其中/>，/>；

则加性耦合层的前向计算公式为：，其中m(·)可以是一个非线性多层神经网络，其输入维度是R^D，而输出维度是R^D-d，该非线性多层神经网络中的参数是可学习的，/>是向量逐点相加符号；

相应的，加性耦合层的逆向计算公式为：

，/>是向量逐点相减符号。

同理，仿射耦合层的前向计算公式为：

，其中k（·）和m（·）可以是2个不同的非线性多层神经网络，其输入维度均是R^d，而输出维度均是R^D-d，这些非线性多层神经网络中的参数都是可学习的，/>是向量逐点相乘符号；

相应的，仿射耦合层的逆向计算公式为：

，/>是向量逐点相除的符号。

耦合层中的可学习参数主要为前述加性耦合层中的m（·），以及仿射耦合层中的k（·）和m（·），这些函数变换均可以由任意非线性神经网络实现，因此耦合层中的可学习参数就是这些非线性神经网络中的可学习参数，如卷积神经网络中的卷积核权重，全连接层中的连接权重等等，这些可学习的参数的优化将随着下游的分布估计模块或模态迁移模块中的分布可学习参数一起，依照随机梯度下降等优化方式来进行优化。

以A模态对应数据域X_A为例，介绍其分布估计模块F_A的具体结构及其优化方法。根据归一化流理论，分布估计模块F_A能够建立数据域X_A真实分布P_A(x)与隐空间对应分布/>的一一映射的可逆变换关系，这里来自数据域X_A的样本点x_a、其概率密度函数P_A(x_a)以及隐空间中相对应点z_a、隐空间对应点的概率密度函数/>满足以下公式：

这里是F_A所包含的神经网络单元中的耦合层中的可学习参数。

此处，隐空间分布可以采用正态分布（高斯分布）、泊松分布等简单统计学分布，本实施例中以正态分布为例进行原理表述，采用泊松分布时，划分的共享子空间和特异性子空间中的数据分布同样需要满足泊松分布。

隐空间Z_A进一步被划分为跨模态共享子空间和A模态自身特异性子空间/>，在这里/>，可以将跨模态共享子空间Z_shared的分布假设为标准正态（高斯）分布N(0,I)，A模态自身特异性子空间/>的分布为参数人为指定或参数可学习的高斯分布如/>，/>中的可学习参数可以是一个纯粹的可学习权重。因此，从数据域X_A到隐空间Z_A之间的样本满足如下关系：

分布估计模块F_A的优化完全采用负似然函数作为优化目标：

具体的优化算法可以采用随机梯度下降等算法，以负似然函数最小作为优化目标，来优化隐空间Z_A分布的参数以及分布估计器F_A耦合层中的可学习参数，使得分布估计模块F_A建立起连接数据域X_A复杂的数据分布与相应隐空间Z_A简单分布之间的一一映射关系，达到学习数据域潜在复杂分布的效果，进而具备判断任给数据/>是否属于指定数据域X_A的能力。

相对应的，针对B模态对应的数据域X_B，数据域的分布估计模块F_B能够建立起数据域X_B与隐空间/>之间的一一映射关系，具有与F_B相类似的基本组成。Z_B可进一步被划为跨模态共享子空间/>和B模态自身特异性子空间/>，其中的分布满足标准正态分布N(0,I)，/>的分布满足参数人为指定或参数可学习的高斯分布/>，/>的可学习参数可以是一个纯粹的可学习权重。认为从数据域X_B到隐空间Z_B之间的样本满足如下关系：/>

这里是F_B所包含的神经网络单元中的耦合层中的可学习参数。

模块F_B的优化完全采用负似然函数作为优化目标：

具体模块F_B的优化方式和优化目的与模块F_A的基本一致，在此不再过多赘述。

第一阶段的训练完成后我们只获得了从复杂真实数据域或向相对整齐、简单的隐空间进行变换的合适函数，相当于获得了CycleGAN中的判别器，因此需要进一步引入实现从一种模态向另一种模态进行数据迁移的“生成器”，也就是本专利中的跨模态数据迁移模块T，与CycleGAN中的两个生成器的差异在于，模态T完全采用可逆神经网络单元，因此只需一个模块即可实现两个模态之间的互相迁移（生成）。下面详细阐述第二阶段的优化过程。

首先，冻结模块F_A与模块F_B中的可学习参数并保持不变，其次，模块T同样可以由多个网络结构相同的可逆神经网络单元串联而成，每个可逆神经网络单元又可由通道交换层、仿射耦合层、加性耦合层等可逆模块组成，具体构成模块T的多个可逆神经网络单元中的耦合层可学习参数可以记为Θ_T，整个模态迁移模块T的输入和输出维度是|A|+|B|-d。

在模态T的输入和输出方面，以从A模态迁移至B模态为例，模块T的输入由两部分组成：一部分输入是从数据域X_A采样得到的真实样本x_a在通过F_A转换后得到的z_a，另一个输入是从B模态自身特异性子空间所属分布采样到的/>，相对应的T模块的输出则分为2个部分，一部分被认为是迁移后的满足B模态隐变量分布的/>，另一部分被认为是被筛选出的满足/>分布的元素/>：

然后通过分布估计模块F_B的逆向操作，即可得到期望满足X_B分布特性且保留x_a中必要信息的、合适的、迁移后的模态B的数据，即：

直观上看，的输入部分是解耦后的A模态特异性信息和跨模态共享信息，缺少B模态特异性信息，因此从B模态特异性信息所服从分布/>中采样/>并输入到/>中，相应我们希望/>的输出端，一方面能够输出融合了输入跨模态共享信息和B模态特异性信息的、期望的、迁移后的隐变量/>，另一方面还可以输出被解耦、剔除后的A模态特异性信息/>，这里通过将迁移后的隐变量/>通过模块F_B的逆变换/>，即可得到期望的、迁移后的B模态的样本/>。我们希望/>能够尽可能服从数据域X_B的分布，因此以第一阶段优化得到的F_B作为分布估计器，输出/>在数据域X_B中的似然函数/>，通过以负似然函数最小化作为优化目标，优化模块/>的可学习参数，使得输出的/>能够尽可能服从数据域X_B的分布，从而获得既保留模态A的有效信息，又符合B模态特异性要求的跨模态数据迁移结果。完成一次从模态A到模态B的数据迁移，即可获得一次单向迁移损失：/>

在这里还额外引入了，使得/>输出的、被解耦出来的能够尽可能满足/>的分布，从而达到一种循环一致性的效果。

参考图5，与从A模态迁移至B模态的机理相类似，从B模态迁移至A模态的数据流程如下所示：

与的单向迁移损失类似，/>的一次单向迁移损失可表述为：

分别从A、B不同模态对应的数据域X_A、X_B中采集样本送入模态迁移模块T中，获得相应的隐变量和/>，进而可以获得针对模态迁移模块T的完整的优化目标函数：

尽管上述优化目标函数Loss_T（Θ_T）中没有显式的表现出Θ_T，但实际上在针对Θ_T进行优化的过程中，优化目标函数中所采用的、/>、/>和/>均是包含Θ_T的表达式，因此也就实现了针对参数进行优化的效果。

在这里同样可以采用随机梯度下降等优化算法来根据上述优化目标函数来优化T中的可学习参数Θ_T，使得和/>在各自所应当服从分布中的似然函数最大，即迁移后的样本数据能够尽可能具备目标模态的内在特征，达到双向可逆跨模态生成的效果，并能够实现无配对数据驱动条件下的跨模态数据迁移任务。

实施例1

以下以单细胞RNA-seq模态和ATAC-seq模态两种不同模态数据的迁移过程对本发明的具体实施步骤进行进一步说明，实施例1中分布估计模块表述为分布估计器，单细胞RNA-seq模态为上文A模态的具体应用，ATAC-seq模态为上文B模态的具体应用。

本实施例中采用单细胞RNA测序（RNA sequencing, RNA-seq）和染色质可及性测序（assay for transposase-accessible chromatin using sequencing， ATAC-seq）2种观测手段的测序结果来对同一单细胞的状态信息进行分析，综合RNA-seq模态和ATAC-seq模态两种不同模态观测数据能够从不同的角度来刻画当前单细胞的状态。然而同时采用两种不同观测手段获得同一个细胞的RNA-seq模态数据和ATAC-seq模态数据是相对困难的，通常只能采用一种观测手段对同一单细胞的一种测序模态数据进行观测和提取；另一方面对于同一组织或同一群体单细胞而言，不同单细胞之间的RNA-seq模态数据或ATAC-seq模态数据基本保持一致。因此可以采取单细胞跨模态数据迁移方法来实现采用两种不同模态数据对同一单细胞的状态信息进行分析的目的。

首先，从某一批细胞上采集的RNA-seq测序结果（模态数据）所构成的数据集为，d₁是单次RNA-seq测序结果（模态数据）的样本维度，X_rna中真实样本x_r服从的分布为P_rna（x_r）；从同一组织或群体的另一批细胞上采集的ATAC-seq测序结果所构成的数据集为/>，d₂是单次ATAC-seq测序结果的样本维度，X_atac中样本x_a服从的分布为P_atac（x_a）。

进一步地，分别设计适用于X_rna和X_atac的分布估计器F_rna和F_atac，具体的，F_rna和F_atac均可以由4到6组可逆神经网络单元串联而成，每个可逆神经网络单元又可以由6到8个仿射耦合层串联而成，这些耦合层中执行仿射变换的函数k(·)和m(·)由不同的非线性神经网络实现，这些神经网络的可学习参数即为所述分布估计器的可学习参数，分别记这些可学习参数为和/>。

进一步地，分布估计器F_rna建立起数据域X_rna与其对应的隐空间Z_rna之间的一一映射关系，分布估计器F_atac建立起数据域X_atac与其对应的隐空间Z_atac之间的一一映射关系。

隐空间Z_rna中的数据样本z_r服从的分布为，隐空间Z_atac中样本z_a服从的分布为/>。

按照维度将隐空间Z_rna和Z_atac进行划分，隐空间Z_rna和Z_ata均被划分为2个子隐空间，包括跨模态共享子空间和自身模态特异子空间，可分别由如下公式表示：，

此处d₀<min{d₁,d₂},被认为是RNA-seq模态数据和ATAC-seq模态数据这两种模态所包含共性信息的维度，d₀是一个可以调整的超参数。本实施例中假设跨模态共享子空间和/>中的样本数据服从标准正态分布（标准高斯分布）；而自身模态特异子空间/>中的样本数据服从参数可学习的正态分布/>，自身模态特异子空间中的样本数据服从另一种参数可学习的正态分布/>。

进一步地，分别独立优化分布估计器（分布模块）F_rna和F_atac中的可学习参数和/>，具体优化的目标函数分别为: />

进一步地，构造适用于RNA-seq和ATAC-seq这两个不同模态间数据迁移的，跨模态数据迁移模块T。跨模态数据迁移模块T由4到6组可逆神经网络单元串联而成，而每个可逆神经网络单元又可以4到6个仿射耦合层串联而成，这些耦合层中执行仿射变换的函数k(·)和m(·)由不同的非线性神经网络实现，这些神经网络的可学习参数即为所述分布估计器的可学习参数，记这些可学习参数为Θ_T。

可将RNA-seq模态迁移至ATAC-seq模态的过程记为,相应的从ATAC-seq模态迁移至RNA-seq模态的过程则记为/>,也就是/>。

进一步地，在此介绍和/>的具体流程，并引出的模块T的优化方法,为了便于描述，考虑到在优化Θ_T的过程中冻结了/>和/>，因此分别将分布估计模块和/>简化为F_rna(·)和F_atac(·);

a）RNA-seq模态迁移至ATAC-seq模态的过程如下：

将RNA-seq模态采集的真实样本数据x_r，经对应分布估计器F_rna转换后得到隐变量z_r=F_rna(x_r)；

从ATAC-seq模态对应的自身模态特异子空间

的正态分布/>中采样出一个辅助隐变量/>；

将ATAC-seq模态采样的辅助隐变量与RNA-seq模态隐空间Z_rna中的数据样本z_r级联得到/>，并将/>输入跨模态数据迁移模块T，跨模态数据迁移模块T的输出分为两部分，分别是/>和/>，/>表示满足RNA-seq模态辅助隐变量概率分布的样本数据，/>表示满足ATAC-seq模态隐变量概率分布的样本数据；

该过程表述为，那么期望得到的迁移生成的ATAC模态结果可表示为/>;

b）同理，ATAC-seq模态迁移至RNA-seq模态的过程如下：

将ATAC-seq模态采集的真实样本数据x_a，经对应分布估计器F_atac转换后得到隐变量z_a=F_atac(x_a)；

从RNA-seq模态对应的自身模态特异子空间的正态分布/>中采样出一个辅助隐变量/>；

将RNA-seq模态采样的辅助隐变量与ATAC-seq模态隐空间Z_atac中的数据样本z_a级联得到/>，并将/>输入跨模态数据迁移模块T，跨模态数据迁移模块T的输出分为两部分，分别是/>和/>，/>表示满足ATAC-seq模态辅助隐变量概率分布的样本数据，/>表示满足RNA-seq模态隐变量概率分布的样本数据；/>

该过程可表述为，那么期望得到的迁移生成的RNA模态结果可表示为/>；

c）冻结分布估计器F_rna和分布估计器F_atac中的可学习参数保持不变，跨模态数据迁移模块T的优化目标函数为：

可以采用随机梯度下降方法来优化跨模态数据迁移模块T优化目标函数中的可学习参数Θ_T：

式中，表示迁移后满足染色质可及性测序模态隐变量概率分布的样本数据，表示迁移后获得的满足RNA测序模态辅助隐变量概率分布的样本数据；/>表示迁移生成的染色质可及性测序模态数据中的样本数据；

式中，表示迁移后满足RNA测序模态隐变量概率分布的样本数据，/>表示迁移后获得的满足染色质可及性测序模态辅助隐变量概率分布的样本数据；/>表示迁移生成的RNA测序模态数据中的样本数据

当优化目标函数的数值基本上达到收敛，或相邻2个epoch结束后目标函数的误差小于给定阈值，如0.001的时候，即可认为到达了可学习参数优化的截止条件。

尽管上述优化目标函数Loss_T(Θ_T)中没有显式的表现出Θ_T，但实际上在针对Θ_T进行优化的过程中，优化目标函数中所采用的、/>、/>和/>均是包含Θ_T的表达式，因此也就实现了针对参数进行优化的效果。

综上，在完成分布估计器F_rna、分布估计器F_atac和跨模态数据迁移模块T的构建和模块中可学习参数优化后，即可利用模块F_rna、模块F_atac和模块T实现RNA-seq模态和ATAC-seq模态之间的双向跨模态迁移。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于归一化流理论的跨模态数据迁移方法，其特征在于，所述方法包括以下步骤：

获取单细胞观测的不同模态数据，并构建不同模态数据对应的数据域；所述不同模态数据来自同一组织或群体的不同单细胞，包括第一模态数据和第二模态数据；所述第一模态数据包括RNA测序模态数据，所述第二模态数据包括染色质可及性测序模态数据；

分别构建不同数据域对应的分布估计模块和隐空间，所述分布估计模块包括若干网络结构相同的可逆神经网络单元，每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层；

所述分布估计模块用于将不同数据域的真实样本分布和对应隐空间的概率分布进行一一映射变换；

构建不同分布估计模块的负似然函数，采用随机梯度下降算法，以负似然函数最小化为目标分别对不同分布估计模块进行优化，获取优化后的分布估计模块；构建不同分布估计模块的负似然函数，具体包括：

构建RNA测序模态数据分布估计模块的负似然函数：

式中，表示RNA测序模态数据分布估计模块中的可学习参数，u_r与σ_r表示RNA测序模态数据自身模态特异子空间所服从分布的可变参量，x_r表示RNA测序模态数据域中的样本，P_rna(x_r)表示RNA测序模态数据域中的样本的真实概率分布函数，/>表示RNA测序模态数据隐空间对应点的概率密度函数，F_rna()表示RNA测序模态数据分布估计函数；

式中，表示染色质可及性测序模态数据分布估计模块中的可学习参数，u_a与σ_a表示染色质可及性测序模态数据自身模态特异子空间所服从分布的可变参量，x_a表示染色质可及性测序模态数据域中的样本，P_atac(x_a)表示染色质可及性测序模态数据域中的样本的真实概率分布函数，/>表示染色质可及性测序模态数据隐空间对应点的概率密度函数，F_atac()表示染色质可及性测序模态数据分布估计函数；

构建跨模态数据迁移模块，所述跨模态数据迁移模块输入第一模态隐变量和第二模态辅助隐变量，输出满足第二模态隐变量概率分布的样本数据和满足第一模态辅助隐变量概率分布的样本数据；所述跨模态数据迁移模块包括若干网络结构相同的可逆神经网络单元，每个可逆神经网络单元包括依次连接的通道交换层、仿射耦合层和加性耦合层；

对跨模态数据迁移模块中的可学习参数进行优化，获取优化后的跨模态数据迁移模块；对跨模态数据迁移模块中的可学习参数进行优化，具体包括以下步骤：

建立跨模态数据迁移模块T的优化目标函数：

Loss_T(Θ_T)＝Loss_RNA→ATAC(Θ_T)+Loss_ATAC→RNA(Θ_T)

式中，Θ_T表示跨模态数据迁移模块T中的可学习参数；

采用随机梯度下降方法来优化跨模态数据迁移模块T中的可学习参数Θ_T：

式中，表示迁移后满足RNA测序模态隐变量概率分布的样本数据，/>表示迁移后获得的满足染色质可及性测序模态辅助隐变量概率分布的样本数据；/>表示迁移生成的RNA测序模态数据中的样本数据；

利用优化后的分布估计模块和优化后的跨模态数据迁移模块完成不同模态数据的迁移。