CN114974421A

CN114974421A - 基于扩散-降噪的单细胞转录组测序数据补插方法及系统

Info

Publication number: CN114974421A
Application number: CN202210552055.8A
Authority: CN
Inventors: 刘健; 潘逸辰; 陈娇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2022-08-30
Anticipated expiration: 2042-05-20
Also published as: CN114974421B

Abstract

本发明提出了一种基于扩散‑降噪的单细胞转录组测序数据补插方法及系统，包括：获取单细胞转录组测序数据矩阵并进行预处理；对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点，对补插位点进行扩散操作，完成初步补插；对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化；对原始获取的单细胞转录组测序数据矩阵进行加权处理，获得细胞间权重图；基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。通过扩散‑降噪两阶段的补插处理，能够提高后续对不同细胞的识别的准确性。

Description

基于扩散-降噪的单细胞转录组测序数据补插方法及系统

技术领域

本发明属于细胞检测分析相关领域，尤其涉及一种基于扩散-降噪的单细胞转录组测序数据补插方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

单细胞转录组测序技术被广泛用于细胞间的分化关系和不同类别细胞基因表达差异等实际研究中。然而，受限于现有技术和现实世界某些基因较低的表达，单细胞转录组测序数据往往户出现许多0值或明显过低的值，会对下游分析结果造成负面的影响。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于扩散-降噪的单细胞转录组测序数据补插方法对出现的0值或明显过低的值进行补插，进行补插后的单细胞转录测序数据进行后续的聚类操作，可以取得精确度更高的聚类结果，从而提升不同细胞的识别的准确性。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：一种基于扩散-降噪的单细胞转录组测序数据补插方法，包括：

获取单细胞转录组测序数据矩阵并进行预处理；

对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点，对补插位点进行扩散操作，完成初步补插；

对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化；

对原始获取的单细胞转录组测序数据矩阵进行加权处理，获得细胞间权重图；

基于白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。

进一步的，所述单细胞转录组测序数据的预处理包括：单细胞转录组测序数据以矩阵形式存储，对单细胞转录组测序数据矩阵进行SC3聚类，获得一致性矩阵；通过一致性矩阵，对每一个细胞分配固定数据量的k个邻居。

进一步的，所述补插位点的确定具体包括：对于每一个基因，使用一个伽马分布和正态分布的混合分布来拟合所述基因在任意细胞中的对数化处理后的表达量，对于属于伽马分布概率超过设定阈值的点作为补插位点。

进一步的，所述对补插位点进行扩散操作，完成初步补插，具体包括：对于补插位点，使用该补插位点和其邻居细胞对应基因的对数化表达量的加权平均进行扩散操作，完成初步补插。

进一步的，在对完成初步补插的单细胞转录组测序数据矩阵进行白化之前，删除完全不表达的基因，使用主成分分析对删除完全不表达基因后的矩阵进行白化。

进一步的，所述细胞间权重图获取方法为：对原始单细胞转录组测序数据矩阵细胞中基因的表达量进行TF-IDF处理，处理后将细胞作为节点，将细胞间TF-IDF向量的Spearman相关系数作为细胞间连边的权重，获得细胞间权重图。

进一步的，基于细胞权重图，使用图卷积网络获得PCA白化处理后的矩阵中每个细胞的低维嵌入，将细胞的低维嵌入输入至训练好的前向神经网络模型后输出原始单细胞转录组测序数据矩阵。

本发明第二个方面公开一种基于扩散-降噪的单细胞转录测序数据补插系统，包括：

预处理模块，其用于获取单细胞转录组测序数据矩阵并进行预处理；

初步补插模块，其用于对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点，对补插位点进行扩散操作，完成初步补插；

PCA白化模块，其用于对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化；

加权处理模块，其用于对原始获取的单细胞转录组测序数据矩阵进行加权处理，获得细胞间权重图；

矩阵恢复模块，其用于基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。

本发明的第三个方面提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。

本发明的第四个方面提供一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

基于本发明补插后的单细胞RNA测序数据进行聚类，可以取得精确度更高的聚类结果，从而提升不同细胞的识别准确性。

基于本发明补插后的单细胞RNA测序数据能够较好地去除了批次效应。

基于本发明补插后的单细胞RNA测序数据对于同类不同周期的细胞能够在可视化时聚到一簇并在簇中能大致区分不同周期的细胞。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中扩散阶段示意图；

图2是本发明实施例一中降噪阶段示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于扩散-降噪的单细胞转录组测序数据补插方法，包括：

步骤1：获取单细胞转录组测序数据并进行预处理；

步骤2：对于预处理后的单细胞转录组测序数据基于概率分布确定补插位点，对补插位点进行扩散操作，完成初步补插；

步骤3：对完成初步补插的单细胞转录组测序数据基于主成分分析进行白化；

步骤4：对原始获取的单细胞转录组测序数据进行加权处理，获得细胞间权重图；

步骤5：基于白化后的单细胞转录组测序数据和细胞间权重图通过训练好的神经网路模型恢复至原始单细胞转录组测序数据。

在本实施例中，单细胞RNA测序数据以一个矩阵的方式存储，其中一个维度代表细胞，另一个维度代表待检测的某个RNA片段。

在所述步骤1中，获取存储单细胞转录组测序数据的输入矩阵，使用SC3对单细胞转录组测序数据的输入矩阵进行聚类，获取consensus matrix(一致性矩阵)。其中，通过SC3获取consensus matrix(一致性矩阵)具体包括：

步骤1-1：首先需要根据欧几里得距离、皮尔森相关系数、斯皮尔曼系数对于输入删除了表达差异不大(在90％的细胞种都表达或不表达)基因的对数化处理后的scRNA-seq数据，获得三个距离矩阵。对于这三个距离矩阵，使用谱聚类和PCA降维，得到6个降维空间，在这6个降维后的空间，抽样特定数量的子空间(仅保留某些降维空间的维度)，在子空间中进行k-means聚类，这些聚类结果对应的等价关系矩阵的均值就是我们需要的consensusmatrix。

步骤1-2：通过consensus matrix，给每个细胞分配固定数量的k个邻居。其中，Consensus matrix是一个cell-cell的相似性矩阵，k个邻居根据consensus matrix中给出的相似性排序选出前k个即可。

在所述步骤2中，对每一个基因，使用伽马分布和正态分布的混合分布拟合该基因在任意细胞中对数化处理后的表达量：

log(x)～π·Gamma+(1-π)·Normal (1)

其中，π为阈值，x是scRNA-seq数据(单细胞RNA测序数据)中对于同一个基因不同细胞测得的表达量。

其中属于伽马分布概率超过某一阈值的点视作潜在的补插位点，其中阈值可根据使用者需求进行调节，默认设置为π＞0.2。

对于潜在的补插位点，使用该位点和其邻居细胞对应基因的对数化的表达量的加权平均来进行扩散操作，完成初步的补插：

其中，Λ_t是细胞i邻居的集合，ρ是3种设置的阈值(在目前的情况下等于0.2)，b_ij是细胞i对于基因j的对数化表达量，b′_ij是扩散后的表达量。

在所述步骤3中，对于完成初步补插的单细胞转录组测序数据的矩阵，删除其中完全不表达的基因，认为这些基因不需要处理，对于删除这些基因的单细胞转录组测序数据的矩阵，使用PCA(principal component analysis)进行白化。

PCA是对于样本空间(Rⁿ)，以样本均值为原点，样本每个特征的正向方向为坐标轴正向方向，建立直角坐标系，找出k个样本投影后方差最大的方向。然而，方差最大的方向，样本投影后偏离原点的程度必然比其它方向要大，为了使得输入神经网络时，各个投影后的特征形成的新特征在尺度上不会存在太大差异，故而每个新特征除以投影方向的特征向量对应特征值的开方。保证神经网络在以梯度反向传播为基础的算法优化下，不同通道的输入之间不会存在太大的偏好性。所以白化就是每个通道除以一个值(即对应特征向量的特征值的开方)。

在所述步骤4中，将原始的单细胞转录组测序数据的输入矩阵细胞中的基因的表达量视作文章中单词出现的频率，并通过文本数据常用的TF-IDF(term frequency–inverse document frequency)进行处理，将处理后的细胞当作节点，将细胞间TF-IDF向量的Spearman相关系数(斯皮尔曼相关系数)视作细胞间连边的权重，获得一个细胞间权重图。

TF-IDF中，TF是词频，比如说一个词“我”在文章中出现的次数tf就是“我”在这篇文章中的词频，IDF是逆文档频率，对于“我”这个词，查看在总共N篇文档中有df篇文章出现了，那么“我”的逆文档频率是

那么对于某一篇文章中的某一个词，其在该文章中的词频是tf,词语本身的逆文档频率是

那么TF-IDF是

对于上述经过PCA白化处理后的单细胞转录组测序数据矩阵以及细胞间权重图，使用GCN架构获得PCA白化处理后的矩阵中每个细胞的低维嵌入。

神经网络中，卷积的操作一般用于图像数据，因为图形所携带的信息在整张图上具有平移不变性，所以，构造一组固定的卷积核(小矩阵，如3*3矩阵)，在图上各个可能的位置和其下对应的3*3的图像像素进行内积操作得到卷积核和图像局部的相似性，在神经网络的前端，经过训练后的卷积核会逐步收敛为识别点、横线、竖线、斜线等基础几何特征的卷积核，在神经网络的后端，由于卷积后的池化操作(如将每2*2的四个小像素合为一个以四个值中最大值代替)，池化后图像每个像素点将携带更为广阔的信息，这时，神经网络后端的卷积核得以拟合为复杂的图像信息。

GCN架构是图神经网络架构，使用较为广泛。和一般神经网络的区别是，每次输入时，对于某一条数据不输入该数据向量本身，而是输入该向量和其它节点对应向量的一个加权平均值(这里权重是每个细胞对应的基因表达TF-IDF向量之间的斯皮尔曼相关系数决定的，这些细胞间的权重组成了一个图)。

在本实施例中，所使用的GCN架构，是一种在权重图上“卷积”的架构，这时“卷积”就是希望能够不仅将图上每个节点对应的输入向量的信息输入神经网络的下一层，而且要同时输入节点邻居对应向量的信息，而这些信息的融合就是一个向量的简单线性组合，所以可以用一个矩阵乘法来代替，线性组合的系数由细胞间相似性(TF-IDF向量的Spearman系数)决定。

在获得每个细胞的低维嵌入后，再用普通的前向神经网络恢复原始的单细胞转录组测序数据的矩阵，对于潜在补插位点的误差，给予比正常位点低一半的权重，此外，还吸收了CAE(Contractive Auto-Encode)的思想，将低维嵌入关于前向神经网络输入的所有偏导数的平方和乘以一个权重加到神经网络的损失函数上。

普通的前向神经网络是一个多层的结构，每一层的结构是一个感知机。感知机对于一个向量的输入和一个向量的输出用线性模型去拟合。比如给出给出某地的经度a和纬度b以预测某地的温度c和湿度d。那么训练一个以e、f、g、h、i、j为参数线性模型

然而，单层的感知机拟合能力是非常有限的，前向神经网络就是多层感知机，将前一层感知机的输出经过非线性的激活函数处理后作为后一层感知机的输入。使用非线性的激活函数，一方面是对于真实神经元的激活存在阈值的模拟，另一方面，如果不使用一个非线性函数进行激活，最后的模型还是线性的，多层感知机相当于一层感知机。

在本实施例中，激活函数我们使用的是Relu，即正数输入不变，负数输入输出0。

在本实施例中，借鉴CAE引入的收缩项损失有公式为：

其中α是给定的系数，P是神经网络的低维嵌入层，PCA(X)是神经网络的输入，PCA白化处理后的输入。

所使用的损失函数为：

其中，Q是对于潜在补插位点和正常位点赋予不同的权重(如权重1和权重2)的矩阵。

在本实施例中，给正常位点低一半的权重，计算每个位点误差的加权平方和时，对于潜在补插位点给予权重1，对于正常位点给予权重2。其中，误差是和PCA白化前数据的欧几里得距离。

将低维嵌入输入到前向神经网络中，输出为最终插补结果的前一步结果。对于每一个潜在的补插位点，我们用之前算出的每个潜在补插位点的π和1-π来加权前向神经网络的输出和预补插的结果得到最终的补插结果。

实施例二

本实施例提供一种基于扩散-降噪的单细胞转录组测序数据补插系统，包括：

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，包括：

获取单细胞转录组测序数据矩阵并进行预处理；

基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。

2.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，所述单细胞转录组测序数据的预处理包括：单细胞转录组测序数据以矩阵形式存储，对单细胞转录组测序数据矩阵进行SC3聚类，获得一致性矩阵；通过一致性矩阵，对每一个细胞分配固定数据量的k个邻居。

3.如权利要求2所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，所述补插位点的确定具体包括：

对于每一个基因，使用一个伽马分布和正态分布的混合分布来拟合所述基因在任意细胞中的对数化处理后的表达量，对于属于伽马分布概率超过设定阈值的点作为补插位点。

4.如权利要求3所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，所述对补插位点进行扩散操作，完成初步补插，具体包括：

对于补插位点，使用该补插位点和其邻居细胞对应基因的对数化表达量的加权平均进行扩散操作，完成初步补插。

5.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，在对完成初步补插的单细胞转录组测序数据矩阵进行白化之前，删除完全不表达的基因，使用主成分分析对删除完全不表达基因后的矩阵进行白化。

6.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，所述细胞间权重图获取方法为：

对原始单细胞转录组测序数据矩阵细胞中基因的表达量进行TF-IDF处理，处理后将细胞作为节点，将细胞间TF-IDF向量的Spearman相关系数作为细胞间连边的权重，获得细胞间权重图。

7.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法，其特征是，基于细胞权重图，使用图卷积网络获得PCA白化处理后的矩阵中每个细胞的低维嵌入，将细胞的低维嵌入输入至训练好的前向神经网络模型后输出原始单细胞转录组测序数据矩阵。

8.一种基于扩散-降噪的单细胞转录测序数据补插系统，其特征是，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。