CN110957009B

CN110957009B - 一种基于深度混合网络的单细胞转录组缺失值填补方法

Info

Publication number: CN110957009B
Application number: CN201911072613.5A
Authority: CN
Inventors: 何尧; 谢志; 袁皓
Original assignee: Zhongshan Ophthalmic Center
Current assignee: Zhongshan Ophthalmic Center
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2023-05-12
Anticipated expiration: 2039-11-05
Also published as: CN110957009A

Abstract

本发明提供的一种基于深度混合网络的单细胞转录组缺失值填补方法，包括：对单细胞测序并进行预处理，得到表达矩阵并进行标准化处理；构建基于深度学习的混合模型，将标准化后的表达矩阵输入混合模型中进行循环计算，得到多个预测表达矩阵；计算每一次循环的权重，将多个预测表达矩阵按照对应的权重进行加权平均，得到的结果为混合模型的填补输出，完成对缺失值的填补。本发明提供的填补方法，借助深度神经网络对复杂函数的拟合能力适应单细胞的表达分布，保证了本填补方法对各类单细胞转录组数据的通用性；同时保留了深度学习在超大细胞数目的数据集上的可拓展性，完成了对单细胞转录组缺失值的填补，显著提高了单细胞数据解读的可靠性。

Description

一种基于深度混合网络的单细胞转录组缺失值填补方法

技术领域

本发明涉及单细胞转录组缺失填补技术领域，更具体的，涉及一种基于深度混合网络的单细胞转录组缺失值填补方法。

背景技术

单细胞转录组测序技术已发展成为一种研究单个细胞层面上基因表达的主要方法，被广泛应用于研究新的细胞类型、细胞分化、发育轨迹、肿瘤发生发展等重要的生物学问题。捕获的细胞数量，从最初的几个发展到现在的百万级别。但是，由于单个细胞的RNA含量极低、转录本捕获的低效率、技术上的噪音以及测序细胞数量多成本高等原因，单个细胞的低测序深度难以覆盖其所包含的转录本，导致细胞中大量基因表达值缺失(通常>90％)，致使生物信号模糊或丢失，造成后续分析困难。

填补(Imputation)单细胞转录组缺失值的难点在于在技术上无法区分表达值缺失与没有表达，因此缺少可靠的没有表达的样本。现有多个方法可以对单细胞转录组缺失值进行填补。其中，SAVER(Huang,M.,et al.“SAVER:Gene expression recovery forsingle-cell RNA sequencing(SAVER：恢复单细胞RNA测序中的基因表达)”NatureMethods 15,539-542,2018),scImpute(Li,W.,et al.“An accurate and robustimputation method scImpute for single-cell RNA-seq data (一个精确、鲁棒的对单细胞RNA测序数据进行填补的方法)”Nature Communications 9,997,2018)，VIPER(Chen,M.,et al.“VIPER:variability-preserving imputation for accurate geneexpression recovery in single-cell RNA sequencing studies(单细胞RNA测序研究中保留变异性的填补可精确的修复基因表达)”Genome Biology 19,196,2018)均基于统计模型，预先假设基因表达分布并利用假设的分布来辨别缺失与没有表达，然后填补缺失的表达值；MAGIC(van Dijk,D.,et al.“Recovering Gene Interactions from Single-CellData Using Data Diffusion(利用数据扩散从单细胞数据中恢复基因相互作用)”Cell174,716-729,2018)利用马尔科夫链收敛至稳定态的原理，多次转移后得到稳定态作为填补的表达值；DCA(Eraslan,G.,et al.“Single-cell RNA-seq denoising using a deepcount autoencoder(使用深度计数自编码器对单细胞RNA测序数据去噪)”NatureCommunications 10,390,2019),scVI(Lopez,R.,et al.“Deep generative modeling forsingle-cell transcriptomics(单细胞转录组的深度生成模型)”Nature Methods 15,1053-1058,2018)，scScope(Deng,Y.,et al.“Scalable analysis of cell-typecomposition from single-cell transcriptomics using deep recurrent learning(利用深度循环网络对单细胞转录组的细胞类型组成进行可扩展的分析)”Nature Methods16,311,2019)都基于深度学习，DCA,scVI预先假设表达分布，分别用深度计数自编码器(deep count autoencoder)和变分自编码器(VAE)估计假设分布的参数，scScope不假设分布，基于循环自编码器结构填补表达值。

现有方法大部分通过预先假设表达分布实现，但这种假设的分布无法保证对所有单细胞转录组数据通用；其次，基于传统机器学习的方法(SAVER,scImpute,VIPER，Magic)无法在有限的计算资源上处理超大细胞数的数据(大于50万)；基于深度学习的方法虽然能够处理超大细胞数的数据(大于100万)但计算资源占用巨大，且基于深度学习的填补方法在单细胞转录组后续分析中(例如以转录组基因表达值对细胞聚类及细胞类型注释)相比传统机器学习方法不具有优势。

发明内容

本发明为克服现有单细胞转录组缺失值填补方法存在无法对所有单细胞转录组数据通用，计算资源占用巨大，填补后数据解读不可靠的技术缺陷，提供一种基于深度混合网络的单细胞转录组缺失值填补方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于深度混合网络的单细胞转录组缺失值填补方法，包括以下步骤：

S1：对单细胞测序数据进行预处理，得到表达矩阵；

S2：将表达矩阵进行标准化处理得到初始表达矩阵；

S3：构建基于深度学习的混合模型，包括自编码器和循环神经网络两部分；

S4：将初始表达矩阵输入自编码器进行降维处理，得到一个降维的特征矩阵和一个重建的表达矩阵；

S5：将降维的特征矩阵输入循环神经网络，预测所有基因的表达值，得到对应的预测表达矩阵；

S6：将步骤S5得到的预测表达矩阵作为自编码器的输入，重复循环步骤S4、步骤S5，直至到达预设的循环步数，得到多个预测表达矩阵；

S7：计算每一次循环的权重，将多个预测表达矩阵按照对应的权重进行加权平均，输出的结果作为混合模型的填补输出，完成对单细胞转录组缺失值的填补。

其中，所述步骤S1具体包括以下步骤：

S11：采用现有的建库方法获取处理后细胞，进行测序得到序列数据，文件格式,如Fastq；

S12：利用映射软件,如Tophat2,对序列数据进行映射；

S13：采用数据分用软件,如UMI-tools,对映射后的序列数据按细胞进行划分，得到序列分用数据；

S14：利用定量软件,如FeatureCounts,将映射并分用后的结果进行定量，得到一个基因×细胞的表达矩阵。

其中，所述步骤S2具体为：

表达矩阵根据每个细胞的文库大小ls进行标准化，消除文库大小的影响，其中，对于细胞c的基因表达值向量C_c的标准化的公式为：

其中，sf表示所有细胞标准化后的文库大小，对表达矩阵内所有细胞进行标准化操作，以每个基因的最大表达值为标准，调整取值范围到0-1。

其中，在所述步骤S3中，所述自编码器包括编码器和解码器；所述编码器用于表达矩阵的降维处理，得到降维后的特征矩阵；所述解码器用于解码重建出新的表达矩阵。

其中，在所述步骤S3中，所述循环神经网络包括预测阵列和过滤器；其中：

所述预测阵列将所述自编码器得到的降维后的特征矩阵作为输入，预测所有基因的表达值，得到预测的表达矩阵；所述过滤器将预测的表达矩阵进行过滤，得到下一个循环神经网络输入。

其中，所述自编码器为单层隐藏层结构；所述预测阵列包含M个通道，每个通道对应一个基因m(1≤m≤M)，每个通道包含四层结构，包括输入层，第一隐藏层、第二隐藏层和输出层；其中：

所述输入层用于输入降维后的特征矩阵；所述第一隐藏层用于计算所述循环神经网络每一个循环的权重，用于所述步骤S7中；所述第二隐藏层的输出结果用于计算所述输出层上每个通道的权重；所述输出层用于输出最终的填补输出。

其中，所述输出层包括两个通道，每个通道上包含1个神经元，其输入为第二隐藏层的输出，利用sigmoid激活函数得到每个通道的权重；如其中一个通道的权重为p，则另一个通道的权重为1-p。

其中，所述第一隐藏层上包含1个神经元的权重计算网络，所述权重计算网络根据第一隐藏层在每次循环的输出值，通过计算sigmoid激活函数得到每个循环的权重，用于所述步骤S7中。

其中，所述混合模型的应用过程中，采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型；具体过程为：

输入单细胞数据文件的存储地址，该文件满足存取矩阵并进行分块读取的任意类型；

根据存储地址，读取文件所存储的单细胞转录组矩阵的维度信息，包括细胞数目和基因数目，并输入对应的细胞名称，基因名称；

将所有细胞按顺序划分成多个数据簇，并为每个数据簇标记上序号，所有簇序号作为一个序号池；

根据序号池建立一个副本，每次不放回地随机抽取一定个数的簇序号，抽取出数据集合，若该副本数据抽取完毕则重新建立副本进行抽取；

程序启动处理子进程对抽取得到的数据集合进行处理；子进程的数目为任意个，每个启动的子进程的启动顺序及处理内容会被记录，确保处理结果准确地发送至准确的混合模型输入管道中。

其中，在所述处理子进程中，连续读取每个数据集合中的每个数据簇并进行相关操作，包括过滤、随机打乱和计算每个细胞的文库大小，并对操作完的数据进行打包，在程序中保存并输入至所述混合模型输入管道中。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供的一种基于深度混合网络的单细胞转录组缺失值填补方法，通过构建基于深度学习的混合模型，利用深度神经网络对复杂函数的拟合能力适应单细胞的表达分布，保证了本填补方法对各类单细胞转录组数据的通用性；同时保留了深度学习在超大细胞数目的数据集上的可拓展性，为分析百万级的单细胞转录组数据提供了重要的处理方法，有效减少了计算资源的占用，完成了对单细胞转录组缺失值的填补，明显地提高了单细胞数据解读的可靠性。

附图说明

图1为本发明所述的单细胞转录组缺失值填补方法流程图；

图2为步骤S1的流程示意图；

图3为实施例2的流程示意图；

图4为非阻塞多进程分块随机读取数据的流程示意图；

图5为黑色素瘤单细胞转录组数据中(GSE99330)WNT5A和SOX10两个基因的表达分布和FISH数据的差异图；

图6为黑色素瘤单细胞转录组数据中(GSE99330)与FISH数据都包含的16个基因的Giniindex散点图；

图7为图5中所示基因WNT5A和SOX10两个基因的共表达分布和FISH数据的差异图；

图8为黑色素瘤数据(GSE99330)和小鼠大脑运动感觉皮层数据(SRP135960)两套数据的基因表达分布和FISH数据间差异的量化对比图；

图9为小鼠视网膜数据随机抽取70％，50％，30％的转录本后的聚类与细胞注释准确率示意图；

图10为计算时间和内存占用的对比图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于深度混合网络的单细胞转录组缺失值填补方法，包括以下步骤：

S1：对单细胞测序数据进行预处理，得到表达矩阵；

S2：将表达矩阵进行标准化处理得到初始表达矩阵；

在具体实施过程中，本发明提供的一种基于深度混合网络的单细胞转录组缺失值填补方法，通过构建基于深度学习的混合模型，利用深度神经网络对复杂函数的拟合能力适应单细胞的表达分布，保证了本填补方法对各类单细胞转录组数据的通用性；同时保留了深度学习在超大细胞数目的数据集上的可拓展性，为分析百万级的单细胞转录组数据提供了重要的处理方法，有效减少了计算资源的占用，完成了对单细胞转录组缺失值的填补，明显地提高了单细胞数据解读的可靠性。

实施例2

更具体的，如图2所示，所述步骤S1具体包括以下步骤：

S12：利用映射软件,如Tophat2,对序列数据进行映射；

更具体的，所述步骤S2具体为：

更具体的，在所述步骤S3中，所述自编码器包括编码器和解码器；所述编码器用于表达矩阵的降维处理，得到降维后的特征矩阵；所述解码器用于解码重建出新的表达矩阵。

更具体的，在所述步骤S3中，所述循环神经网络包括预测阵列和过滤器；其中：

更具体的，所述自编码器为单层隐藏层结构；所述预测阵列包含M个通道，每个通道对应一个基因m(1≤m≤M)，每个通道包含四层结构，包括输入层，第一隐藏层、第二隐藏层和输出层；其中：

更具体的，所述输出层包括两个通道，每个通道上包含1个神经元，其输入为第二隐藏层的输出，利用sigmoid激活函数得到每个通道的权重；如其中一个通道的权重为p，则另一个通道的权重为1-p。

更具体的，所述第一隐藏层上包含1个神经元的权重计算网络，所述权重计算网络根据第一隐藏层在每次循环的输出值，通过计算sigmoid激活函数得到每个循环的权重，用于所述步骤S7中。

在具体实施过程中，如图3所示，循环步数t满足关系：0≤t<T，参数T为预设的循环步数；t＝0时，将初始表达矩阵

输入混合模型中，经过编码器后得到降维的特征矩阵

特征矩阵

经过解码器得到重建的表达矩阵

所述的特征矩阵

经过预测阵列，对所有的基因表达值进行预测，得到预测表达矩阵

其中，在预测第m个基因时，所述预测阵列将特征矩阵

作为输入层，第一隐藏层表示为

第二隐藏层表示为

将第一隐藏层输出的权重值表示为

第二隐藏层输出的权重值表示为

则有输出层两个通道的权重系数分别为

和

将预测表达矩阵

在过滤器中进行过滤，具体表达式为：

过滤出满足式子的部分，得到新的表达矩阵

作为编码器的输入，此时t＝t+1。当t＝T时，所述混合模型停止循环，则在整个循环过程中的重建表达表示为：

填补输出表示为：

所述的填补输出则为混合模型的填补输出，参数a^t由每次循环中第一隐藏层输出的权重值计算出。

实施例3

更具体的，如图4所示，所述混合模型的应用过程中，采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型；具体过程为：

更具体的，在所述处理子进程中，连续读取每个数据集合中的每个数据簇并进行相关操作，包括过滤、随机打乱和计算每个细胞的文库大小，并对操作完的数据进行打包，在程序中保存并输入至所述混合模型输入管道中。

在具体实施过程中，采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型，采用多进程从文件中读取数据，每个进程可以随机读取多个小块数据，并打乱顺序，按照批次大小输入到管道中，解决了现有的导入方法由于内存占用过大而存在的无法应用到大数据上的缺陷。

实施例4

在具体实施过程中，首先采用黑色素瘤单细胞转录组数据(GSE99330)，对比了免疫荧光原位杂交技术(FISH)的基因分布情况。如图5所示，原始数据中，WNT5A(99.847％表达为0)和SOX10(85.173％表达为0)两个基因的表达分布都与FISH差异明显。混合模型填补之后，两个基因的表达分布都与FISH非常相似。如图6所示，采用GINI index量化单细胞转录组数据与FISH都包含的16个基因的表达分布，混合模型在参与对比的6个方法中表现最好。如图7所示，大量的缺失造成WNT5A和SOX10的共表达分布在单细胞转录组数据中缺失，无法反应真实的基因间关系。多数方法能够在不同程度上修复基因的共表达分布，还原真实的基因间关系。Fasano and Franceschini's指标(Fasano,G.,et al.“Amultidimensional version of the Kolmogorov–Smirnov test(Kolmogorov–Smirnov检验的多维度版本)”Monthly Notices of the Royal Astronomical Society225,155-170,1987)能够反映出基因间共表达分布和FISH数据的差异。混合模型在参与对比的6个方法中表现最好。最后，如图8所示，通过对两套数据的综合对比(黑色素瘤数据(GSE99330)和小鼠大脑运动感觉皮层数据(SRP135960))发现有些方法明显只能较好的适应其中一套数据，比如SAVER只对黑色素瘤数据适应较好，而混合模型能够较好的适应两套数据，这说明混合模型能够在不假设分布的情况下较好的适应各种表达分布，对单细胞数据具有通用性能。

在具体实施过程中，采用小鼠视网膜数据(GSE63473)按照一定比例(30％,50％,70％原有转录本数量)降低转录本数量，用ARI指标评估聚类得到的细胞类型注释与原研究的细胞类型注释差异。单细胞领域中最重要的分析就是细胞类型解读，此方法可以评估能否在更低的测序深度得到与原论文相同的细胞类型结果。如图9所示，可以看到30％的转录本时，原始数据聚类的ARI(Santos,J.M.,et al.“On the Use of the Adjusted RandIndex as a Metric for Evaluating Supervised Classification(关于使用调整后的兰德指数作为评估监督分类的指标)”Int.Conference on Artificial Neural Networks-ICANN,175-184,2009)下降明显，细胞类型信号减弱，少数几个细胞类型丢失。混合模型在三个降采样方案中都保持非常高的ARI，30％时只有轻微的下降，且能够恢复原始数据丢失的几个细胞类型，对比的其他方法则丢失了更多的细胞类型。这说明混合模型能够非常好的修复重要的生物学信号，达到领域中的先进水平。

在具体实施过程中，如图10所示，对比六种方法在不同细胞数量下(1000个基因)的填补时间和内存占用。采用非阻塞多进程分块随机读取数据的方法的混合模型能够处理达到260万细胞的数据集，且填补时间(1小时)大大少于其他的方法。在260万细胞数据集上，内存占用只有9.16G，大大低于第二scVI(64.74G)，理论上能够处理更大的，甚至到千万级的单细胞数据集。这说明混合模型具有非常好的可扩展性，为分析未来超大的单细胞数据集提供支持。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，包括以下步骤：

S1：对单细胞测序并进行预处理，得到表达矩阵；

S2：将表达矩阵进行标准化处理得到初始表达矩阵；

S7：计算每一次循环的权重，将多个预测表达矩阵按照对应的权重进行加权平均，输出的结果作为混合模型的填补输出，完成对单细胞转录组缺失值的填补；

所述步骤S2具体为：

其中，sf表示所有细胞标准化后的文库大小，对表达矩阵内所有细胞进行标准化操作，以每个基因的最大表达值为标准，调整取值范围到0-1；

所述混合模型的应用过程中，采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型；具体过程为：

2.根据权利要求1所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，所述步骤S1具体包括以下步骤：

S12：利用映射软件,如Tophat2,对序列数据进行映射；

3.根据权利要求1所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，在所述步骤S3中，所述自编码器包括编码器和解码器；所述编码器用于表达矩阵的降维处理，得到降维后的特征矩阵；所述解码器用于解码重建出新的表达矩阵。

4.根据权利要求3所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，在所述步骤S3中，所述循环神经网络包括预测阵列和过滤器；其中：

5.根据权利要求4所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，所述自编码器为单层隐藏层结构；所述预测阵列包含M个通道，每个通道对应一个基因m(1≤m≤M)，每个通道包含四层结构，包括输入层，第一隐藏层、第二隐藏层和输出层；其中：

6.根据权利要求5所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，所述输出层包括两个通道，每个通道上包含1个神经元，其输入为第二隐藏层的输出，利用sigmoid激活函数得到每个通道的权重；如其中一个通道的权重为p，则另一个通道的权重为1-p。

7.根据权利要求6所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，所述第一隐藏层上包含1个神经元的权重计算网络，所述权重计算网络根据第一隐藏层在每次循环的输出值，通过计算sigmoid激活函数得到每个循环的权重，用于所述步骤S7中。

8.根据权利要求7所述的一种基于深度混合网络的单细胞转录组缺失值填补方法，其特征在于，在所述处理子进程中，连续读取每个数据集合中的每个数据簇并进行相关操作，包括过滤、随机打乱和计算每个细胞的文库大小，并对操作完的数据进行打包，在程序中保存并输入至所述混合模型输入管道中。