CN110957009A - 一种基于深度混合网络的单细胞转录组缺失值填补方法 - Google Patents

一种基于深度混合网络的单细胞转录组缺失值填补方法 Download PDF

Info

Publication number
CN110957009A
CN110957009A CN201911072613.5A CN201911072613A CN110957009A CN 110957009 A CN110957009 A CN 110957009A CN 201911072613 A CN201911072613 A CN 201911072613A CN 110957009 A CN110957009 A CN 110957009A
Authority
CN
China
Prior art keywords
data
expression
cell
matrix
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911072613.5A
Other languages
English (en)
Other versions
CN110957009B (zh
Inventor
何尧
谢志
袁皓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Ophthalmic Center
Original Assignee
Zhongshan Ophthalmic Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Ophthalmic Center filed Critical Zhongshan Ophthalmic Center
Priority to CN201911072613.5A priority Critical patent/CN110957009B/zh
Publication of CN110957009A publication Critical patent/CN110957009A/zh
Application granted granted Critical
Publication of CN110957009B publication Critical patent/CN110957009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种基于深度混合网络的单细胞转录组缺失值填补方法,包括:对单细胞测序并进行预处理,得到表达矩阵并进行标准化处理;构建基于深度学习的混合模型,将标准化后的表达矩阵输入混合模型中进行循环计算,得到多个预测表达矩阵;计算每一次循环的权重,将多个预测表达矩阵按照对应的权重进行加权平均,得到的结果为混合模型的填补输出,完成对缺失值的填补。本发明提供的填补方法,借助深度神经网络对复杂函数的拟合能力适应单细胞的表达分布,保证了本填补方法对各类单细胞转录组数据的通用性;同时保留了深度学习在超大细胞数目的数据集上的可拓展性,完成了对单细胞转录组缺失值的填补,显著提高了单细胞数据解读的可靠性。

Description

一种基于深度混合网络的单细胞转录组缺失值填补方法
技术领域
本发明涉及单细胞转录组缺失填补技术领域,更具体的,涉及一种基于深度混合网络的单细胞转录组缺失值填补方法。
背景技术
单细胞转录组测序技术已发展成为一种研究单个细胞层面上基因表达的主要方法,被广泛应用于研究新的细胞类型、细胞分化、发育轨迹、肿瘤发生发展等重要的生物学问题。捕获的细胞数量,从最初的几个发展到现在的百万级别。但是,由于单个细胞的RNA含量极低、转录本捕获的低效率、技术上的噪音以及测序细胞数量多成本高等原因,单个细胞的低测序深度难以覆盖其所包含的转录本,导致细胞中大量基因表达值缺失(通常>90%),致使生物信号模糊或丢失,造成后续分析困难。
填补(Imputation)单细胞转录组缺失值的难点在于在技术上无法区分表达值缺失与没有表达,因此缺少可靠的没有表达的样本。现有多个方法可以对单细胞转录组缺失值进行填补。其中,SAVER(Huang,M.,et al.“SAVER:Gene expression recovery forsingle-cell RNA sequencing(SAVER:恢复单细胞RNA测序中的基因表达)”NatureMethods 15,539-542,2018),scImpute(Li,W.,et al.“An accurate and robustimputation method scImpute for single-cell RNA-seq data (一个精确、鲁棒的对单细胞RNA测序数据进行填补的方法)”Nature Communications 9,997,2018),VIPER(Chen,M.,et al.“VIPER:variability-preserving imputation for accurate geneexpression recovery in single-cell RNA sequencing studies(单细胞RNA测序研究中保留变异性的填补可精确的修复基因表达)”Genome Biology 19,196,2018)均基于统计模型,预先假设基因表达分布并利用假设的分布来辨别缺失与没有表达,然后填补缺失的表达值;MAGIC(van Dijk,D.,et al.“Recovering Gene Interactions from Single-CellData Using Data Diffusion(利用数据扩散从单细胞数据中恢复基因相互作用)”Cell174,716-729,2018)利用马尔科夫链收敛至稳定态的原理,多次转移后得到稳定态作为填补的表达值;DCA(Eraslan,G.,et al.“Single-cell RNA-seq denoising using a deepcount autoencoder(使用深度计数自编码器对单细胞RNA测序数据去噪)”NatureCommunications 10,390,2019),scVI(Lopez,R.,et al.“Deep generative modeling forsingle-cell transcriptomics(单细胞转录组的深度生成模型)”Nature Methods 15,1053-1058,2018),scScope(Deng,Y.,et al.“Scalable analysis of cell-typecomposition from single-cell transcriptomics using deep recurrent learning(利用深度循环网络对单细胞转录组的细胞类型组成进行可扩展的分析)”Nature Methods16,311,2019)都基于深度学习,DCA,scVI预先假设表达分布,分别用深度计数自编码器(deep count autoencoder)和变分自编码器(VAE)估计假设分布的参数,scScope不假设分布,基于循环自编码器结构填补表达值。
现有方法大部分通过预先假设表达分布实现,但这种假设的分布无法保证对所有单细胞转录组数据通用;其次,基于传统机器学习的方法(SAVER,scImpute,VIPER,Magic)无法在有限的计算资源上处理超大细胞数的数据(大于50万);基于深度学习的方法虽然能够处理超大细胞数的数据(大于100万)但计算资源占用巨大,且基于深度学习的填补方法在单细胞转录组后续分析中(例如以转录组基因表达值对细胞聚类及细胞类型注释)相比传统机器学习方法不具有优势。
发明内容
本发明为克服现有单细胞转录组缺失值填补方法存在无法对所有单细胞转录组数据通用,计算资源占用巨大,填补后数据解读不可靠的技术缺陷,提供一种基于深度混合网络的单细胞转录组缺失值填补方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度混合网络的单细胞转录组缺失值填补方法,包括以下步骤:
S1:对单细胞测序数据进行预处理,得到表达矩阵;
S2:将表达矩阵进行标准化处理得到初始表达矩阵;
S3:构建基于深度学习的混合模型,包括自编码器和循环神经网络两部分;
S4:将初始表达矩阵输入自编码器进行降维处理,得到一个降维的特征矩阵和一个重建的表达矩阵;
S5:将降维的特征矩阵输入循环神经网络,预测所有基因的表达值,得到对应的预测表达矩阵;
S6:将步骤S5得到的预测表达矩阵作为自编码器的输入,重复循环步骤S4、步骤S5,直至到达预设的循环步数,得到多个预测表达矩阵;
S7:计算每一次循环的权重,将多个预测表达矩阵按照对应的权重进行加权平均,输出的结果作为混合模型的填补输出,完成对单细胞转录组缺失值的填补。
其中,所述步骤S1具体包括以下步骤:
S11:采用现有的建库方法获取处理后细胞,进行测序得到序列数据,文件格式,如Fastq;
S12:利用映射软件,如Tophat2,对序列数据进行映射;
S13:采用数据分用软件,如UMI-tools,对映射后的序列数据按细胞进行划分,得到序列分用数据;
S14:利用定量软件,如FeatureCounts,将映射并分用后的结果进行定量,得到一个基因×细胞的表达矩阵。
其中,所述步骤S2具体为:
表达矩阵根据每个细胞的文库大小ls进行标准化,消除文库大小的影响,其中,对于细胞c的基因表达值向量Cc的标准化的公式为:
Figure BDA0002261424290000031
其中,sf表示所有细胞标准化后的文库大小,对表达矩阵内所有细胞进行标准化操作,以每个基因的最大表达值为标准,调整取值范围到0-1。
其中,在所述步骤S3中,所述自编码器包括编码器和解码器;所述编码器用于表达矩阵的降维处理,得到降维后的特征矩阵;所述解码器用于解码重建出新的表达矩阵。
其中,在所述步骤S3中,所述循环神经网络包括预测阵列和过滤器;其中:
所述预测阵列将所述自编码器得到的降维后的特征矩阵作为输入,预测所有基因的表达值,得到预测的表达矩阵;所述过滤器将预测的表达矩阵进行过滤,得到下一个循环神经网络输入。
其中,所述自编码器为单层隐藏层结构;所述预测阵列包含M个通道,每个通道对应一个基因m(1≤m≤M),每个通道包含四层结构,包括输入层,第一隐藏层、第二隐藏层和输出层;其中:
所述输入层用于输入降维后的特征矩阵;所述第一隐藏层用于计算所述循环神经网络每一个循环的权重,用于所述步骤S7中;所述第二隐藏层的输出结果用于计算所述输出层上每个通道的权重;所述输出层用于输出最终的填补输出。
其中,所述输出层包括两个通道,每个通道上包含1个神经元,其输入为第二隐藏层的输出,利用sigmoid激活函数得到每个通道的权重;如其中一个通道的权重为p,则另一个通道的权重为1-p。
其中,所述第一隐藏层上包含1个神经元的权重计算网络,所述权重计算网络根据第一隐藏层在每次循环的输出值,通过计算sigmoid激活函数得到每个循环的权重,用于所述步骤S7中。
其中,所述混合模型的应用过程中,采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型;具体过程为:
输入单细胞数据文件的存储地址,该文件满足存取矩阵并进行分块读取的任意类型;
根据存储地址,读取文件所存储的单细胞转录组矩阵的维度信息,包括细胞数目和基因数目,并输入对应的细胞名称,基因名称;
将所有细胞按顺序划分成多个数据簇,并为每个数据簇标记上序号,所有簇序号作为一个序号池;
根据序号池建立一个副本,每次不放回地随机抽取一定个数的簇序号,抽取出数据集合,若该副本数据抽取完毕则重新建立副本进行抽取;
程序启动处理子进程对抽取得到的数据集合进行处理;子进程的数目为任意个,每个启动的子进程的启动顺序及处理内容会被记录,确保处理结果准确地发送至准确的混合模型输入管道中。
其中,在所述处理子进程中,连续读取每个数据集合中的每个数据簇并进行相关操作,包括过滤、随机打乱和计算每个细胞的文库大小,并对操作完的数据进行打包,在程序中保存并输入至所述混合模型输入管道中。
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的一种基于深度混合网络的单细胞转录组缺失值填补方法,通过构建基于深度学习的混合模型,利用深度神经网络对复杂函数的拟合能力适应单细胞的表达分布,保证了本填补方法对各类单细胞转录组数据的通用性;同时保留了深度学习在超大细胞数目的数据集上的可拓展性,为分析百万级的单细胞转录组数据提供了重要的处理方法,有效减少了计算资源的占用,完成了对单细胞转录组缺失值的填补,明显地提高了单细胞数据解读的可靠性。
附图说明
图1为本发明所述的单细胞转录组缺失值填补方法流程图;
图2为步骤S1的流程示意图;
图3为实施例2的流程示意图;
图4为非阻塞多进程分块随机读取数据的流程示意图;
图5为黑色素瘤单细胞转录组数据中(GSE99330)WNT5A和SOX10两个基因的表达分布和FISH数据的差异图;
图6为黑色素瘤单细胞转录组数据中(GSE99330)与FISH数据都包含的16个基因的Giniindex散点图;
图7为图5中所示基因WNT5A和SOX10两个基因的共表达分布和FISH数据的差异图;
图8为黑色素瘤数据(GSE99330)和小鼠大脑运动感觉皮层数据(SRP135960)两套数据的基因表达分布和FISH数据间差异的量化对比图;
图9为小鼠视网膜数据随机抽取70%,50%,30%的转录本后的聚类与细胞注释准确率示意图;
图10为计算时间和内存占用的对比图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于深度混合网络的单细胞转录组缺失值填补方法,包括以下步骤:
S1:对单细胞测序数据进行预处理,得到表达矩阵;
S2:将表达矩阵进行标准化处理得到初始表达矩阵;
S3:构建基于深度学习的混合模型,包括自编码器和循环神经网络两部分;
S4:将初始表达矩阵输入自编码器进行降维处理,得到一个降维的特征矩阵和一个重建的表达矩阵;
S5:将降维的特征矩阵输入循环神经网络,预测所有基因的表达值,得到对应的预测表达矩阵;
S6:将步骤S5得到的预测表达矩阵作为自编码器的输入,重复循环步骤S4、步骤S5,直至到达预设的循环步数,得到多个预测表达矩阵;
S7:计算每一次循环的权重,将多个预测表达矩阵按照对应的权重进行加权平均,输出的结果作为混合模型的填补输出,完成对单细胞转录组缺失值的填补。
在具体实施过程中,本发明提供的一种基于深度混合网络的单细胞转录组缺失值填补方法,通过构建基于深度学习的混合模型,利用深度神经网络对复杂函数的拟合能力适应单细胞的表达分布,保证了本填补方法对各类单细胞转录组数据的通用性;同时保留了深度学习在超大细胞数目的数据集上的可拓展性,为分析百万级的单细胞转录组数据提供了重要的处理方法,有效减少了计算资源的占用,完成了对单细胞转录组缺失值的填补,明显地提高了单细胞数据解读的可靠性。
实施例2
更具体的,如图2所示,所述步骤S1具体包括以下步骤:
S11:采用现有的建库方法获取处理后细胞,进行测序得到序列数据,文件格式,如Fastq;
S12:利用映射软件,如Tophat2,对序列数据进行映射;
S13:采用数据分用软件,如UMI-tools,对映射后的序列数据按细胞进行划分,得到序列分用数据;
S14:利用定量软件,如FeatureCounts,将映射并分用后的结果进行定量,得到一个基因×细胞的表达矩阵。
更具体的,所述步骤S2具体为:
表达矩阵根据每个细胞的文库大小ls进行标准化,消除文库大小的影响,其中,对于细胞c的基因表达值向量Cc的标准化的公式为:
Figure BDA0002261424290000061
其中,sf表示所有细胞标准化后的文库大小,对表达矩阵内所有细胞进行标准化操作,以每个基因的最大表达值为标准,调整取值范围到0-1。
更具体的,在所述步骤S3中,所述自编码器包括编码器和解码器;所述编码器用于表达矩阵的降维处理,得到降维后的特征矩阵;所述解码器用于解码重建出新的表达矩阵。
更具体的,在所述步骤S3中,所述循环神经网络包括预测阵列和过滤器;其中:
所述预测阵列将所述自编码器得到的降维后的特征矩阵作为输入,预测所有基因的表达值,得到预测的表达矩阵;所述过滤器将预测的表达矩阵进行过滤,得到下一个循环神经网络输入。
更具体的,所述自编码器为单层隐藏层结构;所述预测阵列包含M个通道,每个通道对应一个基因m(1≤m≤M),每个通道包含四层结构,包括输入层,第一隐藏层、第二隐藏层和输出层;其中:
所述输入层用于输入降维后的特征矩阵;所述第一隐藏层用于计算所述循环神经网络每一个循环的权重,用于所述步骤S7中;所述第二隐藏层的输出结果用于计算所述输出层上每个通道的权重;所述输出层用于输出最终的填补输出。
更具体的,所述输出层包括两个通道,每个通道上包含1个神经元,其输入为第二隐藏层的输出,利用sigmoid激活函数得到每个通道的权重;如其中一个通道的权重为p,则另一个通道的权重为1-p。
更具体的,所述第一隐藏层上包含1个神经元的权重计算网络,所述权重计算网络根据第一隐藏层在每次循环的输出值,通过计算sigmoid激活函数得到每个循环的权重,用于所述步骤S7中。
在具体实施过程中,如图3所示,循环步数t满足关系:0≤t<T,参数T为预设的循环步数;t=0时,将初始表达矩阵
Figure BDA0002261424290000071
输入混合模型中,经过编码器后得到降维的特征矩阵
Figure BDA0002261424290000072
特征矩阵
Figure BDA0002261424290000073
经过解码器得到重建的表达矩阵
Figure BDA0002261424290000074
所述的特征矩阵
Figure BDA0002261424290000075
经过预测阵列,对所有的基因表达值进行预测,得到预测表达矩阵
Figure BDA0002261424290000076
其中,在预测第m个基因时,所述预测阵列将特征矩阵
Figure BDA0002261424290000077
作为输入层,第一隐藏层表示为
Figure BDA0002261424290000078
第二隐藏层表示为
Figure BDA0002261424290000079
将第一隐藏层输出的权重值表示为
Figure BDA00022614242900000710
第二隐藏层输出的权重值表示为
Figure BDA00022614242900000711
则有输出层两个通道的权重系数分别为
Figure BDA00022614242900000712
Figure BDA00022614242900000713
将预测表达矩阵
Figure BDA00022614242900000714
在过滤器中进行过滤,具体表达式为:
Figure BDA00022614242900000715
过滤出满足式子的部分,得到新的表达矩阵
Figure BDA0002261424290000081
作为编码器的输入,此时t=t+1。当t=T时,所述混合模型停止循环,则在整个循环过程中的重建表达表示为:
Figure BDA0002261424290000082
填补输出表示为:
Figure BDA0002261424290000083
所述的填补输出则为混合模型的填补输出,参数at由每次循环中第一隐藏层输出的权重值计算出。
实施例3
更具体的,如图4所示,所述混合模型的应用过程中,采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型;具体过程为:
输入单细胞数据文件的存储地址,该文件满足存取矩阵并进行分块读取的任意类型;
根据存储地址,读取文件所存储的单细胞转录组矩阵的维度信息,包括细胞数目和基因数目,并输入对应的细胞名称,基因名称;
将所有细胞按顺序划分成多个数据簇,并为每个数据簇标记上序号,所有簇序号作为一个序号池;
根据序号池建立一个副本,每次不放回地随机抽取一定个数的簇序号,抽取出数据集合,若该副本数据抽取完毕则重新建立副本进行抽取;
程序启动处理子进程对抽取得到的数据集合进行处理;子进程的数目为任意个,每个启动的子进程的启动顺序及处理内容会被记录,确保处理结果准确地发送至准确的混合模型输入管道中。
更具体的,在所述处理子进程中,连续读取每个数据集合中的每个数据簇并进行相关操作,包括过滤、随机打乱和计算每个细胞的文库大小,并对操作完的数据进行打包,在程序中保存并输入至所述混合模型输入管道中。
在具体实施过程中,采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型,采用多进程从文件中读取数据,每个进程可以随机读取多个小块数据,并打乱顺序,按照批次大小输入到管道中,解决了现有的导入方法由于内存占用过大而存在的无法应用到大数据上的缺陷。
实施例4
在具体实施过程中,首先采用黑色素瘤单细胞转录组数据(GSE99330),对比了免疫荧光原位杂交技术(FISH)的基因分布情况。如图5所示,原始数据中,WNT5A(99.847%表达为0)和SOX10(85.173%表达为0)两个基因的表达分布都与FISH差异明显。混合模型填补之后,两个基因的表达分布都与FISH非常相似。如图6所示,采用GINI index量化单细胞转录组数据与FISH都包含的16个基因的表达分布,混合模型在参与对比的6个方法中表现最好。如图7所示,大量的缺失造成WNT5A和SOX10的共表达分布在单细胞转录组数据中缺失,无法反应真实的基因间关系。多数方法能够在不同程度上修复基因的共表达分布,还原真实的基因间关系。Fasano and Franceschini's指标(Fasano,G.,et al.“Amultidimensional version of the Kolmogorov–Smirnov test(Kolmogorov–Smirnov检验的多维度版本)”Monthly Notices of the Royal Astronomical Society225,155-170,1987)能够反映出基因间共表达分布和FISH数据的差异。混合模型在参与对比的6个方法中表现最好。最后,如图8所示,通过对两套数据的综合对比(黑色素瘤数据(GSE99330)和小鼠大脑运动感觉皮层数据(SRP135960))发现有些方法明显只能较好的适应其中一套数据,比如SAVER只对黑色素瘤数据适应较好,而混合模型能够较好的适应两套数据,这说明混合模型能够在不假设分布的情况下较好的适应各种表达分布,对单细胞数据具有通用性能。
在具体实施过程中,采用小鼠视网膜数据(GSE63473)按照一定比例(30%,50%,70%原有转录本数量)降低转录本数量,用ARI指标评估聚类得到的细胞类型注释与原研究的细胞类型注释差异。单细胞领域中最重要的分析就是细胞类型解读,此方法可以评估能否在更低的测序深度得到与原论文相同的细胞类型结果。如图9所示,可以看到30%的转录本时,原始数据聚类的ARI(Santos,J.M.,et al.“On the Use of the Adjusted RandIndex as a Metric for Evaluating Supervised Classification(关于使用调整后的兰德指数作为评估监督分类的指标)”Int.Conference on Artificial Neural Networks-ICANN,175-184,2009)下降明显,细胞类型信号减弱,少数几个细胞类型丢失。混合模型在三个降采样方案中都保持非常高的ARI,30%时只有轻微的下降,且能够恢复原始数据丢失的几个细胞类型,对比的其他方法则丢失了更多的细胞类型。这说明混合模型能够非常好的修复重要的生物学信号,达到领域中的先进水平。
在具体实施过程中,如图10所示,对比六种方法在不同细胞数量下(1000个基因)的填补时间和内存占用。采用非阻塞多进程分块随机读取数据的方法的混合模型能够处理达到260万细胞的数据集,且填补时间(1小时)大大少于其他的方法。在260万细胞数据集上,内存占用只有9.16G,大大低于第二scVI(64.74G),理论上能够处理更大的,甚至到千万级的单细胞数据集。这说明混合模型具有非常好的可扩展性,为分析未来超大的单细胞数据集提供支持。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,包括以下步骤:
S1:对单细胞测序并进行预处理,得到表达矩阵;
S2:将表达矩阵进行标准化处理得到初始表达矩阵;
S3:构建基于深度学习的混合模型,包括自编码器和循环神经网络两部分;
S4:将初始表达矩阵输入自编码器进行降维处理,得到一个降维的特征矩阵和一个重建的表达矩阵;
S5:将降维的特征矩阵输入循环神经网络,预测所有基因的表达值,得到对应的预测表达矩阵;
S6:将步骤S5得到的预测表达矩阵作为自编码器的输入,重复循环步骤S4、步骤S5,直至到达预设的循环步数,得到多个预测表达矩阵;
S7:计算每一次循环的权重,将多个预测表达矩阵按照对应的权重进行加权平均,输出的结果作为混合模型的填补输出,完成对单细胞转录组缺失值的填补。
2.根据权利要求1所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,所述步骤S1具体包括以下步骤:
S11:采用现有的建库方法获取处理后细胞,进行测序得到序列数据,文件格式,如Fastq;
S12:利用映射软件,如Tophat2,对序列数据进行映射;
S13:采用数据分用软件,如UMI-tools,对映射后的序列数据按细胞进行划分,得到序列分用数据;
S14:利用定量软件,如FeatureCounts,将映射并分用后的结果进行定量,得到一个基因×细胞的表达矩阵。
3.根据权利要求1所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,所述步骤S2具体为:
表达矩阵根据每个细胞的文库大小ls进行标准化,消除文库大小的影响,其中,对于细胞c的基因表达值向量Cc的标准化的公式为:
Figure FDA0002261424280000011
其中,sf表示所有细胞标准化后的文库大小,对表达矩阵内所有细胞进行标准化操作,以每个基因的最大表达值为标准,调整取值范围到0-1。
4.根据权利要求1所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,在所述步骤S3中,所述自编码器包括编码器和解码器;所述编码器用于表达矩阵的降维处理,得到降维后的特征矩阵;所述解码器用于解码重建出新的表达矩阵。
5.根据权利要求4所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,在所述步骤S3中,所述循环神经网络包括预测阵列和过滤器;其中:
所述预测阵列将所述自编码器得到的降维后的特征矩阵作为输入,预测所有基因的表达值,得到预测的表达矩阵;所述过滤器将预测的表达矩阵进行过滤,得到下一个循环神经网络输入。
6.根据权利要求5所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,所述自编码器为单层隐藏层结构;所述预测阵列包含M个通道,每个通道对应一个基因m(1≤m≤M),每个通道包含四层结构,包括输入层,第一隐藏层、第二隐藏层和输出层;其中:
所述输入层用于输入降维后的特征矩阵;所述第一隐藏层用于计算所述循环神经网络每一个循环的权重,用于所述步骤S7中;所述第二隐藏层的输出结果用于计算所述输出层上每个通道的权重;所述输出层用于输出最终的填补输出。
7.根据权利要求6所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,所述输出层包括两个通道,每个通道上包含1个神经元,其输入为第二隐藏层的输出,利用sigmoid激活函数得到每个通道的权重;如其中一个通道的权重为p,则另一个通道的权重为1-p。
8.根据权利要求7所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,所述第一隐藏层上包含1个神经元的权重计算网络,所述权重计算网络根据第一隐藏层在每次循环的输出值,通过计算sigmoid激活函数得到每个循环的权重,用于所述步骤S7中。
9.根据权利要求1~8任一项所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,所述混合模型的应用过程中,采用非阻塞多进程分块随机读取数据的方法将单细胞数据输入混合模型;具体过程为:
输入单细胞数据文件的存储地址,该文件满足存取矩阵并进行分块读取的任意类型;
根据存储地址,读取文件所存储的单细胞转录组矩阵的维度信息,包括细胞数目和基因数目,并输入对应的细胞名称,基因名称;
将所有细胞按顺序划分成多个数据簇,并为每个数据簇标记上序号,所有簇序号作为一个序号池;
根据序号池建立一个副本,每次不放回地随机抽取一定个数的簇序号,抽取出数据集合,若该副本数据抽取完毕则重新建立副本进行抽取;
程序启动处理子进程对抽取得到的数据集合进行处理;子进程的数目为任意个,每个启动的子进程的启动顺序及处理内容会被记录,确保处理结果准确地发送至准确的混合模型输入管道中。
10.根据权利要求9所述的一种基于深度混合网络的单细胞转录组缺失值填补方法,其特征在于,在所述处理子进程中,连续读取每个数据集合中的每个数据簇并进行相关操作,包括过滤、随机打乱和计算每个细胞的文库大小,并对操作完的数据进行打包,在程序中保存并输入至所述混合模型输入管道中。
CN201911072613.5A 2019-11-05 2019-11-05 一种基于深度混合网络的单细胞转录组缺失值填补方法 Active CN110957009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911072613.5A CN110957009B (zh) 2019-11-05 2019-11-05 一种基于深度混合网络的单细胞转录组缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911072613.5A CN110957009B (zh) 2019-11-05 2019-11-05 一种基于深度混合网络的单细胞转录组缺失值填补方法

Publications (2)

Publication Number Publication Date
CN110957009A true CN110957009A (zh) 2020-04-03
CN110957009B CN110957009B (zh) 2023-05-12

Family

ID=69976627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911072613.5A Active CN110957009B (zh) 2019-11-05 2019-11-05 一种基于深度混合网络的单细胞转录组缺失值填补方法

Country Status (1)

Country Link
CN (1) CN110957009B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985704A (zh) * 2020-08-11 2020-11-24 上海华力微电子有限公司 预测晶圆失效率的方法及其装置
CN112183723A (zh) * 2020-09-17 2021-01-05 西北工业大学 一种针对临床检测数据缺失问题的数据处理方法
CN112712855A (zh) * 2020-12-28 2021-04-27 华南理工大学 一种基于联合训练的含缺失值基因微阵列的聚类方法
CN112992267A (zh) * 2021-04-13 2021-06-18 中国人民解放军军事科学院军事医学研究院 一种单细胞的转录因子调控网络预测方法及装置
CN113160886A (zh) * 2021-04-02 2021-07-23 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN113257364A (zh) * 2021-05-26 2021-08-13 南开大学 基于多目标进化的单细胞转录组测序数据聚类方法及系统
CN113838531A (zh) * 2021-09-19 2021-12-24 复旦大学 一种基于转录组数据和机器学习策略评估细胞衰老程度的方法
CN114944194A (zh) * 2022-05-20 2022-08-26 南开大学 一种推断空间转录组内细胞亚群表达模式的方法及系统
CN114974421A (zh) * 2022-05-20 2022-08-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN115394358A (zh) * 2022-08-31 2022-11-25 西安理工大学 基于深度学习的单细胞测序基因表达数据插补方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846261A (zh) * 2018-04-26 2018-11-20 浙江工业大学 基于可视图算法的基因表达时序数据分类方法
CN109033743A (zh) * 2018-07-25 2018-12-18 上海交通大学 一种降低单细胞转录组数据中技术噪声的方法
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110060729A (zh) * 2019-03-28 2019-07-26 广州序科码生物技术有限责任公司 一种基于单细胞转录组聚类结果注释细胞身份的方法
CN110111848A (zh) * 2019-05-08 2019-08-09 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN110349625A (zh) * 2019-07-23 2019-10-18 中国科学院心理研究所 一种人类大脑基因表达时空常模的建立方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846261A (zh) * 2018-04-26 2018-11-20 浙江工业大学 基于可视图算法的基因表达时序数据分类方法
CN109033743A (zh) * 2018-07-25 2018-12-18 上海交通大学 一种降低单细胞转录组数据中技术噪声的方法
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110060729A (zh) * 2019-03-28 2019-07-26 广州序科码生物技术有限责任公司 一种基于单细胞转录组聚类结果注释细胞身份的方法
CN110111848A (zh) * 2019-05-08 2019-08-09 南京鼓楼医院 一种基于rnn-cnn神经网络融合算法的人体周期表达基因识别方法
CN110349625A (zh) * 2019-07-23 2019-10-18 中国科学院心理研究所 一种人类大脑基因表达时空常模的建立方法

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111985704A (zh) * 2020-08-11 2020-11-24 上海华力微电子有限公司 预测晶圆失效率的方法及其装置
CN112183723A (zh) * 2020-09-17 2021-01-05 西北工业大学 一种针对临床检测数据缺失问题的数据处理方法
CN112712855A (zh) * 2020-12-28 2021-04-27 华南理工大学 一种基于联合训练的含缺失值基因微阵列的聚类方法
CN112712855B (zh) * 2020-12-28 2022-09-20 华南理工大学 一种基于联合训练的含缺失值基因微阵列的聚类方法
CN113160886B (zh) * 2021-04-02 2023-04-07 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN113160886A (zh) * 2021-04-02 2021-07-23 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN112992267A (zh) * 2021-04-13 2021-06-18 中国人民解放军军事科学院军事医学研究院 一种单细胞的转录因子调控网络预测方法及装置
CN112992267B (zh) * 2021-04-13 2024-02-09 中国人民解放军军事科学院军事医学研究院 一种单细胞的转录因子调控网络预测方法及装置
CN113257364A (zh) * 2021-05-26 2021-08-13 南开大学 基于多目标进化的单细胞转录组测序数据聚类方法及系统
CN113838531A (zh) * 2021-09-19 2021-12-24 复旦大学 一种基于转录组数据和机器学习策略评估细胞衰老程度的方法
CN113838531B (zh) * 2021-09-19 2024-03-29 复旦大学 一种基于转录组数据和机器学习策略评估细胞衰老程度的方法
CN114974421A (zh) * 2022-05-20 2022-08-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN114944194A (zh) * 2022-05-20 2022-08-26 南开大学 一种推断空间转录组内细胞亚群表达模式的方法及系统
CN114974421B (zh) * 2022-05-20 2024-04-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统
CN115394358B (zh) * 2022-08-31 2023-05-12 西安理工大学 基于深度学习的单细胞测序基因表达数据插补方法和系统
CN115394358A (zh) * 2022-08-31 2022-11-25 西安理工大学 基于深度学习的单细胞测序基因表达数据插补方法和系统

Also Published As

Publication number Publication date
CN110957009B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN110957009A (zh) 一种基于深度混合网络的单细胞转录组缺失值填补方法
Försch et al. Artificial intelligence in pathology
CN107742061B (zh) 一种蛋白质相互作用预测方法、系统和装置
CN112687327B (zh) 一种基于多任务和多模态的癌症生存分析系统
CN107577924B (zh) 一种基于深度学习的长链非编码rna亚细胞位置预测方法
CN116189179A (zh) 循环肿瘤细胞扫描分析设备
CN112036513B (zh) 基于内存增强潜在空间自回归的图像异常检测方法
CN109165699B (zh) 细粒度图像分类方法
CN113112446A (zh) 基于残差卷积神经网络的隧道围岩级别智能判定方法
US20230306598A1 (en) Systems and methods for mesothelioma feature detection and enhanced prognosis or response to treatment
CN113593714A (zh) 一种多分类新冠肺炎病例的检测方法、系统、设备及介质
CN114334012A (zh) 一种基于多组学数据识别癌症亚型的方法
Wu et al. Aro: a machine learning approach to identifying single molecules and estimating classification error in fluorescence microscopy images
CN115393293A (zh) 基于UNet网络与分水岭算法的电镜红细胞分割与定位方法
CN116310425A (zh) 一种细粒度图像检索方法、系统、设备及存储介质
CN117557872B (zh) 一种优化存储模式的无监督异常检测方法及装置
CN116994745B (zh) 一种基于多模态模型的癌症患者预后预测方法及装置
CN116959585B (zh) 基于深度学习的全基因组预测方法
CN114529752A (zh) 一种基于深度神经网络的样本增量学习方法
CN116779060A (zh) 一种基于自回归式模型的药物设计方法
WO2023196928A2 (en) True variant identification via multianalyte and multisample correlation
CN109657795B (zh) 一种基于属性选择的硬盘故障预测方法
CN114496099A (zh) 细胞功能注释方法、装置、设备及介质
CN112712855A (zh) 一种基于联合训练的含缺失值基因微阵列的聚类方法
CN112712194A (zh) 一种用电成本智能优化分析的电量预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant