CN115394358B - 基于深度学习的单细胞测序基因表达数据插补方法和系统 - Google Patents

基于深度学习的单细胞测序基因表达数据插补方法和系统 Download PDF

Info

Publication number
CN115394358B
CN115394358B CN202211055015.9A CN202211055015A CN115394358B CN 115394358 B CN115394358 B CN 115394358B CN 202211055015 A CN202211055015 A CN 202211055015A CN 115394358 B CN115394358 B CN 115394358B
Authority
CN
China
Prior art keywords
cell
gene
expression
neural network
genes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211055015.9A
Other languages
English (en)
Other versions
CN115394358A (zh
Inventor
李爱民
牛俊杰
费蓉
周红芳
李军怀
黑新宏
刘雅君
刘光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202211055015.9A priority Critical patent/CN115394358B/zh
Publication of CN115394358A publication Critical patent/CN115394358A/zh
Application granted granted Critical
Publication of CN115394358B publication Critical patent/CN115394358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及基于深度学习的单细胞测序基因表达数据插补方法和系统,涉及生物信息学技术领域,该方法为获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞‑基因矩阵;过滤所述数据集的细胞‑基因矩阵,并聚类筛选高表达基因;搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞‑基因矩阵中。本发明使用统计模型筛选出来的高表达基因作为深度学习模型的输入,保留了细胞之间的相似性,得到的基因有更密切的联系,通过神经网络学习细胞间的特征,使得在单细胞插补阶段有更好的准确率。

Description

基于深度学习的单细胞测序基因表达数据插补方法和系统
技术领域
本发明涉及生物信息学技术领域,特别是涉及一种基于深度学习的单细胞测序基因表达数据插补方法和系统。
背景技术
在单细胞转录组测序领域,单细胞基因表达数据插补一向是很重要的研究方向。单细胞基因表达数据矩阵中既有真实表达的零,也有表达值含量过低导致的很多非零项缺失成为零。后者这种现象称为缺失现象。
目前的插补方法往往考虑细胞间的联系,忽略了高表达基因的作用。
发明内容
本发明的目的为了解决上述背景中存在的不足,而提出的一种基于统计模型和深度学习的单细胞测序基因表达数据插补的方法。
为实现上述目的,本发明提供了以下技术方案:
第一方面,本申请实施例提供了一种基于深度学习的单细胞测序基因表达数据插补方法,包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
作为本发明的进一步方案,所述数据集从10X Genomics单细胞数据库下载,所述数据集为一个由多个细胞样本的基因表达水平组成的二维矩阵,二维矩阵中的每行代表的是一个基因在不同细胞样本中的表达水平,每列表示一个细胞样本中各个基因的表达水平。
作为本发明的进一步方案,过滤所述数据集的细胞-基因矩阵,包括以下步骤:
遍历整个二维矩阵,若一个细胞样本中有表达数值的基因小于200个,则将该细胞样本过滤掉,从二维矩阵中删除该列;
若一个基因有表达数值的细胞数量小于3个,将该基因过滤掉,从二维矩阵中删除该行;
删除若干不满足条件的基因和细胞之后的二维矩阵为细胞-基因矩阵,即原始矩阵;其中,所述原始矩阵的每行为一个基因,每列为一个细胞样本,所述原始矩阵中的值为细胞中基因的表达水平。
作为本发明的进一步方案,聚类筛选高表达基因时,包括以下步骤:
使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
作为本发明的进一步方案,搭建神经网络模型,并将筛选后的高表达基因输入到神经网络模型进行训练和测试,得到预测模型,包括:
将筛选出的高表达基因划分为训练样本数据集和测试样本数据集;
利用训练样本数据集对神经网络模型进行训练,利用测试样本数据集对神经网络模型进行测试,得到预测模型;
其中,所述神经网络模型为搭建的五层神经网络模型,所述神经网络模型的第一层为输入层,第二层为全连接层,激活函数为线性整流函数,第三层为Dropout层,第四层为全连接层,第五层为输出层。
作为本发明的进一步方案,将得到的预测结果插补到细胞-基因矩阵中,替换细胞-基因矩阵中低表达基因的零值。
作为本发明的进一步方案,聚类筛选高表达基因时,基于原始矩阵进行聚类分析,以每个细胞作为单个节点进行相似性寻找来源于同一个亚群的细胞,形成一个个簇,在输入神经网络模型时以聚类好的簇为单位,每个簇使用一个新的神经网络,选择每个簇中的高表达基因分块进入神经网络模型训练。
作为本发明的进一步方案,将低表达基因输入到预测模型中得到的预测结果为低表达基因体现的表达值,且预测结果按照簇的方式插补到原始矩阵中。
作为本发明的进一步方案,所述细胞-基因矩阵保存为csv文件,预测结果插补到原始矩阵后更新并保存为新的csv文件。
第二方面,本申请实施例还提供了一种基于深度学习的单细胞测序基因表达数据插补系统,基于上述基于深度学习的单细胞测序基因表达数据插补方法进行识别细胞中的缺失值,该系统包括:
数据集获取模块,用于获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
基因筛选模块,用于过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
模型训练模块,用于搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;以及
预测插补模块,用于将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述基于深度学习的单细胞测序基因表达数据插补方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述基于深度学习的单细胞测序基因表达数据插补方法的步骤。
本发明实施例提供的技术方案可以包括以下有益效果:
本申请实施例提供一种基于深度学习的单细胞测序基因表达数据插补方法和系统,通过使用统计模型筛选出高表达基因,以高表达基因作为数据集训练模型,修正网络中的参数,训练结束后将低表达基因作为输入,输出网络预测的基因表达值,将最终结果插补到原始表达矩阵中,根据人类数据集的对照评估表明,该方法可以有效的识别细胞中的缺失值。
本发明显著提高了数据集的皮尔森相关系数指标,基于统计模型和深度学习的单细胞测序基因表达数据插补,本发明的方法使用统计模型筛选出来的高表达基因作为深度学习模型的输入,保留了细胞之间的相似性,得到的基因有更密切的联系,通过神经网络学习细胞间的特征,使得在单细胞插补阶段有更好的准确率。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例。在附图中:
图1为本发明示例性实施例中一种基于深度学习的单细胞测序基因表达数据插补方法的流程图;
图2为本发明示例性实施例中一种基于深度学习的单细胞测序基因表达数据插补方法中过滤数据集的流程图;
图3为本发明示例性实施例中一种基于深度学习的单细胞测序基因表达数据插补方法中聚类筛选高表达基因的流程图;
图4为本发明示例性实施例中一种基于深度学习的单细胞测序基因表达数据插补方法中神经网络模型的架构图;
图5为本发明实施例中一种基于深度学习的单细胞测序基因表达数据插补系统的结构框图;
图6为本发明一些实施例中一种电子设备的硬件架构图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面,结合附图以及具体实施方式,对本申请做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。
由于目前的插补方法往往考虑细胞间的联系,忽略了高表达基因的作用。鉴于此,本申请提供了一种基于深度学习的单细胞测序基因表达数据插补方法和系统,使用统计模型筛选出高表达基因,以高表达基因作为数据集训练模型,修正网络中的参数,训练结束后将低表达基因作为输入,输出网络预测的基因表达值,将最终结果插补到原始表达矩阵中,根据人类数据集的对照评估表明,该方法可以有效的识别细胞中的缺失值。
图1为本申请实施例提供的一种基于深度学习的单细胞测序基因表达数据插补方法的流程图,该方法可以由基于深度学习的单细胞测序基因表达数据插补系统来执行。
如图1所示,本申请实施例中基于深度学习的单细胞测序基因表达数据插补方法,包括以下步骤S10~步骤S40:
步骤S10、获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵。
步骤S20、过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因。
步骤S30、搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型。
步骤S40、将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
为了基于统计模型和深度学习对单细胞测序基因表达数据插补,在一些实施例中,所述数据集从10X Genomics单细胞数据库下载。其中,所述数据集为一个由多个细胞样本的基因表达水平组成的二维矩阵,二维矩阵中的每行代表的是一个基因在不同细胞样本中的表达水平,每列表示一个细胞样本中各个基因的表达水平。
在本实施例中,参见图2所示,过滤所述数据集的细胞-基因矩阵,包括以下步骤S101~步骤S103:
骤S101、遍历整个二维矩阵,若一个细胞样本中有表达数值的基因小于200个,则将该细胞样本过滤掉,从二维矩阵中删除该列;
骤S102、若一个基因有表达数值的细胞数量小于3个,将该基因过滤掉,从二维矩阵中删除该行;
骤S103、删除若干不满足条件的基因和细胞之后的二维矩阵为细胞-基因矩阵,即原始矩阵。
其中,所述原始矩阵的每行为一个基因,每列为一个细胞样本,所述原始矩阵中的值为细胞中基因的表达水平。
在本实施例中,一般从10X Genomics官网上下载人类数据集293T和Jurkat,筛选并删除基因表达数量低于200的细胞和在少于3个细胞中表达的基因,原本293T有32738个基因和2885个细胞,经过筛选剩余16316个基因,细胞数量没有变化,仍为2885个。
Jurkat原本有26024个基因和3258个细胞,筛选后剩余15269个基因,细胞数量没有变化。本申请将筛选好的细胞-基因矩阵作为原始矩阵。
在一些实施例中,参见图3所示,聚类筛选高表达基因时,包括以下步骤S201~步骤S203:
步骤S201、使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
步骤S202、采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
步骤S203、采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
其中,识别高表达基因时,首先,在原始矩阵的基础上做聚类分析,以每个细胞作为单个节点寻找与自己最相似,来源于同一个亚群的细胞,形成一个个簇,在这里使用的是k-means聚类算法,本申请分别尝试了k值取5,10,15时的聚类情况,根据聚类指标调整兰德系数(ARI)的结果判定k值为5时效果最佳。
本发明的实施例中,使用两种统计模型来确定隶属度,非零值含量可以用伽马-正态混合模型统计。缺失值数量较多的细胞亚群由伽马模型统计,即统计低表达基因,缺失值数量较少的细胞亚群由正态模型确定,即高表达基因。每一个聚类簇都会有一个单独的混合模型,隶属度按照统计模型给出。其中,伽马分布与正态分布的模型公式分别为:
Figure BDA0003824658020000081
Figure BDA0003824658020000082
其中,X是一个向量,表示一个细胞中基因的表达水平,e是自然常数,α,β分别为伽马分布的形状参数和逆尺度参数,μ,σ分别为正态分布的均值与标准差,Γ(α)代表参数α的阶乘函数。f(X,α,β)表示一个细胞隶属于一个细胞亚群的隶属度。
假设在一个簇中低表达基因分布的概率为ρ,则每一个簇中的基因的密度函数满足:
Figure BDA0003824658020000083
其中,xi为输入的细胞i中基因表达水平,ρ为单细胞中基因表达水平缺失数量少的概率,(1-ρ)是单细胞中基因表达水平缺失数量大的概率。使用期望最大化算法(Expectation-Maximizationalgorithm,简称EM算法)推导出伽马-正态模型的最大期望。EM算法迭代直到更新结束,选取阈值为0.5,若推断结果大于0.5则被称为高表达基因,否则是低表达基因。
在一些实施例中,搭建神经网络模型,并将筛选后的高表达基因输入到神经网络模型进行训练和测试,得到预测模型,包括:
将筛选出的高表达基因划分为训练样本数据集和测试样本数据集;
利用训练样本数据集对神经网络模型进行训练,利用测试样本数据集对神经网络模型进行测试,得到预测模型;
其中,参见图4所示,所述神经网络模型为搭建的五层神经网络模型,所述神经网络模型的第一层为输入层,第二层为全连接层,激活函数为线性整流函数,第三层为Dropout层,第四层为全连接层,第五层为输出层。
在一些实施例中,将得到的预测结果插补到细胞-基因矩阵中,替换细胞-基因矩阵中低表达基因的零值。
在本申请的实施例中,插补的作用是便于单细胞测序数据的后续分析,提高后续分析结果的准确性。
在一些实施例中,聚类筛选高表达基因时,基于原始矩阵进行聚类分析,以每个细胞作为单个节点进行相似性寻找来源于同一个亚群的细胞,形成一个个簇,在输入神经网络模型时以聚类好的簇为单位,每个簇使用一个新的神经网络,选择每个簇中的高表达基因分块进入神经网络模型训练。
在搭建神经网络模型时,以先前聚类好的簇为单位,每个簇使用一个新的神经网络。本申请将每个簇中选择好的高表达基因分块进入神经网络训练,输入层为512个神经元,分批次每512个为一组训练。反复迭代直到所有基因训练完毕。网络深度必须保持在合适的范围内,太浅训练不充分,太深则容易过拟合导致节点平滑。
网络架构一共有五层,具体的神经网络的模型如图4所示,第一层为包含512个神经节点的输入层,第二层为全连接层,激活函数为ReLu,细胞节点为256个,第三层为Dropout层,经尝试本申请选择dropout率为20%。加入第二层激活函数与第三层Dropout层的目的是为了减少参数之间的相互依存关系,缓解过拟合问题的发生。第四层与第五层仍为全连接层,细胞节点都为512个,加入这两层的目的是为了更好的加大各细胞之间的联系,并且将学习到的特征映射到全局样本空间。
损失函数使用均方误差(MSE)来减小输入层与输出层的误差,给具有较高表达值的基因更高的权重。高表达基因中95%的数据作为训练集训练,5%作为测试集。网络的初始化学习率为0.0001,每一个epoch的周期将自动修改学习率,其中优化器为Adam。
将筛选的高表达基因输入到神经网络中训练参数。输出结果为低表达基因应当体现出来的表达值。
在一些实施例中,将低表达基因输入到预测模型中得到的预测结果为低表达基因体现的表达值,且预测结果按照簇的方式插补到原始矩阵中。
所述细胞-基因矩阵保存为csv文件,预测结果插补到原始矩阵后更新并保存为新的csv文件。
最后,人类数据集293T的皮尔森相关系数为0.91,Jurkat的皮尔森相关系数为0.92。
因此,在本申请实施例的基于深度学习的单细胞测序基因表达数据插补方法中,首先把基因表达数量小于200个的细胞样本剔除,并且,把在少于3个细胞中表达的基因剔除;然后,使用聚类算法聚类,将表达类似的细胞聚集到一起,利用统计模型筛选出高表达基因;并搭建神经网络模型,第一层为输入层,第二层为全连接层,激活函数为ReLu,第三层为Dropout层,第四层为全连接层,第五层为输出层,将高表达基因作为输入层输入到神经网络中;后将神经网络得到的预测结果插补到原始矩阵中。
本发明的基于深度学习的单细胞测序基因表达数据插补方法,显著提高了数据集的皮尔森相关系数指标,基于统计模型和深度学习的单细胞测序基因表达数据插补方法,使用统计模型筛选出来的高表达基因作为深度学习模型的输入,保留了细胞之间的相似性,得到的基因有更密切的联系,通过神经网络学习细胞间的特征,使得在单细胞插补阶段有更好的准确率。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要注意的是,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
图5是本申请实施例提供的一种基于深度学习的单细胞测序基因表达数据插补系统的结构示意图。该系统可有软件和/或硬件实现,一般集成在电子设备中。如图5所示,该系统可以包括:
数据集获取模块100,用于获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
在本申请实施例中,数据集获取模块100获取数据集时,数据集可以从10XGenomics单细胞数据库下载。其中,所述数据集为一个由多个细胞样本的基因表达水平组成的二维矩阵,二维矩阵中的每行代表的是一个基因在不同细胞样本中的表达水平,每列表示一个细胞样本中各个基因的表达水平。
基因筛选模块200,用于过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
在本实施例中,基因筛选模块200筛选高表达基因时,通过遍历整个二维矩阵,若一个细胞样本中有表达数值的基因小于200个,则将该细胞样本过滤掉,从二维矩阵中删除该列;若一个基因有表达数值的细胞数量小于3个,将该基因过滤掉,从二维矩阵中删除该行;删除若干不满足条件的基因和细胞之后的二维矩阵为细胞-基因矩阵,即原始矩阵。
其中,原始矩阵的每行为一个基因,每列为一个细胞样本,所述原始矩阵中的值为细胞中基因的表达水平。
模型训练模块300,用于搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
在本实施例中,模型训练模块300进行训练师,将筛选出的高表达基因划分为训练样本数据集和测试样本数据集;利用训练样本数据集对神经网络模型进行训练,利用测试样本数据集对神经网络模型进行测试,得到预测模型。
其中,搭建的五层神经网络模型的第一层为输入层,第二层为全连接层,激活函数为线性整流函数,第三层为Dropout层,第四层为全连接层,第五层为输出层。
预测插补模块400,用于将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
在本实施例中,预测插补模块400将筛选的高表达基因输入到神经网络中训练参数,输出结果为低表达基因应当体现出来的表达值。而且,将低表达基因输入到预测模型中得到的预测结果为低表达基因体现的表达值,且预测结果按照簇的方式插补到原始矩阵中。
本申请实施例的技术方案提供一种基于深度学习的单细胞测序基因表达数据插补系统,显著提高了数据集的皮尔森相关系数指标,基于统计模型和深度学习的单细胞测序基因表达数据插补方法,使用统计模型筛选出来的高表达基因作为深度学习模型的输入,保留了细胞之间的相似性,得到的基因有更密切的联系,通过神经网络学习细胞间的特征,使得在单细胞插补阶段有更好的准确率。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本实施例还提供一种电子设备,如图6所示,该电子设备包括多个电子设备1000,在实施例中基于深度学习的单细胞测序基因表达数据插补系统的组成部分可分散于不同的电子设备1000中,电子设备1000可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的电子设备1000至少包括但不限于:可通过系统总线相互通信连接的存储器1001、处理器1002。需要指出的是,图6仅示出了具有组件存储器1001和处理器1002的电子设备1000,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器1001(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器1001可以是电子设备1000的内部存储单元,例如该电子设备1000的硬盘或内存。在另一些实施例中,存储器1001也可以是电子设备1000的外部存储设备,例如该电子设备1000上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器1001还可以既包括电子设备1000的内部存储单元也包括其外部存储设备。本实施例中,存储器1001通常用于存储安装于电子设备的操作系统和各类应用软件,例如实施例的基于深度学习的单细胞测序基因表达数据插补系统等。此外,存储器1001还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器1002在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1002通常用于控制电子设备1000的总体操作。本实施例中,处理器1002用于运行存储器1001中存储的程序代码或者处理数据。本实施例电子设备的多个电子设备1000的处理器1002共同执行计算机程序时实现实施例的基于深度学习的单细胞测序基因表达数据插补方法,该方法包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可匹配存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。
本申请的实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例计算机可读存储介质存储实施例的基于深度学习的单细胞测序基因表达数据插补系统10,被处理器执行时实现实施例的基于深度学习的单细胞测序基因表达数据插补方法,该方法包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带系统;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的基于深度学习的单细胞测序基因表达数据插补操作,还可以执行本申请任意实施例所提供的基于深度学习的单细胞测序基因表达数据插补方法中的相关操作。
本申请实施例提供一种基于深度学习的单细胞测序基因表达数据插补方法和系统,通过使用统计模型筛选出高表达基因,以高表达基因作为数据集训练模型,修正网络中的参数,训练结束后将低表达基因作为输入,输出网络预测的基因表达值,将最终结果插补到原始表达矩阵中,根据人类数据集的对照评估表明,该方法可以有效的识别细胞中的缺失值。
本发明显著提高了数据集的皮尔森相关系数指标,基于统计模型和深度学习的单细胞测序基因表达数据插补,本发明的方法使用统计模型筛选出来的高表达基因作为深度学习模型的输入,保留了细胞之间的相似性,得到的基因有更密切的联系,通过神经网络学习细胞间的特征,使得在单细胞插补阶段有更好的准确率。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵,即细胞-基因矩阵;
过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;
将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中;
其中,聚类筛选高表达基因时,包括以下步骤:
使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
2.根据权利要求1所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,所述数据集从10X Genomics单细胞数据库下载,所述数据集为一个由多个细胞样本的基因表达水平组成的二维矩阵,二维矩阵中的每行代表的是一个基因在不同细胞样本中的表达水平,每列表示一个细胞样本中各个基因的表达水平。
3.根据权利要求2所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,过滤所述数据集的细胞-基因矩阵,包括以下步骤:
遍历整个二维矩阵,若一个细胞样本中有表达数值的基因小于200个,则将该细胞样本过滤掉,从二维矩阵中删除该列;
若一个基因有表达数值的细胞数量小于3个,将该基因过滤掉,从二维矩阵中删除该行;
删除若干不满足条件的基因和细胞之后的二维矩阵为细胞-基因矩阵,即原始矩阵;其中,所述原始矩阵的每行为一个基因,每列为一个细胞样本,所述原始矩阵中的值为细胞中基因的表达水平。
4.根据权利要求3所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,搭建神经网络模型,并将筛选后的高表达基因输入到神经网络模型进行训练和测试,得到预测模型,包括:
将筛选出的高表达基因划分为训练样本数据集和测试样本数据集;
利用训练样本数据集对神经网络模型进行训练,利用测试样本数据集对神经网络模型进行测试,得到预测模型;
其中,所述神经网络模型为搭建的五层神经网络模型,所述神经网络模型的第一层为输入层,第二层为全连接层,激活函数为线性整流函数,第三层为Dropout层,第四层为全连接层,第五层为输出层。
5.根据权利要求4所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,将得到的预测结果插补到细胞-基因矩阵中,替换细胞-基因矩阵中低表达基因的零值。
6.根据权利要求5所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,聚类筛选高表达基因时,基于原始矩阵进行聚类分析,以每个细胞作为单个节点进行相似性寻找来源于同一个亚群的细胞,形成一个个簇,在输入神经网络模型时以聚类好的簇为单位,每个簇使用一个新的神经网络,选择每个簇中的高表达基因分块进入神经网络模型训练。
7.根据权利要求6所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,将低表达基因输入到预测模型中得到的预测结果为低表达基因体现的表达值,且预测结果按照簇的方式插补到原始矩阵中。
8.根据权利要求6或7所述的基于深度学习的单细胞测序基因表达数据插补方法,其特征在于,所述细胞-基因矩阵保存为csv文件,预测结果插补到原始矩阵后更新并保存为新的csv文件。
9.一种基于深度学习的单细胞测序基因表达数据插补系统,其特征在于,基于权利要求1-8中任意一项所述基于深度学习的单细胞测序基因表达数据插补方法进行识别细胞中的缺失值,所述基于深度学习的单细胞测序基因表达数据插补系统,包括:
获取单细胞测序用数据集,其中,所述数据集为多个细胞样本的基因表达水平组成的二维矩阵;
基因筛选模块,用于过滤所述数据集的细胞-基因矩阵,并聚类筛选高表达基因;
模型训练模块,用于搭建神经网络模型,并将筛选出的高表达基因输入到神经网络模型进行训练和测试,得到预测模型;以及
预测插补模块,用于将低表达基因输入到预测模型中得到预测结果,将得到的预测结果插补到细胞-基因矩阵中;
其中,基因筛选模块进行聚类筛选高表达基因,包括:
使用聚类算法聚类,以细胞作为节点,细胞中的基因表达值作为特征值做k-means聚类;
采用欧式距离度量细胞的基因表达相似性,将特征值相似的细胞聚集后形成一个细胞亚群,利用伽马-正态混合模型分辨高表达基因和低表达基因;
采用伽马模型来统计缺失值数量超过预设阈值的细胞亚群,正态模型统计缺失值数量低于预设阈值的细胞亚群,并将高表达基因和低表达基因保存。
CN202211055015.9A 2022-08-31 2022-08-31 基于深度学习的单细胞测序基因表达数据插补方法和系统 Active CN115394358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211055015.9A CN115394358B (zh) 2022-08-31 2022-08-31 基于深度学习的单细胞测序基因表达数据插补方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211055015.9A CN115394358B (zh) 2022-08-31 2022-08-31 基于深度学习的单细胞测序基因表达数据插补方法和系统

Publications (2)

Publication Number Publication Date
CN115394358A CN115394358A (zh) 2022-11-25
CN115394358B true CN115394358B (zh) 2023-05-12

Family

ID=84124604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211055015.9A Active CN115394358B (zh) 2022-08-31 2022-08-31 基于深度学习的单细胞测序基因表达数据插补方法和系统

Country Status (1)

Country Link
CN (1) CN115394358B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116072210B (zh) * 2023-03-07 2023-08-18 电子科技大学 基于基因对的模型训练方法、装置、设备及存储介质
CN116401555A (zh) * 2023-06-07 2023-07-07 广州华银医学检验中心有限公司 双胞识别模型的构建方法、系统及存储介质
CN117995282A (zh) * 2023-06-19 2024-05-07 杭州联川基因诊断技术有限公司 增强单细胞rna测序数据中基因表达相互作用的方法、设备和介质
CN116994652B (zh) * 2023-09-22 2024-02-02 苏州元脑智能科技有限公司 基于神经网络的信息预测方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110957009A (zh) * 2019-11-05 2020-04-03 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN114974421A (zh) * 2022-05-20 2022-08-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102952854B (zh) * 2011-08-25 2015-01-14 深圳华大基因科技有限公司 单细胞分类和筛选方法及其装置
WO2016127944A1 (en) * 2015-02-10 2016-08-18 The Chinese University Of Hong Kong Detecting mutations for cancer screening and fetal analysis
WO2020047453A1 (en) * 2018-08-31 2020-03-05 Ampel Biosolutions, Llc Systems and methods for single-cell rna-seq data analysis
JP2022548960A (ja) * 2019-09-25 2022-11-22 リジェネロン・ファーマシューティカルズ・インコーポレイテッド 単一細胞rna-seqデータ処理
CN111785329B (zh) * 2020-07-24 2024-05-03 中国人民解放军国防科技大学 基于对抗自动编码器的单细胞rna测序聚类方法
CN114283885A (zh) * 2021-12-25 2022-04-05 重庆医科大学 一种前列腺癌的诊断模型构建方法
CN114927167A (zh) * 2022-06-08 2022-08-19 南京邮电大学 基于矩阵分解的迭代分块矩阵补全的细胞类型分类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110957009A (zh) * 2019-11-05 2020-04-03 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN114974421A (zh) * 2022-05-20 2022-08-30 南开大学 基于扩散-降噪的单细胞转录组测序数据补插方法及系统

Also Published As

Publication number Publication date
CN115394358A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN115394358B (zh) 基于深度学习的单细胞测序基因表达数据插补方法和系统
US10360517B2 (en) Distributed hyperparameter tuning system for machine learning
Celeux et al. Model selection for mixture models–perspectives and strategies
US10692587B2 (en) Global ancestry determination system
Cao et al. Accuracy of parameter estimation for auto-regulatory transcriptional feedback loops from noisy data
CN110827924B (zh) 基因表达数据的聚类方法、装置、计算机设备及存储介质
CN111027672A (zh) 一种基于交互式多尺度循环神经网络的时间序列预测方法
CN113657668A (zh) 基于lstm网络的电力负荷预测方法及系统
CN116401555A (zh) 双胞识别模型的构建方法、系统及存储介质
CN115391561A (zh) 图网络数据集的处理方法、装置、电子设备、程序及介质
Gong et al. Partial tail-correlation coefficient applied to extremal-network learning
CN116933035A (zh) 数据异常检测方法、装置、计算机设备和存储介质
CN116383441A (zh) 社群检测方法、装置、计算机设备和存储介质
CN114821248A (zh) 面向点云理解的数据主动筛选标注方法和装置
CN114579643A (zh) 快递业务量预测方法、装置及电子设备
CN114676928A (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
US9183503B2 (en) Sparse higher-order Markov random field
CN112884028A (zh) 一种系统资源调整方法、装置及设备
CN115600121B (zh) 数据分层分类方法及装置、电子设备、存储介质
CN113886360B (zh) 数据表分区方法、装置、计算机可读介质及电子设备
CN112509640B (zh) 基因本体项名称生成方法、装置及存储介质
CN115331066A (zh) 一种无监督特征选择方法、装置、设备和存储介质
CN117312550A (zh) 文本聚类方法、装置、计算机设备及存储介质
CN116012654A (zh) 一种显著降低图像标注开销的交互式增量学习方法和系统
CN117494947A (zh) 基于机器学习的居民用电量预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant