CN115101130A - 一种基于网络对抗学习的单细胞数据插补方法及系统 - Google Patents
一种基于网络对抗学习的单细胞数据插补方法及系统 Download PDFInfo
- Publication number
- CN115101130A CN115101130A CN202210760681.6A CN202210760681A CN115101130A CN 115101130 A CN115101130 A CN 115101130A CN 202210760681 A CN202210760681 A CN 202210760681A CN 115101130 A CN115101130 A CN 115101130A
- Authority
- CN
- China
- Prior art keywords
- single cell
- data
- network
- sequencing data
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 94
- 239000011159 matrix material Substances 0.000 claims abstract description 78
- 238000012163 sequencing technique Methods 0.000 claims abstract description 67
- 230000003993 interaction Effects 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 15
- 230000006916 protein interaction Effects 0.000 claims abstract description 11
- 230000006870 function Effects 0.000 claims description 25
- 230000014509 gene expression Effects 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 208000035126 Facies Diseases 0.000 claims description 2
- 238000012174 single-cell RNA sequencing Methods 0.000 abstract description 31
- 238000009826 distribution Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000003559 RNA-seq method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 108091032955 Bacterial small RNA Proteins 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000011953 bioanalysis Methods 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Genetics & Genomics (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Bioethics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及生物信息学技术领域,提供了一种基于网络对抗学习的单细胞数据插补方法及系统,包括:获取单细胞测序数据,构建计数矩阵;对计数矩阵进行预处理后,结合蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵;基于基因互作网络的拉普拉斯矩阵以及预处理后的计数矩阵中的单细胞测序数据,训练生成对抗网络;采用训练好的生成对抗网络,对单细胞测序数据进行基因插补。插补后的单细胞RNA测序数据可以更好的发现生物学规律。
Description
技术领域
本发明属于生物信息学技术领域,尤其涉及一种基于网络对抗学习的单细胞数据插补方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
RNA测序(RNA-seq)是反映信使RNA、小RNA、非编码RNA等表达水平的转录组测序技术。RNA-seq数据广泛应用于基因表达分析、新转录本发现、选择性剪接、基因鉴定等生物分析过程,并为理解生物系统提供新的见解。传统的bulk RNA-seq数据统计数千个细胞的平均水平,这使得从测序数据中学习细胞异质性特征和评估基本生物单元(细胞)变得困难。更先进的单细胞RNA测序(scRNA-seq)以单细胞为样本单位,以高分辨率和全基因组规模测量单个细胞中的RNA分子,从而能够同时分析基因表达的同质性和细胞之间的异质性。单细胞RNA测序作为一种流行且强大的技术,广泛应用于分析不同生物组织中单个细胞的基因型和表型异质性,发现和分析复杂疾病的内部机制等诸多领域。
单细胞RNA测序技术测量单个细胞水平的基因表达。这需要扩增真正微量的RNA,从而导致一种称为“dropout”的现象,即存在大量未检测到表达值的基因,检测结果为零表达值。因此,在观察矩阵中存在两种类型的零点:生物零点(测序时未表达的基因)和技术零点(测序时表达但未检测到表达值的基因)。由于大量的技术零点,直接处理原始数据可能不利于下游分析(如聚类,可视化等),因此需要对单细胞RNA测序数据进行插补。但是,目前对scRNA-seq数据插补的方法存在一定的局限性,大量方法首先计算多细胞之间的相似性,然后从相似细胞借用信息来插补单细胞RNA测序数据,然而这类方法会丢失单细胞基因表达的随机性,这种随机性在生物过程中具有重要的意义;此外,还存在大量基于假设数据分布的方法,例如负二项分布、零膨胀负二项分布等,但它们的性能在很大程度上取决于它们的模型假设和数据的真实结构之间的一致性,如果真实数据符合其假设,则插补方法能够提高数据的质量,否则,可能会产生误导性的结果。
基因的表达不是一个独立的过程,受其它基因表达情况的调控,因此,如何根据基因间相互作用关系学习真实单细胞RNA测序数据的分布,同时对scRNA-seq数据进行插补来缓解“dropout”事件,从而进行更可靠的下游分析发现生物学规律,是本领域技术人员目前急需解决的技术问题。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种基于网络对抗学习的单细胞数据插补方法及系统,根据基因间相互作用关系学习真实单细胞RNA测序数据的分布,同时对利用生成大量单细胞数据来进行插补,通过插补后的单细胞RNA测序数据可以更好的发现生物学规律。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于网络对抗学习的单细胞数据插补方法,其包括:
获取单细胞测序数据,构建计数矩阵;
对计数矩阵进行预处理后,结合蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵;
基于基因互作网络的拉普拉斯矩阵以及预处理后的计数矩阵中的单细胞测序数据,训练生成对抗网络;
采用训练好的生成对抗网络,对单细胞测序数据进行基因插补。
进一步地,所述预处理包括:
过滤掉所述计数矩阵中不存在观测表达值的行和列;
对过滤后的计数矩阵进行归一化。
进一步地,所述生成对抗网络的训练过程为:
随机生成噪声数据,与所述基因互作网络的拉普拉斯矩阵一起,输入所述生成对抗网络的生成器,生成单细胞测序数据;
将生成的单细胞测序数据以及所述预处理后的计数矩阵中的单细胞测序数据,输入所述生成对抗网络的判别器,计算生成的单细胞测序数据的质量;
固定所述判别器,计算生成器的损失函数,优化所述生成器;
固定所述生成器,基于所述生成的单细胞测序数据的质量,计算判别器的损失函数,优化所述判别器。
进一步地,所述判别器的损失函数包括梯度惩罚项和所述生成的单细胞测序数据的质量。
进一步地,所述生成的单细胞测序数据的质量为所述生成的单细胞测序数据以及所述预处理后的计数矩阵中的单细胞测序数据之间的Wasserstein距离。
进一步地,所述生成器的损失函数包括两项:
第一项为所述Wasserstein距离中与所述生成器相关的部分;
第二项为所述基因互作网络的拉普拉斯正则项约束。
进一步地,所述基因插补的具体步骤为:
随机生成若干个噪声数据,分别输入生成对抗网络,生成若干个单细胞测序数据;
根据k近邻算法,获得单细胞测序数据在生成的若干个单细胞测序数据中的k个最近邻;
对于单细胞测序数据中的每个基因,若表达值为0,则利用k个最近邻的均值进行插补。
本发明的第二个方面提供一种基于网络对抗学习的单细胞数据插补系统,其包括:
计数矩阵构建模块,其被配置为:获取单细胞测序数据,构建计数矩阵;
基因互作网络构建模块,其被配置为:对计数矩阵进行预处理后,结合蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵;
生成对抗网络训练模块,其被配置为:基于基因互作网络的拉普拉斯矩阵以及预处理后的计数矩阵中的单细胞测序数据,训练生成对抗网络;
插补模块,其被配置为:采用训练好的生成对抗网络,对单细胞测序数据进行基因插补。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于网络对抗学习的单细胞数据插补方法中的步骤。
本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于网络对抗学习的单细胞数据插补方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种基于网络对抗学习的单细胞数据插补方法,其引入基因互作网络作为先验知识,嵌入基因之间的潜在联系,使生成单细胞RNA测序数据与真实的生物体内基因间相互作用机制一致;利用生成对抗网络结构学习真实单细胞RNA测序数据分布,不依赖于真实数据分布是否拟合先验数据假设,使得最终生成的数据能够符合真实生物学规律。
本发明提供了一种基于网络对抗学习的单细胞数据插补方法,其利用生成的数据进行插补可以缓解插补方法对于细胞类型数目的偏好,增强插补效率;通过插补后的单细胞RNA测序数据可以更好的发现生物学规律。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例一的基于网络对抗学习的单细胞数据插补方法的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例提供了一种基于网络对抗学习的单细胞数据插补方法,如图1所示,具体包括以下步骤:
步骤1、获取单细胞测序数据,构建输入矩阵,并进行预处理。
具体的,获取单细胞RNA测序数据,构建输入矩阵(测序计数矩阵)。
对输入矩阵进行预处理,其中,预处理包括:过滤矩阵,即过滤掉计数矩阵中不存在观测表达值的行和列;以及,对过滤后的计数矩阵进行归一化。过滤矩阵中不存在观测表达值的基因和细胞,对过滤后的计数矩阵归一化来降低的外部因素的影响。
S101:获取单细胞RNA测序数据,将其转化为基因数*细胞数的计数矩阵(测序计数矩阵)。
S102:对由步骤S101获得的计数矩阵,分别遍历矩阵中的行和列,过滤矩阵中不存在观测表达值的行(基因)和列(细胞)。
S103:对由步骤S102过滤后的计数矩阵,根据每列(细胞)中的表达值,分别进行最大最小归一化,将所有基因的表达值转化到[0,1]范围内,计算公式为:
其中,Dcell为步骤S102过滤后的计数矩阵中一列表达数据,Xcell为归一化后的计数矩阵中一列表达数据,max()为取Dcell中最大表达值。
步骤2、获取过滤后基因矩阵(计数矩阵)中的基因集,利用蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵。
根据蛋白质互作网络构建基因互作网络,基因互作网络可以提供基因间相互作用关系,有助于指导学习真实单细胞RNA测序数据的分布。
具体地,获取过滤后的基因,初始化一个基因互作网络,根据公共数据集(从公开网站上下载)获取的蛋白质互作数据,构建基因互作网络,计算拉普拉斯矩阵为后续实验提供基因互作信息。
S201:获取步骤S103过滤后基因矩阵中的基因名,生成一个基因集合(基因集),同时初始化一个基因*基因的全为0基因互作网络。
S202:从公共数据集获取蛋白质互作网络数据,根据基因-蛋白质对应关系将其转化为[基因1,基因2]的基因对格式。
S203:遍历步骤S202获得的基因对,如果两个基因均在S201获取基因集合中,将S201初始化的基因互作网络中两个基因分别作为行和列时对应的元素(例如,(基因1,基因2)和(基因2,基因1))的数值改为1。
S204:根据步骤203构建的基因互作网络,计算图的拉普拉斯矩阵,计算公式为:
L=I-D-1/2AD-1/2
其中,L、I、D和A的维度均与过滤后的基因*细胞矩阵相同,L为拉普拉斯矩阵,I为单位矩阵,A为构建的基因互作网络,D为A的度矩阵。
步骤3、将处理后的单细胞RNA测序数据和基因互作网络的拉普拉斯矩阵,传入基于图的生成对抗网络模型,训练生成对抗网络以生成符合真实单细胞RNA测序数据分布、同时符合生物学规律的单细胞RNA测序数据。
生成对抗网络的训练过程为:随机生成噪声数据,与基因互作网络的拉普拉斯矩阵一起,输入生成对抗网络的生成器,生成单细胞测序数据;将生成的单细胞测序数据以及预处理后的计数矩阵中的单细胞测序数据,输入生成对抗网络的判别器,计算生成的单细胞测序数据的质量;固定判别器,计算生成器的损失函数,优化生成器;固定生成器,基于生成的单细胞测序数据的质量,计算判别器的损失函数,优化判别器。其中,判别器的损失函数包括梯度惩罚项和生成的单细胞测序数据的质量;生成的单细胞测序数据的质量为生成的单细胞测序数据以及预处理后的计数矩阵中的单细胞测序数据之间的Wasserstein距离;生成器的损失函数包括两项:第一项为Wasserstein距离中与生成器相关的部分;第二项为基因互作网络的拉普拉斯正则项约束。具体步骤如下:
S301,利用步骤S204获取的基因互作网络的拉普拉斯矩阵和随机噪声数据作为生成对抗网络的生成器的输入数据,通过基于图卷积网络结构,生成单细胞RNA测序数据,具体计算公式如下:
G(z,L)=FC(GCN(z,L))
其中,z为随机噪声数据;L为步骤S204获取的基因互作网络的拉普拉斯矩阵,G()为生成器函数;FC为全连接网络,输出层维度为1,激活函数为Sigmoid函数;GCN为图卷积神经网络,激活函数为ReLU函数。
S302,利用步骤S301得到的单细胞测序数据以及步骤S103得到的真实单细胞测序数据,传入生成对抗网络的判别器网络,判别器网络计算真实分布与生成分布之间的Wasserstein距离,来衡量生成数据的质量,具体计算公式如下:
其中,W为真实分布与生成分布之间的Wasserstein距离的近似值,x为S103得到的真实单细胞测序数据,G(z,L)为步骤S301生成的单细胞测序数据,为真实数据分布,为生成数据分布,D()为判别器函数,为期望。
S303,生成器和判别器根据反向传播算法交替训练。首先,固定判别器,优化生成器,生成器目的是生成与真实数据分布相似的数据,因此它的目的是使判别器计算的Wasserstein距离最小。具体地,生成器的损失函数计算公式为:
其中,第一项为步骤S302中Wasserstein距离中与生成器相关的部分;第二项为基因互作网络的拉普拉斯正则项约束,其目的是使得生成的数据尽量符合真实的基因间相互作用关系;D()为判别器函数;为超参数,用来平衡两部分损失;Tr()表示取矩阵的迹;G(z,L)为步骤S301生成的单细胞测序数据。
然后,固定生成器,优化判别器,判别器的目的是能够分辨真实数据和生成数据,因此它的目的是使判别器计算两个分布的Wasserstein距离最大。具体地,判别器的损失函数计算公式为:
OD=-W+βP
其中,W为步骤S302中计算的Wasserstein距离,P为梯度惩罚项,β为超参数,用来平衡两部分损失。
步骤4、利用训练好的生成对抗网络对预处理后的真实单细胞RNA测序数据基因插补。
具体地,随机生成一系列的随机向量,利用训练完成后的生成器生成一些单细胞RNA测序数据;根据生成的单细胞RNA测序数据,对原始单细胞RNA测序数据进行插补。即,随机生成若干个噪声数据,分别输入生成对抗网络,生成若干个单细胞测序数据;根据k近邻算法,获得每个细胞测序数据在生成的若干个单细胞测序数据中的k个最近邻;对于单细胞测序数据中的每个基因,若表达值为0,则利用k个最近邻的均值进行插补。具体步骤为:
S401,随机生成一系列的噪声数据,然后利用步骤S303训练好的生成对抗网络生成一系列单细胞RNA测序数据。
S402,根据k近邻算法,获得每个细胞真实表达向量(一个细胞的待插补RNA测序数据)在步骤S401生成的一系列单细胞RNA测序数据中的k个最近邻。
S403,计算步骤S402得到的k个最近邻的均值,用来插补真实单细胞RNA测序数据,如果真实数据中表达值为0,则利用k个最近邻的均值进行插补,具体公式如下:
其中,x为步骤S103获取的归一化待插补真实单细胞RNA测序数据,y为步骤S402得到的k个最近邻的均值向量,下标i表示其中第i个基因对应的表达量。
为了利用基因互作网络来嵌入基因之间的潜在联系,对单细胞RNA测序数据“dropout”进行插补,本实施例利用生成对抗网络结构通过真实的生物调控关系和相互作用机制学习真实单细胞RNA测序数据分布,从而实现对缺失数据的插补。
本实施例通过引入基因间相互作用关系,可以学习真实生物体内基因表达的相互影响,从而能够更精确的预测缺失数据;通过生成对抗网络对抗学习单细胞数据的分布,可以在无先验假设的条件下,直接学习真实的数据分布,使得最终生成的数据能够符合真实生物学规律;通过利用生成大量单细胞数据来进行插补能够有效缓解“dropout”事件,同时降低不同细胞数量对缺失数据预测的影响,从而进行更可靠的下游分析发现生物学规律。
实施例二
本实施例提供了一种基于网络对抗学习的单细胞数据插补系统,其具体包括如下模块:
计数矩阵构建模块,其被配置为:获取单细胞测序数据,构建计数矩阵;
基因互作网络构建模块,其被配置为:对计数矩阵进行预处理后,结合蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵;
生成对抗网络训练模块,其被配置为:基于基因互作网络的拉普拉斯矩阵以及预处理后的计数矩阵中的单细胞测序数据,训练生成对抗网络;
插补模块,其被配置为:采用训练好的生成对抗网络,对单细胞测序数据进行基因插补。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一所述的一种基于网络对抗学习的单细胞数据插补方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述实施例一所述的一种基于网络对抗学习的单细胞数据插补方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于网络对抗学习的单细胞数据插补方法,其特征在于,包括:
获取单细胞测序数据,构建计数矩阵;
对计数矩阵进行预处理后,结合蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵;
基于基因互作网络的拉普拉斯矩阵以及预处理后的计数矩阵中的单细胞测序数据,训练生成对抗网络;
采用训练好的生成对抗网络,对单细胞测序数据进行基因插补。
2.如权利要求1所述的一种基于网络对抗学习的单细胞数据插补方法,其特征在于,所述预处理包括:
过滤掉所述计数矩阵中不存在观测表达值的行和列;
对过滤后的计数矩阵进行归一化。
3.如权利要求1所述的一种基于网络对抗学习的单细胞数据插补方法,其特征在于,所述生成对抗网络的训练过程为:
随机生成噪声数据,与所述基因互作网络的拉普拉斯矩阵一起,输入所述生成对抗网络的生成器,生成单细胞测序数据;
将生成的单细胞测序数据以及所述预处理后的计数矩阵中的单细胞测序数据,输入所述生成对抗网络的判别器,计算生成的单细胞测序数据的质量;
固定所述判别器,计算生成器的损失函数,优化所述生成器;
固定所述生成器,基于所述生成的单细胞测序数据的质量,计算判别器的损失函数,优化所述判别器。
4.如权利要求3所述的一种基于网络对抗学习的单细胞数据插补方法,其特征在于,所述判别器的损失函数包括梯度惩罚项和所述生成的单细胞测序数据的质量。
5.如权利要求3所述的一种基于网络对抗学习的单细胞数据插补方法,其特征在于,所述生成的单细胞测序数据的质量为所述生成的单细胞测序数据以及所述预处理后的计数矩阵中的单细胞测序数据之间的Wasserstein距离。
6.如权利要求5所述的一种基于网络对抗学习的单细胞数据插补方法,其特征在于,所述生成器的损失函数包括两项:
第一项为所述Wasserstein距离中与所述生成器相关的部分;
第二项为所述基因互作网络的拉普拉斯正则项约束。
7.如权利要求1所述的一种基于网络对抗学习的单细胞数据插补方法,其特征在于,所述基因插补的具体步骤为:
随机生成若干个噪声数据,分别输入生成对抗网络,生成若干个单细胞测序数据;
根据k近邻算法,获得单细胞测序数据在生成的若干个单细胞测序数据中的k个最近邻;
对于单细胞测序数据中的每个基因,若表达值为0,则利用k个最近邻的均值进行插补。
8.一种基于网络对抗学习的单细胞数据插补系统,其特征在于,包括:
计数矩阵构建模块,其被配置为:获取单细胞测序数据,构建计数矩阵;
基因互作网络构建模块,其被配置为:对计数矩阵进行预处理后,结合蛋白质互作数据构建基因互作网络,计算基因互作网络的拉普拉斯矩阵;
生成对抗网络训练模块,其被配置为:基于基因互作网络的拉普拉斯矩阵以及预处理后的计数矩阵中的单细胞测序数据,训练生成对抗网络;
插补模块,其被配置为:采用训练好的生成对抗网络,对单细胞测序数据进行基因插补。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于网络对抗学习的单细胞数据插补方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于网络对抗学习的单细胞数据插补方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210760681.6A CN115101130B (zh) | 2022-06-30 | 2022-06-30 | 一种基于网络对抗学习的单细胞数据插补方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210760681.6A CN115101130B (zh) | 2022-06-30 | 2022-06-30 | 一种基于网络对抗学习的单细胞数据插补方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115101130A true CN115101130A (zh) | 2022-09-23 |
CN115101130B CN115101130B (zh) | 2024-06-14 |
Family
ID=83295013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210760681.6A Active CN115101130B (zh) | 2022-06-30 | 2022-06-30 | 一种基于网络对抗学习的单细胞数据插补方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101130B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116864012A (zh) * | 2023-06-19 | 2023-10-10 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111279420A (zh) * | 2017-09-07 | 2020-06-12 | 瑞泽恩制药公司 | 用于利用基因组数据分析中的亲缘关系的系统和方法 |
CN111785325A (zh) * | 2020-06-23 | 2020-10-16 | 西北工业大学 | 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 |
CN114038502A (zh) * | 2021-11-09 | 2022-02-11 | 湖南大学 | 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法 |
CN114150041A (zh) * | 2016-12-23 | 2022-03-08 | Cs遗传学有限公司 | 用于分析相联系核酸的试剂和方法 |
CN114187966A (zh) * | 2021-12-10 | 2022-03-15 | 哈尔滨工程大学 | 一种基于生成对抗网络的单细胞rna序列缺失值填补方法 |
CN114187969A (zh) * | 2021-11-19 | 2022-03-15 | 厦门大学 | 一种处理单细胞多模态组学数据的深度学习方法及系统 |
-
2022
- 2022-06-30 CN CN202210760681.6A patent/CN115101130B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114150041A (zh) * | 2016-12-23 | 2022-03-08 | Cs遗传学有限公司 | 用于分析相联系核酸的试剂和方法 |
CN111279420A (zh) * | 2017-09-07 | 2020-06-12 | 瑞泽恩制药公司 | 用于利用基因组数据分析中的亲缘关系的系统和方法 |
CN111785325A (zh) * | 2020-06-23 | 2020-10-16 | 西北工业大学 | 互斥性约束图拉普拉斯的异质性癌症驱动基因识别方法 |
CN114038502A (zh) * | 2021-11-09 | 2022-02-11 | 湖南大学 | 一种基于基因交互网络聚类和群稀疏学习的表达数量性状与cnv关联的方法 |
CN114187969A (zh) * | 2021-11-19 | 2022-03-15 | 厦门大学 | 一种处理单细胞多模态组学数据的深度学习方法及系统 |
CN114187966A (zh) * | 2021-12-10 | 2022-03-15 | 哈尔滨工程大学 | 一种基于生成对抗网络的单细胞rna序列缺失值填补方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116864012A (zh) * | 2023-06-19 | 2023-10-10 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
CN116864012B (zh) * | 2023-06-19 | 2024-02-27 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115101130B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112784913B (zh) | 一种基于图神经网络融合多视图信息的miRNA-疾病关联预测方法及装置 | |
White et al. | Exploring the loss landscape in neural architecture search | |
Yuan et al. | Directed partial correlation: inferring large-scale gene regulatory network through induced topology disruptions | |
CN112992267A (zh) | 一种单细胞的转录因子调控网络预测方法及装置 | |
CN116383912A (zh) | 一种提高控制精度的微型电机结构优化方法及系统 | |
CN115101130B (zh) | 一种基于网络对抗学习的单细胞数据插补方法及系统 | |
CN116401555A (zh) | 双胞识别模型的构建方法、系统及存储介质 | |
CN114783526A (zh) | 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法 | |
Sheng et al. | A survey of computational methods and databases for lncRNA-miRNA interaction prediction | |
Li et al. | Elucidating genome-wide protein-RNA interactions using differential evolution | |
CN115908909A (zh) | 基于贝叶斯卷积神经网络的进化神经架构搜索方法及系统 | |
Chen et al. | Reduced-GEP: improving gene expression programming by gene reduction | |
CN114927163A (zh) | 一种基于单细胞图谱预测遗传模型的方法和存储介质 | |
JP2023535285A (ja) | 変異体病原性スコアリング及び分類、並びにそれらの使用 | |
CN117637031B (zh) | 一种基因调控网络重建方法、系统及设备 | |
Kasianov et al. | Interspecific comparison of gene expression profiles using machine learning | |
CN114863992B (zh) | 基于组织特异性的玉米可变剪接异构体功能预测系统 | |
CN116798521B (zh) | 免疫细胞培养控制系统的异常监测方法及系统 | |
US20220027388A1 (en) | Variant pathogenicity scoring and classification and uses thereof | |
Aigli et al. | Predicting human miRNA target genes using a novel evolutionary methodology | |
Ma et al. | Cell-type composition analysis of scRNA-seq data with deep convolution neural network | |
Alipourfard et al. | From correlation to causation using directed topological overlap matrix: Applications in genomics | |
Sigler | Accurate detection of selective sweeps with transfer learning | |
Mao et al. | An unsupervised deep learning framework for gene regulatory network inference from single-cell expression data | |
CN116631496A (zh) | 一种基于多层异构图的miRNA靶标预测方法及系统和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |