CN114974421A - 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 - Google Patents
基于扩散-降噪的单细胞转录组测序数据补插方法及系统 Download PDFInfo
- Publication number
- CN114974421A CN114974421A CN202210552055.8A CN202210552055A CN114974421A CN 114974421 A CN114974421 A CN 114974421A CN 202210552055 A CN202210552055 A CN 202210552055A CN 114974421 A CN114974421 A CN 114974421A
- Authority
- CN
- China
- Prior art keywords
- sequencing data
- cell transcriptome
- transcriptome sequencing
- interpolation
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 90
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009467 reduction Effects 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 77
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 26
- 230000000295 complement effect Effects 0.000 claims abstract description 18
- 238000003780 insertion Methods 0.000 claims abstract description 18
- 230000037431 insertion Effects 0.000 claims abstract description 18
- 230000002087 whitening effect Effects 0.000 claims abstract description 18
- 238000009792 diffusion process Methods 0.000 claims abstract description 15
- 238000000513 principal component analysis Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 12
- 238000003062 neural network model Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 7
- 230000014509 gene expression Effects 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 6
- 230000002103 transcriptional effect Effects 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 108700026220 vif Genes Proteins 0.000 claims description 2
- 210000004027 cell Anatomy 0.000 description 63
- 238000013528 artificial neural network Methods 0.000 description 18
- 239000010410 layer Substances 0.000 description 7
- 238000012174 single-cell RNA sequencing Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Analytical Chemistry (AREA)
- Epidemiology (AREA)
- Algebra (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提出了一种基于扩散‑降噪的单细胞转录组测序数据补插方法及系统,包括:获取单细胞转录组测序数据矩阵并进行预处理;对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。通过扩散‑降噪两阶段的补插处理,能够提高后续对不同细胞的识别的准确性。
Description
技术领域
本发明属于细胞检测分析相关领域,尤其涉及一种基于扩散-降噪的单细胞转录组测序数据补插方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
单细胞转录组测序技术被广泛用于细胞间的分化关系和不同类别细胞基因表达差异等实际研究中。然而,受限于现有技术和现实世界某些基因较低的表达,单细胞转录组测序数据往往户出现许多0值或明显过低的值,会对下游分析结果造成负面的影响。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于扩散-降噪的单细胞转录组测序数据补插方法对出现的0值或明显过低的值进行补插,进行补插后的单细胞转录测序数据进行后续的聚类操作,可以取得精确度更高的聚类结果,从而提升不同细胞的识别的准确性。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:一种基于扩散-降噪的单细胞转录组测序数据补插方法,包括:
获取单细胞转录组测序数据矩阵并进行预处理;
对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;
对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;
对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;
基于白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。
进一步的,所述单细胞转录组测序数据的预处理包括:单细胞转录组测序数据以矩阵形式存储,对单细胞转录组测序数据矩阵进行SC3聚类,获得一致性矩阵;通过一致性矩阵,对每一个细胞分配固定数据量的k个邻居。
进一步的,所述补插位点的确定具体包括:对于每一个基因,使用一个伽马分布和正态分布的混合分布来拟合所述基因在任意细胞中的对数化处理后的表达量,对于属于伽马分布概率超过设定阈值的点作为补插位点。
进一步的,所述对补插位点进行扩散操作,完成初步补插,具体包括:对于补插位点,使用该补插位点和其邻居细胞对应基因的对数化表达量的加权平均进行扩散操作,完成初步补插。
进一步的,在对完成初步补插的单细胞转录组测序数据矩阵进行白化之前,删除完全不表达的基因,使用主成分分析对删除完全不表达基因后的矩阵进行白化。
进一步的,所述细胞间权重图获取方法为:对原始单细胞转录组测序数据矩阵细胞中基因的表达量进行TF-IDF处理,处理后将细胞作为节点,将细胞间TF-IDF向量的Spearman相关系数作为细胞间连边的权重,获得细胞间权重图。
进一步的,基于细胞权重图,使用图卷积网络获得PCA白化处理后的矩阵中每个细胞的低维嵌入,将细胞的低维嵌入输入至训练好的前向神经网络模型后输出原始单细胞转录组测序数据矩阵。
本发明第二个方面公开一种基于扩散-降噪的单细胞转录测序数据补插系统,包括:
预处理模块,其用于获取单细胞转录组测序数据矩阵并进行预处理;
初步补插模块,其用于对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;
PCA白化模块,其用于对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;
加权处理模块,其用于对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;
矩阵恢复模块,其用于基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
基于本发明补插后的单细胞RNA测序数据进行聚类,可以取得精确度更高的聚类结果,从而提升不同细胞的识别准确性。
基于本发明补插后的单细胞RNA测序数据能够较好地去除了批次效应。
基于本发明补插后的单细胞RNA测序数据对于同类不同周期的细胞能够在可视化时聚到一簇并在簇中能大致区分不同周期的细胞。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中扩散阶段示意图;
图2是本发明实施例一中降噪阶段示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种基于扩散-降噪的单细胞转录组测序数据补插方法,包括:
步骤1:获取单细胞转录组测序数据并进行预处理;
步骤2:对于预处理后的单细胞转录组测序数据基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;
步骤3:对完成初步补插的单细胞转录组测序数据基于主成分分析进行白化;
步骤4:对原始获取的单细胞转录组测序数据进行加权处理,获得细胞间权重图;
步骤5:基于白化后的单细胞转录组测序数据和细胞间权重图通过训练好的神经网路模型恢复至原始单细胞转录组测序数据。
在本实施例中,单细胞RNA测序数据以一个矩阵的方式存储,其中一个维度代表细胞,另一个维度代表待检测的某个RNA片段。
在所述步骤1中,获取存储单细胞转录组测序数据的输入矩阵,使用SC3对单细胞转录组测序数据的输入矩阵进行聚类,获取consensus matrix(一致性矩阵)。其中,通过SC3获取consensus matrix(一致性矩阵)具体包括:
步骤1-1:首先需要根据欧几里得距离、皮尔森相关系数、斯皮尔曼系数对于输入删除了表达差异不大(在90%的细胞种都表达或不表达)基因的对数化处理后的scRNA-seq数据,获得三个距离矩阵。对于这三个距离矩阵,使用谱聚类和PCA降维,得到6个降维空间,在这6个降维后的空间,抽样特定数量的子空间(仅保留某些降维空间的维度),在子空间中进行k-means聚类,这些聚类结果对应的等价关系矩阵的均值就是我们需要的consensusmatrix。
步骤1-2:通过consensus matrix,给每个细胞分配固定数量的k个邻居。其中,Consensus matrix是一个cell-cell的相似性矩阵,k个邻居根据consensus matrix中给出的相似性排序选出前k个即可。
在所述步骤2中,对每一个基因,使用伽马分布和正态分布的混合分布拟合该基因在任意细胞中对数化处理后的表达量:
log(x)~π·Gamma+(1-π)·Normal (1)
其中,π为阈值,x是scRNA-seq数据(单细胞RNA测序数据)中对于同一个基因不同细胞测得的表达量。
其中属于伽马分布概率超过某一阈值的点视作潜在的补插位点,其中阈值可根据使用者需求进行调节,默认设置为π>0.2。
对于潜在的补插位点,使用该位点和其邻居细胞对应基因的对数化的表达量的加权平均来进行扩散操作,完成初步的补插:
其中,Λt是细胞i邻居的集合,ρ是3种设置的阈值(在目前的情况下等于0.2),bij是细胞i对于基因j的对数化表达量,b′ij是扩散后的表达量。
在所述步骤3中,对于完成初步补插的单细胞转录组测序数据的矩阵,删除其中完全不表达的基因,认为这些基因不需要处理,对于删除这些基因的单细胞转录组测序数据的矩阵,使用PCA(principal component analysis)进行白化。
PCA是对于样本空间(Rn),以样本均值为原点,样本每个特征的正向方向为坐标轴正向方向,建立直角坐标系,找出k个样本投影后方差最大的方向。然而,方差最大的方向,样本投影后偏离原点的程度必然比其它方向要大,为了使得输入神经网络时,各个投影后的特征形成的新特征在尺度上不会存在太大差异,故而每个新特征除以投影方向的特征向量对应特征值的开方。保证神经网络在以梯度反向传播为基础的算法优化下,不同通道的输入之间不会存在太大的偏好性。所以白化就是每个通道除以一个值(即对应特征向量的特征值的开方)。
在所述步骤4中,将原始的单细胞转录组测序数据的输入矩阵细胞中的基因的表达量视作文章中单词出现的频率,并通过文本数据常用的TF-IDF(term frequency–inverse document frequency)进行处理,将处理后的细胞当作节点,将细胞间TF-IDF向量的Spearman相关系数(斯皮尔曼相关系数)视作细胞间连边的权重,获得一个细胞间权重图。
TF-IDF中,TF是词频,比如说一个词“我”在文章中出现的次数tf就是“我”在这篇文章中的词频,IDF是逆文档频率,对于“我”这个词,查看在总共N篇文档中有df篇文章出现了,那么“我”的逆文档频率是
对于上述经过PCA白化处理后的单细胞转录组测序数据矩阵以及细胞间权重图,使用GCN架构获得PCA白化处理后的矩阵中每个细胞的低维嵌入。
神经网络中,卷积的操作一般用于图像数据,因为图形所携带的信息在整张图上具有平移不变性,所以,构造一组固定的卷积核(小矩阵,如3*3矩阵),在图上各个可能的位置和其下对应的3*3的图像像素进行内积操作得到卷积核和图像局部的相似性,在神经网络的前端,经过训练后的卷积核会逐步收敛为识别点、横线、竖线、斜线等基础几何特征的卷积核,在神经网络的后端,由于卷积后的池化操作(如将每2*2的四个小像素合为一个以四个值中最大值代替),池化后图像每个像素点将携带更为广阔的信息,这时,神经网络后端的卷积核得以拟合为复杂的图像信息。
GCN架构是图神经网络架构,使用较为广泛。和一般神经网络的区别是,每次输入时,对于某一条数据不输入该数据向量本身,而是输入该向量和其它节点对应向量的一个加权平均值(这里权重是每个细胞对应的基因表达TF-IDF向量之间的斯皮尔曼相关系数决定的,这些细胞间的权重组成了一个图)。
在本实施例中,所使用的GCN架构,是一种在权重图上“卷积”的架构,这时“卷积”就是希望能够不仅将图上每个节点对应的输入向量的信息输入神经网络的下一层,而且要同时输入节点邻居对应向量的信息,而这些信息的融合就是一个向量的简单线性组合,所以可以用一个矩阵乘法来代替,线性组合的系数由细胞间相似性(TF-IDF向量的Spearman系数)决定。
在获得每个细胞的低维嵌入后,再用普通的前向神经网络恢复原始的单细胞转录组测序数据的矩阵,对于潜在补插位点的误差,给予比正常位点低一半的权重,此外,还吸收了CAE(Contractive Auto-Encode)的思想,将低维嵌入关于前向神经网络输入的所有偏导数的平方和乘以一个权重加到神经网络的损失函数上。
普通的前向神经网络是一个多层的结构,每一层的结构是一个感知机。感知机对于一个向量的输入和一个向量的输出用线性模型去拟合。比如给出给出某地的经度a和纬度b以预测某地的温度c和湿度d。那么训练一个以e、f、g、h、i、j为参数线性模型然而,单层的感知机拟合能力是非常有限的,前向神经网络就是多层感知机,将前一层感知机的输出经过非线性的激活函数处理后作为后一层感知机的输入。使用非线性的激活函数,一方面是对于真实神经元的激活存在阈值的模拟,另一方面,如果不使用一个非线性函数进行激活,最后的模型还是线性的,多层感知机相当于一层感知机。
在本实施例中,激活函数我们使用的是Relu,即正数输入不变,负数输入输出0。
在本实施例中,借鉴CAE引入的收缩项损失有公式为:
其中α是给定的系数,P是神经网络的低维嵌入层,PCA(X)是神经网络的输入,PCA白化处理后的输入。
所使用的损失函数为:
其中,Q是对于潜在补插位点和正常位点赋予不同的权重(如权重1和权重2)的矩阵。
在本实施例中,给正常位点低一半的权重,计算每个位点误差的加权平方和时,对于潜在补插位点给予权重1,对于正常位点给予权重2。其中,误差是和PCA白化前数据的欧几里得距离。
将低维嵌入输入到前向神经网络中,输出为最终插补结果的前一步结果。对于每一个潜在的补插位点,我们用之前算出的每个潜在补插位点的π和1-π来加权前向神经网络的输出和预补插的结果得到最终的补插结果。
实施例二
本实施例提供一种基于扩散-降噪的单细胞转录组测序数据补插系统,包括:
预处理模块,其用于获取单细胞转录组测序数据矩阵并进行预处理;
初步补插模块,其用于对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;
PCA白化模块,其用于对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;
加权处理模块,其用于对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;
矩阵恢复模块,其用于基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。
实施例三
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
实施例四
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行上述方法的步骤。
以上实施例二、三和四中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,包括:
获取单细胞转录组测序数据矩阵并进行预处理;
对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;
对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;
对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;
基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。
2.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,所述单细胞转录组测序数据的预处理包括:单细胞转录组测序数据以矩阵形式存储,对单细胞转录组测序数据矩阵进行SC3聚类,获得一致性矩阵;通过一致性矩阵,对每一个细胞分配固定数据量的k个邻居。
3.如权利要求2所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,所述补插位点的确定具体包括:
对于每一个基因,使用一个伽马分布和正态分布的混合分布来拟合所述基因在任意细胞中的对数化处理后的表达量,对于属于伽马分布概率超过设定阈值的点作为补插位点。
4.如权利要求3所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,所述对补插位点进行扩散操作,完成初步补插,具体包括:
对于补插位点,使用该补插位点和其邻居细胞对应基因的对数化表达量的加权平均进行扩散操作,完成初步补插。
5.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,在对完成初步补插的单细胞转录组测序数据矩阵进行白化之前,删除完全不表达的基因,使用主成分分析对删除完全不表达基因后的矩阵进行白化。
6.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,所述细胞间权重图获取方法为:
对原始单细胞转录组测序数据矩阵细胞中基因的表达量进行TF-IDF处理,处理后将细胞作为节点,将细胞间TF-IDF向量的Spearman相关系数作为细胞间连边的权重,获得细胞间权重图。
7.如权利要求1所述的一种基于扩散-降噪的单细胞转录组测序数据补插方法,其特征是,基于细胞权重图,使用图卷积网络获得PCA白化处理后的矩阵中每个细胞的低维嵌入,将细胞的低维嵌入输入至训练好的前向神经网络模型后输出原始单细胞转录组测序数据矩阵。
8.一种基于扩散-降噪的单细胞转录测序数据补插系统,其特征是,包括:
预处理模块,其用于获取单细胞转录组测序数据矩阵并进行预处理;
初步补插模块,其用于对于预处理后的单细胞转录组测序数据矩阵中基因基于概率分布确定补插位点,对补插位点进行扩散操作,完成初步补插;
PCA白化模块,其用于对完成初步补插的单细胞转录组测序数据矩阵基于主成分分析进行白化;
加权处理模块,其用于对原始获取的单细胞转录组测序数据矩阵进行加权处理,获得细胞间权重图;
矩阵恢复模块,其用于基于主成分分析白化后的单细胞转录组测序数据矩阵和细胞间权重图通过训练好的神经网路模型输出原始单细胞转录组测序数据。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于扩散-降噪的单细胞转录测序数据补插方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210552055.8A CN114974421B (zh) | 2022-05-20 | 2022-05-20 | 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210552055.8A CN114974421B (zh) | 2022-05-20 | 2022-05-20 | 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114974421A true CN114974421A (zh) | 2022-08-30 |
CN114974421B CN114974421B (zh) | 2024-04-30 |
Family
ID=82986078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210552055.8A Active CN114974421B (zh) | 2022-05-20 | 2022-05-20 | 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974421B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115394358A (zh) * | 2022-08-31 | 2022-11-25 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
CN116864012A (zh) * | 2023-06-19 | 2023-10-10 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030064376A1 (en) * | 2001-05-02 | 2003-04-03 | Makarov Vladimir L. | Genome walking by selective amplification of nick-translate DNA library and amplification from complex mixtures of templates |
WO2020047453A1 (en) * | 2018-08-31 | 2020-03-05 | Ampel Biosolutions, Llc | Systems and methods for single-cell rna-seq data analysis |
CN110957009A (zh) * | 2019-11-05 | 2020-04-03 | 中山大学中山眼科中心 | 一种基于深度混合网络的单细胞转录组缺失值填补方法 |
CN111833965A (zh) * | 2019-11-08 | 2020-10-27 | 中国科学院北京基因组研究所 | 一种尿沉渣基因组dna的分类方法、装置和用途 |
US20210095296A1 (en) * | 2019-09-29 | 2021-04-01 | Technion Research & Development Foundation Limited | Synthetic non-coding rnas |
CN113257364A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN113383085A (zh) * | 2019-11-06 | 2021-09-10 | 斯坦福大学托管董事会 | 用于分析核酸分子的方法和系统 |
CN114187969A (zh) * | 2021-11-19 | 2022-03-15 | 厦门大学 | 一种处理单细胞多模态组学数据的深度学习方法及系统 |
CN114354844A (zh) * | 2021-12-07 | 2022-04-15 | 天津大学 | 一种长期实时的沉积物耗氧速率原位测量装置及方法 |
-
2022
- 2022-05-20 CN CN202210552055.8A patent/CN114974421B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030064376A1 (en) * | 2001-05-02 | 2003-04-03 | Makarov Vladimir L. | Genome walking by selective amplification of nick-translate DNA library and amplification from complex mixtures of templates |
WO2020047453A1 (en) * | 2018-08-31 | 2020-03-05 | Ampel Biosolutions, Llc | Systems and methods for single-cell rna-seq data analysis |
US20210095296A1 (en) * | 2019-09-29 | 2021-04-01 | Technion Research & Development Foundation Limited | Synthetic non-coding rnas |
CN110957009A (zh) * | 2019-11-05 | 2020-04-03 | 中山大学中山眼科中心 | 一种基于深度混合网络的单细胞转录组缺失值填补方法 |
CN113383085A (zh) * | 2019-11-06 | 2021-09-10 | 斯坦福大学托管董事会 | 用于分析核酸分子的方法和系统 |
CN111833965A (zh) * | 2019-11-08 | 2020-10-27 | 中国科学院北京基因组研究所 | 一种尿沉渣基因组dna的分类方法、装置和用途 |
CN113257364A (zh) * | 2021-05-26 | 2021-08-13 | 南开大学 | 基于多目标进化的单细胞转录组测序数据聚类方法及系统 |
CN114187969A (zh) * | 2021-11-19 | 2022-03-15 | 厦门大学 | 一种处理单细胞多模态组学数据的深度学习方法及系统 |
CN114354844A (zh) * | 2021-12-07 | 2022-04-15 | 天津大学 | 一种长期实时的沉积物耗氧速率原位测量装置及方法 |
Non-Patent Citations (1)
Title |
---|
RUOCHEN JIANG ET AL.: "mbImpute: an accurate and robust imputation method for microbiome data", 《GENOME BIOLOGY》, 31 December 2021 (2021-12-31) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115394358A (zh) * | 2022-08-31 | 2022-11-25 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
CN115394358B (zh) * | 2022-08-31 | 2023-05-12 | 西安理工大学 | 基于深度学习的单细胞测序基因表达数据插补方法和系统 |
CN116864012A (zh) * | 2023-06-19 | 2023-10-10 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
CN116864012B (zh) * | 2023-06-19 | 2024-02-27 | 杭州联川基因诊断技术有限公司 | 增强scRNA-seq数据基因表达相互作用的方法、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114974421B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108985317B (zh) | 一种基于可分离卷积和注意力机制的图像分类方法 | |
CN108345939B (zh) | 基于定点运算的神经网络 | |
Saegusa et al. | Joint estimation of precision matrices in heterogeneous populations | |
US20200265192A1 (en) | Automatic text summarization method, apparatus, computer device, and storage medium | |
CN114974421B (zh) | 基于扩散-降噪的单细胞转录组测序数据补插方法及系统 | |
Chen et al. | Asymptotically normal and efficient estimation of covariate-adjusted Gaussian graphical model | |
CN111026544B (zh) | 图网络模型的节点分类方法、装置及终端设备 | |
Mallick et al. | Bayesian methods for high dimensional linear models | |
Huang et al. | Empirical Bayesian elastic net for multiple quantitative trait locus mapping | |
CN112288086A (zh) | 一种神经网络的训练方法、装置以及计算机设备 | |
CN111564179B (zh) | 一种基于三元组神经网络的物种生物学分类方法及系统 | |
CN109002794B (zh) | 一种非线性非负矩阵分解人脸识别构建方法、系统及存储介质 | |
CN113705674B (zh) | 一种非负矩阵分解聚类方法、装置及可读存储介质 | |
CN113065525A (zh) | 年龄识别模型训练方法、人脸年龄识别方法及相关装置 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN113011532A (zh) | 分类模型训练方法、装置、计算设备及存储介质 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN111814820A (zh) | 图像处理方法及装置 | |
CN113239697B (zh) | 实体识别模型训练方法、装置、计算机设备及存储介质 | |
CN114898167A (zh) | 基于视图间差异性检测的多视图子空间聚类方法及系统 | |
CN111260056A (zh) | 一种网络模型蒸馏方法及装置 | |
Teisseyre | Feature ranking for multi-label classification using Markov networks | |
Liu et al. | A robust regression based on weighted LSSVM and penalized trimmed squares | |
CN116129189A (zh) | 一种植物病害识别方法、设备、存储介质及装置 | |
US20230409960A1 (en) | Image embeddings via deep learning and adaptive batch normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |