CN111564183B - 融合基因本体和神经网络的单细胞测序数据降维方法 - Google Patents

融合基因本体和神经网络的单细胞测序数据降维方法 Download PDF

Info

Publication number
CN111564183B
CN111564183B CN202010336243.8A CN202010336243A CN111564183B CN 111564183 B CN111564183 B CN 111564183B CN 202010336243 A CN202010336243 A CN 202010336243A CN 111564183 B CN111564183 B CN 111564183B
Authority
CN
China
Prior art keywords
layer
term
single cell
sequencing data
gene ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010336243.8A
Other languages
English (en)
Other versions
CN111564183A (zh
Inventor
彭佳杰
王晓昱
王余贤
尚学群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202010336243.8A priority Critical patent/CN111564183B/zh
Publication of CN111564183A publication Critical patent/CN111564183A/zh
Application granted granted Critical
Publication of CN111564183B publication Critical patent/CN111564183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种融合基因本体和神经网络的单细胞测序数据降维方法。首先,提取基因本体术语作为深层生物信息先验知识;接着,提取细胞之间的Must‑Link约束作为细胞层面上的先验知识;然后,将上述两种先验知识与自编码器模型结合,提出simGOAE模型;最后,根据simGOAE模型对单细胞测序数据进行训练降维。本发明提出的simGOAE模型不仅能适应大样本数据集的训练,还能更好地挖掘细胞的生物信息,实现更好的单细胞测序数据降维效果。

Description

融合基因本体和神经网络的单细胞测序数据降维方法
技术领域
本发明属生物信息处理技术领域,具体涉及一种融合基因本体和神经网络的单细胞测序数据降维方法。
背景技术
随着高通量测序技术的发展,科学家们提出单细胞测序技术并广泛应用于转录组学研究。该技术测定单个细胞的序列信息,提供更高的差异分辨率,使人们更好地理解单个细胞在其微环境中的功能。单细胞测序技术的出现为人类在生物信息学领域中进一步研究细胞功能、细胞差异性表达提供了可能性。单细胞测序数据(scRNA-seq) 最重要的应用之一是对细胞聚类,聚类结果有助于鉴定新的细胞类型、分析细胞功能、细胞分化轨迹。基于单细胞测序数据的聚类问题中主要挑战是高维度(约10000– 30000个基因),降维技术能提高细胞聚类的准确性与可靠性,为数据分析提供保证。
迄今为止,已经提出了许多方法来消除噪声的影响并减小数据维度,根据是否使用神经网络模型大致可分为两类。在未使用神经网络的方法中,最简单且常用的方法是主成分分析(PCA),假设数据是正态分布的,则PCA使用正交变换将一组可能相关的变量的观测值转换为一组线性不相关变量的值,这些值被称为主成分。但是,对于scRNA-seq数据集,它们并不是完全线性可分离的。文献“Maaten L,Hinton G. Visualizing data using t-SNE[J].Journal of machine learning research,2008,9(Nov): 2579-2605”提出了利用T分布随机邻居嵌入(t-SNE)非线性降维技术。t-SNE基于高斯内核,将高维数据转换为低维空间。但是,它通常将多维数据映射到适合人类观察的二维或三维。因此,它总是伴随着维度数目限制。
由于神经网络在其他领域的成功应用,越来越多的使用神经网络模型对单细胞测序数据进行降维处理的方法被提出。如Lin等人在文献“Lin C,Jain S,Kim H,et al.Using neural networks for reducing the dimensions of single-cell RNA-Seq data[J].Nucleic acids research,2017,45(17):e156-e156.”中提出了一种有监督的基于神经网络生成 scRNA-seq数据的低维表示方法。Lin等人提出的NN模型将神经网络与蛋白质相互作用(PPI)网络结合起来,对大量细胞进行分类,取得了较好地结果。此外,还有基于无监督的神经网络模型的,如自编码器。使用对称的编码器与解码器,自编码器模型无需人工提取特征,可以直接实现对高维数据的降维处理。Eraslan等人在文献“Eraslan G,Simon LM,Mircea M,et al.Single-cell RNA-seq denoising using a deep count autoencoder[J].Nature communications,2019,10(1):390.”中提出了深度计数自动编码器 (DCA),该模型以基于零扩展的负二项式分布的损失函数代替了传统的MSE损失函数,实现了对高维单细胞数据的降维处理。Lopez等人在文献“Lopez R,Regier J,Cole M B,et al.Deepgenerative modeling for single-cell transcriptomics[J].Nature methods, 2018,15(12):1053.”提出了单细胞数据变分自编码器模型(scVI),这是一种用于估算和拟合这些因素的深层变分自编码器模型,该模型已应用于一系列单细胞测序数据降维及其他基本分析任务并获得了非凡的结果。
虽然上述方法对单细胞测序数据降维取得了一定的效果,但其缺点在于:一方面,没有充分利用现有的生物信息知识,解释性不强,需要降维及其他下游分析才能获得细胞的生物信息;另一方面,现如今的单细胞测序数据降维方法效果一般,且对不同测序平台的单细胞测序数据有一定局限性。
发明内容
为了克服现有技术的不足,本发明提供一种融合基因本体和神经网络的单细胞测序数据降维方法。首先,提取基因本体术语作为深层生物信息先验知识;接着,提取细胞之间的Must-Link约束作为细胞层面上的先验知识;然后,将上述两种先验知识与自编码器模型结合,提出融合基因本体术语相似性的自编码器(simGOAE)模型;最后,根据simGOAE模型对单细胞测序数据进行训练降维。本发明提出的simGOAE模型不仅能适应大样本数据集的训练,还能更好地挖掘细胞的生物信息,实现更好的单细胞测序数据降维效果。
一种融合基因本体和神经网络的单细胞测序数据降维方法,其特征在于步骤如下:
步骤一,数据预处理:删除单细胞测序数据中基因表达小于3个细胞的基因;删除单细胞测序数据中在基因本体术语注释数据库中没有表达的基因;对单细胞测序数据在基因上进行z-score标准化;
步骤二,筛选基因本体术语:删除冗余本体术语和低表达本体术语;所述的冗余本体术语是指特异性分数在[0.5,1)范围内的两个基因本体术语中具有较少注释基因的那个术语;所述的低表达本体术语是指多样性表达分数在[0,0.1]范围内的术语;
步骤三,计算基因本体术语相似性:使用Schlicker方法计算经步骤二筛选后的基因本体术语相似性;
步骤四,对基因本体术语进行聚类:设定每个簇包含的最大基因本体个数,采用层次聚类方法对基因本体术语进行聚类,得到基因本体术语簇;所述的最大基因本体个数的设定为[1,4]之间的整数;
步骤五,提取Must-Link约束:重复以下步骤1-3共100次,如果两个细胞始终在同一聚类中,则认为这两个细胞存在Must-Link约束:
步骤1:使用PCA方法降低单细胞测序数据的维度;
步骤2:使用拐点法确定细胞类别数目;
步骤3:使用kmeans方法对细胞进行聚类,得到聚类结果;
步骤六,构建simGOAE模型:共包含五层神经元模型,第一层为输入层,神经元代表经过步骤一处理后的单细胞测序数据集中的基因;第二层为本体术语层,神经元代表经过步骤二和步骤三处理过后的基因本体术语,第二层中代表基因本体术语的神经元与第一层中代表该基因本体术语的注释基因的神经元连接,第二层还包括代表基因本体术语簇的神经元,实现对同一簇内的术语神经元的取均值操作;第三层为中间层,包括100个普通神经元,与第二层全连接;第四层与第二层完全相同,与第三层全连接;第五层与第一层完全相同,与第四层部分连接,连接规则和第二层与第一层的连接规则相同;
设定simGOAE模型的损失函数为:
loss=LMSE+αL2+βLm (1)
其中,loss表示总损失,LMSE表示输入层与第五层输出层之间的均方误差项,L2表示正则化项,α表示正则化项权重系数,取值范围为(0,1),Lm表示Must-Link约束项,β表示Must-Link约束项的权重系数,取值范围为(0,1);
所述的Must-Link约束项的表达式如下:
Figure GDA0002922454980000031
其中,xi和xj分别为第i和第j个细胞的向量表示,M表示存在Must-Link约束的零一对称矩阵,Mi,j=1表示第i个细胞和第j个细胞具有Must-Link约束,Mi,j=0表示第i个细胞和第j个细胞不存在Must-Link约束,n表示细胞个数;h(xi)表示输入层特征向量xi在第三层中间层的向量表示;h(xj)表示输入层特征向量xj的在第三层中间层的向量表示;
步骤七,对单细胞测序数据进行降维:利用经步骤一处理后的单细胞测序数据对simGOAE模型进行训练,训练后模型第三层的输出结果即为该单细胞测序数据集最终的降维结果。
本发明的有益效果是:由于采用基因本体术语相似性作为生物先验知识加入模型,使得模型部分连接,能够减少训练参数,并使模型具有可解释性,可以更好地挖掘细胞的生物信息;由于提取细胞Must-Link约束作为细胞层面的先验知识加入模型损失函数,可以加速模型训练,增强模型降维效果;由于使用自编码器模型,能够适应大量样本的单细胞测序数据集,实现快速有效地降维。
附图说明
图1是本发明的融合基因本体和神经网络的单细胞测序数据降维方法流程图。
图2是本发明的基因本体相似性提取过程示意图。
图3是本发明的Must-Link约束提取过程示意图。
图4是本发明的simGOAE模型结构图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
单细胞测序数据可以看做一个横纵坐标分别为细胞和基因的矩阵,矩阵内的数字代表某个细胞在该基因表达量,一般用实数表示。如图1所示,本发明提供了一种融合基因本体和神经网络的单细胞测序数据降维方法,其基本实现过程如下:
1、数据预处理
一般的原始单细胞测序数据中都为自然数,对其进行预处理。
(1)删除单细胞测序数据中基因表达小于3个细胞的基因(基因表达值为 0,1,2···其中细胞的某个基因表达值为0代表该基因在该细胞中未表达);
(2)删除单细胞测序数据中在基因本体术语注释数据库中没有表达的基因;
(3)对单细胞测序数据在基因上进行z-score标准化。
2、筛选基因本体术语
基因本体(GO)是一种流行的词汇系统,用于系统地描述基因和基因产物的属性。每个GO术语都可以注释一组基因。GO被构造为有向无环图。首先,选取第三层的所有术语。其次,根据特异性分数Uij删除冗余术语。由于术语本身的注释基因也存在相交的情况,若两个本体术语的注释基因极为相似,认为这两个基因本体术语在生物功能上可能相似,存在冗余。特异性分数Uij定义如下:
Figure GDA0002922454980000051
其中,GOi:{gene1,gene2,…,genen}代表第i个基因本体术语GOi包含n个注释基因gene1,gene2,…,genen,i=1,2,…,i的上限为第三层GO本体术语的个数。如果两个本体术语的特异性分数Uij在[0.5,1)范围内,认为这两个基因本体术语不是独特的,删去两个术语中具有较少注释基因的那个术语。最后,根据多样性表达分数Hi删除低表达术语。第i个基因本体术语GOi多样性表达分数Hi定义如下:
Figure GDA0002922454980000052
其中,stdj为GOi的第j个注释基因genej的表达标准差。如果一个本体术语的多样性表达分数在[0,0.1]范围内,则认为该术语是低表达术语,删除该术语。
3、计算基因本体术语相似性
一般的,信息量(Information Content,IC)常用来表示某个节点所包含的信息多少。一个术语的信息量定义如下:
Figure GDA0002922454980000053
其中,ICterm代表术语P的信息量,G代表GO中根节点的基因总数,GP代表 GO术语P的注释基因个数。
最低共同祖先(Lowest common ancestor,LCA)是一种非常流行的GO术语相似性度量。给定两个GO术语ta和tb,定义GLCA表示这两个GO本体术语的最低共同祖先术语的注释基因个数。GO术语ta和tb的相似性计算公式如下:
Figure GDA0002922454980000054
其中,IC(LCA)表示ta和tb的最低共同祖先术语的信息量。
Schlicker等人提出如下术语相似性计算方法:
Figure GDA0002922454980000061
其中,simschlicker(ta,tb)表示ta和tb的schlicker相似性,IC(LCA)表示ta和tb的最低共同祖先术语的信息量,IC(ta)和IC(tb)表示ta和tb术语的信息量,|GLCA|表示ta和tb的最低共同祖先术语的注释基因个数,|G|表示根节点本体术语的注释基因个数。公式(7) 中前一部分表示标准化术语ta和tb信息量和其最低公共祖先的信息量,第二部分是由其最低共同祖先术语信息量在GO中的级别决定的加权分数。
使用如上Schlicker方法计算经步骤2筛选后的基因本体术语相似性。
4、对基因本体术语进行聚类
在使用Schlicker方法对基因本体术语相似性进行计算,得到术语两两之间的相似性之后,本发明使用层次聚类方法对基因本体术语进行聚类。在这里,需要控制基因本体术语簇内的术语个数,因为如果一个簇内存在过多的术语会掩盖此类生物信息的表达,并掩盖每个术语的异质性。层次聚类顺序按照本体术语相似性从高到低的顺序进行聚类,并且,只有当两个基因本体术语的Schlicker相似性大于0.5才有可能被聚在一起,否则认为不存在相似性。本发明设定最大基因本体个数为[1,4]个术语。图2 给出了如上进行基因本体相似性计算和聚类的过程。
5、提取Must-Link约束
若两个细胞在高维空间距离很近,以至于总是被聚成同一类,那么这两个细胞在低维空间的距离也应该很近,这样的两个细胞即为成对约束,即一种细胞与细胞之间的强关系,本发明称之为Must-Link约束,即这样的细胞必须具有高度相似性或属于同一类别。
针对上述定义,对于给定的细胞原始数据,如图3所示,本发明使用下述策略提取约束:
第一,使用PCA方法降低单细胞测序数据的维度。第二,由于细胞类别数目在此刻未知,使用拐点法确定细胞类别数目。第三,使用kmeans方法对细胞进行聚类,并获得预先聚类的结果。重复前述三个步骤100次,如果两个细胞始终在同一聚类中,则认为这两个细胞存在Must-Link约束。
从预先聚类中提取约束后,可以在模型中应用Must-Link约束作为先验信息。对于同一组原始单细胞测序数据,选择的Must-Link约束是相同的。原始的自编码器模型无法对从输入层获得的约束进行建模。因此,本发明在simGOAE模型中考虑结合细胞水平上的先验约束——Must-Link约束。其数学表示如下:
Figure GDA0002922454980000071
其中,M是表示Must-Link约束的矩阵,该矩阵对称的零一矩阵,Mi,j=1表示第 i个细胞xi和第j个细胞xj具有Must-Link约束,Mi,j=0表示第i个细胞xi和第j个细胞xj不存在Must-Link约束,n表示细胞个数;h(xi)表示网络输入层特征向量xi的潜在层表示,h(xj)表示网络输入层特征向量xj的潜在层表示。其中,约束对的个数必须远小于总细胞对数:|M|<<|S|。假设如果在输入层中细胞xi和xj中存在Must-Link约束,则它们在低维空间也应距离很近或更相似。理想情况下,在编码过程后,两个Must-Link 细胞应该比输入阶段距离更相近。令d(h(xi),h(xj))表示在编码后(自编码器中间层) 细胞xi和xj的之间的距离。对于Must-Link约束,两细胞在编码前的距离d(xi,xj)应大于编码后的距离d(h(xi),h(xj))。
为了增强模型降维效果,本发明在后续构建的simGOAE模型的损失函数中增加如上Must-Link约束惩罚项。
6、构建simGOAE模型
将步骤2和步骤4得到的本体术语和本体术语簇建模为神经元节点放置在模型第二层和第四层中,其中本体术语神经元与其注释基因部分连接,本发明构建了用于对单细胞测序数据进行降维处理的simGOAE模型,如图4所示。该模型共包含五层神经元。第一层为输入层,神经元代表经过步骤1处理后的单细胞测序数据集中的基因;第二层为本体术语层,神经元代表经过步骤2和步骤3处理过后的基因本体术语,第二层神经元与输入层神经元部分连接,连接规则即为基因本体术语代表的神经元与该基因本体术语的注释基因所代表的神经元连接;第三层为中间层,该层神经元为神经网络普通的神经元,设共有100个神经元,与第二层全连接;第四层与第二层表示含义相同,为本体术语层,与第三层全连接,神经元代表与第二层相同的基因本体术语;第五层与第一层表示含义相同,为输出层,神经元代表与第一层相同的基因,与第四层部分连接,连接规则与第一层与第二层规则相同。
前三层为编码器,第三层到第五层为解码器,与编码器结构对称。
此外,在第二层中还有一类神经元,代表的是基因本体术语簇节点。根步骤3所介绍的方法,获取本体术语相似性特征,并根据术语之间的相似性,将这些术语聚成不超过4个本体术语的簇。对于这些本体术语簇神经元,它的输入即为术语神经元的输出,簇神经元的作用只是对这些相似的术语神经元输出取均值,并无其他激活函数等其他操作。同时,还可以在第二层中,增加一部分稠密神经元(在本模型中设为100 个)与输入层神经元全连接,以保证最大可能获取一些未前述本体术语神经元所捕获的生物信息,增强模型聚类效果。
设定simGOAE模型的损失函数为:
loss=LMSE+αL2+βLm (9)
其中,loss表示总损失,LMSE表示输入层与第五层输出层之间的均方误差项,L2表示正则化项,α表示正则化项权重系数,取值范围为(0,1),Lm表示Must-Link约束项,β表示Must-Link约束项的权重系数,取值范围为(0,1)。
为了优化公式(9)的目标函数,计算
Figure GDA0002922454980000081
偏导是至关重要。为了计算该偏导结果,Lm可以用下式表达:
Figure GDA0002922454980000082
其中,LM=DM-M,DM∈Rn×n是一个对称矩阵,
Figure GDA0002922454980000085
H是第三层中间层的简化表示。因此,
Figure GDA0002922454980000083
可以进行如下化简:
Figure GDA0002922454980000084
其中,W代表神经网络里的权重矩阵,B代表神经网络里的偏置矩阵。
7、对单细胞测序数据进行降维
使用simGOAE模型训练单细胞测序数据,将训练后第三层的结果作为降维结果输出。
为了证明本发明方法的有效性,分别采用主成分分析(PCA)、独立成分分析(ICA)、非负矩阵分解(NMF)、SIMLR、降噪自编码器(DAE)、深度计数自编码器模型(DAC)、单细胞数据变分自编码器模型(scVI)和本发明的simGOAE方法对单细胞测序数据进行降维处理,再使用kmeans++方法对降维结果进行聚类,使用两个常用的聚类评价指标ARI和NMI,对不同方法的效果定量计算和评价。ARI测量了真实标签和聚类标签之间的相似性,NMI是互信息指数的标准化值,ARI和NMI值越大意味着聚类结果与真实结果越吻合。实验所采用的单细胞测序数据集包括不同平台上的测序数据,分别为Zeisel数据集、Pollen数据集、Baron Human数据集和Zheng数据集。各数据集的信息如表1所示。
表1
数据集名称 平台 物种 样本数量 基因数量 类别数目
Zeise STRT-Seq 小鼠 3005 11404 7
Pollen SMARTer 人类 300 8686 11
Baron inDrop 人类 1724 8550 13
Zheng 10X 人类 54621 5831 7
采用不同方法计算得到ARI结果如表2所示,NMI结果如表3所示。可以看出,本发明方法在所有数据集上的结果都要优于其他方法,证明了本发明方法的有效性。
表2
方法 Zeisel Pollen Baron Zheng
PCA 0.631 0.817 0.699 0.886
ICA 0.052 0.161 0.116 0.467
NMF 0.041 0.028 0.353 0.167
SIMLR 0.688 0.606 0.491 0.522
DAE 0.689 0.842 0.781 0.782
DCA 0.625 0.671 0.336 0.816
scVI 0.355 0.861 0.421 0.874
simGOAE 0.894 0.909 0.826 0.925
表3
方法 Zeisel Pollen Baron Zheng
PCA 0.736 0. 917 0.808 0.903
ICA 0.265 0.390 0.396 0.633
NMF 0.176 0.247 0.558 0.386
SIMLR 0.747 0.810 0.695 0.684
DAE 0.737 0.926 0.826 0.861
DCA 0.704 0.797 0.597 0.856
scVI 0.696 0.912 0.708 0.883
simGOAE 0.857 0.933 0.828 0.922
由于融合了基因本体术语,simGOAE模型可以通过对神经网络模型的权重分析得到不同细胞的生物信息,使得模型具有一定的可解释性。首先,通过中间层的降维结果,提取单个细胞的低维表示,然后,对于每种细胞类型,找到该细胞类型低维表示中具有最小标准偏差的10个维度对应的中间层节点,这是因为最小标准偏差的意味着这种细胞在该维度上表达最相似,而正是因为相似表达使这些细胞被聚成一类。通过寻找每个具有较小标准偏差前K个权重较大的GO本体术语簇节点(K<=10),从而找到相应类细胞中的重要GO术语簇节点和GO术语节点。
通过对本发明的simGOAE模型的权重分析,还能得到不同细胞的生物信息,即通过降维结果提取单个细胞的低维表示,对于每种细胞类型,找到具有最小标准偏差的K个第三层中间层节点,即GO簇节点,从而找到相应类细胞中的重要GO术语。表4给出了利用simGOAE模型在Zeisel数据集上找出的重要GO术语。例如,GO: 0006810是星形胶质细胞-表皮(astrocytes-ependymal)细胞类型的重要术语,它的主要GO功能是借助某种物质(例如转运蛋白,孔蛋白或运动蛋白)形成的多细胞生物。另一个术语GO:0030030是在细胞水平上执行的过程,该过程导致装配,组件对齐或因细胞伸长或诸如鞭毛或轴突的过程分解而伸长。因此,由于本发明的simGOAE模型融合了基因本体信息,具有可解释性,可以用于进行细胞相关生物信息挖掘。
表4
Figure GDA0002922454980000101
Figure GDA0002922454980000111

Claims (1)

1.一种融合基因本体和神经网络的单细胞测序数据降维方法,其特征在于步骤如下:
步骤一,数据预处理:删除单细胞测序数据中基因表达小于3个细胞的基因;删除单细胞测序数据中在基因本体术语注释数据库中没有表达的基因;对单细胞测序数据在基因上进行z-score标准化;
步骤二,筛选基因本体术语:删除冗余本体术语和低表达本体术语;所述的冗余本体术语是指特异性分数在[0.5,1)范围内的两个基因本体术语中具有较少注释基因的那个术语;所述的低表达本体术语是指多样性表达分数在[0,0.1]范围内的术语;
步骤三,计算基因本体术语相似性:使用Schlicker方法计算经步骤二筛选后的基因本体术语相似性;
步骤四,对基因本体术语进行聚类:设定每个簇包含的最大基因本体个数,采用层次聚类方法对基因本体术语进行聚类,得到基因本体术语簇;所述的最大基因本体个数的设定为[1,4]之间的整数;
步骤五,提取Must-Link约束:重复以下步骤1-3共100次,如果两个细胞始终在同一聚类中,则认为这两个细胞存在Must-Link约束:
步骤1:使用PCA方法降低单细胞测序数据的维度;
步骤2:使用拐点法确定细胞类别数目;
步骤3:使用kmeans方法对细胞进行聚类,得到聚类结果;
步骤六,构建simGOAE模型:共包含五层神经元模型,第一层为输入层,神经元代表经过步骤一处理后的单细胞测序数据集中的基因;第二层为本体术语层,神经元代表经过步骤二和步骤三处理过后的基因本体术语,第二层中代表基因本体术语的神经元与第一层中代表该基因本体术语的注释基因的神经元连接,第二层还包括代表基因本体术语簇的神经元,实现对同一簇内的术语神经元的取均值操作;第三层为中间层,包括100个普通神经元,与第二层全连接;第四层与第二层完全相同,与第三层全连接;第五层与第一层完全相同,与第四层部分连接,连接规则和第二层与第一层的连接规则相同;
设定simGOAE模型的损失函数为:
loss=LMSE+αL2+βLm (1)
其中,loss表示总损失,LMSE表示输入层与第五层输出层之间的均方误差项,L2表示正则化项,α表示正则化项权重系数,取值范围为(0,1),Lm表示Must-Link约束项,β表示Must-Link约束项的权重系数,取值范围为(0,1);
所述的Must-Link约束项的表达式如下:
Figure FDA0002922454970000021
其中,xi和xj分别为第i和第j个细胞的向量表示,M表示存在Must-Link约束的零一对称矩阵,Mi,j=1表示第i个细胞和第j个细胞具有Must-Link约束,Mi,j=0表示第i个细胞和第j个细胞不存在Must-Link约束,n表示细胞个数;h(xi)表示输入层特征向量xi在第三层中间层的向量表示;h(xj)表示输入层特征向量xj的在第三层中间层的向量表示;
步骤七,对单细胞测序数据进行降维:利用经步骤一处理后的单细胞测序数据对simGOAE模型进行训练,训练后模型第三层的输出结果即为该单细胞测序数据集最终的降维结果。
CN202010336243.8A 2020-04-24 2020-04-24 融合基因本体和神经网络的单细胞测序数据降维方法 Active CN111564183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010336243.8A CN111564183B (zh) 2020-04-24 2020-04-24 融合基因本体和神经网络的单细胞测序数据降维方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010336243.8A CN111564183B (zh) 2020-04-24 2020-04-24 融合基因本体和神经网络的单细胞测序数据降维方法

Publications (2)

Publication Number Publication Date
CN111564183A CN111564183A (zh) 2020-08-21
CN111564183B true CN111564183B (zh) 2021-04-20

Family

ID=72073160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010336243.8A Active CN111564183B (zh) 2020-04-24 2020-04-24 融合基因本体和神经网络的单细胞测序数据降维方法

Country Status (1)

Country Link
CN (1) CN111564183B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112509639B (zh) * 2020-12-10 2022-05-31 北京大学 一种单细胞基因融合检测方法
CN112908414B (zh) * 2021-01-28 2023-08-22 中山大学 一种大规模单细胞分型方法、系统及存储介质
CN112967755B (zh) * 2021-03-04 2023-06-13 深圳大学 一种面向单细胞rna测序数据的细胞类型识别方法
CN113160886B (zh) * 2021-04-02 2023-04-07 山东大学 基于单细胞Hi-C数据的细胞类型预测系统
CN113567326A (zh) * 2021-07-19 2021-10-29 清华大学 一种高通量实时单细胞电学本征参数测量系统及方法
CN113611368B (zh) * 2021-07-26 2022-04-01 哈尔滨工业大学(深圳) 基于2d嵌入的半监督单细胞聚类方法、装置、计算机设备
WO2023027281A1 (ko) * 2021-08-27 2023-03-02 디어젠 주식회사 유전자 정보 분석 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133496A (zh) * 2017-05-19 2017-09-05 浙江工业大学 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
CN107992945A (zh) * 2017-12-14 2018-05-04 浙江工业大学 基于深度学习和进化计算的特征基因选择方法
CN108388768A (zh) * 2018-02-08 2018-08-10 南京恺尔生物科技有限公司 利用生物知识搭建的神经网络模型的生物特性预测方法
CN109903814A (zh) * 2019-03-05 2019-06-18 邱和松 基于知识分类获取的交互式ai人工智能基因分析系统
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110473204A (zh) * 2019-06-18 2019-11-19 常熟理工学院 一种基于弱链接约束的交互式图像分割方法
WO2019209874A3 (en) * 2018-04-24 2019-12-05 Healthtell Inc. Markers of immune wellness and methods of use thereof

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133496A (zh) * 2017-05-19 2017-09-05 浙江工业大学 基于流形学习与闭环深度卷积双网络模型的基因特征提取方法
CN107992945A (zh) * 2017-12-14 2018-05-04 浙江工业大学 基于深度学习和进化计算的特征基因选择方法
CN108388768A (zh) * 2018-02-08 2018-08-10 南京恺尔生物科技有限公司 利用生物知识搭建的神经网络模型的生物特性预测方法
WO2019209874A3 (en) * 2018-04-24 2019-12-05 Healthtell Inc. Markers of immune wellness and methods of use thereof
CN109903814A (zh) * 2019-03-05 2019-06-18 邱和松 基于知识分类获取的交互式ai人工智能基因分析系统
CN109979538A (zh) * 2019-03-28 2019-07-05 广州基迪奥生物科技有限公司 一种基于10x单细胞转录组测序数据的分析方法
CN110473204A (zh) * 2019-06-18 2019-11-19 常熟理工学院 一种基于弱链接约束的交互式图像分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Combining gene ontology with deep neural networks to enhance the clustering of single cell RNA-Seq data;Jiajie Peng.et.;《bioRxiv》;20181031;第1-15页 *
基于基因本体降维的蛋白质功能预测研究;赵颖闻;《中国优秀硕士学位论文全文数据库 基础科学辑》;20200115(第1期);第A006-483页 *

Also Published As

Publication number Publication date
CN111564183A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
CN111564183B (zh) 融合基因本体和神经网络的单细胞测序数据降维方法
CN111681718B (zh) 一种基于深度学习多源异构网络的药物重定位方法
Maulik et al. Simulated annealing based automatic fuzzy clustering combined with ANN classification for analyzing microarray data
Yan et al. Unsupervised and semi‐supervised learning: The next frontier in machine learning for plant systems biology
Erfanian et al. Deep learning applications in single-cell genomics and transcriptomics data analysis
WO2019178291A1 (en) Methods for data segmentation and identification
CN112487193B (zh) 一种基于自编码器的零样本图片分类方法
CN113889192B (zh) 一种基于深层降噪自编码器的单细胞RNA-seq数据聚类方法
CN114091603A (zh) 一种空间转录组细胞聚类、分析方法
Wang et al. Epithelial-to-mesenchymal transition proceeds through directional destabilization of multidimensional attractor
CN112908414A (zh) 一种大规模单细胞分型方法、系统及存储介质
CN112784921A (zh) 任务注意力引导的小样本图像互补学习分类算法
CN116580848A (zh) 一种基于多头注意力机制的分析癌症多组学数据方法
CN114783526A (zh) 基于高斯混合图变分自编码器的深度无监督单细胞聚类方法
CN113724195B (zh) 基于免疫荧光图像的蛋白质的定量分析模型和建立方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN111985680A (zh) 基于胶囊网络与时序的刑事多罪名预测方法
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
CN115661498A (zh) 一种自优化单细胞聚类方法
Oh et al. Hybrid clustering of single-cell gene expression and spatial information via integrated NMF and k-means
CN114970684A (zh) 一种结合vae的提取网络核心结构的社区检测方法
CN113177587A (zh) 基于主动学习和变分自编码器的广义零样本目标分类方法
CN112768001A (zh) 一种基于流形学习和主曲线的单细胞轨迹推断方法
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant