CN116525006A - 单细胞分类方法、装置、设备及存储介质 - Google Patents
单细胞分类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN116525006A CN116525006A CN202310306821.7A CN202310306821A CN116525006A CN 116525006 A CN116525006 A CN 116525006A CN 202310306821 A CN202310306821 A CN 202310306821A CN 116525006 A CN116525006 A CN 116525006A
- Authority
- CN
- China
- Prior art keywords
- cell
- single cells
- graph
- gene expression
- expression data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000014509 gene expression Effects 0.000 claims abstract description 155
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 150
- 238000010586 diagram Methods 0.000 claims abstract description 95
- 238000013528 artificial neural network Methods 0.000 claims abstract description 79
- 238000012549 training Methods 0.000 claims description 85
- 230000037361 pathway Effects 0.000 claims description 68
- 238000012163 sequencing technique Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 19
- 238000010201 enrichment analysis Methods 0.000 claims description 13
- 238000005096 rolling process Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 92
- 230000006870 function Effects 0.000 description 53
- 230000008569 process Effects 0.000 description 38
- 239000011159 matrix material Substances 0.000 description 29
- 238000013527 convolutional neural network Methods 0.000 description 22
- 238000013507 mapping Methods 0.000 description 20
- 230000000694 effects Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 239000004973 liquid crystal related substance Substances 0.000 description 6
- 230000003915 cell function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 230000008827 biological function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 229920002477 rna polymer Polymers 0.000 description 3
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000031018 biological processes and functions Effects 0.000 description 2
- 230000037353 metabolic pathway Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 102100039980 40S ribosomal protein S18 Human genes 0.000 description 1
- 102100036799 Adhesion G-protein coupled receptor V1 Human genes 0.000 description 1
- 102100039297 Cyclic AMP-responsive element-binding protein 3-like protein 1 Human genes 0.000 description 1
- 102100027117 Engulfment and cell motility protein 2 Human genes 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 101001119215 Homo sapiens 40S ribosomal protein S11 Proteins 0.000 description 1
- 101000811259 Homo sapiens 40S ribosomal protein S18 Proteins 0.000 description 1
- 101000928167 Homo sapiens Adhesion G-protein coupled receptor V1 Proteins 0.000 description 1
- 101000745631 Homo sapiens Cyclic AMP-responsive element-binding protein 3-like protein 1 Proteins 0.000 description 1
- 101001057855 Homo sapiens Engulfment and cell motility protein 2 Proteins 0.000 description 1
- 101001094802 Homo sapiens Paraneoplastic antigen Ma1 Proteins 0.000 description 1
- 102100035457 Paraneoplastic antigen Ma1 Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000034659 glycolysis Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 101150077543 st gene Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供一种单细胞分类方法及设备,该方法包括:获取基因表达数据,基因表达数据包括多个单细胞中每个单细胞内基因的表达量;根据基因表达数据,构建多个单细胞之间的细胞关系图,在细胞关系图中,节点表示单细胞,边表示单细胞之间的关系;通过图卷积神经网络,对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示;根据特征嵌入表示,通过分类网络对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。从而,利用图卷积神经网络和展现多个单细胞之间更高阶的关系的细胞关系图,有效地提高了单细胞分类的准确性。
Description
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种单细胞分类方法、装置、设备及存储介质。
背景技术
近年来,单细胞测序技术迅速发展,已经被广泛应用于生物医药领域。单细胞测序技术是指对单个细胞进行基因组、转录组的测定,得到的测序结果可以为细胞异质性和复杂的细胞基因调控网络提供颗粒度更细的研究角度。在与单细胞相关的众多研究任务中,细胞类型的注释和分类任务在研究单细胞的核糖核酸(Ribonucleic Acid,简称RNA)序列中发挥着重要作用,能够为下游的任务分析提供便利,帮助研究人员理解疾病细胞的作用机制。随着单细胞数据的增多,如何利用测序结果实现细胞分类是目前研究重点之一。目前,一种单细胞分类方式为:在单细胞分类工具中,基于测序结果,对参考数据(referencedata)和待预测数据(query data)之间的细胞相似度进行分析,再基于细胞相似度进行细胞类型的分类。
然而,上述方式对单细胞的分类准确性较低。
发明内容
本公开实施例提供一种单细胞分类方法、装置、设备及存储介质,以提高单细胞数据的分类准确性。
第一方面,本公开实施例提供一种单细胞分类方法,包括:
获取基因表达数据,其中,所述基因表达数据包括多个单细胞中每个单细胞内基因的表达量;
根据所述基因表达数据,构建所述多个单细胞之间的细胞关系图,其中,在所述细胞关系图中,节点表示单细胞,边表示单细胞之间的关系;
通过图卷积神经网络,对所述细胞关系图进行特征提取,得到所述细胞关系图对应的特征嵌入表示;
根据所述特征嵌入表示,通过分类网络对所述多个单细胞进行分类,得到所述多个单细胞分别对应的细胞类型。
第二方面,本公开实施例提供一种单细胞分类装置,包括:
获取单元,用于获取基因表达数据,其中,所述基因表达数据包括多个单细胞中每个单细胞内基因的表达量;
构建单元,用于根据所述基因表达数据,构建所述多个单细胞之间的细胞关系图,其中,在所述细胞关系图中,节点表示单细胞,边表示单细胞之间的关系;
特征处理单元,用于通过图卷积神经网络,对所述细胞关系图进行特征提取,得到所述细胞关系图对应的特征嵌入表示;
分类单元,用于根据所述特征嵌入表示,通过分类网络对所述多个单细胞进行分类,得到所述多个单细胞分别对应的细胞类型。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;所述存储器存储计算机执行指令;所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面所述的单细胞分类方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面所述的单细胞分类方法。
第五方面,本公开实施例提供了一种计算机程序产品,所述计算机程序产品包含计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面所述的单细胞分类方法。
本公开实施例提供的单细胞分类方法、装置、设备及存储介质,根据基因表达数据构建多个单细胞之间的细胞关系图,从基因层面分析多个单细胞之间的关系并利用细胞关系图准确描述多个单细胞之间的关系,相较于分析多个单细胞之间的相似度,从基因层面分析多个单细胞之间的关系能够考虑到单细胞之间更高阶的关系,该类关系可以用于对来自不同物种、不同平台等不同来源的单细胞进行准确分类;接着,通过图卷积神经网络对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示,通过图卷积神经网络提高了细胞关系图的降维降噪效果;根据细胞关系图对应的特征嵌入表示,通过分类网络对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。从而,从细胞关系图构建、图卷积神经网络对细胞关系图进行特征提取等多个方面,有效地提高了单细胞的分类准确性,尤其地,可以提高对来自不同物种、不同平台等不同来源的单细胞的分类准确性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的单细胞分类方法流程示意图一。;
图2为本公开实施例提供的单细胞分类方法流程示意图二;
图3为一个通路数据库下各个单细胞的基因富集得分的示例图;
图4为本公开实施例提供的单细胞分类方法流程示意图三;
图5为本公开实施例提供的单细胞分类过程、模型训练过程以及相应的模型结构示例图;
图6为本公开实施例提供的单细胞分类装置的结构框图;
图7为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
相关技术中,对单细胞进行分类可采用如下方式:
方式一,通过Seurat,SingleR,scmap等单细胞分析工具,对单细胞之间的相似度进行分析,基于单细胞之间的相似度对单细胞进行分类。然而,方式一没有考虑到单细胞之间更高阶的关系,对来自不同物种、平台的单细胞数据的分类效果较差,对于细胞亚群的区分能力不足。
方式二,采用神经网络来对单细胞进行分类。其中,神经网络通常是采用监督或者半监督方式进行训练得到的。在监督或者半监督方式中,在训练的时候需要使用测试集的信息,每来一个新的测试集都需要重新训练一次,模型的训练成本较高,便捷性较低。
除了上述方式存在的缺点以外,经测序得到的单细胞数据往往存在很多噪音,比如发生Dropout事件(检测过程中的噪声导致极低的RNA捕获率,而极低的RNA捕获率进一步导致细胞中表达量水平中等或者较高的基因在另一细胞中无法检测到);因测序方法、测序时间、测序地点的不同,单细胞数据还会受到批次效应(batch effect)的影响。这些都会导致基于测序得到的单细胞数据进行单细胞分类的准确性较低。
基于上述缺点的发现,本公开实施例提供了一种单细胞分类方法、装置、设备及存储介质,以提高单细胞分类的准确性。在本公开实施例中,根据基因表达数据,构建多个单细胞之间的细胞关系图,通过细胞关系图准确地表示单细胞之间更高阶的关系;利用图卷积神经网络(Graph Neural Network,GCN)对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示(embedding);最后基于特征嵌入表示利用分类网络实现多个单细胞的分类。从而,不仅考虑到单细胞之间更高阶的关系,还将细胞之间的关系以图的方式作为GCN的输入,达到充分利用单细胞之间关系的目的,有效地提高了单细胞分类准确性,尤其是提高了对来自不同物种、平台的单细胞数据的分类效果,提高了对细胞亚群的区分能力。此外,GCN对细胞关系图进行特征提取还起到去噪作用,能够降低Dropout事件的影响,提高单细胞分类准确性。
下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
图1为本公开实施例提供的单细胞分类方法流程示意图一。如图1所示,该单细胞分类方法包括:
S101、获取基因表达数据,其中,基因表达数据包括多个单细胞中每个单细胞内基因的表达量。
其中,单细胞是指一个细胞。
其中,在基因表达数据中,可包括每个单细胞内多个基因分别对应的表达量。基因的表达量是指基因的表达水平,通过单细胞测序技术得到,是对单个细胞中的转录组进行测序,然后得到测序序列(即reads),这些测序序列和基因的表达水平呈正相关。
本实施例中,可从数据库中获取基因表达数据;或者,可接收用户输入的基因表达数据;或者,可接收基因测序装置发送的基因表达数据。
S102,根据基因表达数据,构建多个单细胞之间的细胞关系图,其中,细胞关系图中,节点表示单细胞,边表示单细胞之间的关系。
本实施例中,可在细胞关系图的构建过程中,以单细胞内基因的表达量为单细胞的特征,对多个单细胞进行相似度分析,得到两两单细胞之间的相似度,根据多个单细胞中两两单细胞之间的相似度,确定多个单细胞中相邻的单细胞。在细胞关系图中,构建单细胞对应的节点,并将相邻的单细胞分别对应的节点通过边进行相互连接。最终得到多个单细胞之间的细胞关系图。
S103,通过图卷积神经网络,对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示。
其中,图卷积神经网络中包括编码器和解码器,编码器可用于对细胞关系图进行编码和去噪,得到细胞关系图对应的特征嵌入表示。
本实施例中,通过图卷积神经网络中的编码器,对细胞关系图进行编码处理,在编码处理的过程中同时对细胞关系图进行去噪,得到该编码器输出的特征嵌入表示,即得到细胞关系图对应的特征嵌入表示。
S104,根据特征嵌入表示,通过分类网络对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。
其中,分类网络为预先训练的用于细胞分类的神经网络。在训练过程中,可基于用于训练的多个单细胞之间的细胞关系图所对应的特征嵌入表示和用于训练的多个单细胞分别对应细胞类型,对分类网络进行有监督训练。
本实施例中,可将特征嵌入表示输入至分类网络中,在分类网络中,通过多个网络层对特征嵌入表示进行特征处理,以对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。
本公开实施例中,根据基因表达数据,分析多个单细胞之间的更高阶的关系,得到多个单细胞之间的细胞关系图;利用图卷积神经网络对细胞关系图进行特征提取,得到对应的特征嵌入表示;再在分类网络中基于特征嵌入表示进行多个单细胞的分类。如此,不仅分析了多个单细胞之间的更高阶的关系,而且通过图卷积神经网络,将多个单细胞之间的更高阶的关系用于单细胞的分类,还在一定程度上对测序所产生的噪声进行了去噪,从多方面有效地提高了单细胞的分类准确性。
在一些实施例中,基因表达数据可为基因表达矩阵。其中,在基因表达矩阵中,一个元素值对应一个基因的表达量。从而,通过基因表达矩阵简洁清晰地表示了多个单细胞中每个单细胞内多个基因的表达量。
可选的,在基因表达矩阵中,一行对应一个单细胞,一列对应一个基因。
可选的,在基因表达矩阵中,一行对应一个基因,一列对应一个单细胞。
在一些实施例中,S202的一种可能的实现方式包括:以单细胞内基因的表达量为单细胞的特征,通过邻近算法确定多个单细胞中每个单细胞的邻居节点,根据每个单细胞的邻居节点,构建多个单细胞之间的细胞关系图。其中,邻近算法又可称为K最邻近(K-nearest neighbors,KNN)算法。从而,通过KNN算法在一定程度上提高细胞关系图的准确性。
在一些实施例中,考虑到采用KNN算法来构建细胞关系图的方式是基于细胞之间的关系进行关系图的构建,而忽视了基因之间的关系,对细胞关系图准确性的提升效果有限,为解决该问题,S202的又一种可能的实现方式包括:根据通路数据库和基因表达数据,确定通路数据库下多个单细胞之间的相似度;根据通路数据库下多个单细胞之间的相似度,构建多个单细胞之间的细胞关系图。其中,通路数据库中包括多个通路(pathway),基因往往可以根据不同的生物功能而分成不同的集合,通路是一组调控相同生物过程的基因的集合。比如,Glycolysis(糖酵解)是人体的一个生物代谢途径,用于将葡萄糖分解成能量,其中会涉及到HK3、HK1、HK2等基因的调控,那么该生物代谢途径对应的通路可以表示为【HK3,HK1,HK2】。
本实施例中,可以根据通路数据库中的通路和基因表达数据中每个单细胞内基因的表达量,从生物功能的角度分析多个单细胞之间的相似度,由于生物功能是否相同或者相近反映了基因之间的关系,从生物功能的角度分析多个单细胞之间的相似度是在充分考虑基因之间关系的前提下进行的细胞相似度分析,有效地提高了多个单细胞之间相似度的准确性。进一步的,根据通路数据库下多个单细胞之间的相似度,构建多个单细胞之间的细胞关系图,提高了多个单细胞之间的细胞关系图的准确性。
在一些实施例中,细胞关系图的数量可为多个,不同的细胞关系图可对应不同的通路数据库,即基于不同的通路数据库分别分析多个单细胞之间的相似度,构建得到不同的通路数据库下多个单细胞之间的细胞关系图。从而,采用不同的通路数据库,为单细胞分类提供多个视角下的细胞关系图,利用多个视角下的细胞关系图提高单细胞分类的准确性。
可选的,多个通路数据库可分别为KEGG、Reactome、WikiPath和yan这些通路数据库。
图2为本公开实施例提供的单细胞分类方法流程示意图二,在本公开实施例中,细胞关系图的数量为多个,通路数据库的数量为多个,不同的细胞关系图对应不同的通路数据库。如图2所示,该单细胞分类方法包括:
S201、获取基因表达数据。
其中,S201的实现原理和技术效果可参照前述实施例,不再赘述。
S202、针对多个通路数据库中的各个通路数据库,根据基因表达数据,确定各个通路数据库下多个单细胞之间的相似度。
其中,在各个通路数据库中,分别包括多个通路,不同的通路数据库中可包括不同的通路。由于通路是一组调控相同生物过程的基因的集合,即功能相似或者相近的基因的集合。采用多个通路数据库,来分别确定各个通路数据库下多个单细胞之间的相似度,从而,从多个功能视角分析多个单细胞之间的相似度,提高了多个单细胞之间的相似度的准确性。
本实施例中,针对各个通路数据库,可根据通路数据库中的多个通路与基因表达数据中各个单细胞内基因的表达量,从细胞功能的角度确定通路数据库下多个单细胞之间的相似度。从而,在各个通路数据库对应的细胞关系图中,单细胞按照不同的功能聚集在一起,为单细胞分类提供了不同的关系视角,有效地提高了单细胞分类的准确性。
在一种可能的实现方式中,如图2所示,S202包括:S2021,基于各个通路数据库,分别对基因表达数据进行基因富集分析,得到各个通路数据库下每个单细胞的基因富集得分;S2022,根据各个通路数据库下每个单细胞的基因富集得分,分别计算各个通路数据库下多个单细胞之间的相似度。从而,利用基因富集分析,提高各个通路数据库下多个单细胞之间相似度的准确性。
其中,基因富集分析(Gene enrichment analysis)是指对单细胞中的基因在通路数据库中的分布趋势进行分析。针对各个通路数据库,通路数据库下单细胞的基因富集得分可包括单细胞与通路数据库中各个通路之间的关联分数,通路数据库下单细胞的基因富集得分在一定程度上可以反映出单细胞中的基因在通路数据库中的分布趋势。
在S2021中,针对各个通路数据库,可根据通路数据库中的多个通路和基因表达数据,对各个单细胞进行基因富集分析,得到通路数据库下各个单细胞的基因富集得分。在基因富集分析的过程中,可确定单细胞内基因落在通路中的数量,根据单细胞内基因的表达量和单细胞内基因落在通路中的数量,确定单细胞与各个通路之间的关联分数;由单细胞与各个通路之间的关联分数,组合得到通路数据库下单细胞的基因富集得分。如此,可得到各个通路数据库下各个单细胞的基因富集得分。
作为示例的,图3为一个通路数据库下各个单细胞的基因富集得分的示例图。如图3所示,一个通路数据库下各个单细胞的基因富集得分可以表示为矩阵,矩阵中一行对应一个单细胞,一列对应一个通路。矩阵中的第i行第j列对应第i个单细胞与第j个通路之间的关联分数。例如,图3中,Nc表示单细胞的数量,Np表示一个通路数据库中通路的数量,S11、S12、……S1NP分别为单细胞C1与Np个通路之间的关联分数,S21、S22、……S2NP分别为单细胞C2与通路P1之间的关联分数,……,/>分别为单细胞/>与Np个通路之间的关联分数。
在S2021的一种可能的实现方式,包括:根据基因表达数据,将每个单细胞内基因的表达量按照从高到低的顺序进行排序;针对每个单细胞,根据单细胞内基因的表达量的排列顺序,确定单细胞内基因对应的编码值;针对每个单细胞,以单细胞内基因对应的编码值为基因在x轴上的坐标、以单细胞内基因落在各个通路数据库中通路内的数量为y轴上的坐标,构建单细胞在各个通路数据库中通路下的二维曲线图;针对每个单细胞,根据单细胞在各个通路数据库中通路下的二维曲线图进行曲线下面积AUC的计算,得到各个通路数据库下单细胞的基因富集得分。从而,通构建二维曲线图,在二维曲线图中计算AUC的方式,提高基因富集得分的准确性。
本实现方式中,可从基因表达数据中获取各个单细胞中基因的表达量。针对各个单细胞,可按照单细胞内基因的表达量从高到低的顺序,对单细胞中的基因进行排序;按照单细胞内基因的排序顺序,对基因的排序进行编码,得到单细胞内基因对应的编码值,比如,从0开始对基因的排序进行编码,得到第1个基因对应的编码值为0、第2个基因对应的编码值为1、……如此类推。从而,通过表达量从高到低进行排序,找出这个细胞中富集基因(即高表达的基因),富集基因能作为单细胞中很好的特征,后续基于通路数据库从细胞功能的角度对富集基因进行分析,即从细胞功能的角度对富集基因的关系进行分析,提高对单细胞之间相似度的分析的准确性。
接着,以一个细胞和通路数据库中的一个通路为例,在排序编码后,可将单细胞内基因对应的编码值作为基因在x轴上的坐标,以单细胞内基因落在通路内的数量为基因在y轴上的坐标,可构建得到二维曲线图,在二维曲线图中可按照基因的排序顺序取前百分之N的基因,计算前百分之N的基因对应的AUC,即计算得到单细胞与通路之间的关联分数。如此,可以计算得到单细胞与通路数据库中多个通路之前的关联分数,由单细胞与通路数据库中多个通路之前的关联分数,组合得到通路数据库下单细胞的基因富集得分。进而,得到各个通路数据库下单细胞的基因富集得分。
其中,N例如为5,即取前5%的基因。
可选的,在基因表达数据为基因表达矩阵、基因表达矩阵的一行对应一个单细胞且基因表达矩阵的一列对应一个基因的情况下,按照单细胞内基因的表达量从高到低的顺序,对单细胞中的基因进行排序,可包括:针对基因表达矩阵的每一行,按照每一行中的元素值从高到低的顺序,对每一行对应的细胞中的基因进行排序。如此,提高基因排序的效率和准确性。
作为示例的,假设基因表达矩阵如下:
其中,基因表达矩阵的第一行、第二行和第三行分别对应单细胞C1、单细胞C2和单细胞C3,基因表达矩阵的第一列、第二列和第三列分别对应基因G1、基因G2和基因G3。在对单细胞C1中的基因按照表达量从大到小排序,可以得到这样的序列:G2、G3、G1,按照该序列对基因进行编码,得到G2、G3、G1分别对应的编码值:0、1、2。之后,在X轴上,0代表着G2,1代表G3,2代表G1。之后,针对通路数据库中的每个通路a,统计x轴基因落入通路a的个数,将该个数作为该基因的y轴坐标。如此,可以绘制出单细胞对应的二维曲线图,该二维曲线图与单细胞内基因在通路a的分布情况相关。之后,在二维曲线图中,取前5%的基因,即取x轴坐标位于前5%的点所在的曲线段,最后通过计算该曲线段的AUC作为单细胞与通路a的关联分数。如此重复,可以计算出很多单细胞和不同通路之间的关联分数。
在S2022中,针对各个通路数据库,可根据通路数据库下每个单细胞的基因富集得分,计算通路数据库下多个单细胞之间的相似度,如此可以得到各个通路数据库下多个单细胞之间的相似度。在根据通路数据库下每个单细胞的基因富集得分,计算通路数据库下多个单细胞之间的相似度的过程中,可以通过计算两两单细胞分别对应的基因富集得分之间的相似度,来得到两两单细胞之间的相似度。从而,基于基因富集分析提高相似度的准确性。
在计算两两单细胞分别对应的基因富集得分之间的相似度的过程中,一种可能的实现方式为:计算两两单细胞分别对应的基因富集得分之间的欧式距离。其中,两两单细胞分别对应的基因富集得分之间的欧式距离,即两两单细胞分别对应的基因富集得分之间的相似度,即两两单细胞之间的相似度。
本实现方式中,对于各个通路数据库而言,通路数据库下单细胞的基因富集得分是由单细胞与通路数据库中通路的关联分数组合得到的,所以多个单细胞的基因富集得分可以构成一个分数矩阵,在该矩阵中,一行对应一个单细胞的基因富集得分,所以一个单细胞的基因富集得分是一个行向量。可以通过计算两两行向量之间的欧式距离的方式,计算两两单细胞分别对应的基因富集得分之间的欧式距离。
进一步的,两两行向量之间的欧式距离的计算公式可表示为:||x-y||2。其中,x和y分别表示不同的单细胞对应的行向量。
S203、根据各个通路数据库下多个单细胞之间的相似度,构建各个通路数据库分别对应的细胞关系图。
本实施例中,针对各个通路数据库而言:首先,可在计算得到通路数据下多个单细胞之间的相似度之后,可根据多个单细胞之间的相似度,在多个单细胞中确定相邻的单细胞;在细胞关系图中,构建单细胞对应的节点,并将相邻的单细胞分别对应的节点通过边进行相互连接,得到通路数据库下多个单细胞之间的细胞关系图。基于每个通路数据库,可以分别构建一个细胞关系图,最终得到各个通路数据库分别对应的细胞关系图。
S204、通过图卷积神经网络,对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示。
本实现方式中,在细胞关系图为多个的情况下,可以通过图卷积神经网络中的编码器,分别对各个细胞关系图进行编码处理,在编码处理的过程中,同时对细胞关系图进行去噪,得到各个细胞关系图分别对应的特征嵌入表示。
在一种可能的实现方式中,图卷积神经网络为多个,不同的细胞关系图对应不同的图卷积神经网络,由于不同的细胞关系图对应不同的通路数据库,不同的细胞关系图对应不同的图卷积神经网络也可以理解为不同的通路数据库对应不同的图卷积神经网络。对于各个图卷积神经网络而言,图卷积神经网络用于对基于与图卷积神经网络对应的通路数据库得到的细胞关系图进行编码和去噪。从而,为不同的通路数据库(或者不同的细胞关系图)提供不同的图卷积神经网络,提高对细胞关系图进行编码和去噪的效果。
基于不同的细胞关系图对应不同的图卷积神经网络,可通过与细胞关系图对应的图卷积神经网络中的编码器,对细胞关系图进行编码处理,在编码处理的过程中对细胞关系图进行去噪,得到细胞关系图对应的特征嵌入表示。
S205、根据特征嵌入表示,通过分类网络对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。
本实施例中,在得到各个细胞关系图分别对应的特征嵌入表示后,可将各个细胞关系图分别对应的特征嵌入表示融合后输入至分类网络中,也可以将各个细胞关系图分别对应的特征嵌入表示输入至分类网络中进行融合,在分类网络中基于融合后的特征嵌入标识,对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。
本公开实施例中,基于多个通路数据库,从细胞功能的多个视角分析多个单细胞之间的相似度,为多个单细胞构建得到多个细胞关系图,一个通路数据库可构建得到一个细胞关系图;接着,利用图卷积神经网络对多个细胞关系图进行特征提取,得到相应的特征嵌入表示;利用分类网络和多个细胞关系图分别对应的特征嵌入表示,实现多个单细胞的分路。从而,在相似度分析时兼顾了细胞之间更高阶的关系和基因之间的关系,还从多个视角进行了相似度分析,提高了细胞关系图的准确性和多样性,为单细胞分类提供了不同视角下的细胞关系图,提高了单细胞分类的准确性。
在一些实施例中,通过图卷积神经网络,对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示,可包括:将细胞关系图和基因表达数据输入至图卷积神经网络的编码器中,在编码器中基于基因表达数据对细胞关系图进行编码和去噪,得到细胞关系图对应的特征嵌入表示。从而,在图卷积神经网络中引入基因表达数据提高细胞关系图编码和去噪的效果。
进一步的,在细胞关系图的数量为多个的情况下,图卷积神经网络的数量为多个,不同的细胞关系图对应不同的图卷积神经网络,将细胞关系图和基因表达数据输入至图卷积神经网络的编码器中,在编码器中基于基因表达数据对细胞关系图进行编码和去噪,得到特征嵌入表示,可包括:将细胞关系图和基因表达数据,输入至细胞关系图对应的图卷积神经网络包含的编码器中,在编码器中基于基因表达数据对细胞关系图进行编码和去噪,得到细胞关系图的特征嵌入表示。从而,利用不同的图卷积神经网络处理不同的细胞关系图,并在图卷积神经网络中引入基因表达数据,通过这两种方式有效地提高了图卷积神经网络对细胞关系图的编码和去噪效果。
本实现方式中,细胞关系图的数据形式为邻接矩阵,可对细胞关系图进行标准化处理,将标准化处理后的细胞关系图与基因表达数据,输入至细胞关系图对应的图卷积神经网络包含的编码器中进行编码和去噪,得到编码器的输出数据,即细胞关系图对应的特征嵌入表示。
进一步的,在将基因表达数据输入至图卷积神经网络之前,可对基因表达数据进行预处理操作,以减少基因表达数据的噪声。
其中,对基因表达数据的预处理操作可包括如下至少一种:特征选择操作、标准化操作。从而,通过该一种或者多种操作,提高预处理效果。
其中,特征选择操作是在基因表达数据中选取表达量排序靠前的基因,比如,前2000个高表达量基因。通过特征选择操作,可以减少基因表达数据中表达量较低的基因,减少基因表达数据的冗余。标准化操作可以包括中位数标准化(Median Normalization)操作,中位数标准化操作是指根据基因表达数据确定每个单细胞的平均基因表达量,针对每个单细胞,根据单细胞的平均基因表达量对单细胞内各个基因的表达量进行调整。
进一步的,在预处理操作包括中位数标准化操作的情况下,可通过如下公式,对每个单细胞内每个基因的表达量进行处理:X/sum(X)*μ。其中,μ是单细胞的平均基因表达量,X为细胞的基因表达量,sum()是求和函数。
在一些实施例中,图卷积神经网络的编码器可以表示为:
其中,A表示细胞关系图,/>表示标准化后的细胞关系图,X表示基因表达数据,W1为编码器的模型参数,σ表示激活函数,H表示编码器的输出,/>为度矩阵(degree matrix),/>可以表示为/>i表示矩阵的第i行,j表示矩阵的第j列。
在一些实施例中,图卷积神经网络中的解码器可以表示为:
其中,为解码器的输出,W2为解码器的模型参数。
在训练图卷积神经网络的过程中需要用到图卷积神经网络包含的编码器和解码器,在应用图卷积神经网络对细胞关系图进行处理的过程中,需要用到图卷积神经网络包含的编码器。
在一些实施例中,图卷积神经网络是通过自监督(Self-Supervised Learning)的训练方式训练得到的。其中,自监督是无监督的一种,可以从无监督数据中挖掘出监督信息用于模型训练。通过自监督训练图卷积神经网络,使得图卷积神经网络是一种归纳式的模型,这种模型训练之后可以对训练数据的依赖性较低,可以适用于多个测试集,而不是每来一个测试集就需要在训练集上进行模型训练。所以,通过自监督训练图卷积神经网络,可以减少图卷积神经网络的训练耗时,使得图卷积神经网络的使用变得更加方便,省时。
在一种可能的实现方式中,图卷积神经网络的一次训练过程可包括:获取训练数据,其中,训练数据包括基于用于训练的细胞关系图和用于训练的基因表达数据,用于训练的细胞关系图是基于用于训练的基因表达数据得到的;对用于训练的基因表达数据中部分基因的表达量进行遮挡(mask),得到遮挡后的基因表达数据;将遮挡后的基因表达数据和用于训练的细胞关系图,输入至图卷积神经网络包含的编码器中,在编码器中基于遮挡后的基因表达数据对用于训练的细胞关系图进行编码和去噪,得到用于训练的细胞关系图的特征嵌入表示;接着,将遮挡后的基因表达数据和用于训练的细胞关系图的特征嵌入表示,输入至图卷积神经网络包含的解码器中,在解码器中基于遮挡后的基因表达数据对用于训练的细胞关系图进行解码,得到解码器的输出数据;根据解码器的输出数据、遮挡后的基因表达矩阵以及损失函数,确定图卷积神经网络的损失值;根据图卷积神经网络的损失值,调整图卷积神经网络的网络参数。从而,实现图卷积神经网络的自监督训练,在训练过程中通过对细胞关系图进行遮挡的方式,模拟Dropout事件,使得图卷积神经网络可以学习到细胞关系图中的内在规律,减少噪声,减少Dropout事件。
其中,损失函数用于确定解码器的输出数据与遮挡后的基因表达矩阵的差异。进一步的,损失函数可表示为: 为解码器的输出,X表示遮挡后的基因表达矩阵。
其中,训练过程中编码器的数据处理过程,可以参照前述实施例中图卷积神经网络的应用过程中编码器的数据处理过程,不再赘述。训练过程中解码器的数据处理过程可以参照前述实施例对解码器的描述,不再赘述。
在图卷积神经网络为多个的情况下,可以参照上述过程分别训练得到多个图卷积神经网络,其中,不同的图卷积神经网络采用不同的训练数据,比如,第一个图卷积神经网络的训练数据中用于训练的细胞关系图是基于第一个通道数据库构建得到的,第二个图卷积神经网络的训练数据中用于训练的细胞关系图是基于第二个通道数据库构建得到的,如此类推。
进一步的,在将用于训练的基因表达数据输入至图卷积神经网络之前,需要对用于训练的基因表达数据进行预处理操作,其中,对用于训练的基因表达数据进行预处理操作可以参照前述实施例中对基因表达数据进行预处理操作的过程,在此不再赘述。
图4为本公开实施例提供的单细胞分类方法流程示意图三,如图3所示,该单细胞分类方法包括:
S401、获取基因表达数据。
S402、针对多个通路数据库中的各个通路数据库,根据基因表达数据,确定各个通路数据库下多个单细胞之间的相似度。
S403,根据各个通路数据库下多个单细胞之间的相似度,构建各个通路数据库分别对应的细胞关系图。
S404、通过图卷积神经网络,对各个细胞关系图进行特征提取,得到各个细胞关系图分别对应的特征嵌入表示。
其中,S401~S404的实现原理和技术效果可参照前述实施例,不再赘述。
其中,在细胞关系图为多个的情况下,特征嵌入表示也为多个,不同的细胞关系图对应不同的特征嵌入表示。
S405,通过多视图学习网络对多个特征嵌入表示进行融合,得到目标嵌入表示。
其中,多个特征嵌入表示相当于多个视图,多视图学习网络(Multi-ViewNetworks)用于在隐空间(又可以称为子空间)为多个视图查找相应的隐空间表示并对这些隐空间表示进行融合。
其中,多视图学习网络可以参照跨部分多视图网络(Cross Partial Multi-ViewNetworks,CPM-Nets)的相关内容,在此不进行详细描述。
本实施例中,以特征嵌入表示为视图,采用多视图学习网络,在隐空间中查找多个特征嵌入表示对应的隐空间表示。在隐空间中,隐空间表示分按照细胞类型进行分布,同一细胞类型的隐空间表示更为集中,不同细胞类型的隐空间表示之间相差较远。对隐空间表示进行融合,可得到目标嵌入表示。从而,通过多视图学习的方式,提高对多个特征嵌入表示进行融合的效果。
在一种可能的实现方式中,可假设存在多个映射函数,不同的映射函数对应不同的特征嵌入表示,映射函数又可以理解为重构函数,用于将多视图学习网络的输出重构为相应的特征嵌入表示。比如,第一个映射函数用于将多视图学习网络的输出数据重构为第一个特征嵌入表示,第二个映射函数用于将多视图学习网络的输出数据重构为第二个特征嵌入表示,……,如此类推。基于此,多视图学习网络的训练过程可包括:根据训练样本的样本数,初始化样本数量个隐空间表示,并随机初始化多个映射函数的参数;根据训练样本、隐空间表示、映射函数以及重构损失函数,确定多视图学习网络的重构误差;根据多视图学习网络的重构误差,对映射函数的参数进行更新;根据训练样本、训练样本对应的样本标签、隐空间表示以及分类损失函数,确定多视图学习网络的分类误差;根据重构误差和分类误差,对隐空间表示进行更新;循环执行确定重构误差、更新映射函数的参数、确定分类误差以及更新隐空间表示的操作,直至隐空间表示收敛。从而,通过重构误差和训练误差,提高多视图学习网络在隐空间查找到相应表示的准确性。
其中,训练样本可包括用于训练的细胞关系图对应的特征嵌入表示,在一个训练样本中可包括多个特征嵌入表示,比如,通路数据库的数量为4时,一个训练样本中可包括4个特征嵌入表示。训练样本对应的样本标签包括用于训练的细胞关系图中各个单细胞对应的细胞类型。
本实现方式中,根据训练样本的样本数,初始化样本数量个隐空间表示,假设样本数量为N,则样本数量个隐空间表示为hi为第i个隐空间表示。随机初始化多个映射函数的参数,映射函数的数量和通路数据库的数量一致,也和一个训练样本对应的细胞关系图的数量一致。通过映射函数对隐空间表示进行重构,得到隐空间表示对应的重构表示,在重构损失函数中,根据重构表示与训练样本之前的差异,确定重构误差。根据重构误差,对映射函数的参数进行更新。在分类损失函数中,根据练样本、训练样本对应的样本标签和隐空间表示,确定分类误差;可对重构误差和分类误差进行加权求和,得到总误差;根据总误差,对隐空间表示进行更新。
可选的,重构损失函数可表示为:
其中,Sn表示训练集,Nv表示样本数量,表示第n个训练样本的第v个视图特征(即特征嵌入表示),hn表示第n个训练样本的隐空间特征,dv表示第v个映射函数,θv表示fv的参数,lr表示重构误差。
可选的,分类损失函数可表示为:
其中,y表示训练样本的标签(即细胞类型),如果yn=y,则Δ(yn,y)=0,否则Δ(yn,y)=1,y表示标签集合,F(h,hn)=hTh,h表示某个样本在隐空间的隐空间表示,E表示期望。从这个公式可以看出,这个分类损失函数的目的是最大化相同细胞类型之间隐空间表示的相似度,而减少不同细胞类型之间隐空间表示的相似度。
对重构误差和分类误差进行加权求和得到总损失,相当于是将重构损失函数与分类损失函数通过权重平衡因子进行结合,得到总损失函数。其中,总损失函数可表示为:
其中,λ表示权重平衡因子,用于平衡重构误差和分类误差,提高用于调整隐空间表示的总误差的合理性。
可选的,采用随机梯度下降法更新映射函数的参数。
其中,第v个映射函数的参数更新公式为:
其中,Nc即前述的Nv。
可选的,采用随机梯度下降法更新隐空间表示。
其中,第n个隐空间表示的参数更新公式为:
S406,将目标嵌入表示输入至分类网络中,在分类网络中基于目标嵌入表示对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。
本实施例中,将目标嵌入表示输入至分类网络中,在分类网络中对目标嵌入表示进一步进行特征提取,基于提取的特征进行多个单细胞的分类,得到多个单细胞分别对应的细胞类型。
本公开实施例中,根据多个通路数据库,为基因表达数据中的多个单细胞构建了多个细胞关系图;通过图卷积神经网络分别提取多个细胞关系图分别对应的特征嵌入表示,实现对细胞关系图的降维降噪;通过多视图学习网络对多个细胞关系图分别对应的特征嵌入表示进行融合,基于融合得到的特征表示进行多个单细胞的分类,从细胞功能角度为单细胞分类提供了有益且互补的视图信息,提高了单细胞分类的准确率。
在一些实施例中,分类网络可为全连接层神经网络。在分类网络中,可包括多个全连接层和一层激活层,其中,激活层可以采用归一化指数函数(softmax)层,来进行预测概率的归一化处理。从而,通过该结构的分类网络,实现对单细胞的分类。
可选的,在分类网络的训练过程中可以采用交叉熵函数作为损失函数,并利用梯度下降法,更新分类网络的参数,以提高分类网络的分类准确性。
作为示例的,图5为本公开实施例提供的单细胞分类过程、模型训练过程以及相应的模型结构示例图。如图5所示,a中示出了构建细胞关系图的过程,b中示出了图卷积神经网络的模型结构、图卷积神经网络的数据处理过程以及图卷积神经网络的训练过程,c中示出了多视图学习网络的数据处理过程,图d示出了分类网络的模型结构。
如图5所示,在a中,基因表达矩阵的一行对应一个单细胞,一列对应一个基因,元素值为基因的表达量;通路数据库共4个,例如KEGG、Reactome、WikiPath和yan,在其中一个通路数据库中,第一个通路中的基因包括基因RPS11、RPS18,第二个通路中的基因包括ELMO2、GPR98,第三个通路中的基因包括CREB3L1,第四个通路中的基因包括PNMA1,可见一个通路数据库中可以包括多个的通路;根据基因表达矩阵和通路数据库进行基因富集分析,在基因富集分析的过程中应用到AUC,得到4个通路数据库下多个单细胞的基因富集得分,多个单细胞的基因富集得分为矩阵形式,一行对应一个单细胞,一列对应一个通路,元素值为细胞内基因与通路的关联分数。在各个通路数据库下,可基于多个单细胞的基因富集得分确定多个单细胞之间的相似度(图5中未示出),再基于相似度利用KNN算法,构建得到多个单细胞之间的细胞关系图。由于有4个通路数据库,可以得到4个细胞关系图。
如图5所示,在b中,图卷积神经网络包括编码器和解码器,编码器的输入为基因表达矩阵和细胞关系图,输出为4个细胞关系图分别对应的特征嵌入表示。在图卷积神经网络中,可以对基因表达矩阵中部分基因的表达量进行遮掩(mask),将遮掩后的基因表达矩阵X和作为训练样本的细胞关系图输入编码器中进行编码,得到特征嵌入表示,通过解码器对特征嵌入表示进行解码,得到解码器的输出数据通过X与/>之间的差异和损失函数来确定图卷积神经网络的损失值,根据该损失值调整图卷积神经网络的参数。
其中,如图5所示,图卷积神经网络的损失函数为:
如图5所示,在c中,可通过多视图学习的方式,为来自b中的特征嵌入表示,在隐空间查找对应的目标嵌入表示,其中,目标嵌入表示可以通过4个重构函数f1、f2、f3、f4分别重构回相应的特征嵌入表示。在隐空间中,同一或者相似细胞类型的隐空间表示分布在一起,不相似细胞类型的隐空间表示分布距离较远。在d中,分类网络可以是全连接层网络,图5以两个全连接层为例,此外还可以包括一个softmax层(图5未示出),最终分类得到多个单细胞分别对应的预测标签,预测标签即预测的细胞类型。
对应于上文实施例的单细胞分类方法,图6为本公开实施例提供的单细胞分类装置的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图6,单细胞分类装置包括:获取单元601、构建单元602、特征处理单元603、分类单元604。
获取单元601,用于获取基因表达数据,其中,基因表达数据包括多个单细胞中每个单细胞内基因的表达量;
构建单元602,用于根据基因表达数据,构建多个单细胞之间的细胞关系图,其中,在细胞关系图中,节点表示单细胞,边表示单细胞之间的关系;
特征处理单元603,用于通过图卷积神经网络,对细胞关系图进行特征提取,得到细胞关系图对应的特征嵌入表示;
分类单元604,用于根据特征嵌入表示,通过分类网络对多个单细胞进行分类,得到多个单细胞分别对应的细胞类型。
在一些实施例中,细胞关系图的数量为多个,不同的细胞关系图对应不同的通路数据库,构建单元602具体用于:针对多个通路数据库中的各个通路数据库,根据基因表达数据,确定各个通路数据库下多个单细胞之间的相似度;根据各个通路数据库下多个单细胞之间的相似度,构建各个通路数据库分别对应的细胞关系图。
在一些实施例中,构建单元602具体用于:基于各个通路数据库,分别对基因表达数据进行基因富集分析,得到各个通路数据库下每个单细胞的基因富集得分;根据各个通路数据库下每个单细胞的基因富集得分,分别计算各个通路数据库下多个单细胞之间的相似度。
在一些实施例中,构建单元602具体用于:根据基因表达数据,将每个单细胞内基因的表达量按照从高到低的顺序进行排序;针对每个单细胞,根据单细胞内基因的表达量的排列顺序,确定单细胞内基因对应的编码值;针对每个单细胞,以单细胞内基因对应的编码值为基因在x轴上的坐标、以单细胞内基因落在各个通路数据库中通路内的数量为y轴上的坐标,构建单细胞在各个通路数据库中通路下的二维曲线图;针对每个单细胞,根据单细胞在各个通路数据库中通路下的二维曲线图进行AUC的计算,得到各个通路数据库下单细胞的基因富集得分。
在一些实施例中,特征处理单元603具体用于:将细胞关系图和基因表达数据输入至图卷积神经网络的编码器中,在编码器中基于基因表达数据对细胞关系图进行编码和去噪,得到特征嵌入表示;其中,图卷积神经网络是通过自监督的训练方式训练得到的。
在一些实施例中,细胞关系图的数量为多个,图卷积神经网络的数量为多个,不同的细胞关系图对应不同的图卷积神经网络,特征处理单元603具体用于:将细胞关系图和基因表达数据,输入至细胞关系图对应的图卷积神经网络包含的编码器中,在编码器中基于基因表达数据对细胞关系图进行编码和去噪,得到细胞关系图的特征嵌入表示。
在一些实施例中,特征嵌入表示为多个,不同的细胞关系图对应不同的特征嵌入表示,分类单元604具体用于:通过多视图学习网络对多个特征嵌入表示进行融合,得到目标嵌入表示;将目标嵌入表示输入至分类网络中,在分类网络中基于目标嵌入表示对多个单细胞进行分类,得到细胞类型。
在一些实施例中,图卷积神经网络的一次训练过程可包括:获取训练数据,其中,训练数据包括基于用于训练的细胞关系图;对用于训练的细胞关系图进行遮挡,得到遮挡后的细胞关系图;通过图卷积神经网络包含的编码器对遮挡后的细胞关系图进行编码和去噪,得到遮挡后的细胞关系图对应的特征嵌入表示;通过图卷积神经网络包含的解码器对遮挡后的细胞关系图对应的特征嵌入表示进行解码处理,得到细胞关系恢复图;根据遮挡后的细胞关系图、细胞关系恢复图以及损失函数,确定图卷积神经网络的损失值;根据图卷积神经网络的损失值,调整图卷积神经网络的网络参数。
在一些实施例中,多视图学习网络的训练过程包括:根据训练样本的样本数,初始化样本数量个隐空间表示,并随机初始化多个映射函数的参数;根据训练样本、隐空间表示、映射函数以及重构损失函数,确定多视图学习网络的重构误差;根据多视图学习网络的重构误差,对映射函数的参数进行更新;根据训练样本、训练样本对应的样本标签、隐空间表示以及分类损失函数,确定多视图学习网络的分类误差;根据重构误差和分类误差,对隐空间表示进行更新;循环执行确定重构误差、更新映射函数的参数、确定分类误差以及更新隐空间表示的操作,直至隐空间表示收敛。
其中,图卷积神经网络的训练过程、多视图学习网络的训练过程可以在单细胞分类装置上执行,也可以在模型训练装置上执行。
本实施例提供的单细胞分类装置,可用于执行上述单细胞分类方法的实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
参考图7,其示出了适于用来实现本公开实施例的电子设备700的结构示意图,该电子设备700可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(Read Only Memory,简称ROM)702中的程序或者从存储装置708加载到随机访问存储器(Random Access Memory,简称RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置706;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置709。通信装置709可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置709从网络上被下载和安装,或者从存储装置708被安装,或者从ROM 702被安装。在该计算机程序被处理装置701执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取待检测网页的页面图像和页面描述文本的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (10)
1.一种单细胞分类方法,其特征在于,包括:
获取基因表达数据,其中,所述基因表达数据包括多个单细胞中每个单细胞内基因的表达量;
根据所述基因表达数据,构建所述多个单细胞之间的细胞关系图,其中,所述细胞关系图中,节点表示单细胞,边表示单细胞之间的关系;
通过图卷积神经网络,对所述细胞关系图进行特征提取,得到所述细胞关系图对应的特征嵌入表示;
根据所述特征嵌入表示,通过分类网络对所述多个单细胞进行分类,得到所述多个单细胞分别对应的细胞类型。
2.根据权利要求1所述的单细胞分类方法,其特征在于,所述细胞关系图的数量为多个,不同的细胞关系图对应不同的通路数据库,所述根据所述基因表达数据,构建所述多个单细胞之间的细胞关系图,包括:
针对多个通路数据库中的各个通路数据库,根据所述基因表达数据,确定所述各个通路数据库下所述多个单细胞之间的相似度;
根据所述各个通路数据库下所述多个单细胞之间的相似度,构建所述各个通路数据库分别对应的细胞关系图。
3.根据权利要求2所述的单细胞分类方法,其特征在于,所述针对多个通路数据库中的各个通路数据库,根据所述基因表达数据,确定所述各个通路数据库下所述多个单细胞之间的相似度,包括:
基于所述各个通路数据库,分别对所述基因表达数据进行基因富集分析,得到所述各个通路数据库下所述每个单细胞的基因富集得分;
根据所述各个通路数据库下所述每个单细胞的基因富集得分,分别计算所述各个通路数据库下所述多个单细胞之间的相似度。
4.根据权利要求3所述的单细胞分类方法,其特征在于,所述基于所述各个通路数据库,分别对所述基因表达数据进行基因富集分析,得到所述各个通路数据库下所述每个单细胞的基因富集得分,包括:
根据所述基因表达数据,将所述每个单细胞内基因的表达量按照从高到低的顺序进行排序;
针对所述每个单细胞,根据单细胞内基因的表达量的排列顺序,确定单细胞内基因对应的编码值;
针对所述每个单细胞,以单细胞内基因对应的编码值为基因在x轴上的坐标、以单细胞内基因落在所述各个通路数据库中通路内的数量为y轴上的坐标,构建单细胞在所述各个通路数据库中通路下的二维曲线图;
针对所述每个单细胞,根据单细胞在所述各个通路数据库中通路下的二维曲线图进行曲线下面积AUC的计算,得到所述各个通路数据库下单细胞的基因富集得分。
5.根据权利要求1至4中任一项所述的单细胞分类方法,其特征在于,所述通过图卷积神经网络,对所述细胞关系图进行特征提取,得到所述细胞关系图对应的特征嵌入表示,包括:
将所述细胞关系图和所述基因表达数据输入至所述图卷积神经网络的编码器中,在所述编码器中基于所述基因表达数据对所述细胞关系图进行编码和去噪,得到所述特征嵌入表示;
其中,所述图卷积神经网络是通过自监督的训练方式训练得到的。
6.根据权利要求5所述的单细胞分类方法,其特征在于,所述细胞关系图的数量为多个,所述图卷积神经网络的数量为多个,不同的细胞关系图对应不同的图卷积神经网络,所述将所述细胞关系图和所述基因表达数据输入至所述图卷积神经网络的编码器中,在所述编码器中基于所述基因表达数据对所述细胞关系图进行编码和去噪,得到所述特征嵌入表示,包括:
将所述细胞关系图和所述基因表达数据,输入至所述细胞关系图对应的图卷积神经网络包含的编码器中,在所述编码器中基于所述基因表达数据对所述细胞关系图进行编码和去噪,得到所述细胞关系图的特征嵌入表示。
7.根据权利要求2至4中任一项所述的单细胞分类方法,其特征在于,所述特征嵌入表示为多个,不同的细胞关系图对应不同的特征嵌入表示,所述根据所述特征嵌入表示,通过分类网络对所述多个单细胞进行分类,得到所述多个单细胞分别对应的细胞类型,包括:
通过多视图学习网络对多个特征嵌入表示进行融合,得到目标嵌入表示;
将所述目标嵌入表示输入至所述分类网络中,在所述分类网络中基于所述目标嵌入表示对所述多个单细胞进行分类,得到所述细胞类型。
8.一种单细胞分类装置,其特征在于,包括:
获取单元,用于获取基因表达数据,其中,所述基因表达数据包括多个单细胞中每个单细胞内基因的表达量;
构建单元,用于根据所述基因表达数据,构建所述多个单细胞之间的细胞关系图,其中,在所述细胞关系图中,节点表示单细胞,边表示单细胞之间的关系;
特征处理单元,用于通过图卷积神经网络,对所述细胞关系图进行特征提取,得到所述细胞关系图对应的特征嵌入表示;
分类单元,用于根据所述特征嵌入表示,通过分类网络对所述多个单细胞进行分类,得到所述多个单细胞分别对应的细胞类型。
9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的单细胞分类方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的单细胞分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306821.7A CN116525006A (zh) | 2023-03-27 | 2023-03-27 | 单细胞分类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306821.7A CN116525006A (zh) | 2023-03-27 | 2023-03-27 | 单细胞分类方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116525006A true CN116525006A (zh) | 2023-08-01 |
Family
ID=87398377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306821.7A Pending CN116525006A (zh) | 2023-03-27 | 2023-03-27 | 单细胞分类方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116525006A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854592A (zh) * | 2024-03-04 | 2024-04-09 | 中国人民解放军国防科技大学 | 一种基因调控网络构建方法、装置、设备、存储介质 |
-
2023
- 2023-03-27 CN CN202310306821.7A patent/CN116525006A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854592A (zh) * | 2024-03-04 | 2024-04-09 | 中国人民解放军国防科技大学 | 一种基因调控网络构建方法、装置、设备、存储介质 |
CN117854592B (zh) * | 2024-03-04 | 2024-06-04 | 中国人民解放军国防科技大学 | 一种基因调控网络构建方法、装置、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107251059A (zh) | 用于深度学习的稀疏推理模块 | |
CN111581966A (zh) | 一种融合上下文特征方面级情感分类方法和装置 | |
Cascianelli et al. | Full-GRU natural language video description for service robotics applications | |
Chu et al. | Restricted boltzmann machines with gaussian visible units guided by pairwise constraints | |
CN114898811A (zh) | 蛋白质训练模型的训练方法及装置、电子设备和存储介质 | |
CN112906865B (zh) | 神经网络架构搜索方法、装置、电子设备及存储介质 | |
CN114266897A (zh) | 痘痘类别的预测方法、装置、电子设备及存储介质 | |
CN116525006A (zh) | 单细胞分类方法、装置、设备及存储介质 | |
Concolato et al. | Data science: A new paradigm in the age of big-data science and analytics | |
CN111340213B (zh) | 神经网络的训练方法、电子设备、存储介质 | |
Lee et al. | Effective evolutionary multilabel feature selection under a budget constraint | |
CN116401555A (zh) | 双胞识别模型的构建方法、系统及存储介质 | |
CN115204301A (zh) | 视频文本匹配模型训练、视频文本匹配方法和装置 | |
CN113705715B (zh) | 一种基于lstm和多尺度fcn的时间序列分类方法 | |
CN115223662A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112988851B (zh) | 反事实预测模型数据处理方法、装置、设备及存储介质 | |
CN114496099A (zh) | 细胞功能注释方法、装置、设备及介质 | |
CN112348001B (zh) | 表情识别模型的训练方法、识别方法、装置、设备及介质 | |
US20220188605A1 (en) | Recurrent neural network architectures based on synaptic connectivity graphs | |
Zheng et al. | A novel and efficient model pruning method for deep convolutional neural networks by evaluating the direct and indirect effects of filters | |
CN116386148B (zh) | 基于知识图谱引导的小样本动作识别方法及系统 | |
CN111429414B (zh) | 基于人工智能的病灶影像样本确定方法和相关装置 | |
Liang et al. | A lightweight method for face expression recognition based on improved MobileNetV3 | |
CN116978464A (zh) | 数据处理方法、装置、设备以及介质 | |
CN115587616A (zh) | 网络模型训练方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |