CN112908414B

CN112908414B - 一种大规模单细胞分型方法、系统及存储介质

Info

Publication number: CN112908414B
Application number: CN202110118686.4A
Authority: CN
Inventors: 郑凌伶; 黄巧娟; 屈良鹄; 杨建华
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2023-08-22
Anticipated expiration: 2041-01-28
Also published as: CN112908414A

Abstract

本发明提供的一种大规模单细胞分型方法、系统及存储介质，方法包括：获取基因样本，从所述基因样本中筛选得到高变异基因，根据所述高变异基因构建训练数据集；根据所述训练数据集，训练深度学习模型；通过训练后的所述深度学习模型进行细胞分型；其中，根据所述训练数据集，训练深度学习模型包括以下步骤：根据欧式距离以及所述训练数据集进行样本分组，得到第一分组样本；对所述第一分组样本进行线性缩放，得到第二分组样本；通过自编码器结合先验生物学知识，对所述第二分组样本进行降维处理。方法减少了技术变异性对真正生物学的差异的影响，也能够为全面揭示各类细胞的特征和功能提供有力证据，可广泛应用于生物信息学技术领域。

Description

一种大规模单细胞分型方法、系统及存储介质

技术领域

本发明涉及生物信息学技术领域，尤其是一种大规模单细胞分型方法、系统及存储介质。

背景技术

生物体最基本的单位是细胞，人类大约由3.72×10¹³个细胞组成。这些细胞正常的协调工作维持机体的运转。然而，只要单个细胞发生了癌变而不停增殖，就可能毁灭整个生命体。现有的转录组水平的研究是对含有成百上千的大块组织进行测序，试图在其中找到少数的变异细胞十分困难，所以生物学家们需要一种新的方法来研究细胞。单细胞RNA测序(Single cell RNA-Seq，scRNA-seq)就是一种在单个细胞水平上对其转录本进行分析的方法。第一篇单细胞RNA测序的文章发表于2009年，自诞生以来，单细胞RNA测序逐渐成为研究细胞转录水平的有利工具。相比于大量组织的RNA测序，单细胞RNA测序更能揭示细胞间的异质性，追踪癌细胞病变的信号，不至于被大量正常细胞表达的平均信号所湮没。

为了对单细胞的RNA进行分析，首先要分离出单个的细胞，常用的方法有滴管吸取；激光捕获(laser capture microdissection，LCM)吸附在薄膜上的细胞；利用微流体芯片中的管道分离出单个细胞；在高压下分离用电荷分离含有细胞的微滴等等。溶解细胞后提取其中的RNA，然后要对其进行全转录组扩增(whole-transcriptome amplification，WTA)。一个典型的哺乳动物细胞中含有大约10pg的RNA和0.1pg的mRNA，为了达到测序的要求，需要较大的扩增倍数，比较成熟的单细胞RNA测序技术有SmartSeq(switchingmechanism at 5′end of RNA template)和STRT-Seq(single-cell tagged reversetranscription)，这些方法能扩增出完整的RNA片段而不是3’端，最大程度的保证了RNA的完整性。扩增完之后，对cDNA进行建库和二代测序(next-generation sequencing，NGS)。

然而，单细胞RNA测序带来的大规模数据也为分析带来了巨大的挑战。除了考虑如何对大规模产生的单细胞RNA数据的进行分析以外，还必须克服具体计算的挑战。比如，单细胞RNA测序用着更高的扩增倍数，更深的测序深度，所以一些误差可能被放大，比如GC含量可能会影响测序的准确性。另外，单细胞RNA测序由于只测单个细胞的转录水平，相较于大量组织测序，其细胞间特异的表达信号很可能被实验条件的差异所掩盖。所以，单细胞RNA测序需要一套专门的数据分析方法，以减少技术变异性对真正生物学的差异的影响。

发明内容

有鉴于此，为至少部分解决上述技术问题之一，本发明实施例目的在于提供一种大规模单细胞分型方法，能有有效减少技术变异性对真正生物学差异影响；同时本申请还提供了对应的实现该方法的系统及计算机可读的存储介质。

第一方面，本申请的技术方案提供了一种大规模单细胞分型方法，其步骤包括：

获取基因样本，从所述基因样本中筛选得到高变异基因，根据所述高变异基因构建训练数据集；

根据所述训练数据集，训练深度学习模型；

通过训练后的所述深度学习模型进行细胞分型；

其中，根据所述训练数据集，训练深度学习模型包括以下步骤：

根据欧式距离以及所述训练数据集进行样本分组，得到第一分组样本；

对所述第一分组样本进行线性缩放，得到第二分组样本；

通过自编码器结合先验生物学知识，对所述第二分组样本进行降维处理。

在本申请方案的一种可行的实施例中，所述单细胞分型方法，其还包括：

根据控制性术语表进行标注，确定所述训练数据集中基因样本的细胞类型、组织类型以及系统类型；

其中，标注的步骤包括：

根据所述控制性术语表的树形结构确定所述细胞类型，根据所述细胞类型以及树形结构的层级进行归约确定所述组织类型以及所述系统类型。

通过主成分分析对所述训练数据集进行降维处理；

将降维处理后的训练数据集通过无监督的流形学习转换得到二维数据集，并将所述二维数据集中的数据进行可视化。

在本申请方案的一种可行的实施例中，所述根据欧式距离以及所述训练数据集进行样本分组，得到第一分组样本这一步骤，其包括：

确定所述训练数据集中的标志物；

根据所述训练数据集中标志物的表达量，通过二元组网络得到第一样本输出；

确定所述第一样本输出之间的样本距离，根据所述样本距离进行样本分组。

在本申请方案的一种可行的实施例中，所述对所述第一分组样本进行线性缩放，得到第二分组样本这一步骤，其包括：

根据所述标志物的表达量通过全连接网络得到缩放因子以及平移变量；

根据所述缩放因子以及所述平移变量对所述第一分组样本进行变换，得到第二分组样本。

在本申请方案的一种可行的实施例中，所述通过自编码器结合先验生物学知识，对所述第二分组样本进行降维处理这一步骤，其包括：

根据所述先验生物学知识构建网络图；

将所述网络图中的节点进行聚合，根据聚合后的节点生成掩膜矩阵；

根据所述掩膜矩阵与编码器进行点乘，构建得到自动编码器，通过所述自动编码器进行降维处理。

在本申请方案的一种可行的实施例中，根据所述训练数据集，训练深度学习模型这一步骤，其还包括：

通过交叉熵计算得到若干错误损失，根据所述错误损失加权得到总损失，根据所述总损失以及反向传播算法优化所述深度学习模型的参数。

第二方面，本发明的技术方案还提供一种大规模单细胞分型的软件系统，包括：

数据获取单元，用于获取基因样本，从所述基因样本中筛选得到高变异基因，根据所述高变异基因构建训练数据集；

模型训练单元，用于根据所述训练数据集，训练深度学习模型；其中，根据所述训练数据集，训练深度学习模型包括以下步骤：根据欧式距离以及所述训练数据集进行样本分组，得到第一分组样本；对所述第一分组样本进行线性缩放，得到第二分组样本；通过自编码器结合先验生物学知识，对所述第二分组样本进行降维处理；

细胞分型单元，用于通过训练后的所述深度学习模型进行细胞分型。

第三方面，本发明的技术方案还提供一种大规模单细胞分型的硬件系统，其包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个程序被至少一个处理器执行，使得至少一个处理器运行第一方面中的一种大规模单细胞分型方法。

第四方面，本发明的技术方案还提供了一种存储介质，其中存储有处理器可执行的程序，处理器可执行的程序在由处理器执行时用于运行第一方面中的方法。

本发明的优点和有益效果将在下面的描述中部分给出，其他部分可以通过本发明的具体实施方式了解得到：

本申请的技术方案通过整理基因样本，并对基因样本进行高变异基因的筛选等工作，为细胞亚型的研究，提供了高度可用的单细胞RNA数据库；方案利用了深度学习的技术和方法，进行了大规模单细胞RNA测序数据进行分析，使得大规模样品的测序成为可能，同时最大限度地减少了技术变异性对真正生物学的差异的影响，也能够为全面揭示各类细胞的特征和功能提供有力证据。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种大规模单细胞分型方法的步骤流程图；

图2为本发明实施例中部分神经系统细胞进行分级标注的示意图；

图3为本发明实施例中二元组网络结构示意图；

图4为本发明实施例中自动编码器结构示意图；

图5为本发明实施例中对抗网络结构示意图；

图6为本发明实施例中神经网络以最后的三层输出最为对细胞三种层级的分类的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

目前依然存在着一些较为成熟的单细胞RNA测序数据分析工具，例如：SEURAT，CELL RANGER，SCANPY。这些工具主要用于单细胞RNA测序数据的质量控制，标准化，以及预处理过后的无监督的聚类，伪时间序列分析，差异表达，可视化等等。然而，目前尚缺乏对单细胞RNA测序有监督的数据分析，积累了众多的带标签的单细胞RNA测序数据不能被很好的利用。

为此，本方案采用深度学习的方法对整合的单细胞RNA测序数据进行分型，然后可以根据表达谱对未知的细胞进行归类。本申请的技术方案利用长非编码RNA具有显著的细胞类型特异性，可以作为细胞类型或谱系分类的标志分子。因此，系统地识别各类细胞中特异的长非编码RNA表达模式，构建基于长非编码RNA的细胞分类模型，探索长非编码RNA与蛋白质基因所构成的功能调控网络，将加深对细胞内部基因表达调控机制的理解，为细胞功能的发现和解析提供独特的视角和全新的思路。此外，准确挖掘这些细胞特异性长非编码RNA，构建其所介导的调控网络，设计特异性探针对其进行靶向，将有助于揭示这些长非编码RNA的独特功能，并为后续临床诊断、药物开发及疾病的精准治疗提供良好的靶点。

在第一方面，如图1所示，本申请的技术方案提供了一种大规模单细胞分型方法的实施例，其中，方法包括步骤S01-S03：

S01、获取基因样本，从基因样本中筛选得到高变异基因，根据高变异基因构建训练数据集。

具体地，通过feature-counts软件通过匹配到人类基因组上的58,395个已注释的基因，得到读段(read)匹配到基因的计数文件，计算其TPM(Transcripts per million)，基因g的TPMg按如下公式进行计算：

其中，r_g为匹配到基因g的读段数，rl为read的长度，fl_g为基因的转录本长度。T为归一化因子，10⁶为缩放因子，使得样本的总表达水平达到10⁶，从而能在相同尺度上比较不同细胞样本。

为了进行下一步的分析，需要删去数据中的异常样本，对于满足如下条件的细胞样本，对于满足如下条件的细胞样本，实施例中进行了过滤：

1.表达基因数目低于1000的细胞。其可能是因为扩增时探针捕获效率过低，或者是由于样品的污染等原因导致。

2.含有单个基因表达量超过250,000的细胞。其不太可能是一些正常样本，因为使用了TPM进行缩放，所以某些基因过高甚至异常的表达意味着可能低估其余基因的表达水平。

最终实施例过滤剩余65,787个细胞，构成训练数据集。需要说明的是，必要时，也可以根据该65,787个细胞为基础划分成为训练集和测试集。

feature-count匹配到了基因组上58,395个已注释基因后，为减少内存的使用，加快后续的处理过程，同时也可以减少数据中的噪声，实施例剔除了数据中变异性较低的基因。具体地，剔除这些基因对于后续的数据分析和最终的深度学习方法影响并不大。为了找出高变异表达的基因，计算了每个基因在所有细胞中的平方变异系数(squaredcoefficients of variation，CV²)。基因i的平均表达量μ_i和变异系数CV² _i的按如下方式计算：

其中m为细胞数目，k_ij为基因i在细胞j的表达值。最终μ_i低于0.0125，CV²低于0.5的基因被当做在细胞中的低变异基因被剔除，14,859个高变异表达的基因被保留在训练数据集中。

除此之外，实施例在步骤S01中还对数据进行标准化处理。由于神经网络对于输入数据的量级十分敏感，如果采用sigmoid函数作为激活函数，则过大的激活值将导致梯度消失问题。所以对数据进行了标准化，使其均值为0，方差为1：

在一些可行的实施例中，单细胞分型方法，其还包括步骤S011：根据控制性术语表进行标注，确定训练数据集中基因样本的细胞类型、组织类型以及系统类型；其中，标注的步骤为：根据控制性术语表的树形结构确定细胞类型，根据细胞类型以及树形结构的层级进行归约确定组织类型以及系统类型。

具体地，为了获取每个细胞样本的真实类别，通过对样本的元数据进行分析，为每个样本标注上细胞类型。为了规范化标注术语，实施例利用EMBL(The EuropeanBioinformatics Institute)的OLS工具(Ontology Lookup Service)，使用来自CL(CellOntology)，UBERON(Uber-anatomy ontology)，EFO(Experimental Factor Ontology)的控制性术语表对样本进行标注。此外，由于Ontology术语表的树形结构，实施例除了标注细胞类型，还标注了组织类型，系统类型。实施例中，标注的组织类型和系统类型不与解剖学上的组织和系统相对应。实施例中的方法是，标注标签时，尽可能将不同细胞类型向Ontology树的根部进行归约。在向上行进至恰当的层级时，进行组织和系统的标注。

例如，对于T-helper 17cell，在Cell Ontology树中的其中一个分支是：cell>native cell>animal cell>hematopoietic cell>leukocyte>nongranular leukocyte>lymphocyte>T cell>alpha-beta T cell>mature alpha-beta T cell>CD4-positive,alpha-beta T cell>CD-positive helper T cell>T-helper 17cell。实施例中用T-helper 17cell(CL:0000899)标注其细胞类型，用leukocyte(CL:0000738)标注其组织类型，用hematopoietic system(UBERON:0002390)标注其系统类型。神经系统中的细胞的标注如图2所示。最终，来自不同研究分组的65787个细胞一共被标注上了79种细胞类型，32中组织类型，18种系统类型。

在一些可行的实施例中，单细胞分型方法，其还包括步骤S012-S013：

S012、通过主成分分析对训练数据集进行降维处理；

S013、将降维处理后的训练数据集通过无监督的流形学习转换得到二维数据集，并将二维数据集中的数据进行可视化。

具体地，实施例中，首先采用主成分分析(principal component analysis，PCA)将数据的维度从14859降到100维。然后使用UMAP算法(Uniform Manifold Approximationand Projection)算法将数据降至二维进行可视化。同t-SNE(t-Distributed StochasticNeighbor Embedding)一样，UMAP是一种无监督的流形学习算法，算法试图在高维空间中度量数据的距离，而不是基于一般的欧式距离。在高维空间中相隔较远的两个点，在低维空间中彼此远离，而在高维空间中相距较近的点，在低维空间同样彼此接近。通过UMAP降至二维后的可视化，可以对细胞表达谱在高维空间中的差异有所了解。另外，实施例中的PCA算法使用了scikit-learn，umap算法使用umap-learn。

S02、根据训练数据集，训练深度学习模型。

具体地，本申请的技术方案采用了深度学习的技术和方法，对来自不同研究的人类大规模单细胞RNA测序数据进行分析。更为具体地，根据训练数据集，训练深度学习模型这一过程，其主要包括步骤S021-S023：

S021、根据欧式距离以及训练数据集进行样本分组，得到第一分组样本。

其中，进行样本分组主要是判断两个细胞是否来自不同研究分组，第一分组样本分组则是根据研究分组判断后进行划分得到样本分组。实施例使用的二元组网络，以两个细胞的标志物，例如持家基因的表达作为输入，通过两个共享参数的全连接神经网络，得到两个输出，通过计算输出间的l₂范数，判断两个细胞是否来自不同研究，具体地，实施例中步骤S021可以进一步细分为步骤S021a-S021b：

S021a、确定训练数据集中的标志物；

S021b、根据训练数据集中标志物的表达量，通过二元组网络得到第一样本输出；

S021c、确定第一样本输出之间的样本距离，根据样本距离进行样本分组。

具体地，实施例为了确定数据中的批次效应(batch effect)，使用二元组网络(siamese network)来判断两个细胞是否来自同一样本。二元组网络是一种广泛用于人脸识别领域的深度学习算法。二元组网络并不学习得到一个分类器，而是学习得到的是一个判别器，或者是一个距离度量函数，判断两个样本是不是同一类，而不是分别判断样本是哪一类。比如，通过检测人脸照片，不判断这个人是谁，而是通过照片与数据库中的照片一一比对，并计算这些照片间的相似度，从而判断这张人脸是否出现在数据库之中。

另外，单细胞RNA测序中，常常使用spike-in标志物来评估测序的质量，最常用的spike-in是ERCC(External RNA Control Consortium)。这是一组人工合成的含有92种寡核苷酸的片段。在处理过程中引入ERCC标志物，然后通过ERCC的表达来标准化数据使得不同批次的数据之间可以比较。相对于人工引入的外标物，常用的内标物就是细胞中表达的持家基因(house-keeping genes)。持家基因是一种在各种细胞类型中都有稳定表达的基因，其表达的稳定性可以对抗不同环境之间的影响。为确定实施例数据中的批次效应，采用已发现的3728个人类持家基因作为输入数据的标志物。并且，实施例是在满足以下条件情况下进行实施：

1)持家基因在不同类型的细胞间的生物学差异较小；

2)由于测序深度，捕获效率，扩增方法，测序质量等的不同，不同研究分组中存在批次效应，而批次效应能影响持家基因的测得值；

3)同一个研究中的两个样本间的批次效应较小，不同研究中的两个样本间的批次效应较大。

实施例中使用的二元组网络是两个共享参数W的全连接神经网络。全连接神经网络有三层隐藏层，每层的神经元数量分别为1136，500，100。以两个样本的持家基因表达量为输入：input1和input2，维度为3728，通过神经网络的计算，最终得到两个输出output1和output2，维度为100。然后用l₂范数(即欧氏距离)计算两各输出的距离(distance)。由于l₂范数是一个凹函数，为了不使少数的样本的距离影响总体损失函数，实施例控制距离最大值为2。按如下公式定义二元组网络的损失函数：

output₁＝f_w(new_input₁) (10)

output₂＝f_w(new_input₂) (11)

distance＝min(2,|(output₁-output₂)|₂) (12)

loss＝I×distance (13)

其中I是一个指示函数，当两个样本来自相同研究分组时，I的值为1；当两个样本来自不同研究分组时，I的值为-1。通过损失函数的最小化，不难得到，二元组网络试图使来自同一研究分组的样本间的距离变小使不同研究中的样本间的距离变大。为构建此类样本，实施例采用了深度学习中使用的负采样技术；为了构建正样本对，随机对研究分组进行采样，然后每个研究分组中再随机抽取两个数据组成一对，作为正样本对，并设置标签为1。同样的，为了构建负样本，随机在所有研究分组中选取不同的两个研究分组，然后每个研究中随机抽取一个数据组成一对，构成负样本对，设置标签为-1。最终控制正样本对和负样本对的比例为1:1。最后，进行预测时，选取一个阈值，比如1，当两个样本输出间的l₂距离大于设定的阈值时，则判断它们来自为不同研究分组，当l₂距离小于设定的阈值时，则判断两个样本来自相同研究分组。

本实施例中二元组网络是基于tensorflow实现。二元组网络的超参数如表1所示：

表1

S022、对第一分组样本进行线性缩放，得到第二分组样本。

其中，第二分组样本是通过对抗的神经网络进行线性缩放后的样本分组，其目的是为减少批次效应。由于单细胞RNA测序中更高的技术变异，广泛应用于RNA测序中的RPKM(reads per kilobase of exon per million mapped reads)，FPKM(fragments perkilobase of exon permillion mapped fragments)和TPM(transcripts per million)用于单细胞RNA测序中并不合适。实施例中数据从TPM开始，已经进行了对数化和标准化处理，然而这些是一种没有先验知识的标准化处理步骤，考虑到一些研究利用一些有参考意义的标志物，如ERCC或者持家基因，然后利用线性模型来标准化和缩放数据，基于线性模型修正批次效应的前提条件是：

1)批次效应对同一个实验中的数据的影响是线性的，即批次效应对于样本基因表达值的影响同时增大或缩小，且影响的倍率一致；

2)通过修正不同实验的标志物的表达量使其一致，可以使得不同实验间的数据可比较。

基于该前提条件，实施例采用神经网络对数据进行线性缩放。具体地，步骤S022可以进一步细分为步骤S022a和S022b：

S022a、根据标志物的表达量通过全连接网络得到缩放因子以及平移变量；

S022b、根据缩放因子以及平移变量对第一分组样本进行变换，得到第二分组样本。

具体地，通过之前的二元组网络，学习到了一个能通过持家基因来区分不同研究的神经网络。再训练一个神经网络，能通过持家基因的表达量，学习到新的缩放因子，使得之前的二元组网络不能很好的区分缩放后的数据是否来自不同研究分组。

实施例采用了深度学习领域中的生成对抗网络(GAN，Generative AdversarialNetworks)。实施例中，定义了一个含有三个隐藏层的全连接网络(300,100,2)用于数据的缩放，称为Scaler，而之前的二元组网络称为Discriminator。Scaler学习两个参数，一个是缩放因子S，另外一个是平移变量M，用学到的这两个参数对研究分组中的数据进行变换：new_input＝(input-M)×S。用w_s表示Scaler的参数值，而w_d表示Discriminator的参数值，网络涉及的公式如下：

loss_sparsity＝(S₁-1)²+(S₂-1)²+(M₁ ²+M₂ ²)×α (17)

new_input₁＝(input₁-M₁)×S₁ (18)

new_input₂＝(input₂-M₂)×S₂ (19)

distance＝min(2,|(output₁-output₂)|₂) (22)

loss1＝I×distance (23)

loss2＝-loss1+(loss_sparsity)×β (24)

为了控制Scaler学习到的缩放因子和平移变量不至于过大，实施例中加入了loss_sparsity，即公式17作为作为Scaler损失函数，即公式24的一部分，α，β是控制这个损失权重的参数。其中大部分公式以及参量含义与二元组网络类似。loss2的前面一部分对loss1取反，即公式24，是为了对抗loss1给Discriminator带来的分类性能。

训练过程分为两个阶段，先训练Discriminator的参数使得损失最小化，即公式25，得到一个能区分不同研究的分类器，然后第二阶段，训练Scaler的参数，使得数据进行缩放后，Discriminator不能很好的区分不同研究分组。之后不停的交替训练两个神经网络的参数。实施例中，使用tensorboard可视化对抗网络如图3所示，Discriminator的超参数与表1保持一致，Scaler的超参数如表2所示：

表2

S023、通过自编码器结合先验生物学知识，对第二分组样本进行降维处理。

其中，如图4所示，自编码器是一种受限制的神经网络。它由编码器(Encoder)和解码器(Decoder)组成，编码器和解码器通过编码层相连接。通过编码器将高维数据转化为低纬度的编码层，然后解码器用编码层试图重建原始数据，由于编码层的维度低于原始维度，不可能完全重建原始数据，所以在这种限制下，自动编码器只能丢弃数据中的噪声保留重要的特征。对于单细胞RNA测序数据，通过引入先验的生物学知识可以增加神经网络的能力。具体地，实施例中，步骤S023可进一步细分为步骤S023a-S023c：

S023a、根据先验生物学知识构建网络图；

S023b、将网络图中的节点进行聚合，根据聚合后的节点生成掩膜矩阵；

S023c、根据掩膜矩阵与编码器进行点乘，构建得到自动编码器，通过自动编码器进行降维处理。

具体地，实施例采用了来自cytoscape一个插件GeneMANIA的数据库，其数据是一个网络图，图中节点是基因，而如果两个基因有关(如蛋白有共同的结构域，在同一生物学通路中发挥作用，共表达等等)，则在节点之间含有一条边，边的权重是关系的大小。使用了一个社团检测算法Louvain，通过优化网络的模块度(modularity)，使图中高连通度的节点集合聚成一类。实施例中运用Louvain算法，将基因分成了810个类。为了利用这些生物学知识，实施例控制编码器和中间层的连接。实施例设置了一个掩膜(Mask)矩阵，其中Mask矩阵有n行，m列，n是基因数，m是类别数，也就是810。矩阵中第i行j列的值定义如下：

使用矩阵Mask和编码器的权重进行点乘，最终产生一个非全连接的自动编码器，如图5所示，并引入了生物学的先验知识。然后解码器通过编码层试图重建原始图像。损失函数使用均方误差(mean-square error,MSE)：

masked_weight₁＝weight₁·Mask (28)

output＝code_layer×weight₁+bias₂ (30)

loss＝|input-output|₂ (31)

其中，weight1，bias1，weight2，bias2分别是encoder和decoder的权重和偏置。F是激活函数。该自动编码器的详细参数如表3所示：

表3

在一些可行的实施例中，根据训练数据集，训练深度学习模型这一步骤S02，其还包括步骤S024：通过交叉熵计算得到若干错误损失，根据错误损失加权得到总损失，根据总损失以及反向传播算法优化深度学习模型的参数。

具体地，用神经网络对细胞进行分型，因为实施例的数据来自不同研究分组，划分训练集和测试集的时候，除了要让测试数据不在训练数据之外，还需考虑批次效应。由于批次效应的存在，训练器很可能学习到了批次相应，进而分类细胞类型。如果训练集和测试集中有来自相同研究的样本，可能会造成对分类器的性能的错误估计。为此，实施例还以如下的策略划分测试集和训练集：对于某种细胞类型，若有来自多余一个研究分组，实施例选择其中一个研究分组中的全部样本作为测试集，其余作为训练集。对于某些细胞类型，只有来自一个研究分组的样本，实施例则全部将其作为训练集。这样划分以后，不仅保证了训练集和验证集的样本不会有重复之外，也保证了训练集和验证集的数据不会存在来自同一个研究的两个样本。

另外，如果通过直接对细胞类型进行分类，会将一些真实情况下不同的细胞但很接近的细胞分为一类。例如，为了区分将胰岛A细胞分类为胰岛B细胞的损失和将胰岛A细胞分类为神经细胞的损失，实施例采用了如图6所示的分层softmax进行分类。

在步骤S011中，标注标签已经为每一个样本标注上了细胞类型，组织类型和系统类型。为了利用组织类型和系统类型的信息，实施例以神经网络用最后三层的输出作为对三种层级分类的预测，即最后三层的层数分别为79,32,18，与细胞类型数，组织类型数和系统类型相对应。然后三个预测分别与步骤S011中标注的三种标签作对比，然后三层分类错误损失loss₁、loss₂、loss₃的误差按照加权和求出：

loss＝αloss₁+βloss₂+γloss₃ (32)

实施例中设置了α，β，γ三个值，并使β，γ的值设置大于α。实施例中，先将β，γ设置的较大，然后在训练过程中逐步减少它们的大小，使网络逐渐精细化其分类效果。如果将一个来自海马区的神经元(hippocampal neuron(CL:0002608))分类为运动神经元(motorneuron(CL:0000100))则神经网络的损失函数将在loss₁中惩罚这个分类的错误，但是在loss₂和loss₃中没有惩罚，因为海马区神经元和运动神经元的组织类型都是neuron(CL:0000540)，系统类型都是nervous system(UBERON:0001016)。然而如果将其分为T细胞(Tcell(CL:0000084))，则会有非常大的损失。所以引入了分层softmax的方法，对于分类错误的惩罚将更加合理。

实施例使用常规的全连接神经网络用于分类，并使用交叉熵计算loss₁、loss₂、loss₃，并按加权和求出分类的总损失，最后反向传播算法优化网络的参数。Tensorflow可视化网络的超参数如表4所示：

表4

S03、通过训练后的深度学习模型进行细胞分型。

具体地，根据训练完成的深度学习模型，根据输入的单细胞长非编码RNA进行系统识别和功能预测。

在第二方面，本申请所提供的一种用于第一方面中方法的大规模单细胞分型的软件系统，其包括：

数据获取单元，用于获取基因样本，从基因样本中筛选得到高变异基因，根据高变异基因构建训练数据集；

模型训练单元，用于根据训练数据集，训练深度学习模型；其中，根据训练数据集，训练深度学习模型包括以下步骤：根据欧式距离以及训练数据集进行样本分组，得到第一分组样本；对第一分组样本进行线性缩放，得到第二分组样本；通过自编码器结合先验生物学知识，对第二分组样本进行降维处理；

细胞分型单元，用于通过训练后的深度学习模型进行细胞分型。

第三方面，本申请的技术方案还提供大规模单细胞分型硬件系统的实施例，其包括至少一个处理器；至少一个存储器，用于存储至少一个程序；当至少一个程序被至少一个处理器执行，使得至少一个处理器运行如第一方面中的一种大规模单细胞分型方法。

本发明实施例还提供了一种存储介质内存储有程序，程序被处理器执行，实现如第一方面中的方法。

从上述具体的实施过程，可以总结出，本发明所提供的技术方案相较于现有技术存在以下优点或优势：

1)本申请的技术方案收集近十年来有关的单细胞RNA测序数据，通过对大规模的单细胞RNA测序数据进行分析，挖掘得到了以往单独实验无法观察到的生物学意义。

2)本申请的技术方案利用了深度学习的技术和方法，对来自不同研究的人类大规模单细胞RNA测序数据进行分析，最终达到了40％的分类性能，使得大规模样品的测序成为可能，也进一步使得分析全人类细胞图谱成为可能。

3)本申请的技术方案可以建立一套完善的scRNA-Seq研究平台，集数据库、计算方法、分析工具于一体，为细胞生物学、分子生物学、生物信息学等多学科的研究人员提供方法和工具，为全面揭示各类细胞的特征和功能提供有力证据。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种大规模单细胞分型方法，其特征在于，包括以下步骤：

根据所述训练数据集，训练深度学习模型；

通过训练后的所述深度学习模型进行细胞分型；

对所述第一分组样本进行线性缩放，得到第二分组样本；

通过自编码器结合先验生物学知识，对所述第二分组样本进行降维处理；

所述根据欧式距离以及所述训练数据集进行样本分组，得到第一分组样本这一步骤，其包括：

确定所述训练数据集中的标志物；

确定所述第一样本输出之间的样本距离，根据所述样本距离进行样本分组；

所述对所述第一分组样本进行线性缩放，得到第二分组样本这一步骤，其包括：

根据所述缩放因子以及所述平移变量对所述第一分组样本进行变换，得到第二分组样本；

所述通过自编码器结合先验生物学知识，对所述第二分组样本进行降维处理这一步骤，其包括：

根据所述先验生物学知识构建网络图；

2.根据权利要求1所述的一种大规模单细胞分型方法，其特征在于，所述单细胞分型方法，其还包括：

其中，标注的步骤包括：

3.根据权利要求1所述的一种大规模单细胞分型方法，其特征在于，所述单细胞分型方法，其还包括：

通过主成分分析对所述训练数据集进行降维处理；

4.根据权利要求1-3任一项所述的一种大规模单细胞分型方法，其特征在于，根据所述训练数据集，训练深度学习模型这一步骤，其还包括：

5.一种大规模单细胞分型系统，其特征在于，包括：

细胞分型单元，用于通过训练后的所述深度学习模型进行细胞分型；

其中，所述根据欧式距离以及所述训练数据集进行样本分组，得到第一分组样本这一步骤，其包括：

确定所述训练数据集中的标志物；

根据所述先验生物学知识构建网络图；

6.一种大规模单细胞分型系统，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器运行如权利要求1-4任一项所述的一种大规模单细胞分型方法。

7.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于运行如权利要求1-4中任一项所述的一种大规模单细胞分型方法。