CN117153268A

CN117153268A - 一种细胞类别确定方法及系统

Info

Publication number: CN117153268A
Application number: CN202311132643.7A
Authority: CN
Inventors: 朱旗; 李艾珍; 章文骏; 邵伟; 张道强
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-09-04
Filing date: 2023-09-04
Publication date: 2023-12-01

Abstract

本发明公开一种细胞类别确定方法及系统，涉及细胞分类技术领域。所述方法包括：构建scDRLN模型；采用自步学习机制对源域数据集进行处理，确定小批量梯度下降法每个迭代次数下的源域训练数据集和源域训练数据集对应的各单细胞RNA测序数据的细胞类别；以总损失函数的值最小为目标，根据小批量梯度下降法每个迭代次数下的源域训练数据集、源域训练数据集对应的各单细胞RNA测序数据的细胞类别以及目标域数据集，对scDRLN模型进行训练，训练好的scDRLN模型中的第一分支用于确定细胞类别。本发明可充分利用数据的分布和结构信息提高细胞类别识别结果的准确性，并且可以识别稀有类别的细胞。

Description

一种细胞类别确定方法及系统

技术领域

本发明涉及细胞分类技术领域，特别是涉及一种细胞类别确定方法及系统。

背景技术

单细胞RNA测序技术(scRNA-seq)能够对基因表达进行高分辨率的分析，揭示细胞群的异质性，并对单个细胞的行为和机制进行深入了解。与早期的批次RNA-seq数据相比，scRNA-seq数据更稀疏，且有较高的辍学率。在scRNA-seq分析中，往往需要整合多个批次的数据。由于测序平台或实验操作等因素，多批次数据的联合分析在实践中经常存在批次效应，这将导致对下游分析的负面影响，如细胞类别的识别。例如，批次间的分布差异可能会影响细胞类别间的内在差异，导致细胞类别的错误标记。因此，迫切需要开发有效的细胞类别标注的自动化方法，并实现批次效应校正。

许多基于机器学习的方法已被用于从scRNA-seq数据中识别细胞类别。单细胞共识聚类(SC3)通过对多个相似度矩阵进行平均，计算出一个共识矩阵，并使用k-means算法进行聚类。SIMLR根据细胞的相似度将细胞聚成不同的簇，然后手动给每个簇分配细胞类别标签，以进行细胞类别识别。然而，上述方法不能直接转移到相关的数据集上，需要进行劳动密集型的重复性工作。随着测序技术的发展，基于注释良好的公共数据集的分类算法已经被开发出来，用于细胞类别识别。例如，SingleR计算测试集的每个细胞与已知参考集的每个细胞之间的相似性，并根据相似性给测试集分配标签。此外，scmap通过查询参考数据库中的类似细胞来分配细胞类别标签。为了探索基因之间的非线性关系，scPred对基因表达矩阵进行奇异值分解以获得有限的信息特征并训练支持向量机模型。然而，机器学习算法的前提假设是训练集和测试集数据来自相同的分布，但单细胞数据集由于批次效应和其他因素，可能会出现分布不匹配，从而影响模型的性能。

为了解决训练集和测试集之间由于批次效应和其他因素出现的数据分布不匹配的问题，MNN使用相互近邻匹配算法来寻找各批次的近邻和共享的"锚"细胞，并根据这些锚来校正各批次所有细胞的基因表达，从而减少批次效应。LIGER整合了多个单细胞数据集，并使用综合非线性矩阵分解法(iNMF)缓解了批次效应。Harmony使用主成分分析(PCA)将scRNA数据嵌入到一个低维空间，并使用模糊聚类和迭代算法缓解批次效应。DESC是一种无监督的深度嵌入算法，通过迭代优化聚类目标函数对单细胞RNA数据进行聚类，以校正批次效应。Seurat使用CCA改善批次效应，并使用锚点注释细胞类别，但没有充分利用参考数据集中标记良好的细胞类别信息。

此外，一些转移学习方法被用于批次校正和细胞类别识别。BERMUDA通过聚类检测不同批次的细胞集群，使用Spearman识别批次间的相似集群，并用于训练一个具有MMD损失的自动编码器，用于批次校正。一个合理的假设是，批改和细胞分类是相互依赖的。具体来说，有效的校正对分类有传导作用，而正确的标签信息则有利于校正过程。值得注意的是，上述方法可以使不同数据集之间的细胞分布一致，但不能对细胞类别进行注释。ItClust是一种基于迁移学习的监督聚类算法，使用聚类中心和细胞嵌入之间的距离来预测细胞类别，但这种预训练模型存在灾难遗忘性问题，可能会导致信息损失并忽略参考数据集和目标域数据集之间的批次效应。

综上所述，单细胞RNA测序(scRNA-seq)数据中的批次效应对样本整合仍然是一个挑战，已有的批次校正方法未能充分利用数据的分布和结构信息，导致最终识别的细胞类别不准确，同时，现有的细胞类别注释方法未能充分利用标注良好的参考数据集，难以识别稀有类别的细胞。

发明内容

本发明的目的是提供一种细胞类别确定方法及系统，可充分利用数据的分布和结构信息提高细胞类别识别结果的准确性，并且可以识别稀有类别的细胞。

为实现上述目的，本发明提供了如下方案：

一种细胞类别确定方法，包括：

构建scDRLN模型；所述scDRLN模型包括第一分支、第二分支和第三分支；所述第一分支包括依次连接的特征提取器和标签分类器；所述第二分支包括依次连接的特征提取器和域鉴别器；所述第三分支包括依次连接的特征提取器和解码器；

获取源域数据集、目标域数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别；所述源域数据集包括n_s个样本；所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述目标域数据集包括n_t个样本，所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述源域数据集与所述目标域数据集不相同，n_s和n_t均为大于1的正整数，且n_s和n_t不相等；

采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集；

根据所述小批量梯度下降法每个迭代次数下的源域训练数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别得到所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞RNA测序数据的细胞类别；

以总损失函数的值最小为目标，根据所述小批量梯度下降法每个迭代次数下的源域训练数据集、所述目标域数据集以及所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞RNA测序数据的细胞类别，采用小批量梯度下降法对所述scDRLN模型进行训练得到训练好的scDRLN模型，所述训练好的scDRLN模型中的第一分支用于确定细胞类别；所述总损失函数包括自步正则项、交叉熵损失函数、目标域数据集重建损失函数、全局对齐损失函数、源域数据集对齐损失函数和语义质心对齐损失函数；所述交叉熵损失函数为基于所述源域训练数据集、所述目标域数据集和所述第一分支确定的；所述目标域数据集重建损失函数为基于所述目标域数据集和所述第三分支确定的；所述全局对齐损失函数为基于所述源域训练数据集、所述目标域数据集以及所述第二分支确定的；所述源域数据集对齐损失函数为基于所述源域训练数据集以及所述特征编码器确定的；所述语义质心对齐损失函数为基于所述源域训练数据集、所述目标域数据集、所述标签分类器和所述特征编码器确定的；所述自步正则项为根据全局对齐损失函数确定的。

一种细胞类别确定系统，包括：

模型构建模块，用于构建scDRLN模型；所述scDRLN模型包括第一分支、第二分支和第三分支；所述第一分支包括依次连接的特征提取器和标签分类器；所述第二分支包括依次连接的特征提取器和域鉴别器；所述第三分支包括依次连接的特征提取器和解码器；

获取模块，用于获取源域数据集、目标域数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别；所述源域数据集包括n_s个样本；所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述目标域数据集包括n_t个样本，所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述源域数据集与所述目标域数据集不相同，n_s和n_t均为大于1的正整数，且n_s和n_t不相等；

自步学习机制模块，用于采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集；

训练数据细胞类别确定模块，用于根据所述小批量梯度下降法每个迭代次数下的源域训练数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别得到所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞RNA测序数据的细胞类别；

训练模块，用于以总损失函数的值最小为目标，根据所述小批量梯度下降法每个迭代次数下的源域训练数据集、所述目标域数据集以及所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞RNA测序数据的细胞类别，采用小批量梯度下降法对所述scDRLN模型进行训练得到训练好的scDRLN模型，所述训练好的scDRLN模型中的第一分支用于确定细胞类别；所述总损失函数包括自步正则项、交叉熵损失函数、目标域数据集重建损失函数、全局对齐损失函数、源域数据集对齐损失函数和语义质心对齐损失函数；所述交叉熵损失函数为基于所述源域训练数据集、所述目标域数据集和所述第一分支确定的；所述目标域数据集重建损失函数为基于所述目标域数据集和所述第三分支确定的；所述全局对齐损失函数为基于所述源域训练数据集、所述目标域数据集以及所述第二分支确定的；所述源域数据集对齐损失函数为基于所述源域训练数据集以及所述特征编码器确定的；所述语义质心对齐损失函数为基于所述源域训练数据集、所述目标域数据集、所述标签分类器和所述特征编码器确定的；所述自步正则项为根据全局对齐损失函数确定的。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明构建包括特征提取器、标签分类器、域鉴别器和解码器的scDRLN模型，并基于交叉熵损失函数、目标域数据集重建损失函数、全局对齐损失函数、源域数据集对齐损失函数和语义质心对齐损失函数得到总损失函数，以总损失函数最小为目标对scDRLN模型进行训练；交叉熵损失函数根据特征提取器和标签分类器确定，用于对标签分类器进行训练，目标域数据集重建损失函数根据特征提取器和解码器确定，用于重建输入数据，使得特征提取器，能够更好的保留目标域数据集的特征，全局对齐损失函数根据特征提取器和域鉴别器确定，用于对特征提取器和域鉴别器进行训练，使得域鉴别器无法分清批次，解决已有的批次校正方法未能充分利用数据的分布和结构信息，导致最终识别的细胞类别不准确的问题，源域数据集对齐损失函数根据特征编码器确定，对特征编码器进行训练，语义质心对齐损失函数根据特征编码器和标签分类器确定，用于对特征编码器和标签分类器训练，使得最终得到的第一分支能够充分利用标注良好的参考数据集，可以实现识别稀有类别的细胞。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的细胞类别确定方法的框架图；

图2为本发明实施例提供的预处理过程的流程图；

图3为本发明提供的细胞类别确定方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例提供了一种细胞类别确定方法，包括：

构建scDRLN模型；如图1所示，所述scDRLN模型包括第一分支、第二分支和第三分支；所述第一分支包括依次连接的特征提取器和标签分类器；所述第二分支包括依次连接的特征提取器和域鉴别器；所述第三分支包括依次连接的特征提取器和解码器。

获取源域数据集、目标域数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别；所述源域数据集，是对单细胞RNA测序数据进行整理和处理后得到的单细胞基因表达矩阵，包括n_s个样本；所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵，一个样本对应一个组织一个批次的单细胞RNA测序数据处理后的基因表达矩阵；所述目标域数据集包括n_t个样本，所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述源域数据集与所述目标域数据集不相同，n_s和n_t均为大于1的正整数，且n_s和n_t不相等。单细胞基因表达矩阵是一个二维矩阵，其中每一行代表一个单细胞，每一列代表一个基因。矩阵中的元素表示对应细胞中对应基因的表达水平，包括多个单细胞RNA测序数据的基因表达矩阵。

在实际应用中，所述总损失函数为：其中，L_total表示总损失函数，v_i(λ,L_d)表示样本选择变量，L_l表示交叉熵损失函数，L_r表示目标域数据集重建损失函数，L_d表示全局对齐损失函数，L_sou-c表示源域数据集对齐损失函数，L_sm表示语义质心对齐损失函数，f(v_i,λ)表示自步正则项，γ表示第一平衡参数，δ表示第二平衡参数，α表示第三平衡参数，β表示第四平衡参数，n_s表示源域数据集对应的单细胞RNA测序数据对应的细胞的数量，λ表示设定阈值。

在实际应用中，在根据所述源域数据集、所述目标域数据集以及所述第二分支得到的全局对齐损失函数的值之前还包括：

如图2所示，均对所述源域数据集和所述目标域数据集依次进行质量控制操作、规范化操作和高可变基因选择操作得到处理后的源域数据集和处理后的目标域数据集。

在实际应用中，采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集具体为：

在所述源域数据集选取一个或多个单细胞RNA测序数据的基因表达矩阵作为待训练源域数据集。

将所述目标域数据集以及所述待训练源域数据集输入所述第二分支得到所述目标域数据集中单细胞RNA测序数据的所属域以及所述待训练源域数据集中各单细胞RNA测序数据的所属域。

将所述目标域数据集中单细胞RNA测序数据的所属域以及所述待训练源域数据集中各单细胞RNA测序数据的所属域输入所述全局对齐损失函数得到所述待训练源域数据集对应的全局对齐损失函数的值。

若所述待训练源域数据集对应的全局对齐损失函数的值小于设定阈值，则确定所述待训练源域数据集为第一次迭代次数下的源域训练数据集。设定阈值会随着迭代次数发生变化。

若所述待训练源域数据集对应的全局对齐损失函数的值大于或等于设定阈值，则返回步骤“在所述源域数据集选取一个或多个单细胞RNA测序数据的基因表达矩阵作为待训练源域数据集”。

在实际应用中，所述交叉熵损失函数的值的确定过程为：

将所述目标域数据集以及所述源域训练数据集输入所述第一分支得到所述目标域数据集对应的单细胞RNA测序数据的输出细胞类别L(G(X_t))以及所述源域训练数据集对应的各单细胞RNA测序数据的输出细胞类别

将所述目标域数据集对应的单细胞RNA测序数据的输出细胞类别L(G(X_t))、所述源域训练数据集对应的各单细胞RNA测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞RNA测序数据的细胞类别/>输入所述交叉熵损失函数，得到所述交叉熵损失函数的值L_l。

在实际应用中，所述目标域数据集重建损失函数的值的确定过程为：

将所述目标域数据集输入所述第三分支得到重建目标域数据集。

将所述重建目标域数据集以及所述目标域数据集输入所述目标域数据集重建损失函数得到所述目标域数据集重建损失函数的值。

在实际应用中，所述全局对齐损失函数的值的确定过程为：

将所述目标域数据集以及所述源域训练数据集输入所述第二分支得到所述目标域数据集中各单细胞RNA测序数据的所属域以及所述源域训练数据集中各单细胞RNA测序数据的所属域。

将所述目标域数据集中单细胞RNA测序数据的所属域以及所述源域训练数据集中各单细胞RNA测序数据的所属域输入所述全局对齐损失函数得到所述全局对齐损失函数的值。

在实际应用中，所述源域数据集对齐损失函数的值的确定过程为：

将所述源域训练数据集输入所述特征提取器，得到所述源域训练数据集中各单细胞RNA测序数据的基因表达矩阵的特征。

将所述源域训练数据集中已知的细胞类别标签信息作为划分标准来确定正样本集合和负样本集合，其中正样本是来自同一类别细胞样本，而负样本是来自不同类别的细胞样本。在嵌入空间中，对比损失通过最大化相似细胞样本之间的距离，并最小化不相似细胞样本之间的距离来定义。具体而言，在训练过程中，对于每个细胞样本，通常会选择一些正样本和负样本。对于正样本对模型应该将它们映射到接近的嵌入空间中，而对于负样本对，模型应该将它们映射到远离的嵌入空间中。将划分后的数据集中的两个单细胞RNA测序数据(正样本集合一个，负样本集合一个)的基因表达矩阵的特征输入所述源域数据集对齐损失函数得到所述源域数据集对齐损失函数的值。

在实际应用中，所述语义质心对齐损失函数的值的确定过程为：

根据所述源域训练数据集对应的各单细胞RNA测序数据的细胞类别对所述源域训练数据集对应的各单细胞RNA测序数据的基因表达矩阵分成多个源域簇；一个源域簇对应一个细胞类别。

对于任意一个细胞类别，确定所述细胞类别对应的源域簇中的所有单细胞RNA测序数据的基因表达矩阵的特征的平均值为所述源域训练数据集对应的所述细胞类别的质心。

将所述目标域数据集输入所述特征提取器，得到所述目标域数据集中单细胞RNA测序数据的基因表达矩阵的特征。

根据所述目标域数据集对应的单细胞RNA测序数据的细胞类别对所述目标域数据集对应的单细胞RNA测序数据的基因表达矩阵分成多个目标域簇；一个目标域簇对应一个细胞类别。

对于任意一个细胞类别，确定所述细胞类别对应的目标域簇中的所有单细胞RNA测序数据的基因表达矩阵的特征的平均值为所述目标域数据集对应的所述细胞类别的质心。

将所述源域训练数据集对应的各细胞类别的质心以及所述目标域数据集对应的各细胞类别的质心输入所述语义质心对齐损失函数得到语义质心对齐损失函数的值。

在实际应用中，所述自步正则项的值的确定过程为：

根据公式计算，其中，f(v_i,λ)表示自步正则项，λ表示设定阈值，n_s表示源域数据集对应的单细胞RNA测序数据对应的细胞的数量，v_i(λ,L_d)表示第i个样本选择变量。

本发明提供了一个具体的实施例对上述实施例提供的细胞类型分类方法的思路进行了详细说明：

本发明实施例公开的细胞类型分类方法包括自步学习样本选择模块(①)、特征提取(②)、分类模块(③)、域自适应全局对齐模块(④)和局部语义对齐模块(⑤)。细胞类型分类方法的整体框架结构如图1所示。它由自步学习机制、特征提取器G、解码器G’、域鉴别器D以及标签分类器L组成，其中，自步学习机制让模型逐步从简单的样本学习到复杂的样本，从而更好地理解数据分布和特征，提高模型的鲁棒性和泛化能力，进而提升细胞类别分类的性能。特征提取器的作用是降低数据集中的特征维度，进一步学习特征的有效表示。目标域数据集重建损失函数L_r的目的是为了尽可能地保留目标域数据的特征信息，从而提高目标域特征的可鉴别性。标签分类器用于预测输入样本的细胞类别，并给来自目标域的样本分配伪标签，交叉熵损失函数BatchNuclear-norm Maximization用于提高伪标签的质量。域鉴别器的作用是为了区分特征信息是来自源域数据集还是目标域数据集，当判别器对所提取的特征不能正确区分来源时，即可学习到源域与目标域公共的特征表示，从而达到全局混淆批次信息的目的。源域数据集对齐损失函数L_sou-c的作用是让源域内相同类别的细胞的类内距离更加紧密，而语义质心对齐损失函数L_sm的作用是为了对齐源域和目标域中相同类别细胞簇的质心，从而在细粒度级别上进一步校正批次效应，并提高细胞类别分类的准确性。

本实施例设置采用完全连接的神经网络层，其中特征提取器G是由512和256个节点的两个隐藏层组成，标签分类器L的隐藏层为256个节点，并在最后一层使用softmax作为激活函数，设置域鉴别器D的隐藏层为1024个节点，使用RELU作为激活函数，并在最后一层应用sigmoid函数，隐藏层由全连接层组成。

步骤1：获取源域和目标域的单细胞RNA测序数据，对该数据进行预处理，得到预处理后的基因表达矩阵。

借助Python的Scanpy包对所使用的数据集(源域数据集和目标域数据集)进行预处理。

首先，对所使用的数据集进行质量控制。

使用scanpy.pp.filter_cells()函数过滤所使用的数据集中较低质量的细胞样本，使用scanpy.pp.filter_genes()函数过滤掉所使用的数据集中低表达的基因。然后在这里接着使用string.startswith(‘MT-’)标注线粒体基因(也就是基因名，因为线粒体编码的基因名称以前缀mt-或MT-开头)，使用scanpy.pp.calculate_qc_metrics()函数计算每个细胞中线粒体基因的数量，过滤掉高表达的线粒体基因的细胞。

然后，对基因表达矩阵进行规范化处理，得到基因表达矩阵X；最后选择差异基因用于下游分析。

具体地，使用scanpy.pp.normalize_total()函数对每个细胞的count进行标准化操作，接着使用scanpy.pp.log1p()对其进行对数转换。

最后，使用scanpy.pp.highly_variable_genes()函数选择高可变基因，并保存为预处理后的基因表达矩阵X，可以用于下游分析，比如细胞类别注释。

步骤2：基于步骤1中的基因表达矩阵X，定义源域数据集、目标域数据集，并使用重建损失约束目标域特征的提取，得到源域和目标域在低维空间嵌入的特征。

令源域数据集记为与之对应的n_s个标签信息记为表示源域数据集中第n_s个单细胞RNA测序数据的基因表达矩阵，X_s中的每一个单细胞RNA测序数据(一个样本)都具有p个高度可变的基因特征/>表示源域数据集第i个单细胞RNA测序数据的细胞类别，目标域数据集记为/>不带有标签信息，/>表示目标域数据集中第n_t个单细胞RNA测序数据的基因表达矩阵。

将数据集中存在的批次信息b与特定的域D相关联，并在文中交替使用b和D(这里其实是把批次等同于域，比如一个批次是一个域，例如源域数据集的批次信息b_s和源域D_s，只是一个等同关系，提到b_s就等同于源域D_s)。实际上，在具有批次效应的数据集中，细胞类别的分布与其批次信息相关，因此，X_s和X_t中的分布是不同但又相关联。根据数据集中的批次信息，将在源域D_s对特定批次的样本进行训练，在目标域D_t对其他特定批次的样本进行测试，其中b_s≠b_t，b_t为数据集中与源域数据集不同批次的另一批特定批次。

为了更好的保留目标域数据集的局部特征，减少目标域特征信息的损失，在对齐源域和目标域数据分布的同时，使得所提取的目标域特征更具有鉴别性，因此对特征提取器得到的特征信息进行解码重构，使用MSE Loss作为目标域数据集的重建损失函数即目标域数据集重建损失函数L_r，具体公式如下：

其中，是将目标域数据集输入特征提取器后再输入解码器解码得到的，n_t使目标域数据集对应的单细胞RNA测序数据的总数目。将输入映射到某个特征空间(这就是特征提取过程)，再从这个特征空间映射回输入空间进行重构(这就是重建)，最小化这个重建损失，能更好的保留到目标域数据集的特征。

步骤3：使用步骤2源域数据集训练标签分类器。

源域数据集中每行数据表示一个样本，这里就是将提取到的源域数据集的特征放到标签分类器里去分类得到源域数据集对应的各单细胞RNA测序数据的输出细胞类别。

使用Cross-entropy Loss(交叉损失函数)作为源域数据集的分类损失，即L_l的第一项，并在局部分布对齐阶段使用该分类器为目标域数据集分配伪标签即输出细胞类别。为了确保生成的伪标签质量可靠，为了得到质量可靠的伪标签，引入Batch Nuclear-normMaximization(BNM，批量核范数最大化)作为约束项/惩罚项后的交叉熵损失函数L_l，具体公式如下：

其中，是类别重加权系数，该系数以源域数据集中不同细胞类别的数量为依据，为每个类赋予不同的权重来平衡不同类别数据量的差异，/>为/>对应的单细胞RNA测序数据的输出细胞类别，/>为/>的特征，即将/>输入特征提取器得到的也称为为源域数据集在低维空间的嵌入表示，K是细胞类别的类别数量，L(G(X_t))为X_t对应的单细胞RNA测序数据的输出细胞类别，是目标域数据的预测输出矩阵，G(X_t)为X_t的特征。实际上，交叉熵分类损失L_l计算的是每个细胞所属实际细胞类别对应分类置信度的负对数，换句话说，得到的是模型预测正确的可能性有多高。L_l中第二项是BNM核范数，用来增强域自适应后预测的多样性和可分辨性。

步骤4：使用域鉴别器混淆源域和目标域的样本。

基于域鉴别器实现全局对齐。对来自源域和目标域的特征信息进行对抗性训练，采用二分类交叉熵损失即全局对齐损失函数L_d评估源域与目标域的博弈情况，具体公式如下：

其中，为/>的特征，即将输入特征提取器得到的，也称为目标域数据集在低维空间的嵌入表示，在G和D之间设置梯度反转层，用于反向传播时翻转G和D之间的梯度符号，以便最大化域损失，从而达到混淆用鉴别器的目的。简而言之，域鉴别器的任务是分不清两个样本是否来自不同批次，使得G网络生成的特征表示不能用于基于批次信息的分类，进而削弱源域和目标域之间存在的批次效应，使L_d最小对域鉴别器进行训练，使得域鉴别器分不对，也就全局对齐了，域偏差也就减小了，进而就达到削弱批次效应的目的。

步骤5：基于对比损失紧凑源域数据集。

为了更进一步校正批次效应，这一步和步骤7都是局部校正，使用的是源域的真实标签，输入是提取的源域数据集中个基因表达矩阵的特征、源域数据集的标签，得到的结果就是同类样本之间的距离更加紧凑。

基于已有标签对齐源域数据集。对于单细胞RNA序列数据，在进行细胞类别分类时，通常是多分类任务，在全局域不变性的前提下，希望样本集在特征空间中既能够类内紧凑，还可以类间可分。由于源域数据集带有标签信息，对此，使用Contrastive Loss即源域数据集对齐损失函数L_sou-c对源域内相同类别的细胞之间的距离进行拉近，不同类别的细胞进行推远。Contrastive Loss公式如下所示：

其中，和/>为在所述源域数据集中任意选取的两个单细胞RNA测序数据的基因表达矩阵的特征，E(·)代表/>和/>的欧氏距离，U＝1意味着两个样本属于同一类细胞类别，而U＝0则属于不同类的细胞类别，m是预测边界的阈值，以L_sou-c最小可以实现相同类别的细胞之间的距离进行拉近，不同类别的细胞进行推远。

步骤6：基于伪标签使用语义质心损失对齐源域和目标域相同类别细胞簇的质心。

基于已训练的标签分类器为目标域数据集分配伪标签，使用语义质心对齐损失对源域和目标域同类别样本进行局部对齐。为了保证不同批次的同类别细胞嵌入的可分辨性，决定在类级别上对源域和目标域中的同类别细胞簇进行显式对齐，由于目标域缺少细胞类别的标签信息，所以使用源域训练的标签分类器L为目标域数据集进行伪标签分配。对于目标域中的错误标签，使用语义质心对齐的方式来削弱部分错误标签带来的偏差，当所有的伪标签用于质心计算时，正确的伪标签预计能够抵消错误标签所产生的影响。因此，使用Semantic Center alignment Loss即语义质心对齐损失函数L_sm最小，实现源域和目标域内同类别细胞簇的质心对齐，不仅能够抑制错误伪标签带来的负面影响，还能促使不同类细胞簇类间可分。Semantic Center alignment Loss公式如下：

其中，表示的是源域数据集中第k类细胞类别的质心，/>则表示的是目标域数据集中第k类细胞类别的质心。

步骤7：最终确定目标域数据集的细胞类别，完成分类。这一步就是确定联合优化该网络，确定最终的伪标签结果，也就是最终的细胞类别分类结果。

scDRLN模型的损失L定义如下：

L＝L_l+γL_r+δL_d+αL_sou-c+βL_sm

这里μ是超参数，δ、γ、α和β是平衡参数，分别表示全局域对齐损失、目标域数据集重建损失、源域数据集对齐损失和语义质心对齐损失对总损失的贡献率，设置δ＝μ，γ＝0.1μ，α＝0.1μ，β＝μ，其中参数μ根据如下公式指定：

在这里，t为从0到1线性增加的参数，无具体物理含义。

通过最小化损失函数L来优化scDRLN模型的参数。在训练过程中，通过反向传播算法计算梯度并更新scDRLN模型的参数。随着训练的进行，scDRLN模型将逐渐调整其参数以减小损失函数，从而提高对细胞类型标签预测的准确度。

模型评估：使用目标域数据集X_t对训练好的模型进行评估。将测试样本输入到模型中，得到模型的预测结果。通常，预测结果是一个概率分布向量，表示每个类别的概率。为了确定最终的预测标签，可以选择概率最高的类别作为预测结果，例如：如果预测结果的概率分布向量为[0.1,0.2,0.6,0.05,0.05]，则可以选择概率最高的第3个类别作为预测的标签。

步骤8：基于自步学习机制选择输入模型的源域数据集。

为了缓解样本类别不平衡和抑制伪标签带来的负面影响，引入自步学习机制，控制模型先学习域间相似的样本，然后增加难度，逐步学习域间差别较大的样本，最终所有的源域数据集都将进行训练。在这里，使用参数v_i(λ,L_d)控制学习，v_i(λ,L_d)可以取0和1，表示样本的难易程度，当vi(λ,L_d)＝1时，表示表示的是在下一次迭代时选择该样本进行训练，而v_i(λ,L_d)＝0时则表示不选择该样本进行训练根据计算v_i(λ,L_d)的值，λ是一个超参数，v_i(λ,L_d)由f(v_i,λ)决定是否选择此样本，其中，f(v_i,λ)是v_i(λ,L_d)的递减函数，是λ的增函数，/>

scDRLN在引入自步学习机制后的总损失L_total定义如下：

scDRLN网络采用小批量梯度下降进行训练，设置动量为0.9，权重衰减为5×10^-4，遵循η_p＝η₀/(1+ap)^q方式动态调整学习率，其中，p从0到1线性增加，η₀为初始学习率，设置为0.001，a＝10，q＝0.75，批量大小为256。

综上，本发明实施例提供的scDRLN模型是一种基于表征学习的领域自适应网络，它可以同时校正批次和准确地分类细胞类别。如图3所示，本发明首先，使用Scanpy包对基因表达矩阵进行数据预处理(对应S1)；接着使用编码器对预处理后的样本进行特征提取(对应S2)，并在源域训练一个类别重加权的分类器进行细胞类别分类(对应S3)。其次，在域间训练一个域分类器来混淆源域数据集和目标域数据集，使得编码器学习到源域和目标域的不变特征表示，在一定程度上进行批次效应校正并提高细胞类别分类的准确性(对应S4)；然后，使用对比损失将源域中的样本进行中心对齐以消除它们之间的差异(对应S5)，并基于源域分类器分配的伪标签将来自不同域但具有相同类标签的样本进行局部对齐，进一步消除批次效应并提高细胞类别分类性能(对应S6)，最终确定目标域数据集的细胞类别，完成校正与分类(对应S7)，最后，基于域间损失使用自步学习方法逐步选择与目标域相似的源域数据集用于训练，从而提高模型的性能(对应S8)。

本发明实施例提供了一种与上述方法对应的细胞类别确定系统，所述系统包括：

模型构建模块，用于构建scDRLN模型；所述scDRLN模型包括第一分支、第二分支和第三分支；所述第一分支包括依次连接的特征提取器和标签分类器；所述第二分支包括依次连接的特征提取器和域鉴别器；所述第三分支包括依次连接的特征提取器和解码器。

获取模块，用于获取源域数据集、目标域数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别；所述源域数据集包括n_s个样本；所述源域数据集中的所有样本为不同组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述目标域数据集包括n_t个样本，所述目标域数据集中的所有样本均为同一个组织中获取的不同批次的单细胞RNA测序数据处理后的基因表达矩阵；所述源域数据集与所述目标域数据集不相同，n_s和n_t均为大于1的正整数，且n_s和n_t不相等。

自步学习机制模块，用于采用自步学习机制对所述源域数据集进行处理确定小批量梯度下降法每个迭代次数下的源域训练数据集。

训练数据细胞类别确定模块，用于根据所述小批量梯度下降法每个迭代次数下的源域训练数据集以及所述源域数据集对应的各单细胞RNA测序数据的细胞类别得到所述小批量梯度下降法每个迭代次数下的源域训练数据集对应的各单细胞RNA测序数据的细胞类别。

本发明有以下有益效果：

1)本发明采用基于域自适应和表征学习的技术，将校正过程和分类过程相互联合起来，并相互促进、相辅相成。通过在全局分布和类别级特征上的对齐，实现了这种联合优化的两阶段对齐，这不仅可以有效地学习样本的语义信息，还可以同时提高批次效应校正的效果和细胞类别分类的准确性。

2)本发明通过自动编码器能够有效保留目标域数据集的局部特征，利用BatchNuclear-norm Maximization可以提高目标域中伪标签的准确性，同时引入自步学习和类别级重加权机制有助于消除难以分类的样本对初始模型的负面影响，并缓解数据集中的样本类别不平衡问题，进一步增强了模型的鲁棒性和泛化能力。

3)本发明采用对比损失来对源域数据集进行特征对齐，并利用语义对齐损失基于伪标签对齐源域和目标域中同一类别的细胞簇质心，这有助于使同类别的细胞簇内部更加紧凑，不同类别的细胞簇则更容易区分，同时有助于进一步校正批次效应。

4)本发明在跨库、跨平台数据集上的实验结果表明，该方法在批次效应校正和细胞类别分类方面的表现优于目前的先进方法，并通过消融研究验证了该方法的有效性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种细胞类别确定方法，其特征在于，包括：

2.根据权利要求1所述的细胞类别确定方法，其特征在于，

所述总损失函数为：其中，L_total表示总损失函数，v_i(λ,L_d)表示第i个样本选择变量，L_l表示交叉熵损失函数，L_r表示目标域数据集重建损失函数，L_d表示全局对齐损失函数，L_sou-c表示源域数据集对齐损失函数，L_sm表示语义质心对齐损失函数，f(v_i,λ)表示自步正则项，γ表示第一平衡参数，δ表示第二平衡参数，α表示第三平衡参数，β表示第四平衡参数，n_s表示源域数据集对应的单细胞RNA测序数据对应的细胞的数量，λ表示设定阈值。

3.根据权利要求1所述的细胞类别确定方法，其特征在于，在根据所述源域数据集、所述目标域数据集以及所述第二分支得到的全局对齐损失函数的值之前还包括：

均对所述源域数据集和所述目标域数据集依次进行质量控制操作、规范化操作和高可变基因选择操作得到处理后的源域数据集和处理后的目标域数据集。

4.根据权利要求1所述的细胞类别确定方法，其特征在于，所述交叉熵损失函数的值的确定过程为：

将所述目标域数据集以及所述源域训练数据集输入所述第一分支得到所述目标域数据集对应的单细胞RNA测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞RNA测序数据的输出细胞类别；

将所述目标域数据集对应的单细胞RNA测序数据的输出细胞类别、所述源域训练数据集对应的各单细胞RNA测序数据的输出细胞类别以及所述源域训练数据集对应的各单细胞RNA测序数据的细胞类别输入所述交叉熵损失函数，得到所述交叉熵损失函数的值。

5.根据权利要求4所述的细胞类别确定方法，其特征在于，所述目标域数据集重建损失函数的值的确定过程为：

将所述目标域数据集输入所述第三分支得到重建目标域数据集；

6.根据权利要求5所述的细胞类别确定方法，其特征在于，所述全局对齐损失函数的值的确定过程为：

将所述目标域数据集以及所述源域训练数据集输入所述第二分支得到所述目标域数据集中单细胞RNA测序数据的所属域以及所述源域训练数据集中各单细胞RNA测序数据的所属域；

7.根据权利要求6所述的细胞类别确定方法，其特征在于，所述源域数据集对齐损失函数的值的确定过程为：

将所述源域训练数据集输入所述特征提取器，得到所述源域训练数据集中各单细胞RNA测序数据的基因表达矩阵的特征；

将所述源域训练数据集中任意两个单细胞RNA测序数据的基因表达矩阵的特征输入所述源域数据集对齐损失函数得到所述源域数据集对齐损失函数的值；任意两个单细胞RNA测序数据的基因表达矩阵其中一个来自正样本集合，其中一个来自负样本集合；所述正样本集合和所述负样本集合为根据所述源域训练数据集对应的各单细胞RNA测序数据的细胞类别得到的。

8.根据权利要求7所述的细胞类别确定方法，其特征在于，所述语义质心对齐损失函数的值的确定过程为：

根据所述源域训练数据集对应的各单细胞RNA测序数据的细胞类别对所述源域训练数据集对应的各单细胞RNA测序数据的基因表达矩阵分成多个源域簇；一个源域簇对应一个细胞类别；

对于任意一个细胞类别，确定所述细胞类别对应的源域簇中的所有单细胞RNA测序数据的基因表达矩阵的特征的平均值为所述源域训练数据集对应的所述细胞类别的质心；

将所述目标域数据集输入所述特征提取器，得到所述目标域数据集中单细胞RNA测序数据的基因表达矩阵的特征；

根据所述目标域数据集对应的单细胞RNA测序数据的细胞类别对所述目标域数据集对应的单细胞RNA测序数据的基因表达矩阵分成多个目标域簇；一个目标域簇对应一个细胞类别；

对于任意一个细胞类别，确定所述细胞类别对应的目标域簇中的所有单细胞RNA测序数据的基因表达矩阵的特征的平均值为所述目标域数据集对应的所述细胞类别的质心；

9.根据权利要求8所述的细胞类别确定方法，其特征在于，所述自步正则项的值的确定过程为：

10.一种细胞类别确定系统，其特征在于，包括：