CN114974433A

CN114974433A - 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法

Info

Publication number: CN114974433A
Application number: CN202210582319.4A
Authority: CN
Inventors: 杨朝勇; 郭晓旭; 林芳禾
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-05-26
Filing date: 2022-05-26
Publication date: 2022-08-30

Abstract

本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法，将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取；将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，为目标域肿瘤细胞集分配伪标签；输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数；循环执行至停止条件，输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型，本发明提供的方法能够精确地给目标样本分配准确的标签，并为源域和目标域构建一个共同的表示空间。

Description

一种基于深度迁移学习的循环肿瘤细胞的快速注释方法

技术领域

本发明涉及肿瘤细胞注释领域，特别是指一种基于深度迁移学习的循环肿瘤细胞的快速注释方法。

背景技术

液体活检通过非入侵方式，即收集外周血捕获循环肿瘤细胞(CTC)，可以实现癌症的早期检测以及实时监控等，与传统的组织穿刺活检相比具有领先的优势。目前对于CTC细胞的传统注释方法为转录组测序分析，然而转录组分析需要研究者的手动设置参数注释，效率较低，并且准确程度与操作者水平相关联；另一方面，CTC数据较为稀少且难以获取，并且众多研究成果证明，CTC细胞与组织肿瘤细胞存在差异，故基于组织肿瘤的监督模型无法较为准确预测CTC细胞的分类。为了提高CTC临床检测的应用价值，能够快速且准确的注释CTC亟待解决。

发明内容

本发明的主要目的在于克服现有技术中的上述缺陷，提出一种基于深度迁移学习的循环肿瘤细胞的快速注释方法和系统，能够精确地给目标样本分配准确的标签，并为源域和目标域构建一个共同的表示空间。

本发明采用如下技术方案：

一种基于深度迁移学习的循环肿瘤细胞的快速注释方法，包括：

S1：将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取，得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征，所述源域细胞集的标签已知，而目标域数据的标签未知；

S2：将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，为目标域肿瘤细胞集分配伪标签；

S3：将源域肿瘤细胞集特征和对应标签，以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数；

S4：循环执行S1-S3至达到循环停止条件，输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。

具体地，所述特征提取器具体为：

特征提取器由4个全连接层组成，隐藏层分别包含1024和512个神经元；隐藏层由整流线性单元激活函数连接，并采用随机神经元；

输入层的大小由表达矩阵中的基因数确定，输出层的大小为特征嵌入层的维度大小。

具体地，所述分类器具体为：

分类器包含3个全连接层，输入层通过ReLU激活函数与隐藏层连接，输出节点的数量与分类数相同。

具体地，将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，所述无监督聚类方法为是K-means。

具体地，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，具体为：

循环计算源域各个聚类中心最临近的目标域的另一个聚类中心；

当两个聚类中心互相为最近邻，即达到循环一致匹配，相应的源域和目标域的两类为共识分类。

计算领域共识分数，具体为：

给定成对的聚类

和

与相应的源域聚类中心

和

目标域聚类中心达成共识，对于每个源域样本，计算源域的共识得分；而聚类的源域共识得分被定义为达成共识的源域样本的比例；

指的是判断

是否跨域地匹配簇分类k，即

保持相同的分类时返回1，分类不匹配时返回0，K为跨域匹配分类数目，s代表源域，t代表目标域，m指的是源域集群中的总源域样本数，n为目标域集群中的总目标域样本数；

是源域上的共识分数，

是目标域上的共识分数，

为领域共识分数。

具体地，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，具体为：

通过增加目标域K-means算法中K的数值反复迭代计算领域共识分数；

在K-means算法的类簇中心搜索过程中，将逐步增加K，直到它收敛到预设或达到最大迭代次数；

领域共识得分最高的K值将被选为最佳值，即为确定的目标肿瘤细胞集分类数。

具体地，将源域肿瘤细胞集特征和对应标签，以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数，所述目标函数具体为：原型正则器、对比域差异和交叉熵损失函数；

原型正则器：

其中，n代表目标样本的总数，K^t是目标聚类中心的总数，

是独热编码的标签向量，

定义如下所示：

v_i是第i个目标样本的L2归一化特征向量，T指转置操作，τ为影响分布密度的温度参数；

对比域差异：

其中，C^s代表源域分类数，

为

的简写，指代目标域各样本的伪标签，

与

分别代表相同分类和不同分类的核平均嵌入估计，是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异，c和c'为类别符号，φ代表神经网络的参数函，控制神经网络输出，Intra、inter分别表示两个函数项分别表示类内和类间部分，对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离；

交叉熵损失函数：

其中，m是源样本的数量，C_s表示源样本的聚类中心总数，

是对应的源标签，σ是softmax函数,

指源域中第i个样本，g和f均代表函数层，表示源域数据数据特征经过多层神经网络变换；

然后，总体目标函数由三个部分构成。

其中，

代表源样本的交叉熵损失，

是两个域样本的域对齐损失，

代表原型正则器，λ和ω分别设为0.1和3.0，γ为迭代系数，o和N代表当前和总的迭代数。

本发明提供一种基于深度迁移学习的循环肿瘤细胞的快速注释系统，包括：

特征提取单元：将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取，得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征，所述源域细胞集的标签已知，而目标域数据的标签未知；

无监督聚类单元：将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，为目标域肿瘤细胞集分配伪标签；

参数更新单元：将源域肿瘤细胞集特征和对应标签，以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数；

循环训练单元：循环执行至达到循环停止条件，输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。

由上述对本发明的描述可知，与现有技术相比，本发明具有如下有益效果：

本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法，将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取，得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征，所述源域细胞集的标签已知，而目标域数据的标签未知；将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，为目标域肿瘤细胞集分配伪标签；将源域肿瘤细胞集特征和对应标签，以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数；循环执行至达到循环停止条件，输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型，本发明提供的方法能够精确地给目标域样本分配准确的标签，并为源域和目标域构建一个共同的表示空间。并且该方法模型收敛较快，训练新的模型只需要～30min，预训练模型预测仅需要～1min。

附图说明

图1为本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法流程图；

图2为本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法流程框图；

图3本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释系统架构图；

以下结合附图和具体实施例对本发明作进一步详述。

具体实施方式

液体活检通过非入侵方式，即收集外周血捕获循环肿瘤细胞(CTC)，可以实现癌症的早期检测以及实时监控等，与传统的组织穿刺活检相比具有领先的优势。CTC-Tracer被设计开发用于对测序后的临床CTC血样进行快速注释，并辅助临床癌症的预防和治疗。用户通过提供CTC的单细胞转录组测序后的表达矩阵作为模型的输入，表达矩阵的归一化方法应为log₂(tpm+1)归一化,并且保有EnsemblID或者GeneSymbol的基因特征。处理好的表达矩阵数据直接输入模型经过直接预测或若干轮训练将获得对应细胞种类和CTCs在普通肿瘤图谱上的映射。模型预设的预测模式分别为直推式学习预测和归纳式模型预测。直推式模型预测不会产生预先训练好的模型，在面对新的预测数据时，需要将待预测数据加入到训练集中，经过若干轮训练得到训练结果；归纳式模型正好相反，预先训练好的模型可以直接对待预测的数据进行直接预测。

在模型预先设置中，收集了25种普通癌症和外周血细胞(PBMC)的表达矩阵数据作为源域的训练数据，4种CTC细胞(前列腺癌(PC)，乳腺癌(BRCA)，黑色素瘤(Mel)，肝癌(HCC))的表达矩阵作为目标域数据。预先训练的模型包含以上述样本进行迁移学习，所以对于预训练模型中包含的癌症种类可以直接采用预训练模型预测。对于参考普通肿瘤数据中不存在的数据需要额外在参考数据中加入新的分类对应的普通癌症数据，并重新训练模型。当预测参考数据中未出现的CTC类型时，可以根据2d降维可视化判断该样本是否为未知种类的样本。

本发明的模型是基于域自适应的，域自适应是迁移学习的一个分支，目的是将源域数据的知识迁移到不同但相似的目标域中，并解决目标域的预测任务。最近多种领域适应方法已经被开发出来。目前很多优秀的算法被提出来解决域偏移。根据目前已有的域自适应方法，本发明的模型是基于这样的假设提出的：在无监督聚类后，两个领域的样本与相应的语义类别在样本空间中的距离是最接近的。因此，这个模型的核心思想是将相互之间距离最小的特定领域的聚类作为跨领域的共识聚类。然后，用上述的跨域匹配的结果来对相应的目标域分配伪标签。最后，通过优化目标函数来更新神经网络的参数，即原型正则器、对比性领域差异，交叉熵损失函数。如图1-2，详细步骤如下：

从CancerSEA和几个可公开访问的数据库收集了由包含25种原发肿瘤的50318个细胞和一个PBMC数据集组成的scRNA-seq表达矩阵训练数据，并作为源域数据使用。同时，从4个已发表的研究中收集了372个CTCs(包括(*HCC((GNSA,https://db.cngb.org/cnsa/,CNP0000095),*BRCA(GSE109761),*PC(GSE67980),*MEL(GSE157745))的scRNA-seq表达矩阵作为目标域数据。另外来自2项已发表研究的451个CTCs(BRCA,(GSE51827,GSE75367,PRJNA471754),MEL(GSE38495))的scRNA-seq表达矩阵被作为测试数据处理。所有这些数据集都以log2(TPM+1)归一化，其中TPM被定义为每百万转录本数。

在去除CTC后，源数据矩阵包括44572个原发性肿瘤细胞和5746个PBMCs。

本发明实施例在归纳学习模式下的模型训练。在归纳学习模式下，原发性肿瘤和CTC数据集的特征分别作为源域和目标域的特征。源域数据的标签是已知的，而目标域数据的标签未知，是模型的学习目标。该模型由Adam优化器进行优化，权重衰减(weightdecay)为5X10^-4。初始学习率被设定为0.0001。batch size设置为128；学习率在训练过程中根据迭代次数逐步衰减，直到达到稳定的训练结果。

CTC-Tracer包含两个全连接神经网络，即特征提取器和分类器。特征提取器由4个全连接层组成，隐藏层分别包含1024和512个神经元。隐藏层由整流线性单元(ReLU)激活函数连接，并应用随机神经元舍弃以避免过拟合。输入层的大小由输入矩阵中的基因数决定，而输出层的大小是指特征嵌入层的维度大小(默认为200个节点)。分类器包含3个全连接层，输入层通过ReLU激活函数与100个节点的隐藏层连接。输出节点的数量与分类数相等(本研究默认为26分类)。

为了克服原生癌细胞和CTC之间的域偏移，采用了半监督的领域适应来实现知识转移。在域适应之后，所有的CTC样本都被分配了来自原发性肿瘤类别的伪标签。然后用标记的原发性肿瘤样本和伪标记的CTC样本来训练分类器。

在特征嵌入的过程之后，首先要确定两个领域的聚类中心。在的领域适应过程中使用的无监督聚类方法是K-means。K-均值聚类是一种源自信号处理的向量量化方法。给定一个由n个观测值(x₁,x₂,...,x_n)组成的集合，每个观测值都是一个D维向量，K-均值聚类试图将n个观测值分成k(k<＝n)个组(S＝S₁,S₂,...,S_k)，以便最小化组内距离，最大化任何两个聚类之间的距离。具体来说，目标是最小化同一聚类的点(x，y)的成对平方偏差，同时最大化不同聚类中的点之间的平方偏差差异，即

确定两个领域的共同类。在聚类的过程中，第一步是确定源域和目标域之间共同语义层面的类的数量。由于目标域的数据是无标签的，直接的问题在于确定目标类的数量。为了解决这个问题，应用循环一致匹配(CCM)来关联两个领域的共同聚类。首先，循环一致的聚类被定义为基于聚类中心语义层面的共识的共同类。其次，采用一个名为"领域共识得分"的指标来确定样本级共识中的目标聚类的数量。

在k-means聚类之后，为每个聚类中心搜索两个领域中最近的聚类中心。当来自不同领域的最近聚类被作为相互最近的聚类时，意味着这对聚类达成了聚类共识。

在CCM过程结束后，对于每一个达成聚类共识的成对聚类的样本，在另一个领域搜索其最近的聚类中心。如果样本在其他领域的最近中心与CCM所取得的中心相匹配，这些样本就被定义为达成共识。然后，通过收集达成共识的样本来确定领域共识得分。

计算达成匹配簇对的共识分数。由于目标域样本没有持有标签。下一个任务是找出目标域样本的确切类别号码。通过一个新的指标来解决这个问题，这个指标叫做领域共识得分。领域共识得分包括两个方面的评估。例如，给定一个成对的聚类

和

与相应的聚类中心

(源域的中心)和

(目标域的中心)达成共识，对于每个源域样本，根据其与所有目标聚类中心的相似性，计算源域的共识得分。而聚类的源域共识得分被定义为达成共识的源域样本的比例。

指的是判断

是否跨域地匹配簇分类k，即

是源域上的共识分数，

是目标域上的共识分数，

为领域共识分数然后，将两个视图的共识分数的平均值

作为该匹配对的共识分数。

如前所述，将计算在CCM过程中获得的所有匹配对的领域共识分数，用于下一步的训练。

确认目标域分类的正确数目。经过前面的过程，仍然不知道目标聚类的合适的类的数量。因此执行一个名为"K值优化"的过程。这个过程通过增加K的数值(K是K-means算法的一个参数，代表要形成的聚类的数量以及要产生的中心点的数量)来反复迭代计算域的共识分数。在K-means算法的类簇中心搜索过程中，将逐步增加K，直到它收敛到预设或达到最大迭代次数。K值的优化取决于相应的域共识得分，也就是说，领域共识得分最高的K值将被选为最佳值。最终，确定目标域的适当数量的集群，并揭示每个定义的目标集群的类别，即通过这个过程修正域的偏移。

经过上面的过程，确保了两个领域的类别和共同类别。因此，可以根据聚类的结果给目标样本分配伪标签。下一步，将通过预设目标函数和伪标签的目标样本来优化神经网络的参数。

在聚类的过程中，确定了目标样本的伪标签。在优化过程中，将应用三个目标函数来更新神经网络的参数。这三个目标是原型正则器、对比域差异(CDD)和交叉熵损失函数。

原型正则器。对目标样本应用原型正则器，以提高目标集群的可辨别性。详细来说，

表示原型库，它存储了所有L2归一化的目标聚类中心，在训练过程中，M将被反复更新。正则器可以写成

其中，n代表目标样本的总数，K^t是目标聚类中心的总数，

是独热编码的标签向量，

定义如下所示：

对比域差异。由于每个目标样本都被分配到相应的共同聚类中，为了减少类内差异，扩大类间差距，采用对比域差异(CDD)来促进对已识别的共同样本的类对齐。通过这个目标函数该模型将进行更准确的聚类。值得注意的是，类间和类内域偏差会以相反的方向优化。

其中，C^s代表源域分类数，

为

的简写，指代目标域各样本的伪标签，

与

交叉熵损失函数。交叉熵损失函数被用来优化源域样本的分类性能。

其中，m是源样本的数量，C_s表示源样本的聚类中心总数，

是对应的源标签，σ是softmax函数,

指源域中第i个样本，g和f均代表函数层，表示源域数据数据特征经过多层神经网络变换。

然后，总体目标函数由三个部分构成。

其中，

代表源样本的交叉熵损失，

是两个域样本的域对齐损失，

推断过程。最后，在推理过程中，每个目标样本将被分配到一个来自原型的类标签

这个标签是最接近目标样本的原型标签。在这个过程中，没有进行聚类。结果此过程，共同分类和私有分类的差异将被扩大。

如图3，本发明实施例还提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释系统，包括：

特征提取单元301：将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取，得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征，所述源域细胞集的标签已知，而目标域数据的标签未知；

无监督聚类单元302：将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，为目标域肿瘤细胞集分配伪标签；

参数更新单元303：将源域肿瘤细胞集特征和对应标签，以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数；

循环训练单元304：循环执行至达到循环停止条件，输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。

本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法，将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取，得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征，所述源域细胞集的标签已知，而目标域数据的标签未知；将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类，采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类，并通过计算领域共识分数，得到目标肿瘤细胞集分类数，为目标域肿瘤细胞集分配伪标签；将源域肿瘤细胞集特征和对应标签，以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器，采用目标函数来更新神经网络模型的参数；循环执行至达到循环停止条件，输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型，本发明提供的方法能够精确地给目标样本分配准确的标签，并为源域和目标域构建一个共同的表示空间。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。