CN114974433A - 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 - Google Patents

一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 Download PDF

Info

Publication number
CN114974433A
CN114974433A CN202210582319.4A CN202210582319A CN114974433A CN 114974433 A CN114974433 A CN 114974433A CN 202210582319 A CN202210582319 A CN 202210582319A CN 114974433 A CN114974433 A CN 114974433A
Authority
CN
China
Prior art keywords
domain
cell set
tumor cell
target
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210582319.4A
Other languages
English (en)
Inventor
杨朝勇
郭晓旭
林芳禾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202210582319.4A priority Critical patent/CN114974433A/zh
Publication of CN114974433A publication Critical patent/CN114974433A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取;将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;循环执行至停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型,本发明提供的方法能够精确地给目标样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。

Description

一种基于深度迁移学习的循环肿瘤细胞的快速注释方法
技术领域
本发明涉及肿瘤细胞注释领域,特别是指一种基于深度迁移学习的循环肿瘤细胞的快速注释方法。
背景技术
液体活检通过非入侵方式,即收集外周血捕获循环肿瘤细胞(CTC),可以实现癌症的早期检测以及实时监控等,与传统的组织穿刺活检相比具有领先的优势。目前对于CTC细胞的传统注释方法为转录组测序分析,然而转录组分析需要研究者的手动设置参数注释,效率较低,并且准确程度与操作者水平相关联;另一方面,CTC数据较为稀少且难以获取,并且众多研究成果证明,CTC细胞与组织肿瘤细胞存在差异,故基于组织肿瘤的监督模型无法较为准确预测CTC细胞的分类。为了提高CTC临床检测的应用价值,能够快速且准确的注释CTC亟待解决。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于深度迁移学习的循环肿瘤细胞的快速注释方法和系统,能够精确地给目标样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。
本发明采用如下技术方案:
一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,包括:
S1:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
S2:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
S3:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
S4:循环执行S1-S3至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
具体地,所述特征提取器具体为:
特征提取器由4个全连接层组成,隐藏层分别包含1024和512个神经元;隐藏层由整流线性单元激活函数连接,并采用随机神经元;
输入层的大小由表达矩阵中的基因数确定,输出层的大小为特征嵌入层的维度大小。
具体地,所述分类器具体为:
分类器包含3个全连接层,输入层通过ReLU激活函数与隐藏层连接,输出节点的数量与分类数相同。
具体地,将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,所述无监督聚类方法为是K-means。
具体地,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,具体为:
循环计算源域各个聚类中心最临近的目标域的另一个聚类中心;
当两个聚类中心互相为最近邻,即达到循环一致匹配,相应的源域和目标域的两类为共识分类。
计算领域共识分数,具体为:
给定成对的聚类
Figure BDA0003664503640000021
Figure BDA0003664503640000022
与相应的源域聚类中心
Figure BDA0003664503640000023
Figure BDA0003664503640000024
目标域聚类中心达成共识,对于每个源域样本,计算源域的共识得分;而聚类的源域共识得分被定义为达成共识的源域样本的比例;
Figure BDA0003664503640000025
Figure BDA0003664503640000026
Figure BDA0003664503640000027
Figure BDA0003664503640000028
Figure BDA0003664503640000029
Figure BDA00036645036400000210
指的是判断
Figure BDA00036645036400000211
是否跨域地匹配簇分类k,即
Figure BDA00036645036400000212
保持相同的分类时返回1,分类不匹配时返回0,K为跨域匹配分类数目,s代表源域,t代表目标域,m指的是源域集群中的总源域样本数,n为目标域集群中的总目标域样本数;
Figure BDA00036645036400000213
是源域上的共识分数,
Figure BDA00036645036400000214
是目标域上的共识分数,
Figure BDA00036645036400000215
为领域共识分数。
具体地,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,具体为:
通过增加目标域K-means算法中K的数值反复迭代计算领域共识分数;
在K-means算法的类簇中心搜索过程中,将逐步增加K,直到它收敛到预设或达到最大迭代次数;
领域共识得分最高的K值将被选为最佳值,即为确定的目标肿瘤细胞集分类数。
具体地,将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数,所述目标函数具体为:原型正则器、对比域差异和交叉熵损失函数;
原型正则器:
Figure BDA0003664503640000031
其中,n代表目标样本的总数,Kt是目标聚类中心的总数,
Figure BDA0003664503640000032
是独热编码的标签向量,
Figure BDA0003664503640000033
定义如下所示:
Figure BDA0003664503640000034
vi是第i个目标样本的L2归一化特征向量,T指转置操作,τ为影响分布密度的温度参数;
对比域差异:
Figure BDA0003664503640000035
其中,Cs代表源域分类数,
Figure BDA0003664503640000036
Figure BDA0003664503640000037
的简写,指代目标域各样本的伪标签,
Figure BDA0003664503640000038
Figure BDA0003664503640000039
分别代表相同分类和不同分类的核平均嵌入估计,是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异,c和c'为类别符号,φ代表神经网络的参数函,控制神经网络输出,Intra、inter分别表示两个函数项分别表示类内和类间部分,对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离;
交叉熵损失函数:
Figure BDA00036645036400000310
其中,m是源样本的数量,Cs表示源样本的聚类中心总数,
Figure BDA0003664503640000041
是对应的源标签,σ是softmax函数,
Figure BDA0003664503640000042
指源域中第i个样本,g和f均代表函数层,表示源域数据数据特征经过多层神经网络变换;
然后,总体目标函数由三个部分构成。
Figure BDA0003664503640000043
Figure BDA0003664503640000044
其中,
Figure BDA0003664503640000045
代表源样本的交叉熵损失,
Figure BDA0003664503640000046
是两个域样本的域对齐损失,
Figure BDA0003664503640000047
代表原型正则器,λ和ω分别设为0.1和3.0,γ为迭代系数,o和N代表当前和总的迭代数。
本发明提供一种基于深度迁移学习的循环肿瘤细胞的快速注释系统,包括:
特征提取单元:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
无监督聚类单元:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
参数更新单元:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
循环训练单元:循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型,本发明提供的方法能够精确地给目标域样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。并且该方法模型收敛较快,训练新的模型只需要~30min,预训练模型预测仅需要~1min。
附图说明
图1为本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法流程图;
图2为本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法流程框图;
图3本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释系统架构图;
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
液体活检通过非入侵方式,即收集外周血捕获循环肿瘤细胞(CTC),可以实现癌症的早期检测以及实时监控等,与传统的组织穿刺活检相比具有领先的优势。CTC-Tracer被设计开发用于对测序后的临床CTC血样进行快速注释,并辅助临床癌症的预防和治疗。用户通过提供CTC的单细胞转录组测序后的表达矩阵作为模型的输入,表达矩阵的归一化方法应为log2(tpm+1)归一化,并且保有EnsemblID或者GeneSymbol的基因特征。处理好的表达矩阵数据直接输入模型经过直接预测或若干轮训练将获得对应细胞种类和CTCs在普通肿瘤图谱上的映射。模型预设的预测模式分别为直推式学习预测和归纳式模型预测。直推式模型预测不会产生预先训练好的模型,在面对新的预测数据时,需要将待预测数据加入到训练集中,经过若干轮训练得到训练结果;归纳式模型正好相反,预先训练好的模型可以直接对待预测的数据进行直接预测。
在模型预先设置中,收集了25种普通癌症和外周血细胞(PBMC)的表达矩阵数据作为源域的训练数据,4种CTC细胞(前列腺癌(PC),乳腺癌(BRCA),黑色素瘤(Mel),肝癌(HCC))的表达矩阵作为目标域数据。预先训练的模型包含以上述样本进行迁移学习,所以对于预训练模型中包含的癌症种类可以直接采用预训练模型预测。对于参考普通肿瘤数据中不存在的数据需要额外在参考数据中加入新的分类对应的普通癌症数据,并重新训练模型。当预测参考数据中未出现的CTC类型时,可以根据2d降维可视化判断该样本是否为未知种类的样本。
本发明的模型是基于域自适应的,域自适应是迁移学习的一个分支,目的是将源域数据的知识迁移到不同但相似的目标域中,并解决目标域的预测任务。最近多种领域适应方法已经被开发出来。目前很多优秀的算法被提出来解决域偏移。根据目前已有的域自适应方法,本发明的模型是基于这样的假设提出的:在无监督聚类后,两个领域的样本与相应的语义类别在样本空间中的距离是最接近的。因此,这个模型的核心思想是将相互之间距离最小的特定领域的聚类作为跨领域的共识聚类。然后,用上述的跨域匹配的结果来对相应的目标域分配伪标签。最后,通过优化目标函数来更新神经网络的参数,即原型正则器、对比性领域差异,交叉熵损失函数。如图1-2,详细步骤如下:
S1:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
从CancerSEA和几个可公开访问的数据库收集了由包含25种原发肿瘤的50318个细胞和一个PBMC数据集组成的scRNA-seq表达矩阵训练数据,并作为源域数据使用。同时,从4个已发表的研究中收集了372个CTCs(包括(*HCC((GNSA,https://db.cngb.org/cnsa/,CNP0000095),*BRCA(GSE109761),*PC(GSE67980),*MEL(GSE157745))的scRNA-seq表达矩阵作为目标域数据。另外来自2项已发表研究的451个CTCs(BRCA,(GSE51827,GSE75367,PRJNA471754),MEL(GSE38495))的scRNA-seq表达矩阵被作为测试数据处理。所有这些数据集都以log2(TPM+1)归一化,其中TPM被定义为每百万转录本数。
在去除CTC后,源数据矩阵包括44572个原发性肿瘤细胞和5746个PBMCs。
本发明实施例在归纳学习模式下的模型训练。在归纳学习模式下,原发性肿瘤和CTC数据集的特征分别作为源域和目标域的特征。源域数据的标签是已知的,而目标域数据的标签未知,是模型的学习目标。该模型由Adam优化器进行优化,权重衰减(weightdecay)为5X10-4。初始学习率被设定为0.0001。batch size设置为128;学习率在训练过程中根据迭代次数逐步衰减,直到达到稳定的训练结果。
S2:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
CTC-Tracer包含两个全连接神经网络,即特征提取器和分类器。特征提取器由4个全连接层组成,隐藏层分别包含1024和512个神经元。隐藏层由整流线性单元(ReLU)激活函数连接,并应用随机神经元舍弃以避免过拟合。输入层的大小由输入矩阵中的基因数决定,而输出层的大小是指特征嵌入层的维度大小(默认为200个节点)。分类器包含3个全连接层,输入层通过ReLU激活函数与100个节点的隐藏层连接。输出节点的数量与分类数相等(本研究默认为26分类)。
为了克服原生癌细胞和CTC之间的域偏移,采用了半监督的领域适应来实现知识转移。在域适应之后,所有的CTC样本都被分配了来自原发性肿瘤类别的伪标签。然后用标记的原发性肿瘤样本和伪标记的CTC样本来训练分类器。
在特征嵌入的过程之后,首先要确定两个领域的聚类中心。在的领域适应过程中使用的无监督聚类方法是K-means。K-均值聚类是一种源自信号处理的向量量化方法。给定一个由n个观测值(x1,x2,...,xn)组成的集合,每个观测值都是一个D维向量,K-均值聚类试图将n个观测值分成k(k<=n)个组(S=S1,S2,...,Sk),以便最小化组内距离,最大化任何两个聚类之间的距离。具体来说,目标是最小化同一聚类的点(x,y)的成对平方偏差,同时最大化不同聚类中的点之间的平方偏差差异,即
Figure BDA0003664503640000071
确定两个领域的共同类。在聚类的过程中,第一步是确定源域和目标域之间共同语义层面的类的数量。由于目标域的数据是无标签的,直接的问题在于确定目标类的数量。为了解决这个问题,应用循环一致匹配(CCM)来关联两个领域的共同聚类。首先,循环一致的聚类被定义为基于聚类中心语义层面的共识的共同类。其次,采用一个名为"领域共识得分"的指标来确定样本级共识中的目标聚类的数量。
在k-means聚类之后,为每个聚类中心搜索两个领域中最近的聚类中心。当来自不同领域的最近聚类被作为相互最近的聚类时,意味着这对聚类达成了聚类共识。
在CCM过程结束后,对于每一个达成聚类共识的成对聚类的样本,在另一个领域搜索其最近的聚类中心。如果样本在其他领域的最近中心与CCM所取得的中心相匹配,这些样本就被定义为达成共识。然后,通过收集达成共识的样本来确定领域共识得分。
计算达成匹配簇对的共识分数。由于目标域样本没有持有标签。下一个任务是找出目标域样本的确切类别号码。通过一个新的指标来解决这个问题,这个指标叫做领域共识得分。领域共识得分包括两个方面的评估。例如,给定一个成对的聚类
Figure BDA0003664503640000072
Figure BDA0003664503640000073
与相应的聚类中心
Figure BDA0003664503640000074
(源域的中心)和
Figure BDA0003664503640000075
(目标域的中心)达成共识,对于每个源域样本,根据其与所有目标聚类中心的相似性,计算源域的共识得分。而聚类的源域共识得分被定义为达成共识的源域样本的比例。
Figure BDA0003664503640000076
Figure BDA0003664503640000077
Figure BDA0003664503640000081
Figure BDA0003664503640000082
Figure BDA0003664503640000083
指的是判断
Figure BDA0003664503640000084
是否跨域地匹配簇分类k,即
Figure BDA0003664503640000085
保持相同的分类时返回1,分类不匹配时返回0,K为跨域匹配分类数目,s代表源域,t代表目标域,m指的是源域集群中的总源域样本数,n为目标域集群中的总目标域样本数;
Figure BDA0003664503640000086
是源域上的共识分数,
Figure BDA0003664503640000087
是目标域上的共识分数,
Figure BDA0003664503640000088
为领域共识分数然后,将两个视图的共识分数的平均值
Figure BDA0003664503640000089
作为该匹配对的共识分数。
Figure BDA00036645036400000810
如前所述,将计算在CCM过程中获得的所有匹配对的领域共识分数,用于下一步的训练。
确认目标域分类的正确数目。经过前面的过程,仍然不知道目标聚类的合适的类的数量。因此执行一个名为"K值优化"的过程。这个过程通过增加K的数值(K是K-means算法的一个参数,代表要形成的聚类的数量以及要产生的中心点的数量)来反复迭代计算域的共识分数。在K-means算法的类簇中心搜索过程中,将逐步增加K,直到它收敛到预设或达到最大迭代次数。K值的优化取决于相应的域共识得分,也就是说,领域共识得分最高的K值将被选为最佳值。最终,确定目标域的适当数量的集群,并揭示每个定义的目标集群的类别,即通过这个过程修正域的偏移。
经过上面的过程,确保了两个领域的类别和共同类别。因此,可以根据聚类的结果给目标样本分配伪标签。下一步,将通过预设目标函数和伪标签的目标样本来优化神经网络的参数。
S3:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
在聚类的过程中,确定了目标样本的伪标签。在优化过程中,将应用三个目标函数来更新神经网络的参数。这三个目标是原型正则器、对比域差异(CDD)和交叉熵损失函数。
原型正则器。对目标样本应用原型正则器,以提高目标集群的可辨别性。详细来说,
Figure BDA00036645036400000811
表示原型库,它存储了所有L2归一化的目标聚类中心,在训练过程中,M将被反复更新。正则器可以写成
Figure BDA0003664503640000091
其中,n代表目标样本的总数,Kt是目标聚类中心的总数,
Figure BDA0003664503640000092
是独热编码的标签向量,
Figure BDA0003664503640000093
定义如下所示:
Figure BDA0003664503640000094
vi是第i个目标样本的L2归一化特征向量,T指转置操作,τ为影响分布密度的温度参数;
对比域差异。由于每个目标样本都被分配到相应的共同聚类中,为了减少类内差异,扩大类间差距,采用对比域差异(CDD)来促进对已识别的共同样本的类对齐。通过这个目标函数该模型将进行更准确的聚类。值得注意的是,类间和类内域偏差会以相反的方向优化。
Figure BDA0003664503640000095
其中,Cs代表源域分类数,
Figure BDA0003664503640000096
Figure BDA0003664503640000097
的简写,指代目标域各样本的伪标签,
Figure BDA0003664503640000098
Figure BDA0003664503640000099
分别代表相同分类和不同分类的核平均嵌入估计,是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异,c和c'为类别符号,φ代表神经网络的参数函,控制神经网络输出,Intra、inter分别表示两个函数项分别表示类内和类间部分,对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离;
交叉熵损失函数。交叉熵损失函数被用来优化源域样本的分类性能。
Figure BDA00036645036400000910
其中,m是源样本的数量,Cs表示源样本的聚类中心总数,
Figure BDA00036645036400000911
是对应的源标签,σ是softmax函数,
Figure BDA00036645036400000912
指源域中第i个样本,g和f均代表函数层,表示源域数据数据特征经过多层神经网络变换。
然后,总体目标函数由三个部分构成。
Figure BDA00036645036400000913
Figure BDA0003664503640000101
其中,
Figure BDA0003664503640000102
代表源样本的交叉熵损失,
Figure BDA0003664503640000103
是两个域样本的域对齐损失,
Figure BDA0003664503640000104
代表原型正则器,λ和ω分别设为0.1和3.0,γ为迭代系数,o和N代表当前和总的迭代数。
推断过程。最后,在推理过程中,每个目标样本将被分配到一个来自原型的类标签
Figure BDA0003664503640000105
这个标签是最接近目标样本的原型标签。在这个过程中,没有进行聚类。结果此过程,共同分类和私有分类的差异将被扩大。
S4:循环执行S1-S3至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
如图3,本发明实施例还提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释系统,包括:
特征提取单元301:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
无监督聚类单元302:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
参数更新单元303:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
循环训练单元304:循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型,本发明提供的方法能够精确地给目标样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (9)

1.一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,包括:
S1:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
S2:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
S3:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
S4:循环执行S1-S3至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
2.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,所述特征提取器具体为:
特征提取器由4个全连接层组成,隐藏层分别包含1024和512个神经元;隐藏层由整流线性单元激活函数连接,并采用随机神经元;
输入层的大小由表达矩阵中的基因数确定,输出层的大小为特征嵌入层的维度大小。
3.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,所述分类器具体为:
分类器包含3个全连接层,输入层通过ReLU激活函数与隐藏层连接,输出节点的数量与分类数相同。
4.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,所述无监督聚类方法为是K-means。
5.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,具体为:
循环计算源域各个聚类中心最临近的目标域的另一个聚类中心;
当两个聚类中心互相为最近邻,即达到循环一致匹配,相应的源域和目标域的两类为共识分类。
6.根据权利要求5所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,计算领域共识分数,具体为:
给定成对的聚类
Figure FDA0003664503630000011
Figure FDA0003664503630000012
与相应的源域聚类中心
Figure FDA0003664503630000013
Figure FDA0003664503630000014
目标域聚类中心达成共识,对于每个源域样本,计算源域的共识得分;而聚类的源域共识得分被定义为达成共识的源域样本的比例;
Figure FDA0003664503630000021
Figure FDA0003664503630000022
Figure FDA0003664503630000023
Figure FDA0003664503630000024
Figure FDA0003664503630000025
指的是判断
Figure FDA0003664503630000026
是否跨域地匹配簇分类k,即
Figure FDA0003664503630000027
保持相同的分类时返回1,分类不匹配时返回0,K为跨域匹配分类数目,s代表源域,t代表目标域,m指的是源域集群中的总源域样本数,n为目标域集群中的总目标域样本数;
Figure FDA0003664503630000028
是源域上的共识分数,
Figure FDA0003664503630000029
是目标域上的共识分数,
Figure FDA00036645036300000210
为领域共识分数。
7.根据权利要求6所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,具体为:
通过增加目标域K-means算法中K的数值反复迭代计算领域共识分数;
在K-means算法的类簇中心搜索过程中,将逐步增加K,直到它收敛到预设或达到最大迭代次数;
领域共识得分最高的K值将被选为最佳值,即为确定的目标肿瘤细胞集分类数。
8.根据权利要求6所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数,所述目标函数具体为:原型正则器、对比域差异和交叉熵损失函数;
原型正则器:
Figure FDA00036645036300000211
其中,n代表目标样本的总数,Kt是目标聚类中心的总数,
Figure FDA00036645036300000212
是独热编码的标签向量,
Figure FDA00036645036300000213
定义如下所示:
Figure FDA0003664503630000031
vi是第i个目标样本的L2归一化特征向量,T指转置操作,τ为影响分布密度的温度参数;
对比域差异:
Figure FDA0003664503630000032
其中,Cs代表源域分类数,
Figure FDA0003664503630000033
Figure FDA0003664503630000034
的简写,指代目标域各样本的伪标签,
Figure FDA0003664503630000035
Figure FDA0003664503630000036
分别代表相同分类和不同分类的核平均嵌入估计,是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异,c和c'为类别符号,φ代表神经网络的参数函,控制神经网络输出,intra、inter分别表示两个函数项分别表示类内和类间部分,对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离;
交叉熵损失函数:
Figure FDA0003664503630000037
其中,m是源样本的数量,Cs表示源样本的聚类中心总数,
Figure FDA0003664503630000038
是对应的源标签,σ是softmax函数,
Figure FDA0003664503630000039
指源域中第i个样本,g和f均代表函数层,表示源域数据数据特征经过多层神经网络变换;
然后,总体目标函数由三个部分构成。
Figure FDA00036645036300000310
Figure FDA00036645036300000311
其中,
Figure FDA00036645036300000312
代表源样本的交叉熵损失,
Figure FDA00036645036300000313
是两个域样本的域对齐损失,
Figure FDA00036645036300000314
代表原型正则器,λ和ω分别设为0.1和3.0,γ为迭代系数,o和N代表当前和总的迭代数。
9.一种基于深度迁移学习的循环肿瘤细胞的快速注释系统,其特征在于,包括:
特征提取单元:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
无监督聚类单元:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
参数更新单元:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
循环训练单元:循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
CN202210582319.4A 2022-05-26 2022-05-26 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 Pending CN114974433A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210582319.4A CN114974433A (zh) 2022-05-26 2022-05-26 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210582319.4A CN114974433A (zh) 2022-05-26 2022-05-26 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法

Publications (1)

Publication Number Publication Date
CN114974433A true CN114974433A (zh) 2022-08-30

Family

ID=82954929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210582319.4A Pending CN114974433A (zh) 2022-05-26 2022-05-26 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法

Country Status (1)

Country Link
CN (1) CN114974433A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449639A (zh) * 2009-06-02 2012-05-09 通用电气医疗集团英国有限公司 图像分析
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
US20200239965A1 (en) * 2018-12-21 2020-07-30 Grail, Inc. Source of origin deconvolution based on methylation fragments in cell-free dna samples
CN112434754A (zh) * 2020-12-14 2021-03-02 前线智能科技(南京)有限公司 一种基于图神经网络的跨模态医学影像域适应分类方法
US20210390355A1 (en) * 2020-06-13 2021-12-16 Zhejiang University Image classification method based on reliable weighted optimal transport (rwot)
CN114121158A (zh) * 2021-12-01 2022-03-01 湖南大学 一种基于深度网络自适应的scRNA-seq细胞类型识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102449639A (zh) * 2009-06-02 2012-05-09 通用电气医疗集团英国有限公司 图像分析
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
CN108062753A (zh) * 2017-12-29 2018-05-22 重庆理工大学 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法
US20200239965A1 (en) * 2018-12-21 2020-07-30 Grail, Inc. Source of origin deconvolution based on methylation fragments in cell-free dna samples
US20210390355A1 (en) * 2020-06-13 2021-12-16 Zhejiang University Image classification method based on reliable weighted optimal transport (rwot)
CN112434754A (zh) * 2020-12-14 2021-03-02 前线智能科技(南京)有限公司 一种基于图神经网络的跨模态医学影像域适应分类方法
CN114121158A (zh) * 2021-12-01 2022-03-01 湖南大学 一种基于深度网络自适应的scRNA-seq细胞类型识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUO XIAOXU 等: "DEEP TRANSFER LEARNING ENABLES LESION TRACING OF CIRCULATING TUMOR CELLS", NATURE COMMUNICATIONS, 12 December 2022 (2022-12-12) *
汪荣贵;姚旭晨;杨娟;薛丽霞;: "基于深度迁移学习的微型细粒度图像分类", 光电工程, no. 06, 15 June 2019 (2019-06-15) *
赵文仓;袁立镇;徐长凯;: "基于鉴别模型和对抗损失的无监督域自适应方法", 高技术通讯, no. 07, 15 July 2020 (2020-07-15) *

Similar Documents

Publication Publication Date Title
Song et al. Feature selection using bare-bones particle swarm optimization with mutual information
Patil et al. Hybrid prediction model for type-2 diabetic patients
Li et al. Grouped gene selection of cancer via adaptive sparse group lasso based on conditional mutual information
Hvidsten et al. Predicting gene function from gene expressions and ontologies
Wang et al. Local feature selection based on artificial immune system for classification
Kumar et al. Breast cancer detection based on feature selection using enhanced grey wolf optimizer and support vector machine algorithms
CN111640468B (zh) 一种基于复杂网络筛选疾病相关蛋白的方法
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
Cengil et al. A hybrid approach for efficient multi‐classification of white blood cells based on transfer learning techniques and traditional machine learning methods
CN116486902A (zh) 一种基于基因调控网络识别驱动调控因子的方法
Jia et al. Adaptive affinity propagation method based on improved cuckoo search
CN116821715A (zh) 一种基于半监督约束的人工蜂群优化聚类方法
CN110909785B (zh) 基于语义层级的多任务Triplet损失函数学习方法
Li et al. Adaptive betweenness clustering for semi-supervised domain adaptation
Mitra et al. Fusion of stability and multi-objective optimization for solving cancer tissue classification problem
Babu et al. A simplex method-based bacterial colony optimization algorithm for data clustering analysis
Liu et al. Ensemble component selection for improving ICA based microarray data prediction models
Zhang et al. A comparative study of ensemble learning approaches in the classification of breast cancer metastasis
CN116886398A (zh) 一种基于特征选择和集成学习的物联网入侵检测方法
CN111582370A (zh) 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法
Mohammed et al. Anomaly Detection in Human Disease: A Hybrid Approach Using GWO-SVM for Gene Selection.
Chellamuthu et al. Data mining and machine learning approaches in breast cancer biomedical research
CN114974433A (zh) 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法
Fan et al. Large margin nearest neighbor embedding for knowledge representation
Subasree et al. A comparative study and analysis of data mining classifiers for microarray based cancer pattern diagnostics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination