CN114974433A - 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 - Google Patents
一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 Download PDFInfo
- Publication number
- CN114974433A CN114974433A CN202210582319.4A CN202210582319A CN114974433A CN 114974433 A CN114974433 A CN 114974433A CN 202210582319 A CN202210582319 A CN 202210582319A CN 114974433 A CN114974433 A CN 114974433A
- Authority
- CN
- China
- Prior art keywords
- domain
- cell set
- tumor cell
- target
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 title claims abstract description 40
- 238000013508 migration Methods 0.000 title claims abstract description 23
- 230000005012 migration Effects 0.000 title claims abstract description 23
- 210000004881 tumor cell Anatomy 0.000 claims abstract description 132
- 230000006870 function Effects 0.000 claims abstract description 49
- 238000003062 neural network model Methods 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 18
- 210000004027 cell Anatomy 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000001965 increasing effect Effects 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 206010028980 Neoplasm Diseases 0.000 description 14
- 201000011510 cancer Diseases 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 6
- 206010006187 Breast cancer Diseases 0.000 description 4
- 208000026310 Breast neoplasm Diseases 0.000 description 4
- 210000005266 circulating tumour cell Anatomy 0.000 description 4
- 238000012174 single-cell RNA sequencing Methods 0.000 description 4
- 210000001519 tissue Anatomy 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011528 liquid biopsy Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000004976 peripheral blood cell Anatomy 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000000700 radioactive tracer Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000011222 transcriptome analysis Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取;将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;循环执行至停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型,本发明提供的方法能够精确地给目标样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。
Description
技术领域
本发明涉及肿瘤细胞注释领域,特别是指一种基于深度迁移学习的循环肿瘤细胞的快速注释方法。
背景技术
液体活检通过非入侵方式,即收集外周血捕获循环肿瘤细胞(CTC),可以实现癌症的早期检测以及实时监控等,与传统的组织穿刺活检相比具有领先的优势。目前对于CTC细胞的传统注释方法为转录组测序分析,然而转录组分析需要研究者的手动设置参数注释,效率较低,并且准确程度与操作者水平相关联;另一方面,CTC数据较为稀少且难以获取,并且众多研究成果证明,CTC细胞与组织肿瘤细胞存在差异,故基于组织肿瘤的监督模型无法较为准确预测CTC细胞的分类。为了提高CTC临床检测的应用价值,能够快速且准确的注释CTC亟待解决。
发明内容
本发明的主要目的在于克服现有技术中的上述缺陷,提出一种基于深度迁移学习的循环肿瘤细胞的快速注释方法和系统,能够精确地给目标样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。
本发明采用如下技术方案:
一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,包括:
S1:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
S2:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
S3:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
S4:循环执行S1-S3至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
具体地,所述特征提取器具体为:
特征提取器由4个全连接层组成,隐藏层分别包含1024和512个神经元;隐藏层由整流线性单元激活函数连接,并采用随机神经元;
输入层的大小由表达矩阵中的基因数确定,输出层的大小为特征嵌入层的维度大小。
具体地,所述分类器具体为:
分类器包含3个全连接层,输入层通过ReLU激活函数与隐藏层连接,输出节点的数量与分类数相同。
具体地,将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,所述无监督聚类方法为是K-means。
具体地,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,具体为:
循环计算源域各个聚类中心最临近的目标域的另一个聚类中心;
当两个聚类中心互相为最近邻,即达到循环一致匹配,相应的源域和目标域的两类为共识分类。
计算领域共识分数,具体为:
指的是判断是否跨域地匹配簇分类k,即保持相同的分类时返回1,分类不匹配时返回0,K为跨域匹配分类数目,s代表源域,t代表目标域,m指的是源域集群中的总源域样本数,n为目标域集群中的总目标域样本数;是源域上的共识分数,是目标域上的共识分数,为领域共识分数。
具体地,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,具体为:
通过增加目标域K-means算法中K的数值反复迭代计算领域共识分数;
在K-means算法的类簇中心搜索过程中,将逐步增加K,直到它收敛到预设或达到最大迭代次数;
领域共识得分最高的K值将被选为最佳值,即为确定的目标肿瘤细胞集分类数。
具体地,将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数,所述目标函数具体为:原型正则器、对比域差异和交叉熵损失函数;
原型正则器:
vi是第i个目标样本的L2归一化特征向量,T指转置操作,τ为影响分布密度的温度参数;
对比域差异:
其中,Cs代表源域分类数,为的简写,指代目标域各样本的伪标签,与分别代表相同分类和不同分类的核平均嵌入估计,是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异,c和c'为类别符号,φ代表神经网络的参数函,控制神经网络输出,Intra、inter分别表示两个函数项分别表示类内和类间部分,对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离;
交叉熵损失函数:
然后,总体目标函数由三个部分构成。
本发明提供一种基于深度迁移学习的循环肿瘤细胞的快速注释系统,包括:
特征提取单元:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
无监督聚类单元:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
参数更新单元:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
循环训练单元:循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型,本发明提供的方法能够精确地给目标域样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。并且该方法模型收敛较快,训练新的模型只需要~30min,预训练模型预测仅需要~1min。
附图说明
图1为本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法流程图;
图2为本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法流程框图;
图3本发明实施例提供的一种基于深度迁移学习的循环肿瘤细胞的快速注释系统架构图;
以下结合附图和具体实施例对本发明作进一步详述。
具体实施方式
液体活检通过非入侵方式,即收集外周血捕获循环肿瘤细胞(CTC),可以实现癌症的早期检测以及实时监控等,与传统的组织穿刺活检相比具有领先的优势。CTC-Tracer被设计开发用于对测序后的临床CTC血样进行快速注释,并辅助临床癌症的预防和治疗。用户通过提供CTC的单细胞转录组测序后的表达矩阵作为模型的输入,表达矩阵的归一化方法应为log2(tpm+1)归一化,并且保有EnsemblID或者GeneSymbol的基因特征。处理好的表达矩阵数据直接输入模型经过直接预测或若干轮训练将获得对应细胞种类和CTCs在普通肿瘤图谱上的映射。模型预设的预测模式分别为直推式学习预测和归纳式模型预测。直推式模型预测不会产生预先训练好的模型,在面对新的预测数据时,需要将待预测数据加入到训练集中,经过若干轮训练得到训练结果;归纳式模型正好相反,预先训练好的模型可以直接对待预测的数据进行直接预测。
在模型预先设置中,收集了25种普通癌症和外周血细胞(PBMC)的表达矩阵数据作为源域的训练数据,4种CTC细胞(前列腺癌(PC),乳腺癌(BRCA),黑色素瘤(Mel),肝癌(HCC))的表达矩阵作为目标域数据。预先训练的模型包含以上述样本进行迁移学习,所以对于预训练模型中包含的癌症种类可以直接采用预训练模型预测。对于参考普通肿瘤数据中不存在的数据需要额外在参考数据中加入新的分类对应的普通癌症数据,并重新训练模型。当预测参考数据中未出现的CTC类型时,可以根据2d降维可视化判断该样本是否为未知种类的样本。
本发明的模型是基于域自适应的,域自适应是迁移学习的一个分支,目的是将源域数据的知识迁移到不同但相似的目标域中,并解决目标域的预测任务。最近多种领域适应方法已经被开发出来。目前很多优秀的算法被提出来解决域偏移。根据目前已有的域自适应方法,本发明的模型是基于这样的假设提出的:在无监督聚类后,两个领域的样本与相应的语义类别在样本空间中的距离是最接近的。因此,这个模型的核心思想是将相互之间距离最小的特定领域的聚类作为跨领域的共识聚类。然后,用上述的跨域匹配的结果来对相应的目标域分配伪标签。最后,通过优化目标函数来更新神经网络的参数,即原型正则器、对比性领域差异,交叉熵损失函数。如图1-2,详细步骤如下:
S1:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
从CancerSEA和几个可公开访问的数据库收集了由包含25种原发肿瘤的50318个细胞和一个PBMC数据集组成的scRNA-seq表达矩阵训练数据,并作为源域数据使用。同时,从4个已发表的研究中收集了372个CTCs(包括(*HCC((GNSA,https://db.cngb.org/cnsa/,CNP0000095),*BRCA(GSE109761),*PC(GSE67980),*MEL(GSE157745))的scRNA-seq表达矩阵作为目标域数据。另外来自2项已发表研究的451个CTCs(BRCA,(GSE51827,GSE75367,PRJNA471754),MEL(GSE38495))的scRNA-seq表达矩阵被作为测试数据处理。所有这些数据集都以log2(TPM+1)归一化,其中TPM被定义为每百万转录本数。
在去除CTC后,源数据矩阵包括44572个原发性肿瘤细胞和5746个PBMCs。
本发明实施例在归纳学习模式下的模型训练。在归纳学习模式下,原发性肿瘤和CTC数据集的特征分别作为源域和目标域的特征。源域数据的标签是已知的,而目标域数据的标签未知,是模型的学习目标。该模型由Adam优化器进行优化,权重衰减(weightdecay)为5X10-4。初始学习率被设定为0.0001。batch size设置为128;学习率在训练过程中根据迭代次数逐步衰减,直到达到稳定的训练结果。
S2:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
CTC-Tracer包含两个全连接神经网络,即特征提取器和分类器。特征提取器由4个全连接层组成,隐藏层分别包含1024和512个神经元。隐藏层由整流线性单元(ReLU)激活函数连接,并应用随机神经元舍弃以避免过拟合。输入层的大小由输入矩阵中的基因数决定,而输出层的大小是指特征嵌入层的维度大小(默认为200个节点)。分类器包含3个全连接层,输入层通过ReLU激活函数与100个节点的隐藏层连接。输出节点的数量与分类数相等(本研究默认为26分类)。
为了克服原生癌细胞和CTC之间的域偏移,采用了半监督的领域适应来实现知识转移。在域适应之后,所有的CTC样本都被分配了来自原发性肿瘤类别的伪标签。然后用标记的原发性肿瘤样本和伪标记的CTC样本来训练分类器。
在特征嵌入的过程之后,首先要确定两个领域的聚类中心。在的领域适应过程中使用的无监督聚类方法是K-means。K-均值聚类是一种源自信号处理的向量量化方法。给定一个由n个观测值(x1,x2,...,xn)组成的集合,每个观测值都是一个D维向量,K-均值聚类试图将n个观测值分成k(k<=n)个组(S=S1,S2,...,Sk),以便最小化组内距离,最大化任何两个聚类之间的距离。具体来说,目标是最小化同一聚类的点(x,y)的成对平方偏差,同时最大化不同聚类中的点之间的平方偏差差异,即
确定两个领域的共同类。在聚类的过程中,第一步是确定源域和目标域之间共同语义层面的类的数量。由于目标域的数据是无标签的,直接的问题在于确定目标类的数量。为了解决这个问题,应用循环一致匹配(CCM)来关联两个领域的共同聚类。首先,循环一致的聚类被定义为基于聚类中心语义层面的共识的共同类。其次,采用一个名为"领域共识得分"的指标来确定样本级共识中的目标聚类的数量。
在k-means聚类之后,为每个聚类中心搜索两个领域中最近的聚类中心。当来自不同领域的最近聚类被作为相互最近的聚类时,意味着这对聚类达成了聚类共识。
在CCM过程结束后,对于每一个达成聚类共识的成对聚类的样本,在另一个领域搜索其最近的聚类中心。如果样本在其他领域的最近中心与CCM所取得的中心相匹配,这些样本就被定义为达成共识。然后,通过收集达成共识的样本来确定领域共识得分。
计算达成匹配簇对的共识分数。由于目标域样本没有持有标签。下一个任务是找出目标域样本的确切类别号码。通过一个新的指标来解决这个问题,这个指标叫做领域共识得分。领域共识得分包括两个方面的评估。例如,给定一个成对的聚类和与相应的聚类中心(源域的中心)和(目标域的中心)达成共识,对于每个源域样本,根据其与所有目标聚类中心的相似性,计算源域的共识得分。而聚类的源域共识得分被定义为达成共识的源域样本的比例。
指的是判断是否跨域地匹配簇分类k,即保持相同的分类时返回1,分类不匹配时返回0,K为跨域匹配分类数目,s代表源域,t代表目标域,m指的是源域集群中的总源域样本数,n为目标域集群中的总目标域样本数;是源域上的共识分数,是目标域上的共识分数,为领域共识分数然后,将两个视图的共识分数的平均值作为该匹配对的共识分数。
如前所述,将计算在CCM过程中获得的所有匹配对的领域共识分数,用于下一步的训练。
确认目标域分类的正确数目。经过前面的过程,仍然不知道目标聚类的合适的类的数量。因此执行一个名为"K值优化"的过程。这个过程通过增加K的数值(K是K-means算法的一个参数,代表要形成的聚类的数量以及要产生的中心点的数量)来反复迭代计算域的共识分数。在K-means算法的类簇中心搜索过程中,将逐步增加K,直到它收敛到预设或达到最大迭代次数。K值的优化取决于相应的域共识得分,也就是说,领域共识得分最高的K值将被选为最佳值。最终,确定目标域的适当数量的集群,并揭示每个定义的目标集群的类别,即通过这个过程修正域的偏移。
经过上面的过程,确保了两个领域的类别和共同类别。因此,可以根据聚类的结果给目标样本分配伪标签。下一步,将通过预设目标函数和伪标签的目标样本来优化神经网络的参数。
S3:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
在聚类的过程中,确定了目标样本的伪标签。在优化过程中,将应用三个目标函数来更新神经网络的参数。这三个目标是原型正则器、对比域差异(CDD)和交叉熵损失函数。
vi是第i个目标样本的L2归一化特征向量,T指转置操作,τ为影响分布密度的温度参数;
对比域差异。由于每个目标样本都被分配到相应的共同聚类中,为了减少类内差异,扩大类间差距,采用对比域差异(CDD)来促进对已识别的共同样本的类对齐。通过这个目标函数该模型将进行更准确的聚类。值得注意的是,类间和类内域偏差会以相反的方向优化。
其中,Cs代表源域分类数,为的简写,指代目标域各样本的伪标签,与分别代表相同分类和不同分类的核平均嵌入估计,是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异,c和c'为类别符号,φ代表神经网络的参数函,控制神经网络输出,Intra、inter分别表示两个函数项分别表示类内和类间部分,对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离;
交叉熵损失函数。交叉熵损失函数被用来优化源域样本的分类性能。
然后,总体目标函数由三个部分构成。
S4:循环执行S1-S3至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
如图3,本发明实施例还提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释系统,包括:
特征提取单元301:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
无监督聚类单元302:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
参数更新单元303:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
循环训练单元304:循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
本发明提供了一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型,本发明提供的方法能够精确地给目标样本分配准确的标签,并为源域和目标域构建一个共同的表示空间。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (9)
1.一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,包括:
S1:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
S2:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
S3:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
S4:循环执行S1-S3至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
2.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,所述特征提取器具体为:
特征提取器由4个全连接层组成,隐藏层分别包含1024和512个神经元;隐藏层由整流线性单元激活函数连接,并采用随机神经元;
输入层的大小由表达矩阵中的基因数确定,输出层的大小为特征嵌入层的维度大小。
3.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,所述分类器具体为:
分类器包含3个全连接层,输入层通过ReLU激活函数与隐藏层连接,输出节点的数量与分类数相同。
4.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,所述无监督聚类方法为是K-means。
5.根据权利要求1所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,具体为:
循环计算源域各个聚类中心最临近的目标域的另一个聚类中心;
当两个聚类中心互相为最近邻,即达到循环一致匹配,相应的源域和目标域的两类为共识分类。
7.根据权利要求6所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,具体为:
通过增加目标域K-means算法中K的数值反复迭代计算领域共识分数;
在K-means算法的类簇中心搜索过程中,将逐步增加K,直到它收敛到预设或达到最大迭代次数;
领域共识得分最高的K值将被选为最佳值,即为确定的目标肿瘤细胞集分类数。
8.根据权利要求6所述的一种基于深度迁移学习的循环肿瘤细胞的快速注释方法,其特征在于,将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数,所述目标函数具体为:原型正则器、对比域差异和交叉熵损失函数;
原型正则器:
vi是第i个目标样本的L2归一化特征向量,T指转置操作,τ为影响分布密度的温度参数;
对比域差异:
其中,Cs代表源域分类数,为的简写,指代目标域各样本的伪标签,与分别代表相同分类和不同分类的核平均嵌入估计,是用来描述两个分布在可再生核希伯来空间的平均嵌入的差异,c和c'为类别符号,φ代表神经网络的参数函,控制神经网络输出,intra、inter分别表示两个函数项分别表示类内和类间部分,对比域差异损失函数的目标为增大不同聚类之间的距离和减小相同聚类间的样本距离;
交叉熵损失函数:
然后,总体目标函数由三个部分构成。
9.一种基于深度迁移学习的循环肿瘤细胞的快速注释系统,其特征在于,包括:
特征提取单元:将源域肿瘤细胞集的表达矩阵和目标域肿瘤细胞集的表达矩阵输入神经网络模型的特征提取器进行特征提取,得到源域肿瘤细胞集特征和目标域肿瘤细胞集特征,所述源域细胞集的标签已知,而目标域数据的标签未知;
无监督聚类单元:将源域肿瘤细胞集特征和目标域肿瘤细胞集特征进行无监督聚类,采用循环一致匹配关联源域肿瘤细胞集和目标域肿瘤细胞集的共识分类,并通过计算领域共识分数,得到目标肿瘤细胞集分类数,为目标域肿瘤细胞集分配伪标签;
参数更新单元:将源域肿瘤细胞集特征和对应标签,以及目标肿瘤细胞集和对应的伪标签输入神经网络模型的分类器,采用目标函数来更新神经网络模型的参数;
循环训练单元:循环执行至达到循环停止条件,输出目标域肿瘤细胞集的原型标签以及训练完成的神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582319.4A CN114974433A (zh) | 2022-05-26 | 2022-05-26 | 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210582319.4A CN114974433A (zh) | 2022-05-26 | 2022-05-26 | 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114974433A true CN114974433A (zh) | 2022-08-30 |
Family
ID=82954929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210582319.4A Pending CN114974433A (zh) | 2022-05-26 | 2022-05-26 | 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114974433A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449639A (zh) * | 2009-06-02 | 2012-05-09 | 通用电气医疗集团英国有限公司 | 图像分析 |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN109036571A (zh) * | 2014-12-08 | 2018-12-18 | 20/20基因系统股份有限公司 | 用于预测患有癌症的可能性或风险的方法和机器学习系统 |
US20200239965A1 (en) * | 2018-12-21 | 2020-07-30 | Grail, Inc. | Source of origin deconvolution based on methylation fragments in cell-free dna samples |
CN112434754A (zh) * | 2020-12-14 | 2021-03-02 | 前线智能科技(南京)有限公司 | 一种基于图神经网络的跨模态医学影像域适应分类方法 |
US20210390355A1 (en) * | 2020-06-13 | 2021-12-16 | Zhejiang University | Image classification method based on reliable weighted optimal transport (rwot) |
CN114121158A (zh) * | 2021-12-01 | 2022-03-01 | 湖南大学 | 一种基于深度网络自适应的scRNA-seq细胞类型识别方法 |
-
2022
- 2022-05-26 CN CN202210582319.4A patent/CN114974433A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102449639A (zh) * | 2009-06-02 | 2012-05-09 | 通用电气医疗集团英国有限公司 | 图像分析 |
CN109036571A (zh) * | 2014-12-08 | 2018-12-18 | 20/20基因系统股份有限公司 | 用于预测患有癌症的可能性或风险的方法和机器学习系统 |
CN108062753A (zh) * | 2017-12-29 | 2018-05-22 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
US20200239965A1 (en) * | 2018-12-21 | 2020-07-30 | Grail, Inc. | Source of origin deconvolution based on methylation fragments in cell-free dna samples |
US20210390355A1 (en) * | 2020-06-13 | 2021-12-16 | Zhejiang University | Image classification method based on reliable weighted optimal transport (rwot) |
CN112434754A (zh) * | 2020-12-14 | 2021-03-02 | 前线智能科技(南京)有限公司 | 一种基于图神经网络的跨模态医学影像域适应分类方法 |
CN114121158A (zh) * | 2021-12-01 | 2022-03-01 | 湖南大学 | 一种基于深度网络自适应的scRNA-seq细胞类型识别方法 |
Non-Patent Citations (3)
Title |
---|
GUO XIAOXU 等: "DEEP TRANSFER LEARNING ENABLES LESION TRACING OF CIRCULATING TUMOR CELLS", NATURE COMMUNICATIONS, 12 December 2022 (2022-12-12) * |
汪荣贵;姚旭晨;杨娟;薛丽霞;: "基于深度迁移学习的微型细粒度图像分类", 光电工程, no. 06, 15 June 2019 (2019-06-15) * |
赵文仓;袁立镇;徐长凯;: "基于鉴别模型和对抗损失的无监督域自适应方法", 高技术通讯, no. 07, 15 July 2020 (2020-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song et al. | Feature selection using bare-bones particle swarm optimization with mutual information | |
Patil et al. | Hybrid prediction model for type-2 diabetic patients | |
Li et al. | Grouped gene selection of cancer via adaptive sparse group lasso based on conditional mutual information | |
Hvidsten et al. | Predicting gene function from gene expressions and ontologies | |
Wang et al. | Local feature selection based on artificial immune system for classification | |
Kumar et al. | Breast cancer detection based on feature selection using enhanced grey wolf optimizer and support vector machine algorithms | |
CN111640468B (zh) | 一种基于复杂网络筛选疾病相关蛋白的方法 | |
CN115798730A (zh) | 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质 | |
Cengil et al. | A hybrid approach for efficient multi‐classification of white blood cells based on transfer learning techniques and traditional machine learning methods | |
CN116486902A (zh) | 一种基于基因调控网络识别驱动调控因子的方法 | |
Jia et al. | Adaptive affinity propagation method based on improved cuckoo search | |
CN116821715A (zh) | 一种基于半监督约束的人工蜂群优化聚类方法 | |
CN110909785B (zh) | 基于语义层级的多任务Triplet损失函数学习方法 | |
Li et al. | Adaptive betweenness clustering for semi-supervised domain adaptation | |
Mitra et al. | Fusion of stability and multi-objective optimization for solving cancer tissue classification problem | |
Babu et al. | A simplex method-based bacterial colony optimization algorithm for data clustering analysis | |
Liu et al. | Ensemble component selection for improving ICA based microarray data prediction models | |
Zhang et al. | A comparative study of ensemble learning approaches in the classification of breast cancer metastasis | |
CN116886398A (zh) | 一种基于特征选择和集成学习的物联网入侵检测方法 | |
CN111582370A (zh) | 一种基于粗糙集优化的脑转移瘤预后指标约简及分类方法 | |
Mohammed et al. | Anomaly Detection in Human Disease: A Hybrid Approach Using GWO-SVM for Gene Selection. | |
Chellamuthu et al. | Data mining and machine learning approaches in breast cancer biomedical research | |
CN114974433A (zh) | 一种基于深度迁移学习的循环肿瘤细胞的快速注释方法 | |
Fan et al. | Large margin nearest neighbor embedding for knowledge representation | |
Subasree et al. | A comparative study and analysis of data mining classifiers for microarray based cancer pattern diagnostics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |