CN117671673A - 一种基于自适应张量子空间的小样本宫颈细胞分类方法 - Google Patents
一种基于自适应张量子空间的小样本宫颈细胞分类方法 Download PDFInfo
- Publication number
- CN117671673A CN117671673A CN202311550522.4A CN202311550522A CN117671673A CN 117671673 A CN117671673 A CN 117671673A CN 202311550522 A CN202311550522 A CN 202311550522A CN 117671673 A CN117671673 A CN 117671673A
- Authority
- CN
- China
- Prior art keywords
- sample
- meta
- samples
- feature
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 69
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 27
- 238000000513 principal component analysis Methods 0.000 claims abstract description 12
- 230000026683 transduction Effects 0.000 claims abstract description 6
- 238000010361 transduction Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 5
- 238000012360 testing method Methods 0.000 claims description 23
- 238000009826 distribution Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000007635 classification algorithm Methods 0.000 description 7
- 206010008342 Cervix carcinoma Diseases 0.000 description 5
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 5
- 201000010881 cervical cancer Diseases 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 208000003464 asthenopia Diseases 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自适应张量子空间的小样本宫颈细胞分类方法,属于数字图像处理与医学交叉领域。本发明通过将预训练技术和元学习相结合;采用最大均值差异算法赋予每个支持集样本合适的权重,计算加权原型,缓解背景噪声的干扰;采用转导学习方法,基于聚类假设,利用部分查询集样本扩充支持集,将估计的原型朝着真实原型方向修正;采用多线性主成分分析算法将每类样本投影到各自的低维自适应张量子空间,从而在不破换张量数据的自然结构和元素相关性的前提下,在低维空间中学习更具判别性的自适应张量子空间分类器,在小样本的条件下,提高了宫颈细胞的分类准确度。
Description
技术领域
本发明涉及一种基于自适应张量子空间的小样本宫颈细胞分类方法,属于数字图像处理与医学交叉技术领域。
背景技术
宫颈癌是引起女性疾病死亡的主要原因之一,严重威胁到女性的生命健康。宫颈癌的早发现、早治疗能显著提高宫颈癌的五年生存率。当前最主要的宫颈癌筛查手段是宫颈液基细胞学检查,需要病理医生使用显微镜人工阅片,自动化程度低,整个过程费时费力,极易因为视觉疲劳导致误诊和漏诊。
近几年,深度学习算法逐渐应用到宫颈细胞图像分类任务并实现了自动化阅片。然而深度学习算法依赖于大量训练数据,一旦数据有限,深度学习的应用将变得极具挑战性。在实际的医疗场景中,不仅涉及到病人的隐私,而且每张宫颈细胞图像都需要专业人员注释,因此难以获取大量的宫颈细胞图像数据。同时由于罕见、低发疾病的数据十分稀少,导致宫颈细胞图像数据严重失衡,服从长尾分布,也将影响深度学习模型的泛化能力。另外,来自不同机构的同类样本,由于处理方式和设备型号等差异,导致数据分布存在飘移,使得没有微调的预训练网络部署在新站点难以保证宫颈细胞分类的准确度。因此,需要基于小样本学习算法,解决在极少监督样本的条件下准确分类宫颈细胞,辅助医生进行宫颈细胞分类。
目前基于度量学习的小样本分类算法是使用最广泛的方法,通过学习度量空间,在度量空间中度量样本的相似性。现有的基于度量学习的小样本分类算法如原型网络,首先利用支持集样本计算均值原型,然后通过度量查询集与原型之间的距离分类,进而根据距离分类结果实现对于宫颈细胞的准确分类,然而将其应用到宫颈细胞图像分类任务上还存在以下问题:(1)宫颈细胞图像中存在大量背景干扰,均值原型忽略了样本之间的差异性,对背景噪声非常敏感,导致分类准确度不高;(2)宫颈细胞图像数据的样本非常少,在高维空间中学习分类器,不仅容易引起维度灾难,计算成本显著增大,而且数据稀疏性增加,模型难以训练,高维空间中距离度量等操作可能会失效,难以保证宫颈细胞高准确度分类的要求;(3)现有模型计算复杂度高,导致模型部署时的成本较高,且推理速度较慢,难以满足模型部署时的实际需求。因此需要设计更为先进的基于度量学习的小样本宫颈细胞分类方法。
发明内容
为了解决目前存在的上述问题,在极少监督样本和复杂背景噪声的条件下准确分类宫颈细胞,本发明提供了一种基于自适应张量子空间的小样本宫颈细胞图像分类算法,实现了端到端的小样本宫颈细胞图像分类框架。
本发明一种基于自适应张量子空间的小样本宫颈细胞分类方法,包括以下步骤:
步骤1:将小样本宫颈细胞图像数据集划分为元训练集和元测试集;
步骤2:搭建特征提取器;
步骤3:利用元训练集样本,对特征提取器进行预训练;
步骤4:基于元训练集和元测试集分别构建N-wayK-shot小样本分类任务,每个小样本任务对应一个支持集和一个查询集,其中N表示一个小样本任务中样本总的类别数,K表示每个类别包含的支持集样本个数;
步骤5:基于元训练集上的小样本任务,利用步骤3预训练后的特征提取器提取小样本任务中支持集样本的嵌入特征;
步骤6:基于元训练集中支持集样本的嵌入特征,计算每类样本的加权原型;
步骤7:基于转导学习算法,使用查询集样本扩充支持集,修正原型,得到新的加权原型;
步骤8:利用扩充后的支持集样本的嵌入特征和加权原型构造归一化后的嵌入特征集合,采用多线性主成分分析算法生成每类的低维自适应张量子空间;
步骤9:计算元训练集中查询样本到各自适应张量子空间的距离,根据距离将查询样本分类,计算损失,根据损失的梯度更新特征提取器,训练完成后,保存特征提取器;
步骤10:利用训练完成的特征提取器对待分类的宫颈细胞图像进行分类。
可选的,所述步骤6包括:
6a) 计算各样本和支持集嵌入特征分布的一致程度;
假设第类支持集样本的嵌入特征服从分布/>,去除样本对应的嵌入特征/>后服从新的分布/>,根据下式计算两个分布之间的差异/>:
其中表示高斯核函数,/>表示将数据映射到再生希尔伯特空间;以表示样本/>的嵌入特征/>与支持集嵌入特征分布的一致程度;
6b) 根据每个样本的嵌入特征与支持集嵌入特征分布的一致程度赋予不同的权重/>:
;
6c)计算第类的加权原型:
。
可选的,所述步骤8包括:
8a)构造归一化后的嵌入特征集合:
第类支持集样本的嵌入特征集合为:/>,减去新的加权原型/>构造归一化后的嵌入特征集合:/>,其中:;
8b)采用多线性主成分分析算法将支持集样本嵌入特征从/>的高维张量子空间投影到/>的低维张量子空间中:
其中,/>,投影时要求最大化总张量散度,及优化的目标函数为:/>,采用交替的方法进行求解:
8b-1)定义如下矩阵:,其中/>为/>的模展开矩阵,将/>初始化为/>的/>个特征值对应特征向量组成的矩阵,并计算初始总张量散度/>;
8b-2)初始化迭代变量,并按照/>的顺序对/>进行交替更新:
①计算
其中表示克劳内克内积;
②计算;
③将投影矩阵更新为/>最大的/>个特征值对应特征向量组成的矩阵,每次交替更新完毕后计算总张量散度/>,若/>,则停止迭代并输出此时的投影矩阵/>,其中/>为设定的阈值;否则令/>,继续对/>执行迭代交替更新。
可选的,所述步骤7包括:
7a)计算查询样本的嵌入特征到第/>类原型/>的平方欧氏距离:
7b)取距离最近的/>个查询集样本并赋予相应的伪标签,加入第/>类的支持集中,重新采用最大均值差异算法计算新的加权原型/>。
可选的,所述步骤3包括:
采用交叉熵损失函数在元训练集进行预训练,预训练完成后,移除网络最后一层的全连接层。
可选的,所述步骤4包括:
4a)从元训练集和元测试集中分别随机抽取N个类别,从每个类别中随机抽取K个样本组成支持集,其中/>和/>分别表示第/>个样本和对应的标签;
4b)同时在每个类别剩下的样本中随机抽取Q个样本组成查询集。
可选的,所述步骤5中利用特征提取器提取小样本任务中样本的每类支持集样本嵌入特征记为,其中/>;查询集样本特征记为/>,支持集和查询集样本的嵌入特征的维度为/>,其中/>、/>、/>分别表示特征的通道数、高和宽。
可选的,所述步骤1包括:
1a)将小样本宫颈细胞图像数据集用表示,元训练集用/>表示,元测试集用表示;
1b)将小样本宫颈细胞图像数据集中的一部分划分为元训练集,剩余的一部分为元测试集/>,其中保证/>,/>。
可选的,所述步骤9包括:
9a)将查询集样本的嵌入特征投影到各类子空间:
;
9b)计算查询样本嵌入特征到各子空间的距离为:
;
9c)计算查询样本属于各类别的概率:
;
9d)计算每个任务的损失:
通过损失的梯度更新特征提取器的参数;当所有的小样本任务都处理完毕后,结束学习过程,保存训练好的特征提取器。
可选的,所述步骤10包括:
在元测试阶段,基于训练好的特征提取网络和元测试集的小样本任务,利用元测试集的支持集样本计算加权原型、选取查询集样本修正原型、生成自适应张量子空间,根据查询集样本嵌入特征与各类张量子空间的距离对查询集样本分类,计算所有小样本任务上的平均分类准确度。
本发明的有益技术效果是:
1、本发明针对宫颈细胞图像数据量少,且存在的复杂背景噪声干扰的问题,采用最大均值差异算法为每个支持集样本赋予合适的权重,计算对背景噪声不敏感的加权原型,获得更精确的类表示。并且采用转导学习方法,基于聚类的假设,利用部分查询集样本扩充支持集,引导估计的原型朝着真实原型方向修正,缓解数据量过少对原型估计的不利影响。
2、本发明采用多线性主成分分析算法将每类样本投影到各自的低维张量子空间,既保护张量数据的自然结构,又能增大类别之间的距离,从而在低维空间中学习更具判别性的自适应张量子空间分类器。不仅减少了计算成本,而且提高宫颈细胞的分类准确度。
3、本发明设计的小样本宫颈细胞分类算法将预训练技术和元学习相结合,保证特征提取器能够从训练集上学习到更多的先验知识和更一般的特征表示。预训练技术不仅使特征提取器获得良好的初始化参数,又解决了元训练方式在训练时学习不充分的难题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的整体架构图。
图2为特征提取器的结构图。
图3为投影矩阵的计算步骤流程图。
图4自适应张量子空间分类器的学习步骤流程图。
图5小样本Herlev宫颈细胞图像数据集图像示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本实施例提供一种基于自适应张量子空间的小样本宫颈细胞分类方法,包括:
步骤1:将小样本宫颈细胞图像数据集划分为元训练集和元测试集;
步骤2:搭建特征提取器;
基于卷积神经网络搭建特征提取器,具体采用Conv_64F网络,包含4个由卷积层、批量归一化层和Leaky ReLU激活层组成的卷积块,并且每个卷积块后紧跟一个最大池化层。
步骤3:利用元训练集样本,对特征提取器进行预训练;
步骤4:基于元训练集和元测试集分别构建N-wayK-shot小样本分类任务,每个小样本任务对应一个支持集和一个查询集,其中N表示一个小样本任务中样本总的类别数,K表示每个类别包含的支持集样本个数;
步骤5:基于元训练集上的小样本任务,利用步骤3预训练后的特征提取器提取小样本任务中支持集样本的嵌入特征;
步骤6:基于元训练集中支持集样本的嵌入特征,计算每类样本的加权原型;
具体的,采用最大均值差异算法计算每个样本和支持集嵌入特征分布的一致程度,进而根据各样本嵌入特征与支持集嵌入特征分布的一致程度赋予不同的权重,最后考虑支持集中各个样本嵌入特征/>的权重计算该类的加权原型/>。
采用最大均值差异算法为每个支持集样本赋予合适的权重,计算对背景噪声不敏感的加权原型,获得更精确的类表示。
步骤7:基于转导学习算法,使用查询集样本扩充支持集,修正原型,得到新的加权原型;
采用转导学习方法,基于聚类的假设,利用部分查询集样本扩充支持集,引导估计的原型朝着真实原型方向修正,可以缓解数据量过少对原型估计的不利影响。
步骤8:利用扩充后的支持集样本的嵌入特征和新的加权原型构造归一化后的嵌入特征集合,采用多线性主成分分析算法生成每类的低维自适应张量子空间;
采用多线性主成分分析算法将每类样本投影到各自的低维张量子空间,既保护张量数据的自然结构,又能增大类别之间的距离,从而在低维空间中学习更具判别性的自适应张量子空间分类器。不仅减少了计算成本,而且提高宫颈细胞分分类准确度。
步骤9:计算元训练集中查询样本到各自适应张量子空间的距离,根据距离将查询样本分类,计算损失,根据损失的梯度更新特征提取器,训练完成后,保存特征提取器;
步骤10:利用训练完成的特征提取器对待分类的宫颈细胞图像进行分类。
实施例二
本实施例提供一种基于自适应张量子空间的小样本宫颈细胞分类方法,请参考图1,该方法包含如下步骤:
步骤1,将小样本宫颈细胞图像数据集划分为元训练集和元测试集,具体划分方式为:
1a)将小样本宫颈细胞图像数据集用表示,元训练集用/>表示,元测试集用表示;
1b)将小样本宫颈细胞图像数据集中的一部分划分为元训练集,剩余的一部分为/>,其中保证/>,/>。
步骤2,搭建基于卷积神经网络的特征提取器,网络的结构如图2所示,具体采用Conv_64F网络,包含4个由卷积层、批量归一化层和Leaky ReLU激活层组成的卷积块,并且每个卷积块后紧跟一个最大池化层。
步骤3,利用元训练集样本,采用交叉熵损失函数对特征提取器进行预训练,预训练完成后,移除网络最后一层的全连接层。
步骤4,基于元训练集和元测试集分别构建N-wayK-shot小样本分类任务,具体构建方式为:
4a)从小样本宫颈细胞图像数据集中随机抽取N个类别,从每个类别中随机抽取K个样本组成支持集,其中/>和/>分别表示第/>个样本和对应的标签;每个样本为一张宫颈细胞图像,对应的标签即表明该宫颈细胞图像所属的分类。
4b)同时在每个类别剩下的样本中随机抽取个样本组成查询集,因此每个小样本分类任务包含/>个样本。
步骤5,基于元训练集上的小样本任务,利用特征提取器提取小样本任务中支持集样本的嵌入特征,具体的,小样本任务中每类支持集样本嵌入特征表示为,其中表示第c个类别中的第i个样本,/>;查询集样本特征表示为/>,支持集和查询集样本的嵌入特征的维度为/>,/>、/>、/>分别表示特征图的通道数、高和宽。
步骤6,基于元训练集中支持集样本的嵌入特征,采用最大均值差异算法计算加权原型,具体步骤为:
6a) 计算各样本和支持集嵌入特征分布的一致程度;
按照的顺序计算每类的加权原型,假设第/>类支持集样本的嵌入特征服从分布/>,去除其中一个嵌入特征/>后服从新的分布/>,则两个分布之间的差异可以表示为:
其中表示高斯核函数,/>表示将数据映射到再生希尔伯特空间,/>表示样本/>对应的嵌入特征;两个分布之间的差异/>越小,则样本/>对应的嵌入特征/>与所属支持集嵌入特征的分布越一致,反之/>越大,/>越偏离所属支持集嵌入特征的分布;以/>表示样本/>的嵌入特征/>与支持集嵌入特征分布的一致程度。
6b) 根据每个样本嵌入特征与支持集嵌入特征分布的一致程度赋予不同的权重/>:
6c)计算第类的加权原型:
如此,得到每类样本的加权原型。
步骤7,基于转导学习算法,使用查询集样本扩充支持集,修正每类样本的加权原型,得到新的加权原型,具体方法为:
7a)计算查询样本的嵌入特征到第/>类原型/>的平方欧氏距离:
7b)基于聚类假设,距离越近,查询样本属于该类的可能性越大,因此取距离/>最近的/>个查询集样本并赋予相应的伪标签,加入该类的支持集中,重新采用最大均值差异算法计算新的加权原型/>:
步骤8,利用支持集样本的嵌入特征和新的加权原型构造归一化后的嵌入特征集合,采用多线性主成分分析算法生成每类的低维自适应张量子空间;
8a)构造归一化后的嵌入特征集合:
第类支持集样本的嵌入特征集合为:/>,减去新的加权原型/>构造归一化后的嵌入特征集合:/>,其中:;
8b)采用多线性主成分分析算法将支持集样本嵌入特征从/>的高维张量子空间投影到/>的低维张量子空间中,如图3所示,具体方式为:
采用多线性主成分分析算法将支持集样本嵌入特征从/>的高维张量子空间投影到/>的低维张量子空间中:/>,其中,/>,投影时要求最大化总张量散度/>,及优化的目标函数为:/>,由于目前没有方法能够同时优化所有投影矩阵,采用交替的方法进行求解:
8b-1)定义如下矩阵:,其中/>为/>的模展开矩阵,将/>初始化为/>的/>个特征值对应特征向量组成的矩阵,并计算初始总张量散度/>;
8b-2)初始化迭代变量,并按照/>的顺序对/>进行交替更新:
①计算
其中表示克劳内克内积;
②计算;
③将投影矩阵更新为/>最大的/>个特征值对应特征向量组成的矩阵。每次交替更新完毕后计算总张量散度/>,若/>,则停止迭代并输出此时的投影矩阵/>,其中/>为设定的阈值;否则令/>,继续对/>执行迭代交替更新。
步骤9,计算元训练集中查询样本到各自适应张量子空间的距离,根据距离将查询样本分类,计算损失,根据损失的梯度更新特征提取器,训练完成后,保存特征提取器,具体方式为:
9a)将查询集样本的嵌入特征投影到各类子空间:
9b)计算查询样本嵌入特征到各子空间的距离为:
9c)计算查询样本属于各类别的概率:
9d)计算每个任务的损失:
通过损失的梯度更新特征提取器的参数;当所有的小样本任务都处理完毕后,结束学习过程,保存训练好的特征提取器,自适应张量子空间分类器的学习步骤如图4所示。
后续利用训练好的特征提取器对待分类的宫颈细胞图像进行分类。
为了衡量本申请方法分类准确度,该方法进一步基于元测试集上的小样本任务,利用训练好的特征提取网络,同元训练集的处理方式一样,计算加权原型、选取查询集样本修正原型、生成自适应张量子空间,并对查询样本分类,计算平均分类准确度。
本方法的效果可以通过以下仿真实验进一步说明:
1、实验条件与方法
1)硬件条件:
①CPU:两块Inter(R) Xeon(R) Silver 4210R CPU@2.40GHz 128G;
②GPU:NVIDIA Geforce RTX 3090 24G。
2)软件环境:
①编程语言:Python 3.8;
②深度学习框架:Pytorch 1.9.0。
3)实验方法:
①ProtoNet
②DSN
③RelationNet
④RegressionNet
⑤DN4
⑥Meta DeepBDC
⑦MML
⑧本发明方法
4)数据集
Herlev小样本宫颈细胞图像数据集,如图5所示。
5)小样本分类任务:
①2-wayK-shot任务,即支持集中包含2个类别,每个类别包含K张图像,其中K取3,5,10;
②3-way K-shot任务,即支持集中包含3个类别,每个类别包含K张图像,其中K取3,5,10。
6)评价指标
计算元测试集上所有小样本任务的平均分类准确度,并给出=95% 的置信区间。
2、仿真内容和结果
本发明方法的特征提取网络选择Conv64F,输入图像被缩放到。对与元训练集,将图像每90度随机旋转生成新类别。
在预训练阶段,选取Adam优化器和交叉熵损失函数,特征提取器在元训练集上预训练15个回合,预训练结束后,去除特征提取器的最后一层全连接层。
在训练过程中,通过大量小样本任务训练特征提取器,从元训练集上构造5000个小样本任务。在每个小样本任务中,随机抽取N(N=2,3)个类别,每个类别中随机抽取K(K=3,5,10)张支持集图像,从每类剩余图像中随机抽取Q(Q=15)张图像组成查询集。采用Adam优化算法,初始学习率设置为0.0001,每隔2000个小样本任务学习率减半。
测试的过程中,在元测试集上随机采样400个小样本任务,计算平均准确度,该过程重复10次,取10次结果的平均值作为最终的测试结果,并给出95%置信区间。本发明的方法采用端到端方式从头开始训练,不需要在测试阶段微调。
不同方法在Herlev小样本宫颈细胞图像数据集上的分类结果见表1,表中的加粗数字表示最佳和次佳结果。表中的所有方法都是基于度量学习的经典方法。其中ProtoNet是本发明方法的基线模型,利用支持集样本计算均值原型,然后通过度量查询集与原型之间的距离分类。RelationNet将支持集样本嵌入特征求和并与查询样本的嵌入特征融合,并利用神经网络计算相似度得分。DN4采用基于局部描述符的图像到类度量替换基于图像级特征的度量。Meta DeepBDC通过度量嵌入特征的联合特征函数和边缘乘积之间的差异来学习图像表示。MML是一种多级度量学习方法,不仅计算像素级相似度,还考虑部分级特征和全局级特征的相似度。但是以上这些方法在计算类的表示时都未考虑到样本之间差异性,易受背景噪声干扰。尽管DSN方法采用子空间分类器,但是采用奇异值分解降维,将张量先展开成向量,破环了图像数据的空间结构。因此本发明方法考虑到以上方法的不足之处,针对样本之间的差异性和背景噪声,计算加权原型,同时采用多线性主成分分析对张量特征降维,学习自适应子空间分类器,保护了张量数据的空间结构。从表1中的实验结果可以看出,无论2-way和3-way任务,本发明方法在三个数据集上的分类准确度都是最高的,表明本发明方法的分类性能最好,能够有效改善小样本条件下的宫颈细胞分类精度。
表1 不同方法在Herlev小样本宫颈细胞图像数据集上的结果比较
为了更直观的展示本文方法的先进性,与目前最先进的小样本宫颈细胞分类算法PT-MAP是进行比较,结果见表2。PT-MAP采用双编码结构,分别用于提取通用特征和特定特征,并引入先验引导变分自动编码器模型增加目标特征的鲁棒性。为了公平比较,PT-MAP方法只使用小样本Herlev宫颈细胞图像数据集的元训练集训练通用特征提取分支网络。除了在3-way 10-shot的情况下比PT-MAP方法略低0.53个百分点,其他情况下都处于领先的位置。由于PT-MAP方法一对WRN-28-10作为特征提取网络,并且采用双路并行的结构,远比本发明方法采用的Conv_64F复杂,参数量更多。因此本发明方法不仅分类准确度高,而且模型更加轻量化。
表2 本发明方法与PT-MAP方法的比较结果
本发明提供了一种基于自适应张量子空间的小样本宫颈细胞图像分类算法,将预训练和元学习结合,并通过计算加权原型和学习自适应张量子空间分类器,提高了结果的正确率,只需基于极少标注的宫颈细胞图像数据,构建了一个小样本宫颈细胞图像进行分类的分类模型,可对为标注的宫颈细胞图像进行分类,有利于减轻病理医生的阅片负担,比现有的小样本分类方法精度高,可有效的减少病理医生对宫颈细胞分类的工作强度,适合在工程实践当中应用,具有广阔的应用价值与市场前景。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于自适应张量子空间的小样本宫颈细胞分类方法,其特征在于,包括以下步骤:
步骤1:将小样本宫颈细胞图像数据集划分为元训练集和元测试集;
步骤2:搭建特征提取器;
步骤3:利用元训练集样本,对特征提取器进行预训练;
步骤4:基于元训练集和元测试集分别构建N-way K-shot小样本分类任务,每个小样本任务对应一个支持集和一个查询集,其中N表示一个小样本任务中样本总的类别数,K表示每个类别包含的支持集样本个数;
步骤5:基于元训练集上的小样本任务,利用步骤3预训练后的特征提取器提取小样本任务中支持集样本的嵌入特征;
步骤6:基于元训练集中支持集样本的嵌入特征,计算每类样本的加权原型;
步骤7:基于转导学习算法,使用查询集样本扩充支持集,修正原型,得到新的加权原型;
步骤8:利用扩充后的支持集样本的嵌入特征和加权原型构造归一化后的嵌入特征集合,采用多线性主成分分析算法生成每类的低维自适应张量子空间;
步骤9:计算元训练集中查询样本到各自适应张量子空间的距离,根据距离将查询样本分类,计算损失,根据损失的梯度更新特征提取器,训练完成后,保存特征提取器;
步骤10:利用训练完成的特征提取器对待分类的宫颈细胞图像进行分类。
2.根据权利要求1所述的方法,其特征在于,所述步骤6包括:
6a) 计算各样本和支持集嵌入特征分布的一致程度;
假设第类支持集样本的嵌入特征服从分布/>,去除样本对应的嵌入特征/>后服从新的分布/>,根据下式计算两个分布之间的差异/>:
其中表示高斯核函数,/>表示将数据映射到再生希尔伯特空间;以/>表示样本/>的嵌入特征/>与支持集嵌入特征分布的一致程度;
6b) 根据每个样本的嵌入特征与支持集嵌入特征分布的一致程度赋予不同的权重/>:
;
6c)计算第类的加权原型:
。
3.根据权利要求1所述的方法,其特征在于,所述步骤8包括:
8a)构造归一化后的嵌入特征集合:
第类支持集样本的嵌入特征集合为:/>,减去新的加权原型/>构造归一化后的嵌入特征集合:/>,其中:;
8b)采用多线性主成分分析算法将支持集样本嵌入特征从/>的高维张量子空间投影到/>的低维张量子空间中:
其中,/>,投影时要求最大化总张量散度/>,及优化的目标函数为:/>,采用交替的方法进行求解:
8b-1)定义如下矩阵:,其中/>为/>的/>模展开矩阵,将/>初始化为/>的/>个特征值对应特征向量组成的矩阵,并计算初始总张量散度/>;
8b-2)初始化迭代变量,并按照/>的顺序对/>进行交替更新:
①计算
其中表示克劳内克内积;
②计算;
③将投影矩阵更新为/>最大的/>个特征值对应特征向量组成的矩阵,每次/>交替更新完毕后计算总张量散度/>,若/>,则停止迭代并输出此时的投影矩阵/>,其中/>为设定的阈值;否则令/>,继续对/>执行迭代交替更新。
4.根据权利要求1所述的方法,其特征在于,所述步骤7包括:
7a)计算查询样本的嵌入特征到第/>类原型/>的平方欧氏距离:
7b)取距离最近的/>个查询集样本并赋予相应的伪标签,加入第/>类的支持集中,重新采用最大均值差异算法计算新的加权原型/>。
5.根据权利要求1所述的方法,其特征在于,所述步骤3包括:
采用交叉熵损失函数在元训练集进行预训练,预训练完成后,移除网络最后一层的全连接层。
6.根据权利要求1所述的方法,其特征在于,所述步骤4包括:
4a)从元训练集和元测试集中分别随机抽取N个类别,从每个类别中随机抽取K个样本组成支持集,其中/>和/>分别表示第/>个样本和对应的标签;
4b)同时在每个类别剩下的样本中随机抽取Q个样本组成查询集。
7.根据权利要求1所述的方法,其特征在于,所述步骤5中利用特征提取器提取小样本任务中样本的每类支持集样本嵌入特征记为,其中/>;查询集样本特征记为/>,支持集和查询集样本的嵌入特征的维度为/>,其中/>、/>、/>分别表示特征的通道数、高和宽。
8.根据权利要求1所述的方法,其特征在于,所述步骤1包括:
1a)将小样本宫颈细胞图像数据集用表示,元训练集用/>表示,元测试集用/>表示;
1b)将小样本宫颈细胞图像数据集中的一部分划分为元训练集,剩余的一部分为元测试集/>,其中保证/>,/>。
9.根据权利要求1所述的方法,其特征在于,所述步骤9包括:
9a)将查询集样本的嵌入特征投影到各类子空间:
;
9b)计算查询样本嵌入特征到各子空间的距离为:
;
9c)计算查询样本属于各类别的概率:
;
9d)计算每个任务的损失:
通过损失的梯度更新特征提取器的参数;当所有的小样本任务都处理完毕后,结束学习过程,保存训练好的特征提取器。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于元测试集上的小样本任务,利用训练好的特征提取网络,同元训练集的处理方式一样,计算加权原型和生成自适应张量子空间,并对查询样本分类,计算平均分类准确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311550522.4A CN117671673B (zh) | 2023-11-21 | 2023-11-21 | 一种基于自适应张量子空间的小样本宫颈细胞分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311550522.4A CN117671673B (zh) | 2023-11-21 | 2023-11-21 | 一种基于自适应张量子空间的小样本宫颈细胞分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117671673A true CN117671673A (zh) | 2024-03-08 |
CN117671673B CN117671673B (zh) | 2024-05-28 |
Family
ID=90085504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311550522.4A Active CN117671673B (zh) | 2023-11-21 | 2023-11-21 | 一种基于自适应张量子空间的小样本宫颈细胞分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671673B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321926A (zh) * | 2019-05-24 | 2019-10-11 | 北京理工大学 | 一种基于深度残差修正网络的迁移方法及系统 |
CN110334618A (zh) * | 2019-06-21 | 2019-10-15 | 河海大学 | 基于稀疏张量局部Fisher判别分析算法的人体行为识别方法 |
CN112559582A (zh) * | 2020-10-21 | 2021-03-26 | 北京航空航天大学 | 一种基于样本对关系传播的小样本学习方法和装置 |
CN113705869A (zh) * | 2021-08-17 | 2021-11-26 | 东南大学 | 无监督元学习网络的机电设备少样本退化趋势预测方法 |
WO2022041678A1 (zh) * | 2020-08-30 | 2022-03-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 张量协作图判别分析遥感图像特征提取方法 |
CN114842267A (zh) * | 2022-05-23 | 2022-08-02 | 南京邮电大学 | 基于标签噪声域自适应的图像分类方法及系统 |
CN114898136A (zh) * | 2022-03-14 | 2022-08-12 | 武汉理工大学 | 一种基于特征自适应的小样本图像分类方法 |
CN116612335A (zh) * | 2023-07-18 | 2023-08-18 | 贵州大学 | 一种基于对比学习的少样本细粒度图像分类方法 |
-
2023
- 2023-11-21 CN CN202311550522.4A patent/CN117671673B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321926A (zh) * | 2019-05-24 | 2019-10-11 | 北京理工大学 | 一种基于深度残差修正网络的迁移方法及系统 |
CN110334618A (zh) * | 2019-06-21 | 2019-10-15 | 河海大学 | 基于稀疏张量局部Fisher判别分析算法的人体行为识别方法 |
WO2022041678A1 (zh) * | 2020-08-30 | 2022-03-03 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 张量协作图判别分析遥感图像特征提取方法 |
CN112559582A (zh) * | 2020-10-21 | 2021-03-26 | 北京航空航天大学 | 一种基于样本对关系传播的小样本学习方法和装置 |
CN113705869A (zh) * | 2021-08-17 | 2021-11-26 | 东南大学 | 无监督元学习网络的机电设备少样本退化趋势预测方法 |
CN114898136A (zh) * | 2022-03-14 | 2022-08-12 | 武汉理工大学 | 一种基于特征自适应的小样本图像分类方法 |
CN114842267A (zh) * | 2022-05-23 | 2022-08-02 | 南京邮电大学 | 基于标签噪声域自适应的图像分类方法及系统 |
CN116612335A (zh) * | 2023-07-18 | 2023-08-18 | 贵州大学 | 一种基于对比学习的少样本细粒度图像分类方法 |
Non-Patent Citations (1)
Title |
---|
赵鹏;王美玉;纪霞;刘慧婷;: "基于张量表示的域适配的迁移学习中特征表示方法", 电子学报, no. 02, 15 February 2020 (2020-02-15), pages 153 - 162 * |
Also Published As
Publication number | Publication date |
---|---|
CN117671673B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11501192B2 (en) | Systems and methods for Bayesian optimization using non-linear mapping of input | |
CN106951825B (zh) | 一种人脸图像质量评估系统以及实现方法 | |
Zhou et al. | Automatic radar waveform recognition based on deep convolutional denoising auto-encoders | |
WO2020228525A1 (zh) | 地点识别及其模型训练的方法和装置以及电子设备 | |
CN110348399B (zh) | 基于原型学习机制和多维残差网络的高光谱智能分类方法 | |
CN114582470B (zh) | 一种模型的训练方法、训练装置及医学影像报告标注方法 | |
CN112560710B (zh) | 一种用于构建指静脉识别系统的方法及指静脉识别系统 | |
CN114842238B (zh) | 一种嵌入式乳腺超声影像的识别方法 | |
CN110880010A (zh) | 基于卷积神经网络的视觉slam闭环检测算法 | |
CN110889865A (zh) | 一种基于局部加权稀疏特征选择的视频目标跟踪方法 | |
CN112132257A (zh) | 基于金字塔池化及长期记忆结构的神经网络模型训练方法 | |
Tsai et al. | Machine learning based common radiologist-level pneumonia detection on chest X-rays | |
Barlaud et al. | Learning a sparse generative non-parametric supervised autoencoder | |
CN108280485B (zh) | 一种基于谱图小波描述子的非刚性三维模型检索方法 | |
Firouznia et al. | Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking | |
CN109948662B (zh) | 一种基于K-means和MMD的人脸图像深度聚类方法 | |
CN113744209A (zh) | 基于多尺度残差U-net网络的心脏分割方法 | |
CN110414562B (zh) | X光片的分类方法、装置、终端及存储介质 | |
Gaston et al. | Matching larger image areas for unconstrained face identification | |
CN117671673B (zh) | 一种基于自适应张量子空间的小样本宫颈细胞分类方法 | |
CN108416389B (zh) | 基于降噪稀疏自动编码器和密度空间采样的图像分类方法 | |
CN111079715B (zh) | 一种基于双字典学习的遮挡鲁棒性人脸对齐方法 | |
CN108304546B (zh) | 一种基于内容相似度和Softmax分类器的医学图像检索方法 | |
Rezaei et al. | Joint Debiased Representation Learning and Imbalanced Data Clustering | |
CN112241680A (zh) | 基于静脉相似图像知识迁移网络的多模态身份认证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |