CN116778268A

CN116778268A - 一种适用于医学影像目标分类的样本选择偏差缓解方法

Info

Publication number: CN116778268A
Application number: CN202310437022.3A
Authority: CN
Inventors: 张云飞; 蔡占毅; 钱靖; 陆峦华; 于新桃
Original assignee: Jiangsu Jiyuan Medical Technology Co ltd
Current assignee: Jiangsu Jiyuan Medical Technology Co ltd
Priority date: 2023-04-20
Filing date: 2023-04-20
Publication date: 2023-09-19

Abstract

本发明公开了一种适用于医学影像目标分类的样本选择偏差缓解方法，在小样本图像分类基础上，研究通过特征变换解决小样本任务中新类数据偏移问题，构建新集样本特征变换网络模型。新类和基类共享特征提取方式，利用新类样本特征向特定的方向偏斜、接近于特定基类样本特征方向的特点，以特定基类特征的平均作为任务质心，新类移除它们在任务质心方向的投影，从而增加新类样本特征的数据差异，提高新类特征的辨识度。本发明对小样本学习样本选择偏差问题的理论研究、小样本学习在医学影像目标分类的广泛应用具有重要的意义。同时，对我国突破小样本学习实现跨域理论瓶颈起到重要推动作用。

Description

一种适用于医学影像目标分类的样本选择偏差缓解方法

技术领域

本发明涉及计算机图像分类领域，具体为一种适用于医学影像目标分类的样本选择偏差缓解方法。

背景技术

医学影像分类是计算机辅助诊断中的一个重要课题，其目的是利用计算机进行计算，以帮助提高诊断的正确性。医学影像的分类因其专业领域的特殊性，面临着如下两大难题。首先，收集真正有价值的医学影像数据集是一项非常昂贵的工作,如何在样本量稀少的情况下能够快速地泛化到没有见过的分类任务当中，这是困扰医学影像目标分类任务的瓶颈问题。其次，医学影像中含有大量的病理信息和模态信息，要了解这些专业的信息必须要有领域知识，单凭视觉的相似度判别无法准确地进行分类，从而产生了类内差异性和类间相似性问题。

小样本学习是在训练集样本很少的条件下，完成相应的学习任务，期望在学习大量的基类后，只需少量样本就可以迅速学习掌握新类。通常小样本学习可以使用少量样本进行学习。

在计算机视觉和人工智能领域，小样本图像分类是一个迫切需要解决的问题。目前已有的大量样本数据的分类方法是依靠样本数量，而实际的样本量不够，例如军事、医疗、工业、天文行业，这些数据的收集往往会耗费大量的人力、物力代价，难以进行大量的数据采集。因此，对小样本图像分类进行研究是一项非常有意义的工作。

在目前的技术中，基于深度度量的分类方法主要是通过对样本和类原型之间的距离进行比较来判别类别。通常将数据增强和迁移学习相结合，以弥补数据量不够和模型过拟合，这些方法对许多小样本分类具有良好的效果，但是与多样本的图像分类方法相比，目前的小样本图像分类效果并不理想。现有的小样本分类方法没有很好地解决样本的选择偏差问题。

发明内容

本发明的目的在于提供一种适用于医学影像目标分类的样本选择偏差缓解方法技术，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种适用于医学影像目标分类的样本选择偏差缓解方法，包括以下步骤：

S1，准备数据集，预训练图像得到特征提取器，用于提取图像特征，此处采用ResNet-18作为特征提取器，借助迁移学习的思想，利用基集训练特征提取器，用Baseline++等方法进行分类，再将新集送进特征提取器，得到新集的样本特征；

S2，对新集样本特征进行变换，构建新集样本特征变换网络模型；

S3，利用新集样本特征变换网络模型对查询集图像进行分类。

其中，所述步骤S1包括：

S11，基集为D_b，将基集样本分为/>和/>这两个数据集类别互斥，将D_train作为基集的训练模型，D_test作为新集对模型测试；

S12，对于N-way K-shot分类任务，分别对特定的医学影像数据集D_train随机选出N个类别，每个类别中随机挑出A个样本，其中K个样本作为支持样本S_i，其余A-K个样本用作查询集Q_i，S_i和Q_i组成一个任务T_i，并且对于D_test有任务目的是划分出训练和测试所需支持集和查询集；

S13，利用基集预训练特征提取器f_θ，f_θ采用ResNet-18结构，将所有的支持样本输入参数固定的特征提取器f_θ中，得到对应的支持样本特征f_θ(S_ck)。

其中，所述步骤S2构建新集样本特征变换网络模型，这个网络模型包括，基集样本选择模块，任务质心计算模块，投影特征移除模块；

其中，所述步骤S3构建的新集样本特征变换网络模型包括：

S31，取所有支持集样本特征的平均因为基集和新集之间域转移了，导致新集分布向某些特定方向转移，发现新集样本的方向接近一些特定的基类样本倾斜方向，因此找出确定的基集特定样本以近似任务质心，并以所有支持集样本的特征的平均作为参考。计算公式为：

在n-way K-shot任务，给定新集规范化特征x_n∈S,||x_n||＝1,i∈[1,2,...,N×K]，计算S所有样本特征的平均值。

S32，依据与/>的余弦相似度在基类样本中寻找k个最合适的样本,D_cosine是计算余弦相似度，D_topK即包含基类中余弦相似度最接近的前k个样本,计算公式为：

其中，符号D_cosine表示两个向量之间的余弦距离，而D_topK是选择余弦相似度最接近的前k个样本。

S33，基于余弦相似度，加权聚合来近似任务质心，计算公式为：

其中，p是控制基样本相对权值的超参数。方程4中的p被设为0.5。

S34，近似任务质心c_task,计算公式为：

其中，符号L2表示L2的归一化。c_task比更好，因为/>很容易在支持集数据上过拟合，远不能代表新集的真正质心，新集在一定方向上倾向于相关的有限的基集样本方向，所以从基集中前k个相似样本外推任务质心更精确。

S35，为了减少在任务质心附近的新集所造成的抽样偏差，对在支持集和查询集的所有新类样本，经过去除它们的特征在任务质心的投影，缓解样本选择偏差，对此使用一种特征变换以提取到近似任务质心的投影，在去除沿着任务方向的特征分量后，将新类的分布推离近似的质心，计算出差异性更大的新的新类样本,计算公式为：

其中x_n∈S∪Q。

其中，所述步骤S4包括：

S41，测试过程，每个任务由支持集/>和查询集/>组成，测试集的查询集/>输入到特征提取器f_θ，得到特征。

S42，用支持集样本训练一个新的线性分类器f_w，设ω＝[ω₁,ω₂,...,ω_N]∈R^d×N为分类器的可学习参数，其中d为所提取特征的维数。我们对每个类c的权值向量进行归一化，其中||ω_n＝1||,n∈[1,2,...,N]，以消除特征向量的大小的影响。一个样本x属于c类的概率可以表示为：

其中，β是一个可缩放的超参数。在支持集上训练后，权值向量[ω₁,ω₂,...,ω_N]可以看作是新类的原型，用于预测查询集q中的样本。

S43，特征送入度量模块中，计算出查询样本与所有支持样本之间的余弦距离。

S44，查询样本的预测类别取距离最小的支持样本类别。

与现有技术比，本发明达到的有益效果是：

一般的小样本学习先在基集上进行预训练，得到特征提取网络，再利用支持集训练softmax分类器，它更新了softmax的参数，少量更新之前的卷积网络，提高了分类准确度，但还是不够，它对之前的卷积网络影响不大，所以特征提取部分的网络还是按照基集的域训练的，用基集的域特征提取器提取目标域的特征，结果精度低。通过把基集的域与查询集的域联系在一起，能够提高泛化能力，则从数据集特征的尺度上根本解决小样本的跨域问题。

经实验，新类的数据与基类中某些类的样本数据有共同的特定方向的偏斜，新类中的所有类的样本数据越靠近质心，会更容易造成错误的分界，因为这些样本在某个维度上的共同点多，所以去除了这些靠近质心的样本点在特定维度上的起着扰乱分辨的共同点，则样本间的差异性大，精度高。样本经过特征提取网络后变为了向量形式的特征，移除了这些特征在都靠近质心的某个方向上共同分向量。经实验验证此方法有效。本发明对小样本学习样本偏差问题的理论研究、推动小样本精确分类技术在医学影像目标分类的广泛应用具有非常重要的意义。

附图说明

图1为小样本图像分类流程；

图2为本发明实施例提供的一种适用于医学影像目标分类的样本选择偏差缓解方法流程图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容，下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

参照图1和2的一种适用于医学影像目标分类的样本选择偏差缓解方法，包括以下步骤：

其中，所述步骤S1包括：

其中，所述步骤S3构建的新集样本特征变换网络模型包括：

S34，近似任务质心c_task,计算公式为：

其中x_n∈S∪Q。

其中，所述步骤S4包括：

S44，查询样本的预测类别取距离最小的支持样本类别。

为了测试本发明提出方法有效性，本发明在3个公开的医学图像数据集上进行验证，分别是NCT-CRC-HE-100K数据集(PATHOLOGY)，NIH-ChestXray14数据集(CHEST)和PBC数据集(BLOOD)。对其随机采样并重建了三个轻量级子集。

PATHOLOGY来自NCT-CRC-HE-100K数据集。这是一组100,000个不重叠的图像斑块，提取自86张HE染色的人类癌症组织切片和正常组织中提取的一组非重叠图像块，图像分辨率为64*64，它们来自NCT生物库(国家肿瘤疾病中心)和UMM病理档案(曼海姆大学医学中心)。它是由病理学家创建的，通过手动将整个幻灯片图像中的组织区域划分为以下九个组织类别：脂肪(ADI)、背景(BACK)、碎片(DEB)、淋巴细胞(LYM)、粘液(MUC)、平滑肌(MUS)、正常结肠粘膜(NORM)、癌症相关基质(STR)、结直肠腺癌上皮(TUM)。本发明使用其中三个作为新数据集，其余六个作为基础数据集。

CHEST来源于NIH-ChestXray14数据集，NIH ChestXRay14包含超过100,000张标有14种病症的胸部X光片，图像分辨率为64*64，也可用224*224的大小。选择数量最少的三种疾病作为新数据集，随机选取其他类别图像作为基础数据集。

BLOOD来源于PBC数据集，该数据集总共包含单个正常细胞的17,092张图像，这些图像是使用分析仪在巴塞罗那医院诊所的核心实验室中的分析仪获取的。该数据集在以下八组中进行组织：中性粒细胞，嗜酸性粒细胞，嗜碱性粒细胞，淋巴细胞，单核细胞，未成熟的粒细胞(早幼粒细胞、骨髓细胞和超幼粒细胞)，红细胞和血红素和血小板粒细胞或血栓细胞。图像的大小为360*363像素，格式为JPG，并由专家注释。这些图像是从没有感染血液学或肿瘤疾病的个体中捕获的，在收集血液时没有任何药理治疗。选择其中三种作为新数据集，其余五种作为基础数据集。

对于三个医学数据集，从每个类中随机选择1或5张图像作为训练样本，其余15张图像作为测试样本。更具体地说，构建了3-way K-shot(K＝{1,5})任务。最后，得到95％置信区间的平均准确度。

其中分类准确率acc是实验中正确分类的样本数与总样本数的比值。

将提出的方法与最先进的方法进行比较,表1,2,3分别是PATHOLOGY、CHEST、BLOOD三个数据集上的对比结果。

表1:PATHOLOGY数据集上的对比结果

方法/Acc(％)	1-shot	5-shot
			MAML	56.45	74.16
MAML+本发明	58.72	76.39
			Baseline++	61.89	79.97
Baseline+++本发明	63.75	80.58
			ProtoNet	60.03	79.30
ProtoNet+本发明	62.82	80.36

表2:CHEST数据集上的对比结果

方法/Acc(％)	1-shot	5-shot
			MAML	39.96	46.83
MAML+本发明	41.72	47.92
			Baseline++	42.92	50.39
Baseline+++本发明	43.39	50.89
			ProtoNet	38.42	46.43
ProtoNet+本发明	39.92	46.88

表3:BLOOD数据集上的对比结果

方法/Acc(％)	1-shot	5-shot
			MAML	54.28	56.54
MAML+本发明	56.29	57.38
			Baseline++	60.23	63.27
Baseline+++本发明	63.16	65.49
			ProtoNet	57.40	71.60
ProtoNet+本发明	65.26	73.13

本发明公开了一种适用于医学影像目标分类的样本选择偏差缓解方法，在小样本图像分类基础上，研究通过特征变换解决小样本任务中新类数据偏移问题，构建新集样本特征变换网络模型，以特定基类特征的平均作为任务质心，新类移除它们在任务质心方向的投影，从而增加新类样本特征的数据差异，提高新类特征的辨识度。本发明对小样本学习样本选择偏差问题的理论研究、小样本学习在医学影像目标分类的广泛应用具有非常重要的意义。同时，对我国突破小样本学习实现跨域理论瓶颈起到重要推动作用。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种适用于医学影像目标分类的样本选择偏差缓解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法，其特征在于，步骤S1包括：

S11，基集为D_b，将基集样本分为/>和这两个数据集类别互斥，将D_train作为基集的训练模型，D_test作为新集对模型测试；

S12，对于N-way K-shot分类任务，分别对特定的医学影像数据集D_train随机选出N个类别，每个类别里随机挑出A个样本，其中K个样本作为支持样本S_i，其余的A-K个样本用作查询集Q_i，S_i和Q_i组成一个任务T_i，并且对于D_test有任务目的是划分出训练和测试所需支持集和查询集；

3.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法，其特征在于，步骤S2构建新集样本特征变换网络模型，这个网络模型包括，基集样本选择模块，任务质心计算模块，投影特征移除模块。

4.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法，其特征在于，步骤S3构建的新集样本特征变换网络模型包括：

S31，取所有支持集样本特征的平均

S32，依据与/>的余弦相似度在基类样本中寻找k个最合适的样本,D_cosine即余弦相似度，D_topK即包含基类中余弦相似度最接近的前k个样本。

S33，基于余弦相似度，加权聚合来近似任务质心；

S34，近似任务质心c_task；

S35，对在支持集和查询集的所有新类样本，经过移除它们的特征在任务质心的投影，缓解样本选择偏差，对此使用一种特征变换以提取到近似任务质心的投影。

5.根据权利要求1所述的一种适用于医学影像目标分类的样本选择偏差缓解方法，其特征在于，步骤S31的计算公式是：

6.根据权利要求4所述的一种适用于医学影像目标分类的样本选择偏差缓解方法，其特征在于，步骤S32计算公式为：

7.根据权利要求4所述的基于新类样本特征变换的样本选择偏差缓解方法，其特征在于，步骤S33计算公式如下：

其中，p是控制基样本相对权值的超参数，方程4中的p被设为0.5。

8.根据权利要求4所述的基于新类样本特征变换的样本选择偏差缓解方法，其特征在于，步骤S34计算公式如下：

其中，符号L₂表示L₂的归一化。

9.根据权利要求4所述的基于新类样本特征变换的样本选择偏差缓解方法，其特征在于，步骤S35计算公式为：

其中x_n∈S∪Q。

10.根据权利要求1所述的基于新类样本特征变换的样本选择偏差缓解方法，其特征在于，包括测试步骤S4：

S41，测试过程，每个任务由支持集/>和查询集/>组成，测试集的查询集/>输入到特征提取器f_θ；

S42，用支持集样本训练一个新的线性分类器f_w，设ω＝[ω₁,ω₂,...,ω_N]∈R^d×N为分类器的可学习参数，其中d为所提取特征的维数。对每个类n的权值向量进行归一化，其中||ω_n＝1||,n∈[1,2,...,N]，以消除特征向量的大小的影响。一个样本x属于n类的概率可以表示为：

其中，β是一个可缩放的超参数。在支持集上训练后，权值向量[ω₁,ω₂,...,ω_N]可以看作是新类的原型，用于预测查询集q中的样本；

S43，特征送入度量模块中，计算出查询样本与所有支持样本之间的余弦距离；

S44，查询样本的预测类别取距离最小的支持样本类别。