CN112102330A

CN112102330A - 基于类别均衡小样本学习的新冠肺炎感染区域分割方法

Info

Publication number: CN112102330A
Application number: CN202010804398.XA
Authority: CN
Inventors: 汪晓妍; 袁逸雯; 郭东岩; 黄晓洁; 夏明�; 白琮
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2020-12-18

Abstract

一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法，采用迭代模型，使用标记数据训练一个有监督模型，再使用该模型对无标签数据进行预测，得出预测概率，通过预测概率筛选高置信度样本，再使用有标记数据以及伪标签数据训练新模型，重复以上步骤直至模型效果不出现提升，完成迭代任务。对于多类别分割任务，针对所获得的数据集中存在的类别不均衡现象，本发明提出了一种根据类别像素权重进行重加权的类别均衡方法，通过对不同类别加权，使占比较少的类别增加权重，占比较多的类别相应减少权重，以达到类别均衡的效果。

Description

基于类别均衡小样本学习的新冠肺炎感染区域分割方法

技术领域

本发明涉及计算机视觉人工智能技术领域，特别涉及一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法。

技术背景

2019年新冠肺炎(COVID-19)在世界各地爆发，人工智能技术在对抗COVID-19的斗争中起着至关重要的作用。近年来随着人工智能技术的逐步深入，图像分割技术有了突飞猛进的发展。疫情期间新冠肺炎影像相关的人工智能产品在提升医护人员的工作效率，降低工作强度，提供确诊手段等多方面发挥了不可替代的作用。

基于胸部CT的COVID-19检测和诊断是非常可靠的，我们可以观察到磨玻璃样征(ground-glass opacity，GGO)，这种GGO临床症状在正常人的肺部中是不会出现的。随着病情的发展，我们还会看到铺路石征，可以理解为病毒在肺部疯狂铺路，这也称为实变(Consolidation)现象，是GGO的一种恶化，需要医生尽快投入治疗。因此，CT切片中COVID-19感染区域的分割不管是前期检测还是后期诊断都是一项必不可少的任务。

由于现在所得到的有标注公开数据集非常有限，对于病变类别区分的标注则更少，专业医生的标注不但费时而且昂贵；并且经过观察，已获得的多类标注数据集中GGO和Consolidation存在类别不均衡现象，因此，如何在类别不均衡小样本数据集中完成多类别病变分割任务是一个非常有意义的研究课题。

发明内容

为了克服现有技术的不足，基于胸部CT切片中，COVID-19感染区域的纹理、大小和位置变化很大，类间差异较小，对于小样本分割任务，本发明提出一种迭代模型，使用标记数据训练一个有监督模型，再使用该模型对无标签数据进行预测，得出预测概率，通过预测概率筛选高置信度样本，再使用有标记数据以及伪标签数据训练新模型，重复以上步骤直至模型效果不出现提升，完成迭代任务。对于多类别分割任务，针对所获得的数据集中存在的类别不均衡现象，本发明提出了一种根据类别像素权重进行重加权的类别均衡方法，通过对不同类别加权，使占比较少的类别增加权重，占比较多的类别相应减少权重，以达到类别均衡的效果。

本发明解决其技术问题所采用的技术方案是：

一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法，包括：

步骤1：多类病变标注数据集的采集与制作；

步骤2：将采集的数据集进行分析处理，将其进行统一的预处理操作，包括提取肺部区域、窗宽窗位的调整、裁剪、翻转以及图像尺寸大小的归一化处理；

步骤3：对预处理后的图像按照设定的比例进行划分，分为有标注信息的训练集和需迭代的无标注的验证集；

步骤4：训练多类模型，将训练集通过网络模型(本发明中以最常见的UNet模型为例)进行有监督训练多类病变分割模型，针对这里的新冠肺炎数据的标签进行两类病变分割模型(GGO和Consolidation)，增加类别均衡机制，计算各类别像素占比，增加对应权重；

步骤5：预测未标注数据，加载训练好的UNet模型参数，对无标注验证集进行预测，得到预测概率；

步骤6：概率判别，通过预测概率筛选高置信度样本，得到伪标签数据；

步骤7：迭代，使用有标记训练集和伪标记验证集用UNet训练新模型，直到新模型效果不再提升；

步骤8：图像预处理，对上述迭代模块的两类别病变分割结果进行处理分成两个数据集，即GGO数据集和Consolidation数据集，按照设定的比例再进行划分，分为训练集和验证集；；

步骤9：训练单类模型，将GGO训练集和Consolidation训练集通过UNet分别进行训练，其中增加类别均衡，计算两类别像素占比，增加对应权重，得到分割模型M1，M2；

步骤10：概率预测，使用模型M1对GGO验证集进行预测，得到GGO分割结果，使用模型M2对Consolidation验证集进行预测，得到Consolidation分割结果；

步骤11：接收图像，接收上述两类病变分别再训练模块的分割结果，即GGO分割结果和Consolidation分割结果；

步骤12：融合图像，将两类病变结果融合成一类，得到最终的分割结果。

本发明的有益效果主要表现在：通过对不同类别加权，使占比较少的类别增加权重，占比较多的类别相应减少权重，以达到类别均衡的效果。

附图说明

图1是新冠肺炎感染区域分割方法的流程框图。

图2是迭代模型图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方案并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

参照图1和图2，一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法，包括：

步骤1：多类病变标注数据集的采集与制作；

步骤2：将采集的多类病变标注的数据集进行分析处理，一共有470个有效切片，这些切片的标签将病变分为两类(GGO和Consolidation)将其进行统一的预处理操作，包括提取肺部区域，窗宽窗位截断为[-1250,250]，提亮肺部区域的显示，裁剪为512*512大小、翻转(上下翻转、左右翻转)等归一化处理；

步骤4：训练多类模型，将训练集通过UNet进行有监督训练两类病变分割模型(GGO和Consolidation)，因为数据中Consolidation样本数量较少，且存在小分辨率的情况，因此针对这种类别不均衡现象，分别用交叉熵损失函数

计算损失得到GGO损失L_ggo，Consolidation损失L_con和背景损失L_bg其中：M为类别的数量；y_ic为变量，如果该类别和样本i的类别相同就是1，否则是0；p_ic对于观测样本i属于类别c的预测概率，再增加类别均衡，分别计算各类别像素占比，得到GGO占比为α，得到Consolidation占比为β，得到背景占比为1-α-β，分别通过公式

weight＝1/(C*P) (2)

其中C为类别数，P为该类别占比，本发明中C的值为3，计算后得到GGO权重weight_ggo，Consolidation权重weight_con，背景权重weight_bg。最后对各类别的损失分别增加对应权重；

Loss＝weight_ggo*L_ggo+weight_con*L_con+weight_bg*L_bg (3)

步骤6：概率判别，通过预测概率筛选高置信度样本，得到伪标签数据，判别公式为：

步骤7：迭代，使用有标记训练集和伪标记验证集用UNet训练新模型，重复步骤4-6，直到新模型效果不再提升；

步骤8：图像预处理，对上述迭代模块的两类别病变分割结果进行处理分成两个数据集，即GGO数据集和Consolidation数据集，按照设定的比例再进行划分，分为训练集和验证集；

步骤9：训练单类模型，将GGO训练集和Consolidation训练集通过UNet分别进行训练，用交叉熵损失函数重新计算各类别像素占比，运用公式(3)增加对应权重计算损失，得到分割模型M1，M2；

步骤11：接收图像，接收上述两类病变分别再训练模块的分割结果，GGO分割结果和Consolidation分割结果；

步骤12：融合图像，将多类病变结果融合成一类，得到最终的分割结果。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。。

Claims

1.一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法，其特征在于，所述方法包括以下步骤：

步骤1：多类病变标注数据集的采集与制作；

步骤4：训练多类模型，将训练集通过网络模型进行有监督训练多类病变分割模型，针对这里的新冠肺炎数据的标签进行两类病变分割模型，增加类别均衡机制，计算各类别像素占比，增加对应权重；

步骤9：训练单类模型，将GGO训练集和Consolidation训练集通过UNet分别进行训练，其中增加类别均衡，计算各类别像素占比，增加对应权重，得到分割模型M1，M2；

2.如权利要求1所述的基于类别均衡小样本学习的新冠肺炎感染区域分割方法，其特征在于，所述步骤4中，将训练集通过UNet进行有监督训练两类病变分割模型GGO和Consolidation，因为数据中Consolidation样本数量较少，且存在小分辨率的情况，因此针对这种类别不均衡现象，分别用交叉熵损失函数

weight＝1/(C*P) (2)

其中C为类别数，P为该类别占比，计算后得到GGO权重weight_ggo，Consolidation权重weight_con，背景权重weight_bg，最后对各类别的损失分别增加对应权重；

Loss＝weight_ggo*L_ggo+weight_con*L_con+weight_bg*L_bg (3)。