CN112102330A - 基于类别均衡小样本学习的新冠肺炎感染区域分割方法 - Google Patents

基于类别均衡小样本学习的新冠肺炎感染区域分割方法 Download PDF

Info

Publication number
CN112102330A
CN112102330A CN202010804398.XA CN202010804398A CN112102330A CN 112102330 A CN112102330 A CN 112102330A CN 202010804398 A CN202010804398 A CN 202010804398A CN 112102330 A CN112102330 A CN 112102330A
Authority
CN
China
Prior art keywords
class
ggo
training
model
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010804398.XA
Other languages
English (en)
Inventor
汪晓妍
袁逸雯
郭东岩
黄晓洁
夏明�
白琮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010804398.XA priority Critical patent/CN112102330A/zh
Publication of CN112102330A publication Critical patent/CN112102330A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/143Segmentation; Edge detection involving probabilistic approaches, e.g. Markov random field [MRF] modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10081Computed x-ray tomography [CT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30061Lung
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法,采用迭代模型,使用标记数据训练一个有监督模型,再使用该模型对无标签数据进行预测,得出预测概率,通过预测概率筛选高置信度样本,再使用有标记数据以及伪标签数据训练新模型,重复以上步骤直至模型效果不出现提升,完成迭代任务。对于多类别分割任务,针对所获得的数据集中存在的类别不均衡现象,本发明提出了一种根据类别像素权重进行重加权的类别均衡方法,通过对不同类别加权,使占比较少的类别增加权重,占比较多的类别相应减少权重,以达到类别均衡的效果。

Description

基于类别均衡小样本学习的新冠肺炎感染区域分割方法
技术领域
本发明涉及计算机视觉人工智能技术领域,特别涉及一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法。
技术背景
2019年新冠肺炎(COVID-19)在世界各地爆发,人工智能技术在对抗COVID-19的斗争中起着至关重要的作用。近年来随着人工智能技术的逐步深入,图像分割技术有了突飞猛进的发展。疫情期间新冠肺炎影像相关的人工智能产品在提升医护人员的工作效率,降低工作强度,提供确诊手段等多方面发挥了不可替代的作用。
基于胸部CT的COVID-19检测和诊断是非常可靠的,我们可以观察到磨玻璃样征(ground-glass opacity,GGO),这种GGO临床症状在正常人的肺部中是不会出现的。随着病情的发展,我们还会看到铺路石征,可以理解为病毒在肺部疯狂铺路,这也称为实变(Consolidation)现象,是GGO的一种恶化,需要医生尽快投入治疗。因此,CT切片中COVID-19感染区域的分割不管是前期检测还是后期诊断都是一项必不可少的任务。
由于现在所得到的有标注公开数据集非常有限,对于病变类别区分的标注则更少,专业医生的标注不但费时而且昂贵;并且经过观察,已获得的多类标注数据集中GGO和Consolidation存在类别不均衡现象,因此,如何在类别不均衡小样本数据集中完成多类别病变分割任务是一个非常有意义的研究课题。
发明内容
为了克服现有技术的不足,基于胸部CT切片中,COVID-19感染区域的纹理、大小和位置变化很大,类间差异较小,对于小样本分割任务,本发明提出一种迭代模型,使用标记数据训练一个有监督模型,再使用该模型对无标签数据进行预测,得出预测概率,通过预测概率筛选高置信度样本,再使用有标记数据以及伪标签数据训练新模型,重复以上步骤直至模型效果不出现提升,完成迭代任务。对于多类别分割任务,针对所获得的数据集中存在的类别不均衡现象,本发明提出了一种根据类别像素权重进行重加权的类别均衡方法,通过对不同类别加权,使占比较少的类别增加权重,占比较多的类别相应减少权重,以达到类别均衡的效果。
本发明解决其技术问题所采用的技术方案是:
一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法,包括:
步骤1:多类病变标注数据集的采集与制作;
步骤2:将采集的数据集进行分析处理,将其进行统一的预处理操作,包括提取肺部区域、窗宽窗位的调整、裁剪、翻转以及图像尺寸大小的归一化处理;
步骤3:对预处理后的图像按照设定的比例进行划分,分为有标注信息的训练集和需迭代的无标注的验证集;
步骤4:训练多类模型,将训练集通过网络模型(本发明中以最常见的UNet模型为例)进行有监督训练多类病变分割模型,针对这里的新冠肺炎数据的标签进行两类病变分割模型(GGO和Consolidation),增加类别均衡机制,计算各类别像素占比,增加对应权重;
步骤5:预测未标注数据,加载训练好的UNet模型参数,对无标注验证集进行预测,得到预测概率;
步骤6:概率判别,通过预测概率筛选高置信度样本,得到伪标签数据;
步骤7:迭代,使用有标记训练集和伪标记验证集用UNet训练新模型,直到新模型效果不再提升;
步骤8:图像预处理,对上述迭代模块的两类别病变分割结果进行处理分成两个数据集,即GGO数据集和Consolidation数据集,按照设定的比例再进行划分,分为训练集和验证集;;
步骤9:训练单类模型,将GGO训练集和Consolidation训练集通过UNet分别进行训练,其中增加类别均衡,计算两类别像素占比,增加对应权重,得到分割模型M1,M2;
步骤10:概率预测,使用模型M1对GGO验证集进行预测,得到GGO分割结果,使用模型M2对Consolidation验证集进行预测,得到Consolidation分割结果;
步骤11:接收图像,接收上述两类病变分别再训练模块的分割结果,即GGO分割结果和Consolidation分割结果;
步骤12:融合图像,将两类病变结果融合成一类,得到最终的分割结果。
本发明的有益效果主要表现在:通过对不同类别加权,使占比较少的类别增加权重,占比较多的类别相应减少权重,以达到类别均衡的效果。
附图说明
图1是新冠肺炎感染区域分割方法的流程框图。
图2是迭代模型图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方案并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参照图1和图2,一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法,包括:
步骤1:多类病变标注数据集的采集与制作;
步骤2:将采集的多类病变标注的数据集进行分析处理,一共有470个有效切片,这些切片的标签将病变分为两类(GGO和Consolidation)将其进行统一的预处理操作,包括提取肺部区域,窗宽窗位截断为[-1250,250],提亮肺部区域的显示,裁剪为512*512大小、翻转(上下翻转、左右翻转)等归一化处理;
步骤3:对预处理后的图像按照设定的比例进行划分,分为有标注信息的训练集和需迭代的无标注的验证集;
步骤4:训练多类模型,将训练集通过UNet进行有监督训练两类病变分割模型(GGO和Consolidation),因为数据中Consolidation样本数量较少,且存在小分辨率的情况,因此针对这种类别不均衡现象,分别用交叉熵损失函数
Figure BDA0002628546790000041
计算损失得到GGO损失Lggo,Consolidation损失Lcon和背景损失Lbg其中:M为类别的数量;yic为变量,如果该类别和样本i的类别相同就是1,否则是0;pic对于观测样本i属于类别c的预测概率,再增加类别均衡,分别计算各类别像素占比,得到GGO占比为α,得到Consolidation占比为β,得到背景占比为1-α-β,分别通过公式
weight=1/(C*P) (2)
其中C为类别数,P为该类别占比,本发明中C的值为3,计算后得到GGO权重weightggo,Consolidation权重weightcon,背景权重weightbg。最后对各类别的损失分别增加对应权重;
Loss=weightggo*Lggo+weightcon*Lcon+weightbg*Lbg (3)
步骤5:预测未标注数据,加载训练好的UNet模型参数,对无标注验证集进行预测,得到预测概率;
步骤6:概率判别,通过预测概率筛选高置信度样本,得到伪标签数据,判别公式为:
Figure BDA0002628546790000051
步骤7:迭代,使用有标记训练集和伪标记验证集用UNet训练新模型,重复步骤4-6,直到新模型效果不再提升;
步骤8:图像预处理,对上述迭代模块的两类别病变分割结果进行处理分成两个数据集,即GGO数据集和Consolidation数据集,按照设定的比例再进行划分,分为训练集和验证集;
步骤9:训练单类模型,将GGO训练集和Consolidation训练集通过UNet分别进行训练,用交叉熵损失函数重新计算各类别像素占比,运用公式(3)增加对应权重计算损失,得到分割模型M1,M2;
步骤10:概率预测,使用模型M1对GGO验证集进行预测,得到GGO分割结果,使用模型M2对Consolidation验证集进行预测,得到Consolidation分割结果;
步骤11:接收图像,接收上述两类病变分别再训练模块的分割结果,GGO分割结果和Consolidation分割结果;
步骤12:融合图像,将多类病变结果融合成一类,得到最终的分割结果。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所做的的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。。

Claims (2)

1.一种基于类别均衡小样本学习的新冠肺炎感染区域分割方法,其特征在于,所述方法包括以下步骤:
步骤1:多类病变标注数据集的采集与制作;
步骤2:将采集的数据集进行分析处理,将其进行统一的预处理操作,包括提取肺部区域、窗宽窗位的调整、裁剪、翻转以及图像尺寸大小的归一化处理;
步骤3:对预处理后的图像按照设定的比例进行划分,分为有标注信息的训练集和需迭代的无标注的验证集;
步骤4:训练多类模型,将训练集通过网络模型进行有监督训练多类病变分割模型,针对这里的新冠肺炎数据的标签进行两类病变分割模型,增加类别均衡机制,计算各类别像素占比,增加对应权重;
步骤5:预测未标注数据,加载训练好的UNet模型参数,对无标注验证集进行预测,得到预测概率;
步骤6:概率判别,通过预测概率筛选高置信度样本,得到伪标签数据;
步骤7:迭代,使用有标记训练集和伪标记验证集用UNet训练新模型,直到新模型效果不再提升;
步骤8:图像预处理,对上述迭代模块的两类别病变分割结果进行处理分成两个数据集,即GGO数据集和Consolidation数据集,按照设定的比例再进行划分,分为训练集和验证集;;
步骤9:训练单类模型,将GGO训练集和Consolidation训练集通过UNet分别进行训练,其中增加类别均衡,计算各类别像素占比,增加对应权重,得到分割模型M1,M2;
步骤10:概率预测,使用模型M1对GGO验证集进行预测,得到GGO分割结果,使用模型M2对Consolidation验证集进行预测,得到Consolidation分割结果;
步骤11:接收图像,接收上述两类病变分别再训练模块的分割结果,即GGO分割结果和Consolidation分割结果;
步骤12:融合图像,将两类病变结果融合成一类,得到最终的分割结果。
2.如权利要求1所述的基于类别均衡小样本学习的新冠肺炎感染区域分割方法,其特征在于,所述步骤4中,将训练集通过UNet进行有监督训练两类病变分割模型GGO和Consolidation,因为数据中Consolidation样本数量较少,且存在小分辨率的情况,因此针对这种类别不均衡现象,分别用交叉熵损失函数
Figure FDA0002628546780000021
计算损失得到GGO损失Lggo,Consolidation损失Lcon和背景损失Lbg其中:M为类别的数量;yic为变量,如果该类别和样本i的类别相同就是1,否则是0;pic对于观测样本i属于类别c的预测概率,再增加类别均衡,分别计算各类别像素占比,得到GGO占比为α,得到Consolidation占比为β,得到背景占比为1-α-β,分别通过公式
weight=1/(C*P) (2)
其中C为类别数,P为该类别占比,计算后得到GGO权重weightggo,Consolidation权重weightcon,背景权重weightbg,最后对各类别的损失分别增加对应权重;
Loss=weightggo*Lggo+weightcon*Lcon+weightbg*Lbg (3)。
CN202010804398.XA 2020-08-12 2020-08-12 基于类别均衡小样本学习的新冠肺炎感染区域分割方法 Pending CN112102330A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010804398.XA CN112102330A (zh) 2020-08-12 2020-08-12 基于类别均衡小样本学习的新冠肺炎感染区域分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010804398.XA CN112102330A (zh) 2020-08-12 2020-08-12 基于类别均衡小样本学习的新冠肺炎感染区域分割方法

Publications (1)

Publication Number Publication Date
CN112102330A true CN112102330A (zh) 2020-12-18

Family

ID=73752800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010804398.XA Pending CN112102330A (zh) 2020-08-12 2020-08-12 基于类别均衡小样本学习的新冠肺炎感染区域分割方法

Country Status (1)

Country Link
CN (1) CN112102330A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950643A (zh) * 2021-02-26 2021-06-11 东北大学 基于特征融合深监督U-Net的新冠肺炎病灶分割方法
CN113255670A (zh) * 2021-06-28 2021-08-13 湖南星汉数智科技有限公司 非均衡小样本目标检测方法、装置和计算机设备
CN116416136A (zh) * 2023-04-17 2023-07-11 北京卫星信息工程研究所 可见光遥感图像舰船目标检测的数据扩增方法、电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741347A (zh) * 2018-12-30 2019-05-10 北京工业大学 一种基于卷积神经网络的迭代学习的图像分割方法
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN111191732A (zh) * 2020-01-03 2020-05-22 天津大学 一种基于全自动学习的目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741347A (zh) * 2018-12-30 2019-05-10 北京工业大学 一种基于卷积神经网络的迭代学习的图像分割方法
US10430946B1 (en) * 2019-03-14 2019-10-01 Inception Institute of Artificial Intelligence, Ltd. Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques
CN111191732A (zh) * 2020-01-03 2020-05-22 天津大学 一种基于全自动学习的目标检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950643A (zh) * 2021-02-26 2021-06-11 东北大学 基于特征融合深监督U-Net的新冠肺炎病灶分割方法
CN112950643B (zh) * 2021-02-26 2024-04-05 东北大学 基于特征融合深监督U-Net的新冠肺炎病灶分割方法
CN113255670A (zh) * 2021-06-28 2021-08-13 湖南星汉数智科技有限公司 非均衡小样本目标检测方法、装置和计算机设备
CN116416136A (zh) * 2023-04-17 2023-07-11 北京卫星信息工程研究所 可见光遥感图像舰船目标检测的数据扩增方法、电子设备
CN116416136B (zh) * 2023-04-17 2023-12-19 北京卫星信息工程研究所 可见光遥感图像舰船目标检测的数据扩增方法、电子设备

Similar Documents

Publication Publication Date Title
CN110223281B (zh) 一种数据集中含有不确定数据时的肺结节图像分类方法
CN108021916B (zh) 基于注意力机制的深度学习糖尿病视网膜病变分类方法
CN108364006B (zh) 基于多模式深度学习的医学图像分类装置及其构建方法
CN110503654A (zh) 一种基于生成对抗网络的医学图像分割方法、系统及电子设备
Saikumar et al. A novel implementation heart diagnosis system based on random forest machine learning technique.
CN112102330A (zh) 基于类别均衡小样本学习的新冠肺炎感染区域分割方法
Li et al. Automatic cardiothoracic ratio calculation with deep learning
CN108257135A (zh) 基于深度学习方法解读医学图像特征的辅助诊断系统
CN111986189B (zh) 一种基于ct影像的多类别肺炎筛查深度学习装置
Yao et al. Pneumonia Detection Using an Improved Algorithm Based on Faster R‐CNN
CN112365973B (zh) 基于对抗网络和Faster R-CNN的肺结节辅助诊断系统
CN111754453A (zh) 基于胸透图像的肺结核检测方法、系统和存储介质
CN112700461B (zh) 一种肺结节检测和表征类别识别的系统
CN112581450B (zh) 基于膨胀卷积金字塔与多尺度金字塔的花粉检测方法
CN113096109A (zh) 一种肺部医学图像分析方法、设备及系统
CN113782184A (zh) 一种基于面部关键点与特征预学习的脑卒中辅助评估系统
Kumar et al. Semi-supervised OTSU based hyperbolic tangent Gaussian kernel fuzzy C-mean clustering for dental radiographs segmentation
Chi et al. MID-UNet: Multi-input directional UNet for COVID-19 lung infection segmentation from CT images
CN117710760B (zh) 残差的注意神经网络用于胸部x线病灶检测的方法
CN114565786A (zh) 基于通道注意力机制的断层扫描图像分类装置和方法
CN110288577A (zh) 一种3d实现多器官病灶整合的控制方法及控制装置
Pavithra et al. An Overview of Convolutional Neural Network Architecture and Its Variants in Medical Diagnostics of Cancer and Covid-19
Cao et al. 3D convolutional neural networks fusion model for lung nodule detection onclinical CT scans
CN115880245A (zh) 一种基于自监督的乳腺癌疾病分类方法
Selvaraj et al. Classification of COVID-19 patient based on multilayer perceptron neural networks optimized with garra rufa fish optimization using CT scan images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination