CN111666997B - 一种样本平衡方法及目标器官分割模型构建方法 - Google Patents

一种样本平衡方法及目标器官分割模型构建方法 Download PDF

Info

Publication number
CN111666997B
CN111666997B CN202010485635.0A CN202010485635A CN111666997B CN 111666997 B CN111666997 B CN 111666997B CN 202010485635 A CN202010485635 A CN 202010485635A CN 111666997 B CN111666997 B CN 111666997B
Authority
CN
China
Prior art keywords
samples
sample
segmentation
training
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010485635.0A
Other languages
English (en)
Other versions
CN111666997A (zh
Inventor
王宜主
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Ziwei Dixing Digital Technology Co ltd
Original Assignee
Anhui Ziwei Dixing Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Ziwei Dixing Digital Technology Co ltd filed Critical Anhui Ziwei Dixing Digital Technology Co ltd
Priority to CN202010485635.0A priority Critical patent/CN111666997B/zh
Publication of CN111666997A publication Critical patent/CN111666997A/zh
Application granted granted Critical
Publication of CN111666997B publication Critical patent/CN111666997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种样本平衡方法及目标器官分割模型构建方法,样本平衡方法为,在训练过程中,每隔β个epoch,舍弃α%的负样本,直至负样本全部被舍弃。本发明在训练过程中,逐渐减少负样本数目,能在训练前期很好地利用负样本的相关特征信息,又能很好地避免过多负样本带来的样本不平衡问题,有效地解决了医学图像分割过程中存在的数据不平衡问题,提高了分割精度。

Description

一种样本平衡方法及目标器官分割模型构建方法
技术领域
本发明涉及深度学习技术领域,具体是一种基于负样本选择策略的样本平衡方法及目标器官分割模型构建方法。
背景技术
医学图像的准确、自动分割是辅助医疗的重要前提。传统的水平集、阈值分割、区域生长等方法在一定程度上已经实现了自动或半自动分割,但这些方法的特征提取能力有限,分割的准确性难以满足临床需要。近几年,基于深度学习的分割方法已经在肝脏分割、脾脏分割、肺结节检测等任务中取得了巨大的成功。但是深度学习依赖大量的人工标注数据,在训练过程中不可避免地遇到一系列数据不平衡问题,例如前景-背景不平衡,困难-容易不平衡。这些不平衡问题得不到妥善处理,会干扰模型的训练过程,降低预测精度。
在医学分割任务中最常见的不平衡问题就是前景与背景之间的不平衡和困难样本与容易样本之间的不平衡。前景-背景的不平衡往往是由以下两方面造成的:1、负样本数目过多;2、目标区域在正样本中的占比过小。与背景-前景不平衡不同,目前没有明确的标准来区分容易样本和困难样本。此外,分割任务的不同也会导致样本角色的变化,例如在在肝脏分割任务中的容易样本,在胰腺分割任务中可能就是困难样本,因此,很难在训练之前区分困难样本和容易样本。实验中,我们发现困难样本往往是由于样本自身的缺陷造成的,例如器官病变、肿瘤等,对于这些样本的准确分割在临床中具有重要的意义。
目前,在普遍使用的由粗到细训练策略来解决样本不平衡问题,如图1所示,首先训练一个粗分割网络来获取目标的大致区域,然后通过剪切操作来获得感兴趣区域(ROIs),最后利用提取的ROIs作为网络的输入进行模型的精细训练。该方法通过减小背景区域以及负样本的数量解决在精细训练阶段的不平衡问题,但是无法处理粗分割阶段的不平衡问题。然而,该方法最终的分割精度严重依赖粗分割阶段的分割结果,ROIs识别不准确往往带来模型预测效果不可弥补的损失。因此,在粗分割阶段解决相关的不平衡问题是十分必要的。
与正样本相比,大部分负样本是很容易训练的,过多易训练的负样本在一定程度上会干扰相关正样本在模型中的贡献,但是部分负样本在模型训练中也有一定贡献,特别是在训练的前期。传统样本挖掘方法直接去掉大量负样本,这可能导致训练不充分的问题。然而,直接去除所有负样本会带来分割精度的降低。
发明内容
针对现有模型训练过程中存在的前景-背景不平衡和困难-容易样本不平衡问题,本发明提出一种能够有效解决医学图像分割过程中样本不平衡问题的样本平衡方法,及基于该样本平衡方法的目标器官分割模型构建方法。
本发明保护一种样本平衡方法,训练过程中,每隔β个epoch,舍弃α%的负样本,直至负样本全部被舍弃;优选的,从负样本远离正样本一端进行负样本舍弃。
本发明还保护一种目标器官分割模型构建方法:首先,收集目标器官CT数据,并分组为训练集、验证集、测试集;其次,搭建卷积神经网络;再次,分割模型训练,训练过程中通过前述样本平衡方法进行样本处理;最后分割模型验证。
进一步的,收集医学图像数据后,对原始数据进行预处理,将HU值规范到[-200,250],然后通过平移、翻转、镜像对样本进行扩增。
进一步的,分割网络采用Encoder-Decoder模式,在Encoder和Decoder之间利用卷积块来进行底层信息与高层信息的融合。
进一步的,模型训练过程中使用Adam优化器,交叉熵损失函数作为网络的损失函数。
进一步的,采用三维连通域对分割结果进行后处理。
本发明在训练过程中,逐渐减少负样本数目,能在训练前期很好地利用负样本的相关特征信息,又能很好地避免过多负样本带来的样本不平衡问题,有效地解决了医学图像分割过程中存在的数据不平衡问题,提高了分割精度。
附图说明
图1为样本不平衡问题由粗到细训练的解决策略;
图2为每个病例样本分布示意图;
图3为负样本逐步舍弃示意图;
图4为L(α,β)参数不同时的r值变化折线图;
图5卷积神经网络示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。本发明的实施例是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
实施例1
为了普适化描述基于负样本选择策略的样本平衡方法,假设训练集中有m个病例,Xi代表第i个病例,i={1,2,...,m}。每个病例有数量不等的样本,假设第i个病例有n个样本,xi,j表示第i个病例的第j个样本,j={1,2,...,n}。
基于医学图像数据的建立过程,每个病例的负样本往往位于正样本的两端,假设Ni,1={xi,1,…,xi,l-1}和Ni,2={xi,l+k,…,xi,n}分别表示负样本集合,Pi={xi,l,…,xi,l+k-1}表示负样本之间的正样本集合,如图2所示。
负样本数目过多就存在样本不平衡的问题,干扰模型的训练过程,降低预测精度。若采用普遍使用的由粗到细训练策略来解决样本不平衡问题,负样本从训练初期就被舍弃,对于后续训练出来的分割模型的预测精度也存在影响。
参照表1,AS表示所有样本参与训练,APS表示只有正样本参与训练,CDP表示连通域处理。从表1中可以看出,所有样本参与训练的平均DSC高于只有正样本参与训练的平均DSC,经过连通域处理后,DSC能够得到一定程度的提升。
Method Mean DSC Max DSC Min DSC
AS 82.70%±7.01% 88.76% 67.92%
AS+CDP 82.83%±6.97% 88.76% 68.02%
APS 80.99%±4.63% 87.36% 72.52%
APS+CDP 81.73%±4.42% 87.43% 73.53%
表1
为此,本发明在训练过程中逐渐减少负样本数目,在增强模型对正样本特征的提取的同时,留存了负样本对于模型训练的价值。
具体操作为,挑选每个病例的所有正样本以及部分与正样本相邻的连续负样本。定义负样本的样本选择比例为r∈[0,1],将选择的负样本分别标记为SNi,1和SNi,2,对应的样本数量分别为ni,1和ni,2,则ni,1=[(l-1)×r],ni,2=[(n-l-k+1)×r],从而,在Xi上选取的样本可标记为这个训练集/>
训练过程中,可以通过逐步降低r值来减少训练集中的负样本,这样有助于帮助训练模型将更多的注意力放在正样本的特征提取上,进而提高分割结果的准确性。具体的,本实施例采用L(α,β)来调节r值,L(α,β)表示r值每隔β个epoch降低α%,如图3、图4示例。图3示例中,r初始值为1,每隔一定epoch降低20%,直至负样本全部被舍弃。图4示例中,4条线分别表述每隔1个epoch降低10%、每隔1个epoch降低20%、每隔2个epoch降低20%、每隔5个epoch降低20%的r值折线图。
由于医学数据相邻的样本之间具有很强的关联性,在分割任务中能起到信息互补的作用。因此,在舍弃负样本的过程中,首先舍弃远离正样本一端的负样本。
利用上述样本平衡方法进行胰腺分割模型的建立:
1、收集公开的胰腺CT数据82套,层厚1.5-2.5mm,样本数目181-466。随机选取62套作为训练集,5套作为验证集,15套作为测试集。
2、对原始CT数据进行预处理,将HU值规范到[-200,250],然后通过平移、翻转、镜像等操作对样本进行扩增,以缓解训练过程中的过拟合问题。
3、搭建卷积神经网络
利用TensorFlow学习库进行网络搭建,分割网络采用经典Encoder-Decoder模式,参照图5。Encoder模块采用卷积块和残差块的堆叠进行特征提取,利用步长为2的卷积来降低特征的空间分辨率;Decoder模块利用转置卷积将Encoder模块提取的富含语义信息的特征图谱逐渐恢复到原始图像大小,并对图像中的每一个像素进行分类。
在模型中有3个辅助损失层和一个主要的损失层。在Encoder和Decoder之间,利用卷积块来进行底层信息与高层信息进行融合,以增强边缘的分割效果。
4、训练分割模型
利用处理后的训练集进行模型的训练。训练过程中利用前述样本平衡方法缓解训练过程中样本不平衡问题。
模型训练过程中采用Adam优化器,交叉熵损失函数作为网络的损失函数,并同时采用深层监督策略来提高分割的精度。
交叉熵损失函数其中yi代表真实值中的第i个像素,/>代表预测结果中的第i个像素。
总损失函数为其中/>分别代表主损失函数和3个辅助损失函数,β1、β2、β3表示权重。
初始学习速率设置为1×10-4,训练过程中根据公式逐渐降低学习速率;使用早停机制终止模型训练,忍受范围设置为10个epoch,Batch大小设置为6。
采用三维连通域对分割结果进行处理,去除可能存在的噪点,进一步提高分割的效果。
四、分割模型验证
对步骤三获得的分割模型进行验证,利用Dice相似性系数评估模型的分割效果,具体结果见表2。
Method Mean DSC Max DSC Min DSC
Baseline 82.70%±7.01% 88.76% 67.92%
PNSS 83.12%±6.21% 89.13% 71.64%
表2
Baseline是对照实验,不采用本发明提供的样本平衡方法,PNSS表示采用本发明提供的样本平衡方法进行样本训练。从表2中可以看出,通过本发明提供的样本平衡方法能提高模型的分割效果。
显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域及相关领域的普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

Claims (5)

1.一种目标器官分割模型构建方法,其特征在于,包括以下步骤:
步骤1,收集医学图像数据,并随机分为训练集、验证集、测试集,并且假设训练集中有m个病例,Xi代表第i个病例,i={1,2,...,m},其中每个病例有数量不等的样本,假设第i个病例有n个样本,xi,j表示第i个病例的第j个样本,j={1,2,...,n};
基于医学图像数据的建立过程,每个病例的负样本往往位于正样本的两端,假设Ni,1={xi,1,…,xi,l-1}和Ni,2={xi,l+k,…,xi,n}分别表示负样本集合,Pi={xi,l,…,xi,l+k-1}表示负样本之间的正样本集合;
步骤2,搭建卷积神经网络;
步骤3,分割模型训练,训练过程中对样本进行平衡处理,具体操作为挑选每个病例的所有正样本以及部分与正样本相邻的连续负样本,样本包括正样本和分布于正样本两端的负样本,对于正样本两端的负样本,每隔β个epoch,从负样本远离正样本一端舍弃α%的负样本,直至负样本全部被舍弃;
步骤4,分割模型验证。
2.根据权利要求1所述的目标器官分割模型构建方法,其特征在于,收集目标器官CT数据后,对原始CT数据进行预处理,将HU值规范到[-200,250],然后通过平移、翻转、镜像对样本进行扩增。
3.根据权利要求2所述的目标器官分割模型构建方法,其特征在于,分割网络采用Encoder-Decoder模式,在Encoder和Decoder之间利用卷积块来进行底层信息与高层信息的融合。
4.根据权利要求3所述的目标器官分割模型构建方法,其特征在于,模型训练过程中使用Adam优化器,交叉熵损失函数作为网络的损失函数。
5.根据权利要求4所述的目标器官分割模型构建方法,其特征在于,采用三维连通域对分割结果进行后处理。
CN202010485635.0A 2020-06-01 2020-06-01 一种样本平衡方法及目标器官分割模型构建方法 Active CN111666997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010485635.0A CN111666997B (zh) 2020-06-01 2020-06-01 一种样本平衡方法及目标器官分割模型构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010485635.0A CN111666997B (zh) 2020-06-01 2020-06-01 一种样本平衡方法及目标器官分割模型构建方法

Publications (2)

Publication Number Publication Date
CN111666997A CN111666997A (zh) 2020-09-15
CN111666997B true CN111666997B (zh) 2023-10-27

Family

ID=72385623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010485635.0A Active CN111666997B (zh) 2020-06-01 2020-06-01 一种样本平衡方法及目标器官分割模型构建方法

Country Status (1)

Country Link
CN (1) CN111666997B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269764A (zh) * 2021-06-04 2021-08-17 重庆大学 颅内动脉瘤自动分割方法、系统、样本处理及模型训练方法
CN116152278B (zh) * 2023-04-17 2023-07-21 杭州堃博生物科技有限公司 医疗图像的分割方法及装置、非易失性存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105787046A (zh) * 2016-02-28 2016-07-20 华东理工大学 一种基于单边动态下采样的不平衡数据分类系统
CN106909981A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN108304873A (zh) * 2018-01-30 2018-07-20 深圳市国脉畅行科技股份有限公司 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
CN108733633A (zh) * 2018-05-18 2018-11-02 北京科技大学 一种样本分布调整的不平衡数据回归方法及装置
CN108920477A (zh) * 2018-04-11 2018-11-30 华南理工大学 一种基于二叉树结构的不平衡数据处理方法
CN109949309A (zh) * 2019-03-18 2019-06-28 安徽紫薇帝星数字科技有限公司 一种基于深度学习的肝脏ct图像分割方法
CN110223291A (zh) * 2019-06-20 2019-09-10 南开大学 一种基于损失函数的训练眼底病变点分割网络方法
CN110633758A (zh) * 2019-09-20 2019-12-31 四川长虹电器股份有限公司 针对小样本或样本不平衡的癌症区域检测定位的方法
CN111091164A (zh) * 2020-03-25 2020-05-01 魔视智能科技(上海)有限公司 基于ohem的语义分割模型训练方法及其系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9224104B2 (en) * 2013-09-24 2015-12-29 International Business Machines Corporation Generating data from imbalanced training data sets
US9542609B2 (en) * 2014-02-04 2017-01-10 Xerox Corporation Automatic training of a parked vehicle detector for large deployment
US10417524B2 (en) * 2017-02-16 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Deep active learning method for civil infrastructure defect detection

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106909981A (zh) * 2015-12-23 2017-06-30 阿里巴巴集团控股有限公司 模型训练、样本平衡方法及装置以及个人信用评分系统
CN105787046A (zh) * 2016-02-28 2016-07-20 华东理工大学 一种基于单边动态下采样的不平衡数据分类系统
CN108304873A (zh) * 2018-01-30 2018-07-20 深圳市国脉畅行科技股份有限公司 基于高分辨率光学卫星遥感影像的目标检测方法及其系统
CN108920477A (zh) * 2018-04-11 2018-11-30 华南理工大学 一种基于二叉树结构的不平衡数据处理方法
CN108733633A (zh) * 2018-05-18 2018-11-02 北京科技大学 一种样本分布调整的不平衡数据回归方法及装置
CN109949309A (zh) * 2019-03-18 2019-06-28 安徽紫薇帝星数字科技有限公司 一种基于深度学习的肝脏ct图像分割方法
CN110223291A (zh) * 2019-06-20 2019-09-10 南开大学 一种基于损失函数的训练眼底病变点分割网络方法
CN110633758A (zh) * 2019-09-20 2019-12-31 四川长虹电器股份有限公司 针对小样本或样本不平衡的癌症区域检测定位的方法
CN111091164A (zh) * 2020-03-25 2020-05-01 魔视智能科技(上海)有限公司 基于ohem的语义分割模型训练方法及其系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Abhinav Shrivastava et al.Training Region-based Object Detectors with Online Hard Example Mining.《arXiv》.2016,1-9. *
Yong Zhang et al.Data Balancing Based on Pre-Training Strategy for Liver Segmentation from CT Scans.《applied sciences》.2019,1-9. *
胡小生 等.动态平衡采样的不平衡数据集成分类方法.《智能系统学报》.2016,第11卷(第2期),257-263. *

Also Published As

Publication number Publication date
CN111666997A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN110889853B (zh) 基于残差-注意力深度神经网络的肿瘤分割方法
CN109636824B (zh) 一种基于图像识别技术的多目标计数方法
CN110120042B (zh) 一种基于slic超像素和自动阈值分割的农作物图像病虫害区域提取方法
CN107609575B (zh) 书法评价方法、书法评价装置和电子设备
CN111666997B (zh) 一种样本平衡方法及目标器官分割模型构建方法
CN107657209B (zh) 一种基于手指静脉图像质量的模板图像注册机制
CN103761726B (zh) 基于fcm的分块自适应图像分割方法
CN111986183B (zh) 一种染色体散型图像自动分割识别系统及装置
CN112150429A (zh) 一种注意力机制引导的肾ct图像分割方法
CN106228118A (zh) 一种特征点和二值图像结合的手指静脉识别方法
CN114359288A (zh) 基于人工智能的医学影像脑动脉瘤检测和定位方法
CN114092450A (zh) 一种基于胃镜检查视频的实时图像分割方法、系统、装置
CN110874835B (zh) 作物叶部病害抗性鉴定方法、系统、电子设备及存储介质
Wollmann et al. Multi-channel deep transfer learning for nuclei segmentation in glioblastoma cell tissue images
CN110826565A (zh) 基于跨连接的卷积神经网络齿痕舌象分类方法及系统
CN113269764A (zh) 颅内动脉瘤自动分割方法、系统、样本处理及模型训练方法
CN110084796B (zh) 一种复杂纹理ct图像的分析方法
CN110032973B (zh) 一种基于人工智能的无监督寄生虫分类方法及系统
CN112419253A (zh) 数字病理图像分析方法、系统、设备及存储介质
CN112990225B (zh) 一种复杂环境下的图像目标识别方法及装置
CN113269734B (zh) 一种基于元学习特征融合策略的肿瘤图像检测方法及装置
CN116091458A (zh) 一种基于互补注意力的胰腺图像分割方法
CN113763407B (zh) 一种超声图像的结节边缘分析方法
CN111259914B (zh) 一种茶树叶特征信息高光谱提取方法
CN113139930B (zh) 甲状腺切片图像分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant