CN108021936A - 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 - Google Patents

一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 Download PDF

Info

Publication number
CN108021936A
CN108021936A CN201711214300.XA CN201711214300A CN108021936A CN 108021936 A CN108021936 A CN 108021936A CN 201711214300 A CN201711214300 A CN 201711214300A CN 108021936 A CN108021936 A CN 108021936A
Authority
CN
China
Prior art keywords
network
vgg16
data
training
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711214300.XA
Other languages
English (en)
Inventor
褚晶辉
吴泽蕤
吕卫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201711214300.XA priority Critical patent/CN108021936A/zh
Publication of CN108021936A publication Critical patent/CN108021936A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images
    • G06V2201/032Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.

Abstract

本发明涉及一种基于卷积神经网络VGG16的乳腺肿瘤分类算法,包括:数据预处理:对呈现数据不平衡状态的数据集,进行不平衡处理和数据增强处理。卷积神经网络的搭建:1)网络预训练:利用VGG16,在ImageNet大型自然图像数据集上进行网络训练,并保存训练之后的权重;2)网络关键节点选取:利用VGG16网络的不同层,在乳腺肿瘤DDSM数据集上进行特征的提取,对于提取的特征,应用相同的支持向量机SVM分类器分类,选取分类性能最高的层,作为新网络搭建的节点;3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络;迁移学习。

Description

一种基于卷积神经网络VGG16的乳腺肿瘤分类算法
技术领域
本发明属于图像分类领域,涉及一种基于基础VGG16卷积神经网络搭建图像分类算法,可用于医学图像的分类任务。
背景技术
近年来,乳腺癌由于其高治病性,已经逐渐成为女性患疾病致死的一个主要因素。其致病的主要原因是乳腺组织中的恶性肿瘤细胞恶化。然而在医学研究中,针对乳腺肿瘤发病机制提出有效的治愈方法仍是医学盲区,因此进行肿瘤的早期诊断,已经成为防止乳腺癌发生的最有效方法。
然而目前普遍的研究方法,是基于传统机器学习方法,进行肿瘤分类。但当前的机器学习方法设计的分类性能提升遇到瓶颈,性能提升的空间有限。与此同时深度学习在计算机视觉领域飞速发展。CNN在许多图像分类挑战和任务中,击败了传统的机器学习方法。
发明内容
本发明提供一种利用深度学习方法提升医学图像分类性能的方法。首先,针对不平衡的数据集,进行数据平衡处理;并且为了避免过拟合的出现,并增加数据集中的数据量,并利用数据增强的方法,对数据集进行处理;然后,基于卷积神经网络VGG16进行每一层提取特征能力的探究;最后,加入迁移学习,搭建新的卷积神经网络并进行微调。技术方案如下:
一种基于卷积神经网络VGG16的乳腺肿瘤分类算法,包括下列步骤:
(1)数据预处理:对呈现数据不平衡状态的数据集,进行不平衡处理和数据增强处理。
(2)卷积神经网络的搭建:
1)网络预训练:利用VGG16,在ImageNet大型自然图像数据集上进行网络训练,并保存训练之后的权重;
2)网络关键节点选取:利用VGG16网络的不同层,在乳腺肿瘤DDSM数据集上进行特征的提取,对于提取的特征,应用相同的支持向量机SVM分类器分类,选取分类性能最高的层,作为新网络搭建的节点;
3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络;
(3).迁移学习的加入:
1)将新网络中对应于原始VGG16的部分,进行权重的迁移;剩余部分的网络层,将预训练之后的权重进行迁移。
2)采用新网络中特定层权重不可训练,其余层可变的方式进行调整。
该方法可以有效地提升乳腺肿瘤分类结果,使得分类结果的精确度得到了明显提升。本发明优点为:引入深度学习和迁移学习,提升了分类性能。在经过预处理之后的数据集上,利用VGG16的框架,裁剪网络并建立新网络,引入迁移学习到网络的训练过程,并进行微调。本发明很好突破了传统机器学习方法搭建的系统性能瓶颈。提升了乳腺肿瘤的分类性能,有较高的准确性。通过加入迁移学习,网络避免了过拟合的发生,缓解了数据集中数据量小引入深度学习困难的问题。本发明对医学领域的图像分类以及小数据集情况下的分类情况,具有通用性和广泛性。
附图说明
图1为本发明的总体算法流程图。
图2为本发明中应用的数据集样本样例,是从DDSM原始图像中扣取出的感兴趣区域,第一列(a~c)为正样本,第二列(d~f)为负样本。
图3为VGG16的基本框架。
图4为利用本发明中迁移学习方法与不采用本发明中方法,在相同数据集上F1分数的对比,其中实线代表网络加入迁移学习;虚线代表网络未加入迁移学习。
具体实施方式
本发明是基于卷积神经网络与迁移学习提出的系统设计方法,主要由3部分组成:1)数据集的平衡与数据增强处理;2)基于VGG16搭建新的CNN网络;3)引入迁移学习进行微调。
本发明引入了深度学习,深度学习的训练过程高度依赖于正确标记的大规模数据集,以及高性能GPU计算。医学领域不存在大规模数据集,这使得深度学习的引入存在困难。然而,在自然图像领域存在大规模数据集:ImageNet,它由数百万张1000多类图像组成。本发明计的肿瘤分类算法,利用在ImageNet数据集上预训练好的网络,来解决数据量不足的问题。
在经典CNN框架中,选取层数相对较浅,结构直观的VGG16作为诊断系统的网络基础。首先探究VGG16层内的网络结构提取特征能力的差异:将VGG16全部的全连接层移除,对剩余VGG16的层进行不同组合,在乳腺肿瘤数据集上进行特征的提取,应用相同的支持向量机SVM(Support Vector Machine)分类器去分类提取到的特征。分类效果差异,即反映了VGG16层内的网络结构提取特征能力的差异,依据此性能差异继而从VGG16层内选定网络层。之后,在此选定的结构基础上,连接新三层网络层,形成新网络。最后,针对小数据集的情况,选择将VGG16在ImageNet上预训练,进行权重迁移。进行VGG16网络参数不经预训练,直接权重随机初始化的实验对比。实验结果表明进行网络的权重预训练,对小数据集应用深度学习进行性能提升起到关键作用。
本发明的具体步骤和原理如下:
(一)数据不平衡处理与数据增强处理
数据不平衡,在医学领域图像数据集中普遍存在。本文中数据集的数据不平衡形式,主要为类间不平衡。数据的不平衡,会导致算法和网络在学习过程中,更多关注多数类别样本,倾向于学习到多数样本中更多信息,而少数类别样本,相对多数类别样本的学习被忽视。然而在医学图像中,少数类样本包含的信息,相对多数样本的信息来说通常更重要。例如将一个肿瘤患者判断为非肿瘤患者,这种误判危及患者生命,代价更大。所以少数类样本,即文章中数据集的正样本,将其错分呈现更大的代价。
不平衡问题导致了糟糕的假阳性比例,必须对不平衡的数据集进行处理,达到平衡状态。不平衡数据处理的算法包括:数据降采样、数据升采样、合成数据生成、代价敏感学习等。根据当前二分类任务,数据集中正样本为数据集中的少数类别样本,且少数类别样本包含的信息更加重要的情况,本发明选择随机升采样的算法(Random Over Sampling)。随机升采样算法的优势在于:不会将少数样本集中信息移除,保证少数样本集中信息损失为零。
AlexNet中引入数据增强方法,可以使参数量大的CNN网络减轻过拟合。数据增强的方法,通过增加图片的副本,防止对一张图片学习过拟合,提高了数据的利用率。这种方式相当于加噪声,在训练数据中增加冗余信息,仍旧得到正确结果,提高网络的泛化能力。在深度学习中,引入了数据增强的方法,提升网络的训练性能。
本发明针对平衡之后的数据,采取数据增强处理,进行旋转变换、翻转变换、平移变换。一方面,网络可以学到更多的图像不变性特征;另一方面,增加了数据集中的数据量,减轻过拟合的出现。
(二)基于VGG16搭建新CNN网络
首先,选用VGG16的特定层,作为的特征提取器和网络搭建的基础。特定层的选取标准,在后续章节详细介绍。VGG16在ImageNet2014比赛中的冠军,它的层数相对较浅,结构更为直观。VGG16包含13个卷积层和3个全连接层,VGG16具体结构如图4所示。在CNN网络的各层中,最后的3层全连接层占据整个网络的最大参数量,而对于较小的数据集训练时,降低模型的复杂度会减少过拟合的情况发生。并且全连接层逐渐在被如Global averagepooling层取代。基于以上原因,将CNN中本身设计的全连接层去除。全连接层具有综合全局信息的能力,也是提取特征的重要方法。在CNN网络中,从较浅层提取的特征,与较深层的特征相比,更加接近于图像的底层表示,含有更多输入图像的的轮廓、纹理等底层信息。而从网络中更深层提取的特征,往往比从浅层提取的特征包含更多高级抽象信息,更加。因此,我们从选择从原始CNN中移除VGG16的三个全连接层,在剩余的CNN网络结构基础上,进行实验选择出性能最佳的网络层,并根据最终的分类任务,设计出新的三层结构,与之进行组合,构成新的CNN网络。接近与最终的分类任务要求。
新网络的建立,具体分成两部分:网络的第一部分可以看作一个特征提取器。根据VGG16不同网络层提取的特征,在SVM上的分类结果选定。选取的标准为:提取的特征具有良好的分类性能表现,其后一到两层,维度较低,即具备相对较低的计算成本。这是在计算成本和性能之间寻找一个平衡。这部分作为新构建的CNN网络的特征提取部分。网络的第二部分作用可以视为:连接特征提取器并作为分类器。我们结合当前DDSM的分类任务,设计了两个全连接层和一个softmax分类函数作为重新构建的网络的分类功能部分。
(三)迁移学习的引入
迁移学习主要应用在两个不同的任务,或者两个不同领域数据集之间。小数据量的样本集作为目标域,大量标注的数据集作为源域。目前的迁移学习主要有两大类:第一类方法是基于目标域与源域图像差别较小的情况。在目标域与源域数据集之间,找到二者在数学上的映射关系,通过源域到目标域之间的数学映射关系,来扩充目标域数据量。然而目前在医学图像领域,不存在大量标注的公开数据集,因此无法将这种迁移学习方法,应用于医学图像数据集;第二类方法是基于目标域与源域图像差别较大的情况,建立在卷积神经网络层、特征之间的迁移。针对本发明的医学图像,采用第二种迁移学习方式,利用大型自然图像数据集ImageNet和深度卷积神经网络进行迁移学习。
网络参数初始化的具体步骤:首先,在ImageNet训练VGG16网络,然后迁移预训练权重,到新设计的网络中特征提取层。新网络的分类部分:之后,将VGG16在DDSM上提取的特征保留下来,输入到新设计的三层网络中,进行预训练,保留权重,载入新设计的三层。最终网络参数全部被初始化。
微调方式:我们在DDSM数据集上对网络进行训练,并对新建的CNN网络进行微调,意味着训练过程中,冻结具有最佳输出的层的权重,其他层权重可在训练过程中可变。训练中使用的优化函数选择是随机梯度下降Adam(Stochastic Gradient Descent),这可以保证大规模计算的速度。网络学习率(Learning Rate)按经验设定为0.01,网络动量(Momentum)为0.95。
对于不经预训练初始化的新网络:在乳腺DDSM数据集上网络完全随机初始化权重开始训练,即新构建网络的所有参数为随机值,随机值的分布服从高斯分布。训练过程未引入迁移学习,不包含微调过程。
通过对比实验,验证了本发明算法的有效性和鲁棒性,效果如附图4所示。在相同的DDSM数据集上,分别采用本设计中的迁移学习与未采用本算法的结果对照。结果表明本发明中的方法明显优于一般方法。

Claims (1)

1.一种基于卷积神经网络VGG16的乳腺肿瘤分类算法,包括下列步骤:
(1)数据预处理:对呈现数据不平衡状态的数据集,进行不平衡处理和数据增强处理。
(2)卷积神经网络的搭建:
1)网络预训练:利用VGG16,在ImageNet大型自然图像数据集上进行网络训练,并保存训练之后的权重;
2)网络关键节点选取:利用VGG16网络的不同层,在乳腺肿瘤DDSM数据集上进行特征的提取,对于提取的特征,应用相同的支持向量机SVM分类器分类,选取分类性能最高的层,作为新网络搭建的节点;
3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络;
(3).迁移学习的加入:
1)将新网络中对应于原始VGG16的部分,进行权重的迁移;剩余部分的网络层,将预训练之后的权重进行迁移。
2)采用新网络中特定层权重不可训练,其余层可变的方式进行调整。
CN201711214300.XA 2017-11-28 2017-11-28 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 Pending CN108021936A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711214300.XA CN108021936A (zh) 2017-11-28 2017-11-28 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711214300.XA CN108021936A (zh) 2017-11-28 2017-11-28 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法

Publications (1)

Publication Number Publication Date
CN108021936A true CN108021936A (zh) 2018-05-11

Family

ID=62077116

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711214300.XA Pending CN108021936A (zh) 2017-11-28 2017-11-28 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法

Country Status (1)

Country Link
CN (1) CN108021936A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763874A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于生成对抗网络的染色体分类方法及装置
CN109214433A (zh) * 2018-08-20 2019-01-15 福建师范大学 一种卷积神经网络区分肝癌分化等级的方法
CN109359551A (zh) * 2018-09-21 2019-02-19 深圳市璇玑实验室有限公司 一种基于机器学习的敏感图像识别方法与系统
CN109558942A (zh) * 2018-11-20 2019-04-02 电子科技大学 一种基于浅度学习的神经网络迁移方法
CN109740495A (zh) * 2018-12-28 2019-05-10 成都思晗科技股份有限公司 基于迁移学习技术的室外天气图像分类方法
CN109781732A (zh) * 2019-03-08 2019-05-21 江西憶源多媒体科技有限公司 一种微小物检测并分类计数的方法
CN110211069A (zh) * 2019-06-03 2019-09-06 广东工业大学 一种图像去噪模型及训练方法、系统、设备、计算机介质
CN110969622A (zh) * 2020-02-28 2020-04-07 南京安科医疗科技有限公司 用于辅助肺炎诊断的图像处理方法和系统
CN111340133A (zh) * 2020-03-10 2020-06-26 四川长虹电器股份有限公司 一种基于深度卷积神经网络的图像分类处理方法
CN112256903A (zh) * 2020-10-27 2021-01-22 华东交通大学 一种基于卷积神经网络DenseNet201的铁路扣件缺陷形态分类系统
CN112434754A (zh) * 2020-12-14 2021-03-02 前线智能科技(南京)有限公司 一种基于图神经网络的跨模态医学影像域适应分类方法
CN113421228A (zh) * 2021-06-03 2021-09-21 山东师范大学 一种基于参数迁移的甲状腺结节识别模型训练方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512640A (zh) * 2015-12-30 2016-04-20 重庆邮电大学 一种基于视频序列的人流量统计方法
CN105825511A (zh) * 2016-03-18 2016-08-03 南京邮电大学 一种基于深度学习的图片背景清晰度检测方法
CN106326931A (zh) * 2016-08-25 2017-01-11 南京信息工程大学 基于深度学习的乳腺钼靶图像自动分类方法
CN106485251A (zh) * 2016-10-08 2017-03-08 天津工业大学 基于深度学习的鸡蛋胚胎分类

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512640A (zh) * 2015-12-30 2016-04-20 重庆邮电大学 一种基于视频序列的人流量统计方法
CN105825511A (zh) * 2016-03-18 2016-08-03 南京邮电大学 一种基于深度学习的图片背景清晰度检测方法
CN106326931A (zh) * 2016-08-25 2017-01-11 南京信息工程大学 基于深度学习的乳腺钼靶图像自动分类方法
CN106485251A (zh) * 2016-10-08 2017-03-08 天津工业大学 基于深度学习的鸡蛋胚胎分类

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763874A (zh) * 2018-05-25 2018-11-06 南京大学 一种基于生成对抗网络的染色体分类方法及装置
CN109214433A (zh) * 2018-08-20 2019-01-15 福建师范大学 一种卷积神经网络区分肝癌分化等级的方法
CN109359551A (zh) * 2018-09-21 2019-02-19 深圳市璇玑实验室有限公司 一种基于机器学习的敏感图像识别方法与系统
CN109558942B (zh) * 2018-11-20 2021-11-26 电子科技大学 一种基于浅度学习的神经网络迁移方法
CN109558942A (zh) * 2018-11-20 2019-04-02 电子科技大学 一种基于浅度学习的神经网络迁移方法
CN109740495A (zh) * 2018-12-28 2019-05-10 成都思晗科技股份有限公司 基于迁移学习技术的室外天气图像分类方法
CN109781732A (zh) * 2019-03-08 2019-05-21 江西憶源多媒体科技有限公司 一种微小物检测并分类计数的方法
CN110211069A (zh) * 2019-06-03 2019-09-06 广东工业大学 一种图像去噪模型及训练方法、系统、设备、计算机介质
CN110969622A (zh) * 2020-02-28 2020-04-07 南京安科医疗科技有限公司 用于辅助肺炎诊断的图像处理方法和系统
CN111340133A (zh) * 2020-03-10 2020-06-26 四川长虹电器股份有限公司 一种基于深度卷积神经网络的图像分类处理方法
CN112256903A (zh) * 2020-10-27 2021-01-22 华东交通大学 一种基于卷积神经网络DenseNet201的铁路扣件缺陷形态分类系统
CN112434754A (zh) * 2020-12-14 2021-03-02 前线智能科技(南京)有限公司 一种基于图神经网络的跨模态医学影像域适应分类方法
CN113421228A (zh) * 2021-06-03 2021-09-21 山东师范大学 一种基于参数迁移的甲状腺结节识别模型训练方法及系统

Similar Documents

Publication Publication Date Title
CN108021936A (zh) 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法
US11636340B2 (en) Modeling method and apparatus for diagnosing ophthalmic disease based on artificial intelligence, and storage medium
Dou et al. Pnp-adanet: Plug-and-play adversarial domain adaptation network at unpaired cross-modality cardiac segmentation
CN109376636B (zh) 基于胶囊网络的眼底视网膜图像分类方法
JP2019193776A (ja) ディープラーニングに基づいたコンピュータ断層撮影肺結節検出法
CN109101994B (zh) 一种眼底图像筛查方法、装置、电子设备及存储介质
CN107506761A (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
CN105160346B (zh) 一种基于纹理和分布特征的舌苔腐腻识别方法
Albalawi et al. Classification of breast cancer mammogram images using convolution neural network
CN106780498A (zh) 基于逐像素点深度卷积网络上皮和基质组织自动分割方法
CN109118495A (zh) 一种视网膜血管分割方法和装置
CN111767952B (zh) 一种可解释的肺结节良恶性分类方法
CN109635669A (zh) 图像分类方法、装置及分类模型的训练方法、装置
CN112150476A (zh) 基于时空判别性特征学习的冠状动脉序列血管分割方法
CN109614869A (zh) 一种基于多尺度压缩奖惩网络的病理图像分类方法
CN106157279A (zh) 基于形态学分割的眼底图像病变检测方法
Li et al. Benign and malignant mammographic image classification based on convolutional neural networks
Liu et al. Automatic segmentation of brain MR images using an adaptive balloon snake model with fuzzy classification
Zuo et al. An embedded multi-branch 3D convolution neural network for false positive reduction in lung nodule detection
Kaldera et al. MRI based glioma segmentation using deep learning algorithms
Saueressig et al. Exploring graph-based neural networks for automatic brain tumor segmentation
Ma et al. Retinal vessel segmentation by deep residual learning with wide activation
Zhao et al. Edge-boosted U-Net for 2D medical image segmentation
CN112541856B (zh) 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法
CN110378353A (zh) 一种舌象特征提取方法、系统和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180511