CN108021936A - 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 - Google Patents
一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 Download PDFInfo
- Publication number
- CN108021936A CN108021936A CN201711214300.XA CN201711214300A CN108021936A CN 108021936 A CN108021936 A CN 108021936A CN 201711214300 A CN201711214300 A CN 201711214300A CN 108021936 A CN108021936 A CN 108021936A
- Authority
- CN
- China
- Prior art keywords
- network
- vgg16
- data
- training
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
Abstract
本发明涉及一种基于卷积神经网络VGG16的乳腺肿瘤分类算法,包括:数据预处理:对呈现数据不平衡状态的数据集,进行不平衡处理和数据增强处理。卷积神经网络的搭建:1)网络预训练:利用VGG16,在ImageNet大型自然图像数据集上进行网络训练,并保存训练之后的权重;2)网络关键节点选取:利用VGG16网络的不同层,在乳腺肿瘤DDSM数据集上进行特征的提取,对于提取的特征,应用相同的支持向量机SVM分类器分类,选取分类性能最高的层,作为新网络搭建的节点;3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络;迁移学习。
Description
技术领域
本发明属于图像分类领域,涉及一种基于基础VGG16卷积神经网络搭建图像分类算法,可用于医学图像的分类任务。
背景技术
近年来,乳腺癌由于其高治病性,已经逐渐成为女性患疾病致死的一个主要因素。其致病的主要原因是乳腺组织中的恶性肿瘤细胞恶化。然而在医学研究中,针对乳腺肿瘤发病机制提出有效的治愈方法仍是医学盲区,因此进行肿瘤的早期诊断,已经成为防止乳腺癌发生的最有效方法。
然而目前普遍的研究方法,是基于传统机器学习方法,进行肿瘤分类。但当前的机器学习方法设计的分类性能提升遇到瓶颈,性能提升的空间有限。与此同时深度学习在计算机视觉领域飞速发展。CNN在许多图像分类挑战和任务中,击败了传统的机器学习方法。
发明内容
本发明提供一种利用深度学习方法提升医学图像分类性能的方法。首先,针对不平衡的数据集,进行数据平衡处理;并且为了避免过拟合的出现,并增加数据集中的数据量,并利用数据增强的方法,对数据集进行处理;然后,基于卷积神经网络VGG16进行每一层提取特征能力的探究;最后,加入迁移学习,搭建新的卷积神经网络并进行微调。技术方案如下:
一种基于卷积神经网络VGG16的乳腺肿瘤分类算法,包括下列步骤:
(1)数据预处理:对呈现数据不平衡状态的数据集,进行不平衡处理和数据增强处理。
(2)卷积神经网络的搭建:
1)网络预训练:利用VGG16,在ImageNet大型自然图像数据集上进行网络训练,并保存训练之后的权重;
2)网络关键节点选取:利用VGG16网络的不同层,在乳腺肿瘤DDSM数据集上进行特征的提取,对于提取的特征,应用相同的支持向量机SVM分类器分类,选取分类性能最高的层,作为新网络搭建的节点;
3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络;
(3).迁移学习的加入:
1)将新网络中对应于原始VGG16的部分,进行权重的迁移;剩余部分的网络层,将预训练之后的权重进行迁移。
2)采用新网络中特定层权重不可训练,其余层可变的方式进行调整。
该方法可以有效地提升乳腺肿瘤分类结果,使得分类结果的精确度得到了明显提升。本发明优点为:引入深度学习和迁移学习,提升了分类性能。在经过预处理之后的数据集上,利用VGG16的框架,裁剪网络并建立新网络,引入迁移学习到网络的训练过程,并进行微调。本发明很好突破了传统机器学习方法搭建的系统性能瓶颈。提升了乳腺肿瘤的分类性能,有较高的准确性。通过加入迁移学习,网络避免了过拟合的发生,缓解了数据集中数据量小引入深度学习困难的问题。本发明对医学领域的图像分类以及小数据集情况下的分类情况,具有通用性和广泛性。
附图说明
图1为本发明的总体算法流程图。
图2为本发明中应用的数据集样本样例,是从DDSM原始图像中扣取出的感兴趣区域,第一列(a~c)为正样本,第二列(d~f)为负样本。
图3为VGG16的基本框架。
图4为利用本发明中迁移学习方法与不采用本发明中方法,在相同数据集上F1分数的对比,其中实线代表网络加入迁移学习;虚线代表网络未加入迁移学习。
具体实施方式
本发明是基于卷积神经网络与迁移学习提出的系统设计方法,主要由3部分组成:1)数据集的平衡与数据增强处理;2)基于VGG16搭建新的CNN网络;3)引入迁移学习进行微调。
本发明引入了深度学习,深度学习的训练过程高度依赖于正确标记的大规模数据集,以及高性能GPU计算。医学领域不存在大规模数据集,这使得深度学习的引入存在困难。然而,在自然图像领域存在大规模数据集:ImageNet,它由数百万张1000多类图像组成。本发明计的肿瘤分类算法,利用在ImageNet数据集上预训练好的网络,来解决数据量不足的问题。
在经典CNN框架中,选取层数相对较浅,结构直观的VGG16作为诊断系统的网络基础。首先探究VGG16层内的网络结构提取特征能力的差异:将VGG16全部的全连接层移除,对剩余VGG16的层进行不同组合,在乳腺肿瘤数据集上进行特征的提取,应用相同的支持向量机SVM(Support Vector Machine)分类器去分类提取到的特征。分类效果差异,即反映了VGG16层内的网络结构提取特征能力的差异,依据此性能差异继而从VGG16层内选定网络层。之后,在此选定的结构基础上,连接新三层网络层,形成新网络。最后,针对小数据集的情况,选择将VGG16在ImageNet上预训练,进行权重迁移。进行VGG16网络参数不经预训练,直接权重随机初始化的实验对比。实验结果表明进行网络的权重预训练,对小数据集应用深度学习进行性能提升起到关键作用。
本发明的具体步骤和原理如下:
(一)数据不平衡处理与数据增强处理
数据不平衡,在医学领域图像数据集中普遍存在。本文中数据集的数据不平衡形式,主要为类间不平衡。数据的不平衡,会导致算法和网络在学习过程中,更多关注多数类别样本,倾向于学习到多数样本中更多信息,而少数类别样本,相对多数类别样本的学习被忽视。然而在医学图像中,少数类样本包含的信息,相对多数样本的信息来说通常更重要。例如将一个肿瘤患者判断为非肿瘤患者,这种误判危及患者生命,代价更大。所以少数类样本,即文章中数据集的正样本,将其错分呈现更大的代价。
不平衡问题导致了糟糕的假阳性比例,必须对不平衡的数据集进行处理,达到平衡状态。不平衡数据处理的算法包括:数据降采样、数据升采样、合成数据生成、代价敏感学习等。根据当前二分类任务,数据集中正样本为数据集中的少数类别样本,且少数类别样本包含的信息更加重要的情况,本发明选择随机升采样的算法(Random Over Sampling)。随机升采样算法的优势在于:不会将少数样本集中信息移除,保证少数样本集中信息损失为零。
AlexNet中引入数据增强方法,可以使参数量大的CNN网络减轻过拟合。数据增强的方法,通过增加图片的副本,防止对一张图片学习过拟合,提高了数据的利用率。这种方式相当于加噪声,在训练数据中增加冗余信息,仍旧得到正确结果,提高网络的泛化能力。在深度学习中,引入了数据增强的方法,提升网络的训练性能。
本发明针对平衡之后的数据,采取数据增强处理,进行旋转变换、翻转变换、平移变换。一方面,网络可以学到更多的图像不变性特征;另一方面,增加了数据集中的数据量,减轻过拟合的出现。
(二)基于VGG16搭建新CNN网络
首先,选用VGG16的特定层,作为的特征提取器和网络搭建的基础。特定层的选取标准,在后续章节详细介绍。VGG16在ImageNet2014比赛中的冠军,它的层数相对较浅,结构更为直观。VGG16包含13个卷积层和3个全连接层,VGG16具体结构如图4所示。在CNN网络的各层中,最后的3层全连接层占据整个网络的最大参数量,而对于较小的数据集训练时,降低模型的复杂度会减少过拟合的情况发生。并且全连接层逐渐在被如Global averagepooling层取代。基于以上原因,将CNN中本身设计的全连接层去除。全连接层具有综合全局信息的能力,也是提取特征的重要方法。在CNN网络中,从较浅层提取的特征,与较深层的特征相比,更加接近于图像的底层表示,含有更多输入图像的的轮廓、纹理等底层信息。而从网络中更深层提取的特征,往往比从浅层提取的特征包含更多高级抽象信息,更加。因此,我们从选择从原始CNN中移除VGG16的三个全连接层,在剩余的CNN网络结构基础上,进行实验选择出性能最佳的网络层,并根据最终的分类任务,设计出新的三层结构,与之进行组合,构成新的CNN网络。接近与最终的分类任务要求。
新网络的建立,具体分成两部分:网络的第一部分可以看作一个特征提取器。根据VGG16不同网络层提取的特征,在SVM上的分类结果选定。选取的标准为:提取的特征具有良好的分类性能表现,其后一到两层,维度较低,即具备相对较低的计算成本。这是在计算成本和性能之间寻找一个平衡。这部分作为新构建的CNN网络的特征提取部分。网络的第二部分作用可以视为:连接特征提取器并作为分类器。我们结合当前DDSM的分类任务,设计了两个全连接层和一个softmax分类函数作为重新构建的网络的分类功能部分。
(三)迁移学习的引入
迁移学习主要应用在两个不同的任务,或者两个不同领域数据集之间。小数据量的样本集作为目标域,大量标注的数据集作为源域。目前的迁移学习主要有两大类:第一类方法是基于目标域与源域图像差别较小的情况。在目标域与源域数据集之间,找到二者在数学上的映射关系,通过源域到目标域之间的数学映射关系,来扩充目标域数据量。然而目前在医学图像领域,不存在大量标注的公开数据集,因此无法将这种迁移学习方法,应用于医学图像数据集;第二类方法是基于目标域与源域图像差别较大的情况,建立在卷积神经网络层、特征之间的迁移。针对本发明的医学图像,采用第二种迁移学习方式,利用大型自然图像数据集ImageNet和深度卷积神经网络进行迁移学习。
网络参数初始化的具体步骤:首先,在ImageNet训练VGG16网络,然后迁移预训练权重,到新设计的网络中特征提取层。新网络的分类部分:之后,将VGG16在DDSM上提取的特征保留下来,输入到新设计的三层网络中,进行预训练,保留权重,载入新设计的三层。最终网络参数全部被初始化。
微调方式:我们在DDSM数据集上对网络进行训练,并对新建的CNN网络进行微调,意味着训练过程中,冻结具有最佳输出的层的权重,其他层权重可在训练过程中可变。训练中使用的优化函数选择是随机梯度下降Adam(Stochastic Gradient Descent),这可以保证大规模计算的速度。网络学习率(Learning Rate)按经验设定为0.01,网络动量(Momentum)为0.95。
对于不经预训练初始化的新网络:在乳腺DDSM数据集上网络完全随机初始化权重开始训练,即新构建网络的所有参数为随机值,随机值的分布服从高斯分布。训练过程未引入迁移学习,不包含微调过程。
通过对比实验,验证了本发明算法的有效性和鲁棒性,效果如附图4所示。在相同的DDSM数据集上,分别采用本设计中的迁移学习与未采用本算法的结果对照。结果表明本发明中的方法明显优于一般方法。
Claims (1)
1.一种基于卷积神经网络VGG16的乳腺肿瘤分类算法,包括下列步骤:
(1)数据预处理:对呈现数据不平衡状态的数据集,进行不平衡处理和数据增强处理。
(2)卷积神经网络的搭建:
1)网络预训练:利用VGG16,在ImageNet大型自然图像数据集上进行网络训练,并保存训练之后的权重;
2)网络关键节点选取:利用VGG16网络的不同层,在乳腺肿瘤DDSM数据集上进行特征的提取,对于提取的特征,应用相同的支持向量机SVM分类器分类,选取分类性能最高的层,作为新网络搭建的节点;
3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络;
(3).迁移学习的加入:
1)将新网络中对应于原始VGG16的部分,进行权重的迁移;剩余部分的网络层,将预训练之后的权重进行迁移。
2)采用新网络中特定层权重不可训练,其余层可变的方式进行调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711214300.XA CN108021936A (zh) | 2017-11-28 | 2017-11-28 | 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711214300.XA CN108021936A (zh) | 2017-11-28 | 2017-11-28 | 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021936A true CN108021936A (zh) | 2018-05-11 |
Family
ID=62077116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711214300.XA Pending CN108021936A (zh) | 2017-11-28 | 2017-11-28 | 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108021936A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763874A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于生成对抗网络的染色体分类方法及装置 |
CN109214433A (zh) * | 2018-08-20 | 2019-01-15 | 福建师范大学 | 一种卷积神经网络区分肝癌分化等级的方法 |
CN109359551A (zh) * | 2018-09-21 | 2019-02-19 | 深圳市璇玑实验室有限公司 | 一种基于机器学习的敏感图像识别方法与系统 |
CN109558942A (zh) * | 2018-11-20 | 2019-04-02 | 电子科技大学 | 一种基于浅度学习的神经网络迁移方法 |
CN109740495A (zh) * | 2018-12-28 | 2019-05-10 | 成都思晗科技股份有限公司 | 基于迁移学习技术的室外天气图像分类方法 |
CN109781732A (zh) * | 2019-03-08 | 2019-05-21 | 江西憶源多媒体科技有限公司 | 一种微小物检测并分类计数的方法 |
CN110211069A (zh) * | 2019-06-03 | 2019-09-06 | 广东工业大学 | 一种图像去噪模型及训练方法、系统、设备、计算机介质 |
CN110969622A (zh) * | 2020-02-28 | 2020-04-07 | 南京安科医疗科技有限公司 | 用于辅助肺炎诊断的图像处理方法和系统 |
CN111340133A (zh) * | 2020-03-10 | 2020-06-26 | 四川长虹电器股份有限公司 | 一种基于深度卷积神经网络的图像分类处理方法 |
CN112256903A (zh) * | 2020-10-27 | 2021-01-22 | 华东交通大学 | 一种基于卷积神经网络DenseNet201的铁路扣件缺陷形态分类系统 |
CN112434754A (zh) * | 2020-12-14 | 2021-03-02 | 前线智能科技(南京)有限公司 | 一种基于图神经网络的跨模态医学影像域适应分类方法 |
CN113421228A (zh) * | 2021-06-03 | 2021-09-21 | 山东师范大学 | 一种基于参数迁移的甲状腺结节识别模型训练方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512640A (zh) * | 2015-12-30 | 2016-04-20 | 重庆邮电大学 | 一种基于视频序列的人流量统计方法 |
CN105825511A (zh) * | 2016-03-18 | 2016-08-03 | 南京邮电大学 | 一种基于深度学习的图片背景清晰度检测方法 |
CN106326931A (zh) * | 2016-08-25 | 2017-01-11 | 南京信息工程大学 | 基于深度学习的乳腺钼靶图像自动分类方法 |
CN106485251A (zh) * | 2016-10-08 | 2017-03-08 | 天津工业大学 | 基于深度学习的鸡蛋胚胎分类 |
-
2017
- 2017-11-28 CN CN201711214300.XA patent/CN108021936A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512640A (zh) * | 2015-12-30 | 2016-04-20 | 重庆邮电大学 | 一种基于视频序列的人流量统计方法 |
CN105825511A (zh) * | 2016-03-18 | 2016-08-03 | 南京邮电大学 | 一种基于深度学习的图片背景清晰度检测方法 |
CN106326931A (zh) * | 2016-08-25 | 2017-01-11 | 南京信息工程大学 | 基于深度学习的乳腺钼靶图像自动分类方法 |
CN106485251A (zh) * | 2016-10-08 | 2017-03-08 | 天津工业大学 | 基于深度学习的鸡蛋胚胎分类 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763874A (zh) * | 2018-05-25 | 2018-11-06 | 南京大学 | 一种基于生成对抗网络的染色体分类方法及装置 |
CN109214433A (zh) * | 2018-08-20 | 2019-01-15 | 福建师范大学 | 一种卷积神经网络区分肝癌分化等级的方法 |
CN109359551A (zh) * | 2018-09-21 | 2019-02-19 | 深圳市璇玑实验室有限公司 | 一种基于机器学习的敏感图像识别方法与系统 |
CN109558942B (zh) * | 2018-11-20 | 2021-11-26 | 电子科技大学 | 一种基于浅度学习的神经网络迁移方法 |
CN109558942A (zh) * | 2018-11-20 | 2019-04-02 | 电子科技大学 | 一种基于浅度学习的神经网络迁移方法 |
CN109740495A (zh) * | 2018-12-28 | 2019-05-10 | 成都思晗科技股份有限公司 | 基于迁移学习技术的室外天气图像分类方法 |
CN109781732A (zh) * | 2019-03-08 | 2019-05-21 | 江西憶源多媒体科技有限公司 | 一种微小物检测并分类计数的方法 |
CN110211069A (zh) * | 2019-06-03 | 2019-09-06 | 广东工业大学 | 一种图像去噪模型及训练方法、系统、设备、计算机介质 |
CN110969622A (zh) * | 2020-02-28 | 2020-04-07 | 南京安科医疗科技有限公司 | 用于辅助肺炎诊断的图像处理方法和系统 |
CN111340133A (zh) * | 2020-03-10 | 2020-06-26 | 四川长虹电器股份有限公司 | 一种基于深度卷积神经网络的图像分类处理方法 |
CN112256903A (zh) * | 2020-10-27 | 2021-01-22 | 华东交通大学 | 一种基于卷积神经网络DenseNet201的铁路扣件缺陷形态分类系统 |
CN112434754A (zh) * | 2020-12-14 | 2021-03-02 | 前线智能科技(南京)有限公司 | 一种基于图神经网络的跨模态医学影像域适应分类方法 |
CN113421228A (zh) * | 2021-06-03 | 2021-09-21 | 山东师范大学 | 一种基于参数迁移的甲状腺结节识别模型训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108021936A (zh) | 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法 | |
US11636340B2 (en) | Modeling method and apparatus for diagnosing ophthalmic disease based on artificial intelligence, and storage medium | |
Dou et al. | Pnp-adanet: Plug-and-play adversarial domain adaptation network at unpaired cross-modality cardiac segmentation | |
CN109376636B (zh) | 基于胶囊网络的眼底视网膜图像分类方法 | |
JP2019193776A (ja) | ディープラーニングに基づいたコンピュータ断層撮影肺結節検出法 | |
CN109101994B (zh) | 一种眼底图像筛查方法、装置、电子设备及存储介质 | |
CN107506761A (zh) | 基于显著性学习卷积神经网络的脑部图像分割方法及系统 | |
CN105160346B (zh) | 一种基于纹理和分布特征的舌苔腐腻识别方法 | |
Albalawi et al. | Classification of breast cancer mammogram images using convolution neural network | |
CN106780498A (zh) | 基于逐像素点深度卷积网络上皮和基质组织自动分割方法 | |
CN109118495A (zh) | 一种视网膜血管分割方法和装置 | |
CN111767952B (zh) | 一种可解释的肺结节良恶性分类方法 | |
CN109635669A (zh) | 图像分类方法、装置及分类模型的训练方法、装置 | |
CN112150476A (zh) | 基于时空判别性特征学习的冠状动脉序列血管分割方法 | |
CN109614869A (zh) | 一种基于多尺度压缩奖惩网络的病理图像分类方法 | |
CN106157279A (zh) | 基于形态学分割的眼底图像病变检测方法 | |
Li et al. | Benign and malignant mammographic image classification based on convolutional neural networks | |
Liu et al. | Automatic segmentation of brain MR images using an adaptive balloon snake model with fuzzy classification | |
Zuo et al. | An embedded multi-branch 3D convolution neural network for false positive reduction in lung nodule detection | |
Kaldera et al. | MRI based glioma segmentation using deep learning algorithms | |
Saueressig et al. | Exploring graph-based neural networks for automatic brain tumor segmentation | |
Ma et al. | Retinal vessel segmentation by deep residual learning with wide activation | |
Zhao et al. | Edge-boosted U-Net for 2D medical image segmentation | |
CN112541856B (zh) | 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法 | |
CN110378353A (zh) | 一种舌象特征提取方法、系统和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180511 |