CN108021936A

CN108021936A - 一种基于卷积神经网络vgg16的乳腺肿瘤分类算法

Info

Publication number: CN108021936A
Application number: CN201711214300.XA
Authority: CN
Inventors: 褚晶辉; 吴泽蕤; 吕卫
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2017-11-28
Filing date: 2017-11-28
Publication date: 2018-05-11

Abstract

本发明涉及一种基于卷积神经网络VGG16的乳腺肿瘤分类算法，包括：数据预处理：对呈现数据不平衡状态的数据集，进行不平衡处理和数据增强处理。卷积神经网络的搭建：1)网络预训练：利用VGG16，在ImageNet大型自然图像数据集上进行网络训练，并保存训练之后的权重；2)网络关键节点选取：利用VGG16网络的不同层，在乳腺肿瘤DDSM数据集上进行特征的提取，对于提取的特征，应用相同的支持向量机SVM分类器分类，选取分类性能最高的层，作为新网络搭建的节点；3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络；迁移学习。

Description

一种基于卷积神经网络VGG16的乳腺肿瘤分类算法

技术领域

本发明属于图像分类领域，涉及一种基于基础VGG16卷积神经网络搭建图像分类算法，可用于医学图像的分类任务。

背景技术

近年来，乳腺癌由于其高治病性，已经逐渐成为女性患疾病致死的一个主要因素。其致病的主要原因是乳腺组织中的恶性肿瘤细胞恶化。然而在医学研究中，针对乳腺肿瘤发病机制提出有效的治愈方法仍是医学盲区，因此进行肿瘤的早期诊断，已经成为防止乳腺癌发生的最有效方法。

然而目前普遍的研究方法，是基于传统机器学习方法，进行肿瘤分类。但当前的机器学习方法设计的分类性能提升遇到瓶颈，性能提升的空间有限。与此同时深度学习在计算机视觉领域飞速发展。CNN在许多图像分类挑战和任务中，击败了传统的机器学习方法。

发明内容

本发明提供一种利用深度学习方法提升医学图像分类性能的方法。首先，针对不平衡的数据集，进行数据平衡处理；并且为了避免过拟合的出现，并增加数据集中的数据量，并利用数据增强的方法，对数据集进行处理；然后，基于卷积神经网络VGG16进行每一层提取特征能力的探究；最后，加入迁移学习，搭建新的卷积神经网络并进行微调。技术方案如下：

一种基于卷积神经网络VGG16的乳腺肿瘤分类算法，包括下列步骤：

(1)数据预处理：对呈现数据不平衡状态的数据集，进行不平衡处理和数据增强处理。

(2)卷积神经网络的搭建：

1)网络预训练：利用VGG16，在ImageNet大型自然图像数据集上进行网络训练，并保存训练之后的权重；

2)网络关键节点选取：利用VGG16网络的不同层，在乳腺肿瘤DDSM数据集上进行特征的提取，对于提取的特征，应用相同的支持向量机SVM分类器分类，选取分类性能最高的层，作为新网络搭建的节点；

3)在选取的网络搭建的节点后连接两层全连接和一层softmax形成新的网络；

(3).迁移学习的加入：

1)将新网络中对应于原始VGG16的部分，进行权重的迁移；剩余部分的网络层，将预训练之后的权重进行迁移。

2)采用新网络中特定层权重不可训练，其余层可变的方式进行调整。

该方法可以有效地提升乳腺肿瘤分类结果，使得分类结果的精确度得到了明显提升。本发明优点为：引入深度学习和迁移学习，提升了分类性能。在经过预处理之后的数据集上，利用VGG16的框架，裁剪网络并建立新网络，引入迁移学习到网络的训练过程，并进行微调。本发明很好突破了传统机器学习方法搭建的系统性能瓶颈。提升了乳腺肿瘤的分类性能，有较高的准确性。通过加入迁移学习，网络避免了过拟合的发生，缓解了数据集中数据量小引入深度学习困难的问题。本发明对医学领域的图像分类以及小数据集情况下的分类情况，具有通用性和广泛性。

附图说明

图1为本发明的总体算法流程图。

图2为本发明中应用的数据集样本样例,是从DDSM原始图像中扣取出的感兴趣区域,第一列(a～c)为正样本，第二列(d～f)为负样本。

图3为VGG16的基本框架。

图4为利用本发明中迁移学习方法与不采用本发明中方法，在相同数据集上F1分数的对比，其中实线代表网络加入迁移学习；虚线代表网络未加入迁移学习。

具体实施方式

本发明是基于卷积神经网络与迁移学习提出的系统设计方法，主要由3部分组成：1)数据集的平衡与数据增强处理；2)基于VGG16搭建新的CNN网络；3)引入迁移学习进行微调。

本发明引入了深度学习，深度学习的训练过程高度依赖于正确标记的大规模数据集，以及高性能GPU计算。医学领域不存在大规模数据集，这使得深度学习的引入存在困难。然而，在自然图像领域存在大规模数据集:ImageNet,它由数百万张1000多类图像组成。本发明计的肿瘤分类算法，利用在ImageNet数据集上预训练好的网络，来解决数据量不足的问题。

在经典CNN框架中，选取层数相对较浅，结构直观的VGG16作为诊断系统的网络基础。首先探究VGG16层内的网络结构提取特征能力的差异：将VGG16全部的全连接层移除，对剩余VGG16的层进行不同组合，在乳腺肿瘤数据集上进行特征的提取，应用相同的支持向量机SVM(Support Vector Machine)分类器去分类提取到的特征。分类效果差异，即反映了VGG16层内的网络结构提取特征能力的差异，依据此性能差异继而从VGG16层内选定网络层。之后，在此选定的结构基础上，连接新三层网络层，形成新网络。最后，针对小数据集的情况，选择将VGG16在ImageNet上预训练，进行权重迁移。进行VGG16网络参数不经预训练，直接权重随机初始化的实验对比。实验结果表明进行网络的权重预训练，对小数据集应用深度学习进行性能提升起到关键作用。

本发明的具体步骤和原理如下：

(一)数据不平衡处理与数据增强处理

数据不平衡，在医学领域图像数据集中普遍存在。本文中数据集的数据不平衡形式，主要为类间不平衡。数据的不平衡，会导致算法和网络在学习过程中，更多关注多数类别样本，倾向于学习到多数样本中更多信息，而少数类别样本，相对多数类别样本的学习被忽视。然而在医学图像中，少数类样本包含的信息，相对多数样本的信息来说通常更重要。例如将一个肿瘤患者判断为非肿瘤患者，这种误判危及患者生命，代价更大。所以少数类样本，即文章中数据集的正样本，将其错分呈现更大的代价。

不平衡问题导致了糟糕的假阳性比例，必须对不平衡的数据集进行处理，达到平衡状态。不平衡数据处理的算法包括：数据降采样、数据升采样、合成数据生成、代价敏感学习等。根据当前二分类任务，数据集中正样本为数据集中的少数类别样本，且少数类别样本包含的信息更加重要的情况，本发明选择随机升采样的算法(Random Over Sampling)。随机升采样算法的优势在于：不会将少数样本集中信息移除，保证少数样本集中信息损失为零。

AlexNet中引入数据增强方法，可以使参数量大的CNN网络减轻过拟合。数据增强的方法，通过增加图片的副本，防止对一张图片学习过拟合，提高了数据的利用率。这种方式相当于加噪声，在训练数据中增加冗余信息，仍旧得到正确结果，提高网络的泛化能力。在深度学习中，引入了数据增强的方法，提升网络的训练性能。

本发明针对平衡之后的数据，采取数据增强处理，进行旋转变换、翻转变换、平移变换。一方面，网络可以学到更多的图像不变性特征；另一方面，增加了数据集中的数据量，减轻过拟合的出现。

(二)基于VGG16搭建新CNN网络

首先，选用VGG16的特定层，作为的特征提取器和网络搭建的基础。特定层的选取标准，在后续章节详细介绍。VGG16在ImageNet2014比赛中的冠军，它的层数相对较浅，结构更为直观。VGG16包含13个卷积层和3个全连接层，VGG16具体结构如图4所示。在CNN网络的各层中，最后的3层全连接层占据整个网络的最大参数量，而对于较小的数据集训练时，降低模型的复杂度会减少过拟合的情况发生。并且全连接层逐渐在被如Global averagepooling层取代。基于以上原因，将CNN中本身设计的全连接层去除。全连接层具有综合全局信息的能力，也是提取特征的重要方法。在CNN网络中，从较浅层提取的特征，与较深层的特征相比，更加接近于图像的底层表示，含有更多输入图像的的轮廓、纹理等底层信息。而从网络中更深层提取的特征，往往比从浅层提取的特征包含更多高级抽象信息，更加。因此，我们从选择从原始CNN中移除VGG16的三个全连接层，在剩余的CNN网络结构基础上，进行实验选择出性能最佳的网络层，并根据最终的分类任务，设计出新的三层结构，与之进行组合，构成新的CNN网络。接近与最终的分类任务要求。

新网络的建立，具体分成两部分：网络的第一部分可以看作一个特征提取器。根据VGG16不同网络层提取的特征，在SVM上的分类结果选定。选取的标准为：提取的特征具有良好的分类性能表现，其后一到两层，维度较低，即具备相对较低的计算成本。这是在计算成本和性能之间寻找一个平衡。这部分作为新构建的CNN网络的特征提取部分。网络的第二部分作用可以视为：连接特征提取器并作为分类器。我们结合当前DDSM的分类任务，设计了两个全连接层和一个softmax分类函数作为重新构建的网络的分类功能部分。

(三)迁移学习的引入

迁移学习主要应用在两个不同的任务，或者两个不同领域数据集之间。小数据量的样本集作为目标域，大量标注的数据集作为源域。目前的迁移学习主要有两大类：第一类方法是基于目标域与源域图像差别较小的情况。在目标域与源域数据集之间，找到二者在数学上的映射关系，通过源域到目标域之间的数学映射关系，来扩充目标域数据量。然而目前在医学图像领域，不存在大量标注的公开数据集，因此无法将这种迁移学习方法，应用于医学图像数据集；第二类方法是基于目标域与源域图像差别较大的情况，建立在卷积神经网络层、特征之间的迁移。针对本发明的医学图像，采用第二种迁移学习方式，利用大型自然图像数据集ImageNet和深度卷积神经网络进行迁移学习。

网络参数初始化的具体步骤：首先，在ImageNet训练VGG16网络，然后迁移预训练权重，到新设计的网络中特征提取层。新网络的分类部分：之后，将VGG16在DDSM上提取的特征保留下来，输入到新设计的三层网络中，进行预训练，保留权重，载入新设计的三层。最终网络参数全部被初始化。

微调方式：我们在DDSM数据集上对网络进行训练，并对新建的CNN网络进行微调，意味着训练过程中，冻结具有最佳输出的层的权重，其他层权重可在训练过程中可变。训练中使用的优化函数选择是随机梯度下降Adam(Stochastic Gradient Descent)，这可以保证大规模计算的速度。网络学习率(Learning Rate)按经验设定为0.01，网络动量(Momentum)为0.95。

对于不经预训练初始化的新网络：在乳腺DDSM数据集上网络完全随机初始化权重开始训练，即新构建网络的所有参数为随机值，随机值的分布服从高斯分布。训练过程未引入迁移学习，不包含微调过程。

通过对比实验，验证了本发明算法的有效性和鲁棒性，效果如附图4所示。在相同的DDSM数据集上，分别采用本设计中的迁移学习与未采用本算法的结果对照。结果表明本发明中的方法明显优于一般方法。

Claims

1.一种基于卷积神经网络VGG16的乳腺肿瘤分类算法，包括下列步骤：

(2)卷积神经网络的搭建：

(3).迁移学习的加入：