CN110084318A

CN110084318A - 一种结合卷积神经网络和梯度提升树的图像识别方法

Info

Publication number: CN110084318A
Application number: CN201910375036.0A
Authority: CN
Inventors: 王沫楠; 唐力
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2019-05-07
Filing date: 2019-05-07
Publication date: 2019-08-02
Anticipated expiration: 2039-05-07
Also published as: CN110084318B

Abstract

本发明公开了一种结合卷积神经网络和梯度提升树的图像识别方法，属于机械学习技术领域。该方法根据输入图像尺寸大小获取一组图像补丁，与原图像一同作为输入数据，采用5个分支，每个分支采用改进后的VGG‑19模型对输入图像进行特征提取，然后将提取的特征输入到梯度提升树中进行训练，得到一个基本分类器，使用加权投票法将基本分类器组合为强分类器用于对输入图像进行分类。本方法通过对医学图像的识别证明，能够精确、快速的对输入医学图像进行分类，辅助医生诊断疾病，提高诊断效率，从而有效减少误诊率。

Description

一种结合卷积神经网络和梯度提升树的图像识别方法

技术领域

本发明涉及一种结合卷积神经网络和梯度提升树的图像识别方法，所属图像分析领域。

背景技术

在这个信息化时代，图像分析在我们日常生活中不可或缺，通过使用机械学习的方法可以帮助人们高效地管理图片。建立机械学习模型，通过在给定数据集上进行训练得到的训练模型可以完成新图像数据某些特定的任务，如识别、分类和分割等。支持向量机作为传统的机械学习算法，应用于图像分析领域效果显著。但是，传统的机械学习算法的准确率依赖于先验知识通过人工设计算法来提取特征，从而训练模型，由于人工选取特征难度较高，模型容易出现欠拟合和过拟合情况；不同模型之间由于提取特征的不同，准确率的差异也很大；一个样本数据集必须设计一个对应特征提取的方法，因此模型泛化能力难以保证。其次，随着科技的进步和发展，大数据时代到来，能够获取到大量的图像资源，而传统的机械学习方法难以适应大规模数据集，在大数据集上的表现不佳，深度学习因此应运而生。

深度学习是属于机械学习研究中的一个新领域，是机器学习中一种基于对数据进行表征学习的方法。通过模拟人类的学习行为，建立多层神经网络模型，使用反向传播、梯度下降等算法后，计算机会自动优化对输入数据进行的特征提取，从而达到较为精确地运算效果。在图像分析领域中，CNN卷积神经网络表现的异常出色，2012年ILSVRC比赛中Alexnet以绝对的优势摘得大赛桂冠，使得卷积神经网络重新回归公众的视野，之后不断蓬勃发展，目前CNN在图像分析领域处于主导地位。卷积神经网络的不断发展也推动了其在医学图像分析领域中的应用于研究，目前卷积神经网络在医学图像分析一些领域的应用中，完成任务的准确率已经超过医生。但是，深层卷积神经网络需要大规模数据集对模型进行训练，目前传统医学图像数据集规模并不是很大，含有隐私信息的图像数据更难以获取，所以很容易造成所述模型与样本数据集产生过拟合的现象，需要通过一些方法来实现优化。随着医学图像数据集的不断增加，深度学习也将成为一种不可或缺的计算机辅助诊断手段。

目前已经有深度学习和传统机械学习结合的模型，但是由于样本数据集规模过小、神经网络模型过于复杂，很容易出现过拟合现象，其次，基于一个分支训练的分类器分类准确性有待提升。

现有技术不足之处：

(1)传统的机械学习手工提取特征困难，难以适应大规模数据训练，并且模型的泛化能力较差。

(2)单纯的深度学习模型需要大规模的数据集对神经网络进行训练，而目前不具备如此大规模医学图像数据集，对于一些含有隐私信息的医学图像数据获取则更加困难，训练深度学习模型的时候很容易出现过拟合现象。

(3)已有的深度学习和传统机械学习结合模型准确率有待提升。

发明内容

本发明的目的在于解决目前已有方法的不足之处。通过获取图像补丁的方法获取一组输入图像的补丁，与输入图像一同作为输入数据分别输入到每个分支中的神经网络进行训练，提高对单个图像特征的提取的效果。采用在图像识别领域表现良好的VGG-19模型进行迁移学习，提出类感知损失函数，缩小相同类别图像间的类内间距，扩大不同类别图像间的类间间距，提高分类准确性，使用原始数据集和待训练数据集进行交替训练，减少模型与待训练数据集过拟合，使得模型在小样本数据集上一样有较好的表现。最后使用加权投票法对生成的多个基本分类器进行线性组合形成强分类器，进一步提高对输入图片的分类准确率。具体步骤如下：

步骤1，生成输入图像的图像补丁：根据输入图像长和宽的中心值将输入图像均匀的分为4张图像作为输入图像的图像补丁；

步骤2，输入图像的样本扩充和数据预处理：对原始图像和生成的图像补丁进行样本扩充，对扩充后的图像数据进行预处理，将图像和对应标签组合，根据图像样本的数量分为一定大小的批次作为卷积神经网络模型的输入数据；

步骤3，训练卷积神经网络模型：采用五个分支，原图像和每一个补丁图像分别对应一个分支作为输入的数据，每个分支中采用改进后的VGG-19模型，所述的VGG-19模型是在2014年ILSVRC挑战赛上使用的模型，使用类感知损失函数对所述模型进行训练；所述改进后的VGG-19模型为：

使用迁移学习的方法利用已经训练好的VGG-19模型的结构、权重及偏值参数，将所述模型的倒数第二层压缩为一维向量，用2048个神经元组成的全连接层替换最后一层卷积层；

所述类感知损失函数的设计为：

使用图像特征之间的欧式距离作为两个图像相似性度量的方法，提出一种新的类感知损失函数，给损失函数加上类间相似性的罚值，所述类间相似性为：提取图像的特征与该图像所属类别的特征中心间欧氏距离与提取图像的特征与该图像不所属其他类别的所有图像的特征中心间欧式距离的差值；所述特征中心为：类别中已被正确分类的所有图像特征的平均值；所述罚值为一个(0，1)间的数值，罚值的最佳数值可以通过交叉验证的方法确定；当一个样本数据得到正确分类后，更新该类别的特征中心；

步骤4，图像特征提取：将经过图像样本扩充和数据预处理后的图像数据输入到训练好的VGG-19模型中，每张输入图像经过训练后模型的计算能够提取2048个该图像的特征；

步骤5，训练梯度提升树模型：采用五个梯度提升树模型，每一个梯度提升树模型对应一个改进后的VGG-19模型，所述模型提取的图像特征结合图像对应分类标签作为梯度提升树模型的输入数据对梯度提升树模型进行训练，从而得到五个基本分类器；

步骤6，组合为强分类器：五个基本分类器基于加权投票法进行线性组合，形成一个强分类器；

步骤7，图像识别：对于给定任意一副待识别图像，会形成相应的图像补丁与原图像一同作为输入数据分别输入到每个分支中，经过两个模型的计算，并利用所述加权投票法合并5个分支的结果获取最终图像分类的结果。

进一步，所述步骤1中获取图像补丁的方法为：

获取输入图像尺寸，根据图像的长和宽的中心值对图像进行划分，获取4张大小相等的图像作为输入图像的图像补丁。

进一步，所述步骤2中图像样本扩充的方法包括以下方法中的至少一种：

添加随机噪声：通过给原始图像数据添加随机噪声，将数据扩充2倍；

随机裁剪：根据输入图像的尺寸选择合适的裁剪尺寸，对原始图像进行随机裁剪，将数据扩充2倍；

图像翻转：对图像进行上下、左右、对角线翻转，将数据扩充3倍；

图像色彩调整：设定随机范围对图像的亮度和图像对比度进行调整，将数据扩充2倍；

图像色调饱和度调整：设定随机范围对图像的色调和图像饱和度进行调整，将数据扩充2倍。

进一步，所述步骤2中图像数据预处理方法为批标准化。

进一步，所述步骤3中改进VGG-19神经网络模型由输入层、隐藏层、输出层组成：

所述输入层为，输入图像数据通过步骤2提出的样本扩充以及图像数据预处理方法处理后作为该模型的输入；

所述隐藏层由多个卷积层和池化层组成，卷积层用来提取图像特征，采用不同通道数控制输出图像的数量，池化层对提取的特征进行下采样，采用2*2大小的卷积核和大小为2的步长控制输出图像特征的数量；

所述输出层为一个由2048个神经元组成的全连接层。

进一步，所述步骤3中类感知损失函数的设计为：假定输入的训练样本个数为N：经过模型计算得到其中x_i表示第i张图片经过所述模型计算提取得到的特征，y_i表示x_i图像对应的标签，y_i∈{1,2,…k},k≥2,k表示分类个数，定义假设函数：

式中j表示第j类，j∈{1,2,…k}；θ_j表示输入图像分到j类的权重；

定义损失函数：

式中Φ{y_i＝j}定义为：

定义类间相似性函数：

E_t(x_i,p_i,n_i,m)＝max{0,D(x_i,p_i)-D(x_i,n_i)+m} (4)

式中p_i为输入图像所属类别中已被正确分类图像的特征中心，即所包含图像特征的平均值；n_i为输入图像不所属类别的其余所有类别已被正确分类的所有图像的特征中心，即所包含图像特征的平均值；m为控制特征空间边缘距离的超参数，其最佳数值可以通过交叉验证法确定；

最后结合(2)和(4)方程得到类感知损失函数：

E＝λJ(x,y,θ)+(1-λ)E_t(x_i,p_i,n_i,m) (5)

式中λ即为所述罚值，0＜λ＜1，罚值的最佳数值可以通过交叉验证的方法确定；所述类感知损失函数的设计能够最小化每个类别的类内距离，最大化不同类别之间的距离，提高分类准确性。

进一步，所述步骤3中训练卷积神经网络模型的方法为：

采用多任务训练的方法，根据所述模型的原始数据集和待训练数据集需要进行分类的数量给所述改进后的模型添加一层全连接输出层，需要分为几类就添加由几个神经元组成的全连接层；所述改进后的模型为主体，原始数据集和待训练数据集添加的全连接输出层分别为两个训练分支，采用所述模型的原始数据集和待训练数据集对模型进行交替训练的方法，原始数据集采用交叉熵损失函数进行训练，待训练数据集采用所述类感知损失函数进行训练，根据前向传播的损失值的大小,来进行反向传播迭代更新前面每一层的权重,直到模型的损失值趋向于收敛时,停止训练模型,将上述添加的输出层去掉，得到深度学习模型。

进一步，所述步骤4中提取图像特征的方法：

将图片数据输入到所述训练好的模型中，所述模型的输出层由2048个神经元组成，每一个神经元代表一个从输入图像中提取的特征，经过模型计算的到输入图像的2048个特征。

进一步，所述步骤5中梯度提升树的训练过程中，叶子的数量和树深度是控制属模型复杂性的主要参数，分别设置为191和6。

进一步，所述步骤6中使用加权投票法将5个基本分类器进行线性组合形成1个强分类器；所述加权投票法为：

根据5个基本分类器分类的准确率的高低对分类器进行加权处理，分类准确率高的分类器获得较高的权值，分类准确率低的分类器获得较低的权值；所述强分类器为加权后的5个基本分类器通过线性组合的形式形成的分类器。

进一步，所述步骤7中获得图像分类结果的过程为：

通过所述图像补丁获取方法获取4张输入图像的补丁，原始输入图像和生成的4张图像补丁分别作为5个分支的输入数据，所述第一个模型计算为，训练好的VGG-19模型对输入图像进行特征提取，所述第二个模型计算为，梯度提升树对所提取的特征进行计算并获取相应分类结果，所述合并结果为，基于加权投票法结合每一个分支的计算获取图像分类的结果；所述获取图像分类结果即为图像最终分类结果。

本发明具有以下有益效果：

(1)使用获取图像补丁的方法获取输入图像的补丁与原图像一同作为输入数据进行训练和分类，提升对原始图像特征提取的效果。

(2)提出新的类感知函数对神经网络模型进行训练，最小化同一类别的类内距离，最大化不同类别的类间距离，提高分类准确率。

(3)使用所述卷积神经网络原始数据集和待训练数据集对所述模型进行交替训练，减少所述模型与待训练数据集的过拟合，优化提取图像特征，从而获得更高的准确率。

(4)基于加权投票法将多个基本分类器进行线性组合形成强分类器，从而大大提高图像识别准确率。

附图说明

图1为本发明实施的流程图。

图2为本发明实施的框架图。

图3为本发明改进后VGG-19网络模型结构图。

具体实施方式

下面结合附图和本发明具体实施方式对本发明作进一步说明，此处描述的具体实施例仅为解释本发明，而非对本发明的限定。此外，为了便于描述，附图中仅显示出与本发明的部分实施方式，而不是全部的实施方式。

下面结合附图和具体实施例进一步阐述本发明。

本发明一种结合卷积神经网络和梯度提升树的图像识别方法，以乳腺癌图像识别分类为例，将输入图像分为正常组织、良性病变、癌变。如图1所示，将获取的CT或MRI扫描数据导入到本系统中，通过图像补丁获取方法生成输入图像的图像补丁，之后进行图像样本的扩充和预处理，将处理过的原始输入图像和图像补丁分别输入到5个分支中的卷积神经网络模型中进行交替训练，获得训练好的卷积神经网络模型，经过模型计算每个输入图像能够提取出2048个特征，将获得的图像特征结合所对应的图像分类标签作为梯度提升树的输入数据对梯度提升树进行训练，获得训练好的梯度提升树模型，最后依据加权投票法将获取的五个梯度提升树模型进行线性组合形成一个强分类器对输入图像进行识别分类。为了更好说明本发明实施例，展示了本发明算法实施的框架图，如图2，具体方法包括如下步骤：

步骤1，生成输入图像的图像补丁：

本发明根据输入图像长和宽的中心值将输入图像均匀的分为4张图像作为输入图像的图像补丁；

步骤2，输入图像的样本扩充和数据预处理，所述图像样本扩充至少包含以下方法其中一种：

添加随机噪声：通过给原始图像数据添加随机噪声，将数据扩充2倍。

随机裁剪：根据输入图像的尺寸选择合适的裁剪尺寸，对原始图像进行随机裁剪，将数据扩充2倍。

图像翻转：对图像进行上下、左右、对角线翻转，将数据扩充3倍。

图像色彩调整：设定随机范围对图像的亮度和图像对比度进行调整，将数据扩充2倍。

所述图像数据预处理使用的是批标准化方法。

步骤3，训练卷积神经网络模型：

采用多任务训练的方法，根据所述模型的原始数据集和待训练数据集需要进行分类的数量给所述改进后的模型添加一层全连接输出层，需要分为几类就添加由几个神经元组成的全连接层；所述改进后的模型为主体，原始数据集和待训练数据集添加的全连接输出层分别为两个训练分支，采用所述模型的原始数据集和待训练数据集对模型进行交替训练的方法，原始数据集采用交叉熵损失函数进行训练，待训练数据集采用所述类感知损失函数进行训练，根据前向传播的损失值的大小,来进行反向传播迭代更新前面每一层的权重,直到模型的损失值趋向于收敛时,停止训练模型,将上述添加的输出层去掉，得到深度学习模型，如图3，该模型使用keras机械学习库进行改进和训练，其中Conv2D表示卷积层，MaxPooling2D表示池化层，fc表示改进模型的输出层，输入输出括号中的内容含义分别为，第一个参数None表示输入样本的数量可以为任意数量，第二、第三个参数表示核尺寸，最后一个参数表示通道数。

步骤4，图像特征提取：

将经过图像样本扩充和数据预处理后的图像数据输入到训练好的VGG-19模型中，每张输入图像经过训练后模型的计算能够提取2048个该图像的特征，所述神经网络包括：

A.输入层

B.隐藏层

C.输出层

所述输出层为一个由2048个神经元组成的全连接层。

步骤5，训练梯度提升树：

梯度提升树的训练过程中，叶子的数量和树深度是控制树模型复杂性的主要参数，分别设置为191和6。将提取到的图像特征和标签输入梯度提升树中进行训练，得到基本分类器。

步骤6，合成强分类器：

利用加权投票法将5个基本分类器进行线性组合形成1个强分类器。所述加权投票法为，根据5个基本分类器分类的准确率对分类器进行加权，分类准确率高的分类器获得较高的权值，分类准确率低的分类器获得较低的权值。所述强分类器为加权后的5个基本分类器通过线性组合的形式形成分类器。

步骤7，获得分类结果：

上面结合附图对本发明的实施例做了详细说明,但本发明技术方案的使用不仅仅局限于本专利实施例中提及的各种应用,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,以达到本文中提及的各种增益效果。在本领域普通技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下做出的各种变化,均应包含在本发明的保护范围之内。

Claims

1.一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于，包括如下步骤：

所述类感知损失函数的设计为：

2.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤1中通过获取图像补丁的方法为：

3.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤2中图像样本扩充的方法包括以下方法中的至少一种：

4.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤2中图像数据预处理方法为批标准化。

5.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤3中改进VGG-19神经网络模型由输入层、隐藏层、输出层组成：

所述输出层为一个由2048个神经元组成的全连接层。

6.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤3中类感知损失函数的设计；假定输入的训练样本个数为N：经过模型计算得到其中x_i表示第i张图片经过所述模型计算提取得到的特征，y_i表示x_i图像对应的标签，y_i∈{1,2,…k},k≥2,k表示分类个数，定义假设函数：

定义损失函数：

式中Φ{y_i＝j}定义为：

定义类间相似性函数：

E_t(x_i,p_i,n_i,m)＝max{0,D(x_i,p_i)-D(x_i,n_i)+m} (4)

最后结合(2)和(4)方程得到类感知损失函数：

E＝λJ(x,y,θ)+(1-λ)E_t(x_i,p_i,n_i,m) (5)

7.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤3中训练卷积神经网络模型的方法为：

8.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤4中提取图像特征的方法：

9.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤5中梯度提升树的训练过程中，叶子的数量和树深度是控制树模型复杂性的主要参数，分别设置为191和6。

10.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤6中使用加权投票法将5个基本分类器进行线性组合形成1个强分类器；所述加权投票法为：

11.根据权利要求1所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于：所述步骤7中获得图像分类结果的过程为：

12.根据权利要求1-11任一项所述的一种结合卷积神经网络和梯度提升树的图像识别方法，其特征在于，所述图像识别方法应用于医学图像识别。