CN109272048B

CN109272048B - 一种基于深度卷积神经网络的模式识别方法

Info

Publication number: CN109272048B
Application number: CN201811157800.9A
Authority: CN
Inventors: 刘博�; 史超; 张佳慧
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2022-04-12
Anticipated expiration: 2038-09-30
Also published as: CN109272048A

Abstract

本发明公开了一种基于深度卷积神经网络的模式识别方法，主要是一种基于深度卷积神经网络，引入attention机制及图像增强手段的模式识别方法。首先拿到样本数据集，由相关专业人员对数据集图像进行标注，对图像做灰度处理，这样可以凸显出主要目标的轮廓，有利于特征提取，然后利用随机旋转不同角度对数据集进行扩充，再对图像数据做增强以及数据预处理，最后构建出能够高效提取图像特征的深度卷积神经网络，用建立好的数据集进行五折交叉验证对模型进行训练并测试，完成视觉辅助检测模型的构建。本发明在样本识别时运算效率更高，而模型参数减少，降低了资源的占用，以及对软硬件的高需求，可以更好投入到实际使用。

Description

一种基于深度卷积神经网络的模式识别方法

技术领域

本发明属于深度学习计算机视觉领域，主要是一种基于深度卷积神经网络，引入attention机制及图像增强手段的模式识别方法。

背景技术

“特征提取+分类器”是模式识别领域的经典框架，即通过人力构建特征对图像进行表示，再将特征层面的图像数据送入分类器实现目标图像的分类识别。神经学研究表明人类大脑在处理视觉图像的过程并没有对特征进行抽取，而是将信号传入到一个由大量神经元组成的深度网络并层层传递最终得到信号的隐式表达。深度学习正是通过模拟人脑信号的传输过程让图像在网络中传播并输出图像的有效表示。卷积神经网络作为目前广泛应用的深度模型在计算机视觉及图像处理等领域的成功应用引起了人们的广泛关注。相关研究也在大气、医疗、生物等领域取得了较好的实验效果。例如在医疗辅助识别领域，肺癌已经成为致人死亡的恶性疾病中比较典型的一种，肺部在病变前期的症状主要表现为结节，如果能早期发现并治疗将会极大提高存活率。肺部的检查也是每年体检的重要部分，肺部检查中主要手段是电子计算机断层扫描(CT)，需要经专业医生逐个检查筛选存在肺结节的病例，工作量巨大并且考验着人工筛查的准确性，具有高度的主观差异性，基于深度学习的方法实现对图像特征进行提取制作的图像识别系统，可以完成甚至超过通过人眼进行识别的工作效果。因此一个计算机视觉辅助检测的方法对于癌症的及早诊断与治疗是非常具有实际意义的。

视觉辅助检测(Visual aided detection，VAD)随着人工智能的不断兴起，已经成为当下的研究热点。近年来国内外学者在各个研究领域也取得了一定的研究成果。例如Zhu等用传统机器学习SVM方法对肺结节进行了初步分类；Hu等利用反向传播神经网络，通过梯度下降算法调节误差来提取图像特征；Krewer等利用边缘纹理特征通过分类器对图像进行分类。然而，这些现有的方法还是具有一定缺陷。首先在对图像标注分割时，需要操作人员具有相关领域的专业知识，能够对标注样本点或纹理特征做出专业解释，而不同的方法提取到的特征可能不尽相同，同时有些图像十分复杂，如果计算机可以实现自动提取图像中特征，对图像进行分类，结果可能会更加客观，分类精度也会更高。

发明内容

本发明要解决的技术问题是，提供一种基于深度卷积神经网络的模式识别方法，首先拿到样本数据集，由相关专业人员对数据集图像进行标注，对图像做灰度处理，这样可以凸显出主要目标的轮廓，有利于特征提取，然后利用随机旋转不同角度对数据集进行扩充，再对图像数据做增强以及数据预处理，最后构建出能够高效提取图像特征的深度卷积神经网络(Convolutional Neural Network，CNN)，用建立好的数据集进行五折交叉验证对模型进行训练并测试，完成视觉辅助检测模型(VAD)的构建。

本发明面向待检测图像数据，提出了一种基于深度卷积神经网络的模式识别方法。由于深度学习所需样本量巨大，但某些领域的图像难以获取，在训练过程会有欠拟合或过拟合的情况发生，需要加入一些样本噪声扩充数据集，同时采用五折交叉验证的训练方法，在防止过拟合的同时增加数据集样本量。输入图像的尺寸过大会占用过多不必要的资源，增大模型计算量，将图像进行适当压缩可以避免占用资源过大的问题。同时，在一张图片中可能需要识别的点只集中于某一小区域，因此引入attention机制来优化模型，attention机制可以利用有限的注意力资源从大量信息中快速筛选出高价值信息。

为了实现上述目的，本发明采用以下技术方案：目的在于提升分类识别准确性的同时让模型有更高的鲁棒性，同时又不会让模型太复杂。因此本发明使用了一个169层稠密连接卷积神经网络(Densely Connected Convolutional Network,DenseNet)来进行图像的分类识别。DenseNet的网络基本结构主要包含Dense Block和Transition Layer两个组成模块。其中Dense Block为稠密连接的highway模块，Transition Layer为相邻2个DenseBlock中的部分。DenseNet中的每一个稠密块(Dense Block)都利用了模块之前所有层的特征信息，每一层都和前向的每一层有highway的稠密连接，即每一层都接收了前向所有层的特征图作为输入，防止了随着网络层数加深而产生的梯度消失问题，同时也很好的减轻了过拟合现象的发生。由于Transition Layer会随机丢掉一半的特征，虽然网络层数很深，稠密连接又会使网络看起来很“臃肿”，但该模型的实际参数数量并不多，节约了大量资源占用。为进一步避免过拟合，本发明还通过对数据集引入噪声，对数据集中的图像随机添加90、180、270三个角度的旋转，扩充数据集。

为了增强模型的特征提取能力，对输入图像做了灰度处理，凸显目标区域轮廓，将图像压缩到256*256的尺寸，加快模型的训练。同时所有数据在进入模型前都做了批量正则化(Batch Normalization)处理。训练时也对数据进行了Five Crop，随机的水平、竖直翻转等数据增强方法。

视觉注意力机制是人类视觉特有的一种信号处理机制，通过快速扫面全局信息获得需要重点关注的区域，对这一特定区域投入更多注意力资源，避免无用信息干扰。本方法将注意力机制引入DenseNet，将模型计算力集中于更需要关注的区域。通过在模型的过渡层(Transition Layer)中加入注意力模块，让模型学习特征图每一个点的概率，最后根据所得概率权重加强图像信息。

本发明在训练时使用了五折交叉验证，在面对样本数量不足时，充分利用数据集对模型效果进行测试。

本发明采用的技术方案为一种基于深度卷积神经网络的模式识别方法，该方法包括以下步骤：步骤1、构建一个169层的DenseNet模型，该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成，稠密块与过渡层之间会有若干个卷积核。每个稠密块内，在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接，实现密集连接的特征图传递，一个具有L层的网络，那么highway稠密连接数目为L*(L+1)/2。模型的最后一层为一个Sigmoid输出的全连接层，输出分类结果。

步骤2、对数据集加入噪声，对数据集中每张图片随机添加90、180、270三个角度的旋转，起到扩充数据集的目的。

步骤3、对图像数据集进行相关预处理。

作为优选，步骤3具体包括以下步骤：

步骤3.1、将每张图像进行灰度处理，凸显目标区域位置及轮廓纹理，并将图像压缩到256*256的尺寸；

步骤3.2、对图像数据集中每张图像做Five Crop到224，有50％几率对图像随机进行水平、竖直翻转；

步骤3.3、使用ImageNet数据集的平均值与方差对数据集进行标准化处理，即对于图像中第i个点的原像素值x_i求标准差

其中μ和σ²分别代表ImageNet数据集的均值与方差。

步骤3.4、将图像数据集随机生成五份数据集，每份图像数据集包含不同的训练集与验证集。训练集的数据占所有数据的80％，验证集的数据占所有数据的20％。

步骤4、使用预处理好的数据集对DenseNet模型进行训练。

作为优选，步骤4具体包括以下步骤：

步骤4.1、DenseNet模型的训练方法采用标准的Adam优化算法对DenseNet模型进行训练优化，训练时的batch size为16；

步骤4.2、在DenseNet模型的每个稠密块之间添加注意力模块。训练50个epoch，让DenseNet模型在训练过程中更关注目标区域。每个epoch之后DenseNet模型都会对验证集进行预测，记录DenseNet模型预测的准确率并输出，前20个epoch学习率设为0.001，第20次开始降为0.0001，第40次降为0.00001。通过五折交叉验证进行训练，生成最终的DenseNet模型作为最后结果。

步骤4.3、保存生成的DenseNet模型，使用测试集的数据对模型分类的准确率做出评价。

作为优选，DenseNet模型的整体训练平台是基于服务器，在Ubuntu系统上使用Pytorch深度学习框架实现。训练的GPU为两块GTX1080，并使用CUDA作为显卡的运算驱动。

与现有技术相比，本发明具有以下明显优势：

本发明在对图像进行分类识别时，完全依赖深度学习算法，摆脱了某些专业领域对专业知识要求的束缚，在模型的搭建上采用稠密连接方法，尽可能保留了全部图像特征，同时又避免了梯度消失问题以及模型体积爆炸等问题，能够训练出准确度，鲁棒性明显高于现有方法的深度模型。用多种方法对图像数据集进行扩充、增强，有效避免了模型出现过拟合的风险，提高了训练精度。由于加入了attention机制，在样本识别时运算效率更高，而模型参数减少，降低了资源的占用，以及对软硬件的高需求，可以更好投入到实际使用。综上所述，本文提出的基于深度卷积神经网络的模式识别方法具有面向海量数据、泛化能力强、应用领域广泛的优势。

附图说明

图1为本发明中DenseNet网络的基本结构；

图2为本发明中压缩输入图像的处理结构；

图3加入注意力机制的Transition Layer结构；

图4为本发明所涉及方法的流程图。

具体实施方式

以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所用到的硬件设备有配置Ubuntu操作系统的PC机1台，GTX1080(8G)两块，所使用的辅助工具为深度学习训练框架Pytorch。

本发明所提供的基于深度卷积神经网络的模式识别方法主要包括以下步骤：

步骤1、构建一个169层的DenseNet模型，该模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成，层与层之间会有若干个卷积核。DenseNet网络的基本结构如图1。每个稠密块内，在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接，实现密集连接的特征图传递，一个具有L层的网络，那么highway稠密连接数目为L*(L+1)/2。模型的最后一层为一个Sigmoid输出的全连接层，来获得各类概率的分布。

步骤3、对图像数据集进行相关预处理。

作为优选，步骤3具体包括以下步骤：

步骤3.2、使用ImageNet数据集的平均值与方差对数据集进行标准化

处理，即对于图像中第i个点的原像素值x_i有：

其中μ和σ²分别代表ImageNet数据集的均值与方差。

步骤3.3、对图像数据集中每张图像做Five Crop到224，有50％几率对图像随机进行水平、竖直翻转；

步骤3.4、将图像数据集随机生成五份数据集，每份数据集包含不同的训练集与验证集。训练集的数据占所有数据的80％，验证集的数据占所有数据的20％。

步骤4、使用预处理好的数据集对DenseNet模型进行训练。

作为优选，步骤4具体包括以下步骤：

步骤4.1、模型的训练方法采用标准的Adam优化算法对DenseNet模型进行训练优化，训练时的batch size为16；

步骤4.2、在模型的每个稠密块之间添加注意力模块。训练50个epoch，让DenseNet模型在训练过程中更关注目标区域。每个epoch之后模型都会对验证集进行预测，记录模型预测的准确率并输出，前20个epoch学习率设为0.001，第20次开始降为0.0001，第40次降为0.00001。通过五折交叉验证进行训练，生成最终的DenseNet模型作为最终结果。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种基于深度卷积神经网络的模式识别方法，其特征在于：该方法包括以下步骤：步骤1、构建一个169层的DenseNet模型，该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成，稠密块与过渡层之间会有若干个卷积核；每个稠密块内，在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接，实现密集连接的特征图传递，一个具有L层的网络，那么highway稠密连接数目为L*(L+1)/2；模型的最后一层为一个Sigmoid输出的全连接层，输出分类结果；

步骤2、对数据集加入噪声，对数据集中每张图片随机添加90、180、270三个角度的旋转，起到扩充数据集的目的；

步骤3、对图像数据集进行相关预处理；

步骤3具体包括以下步骤：

其中μ和σ²分别代表ImageNet数据集的均值与方差；

步骤3.4、将图像数据集随机生成五份数据集，每份图像数据集包含不同的训练集与验证集；训练集的数据占所有数据的80％，验证集的数据占所有数据的20％；

步骤4、使用预处理好的数据集对DenseNet模型进行训练；

步骤4具体包括以下步骤：

步骤4.2、在DenseNet模型的每个稠密块之间添加注意力模块；训练50个epoch，让DenseNet模型在训练过程中更关注目标区域；每个epoch之后DenseNet模型都会对验证集进行预测，记录DenseNet模型预测的准确率并输出，前20个epoch学习率设为0.001，第20次开始降为0.0001，第40次降为0.00001；通过五折交叉验证进行训练，生成最终的DenseNet模型作为最后结果；

2.根据权利要求1所述的一种基于深度卷积神经网络的模式识别方法，其特征在于：DenseNet模型的整体训练平台是基于服务器，在Ubuntu系统上使用Pytorch深度学习框架实现；训练的GPU为两块GTX1080，并使用CUDA作为显卡的运算驱动。