CN109272048B - 一种基于深度卷积神经网络的模式识别方法 - Google Patents

一种基于深度卷积神经网络的模式识别方法 Download PDF

Info

Publication number
CN109272048B
CN109272048B CN201811157800.9A CN201811157800A CN109272048B CN 109272048 B CN109272048 B CN 109272048B CN 201811157800 A CN201811157800 A CN 201811157800A CN 109272048 B CN109272048 B CN 109272048B
Authority
CN
China
Prior art keywords
data set
model
training
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811157800.9A
Other languages
English (en)
Other versions
CN109272048A (zh
Inventor
刘博�
史超
张佳慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201811157800.9A priority Critical patent/CN109272048B/zh
Publication of CN109272048A publication Critical patent/CN109272048A/zh
Application granted granted Critical
Publication of CN109272048B publication Critical patent/CN109272048B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种基于深度卷积神经网络的模式识别方法,主要是一种基于深度卷积神经网络,引入attention机制及图像增强手段的模式识别方法。首先拿到样本数据集,由相关专业人员对数据集图像进行标注,对图像做灰度处理,这样可以凸显出主要目标的轮廓,有利于特征提取,然后利用随机旋转不同角度对数据集进行扩充,再对图像数据做增强以及数据预处理,最后构建出能够高效提取图像特征的深度卷积神经网络,用建立好的数据集进行五折交叉验证对模型进行训练并测试,完成视觉辅助检测模型的构建。本发明在样本识别时运算效率更高,而模型参数减少,降低了资源的占用,以及对软硬件的高需求,可以更好投入到实际使用。

Description

一种基于深度卷积神经网络的模式识别方法
技术领域
本发明属于深度学习计算机视觉领域,主要是一种基于深度卷积神经网络,引入attention机制及图像增强手段的模式识别方法。
背景技术
“特征提取+分类器”是模式识别领域的经典框架,即通过人力构建特征对图像进行表示,再将特征层面的图像数据送入分类器实现目标图像的分类识别。神经学研究表明人类大脑在处理视觉图像的过程并没有对特征进行抽取,而是将信号传入到一个由大量神经元组成的深度网络并层层传递最终得到信号的隐式表达。深度学习正是通过模拟人脑信号的传输过程让图像在网络中传播并输出图像的有效表示。卷积神经网络作为目前广泛应用的深度模型在计算机视觉及图像处理等领域的成功应用引起了人们的广泛关注。相关研究也在大气、医疗、生物等领域取得了较好的实验效果。例如在医疗辅助识别领域,肺癌已经成为致人死亡的恶性疾病中比较典型的一种,肺部在病变前期的症状主要表现为结节,如果能早期发现并治疗将会极大提高存活率。肺部的检查也是每年体检的重要部分,肺部检查中主要手段是电子计算机断层扫描(CT),需要经专业医生逐个检查筛选存在肺结节的病例,工作量巨大并且考验着人工筛查的准确性,具有高度的主观差异性,基于深度学习的方法实现对图像特征进行提取制作的图像识别系统,可以完成甚至超过通过人眼进行识别的工作效果。因此一个计算机视觉辅助检测的方法对于癌症的及早诊断与治疗是非常具有实际意义的。
视觉辅助检测(Visual aided detection,VAD)随着人工智能的不断兴起,已经成为当下的研究热点。近年来国内外学者在各个研究领域也取得了一定的研究成果。例如Zhu等用传统机器学习SVM方法对肺结节进行了初步分类;Hu等利用反向传播神经网络,通过梯度下降算法调节误差来提取图像特征;Krewer等利用边缘纹理特征通过分类器对图像进行分类。然而,这些现有的方法还是具有一定缺陷。首先在对图像标注分割时,需要操作人员具有相关领域的专业知识,能够对标注样本点或纹理特征做出专业解释,而不同的方法提取到的特征可能不尽相同,同时有些图像十分复杂,如果计算机可以实现自动提取图像中特征,对图像进行分类,结果可能会更加客观,分类精度也会更高。
发明内容
本发明要解决的技术问题是,提供一种基于深度卷积神经网络的模式识别方法,首先拿到样本数据集,由相关专业人员对数据集图像进行标注,对图像做灰度处理,这样可以凸显出主要目标的轮廓,有利于特征提取,然后利用随机旋转不同角度对数据集进行扩充,再对图像数据做增强以及数据预处理,最后构建出能够高效提取图像特征的深度卷积神经网络(Convolutional Neural Network,CNN),用建立好的数据集进行五折交叉验证对模型进行训练并测试,完成视觉辅助检测模型(VAD)的构建。
本发明面向待检测图像数据,提出了一种基于深度卷积神经网络的模式识别方法。由于深度学习所需样本量巨大,但某些领域的图像难以获取,在训练过程会有欠拟合或过拟合的情况发生,需要加入一些样本噪声扩充数据集,同时采用五折交叉验证的训练方法,在防止过拟合的同时增加数据集样本量。输入图像的尺寸过大会占用过多不必要的资源,增大模型计算量,将图像进行适当压缩可以避免占用资源过大的问题。同时,在一张图片中可能需要识别的点只集中于某一小区域,因此引入attention机制来优化模型,attention机制可以利用有限的注意力资源从大量信息中快速筛选出高价值信息。
为了实现上述目的,本发明采用以下技术方案:目的在于提升分类识别准确性的同时让模型有更高的鲁棒性,同时又不会让模型太复杂。因此本发明使用了一个169层稠密连接卷积神经网络(Densely Connected Convolutional Network,DenseNet)来进行图像的分类识别。DenseNet的网络基本结构主要包含Dense Block和Transition Layer两个组成模块。其中Dense Block为稠密连接的highway模块,Transition Layer为相邻2个DenseBlock中的部分。DenseNet中的每一个稠密块(Dense Block)都利用了模块之前所有层的特征信息,每一层都和前向的每一层有highway的稠密连接,即每一层都接收了前向所有层的特征图作为输入,防止了随着网络层数加深而产生的梯度消失问题,同时也很好的减轻了过拟合现象的发生。由于Transition Layer会随机丢掉一半的特征,虽然网络层数很深,稠密连接又会使网络看起来很“臃肿”,但该模型的实际参数数量并不多,节约了大量资源占用。为进一步避免过拟合,本发明还通过对数据集引入噪声,对数据集中的图像随机添加90、180、270三个角度的旋转,扩充数据集。
为了增强模型的特征提取能力,对输入图像做了灰度处理,凸显目标区域轮廓,将图像压缩到256*256的尺寸,加快模型的训练。同时所有数据在进入模型前都做了批量正则化(Batch Normalization)处理。训练时也对数据进行了Five Crop,随机的水平、竖直翻转等数据增强方法。
视觉注意力机制是人类视觉特有的一种信号处理机制,通过快速扫面全局信息获得需要重点关注的区域,对这一特定区域投入更多注意力资源,避免无用信息干扰。本方法将注意力机制引入DenseNet,将模型计算力集中于更需要关注的区域。通过在模型的过渡层(Transition Layer)中加入注意力模块,让模型学习特征图每一个点的概率,最后根据所得概率权重加强图像信息。
本发明在训练时使用了五折交叉验证,在面对样本数量不足时,充分利用数据集对模型效果进行测试。
本发明采用的技术方案为一种基于深度卷积神经网络的模式识别方法,该方法包括以下步骤:步骤1、构建一个169层的DenseNet模型,该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成,稠密块与过渡层之间会有若干个卷积核。每个稠密块内,在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接,实现密集连接的特征图传递,一个具有L层的网络,那么highway稠密连接数目为L*(L+1)/2。模型的最后一层为一个Sigmoid输出的全连接层,输出分类结果。
步骤2、对数据集加入噪声,对数据集中每张图片随机添加90、180、270三个角度的旋转,起到扩充数据集的目的。
步骤3、对图像数据集进行相关预处理。
作为优选,步骤3具体包括以下步骤:
步骤3.1、将每张图像进行灰度处理,凸显目标区域位置及轮廓纹理,并将图像压缩到256*256的尺寸;
步骤3.2、对图像数据集中每张图像做Five Crop到224,有50%几率对图像随机进行水平、竖直翻转;
步骤3.3、使用ImageNet数据集的平均值与方差对数据集进行标准化处理,即对于图像中第i个点的原像素值xi求标准差
Figure BDA0001819323250000052
Figure BDA0001819323250000051
其中μ和σ2分别代表ImageNet数据集的均值与方差。
步骤3.4、将图像数据集随机生成五份数据集,每份图像数据集包含不同的训练集与验证集。训练集的数据占所有数据的80%,验证集的数据占所有数据的20%。
步骤4、使用预处理好的数据集对DenseNet模型进行训练。
作为优选,步骤4具体包括以下步骤:
步骤4.1、DenseNet模型的训练方法采用标准的Adam优化算法对DenseNet模型进行训练优化,训练时的batch size为16;
步骤4.2、在DenseNet模型的每个稠密块之间添加注意力模块。训练50个epoch,让DenseNet模型在训练过程中更关注目标区域。每个epoch之后DenseNet模型都会对验证集进行预测,记录DenseNet模型预测的准确率并输出,前20个epoch学习率设为0.001,第20次开始降为0.0001,第40次降为0.00001。通过五折交叉验证进行训练,生成最终的DenseNet模型作为最后结果。
步骤4.3、保存生成的DenseNet模型,使用测试集的数据对模型分类的准确率做出评价。
作为优选,DenseNet模型的整体训练平台是基于服务器,在Ubuntu系统上使用Pytorch深度学习框架实现。训练的GPU为两块GTX1080,并使用CUDA作为显卡的运算驱动。
与现有技术相比,本发明具有以下明显优势:
本发明在对图像进行分类识别时,完全依赖深度学习算法,摆脱了某些专业领域对专业知识要求的束缚,在模型的搭建上采用稠密连接方法,尽可能保留了全部图像特征,同时又避免了梯度消失问题以及模型体积爆炸等问题,能够训练出准确度,鲁棒性明显高于现有方法的深度模型。用多种方法对图像数据集进行扩充、增强,有效避免了模型出现过拟合的风险,提高了训练精度。由于加入了attention机制,在样本识别时运算效率更高,而模型参数减少,降低了资源的占用,以及对软硬件的高需求,可以更好投入到实际使用。综上所述,本文提出的基于深度卷积神经网络的模式识别方法具有面向海量数据、泛化能力强、应用领域广泛的优势。
附图说明
图1为本发明中DenseNet网络的基本结构;
图2为本发明中压缩输入图像的处理结构;
图3加入注意力机制的Transition Layer结构;
图4为本发明所涉及方法的流程图。
具体实施方式
以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有配置Ubuntu操作系统的PC机1台,GTX1080(8G)两块,所使用的辅助工具为深度学习训练框架Pytorch。
本发明所提供的基于深度卷积神经网络的模式识别方法主要包括以下步骤:
步骤1、构建一个169层的DenseNet模型,该模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成,层与层之间会有若干个卷积核。DenseNet网络的基本结构如图1。每个稠密块内,在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接,实现密集连接的特征图传递,一个具有L层的网络,那么highway稠密连接数目为L*(L+1)/2。模型的最后一层为一个Sigmoid输出的全连接层,来获得各类概率的分布。
步骤2、对数据集加入噪声,对数据集中每张图片随机添加90、180、270三个角度的旋转,起到扩充数据集的目的。
步骤3、对图像数据集进行相关预处理。
作为优选,步骤3具体包括以下步骤:
步骤3.1、将每张图像进行灰度处理,凸显目标区域位置及轮廓纹理,并将图像压缩到256*256的尺寸;
步骤3.2、使用ImageNet数据集的平均值与方差对数据集进行标准化
Figure BDA0001819323250000081
处理,即对于图像中第i个点的原像素值xi有:
Figure BDA0001819323250000082
其中μ和σ2分别代表ImageNet数据集的均值与方差。
步骤3.3、对图像数据集中每张图像做Five Crop到224,有50%几率对图像随机进行水平、竖直翻转;
步骤3.4、将图像数据集随机生成五份数据集,每份数据集包含不同的训练集与验证集。训练集的数据占所有数据的80%,验证集的数据占所有数据的20%。
步骤4、使用预处理好的数据集对DenseNet模型进行训练。
作为优选,步骤4具体包括以下步骤:
步骤4.1、模型的训练方法采用标准的Adam优化算法对DenseNet模型进行训练优化,训练时的batch size为16;
步骤4.2、在模型的每个稠密块之间添加注意力模块。训练50个epoch,让DenseNet模型在训练过程中更关注目标区域。每个epoch之后模型都会对验证集进行预测,记录模型预测的准确率并输出,前20个epoch学习率设为0.001,第20次开始降为0.0001,第40次降为0.00001。通过五折交叉验证进行训练,生成最终的DenseNet模型作为最终结果。
步骤4.3、保存生成的DenseNet模型,使用测试集的数据对模型分类的准确率做出评价。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。

Claims (2)

1.一种基于深度卷积神经网络的模式识别方法,其特征在于:该方法包括以下步骤:步骤1、构建一个169层的DenseNet模型,该DenseNet模型的主干结构是由4个密集连接的稠密块以及4个过渡层交替拼接而成,稠密块与过渡层之间会有若干个卷积核;每个稠密块内,在每次卷积操作开始前都要将之前所有的结果在通道方向上拼接,实现密集连接的特征图传递,一个具有L层的网络,那么highway稠密连接数目为L*(L+1)/2;模型的最后一层为一个Sigmoid输出的全连接层,输出分类结果;
步骤2、对数据集加入噪声,对数据集中每张图片随机添加90、180、270三个角度的旋转,起到扩充数据集的目的;
步骤3、对图像数据集进行相关预处理;
步骤3具体包括以下步骤:
步骤3.1、将每张图像进行灰度处理,凸显目标区域位置及轮廓纹理,并将图像压缩到256*256的尺寸;
步骤3.2、对图像数据集中每张图像做Five Crop到224,有50%几率对图像随机进行水平、竖直翻转;
步骤3.3、使用ImageNet数据集的平均值与方差对数据集进行标准化处理,即对于图像中第i个点的原像素值xi求标准差
Figure FDA0001819323240000011
Figure FDA0001819323240000012
其中μ和σ2分别代表ImageNet数据集的均值与方差;
步骤3.4、将图像数据集随机生成五份数据集,每份图像数据集包含不同的训练集与验证集;训练集的数据占所有数据的80%,验证集的数据占所有数据的20%;
步骤4、使用预处理好的数据集对DenseNet模型进行训练;
步骤4具体包括以下步骤:
步骤4.1、DenseNet模型的训练方法采用标准的Adam优化算法对DenseNet模型进行训练优化,训练时的batch size为16;
步骤4.2、在DenseNet模型的每个稠密块之间添加注意力模块;训练50个epoch,让DenseNet模型在训练过程中更关注目标区域;每个epoch之后DenseNet模型都会对验证集进行预测,记录DenseNet模型预测的准确率并输出,前20个epoch学习率设为0.001,第20次开始降为0.0001,第40次降为0.00001;通过五折交叉验证进行训练,生成最终的DenseNet模型作为最后结果;
步骤4.3、保存生成的DenseNet模型,使用测试集的数据对模型分类的准确率做出评价。
2.根据权利要求1所述的一种基于深度卷积神经网络的模式识别方法,其特征在于:DenseNet模型的整体训练平台是基于服务器,在Ubuntu系统上使用Pytorch深度学习框架实现;训练的GPU为两块GTX1080,并使用CUDA作为显卡的运算驱动。
CN201811157800.9A 2018-09-30 2018-09-30 一种基于深度卷积神经网络的模式识别方法 Active CN109272048B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811157800.9A CN109272048B (zh) 2018-09-30 2018-09-30 一种基于深度卷积神经网络的模式识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811157800.9A CN109272048B (zh) 2018-09-30 2018-09-30 一种基于深度卷积神经网络的模式识别方法

Publications (2)

Publication Number Publication Date
CN109272048A CN109272048A (zh) 2019-01-25
CN109272048B true CN109272048B (zh) 2022-04-12

Family

ID=65194963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811157800.9A Active CN109272048B (zh) 2018-09-30 2018-09-30 一种基于深度卷积神经网络的模式识别方法

Country Status (1)

Country Link
CN (1) CN109272048B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871823B (zh) * 2019-03-11 2021-08-31 中国电子科技集团公司第五十四研究所 一种结合旋转框和上下文信息的卫星图像舰船检测方法
CN110399845A (zh) * 2019-07-29 2019-11-01 上海海事大学 一种图像中连续成段文本检测与识别方法
CN111046793B (zh) * 2019-12-11 2023-05-02 北京工业大学 基于深度卷积神经网络的番茄病害识别方法
CN111079748A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 铁路货车滚轴承甩油故障检测方法
CN111126507A (zh) * 2019-12-30 2020-05-08 国网北京市电力公司 一种基于卷积神经网络的绘画作品作者识别方法
CN111583271A (zh) * 2020-04-13 2020-08-25 华东师范大学 一种基于癌症ct图像自动预测基因表达类别的方法
CN111523469B (zh) * 2020-04-23 2022-02-18 苏州浪潮智能科技有限公司 一种行人重识别方法、系统、设备及计算机可读存储介质
CN111671423B (zh) * 2020-06-18 2022-02-18 四川大学 一种eeg信号的表示方法、分类方法、可视化方法及介质
CN112598618B (zh) * 2020-11-16 2023-11-17 鞍钢集团矿业有限公司 一种基于图像识别技术的磨机给矿量预测方法
CN112418299B (zh) * 2020-11-19 2021-10-26 推想医疗科技股份有限公司 冠状动脉分割模型训练方法、冠状动脉分割方法、及装置
CN113221683A (zh) * 2021-04-27 2021-08-06 北京科技大学 教学场景下基于cnn模型的表情识别方法
CN113139517B (zh) * 2021-05-14 2023-10-27 广州广电卓识智能科技有限公司 人脸活体模型训练方法、检测方法、存储介质和检测系统
CN113658095A (zh) * 2021-07-09 2021-11-16 浙江大学 用于手工仪器绘图的工程图样评阅识别处理方法及装置
CN113706565B (zh) * 2021-07-23 2023-09-01 泰康保险集团股份有限公司 图像分割的方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589374B1 (en) * 2016-08-01 2017-03-07 12 Sigma Technologies Computer-aided diagnosis system for medical images using deep convolutional neural networks
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN107437096A (zh) * 2017-07-28 2017-12-05 北京大学 基于参数高效的深度残差网络模型的图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018053340A1 (en) * 2016-09-15 2018-03-22 Twitter, Inc. Super resolution using a generative adversarial network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589374B1 (en) * 2016-08-01 2017-03-07 12 Sigma Technologies Computer-aided diagnosis system for medical images using deep convolutional neural networks
CN107341518A (zh) * 2017-07-07 2017-11-10 东华理工大学 一种基于卷积神经网络的图像分类方法
CN107437096A (zh) * 2017-07-28 2017-12-05 北京大学 基于参数高效的深度残差网络模型的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度特征学习的图像自适应目标识别算法;张骞予等;《太原理工大学学报》;20180715(第04期);全文 *
深度卷积神经网络在图像识别算法中的研究与实现;韩星烁等;《微型机与应用》;20171110(第21期);全文 *

Also Published As

Publication number Publication date
CN109272048A (zh) 2019-01-25

Similar Documents

Publication Publication Date Title
CN109272048B (zh) 一种基于深度卷积神经网络的模式识别方法
CN108898175B (zh) 基于深度学习胃癌病理切片的计算机辅助模型构建方法
CN112116605B (zh) 一种基于集成深度卷积神经网络的胰腺ct图像分割方法
CN112101451B (zh) 一种基于生成对抗网络筛选图像块的乳腺癌组织病理类型分类方法
CN110276745B (zh) 一种基于生成对抗网络的病理图像检测算法
CN109544518B (zh) 一种应用于骨骼成熟度评估的方法及其系统
WO2021115084A1 (zh) 一种基于结构磁共振影像的大脑年龄深度学习预测系统
JP2022551683A (ja) 人工知能(ai)モデルを使用した非侵襲的遺伝子検査を行う方法及びシステム
CN113421652A (zh) 对医疗数据进行分析的方法、训练模型的方法及分析仪
CN111767952B (zh) 一种可解释的肺结节良恶性分类方法
WO2022127500A1 (zh) 基于多个神经网络的mri图像分割方法、装置及设备
CN112446891A (zh) 基于U-Net网络脑胶质瘤的医学图像分割方法
Jain et al. Lung nodule segmentation using salp shuffled shepherd optimization algorithm-based generative adversarial network
CN106780453A (zh) 一种基于深度信任网络实现对脑肿瘤分割的方法
CN114092450A (zh) 一种基于胃镜检查视频的实时图像分割方法、系统、装置
CN111932529A (zh) 一种图像分割方法、装置及系统
Pradhan et al. Lung cancer detection using 3D convolutional neural networks
CN115471701A (zh) 基于深度学习和迁移学习的肺腺癌组织学亚型分类方法
CN110827963A (zh) 针对病理图像的语义分割方法和电子设备
CN112381818B (zh) 面向亚类疾病的医学图像识别增强方法
CN113850796A (zh) 基于ct数据的肺部疾病识别方法及装置、介质和电子设备
CN113705670A (zh) 基于磁共振成像和深度学习的脑部图像分类方法及设备
Cao et al. 3D convolutional neural networks fusion model for lung nodule detection onclinical CT scans
Tsai et al. Deep learning techniques for colorectal cancer tissue classification
Ma et al. Automatic pulmonary ground‐glass opacity nodules detection and classification based on 3D neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant