CN112488170B - 一种基于深度学习的多特征融合图像分类方法 - Google Patents

一种基于深度学习的多特征融合图像分类方法 Download PDF

Info

Publication number
CN112488170B
CN112488170B CN202011328440.1A CN202011328440A CN112488170B CN 112488170 B CN112488170 B CN 112488170B CN 202011328440 A CN202011328440 A CN 202011328440A CN 112488170 B CN112488170 B CN 112488170B
Authority
CN
China
Prior art keywords
classification
feature
network model
network
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011328440.1A
Other languages
English (en)
Other versions
CN112488170A (zh
Inventor
岳雪颖
田泽坤
孙玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011328440.1A priority Critical patent/CN112488170B/zh
Publication of CN112488170A publication Critical patent/CN112488170A/zh
Application granted granted Critical
Publication of CN112488170B publication Critical patent/CN112488170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于深度学习的多特征融合图像分类方法。具体包括数据集划分、数据增强、分类网络模型构建、模型初始化与模型训练优化。数据增强部分通过对图片随机进行水平翻转、垂直翻转、修改亮度和依概率水平翻转等操作,增强数据特征。在分类网络模型构建的过程中对第一次提取的特征进行随机遮盖后再次提取,而后对两次提取的特征进行融合,使特征多样化,提高了分类精确度。本系统可以用于对眼部恶性肿瘤图像进行分类,定位图像中的病变区域作为特征区域,给出病变类型的概率值,辅助阅片医生判断。

Description

一种基于深度学习的多特征融合图像分类方法
技术领域
本发明属于人工智能领域,具体涉及一种基于深度学习的图像分类方法。
背景技术
随着深度学习的发展,利用神经网络对图片做分类任务的技术已经趋于成熟,传统的神经网络利用卷积神经网络对图片进行特征提取。由于图片中可能存在多种重要的特征,传统的特征提取可能无法精准的提取所有特征,对分类的准确性造成一定的影响。利用注意力机制提取出某些值得注意的特征,并对其中一个特征进行随机遮盖,并将处理后的特征与原图特征进行相加,进行特征相加能够忽视某些特征而重点强调其他更重要的特征,使神经网络的训练能够尽可能的捕捉到更多的特征,而不是可能单一的侧重某些明显的特征。
发明内容
针对现有技术的不足,本发明提出了一种基于深度学习的多特征融合图像分类方法,设计深度学习模型,提取特征后定位图像中的重点特征区域,然后对重点特征区域再次进行特征提取,对两次提取的特征相加后再分类,提高分类准确度。
一种基于深度学习的多特征融合图像分类方法,包括如下步骤:
步骤1、数据集划分;
将采集到的划分为训练集,测试集以及验证集。
步骤2、数据增强;
对训练集、测试集和验证集中的图片进行归一化处理后将图片剪裁至(224,224);
对训练集中的图片随机进行水平翻转、垂直翻转、修改亮度和依据概率P1对图片进行水平翻转中的一个或几个组合的操作。
作为优选,概率P1=0.5。
步骤3、构建分类网络模型;
将步骤2处理后的测试集图片输入改进的resnet18网络中,生成特征图A;所述改进的resnet18网络删除了resnet18网络平均池化层之后的部分。再将特征图A输入ARPY网络中,输出重点特征的位置信息x、y和z,其中x和y为重要特征区域的左上角坐标,z为重要特征区域的边长。所述ARPY网络为两个卷积核为3*3的卷积层相连后再连接两个全连接层。将重点特征对应的区域进行剪裁后重设尺寸为224*224,随机遮挡后输入改进的resnet18网络中,得到特征图B。将特征图A和特征图B进行相加操作后再依次经过全连接层FC1、概率为P2的Dropout层、全连接层FC2、BN层、全连接层FC3、relu激活函数层、全连接层FC4和softmax函数,输出特征区域的类别概率值。
作为优选,概率P2=0.5。
步骤4、初始化分类网络模型;
采用迁移学习方法,使用超大规模视觉图像挑战赛ImageNet中的图片所训练的权重初始化步骤3构建的分类网络模型。
步骤5、优化分类网络模型;
向步骤4初始化后的分类网络模型输入验证集,将输出的分类结果与真实标签进行比较,通过反向传播算法,使用损失函数CrossEntropyLoss()计算损失值,然后使用Adam优化方法循环训练多次直至预定目标,保存此时分类网络模型的参数权重。
作为优选,所述预定目标为验证集的分类准确率达到0.94。
步骤6、获得分类结果
将测试集输入步骤5训练优化后的分类网络模型,得到特征区域的概率值,完成图片分类。
本发明具有以下有益效果:
(1)使用基于深度学习的分类网络模型,可以定位病理图像中的特征区域,并给出类别概率值,辅助医生快速找到病变区域。
(2)考虑多个重要特征,对重要特征区域剪裁后进行随机遮盖,再次训练新生成的特征,使特征多样化,然后再融合两次提取的特征,使特征更精准,提高分类准确度。
附图说明
图1是基于深度学习的图像分类方法的分类流程图;
图2是实施例中分类网络模型的详细结构图。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
本实施例的硬件环境为8vCPU/64G内存,GPU为V100,软件运行环境是CUDA:9.2.148、python3.7、pytorch 1.0.1.post2。
如图1所示,一种基于深度学习的多特征融合图像分类方法的分类步骤如下:
步骤1、将采集到的眼部肿瘤数字病理图像分为训练集、验证集和测试集,每一个集合中都包含初期,中期,晚期三种样本。
步骤2、将训练集、验证集和测试集中的图片统一进行归一化处理后再剪裁至224*224,并对训练集中的图片随机进行水平翻转、垂直翻转、修改亮度和依据概率P1=0.5对图像进行水平翻转。
步骤3、建立如图2所示的分类网络模型,包括改进的resnet18网络,ARPY网络模块、4个全连接层、1个Dropout层、1个BN层、1个relu激活函数层和1个softmax函数层。所述改进的resnet18网络删除了resnet18网络平均池化层之后的部分;所述ARPY为2个3*3的卷积层和2个全连接层依次连接。
将步骤2处理后的训练集图片输入改进的resnet18网络中,从最后一层卷积层的输出得到特征图A,再将特征图A输入ARPY网络模块中,得到特征图A中重要特征区域的位置信息x、y和z,其中x和y为重要特征区域的左上角坐标,z为重要特征区域的边长。对重要特征区域剪裁后重设尺寸为224*224,再输入改进的resnet18网络中,得到特征图B,将特征图A和特征图B相加操作后,依次经过全连接层FC1、概率为0.5的Dropout层、全连接层FC2、BN层、全连接层FC3、relu激活函数层、全连接层FC4和softmax函数,即可得到分类结果。
步骤4、采用迁移学习方法,使用超大规模视觉图像挑战赛ImageNet中的图片所训练的权重初始化步骤3构建的分类网络模型。将验证集输入初始化后的分类网络模型,比较网络输出的结果与实际标签,通过CrossEntropyLoss交叉熵损失函数计算损失值。使用Adam优化方法根据损失值对分类网络模型进行权重参数的优化以降低损失值,提高分类网络模型的分类精确度,循环训练50次,在验证集的分类准确率达到0.94时停止优化训练,保存模型参数。
步骤5、将测试集的图片输入步骤4优化后的分类模型中,得到特征区域的类别概率值,完成图片分类。

Claims (4)

1.一种基于深度学习的多特征融合图像分类方法,其特征在于:具体包括以下步骤:
步骤1、数据集划分;
将采集的眼部肿瘤数字病理图像划分为训练集,测试集以及验证集;
步骤2、数据增强;
对训练集、测试集和验证集中的图片进行归一化处理后将图片剪裁至(224,224);
对训练集中的图片随机进行水平翻转、垂直翻转、修改亮度和依据概率P1对图片进行水平翻转中的一个或几个组合的操作;
步骤3、构建分类网络模型;
将步骤2处理后的测试集图片输入改进的resnet18网络中,生成特征图A;所述改进的resnet18网络删除了resnet18网络平均池化层之后的部分;再将特征图A输入ARPY网络中,输出重点特征的位置信息x、y和z,其中x和y为重要特征区域的左上角坐标,z为重要特征区域的边长;所述ARPY网络为两个卷积核为3*3的卷积层相连后再连接两个全连接层;将重点特征对应的区域进行剪裁后重设尺寸为224*224,随机遮挡后输入改进的resnet18网络中,得到特征图B;将特征图A和特征图B进行相加操作后再依次经过全连接层FC1、概率为P2的Dropout层、全连接层FC2、BN层、全连接层FC3、relu激活函数层、全连接层FC4和softmax函数,输出特征区域的类别概率值;
步骤4、初始化分类网络模型;
采用迁移学习方法,使用超大规模视觉图像挑战赛ImageNet中的图片所训练的权重初始化步骤3构建的分类网络模型;
步骤5、优化分类网络模型;
向步骤4初始化后的分类网络模型输入验证集,将输出的分类结果与真实标签进行比较,通过反向传播算法,使用损失函数CrossEntropyLoss()计算损失值,然后使用Adam优化方法循环训练多次直至预定目标,保存此时分类网络模型的参数权重;
步骤6、获得分类结果
将测试集输入步骤5训练优化后的分类网络模型,得到特征区域的概率值,完成图片分类。
2.如权利要求1所述一种基于深度学习的多特征融合图像分类方法,其特征在于:步骤2中对图片进行水平翻转的概率P1=0.5。
3.如权利要求1所述一种基于深度学习的多特征融合图像分类方法,其特征在于:步骤3中,分类模型网络的Dropout层的概率P2=0.5。
4.如权利要求1所述一种基于深度学习的多特征融合图像分类方法,其特征在于:步骤5中使用Adam优化方法多次循环训练的预定目标为验证集的分类准确率达到0.94。
CN202011328440.1A 2020-11-24 2020-11-24 一种基于深度学习的多特征融合图像分类方法 Active CN112488170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011328440.1A CN112488170B (zh) 2020-11-24 2020-11-24 一种基于深度学习的多特征融合图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011328440.1A CN112488170B (zh) 2020-11-24 2020-11-24 一种基于深度学习的多特征融合图像分类方法

Publications (2)

Publication Number Publication Date
CN112488170A CN112488170A (zh) 2021-03-12
CN112488170B true CN112488170B (zh) 2024-04-05

Family

ID=74933440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011328440.1A Active CN112488170B (zh) 2020-11-24 2020-11-24 一种基于深度学习的多特征融合图像分类方法

Country Status (1)

Country Link
CN (1) CN112488170B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792355B (zh) * 2022-06-24 2023-02-24 北京百度网讯科技有限公司 虚拟形象生成方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372648A (zh) * 2016-10-20 2017-02-01 中国海洋大学 基于多特征融合卷积神经网络的浮游生物图像分类方法
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
CN106372648A (zh) * 2016-10-20 2017-02-01 中国海洋大学 基于多特征融合卷积神经网络的浮游生物图像分类方法

Also Published As

Publication number Publication date
CN112488170A (zh) 2021-03-12

Similar Documents

Publication Publication Date Title
US11794110B2 (en) System and method for toy recognition
CN111553193B (zh) 一种基于轻量级深层神经网络的视觉slam闭环检测方法
WO2021134871A1 (zh) 基于局部二值模式和深度学习的合成人脸图像取证方法
CN111062973B (zh) 基于目标特征敏感性和深度学习的车辆跟踪方法
CN108416266B (zh) 一种利用光流提取运动目标的视频行为快速识别方法
CN108009222B (zh) 基于较优视图和深度卷积神经网络的三维模型检索方法
CN108090561B (zh) 存储介质、电子装置、游戏操作的执行方法和装置
CN111027464B (zh) 对卷积神经网络和序特征编码联合优化的虹膜识别方法
Kadam et al. Detection and localization of multiple image splicing using MobileNet V1
CN108009481A (zh) 一种cnn模型的训练方法及装置、人脸识别方法及装置
CN110991444B (zh) 面向复杂场景的车牌识别方法及装置
CN111833322B (zh) 一种基于改进YOLOv3的垃圾多目标检测方法
CN111046793B (zh) 基于深度卷积神经网络的番茄病害识别方法
CN110532946A (zh) 一种基于卷积神经网络识别绿通车车辆轴型的方法
CN112329771B (zh) 一种基于深度学习的建筑材料样本识别方法
CN116721301B (zh) 目标场景分类模型训练方法、分类方法、设备及存储介质
CN113159045A (zh) 一种结合图像预处理与卷积神经网络的验证码识别方法
CN112488170B (zh) 一种基于深度学习的多特征融合图像分类方法
CN109919890B (zh) 一种应用于医药识别的数据增强方法
CN113012030A (zh) 图像拼接方法、装置及设备
CN113469224A (zh) 一种基于卷积神经网络与特征描述算子相融合的大米分类方法
Zhang et al. Feature Reinforced and Adaptive Attention Guided Network for Multi-oriented Scene Text Detection
CN117789265A (zh) 一种基于深度学习技术的戴口罩人脸识别方法
Hirvola Detection of Mahjong tiles from videos using computer vision
CN118155106A (zh) 面向山区救援的无人机行人检测方法、系统、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant