CN113177559A - 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 - Google Patents
结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN113177559A CN113177559A CN202110437996.2A CN202110437996A CN113177559A CN 113177559 A CN113177559 A CN 113177559A CN 202110437996 A CN202110437996 A CN 202110437996A CN 113177559 A CN113177559 A CN 113177559A
- Authority
- CN
- China
- Prior art keywords
- neural network
- convolutional neural
- layer
- image
- breadth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质,包括:利用多尺度思想优化广度卷积神经网络以提取图像的多尺度特征;利用跨层密集连接思想优化密集卷积神经网络以提取图像的不同抽象深度的特征;基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练构建的全连接神经网络;将以上网络训练好后,便可将待识别图像输入图像识别模型,根据输出概率确定待测识别图像的图像类别。本申请的广度卷积神经网络具有多种尺度卷积核,密集卷积神经网络具有跨层连接的结构,搭建全连接神经网络融合两个网络提取的广度特征与不同抽象深度特征,提高了图像分类的准确率。
Description
技术领域
本申请属于机器学习和计算机视觉领域,特别是涉及一种结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质。
背景技术
随着深度学习技术的飞速发展,卷积神经网络(CNN)已经被广泛的应用于图像识别领域,并且取得了很好的效果。由于卷积神经网络具有权值共享、局部感受野、降采样的特点,使得卷积神经网络能够自动的从图像中提取出有效的特征,避免了传统的图像识别方法中人为定义特征导致某些重要信息损失或者混入多余信息的问题。因此,使用其对图像进行识别能够取得良好的识别准确率并且减少研究人员的工作量。
目前,研究者们对卷积神经网络已经进行了大量的研究,研究主要在三个方面进行,即:卷积神经网络的结构改进,卷积神经网络的参数优化改进以及卷积神经网络的应用研究。在卷积神经网络的结构方面,目前已经出现了许多卷积神经网络的变种,例如:AlexNet,VGGNet、InceptionNet等网络,这些网络主要是对卷积神经网络的结构进行了改进,使得网络能够在某些方面有更好的性能。对于卷积神经网络的参数优化方面,目前出现了一些模型裁剪的方法,用于减少网络中的参数量。也有使用粒子群优化算法等优化网络连接的方式,以达到优化参数的目的。在卷积神经网络的应用方面,由于其强大的特征提取能力,已被用于了图像识别、目标检测、脑电识别等领域。
然而,对于经典的卷积神经网络,在应用于图像识别时,有着一定的局限性。由于其只有一个卷积核,在提取特征时,只能提取到一个维度的特征,如果图片的字的大小不同时,这样提取到的特征就有可能不能充分的表示原图像的信息。另外,经典的卷积神经网络只能利用上一层的输出作为下一层的输入,这样就不能保证最后提取到的特征包含了不同深度的特征。因此,采用上述方式固定了卷积神经网络的感受野,难以保证图像识别精度。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质,用于解决现有结合广度和密集卷积神经网络的图像识别方法因固定了卷积神经网络的感受野,导致图像识别精度不高和对于不同深度的抽象信息利用不完全的问题。
为实现上述目的及其他相关目的,本申请提供一种结合广度和密集卷积神经网络的图像识别方法,包括:
获取图像数据集,对所述图像数据集进行预处理;
基于所述图像数据集采用多尺度思想优化训练广度卷积神经网络,利用广度卷积神经网络提取所述图像的多尺度特征,训练广度卷积神经网络的损失函数采用了结合中心损失函数和Softmax损失函数;
基于所述图像数据集采用跨层密集连接思想优化训练密集卷积神经网络,利用密集卷积神经网络提取所述图像的不同抽象深度的特征,训练密集卷积神经网络的的损失函数采用了结合中心损失函数和Softmax损失函数的方式;
基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练全连接神经网络得到图像识别模型;
将待识别图像输入所述图像识别模型,根据输出概率确定待测识别图像的图像类别。
本申请的目的在于提供一种结合广度和密集卷积神经网络的图像识别系统,包括:
数据获取模块,用于获取图像数据集,对所述图像数据集进行预处理;
第一训练模块,基于所述图像数据集采用多尺度思想优化训练广度卷积神经网络,利用广度卷积神经网络提取所述图像的多尺度特征,训练广度卷积神经网络的损失函数采用了结合中心损失函数和Softmax损失函数;
第二训练模块,基于所述图像数据集采用跨层密集连接思想优化训练密集卷积神经网络,利用密集卷积神经网络提取所述图像的不同抽象深度的特征,训练密集卷积神经网络的的损失函数采用了结合中心损失函数和Softmax损失函数的方式;
第三训练模块,基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练全连接神经网络得到图像识别模型;
图像识别模块,将待识别图像输入所述图像识别模型,根据输出概率确定待测识别图像的图像类别。
本申请另一目的在于提供一种电子设备,包括:
一个或多个处理装置;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置执行所述基于广度卷积神经网络的图像识别方法。
本申请还一目的在于提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行所述结合广度和密集卷积神经网络的图像识别方法。
如上所述,本申请的结合广度和密集基卷积神经网络的图像识别方法、系统、设备及介质,具有以下有益效果:
本申请的广度卷积神经网络具有多种尺度卷积核,融合各个尺长度特征后进行分类,解决了重要特征大小不一致的问题,使得提取的广度特征更有效,提高了分类准确率;同时,采用密集卷积神经网络提取不同深度的信息,将所有卷积层输出融合拼接作为输入,提高了特征提取的完整性,搭建全连接神经网络融合不同深度特征与广度特征,进一步提高了特征分类的准确率。
附图说明
图1显示为本申请提供的一种结合广度和密集卷积神经网络的图像识别方法总体概念图;
图2显示为本申请提供的一种结合广度和密集卷积神经网络的图像识别方法流程图;
图3显示为本申请提供的一种广度(多尺度)卷积神经网络的结构图。
图4显示为本申请提供的一种密集卷积神经网络的结构图。
图5显示为本申请提供的一种融合特征分类的全连接神经网络的结构图;
图6显示为本申请提供的一种结合广度和密集卷积神经网络的图像识别系统结构框图;
图7显示为本申请提供的一种电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(ComputerVision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
请参阅图1,为本申请提供的一种结合广度和密集卷积神经网络的图像识别方法流程图,包括:
步骤S1,获取图像数据集,对所述图像数据集进行预处理;
具体地,所述图像数据集包括测试集、训练集与验证集,采用图像灰度化、直方图均衡化以及图像(像素、大小)归一化、图像增加或数据集清洗等方式预处理所述测试集、训练集与验证集。
在一种可能的实施方式中,利用网络爬虫,获取一预设数量的图像。在搜索引擎中,输入“含数字的图像”关键字,利用网络爬虫,获取一预设数量的图像。所述图像的预设数量设置为300张的数据集。比如,在Google中,输入“数字+图像”的关键字,爬取带有数字的图像300张,予以标注。将数据集内的图像按比例划分为测试集、训练集与验证集,并对数据集图像进行预处理,使其达到预设要求。
步骤S2,基于所述图像数据集采用多尺度思想优化训练广度卷积神经网络,利用广度卷积神经网络提取所述图像的多尺度特征,训练广度卷积神经网络的损失函数采用了结合中心损失函数和Softmax损失函数;
其中,广度特征为经过多次融合后在第二全连接层产生的多尺度特征;
步骤S3,基于所述图像数据集采用跨层密集连接思想优化训练密集卷积神经网络,利用密集卷积神经网络提取所述图像的不同抽象深度的特征,训练密集卷积神经网络的的损失函数采用了结合中心损失函数和Softmax损失函数的方式;
具体地,需要说明的是,密集卷积神经网络不是简单的加深,最大的不同在于每个卷积层的输入都由前面各个卷积层的输出拼接起来的,这样的跨层密集连接可以使得提取到更加明显抽象深度不同的特征,不同深度层次的卷积层的抽样信息是有差别的,所以这种跨层密集连接能够应用到不同深度层次的抽样信息(即,一般来说,卷积网络越深提取的特征越抽象。),而广度网络则是利用多尺度形式提取多尺度的泛化特征。
步骤S4,基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练全连接神经网络得到图像识别模型;
步骤S5,将待识别图像输入所述图像识别模型,根据输出概率确定待测识别图像的图像类别。
在本实施例中,结合广度卷积神经网络和密集卷积神经网络来对图像识别的方法,就是分别利用两个网络来提取图像的不同维度的特征,然后利用构建的全连接网络把两个部分得到的特征组合起来共同用于识别图像,大大提高了图像分类的准确率。
具体地,步骤3至步骤5中的各个神经网络的训练流程包括:
分别读取图像数据集内训练集与测试集的图像数据;将广度卷积神经网络或密集卷积神经网络或全连接神经网络初始化,并设置训练批次大小与相关参数;使用反向传播算法训练网络,使损失函数曲线收敛,网络拟合;根据损失函数和测试准确率,优化网络模型。
例如,将每张图像的三个通道所有像素的值进行归一化处理,将每个通道的像素值的范围控制在0到1之间。
进一步,所述训练批次大小设置为:训练轮数为300轮,将每个批次的数目设置为8、16、32或64,即每批次同时学习的图像数量。
进一步,相关参数可为评价函数,该评价函数计算正确分类的图像所占的百分比,计算方式如下:
rtest即测试准确率,N′为测试集中样本的数量,I用于计算正确分类数目的指示函数,即仅当时为1,而当时为0,yi则是样本i的真实类别,为样本i的预测类别;其中,通过网络训练的相关评价函数的图像以及记录测试准确率的数值计算其测试准确率,以达到优化网络的模型。
在一种实施方式中,采用如下损失函数为结合中心损失函数与Softmax损失函数训练广度卷积神经网络或密集卷积神经网络,其中,结合后的损失函数为:
Loss=SoftmaxLoss+λCentorLoss
式中,结合后的损失函数为Loss,Softmax损失函数为SoftmaxLoss,中心损失函数为CentorLoss,λ表示系数大小;其中,在训练广度卷积神经网络和密集卷积神经网络时,使用了结合中心损失函数和Softmax损失函数一起来训练网络,引入中心损失函数可以使得每类结果的类内距离减少,从而提高了分类的准确率。
在上述两种神经网络的所述全连接层之后添加有使用Leaky ReLU激活函数的激活层;所述激活层之后添加有Dropout层,所述Dropout层用于随机让部分神经元失活;所述失活神经元的比例为0.5,其中,输入图像的像素填充格式为SAME。
在另一种实施方式中,采用softmax公式计算损失loss,从而求出梯度grad,在此不再赘述。
在本实施例中,广度卷积神经网络具有多种尺度卷积核,融合各个尺长度特征后进行分类,解决了重要特征大小不一致的问题,使得提取的广度特征更有效,提高了分类准确率;同时,采用密集卷积神经网络提取不同深度的信息,将所有卷积层输出融合拼接作为输入,提高了特征提取的完整性,搭建全连接神经网络融合不同深度特征与广度特征,进一步提高了特征分类的准确率。
在另一些实施例中,所述多尺度卷积神经网络包括具有多通道多尺度的卷积核,每个通道对应一种尺度的卷积层,第一连接层、第二连接层、第一最大池化层、第二最大池化层、第一全连接层、第二全连接层与输出层损失函数;其中,当卷积层为两层且输入通道为三个时,输入图像从第一层卷积层依次通过第一连接层和第一最大池化层输出第一多尺度特征图;所述第一多尺度特征图通过相同结构通道的第二层卷积层第二连接层和第二最大池化层输出第二多尺度特征图;所述第二多尺度特征图依次第一全连接层、第二全连接层输出多尺度特征,利用Softmax输出分类结果,利用Softmax函数结合了能使特征更加聚集中心的中心损失函数来辅助Softmax损失函数一起训练网络,使得输出的分类结果更准确。
具体地,可按照上述多尺度卷积神经网络的结构设置多通道多尺度的卷积核,其中,每个通道对应一种尺度的卷积核,例如,三种尺度的卷积层必有三个通道,例如,采用三个卷积核的大小分别为1×1、3×3和5×5,如果卷积层的层数为两层(每层卷积层的结构相同)例如,在本申请中卷积层的层数、卷积核的尺度、以及卷积核的种类可根据需求进行扩展,对应的隐藏层随之增加,例如,四种尺度的卷积核1×1、3×3、5×5和7×7;五种尺度的卷积核1×1、3×3、5×5、7×7和9×9;在此不做限定。
在本实施例中,对多尺度卷积核提取的多尺度特征图进行特征融合得到广度特征,不仅有利于提高对中小目标的检测精度,而且在兼顾检测精度的同时,降低了模型的复杂度,保证了检测的实时性。
在另一些实施例中,所述密集卷积神经网络包括至少四个相同尺度卷积核的卷积层、第一连接层、第二连接层、第三连接层、第一最大池化层、第一全连接层、第二全连接层与输出层,其中,输入图像依次通过第一卷积层、第二卷积层、第一连接层,第三卷积层、第二连接层、第四卷积层、第三连接层;每个连接层还连接其前面所有卷积层的输出,这样密集连接可以使得网络提取到更加有效的不同深度特征;所述第三连接层依次池化层、第一全连接层、第二全连接层输出不同深度特征,利用Softmax分类器输出分类结果。
具体地,采用多个相同尺度卷积核的卷积层,其中,每个连接层的输入都连接其前面所有卷积层的输出,通过上述方式来提取不同深度的信息,使得提取的深度特征包含各个深度信息,避免了遗漏重要信息,确保了提取特征的信息完整性,有助于提高目标的检测精度。
在另一些实施例中,所述全连接神经网络的输入是广度卷积神经网络的全连接层特征向量、密集卷积神经网络的全连接层特征向量、其结构为、第一全连接层、第二全连接层与输出层,所述第二全连接层之后添加Leaky ReLU激活函数的激活层,其中,所述广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同深度特征输入第一全连接层进行融合,在连接一个全连接层后,利用softmax分类器输出最终分类的结果。
具体地,将不同深度特征与广度特征进行拼接融合,对融合后的特征进一步筛选,选取更有效的特征,进一步提高了分类准确率,在此还需要说明的是,通过激活函数leakyrelu,在一定程度上避免常用的Relu激活函数容易造成神经元死亡的缺点,用以保留住Relu的优势。
请参阅图2,为本申请提供的一种结合广度和密集卷积神经网络的图像识别方法流程图,包括:
步骤1:将图像数据集以6:2:2的比例分为训练集,验证集和测试集;方便后续训练和测试广度卷积神经网络,密集卷积神经网络和全连接神经网络模型使用。
步骤2:构建广度卷积神经网络,构建的网络结构如图3所示。在构建卷积层的时候,采用了多尺度卷积构思,以便提取到的特征能够包含多个尺度(广度)的信息,选择的三个卷积核的大小分别为1×1、3×3和5×5,将三个卷积部分得到的特征拼接起来,并且输入一个最大池化层进行降采样,这一部分便是一个多尺度特征提取模块。接着采用同样方式再搭建了一个多尺度特征提取模块。最后网络连接了两个全连接层,为了防止过拟合加入了dropout操作,其值设为0.5,并且采用的是Softmax进行分类。此外,在该网络中,padding方式都是卷积的模式为SAME,由于卷积的中心与图像的边角重合时,开始卷积运算,使得输出的特征图像的相对于输入图像来讲保持不变,即,确保前向传播过程中使得特征图大小保持不变,无需精准计算其尺寸变化。在全连接层之间还使用了一些激活函数,包括但不限于sigmoid,ReLu,Leaky_ReLu,Tanh,ELU,Maxout,其中,使用的激活函数都是Leaky ReLU,其公式为:
其中,yi代表第i个样本的标签,xi代表嵌入空间的深层特征,ai是(1,+∞)区间内的固定参数。
步骤3:在一般的模型中,采用的是Softmax损失函数来训练网络,其公式为:
其中,yi代表第i个样本的标签,sj表示分类得到的分向量s的第j个元素。
在该模型中,采用了中心损失函数来辅助训练网络,中心损失函数定义为:
其中,当yi=j时,δ(yi=j)=1,当yi≠j时,δ(yi=j)=0。
最终使用的损失函数可以定义为:
Loss=SoftmaxLoss+λCentorLoss (6)
其中,λ表示系数大小。
训练好网络后,把网络的参数保存下来,然后把数据集(包括训练集,验证集和测试集)的每个图像对应的第二个全连接层的向量保存下来,以方便后续步骤的使用。
步骤4:构建密集卷积神经网络。为了得到不同深度的特征,所以在构建密集卷积神经网络时,采用的思想是把前面每层卷积的输出都拼接起来作为下一层卷积的输入,由此构建的密集卷积神经网络的结构如图4所示,在该网络中,共有4层卷积层,每层卷积采用的卷积核大小为3×3,激活函数也都是Leaky ReLU,padding方式都是SAME,每层的输入都是前面每个卷积层的输出拼接起来的。在4个卷积层后连接了一个最大池化层用来减少网络的参数。接着,连接了2个全连接层,为了防止过拟合也加入了dropout操作,其值也设为0.5,并且采用的是Softmax进行分类。
步骤5:在训练该网络时,采用的损失函数同样是Softmax损失函数加上中心损失函数的形式。训练好密集卷积神经网络后,把其参数保存下来,同样的把数据集(包括训练集,验证集和测试集)的每个图像对应的第二个全连接层的向量保存下来,以方便后续步骤的使用。
步骤6:构建的全连接神经网络,首先,对步骤3和步骤5得到的全连接层的特征进行拼接的操作,紧接着是两个全连接层,以便于从融合的特征中选取出更加有效的特征,增加分类的准确率。在分类器方面,最后选择的是Softmax分类器。在该全连接网络中,激活函数也是用的Leaky ReLU。
步骤7:利用步骤3和步骤5得到的全连接层的特征(训练集)来训练全连接神经网络,并且用验证集的数据做验证,使用Softmax损失函数训练全连接神经网络后,保存其参数。
步骤8:利用步骤3和步骤5得到的测试集数据来测试所提方法的性能,从结果可以看出,本发明提出的方法能够比原始的卷积神经网络取得更好的结果。通过实践证明,同时提取图像的广度特征和不同深度特征是一种有效的改进方法。也说明了所提出的方法相比于经典的卷积神经网络能够更加适应于提取图片的特征。
在本实施例中,针对图像数据中重要的特征大小不一致的问题,提出了一种广度卷积神经网络来提取特征,该神经网络利用了多尺度的思想,改进了卷积神经网络的结构,利用不同尺度的卷积核来提取图像的特征,然后融合各个尺度的特征来进行分类,从而可以在一定程度上解决重要的特征大小不一致的问题。在本实施例中,优选三个不同大小的卷积核,分别为1×1、3×3和5×5。这样提取到的特征能够更加有效,使得分类准确率提高。
传统的经典卷积神经网络通常是用最后的卷积层提取出的特征进行分类,这样忽略了某些上层的信息,即只用了一个深度的信息,这样可能会损失某些重要的信息。本实施例提供一种密集卷积神经网络来提取不同深度的信息,在每个卷积进行操作时,都把前面的所有卷积层的输出拼接起来作为输入,这样得到的特征就能包含各个深度的信息。
在训练广度和密集卷积神经网络时,使用了结合中心损失函数和Softmax损失函数一起来训练网络,引入中心损失函数可以使得每类结果的类内距离减少,从而提高分类的准确率。
搭建了一个全连接神经网络,用于把广度卷积神经网络和密集卷积神经网络提取到的特征组合起来使用,充分的利用提取到的广度特征和不同深度特征。此外,该全连接神经网络还可以对特征再进行进一步的选取,从已有特征中选择出更加有效的特征,使得分类的准确率得到进一步的提高。
请参阅图6,为本申请提供的一种结合广度和密集卷积神经网络的图像识别系统结构框图,包括:
数据获取模块1,用于获取图像数据集,对所述图像数据集进行预处理;
第一训练模块2,基于所述图像数据集采用多尺度思想优化训练广度卷积神经网络,利用广度卷积神经网络提取所述图像的多尺度特征,训练广度卷积神经网络的损失函数采用了结合中心损失函数和Softmax损失函数;
第二训练模块3,基于所述图像数据集采用跨层密集连接思想优化训练密集卷积神经网络,利用密集卷积神经网络提取所述图像的不同抽象深度的特征,训练密集卷积神经网络的的损失函数采用了结合中心损失函数和Softmax损失函数的方式;
第三训练模块4,基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练全连接神经网络得到图像识别模型;
图像识别模块5,将待识别图像输入所述图像识别模型,根据输出概率确定待测识别图像的图像类别。
其中,需要说明的是,结合广度和密集卷积神经网络的图像识别方法与结合广度和密集卷积神经网络的图像识别系统为一一对应的关系,在此,图像识别系统所涉及的技术细节与技术效果和上述识别方法相同,在此不一一赘述,请参照上述图像识别方法。
下面参考图7,其示出了适于用来实现本公开实施例的电子设备(例如终端设备或服务器600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM602被安装。在该计算机程序被处理装置601执行时,执行本公开实施例的方法中限定的上述功能。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:执行上述步骤S1到步骤S5的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
综上所述,本申请的广度卷积神经网络具有多种尺度卷积核,融合各个尺长度特征后进行分类,解决了重要特征大小不一致的问题,使得提取的广度特征更有效,提高了分类准确率;同时,采用密集卷积神经网络提取不同深度的信息,将所有卷积层输出融合拼接作为输入,提高了提取的特征的完整性,搭建全连接神经网络融合不同深度特征与广度特征,进一步提高了特征分类的准确率。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (9)
1.一种结合广度和密集卷积神经网络的图像识别方法,其特征在于,包括:
获取图像数据集,对所述图像数据集进行预处理;
基于所述图像数据集采用多尺度思想优化训练广度卷积神经网络,利用广度卷积神经网络提取所述图像的多尺度特征,训练广度卷积神经网络的损失函数采用了结合中心损失函数和Softmax损失函数;
基于所述图像数据集采用跨层密集连接思想优化训练密集卷积神经网络,利用密集卷积神经网络提取所述图像的不同抽象深度的特征,训练密集卷积神经网络的的损失函数采用了结合中心损失函数和Softmax损失函数的方式;
基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练全连接神经网络得到图像识别模型;
将待识别图像输入所述图像识别模型,根据输出概率确定待测识别图像的图像类别。
2.根据权利要求1所述的结合广度和密集卷积神经网络的图像识别方法,其特征在于,所述广度卷积神经网络包括具有多尺度的卷积核,每个通道对应一种尺度的卷积层,第一连接层、第二连接层、第一最大池化层、第二最大池化层、第一全连接层、第二全连接层与输出层;其中,当卷积层为两层且输入通道为三个时,输入图像从第一层卷积层依次通过第一连接层和第一最大池化层输出第一多尺度特征图;所述第一多尺度特征图通过相同结构通道的第二层卷积层第二连接层和第二最大池化层输出第二多尺度特征图;所述第二多尺度特征图依次第一全连接层、第二全连接层输出多尺度特征,利用Softmax分类器输出分类结果。
3.根据权利要求1所述的结合广度和密集卷积神经网络的图像识别方法,其特征在于,所述密集卷积神经网络包括至少四个相同尺度卷积核的卷积层、第一连接层、第二连接层、第三连接层、第一最大池化层、第一全连接层、第二全连接层与输出层,其中,输入图像依次通过第一卷积层、第二卷积层、第一连接层,第三卷积层、第二连接层、第四卷积层、第三连接层;每个连接层连接其前面所有卷积层的输出,这样密集连接可以使得网络提取到更加有效的不同深度特征;所述第三连接层依次池化层、第一全连接层、第二全连接层输出不同深度特征,利用Softmax分类器输出分类结果。
4.根据权利要求2或34述的结合广度和密集卷积神经网络的图像识别方法,其特征在于,所述全连接层之后添加有使用Leaky ReLU激活函数的激活层;所述激活层之后添加有Dropout层,所述Dropout层用于随机让部分神经元失活;所述失活神经元的比例为0.5,其中,输入图像的像素填充格式为SAME。结合中心损失函数与Softmax损失函数训练广度卷积神经网络或密集卷积神经网络,其中,结合后的损失函数为:
Loss=SoftmaxLoss+λCentorLoss
式中,结合后的损失函数为Loss,Softmax损失函数为SoftmaxLoss,中心损失函数为CentorLoss,λ表示系数大小。
5.根据权利要求1所述的结合广度和密集卷积神经网络的图像识别方法,其特征在于,所述全连接神经网络的输入是广度卷积神经网络的全连接层特征向量、密集卷积神经网络的全连接层特征向量、其结构为、第一全连接层、第二全连接层与输出层,所述第二全连接层之后添加Leaky ReLU激活函数的激活层,其中,所述广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同深度特征输入第一全连接层进行融合,在连接一个全连接层后,利用softmax分类器输出最终分类的结果。
6.根据权利要求1所述的结合广度和密集卷积神经网络的图像识别方法,其特征在于,训练所述广度卷积神经网络、密集卷积神经网络与全连接神经网络的步骤,包括:分别读取图像数据集内训练集与测试集的图像数据;将广度卷积神经网络或密集卷积神经网络或全连接神经网络初始化,并设置训练批次大小与相关参数;使用反向传播算法训练网络,使损失函数曲线收敛,网络拟合;根据损失函数和测试准确率优化网络模型。
7.一种结合广度和密集卷积神经网络的图像识别系统,其特征在于,包括:
数据获取模块,用于获取图像数据集,对所述图像数据集进行预处理;
第一训练模块,基于所述图像数据集采用多尺度思想优化训练广度卷积神经网络,利用广度卷积神经网络提取所述图像的多尺度特征,训练广度卷积神经网络的损失函数采用了结合中心损失函数和Softmax损失函数;
第二训练模块,基于所述图像数据集采用跨层密集连接思想优化训练密集卷积神经网络,利用密集卷积神经网络提取所述图像的不同抽象深度的特征,训练密集卷积神经网络的的损失函数采用了结合中心损失函数和Softmax损失函数的方式;
第三训练模块,基于广度卷积神经网络提取的广度特征与密集卷积神经网络提取的不同抽象深度特征训练全连接神经网络得到图像识别模型;
图像识别模块,将待识别图像输入所述图像识别模型,根据输出概率确定待测识别图像的图像类别。
8.一种电子设备,其特征在于:包括:
一个或多个处理装置;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理装置执行,使得所述一个或多个处理装置实现权利要求1至6中任一所述的结合广度和密集卷积神经网络的图像识别方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于使所述计算机执行权利要求1至6中任一所述的结合广度和密集卷积神经网络的图像识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437996.2A CN113177559B (zh) | 2021-04-22 | 2021-04-22 | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110437996.2A CN113177559B (zh) | 2021-04-22 | 2021-04-22 | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113177559A true CN113177559A (zh) | 2021-07-27 |
CN113177559B CN113177559B (zh) | 2023-06-02 |
Family
ID=76924156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110437996.2A Active CN113177559B (zh) | 2021-04-22 | 2021-04-22 | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113177559B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239936A (zh) * | 2022-07-25 | 2022-10-25 | 天津大学 | 一种高精度织物组织结构识别方法 |
CN115757386A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 海洋空间观测数据的异常检测方法、系统、设备与介质 |
CN116296127A (zh) * | 2023-05-17 | 2023-06-23 | 中国海洋大学 | 基于多传感器信像映射的阀门泄漏故障诊断方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717568A (zh) * | 2018-05-16 | 2018-10-30 | 陕西师范大学 | 一种基于三维卷积神经网络的图像特征提取与训练方法 |
CN109685152A (zh) * | 2018-12-29 | 2019-04-26 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
CN110188720A (zh) * | 2019-06-05 | 2019-08-30 | 上海云绅智能科技有限公司 | 一种基于卷积神经网络的目标检测方法及系统 |
CN110232396A (zh) * | 2019-04-09 | 2019-09-13 | 贵州大学 | X射线乳腺影像深度学习分类方法 |
US20200026953A1 (en) * | 2018-07-23 | 2020-01-23 | Wuhan University | Method and system of extraction of impervious surface of remote sensing image |
CN111160458A (zh) * | 2019-12-29 | 2020-05-15 | 浪潮电子信息产业股份有限公司 | 一种图像处理系统及其卷积神经网络 |
CN111462211A (zh) * | 2020-03-20 | 2020-07-28 | 华南理工大学 | 一种基于卷积神经网络的双目视差计算方法 |
US20200372660A1 (en) * | 2019-05-21 | 2020-11-26 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
CN112001218A (zh) * | 2020-06-19 | 2020-11-27 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的三维颗粒类别检测方法及系统 |
-
2021
- 2021-04-22 CN CN202110437996.2A patent/CN113177559B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717568A (zh) * | 2018-05-16 | 2018-10-30 | 陕西师范大学 | 一种基于三维卷积神经网络的图像特征提取与训练方法 |
US20200026953A1 (en) * | 2018-07-23 | 2020-01-23 | Wuhan University | Method and system of extraction of impervious surface of remote sensing image |
CN109685152A (zh) * | 2018-12-29 | 2019-04-26 | 北京化工大学 | 一种基于dc-spp-yolo的图像目标检测方法 |
CN110232396A (zh) * | 2019-04-09 | 2019-09-13 | 贵州大学 | X射线乳腺影像深度学习分类方法 |
US20200372660A1 (en) * | 2019-05-21 | 2020-11-26 | Beihang University | Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background |
CN110188720A (zh) * | 2019-06-05 | 2019-08-30 | 上海云绅智能科技有限公司 | 一种基于卷积神经网络的目标检测方法及系统 |
CN111160458A (zh) * | 2019-12-29 | 2020-05-15 | 浪潮电子信息产业股份有限公司 | 一种图像处理系统及其卷积神经网络 |
CN111462211A (zh) * | 2020-03-20 | 2020-07-28 | 华南理工大学 | 一种基于卷积神经网络的双目视差计算方法 |
CN112001218A (zh) * | 2020-06-19 | 2020-11-27 | 中国科学院计算技术研究所 | 一种基于卷积神经网络的三维颗粒类别检测方法及系统 |
Non-Patent Citations (4)
Title |
---|
XIANLUN TANG,ET AL: "A Multi-scale Convolutional Attention Based GRU", 《2019 CHINESE AUTOMATION CONGRESS (CAC)》 * |
XIANLUN TANG,ET AL: "A Multi-scale Convolutional Attention Based GRU", 《2019 CHINESE AUTOMATION CONGRESS (CAC)》, 13 February 2020 (2020-02-13), pages 3009 - 3013 * |
郭海涛,等: "多尺度并联卷积神经网络遥感影像油罐目标检测算法", 《测绘科学技术学报》 * |
郭海涛,等: "多尺度并联卷积神经网络遥感影像油罐目标检测算法", 《测绘科学技术学报》, vol. 38, no. 2, 15 April 2021 (2021-04-15), pages 148 - 154 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115239936A (zh) * | 2022-07-25 | 2022-10-25 | 天津大学 | 一种高精度织物组织结构识别方法 |
CN115239936B (zh) * | 2022-07-25 | 2022-11-29 | 天津大学 | 一种高精度织物组织结构识别方法 |
CN115757386A (zh) * | 2023-01-09 | 2023-03-07 | 吉林大学 | 海洋空间观测数据的异常检测方法、系统、设备与介质 |
CN115757386B (zh) * | 2023-01-09 | 2023-04-11 | 吉林大学 | 海洋空间观测数据的异常检测方法、系统、设备与介质 |
CN116296127A (zh) * | 2023-05-17 | 2023-06-23 | 中国海洋大学 | 基于多传感器信像映射的阀门泄漏故障诊断方法 |
CN116296127B (zh) * | 2023-05-17 | 2023-08-22 | 中国海洋大学 | 基于多传感器信像映射的阀门泄漏故障诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113177559B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN113177559B (zh) | 结合广度和密集卷积神经网络的图像识别方法、系统、设备及介质 | |
EP3968179A1 (en) | Place recognition method and apparatus, model training method and apparatus for place recognition, and electronic device | |
CN111126258A (zh) | 图像识别方法及相关装置 | |
CN112633459A (zh) | 训练神经网络的方法、数据处理方法和相关装置 | |
CN111598168B (zh) | 图像分类方法、装置、计算机设备及介质 | |
CN113449700B (zh) | 视频分类模型的训练、视频分类方法、装置、设备及介质 | |
CN114419351A (zh) | 图文预训练模型训练、图文预测模型训练方法和装置 | |
CN114511710A (zh) | 一种基于卷积神经网络的图像目标检测方法 | |
CN115115969A (zh) | 视频检测方法、装置、设备、存储介质和程序产品 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN114707589A (zh) | 对抗样本的生成方法、装置、存储介质、设备及程序产品 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN113762331A (zh) | 关系型自蒸馏方法、装置和系统及存储介质 | |
CN117011566A (zh) | 一种目标检测方法、检测模型训练方法、装置及电子设备 | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 | |
Abu-Jamie et al. | Classification of Sign-Language Using Deep Learning by ResNet | |
CN117237856B (zh) | 图像识别方法、装置、计算机设备、存储介质 | |
CN113011387B (zh) | 网络训练及人脸活体检测方法、装置、设备及存储介质 | |
CN116050428B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN117009560A (zh) | 图像处理方法、装置、设备及计算机存储介质 | |
CN117011629A (zh) | 目标检测模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |