CN116612338A - 基于网络状态索引卷积神经网络集的图像识别方法及系统 - Google Patents

基于网络状态索引卷积神经网络集的图像识别方法及系统 Download PDF

Info

Publication number
CN116612338A
CN116612338A CN202310896189.6A CN202310896189A CN116612338A CN 116612338 A CN116612338 A CN 116612338A CN 202310896189 A CN202310896189 A CN 202310896189A CN 116612338 A CN116612338 A CN 116612338A
Authority
CN
China
Prior art keywords
image
network
convolutional neural
state index
network state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310896189.6A
Other languages
English (en)
Other versions
CN116612338B (zh
Inventor
金朔宇
王少荣
龚利天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310896189.6A priority Critical patent/CN116612338B/zh
Publication of CN116612338A publication Critical patent/CN116612338A/zh
Application granted granted Critical
Publication of CN116612338B publication Critical patent/CN116612338B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了基于网络状态索引卷积神经网络集的图像识别方法及系统,属于图像识别领域。方法包括根据输入图像的信息熵,通过信息熵‑网络状态索引曲线的映射关系得出网络状态索引;根据网络状态索引在网络状态索引卷积神经网络集中选择合适深度的卷积神经网络;将输入图像输入所选的卷积神经网络进行图像识别得出识别结果。本发明基于信息熵提供一种基于网络状态索引卷积神经网络集的高效图像识别方法,利用信息熵对图像的识别难度进行估计得出网络状态索引,并根据得出的网络状态索引选择用于图像识别的卷积神经网络的深度,其应用于大批量图像识别时可以节约大量的计算资源和计算时间。

Description

基于网络状态索引卷积神经网络集的图像识别方法及系统
技术领域
本发明属于图像识别领域,更具体地,涉及一种基于网络状态索引卷积神经网络集的图像识别方法及系统。
背景技术
卷积神经网络在图像识别领域有着出色的表现。但是,传统的用于图像识别的卷积神经网络采用固定的结构,对不同识别难度的输入图像均进行相同的运算。这种做法,一方面是大大增加了对应的卷积神经网络的训练难度,另一方面是对于大批量图像识别任务来说会造成可观的计算资源和计算时间浪费。实际上,对于一些简单的图像仅需要深度较浅的卷积神经网络即可准确识别,而对于一些复杂的图像则需要深度较深的卷积神经网络才能准确识别。因此,发明针对不同识别难度的图像采用不同深度的卷积神经网络进行识别的方法具有重要的实际意义。
信息熵是信息论中的基本概念,用于衡量信息源包含信息量的大小,信息熵越大对应的信息源包含的信息量越大。根据信息论知识知,一个信息源包含的不确定性越大则其所包含的信息量越大,从而其信息熵也越大。对于图像信息源来说,其不确定性越大越难以识别,因而需要深度更深的卷积神经网络才能准确识别。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于网络状态索引卷积神经网络集的图像识别方法及系统,旨在根据输入图像的识别难度灵活选择不同深度的卷积神经网络结构,以有效节约大批量图像识别的计算资源和计算时间。
为实现上述目的,本发明提供了一种基于网络状态索引卷积神经网络集的图像识别方法,包括三个步骤:步骤FS-1,计算输入图像的信息熵;步骤FS-2,根据输入图像的信息熵,通过信息熵-网络状态索引曲线的映射关系得出网络状态索引;步骤FS-3,根据网络状态索引在网络状态索引卷积神经网络集中选择合适深度的卷积神经网络,将输入图像输入所选的卷积神经网络进行图像识别得出识别结果。其中,所述网络状态索引卷积神经网络集包括m个深度递增的卷积神经网络N S1 -N Sm 。下面阐述以上每个步骤的子步骤。
步骤FS-1的子步骤:
FS-1.1将输入图像灰度化。若输入图像为灰度图像,则省略此子步骤;若输入图像为彩色图像,则采用下式将其转化为灰度图像:
上式中,GV(x,y)是对应的灰度图像像素点p(x,y)的灰度值;V R (x,y)、V G (x,y)、V B (x,y)分别为对应的彩色图像像素点p(x,y)的RGB三个通道的R、G、B值。
FS-1.2计算对应灰度图像的信息熵,灰度图像信息熵的计算公式为
上式中,E G 为对应灰度图像的信息熵;p k 是灰度值为k(0≤k≤255)的像素点在该灰度图像中出现的概率,也就是说,如果该灰度图像的总像素点数量为M G ,其中灰度值为k的像素点数量为M k ,则p k 由下式求得
步骤FS-2的子步骤:
FS-2.1 根据FS-1.2所得的灰度图像的信息熵,通过信息熵-网络状态索引映射曲线得到对应灰度图像的网络状态索引SI'。所述信息熵-网络状态索引映射曲线通过拟合获得。特别需要指出的是,本子步骤FS-2.1根据对应灰度图像的信息熵和所述信息熵-网络状态索引映射曲线的映射关系求取的网络状态索引SI'可能是非整数。
FS-2.2对子步骤FS-2.1求取的网络状态索引SI'向上取整,求得网络状态索引SI
步骤FS-3的子步骤:
FS-3.1 根据FS-2.2所得的网络状态索引SI,在网络状态索引卷积神经网络集中选择对应的合适深度的卷积神经网络N S 。所述网络状态索引卷积神经网络集由多个特定结构且深度不同的卷积神经网络构成。
FS-3.2 将输入图像输入FS-3.1所选择的卷积神经网络N S ,得到识别结果。
进一步地,所述卷积神经网络集的结构如下:
本发明中网络状态索引卷积神经网络集由m个特定结构且深度不同的卷积神经网络组成,且每个卷积神经网络均包含相同的基础网络模块BN和不同层数的深度加工层组。以卷积神经网络N Si 为例,由基础网络模块BN和深度加工层组L i 两部分组成。其中,基础网络模块BN包括置于前端的输入层、基础卷积层、基础池化层和置于后端的全连接层、输出层;深度加工层组L i 包含i个卷积-池化层组(i=1,2,3,...,m),由第1个至第i个卷积-池化层组G 1 -G 2 -…-G i-1 -G i 级联构成。每个卷积神经网络都与唯一的网络状态索引SI对应,如网络状态索引SI i 唯一对应卷积神经网络N Si
进一步地,所述网络状态索引卷积神经网络集的构建具体包括三个步骤:步骤BS-1,设置基础网络模块的超参数;步骤BS-2,设置深度加工层组L 1 L m 的超参数;步骤BS-3,分别将深度加工层组L i i=1,2,3,...,m)插入基础网络模块的基础池化层和全连接层之间,得到待训练的卷积神经网络UN S1 UN Sm 。下面阐述上述各步骤的子步骤。
步骤BS-1的子步骤:
BS-1.1 设置基础网络模块输入层的超参数。输入层的超参数为输入层(二维)神经元的数量X×Y,X、Y分别与输入图像的像素(二维)xinput×yinput的xinput、yinput相等。
BS-1.2 设置基础网络模块基础卷积层的超参数。基础卷积层的超参数包括卷积核尺寸、卷积核个数、卷积运算的步长、横向边沿零填充尺寸、纵向边沿零填充尺寸、输出激活函数。
BS-1.3 设置基础网络模块基础池化层的超参数。基础池化层的超参数包括池化核尺寸、池化运算步长、池化运算方式、横向边沿零填充尺寸、纵向边沿零填充尺寸。
BS-1.4 设置基础网络模块全连接层的超参数。全连接层的超参数为全连接层神经元数量、输出激活函数。
BS-1.5 设置基础网络模块输出层的超参数。输出层的超参数为输出层神经元个数,其与待识别图像的图像类别数相等。
步骤BS-2的子步骤:
BS-2.1 设置深度加工层组中卷积-池化层组G i 的超参数。所述卷积-池化层组G i 包含深度加工卷积层C i 和深度加工池化层P i 。深度加工卷积层C i 的超参数包括卷积核尺寸、卷积核个数、卷积运算的步长、横向边沿零填充尺寸、纵向边沿零填充尺寸、输出激活函数。深度加工池化层P i 的超参数包括池化核尺寸、池化运算步长、池化运算方式、横向边沿零填充尺寸、纵向边沿零填充尺寸。
BS-2.2将第1个至第i个卷积-池化层组G 1 -G 2 -…-G i-1 -G i 级联,构成深度加工层组L i
步骤BS-3的子步骤:
BS-3.1 分别将步骤BS-2.2所得L i i=1,2,3,...,m)插入基础网络模块的基础池化层和全连接层之间,得到待训练的网络UN S1 UN Sm
进一步地,所述信息熵-网络状态索引映射曲线的获取包括五个步骤:步骤CS-1,计算训练图像集中每幅图像的图像信息熵e fig (j)j=1,2,3…J,J为训练图像集中图像的数量);步骤CS-2,建立并训练熵分级网络EN;步骤CS-3,将图像j输入熵分级网络EN,计算图像j在熵分级网络EN中的信息熵序列E(j);步骤CS-4,由饱和条件检验信息熵序列E(j),确定图像j在熵分级网络EN中的运算饱和位置,进而确定图像j对应的网络状态索引SI(j);步骤CS-5,根据训练集中图像j的图像信息熵e fig (j)及其对应的网络状态索引SI(j),拟合得到信息熵-网络状态索引映射曲线。下面阐述上述每个步骤的子步骤。
步骤CS-1的子步骤:
CS-1.1 计算训练集中图像j的信息熵e fig (j)j=1,2,3…J,J为训练图像集中图像的数量)。本步骤计算图像信息熵的方式与说明书步骤FS-1计算图像信息熵的方式相同。
步骤CS-2的子步骤:
CS-2.1 建立熵分级网络EN。所述熵分级网络EN的结构和超参数均与待训练网络UN Sm 的结构和超参数相同。熵分级网络EN也包括基础网络模块BN和m个卷积池化层组G 1 - G 2 -…-G m-1 -G m 。将熵分级网络EN的权重和偏置参数随机赋初始值。
CS-2.2 训练熵分级网络EN。分批输入训练图像集,根据梯度下降算法对熵分级网络EN的权重和偏置参数进行迭代修正,直到达到预设的迭代周期。
步骤CS-3的子步骤:
CS-3.1 将图像j输入熵分级网络EN,得到熵分级网络EN每个卷积-池化层组G 1 ,G 2 ,,G m - 1 ,G m 运算的m个层组特征图像。其中,层组特征图像的定义和计算如下。
(1)层组特征图像的定义:
特征图像是深度学习中的常用概念。它指的是某一个神经网络某特定层的输出。特征图像中每一个像素点的数值都是该特定层的对应神经元激活运算后的结果。本发明中的层组特征图像是指输入图像在熵分级网络EN中,经过卷积-池化层组的卷积运算和池化运算后形成的特征图像。具体的,图像j经过卷积-池化层组G i 运算后得到的层组特征图像为M i (j)
通常情况下,卷积神经网络的每个卷积层中都包含由多个卷积核组成的过滤器,卷积层中包含的过滤器数量称为该卷积层的通道数。一个过滤器对输入图像进行卷积操作后,会得到对应通道的一幅单通道特征图像。因此,输入图像经过深度加工卷积层C i 的运算后,将产生与该卷积层中过滤器数量K i 相同个数的单通道特征图像。而卷积-池化层组中的深度加工池化层不改变单通道特征图像的数量,故输入图像j经过卷积-池化层组G i 运算后将得到K i 个单通道特征图像SM i k (j)k=1,2,…,K i )。本发明中的层组特征图像M i (j)为输入图像j经过卷积-池化层组G i 运算得到的K i 个单通道特征图像SM i k (j)k=1,2,…,K i )的叠加。
(2)层组特征图像的计算:
计算层组特征图像M i (j)在像素点(x,y)处数值的公式如下
式中M i (j)(x,y)为图像j经过卷积-池化层组G i 运算后对应的层组特征图像M i (j)在像素点(x,y)处的值,SM i k (j)(x,y)为卷积-池化层组G i 运算后得到的第k个单通道特征图像SM i k (j)在像素点(x,y)处的值。
所述熵分级网络EN共包含m个卷积-池化层组G 1 -G m ,故图像j输入熵分级网络EN后,将共得到m个层组特征图像M 1 (j)-M m (j)
CS-3.2 将层组特征图像转化为层组灰度图像。步骤CS-3.1得到的层组特征图像中像素点值的范围与标准灰度图像像素点值的取值范围不同。为保证信息熵计算的一致性,由步骤CS-3.2得到的层组特征图像需要先转化为标准灰度图像,再计算对应的标准灰度图像的信息熵。将层组特征图像转化为层组灰度图像的公式如下:
式中GM i (j)(x,y)为层组灰度图像GM i (j)在像素点(x,y)处的值,M i (j)(x,y)为层组特征图像M i (j)在像素点(x,y)处的值,λ(j)为归一化系数,为向上取整符号。其中,图像j对应的归一化系数λ(j)的计算公式如下:
M i (j)(x,y)为层组特征图像M i (j)在像素点(x,y)处的值,maxm i (j)为层组特征图像M i (j)中所有像素点数值的最大值,minm i (j)为层组特征图像M i (j)中所有像素点数值的最小值。
通过上述计算,可由层组特征图像得到层组灰度图像。由于步骤CS-2.1完成后将共得到m幅层组特征图像,故本步骤运算完成后将得到对应的m幅层组灰度图像。
CS-3.3 计算步骤CS-3.2得到的m幅层组灰度图像的信息熵e 1 (j)e m (j),再将所得灰度图像信息熵按照层组顺序排列,得到图像j的信息熵序列E(j)
步骤CS-4的子步骤:
CS-4.1 依据饱和条件,由步骤CS-3获得的信息熵序列E(j)确定图像j在熵分级网络EN中的运算饱和层组G i (j),并由此确定图像j对应的网络状态索引SI(j)
其中,所述饱和条件为:对于图像j,若层组灰度图像GM i (j)的信息熵与上一层组灰度图像GM i-1 (j)的信息熵之差e i (j)-e i-1 (j)<饱和阈值,则认为图像j在卷积-池化层组G i 处运算达到饱和。即令图像j对应的网络状态索引SI(j)SI i ,对应的网络为N Si 。如果序列中没有满足饱和指标的层组,则令图像j对应的网络状态索引为SI(j)SI m ,对应的网络为N Sm 。饱和阈值的选取是结合经验和待识别图像的识别难度确定的。一般的,待识别图像的识别难度越大,适宜的饱和阈值取值越大。
步骤CS-5的子步骤:
CS-5.1 拟合数据预处理。
由步骤CS-1可得训练集中图像j的信息熵e fig (j)j=1,2,3…J,J为训练图像集中图像的数量),由步骤CS-4可得训练集中图像j对应的网络状态索引SI(j)。综上,可以得到训练集中图像j的信息熵及其对应的网络状态索引数据点(e fig (j)SI(j))。训练集中J幅图像的J组数据点即为拟合本发明中图像信息熵-网络状态索引曲线的样本数据点。
进行预处理时,首先通过观察数据的大致趋势,将明显不合理、偏离拟合趋势线的数据点剔除,避免后续拟合时影响曲线精度。
CS-5.2 确定拟合方式。根据样本数据点的分布趋势,选择合适的曲线模型和拟合方式对样本数据点进行拟合。不失一般性,本说明书以多项式拟合方式为例,进行后续说明。由于多项式拟合建立的是数值与数值之间的映射关系,故将网络状态索引SI i 的值赋为ii=1,2,3,...,m)。
确定拟合方式为多项式拟合后,综合考虑样本数据的分布和预期的曲线精度,选择多项式的次数n。本发明信息熵-网络状态索引映射曲线是n次多项式形式,其表达式为:
式中为图像j对应的网络状态索引拟合值,a 0 ,a 1 ,…,a n-1 ,a n 为待拟合的拟合系数。
CS-5.3 求取拟合系数。
不失一般性,本说明书采用最小二乘法求取拟合系数。最小二乘法以误差的平方和作为评价指标,通过对误差项求偏导数,使拟合系数最优,进而使得拟合曲线能较好地反映原始数据的分布特性。
最小二乘法中误差项ε的计算公式如下
式中ε为待求误差项,为图像j对应的网络状态索引拟合值,SI(j)为图像j对应的网络状态索引真实值,a 0 ,a 1 ,…,a n-1 ,a n 为待拟合的拟合系数。
对误差项ε求如下的n+1次偏导,并令每个偏导为0。求解下列线性方程组,即可求出误差最小时的拟合系数。
至此,本发明中信息熵-网络状态索引映射曲线的各项拟合系数已通过求解线性方程组得出。将各项拟合系数代入步骤CS-5.2所述的表达式,即可得到本发明中的信息熵-网络状态索引映射曲线。
进一步地,所述网络状态索引卷积神经网络集的训练包括两个步骤:
步骤TS-1,根据训练集中每个图像对应的网络状态索引,将训练图像集中的图像划分为m个训练图像子集D 1 -D m
步骤TS-2,分别用对应的训练图像子集D 1 -D m 训练待训练的卷积神经网络UN S1 -UN Sm 。下面阐述上述每个步骤的子步骤。
步骤TS-1的子步骤:
TS-1.1根据步骤CS-4获得的训练集中所有图像对应的网络状态索引SI,将训练集中图像归入对应的子训练集中。具体的,若图像j对应的网络状态索引SI(j)SI i ,则将图像j划分到训练图像子集D i 中。
步骤TS-2的子步骤:
TS-2.1 将待训练卷积神经网络UN Si 的权重和偏置随机赋初始值。
TS-2.2 输入待训练卷积神经网络UN Si 对应的训练图像子集D i ,根据梯度下降算法对待训练卷积神经网络UN Si 权重和偏置进行迭代修正,直到达到预设的迭代周期,得到卷积神经网络N Si
本发明还提供了基于网络状态索引卷积神经网络集的高效图像识别系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行上述的基于网络状态索引卷积神经网络集的高效图像识别方法。
通过本发明所构思的以上技术方案,与现有技术相比,本发明基于信息熵提供一种基于网络状态索引卷积神经网络集的高效图像识别方法,利用信息熵对图像的识别难度进行估计得出网络状态索引,并根据得出的网络状态索引选择用于图像识别的卷积神经网络的深度,其应用于大批量图像识别时可以节约大量的计算资源和计算时间。
附图说明
图1是本发明基于网络状态索引卷积神经网络集的高效图像识别方法的步骤示意图。
图2是本发明网络状态索引卷积神经网络集中卷积神经网络N Si 的结构示意图。
图3是本发明实施例中计算图像j的信息熵序列E(j)的过程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间不构成冲突就可以相互组合。
本实施方式中以Fashion-MNIST数据集为例,具体地说明本发明的实施方式。Fashion-MNIST数据集包含了10个类别的图像,分别为T-shirt(T恤),trouser(牛仔裤),pullover(套衫),dress(裙子),coat(外套),sandal(凉鞋),shirt(衬衫),sneaker(运动鞋),bag(包),ankle boot(短靴)。Fashion-MNIST数据集含有60000张训练图像,10000张测试图像。
本发明提供一种基于网络状态索引卷积神经网络集的图像识别方法,所述方法的图像识别过程如附图1所示。包括三个步骤:步骤FS-1,计算输入图像的信息熵;步骤FS-2,根据输入图像的信息熵,通过信息熵-网络状态索引曲线的映射关系得出网络状态索引;步骤FS-3,根据网络状态索引在网络状态索引卷积神经网络集(由多个特定结构且深度不同的卷积神经网络构成)中选择合适深度的卷积神经网络,将输入图像输入所选的卷积神经网络进行图像识别得出识别结果。下面具体阐述以上每个步骤的子步骤及其具体实施方式。
步骤FS-1的子步骤:
FS-1.1将输入图像灰度化。由于信息熵是基于灰度图像计算的,故需要将输入图像统一为灰度图像进行后续计算。若输入图像为灰度图像,则省略此子步骤;若输入图像为彩色图像,则采用下式将其转化为灰度图像。
上式中,GV(x,y)是对应的灰度图像像素点p(x,y)的灰度值;V R (x,y)、V G (x,y)、V B (x,y)分别为对应的彩色图像像素点p(x,y)的RGB三个通道的R、G、B值。处理得到的灰度图像每个像素点的灰度值都在[0,255]范围内。
FS-1.2计算对应灰度图像的信息熵,灰度图像信息熵的计算公式为
上式中,E G 为对应灰度图像的信息熵;p k 是灰度值为k(0≤k≤255)的像素点在该灰度图像中出现的概率,也就是说,如果该灰度图像的总像素点数量为M G ,其中灰度值为k的像素点数量为M k ,则p k 由下式求得
步骤FS-2的子步骤:
FS-2.1 根据FS-1.2所得的灰度图像的信息熵,通过信息熵-网络状态索引映射曲线得到对应灰度图像的网络状态索引SI的近似值。所述信息熵-网络状态索引映射曲线通过拟合获得,具体拟合的步骤在步骤CS-5中进行详细说明。特别需要指出的是,本子步骤FS-2.1根据对应灰度图像的信息熵和所述信息熵-网络状态索引映射曲线的映射关系求取的网络状态索引SI的近似值可能是非整数。
FS-2.2 采用向上取整原则对子步骤FS-2.1求取的网络状态索引SI的近似值进行取整处理,求得网络状态索引SI
步骤FS-3的子步骤:
FS-3.1 根据FS-2.2所得的网络状态索引SI,在网络状态索引卷积神经网络集中选择对应的合适深度的卷积神经网络N S 。所述网络状态索引卷积神经网络集由多个特定结构且深度不同的卷积神经网络构成。
FS-3.2 将输入图像输入FS-3.1所选择的卷积神经网络N S ,得到识别结果。
具体地,所述卷积神经网络集由m个特定结构且深度不同的卷积神经网络组成,且每个卷积神经网络均包含相同的基础网络模块BN和不同层数的深度加工层组。构建网络集前,需要先根据待分类图像的大致识别难度分布,确定卷积神经网络集中包含的卷积神经网络数量m。一般来说,图像集合中包含的图像类别越多,识别难度分布越分散,选取的m值越大。以卷积神经网络N Si 为例,其结构如附图2所示,由基础网络模块BN和深度加工层组L i 两部分组成。其中,基础网络模块包括置于前端的输入层、基础卷积层、基础池化层和置于后端的全连接层、输出层;深度加工层组L i 包含i个卷积-池化层组(i=1,2,3,...,m),由第1个至第i个卷积-池化层组G 1 -G 2 -…-G i-1 -G i 级联构成。每个卷积神经网络都与唯一的网络状态索引SI对应,如网络状态索引SI i 唯一对应卷积神经网络N Si 。本实施例中以Fashion-MNIST数据集为例,该数据集是经过预处理的图像集合,相对识别难度分布较集中,故设置m=3。
具体地,所述网络状态索引卷积神经网络集的构建具体包括三个步骤:步骤BS-1,设置基础网络模块的超参数;步骤BS-2,设置深度加工层组L 1 L 3 的超参数;步骤BS-3,分别将深度加工层组L i i=1,2,3)插入基础网络模块的基础池化层和全连接层之间,得到待训练的卷积神经网络UN S1 UN S3 。下面阐述上述各步骤的子步骤及其具体实施方式。
步骤BS-1的子步骤:
BS-1.1 设置基础网络模块输入层的超参数。输入层的超参数为输入层(二维)神经元的数量X×Y,X、Y分别与输入图像的像素(二维)xinput×yinput的xinput、yinput相等。对于Fashion-MNIST数据集,其中的图像均为28×28的灰度图片,故这里设置X=28,Y=28。
BS-1.2 设置基础网络模块基础卷积层的超参数。基础卷积层的超参数包括卷积核尺寸、卷积核个数、卷积运算的步长、横向边沿零填充尺寸、纵向边沿零填充尺寸、输出激活函数。
基础卷积层是整个卷积神经网络中第一个卷积层,通常会将卷积核尺寸取得较大。此处取卷积核尺寸为5×5,个数为6个。卷积运算的步长取为1,横向每个边沿零填充尺寸为2,纵向边沿每个边沿零填充尺寸为2,卷积的输出激活函数为ReLU函数。
BS-1.3 设置基础网络模块基础池化层的超参数。基础池化层的超参数包括池化核尺寸、池化运算步长、池化运算方式、横向边沿零填充尺寸、纵向边沿零填充尺寸。此处取池化核尺寸为2×2,池化运算的步长取为1,横向每个边沿零填充尺寸为0,纵向边沿每个边沿零填充尺寸为0。
BS-1.4 设置基础网络模块全连接层的超参数。全连接层的超参数为全连接层神经元数量、输出激活函数。对不同深度的网络,本实施例中统一取全连接层的神经元数量为512。输出激活函数选择ReLU函数。
BS-1.5 设置基础网络模块输出层的超参数。输出层的超参数为输出层神经元个数,其与待识别图像的图像类别数相等。对于Fashion-MNIST数据集,其中包含了10个类别的图像。故输出层神经元的个数为10个。
步骤BS-2的子步骤:
BS-2.1 设置深度加工层组中卷积-池化层组G i 的超参数。所述卷积-池化层组G i 包含深度加工卷积层C i 和深度加工池化层P i 。深度加工卷积层C i 的超参数包括卷积核尺寸、卷积核个数、卷积运算的步长、横向边沿零填充尺寸、纵向边沿零填充尺寸、输出激活函数。深度加工池化层P i 的超参数包括池化核尺寸、池化运算步长、池化运算方式、横向边沿零填充尺寸、纵向边沿零填充尺寸。在本实施例中设置卷积网络集中的卷积神经网络数量为3个,故i=1,2,3。
卷积池化层组G1-G3的各超参数取值如表1所示:
表1卷积池化层组G1-G3的超参数取值
/>
/>
BS-2.2将第1个至第i个卷积-池化层组G 1 -G 2 -…-G i-1 -G i 级联,构成深度加工层组L i
步骤BS-3的子步骤:
BS-3.1 分别将步骤BS-2.2所得L i i=1,2,3)插入基础网络模块的基础池化层和全连接层之间,得到待训练的网络UN S1 UN S3
具体地,所述信息熵-网络状态索引映射曲线的获取包括五个步骤:步骤CS-1,计算训练图像集中每幅图像的图像信息熵e fig (j)j=1,2,3…60000);步骤CS-2,建立并训练熵分级网络EN;步骤CS-3,将图像j输入熵分级网络EN,计算图像j在熵分级网络EN中的信息熵序列E(j);步骤CS-4,由饱和条件检验信息熵序列E(j),确定图像j在熵分级网络EN中的运算饱和位置,进而确定图像j对应的网络状态索引SI(j);步骤CS-5,根据训练集中图像j的图像信息熵e fig (j)及其对应的网络状态索引SI(j),拟合得到信息熵-网络状态索引映射曲线。下面阐述上述每个步骤的子步骤。
步骤CS-1的子步骤:
CS-1.1 计算Fashion-MINIST图像集中训练集图像j的信息熵e fig (j)j=1,2,3…60000)。
步骤CS-2的子步骤:
CS-2.1 建立熵分级网络EN。所述熵分级网络EN的结构和超参数均与待训练网络UN S3 的结构和超参数相同。将熵分级网络EN的权重和偏置值随机附初始值。
CS-2.2 训练熵分级网络EN。训练时取迭代周期数为10,每批输入图像张数为256张,总共输入234批图像训练。选择训练优化算法为动量梯度下降算法(动量取0.5),损失函数为交叉熵函数。
(1)随机地从训练图像集中抽取256个图像为一批,共抽取234批。
(2)将234批图像逐批输入,对熵分级网络EN进行训练;每批256个图像经过熵分级网络EN的前向传播得到输出的256组10个分类概率。
(3)通过计算每256组分类概率与真实概率的交叉熵损失函数值,再对交叉熵损失函数使用动量梯度下降法对熵分级网络的权重和偏置进行迭代修正,直到达到预设的迭代周期数为止。
(4)每个迭代周期之后,计算熵分级网络EN对测试图像集的分类或识别准确率,保存熵分级网络EN对测试图像集的识别准确率最高时的网络的权重和偏置作为熵分级网络EN的训练结果。
步骤CS-3的子步骤:
CS-3.1 将图像j输入熵分级网络EN,得到熵分级网络EN全部卷积-池化层组G 1 ,G 2 ,G 3 运算的3个层组特征图像。图像j在熵分级网络EN中的运算过程如附图3所示。
熵分级网络EN共包含3个卷积-池化层组G 1 ,G 2 ,G 3 ,故图像j输入熵分级网络EN后,将共得到3个层组特征图像M 1 (j)-M 3 (j)
CS-3.2 将层组特征图像转化为层组灰度图像。
步骤CS-3.1得到的层组特征图像中像素点值的范围与标准灰度图像像素点值的取值范围不同。为保证信息熵计算的一致性,由步骤CS-3.2得到的层组特征图像需要先转化为标准灰度图像,再计算对应的标准灰度图像的信息熵。将层组特征图像转化为层组灰度图像的公式如下:
式中GM i (j)(x,y)为层组灰度图像GM i (j)在像素点(x,y)处的值,M i (j)(x,y)为层组特征图像M i (j)在像素点(x,y)处的值,λ(j)为归一化系数,为向上取整符号。其中,图像j对应的归一化系数λ(j)的计算公式如下:
M i (j)(x,y)为层组特征图像M i (j)在像素点(x,y)处的值,maxm i (j)为层组特征图像M i (j)中所有像素点数值的最大值,minm i (j)为层组特征图像M i (j)中所有像素点数值的最小值。
通过上述计算,可由层组特征图像得到层组灰度图像。本步骤运算完成后将得到对应的3幅层组灰度图像。
CS-3.3 计算步骤CS-3.2得到的3幅层组灰度图像的信息熵e 1 (j)e 3 (j),再将所得灰度图像信息熵按照层组顺序排列,得到图像j的信息熵序列E(j)
步骤CS-4的子步骤:
CS-4.1 依据饱和条件,由步骤CS-3获得的信息熵序列E(j)确定图像j在熵分级网络EN中的运算饱和层组G i (j),并由此确定图像j对应的网络状态索引SI(j)
其中,所述饱和条件为:对于图像j,若层组i灰度图像的信息熵与层组i-1灰度图像的信息熵之差e i (j)-e i-1 (j)<饱和阈值,则认为图像j在卷积-池化层组G i 处运算达到饱和。即令图像j对应的网络状态索引SI(j)SI i ,对应的网络为N Si 。如果序列中没有满足饱和指标的网络层组,则令图像j对应的网络状态索引为SI(j)SI 3 ,对应的网络为N S3 。由于实施方式选取的图像集中图像像素点数少,图像识别较简单,故取饱和阈值为50。
步骤CS-5的子步骤:
CS-5.1 拟合数据预处理。
由步骤CS-1可得训练集中图像j的信息熵e fig (j)j=1,2,3…60000),由步骤CS-4可得训练集中图像j对应的网络状态索引SI(j)。综上,可以得到训练集中图像j的信息熵及其对应的网络状态索引数据点(e fig (j)SI(j))。训练集中60000幅图像对应的60000组数据点即为拟合本发明中图像信息熵-网络状态索引曲线的样本数据点。
进行预处理时,首先通过观察数据的大致趋势,将明显不合理、偏离拟合趋势线的数据点剔除,避免后续拟合时影响曲线精度。
CS-5.2 确定拟合方式。根据样本数据点的分布趋势,选择合适的曲线模型和拟合方式对样本数据点进行拟合。此处以多项式拟合方式为例,进行后续说明。由于多项式拟合建立的是数值与数值之间的映射关系,故将网络状态索引SI i 的值赋为ii=1,2,3)。
确定拟合方式为多项式拟合后,综合考虑样本数据的分布和预期的曲线精度,选择多项式的次数n。本发明信息熵-网络状态索引映射曲线是3次多项式形式,其表达式为:
式中为图像j对应的网络状态索引拟合值,a 1a 2a 3a 4为待拟合的拟合系数。
CS-5.3 求取拟合系数。
采用最小二乘法求取拟合系数。最小二乘法以误差的平方和作为评价指标,通过对误差项求偏导数,使拟合系数最优,进而使得拟合曲线能较好地反映原始数据的分布特性。
最小二乘法中误差项ε的计算公式如下
式中ε为待求误差项,为图像j对应的网络状态索引拟合值,SI(j)为图像j对应的网络状态索引真实值,a 1a 2a 3a 4为待拟合的拟合系数。
对误差项ε求如下的n+1次偏导,并令每个偏导为0。求解下列线性方程组,即可求出误差最小时的拟合系数。
至此,本发明中信息熵-网络状态索引映射曲线的各项拟合系数已通过求解线性方程组得出。将各项拟合系数代入步骤CS-5.2所述的表达式,即可得到本发明中的信息熵-网络状态索引映射曲线。
具体地,所述网络状态索引卷积神经网络集的训练包括两个步骤:步骤TS-1,根据训练集中每个图像对应的网络状态索引,将训练图像集中的图像划分为3个训练图像子集D 1 -D 3 ;步骤TS-2,分别用对应的训练图像子集D 1 -D 3 训练待训练的卷积神经网络UN S1 -UN S3 。下面阐述上述每个步骤的子步骤。
步骤TS-1的子步骤:
TS-1.1根据步骤CS-4获得的训练集中所有图像对应的网络状态索引SI,将训练集中图像归入对应的子训练集中。具体的,若图像j对应的网络状态索引SI(j)SI 1 ,则将图像j划分到训练图像子集D 1
步骤TS-2的子步骤:
TS-2.1 将待训练卷积神经网络UN Si 的权重和偏置随机赋初始值。
TS-2.2 输入待训练卷积神经网络UN Si 对应的训练图像子集D i ,根据梯度下降算法对待训练卷积神经网络UN Si 权重和偏置进行迭代修正,直到达到预设的迭代周期,得到卷积神经网络N Si
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.基于网络状态索引卷积神经网络集的高效图像识别方法,其特征在于,包括以下步骤:
步骤FS-1,计算输入图像的信息熵;
步骤FS-2,根据输入图像的信息熵,通过信息熵-网络状态索引曲线的映射关系得出网络状态索引;
步骤FS-3,根据网络状态索引在网络状态索引卷积神经网络集中选择对应深度的卷积神经网络,将待识别图像输入所选的卷积神经网络进行图像识别得出识别结果;所述网络状态索引卷积神经网络集包括m个深度递增的卷积神经网络N S1 - N Sm
2.根据权利要求1所述的方法,其特征在于,步骤FS-1包括:
步骤FS-1.1,将输入图像灰度化;
步骤FS-1.2,计算对应灰度图像的信息熵。
3.根据权利要求2所述的方法,其特征在于,步骤FS-2包括:
步骤FS-2.1,根据步骤FS-1.2所得的灰度图像的信息熵,通过信息熵-网络状态索引曲线的映射关系得到对应灰度图像的网络状态索引SI'
步骤FS-2.2,对网络状态索引SI' 向上取整,求得网络状态索引SI
4.根据权利要求3所述的方法,其特征在于,步骤FS-2.1中信息熵-网络状态索引曲线是通过以下步骤得到的:
步骤CS-1,计算训练图像集中每幅图像的图像信息熵e fig (j)j=1,2,3…J,J为训练图像集中图像的数量;
步骤CS-2,建立并训练熵分级网络EN
步骤CS-3,将图像j输入熵分级网络EN,计算图像j在熵分级网络EN中的信息熵序列E (j)
步骤CS-4,由饱和条件检验信息熵序列E(j),确定图像j在熵分级网络EN中的运算饱和位置,进而确定图像j对应的网络状态索引SI(j)
步骤CS-5,根据训练集中图像j的图像信息熵e fig (j)及其对应的网络状态索引SI(j),拟合得到信息熵-网络状态索引映射曲线。
5.根据权利要求4所述的方法,其特征在于,步骤CS-2.1中网络状态索引卷积神经网络集的结构如下:
所述网络状态索引卷积神经网络集由m个特定结构且深度不同的卷积神经网络组成,且每个卷积神经网络均包含相同的基础网络模块BN和不同层数的深度加工层组L i ;其中,基础网络模块包括置于前端的输入层、基础卷积层、基础池化层和置于后端的全连接层、输出层;深度加工层组L i 包含i个卷积-池化层组,由第1个至第i个卷积-池化层组G 1 -G 2 -…- G i-1 -G i 级联构成;每个卷积神经网络都与唯一的网络状态索引SI对应,网络状态索引SI i 唯一对应卷积神经网络N Si ,其中i=1,2,3,...,m
6.根据权利要求5所述的方法,其特征在于,网络状态索引卷积神经网络集的构建步骤如下:
步骤BS-1,设置基础网络模块的超参数;
步骤BS-2,设置深度加工层组L 1 L m 的超参数;
步骤BS-3,分别将深度加工层组L i 插入基础网络模块的基础池化层和全连接层之间,得到待训练的卷积神经网络UN S1 UN Sm
7.根据权利要求6所述的方法,其特征在于,网络状态索引卷积神经网络集的训练步骤如下:
步骤TS-1,根据训练集中每个图像对应的网络状态索引,将训练图像集中的图像划分为m个训练图像子集D 1 -D m
步骤TS-1.1,根据步骤CS-4获得的训练集中所有图像对应的网络状态索引SI,将训练集中图像归入对应的子训练集中;若图像j对应的网络状态索引SI(j)SI i ,则将图像j划分到训练图像子集D i
步骤TS-2,分别用对应的训练图像子集D 1 -D m 训练待训练的卷积神经网络UN S1 - UN Sm
步骤TS-2.1,将待训练卷积神经网络UN Si 的权重和偏置随机赋初始值;
步骤TS-2.2,分批输入待训练卷积神经网络UN Si 对应的训练图像子集D i ,根据梯度下降算法对待训练卷积神经网络UN Si 权重和偏置进行迭代修正,直到达到预设的迭代周期,得到卷积神经网络N Si
8.根据权利要求3所述的方法,其特征在于,步骤FS-3包括:
步骤FS-3.1,根据步骤FS-2.2所得的网络状态索引SI,在网络状态索引卷积神经网络集中选择对应的合适深度的卷积神经网络N S
步骤FS-3.2,将图像输入FS-3.1选择的卷积神经网络N S ,得到识别结果。
9.基于网络状态索引卷积神经网络集的高效图像识别系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1至8任一项所述的基于网络状态索引卷积神经网络集的高效图像识别方法。
CN202310896189.6A 2023-07-21 2023-07-21 基于网络状态索引卷积神经网络集的图像识别方法及系统 Active CN116612338B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310896189.6A CN116612338B (zh) 2023-07-21 2023-07-21 基于网络状态索引卷积神经网络集的图像识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310896189.6A CN116612338B (zh) 2023-07-21 2023-07-21 基于网络状态索引卷积神经网络集的图像识别方法及系统

Publications (2)

Publication Number Publication Date
CN116612338A true CN116612338A (zh) 2023-08-18
CN116612338B CN116612338B (zh) 2023-09-29

Family

ID=87682172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310896189.6A Active CN116612338B (zh) 2023-07-21 2023-07-21 基于网络状态索引卷积神经网络集的图像识别方法及系统

Country Status (1)

Country Link
CN (1) CN116612338B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724631A (zh) * 2012-06-28 2012-10-10 上海交通大学 车辆自组织网络基于位置路由的位置信息更新方法
CN103200407A (zh) * 2013-04-16 2013-07-10 中国科学院光电技术研究所 一种自适应熵编码器
CN109711422A (zh) * 2017-10-26 2019-05-03 北京邮电大学 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN109871909A (zh) * 2019-04-16 2019-06-11 京东方科技集团股份有限公司 图像识别方法及装置
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
CN114241267A (zh) * 2021-12-21 2022-03-25 安徽大学 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法
CN116452919A (zh) * 2023-04-20 2023-07-18 苏州鸿鹄骐骥电子科技有限公司 基于信息熵卷积神经网络的芯片表面缺陷识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724631A (zh) * 2012-06-28 2012-10-10 上海交通大学 车辆自组织网络基于位置路由的位置信息更新方法
CN103200407A (zh) * 2013-04-16 2013-07-10 中国科学院光电技术研究所 一种自适应熵编码器
CN109711422A (zh) * 2017-10-26 2019-05-03 北京邮电大学 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
WO2020073951A1 (zh) * 2018-10-10 2020-04-16 腾讯科技(深圳)有限公司 用于图像识别的模型的训练方法、装置、网络设备和存储介质
CN109871909A (zh) * 2019-04-16 2019-06-11 京东方科技集团股份有限公司 图像识别方法及装置
CN114241267A (zh) * 2021-12-21 2022-03-25 安徽大学 基于结构熵采样的多目标架构搜索骨质疏松图像识别方法
CN116452919A (zh) * 2023-04-20 2023-07-18 苏州鸿鹄骐骥电子科技有限公司 基于信息熵卷积神经网络的芯片表面缺陷识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘兵;张鸿;: "基于卷积神经网络和流形排序的图像检索算法", 《计算机应用》, vol. 36, no. 02, pages 531 - 534 *

Also Published As

Publication number Publication date
CN116612338B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN110287873A (zh) 基于深度神经网络的非合作目标位姿测量方法、系统及终端设备
CN111783772A (zh) 一种基于RP-ResNet网络的抓取检测方法
CN111126134B (zh) 基于非指纹信号消除器的雷达辐射源深度学习识别方法
CN109816002B (zh) 基于特征自迁移的单一稀疏自编码器弱小目标检测方法
CN109284779A (zh) 基于深度全卷积网络的物体检测方法
CN109859101B (zh) 农作物冠层热红外图像识别方法及系统
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN113095333B (zh) 无监督特征点检测方法及装置
CN109598220A (zh) 一种基于多元输入多尺度卷积的人数统计方法
CN111582337A (zh) 基于小样本细粒度图像分析的草莓畸形状态检测方法
CN112364881B (zh) 一种进阶采样一致性图像匹配方法
CN111079805A (zh) 一种结合注意力机制及信息熵最小化的异常图像检测方法
CN111445426A (zh) 一种基于生成对抗网络模型的目标服装图像处理方法
CN112364974A (zh) 一种基于激活函数改进的YOLOv3算法
CN109902641B (zh) 基于语义对齐的人脸关键点检测方法、系统、装置
CN113128518B (zh) 基于孪生卷积网络和特征混合的sift误匹配检测方法
CN111814804B (zh) 基于ga-bp-mc神经网络的人体三维尺寸信息预测方法及装置
CN116612338B (zh) 基于网络状态索引卷积神经网络集的图像识别方法及系统
CN111046958A (zh) 基于数据依赖的核学习和字典学习的图像分类及识别方法
CN115909332A (zh) 一种基于通道特征加强的农业遥感图像语义分割方法
CN113221914B (zh) 一种基于杰卡德距离的图像特征点匹配和误匹配剔除方法
CN115331021A (zh) 基于多层特征自身差异融合的动态特征提取与描述方法
CN111797903B (zh) 一种基于数据驱动粒子群算法的多模态遥感图像配准方法
CN115879513B (zh) 一种数据的层次化标准化方法、装置和电子设备
CN108090504A (zh) 基于多通道字典的物体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant