CN113850326A - 一种图像识别方法、装置、设备及存储介质 - Google Patents

一种图像识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113850326A
CN113850326A CN202111124036.7A CN202111124036A CN113850326A CN 113850326 A CN113850326 A CN 113850326A CN 202111124036 A CN202111124036 A CN 202111124036A CN 113850326 A CN113850326 A CN 113850326A
Authority
CN
China
Prior art keywords
target
activation function
image recognition
function
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111124036.7A
Other languages
English (en)
Inventor
陈静静
吴睿振
黄萍
王凛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Original Assignee
Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd filed Critical Shandong Yunhai Guochuang Cloud Computing Equipment Industry Innovation Center Co Ltd
Priority to CN202111124036.7A priority Critical patent/CN113850326A/zh
Publication of CN113850326A publication Critical patent/CN113850326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像识别方法、装置、设备及存储介质;在本方案中,预先将原始图像识别模型中的原始激活函数,替换为通过原始激活函数及线性函数确定的可训练的目标激活函数,该目标激活函数中具有可训练的目标参数,其参数值在训练过程确定;然后对替换后的图像识别模型进行训练得到目标图像识别模型,以便利用目标图像识别模型执行图像识别任务。可见,本方案通过在图像识别模型的训练过程中确定目标激活函数的参数值,以此来建立一种适合当前模型、当前任务、当前数据的最优的目标激活函数,进而提高了图像识别模型的收敛速度及准确率。

Description

一种图像识别方法、装置、设备及存储介质
技术领域
本发明涉及图片识别技术领域,更具体地说,涉及一种图像识别方法、装置、设备及存储介质。
背景技术
目前,通过ANN(Artificial Neural Network,人工神经网络模型)对图像进行识别处理时,对最终运算结果准确影响最大的是激活函数的应用。激活函数(ActivationFunction)是一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。类似于人类大脑中基于神经元的模型,激活函数最终决定了要发射给下一个神经元的内容。在人工神经网络中,一个节点的激活函数定义了该节点在给定的输入或输入集合下的输出。标准的计算机芯片电路可以看作是根据输入得到开(1)或关(0)输出的数字电路激活函数。因此,激活函数是确定神经网络输出的数学方程式。但是,由于ANN中的激活函数存在梯度容易消失的问题,导致ANN收敛速度慢,降低ANN的识别准确率。
发明内容
本发明的目的在于提供一种图像识别方法、装置、设备及存储介质,以提高图像识别模型的收敛速度及准确率。
为实现上述目的,本发明提供一种图像识别方法,包括:
确定原始图像识别模型中的原始激活函数;
利用所述原始激活函数及线性函数确定可训练的目标激活函数;所述目标激活函数中具有可训练的目标参数;
将所述原始图像识别模型中的所述原始激活函数替换为所述目标激活函数,并对替换后的图像识别模型进行训练得到目标图像识别模型;所述目标激活函数中目标参数的参数值通过训练过程确定;
利用所述目标图像识别模型执行图像识别任务。
其中,所述利用所述原始激活函数及线性函数确定可训练的目标激活函数,包括:
根据所述原始激活函数h(x)及线性函数u(x)确定的可训练的目标激活函数为:φ(x,ξ)=α*h(x)+(1-α)*u(x);其中,φ(x,ξ)表示目标激活函数,x表示输入数据,ξ表示可训练参数,α表示第一目标参数。
其中,所述线性函数为:u(x)=a*x+b;其中,a表示第二目标参数,b表示第三目标参数。
其中,图像识别模型为LeNet卷积神经网络。
其中,所述对替换后的图像识别模型进行训练得到目标图像识别模型,包括:
通过MNIST数据集对替换后的LeNet卷积神经网络进行训练,得到目标LeNet卷积神经网络。
其中,所述利用所述目标图像识别模型执行图像识别任务,包括:
确定待识别的目标图像;
将所述目标图像输入所述目标LeNet卷积神经网络,通过所述目标LeNet卷积神经网络识别所述目标图像中的手写数字。
为实现上述目的,本发明进一步提供一种图像识别装置,包括:
第一确定模块,用于确定原始图像识别模型中的原始激活函数;
第二确定模块,用于利用所述原始激活函数及线性函数确定可训练的目标激活函数;所述目标激活函数中具有可训练的目标参数;
替换模块,用于将所述原始图像识别模型中的所述原始激活函数替换为所述目标激活函数;
训练模块,用于对替换后的图像识别模型进行训练得到目标图像识别模型;所述目标激活函数中目标参数的参数值通过训练过程确定;
识别模块,用于利用所述目标图像识别模型执行图像识别任务。
其中,所述第二确定模块具体用于:根据所述原始激活函数h(x)及线性函数u(x)确定的可训练的目标激活函数为:
φ(x,ξ)=α*h(x)+(1-α)*u(x);其中,φ(x,ξ)表示目标激活函数,x表示输入数据,ξ表示可训练参数,α表示第一目标参数。
其中,所述线性函数为:u(x)=a*x+b;其中,a表示第二目标参数,b表示第三目标参数。
其中,所述训练模块具体用于:通过MNIST数据集对替换后的LeNet卷积神经网络进行训练,得到目标LeNet卷积神经网络。
为实现上述目的,本发明进一步提供一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述图像识别方法的步骤。
为实现上述目的,本发明进一步提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述图像识别方法的步骤。
通过以上方案可知,本发明实施例提供了一种图像识别方法、装置、设备及存储介质;在本方案中,预先将原始图像识别模型中的原始激活函数,替换为通过原始激活函数及线性函数确定的可训练的目标激活函数,该目标激活函数中具有可训练的目标参数,其参数值在训练过程确定;然后对替换后的图像识别模型进行训练得到目标图像识别模型,以便利用目标图像识别模型执行图像识别任务。可见,本方案通过在图像识别模型的训练过程中确定目标激活函数的参数值,以此来建立一种适合当前模型、当前任务、当前数据的最优的目标激活函数,进而提高了图像识别模型的收敛速度及准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的基于ANN的激活函数运算流程图;
图2为本发明实施例公开的激活函数核心运算单元示意图;
图3为本发明实施例公开的一种图像识别方法流程示意图;
图4为本发明实施例公开的线性函数硬件实现模块示意图;
图5为本发明实施例公开的MNIST数据集示例图;
图6为本发明实施例公开的一种图像识别装置结构示意图;
图7为本发明实施例公开的一种电子设备结构示意图。
具体实施方式
参见图1,为本发明实施例提供的基于ANN的激活函数运算流程图,通过图1可以看出,数据的输入为X,每个X在卷积核中所做的运算为其权重W乘以数据,所得结果连加后,再加上偏移值bias,得到最终的输出,其运算描述为
Figure BDA0003278055020000041
该输出作为激活函数的输入,激活函数在图1中即为f(x),通过激活函数的运算,最终输出结果为y。
如上述可知,在人工智能计算中,数据的分布绝大多数是非线性的,而一般神经网络的计算是线性的,引入激活函数,是在神经网络中引入非线性,强化网络的学习能力。所以激活函数的最大特点就是非线性。虽然ANN中最大量的运算来源于MAC阵列的乘加运算,但是对最终运算结果准确影响最大的是激活函数的应用。不同的激活函数应用于不同AI模型,适用于不同的运算任务。下面介绍两种常见的激活函数:
一、Sigmoid函数。Sigmoid函数也称为Logistic函数,因为Sigmoid函数可以从逻辑回归(LR)中推理得到,也是LR模型指定的激活函数。Sigmoid函数的取值范围在(0,1)之间,可以将网络的输出映射在这一范围,方便分析。其公式表示为:
Figure BDA0003278055020000042
其导数的公式表示为:
Figure BDA0003278055020000051
也就是说,Sigmoid函数具有平滑和易于求导的优点,并且解决了函数及其导数连续性的问题。但相应的,sigmoid也具有以下缺点:1、运算量大;2、反向传播求误差梯度时,导数运算涉及除法;3、两端的导数无限趋近于0而可能在深层次的运算中发生梯度消失;4、函数不基于0对称,容易在运算加深时改变数据的分布特征。
二、Tanh函数。Tanh函数为双曲正切函数,其英文读作Hyperbolic Tangent。Tanh和Sigmoid相似,都属于饱和激活函数,区别在于输出值范围由(0,1)变为了(-1,1),tanh函数为sigmoid向下平移和拉伸后的结果。
其公式表示为:
Figure BDA0003278055020000052
其导数的公式表示为:
Figure BDA0003278055020000053
可见,相比sigmoid函数,tanh函数解决了0对称的问题,且其导数曲线更加陡峭,表示其具有更好的收敛速度。但是tanh函数依然有以下缺点:1.运算量大;2.反向传播求误差梯度时,导数运算涉及除法;3.两端的导数无限趋近于0而可能在深层次的运算中发生梯度消失。
以上两种激活函数被使用的最为广泛,但这两种激活函数依然具有明显的缺点就是容易导致梯度消失。本方案即可解决激活函数梯度消失的问题。
基于上述激活函数的描述,考虑到激活函数在ANN中所需完成的工作,本方案总结出激活函数需要满足的基本特性:
1、连续性。激活函数需要在其曲线和导数曲线(连续可导)上都是连续的,这样其激活功能才能表现出平滑特性。对于不连续的函数,比如Relu,当数据落在其不连续点,比如0点时,就会对其分类产生不理想的特性影响,而因为这种落点的几率随着函数的不连续点数量而变化,因此所构建出的激活函数可以接受不连续点,但是需要尽量减少其数量。
2、梯度爆炸或梯度消失。当神经网络的权重计算随着深入逐渐向某一个方向越来越深时,其权重的更新也会跟着激活函数的梯度(导数)递增或递减,于是这个更新会对数据集产生巨大影响。当梯度是递增的,导致权重呈指数级增加,导致数据过大,无法进行正确的分类计算,此时被称为是梯度爆炸。常见的梯度爆炸可以见于Relu,随着数据更新的深度增加,其梯度不断增大,导致最后无法计算,因此成为梯度爆炸。
相应的,假如权重随着梯度的更新逐渐减小,导致不同数据之间无法区分,叫做梯度消失。常见的梯度消失存在于sigmoid和tanh,因此在两端sigmoid和tanh的梯度都逐渐趋近于零,因此随着深度的增加,其计算导致的量级越来越小,最终发生梯度消失。按照Google的研究结论,一般梯度小于0.024的激活函数,即会发生梯度消失情况。为解决梯度消失问题,使用的方案为在梯度近零端,使用高斯或随机分布,使其产生抖动,减少梯度消失。
3.饱和性。激活函数的曲线本身在两端趋近于0时,即被成为饱和。饱和特性有左饱和和右饱和两类,分别表示的是激活函数的曲线向左趋近于0或是向右趋近于0。对于梯度消失问题,假如激活函数本身还具有非饱和性,则可以一定范围内解决“梯度消失”问题,实现激活函数的快速收敛。
基于Google的《SEARCHING FOR ACTIVATION FUNCTIONS》,激活函数的构造可以按照一元运算和二元运算所组合成的核心运算单元构造而成,参见图2,为本发明实施例提供的激活函数核心运算单元示意图;如图2所示,Google对激活函数的研究将其分为了一元运算和二元运算两部分,对于不同的数据x,运算不断的相互组合,最终形成激活函数,实现针对所有数据的运算输出。按照现有成功的构造激活函数的方式,一元运算和二元运算有以下组合:
一元函数:
Figure BDA0003278055020000061
二元函数:
Figure BDA0003278055020000071
一元函数及二元函数的区分方式为:一元函数的运算代表单输入单输出,二元函数代表两个输入得到一个输出的运算。使用一元函数和二元函数的组合可以得到任何激活函数。此外,经过长期的运算可知,上述一元函数和二元函数虽然代表了所有激活函数的构造方式,但是二元函数主要表示对于多输入的单输出选择情况。而真正影响激活函数连续性、梯度特性以及饱和性的,主要由一元函数构造特性决定。基于万能近似理论(universalapproximation theorem)可知,在大量的一元函数中,一个好的激活函数需要有近中点的快速梯度下降特性,以及两端的梯度逐渐平缓特性。而能够满足这样挤压特性的一元函数中,只有exp可以有效满足,因此大部分的激活函数都会或多或少的用到exp进行激活函数的构造。
基于上面的激活函数特性描述已知,一个好的激活函数,在近零点为了能够实现快速分类激活,需要有明显的梯度变化,即越靠近0点梯度越高,而在越远离0点梯度越下降。而能够满足这样挤压特性的一元函数中,只有指数exp可以有效满足,因此大部分的激活函数都会或多或少的用到指数exp进行激活函数的构造。例如,sigmoid和tanh激活函数。sigmoid和tanh激活函数在全连接神经网络和卷积神经网络中,都有非常优秀的表现。是一种通用的激活函数,但是不是最优的激活函数。
Sigmoid和tanh激活函数的导数在0点左右取值最大(梯度最大),趋于两端时导数趋近于0(梯度减少,以致导致梯度消失)。这是因为,一般认为在通用情况下,数据大量的分布在0左右,因此激活函数在0左右需要有一个大的梯度(导数)使模型快速收敛;而当待激活的数据趋于两端时,模型已经有一个意向的输出,此时应该减小梯度,对模型参数进行微调。事实上,不同的应用环境下,数据集特性具有各自微小的差别,所计算的数据集也许并不是大量的分布在0点左右,当这种情况出现时,如果我们还是使用通用的Sigmoid和tanh激活函数,不管是模型的收敛速度还是模型的效果都达不到最优。
因此本发明认为,激活函数应该和卷积神经网络一样,其有自己固定的结构的函数,但是它的参数和卷积的参数一样,是可以根据模型、任务及数据的分布情况进行训练的。因此本发明公开了一种图像识别方法、装置、设备及存储介质,本方案中图像识别模型里的激活函数,可根据模型、任务及数据的分布情况进行训练,从而确定激活函数中目标参数的参数值,以提高图像识别模型的收敛速度及准确率。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图3,本发明实施例提供的一种图像识别方法流程示意图,包括:
S101、确定原始图像识别模型中的原始激活函数;
在本实施例中,原始图像识别模型为未经过训练的图像识别模型,图像识别模型具体可以为LeNet卷积神经网络。图像识别模型中的原始激活函数可以为Sigmoid函数、Tanh函数等等,在此并不具体限定。
S102、利用原始激活函数及线性函数确定可训练的目标激活函数;该目标激活函数中具有可训练的目标参数;
本方案利用原始激活函数及线性函数确定可训练的目标激活函数时,需要确定原始激活函数h(x)及线性函数u(x),根据原始激活函数h(x)及线性函数u(x)确定的可训练的目标激活函数为:
φ(x,ξ)=α*h(x)+(1-α)*u(x);其中,该φ(x,ξ)表示目标激活函数,x表示输入数据,ξ表示可训练参数,α表示第一目标参数。该线性函数为:u(x)=a*x+b;其中,a表示第二目标参数,b表示第三目标参数。
具体来说,本方案需要在现有的通用的激活函数的基础上,建立可以训练的含有超参数的激活函数。也即:本方案在原始的激活函数h(x)的基础上,增加一个基于现有数据分布及模型可训练的线性函数u(x)=a*x+b,用来移动原始的激活函数h(x),使其满足在数据分布密集的地方梯度最大:
φ(x,a,a,b)=α*h(x)+(1-α)*u(x) (5)
其中,α,a,b是可以训练的目标参数。在模型的训练过程中,激活函数的目标参数α,a,b和其他模型参数一样参与训练,训练完成后α,a,b作为常数进行模型的推断。参见图4,本发明实施例提供的线性函数硬件实现模块示意图。
S103、将原始图像识别模型中的原始激活函数替换为目标激活函数,并对替换后的图像识别模型进行训练得到目标图像识别模型;该目标激活函数中目标参数的参数值通过训练过程确定;
S104、利用标图像识别模型执行图像识别任务。
具体来说,本方案建立可训练的激活函数结构及使用过程如下:
第一步:确定基准的激活函数,如:h(x)=sigmoid(x);
第二步:确定基于现有数据分布及模型可训练的线性函数:M(x)=a*x+b;
第三步:确定激活函数的结构
φ(x,ξ)=α*h(x)+(1-α)*u(x) (6)
其中,α,a,b是可以训练的参数。
第四步:使用激活函数6代替原始模型中的激活函数,对模型进行训练;
第五步:用训练好的模型参数及激活函数的参数进行推断。
需要说明的是,若本实施例中的图像识别模型为LeNet卷积神经网,在本申请具体可通过MNIST数据集对替换后的LeNet卷积神经网络进行训练,得到目标LeNet卷积神经网络;并且确定待识别的目标图像,将目标图像输入训练后的目标LeNet卷积神经网络,通过目标LeNet卷积神经网络识别所述目标图像中的手写数字。
在此,通过一具体实施例对本方案进行说明。在本实施例中,选择一个通用、全面(涵盖卷积、池化、非线性等运算)、复杂度适中的成熟ANN网络模型,以及一个公开通用的数据集完成相关工作,基于以上认知,本方案选择业界公认的LeNet和MNIST。
MNIST数据集是经典的小型图像分类数据集,由美国国家标准与技术研究所(NIST)发起整理,一共统计了来自250个不同的人手写数字图片,其中50%是高中生,50%来自人口普查局的工作人员。该数据集的收集目的是希望通过算法,实现对手写数字的识别。MNIST包含70,000张手写体数字图片,每张图片由28x 28个像素点构成,每个像素点用一个灰度值表示。其中60000个样本作为训练数据集,10000张样本作为测试数据集。每个样本都有其对应的标签,用单个十进制数表示,对应图片对应的类别。该数据集自1998年起,被广泛地应用于机器学习和深度学习领域,用来测试算法的效果,例如线性分类器(LinearClassifiers)、K-近邻算法(K-Nearest Neighbors)、支持向量机(SVMs)、神经网络(NeuralNets)、卷积神经网络(Convolutional nets)等等。参见图5,为本发明实施例提供的MNIST数据集示例图。
LeNet是一个较简单的卷积神经网络。输入的二维图像,先经过两次卷积层到池化层,再经过全连接层,最后使用softmax分类作为输出层。LeNet-5这个网络虽然很小,但是它包含了所有常见的深度学习的基本模块:卷积层,池化层,全连接层。LeNet-5共有7层,不包含输入,每层都包含可训练参数;每个层有多个Feature Map(特征图),每个Feature Map通过一种卷积滤波器提取输入的一种特征,然后每个Feature Map有多个神经元。
各层参数详解如下:
Input层-输入层:输入:28*28,输入像素的值进行归一化
C1层-卷积层:输入feature map:32*32,输出feature map:28*28*6,卷积核大小:5*5,步长:1,可训练参数:(5*5+1)*6=156,连接数:(5*5+1)*28*28*6=122304,激活函数:Relu/tanh/softplus/sigmoid。
S2层-池化层:输入feature map:28*28*6,输出feature map:14*14*6,采样区域:2*2,池化步长:2,连接数:(2*2)*14*14*6=4704。
C3层-卷积层:输入feature map:14*14*6,输出feature map:10*10*16,卷积核大小:5*5,步长:1,可训练参数:(5*5*6+1)*16=2416,连接数:2416*10*10=241600,激活函数:Relu/tanh/softplus/sigmoid。
S4层-池化层:输入feature map:10*10*16,输出feature map:5*5*16,采样区域:2*2,池化步长:2,连接数:(2*2)*5*5*16=1600。
C5层-卷积层:输入feature map:5*5*16,输出feature map:1*1*120,卷积核组数:120,卷积核尺寸:5*5*120,可训练参数:(5*5*16+1)*120=48120,激活函数:Relu/tanh/softplus/sigmoid。
F6层-全连接层:输入feature map:1*1*120,输出feature map:1*1*84,可训练参数:(120+1)*84=10164,激活函数:Relu/tanh/softplus/sigmoid。
输出层:输入feature map:1*1*84,输出feature map:1*1*10,可训练参数:(84+1)*10=850,激活函数:softmax。
损失函数:交叉熵损失函数,torch.nn.CrossEntropyLoss,刻画的是实际输出
Figure BDA0003278055020000111
与期望输出y的距离,其中n为batchsize:
Figure BDA0003278055020000112
在ANN的代码中,超参数设置如下:优化器可以选择Adam,batchsize为200,epoch设为100。在本实施例中,使用相同的LeNet模型、相同的超参数,分别使用sigmoid/tanh激活函数和我们提出的激活函数的结构对上述Lenet模型在mnist数据集上进行模型训练及推断。通过训练结果可以看出,本发明提出的激活函数收敛速度比原始sigmoid函数要快,且模型的准确率比原始的sigmoid函数要高。将训练好的模型应用到相同测试集进行推断的时候,使用sigmoid激活函数的模型的准确率为0.9707,使用本发明提出的激活函数的模型的准确率为0.9859。
综上所述,本发明通过图像识别模型执行图像识别任务时,需要根据原激活函数建立一种可训练的目标激活函数。这种激活函数的结构可以参加模型的训练,在模型的训练过程中确定激活函数超参数的值,以此来建立一种适合当前模型、当前任务、当前数据的最优的目标激活函数。本发明所提出的改进方案不影响原本激活函数的工作效果,额外增加的运算符合线性特点,可以很简单的通过硬件作为可选用的模块实现,并且,该可训练的激活函数的收敛速度和模型的准确率都要优于原激活函数。
下面对本发明实施例提供的识别装置、设备及存储介质进行介绍,下文描述的识别装置、设备及存储介质与上文描述的识别方法可以相互参照。
参见图6,本发明实施例提供的一种图像识别装置结构示意图,包括:
第一确定模块11,用于确定原始图像识别模型中的原始激活函数;
第二确定模块12,用于利用所述原始激活函数及线性函数确定可训练的目标激活函数;所述目标激活函数中具有可训练的目标参数;
替换模块13,用于将所述原始图像识别模型中的所述原始激活函数替换为所述目标激活函数;
训练模块14,用于对替换后的图像识别模型进行训练得到目标图像识别模型;所述目标激活函数中目标参数的参数值通过训练过程确定;
识别模块15,用于利用所述目标图像识别模型执行图像识别任务。
其中,所述第二确定模块具体用于:根据所述原始激活函数h(x)及线性函数u(x)确定的可训练的目标激活函数为:
φ(x,ξ)=α*h(x)+(1-α)*u(x);其中,φ(x,ξ)表示目标激活函数,x表示输入数据,ξ表示可训练参数,α表示第一目标参数。
其中,所述线性函数为:u(x)=a*x+b;其中,a表示第二目标参数,b表示第三目标参数。图像识别模型为LeNet卷积神经网络。
其中,所述训练模块具体用于:通过MNIST数据集对替换后的LeNet卷积神经网络进行训练,得到目标LeNet卷积神经网络。
其中,所述识别模块具体用于:确定待识别的目标图像;将所述目标图像输入所述目标LeNet卷积神经网络,通过所述目标LeNet卷积神经网络识别所述目标图像中的手写数字。
参见图7,本发明实施例提供的一种电子设备结构示意图,包括:
存储器21,用于存储计算机程序;
处理器22,用于执行所述计算机程序时实现上述方法实施例所述的图像识别方法的步骤。
在本实施例中,设备可以是PC(Personal Computer,个人电脑),也可以是智能手机、平板电脑、掌上电脑、便携计算机等终端设备。
该设备可以包括存储器21、处理器22和总线23。
其中,存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器21在一些实施例中可以是设备的内部存储单元,例如该设备的硬盘。存储器21在另一些实施例中也可以是设备的外部存储设备,例如设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器21还可以既包括设备的内部存储单元也包括外部存储设备。存储器21不仅可以用于存储安装于设备的应用软件及各类数据,例如执行图像识别方法的程序代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器22在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器21中存储的程序代码或处理数据,例如执行图像识别方法的程序代码等。
该总线23可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
进一步地,设备还可以包括网络接口24,网络接口24可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该设备与其他电子设备之间建立通信连接。
可选地,该设备还可以包括用户接口25,用户接口25可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口25还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在设备中处理的信息以及用于显示可视化的用户界面。
图7仅示出了具有组件21-25的设备,本领域技术人员可以理解的是,图7示出的结构并不构成对设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法实施例所述的图像识别方法的步骤。
其中,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上可见,现有方案中图像识别模型的激活函数,是基于数学原理针对卷积中的通用情况所构造的固定结构,但是在实际的ANN工作中,同一个模型,有不同的数据环境、不同的应用需求,因此一个更准确的激活函数应该在原有激活函数构造特性的前提下,基于模型、任务及数据的分布情况进行工作。因此本发明在原有通用的激活函数的基础上,提出一种可以根据模型、任务及数据的分布情况进行训练的激活函数的结构。这种激活函数的结构包含一些超参,这些参数可以参与模型的训练,在模型的训练过程中确定超参数的值,以此来建立一种适合当前模型、当前任务、当前数据的最优的激活函数。这些额外添加的超参不会破坏原本的激活函数算法结构,增加少量的运算即可实现较高准确性的提升,适合硬件实现,效果优秀。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种图像识别方法,其特征在于,包括:
确定原始图像识别模型中的原始激活函数;
利用所述原始激活函数及线性函数确定可训练的目标激活函数;所述目标激活函数中具有可训练的目标参数;
将所述原始图像识别模型中的所述原始激活函数替换为所述目标激活函数,并对替换后的图像识别模型进行训练得到目标图像识别模型;所述目标激活函数中目标参数的参数值通过训练过程确定;
利用所述目标图像识别模型执行图像识别任务;
其中,所述利用所述原始激活函数及线性函数确定可训练的目标激活函数,包括:
根据所述原始激活函数h(x)及线性函数u(x)确定的可训练的目标激活函数为:φ(x,ξ)=α*h(x)+(1-α)*u(x);其中,φ(x,ξ)表示目标激活函数,x表示输入数据,ξ表示可训练参数,α表示第一目标参数。
2.根据权利要求1所述的图像识别方法,其特征在于,所述线性函数为:u(x)=a*x+b;其中,a表示第二目标参数,b表示第三目标参数。
3.根据权利要求1或2所述的图像识别方法,其特征在于,图像识别模型为LeNet卷积神经网络。
4.根据权利要求3所述的图像识别方法,其特征在于,所述对替换后的图像识别模型进行训练得到目标图像识别模型,包括:
通过MNIST数据集对替换后的LeNet卷积神经网络进行训练,得到目标LeNet卷积神经网络。
5.根据权利要求4所述的图像识别方法,其特征在于,所述利用所述目标图像识别模型执行图像识别任务,包括:
确定待识别的目标图像;
将所述目标图像输入所述目标LeNet卷积神经网络,通过所述目标LeNet卷积神经网络识别所述目标图像中的手写数字。
6.一种图像识别装置,其特征在于,包括:
第一确定模块,用于确定原始图像识别模型中的原始激活函数;
第二确定模块,用于利用所述原始激活函数及线性函数确定可训练的目标激活函数;所述目标激活函数中具有可训练的目标参数;
替换模块,用于将所述原始图像识别模型中的所述原始激活函数替换为所述目标激活函数;
训练模块,用于对替换后的图像识别模型进行训练得到目标图像识别模型;所述目标激活函数中目标参数的参数值通过训练过程确定;
识别模块,用于利用所述目标图像识别模型执行图像识别任务;
其中,所述第二确定模块具体用于:根据所述原始激活函数h(x)及线性函数u(x)确定的可训练的目标激活函数为:
φ(x,ξ)=α*h(x)+(1-α)*u(x);其中,φ(x,ξ)表示目标激活函数,x表示输入数据,ξ表示可训练参数,α表示第一目标参数。
7.根据权利要求6所述的图像识别装置,其特征在于,所述线性函数为:u(x)=a*x+b;其中,a表示第二目标参数,b表示第三目标参数。
8.根据权利要求6或7所述的图像识别装置,其特征在于,所述训练模块具体用于:通过MNIST数据集对替换后的LeNet卷积神经网络进行训练,得到目标LeNet卷积神经网络。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的图像识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的图像识别方法的步骤。
CN202111124036.7A 2021-09-24 2021-09-24 一种图像识别方法、装置、设备及存储介质 Pending CN113850326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111124036.7A CN113850326A (zh) 2021-09-24 2021-09-24 一种图像识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111124036.7A CN113850326A (zh) 2021-09-24 2021-09-24 一种图像识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113850326A true CN113850326A (zh) 2021-12-28

Family

ID=78979384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111124036.7A Pending CN113850326A (zh) 2021-09-24 2021-09-24 一种图像识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113850326A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548381A (zh) * 2022-04-25 2022-05-27 苏州浪潮智能科技有限公司 全光神经网络的激活函数构造方法、装置、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548381A (zh) * 2022-04-25 2022-05-27 苏州浪潮智能科技有限公司 全光神经网络的激活函数构造方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111104962B (zh) 图像的语义分割方法、装置、电子设备及可读存储介质
CN109816009B (zh) 基于图卷积的多标签图像分类方法、装置及设备
CN112613581B (zh) 一种图像识别方法、系统、计算机设备和存储介质
CN107578014B (zh) 信息处理装置及方法
CN105320957B (zh) 分类器训练方法和装置
CN108334805B (zh) 检测文档阅读顺序的方法和装置
Jensen et al. Towards scalable fuzzy–rough feature selection
CN107683469A (zh) 一种基于深度学习的产品分类方法及装置
CN109753589A (zh) 一种基于图卷积网络的图可视化方法
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
WO2019018564A1 (en) NEUROMORPHIC SYNTHESIZER
CN109214333A (zh) 卷积神经网络结构、人脸属性识别方法、装置及终端设备
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113869464B (zh) 图像分类模型的训练方法及图像分类方法
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN113850326A (zh) 一种图像识别方法、装置、设备及存储介质
US10643092B2 (en) Segmenting irregular shapes in images using deep region growing with an image pyramid
CN113822386B (zh) 一种图像识别方法、装置、设备及介质
US10776923B2 (en) Segmenting irregular shapes in images using deep region growing
CN113378866B (zh) 图像分类方法、系统、存储介质及电子设备
WO2019243910A1 (en) Segmenting irregular shapes in images using deep region growing
CN111881312B (zh) 一种图像数据集分类划分方法
CN116702784B (zh) 实体链接方法、装置、计算机设备和存储介质
Sajwan et al. Classifying flowers images by using different classifiers in orange

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination