CN108549899B - 一种图像识别方法及装置 - Google Patents
一种图像识别方法及装置 Download PDFInfo
- Publication number
- CN108549899B CN108549899B CN201810188147.6A CN201810188147A CN108549899B CN 108549899 B CN108549899 B CN 108549899B CN 201810188147 A CN201810188147 A CN 201810188147A CN 108549899 B CN108549899 B CN 108549899B
- Authority
- CN
- China
- Prior art keywords
- image
- label
- vector
- recognition model
- image recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000012545 processing Methods 0.000 claims abstract description 63
- 238000010606 normalization Methods 0.000 claims abstract description 46
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 abstract description 33
- 230000008569 process Effects 0.000 abstract description 26
- 238000012549 training Methods 0.000 abstract description 8
- 238000004904 shortening Methods 0.000 abstract 1
- 238000011176 pooling Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 17
- 239000011159 matrix material Substances 0.000 description 17
- 238000000605 extraction Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000005520 cutting process Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图像识别方法及装置。所述方法包括:在获取第一图像之后,可采用第一图像识别模型中的深度卷积神经网络对第一图像的特征进行提取,从而得到第一向量;在对第一向量进行归一化处理后,可根据归一化处理后的第一向量和第一图像识别模型的权值,确定第一图像识别模型中的多个已识别图像中是否存在第一图像的相似图像,若不存在,则设置第一图像对应的标签为第一标签。采用这种方法,将深度卷积神经网络与相似度判断模型结合起来,使得测试过程的模型结构与训练过程的模型结构保持一致,实现端到端的图像识别,从而能够缩短图像识别的时间,提高图像识别的效率。
Description
技术领域
本发明涉及图像技术领域,尤其涉及一种图像识别方法及装置。
背景技术
现有的图像识别技术通常分为两类,一类是闭集图像识别技术,即假定测试图像一定属于图像识别模型的数据库中的样本;另一类是开集图像识别技术,即首先判断测试图像是否属于图像识别模型的数据库中的样本,然后在确定的基础上识别该测试图像。相对于闭集图像识别技术,开集图像识别技术能够有效区分未知图像和已知图像,因此,更加符合图像识别的实际应用场景,比如应用于人脸识别的场景。
目前,现有技术在进行开集图像识别时,通常是使用训练好的模型提取测试图像的特征,并使用相似度判断模型计算测试图像的特征和数据库中的多个样本图像的特征之间的相似度,并将相似度最大的样本图像的标签作为测试图像的标签。现有技术并不能直接使用训练好的模型识别测试图像,容易造成图像识别过程复杂且耗时长的问题。
基于此,目前亟需一种图像识别方法,用于解决现有技术中不能直接使用训练好的模型识别测试图像而容易造成识别过程复杂且耗时长的问题。
发明内容
本发明实施例提供一种图像识别方法及装置,以解决现有技术中不能直接使用训练好的模型识别测试图像而容易造成识别过程复杂且耗时长的技术问题。
本发明实施例提供一种图像识别方法,所述方法包括:
获取第一图像,并将所述第一图像输入第一图像识别模型;所述第一图像识别模型包括多个已识别图像及所述多个已识别图像对应的标签;
采用所述第一图像识别模型中的深度卷积神经网络对所述第一图像的特征进行提取,并根据提取到的特征得到第一向量;
对所述第一向量进行归一化处理,并根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中是否存在所述第一图像的相似图像,若不存在,则设置所述第一图像对应的标签为第一标签,所述第一标签不同于所述多个已识别图像对应的标签。
可选地,设置所述第一图像对应的标签为第一标签之后,所述方法还包括:
根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,得到第二图像识别模型;
将所述第一图像输入所述第二图像识别模型,得到所述第一图像对应的第二标签;
根据所述第一标签和所述第二标签,确定所述第一图像识别模型的误差,以及根据所述归一化处理后的第一向量、所述第二图像识别模型的权值和所述误差更新所述第二图像识别模型的权值,得到第三图像识别模型。
可选地,根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,包括:
确定所述第一图像识别模型的权值中与所述第一标签对应的目标权值;
根据所述归一化处理后的第一向量对所述目标权值进行更新。
可选地,确定所述多个已识别图像中不存在所述第一图像的相似图像,包括:
根据归一化处理后的第一向量和所述第一图像识别模型的权值,得到第二向量;
若所述第二向量所包括的每个数值均小于预设阈值,则确定所述多个已识别图像中不存在所述第一图像的相似图像。
可选地,若根据归一化处理后的第一向量和所述第一预设图像识别模型的权值,确定所述多个已识别图像中存在所述第一图像的相似图像,则将所述第一图像的相似图像对应的标签作为所述第一图像的标签。
本发明实施例提供一种图像识别装置,所述装置包括:
获取单元,用于获取第一图像,并将所述第一图像输入第一图像识别模型;所述第一图像识别模型包括多个已识别图像及所述多个已识别图像对应的标签;
处理单元,用于采用所述第一图像识别模型中的深度卷积神经网络对所述第一图像的特征进行提取,并根据提取到的特征得到第一向量;
所述处理单元,还用于对所述第一向量进行归一化处理,并根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中是否存在所述第一图像的相似图像,若不存在,则设置所述第一图像对应的标签为第一标签,所述第一标签不同于所述多个已识别图像对应的标签。
可选地,所述处理单元设置所述第一图像对应的标签为第一标签之后,还用于:
根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,得到第二图像识别模型;并将所述第一图像输入所述第二图像识别模型,得到所述第一图像对应的第二标签;以及根据所述第一标签和所述第二标签,确定所述第一图像识别模型的误差,以及根据所述归一化处理后的第一向量、所述第二图像识别模型的权值和所述误差更新所述第二图像识别模型的权值,得到第三图像识别模型。
可选地,所述处理单元具体用于:
确定所述第一图像识别模型的权值中与所述第一标签对应的目标权值;以及根据所述归一化处理后的第一向量对所述目标权值进行更新。
可选地,所述处理单元具体用于:
根据归一化处理后的第一向量和所述第一图像识别模型的权值,得到第二向量;若所述第二向量所包括的每个数值均小于预设阈值,则确定所述多个已识别图像中不存在所述第一图像的相似图像。
可选地,所述处理单元还用于:
若根据归一化处理后的第一向量和所述第一预设图像识别模型的权值,确定所述多个已识别图像中存在所述第一图像的相似图像,则将所述第一图像的相似图像对应的标签作为所述第一图像的标签。
本发明实施例中,在获取第一图像之后,可采用第一图像识别模型中的深度卷积神经网络对第一图像的特征进行提取,从而得到第一向量;在对第一向量进行归一化处理后,可根据归一化处理后的第一向量和第一图像识别模型的权值,确定第一图像识别模型中的多个已识别图像中是否存在第一图像的相似图像,若不存在,则设置第一图像对应的标签为第一标签,其中,第一标签不同于多个已识别图像对应的标签。本发明实施例中,通过第一图像识别模型中的归一化层对第一向量进行归一化处理,使第一图像识别模型可以根据归一化处理后的第一向量及权值确定第一图像的相似图像,从而将深度卷积神经网络与相似度判断模型结合起来,使得测试过程的模型结构与训练过程的模型结构保持一致,实现端到端的图像识别;进一步地,采用本发明实施例中的图像识别方法,相比于现有技术中将图像识别过程分为特征提取和相似度计算两个阶段而言,能够缩短图像识别的时间,提高图像识别的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为现有技术中的一种深度卷积神经网络的结构示意图;
图1b为现有技术中一种简易的深度卷积神经网络实施过程的示意图;
图2为本发明实施例适用的一种图像识别模型的架构图;
图3为本发明实施例提供的一种图像识别方法对应的流程示意图;
图4为本发明实施例提供的一种图像识别模型的更新方法对应的流程示意图;
图5为本发明实施例提供的模型训练过程的流程示意图;
图6为本发明实施例提供的模型测试过程的流程示意图;
图7为本发明实施例提供的模型更新过程的流程示意图;
图8为本发明实施例提供的一种图像识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1a示例性示出了现有技术中的一种深度卷积神经网络的结构示意图,如图1a所示,该深度卷积神经网络100的包括卷积层101、池化层102、全连接层103和softmax层104。其中,卷积层101和池化层102可以配合组成多个卷积组105,以便于逐层提取图像特征。
为了更加清楚地理解图1a所描述的深度卷积神经网络,下面对此进行举例说明。如图1b所示,为现有技术中一种简易的深度卷积神经网络实施过程的示意图,该简易深度卷积神经网络包括两个卷积层,如图1b中示出的卷积层1和卷积层2;两个池化层,如图1b中示出的池化层1和池化层2;以及一个全连接层和一个softmax层。
具体实施时,卷积层1接收到样本图像后,可以采用各种卷积核对输入图片进行卷积处理。若样本图像A为m*n的像素矩阵其中,数值A1……An……Am……Amn可以用样本图像像素点的颜色码来表示;采用该卷积层对应的卷积核对m*n的像素矩阵进行卷积,得到该卷积层的输出。举个例子,若样本图样A为6*6的像素矩阵每个像素点的数值用该像素点的颜色码来表示,且卷积核的大小为3*3,卷积层1的权值矩阵为则该样本图像经过卷积层1后输出的像素矩阵为
考虑到实际实施过程中样本图像包含的像素较多,为了减少训练参数的数量,可在卷积层1之后增加池化层1。池化层的类型有多种,例如最大池化、平均池化、均方根池化等。以最大池化为例,若池化层1的形式为最大池化,且该池化层的步幅为2,池化尺寸也为2,则上述示例中卷积层1的输出矩阵经过池化层1后输出的像素矩阵为
通过多个卷积层和池化层之后,可利用全连接层把提取到的图像特征综合起来。若全连接层的输入向量为其中,X1=[x11 x12],X2=[x21 x22];全连接层的权值其中,A1=[a11 a12],A2=[a21 a22],A3=[a31 a32];则全连接层的输出向量为 举个例子,若全连接层的输入为池化层1的输出,即全连接层的权值则
更进一步地,还可以利用softmax层对全连接层的输出进行归一化处理,从而便于对其进行分类。以上文所举的例子来说,由于输出的矩阵Y中第1行的值最大,因此,可将第1行对应的标签作为样本图样A的标签。
图1b示意出一种简单的深度卷积神经网络,测试图像A是该深度卷积网络中已经训练过的样本,因此全连接层的输出矩阵中会存在一个最大值,通过确定该最大值位于全连接层的输出矩阵中的位置,可知测试图像A的标签。然而,实际应用中测试图像的种类非常多,可能出现测试图像A并非该深度卷积网络中已经训练过的样本,如此,在全连接层的输出矩阵中就不会存在一个最大值,进而也无法确定测试图像A的标签。现有技术为了解决这一问题,在测试图像的过程中,通常在图像特征提取之后采用相似度检测模型,如距离相似度模型或余弦相似度模型来确定测试图像的标签。但是这种方法并不能直接使用训练好的深度卷积神经网络来识别测试图像,容易造成图像识别过程复杂且耗时长的问题。
基于此,本发明实施例提供一种图像识别方法,用于解决现有技术中不能直接使用训练好的模型识别测试图像而容易造成识别过程复杂且耗时长的问题。
图2为本发明实施例适用的一种图像识别模型的架构图,如图2所示,该图像识别模型包括多个特征提取层(如图2中示出的特征提取层201、特征提取层202、特征提取层203)、归一化层204、修正全连接层205和softmax层206。其中,特征提取层可以为深度卷积神经网络中的卷积层和池化层组成的卷积组。
基于图2所示意的图像识别模型,图3为本发明实施例提供的一种图像识别方法对应的流程示意图,如图3所示,具体包括如下步骤:
步骤301,获取第一图像,并将所述第一图像输入第一图像识别模型。
步骤302,采用所述第一图像识别模型中的深度卷积神经网络对所述第一图像的特征进行提取,并根据提取到的特征得到第一向量。
步骤303,对所述第一向量进行归一化处理,并根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中是否存在所述第一图像的相似图像,若不存在,则设置所述第一图像对应的标签为第一标签,所述第一标签不同于所述多个已识别图像对应的标签。
如此,通过第一图像识别模型中的归一化层对第一向量进行归一化处理,使第一图像识别模型可以根据归一化处理后的第一向量及权值确定第一图像的相似图像,从而将深度卷积神经网络与相似度判断模型结合起来,使得测试过程的模型结构与训练过程的模型结构保持一致,实现端到端的图像识别;进一步地,采用本发明实施例中的图像识别方法,相比于现有技术中将图像识别分为特征提取和相似度计算两个部分而言,能够缩短图像识别的时间,提高图像识别的效率。
具体来说,步骤301中,获取第一图像的方式并没有限制,以第一图像为人脸图像为例,可以通过网络爬取从互联网中获取第一图像,也可以通过人工拍摄的方式获取第一图像;进一步地,实际实施过程中可以根据实际情况获取一张第一图像,也可以获取多张第一图像,具体不做限定。
本发明实施例中,第一图像识别模型包括多个已识别图像及所述多个已识别图像对应的标签。其中,已识别图像对应的标签可以为文本的形式,或者也可以为数值的形式,或者还可以为文本与数值组合的形式,具体不做限定。一个示例中,以已识别图像对应的标签为数值的形式为例,如表1所示,为第一图像识别模型的一种示例,已识别图像1对应的标签为“00000000”,已识别图像2对应的标签为“00000001”,已识别图像3对应的标签为“00000010”,已识别图像4对应的标签为“00000011”,已识别图像5对应的标签为“00000100”。
表1:第一图像识别模型的一种示例
已识别图像 | 已识别图像对应的标签 |
已识别图像1 | 00000000 |
已识别图像2 | 00000001 |
已识别图像3 | 00000010 |
已识别图像4 | 00000011 |
已识别图像5 | 00000100 |
步骤302中,对第一图像的特征进行提取是通过第一图像和第一图像识别模型中的深度卷积神经网络得到的,也就是说,可以通过图2中示出的多个特征提取层得到,如可以通过特征提取层201、特征提取层202、特征提取层203得到。具体地,将第一图像输入深度卷积神经网络中,通过深度卷积网络提取第一图像的特征的第一向量。
本发明实施例中,深度卷积神经网可以有多种类型的内部结构,如表2所示,为深度卷积神经网络的内部结构的一种示意表。表2中,第1列代表该深度卷积神经网络的包括的结构类型,conv代表卷积层,fc代表全连接层;第2列表示该深度卷积神经网络为4层结构的网络,类似地,第3列表示该深度卷积神经网络为10层结构的网络,第4列表示该深度卷积神经网络为20层结构的网络,第5列表示该深度卷积神经网络为36层结构的网络,第6列表示该深度卷积神经网络为64层结构的网络。下面以表2中第2列所示出的内容为例,进行具体说明,该列中的“[m*n,p]*l,S2”中,m*n代表输出矩阵的长宽,也就是输出的卷积核的大小;p代表要输出图像的大小;l为卷积的次数;S2代表池化层。举个例子,“[3*3,64]*1,S2”表示卷积核的大小为3*3的矩阵,输出图像的大小为64*64的矩阵,采用该卷积核对输入图像进行一次卷积后,可采用池化层(S2)减少训练参数的数量。
表2:深度卷积神经网络的内部结构的一种示意表
步骤303中,在得到第一向量之后,可采用图2中示出的归一化层104对第一向量进行归一化处理,使得第一图像的特征模为1,便于后续对第一图像进行识别。
进一步地,可采用图2中所示出的全连接层105对归一化处理后的第一向量进行计算,根据归一化处理后的第一向量和第一图像识别模型的权值来确定多个已识别图像中是否存在第一图像的相似图像,若存在,则将第一图像的相似图像对应的标签作为第一图像的标签;若不存在,则设置第一图像对应的标签为第一标签,第一标签不同于所述多个已识别图像对应的标签。其中,确定相似图像时所使用的第一图像识别模型的权值可以为全连接层的权值。
具体来说,可以通过归一化处理后的第一向量和全连接的权值计算得到的第二向量来确定是否存在相似图像,第二向量具体可根据以下方式得到:
Y=W·X
其中,Y为第二向量;W为全连接层的权值;X为归一化处理后的第一向量。
更进一步地,可以采用图2中的softmax层106根据第二向量中所包括的数值确定第一图像的标签,包括以下两种情况:
情况一:
若第二向量中所包括的数值中存在大于等于预设阈值的数值,则表明该大于等于预设阈值的数值对应的图像为相似图像,可以将该相似图像的标签作为第一图像的标签。
具体来说,可以根据大于等于预设阈值的数值在第二向量中所处的位置来确定对应的已识别图像的标签。举个例子,第二向量可知y1所处的位置为第1行,y2所处的位置为第2行,y3所处的位置为第3行,y4所处的位置为第4行,y5所处的位置为第5行;根据表3示出的第二向量所包括的数值与多个已识别图像的对应关系可以确定已识别图像,进而根据表1所示出的第一图像识别模型,可以确定已识别图像对应的标签。也就是说,若第二向量中y3大于等于预设阈值,可知y3位于第二向量的第3行,根据表3获知y3对应已识别图像3,进而根据表1可知y3对应的已识别图像的标签为“00000010”,即第一图像的标签为“00000010”。
表3:第二向量所包括的数值与多个已识别图像的对应关系
第二向量所包括的数值 | 第二向量中的数值所处的位置 | 已识别图像 |
y<sub>1</sub> | 第1行 | 已识别图像1 |
y<sub>2</sub> | 第2行 | 已识别图像2 |
y<sub>3</sub> | 第3行 | 已识别图像3 |
y<sub>4</sub> | 第4行 | 已识别图像4 |
y<sub>5</sub> | 第5行 | 已识别图像5 |
情况二:
若第二向量所包括的每个数值均小于预设阈值,则表明该不存在相似图像,可以设置第一图像对应的标签为第一标签,且,第一标签不同于多个已识别图像对应的标签。其中,本领域技术人员可以根据经验和实际情况设定预设阈值,具体不做限定。
具体来说,设置第一图像对应的标签为第一标签的方式有多种,一种可能的实现方式为,根据多个已识别图像对应的标签来设置第一标签,例如,如表1所示的内容中,已识别图像1对应的标签为“00000000”,已识别图像2对应的标签为“00000001”,已识别图像3对应的标签为“00000010”,已识别图像4对应的标签为“00000011”,已识别图像5对应的标签为“00000100”,则根据这五个已识别图像及其对应的标签,可将第一图像的标签设置为“00000101”。
在其它可能的实施例中,还可以通过其它方式来设置第一标签,只有保证第一标签不同于多个已识别图像对应的标签即可,具体不做限定。
如此,在第一图像并非第一图像识别模型中已经训练过的样本时,采用本发明实施例提供的图像识别方法,可以对第一图像设置标签,从而能够提高图像识别的效果。
进一步地,设置所述第一图像对应的标签为第一标签之后,还可以对第一图像识别模型进行更新,以提高图像识别模型的精度。如图4所示,为本发明实施例提供的一种图像识别模型的更新方法对应的流程示意图,具体包括如下步骤:
步骤401,根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,得到第二图像识别模型。
本发明实施例中,在确定第一图像识别模型的权值中与第一标签对应的目标权值后,可根据归一化处理后的第一向量对目标权值进行更新;其中,对第一图像识别模型的权值进行更新就是对全连接层的权值进行修正。具体来说,可以将归一化处理后的第一向量作为全连接层的权值,举个例子,若更新前全连接层的权值包括N行,则更新后全连接层的权值包括N+1行,且,第N+1行的数值为归一化处理后的第一向量,即更新后的全连接层的权值W=[W0,x],其中,W0为更新前的全连接层的权值,W为更新后的全连接层的权值,x为一化处理后的第一向量且位于W的第N+1行。
进一步地,若存在多张第一图像,在得到上述更新后的全连接层的权值之后,还可以根据以下方式调整更新后的全连接层的权值:
WN+1’=W N+1+α*λ*x’
其中,W N+1’为采用第N张第一图像训练第一图像识别模型后的全连接层的权值的第N+1行的值,N为大于等于1的整数;W N+1为训练第一图像识别模型前的全连接层的权值的第N+1行的值;x’为第N张第一图像输入第一图像识别模型得到的归一化后的第一向量;α为学习率;λ为预设参数,可取值0.01。
更进一步地,还可以根据全连接层的残差对全连接层的权值进行修正,其中,残差的具体计算方式如下:
Δx=Δxs+α*λ*WN+1’
其中,Δx为采用第N张第一图像训练第一图像识别模型后的全连接层的残差;Δxs为训练第一图像识别模型前的全连接层的残差;WN+1’为采用第N张第一图像训练第一图像识别模型后的全连接层的权值的第N+1行的值,N为大于等于1的整数;α为学习率;λ为预设参数,可取值0.01。
如此,能够使得全连接层的权值矩阵逼近多个第一向量的均值矩阵,进而而使得全连接层的输出近似等于第一向量与多个第一向量的均值矩阵的相似度乘积。其中,多个第一向量是指存在多张第一图像时,多张第一图像对应多个第一向量。
步骤402,将所述第一图像输入所述第二图像识别模型,得到所述第一图像对应的第二标签。
步骤403,根据所述第一标签和所述第二标签,确定所述第一图像识别模型的误差,以及根据所述归一化处理后的第一向量、所述第二图像识别模型的权值和所述误差更新所述第二图像识别模型的权值,得到第三图像识别模型。
具体来说,将第一图像作为第二图像识别模型的输入,输入到第二图像识别模型中,同时将第一标签输入到softmax层中;进行一次前向传播,依次通过卷积层进行特征提取,通过池化层去除卷机值冗余,减少后续计算量,然后重复通过其它卷积层和池化层,直至softmax层。其中,前向传播主要是为了计算第一标签和第二标签的误差,即损失(loss)函数值。
进一步地,损失(loss)函数值主要用于后向传播,可以使用反向传播算法,根据梯度下降算法沿着损失(loss)函数值下降的方向微调整个第二图像识别模型的权值,得到第三图像识别模型。其中,反向传播算法主要用来求偏导,梯度下降算法利用偏导值求最优值。
采用上文所描述的图像识别模型的更新方法,能够很方便的对第一图像识别模型进行迭代更新,从而提高图像识别的进度。
为了更加清楚地描述本发明实施例中涉及的图像识别方法,下面以流程图的方式将本发明实施例提供的模型训练过程、模型测试过程以及模型更新过程展示出来。
图5示例性示出了本发明实施例提供的模型训练过程的流程示意图,如图5所示,包括以下步骤:
步骤501,获取样本图像。
步骤502,对样本图像进行检测、校正、裁剪。
步骤503,将样本图像输入图像识别模型中的深度卷积神经网络。
步骤504,采用深度卷积神经网络中的多个卷积层和多个池化层对样本图像进行特征提取,得到第一向量。
步骤505,将第一向量输入图像识别模型的归一化层,计算得到归一化后的第一向量。
步骤506,将归一化后的第一向量输入图像识别模型的全连接层,计算得到第二向量。
步骤507,将第二向量输入图像识别模型的softmax层,得到预测标签。
步骤508,将预测标签与样本标签进行比较,计算误差,以及将误差反向传播,得到训练后的第一图像识别模型。
基于上述训练好的第一图像识别模型,图6示例性示出了本发明实施例提供的模型测试过程的流程示意图,如图6所示,包括以下步骤:
步骤601,获取测试图像。
步骤602,对测试图像进行检测、校正、裁剪。
步骤603,将测试图像输入第一图像识别模型中的深度卷积神经网络。
步骤604,采用深度卷积神经网络中的多个卷积层和多个池化层对测试图像进行特征提取,得到第一向量。
步骤605,将第一向量输入第一图像识别模型的归一化层,计算得到归一化后的第一向量。
步骤606,将归一化后的第一向量输入第一图像识别模型的全连接层,计算得到第二向量。
步骤607,将第二向量输入第一图像识别模型的softmax层,得到测试图像的标签。
考虑到上文所描述的测试图像可能并非第一图像识别模型中已经训练过的样本,因此,在采用第一图像识别模型进行测试的过程中,可以根据测试图像的标签,对第一图像识别模型进行更新。本发明实施例中,可以实时地对第一图像识别模型进行更新,也可以定期地对第一图像识别模型进行更新。为了减轻模型运行负担,模型维护人员可以定期对模型进行防退化测试,即对于这段时间自动收集的图像进行测试,找出错分类与低相似度的图像脸图片,使用小学习率(0.0001)启动迭代更新,通常确保每张图片迭代10次左右即可达到更优状态。
图7示例性示出了本发明实施例提供的模型更新过程的流程示意图,如图7所示,包括以下步骤:
步骤701,获取第一图像;所述第一图像不为第一图像识别模型中的样本图像。
步骤702,对第一图像进行检测、校正、裁剪。
步骤703,将第一图像输入第一图像识别模型中,进行前向传播,得到损失(loss)函数值。
步骤704,根据损失(loss)函数值进行后向传播,根据第一图像经过归一化层计算得到的向量调整全连接层的权值。
步骤705,采用反向传播算法、梯度下降算法调整第一图像识别模型的权值,得到更新后的第一图像识别模型。
需要说明的是,上述步骤编号仅为一种执行流程的示例性表示,本申请对各个步骤的先后顺序不做具体限定,例如,上述步骤704和步骤705中,也可以是先采用反向传播算法、梯度下降算法调整第一图像识别模型的权值,再根据第一图像经过归一化层计算得到的向量调整全连接层的权值,具体不做限定。
基于同样的发明构思,图8示例性示出了本发明实施例提供的一种图像识别装置的结构示意图,如图8所示,该装置包括获取单元801、处理单元802;其中,
获取单元801,用于获取第一图像,并将所述第一图像输入第一图像识别模型;所述第一图像识别模型包括多个已识别图像及所述多个已识别图像对应的标签;
处理单元802,用于采用所述第一图像识别模型中的深度卷积神经网络对所述第一图像的特征进行提取,并根据提取到的特征得到第一向量;
所述处理单元802,还用于对所述第一向量进行归一化处理,并根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中是否存在所述第一图像的相似图像,若不存在,则设置所述第一图像对应的标签为第一标签,所述第一标签不同于所述多个已识别图像对应的标签。
可选地,所述处理单元802设置所述第一图像对应的标签为第一标签之后,还用于:
根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,得到第二图像识别模型;并将所述第一图像输入所述第二图像识别模型,得到所述第一图像对应的第二标签;以及根据所述第一标签和所述第二标签,确定所述第一图像识别模型的误差,以及根据所述归一化处理后的第一向量、所述第二图像识别模型的权值和所述误差更新所述第二图像识别模型的权值,得到第三图像识别模型。
可选地,所述处理单元802具体用于:
确定所述第一图像识别模型的权值中与所述第一标签对应的目标权值;以及根据所述归一化处理后的第一向量对所述目标权值进行更新。
可选地,所述处理单元802具体用于:
根据归一化处理后的第一向量和所述第一图像识别模型的权值,得到第二向量;若所述第二向量所包括的每个数值均小于预设阈值,则确定所述多个已识别图像中不存在所述第一图像的相似图像。
可选地,所述处理单元802还用于:
若根据归一化处理后的第一向量和所述第一预设图像识别模型的权值,确定所述多个已识别图像中存在所述第一图像的相似图像,则将所述第一图像的相似图像对应的标签作为所述第一图像的标签。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种图像识别方法,其特征在于,所述方法包括:
获取第一图像,并将所述第一图像输入第一图像识别模型;所述第一图像识别模型包括多个已识别图像及所述多个已识别图像对应的标签;
采用所述第一图像识别模型中的深度卷积神经网络对所述第一图像的特征进行提取,并根据提取到的特征得到第一向量;
通过所述第一图像识别模型中的归一化层对所述第一向量进行归一化处理,并使所述第一图像识别模型根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中是否存在所述第一图像的相似图像,若不存在,则设置所述第一图像对应的标签为第一标签,所述第一标签不同于所述多个已识别图像对应的标签;若存在,则设置所述第一图像对应的标签为所述相似图像的标签;所述第一图像识别模型的权值为所述第一图像识别模型的全连接层的权值;
确定所述多个已识别图像中不存在所述第一图像的相似图像,包括:
根据归一化处理后的第一向量和所述第一图像识别模型的全连接层的权值,得到第二向量;
若所述第二向量所包括的每个数值均小于预设阈值,则确定所述多个已识别图像中不存在所述第一图像的相似图像;
若所述第二向量所包括数值中存在大于等于所述预设阈值,则将所述预设阈值对应的图像确定为所述第一图像的相似图像。
2.根据权利要求1所述的方法,其特征在于,设置所述第一图像对应的标签为第一标签之后,所述方法还包括:
根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,得到第二图像识别模型;
将所述第一图像输入所述第二图像识别模型,得到所述第一图像对应的第二标签;
根据所述第一标签和所述第二标签,确定所述第一图像识别模型的误差,以及根据所述归一化处理后的第一向量、所述第二图像识别模型的权值和所述误差更新所述第二图像识别模型的权值,得到第三图像识别模型。
3.根据权利要求2所述的方法,其特征在于,根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,包括:
确定所述第一图像识别模型的权值中与所述第一标签对应的目标权值;
根据所述归一化处理后的第一向量对所述目标权值进行更新。
4.根据权利要求1至3中任一项所述的方法,其特征在于,若根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中存在所述第一图像的相似图像,则将所述第一图像的相似图像对应的标签作为所述第一图像的标签。
5.一种图像识别装置,其特征在于,所述装置包括:
获取单元,用于获取第一图像,并将所述第一图像输入第一图像识别模型;所述第一图像识别模型包括多个已识别图像及所述多个已识别图像对应的标签;
处理单元,用于采用所述第一图像识别模型中的深度卷积神经网络对所述第一图像的特征进行提取,并根据提取到的特征得到第一向量;
所述处理单元,还用于通过所述第一图像识别模型中的归一化层对所述第一向量进行归一化处理,并使所述第一图像识别模型根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中是否存在所述第一图像的相似图像,若不存在,则设置所述第一图像对应的标签为第一标签,所述第一标签不同于所述多个已识别图像对应的标签;若存在,则设置所述第一图像对应的标签为所述相似图像的标签;所述第一图像识别模型的权值为所述第一图像识别模型的全连接层的权值;
确定所述多个已识别图像中不存在所述第一图像的相似图像,包括:
根据归一化处理后的第一向量和所述第一图像识别模型的全连接层的权值,得到第二向量;
若所述第二向量所包括的每个数值均小于预设阈值,则确定所述多个已识别图像中不存在所述第一图像的相似图像;
若所述第二向量所包括数值中存在大于等于所述预设阈值,则将所述预设阈值对应的图像确定为所述第一图像的相似图像。
6.根据权利要求5所述的装置,其特征在于,所述处理单元设置所述第一图像对应的标签为第一标签之后,还用于:
根据所述归一化处理后的第一向量和所述第一标签对所述第一图像识别模型的权值进行更新,得到第二图像识别模型;并将所述第一图像输入所述第二图像识别模型,得到所述第一图像对应的第二标签;以及根据所述第一标签和所述第二标签,确定所述第一图像识别模型的误差,以及根据所述归一化处理后的第一向量、所述第二图像识别模型的权值和所述误差更新所述第二图像识别模型的权值,得到第三图像识别模型。
7.根据权利要求6所述的装置,其特征在于,所述处理单元具体用于:
确定所述第一图像识别模型的权值中与所述第一标签对应的目标权值;以及根据所述归一化处理后的第一向量对所述目标权值进行更新。
8.根据权利要求5至7中任一项所述的装置,其特征在于,所述处理单元还用于:
若根据归一化处理后的第一向量和所述第一图像识别模型的权值,确定所述多个已识别图像中存在所述第一图像的相似图像,则将所述第一图像的相似图像对应的标签作为所述第一图像的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810188147.6A CN108549899B (zh) | 2018-03-07 | 2018-03-07 | 一种图像识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810188147.6A CN108549899B (zh) | 2018-03-07 | 2018-03-07 | 一种图像识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108549899A CN108549899A (zh) | 2018-09-18 |
CN108549899B true CN108549899B (zh) | 2022-02-15 |
Family
ID=63516466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810188147.6A Active CN108549899B (zh) | 2018-03-07 | 2018-03-07 | 一种图像识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108549899B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800806A (zh) * | 2019-01-14 | 2019-05-24 | 中山大学 | 一种基于深度学习的农作物病害检测算法 |
CN110070579A (zh) * | 2019-03-16 | 2019-07-30 | 平安科技(深圳)有限公司 | 基于图像检测的定位方法、装置、设备和存储介质 |
CN110503160B (zh) * | 2019-08-28 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 图像识别方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102612841A (zh) * | 2009-11-17 | 2012-07-25 | Lg电子株式会社 | 用于用户鉴别的方法,和视频通信设备及其显示设备 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN106503687A (zh) * | 2016-11-09 | 2017-03-15 | 合肥工业大学 | 融合人脸多角度特征的监控视频人物身份识别系统及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145893A (zh) * | 2017-03-13 | 2017-09-08 | 中国矿业大学 | 一种基于卷积深度网络的图像识别算法及系统 |
-
2018
- 2018-03-07 CN CN201810188147.6A patent/CN108549899B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102612841A (zh) * | 2009-11-17 | 2012-07-25 | Lg电子株式会社 | 用于用户鉴别的方法,和视频通信设备及其显示设备 |
CN104077595A (zh) * | 2014-06-15 | 2014-10-01 | 北京工业大学 | 基于贝叶斯正则化的深度学习网络图像识别方法 |
CN106503687A (zh) * | 2016-11-09 | 2017-03-15 | 合肥工业大学 | 融合人脸多角度特征的监控视频人物身份识别系统及其方法 |
Non-Patent Citations (1)
Title |
---|
在线学习;ice110956;《CSDN》;20140416;第1-6页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108549899A (zh) | 2018-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569837B (zh) | 优化损伤检测结果的方法及装置 | |
CN109086811B (zh) | 多标签图像分类方法、装置及电子设备 | |
CN105678253B (zh) | 半监督人脸年龄估计装置及半监督人脸年龄估计方法 | |
EP3570220B1 (en) | Information processing method, information processing device, and computer-readable storage medium | |
CN110969166A (zh) | 一种巡检场景下小目标识别方法和系统 | |
CN110135505B (zh) | 图像分类方法、装置、计算机设备及计算机可读存储介质 | |
CN111257341A (zh) | 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法 | |
CN104484658A (zh) | 一种基于多通道卷积神经网络的人脸性别识别方法及装置 | |
CN108549899B (zh) | 一种图像识别方法及装置 | |
CN112446870B (zh) | 管道损伤检测方法、装置、设备及存储介质 | |
CN111832484A (zh) | 一种基于卷积感知哈希算法的回环检测方法 | |
CN108681689B (zh) | 基于生成对抗网络的帧率增强步态识别方法及装置 | |
CN110245587B (zh) | 一种基于贝叶斯迁移学习的光学遥感图像目标检测方法 | |
CN112396594B (zh) | 变化检测模型获取方法及装置、变化检测方法、计算机设备及可读存储介质 | |
CN111027555A (zh) | 一种车牌识别方法、装置及电子设备 | |
CN115994900A (zh) | 基于迁移学习的无监督缺陷检测方法和系统、存储介质 | |
CN115424093A (zh) | 一种识别眼底图像中细胞的方法及装置 | |
CN110334775B (zh) | 一种基于宽度学习的无人机线路故障识别方法和装置 | |
CN114118303A (zh) | 基于先验约束的人脸关键点检测方法及装置 | |
CN110503090A (zh) | 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器 | |
CN115862119B (zh) | 基于注意力机制的人脸年龄估计方法及装置 | |
CN110210314B (zh) | 人脸检测方法、装置、计算机设备及存储介质 | |
CN112270370A (zh) | 一种车辆表观毁伤评估方法 | |
CN114067155B (zh) | 基于元学习的图像分类方法、装置、产品及存储介质 | |
CN106446837B (zh) | 一种基于运动历史图像的挥手检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |