CN108960189A - 图像再识别方法、装置及电子设备 - Google Patents

图像再识别方法、装置及电子设备 Download PDF

Info

Publication number
CN108960189A
CN108960189A CN201810810555.0A CN201810810555A CN108960189A CN 108960189 A CN108960189 A CN 108960189A CN 201810810555 A CN201810810555 A CN 201810810555A CN 108960189 A CN108960189 A CN 108960189A
Authority
CN
China
Prior art keywords
attention
recognition
network
characteristic pattern
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810810555.0A
Other languages
English (en)
Other versions
CN108960189B (zh
Inventor
魏秀参
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Kuang Shi Data Technology Co Ltd
Nanjing Kuanyun Technology Co Ltd
Beijing Megvii Technology Co Ltd
Original Assignee
Xuzhou Kuang Shi Data Technology Co Ltd
Nanjing Kuanyun Technology Co Ltd
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xuzhou Kuang Shi Data Technology Co Ltd, Nanjing Kuanyun Technology Co Ltd, Beijing Megvii Technology Co Ltd filed Critical Xuzhou Kuang Shi Data Technology Co Ltd
Priority to CN201810810555.0A priority Critical patent/CN108960189B/zh
Publication of CN108960189A publication Critical patent/CN108960189A/zh
Application granted granted Critical
Publication of CN108960189B publication Critical patent/CN108960189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像再识别方法、装置及电子设备,涉及图像处理技术领域。本发明实施例提供的图像再识别方法、装置及电子设备,采用由粗到细的图像再识别过程,先通过循环神经网络在第一时间步生成待识别图像的初步识别结果;再通过循环神经网络在第二时间步根据注意力特征向量和初步识别结果,输出待识别图像的细分识别结果从而提高了图像再识别的精确度。

Description

图像再识别方法、装置及电子设备
技术领域
本发明涉及图像处理技术领域,尤其是涉及一种图像再识别方法、装置及电子设备。
背景技术
随着视频监控和智慧安防场景下相关需求的日益增长,图像再识别获得越来越多的关注,很多方面都用到了图像再识别技术,比如:行人再识别(person re-identification)、车辆再识别(vehicle re-identification)等等。现有的图像再识别技术多采用度量的学习方法,该方法主要基于较大的图像区域对图像进行分辨,忽略了图像中的细节特征,导致无法对图像进行细分。例如,该方法用于车辆再识别时,仅能对车型进行识别,当车型相同时,无法对车辆进行进一步地细分。
发明内容
有鉴于此,本发明的目的在于提供一种图像再识别方法、装置及电子设备,可以提高图像再识别的精确度。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种图像再识别方法,包括:
获取待识别图像的特征图和特征向量,所述特征向量是对所述特征图处理后得到的;
将所述特征向量输入循环神经网络,以使所述循环神经网络在第一时间步生成所述待识别图像的初步识别结果;
根据所述特征图和所述初步识别结果,得到注意力特征向量;
将所述注意力特征向量输入所述循环神经网络,以使所述循环神经网络在第二时间步根据所述注意力特征向量和所述初步识别结果,输出所述待识别图像的细分识别结果。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述获取待识别图像的特征图和特征向量的步骤,包括:
通过卷积神经网络提取所述待识别图像的特征图;所述卷积神经网络包括至少一个卷积层;
通过第一池化层对所述特征图进行降维处理,得到所述特征向量。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,根据所述特征图和所述初步识别结果,得到注意力特征向量的步骤,包括:
根据所述特征图和所述初步识别结果,得到注意力特征图;
将所述注意力特征图输入第二池化层,得到所述注意力特征向量。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,根据所述特征图和所述初步识别结果,得到注意力特征图的步骤,包括:
通过变换网络,将所述初步识别结果转换为注意力权重图;所述变换网络包括两层全连接层和位于所述两层全连接层之间的第一激活函数;
通过注意力网络,对所述特征图和所述注意力权重图进行计算,得到所述注意力特征图。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述注意力权重图中包含的注意力权重值与所述特征图中包含的特征值一一对应;
所述通过注意力网络,对所述特征图和所述注意力权重图进行计算,得到所述注意力特征图的步骤,包括:
将每个特征值与对应的注意力权重值进行内积后通过第二激活函数,得到每个特征值对应的注意力分值;
对所述注意力分值进行全局归一化处理后,再与对应的特征值做元素乘积,得到所述注意力特征图。
结合上述任一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在获取待再识别图像的目标特征图以及目标特征向量的步骤之前,所述方法还包括:
获取训练图像样本集;
采用所述训练图像样本集对所述卷积神经网络、所述变换网络、所述注意力网络或所述循环神经网络中的至少一种网络进行训练。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述采用所述训练图像样本集对所述卷积神经网络、所述变换网络、所述注意力网络或所述循环神经网络中的至少一种网络进行训练的步骤,包括:
从所述训练图像样本集中随机选取训练图像,通过所述卷积神经网络,得到所述训练图像的特征图以及特征向量;
将所述训练图像的特征向量输入所述循环神经网络,得到所述循环神经网络在第一时间步输出的所述训练图像的初步识别结果;
根据预设的第一特征标签,通过第一损失函数对所述训练图像的初步识别结果进行检验,得到第一损失函数值;
将所述训练图像的初步识别结果输入变换网络,得到所述训练图像的注意力权重图;
将所述训练图像的特征图和所述训练图像的注意力权重图输入所述注意力网络,得到所述训练图像的注意力特征向量;
将所述训练图像的注意力特征向量输入所述循环神经网络,得到所述循环神经网络在第二时间步输出的所述训练图像的细分识别结果;
根据预设的第二特征标签,通过第二损失函数对所述训练图像的细分识别结果进行检验,得到第二损失函数值;
将所述第一损失函数值与所述第二损失函数值之和作为损失函数值,基于所述损失函数值,对所述卷积神经网络、所述变换网络、所述注意力网络和所述循环神经网络中的至少一种网络的参数进行训练。
第二方面,本发明实施例还提供一种图像再识别装置,包括:
特征提取模块,用于获取待识别图像的特征图和特征向量,所述特征向量是对所述特征图处理后得到的;
初步识别模块,用于将所述特征向量输入循环神经网络,以使所述循环神经网络在第一时间步生成所述待识别图像的初步识别结果;
注意力模块,用于根据所述特征图和所述初步识别结果,得到注意力特征向量;
细分识别模块,用于将所述注意力特征向量输入所述循环神经网络,以使所述循环神经网络在第二时间步根据所述注意力特征向量和所述初步识别结果,输出所述待识别图像的细分识别结果。
第三方面,本发明实施例还提供一种电子设备,包括图像采集装置、存储器、处理器;
所述图像采集装置,用于采集图像数据;
所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面任一项所述的方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行第一方面任一项所述的方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的图像再识别方法、装置及电子设备,采用由粗到细的图像再识别过程,先通过循环神经网络在第一时间步生成待识别图像的初步识别结果;再通过循环神经网络在第二时间步根据注意力特征向量和初步识别结果,输出待识别图像的细分识别结果从而提高了图像再识别的精确度。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种电子设备的结构示意图;
图2示出了本发明实施例所提供的一种图像再识别方法的流程图;
图3示出了本发明实施例所提供的一种图像再识别方法用于车辆识别的示意图;
图4示出了本发明实施例所提供的一种图像再识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的图像再识别技术多采用度量的学习方法,该方法主要基于较大的图像区域对图像进行分辨,忽略了图像中的细节特征,导致无法对图像进行细分。为了提高图像识别的精确度,本发明实施例提供了一种图像再识别方法、装置及电子设备,以下对本发明实施例进行详细介绍。
实施例一:
首先,参照图1来描述用于实现本发明实施例的图像再识别方法的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
所述图像采集装置110可以是摄像头等,用于拍摄用户期望的图像(例如照片、视频等),并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的图像再识别方法及装置的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。
实施例二:
本实施例提供了一种图像再识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。以下对本实施例进行详细介绍。
图2示出了本发明实施例所提供的一种图像再识别方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取待识别图像的特征图和特征向量。
在本发明实施例中,待识别图像可以是图片格式的待识别图像,也可以是连续帧的待识别图像;待识别图像可以是图像采集装置拍摄的原始图像,也可以是由网络下载或本地存储的图像。任何需要识别其中所包含的对象的图像都可以作为待识别图像。例如,待识别图像可以是用于进行图像理解的图像。图像理解即需要研究图像中有什么对象、对象之间的相互关系如何、图像描述的是什么场景等等,此时,需要对图像中的对象进行识别。
为了识别待识别图像中的对象,可以先从待识别图像中提取有价值的特征,基于提取出的特征来识别待识别图像中的对象。示例性地,可以通过卷积神经网络提取待识别图像的特征图,特征图中包括至少一个特征值。
卷积神经网络可以具有任何合适的网络结构。在一可选的实施例中,卷积神经网络包括至少一个卷积层,每个卷积层中包括一个或多个用于从待识别图像的像素矩阵中提取特征信息的卷积核,用卷积核按照一定的步长遍历待识别图像的像素矩阵,得到至少一个特征值,由至少一个特征值组成特征图。卷积神经网络仅包括多个卷积层,而不包括全链接层时,输出的特征图可以表达待识别图像的更多特征,避免特征损失。
通过第一池化层对卷积神经网络输出的特征图进行降维处理,得到特征向量。可选的,第一池化层可以采用全局平均池化层(Global Average Pooling,GAP),对特征图进行均值池化,减少参数,但保留显著特征,输出特征向量。采用全局平均池化层替代全链接层,可以防止参数量过大引起的过拟合。
步骤S204,将特征向量输入循环神经网络,以使循环神经网络在第一时间步生成待识别图像的初步识别结果。
例如,这里的特征向量可以表征待识别图像中较显著区域的特征。即该初步识别结果是根据待识别图像中较显著区域的特征得到的识别结果。
循环神经网络通过信息反馈机制,可以根据来自先前时间步的网络的内部状态信息计算当前时间步的输出。
循环神经网络包括至少一个隐藏层,隐藏层可以存储先前时间步的网络的内部状态信息,随着时间的增长,隐藏层存储的信息逐渐饱和,隐藏层丢失的信息也越来越多。为了减少信息的丢失,可以通过门控机制来控制信息的累积速度,可以有选择地加入新的信息,也可以有选择地遗忘之前累积的信息。
例如,在当前时刻t,输入为xt,隐藏层的状态(隐层状态)为ht。ht不仅和当前时刻t的输入xt相关,也和上一个时刻的隐层状态ht-1相关。
ot=Wxxt+Whht-1+b
ht=f(ot)
其中,ot为t时刻循环神经网络的输出,Wx为状态-输入权重矩阵,Wh为状态-状态权重矩阵,b为偏置项,f(.)为激活函数tanh。
门控机制通过直接在当前时刻状态ht和上一时刻状态ht-1之间引入线性依赖关系,来控制状态信息的更新方式,具体过程为:
当前时刻t的候选状态nt为:
nt=tanh(Wxnxt+(rt⊙Whnht-1)+bn)
其中,Wxn为输入-候选权重矩阵,Whn为状态-候选权重矩阵,bn为候选偏置项。rt∈[0,1]为t时刻重置门的输出,用来控制候选状态nt的计算是否依赖上一时刻的状态ht-1。rt可表示为:
rt=σ(Wxrxt+Whrht-1+br)
σ为sigmoid激活函数,Wxr为输入-重置门权重矩阵,Whr为状态-重置门权重矩阵,br为重置门的偏置项。
隐层状态ht更新方式为:
ht=(1-zt)⊙nt+zt⊙ht-1
其中,zt∈[0,1]为更新门,用来控制当前状态需要从上一时刻状态中保留多少信息,以及需要从候选状态中接受多少新信息。zt可表示为:
zt=σ(Wxzxt+Whzht-1+bz)
σ为sigmoid激活函数,Wxz为输入-更新门权重矩阵,Whz为状态-更新门权重矩阵,bz为更新门的偏置项。
将步骤S202中获得的特征向量输入循环神经网络,确定循环神经网络中隐藏层的状态信息,将该状态信息作为第一时间步的输出,从而得到待识别图像的初步识别结果。
步骤S206,根据特征图和初步识别结果,得到注意力特征向量。
例如,注意力特征向量可以表征待识别图像中较细微区域的特征。
例如,可以通过变换网络,将初步识别结果转换为注意力权重图w。所述注意力权重图包含多个注意力权重值,注意力权重值与待识别图像的特征图中包含的特征值一一对应。每个注意力权重值用于限定与其对应的特征值的注意力分值。变换网络包括两层全连接层和位于两层全连接层之间的第一激活函数,可选的,第一激活函数可以为ReLU激活函数;
注意力权重图中包含的注意力权重值与特征图中包含的特征值一一对应。通过注意力网络,将每个特征值f(i,j)与对应的注意力权重值进行内积并通过第二激活函数g(x)=ln(1+exp(x)),得到每个特征值对应的注意力分值s(i,j)
s(i,j)=g(wTf(i,j))
其中,i为第i行,j为第j列。
对注意力分值进行全局归一化处理:
其中,ε为很小的实数。
再将a(i,j)与对应的特征值f(i,j)做元素乘积,得到注意力特征图:
将注意力特征图输入第二池化层,得到注意力特征向量。可选的,第二池化层可以为全局平均池化层,对注意力特征图进行均值池化,减少参数,但保留了显著的注意力特征,输出注意力特征向量。
步骤S208,将注意力特征向量输入循环神经网络,以使循环神经网络在第二时间步根据注意力特征向量和初步识别结果,输出待识别图像的细分识别结果。
循环神经网络的结构已在步骤S204中描述,在此不再赘述。第二时间步的输入为注意力特征向量,结合先前时间步的输出,即第一时间步输出的初步识别结果,循环神经网络在第二时间步输出待识别图像的细分识别结果。其中,初步识别结果基于较大的图像区域对待识别图像进行识别,得到对象的类别等初步信息,如行人、汽车、牛、房屋、树木等类别。细分识别结果是对待识别图像中的细节进行识别,确定对象的细节特征,如行人的面容、汽车的车牌、房屋的细部结构等等。
本发明实施例提供的图像再识别方法,采用由粗到细的图像再识别过程,先通过循环神经网络在第一时间步生成待识别图像的初步识别结果;再通过循环神经网络在第二时间步根据注意力特征向量和初步识别结果,输出待识别图像的细分识别结果从而提高了图像再识别的精确度。
上述的图像再识别方法可以用于行人再识别,也可以用于车辆再识别。以下结合图3,以车辆再识别为例,说明本发明实施例提供的图像再识别方法的应用过程。
如设置在交通路口的图像采集装置采集了道路上过往车辆的图像,将该图像作为待识别车辆图像,输入卷积神经网络,得到待识别车辆图像的特征图,通过第一池化层,对该特征图进行均值池化,得到特征向量。将该特征向量输入循环神经网络,循环神经网络在第一时间步(Step1)生成待识别车辆图像的车型识别结果,用于刻画车辆的车型分类信息,即车辆的品牌。将车型识别结果经变换网络后得到的注意力权重图与上述待识别车辆图像的特征图输入注意力网络,得到注意力特征图。通过第二池化层对注意力特征图进行均值池化,得到注意力特征向量。将注意力特征向量输入循环神经网络,循环神经网络在第二时间步(Step2)根据注意力特征向量和第一时间步生成的车型识别结果,输出待识别图像的车辆识别结果,根据车辆的细节特征,如挡风玻璃年检标志贴的模式特征、车灯特征、前挡板特征或车内饰物特征等从同一车型中区分不同的车辆。该方法改善了现有的车辆再识别方案在车型相同时,无法对车辆进行进一步细分的缺陷。
为了使上述卷积神经网络、变换网络、注意力网络和循环神经网络可以直接应用于对待识别图像进行识别,输出较为准确可靠的结果,需要事先对卷积神经网络、变换网络、注意力网络或循环神经网络进行训练。以下详细说明卷积神经网络、变换网络、注意力网络或循环神经网络的训练过程。
首先获取训练图像样本集,训练图像样本集中包含大量训练图像。根据该训练图像样本集,预先设置有第一特征标签和第二特征标签。第一特征标签根据训练图像中的初步识别信息而设置,可选的,初步识别信息可以为对象类别、车型类别等;第二特征标签根据训练图像中的细分识别信息而设置,可选的,细分识别信息包括车辆的车牌、车内饰物等等。训练过程如下:
从训练图像样本集中随机选取训练图像,通过卷积神经网络,得到训练图像的特征图以及特征向量;
将训练图像的特征向量输入循环神经网络,得到循环神经网络在第一时间步输出的训练图像的初步识别结果;
根据预设的第一特征标签,通过第一损失函数对训练图像的初步识别结果进行检验,得到第一损失函数值;
将训练图像的初步识别结果输入变换网络,得到训练图像的注意力权重图;
将训练图像的特征图和训练图像的注意力权重图输入注意力网络,得到训练图像的注意力特征向量;
将训练图像的注意力特征向量输入循环神经网络,得到循环神经网络在第二时间步输出的训练图像的细分识别结果;
根据预设的第二特征标签,通过第二损失函数对训练图像的细分识别结果进行检验,得到第二损失函数值;
将第一损失函数值与第二损失函数值之和作为损失函数值,基于损失函数值,对卷积神经网络、变换网络、注意力网络或循环神经网络的参数进行训练。
实施例三:
对应于实施例二中所提供的图像再识别方法,本实施例提供了一种图像再识别装置。图4示出了本发明实施例所提供的一种图像再识别装置的结构示意图,如图4所示,该装置包括以下模块:
特征提取模块40,用于获取待识别图像的特征图和特征向量,所述特征向量是对所述特征图处理后得到的。
初步识别模块42,用于将特征向量输入循环神经网络,以使循环神经网络在第一时间步生成待识别图像的初步识别结果。
注意力模块44,用于根据特征图和初步识别结果,得到注意力特征向量。
细分识别模块46,用于将注意力特征向量输入循环神经网络,以使循环神经网络在第二时间步根据注意力特征向量和初步识别结果,输出待识别图像的细分识别结果。
其中,特征提取模块40还可以用于:通过卷积神经网络提取所述待识别图像的特征图;所述卷积神经网络包括至少一个卷积层;通过第一池化层对特征图进行降维处理,得到特征向量。
注意力模块44还可以用于:根据特征图和初步识别结果,得到注意力特征图;将注意力特征图输入第二池化层,得到注意力特征向量。
注意力模块44还可以用于:通过变换网络,将初步识别结果转换为注意力权重图;所述变换网络包括两层全连接层和位于两层全连接层之间的第一激活函数;通过注意力网络,对特征图和注意力权重图进行计算,得到注意力特征图。以及用于:将每个特征值与对应的注意力权重值进行内积后通过第二激活函数,得到每个特征值对应的注意力分值;对注意力分值进行全局归一化处理后,再与对应的特征值做元素乘积,得到注意力特征图。
可选地,图像再识别装置还包括训练模块。训练模块与特征提取模块40连接,用于获取训练图像样本集,采用所述训练图像样本集对卷积神经网络、变换网络、注意力网络或循环神经网络进行训练。
训练模块还可以用于:将训练图像的特征向量输入循环神经网络,得到循环神经网络在第一时间步输出的训练图像的初步识别结果;根据预设的第一特征标签,通过第一损失函数对训练图像的初步识别结果进行检验,得到第一损失函数值;
将训练图像的初步识别结果输入变换网络,得到训练图像的注意力权重图;将训练图像的特征图和训练图像的注意力权重图输入注意力网络,得到训练图像的注意力特征向量;将训练图像的注意力特征向量输入循环神经网络,得到循环神经网络在第二时间步输出的训练图像的细分识别结果;根据预设的第二特征标签,通过第二损失函数对训练图像的细分识别结果进行检验,得到第二损失函数值;
将第一损失函数值与第二损失函数值之和作为损失函数值,基于损失函数值,对卷积神经网络、所述变换网络、所述注意力网络或循环神经网络的参数进行训练。
本实施例所提供的装置,其实现原理及产生的技术效果和前述实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供的图像再识别装置,通过获取待识别图像的特征图和特征向量;将特征向量输入循环神经网络,以使循环神经网络在第一时间步生成待识别图像的初步识别结果;根据特征图和初步识别结果,得到注意力特征向量;将注意力特征向量输入循环神经网络,以使循环神经网络在第二时间步根据注意力特征向量和初步识别结果,输出待识别图像的细分识别结果。遵循由粗到细的图像再识别过程,首先对图像做初步识别,之后再通过图像细节做细分识别,提高了图像识别的精确度。
此外,本发明实施例提供了一种电子设备,包括图像采集装置、存储器、处理器;图像采集装置,用于采集图像数据;存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现前述方法实施例提供的方法的步骤。
进一步,本实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤。
本发明实施例所提供的一种图像再识别方法及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例还提供了一种计算机程序,该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种图像再识别方法,其特征在于,包括:
获取待识别图像的特征图和特征向量,所述特征向量是对所述特征图处理后得到的;
将所述特征向量输入循环神经网络,以使所述循环神经网络在第一时间步生成所述待识别图像的初步识别结果;
根据所述特征图和所述初步识别结果,得到注意力特征向量;
将所述注意力特征向量输入所述循环神经网络,以使所述循环神经网络在第二时间步根据所述注意力特征向量和所述初步识别结果,输出所述待识别图像的细分识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别图像的特征图和特征向量的步骤,包括:
通过卷积神经网络提取所述待识别图像的特征图;所述卷积神经网络包括至少一个卷积层;
通过第一池化层对所述特征图进行降维处理,得到所述特征向量。
3.根据权利要求1所述的方法,其特征在于,根据所述特征图和所述初步识别结果,得到注意力特征向量的步骤,包括:
根据所述特征图和所述初步识别结果,得到注意力特征图;
将所述注意力特征图输入第二池化层,得到所述注意力特征向量。
4.根据权利要求3所述的方法,其特征在于,根据所述特征图和所述初步识别结果,得到注意力特征图的步骤,包括:
通过变换网络,将所述初步识别结果转换为注意力权重图;所述变换网络包括两层全连接层和位于所述两层全连接层之间的第一激活函数;
通过注意力网络,对所述特征图和所述注意力权重图进行计算,得到所述注意力特征图。
5.根据权利要求4所述的方法,其特征在于,所述注意力权重图中包含的注意力权重值与所述特征图中包含的特征值一一对应;
所述通过注意力网络,对所述特征图和所述注意力权重图进行计算,得到所述注意力特征图的步骤,包括:
将每个特征值与对应的注意力权重值进行内积后通过第二激活函数,得到每个特征值对应的注意力分值;
对所述注意力分值进行全局归一化处理后,再与对应的特征值做元素乘积,得到所述注意力特征图。
6.根据权利要求1~5中的任一项所述的方法,其特征在于,在获取待再识别图像的目标特征图以及目标特征向量的步骤之前,所述方法还包括:
获取训练图像样本集;
采用所述训练图像样本集对所述卷积神经网络、所述变换网络、所述注意力网络或所述循环神经网络中的至少一种网络进行训练。
7.根据权利要求6所述的方法,其特征在于,所述采用所述训练图像样本集对所述卷积神经网络、所述变换网络、所述注意力网络或所述循环神经网络中的至少一种网络进行训练的步骤,包括:
从所述训练图像样本集中随机选取训练图像,通过所述卷积神经网络,得到所述训练图像的特征图以及特征向量;
将所述训练图像的特征向量输入所述循环神经网络,得到所述循环神经网络在第一时间步输出的所述训练图像的初步识别结果;
根据预设的第一特征标签,通过第一损失函数对所述训练图像的初步识别结果进行检验,得到第一损失函数值;
将所述训练图像的初步识别结果输入变换网络,得到所述训练图像的注意力权重图;
将所述训练图像的特征图和所述训练图像的注意力权重图输入所述注意力网络,得到所述训练图像的注意力特征向量;
将所述训练图像的注意力特征向量输入所述循环神经网络,得到所述循环神经网络在第二时间步输出的所述训练图像的细分识别结果;
根据预设的第二特征标签,通过第二损失函数对所述训练图像的细分识别结果进行检验,得到第二损失函数值;
将所述第一损失函数值与所述第二损失函数值之和作为损失函数值,基于所述损失函数值,对所述卷积神经网络、所述变换网络、所述注意力网络和所述循环神经网络中的至少一种网络的参数进行训练。
8.一种图像再识别装置,其特征在于,包括:
特征提取模块,用于获取待识别图像的特征图和特征向量,所述特征向量是对所述特征图处理后得到的;
初步识别模块,用于将所述特征向量输入循环神经网络,以使所述循环神经网络在第一时间步生成所述待识别图像的初步识别结果;
注意力模块,用于根据所述特征图和所述初步识别结果,得到注意力特征向量;
细分识别模块,用于将所述注意力特征向量输入所述循环神经网络,以使所述循环神经网络在第二时间步根据所述注意力特征向量和所述初步识别结果,输出所述待识别图像的细分识别结果。
9.一种电子设备,包括图像采集装置、存储器、处理器;
所述图像采集装置,用于采集图像数据;
所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1~7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1~7任一项所述的方法的步骤。
CN201810810555.0A 2018-07-20 2018-07-20 图像再识别方法、装置及电子设备 Active CN108960189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810810555.0A CN108960189B (zh) 2018-07-20 2018-07-20 图像再识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810810555.0A CN108960189B (zh) 2018-07-20 2018-07-20 图像再识别方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108960189A true CN108960189A (zh) 2018-12-07
CN108960189B CN108960189B (zh) 2020-11-24

Family

ID=64463471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810810555.0A Active CN108960189B (zh) 2018-07-20 2018-07-20 图像再识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108960189B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109815846A (zh) * 2018-12-29 2019-05-28 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和电子装置
CN109902563A (zh) * 2019-01-17 2019-06-18 桂林远望智能通信科技有限公司 一种多角度车型识别方法及系统
CN110135406A (zh) * 2019-07-09 2019-08-16 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110516583A (zh) * 2019-08-21 2019-11-29 中科视语(北京)科技有限公司 一种车辆重识别方法、系统、设备及介质
CN110647916A (zh) * 2019-08-23 2020-01-03 苏宁云计算有限公司 基于卷积神经网络的色情图片识别方法及装置
CN111582382A (zh) * 2020-05-09 2020-08-25 Oppo广东移动通信有限公司 状态识别方法、装置以及电子设备
CN111680497A (zh) * 2019-02-25 2020-09-18 北京嘀嘀无限科技发展有限公司 会话特征提取方法、会话识别模型训练方法及装置
CN112101395A (zh) * 2019-06-18 2020-12-18 上海高德威智能交通系统有限公司 一种图像的识别方法及装置
WO2021138893A1 (zh) * 2020-01-10 2021-07-15 顺丰科技有限公司 车牌识别方法、装置、电子设备及存储介质
CN113408559A (zh) * 2020-03-17 2021-09-17 杭州萤石软件有限公司 一种车辆品牌识别方法、装置及存储介质
CN114511742A (zh) * 2022-01-28 2022-05-17 北京百度网讯科技有限公司 图像识别方法及装置、电子设备和介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI814623B (zh) * 2022-10-26 2023-09-01 鴻海精密工業股份有限公司 圖像識別方法、電腦設備及儲存介質

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107527059A (zh) * 2017-08-07 2017-12-29 北京小米移动软件有限公司 文字识别方法、装置及终端
US20180060665A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction
CN108133217A (zh) * 2017-11-22 2018-06-08 北京达佳互联信息技术有限公司 图像特征确定方法、装置及终端
CN108171260A (zh) * 2017-12-15 2018-06-15 百度在线网络技术(北京)有限公司 一种图片识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180060665A1 (en) * 2016-08-29 2018-03-01 Nec Laboratories America, Inc. Dual Stage Attention Based Recurrent Neural Network for Time Series Prediction
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107291945A (zh) * 2017-07-12 2017-10-24 上海交通大学 基于视觉注意力模型的高精度服装图像检索方法及系统
CN107316042A (zh) * 2017-07-18 2017-11-03 盛世贞观(北京)科技有限公司 一种绘画图像检索方法及装置
CN107527059A (zh) * 2017-08-07 2017-12-29 北京小米移动软件有限公司 文字识别方法、装置及终端
CN108133217A (zh) * 2017-11-22 2018-06-08 北京达佳互联信息技术有限公司 图像特征确定方法、装置及终端
CN108171260A (zh) * 2017-12-15 2018-06-15 百度在线网络技术(北京)有限公司 一种图片识别方法及系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
BO ZHAO等: "Diversified Visual Attention Networks for Fine-Grained Object Classification", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
JIANLONG FU等: "Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
MAX JADERBERG等: "Spatial Transformer Networks", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
SØREN KAAE SØNDERBY等: "Recurrent Spatial Transformer Networks", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
TIANJUN XIAO等: "The Application of Two-level Attention Models in Deep Convolutional Neural Network for Fine-grained Image Classification", 《COMPUTER VISION AND PATTERN RECOGNITION》 *
YANMING GUO等: "CNN-RNN: A Large-scale Hierarchical Image Classification Framework", 《MULTIMEDIA TOOLS AND APPLICATIONS》 *
YING HUA TAN等: "phi-LSTM: A Phrase-based Hierarchical LSTM Model for Image Captioning", 《COMPUTATION AND LANGUAGE》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344920A (zh) * 2018-12-14 2019-02-15 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109344920B (zh) * 2018-12-14 2021-02-02 汇纳科技股份有限公司 顾客属性预测方法、存储介质、系统及设备
CN109815846A (zh) * 2018-12-29 2019-05-28 腾讯科技(深圳)有限公司 图像处理方法、装置、存储介质和电子装置
CN109902563A (zh) * 2019-01-17 2019-06-18 桂林远望智能通信科技有限公司 一种多角度车型识别方法及系统
CN111680497A (zh) * 2019-02-25 2020-09-18 北京嘀嘀无限科技发展有限公司 会话特征提取方法、会话识别模型训练方法及装置
CN111680497B (zh) * 2019-02-25 2023-12-08 北京嘀嘀无限科技发展有限公司 会话识别模型训练方法及装置
CN112101395A (zh) * 2019-06-18 2020-12-18 上海高德威智能交通系统有限公司 一种图像的识别方法及装置
CN110135406A (zh) * 2019-07-09 2019-08-16 北京旷视科技有限公司 图像识别方法、装置、计算机设备和存储介质
CN110516583A (zh) * 2019-08-21 2019-11-29 中科视语(北京)科技有限公司 一种车辆重识别方法、系统、设备及介质
CN110647916A (zh) * 2019-08-23 2020-01-03 苏宁云计算有限公司 基于卷积神经网络的色情图片识别方法及装置
WO2021138893A1 (zh) * 2020-01-10 2021-07-15 顺丰科技有限公司 车牌识别方法、装置、电子设备及存储介质
CN113408559A (zh) * 2020-03-17 2021-09-17 杭州萤石软件有限公司 一种车辆品牌识别方法、装置及存储介质
CN111582382A (zh) * 2020-05-09 2020-08-25 Oppo广东移动通信有限公司 状态识别方法、装置以及电子设备
CN111582382B (zh) * 2020-05-09 2023-10-31 Oppo广东移动通信有限公司 状态识别方法、装置以及电子设备
CN114511742A (zh) * 2022-01-28 2022-05-17 北京百度网讯科技有限公司 图像识别方法及装置、电子设备和介质

Also Published As

Publication number Publication date
CN108960189B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN108960189A (zh) 图像再识别方法、装置及电子设备
CN111126258B (zh) 图像识别方法及相关装置
KR102635987B1 (ko) 이미지 시맨틱 세그멘테이션 네트워크를 트레이닝하기 위한 방법, 장치, 디바이스 및 저장 매체
CN112163465B (zh) 细粒度图像分类方法、系统、计算机设备及存储介质
CN109492638A (zh) 文本检测方法、装置及电子设备
CN104063719B (zh) 基于深度卷积网络的行人检测方法及装置
CN103942577B (zh) 视频监控中基于自建立样本库及混合特征的身份识别方法
CN109800682B (zh) 驾驶员属性识别方法及相关产品
CN111368972B (zh) 一种卷积层量化方法及其装置
Viraktamath et al. Face detection and tracking using OpenCV
CN108171112A (zh) 基于卷积神经网络的车辆识别与跟踪方法
CN107016357A (zh) 一种基于时间域卷积神经网络的视频行人检测方法
CN107194346A (zh) 一种汽车疲劳驾驶预测方法
CN104484890B (zh) 基于复合稀疏模型的视频目标跟踪方法
CN106156765A (zh) 基于计算机视觉的安全检测方法
CN109522790A (zh) 人体属性识别方法、装置、存储介质及电子设备
CN107315998B (zh) 基于车道线的车辆种类划分方法和系统
CN106778687A (zh) 基于局部评估和全局优化的注视点检测方法
Napoli et al. Simplified firefly algorithm for 2d image key-points search
CN112561846A (zh) 训练图像融合模型的方法、装置和电子设备
CN109508636A (zh) 车辆属性识别方法、装置、存储介质及电子设备
CN109670517A (zh) 目标检测方法、装置、电子设备和目标检测模型
US20220132050A1 (en) Video processing using a spectral decomposition layer
CN110956158A (zh) 一种基于教师学生学习框架的遮挡行人再标识方法
CN116343330A (zh) 一种红外-可见光图像融合的异常行为识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant