CN109086690A - 图像特征提取方法、目标识别方法及对应装置 - Google Patents

图像特征提取方法、目标识别方法及对应装置 Download PDF

Info

Publication number
CN109086690A
CN109086690A CN201810776757.8A CN201810776757A CN109086690A CN 109086690 A CN109086690 A CN 109086690A CN 201810776757 A CN201810776757 A CN 201810776757A CN 109086690 A CN109086690 A CN 109086690A
Authority
CN
China
Prior art keywords
image
feature
neural networks
convolutional neural
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810776757.8A
Other languages
English (en)
Other versions
CN109086690B (zh
Inventor
范星
张轩
张弛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201810776757.8A priority Critical patent/CN109086690B/zh
Publication of CN109086690A publication Critical patent/CN109086690A/zh
Application granted granted Critical
Publication of CN109086690B publication Critical patent/CN109086690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video

Abstract

本发明涉及图像处理技术领域,提供一种图像特征提取方法、目标识别方法及对应装置。其中,图像特征提取方法包括:利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像;基于第一特征图像获得多个第一空间特征;利用第二卷积神经网络对第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像;基于第一扩增特征图像获得多个第一通道特征;基于多个第一空间特征、多个第一通道特征或多个第一空间特征以及多个第一通道特征进行特征融合,获得第一图像的第一图像特征。该方法获得的空间特征具有较好的局部细节,而通道特征具有全局的感知野,从而能够有效地对图像特征进行描述。该方法可以应用于改善ReID的精度。

Description

图像特征提取方法、目标识别方法及对应装置
技术领域
本发明涉图像处理技术领域,具体而言,涉及一种图像特征提取方法、目标识别方法及对应装置。
背景技术
在视频结构化的诸多应用中,行人的分析至关重要,特别是对于人的身份识别在安防、视频检索等众多领域起着核心作用。
行人重识别(Person Re-Identification,ReID),即用获得的一张行人图像,去图像库或者视频中找到该人。例如,在刑侦应用中,需要根据一张嫌疑人图像在城市中庞大的摄像头网络中找到该嫌疑人。
在ReID中,首先需要提取出行人图像的图像特征,然而在现有技术中,提取出的图像特征并不能有效地对行人进行描述,导致ReID的精度较低。
发明内容
有鉴于此,本发明实施例提供一种图像特征提取方法、目标识别方法及对应装置。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种图像特征提取方法,包括:
利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像;
将第一特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第一空间特征;
利用第二卷积神经网络对第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像;
对第一扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第一通道特征;
基于多个第一空间特征、多个第一通道特征或多个第一空间特征以及多个第一通道特征进行特征融合,获得第一图像的第一图像特征。
上述方法包括两个处理分支,分别用于提取图像的空间特征以及通道特征,空间特征以及通道特征是图像的两个不同的特征维度,空间特征具有较好的局部细节,而通道特征具有全局的感知野。最终获得的图像特征可以是空间特征的融合,可以是通道特征的融合,也可以是空间特征和通道特征的融合以适应于不同的图像特征提取需求,更好地对图像特征进行描述。
该方法可以应用于ReID中,用于提取行人图像的图像特征,从而提高ReID的精度。
结合第一方面,在第一方面的第一种可能的实现方式中,第一图像包括第一目标对象,将第一特征图像在空间维度上划分为多个部分,包括:
基于第一目标对象的固有姿态将第一特征图像在空间维度上划分为多个部分。
在对图像进行空间维度上的划分时,考虑图像中目标对象的固有姿态,从而使划分结果包含更多的有效信息,使最终获得的空间特征更有价值。
结合第一方面的第一种可能的实现方式的,在第一方面的第二种可能的实现方式中,第一目标对象为人,将第一特征图像在空间维度上划分为多个部分,包括:
将第一特征图像在竖直方向上划分为多个部分。
人在大多数情况下为站姿或坐姿,身体主要在竖直方向上分布,因此对图像在竖直方向上进行划分效果较好。
结合第一方面的第一种可能的实现方式的,在第一方面的第三种可能的实现方式中,第一目标对象为车辆,将第一特征图像在空间维度上划分为多个部分,包括:
将第一特征图像在水平方向上划分为多个部分。
车辆的在大多数情况下置于地面上,车身主要在水平方向上分布,因此对图像在水平方向上进行划分效果较好。
结合第一方面,在第一方面的第四种可能的实现方式中,第二卷积神经网络采用大小为1x1的卷积核。
第二卷积神经网络主要用于扩增通道数量,采用1x1的卷积核进行卷积运算量较小,能够快速完成通道数量扩增,提高图像特征提取的效率。
结合第一方面或第一方面的第一种至第四种中的任意一种可能的实现方式,在第一方面的第五种可能的实现方式中,利用第一卷积神经网络对第一图像进行特征提取之前,方法还包括:
利用训练集中的第二图像对第一卷积神经网络以及第二卷积神经网络进行训练,直至用于度量多个第二空间特征以及多个第二通道特征对应相似程度的损失函数收敛,其中,多个第二空间特征为利用第一卷积神经网络获得的、第二图像在空间维度上对应的特征,多个第二通道特征为利用第二卷积神经网络获得的、第二图像在通道维度上对应的特征。
利用损失函数度量多个第二空间特征以及多个第二通道特征的对应相似程度,并训练使损失函数收敛的第一卷积神经网络以及第二卷积神经网络,使得在特征学习过程中,空间特征能够对通道特征起到监督作用,即通道特征能够去学习对应的空间特征,减少通道特征之间的耦合,使最终获得的通道特征更具区分度,更有利于对图像进行描述。
结合第一方面的第五种可能的实现方式的,在第一方面的第六种可能的实现方式中,利用训练集中的第二图像对第一卷积神经网络以及第二卷积神经网络进行训练,包括:
利用第一卷积神经网络对第二图像进行特征提取,获得第二特征图像;
将第二特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第二空间特征;
利用第二卷积神经网络对第二特征图像的通道数量进行扩增,获得通道数量扩增后的第二扩增特征图像;
对第二扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第二通道特征;
利用损失函数度量多个第二空间特征以及多个第二通道特征的对应相似程度,并基于损失函数的计算结果更新第一卷积神经网络以及第二卷积神经网络的参数。
训练第一卷积神经网络以及第二卷积神经网络的方法和使用第一卷积神经网络以及第二卷积神经网络的方法是类似的,在其中引入了损失函数调整卷积神经网络的参数。
结合第一方面的第六种可能的实现方式的,在第一方面的第七种可能的实现方式中,损失函数包括差的绝对值和损失或平方误差和损失。
上述两种损失函数具有较好的效果,当然损失函数并不限于采用这两种类型。
结合第一方面的第六种或第七种可能的实现方式的,在第一方面的第八种可能的实现方式中,多个第二通道特征被构造为与多个第二空间特征的数量相同,且每个第二通道特征被构造为与对应的第二空间特征的维度相同。
上述对通道特征的构造方式,便于利用损失函数计算通道特征与空间特征之间的对应相似程度。
第二方面,本发明实施例提供一种目标识别方法,包括:
获得第一图像,第一图像包括第一目标对象;
利用第一方面或第一方面的任意一种可能的实现方式提供的图像特征提取方法提取第一图像的第一图像特征;
从图像库中查找获得与第一图像特征匹配的匹配图像特征对应的匹配图像;
确定匹配图像中的匹配目标对象与第一目标对象为同一对象。
在上述方法由于利用了本发明实施例提供的图像特征提取方法进行特征提取,因此能够提高目标识别的准确率。当目标对象为人时,上述目标识别方法就是一种ReID方法。
第三方面,本发明实施例提供一种图像特征提取装置,包括:
特征提取模块,用于利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像;
空间特征获取模块,用于将第一特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第一空间特征;
通道扩增模块,用于利用第二卷积神经网络对第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像;
通道特征提取模块,用于对第一扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第一通道特征;
特征融合模块,用于基于多个第一空间特征、多个第一通道特征或多个第一空间特征以及多个第一通道特征进行特征融合,获得第一图像的第一图像特征。
第四方面,本发明实施例提供一种目标识别装置,包括:
图像获取模块,用于获得第一图像,第一图像包括第一目标对象;
图像特征提取模块,用于利用第一方面或第一方面的任意一种可能的实现方式提供的图像特征提取方法提取第一图像的第一图像特征;
图像特征匹配模块,用于从图像库中查找获得与第一图像特征匹配的匹配图像特征对应的匹配图像;
目标对象确定模块,用于确定匹配图像中的匹配目标对象与第一目标对象为同一对象。
第五方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供图像特征提取方法或目标识别方法的步骤。
第六方面,本发明实施例提供一种电子设备,包括存储器以及处理器,存储器中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供图像特征提取方法或目标识别方法的步骤。
为使本发明的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例中的电子设备的结构框图;
图2示出了本发明第一实施例提供的图像特征提取方法的流程图;
图3示出了本发明第二实施例提供的目标识别方法的流程图;
图4示出了本发明第三实施例提供的图像特征提取装置的功能模块图;
图5示出了本发明第四实施例提供的目标识别装置的功能模块图。
具体实施方式
发明人在长期研究实践中发现,ReID的识别准确率与提取出的行人图像的图像特征关系密切。然而在现有的图像特征提取方法中,或者只考虑图像的全局特征,导致局部细节的缺乏;或者只考虑图像的局部特征,导致感知野较小,且容易受到局部特征划分方式的影响。总之,并不能提取出有效描述图像内容的图像特征,导致ReID的识别准确率不高。
基于上述发现,在本发明实施例中提供一种图像特征提取方法、目标识别方法及对应装置,以解决上述技术问题。需要指出,现有技术中存在的上述缺陷,是发明人经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在本发明过程中对本发明作出的贡献。
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了一种可应用于本发明实施例中的电子设备100的结构框图。参照图1,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110,这些组件通过总线系统112和/或其他形式的连接机构(未示出)互连。
处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备100中的其他组件以执行期望的功能。
存储装置104可以各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行计算机程序指令,以实现下文的本发明实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集装置110用于拍摄用户期望的图像,例如相机、摄像头等。图像采集装置110采集的图像可以传输至存储装置104存储,以供其他组件使用。
可以理解,图1所示的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中,电子设备100可以是个人计算机、移动设备、智能穿戴设备、车载设备等具有运算处理能力的设备,并且电子设备100不限于实体硬件设备,也可以是虚拟机等虚拟设备。
第一实施例
图2示出了本发明第一实施例提供的图像特征提取方法的流程图。参照图2,该方法包括:
步骤S10:电子设备的处理器利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像。
第一图像为需要进行特征提取的图像,第一图像中可以包括第一目标对象,例如人、车辆等。第一图像可以通过电子设备的图像采集装置110采集获得,也可以通过其他渠道获得,并存储于电子设备的存储装置104中,在步骤S10执行之前将其从存储装置104中读取出来。
第一卷积神经网络可以利用现有的卷积神经网络,例如GoogleNet、VGG以及ResNet等初始化,并在步骤S10执行之前经过训练获得。将第一图像输入至第一卷积神经网络,经第一卷积神经网络处理后输出对应的第一特征图像。
步骤S11:电子设备的处理器将第一特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第一空间特征。
在空间维度上对第一特征图像进行划分的方式不作限定,例如,可以在竖直方向上进行划分,可以在水平方向上进行划分,或者可以按照区域进行划分等,具体的划分方式可以是均匀的也可以是非均匀的。
划分后,由于每个第一空间特征只包括第一特征图像的一部分空间信息,是一种空间维度上的局部特征,因此能较好地从空间维度反映第一特征图像中的局部细节。
在第一实施例的一种实施方式中,可以基于第一图像中第一目标对象的固有姿态将第一特征图像在空间维度上划分为多个部分。其中,固有姿态是指第一目标对象在通常情况下所具有的姿态,例如,人在大多数情况下为站姿或坐姿(不考虑睡觉时),身体主要在竖直方向上分布,车辆在大多数情况下置于地面上,车身主要在水平方向上分布。基于第一目标对象的固有姿态进行划分,从而使划分结果中的每个部分都尽可能包含第一目标对象的一部分,使最终获得的每个第一空间特征更具价值。例如,对于第一目标对象是人的情况,可以将第一特征图像在竖直方向上划分为多个部分;对于第一目标对象是车辆的情况,可以将第一特征图像在水平方向上划分为多个部分。
需要指出,步骤S11中对第一特征图像的划分方法通常是事先根据要处理的图像的内容确定好的,包括在第一卷积神经网络的训练阶段,对训练图像对应的特征图像也采用同样的划分方法。
步骤S12:电子设备的处理器利用第二卷积神经网络对第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像。
第二卷积神经网络可以包括一个或多个卷积层,用于扩增第一特征图像的通道数量,第二卷积神经网络可以在步骤S10执行之前经过训练获得。在卷积神经网络中,决定输出结果的通道数量的是卷积层的卷积核的个数,可以根据具体需求构造第二卷积神经网络的卷积层,以使其满足通道数量扩增的要求。
在第一实施例的一种实施方式中,第二卷积神经网络的卷积层可以采用大小为1x1的卷积核,利用大小为1x1的卷积核进行卷积运算,既能实现通道数量扩增,同时运算量较小,运算速度快,同时还可以使第一扩增特征图像与第一特征图像相比尺寸保持不变,方便后续处理。当然,在第一实施例的其他一些实施方式中,第二卷积神经网络也可以采用其他尺寸,例如大小为3x3、5x5的卷积核,或者多种不同尺寸的卷积核的结合也是可以的。
步骤S13:电子设备的处理器对第一扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第一通道特征。
在通道维度上对池化结果进行划分,是指将池化结果按照通道数量进行划分,例如池化结果包括100个通道,可以划分成两个第一通道特征,每个第一通道特征包括50个通道。对池化结果进行划分的方式不作限定,可以是按照通道数量均匀划分,也可以是非均匀划分。
需要指出,步骤S13中对通道的划分方法通常是事先根据要处理的图像的内容确定好的,包括在第一卷积神经网络的训练阶段,对训练图像对应的特征图像也采用同样的划分方法。
全局池化并不改变通道数量,对池化结果在通道维度上进行划分,获得的每个第一通道特征仅包括第一扩增特征图像的一部分通道,是一种通道维度上的局部特征,因此能较好地从通道维度反映第一特征图像中的局部细节。同时,由于在第一通道特征的获取过程中,并不涉及空间维度的划分,因此每个第一通道特征仍然具有第一特征图像的全部空间信息,即具有全局的感知野,因此第一通道特征还可以反映第一特征图像中的整体特征。
步骤S14:电子设备的处理器基于多个第一空间特征、多个第一通道特征或多个第一空间特征以及多个第一通道特征进行特征融合,获得第一图像的第一图像特征。
步骤S14中的特征融合,通常是指将各个特征拼接起来,当然也可以采用其他的融合方式。第一图像特征可能通过多个第一空间特征融合生成,也可能通过多个第一通道特征融合生成,还可能通过多个第一空间特征以及多个第一通道特征共同融合生成。具体采用何种特征融合方式,可以基于第一图像特征的使用方的具体需求确定,在步骤S14中提供了三种可供选择的方式,其具有较高的灵活度。
同时,根据之前的阐述,单一的全局特征或局部特征并不能很好地描述图像内容,而在本发明实施例提供的图像特征提取方法中,第一空间特征和第一通道特征可以被结合使用,所生成的第一图像特征既具有全局特征的感知野,又具有局部特征的细节,从而能够较好的描述第一图像的内容,例如第一目标对象的特征。该方法可以应用于,但不限于应用于ReID中,用于提取行人图像的图像特征,从而提高ReID的精度。
进一步的,上面已经提到,在步骤S10执行之前,可以先通过训练的方式训练出第一卷积神经网络以及第二卷积神经网络。将训练集中的训练图像称为第二图像,训练过程可以包括如下步骤,当然在训练前首先需要确定第一卷积神经网络以及第二卷积神经网络的初始化模型:
A.利用第一卷积神经网络对第二图像进行特征提取,获得第二特征图像。
B.将第二特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第二空间特征。
C.利用第二卷积神经网络对第二特征图像的通道数量进行扩增,获得通道数量扩增后的第二扩增特征图像。
D.对第二扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第二通道特征。
上述步骤A至步骤D与步骤S10至步骤S13是类似的,可以参考之前的内容,不再重复阐述。
E.利用损失函数度量多个第二空间特征以及多个第二通道特征的对应相似程度,并基于损失函数的计算结果更新第一卷积神经网络以及第二卷积神经网络的参数。
训练第一卷积神经网络以及第二卷积神经网络通常需要预设训练目标。在第一实施例的一种实施方式中,训练目标可以包括使上述用于度量多个第二空间特征以及多个第二通道特征对应相似程度的损失函数收敛。
下面解释对应相似的含义:
例如,第二空间特征有4个,第二通道特征也有4个,可以先将第二通道特征与第二空间特征随意地一一对应起来,当然此时对应的每组第二通道特征与第二空间特征之间可能并不具有相似性,可以通过训练第一卷积神经网络以及第二卷积神经网络使得对应的第二通道特征与第二空间特征之间具有相似性。所谓相似性,可以理解为不同的特征对应的特征向量在某种度量方式下的差异大小。
可以通过损失函数度量特征之间的相似性,并根据损失函数的计算结果,在训练过程中调整第一卷积神经网络以及第二卷积神经网络的参数,使得第二通道特征与第二空间特征之间的相似性逐渐增加,经过足够多次的训练后,如果利用损失函数计算出的损失值保持平稳基本不再变化,表明损失函数已经收敛,此时可以认为多个第二空间特征与多个第二通道特征的对应相似程度已经满足要求,即第一卷积神经网络以及第二卷积神经网络已经训练完毕。其中,损失函数包括但不限于差的绝对值和损失、平方误差和损失等损失函数中的一种。此外,在训练过程中,除了用于衡量相似性的损失函数外,还可以结合其他损失函数进行训练,实现其他训练目标。
使第二通道特征与第二空间特征对应相似的过程,实际上是一个利用第二空间特征监督第二通道特征进行特征学习的过程,使得第二通道特征能够去学习对应的第二空间特征,减少第二通道特征之间的耦合,使最终获得的第二通道特征更具区分度,更有利于对图像进行描述。
需要指出,一旦第一卷积神经网络以及第二卷积神经网络训练完成,则步骤S14中获得的多个第一空间特征和多个第一通道特征之间也将具有对应相似的特性。
上面仅仅列举了第二空间特征与第二通道特征数量相同的情况,在某些实施方式中,第二空间特征的数量也可以和第二通道特征的数量不同,例如第二空间特征有4个,第二通道特征有5个,此时可以采取多种处理方式,例如选择一个第二通道特征不进行对应,或者选择两个第二通道特征对应同一个第二空间特征等等。
进一步的,一组对应的第二空间特征和第二通道特征的维度(特征向量的维度)可以是相等的,也可以是不相等的。对于不相等的情况,此时也可以采取多种处理方式,例如第二空间特征的维度为100,第二通道特征的维度为300,可以从第二通道特征中选择100个维度去和第二空间特征进行相似性的计算,或者可以将第二通道特征分为三部分,每部分100个维度,三部分分别去和第二空间特征进行相似性计算,计算结果取均值、最大值或最小值等。
为简化计算过程,在一种可选的实施方式中,多个第二通道特征被构造为与多个第二空间特征的数量相同,且每个第二通道特征被构造为与对应的第二空间特征的维度相同,在这种实施方式中,无论是将第二通道特征与第二空间特征对应起来,还是利用损失函数计算二者之间的相似性都较为直观、简单,便于进行实施。
具体而言,假设第二空间特征有N个,第二特征图像有X个通道,则通过设计第二卷积神经网络,可以使第二扩增特征图像的通道数量为N×X个,然后对其进行全局池化,将池化结果在通道维度上均匀划分为N个第二通道特征,则每个第二通道特征具有X个通道,同时结合全局池化过程中的降维处理,可以使得每个第二通道特征的维数与对应的第二空间特征的维数相同。
第二实施例
图3示出了本发明第二实施例提供的目标识别方法的流程图。参照图3,该方法包括:
步骤S20:电子设备的处理器获得第一图像。
第一图像为待识别的图像,其中包括第一目标对象。
步骤S21:电子设备的处理器本发明实施例提供的图像特征提取方法提取第一图像的第一图像特征。
步骤S21可以参考第一实施例中的描述,此处不再重复阐述。
步骤S22:电子设备的处理器从图像库中查找获得与第一图像特征匹配的匹配图像特征对应的匹配图像。
这里的图像库可以是图片库,也可以是视频或视频库,视频中的每帧都可以作为一个图像处理。在执行步骤S22之前可以先将图像库中的各个图像的图像特征都利用本发明实施例提供的图像特征提取方法计算出来并存储。在步骤S22中将第一图像特征与之前计算好的各个图像特征对比,确定其中与第一图像特征匹配的匹配图像特征,进而确定图像库中与匹配图像特征对应的匹配图像。
这里所称的匹配可以是指所要对比的两个特征具有较高的相似性。可以理解的,匹配图像可以是一个,也可以是多个。
步骤S23:电子设备的处理器确定匹配图像中的匹配目标对象与第一目标对象为同一对象。
步骤S23换言之,即在图像库中查找到了第一目标对象。例如,对于ReID来说,就是从图像库中找到了该人。
上述方法由于利用了本发明实施例提供的图像特征提取方法进行特征提取,因此能够提高目标识别的准确率。当目标对象为人时,上述目标识别方法就是一种ReID方法,该ReID方法具有较高的精度。
第三实施例
图4示出了本发明第三实施例提供的图像特征提取装置200的功能模块图。参照图4,该装置包括特征提取模块210、空间特征获取模块220、通道扩增模块230、通道特征提取模块240以及特征融合模块240。
其中,特征提取模块210用于利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像;
空间特征获取模块220用于将第一特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第一空间特征;
通道扩增模块230用于利用第二卷积神经网络对第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像;
通道特征提取模块240用于对第一扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第一通道特征;
特征融合模块250用于基于多个第一空间特征、多个第一通道特征或多个第一空间特征以及多个第一通道特征进行特征融合,获得第一图像的第一图像特征。
本发明第三实施例提供的图像特征提取装置200,其实现原理及产生的技术效果和第一实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
第四实施例
图5示出了本发明第四实施例提供的目标识别装置300的功能模块图。参照图5,该装置包括图像获取模块310、图像特征提取模块320、图像特征匹配模块330以及目标对象确定模块340。
其中,图像获取模块310用于获得第一图像,第一图像包括第一目标对象;
图像特征提取模块320用于利用第一方面或第一方面的任意一种可能的实现方式提供的图像特征提取方法提取第一图像的第一图像特征;
图像特征匹配模块330用于从图像库中查找获得与第一图像特征匹配的匹配图像特征对应的匹配图像;
目标对象确定模块340用于确定匹配图像中的匹配目标对象与第一目标对象为同一对象。
本发明第四实施例提供的目标识别装置300,其实现原理及产生的技术效果和第二实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
第五实施例
本发明第五实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的图像特征提取方法或目标识别方法的步骤。该计算机可读存储介质可以实现为,但不限于图1示出的存储装置104中的存储介质。
第六实施例
本发明第六实施例提供一种电子设备,包括存储器以及处理器,存储器中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的图像特征提取方法或目标识别方法的步骤。该电子设备可以实现为,但不限于图1示出的电子设备100。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括:个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备,前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (14)

1.一种图像特征提取方法,其特征在于,包括:
利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像;
将所述第一特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第一空间特征;
利用第二卷积神经网络对所述第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像;
对所述第一扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第一通道特征;
基于所述多个第一空间特征、所述多个第一通道特征或所述多个第一空间特征以及所述多个第一通道特征进行特征融合,获得所述第一图像的第一图像特征。
2.根据权利要求1所述的图像特征提取方法,其特征在于,所述第一图像包括第一目标对象,所述将所述第一特征图像在空间维度上划分为多个部分,包括:
基于所述第一目标对象的固有姿态将所述第一特征图像在空间维度上划分为多个部分。
3.根据权利要求2所述的图像特征提取方法,其特征在于,所述第一目标对象为人,所述将所述第一特征图像在空间维度上划分为多个部分,包括:
将所述第一特征图像在竖直方向上划分为多个部分。
4.根据权利要求2所述的图像特征提取方法,其特征在于,所述第一目标对象为车辆,所述将所述第一特征图像在空间维度上划分为多个部分,包括:
将所述第一特征图像在水平方向上划分为多个部分。
5.根据权利要求1所述的图像特征提取方法,其特征在于,所述第二卷积神经网络采用大小为1x1的卷积核。
6.根据权利要求1-5中任一项所述的图像特征提取方法,其特征在于,所述利用第一卷积神经网络对第一图像进行特征提取之前,所述方法还包括:
利用训练集中的第二图像对所述第一卷积神经网络以及所述第二卷积神经网络进行训练,直至用于度量多个第二空间特征以及多个第二通道特征对应相似程度的损失函数收敛,其中,所述多个第二空间特征为利用所述第一卷积神经网络获得的、所述第二图像在空间维度上对应的特征,所述多个第二通道特征为利用所述第二卷积神经网络获得的、所述第二图像在通道维度上对应的特征。
7.根据权利要求6所述的图像特征提取方法,其特征在于,所述利用训练集中的第二图像对所述第一卷积神经网络以及所述第二卷积神经网络进行训练,包括:
利用所述第一卷积神经网络对所述第二图像进行特征提取,获得第二特征图像;
将所述第二特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得所述多个第二空间特征;
利用第二卷积神经网络对所述第二特征图像的通道数量进行扩增,获得通道数量扩增后的第二扩增特征图像;
对所述第二扩增特征图像进行全局池化,将池化结果在通道维度上划分为所述多个第二通道特征;
利用所述损失函数度量所述多个第二空间特征以及所述多个第二通道特征的所述对应相似程度,并基于所述损失函数的计算结果更新所述第一卷积神经网络以及所述第二卷积神经网络的参数。
8.根据权利要求7所述的图像特征提取方法,其特征在于,所述损失函数包括差的绝对值和损失或平方误差和损失。
9.根据权利要求7或8所述的图像特征提取方法,其特征在于,所述多个第二通道特征被构造为与所述多个第二空间特征的数量相同,且每个第二通道特征被构造为与对应的第二空间特征的维度相同。
10.一种目标识别方法,其特征在于,包括:
获得第一图像,所述第一图像包括第一目标对象;
利用权利要求1-9中任一项所述的图像特征提取方法提取所述第一图像的第一图像特征;
从图像库中查找获得与所述第一图像特征匹配的匹配图像特征对应的匹配图像;
确定所述匹配图像中的匹配目标对象与所述第一目标对象为同一对象。
11.一种图像特征提取装置,其特征在于,包括:
特征提取模块,用于利用第一卷积神经网络对第一图像进行特征提取,获得第一特征图像;
空间特征获取模块,用于将所述第一特征图像在空间维度上划分为多个部分,对每个部分分别进行全局池化,获得多个第一空间特征;
通道扩增模块,用于利用第二卷积神经网络对所述第一特征图像的通道数量进行扩增,获得通道数量扩增后的第一扩增特征图像;
通道特征提取模块,用于对所述第一扩增特征图像进行全局池化,将池化结果在通道维度上划分为多个第一通道特征;
特征融合模块,用于基于所述多个第一空间特征、所述多个第一通道特征或所述多个第一空间特征以及所述多个第一通道特征进行特征融合,获得所述第一图像的第一图像特征。
12.一种目标识别装置,其特征在于,包括:
图像获取模块,用于获得第一图像,所述第一图像包括第一目标对象;
图像特征提取模块,用于利用权利要求1-9中任一项所述的图像特征提取方法提取所述第一图像的第一图像特征;
图像特征匹配模块,用于从图像库中查找获得与所述第一图像特征匹配的匹配图像特征对应的匹配图像;
目标对象确定模块,用于确定所述匹配图像中的匹配目标对象与所述第一目标对象为同一对象。
13.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器读取并运行时,执行权利要求1-10中任一项所述的方法的步骤。
14.一种电子设备,包括存储器以及处理器,所述存储器中存储有计算机程序指令,其特征在于,所述计算机程序指令被所述处理器读取并运行时,执行权利要求1-10中任一项所述的方法的步骤。
CN201810776757.8A 2018-07-13 2018-07-13 图像特征提取方法、目标识别方法及对应装置 Active CN109086690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810776757.8A CN109086690B (zh) 2018-07-13 2018-07-13 图像特征提取方法、目标识别方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810776757.8A CN109086690B (zh) 2018-07-13 2018-07-13 图像特征提取方法、目标识别方法及对应装置

Publications (2)

Publication Number Publication Date
CN109086690A true CN109086690A (zh) 2018-12-25
CN109086690B CN109086690B (zh) 2021-06-22

Family

ID=64837993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810776757.8A Active CN109086690B (zh) 2018-07-13 2018-07-13 图像特征提取方法、目标识别方法及对应装置

Country Status (1)

Country Link
CN (1) CN109086690B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188773A (zh) * 2019-05-24 2019-08-30 北京迈格威科技有限公司 特征提取方法、图像处理方法及装置
CN111353428A (zh) * 2020-02-28 2020-06-30 北京市商汤科技开发有限公司 动作信息识别方法、装置、电子设备及存储介质
WO2020147857A1 (zh) * 2019-01-18 2020-07-23 上海极链网络科技有限公司 海量视频特征提取以及存储和检索方法及系统
CN116524206A (zh) * 2023-06-30 2023-08-01 深圳须弥云图空间科技有限公司 目标图像的识别方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933420A (zh) * 2015-07-03 2015-09-23 北京旷视科技有限公司 一种场景图像识别方法和场景图像识别设备
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
CN107480707A (zh) * 2017-07-26 2017-12-15 天津大学 一种基于信息无损池化的深度神经网络方法
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN107657257A (zh) * 2017-08-14 2018-02-02 中国矿业大学 一种基于多通道卷积神经网络的语义图像分割方法
CN107862287A (zh) * 2017-11-08 2018-03-30 吉林大学 一种前方小区域物体识别及车辆预警方法
CN107945179A (zh) * 2017-12-21 2018-04-20 王华锋 一种基于特征融合的卷积神经网络的肺结节良恶性检测方法
US20180122114A1 (en) * 2016-08-19 2018-05-03 Beijing Sensetime Technology Development Co., Ltd. Method and apparatus for processing video image and electronic device
CN108038466A (zh) * 2017-12-26 2018-05-15 河海大学 基于卷积神经网络的多通道人眼闭合识别方法
CN108229302A (zh) * 2017-11-10 2018-06-29 深圳市商汤科技有限公司 特征提取方法、装置、计算机程序、存储介质和电子设备
CN108229468A (zh) * 2017-06-28 2018-06-29 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104933420A (zh) * 2015-07-03 2015-09-23 北京旷视科技有限公司 一种场景图像识别方法和场景图像识别设备
CN106250915A (zh) * 2016-07-22 2016-12-21 福州大学 一种融合深度特征和语义邻域的自动图像标注方法
US20180122114A1 (en) * 2016-08-19 2018-05-03 Beijing Sensetime Technology Development Co., Ltd. Method and apparatus for processing video image and electronic device
CN108229468A (zh) * 2017-06-28 2018-06-29 北京市商汤科技开发有限公司 车辆外观特征识别及车辆检索方法、装置、存储介质、电子设备
CN107480707A (zh) * 2017-07-26 2017-12-15 天津大学 一种基于信息无损池化的深度神经网络方法
CN107657257A (zh) * 2017-08-14 2018-02-02 中国矿业大学 一种基于多通道卷积神经网络的语义图像分割方法
CN107657249A (zh) * 2017-10-26 2018-02-02 珠海习悦信息技术有限公司 多尺度特征行人重识别的方法、装置、存储介质及处理器
CN107862287A (zh) * 2017-11-08 2018-03-30 吉林大学 一种前方小区域物体识别及车辆预警方法
CN108229302A (zh) * 2017-11-10 2018-06-29 深圳市商汤科技有限公司 特征提取方法、装置、计算机程序、存储介质和电子设备
CN107945179A (zh) * 2017-12-21 2018-04-20 王华锋 一种基于特征融合的卷积神经网络的肺结节良恶性检测方法
CN108038466A (zh) * 2017-12-26 2018-05-15 河海大学 基于卷积神经网络的多通道人眼闭合识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RUI YU等: "Divide and Fuse: A Re-ranking Approach for Person Re-identification", 《HTTPS://ARXIV.ORG/PDF/1708.04169.PDF》 *
YIFAN SUN等: "Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)", 《HTTPS://ARXIV.ORG》 *
沈飞等: "基于改进卷积神经网络的高光谱图像特征提取方法", 《2016年红外、遥感技术与应用研讨会暨交叉学科论坛论文集》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020147857A1 (zh) * 2019-01-18 2020-07-23 上海极链网络科技有限公司 海量视频特征提取以及存储和检索方法及系统
CN110188773A (zh) * 2019-05-24 2019-08-30 北京迈格威科技有限公司 特征提取方法、图像处理方法及装置
CN110188773B (zh) * 2019-05-24 2021-06-22 北京迈格威科技有限公司 图像处理方法及装置
CN111353428A (zh) * 2020-02-28 2020-06-30 北京市商汤科技开发有限公司 动作信息识别方法、装置、电子设备及存储介质
CN116524206A (zh) * 2023-06-30 2023-08-01 深圳须弥云图空间科技有限公司 目标图像的识别方法及装置
CN116524206B (zh) * 2023-06-30 2023-10-03 深圳须弥云图空间科技有限公司 目标图像的识别方法及装置

Also Published As

Publication number Publication date
CN109086690B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
Ma et al. A saliency prior context model for real-time object tracking
CN111898709B (zh) 一种图像分类方法及设备
CN109086690A (zh) 图像特征提取方法、目标识别方法及对应装置
Jian et al. The extended marine underwater environment database and baseline evaluations
Unnikrishnan et al. Deep learning architectures for land cover classification using red and near-infrared satellite images
Tanberk et al. A hybrid deep model using deep learning and dense optical flow approaches for human activity recognition
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
Liu et al. Learning human pose models from synthesized data for robust RGB-D action recognition
CN109086873A (zh) 递归神经网络的训练方法、识别方法、装置及处理设备
Mironică et al. A modified vector of locally aggregated descriptors approach for fast video classification
CN110619284B (zh) 一种视频场景划分方法、装置、设备及介质
CN106297755A (zh) 一种用于乐谱图像识别的电子设备及识别方法
CN104063871B (zh) 可穿戴设备的图像序列场景分割方法
Zhang et al. Video salient region detection model based on wavelet transform and feature comparison
CN113408566A (zh) 目标检测方法及相关设备
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
Ravikiran et al. Analyzing Human Speech Using Gait Recognition Technology by MFCC Technique
Liao et al. Residual attention unit for action recognition
CN108875500A (zh) 行人再识别方法、装置、系统及存储介质
CN113572981B (zh) 视频配乐方法及装置、电子设备、存储介质
CN111626212B (zh) 图片中对象的识别方法和装置、存储介质及电子装置
CN114550047B (zh) 一种行为速率引导的视频行为识别方法
CN111275683A (zh) 图像质量评分处理方法、系统、设备及介质
Dong et al. Scene-oriented hierarchical classification of blurry and noisy images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant