CN111310518B - 图片特征提取方法、目标重识别方法、装置及电子设备 - Google Patents
图片特征提取方法、目标重识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111310518B CN111310518B CN201811513084.3A CN201811513084A CN111310518B CN 111310518 B CN111310518 B CN 111310518B CN 201811513084 A CN201811513084 A CN 201811513084A CN 111310518 B CN111310518 B CN 111310518B
- Authority
- CN
- China
- Prior art keywords
- feature
- vector
- picture
- target
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 87
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000013598 vector Substances 0.000 claims abstract description 319
- 238000011176 pooling Methods 0.000 claims abstract description 41
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 230000004927 fusion Effects 0.000 claims abstract description 34
- 230000009467 reduction Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000007667 floating Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007499 fusion processing Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 29
- 238000010586 diagram Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 102000006822 Agouti Signaling Protein Human genes 0.000 description 1
- 108010072151 Agouti Signaling Protein Proteins 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图片特征提取方法、目标重识别方法、装置及电子设备,方法包括:将当前图片输入预设的神经网络模型进行特征融合,得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图;将第一类特征图和第二类特征图进行池化操作,得到第一类特征图对应的第一类特征子向量和第二类特征图对应的第二类特征子向量;将第一类特征子向量和第二类特征子向量进行向量拼接,得到当前图片的特征拼接向量;将特征拼接向量与预存的注意力向量逐点相乘,得到当前图片对应的特征向量;其中,注意力向量与特征拼接向量的长度一致。本申请使提取出的图片特征更加精准,从而提高后续图片重识别的准确率。
Description
技术领域
本申请涉及行人重识别技术领域,尤其涉及一种图片特征提取方法、目标重识别方法、装置及电子设备。
背景技术
行人重识别(Person Re-Identification,ReID)技术主要应用在安防领域,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。目前主流的行人重识别技术一般采用两阶段方案:第一阶段采用有标签的行人图片训练一个深度分类模型,第二阶段用训练好的分类模型对测试图片提取特征,通过特征计算图片之间的距离以完成检索任务。最常用的分类模型是卷积神经网络,且现有技术主要采用网络的最后一层特征进行分类学习,潜在的问题是最后一层特征通常只包含图片的高层抽象特征,而丢失了底层基本信息,而对于不同的测试实例,可能底层特征更为重要,因此,现有的行人重识别方法对目标对象的特征提取不够精准,进而影响最终的检索结果的准确性。
发明内容
有鉴于此,本申请实施例提供一种图片特征提取方法、目标重识别方法、装置及电子设备,能够将低层特征信息和高层特征信息进行融合,并结合注意力向量,使不同层特征可以按重要性进行加权,使提取出的图片特征更加精准,从而提高后续图片重识别的准确率。
根据本申请的一个方面,提供一种图片特征提取方法,包括:将当前图片输入预设的神经网络模型进行特征融合,得到所述神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图;将所述第一类特征图和所述第二类特征图进行池化操作,得到所述第一类特征图对应的第一类特征子向量和所述第二类特征图对应的第二类特征子向量;将所述第一类特征子向量和所述第二类特征子向量进行向量拼接,得到所述当前图片的特征拼接向量;将所述特征拼接向量与预存的注意力向量逐点相乘,得到所述当前图片对应的特征向量;其中,所述注意力向量与所述特征拼接向量的长度一致。
在一些实施例中,所述神经网络模型为ResNet50残差网络模型,所述第一类特征图包括所述ResNet50残差网络模型的低卷积层组的最后卷积层输出的特征图,所述第二类特征图包括所述ResNet50残差网络模型的高卷积层组的最后卷积层输出的特征图。
在一些实施例中,将所述第一类特征图和所述第二类特征图进行池化操作的步骤,包括:将所述第一类特征图和所述第二类特征图进行均值池化操作或最大池化操作。
在一些实施例中,所述注意力向量通过以下方式得到:应用图片样本的融合特征向量训练MLP多层感知器,得到权重向量;所述融合特征向量与所述权重向量的长度一致,且所述权重向量中的值为0-1之间的浮点值;根据所述权重向量生成注意力向量。
在一些实施例中,所述MLP多层感知器为沙漏型结构;所述MLP多层感知器包括:第一全连接层和第二全连接层;其中,第一全连接层的激活函数包括:RELU或Sigmoid函数,第二个全连接层的激活函数为:Sigmoid函数。
在一些实施例中,根据所述权重向量生成注意力向量的步骤,包括:将所述权重向量作为注意力向量;或者,对所述权重向量进行稀疏正则化操作,得到注意力向量。
在一些实施例中,所述神经网络模块为卷积神经网络PCB。
在一些实施例中,所述方法还包括:对所述当前图片对应的特征向量进行降维操作,得到所述当前图片对应的低维特征向量。
在一些实施例中,所述对所述当前图片对应的特征向量进行降维操作的步骤,包括:将所述当前图片对应的特征向量输入预设的全连接层降维。
根据本申请的另一个方面,提供一种目标重识别方法,包括:将索引图片输入预设的特征提取模型,得到索引特征向量;其中,所述特征提取模型预存有上一方面任一项所述方法对应的算法,所述索引图片为包含有目标对象的图片;将搜索库中的目标图片分别输入所述特征提取模型,得到每个所述目标图片对应的目标特征向量;计算所述索引特征向量与每个所述目标图片对应的目标特征向量之间的距离;根据计算结果确定所述目标对象的重识别结果。
在一些实施例中,将搜索库中的目标图片分别输入所述特征提取模型的步骤,包括:对搜索库中的图片进行实体对象检测,得到多个包含有所述实体对象的目标图片;其中,所述实体对象与所述目标对象的属性相同。
在一些实施例中,对搜索库中的图片进行实体对象检测的步骤,包括:如果所述目标对象的属性为行人,对搜索库中的图片进行行人检测;如果所述目标对象的属性为交通工具,对搜索库中的图片进行交通工具检测。
根据本申请的另一个方面,提供一种图片特征提取装置,包括:特征融合模块,用于将当前图片输入预设的神经网络模型进行特征融合,得到所述神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图;池化模块,用于将所述第一类特征图和所述第二类特征图进行池化操作,得到所述第一类特征图对应的第一类特征子向量和所述第二类特征图对应的第二类特征子向量;向量拼接模块,用于将所述第一类特征子向量和所述第二类特征子向量进行向量拼接,得到所述当前图片的特征拼接向量;向量相乘模块,用于将所述特征拼接向量与预存的注意力向量逐点相乘,得到所述当前图片对应的特征向量;其中,所述注意力向量与所述特征拼接向量的长度一致。
在一些实施例中,所述神经网络模型为ResNet50残差网络模型,所述第一类特征图包括所述ResNet50残差网络模型的低卷积层组的最后卷积层输出的特征图,所述第二类特征图包括所述ResNet50残差网络模型的高卷积层组的最后卷积层输出的特征图。
在一些实施例中,所述池化模块还用于:将所述第一类特征图和所述第二类特征图进行均值池化操作或最大池化操作。
在一些实施例中,所述装置还包括:注意力向量生成模块,用于:应用图片样本的融合特征向量训练MLP多层感知器,得到权重向量;所述融合特征向量与所述权重向量的长度一致,且所述权重向量中的值为0-1之间的浮点值;根据所述权重向量生成注意力向量。
在一些实施例中,所述MLP多层感知器为沙漏型结构;所述MLP多层感知器包括:第一全连接层和第二全连接层;其中,第一全连接层的激活函数包括:RELU或Sigmoid函数,第二个全连接层的激活函数为:Sigmoid函数。
在一些实施例中,所述注意力向量生成模块还用于:将所述权重向量作为注意力向量;或者,对所述权重向量进行稀疏正则化操作,得到注意力向量。
在一些实施例中,所述神经网络模块为卷积神经网络PCB。
在一些实施例中,所述装置还包括:降维模块,用于对所述当前图片对应的特征向量进行降维操作,得到所述当前图片对应的低维特征向量。
在一些实施例中,所述降维模块还用于:将所述当前图片对应的特征向量输入预设的全连接层降维。
根据本申请的另一个方面,提供一种目标重识别装置,包括:第一特征提取模块,用于将索引图片输入预设的特征提取模型,得到索引特征向量;其中,所述特征提取模型预存有上一方面任一项所述装置对应的算法,所述索引图片为包含有目标对象的图片;第二特征提取模块,用于将搜索库中的目标图片分别输入所述特征提取模型,得到每个所述目标图片对应的目标特征向量;距离计算模块,用于计算所述索引特征向量与每个所述目标图片对应的目标特征向量之间的距离;结果确定模块,用于根据计算结果确定所述目标对象的重识别结果。
在一些实施例中,所述第一特征提取模块还用于:对搜索库中的图片进行实体对象检测,得到多个包含有所述实体对象的目标图片;其中,所述实体对象与所述目标对象的属性相同。
在一些实施例中,所述第一特征提取模块还用于:如果所述目标对象的属性为行人,对搜索库中的图片进行行人检测;如果所述目标对象的属性为交通工具,对搜索库中的图片进行交通工具检测。
根据本申请的另一个方面,提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如上述图片特征提取方法中的一个或多个方法的步骤或上述目标重识别方法中的一个或多个方法的步骤。
根据本申请的另一个方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述图片特征提取方法中的一个或多个方法的步骤或上述目标重识别方法中的一个或多个方法的步骤。
上述任一方面所述的图片特征提取方法和装置中,首先将当前图片输入预设的神经网络模型进行特征融合,得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图,其中,第一类特征图中包含有当前图片的低层特征信息,第二特征图中包含有当前图片的高层特征信息,将第一类特征图和第二类特征图进行池化操作和向量拼接,得到当前图片的特征拼接向量;该特征拼接向量中融合有上述高层特征信息和低层特征信息,进一步,再将该特征拼接向量与预存的注意力向量逐点相乘,得到当前图片对应的特征向量;该注意力向量与上述特征拼接向量的长度一致,且该注意力向量中有不同层特征的权重值,因此,不同层特征可以按重要性进行加权,使得到的特征向量的对当前图片的特征表达更加精准,从而提高后续图片重识别的准确率。
为使本申请实施例的上述目的、特征和优点能更明显易懂,下面将结合实施例,并配合所附附图,作详细说明。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种图片特征提取系统(或目标重识别系统)的框图;
图2示出了本申请实施例所提供的一种图片特征提取方法的流程图;
图3示出了本申请实施例所提供的一种图片特征提取的网络结构示意图;
图4示出了本申请实施例所提供的一种注意力向量形成过程的示意图;
图5示出了本申请实施例所提供的另一种图片特征提取的网络结构示意图;
图6示出了本申请实施例所提供的一种目标重识别方法的流程图;
图7示出了本申请实施例所提供的一种目标重识别过程的示意图;
图8示出了本申请实施例所提供的一种图片特征提取装置的结构示意图;
图9示出了本申请实施例所提供的另一种图片特征提取装置的结构示意图;
图10示出了本申请实施例所提供的一种目标重识别装置的结构示意图;
图11示出了本申请实施例所提供的一种电子设备的示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“交叉口监控场景”,给出以下实施方式。对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。虽然本申请主要围绕交叉口监控场景进行描述,但是应该理解,这仅是一个示例性实施例。本申请可以应用于任何有监控功能的场所或区域中的监控系统。例如,本申请可以应用于不同的图像识别场景,如警方嫌疑人识别系统、大数据图像分析平台系统等等。本申请的系统或方法的应用可以包括网页、浏览器的插件、客户端终端、定制系统、内部分析系统、或人工智能机器人等,或其任意组合。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
图1是本申请实施例提供的一种图片特征提取系统(或目标重识别系统)的框图。例如,图片特征提取系统(或目标重识别系统)可以包括服务器110、网络120、图像采集终端130、和数据库140中的一种或多种,服务器110中可以包括执行指令操作的处理器。
在一些实施例中,服务器110可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器110可以是分布式系统)。在一些实施例中,服务器110相对于终端,可以是本地的、也可以是远程的。例如,服务器110可以经由网络120访问存储在图像采集终端130(例如高空摄像头)、或数据库140、或其任意组合中的信息和/或数据。作为另一示例,服务器110可以直接连接到图像采集终端130、和数据库140中至少一个,以访问存储的信息和/或数据。在一些实施例中,服务器110可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等,或者它们的任意组合。
在一些实施例中,服务器110可以包括处理器。处理器可以处理与特征提取或目标重识别有关的信息和/或数据,以执行本申请中描述的一个或多个功能。例如,处理器可以基于从图像采集终端130获取的视频或图像进行分析。处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器112可以包括中央处理单元(Central Processor Unit,CPU)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、专用指令集处理器(Application Specific Instruction-setProcessor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等,或其任意组合。
网络120可以用于信息和/或数据的交换。在一些实施例中,图片特征提取系统(或目标重识别系统)中的一个或多个组件可以向其他组件发送信息和/或数据。在一些实施例中,网络120可以是任何类型的有线或者无线网络,或者是它们的结合。仅作为示例,网络120可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(LocalArea Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless LocalArea Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide AreaNetwork,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等,或其任意组合。在一些实施例中,网络120可以包括一个或多个网络接入点。例如,网络120可以包括有线或无线网络接入点,例如基站和/或网络交换节点,图片特征提取系统(或目标重识别系统)的一个或多个组件可以通过该接入点连接到网络120以交换数据和/或信息。
数据库140可以存储数据和/或指令。在一些实施例中,数据库140可以存储从图像采集终端130获得的数据。在一些实施例中,数据库140可以存储在本申请中描述的示例性方法的数据和/或指令。
基于上述系统,图2提供了一种图片特征提取方法的流程图,该方法可以应用于上述服务器中,该服务器可以是诸如交通监控平台系统中的服务器,其中,对图片所提取的特征可以用户目标重识别,也可以用来进行模型训练等。参见图2,该图片特征提取方法具体包括以下步骤:
步骤S202,将当前图片输入预设的神经网络模型进行特征融合,得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图。
上述当前图片可以是现有的图片,或者也可以是通过视频图像处理后所得到的图片,该图片中包含有目标对象,该目标对象可以是人也可以是物,比如犯罪嫌疑人、走失的老人或小孩、或者丢失的宠物、被盗的车辆或遗失物品。上述神经网络模型可以包括多种不同结构类型的神经网络,比如CNN卷积神经网络或者ResNet神经网络等,在此不做具体限定。在将当前图片输入预设的神经网络模型后,通过该神经网络模型进行高层特征信息和低层特征信息的特征融合。
具体实施中,上述神经网络模型包含有多个卷积层,不同卷积层对应的特征的作用不同,一般低层特征信息在简单模式上被激活,比如线段,颜色等。高层特征信息会被复杂的物体模式激活,比如物体的部件。通过神经网络的低卷积层输出的第一类特征图为含有低层特征信息的特征图,通过神经网络的高卷积层输出的第二类特征图为含有高层特征信息的特征图,其中,低卷积层和高卷积层的个数可以根据实际情况进行不同的设定。在本实施例中,可以将前预设个数的卷积层作为低卷积层,将除了前预设个数的卷积层外的多个卷积层(包括最后一层卷积层)作为高卷积层。因此,可以通过神经网络模型将当前图片中的不同层次的特征信息以多个不同类的特征图形式进行输出,其中,第一类特征图和第二类特征图的个数均可以为一个或多个。
步骤S204,将第一类特征图和第二类特征图进行池化操作,得到第一类特征图对应的第一类特征子向量和第二类特征图对应的第二类特征子向量。
在得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图之后,分别对第一类特征图和第二类特征图中包含的多个特征图进行池化操作,具体的池化方式可以是均值池化,也可以是最大池化。一般来说,特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。通过上述均值池化可以减小第一种误差,更多的保留图像的背景信息,通过上述最大池化能减小第二种误差,更多的保留纹理信息。此外,由于上述第一类特征图和第二类特征图中的多个特征图的大小不同,通过池化操作后还可以得到多个维数相同的第一类特征子向量和第二类特征子向量,方便后续进行向量拼接。
步骤S206,将第一类特征子向量和第二类特征子向量进行向量拼接,得到当前图片的特征拼接向量。
在得到上述多个维数相同的第一类特征子向量和第二类特征子向量后,进行向量拼接,拼接后的向量,即上述当前图片的特征拼接向量的长度为上述多个特征子向量的长度之和。
步骤S208,将特征拼接向量与预存的注意力向量逐点相乘,得到当前图片对应的特征向量;其中,注意力向量与特征拼接向量的长度一致。
在上述不同层特征进行融合时,如果只是简单将它们拼接在一起,那么每个滤波器的权重是一样的,进而使得提取的特征也不会特别精准,在此基础之上,本实施例采用通道注意力机制,将不同层的不同通道按照一定权重加权平均起来,从而使得更有用的通道得到加强,无用的通道得到抑制。另一个好处是,注意力权重是依赖于特征本身的,因此对于不同的图片,网络将产生不同的注意力,增加模型的灵活度。
具体实施时,预先存储有注意力向量,该注意力向量与特征拼接向量的长度一致,且注意力向量中包含有不同层特征的权重值,通过特征拼接向量与注意力向量逐点相乘,即可得到更加精准的当前图片的特征向量,从而提高后续图片重识别的精准率。
本申请所提供的图片特征提取方法中,首先将当前图片输入预设的神经网络模型进行特征融合,得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图,其中,第一类特征图中包含有当前图片的低层特征信息,第二特征图中包含有当前图片的高层特征信息,将第一类特征图和第二类特征图进行池化操作和向量拼接,得到当前图片的特征拼接向量;该特征拼接向量中融合有上述高层特征信息和低层特征信息,进一步,再将该特征拼接向量与预存的注意力向量逐点相乘,得到当前图片对应的特征向量;该注意力向量与上述特征拼接向量的长度一致,且该注意力向量中有不同层特征的权重值,因此,不同层特征可以按重要性进行加权,使得到的特征向量的对当前图片的特征表达更加精准,从而提高后续图片重识别的精准率。
为了清楚地说明本申请的方案,图3示出了一种图片特征提取的网络结构示意图,在本实施例中,神经网络模型为ResNet50残差网络模型,其中,第一类特征图包括ResNet50残差网络模型的低卷积层组的最后卷积层输出的特征图,第二类特征图包括ResNet50残差网络模型的高卷积层组的最后卷积层输出的特征图。
具体的,ResNet50残差网络模型中包括4个卷积层组,如layer1、layer2、layer3、layer4,layer1中包括3个block、layer2中包括4个block、layer3中包括6个block、layer4中包括3个block,每个block中包括三个卷积层,总共48个卷积层,本实施例中取后三个卷积层组layer2、layer3、layer4中的最后一个block中的最后一层卷积层,也就是三个卷积层进行特征图输出,如图中所示,通过上述三个卷积层输出的三个特征图分别为:layer2(C2,H2,W2)、layer3(C3,H3,W3)、layer4(C4,H4,W4),三个特征图中既包含有高层特征信息也包含有低层特征信息。其中,C为特征图的通道数,H为特征图的高,W为特征图的宽。
由于上述三个特征图layer2(C2,H2,W2)、layer3(C3,H3,W3)、layer4(C4,H4,W4)大小不同,因此,需要将其进行均值池化操作,得到三个一维特征子向量,进一步对三个一维特征子向量进行向量拼接,得到特征拼接向量,该特征拼接向量的向量长度为C2+C3+C4。
在上述将包含不同层特征信息的三个特征图进行融合时,若只是简单将它们的特征子向量拼接在一起,而每个特征子向量的权重是一样的,这样可能会导致提取的特征仍然不够精准,在此基础之上,本申请提供了一种注意力向量形成过程,该注意力向量与上述特征拼接向量的长度一致,且该注意力向量中有不同层特征的权重值,因此,不同层特征可以按重要性进行加权,使得到的特征向量的对当前图片的特征表达更加精准,从而提高后续图片重识别的精准率。
图4示出了本实施例所提供的一种注意力向量形成过程的示意图,图中,注意力层由MLP多层感知器来实现,MLP多层感知器为沙漏型结构;MLP多层感知器包括:第一全连接层和第二全连接层;其中,第一全连接层的激活函数包括:RELU或Sigmoid函数,第二个全连接层的激活函数为:Sigmoid函数。降维比率在本实施例中采用r=16,也可以调整为别的数值。图中d表示注意力向量的长度,结合上述实例,d=C2+C3+C4。
具体的,应用图片样本的融合特征向量训练MLP多层感知器,得到权重向量;融合特征向量与权重向量的长度一致,且权重向量中的值为0-1之间的浮点值;根据权重向量生成注意力向量。
其中,图片样本为与当前图片中的目标对象同一属性的图片集合,该图片样本中的每张图片分别输入到上述神经网络模型中,并通过池化和向量拼接操作后,输出每张图片对应的特征拼接向量,也就是上述融合特征向量,利用这多张图片对应的多个融合特征向量训练上述MLP多层感知器,得到权重向量,该权重向量的长度和上述融合特征向量的长度一致,且通过第二全连接层的激活函数Sigmoid函数激活后,输出的权重向量的值均为0-1之间的浮点值。
上述沙漏结构的MLP多层感知器有去噪的效果,通过多屋感知器训练得到权重值,进而生成注意力向量,使得到的向量对应的权重值更加精准。
需要说明的是,本实施例中的注意力训练模型可以采用更多全连接层的MLP,但是一般的MLP随全连接层层数增加训练会更加困难,而层数太少又会影响表达能力,因此选择两到三个全连接层的训练效果比较好。
上述根据权重向量生成注意力向量的步骤包括:
将权重向量作为注意力向量;或者,对权重向量进行稀疏正则化操作,得到注意力向量。
具体实施中,对上述权重向量进行稀疏正则化,可以防止其形成均匀分布,使得所有不同层特征信息的重要性都一样,假设得到的注意力向量为A,则在如图3所示的分类器的损失函数中加入一项γ||A||1,γ控制该项的比重,本实施例中采用0.001,||A||1=∑iAi是向量A的L-1范数,这样即可对权重向量进行稀疏正则化。
如图4中所示,最左边为上述特征拼接向量,其长度为d,d=C2+C3+C4,通过上述方式训练得到的注意力向量的长度也是d,二者逐点相乘之后,得到当前图片的特征向量的长度还是d。也就是特征拼接向量经过注意力层后输出当前图片的特征向量。
此外,为了提高分类效率,上述图片特征提取方法还可以包括以下步骤:
对当前图片对应的特征向量进行降维操作,得到当前图片对应的低维特征向量,具体的,如图3所示,将当前图片对应的特征向量输入预设的全连接层,以使全连接层输出低维特征向量,从而减少分类参数,提高分类效率。
另外,上述特征提取方法还可以应用在特殊的神经网络上,从而实现不同的效果,比如,上述神经网络模块还可以为卷积神经网络PCB(Part Convolutional Baseline)。卷积神经网络PCB是目前ReID技术中一种简单而有效的网络结构处理手段。图5示出了本实施例所提供的另一种图片特征提取的网络结构示意图,其中,三个特征图layer2(C2,H2,W2)、layer3(C3,H3,W3)、layer4(C4,H4,W4)中,每一个特征图对应三个部件,对每层特征图,首先进行池化操作,得到三个部件分别对应的部件特征子向量。对不同层的同一个部件,池化得到的部件特征子向量拼接起来进行注意力向量逐点相乘操作,同样可以提高特征提取的精准度。
上述图片特征提取方法可以通过一个特征提取模型来实现,进而在这个特征提取模型的基础上,再结合搜索库等可以实现目标对象的重识别程。如图6示出了本申请所提供的一种目标重识别方法,该方法同样可以应用于上述服务器中,该服务器可以是诸如交通监控平台系统中的服务器,具体包括以下步骤:
步骤S502,将索引图片输入预设的特征提取模型,得到索引特征向量。
其中,特征提取模型预存有上述实施例所提供的图片特征提取方法对应的算法,索引图片为包含有目标对象的图片。比如,目标对象为人,则索引图片中包含有人,目标对象为宠物狗,则索引图片中包含有宠物狗。
在具体实施中,首先将索引图片输入到上述特征提取模型中,该特征提取模型可以实现如上述实施例所述的图片特征提取方法,通过该特征提取模型得到索引图片对应的索引特征向量。
步骤S504,将搜索库中的目标图片分别输入特征提取模型,得到每个目标图片对应的目标特征向量。
上述搜索库中的目标图片与索引图片中所包含的目标对象为同一属性,将搜索库中的大量目标图片输入上述特征提取模型中,通过该特征提取模型输出多个目标图片对应的目标特征向量。
步骤S506,计算索引特征向量与每个目标图片对应的目标特征向量之间的距离。
在得到上述索引图片对应的索引特征向量和目标图片对应的目标特征向量后,进一步计算计算索引特征向量与每个目标图片对应的目标特征向量之间的距离。
步骤S508,根据计算结果确定目标对象的重识别结果。
基于上述距离的计算结果即可确定目标对象的重识别结果。
本实施例所提供的目标重识别方法中包含有与上述图片特征提取方法相同的技术特征,因此,同样可以提升特征提取精准度,进一步提高目标重识别准确率。
图7示出了本申请实施例所提供的一种目标重识别过程的示意图,如图所示,首先通过实体检测模块,对搜索库中的大量图片进行实体对象检测,得到与索引图片对应的目标图片,如果目标对象的属性为行人,对搜索库中的图片进行行人检测;如果目标对象的属性为交通工具,对搜索库中的图片进行交通工具检测。最终得到的目标图片中包含有实体对象,而该实体对象与目标对象的属性相同。进一步,通过特征提取模型分别对输入的索引图片和目标图片进行特征提取,得到多个图片特征,即特征向量,然后计算索引图片对应的特征向量和多个目标图片对应的特征向量的距离,根据多个距离值进行排序,基于排序结果得到最终的目标对象的重识别结果。本实施例所提供的目标重识别方法可以针对不同属性的对象,进行不同的实体检测,并进行不同的目标对象重识别,且识别准确度高。
图8示出了本申请实施例提供的一种图片特征提取装置的框图,该图片特征提取装置实现的功能对应上述图片特征提取方法执行的步骤。该图片特征提取装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图8所示,图片特征提取装置具体包括:特征融合模块602、池化模块604、向量拼接模块606和向量相乘模块608。
其中,特征融合模块602,用于将当前图片输入预设的神经网络模型进行特征融合,得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图;池化模块604,用于将第一类特征图和第二类特征图进行池化操作,得到第一类特征图对应的第一类特征子向量和第二类特征图对应的第二类特征子向量;向量拼接模块606,用于将第一类特征子向量和第二类特征子向量进行向量拼接,得到当前图片的特征拼接向量;向量相乘模块608,用于将特征拼接向量与预存的注意力向量逐点相乘,得到当前图片对应的特征向量;其中,注意力向量与特征拼接向量的长度一致。
本申请所提供的图片特征提取装置中,首先将当前图片输入预设的神经网络模型进行特征融合,得到神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图,其中,第一类特征图中包含有当前图片的低层特征信息,第二特征图中包含有当前图片的高层特征信息,将第一类特征图和第二类特征图进行池化操作和向量拼接,得到当前图片的特征拼接向量;该特征拼接向量中融合有上述高层特征信息和低层特征信息,进一步,再将该特征拼接向量与预存的注意力向量逐点相乘,得到当前图片对应的特征向量;该注意力向量与上述特征拼接向量的长度一致,且该注意力向量中有不同层特征的权重值,因此,不同层特征可以按重要性进行加权,使得到的特征向量的对当前图片的特征表达更加精准,从而提高后续图片重识别的精准率。
图9示出了本申请实施例所提供的另一种图片特征提取装置的框图,该图片特征提取装置中除了包括与上一实施例所提供的装置类似的:特征融合模块702、池化模块704、向量拼接模块706和向量相乘模块708外,还包括:注意力向量生成模块710和降维模块712。
其中,注意力向量生成模块710用于:应用图片样本的融合特征向量训练MLP多层感知器,得到权重向量;融合特征向量与权重向量的长度一致,且权重向量中的值为0-1之间的浮点值;根据权重向量生成注意力向量。降维模块712,用于对当前图片对应的特征向量进行降维操作,得到当前图片对应的低维特征向量。
在一些实施例中,上述MLP多层感知器为沙漏型结构;MLP多层感知器包括:第一全连接层和第二全连接层;其中,第一全连接层的激活函数包括:RELU或Sigmoid函数,第二个全连接层的激活函数为:Sigmoid函数。
在一些实施例中,上述注意力向量生成模块710还用于:将权重向量作为注意力向量;或者,对权重向量进行稀疏正则化操作,得到注意力向量。
在一些实施例中,上述降维模块712还用于:将当前图片对应的特征向量输入预设的全连接层降维。
在一些实施例中,上述神经网络模型为ResNet50残差网络模型,第一类特征图包括ResNet50残差网络模型的低卷积层组的最后卷积层输出的特征图,第二类特征图包括ResNet50残差网络模型的高卷积层组的最后卷积层输出的特征图。
在一些实施例中,上述池化模块704还用于:将第一类特征图和第二类特征图进行均值池化操作或最大池化操作。
在一些实施例中,上述神经网络模块为卷积神经网络PCB。
图10示出了本申请实施例提供的一种目标重识别装置的框图,该目标重识别装置实现的功能对应上述目标重识别方法执行的步骤,该装置可以理解为上述服务器,或服务器的处理器,也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件,如图10所示,包括:第一特征提取模块802、第二特征提取模块804、距离计算模块806和结果确定模块808。
其中,第一特征提取模块802,用于将索引图片输入预设的特征提取模型,得到索引特征向量;其中,特征提取模型预存有图6或图7所示的图片特征提取装置对应的算法,索引图片为包含有目标对象的图片;第二特征提取模块804,用于将搜索库中的目标图片分别输入特征提取模型,得到每个目标图片对应的目标特征向量;距离计算模块806,用于计算索引特征向量与每个目标图片对应的目标特征向量之间的距离;结果确定模块808,用于根据计算结果确定目标对象的重识别结果。
本实施例所提供的目标重识别装置中包含有与上述图片特征提取装置相同的技术特征,因此,可以实现相同的功能,可以提升特征提取精准度,进一步提高目标重识别准确率。
在一些实施例中,上述所述第一特征提取模块802还用于:对搜索库中的图片进行实体对象检测,得到多个包含有实体对象的目标图片;其中,实体对象与目标对象的属性相同。
在一些实施例中,上述所述第一特征提取模块802还用于:如果目标对象的属性为行人,对搜索库中的图片进行行人检测;如果目标对象的属性为交通工具,对搜索库中的图片进行交通工具检测。
上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等,或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接,或其任意组合。两个或更多个模块可以组合为单个模块,并且任何一个模块可以分成两个或更多个单元。
为便于理解,图11示出根据本申请的一些实施例的可以实现本申请思想的电子设备900的示例性硬件和软件组件的示意图。例如,处理器920可以用于电子设备900上,并且用于执行本申请中的功能。
电子设备900可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的异常行驶行为的识别方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备900可以包括连接到网络的网络端口910、用于执行程序指令的一个或多个处理器920、通信总线930和不同形式的存储介质940,例如,磁盘、ROM或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM或其他类型的非暂时性存储介质或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备900还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口950。
为了便于说明,在电子设备900中仅描述了一个处理器。然而,应当注意,本申请中的电子设备900还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备900的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述任一的图片特征提取方法或任一目标重识别方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考方法实施例中的对应过程,本申请中不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
另外,在本申请实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (26)
1.一种图片特征提取方法,其特征在于,包括:
将当前图片输入预设的神经网络模型进行特征融合,得到所述神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图;特征融合过程中,按照卷积层从低到高的顺序,上一个卷积层的输出作为下一个卷积层的输入;
将所述第一类特征图和所述第二类特征图进行池化操作,得到所述第一类特征图对应的第一类特征子向量和所述第二类特征图对应的第二类特征子向量;
将所述第一类特征子向量和所述第二类特征子向量进行向量拼接,得到所述当前图片的特征拼接向量;
将所述特征拼接向量与预存的注意力向量逐点相乘,得到所述当前图片对应的特征向量;其中,所述注意力向量与所述特征拼接向量的长度一致;所述注意力向量基于与当前图片中的目标对象同一属性的图片集合训练 MLP 多层感知器得到的能够表征该种属性图片不同层特征重要性的权重向量而确定。
2.根据权利要求1所述的方法,其特征在于,所述神经网络模型为ResNet50残差网络模型,所述第一类特征图包括所述ResNet50残差网络模型的低卷积层组的最后卷积层输出的特征图,所述第二类特征图包括所述ResNet50残差网络模型的高卷积层组的最后卷积层输出的特征图。
3.根据权利要求1所述的方法,其特征在于,将所述第一类特征图和所述第二类特征图进行池化操作的步骤,包括:将所述第一类特征图和所述第二类特征图进行均值池化操作或最大池化操作。
4.根据权利要求1所述的方法,其特征在于,所述注意力向量通过以下方式得到:
应用图片样本的融合特征向量训练MLP多层感知器,得到权重向量;所述融合特征向量与所述权重向量的长度一致,且所述权重向量中的值为0-1之间的浮点值;所述图片样本为与所述当前图片中的目标对象具有同一属性的图片集合;所述融合特征向量包括:所述图片样本中的每个图片输入至所述神经网络模型中,并通过池化和向量拼接操作后,输出的每个图片的特征拼接向量;
根据所述权重向量生成注意力向量。
5.根据权利要求4所述的方法,其特征在于,所述MLP多层感知器为沙漏型结构;所述MLP多层感知器包括:第一全连接层和第二全连接层;其中,第一全连接层的激活函数包括:RELU或Sigmoid函数,第二个全连接层的激活函数为:Sigmoid函数。
6.根据权利要求4所述的方法,其特征在于,根据所述权重向量生成注意力向量的步骤,包括:
将所述权重向量作为注意力向量;或者,对所述权重向量进行稀疏正则化操作,得到注意力向量。
7.根据权利要求1所述的方法,其特征在于,所述神经网络模块为卷积神经网络PCB。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述当前图片对应的特征向量进行降维操作,得到所述当前图片对应的低维特征向量。
9.根据权利要求8所述的方法,其特征在于,所述对所述当前图片对应的特征向量进行降维操作的步骤,包括:将所述当前图片对应的特征向量输入预设的全连接层降维。
10.一种目标重识别方法,其特征在于,包括:
将索引图片输入预设的特征提取模型,得到索引特征向量;其中,所述特征提取模型用于执行如权利要求1-9任一项所述方法对应的算法,所述索引图片为包含有目标对象的图片;
将搜索库中的目标图片分别输入所述特征提取模型,得到每个所述目标图片对应的目标特征向量;
计算所述索引特征向量与每个所述目标图片对应的目标特征向量之间的距离;
根据计算结果确定所述目标对象的重识别结果。
11.根据权利要求10所述的方法,其特征在于,将搜索库中的目标图片分别输入所述特征提取模型的步骤,包括:
对搜索库中的图片进行实体对象检测,得到多个包含有所述实体对象的目标图片;其中,所述实体对象与所述目标对象的属性相同。
12.根据权利要求11所述的方法,其特征在于,对搜索库中的图片进行实体对象检测的步骤,包括:
如果所述目标对象的属性为行人,对搜索库中的图片进行行人检测;
如果所述目标对象的属性为交通工具,对搜索库中的图片进行交通工具检测。
13.一种图片特征提取装置,其特征在于,包括:
特征融合模块,用于将当前图片输入预设的神经网络模型进行特征融合,得到所述神经网络模型的低卷积层输出的第一类特征图和高卷积层输出的第二类特征图;
池化模块,用于将所述第一类特征图和所述第二类特征图进行池化操作,得到所述第一类特征图对应的第一类特征子向量和所述第二类特征图对应的第二类特征子向量;特征融合过程中,按照卷积层从低到高的顺序,上一个卷积层的输出作为下一个卷积层的输入;
向量拼接模块,用于将所述第一类特征子向量和所述第二类特征子向量进行向量拼接,得到所述当前图片的特征拼接向量;
向量相乘模块,用于将所述特征拼接向量与预存的注意力向量逐点相乘,得到所述当前图片对应的特征向量;其中,所述注意力向量与所述特征拼接向量的长度一致;所述注意力向量基于与当前图片中的目标对象同一属性的图片集合训练 MLP 多层感知器得到的能够表征该种属性图片不同层特征重要性的权重向量而确定。
14.根据权利要求13所述的装置,其特征在于,所述神经网络模型为ResNet50残差网络模型,所述第一类特征图包括所述ResNet50残差网络模型的低卷积层组的最后卷积层输出的特征图,所述第二类特征图包括所述ResNet50残差网络模型的高卷积层组的最后卷积层输出的特征图。
15.根据权利要求13所述的装置,其特征在于,所述池化模块还用于:将所述第一类特征图和所述第二类特征图进行均值池化操作或最大池化操作。
16.根据权利要求13所述的装置,其特征在于,所述装置还包括:注意力向量生成模块,用于:
应用图片样本的融合特征向量训练MLP多层感知器,得到权重向量;所述融合特征向量与所述权重向量的长度一致,且所述权重向量中的值为0-1之间的浮点值;所述图片样本为与所述当前图片中的目标对象具有同一属性的图片集合;所述融合特征向量包括:所述图片样本中的每个图片输入至所述神经网络模型中,并通过池化和向量拼接操作后,输出的每个图片的特征拼接向量;
根据所述权重向量生成注意力向量。
17.根据权利要求16所述的装置,其特征在于,所述MLP多层感知器为沙漏型结构;所述MLP多层感知器包括:第一全连接层和第二全连接层;其中,第一全连接层的激活函数包括:RELU或Sigmoid函数,第二个全连接层的激活函数为:Sigmoid函数。
18.根据权利要求16所述的装置,其特征在于,所述注意力向量生成模块还用于:
将所述权重向量作为注意力向量;或者,对所述权重向量进行稀疏正则化操作,得到注意力向量。
19.根据权利要求13所述的装置,其特征在于,所述神经网络模块为卷积神经网络PCB。
20.根据权利要求13所述的装置,其特征在于,所述装置还包括:
降维模块,用于对所述当前图片对应的特征向量进行降维操作,得到所述当前图片对应的低维特征向量。
21.根据权利要求20所述的装置,其特征在于,所述降维模块还用于:将所述当前图片对应的特征向量输入预设的全连接层降维。
22.一种目标重识别装置,其特征在于,包括:
第一特征提取模块,用于将索引图片输入预设的特征提取模型,得到索引特征向量;其中,所述特征提取模型用于执行如权利要求13-21任一项所述装置对应的算法,所述索引图片为包含有目标对象的图片;
第二特征提取模块,用于将搜索库中的目标图片分别输入所述特征提取模型,得到每个所述目标图片对应的目标特征向量;
距离计算模块,用于计算所述索引特征向量与每个所述目标图片对应的目标特征向量之间的距离;
结果确定模块,用于根据计算结果确定所述目标对象的重识别结果。
23.根据权利要求22所述的装置,其特征在于,所述第一特征提取模块还用于:
对搜索库中的图片进行实体对象检测,得到多个包含有所述实体对象的目标图片;其中,所述实体对象与所述目标对象的属性相同。
24.根据权利要求23所述的装置,其特征在于,所述第一特征提取模块还用于:
如果所述目标对象的属性为行人,对搜索库中的图片进行行人检测;
如果所述目标对象的属性为交通工具,对搜索库中的图片进行交通工具检测。
25.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至9任一所述的图片特征提取方法或权利要求10-12任一项所述的目标重识别方法的步骤。
26.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的图片特征提取方法或权利要求10-12任一项所述的目标重识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811513084.3A CN111310518B (zh) | 2018-12-11 | 2018-12-11 | 图片特征提取方法、目标重识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811513084.3A CN111310518B (zh) | 2018-12-11 | 2018-12-11 | 图片特征提取方法、目标重识别方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310518A CN111310518A (zh) | 2020-06-19 |
CN111310518B true CN111310518B (zh) | 2023-12-08 |
Family
ID=71148562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811513084.3A Active CN111310518B (zh) | 2018-12-11 | 2018-12-11 | 图片特征提取方法、目标重识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310518B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070079B (zh) * | 2020-07-24 | 2022-07-05 | 华南理工大学 | 基于特征图重赋权的x光违禁品包裹检测方法及装置 |
CN112069841B (zh) * | 2020-07-24 | 2022-07-05 | 华南理工大学 | X光违禁品包裹跟踪方法及装置 |
CN112052917A (zh) * | 2020-10-22 | 2020-12-08 | 上海明略人工智能(集团)有限公司 | 一种图像分类方法、系统、电子设备及存储介质 |
CN112612913A (zh) * | 2020-12-28 | 2021-04-06 | 厦门市美亚柏科信息股份有限公司 | 一种用于图像的搜索方法和系统 |
CN113723366B (zh) * | 2021-10-25 | 2022-03-25 | 山东力聚机器人科技股份有限公司 | 一种行人重识别方法、装置及计算机设备 |
CN114120034A (zh) * | 2021-11-15 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 一种图像分类方法、装置、电子设备及存储介质 |
CN114239754B (zh) * | 2022-02-24 | 2022-05-03 | 中国科学院自动化研究所 | 基于属性特征学习解耦的行人属性识别方法及系统 |
CN116385771A (zh) * | 2023-02-24 | 2023-07-04 | 华为技术有限公司 | 图像处理方法、装置和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN108229580A (zh) * | 2018-01-26 | 2018-06-29 | 浙江大学 | 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置 |
CN108304847A (zh) * | 2017-11-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像分类方法及装置、个性化推荐方法及装置 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10459928B2 (en) * | 2016-12-14 | 2019-10-29 | Microsoft Technology Licensing, Llc | Dynamic tensor attention for information retrieval scoring |
-
2018
- 2018-12-11 CN CN201811513084.3A patent/CN111310518B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107832672A (zh) * | 2017-10-12 | 2018-03-23 | 北京航空航天大学 | 一种利用姿态信息设计多损失函数的行人重识别方法 |
CN108304847A (zh) * | 2017-11-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 图像分类方法及装置、个性化推荐方法及装置 |
CN108229580A (zh) * | 2018-01-26 | 2018-06-29 | 浙江大学 | 一种基于注意力机制及特征融合的眼底图中糖网特征分级装置 |
CN108875807A (zh) * | 2018-05-31 | 2018-11-23 | 陕西师范大学 | 一种基于多注意力多尺度的图像描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111310518A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310518B (zh) | 图片特征提取方法、目标重识别方法、装置及电子设备 | |
US11200424B2 (en) | Space-time memory network for locating target object in video content | |
CN109816009B (zh) | 基于图卷积的多标签图像分类方法、装置及设备 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
US20190171935A1 (en) | Robust gradient weight compression schemes for deep learning applications | |
CN110276406B (zh) | 表情分类方法、装置、计算机设备及存储介质 | |
CN110245579B (zh) | 人流密度预测方法及装置、计算机设备及可读介质 | |
CN113095346A (zh) | 数据标注的方法以及数据标注的装置 | |
CN109033107A (zh) | 图像检索方法和装置、计算机设备和存储介质 | |
CN108389172B (zh) | 用于生成信息的方法和装置 | |
CN111444370A (zh) | 图像检索方法、装置、设备及其存储介质 | |
CN110246148A (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN111507262B (zh) | 用于检测活体的方法和装置 | |
CN112330684A (zh) | 对象分割方法、装置、计算机设备及存储介质 | |
GB2579262A (en) | Space-time memory network for locating target object in video content | |
CN115601692A (zh) | 数据处理方法、神经网络模型的训练方法及装置 | |
CN112802076A (zh) | 反射图像生成模型及反射去除模型的训练方法 | |
CN110349138A (zh) | 基于实例分割框架的目标物体的检测方法及装置 | |
CN110457992A (zh) | 基于贝叶斯优化技术的行人重识别方法、装置和系统 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN114565092A (zh) | 一种神经网络结构确定方法及其装置 | |
CN110503600B (zh) | 特征点检测方法、装置、电子设备和可读存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN112132867B (zh) | 一种遥感影像变化检测方法及装置 | |
CN112418256A (zh) | 分类、模型训练、信息搜索方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |