CN114038052A - 行人重识别方法及系统 - Google Patents
行人重识别方法及系统 Download PDFInfo
- Publication number
- CN114038052A CN114038052A CN202111121648.0A CN202111121648A CN114038052A CN 114038052 A CN114038052 A CN 114038052A CN 202111121648 A CN202111121648 A CN 202111121648A CN 114038052 A CN114038052 A CN 114038052A
- Authority
- CN
- China
- Prior art keywords
- feature
- pedestrian
- global
- feature map
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 239000013598 vector Substances 0.000 claims abstract description 274
- 238000000605 extraction Methods 0.000 claims abstract description 174
- 238000011176 pooling Methods 0.000 claims description 123
- 230000006870 function Effects 0.000 claims description 81
- 238000012549 training Methods 0.000 claims description 67
- 238000012545 processing Methods 0.000 claims description 36
- 238000010606 normalization Methods 0.000 claims description 27
- 230000003044 adaptive effect Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 235000019580 granularity Nutrition 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 12
- 238000012360 testing method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000013215 result calculation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 235000019587 texture Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种行人重识别方法及系统,该方法包括:确定待识别行人图像;将待识别行人图像输入至特征提取模型,得到特征提取模型输出的全局特征向量和局部特征向量;对全局特征向量和局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;并基于完整特征表达,将待识别行人图像与预设图像库中的行人图像进行匹配,确定待识别行人图像的行人重识别结果;其中,局部特征向量包括特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量。该方法进行了全局特征向量和局部特征向量等多维特征的提取,并利用待识别行人图像的宏观全局特征与微观局部特征进行行人重识别,把控整体与细节,提高了行人重识别的准确率。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种行人重识别方法及系统。
背景技术
随着城市人口密集度和人口出行频率的提升,监控系统变得越来越普及。但随着摄像头的普及以及数据量的扩增,迫切需要监控系统能够进行智能化操作,即自动进行行人的检测、身份鉴定与轨迹跟踪,在这些需求的基础上,行人重识别技术(Person Re-Identification,ReID)得到了充分的发展。
行人重识别也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别被广泛认为是一个图像检索的子问题,给定一个监控行人图像,检索跨设备下的该行人图像。行人重识别技术,作为人脸识别技术的重要补充,能够充分利用城市中的摄像头完成身份匹配,在此基础上可以得到行人运动轨迹,在安检、寻人、智能商业等领域有着重要的意义,可广泛应用于智能视频监控、智能安保、智慧等领域。
目前,由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受光照、穿着、尺度、遮挡、姿态和视角等影响,使现有的行人重识模型的重识别准确率不高。
发明内容
本发明提供一种行人重识别方法及系统,用以解决现有技术中行人重识别方法的重识别准确率不高的缺陷,实现以较高的准确率实现行人重识别。
本发明提供一种行人重识别方法,包括:
确定待识别行人图像;
将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;
对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;
基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;
其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
根据本发明提供的一种行人重识别方法,所述将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量,具体包括:
将所述待识别行人图像输入至所述特征提取模型的骨干网络,得到所述骨干网络提取的特征图;
将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图;
将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图;
将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的不同分割粒度的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量。
根据本发明提供的一种行人重识别方法,所述局部残差卷积层包括第一局部残差卷积层、第二局部残差卷积层以及第三局部残差卷积层;相应地,所述将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图,具体包括:
将所述特征图输入至所述全局残差卷积层,得到所述全局残差卷积层输出的全局特征图;
将所述特征图输入至所述第一局部残差卷积层,由所述第一局部残差卷积层对所述特征图进行特征提取,得到第一可分割特征图,;
将所述特征图输入至所述第二局部残差卷积层,由所述第二局部残差卷积层对所述特征图进行特征提取,得到第二可分割特征图,;
将所述特征图输入至所述第三局部残差卷积层,由所述第三局部残差卷积层对所述特征图进行特征提取,得到第三可分割特征图。
根据本发明提供的一种行人重识别方法,所述将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图,具体包括:
将所述全局特征图、所述第一可分割特征图和所述第二可分割特征图分别进行卷积运算,生成对应的特征矩阵,并将所述特征矩阵进行规范化处理,得到所述特征矩阵对应的空间注意力矩阵;
将所述第三可分割特征图进行最大池化处理,生成池化向量,将所述池化向量进行线性变换运算,并将线性变换后的池化向量进行规范化处理,得到所述池化向量对应的深度注意力向量;
将所述空间注意力矩阵与对应的所述全局特征图、所述第一可分割特征图和所述第二可分割特征图中每个维度对应的特征矩阵分别进行对应位相乘,得到所述全局重定位特征图、第一可分割重定位特征图以及第二可分割重定位特征图;
将所述深度注意力向量与所述第三可分割特征图中每个像素点对应的特征向量进行对应位相乘,得到第三可分割重定位特征图。
根据本发明提供的一种行人重识别方法,所述将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量,具体包括:
将所述全局重定位特征图以及各可分割重定位特征图输入至第一类池化卷积层的池化层,得到四个全局特征向量;
将所述第一可分割重定位特征图沿图像垂直方向划分成两部分,分别输入至第二类池化卷积层的池化层,进行池化操作,得到两个局部特征向量;
将所述第二可分割重定位特征图沿图像的垂直方向划分成三部分,分别输入至第三类池化卷积层的池化层,进行池化操作,得到三个局部特征向量;
将所述第三可分割重定位特征图沿图像的深度方向划分成四部分,分别输入至第四类池化卷积层的池化层,进行池化操作,得到四个局部特征向量;
将各全局特征向量和各局部特征向量分别输入至各类池化卷积层的卷积层,进行维度变换,得到相同维度的全局特征向量和局部特征向量。
根据本发明提供的一种行人重识别方法,所述特征提取模型基于以下方法训练得到:
将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除重定位层外的基础结构进行训练;所述基础结构包括骨干网络、全局残差卷积层、局部残差卷积层、池化卷积层以及全连接层;
基于训练后的基础结构,对所述待训练特征提取模型中的重定位层进行训练,得到所述特征提取模型。
根据本发明提供的一种行人重识别方法,所述预设损失函数包括三元组损失函数和交叉熵损失函数;
相应地,所述将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除重定位层外的基础结构进行训练,具体包括:
将所述行人图像依次输入至所述骨干网络、所述全局残差卷积层、所述局部残差卷积层以及池化卷积层,得到四个全局特征向量和九个局部特征向量,并将各全局特征向量和各局部特征向量输入至所述全连接层,对所述全连接层的输出进行归一化处理;
基于各全局特征向量,计算所述三元组损失函数的取值,并基于归一化处理的结果,计算所述交叉熵损失函数的取值;
将所述三元组损失函数的取值和所述交叉熵损失函数的取值进行求和,得到所述预设损失函数的取值,并基于所述预设损失函数的取值以及所述自适应矩估计算法,对所述基础结构进行训练。
本发明还提供一种行人重识别系统,包括:
行人图像确定模块,用于确定待识别行人图像;
特征向量确定模块,用于将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;
特征拼接融合模块,用于对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;
行人重识别模块,用于基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;
其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述行人重识别方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述行人重识别方法的步骤。
本发明提供的行人重识别方法及系统,通过特征提取模型获取待识别行人图像的全局特征向量和局部特征向量,再对全局特征向量和局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;并基于完整特征表达,将待识别行人图像与预设图像库中的行人图像进行匹配,确定待识别行人图像的行人重识别结果。其中,局部特征向量包括特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量。该方法进行了全局特征向量和局部特征向量等多维特征的提取,并利用待识别行人图像的宏观全局特征与微观局部特征进行行人重识别,把控整体与细节,提高了行人重识别的准确率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的行人重识别方法的流程示意图;
图2是本发明实施例提供的特征提取模型的结构示意图;
图3是本发明实施例中对特征提取模型的基础结构的训练流程示意图;
图4是本发明实施例中对特征提取模型的重定位层的训练流程示意图;
图5是本发明实施例提供的行人重识别系统的结构示意图
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受光照、穿着、尺度、遮挡、姿态和视角等影响,使现有的行人重识模型识别的准确率不高,因此,本发明提供一种行人重识别方法。
图1是本发明实施例提供的行人重识别方法流程示意图,如图1所示,该方法包括:
S1,确定待识别行人图像;
S2,将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;
S3,对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;
S4,基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;
其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
具体地,本发明实施例中提供的行人重识别方法,其执行主体为服务器,该服务器可以是本地服务器,也可以是云端服务器,本地服务器具体可以是计算机、平板电脑以及智能手机等,本发明实施例中对此不作具体限定。
首先执行步骤S1。确定待识别行人图像。待识别行人图像可以是任意的摄像头采集的任意行人图像,也可以是开源的数据集中的行人图像。其中开源的数据集可以是Market 1501数据集、DukeMTMC数据集或MSMT17数据集等,本发明实施例对待识别行人图像的来源、分辨率等不作具体限定。
然后执行步骤S2。将待识别行人图像输入至特征提取模型,可以得到特征提取模型输出的待识别行人图像的全局特征向量和局部特征向量。其中,特征提取模型的作用是对待识别行人图像进行特征提取,特征提取是指提取待识别行人图像中属于特征性信息的过程。特征提取模型可以是卷积神经网络(Convolutional Neural Networks,CNN)模型或其他能够提取待识别行人图像的全局特征向量和局部特征向量的特征提取模型。
特征提取模型可以包括重定位层,通过该重定位层,可以对特征提取模型确定的特征图进行空间层面及深度层面的注意力运算。空间层面是指宽度(w)*高度(h)的二维空间层面,深度层面即为深度方向层面。
特征提取模型是基于携带有行人标签的行人图像分两个阶段训练得到的。具体可以通过如下方式训练得到特征提取模型:首先,收集大量行人图像,并在行人图像上进行标注,也即是使行人图像携带行人标签。随即,基于携带有行人标签的行人图像训练初始模型中除重定位层外的基础结构,然后再训练重定位层,从而得到特征提取模型。
由于行人重识别是给定一个监控行人图像,检索跨设备下的该行人图像,因此行人图像需要包括不同设备采集的、且包含有同一行人的多张不同行人图像。
全局特征向量用于表征待识别行人图像的全局特征,全局特征是指待识别行人图像的整体属性,常见的全局特征包括颜色特征、纹理特征和形状特征,比如强度直方图等。
局部特征向量用于表征待识别行人图像的局部特征,局部特征是指待识别行人图像的局部属性,即使用一些最有代表性的、稳定的特征点去代表物体,因此在有局部遮挡或者仿射变换的时候仍然能很好的还原待识别行人图像的整体信息。
其中,局部特征向量可以包括特征提取模型确定的特征图在垂直方向以及深度方向上的多个局部特征向量。垂直方向是指特征图的纵向方向,深度方向是指特征图的通道(channel)方向。本发明实施例中,局部特征向量的数量可以是两个或两个以上。
然后执行步骤S3,在得到全局特征向量和局部特征向量后,可以将全局特征向量和局部特征向量串接起来,以实现拼接融合,并得到待识别行人图像对应的完整特征表达。
最后执行步骤S4,根据步骤S3得到的待识别行人图像对应的完整特征表达,将待识别行人图像和预设图像库中的行人图像进行匹配,最终确定待识别行人图像的行人重识别结果。
其中,可以基于重排序(Re-ranking)的方法对待识别行人图像和预设图像库中的行人图像进行匹配。匹配的具体方法可以是k个相互近邻编码方法,基于待识别行人图像的输出特征向量与预设图像库中的行人图像的输出特征向量进行距离计算,计算马氏距离和杰卡德距离,然后对这两个距离加权求和,获得最终的距离,距离越近代表相似度越高。并且输出的待识别行人图像的行人重识别结果按照相似度高低进行排序,即与待识别行人图像相似度最高的图像排在第一位,然后以相似度递减的顺序将匹配结果进行排序,最终确定出待识别行人图像的行人重识别结果。
预设图像库可以是预先建立好的包括不同的设备采集的且包含有同一行人的行人图像库,也可以是上述的开源数据集,在开源数据集中包含不同摄像头采集的且包含有同一行人的多张不同行人图像,可以根据实际需要选择数据集,本发明实施例对此不做具体限定。
本发明实施例中的行人重识别方法,通过特征提取模型获取待识别行人图像的全局特征向量和局部特征向量,再对全局特征向量和局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;并基于完整特征表达,将待识别行人图像与预设图像库中的行人图像进行匹配,确定待识别行人图像的行人重识别结果。其中,局部特征向量包括特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量。该方法进行了全局特征向量和局部特征向量等多维特征的提取,并利用待识别行人图像的宏观全局特征与微观局部特征进行行人重识别,把控整体与细节,提高了行人重识别的准确率。
在上述实施例的基础上,本发明实施例提供的行人重识别方法,所述将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量,具体包括:
将所述待识别行人图像输入至所述特征提取模型的骨干网络,得到所述骨干网络提取的特征图;
将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图;
将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图;
将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的不同分割粒度的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量。
具体地,如图2所示,图2是本发明实施例提供的特征提取模型的结构示意图。在图2中可以看到,特征提取模型包括骨干网络、全局残差卷积层、局部残差卷积层、重定位层和池化卷积层。其中,骨干网络可以是卷积神经网络(Convolutional Neural Networks,CNN),本发明实施例对骨干网络的具体形式不作具体限定,可以根据实际需要进行选择,只需要满足可以对输入的待识别行人图像进行特征提取。经过骨干网络的提取,可以得到待识别行人图像的特征图F。
全局残差卷积层和局部残差卷积层可以是参数独立的残差网络,残差网络可以是18层残差网络或50层残差网络,本发明实施例对此不作具体限定。全局残差卷积层可以有一个,局部残差卷积层可以有三个。特征图经过一个全局残差卷积层和三个局部残差卷积层后,会分别得到一个全局特征图以及三个可分割特征图。
将全局特征图以及各可分割特征图输入至特征提取网络的重定位层,可以得到重定位层输出的重定位特征图。其中,重定位层可以对全局特征图和可分割特征图进行卷积处理,并对深度方向上的多个可分割特征图进行最大池化处理,最终得到全局重定位特征图和可分割重定位特征图。
再将全局重定位特征图以及各可分割重定位特征图输入至特征提取模型的不同分割粒度的四类池化卷积层,先进行池化处理,再对池化后的数据进行卷积运算,得到全局特征向量和局部特征向量。其中,池化可以是最大池化,卷积运算可以是卷积核为1的卷积运算。
本发明实施例中的行人重识别方法,通过骨干网络得到特征图,通过残差卷积层得到全局特征图和可分割特征图,再通过重定位层得到全局重定位特征图和可分割重定位特征图,最后通过池化卷积层得到全局特征向量和局部特征向量,特征提取模型的模型结构清晰,便于操作。
在上述实施例的基础上,本发明实施例提供的行人重识别方法,所述局部残差卷积层包括第一局部残差卷积层、第二局部残差卷积层以及第三局部残差卷积层;相应地,所述将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图,具体包括:
将所述特征图输入至所述全局残差卷积层,得到所述全局残差卷积层输出的全局特征图;
将所述特征图输入至所述第一局部残差卷积层,由所述第一局部残差卷积层对所述特征图进行特征提取,得到第一可分割特征图,;
将所述特征图输入至所述第二局部残差卷积层,由所述第二局部残差卷积层对所述特征图进行特征提取,得到第二可分割特征图,;
将所述特征图输入至所述第三局部残差卷积层,由所述第三局部残差卷积层对所述特征图进行特征提取,得到第三可分割特征图。
具体地,本发明实施例中,局部残差卷积层包括第一局部残差卷积层、第二局部残差卷积层以及第三局部残差卷积层,也就是说,将特征图F输入至特征提取模型的全局残差卷积层和局部残差卷积层,就是将特征图F输入至4个参数独立的残差网络,得到这4个残差网络输出的特征图。
其中,将特征图F输入至全局残差卷积层,可以得到全局残差卷积层输出的全局特征图。全局特征图可以用T1表示,T1的尺寸为12×4×2048(高度×宽度×维度)。
将特征图输入至第一局部残差卷积层,由第一局部残差卷积层对特征图进行特征提取,得到第一可分割特征图T2。其中,第一可分割特征图T2的尺寸可以为24×8×2048。
将特征图输入至第二局部残差卷积层,由第二局部残差卷积层对特征图进行特征提取,得到第二可分割特征图T3。其中,第二可分割特征图T3的尺寸也可以为24×8×2048。
将特征图输入至第三局部残差卷积层,由第三局部残差卷积层对特征图进行特征提取,得到第三可分割特征图T4。其中,第三可分割特征图T4的尺寸也可以为24×8×2048。
本发明实施例中的行人重识别方法,通过残差卷积层可以得到特征图对应的全局特征图和第一可分割特征图、第二可分割特征图、第三可分割特征图,由于特征图是由同一骨干网络提取的,因此最大程度实现了参数共享,并利用了待识别行人图像的宏观特征和微观特征进行行人重识别,把握整体与细节,提高了行人重识别的准确率。
在上述实施例的基础上,本发明实施例提供的行人重识别方法,所述将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图,具体包括:
将所述全局特征图、所述第一可分割特征图和所述第二可分割特征图分别进行卷积运算,生成对应的特征矩阵,并将所述特征矩阵进行规范化处理,得到所述特征矩阵对应的空间注意力矩阵;
将所述第三可分割特征图进行最大池化处理,生成池化向量,将所述池化向量进行线性变换运算,并将线性变换后的池化向量进行规范化处理,得到所述池化向量对应的深度注意力向量;
将所述空间注意力矩阵与对应的所述全局特征图、所述第一可分割特征图和所述第二可分割特征图中每个维度对应的特征矩阵分别进行对应位相乘,得到所述全局重定位特征图、第一可分割重定位特征图以及第二可分割重定位特征图;
将所述深度注意力向量与所述第三可分割特征图中每个像素点对应的特征向量进行对应位相乘,得到第三可分割重定位特征图。
具体地,本发明实施例中,可以将全局特征图T1、第一可分割特征图T2和第二可分割特征图T3进行卷积运算,生成对应的特征矩阵M1、M2和M3。其中,卷积运算可以是对T1、T2和T3进行卷积核为1的卷积运算。在经过卷积运算后,特征矩阵M1、M2和M3的维度为1,长宽和对应的特征图保持一致,即M1的尺寸为12×4×1,M2和M3的尺寸为24×8×1。
再将特征矩阵进行规范化处理,得到特征矩阵对应的空间注意力矩阵。其中,规范化处理是指将M1、M2和M3中的数值规范化到预设范围内。可以通过Sigmoid函数进行规范化处理,Sigmoid函数对应的预设范围即为(0,1)。
Sigmoid函数的主要目是将M1、M2和M3中的数值规范到(0,1)之间,以一种比较平滑到方式体现特征矩阵中数值大小,其含义就是特征图中每个像素点的重要性,特征矩阵是对之前的划分操作做二次优化,使局部特征图的划分更加准确。Sigmoid函数的公式如下:
在经过规范化处理后,就可以得到全局特征图、第一可分割特征图和第二可分割特征图对应的空间注意力矩阵M1′、M2′和M3′。
将第三可分割特征图T4进行最大池化处理,生成池化向量M4,M4的维度与T4相同,即M4是一个2048维的特征向量,将M4进行维度不变的线性变换运算,经过线性变换后,池化向量M4的维度为2048。
并通过上述的Sigmoid函数对线性变换后的M4进行规范化处理,得到池化向量M4对应的深度注意力向量M4′。
将上述的空间注意力矩阵M1′、M2′和M3′与对应的全局特征图T1、第一可分割特征图T2和第二可分割特征图T3中每个维度对应的特征矩阵进行对应位相乘,分别得到全局重定位特征图M1″、第一可分割重定位特征图M2″以及第二可分割重定位特征图M3″。
将深度注意力向量M4′与第三可分割特征图T4中每个像素点对应的特征向量进行对应位相乘,得到第三可分割重定位特征图M4″。
本发明实施例提供的行人重识别方法,通过设置重定位层对全局特征图和可分割特征图进行处理,对可分割特征图中划分的局部特征进行了细粒度优化,提高了划分的准确性。
在上述实施例的基础上,本发明实施例提供的行人重识别方法,所述将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量,具体包括:
将所述全局重定位特征图以及各可分割重定位特征图输入至第一类池化卷积层的池化层,得到四个全局特征向量;
将所述第一可分割重定位特征图沿图像垂直方向划分成两部分,分别输入至第二类池化卷积层的池化层,进行池化操作,得到两个局部特征向量;
将所述第二可分割重定位特征图沿图像垂直方向划分成三部分,分别输入至第三类池化卷积层的池化层,进行池化操作,得到三个局部特征向量;
将所述第三可分割重定位特征图沿图像深度方向划分成四部分,分别输入至第四类池化卷积层的池化层,进行池化操作,得到四个局部特征向量;
将各全局特征向量和各局部特征向量分别输入至各类池化卷积层的卷积层,进行维度变换,得到相同维度的全局特征向量和局部特征向量。
具体地,本发明实施例中,四类池化卷积层可以包括第一类池化卷积层、第二类池化卷积层、第三类池化卷积层以及第四类池化卷积层,四类池化卷积层中的池化层的作用是得到特征向量,卷积层的作用是使特征向量维度相同。
首先,可以先将全局重定位特征图M1″以及各可分割重定位特征图M2″、M3″、M4″输入至第一类池化卷积层的池化层,通过第一类池化卷积层的池化层进行最大池化处理,即选择图像区域中最大值作为该区域池化以后的值。在使用时,最大池化又分为重叠池化和非重叠池化,本发明实施例对重叠池化和非重叠池化不作具体限定。通过第一类池化卷积层可以得到四个全局特征向量,分别表示为g1′、g2′、g3′和g4′。
然后,将第一可分割重定位特征图M2″沿图像垂直方向划分成两部分,分别输入至第二类池化卷积层的池化层,通过第二类池化卷积层的池化层进行最大池化处理,得到两个局部特征向量。第一可分割重定位特征图M2″的尺寸是24×8×2048,在垂直方向上被划分成了两个12×8×2048的张量,因此在进行最大池化时,需要对这两个张量均进行最大池化,获取两个局部特征向量,分别表示为p21′、p22′。
然后,将第二可分割重定位特征图M3″沿图像垂直方向划分成三部分,分别输入至第三类池化卷积层的池化层,进行池化操作,得到三个局部特征向量。第二可分割重定位特征图M3″的尺寸也是24×8×2048,在垂直方向上被划分成了三个8×8×2048的张量,因此在进行最大池化时,需要对这三个张量均进行最大池化,获取三个局部特征向量,分别表示为p31′、p32′、p33′。
然后,将第三可分割重定位特征图M4″沿图像深度方向划分成四部分,分别输入至第四类池化卷积层的池化层,进行池化操作,得到四个局部特征向量。第三可分割重定位特征图M4″的尺寸是24×8×2048,在垂直方向上被划分成了四个24×8×512的张量,因此在进行最大池化时,需要对这四个张量均进行最大池化,获取四个局部特征向量,分别表示为p41′、p42′、p43′、p44′。因此,局部特征向量共有9个。
最后,在得到全局特征向量和局部特征向量后,需要将全局特征向量和局部特征向量输入至各类池化卷积层中的卷积层,进行维度变换,得到相同维度的全局特征向量和局部特征向量。经各类池化卷积层中的卷积层进行维度变换后得到全局特征向量g1、g2、g3和g4,局部特征向量p21、p22、p31、p32、p33、p41、p42、p43和p44。其中,全局特征向量和局部特征向量的维度均为256维。
本发明实施例提供的行人重识别方法,通过池化卷积层对重定位特征图进行处理,得到全局特征向量和局部特征向量,充分利用了待识别行人图像的宏观和微观特征,能够提高识别的准确率。
在上述实施例的基础上,本发明实施例提供的行人重识别方法,所述特征提取模型基于以下方法训练得到:
将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除重定位层外的基础结构进行训练;所述基础结构包括骨干网络、全局残差卷积层、局部残差卷积层、池化卷积层以及全连接层;
基于训练后的基础结构,对所述待训练特征提取模型中的重定位层进行训练,得到所述特征提取模型。
具体地,本发明实施例中,在训练特征提取模型时,可以将行人图像输入至待训练特征提取模型,基于预设损失函数的取值和自适应矩估计算法,对待训练特征提取模型中除重定位层外的基础结构进行训练,其中,基础结构包括骨干网络、全局残差卷积层、局部残差卷积层、池化卷积层以及全连接层。
在选取行人图像时,可以按照每个批尺寸(batch)中n个行人,每个行人k张图片的方式读取训练数据。其中,n和k可以根据实际需要进行设置,本发明实施例对此不做具体限定。
其中,行人图像也可以从Market-1501数据集中选取。例如,可以选取751人,选取12,936张图像组成训练集进行训练,平均每个人有17.2张训练数据。
为了丰富训练数据,还可以对行人图像进行随机翻转、遮挡处理,模拟真实场景引入噪声。
在将行人图像输入至特征提取模型之前,还可以对行人图像每个颜色通道数据进行归一化处理,规范数据范围,提高后续的训练速度。
在特征提取模型的基础结构中,全连接层位于池化卷积层之后,全连接层起到特征分类的作用,可以由卷积操作实现。池化卷积层输出的4个全局特征向量和9个局部特征向量均输入至全连接层,也就是说,每一个特征向量对应一个全连接层,将全局特征向量和局部特征向量输入至13个全连接层,得到全连接层输出的分类结果。
损失函数用来评价特征提取模型的预测值和真实值不一样的程度,预设损失函数的取值可以根据实际需要进行设置,本发明实施例对此不作具体限定。损失函数可以是三元组损失函数或交叉熵损失函数等。
自适应矩估计算法是通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。
通过预设损失函数的取值和自适应矩估计算法可以确定特征提取模型的参数,从而达到对模型训练的目的。在基础结构训练完成后,将基础结构中的参数固定,基于训练结束后的基础结构,对特征提取模型的重定位层进行训练,得到特征提取模型。
需要说明的是,在特征提取模型中的网络收敛后,还可以将此前固定的参数释放,再对整个特征提取模型进行微调,从而得到特征提取模型。
本发明实施例提供的行人重识别方法,先基于预设损失函数的取值以及自适应矩估计算法对特征提取模型中除重定位层外的基础结构进行训练,再基于训练好的基础结构单独训练重定位层,通过分部训练的方式有效降低了计算量,并且具有较快的识别速度。
在上述实施例的基础上,本发明实施例提供的行人重识别方法,所述预设损失函数包括三元组损失函数和交叉熵损失函数;
相应地,所述将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除重定位层外的基础结构进行训练,具体包括:
将所述行人图像依次输入至所述骨干网络、所述全局残差卷积层、所述局部残差卷积层以及池化卷积层,得到四个全局特征向量和九个局部特征向量,并将各全局特征向量和各局部特征向量输入至所述全连接层,对所述全连接层的输出进行归一化处理;
基于各全局特征向量,计算所述三元组损失函数的取值,并基于归一化处理的结果,计算所述交叉熵损失函数的取值;
将所述三元组损失函数的取值和所述交叉熵损失函数的取值进行求和,得到所述预设损失函数的取值,并基于所述预设损失函数的取值以及所述自适应矩估计算法,对所述基础结构进行训练。
具体地,本发明实施例中,预设损失函数包括三元组损失函数和交叉熵损失函数。
在对待训练特征提取模型中除重定位层外的基础结构进行训练时,可以将行人图像依次输入至骨干网络、全局残差卷积层、局部残差卷积层以及池化卷积层,得到全局特征向量和局部特征向量,并将全局特征向量和局部特征向量输入至全连接层,对全连接层的输出进行归一化处理。
在得到全局特征向量和局部特征向量后,就可以基于全局特征向量,计算三元组损失函数的取值;并基于全连接层的输出的归一化处理的结果,计算交叉熵损失函数的取值。
其中,三元组损失函数中的三元是指锚(Anchor),正(Positive)和负(Negative)。锚为行人图像集中随机选取的一个,正为和锚属于同一类的,而负则为和锚不同类的。其中,同一类是指,正和锚是属于同一个行人的行人图像。
在训练数据集的每个batch中,按n个行人、每个行人取k张图片读取训练数据,那么对于每个锚,都存在k-1个正和(n-1)*k个负,因此一个batch中可以形成k*(k-1)个APN对,在此基础上形成三元组损失。
三元组损失函数的目标函数如下:
其中,i是选取的图像的序号,N是总数,表征的是锚到正的欧式距离,同样的,表征的是锚到负的欧式距离,f表征特征序列的输出特征;+是指中括号内的值大于零的时候,取该值为损失,小于零的时候,损失为零;α表示锚与负之间的距离和锚与正之间的距离之间有一个最小的间隔,α可以根据实际需要进行设置,例如可以设置为1.2或其他数值,本发明实施例对此不作具体限定。
由上述实施例可知,全局特征向量有四个,因此,对于四个全局特征向量,均需要进行上述的三元组损失函数计算。
在训练时,三元组损失在训练迭代的过程中下降到越小越好,也就是说,在选择APN对时,挑选距离最远(相似度最差)的正与距离最近(相似度最好)的负,以此降低损失,优化参数,拉进正之间的距离,拉远负之间的距离,达到利用三元组损失函数的取值进行训练的目的
将全局特征向量和局部特征向量输入至全连接层。由上述实施例可知,全局特征向量有4个,局部特征向量有9个,且全局特征向量和局部特征向量的维度均为256维。
将13个特征向量分别输入至13个全连接层,全局特征向量和局部特征向量的维度由256维变成C维,C为训练集类别个数,训练集类别即训练集中不同的行人类别,例如,训练集中存在10个不同的行人,则C为10。
全连接层输出的向量组形式是[A0,A1,A2,……AC],将全连接层输出的C维的向量进行归一化,得到图片属于训练集类别的不同概率,并基于全连接层的输出的归一化处理的结果,计算交叉熵损失函数的取值。
其中,可以通过Softmax层进行归一化,在归一化处理后,得到图片属于训练集类别的不同概率的公式可以是:
其中,C为训练集类别,i为向量组中的第i项,Ak是向量组中的第k项,p(Ck)表征的是输入的行人图像属于训练集中的某一类别对应的概率。
在上述基础上计算交叉熵损失函数的取值,交叉熵损失函数可以表示为:
其中,C为上述中的训练集类别个数,yk是指示变量,当输入的行人图像的真实类别相同时为1,不相同时为0,pk为上述公式中对应求得的概率,也即是输入的行人图像属于某一类别的预测概率。
在确定上述三元组损失函数的取值和交叉熵损失函数的取值后,就可以将上述三元组损失函数的取值和交叉熵损失函数的取值进行累加,得到预设损失函数的取值。根据预设损失函数的取值结合自适应矩估计算法,就可以对特征提取模型中除重定位层外的基础结构进行训练。
如图3所示,图3是本发明实施例中对特征提取模型的基础结构的训练流程示意图。
在图3中可知,将行人图像输入至特征提取模型的骨干网络,可以得到行人图像的特征图,将特征图输入至全局残差卷积层,可以得到全局特征图301,将特征图输入至局部残差卷积层,可以得到第一可分割特征图302,第二可分割特征图303和第三可分割特征图304;且由图3和上述实施例可知,第一可分割特征图在垂直方向可以被划分成两部分;第二可分割特征图在垂直方向上可以被划分成三部分;第三可分割特征图在图像深度方向上可以被划分成4部分。
再将上述的全局特征图和任一可分割特征图输入至池化卷积层中的池化层,得到池化层输出的全局特征向量和局部特征向量。并且根据图3和上述实施例可知,池化层分别对全局特征图和任一可分割特征图进行最大池化处理,得到4个全局特征向量,即图3中的311、312、313和314;池化层也对第一可分割特征图、第二可分割特征图和第三可分割特征图中的划分的部分进行最大池化处理,得到9个局部特征向量,即图3中的321表征第一可分割特征图中划分的两个部分进行最大池化后得到的两个局部特征向量,322表征第二可分割特征图中划分的三个部分进行最大池化后得到的三个局部特征向量,323表征第三可分割特征图中划分的四个部分进行最大池化后得到的四个局部特征向量。
再将上述的全局特征向量和局部特征向量输入至池化卷积层中的卷积层,进行卷积运算,得到对应的卷积处理后的特征向量。即在图3中,331、332、333和334表征全局特征向量经过卷积运算后的全局特征向量;341、342和343表征对应的局部特征向量经过卷积运算后的局部特征向量。
将全局特征向量和局部特征向量分别输入至全连接层,再对全连接层的输出结果使用softmax进行归一化处理,得到分类结果,在图3中用352表征使用softmax进行归一化处理后得到的分类结果。
在训练时,还会基于三元组损失函数的取值和交叉熵损失函数的取值结合自适应矩估计算法对特征提取模型的基础结构进行训练,在训练时,也会得到分类的结果,在图3中用352表征。
其中,输出的分类的结果就是输入的行人图像在训练集的每一类别上的概率。
在本发明的一个实施例中,可以使用Market 1501数据集对特征提取模型的性能进行测试。
Market-1501数据集在某校园中采集,夏天拍摄,在2015年构建并公开。它包括由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框。每个行人至少由2个摄像头捕获到,并且在一个摄像头中可能具有多张图像。
从Market-1501数据集中选取数据构建查询集query set和测试集gallery set。其中,测试集可以包括预设数量个行人,包含预设数量张行人图像,查询集是在测试集所包含的行人中,每个行人在每个摄像头中随机选取一张图像作为查询(query)形成查询集。因此,一个人的query最多有6张。
例如,测试集可以包括750人,包含19,732张图像,平均每个人有26.3张测试数据。查询集是在测试集的750行人中,每个人在每个摄像头中随机选择一张图像形成查询集。
需要说明的是,由于行人重识别是跨摄像头识别,因此测试集中与查询集同摄像头下同个行人的图片不参与结果计算。
将查询集中的待识别行人图像输入至特征提取模型中的基础结构,经过上述实施例中的流程,得到待识别行人图像的分类结果。
在本发明实施例中,可以使用Rank1准确率和mAP准确率评价行人重识别方法的性能。其中,Rank1准确率是指查询集排序结果中,排第一位的测试集图像行人与查询集图像对应的行人匹配正确的图片所占的比例。mAP准确率是指所有检测结果准确率的平均值,具体计算是指测试集所有和查询集相匹配的图片排在前面的程度。
在本发明实施例中,特征提取模型的基础结构在Market1501数据集测试的结果是mAP:0.9460,rank1:0.9650,rank3:0.9762,rank5:0.9795,rank10:0.9846。该方法在Market1501数据集上的准确率高于目前已公布的其他行人重识别方法。
如图4所示,图4是本发明实施例中对特征提取模型的重定位层的训练流程示意图。
由于本发明实施例中是采用的分部训练的方法,即将特征提取模型的基础结构训练完成后,再训练重定位层,因此,图4是在图3基础上的改进,图4在图3中的池化层前增加了重定位层,其他均与图3保持一致。
如图4所示,全局特征图和局部特征图需经过重定位层,得到全局重定位特征图和可分割重定位特征图,再将全局重定位特征图和可分割重定位特征图输入至池化层,按照上述实施例中的流程进行后续步骤,最后得到分类的结果,以此达到对重定位层的训练目的,最终得到特征提取模型。
本发明实施例中的行人重识别方法,通过三元组损失函数和交叉熵损失函数对特征提取模型进行训练,提高了识别的准确率。
在上述实施例的基础上,本发明实施例还提供一种行人重识别系统,如图5所示,该系统包括:
行人图像确定模块501,用于确定待识别行人图像;
特征向量确定模块502,用于将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;
特征拼接融合模块503,用于对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;
行人重识别模块504,用于基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;
其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
在上述实施例的基础上,本发明实施例提供的一种行人重识别系统,所述特征向量确定模块具体包括:
骨干网络子模块,用于将所述待识别行人图像输入至所述特征提取模型的骨干网络,得到所述骨干网络提取的特征图;
残差卷积子模块,用于将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图;
重定位子模块,用于将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图;
池化卷积子模块,用于将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的不同分割粒度的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量。
在上述实施例的基础上,本发明实施例提供的一种行人重识别系统,所述局部残差卷积层包括第一局部残差卷积层、第二局部残差卷积层以及第三局部残差卷积层;相应地,
所述残差卷积子模块,具体包括:
全局残差卷积子单元,用于将所述特征图输入至所述全局残差卷积层,得到所述全局残差卷积层输出的全局特征图;
第一局部残差卷积子单元,用于将所述特征图输入至所述第一局部残差卷积层,由所述第一局部残差卷积层对所述特征图进行特征提取,得到第一可分割特征图;
第二局部残差卷积子单元,用于将所述特征图输入至所述第二局部残差卷积层,由所述第二局部残差卷积层对所述特征图进行特征提取,得到第二可分割特征图;
第三局部残差卷积子单元,用于将所述特征图输入至所述第三局部残差卷积层,由所述第三局部残差卷积层对所述特征图进行特征提取,得到第三可分割特征图。
在上述实施例的基础上,本发明实施例提供的一种行人重识别系统,所述重定位子模块具体包括:
空间注意力矩阵生成子单元,用于将所述全局特征图、所述第一可分割特征图和所述第二可分割特征图分别进行卷积运算,生成对应的特征矩阵,并将所述特征矩阵进行规范化处理,得到所述特征矩阵对应的空间注意力矩阵;
深度注意力向量生成子单元,用于将所述第三可分割特征图进行最大池化处理,生成池化向量,将池化向量进行线性变换运算,并将线性变换后的池化向量进行规范化处理,得到所述池化向量对应的深度注意力向量;
对应位相乘子单元,用于将所述空间注意力矩阵与对应的所述全局特征图、所述第一可分割特征图和所述第二可分割特征图中每个维度对应的特征矩阵分别进行对应位相乘,得到所述全局重定位特征图、第一可分割重定位特征图以及第二可分割重定位特征图;
所述对应位相乘子单元,还用于将所述深度注意力向量与所述第三可分割特征图中每个像素点对应的特征向量进行对应位相乘,得到第三可分割重定位特征图。
在上述实施例的基础上,本发明实施例提供的一种行人重识别系统,所述池化卷积子模块,具体包括:
第一池化子单元,用于将所述全局重定位特征图以及各可分割重定位特征图输入至第一类池化卷积层的池化层,得到四个全局特征向量;
第二池化子单元,用于将所述第一可分割重定位特征图沿图像垂直方向划分成两部分,分别输入至第二类池化卷积层的池化层,进行池化操作,得到两个局部特征向量;
第三池化子单元,用于将所述第二可分割重定位特征图沿图像垂直方向划分成三部分,分别输入至第三类池化卷积层的池化层,进行池化操作,得到三个局部特征向量;
第四池化子单元,用于将所述第三可分割重定位特征图沿图像深度方向划分成四部分,分别输入至第四类池化卷积层的池化层,进行池化操作,得到四个局部特征向量;
卷积子单元,用于将各全局特征向量和各局部特征向量分别输入至各类池化卷积层的卷积层,进行维度变换,得到相同维度的全局特征向量和局部特征向量。
在上述实施例的基础上,本发明实施例提供的一种行人重识别系统,所述特征提取模型基于以下方法训练得到:
将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除重定位层外的基础结构进行训练;所述基础结构包括骨干网络、全局残差卷积层、局部残差卷积层、池化卷积层以及全连接层;
基于训练后的基础结构,对所述待训练特征提取模型中的重定位层进行训练,得到所述特征提取模型。
在上述实施例的基础上,本发明实施例提供的一种行人重识别系统,所述预设损失函数包括三元组损失函数和交叉熵损失函数;
相应地,所述将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除重定位层外的基础结构进行训练,具体包括:
将所述行人图像依次输入至所述骨干网络、所述全局残差卷积层、所述局部残差卷积层以及池化卷积层,得到四个全局特征向量和九个局部特征向量,并将各全局特征向量和各局部特征向量输入至所述全连接层,对所述全连接层的输出进行归一化处理;
基于各全局特征向量,计算所述三元组损失函数的取值,并基于归一化处理的结果,计算所述交叉熵损失函数的取值;
将所述三元组损失函数的取值和所述交叉熵损失函数的取值进行求和,得到所述预设损失函数的取值,并基于所述预设损失函数的取值以及所述自适应矩估计算法,对所述基础结构进行训练。
具体地,本发明实施例中提供的行人重识别系统中各模块的作用与上述方法类实施例中各步骤的操作流程是一一对应的,实现的效果也是一致的,具体参见上述实施例,本发明实施例中对此不再赘述。
图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行上述各实施例中提供的行人重识别方法,该方法包括:确定待识别行人图像;将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例中提供的行人重识别方法,该方法包括:确定待识别行人图像;将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例中提供的行人重识别方法,该方法包括:确定待识别行人图像;将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种行人重识别方法,其特征在于,包括:
确定待识别行人图像;
将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;
对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;
基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;
其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
2.根据权利要求1所述的行人重识别方法,其特征在于,所述将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量,具体包括:
将所述待识别行人图像输入至所述特征提取模型的骨干网络,得到所述骨干网络提取的特征图;
将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图;
将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图;
将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的不同分割粒度的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量。
3.根据权利要求2所述的行人重识别方法,其特征在于,所述局部残差卷积层包括第一局部残差卷积层、第二局部残差卷积层以及第三局部残差卷积层;相应地,所述将所述特征图输入至所述特征提取模型的一个全局残差卷积层和三个局部残差卷积层,分别得到一个全局特征图及三个可分割特征图,具体包括:
将所述特征图输入至所述全局残差卷积层,得到所述全局残差卷积层输出的全局特征图;
将所述特征图输入至所述第一局部残差卷积层,由所述第一局部残差卷积层对所述特征图进行特征提取,得到第一可分割特征图;
将所述特征图输入至所述第二局部残差卷积层,由所述第二局部残差卷积层对所述特征图进行特征提取,得到第二可分割特征图;
将所述特征图输入至所述第三局部残差卷积层,由所述第三局部残差卷积层对所述特征图进行特征提取,得到第三可分割特征图。
4.根据权利要求3所述的行人重识别方法,其特征在于,所述将所述全局特征图及各可分割特征图输入至所述特征提取模型的重定位层,分别得到所述全局特征图对应的全局重定位特征图和各可分割特征图对应的可分割重定位特征图,具体包括:
将所述全局特征图、所述第一可分割特征图和所述第二可分割特征图分别进行卷积运算,生成对应的特征矩阵,并将所述特征矩阵进行规范化处理,得到所述特征矩阵对应的空间注意力矩阵;
将所述第三可分割特征图进行最大池化处理,生成池化向量,将所述池化向量进行线性变换运算,并将线性变换后的池化向量进行规范化处理,得到所述池化向量对应的深度注意力向量;
将所述空间注意力矩阵与对应的所述全局特征图、所述第一可分割特征图和所述第二可分割特征图中每个维度对应的特征矩阵分别进行对应位相乘,得到所述全局重定位特征图、第一可分割重定位特征图以及第二可分割重定位特征图;
将所述深度注意力向量与所述第三可分割特征图中每个像素点对应的特征向量进行对应位相乘,得到第三可分割重定位特征图。
5.根据权利要求3所述的行人重识别方法,其特征在于,所述将所述全局重定位特征图以及各可分割重定位特征图输入至所述特征提取模型的四类池化卷积层,分别得到各类池化卷积层输出的全局特征向量和局部特征向量,具体包括:
将所述全局重定位特征图以及各可分割重定位特征图输入至第一类池化卷积层的池化层,得到四个全局特征向量;
将所述第一可分割重定位特征图沿图像垂直方向划分成两部分,分别输入至第二类池化卷积层的池化层,进行池化操作,得到两个局部特征向量;
将所述第二可分割重定位特征图沿图像垂直方向划分成三部分,分别输入至第三类池化卷积层的池化层,进行池化操作,得到三个局部特征向量;
将所述第三可分割重定位特征图沿图像深度方向划分成四部分,分别输入至第四类池化卷积层的池化层,进行池化操作,得到四个局部特征向量;
将各全局特征向量和各局部特征向量分别输入至各类池化卷积层的卷积层,进行维度变换,得到相同维度的全局特征向量和局部特征向量。
6.根据权利要求1-5任一项所述的行人重识别方法,其特征在于,所述特征提取模型基于以下方法训练得到:
将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除所述重定位层外的基础结构进行训练;所述基础结构包括骨干网络、全局残差卷积层、局部残差卷积层、池化卷积层以及全连接层;
基于训练后的基础结构,对所述待训练特征提取模型中的重定位层进行训练,得到所述特征提取模型。
7.根据权利要求6所述的行人重识别方法,其特征在于,所述预设损失函数包括三元组损失函数和交叉熵损失函数;
相应地,所述将所述行人图像输入至待训练特征提取模型,基于预设损失函数的取值以及自适应矩估计算法,对所述待训练特征提取模型中除所述重定位层外的基础结构进行训练,具体包括:
将所述行人图像依次输入至所述骨干网络、所述全局残差卷积层、所述局部残差卷积层以及池化卷积层,得到四个全局特征向量和九个局部特征向量,并将各全局特征向量和各局部特征向量输入至所述全连接层,对所述全连接层的输出进行归一化处理;
基于各全局特征向量,计算所述三元组损失函数的取值,并基于归一化处理的结果,计算所述交叉熵损失函数的取值;
将所述三元组损失函数的取值和所述交叉熵损失函数的取值进行求和,得到所述预设损失函数的取值,并基于所述预设损失函数的取值以及所述自适应矩估计算法,对所述基础结构进行训练。
8.一种行人重识别系统,其特征在于,包括:
行人图像确定模块,用于确定待识别行人图像;
特征向量确定模块,用于将所述待识别行人图像输入至特征提取模型,得到所述特征提取模型输出的全局特征向量和局部特征向量;
特征拼接融合模块,用于对所述全局特征向量和所述局部特征向量进行拼接融合,得到所述待识别行人图像对应的完整特征表达;
行人重识别模块,用于基于所述完整特征表达,将所述待识别行人图像与预设图像库中的行人图像进行匹配,确定所述待识别行人图像的行人重识别结果;
其中,所述局部特征向量包括所述特征提取模型确定的特征图在垂直方向及深度方向上的多个局部特征向量;所述特征提取模型包括重定位层,所述重定位层用于对所述特征图进行空间层面及深度层面的注意力运算;所述特征提取模型基于携带有行人标签的行人图像分两个阶段训练得到;所述行人图像包括不同设备采集的且包含有同一行人的行人图像。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述行人重识别方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述行人重识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121648.0A CN114038052A (zh) | 2021-09-24 | 2021-09-24 | 行人重识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111121648.0A CN114038052A (zh) | 2021-09-24 | 2021-09-24 | 行人重识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114038052A true CN114038052A (zh) | 2022-02-11 |
Family
ID=80140490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111121648.0A Pending CN114038052A (zh) | 2021-09-24 | 2021-09-24 | 行人重识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114038052A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631510A (zh) * | 2022-10-24 | 2023-01-20 | 智慧眼科技股份有限公司 | 一种行人重识别方法、装置、计算机设备及存储介质 |
-
2021
- 2021-09-24 CN CN202111121648.0A patent/CN114038052A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115631510A (zh) * | 2022-10-24 | 2023-01-20 | 智慧眼科技股份有限公司 | 一种行人重识别方法、装置、计算机设备及存储介质 |
CN115631510B (zh) * | 2022-10-24 | 2023-07-04 | 智慧眼科技股份有限公司 | 一种行人重识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961034B (zh) | 基于卷积门控循环神经单元的视频目标检测方法 | |
Fu et al. | Deep ordinal regression network for monocular depth estimation | |
Wang et al. | Joint learning of convolutional neural networks and temporally constrained metrics for tracklet association | |
CN115171165A (zh) | 全局特征与阶梯型局部特征融合的行人重识别方法及装置 | |
CN109711463A (zh) | 基于注意力的重要对象检测方法 | |
CN110738146A (zh) | 一种目标重识别神经网络及其构建方法和应用 | |
Suprem et al. | Looking glamorous: Vehicle re-id in heterogeneous cameras networks with global and local attention | |
CN111368943A (zh) | 图像中对象的识别方法和装置、存储介质及电子装置 | |
Banerjee et al. | Efficient pooling of image based CNN features for action recognition in videos | |
Abdulnabi et al. | Multimodal recurrent neural networks with information transfer layers for indoor scene labeling | |
CN113033507B (zh) | 场景识别方法、装置、计算机设备和存储介质 | |
WO2016183770A1 (en) | A system and a method for predicting crowd attributes | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN112052771B (zh) | 一种对象重识别方法及装置 | |
CN113591545B (zh) | 一种基于深度学习的多级特征提取网络行人再识别方法 | |
CN111126249A (zh) | 一种大数据和贝叶斯相结合的行人重识别方法及装置 | |
CN111444957B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN114519863A (zh) | 人体重识别方法、人体重识别装置、计算机设备及介质 | |
CN114708620A (zh) | 一种应用于无人机的航空视角下行人重识别方法及系统 | |
CN114912540A (zh) | 迁移学习方法、装置、设备及存储介质 | |
CN111291785A (zh) | 目标检测的方法、装置、设备及存储介质 | |
CN111291611A (zh) | 一种基于贝叶斯查询扩展的行人重识别方法及装置 | |
CN114038052A (zh) | 行人重识别方法及系统 | |
CN114005142A (zh) | 基于多尺度和注意特征聚合的行人重识别模型及识别方法 | |
Fang et al. | Fast depth estimation from single image using structured forest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |