CN113723366A - 一种行人重识别方法、装置及计算机设备 - Google Patents

一种行人重识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN113723366A
CN113723366A CN202111237443.9A CN202111237443A CN113723366A CN 113723366 A CN113723366 A CN 113723366A CN 202111237443 A CN202111237443 A CN 202111237443A CN 113723366 A CN113723366 A CN 113723366A
Authority
CN
China
Prior art keywords
feature map
pedestrian
local
feature
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111237443.9A
Other languages
English (en)
Other versions
CN113723366B (zh
Inventor
张凯
黄瑾
宫永顺
逯天斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Liju Robot Technology Co ltd
Original Assignee
Shandong Liju Robot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Liju Robot Technology Co ltd filed Critical Shandong Liju Robot Technology Co ltd
Priority to CN202111237443.9A priority Critical patent/CN113723366B/zh
Publication of CN113723366A publication Critical patent/CN113723366A/zh
Application granted granted Critical
Publication of CN113723366B publication Critical patent/CN113723366B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种行人重识别方法、装置及计算机设备。该方法包括:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G;基于注意力机制,对G进行图像局部特征提取,得到局部特征图X 1;对X i‑1进行图像局部特征提取,得到局部特征图X i i=2、…、N;对GX 1进行非局部特征融合,得到非局部特征图
Figure 285966DEST_PATH_IMAGE001
;将X j‑1X j 进行非局部特征融合,得到非局部特征图
Figure 475639DEST_PATH_IMAGE002
j=2、…、N;利用卷积运算对
Figure 313145DEST_PATH_IMAGE001
、…、
Figure 89644DEST_PATH_IMAGE003
进行融合,得到融合特征图F f ;基于F f ,利用全连接层预测X对应的行人编号。该方法本发明实施例不仅提高了行人重识别的精度。

Description

一种行人重识别方法、装置及计算机设备
技术领域
本发明实施例涉及多媒体信号处理领域,尤其涉及一种行人重识别方法、装置及计算机设备。
背景技术
近年来,人工智能与社会的方方面面联系越来越紧密,人工智能也为民众的生活提供了更多的便利。随着人工智能领域深度学习的快速发展,许多计算机视觉技术取得了重大突破,其中就包括行人重识别技术。
行人重识别技术又名行人再识别技术,是指利用计算机资源判断图像集中是否存在特定行人的技术,即从图库中检索出最有可能属于同一行人的图像或者图像集。行人重识别技术通常用于解决跨摄像机跟踪和监视安全性等问题,一般来说行人重识别可以视为图像检索问题。在监控视频中,受限于相机的分辨率和拍摄角度,通常无法获得高质量的人脸图像,因此在这种人脸识别失效的环境中,行人重识别技术就显得尤为重要。
大多数行人重识别方法为了得到更好的效果,往往专注于学习区分性和鲁棒性,以完成包括变换视角、不同身体姿势以及不同光照强度等挑战。所以考虑到利用深度学习所提取的全局特征对于空间位置变换以及外观变化具有一定的鲁棒性,因此,行人重识别技术依赖全局特征来检索图像。但是,仅凭借全局特征无法充分利用细粒度特征,并且全局特征可能会使注意力集中于一些干扰信息上,导致重识别的效果是无法预期的。
发明内容
本发明提供一种行人重识别方法、装置及计算机设备,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种行人重识别方法。该方法包括:
S10:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G
S20:基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、NN为大于或等于2的整数;
S30:将G作为高层特征图
Figure 821732DEST_PATH_IMAGE001
,将X 1作为低层特征图
Figure 119990DEST_PATH_IMAGE002
,对
Figure 507109DEST_PATH_IMAGE001
Figure 63861DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 954456DEST_PATH_IMAGE003
;将X j-1作为
Figure 689194DEST_PATH_IMAGE001
,将X j 作为
Figure 258601DEST_PATH_IMAGE002
,对
Figure 619044DEST_PATH_IMAGE001
Figure 629726DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 597682DEST_PATH_IMAGE004
,其中,j为整数,j=2、…、N
S40:利用卷积运算对
Figure 818447DEST_PATH_IMAGE003
、…、
Figure 717002DEST_PATH_IMAGE005
进行融合,得到融合特征图F f ;基于F f ,利用全连接层(Full Connected layer,简称为“FC”)预测X对应的行人编号(IDentity,简称“ID”)。
第二方面,本发明实施例还提供了一种行人重识别装置。该装置包括:
全局特征提取模块,用于获取输入图像X,对X进行图像全局特征提取,得到全局特征图G
局部特征提取模块,用于基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、NN为大于或等于2的整数;
非局部特征融合模块,用于将G作为高层特征图
Figure 769141DEST_PATH_IMAGE001
,将X 1作为低层特征图
Figure 845681DEST_PATH_IMAGE002
,对
Figure 553743DEST_PATH_IMAGE001
Figure 803459DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 975683DEST_PATH_IMAGE006
;将X j-1作为
Figure 285442DEST_PATH_IMAGE001
,将X j 作为
Figure 293849DEST_PATH_IMAGE002
,对
Figure 534206DEST_PATH_IMAGE001
Figure 373986DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 792329DEST_PATH_IMAGE007
,其中,j为整数,j=2、…、N
编号预测模块,用于利用卷积运算对
Figure 334038DEST_PATH_IMAGE006
、…、
Figure 378086DEST_PATH_IMAGE008
进行融合,得到融合特征图F f ;基于F f ,利用FC预测X对应的行人编号。
第三方面,本发明实施例还提供了一种计算机设备。该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现本发明任一实施例提供的行人重识别方法。
本发明可以实现以下有益效果:
使用带残差的空间维度注意力机制提取空间维度的注意力特征图,引入了残差网络的思想,通过提取融合多步空间注意力获取更丰富的空间维度的注意力图;采用非局部特征融合方法,在保证了含有丰富信息的高层特征不被噪音影响的同时,增加了来自低层特征的粗粒度信息,所融合得到的特征能够显著提升结果的准确率。
附图说明
图1为本发明实施例提供的一种行人重识别方法的流程图。
图2为本发明实施例提供的另一种行人重识别方法的流程图。
图3为本发明实施例提供的一种局部特征提取的流程图。
图4为本发明实施例提供的一种非局部特征融合的流程图。
图5为本发明实施例提供的一种空间金字塔池化的流程图。
图6为本发明实施例提供的一种行人重识别装置的结构示意图。
图7为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
大多数行人重识别方法为了得到更好的效果,往往专注于学习区分性和鲁棒性,以完成包括变换视角、不同身体姿势以及不同光照强度等挑战。所以考虑到利用深度学习所提取的全局特征对于空间位置变换以及外观变化具有一定的鲁棒性,因此,行人重识别技术依赖全局特征来检索图像。但是,仅凭借全局特征无法充分利用细粒度特征,造成小区域信息缺失,并且全局特征可能会使注意力集中于一些干扰信息上,导致重识别的效果是无法预期的。为了尽可能避免这种结果,引入注意力机制以捕获有强区分性的人体局部特征并减少背景中的不同变化所带来的的噪音干扰,对于提升行人重识别技术的性能尤为重要。
随着注意力机制的应用领域不断延展,众多学者开始研究如何更好的利用注意力机制提升行人重识别任务的性能。但是,通过一些基础的注意力机制学习到的辨别性强的人体局部特征,有时不能很好地提升行人重识别任务的性能。这可能是因为:一方面,基础的注意力机制大概率只能学习到最简单的特征,这些特征只关注于图像的表面分布,不能很好地学习更有价值的局部特征;另一方面,使用基础的注意力机制的行人重识别方法没有考虑到不同局部特征之间的联系,导致一些有用的信息丢失,造成性能下降。
本发明提出了行人重识别方法,通过强注意力机制提取出更有价值的局部特征,并将全局特征和不同层提取到的局部特征进行融合以减少信息损失,从而提升行人重识别技术的检测精度。
实施例一
图1为本发明实施例提供的一种行人重识别方法的流程图。该方法引入了注意力机制,并将不同层的特征进行融合,包括步骤S10-S50。
S10:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G
S20:基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、NN为大于或等于2的整数。
S30:将G作为高层特征图
Figure 72373DEST_PATH_IMAGE001
,将X 1作为低层特征图
Figure 661617DEST_PATH_IMAGE002
,对
Figure 893884DEST_PATH_IMAGE001
Figure 226776DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 962520DEST_PATH_IMAGE009
;将X j-1作为
Figure 988245DEST_PATH_IMAGE001
,将X j 作为
Figure 379912DEST_PATH_IMAGE002
,对
Figure 578812DEST_PATH_IMAGE001
Figure 169062DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 428005DEST_PATH_IMAGE004
,其中,j为整数,j=2、…、N
S40:利用卷积运算对
Figure 120018DEST_PATH_IMAGE006
、…、
Figure 43980DEST_PATH_IMAGE008
进行融合,得到融合特征图F f ;基于F f ,利用FC预测X对应的行人ID。
图2为本发明实施例提供的另一种行人重识别方法的流程图。图2以N =4为例,更直观地显示了整个行人重识别的流程。首先,对输入图像X进行了一次图像全局特征提取,得到了全局特征图G;进行了4次图像局部特征提取,分别得到了局部特征图X 1X 2X 3X 4。将GX 1X 2X 3X 4进行非局部融合,再经过一个1×1卷积,得到融合特征图F f 。基于F f ,预测X对应的行人ID。
在一实施例中,S10中,所述对X进行图像全局特征提取,得到全局特征图G包括:使用CNN作为骨干网络,将X输入所述CNN中进行图像全局特征提取,得到G
图像全局特征提取是为了将输入图像转换为全局特征图,突出图像的全局信息。可选地,使用CNN作为骨干网络,CNN包括卷积层、池化层以及全连接层,将输入图像依次通过一个或多个卷积层、池化层以及全连接层等,最终得到图像的全局特征图。卷积层用于提取输入图像的不同特征,某些卷积层可能只能提取一些低级的特征(如边缘、线条和角等的层级),使用更多卷积层的网络能从低级特征中迭代提取更复杂的特征。池化层用于对卷积层学习到的特征图进行亚采样处理,能有效降低后续网络层的输入维度,缩减模型大小,并提高了特征图的鲁棒性。全连接层把所有局部特征结合起来变成全局特征,用来计算模型任务(分类、回归)的得分。
在CNN中,将输入图像中的每个像素以及其邻域使用卷积核卷积,再使用池化层池化,使特征图能够代表的区域变大,逐步扩大感受野。最后得到的特征图则包含了图像的全局特征。
CNN中的卷积层、池化层以及全连接层的数量和链接顺序可以根据需求进行设计。本实施例中,可以使用Resnet50作为骨干网络。
在一实施例中,S20中,所述对所述待提取特征图进行图像局部特征提取,得到局部特征图包括步骤S21-S23。
S21:利用通道维度的注意力机制,将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化,将池化结果进行通道维度的整合,得到通道维度的特征图;将所述通道维度的特征图进行非线性激活,得到多个通道的权重;将所述多个通道的权重与所述待提取特征图在通道维度上相乘,得到带有通道维度注意力的特征图A c
S22:利用空间维度的注意力机制,将A c 在空间维度分别进行最大值池化以及平均值池化,将池化结果进行空间位置的整合,得到空间维度的特征图;对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中进行残差融合,将第n步残差融合后的特征图进行非线性激活,得到多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图
Figure 567366DEST_PATH_IMAGE010
,其中,n为大于或等于2的整数。
S23:将
Figure 59527DEST_PATH_IMAGE010
作为所述局部特征图。
在一实施例中,S22包括:S221-S223。
S221:利用空间维度的注意力机制,将A c 在空间维度进行最大值池化,得到特征图
Figure 222524DEST_PATH_IMAGE011
;将A c 在空间维度进行平均值池化,得到特征图
Figure 763227DEST_PATH_IMAGE012
;将
Figure 344381DEST_PATH_IMAGE011
Figure 679547DEST_PATH_IMAGE012
通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图
Figure 595419DEST_PATH_IMAGE013
Figure 611917DEST_PATH_IMAGE014
,其中,W 1表示所述空间维度的卷积层的参数。
S222:对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中,通过可学习的残差保留系数λ将当前步的第一中间特征图
Figure 109894DEST_PATH_IMAGE015
与上一步输出的空间维度的特征图
Figure 802913DEST_PATH_IMAGE016
进行残差融合,得到当前步的第二中间特征图F l
Figure 956813DEST_PATH_IMAGE017
,其中,l为整数,l=2、…、n
S223:将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,得到所述多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到
Figure 26269DEST_PATH_IMAGE010
Figure 378753DEST_PATH_IMAGE018
Figure 258985DEST_PATH_IMAGE019
,其中,
Figure 696919DEST_PATH_IMAGE020
表示激活函数,
Figure 304487DEST_PATH_IMAGE021
表示所述多个空间位置的权重。
图像局部特征提取是为了利用注意力机制分别提取每一层的局部特征,突出不同颗粒尺度图像的细节信息。图3为本发明实施例提供的一种局部特征提取的流程图。在本实施例中,进行了多次图像局部特征提取,如图3所示,每一次图像局部特征提取包括以下两个阶段。
1.通道维度的注意力机制阶段:将待提取的特征图F在通道维度进行最大值池化,得到特征图
Figure 777057DEST_PATH_IMAGE022
;将F在通道维度平均值池化,得到特征图
Figure 562610DEST_PATH_IMAGE023
。将
Figure 674791DEST_PATH_IMAGE024
Figure 899099DEST_PATH_IMAGE023
分别输入第一全连接层(Fully Connected layer,FC),第一FC后连接有一个激活函数
Figure 413126DEST_PATH_IMAGE025
(图3中未显示),
Figure 884428DEST_PATH_IMAGE026
后连接有第二FC。
Figure 296954DEST_PATH_IMAGE022
依次经过第一FC、
Figure 997057DEST_PATH_IMAGE026
和第二FC后,得到中间特征图
Figure 178640DEST_PATH_IMAGE027
Figure 945476DEST_PATH_IMAGE023
依次经过第一FC、
Figure 845299DEST_PATH_IMAGE026
和第二FC后,得到中间特征图
Figure 411410DEST_PATH_IMAGE028
。将
Figure 385182DEST_PATH_IMAGE027
Figure 198286DEST_PATH_IMAGE028
进行融合,得到通道维度的特征图F ch 。第二FC后连接有一个激活函数
Figure 523088DEST_PATH_IMAGE020
F ch 经过
Figure 627311DEST_PATH_IMAGE020
后,得到各个通道的权重。
Figure 783485DEST_PATH_IMAGE020
Figure 705174DEST_PATH_IMAGE026
为非线性激活函数,用于增加特征图的非线性能力,其中,
Figure 500960DEST_PATH_IMAGE020
为sigmod操作,
Figure 674453DEST_PATH_IMAGE026
为relu操作。将各个通道的权重与待提取特征图在通道维度进行乘法运算,即各个通道维度的权重与相应通道的二维特征图相乘,得到带有通道维度注意力的特征图。
以上过程可以用公式(1)来表示:
Figure 833205DEST_PATH_IMAGE029
(1)
其中, A c 表示带有通道维度注意力的特征图,
Figure 738845DEST_PATH_IMAGE030
Figure 21927DEST_PATH_IMAGE031
表示第一FC和第二FC的参数,
Figure 467952DEST_PATH_IMAGE020
Figure 598719DEST_PATH_IMAGE026
表示激活函数,
Figure 986844DEST_PATH_IMAGE023
Figure 570272DEST_PATH_IMAGE022
分别表示平均值池化后的特征图以及最大值池化后的特征图。
需要说明的是,在本实施例中,图像的特征图可以理解为一个立方体,立方体的宽W和高H可以理解为二维特征图的长和宽,即一个二维特征图的横向维度和纵向维度;而立方体的长C就是特征图的通道。在本实施例中,由于输入图像通过卷积层后得到了多张二维特征图,由多张二维特征图组成了图像最终的特征图,因此可以将每一个卷积层得到二维特征图理解为对应一个通道。
计算机视觉中的注意力机制的主要是想让系统学会把注意力放在感兴趣的地方。一方面,具备注意力机制的神经网络能够自主学习注意力机制,另一方面,注意力机制能够反过来帮助我们去理解神经网络看到的世界。在本实施例中,通过通道维度的注意力机制,可以学习不同通道的权重,给对于图像识别更有价值的通道赋予更高的权重,反之赋予更低的权重。这样操作的结果会提升图像识别的准确率。
2.空间维度的注意力机制阶段:将A c 在空间维度分别进行最大值池化,得到特征图
Figure 757671DEST_PATH_IMAGE032
;将A c 在空间维度进行平均值池化,得到特征图
Figure 742944DEST_PATH_IMAGE012
。将
Figure 239654DEST_PATH_IMAGE011
Figure 310378DEST_PATH_IMAGE012
通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图
Figure 301468DEST_PATH_IMAGE033
Figure 328198DEST_PATH_IMAGE014
,其中,W 1表示所述空间维度的卷积层的参数。对所述多个空间位置的权重进行n步迭代计算,并进行残差融合,以探索更多的信息。在每一步迭代计算中,通过可学习的残差保留系数λ将当前步的第一中间特征图
Figure 746541DEST_PATH_IMAGE034
与上一步输出的空间维度的特征图QUOTE
Figure 38982DEST_PATH_IMAGE035
Figure 83031DEST_PATH_IMAGE035
进行残差融合,得到当前步的第二中间特征图F l
Figure 777317DEST_PATH_IMAGE036
,其中,l为整数,l=2、…、n。将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,增加特征图的非线性能力。将激活后的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图。
以上过程可以用公式(2)来表示:
Figure 366562DEST_PATH_IMAGE037
(2)
其中,
Figure 411878DEST_PATH_IMAGE010
表示第n步的带有通道维度注意力特征图, W n 表示第n步的卷积层(conv)的参数,
Figure 994038DEST_PATH_IMAGE020
表示激活函数,
Figure 542831DEST_PATH_IMAGE012
Figure 568556DEST_PATH_IMAGE038
分别表示A c 平均值池化后的特征图以及最大值池化后的特征图,λ表示可学习的残差保留系数。可选地,
Figure 835589DEST_PATH_IMAGE039
为sigmoid运算。
参照公式(2),特征图的计算同样经过了n步迭代,每一步迭代的过程如下。首先,将某次迭代的输入特征图进行最大值池化和平均值池化,再将两种池化的结果加起来得到池化值之和。然后,经过一个卷积层得到该步迭代的中间值。最后,将该步的中间值与前一步迭代的结果,通过残差保留系数进行加权相加,然后将加权相加的结果送入激活函数激活得到该轮迭代的输出的特征图。
需要说明的是,空间维度的注意力机制是一个迭代的过程,共进行了n步迭代,而“残差融合”是指该步所得到的结果不仅与该步有关,还使用了前一步的结果。例如,第n步的结果
Figure 955861DEST_PATH_IMAGE010
除了与第n步中的
Figure 624739DEST_PATH_IMAGE040
有关,还与第(n-1)步的结果
Figure 945999DEST_PATH_IMAGE041
有关。公式(1)为一步迭代的过程,每一步迭代中都采用了残差融合,在反复的凝练中充分利用了图像信息。
在一实施例中,S30中,所述对
Figure 434749DEST_PATH_IMAGE001
Figure 624291DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图,包括:步骤S31-S35。
S31:将
Figure 85360DEST_PATH_IMAGE042
通过一个卷积,得到卷积后的高层特征图
Figure 436575DEST_PATH_IMAGE043
,其中,
Figure 678201DEST_PATH_IMAGE044
表示所述一个卷积的卷积核。
S32:将分别通过两个卷积,得到两个卷积后的低层特征图:
Figure 156587DEST_PATH_IMAGE045
Figure 721429DEST_PATH_IMAGE046
,其中,
Figure 446808DEST_PATH_IMAGE047
Figure 847834DEST_PATH_IMAGE048
分别表示所述两个卷积的卷积核。
S33:将
Figure 192228DEST_PATH_IMAGE049
作为待池化特征图,对所述待池化特征图进行金字塔池化,得到池化后的特征向量
Figure 877156DEST_PATH_IMAGE050
;将
Figure 320907DEST_PATH_IMAGE051
作为待池化特征图,对所述待池化特征图进行金字塔池化,得到池化后的特征向量
Figure 724075DEST_PATH_IMAGE052
S34:将
Figure 606580DEST_PATH_IMAGE052
Figure 83698DEST_PATH_IMAGE053
进行矩阵乘法,再进行softmax激活,得到相似性矩阵M
S35:将
Figure 760667DEST_PATH_IMAGE050
M进行矩阵乘法,将相乘后的结果与
Figure 136285DEST_PATH_IMAGE054
拼接,再经过一个卷积,得到所述非局部特征图。
在一实施例中,S33中,所述对所述待池化特征图进行金字塔池化,得到池化后的特征图,包括:步骤S331-S333。
S331:四个池化层分别以N 1×N 1N 2×N 2N 3×N 3N 4×N 4四种不同尺度的网格,将所述待池化特征图划分为
Figure 947115DEST_PATH_IMAGE055
Figure 154105DEST_PATH_IMAGE056
Figure 579139DEST_PATH_IMAGE057
Figure 504370DEST_PATH_IMAGE058
块,其中,N 1N 2N 3N 4均为正整数。
S332:所述四个池化层在各自划分得到的块上进行最大池化操作,分别提取到维度为
Figure 853312DEST_PATH_IMAGE055
Figure 118071DEST_PATH_IMAGE056
Figure 402422DEST_PATH_IMAGE059
Figure 549369DEST_PATH_IMAGE058
的四个特征向量。
S333:将所述四个特征向量进行融合,得到所述池化后的特征向量,其中,所述池化后的特征向量的维度为S
Figure 764319DEST_PATH_IMAGE060
非局部特征融合是为了汇总各层局部特征以及全局特征,得到非局部特征。图4为本发明实施例提供的一种非局部特征融合的流程图。参考图4,融合的具体过程如下。
1.在本发明中将融合前的高层特征图记为
Figure 945901DEST_PATH_IMAGE061
Figure 338837DEST_PATH_IMAGE062
表示高层特征图的通道数,
Figure 238659DEST_PATH_IMAGE063
包括
Figure 991721DEST_PATH_IMAGE062
个二维高层特征图。
Figure 27810DEST_PATH_IMAGE064
表示每个二维高层特征图的维度,
Figure 591646DEST_PATH_IMAGE065
,其中,
Figure 713186DEST_PATH_IMAGE066
表示每个二维高层特征图的宽,
Figure 269938DEST_PATH_IMAGE067
表示每个二维高层特征图的高。将
Figure 426113DEST_PATH_IMAGE068
通过一个
Figure 160851DEST_PATH_IMAGE069
卷积,该卷积核为
Figure 769687DEST_PATH_IMAGE070
,得到卷积后的高层特征
Figure 677600DEST_PATH_IMAGE071
需要说明的是,1×1卷积的作用是实现通道的升维和降维,也可以看作是实现了多个特征图的线性组合,实现了跨通道的信息整合。具体来说, 1×1卷积的输入、输出都是立方体(即多通道的的特征图),1×1卷积核实际上是对特征图中的每个像素点在不同通道上线性组合(信息整合),且保留了图片的原有平面结构。因此,1×1卷积仅仅是改变了通道的数量,进而达到升维和降维的功能,其中,C表示卷积之前的通道数,C’表示卷积之后的通道数,C’与后续操作的通道数相匹配。
2.在本发明中将融合前的特征记为
Figure 875232DEST_PATH_IMAGE072
Figure 843188DEST_PATH_IMAGE073
表示低层特征图的通道数,
Figure 877003DEST_PATH_IMAGE002
包括
Figure 588607DEST_PATH_IMAGE073
个二维低层特征图。
Figure 719374DEST_PATH_IMAGE074
表示每个二维低层特征图的维度,
Figure 45182DEST_PATH_IMAGE075
,其中,
Figure 363031DEST_PATH_IMAGE076
表示每个二维低层特征图的宽,
Figure 816009DEST_PATH_IMAGE077
表示每个二维低层特征图的高。将
Figure 801283DEST_PATH_IMAGE002
分别通过两个1×1卷积,卷积核分别为
Figure 297992DEST_PATH_IMAGE078
Figure 103137DEST_PATH_IMAGE048
,得到卷积后的低层特征图分别为
Figure 156543DEST_PATH_IMAGE079
Figure 934007DEST_PATH_IMAGE080
3.将卷积后的特征图
Figure 601617DEST_PATH_IMAGE081
Figure 159638DEST_PATH_IMAGE082
分别进行金字塔池化,得到池化后的特征向量
Figure 751156DEST_PATH_IMAGE083
Figure 648705DEST_PATH_IMAGE084
。图5为本发明实施例提供的一种空间金字塔池化的流程图。如图5所示,空间金字塔池化由4个最大池化层组成。对于输入任意大小的特征图,4个最大池化层分别以大小为8×8、6×6、3×3和1×1的网格将特征图分为64、36、9和1块,然后在每个块上进行最大池化操作,提取相应特征。第1个池化层提取64 维特征向量,第2个池化层提取36 维特征向量,第3个池化层提取9维特征向量,第4个池化层提取1维特征向量,最后将4个池化层提取的特征融合,得到64+36+9+1=110维特征向量,从而使任意大小特征图都能转化为110维的特征向量。使用空间金字塔池化操作的主要目的是为了获取场景语境信息,获取上下文的联系。
4.将其中一个池化后的特征
Figure 300266DEST_PATH_IMAGE085
与卷积后的高层特征F q 进行矩阵乘法,之再进行softmax激活,得到相似性矩阵
Figure 266954DEST_PATH_IMAGE086
,其中,M表征池化后的特征
Figure 662163DEST_PATH_IMAGE085
与卷积后的高层特征F q 间的相似性,矩阵乘法即第一个矩阵的行乘第二个矩阵的列的运算。
5.将剩余的池化后的特征
Figure 476535DEST_PATH_IMAGE087
与相似性矩阵M进行矩阵乘法,之后再将得到的结果与融合前的高层特征
Figure 236681DEST_PATH_IMAGE088
拼接,最后使用卷积进行卷积操作,得到最后的融合的非局部特征结果
Figure 503714DEST_PATH_IMAGE089
,其中,
Figure 889565DEST_PATH_IMAGE090
为融合后的通道数,N h 表示融合后的特征维度数。融合后的非局部特征包含了更多的信息,
Figure 496127DEST_PATH_IMAGE091
Figure 489491DEST_PATH_IMAGE092
Figure 243820DEST_PATH_IMAGE093
N h N high N low 可根据需要进行设计,以保持前后步骤之间的通道维度数量统一。该步骤的主要目的就是合理利用高层特征和低层特征,从而提取更多有用的信息。
需要说明的是,这里的“拼接”是指剩余的池化后的特征
Figure 433362DEST_PATH_IMAGE094
与相似性矩阵M进行矩阵乘法的结果是一个C’×N high 的矩阵,F high 是一个C high ×N high 的矩阵,由于二者的维度中都有N high ,所以按N high 维度拼接,可以得到一个(C’+C high )×N high 的矩阵。
在S20中,基于注意力机制得到了全局特征图以及不同的局部特征图。在S30中,对全局特征图以及不同的局部特征图进行融合,得到了非局部特征
Figure 894430DEST_PATH_IMAGE009
Figure 58695DEST_PATH_IMAGE095
……
Figure 300321DEST_PATH_IMAGE096
,其中,k=N,即非局部特征提取模块的层数。非局部特征融合也是一个重复多次的步骤,如X 1G融合、X 2X 1融合,X 3X 2融合……,所对应的结果就是
Figure 27974DEST_PATH_IMAGE009
Figure 405866DEST_PATH_IMAGE095
Figure 944295DEST_PATH_IMAGE097
……。
在一实施例中,S50中,所述基于F f ,利用全连接层预测X对应的行人编号,包括:步骤S51-S52。
S51:利用所述全连接层,将F f 映射为预测向量。
S52:选取所述预测向量中数值最大的元素,将所述数值最大的元素对应的行人编号作为预测的行人编号。
在该编号预测阶段,融合所有的非局部特征,并利用融合后的特征预测行人的编号。
下面结合一个应用实施例,对本发明实施例的行人重识别方法的实际应用进行说明。
在实际应用中,该方法可以包括一下几个阶段。
(1)图像采集
在图像采集阶段,根据实际的应用需要,使用相应采集设备获取。
(2)神经网络全局特征提取
在神经网络全局特征提取阶段,自适应地提取图像全局特征。据实际的应用需要,可以CNN来提取特征。
(3)局部特征提取
在局部特征提取阶段,利用本发明实施例提出的注意力机制,分别提取每一层的局部特征,突出不同颗粒尺度图像的细节信息。
(4)非局部特征融合
在非局部特征融合阶段,汇总各层局部特征以及全局特征,加权生成非局部特征,实现多层特征融合。
(5)编号预测
在生成预测行人编号阶段,通过真实行人编号信息等来建立优化目标函数,本发明还提出一个优化的损失函数:
Figure 407637DEST_PATH_IMAGE098
(3)
其中,损失函数
Figure 752031DEST_PATH_IMAGE099
共包含2项,分别是:
ID预测损失:
Figure 194817DEST_PATH_IMAGE100
Nu表示总的行人数量,y表示行人标签,
Figure 966464DEST_PATH_IMAGE101
表示给定的错误率,p i 表示网络预测该行人属于标签i行人的概率。
Figure 854786DEST_PATH_IMAGE102
用于计算预测的ID与真值的差别,即计算分类损失。
加强三元损失:
Figure 737291DEST_PATH_IMAGE103
,其中,d p 表示正样本对的绝对差别,d n 表示负样本对的绝对差别,
Figure 89775DEST_PATH_IMAGE104
表示正样本对与负样本对的相对差别。
Figure 219274DEST_PATH_IMAGE105
用于计算正样本对与负样本对的相对差别,并添加正样本对的绝对差别。
Figure 657208DEST_PATH_IMAGE106
为超参数。在本实施例中,可以将
Figure 281088DEST_PATH_IMAGE106
设置为1。训练过程中,可以采用随机梯度下降实现优化,初始学习率可以设置为
Figure 488078DEST_PATH_IMAGE107
,可以使用大小为8的批量处理,使用权重衰减迭代120轮。
评价指标选取行人重识别工作的通用指标平均精度均值,平均精度均值用于评估被比较的准确性,还可以使用Rank1精度来表明行人重识别时最高返回值的精度。
本发明实现了基于强注意力机制多层融合的神经网络的行人重识别方法,充分利用了注意力机制提取图像中的局部信息,并将不同层的局部特征与全局特征融合,形成了包含更多信息的特征,提高了预测行人编号的准确性。
本发明实施例提供的行人重识别方法可以实现以下有益效果。
1.本发明实施例使用通道维度注意力机制提取通道维度的注意力特征图。不同于基础的通道维度注意力机制,本发明在基础的通道维度注意力机制上使用了全局平均值化和最大值池化两种池化方法提取通道维度的信息,更全面地提取了通道维度的注意力图。
2.本发明实施例使用带残差的空间维度注意力机制提取空间维度的注意力特征图。不同于基础的空间维度注意力机制,本发明引入了残差网络的思想,通过提取融合多步空间注意力获取更丰富的空间维度的注意力图。
3. 本发明实施例采用非局部特征融合方法,在保证了含有丰富信息的高层特征不被噪音影响的同时,还增加了来自低层特征的粗粒度信息,所融合得到的特征能够显著提升结果的准确率。
4.本发明实施例采用空间金字塔池化操作,不同于基础的池化操作,空间金字塔池化能够解决输入尺寸不一致的问题,并固定输出尺寸。即空间金字塔池化可以使用同一特征不同尺寸作为输入,得到同样长度的池化特征。
5. 本发明实施例实现了端到端的基于强注意力机制多层融合的行人重识别,充分利用了各层局部信息与全局信息,不仅提高了行人重识别的精度,还使得深度网络的可解释性更强。通常,深度网络是一个黑盒,无法解释每一层的具体功能。而在本发明实施例中,可以对深度网络中各项操作的目的进行很好的解释。
实施例二
图6为本发明实施例提供的一种行人重识别装置的结构示意图。该装置用于实现实施例一提供的行人重识别方法,包括全局特征提取模块610、局部特征提取模块620、非局部特征融合模块630和编号预测模块640。
全局特征提取模块610用于获取输入图像X,对X进行图像全局特征提取,得到全局特征图G
局部特征提取模块620用于基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、NN为大于或等于2的整数。
非局部特征融合模块630用于将G作为高层特征图
Figure 601528DEST_PATH_IMAGE001
,将X 1作为低层特征图
Figure 713709DEST_PATH_IMAGE002
,对
Figure 938017DEST_PATH_IMAGE001
Figure 202776DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 221548DEST_PATH_IMAGE006
;将X j-1作为,将X j 作为
Figure 634075DEST_PATH_IMAGE002
,对
Figure 849024DEST_PATH_IMAGE001
Figure 30607DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图
Figure 485859DEST_PATH_IMAGE108
,其中,j为整数,j=2、…、N
编号预测模块640用于利用卷积运算对
Figure 57786DEST_PATH_IMAGE006
、…、
Figure 623896DEST_PATH_IMAGE008
进行融合,得到融合特征图F f ;基于F f ,利用全连接层预测X对应的行人编号。
在一实施例中,全局特征提取模块610是用于通过如下方式对X进行图像全局特征提取,得到全局特征图G:使用CNN作为骨干网络,将X输入所述CNN中进行图像全局特征提取,得到G
在一实施例中,局部特征提取模块620是用于通过如下方式对所述待提取特征图进行图像局部特征提取,得到局部特征图:
S21:利用通道维度的注意力机制,将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化,将池化结果进行通道维度的整合,得到通道维度的特征图;将所述通道维度的特征图进行非线性激活,得到多个通道的权重;将所述多个通道的权重与所述待提取特征图在通道维度上相乘,得到带有通道维度注意力的特征图A c
S22:利用空间维度的注意力机制,将A c 在空间维度分别进行最大值池化以及平均值池化,将池化结果进行空间位置的整合,得到空间维度的特征图;对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中进行残差融合,将第n步残差融合后的特征图进行非线性激活,得到多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图
Figure 112515DEST_PATH_IMAGE010
,其中,n为大于或等于2的整数;
S23:将
Figure 738669DEST_PATH_IMAGE010
作为所述局部特征图。
在一实施例中,局部特征提取模块620是用于通过如下方式实现S22:
S221:利用空间维度的注意力机制,将A c 在空间维度进行最大值池化,得到特征图
Figure 860208DEST_PATH_IMAGE032
;将A c 在空间维度进行平均值池化,得到特征图
Figure 354644DEST_PATH_IMAGE012
;将
Figure 448502DEST_PATH_IMAGE011
Figure 245556DEST_PATH_IMAGE012
通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图
Figure 979026DEST_PATH_IMAGE109
Figure 886939DEST_PATH_IMAGE110
,其中,W 1表示所述空间维度的卷积层的参数;
S222:对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中,通过可学习的残差保留系数
Figure 84571DEST_PATH_IMAGE111
将当前步的第一中间特征图
Figure 52527DEST_PATH_IMAGE112
与上一步输出的空间维度的特征图
Figure 273293DEST_PATH_IMAGE113
进行残差融合,得到当前步的第二中间特征图F l
Figure 47214DEST_PATH_IMAGE114
,其中,l为整数,l=2、…、n
S223:将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,得到所述多个空间位置的权重;将所述多个空间位置的权重与在空间维度进行乘法运算,得到
Figure 912402DEST_PATH_IMAGE115
Figure 238210DEST_PATH_IMAGE018
Figure 821638DEST_PATH_IMAGE116
,其中,
Figure 461566DEST_PATH_IMAGE117
表示激活函数,
Figure 181261DEST_PATH_IMAGE021
表示所述多个空间位置的权重。
在一实施例中,非局部特征融合模块630是用于通过如下方式对
Figure 491019DEST_PATH_IMAGE001
Figure 499427DEST_PATH_IMAGE002
进行非局部特征融合,得到非局部特征图:
S31:将
Figure 552833DEST_PATH_IMAGE042
通过一个卷积,得到卷积后的高层特征图
Figure 579564DEST_PATH_IMAGE118
,其中,
Figure 60224DEST_PATH_IMAGE119
表示所述一个卷积的卷积核;
S32:将
Figure 618244DEST_PATH_IMAGE002
分别通过两个卷积,得到两个卷积后的低层特征图:
Figure 147446DEST_PATH_IMAGE045
Figure 841732DEST_PATH_IMAGE046
,其中,
Figure 945823DEST_PATH_IMAGE047
Figure 725560DEST_PATH_IMAGE120
分别表示所述两个卷积的卷积核;
S33:将
Figure 58453DEST_PATH_IMAGE121
作为待池化特征图,对所述待池化特征图进行金字塔池化,得到池化后的特征向量
Figure 872825DEST_PATH_IMAGE122
;将
Figure 882238DEST_PATH_IMAGE123
作为待池化特征图,对所述待池化特征图进行金字塔池化,得到池化后的特征向量
Figure 149272DEST_PATH_IMAGE124
S34:将
Figure 348172DEST_PATH_IMAGE124
Figure 954734DEST_PATH_IMAGE125
进行矩阵乘法,再进行softmax激活,得到相似性矩阵M
S35:将
Figure 948097DEST_PATH_IMAGE126
M进行矩阵乘法,将相乘后的结果与
Figure 702427DEST_PATH_IMAGE001
拼接,再经过一个卷积,得到所述非局部特征图。
在一实施例中,非局部特征融合模块630是用于通过如下方式对所述待池化特征图进行金字塔池化,得到池化后的特征图:
S331:四个池化层分别以N 1×N 1N 2×N 2N 3×N 3N 4×N 4四种不同尺度的网格,将所述待池化特征图划分为
Figure 626389DEST_PATH_IMAGE055
Figure 149774DEST_PATH_IMAGE056
Figure 579619DEST_PATH_IMAGE057
Figure 758927DEST_PATH_IMAGE058
块,其中,N 1N 2N 3N 4均为正整数;
S332:所述四个池化层在各自划分得到的块上进行最大池化操作,分别提取到维度为
Figure 34051DEST_PATH_IMAGE055
Figure 864473DEST_PATH_IMAGE056
Figure 199639DEST_PATH_IMAGE059
Figure 928561DEST_PATH_IMAGE058
的四个特征向量;
S333:将所述四个特征向量进行融合,得到所述池化后的特征向量,其中,所述池化后的特征向量的维度为S
Figure 945058DEST_PATH_IMAGE127
在一实施例中,编号预测模块640是用于通过如下方式基于F f ,利用全连接层预测X对应的行人编号:
S41:利用所述全连接层,将F f 映射为预测向量;
S42:选取所述预测向量中数值最大的元素,将所述数值最大的元素对应的行人编号作为预测的行人编号。
本发明实施例提出的行人重识别装置可以实现以下有益效果。
1.本发明实施例使用通道维度注意力机制提取通道维度的注意力特征图。不同于基础的通道维度注意力机制,本发明在基础的通道维度注意力机制上使用了全局平均值化和最大值池化两种池化方法提取通道维度的信息,更全面地提取了通道维度的注意力图。
2.本发明实施例使用带残差的空间维度注意力机制提取空间维度的注意力特征图。不同于基础的空间维度注意力机制,本发明引入了残差网络的思想,通过提取融合多步空间注意力获取更丰富的空间维度的注意力图。
3. 本发明实施例采用非局部特征融合方法,在保证了含有丰富信息的高层特征不被噪音影响的同时,还增加了来自低层特征的粗粒度信息,所融合得到的特征能够显著提升结果的准确率。
4. 本发明实施例采用空间金字塔池化操作,不同于基础的池化操作,空间金字塔池化能够解决输入尺寸不一致的问题,并固定输出尺寸。即空间金字塔池化可以使用同一特征不同尺寸作为输入,得到同样长度的池化特征。
5. 本发明实施例实现了端到端的基于强注意力机制多层融合的行人重识别,充分利用了各层局部信息与全局信息,不仅提高了行人重识别的精度,还使得深度网络的可解释性更强。通常,深度网络是一个黑盒,无法解释每一层的具体功能。而在本发明实施例中,可以对深度网络中各项操作的目的进行很好的解释。
本发明实施例的行人重识别装置与实施例一中的行人重识别方法具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节,请参照实施例一中的行人重识别方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图7为本发明实施例提供的一种计算机设备的结构示意图。如图7所示,该设备包括处理器710和存储器720。处理器710的数量可以是一个或多个,图7中以一个处理器710为例。
存储器720作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的行人重识别方法的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,实现上述行人重识别方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种行人重识别方法,其特征在于,包括:
S10:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G
S20:基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、NN为大于或等于2的整数;
S30:将G作为高层特征图F high ,将X 1作为低层特征图F low ,对F high F low 进行非局部特征融合,得到非局部特征图
Figure 22518DEST_PATH_IMAGE001
;将X j-1作为F high ,将X j 作为F low ,对F high F low 进行非局部特征融合,得到非局部特征图
Figure 939659DEST_PATH_IMAGE002
,其中,j为整数,j=2、…、N
S40:利用卷积运算对
Figure 906347DEST_PATH_IMAGE001
、…、
Figure 301556DEST_PATH_IMAGE003
进行融合,得到融合特征图F f ;基于F f ,利用全连接层预测X对应的行人编号。
2.如权利要求1所述的行人重识别方法,其特征在于,S10中,所述对X进行图像全局特征提取,得到全局特征图G包括:
使用卷积神经网络CNN作为骨干网络,将X输入所述CNN中进行图像全局特征提取,得到G
3.如权利要求1所述的行人重识别方法,其特征在于,S20中,所述对所述待提取特征图进行图像局部特征提取,得到局部特征图包括:
S21:利用通道维度的注意力机制,将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化,将池化结果进行通道维度的整合,得到通道维度的特征图;将所述通道维度的特征图进行非线性激活,得到多个通道的权重;将所述多个通道的权重与所述待提取特征图在通道维度上相乘,得到带有通道维度注意力的特征图A c
S22:利用空间维度的注意力机制,将A c 在空间维度分别进行最大值池化以及平均值池化,将池化结果进行空间位置的整合,得到空间维度的特征图;对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中进行残差融合,将第n步残差融合后的特征图进行非线性激活,得到多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图
Figure 115928DEST_PATH_IMAGE004
,其中,n为大于或等于2的整数;
S23:将
Figure 63024DEST_PATH_IMAGE004
作为所述局部特征图。
4.如权利要求3所述的行人重识别方法,其特征在于,S22包括:
S221:利用空间维度的注意力机制,将A c 在空间维度进行最大值池化,得到特征图
Figure 267741DEST_PATH_IMAGE005
;将A c 在空间维度进行平均值池化,得到特征图
Figure 466641DEST_PATH_IMAGE006
;将
Figure 135520DEST_PATH_IMAGE005
Figure 315834DEST_PATH_IMAGE007
通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图F 1
Figure 70164DEST_PATH_IMAGE008
,其中,W 1表示所述空间维度的卷积层的参数;
S222:对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中,通过可学习的残差保留系数λ将当前步的第一中间特征图
Figure 744859DEST_PATH_IMAGE009
与上一步输出的空间维度的特征图
Figure 268244DEST_PATH_IMAGE010
进行残差融合,得到当前步的第二中间特征图F l
Figure 885039DEST_PATH_IMAGE011
,其中,l为整数,l=2、…、n
S223:将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,得到所述多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到
Figure 64347DEST_PATH_IMAGE012
Figure 339471DEST_PATH_IMAGE013
,其中,θ表示激活函数,
Figure 982942DEST_PATH_IMAGE014
表示所述多个空间位置的权重。
5.如权利要求1所述的行人重识别方法,其特征在于,S30中,所述对F high F low 进行非局部特征融合,得到非局部特征图,包括:
S31:将F high 通过一个卷积,得到卷积后的高层特征图
Figure 505059DEST_PATH_IMAGE015
,其中,
Figure 233980DEST_PATH_IMAGE016
表示所述一个卷积的卷积核;
S32:将F low 分别通过两个卷积,得到两个卷积后的低层特征图:
Figure 312795DEST_PATH_IMAGE017
Figure 748455DEST_PATH_IMAGE018
,其中,
Figure 520102DEST_PATH_IMAGE019
Figure 657692DEST_PATH_IMAGE020
分别表示所述两个卷积的卷积核;
S33:将F v 作为待池化特征图,对所述待池化特征图进行金字塔池化,得到池化后的特征向量
Figure 540197DEST_PATH_IMAGE021
;将F k 作为待池化特征图,对所述待池化特征图进行金字塔池化,得到池化后的特征向量
Figure 892681DEST_PATH_IMAGE022
S34:将
Figure 772912DEST_PATH_IMAGE022
F q 进行矩阵乘法,再进行softmax激活,得到相似性矩阵M
S35:将
Figure 210847DEST_PATH_IMAGE021
M进行矩阵乘法,将相乘后的结果与F high 拼接,再经过一个卷积,得到所述非局部特征图。
6.如权利要求5所述的行人重识别方法,其特征在于,S33中,所述对所述待池化特征图进行金字塔池化,得到池化后的特征图,包括:
S331:四个池化层分别以N 1×N 1N 2×N 2N 3×N 3N 4×N 4四种不同尺度的网格,将所述待池化特征图划分为
Figure 818414DEST_PATH_IMAGE023
Figure 290984DEST_PATH_IMAGE024
块,其中,N 1N 2N 3N 4均为正整数;
S332:所述四个池化层在各自划分得到的块上进行最大池化操作,分别提取到维度为
Figure 342117DEST_PATH_IMAGE025
Figure 267347DEST_PATH_IMAGE024
的四个特征向量;
S333:将所述四个特征向量进行融合,得到所述池化后的特征向量,其中,所述池化后的特征向量的维度为S
Figure 491655DEST_PATH_IMAGE026
7.如权利要求1所述的行人重识别方法,其特征在于,S40中,所述基于F f ,利用全连接层预测X对应的行人编号,包括:
S41:利用所述全连接层,将F f 映射为预测向量;
S42:选取所述预测向量中数值最大的元素,将所述数值最大的元素对应的行人编号作为预测的行人编号。
8.一种行人重识别装置,其特征在于,包括:
全局特征提取模块,用于获取输入图像X,对X进行图像全局特征提取,得到全局特征图G
局部特征提取模块,用于基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、NN为大于或等于2的整数;
非局部特征融合模块, 用于将G作为高层特征图F high ,将X 1作为低层特征图F low ,对F high F low 进行非局部特征融合,得到非局部特征图
Figure 740103DEST_PATH_IMAGE001
;将X j-1作为F high ,将X j 作为F low ,对F high F low 进行非局部特征融合,得到非局部特征图
Figure 962137DEST_PATH_IMAGE002
,其中,j为整数,j=2、…、N
编号预测模块,用于利用卷积运算对
Figure 374664DEST_PATH_IMAGE001
、…、
Figure 589613DEST_PATH_IMAGE003
进行融合,得到融合特征图F f ;基于F f ,利用全连接层预测X对应的行人编号。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的行人重识别方法。
CN202111237443.9A 2021-10-25 2021-10-25 一种行人重识别方法、装置及计算机设备 Active CN113723366B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111237443.9A CN113723366B (zh) 2021-10-25 2021-10-25 一种行人重识别方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111237443.9A CN113723366B (zh) 2021-10-25 2021-10-25 一种行人重识别方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN113723366A true CN113723366A (zh) 2021-11-30
CN113723366B CN113723366B (zh) 2022-03-25

Family

ID=78686092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111237443.9A Active CN113723366B (zh) 2021-10-25 2021-10-25 一种行人重识别方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN113723366B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240121A (zh) * 2022-09-22 2022-10-25 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116740384A (zh) * 2023-06-15 2023-09-12 东莞市商斯迈智能科技有限公司 洗地机的智能控制方法及系统
US11810366B1 (en) 2022-09-22 2023-11-07 Zhejiang Lab Joint modeling method and apparatus for enhancing local features of pedestrians

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110309701A (zh) * 2019-04-17 2019-10-08 武汉大学 一种基于跨视角同一区域的行人重识别方法
US20200125925A1 (en) * 2018-10-18 2020-04-23 Deepnorth Inc. Foreground Attentive Feature Learning for Person Re-Identification
CN111310518A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111507217A (zh) * 2020-04-08 2020-08-07 南京邮电大学 一种基于局部分辨特征融合的行人重识别方法
US20210064853A1 (en) * 2019-08-27 2021-03-04 Industry-Academic Cooperation Foundation, Yonsei University Person re-identification apparatus and method
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113283320A (zh) * 2021-05-13 2021-08-20 桂林安维科技有限公司 一种基于通道特征聚合的行人重识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200125925A1 (en) * 2018-10-18 2020-04-23 Deepnorth Inc. Foreground Attentive Feature Learning for Person Re-Identification
CN109472248A (zh) * 2018-11-22 2019-03-15 广东工业大学 一种行人重识别方法、系统及电子设备和存储介质
CN111310518A (zh) * 2018-12-11 2020-06-19 北京嘀嘀无限科技发展有限公司 图片特征提取方法、目标重识别方法、装置及电子设备
CN110309701A (zh) * 2019-04-17 2019-10-08 武汉大学 一种基于跨视角同一区域的行人重识别方法
CN110070073A (zh) * 2019-05-07 2019-07-30 国家广播电视总局广播电视科学研究院 基于注意力机制的全局特征和局部特征的行人再识别方法
US20210064853A1 (en) * 2019-08-27 2021-03-04 Industry-Academic Cooperation Foundation, Yonsei University Person re-identification apparatus and method
CN111461038A (zh) * 2020-04-07 2020-07-28 中北大学 一种基于分层多模式注意力机制的行人再识别方法
CN111507217A (zh) * 2020-04-08 2020-08-07 南京邮电大学 一种基于局部分辨特征融合的行人重识别方法
CN113239784A (zh) * 2021-05-11 2021-08-10 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113283320A (zh) * 2021-05-13 2021-08-20 桂林安维科技有限公司 一种基于通道特征聚合的行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHENGCAI LIAO 等: "Person Re-identification by Local Maximal Occurrence Representation and Metric Learning", 《2015IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
丁宗元 等: "基于距离中心化与投影向量学习的行人重识别", 《计算机研究与发展》 *
罗浩 等: "基于深度学习的行人重识别研究进展", 《自动化学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240121A (zh) * 2022-09-22 2022-10-25 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
CN115240121B (zh) * 2022-09-22 2023-01-03 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
US11810366B1 (en) 2022-09-22 2023-11-07 Zhejiang Lab Joint modeling method and apparatus for enhancing local features of pedestrians
CN116740384A (zh) * 2023-06-15 2023-09-12 东莞市商斯迈智能科技有限公司 洗地机的智能控制方法及系统
CN116740384B (zh) * 2023-06-15 2024-03-29 东莞市商斯迈智能科技有限公司 洗地机的智能控制方法及系统
CN116469132A (zh) * 2023-06-20 2023-07-21 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质
CN116469132B (zh) * 2023-06-20 2023-09-05 济南瑞泉电子有限公司 基于双流特征提取的跌倒检测方法、系统、设备及介质

Also Published As

Publication number Publication date
CN113723366B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN113723366B (zh) 一种行人重识别方法、装置及计算机设备
Gholamalinezhad et al. Pooling methods in deep neural networks, a review
Hussain et al. A deep neural network and classical features based scheme for objects recognition: an application for machine inspection
Chen et al. Deep learning features at scale for visual place recognition
Ma et al. Hyperspectral image classification based on deep deconvolution network with skip architecture
CN114529825B (zh) 用于消防通道占用目标检测的目标检测模型、方法及应用
JP2017062781A (ja) 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知
CN112906720B (zh) 基于图注意力网络的多标签图像识别方法
Li et al. HAR-Net: Joint learning of hybrid attention for single-stage object detection
CN112308200A (zh) 神经网络的搜索方法及装置
CN113486851B (zh) 基于双分支光谱多尺度注意力网络的高光谱图像分类方法
CN113191489B (zh) 二值神经网络模型的训练方法、图像处理方法和装置
CN111563507A (zh) 一种基于卷积神经网络的室内场景语义分割方法
CN112580480A (zh) 一种高光谱遥感影像分类方法及装置
CN111259919A (zh) 一种视频分类方法、装置及设备、存储介质
Fan et al. A novel sonar target detection and classification algorithm
Fu et al. A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos
Mahajan et al. Scene based classification of aerial images using convolution neural networks
CN113095251B (zh) 一种人体姿态估计方法及系统
Patil et al. Semantic Segmentation of Satellite Images using Modified U-Net
Li et al. REQA: Coarse-to-fine assessment of image quality to alleviate the range effect
Lv et al. Multi-scale attentive region adaptive aggregation learning for remote sensing scene classification
CN115909036A (zh) 局部-全局自适应引导增强的车辆重识别方法及系统
CN115423090A (zh) 一种面向细粒度识别的类增量学习方法
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant