CN113723366A - 一种行人重识别方法、装置及计算机设备 - Google Patents
一种行人重识别方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113723366A CN113723366A CN202111237443.9A CN202111237443A CN113723366A CN 113723366 A CN113723366 A CN 113723366A CN 202111237443 A CN202111237443 A CN 202111237443A CN 113723366 A CN113723366 A CN 113723366A
- Authority
- CN
- China
- Prior art keywords
- feature map
- pedestrian
- local
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
Description
技术领域
本发明实施例涉及多媒体信号处理领域,尤其涉及一种行人重识别方法、装置及计算机设备。
背景技术
近年来,人工智能与社会的方方面面联系越来越紧密,人工智能也为民众的生活提供了更多的便利。随着人工智能领域深度学习的快速发展,许多计算机视觉技术取得了重大突破,其中就包括行人重识别技术。
行人重识别技术又名行人再识别技术,是指利用计算机资源判断图像集中是否存在特定行人的技术,即从图库中检索出最有可能属于同一行人的图像或者图像集。行人重识别技术通常用于解决跨摄像机跟踪和监视安全性等问题,一般来说行人重识别可以视为图像检索问题。在监控视频中,受限于相机的分辨率和拍摄角度,通常无法获得高质量的人脸图像,因此在这种人脸识别失效的环境中,行人重识别技术就显得尤为重要。
大多数行人重识别方法为了得到更好的效果,往往专注于学习区分性和鲁棒性,以完成包括变换视角、不同身体姿势以及不同光照强度等挑战。所以考虑到利用深度学习所提取的全局特征对于空间位置变换以及外观变化具有一定的鲁棒性,因此,行人重识别技术依赖全局特征来检索图像。但是,仅凭借全局特征无法充分利用细粒度特征,并且全局特征可能会使注意力集中于一些干扰信息上,导致重识别的效果是无法预期的。
发明内容
本发明提供一种行人重识别方法、装置及计算机设备,以解决现有技术中存在的上述问题。
第一方面,本发明实施例提供了一种行人重识别方法。该方法包括:
S10:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G;
S20:基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、N,N为大于或等于2的整数;
S30:将G作为高层特征图,将X 1作为低层特征图,对和进行非局部特征融合,得到非局部特征图;将X j-1作为,将X j 作为,对和进行非局部特征融合,得到非局部特征图,其中,j为整数,j=2、…、N;
S40:利用卷积运算对、…、进行融合,得到融合特征图F f ;基于F f ,利用全连接层(Full Connected layer,简称为“FC”)预测X对应的行人编号(IDentity,简称“ID”)。
第二方面,本发明实施例还提供了一种行人重识别装置。该装置包括:
全局特征提取模块,用于获取输入图像X,对X进行图像全局特征提取,得到全局特征图G;
局部特征提取模块,用于基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、N,N为大于或等于2的整数;
非局部特征融合模块,用于将G作为高层特征图,将X 1作为低层特征图,对和进行非局部特征融合,得到非局部特征图;将X j-1作为,将X j 作为,对和进行非局部特征融合,得到非局部特征图,其中,j为整数,j=2、…、N;
第三方面,本发明实施例还提供了一种计算机设备。该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现本发明任一实施例提供的行人重识别方法。
本发明可以实现以下有益效果:
使用带残差的空间维度注意力机制提取空间维度的注意力特征图,引入了残差网络的思想,通过提取融合多步空间注意力获取更丰富的空间维度的注意力图;采用非局部特征融合方法,在保证了含有丰富信息的高层特征不被噪音影响的同时,增加了来自低层特征的粗粒度信息,所融合得到的特征能够显著提升结果的准确率。
附图说明
图1为本发明实施例提供的一种行人重识别方法的流程图。
图2为本发明实施例提供的另一种行人重识别方法的流程图。
图3为本发明实施例提供的一种局部特征提取的流程图。
图4为本发明实施例提供的一种非局部特征融合的流程图。
图5为本发明实施例提供的一种空间金字塔池化的流程图。
图6为本发明实施例提供的一种行人重识别装置的结构示意图。
图7为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
大多数行人重识别方法为了得到更好的效果,往往专注于学习区分性和鲁棒性,以完成包括变换视角、不同身体姿势以及不同光照强度等挑战。所以考虑到利用深度学习所提取的全局特征对于空间位置变换以及外观变化具有一定的鲁棒性,因此,行人重识别技术依赖全局特征来检索图像。但是,仅凭借全局特征无法充分利用细粒度特征,造成小区域信息缺失,并且全局特征可能会使注意力集中于一些干扰信息上,导致重识别的效果是无法预期的。为了尽可能避免这种结果,引入注意力机制以捕获有强区分性的人体局部特征并减少背景中的不同变化所带来的的噪音干扰,对于提升行人重识别技术的性能尤为重要。
随着注意力机制的应用领域不断延展,众多学者开始研究如何更好的利用注意力机制提升行人重识别任务的性能。但是,通过一些基础的注意力机制学习到的辨别性强的人体局部特征,有时不能很好地提升行人重识别任务的性能。这可能是因为:一方面,基础的注意力机制大概率只能学习到最简单的特征,这些特征只关注于图像的表面分布,不能很好地学习更有价值的局部特征;另一方面,使用基础的注意力机制的行人重识别方法没有考虑到不同局部特征之间的联系,导致一些有用的信息丢失,造成性能下降。
本发明提出了行人重识别方法,通过强注意力机制提取出更有价值的局部特征,并将全局特征和不同层提取到的局部特征进行融合以减少信息损失,从而提升行人重识别技术的检测精度。
实施例一
图1为本发明实施例提供的一种行人重识别方法的流程图。该方法引入了注意力机制,并将不同层的特征进行融合,包括步骤S10-S50。
S10:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G。
S20:基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、N,N为大于或等于2的整数。
S30:将G作为高层特征图,将X 1作为低层特征图,对和进行非局部特征融合,得到非局部特征图;将X j-1作为,将X j 作为,对和进行非局部特征融合,得到非局部特征图,其中,j为整数,j=2、…、N。
图2为本发明实施例提供的另一种行人重识别方法的流程图。图2以N =4为例,更直观地显示了整个行人重识别的流程。首先,对输入图像X进行了一次图像全局特征提取,得到了全局特征图G;进行了4次图像局部特征提取,分别得到了局部特征图X 1、X 2、X 3和X 4。将G、X 1、X 2、X 3和X 4进行非局部融合,再经过一个1×1卷积,得到融合特征图F f 。基于F f ,预测X对应的行人ID。
在一实施例中,S10中,所述对X进行图像全局特征提取,得到全局特征图G包括:使用CNN作为骨干网络,将X输入所述CNN中进行图像全局特征提取,得到G。
图像全局特征提取是为了将输入图像转换为全局特征图,突出图像的全局信息。可选地,使用CNN作为骨干网络,CNN包括卷积层、池化层以及全连接层,将输入图像依次通过一个或多个卷积层、池化层以及全连接层等,最终得到图像的全局特征图。卷积层用于提取输入图像的不同特征,某些卷积层可能只能提取一些低级的特征(如边缘、线条和角等的层级),使用更多卷积层的网络能从低级特征中迭代提取更复杂的特征。池化层用于对卷积层学习到的特征图进行亚采样处理,能有效降低后续网络层的输入维度,缩减模型大小,并提高了特征图的鲁棒性。全连接层把所有局部特征结合起来变成全局特征,用来计算模型任务(分类、回归)的得分。
在CNN中,将输入图像中的每个像素以及其邻域使用卷积核卷积,再使用池化层池化,使特征图能够代表的区域变大,逐步扩大感受野。最后得到的特征图则包含了图像的全局特征。
CNN中的卷积层、池化层以及全连接层的数量和链接顺序可以根据需求进行设计。本实施例中,可以使用Resnet50作为骨干网络。
在一实施例中,S20中,所述对所述待提取特征图进行图像局部特征提取,得到局部特征图包括步骤S21-S23。
S21:利用通道维度的注意力机制,将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化,将池化结果进行通道维度的整合,得到通道维度的特征图;将所述通道维度的特征图进行非线性激活,得到多个通道的权重;将所述多个通道的权重与所述待提取特征图在通道维度上相乘,得到带有通道维度注意力的特征图A c 。
S22:利用空间维度的注意力机制,将A c 在空间维度分别进行最大值池化以及平均值池化,将池化结果进行空间位置的整合,得到空间维度的特征图;对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中进行残差融合,将第n步残差融合后的特征图进行非线性激活,得到多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图,其中,n为大于或等于2的整数。
在一实施例中,S22包括:S221-S223。
S221:利用空间维度的注意力机制,将A c 在空间维度进行最大值池化,得到特征图;将A c 在空间维度进行平均值池化,得到特征图;将和通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图: ,其中,W 1表示所述空间维度的卷积层的参数。
S222:对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中,通过可学习的残差保留系数λ将当前步的第一中间特征图与上一步输出的空间维度的特征图进行残差融合,得到当前步的第二中间特征图F l :,其中,l为整数,l=2、…、n。
S223:将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,得到所述多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到: ,其中,表示激活函数,表示所述多个空间位置的权重。
图像局部特征提取是为了利用注意力机制分别提取每一层的局部特征,突出不同颗粒尺度图像的细节信息。图3为本发明实施例提供的一种局部特征提取的流程图。在本实施例中,进行了多次图像局部特征提取,如图3所示,每一次图像局部特征提取包括以下两个阶段。
1.通道维度的注意力机制阶段:将待提取的特征图F在通道维度进行最大值池化,得到特征图;将F在通道维度平均值池化,得到特征图。将和分别输入第一全连接层(Fully Connected layer,FC),第一FC后连接有一个激活函数(图3中未显示),后连接有第二FC。依次经过第一FC、和第二FC后,得到中间特征图。依次经过第一FC、和第二FC后,得到中间特征图。将和进行融合,得到通道维度的特征图F ch 。第二FC后连接有一个激活函数,F ch 经过后,得到各个通道的权重。和为非线性激活函数,用于增加特征图的非线性能力,其中,为sigmod操作,为relu操作。将各个通道的权重与待提取特征图在通道维度进行乘法运算,即各个通道维度的权重与相应通道的二维特征图相乘,得到带有通道维度注意力的特征图。
以上过程可以用公式(1)来表示:
需要说明的是,在本实施例中,图像的特征图可以理解为一个立方体,立方体的宽W和高H可以理解为二维特征图的长和宽,即一个二维特征图的横向维度和纵向维度;而立方体的长C就是特征图的通道。在本实施例中,由于输入图像通过卷积层后得到了多张二维特征图,由多张二维特征图组成了图像最终的特征图,因此可以将每一个卷积层得到二维特征图理解为对应一个通道。
计算机视觉中的注意力机制的主要是想让系统学会把注意力放在感兴趣的地方。一方面,具备注意力机制的神经网络能够自主学习注意力机制,另一方面,注意力机制能够反过来帮助我们去理解神经网络看到的世界。在本实施例中,通过通道维度的注意力机制,可以学习不同通道的权重,给对于图像识别更有价值的通道赋予更高的权重,反之赋予更低的权重。这样操作的结果会提升图像识别的准确率。
2.空间维度的注意力机制阶段:将A c 在空间维度分别进行最大值池化,得到特征图;将A c 在空间维度进行平均值池化,得到特征图。将和通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图:,其中,W 1表示所述空间维度的卷积层的参数。对所述多个空间位置的权重进行n步迭代计算,并进行残差融合,以探索更多的信息。在每一步迭代计算中,通过可学习的残差保留系数λ将当前步的第一中间特征图与上一步输出的空间维度的特征图QUOTE 进行残差融合,得到当前步的第二中间特征图F l :,其中,l为整数,l=2、…、n。将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,增加特征图的非线性能力。将激活后的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图。
以上过程可以用公式(2)来表示:
其中,表示第n步的带有通道维度注意力特征图, W n 表示第n步的卷积层(conv)的参数,表示激活函数,和分别表示A c 平均值池化后的特征图以及最大值池化后的特征图,λ表示可学习的残差保留系数。可选地,为sigmoid运算。
参照公式(2),特征图的计算同样经过了n步迭代,每一步迭代的过程如下。首先,将某次迭代的输入特征图进行最大值池化和平均值池化,再将两种池化的结果加起来得到池化值之和。然后,经过一个卷积层得到该步迭代的中间值。最后,将该步的中间值与前一步迭代的结果,通过残差保留系数进行加权相加,然后将加权相加的结果送入激活函数激活得到该轮迭代的输出的特征图。
需要说明的是,空间维度的注意力机制是一个迭代的过程,共进行了n步迭代,而“残差融合”是指该步所得到的结果不仅与该步有关,还使用了前一步的结果。例如,第n步的结果除了与第n步中的有关,还与第(n-1)步的结果有关。公式(1)为一步迭代的过程,每一步迭代中都采用了残差融合,在反复的凝练中充分利用了图像信息。
在一实施例中,S33中,所述对所述待池化特征图进行金字塔池化,得到池化后的特征图,包括:步骤S331-S333。
非局部特征融合是为了汇总各层局部特征以及全局特征,得到非局部特征。图4为本发明实施例提供的一种非局部特征融合的流程图。参考图4,融合的具体过程如下。
1.在本发明中将融合前的高层特征图记为。表示高层特征图的通道数,包括个二维高层特征图。表示每个二维高层特征图的维度,,其中,表示每个二维高层特征图的宽,表示每个二维高层特征图的高。将通过一个卷积,该卷积核为,得到卷积后的高层特征。
需要说明的是,1×1卷积的作用是实现通道的升维和降维,也可以看作是实现了多个特征图的线性组合,实现了跨通道的信息整合。具体来说, 1×1卷积的输入、输出都是立方体(即多通道的的特征图),1×1卷积核实际上是对特征图中的每个像素点在不同通道上线性组合(信息整合),且保留了图片的原有平面结构。因此,1×1卷积仅仅是改变了通道的数量,进而达到升维和降维的功能,其中,C表示卷积之前的通道数,C’表示卷积之后的通道数,C’与后续操作的通道数相匹配。
2.在本发明中将融合前的特征记为。表示低层特征图的通道数,包括个二维低层特征图。表示每个二维低层特征图的维度,,其中,表示每个二维低层特征图的宽,表示每个二维低层特征图的高。将分别通过两个1×1卷积,卷积核分别为和,得到卷积后的低层特征图分别为和。
3.将卷积后的特征图和分别进行金字塔池化,得到池化后的特征向量和。图5为本发明实施例提供的一种空间金字塔池化的流程图。如图5所示,空间金字塔池化由4个最大池化层组成。对于输入任意大小的特征图,4个最大池化层分别以大小为8×8、6×6、3×3和1×1的网格将特征图分为64、36、9和1块,然后在每个块上进行最大池化操作,提取相应特征。第1个池化层提取64 维特征向量,第2个池化层提取36 维特征向量,第3个池化层提取9维特征向量,第4个池化层提取1维特征向量,最后将4个池化层提取的特征融合,得到64+36+9+1=110维特征向量,从而使任意大小特征图都能转化为110维的特征向量。使用空间金字塔池化操作的主要目的是为了获取场景语境信息,获取上下文的联系。
4.将其中一个池化后的特征与卷积后的高层特征F q 进行矩阵乘法,之再进行softmax激活,得到相似性矩阵,其中,M表征池化后的特征与卷积后的高层特征F q 间的相似性,矩阵乘法即第一个矩阵的行乘第二个矩阵的列的运算。
5.将剩余的池化后的特征与相似性矩阵M进行矩阵乘法,之后再将得到的结果与融合前的高层特征拼接,最后使用卷积进行卷积操作,得到最后的融合的非局部特征结果,其中,为融合后的通道数,N h 表示融合后的特征维度数。融合后的非局部特征包含了更多的信息,与和,N h 与N high 和N low 可根据需要进行设计,以保持前后步骤之间的通道维度数量统一。该步骤的主要目的就是合理利用高层特征和低层特征,从而提取更多有用的信息。
需要说明的是,这里的“拼接”是指剩余的池化后的特征与相似性矩阵M进行矩阵乘法的结果是一个C’×N high 的矩阵,F high 是一个C high ×N high 的矩阵,由于二者的维度中都有N high ,所以按N high 维度拼接,可以得到一个(C’+C high )×N high 的矩阵。
在S20中,基于注意力机制得到了全局特征图以及不同的局部特征图。在S30中,对全局特征图以及不同的局部特征图进行融合,得到了非局部特征、……,其中,k=N,即非局部特征提取模块的层数。非局部特征融合也是一个重复多次的步骤,如X 1与G融合、X 2与X 1融合,X 3与X 2融合……,所对应的结果就是,,……。
在一实施例中,S50中,所述基于F f ,利用全连接层预测X对应的行人编号,包括:步骤S51-S52。
S51:利用所述全连接层,将F f 映射为预测向量。
S52:选取所述预测向量中数值最大的元素,将所述数值最大的元素对应的行人编号作为预测的行人编号。
在该编号预测阶段,融合所有的非局部特征,并利用融合后的特征预测行人的编号。
下面结合一个应用实施例,对本发明实施例的行人重识别方法的实际应用进行说明。
在实际应用中,该方法可以包括一下几个阶段。
(1)图像采集
在图像采集阶段,根据实际的应用需要,使用相应采集设备获取。
(2)神经网络全局特征提取
在神经网络全局特征提取阶段,自适应地提取图像全局特征。据实际的应用需要,可以CNN来提取特征。
(3)局部特征提取
在局部特征提取阶段,利用本发明实施例提出的注意力机制,分别提取每一层的局部特征,突出不同颗粒尺度图像的细节信息。
(4)非局部特征融合
在非局部特征融合阶段,汇总各层局部特征以及全局特征,加权生成非局部特征,实现多层特征融合。
(5)编号预测
在生成预测行人编号阶段,通过真实行人编号信息等来建立优化目标函数,本发明还提出一个优化的损失函数:
评价指标选取行人重识别工作的通用指标平均精度均值,平均精度均值用于评估被比较的准确性,还可以使用Rank1精度来表明行人重识别时最高返回值的精度。
本发明实现了基于强注意力机制多层融合的神经网络的行人重识别方法,充分利用了注意力机制提取图像中的局部信息,并将不同层的局部特征与全局特征融合,形成了包含更多信息的特征,提高了预测行人编号的准确性。
本发明实施例提供的行人重识别方法可以实现以下有益效果。
1.本发明实施例使用通道维度注意力机制提取通道维度的注意力特征图。不同于基础的通道维度注意力机制,本发明在基础的通道维度注意力机制上使用了全局平均值化和最大值池化两种池化方法提取通道维度的信息,更全面地提取了通道维度的注意力图。
2.本发明实施例使用带残差的空间维度注意力机制提取空间维度的注意力特征图。不同于基础的空间维度注意力机制,本发明引入了残差网络的思想,通过提取融合多步空间注意力获取更丰富的空间维度的注意力图。
3. 本发明实施例采用非局部特征融合方法,在保证了含有丰富信息的高层特征不被噪音影响的同时,还增加了来自低层特征的粗粒度信息,所融合得到的特征能够显著提升结果的准确率。
4.本发明实施例采用空间金字塔池化操作,不同于基础的池化操作,空间金字塔池化能够解决输入尺寸不一致的问题,并固定输出尺寸。即空间金字塔池化可以使用同一特征不同尺寸作为输入,得到同样长度的池化特征。
5. 本发明实施例实现了端到端的基于强注意力机制多层融合的行人重识别,充分利用了各层局部信息与全局信息,不仅提高了行人重识别的精度,还使得深度网络的可解释性更强。通常,深度网络是一个黑盒,无法解释每一层的具体功能。而在本发明实施例中,可以对深度网络中各项操作的目的进行很好的解释。
实施例二
图6为本发明实施例提供的一种行人重识别装置的结构示意图。该装置用于实现实施例一提供的行人重识别方法,包括全局特征提取模块610、局部特征提取模块620、非局部特征融合模块630和编号预测模块640。
全局特征提取模块610用于获取输入图像X,对X进行图像全局特征提取,得到全局特征图G。
局部特征提取模块620用于基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、N,N为大于或等于2的整数。
非局部特征融合模块630用于将G作为高层特征图,将X 1作为低层特征图,对和进行非局部特征融合,得到非局部特征图;将X j-1作为,将X j 作为,对和进行非局部特征融合,得到非局部特征图,其中,j为整数,j=2、…、N。
在一实施例中,全局特征提取模块610是用于通过如下方式对X进行图像全局特征提取,得到全局特征图G:使用CNN作为骨干网络,将X输入所述CNN中进行图像全局特征提取,得到G。
在一实施例中,局部特征提取模块620是用于通过如下方式对所述待提取特征图进行图像局部特征提取,得到局部特征图:
S21:利用通道维度的注意力机制,将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化,将池化结果进行通道维度的整合,得到通道维度的特征图;将所述通道维度的特征图进行非线性激活,得到多个通道的权重;将所述多个通道的权重与所述待提取特征图在通道维度上相乘,得到带有通道维度注意力的特征图A c ;
S22:利用空间维度的注意力机制,将A c 在空间维度分别进行最大值池化以及平均值池化,将池化结果进行空间位置的整合,得到空间维度的特征图;对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中进行残差融合,将第n步残差融合后的特征图进行非线性激活,得到多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图,其中,n为大于或等于2的整数;
在一实施例中,局部特征提取模块620是用于通过如下方式实现S22:
S221:利用空间维度的注意力机制,将A c 在空间维度进行最大值池化,得到特征图;将A c 在空间维度进行平均值池化,得到特征图;将和通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图:,其中,W 1表示所述空间维度的卷积层的参数;
S222:对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中,通过可学习的残差保留系数将当前步的第一中间特征图与上一步输出的空间维度的特征图进行残差融合,得到当前步的第二中间特征图F l :,其中,l为整数,l=2、…、n;
S223:将第n步的第二中间特征图F n 作为所述第n步残差融合后的特征图,进行非线性激活,得到所述多个空间位置的权重;将所述多个空间位置的权重与在空间维度进行乘法运算,得到: ,其中,表示激活函数,表示所述多个空间位置的权重。
在一实施例中,非局部特征融合模块630是用于通过如下方式对所述待池化特征图进行金字塔池化,得到池化后的特征图:
在一实施例中,编号预测模块640是用于通过如下方式基于F f ,利用全连接层预测X对应的行人编号:
S41:利用所述全连接层,将F f 映射为预测向量;
S42:选取所述预测向量中数值最大的元素,将所述数值最大的元素对应的行人编号作为预测的行人编号。
本发明实施例提出的行人重识别装置可以实现以下有益效果。
1.本发明实施例使用通道维度注意力机制提取通道维度的注意力特征图。不同于基础的通道维度注意力机制,本发明在基础的通道维度注意力机制上使用了全局平均值化和最大值池化两种池化方法提取通道维度的信息,更全面地提取了通道维度的注意力图。
2.本发明实施例使用带残差的空间维度注意力机制提取空间维度的注意力特征图。不同于基础的空间维度注意力机制,本发明引入了残差网络的思想,通过提取融合多步空间注意力获取更丰富的空间维度的注意力图。
3. 本发明实施例采用非局部特征融合方法,在保证了含有丰富信息的高层特征不被噪音影响的同时,还增加了来自低层特征的粗粒度信息,所融合得到的特征能够显著提升结果的准确率。
4. 本发明实施例采用空间金字塔池化操作,不同于基础的池化操作,空间金字塔池化能够解决输入尺寸不一致的问题,并固定输出尺寸。即空间金字塔池化可以使用同一特征不同尺寸作为输入,得到同样长度的池化特征。
5. 本发明实施例实现了端到端的基于强注意力机制多层融合的行人重识别,充分利用了各层局部信息与全局信息,不仅提高了行人重识别的精度,还使得深度网络的可解释性更强。通常,深度网络是一个黑盒,无法解释每一层的具体功能。而在本发明实施例中,可以对深度网络中各项操作的目的进行很好的解释。
本发明实施例的行人重识别装置与实施例一中的行人重识别方法具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节,请参照实施例一中的行人重识别方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
实施例三
图7为本发明实施例提供的一种计算机设备的结构示意图。如图7所示,该设备包括处理器710和存储器720。处理器710的数量可以是一个或多个,图7中以一个处理器710为例。
存储器720作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的行人重识别方法的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,实现上述行人重识别方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种行人重识别方法,其特征在于,包括:
S10:获取输入图像X,对X进行图像全局特征提取,得到全局特征图G;
S20:基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、N,N为大于或等于2的整数;
S30:将G作为高层特征图F high ,将X 1作为低层特征图F low ,对F high 和F low 进行非局部特征融合,得到非局部特征图;将X j-1作为F high ,将X j 作为F low ,对F high 和F low 进行非局部特征融合,得到非局部特征图,其中,j为整数,j=2、…、N;
2.如权利要求1所述的行人重识别方法,其特征在于,S10中,所述对X进行图像全局特征提取,得到全局特征图G包括:
使用卷积神经网络CNN作为骨干网络,将X输入所述CNN中进行图像全局特征提取,得到G。
3.如权利要求1所述的行人重识别方法,其特征在于,S20中,所述对所述待提取特征图进行图像局部特征提取,得到局部特征图包括:
S21:利用通道维度的注意力机制,将所述待提取特征图在通道维度分别进行最大值池化以及平均值池化,将池化结果进行通道维度的整合,得到通道维度的特征图;将所述通道维度的特征图进行非线性激活,得到多个通道的权重;将所述多个通道的权重与所述待提取特征图在通道维度上相乘,得到带有通道维度注意力的特征图A c ;
S22:利用空间维度的注意力机制,将A c 在空间维度分别进行最大值池化以及平均值池化,将池化结果进行空间位置的整合,得到空间维度的特征图;对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中进行残差融合,将第n步残差融合后的特征图进行非线性激活,得到多个空间位置的权重;将所述多个空间位置的权重与A c 在空间维度进行乘法运算,得到带有空间维度注意力的特征图,其中,n为大于或等于2的整数;
4.如权利要求3所述的行人重识别方法,其特征在于,S22包括:
S221:利用空间维度的注意力机制,将A c 在空间维度进行最大值池化,得到特征图;将A c 在空间维度进行平均值池化,得到特征图;将和通过空间维度的卷积层进行空间位置的整合,得到空间维度的特征图F 1:,其中,W 1表示所述空间维度的卷积层的参数;
S222:对所述空间维度的特征图进行n步迭代计算,在每一步迭代计算中,通过可学习的残差保留系数λ将当前步的第一中间特征图与上一步输出的空间维度的特征图进行残差融合,得到当前步的第二中间特征图F l :,其中,l为整数,l=2、…、n;
5.如权利要求1所述的行人重识别方法,其特征在于,S30中,所述对F high 和F low 进行非局部特征融合,得到非局部特征图,包括:
S32:将F low 分别通过两个卷积,得到两个卷积后的低层特征图:
7.如权利要求1所述的行人重识别方法,其特征在于,S40中,所述基于F f ,利用全连接层预测X对应的行人编号,包括:
S41:利用所述全连接层,将F f 映射为预测向量;
S42:选取所述预测向量中数值最大的元素,将所述数值最大的元素对应的行人编号作为预测的行人编号。
8.一种行人重识别装置,其特征在于,包括:
全局特征提取模块,用于获取输入图像X,对X进行图像全局特征提取,得到全局特征图G;
局部特征提取模块,用于基于注意力机制,将G作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X 1;基于注意力机制,将X i-1作为待提取特征图,对所述待提取特征图进行图像局部特征提取,得到局部特征图X i ,其中,i为整数,i=2、…、N,N为大于或等于2的整数;
非局部特征融合模块, 用于将G作为高层特征图F high ,将X 1作为低层特征图F low ,对F high 和F low 进行非局部特征融合,得到非局部特征图;将X j-1作为F high ,将X j 作为F low ,对F high 和F low 进行非局部特征融合,得到非局部特征图,其中,j为整数,j=2、…、N;
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的行人重识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111237443.9A CN113723366B (zh) | 2021-10-25 | 2021-10-25 | 一种行人重识别方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111237443.9A CN113723366B (zh) | 2021-10-25 | 2021-10-25 | 一种行人重识别方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723366A true CN113723366A (zh) | 2021-11-30 |
CN113723366B CN113723366B (zh) | 2022-03-25 |
Family
ID=78686092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111237443.9A Active CN113723366B (zh) | 2021-10-25 | 2021-10-25 | 一种行人重识别方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723366B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240121A (zh) * | 2022-09-22 | 2022-10-25 | 之江实验室 | 一种用于增强行人局部特征的联合建模方法和装置 |
CN116469132A (zh) * | 2023-06-20 | 2023-07-21 | 济南瑞泉电子有限公司 | 基于双流特征提取的跌倒检测方法、系统、设备及介质 |
CN116740384A (zh) * | 2023-06-15 | 2023-09-12 | 东莞市商斯迈智能科技有限公司 | 洗地机的智能控制方法及系统 |
US11810366B1 (en) | 2022-09-22 | 2023-11-07 | Zhejiang Lab | Joint modeling method and apparatus for enhancing local features of pedestrians |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
CN110309701A (zh) * | 2019-04-17 | 2019-10-08 | 武汉大学 | 一种基于跨视角同一区域的行人重识别方法 |
US20200125925A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Foreground Attentive Feature Learning for Person Re-Identification |
CN111310518A (zh) * | 2018-12-11 | 2020-06-19 | 北京嘀嘀无限科技发展有限公司 | 图片特征提取方法、目标重识别方法、装置及电子设备 |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN111507217A (zh) * | 2020-04-08 | 2020-08-07 | 南京邮电大学 | 一种基于局部分辨特征融合的行人重识别方法 |
US20210064853A1 (en) * | 2019-08-27 | 2021-03-04 | Industry-Academic Cooperation Foundation, Yonsei University | Person re-identification apparatus and method |
CN113239784A (zh) * | 2021-05-11 | 2021-08-10 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN113283320A (zh) * | 2021-05-13 | 2021-08-20 | 桂林安维科技有限公司 | 一种基于通道特征聚合的行人重识别方法 |
-
2021
- 2021-10-25 CN CN202111237443.9A patent/CN113723366B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200125925A1 (en) * | 2018-10-18 | 2020-04-23 | Deepnorth Inc. | Foreground Attentive Feature Learning for Person Re-Identification |
CN109472248A (zh) * | 2018-11-22 | 2019-03-15 | 广东工业大学 | 一种行人重识别方法、系统及电子设备和存储介质 |
CN111310518A (zh) * | 2018-12-11 | 2020-06-19 | 北京嘀嘀无限科技发展有限公司 | 图片特征提取方法、目标重识别方法、装置及电子设备 |
CN110309701A (zh) * | 2019-04-17 | 2019-10-08 | 武汉大学 | 一种基于跨视角同一区域的行人重识别方法 |
CN110070073A (zh) * | 2019-05-07 | 2019-07-30 | 国家广播电视总局广播电视科学研究院 | 基于注意力机制的全局特征和局部特征的行人再识别方法 |
US20210064853A1 (en) * | 2019-08-27 | 2021-03-04 | Industry-Academic Cooperation Foundation, Yonsei University | Person re-identification apparatus and method |
CN111461038A (zh) * | 2020-04-07 | 2020-07-28 | 中北大学 | 一种基于分层多模式注意力机制的行人再识别方法 |
CN111507217A (zh) * | 2020-04-08 | 2020-08-07 | 南京邮电大学 | 一种基于局部分辨特征融合的行人重识别方法 |
CN113239784A (zh) * | 2021-05-11 | 2021-08-10 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN113283320A (zh) * | 2021-05-13 | 2021-08-20 | 桂林安维科技有限公司 | 一种基于通道特征聚合的行人重识别方法 |
Non-Patent Citations (3)
Title |
---|
SHENGCAI LIAO 等: "Person Re-identification by Local Maximal Occurrence Representation and Metric Learning", 《2015IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
丁宗元 等: "基于距离中心化与投影向量学习的行人重识别", 《计算机研究与发展》 * |
罗浩 等: "基于深度学习的行人重识别研究进展", 《自动化学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115240121A (zh) * | 2022-09-22 | 2022-10-25 | 之江实验室 | 一种用于增强行人局部特征的联合建模方法和装置 |
CN115240121B (zh) * | 2022-09-22 | 2023-01-03 | 之江实验室 | 一种用于增强行人局部特征的联合建模方法和装置 |
US11810366B1 (en) | 2022-09-22 | 2023-11-07 | Zhejiang Lab | Joint modeling method and apparatus for enhancing local features of pedestrians |
CN116740384A (zh) * | 2023-06-15 | 2023-09-12 | 东莞市商斯迈智能科技有限公司 | 洗地机的智能控制方法及系统 |
CN116740384B (zh) * | 2023-06-15 | 2024-03-29 | 东莞市商斯迈智能科技有限公司 | 洗地机的智能控制方法及系统 |
CN116469132A (zh) * | 2023-06-20 | 2023-07-21 | 济南瑞泉电子有限公司 | 基于双流特征提取的跌倒检测方法、系统、设备及介质 |
CN116469132B (zh) * | 2023-06-20 | 2023-09-05 | 济南瑞泉电子有限公司 | 基于双流特征提取的跌倒检测方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113723366B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723366B (zh) | 一种行人重识别方法、装置及计算机设备 | |
Gholamalinezhad et al. | Pooling methods in deep neural networks, a review | |
Hussain et al. | A deep neural network and classical features based scheme for objects recognition: an application for machine inspection | |
Chen et al. | Deep learning features at scale for visual place recognition | |
Ma et al. | Hyperspectral image classification based on deep deconvolution network with skip architecture | |
CN114529825B (zh) | 用于消防通道占用目标检测的目标检测模型、方法及应用 | |
JP2017062781A (ja) | 深層cnnプーリング層を特徴として用いる、類似度に基づく重要な対象の検知 | |
CN112906720B (zh) | 基于图注意力网络的多标签图像识别方法 | |
Li et al. | HAR-Net: Joint learning of hybrid attention for single-stage object detection | |
CN112308200A (zh) | 神经网络的搜索方法及装置 | |
CN113486851B (zh) | 基于双分支光谱多尺度注意力网络的高光谱图像分类方法 | |
CN113191489B (zh) | 二值神经网络模型的训练方法、图像处理方法和装置 | |
CN111563507A (zh) | 一种基于卷积神经网络的室内场景语义分割方法 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN111259919A (zh) | 一种视频分类方法、装置及设备、存储介质 | |
Fan et al. | A novel sonar target detection and classification algorithm | |
Fu et al. | A case study of utilizing YOLOT based quantitative detection algorithm for marine benthos | |
Mahajan et al. | Scene based classification of aerial images using convolution neural networks | |
CN113095251B (zh) | 一种人体姿态估计方法及系统 | |
Patil et al. | Semantic Segmentation of Satellite Images using Modified U-Net | |
Li et al. | REQA: Coarse-to-fine assessment of image quality to alleviate the range effect | |
Lv et al. | Multi-scale attentive region adaptive aggregation learning for remote sensing scene classification | |
CN115909036A (zh) | 局部-全局自适应引导增强的车辆重识别方法及系统 | |
CN115423090A (zh) | 一种面向细粒度识别的类增量学习方法 | |
CN114140524A (zh) | 一种多尺度特征融合的闭环检测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |