CN111967310A

CN111967310A - 一种联合注意力机制的时空特征聚合方法及系统、终端

Info

Publication number: CN111967310A
Application number: CN202010634849.XA
Authority: CN
Inventors: 杨华; 陈琳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-11-20

Abstract

本发明提供了一种联合注意力机制的时空特征聚合方法及系统、终端，在深度网络中利用卷积神经网络提取行人的空域特征，利用递归神经网络综合提取出的空域特征从而得到行人的时域特征；采用特征提取网络分别生成对应的质量敏感和帧敏感的注意力分数用以对空域和时域特征进行动态融合；通过线性叠加融合得到的质量敏感的空域特征和帧敏感的时域特征，得到行人空时特征表达；分别在行人的上中下部位进行网络训练得到相应的具有互补性质局部特征，拼接得到更具区分度的特征表达。本发明具有很好的鲁棒性，能更好的解决与适应遮挡和光线变化等情况；结合行人的空域和时域特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

Description

一种联合注意力机制的时空特征聚合方法及系统、终端

技术领域

本发明属于计算机视觉技术领域，具体地，涉及一种一种联合注意力机制的时空特征聚合方法及系统、终端。

背景技术

行人重识别是智能视频监控中的一项关键任务,是近年来计算机视觉领域中一直备受关注的研究热点,适用于安防以及公共场所寻人等技术领域。行人重识别可定义为:在无重叠的视频监控网络中,对于摄像头中给定的某个行人,判断其是否出现在其他摄像头中的过程。它是一种自动的目标识别技术,能在监控网络中快速定位到感兴趣的人体目标,是智能视频监控和人体行为分析等应用中的重要步骤。

如何在有限的数据中提取足够具有区分度的特征是行人重识别技术中的关键性挑战。基于行人视频的重识别算法由于包含更多的连续性样本，能够更好的解决由遮挡等带来的挑战，近期来得到了越来越多的关注。从现有的技术文献检索发现，基于视频的行人重识别整体来讲有两种主要的研究思路。思路之一是利用传统的计算机是利用传统的计算机视觉的方法，通过复杂的数学推导和模型设计从而实现特定数据集的特征提取(参见I.Kviatkovsky,A.Adam,and E.Rivlin.Color invariants for personreidentification.IEEE Transactions on Pattern Analysis and MachineIntelligence,35(7):1622–1634,2013.1；R.Zhao,W.Ouyang,and X.Wang.Person re-identification by salience matching.In Proceedings of the IEEE InternationalConference on Computer Vision,pages 2528–2535,2013.1)但是，这类方法受不同摄像机视角下的形变，光照变化等的严重影响，性能并不好。另一方面，复杂的模型设计对不同的数据集并没有很好地适应性，从而严重影响了这类方法的普适性。思路二是利用深度学习的方法，设计网络自适应的学习行人的特征表达。这种方法近年来得到了很大的应用，尤其是用深度卷积网络(CNN)提取行人的空域特征(参见E.Ahmed,M.Jones,andT.K.Marks.An improved deep learning architecture for person re-identification.In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition,pages 3908–3916,2015.1,2)取得了比较好的效果。然而，这类方法在行人外貌特征变化很大时，提取出的空域特征并不够可靠，此时性能不够理想。利用递归神经网络进行更可靠的时域特征提取是另一个有效方案(参见McLaughlin,N.,Martinezdel Rincon,J.,&Miller,P.Recurrent convolutional network for video-basedperson re-identification.In Proceedings of the IEEE conference on computervision and pattern recognition,pages 1325-1334,2016)。然而，递归神经网络存在梯度发散的问题，无法很好的综合早期图像帧的信息，缺乏必要的空域信息，限制了最终的识别准确度。空域特征和时域特征也无法进行有效的融合而获得进一步性能。

发明内容

本发明针对现有技术中存在的上述问题，提供了一种联合注意力机制的时空特征聚合方法及系统、终端，提出了多重注意力机制分别用于时空特征聚合。提出了质量敏感的注意力模块用于卷积神经网络(CNN)中空域特征学习；提出了帧敏感的注意力模块用于递归神经网络(LSTM)中时域特征学习；此外，提出了自适应的残差学习机制，通过线性叠加，用于自适应的时空域特征融合，从而得到更具辨识度更有效的特征表达。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种联合注意力机制的空时特征聚合方法，包括：

构造全卷积神经网络FCN1，对行人视频中空域特征进行提取，得到质量分数μ^t并输出；

构造全卷积神经网络FCN2，对于行人视频中的一个行人序列中的每一张图片s^t，均经过此全卷积神经网络FCN2，得到图片特征f^t；

对得到的图片特征f^t和对应的质量分数μ^t进行群池化，得到质量敏感的序列化行人空域特征X_C；

基于递归神经网络，提取行人序列中的每一张图片s^t的时域特征o^t；

利用递归神经网络，提取帧敏感分数v^t用于表征当前帧在时域特征提取中的重要性；

对得到的时域特征o^t和帧敏感分数v^t进行群池化，提取帧敏感的序列化行人时域特征X_R；

将行人序列中的行人图像分为上中下三部分，分别经过由上述全卷积神经网络和递归神经网络构成的特征提取网络，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终更具区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R表达；

将提取出的更具区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R通过线性叠加进行融合，得到聚合的行人空时特征X_F。

优选地，所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层。

优选地，所述全卷积神经网络FCN2包括22层GoogLeNet。

优选地，对得到的图片特征f^t和对应的质量分数μ^t进行群池化以及对得到的时域特征o^t和帧敏感分数v^t进行群池化中，所述群池化为：

其中，T表示行人视频中的一个行人序列的长度。

优选地，将提取出的更具区分度的质量敏感的行人空域特征X_C和提取出的更具区分度的帧敏感的行人时域特征X_R进行融合，其中特征向量采用1:1的线性叠加，具体为：

X_F＝X_C+X_R。

优选地，所述方法还包括：

将行人的空时特征X_F送入三元损失函数和交叉熵损失函数，计算出损失从而对特征提取网络进行优化迭代。

优选地，采用三元损失函数和交叉熵损失函数对特征提取网络进行优化迭代中，两种损失函数的权重比为1:1。

根据本发明的另一个方面，提供了一种联合注意力机制的空时特征聚合系统，包括：

全卷积神经网络FCN1模块，所述全卷积神经网络FCN1模块用于对行人视频中空域特征进行提取，得到质量分数μ^t并输出；

全卷积神经网络FCN2模块，所述全卷积神经网络FCN2模块用于输入行人视频中的一个行人序列中的每一张图片s^t，得到图片特征f^t；

递归神经网络模块，所述递归神经网络模块用于提取行人序列中的每一张图片s^t的时域特征o^t以及用于表征当前帧在时域特征提取中的重要性的帧敏感分数v^t；

特征提取模块，所述特征提取模块对图片特征f^t和对应的质量分数μ^t进行群池化，得到质量敏感的序列化行人空域特征X_C；对得到的时域特征o^t和帧敏感分数v^t进行群池化，提取帧敏感的序列化行人时域特征X_R；输入行人序列中的行人图像的上中下三部分，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终更具区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R表达；

特征聚合模块，将提取出的更具区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R通过线性叠加层进行融合，得到聚合的行人空时特征X_F。

优选地，所述全卷积神经网络FCN2包括22层GoogLeNet。

优选地，所述系统还包括：

优化迭代模块，所述优化迭代模块采用三元损失函数和交叉熵损失函数，将行人的空时特征x_F作为输入，计算出损失从而对所述系统中的各模块进行优化迭代。

根据本发明的第三个方面，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

由于采用了上述技术方案，本发明具有如下至少一项有益效果：

1、本发明提供的一种联合注意力机制的时空特征聚合方法及系统、终端，提出了多重注意力机制，用于学习更具区分度的行人序列化空域和时域特征。

2、本发明提供的一种联合注意力机制的时空特征聚合方法及系统、终端，利用残差学习机制，通过设定的线性叠加自适应地融合行人的空域和时域特征，用以对行人进行描述，因此能得到更为鲁棒性和代表性的特征表达。

3、本发明提供的一种联合注意力机制的时空特征聚合方法及系统、终端，提出了基于行人部位的局部特征融合方案，分别在行人的上中下三个部位图片应用所提出的多重注意力机制时空特征融合网络，从而得到更具有区分度的特征表达，进一步提升下一步的行人识别率。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一优选实施例中联合注意力机制的时空特征聚合方法的流程示意图；

图2为本发明一优选实施例中生成注意力分数网络结构的具体参数和组成方式示意图。

具体实施方式

下面对本发明的实施例作详细说明：本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

本发明一实施例提供了一种联合注意力机制的时空特征聚合方法，该方法针对现有技术中存在的问题，采用了注意力机制使得识别网络更多的关注于高质量的行人图片样本从而提取出更有效地空域特征。然而，在时域特征提取中，视频帧中的不同样本同样包含了不同的贡献程度，需要分配不同的注意力分数才能用于更有效的时域特征提取。此外，空域外貌特征和时域周期性特征之前需要根据特征的重要性给予不同的关注度，才能得到更具区分度的特征表达。

基于以上研究，本实施例所提供的方法，包括如下步骤：

下面对本实施例所提供的方法进一步详细描述如下。

作为一优选实施例，第一步：构造卷积神经网络，实现对质量敏感的注意力模块，用于对行人视频中空域特征提取。

具体步骤为：

1.设计一个全卷积神经网络FCN1，对行人视频中的每一张图片s^t，均经过此卷积神经网络，得到质量分数输出μ^t：

μ^t＝Normalization(Sigmoid(FCN1(s^t)))

其中FCN1代表经过全卷积神经网络的操作，Sigmoid代表经过sigmoid函数激活操作，Normalization代表经过归一化操作。

2.设计另一个全卷积网络FCN2，对于一个行人序列中的每一张图片s^t，均经过此全卷积网络，得到图片特征f^t，

C(s^t)＝＝FCN2(s^t),

f^t＝C(s^t)

其中C代表全卷积操作。其中行人序列的长度为T。

3.对得到的图片特征f^t和对应的质量分数μ^t进行群池化(set-pooling),得到质量敏感的序列化行人空域特征X_C：

其中，attention代表应用空域注意力机制操作。

作为一优选实施例，第二步：构造递归神经网络，实现对帧敏感的注意力模块，用于对行人视频中时域特征提取。

具体步骤为：

1.基于递归神经网络(LSTM)，提取行人的时域特征o^t：

s^t＝sigmoid(W_s[h_t-1,f^t]+b_s),

i^t＝sigmoid(W_i[h_t-1,f^t]+b_i),

o^t＝sigmoid(W_o[h_t-1,f^t]+b_o),

h^t＝o^t*tanh(c^t)

其中，i^t表示LSTM中输入门接收f^t后的输出，

表示处理后的输入信息，c^t表示本次单元状态，h^t表示当前时刻单元门的输出，f^t表示行人序列图片s^t经由上一个步骤的全卷积网络提取的图片特征，sigmoid代表经过sigmoid函数激活操作，W为学习的网络权重参数，b为偏置参数，tanh为双切正切激活函数。

2.利用LSTM提取帧敏感分数v^t用于表征当前帧在时域特征提取中的重要性：

v^t＝sigmoid(W[h_t-1,μ^t]+b),

其中，sigmoid代表经过sigmoid函数激活操作，W为学习的网络权重参数，b为偏置参数，μ^t为质量分数。

3.类似的，利用set-pooling提取帧敏感的序列化时域特征：

作为一优选实施例，第三步：基于行人部位信息提取更具区分度的全局特征表达。

具体步骤为：

1.将行人图像分为上中下三部分，分别经过步骤一到步骤二所构成的网络的特征提取步骤，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终更具区分度的特征表达。

X_C＝concat(X_C,m)

X_R＝concat(X_R,m)

其中concat为特征拼接操作。m取值为{1,2,3}代表三个部位特征。

第四步：构造残差学习机制，用于自适应地融合行人视频中的空域和时域特征。

具体步骤为：

1.设计一个线性叠加层，将CNN提取出的更具区分度的质量敏感的序列化行人空域特征x_c和LSTM提取出的更具区分度的帧敏感的行人时域特征x_R进行融合，得到聚合的行人空时特征表达x_F：

x_F＝x_C+x_R

作为一优选实施例，所述方法还包括：

第五步:将行人空时特征表达x_F送入三元损失函数(triplet loss)和交叉熵损失(Softmax loss)函数中算出损失从而对整个特征提取网络进行优化迭代。

作为一优选实施例，第五步中，采用三元损失函数和交叉熵损失函数对特征提取网络进行优化迭代中，两种损失函数的权重比为1:1。

下面结合说明书附图以及具体数据库中图像，以一具体实例对本实施例中方法所采用技术方案以及所达到技术效果进一步说明如下。

本实施采用的图像帧来自数据库PRID-2011，i-LIDS-VID和MARS中的群体监控视频(video for traffic surveillance)。

该视频序列是由(Martin Hirzer,Csaba Beleznai,Peter M.Roth,and HorstBischof.2011.Person Re-identification by Descriptive and DiscriminativeClassification.Springer Berlin Heidelberg.91–102pages.),(Wei Shi Zheng,Shaogang Gong,and Tao Xiang.2009.Associating Groups of People.Active RangeImaging Dataset for Indoor Surveillance(2009))和(Zheng,Liang,et al."Mars:Avideo benchmark for large-scale person re-identification."European Conferenceon Computer Vision.Springer,Cham,2016.)提供的，以进行行人重识别性能评估。

本实例中，涉及的联合注意力机制的时空特征聚合方法，包括如下具体步骤：

第一步：构造卷积神经网络，实现对质量敏感的注意力模块，用于对行人视频中空域特征提取。

本步骤中具体操作为：

1.设计一个全卷积神经网络FCN1，包含三个卷积层，两个池化层，一个全连接层。本实施例中，具体参数如表1所示。

表1

Name	Type	Number Output	Kernel Size	Stride	Pad
						Convl_s	convolution	64	7	2	3
Pool1_s	Maxpooling	-	3	2	-
						Convl_ss1	convolution	64	3	1	1
Conv2_s	convolution	64	3	1	1
						Pool_s	Avepooling	-	7	7	-
fcl_s	InnerProduct	3	-	-	-

2.对行人视频中的每一张图片s^t，均经过此卷积神经网络，得到质量分数输出μ^t：

μ^t＝Normalization(Sigmoid(FCN1(s^t)))

3.设计另一个全卷积网络FCN2，对于一个行人序列中的每一张图片，均经过此全卷积网络，得到图片特征f^t，

C(s^t)＝＝FCN2(s^t)，

f^t＝C(s^t)

其中FCN2代表经过卷积神经网络的操作。本实施例中，FCN2为22层的googlenet，特征向量维度为2048。

4.对得到的特征f^t和对应的质量分数μ^t进行群池化(set-pooling)，得到质量敏感的序列化空域特征：

本实施例中T为8。

图1是方法流程图，其中对各步骤中的特征提取进行了具体示意。图2是步骤中所述注意力分数生成结构的具体参数和组成方式示意图。行人是以序列的方式输入，经过的卷积池化等操作后提取出质量敏感的空域特征送入递归神经网络中进行下一步综合得到时域特征。

第二步：构造递归神经网络，实现对帧敏感的注意力模块，用于对行人视频中时域特征提取。

本步骤中具体操作为：

1.基于递归神经网络(LSTM)，提取行人的时域特征：

s^t＝sigmoid(W_s[h_t-1,f^t]+b_s),

i^t＝sigmoid(W_i[h_t-1,f^t]+b_i),

o^t＝sigmoid(W_o[h_t-1,f^t]+b_o),

h^t＝o^t*tanh(c^t)

其中sigmoid代表经过sigmoid函数激活操作，w为学习的网络权重参数，b为偏置参数。本实例中特征维度为2048。

v^t＝sigmoid(W[h_t-1,μ^t]+b),

3.利用set-pooling提取帧敏感的序列化时域特征：

本实例中T为8。

第三步：基于行人部位信息提取更具区分度的全局特征表达。

本步骤中具体操作为：

2.将行人图像分为上中下三部分，分别经过步骤一到步骤二所构成的网络的特征提取步骤，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终更具区分度的特征表达。

X_C＝concat(X_C,m)

X_R＝concat(X_R,m)

其中concat为特征拼接操作。m取值为{1,2,3}代表三个部位特征。本实例中最终得到的聚和特征维度为6144.

本步骤中具体操作为：

设计一个线性叠加层，将CNN提取出的平均行人空域特征x_c和LSTM提取出的时域特征x_R进行融合，得到行人的空时特征表达x_F：

x_F＝x_C+x_R

在本实例中，特征向量采用1:1的线性叠加。

第五步：将行人的空时特征表达x_F送入三元损失函数(triplet loss)和交叉熵损失(Softmax loss)函数中算出损失从而对整个网络进行优化迭代。

在本实例中，两种损失的计算权重为1:1。

图1是整个方法运行的流程示意图。详细阐释了第一到第四步实施的具体过程和数据流向。本实施例中的联合注意力机制的时空特征聚合方法集成在同一个深度神经网络架构中，易于重现且具有很好地适用性和推广性。

综上所述，本实施例中方法步骤同时考虑了给予注意力机制的行人空域特征和更具代表性的时域特征，并在同一深度网络中加之进行了高效的融合，提取出的特征更具有区分度，更具有鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；结合了行人的局部特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

以下表2，是基于本实施例中方法得到的性能的最终识别准确率的数值比较结果。从上至下依次陈列了用以对照的其他结果同本实施例实施结果(JAFN)的数值比较。可以看到本实施例精度在不同数据集上都有很好的效果提升。

表2

以下表3，是本实施例的方法的中间结果性能比较，用以说明本实施例提出的注意力机制的有效性。其中QA代表在空域特征上采用质量敏感的注意力机制，FA代表在时域特征上采用帧敏感的注意力机制，RL代表采用残差学习机制综合时空域特征得到的识别结果。

表3

以下表4，是本实施例的方法的中间结果性能比较，用以说明本本实施例提出的时空特征融合机制的有效性。自上而下分别为只选用CNN提取的空域特征，只选用LSTM提取的时域特征，以及最终的空时特征融合结果比较。

表4

从表3和表4中可以看出，本实施例的方法提出的多重注意力融合机制，以及时空特征融合的方法的确能带来性能上的提升，能够更好的挖掘行人的本质特征，给出更好的特征提取方案。

本发明另一实施例，提供了一种联合注意力机制的空时特征聚合系统，包括：

特征提取模块，所述特征提取模块对图片特征f^t和对应的质量分数μ^t进行群池化，得到质量敏感的序列化行人空域特征X_C；对得到的时域特征o^t和帧敏感分数v^t进行群池化，提取帧敏感的序列化行人时域特征X_R；输入行人序列中的行人图像的上中下三部分，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终更具区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化时域特征X_R表达；

作为一优选实施例，所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层。

作为一优选实施例，所述全卷积神经网络FCN2包括22层GoogLeNet。

作为一优选实施例，所述系统还包括：

本发明第三个实施例，提供了一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，所述处理器执行所述计算机程序时能够用于执行上述任一项所述的方法。

可选地，存储器，用于存储程序；存储器，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器62用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器中。并且上述的计算机程序、计算机指令、数据等可以被处理器调用。

处理器，用于执行存储器存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。具体可以参见前面方法实施例中的相关描述。

处理器和存储器可以是独立结构，也可以是集成在一起的集成结构。当处理器和存储器是独立结构时，存储器、处理器可以通过总线耦合连接。

本发明上述实施例提供的联合注意力机制的时空特征聚合方法及系统、终端，在一个深度网络中利用卷积神经网络(CNN)提取行人的空域特征，利用递归神经网络(RNN)综合提取出的空域特征从而得到行人的时域特征；采用全卷积神经网络和递归神经网络分别生成对应的质量敏感和帧敏感的注意力分数用以对空域和时域特征进行动态融合；在网络中设计叠加层融合得到的质量敏感的空域特征和帧敏感的时域特征，得到行人的空时特征表达；分别在行人的上中下部位进行网络训练得到相应的具有互补性质局部特征，拼接得到更具区分度的特征表达，具有很好的鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；结合了行人的空域和时域特征，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率。

本发明上述实施例提供的联合注意力机制的时空特征聚合方法及系统、终端，首先设计了一个一体化的网络，同时包含质量敏感、帧敏感的特征提取功能，以及自适应的残差学习用于多重注意力机制下的时空域特征聚合功能。其中利用卷积神经网络(CNN)和质量敏感的注意力机制提取更有效行人的空域特征，利用递归神经网络(LSTM)和帧敏感的注意力机制提取更有效的时域特征，利用残差学习自适应地综合提取出的空时特征从而得到更具区分度的行人特征表达。其次，本发明上述实施例提供的，联合注意力机制的时空特征聚合方法及系统、终端，通过设置多重损失函数，进一步地提升了识别性能。

由于采用了上述技术方案，本发明上述实施例同时考虑了行人的空域特征和更具代表性的时域特征，并在同一深度网络中加之进行了高效的融合，提取出的特征更具有区分度，更具有鲁棒性，能更好的解决与适应遮挡和光线变化等复杂情况；同时结合了多重注意力机制，分别对空域和时域特征进行优化，挖掘行人的细节特性，使其在下一步的行人识别中发挥更好的性能及效率，尤其适合于行人重识别中提升识别性能的时空特征提取。

需要说明的是，本发明提供的方法中的步骤，可以利用系统中对应的模块、装置、单元等予以实现，本领域技术人员可以参照系统的技术方案实现方法的步骤流程，即，系统中的实施例可理解为实现方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的系统及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种联合注意力机制的空时特征聚合方法，其特征在于，包括：

将行人序列中的行人图像分为上中下三部分，分别经过由上述全卷积神经网络和递归神经网络构成的特征提取网络，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终具有区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R表达；

将提取出的具有区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R通过线性叠加进行融合，得到聚合的行人空时特征X_F。

2.根据权利要求1所述的联合注意力机制的时空特征聚合方法，其特征在于，所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层；和/或

所述全卷积神经网络FCN2包括22层GoogLeNet。

3.根据权利要求1所述的联合注意力机制的时空特征聚合方法，其特征在于，对得到的图片特征f^t和对应的质量分数μ^t进行群池化以及对得到的时域特征o^t和帧敏感分数v^t进行群池化中，所述群池化为：

其中，T表示行人视频中的一个行人序列的长度。

4.根据权利要求1所述的联合注意力机制的时空特征聚合方法，其特征在于，将提取出的具有区分度的质量敏感的行人空域特征X_C和提取出的具有区分度的帧敏感的行人时域特征X_R进行融合，其中特征向量采用1:1的线性叠加，具体为：

X_F＝X_C+X_R。

5.根据权利要求1-4任一项所述的联合注意力机制的时空特征聚合方法，其特征在于，还包括：

6.根据权利要求5所述的联合注意力机制的时空特征聚合方法，其特征在于，采用三元损失函数和交叉熵损失函数对特征提取网络进行优化迭代中，两种损失函数的权重比为1:1。

7.一种联合注意力机制的空时特征聚合系统，其特征在于，包括：

特征提取模块，所述特征提取模块对图片特征f^t和对应的质量分数μ^t进行群池化，得到质量敏感的序列化行人空域特征X_C；对得到的时域特征o^t和帧敏感分数v^t进行群池化，提取帧敏感的序列化行人时域特征X_R；输入行人序列中的行人图像的上中下三部分，提取出局部联合注意力机制的空时特征，然后组合成最终的全局特征，得到最终具有区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R表达；

特征聚合模块，将提取出的具有区分度的质量敏感的序列化行人空域特征X_C和帧敏感的序列化行人时域特征X_R通过线性叠加层进行融合，得到聚合的行人空时特征X_F。

8.根据权利要求7所述的联合注意力机制的时空特征聚合系统，其特征在于，所述全卷积神经网络FCN1包括三个卷积层、两个池化层和一个全连接层；和/或

所述全卷积神经网络FCN2包括22层GoogLeNet。

9.根据权利要求7或8所述的联合注意力机制的时空特征聚合系统，其特征在于，还包括：

10.一种终端，包括存储器、处理器及存储在存储器上并能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时能够用于执行权利要求1至6中任一项所述的方法。