CN110765880A

CN110765880A - 一种轻量级视频行人重识别方法

Info

Publication number: CN110765880A
Application number: CN201910903126.2A
Authority: CN
Inventors: 姚睿; 高存远; 夏士雄; 周勇; 赵佳琦; 牛强; 袁冠; 张凤荣; 王重秋; 陈朋朋
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-02-07
Anticipated expiration: 2039-09-24
Also published as: CN110765880B

Abstract

本发明公开了一种轻量级视频行人重识别方法，属于计算机视觉技术处理技术领域。在搭建模型阶段，使用基于ShuffleNet v2的轻量级算法，同时，利用轻量级空间注意力机制模块处理人物图像细节，最后，通过一个在线差异识别模块来测量视频帧之间的特征差距，并使用该模块对不同质量的视频序列进行不同类型的时间建模。在模型训练阶段，输入行人的视频序列，使用上述搭建好的网络提取它们的特征表示，利用批量难分辨三元组损失和softmax损失共同训练并更新行人特征；在模型测试阶段，使用训练好的轻量级行人搜索模型对输入的目标查询行人，提取行人特征，并在大规模的视频序列中搜索出目标查询行人。本发明可应对大规模的现实场景图象，用于城市监控等安防领域。

Description

一种轻量级视频行人重识别方法

技术领域

本发明属于计算机视觉技术处理技术领域，具体涉及目标检索领域技术领域中的一种轻量级视频行人重识别方法。

背景技术

文献由S.Li,et al.,Diversity regularized spatiotemporal attention forvideo-based person re-identification,Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018,pp.369–378重新探讨针对视频行人重识别的时序建模问题。目前视频行人重识主要面临两个挑战：

1)高质量的帧级特征提取器，最终用于检索的行人特征不够具有判别力。

2)有效的时间建模，即时序特征聚合建模的过程，如何将帧级特征组合成用于检索的特征。

3)为了保证针对视频序列的实时性和有效性，需要保证模型足够的高效且简约，达到满足实际应用需求，解决计算资源高消耗等问题。

发明内容

本发明针对视频行人重识别的这些问题，选择高效的轻量级模型算法并嵌入轻量级的空间注意力机制，大大降低了模型的参数和计算量，并保证高质量的特征提取，并设计了在线差异识别模块，针对帧级特征之间的差异，选择针对该行人轨迹帧最合适的时序建模策略。

本方法有效地基于轻量级模型算法并嵌入轻量级的空间注意力机制建立模型。在将帧级特征组合成用于检索的特征时,没有选择单一的时序建模策略，而是根据实际行人轨迹序列的情况，采用对应的时序建模策略：时序注意力机制或时序池化。

为了实现上述技术目的，本发明所采用的技术方案是：

一种轻量级视频行人重识别方法，在模型搭建阶段，使用轻量级算法和轻量级的空间注意力机制SGE模块，并通过一个在线差异识别模块来测量视频帧之间的特征差距，针对帧级特征之间的差异，选择针对该行人轨迹帧最合适的时序建模策略,具体是：通过一个固定长度的队列，储存并更新每一批次中行人轨迹的帧级特征差异值，这是随着模型的训练在线更新的，计算队列中所有特征差异值的平均值U_m作为阈值，当每次前向传播时，计算该组视频序列的帧级特征差异值U_t并将其与阈值进行比较，如果U_t>U_m，则意味着帧之间的差异很大，并选择时序注意力机制模型；如果U_t≤U_m表示帧之间的差异很小，则选择时序池化；

在训练阶段，首先通过搭建好的模型进行特征提取，得到它的特征表示，利用批量难分辨三元组损失和softmax损失联合优化和更新行人特征,得到训练好的视频行人重识别模型；

在模型测试阶段，使用训练好的视频行人重识别模型对输入的目标行人提取特征，接着对输入的视频序列进行特征提取，从而进行特征相似度匹配排序并检索，找到视频序列中的目标行人。

所述轻量级算法是基于ShuffleNet v2的轻量级算法。

当有的帧存在遮挡，光照问题，则表明帧间特征差异很大。

所述模型测试阶段具体是构建视频行人重识别的测试样本；并将测试样本送入训练好的视频行人重识别网络，对输入的行人测试样本进行特征提取，接着输入行人视频序列并获取相同维度的行人特征，利用欧式距离做特征相似度匹配，排序出可能性最高的身份标签，将其作为检索身份的结果。

本发明的有益效果是：

第一、提出基于ShuffleNet v2的轻量级模型来提取视觉特征，以节省计算资源并满足实际应用需求。

第二，作为一种轻量级空间注意力策略(Spatial Group-wise Enhance，SGE)模块几乎不需要额外的参数和计算量，通过为每个空间位置生成注意因子来调整每个子空间要素的重要性，同时完美地嵌入轻量级视频重新模型。

第三，设计了一个在线差异识别模块，它利用一个固定长度的队列来存储帧级特征差异，并不断更新特征差异的阈值，通过计算该组视频序列的帧级特征差异值并将该帧级特征差异值与阈值进行比较，从而对不同情况的行人轨迹选择合适有效的时序特征聚合模型，减少参数量的同时保证了模型的高性能。

附图说明

图1是本发明一种轻量级视频行人重识别方法的网络流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

随着智能硬件的推广，深度学习的部署越来越方便，所以对于模型的压缩，以及针对特定任务如何部署受到广泛的关注和兴趣。视频行人重识别作为安防等监控领域的关键，需要达到高度的实时性和有效性，然而现在大部分的行人重识别网络使基于ResNet-50网络，参数量和计算量都很大。本发明使用基于ShuffleNet v2网络，参数量和计算量减少了20倍之多，并且嵌入了轻量级的空间注意力机制模块(Spatial Group-wise Enhance)，几乎没有引入参数的同时，增加了模型处理空间细节的能力。

除此之外，本发明还设计了在线差异识别模块，通过一个固定长度的队列，储存并更新每一批次中行人轨迹的帧级特征差异值，这是随着模型的训练在线更新的，通过队列保存的差异值设置阈值，并于每次前向训练得到的差异值对比，如果帧间特征差异很大，比如有的帧存在遮挡，光照，分辨率低的问题，则选择时序注意力机制，使模型分配少量的权重在这些低质量的帧上，而更加关注高质量的帧。若帧间特征差异小，则不用分配权重，选择时序池化，分配相同的权重，减少模型的计算量，所述在线差异识别模块的算法流程如下所示：

如图1所示是本发明一种轻量级视频行人重识别方法，包括以下几个步骤：

1、搭建基于ShuffleNet v2的轻量级视频行人重识别网络模型：

(a)ShuffleNet v2在ImageNet数据集上进行预训练，设置每个块的通道数为1缩放比率。

(b)针对输入图像的尺寸问题，取消了全局池化层。

(c)针对行人重识别的类别数量，微调全连接层的输出维度为行人类别数。

2、嵌入轻量级的空间注意力机制SGE模块：

(d)修改轻量级空间注意力机制(Spatial Group-wise Enhance，SGE)模块的输入和输出参数，嵌入进ShuffleNet v2的卷积层之后。

3、设置在线差异识别模块，针对不同质量的视频序列选择不同的时序建模策略：

(e)经过由ShuffleNet v2和空间注意力机制SGE模块获得的特征向量是[b×t，c，w，h]，其中，b表示批次大小batchsize，t表示每个行人轨迹随机选择的帧的数量、c表示通道数、w表示特征向量的宽度，h表示特征向量的高度。然后对w和h的两个维度压缩平均，得到特征[b×t，c]，再对特征向量进行扩展维度为[b,t,c]。

(f)由于t表示每个行人轨迹随机选择的帧的数量，因此将t作为分解维度，并且此时特征[b，c]指代每个轨迹的单帧图像特征。

(g)使用欧氏距离来计算同一轨迹下单帧之间的特征差异值，并将平均值存储到固定长度为A的队列中。

(h)每次传入一组视频序列，都如(e,f,g)的步骤得到一个特征差异值，插入到队列的尾端，按照队列先进先出的特点，不断更新这个队列，与模型的训练同步。

(i)计算队列中所有特征差异值的平均值U_m作为阈值，当每次前向传播时，计算该组视频序列的帧级特征差异值U_t并将其与阈值进行比较。如果U_t>U_m，则意味着帧之间的差异很大，并选择时序注意力机制模型。如果U_t≤U_m表示帧之间的差异很小，则选择时序池化。

4、利用批量难分辨三元组损失(batch hard triplet loss)和softmax损失(softmax loss)联合优化和更新行人特征：

(j)为了组合成一个批次，我们随机抽样P个身份并随机为每个身份抽样N个轨迹，所述批量难分辨三元组损失如下：

其中，

和

分别指的是选择同一个批次中最难区分的正样本和批次中最难区分的负样本，其中[b]₊＝max(0,b)。

所述的softmax loss如下：

其中，P为身份抽样的数量，N为每个身份抽样的轨迹数量，p_i,a和q_i,a分别指的是样本的真实类别和预测类别。

总损失L是这两种损失的组合L＝L_triplet+L_softmax。

5、对视频行人重识别模型的测试与预测：

构建视频行人重识别的测试样本；并将测试样本送入训练好的一种利用在线差异识别模块的轻量级视频行人重识别网络，对输入的行人测试样本进行特征提取，接着输入行人视频序列并获取相同维度的行人特征，利用欧式距离做特征相似度匹配，排序出可能性最高的身份标签，将其作为检索身份的结果。

Claims

1.一种轻量级视频行人重识别方法，其特征在于，

在模型搭建阶段，使用轻量级算法和轻量级的空间注意力机制SGE模块，并通过一个在线差异识别模块来测量视频帧之间的特征差距，针对帧级特征之间的差异，选择针对该行人轨迹帧最合适的时序建模策略,具体是：通过一个固定长度的队列，储存并更新每一批次中行人轨迹的帧级特征差异值，这是随着模型的训练在线更新的，计算队列中所有特征差异值的平均值U_m作为阈值，当每次前向传播时，计算该组视频序列的帧级特征差异值U_t并将其与阈值进行比较，如果U_t>U_m，则意味着帧之间的差异很大，并选择时序注意力机制模型；如果U_t≤U_m表示帧之间的差异很小，则选择时序池化；

2.根据权利要求1所述的轻量级视频行人重识别方法，其特征在于：所述轻量级算法是基于ShuffleNet v2的轻量级算法。

3.根据权利要求1所述的轻量级视频行人重识别方法，其特征在于：当有的帧存在遮挡，光照问题，则表明帧间特征差异很大。

4.根据权利要求1所述的轻量级视频行人重识别方法，其特征在于：所述模型测试阶段具体是构建视频行人重识别的测试样本；并将测试样本送入训练好的视频行人重识别网络，对输入的行人测试样本进行特征提取，接着输入行人视频序列并获取相同维度的行人特征，利用欧式距离做特征相似度匹配，排序出可能性最高的身份标签，将其作为检索身份的结果。