CN110765880A - 一种轻量级视频行人重识别方法 - Google Patents
一种轻量级视频行人重识别方法 Download PDFInfo
- Publication number
- CN110765880A CN110765880A CN201910903126.2A CN201910903126A CN110765880A CN 110765880 A CN110765880 A CN 110765880A CN 201910903126 A CN201910903126 A CN 201910903126A CN 110765880 A CN110765880 A CN 110765880A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- video
- model
- lightweight
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种轻量级视频行人重识别方法,属于计算机视觉技术处理技术领域。在搭建模型阶段,使用基于ShuffleNet v2的轻量级算法,同时,利用轻量级空间注意力机制模块处理人物图像细节,最后,通过一个在线差异识别模块来测量视频帧之间的特征差距,并使用该模块对不同质量的视频序列进行不同类型的时间建模。在模型训练阶段,输入行人的视频序列,使用上述搭建好的网络提取它们的特征表示,利用批量难分辨三元组损失和softmax损失共同训练并更新行人特征;在模型测试阶段,使用训练好的轻量级行人搜索模型对输入的目标查询行人,提取行人特征,并在大规模的视频序列中搜索出目标查询行人。本发明可应对大规模的现实场景图象,用于城市监控等安防领域。
Description
技术领域
本发明属于计算机视觉技术处理技术领域,具体涉及目标检索领域技术领域中的一种轻量级视频行人重识别方法。
背景技术
文献由S.Li,et al.,Diversity regularized spatiotemporal attention forvideo-based person re-identification,Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition,2018,pp.369–378重新探讨针对视频行人重识别的时序建模问题。目前视频行人重识主要面临两个挑战:
1)高质量的帧级特征提取器,最终用于检索的行人特征不够具有判别力。
2)有效的时间建模,即时序特征聚合建模的过程,如何将帧级特征组合成用于检索的特征。
3)为了保证针对视频序列的实时性和有效性,需要保证模型足够的高效且简约,达到满足实际应用需求,解决计算资源高消耗等问题。
发明内容
本发明针对视频行人重识别的这些问题,选择高效的轻量级模型算法并嵌入轻量级的空间注意力机制,大大降低了模型的参数和计算量,并保证高质量的特征提取,并设计了在线差异识别模块,针对帧级特征之间的差异,选择针对该行人轨迹帧最合适的时序建模策略。
本方法有效地基于轻量级模型算法并嵌入轻量级的空间注意力机制建立模型。在将帧级特征组合成用于检索的特征时,没有选择单一的时序建模策略,而是根据实际行人轨迹序列的情况,采用对应的时序建模策略:时序注意力机制或时序池化。
为了实现上述技术目的,本发明所采用的技术方案是:
一种轻量级视频行人重识别方法,在模型搭建阶段,使用轻量级算法和轻量级的空间注意力机制SGE模块,并通过一个在线差异识别模块来测量视频帧之间的特征差距,针对帧级特征之间的差异,选择针对该行人轨迹帧最合适的时序建模策略,具体是:通过一个固定长度的队列,储存并更新每一批次中行人轨迹的帧级特征差异值,这是随着模型的训练在线更新的,计算队列中所有特征差异值的平均值Um作为阈值,当每次前向传播时,计算该组视频序列的帧级特征差异值Ut并将其与阈值进行比较,如果Ut>Um,则意味着帧之间的差异很大,并选择时序注意力机制模型;如果Ut≤Um表示帧之间的差异很小,则选择时序池化;
在训练阶段,首先通过搭建好的模型进行特征提取,得到它的特征表示,利用批量难分辨三元组损失和softmax损失联合优化和更新行人特征,得到训练好的视频行人重识别模型;
在模型测试阶段,使用训练好的视频行人重识别模型对输入的目标行人提取特征,接着对输入的视频序列进行特征提取,从而进行特征相似度匹配排序并检索,找到视频序列中的目标行人。
所述轻量级算法是基于ShuffleNet v2的轻量级算法。
当有的帧存在遮挡,光照问题,则表明帧间特征差异很大。
所述模型测试阶段具体是构建视频行人重识别的测试样本;并将测试样本送入训练好的视频行人重识别网络,对输入的行人测试样本进行特征提取,接着输入行人视频序列并获取相同维度的行人特征,利用欧式距离做特征相似度匹配,排序出可能性最高的身份标签,将其作为检索身份的结果。
本发明的有益效果是:
第一、提出基于ShuffleNet v2的轻量级模型来提取视觉特征,以节省计算资源并满足实际应用需求。
第二,作为一种轻量级空间注意力策略(Spatial Group-wise Enhance,SGE)模块几乎不需要额外的参数和计算量,通过为每个空间位置生成注意因子来调整每个子空间要素的重要性,同时完美地嵌入轻量级视频重新模型。
第三,设计了一个在线差异识别模块,它利用一个固定长度的队列来存储帧级特征差异,并不断更新特征差异的阈值,通过计算该组视频序列的帧级特征差异值并将该帧级特征差异值与阈值进行比较,从而对不同情况的行人轨迹选择合适有效的时序特征聚合模型,减少参数量的同时保证了模型的高性能。
附图说明
图1是本发明一种轻量级视频行人重识别方法的网络流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
随着智能硬件的推广,深度学习的部署越来越方便,所以对于模型的压缩,以及针对特定任务如何部署受到广泛的关注和兴趣。视频行人重识别作为安防等监控领域的关键,需要达到高度的实时性和有效性,然而现在大部分的行人重识别网络使基于ResNet-50网络,参数量和计算量都很大。本发明使用基于ShuffleNet v2网络,参数量和计算量减少了20倍之多,并且嵌入了轻量级的空间注意力机制模块(Spatial Group-wise Enhance),几乎没有引入参数的同时,增加了模型处理空间细节的能力。
除此之外,本发明还设计了在线差异识别模块,通过一个固定长度的队列,储存并更新每一批次中行人轨迹的帧级特征差异值,这是随着模型的训练在线更新的,通过队列保存的差异值设置阈值,并于每次前向训练得到的差异值对比,如果帧间特征差异很大,比如有的帧存在遮挡,光照,分辨率低的问题,则选择时序注意力机制,使模型分配少量的权重在这些低质量的帧上,而更加关注高质量的帧。若帧间特征差异小,则不用分配权重,选择时序池化,分配相同的权重,减少模型的计算量,所述在线差异识别模块的算法流程如下所示:
如图1所示是本发明一种轻量级视频行人重识别方法,包括以下几个步骤:
1、搭建基于ShuffleNet v2的轻量级视频行人重识别网络模型:
(a)ShuffleNet v2在ImageNet数据集上进行预训练,设置每个块的通道数为1缩放比率。
(b)针对输入图像的尺寸问题,取消了全局池化层。
(c)针对行人重识别的类别数量,微调全连接层的输出维度为行人类别数。
2、嵌入轻量级的空间注意力机制SGE模块:
(d)修改轻量级空间注意力机制(Spatial Group-wise Enhance,SGE)模块的输入和输出参数,嵌入进ShuffleNet v2的卷积层之后。
3、设置在线差异识别模块,针对不同质量的视频序列选择不同的时序建模策略:
(e)经过由ShuffleNet v2和空间注意力机制SGE模块获得的特征向量是[b×t,c,w,h],其中,b表示批次大小batchsize,t表示每个行人轨迹随机选择的帧的数量、c表示通道数、w表示特征向量的宽度,h表示特征向量的高度。然后对w和h的两个维度压缩平均,得到特征[b×t,c],再对特征向量进行扩展维度为[b,t,c]。
(f)由于t表示每个行人轨迹随机选择的帧的数量,因此将t作为分解维度,并且此时特征[b,c]指代每个轨迹的单帧图像特征。
(g)使用欧氏距离来计算同一轨迹下单帧之间的特征差异值,并将平均值存储到固定长度为A的队列中。
(h)每次传入一组视频序列,都如(e,f,g)的步骤得到一个特征差异值,插入到队列的尾端,按照队列先进先出的特点,不断更新这个队列,与模型的训练同步。
(i)计算队列中所有特征差异值的平均值Um作为阈值,当每次前向传播时,计算该组视频序列的帧级特征差异值Ut并将其与阈值进行比较。如果Ut>Um,则意味着帧之间的差异很大,并选择时序注意力机制模型。如果Ut≤Um表示帧之间的差异很小,则选择时序池化。
4、利用批量难分辨三元组损失(batch hard triplet loss)和softmax损失(softmax loss)联合优化和更新行人特征:
(j)为了组合成一个批次,我们随机抽样P个身份并随机为每个身份抽样N个轨迹,所述批量难分辨三元组损失如下:
所述的softmax loss如下:
其中,P为身份抽样的数量,N为每个身份抽样的轨迹数量,pi,a和qi,a分别指的是样本的真实类别和预测类别。
总损失L是这两种损失的组合L=Ltriplet+Lsoftmax。
5、对视频行人重识别模型的测试与预测:
构建视频行人重识别的测试样本;并将测试样本送入训练好的一种利用在线差异识别模块的轻量级视频行人重识别网络,对输入的行人测试样本进行特征提取,接着输入行人视频序列并获取相同维度的行人特征,利用欧式距离做特征相似度匹配,排序出可能性最高的身份标签,将其作为检索身份的结果。
Claims (4)
1.一种轻量级视频行人重识别方法,其特征在于,
在模型搭建阶段,使用轻量级算法和轻量级的空间注意力机制SGE模块,并通过一个在线差异识别模块来测量视频帧之间的特征差距,针对帧级特征之间的差异,选择针对该行人轨迹帧最合适的时序建模策略,具体是:通过一个固定长度的队列,储存并更新每一批次中行人轨迹的帧级特征差异值,这是随着模型的训练在线更新的,计算队列中所有特征差异值的平均值Um作为阈值,当每次前向传播时,计算该组视频序列的帧级特征差异值Ut并将其与阈值进行比较,如果Ut>Um,则意味着帧之间的差异很大,并选择时序注意力机制模型;如果Ut≤Um表示帧之间的差异很小,则选择时序池化;
在训练阶段,首先通过搭建好的模型进行特征提取,得到它的特征表示,利用批量难分辨三元组损失和softmax损失联合优化和更新行人特征,得到训练好的视频行人重识别模型;
在模型测试阶段,使用训练好的视频行人重识别模型对输入的目标行人提取特征,接着对输入的视频序列进行特征提取,从而进行特征相似度匹配排序并检索,找到视频序列中的目标行人。
2.根据权利要求1所述的轻量级视频行人重识别方法,其特征在于:所述轻量级算法是基于ShuffleNet v2的轻量级算法。
3.根据权利要求1所述的轻量级视频行人重识别方法,其特征在于:当有的帧存在遮挡,光照问题,则表明帧间特征差异很大。
4.根据权利要求1所述的轻量级视频行人重识别方法,其特征在于:所述模型测试阶段具体是构建视频行人重识别的测试样本;并将测试样本送入训练好的视频行人重识别网络,对输入的行人测试样本进行特征提取,接着输入行人视频序列并获取相同维度的行人特征,利用欧式距离做特征相似度匹配,排序出可能性最高的身份标签,将其作为检索身份的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910903126.2A CN110765880B (zh) | 2019-09-24 | 2019-09-24 | 一种轻量级视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910903126.2A CN110765880B (zh) | 2019-09-24 | 2019-09-24 | 一种轻量级视频行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110765880A true CN110765880A (zh) | 2020-02-07 |
CN110765880B CN110765880B (zh) | 2023-04-18 |
Family
ID=69330257
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910903126.2A Active CN110765880B (zh) | 2019-09-24 | 2019-09-24 | 一种轻量级视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110765880B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680598A (zh) * | 2020-05-29 | 2020-09-18 | 北京百度网讯科技有限公司 | 人脸识别模型处理方法、装置、设备和存储介质 |
CN111860147A (zh) * | 2020-06-11 | 2020-10-30 | 北京市威富安防科技有限公司 | 行人重识别模型优化处理方法、装置和计算机设备 |
CN113221842A (zh) * | 2021-06-04 | 2021-08-06 | 第六镜科技(北京)有限公司 | 模型训练方法、图像识别方法、装置、设备及介质 |
CN113343810A (zh) * | 2021-05-28 | 2021-09-03 | 国家计算机网络与信息安全管理中心 | 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置 |
CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN114092301A (zh) * | 2021-10-25 | 2022-02-25 | 海南大学 | 基于ShuffleNet迁移学习的医学图像鲁棒多水印算法研究 |
CN114529849A (zh) * | 2022-01-14 | 2022-05-24 | 清华大学 | 基于姿态时序超图网络的行人重识别方法及装置 |
WO2022134104A1 (en) * | 2020-12-25 | 2022-06-30 | Alibaba Group Holding Limited | Systems and methods for image-to-video re-identification |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110046553A (zh) * | 2019-03-21 | 2019-07-23 | 华中科技大学 | 一种融合属性特征的行人重识别模型、方法及系统 |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110110601A (zh) * | 2019-04-04 | 2019-08-09 | 深圳久凌软件技术有限公司 | 基于多时空注意力模型的视频行人重识别算法及装置 |
-
2019
- 2019-09-24 CN CN201910903126.2A patent/CN110765880B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670528A (zh) * | 2018-11-14 | 2019-04-23 | 中国矿业大学 | 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法 |
CN109948425A (zh) * | 2019-01-22 | 2019-06-28 | 中国矿业大学 | 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置 |
CN110046553A (zh) * | 2019-03-21 | 2019-07-23 | 华中科技大学 | 一种融合属性特征的行人重识别模型、方法及系统 |
CN110110601A (zh) * | 2019-04-04 | 2019-08-09 | 深圳久凌软件技术有限公司 | 基于多时空注意力模型的视频行人重识别算法及装置 |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680598A (zh) * | 2020-05-29 | 2020-09-18 | 北京百度网讯科技有限公司 | 人脸识别模型处理方法、装置、设备和存储介质 |
CN111680598B (zh) * | 2020-05-29 | 2023-09-12 | 北京百度网讯科技有限公司 | 人脸识别模型处理方法、装置、设备和存储介质 |
CN111860147A (zh) * | 2020-06-11 | 2020-10-30 | 北京市威富安防科技有限公司 | 行人重识别模型优化处理方法、装置和计算机设备 |
WO2022134104A1 (en) * | 2020-12-25 | 2022-06-30 | Alibaba Group Holding Limited | Systems and methods for image-to-video re-identification |
CN113343810A (zh) * | 2021-05-28 | 2021-09-03 | 国家计算机网络与信息安全管理中心 | 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置 |
CN113221842A (zh) * | 2021-06-04 | 2021-08-06 | 第六镜科技(北京)有限公司 | 模型训练方法、图像识别方法、装置、设备及介质 |
CN113221842B (zh) * | 2021-06-04 | 2023-12-29 | 第六镜科技(北京)集团有限责任公司 | 模型训练方法、图像识别方法、装置、设备及介质 |
CN113627266A (zh) * | 2021-07-15 | 2021-11-09 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN113627266B (zh) * | 2021-07-15 | 2023-08-18 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
CN114092301A (zh) * | 2021-10-25 | 2022-02-25 | 海南大学 | 基于ShuffleNet迁移学习的医学图像鲁棒多水印算法研究 |
CN114529849A (zh) * | 2022-01-14 | 2022-05-24 | 清华大学 | 基于姿态时序超图网络的行人重识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110765880B (zh) | 2023-04-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765880B (zh) | 一种轻量级视频行人重识别方法 | |
Zhang et al. | Improving triplet-wise training of convolutional neural network for vehicle re-identification | |
CN109389055B (zh) | 基于混合卷积和注意力机制的视频分类方法 | |
CN109829443B (zh) | 基于图像增强与3d卷积神经网络的视频行为识别方法 | |
Chakma et al. | Image-based air quality analysis using deep convolutional neural network | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN107153817B (zh) | 行人重识别数据标注方法和装置 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN110120064B (zh) | 一种基于互强化与多注意机制学习的深度相关目标跟踪算法 | |
CN108009493B (zh) | 基于动作增强的人脸防欺骗识别方法 | |
CN111666851A (zh) | 一种基于多粒度标签的交叉域自适应行人重识别方法 | |
CN111126223B (zh) | 基于光流引导特征的视频行人再识别方法 | |
CN111353448A (zh) | 基于相关性聚类和时空约束的行人多目标跟踪方法 | |
CN113627266A (zh) | 基于Transformer时空建模的视频行人重识别方法 | |
CN112801019B (zh) | 基于合成数据消除无监督车辆再识别偏差的方法及系统 | |
CN113792606A (zh) | 基于多目标追踪的低成本自监督行人重识别模型构建方法 | |
Hou et al. | Bba-net: A bi-branch attention network for crowd counting | |
CN110769259A (zh) | 一种视频目标跟踪轨迹内容的图像数据压缩方法 | |
CN110147876A (zh) | 基于视觉特征相似度的神经网络及其动作提案生成方法 | |
Zhang | [Retracted] Sports Action Recognition Based on Particle Swarm Optimization Neural Networks | |
CN113014923A (zh) | 一种基于压缩域表征运动向量的行为识别方法 | |
CN116934796A (zh) | 基于孪生残差注意力聚合网络的视觉目标跟踪方法 | |
Ouyang et al. | The comparison and analysis of extracting video key frame | |
CN111160099A (zh) | 一种视频图像目标的智能化分割方法 | |
CN115641643A (zh) | 步态识别模型的训练方法、步态识别方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |