CN111639564B - 一种基于多注意力异构网络的视频行人重识别方法 - Google Patents
一种基于多注意力异构网络的视频行人重识别方法 Download PDFInfo
- Publication number
- CN111639564B CN111639564B CN202010420705.4A CN202010420705A CN111639564B CN 111639564 B CN111639564 B CN 111639564B CN 202010420705 A CN202010420705 A CN 202010420705A CN 111639564 B CN111639564 B CN 111639564B
- Authority
- CN
- China
- Prior art keywords
- attention
- pedestrian
- video
- local
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Abstract
本发明公开了一种基于多注意力异构网络的视频行人重识别方法,属于图像处理领域。方法包括:构造并训练多注意力异构网络;利用训练好的网络对已知行人ID的视频和待定行人ID的视频进行特征提取,根据两个特征之间的余弦距离判定行人ID。本发明在OSNet网络中引入了Soft注意力和非局部注意力,利用Soft注意力关注图像中的行人区域特征,利用非局部注意力对视频序列中时空特征的学习能力,改进视频序列的特征表示,提取出更加鲁棒和更具判别性的特征,提高识别的准确率。同时选取了特定帧的特征作为局部特征学习网络分支,在学习视频序列中行人全局特征的同时,加强了行人局部特征的学习,提升了网络在视频行人重识别上的性能。
Description
技术领域
本发明属于图像处理和机器视觉中的行人重识别研究领域,更具体地,涉及一种基于多注意力异构网络的视频行人重识别方法。
背景技术
行人重识别是自动视频监控中的一项基本任务,也是近年来的研究热点。基于视频的行人重识别旨在匹配行人在视角非重叠相机上的视频序列。为了实现基于视频的行人重识别,典型的方法是需要学习一个映射函数来将视频序列投影到一个低维特征空间中,然后通过比较样本之间的距离,判定行人ID。
大量的研究已经证明,卷积神经网络作为一个映射函数已经超越了传统的手工特征,然后通过平均池化或最大池化聚合图像特征来获得序列的特征。然而这种方式不能处理视频序列中的遮挡或空间错位,因为它以同等重要的权重分布处理所有图像。为了利用视频序列之间的时空信息,一些研究中将递归神经网络集成到了基于视频的行人重识别算法中,采用端到端训练的方式学习其时空信息。虽然这些方法成功地捕获了视频序列的空间和时间特征,但它们只探索了用于行人特征表示的高级特征聚合,这对于视频行人重识别这类的细粒度分类任务可能不够鲁棒。
近年来,注意力模型越来越多的应用到了计算机视觉的各个领域中,注意力模型能着重学习输入信号中信息最丰富的部分,能有效的改善网络对于行人特征的学习能力,但现有的算法往往都只使用单一的注意力,忽略了不同注意力网络的异构特性和互补作用,使得提取到的行人序列特征判别性相对较低,对于视频行人重识别准确度较低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于多注意力异构网络的视频行人重识别方法,其目的在通过Soft注意力模块和非局部注意力模块,在加强网络对视频帧中行人区域特征学习的同时,加强视频序列间时空信息的学习,提取出更加鲁棒和更具判别性的特征,提高行人重识别的准确率。
为实现上述目的,本发明提供了一种基于多注意力异构网络的视频行人重识别方法,包括:
S1.构建多注意力异构网络;
所述多注意力异构网络包括多个并列的OSNet子网络、Soft模块、非局部注意力模块、局部特征学习分支和特征聚合模块;每个OSNet子网络中第二卷积层conv2、第三卷积层conv3和第四卷积层conv4后分别嵌入Soft模块;每一列并列的Soft模块整体嵌入非局部注意力模块;
并列的OSNet子网络,用于对输入的视频序列逐帧进行特征提取;Soft模块,用于对输入的特征图进行空间注意力和通道注意力学习;非局部注意力模块,用于对输入的特征序列时空信息的学习;局部特征学习分支,用于将视频序列中设定的帧图像对应的特征图进行分割,作为视频序列局部特征;特征聚合模块,用于将视频序列剩余帧图像对应的特征采用时间注意力的方式进行聚合,作为视频序列全局特征;视频序列局部特征与全局特征连接起来作为视频序列的行人特征;
S2.使用Mars数据集训练数据集训练所述多注意力异构网络参数,利用SGD算法对网络中的参数进行优化;
S3.利用训练好的多注意力异构网络对已知行人ID的视频和待定行人ID的视频进行特征提取,计算两个特征之间的余弦距离,根据距离的远近判定行人ID。
进一步地,输入的视频序列长度为8。
进一步地,Soft模块包括空间注意力子模块和通道注意力子模块;空间注意力子模块,用于输入的特征图进行空间注意力学习;通道注意力特征图,用于对输入的特征图进行通道注意力学习。
进一步地,空间注意力子模块由依次连接的全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成。
进一步地,通道注意力子模块由一个跨通道全局平均池化层和两个卷积层组成。
进一步地,非局部注意力模块包括以下处理:
(1)将特征序列分别输入至三个1*1*1的卷积模块中;
(2)任选两个卷积模块的输出相乘,所得结果经过一个softmax分类模块,与第三个卷积模块的输出相乘;
(3)将所得结果经过一个1*1*1的卷积模块后与输入的特征序列相乘,得到最终的特征。
进一步地,训练多注意力异构网络采用的损失函数L为:
L=Ltriplet+Lsoftmax
Ltriplet表示三元组损失函数,Lsoftmax表示Softmax损失函数。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果。
(1)本发明在OSNet特征提取网络中引入了Soft注意力和非局部注意力两种不同类型的注意力模块,利用Soft注意力关注图像中的行人区域特征,利用非局部注意力对视频序列中时空特征的学习能力,改进视频序列的特征表示,可以提取出更加鲁棒和更具判别性的特征,能有效提高基于视频的行人重识别的准确率。
(2)本发明选取了特定帧的特征作为局部特征学习网络分支,在学习视频序列中行人全局特征的同时,加强了对视频序列中行人局部特征的学习,提升了网络在视频行人重识别上的性能。
附图说明
图1为本发明提供的多注意力异构网络结构图;
图2为本发明提供的Soft注意力模块结构图;
图3为本发明提供的非局部注意力模块结构图;
图4为本发明提供的时间注意力特征聚合示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明实施例提供了一种基于多注意力异构网络的视频行人重识别方法,包括:
S1.构建多注意力异构网络;
如图1所示,多注意力异构网络包括多个并列的OSNet(Omni-Scale Network,全尺度网络)子网络、Soft注意力模块SAB(Soft Attention Block,软注意力模块)、非局部注意力模块non-local、局部特征学习分支和特征聚合模块;每个OSNet子网络中第二卷积层conv2、第三卷积层conv3和第四卷积层conv4后分别嵌入Soft模块;每一列并列的Soft模块整体嵌入非局部注意力模块;
并列的OSNet子网络,用于对输入的视频序列逐帧进行特征提取;Soft模块,用于对输入的特征图进行空间注意力和通道注意力学习;如图2所示,Soft模块包括空间注意力子模块和通道注意力子模块;空间注意力子模块,用于输入的特征图进行空间注意力学习;通道注意力特征图,用于对输入的特征图进行通道注意力学习。空间注意力模块由全局跨通道平均池化层(cross-chanel pooling)、步幅为2的3*3卷积层、上采样层(upsample)和缩放卷积层组成。通道注意力模块由一个跨通道全局平均池化层(global pooling)和两个卷积层组成。为了方便空间注意力与通道注意力的结合,在张量相乘后加入一个卷积操作,最后添加一个sigmoid操作,将注意力权重正则化为0.5到1之间。
非局部注意力模块,用于对输入的特征序列时空信息的学习;如图3所示,非局部注意力模块包括以下处理:将特征序列分别输入至三个1*1*1的卷积模块中;任选两个卷积模块的输出相乘,所得结果经过一个softmax分类模块,与第三个卷积模块的输出相乘;将所得结果经过一个1*1*1的卷积模块后与输入的特征序列相乘,得到最终的特征。
局部特征学习分支,用于将视频序列中设定的帧图像对应的特征图进行分割,作为视频序列局部特征;特征聚合模块,用于将视频序列剩余帧图像对应的特征采用时间注意力的方式进行聚合,作为视频序列全局特征;视频序列局部特征与全局特征连接起来作为视频序列的行人特征;
本发明实施例输入的视频序列长度为8,选取视频序列中第一帧图像提取到的特征进行分割,具体为,将第一帧图像在conv5层之后的输出特征水平分割为4份,对这4个特征进行全局池化,然后经过4个1*1的卷积降维,得到4个局部特征;将其余七帧图像提取得到的特征经过特征聚合之后作为全局特征,特征聚合方法采用时间注意力的形式,时间注意力聚合特征示意图如图4所示。最后将全局特征与4个局部特征连接起来,作为视频序列的行人特征表示。
时间注意力的公式为:
S2.使用Mars数据集训练数据集训练所述多注意力异构网络参数,利用SGD算法对网络中的参数进行优化;
本发明实施例总共训练350个Epoch,初始学习率设置为0.065,在训练150、225和300个Epoch时,学习率衰减为原来的1/10。SGD(Stochatic Gradient Descent,随机梯度下降)算法公式为:
vt=αvt-1-εgt
其中gt为梯度,v代表速度,α为动量参数,设置为0.9。ε代表学习率,θ为中间参数,与梯度计算相关。
局部特征学习分支采用了Softmax损失函数,特征聚合模块,即全局特征提取分支同时采用了Softmax损失函数和三元组损失函数,最终的损失函数为:
L=Ltriplet+Lsoftmax
Softmax分类损失函数公式为:
其中,xi∈Rd表示第i个样本的维度是d特征向量,且xi属于第yi个类别的行人;Wj∈Rn表示分类层第j列的权重,表示xi样本对应的权重,bj表示第j列的偏置参数,表示xi样本对应的偏执参数;m和n分别表示批训练中的样本个数以及类别数。
随机从数据集中抽取一个三元组{Ia,Ip,In}作为样,Ia为固定样本,Ip为正样本,In为负样本,对应的特征分别为fa、fp和fn,三元组损失函数公式为:
其中,[·]+=max(·,0),d1表示边距,NT=P×K表示一个批量图片数量,P表示每个批量中随机选取的P个身份,K表示每个身份随机抽取K张图片,d(·,·)表示欧几里得距离。
S3.利用训练好的多注意力异构网络对已知行人ID的视频和待定行人ID的视频进行特征提取,计算两个特征之间的余弦距离,根据距离的远近判定行人ID。
余弦距离计算公式为:
其中,q,p表示两个图像的特征,qi和pi分别表示特征向量q、p中的元素,n表示特征向量q、p的维度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于多注意力异构网络的视频行人重识别方法,其特征在于,包括:
S1.构建多注意力异构网络;
所述多注意力异构网络包括多个并列的OSNet子网络、多个并列的Soft模块、非局部注意力模块、局部特征学习分支和特征聚合模块;每个OSNet子网络中第二卷积层conv2、第三卷积层conv3和第四卷积层conv4后分别嵌入Soft模块;每一列并列的Soft模块整体嵌入非局部注意力模块;
多个并列的OSNet子网络,用于对输入的视频序列逐帧进行特征提取;多个并列的Soft模块,用于对输入的特征图进行空间注意力特征和通道注意力特征的学习;非局部注意力模块,用于对输入的特征序列时空信息的学习;非局部注意力模块包括以下处理:
(1)将特征序列分别输入至三个1*1*1的卷积模块中;
(2)任选两个卷积模块的输出相乘,所得结果经过一个softmax分类模块,与第三个卷积模块的输出相乘;
(3)将所得结果经过一个1*1*1的卷积模块后与输入的特征序列相乘,得到最终的特征;局部特征学习分支,用于将视频序列中设定的帧图像对应的第五卷积层conv5计算的特征图进行分割,作为视频序列局部特征;特征聚合模块,用于将视频序列剩余帧图像对应的第五卷积层conv5计算的特征采用时间注意力的方式进行聚合,作为视频序列全局特征;视频序列局部特征与全局特征连接起来作为视频序列的行人特征;
S2.使用Mars数据集训练数据集训练所述多注意力异构网络参数,利用SGD算法对网络中的参数进行优化;
S3.利用训练好的多注意力异构网络对已知行人ID的视频和待定行人ID的视频进行特征提取,计算两个特征之间的余弦距离,根据距离的远近判定行人ID。
2.根据权利要求1所述的一种基于多注意力异构网络的视频行人重识别方法,其特征在于,输入的视频序列长度为8。
3.根据权利要求1或2所述的一种基于多注意力异构网络的视频行人重识别方法,其特征在于,Soft模块包括空间注意力子模块和通道注意力子模块;空间注意力子模块,用于输入的特征图进行空间注意力学习;通道注意力特征图,用于对输入的特征图进行通道注意力学习。
4.根据权利要求3所述的一种基于多注意力异构网络的视频行人重识别方法,其特征在于,空间注意力子模块由依次连接的全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成。
5.根据权利要求3所述的一种基于多注意力异构网络的视频行人重识别方法,其特征在于,通道注意力子模块由一个跨通道全局平均池化层和两个卷积层组成。
6.根据权利要求1所述的一种基于多注意力异构网络的视频行人重识别方法,其特征在于,训练多注意力异构网络采用的损失函数L为:
L=Ltriplet+Lsoftmax
Ltriplet表示三元组损失函数,Lsoftmax表示Softmax损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010420705.4A CN111639564B (zh) | 2020-05-18 | 2020-05-18 | 一种基于多注意力异构网络的视频行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010420705.4A CN111639564B (zh) | 2020-05-18 | 2020-05-18 | 一种基于多注意力异构网络的视频行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111639564A CN111639564A (zh) | 2020-09-08 |
CN111639564B true CN111639564B (zh) | 2022-05-27 |
Family
ID=72331105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010420705.4A Active CN111639564B (zh) | 2020-05-18 | 2020-05-18 | 一种基于多注意力异构网络的视频行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111639564B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112257615B (zh) * | 2020-10-26 | 2023-01-03 | 上海数川数据科技有限公司 | 一种基于聚类的顾客数量统计方法 |
CN113269218B (zh) * | 2020-12-30 | 2023-06-09 | 威创集团股份有限公司 | 基于改进的vlad算法的视频分类方法 |
CN113239784B (zh) * | 2021-05-11 | 2022-09-30 | 广西科学院 | 一种基于空间序列特征学习的行人重识别系统及方法 |
CN113343810B (zh) * | 2021-05-28 | 2023-03-21 | 国家计算机网络与信息安全管理中心 | 基于时序多样性与相关性的行人重识别模型训练和识别方法与装置 |
CN113435325A (zh) * | 2021-06-25 | 2021-09-24 | 平安科技(深圳)有限公司 | 图像重识别方法、装置、电子设备及存储介质 |
CN113920472A (zh) * | 2021-10-15 | 2022-01-11 | 中国海洋大学 | 一种基于注意力机制的无监督目标重识别方法及系统 |
CN115294655A (zh) * | 2022-08-18 | 2022-11-04 | 中科天网(广东)科技有限公司 | 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 |
CN115587979B (zh) * | 2022-10-10 | 2023-08-15 | 山东财经大学 | 基于三阶段注意力网络的糖尿病视网膜病变分级的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
CN110751018A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于混合注意力机制的群组行人重识别方法 |
-
2020
- 2020-05-18 CN CN202010420705.4A patent/CN111639564B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609460A (zh) * | 2017-05-24 | 2018-01-19 | 南京邮电大学 | 一种融合时空双重网络流和attention机制的人体行为识别方法 |
US10176405B1 (en) * | 2018-06-18 | 2019-01-08 | Inception Institute Of Artificial Intelligence | Vehicle re-identification techniques using neural networks for image analysis, viewpoint-aware pattern recognition, and generation of multi- view vehicle representations |
CN110110642A (zh) * | 2019-04-29 | 2019-08-09 | 华南理工大学 | 一种基于多通道注意力特征的行人重识别方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
CN110751018A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于混合注意力机制的群组行人重识别方法 |
Non-Patent Citations (4)
Title |
---|
Convolutional temporal attention model for video-based person re-identification;t rahman et al.;《arxiv》;20190409;第1-6页 * |
Omni-scale feature learning for person re-identification;kaiyang zhou et al.;《the computer vision foundation》;20191231;第3702-3712页 * |
Spatially and temporally efficient non-local attention network for video-based person re-identification;chih-ting liu et al.;《arxiv》;20190805;第1-13页 * |
基于深度学习的行人重识别综述;杨锋等;《计算机应用》;20191223;第1243-1252页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111639564A (zh) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN109961051B (zh) | 一种基于聚类和分块特征提取的行人重识别方法 | |
CN111539370B (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
Luo et al. | Fire smoke detection algorithm based on motion characteristic and convolutional neural networks | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN107038448B (zh) | 目标检测模型构建方法 | |
CN108460356B (zh) | 一种基于监控系统的人脸图像自动处理系统 | |
Spencer et al. | Defeat-net: General monocular depth via simultaneous unsupervised representation learning | |
CN110717411A (zh) | 一种基于深层特征融合的行人重识别方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
CN112395951B (zh) | 一种面向复杂场景的域适应交通目标检测与识别方法 | |
CN111723645A (zh) | 用于同相机内有监督场景的多相机高精度行人重识别方法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN111582178B (zh) | 基于多方位信息和多分支神经网络车辆重识别方法及系统 | |
CN110728694B (zh) | 一种基于持续学习的长时视觉目标跟踪方法 | |
CN110765841A (zh) | 基于混合注意力机制的群组行人重识别系统及终端 | |
Ciampi et al. | Domain Adaptation for Traffic Density Estimation. | |
CN113627266A (zh) | 基于Transformer时空建模的视频行人重识别方法 | |
CN115063832A (zh) | 一种基于全局与局部特征的对抗学习跨模态行人重识别方法 | |
Hu et al. | Vehicle color recognition based on smooth modulation neural network with multi-scale feature fusion | |
CN117373062A (zh) | 一种基于联合学习的实时端到端跨分辨率行人重识别方法 | |
CN116798070A (zh) | 一种基于光谱感知和注意力机制的跨模态行人重识别方法 | |
CN112487927B (zh) | 一种基于物体关联注意力的室内场景识别实现方法及系统 | |
CN114581769A (zh) | 一种基于无监督聚类的在建房屋识别方法 | |
CN112686200A (zh) | 一种基于多方案并联关注机制的行人重识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |