CN113221686A - 一种基于时空通道注意力的目标重识别方法 - Google Patents

一种基于时空通道注意力的目标重识别方法 Download PDF

Info

Publication number
CN113221686A
CN113221686A CN202110462460.6A CN202110462460A CN113221686A CN 113221686 A CN113221686 A CN 113221686A CN 202110462460 A CN202110462460 A CN 202110462460A CN 113221686 A CN113221686 A CN 113221686A
Authority
CN
China
Prior art keywords
network
space
target
frame
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110462460.6A
Other languages
English (en)
Other versions
CN113221686B (zh
Inventor
苏雨
福辉
张科
王靖宇
谭明虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110462460.6A priority Critical patent/CN113221686B/zh
Publication of CN113221686A publication Critical patent/CN113221686A/zh
Application granted granted Critical
Publication of CN113221686B publication Critical patent/CN113221686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于时空通道注意力的目标重识别方法,采用帧间通道维的重组和分组卷积的方法来提取视频目标特征,利用通道维的冗余性来建立帧间信息关系,同时为了增强空间信息挖掘能力,对在骨干网络中加入了空间非局部注意力机制,使网络能够充分建立时空特征,提高了检索准确度。在此基础上,引入平均池化操作生成全局特征表示,并利用加权平均策略完成了全局特征与时空特征的融合,提高了特征表示的鲁棒性和网络对目标的表征能力,从而实现对视频目标的准确检索。

Description

一种基于时空通道注意力的目标重识别方法
技术领域
本发明属于图像处理技术领域,涉及一种基于时空通道注意力的目标重识别方法。
背景技术
目标重识别是图像处理和机器视觉领域的重要研究课题,近年来因其实用性得到了越来越多的关注。目标重识别技术是在查询数据库中找出待检索数据对应的同一目标的过程,其中目标特征的提取是关键一步。基于视频数据相较于图像数据具有更丰富的时空信息,从中能够提取出更具分辨力和鲁棒性的特征,因此,基于视频数据的目标重识别技术成为当下重识别领域的研究热点之一。
陈莉,王洪元,等(《联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法》,计算机应用,2021,41(1):164-169)中针对目标行人被干扰或部分遮挡的情况,采用了均等采样随机擦除的数据增强方法来有效地缓解遮挡,提高模型的泛化能力,更准确地匹配行人;其次为了进一步提高视频行人重识别的精度,学习更有判别力的特征表示,使用三维卷积神经网络取时空特征,并在网络输出行人特征表示前加上全局时间特征池化层,但是三维卷积在提取时空特征的同时无法去除通道间的冗余信息,加之三维卷积神经网络参数量巨大,给训练和推理都造成困难。
目前已有的视频目标重识别图像方法,大多只关注时空信息,而忽略了通道维的冗余性。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于时空通道注意力的目标重识别方法,不但建立了视频目标时空关系,还考虑到了通道维的相互作用,实现了对视频目标的准确检索。
技术方案
一种基于时空通道注意力的目标重识别方法,其特征在于步骤如下:
步骤1、建立骨干网络作为基础的特征提取网络:骨干网络包括深度残差网络ResNet-50和空间非局部网络Spatial Non Local Network,其中,ResNet-50由五个卷积模块组成,在ResNet-50的五个卷积模块之间插入三个非局部网络;
步骤2:以骨干网络对帧数为n的视频Ii中的每帧图像分别提取特征,得到每帧图像对应的特征向量
Figure BDA0003042862120000021
其中,i=1,2,…,n,C、H和W分别为特征向量的通道数、高度数和宽度数;
步骤3:将fi分别输入三维平均池化3DAP模块和帧间通道维重组与分组卷积网络CSGC中,分别得到该视频的全局特征表示
Figure BDA0003042862120000022
Figure BDA0003042862120000023
三维平均池化3DAP操作为:
Figure BDA0003042862120000024
其中,T为输入的视频帧数;
步骤4:利用加权融合方法对fg和fCSGS进行融合表示,得到视频的最终特征表示ffinal
加权融合方法为:
ffinal=(1-λ)fg+λfCSGS
其中,λ为控制两者重要程度的超参数;
步骤5:重复步骤1到步骤4,对待检索数和查询库数据进行特征提取,并计算两者特征之间的欧式距离。最终,对所得的欧氏距离按照由远及近进行排序,产生识别结果。
有益效果
本发明提出的一种基于时空通道注意力的目标重识别方法,采用帧间通道维的重组和分组卷积的方法来提取视频目标特征,利用通道维的冗余性来建立帧间信息关系,同时为了增强空间信息挖掘能力,对在骨干网络中加入了空间非局部注意力机制,使网络能够充分建立时空特征,提高了检索准确度。在此基础上,引入平均池化操作生成全局特征表示,并利用加权平均策略完成了全局特征与时空特征的融合,提高了特征表示的鲁棒性和网络对目标的表征能力,从而实现对视频目标的准确检索。
采用本发明的方法有益效果主要包括:
(1)通过发明步骤(1)提升了骨干网络的空间信息挖掘能力,步骤(3)中的CSGS网络来共同处理时间和通道关系,既建立时空关系,又可以去除通道冗余。
(2)步骤(4)将平均池化产生的全局特征与GSCS的输出进行融合,增强了方法的鲁棒性。
(3)在DukeMTMC-VideoReID和MARS数据集上进行了综合实验。实验结果表明,所提出的方法可以有效地提高视频目标重识别的性能。
附图说明
图1是方法流程图
图2是方法的网络结构图
图3是方法搜索结果图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明基于时空通道注意力的目标重识别方法基本流程如图1所示,具体实施方式包括以下步骤:
步骤一、首先如图1中的骨干网络部分所示,建立骨干网络作为基础的特征提取网络,骨干网络由深度残差网络(ResNet-50)和空间非局部模块组成,其中,ResNet-50由五个卷积模块组成,如图1所示。在ResNet-50的每个模块之间插入非局部网络,组成具有较强空间注意力的骨干网络。空间非局部注意力模块可以表示为:
Figure BDA0003042862120000041
其中,Xi为模块输入特征,Zi为模块输出特征,θ、φ和g为特征嵌入空间,通过卷积核为1×1的卷积实现。i是要计算其响应的输出位置的索引,j是枚举所有位置的索引。
步骤二、利用骨干网络对帧数为T的视频It(t=1,2,…,T)中的每帧图像分别提取特征,得到每帧图像对应的特征向量
Figure BDA0003042862120000042
C、H和W分别为特征的通道数和空间维度,并利用3DAP操作得到该视频的全局特征表示
Figure BDA0003042862120000043
该操作通过下式进行,
Figure BDA0003042862120000044
步骤三、将
Figure BDA0003042862120000045
输入帧间通道维重组和分组卷积网络(CSGC)中,CSGC能够在捕捉时空关系的同时去除通道冗余,得到的特征记为fCSGS
假设T为4,那么,CSGC模块具体分为以下过程:
(1)将第一帧特征
Figure BDA0003042862120000046
按通道维等分为两个单独的特征,分别为
Figure BDA0003042862120000047
Figure BDA0003042862120000048
(2)将f12和f2进行通道维拼接,并通过分组卷积建立帧间特征关系,得到特征
Figure BDA0003042862120000049
注意,此过程f11没有进行处理。拼接过程如下式所示,
Figure BDA00030428621200000410
(3)接着将
Figure BDA00030428621200000411
按通道维等分为两个单独的特征,重复过程(2),直到处理完T 帧数据;
(4)将得到的特征
Figure BDA00030428621200000412
和前几个过程没有处理的特征进行通道维拼合,然后利用全局平均池化(Global Average Pooling,GAP)和全连接层(Fully Connected layer,FC)对特征进行降维,即
Figure BDA00030428621200000413
GAP过程如下,
Figure BDA0003042862120000051
Figure BDA0003042862120000052
步骤四、考虑到单一特征表示无法保证可靠的稳定性,本发明利用加权融合方法对fg和fCSGS进行融合表示,得到视频的最终特征表示ffinal,加权融合方法如下式所示:
ffinal=(1-λ)fg+λfCSGS
其中,λ为控制两者重要程度的超参数。
步骤五、利用所设计的网络结构对待检索数和查询库数据进行特征提取,并计算两者特征之间的欧式距离。最终,对所得的相似度高到底排序,产生识别结果。

Claims (1)

1.一种基于时空通道注意力的目标重识别方法,其特征在于步骤如下:
步骤1、建立骨干网络作为基础的特征提取网络:骨干网络包括深度残差网络ResNet-50和空间非局部网络Spatial Non Local Network,其中,ResNet-50由五个卷积模块组成,在ResNet-50的五个卷积模块之间插入三个非局部网络;
步骤2:以骨干网络对帧数为n的视频Ii中的每帧图像分别提取特征,得到每帧图像对应的特征向量
Figure FDA0003042862110000011
其中,i=1,2,…,n,C、H和W分别为特征向量的通道数、高度数和宽度数;
步骤3:将fi分别输入三维平均池化3DAP模块和帧间通道维重组与分组卷积网络CSGC中,分别得到该视频的全局特征表示
Figure FDA0003042862110000012
Figure FDA0003042862110000013
三维平均池化3DAP操作为:
Figure FDA0003042862110000014
其中,T为输入的视频帧数;
步骤4:利用加权融合方法对fg和fCSGS进行融合表示,得到视频的最终特征表示ffinal
加权融合方法为:
ffinal=(1-λ)fg+λfCSGS
其中,λ为控制两者重要程度的超参数;
步骤5:重复步骤1到步骤4,对待检索数和查询库数据进行特征提取,并计算两者特征之间的欧式距离。最终,对所得的欧氏距离按照由远及近进行排序,产生识别结果。
CN202110462460.6A 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法 Active CN113221686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110462460.6A CN113221686B (zh) 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110462460.6A CN113221686B (zh) 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法

Publications (2)

Publication Number Publication Date
CN113221686A true CN113221686A (zh) 2021-08-06
CN113221686B CN113221686B (zh) 2024-01-09

Family

ID=77089306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110462460.6A Active CN113221686B (zh) 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法

Country Status (1)

Country Link
CN (1) CN113221686B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160297A (zh) * 2019-12-31 2020-05-15 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111160295A (zh) * 2019-12-31 2020-05-15 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111310633A (zh) * 2020-02-10 2020-06-19 江南大学 基于视频的并行时空注意力行人重识别方法
WO2021017303A1 (zh) * 2019-07-30 2021-02-04 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及存储介质
CN112507853A (zh) * 2020-12-02 2021-03-16 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021017303A1 (zh) * 2019-07-30 2021-02-04 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及存储介质
CN111160297A (zh) * 2019-12-31 2020-05-15 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111160295A (zh) * 2019-12-31 2020-05-15 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111310633A (zh) * 2020-02-10 2020-06-19 江南大学 基于视频的并行时空注意力行人重识别方法
CN112507853A (zh) * 2020-12-02 2021-03-16 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DI WU ET AL.: "Deep learning-based methods for person re-identification: A comprehensive review", NEUROCOMPUTING *
王辉涛;胡燕;: "基于全局时空感受野的高效视频分类方法", 小型微型计算机系统, no. 08 *

Also Published As

Publication number Publication date
CN113221686B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Huang et al. Text-guided graph neural networks for referring 3d instance segmentation
Yang et al. Bi-directional progressive guidance network for RGB-D salient object detection
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
Huang et al. Lcpformer: Towards effective 3d point cloud analysis via local context propagation in transformers
Zhou et al. GFNet: Gate fusion network with Res2Net for detecting salient objects in RGB-D images
CN116543168A (zh) 一种基于多维度图像信息融合的垃圾图像去噪方法
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
CN113379597A (zh) 人脸超分辨率重构方法
Ge et al. WGI-Net: A weighted group integration network for RGB-D salient object detection
CN117218351A (zh) 基于局部和全局上下文感知的三维点云语义分割方法
CN112084895A (zh) 一种基于深度学习的行人重识别方法
Chen et al. Costformer: Cost transformer for cost aggregation in multi-view stereo
Zhang et al. Salient object detection with edge-guided learning and specific aggregation
Yuan et al. Guided focal stack refinement network for light field salient object detection
CN113221686A (zh) 一种基于时空通道注意力的目标重识别方法
CN114911967B (zh) 一种基于自适应域增强的三维模型草图检索方法
CN115830643A (zh) 一种姿势引导对齐的轻量行人重识别方法
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
CN115100694A (zh) 一种基于自监督神经网络的指纹快速检索方法
CN114821631A (zh) 基于注意力机制与多尺度特征融合的行人特征提取方法
CN111881794B (zh) 一种视频行为识别方法及系统
Han et al. Low resolution facial manipulation detection
Yao et al. Pa-awcnn: Two-stream parallel attention adaptive weight network for rgb-d action recognition
CN115909316B (zh) 一种面向数据不均匀场景的轻量化端到端车牌识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant