CN113221686B - 一种基于时空通道注意力的目标重识别方法 - Google Patents

一种基于时空通道注意力的目标重识别方法 Download PDF

Info

Publication number
CN113221686B
CN113221686B CN202110462460.6A CN202110462460A CN113221686B CN 113221686 B CN113221686 B CN 113221686B CN 202110462460 A CN202110462460 A CN 202110462460A CN 113221686 B CN113221686 B CN 113221686B
Authority
CN
China
Prior art keywords
network
space
frame
target
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110462460.6A
Other languages
English (en)
Other versions
CN113221686A (zh
Inventor
苏雨
福辉
张科
王靖宇
谭明虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110462460.6A priority Critical patent/CN113221686B/zh
Publication of CN113221686A publication Critical patent/CN113221686A/zh
Application granted granted Critical
Publication of CN113221686B publication Critical patent/CN113221686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于时空通道注意力的目标重识别方法,采用帧间通道维的重组和分组卷积的方法来提取视频目标特征,利用通道维的冗余性来建立帧间信息关系,同时为了增强空间信息挖掘能力,对在骨干网络中加入了空间非局部注意力机制,使网络能够充分建立时空特征,提高了检索准确度。在此基础上,引入平均池化操作生成全局特征表示,并利用加权平均策略完成了全局特征与时空特征的融合,提高了特征表示的鲁棒性和网络对目标的表征能力,从而实现对视频目标的准确检索。

Description

一种基于时空通道注意力的目标重识别方法
技术领域
本发明属于图像处理技术领域,涉及一种基于时空通道注意力的目标重识别方法。
背景技术
目标重识别是图像处理和机器视觉领域的重要研究课题,近年来因其实用性得到了越来越多的关注。目标重识别技术是在查询数据库中找出待检索数据对应的同一目标的过程,其中目标特征的提取是关键一步。基于视频数据相较于图像数据具有更丰富的时空信息,从中能够提取出更具分辨力和鲁棒性的特征,因此,基于视频数据的目标重识别技术成为当下重识别领域的研究热点之一。
陈莉,王洪元,等(《联合均等采样随机擦除和全局时间特征池化的视频行人重识别方法》,计算机应用,2021,41(1):164-169)中针对目标行人被干扰或部分遮挡的情况,采用了均等采样随机擦除的数据增强方法来有效地缓解遮挡,提高模型的泛化能力,更准确地匹配行人;其次为了进一步提高视频行人重识别的精度,学习更有判别力的特征表示,使用三维卷积神经网络取时空特征,并在网络输出行人特征表示前加上全局时间特征池化层,但是三维卷积在提取时空特征的同时无法去除通道间的冗余信息,加之三维卷积神经网络参数量巨大,给训练和推理都造成困难。
目前已有的视频目标重识别图像方法,大多只关注时空信息,而忽略了通道维的冗余性。
发明内容
要解决的技术问题
为了避免现有技术的不足之处,本发明提出一种基于时空通道注意力的目标重识别方法,不但建立了视频目标时空关系,还考虑到了通道维的相互作用,实现了对视频目标的准确检索。
技术方案
一种基于时空通道注意力的目标重识别方法,其特征在于步骤如下:
步骤1、建立骨干网络作为基础的特征提取网络:骨干网络包括深度残差网络ResNet-50和空间非局部网络Spatial Non Local Network,其中,ResNet-50由五个卷积模块组成,在ResNet-50的五个卷积模块之间插入三个非局部网络;
步骤2:以骨干网络对帧数为n的视频Ii中的每帧图像分别提取特征,得到每帧图像对应的特征向量其中,i=1,2,…,n,C、H和W分别为特征向量的通道数、高度数和宽度数;
步骤3:将fi分别输入三维平均池化3DAP模块和帧间通道维重组与分组卷积网络CSGC中,分别得到该视频的全局特征表示和/>
三维平均池化3DAP操作为:
其中,T为输入的视频帧数;
步骤4:利用加权融合方法对fg和fCSGS进行融合表示,得到视频的最终特征表示ffinal
加权融合方法为:
ffinal=(1-λ)fg+λfCSGS
其中,λ为控制两者重要程度的超参数;
步骤5:重复步骤1到步骤4,对待检索数和查询库数据进行特征提取,并计算两者特征之间的欧式距离。最终,对所得的欧氏距离按照由远及近进行排序,产生识别结果。
有益效果
本发明提出的一种基于时空通道注意力的目标重识别方法,采用帧间通道维的重组和分组卷积的方法来提取视频目标特征,利用通道维的冗余性来建立帧间信息关系,同时为了增强空间信息挖掘能力,对在骨干网络中加入了空间非局部注意力机制,使网络能够充分建立时空特征,提高了检索准确度。在此基础上,引入平均池化操作生成全局特征表示,并利用加权平均策略完成了全局特征与时空特征的融合,提高了特征表示的鲁棒性和网络对目标的表征能力,从而实现对视频目标的准确检索。
采用本发明的方法有益效果主要包括:
(1)通过发明步骤(1)提升了骨干网络的空间信息挖掘能力,步骤(3)中的CSGS网络来共同处理时间和通道关系,既建立时空关系,又可以去除通道冗余。
(2)步骤(4)将平均池化产生的全局特征与GSCS的输出进行融合,增强了方法的鲁棒性。
(3)在DukeMTMC-VideoReID和MARS数据集上进行了综合实验。实验结果表明,所提出的方法可以有效地提高视频目标重识别的性能。
附图说明
图1是方法流程图
图2是方法的网络结构图
图3是方法搜索结果图
具体实施方式
现结合实施例、附图对本发明作进一步描述:
本发明基于时空通道注意力的目标重识别方法基本流程如图1所示,具体实施方式包括以下步骤:
步骤一、首先如图1中的骨干网络部分所示,建立骨干网络作为基础的特征提取网络,骨干网络由深度残差网络(ResNet-50)和空间非局部模块组成,其中,ResNet-50由五个卷积模块组成,如图1所示。在ResNet-50的每个模块之间插入非局部网络,组成具有较强空间注意力的骨干网络。空间非局部注意力模块可以表示为:
其中,Xi为模块输入特征,Zi为模块输出特征,θ、φ和g为特征嵌入空间,通过卷积核为1×1的卷积实现。i是要计算其响应的输出位置的索引,j是枚举所有位置的索引。
步骤二、利用骨干网络对帧数为T的视频It(t=1,2,…,T)中的每帧图像分别提取特征,得到每帧图像对应的特征向量C、H和W分别为特征的通道数和空间维度,并利用3DAP操作得到该视频的全局特征表示/>该操作通过下式进行,
步骤三、将输入帧间通道维重组和分组卷积网络(CSGC)中,CSGC能够在捕捉时空关系的同时去除通道冗余,得到的特征记为fCSGS
假设T为4,那么,CSGC模块具体分为以下过程:
(1)将第一帧特征按通道维等分为两个单独的特征,分别为和/>
(2)将f12和f2进行通道维拼接,并通过分组卷积建立帧间特征关系,得到特征注意,此过程f11没有进行处理。拼接过程如下式所示,
(3)接着将按通道维等分为两个单独的特征,重复过程(2),直到处理完T 帧数据;
(4)将得到的特征和前几个过程没有处理的特征进行通道维拼合,然后利用全局平均池化(Global Average Pooling,GAP)和全连接层(Fully Connected layer,FC)对特征进行降维,即/>GAP过程如下,
步骤四、考虑到单一特征表示无法保证可靠的稳定性,本发明利用加权融合方法对fg和fCSGS进行融合表示,得到视频的最终特征表示ffinal,加权融合方法如下式所示:
ffinal=(1-λ)fg+λfCSGS
其中,λ为控制两者重要程度的超参数。
步骤五、利用所设计的网络结构对待检索数和查询库数据进行特征提取,并计算两者特征之间的欧式距离。最终,对所得的相似度高到底排序,产生识别结果。

Claims (1)

1.一种基于时空通道注意力的目标重识别方法,其特征在于步骤如下:
步骤1、建立骨干网络作为基础的特征提取网络:骨干网络包括深度残差网络ResNet-50和空间非局部网络Spatial Non Local Network,其中,ResNet-50由五个卷积模块组成,在ResNet-50的五个卷积模块之间插入三个非局部网络;空间非局部网络表示为:
其中,Xi为模块输入特征,Zi为模块输出特征,θ、φ和g为特征嵌入空间,通过卷积核为1×1的卷积实现;i是要计算其响应的输出位置的索引,j是枚举所有位置的索引;
步骤2:以骨干网络对帧数为T的视频It中的每帧图像分别提取特征,得到每帧图像对应的特征向量C、H和W分别为特征向量的通道数、高度数和宽度数;
步骤3:将ft分别输入三维平均池化3DAP模块和帧间通道维重组与分组卷积网络CSGC中,分别得到该视频的全局特征表示和/>
三维平均池化3DAP操作为:
其中,T为输入的视频帧数;
假设T为4,CSGC模块具体分为以下过程:步骤(31)、将第一帧特征按通道维等分为两个单独的特征,分别为/>和/>步骤(32)、将f12和f2进行通道维拼接,并通过分组卷积建立帧间特征关系,得到特征/>拼接公式为:
步骤(33)、将按通道维等分为两个单独的特征,重复过程(32),直到处理完T帧数据;
步骤(34)、将得到的特征和前几个过程没有处理的特征进行通道维拼合,然后利用全局平均池化和全连接层对特征进行降维,即/>
其中,
步骤4:利用加权融合方法对fg和fCSGS进行融合表示,得到视频的最终特征表示ffinal
加权融合方法为:
ffinal=(1-λ)fg+λfCSGS
其中,λ为控制两者重要程度的超参数;
步骤5:重复步骤1到步骤4,对待检索数和查询库数据进行特征提取,并计算两者特征之间的欧式距离;最终,对所得的欧氏距离按照由远及近进行排序,产生识别结果。
CN202110462460.6A 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法 Active CN113221686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110462460.6A CN113221686B (zh) 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110462460.6A CN113221686B (zh) 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法

Publications (2)

Publication Number Publication Date
CN113221686A CN113221686A (zh) 2021-08-06
CN113221686B true CN113221686B (zh) 2024-01-09

Family

ID=77089306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110462460.6A Active CN113221686B (zh) 2021-04-27 2021-04-27 一种基于时空通道注意力的目标重识别方法

Country Status (1)

Country Link
CN (1) CN113221686B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160297A (zh) * 2019-12-31 2020-05-15 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111160295A (zh) * 2019-12-31 2020-05-15 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111310633A (zh) * 2020-02-10 2020-06-19 江南大学 基于视频的并行时空注意力行人重识别方法
WO2021017303A1 (zh) * 2019-07-30 2021-02-04 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及存储介质
CN112507853A (zh) * 2020-12-02 2021-03-16 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021017303A1 (zh) * 2019-07-30 2021-02-04 平安科技(深圳)有限公司 行人重识别方法、装置、计算机设备及存储介质
CN111160297A (zh) * 2019-12-31 2020-05-15 武汉大学 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111160295A (zh) * 2019-12-31 2020-05-15 广州视声智能科技有限公司 基于区域引导和时空注意力的视频行人重识别方法
CN111310633A (zh) * 2020-02-10 2020-06-19 江南大学 基于视频的并行时空注意力行人重识别方法
CN112507853A (zh) * 2020-12-02 2021-03-16 西北工业大学 一种基于互注意力机制的跨模态行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep learning-based methods for person re-identification: A comprehensive review;Di Wu et al.;Neurocomputing;全文 *
基于全局时空感受野的高效视频分类方法;王辉涛;胡燕;;小型微型计算机系统(第08期);全文 *

Also Published As

Publication number Publication date
CN113221686A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Yang et al. Bi-directional progressive guidance network for RGB-D salient object detection
CN109508663A (zh) 一种基于多层次监督网络的行人重识别方法
CN111460914A (zh) 一种基于全局和局部细粒度特征的行人重识别方法
CN113822246B (zh) 一种基于全局参考注意力机制的车辆重识别方法
CN114299542A (zh) 一种基于多尺度特征融合的视频行人重识别方法
Xuan et al. A proposal-based paradigm for self-supervised sound source localization in videos
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
CN112861605A (zh) 基于时空混合特征的多人步态识别方法
CN116543168A (zh) 一种基于多维度图像信息融合的垃圾图像去噪方法
CN116128944A (zh) 一种基于特征交互和可靠对应关系估计的三维点云配准方法
CN112084895A (zh) 一种基于深度学习的行人重识别方法
CN114333062B (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Lin et al. Multi-motion segmentation via co-attention-induced heterogeneous model fitting
Chen et al. Costformer: Cost transformer for cost aggregation in multi-view stereo
Rizzoli et al. Source-free domain adaptation for rgb-d semantic segmentation with vision transformers
Tumrani et al. View-aware attribute-guided network for vehicle re-identification
CN113221686B (zh) 一种基于时空通道注意力的目标重识别方法
CN114782977A (zh) 一种基于拓扑信息和亲和度信息引导行人重识别方法
Wu et al. Rewarded Semi-Supervised Re-Identification on Identities Rarely Crossing Camera Views
CN114911967B (zh) 一种基于自适应域增强的三维模型草图检索方法
CN116311384A (zh) 基于中间模态和表征学习的跨模态行人重识别方法、装置
CN115830643A (zh) 一种姿势引导对齐的轻量行人重识别方法
CN116030495A (zh) 基于倍率学习的低分辨率行人重识别算法
Yao et al. Pa-awcnn: Two-stream parallel attention adaptive weight network for rgb-d action recognition
CN114821631A (zh) 基于注意力机制与多尺度特征融合的行人特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant