CN111539370B - 一种基于多注意力联合学习的图像行人重识别方法和系统 - Google Patents

一种基于多注意力联合学习的图像行人重识别方法和系统 Download PDF

Info

Publication number
CN111539370B
CN111539370B CN202010369889.6A CN202010369889A CN111539370B CN 111539370 B CN111539370 B CN 111539370B CN 202010369889 A CN202010369889 A CN 202010369889A CN 111539370 B CN111539370 B CN 111539370B
Authority
CN
China
Prior art keywords
attention
network
module
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010369889.6A
Other languages
English (en)
Other versions
CN111539370A (zh
Inventor
韩守东
罗善益
张宏亮
刘东海生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202010369889.6A priority Critical patent/CN111539370B/zh
Publication of CN111539370A publication Critical patent/CN111539370A/zh
Application granted granted Critical
Publication of CN111539370B publication Critical patent/CN111539370B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多注意力联合学习的图像行人重识别方法和系统,属于图像处理技术领域。本发明在ResNet50特征提取网络中引入了Soft注意力和高阶注意力,利用两种不同类型的注意力对特征提取的互补作用,改善了特征提取网络对于行人特征的学习能力,使得特征提取网络关注行人图像中更具有判别性的特征。为获得更精确的注意力特征,提出多级注意力损失函数,利用这种损失损失函数指导特征提取网络的训练学习,进一步改善特征提取网络对于行人特征的学习能力。在学习行人全局特征的同时,融合特征提取网络中的中级特征以及加强了对行人局部特征的学习,提升网络学习行人特征之间细微差别的能力,提升网络在图像行人重识别上的性能。

Description

一种基于多注意力联合学习的图像行人重识别方法和系统
技术领域
本发明属于图像处理和机器视觉中的行人重识别研究领域,具体涉及一种基于多注意力联合学习的图像行人重识别方法和系统。
背景技术
行人重识别是自动视频监控中的一项基本任务,也是近年来的研究热点。行人重识别的目的是在不同摄像机下对同一个人的观察结果之间建立对应的联系。通常,这是通过获取一个人在一个相机视图中看到的图像(或一组图像),并形成一个描述性模型,用于与在另一个相机视图或者时间点观察到的行人图像进行比较。其目的在于通过找到正确的匹配图像,从而确定一个人在一组相机中的过去(或现在)的位置。
行人重识别是一个非常困难的研究问题,因为在不同的摄像机下,一个人的外貌存在着视觉模糊和时空不确定性,这些困难往往是由于低分辨率的图像或者质量不太好的视频中含有大量不相关的信息,这些信息在行人重新识别的过程中没有任何作用,甚至可能对行人的重新识别造成干扰。
行人重识别任务类似于人脸识别,主要解决的是跨摄像头场景下的行人识别与检索。实际的行人重识别研究工作中主要有三部分组成:特征提取(行人对象的外观特征表示),距离度量(行人间的相似性比较)和排序优化(对最终排序结果的优化)。特征提取在行人重识别中扮演着重要的作用,近年来,注意力模型越来越多的应用到了计算机视觉的各个领域中,注意力模型能着重学习输入信号中信息最丰富的部分,能有效的改善网络对于行人特征的学习能力,使得特征提取网络关注行人图像中更具有判别性的特征。现有的算法往往都只使用单一的注意力,忽略了高级特征和不同注意力网络的互补作用,提取到行人特征判别性相对较低,行人重识别准确率低。
发明内容
针对现有技术使用单一的注意力导致行人重识别准确率低缺陷和改进需求,本发明提供了一种基于多注意力联合学习的图像行人重识别方法和系统,其目的在于通过Soft注意力模块和高阶注意力模块,提取出更加鲁棒和更具判别性的特征,并得出图像间的相似度,提高识别的准确率。
为实现上述目的,按照本发明的第一方面,提供了一种基于多注意力联合学习的图像行人重识别方法,该方法包括以下步骤:
步骤1.预训练ResNet50网络,使ResNet50网络参数具有初始值;
步骤2.基于预训练的ResNet50网络构建多注意力联合学习网络;
步骤3.基于行人数据集训练所述多注意力联合学习网络;
步骤4.利用训练好的多注意力联合学习网络,提取查询图像的特征和图库图像的特征,计算图库中图像与查询图像的距离,距离最近的即为与查询图像所指相同的目标;
所述多注意力联合学习网络还包括:加在ResNet50网络的Layer1和Layer2之间的第一Soft注意力模块,所述第一Soft注意力模块用于对输入的Layer1特征图进行注意力权重计算,得到Layer1输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的第二Soft注意力模块,所述第二Soft注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的显著性权重图;加在ResNet50网络的Layer3和Layer4之间的第三Soft注意力模块,所述第三Soft注意力模块用于对输入的Layer3特征图进行注意力权重计算,得到Layer3输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的高阶注意力模块,所述高阶注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的高阶注意力特征图;中级特征融合模块,用于将ResNet50网络的Layer4三层网络中的第一层网络提取的特征与第二层网络提取的特征的特征经过连接层融合之后,融合特征与第三层网络提取的特征经过全连接层融合,得到分支网络1的融合特征图;多粒度特征提取模块,用于将ResNet50网络的Layer4第三层网络提取的特征分别经过第一全局池化、第二全局池化、第一局部池化和第二局部池化,得到第一全局特征、第一局部特征、第二全局特征和第二局部特征,第一局部特征被水平分割为两份,第二局部特征被水平分割为三份。
优选地,步骤1中,采用amsgrad算法更新网络参数,amsgrad算法公式为:
mt=β1mt-1+(1-β1)gt
Figure BDA0002477251420000031
Figure BDA0002477251420000032
Figure BDA0002477251420000033
其中,mt表示当前平均梯度,初始值设为0,vt表示当前梯度平方和,初始值设为0,
Figure BDA0002477251420000034
表示当前最大梯度平方和,β1、β2为可设置参数,gt表示当前梯度,η表示学习率,ε表示一个无限小的数,防止分母为0,θt表示要更新的参数。
优选地,所述Soft模块包括:空间注意力模块和通道注意力模块;其中,
空间注意力模块由全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成,对输入特征图进行空间注意力计算,得到空间注意力特征图;
通道注意力模块由一个跨通道全局平均池化层和两个卷积层组成,对输入特征图进行通道注意力计算,得到通道注意力特征图;
两个特征图相乘之后经过一个CNN模块,经过Sigmoid激活函数之后得到最终的显著性权重图。
优选地,所述高阶注意力模块包括:一阶提取模块、二阶提取模块和三阶提取模块;其中,
一阶提取模块由依次连接的两个1*1卷积块组成;
二阶提取模块经过并联的两个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成;
三阶提取模块经过并联的三个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成;
将三个模块的输出特征相加,经过一个Simoid激活函数之后与输入特征相乘,得到最终的高阶注意力特征。
优选地,多注意力联合学习网络的损失函数同时采用了Softmax损失、多级注意力损失和三元组损失,计算公式如下:
L=2Ltriplet+Lsoftmax+Latt
其中,Ltriplet,Lsoftmax,Latt分别表示Softmax损失、多级注意力损失和三元组损失。
优选地,Softmax分类损失函数公式为:
Figure BDA0002477251420000041
其中,xi∈Rd表示第i个样本的维度是d特征向量,且xi属于第yi个类别的行人;Wj∈Rn表示分类层第j列的权重,
Figure BDA0002477251420000042
表示xi样本对应的权重,bj表示第j列的偏置参数,
Figure BDA0002477251420000043
表示xi样本对应的偏执参数;m和n分别表示批训练中的样本个数以及类别数。
优选地,多级注意力损失为:
Latt=0.2L1+0.3L2+0.4L3
其中,L1,L2,L3分别表示第一Soft注意力模块、第二Soft注意力模块、第三Soft注意力模块的注意力损失。
优选地,随机从数据集中抽取一个三元组{Ia,Ip,In}作为样,Ia为固定样本,Ip为正样本,In为负样本,对应的特征分别为fa、fp和fn,三元组损失函数公式为:
Figure BDA0002477251420000051
其中,[·]+=max(·,0),d1表示边距,NT=P×K表示一个批量图片数量,P表示每个批量中随机选取的P个身份,K表示每个身份随机抽取K张图片,d(·,·)表示欧几里得距离。
为实现上述目的,按照本发明的第二方面,提供了一种基于多注意力联合学习的图像行人重识别系统,包括:
预训练模块,用于预训练ResNet-50网络,使ResNet50网络参数具有初始值;
训练模块,用于基于行人数据集训练多注意力联合学习网络,多注意力联合学习网络基于预训练的ResNet50网络构建,所述多注意力联合学习网络还包括:加在ResNet50网络的Layer1和Layer2之间的第一Soft注意力模块,所述第一Soft注意力模块用于对输入的Layer1特征图进行注意力权重计算,得到Layer1输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的第二Soft注意力模块,所述第二Soft注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的显著性权重图;加在ResNet50网络的Layer3和Layer4之间的第三Soft注意力模块,所述第三Soft注意力模块用于对输入的Layer3特征图进行注意力权重计算,得到Layer3输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的高阶注意力模块,所述高阶注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的高阶注意力特征图;中级特征融合模块,用于将ResNet50网络的Layer4三层网络中的第一层网络提取的特征与第二层网络提取的特征的特征经过连接层融合之后,融合特征与第三层网络提取的特征经过全连接层融合,得到分支网络1的融合特征图;多粒度特征提取模块,用于将ResNet50网络的Layer4第三层网络提取的特征分别经过第一全局池化、第二全局池化、第一局部池化和第二局部池化,得到第一全局特征、第一局部特征、第二全局特征和第二局部特征,第一局部特征被水平分割为两份,第二局部特征被水平分割为三份;
行人重识别模块,用于利用训练好的多注意力联合学习网络,提取查询图像的特征和图库图像的特征,计算图库中图像与查询图像的距离,距离最近的即为与查询图像所指相同的目标。
总体而言,通过本发明所构思的以上技术方案,能够取得以下有益效果:
(1)本发明在ResNet50特征提取网络中引入了Soft注意力和高阶注意力,引入的Soft注意力可以使网络更加关注与图像中的行人区域特征,引入的高阶注意力具有更强的辨识能力,能够对部件之间复杂的高阶关系进行建模,利用两种不同类型的注意力对特征提取的互补作用,改善了特征提取网络对于行人特征的学习能力,使得特征提取网络关注行人图像中更具有判别性的特征。
(2)为了获得更精确的注意力特征,本发明提出多级注意力损失函数,利用这种损失函数指导特征提取网络的训练学习,加强了注意力特征对行人特征的表示学习,使得学习到的注意力特征能更加关注于行人中具有判别性的特征,进一步改善了特征提取网络对于行人特征的学习能力。
(3)本发明在学习行人全局特征的同时,融合了特征提取网络中的中级特征以及加强了对行人局部特征的学习,不同类型特征相互补充,形成了更具判别性的特征,提升网络学习行人特征之间细微差别的能力,提升网络在图像行人重识别上的性能。
附图说明
图1为本发明提供的多注意力联合学习网络的结构图;
图2为本发明提供的Soft注意力模块的结构图;
图3为本发明提供的高阶注意力中模块的结构图。
具体实施方式
本发明在ResNet50网络中同时引入了Soft注意力模块与高阶注意力模块,构成多注意力联合学习网络,用预训练的ResNet50网络参数初始化多注意力联合学习网络,然后在Market-1501数据集上训练多注意力联合学习网络,完成训练之后,此网络能够提取出有效的行人表征特征,用于行人重识别。
本发明公开了一种基于多注意力联合学习的图像行人重识别方法,该方法包括以下步骤:
步骤1.预训练ResNet50网络,使ResNet50网络参数具有初始值。
获取ImageNet数据集,数据集网址为https://www.image-net.org/,采用amsgrad算法更新网络参数,amsgrad算法公式为:
mt=β1mt-1+(1-β1)gt
Figure BDA0002477251420000071
Figure BDA0002477251420000072
Figure BDA0002477251420000073
其中,mt表示当前(t时刻)平均梯度,初始值设为0,vt表示当前梯度平方和,初始值设为0,
Figure BDA0002477251420000081
表示当前最大梯度平方和,β1、β2为可设置参数,gt表示当前梯度,η表示学习率,ε表示一个无限小的数,防止分母为0,θt表示要更新的参数。采用amsgrad算法更新参数,使得ResNet50网络具有较好的特征提取能力。预训练好的ResNet-50网络具有较好的特征提取能力。
步骤2.基于预训练的ResNet50网络构建多注意力联合学习网络。
如图1所示,所述多注意力联合学习网络还包括:
加在ResNet50网络的Layer1和Layer2之间的第一Soft注意力模块,所述第一Soft注意力模块用于对输入的Layer1特征图进行注意力权重计算,得到Layer1输出特征的显著性权重图;
加在ResNet50网络的Layer2和Layer3之间的第二Soft注意力模块,所述第二Soft注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的显著性权重图;
加在ResNet50网络的Layer3和Layer4之间的第三Soft注意力模块,所述第三Soft注意力模块用于对输入的Layer3特征图进行注意力权重计算,得到Layer3输出特征的显著性权重图;
加在ResNet50网络的Layer2和Layer3之间的高阶注意力模块,所述高阶注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的高阶注意力特征图;
中级特征融合模块,用于将ResNet50网络的Layer4三层网络中的第一层网络提取的特征与第二层网络提取的特征的特征经过连接层融合之后,融合特征与第三层网络提取的特征经过全连接层融合,得到分支网络1的融合特征图;
多粒度特征提取模块,用于将ResNet50网络的Layer4第三层网络提取的特征分别经过第一全局池化、第二全局池化、第一局部池化和第二局部池化,得到第一全局特征、第一局部特征、第二全局特征和第二局部特征,第一局部特征被水平分割为两份,第二局部特征被水平分割为三份。
从逻辑层面,ResNet50网络分成四个阶段部分,分支网络1分别在ResNet50网络的Layer1、Layer2和Layer3后面加入了一个Soft注意力模块,并将Layer4中三层网络中的每一层网络提取的特征输出,第一层与第二次的特征融合之后,经过一个全连接层后,将得到的新特征与第三层网络输出的特征融合,形成分支网络1的输出;在分支网络1的基础上,在Layer2处加入一个高阶注意力模块后,再经过Layer3后,引出分支网络2和分支网络3,其中分支网络2和分支网络3都采用了两种不同池化,分别得到了全局特征和局部特征,其中分支网络2的局部特征由Layer4的输出特征被水平分割为两份,分支网络3的局部特征由Layer4的输出特征被水平分割为三份。分支网络2和分支网络3共用了一个高阶注意力模块。
本实施例中,中级特征融合模块具体结构为:先将Layer4第一层的特征与Layer4第二层的特征连接在一起,然后经过一个4096-1024的全连接层,将输出的1024维特征与Layer4第三层的特征连接在一起,形成最后的输出特征。
优选地,如图2所示,Soft模块包括:空间注意力模块和通道注意力模块;其中,空间注意力模块由全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成,对输入特征图进行空间注意力计算,得到空间注意力特征图;通道注意力模块由一个跨通道全局平均池化层和两个卷积层组成,对输入特征图进行通道注意力计算,得到通道注意力特征图。所述两个模块分别提取得到输入的空间注意力特征图和通道注意力特征图,两个特征图相乘之后经过一个CNN模块,经过Sigmoid激活函数之后得到最终的显著性权重图。
如图3所示,高阶注意力模块包括:一阶提取模块、二阶提取模块和三阶提取模块;其中,一阶提取模块由依次连接的两个1*1卷积块组成,二阶提取模块经过并联的两个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成,三阶提取模块经过并联的三个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成。将三个模块的输出特征相加,经过一个Simoid激活函数之后与输入特征相乘,得到最终的高阶注意力特征。
步骤3.预处理行人数据集
先将数据集中的图片转换成384*128大小的图片,然后采用水平翻转,随机裁剪和随机擦除等方法扩充增强数据。具体为:产生一个0~1之间的随机数,如果该随机数大于设置的概率,则对图片进行翻转、裁剪和擦除操作。水平翻转是将图像以中轴线翻转,裁剪操作首先将图像扩展为原来的1.125倍,然后在扩展的图像中裁剪出一个和原图大小相同的图像。
步骤4.训练网络
分支网络1中3个Soft注意力模块后的输出特征采用全局池化后,形成一维的特征向量,利用每一阶段生成的一维特征向量单独判定行人ID,组合成一中多级注意力损失函数;分支网络1、分支网络2和分支网络3的全局特征输出同时采用Softmax损失函数和三元组损失函数;分支网络2和分支网络3的局部特征输出采用Softmax损失函数。
利用amsgrad算法更新多注意力联合学习网络中的参数,设置amsgrad算法中的β1=0.9,β2=0.999。网络的损失函数同时采用了Softmax损失函数、多级注意力损失函数和三元组损失函数,最终的损失函数为:
L=2Ltriplet+Lsoft max+Latt
Softmax分类损失函数公式为:
Figure BDA0002477251420000101
其中,xi∈Rd表示第i个样本的维度是d特征向量,且xi属于第yi个类别的行人;Wj∈Rn表示分类层第j列的权重,
Figure BDA0002477251420000102
表示xi样本对应的权重,bj表示第j列的偏置参数,
Figure BDA0002477251420000113
表示xi样本对应的偏执参数;m和n分别表示批训练中的样本个数以及类别数。
多级注意力损失中每一阶段对于损失的计算才用Softmax损失计算,多级注意力损失为:
Latt=0.2L1+0.3L2+0.4L3
其中,L1,L2,L3分别表示第一Soft注意力模块、第二Soft注意力模块、第三Soft注意力模块的注意力损失。
随机从数据集中抽取一个三元组{Ia,Ip,In}作为样,Ia为固定样本,Ip为正样本,In为负样本,对应的特征分别为fa、fp和fn,三元组损失函数公式为:
Figure BDA0002477251420000111
其中,[·]+=max(·,0),d1表示边距,NT=P×K表示一个批量图片数量,P表示每个批量中随机选取的P个身份,K表示每个身份随机抽取K张图片,d(·,·)表示欧几里得距离。
步骤5.进行行人重识别
利用步骤4中训练得到的网络模型,提取查询图像的特征和图库图像的特征,计算图库中图像与查询图像的距离,距离最近的即为与查询图像所指相同的目标。
距离计算采用余弦距离,余弦距离计算公式为:
Figure BDA0002477251420000112
其中,q,p表示两个图像的特征,qi和pi分别表示特征向量q、p中的元素,n表示特征向量q、p的维度。
综上所述,本发明联合两种不同类型的注意力模块,改善了网络的特征提取能力,能有效的提高行人重识别的准确率。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于多注意力联合学习的图像行人重识别方法,其特征在于,该方法包括以下步骤:
步骤1.预训练ResNet50网络,使ResNet50网络参数具有初始值;
步骤2.基于预训练的ResNet50网络构建多注意力联合学习网络;
步骤3.基于行人数据集训练所述多注意力联合学习网络;
步骤4.利用训练好的多注意力联合学习网络,提取查询图像的特征和图库图像的特征,计算图库中图像与查询图像的距离,距离最近的即为与查询图像所指相同的目标;
所述多注意力联合学习网络还包括:加在ResNet50网络的Layer1和Layer2之间的第一Soft注意力模块,所述第一Soft注意力模块用于对输入的Layer1特征图进行注意力权重计算,得到Layer1输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的第二Soft注意力模块,所述第二Soft注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的显著性权重图;加在ResNet50网络的Layer3和Layer4之间的第三Soft注意力模块,所述第三Soft注意力模块用于对输入的Layer3特征图进行注意力权重计算,得到Layer3输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的高阶注意力模块,所述高阶注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的高阶注意力特征图;中级特征融合模块,用于将ResNet50网络的Layer4三层网络中的第一层网络提取的特征与第二层网络提取的特征经过连接层融合之后,融合特征与第三层网络提取的特征经过全连接层融合,得到分支网络1的融合特征图;多粒度特征提取模块,用于将ResNet50网络的Layer4第三层网络提取的特征分别经过第一全局池化、第二全局池化、第一局部池化和第二局部池化,得到第一全局特征、第一局部特征、第二全局特征和第二局部特征,第一局部特征被水平分割为两份,第二局部特征被水平分割为三份;
所述高阶注意力模块包括:一阶提取模块、二阶提取模块和三阶提取模块;其中,
一阶提取模块由依次连接的两个1*1卷积块组成;
二阶提取模块经过并联的两个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成;
三阶提取模块经过并联的三个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成;
将三个模块的输出特征相加,经过一个Sigmoid激活函数之后与输入特征相乘,得到最终的高阶注意力特征。
2.如权利要求1所述的方法,其特征在于,步骤1中,采用amsgrad算法更新网络参数,amsgrad算法公式为:
mt=β1mt-1+(1-β1)gt
Figure FDA0003435952170000021
Figure FDA0003435952170000022
Figure FDA0003435952170000023
其中,mt表示当前平均梯度,初始值设为0,vt表示当前梯度平方和,初始值设为0,
Figure FDA0003435952170000031
表示当前最大梯度平方和,β1、β2为可设置参数,gt表示当前梯度,η表示学习率,ε表示一个无限小的数,防止分母为0,θt表示要更新的参数。
3.如权利要求1或2所述的方法,其特征在于,所述Soft注意力模块包括:空间注意力模块和通道注意力模块;其中,
空间注意力模块由全局跨通道平均池化层、步幅为2的3*3卷积层、上采样层和缩放卷积层组成,对输入特征图进行空间注意力计算,得到空间注意力特征图;
通道注意力模块由一个跨通道全局平均池化层和两个卷积层组成,对输入特征图进行通道注意力计算,得到通道注意力特征图;
两个特征图相乘之后经过一个CNN模块,经过Sigmoid激活函数之后得到最终的显著性权重图。
4.如权利要求1或2所述的方法,其特征在于,多注意力联合学习网络的损失函数同时采用了Softmax损失、多级注意力损失和三元组损失,计算公式如下:
L=2Ltriplet+Lsoftmax+Latt
其中,Lsoftmax、Latt、Ltriplet分别表示Softmax损失、多级注意力损失和三元组损失。
5.如权利要求4所述的方法,其特征在于,Softmax分类损失函数公式为:
Figure FDA0003435952170000032
其中,xi∈Rd表示第i个样本的维度是d特征向量,且xi属于第yi个类别的行人;Wj∈Rn表示分类层第j列的权重,
Figure FDA0003435952170000042
表示xi样本对应的权重,bj表示第j列的偏置参数,
Figure FDA0003435952170000043
表示xi样本对应的偏执参数;m和n分别表示批训练中的样本个数以及类别数。
6.如权利要求4所述的方法,其特征在于,多级注意力损失为:
Latt=0.2L1+0.3L2+0.4L3
其中,L1,L2,L3分别表示第一Soft注意力模块、第二Soft注意力模块、第三Soft注意力模块的注意力损失。
7.如权利要求4所述的方法,其特征在于,随机从数据集中抽取一个三元组{Ia,Ip,In}作为样,Ia为固定样本,Ip为正样本,In为负样本,对应的特征分别为fa、fp和fn,三元组损失函数公式为:
Figure FDA0003435952170000041
其中,[·]+=max(·,0),d1表示边距,NT=P×K表示一个批量图片数量,P表示每个批量中随机选取的P个身份,K表示每个身份随机抽取K张图片,d(·,·)表示欧几里得距离。
8.一种基于多注意力联合学习的图像行人重识别系统,其特征在于,包括:
预训练模块,用于预训练ResNet-50网络,使ResNet50网络参数具有初始值;
训练模块,用于基于行人数据集训练多注意力联合学习网络,多注意力联合学习网络基于预训练的ResNet50网络构建,所述多注意力联合学习网络还包括:加在ResNet50网络的Layer1和Layer2之间的第一Soft注意力模块,所述第一Soft注意力模块用于对输入的Layer1特征图进行注意力权重计算,得到Layer1输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的第二Soft注意力模块,所述第二Soft注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的显著性权重图;加在ResNet50网络的Layer3和Layer4之间的第三Soft注意力模块,所述第三Soft注意力模块用于对输入的Layer3特征图进行注意力权重计算,得到Layer3输出特征的显著性权重图;加在ResNet50网络的Layer2和Layer3之间的高阶注意力模块,所述高阶注意力模块用于对输入的Layer2特征图进行注意力权重计算,得到Layer2输出特征的高阶注意力特征图;中级特征融合模块,用于将ResNet50网络的Layer4三层网络中的第一层网络提取的特征与第二层网络提取的特征经过连接层融合之后,融合特征与第三层网络提取的特征经过全连接层融合,得到分支网络1的融合特征图;多粒度特征提取模块,用于将ResNet50网络的Layer4第三层网络提取的特征分别经过第一全局池化、第二全局池化、第一局部池化和第二局部池化,得到第一全局特征、第一局部特征、第二全局特征和第二局部特征,第一局部特征被水平分割为两份,第二局部特征被水平分割为三份;
行人重识别模块,用于利用训练好的多注意力联合学习网络,提取查询图像的特征和图库图像的特征,计算图库中图像与查询图像的距离,距离最近的即为与查询图像所指相同的目标;
所述高阶注意力模块包括:一阶提取模块、二阶提取模块和三阶提取模块;其中,
一阶提取模块由依次连接的两个1*1卷积块组成;
二阶提取模块经过并联的两个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成;
三阶提取模块经过并联的三个1*1卷积块后,对输出的特征相乘,再进过一个1*1卷积块组成;
将三个模块的输出特征相加,经过一个Sigmoid激活函数之后与输入特征相乘,得到最终的高阶注意力特征。
CN202010369889.6A 2020-04-30 2020-04-30 一种基于多注意力联合学习的图像行人重识别方法和系统 Expired - Fee Related CN111539370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010369889.6A CN111539370B (zh) 2020-04-30 2020-04-30 一种基于多注意力联合学习的图像行人重识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010369889.6A CN111539370B (zh) 2020-04-30 2020-04-30 一种基于多注意力联合学习的图像行人重识别方法和系统

Publications (2)

Publication Number Publication Date
CN111539370A CN111539370A (zh) 2020-08-14
CN111539370B true CN111539370B (zh) 2022-03-15

Family

ID=71973409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010369889.6A Expired - Fee Related CN111539370B (zh) 2020-04-30 2020-04-30 一种基于多注意力联合学习的图像行人重识别方法和系统

Country Status (1)

Country Link
CN (1) CN111539370B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016489B (zh) * 2020-09-02 2022-10-04 重庆邮电大学 一种保留全局信息并增强局部特征的行人再识别方法
CN112070010B (zh) * 2020-09-08 2024-03-22 长沙理工大学 一种联合多损失动态训练策略增强局部特征学习的行人重识别方法
CN112464775A (zh) * 2020-11-21 2021-03-09 西北工业大学 一种基于多分支网络的视频目标重识别方法
CN112541409B (zh) * 2020-11-30 2021-09-14 北京建筑大学 一种融入注意力的残差网络表情识别方法
CN112560604A (zh) * 2020-12-04 2021-03-26 中南大学 一种基于局部特征关系融合的行人重识别方法
CN114612927B (zh) * 2020-12-09 2023-05-09 四川大学 一种基于图像文本双通道联合的行人重识别方法
CN112419313B (zh) * 2020-12-10 2023-07-28 清华大学 一种基于先心病超声的多切面的分类方法
CN112597888B (zh) * 2020-12-22 2024-03-08 西北工业大学 一种针对cpu运算优化的在线教育场景学生注意力识别方法
CN113158739B (zh) * 2021-01-28 2024-01-05 中山大学 基于注意力机制的孪生网络解决换装行人重识别的方法
CN112784921A (zh) * 2021-02-02 2021-05-11 西北工业大学 任务注意力引导的小样本图像互补学习分类算法
CN112836637B (zh) * 2021-02-03 2022-06-14 江南大学 一种基于空间逆向注意网络的行人重识别方法
CN112801008B (zh) * 2021-02-05 2024-05-31 电子科技大学中山学院 行人重识别方法、装置、电子设备及可读存储介质
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN112966647A (zh) * 2021-03-25 2021-06-15 东北林业大学 一种基于逐层聚类及增强判别的行人重识别方法
CN112801235A (zh) * 2021-04-12 2021-05-14 四川大学 模型训练方法、预测方法、装置、重识别模型及电子设备
CN113111804B (zh) * 2021-04-16 2024-06-04 贝壳找房(北京)科技有限公司 一种人脸检测的方法、装置、电子设备及存储介质
CN113239784B (zh) * 2021-05-11 2022-09-30 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113283507B (zh) * 2021-05-27 2024-04-05 大连海事大学 一种基于多视图的特征融合车辆再识别方法
CN113449131B (zh) * 2021-06-29 2022-06-03 山东建筑大学 基于多特征信息捕捉和相关性分析的物品图像重识别方法
CN113343909B (zh) * 2021-06-29 2023-09-26 南京星云数字技术有限公司 多任务分类网络的训练方法、行人重识别方法
CN113901250B (zh) * 2021-10-09 2023-07-21 南京航空航天大学 一种基于显著性注意力的美容产品检索方法
CN115240121B (zh) * 2022-09-22 2023-01-03 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
US11810366B1 (en) 2022-09-22 2023-11-07 Zhejiang Lab Joint modeling method and apparatus for enhancing local features of pedestrians
CN115841683B (zh) * 2022-12-27 2023-06-20 石家庄铁道大学 一种联合多级特征的轻量行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN110110642A (zh) * 2019-04-29 2019-08-09 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN110188611A (zh) * 2019-04-26 2019-08-30 华中科技大学 一种引入视觉注意力机制的行人重识别方法及系统
CN111046962A (zh) * 2019-12-16 2020-04-21 中国人民解放军战略支援部队信息工程大学 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871777A (zh) * 2019-01-23 2019-06-11 广州智慧城市发展研究院 一种基于注意力机制的行为识别系统
CN110188611A (zh) * 2019-04-26 2019-08-30 华中科技大学 一种引入视觉注意力机制的行人重识别方法及系统
CN110110642A (zh) * 2019-04-29 2019-08-09 华南理工大学 一种基于多通道注意力特征的行人重识别方法
CN111046962A (zh) * 2019-12-16 2020-04-21 中国人民解放军战略支援部队信息工程大学 基于稀疏注意力的卷积神经网络模型的特征可视化方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Hybrid of Hard and Soft Attention for Person Re-Identification;Xuesong Li et al;《IEEE》;20200213;全文 *
Joint Attention Mechanism for Person Re-Identification;Shanshan Jiao et al;《IEEE》;20190708;全文 *
基于深度神经网络与注意力机制的行人重识别研究;陈亮雨;《中国优秀硕士学位论文全文数据库信息科技辑》;20200415;I138-442 *

Also Published As

Publication number Publication date
CN111539370A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111539370B (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN113936339B (zh) 基于双通道交叉注意力机制的打架识别方法和装置
US10592780B2 (en) Neural network training system
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
Workman et al. A unified model for near and remote sensing
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112396027A (zh) 基于图卷积神经网络的车辆重识别方法
CN112634369A (zh) 空间与或图模型生成方法、装置、电子设备和存储介质
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
Malav et al. DHSGAN: An end to end dehazing network for fog and smoke
CN112507893A (zh) 一种基于边缘计算的分布式无监督行人重识别方法
Ding et al. Global relational reasoning with spatial temporal graph interaction networks for skeleton-based action recognition
CN117456480B (zh) 一种基于多源信息融合的轻量化车辆再辨识方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
CN116824641B (zh) 姿态分类方法、装置、设备和计算机存储介质
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114067356B (zh) 基于联合局部引导与属性聚类的行人重识别方法
CN115393802A (zh) 一种基于小样本学习的铁路场景不常见入侵目标识别方法
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
Balachandran et al. Moving scene-based video segmentation using fast convolutional neural network integration of VGG-16 net deep learning architecture
Gao et al. Deep rank-consistent pyramid model for enhanced crowd counting
Khasanova et al. Image denoising for video surveillance cameras based on deep learning techniques
CN113722528A (zh) 一种面向素描图进行照片快速检索的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220315