CN114821631A - 基于注意力机制与多尺度特征融合的行人特征提取方法 - Google Patents

基于注意力机制与多尺度特征融合的行人特征提取方法 Download PDF

Info

Publication number
CN114821631A
CN114821631A CN202210226785.9A CN202210226785A CN114821631A CN 114821631 A CN114821631 A CN 114821631A CN 202210226785 A CN202210226785 A CN 202210226785A CN 114821631 A CN114821631 A CN 114821631A
Authority
CN
China
Prior art keywords
pedestrian
feature
follows
attention mechanism
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210226785.9A
Other languages
English (en)
Other versions
CN114821631B (zh
Inventor
孙晓明
段彦
陈言
王永亮
张微风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202210226785.9A priority Critical patent/CN114821631B/zh
Publication of CN114821631A publication Critical patent/CN114821631A/zh
Application granted granted Critical
Publication of CN114821631B publication Critical patent/CN114821631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明基于注意力机制与多尺度特征融合的行人特征提取方法属于计算机视觉、机器视觉和深度学习技术领域;该方法依次执行以下步骤:构建自上而下渐进式交互模块;构建M‑Convolution注意力机制模块;设置评价指标;评价行人特征提取方法的有效性;本发明在数据集上通过Resnet50+FPN、Resnet50+FPN+M‑convolution、Resnet50+MPN三种行人特征提取方法进行训练,经过对比mAP、Rank‑1和Rank‑5三个衡量指标,本发明构建的两个模块在三个指标上的表现均有不同程度的提高,验证了基于注意力机制与多尺度特征融合的行人特征提取方法的有效性,具有较大的实用价值。

Description

基于注意力机制与多尺度特征融合的行人特征提取方法
技术领域
本发明基于注意力机制与多尺度特征融合的行人特征提取方法属于计算机视觉、机器视觉和深度学习技术领域。
背景技术
近年来,行人重识别技术发展的越来越成熟,对建设智能安防系统和构建智慧城市做出的巨大贡献,行人重识别技术主要依赖于行人特征提取。
早期研究中,行人特征提取依赖于单一手工特征设计方式,Gheissari N等人在实验中对HOG特征向量使用加权的方法提取的行人特征信息并进行数据增强,使用MIT数据集进行模型训练以及算法验证,达到了77%的识别精度。然而,手工特征设计方式较为复杂,而且在背景遮挡、人物遮挡等复杂场景下,模型特征表达能力明显不足,降低了行人特征提取精确度。
随着深度学习的发展,卷积神经网络凭借强大的特征提取能力以及模型扩展能力在行人检测、识别、跟踪方面发挥着强大的生命力,之后大量基于卷积神经网络的衍生算法被提出,进一步提高了该框架在行人检测任务中的准确度。然而,这些行人特征提取方法仍然受到背景遮挡、人物遮挡等因素的影响,行人重识别的检测精确度表现仍然不太理想。
可见,为了提高行人重识别的识别精确度,有必要对行人特征提取方法进行改进升级。
发明内容
为了实现上述目的,本发明公开了一种基于注意力机制与多尺度特征融合的行人特征提取方法,提出了一种基于注意力机制与多尺度特征融合的行人特征提取网络,包括自上而下渐进式交互模块和M-Convolution注意力机制模块,提高了行人识别的准确率,具有较大的实用价值。
本发明的目的是这样实现的:
基于注意力机制与多尺度特征融合的行人特征提取方法,包括以下步骤:
步骤a、构建自上而下渐进式交互模块;
步骤b、构建M-Convolution注意力机制模块;
步骤c、设置评价指标;
步骤d、评价行人特征提取方法的有效性。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤a具体步骤如下:
步骤a1、输入行人图像,采用残差网络Resnet50完成特征卷积计算,生成的四个特征图,{C2,C3,C4,C5}表示所述四个特征图;
步骤a2、将较低层次相邻的特征图{C4,C5}进行跨尺度非局部特征操作,将重复出现的行人特征信息进行融合得到特征图
Figure BDA0003539551950000021
所述跨尺度非局部特征操作公式如下:
Figure BDA0003539551950000022
Figure BDA0003539551950000023
Figure BDA0003539551950000024
f(Fi)=WfFi
g(Gj)=WgGj
θ=WθGj
其中,F、G为两个行人特征图;i,j为特征图F、G、y的位置索引;∑为求和符号;φ为点乘进行相似度计算函数;θ为行人特征转换函数;Gj为生成新的行人特征图;yi为行人特征信息;σ(F,G)为标量函数;r*r为斑块区域的大小;δ(r)为邻域大小;Wf、Wg、Wθ为线性嵌入函数实现从向量到标量的转化;e为自然常数;T为转置符号;f(Fi)Tg(Gj)为点乘相似度计算公式;
步骤a3、将特征图
Figure BDA0003539551950000025
和特征图{C3}再次进行跨尺度非局部特征操作,将重复出现的行人特征信息再次进行融合得到特征图
Figure BDA0003539551950000026
步骤a4、将得到的特征图进行级联操作和上采样操作之后,输入到注意力机制模块。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤b具体步骤如下:
步骤b1、在通道和空间两个维度通过CBAM网络模型结构进行特征捕捉,得到特征图A;具体步骤如下:
步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉;
步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉;
步骤b2、计算特征图之间的关联性并且增添注意力权重K,输出行人特征图,所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度;
所述输出行人特征公式如下:
Figure BDA0003539551950000031
AK=F2(A,K)=K+A⊙K
其中,I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征;l=0,...,N-1;m=0,...,H-1;n=0,...,W-1;o=0,...,c1-1;p=0,...,c2-1;
Figure BDA0003539551950000032
为输入特征;N、c1、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度;
Figure BDA0003539551950000033
为权重;
Figure BDA0003539551950000034
为输出特征;c2、h和w分别是输出通道的数量、输出行人特征图的高度和宽度;
Figure BDA0003539551950000035
为注意力机制行人特征;⊙表示哈达玛乘积;
Figure BDA0003539551950000036
表示卷积运算;∑为求和符号;
Figure BDA0003539551950000037
F1、F2为函数;
步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作,最终得到预测特征图{P2,P3,P4,P5,P6}。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤c具体步骤如下:
步骤c1、绘制累积匹配曲线CMC图;
步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标;具体步骤如下:
步骤c2-1、计算每个查询行人图像的准确率P(k,A);计算公式如下:
Figure BDA0003539551950000038
其中,k表示返回的前k个行人排序结果;kc表示k个行人中正例样本的数目;A为查询的图像;P为准确率;
步骤c2-2、计算每个查询行人图像的平均值AP(A);计算公式如下:
Figure BDA0003539551950000039
其中,M为候选行人图库中与查询的图像A同标签的行人图片数目;j为M个正例行人样本在返回的排序结果中的位置索引;
步骤c2-3、计算平均精度均值mAP;计算公式如下:
Figure BDA0003539551950000041
其中,N为检索行人图像的数量;
步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5;计算公式如下:
Figure BDA0003539551950000042
Figure BDA0003539551950000043
其中,cn-1表示N次查询中,排在第一位的检测结果是正确行人对象的次数;cn-5表示N次查询中,排在第五位的检测结果是正确行人对象的次数。
上述基于注意力机制与多尺度特征融合的行人特征提取方法,步骤d具体步骤如下:
步骤d1、使用难样本采样三元组损失调整网络;计算公式如下:
Figure BDA0003539551950000044
其中,LID为标签平滑分类损失;Ltrihard为难样本采样三元组损失;b表示每批次训练样本数;||fHi-fPi||2表示两个行人特征之间的距离;H和P是同一行人的样本;H和N代表不同行人的样本;α表示距离间隔;
步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练;
步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。
有益效果:
本发明设计了一种基于注意力机制与多尺度特征融合的行人特征提取方法,提出了一种基于注意力机制与多尺度特征融合的行人特征提取网络,包括自上而下渐进式交互模块和M-Convolution注意力机制模块,提高了行人识别的准确率,具有较大的实用价值。
附图说明
图1为自上而下渐进式交互模块结构图。
图2为残差网络Resnet50结构图。
图3为双线性插值法示意图。
图4为M-Convolution注意力机制模块结构图。
图5为CBAM网络模型结构图。
图6为通道注意力子模块结构图。
图7为空间注意力子模块结构图。
图8为特征图金字塔网络FPN工作原理示意图。
图9为三种提取方法在Market-150数据集上训练得到的累积匹配曲线CMC图。
图10为三种提取方法在DukeMTMC-reID数据集上训练得到的累积匹配曲线CMC图。
具体实施方式
下面结合附图对本发明具体实施方式作进一步详细描述。
本发明基于注意力机制与多尺度特征融合的行人特征提取方法,包括以下步骤:
步骤a、构建自上而下渐进式交互模块;
步骤b、构建M-Convolution注意力机制模块;
步骤c、设置评价指标;
步骤d、评价行人特征提取方法的有效性。
其中,自上而下渐进式交互模块结构图如图1所示,步骤a具体步骤如下:
步骤a1、输入行人图像,采用如图2所示的残差网络Resnet50完成特征卷积计算,生成的四个特征图,{C2,C3,C4,C5}表示所述四个特征图;
步骤a2、将较低层次相邻的特征图{C4,C5}进行跨尺度非局部特征操作,将重复出现的行人特征信息进行融合得到特征图
Figure BDA0003539551950000051
所述跨尺度非局部特征操作公式如下:
Figure BDA0003539551950000052
Figure BDA0003539551950000053
Figure BDA0003539551950000054
f(Fi)=WfFi
g(Gj)=WgGj
θ=WθGj
其中,F、G为两个行人特征图;i,j为特征图F、G、y的位置索引;∑为求和符号;φ为点乘进行相似度计算函数;θ为行人特征转换函数;Gj为生成新的行人特征图;yi为行人特征信息;σ(F,G)为标量函数;r*r为斑块区域的大小;δ(r)为邻域大小;Wf、Wg、Wθ为线性嵌入函数实现从向量到标量的转化;e为自然常数;T为转置符号;f(Fi)Tg(Gj)为点乘相似度计算公式;
步骤a3、将特征图
Figure BDA0003539551950000061
和特征图{C3}再次进行跨尺度非局部特征操作,将重复出现的行人特征信息再次进行融合得到特征图
Figure BDA0003539551950000062
步骤a4、将得到的特征图进行级联操作和上采样操作之后,输入到注意力机制模块;
其中,级联操作可以理解为通道数的合并,通过级联操作之后图像本身的特征增加了,但是每一特征下的信息是没有增加;计算公式如下:
c=cA+cB
上采样操作通过如图3所示的双线性插值的方式完成,首先进行x方向的插值,计算公式如下:
Figure BDA0003539551950000063
Figure BDA0003539551950000064
然后进行y方向的插值,计算得到P点的灰度值,计算公式如下:
Figure BDA0003539551950000065
在步骤a4中,f(Qxx)为代表某一点的灰度值;Q12坐标为(x1,y2);Q22坐标为(x2,y2);Q11坐标为(x1,y1);Q21坐标为(x2,y1);f(Rx)为进行x方向插值得到的灰度值;f(x,y)为经过双线性插值得到的灰度值;cA为特征图A的通道数,cB为特征图B的通道数,c为级联之后特征图的通道数。
其中,M-Convolution注意力机制模块结构图如图4所示,步骤b具体步骤如下:
步骤b1、在通道和空间两个维度通过如图5所示的CBAM网络模型结构进行特征捕捉,得到特征图A;具体步骤如下:
步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉;
将输入的特征图分别经过全局最大池化操作和全局平均池化操作,得到两个特征图,之后输入两层的神经网络MLP,最后经过element-wise操作和sigmoid激活操作输出图6所示的通道注意力特征图;
步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉;
将通道注意力子模块的输出特征图作为本子模块的输入特征图,首先依次经过全局最大池化操作和全局平均池化操作,得到两个特征图,之后经过级联操作,然后经过卷积操作生成通道数为1的特征图,然后经过sigmoid激活操作输出如图7所示的空间注意力特征图,最后将空间注意力子模块的输入的特征图和输出的特征图进行逐元素相乘,输出特征图A;
步骤b2、计算特征图之间的关联性并且增添注意力权重K,输出行人特征图,所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度;
所述输出行人特征公式如下:
Figure BDA0003539551950000071
AK=F2(A,K)=K+A⊙K
其中,I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征;l=0,...,N-1;m=0,...,H-1;n=0,...,W-1;o=0,...,c1-1;p=0,...,c2-1;
Figure BDA0003539551950000072
为输入特征;N、c1、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度;
Figure BDA0003539551950000073
为权重;
Figure BDA0003539551950000074
为输出特征;c2、h和w分别是输出通道的数量、输出行人特征图的高度和宽度;
Figure BDA0003539551950000075
为注意力机制行人特征;⊙表示哈达玛乘积;
Figure BDA0003539551950000076
表示卷积运算;∑为求和符号;
Figure BDA0003539551950000077
F1、F2为函数;
步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作,最终得到预测特征图{P2,P3,P4,P5,P6};
其中,下采样操作通过卷积操作完成,例如对于一幅图像尺寸为M*N,对其进行s倍下采样,即得到(M/s)*(N/s)尺寸的得分辨率图像。
步骤c具体步骤如下:
步骤c1、绘制累积匹配曲线CMC图;
步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标;具体步骤如下:
步骤c2-1、计算每个查询行人图像的准确率P(k,A);计算公式如下:
Figure BDA0003539551950000078
其中,k表示返回的前k个行人排序结果;kc表示k个行人中正例样本的数目;A为查询的图像;P为准确率;
步骤c2-2、计算每个查询行人图像的平均值AP(A);计算公式如下:
Figure BDA0003539551950000081
其中,M为候选行人图库中与查询的图像A同标签的行人图片数目;j为M个正例行人样本在返回的排序结果中的位置索引;
步骤c2-3、计算平均精度均值mAP;计算公式如下:
Figure BDA0003539551950000082
其中,N为检索行人图像的数量;
步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5;计算公式如下:
Figure BDA0003539551950000083
Figure BDA0003539551950000084
其中,cn-1表示N次查询中,排在第一位的检测结果是正确行人对象的次数;cn-5表示N次查询中,排在第五位的检测结果是正确行人对象的次数。
步骤d具体步骤如下:
步骤d1、使用难样本采样三元组损失调整网络;计算公式如下:
Figure BDA0003539551950000085
其中,LID为标签平滑分类损失;Ltrihard为难样本采样三元组损失;b表示每批次训练样本数;||fHi-fPi||2表示两个行人特征之间的距离;H和P是同一行人的样本;H和N代表不同行人的样本;α表示距离间隔;
步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练;
其中,特征图金字塔网络FPN通过对顶层行人特征进行上采样操作后和低层特征融合,此外每一个层级的特征预测是分别进行。其中自底向上部分主要是经过卷积操作完成降采样过程;自顶向下是经过反卷积操作完成上采样;横向连接部分实现高分辨率但语义表达弱的特征和低分辨率语义表达强的特征融合后进行预测输出,其工作原理如图8所示;对于特征图金字塔网络FPN+M-convolution的方法则在横向连接部分加入注意力机制模块M-convolution,减少无用特征,提高有效特征的表达能力;
步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。
本实施例在Market-1501、DukeMTMC-reID两个数据集下,通过Resnet50+FPN、Resnet50+FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练,之后绘制CMC曲线图,三种方法在Market-150数据集上的表现如图9所示,在DukeMTMC-reID数据集上的表现如图10所示。
从实验结果来看,Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN表现较好,说明MPN网络采用了自上而下渐进式交互模块,有效利用了行人图像多尺度信息,提高了行人检测的精确度。而且在不同的数据集上,Resnet50+MPN结果并没有比另外两种网络结构低,说明M-Convolution注意力机制模块并没有因为网络参数量增多导致特征提取速度变慢,反而因为对注意力图个数的抑制使得特征提取速度加快的同时也提高了行人检测的精确度。
为了验证M-Convolution注意力机制模块和构建自上而下渐进式交互模块的有效性,计算平均精度均值mAP、Rank-1和Rank-5三个衡量指标,如表1所示:
表1对比衡量指标
Figure BDA0003539551950000091
结合Rank-1、mAP和Rank-5的定义,验证了基于注意力机制与多尺度特征融合的行人特征提取方法的有效性,具有较大的实用价值。

Claims (5)

1.基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,包括以下步骤:
步骤a、构建自上而下渐进式交互模块;
步骤b、构建M-Convolution注意力机制模块;
步骤c、设置评价指标;
步骤d、评价行人特征提取方法的有效性。
2.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤a具体步骤如下:
步骤a1、输入行人图像,采用残差网络Resnet50完成特征卷积计算,生成的四个特征图,{C2,C3,C4,C5}表示所述四个特征图;
步骤a2、将较低层次相邻的特征图{C4,C5}进行跨尺度非局部特征操作,将重复出现的行人特征信息进行融合得到特征图
Figure FDA0003539551940000011
所述跨尺度非局部特征操作公式如下:
Figure FDA0003539551940000012
Figure FDA0003539551940000013
Figure FDA0003539551940000014
f(Fi)=WfFi
g(Gj)=WgGj
θ=WθGj
其中,F、G为两个行人特征图;i,j为特征图F、G、y的位置索引;∑为求和符号;φ为点乘进行相似度计算函数;θ为行人特征转换函数;Gj为生成新的行人特征图;yi为行人特征信息;σ(F,G)为标量函数;r*r为斑块区域的大小;δ(r)为邻域大小;Wf、Wg、Wθ为线性嵌入函数实现从向量到标量的转化;e为自然常数;T为转置符号;f(Fi)Tg(Gj)为点乘相似度计算公式;
步骤a3、将特征图
Figure FDA0003539551940000015
和特征图{C3}再次进行跨尺度非局部特征操作,将重复出现的行人特征信息再次进行融合得到特征图
Figure FDA0003539551940000016
步骤a4、将得到的特征图进行级联操作和上采样操作之后,输入到注意力机制模块。
3.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤b具体步骤如下:
步骤b1、在通道和空间两个维度通过CBAM网络模型结构进行特征捕捉,得到特征图A;具体步骤如下:
步骤b1-1、在CBAM网络通道注意力子模块上进行特征捕捉;
步骤b1-2、在CBAM网络空间注意力子模块上进行特征捕捉;
步骤b2、计算特征图之间的关联性并且增添注意力权重K,输出行人特征图,所述行人特征包含检索行人图像数量、输出通道的数量、输出行人特征图的高度和宽度;
所述输出行人特征公式如下:
Figure FDA0003539551940000021
AK=F2(A,K)=K+A⊙K
其中,I、K和O分别代表在行人重识别卷积网络中的输入行人特征、权值和输出行人特征;l=0,...,N-1;m=0,...,H-1;n=0,...,W-1;o=0,...,c1-1;p=0,...,c2-1;
Figure FDA0003539551940000022
为输入特征;N、c1、H和W分别为检索行人图像数量、输入通道数量、输入特征的高度和宽度;
Figure FDA0003539551940000023
为权重;
Figure FDA0003539551940000024
为输出特征;c2、h和w分别是输出通道的数量、输出行人特征图的高度和宽度;
Figure FDA0003539551940000025
为注意力机制行人特征;⊙表示哈达玛乘积;
Figure FDA0003539551940000026
表示卷积运算;∑为求和符号;
Figure FDA0003539551940000027
F1、F2为函数;
步骤b3、将经过注意力机制模块处理之后的特征图进行0.5倍下采样操作,最终得到预测特征图{P2,P3,P4,P5,P6}。
4.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤c具体步骤如下:
步骤c1、绘制累积匹配曲线CMC图;
步骤c2、采用累积匹配曲线CMC中的平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5作为特征提取方法的衡量指标;具体步骤如下:
步骤c2-1、计算每个查询行人图像的准确率P(k,A);计算公式如下:
Figure FDA0003539551940000028
其中,k表示返回的前k个行人排序结果;kc表示k个行人中正例样本的数目;A为查询的图像;P为准确率;
步骤c2-2、计算每个查询行人图像的平均值AP(A);计算公式如下:
Figure FDA0003539551940000031
其中,M为候选行人图库中与查询的图像A同标签的行人图片数目;j为M个正例行人样本在返回的排序结果中的位置索引;
步骤c2-3、计算平均精度均值mAP;计算公式如下:
Figure FDA0003539551940000032
其中,N为检索行人图像的数量;
步骤c2-4、计算首位命中率Rank-1和第五位命中率Rank-5;计算公式如下:
Figure FDA0003539551940000033
Figure FDA0003539551940000034
其中,cn-1表示N次查询中,排在第一位的检测结果是正确行人对象的次数;cn-5表示N次查询中,排在第五位的检测结果是正确行人对象的次数。
5.根据权利要求1所述的基于注意力机制与多尺度特征融合的行人特征提取方法,其特征在于,步骤d具体步骤如下:
步骤d1、使用难样本采样三元组损失调整网络;计算公式如下:
Figure FDA0003539551940000035
其中,LID为标签平滑分类损失;Ltrihard为难样本采样三元组损失;b表示每批次训练样本数;||fHi-fPi||2表示两个行人特征之间的距离;H和P是同一行人的样本;H和N代表不同行人的样本;α表示距离间隔;
步骤d2、在Market-1501和DukeMTMC-reID两个数据集上通过Resnet50+特征图金字塔网络FPN、Resnet50+特征图金字塔网络FPN+M-convolution、Resnet50+MPN三种行人特征提取方法进行训练;
步骤d3、对比平均精度均值mAP、首位命中率Rank-1和第五位命中率Rank-5三个衡量指标来评价行人特征提取方法的有效性。
CN202210226785.9A 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法 Active CN114821631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210226785.9A CN114821631B (zh) 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210226785.9A CN114821631B (zh) 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法

Publications (2)

Publication Number Publication Date
CN114821631A true CN114821631A (zh) 2022-07-29
CN114821631B CN114821631B (zh) 2025-04-11

Family

ID=82528939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210226785.9A Active CN114821631B (zh) 2022-03-09 2022-03-09 基于注意力机制与多尺度特征融合的行人特征提取方法

Country Status (1)

Country Link
CN (1) CN114821631B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527123A (zh) * 2022-10-21 2022-12-27 河北省科学院地理科学研究所 一种基于多源特征融合的土地覆被遥感监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN113392711A (zh) * 2021-05-19 2021-09-14 中国科学院声学研究所南海研究站 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN114119690A (zh) * 2021-12-16 2022-03-01 左一帆 一种基于神经网络重建高斯混合模型的点云配准方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139069A1 (zh) * 2020-01-09 2021-07-15 南京信息工程大学 自适应注意力指导机制的一般性目标检测方法
CN111325111A (zh) * 2020-01-23 2020-06-23 同济大学 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN112651973A (zh) * 2020-12-14 2021-04-13 南京理工大学 基于特征金字塔注意力和混合注意力级联的语义分割方法
CN113392711A (zh) * 2021-05-19 2021-09-14 中国科学院声学研究所南海研究站 一种基于高层语义与噪声抑制的烟雾语义分割方法及系统
CN114119690A (zh) * 2021-12-16 2022-03-01 左一帆 一种基于神经网络重建高斯混合模型的点云配准方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭启帆;刘磊;张珹;徐文娟;靖稳峰;: "基于特征金字塔的多尺度特征融合网络", 工程数学学报, no. 05, 15 October 2020 (2020-10-15), pages 5 - 14 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527123A (zh) * 2022-10-21 2022-12-27 河北省科学院地理科学研究所 一种基于多源特征融合的土地覆被遥感监测方法

Also Published As

Publication number Publication date
CN114821631B (zh) 2025-04-11

Similar Documents

Publication Publication Date Title
CN113780149B (zh) 一种基于注意力机制的遥感图像建筑物目标高效提取方法
CN111898736B (zh) 基于属性感知的高效行人重识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN111401436B (zh) 一种融合网络和双通道注意力机制的街景图像分割方法
CN110070073A (zh) 基于注意力机制的全局特征和局部特征的行人再识别方法
CN110796026A (zh) 一种基于全局特征拼接的行人重识别方法
CN110738207A (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111932553A (zh) 基于区域描述自注意力机制的遥感图像语义分割方法
CN111738091A (zh) 一种基于多任务深度学习的姿态估计与人体解析系统
CN110956126A (zh) 一种联合超分辨率重建的小目标检测方法
CN114510594B (zh) 一种基于自注意力机制的传统纹样子图检索方法
CN111985367A (zh) 一种基于多尺度特征融合的行人重识别特征提取方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN109635726B (zh) 一种基于对称式深度网络结合多尺度池化的滑坡识别方法
CN118691815A (zh) 一种基于sam大模型微调的遥感图像高质量自动实例分割方法
CN113158815A (zh) 一种无监督行人重识别方法、系统及计算机可读介质
CN114529552B (zh) 一种基于几何轮廓顶点预测的遥感影像建筑物分割方法
Cheng et al. A survey on image semantic segmentation using deep learning techniques
CN114519819A (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN112836637B (zh) 一种基于空间逆向注意网络的行人重识别方法
CN117710972A (zh) 基于双分支多尺度特征融合的轻量级语义分割方法及系统
CN117746364A (zh) 一种多尺度特征提取的非对称道路场景语义分割网络
CN116363526A (zh) MROCNet模型构建与多源遥感影像变化检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant