CN116092127A - 基于并联式特征融合网络人体动作识别的行人重识别方法 - Google Patents

基于并联式特征融合网络人体动作识别的行人重识别方法 Download PDF

Info

Publication number
CN116092127A
CN116092127A CN202310179132.4A CN202310179132A CN116092127A CN 116092127 A CN116092127 A CN 116092127A CN 202310179132 A CN202310179132 A CN 202310179132A CN 116092127 A CN116092127 A CN 116092127A
Authority
CN
China
Prior art keywords
layer
network
channel
pedestrian
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310179132.4A
Other languages
English (en)
Inventor
陈尧
王世伟
钟代笛
黄智勇
仲元红
李祥臣
周庆
李勇明
谢芳
黄灏飞
罗玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202310179132.4A priority Critical patent/CN116092127A/zh
Publication of CN116092127A publication Critical patent/CN116092127A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于并联式特征融合网络人体动作识别的行人重识别方法,包括以下步骤:1)建立并联式特征融合网络:设置并联式特征融合网络的骨干网络,用于从输入图像中提取多尺度特征,并在该骨干网络的每一层均设置一分支网络,该分支网络用于提高本层图像语义信息的特征表达能力,并累积到骨干网络下一层的分支网络;骨干网络第一层的输出特征作为第一层分支网络的输入特征,从骨干网络第二层开始,骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征;2)利用并联式特征融合网络提取待检索行人图像的语义信息,将提取的语义信息与候选行人库中所有图像的语义信息一一对比,筛选出候选行人库中与待检索行人图像相似度最高的图像。

Description

基于并联式特征融合网络人体动作识别的行人重识别方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于并联式特征融合网络人体动作识别的行人重识别方法。
背景技术
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
ReID,也就是Re-identification,其定义是一种利用算法,使计算机能够自主在图像库中找到要搜索的目标的技术,所以它是属于计算机视觉中图像检索的一个子问题。
而行人重识别(Person Re-identification)则是ReID的子领域之一,旨在利用计算机视觉技术判断不同摄像机所捕获的视频库或图库中是否存在特定行人,并将检索出的行人图像根据相似度的高低建立一个排名列表(Rank List)。行人重识别任务的基本流程如下:
给定一张待检索的行人图像(Query/Probe),通过特定技术提取行人的特征描述符,将这种特征与候选行人库(Gallery)中的图像特征一一对比。在候选行人库中,与待检索的行人图像相似度高的图像排列在排名列表的前面,与待检索的行人图像相似度低的行人图像排列在排名列表的后面。
但是目前的行人重识别技术仍然会受到以下诸多原因的影响:
①图像分辨率低:
摄像机捕获的图像分辨率较低,图像分辨率会直接影响计算机对行人细节属性的观察,难以利用行人的面部特征识别特定的行人;
②行人姿态多变:
行人在不同的时间或地点具有不同的姿态,会加剧行人重识别的难度;
③环境多样化:
同一个行人在不同的时间段,其所处的环境差异比较大,环境的多样化势必会降低行人重识别的识别精度以及识别效率;
④目标被遮挡:
行人的身体可能会被建筑物、汽车、雨伞等遮挡,极易导致行人的语义信息丢失,从而大大降低行人重识别的识别精度以及识别效率。
如何克服上述诸多问题,大大提高行人重识别的识别效率和识别精准度,一直是计算机视觉领域亟待解决的问题。
发明内容
本发明的目的是针对现有技术对应的不足,提供一种基于并联式特征融合网络人体动作识别的行人重识别方法,在并联式特征融合网络中利用分组融合注意力层,从骨干网络不断向分支网络传递单层次特征,使分支网络不断累积图像的多层次语义信息,使整个并联式特征融合网络具有远大于基准网络的检索精度,更好的表达图像中行人的语义信息。
本发明的目的是采用下述方案实现的,一种基于并联式特征融合网络人体动作识别的行人重识别方法,包括以下步骤:
1)建立并联式特征融合网络:
设置并联式特征融合网络的骨干网络,用于从输入图像中提取多尺度特征,并在该骨干网络的每一层均设置一分支网络,该分支网络用于提高本层图像语义信息的特征表达能力,并累积到骨干网络下一层的分支网络;
骨干网络第一层的输出特征作为第一层分支网络的输入特征,从骨干网络第二层开始,骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征;
2)利用并联式特征融合网络提取待检索行人图像的语义信息,将提取的语义信息与候选行人库中所有图像的语义信息一一对比,筛选出候选行人库中与待检索行人图像相似度最高的图像。
优选地,所述并联式特征融合网络的骨干网络为深度残差神经网络。
优选地,所述分支网络包括一区域引导型Transformer层,用于获得具有全局上下文依赖性的语义信息,所述分支网络的输出特征为该区域引导型Transformer层的输出特征。
优选地,所述区域引导型Transformer层包括一个区域引导注意力单元和一个Transformer编码器,所述区域引导注意力单元包括两个全连接层以及一个sigmoid激活函数模块,用于获取每个局部区域特征的通道权重作为Transformer编码器的输入,所有通道的权重均由一中心偏差损失函数进行约束,所述中心偏差损失函数如下列公式所示:
Figure BDA0004102027340000031
Figure BDA0004102027340000041
Figure BDA0004102027340000042
Figure BDA0004102027340000043
式中,LBM为基于权重分布的中心偏差损失函数,δ为权重间隔,wL-σ为低于平均权重的权重,wH-σ为高于平均权重的权重,Wσ为平均权重,即所有通道的权重的平均值;
N为一个批次里图像的数目,N1为低于平均权重的图像数目,N2为高于平均权重的图像数目,wi为低于平均权重的所有图像中的第i个图像的权重,wj为高于平均权重的所有图像中的第j个图像的权重,wk为一个批次里的所有图像中第k个图像的权重。
优选地,所述分支网络包括一分组融合注意力层,用于捕捉不同尺度的语义信息,该分组融合注意力层设置在区域引导型Transformer层与骨干网络之间。
优选地,所述分组融合注意力层包括通道分组单元、第一通道、第二通道,所述第一通道由全局最大池化单元、第一全连接层、第二全连接层组成,所述第二通道由全局平均池化单元、第一全连接层、第二全连接层组成,所述第一通道的第一全连接层输出特征由ReLU激活函数处理后作为第一通道的第二全连接层输入特征,所述第二通道的第一全连接层输出特征由ReLU激活函数处理后作为第二通道的第二全连接层输入特征,所述第一通道的第二全连接层、第二通道的第二全连接层的输出特征由Sigmoid激活函数处理后,进行通道拼接再输出,所述分组融合注意力层的数学表达式如下所示:
Figure BDA0004102027340000051
Figure BDA0004102027340000052
Figure BDA0004102027340000053
Figure BDA0004102027340000054
Figure BDA0004102027340000055
式中,Group(Xi)的定义为将分组融合注意力层的输入特征Xi通过通道分组单元按通道维度分成Gs组,即Gs为通道分组的总数量,且
Figure BDA0004102027340000056
Cs为通道分组后该层语义信息的通道数,s为骨干网络的层数;
fk(h,w,c)为通道分组后第k组通道关于宽、高以及通道数的语义特征,h为语义特征的高,w为语义特征的宽,c为通道分组前该层语义信息的通道数;
fo为输出特征;
Figure BDA0004102027340000057
表示第一通道经过全局最大池化后的特征;
Figure BDA0004102027340000058
表示第二通道经过全局平均池化后的特征;
ψ3表示3×3的卷积层;
Maxp(·)表示全局最大池化函数;
Avgp(·)表示全局平均池化函数;
Cat(·)为按通道维度拼接特征块的函数,WS是第一全连接层的二维矩阵,GAP(F)为全局平均池化,WE为第二全连接层的二维矩阵,ReLU(·)为ReLU激活函数,BN(·)为批次归一化函数,softmax(·)为归一化指数函数。
优选地,所述分支网络包括一联合池化层,用于获取统一尺寸的压缩语义信息,该联合池化层设置在区域引导型Transformer层与分组融合注意力层之间。
优选地,所述联合池化层包括最大池化层和平均池化层,所述分组融合注意力层的输出特征分别经过最大池化层、平均池化层进行自适应最大池化、自适应平均池化,再对最大池化层和平均池化层的输出结果求平均,最后将求平均的结果输出到区域引导型Transformer层。
优选地,所述骨干网络每一层的输出特征采用损失函数进行特征约束,所述骨干网络每一层分支网络的输出特征与该层分支网络的输入特征融合后,采用损失函数进行特征约束。
优选地,所述损失函数包括基于相对角度的互相关惩罚三元组损失函数以及交叉熵损失函数,所述基于相对角度的互相关惩罚三元组损失函数的数学表达式如下:
Figure BDA0004102027340000061
Figure BDA0004102027340000062
Figure BDA0004102027340000063
θd=|max(θ(a,p))-min(θ(a,n))|
式中,Lcr-Angle为基于相对角度的互相关惩罚三元组损失函数,P为随机选择的人数,K为针对每个人随机挑选的图像数量,a为锚样本,p为正样本,n为负样本,θ(a,p)是正样本对之间的距离,θ(a,n)是负样本对之间的距离,
Figure BDA0004102027340000071
为难样本的第一惩罚因子,
Figure BDA0004102027340000072
为难样本的第二惩罚因子,Ta为设定的角度差异阈值,θd是角度差异,π为圆周率,mcr-angle为基于相对角度的互相关惩罚三元组损失函数的角度阈值;
所述交叉熵损失函数的数学表达式如下:
Figure BDA0004102027340000073
式中,T为行人的身份数,qj为第j个图像是否属于该身份的真值标签,pj为预测概率。
本发明的优点在于以下三点:
①本发明设置在骨干网络每一层的分支网络能够不断累积图像的多层次语义信息,使整个并联式特征融合网络具有远大于基准网络的检索精度,更好的表达图像中行人的语义信息。
②针对Transformer编码器输入特征的通道语义信息不足的问题,在传统的Transformer编码器前增加了一个区域引导注意力单元,用于获取每个局部区域特征的通道权重作为传统Transformer编码器的输入特征,并利用一种中心偏差损失函数,以协助Transformer更好地捕获上下文信息。
③针对传统的三元组损失函数只能依靠固定的梯度引导网络训练的问题,对传统的难样本挖掘三元组损失函数进行了改进,利用“惩罚”的概念加强正负样本对的约束,并将样本之间的分布信息融合到惩罚因子中,依靠动态梯度引导并联式特征融合网络的训练。
附图说明
图1为本发明所述并联式特征融合网络的示意图;
图2为本发明所述分组融合注意力层的示意图。
具体实施方式
如图1至2所示,一种基于并联式特征融合网络人体动作识别的行人重识别方法,包括以下步骤:
1)建立并联式特征融合网络:
设置并联式特征融合网络的骨干网络,用于从输入图像中提取多尺度特征,并在该骨干网络的每一层均设置一分支网络,该分支网络用于提高本层图像语义信息的特征表达能力,并累积到骨干网络下一层的分支网络;
骨干网络第一层的输出特征作为第一层分支网络的输入特征,从骨干网络第二层开始,骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征;
本实施例中,骨干网络当前层的输出特征与上一层分支网络的输出特征融合的方式是将骨干网络当前层的输出特征与上一层分支网络的输出特征加权平均,具体公式如下所示:
Figure BDA0004102027340000081
式中,Xf为融合后的语义特征,
Figure BDA0004102027340000082
为骨干网络当前层的输出特征,且
Figure BDA0004102027340000083
Figure BDA0004102027340000084
为骨干网络上一层的分支网络输出特征,且
Figure BDA0004102027340000085
Figure BDA0004102027340000086
为骨干网络当前层的输出特征的权重,
Figure BDA0004102027340000087
为骨干网络上一层的分支网络输出特征的权重,
Figure BDA0004102027340000088
Figure BDA0004102027340000089
均为经验值。
值得注意的是,在本实施例中,上述两个特征在融合之前,需进行尺寸重塑。
2)利用并联式特征融合网络提取待检索行人图像的语义信息,将提取的语义信息与候选行人库中所有图像的语义信息一一对比,筛选出候选行人库中与待检索行人图像相似度最高的图像。
所述并联式特征融合网络的骨干网络为深度残差神经网络,所述深度残差神经网络为残差网络Resnet50,也可以采用ResNet34、ResNet101、ResNet152等作为并联式特征融合网络的骨干网络,残差神经网络的层数越多,其对语义的表达能力就越强,残差神经网络通过恒等映射可以有效解决网络层数较多时梯度消失的问题,同时残差神经网络也降低了网络训练的时间开销。
当然,一般来说,由于骨干网络的的低级语义信息,如颜色、纹理、轨迹等,对行人重识别帮助不大,第一层就开始设置分支网络的性价比不高,整个并联式特征融合网络的性能不但没有很大的提升,反而会导致整个并联式特征融合网络的计算量变大,所以,一般骨干网络的第一层不设置分支网络,从骨干网络的第二层开始,每一次均设置一个分支网络,即将骨干网络第一层的输出特征作为第一层分支网络的输入特征,骨干网络第二层的输出特征作为第二层分支网络的输入特征,从骨干网络第三层开始,骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征;
本实施例中,所述分支网络包括一区域引导型Transformer层,用于获得具有全局上下文依赖性的语义信息,所述分支网络的输出特征为该区域引导型Transformer层的输出特征。所述区域引导型Transformer层包括一个区域引导注意力单元和一个Transformer编码器,所述区域引导注意力单元包括两个全连接层以及一个sigmoid激活函数模块,用于获取每个局部区域特征的通道权重作为Transformer编码器的输入,图像的局部区域特征通过两个全连接层,先压缩通道数,降低参数,再扩张到原来的通道数目,最后经sigmoid激活函数后获取每个局部区域特征的通道权重,为Transformer提供更鲁棒的局部区域特征,使Transformer更容易探寻这些区域特征之间的关联。
而过于均匀的权重分布会导致网络的辨别能力有所退化,差异性较大的权重分配会使分组注意力模块的输出特征更细腻化,故所有通道的权重均由一中心偏差损失函数进行约束,中心偏差损失函数可以尽可能地缓解语义模糊问题,引导区域引导注意力单元学习鲁棒性更强的特征,为探寻特征的上下文联系提供有效的局部区域信息,基于权重分布的中心偏差损失函数如下列公式所示:
Figure BDA0004102027340000101
Figure BDA0004102027340000102
Figure BDA0004102027340000103
Figure BDA0004102027340000104
式中,LBM为基于权重分布的中心偏差损失函数,δ为权重间隔,wL-σ为低于平均权重的权重,wH-σ为高于平均权重的权重,Wσ为平均权重,即所有通道的权重的平均值;
N为一个批次里图像的数目,N1为低于平均权重的图像数目,N2为高于平均权重的图像数目,wi为低于平均权重的所有图像中的第i个图像的权重,wj为高于平均权重的所有图像中的第j个图像的权重,wk为一个批次里的所有图像中第k个图像的权重;
本实施例中,所述分支网络包括一分组融合注意力层,用于捕捉不同尺度的语义信息,该分组融合注意力层设置在区域引导型Transformer层与骨干网络之间。
为了获取统一尺寸的压缩语义信息,所述分支网络包括一联合池化层,用于获取统一尺寸的压缩语义信息,该联合池化层设置在区域引导型Transformer层与分组融合注意力层之间。所述联合池化层包括最大池化层和平均池化层,所述分组融合注意力层的输出特征分别经过最大池化层、平均池化层进行自适应最大池化、自适应平均池化,再对最大池化层和平均池化层的输出结果求平均,最后将求平均的结果输出到区域引导型Transformer层。本实施例中,需将联合池化层的输出特征展平后,再输出到区域引导型Transformer层。
分组融合注意力层的输出特征经过联合池化层后被送入区域引导型Transformer层,利用分组融合注意力层的结构提取多尺度的语义特征,增强相关通道的语义表达,抑制无关的通道语义信息。
在本实施例的并联式特征融合网络中,分组融合注意力层的输出特征被送入联合池化层,而联合池化层的输出特征经展开后,被送入到区域引导注意力单元中,获得每个局部区域特征的重要细微线索。然后,将增强的局部区域特征送入Transformer编码器中,让Transformer编码器探寻特征的上下文信息,从而形成全局信息更加紧密的输出特征,与骨干网络下一层的高层语义特征递归融合,实现语义累积效果,从而丰富骨干网络每一层的特征表达。
由于待检索的行人图像在骨干网络低层的语义特征的通道数量相对较少,在骨干网络高层的语义特征的通道数量相对较多,即低层语义特征对全局通道的依赖性相对较强,高层语义特征对局部区域通道的依赖性相对较强。高层语义特征中相邻通道间的联系更紧密。通道分组单元在强化组内特征交互的同时,也能减少网络的参数量。因此,在ResNet50各阶段的分组融合注意力层,采用不同的通道分组方式,有效的学习适当的组内通道权重,以不同尺度的通道信息来捕获图像的语义信息,不仅能够减少网络的训练时间,同时也为下游网络提供了良好的通道语义特征。
由于ResNet50的第二层更倾向于捕获低级语义信息(颜色和纹理等),这些低级语义特征具有更紧凑的全局通道联系,所以对骨干网络第二层的特征全分组。
随着ResNet50不同阶段的深入,高层语义信息逐渐受到关注,网络的分组方式理应遵循一定的原理。由于ResNet50各层输出特征的通道数都是2的幂次方,则最简便的分组方式可以为:
Figure BDA0004102027340000121
式中,a=2,b=0,Cs为通道分组后该层语义信息的通道数,Gs为通道的分组总数。
故本实施例中,所述分组融合注意力层包括通道分组单元、第一通道、第二通道,所述第一通道由全局最大池化单元、第一全连接层、第二全连接层组成,所述第二通道由全局平均池化单元、第一全连接层、第二全连接层组成,所述全局最大池化单元、全局平均池化单元的输入特征先要经过3×3的卷积层进行处理,所述第一通道的第一全连接层输出特征由ReLU激活函数处理后作为第一通道的第二全连接层输入特征,所述第二通道的第一全连接层输出特征由ReLU激活函数处理后作为第二通道的第二全连接层输入特征,所述第一通道的第二全连接层、第二通道的第二全连接层的输出特征由Sigmoid激活函数处理后,进行通道拼接再输出,所述分组融合注意力层的数学表达式如下所示:
Figure BDA0004102027340000122
Figure BDA0004102027340000123
Figure BDA0004102027340000131
Figure BDA0004102027340000132
Figure BDA0004102027340000133
式中,Group(Xi)的定义为将分组融合注意力层的输入特征Xi通过通道分组单元按通道维度分成Gs组,即Gs为通道分组的总数量,且
Figure BDA0004102027340000134
Cs为通道分组后该层语义信息的通道数,s为骨干网络的层数;
fk(h,w,c)为通道分组后第k组通道关于宽、高以及通道数的语义特征,h为语义特征的高,w为语义特征的宽,c为通道分组前该层语义信息的通道数;
fo为输出特征;
Figure BDA0004102027340000135
表示第一通道经过全局最大池化后的特征;
Figure BDA0004102027340000136
表示第二通道经过全局平均池化后的特征;
ψ3表示3×3的卷积层;
Maxp(·)表示全局最大池化函数;
Avgp(·)表示全局平均池化函数;
Cat(·)为按通道维度拼接特征块的函数,WS是第一全连接层的二维矩阵,GAP(F)为全局平均池化,WE为第二全连接层的二维矩阵,ReLU(·)为ReLU激活函数,BN(·)为批次归一化函数,softmax(·)为归一化指数函数。
本实施例中,所述骨干网络每一层的输出特征采用损失函数进行特征约束,所述骨干网络每一层分支网络的输出特征与该层分支网络的输入特征融合后,采用损失函数进行特征约束。所述损失函数包括基于相对角度的互相关惩罚三元组损失函数以及交叉熵损失函数,即本发明的分类损失采用了softmax损失,即ID损失。给定一幅行人图像,从全连通层中提取一个固定维度的输出向量,该维度等于身份数。然后根据真值标签和预测概率计算softmax损失。
所述基于相对角度的互相关惩罚三元组损失函数的数学表达式如下:
Figure BDA0004102027340000141
Figure BDA0004102027340000142
Figure BDA0004102027340000143
θd=|max(θ(a,p))-min(θ(a,n))|
式中,Lcr-Angle为基于相对角度的互相关惩罚三元组损失函数,P为随机选择的人数,K为针对每个人随机挑选的图像数量,a为锚样本,p为正样本,n为负样本,θ(a,p)是正样本对之间的距离,θ(a,n)是负样本对之间的距离,
Figure BDA0004102027340000144
为难样本的第一惩罚因子,
Figure BDA0004102027340000145
为难样本的第二惩罚因子,Ta为设定的角度差异阈值,θd是角度差异,π为圆周率,mcr-angle为基于相对角度的互相关惩罚三元组损失函数的角度阈值,该角度阈值为标定值;
所述交叉熵损失函数的数学表达式如下:
Figure BDA0004102027340000146
式中,T为行人的身份数,qj为第j个图像是否属于该身份的真值标签,是则为1,否为0,pj为预测概率。
如上述实施例所述,整个并联式特征融合网络以ResNet50作为骨干网络,将ResNet50各层的语义特征送入各层对应的分支网络中的分组融合注意力层中,以增强骨干网络每一层的通道语义特征。增强后的特征经过联合池化层后,被送入区域引导型Transformer层中,以获得上下文联系比较紧密的特征。接着,这种强语义性的图像特征传递给ResNet50下一层的网络,并与下一层的网络输出特征进行融合。最后,将原始语义信息与区域引导型Transformer层的输出融合,并通过损失函数约束。
采用Market1501、DukeMTMC、MSMT17、CUHK03、Occluded-Duke以及Partial-iLIDS作为训练集对本实施例的并联式特征融合网络进行训练后,再利用并联式特征融合网络提取待检索行人图像的语义信息,使高层网络在能够关注本层的特征同时,也能感知低层网络的累积语义特征,从而捕获更多层次化的特征,本发明所述的并联特征融合网络与其他经典的行人重识别网络相比较,本发明在Market1501、DukeMTMC、MSMT17、CUHK03数据集上的mAP和Rank-1指标都相对于其他行人重识别网络更高,具有更好的性能,即本发明具有极好的学习性能和泛化性能。
表1
Figure BDA0004102027340000151
表1中,mAP即平均精度mean average precision,而rank-1是搜索结果中最靠前的一张图是正确结果的概率。
以上所述仅为本发明的优选实施例,并不用于限制本发明,本领域的技术人员在不脱离本发明的精神的前提下,对本发明进行的改动均落入本发明的保护范围。

Claims (10)

1.一种基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,包括以下步骤:
1)建立并联式特征融合网络:
设置并联式特征融合网络的骨干网络,用于从输入图像中提取多尺度特征,并在该骨干网络的每一层均设置一分支网络,该分支网络用于提高本层图像语义信息的特征表达能力,并累积到骨干网络下一层的分支网络;
骨干网络第一层的输出特征作为第一层分支网络的输入特征,从骨干网络第二层开始,骨干网络当前层的输出特征与上一层分支网络的输出特征融合后作为当前层分支网络的输入特征;
2)利用并联式特征融合网络提取待检索行人图像的语义信息,将提取的语义信息与候选行人库中所有图像的语义信息一一对比,筛选出候选行人库中与待检索行人图像相似度最高的图像。
2.根据权利要求1所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述并联式特征融合网络的骨干网络为深度残差神经网络。
3.根据权利要求1所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述分支网络包括一区域引导型Transformer层,用于获得具有全局上下文依赖性的语义信息,所述分支网络的输出特征为该区域引导型Transformer层的输出特征。
4.根据权利要求3所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述区域引导型Transformer层包括一个区域引导注意力单元和一个Transformer编码器,所述区域引导注意力单元包括两个全连接层以及一个sigmoid激活函数模块,用于获取每个局部区域特征的通道权重作为Transformer编码器的输入,所有通道的权重均由一中心偏差损失函数进行约束,所述中心偏差损失函数如下列公式所示:
Figure FDA0004102027330000021
Figure FDA0004102027330000022
Figure FDA0004102027330000023
Figure FDA0004102027330000024
式中,LBM为基于权重分布的中心偏差损失函数,δ为权重间隔,wL-σ为低于平均权重的权重,wH-σ为高于平均权重的权重,Wσ为平均权重,即所有通道的权重的平均值;
N为一个批次里图像的数目,N1为低于平均权重的图像数目,N2为高于平均权重的图像数目,wi为低于平均权重的所有图像中的第i个图像的权重,wj为高于平均权重的所有图像中的第j个图像的权重,wk为一个批次里的所有图像中第k个图像的权重。
5.根据权利要求3所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述分支网络包括一分组融合注意力层,用于捕捉不同尺度的语义信息,该分组融合注意力层设置在区域引导型Transformer层与骨干网络之间。
6.根据权利要求5所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述分组融合注意力层包括通道分组单元、第一通道、第二通道,所述第一通道由全局最大池化单元、第一全连接层、第二全连接层组成,所述第二通道由全局平均池化单元、第一全连接层、第二全连接层组成,所述第一通道的第一全连接层输出特征由ReLU激活函数处理后作为第一通道的第二全连接层输入特征,所述第二通道的第一全连接层输出特征由ReLU激活函数处理后作为第二通道的第二全连接层输入特征,所述第一通道的第二全连接层、第二通道的第二全连接层的输出特征由Sigmoid激活函数处理后,进行通道拼接再输出,所述分组融合注意力层的数学表达式如下所示:
Figure FDA0004102027330000031
Figure FDA0004102027330000032
Figure FDA0004102027330000033
Figure FDA0004102027330000034
Figure FDA0004102027330000035
式中,Group(Xi)的定义为将分组融合注意力层的输入特征Xi通过通道分组单元按通道维度分成Gs组,即Gs为通道分组的总数量,且
Figure FDA0004102027330000036
Cs为通道分组后该层语义信息的通道数,s为骨干网络的层数;
fk(h,w,c)为通道分组后第k组通道关于宽、高以及通道数的语义特征,h为语义特征的高,w为语义特征的宽,c为通道分组前该层语义信息的通道数;
fo为输出特征;
Figure FDA0004102027330000041
表示第一通道经过全局最大池化后的特征;
Figure FDA0004102027330000042
表示第二通道经过全局平均池化后的特征;
ψ3表示3×3的卷积层;
Maxp(·)表示全局最大池化函数;
Avgp(·)表示全局平均池化函数;
Cat(·)为按通道维度拼接特征块的函数,WS是第一全连接层的二维矩阵,GAP(·)为全局平均池化,WE为第二全连接层的二维矩阵,ReLU(·)为ReLU激活函数,BN(·)为批次归一化函数,softmax(·)为归一化指数函数。
7.根据权利要求5所述基于并联式特征融合网络的行人重识别方法,其特征在于,所述分支网络包括一联合池化层,用于获取统一尺寸的压缩语义信息,该联合池化层设置在区域引导型Transformer层与分组融合注意力层之间。
8.根据权利要求7所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述联合池化层包括最大池化层和平均池化层,所述分组融合注意力层的输出特征分别经过最大池化层、平均池化层进行自适应最大池化、自适应平均池化,再对最大池化层和平均池化层的输出结果求平均,最后将求平均的结果输出到区域引导型Transformer层。
9.根据权利要求1所述基于并联式特征融合网络的行人重识别方法,其特征在于,所述骨干网络每一层的输出特征采用损失函数进行特征约束,所述骨干网络每一层分支网络的输出特征与该层分支网络的输入特征融合后,采用损失函数进行特征约束。
10.根据权利要求9所述基于并联式特征融合网络人体动作识别的行人重识别方法,其特征在于,所述损失函数包括基于相对角度的互相关惩罚三元组损失函数以及交叉熵损失函数,所述基于相对角度的互相关惩罚三元组损失函数的数学表达式如下:
Figure FDA0004102027330000051
Figure FDA0004102027330000052
Figure FDA0004102027330000053
θd=|max(θ(a,p))-min(θ(a,n))|
式中,Lcr-Angle为基于相对角度的互相关惩罚三元组损失函数,P为随机选择的人数,K为针对每个人随机挑选的图像数量,a为锚样本,p为正样本,n为负样本,θ(a,p)是正样本对之间的距离,θ(a,n)是负样本对之间的距离,
Figure FDA0004102027330000054
为难样本的第一惩罚因子,
Figure FDA0004102027330000055
为难样本的第二惩罚因子,Ta为设定的角度差异阈值,θd是角度差异,π为圆周率,mcr-angle为基于相对角度的互相关惩罚三元组损失函数的角度阈值;
所述交叉熵损失函数的数学表达式如下:
Figure FDA0004102027330000056
式中,T为行人的身份数,qj为第j个图像是否属于该身份的真值标签,pj为预测概率。
CN202310179132.4A 2023-02-27 2023-02-27 基于并联式特征融合网络人体动作识别的行人重识别方法 Pending CN116092127A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310179132.4A CN116092127A (zh) 2023-02-27 2023-02-27 基于并联式特征融合网络人体动作识别的行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310179132.4A CN116092127A (zh) 2023-02-27 2023-02-27 基于并联式特征融合网络人体动作识别的行人重识别方法

Publications (1)

Publication Number Publication Date
CN116092127A true CN116092127A (zh) 2023-05-09

Family

ID=86202653

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310179132.4A Pending CN116092127A (zh) 2023-02-27 2023-02-27 基于并联式特征融合网络人体动作识别的行人重识别方法

Country Status (1)

Country Link
CN (1) CN116092127A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580428A (zh) * 2023-07-11 2023-08-11 中国民用航空总局第二研究所 一种基于多尺度通道注意力机制的行人重识别方法
CN116843664A (zh) * 2023-07-13 2023-10-03 中建深圳装饰有限公司 基于递归融合型网络的毫米波图像模糊目标ai识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116580428A (zh) * 2023-07-11 2023-08-11 中国民用航空总局第二研究所 一种基于多尺度通道注意力机制的行人重识别方法
CN116843664A (zh) * 2023-07-13 2023-10-03 中建深圳装饰有限公司 基于递归融合型网络的毫米波图像模糊目标ai识别方法

Similar Documents

Publication Publication Date Title
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
Kang et al. Graph relation network: Modeling relations between scenes for multilabel remote-sensing image classification and retrieval
Xie et al. Comparator networks
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN116092127A (zh) 基于并联式特征融合网络人体动作识别的行人重识别方法
CN110598543B (zh) 基于属性挖掘和推理的模型训练方法及行人再识别方法
CN112926396A (zh) 一种基于双流卷积注意力的动作识别方法
CN110968711B (zh) 一种基于序列图像特征的自主无人系统位置识别定位方法
CN104376308B (zh) 一种基于多任务学习的人体动作识别方法
CN113065409A (zh) 一种基于摄像分头布差异对齐约束的无监督行人重识别方法
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Wang et al. A novel multiface recognition method with short training time and lightweight based on ABASNet and H-softmax
Abdullah et al. Vehicle counting using deep learning models: a comparative study
CN113283320B (zh) 一种基于通道特征聚合的行人重识别方法
Hou et al. A face detection algorithm based on two information flow block and retinal receptive field block
CN115880740A (zh) 人脸活体检测方法、装置、计算机设备和存储介质
CN113792686A (zh) 基于视觉表征跨传感器不变性的车辆重识别方法
Ahmed Motion classification using CNN based on image difference
Villamizar et al. Online learning and detection of faces with low human supervision
CN114972434B (zh) 一种级联检测和匹配的端到端多目标跟踪系统
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
Li et al. Tlcd: A transformer based loop closure detection for robotic visual slam
CN109919162A (zh) 用于输出mr图像特征点描述向量符的模型及其建立方法
CN112784674B (zh) 一种基于类中心自适应的重点人员搜索系统跨域识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination