CN114842512B - 基于多特征协同和语义感知的遮挡行人重识别和检索方法 - Google Patents

基于多特征协同和语义感知的遮挡行人重识别和检索方法 Download PDF

Info

Publication number
CN114842512B
CN114842512B CN202210763141.3A CN202210763141A CN114842512B CN 114842512 B CN114842512 B CN 114842512B CN 202210763141 A CN202210763141 A CN 202210763141A CN 114842512 B CN114842512 B CN 114842512B
Authority
CN
China
Prior art keywords
feature
local
sample
semantic
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210763141.3A
Other languages
English (en)
Other versions
CN114842512A (zh
Inventor
高赞
陈鹏
宋健明
顾竟潇
谭文
郝敬全
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Calmcar Vision Electronic Technology Co ltd
Shandong University
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Original Assignee
Suzhou Calmcar Vision Electronic Technology Co ltd
Shandong University
Taihua Wisdom Industry Group Co Ltd
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Calmcar Vision Electronic Technology Co ltd, Shandong University, Taihua Wisdom Industry Group Co Ltd, Shandong Institute of Artificial Intelligence filed Critical Suzhou Calmcar Vision Electronic Technology Co ltd
Priority to CN202210763141.3A priority Critical patent/CN114842512B/zh
Publication of CN114842512A publication Critical patent/CN114842512A/zh
Application granted granted Critical
Publication of CN114842512B publication Critical patent/CN114842512B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Abstract

本发明公开了基于多特征协同和语义感知的遮挡行人重识别和检索方法,属于计算机视觉和模式识别技术领域,实现了对有遮挡的行人重识别数据集的高效识别和检索;方法的具体步骤如下:图像预处理;双链网络模型搭建;双链网络的目标函数构建;基于多特征协同和人体语义感知的有遮挡行人重识别和检索方法;本发明可对现有公开有遮挡的行人重识别数据集进行高效识别和检索,能够有效地解决目标数据集由于遮挡、姿态变化造成的行人信息缺失、特征对齐困难等问题,并且方法收敛速度快。

Description

基于多特征协同和语义感知的遮挡行人重识别和检索方法
技术领域
本发明属于计算机视觉和模式识别技术领域,具体涉及基于多特征协同和语义感知的遮挡行人重识别和检索方法。
背景技术
当前基于深度学习的行人重识别方法在Market-1501、DukeMTMC-reID等全身数据集上已经取得了较高的准确率;然而,在现实场景中难以获取理想的全身人物图像,人物图像被物品或其他行人遮挡的情况普遍存在。由于遮挡所造成的关键信息缺失为行人重识别带来极大的困难。现有的常规行人重识别网络难以在有遮挡的行人重识别数据集上取得良好的效果。
但是,现有处理有遮挡的行人重识别问题的方法存在着以下缺陷:采取单一路线进行特征提取,仅可以提取语义特征、纹理特征、骨骼关键点特征等信息,由于提取的特征所包含的信息有限,所以忽略了有价值的信息。现有技术只聚焦于解决遮挡的问题,行人重识别方向本身所面临的其他问题如行人姿态变化、视角变化等问题并没有得到有效解决,造成模型进行识别的准确率不高。当前行人重识别中人物遮挡部分的处理方式,主要采用将其特征不加处理直接使用或将其当作干扰项直接舍弃,处理方式简单粗暴,会造成无关噪声信息的引入和相关有用信息的丢失。
发明内容
本发明提供了基于多特征协同和语义感知的遮挡行人重识别和检索方法,能够有效地解决目标数据集由于遮挡、姿态变化造成的行人信息缺失、特征对齐困难等问题,具体包括以下步骤:
步骤1:对图片进行预处理,进行数据增强,将图片像素大小调整为256×128,并对图片随机采取随机裁剪、水平翻转和随机擦除,概率均为50%。
步骤2:构建双链网络模型并进行训练,链一采用基于HRNet的卷积神经网络,链二采用基于ViT-B/16的Transformer,所述Transformer为转换器。
步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征。
步骤4:通过训练后的链二将每张输入图像经过处理后得到4个局部特征组与1个全局特征。
步骤5:利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery集中的相关样本进行补全得到补全后的局部特征;所述query集为查询集,所述gallery集为图库集。
步骤6:将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集各个样本与query集各个样本的特征欧氏距离,通过gallery集中的样本按照与query集中样本距计算累计匹配特性与均值平均精度,实现对行人样本的重识别。
优选的,链一的训练的主要步骤为像素级部分分割与对齐,由一组置信图加权的像素级特征表示的集合表示人体部分,具体步骤如下:
步骤2-1:给定n张来自不同行人的训练图像
Figure 602291DEST_PATH_IMAGE001
及其身份标签
Figure 990547DEST_PATH_IMAGE002
,所述n大于等于1,通过学习人类语义解析,获得用于重识别的使用像素级的部分特征表示的部分对齐特征,对于图像
Figure 215992DEST_PATH_IMAGE003
,使用骨干网
Figure 647979DEST_PATH_IMAGE004
映射函数得到全局特征图
Figure 224454DEST_PATH_IMAGE005
,全局特征图为输入大小的1/4;
Figure 150822DEST_PATH_IMAGE006
其中
Figure 496353DEST_PATH_IMAGE007
是主干的参数,c、h、w是通道、高度和宽度;用
Figure 600706DEST_PATH_IMAGE008
表示空间位置
Figure 664477DEST_PATH_IMAGE009
处的特征,是一个c维的向量。
步骤2-2:将5个不同局部语义部分的置信度图
Figure 863377DEST_PATH_IMAGE010
,
Figure 63414DEST_PATH_IMAGE011
,
Figure 371292DEST_PATH_IMAGE012
,
Figure 391201DEST_PATH_IMAGE013
,
Figure 659371DEST_PATH_IMAGE014
相加得到1个前景的置信度图
Figure 979494DEST_PATH_IMAGE015
将每个置信度图与局部语义部分相关联,通过下式计算得到n个局部语义特征、1个前景语义特征和1个全局语义特征:
Figure 160071DEST_PATH_IMAGE016
式中,
Figure 198434DEST_PATH_IMAGE017
表示属于语义部分k的像素
Figure 270295DEST_PATH_IMAGE018
的置信度,
Figure 913766DEST_PATH_IMAGE019
表示是逐元素相乘,
Figure 294938DEST_PATH_IMAGE020
表示全局平均池化操作,
Figure 289439DEST_PATH_IMAGE021
为第
Figure 430570DEST_PATH_IMAGE022
部分的局部语义特征。
步骤2-3:链一最终输出的局部语义特征记为
Figure 459706DEST_PATH_IMAGE023
,且
Figure 247664DEST_PATH_IMAGE024
,其中
Figure 995040DEST_PATH_IMAGE025
为沿通道方向拼接,
Figure 408704DEST_PATH_IMAGE026
为前景语义特征,
Figure 26767DEST_PATH_IMAGE027
为全局语义特征。
优选的,链二的训练过程如下:
步骤3-1:将图像
Figure 487092DEST_PATH_IMAGE028
分成大小固定的
Figure 721764DEST_PATH_IMAGE029
个patch,其中
Figure 939119DEST_PATH_IMAGE030
Figure 677268DEST_PATH_IMAGE031
Figure 807029DEST_PATH_IMAGE032
分别表示其高度、宽度和通道数,
Figure 263418DEST_PATH_IMAGE033
式中S为使用滑动窗口生成像素重叠的补丁的步长,P为patch的大小,其中
Figure 18885DEST_PATH_IMAGE034
Figure 877119DEST_PATH_IMAGE035
为向下取整操作。
步骤3-2:计算馈入
Figure 941896DEST_PATH_IMAGE036
层的Transformer层的输入序列,具体公式如下:
Figure 620002DEST_PATH_IMAGE037
式中,
Figure 179159DEST_PATH_IMAGE038
表示输入序列嵌入,
Figure 891900DEST_PATH_IMAGE039
是位置嵌入,
Figure 612732DEST_PATH_IMAGE040
是将面片映射到D维的线性投影;
Figure 60025DEST_PATH_IMAGE041
为一个可学习的[cls]嵌入令牌;
Figure 157294DEST_PATH_IMAGE038
经过
Figure 724541DEST_PATH_IMAGE036
层的Transformer层处理,得到
Figure 616274DEST_PATH_IMAGE042
步骤3-3:利用洗牌模块将嵌入的patch通过移位操作和洗牌操作对嵌入的patch进行洗牌,然后重新组合成不同的部分,每个部分包含多个随机的整幅图像的patch嵌入,将序列
Figure 532888DEST_PATH_IMAGE043
打乱如下:
第一步:移位操作,将除了[cls]令牌的前
Figure 433848DEST_PATH_IMAGE044
个补丁被移动到最后,即
Figure 121181DEST_PATH_IMAGE042
转换为
Figure 449395DEST_PATH_IMAGE045
第二步:洗牌操作,通过n组的patch shuffle操作对移位的patch进行进一步的洗牌,隐藏特征变为
Figure 340121DEST_PATH_IMAGE046
经过洗牌操作后的局部特征组
Figure 779193DEST_PATH_IMAGE047
再经过一个标准的Transformer层处理后得到最终的Transformer局部特征组
Figure 55453DEST_PATH_IMAGE048
步骤3-4:利用姿态估计辅助模块获取姿势引导特征
Figure 554568DEST_PATH_IMAGE049
;具体步骤如下:
使用估计器从输入图像中提取16个关键点地标,然后利用这些地标生成热图
Figure 431126DEST_PATH_IMAGE050
,每个热图都被缩小到
Figure 673888DEST_PATH_IMAGE051
的大小,每个热图的最大响应点对应于一个关键点,设置一个阈值
Figure 335814DEST_PATH_IMAGE052
过滤高置信度地标和低置信度地标,热图标签表示为:
Figure 5830DEST_PATH_IMAGE053
其中
Figure 605569DEST_PATH_IMAGE054
表示第
Figure 386444DEST_PATH_IMAGE055
个地标的置信度得分,将一个完全连接的层应用于热图
Figure 902876DEST_PATH_IMAGE056
,以获得与全局特征
Figure 743793DEST_PATH_IMAGE057
尺寸相同的热图
Figure 80096DEST_PATH_IMAGE058
Figure 916858DEST_PATH_IMAGE058
Figure 287797DEST_PATH_IMAGE057
进行相乘,并获得姿势引导特征
Figure 299615DEST_PATH_IMAGE059
,即关键点特征集合。
步骤3-5:进行关键点-局部特征组相似度匹配。
在链二中,将
Figure 123215DEST_PATH_IMAGE060
个关键点特征归类于
Figure 996624DEST_PATH_IMAGE061
个局部特征组
Figure 487648DEST_PATH_IMAGE062
中,并对局部特征组进行关键位置加强。
部分相似度匹配层将关键点特征集合与局部特征组融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使得局部特征组包含相关的关键点特征信息:
Figure 670368DEST_PATH_IMAGE063
其中
Figure 981263DEST_PATH_IMAGE064
为生成图像16个关键点特征集合,
Figure 156899DEST_PATH_IMAGE065
为链二输出第
Figure 502429DEST_PATH_IMAGE055
个局部特征组,
Figure 590471DEST_PATH_IMAGE066
则 为匹配生成后的第
Figure 388663DEST_PATH_IMAGE055
个包含关键点信息的局部特征组,
Figure 118721DEST_PATH_IMAGE067
为与
Figure 69491DEST_PATH_IMAGE065
最相似的
Figure 328434DEST_PATH_IMAGE064
的编号;
优选的,所述链一训练过程中需要使用三元组损失和交叉熵损失函数约束通过最小化两种损失函数确定最优网络参数。
所述链二输出全局特征以及洗牌后的局部特征组后,也分别使用了交叉熵损失函数与三元组损失函数进行约束。
三元组损失公式如下:
Figure 613922DEST_PATH_IMAGE068
其中margin为当前批次的最大距离边界,
Figure 147671DEST_PATH_IMAGE069
表示锚点样本与对应正样本的融合特征距离,
Figure 454412DEST_PATH_IMAGE070
表示锚点样本与对应负样本的融合特征距离。
交叉熵损失函数公式如下:
Figure 884257DEST_PATH_IMAGE071
其中CE为交叉熵损失,当
Figure 922620DEST_PATH_IMAGE072
为类别
Figure 728902DEST_PATH_IMAGE055
的分类器的预测结果,
Figure 637952DEST_PATH_IMAGE073
为真实id。
优选的,所述步骤5具体步骤如下:
步骤5-1:选取相关gallery样本。
步骤5-1-1:将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集与gallery集各个样本的特征欧氏距离dist1。
步骤5-1-2:利用步骤5-1-1得到的欧氏距离dist1通过链一计算找到与每个query 样本特征
Figure 520589DEST_PATH_IMAGE074
欧氏距离最小的最佳gallery样本特征
Figure 249510DEST_PATH_IMAGE075
作为候选gallery样本特征。
步骤5-1-3:将query样本特征
Figure 390641DEST_PATH_IMAGE074
和其候选gallery样本特征
Figure 888619DEST_PATH_IMAGE075
分别沿通道方向拆分成5份,query样本特征
Figure 440692DEST_PATH_IMAGE074
拆分为
Figure 922489DEST_PATH_IMAGE076
,其候选gallery样本特征
Figure 336153DEST_PATH_IMAGE075
拆分为
Figure 219795DEST_PATH_IMAGE077
步骤5-2:将缺失部位特征补全。
步骤5-2-1:链一根据属于语义部分k的像素
Figure 444234DEST_PATH_IMAGE009
的置信度
Figure 413327DEST_PATH_IMAGE078
的情况得到语 义部分k的部分可见性系数
Figure 630682DEST_PATH_IMAGE079
,计算公式如下:
Figure 368831DEST_PATH_IMAGE080
步骤5-2-2:利用query样本特征
Figure 265636DEST_PATH_IMAGE074
的可见性系数
Figure 456446DEST_PATH_IMAGE081
计算候选 gallery样本特征局部语义特征的可见性系数
Figure 211912DEST_PATH_IMAGE082
,计算公式如下:
Figure 70147DEST_PATH_IMAGE083
步骤5-2-3:根据候选gallery样本特征
Figure 620077DEST_PATH_IMAGE075
与候选gallery样本特征局部语义特征 的可见性系数
Figure 314494DEST_PATH_IMAGE082
计算候选gallery样本特征局部语义特征补丁
Figure 608073DEST_PATH_IMAGE084
,计算公式如下:
Figure 320814DEST_PATH_IMAGE085
其中
Figure 307224DEST_PATH_IMAGE086
为候选gallery样本特征第
Figure 721894DEST_PATH_IMAGE087
部分的局部语义特征,
Figure 819163DEST_PATH_IMAGE088
是候选gallery样本特征第
Figure 651990DEST_PATH_IMAGE087
部分的局部语义特征的可见性系数;。
步骤5-2-4:将query样本特征
Figure 809301DEST_PATH_IMAGE074
的可见部分的局部语义特征,与候选gallery样本 特征局部语义特征补丁
Figure 196420DEST_PATH_IMAGE084
组合得到query样本特征的补全局部语义特征,计算公式如下:
Figure 848113DEST_PATH_IMAGE089
其中
Figure 535446DEST_PATH_IMAGE090
是query样本特征第
Figure 863659DEST_PATH_IMAGE087
部分的局部语义特征,
Figure 738074DEST_PATH_IMAGE091
是候选gallery样本特征局部语义特征补丁第
Figure 683204DEST_PATH_IMAGE087
部分的局部语义特征。
优选的,所述n取值为4。
本发明的有益效果在于:本发明使用双链模型提取多种类别的行人特征,利用将多种特征进行融合的方式解决有遮挡的行人重识别问题,令模型提取的特征包含更丰富的信息用以更好地计算样本间的特征距离。在处理主要的遮挡问题的同时,也可以解决行人重识别所面临的姿态变化、视角变化等问题。并且在训练阶段,引入了“洗牌模块”,通过关键点-局部特征组相似度匹配,更加充分地利用了Transformer的全局依赖关系。在测试阶段,提出了“缺失部位特征补全检索方法”,将缺失部位的特征补全,改变了传统的舍弃遮挡部位特征的做法,进一步提升了模型在有遮挡的行人重识别任务中的性能。
样本经过模型训练,可以得到具有判别性的特征;并且通过结合姿态关键点信息,可以得到鲁棒的图像特征,模型收敛速度快,在多个有遮挡或无遮挡的行人重识别数据集上都能取得高效的识别性能。
附图说明
图1为本发明的结构示意图。
图2为相关gallery样本选取步骤示意图。
图3为缺失部位特征补全步骤示意图。
图中:query表示查询集,gallery表示图库集,HRNet表示高分辨率网络,FC表示全连接层,Transformer为转换器。
具体实施方式
下面结合附图对本发明作进一步的描述。
实施例:
如图1所示,为本发明的一种基于多特征协同和人体语义感知的有遮挡行人重识别和检索方法的操作流程图,该方法的操作步骤包括步骤1-6:
步骤1:对图片进行预处理,由于有遮挡的行人重识别数据集的query集中遮挡问题普遍存在,为了使模型对遮挡问题有较强的鲁棒性,在训练集图像输入网络之前使用数据增强的方式。
输入原图像大小调整为256×128,全局特征图为输入大小的1/4。在数据增加方面,采用了常用的随机裁剪、水平翻转和随机擦除,概率为50%。
步骤2:构建双链网络模型,并进行训练,在第1步样本对生成的基础上,设计模型结构。选择基于双链深度学习网络的原因是双链网络可以对同一图像提取相辅相成的两种特征,使获得的特征信息更加丰富,能够将任何神经网络当作双链网络的基础网络。在本发明中采用的两条链分别为基于HRNet的卷积神经网络和基于ViT-B/16的Transformer。
步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征;具体的链一训练过程如下:
首先,链一通过像素聚类的方式将图像特征进行分割,每张图片生成5个人体部分特征并沿通道方向拼接。在链一的训练的主要步骤为像素级部分分割与对齐。像素级部分分割与对齐的主要思想是用属于该部分的像素表示来表示人体部分,由一组置信图加权的像素级特征表示的集合来表示人体部分。具体做法如下:
给定n张来自不同行人的训练图像
Figure 959464DEST_PATH_IMAGE092
及其身份标签
Figure 458579DEST_PATH_IMAGE093
,通过学习人类语义解析,获得用于重识别的使用像素级的部分特征表示的部分特征,对于图像
Figure 85869DEST_PATH_IMAGE003
,使用骨干网
Figure 79364DEST_PATH_IMAGE094
映射函数得到全局特征图
Figure 210131DEST_PATH_IMAGE095
,全局特征图为输入大小的1/4。
Figure 145726DEST_PATH_IMAGE096
其中θ是主干的参数,c、h、w是通道、高度和宽度。为了清楚地说明,省略了通道维度,并用
Figure 260313DEST_PATH_IMAGE097
表示空间位置
Figure 556034DEST_PATH_IMAGE098
处的特征,是一个c维的向量。
将5个不同局部语义部分的置信度图
Figure 541307DEST_PATH_IMAGE010
,
Figure 382224DEST_PATH_IMAGE011
,
Figure 984107DEST_PATH_IMAGE012
,
Figure 568672DEST_PATH_IMAGE013
,
Figure 690343DEST_PATH_IMAGE014
相加得到1个前景的置信度图
Figure 436582DEST_PATH_IMAGE015
,其中每个置信图与局部语义部分相关联。用
Figure 525761DEST_PATH_IMAGE099
表示属于语义部分k的像素
Figure 648438DEST_PATH_IMAGE098
的置信度图。然后,通过以下方式可计算得到5个部分语义特征、1个前景语义特征和一个全局语义特征:
Figure 126080DEST_PATH_IMAGE016
式中,
Figure 574379DEST_PATH_IMAGE100
表示属于语义部分k的像素
Figure 885274DEST_PATH_IMAGE101
的置信度,
Figure 811642DEST_PATH_IMAGE019
表示是逐元素相乘,
Figure 907905DEST_PATH_IMAGE102
表示全局平均池化操作,
Figure 995947DEST_PATH_IMAGE103
表示第
Figure 794138DEST_PATH_IMAGE104
部分的语义特征。对于被遮挡人图像中的被遮挡 部分
Figure 524197DEST_PATH_IMAGE104
Figure 724234DEST_PATH_IMAGE105
。链一最终输出的局部语义特征记为
Figure 498024DEST_PATH_IMAGE106
,且
Figure 783512DEST_PATH_IMAGE107
,其中
Figure 51682DEST_PATH_IMAGE108
意为沿通道方向拼接
Figure 106226DEST_PATH_IMAGE109
,为全景语义特征,
Figure 817961DEST_PATH_IMAGE110
为全局语义特征。
步骤4通过训练后的链二将每张输入图像经过处理后得到4个局部特征与1个全局特征;具体的,链二的训练过程如下:
链二为基于ViT-B/16的Transformer,给定一个图像
Figure 590745DEST_PATH_IMAGE028
,其中
Figure 397027DEST_PATH_IMAGE111
Figure 571656DEST_PATH_IMAGE112
Figure 690179DEST_PATH_IMAGE113
分别表示其高度、宽度和通道数,将其分成大小固定的
Figure 950259DEST_PATH_IMAGE114
。 一个可学习[cls]嵌入令牌
Figure 560231DEST_PATH_IMAGE115
被预先添加到补丁嵌入,该补丁嵌入经过处理得到一 个中间特征,该特征的[cls]令牌被表示为链二输出的全局特征
Figure 323788DEST_PATH_IMAGE116
。使用添加可学习的位置 嵌入的方式向序列中引入空间信息,馈入
Figure 377326DEST_PATH_IMAGE117
层的Transformer层的输入序列可以表示为:
Figure 859123DEST_PATH_IMAGE118
式中,
Figure 538366DEST_PATH_IMAGE119
表示输入序列嵌入,
Figure 156429DEST_PATH_IMAGE120
是位置嵌入,
Figure 144982DEST_PATH_IMAGE040
是将面片映射到D维的线性投影,此外,
Figure 848496DEST_PATH_IMAGE121
层的变换层用于学习特征表示。基于CNN的方法的有限感受野问题得到了解决,因为所有变压器层都有一个全局感受野,也没有下采样操作,因此保留了详细信息。
使用滑动窗口来生成像素重叠的补丁,将步长记为S,patch的大小记为P(如16),则两个相邻patch重叠区域的形状为
Figure 65851DEST_PATH_IMAGE122
。将分辨率为
Figure 85891DEST_PATH_IMAGE123
的输入图像分割为
Figure 464919DEST_PATH_IMAGE124
个patch。具体公式如下:
Figure 921309DEST_PATH_IMAGE125
其中
Figure 676775DEST_PATH_IMAGE126
Figure 3851DEST_PATH_IMAGE127
为向下取整操作。
在链二中,虽然基于Transformer强大的基线可以在行人重识别中获得令人印象深刻的性能,但它利用了来自整个图像的信息。然而,由于遮挡和不对齐等问题,可能只能对一个物体进行部分观察,所以需要学习细粒度的局部特性(如条纹特性)。经过
Figure 337137DEST_PATH_IMAGE117
层的Transformer层的处理,假设输入到最后一层的隐藏特征记为
Figure 280822DEST_PATH_IMAGE128
。为了学习细粒度的局部特征,一个简单的解决方案是分割
Figure 839979DEST_PATH_IMAGE129
按顺序将共享令牌
Figure 552720DEST_PATH_IMAGE130
串联起来,然后将
Figure 24284DEST_PATH_IMAGE124
个特征组送入共享Transformer层学习
Figure 189686DEST_PATH_IMAGE124
个局部特征。由于每个局部段只考虑连续补丁嵌入的一部分,所以不能充分利用变压器的全局依赖关系。为了解决上述问题,使用了洗牌模块,该模块将嵌入的patch进行洗牌,然后将它们重新组合成不同的部分,每个部分包含多个随机的整幅图像的patch嵌入。此外,在训练中引入额外的扰动也有助于提高行人重识别模型的鲁棒性。通过移位操作和洗牌操作对嵌入的patch进行洗牌,将序列
Figure 552535DEST_PATH_IMAGE131
打乱如下:
第一步:移位操作,第一个
Figure 385361DEST_PATH_IMAGE132
个补丁(除了[cls]令牌)被移动到最后,即
Figure 526362DEST_PATH_IMAGE128
转换为
Figure 179060DEST_PATH_IMAGE133
第二步:洗牌操作,通过
Figure 80020DEST_PATH_IMAGE104
组的patch shuffle操作对移位的patch进行进一步的洗牌。隐藏特征变为
Figure 501774DEST_PATH_IMAGE134
。经过洗牌操作后的局部特征组
Figure 846299DEST_PATH_IMAGE135
再经过一个标准的Transformer层处理后得到最终的Transformer局部特征组
Figure 986293DEST_PATH_IMAGE136
通过移位和洗牌操作,链二局部特征组
Figure 690944DEST_PATH_IMAGE137
可以覆盖不同身体部位的贴片,具有全局识别能力,能够更加充分地利用Transformer的全局依赖关系。
利用姿态估计辅助模块获取姿势引导特征
Figure 232783DEST_PATH_IMAGE049
,估计器从输入图像中提取16个地 标,然后利用地标生成热图
Figure 995814DEST_PATH_IMAGE138
,每个热图都被缩小到
Figure 357525DEST_PATH_IMAGE139
的大 小。每个热图的最大响应点对应于一个关键点,设置一个阈值
Figure 600288DEST_PATH_IMAGE140
过滤高置信度地标和低置 信度地标。热图标签可以表示为:
Figure 996634DEST_PATH_IMAGE141
其中
Figure 417382DEST_PATH_IMAGE142
表示第
Figure 531969DEST_PATH_IMAGE143
个地标的置信度得分。将一个完全连接的层应用于热图H,以获得与全局特征
Figure 312843DEST_PATH_IMAGE116
尺寸相同的热图
Figure 829275DEST_PATH_IMAGE144
。对
Figure 919459DEST_PATH_IMAGE144
Figure 521342DEST_PATH_IMAGE116
进行相乘,并获得姿势引导特征
Figure 105907DEST_PATH_IMAGE145
进行关键点-局部特征组相似度匹配,在链二中,将16个关键点特征归类于n个局部特征组
Figure 476846DEST_PATH_IMAGE134
中(一般将n设为4),并对局部特征组进行关键位置加强,增强网络对于关键点部位的关注度。部分相似度匹配层将关键点特征集合与局部特征组融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使得局部特征组包含相关的关键点特征信息:
Figure 223085DEST_PATH_IMAGE063
其中
Figure 797417DEST_PATH_IMAGE064
为生成图像16个关键点特征集合,
Figure 185673DEST_PATH_IMAGE065
为链二输出第
Figure 411118DEST_PATH_IMAGE055
个局部特征组,
Figure 328258DEST_PATH_IMAGE066
则 为匹配生成后的第
Figure 156930DEST_PATH_IMAGE055
个包含关键点信息的局部特征组,
Figure 817719DEST_PATH_IMAGE067
为与
Figure 897670DEST_PATH_IMAGE065
最相似的
Figure 516870DEST_PATH_IMAGE146
的编号。
步骤5利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery中的相关样本进行补全得到补全后的局部特征。
具体的,首先,选取相关gallery样本:
将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集与gallery各个样本的特征欧氏距离dist1。
利用欧氏距离dist1通过链一计算找到与每个query样本特征
Figure 315062DEST_PATH_IMAGE147
欧氏距离最小的 最佳gallery样本特征
Figure 795853DEST_PATH_IMAGE075
作为候选gallery样本特征。
将query样本特征
Figure 730311DEST_PATH_IMAGE147
和其候选gallery样本特征
Figure 520413DEST_PATH_IMAGE148
分别沿通道方向拆分成5份,query样本特征
Figure 805900DEST_PATH_IMAGE147
拆分为
Figure 57759DEST_PATH_IMAGE149
,其候选gallery样本特征
Figure 112303DEST_PATH_IMAGE148
拆分为
Figure 73305DEST_PATH_IMAGE150
将缺失部位特征补全:
利用query样本特征
Figure 580510DEST_PATH_IMAGE074
的可见性系数
Figure 403104DEST_PATH_IMAGE151
计算候选gallery样 本特征局部语义特征的可见性系数
Figure 577733DEST_PATH_IMAGE152
,计算公式如下:
Figure 444058DEST_PATH_IMAGE083
根据候选gallery样本特征
Figure 438559DEST_PATH_IMAGE075
与候选gallery样本特征局部语义特征的可见性系 数
Figure 48532DEST_PATH_IMAGE082
计算候选gallery样本特征局部语义特征补丁
Figure 329865DEST_PATH_IMAGE084
,计算公式如下:
Figure 367091DEST_PATH_IMAGE085
其中
Figure 848888DEST_PATH_IMAGE086
为候选gallery样本特征第
Figure 262552DEST_PATH_IMAGE153
部分的局部语义特征,
Figure 880615DEST_PATH_IMAGE088
是候选gallery样本特征第
Figure 105054DEST_PATH_IMAGE153
部分的局部语义特征的可见性系数。
将query样本特征
Figure 74147DEST_PATH_IMAGE074
的可见部分的局部语义特征,与候选gallery样本特征局部语 义特征补丁
Figure 25923DEST_PATH_IMAGE084
组合得到query样本特征的补全局部语义特征,计算公式如下:
Figure 764071DEST_PATH_IMAGE089
其中
Figure 392368DEST_PATH_IMAGE090
是query样本特征第
Figure 848757DEST_PATH_IMAGE087
部分的局部语义特征,
Figure 604223DEST_PATH_IMAGE091
是候选gallery样本特征局部语义特征补丁第
Figure 462458DEST_PATH_IMAGE087
部分的局部语义特征。
通过“缺失部位特征补全检索方法”的操作,query样本的局部语义特征中原本可见的部分被保留了下来,原本缺失的部分则被候选局部语义特征补全。
步骤6将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集与query集各个样本的特征欧氏距离,通过gallery集合中的样本按照与query集合中样本距计算累计匹配特性与均值平均精度,最终实现对行人样本的重识别。
双链网络解决了有遮挡的行人重识别场景中的遮挡问题;行人重识别问题被视为一个度量问题,同一人物的不同图像特征间的距离应比不同人物的图像特征间的距离小。由于本发明使用了双链结构,每条链最终输出的特征具有差异性,因此为每条链各自设置了损失函数。对于链一而言,输出为全局语义特征、前景语义特征、局部语义特征以及以上特征分别通过分类器的预测结果。对于链二而言,输出为全局特征与局部特征组沿通道方向拼接而成的融合特征,以及各个全局特征与局部特征组分别通过分类器的预测结果。
在该网络的目标函数中,三元组损失使得同类样本的距离更小,不同类样本的距离更大,这样使得所学特征具有更好的鲁棒性,三元组损失公式如下:
Figure 28700DEST_PATH_IMAGE154
其中margin为当前批次的最大距离边界
Figure 706806DEST_PATH_IMAGE155
,表示锚点样本与对应正样本的融合特征距离,同样,
Figure 384DEST_PATH_IMAGE156
表示锚点样本与对应负样本的融合特征距离。
另外,交叉熵损失函数作为分类损失使得所学特征具有更好的区分性,分类损失公式如下:
Figure 713125DEST_PATH_IMAGE157
其中CE为交叉熵损失,当
Figure 699535DEST_PATH_IMAGE158
为类别
Figure 382714DEST_PATH_IMAGE159
的分类器的预测结果,
Figure 479983DEST_PATH_IMAGE160
为真实id。
将这两种损失函数同时嵌入到链一网络上,共同指导该网络参数的学习和优化,并通过最小化这两种损失函数,从而确定最优的网络参数;对于链二,输出特征为全局特征以及洗牌后的局部特征,也分别使用了交叉熵损失函数与三元组损失函数。

Claims (2)

1.基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,包括以下步骤:
步骤1:对图片进行预处理,进行数据增强,将图片像素大小调整为256×128,并对图片随机采取随机裁剪、水平翻转和随机擦除,概率均为50%;
步骤2:构建双链网络模型,并进行训练,链一采用基于HRNet的卷积神经网络,链二采用基于ViT-B/16的Transformer;
链一的训练的主要步骤为像素级部分分割与对齐,由一组置信图加权的像素级特征表示的集合表示人体部分,具体步骤如下:
步骤2-1:给定n张来自不同行人的训练图像
Figure 79098DEST_PATH_IMAGE001
及其身份标签
Figure 465080DEST_PATH_IMAGE002
,所述n大于等 于1,通过学习人类语义解析,获得用于重识别的使用像素级的部分特征表示的部分特征, 对于图像
Figure 713659DEST_PATH_IMAGE003
,使用骨干网
Figure 79174DEST_PATH_IMAGE004
映射函数得到全局特征图
Figure 362388DEST_PATH_IMAGE005
,全局特征图为输入大小的1/4;
Figure 388113DEST_PATH_IMAGE006
其中
Figure 123988DEST_PATH_IMAGE007
是主干的参数,c、h、w是通道数、高度和宽度;
Figure 791729DEST_PATH_IMAGE008
表示空间位置
Figure 663871DEST_PATH_IMAGE009
处的特征,是一个c维的向量;
步骤2-2:将5个不同局部语义部分的置信度图
Figure 126076DEST_PATH_IMAGE010
,
Figure 847782DEST_PATH_IMAGE011
,
Figure 53635DEST_PATH_IMAGE012
,
Figure 780283DEST_PATH_IMAGE013
,
Figure 678969DEST_PATH_IMAGE014
相加得到1个前景的置 信度图
Figure 123857DEST_PATH_IMAGE015
将每个置信度图与局部语义部分相关联,通过下式计算得到n个局部语义特征、1个前景语义特征和1个全局语义特征:
Figure 867822DEST_PATH_IMAGE016
式中,
Figure 684861DEST_PATH_IMAGE017
表示属于语义部分k的像素
Figure 488869DEST_PATH_IMAGE018
的置信度,
Figure 686632DEST_PATH_IMAGE019
表示是逐元素相乘,
Figure 968709DEST_PATH_IMAGE020
表 示全局平均池化操作,
Figure 935528DEST_PATH_IMAGE021
为第
Figure 910437DEST_PATH_IMAGE022
部分的局部语义特征;
步骤2-3:链一最终输出的局部语义特征记为
Figure 329917DEST_PATH_IMAGE023
,且
Figure 179800DEST_PATH_IMAGE024
,其中
Figure 1125DEST_PATH_IMAGE025
为沿通道方向拼接,
Figure 412515DEST_PATH_IMAGE026
为前景语义特征,
Figure 319291DEST_PATH_IMAGE027
为全局语义特征;
链二的训练过程如下:
步骤3-1:将图像
Figure 208750DEST_PATH_IMAGE028
分成大小固定的
Figure 150161DEST_PATH_IMAGE029
个patch,其中
Figure 732452DEST_PATH_IMAGE030
Figure 126524DEST_PATH_IMAGE031
Figure 321138DEST_PATH_IMAGE032
分别表示其 高度、宽度和通道数,
Figure 851477DEST_PATH_IMAGE033
式中S为使用滑动窗口生成像素重叠的补丁的步长,P为patch的大小,其中
Figure 604669DEST_PATH_IMAGE034
Figure 486038DEST_PATH_IMAGE035
为向下取整操作;
步骤3-2:计算馈入
Figure 982878DEST_PATH_IMAGE036
层的Transformer层的输入序列,具体公式如下:
Figure 367723DEST_PATH_IMAGE037
式中,
Figure 26237DEST_PATH_IMAGE038
表示输入序列嵌入,
Figure 893437DEST_PATH_IMAGE039
是位置嵌入,
Figure 928389DEST_PATH_IMAGE040
是将面片映射到D维 的线性投影;
Figure 698899DEST_PATH_IMAGE041
为一个可学习的[cls]嵌入令牌;
Figure 528315DEST_PATH_IMAGE038
经过
Figure 384275DEST_PATH_IMAGE036
层的Transformer层处理,得 到
Figure 222918DEST_PATH_IMAGE042
步骤3-3:利用洗牌模块将嵌入的patch通过移位操作和洗牌操作对嵌入的patch进行 洗牌,然后重新组合成不同的部分,每个部分包含多个随机的整幅图像的patch嵌入,将序 列
Figure 582355DEST_PATH_IMAGE043
打乱如下:
第一步:移位操作,将除了[cls]令牌的前
Figure 848252DEST_PATH_IMAGE044
个补丁移动到最后,即
Figure 150096DEST_PATH_IMAGE042
转换为
Figure 58009DEST_PATH_IMAGE045
第二步:洗牌操作,通过n组的patch shuffle操作对移位的patch进行进一步的洗牌, 所述n取值为4,局部特征组变为
Figure 537532DEST_PATH_IMAGE046
经过洗牌操作后的局部特征组
Figure 708750DEST_PATH_IMAGE047
再经过一个标准的Transformer层处 理后得到最终的Transformer局部特征组
Figure 273724DEST_PATH_IMAGE048
步骤3-4:利用姿态估计辅助模块获取姿势引导特征
Figure 454170DEST_PATH_IMAGE049
;具体步骤如下:
使用估计器从输入图像中提取16个关键点地标,然后利用这些地标生成热图
Figure 788199DEST_PATH_IMAGE050
,每个热图都被缩小到
Figure 395898DEST_PATH_IMAGE051
的大小,每个热图的最大响应点 对应于一个关键点,设置一个阈值
Figure 946703DEST_PATH_IMAGE052
过滤高置信度地标和低置信度地标,热图标签表示为:
Figure 930839DEST_PATH_IMAGE053
其中
Figure 384954DEST_PATH_IMAGE054
表示第
Figure 897975DEST_PATH_IMAGE055
个地标的置信度得分,将一个完全连接的层应用于热图
Figure 437541DEST_PATH_IMAGE056
,以获得与全 局特征
Figure 959789DEST_PATH_IMAGE057
尺寸相同的热图
Figure 268411DEST_PATH_IMAGE058
Figure 217912DEST_PATH_IMAGE058
Figure 480660DEST_PATH_IMAGE057
进行相乘,并获得姿势引导特征
Figure 806599DEST_PATH_IMAGE059
,即关键点特征集合;
步骤3-5:进行关键点-局部特征组相似度匹配;
在链二中,将
Figure 969727DEST_PATH_IMAGE060
个关键点特征归类于
Figure 90129DEST_PATH_IMAGE061
个局部特征组
Figure 604287DEST_PATH_IMAGE062
中,并 对局部特征组进行关键位置加强;
部分相似度匹配层将关键点特征集合与局部特征组融合,计算每个关键点特征与局部特征组间的距离,选取相似度最高的部分进行整合,使得局部特征组包含相关的关键点特征信息:
Figure 468338DEST_PATH_IMAGE063
其中
Figure 485973DEST_PATH_IMAGE064
为生成图像16个关键点特征集合,
Figure 42856DEST_PATH_IMAGE065
为链二输出第
Figure 277266DEST_PATH_IMAGE055
个局部特征组,
Figure 945008DEST_PATH_IMAGE066
则为匹 配生成后的第
Figure 817149DEST_PATH_IMAGE055
个包含关键点信息的局部特征组,
Figure 544933DEST_PATH_IMAGE067
为与
Figure 768104DEST_PATH_IMAGE065
最相似的
Figure 973958DEST_PATH_IMAGE064
的编号;
步骤3:使用训练后的链一对于每张输入图像分别提取5个局部语义特征、1个前景语义特征与1个全局语义特征;
步骤4:通过训练后的链二将每张输入图像经过处理后得到4个局部特征组与1个全局特征;
步骤5:利用链一输出的局部可见性系数判断query集中的各个样本5个部分是否有个别缺失,若有缺失则选用gallery中的相关样本进行补全得到补全后的局部特征;
具体步骤如下:
步骤5-1:选取相关gallery样本:
步骤5-1-1:将链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算query集中各个样本与gallery集中各个样本的特征欧氏距离dist1;
步骤5-1-2:利用步骤5-1-1得到的欧氏距离dist1通过链一计算找到与每个query样本 特征
Figure 966185DEST_PATH_IMAGE068
欧氏距离最小的最佳gallery样本特征
Figure 864870DEST_PATH_IMAGE069
作为候选gallery样本特征;
步骤5-1-3:将query样本特征
Figure 811223DEST_PATH_IMAGE068
和其候选gallery样本特征
Figure 820767DEST_PATH_IMAGE069
分别沿通道方向拆分成5 份,query样本特征
Figure 933080DEST_PATH_IMAGE068
拆分为
Figure 737088DEST_PATH_IMAGE070
,其候选gallery样本特征
Figure 934851DEST_PATH_IMAGE069
拆分为
Figure 216928DEST_PATH_IMAGE071
步骤5-2:将缺失部位特征补全:
步骤5-2-1:链一根据属于语义部分k的像素
Figure 183747DEST_PATH_IMAGE009
的置信度
Figure 424235DEST_PATH_IMAGE017
的情况得到语义部 分k的部分可见性系数
Figure 607830DEST_PATH_IMAGE072
,计算公式如下:
Figure 959177DEST_PATH_IMAGE073
步骤5-2-2:利用query样本特征
Figure 780502DEST_PATH_IMAGE068
的可见性系数
Figure 191892DEST_PATH_IMAGE074
计算候选 gallery样本特征局部语义特征的可见性系数
Figure 98668DEST_PATH_IMAGE075
,计算公式如下:
Figure 988127DEST_PATH_IMAGE076
步骤5-2-3:根据候选gallery样本特征
Figure 929538DEST_PATH_IMAGE069
与候选gallery样本特征局部语义特征的可 见性系数
Figure 246250DEST_PATH_IMAGE075
计算候选gallery样本特征局部语义特征补丁
Figure 876207DEST_PATH_IMAGE077
,计算公式如下:
Figure 569357DEST_PATH_IMAGE078
其中
Figure 365275DEST_PATH_IMAGE079
为候选gallery样本特征第
Figure 118467DEST_PATH_IMAGE080
部分的局部语义特征,
Figure 999835DEST_PATH_IMAGE081
是候选gallery样本特 征第
Figure 231097DEST_PATH_IMAGE080
部分的局部语义特征的可见性系数;
步骤5-2-4:将query样本特征
Figure 881521DEST_PATH_IMAGE068
的可见部分的局部语义特征,与候选gallery样本特征 局部语义特征补丁
Figure 304150DEST_PATH_IMAGE077
组合得到query样本特征的补全局部语义特征,计算公式如下:
Figure 672814DEST_PATH_IMAGE082
其中
Figure 707766DEST_PATH_IMAGE083
是query样本特征第
Figure 212697DEST_PATH_IMAGE080
部分的局部语义特征,
Figure 307692DEST_PATH_IMAGE084
是候选gallery样本特征局部 语义特征补丁第
Figure 163652DEST_PATH_IMAGE080
部分的局部语义特征;
步骤6:将链一补全后的局部语义特征与链二输出的4个局部特征组与1个全局特征经过批量归一化层处理后沿通道方向进行拼接,分别计算gallery集各个样本与query集各个样本的特征欧氏距离,通过gallery集合中的样本按照与query集合中样本距计算累计匹配特性与均值平均精度,最终实现对行人样本的重识别。
2.根据权利要求1所述的基于多特征协同和语义感知的遮挡行人重识别和检索方法,其特征在于,所述链一训练过程中需要使用三元组损失和交叉熵损失函数约束通过最小化两种损失函数确定最优网络参数;
所述链二输出全局特征以及洗牌后的局部特征组后,也分别使用了交叉熵损失函数与三元组损失函数进行约束;
三元组损失公式如下:
Figure 736716DEST_PATH_IMAGE085
其中margin为当前批次的最大距离边界,
Figure 361732DEST_PATH_IMAGE086
表示锚点样本与对应正样本的融合特 征距离,
Figure 140812DEST_PATH_IMAGE087
表示锚点样本与对应负样本的融合特征距离;
交叉熵损失函数公式如下:
Figure 218490DEST_PATH_IMAGE088
其中CE为交叉熵损失,当
Figure 595244DEST_PATH_IMAGE089
为类别
Figure 74767DEST_PATH_IMAGE090
的分类器的预测结果,
Figure 511565DEST_PATH_IMAGE091
为真实id。
CN202210763141.3A 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法 Active CN114842512B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210763141.3A CN114842512B (zh) 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210763141.3A CN114842512B (zh) 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Publications (2)

Publication Number Publication Date
CN114842512A CN114842512A (zh) 2022-08-02
CN114842512B true CN114842512B (zh) 2022-10-14

Family

ID=82573821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210763141.3A Active CN114842512B (zh) 2022-07-01 2022-07-01 基于多特征协同和语义感知的遮挡行人重识别和检索方法

Country Status (1)

Country Link
CN (1) CN114842512B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052218B (zh) * 2023-02-13 2023-07-18 中国矿业大学 一种行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555060A (zh) * 2019-09-09 2019-12-10 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN111783753A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于语义一致水平条和前景修正的行人重识别方法
CN111797813A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于可见感知纹理语义对齐的部分行人重识别方法
CN114155554A (zh) * 2021-12-02 2022-03-08 东南大学 一种基于Transformer的相机域适应行人重识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555060A (zh) * 2019-09-09 2019-12-10 山东省计算中心(国家超级计算济南中心) 基于成对样本匹配的迁移学习方法
CN111797813A (zh) * 2020-07-21 2020-10-20 天津理工大学 基于可见感知纹理语义对齐的部分行人重识别方法
CN111783753A (zh) * 2020-09-04 2020-10-16 中国科学院自动化研究所 基于语义一致水平条和前景修正的行人重识别方法
CN114155554A (zh) * 2021-12-02 2022-03-08 东南大学 一种基于Transformer的相机域适应行人重识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE;Alexey Dosovitskiy,et al;《https://arxiv.org/abs/2010.11929》;20210603;全文 *
Deep High-Resolution Representation Learning for Human Pose Estimation;Ke Sun,et al;《https://arXiv.org/abs/1902.09212》;20190225;全文 *
基于关键信息感知的通用行人重识别算法研究;高立帅;《中国优秀硕士学位论文全文数据库》;20210815;全文 *

Also Published As

Publication number Publication date
CN114842512A (zh) 2022-08-02

Similar Documents

Publication Publication Date Title
CN107832672B (zh) 一种利用姿态信息设计多损失函数的行人重识别方法
CN112101150B (zh) 一种基于朝向约束的多特征融合行人重识别方法
Marin et al. Random forests of local experts for pedestrian detection
Kong et al. General road detection from a single image
CN113408492B (zh) 一种基于全局-局部特征动态对齐的行人重识别方法
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
US10445602B2 (en) Apparatus and method for recognizing traffic signs
CN110633632A (zh) 一种基于循环指导的弱监督联合目标检测和语义分割方法
CN112818862A (zh) 基于多源线索与混合注意力的人脸篡改检测方法与系统
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
Wang et al. Traffic sign detection using a cascade method with fast feature extraction and saliency test
CN112132004A (zh) 一种基于多视角特征融合的细粒度图像识别方法
Alvarez et al. Road geometry classification by adaptive shape models
CN103679142A (zh) 一种基于空间约束的目标人体识别方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN113435319B (zh) 一种联合多目标跟踪和行人角度识别的分类方法
CN111582178A (zh) 基于多方位信息和多分支神经网络车辆重识别方法及系统
CN114842512B (zh) 基于多特征协同和语义感知的遮挡行人重识别和检索方法
Barodi et al. An enhanced artificial intelligence-based approach applied to vehicular traffic signs detection and road safety enhancement
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN109255052B (zh) 一种基于多特征的三阶段车辆检索方法
CN116912184B (zh) 一种基于篡改区域分离和区域约束损失的弱监督深度修复图像篡改定位方法及系统
CN116311345A (zh) 一种基于Transformer的遮挡行人重识别方法
Niazi et al. Hybrid face detection in color images
Zhang et al. Pedestrian detection in binocular stereo sequence based on appearance consistency

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant