CN116343267A - 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置 - Google Patents

衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置 Download PDF

Info

Publication number
CN116343267A
CN116343267A CN202310627517.2A CN202310627517A CN116343267A CN 116343267 A CN116343267 A CN 116343267A CN 202310627517 A CN202310627517 A CN 202310627517A CN 116343267 A CN116343267 A CN 116343267A
Authority
CN
China
Prior art keywords
features
clothing
human body
shielding
pedestrian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310627517.2A
Other languages
English (en)
Other versions
CN116343267B (zh
Inventor
高赞
张攀
徐海霞
马春杰
赵一博
薛彦兵
温显斌
李传森
刘冬冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Zhonglian Audio Visual Information Technology Co ltd
Original Assignee
Shandong Zhonglian Audio Visual Information Technology Co ltd
Tianjin University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Zhonglian Audio Visual Information Technology Co ltd, Tianjin University of Technology, Shandong Institute of Artificial Intelligence filed Critical Shandong Zhonglian Audio Visual Information Technology Co ltd
Priority to CN202310627517.2A priority Critical patent/CN116343267B/zh
Publication of CN116343267A publication Critical patent/CN116343267A/zh
Application granted granted Critical
Publication of CN116343267B publication Critical patent/CN116343267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/042Knowledge-based neural networks; Logical representations of neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于计算机视觉及深度学习领域,尤其涉及一种衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置。其具体步骤如下:通过语义分割模型得到对应图像的衣物屏蔽图,并且提取衣物屏蔽泛化特征;使用人体局部及高级语义特征提取模块对图像非衣物特征进行提取;通过Vision Transformer网络模型对人物特征进行提取;将RGB原始图像和衣物屏蔽图,两者一同放入了共享参数的Vision Transformer模型对人物特征进行提取;联合损失函数约束网络进行训练。本发明的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,在相关的换衣行人重识别数据集中达到了优异的效果。

Description

衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置
技术领域
本发明属于计算机视觉及深度学习领域,尤其涉及一种衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置。
背景技术
行人重识别也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。是一个图像检索的问题。给定一个监控行人图像,检索跨设备下的该行人图像。行人重识别的核心在于如何找到有鉴别力的行人表达。行人重识别目前在智慧城市、智能安防、人机交互等方面发挥着很重要的作用。近几年随着深度学习的发展,行人重识别问题更加引人关注,常用的提取图像特征的网络有ResNet,DenseNet,VisionTransformer,Swin Transformer等;
换衣行人重识别是随着行人重识别的发展,研究者们逐渐发现行人重识别中存在着遮挡问题,也存在着换衣问题,尤其是犯罪嫌疑人往往会在作案后将衣服进行更换,这样就使得原有的行人重识别算法失效,换衣问题也就逐渐被慢慢重视起来。这样就使得学者将只提取人体的泛化特征逐步转移到提取人体的非衣物特征:比如轮廓,3D,步态特征等等。
目前换衣行人重识别领域的学者主要对轮廓、步态、3D等非衣物特征进行研究,但是由于这些特征往往对于生成3D、轮廓、步态信息的模型依赖很大。随着Mask RCNN等分割网络和Dense Pose等姿态估计网络越来越精进,可以得到准确的行人身体区域的分割掩码,甚至精确获得更细粒度的每个人体部件的区域。这对于换衣行人重识别问题的解决也提供了新的思路。
发明内容
本发明的目的是解决传统行人重识别方法中,无法处理行人换衣造成外观改变的问题,提供一种有效的基于衣物屏蔽网络的人体高级语义行人重识别方法及装置,通过对于人体衣服掩码置黑解决行人换衣问题,并利用人体姿态估计模型对人体局部特征进行整合,利用人体的局部特征作为图卷积网络的输入,从而提取与衣物无关的人体高级语义特征,整体训练过程中利用vit模型来提取人物的泛化特征。
本发明解决技术问题的技术方案为:
一种基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,包括以下几个步骤:
S1. 通过语义分割模型得到对应图像的衣物屏蔽图,并且提取衣物屏蔽泛化特征;
S2. 使用人体局部及高级语义特征提取模块对图像非衣物特征进行提取;
S3. 通过Vision Transformer网络模型对人物特征进行提取;
将RGB原始图像和衣物屏蔽图,两者一同放入了共享参数的Vision Transformer模型对人物特征进行提取;
S4. 联合损失函数约束网络进行训练
在网络中设置两条链路,第一条链路学习与衣物无关的人体局部特征和高级语义特征,第二条链路学习人体的全局特征;损失函数分为两部分,一部分是人体局部特征和高级语义特征的分类损失,另一部分是Vision Transforme所提取的全局特征做三元组损失,让其作为度量损失,用于拉近类内特征距离,拉远类间特征距离。全局特征进行全连接层后的特征做分类损失,增加余弦似度和最大池化的损失函数,来提取出衣物屏蔽特征和原图特征公有部分特征,即非衣物特征。
S5. 利用训练好的模型提取特征进行检索匹配
将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。
上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上,S2具体过程如下:
S201.将衣物屏蔽图输入人体姿态估计网络,得到17个人体骨架点热力图,将这17个骨架点热力图进行组合,组合成7个局部热力图即头、上半身、下半身、左胳膊、右胳膊、左腿及右腿和1个全局热力图即17个骨架点的组合,并且将这8个热力图与第1步提取的泛化全局特征进行融合得到人体的非衣物局部特征;
S203.将人体的非衣物局部特征作为图卷积输入节点,预先设定的人体之间的关系做为边,让图卷积模型去学习更多人体部位之间的高级语义;
S203.将人体的局部特征和人体高级语义特征进行融合,融合得到的特征去计算分类损失。
上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上,S3具体过程如下:
S301.一张原图
Figure SMS_1
作为泛化模型的输入,其中H表示图像的高度,W表示图像的宽度,C表示图像中的通道数。通过预训练的Vision Transformer网络进行特征提取,得到的特征与衣物屏蔽的泛化特征进行相加融合得到/>
Figure SMS_2
S302将衣物屏蔽图片经过vit网络模型输出的特征与
Figure SMS_3
加权相乘得到/>
Figure SMS_4
即衣物屏蔽特征;
S303将原图经过vit网络输出的特征和
Figure SMS_5
加权相乘,得到原图主导的泛化特征
Figure SMS_6
上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上,S4体过程如下:
使用融合后的人体局部特征和人体高级语义特征,将得到的衣物无关特征当做分类问题来做,计算此特征的分类损失,记作
Figure SMS_7
将Vision Transformer网络提取的衣物屏蔽图主导的全局特征
Figure SMS_8
,与原图主导的全局特征/>
Figure SMS_9
做融合之后,使用三元组损失作为度量损失/>
Figure SMS_10
,用来拉进类内特征距离,拉远类间特征距离,并且将全局特征经过全连接层,得到分类特征,使用此特征来计算此特征的分类损失/>
Figure SMS_11
在本实验中,整个网络的损失函数为:
Figure SMS_12
;其中 />
Figure SMS_13
和 />
Figure SMS_14
都是分类损失,分类损失使用交叉熵损失进行计算,公式如下:
Figure SMS_15
,其中B是输入的批次大小,/>
Figure SMS_16
是样本/>
Figure SMS_17
的真实标签,
Figure SMS_18
表示样本/>
Figure SMS_19
的预测标签,
Figure SMS_20
是三元组损失,公式如下
Figure SMS_21
;/>
Figure SMS_22
分别为从/>
Figure SMS_23
图像中提取的特征,这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人,/>
Figure SMS_24
是边界超参数,用来控制类内间距和类间间距的边界值,候选三元组由距离最远的正样本对和距离最近的负采样对构建,即最难辨别的正样本对和负样本对,每个批次训练P个类别,每个类别K张图像;
Figure SMS_25
是余弦似度和最大池化的损失函数,目的是提取衣物屏蔽图和原图的共有特征而设计的损失函数,公式如下:/>
Figure SMS_26
,其中/>
Figure SMS_27
,这个损失函数是一个基于余弦相似度和最大池化的损失函数,计算了两个特征之间的余弦相似度,并选择最大值作为损失函数的值,使得模型可以更好地学习到两个特征之间的关系。因为余弦相似度/>
Figure SMS_28
的值范围在 [-1,1],所以该损失函数的取值范围为 [0,2],并且当余弦相似度最大时取到最小值0,当余弦相似度最小时取到最大值。这种设计可以保证损失函数的值始终为正,并且当余弦相似度越大,损失函数的值越小,使得模型可以更好地优化。同时,该损失函数对梯度下降不会产生影响,因为它只是一个单调函数,不会改变损失函数的梯度方向。最大余弦相似度可以保证两个特征之间的相似度尽可能的高,即使其他部分的相似度较低。这是因为在进行最大池化操作后,只有最大值被保留下来,其他的相似度被忽略掉了,这样可以减少不相关的相似度对损失函数的影响,使损失函数更加关注两个特征之间最重要的相似度部分。
将这四部分损失进行加权求和,既可以让模型学习更加泛化的行人特征,又可以学习人体高级语义特征。
上述基于衣物屏蔽网络的人体高级语义换衣行人重识别方法基础上,S5具体过程如下:
S501.将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性,计算出待检索图像和检索库中各个行人图像的欧氏距离,计算公式如下:
Figure SMS_29
,/>
Figure SMS_30
为两张输入图像,/>
Figure SMS_31
为通过网络前向传播得到的它们对应的特征向量;
通过对检索模型的检索平均准确率mAP,和rank-n表示前n位是否命中,这两个指标来评价模型的好坏。
一种基于衣物屏蔽网络的人体高级语义换衣行人重识别装置,包括:
获取模块,用于获取图像和语义分割模型;
人体高级语义特征和人体局部特征提取模块,对原图人物的特征进行提取,并且将此特征和衣物屏蔽后的特征进行融合;
训练模块,使用融合后的人体局部特征和人体高级语义特征,将得到的衣物无关特征当做分类问题来做,计算此特征的分类损失;
相似度确定模块,将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;
目标确定模块,通过对检索模型的检索平均准确率mAP,和rank-n表示前n位是否命中确定为目标行人图片。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案具有如下优点或有益效果:
1)针对行人换衣问题,提出衣物屏蔽网络来学习泛化的行人外观特征,使模型在辨别行人时不依赖于衣服颜色纹理等外观特征;
2)通过姿态估计模型提取出来人体的局部特征,在一定程度上减轻了姿态变化对于模型的影响;
3)模型通过图卷积学习人体部件特征之间关系,从而学习高级人体语义特征,在一定程度上摆脱了模型对于外观特征的依赖;
4)本文发明的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,在相关的换衣行人重识别数据集中达到了优异的效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的流程图。
图2为本发明设计的基于衣物屏蔽网络的人体高级语义换衣行人重识别网络框架图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。
如图1所示,为发明的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法的实现流程图,该方法的实现步骤细节如下:
S1. 通过语义分割模型得到对应图像的衣物屏蔽图,并且提取衣物屏蔽泛化特征;
S2. 使用人体局部及高级语义特征提取模块对图像非衣物特征进行提取;
S3. 通过Vision Transformer网络模型对人物特征进行提取;
将RGB原始图像和衣物屏蔽图,两者一同放入了共享参数的Vision Transformer模型对人物特征进行提取;
S4. 联合损失函数约束网络进行训练
在网络中设置两条链路,第一条链路学习与衣物无关的人体局部特征和高级语义特征,第二条链路学习人体的全局特征;损失函数分为两部分,一部分是人体局部特征和高级语义特征的分类损失,另一部分是Vision Transforme所提取的全局特征做三元组损失,让其作为度量损失,用于拉近类内特征距离,拉远类间特征距离,对全局损失进行全连接层后的特征做分类损失,增加余弦似度和最大池化的损失函数,来提取出衣物屏蔽特征和原图特征公有部分特征,四者损失相加进行联合训练;
S5. 利用训练好的模型提取特征进行检索匹配
将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。
本实施例中,S1.具体过程如下:本发明利用人体姿态估计中常用的语义分割算法SCHP,使用LIP数据集的预训练模型预先获得对应图像的部件语义分割图像,获得对应图像的20个人体部件图:“背景”、“帽子”、“头发”、“手套”、“太阳镜”、“上衣服”、“裙子”、“外套”、“袜子”、“裤子”、“连衣裤”、“围巾”、“裙子”、“脸”、“左臂”、“右臂”、“左腿”、“右腿”、“左鞋”、“右鞋”。将这20个部件融合后分为:衣物、非衣物,并且将衣物部分进行屏蔽,非衣物部分不变,利用融合后的标签定位到衣物区域,并生成相应的二值化掩码,并且与原图像进行元素间的点乘操作,以此来屏蔽衣物信息,从而获得一个服装区域被掩盖的图像。将衣物屏蔽图输入到骨干网络中,用来提取衣物外观脱敏的泛化特征,骨干网络使用VisionTransformer网络模型,在ImageNet数据集进行预训练。
本实施例中,S2.具体过程如下:
S201.将衣物屏蔽图输入人体姿态估计网络,姿态估计模型使用HR-Net,并且在COCO数据集上进行预训练,给定一个衣物屏蔽的行人图像m,以通过泛化提取特征模块vit模型,其经过与原图特征融合后的特征
Figure SMS_34
、姿态估计模型得到其特征和热力图/>
Figure SMS_37
,使用输入通道为17,输出通道为1,卷积核大小为1*1的卷积CONV对热力图进行通道降维得到全局热力图特征/>
Figure SMS_40
,得到17个人体骨架点热力图,将这17个骨架点热力图/>
Figure SMS_32
按照人体部位进行通道融合,组合成7个局部热力图即头/>
Figure SMS_35
、上半身/>
Figure SMS_38
、下半身/>
Figure SMS_41
、左胳膊/>
Figure SMS_33
、右胳膊/>
Figure SMS_36
、左腿/>
Figure SMS_39
及右腿/>
Figure SMS_42
和1个全局热力图即17个骨架点的组合,并且将这8个热力图与第1步提取的泛化全局特征进行融合得到人体的非衣物局部特征;
S202.将人体的非衣物局部特征作为图卷积输入节点,预先设定的人体之间的关系做为边,让图卷积模型去学习更多人体部位之间的高级语义,具体公式如下:
Figure SMS_43
,其中/>
Figure SMS_44
人体的局部特征,/>
Figure SMS_45
是人体全局特征,CONV进行了一次输入通道数17,输出通道数1,卷积核大小为1*1的卷积操作,/>
Figure SMS_46
为平均池化操作,/>
Figure SMS_47
为外积,/>
Figure SMS_48
为泛化特征,/>
Figure SMS_49
全局热力图特征,
S203.将人体的局部特征和人体高级语义特征进行融合,融合得到的特征去计算分类损失,具体如下:图使用
Figure SMS_50
来表示, />
Figure SMS_51
是全局人体高级语义特征,
Figure SMS_52
是局部人体高级语义特征,使用人体之间的关系作为预先输入的边
Figure SMS_53
,将得到的人体高级语义特征/>
Figure SMS_54
Figure SMS_55
与对应的局部特征及全局特征进行相加,将得到特征经过batchnormal层,将得到的特征经过FC层后得到分类特征f,对其进行分类损失的计算
上述过程具体公式如下:
Figure SMS_56
,/>
Figure SMS_57
为人体高级语义分类特征,/>
Figure SMS_58
是人体全局高级语义特征,/>
Figure SMS_59
是人体局部高级语义特征,⊕是将特征进行拼接,/>
Figure SMS_60
人体的局部特征,/>
Figure SMS_61
是人体的全局特征,FC是全连接层。bn是batchnormal层用来将全局特征和分类特征进行分离,
本实施例中,S3具体过程如下:
S301.一张原图
Figure SMS_62
作为泛化模型的输入,通过预训练的VisionTransformer网络进行特征提取,得到的特征与衣物屏蔽的泛化特征进行相加融合得到
Figure SMS_63
S302将衣物屏蔽图片经过vit网络模型输出的特征与
Figure SMS_64
加权相乘得到/>
Figure SMS_65
即衣物屏蔽特征;
S303将原图经过vit网络输出的特征和
Figure SMS_66
加权相乘,得到原图主导的泛化特征
Figure SMS_67
采用上述方案目的是为了将
Figure SMS_68
和/>
Figure SMS_69
分别计算三元组损失,将这两个特征经过FC层后,分别去做分类损失。
本实施例中,S4体过程如下:
使用融合后的人体局部特征和人体高级语义特征,将得到的衣物无关特征当做分类问题来做,计算此特征的分类损失,记作
Figure SMS_70
将Vision Transformer网络提取的衣物屏蔽图主导的全局特征与原图主导的全局特征
Figure SMS_71
,使用三元组损失作为度量损失/>
Figure SMS_72
,用来拉进类内特征距离,拉远类间特征距离,并且将全局特征经过全连接层,得到分类特征,使用此特征来计算此特征的分类损失/>
Figure SMS_73
本实施例中,整个网络的损失函数为:
Figure SMS_74
,其中 />
Figure SMS_75
和 />
Figure SMS_76
都是分类损失,分类损失使用交叉熵损失进行计算,公式如下:
Figure SMS_77
,其中,B是输入的批次大小,/>
Figure SMS_78
是样本/>
Figure SMS_79
的真实标签,/>
Figure SMS_80
表示样本/>
Figure SMS_81
的预测标签,/>
Figure SMS_82
是三元组损失,公式如下
Figure SMS_83
,/>
Figure SMS_84
分别为从/>
Figure SMS_85
图像中提取的特征,这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人,/>
Figure SMS_86
是边界超参数,用来控制类内间距和类间间距的边界值,候选三元组由距离最远的正样本对和距离最近的负采样对构建,即最难辨别的正样本对和负样本对,每个批次训练P个类别,每个类别K张图像,从而能够拉近类间的距离,拉远类外的距离;
Figure SMS_87
是余弦似度和最大池化的损失函数,目的是为了提取衣物屏蔽图和原图的共有特征而设计的损失函数,公式如下:/>
Figure SMS_88
,其中/>
Figure SMS_89
,这个损失函数是一个基于余弦相似度和最大池化的损失函数,计算了两个特征之间的余弦相似度,并选择最大值作为损失函数的值,使得模型可以更好地学习到两个特征之间的关系。因为余弦相似度的值范围在 [-1,1],所以该损失函数的取值范围为 [0,2],并且当余弦相似度最大时取到最小值0,当余弦相似度最小时取到最大值。这种设计可以保证损失函数的值始终为正,并且当余弦相似度越大,损失函数的值越小,使得模型可以更好地优化。同时,该损失函数对梯度下降不会产生影响,因为它只是一个单调函数,不会改变损失函数的梯度方向。最大余弦相似度可以保证两个特征之间的相似度尽可能的高,即使其他部分的相似度较低。这是因为在进行最大池化操作后,只有最大值被保留下来,其他的相似度被忽略掉了,这样可以减少不相关的相似度对损失函数的影响,使损失函数更加关注两个特征之间最重要的相似度部分。
将这四部分损失进行加权求和,既可以让模型学习更加泛化的行人特征,又可以学习人体高级语义特征。
本实施例中,S5具体过程如下:
S501.将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性,计算出待检索图像和检索库中各个行人图像的欧氏距离,计算公式如下:
Figure SMS_90
,/>
Figure SMS_91
为两张输入图像,/>
Figure SMS_92
为通过网络前向传播得到的它们对应的特征向量;
通过对检索模型的检索平均准确率mAP,和rank-n表示前n位是否命中,这两个指标来评价模型的好坏。
为了证明本发明的有效性,在公开的换衣行人重识别数据集PRCC和NKUP上进行了实验。实验的评价使用的是mAP和rank-1。其中,mAP表示所有被检索模型的检索平均准确率,rank-1表示第一位命中。
不同算法与本发明方法的性能比较下表1所示,可以看出,本发明提出的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法具有优良的性能。
表1 不同算法与本发明方法在PRCC和NKUP数据集处理结果
Figure SMS_93
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (6)

1.一种基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,其特征是,包括以下几个步骤:
S1. 通过语义分割模型得到对应图像的衣物屏蔽图,并且提取衣物屏蔽泛化特征;
S2. 使用人体局部及高级语义特征提取模块对图像非衣物特征进行提取;
S3. 通过Vision Transformer网络模型对人物特征进行提取;
将RGB原始图像和衣物屏蔽图,两者一同放入了共享参数的Vision Transformer模型对人物特征进行提取;
S4. 联合损失函数约束网络进行训练
在网络中设置两条链路,第一条链路学习与衣物无关的人体局部特征和高级语义特征,第二条链路学习图片的全局特征;损失函数分为两部分,一部分是人体局部特征和高级语义特征的分类损失,另一部分是Vision Transforme所提取的全局特征做三元组损失,让其作为度量损失,用于拉近类内特征距离,拉远类间特征距离,对全局损失进行全连接层后的特征做分类损失,三者损失相加进行联合训练;
S5. 利用训练好的模型提取特征进行检索匹配
将待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。
2.根据权利要求1所述的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,其特征是,S2具体过程如下:
S201.将衣物屏蔽图输入人体姿态估计网络,得到17个人体骨架点热力图,将这17个骨架点热力图进行组合,组合成7个局部热力图即头、上半身、下半身、左胳膊、右胳膊、左腿及右腿和1个全局热力图即17个骨架点的组合,并且将这8个热力图与第1步提取的泛化全局特征进行融合得到人体的非衣物局部特征;
S202.将人体的非衣物局部特征作为图卷积输入节点,预先设定的人体之间的关系做为边,让图卷积模型去学习更多人体部位之间的高级语义,具体公式如下:
Figure QLYQS_1
,其中/>
Figure QLYQS_2
为人体的局部特征,/>
Figure QLYQS_3
是人体全局特征,CONV进行了一次输入通道数17,输出通道数1,卷积核大小为1*1的卷积操作,
Figure QLYQS_4
为平均池化操作,/>
Figure QLYQS_5
为外积,/>
Figure QLYQS_6
为泛化特征,/>
Figure QLYQS_7
全局热力图特征;
S203.将人体的局部特征和人体高级语义特征进行融合,融合得到的特征去计算分类损失,具体如下:人体骨架点热力图表示为
Figure QLYQS_8
, />
Figure QLYQS_9
是全局人体高级语义特征,/>
Figure QLYQS_10
是局部人体高级语义特征,使用人体之间的关系作为预先输入的边
Figure QLYQS_11
,将得到的人体高级语义特征/>
Figure QLYQS_12
、/>
Figure QLYQS_13
与对应的局部特征及全局特征进行相加,将得到特征经过batchnormal层,将得到的特征经过FC层后得到分类特征f,对其进行分类损失的计算
上述过程具体公式如下:
Figure QLYQS_14
;/>
Figure QLYQS_15
为人体高级语义分类特征,/>
Figure QLYQS_16
是人体全局高级语义特征,/>
Figure QLYQS_17
是人体局部高级语义特征,⊕是将特征进行拼接,/>
Figure QLYQS_18
人体的局部特征,/>
Figure QLYQS_19
是人体的全局特征,FC是全连接层,bn是batchnormal层用来将全局特征和分类特征进行分离。
3.根据权利要求1所述的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,其特征是,S3具体过程如下:
S301.一张原图
Figure QLYQS_20
作为泛化模型的输入,通过预训练的Vision Transformer网络进行特征提取,得到的特征与衣物屏蔽的泛化特征进行相加融合得到/>
Figure QLYQS_21
S302将衣物屏蔽图片经过vit网络模型输出的特征与
Figure QLYQS_22
加权相乘得到/>
Figure QLYQS_23
即衣物屏蔽特征;
S303将原图经过vit网络输出的特征和
Figure QLYQS_24
加权相乘,得到原图主导的泛化特征
Figure QLYQS_25
其中H表示图像的高度,W表示图像的宽度,C表示图像中的通道数。
4.根据权利要求1所述的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,其特征是,S4体过程如下:
使用融合后的人体局部特征和人体高级语义特征,将得到的衣物无关特征当做分类问题来做,计算此特征的分类损失,记作
Figure QLYQS_26
将Vision Transformer网络提取的衣物屏蔽图主导的全局特征与原图主导的全局特征
Figure QLYQS_27
,使用三元组损失作为度量损失/>
Figure QLYQS_28
,用来拉进类内特征距离,拉远类间特征距离,并且将全局特征经过全连接层,得到分类特征,使用此特征来计算此特征的分类损失
Figure QLYQS_29
在本实验中,整个网络的损失函数为:
Figure QLYQS_30
其中
Figure QLYQS_31
和 />
Figure QLYQS_32
都是分类损失,分类损失使用交叉熵损失进行计算,公式如下:
Figure QLYQS_33
其中,B是输入的批次大小,
Figure QLYQS_34
是样本/>
Figure QLYQS_35
的真实标签,/>
Figure QLYQS_36
表示样本/>
Figure QLYQS_37
的预测标签,
Figure QLYQS_38
是三元组损失,公式如下
Figure QLYQS_39
Figure QLYQS_40
分别为从/>
Figure QLYQS_41
图像中提取的特征,这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人,/>
Figure QLYQS_42
是边界超参数,用来控制类内间距和类间间距的边界值,候选三元组由距离最远的正样本对和距离最近的负采样对构建,即最难辨别的正样本对和负样本对,每个批次训练P个类别,每个类别K张图像;
Figure QLYQS_43
是为了提取衣物屏蔽图和原图的共有特征而设计的损失函数,公式如下:
Figure QLYQS_44
其中
Figure QLYQS_45
这个损失函数是一个基于余弦相似度和最大池化的损失函数,计算了两个特征之间的余弦相似度,并选择最大值作为损失函数的值,余弦相似度的值范围在[-1,1],该损失函数的取值范围为 [0,2],并且当余弦相似度最大时取到最小值0,当余弦相似度最小时取到最大值。
5.根据权利要求1所述的基于衣物屏蔽网络的人体高级语义换衣行人重识别方法,其特征是,S5具体过程如下:
S501.将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性,计算出待检索图像和检索库中各个行人图像的欧氏距离,计算公式如下:
Figure QLYQS_46
,/>
Figure QLYQS_47
为两张输入图像,/>
Figure QLYQS_48
为通过网络前向传播得到的它们对应的特征向量;
通过对检索模型的检索平均准确率mAP,和rank-n表示前n位是否命中,这两个指标来评价模型的好坏。
6.一种基于衣物屏蔽网络的人体高级语义换衣行人重识别装置,其特征是,包括:获取模块,用于获取图像和语义分割模型;
人体高级语义特征和人体局部特征提取模块,对原图人物的特征进行提取,并且将此特征和衣物屏蔽后的特征进行融合;
训练模块,使用融合后的人体局部特征和人体高级语义特征,将得到的衣物无关特征当做分类问题来做,计算此特征的分类损失;
相似度确定模块,将待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;
目标确定模块,通过对检索模型的检索平均准确率mAP,和rank-n表示前n位是否命中确定为目标行人图片。
CN202310627517.2A 2023-05-31 2023-05-31 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置 Active CN116343267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310627517.2A CN116343267B (zh) 2023-05-31 2023-05-31 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310627517.2A CN116343267B (zh) 2023-05-31 2023-05-31 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置

Publications (2)

Publication Number Publication Date
CN116343267A true CN116343267A (zh) 2023-06-27
CN116343267B CN116343267B (zh) 2023-08-04

Family

ID=86893380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310627517.2A Active CN116343267B (zh) 2023-05-31 2023-05-31 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置

Country Status (1)

Country Link
CN (1) CN116343267B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及系统
CN117612112A (zh) * 2024-01-24 2024-02-27 山东科技大学 一种基于语义一致性的换装行人重识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784728A (zh) * 2021-01-18 2021-05-11 山东省人工智能研究院 基于衣物脱敏网络的多粒度换衣行人重识别方法
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
CN114758362A (zh) * 2022-06-15 2022-07-15 山东省人工智能研究院 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
CN115482508A (zh) * 2022-09-26 2022-12-16 天津理工大学 换装行人重识别方法、装置、设备和计算机可存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210232813A1 (en) * 2020-01-23 2021-07-29 Tongji University Person re-identification method combining reverse attention and multi-scale deep supervision
CN112784728A (zh) * 2021-01-18 2021-05-11 山东省人工智能研究院 基于衣物脱敏网络的多粒度换衣行人重识别方法
CN114758362A (zh) * 2022-06-15 2022-07-15 山东省人工智能研究院 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法
CN115482508A (zh) * 2022-09-26 2022-12-16 天津理工大学 换装行人重识别方法、装置、设备和计算机可存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
熊炜;熊子婕;杨荻椿;童磊;刘敏;曾春艳;: "基于深层特征融合的行人重识别方法", 计算机工程与科学, no. 02 *
郑烨;赵杰煜;王?;张毅;: "基于姿态引导对齐网络的局部行人再识别", 计算机工程, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及系统
CN116524602B (zh) * 2023-07-03 2023-09-19 华东交通大学 基于步态特征的换衣行人重识别方法及系统
CN117612112A (zh) * 2024-01-24 2024-02-27 山东科技大学 一种基于语义一致性的换装行人重识别方法
CN117612112B (zh) * 2024-01-24 2024-04-30 山东科技大学 一种基于语义一致性的换装行人重识别方法

Also Published As

Publication number Publication date
CN116343267B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN116343267B (zh) 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置
Liang et al. Deep human parsing with active template regression
Yamaguchi et al. Paper doll parsing: Retrieving similar styles to parse clothing items
CN110033007B (zh) 基于深度姿态预估和多特征融合的行人衣着属性识别方法
CN111310668B (zh) 一种基于骨架信息的步态识别方法
Zhang et al. Task-aware attention model for clothing attribute prediction
Park et al. Attributed grammars for joint estimation of human attributes, part and pose
Thom et al. Facial attribute recognition: A survey
Li et al. Cross-scenario clothing retrieval and fine-grained style recognition
Rao et al. Facial expression recognition with multiscale graph convolutional networks
Pang et al. Analysis of computer vision applied in martial arts
CN116311377A (zh) 基于图像内与图像间关系的换衣行人重识别方法和系统
Yang et al. Sampling agnostic feature representation for long-term person re-identification
Liang et al. Egocentric hand pose estimation and distance recovery in a single RGB image
CN117333901A (zh) 基于衣服统一和多样融合的换衣行人重识别方法
Luo et al. Spatial constraint multiple granularity attention network for clothesretrieval
Gao et al. Addressing information inequality for text-based person search via pedestrian-centric visual denoising and bias-aware alignments
CN115830643B (zh) 一种姿势引导对齐的轻量行人重识别方法
Xie et al. Cross-camera person re-identification with body-guided attention network
Li et al. A novel art gesture recognition model based on two channel region-based convolution neural network for explainable human-computer interaction understanding
Zhu et al. Cross-domain attention and center loss for sketch re-identification
CN112069908B (zh) 基于共现属性的行人重识别方法
Wang et al. Occluded person re-identification based on differential attention siamese network
Pan et al. Attribute-guided global and part-level identity network for person re-identification
Galiyawala et al. Dsa-pr: discrete soft biometric attribute-based person retrieval in surveillance videos

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231227

Address after: Building A6-211, Hanyu Jingu, No. 7000 Jingshi Road, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan City, Shandong Province, 250000

Patentee after: Shandong Zhonglian Audio-Visual Information Technology Co.,Ltd.

Address before: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee before: Shandong Institute of artificial intelligence

Patentee before: TIANJIN University OF TECHNOLOGY

Patentee before: Shandong Zhonglian Audio-Visual Information Technology Co.,Ltd.

TR01 Transfer of patent right