CN117333901A - 基于衣服统一和多样融合的换衣行人重识别方法 - Google Patents
基于衣服统一和多样融合的换衣行人重识别方法 Download PDFInfo
- Publication number
- CN117333901A CN117333901A CN202311311592.4A CN202311311592A CN117333901A CN 117333901 A CN117333901 A CN 117333901A CN 202311311592 A CN202311311592 A CN 202311311592A CN 117333901 A CN117333901 A CN 117333901A
- Authority
- CN
- China
- Prior art keywords
- clothes
- clothing
- loss
- picture
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 230000007246 mechanism Effects 0.000 claims abstract description 4
- 238000011176 pooling Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000644 propagated effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 15
- 238000013135 deep learning Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008859 change Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 101000611614 Homo sapiens Proline-rich protein PRCC Proteins 0.000 description 2
- 102100040829 Proline-rich protein PRCC Human genes 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005021 gait Effects 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉及深度学习领域,具体是一种基于衣服统一和多样融合的换衣行人重识别方法,包括以下步骤:通过语义分割模型得到图像人体语义分割图,得到衣服—致性和多样性的图片,以此作为网络输入,进行训练后得到衣服一致性特征、衣服多样性特征、原图特征;使用设计的富尺度注意力机制来进行提取非衣服的人体特征;通过ResNet50网络模型提取的原图特征,与上半身非衣服特征进行融合;联合损失函数约束网络进行训练;利用训练好的模型提取特征进行检索匹配。本发明可以使模型在辨别行人时不依赖于衣服颜色纹理等外观特征,在相关的换衣行人重识别数据集中达到了优异的效果。
Description
技术领域
本发明涉及计算机视觉及深度学习技术领域,尤其涉及一种基于衣服统一和多样融合的换衣行人重识别方法。
背景技术
行人重识别是一种计算机视觉任务,其主要目标是在不同的摄像头或场景中,识别和重新识别同一个行人的身份。是一个图像检索的问题。当同一个行人在不同的摄像头或场景中出现时,系统需要重新识别该行人的身份。这通常涉及在数据库中搜索与当前行人特征相似的特征,并确定其身份。行人重识别目前在智慧城市、智能安防、人机交互等方面发挥着很重要的作用。它可以用于监视区域内的行人流动、追踪犯罪嫌疑人、改善交通管理等方面。近几年随着深度学习的发展,行人重识别问题更加引人关注。总之,行人重识别旨在通过比较行人的外貌特征来确定其身份,克服了在不同场景和时间捕捉到的行人图像之间的差异,以实现在各种应用中的行人身份验证和跟踪需求。
换衣行人重识别是随着行人重识别的发展,研究者们发现,犯罪嫌疑人在作案之后,通常会通过改变衣服和裤子,或者戴口罩、帽子的做法来躲避摄像头的追捕。这就使得之前行人重识别的算法,在换衣领域算法性能大幅度降低,换衣问题也被逐渐重视,这样就使得研究者关注如何提取非衣服的人体特征,目前有改变行人衣服、通过GAN对行人的衣服进行改变,提取非衣服特征,也有通过3D、轮廓等高级特征来进行特征提取,从而进行换衣行人重识别研究。
目前换衣行人重识别领域的学者主要对轮廓、步态、3D等非衣服特征进行研究,但是由于这些特征往往对于生成3D、轮廓、步态信息的模型依赖很大。随着Mask RCNN等分割网络和Dense Pose等姿态估计网络越来越精进,可以得到准确的行人身体区域的分割掩码,甚至精确获得更细粒度的每个人体部件的区域。这对于换衣行人重识别问题的解决也提供了新的思路。
因此,针对上述问题,本发明提出了一种基于衣服统一和多样融合的换衣行人重识别方法来解决上述问题。
发明内容
本发明针对现有技术的不足,提出了基于衣服统一和多样融合的换衣行人重识别方法,该发明可以使模型在辨别行人时不依赖于衣服颜色纹理等外观特征,在相关的换衣行人重识别数据集中达到了优异的效果。
本发明解决技术问题的技术方案为:本发明提供了一种基于衣服统一和多样融合的换衣行人重识别方法,包括以下步骤:
S1.通过语义分割模型得到图像人体语义分割图,得到衣服—致性和多样性的图片,以此作为网络输入,进行训练后得到衣服一致性特征、衣服多样性特征、原图特征;
S2.使用设计的富尺度注意力机制来进行提取非衣服的人体特征:
将从S1中提取到的衣服一致性图片的特征分成四块,将第一块进行卷积之后和第二块进行相加,将第二块进行卷积之后和第三块进行相加,第三块进行卷积之后和第四块进行相加,通过加权特征向量对所述特征图的通道特征进行重新赋权重使模型更关注非衣服区域的人体特征,然后将此特征通过最大池化层,得到非衣服的人体特征,非衣服的人体特征分为两部分,一部分是保留下的上半身非衣服的人体特征,另一部分是丢弃掉的下半身非衣服的人体特征;
S3.通过ResNet50残差网络模型提取的原图特征,与上半身非衣服特征进行融合:
将原图放入ResNet50模型中进行特征提取,通过将提取到的特征与上半身非衣服特征进行融合对原图的泛化特征中上身区域进行弱化,使得非衣服的人体特征被反向增强,然后将被反向增强了的非衣服的人体特征经过全连接层进行分类损失计算;
S4.联合损失函数约束网络进行训练:
在网络中设置三条链路,第一条通过使用参数独立的ResNet50模型来学习与衣服无关的人体特征,通过第二条链路学习原图的全局特征来用于行人检索,通过第三条链路学习弱化衣服和背景特征,然后通过损失函数进行联合训练,将损失函数分为四部分,一部分是三元组损失,一部分是分类损失,一部分是均方差损失,另一部分是自适应欧氏距离损失,计算后将四部分损失相加进行联合训练得到更加精确地全局特征用于行人相似度匹配;
S5.利用训练好的模型提取特征进行检索匹配:
将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。
S1中利用人体语义分割算法,预先获得对应图像18个人体部件将这18个部件融合后分为:衣服和非衣服,并且只将衣服区域置黑,利用融合后的标签定位到衣服区域,并生成相应的二值化掩码,并且与原图像进行元素间的点乘操作,以此来屏蔽衣服信息,从而获得一个服装区域被掩盖的图像,得到衣服一致性图片;将衣服区域进行随机打码,将背景区域进行置0,得到衣服多样性图片;将衣服一致性图片、原图、衣服多样性图片输入到骨干网络中,其中原图和衣服多样性图片的骨干网络参数共享,衣服一致性图片输入的骨干网络参数独享,分别得到三个全局特征:衣服一致图片特征、原图特征、衣服多样性特征;
S1中具体用到的公式如下
Fa=ResNet50(A)
Fb=ResNet50(B)
Fc=ResNet50(C)
其中,A是衣服一致图片,B是原图图片,C是衣服多样性图片,ResNet是特征提取骨干网络,Fa是衣服一致图片特征,Fb是原图特征,Fc是衣服多样性特征。
S2中具体用到的公式如下:
fw=concat(f1,f′2,f′3,f′4)
Fw=mp(F2(F1(avg(fw))))
其中,卷积conv1、conv2、conv3均为卷积核是3*3,填充是1的卷积操作;avg是平均池化,F1是降权操作,F2是加权操作,mp是最大池化操作,池化核为12*8,是相加,concat是将特征沿着通道维度进行拼接,f1,f2,f3,f4是将衣服一致性图片的特征Fa按照水平方向等分分成四块后图片特征。
S3中具体用到的公式如下:
其中,F′b是融合之后的特征,Fw是上半身非衣服特征,Fb是原图特征,是相加,是外积。
S4中具体用到的公式如下:
Ltotal=Lglobal+Lid+Lems+Fsc
其中,Ltotal是整个网络损失,Lid是分类损失,Lglobal是作为度量损失的三元损失,Lems是作为自适应的欧式距离损失,Fsc是原图特征Fb和衣服多样性特征Fc做均方差损失后的和;
其中,b是训练批次的大小,p()是输入对象Ii的预测概率,yi是其对应的行人类别标签;
其中,fa、fp、fn分别为从anchor、positive、negative图像中提取的特征,这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人;α是边界超参数,max是取最大值,min是取最小值,P是每批次训练的类别个数,K是每个类别的图像张数,[]+是指[]内值大于0时,取该值为损失,小于0时,损失为0;
其中,x1i和x2i分别是上半身非衣服特征Fw和衣服多样性Fc的特征,θ是一个动态阈值,N是样本对数量;
Lsem为均方差损失,b是训练批次的大小,||*||2代表范化,Fb是原图特征,Fa是衣服一致图片特征,Fc是衣服多样特征。
S5中具体用到的公式如下:
其中,I1和I2为两张输入图像,为两张图像的欧氏距离,/>和/>为通过网络前向传播得到的它们对应的特征向量。
上述技术方案具有如下优点或有益效果:
1)针对行人换衣问题,提出衣服一致网络来学习泛化的行人外观特征,使模型在辨别行人时不依赖于衣服颜色纹理等外观特征。
2)通过ResNet50网络模型提取的原图特征,与上半身非衣服特征进行融合,增加了样本的多样性,并且弱化了背景区域特征。
3)将衣服一致性和多样性经过合理的融合之后,使得模型更加关注于更加准确度非衣服的前景信息。
4)本文发明的基于衣服屏蔽网络的人体高级语义换衣行人重识别方法,在相关的换衣行人重识别数据集中达到了优异的效果。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明的流程图。
图2为本发明设计的基于衣服统一和多样融合的换衣行人重识别方法网络框架图。
图3为行人换衣示例。
图4为PRCC数据集上本发明的检索结果。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1至图4所示,本发明提供了一种基于衣服统一和多样融合的换衣行人重识别方法,包括以下步骤:
S1.通过语义分割模型得到图像人体语义分割图,得到衣服—致性和多样性的图片,以此作为网络输入,进行训练后得到衣服一致性特征、衣服多样性特征、原图特征;
S2.使用设计的富尺度注意力机制来进行提取非衣服的人体特征:
将从S1中提取到的衣服一致性图片的特征分成四块,将第一块进行卷积之后和第二进行相加,将第二块进行卷积之后和第三块进行相加,第三块进行卷积之后和第四块进行相加,通过加权特征向量对所述特征图的通道特征进行重新赋权重使模型更关注非衣服区域的人体特征,然后将此特征通过最大池化层,得到非衣服的人体特征,非衣服的人体特征分为两部分,一部分是保留下的上半身非衣服的人体特征,另一部分是丢弃掉的下半身非衣服的人体特征;
S3.通过ResNet50残差网络模型提取的原图特征,与上半身非衣服特征进行融合:
将原图放入ResNet50模型中进行特征提取,通过将提取到的特征与上半身非衣服特征进行融合对原图的泛化特征中上身区域进行弱化,使得非衣服的人体特征被反向增强,然后将被反向增强了的非衣服的人体特征经过全连接层进行分类损失计算;
S4.联合损失函数约束网络进行训练:
在网络中设置三条链路,第一条通过使用参数独立的ResNet50模型来学习与衣服无关的人体特征,通过第二条链路学习原图的全局特征来用于行人检索,通过第三条链路学习弱化衣服和背景特征,然后通过损失函数进行联合训练,将损失函数分为四部分,一部分是三元组损失,一部分是分类损失,一部分是均方差损失,另一部分是自适应欧氏距离损失,计算后将四部分损失相加进行联合训练得到更加精确地全局特征用于行人相似度匹配;
S5.利用训练好的模型提取特征进行检索匹配:
将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。
其中,S1中具体通过利用人体姿态估计中常用的语义分割算法,预先获得对应图像的部件语义分割图像,得到的语义分割图后,将图像的上身信息进行掩码置黑,得到衣服一致性图片;将上衣进行随机性打码,并且将背景进行一致性打码,得到衣服多样性图片,以此作为网络输入,进行训练后得到衣服一致性特征,衣服多样性特征,原图特征;
通过利用人体语义分割算法,预先获得对应图像18个人体部件,对应图像的18个人体部件图为:“背景”,“帽子”,“头发”,“太阳镜”,“上衣”,“裙子”,“裤子”,“连衣裙”,“腰带”,“左脚”,“右脚”,“脸”,“左腿”,“右腿”,“左胳膊”,“右胳膊”,“包”,“围巾”,将这18个部件融合后分为:衣服、背景,其他;先将衣服部分进行屏蔽,其余部分不变,利用融合后的标签定位到衣服区域,并生成相应的二值化掩码,并且与原图像进行元素间的点乘操作,以此来屏蔽衣服信息,从而获得一个服装区域被掩盖的图像,得到衣服一致性图片;同理可以将衣服区域进行随机打码,将背景区域进行置0,得到衣服多样性图片;将衣服一致性图片、原图、衣服多样性图片输入到骨干网络中,其中原图和衣服多样性图片的骨干网络参数共享,衣服一致性图片输入的骨干网络参数独享;分别得到三个全局特征:衣服一致图片特征、原图特征、衣服多样性特征,骨干网络使用ResNet50网络模型,在ImageNet图像网络数据集进行预训练;
S1中具体用到的公式如下:
Fa=ResNet50(A)
Fb=ResNet50(B)
Fc=ResNet50(C)
其中,A是衣服一致图片,B是原图图片,C是衣服多样性图片,ResNet是特征提取骨干网络,Fa是衣服一致图片特征,Fb是原图特征,Fc是衣服多样性特征。
S2中具体用到的公式如下:
fw=concat(f1,f′2,f′3,f′4)
Fw=mp(F2(F1(avg(fw))))
其中,卷积conv1、conv2、conv3均为卷积核是3*3,填充是1的卷积操作;avg是平均池化,F1是降权操作,F2是加权操作,mp是最大池化操作,池化核为12*8,⊕是相加,concat是将特征沿着通道维度进行拼接,f1,f2,f3,f4是将衣服一致性图片的特征Fa按照水平方向等分分成四块后图片特征。
S3中具体用到的公式如下:
其中,F′b是融合之后的特征,Fw是上半身非衣服特征,Fb是原图特征,是相加,/>是外积。
S4具体通过联合损失函数约束网络进行训练,在网络中设置三条链路,第一条链路使用参数独立的ResNet50模型,来学习与衣服无关的人体特征,第二条链路学习原图的全局特征,第三条链路学习的是弱化衣服和背景的特征,本发明使用第二条链的全局特征用于行人检索;损失函数分为四部分,一部分是ResNet50所提取的全局特征做三元组损失,让其作为度量损失,用于拉近类内特征距离,拉远类间特征距离;一部分对全局特征进行全连接层后的特征做分类损失;一部分是均方差损失:将原图分别与衣服一致性特征,以及衣服多样特征分别进行均方差损失;第四部分是自适应欧氏距离损失:使用上半身非衣服特征和衣服多样性特征,去计算自适应的欧氏距离损失,将两个特征进行自适应拉近;并且将三个全局特征以及上半身非衣服特征分别经过全连接层,得到分类特征,使用此特征来计算此特征的分类损失,为了能够减少SCHP分割模型对于背景区域置黑的误差,将上半身非衣服特征和全局特征进行自适应的欧式距离损失函数计算;四部分损失相加进行联合训练,从而得到更加精确的全局特征用于行人相似度匹配;
本发明通过设计自适应的欧氏距离损失函数,这个损失函数是使每对样本的特征向量之间的欧氏距离(减去动态阈值)大于等于零,然后取平方,并将所有样本对的损失取平均值,这样损失函数鼓励模型使相似样本之间的距离小于动态阈值,同时保持不相似样本之间的距离大于等于零;以此来减弱SCHP分割背景区域所带来的噪声;通过反向传播和优化,模型可以学习适应不同数据分布和任务的动态阈值,以最小化这个损失函数;
同时使用均方差损失来拉近源图特征和黑色衣服特征,目的是为了将原图特征和黑衣特征进行拉近,来弱化原图特征中的衣服特征,同时弥补SCHP语义分割模型带来的噪声;
通过训练使两个特征的空间距离尽可能缩小,从而使衣服改变前后的有效语义信息保持一致;最终将这四部分损失进行加权求和,让模型学习更加精确的人体非衣服特征;
S4中具体用到的公式如下:
Ltotal=Lglobal+Lid+Lems+Fsc
其中,Ltotal是整个网络损失,Lid是分类损失,Lglobal是作为度量损失的三元损失,Lems是作为自适应的欧式距离损失,Fsc是原图特征Fb和衣服多样性特征Fc做均方差损失后的和;
其中,b是训练批次的大小,p()是输入对象Ii的预测概率,yi是其对应的行人类别标签;
其中,fa、fp、fn分别为从anchor、positive、negative图像中提取的特征,这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人;α是边界超参数,max是取最大值,min是取最小值,P是每批次训练的类别个数,K是每个类别的图像张数,[]+是指[]内值大于0时,取该值为损失,小于0时,损失为0;
其中,x1i和x2i分别是上半身非衣服特征Fw和衣服多样性Fc的特征,θ是一个动态阈值,N是样本对数量;
Lsem为均方差损失,b是训练批次的大小,||*||2代表范化,Fb是原图特征,Fa是衣服一致图片特征,Fc是衣服多样特征。
S5具体通过利用训练好的深度学习模型用于提取行人的全局特征,将此特征用于检索匹配,具体来讲,将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;计算出待检索图像和检索库中各个行人图像的欧氏距离,按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,既将相似度较高的移至检索序列前部,将相似度较低的检索结果放置检索序列的尾部,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果;这样通过对检索模型的检索平均准确率mAP,和排列rank-n表示前n位是否命中,这两个指标来评价模型的好坏;
S5中具体用到的公式如下:
其中,I1和I2为两张输入图像,为两张图像的欧氏距离,/>和/>为通过网络前向传播得到的它们对应的特征向量。
实施例二
下表为使用仅将衣服置黑和将全身衣物置黑以及上身黑下身白的实验结果。其中,mAP表示所有被检索模型的检索平均准确率,rank-1表示第一位命中。
实施例三
为了证明本发明的有效性,在公开的换衣行人重识别数据集PRCC和LTCC上进行了实验。实验的评价使用的是mAP和rank-1。其中,mAP表示所有被检索模型的检索平均准确率,rank-1表示第一位命中,CCIL是2023年CVPR会议最新提出的用于换衣行人重识别的方法,CC-ReID是2022年CVPR会议提出的用于换衣行人重识别的方法。
不同算法与本发明方法的性能比较如图4所示,从图中可以看出,本发明提出的基于衣服屏蔽网络的多粒度换衣行人重识别方法具有优良的性能。
从上述技术方案可知,本发明提供了一种基于衣服统一和多样融合的换衣行人重识别方法,通过改进的衣服一致性方法使得模型更加关注非衣服特征,特征经过设计的富尺度自适应模块提取特征,使得模型更加关注于非衣服的人体特征,并提取上半身非衣服人体特征。将此特征与通过原图提取的特征进行融合,使得原图特征对衣服特征进行脱敏。通过衣服多样性模块,对衣服区域进行随机打码,增加衣服多样性,并且将背景区域进行一致性处理,通过设计的损失函数与原图特征进行损失计算,使的模型弱化了背景区域与衣服区域特征,从而更加关注于人体非衣服特征,解决了直接使用语义分割模型所带来的噪声问题,同时也很好的解决了换衣问题。
上述虽然结合附图对发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (6)
1.一种基于衣服统一和多样融合的换衣行人重识别方法,其特征是,包括以下步骤:
S1.通过语义分割模型得到图像人体语义分割图,得到衣服—致性和多样性的图片,以此作为网络输入,进行训练后得到衣服一致性特征、衣服多样性特征、原图特征;
S2.使用设计的富尺度注意力机制来进行提取非衣服的人体特征:
将从S1中提取到的衣服一致性图片的特征分成四块,将第一块进行卷积之后和第二块进行相加,将第二块进行卷积之后和第三块进行相加,第三块进行卷积之后和第四块进行相加,通过加权特征向量对所述特征图的通道特征进行重新赋权重使模型更关注非衣服区域的人体特征,然后将此特征通过最大池化层,得到非衣服的人体特征,非衣服的人体特征分为两部分,一部分是保留下的上半身非衣服的人体特征,另一部分是丢弃掉的下半身非衣服的人体特征;
S3.通过ResNet50残差网络模型提取的原图特征,与上半身非衣服特征进行融合:
将原图放入ResNet50模型中进行特征提取,通过将提取到的特征与上半身非衣服特征进行融合对原图的泛化特征中上身区域进行弱化,使得非衣服的人体特征被反向增强,然后将被反向增强了的非衣服的人体特征经过全连接层进行分类损失计算;
S4.联合损失函数约束网络进行训练:
在网络中设置三条链路,第一条通过使用参数独立的ResNet50模型来学习与衣服无关的人体特征,通过第二条链路学习原图的全局特征来用于行人检索,通过第三条链路学习弱化衣服和背景特征,然后通过损失函数进行联合训练,将损失函数分为四部分,一部分是三元组损失,一部分是分类损失,一部分是均方差损失,另一部分是自适应欧氏距离损失,计算后将四部分损失相加进行联合训练得到更加精确地全局特征用于行人相似度匹配;
S5.利用训练好的模型提取特征进行检索匹配:
将所述待检索图像与检索库中的各个行人图像进行逐一匹配并获取相似性;按照相似性从高到低的顺序对所述检索库中各个行人图像进行排列,并将相似性最高的行人图像作为待处理的行人图像对应的识别结果。
2.根据权利要求1所述的基于衣服统一和多样融合的换衣行人重识别方法,其特征是:S1中利用人体语义分割算法,预先获得对应图像18个人体部件将这18个部件融合后分为:衣服和非衣服,并且只将衣服区域置黑,利用融合后的标签定位到衣服区域,并生成相应的二值化掩码,并且与原图像进行元素间的点乘操作,以此来屏蔽衣服信息,从而获得一个服装区域被掩盖的图像,得到衣服一致性图片;将衣服区域进行随机打码,将背景区域进行置0,得到衣服多样性图片;将衣服一致性图片、原图、衣服多样性图片输入到骨干网络中,其中原图和衣服多样性图片的骨干网络参数共享,衣服一致性图片输入的骨干网络参数独享,分别得到三个全局特征:衣服一致图片特征、原图特征、衣服多样性特征;
Fa=ResNet50(A)
Fb=ResNet50(B)
Fc=ResNet50(C)
其中,A是衣服一致图片,B是原图图片,C是衣服多样性图片,ResNet是特征提取骨干网络,Fa是衣服一致图片特征,Fb是原图特征,Fc是衣服多样性特征。
3.根据权利要求1所述的基于衣服统一和多样融合的换衣行人重识别方法,其特征是:S2中具体用到的公式如下:
fw=concat(f1,f′2,f′3,f′4)
Fw=mp(F2(F1(avg(fw))))
其中,卷积conv1、conv2、conv3均为卷积核是3*3,填充是1的卷积操作;avg是平均池化,F1是降权操作,F2是加权操作,mp是最大池化操作,池化核为12*8,是相加,concat是将特征沿着通道维度进行拼接,f1,f2,f3,f4将衣服一致性图片的特征Fa按照水平方向等分分成四块后图片特征。
4.根据权利要求1所述的基于衣服统一和多样融合的换衣行人重识别方法,其特征是:S3中具体用到的公式如下:
其中,Fb′是融合之后的特征,Fw是上半身非衣服特征,Fb是原图特征,是相加,/>是外积。
5.根据权利要求1所述的基于衣服统一和多样融合的换衣行人重识别方法,其特征是:S4中具体用到的公式如下:
整个网络的损失函数为:
Ltotal=Lglobal+Lid+Lems+Fsc
其中,Ltotal是整个网络损失,Lid是分类损失,Lglobal是作为度量损失的三元损失,Lems是作为自适应的欧式距离损失,Fsc是原图特征Fb和衣服多样性特征Fc做均方差损失后的和;
其中,b是训练批次的大小,p()是输入对象Ii的预测概率,yi是其对应的行人类别标签;
其中,fa、fp、fn分别为从anchor、positive、negative图像中提取的特征,这里的正样本positive和负样本negative分别是指与锚点图像anchor具有相同和不同身份的行人;α是边界超参数,max是取最大值,min是取最小值,P是每批次训练的类别个数,K是每个类别的图像张数,[]+是指[]内值大于0时,取该值为损失,小于0时,损失为0;
其中,x1i和x2i分别是上半身非衣服特征Fw和衣服多样性Fc的特征,θ是一个动态阈值,N是样本对数量;
Lsem为均方差损失,b是训练批次的大小,||*||2代表范化,Fb是原图特征,Fa是衣服一致图片特征,Fc是衣服多样特征。
6.根据权利要求1所述的基于衣服统一和多样融合的换衣行人重识别方法,其特征是:
S5中具体用到的公式如下:
其中,I1和I2为两张输入图像,为两张图像的欧氏距离,/>和/>为通过网络前向传播得到的它们对应的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311311592.4A CN117333901A (zh) | 2023-10-11 | 2023-10-11 | 基于衣服统一和多样融合的换衣行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311311592.4A CN117333901A (zh) | 2023-10-11 | 2023-10-11 | 基于衣服统一和多样融合的换衣行人重识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117333901A true CN117333901A (zh) | 2024-01-02 |
Family
ID=89275109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311311592.4A Pending CN117333901A (zh) | 2023-10-11 | 2023-10-11 | 基于衣服统一和多样融合的换衣行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117333901A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831081A (zh) * | 2024-03-06 | 2024-04-05 | 齐鲁工业大学(山东省科学院) | 基于换衣数据和残差网络的换衣行人重识别方法及系统 |
-
2023
- 2023-10-11 CN CN202311311592.4A patent/CN117333901A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117831081A (zh) * | 2024-03-06 | 2024-04-05 | 齐鲁工业大学(山东省科学院) | 基于换衣数据和残差网络的换衣行人重识别方法及系统 |
CN117831081B (zh) * | 2024-03-06 | 2024-05-24 | 齐鲁工业大学(山东省科学院) | 基于换衣数据和残差网络的换衣行人重识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios | |
CN107463917B (zh) | 一种基于改进的ltp与二维双向pca融合的人脸特征提取方法 | |
JP2002203239A (ja) | ディジタル画像中で人間の姿を検出する画像処理方法 | |
Fan et al. | Correlation graph convolutional network for pedestrian attribute recognition | |
CN111797813B (zh) | 基于可见感知纹理语义对齐的部分行人重识别方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN117333901A (zh) | 基于衣服统一和多样融合的换衣行人重识别方法 | |
CN116343267B (zh) | 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置 | |
CN111339812A (zh) | 一种基于全部或部分人体结构化特征集的行人识别和再识别的方法、电子设备和存储介质 | |
CN114299542A (zh) | 一种基于多尺度特征融合的视频行人重识别方法 | |
CN113158739B (zh) | 基于注意力机制的孪生网络解决换装行人重识别的方法 | |
Lu et al. | Exploring high-order spatio–temporal correlations from skeleton for person Re-identification | |
CN114782977A (zh) | 一种基于拓扑信息和亲和度信息引导行人重识别方法 | |
CN115205903B (zh) | 一种基于身份迁移生成对抗网络的行人重识别方法 | |
Li et al. | Cross-scenario clothing retrieval and fine-grained style recognition | |
Liu et al. | Co-saliency spatio-temporal interaction network for person re-identification in videos | |
Li et al. | Cocas+: Large-scale clothes-changing person re-identification with clothes templates | |
Pang et al. | Analysis of computer vision applied in martial arts | |
CN114359962A (zh) | 一种姿态识别方法、装置及可读存储介质 | |
CN113420697A (zh) | 基于表观和形状特征的换装视频行人重识别方法及系统 | |
Tian et al. | End-to-end thorough body perception for person search | |
KR101107308B1 (ko) | 영상 검색 및 인식 방법 | |
CN113469221B (zh) | 身份识别模型的训练方法和身份识别方法以及相关设备 | |
Nguyen et al. | Facial Landmark Detection with Learnable Connectivity Graph Convolutional Network | |
Pan et al. | Attribute-guided global and part-level identity network for person re-identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |