CN115100684A - 基于姿态与样式归一化的换衣行人重识别方法 - Google Patents

基于姿态与样式归一化的换衣行人重识别方法 Download PDF

Info

Publication number
CN115100684A
CN115100684A CN202210751588.9A CN202210751588A CN115100684A CN 115100684 A CN115100684 A CN 115100684A CN 202210751588 A CN202210751588 A CN 202210751588A CN 115100684 A CN115100684 A CN 115100684A
Authority
CN
China
Prior art keywords
pedestrian
features
posture
appearance
clothes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210751588.9A
Other languages
English (en)
Inventor
成科扬
梁赛
司宇
张海烽
严浏阳
沈维杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Zhaoshi Intelligent Technology Co ltd
Zhenjiang Zhaoyuan Intelligent Technology Co ltd
Jiangsu University
Original Assignee
Nanjing Zhaoshi Intelligent Technology Co ltd
Zhenjiang Zhaoyuan Intelligent Technology Co ltd
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Zhaoshi Intelligent Technology Co ltd, Zhenjiang Zhaoyuan Intelligent Technology Co ltd, Jiangsu University filed Critical Nanjing Zhaoshi Intelligent Technology Co ltd
Priority to CN202210751588.9A priority Critical patent/CN115100684A/zh
Publication of CN115100684A publication Critical patent/CN115100684A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于姿态与样式归一化的换衣行人重识别方法。该方法首先引入姿态服装互换模型,利用生成对抗网络将身穿不同服装的同一ID的两张图像进行服装与姿态的互换。然后,通过样式归一化模块对图像进行样式擦除并利用内容注意力模块对丢失内容中的干扰特征和有用特征进行提取,从而保证特征的鲁棒性。最后,采用双通道特征融合模型进行行人匹配,将行人的局部语义特征与全局特征进行融合,通过欧氏距离度量,输出行人的身份信息。本发明公开的换衣行人重识别方法能够解决换衣场景下无法进行换衣行人识别的问题。

Description

基于姿态与样式归一化的换衣行人重识别方法
技术领域
本发明涉及计算机视觉、模式识别等技术领域,主要涉及的是监控视频中行 人的身份重识别,它在预防犯罪、智慧城市和社会治安等方面具有广泛的应用。
背景技术
行人重识别作为智慧城市中一个非常重要的应用,在计算机视觉领域中被广 泛研究。早期行人重识别主要通过手工构建行人特征或者距离度量学习。随着深 度学习在计算机视觉领域的广泛应用,基于深度学习的行人重识别技术开始迅速 发展,并且在封闭世界环境中取得了良好的性能。
基于深度学习的行人重识别方法主要针对姿态、光照、背景噪声等问题进行 研究的,其中Qian等人在2018年提出了一种基于生成对抗网络的姿态归一化方 法,但是该方法需要OpenPose等第三方辅助工具,增加了网络模型的规模,使 得行人重识别的预处理工作变得复杂。Zheng等人提出的DG-Net虽无需第三方 辅助工具,但其严重依赖于服装外观一致性,其身份信息主要由外观特征为主导, 在姿态互换时强制将衣服相同的不同行人判断为同一行人,这种误判现象会导致 识别精度下降。这些方法只适用于短期捕获的行人再识别场景,限制了行人重识 别在实际场景中的应用。
为了解决模型依赖服装外观一致性的问题,一些研究对换衣行人重识别进行 了初步探索。Li等人在2020年提出了Angle Specific Extractor(ASE)模块来建 模不同通道之间的关系,尝试从行人轮廓的角度进行行人重识别,一定程度上消 除了服装颜色变化带来的影响。虽然行人轮廓短期内可能不会改变,但在长期捕 获行人图像的过程中,其易受服装款式的变化而不再具有鲁棒性。Yu等人提出 了Biometric Drows network(BC-Net)的双分支结构,分别学习行人生物特征和 衣服特征,衣服检测器和特征提取器是分别进行训练的,该方法主要使检索库的 行人换上画廊图库中行人的衣服,从而保证行人匹配过程中服装外观一致性,但 是该方法需要大量繁杂的预处理过程,还需要第三方衣服模板作为辅助数据,大 大增加了行人重识别的工作量。
针对短期捕获的行人重识别技术已经取得了巨大的进展,但是在真实的应用 场景下,短期捕获的行人数据集可能无法适用于换衣场景下的识别需求,因此为 了解决这种问题,提出了一种基于姿态与样式归一化的换衣行人重识别方法。
发明内容
发明目的:在现实场景中,人们往往会在几天内身穿不同衣服,这就导致在 长期捕获行人图像的过程中不同时间不同相机拍摄到的行人可能身穿不同衣服, 而目前的换衣行人重识别仍然停留在实验室阶段,现有行人重识别技术都基于短 期捕获的行人数据集进行研究的,对行人服装一致性具有强烈依赖,无法适用于 换衣场景。因此本发明希望通过将生成对抗网络和归一化技术结合,解决换衣场 景下的行人重识别问题,从而使得行人重识别技术能够真正落到实处,为社会保 障方面节省更多的资源。
1、一种基于姿态与样式归一化的换衣行人重识别方法,其特征在于,包括 以下步骤:
步骤1.1:使用姿态编码器与服装外观编码器对目标图库与检索图库中的行 人进行姿态特征与服装外观特征的提取,并利用解码器进行交叉重建与自我重建。
步骤1.2:将生成的行人图像通过归一化模块进行样式擦除,利用内容注意 力机制恢复因擦除丢失的内容鉴别性特征;
步骤1.3:擦除后的行人特征通过双通道结构将利用姿态估计获取的行人局 部特征和利用主干网络提取的全局特征进行特征融合;
步骤1.4:通过欧氏距离度量,输出行人的身份信息。
2、根据权利要求1所述的一种姿态与样式归一化的换衣行人重识别方法, 其特征在于,所述步骤1.1中行人姿态服装互换的方法如下:
步骤2.1:利用姿态编码器与外观编码器分别对行人的姿态与服装外观进行 特征提取;
步骤2.2:将解耦出的行人姿态特征与服装外观特征交叉组合,利用解码器 生成同一姿态不同服装以及同一服装不同姿态的行人图像;
步骤2.3:通过判别器来判断生成的图像是否逼真,并采用对抗性损失来匹 配生成图像的分布与实际数据分布,其中对抗约束如下:
Figure BDA0003721179540000031
其中xi∈Dquery,Dquery={xi|i=1,2,...,n},Dquery是指query里的目标行人数 据集,其中n是数据集中的样本数量。D是判别器,G是生成器,fi p,
Figure BDA0003721179540000032
分别 代表xi的姿态特征和xj的服装外观特征,其中xj∈Dgallery,Dgallery是指gallery里 的行人数据集,同理,gallery库里的行人生成亦是如此。
3、根据权利要求2所述的行人姿态服装互换方法,其特征在于,步骤2.2 中姿态服装特征交叉生成的方法为:
步骤3.1:利用姿态编码器和服装外观编码器提取姿态特征和服装外观特征, 在提取姿态特征时将原始图像转化为灰度图,使得网络在提取姿态特征时更倾向 于空间结构特征,从而确保提取的姿态特征不包含其他噪声。
步骤3.2:将提取到的姿态特征与服装外观特征交叉融合后进行图像生成, 并对生成的图像进行二次编码,利用重建损失对解耦出的特征进行约束,重建损 失如下:
Figure BDA0003721179540000033
其中Ep是指姿态编码器,Ea是服装外观编码器,
Figure BDA0003721179540000034
是对原始图像xi中的姿态特征fi p与生成图像所解耦出的姿态特征进行距离计算, 其中fi p=Ep(xi),
Figure BDA0003721179540000035
同理,
Figure BDA0003721179540000036
是对原始图像xj中的服装外观特征
Figure BDA0003721179540000037
与生成图像所解耦出的服装外观特征进行距离计算。
4、根据权利要求1所述的一种基于姿态与样式归一化的换衣行人重识别方 法,其特征在于,所述步骤1.2中通过归一化模块进行样式擦除的方法:
步骤4.1:将生成的一组姿态服装互换行图像通过实例归一化操作进行样式 擦除;
步骤4.2:将输入特征与实例归一化后的特征做差,得到实例归一化过程中 擦除掉的剩余特征;
步骤4.3:采用通道注意力机制从剩余特征中提取内容相关特征;
步骤4.4:将内容相关特征与实例归一化后的的特征进行特征融合,获取不 具有样式风格的行人特征。
5、根据权利要求4所述的步态识别模型,其特征在于,步骤4.3中的基于 通道注意力机制的内容特征提取方法为:
步骤5.1:将每个通道的d=h×w维特征向量作为一个特征节点,从而形成 一个具有c个节点的图Gc,每个特征节点与其它节点的关系通过嵌入函数映射 到亲和矩阵
Figure BDA0003721179540000041
步骤5.2:将每一行节点的关系向量表示为
Figure BDA0003721179540000042
每一列节点的关系 向量表示为
Figure BDA0003721179540000043
将其在空间上进行展平,然后使用1X1卷积层进行批量归一化, 通过ReLU激活来执行映射变换,从而实现节点关系的嵌入,并获得通道注意力α,其表示 为:
α=g(Di)=σ(W2δ(W1 pool(Di)))
其中δ(·),σ(·)分别表示ReLU激活函数和sigmoid激活函数,
Figure BDA0003721179540000044
Figure BDA0003721179540000045
Di是指剩余特征,Di=Fi-Fi=Fi-IN(Fi),IN是实例归一化操作,Fi是 输入的原始特征,Fi是进行实例归一化后的特征。
步骤5.3:将剩余特征与通道注意力结合从而获得内容相关特征Di +,将内容相 关特征与实例归一化特征连接,从而获取不具有样式风格的鲁棒行人特征。
本发明的有益结果:
在短期捕获的行人重识别技术的基础上,结合生成对抗网络和归一化的相关 技术,提出了一种换衣重识别的解决方案,极大地提高了换衣重识别技术落实到 实际应用中的可能性。
附图说明
图1是本发明所述的基于姿态与样式归一化的换衣行人重识别方法的核心 结构示意图;
图2是基于姿态与样式归一化的行人识别整体模型意图;
图3是姿态服装互换模型示意图;
图4是样式归一化模型示意图;
图5是特征融合模块示意图;
图6是双通道特征融合示意图。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1、图2所示,本发明所述的基于姿态与样式归一化的换衣行人重识别 方法,具体过程如下:
步骤1:从query和gallery库中分别选取目标行人和图库行人,传输至姿态 服装互换模型,获得相应的姿态服装互换图像,其中姿态服装互换模型如图3 所示:
步骤1.1:为了提取行人的姿态与服装外观特征,分别利用姿态编码器 和服装外观编码器进行潜在编码,其中姿态编码器是浅层网络,先经过四个卷积 层进行特征提取,然后接着四个跳跃连接块,其中每个卷积层的输入输出通道都 为256,卷积核的大小为3x3,步幅和填充都为1,随后进行组归一化并采用线 性整流函数作为激活函数。在进行姿态编码时先对原始输入图像1×256×128进 行灰度化操作即通道数设为1,并经过两个下采样层,防止外观信息进行干扰, 姿态编码器输出的姿态特征尺寸为128×64×32;服装外观编码器则是利用在 ImageNet上预训练好的ResNet50进行改进,其中删除了全局平均池化层和完全 连接层,取而代之的是最大池化层,输出的服装外观代码尺寸为2048×4×1。
步骤1.2:将解耦出的姿态与服装外观特征进行交叉生成,生成器对姿态特 征进行四个残差块和四个卷积层处理并进行两次上采样,每个残差块包含两个 IN层,整合了服装外观代码的尺度和偏置参数。
步骤1.3:生成后的图像组传输至判别器,判别器可对64×32,128×64,256×128的图像进行信息判别,并利用生成对抗损失进行约束,使生成图像拟合真实图像 数据分布,生成对抗损失如下:
Figure BDA0003721179540000051
其中xi∈Dquery,Dquery={xi|i=1,2,...,n},Dquery是指query里的目标行人数 据集,其中n是数据集中的样本数量。D是判别器,G是生成器,fi p,
Figure BDA0003721179540000052
分别 代表xi的姿态特征和xj的服装外观特征,其中xj∈Dgallery,Dgallery是指gallery里 的行人数据集。
步骤1.4:对生成图像再次进行姿态与服装外观进行编码,计算生成图像的 特征与原始图像的特征距离,并对解耦出的姿态与外观特征进行重建损失约束, 其中重建损失如下:
Figure BDA0003721179540000061
Figure BDA0003721179540000062
其中
Figure BDA0003721179540000063
分别是对姿态特征与服装外观特征进行重建约束,
Figure BDA0003721179540000064
是对由fi p,
Figure BDA0003721179540000065
组成的行人图像进行姿态特征提取,计算原始图像 中的姿态特征与生成的姿态特征的特征距离,同理,
Figure BDA0003721179540000066
是对由fi p,
Figure BDA0003721179540000067
fi p,
Figure BDA0003721179540000068
组成的行人图像进行服装外观特征提取并计算其与原始图像的服装外观 特征之间的距离。
步骤2:将步骤1获得的姿态、服装外观特征交叉组合之后,生成同一姿态 不同服装以及同一服装不同姿态的同一ID图像。由于生成的图像由两张不同图 像的潜在编码组合而成,在解码过程中会产生行人以外的噪声,将生成的图像与 原始图像一起放入样式归一化模型中,统一进行样式擦除操作,其中样式归一化 模型结构如图4所示:
步骤2.1:引入实例归一化对每个通道上空间位置的特征进行归一化, 保留空间结构,减少图像之间的样式差异,实例归一化过程可以表示为:
Figure BDA0003721179540000069
其中μ(·)代表每个通道和每个样本在空间维度上独立计算的平均值,σ(·)代表每个通道和每个样本在空间维度上独立计算的标准偏差。γ,β是从数据训练 中学习得到的参数。
步骤2.2:将实例归一化后的特征与原始图像做差,从而获取剩余特征,即 Di=Fi-Fi=Fi-IN(Fi)。通过内容注意力机制模块将剩余特征中的相关特征进 行提取,其中内容注意力机制是通过学习通道注意力实现,将每个通道的d=h×w维特征向量作为一个特征节点,从而形成一个具有c个节点的图Gc,每个特 征节点与其它节点的关系通过嵌入函数映射到亲和矩阵
Figure BDA0003721179540000071
将每一行节 点的关系向量表示为
Figure BDA0003721179540000072
每一列节点的关系向量表示为
Figure BDA0003721179540000073
将 其在空间上进行展平,然后使用1X1卷积层进行批量归一化,通过ReLU激活来 执行映射变换,从而实现节点关系的嵌入,并获得通道注意力α,其表示为:
α=g(Di)=σ(W2δ(W1 pool(Di)))
其中δ(·),σ(·)分别表示ReLU激活函数和sigmoid激活函数,
Figure BDA0003721179540000074
Figure BDA0003721179540000075
步骤2.3:将提取到的内容相关特征与归一化后的特征进行连接,获取不具 有样式风格的鲁棒行人特征。利用恢复损失来提高特征的鲁棒性,损失如下:
Figure BDA0003721179540000076
Figure BDA0003721179540000077
其中H(·)=-p(·)logp(·),Softplus(·)=ln(1+exp(·)),
Figure BDA0003721179540000078
是对内容相关特征 进行约束,
Figure BDA0003721179540000079
则是对内容无关特征进行约束,从而确保从剩余特征中解耦出的 相关性特征具有关联性。
步骤3:将每个图像的局部特征与全局特征进行特征融合,采用双通道结构 进行身份信息预测与距离度量,双通道特征融合模型如图5所示:
步骤3.1:将原始图像、同一姿态不同服装以及同一服装不同姿态的图像作 为一组放入双通道结构,其中每一张图像都进行全局-局部特征融合,特征融合 模块如图6所示。对每一张图,经过4个ConvBlock+SN块并通过全局平局池化 (GAP)操作获得全局特征。
步骤3.2:为了获取行人的局部语义特征,我们首先使用姿态估计模型来得 到行人的关键点热度图,然后通过对关键点进行矩阵广播和全局平均池化操作来 获取人体局部特征Fl,最后将全局特征Fg与局部特征Fl concatenate在一起, 并使用三元组损失进行约束:
Figure BDA00037211795400000710
其中
Figure BDA0003721179540000081
分别表示正样本与负样本,β是margin。
步骤3.3:如图5,为了提高双通道特征融合的性能,我们使用距离度量d 方法来评估图像之间的相似性,并使用距离损失和分类损失进行约束:
Figure BDA0003721179540000082
Figure BDA0003721179540000083
其中f代表全连接层,
Figure BDA0003721179540000084
分别表示
Figure BDA0003721179540000085
xi经过特征融合模 型得到的特征,我们使用
Figure BDA0003721179540000086
来表示生成的图像
Figure BDA0003721179540000087
与xi具有相同姿态不同 服装,用
Figure BDA0003721179540000088
表示
Figure BDA0003721179540000089
与xi具有相同服装不同姿态。需要注意的是,我们分 别对
Figure BDA00037211795400000810
进行距离度量而非对所有图像之间进行距离计算,这 样可以更好地减少姿态和服装对行人匹配带来的影响。距离度量损失设计如下:
Figure BDA00037211795400000811
Figure BDA00037211795400000812
分类损失设计:
Lcls=-log(Fg)
总体而言,基于姿态与样式归一化的换衣行人重识别模型对目标数据集 Market-1501进行训练,将训练批次设为64,训练周期为60,使用Adam优化 器,一阶矩估计的指数衰减率为0.5,二阶矩估计的指数衰减率为0.5,初始学 习率设为0.1,最后利用损失函数对识别误差与精度进行约束,直至完全收敛。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具 体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的 等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于姿态与样式归一化的换衣行人重识别方法,其特征在于,包括以下步骤:
步骤1.1:使用姿态编码器与服装外观编码器对目标图库与检索图库中的行人进行姿态特征与服装外观特征的提取,并利用解码器进行交叉重建与自我重建。
步骤1.2:将生成的行人图像通过归一化模块进行样式擦除,利用内容注意力机制恢复因擦除丢失的内容鉴别性特征;
步骤1.3:擦除后的行人特征通过双通道结构将利用姿态估计获取的行人局部特征和利用主干网络提取的全局特征进行特征融合;
步骤1.4:通过欧氏距离度量,输出行人的身份信息。
2.根据权利要求1所述的一种姿态与样式归一化的换衣行人重识别方法,其特征在于,所述步骤1.1中行人姿态服装互换的方法如下:
步骤2.1:利用姿态编码器与外观编码器分别对行人的姿态与服装外观进行特征提取,其中姿态编码器是浅层网络,先经过四个卷积层进行特征提取,然后接着四个跳跃连接块,其中每个卷积层的输入输出通道都为256,卷积核的大小为3x3,步幅和填充都为1,随后进行组归一化并采用线性整流函数作为激活函数。在进行姿态编码时先对原始输入图像1×256×128进行灰度化操作即通道数设为1,并经过两个下采样层,防止外观信息进行干扰,姿态编码器输出的姿态特征尺寸为128×64×32;服装外观编码器则是利用在ImageNet上预训练好的ResNet50进行改进,其中删除了全局平均池化层和完全连接层,取而代之的是最大池化层,输出的服装外观代码尺寸为2048×4×1。
步骤2.2:将解耦出的行人姿态特征与服装外观特征交叉组合,利用解码器生成同一姿态不同服装以及同一服装不同姿态的行人图像;
步骤2.3:通过判别器来判断生成的图像是否逼真,并采用对抗性损失来匹配生成图像的分布与实际数据分布,其中对抗约束如下:
Figure FDA0003721179530000011
其中xi∈Dquery,Dquery={xi|i=1,2,...,n},Dquery是指query里的目标行人数据集,其中n是数据集中的样本数量。D是判别器,G是生成器,fi p,
Figure FDA0003721179530000012
分别代表xi的姿态特征和xj的服装外观特征,其中xj∈Dgallery,Dgallery是指gallery里的行人数据集,
Figure FDA0003721179530000021
fi a分别代表xj的姿态特征和xi的服装外观特征。
3.根据权利要求2所述的行人姿态服装互换方法,其特征在于,步骤2.2中姿态服装特征交叉生成的方法为:
步骤3.1:利用姿态编码器和服装外观编码器提取姿态特征和服装外观特征,在提取姿态特征时将原始图像转化为灰度图,使得网络在提取姿态特征时更倾向于空间结构特征,从而确保提取的姿态特征不包含其他噪声。
步骤3.2:将提取到的姿态特征与服装外观特征交叉融合后进行图像生成,并对生成的图像进行二次编码,利用重建损失对解耦出的特征进行约束,重建损失如下:
Figure FDA0003721179530000022
其中Ep是指姿态编码器,Ea是服装外观编码器,
Figure FDA0003721179530000023
是对原始图像xi中的姿态特征fi p与生成图像所解耦出的姿态特征进行距离计算,其中fi p=Ep(xi),
Figure FDA0003721179530000024
同理,
Figure FDA0003721179530000025
是对原始图像xj中的服装外观特征
Figure FDA0003721179530000026
与生成图像所解耦出的服装外观特征进行距离计算。
4.根据权利要求1所述的一种基于姿态与样式归一化的换衣行人重识别方法,其特征在于,所述步骤1.2中通过归一化模块进行样式擦除的方法:
步骤4.1:将生成的一组姿态服装互换行图像通过实例归一化操作进行样式擦除;
步骤4.2:将输入特征与实例归一化后的特征做差,得到实例归一化过程中擦除掉的剩余特征;
步骤4.3:采用通道注意力机制从剩余特征中提取内容相关特征;
步骤4.4:将内容相关特征与实例归一化后的的特征进行特征融合,获取不具有样式风格的行人特征。
5.根据权利要求4所述的通道注意力机制,其特征在于,步骤4.3中的基于通道注意力机制的内容特征提取方法为:
步骤5.1:将每个通道的d=h×w维特征向量作为一个特征节点,从而形成一个具有c个节点的图Gc,每个特征节点与其它节点的关系通过嵌入函数映射到亲和矩阵
Figure FDA0003721179530000031
步骤5.2:将每一行节点的关系向量表示为
Figure FDA0003721179530000032
每一列节点的关系向量表示为
Figure FDA0003721179530000033
将其在空间上进行展平,然后使用1X1卷积层进行批量归一化,通过ReLU激活来执行映射变换,从而实现节点关系的嵌入,并获得通道注意力α,其表示为:
α=g(Di)=σ(W2δ(W1 pool(Di)))
其中δ(·),σ(·)分别表示ReLU激活函数和sigmoid激活函数,
Figure FDA0003721179530000034
Figure FDA0003721179530000035
Di是指剩余特征,Di=Fi-Fi=Fi-IN(Fi),IN是实例归一化操作,Fi是输入的原始特征,Fi是进行实例归一化后的特征。
步骤5.3:将剩余特征与通道注意力结合从而获得内容相关特征Di +,将内容相关特征与实例归一化特征连接,从而获取不具有样式风格的鲁棒行人特征。
CN202210751588.9A 2022-06-29 2022-06-29 基于姿态与样式归一化的换衣行人重识别方法 Pending CN115100684A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210751588.9A CN115100684A (zh) 2022-06-29 2022-06-29 基于姿态与样式归一化的换衣行人重识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210751588.9A CN115100684A (zh) 2022-06-29 2022-06-29 基于姿态与样式归一化的换衣行人重识别方法

Publications (1)

Publication Number Publication Date
CN115100684A true CN115100684A (zh) 2022-09-23

Family

ID=83294453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210751588.9A Pending CN115100684A (zh) 2022-06-29 2022-06-29 基于姿态与样式归一化的换衣行人重识别方法

Country Status (1)

Country Link
CN (1) CN115100684A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129473A (zh) * 2023-04-17 2023-05-16 山东省人工智能研究院 基于身份引导的联合学习换衣行人重识别方法及系统
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129473A (zh) * 2023-04-17 2023-05-16 山东省人工智能研究院 基于身份引导的联合学习换衣行人重识别方法及系统
CN116129473B (zh) * 2023-04-17 2023-07-14 山东省人工智能研究院 基于身份引导的联合学习换衣行人重识别方法及系统
CN116524602A (zh) * 2023-07-03 2023-08-01 华东交通大学 基于步态特征的换衣行人重识别方法及系统
CN116524602B (zh) * 2023-07-03 2023-09-19 华东交通大学 基于步态特征的换衣行人重识别方法及系统

Similar Documents

Publication Publication Date Title
Wang et al. Deep 3D human pose estimation: A review
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
Jiang et al. Action recognition scheme based on skeleton representation with DS-LSTM network
Vidanapathirana et al. Logg3d-net: Locally guided global descriptor learning for 3d place recognition
Migdal et al. Background subtraction using markov thresholds
CN116152267B (zh) 基于对比性语言图像预训练技术的点云实例分割方法
CN112200165A (zh) 模型训练方法、人体姿态估计方法、装置、设备及介质
US20060269145A1 (en) Method and system for determining object pose from images
CN112530019B (zh) 三维人体重建方法、装置、计算机设备和存储介质
CN115100684A (zh) 基于姿态与样式归一化的换衣行人重识别方法
CN111523378B (zh) 一种基于深度学习的人体行为预测方法
Sheng et al. Siamese denoising autoencoders for joints trajectories reconstruction and robust gait recognition
CN113705290A (zh) 图像处理方法、装置、计算机设备和存储介质
CN112418041A (zh) 一种基于人脸正面化的多姿态人脸识别方法
Chen et al. Silhouette-based object phenotype recognition using 3D shape priors
CN113239834B (zh) 一种可预训练手模型感知表征的手语识别系统
CN111639580A (zh) 一种结合特征分离模型和视角转换模型的步态识别方法
CN111985332A (zh) 一种基于深度学习的改进损失函数的步态识别方法
Ge et al. Tcnet: Co-salient object detection via parallel interaction of transformers and cnns
CN112766217A (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN116229531A (zh) 一种协作渐进生成对抗网络的人脸正面图像合成方法
CN115188066A (zh) 基于协同注意力和多尺度融合的运动目标检测系统及方法
CN114821786A (zh) 一种基于人体轮廓和关键点特征融合的步态识别方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication