CN115294655A - 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 - Google Patents

一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 Download PDF

Info

Publication number
CN115294655A
CN115294655A CN202210990512.1A CN202210990512A CN115294655A CN 115294655 A CN115294655 A CN 115294655A CN 202210990512 A CN202210990512 A CN 202210990512A CN 115294655 A CN115294655 A CN 115294655A
Authority
CN
China
Prior art keywords
pedestrian
module
image
appearance
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210990512.1A
Other languages
English (en)
Inventor
陈岸明
温峻峰
林群雄
洪小龙
孙全忠
李萍
罗海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongke Tianwang Guangdong Technology Co ltd
Original Assignee
Zhongke Tianwang Guangdong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongke Tianwang Guangdong Technology Co ltd filed Critical Zhongke Tianwang Guangdong Technology Co ltd
Priority to CN202210990512.1A priority Critical patent/CN115294655A/zh
Publication of CN115294655A publication Critical patent/CN115294655A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion

Abstract

本发明公开了一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备,方法步骤:利用网络模型中特征编码模块的外观编码和结构编码子模块实现对不同行人图像外观特征和结构特征的分别提取;所述网络模型中特征解码模块的解码器实现对外观特征和结构特征的融合并生成新的行人图像,实现对所输入行人图像的恒等映射和不同行人图像间的交叉映射;所述对抗性判别模块提取行人图像的多尺度特征,实现对生成图像的对抗性判别;将生成的恒等映射图像与交叉映射图像均输入基于ResNet‑50与非局部注意力机制的行人辨别模块;根据不同学习目标对各网络进行联合训练直至损失函数收敛,最终将行人辨别模块所提取的特征用于实现行人再识别。

Description

一种基于非局部机制的多级模块特征的对抗生成行人再识别 方法、装置和设备
技术领域
本发明属于计算机视觉技术领域,具体涉及一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备。
背景技术
行人再识别源于跨摄像头多目标跟踪问题,用于从不同摄像机视域获取的图像或视频序列中识别出目标行人、车辆等。当代社会,能够利用行人再识别技术通过摄像头拍摄图像及视频寻找犯罪人员、寻找走失儿童、进行车辆追踪等,对维系社会稳定,构建平安城市、智慧城市有重要意义。因为相机的分辨率、拍摄角度及复杂的现实情境等缘故,使用监控摄像头往往无法得到高质量的人脸照片。与人脸识别相比,行人再识别对镜头分辨率和拍摄角度的限制较低,可识别的有效信息范围更多,因此,行人再识别是人脸识别失效时一个非常重要的替代方法。此外,在当前大数据时代,面对海量的视频、图片监控数据,行人再识别解决了人工检索费时费力且准确率低的问题。近年来,Re-ID在刑侦、城市安防、智能零售等领域拥有了越来越广泛地应用。
为实现高效、准确地识别,使用大量、丰富的数据对模型进行训练是必要的。但是,当前主流的几个数据库如Market1501、DuckMTMC-ReID、CUHK03,平均每个行人分别有17.2、9.6、23.5张图片,这对于训练一个较好的模型是不够的。现有的基于姿态引导的生成对抗性网络虽然也实现了在行人再识别方向的应用,但其实现需要姿态信息的辅助,前期工作繁琐且训练结果受人工标记的影响。
发明内容
为了解决上述现有技术的不足,本发明提供了一种多级模块特征的对抗生成行人再识别方法,该方法构建的网络模型包括特征编码模块、特征解码模块、对抗性判别模块以及行人辨别模块,所述特征编码模块含有外观编码和结构编码两个子模块,实现对行人图像外观特征和结构特征的分别提取;所述特征解码模块通过对同一或不同行人的外观特征和结构特征进行融合解码,实现对所输入行人图像的恒等映射或不同行人图像间的交叉映射生成不同姿态、衣着的行人图像;所述对抗性判别模块提取所输入图像的多尺度特征,实现对生成图像与真实图像的判别;所述行人辨别模块利用基于ResNet50与非局部注意力机制的神经网络实现对所生成图像特征的提取与分类,最终在联合训练完成后将所述行人辨别模块所提取的特征用于行人再识别任务的行人图像查询。
进一步的,在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征,控制图片生成的内容,保证了图片的生成质量的同时增加了数据的多样性,与基于姿态引导的生成相比,此算法不使用任何额外的姿态信息辅助,更加简单易行,不会受人工标记影响;
进一步的,在外观编码中引入非局部注意力机制,充分学习了网络长距离卷积计算中的空间依赖关系,学习到了图像不同空间区域的关联信息,更有利于实现对不同行人图像的区分。
进一步的,所述特征编码模块含有外观编码和结构编码两个子模块,所述外观编码子模块用于对输入图像提取外观信息和身份信息,生成外观特征编码,其网络以Resnet-50网络为主干,并在主干网络中间引入非局部注意力模块,捕获空间域中不同局部感受野间的长距离依赖关系,进一步增强网络特征提取能力;其中结构编码子模块用于提取输入图像结构信息,输出结构特征编码,它由五个卷积层、三个两层残差块及空间池化金字塔层组成,此外,每个卷积层后都有归一化层和ReLu激活层。
进一步的,所述引入的非局部注意力模块对输入的特征图用三个1×1卷积块进行映射分别获得Query、Key和Value三条支路特征图,接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重,将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数,将此系数与原始输入特征相乘得到非局部注意力模块的输出;根据下式实现非局部注意力模块的输出:
zi=Wz×φ(xi)+xi
其中,Wz是要学习的权重矩阵,φ(xi)表示非局部运算和输入xi形成的残差;
所述空间池化金字塔层采用了不同稀疏程度的空洞卷积,获得多粒度的特征,最后将多粒度特征拼接成结构编码模块的输出特征。
进一步的,所述特征解码模块能够将输入的结构编码和外观编码进行解码从而生成图像;它由五个残差块、两个上采样模块及三个卷积层组成;每个残差块中插入了自适应实例归一化层(AdaIN),其计算公式为:
Figure BDA0003803737300000021
其中,x和y分别是输入和输出的特征图,μ(x)为输入特征图在某一通道的均值,σ(x)为该通道标准差,最后将外观编码集成为AdaIN的动态权重和偏置。
进一步的,所述对抗性判别模块用于判断输入图像是否为真实图像,由六个卷积层和四个残差块组成,且每个卷积层后采用负斜率为0.2的LReLu激活;判别器采用了多尺度的PathGAN思想,将256×128大小的输入图像调整为了三种不同尺寸的图片;分别将大小为64×32,128×64和256×128的图像作为辨别器输入,让辨别器对三个不同尺度的图像进行真伪判别,计算三者总损失作为输出结果。
进一步的,所述行人辨别模块与外观编码模块具有相同的特征提取层,行人辨别模块只在特征提取层的最后一层缩小全局平均池化层的输出,并使用全连接层实现特征的最终分类。
进一步的,要上述各模块实现所述的功能,需在训练阶段对不同模块使用适当的损失函数来实现各模块的学习目标,所述特征解码模块当目标是实现对所输入行人图像的恒等映射时,为保证解码器具有重建能力,用下式作为恒等映射生成过程的损失函数:
Figure BDA0003803737300000031
其中,xi为原始图像,ai和si分别为原始图像的外观编码和结构编码,G(·)为所述解码器,||·||1为L1范数度量形式;此外,解码器还能够根据同一行人的不同姿态进行生成,将来自原始图像xi的结构与来自另一图像xt的外观组合,生成图像
Figure BDA0003803737300000032
其损失函数如下所示:
Figure BDA0003803737300000033
其中,xi为原始图像,at和si分别为另一图像的外观编码和原始图像的结构编码,G(·)为所述解码器,||·||1为L1范数度量形式,这种生成同一身份、同一外观、不同姿态的生成图像有利于网络更好的学习行人的外观特征;所述对抗性判别模块的学习目标是使网络能够对生成图像与原始的真实图像实现区分,在此采用的是基于WGAN的对抗损失函数:
Ladv=E[D(xi)-D(G(ai,sj))]
其中,xi为原始图像,ai和sj分别为原始图像的外观编码和另一图像的结构编码,G(·)为所述解码器,D(·)为所述判别器;所述行人辨别模块的学习目标是尽可能对不同行人进行区分,因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进行约束,其中三元组损失函数如下所示:
Ltri=(da,p-da,n+α)+
其中,da,p为正样本对间的距离,da,n为负样本间的距离,α为人为设置的阈值,(z)+表示max(z,0),交叉熵损失函数如下所示:
Figure BDA0003803737300000041
其中,yi为原始图像xi的真实类别,
Figure BDA0003803737300000042
为含有xi外观编码的生成图像,
Figure BDA0003803737300000043
为计算
Figure BDA0003803737300000044
属于类别yi的预测概率;最终总的损失函数如下:
Figure BDA0003803737300000045
其中,
Figure BDA0003803737300000046
不同的λ权重值用于平衡不同的损失在训练过程中所起到的作用。
本发明相对于现有技术具有如下的有益效果:
1、本发明直接在网络中引入结构编码模块学习行人的姿势等特征,实现了端到端的不同姿态图像的生成,无需任何额外的姿态信息辅助,更加简单易行,降低了人力成本。
2、本发明通过特征编码、解码、对抗性判别等模块构成的对抗生成网络实现了同一行人的恒等映射和不同行人间的交叉映射,控制图片生成的内容,保证了图片的生成质量的同时增加了数据的多样性,将扩充的数据集用于行人再识别任务可以有效提升行人再识别模型的泛化能力。
3、本发明的行人再识别主干网络与外观编码模块共用同一种具有非局部注意力模块的残差网络,关注了行人图像在网络传播中的长距离依赖信息,有效的提升了模型克服遮挡、光照、姿态变化带来的辨别困难问题的能力,提高了模型对不同行人图像的区分能力。
附图说明
图1为本发明实施例的多级模块特征的对抗生成行人再识别方法的流程图;
图2为本发明实施例的外观编码子模块以及行人辨别模块特征提取层的结构图;
图3为本发明实施例的结构编码子模块的结构图;
图4为本发明实施例的特征解码模块的结构图;
图5为本发明实施例的对抗性判别模块的结构图;
图6为本发明实施例的多级模块特征的对抗生成行人再识别方法总的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。应当理解,描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1-6所示,本实施例提供一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备,主要包括以下步骤:
S101、利用网络模型中特征编码模块的外观编码和结构编码子模块实现对不同行人图像外观特征和结构特征的分别提取;
具体的,以Resnet-50网络为主干搭建特征编码模块中的外观编码子模块,原始Resnet-50网络包含四个大的Block结构,每个Block均由多个Bottleneck结构连接而成,在本方法的外观编码子模块中在主干网络中引入非局部注意力模块,具体的非局部注意力模块分别加在第2个和第3个Block结构的最后2个和最后3个Bottleneck结构之后,共5个非局部注意力模块加在了原始的Resnet-50主干网络内部,并将原始Resnet-50主干网络全局平均池化层的单通道输出由1*1改为4*1,以及将最后的全连接层删除,最终构成外观编码子模块,如图2所示;结构编码子模块则由五个卷积层、三个两层残差块及空间池化金字塔层组成,空间池化金字塔ASPP层采用四种不同采样率的空洞卷积,如图3所示;最后将外观编码和结构编码子模块的输出作为行人的外观特征和结构特征;
S102、利用网络模型中特征解码模块的解码器实现对外观特征和结构特征的融合并生成新的行人图像,实现对所输入行人图像的恒等映射和不同行人图像间的交叉映射;
具体的,特征解码模块由五个残差块、两个上采样模块及三个卷积层组成;每个残差块中插入了自适应实例归一化层(AdaIN),将外观编码集成为AdaIN的动态权重和偏置;解码器的输入为外观编码和结构编码,经过两个上采样模块扩大特征图后最终输出大小为3*256*128的特征图,也就是原始输入图像的大小,其结构如图4所示;最后输入的外观编码和结构编码的不同搭配生成同一行人图像的恒等映射或不同行人图像间的交叉映射;
S103、利用对抗性判别模块提取行人图像的多尺度特征,实现对生成图像的对抗性判别;
具体的,对抗性判别模块由六个卷积层和四个残差块组成,且每个卷积层后采用负斜率为0.2的LReLu激活;将三种不同尺度64×32,128×64和256×128的生成图像或原始真实图像输入网络中生成多尺度判别特征,最终综合所有特征进行真假图像的预测,网络结构如图5所示;
S104、将生成的恒等映射图像与交叉映射图像均输入基于ResNet-50与非局部注意力机制的行人辨别模块;
具体的,行人辨别模块的特征提取层与外观编码子模块相同,只有最后的全局平均池化层的输出修改为单通道输出为1*1,然后在特征提取层之后接上一个全连接层进行行人身份的分类;
S105、根据不同学习目标对各网络进行联合训练直至损失函数收敛,最终将行人辨别模块所提取的特征用于实现行人再识别;
具体的,所述总的网络模型结构如图6所示,首先将所有输入的行人图像尺寸设置为256*128大小,并对其进行数据归一化处理和数据增强处理;接着对本方法网络中的特征编码模块的外观编码子模块和结构编码子模块进行参数初始化,外观编码子模块使用了Resnet-50主干网络,因此可以使用在ImageNet上预训练的模型参数对其对应层进行初始化,其他层和结构编码子模块则使用Kaiming初始化随机产生权重;接着通过SGD对外观编码子模块进行训练,学习率设置为0.002,动量为0.9,采用Adam优化结构编码子模块,学习率设置为0.0001,(β1,β2)=(0,0.999),该模型共训练100000个迭代周期;
基于不同的学习目标选用特定的损失函数,对于特征解码模块需要生成原始输入图像的恒等映射图像或者不同行人图像的交叉映射图像,因此采用L1损失来对图像的所有像素进行重建,对于原始图像的恒等映射,其损失函数为:
Figure BDA0003803737300000061
其中,xi为原始图像,ai和si分别为原始图像的外观编码和结构编码,G(·)为所述解码器,||·||1为L1范数度量形式;解码器还能够根据同一行人的不同姿态进行生成,将来自原始图像xi的结构与来自另一图像xt的外观组合,生成图像
Figure BDA0003803737300000062
实现对于不同图像间的交叉映射,其损失函数如下所示:
Figure BDA0003803737300000063
其中,xi为原始图像,at和si分别为另一图像的外观编码和原始图像的结构编码,G(·)为所述解码器,||·||1为L1范数度量形式,这种生成同一身份、同一外观、不同姿态的生成图像有利于网络更好的学习行人的外观特征;对抗性判别模块的学习目标是使网络能够对生成图像与原始的真实图像实现区分,在此采用的是基于WGAN的对抗损失函数:
Ladv=E[D(xi)-D(G(ai,sj))]
其中,xi为原始图像,ai和sj分别为原始图像的外观编码和另一图像的结构编码,G(·)为所述解码器,D(·)为所述判别器;行人辨别模块的学习目标是尽可能对不同行人进行区分,因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进行约束,其中三元组损失函数如下所示:
Ltri=(da,p-da,n+α)+
其中,da,p为正样本对间的距离,da,n为负样本间的距离,α为人为设置的阈值,(z)+表示max(z,0),交叉熵损失函数如下所示:
Figure BDA0003803737300000071
其中,yi为原始图像xi的真实类别,
Figure BDA0003803737300000072
为含有xi外观编码的生成图像,
Figure BDA0003803737300000073
为计算
Figure BDA0003803737300000074
属于类别yi的预测概率;最终总的损失函数如下:
Figure BDA0003803737300000075
其中,
Figure BDA0003803737300000076
不同的λ权重值用于平衡不同的损失在训练过程中所起到的作用,具体的λ权重值为λ1=0.2,λ2=1,λ3=2;
利用上述行人辨别模块的特征提取层提取待查询图像和图库中的图像的特征,计算所有待查询图像与图库图像特征之间的欧氏距离并归一化为余弦距离,将距离最近的图库图像视为待查询图像的目标图像。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (9)

1.一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,该方法构建的网络模型包括特征编码模块、特征解码模块、对抗性判别模块以及行人辨别模块,其特征在于,所述特征编码模块含有外观编码和结构编码两个子模块,实现对行人图像外观特征和结构特征的分别提取;所述特征解码模块通过对同一或不同行人的外观特征和结构特征进行融合解码,实现对所输入行人图像的恒等映射或不同行人图像间的交叉映射生成不同姿态、衣着的行人图像;所述对抗性判别模块提取所输入图像的多尺度特征,实现对生成图像与真实图像的判别;所述行人辨别模块利用基于ResNet50与非局部注意力机制的神经网络实现对所生成图像特征的提取与分类,最终在联合训练完成后将所述行人辨别模块所提取的特征用于行人再识别任务的行人图像查询。
2.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征,控制图片生成的内容,保证了图片的生成质量的同时增加了数据的多样性,与基于姿态引导的生成相比,此算法不使用任何额外的姿态信息辅助,更加简单易行,不会受人工标记影响。
3.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:在生成对抗网络中引入所述结构编码模块学习行人的姿势等特征,控制图片生成进一步的,在外观编码中引入非局部注意力机制,充分学习了网络长距离卷积计算中的空间依赖关系,学习到了图像不同空间区域的关联信息,更有利于实现对不同行人图像的区分。
4.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:所述特征编码模块含有外观编码和结构编码两个子模块,所述外观编码子模块用于对输入图像提取外观信息和身份信息,生成外观特征编码,其网络以Resnet-50网络为主干,并在主干网络中间引入非局部注意力模块,捕获空间域中不同局部感受野间的长距离依赖关系,进一步增强网络特征提取能力;其中结构编码子模块用于提取输入图像结构信息,输出结构特征编码,它由五个卷积层、三个两层残差块及空间池化金字塔层组成,此外,每个卷积层后都有归一化层和ReLu激活层。
5.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:所述引入的非局部注意力模块对输入的特征图用三个1×1卷积块进行映射分别获得Query、Key和Value三条支路特征图,接着对Query和每个Key进行点乘计算并通过Softmax函数得到Value支路的权重,将Value支路乘以权重并通过Softmax函数获得最终的自注意力系数,将此系数与原始输入特征相乘得到非局部注意力模块的输出;根据下式实现非局部注意力模块的输出:
zi=Wz×φ(xi)+xi
其中,Wz是要学习的权重矩阵,φ(xi)表示非局部运算和输入xi形成的残差;
所述空间池化金字塔层采用了不同稀疏程度的空洞卷积,获得多粒度的特征,最后将多粒度特征拼接成结构编码模块的输出特征。
6.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:所述特征解码模块能够将输入的结构编码和外观编码进行解码从而生成图像;它由五个残差块、两个上采样模块及三个卷积层组成;每个残差块中插入了自适应实例归一化层(AdaIN),其计算公式为:
Figure FDA0003803737290000021
其中,x和y分别是输入和输出的特征图,μ(x)为输入特征图在某一通道的均值,σ(x)为该通道标准差,最后将外观编码集成为AdaIN的动态权重和偏置。
7.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:所述对抗性判别模块用于判断输入图像是否为真实图像,由六个卷积层和四个残差块组成,且每个卷积层后采用负斜率为0.2的LReLu激活;判别器采用了多尺度的PathGAN思想,将256×128大小的输入图像调整为了三种不同尺寸的图片;分别将大小为64×32,128×64和256×128的图像作为辨别器输入,让辨别器对三个不同尺度的图像进行真伪判别,计算三者总损失作为输出结果。
8.根据权利要求1所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:所述行人辨别模块与外观编码模块具有相同的特征提取层,行人辨别模块只在特征提取层的最后一层缩小全局平均池化层的输出,并使用全连接层实现特征的最终分类。
9.根据权利要求1-8所述的一种基于非局部机制的多级模块特征的对抗生成行人再识别方法,其特征在于:要上述各模块实现所述的功能,需在训练阶段对不同模块使用适当的损失函数来实现各模块的学习目标,所述特征解码模块当目标是实现对所输入行人图像的恒等映射时,为保证解码器具有重建能力,用下式作为恒等映射生成过程的损失函数:
Figure FDA0003803737290000031
其中,xi为原始图像,ai和si分别为原始图像的外观编码和结构编码,G(·)为所述解码器,||·||1为L1范数度量形式;此外,解码器还能够根据同一行人的不同姿态进行生成,将来自原始图像xi的结构与来自另一图像xt的外观组合,生成图像
Figure FDA0003803737290000032
其损失函数如下所示:
Figure FDA0003803737290000033
其中,xi为原始图像,at和si分别为另一图像的外观编码和原始图像的结构编码,G(·)为所述解码器,||·||1为L1范数度量形式,这种生成同一身份、同一外观、不同姿态的生成图像有利于网络更好的学习行人的外观特征;所述对抗性判别模块的学习目标是使网络能够对生成图像与原始的真实图像实现区分,在此采用的是基于WGAN的对抗损失函数:
Ladv=E[D(xi)-D(G(ai,sj))]
其中,xi为原始图像,ai和sj分别为原始图像的外观编码和另一图像的结构编码,G(·)为所述解码器,D(·)为所述判别器;所述行人辨别模块的学习目标是尽可能对不同行人进行区分,因此采用三元组损失函数和交叉熵损失函数分别对行人特征和行人身份信息进行约束,其中三元组损失函数如下所示:
Ltri=(da,p-da,n+α)+
其中,da,p为正样本对间的距离,da,n为负样本间的距离,α为人为设置的阈值,(z)+表示max(z,0),交叉熵损失函数如下所示:
Figure FDA0003803737290000046
其中,yi为原始图像xi的真实类别,
Figure FDA0003803737290000041
为含有xi外观编码的生成图像,
Figure FDA0003803737290000042
为计算
Figure FDA0003803737290000043
属于类别yi的预测概率;最终总的损失函数如下:
Figure FDA0003803737290000044
其中,
Figure FDA0003803737290000045
不同的λ权重值用于平衡不同的损失在训练过程中所起到的作用。
CN202210990512.1A 2022-08-18 2022-08-18 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备 Pending CN115294655A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210990512.1A CN115294655A (zh) 2022-08-18 2022-08-18 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210990512.1A CN115294655A (zh) 2022-08-18 2022-08-18 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

Publications (1)

Publication Number Publication Date
CN115294655A true CN115294655A (zh) 2022-11-04

Family

ID=83830770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210990512.1A Pending CN115294655A (zh) 2022-08-18 2022-08-18 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN115294655A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757874A (zh) * 2022-11-24 2023-03-07 中科天网(广东)科技有限公司 人脸与人体协同检索方法、装置、设备和介质
CN116740795A (zh) * 2023-08-16 2023-09-12 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN117456560A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
CN111639564A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN113065551A (zh) * 2021-03-19 2021-07-02 杭州迪英加科技有限公司 利用深度神经网络模型执行图像分割的方法
CN114495163A (zh) * 2022-01-13 2022-05-13 西安电子科技大学 基于类别激活映射的行人重识别生成学习方法
CN114663974A (zh) * 2022-03-14 2022-06-24 南京邮电大学 一种融入位置感知注意力的行人重识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688897A (zh) * 2019-08-23 2020-01-14 深圳久凌软件技术有限公司 一种基于联合判断与生成学习的行人重识别方法及装置
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN111639564A (zh) * 2020-05-18 2020-09-08 华中科技大学 一种基于多注意力异构网络的视频行人重识别方法
CN113065551A (zh) * 2021-03-19 2021-07-02 杭州迪英加科技有限公司 利用深度神经网络模型执行图像分割的方法
CN114495163A (zh) * 2022-01-13 2022-05-13 西安电子科技大学 基于类别激活映射的行人重识别生成学习方法
CN114663974A (zh) * 2022-03-14 2022-06-24 南京邮电大学 一种融入位置感知注意力的行人重识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757874A (zh) * 2022-11-24 2023-03-07 中科天网(广东)科技有限公司 人脸与人体协同检索方法、装置、设备和介质
CN115757874B (zh) * 2022-11-24 2023-11-03 中科天网(广东)科技有限公司 人脸与人体协同检索方法、装置、设备和介质
CN116740795A (zh) * 2023-08-16 2023-09-12 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN116740795B (zh) * 2023-08-16 2023-11-24 天津师范大学 基于注意力机制的表情识别方法、模型及模型训练方法
CN117456560A (zh) * 2023-12-22 2024-01-26 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法
CN117456560B (zh) * 2023-12-22 2024-03-29 华侨大学 一种基于前景感知动态部件学习的行人再辨识方法

Similar Documents

Publication Publication Date Title
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN110458844B (zh) 一种低光照场景的语义分割方法
CN115294655A (zh) 一种基于非局部机制的多级模块特征的对抗生成行人再识别方法、装置和设备
CN111709311B (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN111833273B (zh) 基于长距离依赖的语义边界增强方法
CN111986240A (zh) 基于可见光和热成像数据融合的落水人员检测方法及系统
CN113516005B (zh) 一种基于深度学习和姿态估计的舞蹈动作评价系统
CN113313123B (zh) 一种基于语义推断的扫视路径预测方法
CN111325169A (zh) 基于胶囊网络的深度视频指纹算法
CN112418041A (zh) 一种基于人脸正面化的多姿态人脸识别方法
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
Wang et al. MCF3D: Multi-stage complementary fusion for multi-sensor 3D object detection
Baek et al. Generative adversarial ensemble learning for face forensics
CN114639042A (zh) 基于改进CenterNet骨干网络的视频目标检测算法
CN112084895B (zh) 一种基于深度学习的行人重识别方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN115620090A (zh) 模型训练方法、低照度目标重识别方法和装置、终端设备
Si et al. Maritime Ship Detection Method for Satellite Images Based on Multiscale Feature Fusion
CN112766217A (zh) 基于解纠缠和特征级差异学习的跨模态行人重识别方法
CN115830631B (zh) 基于姿态辅助遮挡人体再识别的一人一档系统构建方法
CN113298037B (zh) 一种基于胶囊网络的车辆重识别方法
CN115063717A (zh) 一种基于重点区域实景建模的视频目标检测与跟踪方法
CN114120076A (zh) 基于步态运动估计的跨视角视频步态识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221104