CN117612112A - 一种基于语义一致性的换装行人重识别方法 - Google Patents
一种基于语义一致性的换装行人重识别方法 Download PDFInfo
- Publication number
- CN117612112A CN117612112A CN202410097183.7A CN202410097183A CN117612112A CN 117612112 A CN117612112 A CN 117612112A CN 202410097183 A CN202410097183 A CN 202410097183A CN 117612112 A CN117612112 A CN 117612112A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- feature
- reloading
- human body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000005457 optimization Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims description 18
- 230000009467 reduction Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 14
- 101000611614 Homo sapiens Proline-rich protein PRCC Proteins 0.000 description 6
- 102100040829 Proline-rich protein PRCC Human genes 0.000 description 6
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000005021 gait Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语义一致性的换装行人重识别方法,属于计算机视觉领域,包括如下步骤:步骤1、获取数据集并进行预处理,根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构;步骤2、构建基于语义一致性的换装行人重识别网络模型;步骤3、构建损失函数,基于训练数据集和损失函数对模型进行训练优化;步骤4、基于训练完成的模型进行换装行人重识别。本发明通过约束语义一致提高了换装行人重识别模型的准确率。
Description
技术领域
本发明属于计算机视觉领域,具体涉及一种基于语义一致性的换装行人重识别方法。
背景技术
行人重识别是计算机视觉领域的一个重要课题,其目标是在不同摄像头中识别和匹配同一行人。近年来随着深度学习的不断发展,理想情况下的行人重识别技术已取得较好的效果。在真实的监控场景中,不可避免地会出现行人更换衣服的情况,由于天气原因目标行人会进行衣服的更换;以及在潜逃的犯罪嫌疑人,为了逃避追捕,他们会频繁的进行衣服的更换。在这种情况下,占据图像大量像素点的衣服成为了无效信息甚至误导信息,进而导致匹配过程失败。因此如何对换装的行人进行重识别成为近几年的研究热点,越来越多的研究人员着手解决换装行人重识别的问题。
换装行人重识别的重点是提取衣服无关的特征,一个有效的方法是借助人类的语义信息。尽管在许多现有的换装行人重识别方法中也使用了人类语义信息,但它们主要集中在体型或轮廓草图上,并且目前对人类语义信息的探索仍然不足。因此,如何充分利用人类语义信息对于换装行人重识别来说仍然是一个有待探索的问题。
发明内容
为了解决上述问题,本发明提出了一种基于语义一致性的换装行人重识别方法,利用多种语义信息,通过使用交互学习损失约束模型学习身份相关的特征,从而增强重识别模型的性能。
本发明的技术方案如下:
一种基于语义一致性的换装行人重识别方法,包括如下步骤:
步骤1、获取数据集并进行预处理,根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构;
步骤2、构建基于语义一致性的换装行人重识别网络模型;
步骤3、构建损失函数,基于训练数据集和损失函数对模型进行训练优化;
步骤4、基于训练完成的模型进行换装行人重识别。
进一步地,所述步骤1的具体过程为:
步骤1.1、获取公开数据集作为训练数据集;采集各个监控摄像头下的所有行人图像作为测试数据集;测试数据集中包含查询集和图库集两部分,查询集是当前待查询行人图像的集合,图库集是与查询集进行匹配的候选行人图像的集合;数据集中的数据均为RGB图像;
步骤1.2、将训练数据集中的原始图像采用SPIN方法生成行人对应的三维人体结构,三维人体结构中包含行人的体型信息以及姿态信息;SPIN为一种通过单幅图像生成三维人体结构的方法;
步骤1.3、将训练数据集中的原始图像采用SCHP方法生成行人人体解析图像,根据人体解析图像将原始图像中衣服部分的RGB值设置为黑色,得到遮挡衣服图像;SCHP为人体解析自校正方法;
步骤1.4、将原始图像和遮挡衣服图像的大小均调整为384*192像素。
进一步地,所述步骤2中,基于语义一致性的换装行人重识别网络模型包括三部分,分别为:遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分;遮挡衣服图像处理部分包括解码器1和降维操作;原始图像处理部分包含解码器1、特征切分模块和降维操作;三维人体处理部分包括解码器2和降维操作;解码器1和解码器2均为ResNet结构,但计算时二者内部参数不同;降维操作包含平均池化、最大池化和归一化三个步骤;ResNet为深度残差网络。
进一步地,所述步骤2中,基于语义一致性的换装行人重识别网络模型的工作过程为:
步骤2.1、将原始图像输入解码器1得到原始图像特征图,将遮挡衣服图像输入到和原始图像共享参数的解码器1中得到遮挡衣服图像特征图,其中/>和/>表示特征图的高和宽,/>表示维度的大小;
步骤2.2、将、/>分别在通道维度进行池化获得池化后的结果/>、,即将通道维数压缩为1;
步骤2.3、、/>分别经过降维操作得到原始图像特征/>、遮挡衣服图像特征/>;
步骤2.4、将输入特征切分模块,特征切分模块对整个/>进行切分得到若干个切分子特征,给各个切分子特征分配一个特征权重,各个切分子特征的特征权重在网络优化过程中自动更新,学习获得的权重经过 softmax 函数后与切分子特征相乘得到切分特征/>;
步骤2.5、将三维人体结构输入到解码器2中,得到三维人体特征图,/>经过降维操作得到三维人体特征/>。
进一步地,所述步骤3的具体过程为:
步骤3.1、计算原始图像特征图和遮挡衣服图像特征图的一致性损失,一致性损失的计算公式如下:
(1);
其中,为图像序号索引;/>为样本总数;
步骤3.2、将和/>分别和/>计算交互损失,并将两个交互损失相加得到总交互损失/>,计算公式为:
(3);
步骤3.3、构建交叉熵损失函数,计算公式为:
(4);
其中,表示行人标签;/>表示预测的行人标签;
构建难样本采样三元组损失函数,计算公式为:
(5);
其中,为不同行人的数量;/>为不同图像的数量;/>为训练批次;/>为与基准图像最不相像的正样本;/>为与图像/>具有相同身份的图像集;/>为基准图像和最不像的正样本间的距离;/>为与基准图像最相像的负样本;/>为与图像/>具有不同身份的图像集;为基准图像和最像的负样本间的距离;/>是可调节的阈值参数;
步骤3.4、最终,训练过程的整体损失函数被定义为:
(6);
其中,为超参数,用于平衡一致性损失的重要性。
进一步地,所述步骤4的具体过程为:
步骤4.1、将测试数据集的查询集和图库集作为步骤3训练完成的换装行人重识别模型的输入,将模型输出三维人体特征和原始图像特征/>在通道维度拼接到一起,得到最终的行人特征/>;
步骤4.2、计算查询集中行人图像与图库集各行人图像的相似度;
相似度计算公式为:
(7);
其中,为查询集的行人图像/>与图库集的行人图像/>的相似度;/>表示查询集的行人图像/>的特征向量,/>表示图库集的行人图像/>的特征向量,/>表示查询集的行人图像/>的特征向量的模长,/>表示图库集的行人图像/>的特征向量的模长;
步骤4.3、将所有相似度的取值按照由高到低的顺序进行排序,将相似度值最高的前十张行人图像作为重识别结果输出。
本发明所带来的有益技术效果:本发明方法提出了基于语义一致性的换装行人重识别,利用遮挡衣服图像、原始图像分块以及人体的三维人体结构三个额外语义学习服装无关特征,并使用交互损失使得原始图像主干网络能够侧重于图像中服装无关的部分,从而提高换装行人重识别的性能。
附图说明
图1为基于语义一致性换装行人重识别方法的流程图。
图2为基于语义一致性换装行人重识别模型的结构示意图。
图3为图2中特征切分模块的结构示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
首先给出如下术语的解释:
SCHP:人体解析是一项精细的语义分割任务,其目的是将人体中的每一个图像像素分配给一个语义类别,如手臂、面部、上衣等。SCHP全称为人体解析自校正方法,是一种人体解析方法,主要通过净化噪声标签逐步优化模型。
SPIN:SPIN是一种通过单幅图像生成三维人体结构的方法,全称为SMPLoPtimization IN the loop,SMPL是人体参数化三维结构,人体可以理解为是一个基础模型和在该模型基础上进行形变的总和。
ResNet:ResNet是深度残差网络,用于提取图像特征。ResNet采用了超深的网络结构,尝试了超过1000层的网络结构;提出了残差模块,解决了退化问题;使用批量归一化加速训练,丢弃了dropout层,解决了梯度消失和梯度爆炸的问题。
PRCC数据集:PRCC数据集是中山大学采集的一个室内数据集,包含221个人的33698幅图像,平均每个人152幅图像。该数据集由3个不同位置的RGB视觉摄像头拍摄,其中,两个摄像头下同一行人穿着相同服装,另一摄像头下穿着不同服装。本数据集的训练集包含150个人,测试集包含另外71个人。该数据集是一个严格的换装数据集。
LTCC数据集:该数据集图像来自于办公楼内的12个监控摄像头,包括152个人的17138幅图像。根据是否更换着装,该数据集划分为换装数据集和非换装数据集两个子集。换装数据集包含91个人的14756幅图像,涉及417类着装,其中每个人着装类型包含2~14种;非换装数据集包含剩余61个人的2382幅图像。
如图1所示,本发明方法包括步骤如下:
步骤1、获取数据集并进行预处理,根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构。具体过程为:
步骤1.1、获取公开数据集作为训练数据集;采集各个监控摄像头下的所有行人图像作为测试数据集;测试数据集中包含查询集和图库集两部分,查询集是当前待查询行人图像的集合,图库集是与查询集进行匹配的候选行人图像的集合;数据集中的数据均为RGB图像。
步骤1.2、将训练数据集中的原始图像输入预先训练完成的单幅图像人体模型重建方法SPIN中,获得行人对应的三维人体结构,此三维人体结构主要表示行人的体型信息以及姿态信息;
步骤1.3、将训练数据集中的原始图像送入预先训练完成的人体解析方法SCHP中获取行人人体解析图像;根据人体解析图像将原始图像中衣服部分的RGB值设置为黑色,得到遮挡衣服图像;
步骤1.4、将原始图像和遮挡衣服图像的大小均调整为384*192像素。
步骤2、构建基于语义一致性的换装行人重识别网络模型。
基于语义一致性的换装行人重识别网络模型主要包括三部分,遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分;遮挡衣服图像处理部分包括解码器1和降维操作;原始图像处理部分包含解码器1、特征切分模块和降维操作;三维人体处理部分包括解码器2和降维操作。解码器1和解码器2均为ResNet结构,但计算时二者内部参数不同;降维操作包含平均池化、最大池化和归一化三个步骤。
如图2和图3所示,基于语义一致性的换装行人重识别网络模型的工作过程为:
步骤2.1、将原始图像输入解码器1得到原始图像特征图,将遮挡衣服图像输入到和原始图像共享参数的解码器1中得到遮挡衣服图像特征图,其中/>和/>表示特征图的高和宽,/>表示维度的大小;
步骤2.2、将、/>分别在通道维度进行池化获得池化后的结果/>、,即将通道维数压缩为1;
步骤2.3、、/>分别经过降维操作得到原始图像特征/>、遮挡衣服图像特征/>;
步骤2.4、将输入特征切分模块,该模块会对整个/>进行切分得到若干个切分子特征,给各个切分子特征分配一个特征权重,各个切分子特征的特征权重在网络优化过程中自动更新,学习获得的权重经过 softmax 函数后与切分子特征相乘得到切分特征。
步骤2.5、将三维人体结构输入到解码器2中,得到三维人体特征图,/>经过降维操作得到三维人体特征/>。
步骤3、构建损失函数,基于训练数据集和损失函数对模型进行训练优化。具体过程为:
步骤3.1、计算原始图像特征图和遮挡衣服图像特征图的一致性损失,来驱动模型学习服装无关特征。一致性损失的计算公式如下:
(1);
其中,为图像序号索引;/>为样本总数;/>为/>在通道维度进行池化的结果;/>为/>在通道维度进行池化的结果;
步骤3.2、将和/>分别和/>计算交互损失,并将两个交互损失相加得到总交互损失/>,计算公式为:
(3);
步骤3.3、除上述损失外,模型还会受到交叉熵损失函数和难样本采样三元组损失函数两个身份相关损失的约束。其中,交叉熵损失函数的计算公式为:
(4);
其中,表示行人标签;/>表示预测的行人标签;
难样本采样三元组损失函数的计算公式为:
(5);
其中,为不同行人的数量;/>为不同图像的数量;/>为训练批次,在每个训练批次中,随机挑选/>个不同行人,每个行人随机挑选/>张不同图像,一个训练批次总共挑选/>张图像;/>为与基准图像最不相像的正样本;/>为与图像/>具有相同身份的图像集;/>为基准图像和最不像的正样本间的距离;/>为与基准图像最相像的负样本;/>为与图像/>具有不同身份的图像集;/>为基准图像和最像的负样本间的距离;/>是可调节的阈值参数;
难样本采样三元组损失函数会挑选与基准图像最不相像的正样本和最相像的负样本/>来进行损失计算。
步骤3.4、最终,训练过程的整体损失函数被定义为:
(6);
其中,为超参数,用来平衡/>对整体损失函数的贡献。
通过整体损失函数对换装行人重识别模型进行约束,以训练优化获取更有效且鲁棒的换装行人重识别模型。
步骤4、基于训练完成的模型进行换装行人重识别。具体过如下:
步骤4.1、将测试数据集的查询集和图库集作为步骤3训练完成的换装行人重识别模型的输入,将模型输出三维人体特征和原始图像特征/>在通道维度拼接到一起,得到最终的行人特征/>,此处/>=2048;
步骤4.2、计算查询集中行人图像与图库集各行人图像的相似度;
设测试数据集的查询集的行人图像和图库集中的行人图像/>为例,二者相似度计算公式为:
(7);
其中,表示查询集的行人图像/>的特征向量,/>表示图库集的行人图像/>的特征向量,/>表示查询集的行人图像/>的特征向量的模长,/>表示图库集的行人图像/>的特征向量的模长;
步骤4.3、将所有相似度的取值按照由高到低的顺序进行排序,将相似度值最高的前十张行人图像作为重识别结果输出。
本发明实施例中,最终进行识别的特征向量维度为4096。本发明是在PyTorch框架下实现的,使用Adam算法对模型进行优化,学习率设置为3.5e-4,最大迭代次数为100。
为了验证本发明的可行性与优越性,进行了如下对比实验。实验均在PRCC和LTCC两个换装行人数据集的换装情况下进行。
选取GI-ReID、3DSL、FSAM、CAL四个方法进行换装行人重识别,并将识别结果与本发明的识别结果进行比较,比较结果如表1所示。GI-ReID方法的内容为:使用一个一致性约束,以促使模型从行人步态和静态RGB图像中学习身份相关特征。3DSL方法提出用于3D形状学习的端到端框架,通过用于3D重建的正则化方法来识别行人。FSAM方法提出了一种双流框架,该框架能够实现形状和行人外观的相互学习,将身份知识从形状流转移到外观流。CAL方法设置一个损失惩罚重识别模型的预测能力,来从原始RGB图像中挖掘与服装无关的特征。本发明选用首位命中率Rank-1和平均精度均值mAP两个评价指标来评估训练完成的模型,首位命中率Rank-1和平均精度均值mAP的取值越高,代表模型精度越高。
表1 本发明方法与其他四个方法在PRCC和LTCC数据集换装情况下的比较结果;
。
从表1可以看出,使用本发明提出的方法,在换装行人重识别LTCC、PRCC数据集上分别可以达到41.6%、63.9%的Rank-1值和17.6%、61.8%的mAP值。在PRCC数据集取得最优结果,在LTCC数据集上Rank-1取得最优结果,mAP取得次优结果,有效提高了换装行人重识别的精度。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (6)
1.一种基于语义一致性的换装行人重识别方法,其特征在于,包括如下步骤:
步骤1、获取数据集并进行预处理,根据原始行人图像估计行人遮挡衣服图像以及重建对应行人的三维人体结构;
步骤2、构建基于语义一致性的换装行人重识别网络模型;
步骤3、构建损失函数,基于训练数据集和损失函数对模型进行训练优化;
步骤4、基于训练完成的模型进行换装行人重识别。
2.根据权利要求1所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤1的具体过程为:
步骤1.1、获取公开数据集作为训练数据集;采集各个监控摄像头下的所有行人图像作为测试数据集;测试数据集中包含查询集和图库集两部分,查询集是当前待查询行人图像的集合,图库集是与查询集进行匹配的候选行人图像的集合;数据集中的数据均为RGB图像;
步骤1.2、将训练数据集中的原始图像采用SPIN方法生成行人对应的三维人体结构,三维人体结构中包含行人的体型信息以及姿态信息;SPIN为一种通过单幅图像生成三维人体结构的方法;
步骤1.3、将训练数据集中的原始图像采用SCHP方法生成行人人体解析图像,根据人体解析图像将原始图像中衣服部分的RGB值设置为黑色,得到遮挡衣服图像;SCHP为人体解析自校正方法;
步骤1.4、将原始图像和遮挡衣服图像的大小均调整为384*192像素。
3.根据权利要求1所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤2中,基于语义一致性的换装行人重识别网络模型包括三部分,分别为:遮挡衣服图像处理部分、原始图像处理部分和三维人体处理部分;遮挡衣服图像处理部分包括解码器1和降维操作;原始图像处理部分包含解码器1、特征切分模块和降维操作;三维人体处理部分包括解码器2和降维操作;解码器1和解码器2均为ResNet结构,但计算时二者内部参数不同;降维操作包含平均池化、最大池化和归一化三个步骤;ResNet为深度残差网络。
4.根据权利要求3所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤2中,基于语义一致性的换装行人重识别网络模型的工作过程为:
步骤2.1、将原始图像输入解码器1得到原始图像特征图,将遮挡衣服图像输入到和原始图像共享参数的解码器1中得到遮挡衣服图像特征图/>,其中/>和/>表示特征图的高和宽,/>表示维度的大小;
步骤2.2、将、/>分别在通道维度进行池化获得池化后的结果/>、,即将通道维数压缩为1;
步骤2.3、、/>分别经过降维操作得到原始图像特征/>、遮挡衣服图像特征/>;
步骤2.4、将输入特征切分模块,特征切分模块对整个/>进行切分得到若干个切分子特征,给各个切分子特征分配一个特征权重,各个切分子特征的特征权重在网络优化过程中自动更新,学习获得的权重经过 softmax 函数后与切分子特征相乘得到切分特征;
步骤2.5、将三维人体结构输入到解码器2中,得到三维人体特征图,/>经过降维操作得到三维人体特征/>。
5.根据权利要求4所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤3的具体过程为:
步骤3.1、计算原始图像特征图和遮挡衣服图像特征图的一致性损失,一致性损失的计算公式如下:
(1);
其中,为图像序号索引;/>为样本总数;
步骤3.2、将和/>分别和/>计算交互损失,并将两个交互损失相加得到总交互损失/>,计算公式为:
(3);
步骤3.3、构建交叉熵损失函数,计算公式为:
(4);
其中,表示行人标签;/>表示预测的行人标签;
构建难样本采样三元组损失函数,计算公式为:
(5);
其中,为不同行人的数量;/>为不同图像的数量;/>为训练批次;/>为与基准图像最不相像的正样本;/>为与图像/>具有相同身份的图像集;/>为基准图像和最不像的正样本间的距离;/>为与基准图像最相像的负样本;/>为与图像/>具有不同身份的图像集;为基准图像和最像的负样本间的距离;/>是可调节的阈值参数;
步骤3.4、最终,训练过程的整体损失函数被定义为:
(6);
其中,为超参数,用于平衡一致性损失的重要性。
6.根据权利要求5所述基于语义一致性的换装行人重识别方法,其特征在于,所述步骤4的具体过程为:
步骤4.1、将测试数据集的查询集和图库集作为步骤3训练完成的换装行人重识别模型的输入,将模型输出三维人体特征和原始图像特征/>在通道维度拼接到一起,得到最终的行人特征/>;
步骤4.2、计算查询集中行人图像与图库集各行人图像的相似度;
相似度计算公式为:
(7);
其中,为查询集的行人图像/>与图库集的行人图像/>的相似度;/>表示查询集的行人图像/>的特征向量,/>表示图库集的行人图像/>的特征向量,/>表示查询集的行人图像/>的特征向量的模长,/>表示图库集的行人图像/>的特征向量的模长;
步骤4.3、将所有相似度的取值按照由高到低的顺序进行排序,将相似度值最高的前十张行人图像作为重识别结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410097183.7A CN117612112B (zh) | 2024-01-24 | 2024-01-24 | 一种基于语义一致性的换装行人重识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410097183.7A CN117612112B (zh) | 2024-01-24 | 2024-01-24 | 一种基于语义一致性的换装行人重识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117612112A true CN117612112A (zh) | 2024-02-27 |
CN117612112B CN117612112B (zh) | 2024-04-30 |
Family
ID=89956522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410097183.7A Active CN117612112B (zh) | 2024-01-24 | 2024-01-24 | 一种基于语义一致性的换装行人重识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117612112B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201318472D0 (en) * | 2013-10-18 | 2013-12-04 | Vision Semantics Ltd | Visual data mining |
US20130343642A1 (en) * | 2012-06-21 | 2013-12-26 | Siemens Corporation | Machine-learnt person re-identification |
CN109871750A (zh) * | 2019-01-02 | 2019-06-11 | 东南大学 | 一种基于骨架图序列异常关节修复的步态识别方法 |
CN113158739A (zh) * | 2021-01-28 | 2021-07-23 | 中山大学 | 基于注意力机制的孪生网络解决换装行人重识别的方法 |
CN114998934A (zh) * | 2022-06-27 | 2022-09-02 | 山东省人工智能研究院 | 基于多模态智能感知和融合的换衣行人重识别和检索方法 |
CN116343267A (zh) * | 2023-05-31 | 2023-06-27 | 山东省人工智能研究院 | 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置 |
CN116343265A (zh) * | 2023-03-29 | 2023-06-27 | 西安交通大学 | 一种全监督视频行人重识别方法、系统、设备及介质 |
-
2024
- 2024-01-24 CN CN202410097183.7A patent/CN117612112B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130343642A1 (en) * | 2012-06-21 | 2013-12-26 | Siemens Corporation | Machine-learnt person re-identification |
GB201318472D0 (en) * | 2013-10-18 | 2013-12-04 | Vision Semantics Ltd | Visual data mining |
CN109871750A (zh) * | 2019-01-02 | 2019-06-11 | 东南大学 | 一种基于骨架图序列异常关节修复的步态识别方法 |
CN113158739A (zh) * | 2021-01-28 | 2021-07-23 | 中山大学 | 基于注意力机制的孪生网络解决换装行人重识别的方法 |
CN114998934A (zh) * | 2022-06-27 | 2022-09-02 | 山东省人工智能研究院 | 基于多模态智能感知和融合的换衣行人重识别和检索方法 |
CN116343265A (zh) * | 2023-03-29 | 2023-06-27 | 西安交通大学 | 一种全监督视频行人重识别方法、系统、设备及介质 |
CN116343267A (zh) * | 2023-05-31 | 2023-06-27 | 山东省人工智能研究院 | 衣物屏蔽网络的人体高级语义换衣行人重识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN117612112B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN110598554B (zh) | 基于对抗学习的多人姿态估计方法 | |
CN111259786B (zh) | 一种基于视频的外观和运动信息同步增强的行人重识别方法 | |
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
CN112818931A (zh) | 基于多粒度深度特征融合的多尺度行人重识别方法 | |
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN110598543B (zh) | 基于属性挖掘和推理的模型训练方法及行人再识别方法 | |
CN105139004B (zh) | 基于视频序列的人脸表情识别方法 | |
CN111738143B (zh) | 一种基于期望最大化的行人重识别方法 | |
CN109934195A (zh) | 一种基于信息融合的反欺骗三维人脸识别方法 | |
CN111027377B (zh) | 一种双流神经网络时序动作定位方法 | |
CN104077742B (zh) | 基于Gabor特征的人脸素描合成方法及系统 | |
CN111985332B (zh) | 一种基于深度学习的改进损失函数的步态识别方法 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN114299542A (zh) | 一种基于多尺度特征融合的视频行人重识别方法 | |
CN112329771B (zh) | 一种基于深度学习的建筑材料样本识别方法 | |
CN116704611A (zh) | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 | |
CN111340758A (zh) | 一种基于深度神经网络的高效虹膜图像质量评价新方法 | |
CN115909407A (zh) | 一种基于人物属性辅助的跨模态行人重识别方法 | |
CN111126155B (zh) | 一种基于语义约束生成对抗网络的行人再识别方法 | |
CN111797705A (zh) | 一种基于人物关系建模的动作识别方法 | |
CN115661754A (zh) | 一种基于维度融合注意力的行人重识别方法 | |
CN115439884A (zh) | 一种基于双分支自注意力网络的行人属性识别方法 | |
Pang et al. | Analysis of computer vision applied in martial arts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |