CN109190470B

CN109190470B - 行人重识别方法及装置

Info

Publication number: CN109190470B
Application number: CN201810843200.1A
Authority: CN
Inventors: 葛艺潇; 李卓婉; 赵海宇; 伊帅; 王晓刚; 李鸿升
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2022-09-27
Anticipated expiration: 2038-07-27
Also published as: CN109190470A

Abstract

本发明实施例提供了行人重识别方法及装置，包括：获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集；利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，其中，对抗生成网络通过关键点信息和行人的身份表示信息训练得到；获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度；响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。本发明实施例，可以提高行人识别的准确性。

Description

行人重识别方法及装置

技术领域

本发明涉及计算机视觉技术领域，具体涉及行人重识别方法及装置。

背景技术

为了保证人身安全、财产安全等，摄像头监控已成为监控的一种重要方式，同时如何识别图像中的人物也成为一个亟待解决的技术问题。目前，一种常见的行人重识别方法为：提取图像中人物的人物特征，根据人物特征识别人物。然而，由于图像中人物姿态的多样性，以致无法通过人物特征准确地识别出行人。

发明内容

本发明实施例提供行人重识别方法及装置，用于提高行人识别的准确性。

本发明实施例第一方面提供一种行人重识别方法，包括：

获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集；

利用预先训练的对抗生成网络分别从所述查询图像和所述图像集中提取所述目标对象的身份特征和所述图像集对应的至少一组身份特征，其中，所述对抗生成网络通过关键点信息和行人的身份表示信息训练得到；

获取所述目标对象的身份特征与所述至少一组身份特征中每个身份特征的相似度；

响应于所述相似度符合预定条件的情况，从所述图像集中获取至少一张目标图像。

在一个实施例中，所述对抗生成网络包括图像编码器、生成器和辨别器，对抗生成网络的训练过程包括：

获取样本行人图像集、关键点信息和噪声；

将所述样本行人图像集中任意两张行人图像输入所述图像编码器，得到与所述两张行人图像对应的两个身份表示信息；

将所述两个身份表示信息、所述关键点信息和所述噪声输入所述生成器，获得两张生成图像；

根据所述两张行人图像、所述关键点信息、所述两个身份表示信息、所述两张生成图像和所述辨别器，确定总损失；

根据所述总损失优化所述图像编码器和所述生成器，获得训练的对抗生成网络。

在一个实施例中，所述辨别器包括验证辨别器、身份辨别器和姿态辨别器，所述根据所述两张行人图像、所述关键点信息、所述两个身份表示信息、所述两张生成图像和所述辨别器，确定总损失包括：

将所述两个身份表示信息输入所述验证辨别器，确定第一损失；

将所述两张行人图像、所述两张生成图像和两张真实图像输入所述身份辨别器，确定第二损失，所述真实图像为所述生成图像对应的真实图像；

将所述关键点信息、所述两张生成图像和所述两张真实图像输入所述姿态辨别器，确定第三损失；

根据所述两张生成图像和所述两张真实图像，确定第四损失；

根据所述两张生成图像，确定第五损失；

将所述第一损失、所述第二损失、所述第三损失、所述第四损失和所述第五损失进行加权叠加，获得总损失。

在一个实施例中，所述将所述两个身份表示信息输入所述验证辨别器，确定第一损失包括：

获取所述两个身份表示信息之间的第一相似度；

将所述第一相似度依次经过平方运算、BN层、全连接层和归一化层，获得所述两个身份表示信息属于同一行人的概率；

根据所述概率，计算第一损失。

在一个实施例中，所述将所述两张行人图像、所述两张生成图像和两张真实图像输入所述身份辨别器，确定第二损失包括：

将第一图像和第二图像输入所述身份辨别器，获得所述第一图像和所述第二图像属于同一行人的概率，所述第一图像为所述两张行人图像中的任一图像，所述第二图像为所述第一图像对应的生成图像和真实图像中的任一图像；

根据所述概率，计算第二损失。

在一个实施例中，所述将第一图像和第二图像输入所述身份辨别器，获得所述第一图像和所述第二图像属于同一行人的概率包括：

分别对第一图像和第二图像进行特征提取，得到第一特征以及第二特征；

获取所述第一特征与所述第二特征之间的第二相似度；

将所述第二相似度依次经过平方运算、BN层、全连接层和归一化处理，得到所述第一图像和所述第二图像属于同一行人的第一概率。

在一个实施例中，所述将所述关键点信息、所述两张生成图像和所述两张真实图像输入所述姿态辨别器，确定第三损失包括：

将所述关键点信息和第三图像输入所述姿态辨别器，获得所述关键点信息和所述第三图像的姿势属于同一姿势的匹配度，所述第三图像是所述两张生成图像和所述两张真实图像中的任一图像；

根据所述匹配度，计算第三损失。

在一个实施例中，所述将所述关键点信息和第三图像输入所述姿态辨别器，获得所述关键点信息和所述第三图像的姿势属于同一姿势的匹配度包括：

将所述关键点信息和所述第三图像沿通道方向进行连接，获得连接特征；

将所述连接特征依次经过卷积-ReLU模块和归一化层，获得所述关键点信息和所述第三图像的姿势属于同一姿势的匹配度。

在一个实施例中，所述根据所述两张生成图像和所述两张真实图像，确定第四损失包括：

计算第四图像和第五图像对应像素位置像素差的绝对值的平均值，获得均值，所述第四图像为所述两张行人图像中的任一图像，所述第五图像为所述两张真实图像中所述第四图像对应的真实图像；

根据所述均值，计算第四损失。

在一个实施例中，所述根据所述两张生成图像，确定第五损失包括：

计算所述两张生成图像对应像素位置像素差的绝对值的平均值，获得第五损失。

本发明实施例第二方面提供一种行人重识别装置，包括：

第一获取单元，用于获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集；

提取单元，用于利用预先训练的对抗生成网络分别从所述第一获取单元获取的查询图像和所述图像集中提取所述目标对象的身份特征和所述图像集对应的至少一组身份特征，其中，所述对抗生成网络通过关键点信息和行人的身份表示信息训练得到；

第二获取单元，用于获取所述提取单元提取的目标对象的身份特征与所述至少一组身份特征中每个身份特征的相似度；

第三获取单元，用于响应于所述第二获取单元获取的相似度符合预定条件的情况，从所述第一获取单元获取的图像集中获取至少一张目标图像。

在一个实施例中，所述对抗生成网络包括图像编码器、生成器和辨别器，所述装置还包括：

训练单元，用于训练对抗生成网络；

其中，训练过程包括：

获取样本行人图像集、关键点信息和噪声；

根据所述两张生成图像，确定第五损失；

获取所述两个身份表示信息之间的第一相似度；

根据所述概率，计算第一损失。

根据所述概率，计算第二损失。

获取所述第一特征与所述第二特征之间的第二相似度；

根据所述匹配度，计算第三损失。

根据所述均值，计算第四损失。

本发明实施例中，获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。由于身份特征可以唯一标识行人，因此，可以直接通过身份特征即可准确地识别出行人，从而可以提高行人识别的准确性。

附图说明

图1是本发明实施例提供的一种行人重识别方法的流程示意图；

图2是本发明实施例提供的另一种行人重识别方法的流程示意图；

图3是本发明实施例提供的一种行人重识别装置的结构示意图；

图4是本发明实施例提供的另一种行人重识别装置的结构示意图。

具体实施方式

本发明实施例提供行人重识别方法及装置，用于提高行人识别的准确性。以下分别进行详细说明。

请参阅图1，图1是本发明实施例提供的一种行人重识别方法的流程示意图。如图1所示，该行人重识别方法可以包括以下步骤。

101、获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集。

本实施例中，当需要对行人进行重识别时，可以获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集。包含目标对象的查询图像可以只包括目标对象，也可以包括目标对象和其它行人。图像集中每张图像可以包括一个行人，也可以包括多个行人。

102、利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征。

本实施例中，获取到包含目标对象的查询图像和包括至少一张待搜索图像的图像集之后，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征。查询图像只需要提取目标对象的身份特征，而图像集中每张图像均需要提取图像中所有行人的身份特征。一组身份特征可以唯一标识一个行人。对抗生成网络是通过关键点信息和行人的身份表示信息训练得到的，关键点信息是人体关键部位的概率密度图，关键点信息不同对应的姿势不同。其中，人体关键部位包括人体18个关键部位，分别为鼻子、脖子、左肩膀、右肩膀、左手腕、右手腕、左胳膊肘、右胳膊肘、左臀、右臀、左膝盖、右膝盖、左脚踝、右脚踝、左眼、右眼、左耳、右耳。身份表示信息是可视化的身份特征，以向量的形式表示。

103、获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度。

本实施例中，利用预先训练的对抗生成网络分别从查询图像和图像集中提取出目标对象的身份特征和图像集对应的至少一组身份特征之后，获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度，即计算目标对象的身份特征与至少一组身份特征中每个身份特征的相似度。相似度可以是通过计算两个身份特征之间的距离得到的，也可以是通过其它方式计算得到的，本实施例不作限定。

104、响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。

本实施例中，获取到目标对象的身份特征与至少一组身份特征中每个身份特征的相似度之后，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。可以是从目标对象的身份特征与每张待搜索图像中每个行人的身份特征的相似度中选取最大的相似度，并判断最大的相似度是否大于阈值，当最大的相似度大于阈值时，表明该待搜索图像包括目标对象，将该待搜索图像确定为一张目标图像。当最大的相似度不大于阈值时，表明该待搜索图像不包括目标对象。也可以是判断目标对象的身份特征与每张待搜索图像中每个行人的身份特征的相似度中是否存在大于阈值的相似度，当存在大于阈值的相似度时，表明该待搜索图像包括目标对象，将该待搜索图像确定为一张目标图像。当不存在大于阈值的相似度时，表明该待搜索图像不包括目标对象。

在图1所描述的行人重识别方法中，获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。由于身份特征可以唯一标识行人，因此，可以直接通过身份特征即可准确地识别出行人，从而可以提高行人识别的准确性。

请参阅图2，图2是本发明实施例提供的另一种行人重识别方法的流程示意图。如图2所示，该行人重识别方法可以包括以下步骤。

201、训练对抗生成网络。

本实施例中，对抗生成网络包括图像编码器、生成器和辨别器，训练对抗生成网络，可以先获取样本行人图像集、关键点信息和噪声。噪声是随机噪声，可以为随机标准高斯白噪声，以便增加输出的多样性，由于噪声是随机的，以致噪声不同时输出的图像会不同，可以在训练的时候增强网络的鲁棒性。之后将样本行人图像集中任意两张行人图像输入图像编码器，得到与两张行人图像对应的两个身份表示信息，即图像编码器将样本行人图像集中任意两张行人图像编码为两个身份特征向量，图像编码器可以为深度残差网络。

之后将两个身份表示信息、关键点信息和噪声输入生成器获得两张生成图像，在将关键点信息输入生成器之前，先需要经过姿势编码器将关键点信息编码为姿势特征向量，生成图像具有与行人图像相同的身份表示信息，以及具有与关键点信息相同的姿势，即生成图像是生成的关键点信息指定姿势下的身份表示信息对应行人的图像。

最后根据两张行人图像、关键点信息、两个身份表示信息、两张生成图像和辨别器确定总损失，并根据总损失优化图像编码器和生成器获得训练的对抗生成网络，即根据总损失优化图像编码器和生成器的参数得到训练的对抗生成网络。

本实施例中，辨别器可以包括验证辨别器、身份辨别器和姿态辨别器。验证辨别器，用于确定图像编码器输出的两个身份表示信息属于同一行人的概率，该概率为介于0和1之间的值。身份辨别器，用于区分生成图像与对应的行人图像属于同一行人的概率，该概率为介于0和1之间的值。姿态辨别器，用于区分生成图像与关键点信息的姿势的匹配度，姿态辨别器输出的是图像姿势匹配度图，每个位置表示生成图像与关键点信息的姿势的匹配度，该匹配度为介于0和1之间的值。根据两张行人图像、关键点信息、两个身份表示信息、两张生成图像和辨别器确定总损失，即根据两张行人图像、关键点信息、两个身份表示信息、两张生成图像、辨别器和总损失函数确定总损失，总损失函数包括验证损失函数、身份损失函数、姿势损失函数、重构损失函数和条件损失函数。

本实施例中，可以将两个身份表示信息输入验证辨别器确定第一损失，即将两个身份表示信息输入验证辨别器获得两个身份表示信息属于同一行人的概率，之后根据概率和验证损失函数计算第一损失。其中，验证损失函数可以表示如下：

L_v＝-Clogd(x₁,x₂)-(1-C)(1-logd(x₁,x₂))

其中，x₁和x₂分别表示两个身份表示信息，d(x₁,x₂)表示验证辨别器的输出，当输入图像编码器的两张行人图像属于同一行人的图像时，C为1，当输入图像编码器的两张行人图像属于不同行人的图像时，C为0。将两个身份表示信息输入验证辨别器获得两个身份表示信息属于同一行人的概率，可以是获取两个身份表示信息之间的第一相似度，即计算两个身份表示信息之间的差值向量(距离)获得第一相似度，也即将两个身份表示信息经过差值运算，之后将第一相似度依次经过平方运算、批量标准化(Batch Normalization，BN)层、全连接(fully-connected)层和归一化层获得两个身份表示信息属于同一行人的概率。归一化层包括非线性激活函数，可以为sigmoid函数，也可以为ReLU函数，还可以为其它非线性激活函数，本实施例不作限定。

本实施例中，可以将两张行人图像、两张生成图像和两张真实图像输入所述身份辨别器确定第二损失，即将第一图像和第二图像输入身份辨别器获得第一图像和第二图像属于同一行人的概率，根据该概率计算第二损失。第一图像为两张行人图像中的任一图像，第二图像为第一图像对应的生成图像和真实图像中的任一图像真实图像为生成图像对应的真实图像。也即将第一行人图像和第一生成图像输入身份辨别器获得第一行人图像和第一生成图像属于同一行人的第一概率，将第一行人图像和第一真实图像输入身份辨别器获得第一行人图像和第一真实图像属于同一行人的第二概率，将第二行人图像和第二生成图像输入身份辨别器获得第二行人图像和第二生成图像属于同一行人的第三概率，将第二行人图像和第二真实图像输入身份辨别器获得第二行人图像和第二真实图像属于同一行人的第四概率，根据第一概率、第二概率、第三概率、第四概率和身份损失函数计算第二损失。其中，第一行人图像与第二生成图像是上述两张行人图像，第一生成图像是上述两张生成图像中第一行人图像对应的生成图像，第二生成图像是上述两张生成图像中第二行人图像对应的生成图像，第一真实图像是两张真实图像中第一生成图像对应的真实图像，第二真实图像是两张真实图像中第二生成图像对应的真实图像。其中，身份损失函数可以表示如下：

其中，E表示数学期望，x_k表示行人图像，y_k表示生成图像，y'_k表示真实图像，D_id表示身份辨别器的输出。将第一图像和第二图像输入身份辨别器获得第一图像和第二图像属于同一行人的概率，可以先通过编码器分别对第一图像和第二图像进行特征提取得到第一特征以及第二特征，获取第一特征与第二特征之间的第二相似度，将第二相似度依次经过平方运算、BN层、全连接层和归一化处理得到第一图像和第二图像属于同一行人的第一概率。此处的编码器与图像编码器的结构可以相同，但参数不同。其中，真实图像为拍摄的关键点信息指定姿势下的身份表示信息对应行人的图像。

本实施例中，可以将关键点信息、两张生成图像和两张真实图像输入姿态辨别器确定第三损失，即将关键点信息和第三图像输入姿态辨别器获得关键点信息和第三图像的姿势属于同一姿势的匹配度，根据匹配度计算第三损失。第三图像是两张生成图像和两张真实图像中的任一图像。也即是将关键点信息和第一生成图像输入姿态辨别器获得关键点信息和第一生成图像的姿势属于同一姿势的第一匹配度，将关键点信息和第一真实图像输入姿态辨别器获得关键点信息和第一真实图像的姿势属于同一姿势的第二匹配度，将关键点信息和第二生成图像输入姿态辨别器获得关键点信息和第二生成图像的姿势属于同一姿势的第三匹配度，将关键点信息和第二真实图像输入姿态辨别器获得关键点信息和第二真实图像的姿势属于同一姿势的第四匹配度，根据第一匹配度、第二匹配度、第三匹配度、第四匹配度和姿势损失函数计算第三损失。将关键点信息和第三图像输入姿态辨别器获得关键点信息和第三图像的姿势属于同一姿势的匹配度，可以先将关键点信息和第三图像沿通道方向进行连接获得连接特征，之后将连接特征依次经过卷积-ReLU模块和归一化层获得关键点信息和第三图像的姿势属于同一姿势的匹配度。其中，姿势损失函数可以表示为：

其中，p表示关键点信息，D_pd表示姿态辨别器的输出。

本实施例中，根据两张生成图像和两张真实图像确定第四损失，即根据两张生成图像、两张真实图像和重构损失函数确定第四损失，也即计算第四图像和第五图像对应像素位置像素差的绝对值的平均值获得均值，根据该均值计算第四损失，第四图像为两张行人图像中的任一图像，第五图像为两张真实图像中第四图像对应的真实图像。也即计算第一生成图像与第一真实图像对应像素位置像素差的绝对值的平均值获得第一均值，计算第二生成图像与第二真实图像对应像素位置像素差的绝对值的平均值获得第二均值，将第一均值和第二均值相加获得第四损失。其中，重构损失函数可以表示为：

其中，mn表示生成图像和真实图像中像素点的数量。其中，第四损失是为了最小化生成图像和对应的真实图像之间的差异，以便使生成器能够更稳定地收敛。

本实施例中，根据两张生成图像确定第五损失，即根据两张生成图像和条件损失函数确定第五损失，也即计算两张生成图像对应像素位置像素差的绝对值的平均值获得第五损失。其中，条件损失函数可以表示为：

其中，y₁和y₂分别表示两张生成图像。其中，第五损失是为了最小化同一行人的两个生成图像与目标姿势之间的差异。

本实施例中，之后将第一损失、第二损失、第三损失、第四损失和第五损失进行加权叠加获得总损失。其中，总损失函数可以表示如下：

L＝L_v+λ_idL_id+λ_pdL_pd+λ_rL_r+λ_spL_sp

其中，λ表示权重。

202、获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集。

203、利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征。

本实施例中，获取到包含目标对象的查询图像和包括至少一张待搜索图像的图像集之后，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征。查询图像只需要提取目标对象的身份特征，而图像集中每张图像均需要提取图像中所有行人的身份特征。一个身份特征可以唯一标识一个行人。对抗生成网络是通过关键点信息和行人的身份表示信息训练得到的，关键点信息是人体关键部位的概率密度图，关键点信息不同对应的姿势不同。其中，人体关键部位包括人体18个关键部位，分别为鼻子、脖子、左肩膀、右肩膀、左手腕、右手腕、左胳膊肘、右胳膊肘、左臀、右臀、左膝盖、右膝盖、左脚踝、右脚踝、左眼、右眼、左耳、右耳。身份表示信息是可视化的身份特征，以向量的形式表示。

204、获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度。

205、响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。

本实施例中，获取到目标对象的身份特征与至少一组身份特征中每个身份特征的相似度之后，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像，可以是从目标对象的身份特征与每张待搜索图像中每个行人的身份特征的相似度中选取最大的相似度，并判断最大的相似度是否大于阈值，当最大的相似度大于阈值时，表明该待搜索图像包括目标对象，将该待搜索图像确定为一张目标图像。当最大的相似度不大于阈值时，表明该待搜索图像不包括目标对象。也可以是判断目标对象的身份特征与每张待搜索图像中每个行人的身份特征的相似度中是否存在大于阈值的相似度，当存在大于阈值的相似度时，表明该待搜索图像包括目标对象，将该待搜索图像确定为一张目标图像。当不存在大于阈值的相似度时，表明该待搜索图像不包括目标对象。

在图2所描述的行人重识别方法中，训练对抗生成网络，获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。由于身份特征可以唯一标识行人，因此，可以直接通过身份特征即可准确地识别出行人，从而可以提高行人识别的准确性。

请参阅图3，图3是本发明实施例提供的一种行人重识别装置的结构示意图。如图3所示，该装置可以包括：

第一获取单元301，用于获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集；

提取单元302，用于利用预先训练的对抗生成网络分别从第一获取单元301获取的查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，其中，对抗生成网络通过关键点信息和行人的身份表示信息训练得到；

第二获取单元303，用于获取提取单元302提取的目标对象的身份特征与至少一组身份特征中每个身份特征的相似度；

第三获取单元304，用于响应于第二获取单元303获取的相似度符合预定条件的情况，从第一获取单元301获取的图像集中获取至少一张目标图像。

作为一种可能的实施方式，对抗生成网络包括图像编码器、生成器和辨别器，该装置还可以包括：

训练单元305，用于训练对抗生成网络；

其中，训练过程包括：

获取样本行人图像集、关键点信息和噪声；

将样本行人图像集中任意两张行人图像输入图像编码器，得到与两张行人图像对应的两个身份表示信息；

将两个身份表示信息、关键点信息和噪声输入生成器，获得两张生成图像；

根据两张行人图像、关键点信息、两个身份表示信息、两张生成图像和辨别器，确定总损失；

根据总损失优化图像编码器和生成器，获得训练的对抗生成网络。

具体地，提取单元302利用训练单元305预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征。

作为一种可能的实施方式，辨别器包括验证辨别器、身份辨别器和姿态辨别器，根据两张行人图像、关键点信息、两个身份表示信息、两张生成图像和辨别器，确定总损失包括：

将两个身份表示信息输入验证辨别器，确定第一损失；

将两张行人图像、两张生成图像和两张真实图像输入身份辨别器，确定第二损失，真实图像为生成图像对应的真实图像；

将关键点信息、两张生成图像和两张真实图像输入姿态辨别器，确定第三损失；

根据两张生成图像和两张真实图像，确定第四损失；

根据两张生成图像，确定第五损失；

将第一损失、第二损失、第三损失、第四损失和第五损失进行加权叠加，获得总损失。

作为一种可能的实施方式，将两个身份表示信息输入验证辨别器，确定第一损失包括：

获取两个身份表示信息之间的第一相似度；

将第一相似度依次经过平方运算、BN层、全连接层和归一化层，获得两个身份表示信息属于同一行人的概率；

根据概率，计算第一损失。

作为一种可能的实施方式，将两张行人图像、两张生成图像和两张真实图像输入身份辨别器，确定第二损失包括：

将第一图像和第二图像输入身份辨别器，获得第一图像和第二图像属于同一行人的概率，第一图像为两张行人图像中的任一图像，第二图像为第一图像对应的生成图像和真实图像中的任一图像；

根据概率，计算第二损失。

作为一种可能的实施方式，将第一图像和第二图像输入身份辨别器，获得第一图像和第二图像属于同一行人的概率包括：

获取第一特征与第二特征之间的第二相似度；

将第二相似度依次经过平方运算、BN层、全连接层和归一化处理，得到第一图像和第二图像属于同一行人的第一概率。

作为一种可能的实施方式，将关键点信息、两张生成图像和两张真实图像输入姿态辨别器，确定第三损失包括：

将关键点信息和第三图像输入姿态辨别器，获得关键点信息和第三图像的姿势属于同一姿势的匹配度，第三图像是两张生成图像和两张真实图像中的任一图像；

根据匹配度，计算第三损失。

作为一种可能的实施方式，将关键点信息和第三图像输入姿态辨别器，获得关键点信息和第三图像的姿势属于同一姿势的匹配度包括：

将关键点信息和第三图像沿通道方向进行连接，获得连接特征；

将连接特征依次经过卷积-ReLU模块和归一化层，获得关键点信息和第三图像的姿势属于同一姿势的匹配度。

作为一种可能的实施方式，根据两张生成图像和两张真实图像，确定第四损失包括：

计算第四图像和第五图像对应像素位置像素差的绝对值的平均值，获得均值，第四图像为两张行人图像中的任一图像，第五图像为两张真实图像中第四图像对应的真实图像；

根据均值，计算第四损失。

作为一种可能的实施方式，根据两张生成图像，确定第五损失包括：

计算两张生成图像对应像素位置像素差的绝对值的平均值，获得第五损失。

在图3所描述的行人重识别装置中，训练对抗生成网络，获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。由于身份特征可以唯一标识行人，因此，可以直接通过身份特征即可准确地识别出行人，从而可以提高行人识别的准确性。

请参阅图4，图4是本发明实施例提供的另一种行人重识别装置的结构示意图。如图4所示，该装置可以包括：至少一个处理器401，如CPU，存储器402以及至少一个总线403。存储器402可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。可选地，存储器402还可以是至少一个位于远离前述处理器401的存储装置。其中：

总线403，用于实现这些组件之间的连接通信；

存储器402中存储有一组程序代码，处理器401用于调用存储器402中存储的程序代码执行以下操作：

利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，其中，对抗生成网络通过关键点信息和行人的身份表示信息训练得到；

获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度；

响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。

作为一种可能的实施方式，对抗生成网络包括图像编码器、生成器和辨别器，处理器401还用于调用存储器402中存储的程序代码执行以下操作：

训练对抗生成网络，

其中，训练过程包括：

获取样本行人图像集、关键点信息和噪声；

将两个身份表示信息输入验证辨别器，确定第一损失；

根据两张生成图像和两张真实图像，确定第四损失；

根据两张生成图像，确定第五损失；

获取两个身份表示信息之间的第一相似度；

根据概率，计算第一损失。

根据概率，计算第二损失。

获取第一特征与第二特征之间的第二相似度；

根据匹配度，计算第三损失。

根据均值，计算第四损失。

在图4所描述的行人重识别装置中，训练对抗生成网络，获取包含目标对象的查询图像和包括至少一张待搜索图像的图像集，利用预先训练的对抗生成网络分别从查询图像和图像集中提取目标对象的身份特征和图像集对应的至少一组身份特征，获取目标对象的身份特征与至少一组身份特征中每个身份特征的相似度，响应于相似度符合预定条件的情况，从图像集中获取至少一张目标图像。由于身份特征可以唯一标识行人，因此，可以直接通过身份特征即可准确地识别出行人，从而可以提高行人识别的准确性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、ROM、RAM、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种行人重识别方法，其特征在于，包括：

响应于所述相似度符合预定条件的情况，从所述图像集中获取至少一张目标图像；

所述对抗生成网络包括图像编码器、生成器和辨别器，对抗生成网络的训练过程包括：

获取样本行人图像集、关键点信息和噪声；

2.根据权利要求1所述的方法，其特征在于，所述辨别器包括验证辨别器、身份辨别器和姿态辨别器，所述根据所述两张行人图像、所述关键点信息、所述两个身份表示信息、所述两张生成图像和所述辨别器，确定总损失包括：

根据所述两张生成图像，确定第五损失；

3.根据权利要求2所述的方法，其特征在于，所述将所述两个身份表示信息输入所述验证辨别器，确定第一损失包括：

获取所述两个身份表示信息之间的第一相似度；

根据所述概率，计算第一损失。

4.根据权利要求2所述的方法，其特征在于，所述将所述两张行人图像、所述两张生成图像和两张真实图像输入所述身份辨别器，确定第二损失包括：

根据所述概率，计算第二损失。

5.根据权利要求4所述的方法，其特征在于，所述将第一图像和第二图像输入所述身份辨别器，获得所述第一图像和所述第二图像属于同一行人的概率包括：

获取所述第一特征与所述第二特征之间的第二相似度；

6.根据权利要求2所述的方法，其特征在于，所述将所述关键点信息、所述两张生成图像和所述两张真实图像输入所述姿态辨别器，确定第三损失包括：

根据所述匹配度，计算第三损失。

7.根据权利要求6所述的方法，其特征在于，所述将所述关键点信息和第三图像输入所述姿态辨别器，获得所述关键点信息和所述第三图像的姿势属于同一姿势的匹配度包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述两张生成图像和所述两张真实图像，确定第四损失包括：

根据所述均值，计算第四损失。

9.根据权利要求8所述的方法，其特征在于，所述根据所述两张生成图像，确定第五损失包括：

10.一种行人重识别装置，其特征在于，包括：

第三获取单元，用于响应于所述第二获取单元获取的相似度符合预定条件的情况，从所述第一获取单元获取的图像集中获取至少一张目标图像；

所述对抗生成网络包括图像编码器、生成器和辨别器，所述装置还包括：

训练单元，用于训练对抗生成网络；

其中，训练过程包括：

获取样本行人图像集、关键点信息和噪声；

11.根据权利要求10所述的装置，其特征在于，所述辨别器包括验证辨别器、身份辨别器和姿态辨别器，所述根据所述两张行人图像、所述关键点信息、所述两个身份表示信息、所述两张生成图像和所述辨别器，确定总损失包括：

根据所述两张生成图像，确定第五损失；

12.根据权利要求11所述的装置，其特征在于，所述将所述两个身份表示信息输入所述验证辨别器，确定第一损失包括：

获取所述两个身份表示信息之间的第一相似度；

根据所述概率，计算第一损失。

13.根据权利要求11所述的装置，其特征在于，所述将所述两张行人图像、所述两张生成图像和两张真实图像输入所述身份辨别器，确定第二损失包括：

根据所述概率，计算第二损失。

14.根据权利要求13所述的装置，其特征在于，所述将第一图像和第二图像输入所述身份辨别器，获得所述第一图像和所述第二图像属于同一行人的概率包括：

获取所述第一特征与所述第二特征之间的第二相似度；

15.根据权利要求11所述的装置，其特征在于，所述将所述关键点信息、所述两张生成图像和所述两张真实图像输入所述姿态辨别器，确定第三损失包括：

根据所述匹配度，计算第三损失。

16.根据权利要求15所述的装置，其特征在于，所述将所述关键点信息和第三图像输入所述姿态辨别器，获得所述关键点信息和所述第三图像的姿势属于同一姿势的匹配度包括：

17.根据权利要求15所述的装置，其特征在于，所述根据所述两张生成图像和所述两张真实图像，确定第四损失包括：

根据所述均值，计算第四损失。

18.根据权利要求17所述的装置，其特征在于，所述根据所述两张生成图像，确定第五损失包括：