CN110175527B

CN110175527B - 行人再识别方法及装置、计算机设备及可读介质

Info

Publication number: CN110175527B
Application number: CN201910355601.7A
Authority: CN
Inventors: 王之港; 王健; 文石磊; 丁二锐; 孙昊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2022-03-25
Anticipated expiration: 2039-04-29
Also published as: US11379696B2; US20200342271A1; CN110175527A

Abstract

本发明提供一种行人再识别方法及装置、计算机设备及可读介质。其方法包括：采集包括有行人图像的目标图像和待识别图像；基于预先训练的特征提取模型，分别获取所述目标图像的特征表达和所述待识别图像的特征表达；其中所述特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到；根据所述目标图像的特征表达和所述待识别图像的特征表达，识别所述待识别图像中的行人是否与所述目标图像中的行人为同一行人。本发明的行人再识别方案，采用上述特征提取模型进行行人再识别时，能够有效地提高行人再识别的准确性。

Description

行人再识别方法及装置、计算机设备及可读介质

【技术领域】

本发明涉及计算机应用技术领域，尤其涉及一种行人再识别方法及装置、计算机设备及可读介质。

【背景技术】

跨摄像头条件下的行人再识别是人体跟踪、安防监控等领域的一项重要内容。

目前，行人再识别技术有很多种实现方案，例如，对于某个摄像头拍摄的目标图像中的行人，可以由人工来监控其他摄像头拍摄的图像中是否包括该行人，从而实现行人再识别。但是这种人工监控的压力很大，且主观性较强，准确性较差。为了克服人工监控的缺陷，现有技术中还提出了一种基于人体全局特征进行行人再识别。其中基于人体全局特征的行人再识别方法，通过设计复杂的深度分类神经网络来提取行人图片的全局特征，或是通过度量学习方法在特征空间中将相同身份的行人图片拉近，将不同身份的行人图片推远来进行全局特征的学习。

但是，现有的基于人体全局特征进行行人再识别的技术方案，在处理整体外观较为相似的不同身份的行人时容易出现识别错误，导致现有的行人再识别方案的准确性较低。

【发明内容】

本发明提供了一种行人再识别方法及装置、计算机设备及可读介质，用于提高行人再识别的准确性。

本发明提供一种行人再识别方法，所述方法包括：

采集包括有行人图像的目标图像和待识别图像；

基于预先训练的特征提取模型，分别获取所述目标图像的特征表达和所述待识别图像的特征表达；其中所述特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到；

根据所述目标图像的特征表达和所述待识别图像的特征表达，识别所述待识别图像中的行人是否与所述目标图像中的行人为同一行人。

本发明还提供一种行人再识别装置，所述装置包括：

采集模块，用于采集包括有行人图像的目标图像和待识别图像；

提取模块，用于基于预先训练的特征提取模型，分别获取所述目标图像的特征表达和所述待识别图像的特征表达；其中所述特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到；

识别模块，用于根据所述目标图像的特征表达和所述待识别图像的特征表达，识别所述待识别图像中的行人是否与所述目标图像中的行人为同一行人。

本发明还提供一种计算机设备，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的行人再识别方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的行人再识别方法。

本发明的行人再识别方法及装置、计算机设备及可读介质，通过采用上述基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到的特征提取模型，来实现行人再识别，该特征提取模型不仅能够提取到图像自身的细节特征，同时还能够提取到该张图像区别于其他图像的特征，保证该特征提取模型提取的特征表达中包括图像的更多细节信息，且更具有区分性。因此，采用本发明的特征提取模型进行行人再识别时，能够有效地提高行人再识别的准确性。

【附图说明】

图1为本发明的行人再识别方法实施例一的流程图。

图2为本发明的行人再识别方法实施例二的流程图。

图3为本发明提供的特征提取模型的训练原理示意图。

图4为本发明的行人再识别装置实施例一的结构图。

图5为本发明的行人再识别装置实施例二的结构图。

图6为本发明的行人再识别装置实施例三的结构图。

图7为本发明的计算机设备实施例的结构图。

图8为本发明提供的一种计算机设备的示例图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

人工智能(Artificial Intelligence；AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本发明采用AI领域中的神经网络模型为原型，基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征，共同训练得到一种特征提取模型，使得该特征提取模型融合更多细节信息、更具区分性，从而基于该特征提取模型进行行人再识别时，可以大幅提升行人再识别的性能。

图1为本发明的行人再识别方法实施例一的流程图。如图1所示，本实施例的行人再识别方法，具体可以包括如下步骤：

S100、采集包括有行人图像的目标图像和待识别图像；

本实施例的行人再识别方法的执行主体为一行人再识别装置，该行人再识别装置可以为一独立的电子实体，或者也可以为采用软件集成的应用，使用时运行在计算机设备上，以实现行人再识别。

本实施例的行人再识别方法，应用于跨摄像头的场景中，例如，在一个人流量较大的公共场合下，可以采集其中一个摄像头采集的图像，作为目标图像。然后采集其他摄像头采集的图像，作为待识别图像。其中目标图像和待识别图像中都包含有行人图像。本实施例的行人再识别就是检测待识别图像中的行人是否与目标图像中的行人为同一行人。本实施例中，基于同一目标图像，可以采集多个不同摄像头分别采集到的多张待识别图像，依次按照本实施例的技术方案，对每张待识别图像进行行人再识别。

S101、基于预先训练的特征提取模型，分别获取目标图像的特征表达和待识别图像的特征表达；其中特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到；

本实施例中所采用的特征提取模型，用于从目标图像或者待识别图像中提取能够表征对应图像的特征表达。且本实施例的特征提取模型是基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到，这样，由于自注意力特征可以表示基准图像中最具有身份代表性的细节特征，在基准图像中，该注意力特征较为显著；而协同注意力特征可以表示基准图像中不同于参考图像中比较相似的区域的特征，该特征使得基准图像相比较参考图像，具有一定的区分能力，从而可以使得训练后的特征提取模型在对图像进行特征表达提取时，不仅能够提取到图像自身的细节特征，同时还能够提取到该张图像区别于其他图像的特征，保证该特征提取模型提取的全局特征表达中包括图像的更多细节信息，且更具有区分性，进而能够提高行人再识别时的准确性。

S102、根据目标图像的特征表达和待识别图像的特征表达，识别各张待识别图像中的行人是否与目标图像中的行人为同一行人。

本实施例中的特征提取模型，在使用时输出的特征表达可以包括不同形式的特征表达。

例如，若使用时输出的是基础特征表达，该基础特征表达可以为一个3维矩阵，此时根据目标图像的基础特征表达和待识别图像的基础特征表达，识别各张待识别图像中的行人是否与目标图像中的行人为同一行人之前，需要分别对目标图像的基础特征表达和待识别图像的基础特征表达进行全局池化操作，得到目标图像的全局特征表达和待识别图像的全局特征表达。而全局特征表达为一维向量，此时可以参考向量的相似度计算方式，计算目标图像的全局特征表达与待识别图像的全局特征表达的相似度；判断相似度是否大于预设相似度阈值，若是，确定对应的待识别图像中的行人与目标图像中的行人为同一行人；否则不是同一人。本实施例的特征提取模型为一种深度神经网络模型。

本实施例的相似度阈值可以根据实际需求来设置，具体可以为大于或者等于0.5，且小于1的值。

本实施例中的基础特征表达包括目标图像的最详细、最丰富的特征信息；而全局特征表达可以认为是一种更宏观、更概括的特征表达，两者从不同的角度来表达图像的特征信息。

另外，可选地，本实施例中，也可以在行人再识别时，将全局池化操作设置在特征提取模型中，即在特征提取模型中，基于每张图像提取到3维矩阵形式的基础特征表达后，先进行全局池化操作，得到一维向量形式的全局特征表达后，再输出。即在使用时，特征提取模型直接输出的是全局特征表达。

这样，在步骤S101中，特征提取模型输出的目标图像的全局特征表达和待识别图像的全局特征表达均为一维向量形式。此时直接参考向量的相似度计算方式，计算目标图像的全局特征表达与待识别图像的全局特征表达的相似度；判断相似度是否大于预设相似度阈值，若是，确定对应的待识别图像中的行人与目标图像中的行人为同一行人；否则不是同一人。

本实施例的行人再识别方法，通过采用上述实施例中的特征提取模型，来实现行人再识别，本实施例的特征提取模型不仅能够提取到图像自身的细节特征，同时还能够提取到该张图像区别于其他图像的特征，保证该特征提取模型提取的全局特征表达中包括图像的更多细节信息，且更具有区分性。因此，采用本实施例的特征提取模型进行行人再识别时，能够有效地提高行人再识别的准确性。

图2为本发明的行人再识别方法实施例二的流程图。如图2所示，本实施例的行人再识别方法，在上述图1所示实施例的技术方案的基础上，详细介绍图1所示实施例中所采用的特征提取模型的训练过程。本实施例的行人再识别方法，具体可以包括如下步骤：

S200、采集数张训练图像以及每张训练图像中包括的行人的已知标识，一起构成训练图像集；

本实施例所训练的特征提取模型在进行行人再识别时，主要是应用在跨摄像头的场景下。因此，本实施例所采集的数张训练图像具体可以为不同摄像头所采集到的图像，以更加精准地训练实现行人再识别所采用的特征提取模型。本实施例所采集的训练图像中必须包括行人信息，且在训练图像集中，需要标注每一张训练图像中包括的行人的已知标识，该行人的已知标识用于唯一标识对应的图像中的行人身份的信息。因此，不同的行人，对应的已知标识是不相同的。行人的已知标识可以采用文字、字母和/或数字的结合，在此不做限定。

S201、根据训练图像集，生成数组训练数据，每组训练数据中包括一张基准图像和至少一张参考图像；

本实施例中，特征提取模型在训练时要实现基准图像相对于参考图像的协同注意力特征的训练，便要求训练数据中需要包括基准图像和参考图像两部分。因此，在训练之前，需要根据训练图像集，生成数组训练数据。在每一组训练数据中，包括一张基准图像和至少一张参考图像。需要说明的时，本实施例中，若每组训练数据中仅包括一张参考图像，为了保证训练效果，该张参考图像中所包括的行人的已知标识最好和基准图像中所包括的行人的已知标识不同，即参考图像和基准图像中包括的行人不是同一人。而若每组训练数据中包括多张参考图像，多张参考图像中部分参考图像的行人的已知标识与基准图像的已知标识相同，另外部分参考图像的行人的已知标识与基准图像的已知标识不同，即部分参考图像与基准图像中包括的行人是同一人，另外部分参考图像与基准图像中包括的行人不是同一人。

本实施例的训练图像集中的数张训练图像，在生成训练数据组时，每张训练图像可以交替承担不同训练数据组中的基准图像和参考图像的角色。

S202、采用各组训练数据和各组训练数据中基准图像中所包括的行人的已知标识，训练特征提取模型。

例如，本实施例的步骤S202在实现时，至少包括如下基于自注意力特征和基于协同注意力特征的两种方式的训练：

第一种方式、对于各组训练数据，基于对应的训练数据中的基准图像的自注意力特征，训练特征提取模型；

第二种方式、基于对应的训练数据中的基准图像相对于各张参考图像的协同注意力特征，训练特征提取模型。

其中，第一种方式具体可以实现时可以包括如下步骤：

(a1)对于各组训练数据，将对应的训练数据中的基准图像输入至特征提取模型中，获取特征提取模型输出的基准图像的基础特征表达以及检索表达，其中基准图像的检索表达为对基准图像的基础特征表达进行全局池化操作得到的全局特征表达，再进行特征变换而得到；

本实施例中，特征提取模型输出的基准图像的基础特征表达可以为一个全局特征图，具体可以采用一个3维矩阵来表示。该全局特征图中可以包括该基准图像的最全面的特征信息。该基础特征表达可以包括基准图像中每一个细节的特征信息，包含的特征信息内容非常丰富和全面。本实施例中还可以对基础特征表达进行全局池化操作，得到一维向量形式的全局特征表达，也可以称之为全局特征向量，该全局特征表达仅包括该基准图像的宏观特征。而本实施例中的检索表达可以认为是特征提取模型从基准图像中抽取的、较为明显的、具有一定注意力和区分性的、且便于检索的特征。例如，在本实施例的行人再识别领域中，该检索表达可以为基准图像中行人所在区域中较为明显的特征，如行人的衣服、帽子或者其他较为明显的特征。因此，相对于全局特征表达，该检索表达包含的特征信息少，较为概括和笼统。该检索表达可以采用一维向量来表示，且本实施例的检索表达可以为全局特征表达的一种特征变换。

可选地，实际应用中，该检索表达也可以直接采用全局特征表达，而不用再经过特征变换。或者也可以在全局特征表达的基础上，增加至少一层全连接神经网络层，以进行特征变换，得到检索表达。

且，经过实验验证，检索表达采用全局特征表达特征变换后的特征表达所训练出的特征提取模型，比检索表达直接采用全局特征表达所训练出的特征提取模型的性能更优。

(b1)从基准图像的基础特征表达中获取符合基准图像的检索表达的特征，作为基准图像的自注意力特征；

由于基础特征表达包含丰富的特征信息，本实施例中，可以根据检索表达，从基准图像的基础特征表达中获取检索表达所限制的范围内、详细的特征，作为该基准图像的自注意力特征。该自注意力特征可以为基准图像自身角度下最具有区分性的特征。也就是说，基准图像的检索表达检索自身的基础特征表达，则提取的是自身比较显著的特征，即基准图像的自注意力特征。

(c1)将基准图像的自注意力特征输入至第一身份识别器中，由第一身份识别器根据基准图像的自注意力特征预测基准图像中的行人的第一预测标识；

(d1)检测第一预测标识和已知标识是否一致，若不一致，调整特征提取模型和第一身份识别器的参数，使得第一预测标识与已知标识趋于一致。

该步骤(c1)和(d1)为采用自注意力特征进行一步训练的操作，具体地，将基准图像的自注意力特征输入至第一身份识别器中，由第一身份识别器根据基准图像的自注意力特征，预测该基准图像中的行人的第一预测标识。然后检测预测的第一预测标识和已知标识是否一致，若不一致，调整特征提取模型和第一身份识别器的参数，使得第一预测标识与已知标识趋于一致。

其中，第二种方式具体可以实现时可以包括如下步骤：

(a2)对于各组训练数据中的各张参考图像，将参考图像输入至特征提取模型中，获取特征提取模型输出的参考图像的检索表达；

(b2)从对应的基准图像的基础特征表达中获取符合参考图像的检索表达的特征，作为基准图像相对于参考图像的协同注意力特征；

(c2)将协同注意力特征输入至第二身份识别器中，由第二身份识别器根据协同注意力特征预测基准图像中的行人的第二预测标识；

(d2)检测第二预测标识和已知标识是否一致，若不一致，调整特征提取模型和第二身份识别器的参数，使得第二预测标识与已知标识趋于一致。

步骤(a2)-(d2)以一张参考图像为例，描述一步基于协同注意力特征训练特征提取模型的训练操作。对于每组训练数据中的每张参考图像，将参考图像输入至特征提取模型中，在该种训练方式中，仅获取特征提取模型输出参考图像的检索表达，而不用关注参考图像的基础特征表达。如果基准图像和参考图像中的行人具有一定相似性，则可以认为基准图像的检索表达和参考图像的检索表达获取的是相似区域的信息。然后，本实施例中，从基准图像的基础特征表达中获取符合参考图像的检索表达的特征，作为基准图像相对于参考图像的协同注意力特征，相当于挖掘了基准图像中相似区域的详细信息，这部分区域的特征即协同注意力特征可对不同图像的相似区域有一定的区分能力。也就是说，参考图像的检索表达检索基准图像的基础特征表达，则提取的是基准图像和参考图像外观比较相似的区域的特征，即基准图像的协同注意力特征。

具体训练时，将基准图像相对于每张参考图像的协同注意力特征输入至第二身份识别器中，由第二身份识别器根据协同注意力特征预测基准图像中的行人的第二预测标识；检测第二预测标识和已知标识是否一致，若不一致，调整特征提取模型和第二身份识别器的参数，使得第二预测标识与已知标识趋于一致。

需要说明的是，实际应用中，对于每组训练数据中每张参考图像，都需要对应配置一个第二身份识别器，每组训练数据中存在着几张参考图像，便需要配置几个第二身份识别器。

若步骤S202中仅包括上述第一种方式和第二种方式的训练，对于本实施例采集到的各组训练数据，按照上述步骤(a1)-(d1)、(a2)-(d2)不断地进行训练，不断地对特征提取模型、第一身份识别器和各第二身份识别器的参数进行调整，使得第一身份识别器识别的第一预测标识与已知标识一致，各第二身份识别器识别的第二预测标识与已知标识一致，此时训练完毕，确定特征提取模型的参数，从而确定特征提取模型。

进一步可选地，本实施例的步骤S202，除了包括上述第一种方式和第二种方式的训练，还可以包括如下至少一种方式的训练：

第三种方式：对于各组训练数据，将训练数据中的基准图像的检索表达输入至第三身份识别器中，由第三身份识别器根据基准图像的检索表达预测基准图像中的行人的第三预测标识；检测第三预测标识和已知标识是否一致，若不一致，调整特征提取模型和第三身份识别器的参数，使得第三预测标识与已知标识趋于一致；和

第四种方式：对基准图像的基础特征表达进行全局池化操作，得到全局特征表达，将全局特征表达输入至第四身份识别器中，由第四身份识别器根据全局特征表达预测基准图像中的行人的第四预测标识；检测第四预测标识和已知标识是否一致，若不一致，调整特征提取模型和第四身份识别器的参数，使得第四预测标识与已知标识趋于一致。

上述第三种方式和第四种方式，可以分别或者一起与上述第一种方式和第二种方式组合，形成本实施例的特征提取模型的训练方案。

且上述第三种方式和第四种方式均基于基准图像的特征信息对特征提取模型进行训练，例如，在第三种方式中，引入一个第三身份识别器，直接将训练数据中的基准图像的检索表达输入至第三身份识别器中，由第三身份识别器根据基准图像的检索表达预测基准图像中的行人的第三预测标识；若检测到第三预测标识和已知标识不一致，调整特征提取模型和第三身份识别器的参数，使得第三预测标识与已知标识趋于一致，上述过程为一次训练过程，每次训练过程原理相同。同理，在第四种方式中，首先需要对基准图像的基础特征表达进行全局池化操作，得到一维向量形式的全局特征表达。同理，在第四种方式中引入一个第四身份识别器。然后将全局特征表达输入至第四身份识别器中，由第四身份识别器根据输入的信息预测基准图像中的行人的第四预测标识；若检测到第四预测标识和已知标识不一致，调整特征提取模型和第四身份识别器的参数，使得第四预测标识与已知标识趋于一致，上述过程为一次训练过程，每次训练过程原理相同。

若步骤S202中除了包括上述第一种方式和第二种方式的训练，还包括上述第三种方式和第四种方式的训练，此时，对于本实施例采集到的各组训练数据，按照上述步骤(a1)-(d1)、(a2)-(d2)进行训练的同时，还要同时按照上述第三种方式和第四种方式进行训练，不断地对特征提取模型、第一身份识别器、各第二身份识别器、第三身份识别器和第四身份识别器的参数进行调整，使得第一身份识别器识别的第一预测标识与已知标识一致，各第二身份识别器识别的第二预测标识与已知标识一致，第三身份识别器识别的第三预测标识与已知标识一致，第四身份识别器识别的第四预测标识与已知标识一致，此时训练完毕，确定特征提取模型的参数，从而确定特征提取模型。可选地，上述第三种方式和第四种方式对应的训练分支也可以以择一的方式存在，实现原理同上，在此不再赘述。

上述第一身份识别器、各第二身份识别器、第三身份识别器和第四身份识别器均采用神经网路模型来实现。在本实施例中，各个身份识别器的输出可以为1*n的向量，其中n可以为训练图像集中涉及到的行人的数量。对应地，身份识别器输出的向量中的每个元素的数值可以为预测的该位置对应的行人的概率。训练时，可以选择身份识别器输出的向量中概率最大的位置所对应的行人标识为预测标识。

本实施例的行人再识别方法的执行主体可以与上述图1一致，由行人再识别一起来实现。即由行人再识别装置先对特征提取模型进行训练，然后由行人再识别装置基于训练好的特征提取模型，采用上述图1所示实施例的技术方案，实现行人再识别。

或者本实施例的行人再识别方法的执行主体，也可以不同于上述图1所示实施例的执行主体，为一个独立于行人再识别装置的特征提取模型的训练装置。具体使用时，由特征提取模型的训练装置先训练该特征提取模型，然后行人再识别装置在行人再识别时，直接调用训练好的特征提取模型，采用上述图1所示实施例的技术方案，实现行人再识别。

本实施例的行人再识别方法，通过采用上述技术方案，可以训练一个特征提取性能非常好的特征提取模型，以保证该特征提取模型提取的全局特征表达中能够包括图像的更多细节信息，且更具有区分性，以便于后续基于该特征提取模型进行行人再识别时，能够有效地提高行人再识别的准确性。

例如，图3为本发明提供的特征提取模型的训练原理示意图。如图3所示，本实施例提供的特征提取模型的训练过程，以同时包括上述第一种方式、第二种方式、第三种方式和第四种方式为例。其中在第二种方式的训练中，以每组训练数据包括两张参考图像为例，且这两张参考图像中的行人均与基准图像中的行人不是同一人，这样训练的特征提取模型的性能更好。实际应用中，每组训练数据中可以仅包括一张参考图像，也可以包括多张参考图像。若包括多张参考图像时，为了保证训练的特征提取模型的性能，要求多张参考图像中必须包括与基准图像中的行人不是同一人的参考图像。

图3中的自注意力模块用于从基准图像的基础特征表达中获取符合基准图像的检索表达的特征，作为基准图像的自注意力特征。全局池化模块用于对基准图像的基础特征表达进行全局池化操作，基准图像的得到全局特征表达。协同注意力模块用于从基准图像的基础特征表达中获取符合参考图像的检索表达的特征，作为基准图像相对于参考图像的协同注意力特征。

图3所示的训练过程中，采用数组训练数据，同时采用图中的四种训练方式进行训练，同时训练方式同时并存，相互制约，只有当第一身份识别器、各第二身份识别器、第三身份识别器和第四身份识别器输出的预测标识均与已知标识一致，训练才结束，此时才能确定特征提取模型的参数，进而确定特征提取模型。实际应用中，可以去除图3中的第三种方式和/或第四种方式的训练。具体地训练过程的实现原理与上述图2所示实施例中记载的第一种方式、第二种方式、第三种方式和第四种方式相同，详细亦可以参考上述实施例的相关记载，在此不再赘述。

图4为本发明的行人再识别装置实施例一的结构图。如图4所示，本实施例的行人再识别装置，具体可以包括：

采集模块10用于采集包括有行人图像的目标图像和待识别图像；

提取模块11用于基于预先训练的特征提取模型，分别获取采集模块10采集的目标图像的特征表达和待识别图像的特征表达；其中特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到；

识别模块12用于根据提取模块11提取的目标图像的特征表达和待识别图像的特征表达，识别待识别图像中的行人是否与目标图像中的行人为同一行人。

本实施例的行人再识别装置，通过采用上述模块实现行人再识别的实现原理以及技术效果与上述相关方法实施例的实现相同，详细可以参考上述相关方法实施例的记载，在此不再赘述。

进一步可选地，图4所示实施例种的识别模块12具体用于：

若提取模块11提取的特征表达为全局特征表达，计算目标图像的全局特征表达与待识别图像的全局特征表达的相似度；

判断相似度是否大于预设相似度阈值，若是，确定对应的待识别图像中的行人与目标图像中的行人为同一行人。

进一步可选地，识别模块12还用于：若提取模块11提取的特征表达为基础特征表达，分别将目标图像的基础特征表达和待识别图像的基础特征表达进行全局池化操作，得到目标图像的全局特征表达和待识别图像的全局特征表达，以便于后续基于全局池化操作后的全局特征表达，计算目标图像的全局特征表达与待识别图像的全局特征表达的相似度。

图5为本发明的行人再识别装置实施例二的结构图。如图5所示，本实施例的行人再识别装置，具体可以包括：

采集模块20用于采集数张训练图像以及每张训练图像中包括的行人的已知标识，一起构成训练图像集；

生成模块21用于根据采集模块20采集的训练图像集，生成数组训练数据，每组训练数据中包括一张基准图像和至少一张参考图像；

训练模块22用于采用生成模块21生成的各组训练数据和各组训练数据中基准图像中所包括的行人的已知标识，训练特征提取模型。

图6为本发明的行人再识别装置实施例三的结构图。如图6所示，本实施例的行人再识别装置，在上述图5所示实施例的技术方案的基础上，进一步更加详细地介绍本发明的技术方案。

如图6所示，本实施例的行人再识别装置中，训练模块22，包括：

第一训练单元221用于对于生成模块21生成的各组训练数据，基于对应的训练数据中的基准图像的自注意力特征，训练特征提取模型；

第二训练单元222用于基于对应的训练数据中的基准图像相对于各张参考图像的协同注意力特征，训练特征提取模型。

进一步可选地，第一训练单元221具体用于：

对于各组训练数据，将对应的训练数据中的基准图像输入至特征提取模型中，获取特征提取模型输出的基准图像的基础特征表达以及检索表达，其中基准图像的检索表达为对基准图像的基础特征表达进行全局池化操作得到的全局特征表达，再进行特征变换而得到；

从基准图像的基础特征表达中获取符合基准图像的检索表达的特征，作为基准图像的自注意力特征；

将基准图像的自注意力特征输入至第一身份识别器中，由第一身份识别器根据基准图像的自注意力特征预测基准图像中的行人的第一预测标识；

检测第一预测标识和已知标识是否一致，若不一致，调整特征提取模型和第一身份识别器的参数，使得第一预测标识与已知标识趋于一致。

进一步可选地，第二训练单元222具体用于：

对于生成模块21生成的各组训练数据中的各张参考图像，将参考图像输入至特征提取模型中，获取特征提取模型输出的参考图像的检索表达；

从第一训练单元221获取的、对应的基准图像的基础特征表达中获取符合参考图像的检索表达的特征，作为基准图像相对于参考图像的协同注意力特征；

将协同注意力特征输入至第二身份识别器中，由第二身份识别器根据协同注意力特征预测基准图像中的行人的第二预测标识；

检测第二预测标识和已知标识是否一致，若不一致，调整特征提取模型和第二身份识别器的参数，使得第二预测标识与已知标识趋于一致。

进一步可选地，训练模块22还包括如下至少一个单元：

第三训练单元223用于对于生成模块21生成的各组训练数据，将第一训练单元221获取的训练数据中的基准图像的检索表达输入至第三身份识别器中，由第三身份识别器根据基准图像的检索表达预测基准图像中的行人的第三预测标识；检测第三预测标识和已知标识是否一致，若不一致，调整特征提取模型和第三身份识别器的参数，使得第三预测标识与已知标识趋于一致；和

第四训练单元224用于对第一训练单元221获取的基准图像的基础特征表达进行全局池化操作，得到全局特征表达，将全局特征表达输入至第四身份识别器中，由第四身份识别器根据全局池化操作后的全局特征表达预测基准图像中的行人的第四预测标识；检测第四预测标识和已知标识是否一致，若不一致，调整特征提取模型和第四身份识别器的参数，使得第四预测标识与已知标识趋于一致。

如图6所示实施例中，以训练模块22同时包括第三训练单元223和第四训练单元224为例，实际应用中，第三训练单元223和第四训练单元224也可以择一的方式存在。

需要说明的是，图5和图6所示实施例中的行人再识别装置，可以独立存在，也可以分别与上述图4结合，形成本发明的一种可选实施例。若图5和图4结合使用时，其中的两个采集模块可以合并为一个。

图7为本发明的计算机设备实施例的结构图。如图7所示，本实施例的计算机设备，包括：一个或多个处理器30，以及存储器40，存储器40用于存储一个或多个程序，当存储器40中存储的一个或多个程序被一个或多个处理器30执行，使得一个或多个处理器30实现如上图1-图2所示实施例的行人再识别方法。图7所示实施例中以包括多个处理器30为例。

例如，图8为本发明提供的一种计算机设备的示例图。图8示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图8显示的计算机设备12a仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于：一个或者多个处理器16a，系统存储器28a，连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。

总线18a表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28a可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34a可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明上述图1-图6各实施例的功能。

具有一组(至少一个)程序模块42a的程序/实用工具40a，可以存储在例如系统存储器28a中，这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图6各实施例中的功能和/或方法。

计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信，还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信，和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且，计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备12a使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16a通过运行存储在系统存储器28a中的程序，从而执行各种功能应用以及数据处理，例如实现上述实施例所示的行人再识别方法。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例所示的行人再识别方法。

本实施例的计算机可读介质可以包括上述图8所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。

随着科技的发展，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载，或者采用其他方式获取。因此，本实施例中的计算机可读介质不仅可以包括有形的介质，还可以包括无形的介质。

本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种行人再识别方法，其特征在于，所述方法包括：

采集包括有行人图像的目标图像和待识别图像；

基于预先训练的特征提取模型，分别获取所述目标图像的特征表达和所述待识别图像的特征表达；其中所述特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到，其中从所述基准图像的基础特征表达中获取符合所述基准图像的检索表达的特征，作为所述基准图像的自注意力特征，其中所述基准图像的检索表达为对所述基准图像的基础特征表达进行全局池化操作得到的全局特征表达，再进行特征变换而得到；

2.根据权利要求1所述的方法，其特征在于，根据所述目标图像的特征表达和所述待识别图像的特征表达，识别所述待识别图像中的行人是否与所述目标图像中的行人为同一行人，包括：

若所述特征表达为全局特征表达，计算所述目标图像的全局特征表达与所述待识别图像的全局特征表达的相似度；

判断所述相似度是否大于预设相似度阈值，若是，确定对应的所述待识别图像中的行人与所述目标图像中的行人为同一行人。

3.根据权利要求2所述的方法，其特征在于，若所述特征表达为基础特征表达，计算所述目标图像的全局特征表达与所述待识别图像的全局特征表达的相似度之前，所述方法还包括：

分别将所述目标图像的基础特征表达和所述待识别图像的基础特征表达进行全局池化操作，得到所述目标图像的全局特征表达和所述待识别图像的全局特征表达。

4.根据权利要求1所述的方法，其特征在于，基于预先训练的特征提取模型，分别获取所述目标图像的特征表达和所述待识别图像的特征表达之前，所述方法还包括：

采集数张训练图像以及每张所述训练图像中包括的行人的已知标识，一起构成训练图像集；

根据所述训练图像集，生成数组训练数据，每组所述训练数据中包括一张基准图像和至少一张参考图像；

采用各组所述训练数据和各组所述训练数据中所述基准图像中所包括的行人的已知标识，训练所述特征提取模型。

5.根据权利要求4所述的方法，其特征在于，采用各组所述训练数据和各组所述训练数据中所述基准图像中所包括的行人的已知标识，训练所述特征提取模型，包括：

对于各组所述训练数据，基于对应的所述训练数据中的所述基准图像的自注意力特征，训练所述特征提取模型；

基于对应的所述训练数据中的所述基准图像相对于各张所述参考图像的协同注意力特征，训练所述特征提取模型。

6.根据权利要求5所述的方法，其特征在于，对于各组所述训练数据，基于对应的所述训练数据中的所述基准图像的自注意力特征，训练所述特征提取模型，包括：

对于各组所述训练数据，将对应的所述训练数据中的所述基准图像输入至所述特征提取模型中，获取所述特征提取模型输出的所述基准图像的基础特征表达以及检索表达；

将所述基准图像的自注意力特征输入至第一身份识别器中，由所述第一身份识别器根据所述基准图像的自注意力特征预测所述基准图像中的行人的第一预测标识；

检测所述第一预测标识和所述已知标识是否一致，若不一致，调整所述特征提取模型和所述第一身份识别器的参数，使得所述第一预测标识与所述已知标识趋于一致。

7.根据权利要求6所述的方法，其特征在于，基于对应的所述训练数据中的所述基准图像相对于各张所述参考图像的协同注意力特征，训练所述特征提取模型，包括：

对于各组所述训练数据中的各张所述参考图像，将所述参考图像输入至所述特征提取模型中，获取所述特征提取模型输出的所述参考图像的检索表达；

从对应的所述基准图像的基础特征表达中获取符合所述参考图像的检索表达的特征，作为所述基准图像相对于所述参考图像的协同注意力特征；

将所述协同注意力特征输入至第二身份识别器中，由所述第二身份识别器根据所述协同注意力特征预测所述基准图像中的行人的第二预测标识；

检测所述第二预测标识和所述已知标识是否一致，若不一致，调整所述特征提取模型和所述第二身份识别器的参数，使得所述第二预测标识与所述已知标识趋于一致。

8.根据权利要求6所述的方法，其特征在于，采用各组所述训练数据和各所述训练数据中所述基准图像中所包括的行人的已知标识，训练所述特征提取模型，还包括如下至少一种：

对于各组所述训练数据，将所述训练数据中的所述基准图像的检索表达输入至第三身份识别器中，由所述第三身份识别器根据所述基准图像的检索表达预测所述基准图像中的行人的第三预测标识；检测所述第三预测标识和所述已知标识是否一致，若不一致，调整所述特征提取模型和所述第三身份识别器的参数，使得所述第三预测标识与所述已知标识趋于一致；和

对所述基准图像的基础特征表达进行全局池化操作，得到全局特征表达，将所述全局特征表达输入至第四身份识别器中，由所述第四身份识别器根据所述全局特征表达预测所述基准图像中的行人的第四预测标识；检测所述第四预测标识和所述已知标识是否一致，若不一致，调整所述特征提取模型和所述第四身份识别器的参数，使得所述第四预测标识与所述已知标识趋于一致。

9.一种行人再识别装置，其特征在于，所述装置包括：

提取模块，用于基于预先训练的特征提取模型，分别获取所述目标图像的特征表达和所述待识别图像的特征表达；其中所述特征提取模型基于基准图像的自注意力特征和基准图像相对于参考图像的协同注意力特征共同训练得到，其中从所述基准图像的基础特征表达中获取符合所述基准图像的检索表达的特征，作为所述基准图像的自注意力特征，其中所述基准图像的检索表达为对所述基准图像的基础特征表达进行全局池化操作得到的全局特征表达，再进行特征变换而得到；

10.根据权利要求9所述的装置，其特征在于，所述识别模块，用于：

11.根据权利要求10所述的装置，其特征在于，所述识别模块，还用于：若所述特征表达为基础特征表达，分别将所述目标图像的基础特征表达和所述待识别图像的基础特征表达进行全局池化操作，得到所述目标图像的全局特征表达和所述待识别图像的全局特征表达。

12.根据权利要求9所述的装置，其特征在于，所述装置还包括生成模块和训练模块；

所述采集模块，还用于采集数张训练图像以及每张所述训练图像中包括的行人的已知标识，一起构成训练图像集；

所述生成模块，用于根据所述训练图像集，生成数组训练数据，每组所述训练数据中包括一张基准图像和至少一张参考图像；

所述训练模块，用于采用各组所述训练数据和各组所述训练数据中所述基准图像中所包括的行人的已知标识，训练所述特征提取模型。

13.根据权利要求12所述的装置，其特征在于，所述训练模块，包括：

第一训练单元，用于对于各组所述训练数据，基于对应的所述训练数据中的所述基准图像的自注意力特征，训练所述特征提取模型；

第二训练单元，用于基于对应的所述训练数据中的所述基准图像相对于各张所述参考图像的协同注意力特征，训练所述特征提取模型。

14.根据权利要求13所述的装置，其特征在于，所述第一训练单元，用于：

15.根据权利要求14所述的装置，其特征在于，所述第二训练单元，用于：

16.根据权利要求14所述的装置，其特征在于，所述训练模块，还包括如下至少一个单元：

第三训练单元，用于对于各组所述训练数据，将所述训练数据中的所述基准图像的检索表达输入至第三身份识别器中，由所述第三身份识别器根据所述基准图像的检索表达预测所述基准图像中的行人的第三预测标识；检测所述第三预测标识和所述已知标识是否一致，若不一致，调整所述特征提取模型和所述第三身份识别器的参数，使得所述第三预测标识与所述已知标识趋于一致；和

第四训练单元，用于对所述基准图像的基础特征表达进行全局池化操作，得到全局特征表达，将所述全局特征表达输入至第四身份识别器中，由所述第四身份识别器根据全局池化操作后的所述全局特征表达预测所述基准图像中的行人的第四预测标识；检测所述第四预测标识和所述已知标识是否一致，若不一致，调整所述特征提取模型和所述第四身份识别器的参数，使得所述第四预测标识与所述已知标识趋于一致。

17.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。