CN108509994A

CN108509994A - 人物图像聚类方法和装置

Info

Publication number: CN108509994A
Application number: CN201810286272.0A
Authority: CN
Inventors: 车丽美
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-07
Anticipated expiration: 2038-03-30
Also published as: CN108509994B

Abstract

本申请实施例公开了人物图像聚类方法和装置。该方法的一具体实施方式包括：获取多张人物图像；对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图；对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量；基于所得到的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；该实施方式提高了对人物图像聚类的准确度。

Description

人物图像聚类方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及图像处理技术领域，尤其涉及用于人物图像聚类方法和装置。

背景技术

在日常生活中，或者在一些重大场合，人们可以通过手机、平板电脑、相机等终端来拍摄多张人物图像。

当人物图像较多时，可以根据人物图像中所包括的不同人物对象来对多张人物图像进行分类。从而将多张人物图像分为对应不同人物对象的多个类。每一个类中包括一个人物对象的多张人物图像。

通常我们可以根据人物图像中的面部图像来提取不同人物对象的面部特征，并根据各个人物对象的面部特征将多张人物图像进行分类。

发明内容

本申请实施例提出了一种人物图像聚类方法和装置。

第一方面，本申请实施例提供了一种人物图像聚类方法，该方法包括：获取多张人物图像；对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图；对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量；基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；其中，人体特征识别网络基于如下的训练步骤训练得到：获取训练样本集合，训练样本集合中的各训练样本包括训练人物图像和用于指示训练人物图像所包含的人物身份的标注信息；将训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络。

在一些实施例中，在对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量之前，该方法还包括：对于每一张人物图像，将该张人物图像输入到预先训练的人脸特征识别模型得到该张人物图像所包括的人物对象的面部特征图，人脸特征识别模型用于确定输入到其中的人物图像所包括的人物对象的面部特征图；以及对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量，包括：基于与该人物图像对应的面部特征图以及与该人物图像对应的人体特征图生成该人物图像所包括的人物对象的人体特征向量。

在一些实施例中，人体特征识别网络包括多个级联的残差网络单元；将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中对初始人体特征识别网络进行训练，包括：通过将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中训练各级残差网络单元以确定各级残差网络单元的参数。

在一些实施例中，训练样本集合包括多个训练样本对，训练样本对中包括人物身份相同的两张训练人物图像，或者，训练样本对中包括人物身份不相同的两张训练人物图像；以及将训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络，包括：将各训练样本对输入到初始人体特征识别网络进行训练使得训练后的人体特征识别网络的输出具有如下特征：若训练样本对中的两张训练人物图像对应的人物身份相同，则基于训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度大于第一预设相似度阈值；若训练样本对中的两张训练人物图像对应的人物身份不相同，则基于由训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度小于第二预设相似度阈值；其中，第二预设相似度阈值小于第一相似度阈值。

在一些实施例中，在对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图之前，该方法还包括：对于每一张人物图像，确定该张人物图像中的不同人物对象分别对应的人物图像区域；以及对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，包括：将每一张人物图像中的不同人物对象各自对应的人物图像区域输入到人体特征识别网络，得到该张人物图像中不同人物对象分别对应的人体特征图；以及对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量，包括：基于该人物图像中的不同人物对象分别对应的人体特征图生成该人物图像中不同人物对象分别对应的人体特征向量。

在一些实施例中，基于人体特征向量对多张原始人物图像进行聚类，得到至少一个类，包括：将与各人物对象的人物图像分别对应的人体特征向量输入到预先训练的分类网络，对多张人物图像进行聚类。

第二方面，本申请实施例提供了一种人物图像聚类装置，该装置包括：获取单元，配置用于获取多张人物图像；人体特征提取单元，配置用于对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图；人体特征向量生成单元，配置用于对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量；聚类单元，配置用于基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；其中，人体特征识别网络基于如下的训练步骤训练得到：获取训练样本集合，训练样本集合中的各训练样本包括训练人物图像和用于指示训练人物图像所包含的人物身份的标注信息；将训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络。

在一些实施例中，该装置还包括面部特征提取单元，面部特征提取单元配置用于在人体特征向量生成单元对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量之前，对于每一张人物图像，将该张人物图像输入到预先训练的人脸特征识别模型得到该张人物图像所包括的人物对象的面部特征图，人脸特征识别模型用于确定输入到其中的人物图像所包括的人物对象的面部特征图；以及人体特征向量生成单元进一步配置用于：对于每一张人物图像，基于与该人物图像对应的面部特征图以及与该人物图像对应的人体特征图生成该人物图像所包括的人物对象的人体特征向量。

在一些实施例中，人体特征识别网络包括多个级联的残差网络单元；人体特征提取单元进一步配置用于：通过将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中训练各级残差网络单元以确定各级残差网络单元的参数。

在一些实施例中，训练样本集合包括多个训练样本对，训练样本对中包括人物身份相同的两张训练人物图像，或者，训练样本对中包括人物身份不相同的两张训练人物图像；以及人体特征提取单元进一步配用于：将各训练样本对输入到初始人体特征识别网络进行训练使得训练后的人体特征识别网络的输出具有如下特征：若训练样本对中的两张训练人物图像对应的人物身份相同，则基于训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度大于第一预设相似度阈值；若训练样本对中的两张训练人物图像对应的人物身份不相同，则基于由训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度小于第二预设相似度阈值；其中，第二预设相似度阈值小于第一相似度阈值。

在一些实施例中，该装置还包括确定单元，确定单元配置用于：在人体特征提取单元对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图之前，对于每一张人物图像，确定该张人物图像中的不同人物对象分别对应的人物图像区域；以及人体特征提取单元进一步配置用于：将每一张人物图像中的不同人物对象各自对应的人物图像区域输入到人体特征识别网络，得到该张人物图像中不同人物对象分别对应的人体特征图；以及人体特征向量生成单元进一步配置用于：对于每一张人物图像，基于该人物图像中的不同人物对象分别对应的人体特征图生成该人物图像中不同人物对象分别对应的人体特征向量。

在一些实施例中，聚类单元进一步配置用于：将与各人物对象的人物图像分别对应的人体特征向量输入到预先训练的分类网络，对多张人物图像进行聚类。

第三方面，本申请实施例提供了一种服务器，该服务器包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请实施例提供的人物图像聚类方法和装置，通过获取多张人物图像，接着对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的用户的人体特征图，而后对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量，最后基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，从而可以根据从人物图像中提取的人体特征向量对人物图像聚类，提高了对人物图像聚类的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的人物图像聚类方法的一个实施例的流程图；

图3是训练人体特征识别网络的一个示意性流程图；

图4是根据本申请的人物图像聚类方法的一个应用场景的示意图；

图5是根据本申请的人物图像聚类方法的另一个实施例的流程图；

图6是根据本申请的人物图像聚类方法的又一个实施例的流程图；

图7是根据本申请的人物图像聚类装置的一个实施例的结构示意图；

图8是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的人物图像聚类方法或人物图像聚类装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用，例如图像浏览应用等。

终端设备101、102、103可以包括但不限于照相机、摄像机、智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103所发送的人物图像进行处理的后台服务器。后台服务器可以对接收到的多张人物图像进行分析等处理，并将处理结果(例如对人物图像的聚类结果)反馈给终端设备。

需要说明的是，本申请实施例所提供的人物图像聚类方法可以由服务器104执行，也可以由终端设备101、102执行。相应地，图像生成装置可以设置于服务器105中，也可以设置于终端设备101、102、103中，还可以部分单元设置于服务器105中并将其他单元设置于终端设备101、102、103中。本申请对此不做限定。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的人物图像聚类方法的一个实施例的流程200。该人物图像聚类方法，包括以下步骤：

步骤201，获取多张人物图像。

在本实施例中，人物图像聚类方法的执行主体(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从终端设备获取多张人物图像。

通常，人们可以用照相机、摄像机、智能手机、平板电脑等终端设备来拍摄人物图像。上述执行主体可以通过有线连接方式或者无线连接方式从上述终端设备获取多张人物图像。

在一些应用场景中，上述终端设备还可以通过有线连接方式或者无线连接方式向上述执行主体发生其拍摄的多张人物图像。

步骤202，对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图。

在本实施例中，基于步骤201中得到的多张人物图像，对于每一张人物图像，上述执行主体(例如图1所示的服务器)可以将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图。这里，人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图。

上述人体特征图是指反映人体(包括衣着)的颜色特征、纹理特征、形状特征和各部位空间关系特征的图像。人体特征图可以是二维图像。

在本实施例中，上述人体特征图可以是由根据预设的关键点而检测得到的人物对象的头部关键点、颈部关键点、四肢关键点和身体关键点等多个关键点构成的图像。对于每一个关键点，可以通过检测得到该关键点的坐标信息、该关键点所对应的颜色信息等信息。可以由多个关键点构成人体(包括衣着)的整体形状特征。上述人体的形状特征可以包括人体头部轮廓、身体轮廓等部位的轮廓特征(比如头部轮廓)。对于任一张人物图像，上述执行主体可以将该张人物图像输入到上述人体特征识别网络得到该张人物图像所包括的人物对象的由多个关键点构成的人体特征图。

在本实施例中，上述人体特征识别网络可以为人工神经网络、卷积神经网络等。

通常，在使用人体特征识别网络确定输入到其中的人物图像对应的人物对象的人体特征图之前，需要对人体特征识别网络进行训练。

请参考图3，其示出了对人体特征识别网络进行训练的一个示意性流程300。

如图3所示，对人体特征识别网络进行训练的流程可以包括以下步骤：

步骤301，获取训练样本集合。

可以人工选取多个训练样本构成训练样本集合。训练样本集合中的各训练样本可以包括训练人物图像和用于指示训练人物图像所包含的人物身份的标注信息。

此外，训练样本集合中的训练人物图像可以包括对应多个人物身份的人物图像。

对于同一人物身份，训练样本中可以包括该人物身份的面部图像，正面全身图像，侧面图像、侧身图像、背影图像等多张图像。

上述训练样本集合可以保存在上述执行主体中，上述执行主体可以直接获取上述训练样本集合。或者，上述训练样本集合还可以保存在其他服务器上。上述执行主体可以通过有线连接方式或者无线连接方式从其他服务器上获取上述训练样本集合。

步骤302，将训练样本集合中的训练样本输入到预先建立的初始人体特征识别网络，对人体特征识别网络进行训练，得到训练后的人体特征识别网络。

在本实施例中，上述执行主体可以将训练样本集合中的训练样本输入到预先建立的初始人体特征识别网络，对人体特征识别网络进行训练，从而得到训练后的人体特征识别网络。

这里，上述执行主体可以在其中预先建立初始人体特征识别网络。上述执行主体可以对该初始人体特征识别网络中的各个参数分别设定一个初始值。然后，使用上述训练样本集合中的训练样本对上述初始人体特征识别网络中的各个参数进行迭代训练。通过多次迭代训练来不断调整网络中的网络参数，使得训练得到的人体特征识别网络具有对输入图像进行特征提取等处理能力，实现对输入到其中的人物图像提取人物图像所包括的人物对象的人体特征图。

需要说明的是，本实施例对初始人体特征识别网络的训练方法并不限制，本领域技术人员可以采用监督、半监督、无监督或其他训练方法来训练初始人体人体特征识别网络。

在本实施例的一些可选实现方式中，上述人体特征识别网络可以为卷积神经网络。在本实施例中，上述卷积神经网络可以包括多个级联的残差网络单元。在卷积神经网络中使用多个残差网络单元可以改善训练误差随着网络深度的增加而增加的现象。每个残差网络单元的结构可以包括两个卷积层和一个激活函数，激活函数设置在两个卷积层之间，且每个残差网络单元的输入和输出连接在一起。这里的残差网络单元的级数例如可以为32级、50级、100级等等。具体的残差网络单元的级数可以根据具体需要进行设定，此处不做限定。

在这些可选的实现方式中，在人体特征识别网络包括多个级联的残差网络单元的情况下，上述步骤302的将添加了身份标识的多张训练人物图像输入到初始人体特征网络中对初始人体特征识别网络进行训练，可以包括：将通过将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中训练各级残差网络单元以确定各级残差网络单元的参数。

在本实施例的一些可选实现方式中，上述训练样本集合可以包括多个训练样本对，训练样本对中包括人物身份相同的两张训练人物图像，或者，训练样本对中包括人物身份不相同的两张训练人物图像。

在这些可选的实现方式中，上述步骤302的将添加了身份标识的多张训练人物图像输入到初始人体特征网络中对初始人体特征识别网络进行训练，可以包括：将各训练样本对输入到初始人体特征识别网络进行训练使得训练后的人体特征识别网络的输出具有如下特征：若训练样本对中的两张训练人物图像对应的人物身份相同，则由训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度大于第一预设相似度阈值；若训练样本对中的两张训练人物图像对应的人物身份不相同，则由训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度小于第二预设相似度阈值；其中，第二预设相似度阈值小于第一相似度阈值。这里的第一预设阈值与第二预设阈值根据实际需要进行设定，此处不做限定。

在这些可选的实现方式中，经过上述训练方法得到的人体特征识别网络，从不同人物图像中提取出的对应同一人物对象的任意两个人体特征图之间的相似度将大于对应不同人物对象的任意两个人体特征图之间的相似度。

返回继续参照图2，本实施例的人物图像聚类方法还包括：

步骤203，对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量。

在步骤202得到各张人物图像所包括的人物对象的人体特征图之后，对于每一张人物图像，上述执行主体可以采用各种分析方法基于该张人物图像的人体特征图生成该张人物图像所包括的人物对象的人体特征向量。

例如，对于任一张人物图像，上述执行主体可以将该张人物图像中的人物对象的人体特征图中的各关键点按照预定顺序排成一列，从而得到对应该人物对象的一维特征向量。

需要说明的是，上述步骤203的对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量可以由步骤202所述的人体特征识别网络来执行。

步骤204，基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应。

在本实施例中，在步骤202中得到每一张人物图像所包括的人物对象的人体特征向量之后，上述执行主体可以基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类。其中，一个类与一个人物对象一一对应。

当聚类得到一个类时，该类与一个人物对象对应。当聚类得到多个类时，每一个类可以与一个人物对象一一对应。

这里可以使用各种聚类算法对各人物图像所包括的人物对象的人体特征向量进行聚类，例如使用K-means算法、层次聚类算法、密度聚类算法等。然后将每一人体特征向量所对应的类，确定为该人体特征向量所对应的人物图像的类。

需要说明的是，上述K-means算法、层次聚类算法、密度聚类算法是目前各种聚类算法是目前广泛研究和应用的公知技术，在此不再赘述。

此外，上述步骤204可以由步骤202所述的人体特征识别网络来执行。

继续参见图4，图4是根据本实施例的人物图像聚类方法的应用场景的一个示意图。在图4的应用场景中，服务器402从终端设备401获取多张人物图像403；之后，对于每一张人物图像，服务器402可以将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图404；接着，服务器402根据每一张人物图像所包括的人物对象的人体特征图生成该张人物图像所包括的人物对象的人体特征向量405；然后，服务器402基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应406。最后，上述服务器402向终端设备401发送上述聚类结果407。

目前，在对多张人物图像进行聚类时，通常根据人物图像中所包括的人物对象的面部图像来进行聚类。例如，通过将人物图像输入到预先训练的面部特征提取网络中，提取人物图像中所包括的人物对象的面部特征，并根据面部特征将多张人物图像进行聚类。当人物图像中包括较清晰的面部图像时，上述聚类方法可以较好的实现人物图像聚类。但是，当人物图像中的面部图像模糊，或者不包括人物对象的面部时，上述聚类方法无法正确地将这些人物图像进行聚类，从而使得人物图像聚类的准确率不高。

本实施例中，由于提取了人物图像所包括的人物对象的人体特征向量，所提取的人体特征向量可以体现人物对象的头部、面部、侧身、背景、肢体以及服装等的特征，因此上述人体特征向量不仅仅能够反映人物对象面部的特征，还可以反映人物对象其他的特征(例如，身材特征等)。这样一来，本实施例提供的由人物对象的人体特征向量对多张人物图像进行聚类，无论人物图像是否包含人物对象的面部，均可以实现对人物图像的准确聚类。从而解决对模糊面部图像、不包括人面部的人物图像聚类不准确的问题。

在本实施例的一些可选实现方式中，上述步骤204的基于所得到的人体特征向量对多张人物图像进行聚类，得到至少一个类，可以按照如下方式来实现：在步骤203中得到每一张人物图像所包括的人物对象的人体特征向量之后，上述执行主体可以将上述每一张人物图像所包括的人物对象的人体特征向量输入到预先训练的分类网络中，由分类网络对多张原始人物图像进行聚类。这里的分类网络可以是基于支持向量机分类网络、朴素贝叶斯分类网络、softmax分类网络等。

进一步参考图5，其示出了人物图像聚类方法的又一个实施例的流程500。该人物图像聚类方法的流程500，包括以下步骤：

步骤501，获取多张人物图像。

步骤501与图2所示实施例的步骤201相同，此处不赘述。

步骤502，对于每一张人物图像，将该张人物图像输入到预先训练的人脸特征识别模型得到该张人物图像所包括的人物对象的面部特征图，人脸特征识别模型用于确定输入到其中的人物图像所包括的人物对象的面部特征图。

在本实施例中，对于每一张人物图像，上述执行主体可以将该张人物图像输入到预先训练的人脸识别特征模型，得到该张人物图像所包括的人物对象的面部特征图。上述人脸特征识别模型用于确定输入到其中的人物图像所包括的人物对象的面部特征图。

上述面部特征图可以是反映人物对象面部的颜色特征、纹理特征、形状特征和面部各部位空间关系特征的图像。上述面部特征图可以是二维图像。

在本实施例中，上述面部特征图可以是根据预设的面部的关键点所检测到的面部轮廓关键点、眼睛部位的关键点、鼻子部位的关键点以及嘴巴部位的关键点构成的图像。

用于提取面部特征图的关键点的数量可以根据具体的需要进行设定，此处不做限定。作为示例，上述面部关键点的数量可以为21点、27点、68点、85点等。

上述人脸识别特征模型可以是人工神经网络模型、卷积神经网络模型以及支持向量机等其他非神经网络模型。

需要说明的是，上述人工神经网络模型、卷积神经网络模型以及支持向量机等模型是目前是广泛研究和应用的公知技术，在此不再赘述。

步骤503，对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图。

在本实施例中，基于步骤201中得到的多张人物图像，对于每一张人物图像，上述执行主体(例如图1所示的服务器)可以将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图。

步骤503的详细阐述请参考图2所示实施例中的步骤202，此处不做赘述。

需要说明的是，在本实施例中，由人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图中，人物对象的头部的关键点包括从人物对象的面部轮廓中提取的多个关键点。

步骤504，对于每一张人物图像，基于与该人物图像对应的面部特征图以及与该人物图像对应的人体特征图生成该人物图像所包括的人物对象的人体特征向量。

在得到各张人物图像所包括的人物对象的面部特征图和人体特征图之后，对于任意一张人物图像，上述执行主体可以根据上述面部特征图和人体特征图生成该人物图像所包括的人物对象的人体特征向量。

具体地，上述执行主体首先确定一个面部特征图所对应的人物对象和一个人体特征图所对应的人物对象是否为同一张人物图像中的同一人物对象。首先，上述执行主体可以根据面部特征图所对应的人物图像的标识以及人体特征图所对应的人物图像的标识来确定属于同一张人物图像的面部特征图和人体特征图。然后，上述执行主体可以根据面部特征图中的面部轮廓的各关键点的坐标、以及面部轮廓的各关键点所组成的图形，与人体特征图中的头部轮廓的各关键点的坐标、以及头部轮廓的各关键点所组成的图形之间的相对位置关系来确定一个面部特征图所对应的人物对象和一个人体特征图所对应的人物对象是否相同。例如，当一个人体特征图中的头部各关键点连接形成的图形包含由一个面部特征图中面部轮廓的各关键点连接形成的图形时，可以确定该人体特征图和该面部特征图对应一张人物图像中的同一人物对象。

然后，对于任意一张人物图像中的同一人物对象，上述执行主体可以将该人物对象的面部特征图和人体特征图中的各关键点按照预定顺序排成一列，生成该人物对象的特征向量。

步骤505，基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应。

步骤505与图2所示步骤204相同，此处不赘述。

需要说明的是，本实施例中的步骤502和步骤503的顺序可以互相交换。

从图5中可以看出，与图2对应的实施例相比，本实施例中的人物图像聚类方法的流程500突出了确定每一张人物图像所包括的人物对象的面部特征图，并根据每张人物图像所包括的人物对象的面部特征图和人体特征图生成人体特征向量的步骤。由于面部特征图可以更加精确的反映人物对象的面部特征，因此由面部特征图和人体特征图所生成的特征向量既可以反映人物对象的面部细节特征，还可以反映人物对象的人体特征。从而使得根据由面部特征图和人体特征图生成的特征向量对多张人物图像进行聚类的结果更加精准。

进一步参考图6，其示出了人物图像聚类方法的又一个实施例的流程600。该人物图像聚类方法的流程600，包括以下步骤：

步骤601，获取多张人物图像。

步骤601与图2所示实施例的步骤201相同，此处不赘述。

步骤602，对于每一张人物图像，确定该张人物图像中的不同人物对象分别对应的人物图像区域。

在本实施例中，在步骤601中获取多张人物图像之后，对于每一张人物图像，上述执行主体可以确定该张人物图像中的不同人物对象分别对应的人物对象区域。

在一些应用场景中，一张人物图像的拍摄对象可以包括一个人物对象。在另外一些应用场景中，一张人物图像的拍摄对象可以包括多个人物对象。

本实施例中，当一张人物图像的拍摄对象包括了多个人物对象时，上述执行主体可以通过人体检测方法确定出该张人物图像中的不同人物对象分别对应的人物图像区域。任一人物图像区域与一个人物对象一一对应。作为示例，这里的一个人物图像区域可以是包围一个人物对象的人体图像的最小矩形。上述人体检测方法用于检测并定位人物图像中的每一个人体图像，确定出分别对应各人体图像的矩形框坐标。

步骤603，对于每一张人物图像，将该张人物图像中不同人物对象各自对应的人物对象区域输入到人体特征识别网络，得到该张人物图像中不同人物对象分别对应的人体特征图。

在本实施例中，在步骤602中得到每一张人物图像中不同人物对象各自对应的人物图像区域之后，上述执行主体可以将每一张人物图像中不同人物对象各自对应的人物图像区域输入到人体特征识别网络中。从而可以得到该张人物图像中不同人物对象分别对应的人体特征图。

这样一来，对于拍摄对象包括多个人物对象的任一张人物图像，可以得到该张人物图像所包括的各个人物对象分别对应的人体特征图。

步骤604，基于该张人物图像中的不同人物对象分别对应的人体特征图生成不同人物对象分别对应的人体特征向量。

在本实施例中，对于每一张人物图像，在步骤603中得到该张人物图像中不同人物对象分别对应的人体特征图之后，上述执行主体可以根据该张人物图像中的人体特征图生成该张人物图像中不同人物对象分别对应的人体特征向量。

步骤605，基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应。

在本实施例中，对于每一张人物图像，在步骤604中得到该张人物图像中不同人物对象分别对应的人体特征向量之后，上述执行主体可以基于每一张人物图像中的每一个人体特征向量对多张人物图像进行聚类。

这里的按照每一人体特征向量对多张人物图像进行聚类，是对各个人体特征向量进行聚类，然后将同一类中的各个人体特征向量所对应的人物图像也归为同一类。这样，对于拍摄对象包括多个人物对象的一张人物图像会对应多个类。

例如，假设有人物图像A、B、C、D。其中人物图像A中拍摄了人物对象a、人物对象b和人物对象d。人物图像B中拍摄了人物对象a。人物图像C中拍摄了人物对象b。人物图像D中拍摄了人物对象d。

可以首先确定出人物图像A中的不同人物对象(人物对象a、人物对象b和人物对象c)分别对应的人物图像区域、人物图像B中人物对象a对应的人物图像区域，人物图像C中人物对象b对应的人物图像区域，以及人物图像D中人物对象d对应的人物图像区域。然后将上述人物图像A中不同人物对象分别对应的人物图像区域，人物图像B中的人物对象a对应的人物图像区域，人物图像C中的人物对象b对应的人物图像区域，以及人物图像D中的人物对象d对应的人物图像区域输入到人体特征识别网络。则对于人物图像A将得到分别对应人物对象a、人物对象b和人物对象d的三个人体特征图。对于人物图像B，将得到对应人物对象a的人体特征图。对于人物图像C，将得到对应人物对象b的人体特征。对于人物图像D，将得到对应人物对象d的人体特征图。接着根据人物图像A的分别对应人物对象a、人物对象b和人物对象d的三个人体特征图得到分别对应人物对象a、人物对象b和人物对象d的三个人体特征向量。根据人物图像B的特征图得到人物对象a的人体特征向量，根据人物图像C的特征图得到人物对象b的特征图，根据人物图像D的特征图得到人物对象d的特征向量。在按照每一人体特征向量对人物图像A、B、C、D进行聚类后，将得到对应人物对象a、人物对象b和人物对象d的三个类，其中对应人物对象a的类中包括人物图像A和人物图像B，对应人物对象b的类中包括人物图像A和人物图像C，对应人物对象d的类包括人物图像A和人物图像D。

从图6中可以看出，与图2对应的实施例相比，本实施例中的人物图像聚类方法的流程600突出了确定每一张人物图像中不同人物对象分别对应的人物图像区域，并将每一张人物图像中不同人物对象各自对应的人物图像区域输入到人体特征识别网络来得到每一张人物图像中不同人物对象分别对应的人体特征图，然后根据人体特征图得到每一张人物图像中不同人物对象分别对应的人体特征向量的步骤。由此，本实施例描述的方案可以将包括多个人物对象的人物图像进行准确的聚类。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种人物图像聚类装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的人物图像聚类装置700包括：获取单元701、人体特征提取单元702、人体特征向量生成单元703和聚类单元704。其中，获取单元701，配置用于获取多张人物图像；人体特征提取单元702，配置用于对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图；人体特征向量生成单元703，配置用于对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量；聚类单元704，配置用于基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；其中，人体特征识别网络基于如下的训练步骤训练得到：获取训练样本集合，训练样本集合中的各训练样本包括训练人物图像和用于指示训练人物图像所包含的人物身份的标注信息；将训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络。

在本实施例中，人物图像聚类装置700的获取单元701、人体特征提取单元702、人体特征向量生成单元703和聚类单元704的具体处理及其所带来的技术效果可分别参考图2对应实施例中步骤201、步骤202、步骤203和步骤204的相关说明，在此不再赘述。

在本实施例的一些可选实现方式中，人物图像聚类装置700还包括面部特征提取单元(图中未示出)，面部特征提取单元配置用于在人体特征向量生成单元对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量之前，对于每一张人物图像，将该张人物图像输入到预先训练的人脸特征识别模型得到该张人物图像所包括的人物对象的面部特征图，人脸特征识别模型用于确定输入到其中的人物图像所包括的人物对象的面部特征图；以及人体特征向量生成单元703进一步配置用于：对于每一张人物图像，基于与该人物图像对应的面部特征图以及与该人物图像对应的人体特征图生成该人物图像的人体特征向量。

在本实施例的一些可选实现方式中，人体特征识别网络包括多个级联的残差网络单元；人体特征提取单元702进一步配置用于：通过将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中训练各级残差网络单元以确定各级残差网络单元的参数。

在本实施例的一些可选实现方式中，训练样本集合包括多个训练样本对，训练样本对中包括人物身份相同的两张训练人物图像，或者，训练样本对中包括人物身份不相同的两张训练人物图像；以及人体特征提取单元702进一步配用于：将各训练样本对输入到初始人体特征识别网络进行训练使得训练后的人体特征识别网络的输出具有如下特征：若训练样本对中的两张训练人物图像对应的人物身份相同，则基于训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度大于第一预设相似度阈值；若训练样本对中的两张训练人物图像对应的人物身份不相同，则基于由训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度小于第二预设相似度阈值；其中，第二预设相似度阈值小于第一相似度阈值。

在本实施例的一些可选实现方式中，人物图像聚类装置700还包括确定单元(图中未示出)，确定单元配置用于：在人体特征提取单元702对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图之前，对于每一张人物图像，确定该张人物图像中的不同人物对象分别对应的人物图像区域；以及人体特征提取单元702进一步配置用于：将每一张人物图像中的不同人物对象各自对应的人物图像区域输入到人体特征识别网络，得到该张人物图像中不同人物对象分别对应的人体特征图；以及人体特征向量生成单元703进一步配置用于：对于每一张人物图像，基于该人物图像中的不同人物对象分别对应的人体特征图生成该人物图像中不同人物对象分别对应的人体特征向量。

在本实施例的一些可选实现方式中，聚类单元704进一步配置用于：将与各人物对象的人物图像分别对应的人体特征向量输入到预先训练的分类网络，对多张原始人物图像进行聚类。

下面参考图8，其示出了适于用来实现本申请实施例的服务器的计算机系统800的结构示意图。图8示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU，Central Processing Unit)801，其可以根据存储在只读存储器(ROM，Read Only Memory)802中的程序或者从存储部分808加载到随机访问存储器(RAM，Random Access Memory)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。CPU 801、ROM802以及RAM 803通过总线804彼此相连。输入/输出(I/O，Input/Output)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、人体特征提取单元、人体特征向量生成单元和聚类单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取多张人物图像的单元”。作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：获取多张人物图像；对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图；对于每一张人物图像，基于人体特征图生成该张人物图像所包括的人物对象的人体特征向量；基于所生成的人体特征向量对多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；其中，人体特征识别网络基于如下的训练步骤训练得到：获取训练样本集合，训练样本集合中的各训练样本包括训练人物图像和用于指示训练人物图像所包含的人物身份的标注信息；将训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种人物图像聚类方法，包括：

获取多张人物图像；

对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，所述人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图；

对于每一张人物图像，基于所述人体特征图生成该张人物图像所包括的人物对象的人体特征向量；

基于所生成的人体特征向量对所述多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；

其中，所述人体特征识别网络基于如下的训练步骤训练得到：获取训练样本集合，所述训练样本集合中的各训练样本包括训练人物图像和用于指示所述训练人物图像所包含的人物身份的标注信息；将所述训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络。

2.根据权利要求1所述的方法，其中，在所述对于每一张人物图像，基于所述人体特征图生成该张人物图像所包括的人物对象的人体特征向量之前，所述方法还包括：

对于每一张人物图像，将该张人物图像输入到预先训练的人脸特征识别模型得到该张人物图像所包括的人物对象的面部特征图，所述人脸特征识别模型用于确定输入到其中的人物图像所包括的人物对象的面部特征图；以及

所述对于每一张人物图像，基于所述人体特征图生成该张人物图像所包括的人物对象的人体特征向量，包括：

基于与该人物图像对应的面部特征图以及与该人物图像对应的人体特征图生成该人物图像所包括的人物对象的人体特征向量。

3.根据权利要求1所述的方法，其中，所述人体特征识别网络包括多个级联的残差网络单元；

所述将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中对初始人体特征识别网络进行训练，包括：

通过将添加了身份标识的多张训练人物图像输入到初始人体特征识别网络中训练各级残差网络单元以确定各级残差网络单元的参数。

4.根据权利要求1所述的方法，其中，所述训练样本集合包括多个训练样本对，所述训练样本对中包括人物身份相同的两张训练人物图像，或者，所述训练样本对中包括人物身份不相同的两张训练人物图像；以及

所述将所述训练样本输入到预先建立的初始人体特征识别网络中，对初始人体特征识别网络进行训练，得到训练后的人体特征识别网络，包括：

将各训练样本对输入到所述初始人体特征识别网络进行训练使得训练后的人体特征识别网络的输出具有如下特征：若训练样本对中的两张训练人物图像对应的人物身份相同，则基于训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度大于第一预设相似度阈值；若训练样本对中的两张训练人物图像对应的人物身份不相同，则基于由训练后的人体特征识别网络所输出的与该训练样本对中两张训练人物图像分别对应的特征图之间的相似度小于第二预设相似度阈值；其中，所述第二预设相似度阈值小于所述第一相似度阈值。

5.根据权利要求1所述的方法，其中，在所述对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图之前，所述方法还包括：

对于每一张人物图像，确定该张人物图像中的不同人物对象分别对应的人物图像区域；以及

所述对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，包括：

将每一张人物图像中的不同人物对象各自对应的人物图像区域输入到人体特征识别网络，得到该张人物图像中不同人物对象分别对应的人体特征图；以及

基于该人物图像中的不同人物对象分别对应的人体特征图生成该人物图像中不同人物对象分别对应的人体特征向量。

6.根据权利要求1所述的方法，其中，所述基于人体特征向量对所述多张原始人物图像进行聚类，得到至少一个类，包括：

将与各人物对象的人物图像分别对应的人体特征向量输入到预先训练的分类网络，对所述多张人物图像进行聚类。

7.一种人物图像聚类装置，包括：

获取单元，配置用于获取多张人物图像；

人体特征提取单元，配置用于对于每一张人物图像，将该张人物图像输入到预先训练的人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图，所述人体特征识别网络用于确定输入到其中的人物图像所包括的人物对象的人体特征图；

人体特征向量生成单元，配置用于对于每一张人物图像，基于所述人体特征图生成该张人物图像所包括的人物对象的人体特征向量；

聚类单元，配置用于基于所生成的人体特征向量对所述多张人物图像进行聚类，得到至少一个类，其中一个类与一个人物对象一一对应；

8.根据权利要求7所述的装置，其中，所述装置还包括面部特征提取单元，

所述面部特征提取单元配置用于在所述人体特征向量生成单元对于每一张人物图像，基于所述人体特征图生成该张人物图像所包括的人物对象的人体特征向量之前，

所述人体特征向量生成单元进一步配置用于：

对于每一张人物图像，基于与该人物图像对应的面部特征图以及与该人物图像对应的人体特征图生成该人物图像所包括的人物对象的人体特征向量。

9.根据权利要求7所述的装置，其中，所述人体特征识别网络包括多个级联的残差网络单元；

所述人体特征提取单元进一步配置用于：

10.根据权利要求1所述的装置，其中，所述训练样本集合包括多个训练样本对，所述训练样本对中包括人物身份相同的两张训练人物图像，或者，所述训练样本对中包括人物身份不相同的两张训练人物图像；以及

所述人体特征提取单元进一步配用于：

11.根据权利要求6所述的装置，其中，所述装置还包括确定单元，

所述确定单元配置用于：在所述人体特征提取单元对于每一张人物图像，将该张人物图像输入到人体特征识别网络得到该张人物图像所包括的人物对象的人体特征图之前，对于每一张人物图像，确定该张人物图像中的不同人物对象分别对应的人物图像区域；以及

所述人体特征提取单元进一步配置用于：将每一张人物图像中的不同人物对象各自对应的人物图像区域输入到人体特征识别网络，得到该张人物图像中不同人物对象分别对应的人体特征图；以及

所述人体特征向量生成单元进一步配置用于：对于每一张人物图像，基于该人物图像中的不同人物对象分别对应的人体特征图生成该人物图像中不同人物对象分别对应的人体特征向量。

12.根据权利要求7所述的装置，其中，所述聚类单元进一步配置用于：

13.一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。