CN112836611A

CN112836611A - 确定身体部位语义图、模型训练和行人重识别方法及设备

Info

Publication number: CN112836611A
Application number: CN202110102419.8A
Authority: CN
Inventors: 赵佳男
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2021-05-25

Abstract

本发明公开了一种确定身体部位语义图的方法，其包括：提取同一行人的若干张图像中每张图像的全局特征图；对全部全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为全局特征图映射的身体部位语义图，从而提高了带有身体部位标签的图像的获取效率。

Description

确定身体部位语义图、模型训练和行人重识别方法及设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种确定身体部位语义图的方法和设备、行人重识别模型的训练方法和设备、基于无监督的行人重识别方法和设备、计算机设备以及存储介质。

背景技术

行人重识别(person re-ID)技术在当代计算机视觉领域中越来越受欢迎，因为它在智能安防等领域的研究和应用具有重要的意义。该技术的目标是在不同的监控设备上对同一个想要查询定位的人进行识别。在现实场景中，由于受到人体姿态、摄像机拍摄角度变化和照明条件等因素的影响，如何准确地识别并匹配行人成为了十分具有挑战性的问题。随着深度学习相关算法在计算机视觉领域的成功应用以及大规模数据库的出现，很多先进的方法不断被提出来用以解决该问题。

常见的行人重识别方法一般基于有监督的方式实现，即首先获取带有身体部位标签的图像作为训练样本，然后采用训练样本对网络模型进行有监督的训练，最终利用训练好的网络模型进行行人重识别。目前带有身体部位标签的图像是通过对图像中的身体部位进行人工标注而获得的。在人工标注过程中，标注者需要在图像中逐一找出待标注的身体部位，并在各待标注的身体部位所在位置处像素级别地标注相应的标签，以获得带有身体部位标签的图像。由于标注是像素级别的且是人工的，因而标注的工作量巨大且容易出错，造成标注效率低下，导致带有身体部位标签的图像的获取效率低下。

综上所述，目前带有身体部位标签的图像的获取效率低下。

发明内容

(一)发明目的

本发明的目的是提供一种确定身体部位语义图的方法和设备、行人重识别模型的训练方法和设备、基于无监督的行人重识别方法和设备、计算机设备以及存储介质，用以解决现有技术中存在的带有身体部位标签的图像的获取效率低下的问题。

(二)技术方案

为解决上述问题，本发明的第一方面提供了一种确定身体部位语义图的方法，包括：

提取同一行人的若干张图像中每张图像的全局特征图；

对全部全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；

对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为全局特征图映射的身体部位语义图。

可选地，对所有像素进行聚类，得到若干个与身体部位相关的类别，包括：

对所有像素进行第一聚类，得到前景像素；

根据像素间的相似度，对前景像素进行第二聚类，得到若干个与身体部位相关的类别。

本发明的第二方面提供了一种行人重识别模型的训练方法，包括：

采用所述的确定身体部位语义图的方法，确定样本图像的身体部位语义图；

利用确定的样本图像的身体部位语义图，训练行人重识别模型。

可选地，利用样本图像的身体部位语义图，训练行人重识别模型，包括：

根据样本图像的身体部位语义图和全局特征图，得到样本图像的各身体部位特征图；

利用得到的样本图像的各身体部位特征图，计算损失函数值，并基于计算得到的损失函数值迭代更新行人重识别模型的参数，直至达到迭代终止条件。

本发明的第三方面提供了一种基于无监督的行人重识别方法，包括：

利用根据所述训练方法训练得到的行人重识别模型，获取查询图像和候选图像的各身体部位特征图；

利用获取的查询图像和候选图像的各身体部位特征图，计算查询图像与每个候选图像的距离；

根据计算得到的查询图像与每个候选图像的距离，对候选图像进行排序，将排序结果作为重识别结果进行输出。

可选地，计算查询图像与每个候选图像的距离，包括：

利用两图像的各身体部位特征图计算两图像的各身体部位特征距离，利用两图像的全局特征图计算两图像的全局特征距离，计算两图像的前景特征距离；

根据两图像中各身体部位是否可见以及计算得到的各身体部位特征距离、全局特征距离和前景特征距离，计算两图像的距离。

本发明的第四方面提供了一种确定身体部位语义图的设备，包括：

提取模块，用于提取同一行人的若干张图像中每张图像的全局特征图；

聚类模块，用于对全部全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；

确定模块，用于对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为全局特征图映射的身体部位语义图。

本发明的第五方面提供了一种行人重识别模型的训练设备，包括：

处理模块，用于采用所述的确定身体部位语义图的方法，确定样本图像的身体部位语义图；

训练模块，用于利用确定的样本图像的身体部位语义图，训练行人重识别模型。

本发明的第六方面提供了一种基于无监督的行人重识别设备，包括：

获取模块，用于利用根据所述训练方法训练得到的行人重识别模型，获取查询图像和候选图像的各身体部位特征图；

计算模块，用于利用获取的查询图像和候选图像的各身体部位特征图，计算查询图像与每个候选图像的距离；

输出模块，用于根据计算得到的查询图像与每个候选图像的距离，对候选图像进行排序，将排序结果作为重识别结果进行输出。

本发明的第七方面提供了一种计算机设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现所述的确定身体部位语义图的方法，或者所述的行人重识别模型的训练方法，或者所述的基于无监督的行人重识别方法。

本发明的第八方面提供了一种存储介质，所述存储介质为计算机可读存储介质其上存储有计算机程序；

所述计算机程序被处理器执行以实现所述的确定身体部位语义图的方法，或者所述的行人重识别模型的训练方法，或者所述的基于无监督的行人重识别方法。

(三)有益效果

本发明提供了一种确定身体部位语义图的方法，包括：提取同一行人的若干张图像中每张图像的全局特征图；对全部全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为全局特征图映射的身体部位语义图。本发明的身体部位语义图是像素位置带有身体部位标签的图像，在本发明中，通过像素聚类和类别标签生成步骤，便可得到若干张身体部位语义图，从而提高了带有身体部位标签的图像的获取效率。

附图说明

图1是本发明实施例提供的一种确定身体部位语义图的方法流程示意图；

图2是本发明实施例提供的类别标签生成过程示意图；

图3是本发明实施例提供的一种行人重识别模型的训练方法流程示意图；

图4是本发明实施例提供的置信图的示意图；

图5是本发明实施例提供的一种基于无监督的行人重识别的方法流程示意图；

图6是本发明实施例提供的一种确定身体部位语义图的设备的结构示意图；

图7是本发明实施例提供的一种行人重识别模型的训练设备的结构示意图；

图8是本发明实施例提供的一种基于无监督的行人重识别设备的结构示意图；

图9是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”仅用于区分目的，而不能理解为指示或暗示相对重要性。

本发明实施例提供了一种确定身体部位语义图的方法，如图1所示，该方法包括：

步骤101、提取同一行人的若干张图像中每张图像的全局特征图；

步骤102、对全部全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；

步骤103、对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为全局特征图映射的身体部位语义图。

其中，本发明实施例的身体部位语义图是像素位置带有身体部位标签的图像。

实施中，本发明实施例通过像素聚类和类别标签生成步骤，便可得到若干张身体部位语义图，从而提高了带有身体部位标签的图像的获取效率。

实施中，本发明实施例通过全局特征图提取、像素聚类和类别标签生成步骤，便可从常规的图像中直接学习到身体部位语义图，而不需要通过人工标注的方式获取，即不引入额外的标注工作量，从而极大的节约了人力成本。

实施中，在本发明实施例中，由于像素的类别标签通过聚类得到，相较于现有技术中的人工标注，对身体部位的边缘能够更加准确地区分，因此能够提高获取的带有身体部位标签的图像的准确度。

其中，在步骤101中，在同一行人的每张图像中，只有行人一个人，而无其他人。

其中，在步骤101中，提取图像的全局特征图的实施方式与现有技术中实施方式类似，在此不再赘述。

其中，在步骤102中，得到的若干个类别均与身体部位相关，不同类别与不同身体部位相关；比如，对所有像素进行聚类得到4个与身体部位相关的类别，分别为类别1、类别2、类别3和类别4，类别1与头部相关，类别2与上半身相关，类别3与下半身相关，类别4与脚部相关。

其中，在步骤102中，任何能够得到若干个与身体部位相关的类别的聚类方式均适用于本发明实施例，比如，依据聚类次数不同，分为一次和多次；依据聚类种类不同，分为k-means(K均值聚类算法)、CLARANS(基于随机选择的聚类算法)和PCM(模糊聚类算法)等。

可选地，在步骤102中，对所有像素进行聚类，得到若干个与身体部位相关的类别，包括：

步骤1021、对所有像素进行第一聚类，得到前景像素；

步骤1022、根据像素间的相似度，对前景像素进行第二聚类，得到若干个与身体部位相关的类别。

实施中，利用分层聚类，先进行第一聚类以消除背景像素的干扰，再进行第二聚类以得到若干个与身体部位相关的类别，可以提高得到的类别的准确度。

其中，在步骤1021中，对所有像素进行第一聚类得到前景像素的实施方式，与现有技术中对像素进行聚类得到前景像素的实施方式类似，比如根据像素的激活值和/或置信度对像素进行聚类得到前景像素，在此不再赘述。

其中，在步骤1021中，在根据像素的激活值对所有像素进行第一聚类时，像素的激活值可以是经过归一化处理后的激活值，也可以是未经归一化处理的激活值。

实施中，根据归一化处理后的像素的激活值对所有像素进行第一聚类，可以统一所有像素的比较标准，从而提高确定出的前景像素的准确度。

可选地，在步骤1021中，将全局特征图M_g中每个像素位置M_g(x,y)上的激活值定义为||M_g(x,y)||₂，采用如下公式对每个像素的激活值进行归一化处理：

其中，a(x,y)为归一化处理后的像素的激活值，max_(i,j)||M_g(x,y)||₂为所有像素的激活值的最大值，(i,j)为M_g中像素的坐标。

其中，由于相对于背景像素，前景像素拥有更高的激活值，因而在步骤1021中，在根据像素的激活值对所有像素进行第一聚类时，将激活值小于划分阈值的像素确定为背景像素。划分阈值可以根据经验或实验确定，比如，若像素的激活值经过归一化处理，在图像清晰的情况下，划分阈值可以设置为0.05；在图像不清晰的情况下，划分阈值可以设置为0.1；若像素的激活值未经归一化处理，可以为不同全局特征图中的像素设置不同的划分阈值，设置全局特征图1中像素的划分阈值为100，设置全局特征图2中像素的划分阈值为200。

其中，在步骤1022中，像素间的相似度，是指像素间的特征距离的大小。

其中，前景像素包括若干个身体部位，在步骤1022中，任何能够得到若干个与身体部位相关的类别的基于像素间的相似度的聚类算法均适用于本发明实施例，比如，k-means、CLARANS和PCM等算法及其扩展算法。

其中，在步骤1022中，在根据像素间的相似度对前景像素进行第二聚类时，像素的位置可以是经过归一化处理后的位置，也可以是未经归一化处理的位置。

实施中，采用归一化处理后的像素位置完成第二聚类，可以排除干扰因素，从而提高得到的身体部位相关类别的准确度。

可选地，在步骤1022中，在进行第二聚类时，更加关注的是像素之间的相似性和区别，而非像素的激活值，因而，采用如下公式对每个像素的位置进行归一化处理：

其中，D(x,y)为归一化处理后的像素的位置，M_g(x,y)为全局特征图M_g中像素的位置，||M_g(x,y)||₂为M_g(x,y)上的激活值。

其中，由于在存在遮挡时，被遮挡位置的像素被划分为背景像素，因而，在步骤1022中，当身体部位被遮挡时，得到的类别数目可能会少于身体部位数目。

其中，在步骤103中，根据像素的位置标识可以确定像素所属的全局特征图以及在所属的全局特征图中的位置。

其中，在步骤103中，类别与类别标签的映射关系可以自定义；比如，设置类别标签为正整数值，与头部相关的类别的类别标签为1，与上半身相关的类别的类别标签为2，与下半身相关的类别的类别标签为3，与脚部相关的类别的类别标签为4。

其中，在步骤103中，对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签的过程，类似于，带类别标签的像素还原至全局特征图的过程。

为方便理解，下面以图2为例，对步骤103中，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签的过程进行示例性说明。

如图2A所示，对全局特征图M_g1和M_g2中所有像素进行聚类，得到3个与身体部位相关的类别，类别1与头部相关，类别2与上半身相关，类别3与下半身相关。

对于像素M_g1(25,10)，根据图2A可知，M_g1(25,10)属于类别1，则如图2B所示，在M_g1(25,10)所属的全局特征图M_g1中位置坐标(25,10)处生成相应的类别标签1。对于像素M_g2(35,20)，根据图2A可知，M_g2(35,20)属于类别1，则如图2C所示，在M_g2(35,20)所属的全局特征图M_g2中位置坐标(35,20)处生成相应的类别标签1。

同理，如图2B所示，在M_g1(30,40)所属的全局特征图M_g1中位置坐标(30,40)处生成相应的类别标签2，在M_g1(20,60)所属的全局特征图M_g1中位置坐标(20,60)处生成相应的类别标签3；如图2C所示，在M_g2(30,40)所属的全局特征图M_g2中位置坐标(30,40)处生成相应的类别标签2，在M_g2(35,60)所属的全局特征图M_g2中位置坐标(35,60)处生成相应的类别标签3。

采用同样的方式，生成图2中未标示出的其他像素的类别标签，便可得到全局特征图M_g1映射的身体部位语义图1以及全局特征图M_g2映射的身体部位语义图2。

其中，为增大区别，身体部位语义图中未带有身体部位类别标签的像素位置带有背景标签。背景标签可以自定义，比如设置背景标签为0。

基于同一发明构思，本发明实施例还提供了一种行人重识别模型的训练方法，如图3所示，该方法包括：

步骤301、采用本发明实施例的确定身体部位语义图的方法，确定样本图像的身体部位语义图；

步骤302、利用确定的样本图像的身体部位语义图，训练行人重识别模型。

实施中，本发明实施例通过提高带有身体部位标签的图像的获取效率，从而提高了行人重识别模型的训练效率。

实施中，本发明实施例提供的行人重识别模型的训练方法不引入额外的标注工作量，因而极大的节约了人力成本。

实施中，本发明实施例通过提高获取的带有身体部位标签的图像的准确度，从而提高了训练得到的行人重识别模型的准确度。

其中，在步骤301中，确定样本图像的身体部位语义图的实施方式可以参见本发明实施例的步骤101至步骤103的具体实施方式。

其中，在步骤302中，利用确定的样本图像的身体部位语义图训练行人重识别模型的实施方式有多种，下面将对三种优选的实施方式进行介绍。

一、采用无监督的方式训练行人重识别模型。

可选地，在步骤302中，利用样本图像的身体部位语义图，训练行人重识别模型，包括：

步骤3021、根据样本图像的身体部位语义图和全局特征图，得到样本图像的各身体部位特征图；

步骤3022、利用得到的样本图像的各身体部位特征图，计算损失函数值，并基于计算得到的损失函数值迭代更新行人重识别模型的参数，直至达到迭代终止条件。

实施中，本发明实施例提供了一种新的基于无监督的行人重识别模型训练方法。

实施中，通过训练不断迭代更新优化行人重识别模型参数，可以提取到更准确的全局特征图，从而可以通过聚类等步骤得到更准确的身体部位语义图，进而可以确定出更准确的身体部位特征图。

其中，在步骤3021中，由于全局特征图含有特征信息，身体部位语义图含有像素级别身体部位分割信息，而像素级别身体部位特征对齐表示的核心在于，用全局特征图上某一身体部位的所有像素来表示该身体部位的特征，因而根据全局特征图和身体部位语义图能够确定各个身体部位的特征图。

其中，在步骤3021中，任一种根据全局特征图和身体部位语义图确定出各身体部位特征图的实施方式均适用于本发明实施例，比如，将身体部位语义图投影到全局特征图上，得到各身体部位特征图。

可选地，在步骤3021中，根据全局特征图和身体部位语义图，确定各身体部位特征图，包括：

步骤30211、根据身体部位语义图，得到各身体部位置信图；

步骤30212、根据全局特征图和得到的各身体部位置信图，确定各身体部位特征图。

实施中，根据全局特征图和各身体部位置信图确定各身体部位特征图，方案复杂度较小。

其中，本发明实施例的置信图具有身体部位语义信息。在某一身体部位的置信图中，不包含除该身体部位以外的其他身体部位的类别标签。比如，以图4为例，如图4A所示，身体部位语义图包含类别标签1表示的头部、类别标签2表示的上半身以及类别标签3表示的下半身；根据身体部位语义图得到的头部的置信图如图4B所示，在头部的置信图中，包含头部的类别标签1，而不包含上半身的类别标签2与下半身的类别标签3。

其中，在步骤30211中，任一种根据身体部位语义图得到各身体部位置信图的实施方式均适用于本发明实施例，比如，通过掩码和/或裁剪等方式。

其中，在步骤30212中，任一种根据全局特征图和各身体部位置信图确定各身体部位特征图的实施方式均适用于本发明实施例，比如，通过投影或计算公式等方式。

可选地，在步骤30212中，假设总共有(K－1)个身体部位和一个全局背景，则需要总计K张(即各身体部位和全局背景)置信图，表示为P₀,P₁,...,P_K-1，每张置信图P_k与某个身体部位语义关联，则每个身体部位k的特征图可以根据下列公式确定：

M_k＝P_k*M_g

其中，M_k为身体部位k的特征图，M_g为全局特征图，k∈{0，...，K－1}；*表示元素与元素之间的乘积。

其中，在步骤3022中，可以采用现有技术中训练行人重识别模型时常用的损失函数计算损失函数值，具体而言，可以采用一个损失函数，也可以采用多个损失函数，计算损失函数值。

可选地，在步骤3022中，采用现有技术中softmax交叉熵损失函数和三元组损失函数计算损失函数值；比如，采用下列公式计算损失函数值L：

L＝L_tri+L_ID

其中，L_tri为三元组损失函数值，根据下列公式确定：

和

为同一行人的正样本对的特征，

和

为不同行人的负样本对的特征，α为定义的边界，N为总的样本数，

表示二范数的平方；

其中，L_ID为softmax交叉熵损失函数值，根据下列公式确定：

S为总的类别数，y为类别标签，θ为模型分类层的参数，f为特征。

其中，在步骤3022中，得到各身体部位特征图后，可以仅根据各身体部位特征计算损失函数值，也可以根据各身体部位特征与其他特征(比如，全局特征、前景特征)的融合特征计算损失函数值，前景特征为前景像素区域的特征。

其中，在步骤3022中，基于损失函数值更新行人重识别模型的参数的实施方式，与现有技术中基于损失函数值更新行人重识别模型的参数的实施方式类似，在此不再赘述。

其中，在步骤3022中，迭代终止条件可以预先设定，比如预先设定为损失函数收敛、达到设定迭代次数或者行人重识别模型趋于稳定等。

其中，根据聚类等步骤确定身体部位语义图(即步骤301)、利用身体部位语义图进行身体部位的特征表示学习(即步骤3021)以及利用身体部位特征计算损失函数值并更新模型参数(即步骤3022)是一个迭代进行的过程。在训练过程中，通过不断迭代，使得模型参数不断优化，从而保证训练得到的行人重识别模型能够获取准确的各身体部位特征图。

二、采用第一种有监督的方式训练行人重识别模型。

根据样本图像的身体部位语义图计算样本图像的各身体部位特征图，以及利用行人重识别模型预测样本图像的各身体部位特征图；

根据预测的各身体部位特征图与计算的各身体部位特征图之间的误差，计算损失并基于损失迭代更新行人重识别模型的参数。

三、采用第二种有监督的方式训练行人重识别模型。

利用行人重识别模型预测样本图像的身体部位语义图；

根据预测的身体部位语义图与采用本发明实施例的确定身体部位语义图的方法确定的身体部位语义图之间的误差，计算损失并基于损失迭代更新行人重识别模型的参数；

利用训练得到的行人重识别模型预测样本图像的身体部位语义图并依据预测得到的身体部位语义图提取各身体部位特征图，以及根据样本图像的身体部位语义图计算样本图像的各身体部位特征图；

根据提取的各身体部位特征图与计算的各身体部位特征图之间的误差，计算损失并基于损失迭代更新行人重识别模型的参数。

基于同一发明构思，本发明实施例还提供了一种基于无监督的行人重识别方法，如图5所示，该方法包括：

步骤501、利用根据本发明实施例的行人重识别模型的训练方法训练得到的行人重识别模型，获取查询图像和候选图像的各身体部位特征图；

步骤502、利用获取的查询图像和候选图像的各身体部位特征图，计算查询图像与每个候选图像的距离；

步骤503、根据计算得到的查询图像与每个候选图像的距离，对候选图像进行排序，将排序结果作为重识别结果进行输出。

实施中，本发明实施例通过提高带有身体部位标签的图像的获取效率，从而提高了行人重识别模型的训练效率，进而提高了行人重识别的效率。

实施中，本发明实施例提供的行人重识别方法不引入额外的标注工作量，因而极大的节约了人力成本。

实施中，本发明实施例通过提高获取的带有身体部位标签的图像的准确度，从而提高了训练得到的行人重识别模型的准确度，进而提高了行人重识别的准确度。

实施中，本发明实施例提供了一种新的基于无监督的行人重识别方法。

其中，在步骤501中，利用行人重识别模型获取查询图像和候选图像的各身体部位特征图的实施方式，可以参见本发明实施例提供的行人重识别模型的训练方法中得到样本图像的各身体部位特征图的实施方式，在此不再赘述。

其中，在步骤502中，可以仅利用各身体部位特征图计算两图像的距离，也可以利用各身体部位特征图与全局特征图和/或前景特征的组合计算两图像的距离，具体可以根据需求灵活确定。

可选地，在步骤502中，计算查询图像与每个候选图像的距离，包括：

步骤5021、利用两图像的各身体部位特征图计算两图像的各身体部位特征距离，利用两图像的全局特征图计算两图像的全局特征距离，计算两图像的前景特征距离；

步骤5022、根据两图像中各身体部位是否可见以及计算得到的各身体部位特征距离、全局特征距离和前景特征距离，计算两图像的距离。

实施中，采用本发明实施例的步骤5022中方案计算两图像的距离，可以提高计算出的两图像距离的准确度，从而提高行人重识别的准确度。

其中，本发明实施例的两图像，是指查询图像与任一候选图像。

其中，在步骤5021中，可以直接计算两图像的各身体部位特征图之间的距离，并将计算结果确定为得到的各身体部位特征距离；为方便计算，可以在将各身体部位特征图转化为其他表示形式(比如，特征向量)后再计算距离。全局特征距离的实施方式与身体部位特征距离的实施方式类似，在此不再赘述。

其中，在步骤5021中，前景特征距离是指前景特征的距离。任一种确定前景特征的方式均适用于本发明实施例。

其中，在步骤5021中，本发明实施例的距离可以为现有技术中任一种距离，比如欧氏距离、余弦距离、明氏距离或曼哈顿距离等。

其中，在步骤5022中，任一种根据各身体部位是否可见、各身体部位特征距离、全局特征距离和前景特征距离计算两图像距离的实施方式均适用于本发明实施例，比如，根据某一身体部位是否可见决定是否采用该身体部位特征距离计算两图像距离，并将身体部位特征距离、全局特征距离和前景特征距离的平均值、加权和值、标准差值或者方差值确定为两图像距离。

可选地，在步骤5022中，假设总共有(K－1)个身体部位，根据下列公式计算两图像的距离：

其中，d为计算得到的两图像的距离；

为查询图像中第k个身体部位的可见度，

为候选图像中第k个身体部位的可见度，第k个身体部位可见时可见度取值为1，第k个身体部位不可见时可见度取值为0，若第k个身体部位在查询图像与候选图像中都是可见的，则

的值为1，否则

的值为0；d_k为查询图像和候选图像的第k个身体部位特征距离，

D()表示距离度量，

与

分别为查询图像与候选图像的第k个身体部位特征；d_g为查询图像和候选图像的全局特征距离，

与

分别为查询图像与候选图像的全局特征；d_f为查询图像和候选图像的前景特征距离，

与

分别为查询图像与候选图像的前景特征。

其中，步骤503中方案的实施方式与现有技术中实施方式类似，在此不再赘述。

基于同一发明构思，本发明实施例提供了一种确定身体部位语义图的设备，用于执行上述的一种确定身体部位语义图的方法，如图6所示，该设备包括：

提取模块610，用于提取同一行人的若干张图像中每张图像的全局特征图；

聚类模块620，用于对全部全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；

确定模块630，用于对于每个像素，根据像素所属类别，在像素所属的全局特征图中像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为全局特征图映射的身体部位语义图。

其中，本发明实施例对于提取模块610、聚类模块620和确定模块630的具体形状结构不做限定，本领域技术人员可以根据其实现的功能作用对其进行任意设置，在此不再赘述；另外，本发明实施例中提取模块610、聚类模块620和确定模块630所实现的操作步骤的具体实现过程以及实现效果与本发明实施例中步骤101至步骤103的具体实现过程以及实现效果相同，具体可参考上述陈述内容，在此不再赘述。

在上述实施例的基础上，继续参考图6，本发明实施例对于聚类模块620得到若干个与身体部位相关的类别的具体实现过程不做限定，本领域技术人员可以根据具体的设计需求进行设置，较为优选的，在聚类模块620得到若干个与身体部位相关的类别时，该聚类模块620具体用于执行：对所有像素进行第一聚类，得到前景像素；根据像素间的相似度，对前景像素进行第二聚类，得到若干个与身体部位相关的类别。

基于同一发明构思，本发明实施例提供了一种行人重识别模型的训练设备，用于执行上述的一种行人重识别模型的训练方法，如图7所示，该设备包括：

处理模块710，用于采用本发明实施例的确定身体部位语义图的方法，确定样本图像的身体部位语义图；

训练模块720，用于利用确定的样本图像的身体部位语义图，训练行人重识别模型。

其中，本发明实施例对于处理模块710和训练模块720的具体形状结构不做限定，本领域技术人员可以根据其实现的功能作用对其进行任意设置，在此不再赘述；另外，本发明实施例中处理模块710和训练模块720所实现的操作步骤的具体实现过程以及实现效果与本发明实施例中步骤301至步骤302的具体实现过程以及实现效果相同，具体可参考上述陈述内容，在此不再赘述。

在上述实施例的基础上，继续参考图7，本发明实施例对于训练模块720训练行人重识别模型的具体实现过程不做限定，本领域技术人员可以根据具体的设计需求进行设置，较为优选的，在训练模块720训练行人重识别模型时，该训练模块720具体用于执行：根据样本图像的身体部位语义图和全局特征图，得到样本图像的各身体部位特征图；利用得到的样本图像的各身体部位特征图，计算损失函数值，并基于计算得到的损失函数值迭代更新行人重识别模型的参数，直至达到迭代终止条件。

基于同一发明构思，本发明实施例提供了一种基于无监督的行人重识别设备，用于执行上述的一种基于无监督的行人重识别方法，如图8所示，该设备包括：

获取模块810，用于利用根据本发明实施例的行人重识别模型的训练方法训练得到的行人重识别模型，获取查询图像和候选图像的各身体部位特征图；

计算模块820，用于利用获取的查询图像和候选图像的各身体部位特征图，计算查询图像与每个候选图像的距离；

输出模块830，用于根据计算得到的查询图像与每个候选图像的距离，对候选图像进行排序，将排序结果作为重识别结果进行输出。

其中，本发明实施例对于获取模块810、计算模块820和输出模块830的具体形状结构不做限定，本领域技术人员可以根据其实现的功能作用对其进行任意设置，在此不再赘述；另外，本发明实施例中获取模块810、计算模块820和输出模块830所实现的操作步骤的具体实现过程以及实现效果与本发明实施例中步骤501至步骤503的具体实现过程以及实现效果相同，具体可参考上述陈述内容，在此不再赘述。

在上述实施例的基础上，继续参考图8，本发明实施例对于计算模块820计算查询图像与每个候选图像的距离的具体实现过程不做限定，本领域技术人员可以根据具体的设计需求进行设置，较为优选的，在计算模块820计算查询图像与每个候选图像的距离时，该计算模块820具体用于执行：利用两图像的各身体部位特征图计算两图像的各身体部位特征距离，利用两图像的全局特征图计算两图像的全局特征距离，计算两图像的前景特征距离；根据两图像中各身体部位是否可见以及计算得到的各身体部位特征距离、全局特征距离和前景特征距离，计算两图像的距离。

基于同一发明构思，本发明实施例提供了一种计算机设备，如图9所示，该设备包括：

存储器910；

处理器920；以及

计算机程序；

其中，计算机程序存储在存储器910中，并被配置为由处理器920执行以实现上述一种确定身体部位语义图的方法，或者行人重识别模型的训练方法，或者基于无监督的行人重识别方法。

基于同一发明构思，本发明实施例提供了一种存储介质，该存储介质为计算机可读存储介质，其上存储有计算机程序；

该计算机程序被处理器执行以实现上述一种确定身体部位语义图的方法，或者行人重识别模型的训练方法，或者基于无监督的行人重识别方法。

其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，简称ROM)或随机存取存储器(RandomAccessMemory，简称RAM)等。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种确定身体部位语义图的方法，其特征在于，包括：

提取同一行人的若干张图像中每张图像的全局特征图；

对全部所述全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；

对于每个所述像素，根据所述像素所属类别，在所述像素所属的全局特征图中所述像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为所述全局特征图映射的身体部位语义图。

2.根据权利要求1所述的方法，其特征在于，对所有像素进行聚类，得到若干个与身体部位相关的类别，包括：

对所有像素进行第一聚类，得到前景像素；

根据像素间的相似度，对所述前景像素进行第二聚类，得到若干个与身体部位相关的类别。

3.一种行人重识别模型的训练方法，其特征在于，包括：

采用如权利要求1或2所述的方法，确定样本图像的身体部位语义图；

利用确定的所述样本图像的身体部位语义图，训练所述行人重识别模型。

4.根据权利要求3所述的方法，其特征在于，利用所述样本图像的身体部位语义图，训练所述行人重识别模型，包括：

根据所述样本图像的身体部位语义图和全局特征图，得到所述样本图像的各身体部位特征图；

利用得到的所述样本图像的各身体部位特征图，计算损失函数值，并基于计算得到的所述损失函数值迭代更新所述行人重识别模型的参数，直至达到迭代终止条件。

5.一种基于无监督的行人重识别方法，其特征在于，包括：

利用根据权利要求3或4所述方法训练得到的行人重识别模型，获取查询图像和候选图像的各身体部位特征图；

利用获取的所述查询图像和候选图像的各身体部位特征图，计算所述查询图像与每个所述候选图像的距离；

根据计算得到的所述查询图像与每个候选图像的距离，对所述候选图像进行排序，将排序结果作为重识别结果进行输出。

6.根据权利要求5所述的方法，其特征在于，所述计算查询图像与每个候选图像的距离，包括：

根据两图像中各身体部位是否可见以及计算得到的所述各身体部位特征距离、全局特征距离和前景特征距离，计算两图像的距离。

7.一种确定身体部位语义图的设备，其特征在于，包括：

聚类模块，用于对全部所述全局特征图中所有像素进行聚类，得到若干个与身体部位相关的类别；

确定模块，用于对于每个所述像素，根据所述像素所属类别，在所述像素所属的全局特征图中所述像素所在位置处生成相应的类别标签，将得到的每张像素位置带有类别标签的全局特征图分别确定为所述全局特征图映射的身体部位语义图。

8.一种行人重识别模型的训练设备，其特征在于，包括：

处理模块，用于采用如权利要求1或2所述的方法，确定样本图像的身体部位语义图；

训练模块，用于利用确定的所述样本图像的身体部位语义图，训练所述行人重识别模型。

9.一种基于无监督的行人重识别设备，其特征在于，包括：

获取模块，用于利用根据权利要求3或4所述方法训练得到的行人重识别模型，获取查询图像和候选图像的各身体部位特征图；

计算模块，用于利用获取的所述查询图像和候选图像的各身体部位特征图，计算所述查询图像与每个所述候选图像的距离；

输出模块，用于根据计算得到的所述查询图像与每个候选图像的距离，对所述候选图像进行排序，将排序结果作为重识别结果进行输出。

10.一种计算机设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1或2所述的确定身体部位语义图的方法，或者如权利要求3或4所述的行人重识别模型的训练方法，或者如权利要求5或6所述的基于无监督的行人重识别方法。

11.一种存储介质，其特征在于，所述存储介质为计算机可读存储介质其上存储有计算机程序；

所述计算机程序被处理器执行以实现如权利要求1或2所述的确定身体部位语义图的方法，或者如权利要求3或4所述的行人重识别模型的训练方法，或者如权利要求5或6所述的基于无监督的行人重识别方法。