CN111027434A

CN111027434A - 一种行人识别模型的训练方法、装置及电子设备

Info

Publication number: CN111027434A
Application number: CN201911215728.5A
Authority: CN
Inventors: 黄厚景; 林锦彬
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2018-12-29
Filing date: 2019-12-02
Publication date: 2020-04-17
Anticipated expiration: 2039-12-02
Also published as: CN111027434B

Abstract

公开了一种行人识别模型的训练方法、装置及电子设备。该模型训练方法包括：从源域中获取有行人身份标注的第一图片，从待测试的目标域中获取无行人身份标注的第二图片；将第一图片输入卷积神经网络获得第一特征图，并根据第一特征图和第一图片的身份标注计算获得身份损失值；对第一特征图进行部件分割获得第一分割区域预测图并据此计算获得第一分割损失值；将第二图片输入卷积神经网络获得第二特征图，对第二特征图进行部件分割获得第二分割区域预测图并据此计算获得第二分割损失值；根据身份损失值、第一分割损失值及第二分割损失值对行人识别模型进行参数调整，获得训练后的行人识别模型，解决了现有技术中模型跨域识别性能较差的技术问题。

Description

一种行人识别模型的训练方法、装置及电子设备

技术领域

本申请涉及软件技术领域，特别涉及一种行人识别模型的训练方法、装置及电子设备。

背景技术

行人再识别的应用场景非常广泛，包括视频监控中的行人检索、智能零售中的多目标跟踪等等。实际应用过程当中，不同场景下采集的视频带有各自域(Domain)的特点，若进行跨域测试，即在源域(Source Domain)进行训练，到目标域(Target Domain)进行测试，现有的行人再识别模型的性能将出现非常的大下降，因为现有的行人再识别模型通常都是采用源域中的样本进行训练，源域中的样本与目标域中的样本可能存在形态特征等的差异，从而导致了其对目标域测试的性能下降，这也体现了现有模型泛化能力的不足，亟需一种新的模型训练方法来提高行人再识别模型的泛化能力。

发明内容

为了解决上述技术问题，提出了本申请。

根据本申请的第一方面，提供了一种行人识别模型的训练方法，所述方法包括：

从源域中获取第一图片，从待测试的目标域中获取第二图片，其中，所述源域中的图片有行人的身份标注，所述目标域中图片无行人的身份标注；

将所述第一图片作为第一训练样本输入行人识别模型中的卷积神经网络获得第一特征图，并根据所述第一特征图和所述第一图片的身份标注计算获得身份损失值；

对所述第一特征图进行部件分割获得第一分割区域预测图，并根据所述第一分割区域预测图计算获得第一分割损失值；

将所述第二图片作为第二训练样本输入所述卷积神经网络获得第二特征图，对所述第二特征图进行部件分割获得第二分割区域预测图，并根据所述第二分割区域预测图计算获得第二分割损失值；

根据所述身份损失值、所述第一分割损失值及所述第二分割损失值对所述行人识别模型进行参数调整，获得训练后的所述行人识别模型。

根据本申请的第二方面，提供了一种行人识别方法，应用于第一方面所述的行人识别模型的训练方法训练获得的行人识别模型，所述识别方法包括：

将查询图片和目标域中的每张测试图片分别输入所述行人识别模型中识别输出所述查询图片的P个特征向量和所述每张测试图片的P个特征向量，其中，所述P个特征向量分别对应被识别图片的P个部件区域；

基于所述查询图片的第p个特征向量和所述每张测试图片的第p个特征向量，计算获得所述查询图片与所述每张测试图片之间的相似度，p∈[1,P]；

基于所述查询图片与所述每张测试图片之间的相似度，获得所述查询图片在所述目标域中的相似图片识别结果；

根据所述识别结果获得所述行人识别结果。

根据本申请的第三方面，提供了一种行人识别模型的训练装置，所述装置包括：

图片获取模块，用于从源域中获取第一图片，从待测试的目标域中获取第二图片，其中，所述源域中的图片有行人的身份标注，所述目标域中图片无行人的身份标注；

识别模块，用于将所述第一图片作为第一训练样本输入行人识别模型中的卷积神经网络获得第一特征图，并根据所述第一特征图和所述第一图片的身份标注计算获得身份损失值；

分割模块，用于对所述第一特征图进行部件分割获得第一分割区域预测图，并根据所述第一分割区域预测图计算获得第一分割损失值；

所述识别模块还用于将所述第二图片作为第二训练样本输入所述卷积神经网络获得第二特征图，所述分割模块还用于对所述第二特征图进行部件分割获得第二分割区域预测图，并根据所述第二分割区域预测图计算获得第二分割损失值；

参数调整模块，用于根据所述身份损失值、所述第一分割损失值及所述第二分割损失值对所述行人识别模型进行参数调整，获得训练后的所述行人识别模型。

根据本申请的第四方面，提供了一种行人识别装置，应用于如第一方面所述的行人识别模型的训练方法训练获得的行人识别模型，所述识别装置包括：

输入模块，用于将查询图片和目标域中的每张测试图片分别输入所述行人识别模型中识别输出所述查询图片的P个特征向量和所述每张测试图片的P个特征向量，其中，所述P个特征向量分别对应被识别图片的P个部件区域；

计算模块，用于基于所述查询图片的第p个特征向量和所述每张测试图片的第p个特征向量，计算获得所述查询图片与所述每张测试图片之间的相似度，p∈[1,P]；

查询模块，用于基于所述查询图片与所述每张测试图片之间的相似度，获得所述查询图片在所述目标域中的相似图片识别结果；

结果获取模块，用于根据所述识别结果获得所述行人识别结果。

根据本申请的第五方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述第一方面提供的行人识别模型的训练方法，或者执行上述第二方面提供的行人识别方法。

根据本申请的第六方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述第一方面提供的行人识别模型的训练方法，或者执行上述第二方面提供的行人识别方法。

本申请实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本申请实施例提供一种行人识别模型的训练方法，从有身份标记的源域和无身份标记的目标域获取获取训练样本；对源域中的图片身份识别获得身份损失值，以及对源域中的图片进行部件分割获得分割损失值；对目标域中的图片进行部件分割获得分割损失值；通过源域中图片部件分割的分割损失值和目标域中图片部件分割的分割损失值来对模型参数进行调整，实现了基于源域中图片进行行人识别模型训练时与目标域中图片的部件对齐，从而使训练获得的模型自然地适应目标域的场景，达到提高行人识别模型的泛化能力，提高跨域识别的准确性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本申请一示例性实施例提供的行人识别模型结构示意图；

图2是本申请一示例性实施例提供的一种行人识别模型的训练方法的流程图；

图3是本申请一示例性实施例提供的获取身份损失值的流程图；

图4是本申请一示例性实施例提供的关键点检测示意图；

图5是本申请一示例性实施例提供的获取分割损失值的流程图；

图6是本申请一示例性实施例提供的一种行人识别的方法的流程图；

图7是本申请一示例性实施例提供的一种行人识别模型的训练装置的结构框图；

图8是本申请一示例性实施例提供的一种行人识别模型的训练装置的细化框图；

图9是本申请一示例性实施例提供的一种行人识别的装置的结构框图；

图10是本申请一示例性实施例提供的一种行人识别的装置的细化框图；

图11是本申请一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

本实施例提供一种行人识别模型的训练方法、装置及电子设备。在模型训练时，从源域和待测试的目标域中分别获取图片；对源域中的图片进行行人识别获得身份损失值，以及部件分割获得第一分割损失值；对目标域中图片进行部件分割获得第二分割损失值；根据身份损失值、第一分割损失值及第二分割损失值对行人识别模型进行参数调整，获得训练后的行人识别模型，通过第一分割损失值和第二分割损失值对行人识别模型进行参数调整，使得基于源域中的图片进行行人识别模型训练时与目标域中的图片进行部件对齐，从而使训练获得的模型自然地适应目标域的场景，解决了现有技术中行人识别模型泛化能力较低的技术问题，进而提高跨域识别的准确性。

示例性模型结构

本申请实施例提供一种行人识别模型，如图1所示，该模型包含：卷积神经网络11(CNN，Convolutional Neural Networks)、部件对齐池化模块12(PAP，Part AlignedPooling)、嵌入层13(Em，Embedding Layer)、分类器14(FC，Fully Conncected Layer)以及部件分割模块15(PS，Part Segmentation)。其中，CNN用于进行特征图提取；PAP用于对CNN提取的特征图进行池化；Em用于对PAP池化获得的特征向量进行特征向量映射；FC用于根据Em映射获得的特征向量进行分类预测；PS用于对CNN提取的特征图进行部件分割并计算部件分割损失。

示例性方法

实施例1

图2是本申请一示例性实施例提供的行人识别模型的训练方法的流程示意图。本实施例可应用于行人识别模型上，如图2所示，包括如下步骤：

步骤201，从源域中获取第一图片，从待测试的目标域中获取第二图片，其中，源域中的图片有行人的身份标注，目标域中图片无行人的身份标注。

源域(source domain)和目标域(target domain)是指来源于不同场景的数据集合，数据集合诸如来源于不同场景的图片，其清晰度、亮度、视角、图片风格等会有各自不同的特征，例如，来源于道路监控的图像、家庭摄像头的图像、车载摄像头采集的图像，其图像特点上就有明显差异。对于在源域中训练获得的模型，在目标域中进行应用则为跨域(cross domain)。

步骤202，将第一图片作为第一训练样本输入行人识别模型中的卷积神经网络获得第一特征图，并根据第一特征图和第一图片的身份标注计算获得身份损失值。

其中，卷积神经网络CNN可以采用ResNet-50，其内部包含卷积、池化、激活等网络层。利用卷积神经网络CNN对第一图片提取特征，获得维度为CxHxW的第一特征图，其中C表示卷积神经网络CNN的通道数，H表示第一特征图的高，W表示第一特征图的宽。C、H、W的取值本实施例不做具体限定，可以根据模型的大小、精度等取不同的值。第一图片来自源域，针对其第一特征图，由部件对齐池化模块PAP在特征图上的P个部件区域进行最大池化操作得到P个向量维度为C的特征向量，嵌入层Em对特征向量进行映射，得到P个维度为d的特征向量；再由分类器FC对嵌入层Em输出的特征向量进行分类即行人识别，进而根据识别结果和第一图片的身份标注计算身份损失值。需要说明的是图1中P的取值为9，但本实施例并不限制P的具体取值。

步骤203，对所述第一特征图进行部件分割获得第一分割区域预测图，并根据所述第一分割区域预测图计算获得第一分割损失值。

其中，部件分割通过部件分割模块PS完成，用于对行人部件区域进行预测，并计算部件分割的损失值。

步骤204，将第二图片作为第二训练样本输入卷积神经网络获得第二特征图，对第二特征图进行部件分割获得第二分割区域预测图，并根据第二分割区域预测图计算获得第二分割损失值。

其中，第二图片来自目标域，包含目标域的图片特征，将该图片通过卷积神经网络CNN进行特征提取后，经部件分割模块PS部件分割，以计算第二图片对应的第二分割损失值。

步骤205，根据获得的身份损失值、第一分割损失值及第二分割损失值对行人识别模型进行参数调整，获得训练后的行人识别模型。

其中，身份损失值用于对行人识别模型的卷积神经网络CNN、部件对齐池化模块PAP、嵌入层Em以及分类器FC进行参数调整。第一分割损失值和第二分割损失值用于对卷积神经网络CNN和部件分割模块PS进行参数调整，以对源域图片和目标域图片的部件分割进行约束，使得模型训练过程中源域图片与目标域图片进行部件对齐，从而提高了行人识别模型适应目标域场景的能力，即提高行人行人识别模型的泛化能力。

在上述实施例中，行人识别模型的训练流程如下：

(1)、把一张图片输入卷积神经网络，得到维度为CxHxW的特征图；

(2)、部件对齐池化模块从特征图上的P个区域进行池化得到P个维度为C的特征向量，如图1左下角显示了部件对齐池化模块进行特征池化的P个区域，图中P的取值为9；

(3)、如果图片来自源域，嵌入层对特征向量进行映射，得到P个维度为d的特征向量；分类器对特征向量进行分类，计算损失函数，即计算身份损失值；

(4)、如果图片来自源域，特征图还经过部件分割模块预测部件的区域，计算部件分割的损失函数，即计算第一分割损失值；

(5)、如果图片来目标测域，特征图经过部件分割模块预测部件的区域，计算部件分割的损失函数，即计算第二分割损失值；

(6)、获得模型训练的总损失，包括：源域图片通过分类器分类，计算损失函数获得的身份损失值；源域图片通过预测部件区域，计算损失函数获得的第一分割损失值；以及目标域图片通过预测部件区域，计算损失函数获得的第二分割损失值；

(7)、基于模型训练的总损失调整模型参数。

通过大量的来自源域和目标域的样本图片，对行人识别模型进行模型训练，获得训练后的行人识别模型。

通过将目标域的图片作为训练样本加入到行人识别模型的训练中，并在模型训练时增加对源域和目标域中的图片进行部件分割，以获得源域图片部件分割产生的第一分割损失值和目标域图片部件分割产生的第二分割损失值，基于第一分割损失值、第二分割损失值以及行人识别的身份损失值进行模型参数调整，使得模型训练时源域中的图片与目标域中的图片进行部件对齐，由此训练获得的模型自然地适应目标域的场景，进而提高行人识别模型的泛化能力，提高跨域识别的准确性。

实施例2

针对上述实施例1提供的行人识别模型的训练方法，其中身份损失值的获取，请参考图3，可以采用如下步骤获取：

步骤301，获取第一图片中行人的关键点，并基于关键点将第一图片划分为P个部件区域，P≥2；

步骤302，按照P个部件区域的划分对第一特征图对应的每个部件区域分别进行池化，获得P个特征向量；

步骤303，根据P个特征向量进行身份预测获得预测值；

步骤304，根据获得的预测值和第一图片的身份标注获得身份损失值。

其中，步骤301中行人关键点为人体中区分各个身体结构的关键点，可以包括：鼻子、左眼、右眼、左耳、右耳、左肩、右肩、左肘、右肘、左手腕、右手腕、左髋、右髋、左膝盖、右膝盖、左脚踝及右脚踝中的部分或全部预设类型的关键点。对于行人关键点的检测可以利用关键点检测模型来实现，关键点检测模型检测关键点的结果如图4所示。

步骤301中部件区域，如图1左下角图片所示，可以包括头部(R1)、上身上半部(R2)、上身下半部(R3)、大腿(R4)、小腿(R5)、鞋(R6)、上半身(R7)、下半身(R8)及全身(R9)。具体的，可以获取关键点左肩和右肩以上并包含关键点：鼻子、左眼、右眼、左耳以及右耳的区域作为头部(R1)；获取关键点左肩、右肩、左髋以及右髋之间的区域作为上身区域，上身区域平均分为上身上半部(R2)、下身下半(R3)两部分，靠近关键点左肩和右肩的为上身上半部(R2)，靠近关键点左髋和右髋的为下身下半(R3)；获取关键点左髋、右髋、左膝盖以及右膝盖之间的区域作为大腿(R4)；获取关键点左膝盖、右膝盖、左脚踝以及右脚踝之间的区域作为小腿(R5)；获取关键点左脚踝和右脚踝以下的区域作为鞋子(R6)；获取关键点左髋和右髋以上的区域作为上半身(R7)；获取关键点左髋和右髋以下的区域作为下半身(R8)；获取所有关键点所在的全图区域作为全身(R9)。

具体实施过程中，由于遮挡或关键点检测模型本身的误差，可能有些关键点无法检测出来，执行步骤301时，可以尽可能多的获取第一图片中行人的关键点；对获取到的关键点进行判断，判断获取的关键点是否包含所有预设类型的关键点，若否，获取缺失的关键点对应的部件区域为不可见部件区域，获取存在的关键点对应的部件区域为可见部件区域。

步骤302按照P个部件区域的划分对第一特征图对应的每个部件区域分别进行池化，获得P个特征向量时，可以对第一特征图中对应的可见部件区域分别进行池化，获得每个可见部件区域的特征向量；对不可见部件区域输出零向量作为不可见区域的特征向量。

针对步骤302获得的P个特征向量，执行步骤303进行身份预测时，包括：将获得的P个特征向量再分别经过P个嵌入层Em进行处理，得到P个维度为d的特征向量，接下来分别经过P个分类器FC进行类别预测，获得P个预测值。其中，一个嵌入层包含全连接层、BN层、ReLU层。一个FC层是一个全连接层，每个部件的分类器指的是行人分类器。

步骤303之后，执行步骤304计算身份损失值。其中，计算身份损失值即计算损失函数，该损失函数可以为交叉熵损失函数，对应获得损失值可以为交叉熵损失值，对于不可见的部件，其交叉熵损失值设为0。一张图片总的交叉熵损失值为可见部件损失值的和，可以通过如下公式一获得：

其中，v_p∈{0，1}表示第p个部件是否可见，“1”表示可见，“0”表示不可以见，

表示第p个部件的交叉熵损失值。

通过上述方式，基于预设关键点进行部件区域划分，即在特征图上施加部件分割的约束，保证特征保留其局部特性，在部件对齐的基础上起到强化对齐的作用、并且减少了不同部件之间特征的冗余度。而对部件区域是否可见的识别和处理，使得模型对于有遮挡的情况同样能够处理识别，训练和测试阶段都根据关键点确定每个部件区域是否可见，因此可以适应实际场景中行人身体局部被遮挡的情况，进一步提高模型的泛化能力和模型识别的准确性。

实施例3

针对实施例1提供的行人识别模型的训练方法，其中第一分割损失值与第二分割损失值的获取方法相同，下面以第一分割损失值的为例，进行具体说明。请参考图5，对卷积神经网络CNN输出的第一特征图进行部件分割获得第一分割区域预测图，并根据第一分割区域预测图计算获得第一分割损失值使，可以采用如下步骤获取：

步骤501，对第一特征图进行部件分割获得包含K个分割区域的第一分割区域预测图。

其中，部件分割用于预测部件区域，由部件分割模块PS完成。部件分割模块PS可以包含一个反卷积层、BN层、ReLU层、一个1x1卷积层。其中反卷积层的步进(stride)为2，卷积核大小为3x3，输出的特征图分辨率为2Hx2W，输出通道数为256。部件分割的类别数为K＝8，包括背景、头部、上身、大臂、小臂、大腿、小腿、鞋。1x1反卷积层的输出通道数为类别数8。

步骤502，针对K个分割区域中的每个分割区域，计算分割区域与分割区域对应的分割标注之间的交叉熵分类损失值；其中，分割标注由预设的分割模型对第一特征图进行预测获得。

分割区域对应的分割标注，可以通过人工对第一特征图进行标注完成，耗时较长。本实施例为了提高标注效率，选用预设的分割模型对第一特征图进行预测，将分割预测结果作为分割标注。部件分割针对每个分割区域内的每个像素都计算交叉熵分类损失。

步骤503，获得K个分割区域的平均交叉熵分类损失值作为第一分割损失值。

第一分割损失值为所有分割区域的总损失值，计算方式如下公式二所示：

其中K为类别数即分割区域的个数，

为第k个类别中所有像素点取完平均后的损失值。这样的计算方式先对每个类别内求损失的平均值，最后求所有类别的平均值，目的是平衡不同大小的部件对总损失值的贡献程度。

基于上述实施例2、3计算获得身份损失值、第一分割损失值及第二分分割失值后，整个行人识别模型训练的总损失函数的计算如下公式三所示：

其中，

为源域所有图片总的行人分类损失即身份损失值，

为源域所有图片总的部件分割损失即第一分割损失值，

为目标域所有图片总的部件分割损失即第二分割损失值，λ₁和λ₂为损失函数的权重，分别代表

和

的重要程度，两个权重值可以都设置为1，也已根据实际需求进行调整。

通过分别计算各个部件的分割损失来计算整个图片的分割损失，平衡了不同大小的部件对整个图片分割损失的贡献程度，减少了不同部件之间特征的冗余度，使得部件对齐更为准确。进一步的，身份损失值、第一分割损失值以及第二分割损失值来计算模型总的损失值，基于总损失值对模型参数进行调整，平衡了部件分割和身份预测对模型训练的贡献程度，使得训练获得的模型更为稳定。

实施例4

基于上述任一实施例训练好的行人识别模型，本实施例还提供一种行人识别方法，既可以应用于模型测试，也可以应用于目标域中的行人识别。请参考图6，该识别方法包括如下步骤：

步骤601，将查询图片和目标域中的每张测试图片分别输入所述行人识别模型中识别输出所述查询图片的P个特征向量和所述每张测试图片的P个特征向量。

其中，该P个特征向量分别对应被识别图片的P个部件区域，是由每一张图片经过行人识别模型的卷积神经网络、部件对齐池化模块、嵌入层提取到的维度为d的特征向量。若某部件区域为不可见，其特征向量为0。

步骤602，基于所述查询图片的第p个特征向量和所述每张测试图片的第p个特征向量，计算获得所述查询图片与所述每张测试图片之间的相似度，p∈[1,P]。

其中，图片之间的相似度可以通过各个特征向量之间的相似度如向量之间的距离来表征。

步骤603，基于所述查询图片与所述每张测试图片之间的相似度，获得所述查询图片在所述目标域中的相似图片识别结果。

其中，若目标域中存在与查询图片之间相似度大于设定阈值的图片，则获取该图片作为与查询图片相似的相似图片识别结果输出。

在具体实施过程中，获取查询图片与每张测试图片之间的相似度时，可以先获得查询图片的第p个特征向量与每张测试图片的第p个特征向量之间的向量相似度；再获得所述查询图片与每张测试图片对应的P个向量相似度的向量相似度均值，将该向量相似度均值作为查询图片与每张测试图片之间的相似度。

由于部件区域中可能存在不可见区域，计算查询图片(query)和测试库图片(gallery)或目标域中的图片之间的距离时，只考虑查询图片中可见的部件。具体地，查询图片I_q和任一张测试库图片I_g,g∈{1，...，N}(N表示测试库的图片数)的距离即相似度计算方法如公式四：

其中，

分别表示图片I_q和I_g经过第p个嵌入层得到的特征向量，

表示图片I_q的第p个部件是否可见，cos_dist表示cosine距离。对一次查询来说，当查询图片的某个部件不可见时，此次查询不使用这个部件的距离。

基于计算获得距离，可以对计算获得的距离进行排序，输出距离最大的前n个距离对应的n个图片，作为测试检测出的与查询图片相似的相似图片，或者，将计算获得的距离与设定阈值进行比较，输出大于设定阈值的距离对应的图片，作为测试检测出的与查询图片相似的相似图片，相似图片中的人物身份相似。

通过获取各个部件区域的特征向量，并计算两张图片之间对应部件区域的特征向量之间的相似度，再基于各个部件区域的相似度来计算图片之间的总的相似度，充分考虑了每个部件区域的特征，使得计算获得的图片相似度更准确。

通过上述技术方案，本实施例能够达到如下一个或多个有益效果：

1)由于部件对齐池化模块PAP从卷积神经网络CNN获取特征图进行池化，部件分割模块PS也是从卷积神经网络CNN获取特征图进行部件分割，所有的特征图都是从卷积神经网络CNN的最后一个卷积层池化得到，特征图中的不同部件区域共享了整个底层网络，所以，相比较于已有的将切好的部件小图分别送入网络提取特征的方法来说，本模型特征提取的方式更高效。

2)计算样本间的距离时，通过获取两个图片中相互对应的部件区域的特征向量来计算部件区域之间的相似度，实现了部件对齐。而对于部件区域的获取，先检查获得行人身上的关键点，在根据各个关键点与部件区域的对应关系获得每个部件区域的具体位置，通过行人身体上的关键点进一步实现了部件区域的对齐。

3)对获取到的关键点进行判断，判断获取的关键点是否包含所有预设类型的关键点，若否，获取缺失的关键点对应的部件区域为不可见部件区域，获取存在的关键点对应的部件区域为可见部件区域，通过以上对部件区域是否可见的识别和处理，使得模型对于有遮挡的情况同样能够处理识别，训练和测试阶段都根据关键点确定每个部件区域是否可见，因此可以适应实际场景中行人身体局部被遮挡的情况，进一步提高模型的泛化能力和模型识别的准确性。

4)基于预设关键点进行部件区域划分，即在特征图上施加部件分割的约束，保证特征保留其局部特性，在部件对齐的基础上起到强化对齐的作用、并且减少了不同部件之间特征的冗余度。

5)从有身份标记的源域和无身份标记的目标域获取获取训练样本；对源域中的图片身份识别获得身份损失值，以及对源域中的图片进行部件分割获得分割损失值；对目标域中的图片进行部件分割获得分割损失值；通过源域中图片部件分割的分割损失值和目标域中图片部件分割的分割损失值来对模型参数进行调整，实现了基于源域中图片进行行人识别模型训练时与目标域中图片的部件对齐，从而使训练获得的模型自然地适应目标域的场景，达到提高行人识别模型的泛化能力，提高跨域识别的准确性。

示例性装置

基于本申请实施例1～3提供一种行人识别模型的训练方法的同一发明构思，本实施例对应提供一种行人识别模型的训练装置，请参考图7，该装置包括：

图片获取模块71，用于从源域中获取第一图片，从待测试的目标域中获取第二图片，其中，所述源域中的图片有行人的身份标注，所述目标域中图片无行人的身份标注；

识别模块72，用于将所述第一图片作为第一训练样本输入行人识别模型中的卷积神经网络获得第一特征图，并根据所述第一特征图和所述第一图片的身份标注计算获得身份损失值；

分割模块73，用于对所述第一特征图进行部件分割获得第一分割区域预测图，并根据所述第一分割区域预测图计算获得第一分割损失值；

所述识别模块72还用于将所述第二图片作为第二训练样本输入所述卷积神经网络获得第二特征图，所述分割模块还用于对所述第二特征图进行部件分割获得第二分割区域预测图，并根据所述第二分割区域预测图计算获得第二分割损失值；

参数调整模块74，用于根据所述身份损失值、所述第一分割损失值及所述第二分割损失值对所述行人识别模型进行参数调整，获得训练后的所述行人识别模型。

作为一种可选的实施方式，请参考图8，识别模块72可以包括：

划分单元721，用于获取所述第一图片中行人的关键点，并基于所述关键点将所述第一图片划分为P个部件区域，P≥2；

池化单元723，用于按照所述P个部件区域的划分对所述第一特征图对应的每个部件区域分别进行池化，获得P个特征向量；

预测单元724，用于根据所述P个特征向量进行身份预测获得预测值；

计算单元725，用于根据所述预测值和所述第一图片的身份标注获得所述身份损失值。

其中，所述划分单元721包括：关键点获取子单元，用于获取所述第一图片中行人的关键点；判断子单元，用于判断获取的关键点是否包含所有预设类型的关键点，若否，获取缺失的关键点对应的部件区域为不可见部件区域，获取存在的关键点对应的部件区域为可见部件区域；所述池化单元723具体用于：对所述第一特征图中对应的可见部件区域分别进行池化，获得每个可见部件区域的特征向量；对所述不可见部件区域输出零向量作为所述不可见区域的特征向量。

作为一种可选的实施方式，如图8所示，所述分割模块73，包括：

分割单元731，用于对所述第一特征图进行部件分割获得包含K个分割区域的第一分割区域预测图；

计算单元732，用于针对所述K个分割区域中的每个分割区域，计算所述分割区域与所述分割区域对应的分割标注之间的交叉熵分类损失值；其中，所述分割标注由预设的分割模型对所述第一特征图进行预测获得；获得所述K个分割区域的平均交叉熵分类损失值作为所述第一分割损失值。

基于上述实施例4提供的一种行人识别方法的同一发明构思，本实施例还对应提供一种行人识别装置，应用于上述实施例训练获得的行人识别模型，如图9所示，该识别装置包括：

输入模块91，用于将查询图片和目标域中的每张测试图片分别输入所述行人识别模型中识别输出所述查询图片的P个特征向量和所述每张测试图片的P个特征向量，其中，所述P个特征向量分别对应被识别图片的P个部件区域；

计算模块92，用于基于所述查询图片的第p个特征向量和所述每张测试图片的第p个特征向量，计算获得所述查询图片与所述每张测试图片之间的相似度，p∈[1,P]；

查询模块93，用于基于所述查询图片与所述每张测试图片之间的相似度，获得所述查询图片在所述目标域中的相似图片识别结果；

结果获取模块94，用于根据所述识别结果获得所述行人识别结果。

作为一种可选的实施方式，如图10所示，所述计算模块92可以包括：

向量计算单元921，用于获得所述查询图片的第p个特征向量与每张测试图片的第p个特征向量之间的向量相似度；

均值计算单元922，用于获得所述查询图片与每张测试图片对应的P个向量相似度的向量相似度均值，将所述向量相似度均值作为所述查询图片与所述每张测试图片之间的相似度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

示例性电子设备

下面，参考图11来描述根据本申请实施例提供的电子设备。图11图示了根据本申请实施例的电子设备的框图。

如图11所示，电子设备110包括一个或多个处理器111和存储器112。

处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备110中的其他组件以执行期望的功能。

存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本申请的各个实施例的行人识别模型的训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备110还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置113可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从其他设备接收所采集的输入信号。

此外，该输入设备113还可以包括例如键盘、鼠标等等。

该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备110中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备110还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的行人识别模型的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的行人识别模型的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种行人识别模型的训练方法，所述方法包括：

2.如权利要求1所述的方法，所述根据所述第一特征图和所述第一图片的身份标注计算获得身份损失值，包括：

获取所述第一图片中行人的关键点，并基于所述关键点将所述第一图片划分为P个部件区域，P≥2；

按照所述P个部件区域的划分对所述第一特征图对应的每个部件区域分别进行池化，获得P个特征向量；

根据所述P个特征向量进行身份预测获得预测值；

根据所述预测值和所述第一图片的身份标注获得所述身份损失值。

3.如权利要求2所述的方法，获取所述第一图片中行人的关键点，并基于所述关键点将所述第一图片划分为P个区域，包括：

获取所述第一图片中行人的关键点；

判断获取的关键点是否包含所有预设类型的关键点，若否，获取缺失的关键点对应的部件区域为不可见部件区域，获取存在的关键点对应的部件区域为可见部件区域；

所述按照所述P个部件区域的划分对所述第一特征图对应的每个部件区域分别进行池化，获得P个特征向量，包括：

对所述第一特征图中对应的可见部件区域分别进行池化，获得每个可见部件区域的特征向量；

对所述不可见部件区域输出零向量作为所述不可见区域的特征向量。

4.如权利要求1所述的方法，所述对所述第一特征图进行部件分割获得第一分割区域预测图，并根据所述第一分割区域预测图计算获得第一分割损失值，包括：

对所述第一特征图进行部件分割获得包含K个分割区域的第一分割区域预测图；

针对所述K个分割区域中的每个分割区域，计算所述分割区域与所述分割区域对应的分割标注之间的交叉熵分类损失值；其中，所述分割标注由预设的分割模型对所述第一特征图进行预测获得；

获得所述K个分割区域的平均交叉熵分类损失值作为所述第一分割损失值。

5.一种行人识别方法，应用于如权利要求1～5任一所述的行人识别模型的训练方法训练获得的行人识别模型，所述识别方法包括：

根据所述识别结果获得所述行人识别结果。

6.如权利要求5所述的识别方法，基于所述查询图片的第p个特征向量和所述每张测试图片的第p个特征向量，计算获得所述查询图片与所述每张测试图片之间的相似度，包括：

获得所述查询图片的第p个特征向量与每张测试图片的第p个特征向量之间的向量相似度；

获得所述查询图片与每张测试图片对应的P个向量相似度的向量相似度均值，将所述向量相似度均值作为所述查询图片与所述每张测试图片之间的相似度。

7.一种行人识别模型的训练装置，所述装置包括：

8.一种行人识别装置，应用于如权利要求1～5任一所述的行人识别模型的训练方法训练获得的行人识别模型，所述识别装置包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-4任一所述的行人识别模型的训练方法，或者执行上述权利要求5-6任一所述的行人识别方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于执行上述权利要求1-4任一所述的行人识别模型的训练方法，或者执行上述权利要求5-6任一所述的行人识别方法。