CN109670591B

CN109670591B - 一种神经网络的训练方法及图像匹配方法、装置

Info

Publication number: CN109670591B
Application number: CN201811535420.4A
Authority: CN
Inventors: 葛玉莹; 吴凌云; 张瑞茂; 罗平
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2022-09-27
Anticipated expiration: 2038-12-14
Also published as: US20210287091A1; CN109670591A; TWI760650B; WO2020119311A1; JP2022510712A; SG11202106062WA; TW202022782A

Abstract

本申请公开一种神经网络的训练方法及图像匹配方法、装置，至少包括：标注第一服装实例和第二服装实例的注释信息，所述第一服装实例和第二服装实例分别来源于第一服装图像和第二服装图像；响应于所述第一服装实例和所述第二服装实例匹配的情况，将所述第一服装图像和所述第二服装图像进行配对；基于配对的所述第一服装图像和所述第二服装图像对待训练的神经网络进行训练。

Description

一种神经网络的训练方法及图像匹配方法、装置

技术领域

本申请涉及服装图像解析技术，尤其涉及一种神经网络的训练方法及图像匹配方法、装置。

背景技术

服装图像解析，因其在学术界和工业界的巨大潜力，成为近年来逐渐热门的研究领域。然而，在实际应用中，服装理解仍然面临着诸多挑战。比如数据方面，服装数据集(DeepFashion)成为现有的最大服装数据集，但DeepFashion有其自身的缺陷，比如，每张图像中只有单件服装实例的注释，如此定义的基准数据集与实际情况之间的差距，会严重影响服装理解的应用。

申请内容

为解决上述技术问题，本申请实施例提供了一种神经网络的训练方法及图像匹配方法、装置、存储介质、计算机程序产品、计算机设备。

本申请实施例提供的神经网络的训练方法，包括：

标注第一服装实例和第二服装实例的注释信息，所述第一服装实例和第二服装实例分别来源于第一服装图像和第二服装图像；

响应于所述第一服装实例和所述第二服装实例匹配的情况，将所述第一服装图像和所述第二服装图像进行配对；

基于配对的所述第一服装图像和所述第二服装图像对待训练的神经网络进行训练。

本申请实施例中，所述标注第一服装实例和第二服装实例的注释信息，包括：

分别标注所述第一服装实例和所述第二服装实例的服装边界框。

本申请实施例中，所述标注第一服装实例和第二服装实例的注释信息，还包括：

分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点。

本申请实施例中，所述标注第一服装实例和第二服装实例的注释信息，还包括：分别标注所述第一服装实例和所述第二服装实例的服装轮廓线以及分割掩码注释。

本申请实施例中，所述分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点，包括：

分别获取所述第一服装实例和所述第二服装实例的服装类别；

基于所述服装类别的标注规则分别标注出所述第一服装实例和所述第二服装实例的对应关键点。

本申请实施例中，所述分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点之后，还包括：

标注出每个所述关键点的属性信息，所述属性信息用于表明所述关键点是属于可见点还是属于遮挡点。

分别标注出所述第一服装实例和所述第二服装实例的边缘点和交界点，其中，所述边缘点是指所述服装实例处于服装图像边界上的点，所述交界点是指所述第一服装实例或者所述第二服装实例与其他服装实例相交界的地方用于绘制服装轮廓线的点。

本申请实施例中，所述分别标注所述第一服装实例和所述第二服装实例的服装轮廓线，包括：

分别基于所述第一服装实例和第二服装实例的关键点、每个关键点的属性信息、边缘点和交界点，分别绘制所述第一服装实例和所述第二服装实例的服装轮廓线。

本申请实施例中，所述分别标注所述第一服装实例和所述第二服装实例的分割掩码注释，包括：

基于所述第一服装实例和所述第二服装实例的服装轮廓线分别生成相应的初步的分割掩码图；

对所述初步的分割掩码图进行修正，得到所述分割掩码注释。

本申请实施例中，所述将所述第一服装图像和所述第二服装图像进行配对包括：为所述第一服装实例和所述第二服装实例配置相同的商品标识。

本申请实施例提供的图像匹配方法，包括：

接收待匹配的第三服装图像；

从所述第三服装图像中提取出第三服装实例；

获取所述第三服装实例的注释信息；

基于所述第三服装实例的注释信息查询匹配的第四服装实例。

本申请实施例中，所述从所述第三服装图像中提取出第三服装实例之前，还包括：

对所述第三服装图像进行特征提取。

本申请实施例中，所述获取所述第三服装实例的注释信息，包括：

获取所述第三服装实例的关键点、服装类别、服装边界框、以及分割掩码注释。

本申请实施例中，所述基于所述第三服装实例的注释信息查询匹配的第四服装实例，包括：

基于所述第三服装实例的注释信息以及至少一个待查询的服装实例的注释信息，确定所述第三服装实例与各个待查询的服装实例的相似度信息；

基于所述第三服装实例与各个待查询的服装实例的相似度信息，确定与所述第三服装实例匹配的第四服装实例。

本申请实施例提供的神经网络的训练装置，包括：

标注模块，用于标注第一服装实例和第二服装实例的注释信息，所述第一服装实例和第二服装实例分别来源于第一服装图像和第二服装图像；响应于所述第一服装实例和所述第二服装实例匹配的情况，将所述第一服装图像和所述第二服装图像进行配对；

训练模块，用于基于配对的所述第一服装图像和所述第二服装图像对待训练的神经网络进行训练。

本申请实施例中，所述标注模块，用于：

分别标注所述第一服装实例和所述第二服装实例的服装轮廓线以及分割掩码注释。

本申请实施例中，所述标注模块，用于：

为所述第一服装实例和所述第二服装实例配置相同的商品标识。

本申请实施例提供的图像匹配装置，包括：

接收模块，用于接收待匹配的第三服装图像；

提取模块，用于从所述第三服装图像中提取出第三服装实例；获取所述第三服装实例的注释信息；

匹配模块，用于基于所述第三服装实例的注释信息查询匹配的第四服装实例。

本申请实施例中，所述提取模块，还用于从所述第三服装图像中提取出第三服装实例之前，对所述第三服装图像进行特征提取。

本申请实施例中，所述提取模块，用于获取所述第三服装实例的关键点、服装类别、服装边界框、以及分割掩码注释。

本申请实施例中，所述匹配模块，用于基于所述第三服装实例的注释信息以及至少一个待查询的服装实例的注释信息，确定所述第三服装实例与各个待查询的服装实例的相似度信息；

本申请实施例提供的存储介质上存储计算机程序，所述计算机程序被计算机设备执行后，能够实现上述的神经网络的训练方法或图像匹配方法。

本申请实施例提供的计算机程序产品包括计算机可执行指令，该计算机可执行指令被执行后，能够实现上述的神经网络的训练方法或图像匹配方法。

本申请实施例提供的计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现上述的神经网络的训练方法或图像匹配方法。

本申请实施例的技术方案中，构建的图像数据集是一种具有全面注释的大规模基准数据集，通过标注单张图像中存在的全部服装实例，为服装解析算法的开发与应用提供了一个更加全面的服装数据集，促进了服装理解的应用。另一方面，通过端到端方式的深度服装解析框架，可以实现直接以采集的服装图像作为输入，且实现服装实例级的检索任务，该框架具有通用性，适用于任何深度神经网络，也适用于其他目标检索任务。

附图说明

图1为本申请实施例提供的图像数据集的标注方法的流程示意图；

图2为本申请实施例提供的服装图像的类别及相关注释的示意图；

图3为本申请实施例提供的神经网络的训练方法的流程示意图；

图4为本申请实施例提供的Match R-CNN框架图；

图5为本申请实施例提供的图像匹配方法的流程示意图；

图6为本申请实施例提供的神经网络的训练装置的结构组成示意图；

图7为本申请实施例提供的图像匹配装置的结构组成示意图；

图8为本申请实施例的计算机设备的结构组成示意图。

具体实施方式

现在将参照附图来详细描述本申请的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本申请实施例可以应用于计算机系统/服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在实现本申请的过程中，本申请人通过研究发现，服装理解仍然面临着诸多挑战，至少存在以下问题：

1)数据方面：首先，衣服本身在款式、质地、剪裁等方面变化很大，单件服装存在不同程度的变形和遮挡。其次，相同服装在不同拍摄场景下差异很大，比如消费者自拍图像(买家秀)与在线商业图像(卖家秀)。以往的研究试图通过使用语义属性、服装位置或跨域来注释服装数据集来处理上述挑战，但不同的数据集使用不同类型的信息进行注释。直到DeepFashion数据集出现，将上述注释统一起来，成为最大的服装数据集。但DeepFashion有其自身的缺陷，比如，每张图像中只有单件服装的注释，而每个服装类别共享8个稀疏的关键点标记，同时没有精细的分割掩码注释。如此定义的基准数据集与实际情况之间的差距，会严重影响服装理解的应用。

2)任务定义方面：首先，近年来出现各种各样的任务来解析服装图像，例如，服装检测与识别、关键点预测、服装分割、服装匹配与检索。但是，针对服装不同程度的变化、易变形、多遮挡等特点，缺少一个更广泛更统一的评测基准来定义和解释上述所有任务。其次，以往服装的关键点标记是按照人体骨架轮廓定义，只分上装和下装两种类型，这势必会影响关键点预测指标的准确性。另外，在实际情况中单张图像内会存在多种类型的服饰，基于整张图像定义的检索任务会影响算法的服装理解能力。

3)算法实现方面：为了更好的处理服装图像在不同场景下的差异，以往的方法已引入深度模型来学习更多的判别表达，但因忽略了服装图像中的变形和遮挡而阻碍了识别精度的提高。DeepFashion的工作专门针对服装识别与检索任务设计了深度模型——FashionNet，通过预测服装关键点和属性综合学习的特征来达到更具辨别力的服装解析。然而FashionNet存在两个明显的缺陷：首先，其服装分类与检索任务的实现并不是直接以获取的图像作为输入，而是以手动标记的边界框裁剪后的子图像作为输入，使实际应用过程中的标注成本大大增加。其次，其使用正负样本间距离约束的方式来实现服装检索任务，因对样本有较强的依赖而使通用性变差，在实际训练过程中较难收敛。

图1为本申请实施例提供的图像数据集的标注方法的流程示意图，如图1所示，所述图像数据集的标注方法包括以下步骤：

步骤101：构建图像数据集，所述图像数据集包括多张服装图像，每张服装图像包括至少一个服装实例。

本申请实施例中，构建的图像数据集是一个拥有丰富注释信息适用于广泛服装图像解析任务的标准数据集(称为DeepFashion2)，该图像数据集包括多张服装图像，其中，每张服装图像包括一个或多个服装实例。这里，服装实例是指服装图像中的某件服装。需要说明的是，一个服装图像中可以仅仅展示一个或多个服装；也可以通过人物(也即模特)来展示一个或多个服装，进一步，人物的数量可以是一个或多个。

在一实施方式中，该图像数据集包括491k张服装图像，这491k张服装图像共包括801k个服装实例。

步骤102：标注出所述图像数据集中的每个服装实例的注释信息，以及标注出第一服装实例和第二服装实例的匹配关系，所述第一服装实例所在的第一服装图像和所述第二服装实例所在的第二服装图像来自所述图像数据集。

本申请实施例中，针对所述图像数据集中的每个服装实例，分别标注出所述服装实例的服装类别、服装边界框、关键点、服装轮廓线、以及分割掩码注释。以下对各个注释信息如何进行标注进行说明。

1)服装类别

本申请实施例针对图像数据集定义了13种常见的服装类别，包括：短袖上衣、长袖上衣、短袖外套、长袖外套、背心、吊带、短裤、长裤、短裙、短袖连衣裙、长袖连衣裙、背心连衣裙、以及带吊连衣裙。

标注出服装实例的服装类别是指：将服装实例归类于上述13种服装类别的其中一种。

2)服装边界框

本申请实施例中，服装边界框可以通过一个矩形框来实现。标注出服装实例的服装边界框是指：通过一个矩形框覆盖住服装实例的显示区域。

3)关键点

本申请实施例中，每个服装类别有各自独立的密集关键点的定义，不同的服装类别对应不同的关键点的定义，需要说明的是，不同的服装类别对应的关键点的位置和/或个数不同，例如参照图4，短袖上衣定义了25个关键点，短裤定义了10个关键点，长袖外套定义了38个关键点，短裙定义了8个关键点。基于服装实例的服装类别标注出对应的关键点。

需要说明的是，每张服装图像可以有一个或多个服装实例，需要针对每个服装实例标注出相应服装类别的关键点。

进一步，基于服装实例的服装类别标注出对应的关键点之后，标注出每个关键点的属性信息，所述属性信息用于表明所述关键点是属于可见点还是属于遮挡点。

4)服装轮廓线

本申请实施例中，在标注出上述图像数据集中的每个服装实例的关键点后，还需要针对所述图像数据集中的每个服装实例，标注出边缘点和交界点，其中，所述边缘点是指所述服装实例处于服装图像边界上的点，所述交界点是指所述服装实例与其他服装实例相交界的地方用于绘制服装轮廓线的点。

而后，基于所述服装实例标注出的关键点、每个关键点的属性信息、边缘点和交界点，绘制所述服装轮廓线。

5)分割掩码注释

本申请实施例中，基于所述服装轮廓线生成初步的分割掩码图；对所述初步的分割掩码图进行修正，得到所述分割掩码注释。

在一种实施方式中，针对所述图像数据集中的每个服装实例，标注出如下至少一种注释信息：

尺寸，所述尺寸是指服装实例占据服装图像的比例；

遮挡，所述遮挡是指服装实例标注出的关键点中遮挡点所占的比例；

聚焦，所述聚焦是指服装实例标注出的关键点中超出服装图像范围的关键点的比例；

视角，所述视角是指服装实例的展示角度。

6)本申请实施例的技术方案，除了标注出每个服装实例的上述标注信息以外，还标注出每个服装实例的商品标识和服装风格。

其中，商品标识可以是以下内容的任意组合：字母、数字、符号。商品标识用于标识同款商品，即同款商品对于的商品标识相同。需要说明的是，同款商品是指剪裁(即样式)上相同的商品。进一步，具有相同商品标识的服装实例在服装风格上有可能不同，也有可能相同，这里的服装风格是指颜色、图案、商标等。

7)本申请实施例的技术方案，除了标注出所述图像数据集中的每个服装实例的注释信息以外，还标注出第一服装实例和第二服装实例的匹配关系，在一个例子中，所述第一服装实例所在的服装图像的来源为买家，所述第二服装实例所在的服装图像的来源为卖家。这里，所述第一服装实例和所述第二服装实例具有相同的商品标识。

以下结合示例对本申请实施例的技术方案进行解释说明。

构建一个图像数据集称为DeepFashion2，DeepFashion2由491k服装图像组成，拥有13个服装类别，801k个服装实例，801k个服装边界框，801k个密集关键点及相应的轮廓标记，801k个像素级的分割掩码注释，以及873k对买家秀到卖家秀图片中服装实例的匹配关系(这里，买家秀图片中的服装实例对应上述第一服装实例，卖家秀服装实例对应上述第二服装实例)。另外，为了覆盖服装常见的变形及遮挡变化，对每个服装实例拓展标注了尺寸、遮挡、聚焦、视角四种服装属性信息。同时，针对同一件服装商品(商品标识相同)的不同服装实例，增加了颜色、图案、商标等服装风格的注释信息。DeepFashion2是迄今为止拥有最大注释信息、最丰富任务、最具表达力、最多样的服装数据集。以下描述DeepFashion2的注释信息如何标注。

1)服装类别与服装边界框的标注

DeepFashion2的13个服装类别是从以往的服装类别中选取，通过比较不同类别的相似性和频率统计来定义。13种常见的服装类别包括：短袖上衣、长袖上衣、短袖外套、长袖外套、背心、吊带、短裤、长裤、短裙、短袖连衣裙、长袖连衣裙、背心连衣裙、以及带吊连衣裙。

边界框的标注可以由标注员标记出目标服装实例所在区域的坐标点。

2)关键点、服装轮廓线与分割掩码注释的标注

已有的工作是根据人体结构定义关键点，上装与下装无论任何服装类型都共享相同的关键点，本申请实施例考虑到不同的服装类别有不同的变形和外观变化，针对每个服装类别定义个性化的关键点与轮廓线，首次基于“人体姿势”提出“衣服姿势”的概念。

如图2左侧展示了4种不同服装类别的密集关键点与服装轮廓线的定义，右侧展示了与其对应的卖家秀与买家秀图片及注释信息，在图2中，每一行卖家秀与买家秀图片中的一对服装实例具有相同的商品标识，但每件服装实例却有不同的颜色、图案等服装风格，同时在尺寸、遮挡、聚焦、视角4种属性上展示出不同的层级。每个服装实例均标注出关键点、轮廓线及分割掩码注释。需要说明的是，商品标识可以是以下内容的任意组合：字母、数字、符号。商品标识用于标识同款商品，即同款商品对于的商品标识相同。需要说明的是，同款商品是指剪裁(即样式)上相同的商品，进一步，具有相同商品标识的服装实例在服装风格上有可能不同，也有可能相同。

标注流程分为以下五个步骤：

I：针对每个服装实例，标注出该服装类别定义的所有关键点，平均每个服装类别有22个关键点；

II：每个可标注的关键点需标记出其属性，可见或者遮挡；

III：为了辅助分割，除关键点外增加了两种类型的标记点，即：边缘点和交界点。前者代表该服装实例处于图片边界上的点，后者代表该服装实例与其他服装实例相交界的地方不属于关键点但用于勾勒服装轮廓的点，比如“T恤塞进下衣里面，T恤与下衣交界上的点”；

IV：根据标注的关键点、关键点属性、边缘点与交界点三方面综合信息自动连接生成服装轮廓线，该服装轮廓线一方面用于检测标记点是否合理，另一方面作为初步的分割掩码图，减轻分割标注成本；

这里，衣服在模特身上所呈现的穿搭效果需要符合正常的穿搭逻辑，多种衣服在模特身上穿搭时，会出现衣服与衣服之间相交界的地方，例如上衣穿搭在身体的上身，下衣穿搭在身体的下身，上衣可以塞进下衣里面也可以覆盖下衣的部分区域，上衣与下衣之间相交界的地方通过标记点标出，基于此，通过检测勾勒出的服装轮廓线是否满足正常的穿搭逻辑，可以判定出用于勾勒服装轮廓的标记点是否合理。进一步，如果标记点不合理，可以对该不合理的标记点进行修正，即调整该标记点的位置或者删除该标记点，直到最终勾勒出的服装轮廓线满足正常的穿搭逻辑。

V：初步的分割掩码图再进行检查与修正，得到最终的分割掩码注释。

这里，分割掩码图是一个二值图，在该二值图中，服装轮廓线勾勒出的区域赋值为真(如“1”表示真)，其余区域赋值为假(如“0”表示假)。分割掩码图呈现出了服装实例的整体轮廓，考虑到标注关键点的过程可能会出现某个或某几个关键点标注错误的情况，导致分割掩码图与正常的服装类别(例如短袖上衣、短裤、短裙等等)相比，会出现部分地方畸形，因此，需要对分割掩码图进行检查，查找到错误的关键点，并对该错误的关键点进行修正，即调整该关键点的位置或者删除该关键点。需要说明的是，对分割掩码图进行修正后，即可得到分割掩码注释。

3)服装属性的标注

为了覆盖服装各方面变化，对每个服装实例拓展了尺寸、遮挡、聚焦、视角四种服装属性，每种属性划分出三个层级。

尺寸：统计服装实例占整张图片的比例，分为小(<10％)、中(>10％且<40％)、大(>40％)三级；

遮挡：统计关键点中遮挡点占的比例，分为无遮挡、严重遮挡(>50％)、部分遮挡(<50％)三级；

聚焦：统计关键点中超出图片范围的点占的比例，分为无聚焦、大聚焦(>30％)、中级聚焦(<30％)三级；

视角：按服装展示视角分为无模特展示、正面展示、背面展示。

4)服装风格的标注

在873k对买家与卖家秀服装实例匹配中，有43.8k个不同商品标识的服装实例，平均每个商品标识的服装实例有13件，这些对应相同商品标识的服装实例，增加了比如颜色、图案、商标等服装风格的注释。如图2所示，每行代表对应相同商品标识的服装实例，其中，用于不同颜色注释代表不同的服装风格。

本申请实施例的上述技术方案，每张服装图像有一个或多个服装实例，每个服装实例有9种注释信息，包括风格、尺寸、遮挡、聚焦、视角、边界框、密集关键点和轮廓线、像素级分割掩码注释、以及买家秀到卖家秀之间相同服装实例的匹配关系。这些全面的注释使得各项理解服装图像的任务得到支持，DeepFashion2是迄今为止最全面的服装数据集。

基于DeepFashion2，本申请是私立定义了一套全方位的服装图像解析任务评测基准，包括服装检测与识别、服装关键点与服装轮廓线估计、服装分割，基于实例级的买家秀与卖家秀服装检索。具体地：

1)服装检测与识别

该任务即在输入图像中检测到所有服装实例的位置并识别出对应服装类别，其评估指标与通常目标检测任务相同。

2)服装关键点与服装轮廓线估计

即对输入图像中检测到的所有服装实例进行关键点预测与服装轮廓线估计，其评估指标参考人体关键点预测任务。每个服装类别有各自对应的关键点。

3)服装分割

即对输入图像中检测到的所有服装实例进行分割，自动获取像素级的分割掩码注释，其评估指标与通常目标分割任务相同。

4)基于实例级的买家秀与卖家秀服装检索

即对已知的买家秀图像，检索出与其检测到的服装实例相匹配的卖家秀图像。该任务与以往工作不同之处在于，直接以买家拍摄照片作为输入，无需提供服装实例的边界框信息。这里，由于本申请实施例的神经网络可以从买家拍摄照片中提取出服装实例的边界框等信息，因而可以直接将买家拍摄照片作为神经网络的输入，而无需给神经网络提供服装实例的边界框信息。

本申请实施例的上述技术方案，定义了一套全方位的服装图像解析任务评测基准，包括在多种服装属性变化下的服装检测与识别，关键点预测与服装轮廓线估计，服装分割，基于实例级的买家秀与卖家秀服装检索。这些任务作为服装图像理解的基础任务，可作为后续服装解析任务的基准。通过这些评测基准能够在不同算法之间进行直接比较，并深入了解它们的优缺点，促进培养出更强大更鲁棒的服装解析系统。

图3为本申请实施例提供的神经网络的训练方法的流程示意图，如图3所示，所述神经网络的训练方法包括以下步骤：

步骤301：标注第一服装实例和第二服装实例的注释信息，所述第一服装实例和第二服装实例分别来源于第一服装图像和第二服装图像；响应于所述第一服装实例和所述第二服装实例匹配的情况，将所述第一服装图像和所述第二服装图像进行配对。

本申请实施例中，第一服装图像的来源可以是买家或卖家，第二服装图像的来源也可以是买家或卖家。举个例子：第一服装图像的来源为买家，第二服装图像的来源为卖家；或者，第一服装图像的来源为卖家，第二服装图像的来源为买家；或者，第一服装图像的来源为卖家，第二服装图像的来源为卖家；或者，第一服装图像的来源为买家，第二服装图像的来源为买家。

本申请实施例中，第一服装图像和第二服装图像的选取可以直接来自图1所示的方法中的图像数据集，其中，第一服装图像至少包括第一服装实例，第二服装图像至少包括第二服装实例，第一服装图像和第二服装图像中的每个服装实例分别标注有的注释信息，且第一服装实例和第二服装实例被标注出是匹配的。或者，第一服装图像和第二服装图像的选取不来自图1所示的方法中的图像数据集，这种情况，需要对第一服装实例和第二服装实例的注释信息进行标注，以及标注出第一服装实例和第二服装实例的匹配关系，具体地，可以按照如图1所示的方法对第一服装实例和第二服装实例进行标注，以下对如何标注第一服装实例和第二服装实例的注释信息进行说明。

1)分别标注所述第一服装实例和所述第二服装实例的服装边界框。

这里，服装边界框可以通过一个矩形框来实现。标注出服装实例的服装边界框是指：通过一个矩形框覆盖住服装实例的显示区域。需要说明的是，本申请实施例的服装边界框不局限于矩形框，还可以是其他形状的边界框，例如椭圆形边界框，不规则多边形边界框等等。服装边界框从整体上反映了服装实例在服装图像中的显示区域。

2)分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点。

2.1)服装类别的标注

本申请实施例定义了13种常见的服装类别，包括：短袖上衣、长袖上衣、短袖外套、长袖外套、背心、吊带、短裤、长裤、短裙、短袖连衣裙、长袖连衣裙、背心连衣裙、以及带吊连衣裙。

2.2)关键点的标注

本申请实施例中，分别获取所述第一服装实例和所述第二服装实例的服装类别；基于所述服装类别的标注规则分别标注出所述第一服装实例和所述第二服装实例的对应关键点。

具体地，每个服装类别有各自独立的密集关键点的定义，不同的服装类别对应不同的关键点的定义，需要说明的是，不同的服装类别对应的关键点的位置和/或个数不同，例如参照图4，短袖上衣定义了25个关键点，短裤定义了10个关键点，长袖外套定义了38个关键点，短裙定义了8个关键点。基于服装实例的服装类别标注出对应的关键点。

进一步，分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点之后，标注出每个关键点的属性信息，所述属性信息用于表明所述关键点是属于可见点还是属于遮挡点。这里，可见点是指该关键点能够被观看到，遮挡点是指该关键点被其他衣服或物品或肢体遮挡，不能够被观看到。

进一步，分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点之后，分别标注出所述第一服装实例和所述第二服装实例的边缘点和交界点，其中，所述边缘点是指所述服装实例处于服装图像边界上的点，所述交界点是指所述第一服装实例或者所述第二服装实例与其他服装实例相交界的地方用于绘制服装轮廓线的点。

这里，多种衣服在模特身上穿搭时，会出现衣服与衣服之间相交界的地方，例如上衣穿搭在身体的上身，下衣穿搭在身体的下身，上衣可以塞进下衣里面也可以覆盖下衣的部分区域，上衣与下衣之间相交界的地方通过交界点标出。

3)分别标注所述第一服装实例和所述第二服装实例的服装轮廓线以及分割掩码注释。

3.1)服装轮廓线的标注

3.2)分割掩码注释的标注

基于所述第一服装实例和所述第二服装实例的服装轮廓线分别生成相应的初步的分割掩码图；对所述初步的分割掩码图进行修正，得到所述分割掩码注释。

4)匹配关系的标注

为所述第一服装实例和所述第二服装实例配置相同的商品标识，如此实现将所述第一服装图像和所述第二服装图像进行配对。

这里，商品标识可以是以下内容的任意组合：字母、数字、符号。商品标识用于标识同款商品，即同款商品对于的商品标识相同。需要说明的是，同款商品是指剪裁(即样式)上相同的商品。进一步，具有相同商品标识的服装实例在服装风格上有可能不同，也有可能相同，这里的服装风格是指颜色、图案、商标等。

步骤302：基于配对的所述第一服装图像和所述第二服装图像对待训练的神经网络进行训练。

本申请实施例中，提出一种新颖的服装深度解析框架——Match R-CNN，该神经网络基于Mask R-CNN，直接以采集的服装图像作为输入，集合从服装类别、密集关键点、像素级的分割掩码注释学习的所有特征，以端到端方式同时解决四种服装解析任务，即：1)服装检测与识别；2)服装关键点与服装轮廓线估计；3)服装分割；4)基于实例级的买家秀与卖家秀服装检索。

本申请实施例中，所述神经网络(称为Match R-CNN)包括第一特征提取网络、第一感知网络、第二特征提取网络、第二感知网络以及匹配网络。其中，第一特征提取网络和第二特征提取网络的结构相同，统称为FN(Feature Network)。第一感知网络和第二感知网络的结构相同，统称为PN(Perception Network)。匹配网络称为MN(Matching Network)。第一服装图像直接输入到第一特征提取网络，第二服装图像直接输入到第二特征提取网络；第一特征提取网络的输出作为第一感知网络的输入，第二特征提取网络的输出作为第二感知网络的输入，同时，第一特征提取网络的输出和第二特征提取网络的输出同时作为匹配网络的输入。具体如下：

将第一服装图像输入第一特征提取网络进行处理，得到第一特征信息；将所述第一特征信息输入第一感知网络进行处理，得到所述第一服装图像中的第一服装实例的注释信息；所述第一服装图像的来源为买家；

将第二服装图像输入第二特征提取网络进行处理，得到第二特征信息；将所述第二特征信息输入第二感知网络进行处理，得到所述第二服装图像中的第二服装实例的注释信息；所述第二服装图像的来源为卖家；

将所述第一特征信息和所述第二特征信息输入匹配网络进行处理，得到所述第一服装实例和所述第二服装实例的匹配结果。

本申请实施例中，在对所述神经网络进行训练的过程中，对所述关键点对应的关键点估计交叉熵损失值、所述服装类别对应的服装分类交叉熵损失值、所述服装边界框对应的边界框回归平滑损失值、所述分割掩码注释对应的服装分割交叉熵损失值、以及所述匹配结果对应的服装检索交叉熵损失值，同时进行优化。

以下结合示例对本申请实施例的技术方案进行解释说明。

参照图4，图4为Match R-CNN框架图，以买家秀图片I₁和卖家秀图片I₂作为输入，每张输入图像都会经过三个主要的子网络：FN、PN、MN。图4中简化了卖家秀图片I₂经过的FN和PN的结构，需要说明的是，卖家秀图片I₂经过的FN和PN的结构与买家秀图片I₁经过的FN和PN的结构相同。具体地：

1)FN包含主网络模块——残差网络-特征金字塔网络(ResNet-FPN，ResNet-Feature Pyramid Networks)、候选框提取模块(Region Proposal Network，RPN)、以及感兴趣区域对齐模块(ROIAlign)。输入图像首先输入主网络模块的ResNet自下而上提取特征，再通过FPN自上而下上采样及横向连接构建特征金字塔，然后由RPN提取候选框，由ROIAlign获得各层级候选框特征。

2)PN包含关键点估计、服装检测、分割预测三个支流，FN提取的候选框特征分别输入PN的三个支流。其中，关键点估计支流包含8个卷积层和2个反卷积层来预测服装实例的关键点；服装检测支流由两个共享的全连接层：一个用于最终类别预测的全连接层、一个用于边界框回归预测的全连接层组成；分割预测支流包含4个卷积层、1个反卷积层、1个用于像素级分割图预测的卷积层组成。

3)MN包含特征提取模块和用于服装检索的相似度学习模块。FN提取的候选框特征在服装类别、轮廓、蒙版分割方面都有很强的辨别能力，本申请实施例利用图片I₁和I₂在FN阶段提取的候选框特征，分别由特征提取模块获取二者对应的特征向量v₁和v₂，将其差值的平方输入到全连接层作为两件服装实例相似度的评估判断。

上述Match R-CNN的参数由5个损失函数共同优化，即：

其中为

为服装分类交叉熵损失值，

为边界框回归平滑损失值，

为关键点估计交叉熵损失值，

为服装分割交叉熵损失值，

为服装检索交叉熵损失值。其中，

与Mask R-CN网络定义相同，而

其中y_i＝1代表两个服装实例是相匹配的(具有同一商品标识)，反之，y_i＝0代表两个服装实例是不匹配的(具有不同商品标识)。

本申请实施例的上述技术方案，提出一种新颖、通用、端到端方式的深度服装解析框架(Match R-CNN)，该框架基于Mask R-CNN，集合从服装类别、密集关键点、像素级的分割掩码注释学习的特征，可同时解决多项服装图像解析任务。其中，与以往服装检索实现不同，本框架可直接以采集的服装图像输入，首次以端到端方式实现实例级服装检索任务，该框架具有通用性，适用于任何深度神经网络，也适用于其他目标检索任务。

图5为本申请实施例提供的图像匹配方法的流程示意图，如图5所示，所述图像匹配方法包括以下步骤：

步骤501：接收待匹配的第三服装图像。

本申请实施例中，利用图3所示的方法对神经网络训练完成后，可以利用该神经网络来实现服装匹配与检索，具体地，首先将待匹配的第三服装图像输入神经网络中。需要说明的是，该第三服装图像的来源不做限制，可以是用户自己拍摄得到的图像，也可以是用户从网络下载得到的图像等等。

步骤502：从所述第三服装图像中提取出第三服装实例。

本申请实施例中，从所述第三服装图像中提取出第三服装实例之前，需要对所述第三服装图像进行特征提取。

步骤503：获取所述第三服装实例的注释信息。

具体地，获取所述第三服装实例的关键点、服装类别、服装边界框、以及分割掩码注释。

参照图4，以第三服装图像I₁和待查询的服装图像I₂作为输入，每张输入图像都会经过三个主要的子网络：FN、PN、MN。其中，FN用于提取服装图像的特征，PN用于基于FN提取的特征进行关键点估计、服装类别检测、服装边界框以及分割掩码注释预测，MN用于基于FN提取的特征进行相似度学习，进而实现服装实例相似度的评估判断。

本申请实施例利用图片I₁和I₂在FN阶段提取的特征，获取二者对应的特征向量v₁和v₂，将其差值的平方输入到全连接层作为两件服装实例相似度的评估判断。

步骤504：基于所述第三服装实例的注释信息查询匹配的第四服装实例。

本申请实施例中，待查询的服装实例的个数为至少一个，这些待查询的服装实例可以部分来自一张服装图像，也可以全部来自不同的服装图像。举个例子：有3个待查询的服装实例，分别来自服装图像1(包含1个服装实例)和服装图像2(包含2个服装实例)。

本申请实施例中，基于所述第三服装实例的注释信息以及至少一个待查询的服装实例的注释信息，确定所述第三服装实例与各个待查询的服装实例的相似度信息；基于所述第三服装实例与各个待查询的服装实例的相似度信息，确定与所述第三服装实例匹配的第四服装实例。

具体地，参照图4，以第三服装图像I₁(包含服装实例1)和待查询的服装图像I₂(包含服装实例2和服装实例3)作为输入，可以得到服装实例1与服装实例2之间的相似度值，以及服装实例1与服装实例3之间的相似度值，其中，相似度值越大，则代表匹配程度越大，相似度值越小，则代表匹配程度越小。待查询的服装图像的数目可以是1个，也可以是多个，基于此，可以获得服装实例1与各个待查询的服装实例的相似度值，然后，将相似度值大于等于阈值的那个服装实例作为与服装实例1相匹配的服装实例(即第四服装实例)。进一步，神经网络可以输出所述第四服装实例来源的图像。

图6为本申请实施例提供的神经网络的训练装置的结构组成示意图，如图6所示，所述装置包括：

标注模块601，用于标注第一服装实例和第二服装实例的注释信息，所述第一服装实例和第二服装实例分别来源于第一服装图像和第二服装图像；响应于所述第一服装实例和所述第二服装实例匹配的情况，将所述第一服装图像和所述第二服装图像进行配对；

训练模块602，用于基于配对的所述第一服装图像和所述第二服装图像对待训练的神经网络进行训练。

在一实施方式中，所述标注模块602，用于：

本领域技术人员应当理解，本实施例中的神经网络的训练装置中各个模块的功能可参照前述神经网络的训练方法的相关描述而理解。

图7为本申请实施例提供的图像匹配装置的结构组成示意图，如图7所示，所述装置包括：

接收模块701，用于接收待匹配的第三服装图像；

提取模块702，用于从所述第三服装图像中提取出第三服装实例；获取所述第三服装实例的注释信息；

匹配模块703，用于基于所述第三服装实例的注释信息查询匹配的第四服装实例。

在一实施方式中，所述提取模块702，还用于从所述第三服装图像中提取出第三服装实例之前，对所述第三服装图像进行特征提取。

在一实施方式中，所述提取模块702，用于获取所述第三服装实例的关键点、服装类别、服装边界框、以及分割掩码注释。

在一实施方式中，所述匹配模块703，用于基于所述第三服装实例的注释信息以及至少一个待查询的服装实例的注释信息，确定所述第三服装实例与各个待查询的服装实例的相似度信息；

本领域技术人员应当理解，本实施例中的图像匹配装置中各个模块的功能可参照前述图像匹配方法的相关描述而理解。

本申请实施例上述图像数据集及其标注出的注释信息以及匹配关系可以存储在一个计算机可读取存储介质中，以软件功能模块的形式实现并作为独立的产品销售或使用。

本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例还提供一种计算机程序产品，其中存储有计算机可执行指令，该计算机可执行指令被执行时能够实现本申请实施例的上述跟踪系统初始化方法。

图8为本申请实施例的计算机设备的结构组成示意图，如图8所示，计算机设备100可以包括一个或多个(图中仅示出一个)处理器1002(处理器1002可以包括但不限于微处理器(MCU，Micro Controller Unit)或可编程逻辑器件(FPGA，Field Programmable GateArray)等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。本领域普通技术人员可以理解，图8所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机设备100还可包括比图8中所示更多或者更少的组件，或者具有与图8所示不同的配置。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中的方法对应的程序指令/模块，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备100的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(NIC，Network Interface Controller)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置1006可以为射频(RF，Radio Frequency)模块，其用于通过无线方式与互联网进行通讯。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种神经网络的训练方法，其特征在于，所述方法包括：

所述注释信息包括：服装边界框、服装类别、关键点、服装轮廓线以及分割掩码注释；

所述注释信息还包括以下至少之一：

遮挡，所述遮挡表征服装实例标注出的关键点中遮挡点所占的比例；

尺寸，所述尺寸表征服装实例占据服装图像的比例；

聚焦，所述聚焦表征服装实例标注出的关键点中超出服装图像范围的关键点的比例；

视角，所述视角表征服装实例的展示角度；

2.根据权利要求1所述的方法，其特征在于，所述方法，还包括：

3.根据权利要求2所述的方法，其特征在于，分别标注所述第一服装实例和所述第二服装实例的服装类别和关键点之后，还包括：

4.根据权利要求3所述的方法，其特征在于，所述标注第一服装实例和第二服装实例的注释信息，还包括：

5.根据权利要求4所述的方法，其特征在于，所述方法，还包括：

6.根据权利要求5所述的方法，其特征在于，所述方法，还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述将所述第一服装图像和所述第二服装图像进行配对包括：为所述第一服装实例和所述第二服装实例配置相同的商品标识。

8.一种图像匹配方法，其特征在于，所述方法包括：

接收待匹配的第三服装图像；

从所述第三服装图像中提取出第三服装实例；

获取所述第三服装实例的注释信息；所述注释信息包括：服装边界框、服装类别、关键点、服装轮廓线以及分割掩码注释；

所述注释信息还包括以下至少之一：

尺寸，所述尺寸表征服装实例占据服装图像的比例；

视角，所述视角表征服装实例的展示角度；

9.根据权利要求8所述的方法，其特征在于，所述从所述第三服装图像中提取出第三服装实例之前，还包括：

对所述第三服装图像进行特征提取。

10.根据权利要求8或9所述的方法，其特征在于，所述基于所述第三服装实例的注释信息查询匹配的第四服装实例，包括：

11.一种神经网络的训练装置，其特征在于，所述装置包括：

标注模块，用于标注第一服装实例和第二服装实例的注释信息，所述第一服装实例和第二服装实例分别来源于第一服装图像和第二服装图像；响应于所述第一服装实例和所述第二服装实例匹配的情况，将所述第一服装图像和所述第二服装图像进行配对；所述注释信息包括：服装边界框、服装类别、关键点、服装轮廓线以及分割掩码注释；

所述注释信息还包括以下至少之一：

尺寸，所述尺寸表征服装实例占据服装图像的比例；

视角，所述视角表征服装实例的展示角度；

12.根据权利要求11所述的装置，其中，所述标注模块，用于：

13.根据权利要求12所述的装置，其中，所述标注模块，用于：

14.根据权利要求13所述的装置，其中，所述标注模块，用于：

15.根据权利要求14所述的装置，其中，所述标注模块，用于：

16.根据权利要求15所述的装置，其中，所述标注模块，用于：

17.根据权利要求11至16任一项所述的装置，其中，所述标注模块，用于：

18.一种图像匹配装置，其特征在于，所述装置包括：

接收模块，用于接收待匹配的第三服装图像；

提取模块，用于从所述第三服装图像中提取出第三服装实例；获取所述第三服装实例的注释信息；所述注释信息包括：服装边界框、服装类别、关键点、服装轮廓线以及分割掩码注释；

所述注释信息还包括以下至少之一：

尺寸，所述尺寸表征服装实例占据服装图像的比例；

视角，所述视角表征服装实例的展示角度；

19.根据权利要求18所述的装置，其特征在于，所述提取模块，还用于从所述第三服装图像中提取出第三服装实例之前，对所述第三服装图像进行特征提取。

20.根据权利要求18或19所述的装置，其特征在于，所述匹配模块，用于基于所述第三服装实例的注释信息以及至少一个待查询的服装实例的注释信息，确定所述第三服装实例与各个待查询的服装实例的相似度信息；

21.一种存储介质，其特征在于，所述存储介质上存储计算机程序，所述计算机程序使得计算机设备执行如权利要求1至7中任一项所述的方法步骤，或者权利要求8至10任一项所述的方法步骤。

22.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器上存储有计算机可执行指令，所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至7中任一项所述的方法步骤，或者权利要求8至10任一项所述的方法步骤。