CN113538573A

CN113538573A - 服饰关键点定位方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113538573A
Application number: CN202010310618.3A
Authority: CN
Inventors: 何明; 张李秋; 李超; 刘林海
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Chengdu ICT Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Chengdu ICT Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-10-22
Anticipated expiration: 2040-04-20
Also published as: CN113538573B

Abstract

本发明实施例提供了一种服饰关键点定位方法、装置、电子设备及计算机存储介质。该服饰关键点定位方法，包括：获取待服饰关键点定位的服饰图像和服饰图像对应的热力图；将服饰图像和服饰图像对应的热力图进行特征融合，得到融合图像；将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像；其中，服饰关键点定位模型是利用训练集对第一多域多任务网络进行模型训练得到的，训练集是基于样本服饰图像、样本服饰图像对应的热力图进行特征融合得到的，第一多域多任务网络包括回归任务网络。根据本发明实施例的服饰关键点定位方法、装置、电子设备及计算机存储介质，能够更加准确地进行服饰关键点定位。

Description

服饰关键点定位方法、装置、电子设备及计算机存储介质

技术领域

本发明属于人工智能技术领域，尤其涉及一种服饰关键点定位方法、装置、电子设备及计算机存储介质。

背景技术

随着人工智能技术的发展，其在传统行业上的应用也越发普遍。例如，人工智能技术中的深度学习技术已经开始渗透整个服饰行业了，对服饰设计、服饰试穿、服饰定制、服饰制作等方面都产生了巨大的改变，引领服饰产业转型升级。为了提高消费者对产品的满意度，需对服饰的关键点(例如，图1中的左领部1、右领部2等)进行准确的识别定位，才能接着完成设计、试穿、定制等功能。

目前，服饰关键点定位方法主要是采用训练好的深度学习网络进行识别定位。其中，在特征提取阶段，常见的做法是采用图像金字塔网络的方式或者使用多组卷积神经网络的方法，这两种方法的本质上都是通过对原始图像进行多尺度像素的采样后提取出特性信息。但是，这两种方法仅从像素层面提取的特性信息的特征强度较弱，导致训练出的深度学习网络对于服饰关键点定位不准确。

因此，如何更加准确地进行服饰关键点定位是本领域技术人员亟需解决的技术问题。

发明内容

本发明实施例提供一种服饰关键点定位方法、装置、电子设备及计算机存储介质，能够更加准确地进行服饰关键点定位。

第一方面，本发明实施例提供一种服饰关键点定位方法，该方法包括：

获取待服饰关键点定位的服饰图像和服饰图像对应的热力图；

将服饰图像和服饰图像对应的热力图进行特征融合，得到融合图像；

将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像；

其中，服饰关键点定位模型是利用训练集对第一多域多任务网络进行模型训练得到的，训练集是基于样本服饰图像、样本服饰图像对应的热力图进行特征融合得到的，第一多域多任务网络包括回归任务网络。

可选地，在将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像之前，该方法还包括：

采用自适应渐进式剪枝的方式，对第一多域多任务网络进行权重剪裁，得到第二多域多任务网络；其中，第二多域多任务网络的权重稀疏度达到预设的权重稀疏度阈值；

将第二多域多任务网络确定为第一多域多任务网络；

利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。

基于预设的位宽分配策略信息，调整第一多域多任务网络中每一层的位宽，得到第三多域多任务网络；其中，位宽包括权重的位宽和激活的位宽；

将第三多域多任务网络确定为第一多域多任务网络；

可选地，在基于预设的位宽分配策略信息，调整第一多域多任务网络中每一层的位宽，得到第三多域多任务网络之前，该方法还包括：

获取目标硬件加速器的计算资源量信息；

基于计算资源量信息，确定位宽分配策略信息。

可选地，在利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型之前，该方法还包括：

获取样本服饰图像对应的热力图；

针对样本服饰图像对应的热力图的不同区域进行裁剪，分别得到不同区域对应的裁剪图像(Cropping image)；

将各个裁剪图像分别与样本服饰图像进行特征融合，得到训练集；其中，训练集包括各个样本融合图像。

可选地，第一多域多任务网络还包括分类任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型，包括：

将训练集中样本融合图像输入第一多域多任务网络后，分别确定裁剪图像的损失信息和样本服饰图像的损失信息；

基于裁剪图像的损失信息和样本服饰图像的损失信息，对第一多域多任务网络中每一层的初始权重进行调整，确定第一多域多任务网络中每一层的目标权重；

基于第一多域多任务网络中每一层的目标权重，确定服饰关键点定位模型。

可选地，在确定第一多域多任务网络中每一层的目标权重之后，该方法还包括：

在每个学习速率周期结束时，确定每个学习速率周期对应的分类结果的损失值；

将各个损失值进行平均，得到损失平均值；

基于损失平均值对目标权重进行调整，并将调整后的权重作为目标权重。

可选地，在基于第一多域多任务网络中每一层的目标权重，确定服饰关键点定位模型之后，该方法还包括：

将融合图像输入服饰关键点定位模型，输出服饰图像对应的分类结果图像。

可选地，将融合图像输入服饰关键点定位模型，输出服饰图像对应的分类结果图像，包括：

针对融合图像进行特征提取，得到第一特征图；

根据第一特征图的尺寸信息，确定池化核的尺寸和感受野的尺寸；

基于池化核的尺寸和感受野的尺寸，对第一特征图进行特征提取，得到第二特征图；

针对第二特征图进行特征识别，输出分类结果图像。

可选地，将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像，包括：

针对融合图像进行特征提取，得到第一特征图；

基于预设权重比例，对第一特征图进行特征筛选，得到第三特征图；

针对第三特征图进行坐标回归，确定各个服饰关键点的坐标；

基于各个服饰关键点的坐标，输出定位结果图像。

第二方面，本发明实施例提供一种服饰关键点定位装置，包括：

获取模块，用于获取待服饰关键点定位的服饰图像和服饰图像对应的热力图；

融合模块，用于将服饰图像和服饰图像对应的热力图进行特征融合，得到融合图像；

输出模块，用于将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像；

可选地，该服饰关键点定位装置还包括：

模型训练模块，用于采用自适应渐进式剪枝的方式，对第一多域多任务网络进行权重剪裁，得到第二多域多任务网络；其中，第二多域多任务网络的权重稀疏度达到预设的权重稀疏度阈值；将第二多域多任务网络确定为第一多域多任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。

可选地，该服饰关键点定位装置还包括：

模型训练模块，用于基于预设的位宽分配策略信息，调整第一多域多任务网络中每一层的位宽，得到第三多域多任务网络；其中，位宽包括权重的位宽和激活的位宽；将第三多域多任务网络确定为第一多域多任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。

可选地，模型训练模块，还用于获取目标硬件加速器的计算资源量信息；基于计算资源量信息，确定位宽分配策略信息。

可选地，模型训练模块还用于获取样本服饰图像对应的热力图；针对样本服饰图像对应的热力图的不同区域进行裁剪，分别得到不同区域对应的裁剪图像；将各个裁剪图像分别与样本服饰图像进行特征融合，得到训练集；其中，训练集包括各个样本融合图像。

可选地，第一多域多任务网络还包括分类任务网络；模型训练模块用于将训练集中样本融合图像输入第一多域多任务网络后，分别确定裁剪图像的损失信息和样本服饰图像的损失信息；基于裁剪图像的损失信息和样本服饰图像的损失信息，对第一多域多任务网络中每一层的初始权重进行调整，确定第一多域多任务网络中每一层的目标权重；基于第一多域多任务网络中每一层的目标权重，确定服饰关键点定位模型。

可选地，模型训练模块还用于在每个学习速率周期结束时，确定每个学习速率周期对应的分类结果的损失值；将各个损失值进行平均，得到损失平均值；基于损失平均值对目标权重进行调整，并将调整后的权重作为目标权重。

可选地，输出模块，还用于将融合图像输入服饰关键点定位模型，输出服饰图像对应的分类结果图像。

可选地，输出模块，用于针对融合图像进行特征提取，得到第一特征图；根据第一特征图的尺寸信息，确定池化核的尺寸和感受野的尺寸；基于池化核的尺寸和感受野的尺寸，对第一特征图进行特征提取，得到第二特征图；针对第二特征图进行特征识别，输出分类结果图像。

可选地，输出模块，用于针对融合图像进行特征提取，得到第一特征图；基于预设权重比例，对第一特征图进行特征筛选，得到第三特征图；针对第三特征图进行坐标回归，确定各个服饰关键点的坐标；基于各个服饰关键点的坐标，输出定位结果图像。

第三方面，本发明实施例提供一种电子设备，电子设备包括：处理器，以及存储有计算机程序指令的存储器；处理器读取并执行计算机程序指令，以实现第一方面或者第一方面任一可选的实现方式中的服饰关键点定位方法。

第四方面，本发明实施例提供一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现第一方面或者第一方面任一可选的实现方式中的服饰关键点定位方法。

本发明实施例的服饰关键点定位方法、装置、电子设备及计算机存储介质，能够更加准确地进行服饰关键点定位。服饰关键点定位方法中所用的服饰关键点定位模型，其是利用训练集对第一多域多任务网络进行模型训练得到的，由于该第一多域多任务网络包括回归任务网络，故服饰关键点定位模型能够进行服饰关键点的识别定位。而且，训练集是基于样本服饰图像、样本服饰图像对应的热力图进行特征融合得到的，该训练集中训练样本的特征信息相比于现有技术中仅从像素层面提取的特性信息的特征强度更强，故利用该训练集对第一多域多任务网络进行模型训练得到的服饰关键点定位模型，能够更加准确地进行服饰关键点定位。

所以，在获取待服饰关键点定位的服饰图像和服饰图像对应的热力图后，先将服饰图像和服饰图像对应的热力图进行特征融合得到融合图像，再将该融合图像输入上述服饰关键点定位模型，输出的定位结果图像中服饰关键点定位更加准确。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种服饰关键点示意图；

图2是本发明实施例提供的一种预处理模型的处理流程示意图；

图3是本发明实施例提供的一种热力图裁剪示意图；

图4是本发明实施例提供的一种模型精度排名示意图；

图5是本发明实施例提供的一种稀疏度变化示意图；

图6是本发明实施例提供的一种网络量化方式对比示意图；

图7是本发明实施例提供的一种强化学习流程示意图；

图8是本发明实施例提供的一种SENet网络结构示意图；

图9是本发明实施例提供的一种多域网络结构示意图；

图10是本发明实施例提供的一种多尺寸网络结构示意图；

图11是本发明实施例提供的一种第一多域多任务网络的结构示意图；

图12是本发明实施例提供的一种整体模型网络架构示意图；

图13是本发明实施例提供的一种服饰关键点定位方法的流程示意图；

图14是本发明实施例提供的一种服饰关键点定位装置的结构示意图；

图15是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

发明人经研究发现，为了增强提取的特性信息的特征强度，可以将样本服饰图像与该样本服饰图像对应的热力图进行特征融合。利用包含特征融合后样本服饰图像的训练集，对第一多域多任务网络进行模型训练，可得到针对服饰关键点识别定位更加准确的服饰关键点定位模型。在训练好该服饰关键点定位模型后，对于待服饰关键点定位的服饰图像，可先将该待服饰关键点定位的服饰图像与其热力图进行特征融合，得到融合图像，再将该融合图像输入服饰关键点定位模型，可输出该待服饰关键点定位的服饰图像对应的定位结果图像，该定位结果图像中服饰关键点定位更加准确。

本发明实施例提供的服饰关键点定位方法，其基于模型训练好了的服饰关键点定位模型，故下面将先对确定该服饰关键点定位模型的过程进行介绍。

在利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型之前，需先确定训练集。为了得到特征强度更强的训练集，在一个实施例中，其过程可以包括：获取样本服饰图像对应的热力图；针对样本服饰图像对应的热力图的不同区域进行裁剪，分别得到不同区域对应的裁剪图像；将各个裁剪图像分别与样本服饰图像进行特征融合，得到训练集；其中，训练集包括各个样本融合图像。

可以采用预处理模型获取样本服饰图像对应的热力图，并针对样本服饰图像对应的热力图的不同区域进行裁剪，分别得到不同区域对应的裁剪图像。

示例性的，在数据预处理阶段，可以采用热力图attention机制对Resnet50模型进行弱监督的学习，为了得到带目标检测的位置，可以将Resnet50模型中最后的全连接层(FC)替换为卷积层，并将修改后的Resnet50模型作为预处理模型。基于该预处理模型，通常只需经过较少次数的迭代之后，便可以得到热力图的裁剪图像。

图2是本发明实施例提供的一种预处理模型的处理流程示意图，如图2所示，样本服饰图像经过预处理模型的Resnet50全卷积层部分(Resnet50 fully-convolution part)处理后得到特征图，再对该特征图进行最大池化(MaxPooling)处理得到热力图，再针对该热力图的不同区域进行裁剪，分别得到不同区域对应的裁剪图像。如图3所示，样本服饰图像经过预处理模型的热力图裁剪处理，得到裁剪图像。

在此阶段，可以不需要将预处理模型的网络训练的非常深，只需几个迭代(epoch)，能识别出大概的目标区域即可，这样可以节约大量的时间，提高效率。

在确定服饰关键点定位模型的过程中，除了确定训练集之外，还需确定第一多域多任务网络，其为一种多域多任务网络。其中，多域是指可以将不同位置、不同尺寸的图片融合进行训练，多任务是指一个网络能完成多个任务，该多域多任务网络可以完成分类任务和回归任务。而本发明实施例中的回归任务主要就是服饰关键点的识别定位。

本发明实施例中选择多域多任务网络的原因在于：现有技术中，为了完成服饰关键点的回归任务和分类任务，分别构建回归和分类两个模型。也即，首先使用回归模型获取图像标注的关键点和服饰区域内的特征信息，再将这些特征信息作为分类模型的输入，预测出服饰的类别(体恤、卫衣、大衣、牛仔裤等)和属性(圆领、长袖、长裤、九分裤等)。但是，现有技术利用服饰关键点定位信息仅用于预测服饰类别属性，而没有更进一步地预测服饰的尺寸，并且使用了两个独立的模型进行处理，增加了模型的复杂度，参数量也随之增加。此外，对两个模型进行调优困难，导致模型的整体精度不高。

在确定选择多域多任务网络后，可以选择模型精准度更高的多域多任务网络。如图4所示，图4是本发明实施例提供的一种模型精度排名示意图，其是历年ImageNet挑战赛上模型的模型精准度排名。由图4可知，InceptionV4网络的模型精准度最高，达到百分之八十，故可以将InceptionV4网络作为主干网络。

此外，还可以对第一多域多任务网络进行优化。例如，降低模型参数量以提高模型抗过拟合能力、裁剪网络冗余节点以节省算力等。下面以两种网络优化的方式为例，对网络优化进行说明。

(1)第一种网络优化方式：自适应渐进式剪枝(Automated Gradual PruningAlgorithm)。

基于自适应渐进式剪枝的方式，确定服饰关键点定位模型的过程可以包括：采用自适应渐进式剪枝的方式，对第一多域多任务网络进行权重剪裁，得到第二多域多任务网络；其中，第二多域多任务网络的权重稀疏度达到预设的权重稀疏度阈值；将第二多域多任务网络确定为第一多域多任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。

具体地，对于每个需要裁剪的层的权重，使用一个与权重维度大小相同的二值mask变量表示是否剪裁掉。在每次裁剪的时候将权值取绝对值，然后按照由小到大排列，在迭代过程中通过将mask变量置0来逐渐达到期望的权值稀疏度s。其中，被置为0的权值在网络进行反向传播时，是不会被再次更新的。

这里设置初始的裁剪稀疏度为s_i(i＝0)，最后期望的稀疏度为s_f，期间经过了n次裁剪，裁剪的步数为t₀，裁剪的频率为Δt(相对训练步数)，则每次裁剪次数中的稀疏度可以通过公式(1)表示：

如图5所示，从模型最开始的稀疏度s_i减少到s_f的过程不是一条直线，而是一条变化的曲线，在刚开始的时候迅速增加，之后随着迭代的进行缓慢增加。其中，横坐标为剪枝的步数；纵坐标为稀疏度。

示例性的，使用MobileNet作为基础模型，搭建了两个网络连接密集的网络(densemodel)，分别对它们使用自适应渐进式剪枝进行剪枝，形成不同稀疏度的网络(sparsemodel)，在ImageNet上进行检测各模型的准确性，结果如表1，可知经过剪枝的稀疏网络的准确性明显好于稠密网络的准确性。

表1稠密稀疏网络精度对比

(2)第二种网络优化方式：网络量化(Quantization of Network)的方式。

传统的量化方法对所有层使用相同固定的比特数，如图6(a)所示：第一层(Layer1)、第二层(Layer 2)及第三层(Layer 3)每层的比特数均为8bits，即权重(Weight)的位宽和激活(Activation)的位宽(bits)均为8。

但是，当不同硬件平台有差异性表现时，对不同的层使用灵活的位宽是很有必要的。然而，目前所缺少的部分是如何确定不同硬件加速器上每层的权重和激活的位宽。本发明实施例提出来一种自适应网络量化框架，它可以利用强化学习来自动预测每一层的位宽，然后对不同层使用混合精度量化，最终减小了模型在硬件上的延迟和能耗，如图6(b)所示：Layer 1、Layer 2及Layer 3每层的比特数均是不同的，Layer 1权重的位宽为4、激活的位宽为5；Layer 2权重的位宽为6、激活的位宽为7；Layer 3权重的位宽为5、激活的位宽为4。

基于网络量化的方式，确定服饰关键点定位模型的过程可以包括：基于预设的位宽分配策略信息，调整第一多域多任务网络中每一层的位宽，得到第三多域多任务网络；其中，位宽包括权重的位宽和激活的位宽；将第三多域多任务网络确定为第一多域多任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。其中，位宽分配策略信息的确定过程可以包括：获取目标硬件加速器的计算资源量信息；基于计算资源量信息，确定位宽分配策略信息。

具体地，将模型量化任务建模为强化学习问题，自动搜索量化策略，如图7所示：通过深度确定性策略梯度(DDPG)来监督强化学习智能体(RL agent)，并使用基于策略和价值的方法——演员与评价者模型(actor-critic)，在给定计算资源量(延迟，能耗和模型尺寸)的情况下，代理(Agent)依赖硬件加速器的直接反馈(延迟和能耗)，按层处理给定的神经网络，接收相应信息作为一种环境状态(Environment State)，给出每个层的行动(Action)，即每层的位宽大小，并将准确率作为奖励(Reward)反馈给演员与评价者模型，再根据反馈的Reward程度，控制Agent选择更好的决策Action，反复这个过程，最终确定最佳的位宽分配策略。

本发明实施例中可以使用连续动作空间(continuous action)来估量每一层的位宽，具体的公式如下：

b_k＝round(b_min-0.5+a_k×(b_max-b_min+1)) (2)

其中，a_k为连续动作参数，值在[0,1]之间；b_max和b_min分别是设置的神经网络层的最大位宽和最小的位宽(默认为b_max＝8，b_min＝2)。

对于State Space环境状态，是Agent将每一层神经网络的收层配置和统计信息输入给它，其可用一个十维特征向量O_k表示。

如果第k层为卷积层，那么O_k为：

O_k＝(k,c_in,c_out,s_kernel,s_stride,s_feat,n_params,i_dw,i_w/a,a_k-1)

如果第k层为全连接层，那么O_k为：

O_k＝(k,h_in,h_out,1,0,s_feat,n_params,0,i_w/a,a_k-1)

其中，c_in、h_in为输入的通道数(channels)；c_out、h_out为输出的channels；s_kernel为卷积核的大小；s_stride为卷积的步长；s_feat为输入图片的大小(feature map size)；i_dw卷积层的位宽大小；i_w/a权重和激活的大小比值，以及Action的步数a_k-1。

在量化了所有层之后，将量化模型微调一个周期(epoch)，并在短期训练之后将验证准确率作为Reward提供给Agent，Reward的计算如下：

其中，acc_quant是微调后量化模型的准确率，acc_origin是原模型的准确率，λ则是放缩因子，可设为0.1。

最后，使用MobileNet网络进行验证量化框架的效果，具体结果如下表：

表2网络量化测试

上面已经对第一多域多任务网络的两种网络优化的方式进行了说明，为了实现对服饰关键点的识别定位，该第一多域多任务网络需要包括回归任务网络。

在回归任务网络中，可以加入一个SENet结构，相当于一个注意力机制网络(Attention)，即对每一张特征图(Feature Map)进行加权，使特征图的重要性有所不同，网络就能更好的寻找重要的特征进行训练，增加模型精度。它的网络结构如图8所示，网络结构的左半部分是一个传统的卷积变换(也即F_tr(·,θ))，(W，H)是图像x的长宽尺寸，C(包括c1和c2)是图像x的通道数。经过F_sq(·)，即压缩操作(Squeeze)，通过全局平均池化后，得到一个1×1×C2的特征向量，特征向量的具体计算公式如公式(4)所示：

然后，再经过F_ex(·,W)激活操作将特征向量的通道赋予不同的权重比例，使之能够激励重要的特征，抑制不重要的特征，具体的做法是加入一个sigmoid激活层(σ)，即：

s＝F_ex(U,W)＝σ(U·W) (5)

最终，将得到的特征图的权重与各特征图进行点乘后，就完成了对各个特征重要性的排序，使网络学到更多对检测结果有用的特征信息。再经过一个全连接层，进行对服饰关键点的坐标回归，得到关键点坐标后，就可以计算出袖长、裤长等信息。

上面对第一多域多任务网络中的回归任务网络进行了说明，为了实现对服饰的分类，该第一多域多任务网络还可以包括分类任务网络，则利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型，可以包括：将训练集中样本融合图像输入第一多域多任务网络后，分别确定裁剪图像的损失信息和样本服饰图像的损失信息；基于裁剪图像的损失信息和样本服饰图像的损失信息，对第一多域多任务网络中每一层的初始权重进行调整，确定第一多域多任务网络中每一层的目标权重；基于第一多域多任务网络中每一层的目标权重，确定服饰关键点定位模型。

其中，目标权重是可以适应性调整的，其过程可以包括：在每个学习速率周期结束时，确定每个学习速率周期对应的分类结果的损失值；将各个损失值进行平均，得到损失平均值；基于损失平均值对目标权重进行调整，并将调整后的权重作为目标权重。

具体地，在分类任务网络中，可以使用一个自适应全局池化(Adaptive GlobalPooling)替代传统的全连接层，可以根据输入图像的尺寸，自动的选择池化核的大小(Kernel size)，变换感受野的大小，使得提取出来的特征更加丰富，以使特征图与最终的分类结果间转换更加简单自然。而且，不需要大量训练调优的参数，由于空间参数数量减少了，模型更加健壮，抗过拟合效果更佳。此外，使用了两个全连接层(FC)并行的方式，分别对裁剪图像、原始图像的损失(Loss)进行监督，之后再对两者Loss之和进行优化。

多域网络、多尺寸网络分别如图9和图10所示：图9中先获取原始图像(Originalimage)的热力图，再基于该热力图获取裁剪图像(Crop image)，再将原始图像和裁剪图像进行特征融合(Concat)得到融合图像，将该融合图像输入InceptionV4Net网络输出特征图，利用Adaptive Global Pooling对其进行特征提取，再用两个并行的全连接层(也即FC1和FC2)分别对裁剪图像、原始图像的损失(也即Loss 1和Loss 2)进行监督，之后再对两者Loss之和进行优化。

在整个网络中，使用两个全连接并联相融的形式去监督整个网络的学习：一个监督裁剪图像的损失；另一个监督原始图像的损失，通过两者的损失去反馈调节网络，使网络更具有鲁棒性，性能最优。

图10中将尺寸大小不同的两个原始图像(尺寸大小分别为512*512和360*360)进行融合得到融合图像，再将该融合图像输入InceptionV4Net网络输出特征图，利用Adaptive Global Pooling对其进行特征提取，再用两个并行的全连接层(也即FC1和FC2)分别对尺寸大小不同的两个原始图像的损失(也即Loss 1和Loss 2)进行监督，之后再对两者Loss之和进行优化。

在网络优化函数方法上，可以使用周期性加权平均方法，相比于现有技术中传统的随机梯度下降(SGD)函数，周期性加权平均方法能够加快模型收敛速度，减小模型参数抖动幅度。

周期性加权平均方法，即每个学习速率周期结束时的局部最小值，都倾向于在损失平面上损失值低的区域边界处累积，通过平均这种点的损失值，可以得到具有更低损失值、泛化性和通用性更好的全局最优解。其计算公式如下所示：

n＝i/c i∈{1,2,3,…,m} (6)

其中，i为损失值，c为一个周期，即每c步进行一次周期性的滑动平均，其他时间就按普通SGD函数进行更新，w为初始化的权重，w′为更新之后的权重。可见，计算操作也是十分的简便。这样设计有两个好处：(1)不依赖学习率的变化，设置恒定学习率的时候依然可以达到很好的收敛效果。而对于SGD函数而言，恒定学习率会导致收敛情况变差。(2)收敛速度十分快，在原测试集上可以在150个epoch就收敛得非常好，也非常平稳、振荡幅度非常小。

至此，上文已分别对第一多域多任务网络中的回归任务网络、分类任务网络进行了介绍，在一个实施例中，第一多域多任务网络可以如图11所示，由图11可知，一方面采用渐进式剪枝和网络层量化的方式对InceptionV4Net网络进行网络优化，另一方面将裁剪图像(Crop image)和原始图像(Original image)进行特征融合(Concat)得到融合图像，再将融合图像输入网络优化后的InceptionV4Net网络，输出特征图。对于输出的特征图，一方面利用全局池化(Global Pooling)对其进行特征提取，再用两个并行的全连接层(也即FC1和FC2)分别对裁剪图像、原始图像的损失(也即Loss 1和Loss 2)进行监督，之后再对两者Loss之和进行优化；另一方面，利用SENet网络结构对其进行特征提取，再经过一个全连接层对服饰关键点进行坐标回归。

基于上面内容的说明，整体模型网络架构可以如图12所示，首先通过电脑、手机等带摄像头的终端设备进行数据采集，然后将采集的服饰图像输入到预处理模型中，使用残差网络(ResNet50 fully-convolution part)对数据进行处理，最终得到热力图的裁剪图像。将该裁剪图像和服饰图像进行特征融合，从而得到训练集。将训练集输入到InceptionV4网络中进行训练，该InceptionV4网络可采用渐进式剪枝和网络层量化的方式对其进行网络优化。在InceptionV4网络之后，并联两条通路，分别完成分类任务和回归任务。在进行分类任务时，采用自适应全局池化层、融合全连接层(也即两个全连接层)及周期性加权平均法进行处理，在此不再赘述。在进行回归任务时，采用SENet网络、全连接层和周期性加权平均法进行处理，在此不再赘述。

以上已经对确定服饰关键点定位模型的过程进行介绍，综合上述内容可知：

(1)从数据采集到预测服饰尺寸和类型仅使用了一个模型完成多个任务的工作，而且融合多域和多尺寸的训练模式，减小了背景等噪声对结果的影响，提高了模型精度。

(2)采用自适应渐进式剪枝和网络量化的方式，在模型参数、计算机算力资源上进行了深度优化，加快了模型收敛的速度，减小了模型在不同算力平台上的延迟以及能耗。

(3)采用融合全连接层，解决了多域、多尺寸训练过程中的反馈调节收敛速度慢的问题，并能进一步增加模型的精度。而且，周期性加权平均法可以不用依赖于学习率的变化，在参数收敛过程中非常平稳、振荡幅度非常小。

基于该训练好的服饰关键点定位模型，本发明实施例提供一种服饰关键点定位方法，如图13所示，该方法可以包括如下步骤：

S1310、获取待服饰关键点定位的服饰图像和服饰图像对应的热力图。

S1320、将服饰图像和服饰图像对应的热力图进行特征融合，得到融合图像。

S1330、将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像；其中，服饰关键点定位模型是利用训练集对第一多域多任务网络进行模型训练得到的，训练集是基于样本服饰图像、样本服饰图像对应的热力图进行特征融合得到的，第一多域多任务网络包括回归任务网络。

该服饰关键点定位方法中所用的服饰关键点定位模型，其是利用训练集对第一多域多任务网络进行模型训练得到的，由于该第一多域多任务网络包括回归任务网络，故服饰关键点定位模型能够进行服饰关键点的识别定位。而且，训练集是基于样本服饰图像、样本服饰图像对应的热力图进行特征融合得到的，该训练集中训练样本的特征信息相比于现有技术中仅从像素层面提取的特性信息的特征强度更强，故利用该训练集对第一多域多任务网络进行模型训练得到的服饰关键点定位模型，能够更加准确地进行服饰关键点定位。

所以，在获取待服饰关键点定位的服饰图像和服饰图像对应的热力图后，将服饰图像和服饰图像对应的热力图进行特征融合得到融合图像，再将该融合图像输入上述服饰关键点定位模型，输出的定位结果图像中服饰关键点定位更加准确。

步骤S1310、S1320的具体处理流程，与上文确定服饰关键点定位模型过程中样本服饰图像的处理流程相同，在此不再赘述。为了输出更加准确的定位结果图像，在一个实施例中，步骤S1330可以包括：针对融合图像进行特征提取，得到第一特征图；基于预设权重比例，对第一特征图进行特征筛选，得到第三特征图；针对第三特征图进行坐标回归，确定各个服饰关键点的坐标；基于各个服饰关键点的坐标，输出定位结果图像。

由于基于预设权重比例可以增强相对有用的特征信息，抑制相对无用的特征信息，故可以更加准确地进行服饰关键点的识别定位。

由上文可知，第一多域多任务网络还可以包括分类任务网络，故该方法还可以包括：将融合图像输入服饰关键点定位模型，输出服饰图像对应的分类结果图像。

为了输出更加准确的分类结果图像，在一个实施例中，上述将融合图像输入服饰关键点定位模型，输出服饰图像对应的分类结果图像，可以包括：针对融合图像进行特征提取，得到第一特征图；根据第一特征图的尺寸信息，确定池化核的尺寸和感受野的尺寸；基于池化核的尺寸和感受野的尺寸，对第一特征图进行特征提取，得到第二特征图；针对第二特征图进行特征识别，输出分类结果图像。

根据第一特征图的尺寸信息，自适应变换池化核的尺寸和感受野的尺寸，可以使提取的特征更加丰富，故可以输出更加准确的分类结果图像。

以上对本发明实施例提供的一种服饰关键点定位方法的相关内容进行了说明，下面对本发明实施例提供的一种服饰关键点定位装置进行说明。

如图14所示，本发明实施例还提供一种服饰关键点定位装置，包括：

获取模块1401，用于获取待服饰关键点定位的服饰图像和服饰图像对应的热力图；

融合模块1402，用于将服饰图像和服饰图像对应的热力图进行特征融合，得到融合图像；

输出模块1404，用于将融合图像输入预设的服饰关键点定位模型，输出服饰图像对应的定位结果图像；

可选地，在一个实施例中，该服饰关键点定位装置还包括：

模型训练模块1403，用于采用自适应渐进式剪枝的方式，对第一多域多任务网络进行权重剪裁，得到第二多域多任务网络；其中，第二多域多任务网络的权重稀疏度达到预设的权重稀疏度阈值；将第二多域多任务网络确定为第一多域多任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。

可选地，在一个实施例中，该服饰关键点定位装置还包括：

模型训练模块1403，用于基于预设的位宽分配策略信息，调整第一多域多任务网络中每一层的位宽，得到第三多域多任务网络；其中，位宽包括权重的位宽和激活的位宽；将第三多域多任务网络确定为第一多域多任务网络；利用训练集对第一多域多任务网络进行模型训练，得到服饰关键点定位模型。

可选地，在一个实施例中，模型训练模块1403，还用于获取目标硬件加速器的计算资源量信息；基于计算资源量信息，确定位宽分配策略信息。

可选地，在一个实施例中，模型训练模块1403还用于获取样本服饰图像对应的热力图；针对样本服饰图像对应的热力图的不同区域进行裁剪，分别得到不同区域对应的裁剪图像；将各个裁剪图像分别与样本服饰图像进行特征融合，得到训练集；其中，训练集包括各个样本融合图像。

可选地，在一个实施例中，第一多域多任务网络还包括分类任务网络；模型训练模块1403用于将训练集中样本融合图像输入第一多域多任务网络后，分别确定裁剪图像的损失信息和样本服饰图像的损失信息；基于裁剪图像的损失信息和样本服饰图像的损失信息，对第一多域多任务网络中每一层的初始权重进行调整，确定第一多域多任务网络中每一层的目标权重；基于第一多域多任务网络中每一层的目标权重，确定服饰关键点定位模型。

可选地，在一个实施例中，模型训练模块1403还用于在每个学习速率周期结束时，确定每个学习速率周期对应的分类结果的损失值；将各个损失值进行平均，得到损失平均值；基于损失平均值对目标权重进行调整，并将调整后的权重作为目标权重。

可选地，在一个实施例中，输出模块1404，还用于将融合图像输入服饰关键点定位模型，输出服饰图像对应的分类结果图像。

可选地，在一个实施例中，输出模块1404，用于针对融合图像进行特征提取，得到第一特征图；根据第一特征图的尺寸信息，确定池化核的尺寸和感受野的尺寸；基于池化核的尺寸和感受野的尺寸，对第一特征图进行特征提取，得到第二特征图；针对第二特征图进行特征识别，输出分类结果图像。

可选地，在一个实施例中，输出模块1404，用于针对融合图像进行特征提取，得到第一特征图；基于预设权重比例，对第一特征图进行特征筛选，得到第三特征图；针对第三特征图进行坐标回归，确定各个服饰关键点的坐标；基于各个服饰关键点的坐标，输出定位结果图像。

图14所示装置中的各个模块具有实现图13中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

图15示出了本发明实施例提供的一种电子设备的结构示意图。

电子设备可以包括处理器1501以及存储有计算机程序指令的存储器1502。

具体地，上述处理器1501可以包括中央处理器(Central Processing Unit，CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本发明实施例的一个或多个集成电路。

存储器1502可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器1502可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在一个实例中，存储器1502可以包括可移除或不可移除(或固定)的介质，或者存储器1502是非易失性固态存储器。存储器1502可在电子设备的内部或外部。

在一个实例中，存储器1502可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器1501通过读取并执行存储器1502中存储的计算机程序指令，以实现图13所示实施例中的方法，并达到图13所示实例执行其方法达到的相应技术效果，为简洁描述在此不再赘述。

在一个示例中，电子设备还可包括通信接口1503和总线1510。其中，如图15所示，处理器1501、存储器1502、通信接口1503通过总线1510连接并完成相互间的通信。

通信接口1503，主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。

总线1510包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(Accelerated Graphics Port，AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，EISA)总线、前端总线(Front Side Bus，FSB)、超传输(Hyper Transport，HT)互连、工业标准架构(IndustryStandard Architecture，ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线1510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线，但本发明考虑任何合适的总线或互连。

另外，本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种服饰关键点定位方法。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RadioFrequency，RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种服饰关键点定位方法，其特征在于，包括：

获取待服饰关键点定位的服饰图像和所述服饰图像对应的热力图；

将所述服饰图像和所述服饰图像对应的热力图进行特征融合，得到融合图像；

将所述融合图像输入预设的服饰关键点定位模型，输出所述服饰图像对应的定位结果图像；

其中，所述服饰关键点定位模型是利用训练集对第一多域多任务网络进行模型训练得到的，所述训练集是基于样本服饰图像、所述样本服饰图像对应的热力图进行特征融合得到的，所述第一多域多任务网络包括回归任务网络。

2.根据权利要求1所述的服饰关键点定位方法，其特征在于，在所述将所述融合图像输入预设的服饰关键点定位模型，输出所述服饰图像对应的定位结果图像之前，所述方法还包括：

采用自适应渐进式剪枝的方式，对所述第一多域多任务网络进行权重剪裁，得到第二多域多任务网络；其中，所述第二多域多任务网络的权重稀疏度达到预设的权重稀疏度阈值；

将所述第二多域多任务网络确定为所述第一多域多任务网络；

利用所述训练集对所述第一多域多任务网络进行模型训练，得到所述服饰关键点定位模型。

3.根据权利要求1所述的服饰关键点定位方法，其特征在于，在所述将所述融合图像输入预设的服饰关键点定位模型，输出所述服饰图像对应的定位结果图像之前，所述方法还包括：

基于预设的位宽分配策略信息，调整所述第一多域多任务网络中每一层的位宽，得到第三多域多任务网络；其中，所述位宽包括权重的位宽和激活的位宽；

将所述第三多域多任务网络确定为所述第一多域多任务网络；

4.根据权利要求3所述的服饰关键点定位方法，其特征在于，在所述基于预设的位宽分配策略信息，调整所述第一多域多任务网络中每一层的位宽，得到第三多域多任务网络之前，所述方法还包括：

获取目标硬件加速器的计算资源量信息；

基于所述计算资源量信息，确定所述位宽分配策略信息。

5.根据权利要求2或3所述的服饰关键点定位方法，其特征在于，在所述利用所述训练集对所述第一多域多任务网络进行模型训练，得到所述服饰关键点定位模型之前，所述方法还包括：

获取所述样本服饰图像对应的热力图；

针对所述样本服饰图像对应的热力图的不同区域进行裁剪，分别得到所述不同区域对应的裁剪图像；

将各个所述裁剪图像分别与所述样本服饰图像进行特征融合，得到所述训练集；其中，所述训练集包括各个样本融合图像。

6.根据权利要求5所述的服饰关键点定位方法，其特征在于，所述第一多域多任务网络还包括分类任务网络；所述利用所述训练集对所述第一多域多任务网络进行模型训练，得到所述服饰关键点定位模型，包括：

将所述训练集中所述样本融合图像输入所述第一多域多任务网络后，分别确定所述裁剪图像的损失信息和所述样本服饰图像的损失信息；

基于所述裁剪图像的损失信息和所述样本服饰图像的损失信息，对所述第一多域多任务网络中每一层的初始权重进行调整，确定所述第一多域多任务网络中每一层的目标权重；

基于所述第一多域多任务网络中每一层的所述目标权重，确定所述服饰关键点定位模型。

7.根据权利要求6所述的服饰关键点定位方法，其特征在于，在所述确定第一多域多任务网络中每一层的目标权重之后，所述方法还包括：

在每个学习速率周期结束时，确定每个所述学习速率周期对应的分类结果的损失值；

将各个所述损失值进行平均，得到损失平均值；

基于所述损失平均值对所述目标权重进行调整，并将调整后的权重作为所述目标权重。

8.根据权利要求6所述的服饰关键点定位方法，其特征在于，在所述基于所述第一多域多任务网络中每一层的所述目标权重，确定所述服饰关键点定位模型之后，所述方法还包括：

将所述融合图像输入所述服饰关键点定位模型，输出所述服饰图像对应的分类结果图像。

9.根据权利要求8所述的服饰关键点定位方法，其特征在于，所述将所述融合图像输入所述服饰关键点定位模型，输出所述服饰图像对应的分类结果图像，包括：

针对所述融合图像进行特征提取，得到第一特征图；

根据所述第一特征图的尺寸信息，确定池化核的尺寸和感受野的尺寸；

基于所述池化核的尺寸和所述感受野的尺寸，对所述第一特征图进行特征提取，得到第二特征图；

针对所述第二特征图进行特征识别，输出所述分类结果图像。

10.根据权利要求1所述的服饰关键点定位方法，其特征在于，所述将所述融合图像输入预设的服饰关键点定位模型，输出所述服饰图像对应的定位结果图像，包括：

针对所述融合图像进行特征提取，得到第一特征图；

基于预设权重比例，对所述第一特征图进行特征筛选，得到第三特征图；

针对所述第三特征图进行坐标回归，确定各个服饰关键点的坐标；

基于各个所述服饰关键点的坐标，输出所述定位结果图像。

11.一种服饰关键点定位装置，其特征在于，包括：

获取模块，用于获取待服饰关键点定位的服饰图像和所述服饰图像对应的热力图；

融合模块，用于将所述服饰图像和所述服饰图像对应的热力图进行特征融合，得到融合图像；

输出模块，用于将所述融合图像输入预设的服饰关键点定位模型，输出所述服饰图像对应的定位结果图像；

12.一种电子设备，其特征在于，所述电子设备包括：处理器，以及存储有计算机程序指令的存储器；

所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-10任意一项所述的服饰关键点定位方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-10任意一项所述的服饰关键点定位方法。