CN114627488A

CN114627488A - 图像处理方法和系统、模型训练方法和系统

Info

Publication number: CN114627488A
Application number: CN202011452944.4A
Authority: CN
Inventors: 庄文林; 李嗣旺; 刘铸; 董源; 李嘉辉; 冉清; 高扬; 陈宗豪; 冯晓端
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2022-06-14

Abstract

本申请公开了一种图像处理方法和系统、模型训练方法和系统。其中，该图像处理方法包括：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。本申请解决了相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

Description

图像处理方法和系统、模型训练方法和系统

技术领域

本申请涉及数据处理领域，具体而言，涉及一种图像处理方法和系统、模型训练方法和系统。

背景技术

目前，在线购物平台给用户提供了一种虚拟试鞋功能，用户可以直接在移动端体验虚拟鞋的试穿效果，对商家而言可以达到降低退换货率、提高转换率、降低库存的目的；对用户而言可以达到购买更舒适的鞋的目的。

为了实现虚拟试鞋功能，首先需要对图像或视频中的脚部的六维位姿进行估计，然后根据位姿绘制虚拟鞋，最后依据脚部分割对虚拟鞋进行遮挡处理，实现真实的试穿体验。为了实现六维位姿估计，可以通过模型对输入的图像或视频数据进行处理，得到脚部关键点与分割。但是，上述的模型往往较大，导致占用移动端的内存较多，而且处理速度较慢，影响用户体验感。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像处理方法和系统、模型训练方法和系统，以至少解决相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：获取目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

根据本申请实施例的另一方面，还提供了一种模型训练方法，包括：接收模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；输出部位识别模型。

根据本申请实施例的另一方面，还提供了一种模型训练方法，包括：获取训练样本，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置；利用训练样本对多任务模型进行训练，得到部位识别模型，其中，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

根据本申请实施例的另一方面，还提供了一种模型训练方法，包括：通过调用第一接口获取模型训练请求，其中，第一接口包含第一参数，第一参数的参数值为模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；通过调用第二接口输出部位识别模型，其中，第二接口包含第二参数，第二参数的参数值为部位识别模型。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述的图像处理方法和模型训练方法。

根据本申请实施例的另一方面，还提供了一种计算机终端，包括：存储器和处理器，处理器用于运行存储器中存储的程序，其中，程序运行时执行上述的图像处理方法和模型训练方法。

根据本申请实施例的另一方面，还提供了一种图像处理系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。

根据本申请实施例的另一方面，还提供了一种模型训练系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；输出部位识别模型。

根据本申请实施例的另一方面，还提供了一种服饰匹配方法，包括：接收目标图像和目标服饰，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；基于目标识别结果，生成目标服饰对应的虚拟服饰；利用虚拟服饰对目标部位进行遮挡处理，生成匹配图像；输出匹配图像。

在本申请实施例中，在接收到目标图像之后，可以利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，并将目标识别结果输出给用户观看，实现关键点检测、区域分割和分类的目的。容易注意到的是，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成，从而大大降低模型参数量，使得移动终端的运行速度可以满足图像处理的实时性要求，达到了降低模型在移动终端的占用内存大小，提高处理速度的技术效果，进而解决了相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现图像处理方法和模型训练方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的一种图像处理方法的流程图；

图3是根据本申请实施例的一种可选的交互界面的示意图；

图4是根据本申请实施例的一种可选的关键点热图和分割的示意图；

图5是根据本申请实施例的一种可选的部位识别模型结构的示意图；

图6是根据本申请实施例的另一种图像处理方法的流程图；

图7是根据本申请实施例的一种模型训练方法的流程图；

图8是根据本申请实施例的另一种模型训练方法的流程图；

图9是根据本申请实施例的又一种模型训练方法的流程图；

图10是根据本申请实施例的一种图像处理装置的示意图；

图11是根据本申请实施例的另一种图像处理装置的示意图；

图12是根据本申请实施例的一种模型训练装置的示意图；

图13是根据本申请实施例的另一种模型训练装置的示意图；

图14是根据本申请实施例的又一种模型训练装置的示意图；

图15是根据本申请实施例的一种服饰匹配方法的流程图；

图16是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

六维位姿：六维可以是指6个自由度，代表了3个自由度的位移(也即平移(Translation))，以及3个自由度的空间旋转(Rotation)，上述6个自由度结合起来可以称为位姿(Pose)。

PnP：Perspective-n-Point，n点透视，可以是求解3维到二维点对的运动的方法，也即，已知2维-3维的点对，求解位姿。

多任务模型：可以是指通过一个模型可以完成多种任务，例如，关键点检测、区域分割、分类等，但不仅限于此。

二维卷积层：可以包含高和宽两个维度，常用来处理图像数据。

深度可分离卷积：可以是指对于不同的出入通道(channel)采取不同的卷积核进行卷积，可以将普通的卷积操作分解为两个过程：深度(Depthwise)卷积过程和点态(Pointwise)卷积过程。

BN：BatchNormalization，批归一化，可以是对每一批数据进行归一化，每个特征进行归一化，使得每个特征都有均值0，方差为1的分布。

SE：Squeeze-and-Excitation，可以是指针对channel的注意力机制模块，通过对特征通道间的相关性进行建模，将重要的特征进行强化来提升准确率。

MSE：mean-squareerror，均方误差，可以是指数据序列与真实值之间的关系。

MobileNetV3：可以是指一种移动端的轻量化模型，综合了以下三种模型的思想：深度可分离卷积、具有线性瓶颈的逆残差结构和轻量级注意力模型。

目前，虚拟试鞋功能领域中，用于脚部关键点检测与分割任务的模型往往较大，占用内存较多且处理速度较慢，而且，用户在移动端使用过程中的场景非常丰富，但是上述模型的鲁棒性较低，无法在上述场景下都得到稳定的结果，影响用户体验感。

而且为了实现六维位姿估计，可以通过模型对输入的图像或视频数据进行处理，得到脚部关键点与分割。但是，上述的模型往往较大，导致占用移动端的内存较多，而且处理速度较慢，影响用户体验感。

为了解决上述问题，本申请采用轻量化方法，实现图像或视频中的脚部关键点检测、脚部区域分割，同时，进行了左、右脚的识别，在移动端可以达到实时处理的效果。另外，训练数据包括了不同场景、不同鞋款、不同角度、不同姿态等情况下的数据，有效保证训练数据的丰富性。

实施例1

根据本申请实施例，还提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像处理方法和模型训练方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的图像处理方法和模型训练方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法和模型训练方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的图像处理方法。图2是根据本申请实施例的一种图像处理方法的流程图。如图2所示，该方法可以包括如下步骤：

步骤S202，接收目标图像，其中，目标图像包括：目标部位。

上述步骤中的目标图像可以是用户针对目标部位拍摄的图像，也可以是从用户针对目标部位拍摄的视频中切分的图像帧。上述的目标部位可以是用户身体某个部位，例如，可以是手部、脚部、脸部、耳朵等，在本申请实施例中，以脚部为例进行说明。对于手部、脚部等身体部位，目标图像中可以仅包含一侧部位(例如，左手、右手、左脚、右脚)，也可以包含双侧部位(例如，左右手、左右脚)。

在一种可选的实施例中，可以在移动终端(例如智能手机、平板电脑、掌上电脑、笔记本电脑等)上提供一个交互界面，如图3所示，用户通过点击交互界面上的“拍摄”按钮，调用移动终端的摄像头拍摄图像或视频，此时，拍摄到的图像或视频帧为上述的目标图像；或者通过点击交互界面上的“上传”按钮，查看移动终端上存储的图像或视频，并由用户进行选择，用户选中的图像或视频中的视频帧为上述的目标图像。

步骤S204，利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

可选地，上述的目标识别结果包括：目标检测图像、目标分割图像和目标分类结果，目标检测图像包含目标部位的关键点信息，目标分割图像为目标部位所在区域的图像，目标分类结果用于表征目标部位相对于身体躯干的位置。

上述的目标检测图像可以是包含有检测到的关键点的图像，例如，可以是检测道的脚部关键点的关键点热图。对于关键点热图，每个关键点热图中仅包含有一个关键点的信息，因此，可以预先根据检测需要设置需要检测的关键点的数量，从而可以得到相同数量的关键点热图。

上述的目标分割图像可以是对目标图像进行分割，得到的仅包含有目标部位，而不包含其他背景图像的图像。

上述的目标分类结果可以是指目标部位相对于身体所在侧，例如，目标部位是左脚还是右脚，或者左右脚都有，从而避免左脚、右脚容易出现混淆的问题。目标分类结果可以用两位二进制数进行表示，其中，高位二进制数表示左侧部位，低位二进制数表示右侧部位，并且，通过二进制数1表示检测到该侧部位，二进制数0表示未检测到该侧部位，例如，如果目标图像中仅包含左脚，则目标分类结果为10，如果目标图像中仅包含右脚，则目标分类结果为01，如果目标图像中包含左右脚，则目标分类结果为10。

上述步骤中的目标识别结果不仅仅用于预测目标部位的三维位置，还用于预测目标部位的三维姿态，从可以基于目标识别结果构建虚拟对象，例如，对于脚部，在得到脚部关键点和脚部所在侧之后，可以进行六维位姿估计，进而根据位姿绘制虚拟鞋，最后依据脚部图像对虚拟鞋进行遮挡处理，达到真实的试穿体验。

上述步骤中的部位识别模型可以是预先训练好的多任务模型，采用轻量化方法实现目标图像得到识别，得到多种目标识别结果，分别为检测结果、分割结果和分类结果。在该模型中，第一层为常规二维卷积模块，其余为深度可分离卷积模块，从而大大降低了模型参数量，该模型的大小为1.8M。常规二维卷积模块的具体结构可以是二维卷积+BN+非线性激活函数；深度可分离卷积模块可以是MobileNetV3中的基本模块，具体结构可以是深度可分离卷积+残差模型+SE。

为了能够训练得到一个处理精度较高的部位识别模型，往往需要采用大量训练样本进行多次迭代训练，整个训练过程的数据量和运算量较大。为了减少移动终端的资源消耗，可以由服务器进行模型训练，移动终端中仅部署训练好的部位识别模型，从而实现图像处理的目的。

在一种可选的实施例中，移动终端在接收到目标图像之后，可以将目标图像输入至部署好的部位识别模型中，该模型的输出即为关键点热图、分割以及分类组合成的目标识别结果。例如，以目标图像中包含左脚和右脚为例进行说明，如图4所示，可以得到5个左脚关键点热图，5个右脚关键点热图，以及左脚分割图和右脚分割图，其中，分类结果可以是11。

步骤S206，输出目标识别结果。

在一种可选的实施例中，移动终端可以直接将目标识别结果显示在如图3所示的交互界面的显示区域中，从而用户可以查看到识别出的关键点热图、分割以及分类，用户可以对目标识别结果进行调整，调整后的目标识别结果对目标部位进行六维位姿估计。

通过本申请上述实施例提供的技术方案，在接收到目标图像之后，可以利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，并将目标识别结果输出给用户观看，实现关键点检测、区域分割和分类的目的。容易注意到的是，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成，从而大大降低模型参数量，使得移动终端的运行速度可以满足图像处理的实时性要求，达到了降低模型在移动终端的占用内存大小，提高处理速度的技术效果，进而解决了相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

在本申请上述实施例中，利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果包括：利用编码网络对目标图像进行特征提取，得到目标图像的多尺度特征，其中，多尺度特征包括：多个不同尺度的特征，编码网络由多个尺度不同的第一网络结构连接构成；利用解码网络对多尺度特征进行特征融合，得到目标检测图像和目标分割图像，其中，编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；利用分类器对多尺度特征中的最小尺度特征进行分类操作，得到目标分类结果，其中，分类器与最小尺度特征对应的第一网络结构连接。

为了避免特征金字塔对多尺度的融合效果不好的问题，在本申请实施例中，如图5所示，部位识别模型可以采用编码-解码结构。上述步骤中的编码网络可以由多个尺度不同的第一网络结构连接构成，第一网络结构可以实现图像的卷积-下采样。上述步骤中的解码网络可以由多个尺度的第二网络结构连接构成，第二网络结构可以实现特征图的上采样-卷积，每个第二网络结构可以与前一个第二网络结构和对应层次的第一网络结构连接，实现将第一网络结构输出的特征图与上采样后的融合结果进行卷积。上述步骤中的分类器可以采用现有结构，本申请对此不作具体限定，分类器级联在最小尺度的特征图之后，以实现左脚和右脚区分的目的。

在一种可选的实施例中，如图5所示，可以将目标图像输入至编码网络，由编码网络进行多次卷积和下采样，得到多个尺度的特征，然后将多个尺度的特征输入至解码网络，由解码网络进行多次上采样和卷积，融合得到关键点热图和分割图；同时，将最小尺度的特征输入至分类器，由分类器进行分类，确定目标部位是左侧还是右侧，得到分类结果。

在本申请上述实施例中，该方法还可以包括如下步骤：获取训练样本，其中，训练样本包括：训练图像，以及训练图像对应的第一识别结果，训练图像为多个不同场景中采集到的图像；利用训练样本对多任务模型进行训练，得到部位识别模型。

上述步骤中的不同场景可以是指不同状态(例如光脚、穿着袜子、穿着鞋)、不同鞋型、不同姿态、不同视角、遮挡、光照影响等丰富场景。

为了提升部位识别模型的鲁棒性，可以获取不同状态、不同鞋型、不同姿态、不同角度等场景下的图像作为训练图像，为了确保训练图像的丰富性，可以获取50万左右的训练图像构建训练样本。

在一种可选的实施例中，首先按照部位识别模型的结构构建多任务模型，此时，多任务模型的网络参数为预设值，需要进行调整。其次，可以获取不同场景下的图像作为训练图像，并人工标记相应的识别结果，从而构建训练样本。最后利用训练样本对多任务模型进行训练，调整多任务模型的网络参数，最终得到的多任务模型即为部位识别模型。

在本申请上述实施例中，利用训练样本对多任务模型进行训练，得到部位识别模型包括：利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果；基于第一识别结果和第二识别结果，确定多任务模型的模型损失值；在模型损失值大于预设值的情况下，利用训练样本对多任务模型进行训练，直至模型损失值小于等于预设值，得到部位识别模型。

上述步骤中的预设值可以是根据关键点检测、区域分割和分类需求所设定的损失阈值，可以根据用户实际需要进行修改，本申请对此不作具体限定。

在一种可选的实施例中，多任务模型的训练过程中，可以采用多任务同时训练的策略，并针对不同任务计算不同的损失函数，进一步通过加权和得到最终的模型损失值。在每次迭代完成后，判断模型损失函数值是否小于损失阈值，如果模型损失函数值仍然大于损失阈值，则继续进行下一次迭代，直至模型损失函数值小于损失阈值，或者迭代次数达到次数阈值，从而确定训练完成。

在本申请上述实施例中，基于第一识别结果和第二识别结果，确定多任务模型的模型损失值包括：基于第一识别结果中的第一检测图像和第二识别结果中的第二检测图像，确定检测损失值；基于第一识别结果中的第一分割图像和第二识别结果中的第二分割图像，确定分割损失值；基于第一识别结果中的第一分类结果和第二识别结果中的第二分类结果，确定分类损失值；获取检测损失值、分割损失值和分类损失值的加权和，得到模型损失值。

在一种可选的实施例中，检测损失值可以采用MSE损失函数得到，分割损失值可以采用交叉熵损失函数得到，分类损失值可以采用交叉损失函数得到，进一步通过对三个损失值进行加权，可以得到模型损失值。具体计算公式如下：

L＝α*L_hm+β*L_seg+γ*L_c，

其中，L_hm为检测损失值，L_seg为分割损失值，L_c为分类损失值，L为模型损失值，

为模型预测的第i张关键点热图(即上述的第二检测图像)，y_h，i为对应的真值热图(即上述的第一检测图像)，K为关键点热图数量，例如，K的取值可以是10；

为模型预测的第t张分割图(即上述的第二分割图像)，y_s，t为对应的真值分割图(即上述的第一分割图像)，N为分割图数量，N的取值可以基于图像中包含的部位的数量确定，例如，N的取值可以是2；

为模型预测的第j个“分类”结果(即上述的第二分类结果)，y_c，j为对应的真值“分类”(即上述的第一分类结果)，M为“分类”数量，M和N的取值往往相同，例如，M的取值也可以是2；α，β，γ为三个损失的权重系数。

需要说明的是，本实施例中使用的部位识别模型的训练方法可以参考下述实施例中的模型训练方法，具体实现方案和应用场景与下述实施例相同，在此不做赘述。

还需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

图6是根据本申请实施例的另一种图像处理方法的流程图。如图6所示，该方法可以包括如下步骤：

步骤S602，获取目标图像，其中，目标图像包括：目标部位。

步骤S604，利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

上述的目标分类结果可以是指目标部位相对于身体所在侧，例如，目标部位是左脚还是右脚，或者左右脚都有，从而避免左脚、右脚容易出现混淆的问题。目标分类结果可以用两位二进制数进行表示，其中，高位二进制数表示左侧部位，低位二进制数表示右侧部位，并且，通过二进制数1表示检测到该侧部位，二进制数0表示未检测到该侧部位，例如，如果目标图像中仅包含左脚，则目标分类结果为10，如果目标图像中仅包含右脚，则目标分类结果为01，如果目标图像中包含左右脚，则目标分类结果为11。

在本申请上述实施例中，上述方法还可以包括如下步骤：获取训练样本，其中，训练样本包括：训练图像，以及训练图像对应的第一识别结果，训练图像为多个不同场景中采集到的图像；利用训练样本对多任务模型进行训练，得到部位识别模型。

在本申请上述实施例中，基于第一识别结果和第二识别结果，确定多任务模型的模型损失值包括：基于第一检测图像和第二检测图像，确定检测损失值；基于第一分割图像和第二分割图像，确定分割损失值；基于第一分类结果和第二分类结果，确定分类损失值；获取检测损失值、分割损失值和分类损失值的加权和，得到模型损失值。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种模型训练方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图7是根据本申请实施例的一种模型训练方法的流程图。如图7所示，该方法可以包括如下步骤：

步骤S702，接收模型训练请求。

上述步骤中的模型训练请求可以根据用户的模型使用需求生成，例如，在虚拟试鞋场景中，模型训练请求可以是脚部识别模型的训练请求。

在一种可选的实施例中，可以在移动终端上提供一个交互界面，用户可以在该界面内输入模型训练请求，从而移动终端可以通过网络将模型训练请求发送至服务器。由于在虚拟试鞋场景中，模型使用需求较为固定，因此，可以提供给用户一个选择按钮，由用户选定是否需要生成脚部识别模型，进而生成上述的模型训练请求。

步骤S704，获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

上述步骤中的训练图像可以是指不同状态(例如光脚、穿着袜子、穿着鞋)、不同鞋型、不同姿态、不同视角、遮挡、光照影响等丰富场景中采集到的图像或视频中切分的图像帧。

上述步骤中的多任务模型可以是采用轻量化方法构建的模型，该模型可以实现训练图像的识别，并得到多种不同类型的识别结果，分别为检测结果、分割结果和分类结果。在该模型中，第一层为常规二维卷积模块，其余为深度可分离卷积模块，从而大大降低了模型参数量，该模型的大小为1.8M。常规二维卷积模块的具体结构可以是二维卷积+BN+非线性激活函数；深度可分离卷积模块可以是MobileNetV3中的基本模块，具体结构可以是深度可分离卷积+残差模型+SE。

可选地，上述的第一识别结果包括：第一检测图像、第一分割图像和第一分类结果，第一检测图像包含身体部位的关键点信息，第一分割图像为身体部位所在区域的图像，第一分类结果用于表征身体部位相对于身体躯干的位置。

上述的第一检测图像可以是包含有检测到的关键点的图像，例如，可以是检测道的脚部关键点的关键点热图。对于关键点热图，每个关键点热图中仅包含有一个关键点的信息，因此，可以预先根据检测需要设置需要检测的关键点的数量，从而可以得到相同数量的关键点热图。

上述的第一分割图像可以是对目标图像进行分割，得到的仅包含有目标部位，而不包含其他背景图像的图像。

上述的第一分类结果可以是指目标部位相对于身体所在侧，例如，目标部位是左脚还是右脚，或者左右脚都有，从而避免左脚、右脚容易出现混淆的问题。目标分类结果可以用两位二进制数进行表示，其中，高位二进制数表示左侧部位，低位二进制数表示右侧部位，并且，通过二进制数1表示检测到该侧部位，二进制数0表示未检测到该侧部位，例如，如果目标图像中仅包含左脚，则目标分类结果为10，如果目标图像中仅包含右脚，则目标分类结果为01，如果目标图像中包含左右脚，则目标分类结果为11。

步骤S706，利用训练样本对多任务模型进行训练，得到部位识别模型。

步骤S708，输出部位识别模型。

在一种可选的实施例中，由于部位识别模型部署在移动终端中，服务器可以通过网络将部位识别模型传输至移动终端，从而移动终端可以利用部署好的部位识别模型对图像进行识别，得到关键点热图、分割图像和分类结果。

通过本申请上述实施例提供的技术方案，在接收到模型训练请求之后，可以获取模型训练请求对应的训练样本和多任务模型，并利用训练样本对多任务模型进行训练，得到部位识别模型，并将部位识别模型输出给移动终端，实现模型训练的目的。容易注意到的是，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成，从而大大降低模型参数量，使得移动终端的运行速度可以满足图像处理的实时性要求，达到了降低模型在移动终端的占用内存大小，提高处理速度的技术效果，进而解决了相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

在本申请上述实施例中，利用训练样本对多任务模型进行训练，得到部位识别模型包括：利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果，其中，训练图像为多个不同场景中采集到的图像；基于第一识别结果和第二识别结果，确定多任务模型的模型损失值；在模型损失值大于预设值的情况下，利用训练样本对多任务模型进行训练，直至模型损失值小于等于预设值，得到部位识别模型。

在本申请上述实施例中，利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果包括：利用编码网络对训练图像进行特征提取，得到训练图像的多尺度特征，其中，多尺度特征包括：多个不同尺度的特征，编码网络由多个尺度不同的第一网络结构连接构成；利用解码网络对多尺度特征进行特征融合，得到第二检测图像和第二分割图像，其中，编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；利用分类器对多尺度特征中的最小尺度特征进行分类操作，得到第二分类结果，其中，分类器与最小尺度特征对应的第一网络结构连接。

为了避免特征金字塔对多尺度的融合效果不好的问题，在本申请实施例中，多任务模型可以采用编码-解码结构。上述步骤中的编码网络可以由多个尺度不同的第一网络结构连接构成，第一网络结构可以实现图像的卷积-下采样。上述步骤中的解码网络可以由多个尺度的第二网络结构连接构成，第二网络结构可以实现特征图的上采样-卷积，每个第二网络结构可以与前一个第二网络结构和对应层次的第一网络结构连接，实现将第一网络结构输出的特征图与上采样后的融合结果进行卷积。上述步骤中的分类器可以采用现有结构，本申请对此不作具体限定，分类器级联在最小尺度的特征图之后，以实现左脚和右脚区分的目的。

在一种可选的实施例中，可以将训练图像输入至编码网络，由编码网络进行多次卷积和下采样，得到多个尺度的特征，然后将多个尺度的特征输入至解码网络，由解码网络进行多次上采样和卷积，融合得到关键点热图和分割图；同时，将最小尺度的特征输入至分类器，由分类器进行分类，确定身体部位是左侧还是右侧。

L＝α*L_hm+β*L_seg+γ*L_c，

需要说明的是，本实施例中训练得到的部位识别模型的应用方法可以参考上述实施例中的图像处理方法，具体实现方案和应用场景与下述实施例相同，在此不做赘述。

实施例4

图8是根据本申请实施例的另一种模型训练方法的流程图。如图8所示，该方法可以包括如下步骤：

步骤S802，获取训练样本，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置。

步骤S804，利用训练样本对多任务模型进行训练，得到部位识别模型，其中，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例3提供的方案以及应用场景、实施过程相同，但不仅限于实施例3所提供的方案。

实施例5

图9是根据本申请实施例的又一种模型训练方法的流程图。如图9所示，该方法可以包括如下步骤：

步骤S902，通过调用第一接口获取模型训练请求，其中，第一接口包含第一参数，第一参数的参数值为模型训练请求。

上述步骤中的第一接口可以是服务器与移动终端之间进行数据交互的接口，移动终端可以将模型训练请求传入接口函数，作为接口函数的一个参数，实现模型训练请求上传至服务器的目的。

步骤S904，获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

步骤S906，利用训练样本对多任务模型进行训练，得到部位识别模型。

步骤S908，通过调用第二接口输出部位识别模型，其中，第二接口包含第二参数，第二参数的参数值为部位识别模型。

上述步骤中的第二接口可以是服务器与移动终端之间进行数据交互的接口，服务器可以将部位识别模型传入接口函数，作为接口函数的一个参数，实现部位识别模型下发至移动终端的目的。

实施例6

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，如图10所示，该装置1000包括：接收模块1002、识别模块1004和输出模块1006。

其中，接收模块1002用于接收目标图像，其中，目标图像包括：目标部位；识别模块1004用于利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出模块1006用于输出目标识别结果。

此处需要说明的是，上述接收模块1002、识别模块1004和输出模块1006对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，识别模块1004包括：提取单元、融合单元和分类单元。

其中，提取单元用于利用编码网络对目标图像进行特征提取，得到目标图像的多尺度特征，其中，多尺度特征包括：多个不同尺度的特征，编码网络由多个尺度不同的第一网络结构连接构成；融合单元用于利用解码网络对多尺度特征进行特征融合，得到目标检测图像和目标分割图像，其中，编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；分类单元用于利用分类器对多尺度特征中的最小尺度特征进行分类操作，得到目标分类结果，其中，分类器与最小尺度特征对应的第一网络结构连接。

在本申请上述实施例中，该装置还可以包括：获取模块和训练模块。

其中，获取模块用于获取训练样本，其中，训练样本包括：训练图像，以及训练图像对应的第一识别结果，训练图像为多个不同场景中采集到的图像；训练模块用于利用训练样本对多任务模型进行训练，得到部位识别模型。

在本申请上述实施例中，训练模块包括：识别单元、确定单元和训练单元。

其中，识别单元用于利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果；确定单元用于基于第一识别结果和第二识别结果，确定多任务模型的模型损失值；训练单元用于在模型损失值大于预设值的情况下，利用训练样本对多任务模型进行训练，直至模型损失值小于等于预设值，得到部位识别模型。

在本申请上述实施例中，确定单元还用于执行如下步骤：基于第一检测图像和第二检测图像，确定检测损失值；基于第一分割图像和第二分割图像，确定分割损失值；基于第一分类结果和第二分类结果，确定分类损失值；获取检测损失值、分割损失值和分类损失值的加权和，得到模型损失值。

实施例7

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，如图11所示，该装置1100包括：获取模块1102和识别模块1104。

其中，获取模块1102用于获取目标图像，其中，目标图像包括：目标部位；识别模块1104用于利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

此处需要说明的是，上述获取模块1102和识别模块1104对应于实施例2中的步骤S602至步骤S604，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，识别模块1104包括：提取单元、融合单元和分类单元。

在本申请上述实施例中，该装置还可以包括：训练模块。

其中，获取模块还用于获取训练样本，其中，训练样本包括：训练图像，以及训练图像对应的第一识别结果，训练图像为多个不同场景中采集到的图像；训练模块用于利用训练样本对多任务模型进行训练，得到部位识别模型。

实施例8

根据本申请实施例，还提供了一种用于实施上述模型训练方法的模型训练装置，如图12所示，该装置1200包括：接收模块1202、获取模块1204、训练模块1206和输出模块1208。

其中，接收模块1202用于接收模型训练请求；获取模块1204用于获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；训练模块1206用于利用训练样本对多任务模型进行训练，得到部位识别模型；输出模块1208用于输出部位识别模型。

此处需要说明的是，上述接收模块1202、获取模块1204、训练模块1206和输出模块1208对应于实施例3中的步骤S702至步骤S708，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，训练模块1206包括：识别单元、确定单元和训练单元。

其中，识别单元用于利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果，其中，训练图像为多个不同场景中采集到的图像；确定单元用于基于第一识别结果和第二识别结果，确定多任务模型的模型损失值；训练单元用于在模型损失值大于预设值的情况下，利用训练样本对多任务模型进行训练，直至模型损失值小于等于预设值，得到部位识别模型。

在本申请上述实施例中，识别单元包括：提取子单元、融合子单元和分类子单元。

其中，提取子单元用于利用编码网络对训练图像进行特征提取，得到训练图像的多尺度特征，其中，多尺度特征包括：多个不同尺度的特征，编码网络由多个尺度不同的第一网络结构连接构成；融合子单元用于利用解码网络对多尺度特征进行特征融合，得到第二检测图像和第二分割图像，其中，编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；分类子单元用于利用分类器对多尺度特征中的最小尺度特征进行分类操作，得到第二分类结果，其中，分类器与最小尺度特征对应的第一网络结构连接。

实施例9

根据本申请实施例，还提供了一种用于实施上述模型训练方法的模型训练装置，如图13所示，该装置1300包括：获取模块1302和训练模块1304。

其中，获取模块1302用于获取训练样本，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置；训练模块1304用于利用训练样本对多任务模型进行训练，得到部位识别模型，其中，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

此处需要说明的是，上述获取模块1302和训练模块1304对应于实施例4中的步骤S802至步骤S804，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例4所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，训练模块1304包括：识别单元、确定单元和训练单元。

实施例10

根据本申请实施例，还提供了一种用于实施上述模型训练方法的模型训练装置，如图14所示，该装置1400包括：第一调用模块1402、获取模块1404、训练模块1406和第二调用模块1408。

其中，第一调用模块1402用于通过调用第一接口获取模型训练请求，其中，第一接口包含第一参数，第一参数的参数值为模型训练请求；获取模块1404用于获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；训练模块1406用于利用训练样本对多任务模型进行训练，得到部位识别模型；第二调用模块1408用于通过调用第二接口输出部位识别模型，其中，第二接口包含第二参数，第二参数的参数值为部位识别模型。

此处需要说明的是，上述第一调用模块1402、获取模块1404、训练模块1406和第二调用模块1408对应于实施例5中的步骤S902至步骤S908，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例3所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，训练模块1406包括：识别单元、确定单元和训练单元。

实施例11

根据本申请实施例，还提供了一种图像处理系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。

实施例12

根据本申请实施例，还提供了一种模型训练系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：接收模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；输出部位识别模型。

实施例13

根据本申请实施例，还提供了一种服饰匹配方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图15是根据本申请实施例的一种服饰匹配方法的流程图。如图15所示，该方法可以包括如下步骤：

步骤S1502，接收目标图像和目标服饰，其中，目标图像包括：目标部位。

上述步骤中的目标服饰可以是电商购物平台中用户选择的服饰，为了查看试穿效果，用户可以选择虚拟试穿功能进行模拟试穿，对于不同的虚拟试穿功能，服饰的类型不同，例如，在虚拟试鞋功能中，目标服饰可以是不同类型、样式的鞋子。

步骤S1504，利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

步骤S1506，基于目标识别结果，生成目标服饰对应的虚拟服饰。

在一种可选的实施例中，在识别出目标部位的关键点热图和分类之后，可以基于的关键点热图和分类进行六维位姿估计，进而根据位姿和用户选择的目标服饰绘制虚拟服饰，例如，对于脚部，在得到脚部关键点和脚部所在侧之后，可以进行六维位姿估计，进而结合用户选中的鞋子的样式，根据位姿绘制虚拟鞋。

步骤S1508，利用虚拟服饰对目标部位进行遮挡处理，生成匹配图像。

在一种可选的实施例中，在生成虚拟服饰之后，可以基于分割结果利用虚拟服饰对目标部位进行遮挡处理，从而得到试穿图像，也即，上述的匹配图像。例如，对于脚部，在绘制出虚拟鞋之后，可以依据脚部图像对虚拟鞋进行遮挡处理，达到真实的试穿体验。

步骤S1510，输出匹配图像。

通过本申请上述实施例提供的技术方案，在接收到目标图像和目标服饰之后，可以利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，并基于目标识别结果，生成目标服饰对应的虚拟服饰，进一步利用虚拟服饰对目标部位进行遮挡处理，生成匹配图像，实现虚拟服饰试穿的目的。容易注意到的是，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成，从而大大降低模型参数量，使得移动终端的运行速度可以满足图像处理的实时性要求，达到了降低模型在移动终端的占用内存大小，提高处理速度的技术效果，进而解决了相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

实施例14

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行图像处理方法中以下步骤的程序代码：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。

可选地，图16是根据本申请实施例的一种计算机终端的结构框图。如图16所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器1602、以及存储器1604。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像处理方法和装置、模型训练方法和装置及服饰匹配方法对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像处理方法、模型训练方法及服饰匹配方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。

可选的，上述处理器还可以执行如下步骤的程序代码：利用编码网络对目标图像进行特征提取，得到目标图像的多尺度特征，其中，多尺度特征包括：多个不同尺度的特征，编码网络由多个尺度不同的第一网络结构连接构成；利用解码网络对多尺度特征进行特征融合，得到目标检测图像和目标分割图像，其中，编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；利用分类器对多尺度特征中的最小尺度特征进行分类操作，得到目标分类结果，其中，分类器与最小尺度特征对应的第一网络结构连接。

可选的，上述处理器还可以执行如下步骤的程序代码：获取训练样本，其中，训练样本包括：训练图像，以及训练图像对应的第一识别结果，训练图像为多个不同场景中采集到的图像；利用训练样本对多任务模型进行训练，得到部位识别模型。

可选的，上述处理器还可以执行如下步骤的程序代码：利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果；基于第一识别结果和第二识别结果，确定多任务模型的模型损失值；在模型损失值大于预设值的情况下，利用训练样本对多任务模型进行训练，直至模型损失值小于等于预设值，得到部位识别模型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于第一检测图像和第二检测图像，确定检测损失值；基于第一分割图像和第二分割图像，确定分割损失值；基于第一分类结果和第二分类结果，确定分类损失值；获取检测损失值、分割损失值和分类损失值的加权和，得到模型损失值。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；输出部位识别模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取训练样本，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置；利用训练样本对多任务模型进行训练，得到部位识别模型，其中，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取模型训练请求，其中，第一接口包含第一参数，第一参数的参数值为模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；通过调用第二接口输出部位识别模型，其中，第二接口包含第二参数，第二参数的参数值为部位识别模型。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：接收目标图像和目标服饰，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；基于目标识别结果，生成目标服饰对应的虚拟服饰；利用虚拟服饰对目标部位进行遮挡处理，生成匹配图像；输出匹配图像。

采用本申请实施例，提供了一种图像处理的方案。通过由二维卷积模块和多个深度可分离卷积模块连接构成的部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，从而大大降低模型参数量，使得移动终端的运行速度可以满足图像处理的实时性要求，达到了降低模型在移动终端的占用内存大小，提高处理速度的技术效果，进而解决了相关技术中数据处理使用的模型较大，导致占用内存较多且处理速度较慢的技术问题。

本领域普通技术人员可以理解，图16所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图16其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图16中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图16所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例14

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的图像处理方法、模型训练方法及服饰匹配方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出目标识别结果。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用编码网络对目标图像进行特征提取，得到目标图像的多尺度特征，其中，多尺度特征包括：多个不同尺度的特征，编码网络由多个尺度不同的第一网络结构连接构成；利用解码网络对多尺度特征进行特征融合，得到目标检测图像和目标分割图像，其中，编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；利用分类器对多尺度特征中的最小尺度特征进行分类操作，得到目标分类结果，其中，分类器与最小尺度特征对应的第一网络结构连接。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：获取训练样本，其中，训练样本包括：训练图像，以及训练图像对应的第一识别结果，训练图像为多个不同场景中采集到的图像；利用训练样本对多任务模型进行训练，得到部位识别模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用多任务模型对训练图像进行识别，得到训练图像的第二识别结果；基于第一识别结果和第二识别结果，确定多任务模型的模型损失值；在模型损失值大于预设值的情况下，利用训练样本对多任务模型进行训练，直至模型损失值小于等于预设值，得到部位识别模型。

可选地，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于第一检测图像和第二检测图像，确定检测损失值；基于第一分割图像和第二分割图像，确定分割损失值；基于第一分类结果和第二分类结果，确定分类损失值；获取检测损失值、分割损失值和分类损失值的加权和，得到模型损失值。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取目标图像，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，目标识别结果用于预测目标部位的位置，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；输出部位识别模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取训练样本，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置；利用训练样本对多任务模型进行训练，得到部位识别模型，其中，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取模型训练请求，其中，第一接口包含第一参数，第一参数的参数值为模型训练请求；获取模型训练请求对应的训练样本和多任务模型，其中，训练样本包括：包含身体部位的训练图像，以及训练图像对应的第一识别结果，第一识别结果用于预测身体部位的位置，多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用训练样本对多任务模型进行训练，得到部位识别模型；通过调用第二接口输出部位识别模型，其中，第二接口包含第二参数，第二参数的参数值为部位识别模型。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：接收目标图像和目标服饰，其中，目标图像包括：目标部位；利用部位识别模型对目标图像进行识别，得到目标部位的目标识别结果，其中，部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；基于目标识别结果，生成目标服饰对应的虚拟服饰；利用虚拟服饰对目标部位进行遮挡处理，生成匹配图像；输出匹配图像。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像处理方法，包括：

接收目标图像，其中，所述目标图像包括：目标部位；

利用部位识别模型对所述目标图像进行识别，得到所述目标部位的目标识别结果，其中，所述目标识别结果用于预测所述目标部位的位置，所述部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；

输出所述目标识别结果。

2.根据权利要求1所述的方法，其中，所述目标识别结果包括：目标检测图像、目标分割图像和目标分类结果，所述目标检测图像包含所述目标部位的关键点信息，所述目标分割图像为所述目标部位所在区域的图像，所述目标分类结果用于表征所述目标部位相对于身体躯干的位置。

3.根据权利要求2所述的方法，其中，利用部位识别模型对所述目标图像进行识别，得到所述目标部位的目标识别结果包括：

利用编码网络对所述目标图像进行特征提取，得到所述目标图像的多尺度特征，其中，所述多尺度特征包括：多个不同尺度的特征，所述编码网络由多个尺度不同的第一网络结构连接构成；

利用解码网络对所述多尺度特征进行特征融合，得到所述目标检测图像和所述目标分割图像，其中，所述编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；

利用分类器对所述多尺度特征中的最小尺度特征进行分类操作，得到所述目标分类结果，其中，所述分类器与所述最小尺度特征对应的第一网络结构连接。

4.根据权利要求1至3中任意一项所述的方法，其中，所述方法还包括：

获取训练样本，其中，所述训练样本包括：训练图像，以及所述训练图像对应的第一识别结果，所述训练图像为多个不同场景中采集到的图像；

利用所述训练样本对多任务模型进行训练，得到所述部位识别模型。

5.根据权利要求4所述的方法，其中，利用所述训练样本对多任务模型进行训练，得到所述部位识别模型包括：

利用所述多任务模型对所述训练图像进行识别，得到所述训练图像的第二识别结果；

基于所述第一识别结果和所述第二识别结果，确定所述多任务模型的模型损失值；

在所述模型损失值大于预设值的情况下，利用所述训练样本对所述多任务模型进行训练，直至所述模型损失值小于等于所述预设值，得到所述部位识别模型。

6.根据权利要求5所述的方法，其中，基于所述第一识别结果和所述第二识别结果，确定所述多任务模型的模型损失值包括：

基于所述第一识别结果中的第一检测图像和所述第二识别结果中的第二检测图像，确定检测损失值；

基于所述第一识别结果中的第一分割图像和所述第二识别结果中的第二分割图像，确定分割损失值；

基于所述第一识别结果中的第一分类结果和所述第二识别结果中的第二分类结果，确定分类损失值；

获取所述检测损失值、所述分割损失值和所述分类损失值的加权和，得到所述模型损失值。

7.一种图像处理方法，包括：

获取目标图像，其中，所述目标图像包括：目标部位；

利用部位识别模型对所述目标图像进行识别，得到所述目标部位的目标识别结果，其中，所述目标识别结果用于预测所述目标部位的位置，所述部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成。

8.根据权利要求7所述的方法，其中，所述目标识别结果包括：目标检测图像、目标分割图像和目标分类结果，所述目标检测图像包含所述目标部位的关键点信息，所述目标分割图像为所述目标部位所在区域的图像，所述目标分类结果用于表征所述目标部位相对于身体躯干的位置。

9.根据权利要求8所述的方法，其中，利用部位识别模型对所述目标图像进行识别，得到所述目标部位的目标识别结果包括：

10.一种模型训练方法，包括：

接收模型训练请求；

获取所述模型训练请求对应的训练样本和多任务模型，其中，所述训练样本包括：包含身体部位的训练图像，以及所述训练图像对应的第一识别结果，所述第一识别结果用于预测所述身体部位的位置，所述多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；

利用所述训练样本对所述多任务模型进行训练，得到部位识别模型；

输出所述部位识别模型。

11.根据权利要求10所述的方法，其中，所述第一识别结果包括：第一检测图像、第一分割图像和第一分类结果，所述第一检测图像包含所述身体部位的关键点信息，所述第一分割图像为所述身体部位所在区域的图像，所述第一分类结果用于表征所述身体部位相对于身体躯干的位置。

12.根据权利要求11所述的方法，其中，利用所述训练样本对所述多任务模型进行训练，得到部位识别模型包括：

利用所述多任务模型对所述训练图像进行识别，得到所述训练图像的第二识别结果，其中，所述训练图像为多个不同场景中采集到的图像；

13.根据权利要求12所述的方法，其中，利用所述多任务模型对所述训练图像进行识别，得到所述训练图像的第二识别结果包括：

利用编码网络对所述训练图像进行特征提取，得到所述训练图像的多尺度特征，其中，所述多尺度特征包括：多个不同尺度的特征，所述编码网络由多个尺度不同的第一网络结构连接构成；

利用解码网络对所述多尺度特征进行特征融合，得到第二检测图像和第二分割图像，其中，所述编码网络由多个尺度不同的第二网络结构连接构成，每个第二网络结构与对应的第一网络结构连接；

利用分类器对所述多尺度特征中的最小尺度特征进行分类操作，得到第二分类结果，其中，所述分类器与所述最小尺度特征对应的第一网络结构连接。

14.根据权利要求13所述的方法，其中，基于所述第一识别结果和所述第二识别结果，确定所述多任务模型的模型损失值包括：

基于所述第一检测图像和所述第二检测图像，确定检测损失值；

基于所述第一分割图像和所述第二分割图像，确定分割损失值；

基于所述第一分类结果和所述第二分类结果，确定分类损失值；

15.一种模型训练方法，包括：

获取训练样本，其中，所述训练样本包括：包含身体部位的训练图像，以及所述训练图像对应的第一识别结果，所述第一识别结果用于预测所述身体部位的位置；

利用所述训练样本对多任务模型进行训练，得到部位识别模型，其中，所述多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成。

16.根据权利要求15所述的方法，其中，所述第一识别结果包括：第一检测图像、第一分割图像和第一分类结果，所述第一检测图像包含所述身体部位的关键点信息，所述第一分割图像为所述身体部位所在区域的图像，所述第一分类结果用于表征所述身体部位相对于身体躯干的位置。

17.一种模型训练方法，包括：

通过调用第一接口获取模型训练请求，其中，所述第一接口包含第一参数，所述第一参数的参数值为所述模型训练请求；

通过调用第二接口输出所述部位识别模型，其中，所述第二接口包含第二参数，所述第二参数的参数值为所述部位识别模型。

18.一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的图像处理方法，或权利要求10至17中任意一项所述的模型训练方法。

19.一种计算机终端，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的图像处理方法，或权利要求10至17中任意一项所述的模型训练方法。

20.一种图像处理系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：接收目标图像，其中，所述目标图像包括：目标部位；利用部位识别模型对所述目标图像进行识别，得到所述目标部位的目标识别结果，其中，所述目标识别结果用于预测所述目标部位的位置，所述部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；输出所述目标识别结果。

21.一种模型训练系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：接收模型训练请求；获取所述模型训练请求对应的训练样本和多任务模型，其中，所述训练样本包括：包含身体部位的训练图像，以及所述训练图像对应的第一识别结果，所述第一识别结果用于预测所述身体部位的位置，所述多任务模型由二维卷积模块和多个深度可分离卷积模块连接构成；利用所述训练样本对所述多任务模型进行训练，得到部位识别模型；输出所述部位识别模型。

22.一种服饰匹配方法，包括：

接收目标图像和目标服饰，其中，所述目标图像包括：目标部位；

利用部位识别模型对所述目标图像进行识别，得到所述目标部位的目标识别结果，其中，所述部位识别模型由二维卷积模块和多个深度可分离卷积模块连接构成；

基于所述目标识别结果，生成所述目标服饰对应的虚拟服饰；

利用所述虚拟服饰对所述目标部位进行遮挡处理，生成匹配图像；

输出所述匹配图像。