CN111784845A

CN111784845A - 基于人工智能的虚拟试穿方法、装置、服务器及存储介质

Info

Publication number: CN111784845A
Application number: CN202010537767.3A
Authority: CN
Inventors: 梁小丹; 谢震宇; 董浩业; 吴博文
Original assignee: Tencent Technology Shenzhen Co Ltd; National Sun Yat Sen University
Current assignee: Tencent Technology Shenzhen Co Ltd; National Sun Yat Sen University
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-10-16
Anticipated expiration: 2040-06-12
Also published as: CN111784845B

Abstract

本申请提供了一种基于人工智能的虚拟试穿方法、装置、服务器及存储介质，属于图像处理技术领域。本申请通过获取源衣物图像的至少一个第一关键点和至少一个第二关键点，根据第一关键点在源衣物图像中确定至少两个衣物图像块，实现对衣物图像中不同衣物区域的划分，进而根据第一关键点和第二关键点，分别对至少两个衣物图像块进行变形，可以根据不同衣物区域的变形程度来对衣物进行变形，以使合并得到的变形衣物图像比较符合衣物实际变形情况，再将变形衣物图像与目标人物图像进行融合，即可以得到试穿效果图像，从而可以缩小虚拟试穿效果和实际试穿效果的差距，提高虚拟试穿的效果，进而提高用户体验。

Description

基于人工智能的虚拟试穿方法、装置、服务器及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种基于人工智能的虚拟试穿方法、装置、服务器及存储介质。

背景技术

随着互联网技术的不断发展，网上购物已经成为人们日常生活中十分常用的一种购物方式，但由于消费者在网上购物过程中无法直接接触到实际的商品，因而无法对商品是否符合自己的需求做出准确的判断。例如，对于服装类商品，消费者在线上挑选衣物时，常常会因为无法得知衣物的上身效果而犹豫，因此，亟需一种虚拟试穿方法，使消费者在网上销售阶段就可以直接得知衣物上身效果，提升消费者的购物体验。

目前主要是采用基于人工智能的方法，通过保留衣物图像特征的虚拟试穿网络(Toward Characteristic Preserving Image-based Virtual Try-on Network，CP-VTON)的几何匹配模块，使用两个编码器分别对人体特征图和示例衣物图进行编码，得到两个编码特征，基于这两个编码特征确定出对示例衣物图进行薄板样条函数插值(Thin PlateSpline，TPS)变换所需的参数，再根据该参数对示例衣物图进行TPS变换，得到变形衣物图，进而通过虚拟试穿模块，将人体特征图和变形衣物图经过编码器和解码器进行融合，得到一个粗糙的虚拟试穿结果以及一张衣物融合掩膜(Mask)。最后，使用衣物融合掩膜对变形衣物图进行处理，再将处理后的结果与粗糙虚拟试穿结果融合在一起，得到完整的虚拟试穿结果。

在上述实现过程中，由于衣物的实际变形是一种非刚性变形，在衣物实际变形的过程中，不同衣物区域的变形程度可能有所不同，因而可能出现变形衣物图与衣物的实际变形情况相差较大的情况，从而导致虚拟试穿效果和实际试穿效果差距较大，试穿效果较差，影响用户体验。

发明内容

本申请实施例提供了一种基于人工智能的虚拟试穿方法、装置、服务器及存储介质，可以缩小虚拟试穿效果和实际试穿效果的差距，提高虚拟试穿的效果，进而提高用户体验。该技术方案如下：

一方面，提供了一种基于人工智能的虚拟试穿方法，该方法包括：

获取源衣物图像的至少一个第一关键点和至少一个第二关键点，该至少一个第一关键点用于标识衣物边缘的源位置，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置；

根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块；

根据该至少一个第一关键点和至少一个第二关键点，分别对该至少两个衣物图像块进行变形，得到至少两个变形衣物图像块；

对该至少两个变形衣物图像块进行合并，得到变形衣物图像；

将该变形衣物图像与该目标人物图像融合，得到试穿效果图像。

一方面，提供了一种基于人工智能的虚拟试穿装置，该装置包括：

获取模块，用于获取源衣物图像的至少一个第一关键点和至少一个第二关键点，该至少一个第一关键点用于标识衣物边缘的源位置，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置；

确定模块，用于根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块；

变形模块，用于根据该至少一个第一关键点和至少一个第二关键点，分别对该至少两个衣物图像块进行变形，得到至少两个变形衣物图像块；

合并模块，用于对该至少两个变形衣物图像块进行合并，得到变形衣物图像；

融合模块，用于将该变形衣物图像与该目标人物图像融合，得到试穿效果图像。

在一种可能的实现方式中，该融合模块包括：确定单元和融合单元；

该确定单元，用于基于该目标人物图像、该变形衣物图像，通过神经网络模型，确定中间试穿效果图像和衣物融合掩膜，该中间试穿效果图像为不包括衣物细节的试穿效果图像，该衣物融合掩膜用于表示该变形衣物图像的位置；

该融合单元，用于根据该衣物融合掩膜，将该中间试穿效果图像和该变形衣物图像进行融合，得到该试穿效果图像。

在一种可能的实现方式中，该确定单元，用于根据该目标人物图像，提取目标人物的语义分割图像，根据该语义分割图像构造人体形状掩膜，根据该目标人物姿势，获取人物姿势关键点，将该第一目标人物图像、该人物姿势关键点、该人体形状掩膜和该变形衣物图像输入至该神经网络模型，输出该中间试穿效果图像和该衣物融合掩膜。

在一种可能的实现方式中，该融合单元，用于对该衣物融合掩膜和该中间试穿效果图像进行卷积，得到第一卷积结果图像，基于该衣物融合掩膜，确定目标形状掩膜，将该目标形状掩膜和该变形衣物图像进行卷积，得到第二卷积结果图像，该目标形状掩膜用于指示除该变形衣物图像所覆盖部位外的人体部位的位置，对该第一卷积结果图像和该第二卷积结果图像进行叠加，得到该试穿效果图像。

一方面，提供了一种服务器，该服务器包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该程序代码由该一个或多个处理器加载并执行以实现该基于人工智能的虚拟试穿方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该程序代码由处理器加载并执行以实现该基于人工智能的虚拟试穿方法所执行的操作。

一方面，提供了一种计算机程序产品，该计算机程序产品包括程序代码，该程序代码存储在计算机可读存储介质中。服务器的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，使得该服务器执行上述基于人工智能的虚拟试穿所执行的操作。

本申请提供的方案，通过获取源衣物图像用于标识衣物边缘的源位置的至少一个第一关键点，以及基于目标人物图像对衣物进行变形后的至少一个第一关键点的目标位置的至少一个第二关键点，根据至少一个第一关键点，在源衣物图像中确定至少两个衣物图像块，实现对衣物图像中不同衣物区域的划分，进而根据至少一个第一关键点和至少一个第二关键点，分别对至少两个衣物图像块进行变形，可以根据不同衣物区域的变形程度来对衣物进行变形，再对变形得到的至少两个变形衣物图像块进行合并，得到变形衣物图像，以使得到的变形衣物图像比较符合衣物实际变形情况，进而将变形衣物图像与目标人物图像进行融合，得到试穿效果图像，从而可以缩小虚拟试穿效果和实际试穿效果的差距，提高虚拟试穿的效果，进而提高用户体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于人工智能的虚拟试穿方法的实施环境示意图；

图2是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图；

图3是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图；

图4是本申请实施例提供的一种多级姿态网络的网络结构示意图；

图5是本申请实施例提供的4种衣物的第一关键点和第二关键点的位置示意图；

图6是本申请实施例提供的一种变形衣物图像块的结果示意图；

图7是本申请实施例提供的一种基于人工智能的虚拟试穿方法的技术流程图；

图8是本申请实施例提供的一种衣物试穿效果图像的示意图；

图9是本申请实施例提供的一种衣物试穿效果图像的示意图；

图10是本申请实施例提供的一种各种虚拟试穿方法的试穿效果图像的示意图；

图11是本申请实施例提供的一种各种虚拟试穿方法的变形衣物图像的示意图；

图12是本申请实施例提供的一种基于人工智能的虚拟试穿方法的试穿效果图像的示意图；

图13是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图；

图14是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图；

图15是本申请实施例提供的一种基于人工智能的虚拟试穿装置的结构图；

图16是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维(Three-Dimensional，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

所谓人工智能云服务，一般也被称作是人工智能即服务(ArtificialIntelligence as a Service，AIaaS)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的人工智能(Artificial Intelligence，AI)服务进行拆分，并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城：所有的开发者都可以通过应用程序编程接口(Application Programming Interface，API)的方式来接入使用平台提供的一种或者是多种人工智能服务，部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能服务的图像处理，例如，人工智能云服务的图像处理等技术，具体通过如下实施例进行说明：

图1是本申请实施例提供的一种基于人工智能的虚拟试穿方法的实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端101中可以设有客户端，该客户端可以是视频客户端、浏览器客户端、线上购物客户端、即时通信客户端等，本申请对客户端的类型不加以限定。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。终端101可以接收服务器102发送的源衣物图像，并在可视化界面上对源衣物图像进行展示，终端101还可以在每个源衣物图像处设置对应的试穿按钮，以提供试穿功能。用户可以对源衣物图像进行浏览，通过触发任一个源衣物图像对应的试穿按钮，来触发对该源衣物图像的试穿指令，终端可以响应于该试穿指令，通过图像采集器件来获取目标人物图像，该图像采集器件可以内置于终端101中，还可以外接于终端101，本申请对此不加以限定。终端101可以将该试穿指令和采集到的目标人物图像均发送给服务器102，并接收服务器102返回的试穿效果图像，进而将该试穿效果图像展示在可视化界面上，以便用户了解衣物的上身效果。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端的数量和设备类型不加以限定。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102以及终端101可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。服务器102可以维护有一个源衣物图像数据库，用于存储多个源衣物图像。服务器102可以接收终端101发送的试穿指令和目标人物图像，并根据该试穿指令，从源衣物图像数据库中获取该试穿指令对应的源衣物图像，并基于该源衣物图像和目标人物图像，生成试穿效果图像，进而将该试穿效果图像发送给终端101。可选地，上述服务器的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

图2是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图，参见图2，该方法包括：

201、服务器获取源衣物图像的至少一个第一关键点和至少一个第二关键点，该至少一个第一关键点用于标识衣物边缘的源位置，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置。

需要说明的是，该源衣物图像中可以包括待试穿衣物和背景部分，该目标人物图像中可以包括要试穿衣物的目标人物，该目标人物图像中的目标人物可以有多种姿势，如叉腰、双手自然下垂等，本申请实施例对此不加以限定。

通过确定源衣物图像中的第一关键点和第二关键点，服务器可以基于第一关键点的位置，从源衣物图像的待试穿衣物中确定出多个衣物图像块，进而可以基于各个衣物图像块对应的第一关键点和第二关键点，来对源衣物图像进行变形，从而可以缩小变形衣物图像和衣物实际变形结果的差距，提高虚拟试穿的效果。

202、服务器根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块。

需要说明的是，服务器在根据至少一个第一关键点在源衣物图像的待试穿衣物中确定衣物图像块时，仅考虑源衣物图像中的衣物区域，无需考虑背景部分，从而可以减小服务器的处理压力，提高虚拟试穿的速度。

203、服务器根据该至少一个第一关键点和至少一个第二关键点，分别对该至少两个衣物图像块进行变形，得到至少两个变形衣物图像块。

需要说明的是，通过基于各个衣物图像块对应的第一关键点和第二关键点，分别对各个衣物图像块进行变形，可以保证各个衣物图像块的变形结果与实际变形结果更加接近，从而可以缩小变形衣物图像和衣物实际变形结果的差距，提高虚拟试穿的效果。

204、服务器对该至少两个变形衣物图像块进行合并，得到变形衣物图像。

需要说明的是，通过将至少两个变形衣物图像块合并得到的变形衣物图像，与衣物实际变形结果较为接近，从而可以提高虚拟试穿的效果，提高用户体验。

205、服务器将该变形衣物图像与该目标人物图像融合，得到试穿效果图像。

需要说明的是，将变形衣物图像与目标人物图像融合，也即是，将变形衣物图像中的衣物，覆盖在目标人物图像中该衣物对应的身体部位上，得到试穿效果图像，该试穿效果图像中包括身着变形后的源衣物的目标人物，以便用户直接根据该试穿效果图像，即可获知自己穿上该衣物的效果，提高用户体验。

本申请实施例提供的方案，通过根据不同衣物区域的变形程度，在各个衣物图像块对衣物进行变形，可以得到比较符合衣物实际变形情况的变形衣物图像，进而使得基于变形衣物图像与目标人物图像融合得到的试穿效果图像，与实际试穿效果较为接近，缩小了虚拟试穿效果和实际试穿效果的差距，提高了虚拟试穿的效果，进而提高了用户体验。

图3是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图，参见图3，该方法包括：

301、终端响应于用户触发的试穿指令，采集目标人物图像。

需要说明的是，终端可以在可视化界面上，对多种衣物进行展示，以便用户对各种衣物进行浏览，进而可以通过相应的操作从中选择自己喜欢的衣物来进行试穿。在一种可能的实现方式中，用户可以在终端的可视化界面上，选择自己想要试穿的衣物，进而可以触发该衣物对应的试穿按钮，来触发试穿指令，终端可以响应于该试穿指令，通过图像采集器件来采集目标人物图像。

需要说明的是，上述过程是以终端响应于试穿指令来对目标人物图像进行采集为例来说明的，在一些可能的实现方式中，用户可以在终端上事先录入自己的样貌、体态信息，终端可以基于用户录入的样貌、体态信息，生成目标人物图像，无需通过图像采集器件进行采集。在一些可能的实现方式中，终端还可以直接将用户录入的样貌、体态信息发送给服务器，由服务器基于接收到的样貌、体态信息来生成目标人物图像，本申请实施例对此不加以限定。

302、终端向服务器发送试穿指令，该试穿指令携带目标人物图像和待试穿衣物的衣物标识。

需要说明的是，终端可以向服务器发送携带目标人物图像和待试穿衣物的衣物标识的试穿指令，以便服务器根据待试穿衣物的衣物标识，在源衣物图像数据库中进行查询，获取该衣物标识对应的源衣物图像，进而基于源衣物图像和目标人物图像进行后续处理。在一些可能的实现方式中，若终端不进行目标人物图像的采集，而是通过服务器来生成目标人物图像，则在终端向服务器发送的试穿指令中，还可以携带目标人物的样貌、体态信息和待试穿衣物的衣物标识，以便服务器根据待试穿衣物的衣物标识，从源衣物图像数据库中获取该衣物标识对应的源衣物图像，并基于目标人物的样貌、体态信息，生成目标人物图像，进而基于源衣物图像和目标人物图像进行后续处理，本申请实施例对此不加以限定。

303、服务器响应于该试穿指令，通过衣物关键点检测器，提取衣物标识对应的源衣物图像的至少一个关键点，作为至少一个第一关键点，该至少一个第一关键点用于标识衣物边缘的源位置。

其中，该衣物关键点检测器可以为预先训练好的多级姿态网络(Multi-StagePose Network，MSPN)，MSPN的结构可以参见图4，图4是本申请实施例提供的一种多级姿态网络的网络结构示意图，由图4可以看出，MSPN中包含两个模块，每个模块都是U形网络，每个U形网络中均包括4个上采样层和4个下采样层。

基于上述示例的MSPN，服务器可以将源衣物图像输入至MSPN，通过MSPN中各个模块的上采样层和下采样层，提取出多个特征，并基于这多个特征，确定出源衣物图像的至少一个关键点。具体地，以图4所示的MSPN的结构为例，服务器可以将该源衣物图像输入至模块401的第一个上采样层411，获取源衣物图像的上采样特征1，并将该上采样特征1输入至模块401的第一个下采样层412和第二个上采样层413以及模块402的第一个上采样层421，第一个模块的下采样层412基于该上采样特征和模块401的第二个下采样层414采样得到的下采样特征2继续进行采样，得到下采样特征1，并将该下采样特征1输入模块402的第一个上采样层421，模块402的第一个上采样层421基于上采样特征1和下采样特征1继续进行采样，得到上采样特征2，并将该上采样特征2输入模块402的第一个下采样层422，模块402的第一个下采样层422基于上采样特征2继续进行采样，得到下采样特征2，作为第一采样特征，以此类推，通过模块401的第二个上采样层413和第二个下采样层414以及模块102的第二个上采样板423和第二个下采样层424，得到第二采样特征，通过模块401的第三个上采样层415和第三个下采样层416以及模块402的第三个上采样板425和第三个下采样层426，得到第三采样特征，通过模块401的第四个上采样层417和第四个下采样层418以及模块402的第四个上采样板427和第四个下采样层428，得到第四采样特征，进而基于第一采样特征、第二采样特征、第三采样特征和第四采样特征，确定出源衣物图像的至少一个关键点。通过将前一个模块的上采样层和下采样层采样得到的特征输入下一个模块的上采样层这种跨级特征聚合的策略，可以将相同尺度的图像特征聚合在一起，有效减少U形网络重复进行上采样、下采样操作导致的信息丢失，提高关键点确定的准确性。

在MSPN中，以衣物关键点的格式遵循服饰数据集(Deepfashion2)中的格式为例，在Deepfashion2数据集中，衣物可以被分为13种，其中较为常见的有4种，分别是短袖上衣、长袖上衣、背心和吊带。参见图5，图5是本申请实施例提供的4种衣物的第一关键点和第二关键点的位置示意图，由图5中的源衣物图像501至源衣物图像504可以看出，图像501中的短袖上衣包含25个关键点，图像502中的长袖上衣包含33个关键点，图像503中的背心和图像504中的吊带分别包含15个关键点。

需要说明的是，由于通过衣物关键点检测器在源衣物图像中确定出的多个第一关键点已经足够稠密，因而后续过程中可以直接连接属于同一个衣物区域的第一关键点，来实现衣物图像块的确定，提高处理效率。

304、服务器通过衣物关键点预测器，预测基于目标人物图像对源衣物图像变形后的该源衣物图像的至少一个关键点，作为该至少一个第二关键点，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置。

需要说明的是，该衣物关键点预测器也可以为预先训练好的MSPN，MSPN的具体结构可以参见步骤301，此处不再赘述。该衣物关键点预测器可以通过输入其中的目标人物图像、目标人物姿势和源衣物图像，来预测基于目标人物图像对源衣物图像变形后的该源衣物图像的至少一个关键点。

在一种可能的实现方式中，服务器可以从该目标人物图像中获取对应的第一目标人物图像，以试穿衣物为上衣为例，该第一目标人物图像为包括头部和人体下半身的图像，服务器还可以根据该目标人物图像，确定目标人物姿势，进而将该第一目标人物图像、该目标人物姿势和该源衣物图像输入该衣物关键点预测器，通过该衣物关键点预测器，确定基于该目标人物图像对源衣物图像变形后的该源衣物图像的关键点。

其中，在从该目标人物图像中获取对应的第一目标人物图像时，服务器可以使用通过基于图卷积的通用人类解析算法(Universal Human Parsing Via Graph TransferLearning)，来获取该目标人物图像对应的人体语义分割图，该人体语义分割图中可以包括各个人体部位的类别标签，服务器可以根据各个人体部位的类别标签，从目标人物图像中获取包括头部和人体下半身的图像，作为第一目标人物图像。例如，若源衣物为上衣，则服务器可以根据各个人体部位的类别标签，从目标人物图像中获取包括人的头部的下半身的图像，作为第一目标图像。通过获取不包括源衣物对应的人体部位的图像，可以避免目标人物的原有衣物对第二关键点的获取造成影响，提高确定出的第二关键点的准确性。此外，在根据该目标人物图像，确定目标人物姿势时，服务器可以通过使用零件相似性场的实时多人二维姿态估计(Realtime Multi-person 2D Pose Estimation Using Part AffinityFields)算法，来进行目标人物姿势的确定。通过进行目标人物姿势的确定，可以在排除原有衣物影响的基础上，获取到目标人物图像中的人物姿势，进而可以保证确定出的第二关键点的准确性。可选地，上述过程均可以采用其他算法，本申请实施例对此不加以限定。

需要说明的是，仍以衣物关键点的格式遵循Deepfashion2数据集中的格式为例，基于目标人物图像对源衣物图像501至源衣物图像504变形后的结果参见图5，图像505、图像506、图像507、图像508中分别展示了短袖上衣、长袖上衣、背心和吊带基于对应的目标人物图像变形后得到的第二关键点的位置。

305、服务器根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块。

在一种可能的实现方式中，服务器可以根据至少一个第一关键点的位置，将属于一个衣物区域的第一关键点连接起来，得到该衣物区域对应的衣物图像块的边缘，进而在源衣物图像中确定出至少两个衣物图像块，实现对源衣物图像的分块。

其中，对于不同的衣物种类，可以采用不同的分块策略，也即是，服务器可以对源衣物图像的衣物种类进行检测，并根据检测出的衣物种类，确定分块策略，进而根据分块策略，在源衣物图像中确定出至少两个衣物图像块。例如，若源衣物图像为第一衣物种类，则基于第一衣物种类对应的分块策略，将源衣物图像分为三个衣物图像块，该三个衣物图像块分别为一个衣物主体和两个衣物附加部分。例如，对于源衣物图像为短袖上衣图像和长袖上衣图像的情况，均可以将每个图像分为三个衣物图像块，三个衣物图像块中分别包括一个袖子、衣物躯干区域和另一个袖子。若源衣物为背心和吊带，由于背心和吊带仅包括衣物躯干区域，因而对于背心和吊带，可以不对图像进行分块。

在一些可能的实现方式中，还可以利用人体语义解析器(Human Parsing)或人体稠密姿态关键点(Densepose)来进行衣物图像块的确定，本申请实施例对此不加以限定。

306、对于该至少两个衣物图像块中任一个衣物图像块，服务器确定该衣物图像块中第一关键点的移动参数，该移动参数为将该第一关键点转移到对应的第二关键点所需的参数。

在一种可能的实现方式中，服务器可以在各个衣物图像块中，确定该衣物图像块中第一关键点移动到对应的第二关键点所需的移动参数。例如，服务器可以基于各个衣物图像块中的第一关键点和第二关键点，拟合利用TPS方法将第一关键点转移到第二关键点所需的参数。通过确定各个衣物图像块对应的移动参数，进而可以基于各个衣物图像块对应的移动参数，分别对各个衣物图像块进行变形，保证各个衣物区域的衣物变形效果与实际的衣物变形效果更加接近，从而缩小虚拟试穿效果和实际试穿效果的差距，提高虚拟试穿的效果，进而提高用户体验。

307、服务器根据该至少两个衣物图像块的移动参数，对该至少两个衣物图像块分别进行变形，得到至少两个变形衣物图像块。

在一种可能的实现方式中，对于该至少两个衣物图像块中的任一个衣物图像块，服务器可以根据该衣物图像块对应的移动参数，将该衣物图像块中的各个第一关键点移动到对应的第二关键点处，实现对该衣物图像块的变形，其他衣物图像块的处理与之同理，此处不再赘述，进而得到至少两个变形衣物图像块。参见图6，图6是本申请实施例提供的一种变形衣物图像块的结果示意图，对于源衣物图像601对应的三个衣物图像块602、604和606，根据衣物图像块602对应的移动参数，对衣物图像块602进行变形，即可得到变形衣物图像块603，同理，根据衣物图像块604对应的移动参数，对衣物图像块604进行变形，即可得到变形衣物图像块605，根据衣物图像块606对应的移动参数，对衣物图像块606进行变形，即可得到变形衣物图像块607。

需要说明的是，服务器可以逐个对衣物图像块进行处理，还可以并行对多个衣物图像块进行处理，本申请实施例对此不加以限定。

308、服务器对该至少两个变形衣物图像块进行合并，得到变形衣物图像。

需要说明的是，由于位于不同衣物图像块交界处连线上的第一关键点，根据不同的移动参数进行处理后，得到的第二关键点的位置可能存在不同，在对至少两个衣物图像块进行合并时，可以对相邻衣物图像块间的缝隙区域进行处理，进而将不同衣物图像块对应的变形衣物图像块通过处理后的缝隙区域拼接在一起，避免在相邻变形衣物图像块的拼接处产生缝隙，提高拼接后的变形衣物图像效果。

在一种可能的实现方式中，服务器确定目标衣物图像块对应的变形衣物图像块，与相邻的衣物图像块对应的变形衣物图像块之间的缝隙区域，该目标衣物图像块为包括衣物躯干区域的图像块，按照该目标衣物图像块对应的移动参数，对该源衣物图像进行变形，从变形后的源衣物图像中获取变形后的缝隙区域，将该目标衣物图像块对应的变形衣物图像块、变形后的缝隙区域和该相邻的衣物图像块对应的变形衣物图像块进行拼接，得到该变形衣物图像。例如，对于衣物躯干区域的图像块和相邻的袖子区域的图像块，服务器可以根据衣物躯干区域变形后的图像块和袖子区域变形后的图像块交接处连线上的第一关键点对应的两组第二关键点，确定出缝隙区域，再基于衣物躯干区域的图像块的移动参数，来对整个源衣物图像进行变形，得到变形后的源衣物图像，从变形后的源衣物图像中取出变形后的缝隙区域，进而可以将衣物躯干区域变形后的图像块、变形后的缝隙区域和袖子区域变形的图像块拼接在一起，得到变形衣物图像。

需要说明的是，衣物变形结果中衣物躯干区域及其附近区域变形的准确性较高，通过按照目标衣物图像块对应的移动参数，对整个衣物进行变形后再从中取出变形后的缝隙区域，可以保证缝隙区域可以与目标衣物区域和相邻的衣物图像块对应的变形衣物图像块之间平滑的拼接在一起，而且基于目标衣物图像块对应的移动参数对缝隙区域进行变形，可以保证缝隙区域的变形结果更加接近实际变形结果，从而缩小虚拟试穿效果和实际试穿效果的差距，提高虚拟试穿的效果，进而提高用户体验。可选地，还可以按照衣物躯干区域，也即是，目标衣物图像块对应的移动参数，对缝隙区域进行变形，得到变形后的缝隙区域，进而可以将变形后的缝隙区域与目标衣物区域对应的变形衣物图像块和相邻的衣物图像块对应的变形衣物图像块拼接在一起，即可得到没有缝隙的变形衣物图像，本申请实施例对具体采用哪种方式不加以限定。通过直接按照目标衣物图像块对应的移动参数，对缝隙区域进行变形，可以减少服务器的处理压力，提高虚拟试穿的速度。

309、服务器基于该目标人物图像、该变形衣物图像，通过神经网络模型，确定中间试穿效果图像和衣物融合掩膜，该中间试穿效果图像为不包括衣物细节的试穿效果图像，该衣物融合掩膜用于表示该变形衣物图像的位置。

在一种可能的实现方式中，服务器可以根据该目标人物图像，提取目标人物的语义分割图像，根据该语义分割图像构造人体形状掩膜，根据该目标人物姿势，获取人物姿势关键点，将该第一目标人物图像、该人物姿势关键点、该人体形状掩膜和该变形衣物图像输入至该神经网络模型，输出该中间试穿效果图像和该衣物融合掩膜。

其中，由于第一目标人物图像中包括头部和人体下半身，而不包括源衣物对应的身体部位及颈部等，因而第一目标人物图像在处理过程中不会发生变化，可以直接将步骤304中获取到的第一目标人物图像作为神经网络模型的一个输入。在获取人物姿势关键点时，可以通过身体跟踪系统(OpenPose)人体姿态估计器，来进行人物姿势关键点的获取，可选地，还可以采用其他方式来进行人体姿势关键点的获取，本申请实施例对此不加限定。在构造人体形状掩膜时，可以通过与步骤302中同理的方式来从目标人物图像中提取目标人物的语义分割图像，进而根据语义分割图像来进行人体形状掩膜的构造。具体地，在构造人体形状掩膜之前，服务器可以将该语义分割图像先缩小预设倍数，再放大至原有尺寸，进而基于缩小再放大后的语义分割图像来进行人体形状掩膜的构造。该预设倍数可以为任意整数值，本申请实施例对此不加以限定，例如，该预设倍数可以为8倍。通过该语义分割图像先缩小预设倍数，再放大至原有尺寸，可以实现对该语义分割像的模糊化处理，进而可以避免目标人物的原有衣物的影响，提高人体形状掩膜构造的准确性。

需要说明的是，该神经网络模型可以用于基于目标人物图像和变形衣物图像进行融合，得到一个粗糙的中间试穿效果图像和衣物融合掩膜。该神经网络模型可以为U形(U-Net)卷积神经网络。可选地，该神经网络模型还可以为其他类型的网络，本申请实施例对此不加以限定。以该神经网络模型为U-Net卷积神经网络为例来进行说明，该神经网络模型中可以包括特征提取层、卷积层和池化层。该神经网络模型可以基于下述训练过程训练得到：服务器可以获取多个样本目标人物图像、多个样本变形衣物图像、多个样本中间试穿效果图像和多个样本衣物融合掩膜，将多个样本目标人物图像、多个样本变形衣物图像逐对输入神经网络模型，通过神经网络模型的特征提取层分别提取目标人物图像和变形衣物图像的特征图，通过神经网络模型的卷积层，基于提取出的两个特征图进行卷积处理，得到两个卷积特征，进而通过神经网络模型的池化层，基于这两个卷积特征，得到中间试穿效果图像和衣物融合掩膜，根据获取到的样本中间试穿效果图像和样本衣物融合掩膜以及模型处理得到的中间试穿效果图像和衣物融合掩膜，确定神经网络模型的损失函数值，根据该损失函数值，通过梯度下降法，对该神经网络模型的参数进行调整，再继续对下一对样本中间试穿效果图像和样本衣物融合掩膜进行相同的处理，直至调整后的神经网络模型满足预设条件，则将满足预设条件的神经网络模型作为训练好的神经网络模型。

其中，该损失函数可以为试穿效果损失函数、感知损失函数和融合掩膜损失函数的加权和，该试穿效果损失函数和融合掩膜损失函数均可以为第一范式损失函数，可选地，该试穿效果损失函数和融合掩膜损失函数还可以为其他类型的损失函数，本申请实施例对此不加以限定。以该试穿效果损失函数和融合掩膜损失函数均为第一范式损失函数为例，试穿效果损失函数用于计算样本中间试穿效果图像和模型处理得到的中间试穿效果图像的一阶范数距离，感知损失函数用于度量样本中间试穿效果图像和模型处理得到的中间试穿效果图像在特征空间的一阶范式距离，融合掩膜损失函数用于计算样本衣物融合掩模和模型处理得到的衣物融合掩模的一阶范数距离。在进行感知损失函数的确定时，可以采用19层视觉几何组(Visual Geometry Group19，VGG19)的特征提取器，来分别提取样本中间试穿效果图像和模型处理得到的中间试穿效果图像的特征图，进而基于提取出的特征图来进行感知损失函数的确定，该感知损失函数可以用如下公式(1)表示：

其中，L_p(I，I_f)可以表示感知损失函数，φ_k(I)可以表示VGG19网络提取的第k层特征图，k可以为大于等于0且小于等于5的任意整数值，φ_k(I_f)可以表示样本中间试穿效果图像的第k层特征图，则该损失函数可以用如下公式(2)表示：

L＝||I-I_c||₁+L_p(I，I_f)+λ||M-M_w||₁ (2)

其中，L可以表示损失函数，I可以表示样本中间试穿效果图像，I_f可以表示模型处理得到的中间试穿效果图像，M可以表示样本衣物融合掩膜，M_w可以表示模型处理得到的衣物融合掩模，λ可以表示权重值，λ可以为任意取值，本申请实施例对此不加以限定，例如，λ可以取5.0。

此外，该预设条件可以为模型处理结果的准确性满足迭代截止条件，还可以为损失函数值满足迭代截止条件，还可以为迭代次数达到预设次数，本申请实施例对具体采用哪种预设条件不加以限定。

310、服务器根据该衣物融合掩膜，将该中间试穿效果图像和该变形衣物图像进行融合，得到试穿效果图像。

在一种可能的实现方式中，服务器可以对该衣物融合掩膜和该中间试穿效果图像进行卷积，得到第一卷积结果图像，基于该衣物融合掩膜，确定目标形状掩膜，将该目标形状掩膜和该变形衣物图像进行卷积，得到第二卷积结果图像，该目标形状掩膜用于指示除该变形衣物图像所覆盖部位外的人体部位的位置，对该第一卷积结果图像和该第二卷积结果图像进行叠加，得到该试穿效果图像。

需要说明的是，上述过程可以采用如下公式(3)表示：

其中，I_f可以表示试穿效果图像，M可以表示衣物融合掩膜，I_c可以表示中间试穿效果图像，

可以表示变形衣物图像。

需要说明的是，上述步骤303至步骤310的过程可以参见图6，图6是本申请实施例提供的一种基于人工智能的虚拟试穿方法的技术流程图，服务器可以通过步骤303，基于源衣物图像701提取第一关键点，得到包含第一关键点的图像702，并通过步骤304，基于第一目标人物图像703、目标人物姿势704和源衣物图像701预测第二关键点，得到包含第二关键点的图像705，进而通过步骤305，基于包含第一关键点的图像702，从区分标注的源衣物图像706中确定出衣物图像块707、708和709，通过步骤306至步骤307，对衣物图像块707、708和709分别通过薄板样条函数插值进行变形，得到变形衣物图像块710、711和712，通过步骤308，基于变形衣物图像块710、711和712拼接得到变形衣物图像713，进而通过步骤309，基于第一目标人物图像703、变形衣物图像713、人体形状掩膜714和目标人物姿势704，通过神经网络模型，得到中间试穿效果图像715和衣物融合掩膜716，最终通过步骤310得到试穿效果图像717。

311、服务器将该试穿效果图像发送给终端。

312、终端接收服务器发送的该试穿效果图像，对该试穿效果图像进行显示。

其中，终端在接收到服务器发送的试穿效果图像后，可以在可视化界面上对接收到的试穿效果图像进行显示，以便用户可以获知衣物的上身效果，参见图8和图9，图8和图9均是本申请实施例提供的一种衣物试穿效果图像的示意图，801为翻脚格子高腰宽松休闲裤的衣物试穿效果图像，901为百搭背带连衣裙女中长款的衣物试穿效果图像。

通过对不同数据集的图像进行处理，得到了验证本申请实施例提供的方案的效果的实验数据，下面将对实验数据进行介绍：

对于维顿(Viton)数据集，该数据集包含16235对图像，每对图像包含一张人物图像以及人物图像上的衣物图像。图像分辨率为256*192，本申请将这16235对图像分为训练集和测试集，训练集和测试集中分别包含14221对图像和2032对图像。在测试试穿效果阶段，本申请随机选取人物图像以及衣物图像进行组合以模拟真实的试穿场景，这种随机的选择可以反映本申请的通用性。参见图10，图10是本申请实施例提供的一种各种虚拟试穿方法的试穿效果图像的示意图，该图中展示了本申请以及基于图像的虚拟试穿网络(AnImage-Based Virtual Try-On Network，VITON)，保留衣物图像特征的虚拟试穿网络(Toward Characteristic Preserving Image-Based Virtual Try-On Network，CP-VTON)在Viton数据集上的可视化结果，图像1001至图像1008为源衣服图像，图像1009至图像1016为目标人物图像，图像1017至图像1024为VITON的试穿效果图像、图像1025至图像1032为CP-VTON的试穿效果图像，图像1033至图像1040为本申请的试穿效果图像，从图中可以看出本申请的结果清晰度较高并成功解决了自我遮挡的问题。参见图11，图11是本申请实施例提供的一种各种虚拟试穿方法的变形衣物图像的示意图，该图中展示了本申请以及VITON，CP-VTON在Viton数据集上对衣物进行变形后的效果的可视化结果，图像1101至图像1103为源衣服图像，图像1104至图像1106为目标人物图像，图像1107至图像1109为VITON的试穿效果图像、图像1110至图像1112为CP-VTON的试穿效果图像，图像1113至图像1115为本申请的试穿效果图像，从图中可以看出本申请对衣物变形更好的处理了领口处的情况，以及头发对衣物遮挡的问题。初始分数(Inception Score，IS)是一种常用于生成模型的客观评价指标，IS越高说明效果越好，利用IS来为本分明以及VITON，CP-VTON在Viton数据集的结果进行评价，评价结果如下表1所示：

表1

方法	初始分数
		基于图像的虚拟试穿网络	2.514±0.130
保留衣物图像特征的虚拟试穿网络	2.727±0.126
		本申请	2.885±0.130

从表1中可以看出本申请所提出的方法IS最高，也即是，本申请所提出的方法效果最好。对于图像合成来说，仅使用客观评价是不够的，因为IS这类评价指标也不一定足够科学，所以用户调查对于评价图像合成方法来说是十分必要的。从测试集中随机挑选100个图像对，分别用不同的虚拟试穿算法生成虚拟试穿结果，向相关购物平台的工作人员提供100个人物图像和衣服图像的图像对，然后要求工作人员从两种方法合成的虚拟试穿结果中挑选衣服变形更自然，虚拟试穿效果更逼真的试穿结果，为了使评价结果更公正，每组图像对会有5个工人给出评判结果。当在比较两种方法优劣时，将所有的问卷放在一起计算每种方法所获得的支持的比例，这个比例作为这个方法在人工评估中的得分，最终用户调查评价结果如下表2所示：

表2

方法对	用户调查评价结果
		本申请vs基于图像的虚拟试穿网络	0.683vs 0.317
本申请vs保留衣物图像特征的虚拟试穿网络	0.734vs 0.266

从表2中可以看出本申请的用户调查评价结果优于VITON以及CP-VTON。

为了验证本申请对于高分辨率图像试穿的有效性，本申请也在MPV-HD数据集上进行了相关实验，MPV-HD数据集中图像分辨率为512*320。本申请在MPV-HD数据集上的结果可以参见图12，图12是本申请实施例提供的一种基于人工智能的虚拟试穿方法的试穿效果图像的示意图，图像1201至图像1203为源衣物图像，图像1204至图像1207为目标人物图像，图像1208至图像1211为图像1201中的源衣物的试穿效果示意图，图像1212至图像1215为图像1201中的源衣物的试穿效果示意图，图像1216至图像1219为图像1203中的源衣物的试穿效果示意图，从该图中可以看出本申请提出的方法在高分辨的情况下仍然表现正常。

通过上述实验数据可以看出，本申请实施例提供的方案，可以有效对衣物自我遮挡、目标人物姿势复杂以及衣服纹理精细的情况下的衣物进行变形，并且变形结果的准确性较高。

需要说明的是，上述过程仅以通过终端与服务器之间进行交互，来共同实现虚拟试穿为例来进行说明的，在一些可能的实现方式中，服务器还可以将预先训练好的衣物关键点检测器、衣物关键点预测器以及神经网络模型等下发给终端，由终端自己通过服务器下发的衣物关键点检测器、衣物关键点预测器以及神经网络模型等，来完成试穿效果图像的获取和显示，具体过程与上述步骤301至步骤312同理，此处不再赘述。

本申请实施例提供的方案，通过根据不同衣物区域的变形程度，在各个衣物图像块中分别对衣物进行变形，可以得到比较符合衣物实际变形情况的变形衣物图像，实现衣物的精细变形，进而基于变形衣物图像与目标人物图像进行融合，实现将变形后的目标衣物渲染到目标人物身上，得到试穿效果图像，这样得到的试穿效果图像与实际试穿效果较为接近，缩小了虚拟试穿效果和实际试穿效果的差距，提高了虚拟试穿的效果，进而提高了用户体验。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

本申请提供的方案，可以应用在电子商务、短视频等多种领域中，下面以将本申请提供的方法应用在电子商务领域来进行说明，参见图13，图13是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图，参见图13，该方法包括：

1301、终端响应于用户触发的试穿指令，采集目标人物图像。

需要说明的是，终端可以安装并运行有线上购物客户端，终端可以将线上销售的多种衣物的源衣物图像展示在可视化界面中，当用户在线上购物客户端中挑选衣物时，可以通过相应的操作来对衣物进行试穿。

其中，该步骤的过程与上述步骤301同理，此处不再赘述。

1302、终端向服务器发送试穿指令，该试穿指令携带目标人物图像和待试穿衣物的衣物标识。

需要说明的是，该步骤与上述步骤302同理，此处不再赘述。

1303、服务器响应于该试穿指令，通过衣物关键点检测器，提取衣物标识对应的源衣物图像的至少一个关键点，作为至少一个第一关键点，该至少一个第一关键点用于标识衣物边缘的源位置。

需要说明的是，该步骤与上述步骤303同理，此处不再赘述。

1304、服务器通过衣物关键点预测器，预测基于目标人物图像对源衣物图像变形后的该源衣物图像的至少一个关键点，作为该至少一个第二关键点，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置。

需要说明的是，该步骤与上述步骤304同理，此处不再赘述。

1305、服务器根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块。

需要说明的是，该步骤与上述步骤305同理，此处不再赘述。

1306、对于该至少两个衣物图像块中任一个衣物图像块，服务器确定该衣物图像块中第一关键点的移动参数，该移动参数为将该第一关键点转移到对应的第二关键点所需的参数。

需要说明的是，该步骤与上述步骤306同理，此处不再赘述。

1307、服务器根据该至少两个衣物图像块的移动参数，对该至少两个衣物图像块分别进行变形，得到至少两个变形衣物图像块。

需要说明的是，该步骤与上述步骤307同理，此处不再赘述。

1308、服务器对该至少两个变形衣物图像块进行合并，得到变形衣物图像。

需要说明的是，该步骤与上述步骤308同理，此处不再赘述。

1309、服务器基于该目标人物图像、该变形衣物图像，通过神经网络模型，确定中间试穿效果图像和衣物融合掩膜，该中间试穿效果图像为不包括衣物细节的试穿效果图像，该衣物融合掩膜用于表示该变形衣物图像的位置。

需要说明的是，该步骤与上述步骤309同理，此处不再赘述。

1310、服务器根据该衣物融合掩膜，将该中间试穿效果图像和该变形衣物图像进行融合，得到试穿效果图像。

需要说明的是，该步骤与上述步骤310同理，此处不再赘述。

1311、服务器将该试穿效果图像发送给终端。

1312、终端接收服务器发送的该试穿效果图像，对该试穿效果图像进行显示。

需要说明的是，该步骤与上述步骤312同理，此处不再赘述。

其中，终端还可以在显示试穿效果图像的界面上设置“加入购物车”按钮，用户可以通过触发“加入购物车”按钮，方便的将衣物加入购物车，而无需再提供购买页面的跳转等功能，大大提升人机交互效率以及衣物线上销售的效率，同时也能大大提升消费者的网购体验。

本申请实施例提供的方案，通过根据不同衣物区域的变形程度，在各个衣物图像块中分别对衣物进行变形，可以得到比较符合衣物实际变形情况的变形衣物图像，进而使得基于变形衣物图像与目标人物图像融合得到的试穿效果图像，与实际试穿效果较为接近，缩小了虚拟试穿效果和实际试穿效果的差距，提高了虚拟试穿的效果，使得用户在网上销售阶段就可以较为准确地获知衣物的上身效果，进而可以提升衣物线上销售的效率，提升用户的网购体验。

下面以将本申请提供的方法应用在短视频领域来进行说明，参见图14，图14是本申请实施例提供的一种基于人工智能的虚拟试穿方法的流程图，参见图14，该方法包括：

1401、终端响应于用户触发的试穿指令，采集目标人物图像。

需要说明的是，终端可以安装并运行有短视频客户端，在特殊的节日，终端可以将符合该节日的多种专属节日服装展示展示在可视化界面中，当用户想为自己虚拟穿上专属节日服装时，可以通过相应的操作来对专属节日服装进行试穿。

其中，该步骤的过程与上述步骤301同理，此处不再赘述。

1402、终端向服务器发送试穿指令，该试穿指令携带目标人物图像和待试穿衣物的衣物标识。

需要说明的是，该步骤与上述步骤302同理，此处不再赘述。

1403、服务器响应于该试穿指令，通过衣物关键点检测器，提取衣物标识对应的源衣物图像的至少一个关键点，作为至少一个第一关键点，该至少一个第一关键点用于标识衣物边缘的源位置。

需要说明的是，该步骤与上述步骤303同理，此处不再赘述。

1404、服务器通过衣物关键点预测器，预测基于目标人物图像对源衣物图像变形后的该源衣物图像的至少一个关键点，作为该至少一个第二关键点，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置。

需要说明的是，该步骤与上述步骤304同理，此处不再赘述。

1405、服务器根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块。

需要说明的是，该步骤与上述步骤305同理，此处不再赘述。

1406、对于该至少两个衣物图像块中任一个衣物图像块，服务器确定该衣物图像块中第一关键点的移动参数，该移动参数为将该第一关键点转移到对应的第二关键点所需的参数。

需要说明的是，该步骤与上述步骤306同理，此处不再赘述。

1407、服务器根据该至少两个衣物图像块的移动参数，对该至少两个衣物图像块分别进行变形，得到至少两个变形衣物图像块。

需要说明的是，该步骤与上述步骤307同理，此处不再赘述。

1408、服务器对该至少两个变形衣物图像块进行合并，得到变形衣物图像。

需要说明的是，该步骤与上述步骤308同理，此处不再赘述。

1409、服务器基于该目标人物图像、该变形衣物图像，通过神经网络模型，确定中间试穿效果图像和衣物融合掩膜，该中间试穿效果图像为不包括衣物细节的试穿效果图像，该衣物融合掩膜用于表示该变形衣物图像的位置。

需要说明的是，该步骤与上述步骤309同理，此处不再赘述。

1410、服务器根据该衣物融合掩膜，将该中间试穿效果图像和该变形衣物图像进行融合，得到试穿效果图像。

需要说明的是，该步骤与上述步骤310同理，此处不再赘述。

1411、服务器将该试穿效果图像发送给终端。

1412、终端接收服务器发送的该试穿效果图像，对该试穿效果图像进行显示。

需要说明的是，该步骤与上述步骤312同理，此处不再赘述。

此外，还可以在短视频中发展电商业务，通过短视频博主在自己的直播间对衣物进行展示，用户终端的可视化界面上可以设置有“试穿”按钮，用户可以在直播中看到自己喜欢的衣物时，触发该“试穿”按钮，来对衣物进行试穿，具体过程可以参见上述步骤1301至步骤1312，此处不再赘述。通过在短视频中发展电商业务，可以增加衣物网上销售的途径，以便提升衣物的销售额。

需要说明的是，在短视频中发展电商业务时，终端可以在显示试穿效果图像的界面上设置“加入购物车”按钮，用户可以通过触发“加入购物车”按钮，方便的将衣物加入购物车，而无需再提供购买页面的跳转等功能，大大提升人机交互效率以及衣物线上销售的效率，同时也能大大提升消费者的网购体验。

本申请实施例提供的方案，通过根据不同衣物区域的变形程度，在各个衣物图像块中分别对衣物进行变形，可以得到比较符合衣物实际变形情况的变形衣物图像，进而使得基于变形衣物图像与目标人物图像融合得到的试穿效果图像，与实际试穿效果较为接近，缩小了虚拟试穿效果和实际试穿效果的差距，提高了虚拟试穿的效果，使得短视频用户可以在节日时为自己虚拟穿上节日专属服装，并且衣物上身效果较为自然，更加贴合用户的身材，提高用户体验，而且可以增加节日氛围，有利于短视频行业的发展。

图15是本申请实施例提供的一种基于人工智能的虚拟试穿装置的结构图，参见图15，该装置包括：

获取模块1501，用于获取源衣物图像的至少一个第一关键点和至少一个第二关键点，该至少一个第一关键点用于标识衣物边缘的源位置，该至少一个第二关键点为基于目标人物图像对衣物进行变形后的该至少一个第一关键点的目标位置；

确定模块1502，用于根据该至少一个第一关键点，在该源衣物图像中确定至少两个衣物图像块；

变形模块1503，用于根据该至少一个第一关键点和至少一个第二关键点，分别对该至少两个衣物图像块进行变形，得到至少两个变形衣物图像块；

合并模块1504，用于对该至少两个变形衣物图像块进行合并，得到变形衣物图像；

融合模块1505，用于将该变形衣物图像与该目标人物图像融合，得到试穿效果图像。

本申请实施例提供的装置，通过根据不同衣物区域的变形程度，在各个衣物图像块中分别对衣物进行变形，可以得到比较符合衣物实际变形情况的变形衣物图像，进而使得基于变形衣物图像与目标人物图像融合得到的试穿效果图像，与实际试穿效果较为接近，缩小了虚拟试穿效果和实际试穿效果的差距，提高了虚拟试穿的效果，进而提高了用户体验。

在一种可能的实现方式中，该变形模块1503，用于对于该至少两个衣物图像块中任一个衣物图像块，确定该衣物图像块中第一关键点的移动参数，该移动参数为将该第一关键点转移到对应的第二关键点所需的参数，根据该至少两个衣物图像块的移动参数，对该至少两个衣物图像块分别进行变形，得到该至少两个变形衣物图像块。

在一种可能的实现方式中，该合并模块1504，用于确定目标衣物图像块对应的变形衣物图像块，与相邻的衣物图像块对应的变形衣物图像块之间的缝隙区域，该目标衣物图像块为包括衣物躯干区域的图像块，按照该目标衣物图像块对应的目标参数，对该源衣物图像进行变形，从变形后的源衣物图像中获取变形后的缝隙区域，将该目标衣物图像块对应的变形衣物图像块、变形后的缝隙区域和该相邻的衣物图像块对应的变形衣物图像块进行拼接，得到该变形衣物图像。

在一种可能的实现方式中，该获取模块1501包括：提取单元和预测单元；

该提取单元，用于通过衣物关键点检测器，提取该源衣物图像的至少一个关键点，作为该至少一个第一关键点；

该预测单元，用于通过衣物关键点预测器，预测基于该目标人物图像对源衣物图像变形后的该源衣物图像的至少一个关键点，作为该至少一个第二关键点。

在一种可能的实现方式中，该预测单元，用于从该目标人物图像中获取对应的第一目标人物图像，该第一目标人物图像为包括头部和人体下半身的图像，根据该目标人物图像，确定目标人物姿势，将该第一目标人物图像、该目标人物姿势和该源衣物图像输入该衣物关键点预测器，通过该衣物关键点预测器，确定基于该目标人物图像对源衣物图像变形后的该源衣物图像的关键点。

在一种可能的实现方式中，该融合模块1505包括：确定单元和融合单元；

需要说明的是：上述实施例提供的基于人工智能的虚拟试穿在进行虚拟试穿时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于人工智能的虚拟试穿装置与基于人工智能的虚拟试穿方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图16是本申请实施例提供的一种服务器的结构示意图，该服务器1600可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)1601和一个或多个的存储器1602，其中，该一个或多个存储器1602中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器1601加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器1600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器1600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的基于人工智能的虚拟试穿方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括一条或多条程序代码，该程序代码存储在计算机可读存储介质中。服务器的处理器从计算机可读存储介质读取该程序代码，处理器执行该程序代码，以完成上述实施例中提供的基于人工智能的虚拟试穿方法的方法步骤。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的虚拟试穿方法，其特征在于，所述方法包括：

获取源衣物图像的至少一个第一关键点和至少一个第二关键点，所述至少一个第一关键点用于标识衣物边缘的源位置，所述至少一个第二关键点为基于目标人物图像对衣物进行变形后的所述至少一个第一关键点的目标位置；

根据所述至少一个第一关键点，在所述源衣物图像中确定至少两个衣物图像块；

根据所述至少一个第一关键点和至少一个第二关键点，分别对所述至少两个衣物图像块进行变形，得到至少两个变形衣物图像块；

对所述至少两个变形衣物图像块进行合并，得到变形衣物图像；

将所述变形衣物图像与所述目标人物图像融合，得到试穿效果图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个第一关键点和至少一个第二关键点，分别对所述至少两个衣物图像块进行变形，得到至少两个变形衣物图像块包括：

对于所述至少两个衣物图像块中任一个衣物图像块，确定所述衣物图像块中第一关键点的移动参数，所述移动参数为将所述第一关键点转移到对应的第二关键点所需的参数；

根据所述至少两个衣物图像块的移动参数，对所述至少两个衣物图像块分别进行变形，得到所述至少两个变形衣物图像块。

3.根据权利要求1所述的方法，其特征在于，所述对所述至少两个变形衣物图像块进行合并，得到变形衣物图像包括：

确定目标衣物图像块对应的变形衣物图像块，与相邻的衣物图像块对应的变形衣物图像块之间的缝隙区域，所述目标衣物图像块为包括衣物躯干区域的图像块；

按照所述目标衣物图像块对应的移动参数，对所述源衣物图像进行变形；

从变形后的源衣物图像中获取变形后的缝隙区域；

将所述目标衣物图像块对应的变形衣物图像块、变形后的缝隙区域和所述相邻的衣物图像块对应的变形衣物图像块进行拼接，得到所述变形衣物图像。

4.根据权利要求1所述的方法，其特征在于，所述获取源衣物图像的至少一个第一关键点和至少一个第二关键点包括：

通过衣物关键点检测器，提取所述源衣物图像的至少一个关键点，作为所述至少一个第一关键点；

通过衣物关键点预测器，预测基于所述目标人物图像对源衣物图像变形后的所述源衣物图像的至少一个关键点，作为所述至少一个第二关键点。

5.根据权利要求4所述的方法，其特征在于，所述通过衣物关键点预测器，预测基于所述目标人物图像对源衣物图像变形后的所述源衣物图像的至少一个关键点包括：

从所述目标人物图像中获取对应的第一目标人物图像，所述第一目标人物图像为包括头部和人体下半身的图像；

根据所述目标人物图像，确定目标人物姿势；

将所述第一目标人物图像、所述目标人物姿势和所述源衣物图像输入所述衣物关键点预测器，通过所述衣物关键点预测器，确定基于所述目标人物图像对源衣物图像变形后的所述源衣物图像的关键点。

6.根据权利要求5所述的方法，其特征在于，所述将所述变形衣物图像与所述目标人物图像融合，得到试穿效果图像包括：

基于所述目标人物图像、所述变形衣物图像，通过神经网络模型，确定中间试穿效果图像和衣物融合掩膜，所述中间试穿效果图像为不包括衣物细节的试穿效果图像，所述衣物融合掩膜用于表示所述变形衣物图像的位置；

根据所述衣物融合掩膜，将所述中间试穿效果图像和所述变形衣物图像进行融合，得到所述试穿效果图像。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标人物图像、所述变形衣物图像，通过神经网络模型，确定中间试穿效果图像和衣物融合掩膜包括：

根据所述目标人物图像，提取目标人物的语义分割图像，根据所述语义分割图像构造人体形状掩膜；

根据所述目标人物姿势，获取人物姿势关键点；

将所述第一目标人物图像、所述人物姿势关键点、所述人体形状掩膜和所述变形衣物图像输入至所述神经网络模型，输出所述中间试穿效果图像和所述衣物融合掩膜。

8.根据权利要求6所述的方法，其特征在于，所述根据所述衣物融合掩膜，将所述中间试穿效果图像和所述变形衣物图像进行融合，得到所述试穿效果图像包括：

对所述衣物融合掩膜和所述中间试穿效果图像进行卷积，得到第一卷积结果图像；

基于所述衣物融合掩膜，确定目标形状掩膜，将所述目标形状掩膜和所述变形衣物图像进行卷积，得到第二卷积结果图像，所述目标形状掩膜用于指示除所述变形衣物图像所覆盖部位外的人体部位的位置；

对所述第一卷积结果图像和所述第二卷积结果图像进行叠加，得到所述试穿效果图像。

9.一种基于人工智能的虚拟试穿装置，其特征在于，所述装置包括：

获取模块，用于获取源衣物图像的至少一个第一关键点和至少一个第二关键点，所述至少一个第一关键点用于标识衣物边缘的源位置，所述至少一个第二关键点为基于目标人物图像对衣物进行变形后的所述至少一个第一关键点的目标位置；

确定模块，用于根据所述至少一个第一关键点，在所述源衣物图像中确定至少两个衣物图像块；

变形模块，用于根据所述至少一个第一关键点和至少一个第二关键点，分别对所述至少两个衣物图像块进行变形，得到至少两个变形衣物图像块；

合并模块，用于对所述至少两个变形衣物图像块进行合并，得到变形衣物图像；

融合模块，用于将所述变形衣物图像与所述目标人物图像融合，得到试穿效果图像。

10.根据权利要求9所述的装置，其特征在于，所述变形模块，用于对于所述至少两个衣物图像块中任一个衣物图像块，确定所述衣物图像块中第一关键点的移动参数，所述移动参数为将所述第一关键点转移到对应的第二关键点所需的参数，根据所述至少两个衣物图像块的移动参数，对所述至少两个衣物图像块分别进行变形，得到所述至少两个变形衣物图像块。

11.根据权利要求10所述的装置，其特征在于，所述合并模块，用于确定目标衣物图像块对应的变形衣物图像块，与相邻的衣物图像块对应的变形衣物图像块之间的缝隙区域，所述目标衣物图像块为包括衣物躯干区域的图像块，按照所述目标衣物图像块对应的目标参数，对所述源衣物图像进行变形，从变形后的源衣物图像中获取变形后的缝隙区域，将所述目标衣物图像块对应的变形衣物图像块、变形后的缝隙区域和所述相邻的衣物图像块对应的变形衣物图像块进行拼接，得到所述变形衣物图像。

12.根据权利要求9所述的装置，其特征在于，所述获取模块包括：提取单元和预测单元；

所述提取单元，用于通过衣物关键点检测器，提取所述源衣物图像的至少一个关键点，作为所述至少一个第一关键点；

所述预测单元，用于通过衣物关键点预测器，预测基于所述目标人物图像对源衣物图像变形后的所述源衣物图像的至少一个关键点，作为所述至少一个第二关键点。

13.根据权利要求12所述的装置，其特征在于，所述预测单元，用于从所述目标人物图像中获取对应的第一目标人物图像，所述第一目标人物图像为包括头部和人体下半身的图像，根据所述目标人物图像，确定目标人物姿势，将所述第一目标人物图像、所述目标人物姿势和所述源衣物图像输入所述衣物关键点预测器，通过所述衣物关键点预测器，确定基于所述目标人物图像对源衣物图像变形后的所述源衣物图像的关键点。

14.一种服务器，其特征在于，所述服务器包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求8任一项所述的基于人工智能的虚拟试穿方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求8任一项所述的基于人工智能的虚拟试穿方法所执行的操作。