CN112598806A

CN112598806A - 基于人工智能的虚拟试穿方法、装置、计算机设备及介质

Info

Publication number: CN112598806A
Application number: CN202011579133.0A
Authority: CN
Inventors: 陈海波; 罗志鹏; 徐振宇
Original assignee: Shenyan Technology Beijing Co ltd
Current assignee: Shenyan Technology Beijing Co ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02

Abstract

本发明公开了一种基于人工智能的虚拟试穿方法、装置、计算机设备及介质。该方法包括将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片；将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片；将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合，得到试穿效果图像。该方法通过结合卷积神经网络模型以及生成对抗网络模型，一方面提高试穿效果图像的生成速度，降低生成成本；另一方面，该方法无需用户做固定动作，通过生成对抗网络模型获取的用户图片即能够生成指定动作的图片，降低操作难度，提高用户体验感，具有广泛的应用前景。

Description

基于人工智能的虚拟试穿方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的虚拟试穿方法、装置、计算机设备及介质。

背景技术

虚拟试穿技术通过使用计算机图形学或计算机视觉的技术，将选定衣服图片和人体图像结合在一起，生成对应于用户需求的试穿图像。

现有的虚拟试穿技术，一种是利用体感技术结合计算机图形学的方法建立人体三维模型，再将示例衣服渲染在三维模型上，实现2D衣服图像贴合于用户人体，例如虚拟试衣设备K-MIRROR。但该技术往往需要大量的人工标注或昂贵的设备进行信息的获取及复杂的计算，在实际应用中难以推广。

另一种是以每日新款app为代表的虚拟试衣拍照系统，用户通过系统内置的真实服装的素材库以及自身提供的头像，通过系统合成，能够使用户完成试衣体验，然而该技术生成的图片仅仅是对用户的头像进行改变与合成，由于用户的个体化差异，其在实际应用中同样难以推广。

发明内容

为了解决上述问题至少之一，本发明采取以下技术方案：

本发明第一个实施例提供一种基于人工智能的虚拟试穿方法，包括：

将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片；

将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片；

将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合，得到试穿效果图像。

进一步的，在得到制定动作的衣服图片和指定动作的用户图片之前，还包括：

识别待试穿的衣服的类别，从指定动作库中选择对应的指定动作。

进一步的，所述识别待试穿的衣服的类别之前，还包括：

接收拍摄的待试穿衣服的图片；

利用图像识别方法对所述试穿衣服的图片进行分类，得到所述衣服的类别；

或者

检测用户浏览互联网网站中所选择的衣服所述的类别，得到所述衣服的类别。

进一步的，所述将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片，包括：

将所述待试穿的衣服图片输入第一分支卷积神经网络和第二分支卷积神经网络；

将所述第一分支卷积神经网络的输出和第二分支卷积神经网络的输出进行堆叠并经过解码，得到所述变形为指定动作的衣服图片。

进一步的，所述第一分支卷积神经网络由N个神经网络子模块串联构成，其中第一至第N-1神经网络子模块由卷积层、激活函数层和批标准化层串联构成，第N神经网络子模块由卷积层和激活函数层串联构成；

所述第二分支卷积神经网络由M个神经网络子模块串联构成，其中第一至第M-1神经网络子模块由卷积层、激活函数层和批标准化层串联构成，第M神经网络子模块由卷积层和激活函数层串联构成；

其中第一神经网络子模块的卷积层和第二神经网络子模块的卷积层分别接收所述待试穿的衣服图片，所述第N神经网络子模块的激活函数层的输出和所述第M神经网络子模块的激活函数层的输出进行所述堆叠。

进一步的，所述将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片包括：

将所述用户的图片输入第一对抗神经网络，其中所述第一对抗神经网络包括Unet网络构成的生成器和patchdiscriminator网络构成的判别器；

所述生成器将用户的图片中的用户分割出来，并输出所述变形为所述指定动作的Unet网络图片；

所述判别器根据所述用户的图片对所述Unet网络图片进行判断，以输出变形为所述指定动作的用户图片。

进一步的，还包括

将由所述第一对抗神经网络输出的变形为所述指定动作的用户图片输入第二对抗神经网络，其中所述第二对抗神经网络包括第一Resnet结构的网络构成的生成器和第二Resnet结构的网络构成的判别器。

进一步的，所述方法还包括：分别对所述卷积神经网络模型和生成对抗网络模型进行训练，其中，

所述对所述卷积神经网络模型进行训练进一步包括：

利用已标注的多种变形动作和多种类别的衣服图片作为卷积训练图像集对所述卷积神经网络模型进行训练；

利用未标注的多种变形动作和多种类别的衣服图片作为卷积测试图像集对训练后的卷积神经网络模型进行测试；

所述对所述生成对抗网络模型进行训练进一步包括：

利用已标注的多种动作的用户图片作为生成对抗网络训练图像集对所述生成对抗网络模型进行训练；

利用未标注的多种动作的用户图片作为生成对抗网络测试图像集对训练后的生成对抗网络模型进行测试。

本发明第二个实施例提供一种基于人工智能的虚拟试穿装置，包括：

衣服图片变形模块，用于将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片；

用户图片变形模块，用于将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片；

融合模块，用于将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合，得到试穿效果图像。

进一步的，所述虚拟试穿装置还包括

指定动作选择模块，用于识别的待试穿的衣服的类别，从指定动作库中选择对应的指定动作。

进一步的，

摄像模块，用于拍摄待试穿衣服的图片；

图像识别模块，用于利用图像识别方法对拍摄的待试穿衣服的图片进行分类，得到所述衣服的类别；

或者

检测模块，用于检测用户浏览互联网网站中所选择的衣服所述的类别，得到所述衣服的类别。

进一步的，衣服图片变形模块包括：第一分支卷积神经网络模块、第二分支卷积神经网络模块和解码模块，其中

第一分支卷积神经网络模块和第二分支卷积神经网络模块接收待试穿的衣服图片并将各自的输出进行堆叠发送到所述解码模块，所述解码模块进行解码后得到所述变形为指定动作的衣服图片。

进一步的，所述第一分支卷积神经网络模块由N个神经网络子模块串联构成，其中第一至第N-1神经网络子模块由卷积层、激活函数层和批标准化层串联构成，第N神经网络子模块由卷积层和激活函数层串联构成；

所述第二分支卷积神经网络模块由M个神经网络子模块串联构成，其中第一至第M-1神经网络子模块由卷积层、激活函数层和批标准化层串联构成，第M神经网络子模块由卷积层和激活函数层串联构成；

进一步的，用户图片变形模块包括：第一对抗神经网络模块，其中所述第一对抗神经网络模块包括Unet网络构成的生成器和patchdiscriminator网络构成的判别器，其中所述用户的图片输入第一对抗神经网络模块。

进一步的，所述用户图片变形模块还包括：

第二对抗神经网络模块，其中所述第二对抗神经网络模块包括第一Resnet结构的网络构成的生成器和第二Resnet结构的网络构成的判别器，其中所述第二对抗神经网络模块接收第一对抗神经网络模块输出的图片，输出变形为所述指定动作的用户图片。

本发明第三个实施例提供一种计算机设备，包括处理器和存储有程序的存储器，所述程序被处理器执行时实现上述方法。

本发明第四个实施例提供一种计算机可读介质，存储有程序，所述程序被执行时实现上述的方法。

本发明的有益效果如下：

本实施例针对现有问题，提出一种基于人工智能的虚拟试穿方法，本实施例通过卷积神经网络模型获得指定动作的衣服图片，以及通过生成对抗网络模型获得指定动作的用户图片，融合后生成的试穿效果图像的融合程度较高，试穿图像中的衣服与用户贴合程度较高。该方法通过结合卷积神经网络模型以及生成对抗网络模型，一方面提高试穿效果图像的生成速度，降低生成成本；另一方面，该方法无需用户做固定动作，通过生成对抗网络模型获取的用户图片即能够生成指定动作的图片，降低操作难度，提高用户体验感，具有广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本发明一个实施例提供的基于人工智能的虚拟试穿方法的实施例的示例性系统架构图；

图2示出本发明另一个实施例提供的基于人工智能的虚拟试穿方法的流程图；

图3a-3c示出本发明实施例的模特对同一件待试穿的衣服形成不同指定动作的示意图；

图4a和4b示出本发明实施例的不同类别的待试穿的衣服形成不同指定动作的示意图；

图5示出本发明实施例的虚拟试穿方法运行于用户智能手机上识别衣服类别的示意图；

图6示出本发明实施例的虚拟试穿方法运行于计算机上识别衣服类别的示意图；

图7示出本发明实施例的卷积神经网络模型的结构示意图；

图8示出本发明实施例的步骤S3“所述将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片”的流程示意图；

图9示出本发明实施例的本发明实施例的第一对抗神经网络的结构示意图；

图10示出本发明实施例的训练所述卷积神经网络模型的示意图；

图11示出本发明另一个实施例提供的基于人工智能的虚拟试穿装置的架构示意图；

图12a和12b示出本发明实施例的一个识别衣服类别的虚拟试穿装置的示意图；

图12示出本发明实施例的一个识别衣服类别的虚拟试穿装置的示意图；

图13示出本发明实施例的卷积神经网络模型的架构示意图；

图14示出本发明另一个实施例提供的计算机设备的结构示意图。

具体实施方式

为了更清楚地说明本发明，下面结合优选实施例和附图对本发明做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。

图1是本发明实施例提供的一种基于人工智能的虚拟试穿方法的实施例的示例性系统架构100。参见图1，如图1所示，系统架构100包括：终端101和服务器102。

终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是具有显示屏并且支持图像识别的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。终端101中可以设有客户端，该客户端可以是视频客户端、浏览器客户端、线上购物客户端、即时通信客户端等，本申请对客户端的类型不加以限定。当终端设备101为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

网络103用以在终端设备101和服务器102之间提供通信链路的介质。网络103可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。本申请在此不做限制。

用户可以使用终端设备101通过网络103与服务器102交互，以接收或发送消息等。例如，终端101可以接收服务器102发送的指定动作图片以及试穿效果图像，并在可视化界面上对指定动作图片以及试穿效果图像进行展示。终端可以响应于用户的试穿指令，通过图像采集器件来获取待试穿衣服片和用户图片，该图像采集器件可以内置于终端101中，还可以外接于终端101，本申请对此不加以限定。终端101可以将根据试穿指令获取的待试穿衣服片和用户图片均发送给服务器102，并接收服务器102返回的试穿效果图像，进而将该试穿效果图像展示在可视化界面上，以便用户了解待试穿衣服的上身效果。

终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，本申请实施例对终端的数量和设备类型不加以限定。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102以及终端101可以通过网络103进行直接或间接地连接，本申请在此不做限制。

服务器102可以维护有一个指定动作数据库，用于存储多个指定动作的衣服图像。服务器102可以接收终端101发送的试穿指令、用户图片以及待试穿衣服图片，并根据该试穿指令，从指定动作数据库中获取该试穿指令对应的指定动作，并基于用户图片以及待试穿衣服图片，生成试穿效果图像，进而服务器102将该试穿效果图像发送给终端101。可选地，上述服务器的数量可以更多或更少，本申请实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。

需要说明的是，服务器102可以是硬件，也可以是软件。当服务器102为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意合适数目的终端设备、网络和服务器。

进一步的，如图2所示，本发明的一个实施例提出一种基于人工智能的虚拟试穿方法，该方法包括：

S1、将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片；

S3、将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片；

S5、将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合，得到试穿效果图像。

本实施例通过卷积神经网络模型获得指定动作的衣服图片，以及通过生成对抗网络模型获得指定动作的用户图片，由于待合成的衣服图片和用户图片均为同一指定动作，因此，经融合后生成的试穿效果图像的融合程度较高，试穿图像中的衣服与用户贴合程度较高。该方法通过结合卷积神经网络模型以及生成对抗网络模型，一方面提高试穿效果图像的生成速度，降低生成成本；另一方面，该方法无需用户做固定动作，通过生成对抗网络模型获取的用户图片即能够生成指定动作的图片，降低操作难度，提高用户体验感，具有广泛的应用前景。

在本实施例中，基于人工智能的虚拟试穿方法运行于其上的电子设备(例如图1所示的服务器)，可以通过有线连接方式或者无线连接方式与用户利用终端设备进行交互。

考虑到不同类别待试穿的衣服能够形成不同的指定动作，在一个可选的实施例中，该方法还包括：识别待试穿的衣服的类别，从指定动作库中选择对应的指定动作。在一个具体示例中，如图3a-3c所示，模特对同一件待试穿的衣服形成不同的指定动作，因此，本实施例的指定动作库包含有待试穿衣服的多种可能的指定动作，使得用户能够根据实际需求选择对应的指定动作，无需用户做指定动作，提高用户的体验。

在另一个具体示例中，对于个体化差异的用户，例如图4a-4b所示的男士和儿童，其待试穿的衣服的种类有所不同，例如图4a中男士上衣为衬衫裤子为西装裤，图4b中儿童为卡通的外套和休闲裤，因此，对于不同的用户，其待试穿衣服的类别有所不同。进一步的，对于不用种类的衣服，对应产生的形变也不同，例如，图4a中衬衫在衣袖处产生形变，西装裤的一侧膝盖处产生形变，图4b中外套在拉链、帽子以及衣袖处均产生形变，休闲裤在前后方向产生形变，因此，对于不同种类的待试穿的衣服，其形变后的指定动作也有所不同。因此，本实施例通过识别待试穿的衣服的类别，从指定动作库中选择的指定动作，进而将待试穿的衣服图片以及用户图片根据该指定动作进行变形，使得生成试穿效果图像满足用户的个体化差异需求，具有广泛的应用前景。

在一个可选的实施例中，在步骤S1之前，该方法还包括：

接收拍摄的待试穿衣服的图片；

利用图像识别方法对所述试穿衣服的图片进行分类，得到所述衣服的类别。

在本实施例中，以该虚拟试穿方法运行于用户的智能手机上为例，此时该虚拟试穿方法能够通过app的形式安装于用户的手机上。当用户处于实体服装店且不便于试穿时，如图5所示，用户能够通过智能手机的摄像模块实时拍摄用户待试穿的衣服图片，通过图像识别模块对该拍摄图片进行识别以确定该衣服的所述类别，在一个具体示例中，图像识别模块识别出的拍摄图片的类别为“女装、上衣、短袖”。进一步的，根据待试穿衣服的类别选择对应的指定动作，如图5所示，指定动作能够以动作示例“图片A、图片B、图片C”的方式向用户推送，用户根据推送选择动作示例图片并回复，例如回复“指定动作图片C，则该动作示例图片C为指定动作，使得用户选择符合预期的指定动作进行虚拟试穿。进一步的，将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片。用户再将自己的图片通过手机进行交互，将用户的图片输入已训练的生成对抗网络模型，得到变形为指定动作的用户图片；将两者融合后，输出图5所示的试穿效果图。

在另一示例场景中，当用户浏览服装书籍时，想对于书籍中的服装图片进行虚拟试穿，同样能通过摄像模块即时拍摄用户待试穿的衣服图片，以进行虚拟试穿。因此，本实施例通过摄像模块拍摄待试穿衣服的图片不限于上述实体衣服的场景，还能应用于获取包含衣服的图片的场景。本实施例通过摄像模块能够实时获取用户待试穿的衣服，具有实时性、多样性。

在另一个可选的实施例中，在步骤S1之前，该方法还包括：检测用户浏览互联网网站中所选择的衣服所述的类别，得到所述衣服的类别。

在本实施例中，同样以该虚拟试穿方法运行于用户使用的计算机上为例，当用户浏览如“京东”、“淘宝”以及“拼多多”等购物网站时，检测模块对当前待试穿衣服所在的网页进行检测，在一个具体示例中，检测模块对如图6所示的浏览网站进行检测后，得到的待试穿衣服的类别为“男装-西服套装”。在另一具体示例中，检测模块还对当前待试穿衣服所在的网页进行关键字抓取，得到的待试穿衣服的类别为“西服套装、男、职业正装”。进一步的，指定动作选择模块响应于用户的试穿指令根据检测模块获得的待试穿衣服的类别进行指定动作。本实施例通过检测模块能够实时获取用户待试穿的衣服，具有实时性、多样性。

在一个具体示例中，将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合的融合方法包括：裁切载体融合方法、单尺度特征的图片融合方法、多尺度特征的图片融合方法、小波变换图像融合方法以及轮廓小波融合方法中的一种或多种，并且不限于上述融合方法，本领域技术人员根据实际应用进行选择，以实现将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合得到试穿效果图像为设计准则。

在另一示例场景中，用户浏览的为非购物式网站，用户待试穿的衣服为网站的图片，此时，用户可选择前述的利用摄像模块如屏幕截图的方式，拍摄待试穿衣服图片进行待试穿衣服的类别识别；用户还可选择通过检测模块进行待试穿衣服的类别识别。因此，本领域技术人员根据实际应用选择上述获取待试穿衣服的方法。

在一个可选的实施例中，如图7所示，步骤S1“所述将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片”，进一步包括：

S11、将所述待试穿的衣服图片输入第一分支卷积神经网络和第二分支卷积神经网络；

S13、将所述第一分支卷积神经网络的输出和第二分支卷积神经网络的输出进行堆叠并经过解码，得到所述变形为指定动作的衣服图片。

本实施例通过双分支的卷积神经网络对待试穿的衣服图片进行变形，提高变形速度，缩短变形处理的时间，堆叠并且解码后输出与用户图片尺寸相同的变形后的指定动作的衣服图片，使得指定动作的衣服图片较高的贴合程度。

在一个具体示例中，在利用双分支卷积神经网络进行待试穿衣服变形的过程中，第一分支卷积神经网络和第二分支卷积神经网络的输入均为待试穿的衣服图片，两个分支卷积神经网络输出并堆叠后形成与指定动作近似的输出图片，计算输出图片与指定动作的衣服图片之间的损失函数，当损失函数在预设损失函数阈值之内，则说明当前经神经网络优化的输出图片与指定动作相同，能够作为指定动作的衣服图片输出。

在一个可选的实施例中，如图7所示，所述第一分支卷积神经网络由N个神经网络子模块串联构成，其中第一至第N-1神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)和批标准化层(Batch Normalization)串联构成，第N神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)串联构成；

所述第二分支卷积神经网络由M个神经网络子模块串联构成，其中第一至第M-1神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)和批标准化层(BatchNormalization)串联构成，第M神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)串联构成；

在本实施例中，卷积层用于对输入待试穿的衣服图片进行特征提取，激活函数层用于对卷积层输出的图像进行激活处理，批标准化层用于对激活函数层输出的图像进行零均值标准化处理。上述所建立的第一分支卷积神经网络的神经网络子模块中，在第N-1神经网络子模块之前，每个用于特征提取的卷积层之后都由一个批标准化层对该卷积层所输出的图像进行零均值标准化处理，由此能够在加速模型训练的同时，使得经该神经网络子模块所提取的图像特征都有相似的分布，从而有效避免由于训练集中图像的特征分布差异较大而导致模型训练效果不佳的问题，有效提高模型精度。第一分支卷积神经网络的神经网络子模块的应用效果同理，在此不再赘述。

在一个可选的实施例中，如图8所示，步骤S3“所述将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片”进一步包括：

S31、将所述用户的图片输入第一对抗神经网络，其中所述第一对抗神经网络包括Unet网络构成的生成器和patchdiscriminator网络构成的判别器；

S33、所述生成器将用户的图片中的用户分割出来，并输出所述变形为所述指定动作的Unet网络图片；

S35、所述判别器根据所述用户的图片对所述Unet网络图片进行判断，以输出所述指定动作的用户图片。

本实施例利用Unet网络作为生成器和patchdiscriminator网络作为判别器构建的第一对抗神经网络，将包含有用户图像的用户图片进行分割以及变形，从而输出保持整体变形效果的指定动作的用户图片。

如图9所示，本实施例的第一对抗神经网络利用Unet网络作为生成器(Unet生成器)和patchdiscriminator网络作为判别器(Patch判别器)。将用户的图片同时输入至Unet生成器与Patch判别器，其中，Unet生成器根据输入的用户图片进行编解码后输出生成的Unet网络图片，Patch判别器在用户图片的条件下，对于生成Unet网络图片进行判断，判断为真时，则说明当前的Unet网络图片保留了用户图片的真实特征，能够作为指定动作的用户图片输出；若判断为假时，则由Unet网络进一步进行编解码直至输出判断为真的指定动作的用户图片。

在本实施例中，Unet网络对输入的用户图片进行先降采样到低维度，再升采样到原始分辨率进行编解码，该编解码过程中，Unet网络加入跳跃连接(skip-connection)，将编码形成的特征图和解码之后的同样大小的对应特征图按通道连接一起，从而保留不同分辨率下像素级的细节信息，使得输出的生成图片能够保留输入的用户图片的细节。Patch判别器适用于要求高分辨率、高细节保持的图像领域，能对生成的Unet网络图片进行高精度的判断，以提高第一对抗神经网络的整体变形效果。

在一个可选的实施例中，如图8所示，步骤S3还包括：S37、将由所述第一对抗神经网络输出的变形为所述指定动作的用户图片输入第二对抗神经网络，其中所述第二对抗神经网络包括第一Resnet结构的网络构成的生成器和第二Resnet结构的网络构成的判别器。

本实施例通过Resnet网络构成生成器和判别器构建了第二对抗神经网络，在第一神经网络输出的第一次变形为所述指定动作的用户图片的基础上，进行精确变形，第一Resnet结构的网络构成的生成器输出所述第二次变形为所述指定动作的Resnet网络图片；第二Resnet结构的网络构成的判别器根据所述用户的图片对所述Resnet网络图片进行判断，进一步优化变形为所述指定动作的用户图片，使得得到的变形后的用户图片的保持高精度和高细节。在本实施例中，ResNet网络能来减轻传统的卷积神经网络堆叠层数过多导致的退化问题，从而增强本实施例的生成对抗网络模型的泛化能力以及模型精度。

在一个可选的实施例中，该方法还包括：

对所述卷积神经网络模型和生成对抗网络模型进行训练，其中，

所述对所述卷积神经网络模型进行训练进一步包括：

利用未标注的多种变形动作和多种类别的衣服图片作为卷积测试图像集对训练后的卷积神经网络模型进行测试。

如图10所示，以对前述本实施例的卷积神经网络模型进行训练为示例进行说明：

首先获取已标注的多种变形动作的衣服图片、已标注的多种类别的衣服图片作为卷积训练图像集以及未标注的多种变形动作的衣服图片以及多种类别的衣服图片作为卷积测试图像集。如图10所示，卷积训练图像集中的每一卷积训练图像均附加有其对应的标注1009-1012。在一个具体示例中，卷积训练图像集能够通过直接购买的方式获得，例如谷歌的商业图片库。在另一具体示例中，还可通过人工截取“淘宝”中品牌店铺的多种服装的模特图作为样本图像，并将样本图像进行标注工作，一方面标注其所述类别，例如“女装-外套-风衣”，另一方面标注样本图像中模特的动作作为指定动作，例如“左手环绕腹部-右手支撑下颌”，从而将已标注过的样本图像作为卷积训练图像集进行训练。

然后构建卷积神经网络模型，本实施例的卷积神经网络模型由两个第一分支卷积神经网络和第二分支卷积神经网络构成，每一分支卷积神经网络均由卷积层、激活函数层和批标准化层串联构成。本领域人根据实际应用选择卷积训练图像集的尺寸大小以及卷积神经网络的层数，在此不再赘述。

加载卷积训练图像集至卷积神经网络模型进行训练，以指定动作的图片作为目标函数，以二值交叉熵作为损失函数，当其趋近于收敛时停止，拟合函数，并保存模型作为待测试的卷积神经网络模型。

最后将所述卷积测试图像集输入至所述待测试的卷积神经网络模型中，得到测试结果，从而输出训练好的卷积神经网络模型。

经上述步骤，对于任意输入的待试穿衣服的图片，在指定动作后，卷积神经网络模型能自动输出变形后指定动作的衣服图片。

在一个可选的实施例中，所述对所述生成对抗网络模型进行训练进一步包括：

在一个具体示例中，以对前述本实施例的生成对抗网络模型的第一对抗神经网络模型进行训练为示例进行说明：

首先获取已标注的多种动作的用户图片作为生成对抗网络训练图像集以及未标注的多种动作的用户图片作为生成对抗网络测试图像集。

然后构建第一对抗神经网络模型，利用Unet网络构建生成器以及利用patchdiscriminator网络构建判别器。

再然后，构建目标损失函数，根据损失函数值的收敛情况，能够更好的对第一对抗神经网络模型中对应的参数进行更新优化，最终获取最优化的第一对抗神经网络模型。

进一步的，将所述生成对抗网络训练图像集作为所述生成对抗网络模型的输入，基于所述目标损失函数对所述第一对抗神经网络模型进行迭代训练，得到待测试的第一对抗神经网络模型。

最后将所述生成对抗网络测试图像集输入至所述待测试的第一对抗神经网络模型中，得到测试结果从而输出训练好的第一对抗神经网络模型。

经上述步骤，对于任意输入的待试穿衣服的图片，在指定动作后，第一对抗神经网络模型能自动输出变形后指定动作的衣服图片。

与上述实施例提供的虚拟试穿方法相对应，本申请的一个实施例还提供一种人工智能的虚拟试穿装置，由于本申请实施例提供的虚拟试穿装置与上述几种实施例提供的虚拟试穿方法相对应，因此在前实施方式也适用于本实施例提供的使用方法，在本实施例中不再详细描述。

如图11所示，本发明的另一个实施例提供一种基于人工智能的虚拟试穿装置，该装置包括：

在本实施例中，用户将待试穿的衣服图片输入至衣服图片变形模块，衣服图片变形模块接收待试穿的衣服图片后自动输出变形为指定动作的衣服图片。用户还将自身的用户图片输入至已训练的用户图片变形模块中，用户图片变形模块接收用户图片后自动输出变形为所述指定动作的用户图片。最后，融合模块将所述变形为指定动作的衣服图片与所述变形为所述指定动作的用户图片进行融合，得到试穿效果图像并推送至用户。

本实施例通过衣服图片变形模块获得指定动作的衣服图片，以及通过用户图片变形模块获得指定动作的用户图片，由于待合成的衣服图片和用户图片均为同一指定动作，因此，经融合后生成的试穿效果图像的融合程度较高，试穿图像中的衣服与用户贴合程度较高。该方法通过结合衣服图片变形模块以及用户图片变形模块，一方面提高试穿效果图像的生成速度，降低生成成本；另一方面，该方法无需用户做固定动作，通过用户图片变形模块获取的用户图片即能够生成指定动作的图片，降低操作难度，提高用户体验感，具有广泛的应用前景。

在一个可选的实施例中，该装置还包括指定动作选择模块，用于响应于用户的试穿指令根据识别的待试穿的衣服的类别，从指定动作库中选择对应的指定动作。通过识别不同种类的衣服，从而获得与该种类衣服对应的指定动作。在一个具体示例中，如图11所示，识别模块能够将该类别衣服对应的多种指定动作推送至用户，并响应于用户的回复选择对应的指定动作。本实施例通过识别模块根据衣服类别选择对应指定动作，使得用户能够根据实际需求选择对应的指定动作，无需用户做指定动作，提高用户的体验。

在一个可选的实施例中，如图12a所示，该装置还包括：

摄像模块，用于响应于用户的试穿指令拍摄待试穿衣服的图片；

图像识别模块，用于对拍摄的待试穿衣服的图片进行分类，得到所述衣服的类别；

在本实施例中，以该虚拟试穿方法运行于用户手持的智能手机上为例，当用户处于实体服装店且不便于试穿时，如图5所示，用户可通过开启摄像头进行拍照，摄像模块响应于用户的拍摄指令拍摄待试穿衣服的图片，图像识别模块接收拍摄的待试穿衣服的图片，并对其进行识别以确定该衣服所述分类，从而得到所述衣服的类别。进一步的，指定动作选择模块响应于用户的试穿指令根据待试穿衣服的类别选择对应的指定动作，使得用户选择符合预期的指定动作进行虚拟试穿。

本实施例通过摄像模块和图像识别模块获取待试穿衣服的类别的方式同样适用于前述用户浏览服装书籍时，对于书籍中的服装图片进行虚拟试穿的应用场景，在此不再赘述。

因此，本实施例通过摄像模块拍摄待试穿衣服的图片不限于上述实体衣服的场景，还能应用于获取包含衣服的图片的场景。本实施例通过摄像模块能够实时获取用户待试穿的衣服，具有实时性、多样性。

在另一个可选的实施例中，如图12b所示，该装置还包括：

在本实施例中，如图6所示，同样以该虚拟试穿方法运行于用户使用的计算机上为例，当用户浏览如“京东”、“淘宝”以及“拼多多”等购物网站时，用户想对网站展示的服装图片进行试穿，检测模块响应于用户的检测指令对当前待试穿衣服所在的网页进行检测，检测用户浏览互联网网站中所选择的衣服所述的类别，得到所述衣服的类别，例如，检测模块对如图6所示的浏览网站进行检测后，得到的待试穿衣服的类别为“男装-西服套装”。

本实施例通过检测模块获取待试穿衣服的类别的方式同样适用于前述用户浏览非购物式网站时，对于网站中的服装图片进行虚拟试穿的应用场景，在此不再赘述。

在一个可选的实施例中，如图13所示，所述衣服图片变形模块包括包括：第一分支卷积神经网络模块、第二分支卷积神经网络模块和解码器，其中

第一分支卷积神经网络模块和第二分支卷积神经网络模块接收待试穿的衣服图片并将各自的输出进行堆叠发送到所述解码器，所述解码器进行解码后得到所述变形为指定动作的衣服图片。

在一个具体示例中，在利用双分支卷积神经网络模块进行待试穿衣服图片变形为指定动作的衣服图片的过程中，首先将所述待试穿的衣服图片输入第一分支卷积神经网络模块和第二分支卷积神经网络模块，第一分支卷积神经网络模块和第二分支卷积神经网络模块接收待试穿的衣服图片并将各自的输出进行堆叠；然后将堆叠后的待试穿的衣服图片发送到所述解码器，由所述解码器进行解码后得到所述变形为指定动作的衣服图片。

在利用双分支卷积神经网络模块进行待试穿衣服变形的过程中，第一分支卷积神经网络模块和第二分支卷积神经网络模块的输入均为待试穿的衣服图片，两个分支卷积神经网络模块输出并堆叠后形成与指定动作近似的输出图片，计算输出图片与指定动作的衣服图片之间的损失函数，当损失函数在预设损失函数阈值之内，则说明当前经卷积神经网络模块优化的输出图片与指定动作相同，能够作为指定动作的衣服图片输出。

本实施例通过双分支的卷积神经网络模块对待试穿的衣服图片进行变形，提高变形速度，缩短变形处理的时间，堆叠并且解码后输出与用户图片尺寸相同的变形后的指定动作的衣服图片，使得指定动作的衣服图片较高的贴合程度。

在一个可选的实施例中，如图7所示，所述第一分支卷积神经网络模块由N个神经网络子模块串联构成，其中第一至第N-1神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)和批标准化层(Batch Normalization)串联构成，第N神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)串联构成；

所述第二分支卷积神经网络模块由M个神经网络子模块串联构成，其中第一至第M-1神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)和批标准化层(BatchNormalization)串联构成，第M神经网络子模块由卷积层(Conv2d)、激活函数层(Relu)串联构成；

在一个可选的实施例中，所述用户图片变形模块包括：第一对抗神经网络模块，其中所述第一对抗神经网络模块包括Unet网络构成的生成器和patchdiscriminator网络构成的判别器，其中所述用户的图片输入第一对抗神经网络模块。

本实施例中，利用Unet网络作为生成器和利用patchdiscriminator网络作为判别器构建的第一对抗神经网络模块，将包含有用户图像的用户图片进行分割以及变形，从而输出保持整体变形效果的指定动作的用户图片。

在一个可选的实施例中，所述用户图片变形模块还包括：

本实施例通过Resnet网络构成生成器和判别器，并构建了第二对抗神经网络模块，在第一神经网络模块输出的变形为所述指定动作的用户图片的基础上，进行精确变形，进一步优化变形为所述指定动作的用户图片，使得得到的变形后的用户图片的保持高精度和高细节。在本实施例中，ResNet网络能来减轻传统的卷积神经网络堆叠层数过多导致的退化问题，从而增强本实施例的生成对抗网络模型的泛化能力以及模型精度。

在一个具体示例中，在所述将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片的过程中，首先将所述用户的图片输入第一对抗神经网络模块进行第一次用户图片的变形，第一对抗神经网络模块的生成器将用户的图片中的用户分割出来，并输出所述变形为所述指定动作的Unet网络图片；所述判别器根据所述用户的图片对所述Unet网络图片进行判断，以输出第一次所述指定动作的用户图片。然后将由所述第一对抗神经网络模块输出的第一次所述指定动作的用户图片输入第二对抗神经网络模块进行第二次用户图片的变形，第一Resnet结构的网络构成的生成器输出所述第二次变形为所述指定动作的Resnet网络图片；第二Resnet结构的网络构成的判别器根据所述用户的图片对所述Resnet网络图片进行判断，以输出所述指定动作的用户图片。

本发明的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现：将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片；

在实际应用中，所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

如图14所示，本发明的另一个实施例提供的一种计算机设备的结构示意图。图14显示的计算机设备40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图14所示，计算机设备40以通用计算设备的形式表现。计算机设备40的组件可以包括但不限于：一个或者多个处理器或者处理单元41，系统存储器47，连接不同系统组件(包括系统存储器47和处理单元41)的总线43。

总线43表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备40访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器47可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)44和/或高速缓存存储器45。计算机设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统46可以用于读写不可移动的、非易失性磁介质(图14未显示，通常称为“硬盘驱动器”)。尽管图14中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线43相连。存储器47可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块47的程序/实用工具52，可以存储在例如存储器47中，这样的程序模块47包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块47通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备40也可以与一个或多个外部设备48(例如键盘、指向设备、显示器49等)通信，还可与一个或者多个使得用户能与该计算机设备40交互的设备通信，和/或与使得该计算机设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口50进行。并且，计算机设备40还可以通过网络适配器51与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图14所示，网络适配器51通过总线43与计算机设备40的其它模块通信。应当明白，尽管图14中未示出，可以结合计算机设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器单元41通过运行存储在系统存储器47中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的一种基于人工智能的虚拟试穿方法。

需要说明的是，本发明实施例提供的阵列基板的制作方法以及显示装置的使用方法的步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易程度变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定，对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动，这里无法对所有的实施方式予以穷举，凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

Claims

1.一种基于人工智能的虚拟试穿方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在得到制定动作的衣服图片和指定动作的用户图片之前，还包括：

3.根据权利要求2所述的方法，其特征在于，所述识别待试穿的衣服的类别之前，还包括：

接收拍摄的待试穿衣服的图片；

利用图像识别方法对所述待试穿衣服的图片进行分类，得到所述衣服的类别；

或者

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述将待试穿的衣服图片输入已训练的卷积神经网络模型，得到变形为指定动作的衣服图片，包括：

5.根据权利要求4所述的方法，其特征在于，

所述第一分支卷积神经网络由N个神经网络子模块串联构成，其中第一至第N-1神经网络子模块由卷积层、激活函数层和批标准化层串联构成，第N神经网络子模块由卷积层和激活函数层串联构成；

6.根据权利要求1所述的方法，其特征在于，所述将用户的图片输入已训练的生成对抗网络模型，得到变形为所述指定动作的用户图片包括：

7.根据权利要求6所述的方法，其特征在于，还包括

8.根据权利要求1-7中任一项所述的方法，还包括：分别对所述卷积神经网络模型和生成对抗网络模型进行训练，其中，

所述对所述卷积神经网络模型进行训练进一步包括：

所述对所述生成对抗网络模型进行训练进一步包括：

9.一种基于人工智能的虚拟试穿装置，其特征在于，包括：

10.根据权利要求9所述的装置，其特征在于，还包括

11.根据权利要求10所述的装置，其特征在于，还包括

摄像模块，用于拍摄待试穿衣服的图片；

或者

12.根据权利要求9-11任一项所述的装置，其特征在于，衣服图片变形模块包括：第一分支卷积神经网络模块、第二分支卷积神经网络模块和解码器，其中

13.根据权利要求12所述的装置，其特征在于，

所述第一分支卷积神经网络模块由N个神经网络子模块串联构成，其中第一至第N-1神经网络子模块由卷积层、激活函数层和批标准化层串联构成，第N神经网络子模块由卷积层和激活函数层串联构成；

14.根据权利要求9所述的装置，其特征在于，所述用户图片变形模块包括：第一对抗神经网络模块，其中所述第一对抗神经网络模块包括Unet网络构成的生成器和patchdiscriminator网络构成的判别器，其中所述用户的图片输入第一对抗神经网络模块。

15.根据权利要求14所述的装置，其特征在于，用户图片变形模块还包括：

16.一种计算机设备，包括处理器和存储有程序的存储器，其特征在于，所述程序被处理器执行时实现权利要求1-8中任一项所述的方法。

17.一种计算机可读介质，存储有程序，其特征在于，所述程序被执行时实现权利要求1-8中任一项所述的方法。