CN114356084A

CN114356084A - 图像处理方法、系统及电子设备

Info

Publication number: CN114356084A
Application number: CN202111602632.1A
Authority: CN
Inventors: 李朝; 林超; 邹朋成; 章嘉伦; 胡始昌
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15

Abstract

本申请实施例提供一种图像处理方法、系统及电子设备。其中，方法包括如下的步骤：响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。采用本申请提供的技术方案，能够实现集商品对应的展示图、商品对应的描述信息(或称为商品卖点)、商品对应的多媒体展示信息为一体化的自动生成方案，这利于帮助用户及时上新商品、并有效帮助用户减低经营成本和维度时间。

Description

图像处理方法、系统及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、系统及电子设备。

背景技术

商家对自家商品，比如服装的宣传，使用真人展示的效果肯定要比仅展示服装效果要更好、更直观。但是商家的服装种类众多，如果每件服装都找一个模特进行拍摄，那么拍摄成本会很高，服装种类更换又非常快，每次更换以后都要再重新拍摄又会增加成本，并且也不是每家都有条件进行模特的拍摄。另外，商家除了需要找模特进行服装的拍摄外，还需花费大量时间与精力编辑服装的卖点、制作宣传视频等，这些无疑又会增加商家的成本，同时还可能会致使商家无法对服装进行及时上新，服装的无法及时上新将会给商家造成一部分损失。

基于上述现存的痛点，急需一种既能实现模特快速虚拟换衣、同时又能自动生成服装卖点、模特口播服装卖点的服装宣传视频等的技术方案。

发明内容

鉴于上述问题，本申请提供一种解决上述问题或至少部分地解决上述问题的图像处理方法、系统及设备。

在本申请的一个实施例中，提供了一种图像处理方法。该方法包括：

响应于用户通过客户端针对一商品触发的请求，确定商品图像及模特图；

对所述商品图像及所述模特图进行处理，得到模特展示所述商品的展示图；

获取反映所述商品特点的描述信息；

基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。

在本申请的另一个实施例中，还提供了一种图像处理方法。该方法包括：

获取用户输入的模特展示商品的展示图像；

获取所述展示商品的描述信息；

根据所述描述信息及所述展示图像，生成模特所述商品的展示视频。

在本申请的又一个实施例中，还提供了一种图像处理方法。该方法包括：

响应于用户针对一商品触发的请求，获取商品图；

确定模特图；

对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；

获取反映所述商品特点的描述信息；

基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息，便于用户将所述多媒体展示信息作为展示内容展示在所述商品对应的展示页内。

在本申请的又一实施例中，还提供了一种图像处理系统。该系统包括：

客户端，用于响应于用户针对一商品触发的请求，向服务端发送相应的请求信息；

服务端，用于接收到所述请求信息后，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息；将所述多媒体展示信息发送至客户端；

所述客户端，还用于播放所述多媒体展示信息。

在本申请的又一实施例中，还提供了一种电子设备。该电子设备包括处理器及存储器，其中，所述存储器，用于存储一条或多条计算机指令；所述处理器，与所述存储器耦合，用于所述至少一条或多条计算机指令，以用于实现上述各方法实施例中的步骤。

本申请实施例提供的技术方案，用户可通过客户端针对一商品触发请求，请求中可携带有商品图及模特图。在响应用户触发的请求并确定出商品图及模特图后，通过对商品图及模特图进行处理，可自动得到模特展示该商品的展示图。另外，在其他一些实施例中，请求中也可仅携带有商品图，在响应用户触发的请求并获取到商品图后，可针对商品图来自动确定相应的模特图，从而再通过对商品图及模特图进行处理得到模特展示商品的展示图。此外，上述展示图除通过基于确定的商品图及模特图生成得到外，还可以直接由用户上传。在得到展示图的基础上，可自动获取反映展示图中商品特点的描述信息，商品对应的描述信息自动生成，使得用户无需花费精力编辑商品卖点。进一步地，根据展示图及描述信息，还可自动生成商品对应的多媒体展示信息，该商品对应的多媒体展示信息的自动生成，使得商品无需专业模特代言，这能有效帮助降低用户经营成本。

综上可见，本申请方案整体实现了集商品对应的展示图、商品对应的描述信息(或称为商品卖点)、商品对应的多媒体展示信息为一体化的自动生成方案，整个过程只需用户上传一张商品图(或者同时上传一张模特图，在商家未上传模特图的情况下，本方案也能够为商家自动提供适配的模特图)，无需用户进行其它参与，这使得用户可以随时随地对商品进行拍摄上传，并在极短时间内即可获得商品对应的展示图、多媒体展示信息等，具有较强的可扩展性和时效性，利用帮助用户及时上新商品、并有效帮助用户减低经营成本和维度时间。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的图像处理方法的流程示意图；

图2示出了从应用界面角度示出了本申请实施例提供的技术方案的示意图；

图3a示出了诸如用于虚拟换衣的图像处理模型的训练原理示意图；

图3b示出了利用训练好的图像处理模型进行虚拟换衣的效果图；

图4示出了生成反映商品特点的文本描述信息的原理示意图；

图5示出了文本转语音的原理性示意图；

图6示出了利用音频生成商品对应的多媒体信息(即视频)生成的原理性示意图；

图7示出了本申请另一实施例提供的图像处理方法的流程示意图；

图8示出了本申请又一实施例提供的图像处理方法的流程示意图；

图9示出了本申请又一实施例提供的图像处理方法的原理流程图；

图10示出了本申请一实施例提供的图像处理装置的结构示意图；

图11示出了本申请另一实施例提供的图像处理装置的结构示意图；

图12示出了本申请又一实施例提供的图像处理装置的结构示意图；

图13示出了本申请一实施例提供的电子设备的结构示意图。

具体实施方式

现有技术方案中，还未存在一种既能够实现模特快速虚拟换衣，同时又能实现自动生成服装卖点、模特口播服装卖点的服装宣传视频等的方案。而且，现有虚拟换衣方案，多依赖于3D(即三维)技术，3D虚拟换衣需要大量的人工干预，同时还需设计3D虚拟模特，因受限于3D技术，所设计的3D虚拟模特往往缺乏真实性，目前并无法还原真实的模特形象，为此，利用3D技术制作的服装宣传视频，常存在服装与虚拟模特的整体违和感比较强，模特更偏向于一个动漫人物，其脸部表情和动作往往也较为僵硬，缺乏自然、逼真性。

另外，现有的3D虚拟换衣，需依赖于专业人员设计，方案可扩展性差，且只要不同的服装存在稍微差别，就需要专业人员进行专门设计，维护成本较高，这也同时导致了针对同一款式的服装，在花纹、颜色等不同的情况下，都需要定制，时效性差。因基于 3D的虚拟换衣，存在可扩展性差、维护成本高及时效性差等的问题，为此，在更新迭代快速的服装行业，并无法满足及时生成身穿新服装的模特图像，从而导致了3D虚拟换衣无法大规模商用。为此，本申请提供了如下实施例以解决现有技术中的问题，能针对不同的服装，快速生成相应的模特图像，并可以自动生成服装的卖点以及对应的模特口播服装卖点的服装宣传视频，能降低商家经营成本和维度时间。需说明的是，上下文中所述的服装的卖点指的是能够反映服装特点的描述信息。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。在本申请的说明书、权利要求书及上述附图中描述的一些流程中，包含了按照特定顺序出现的多个操作，这些操作可以不按照其在本文中出现的顺序来执行或并行执行。操作的序号如101、102等，仅仅是用于区分各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。此外，下述的各实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在介绍本申请提供的各实施例之前，对本申请实施例提供的技术方案适应的场景作出简要的介绍。

本申请实施例提供的技术方案，适用的场景可以为但不限于虚拟代言场景，虚拟代言是指根据用户输入的商品(如服装)的商品图及模特图，通过综合如二维虚拟换衣、商品卖点生成、文本转音频、音频驱动人脸等多种AI(人工智能)技术手段，生成虚拟模特口播商品卖点的视频(以下简称模特口播商品卖点的视频)，实现类似真人的口播代言效果；其中，商品卖点指的是能反映商品特点的描述信息。例如，如图2示出的场景，采用本申请实施例提供的技术方案可为商家提供集商品展示图合成、商品卖点生成及模特口播商品卖点视频生成为一体的服务。具体地，商家可通过客户端401(如智能手机、台式计算机、平板电脑等)上传一个模特图I(如之前拍摄的模特穿着服装a的照片)及一个商品图g(如之前拍摄的服装b的平铺图)；然后，商家触发客户端的交互界面上的功能引导元素，如点击“图像合成”控件，服务端402针对商家触发的“图像合成”操作，对商家输入的模特图I及商品图g进行处理便可得到模特穿着服装b对服装b进行展示的展示图I’，并将展示图I’发送至客户端401以显示。生成展示图I’所采用的图像处理模型(如图3a所示)包含有形变网络和合成网络，其是经过两个训练阶段进行训练得到的，具有较好的性能和精度，能使得商品图g经变形网络进行变形后，所得到的商品形变图g’中的服装样式与模特图I中模特的身形、姿态匹配，之后在将商品形变图g’和模特图I经过合成网络，便能将形变后的服装与模特图I中的模特进行高度贴合，从而生成具有较好效果的模特穿着服装b对服装b进行展示的展示图I’。关于对图像处理模型的具体训练可参见下文相关内容，此处不作具体赘述。

进一步地，若商家不只是想要将合成得到的展示图I’在电商平台进行静态推广，还想要制作模特口播服装b卖点的视频，以将该视频放在服装b展示页面上进行动态口播推广，此时商家可以点击客户端的交互界面上的如“视频生成”控件，服务端402通过进一步处理也就能够得到相应地模特口播服装b卖点对应的视频(即图中示出的多媒体展示信息C)，并将该模特口播服装b卖点对应的视频发送至客户端。上述模特口播服装b卖点的视频是利用所得到的驱动视频来驱动展示图I’中模特的嘴部作相应动作得到的，而驱动视频则是在利用多模态文本生成方法得到反映服装b特点的描述信息，并利用如TTS(Text To Speech,文本转语音)技术生成与描述信息相对应的音频基础上，基于该音频和预设视频，利用预先训练好的驱动模型，来使得预设视频中的目标对象嘴唇按音频做出相应的发音动作、面部按音频做出相应的表情动作得到的。这种模特口播服装b卖点的视频生成方式，能够使得视频中模特口播服装b卖点达到类真人效果。关于模特口播商品卖点的视频生成的具体实现过程(如图3b所示)，可参见下文相关内容，此处不作赘述。

当然，上述中，在商家仅只要想要得到模特口播商品(如服装)卖点的视频，如模特口播服装b卖点视频的情况下，商家在通过客户端上传一个模特图I(如之前拍摄的模特穿着服装a的照片)及一个商品图g(如之前拍摄的服装b的平铺图)后，可以直接点击客户端的交互界面上的如“视频生成”控件，以得到相应模特口播服装b卖点对应的视频。本申请对模特口播服装b卖点对应的视频具体得到方式并不作限定。

除了服装对应的多媒体展示信息生成之外，本申请提供的技术方案还适用于其它类型商品，比如鞋靴、包(手提包、书包、箱包等)、围巾、帽子、手套、皮带、饰品(如手镯、戒指、项链、耳环、头饰等)、手表、手持电子设备(如手机、笔记本电脑、平板电脑等)等等，本申请实施例对此并不作限定。在下文各实施例中，主要是以服装为例来介绍本申请提供的技术方案的。

上述中，本申请所用到的图像处理模型、驱动模型等，可以是通过大量训练样本对机器学习模型训练得到的。具体地，对于模型训练可由服务端负责。例如，服务端对图像处理模型、驱动模型进行训练，然后将完成训练的图像处理模型、驱动模型下发至客户端；客户端将接收的图像处理模型、驱动模型自动装载于本地，之后便可在本地直接利用图像处理模型、驱动模型等对商家通过客户端输入的商品图及模特图进行处理，得到模特口播商品卖点的视频。或者，上述图像处理型、驱动模型等的训练，以及利用图像处理模型、驱动模型等完成模特口播商品卖点的视频生成均由服务端执行，客户端作用是向服务端发送用户输入的模特图及商品图，随后接收服务端反馈的模特口播商品卖点的视频并进行播放展示。图2中示出了模型训练及模特口播商品卖点的视频生成均由服务端402完成的情况。

下面对本申请提供的各实施例进行介绍说明，以阐述模特口播商品(如服装)卖点的视频生成的具体实现过程。需说明的是，在下文具体介绍本申请提供的技术方案时，上文中所述的模特口播商品卖点的视频，将被称为商品对应的多媒体展示信息；另外，本申请中上下文中出现的“商家”、“用户”均指的是具有商品对应的多媒体展示信息生成需求的需求者，采用不同的称谓描述仅是为了适应相应的场景描述需求。

图1示出了本申请一实施例提供的图像处理方法的流程示意图。本实施例提供的所述方法的执行主体可以是服务端，所述服务端可以是单个服务器、服务集群、部署在服务器上的虚拟服务器或云端等等，本实施例对此不作限定。如图1所示，所述方法包括：

101、响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图；

102、对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；

103、获取反映所述商品特点的描述信息；

104、基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。

参见图2所示的示例，上述用户通过客户端针对一商品触发的请求，可以是生成一商品对应的多媒体展示信息的请求，该请求可是用户针对一商品，通过客户端显示的交互界面输入相应的商品图及模特图之后，进一步地基于客户端提供的交互方式(如鼠标、语音、键盘等)触发的。例如，用户针对一商品(如服装b)，通过客户端显示的交互界面输入了相应的一张商品图g(如之前拍摄的服务b的平铺图)及一张模特图I(如之前拍摄的模特穿着服装a的照片)后，利用如鼠标点击交互界面上的“视频生成”控件，此时客户端401便会向服务端402发送生成如服装b对应的多媒体展示信息的请求，该请求中会携带有用户所输入的商品图g及模特图I，这样服务端402在接收到客户端发送的请求并响应该请求后，便可从请求中直接确定出商品图g及模特图I，后续经对商品图 g及模特图I进行处理，也就能够得到如服装b对应的多媒体展示信息，该多媒体展示信息即为原模特图I中的模特穿着服装b口播服装b卖点(即反映服装b特点的描述信息) 的动画视频。即也就是说，在一可实现方案中，上述101中的商品图及模特图可以是从请求中获取，而请求中携带的商品图及模特图则是用户通过客户端显示的交互界面输入的。具体实施时，用户输入的商品图及模特图，可以是用户从图库中选出的，图库可以是客户端本地存储的(如相册)，也可以是网络侧其他设备上存储的，本实施例对此不作限定。

当然，在其他一些实施例中，用户也可以不输入模特图，仅输入商品图。服务端在接收到用户针对一商品触发的请求，并从请求中确定出商品图后，可以对商品图进行图像识别分析，以确定商品的类别，然后从预置的多个模特图中选择出与商品类别相适配的目标模特图，该目标模特图即作为确定出的模特图。比如，经对商品图进行识别，确定出商品图中的商品为女装，此时则可以从预置的多个模特图中选出一张图中模特为女模特的模特图。本实施例对模特图的具体确定方式并不作限定。

在确定了商品图及模特图之后，为后续实现生成商品对应的多媒体展示图，需先对商品图及模特图进行处理得到模特展示该商品的展示图。而为能得到效果较好的模型展示该商品的展示图，则需要针对商品图及模特图执行两大处理，即形变处理和贴合处理。形变处理的目的是使得商品图中的商品形变成与模特图中的模特身形、姿态等匹配的形状，以便后续在针对形变后的商品与模特图像中的模特执行贴合处理时，可实现形变后的商品与模特的高度贴合，从而得到效果较好的模特展示商品的展示图。上述中，在执行贴合处理过程中，还需消除不必要的贴合瑕疵、填补一些必要的缺失区域等。基于上述描述，本实施例提供了一包含形变网络和合成网络的图像处理模型，用于实现针对商品图及模特图所需进行的形变处理和合成处理，以此得到模特展示商品的展示图。即，

在一具体可实现技术方案中，上述102“对所述商品图及模特图进行处理，得到模特展示所述商品的展示图”，可具体包括如下步骤：

1021、获取图像处理模型；其中，所述图像处理模型包括形变网络和合成网络；

1022、将所述商品图及所述模特图输入所述形变网络，输出按照所述模特图中模特姿态对所述商品图中的商品进行形变后的商品形变图；

1023、将所述商品形变图及所述模特图输入所述合成网络，输出模特展示所述商品的展示图。

上述1021中，图像处理模型主要包括两个层级网络，即形变网络和合成网络(如图3所示)。形变网络用于按照模特图中模特姿态对商品图中的商品进行形变，得到相应的商品形变图；合成网络，用于对商品形变图及模特图进行合成，得到相应的模型展示商品的展示图。上述图像处理模型可以为但不限于机器学习模型，且图像处理模型为服务端事先训好的模型，服务端可以将该事先训练好的模型部署于本地以在需要时进行调用。也就是说，图像处理模型的获取可以为从本地获取。关于对图像处理模型的训练，可参见下述相关内容。

上述1022至1023中，服务端获取到图像处理模型后，便会将确定出的商品图及模特图作为图像处理模型的输入，通过执行该图像处理模型来得到模特展示商品的展示图。具体地，商品图和模特图输入至图像模型后，会先被输入至形变网络，执行形变网络，形变网络将输出按照模特图像中模特姿态对商品图中的商品进行形变后的商品形变图，比如图2中示出的商品形变图g。进一步地，商品形变图及模特图会被输入至合成网络，执行该合成网络，该合成网络对商品形变图及模特图进行贴合处理，即会输出模特展示商品的展示图，比如，图2中示出的模特展示服装b的展示图I’，得到该展示图I’的过程也即为对模特图中的模特进行二维虚拟换衣的实现过程。其中，虚拟换衣，指的是给定一张包含模特处于任一姿态、穿着任意服装的模特图I，以及一张包含目标服装的商品图，利用虚拟换衣算法生成一张模特处于同一姿态、穿着目标服装的展示图I’，在该展示图I’中目标服装的细节要求能够保持下来。也就是说，展示图I’相比于模特图I，差别仅在于模特穿着的服装不同。

上述中，服务端训练图像处理模型的过程，总体上分为两个训练阶段，即第一训练阶段和第二训练阶段。第一训练阶段主要是利用训练集对图像处理模型进行训练，使得该图像处理模型初步具有如二维虚拟换衣能力。第二训练阶段则是进一步地利用相应的第二训练集对图像处理模型进行进一步地训练，以修复第一训练阶段存在的缺陷，最终使得图像处理模型具有输入一张模特图和一张商品图，即可生成相应的商品展示图的能力。具体地，图像处理模型的训练过程包括如下步骤：

A11、利用第一训练集，对所述图像处理模型进行第一阶段训练；

A12、确定模特样本图及所述模特样本图中模特展示第一样本商品对应的样本商品图；

A13、利用完成第一阶段训练的所述图像处理模型，生成所述模特样本图中模特展示第二样本商品的样本展示图；

A14、将所述模特样本图、所述第一样本商品对应的样本商品图及所述样本展示图作为第二训练样本集中的训练样本；

A15、利用第二训练集，对所述图像处理模型进行第二阶段训练。

上述A11中，第一训练集中包含有模特样本图及商品样本图，该模特样本图及商品样本图可以是从相应的数据集网站中获得，也可以是通过直接拍摄获得，此处不作限定。在利用第一训练样本集中的模特样本图及商品样本图进行训练时，并非直接将模特样本图像输入到图像处理模型的网络(如变形网络、合成网络)中，需先对模特样本图像进行预处理，以去除掉模特样本图像中模特身上原有服装的信息，提取出与服装无关的模特对应的人体分割图、人体姿态热图(Pose map)等；上述预处理可由图像处理模型中的预处理模块完成。之后，再将人体分割图、人体姿态热图及样本商品图输入至网络中，以对图像处理模型进行第一阶段的训练。具体地，

如参见图3a示出的图像处理模型训练原理性示意图，在对图像处理模型进行第一阶段训练时，假设商品为服装，基于第一训练集向图像处理模型输入了一张模特穿着第一样本服装(如灰色短袖)的第一模特样本图以及一张包含第二样本服装(如黑色短袖) 的第二样本服装图，第一模特样本图会先输入至预处理模块，执行预处理模块，该预处理模块将会利用自身内置的姿态估计算法对第一模特样本图中的模特的姿态信息进行提取，在提取姿态信息时，一般是通过提取18个关键点的形式，然后将每个关键点都转换成热图，最终将这些关键点的热图结果合并，以此得到一个18通道的人体姿态热图11。此外，预处理模型还会利用自身内置的人体分割算法来对第一模特样本图进行分割处理，去除第一模特样本图中的服装区域(即模特所穿着的灰色短袖对应的区域)，得到人体分割图12并输出。预处理模块除了可以对模特样本图进行处理之外，也还可以对第二样本服装图进行预处理，以滤除第二样本服装图中的噪声点、提高第二样本服装图的清晰度等；当然，在第二样本服装图为高质量样本图的情况下，第二样本服装图也可以不经预处理模块进行处理，此处对此不再限定。从预处理模块输出的人体分割图12、人体姿态热图11、第一样本服装图会作为形变网络输入，执行该形变网络，形变网络将会对样本服装图进行特征分析与提取，得到一个形变前的服装掩码M；然后，结合人体姿态热图，还会生成一个形变后的服装掩码M’；通过对形变前和形变后的服装掩码形变作诸如 TPS变换得到变换参数，利用变换参数将第一样本服装图中的黑色短袖扭曲成人体穿着该黑色短袖的形状，得到相应的服装形变图(如图中示出的服装形变图g’)。该形变网络对应的损失函数L_wap表达式为：

L_warp＝L1+L2＝λ₁‖c-c′‖₁+λ₂‖M-M′‖₁ (1)

式(1)中，L1＝λ₁‖c-c′‖₁，表示形变前的样本服装图与形变后的样本服装图间的损失； L2＝λ₂‖M-M′‖₁，表示为形变前样本服装图对应的服装掩码M与形变后样本服装图对应的服装掩码M’的损失。其中，λ₁与λ₂为超参数，该超参数是在训练之前设置的已知参数。

通过上述训练，能使得形变网络具备将一个商品图中的商品(如服装)形变成与模特图中的模特对应的姿态向匹配的样式。

然后，将人体分割图12，服装形变图g’以及人体姿态热图11联合共同作为合成网络的输入，该合成网络可以为但不限于残差结构的Res-UNet网络，利用Res-UNet网络的 U形网络与跳层连接(图中未示出)，可进行下采样提取特征，下采样进行特征结耦，且 Res-UNet网络中的每一层中均加入一个残差连接(residual connection)(图中未示出)，以用于将浅层的输出和深层的输出求和作为下一阶段的输入，通过残差连接可以让多层结构的Res-UNet网得以收敛，从而也在相应的任务中达到较高的精度。将人体分割图12，服装形变图以及人体姿态热图共同输入至合成网络(如Res-UNet)后，执行合成网络便可生成并输出模特穿着黑色短袖的第一样本展示图，使得该第一样本展示图除了模特所穿着的服装不同之外，其它均尽最大可能的接近第一模特样本图。合成网络对应的损失函数可以如下：

L_synthetic＝L3+L4＝λ₃‖I-I′‖₁+λ₄∑_n‖V_n(I)-V_n(I′)‖₁ (2)

式(2)中，L3＝λ₃‖I-I′‖₁，表示为原始的第一模特样本图与经换衣之后所得到的第一样本张氏图I’之间的损失；L4＝λ₄∑_n‖V_n(I)-V_n(I′)‖₁，其中，λ₄||Vn(I)-Vn(I’)||表示合成网络中的第n层的特征图(feature map)对应的特征级损失，相应地，L4则表示合成网络中的n个网络层的特征图(feature map)对应的总特征级损失，n的数值是根据合成网络所具有的网络层数量确定，比如，合成网络在为Res-UNet网络结构的情况下，具体为16层级的深层卷积网络结构(可简记为VGG-16)，则n为16。上述λ₃、λ₄均为超参数，同样也是在训练之前已设置好的已知参数。本实施例对λ₃、λ₄，以及上述的λ₁与λ₂等超参数的设置，是根据实际情况灵活设置的，此处对此并不作具体限定。

上述式(2)中，考虑到单纯基于像素级的损失函数(即L3)是难以判断生成的第一样本展示图I’与原始的第一模特样本图I的相似性的，比如，在两张一样的图像，只不过在位置上有稍微偏移时，此时计算得到这两个图像间的损失至可能非常大。为此，本实施例中引入了特征级的损失函数(即L4)，该特征级的损失函数可称为感知损失(perceptualloss)。感知损失将生成问题看作变换问题，通过比较生成图像(如第一样本展示图I’)经过特征提取网络的特征值和真实图像(即原始的模特图，如第一模特样本图I)经过特征提取网络的特征值，使得生成图像和真实图像在语义上更加相似。上述L4中，Vn(I’)指的是生成图像和真实图像经过如VGG-16特征提取网络得到的第n层中间层的特征图。

综上，经过上述第一阶段的训练，将使图像处理模型具备初步的二维换衣能力。但有上不难看出，上述训练是依赖于各种特征，这往往易导致瑕疵，故需再次经第二阶段进行训练已进行修复瑕疵。上述中，第一训练阶段对应的总损失函数即为形变网络与合成网络各自对应的损失函数的叠加。即，第一训练阶段对应的总损失函数L为：

L＝L_warp+L_synthetic

在完成上述第一阶段的训练之后，此时图像处理模型已具备初步的二维换衣能力。针对图像处理模型的第二训练阶段，可以经由上述步骤A12确定模特样本图及模特样本图中模特展示第一样本商品对应的样本商品图，以用于图像处理模型的第二阶段的训练。具体实施时，上述A12中的模特样本图可以从第一训练集中获取，不过这样的话，因第一训练集中不包含模特样本图中模特展示第一样本商品对应的样本商品图，此时还需进一步地从相应的数据集网站中获取模特样本图中模特展示第一样本商品对应的样本商品图；或者，上述模特样本图和模特样本图中模特展示第一样本商品对应的样本商品图也可以直接拍摄获得，此处不作限定。

这里，考虑到上述采用从数据集网站或直接拍摄方式，获取模特样本图像时，往往获取的模特样本图像数量有限，且难以获取到相同模特相同姿态、不同服装的模特样本图数据。基于此，为扩大第二训练阶段的训练样本量，且使得训练样本具有多样性，比如训练样本中具有相同模特相同姿态、不同服装的模特样本图数据。本实施例在对图像处理模型进行第二阶段训练开始前，在上述步骤A13中，将先依赖于第一训练阶段得到的图像处理模型，生成模特样本图中展示第二样本商品的样本展示图。具体实现时，可先获取多个包含第二样本商品的样本商品图，之后，将上述该包含第二样本的样本商品图以及经由步骤A12确定出的模特样本图输入至利用第一训练阶段得到的图像处理模型中，便可生成相应的模特样本图中展示第二样本商品的样本展示图。基于此，是可以得到多组样本展示图的，每组样品展示图中包含多个相同模特、相同姿态、不同服装的样本展示图。

上述A14至A15中，是通过将上述经由步骤A12至A13得到的模特样本图、第一样本商品图对应的样本商品图及样本展示图作为第二训练样本集中的训练样本，从而利用第二训练样本集，来完成对图像处理模型的第二阶段训练，以修复第一训练阶段所存在的瑕疵。

具体实施时，继续参见图3a所示，图像处理模型的第二阶段训练过程具体为：

假设，商品为服装，则在依据第二训练样本集对图像处理模型进行第二阶段训练时，是将模特穿着第二样本服装的样本展示图(如图中示出的模特穿着黑色短袖的第一样本展示图)、及第一样本服装对应的样本商品图(如图中示出的褐色短袖对应的第一服装本图)作为图像处理模型的输入，之后执行图像处理模型，模特穿着第二样本服装的样本展示图及第一样本服装对应的样本商品图，依次经过图像处理模型中的变形网络、合成网络处理，即可输出一个新的模特穿着第一样本服装对应的模特图(如图中输出的第一输出图)，该第一输出图会尽可能的与第二训练样本集中的模特穿着第一样本服装的模特样本图(如图中示出的第一模特样本图)接近。在训练过程中，会通过不断计算图像处理模型的总损失来优化模型中的相关参数，以得到性能较好的图像处理模型。其中，第二阶段训练过程中的总损失的计算类似于第一阶段训练过程中的总损失的计算，具体计算过程可参见上述第一阶段训练过程的总损失计算，此处不作具体赘述。

经过第二阶段的训练，最终得到的图像处理模型，用户只需输入一张模特图及一张商品 (如服装)对应的商品图，便可得到与用户所输入的模特图具有相同模特、相同姿态的模特展示用户所输入的商品图中的商品的展示图。

本实施例提供的图像处理模型，能够更加专注于商品局部能力的实现，降低商品对应的展示图生成难度，消除因特征空间过大，最终换衣效果不稳定的问题。

图3b中示出了最终实现的虚拟换衣效果示意图。在该图3b中，从左到右依次为所输入的原始的模特图、所输入的服装对应的服装图、以及最终生成的模特换衣后的换衣模特图(即模特展示服装的展示图)。

经由上文处理步骤，在得到模特展示用户所输入的商品图中的商品的展示图后，需进一步地生成商品的卖点，商品卖点生成指的是根据用户输入的商品图自动生成反映商品特点的文本描述信息，以便后续在对商品进行虚拟代言处理时，作为虚拟模特代言商品口播的文本内容。本实施例为能够自动全面获得反映商品特点的文本描述信息，参见图4所示，可针对用户输入的商品图，采用多模态信息提取方式来实现，多模态信息提取方式可以为先不限于提取商品图的图像特征、结合商品的固有属性信息(如商品类目、商品标题等)、引入知识图谱等。基于此，

在一种可实现技术方案中，上述103“获取反映所述商品特点的描述信息”，可具体包括：

1031、从所述商品图中提取图像特征；

1032、获取所述商品图对应商品的商品信息；

1033、基于所述商品信息，确定与所述商品相关的文本特征；

1034、融合所述图像特征及文本特征，得到融合信息。

上述1031中，可通过计算机识别图像内容技术，从商品图中提取图像特征，获得商品图的图像特征向量表达。具体实现时，上述商品图的图像特征提取，可利用预先训练号的图像特征提取模型来完成，该图像特征提取模型的训练，可以是通过对待训练的机器学习模型，比如神经网络模型Resnet进行训练得到，具体训练过程可参见现有内容，此处不作描述。

上述1032中，商品图像对应商品的商品信息可以包括但不限于商品标题、类目(如服装类)、属性、描述文本等。商品信息可以通过诸如OCR(Optical CharacterRecognition，光学字符识别)技术，对商品图进行识别获得；或者，商品信息也可以是用户通过客户端提供的交互界面直接上传；再或者，商品信息也可以是由服务端直接基于商品图进行搜书得到，等等，本实施例对商品信息获取的方式不作具体限定。

上述中，商品信息中的商品标题一般是在商品名称的基础上，加上的一些稍微功能解释所组成。比如，以服装为例：秋冬季连衣裙、冬季短款羽绒服、###新款夏装短袖等等。商品类目即商品所属类别，如服装类。对于商品属性，在不同层面上具有不同的含义，比如，在商品层面上，“属性”常指的是构成商品的组成部分，比如以服装为例，在商品层面上的属性是指服装版型、袖型、风格、材质等属性类别；在商品描述层面上，“属性”常指的是某属性类别下的具体属性表现，即为各属性类别下的实例化表项情况。比如，在描述服装商品的版型时，通常运用“直筒”、“A型”等属性进行描述。描述文本，可指的是各属性类别下的实例化表项，或者也可以是诸如生产地等文本信息，本实施例对此并不需限定。

基于获取到的商品信息，进一步地可确定与商品相关的文本特征。比如，可从商品信息中提取与商品相关的标题及属性等的文本特征，和/或利用知识图谱，借助商品信息获取商品信息之外其它一些与商品相关的文本特征等。基于此，为获取较为全面的反映商品特征的描述信息，上述1033“基于所述商品信息，确定与所述商品相关的文本特征”的一种可实现技术方案为：

10331、从所述商品信息中提取第一文本特征；

10332、从知识图谱中选取与所述商品相关的词条；

10333、基于选取出的词条，确定第二文本特征。

上述10331中，可以在从商品信息中获取到诸如商品的标题、属性等的基础上，通过文本向量化表征模型(如BERT模型)生成标题、属性等的word embedding文本嵌入向量表达，从而也就得到了相应的第一文本特征。这里，在生成第一文本特征过程中，可以是在商品标题嵌入表征的基础上，在每一个时间片上进一步地结合词的位置信息嵌入，同时还会将属性嵌入，属性嵌入可使得获得更加丰富的商品标题属性表达(即第一文本特征)。

需说明是的是：上述word embedding指的是将词转化为一种分布式表示，又称为词向量。该分布式表示是将词表示成一个定长的连续的稠密向量，关于word embedding的具体介绍及实现可参见现有内容。

上述10332和10333中，知识图谱为一种知识库，在该知识库中数据以K-V格式保持，不同场景下K和V各自对应的含义也将不同，在本实施例中，K表示词条、V表示每一个词条对应的文本描述。这里使用知识图谱可以获取商品信息之外的其它与相关的文本信息，以丰富商品对应的描述信息。具体实现时，可通过商品信息中的标题信息从知识图谱中选取与标题最相似的N₀个相关词条。在选取与标题相似的词条过程中，可以采用诸如bm25(Best Match 25，25次算法迭代匹配)算法来计算文本相似性。当然，也可以采用其他的文本相似计算算法，如距离的度量计算方式，本实施例对文本相似性的计算方式并不作限定。上述中， N₀的取值可以根据实际情况灵活确定，比如N₀可以取3、5等，此处不作限定。

选取出N₀个词条后，可从知识图谱中获取该N₀个词条各自对应的文本描述，然后针对该N₀个词条各自对应的文本描述，可以采用文本向量化表征模型(如BERT模型)生成各词条的文本嵌入向量表达，并按顺序拼接获取完整的商品知识图谱描述向量(即第二文本特征)。进一步地，经由上述步骤10331至10333得到与商品相关的第一文本特征、第二文本特征后，可利用编码网络模型来先对第一文本特征和第二文本特征进行编码处理，以优化第一文本特征、第二文本特征的文本表达，得到相应的第一文本特征向量及第二文本特征向量；之后在利用注意力机制对图像特征向量、第一文本特征向量、第二文本特性向量进行融合，得到融合信息。该融合信息即为最终得到的反映商品特点的描述信息。即，

在一具体可实现技术方案中，上述10334“融合所述图像特征及文本特征，得到融合信息”，具体可采用如下步骤来实现：

A21、利用编码网络模型，分别对所述图像特征、所述第一文本特征及所述第二文本特征进行编码，得到对应的图像特征向量、第一文本特征向量及第二文本特征向量；

A22、基于注意力机制融合所述图像特征向量、所述第一文本特征向量和所述第二文本特征向量，得到所述融合信息。

具体实施时，上述编码网络模型中可包括多个编码网络，一个编码网络用于一个文本特征(或图像特征)的编码处理，编码网络的结构形式可以为但不限于Transformer多层网络结构，Transformer多层网络结构是完全由注意力(Attention)机制组成的结构，关于对Transformer多层网络结构的具体介绍可参见现有内容。

实际应用中，编码网络模型中的编码网络的数量，是根据实际情况灵活设置，比如编码网络的数量可以为1个、3个、4个等，此处不作限定。在本实施例提供的技术方案中，根据实际需求，设置有3个编码网络。如图4所示，该3个编码网络，即为第一编码网络、第二编码网络和第三编码网络。第一编码网络用于对从商品图像中提取的图像特征进行编码处理，得到该图像特征对应的图像特征向量；第二编码网络及第三编码网络，则分别用于对第一文本特征、第二文本特征进行优化编码处理，得到与第一文本特征、第二文本特征分别对应的第一文本特征向量、第二文本特征向量。具体地，对于第一文本特征，是在第一文本特征的基础上结合词的位置信息向量，作为第二编码网络输入，执行第二编码网络可生成第一文本特征的第一隐向量表示(即第一文本特征向量)；同理，对于第二文本特征，在第二文本特征的基础上结合词的位置信息向量，作为第三编码网络的输入，执行该第三编码网络便能够生成第二文本特征的第二隐向量表示(即第二文本特征向量)。进一步地，利用编码网络模型中的Attention机制对图像特性向量、第一文本特征向量及第二文本特征向量进行融合处理，得到相应的融合信息。该融合信息即为由编码网络模型的输出。

进一步地，为得到反映商品特征的描述信息，从编码网络模型中输出的融合信息，还需经过对应的解码网络模型进行解码处理。这里，与编码网络模型相应的，解码网络模型中可包含有3个解码网络(图中未具体示出)，解码网络的结构形式可以为但不限于Transformer多层网络结构。本实施例中，在构建解码网络模型时，解码问题被建模成一个最大似然估计模型，相应的目标函数表达式如下：

式中，x表示编码后的第一文本特征向量，即商品标题属性信息；k表示编码后的第二文本特征向量，即商品对应的商品知识图谱描述向量；P表示编码后的商品对应的图像特征向量；y表示目标序列，即为要得到的反映商品特点的描述信息，t表示目标序列的不同时间步。

将从编码网络模型输入的融合信息，输入至解码网络模型中进行解码处理，便可得到反映商品特点的描述信息。

由上可见，本实施例整体是采用了Seq2Seq的序列生成模型架构，来实现反映商品特定的描述信息的获取的。Seq2Seq是一个编码(Encoder)–解码(Decoder)结构的网络，其输入是一个序列，输出也是一个序列。Encoder用于将一个可变长度的源序列转码为带有上下文信息的固定长度的中间向量表达，接着Decoder会将该固定长度的中间向量表达转码为输出可变长度的目标序列。在本实施例中，输入至编码网络模型的图像特征向量、第一文本特征向量、第二文本特征向量即为源序列，编码网络模型输出的融合信息即为中间向量表达，解码网络模型所输出的目标序列即为反映商品特点的描述信息。示例性地，如以图2或图3a中示出的黑色短袖为例，最终获得的反映该黑色短袖特点的描述信息可以为：该黑色短袖手感柔软厚实，携带方便，洗涤不易变形，购买方便；且该短袖穿感舒适，采用棉质或含棉质的面料制作而成；短袖较为漂亮，可穿到聚会、外出旅游等各种场合，......。

获得反映商品特点的描述信息后，为能够生成商品对应的多媒体展示信息，以实现商品的虚拟代言，需进一步地将描述信息生成音频，以基于音频，利用相应的驱动模型、预设视频、以及原生成的模特展示商品的展示图等，来得到用于制作多媒体展示信息的展示动画。即，104“基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息”，可具体包括：

1041、根据所述描述信息，生成音频；

1042、获取预设视频；

1043、将所述音频及所述预设视频输入驱动模型，输出所述预设视频中目标对象嘴部按照所述音频做出发音动作、面部按照所述音频做出表情动作的驱动视频；

1044、利用所述驱动视频，驱动所述展示图中模特做出相应动作，得到展示动画；

1045、基于所述展示动画及所述音频，生成所述商品对应的多媒体展示信息。

上述1041中，可根据描述信息，利用TTS(Text To Speech，语音合成或文本转语音)技术，生成对应的音频。所生成的音频需保证语言流畅、发音清晰、错误少，包含抑扬顿挫等，为达到这些要求，本实施例预先训练了一个文本转语音模型。如图5所示，该文本转语音模型同样采用了Seq2Seq的序列生成模型架构，即编码-解码网络架构。将描述信息输入至该文本转语音模型中，描述信息会先被输入至模型中的第四编码网络，执行该第四编码网络，将得到描述信息的一个鲁棒的中间表示序列，该中间表示序列从第四编码网络输出后，被输入至基于注意力机制的第四解码网络进行特征提取，并利用带残差模块的空洞卷积神经网络模型，将梅尔频谱特征转换为时域的波形，合成为最终的音频。

上述中，梅尔频谱(Mel spectrogram)是声音信号对应的声谱图经梅尔标度滤波器处理后，梅尔标度滤波器所输出的结果。声音信号在经过诸如分帧、加窗、傅里叶变化等处理变换到频域上，会得到相应的声谱图，该声谱图的尺寸一般较大，为得到合适大小的声音特征，需要将声谱图输入至梅尔标度滤波器，变换为梅尔频谱。

具体实施时，本实施例提供的文本转语音模型中，第四编码网络包含有三个模块，即分别为词嵌入模块，卷积模块，RNN(Recurrent Neural Network，神经网络)模块。词嵌入模块，作用是把输入的描述信息编码成固定长度的词向量。卷积模块，作用是利用多层卷积神经网络进行大规模上下文信息的捕捉，卷积后经过批归一化(Batch Normalization，BN)，再利用ReLu(Rectified Linear Unit，线性整流)函数激活。RNN 模块，采用的是双向长段时记忆网络(Bi-LSTM)，作用是得到高质量的文本序列表示。

对于文本转语音模型中的基于注意力机制的第四解码网络，其主要包括注意力机制和自回归循环神经网络。利用注意力机制，可以对输入的特征进行不同程度的关注，从而实现利用更多相关的部分，提出不相关的部分。本实施例中，采用了混合注意力机制，即基于内容的注意力机制和基于位置的注意力机制，这可使得注意力权重网络对全局有更深的了解，从而使模型在序列中持续高效地训练。自回归循环神经网络，包括Pre-net(Progressive recurrent network，逐步优化循环网络)模块、LSTM模块以及卷积神经网络模块，Pre-net模块为三层全连接神经网络，隐藏层利用dropout增加模型鲁棒性，每层由ReLU单元进行激活，得到的输出与注意力上下文向量拼接在一起，传给一个两层的LSTM模块，LSTM模块的输出再次和注意力上下文向量拼接在一起，经过一个线性变化和一个5层卷积神经网络模块预测一个残差叠加到卷积前的频谱帧上，卷积采用批归一化，用tanh进行激活，以优化整个过程。最终，将编码的输入序列预测输出为梅尔频谱特征，最后利用带残差模块的空洞卷积神经网络模型，将梅尔频谱特征表达逆变换为时域波形样本，最终转化为音频进行输出。

得到反映商品特点的描述信息对应的音频后，本实施将基于wav2lip技术和imageanimation技术，生成高真实性和清晰度的商品对应的多媒体展示视频。上述中，wav2lip技术是一种嘴型同步技术，具体是在输入的一段音频后，使图像或视频中的目标人物的唇形、嘴角等脸部变化，根据音频进行自动匹配并运动起来的技术。image animation技术是视频生成的一个子类，是将静止图像中的物体(如人物的嘴、面部等)按照驱动视频的云顶轨迹运动的一项技术，该技术要求静止图像和驱动视频的物体属于同一类别。基于上述对wav2lip技术和image animation技术的描述，本实施例在实现商品对应的多媒体展示信息生成过程中，将会基于音频及获取到的预设视频，利用预先训练好的驱动模型，来得到相应的一驱动视频，从而利用驱动视频来确定展示模型作相应动作，得到展示动画，以便后续基于展示动画及音频得到相应的多媒体展示信息。具体实现时，

上述1042至1043中，预设视频的获取可以从视频数据集网站上获取，也可以由用户上传等，此处不对预设视频的获取方式作限定，只要获取到的预设视频的目标对象与展示图中的模特属于同一类别即可。获得预设视频后，将音频及预设视频输入预先训练好的驱动模型，执行驱动模型，便能输出预设视频中的目标对象唇部按音频做出发音动作，面部按音频作出表情动作的驱动视频。

参见图6所示，本实施例提供的驱动模型仍是采用编码-解码的形式架构，也就是说，该驱动模型中同样包括编码网络和解码网络，根据实际需求，本方法中的驱动模型中具体包含有两个编码网络和1个解码网络(记为第五解码网络)，另个编码网络分别为第五编码网络和第六编码网络，其中，第五编码网络用于提取音频中的声纹特征，第六编码网络用于提取视频中的目标对象的脸部信息。音频及预设视频在输入至相应的编码网络前，会先对音频及预设视频进行切分以得到固定长度的若干个片段。例如，假设音频A切分称为固定长度的片段后，音频A的序列片段集合为：A＝{...，X_t-i，...，X_t，...，X_t+i，...}；以及预设视频B切分成若干片段后，视频B的序列片段集合为： B＝{...，Y_t-i，...，Y_t，...，Y_t+i，...}。需说明的是，在对预设视频B切分时，切分的预设视频 B的帧数长度与音频A长度等长；另外，为保证唇部口型的精准性，预设视频在输入时，保持目标对象唇部处于闭合状态。之后，将音频A的序列片段集及预设视频B的序列片段集，分别输入至相应的第五编码网络及第六编码网络，提取对应的声纹特征和人脸信息，再将得到的声纹特征和人脸信息联合作为第五解码网络的输入，执行第五解码网络，该第五解码网络便会生成对应的目标对象嘴部按音频作相应发音动作、面部按音频作相应表情动作的运动序列C，该运动序列C与相应的预设视频B的片段序列在脸部姿态和身份上均保持相同。上述运动序列C即为生成的驱动视频。

在对驱动模型进行训练过程中，是通过模型中的判别器(图中示出)及重建损失Lecon 对目标对象的嘴部、面部等运动生成进行监督：

上述式中，L_g是生成图(如运行序列C中示出的图像)，L_G是目标图(如预设视频B 的片段序列集中的图像)，N是预设视频B的切分片段的长度。L_gen是生成的对抗损失，由判别器监督。

由于上述驱动视频的生成并不依赖于预设视频B的目标对象身份，且在不同文本音频的口播中可重复使用，因此针对虚拟代言场景，只需对预设视频B的脸部运动进行特定的录制，后期便可固定作为驱动的视频序列使用。

生成相应的驱动视频后，即可利用驱动视频，结合image animation技术，来驱动展示图中的模特作相应的动作，得到展示动画。具体地，在一种可实现的技术方案中，上述1044“利用所述驱动视频，驱动所述展示图中模特做出相应动作，得到展示动画”，具体可采用如下步骤来实现：

10441、对所述驱动视频的图像帧中的运动关键点进行提取；

10442、根据提取出的各图像帧的运动关键点信息及图像帧的顺序，确定相邻图像帧间的运动信息；

10443、基于相邻图像帧间的运动信息，对所述展示图中模特相应区域的像素点进行形变，得到一帧形变图；

10444、按照所述驱动视频中图像帧的顺序，顺序播放多帧形变图，得到所述展示动画。

具体实施时，在利用驱动视频驱动展示图后的模特做相应动作的过程中，需先针对驱动视频，对驱动视频的图像帧中的运动关键点进行提取，因运动主要是脸部运动，为此，运动关键点可定义为固定数量的脸部关键点，脸部关键点为脸部区域运动的各个中心点。将提取出的运动关键点用集合表示即为：P＝{p₁，.pi..，p_k}，k标识运动关键点的数量,pi表示提取到的第i个运动关键点。上述10441中，在针对驱动视频，提取运动关键点时，可利用如图5示出的运动关键点提取模型实现，该运动关键点提取模型为传统的编码解码网络模型，将驱动视频作为运动信息提取模型的输入，执行该运行信息提取模型，可提取得到k个热点图(heatmap)，每个热点图输出一个全部峰值点，该峰值点即为运动关键点。比如，图6中示出的运动关键点提取模型对驱动视频处理后，所输出的运动序列C’中示出的目标对象嘴部、眼部对应的运动关键点。

进一步地，除了需提取运动关键点外，还需对驱动视频中的任意两相邻图像帧之间的运动信息进行提取。上述10442中，继续参见图6所示，在针对驱动视频，可利用但不限于光流法来提取两相邻图像帧间的运动信息；其中，光流法指的是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，根据上一帧与当前帧之间的对应关系，计算得到相邻帧之间物体的运动信息。具体实施时，本实施例在利用光流法提取两图像帧间的运动信息时，是基于步骤10441运动关键点的提取结果，确定出相应的两相邻图像帧如C_t-i和C_t之间的运动关键点P，将两相邻图像帧间的运动关键点P输入至如图6中示出的运动信息提取模型中，执行运动信息提取模型，来得到两相邻图像帧间的运动关键点P的运动光流场F，运动光流场F中的光流信息即表征为两相邻图像帧间的运动信息。运动光流场F对应的表达式如下：

τ_S←D(z)≈T_S←D(p_k)-z

式中，S和D分别代表输入和目标，z为S上的点，从S到D的形变，可根据S上个每个点z与对应的p_k关键点之间的距离，计算出形变方式。最后，依次输入整个序列B，即可得到len(B)-1个运动光流场F。

再进一步地，基于上述得到的相邻图像帧间的运动信息，利用如图6示出的预先训练好的动画生成模型，对展示图中模特相应区域的像素点进行形变，便能得到相应的一帧形变图。图6中示出的动画生成模型的架构同样为编码器-解码器网络架构，具体地，该动画成模型包括一个第七编码网络及一个第七解码网络。上述10443及10444中，在得到展示图对应的一帧形态图的过程中，会先将经由步骤102所得到的模特展示商品的展示图，比如该图6中示出的展示图F输入至第七编码网络，执行该第七编码网络，该第七编码网络将会对展示图F进行特征提取，输出展示图的特征W，该特征W中可包含但不限于展示图的空间特征、展示图中模特的脸部特征等。然后，基于得到的一相邻图像帧(如图中示出的图像c₁和图像c₂)间的运动信息(即图6中示出的运动光流场F)，经一个形变网络Deform,对特征W 进行形变，换句话也就是说，经一个形变网络对展示图中模特相应区域的像素点进行形变，从而也就可得到该展示图F相应的一帧形变图(图中未示出)。需说明的是，图6中所示出的展示图F并非经由步骤102所得到的完整展示图，这里仅示出了完整展示图中的一部分，与该展示图F相对应的完整展示图可参见图3b中示出的女模特展示白色短袖的展示图。

基于得到的多个相邻图像帧间的运动信息，利用动画生成模型中的第七编码网络和形变网络deform，对展示图进行特征提取、形变处理等，也就可以得到展示图中模特的嘴部、脸部等发生变化对应的多帧形变图。将所得到的多帧形变图，进一步地输入至第七解码网络，执行第七解码网络，该第七解码网络便会按照驱动视频中图像帧的顺序，顺序播放多帧形变图，从而得到相应展示动画(或称为图片动画)。

这里需补充说明的是，在图6中示出的动画生成模型中，是利用驱动视频与所生成的展示动画间的损失L_l1，及模型网络中的多层感知损失Lp来进行约束的。其中，L_l1和Lp的表达式分别如下：

L_l1＝‖R-D‖₁

L_p＝∑‖φ_m(R)-φ_m(D)‖₁

其中，φ_m表示vgg的m-th特征。则总的loss为L_T，其中λ₁和λ₂为对应的比例系数：

L_T＝λ₁L_l1+λ₂L_p

上述1045中，得到商品对应的展示动画后，可利用wav2lip技术对展示动画及音频进行处理，使得展示动画中的模特嘴部发音动作及脸部表情动作与音频同步匹配，从而得到相应的多媒体展示信息，也即得到展示图中的模特口播商品卖点的视频。关于利用wav2lip技术对展示动画及音频进行处理得到相应的多媒体展示信息的具体过程，可参见现有内容。

上述中，利用image animation加wav2lip的方案，生成相应的多媒体展示信息，可有效的解决现有方案使用音频驱动脸部运动的姿态可控和真实性问题，使得虚拟代言由静态展示演变为动态口播，更具感官性，效果。而且，本方案中的音频是基于反映商品特点的描述信息，利用注意力机制生成的，所生成的音频会更加流畅、清晰、抑扬顿挫、具有高音准。

综上，本实施例提供的技术方案，在响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图后，便可通过对商品图及模特图进行处理，得到模特展示该商品的展示图，该种展示图的生成方式，使得本方法在应用于诸如虚拟换衣等场景下时，用户只需上传一张服装的平铺图即可快速实现模特的虚拟换衣，能保证在短暂的几秒内生成模型穿着多种不同服装效果的展示图，具有较强的可扩展性及时效性。进一步地，本方案还能够实现自动获取反映商品特点的描述信息，并进一步地可根据展示图及描述信息，生成商品对应的多媒体展示信息，该描述信息及相应的商品对应的多媒体展示信息的自动生成，使得商品无需专业模特代言，能有效降低商家经营成本。综上可见，本方案整体实现了集商品对应的展示图、商品的描述信息(或称为商品卖点)、商品对应的多媒体展示信息为一体化的自动生成，整个过程只需用户上传一张商品图(或者同时上传一张模特图，在商家未上传模特图的情况下，本方案也能够为商家自动提供适配的模特铺)，无需用户其它的参与，这能有效帮助商家经营成本和维度时间。

上述方案内容，描述了在虚拟代言场景下，可基于用户提供的商品图和模特图，或者基于用户提供的商品图，为用户提供适配的模特图的基础上，将商品图及模特图经过变形、合成等处理，生成模特展示商品的展示图，并进一步地基于展示图，在自动生成商品的描述信息的基础上，通过驱动等操作，生成商品对应的展示动画的具体实现过程。在其他一些实施例中，模特展示商品的展示图也可以是由用户直接提供，基于用户提供的模特展示商品的展示图来自动生成商品的描述信息，并进一步地生成商品对应的展示动画。基于此，

在本申请的另一实施例还提供了一种图像处理方法。该方法的执行主体为服务端，服务端可以是当不限于单个服务器、服务集群、部署在服务器上的虚拟服务器或云端等等。如图7所示，该方法包括以下步骤：

201、获取用户输入的模特展示商品的展示图像；

202、获取所述展示商品的描述信息；

203、根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频。

上述201中，用户所输入的模特展示商品的展示图像，可以是由用户通过拍摄获得，也可以是由用户通过一些图像处理手段，经手动合成获得，本实施例对此不作限定。展示图像中的模特所展示的商品，可以是服饰、饰品、电子产品、包(如手提包、箱包、背包等)、鞋靴、帽子、围巾、手套等等。其中，饰品可以是项链、手表、戒指、头饰、耳环等，本实施例对此不作限定。

有关上述202～203的内容，可参见上文中的相应内容，此次不作赘述

进一步地，在一种可实现的技术方案中，上述203“根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频”，可具体包括：

2031、根据所述描述信息，生成音频；

2032、按照所述音频，驱动所述展示图像中模特的嘴部及面部动作，生成所述展示视频。

同样的，有关上述2031～2032的内容，可参见上文中的相应内容，此次不作赘述

针对只需用户上传一张商品图，基于用户上传的商品图，自动为用户确定与商品图匹配的模特图，从而通过对商品图和模特图进行诸如变形、合成、驱动等一些列处理，生成商品对应的多媒体展示信息的实现方案，本申请又一实施例还提供了一种图像处理方法。该方法的执行主体为服务端，服务端可以是当不限于单个服务器、服务集群、部署在服务器上的虚拟服务器或云端等等。如图8所示，该方法包括以下步骤：

301、响应于用户针对一商品触发的请求，获取商品图；

302、确定模特图；

303、对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；

304、获取反映所述商品特点的描述信息；

305、基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息，便于用户将所述多媒体展示信息作为展示内容展示在所述商品对应的展示页内。

本实施例中，商品图中的商品，可以是服饰、饰品、电子产品、包(如手提包、箱包、背包等)、鞋靴、帽子、围巾、手套等等。其中，饰品可以是项链、手表、戒指、头饰、耳环等，本实施例对此不作限定。

有关上述301～305的内容，可参见上文中的相应内容，此次不作赘述

本申请一实施例还提供一种图像处理系统。如图2所示，所述图像处理系统包括：

客户端401，用于响应于用户针对一商品触发的请求，向服务端发送相应的请求信息；

服务端402，用于接收到所述请求信息后，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息；将所述多媒体展示信息发送至客户端；

所述客户端，还用于播放所述多媒体展示信息。

如图2所示，服务端可以为但不限于单个服务器、服务器集群、部署在服务器上的虚拟服务器或云端等等。客户端可以是但不限于：台式计算机、笔记本电脑、手机、平板电脑等。

进一步地，所述服务端，还用于训练多个模型；

所述服务端在对所述商品图及所述模特图进行处理得到展示图、或在获取所述描述信息、或基于所述展示图及所述描述信息生成多媒体展示信息的任务时，用于调用相应的已完成训练的至少一个模型，以利用被调用的至少一个模型完成所述任务。

继续参见图2所示，服务端所训练的模型可以包括但不限于图像处理模型、描述信息生成模型、文本转语音模型、驱动模型、运动关键点提取模型、运动信息提取模型、展示动画生成模型等等，服务端训练好多个模型后，将存储于本地，已在后续需要时进行调用。

这里需要补充说明的是，上述多个模型也可以部署于客户端401，服务端402用于训练多个模型并发送至客户端401；客户端401，用于接收服务端发送的多个模型后，自动装载于本地或更新本地已有的多个模型；该种情况下，客户端401将具体用于：响应于用户针对一商品触发的请求，确定商品图及模特图；对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取反映所述商品特点的描述信息；基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。

综上，本申请提供的技术方案，可总结为如图9示出的过程。具体地，确定商品图和图之后，将通过二维虚拟换商品技术，对商品图和模特图进行处理，得到模特展示商品的展示图；此外，针对商品图，还会对商品图进行处理自动生成商品对应的描述信息，并将描述信息，利用文本转语音技术，得到描述信息相应的音频。基于音频，并结合相应处理操作，如驱动视频生成，运动关键点提取、运行信息提取等，实现音频驱动展示图中模特的嘴部、面部等按音频执行动作，得到展示图动画，从而进一步地结合音频得到模型口播商品对应的描述信息的视频。针对上述本申请提供的技术方案内容，下面结合具体的应用场景对本申请各实施例提供的技术方案进行说明。

例如，采用本申请提供的技术方案，可为商家提供虚拟代言服务。例如，以服装的虚拟代言为例，商家可以通过客户端提供的交互界面上传一张模特穿着任意服装的模特图，以及相应的一张包含黑色短袖的服装图。然后，商家点击客户端提供的交互界面上的“视频生成”控件，便能得到模特黑色短袖并口播该黑色短袖的描述信息的多媒体展示信息(即视频)。商家可将该多媒体展示信息作为展示内容展示在该设备短袖对应的展示页内，以对该黑色短袖进行动态宣传。采用本技术方案，商家可以随时随地，拍摄服装图像后上传，在几秒内便可得到模特穿着该服装的展示图、反映服装特点的描述信息、以及对应的口播该服装的描述信息的视频，整个过程全自动化，无需商家或专业模特参数，这可有效减低商家的经营成本和维护时间，使得商家有更多的精力投入到服装本身的生产中去。而且，模块穿着服装对应的展示图的自动生成，可有效保证服装的及时上新。

综上可见，本申请提供的技术方案，实现了集虚拟换衣、反映服装特点的描述信息(或称为服装卖点)自动生成、文本生成语音、语音生成视频(即模特口播服装卖点的视频)为一体的虚拟代言产品，能有效帮助商家降低经营成本。

上面仅结合了服装虚拟代言场景进行了说明，本申请实施例提供的技术方案也可应用在其他场景，以为不同需求类型的用户使用，本文不一一例举。

图10示出了本申请一实施例提供的图像处理装置的结构示意图。如图10所示，所述装置包括：确定模块51、处理模块52、获取模块53及生成模块54。其中，确定模块51，用于响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图；处理模块52，用于对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；获取模块53,用于获取反映所述商品特点的描述信息；生成模块54，用于基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息。

进一步地，上述处理模块52，在用于对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图时，具体用于：获取图处理模型，其中，所述图像处理模型包括形变网络和合成网络；将所述商品图及所述模特图输入所述形变网络，输出按照所述模特图中模特姿态对所述商品图进行形变后的商品形变图；将所述商品形变图及所述模特图输入所述合成网络，输出模特展示所述商品的展示图。

进一步地，上述处理模块52，还用于：利用第一训练集，对所述图像处理模型进行第一阶段训练；确定模特样本图及所述模特样本图中模特展示第一样本商品对应的样本商品图；利用完成第一阶段训练的所述图像处理模型，生成所述模特样本图中模特展示第二样本商品的样本展示图；将所述模特样本图、所述第一样本商品对应的样本商品图及所述样本展示图作为第二训练样本集中的训练样本；利用第二训练集，对所述图像处理模型进行第二阶段训练。

进一步地，上述获取模块53，在用于获取反映所述商品特点的描述信息时，具体用于：从所述商品图中提取图像特征；获取所述商品图对应商品的商品信息；基于所述商品信息，确定与所述商品相关的文本特征；融合所述图像特征及文本特征，得到融合信息；根据所述融合信息，确定所述描述信息。

进一步地，上述获取模块53，在用于基于所述商品信息，确定与所述商品相关的文本特征时，具体用于：从所述商品信息中提取第一文本特征；从知识图谱中选取与所述商品相关的词条；基于选取出的词条，确定第二文本特征。

进一步地，上述获取模块53，在用于融合所述图像特征及文本特征，得到融合信息时，具体用于：利用编码网络模型，分别对所述图像特征、所述第一文本特征及所述第二文本特征进行编码，得到对应的图像特征向量、第一文本特征向量及第二文本特征向量；基于注意力机制融合所述图像特征向量、所述第一文本特征向量和所述第二文本特征向量，得到所述融合信息。

进一步地，上述生成模块54，在用于基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息时，具体用于：根据所述描述信息，生成音频；获取预设视频；将所述音频及所述预设视频输入驱动模型，输出所述预设视频中目标对象嘴部按照所述音频做出发音动作、面部按照所述音频做出表情动作的驱动视频；利用所述驱动视频，驱动所述展示图中模特做出相应动作，得到展示动画；基于所述展示动画及所述音频，生成所述商品对应的多媒体展示信息。

进一步地，上述生成模块54，在用于利用所述驱动视频，驱动所述展示图中模特做出相应动作得到所述展示动画时，具体用于：对所述驱动视频的图像帧中的运动关键点进行提取；根据提取出的各图像帧的运动关键点信息及图像帧的顺序，确定相邻图像帧间的运动信息；基于相邻图像帧间的运动信息，对所述展示图中模特相应区域的像素点进行形变，得到一帧形变图；按照所述驱动视频中图像帧的顺序，顺序播放多帧形变图，得到所述展示动画。

这里需要说明的是：上述实施例提供的图像处理装置可实现上述各方法实施例中描述的技术方案，上述各模块或单元具体实现的原理可参见上述各方法实施例中的相应内容，此处不再赘述。

本申请另一实施例还提供了的一种图像处理装置，其结构如图11所示。所述图像处理装置包括：获取模块61及生成模块62。其中，获取模块61，用于获取用户输入的模特展示商品的展示图像；以及还用于获取所述展示商品的描述信息；生成模块62，用于根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频。

进一步地，上述生成模块62，在用于根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频时，具体用于：根据所述描述信息，生成音频；按照所述音频，驱动所述展示图像中模特的嘴部及面部动作，生成所述展示视频。

本申请又一实施例提供的用于图像处理装置的结构示意图。其结构如图12所示。所述图像处理装置包括：获取模块71、确定模块72、处理模块73及生成模块74。其中，

获取模块71，用于响应于用户针对一商品触发的请求，获取商品图；

确定模块72，用于确定模特图；

处理模块73，用于对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图；

所述获取模块71，还用于获取反映所述商品特点的描述信息；

生成模块74，用于基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息，便于用户将所述多媒体展示信息作为展示内容展示在所述商品对应的展示页内。

图13示出了本申请一实施例提供的电子设备的原理性结构示意图。所述电子设备包括处理器81及存储器83。其中，所述存储器83用于存储一条或多条计算机指令；所述处理器81，与所述存储器83耦合，用于所述至少一条或多条计算机指令(如实现数据存储逻辑的计算机指令)，以用于实现：

响应于用户通过客户端针对一商品触发的请求，确定商品图及模特图；

获取反映所述商品特点的描述信息；

这里需要说明的是：所述处理器除可实现上述各步骤外，还可实现上述数据处理方法实施例中提供的其他方法步骤，具体可参见上述实施例中详述内容，此处不作赘述。存储器33可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

进一步，如图13所示，电子设备还包括：通信组件85、电源组件82及显示器84 等其它组件。图13中仅示意性给出部分组件，并不意味着电子设备只包括图13所示组件。

本申请另一实施例提供了一种电子设备，其原理性结构图如上述图13所示。具体的，所述电子设备包括处理器及存储器。其中，所述存储器用于存储一条或多条计算机指令；所述处理器，与所述存储器耦合，用于执行所述至少一条或多条计算机指令，以用于实现：

获取用户输入的模特展示商品的展示图像；

获取所述展示商品的描述信息；

根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频。

这里需要说明的是：所述处理器除可实现上述各步骤外，还可实现上述图像处理方法实施例中提供的其他方法步骤，具体可参见上述实施例中详述内容，此处不作赘述。

本申请还一实施例提供了一种电子设备，其原理性结构图如上述图13所示。具体的，所述电子设备包括处理器及存储器。其中，所述存储器用于存储一条或多条计算机指令；所述处理器，与所述存储器耦合，用于执行所述至少一条或多条计算机指令，以用于实现：

响应于用户针对一商品触发的请求，获取商品图；

确定模特图；

获取反映所述商品特点的描述信息；

这里需要说明的是：所述处理器除可实现上述各步骤外，还可实现上述数据处理方法实施例中提供的其他方法步骤，具体可参见上述实施例中详述内容，此处不作赘述。

本申请还有一实施例提供一种计算机程序产品(说明书附图中无相应附图示出)。该计算机程序产品包括计算机程序或指令，当所述计算机程序或指令被处理器执行时，致使所述处理器能够实现上述各方法实施例中的步骤。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，所述计算机程序被计算机执行时能够实现上述各实施例提供的方法步骤或功能。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取反映所述商品特点的描述信息；

2.根据权利要求1所述的方法，其特征在于，对所述商品图及所述模特图进行处理，得到模特展示所述商品的展示图，包括：

获取图像处理模型，其中，所述图像处理模型包括形变网络和合成网络；

将所述商品图及所述模特图输入所述形变网络，输出按照所述模特图中模特姿态对所述商品图进行形变后的商品形变图；

将所述商品形变图及所述模特图输入所述合成网络，输出模特展示所述商品的展示图。

3.根据权利要求2所述的方法，其特征在于，还包括：

利用第一训练集，对所述图像处理模型进行第一阶段训练；

确定模特样本图及所述模特样本图中模特展示第一样本商品对应的样本商品图；

利用完成第一阶段训练的所述图像处理模型，生成所述模特样本图中模特展示第二样本商品的样本展示图；

将所述模特样本图、所述第一样本商品对应的样本商品图及所述样本展示图作为第二训练样本集中的训练样本；

利用第二训练集，对所述图像处理模型进行第二阶段训练。

4.根据权利要求1至3中任一项所述的方法，其特征在于，获取反映所述商品特点的描述信息，包括：

从所述商品图中提取图像特征；

获取所述商品图对应商品的商品信息；

基于所述商品信息，确定与所述商品相关的文本特征；

融合所述图像特征及文本特征，得到融合信息；

根据所述融合信息，确定所述描述信息。

5.根据权利要求4所述的方法，其特征在于，基于所述商品信息，确定与所述商品相关的文本特征，包括：

从所述商品信息中提取第一文本特征；

从知识图谱中选取与所述商品相关的词条；

基于选取出的词条，确定第二文本特征。

6.根据权利要求5所述的方法，其特征在于，融合所述图像特征及文本特征，得到融合信息，包括：

利用编码网络模型，分别对所述图像特征、所述第一文本特征及所述第二文本特征进行编码，得到对应的图像特征向量、第一文本特征向量及第二文本特征向量；

基于注意力机制融合所述图像特征向量、所述第一文本特征向量和所述第二文本特征向量，得到所述融合信息。

7.根据权利要求1至3中任一项所述的方法，其特征在于，基于所述展示图及所述描述信息，生成所述商品对应的多媒体展示信息，包括：

根据所述描述信息，生成音频；

获取预设视频；

将所述音频及所述预设视频输入驱动模型，输出所述预设视频中目标对象嘴部按照所述音频做出发音动作、面部按照所述音频做出表情动作的驱动视频；

利用所述驱动视频，驱动所述展示图中模特做出相应动作，得到展示动画；

基于所述展示动画及所述音频，生成所述商品对应的多媒体展示信息。

8.根据权利要求7所述的方法，其特征在于，利用所述驱动视频，驱动所述展示图中模特做出相应动作得到所述展示动画，包括：

对所述驱动视频的图像帧中的运动关键点进行提取；

根据提取出的各图像帧的运动关键点信息及图像帧的顺序，确定相邻图像帧间的运动信息；

基于相邻图像帧间的运动信息，对所述展示图中模特相应区域的像素点进行形变，得到一帧形变图；

按照所述驱动视频中图像帧的顺序，顺序播放多帧形变图，得到所述展示动画。

9.一种图像处理方法，其特征在于，包括：

获取用户输入的模特展示商品的展示图像；

获取所述展示商品的描述信息；

10.根据权利要求9所述的方法，其特征在于，根据所述描述信息及所述展示图像，生成模特展示所述商品的展示视频，包括：

根据所述描述信息，生成音频；

按照所述音频，驱动所述展示图像中模特的嘴部及面部动作，生成所述展示视频。

11.一种图像处理方法，其特征在于，包括：

响应于用户针对一商品触发的请求，获取商品图；

确定模特图；

获取反映所述商品特点的描述信息；

12.一种图像处理息系统，其特征在于，包括：

所述客户端，还用于播放所述多媒体展示信息。

13.根据权利要求12所述的系统，其特征在于，

所述服务端，还用于训练多个模型；

14.一种电子设备，其特征在于，包括处理器及存储器，其中，

所述存储器，用于存储一条或多条计算机指令；

所述处理器，与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于实现上述权利要求1至8中任一项所述方法中的步骤，或实现上述权利要求9或10中任一项所述方法中的步骤，或实现上述权利要求11所述方法中的步骤。