CN110689480A

CN110689480A - 一种图像变换方法及装置

Info

Publication number: CN110689480A
Application number: CN201910925332.3A
Authority: CN
Inventors: 张鑫; 黄浩智; 凌永根; 周峙龙; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-14
Anticipated expiration: 2039-09-27
Also published as: CN110689480B

Abstract

本发明提供了一种基于人工智能的图像变换方法、装置、电子设备及存储介质；方法包括：响应于针对表情图像的生成请求，确定待变换的表情图像；对所述待变换的表情图像进行脸部对齐处理，得到脸部对齐的表情图像；从数据集中获取对应目标表情的至少一个目标表情图像；对所述至少一个目标表情图像进行主成分提取，得到目标表情的主成分；通过生成网络对所述对齐的表情图像、以及所述目标表情的主成分进行变换处理，得到对应所述目标表情的表情变换图像。通过本发明，能够融合多个目标表情图像中的目标表情，使得生成的表情变换图像自然、真实，近似于真实的脸部图像。

Description

一种图像变换方法及装置

技术领域

本发明涉及人工智能的图像处理技术，尤其涉及一种基于人工智能的图像变换方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

人脸表情变换是在给定一张人脸图像和特定的目标表情类别，在保持人脸基本特征和背景的情况下，将该人脸的表情变换到目标表情，从而进行人脸的变换。

目前存在大量类似的目标表情图像，通过人工挑选其中一个目标表情图像，并通过人脸变换生成表情变换图像，该表情变换图像特别突兀、不自然。

发明内容

本发明实施例提供一种图像变换方法、装置、电子设备及存储介质，能够融合多个目标表情图像中的目标表情，使得生成的表情变换图像自然、真实，近似于真实的脸部图像。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种图像变换方法，所述方法包括：

响应于针对表情图像的生成请求，确定待变换的表情图像；

对所述待变换的表情图像进行脸部对齐处理，得到脸部对齐的表情图像；

从数据集中获取对应目标表情的至少一个目标表情图像；

对所述至少一个目标表情图像进行主成分提取，得到目标表情的主成分；

通过生成网络对所述对齐的表情图像、以及所述目标表情的主成分进行变换处理，得到对应所述目标表情的表情变换图像。

上述技术方案中，所述通过生成网络对所述对齐的表情图像、以及所述目标表情的主成分进行变换处理，得到对应所述目标表情的表情变换图像，包括：

获取至少一个所述目标表情的变换程度；

根据至少一个所述目标表情的变换程度、以及所述目标表情的主成分，通过所述生成网络对所述对齐的表情图像进行变换处理，得到对应所述目标表情的变换程度的表情变换图像；

按照所述目标表情的变换程度，对所述表情变换图像进行排序，得到表情变换的视频动画。

本发明实施例提供一种图像变换装置，所述装置包括：

确定模块，用于响应于针对表情图像的生成请求，确定待变换的表情图像；

对齐模块，用于对所述待变换的表情图像进行脸部对齐处理，得到脸部对齐的表情图像；

获取模块，用于从数据集中获取对应目标表情的至少一个目标表情图像；

提取模块，用于对所述至少一个目标表情图像进行主成分提取，得到目标表情的主成分；

生成模块，用于通过生成网络对所述对齐的表情图像、以及所述目标表情的主成分进行变换处理，得到对应所述目标表情的表情变换图像。

上述技术方案中，所述对齐模块还用于对所述待变换的表情图像进行关键点提取处理，得到所述待变换的表情图像的关键点位置信息；

根据脸部关键点模板中的关键点位置信息，对所述待变换的表情图像的关键点位置信息进行对齐处理，得到所述脸部对齐的表情图像。

上述技术方案中，所述对齐模块还用于根据所述脸部关键点模板中的关键点位置信息、以及所述待变换的表情图像的关键点位置信息，确定坐标变换矩阵；

根据所述坐标变换矩阵对所述待变换的表情图像的关键点位置信息进行对齐处理，得到所述脸部对齐的表情图像。

上述技术方案中，所述提取模块还用于对所述至少一个目标表情图像进行特征提取，得到所述至少一个目标表情图像的特征向量；

根据所述目标表情的脸部特征维度，对所述至少一个目标表情图像的特征向量进行筛选，得到对应所述脸部特征维度的所述目标表情的子特征向量；

对所述目标表情的子特征向量进行主成分提取，得到目标表情的主成分。

确定所述至少一个目标表情图像的特征向量的特征值、以及所述特征值对应的向量；

根据至少一个特征值以及主方向阈值，对所述特征值进行筛选，并将筛选后的所述特征值对应的向量确定为所述目标表情的主方向；

对所述目标表情的主方向对应的特征向量进行组合，得到目标表情的主成分。

上述技术方案中，所述提取模块还用于对所述至少一个目标表情图像的特征向量进行均值化处理，得到所述目标表情图像的均值向量；

根据所述均值向量、以及所述至少一个目标表情图像的特征向量，确定所述目标表情图像的协方差矩阵；

将所述目标表情图像的协方差矩阵的特征值确定为所述至少一个目标表情图像的特征向量的特征值，将所述目标表情图像的协方差矩阵的特征值对应的向量确定为所述至少一个目标表情图像的特征向量的特征值对应的向量。

上述技术方案中，所述提取模块还用于对所述至少一个特征值进行降序排序，确定排序在前的预设数量的特征值；

确定所述至少一个特征值的总和、以及排序在前的预设数量的特征值的总和；

对排序在前的预设数量的特征值的总和、以及所述至少一个特征值的总和进行比值，得到第一比值；

当所述第一比值超过所述主方向阈值时，将排序在前的预设数量的特征值对应的向量确定为所述目标表情的主方向。

上述技术方案中，所述生成模块还用于通过所述生成网络的颜色图生成层对所述对齐的表情图像、以及所述目标表情的主成分进行卷积处理，得到对应所述待变换的表情图像的颜色图；

通过所述生成网络的掩膜图生成层对所述对齐的表情图像、以及所述目标表情的主成分进行卷积处理，得到对应所述待变换的表情图像的掩膜图；

对所述颜色图、所述掩膜图以及所述待变换的表情图像进行融合处理，得到对应所述表情类别的表情变换图像。

上述技术方案中，所述装置还包括：

训练模块，用于通过生成对抗网络中的生成网络对待变换的表情图像样本、以及目标表情进行变换处理，得到对应所述目标表情的表情变换图像；

通过生成对抗网络中的判别网络对所述表情变换图像以及所述待变换的表情图像样本进行判别处理，得到所述表情变换图像相对于所述待变换的表情图像样本、以及目标表情的准确度；

根据所述准确度，构建所述判别网络的损失函数；

更新所述生成对抗网络的参数直至所述损失函数收敛。

上述技术方案中，所述生成模块还用于获取至少一个所述目标表情的变换程度；

本发明实施例提供一种图像变换设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的图像变换方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的图像变换方法。

本发明实施例具有以下有益效果：

1、根据目标表情，对待变换的表情图像进行表情变换，得到对应目标表情的表情变换图像，增加图像变换的趣味性；

2、通过融合至少一个目标表情图像，得到目标表情的主成分，使得根据目标表情的主成分生成的表情变换图像自然、真实，近似于真实的脸部图像。

附图说明

图1是本发明实施例提供的基于人工智能的图像变换系统10的应用场景示意图；

图2是本发明实施例提供的基于人工智能的图像变换设备500的结构示意图；

图3-6是本发明实施例提供的基于人工智能的图像变换方法的流程示意图；

图7为本发明实施例提供的图像变换示意图；

图8-9是本发明图像变换与未采用发明图像变换的效果对比图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)人脸表情变换：给定一张人脸图像和特定的目标表情类别，在保持人脸基本特征和背景的情况下，将该人脸的表情变换到目标表情类别。

2)人脸面部动作编码系统：一种通过人的面部表情对人的面部动作进行分类的系统。

3)对抗生成网络：又称生成式对抗网络(Generative Adversarial Networks，GAN)，由两个深度学习神经网络组成、即生成网络以及判别网络，对抗生成网络通过生成网络以及判别网络的互相博弈学习产生输出结果。其中，判别网络用于预测输入变量的类别，生成网络用于根据某种隐含信息，来随机产生观测数据。生成网络被训练成根据随机输入噪声尽可能生成真实的图片，判别网络被训练成尽可能判别真实的图片和生成的图片。

4)条件对抗生成网络：在对抗生成网络基础上，输入为一种具有特殊含义的张量，可以使得条件对抗生成网络的输出不仅是尽可能真实的图片，而且还具有对应输入张量的特殊属性。

5)主成分分析：设法将原来众多具有一定相关性的多个指标，重新组合成一组新的互相无关的综合指标来代替原来的指标，可用于滤波和降维。主成分分析可以从原始变量中导出少数几个主成分，使它们尽可能多地保留原始变量的信息，且彼此间互不相关。

6)变换特征向量：输入到生成网络中，限制生成网络的输出满足指定条件的一组向量。

7)类别变换特征向量：某一特定类别的数据所具有的共性条件的向量，输入到生成网络中，可以把其它类别的数据变换到这一类别中。

为至少解决相关技术的上述技术问题，本发明实施例提供一种基于人工智能的图像变换方法、装置、电子设备和存储介质，融合多个目标表情图像中的目标表情，使得生成的表情变换图像自然、真实，近似于真实的脸部图像。下面说明本发明实施例提供的基于人工智能的图像变换设备的示例性应用，本发明实施例提供的基于人工智能的图像变换设备可以是服务器，例如部署在云端的服务器，根据其他设备或者用户提供的针对表情图像的生成请求，向用户提供作为对应目标表情的表情变换图像，例如，服务器根据其他设备获得包括待变换的表情图像的针对表情图像的生成请求，根据生成请求提取待变换的表情图像，通过对待变换的表情图像、以及目标表情的主成分进行变换处理，得到对应目标表情的表情变换图像；也可是笔记本电脑，平板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等各种类型的用户终端，例如手持终端，根据用户在手持终端上输入待变换的表情图像，获得表情变换图像，并显示在手持终端的显示界面上。

作为示例，参见图1，图1是本发明实施例提供的基于人工智能的图像变换系统10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

终端200可以被用来获取待变换的表情图像，例如，当用户通过输入界面输入待变换的表情图像，输入完成后，终端自动获取待变换的表情图像，并生成针对表情图像的生成请求。

在一些实施例中，终端200本地执行本发明实施例提供的基于人工智能的图像变换方法来完成根据输入的待变换的表情图像，得到对应目标表情的表情变换图像，例如，在终端200上安装应用(Application，APP)，如表情变换A PP，用户在表情变换APP中，输入待变换的表情图像，终端200根据待变换的表情图像，获得对应目标表情的表情变换图像，并将表情变换图像显示在终端200的显示界面210上。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端100上输入的待变换的表情图像，并调用服务器100提供的基于人工智能的图像变换功能，服务器100通过本发明实施例提供的基于人工智能的图像变换方法获得对应目标表情的表情变换图像，例如，在终端200上安装表情变换APP，用户在表情变换APP中，输入待变换的表情图像，终端通过网络300向服务器100发送针对表情图像的生成请求，服务器100接收到该生成请求后，提取生成请求中的待变换的表情图像，根据待变换的表情图像，获得对应目标表情的表情变换图像，并返回表情变换图像至表情变换APP，将表情变换图像显示在终端200的显示界面210上，或者，服务器100直接输出表情变换图像。

继续说明本发明实施例提供的基于人工智能的图像变换设备的结构，基于人工智能的图像变换设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的基于人工智能的图像变换设备500的结构示意图，图2所示的基于人工智能的图像变换设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。基于人工智能的图像变换设备500中的各个组件通过总线系统540耦合在一起。可理解，总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Onl y Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access M emory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统551，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的基于人工智能的图像变换装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的基于人工智能的图像变换装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的图像变换方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific In tegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的基于人工智能的图像变换装置可以采用软件方式实现，图2示出了存储在存储器550中的基于人工智能的图像变换装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括确定模块5551、对齐模块5552、获取模块5553、提取模块5554、生成模块5555以及训练模块5556；其中，确定模块5551、对齐模块5552、获取模块5553、提取模块5554、生成模块5555以及训练模块5556用于实现本发明实施例提供的基于人工智能的图像变换方法。

根据上文可以理解，本发明实施例提供的基于人工智能的图像变换方法可以由各种类型的基于人工智能的图像变换设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的基于人工智能的图像变换方法。参见图3，图3是本发明实施例提供的基于人工智能的图像变换方法的流程示意图，结合图3示出的步骤进行说明。

在步骤101中，响应于针对表情图像的生成请求，确定待变换的表情图像。

这里，用户可以在终端中应用的输入界面中输入待变换的表情图像，当输入完成后，终端自动生成针对表情图像的生成请求，并向服务器发送该针对表情图像的生成请求，当服务器接收到该针对表情图像的生成请求后，对该生成请求进行解析，从而得到待变换的表情图像。

在步骤102中，对待变换的表情图像进行脸部对齐处理，得到脸部对齐的表情图像。

当服务器确定出待变换的表情图像后，可以对待变换的表情图像进行脸部对齐处理，从而得到脸部对齐的表情图像。通过对待变换的表情图像进行脸部对齐处理，避免待变换的表情图像中的关键点位置过于随意、分散，将待变换的表情图像的关键点对齐后，可以得到关键点对齐后的标准图像，以便进行后续的表情变换，表情变换后的图像更加准确。

参见图4，图4是本发明实施例提供的基于人工智能的图像变换方法的流程示意图，图4示出图3中的步骤102可以通过图4中的1021-1022实现。

在步骤1021中，对待变换的表情图像进行关键点提取处理，得到待变换的表情图像的关键点位置信息。

当服务器确定出待变换的表情图像后，需要对待变换的表情图像进行脸部检测，可以得到脸部的坐标、以及待变换的表情图像的关键点位置信息，也就是脸部68个界标关键点信息。

在步骤1022中，根据脸部关键点模板中的关键点位置信息，对待变换的表情图像的关键点位置信息进行对齐处理，得到脸部对齐的表情图像。

当服务器获得待变换的表情图像的关键点位置信息时，还需要获得脸部关键点模板中的关键点位置信息，其中，脸部关键点模板是用户根据经验值预先存储在服务器中的模板。从而根据脸部关键点模板中的关键点位置信息，对待变换的表情图像的关键点位置信息进行对齐处理，得到脸部对齐的表情图像。

在一些实施例中，根据脸部关键点模板中的关键点位置信息，对待变换的表情图像的关键点位置信息进行对齐处理，得到脸部对齐的表情图像，包括：根据脸部关键点模板中的关键点位置信息、以及待变换的表情图像的关键点位置信息，确定坐标变换矩阵；根据坐标变换矩阵对待变换的表情图像的关键点位置信息进行对齐处理，得到脸部对齐的表情图像。

在服务器得到脸部关键点模板中的关键点位置信息、以及待变换的表情图像的关键点位置信息，可以设定一个坐标变换矩阵，使得经过坐标变换矩阵变换后的待变换的表情图像的关键点位置信息、与脸部关键点模板中的关键点位置信息的二阶矩和最小，从而确定出坐标变换矩阵。并根据坐标变换矩阵对待变换的表情图像的关键点位置信息进行对齐处理，得到关键点位置信息对齐的表情图像。

在步骤103中，从数据集中获取对应目标表情的至少一个目标表情图像。

服务器获得待变换的表情图像后，可以自动从数据集中获取对应目标表情的至少一个目标表情图像，其中，目标表情可以是开心、悲伤、惊讶等表情。

这里，用户还可以在终端中应用的输入界面中输入目标表情类别，当输入完成后，终端会将用户输入的目标表情类别发送至服务器，当服务器接收到目标表情类别后，可以根据目标表情类别从数据集中获取对应目标表情的至少一个目标表情图像、即获取同一表情的图像。另外，还可以根据目标表情类别对数据集中的目标表情图像进行筛选，获得清晰的目标表情图像，以便后续更好地融合目标表情。

在步骤104中，对至少一个目标表情图像进行主成分提取，得到目标表情的主成分。

由于通过人工对多个目标表情进行筛选，得到一个表情明显的目标表情图像非常费时，而且通过一个目标表情图像进行表情变换，得到的表情变换图像也不真实。对此，服务器可以对至少一个目标表情图像进行主成分提取，得到目标表情的主成分，从而融合多个目标表情图像中的表情，以便后续生成的表情变换图像更加真实、自然。

在一些实施例中，对至少一个目标表情图像进行主成分提取，得到目标表情的主成分，包括：对至少一个目标表情图像进行特征提取，得到至少一个目标表情图像的特征向量；根据目标表情的脸部特征维度，对至少一个目标表情图像的特征向量进行筛选，得到对应脸部特征维度的目标表情的子特征向量；对目标表情的子特征向量进行主成分提取，得到目标表情的主成分。

当服务器获得至少一个目标表情图像后，可以对至少一个目标表情图像进行特征提取，从而得到至少一个目标表情图像的特征向量。由于进行表情变换时，脸部只有部分特征向量会有所改变，例如要使得一个面无表情的表情图像，变换为开心的表情图像，脸部可能只有嘴巴、眉毛的特征向量的变化比较大。因此，可以获得目标表情的脸部特征维度，也就是变化比较大的特征，并通过目标表情的脸部特征维度，对至少一个目标表情图像的特征向量进行筛选，得到对应脸部特征维度的目标表情的子特征向量，其中，目标表情图像的特征向量包括目标表情的子特征向量。通过对目标表情的子特征向量进行主成分提取，得到目标表情的主成分，可以更进一步去除不重要的特征，使得生成的表情变换图像更加真实。

参见图5，图5是本发明实施例提供的基于人工智能的图像变换方法的流程示意图，图5示出图3中的步骤104可以通过图5中的1041-1044实现。

在步骤1041中，对至少一个目标表情图像进行特征提取，得到至少一个目标表情图像的特征向量。

当服务器获得至少一个目标表情图像后，可以对至少一个目标表情图像进行特征提取，从而得到至少一个目标表情图像的特征向量，以便根据特征向量进行主成分分析。

在步骤1042中，确定至少一个目标表情图像的特征向量的特征值、以及特征值对应的向量。

在服务器得到至少一个目标表情图像的特征向量，可以根据至少一个目标表情图像的特征向量，得到至少一个目标表情图像的特征向量的特征值、以及特征值对应的向量。

在一些实施例中，确定至少一个目标表情图像的特征向量的特征值、以及特征值对应的向量，包括：对至少一个目标表情图像的特征向量进行均值化处理，得到目标表情图像的均值向量；根据均值向量、以及至少一个目标表情图像的特征向量，确定目标表情图像的协方差矩阵；将目标表情图像的协方差矩阵的特征值确定为至少一个目标表情图像的特征向量的特征值，将目标表情图像的协方差矩阵的特征值对应的向量确定为至少一个目标表情图像的特征向量的特征值对应的向量。

在服务器得到至少一个目标表情图像的特征向量后，首先需要对至少一个目标表情图像的特征向量进行均值化处理，得到目标表情图像的均值向量，也就是获得至少一个目标表情图像的特征向量的平均值。在得到目标表情图像的均值向量后，可以根据均值向量、以及至少一个目标表情图像的特征向量，确定目标表情图像的协方差矩阵，则将协方差矩阵的特征值确定为至少一个目标表情图像的特征向量的特征值，将协方差矩阵的特征值对应的向量确定为至少一个目标表情图像的特征向量的特征值对应的向量。

在步骤1043中，根据至少一个特征值以及主方向阈值，对特征值进行筛选，并将筛选后的特征值对应的向量确定为目标表情的主方向。

由于并不是所有的特征值对应的向量，都是所需的特征向量，因此需要对特征值进行筛选。服务器可以根据至少一个特征值以及主方向阈值，对特征值进行筛选，并将筛选后的特征值对应的向量确定为目标表情的主方向，从而去除目标表情中不重要的特征。

在一些实施例中，根据至少一个特征值以及主方向阈值，对特征值进行筛选，并将筛选后的特征值对应的向量确定为目标表情的主方向，包括：对至少一个特征值进行降序排序，确定排序在前的预设数量的特征值；确定至少一个特征值的总和、以及排序在前的预设数量的特征值的总和；对排序在前的预设数量的特征值的总和、以及至少一个特征值的总和进行比值，得到第一比值；当第一比值超过主方向阈值时，将排序在前的预设数量的特征值对应的向量确定为目标表情的主方向。

这里，主方向阈值为经验值，用户可以预先在服务器中进行设置。在获取了特征值后，对至少一个特征值进行降序排序，依次获取排序在前的预设数量的特征值，并确定所有的特征值的总和，以及排序在前的预设数量的特征值的总和，并将对排序在前的预设数量的特征值的总和、以及所有特征值的总和进行比值，得到第一比值，当第一比值超过主方向阈值时，将排序在前的预设数量的特征值对应的向量确定为目标表情的主方向。例如主方向阈值为80％，特征值为9、5、4、2、1，其中(9+5+4)/(9+5+4+2+1)>80％，则特征值9、5、4对应的向量为目标表情的主方向。

在步骤1044中，对目标表情的主方向对应的特征向量进行组合，得到目标表情的主成分。

在服务器获得主方向后，将目标表情的主方向对应的特征向量进行排列组合，得到目标表情的主成分，该主成分包含至少一个目标表情图像中的所有重要的特征。

在步骤105中，通过生成网络对对齐的表情图像、以及目标表情的主成分进行变换处理，得到对应目标表情的表情变换图像。

在服务器获得目标表情的主成分后，可以通过生成对抗网络中的生成网络对对齐的表情图像、以及目标表情的主成分进行变换处理，从而得到对应目标表情的表情变换图像。

在一些实施例中，通过生成网络对对齐的表情图像、以及目标表情的主成分进行变换处理，得到对应表情类别的表情变换图像，包括：通过生成网络的颜色图生成层对对齐的表情图像、以及目标表情的主成分进行卷积处理，得到对应待变换的表情图像的颜色图；通过生成网络的掩膜图生成层对对齐的表情图像、以及目标表情的主成分进行卷积处理，得到对应待变换的表情图像的掩膜图；对颜色图、掩膜图以及待变换的表情图像进行融合处理，得到对应表情类别的表情变换图像。

在服务器获得目标表情的主成分后，服务器分别将对齐的表情图像、以及目标表情的主成分输入至生成网络的颜色图生成层以及掩膜图生成层，通过颜色图生成层对对齐的表情图像、以及目标表情的主成分进行三通道的卷积处理，得到对应待变换的表情图像的颜色图，通过生成网络的掩膜图生成层对对齐的表情图像、以及目标表情的主成分进行一通道卷积处理，得到对应待变换的表情图像的掩膜图，其中，颜色图包括脸部所有的信息，掩膜图包括脸部重要的信息。在获得颜色图以及掩膜图后，对颜色图、掩膜图以及待变换的表情图像进行融合处理，得到对应表情类别的表情变换图像。

在一些实施例中，通过生成网络对对齐的表情图像、以及目标表情的主成分进行变换处理，得到对应目标表情的表情变换图像，包括：获取至少一个目标表情的变换程度；根据至少一个目标表情的变换程度、以及目标表情的主成分，通过生成网络对对齐的表情图像进行变换处理，得到对应目标表情的变换程度的表情变换图像；按照目标表情的变换程度，对表情变换图像进行排序，得到表情变换的视频动画。

这里，变换程度可以是经验值，用户可以预先在服务器中进行设置，也可以是用户在终端中应用的输入界面中输入变换程度，例如数值0.5，当输入完成后，终端会将用户输入的变换程度发送至服务器，当服务器接收到变换程度后，可以根据至少一个目标表情的变换程度、以及目标表情的主成分，通过生成网络对对齐的表情图像进行变换处理，得到对应目标表情的变换程度的表情变换图像。并按照目标表情的变换程度，对表情变换图像进行排序，得到表情变换的视频动画，也就是可以得到表情逐步变化的视频动画。

在一些实施例中，参见图6，图6是本发明实施例提供的基于人工智能的图像变换方法的一个可选的流程示意图，基于图6，基于人工智能的图像变换方法还包括对生成对抗网络的训练过程，在步骤106中，通过生成对抗网络中的生成网络对待变换的表情图像样本、以及目标表情进行变换处理，得到对应目标表情的表情变换图像；通过生成对抗网络中的判别网络对表情变换图像以及待变换的表情图像样本进行判别处理，得到表情变换图像相对于待变换的表情图像样本、以及目标表情的准确度；根据准确度，构建判别网络的损失函数；更新生成对抗网络的参数直至损失函数收敛。其中，步骤106与步骤101-105并无明显的先后顺序。

这里，准确度为表情变换图像相对于待变换的表情图像样本、以及目标表情的真假程度。服务器可以根据准确度，构建判别网络的损失函数，根据损失函数训练生成对抗网络。当服务器根据准确度，构建判别网络的损失函数后，可以判断损失函数的值是否达到预设阈值，当损失函数的值超出预设阈值时，基于损失函数确定生成对抗网络的误差信号，将误差信息在生成对抗网络中反向传播，并在传播的过程中更新各个层的参数。

这里，对反向传播进行说明，将训练样本数据(待变换的表情图像样本、以及目标表情)输入到生成网络的输入层，经过隐藏层，最后达到输出层并输出结果，并将生成网络的输出输入至判别网络的输入层，经过隐藏层，最后达到输出层并输出判别结果，这是生成对抗网络的前向传播过程，由于生成对抗网络的输出结果与实际结果有误差，则计算输出结果与实际值之间的误差，并将该误差从输出层向隐藏层反向传播，直至传播到输入层，在反向传播的过程中，根据误差调整生成对抗网络参数的值；不断迭代上述过程，直至收敛，其中，生成对抗网络属于神经网络。

至此已经结合本发明实施例提供的基于人工智能的图像变换方法以及在基于人工智能的图像变换装置中的示例性应用，下面继续说明本发明实施例提供的基于人工智能的图像变换装置555中各个模块配合实现基于人工智能的图像变换方案。

确定模块5551，用于响应于针对表情图像的生成请求，确定待变换的表情图像；

对齐模块5552，用于对所述待变换的表情图像进行脸部对齐处理，得到脸部对齐的表情图像；

获取模块5553，用于从数据集中获取对应目标表情的至少一个目标表情图像；

提取模块5554，用于对所述至少一个目标表情图像进行主成分提取，得到目标表情的主成分；

生成模块5555，用于通过生成网络对所述对齐的表情图像、以及所述目标表情的主成分进行变换处理，得到对应所述目标表情的表情变换图像。

上述技术方案中，所述对齐模块5552还用于对所述待变换的表情图像进行关键点提取处理，得到所述待变换的表情图像的关键点位置信息；根据脸部关键点模板中的关键点位置信息，对所述待变换的表情图像的关键点位置信息进行对齐处理，得到所述脸部对齐的表情图像。

上述技术方案中，所述对齐模块5552还用于根据所述脸部关键点模板中的关键点位置信息、以及所述待变换的表情图像的关键点位置信息，确定坐标变换矩阵；根据所述坐标变换矩阵对所述待变换的表情图像的关键点位置信息进行对齐处理，得到所述脸部对齐的表情图像。

上述技术方案中，所述提取模块5554还用于对所述至少一个目标表情图像进行特征提取，得到所述至少一个目标表情图像的特征向量；根据所述目标表情的脸部特征维度，对所述至少一个目标表情图像的特征向量进行筛选，得到对应所述脸部特征维度的所述目标表情的子特征向量；对所述目标表情的子特征向量进行主成分提取，得到目标表情的主成分。

上述技术方案中，所述提取模块5554还用于对所述至少一个目标表情图像进行特征提取，得到所述至少一个目标表情图像的特征向量；确定所述至少一个目标表情图像的特征向量的特征值、以及所述特征值对应的向量；根据至少一个特征值以及主方向阈值，对所述特征值进行筛选，并将筛选后的所述特征值对应的向量确定为所述目标表情的主方向；对所述目标表情的主方向对应的特征向量进行组合，得到目标表情的主成分。

上述技术方案中，所述提取模块5554还用于对所述至少一个目标表情图像的特征向量进行均值化处理，得到所述目标表情图像的均值向量；根据所述均值向量、以及所述至少一个目标表情图像的特征向量，确定所述目标表情图像的协方差矩阵；将所述目标表情图像的协方差矩阵的特征值确定为所述至少一个目标表情图像的特征向量的特征值，将所述目标表情图像的协方差矩阵的特征值对应的向量确定为所述至少一个目标表情图像的特征向量的特征值对应的向量。

上述技术方案中，所述提取模块5554还用于对所述至少一个特征值进行降序排序，确定排序在前的预设数量的特征值；确定所述至少一个特征值的总和、以及排序在前的预设数量的特征值的总和；对排序在前的预设数量的特征值的总和、以及所述至少一个特征值的总和进行比值，得到第一比值；当所述第一比值超过所述主方向阈值时，将排序在前的预设数量的特征值对应的向量确定为所述目标表情的主方向。

上述技术方案中，所述生成模块5555还用于通过所述生成网络的颜色图生成层对所述对齐的表情图像、以及所述目标表情的主成分进行卷积处理，得到对应所述待变换的表情图像的颜色图；通过所述生成网络的掩膜图生成层对所述对齐的表情图像、以及所述目标表情的主成分进行卷积处理，得到对应所述待变换的表情图像的掩膜图；对所述颜色图、所述掩膜图以及所述待变换的表情图像进行融合处理，得到对应所述表情类别的表情变换图像。

上述技术方案中，所述基于人工智能的图像变换装置555还包括：

训练模块5556，用于通过生成对抗网络中的生成网络对待变换的表情图像样本、以及目标表情进行变换处理，得到对应所述目标表情的表情变换图像；通过生成对抗网络中的判别网络对所述表情变换图像以及所述待变换的表情图像样本进行判别处理，得到所述表情变换图像相对于所述待变换的表情图像样本、以及目标表情的准确度；根据所述准确度，构建所述判别网络的损失函数；更新所述生成对抗网络的参数直至所述损失函数收敛。

上述技术方案中，所述生成模块5555还用于获取至少一个所述目标表情的变换程度；根据至少一个所述目标表情的变换程度、以及所述目标表情的主成分，通过所述生成网络对所述对齐的表情图像进行变换处理，得到对应所述目标表情的变换程度的表情变换图像；按照所述目标表情的变换程度，对所述表情变换图像进行排序，得到表情变换的视频动画。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

在目前的图像变换方法中，基本上均以具体类别或者人工选择的特征向量配合待变换图像作为输入，这些方法往往只有一个输入选择，无法针对变换结果做出程度上的改变，并且需要花费大量的人力、物力在众多的各种特征向量中挑选出适用于绝大部分输入图像的特征向量。

为了解决上述问题，本发明实施例提出一种基于深度学习和主成分分析图像变换方法(基于人工智能的图像变换方法)，可应用于图像编辑和图像修改等转化场景。本发明实施例主要通过输入某些特征向量和待变换图片，利用对抗生成网络中的生成网络完成图像的编辑工作。本发明实施例在传统深度学习网络的基础上，将输入由原始的未经处理的特征向量或者单一类别的特征向量变为经过主成分分析过的编码特征，从而使得生成的图像更加真实，而且可以在具体的类别变换基础上，对于生成的图像的变换程度进行调整，从而生成不同变换程度的图像，形成连续的视频动画。

本发明实施例可以自动地从大量固定类别的图像中提取特征向量，相比于人工选取的特征向量，通过使用该方法获得的特征向量，应用于生成网络后生成的图片效果更好，图片表现更加自然。本发明实施例可以应用于多种图像编辑任务中，例如肖像照片或者影视图片中的人脸表情变换，表情动画的生成过程也可以应用拓展到其他类似的图像变换编辑过程中。

本发明实施例提出一种图像变换系统，该系统包括两个部分，分别为：1)通过生成对抗网络对输入图像进行图像变换；2)对输入特征向量进行主成分分析。如图7所示，图7为本发明实施例提供的图像变换示意图，具体方案如下：

在训练阶段，第一步是遍历数据集所有的图像，针对每一张图像，经过人脸检测对齐模块提取每张图像中的人脸，并对齐，然后提取面部动作特征向量v，组成集合V；第二步是遍历数据集所有的图像，将遍历到的图像和随机从集合V中选取的特征向量作为对抗生成网络中生成网络的输入。图像编辑模型可以使用GANimation模型作为表情变换的主要结构，该模型以一张待变换的表情图像和一个特征向量作为输入，根据输入的待变换的表情图像和特征向量，生成一张颜色图和一张掩膜(Mask)图，然后通过融合颜色图和掩膜(Mask)图，得到最后编辑的表情变换图像。该生成网络使用对抗学习的方式从数据集中学习网络的参数，其中，图7中的Lg表示生成网络的损失函数，通过Lg训练生成网络，Ld表示判别网络的损失函数，通过Ld训练判别网络，类别特征向量是同一类别的目标表情的主成分。

在实际的生成阶段，针对输入的待变换的表情图像，本发明实施例中的图像变换系统先对待变换的表情图像进行人脸检测和对齐。针对变换要求的特征向量(目标表情)，本发明实施例提出一种利用主成分分析方法自动提取特征向量的方法，可以自动的从预先分类好的图像(目标表情图像)中提取出典型特征向量作为该类目标表情的主成分。相对于通过单一类别作为特征向量和人工选取特征向量的方法生成的图像，通过将待变换的表情图像变换到该类目标表情的主成分所生成的图像更为真实、瑕疵更少。

这里，人脸检测对齐模块由两个部分组成，第一个部分为人脸检测模块，该模块使用方向梯度直方图(Histogram of Oriented Gradient，HOG)或者卷积神经网络(Convolutional Neural Networks，CNN)，该模块根据输入的图像会输出人脸的坐标、包裹人脸的框的信息、以及人脸的68个界标(Land mark)关键点信息；第二个模块是人脸对齐模块，设标准模板(脸部关键点模板)中68个关键点组成的集合为Y，其中，每个关键点的坐标为(x_i,y_i),i＝1,2,...,68，待变换的表情图像中待对齐的68个人脸关键点坐标集合为X，其中，每个点的坐标为(p_i,q_i),i＝1,2,...,68，并根据坐标变换矩阵P，使得待对齐的68个人脸关键点坐标经过矩阵变换后的关键点坐标与标准模板中对应的关键点坐标的二阶矩和最小，其计算公式如公式(1)所示：

其中，X表示待对齐的68个人脸关键点坐标集合，Y表示标准模板中68个关键点组成的集合，P表示坐标变换矩阵。

这里，图像编辑模块由两部分组成，第一部分是通过生成网络，结构如下：

特征提取层：

其中，Output Size表示输出大小，kernel表示内核，stride表示步幅，Inpu ts表示输入，Conv1、Conv2、Conv3表示卷积层，ResBlock表示残余神经网络模块。特征提取层会输出一个

大小的张量(中间层向量)，这个张量会分别输入到以下两个子网络中(颜色图生成层和Mask图生成层)：

1)颜色图生成层：

2)Mask图生成层：

其中，ConvTranspose2d1、ConvTranspose2d2、ConvTranspose2d3、ConvTranspose2d4表示逆卷积层(转置卷积层)。

待变换的表情图像通过颜色图生成层生成一张颜色图，通过Mask图生成层生成一张Mask图，然后通过融合颜色图和Mask图，得到最后编辑的表情变换图像，其计算公式如公式(2)所示：

I_f＝I_c×I_m+I_o×(1-I_m) (2)

其中，I_o表示待变换的表情图像，I_c表示颜色生成层的输出结果(颜色图)，I_m表示Mask图生成层的输出结果(Mask图)，表示生成网络的输出(表情变换图像)。

这里，图像编辑模块的第二部分是判别网络，它的输入为待变换的表情图像和生成的表情变换图像，判别网络的结构如下：

特征提取层：

其中，N表示条件特征向量的维度。针对特征提取层提取到的特征，这些特征会输入到以下两个子网络中，一个是对抗网络，该对抗网络的结构如下所示：

另一个是类别特征向量提取网络，该类别特征向量提取网络的结构如下所示：

其中，feture_num表示类别特征向量提取网络提取的特征向量。对抗网络用于对抗学习，使得生成的图片更加真实，类别特征向量提取网络用于约束生成的图片的类别。

本发明实施例生成阶段不同于训练阶段，在训练阶段，输入到生成网络的特征向量是经过特征提取层直接提取的图像的特征向量，并将图像的特征向量作为训练的依据。而在实际的生成阶段，每个类别(不同种类的表情图像)的特征向量是由主成分分析转化而来，由这种方法提取的特征向量，生成图像更加自然、瑕疵更少，具体描述如下：

同一类别的目标表情图像的特征向量的数据集为x＝(x₁,x₂,x₃,...,x_k)，k为自然数，其中，每一项特征向量为

特征向量中的每一项代表特征向量在条件生成网络中的条件，例如在表情变换应用中，特征向量为脸部动作特征向量，脸部动作特征向量具有17个维度，分别涵盖了眉毛、眼睛、嘴巴等面部肌肉，通过17个维度的排列组合和不同的激活值，可以得到不同的表情类别，如中性、疲劳、微笑、悲伤、嫌弃等。

本发明实施例提出一种通过主成分分析的方法来获得指定类别变换(目标表情)特征向量的方法，由于不同类别的表情所包含的脸部动作特征向量主要集中在脸部的部分区域(脸部特征维度)中，因此可以挑选出特征向量中包含脸部特征维度的向量，组成子特征向量、即子特征向量为

然后根据公式

获得类别子特征向量的平均值，再根据

获得子特征向量的协方差矩阵∑，并获得协方差矩阵的特征值向量t＝(a₁,a₂,...,a_m)和特征向量矩阵T，即指定类别变换特征向量便可以分解成多个基特征向量的加权和u＝a₁T₁+a₂T₂+a₃T₃+...+a_mT_m，取前80％的能量(根据实际情况进行设置)的特征方向作为子特征向量的主方向、即所选的要保留的特征方向要满足以下条件：将特征值按照由高到低排列，对特征值进行平方求和，当得到平方和的开方、与所有特征值的平方和的开方的比值大于80％时，保留特征值对应的特征向量，舍去其它特征向量。

取待变换的表情图像的特征向量作为原始目标特征向量

将

的部分子特征向量

投影到主方向后映射，再将负值替换成0，得到新特征向量

也就是将取待变换的表情图像的特征向量进行主成分分析，得到包括主成分的特征向量，这样得到的特征向量可以去除特征向量中不重要的噪声，达到滤波的效果。在保持原始目标特征向量

固定部分不变的基础上，将新特征向量乘以一个系数s得到的

覆盖取待变换的表情图像中需要改变的部分，最终获得变换程度不同的特征向量

最终根据

得到对应不同变换程度的表情变换图像。

本发明实施例能够实现图像变换编辑的同时，还能低成本的获得变换的特征向量，无须人工的选择和调参，可以应用到各种条件图像编辑中，如人脸表情编辑等工作。如图8-9所示，图8-9是本发明图像变换与未采用发明图像变换(未优化变换方案)的效果对比图，图8中采用本发明图像变换后的表情相对于未采用发明图像变换的悲伤表情更加自然，图9中采用本发明图像变换后的表情相对于未采用发明图像变换的惊讶表情更加自然。

综上所述，本发明实施例根据针对表情图像的生成请求，确定待变换的表情图像，并根据生成网络，得到对应目标表情的表情变换图像，具有以下有益效果：

2、通过融合至少一个目标表情图像，得到目标表情的主成分，使得根据目标表情的主成分生成的表情变换图像更加自然、真实，近似于真实的脸部图像。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种图像变换方法，其特征在于，所述方法包括：

响应于针对表情图像的生成请求，确定待变换的表情图像；

从数据集中获取对应目标表情的至少一个目标表情图像；

2.根据权利要求1所述的方法，其特征在于，所述对所述待变换的表情图像进行脸部对齐处理，得到脸部对齐的表情图像，包括：

对所述待变换的表情图像进行关键点提取处理，得到所述待变换的表情图像的关键点位置信息；

3.根据权利要求2所述的方法，其特征在于，所述根据脸部关键点模板中的关键点位置信息，对所述待变换的表情图像的关键点位置信息进行对齐处理，得到所述脸部对齐的表情图像，包括：

根据所述脸部关键点模板中的关键点位置信息、以及所述待变换的表情图像的关键点位置信息，确定坐标变换矩阵；

4.根据权利要求1所述的方法，其特征在于，所述对所述至少一个目标表情图像进行主成分提取，得到目标表情的主成分，包括：

对所述至少一个目标表情图像进行特征提取，得到所述至少一个目标表情图像的特征向量；

5.根据权利要求1或4所述的方法，其特征在于，所述对所述至少一个目标表情图像进行主成分提取，得到目标表情的主成分，包括：

6.根据权利要求5所述的方法，其特征在于，所述确定所述至少一个目标表情图像的特征向量的特征值、以及所述特征值对应的向量，包括：

对所述至少一个目标表情图像的特征向量进行均值化处理，得到所述目标表情图像的均值向量；

7.根据权利要求5所述的方法，其特征在于，所述根据至少一个特征值以及主方向阈值，对所述特征值进行筛选，并将筛选后的所述特征值对应的向量确定为所述目标表情的主方向，包括：

对所述至少一个特征值进行降序排序，确定排序在前的预设数量的特征值；

对所述排序在前的预设数量的特征值的总和、以及所述至少一个特征值的总和进行比值，得到第一比值；

8.根据权利要求1或2所述的方法，其特征在于，所述通过生成网络对所述对齐的表情图像、以及所述目标表情的主成分进行变换处理，得到对应所述表情类别的表情变换图像，包括：

通过所述生成网络的颜色图生成层对所述对齐的表情图像、以及所述目标表情的主成分进行卷积处理，得到对应所述待变换的表情图像的颜色图；

9.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

通过生成对抗网络中的生成网络对待变换的表情图像样本、以及目标表情进行变换处理，得到对应所述目标表情的表情变换图像；

通过所述生成对抗网络中的判别网络对所述表情变换图像以及所述待变换的表情图像样本进行判别处理，得到所述表情变换图像相对于所述待变换的表情图像样本、以及目标表情的准确度；

根据所述准确度，构建所述判别网络的损失函数；

更新所述生成对抗网络的参数直至所述损失函数收敛。

10.一种图像变换装置，其特征在于，所述装置包括：