CN110232722B

CN110232722B - 一种图像处理方法及装置

Info

Publication number: CN110232722B
Application number: CN201910510027.8A
Authority: CN
Inventors: 刘龙坡
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2023-08-04
Anticipated expiration: 2039-06-13
Also published as: CN110232722A

Abstract

本申请涉及图像处理技术领域，特别涉及一种图像处理方法及装置，用以缩短将人脸图像转换成卡通图像的周期。本申请实施例获取至少一张包含人脸区域的待转换图片；获取待转换图片中包含的人脸区域的人脸图像数据；通过已训练的神经网络分别将获取的人脸图像数据转换为卡通图像数据；根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为转换的卡通图像。由于神经网络处理速度很快，通过神经网络将人脸图像转换为卡通图像的方式能够实现快速转换，缩短将人脸图像转换为卡通图像的周期，提高将人脸图像转换为卡通图像的效率。

Description

一种图像处理方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法及装置。

背景技术

人脸是人体最具表达力的部分，具有个性化和多样化的特点。生活中我们通过脸部表情来表达喜怒哀乐，脸部表情在我们平时的沟通交流中起着举足轻重的作用。随着互联网技术的发展，数字娱乐产品开始出现在人们的身边，例如动漫、卡通、网络游戏等基于数字技术的娱乐产品。使用虚拟卡通图像代替真实人脸图像，能够很好地营造轻松、和谐的气氛。

现有的生成卡通人脸图像的方法，一般是基于卡通特征素材库，其中，人脸特征素材库中包含卡通图像的各类基本发型、眉毛、鼻子、嘴巴、耳朵、脸部轮廓等素材；用户从卡通特征素材库中选取卡通图像的特征，将选取出的卡通图像的特征和需要转换的人脸图像组合成卡通图像。

由于现有技术中这种方式是将用户从卡通特征素材库中选取的卡通图像特征和人脸图像组合成卡通图像，这样会导致将人脸图像转换成卡通图像的周期较长。

发明内容

本申请实施例提供一种图像处理方法和装置，用以提高人脸图像转换成卡通图像的效率。

第一方面，本申请实施例提供一种图像处理方法，包括：

获取至少一张包含人脸区域的待转换图片；

获取待转换图片中包含的人脸区域的人脸图像数据；

通过已训练的神经网络分别将获取的人脸图像数据转换为卡通图像数据，其中，所述已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，所述卡通图像数据是所述已训练的神经网络根据转换矩阵将获取的人脸图像数据转换后得到的；

根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为生成的卡通图像。

第二方面，本申请实施例提供一种图像处理装置，包括：

第一获取单元，用于获取至少一张包含人脸区域的待转换图片；

第二获取单元，用于获取所述待转换图片中包含得人脸区域的人脸图像数据；

处理单元，用于通过已训练的神经网络分别将获取的人脸图像数据转换为卡通图像数据，其中，所述已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，所述卡通图像数据是所述已训练的神经网络根据转换矩阵将获取的人脸图像数据转换后得到的，所述转换矩阵是所述已训练的神经网络在训练过程中学习得到的；

替换单元，用于根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为生成的卡通图像。

第三方面，本申请实施例提供一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请提供的图像处理方法。

第四方面，本申请实施例提供一种计算机可读介质，存储有计算机可执行指令，所述计算机可执行指令用于执行本申请提供的图像处理方法。

本申请有益效果：

基于本申请实施例提供的图像处理法，从待转换图片中获取到人脸区域的人脸图像数据之后，通过已训练的神经网络根据在训练过程中学习的转换矩阵将人脸图像数据转换为卡通图像数据，并将待转换图片中的人脸区域替换为卡通图像。由于神经网络处理速度很快，通过神经网络将人脸图像数据转换为卡通图像数据的方式能够实现快速转换，提高将人脸图像数据转换为卡通图像数据的效率，从而不会出现现有技术中因将用户从卡通特征素材库中选取的卡通图像特征和人脸图像组合成卡通图像导致的将人脸图像转换成卡通图像的周期较长的问题；另外，由于神经网络训练过程中，使用的人脸图像数据样本与对应的卡通图像数据样本根据一定的匹配规则对神经网络进行训练，因此使用已训练的神经网络，能够将待转换图片中的人脸图像转换为匹配度更好的卡通图像，提高用户体验。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的卡通图像的示意图；

图2为本申请实施例提供的AutoEncoder模型的结构示意图；

图3为本申请实施例提供的AutoEncoder模型的编解码过程示意图；

图4为本申请实施例提供的图像处理的应用场景示意图；

图5A～图5D为本申请实施例终端设备的用户界面示意图；

图6为本申请实施例提供的图像处理方法流程示意图；

图7为本申请实施例提供的利用全卷积神经网络模型提取人脸图像的示意图；

图8为本申请实施例提供的将人脸图像转换为卡通图像的方法流程示意图；

图9为本申请实施例提供的一种AutoEncoder模型的结构示意图；

图10为本申请实施例提供的神经网络训练的流程示意图；

图11为本申请实施例提供的另一种AutoEncoder模型的结构示意图；

图12为本申请实施例提供的图像处理方法中微信APP与服务器交互的流程示意图；

图13为本申请实施例图像处理装置的结构示意图；

图14为本申请实施例电子设备的结构示意图；

图15为本申请实施例计算装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

1、终端设备，为可以安装各类应用程序，并且能够将已安装的应用程序中提供的对象进行显示的设备，该终端设备可以是移动的，也可以是固定的。例如，手机、平板电脑、各类可穿戴设备、车载设备、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)或其它能够实现上述功能的终端设备等。

2、应用程序，为可以完成某项或多项特定工作的计算机程序，它具有可视的显示界面，能与用户进行交互。比如电子地图和微信等都可以称为应用程序。

3、卡通图像，为以夸张变形为特点、寻求趣味性、色彩明快、造型生动能够吸引大众关注的图像。本申请实施例中为基于人脸图像生成的，与人脸图像比较接近的卡通图像，例如如图1所示的卡通图像。

4、自编码网络，为一种常用的深度学习基本模型，是一个3层或者大于3层的神经网络，可以以无监督的方式直接从原始数据中进行特征学习。自编码网络包括编码器(Encoder)和解码器(Decdoer)，编码器将输入向量编码为隐层特征向量，解码器将隐层特征向量重构为输入空间的向量。

自编码网络可以为AutoEncoder模型，AutoEncoder模型的输入数据可以是图片数据，例如图片数据可以是图片的像素值。如图2所示的AutoEncoder模型，包括输入层、隐藏层和输出层，其中，输入层用于接收输入的图片数据，并将接收到的图片数据传输给隐藏层；隐含层可以为一层或多层，每层包括多个神经元，隐藏层对图片数据进行转换得到转换后的数据；输出层将转换后的数据输出。如图3所示的AutoEncoder模型的编解码过程，假设输入层的输入数据为x₁、x₂、x₃、x₄、x₅、x₆，隐藏层对输入层输入的图片数据x₁、x₂、x₃、x₄、x₅、x₆进行转换，转换后的数据为y₁、y₂、y₃、y₄、y₅、y₆，输出层将转换后的数据y₁、y₂、y₃、y₄、y₅、y₆输出。

5、GIF图像，为一种基于LZW(Lempel-Ziv-Welch Encoding，串表压缩)算法的连续色调的无损压缩格式，支持透明背景图像，适用于多种操作系统，“体型”很小，GIF图像可以为动画GIF，扩展名为.gif。GIF图像是将多幅图片保存为一个图像文件，如果把存于一个图像文件中的多幅图片逐幅读出并显示到屏幕上，就可构成一种最简单的动画。

为了解决现有技术中生成卡通图像用时较长会导致将人脸图像转换成卡通图像效率较低的问题，本申请实施例给出了解决方案。

一种可选的应用场景如图4所示的示意图，终端设备41中安装图像处理的应用程序，当用户40基于终端设备41的图像处理应用程序获取一张包含人脸区域的待转换图片后，用户40欲将待转换图片中的人脸图像转换为卡通图像时，图像处理应用程序将待转换图片发送给服务器42。服务器42执行图像处理方法，即：服务器42从待转换图片提取出人脸区域，该人脸区域可以是仅包含人脸的区域；服务器42将获取到的人脸图像数据输入已训练的神经网络，并获取已训练的神经网络输出的卡通图像数据，根据已训练的神经网络输出的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为卡通图像。然后服务器42将包含卡通图像的图片发送给图像处理应用程序，图像处理应用程序将包含卡通图像的图片呈现给用户。基于本申请实施例提供的将人脸图像转换为卡通图像的方法，图像处理应用程序将待转换图片发送给服务器，服务器从待转换图片中提取出人脸区域之后，通过已训练的神经网络将人脸区域的人脸图像数据转换为卡通图像数据，最后将包含卡通图像的图片发送给图像处理应用程序，由于神经网络处理速度很快，通过神经网络将人脸图像数据转换为卡通图像数据的方式能够实现快速转换，提高了将人脸图像转换为卡通图像的效率。另外，由于神经网络训练过程中，使用的人脸图像数据样本与对应的卡通图像数据样本是根据一定的匹配规则从大量的现有图片集合中选择的，因此使用已训练的神经网络，能够将待转换图片中的人脸图像转换为与人脸图像匹配度更好的卡通图像，提高了人脸图像和卡通图像之间的匹配度，从而获得更好的用户体验。

本申请实施例提供的图像处理方法的第二种可选的应用场景为，由终端设备41和服务器42配合执行图像处理方法，即：终端设备41中安装图像处理的应用程序，当用户40基于终端设备41的图像处理应用程序获取一张包含人脸区域的待转换图片后，用户40欲将待转换图片中的人脸区域转换为卡通图像时，图像处理应用程序从待转换图片提取出人脸区域；然后图像处理应用程序将提取出的人脸区域的人脸图像数据发送给服务器42，服务器42在获取到人脸图像数据之后，将获取到的人脸图像数据输入已训练的神经网络，并获取已训练的神经网络输出的卡通图像数据，服务器42将获取到的卡通图像数据发送给图像处理应用程序；图像处理应用程序根据转换后得到的卡通图像数据生成卡通图像，将待转换图片中的人脸区域替换为卡通图像。在该种场景下，终端设备的图像处理应用程序和服务器配合执行图像处理方法，由于服务器负担大量的处理任务，将从图片中提取人脸图像、将图片中的人脸图像替换为转换的卡通图像的操作由终端设备的图像处理应用程序执行，能够减少服务器压力，从而进一步提高将人脸图像转换为卡通图像的效率；另外，由于服务器在将人脸图像数据转换为卡通图像数据时，使用的神经网络是基于一定匹配规则的人脸图像数据样本和对应的卡通图像数据样本训练得到的，从而能够提高转换的卡通图像与提取出人脸图像的匹配度。

需要说明的是，终端设备41与服务器42之间通过网络进行通信连接，该网络可以为局域网、广域网等。终端设备41可以为便携设备(例如：手机、平板、笔记本电脑等)，也可以为个人电脑(PC，Personal Computer)，服务器42可以为任何能够提供互联网服务的设备。例如，终端设备41中的图像处理应用程序为相机、QQ客户端、微信客户端、微视客户端等等，或者图像处理应用程序还可以是微信小程序。

另外，本申请实施例提供的图像处理方法的第三种可选的应用场景为，图像处理方法还可以仅在终端设备上实施，通过终端设备上的图像处理应用程序、不需要借助服务器的配合可以独立完成将人脸图像转换为卡通图像的方法。

需要说明的是，本申请实施例图像处理方法中，待转换图片的获取方式可以为直接拍摄的图片，或从本地存储空间或者网络获取的图片；或者，从对本地拍摄的视频或从网络视频中进行分帧处理得到的待转换图片。待转换图片可以是一张或者多张，对于多张图片，转换完成后可以进一步合并生成GIF动图。对于视频，可以对视频中待转换图片的人脸图像转换为卡通图像后，获得带有卡通图像的视频。

下面以终端设备上的应用程序为微信APP、图像处理方法需要终端设备和服务器配合、且获取待转换图片的方式对拍摄的一段频进行分帧处理得到的为例进行说明。

当用户使用终端设备上的微信APP拍摄一段视频，如图5A所示的用户界面，用户点击中间图标拍摄一段短视频(其中，左侧图标表示从本地存储空间选取，右侧图标表示从网络获取)。在短视频拍摄完成后，终端设备的用户界面如图5B所示，用户界面呈现拍摄完成的短视频，用户可以点击观看该短视频判断是否将该短视频进行人脸转换；在用户需要将该短视频进行人脸转换时，用户点击用户界面中的人脸图像转换图标以触发人脸图像转换指令。在用户点击人脸图像转换图标之后，通过用户界面向用户呈现如图5C所示的选项，以使用户选择转换后多张图片的生成方式，例如该选项包括视频、图片集或者GIF动图等。

微信APP在接收到用户触发的人脸图像转换指令，并确定转换后图片的保存方式后，将拍摄的一段短视频进行分帧处理得到多张包含人脸区域的待转换图片，并从待转换图片中提取出人脸区域；将提取出的人脸区域发送给服务器，服务器中运行有已训练的神经网络，服务器基于已训练的神经网络将人脸图像数据转换为卡通图像数据，并将转换后的卡通图像数据发送给终端设备上的微信APP，微信APP根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为卡通图像；假设用户选择的转换后图片的保存方式为GIF动图时，微信APP将多张包含卡通图像的图片合并转换成GIF图像。

在微信APP将拍摄的一段短视频转换为包含卡通图像的GIF图像转换，微信APP通过用户界面呈现如图5D所示的选项，以使用户选择将GIF图像存储至本地或上传或删除。例如用户可以选择用作微信的动态表情存储到本地，从而增加娱乐性。

下面结合上述描述的应用场景，参考图6-图15来描述本申请示例性实施方式提供的图像处理方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

需要说明的是，本申请实施例提供的图像处理方法可以在终端设备上执行，或者终端设备和服务器配合执行；终端设备上安装有图像处理应用程序，下面以终端设备和服务器配合执行为例进行说明。

如图6所示，为本申请实施例提供的图像处理方法的流程示意图，该方法可以包括以下步骤：

步骤S61、获取至少一张包含人脸区域的待转换图片。

具体的，获取待转换图片的方式包括但不限于：

方式1、直接从本地存储的图片中获取至少一张待转换图片；

方式2、从网络下载至少一张待转换图片；

方式3、根据用户操作，通过图像处理应用程序拍摄至少一张包含人脸区域的待转换图片；

方式4、根据用户操作，通过图像处理应用程序拍摄一段包含人脸区域的视频数据，对视频数据进行分帧处理得到多张图片，并从多张图片中获取包含人脸区域的待转换图片。

需要说明的是，在采用方式4获取待转换图片时，通过对图像处理应用程序拍摄到的一段视频分帧处理后，得到的图片中并非每张都包含人脸区域，将分帧得到的多帧图片中包含人脸区域的图片作为待转换图片。

例如，图像处理应用程序为微信客户端，用户通过微信客户端拍摄一段视频数据后，微信客户端对拍摄到的一段视频数据进行分帧处理，得到多帧图片；并对得到的多帧图片进行人脸检测，将检测到人脸区域的图片作为待转换图片。或者，用户通过微信客户端拍摄一段视频数据后，将拍摄的一段视频数据发送给服务器，由服务器对拍摄的视频数据进行分帧处理，得到多帧图片；并对得到的多帧图片进行人脸检测，将检测到人脸区域的图片作为待转换图片。

步骤S62、获取待转换图片中包含的人脸区域的人脸图像数据。

可选的，本申请实施例中的人脸图像数据为待转换图片中包含的人脸区域的像素值。

具体的，在从待转换图片中获取人脸图像数据时，可以采用人脸检测模型对待转换图片中的人脸区域进行检测；

需要说明的是，步骤S62可以在终端设备的图像处理应用程序执行，或者在服务器侧执行。

步骤S63、通过已训练的神经网络分别将人脸图像数据转换为卡通图像数据；

其中，已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，卡通图像数据是已训练的神经网络根据转换矩阵将获取的人脸图像数据转换后得到的，且转换矩阵是已训练的神经网络在训练过程中学习得到的。

可选的，本申请实施例中的卡通图像数据为卡通图像的像素值。

具体的，若在终端设备上的图像处理应用程序执行步骤S62，则一种可选的方式为，图像处理应用程序将步骤S62中获取的人脸图像数据发送给服务器，通过服务器中已训练的神经网络将人脸图像数据转换为卡通图像数据；或者，图像处理应用程序通过已训练的神经网络分别将人脸图像数据转换为卡通图像数据。

若服务器执行步骤S62，则服务器通过已训练的神经网络将人脸图像数据转换为卡通图像数据。

其中，已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，并且是基于一定匹配规则的人脸图像数据样本和对应的卡通图像数据样本训练得到的。

步骤S64、根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为生成的卡通图像。

具体的，在获取到经由已训练的神经网络将人脸图像数据转换为卡通图像数据之后，使用转换得到的卡通图像覆盖图片中的人脸区域。

例如，在步骤S61中获取到50张包含人脸区域的待转换图片，则提取出50个人脸区域，通过已训练的神经网络将50个人脸区域的人脸图像数据分别转换为卡通图像数据后，根据转换后得到的卡通图像数据生成50个卡通图像，将转换后的50个卡通图像分别覆盖到50张待转换图片中。

采用本申请实施例提供的图像处理方法，能够将真实的人脸图像转换为卡通图像，可以将转换得到的卡通图像作为即时通讯工具中的表情，从而用户能够根据自己的真实人脸自定义卡通表情，增加聊天过程中的娱乐性。

在步骤S62中，本申请实施例可以采用全卷积神经网络模型(FullyConvolutional Networks，FCN)获取待转换图片中的人脸图像数据。

利用全卷积神经网络模型可以对待转换图片中的背景和人脸区域分割，例如，如图7所示，将待转换图片701输入FCN模型702中，FCN模型根据待转换图片701的每一像素点的像素数据，可以识别出待转换图片中人脸区域的像素点和非人脸区域(也即背景区域)的像素点，提取出人脸区域的像素点，提取出的人脸区域的像素点为人脸图像数据，输出人脸区域703。

一种可选的实施方式为，已训练的神经网络包括输入层、隐藏层和输出层；已训练的神经网络可以按照如图8所示的流程图实施将获取的人脸图像数据转换为卡通图像数据，包括以下步骤：

步骤S81、输入层获取人脸图像数据；

步骤S82、输入层将人脸图像数据传输给隐藏层；

步骤S83、隐藏层根据在训练过程中学习的人脸图像数据与卡通图像数据之间的转换矩阵对人脸图像数据进行转换；

步骤S84、隐藏层将转换得到的卡通图像数据传输给输出层；

步骤S85、输出层输出转换后得到的卡通图像数据。

需要说明的是，输入层获取到的人脸图像数据是经过预处理后的图像数据；一种可选的预处理方式可以为灰度化处理；人脸图像数据可以为人脸区域中每个像素点的像素值，在灰度化处理后，人脸图像数据为每个像素点的灰度值。输入层获取人脸区域中每个像素点的像素值。例如，人脸区域的分辨率为96*96，则输入至输入层的数据为9216个像素点的像素值。

一种可选的实施方式为，本申请实施例的神经网络可以为自编码网络，自编码网络表达能力强，与传统人工神经网络相比，可以减少无关和冗余数据，采用自编码网络将人脸图像转换为卡通图像，能够提高转换效率。

下面以AutoEncoder模型为例，说明将人脸图像数据转换为卡通图像数据的过程。

如图9所示的AutoEncoder模型，包括输入层、隐藏层和输出层；隐藏层包括第一编码器、第二编码器、第一解码器；其中，假设第一编码器为256个神经元的DNN(Deep NeuralNetwork，深度神经网络)，第二编码器为512个神经元的DNN，第一解码器为256个神经元的DNN；

假设人脸区域的分辨率为32*32，人脸区域中各个像素点的像素值为:

则向AutoEncoder模型的输入层输入的人脸图像数据为：

[A1,1、A1,2、…A1,32、A2,1、A2,2、…A2,32、……、A32,1、A32,2、…A32,32]；

在将人脸图像数据输入AutoEncoder模型之后，经过第一编码器时，根据第一转换矩阵和偏差值将1024维的人脸图像数据转换为256维的第一数据。例如第一转换矩阵为1024*256的矩阵：

然后，经过第二编码器时，根据第二转换矩阵和偏差值将第一数据转换为512维的第二数据；例如第二转换矩阵为256*512的矩阵：

再次，经过第一解码器时，根据第三转换矩阵和偏差值将512维的第二数据转换为256维的第三数据；例如第三转换矩阵为512*256的矩阵：

最后，将256维的第三数据转换成卡通图像数据；具体的，根据第四转换矩阵和偏差值将第三数据转换为1024个卡通图像的像素值；例如第四转换矩阵为256*1024的矩阵：

需要说明的是，转换矩阵是由不同权重值w组成的矩阵。

AutoEncoder模型的输出层输出的卡通图像数据:

[B1,1、B1,2、…B1,32、B2,1、B2,2、…B2,32、……、B32,1、B32,2、…B32,32]；

根据卡通图像数据生成的卡通图像，生成的卡通图像的各个像素点的像素值为：

另外，在将多张图片中的人脸区域替换为卡通图像之后，可以将多张包含卡通图像的图片合并转换为GIF图像；

在步骤S61中，若用户使用终端设备上的图像处理应用程序拍摄一段包含人脸区域的视频数据，对视频数据进行分帧处理得到多张包含人脸区域的待转换图片；

则在分帧处理得到的多张图片均为包含人脸区域的待转换图片时，将替换为卡通图像后的多张图片合并转换为GIF图像；

在分帧处理得到的多张图片中部分图片为包含人脸区域的待转换图片时，将替换为卡通图像后的图片、以及分帧处理得到的多张图片中不包含人脸区域图片合并转换为GIF图像。

例如，假设将用户使用图像处理应用程序拍摄的一段视频数据分帧处理得到10张图片之后，若10张图片中均包含人脸图像，将10张图片中的人脸图像替换为卡通图像，得到10张包含卡通图像的图片，则将10张包含卡通图像的图片合并转换为GIF图像；若10张图片中7张包含人脸图像，将7张图片中的人脸图像替换为卡通图像，得到7张包含卡通图像的图片，则将7张包含卡通图像的图片和3张未包含人脸图像的图片合并转换为GIF图像。

采用本申请实施例提供的图像处理方法，能够将拍摄的一段包含真实人脸图像的视频数据转换为卡通图像的GIF图像，可以将GIF图像作为卡通表情包，在使用聊天工具的过程中可以使用该卡通表情包，增加娱乐性。

在对本申请实施例中图像处理方法进行描述之后，接下来对本申请实施例中使用的已训练的神经网络的训练过程进行介绍：

一种可选的实施方式为，可以按照如图10所示的流程图对神经网络进行训练，包括以下步骤：

步骤S101、获取训练样本集合；其中训练样本集合中每个训练样本包括人脸图像数据样本和对应的卡通图像数据样本。

本申请实施例中采用人脸图像数据样本作为训练数据，卡通图像数据样本作为标签数据，人脸图像数据样本与对应的卡通图像数据样本作为一个训练样本；其中，人脸图像数据样本和对应的卡通图像数据样本均可以从现有数据库中获取，多个训练样本构成用于训练神经网络的训练样本集合。

其中，训练样本集合中可以包含大量的训练样本，本申请实施例在选取训练样本集合时可以根据实际经验确定训练样本集合中包含的训练样本的数量。

需要说明的是，在选取训练样本集合时，可以根据同一个人脸选择不同角度的人脸图像数据，例如正脸的人脸图像数据、左侧脸的人脸图像数据、右侧脸的人脸图像数据、仰头的人脸图像数据、低头的的人脸图像数据等；并且为每一个人脸图像数据选取一个对应的卡通图像数据组成训练样本。这样，在神经网络训练过程中，能够使神经网络学习不同角度的人脸图像数据与卡通图像数据之间的转换矩阵，从而提高神经网络在将人脸图像数据转换成卡通图像数据时，能够提高转换后的卡通图像与人脸图像之间的匹配度。

步骤S102、针对每个训练样本，根据初始神经网络的人脸图像数据与卡通图像数据之间转换矩阵，将人脸图像数据样本转换为卡通图像数据。

其中，人脸图像数据和卡通图像数据之间的转换矩阵由神经网络的多个模型参数组成。

步骤S103、根据转换后的卡通图像数据和所述人脸图像数据样本对应的卡通图像数据样本，确定所述初始神经网络对应的损失函数的函数值；

本申请实施例中将损失函数定义为转换后的卡通图像数据与卡通图像数据样本之间的数据差的平方和。

步骤S104、在所述损失函数的函数值大于预设值时，基于梯度下降算法对所述初始神经网络的转换矩阵中的模型参数进行调整，并返回所述获取训练样本集合的步骤；

在训练过程中，本申请实施例可以在训练多个训练样本之后，再对模型参数进行调整；例如，一个训练样本集合中包含1000个人脸图像数据样本和对应的卡通图像数据样本，则可以在一个训练样本集合中的训练样本训练完成之后，再对模型参数进行调整。需要说明的是，在模型参数发生变化之后，神经网络学习的人脸图像数据和卡通图像数据之间的转换矩阵也发生了变化。

步骤S105、在根据转换后的卡通图像数据和人脸图像数据样本对应的卡通图像数据样本确定出的损失函数的函数值不大于预设值时，确定所述初始神经网络训练完成，得到所述已训练的神经网络。

可选的，本申请实施例采用的神经网络为AutoEncoder模型，以AutoEncoder模型包括5层为例，如图11所示，隐藏层包括Encoder1、Encoder2、Encoder3、Decoder2和Decoder1。其中，Encoder1可以为128个神经元的DNN，Encoder2可以为256个神经元的DNN，Encoder3可以为512个神经元的DNN，Decoder2可以为256个神经元的DNN，Decoder1可以为128个神经元的DNN。

在训练过程中，将训练样本集合输入AutoEncoder模型，AutoEncoder模型根据初始的模型参数将训练样本中的人脸图像数据样本转换为卡通图像数据，其中初始的模型参数组成人脸图像数据和卡通图像数据之间的初始转换矩阵，该组成转换矩阵的模型参数可以为权重值。

根据AutoEncoder模型转换的卡通图像数据与卡通图像数据样本计算loss(损失)函数；在loss函数大于预设值时，对AutoEncoder模型的模型参数进行调整。

在本申请实施例中可以基于梯度下降算法调整模型参数；

模型参数包括但不限于神经元的权重ω和偏差bias。

在基于梯度下降算法对模型参数进行调整后，AutoEncoder模型根据模型参数变化后的转换矩阵再次对训练样本集合中的人脸图像数据样本进行转换得到卡通图像数据，直到loss函数不大于预设值，此时AutoEncoder模型训练完成。在AutoEncoder模型训练完成后认为该AutoEncoder模型学习到了人脸图像数据与卡通图像数据之间的转换矩阵。

下面以终端设备上的图像处理应用程序为终端设备的微信APP、以将拍摄的一段短视频转换为包含卡通图像的GIF动图为例，说明图像处理的流程，其中，如图12所示的图像处理流程示意图，包括以下步骤：

步骤S1201、微信APP根据用户操作拍摄一段包含人脸区域的短视频；

步骤S1202、微信APP将拍摄的短视频发送给服务器；

步骤S1203、服务器接收微信APP发送的短视频；

步骤S1204、服务器对短视频进行分帧处理，得到多张包含人脸区域的待转换图片；

步骤S1205、服务器获取待转换图片中包含的人脸区域的人脸图像数据；

步骤S1206、服务器通过已训练的神经网络将接收的人脸图像数据分别转换为卡通图像数据；

步骤S1207、服务器根据转换后得到的卡通图像数据生成卡通图像，并将多张待转换图片中的人脸区域分别替换为生成的卡通图像；

步骤S1208、服务器将多张包含卡通图像的图片合并转换为GIF图像；

步骤S1209、服务器将GIF图像发送给微信APP；

步骤S1210、微信APP接收服务器发送的GIF图像；

步骤S1211、微信APP将接收到的GIF图像存储至本地，并作为微信表情包。

基于同一发明构思，本申请实施例中还提供了一种图像处理装置，由于上述装置解决问题的原理与图像处理方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图13所示，为本申请实施例提供的图像处理装置130的结构示意图，包括：

第一获取单元131，用于获取至少一张包含人脸区域的待转换图片；

第二获取单元132，用于获取待转换图片中包含的人脸区域的人脸图像数据；

控制单元133，用于通过已训练的神经网络分别将获取的人脸图像数据转换为卡通图像数据，其中，所述已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，所述卡通图像数据是所述已训练的神经网络根据转换矩阵将获取的人脸图像数据转换后得到的，所述转换矩阵是所述已训练的神经网络在训练过程中学习得到的；

替换单元134，用于根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为生成的卡通图像。

可选的，所述神经网络包括输入层、隐藏层和输出层；

所述输入层用于获取人脸图像数据，并将所述人脸图像数据传输给所述隐藏层；

所述隐藏层用于根据在训练过程中学习的人脸图像数据与卡通图像数据之间的转换矩阵对所述人脸图像数据进行转换，将转换得到的卡通图像数据传输给所述输出层；

所述输出层用于输出转换后得到的卡通图像数据。

可选的，所述第一获取单元131具体用于：

通过应用程序APP采集包含人脸区域的视频数据；

对所述视频数据进行分帧处理得到多张图片，并从所述多张图片中获取包含人脸区域的待转换图片。

可选的，所述图像处理装置130还包括：

转换单元135，用于在将待转换图片中的人脸区域替换为生成的卡通图像之后，若分帧处理得到的多张图片均为包含人脸区域的待转换图片，则将替换为卡通图像后的多张图片合并转换为GIF图像；若分帧处理得到的多张图片中部分图片为包含人脸区域的待转换图片，则将替换为卡通图像后的图片、以及分帧处理得到的多张图片中不包含人脸区域图片合并转换为GIF图像。

可选的，所述已训练的神经网络通过模型训练模块训练得到：

所述模型训练模块具体用于：

获取训练样本集合；其中所述训练样本集合中的每个训练样本包括人脸图像数据样本和对应的卡通图像数据样本；

针对每个训练样本，根据初始神经网络的人脸图像数据与卡通图像数据之间转换矩阵，将所述人脸图像数据样本转换为卡通图像数据；

根据转换后的卡通图像数据和所述人脸图像数据样本对应的卡通图像数据样本，确定所述初始神经网络对应的损失函数的函数值；

在所述损失函数的函数值大于预设值时，基于梯度下降算法对所述初始神经网络的转换矩阵中的模型参数进行调整，并返回所述获取训练样本集合的步骤；

在根据转换后的卡通图像数据和人脸图像数据样本对应的卡通图像数据样本确定出的损失函数的函数值不大于预设值时，确定所述初始神经网络训练完成，得到所述已训练的神经网络。

可选的，所述初始神经网络包括输入层、隐藏层和输出层；

所述输入层用于接收训练样本中人脸图像数据样本，并将所述人脸图像数据样本传输给所述隐藏层；

所述隐藏层用于根据所述初始神经网络的人脸图像数据与卡通图像数据之间的转换矩阵将所述人脸图像数据样本转换为卡通图像数据，并将转换得到的卡通图像数据传输给所述输出层；

所述输出层用于输出转换后得到的卡通图像数据。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

另外，本申请实施例还提供一种电子设备140，如图14所示，包括：至少一个处理器141；以及与所述至少一个处理器通信连接的存储器142；其中，

所述存储器142存储有可被所述至少一个处理器141执行的指令，所述指令被所述至少一个处理器141执行，以使所述至少一个处理器141能够执行上述图像处理方法。

在介绍了本申请示例性实施方式的图像处理方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的计算装置。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的计算装置可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述描述的根据本申请各种示例性实施方式的人脸关键点的定位方法中的步骤，和/或执行人脸图像处理方法中的步骤。例如，所述处理单元可以执行如图6所示的步骤S61～步骤S64中图像处理的流程。

下面参照图15来描述根据本申请的这种实施方式的计算装置140。图14显示的计算装置150仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图15所示，计算装置150以通用计算设备的形式表现。计算装置150的组件可以包括但不限于：上述至少一个处理单元151、上述至少一个存储单元152、连接不同系统组件(包括存储单元152和处理单元151)的总线153。

总线153表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元152可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1521和/或高速缓存存储器1522，还可以进一步包括只读存储器(ROM)1523。

存储单元152还可以包括具有一组(至少一个)程序模块1524的程序/实用工具1525，这样的程序模块1524包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置150也可以与一个或多个外部设备154(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置150交互的设备通信，和/或与使得该计算装置150能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口155进行。并且，计算装置150还可以通过网络适配器156与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器156通过总线153与用于计算装置15的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置150使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

本申请实施例还提供一种计算机可存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述图像处理方法的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种图像处理方法，其特征在于，该方法包括：

获取至少一张包含人脸区域的待转换图片；

获取待转换图片中包含的人脸区域的人脸图像数据；

通过已训练的神经网络分别将获取的人脸图像数据转换为卡通图像数据，其中，所述已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，所述卡通图像数据是所述已训练的神经网络根据转换矩阵将获取的人脸图像数据转换后得到的，所述转换矩阵是所述已训练的神经网络在训练过程中学习得到的；

根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为生成的卡通图像；

其中，所述已训练的神经网络根据下列方式训练得到：

获取训练样本集合，其中所述训练样本集合中的每个训练样本包括人脸图像数据样本和对应的卡通图像数据样本；

2.如权利要求1所述的方法，其特征在于，所述已训练的神经网络包括输入层、隐藏层和输出层；

所述输出层用于输出转换后得到的卡通图像数据。

3.如权利要求1所述的方法，其特征在于，所述获取至少一张包含人脸区域的待转换图片，包括：

通过应用程序APP采集包含人脸区域的视频数据；

4.如权利要求3所述的方法，其特征在于，在将待转换图片中的人脸区域替换为生成的卡通图像之后，还包括：

若分帧处理得到的多张图片均为包含人脸区域的待转换图片，则将替换为卡通图像后的多张图片合并转换为GIF图像；

若分帧处理得到的多张图片中部分图片为包含人脸区域的待转换图片，则将替换为卡通图像后的图片、以及分帧处理得到的多张图片中不包含人脸区域图片合并转换为GIF图像。

5.如权利要求1所述的方法，其特征在于，所述初始神经网络包括输入层、隐藏层和输出层；

所述输出层用于输出转换后得到的卡通图像数据。

6.一种图像处理装置，其特征在于，包括：

第二获取单元，用于获取待转换图片中包含的人脸区域的人脸图像数据；

控制单元，用于通过已训练的神经网络分别将获取的人脸图像数据转换为卡通图像数据，其中，所述已训练的神经网络的训练样本为人脸图像数据样本和对应的卡通图像数据样本，所述卡通图像数据是所述已训练的神经网络根据转换矩阵将获取的人脸图像数据转换后得到的，所述转换矩阵是所述已训练的神经网络在训练过程中学习得到的；

替换单元，用于根据转换后得到的卡通图像数据生成卡通图像，并将待转换图片中的人脸区域替换为生成的卡通图像；

其中，所述已训练的神经网络通过模型训练模块训练得到：

所述模型训练模块具体用于：

7.如权利要求6所述的装置，其特征在于，所述已训练的神经网络包括输入层、隐藏层和输出层；

所述输出层用于输出转换后得到的卡通图像数据。

8.如权利要求6所述的装置，其特征在于，所述第一获取单元具体用于：

通过应用程序APP采集包含人脸区域的视频数据；

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

转换单元，用于在将待转换图片中的人脸区域替换为生成的卡通图像之后，若分帧处理得到的多张图片均为包含人脸区域的待转换图片，则将替换为卡通图像后的多张图片合并转换为GIF图像；若分帧处理得到的多张图片中部分图片为包含人脸区域的待转换图片，则将替换为卡通图像后的图片、以及分帧处理得到的多张图片中不包含人脸区域图片合并转换为GIF图像。

10.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至5任一权利要求所述的方法。

11.一种计算机可读介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至5任一权利要求所述的方法。