CN113821338A

CN113821338A - 图像变换方法及装置

Info

Publication number: CN113821338A
Application number: CN202110710751.2A
Authority: CN
Inventors: 李楚; 江源; 张鹏飞; 银子宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-12-21

Abstract

本申请公开了一种图像变换方法及装置，属于人工智能技术领域。所述方法包括：获取第一图像；根据设备算力获取目标图像生成模型；将第一图像输入至目标图像生成模型进行图像变换处理，生成第一图像对应的第二图像。本申请实施例提供的技术方案中，根据移动端设备的计算性能，来获取参数量与设备算力相匹配的图像生成模型，进而对图像进行处理，能够减轻移动端设备的计算压力，更好适应对图像变换即时性要求高的场景，并且该图像生成模型是基于深度可分离卷积的编码‑解码模型，能够在保证图像变换质量的前提下，减少模型参数量和计算量，进一步降低移动端设备运行压力。

Description

图像变换方法及装置

技术领域

本申请涉及人工智能技术领域，特别涉及一种图像变换方法及装置。

背景技术

随着计算机和互联网技术的发展，需要通过图像处理技术进行图像变换的场景越来越多。

相关技术中，参数量较小的网络模型无法在原始图像的基础上生成高质量且稳定的变换图像。为了在原始图像的基础上生成高质量且稳定的变换图像，所选取的网络模型对应的参数量一般较多，模型文件也会较大。

上述相关技术中，能够生成稳定的高质量变换图像的网络模型的参数量大，不适合运行于移动端设备。

发明内容

本申请实施例提供了一种图像变换方法及装置，能够在保证图像变换质量的前提下，减少模型参数量，降低移动端设备运行压力。

根据本申请实施例的一个方面，提供了一种图像变换方法，所述方法包括：

获取第一图像；

根据设备算力获取目标图像生成模型，所述设备算力用于表征设备的计算性能，所述目标图像生成模型的参数量与所述设备算力相匹配；

将所述第一图像输入至所述目标图像生成模型进行图像变换处理，生成所述第一图像对应的第二图像，所述图像变换处理是指基于深度可分离卷积的图像编解码处理。

根据本申请实施例的一个方面，提供了一种图像变换装置，所述装置包括：

图像获取模块，用于获取第一图像；

模型获取模块，用于根据设备算力获取目标图像生成模型，所述设备算力用于表征设备的计算性能，所述目标图像生成模型的参数量与所述设备算力相匹配；

图像变换模块，用于将所述第一图像输入至所述目标图像生成模型进行图像变换处理，生成所述第一图像对应的第二图像，所述图像变换处理是指基于深度可分离卷积的图像编解码处理。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述图像变换方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述图像变换方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像变换方法。

本申请实施例提供的技术方案可以带来如下有益效果：

根据移动端设备的计算性能，来获取参数量与设备算力相匹配的图像生成模型，进而对图像进行处理，能够减轻移动端设备的计算压力，更好适应对图像变换即时性要求高的场景，并且该图像生成模型是基于深度可分离卷积的编码-解码模型，能够在保证图像变换质量的前提下，减少模型参数量和计算量，进一步降低移动端设备运行压力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的应用程序运行环境的示意图；

图2是本申请一个实施例提供的图像变换方法的流程图；

图3是本申请一个实施例提供的图像变换方法的流程图；

图4示例性示出了一种图像生成模型的训练过程的示意图；

图5示例性示出了另一种图像生成模型的训练过程的示意图；

图6示例性示出了一种子网络模块的示意图；

图7(a)示例性示出了一种使得原始人脸的表情变为难过的效果图；

图7(b)示例性示出了一种生成具有欧美风格的人脸的效果图；

图7(c)示例性示出了一种使得原始人脸更加英俊的效果图；

图8本申请另一个实施例提供的图像变换方法的流程图；

图9示例性示出了一种图像生成模型整体结构的示意图；

图10是本申请一个实施例提供的图像变换装置的框图；

图11是本申请一个实施例提供的计算机设备的结构框图；

图12是本申请一个实施例提供的计算机设备的结构框图。

具体实施方式

本申请实施例提供的图像变换方法涉及人工智能技术以及区块链技术，下面对此进行简要说明，以便于本领域技术人员理解。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR (Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3-Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的图像变换方案涉及人工智能的图像处理、机器学习等技术，具体通过如下实施例进行说明。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1，其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括：终端10和服务器20。

终端10可以是诸如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer，个人计算机)、虚拟现实(Virtual Reality，VR)设备、增强现实(Augmented Reality，AR)设备等电子设备。终端10中可以安装应用程序的客户端。

在本申请实施例中，上述应用程序可以是任何能够进行图像处理的应用程序。典型地，该应用程序为视频类应用程序。当然，除了视频类应用程序之外，其它类型的应用程序中也可以进行图像处理。例如，拍摄类应用程序、新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实类应用程序、增强现实类应用程序等，本申请实施例对此不作限定。另外，对于不同的应用程序来说，其图像处理功能也会有所不同，且相应的功能也会有所不同。例如，对人脸图像进行风格转换、表情转换、人脸美化等图像处理，这都可以根据实际需求预先进行配置，本申请实施例对此不作限定。可选地，终端10中运行有上述应用程序的客户端。

服务器20用于为终端10中的应用程序的客户端提供后台服务。例如，服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地，服务器20 同时为多个终端10中的应用程序提供后台服务。

可选地，终端10和服务器20之间可通过网络30进行互相通信。终端10 以及服务器20可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

在介绍本申请提供的方法实施例之前，先对本申请方法实施例中可能涉及的应用场景、相关术语或者名词进行简要介绍，以便于本申请领域技术人员理解。

生成式对抗网络(GAN，Generative Adversarial Networks)，是一种深度学习模型，是近年来复杂分布上无监督学习的方法之一。模型通过框架中(至少) 两个模块：生成模型G(Generative Model)和判别模型D(Discriminative Model) 的互相博弈学习产生相当好的输出。原始GAN理论中，并不要求G和D都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。一个优秀的GAN应用需要有良好的训练方法，否则可能由于神经网络模型的自由性而导致输出不理想。

UNet：UNet是一个包含降采样、升采样和类似跳跃连接结构的全卷积网络，其特点是卷积层在降采样和升采样部分完全对称，且降采样端的特征图可以跳过深层采样，被拼接至对应的升采样端。UNet是一个泛用性较好的全卷积网络。

Pix2pix(图像翻译模型)是用条件生成对抗网络来学习从输入图像到输出图像的映射。

主干网络(backbone)用于提取输入的图像的特征，以得到图像的多层次(多尺度)特征。

Encoder-Decoder(编码-解码)是深度学习中的一种模型框架，一个 Encoder(编码器)是一个接收输入，输出特征向量的网络。这些特征向量其实就是输入的特征和信息的另一种表示。Decoder(解码器)同样也是一个网络(通常与编码器相同的网络结构，但方向相反)，它从编码器获取特征向量，并输出与实际输入或预期输出最近似的结果。

RELU(Rectified Linear Units，线性整流函数)，又称修正线性单元,是一种人工神经网络中常用的激活函数(Activation Function)，通常指代以斜坡函数及其变种为代表的非线性函数。激活函数是在激活神经网络中某一部分神经元运行时，将激活后的信息向后传入下一层，它具有非线性、可微和单调性。

BN(Batch Normalization，分批归一化)：数据的标准化是神经网络输入管道中预处理的常见步骤，但在深度网络中，随着输入数据在隐含层内的逐级传递，其均值和标准差会发生改变，产生协变漂移(covariate shift)现象。协变漂移被认为是深度网络发生梯度消失(vanishing gradient)的原因之一。BN以引入额外学习参数为代价部分解决了此类问题，其策略是在隐含层中首先将特征标准化，然后使用两个线性参数将标准化的特征放大作为新的输入，神经网络会在学习过程中更新其BN参数。卷积神经网络中的BN参数与卷积核参数具有相同的性质，即特征图中同一个通道的像素共享一组BN参数。此外使用BN时卷积层不需要偏差项，其功能由BN参数代替。

请参考图2，其示出了本申请一个实施例提供的图像变换方法的流程图。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端 10或者服务器20。该方法可以包括以下几个步骤(210～230)。

步骤210，获取第一图像。

上述第一图像是指图像变换之前的原始图像。在一种可能的实施方式中，上述第一图像是包含人脸的人脸图像。在一些应用场景中，用户可以通过终端的摄像头对人脸进行拍摄，得到人脸图像。可选地，上述第一图像中还可以包括其他可进行图像变换的目标物体或者目标场景，本申请实施例对第一图像的图像类型、图像格式和图像内容不作限定。

步骤220，根据设备算力获取目标图像生成模型。

设备算力用于表征设备的计算性能，目标图像生成模型的参数量与设备算力相匹配。可选地，目标图像生成模型是预先存储好的图像生成模型中的任一个图像生成模型。上述图像生成模型所执行的图像变换处理是指基于深度可分离卷积的图像编解码处理，采用深度可分离卷积可有效减少模型中的参数量，并且不会对模型的图像变换生成效果和稳定性产生较大影响，仍可保证图像生成模型进行有效的图像变换处理，稳定生成高质量的变换图像。同时对于图像的编解码处理同样也可巩固上述模型效果和稳定性。

因此，在一些应用场景中，上述图像生成模型因其较少的参数量和稳定较好的模型效果，能够大量覆盖移动端设备，降低模型对设备算力的要求，移动端设备也可以流畅运行。

在示例性实施例中，如图3所示，图3示出了本申请一个实施例提供的图像变换方法的流程图。在图3中，上述步骤220包括如下子步骤(221-222)。

步骤221，响应于接收到的图像变换操作指令，发送图像变换请求。

图像变换请求包括设备算力的算力信息。上述算力信息包括与设备计算性能相关的数据指标，例如设备内存数据、设备处理器型号、设备机型等信息。

在一种可能的实施方式中，上述图像变换操作指令的触发条件可以是用户对应用程序页面上执行相应的操作，例如点击图像变换功能控件，触发图像变换操作指令。

在另一种可能的实施方式中，上述图像变换操作指令的触发条件还是可以设备检测到相应的语音指令，触发图像变换操作指令。

在一些应用场景中，图像变换功能种类多样，为减小终端侧的存储压力，降低应用程序的包体大小，可在终端接收到图像变换操作指令之后，由终端向服务器发送图像变换请求，然后由服务器下发用于实现目标图像变换功能的模型文件，以使终端通过加载运行该模型文件对图像进行图像变换处理，最终显示变换结果。由终端自行计算可减少终端与服务器之间的交互次数和传输数据量，这样还可以保证图像变换的即时性，减少设备卡顿。

步骤222，接收与设备算力对应的目标图像生成模型。

在一种可能的实施方式中，服务器会根据上述图像变换请求中的设备算力信息，选取与终端的设备算力相匹配的图像生成模型，即上述目标图像生成模型，并将该模型下发给终端。由于模型的参数量相对较少，模型更容易下发成功，并且也适合该终端设备运行，降低终端的运行压力。

在另一种实施例中，图像生成模型也可以封装于应用程序的包体中并存储于本地，在执行图像变换功能时，设备可以根据自身的算力选取匹配的目标图像生成模型。

在示例性实施例中，目标图像生成模型为第一图像生成模型。如图4所示，图4示例性示出了一种图像生成模型的训练过程的示意图。在图4中，第一图像生成模型的训练过程包括如下步骤(s1-s5)。

S1，获取样本图像。

在一种可能的实施方式中，样本图像包括样本原始图像和样本期望图像，上述样本期望图像是指与原始图像经过图像变换处理之后得到的图像效果相同或者相似的图像。例如，样本期望图像是表情难过的人脸图像，样本原始图像是无表情或者非难过表情的人脸图像，模型任务便可以是对样本原始图像中的人脸进行图像变换处理，将样本原始图像中的人脸由无表情或者非难过表情变换为难过表情，从而与样本期望图像的表情相同。

S2，将样本图像输入至第一图像生成模型进行图像变换处理，生成样本图像对应的样本生成图像。

在一种可能的实施方式中，上述第一图像生成模型可以是与设备算力高于阈值的移动端设备匹配的图像生成模型。例如，与高端机对应的图像生成模型。

S3，确定样本生成图像中目标区域对应的目标图像。

S4，将样本生成图像与目标图像输入至图像判别模型进行图像真伪性判断，得到图像判断结果。

S5，基于判断结果调整第一图像生成模型的参数。

为了在不增加模型耗时的情况下提升生成质量，可通过上述步骤S3至S5 进行画质提升。由于GAN网络由生成网络(即上述图像生成模型)和判别网络 (即上述图像判别模型)两部分构成，而只需部署生成网络到移动端设备即可，因此可以通过提高判别网络的能力来提高生成效果。

这里以对人脸图像进行图像变换为例进行说明，由于人眼对人脸的敏感度非常高，而敏感区域主要集中在眼睛、鼻子、嘴巴等五官区域，所以可以在输入全图到判别器的基础上，根据人脸关键点裁剪出人脸中的五官区域(即上述目标区域)对应的五官图像(即上述目标图像)，与全脸生成图像(即上述样本生成图像)一同输入进判别器进行判断，以此到达提高模型生成质量的目的。

由于移动端设备的算力有限，网络模型对输入图的分辨率要求较为严格。一般地，会在人脸对齐后对人脸图片进行采样到一定尺寸，如256*256，因为生成模型为Encoder-Decoder模型，所以输出尺寸与输入尺寸保持一致，也为 256*256。为了提高模型的生成质量，可使用分辨率更高数据如320*320，并在 Encoder的第一步加入下采样操作以及在Decoder的最后一步修改上采样的尺寸为320*320，同时用320*320的高分辨率图(样本图像)对训练结果进行监督，让模型提升输出结果的清晰度。通过以上方法，在不增加功耗的情况下画质有了较大提升。

在示例性实施例中，目标图像生成模型为第二图像生成模型，第二图像生成模型的参数量低于第一图像生成模型。如图5所示，图5示例性示出了另一种图像生成模型的训练过程的示意图。在图5中，第二图像生成模型的训练过程包括如下步骤s6。

S6，对第一图像生成模型进行蒸馏训练，得到第二图像生成模型。

可选地，上述第二图像生成模型可以是与设备算力低于或等于阈值的移动端设备匹配的图像生成模型。例如，与中低端机对应的图像生成模型。

为了使图像生成模型能够在各种型号的移动端设备流畅运行，上述第一图像生成模型设计了可调节的网络结构，在实际训练和推理中，可以指定模型的宽度和深度，根据不同的机型算力训练不同性能的模型。为了在低端机也能得到较好的结果，可在低端机上部署宽度更小的模型，并用高端机模型进行蒸馏训练，得到与高端机质量较为一致的生成结果。

步骤230，将第一图像输入至目标图像生成模型进行图像变换处理，生成第一图像对应的第二图像。

图像变换处理是指基于深度可分离卷积的图像编解码处理。

在示例性实施例中，如图3所示，上述步骤230包括如下子步骤(231-232)。

步骤231，对第一图像进行基于深度可分离卷积的编码处理，得到第一图像对应的K个特征图。

上述K为大于等于1的正整数。上述基于深度可分离卷积的编码处理可以是对图像进行深度可分离卷积并进行下采样得到特征图的处理。

可选地，可依次对特征图进行基于深度可分离卷积的编码处理，进一步得到特征信息更丰富的特征图。

在示例性实施例中，对于K个特征图中的第i个特征图，i为大于等于1且小于等于K的正整数，上述步骤231可按照如下两种情况分别实施。

情况一：

对于第i个特征图，在i等于1的情况下，将第一图像作为特征提取对象并对特征提取对象进行特征提取处理，得到第一图像对应的第i个特征图。

特征提取处理是指基于深度可分离卷积进行的特征提取处理。

上述情况一是初次生成特征图的情况，是对输入的第一图像进行特征提取得到第1个特征图。

情况二：

对于第i个特征图，在i大于1的情况下，对第i-1个特征图进行下采样操作，得到采样后的特征图；将采样后的特征图作为特征提取对象并对特征提取对象进行特征提取处理，得到第一图像对应的第i个特征图。

上述情况二是再次生成特征图的情况，是对上一次生成的特征图进行特征提取得到下一特征图。

在示例性实施例中，上述两种情况中都需要对特征提取对象进行特征提取处理，得到第一图像对应的第i个特征图，其对应的具体步骤可以是下述步骤 (S10-S20)。

S10：对特征提取对象进行深度可分离卷积操作，得到特征提取对象的深度可分离卷积特征图。

上述特征提取对象可以是一张图像，例如，在情况一种上述特征提取对象是输入的第一图像，在情况二中上述特征提取对象是特征图。

将特征提取对象输入至目标图像生成模型中编码子模块的深度可分离卷积层进行深度可分离卷积操作，得到特征提取对象的深度可分离卷积特征图。

可选地，上述深度可分离卷积层使用3×3的卷积核，分别对图像各通道的数据进行深度可分离卷积操作，卷积核的数量与图像通道数量一致。例如，图像为三通道像素图像，那么卷积核的数量也为3。

S20：基于深度可分离卷积特征图，生成第一图像对应的第i个特征图。

在一种可能的实施方式中，上述步骤S20包括如下子步骤(S21-S24)。

S21：对深度可分离卷积特征图进行分批归一化处理，得到归一化特征图。

将深度可分离卷积特征图输入至目标图像生成模型中编码子模块的BN层进行分批归一化处理，得到归一化特征图。

S22：对归一化特征图进行线性整流处理，得到线性整流特征图。

将归一化特征图输入至目标图像生成模型中编码子模块的RELU层进行线性整流处理，得到线性整流特征图。

S23：对线性整流特征图进行基于维度变换的卷积操作，得到维度变换特征图。

将线性整流特征图输入至目标图像生成模型中编码子模块的1×1卷积层进行基于维度变换的卷积操作，得到维度变换特征图。

S24：对维度变换特征图依次进行分批归一化处理和线性整流处理，得到第 i个特征图。

在一个示例中，如图6所示，其示例性示出了一种子网络模块的示意图。其中，第一层为3×3深度可分离卷积层(3×3Depthwise Conv)，代表卷积核大小为3×3的深度可分离卷积,深度可分离卷积相当于group(分组)数等于 channel(通道)数的卷积操作，它可以明显减少参数量和运行耗时；第二层为分批归一化层(BN)对批量数据进行归一化处理，也就是在数据批次的维度进行减均值并除标准差的运算，有助于网络收敛并缓解过拟合；第三层为线形整流层(RELU)，RELU为非线性激活函数，运算速度极快并可提高模型稀疏性，具体来说是不改变大于0的值，而把小于0的值置为0；第4层是1×1卷积层 (1×1conv)，进行卷积核大小为1*1的卷积，用来把网络宽度进行升维或降维，并与3×3深度可分离卷积层保持一致，在1×1卷积层后面也增加了分批归一化层BN和线形整流层RELU。

对于一张5*5像素、三通道彩色输入图片(shape(大小)为5*5*3)。经过3*3卷积核的卷积层(假设输出通道数为4，则卷积核shape为3*3*3*4)，最终输出4个特征图(featuremap)，尺寸与输入层相同为5*5。不同于常规卷积操作，深度可分离卷积层(DepthwiseConv)的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。上面所提到的常规卷积每个卷积核是同时操作输入图片的每个通道。同样是对于一张5×5像素、三通道彩色输入图片(shape 为5×5×3)，Depthwise Conv不同于上面的常规卷积，Depthwise Conv的卷积核的数量与上一层的通道数相同(通道和卷积核一一对应)。所以一个三通道的图像经过运算后生成了3个feature map，尺寸同样为5*5。然后再经过归一化和激活函数BN和RELU，再输入到1×1的常规卷积中，这个卷积不改变输入的尺寸而可以改变feature map的层数，从而起到升维和降维的作用，最后再经过BN和RELU。

步骤232，对K个特征图进行解码处理，得到第二图像。

在示例性实施例中，上述步骤232可通过如下子步骤(2321-2324)实施。

步骤2321，将第K个特征图作为第1个上采样对象进行上采样操作，得到第1个上采样后的特征图。

步骤2322，对于第j个上采样后的特征图，基于第j-1个上采样后的特征图与第K-(j-1)个特征图，生成第j个上采样对象。

j为大于等于2且小于等于K-1的正整数。

在一种可能的实施方式中，对第j-1个上采样后的特征图与第K-(j-1)个特征图的合成图像进行反卷积操作和上采样操作，得到第二图像。

步骤2323，对第j个上采样对象进行上采样操作，得到第j个上采样后的特征图。

步骤2324，基于第K-1个上采样后的特征图，生成第二图像。

基于第K-1个上采样后的特征图和第1个特征图，生成第二图像。

在一种可能的实施方式中，对第K-1个上采样后的特征图和第1个特征图的合成图像进行反卷积操作和上采样操作，得到第二图像。

在一个示例中，如图7(a)、7(b)、7(c)所示，其分别示出了一种生成人脸图像的示意图。其中，图7(a)示例性示出了一种使得原始人脸的表情变为难过的效果图，图7(a)中右下方是原始人脸71，原始人脸71中的嘴巴 711处于微笑状态，图7(a)左上方是生成人脸72，生成人脸72是原始人脸71 经过上述图像变换方法生成的人脸图像，生成人脸72中的嘴巴721处于难过状态。可见，原始人脸71中的面部无表情，但是生成人脸72的表情为难过。图7(b)示例性示出了一种生成具有欧美风格的人脸的效果图，图7(b)中的人脸 73是原始人脸(图中未示出)经过上述图像变换方法生成的添加欧美风格的人脸，其眉毛731、眼睛732等五官均是图像变换后的显示样式。图7(c)示例性示出了一种使得原始人脸更加英俊的效果图，图7(c)中的人脸74是原始人脸(图中未示出)经过上述图像变换方法生成的添加英俊效果的人脸，其眉毛 741、眼睛742等五官均进行了自动变形以达到美化英俊的效果。

在示例性实施例中，显示第二图像。一些应用程序中，用户可通过操作应用程序的页面或者通过语音指令，指示应用程序开启摄像功能，与终端关联的摄像头开启之后，可对准目标物体进拍摄，例如对准目标人脸，在页面中即可显示基于第一图像生成的第二图像，展示图像转换生成效果。

综上所述，本申请实施例提供的技术方案，根据移动端设备的计算性能，来获取参数量与设备算力相匹配的图像生成模型，进而对图像进行处理，能够减轻移动端设备的计算压力，更好适应对图像变换即时性要求高的场景，并且该图像生成模型是基于深度可分离卷积的编码-解码模型，能够在保证图像变换质量的前提下，减少模型参数量和计算量，进一步降低移动端设备运行压力。

请参考图8，其示出了本申请另一个实施例提供的图像变换方法的流程图。该方法可应用于计算机设备中，所述计算机设备是指具备数据计算和处理能力的电子设备，如各步骤的执行主体可以是图1所示的应用程序运行环境中的终端10。该方法可以包括以下几个步骤(801～820)。

步骤801，获取第一图像。

步骤802，响应于接收到的图像变换操作指令，发送图像变换请求。

步骤803，接收与设备算力对应的目标图像生成模型。

步骤804，将第一图像输入至目标图像生成模型，并令i＝1。

步骤805，判断i的大小，若i等于1，则执行步骤806；若i大于1且小于等于K，则执行步骤807；若i大于K，则执行步骤814。

在示例性实施例中，K的大小与图像生成模型的网络深度相关联，本申请实施例对此不作限定。

步骤806，将第一图像作为特征提取对象，执行步骤808。

步骤807，对第i-1个特征图进行下采样操作，得到采样后的特征图并将采样后的特征图作为特征提取对象，执行步骤808。

步骤808，对特征提取对象进行深度可分离卷积操作，得到特征提取对象的深度可分离卷积特征图。

步骤809，对深度可分离卷积特征图进行分批归一化处理，得到归一化特征图。

步骤810，对归一化特征图进行线性整流处理，得到线性整流特征图。

步骤811，对线性整流特征图进行基于维度变换的卷积操作，得到维度变换特征图。

步骤812，对维度变换特征图依次进行分批归一化处理和线性整流处理，得到第i个特征图。

步骤813，i自增1，执行步骤805。

步骤814，将第K个特征图作为第1个上采样对象进行上采样操作，得到第1个上采样后的特征图。

步骤815，令j等于2，执行步骤816。

步骤816，判断j的大小。若j大于等于2且小于等于K-1，则执行步骤817，否则执行步骤820。

步骤817，基于第j-1个上采样后的特征图与第K-(j-1)个特征图，生成第j 个上采样对象。

步骤818，对第j个上采样对象进行上采样操作，得到第j个上采样后的特征图。

步骤819，j自增1，执行步骤816。

步骤820，基于第K-1个上采样后的特征图和第1个特征图，生成第二图像。

在一个示例中，如图9所示，其示例性示出了一种图像生成模型整体结构的示意图。为了得到较为稳定的生成效果，图9所示的图像生成模型的主干网络可以是包含降采样、升采样和类似跳跃连接结构的全卷积网络，模型的编码模块进行降采样，解码模块进行升采样，通过类似跳跃连接结构把编码模块和解码模块产生的相同的尺度的特征图进行融合。为了减少模型的计算量和参数量，编码模块中采用适合在移动端设备运行的子模块。可选地，子模块可以不使用标准的卷积层，而使用深度可分离卷积层，并且设置所有的卷积核大小为3 ×3，以减少模型参数量。在编码模块中每个子模块都会进行一次1/2分辨率的下采样，共进行6次下采样，每次下采样特征的通道数都是上一层的两倍；解码模块则正好相反，即每个解码模块中的子模块都会进行一次2倍的上采样，共进行6次上采样，每次上采样特征的通道数都是上一层的1/2。

在一些应用场景中，本申请实施例提供的图像生成模型因其参数量较少，适合运行与移动端设备，并且能够稳定生成高质量的变换图像，能够很好在移动端设备替代参数量大的网络模型，例如Pix2pix模型，降低移动设备计算压力。同时还可替代参数量虽小，但无法直接用于生成稳定、高质量的人脸图片的轻量级模型，例如MobileNet(移动神经网络)、Shufflenet(混洗神经网络)，进而解决模型效果不稳定、生成图像质量差的问题。

通过在移动端设备部署本申请实施例提供的图像生成模型进行图像变换，能够保证图像生成效果稳定，并且对不同的属性的物体，例如人脸、不同的场景都能生成稳定的高质量结果。此外，本申请实施例提供的图像生成模型耗时较少，可以在各种机型上流畅运行，解决算力较低的低端机型无法流畅运行的问题。同时，本申请实施例提供的图像生成模型的参数量少，即使在弱网环境下模型文件也可以完整下发到移动端设备。经相关实验证明，本申请实施例提供的图像生成模型在移动端设备覆盖率至少可达80％，比历史的移动端设备覆盖率小于10％相比，有很大提升。

下述为本申请装置实施例，可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图10，其示出了本申请一个实施例提供的图像变换装置的框图。该装置具有实现上述图像变换方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1000可以包括：图像获取模块1010、模型获取模块1020和图像变换模块1030。

图像获取模块1010，用于获取第一图像；

模型获取模块1020，用于根据设备算力获取目标图像生成模型，所述设备算力用于表征设备的计算性能，所述目标图像生成模型的参数量与所述设备算力相匹配；

图像变换模块1030，用于将所述第一图像输入至所述目标图像生成模型进行图像变换处理，生成所述第一图像对应的第二图像，所述图像变换处理是指基于深度可分离卷积的图像编解码处理。

在示例性实施例中，所述图像变换模块1030，包括：编码单元和解码单元。

编码单元，用于对所述第一图像进行基于所述深度可分离卷积的编码处理，得到所述第一图像对应的K个特征图，所述K为大于等于1的正整数。

解码单元，用于对所述K个特征图进行解码处理，得到所述第二图像。

在示例性实施例中，所述编码单元包括：特征提取子单元和下采样子单元。

特征提取子单元，用于对于第i个特征图，在所述i等于1的情况下，将所述第一图像作为特征提取对象并对所述特征提取对象进行特征提取处理，得到所述第一图像对应的第i个特征图；

特征提取子单元，还用于在所述i大于1的情况下，对第i-1个特征图进行下采样操作，得到采样后的特征图；

下采样子单元，用于将所述采样后的特征图作为特征提取对象并对所述特征提取对象进行所述特征提取处理，得到所述第一图像对应的第i个特征图；

其中，所述i为大于等于1且小于等于所述K的正整数，所述特征提取处理是指基于所述深度可分离卷积进行的特征提取处理。

在示例性实施例中，所述特征提取子单元，还用于：

对所述特征提取对象进行深度可分离卷积操作，得到所述特征提取对象的深度可分离卷积特征图；

基于所述深度可分离卷积特征图，生成所述第一图像对应的第i个特征图。

在示例性实施例中，所述特征提取子单元，还用于：

对所述深度可分离卷积特征图进行分批归一化处理，得到归一化特征图；

对所述归一化特征图进行线性整流处理，得到线性整流特征图；

对所述线性整流特征图进行基于维度变换的卷积操作，得到维度变换特征图；

对所述维度变换特征图依次进行所述分批归一化处理和所述线性整流处理，得到所述第i个特征图。

在示例性实施例中，所述解码单元，包括：上采样子单元、特征融合子单元和第二图像生成子单元。

上采样子单元，用于将第K个特征图作为第1个上采样对象进行上采样操作，得到第1个上采样后的特征图。

特征融合子单元，用于对于第j个上采样后的特征图，基于第j-1个上采样后的特征图与第K-(j-1)个特征图，生成第j个上采样对象。

所述上采样子单元，还用于对第j个上采样对象进行上采样操作，得到第j 个上采样后的特征图，所述j为大于等于2且小于等于K-1的正整数。

第二图像生成子单元，用于基于第K-1个上采样后的特征图，生成所述第二图像。

在示例性实施例中，所述目标图像生成模型为第一图像生成模型，所述第一图像生成模型的训练过程包括：

获取样本图像；

将样本图像输入至所述第一图像生成模型进行图像变换处理，生成所述样本图像对应的样本生成图像；

确定所述样本生成图像中目标区域对应的目标图像；

将所述样本生成图像与所述目标图像输入至图像判别模型进行图像真伪性判断，得到图像判断结果；

基于所述判断结果调整所述第一图像生成模型的参数。

在示例性实施例中，所述目标图像生成模型为第二图像生成模型，所述第二图像生成模型的参数量低于所述第一图像生成模型，所述第二图像生成模型的训练过程包括：

对所述第一图像生成模型进行蒸馏训练，得到所述第二图像生成模型。

在示例性实施例中，所述模型获取模块1020，包括：模型请求子单元和模型接收子单元。

模型请求子单元，用于响应于接收到的图像变换操作指令，发送图像变换请求，所述图像变换请求包括所述设备算力的算力信息。

模型接收子单元，用于接收与所述设备算力对应的所述目标图像生成模型。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图11，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是终端。该计算机设备用于实施上述实施例中提供的图像变换方法。具体来讲：

通常，计算机设备1100包括有：处理器1101和存储器1102。

处理器1101可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing，数字信号处理)、 FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器 1101可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1101还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1102可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1102中的非暂态的计算机可读存储介质用于存储至少一个指令，至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集，且经配置以由一个或者一个以上处理器执行，以实现上述图像变换方法。

在一些实施例中，计算机设备1100还可选包括有：外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地，外围设备包括：射频电路1104、触摸显示屏1105、摄像头组件1106、音频电路1107、定位组件1108和电源1109中的至少一种。

本领域技术人员可以理解，图11中示出的结构并不构成对计算机设备1100 的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

请参考图12，其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器，以用于执行上述图像变换方法。具体来讲：

计算机设备1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器(Random Access Memory，RAM)1202和只读存储器(Read Only Memory，ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1206，和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。

基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备 1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元 1201。基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说，大容量存储设备1207 可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘) 驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。

根据本申请的各种实施例，计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括计算机程序，该计算机程序存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述图像变换方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述图像变换方法。

可选地，该计算机可读存储介质可以包括：ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取记忆体)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图像变换方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种图像变换方法，其特征在于，所述方法包括：

获取第一图像；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一图像输入至所述目标图像生成模型进行图像变换处理，生成所述第一图像对应的第二图像，包括：

对所述第一图像进行基于所述深度可分离卷积的编码处理，得到所述第一图像对应的K个特征图，所述K为大于等于1的正整数；

对所述K个特征图进行解码处理，得到所述第二图像。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一图像进行基于所述深度可分离卷积的编码处理，得到所述第一图像对应的K个特征图，包括：

对于第i个特征图，在所述i等于1的情况下，将所述第一图像作为特征提取对象并对所述特征提取对象进行特征提取处理，得到所述第一图像对应的第i个特征图；

在所述i大于1的情况下，对第i-1个特征图进行下采样操作，得到采样后的特征图；将所述采样后的特征图作为特征提取对象并对所述特征提取对象进行所述特征提取处理，得到所述第一图像对应的第i个特征图；

4.根据权利要求3所述的方法，其特征在于，所述对所述特征提取对象进行特征提取处理，得到所述第一图像对应的第i个特征图，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述深度可分离卷积特征图，生成所述第一图像对应的第i个特征图，包括：

6.根据权利要求3所述的方法，其特征在于，所述对所述K个特征图进行解码处理，得到所述第二图像，包括：

将第K个特征图作为第1个上采样对象进行上采样操作，得到第1个上采样后的特征图；

对于第j个上采样后的特征图，基于第j-1个上采样后的特征图与第K-(j-1)个特征图，生成第j个上采样对象；对第j个上采样对象进行上采样操作，得到第j个上采样后的特征图，所述j为大于等于2且小于等于K-1的正整数；

基于第K-1个上采样后的特征图，生成所述第二图像。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述目标图像生成模型为第一图像生成模型，所述第一图像生成模型的训练过程包括：

获取样本图像；

确定所述样本生成图像中目标区域对应的目标图像；

基于所述判断结果调整所述第一图像生成模型的参数。

8.根据权利要求7所述的方法，其特征在于，所述目标图像生成模型为第二图像生成模型，所述第二图像生成模型的参数量低于所述第一图像生成模型，所述第二图像生成模型的训练过程包括：

9.根据权利要求1至8任一项所述的方法，其特征在于，所述根据设备算力获取目标图像生成模型，包括：

响应于接收到的图像变换操作指令，发送图像变换请求，所述图像变换请求包括所述设备算力的算力信息；

接收与所述设备算力对应的所述目标图像生成模型。

10.一种图像变换装置，其特征在于，所述装置包括：

图像获取模块，用于获取第一图像；