CN111402118B

CN111402118B - 图像替换方法、装置、计算机设备和存储介质

Info

Publication number: CN111402118B
Application number: CN202010186198.2A
Authority: CN
Inventors: 吴锐正; 陶鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2023-03-24
Anticipated expiration: 2040-03-17
Also published as: CN111402118A

Abstract

本申请涉及一种图像替换方法、装置、计算机设备和存储介质。所述方法包括：获取输入图像和参考图像；基于所述输入图像的语义特征，将所述参考图像进行语义对齐，得到所述参考图像对应的对齐特征图；基于所述输入图像的语义特征，将所述参考图像对应的对齐特征图进行语义融合，得到所述对齐特征图对应的融合特征图；根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像。采用本方法，可充分利用各个参考图像的特性，实现对输入图像中图像内容的准确替换，进而有效提高图像替换准确度。

Description

图像替换方法、装置、计算机设备和存储介质

技术领域

本申请涉计算机视觉技术领域，特别是涉及一种图像替换方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的不断发展，图像替换技术已逐渐成为当前人工智能领域的研究热点，并被广泛应用于各种社交应用及网站平台，如将某用户面部表情、姿态等替换至另一人脸中，或将人脸替换至动物头像中，以获取不同应用场景所需的替换图像。

传统技术中的图像替换方法，通常需要特定变换的多张训练图片进行模型训练，且需较长训练过程方能被应用，无法满足多场景图像替换的实时性需求。而在面对图像替换训练数据缺失时，往往通过神经网络提取各样本特征向量求取平均值的方式来获取替换后的目标图像，替换质量不高、准确率较低。

因此，传统技术中的图像替换方法存在图像替换准确度低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高图像替换准确度的图像替换方法、装置、计算机设备和存储介质。

一种图像替换方法，所述方法包括：

获取输入图像和参考图像；

基于所述输入图像的语义特征，将所述参考图像进行语义对齐，得到所述参考图像对应的对齐特征图；

基于所述输入图像的语义特征，将所述参考图像对应的对齐特征图进行语义融合，得到所述对齐特征图对应的融合特征图；

根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像。

一种图像替换装置，所述装置包括：

图像获取模块，用于获取输入图像和参考图像；

图像对齐模块，用于基于所述输入图像的语义特征，将所述参考图像进行语义对齐，得到所述参考图像对应的对齐特征图；

图像融合模块，用于基于所述输入图像的语义特征，将所述参考图像对应的对齐特征图进行语义融合，得到所述对齐特征图对应的融合特征图；

图像替换模块，用于根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取输入图像和参考图像；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取输入图像和参考图像；

上述图像替换方法、装置、计算机设备和存储介质，通过获取输入图像和参考图像，并基于输入图像的语义特征将参考图像进行语义对齐，可得到参考图像对应的对齐特征图，进而将对齐特征图进行语义特征融合，可得到对齐特征图对应的融合特征图，最后根据融合特征图，将输入图像的输入内容替换至参考图像中，即可得到具有输入内容的目标图像。采用本方法，可充分利用各个参考图像的特性，实现对输入图像中图像内容的准确替换，进而有效提高图像替换准确度。

附图说明

图1为一个实施例中图像替换方法的应用环境图；

图2为一个实施例中图像替换方法的流程示意图；

图3为一个实施例中图像替换方法的效果示意图；

图4为一个实施例中对齐特征图获取步骤的流程示意图；

图5为一个实施例中图像替换方法的框架结构示意图；

图6为一个实施例中特征图获取步骤的流程示意图；

图7为另一个实施例中对齐特征图获取步骤的流程示意图；

图8为一个实施例中光流图获取步骤的流程示意图；

图9为一个实施例中中层光流图获取步骤的流程示意图；

图10为一个实施例中中层语义对齐模块的内部算法示意图；

图11为又一个实施例中对齐特征图获取步骤的流程示意图；

图12为一个实施例中融合特征图获取步骤的流程示意图；

图13为另一个实施例中融合特征图获取步骤的流程示意图；

图14为一个实施例中融合特征图获取的算法流程示意图；

图15为一个实施例中目标图像获取步骤的流程示意图；

图16为一个实施例中目标图像优化步骤的流程示意图；

图17为一个实施例中图像获取步骤的流程示意图；

图18为一个实施例中图像替换方法的效果示意图；

图19为一个实施例中图像替换装置的结构框图；

图20为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先需要说明的是，本申请所提供的图像替换方法，主要涉及于人工智能(Artificial Intelligence，AI)，该技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，能够感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。而计算机视觉技术(Computer Vision，CV)作为人工智能软件技术的研究方向之一，是一门研究如何使机器“看”的科学，其通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请所提出的图像替换方法，不仅需应用人工智能，还需应用计算机视觉技术中的图像处理等技术，以实现对图像替换准确度的有效提升。

其次需要说明的是，本申请所提供的图像替换方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104之间通过网络进行通信。实际应用中，用户可通过终端102向服务器104发送图像替换请求，以使服务器104在响应该请求并接收终端102发送的待替换图像后，能够通过预置算法对该待替换图像进行预设部位定向替换，以便生成用户所需的目标图像。例如，某特定应用软件可支持人脸图像的替换，即将某用户的人脸替换至另一指定人脸头像中，以获取该用户在与之不同年龄、性别头像中的人脸替换图像，该技术不仅可供社交应用具备更丰富的娱乐性功能，还可供警务系统具备更强大的查询手段，为各领域图像替换技术发展提供了新的思路。具体地，服务器104可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端102可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端102以及服务器104可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。网络包含但不限于：广域网、城域网或局域网。

最后需要说明的是，本申请所提供的图像替换方法，需运用生成对抗神经网络(GAN)的基本框架来实现对图像的替换，该基本框架具体包括一个生成器(Generator)和一个判别器(Discriminator)。其中，生成器G的目标就是尽可能生成真实的图片去欺骗判别器D，而判别器D的目标就是尽可能将生成器G生成的图片与真实图片区分开。但不同于传统框架的是，本申请提出在生成器G中的编码器(Encoder)与解码器(Decoder)之间，不仅设置有语义对齐模块用于对图像语义特征进行对齐，还设置有融合模块用以融合各类语义特征，以便获取图像替换准确度较高的目标图像。同时，本申请提出针对编码器E，采用可分层提取图像语义特征的分层编码器，该分层编码器所对应的语义对齐模块和融合模块的模块数量，实质与分层编码器中的层级数对应相等。

在一个实施例中，如图2所示，提供了一种图像替换方法，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤S202，获取输入图像和参考图像。

其中，输入图像是指所含图像内容待替换至另一图像中的待替换图像，而图像内容可以是指人或动物的脸部内容，具体可以是指人或动物脸部的表情、姿态等。一方面，姿态可以是指容貌神态、样子、风格、气度等，而在本实施例中，姿态可以是指人或动物头部呈现的样子，具体可通过头部中轴线与水平方向、竖直方向的角度进行表征，例如与竖直方向呈45°夹角右偏的右侧脸、与竖直方向呈45°夹角左偏的左侧脸等；另一方面，表情是指表达在面部或姿态上的思想感情，例如，面部嘴角上扬所表达的微笑表情、面部嘴角下垂所表达的沮丧表情，又或者是姿态上垂头所表达的难过表情等。

其中，参考图像是指用于替换输入图像中图像内容的参考图像，在本实施例以及后续实施例中，参考图像可以是多个的，即可以是某实物(人或动物)在不同角度下所呈现的多个参考图像。

具体地，服务器104可通过终端102接收获取用户提交的输入图像，并根据终端102指示在数据库中提取特定的参考图像，作为可替换输入图像中输入内容的背景图像。其中，参考图像具体可以是某实物(人或动物)在不同角度下所呈现的图像，例如某人或动物的左侧脸图像、正脸图像以及右侧脸图像等。而获取参考图像，目的在于可从内容替换角度方面考虑提升图像替换的准确度，使最终生成的目标图像具备输入图像与参考图像之间更高的契合度。

例如，输入图像为用户A的右侧脸图像，而参考图像包括用户B的左侧脸图像、正脸图像以及右侧脸图像，则本实施例最终获取的到目标图像可以是在用户B右侧脸图像中呈现有用户A右侧脸内容的图像。

又例如，输入图像为猫的正脸图像，而参考图像包括用户B的左侧脸图像、正脸图像以及右侧脸图像，则本实施例最终获取的到目标图像可以是在用户B右侧脸图像中呈现有猫正脸内容的图像。反之亦然。

步骤S204，基于所述输入图像的语义特征，将所述参考图像进行语义对齐，得到所述参考图像对应的对齐特征图。

其中，语义特征是指图像中融合有时空信息的事物抽象特征。

其中，对齐特征图是指与输入图像中语义特征对齐部分的区域特征图。

具体地，图像的语义分为视觉层、对象层和概念层，视觉层即通常所理解的底层，包括颜色、纹理和形状等等，这些特征都被称为底层特征语义；对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；概念层是高层，是图像表达出的最接近人类理解的东西。例如，一张图像包括有沙子、蓝天和海水等，其中视觉层是一块块的区分，对象层是沙子、蓝天和海水，概念层就是海滩，所有这些即为该图像所表现出的语义。

更具体地，本实施例提出可通过分层编码器中的各层特征提取网络结构，分别提取输入图像与各个参考图像中的语义特征，进而通过各层网络结构对应的各个语义对齐模块，将输入图像的语义特征映射至参考图像中进行语义特征的语义对齐，以在各个参考图像中获取与输入图像语义特征对齐位置下的对齐特征图，该对齐特征图不仅呈现了与输入图像在图像内容角度上的对齐，更由于分层特征空间之间关联性的作用，逐级呈现了与输入图像在整体图像内容上不断细化的对齐。

例如，语义对齐后的对齐特征图，具体呈现了与输入图像在表情、姿态、纹理等脸部内容及其角度上的对齐。

步骤S206，基于所述输入图像的语义特征，将所述参考图像对应的对齐特征图进行语义融合，得到所述对齐特征图对应的融合特征图。

其中，融合特征图是指对齐特征图与输入图像中语义特征融合后组成的四维矩阵图像。

具体地，由于本实施例中的参考图像存在多个，因此可得到各个参考图像对应的对齐特征图，即多个对齐特征图，之后可结合输入图像的语义特征，通过融合模块首先计算输入特征图(输入图像中语义特征组成的特征图)与各个对齐特征图之间的特征相似度，进而基于该特征相似度对每一张对齐特征图的权重进行动态分配，利用分配好的权重将输入特征图与对齐特征图基于特征之间的关系(特征通道数、特征数量)进行融合，即可得到各个融合模块对应的融合特征图，该融合特征图不仅为四维矩阵图像，且由于分层编码器中各层网络结构的细化处理，以致融合特征图随其所在融合模块对应的层级降低，图像高度及宽度呈两倍放大。

步骤S208，根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像。

其中，输入内容可以是指输入图像中人或动物脸部的表情和姿态等，可以理解的是，输入内容由输入图像及其指定待替换的内容确定。

其中，目标图像是指生成对抗神经网络中生成器G的输出图像，该目标图像具体为参考图像中指定图像内容已替换为输入内容的图像。

具体地，服务器104可通过生成对抗神经网络中生成器G的解码器D，将各个分层特征空间对应的融合特征图作为输入，以获取解码器D输出的目标图像。

例如，可参阅图3，为本实施例中运用图像替换方法所实现人脸替换的替换效果，图3中所示的目标图像，即为具有输入内容(输入图像的表情、姿态等)的参考图像。

当然，获取目标图像的方式还可以是根据输入图像中的关键信息，结合多个参考图像训练可用于图像替换的深度学习神经网络，利用训练好的深度学习神经网络生成具有输入图像关键信息的目标图像，若该图像为人脸头像，则关键信息可以是表情、姿势等信息。

上述图像替换方法中，通过获取输入图像和参考图像，并基于输入图像的语义特征将参考图像进行语义对齐，可得到参考图像对应的对齐特征图，进而将对齐特征图进行语义特征融合，可得到对齐特征图对应的融合特征图，最后根据融合特征图，将输入图像的输入内容替换至参考图像中，即可得到具有输入内容的目标图像。采用本方法，可充分利用各个参考图像的特性，实现对输入图像中图像内容的准确替换，进而有效提高图像替换准确度。

在一个实施例中，如图4所示，步骤S204包括：

步骤S402，基于所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述参考图像的参考特征图，以及所述输入图像的输入特征图。

其中，输入特征图是指输入图像中语义特征所组成的特征图，而参考特征图是指参考图像中语义特征所组成的特征图。

具体地，可参阅图5，基于生成对抗神经网络中生成器G的多层编码器(L＝1、2、3)，服务器104可分别从各层网络结构中获取到输入图像“s”的输入特征图“f_s ^l”，以及参考图像“t_i”的参考特征图

其中，i＝1～k。

当然，虽然图5展示的输入图像、参考图像均为人脸图像，但实际应用中，无论是输入图像还是参考图像，均可以是动物图像或其他可支持替换图像。因此，输入图像与参考图像的图像类型，在本申请中不作具体限制。

步骤S404，将所述输入特征图与所述参考特征图进行语义对齐，得到所述对齐特征图。

具体地，可参阅图5，基于生成对抗神经网络中生成器G的语义对齐模块(SemanticPyramid Alignment，SPA)，特别是分层编码器分别对应的语义对齐模块SPA₁、SPA₂、SPA₃，服务器104可将输入特征图“f_s ^l”与参考特征图

作为模块输入参数，利用模块中设置的特征对齐算法，将输入特征图“f_s ^l”与参考特征图/>

进行语义对齐，以获取各个语义对齐模块SPA_l输出的对齐特征图/>

本实施例中，通过获取输入图像与各个参考图像各自的语义特征进行语义对齐，可有效提高图像替换准确度。

在一个实施例中，如图6所示，步骤S402包括：

步骤S602，基于生成对抗神经网络中的分层编码器，提取所述输入图像的语义特征，并根据所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述分层编码器对应的输入特征图和参考特征图。

具体地，可参阅图5，由于生成对抗神经网络中生成器G的分层编码器具有三层特征提取网络结构，因此服务器104可分别获取到分层编码器中高层特征提取网络结构输出的输入特征图“f_s ¹”和参考特征图

中层特征提取网络结构输出的输入特征图“f_s ²”和参考特征图/>

低层特征提取网络结构输出的输入特征图“f_s ³”和参考特征图/>

其中，i＝1～k。

本实施例中，通过生成对抗神经网络中的分层编码器提取输入图像与参考图像中的语义特征，将语义特征作为后续处理依据进行图像处理，可有效提高图像替换准确度。

在一个实施例中，如图7所示，步骤S404包括：

步骤S702，基于生成对抗神经网络中的语义对齐模块，分别将所述输入特征图与所述参考特征图进行语义对齐，得到所述语义对齐模块对应的光流图；

步骤S704，根据所述光流图与所述参考特征图，确定所述对齐特征图。

其中，图像亮度模式的表观运动就是光流，光流的定义可以引申出光流场，它是指图像中所有像素点构成的一种二维瞬时速度场，其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影，所以光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息。因此，对光流的研究成为计算机视觉及有关研究领域中的一个重要部分。

具体地，可参阅图5，当前的生成对抗神经网络中具有三个语义对齐模块，则各语义对齐模块可利用输入特征图“f_s ^l”与参考特征图

分别进行图像扭曲(warp)，进而输入至对齐模块(N^l)进行特征对齐，即可以获取各个语义对齐模块对应输出的光流图，而利用该光流图结合参考特征图/>

可进一步分析各语义对齐模块最终输出的对齐特征图/>

更具体地，图像扭曲(warp)操作的作用在于，输入特征图“f_s ^l”与参考特征图

中，均包含有本申请所需待对齐的语义特征，但是所在位置不同，则需根据输入特征图“f_s ^l”中语义特征的所在位置，将参考特征图/>

的特征扭曲至相应位置便于对齐。由此，无需再从网络学习生成指定位置具有语义特征的特征图，便可直接就从原始图中进行扭曲获取。同时，(Warp)的操作参数是经过预先执行的网络学习而确定的。

本实施例中，通过语义对齐模块首先获取光流图，进而利用光流图结合参考特征图获取对齐特征图，不仅可对光流图逐个进行优化，还可有效提高图像替换准确度。

在一个实施例中，如图8所示，步骤S702包括：

步骤S802，确定所述生成对抗神经网络中的语义对齐模块；所述语义对齐模块包括高层语义对齐模块、中层语义对齐模块以及低层语义对齐模块；

步骤S804，在所述高层语义对齐模块中，将所述输入特征图与所述参考特征图进行语义对齐，得到高层光流图；

步骤S806，在所述中层语义对齐模块中，将所述高层光流图进行优化处理，得到中层光流图；

步骤S808，在所述低层语义对齐模块中，将所述中层光流图进行优化处理，得到低层光流图。

其中，高层语义对齐模块表示为SPA₁、中层语义对齐模块表示为SPA₂、低层语义对齐模块表示为SPA₃。

具体地，可参阅图5，通过分层编码器分别对应的语义对齐模块SPA₁、SPA₂、SPA₃，可在竖直方向上分别获取其输出的光流图，如高层语义对齐模块SPA₁可输出高层光流图

之后，将高层光流图/>

传输至中层语义对齐模块SPA₂，以使中层语义对齐模块SPA₂对高层光流图/>

进行细化处理，输出更加优化的中层光流图/>

中层语义对齐模块SPA₂可进一步将中层光流图/>

传输至低层语义对齐模块SPA₃，以使低层语义对齐模块SPA₃对中层光流图/>

进行细化处理，得到更加优化的低层光流图/>

本实施例中，通过对光流图逐层进行优化，可在改善编码器最终所输出融合特征图的基础上，进一步提高图像替换的准确度。

在一个实施例中，如图9所示，步骤S806包括：

步骤S902，通过所述中层语义对齐模块，获取所述高层光流图；

步骤S904，将所述高层光流图进行像素偏移处理，得到高层偏移光流图；

步骤S906，根据所述高层偏移光流图，对所述参考特征图进行扭曲优化，得到扭曲特征图；

步骤S908，将所述扭曲特征图与所述输入特征图进行语义对齐，并与所述高层偏移光流图进行累加，得到所述中层光流图。

具体地，可参阅图10，为本实施例的中层语义对齐模块SPA₂内部算法示意图。在上述实施例中，已解释各语义对齐模块SPA_l均可分析得到其对应层级的光流图，如高层语义对齐模块SPA₁可根据输入特征图“f_s ¹”与参考特征图

分析得到高层光流图/>

且该高层光流图/>

可传输至中层语义对齐模块SPA₂中实现进一步的图像优化。因此，中层语义对齐模块SPA₂获取其对应的中层光流图/>

可首先对高层光流图/>

进行采样，利用采样得到的高层光流图/>

进行像素偏移处理：/>

得到高层偏移光流图

然后根据高层偏移光流图/>

对参考特征图/>

进行扭曲处理：

得到扭曲特征图/>

最后将扭曲特征图/>

与输入特征图“f_s ²”进行语义对齐并与高层偏移光流图/>

进行累加：

可得到中层光流图/>

更具体地，与上述中层光流图存在相同获取方式的还包括低层光流图，其同样是通过本层(低层)语义对齐模块首先获取上层(中层)光流图，进而对上层光流图进行像素偏移处理，在得到本层偏移光流图之后可进一步对本层的参考特征图进行扭曲优化，利用扭曲特征图与本层的输入特征图进行语义对齐并与本层偏移光流图进行累加，可得到本层(低层)光流图。

更具体地，可通过下述公式分析获取高层光流图、中层光流图以及低层光流图：

(1)高层光流图(l＝1；i＝1～k)：

(2)中层光流图与低层光流图(l＝2、3；i＝1～k)：

本实施例中，通过设置图像替换算法实现对各层光流图的优化处理，可有效提高图像替换准确度。

在一个实施例中，如图11所示，所述光流图包括高层光流图、中层光流图以及低层光流图，步骤S704包括：

步骤S1102，根据所述高层光流图、所述中层光流图以及所述低层光流图，分别对所述参考特征图进行扭曲优化，得到高层对齐特征图、中层对齐特征图以及低层对齐特征图；

步骤S1104，确定所述高层对齐特征图、中层对齐特征图以及低层对齐特征图，作为所述对齐特征图。

具体地，上述实施例不仅解释了如何通过中层语义对齐模块获取其对应中层光流图的具体步骤，还解释了高层/低层语义对齐模块如何分析获取其对应光流图的具体方式。因此，在本实施例中，将进一步解释如何根据高层光流图、中层光流图以及低层光流图，分别获取其对应各层的对齐特征图。

更具体地，结合图10，各层对齐特征图可通过下述公式分析获取，其中，l＝1、2、3，i＝1～k：

本实施例中，通过对各层光流图进行扭曲优化，有利于提高图像替换准确度。

在一个实施例中，如图12所示，步骤S206包括：

步骤S1202，基于所述输入图像的语义特征，确定所述输入图像的输入特征图；

步骤S1204，将所述输入特征图与所述对齐特征图进行特征融合，得到所述融合特征图。

具体地，服务器104分析获取分层编码器中各层网络结构对应的融合特征图之前，首先需基于输入图像的语义特征，确定输入图像的输入特征图，进而利用输入特征图计算其与各个对齐特征图之间的特征相似度，再基于该特征相似度对每一张对齐特征图的权重进行动态分配，利用分配好的权重将输入特征图与对齐特征图进行融合，即可得到各个融合特征图。

本实施例中，通过结合输入特征图实现对对齐特征图的特征融合，可有效提高图像替换的准确度。

在一个实施例中，如图13所示，所述对齐特征图包括高层对齐特征图、中层对齐特征图以及低层对齐特征图，步骤S1204包括：

步骤S1302，基于生成对抗神经网络中的融合模块，分别计算所述输入特征图与所述高层对齐特征图、中层对齐特征图以及低层对齐特征图之间的特征相似度；

步骤S1304，根据所述特征相似度，分别对所述高层对齐特征图、中层对齐特征图以及低层对齐特征图进行加权融合，得到高层融合特征图、中层融合特征图以及低层融合特征图；

步骤S1306，确定所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图，作为所述融合特征图。

其中，特征相似度可以是针对输入特征图与各层对齐特征图之间语义特征的相似性比例程度，该相似度取值范围可表现为数值范围，如0-1、0-10等，也可以表现为百分比范围，如0-100％。

具体地，本实施例中提出的特征相似度，可以是包括颜色特征、纹理特征、形状特征、空间关系特征等语义特征的相似度，获取方式可以是通过计算输入特征图与各层对齐特征图之间的余弦相似度来获取。

更具体地，可参阅图14，为本实施例融合模块中分析获取融合特征图的算法流程示意图。结合图5可知，生成对抗神经网络中各个融合模块W_l获取融合特征图的方式，可以是首先计算输入特征图与各层对齐特征图之间的特征相似度，如图14所示，首先将输入特征图(n，1，c，h，w)与各层中各个对齐特征图(n，b，c，h，w)进行转置和展平，得到可计算特征相似度的矩阵格式(n×h×w，c，1)与(n×h×w，b，c)，进而将两者相乘即可计算其特征相似度，得到该对齐特征图(n×h×w，b，c)在特征提取通道数c与对齐特征图数量b上的对应权重(b，1)，实际表示为(n×h×w，b，1)，基于权重对每个对齐特征图(n×h×w，c，b)的分配进行融合，得到最终的融合特征图(n，c，h，w)。其中，n为对齐特征图的批量数，b是指单位批量数中对齐特征图的数量，即对齐特征图总计具有n*b个，c是指特征提取的通道数，h是指图像高度，w是指图像宽度。

本实施例中，通过计算对齐特征图之间的相似度，并基于该相似度进行加权融合，可有效提高图像替换的准确度。

在一个实施例中，如图15所示，步骤S208包括：

步骤S1502，确定所述融合特征图中的高层融合特征图、中层融合特征图以及低层融合特征图；

步骤S1504，将所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图分别输入至生成对抗神经网络中的解码器；

步骤S1506，获取所述解码器输出的目标图像；所述目标图像为具有所述输入图像中输入内容的参考图像。

具体地，可参阅图5，将高层融合特征图、中层融合特征图以及低层融合特征图分别输入至解码器D中对融合特征进行解码，即可得到具有输入内容的参考图像，作为用户所需的目标图像，该目标图像可依据判别器D的判别结果，判定是否还需进行优化。

本实施例中，利用解码器对融合特征进行解码，以获取其输出的目标图像，不仅能提高图像获取效率，还能提高图像替换的准确度。

在一个实施例中，如图16所示，步骤S208之后还包括：

步骤S1602，基于生成对抗神经网络中的类别分类判别器和/或类别相似度判别器，对所述目标图像进行优化训练，以获取所述生成对抗神经网络中生成器优化后的目标图像。

其中，类别分类判别器用于将生成的目标图像分为若干类别，而类别相似度判别器用于判断输入的两张图像是否具有同一属性。

具体地，本实施例提出在运用生成对抗神经网络提高图像替换准确度时，判别器D中不仅设置有类别分类判别器，还设置有分类相似度判别器，通过类别分类判别器不仅可区别生成器G生成的目标图像是否为真实图像，还可区分图像的属性类别，而通过类别相似度判别器即可进一步分析目标图像与任意真实图像之间的相似度。

本实施例中，通过引入类别相似度判别器对目标图像进行判别，可改善单独使用类别分类判别器时可能出现真实样本不足致使误判率升高，更导致图像替换准确度降低的状况。

在一个实施例中，如图17所示，步骤S202包括：

步骤S1702，获取脸部内容待替换的人脸输入图像，作为所述输入图像，以及，获取具有不同脸部内容替换角度的人脸参考图像，作为所述参考图像。

其中，人脸输入图像是指待替换脸部内容的人脸图像，而人脸参考图像是指可用于替换脸部内容的人脸图像。

具体地，服务器104可获取终端102所发送脸部内容待替换的人脸输入图像作为输入图像，以使该输入图像中的脸部内容能够替换至具有多个脸部内容替换角度的人脸参考图像(参考图像)中，生成具有输入内容的目标图像。

本实施例中，将人脸输入图像作为输入图像、人脸参考图像作为参考图像，不仅可满足用户对人脸图像替换的需求，还能有效提高图像替换的准确度。

应该理解的是，虽然图2、4、6-9、11-13、15-17的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、6-9、11-13、15-17中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

本申请还提供一种应用场景，该应用场景应用上述的图像替换方法。具体地，该图像替换方法在该应用场景的应用如下：

某特定应用软件具有图像替换功能，用户将自己的人脸图像发送至终端，并指定其所需替换的人脸图像后，终端或与终端连接的服务器可获取到输入图像和各个参考图像，进而在图像替换系统中，首先通过生成对抗神经网络中的分层编码器，分别提取输入图像与各个参考图像中的语义特征，得到分组的输入特征图和各个参考特征图，进而利用语义对齐模块将输入的输入特征图和各个参考特征图进行语义对齐，并对语义对齐模块输出的各个对齐特征图进行特征融合，以获取融合特征图，最终将各层对应的融合特征图输入至解码器，以获取其解码输出的目标图像。此时的目标图像即为具有输入内容(输入图像中的表情、姿态等)的参考图像，换而言之，该目标图像实质为用户指定图像中包含自身表情及姿态的图像。本申请相对其他传统技术的图像替换效果，可参阅图18。

本实施例中，可充分利用参考图像的特性实现对输入图像中图像内容的替换，进而有效提高图像替换准确度。

在一个实施例中，如图19所示，提供了一种图像替换装置1900，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：图像获取模块1902、图像对齐模块1904、图像融合模块1906和图像替换模块1908，其中：

图像获取模块1902，用于获取输入图像和参考图像；

图像对齐模块1904，用于基于所述输入图像的语义特征，将所述参考图像进行语义对齐，得到所述参考图像对应的对齐特征图；

图像融合模块1906，用于基于所述输入图像的语义特征，将所述参考图像对应的对齐特征图进行语义融合，得到所述对齐特征图对应的融合特征图；

图像替换模块1908，用于根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像。

在一个实施例中，图像对齐模块1904还用于基于所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述参考图像的参考特征图，以及所述输入图像的输入特征图；将所述输入特征图与所述参考特征图进行语义对齐，得到所述对齐特征图。

在一个实施例中，图像对齐模块1904还用于基于生成对抗神经网络中的分层编码器，提取所述输入图像的语义特征，并根据所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述分层编码器对应的输入特征图和参考特征图。

在一个实施例中，图像对齐模块1904还用于基于生成对抗神经网络中的语义对齐模块，分别将所述输入特征图与所述参考特征图进行语义对齐，得到所述语义对齐模块对应的光流图；根据所述光流图与所述参考特征图，确定所述对齐特征图。

在一个实施例中，图像对齐模块1904还用于确定所述生成对抗神经网络中的语义对齐模块；所述语义对齐模块包括高层语义对齐模块、中层语义对齐模块以及低层语义对齐模块；在所述高层语义对齐模块中，将所述输入特征图与所述参考特征图进行语义对齐，得到高层光流图；在所述中层语义对齐模块中，将所述高层光流图进行优化处理，得到中层光流图；在所述低层语义对齐模块中，将所述中层光流图进行优化处理，得到低层光流图。

在一个实施例中，图像对齐模块1904还用于通过所述中层语义对齐模块，获取所述高层光流图；将所述高层光流图进行像素偏移处理，得到高层偏移光流图；根据所述高层偏移光流图，对所述参考特征图进行扭曲优化，得到扭曲特征图；将所述扭曲特征图与所述输入特征图进行语义对齐，并与所述高层偏移光流图进行累加，得到所述中层光流图。

在一个实施例中，图像对齐模块1904还用于根据所述高层光流图、所述中层光流图以及所述低层光流图，分别对所述参考特征图进行扭曲优化，得到高层对齐特征图、中层对齐特征图以及低层对齐特征图；确定所述高层对齐特征图、中层对齐特征图以及低层对齐特征图，作为所述对齐特征图。

在一个实施例中，图像融合模块1906还用于基于所述输入图像的语义特征，确定所述输入图像的输入特征图；将所述输入特征图与所述对齐特征图进行特征融合，得到所述融合特征图。

在一个实施例中，图像融合模块1906还用于基于生成对抗神经网络中的融合模块，分别计算所述输入特征图与所述高层对齐特征图、中层对齐特征图以及低层对齐特征图之间的特征相似度；根据所述特征相似度，分别对所述高层对齐特征图、中层对齐特征图以及低层对齐特征图进行加权融合，得到高层融合特征图、中层融合特征图以及低层融合特征图；确定所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图，作为所述融合特征图。

在一个实施例中，图像替换模块1908还用于确定所述融合特征图中的高层融合特征图、中层融合特征图以及低层融合特征图；将所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图分别输入至生成对抗神经网络中的解码器；获取所述解码器输出的目标图像；所述目标图像为具有所述输入图像中输入内容的参考图像。

在一个实施例中，图像替换装置还包括图像优化模块，用于基于生成对抗神经网络中的类别分类判别器和/或类别相似度判别器，对所述目标图像进行优化训练，以获取所述生成对抗神经网络中生成器优化后的目标图像。

在一个实施例中，图像获取模块1902还用于获取脸部内容待替换的人脸输入图像，作为所述输入图像，以及，获取具有不同脸部内容替换角度的人脸参考图像，作为所述参考图像。

本实施例中，可充分利用各个参考图像的特性，实现对输入图像中图像内容的准确替换，进而有效提高图像替换准确度。

关于图像替换装置的具体限定可以参见上文中对于图像替换方法的限定，在此不再赘述。上述图像替换装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图20所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像替换方法。

本领域技术人员可以理解，图20中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像替换方法，所述方法包括：

获取输入图像和参考图像；

基于所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述参考图像的参考特征图，以及所述输入图像的输入特征图；

确定生成对抗神经网络中的语义对齐模块；所述语义对齐模块包括高层语义对齐模块、中层语义对齐模块以及低层语义对齐模块；

在所述高层语义对齐模块中，根据所述输入特征图与所述参考特征图进行图像扭曲后进行特征对齐，得到高层光流图；

在所述中层语义对齐模块中，将所述高层光流图进行优化处理，得到中层光流图，在所述低层语义对齐模块中，将所述中层光流图进行优化处理，得到低层光流图；

根据所述高层光流图、所述中层光流图、所述低层光流图、以及所述参考特征图，确定对齐特征图；

2.根据权利要求1所述的方法，其特征在于，所述基于所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述参考图像的参考特征图，以及所述输入图像的输入特征图，包括：

基于生成对抗神经网络中的分层编码器，提取所述输入图像的语义特征，并根据所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述分层编码器对应的输入特征图和参考特征图。

3.根据权利要求1所述的方法，其特征在于，所述在所述高层语义对齐模块中，根据所述输入特征图与所述参考特征图进行图像扭曲后进行特征对齐，得到高层光流图，包括：

在所述高层语义对齐模块中，根据所述输入特征图中的语义特征的所在位置，将所述参考特征图中的语义特征扭曲至相应位置后进行特征对齐，得到高层光流图。

4.根据权利要求1所述的方法，其特征在于，所述在所述中层语义对齐模块中，将所述高层光流图进行优化处理，得到中层光流图，包括：

通过所述中层语义对齐模块，获取所述高层光流图；

将所述高层光流图进行像素偏移处理，得到高层偏移光流图；

根据所述高层偏移光流图，对所述参考特征图进行扭曲优化，得到扭曲特征图；

将所述扭曲特征图与所述输入特征图进行语义对齐，并与所述高层偏移光流图进行累加，得到所述中层光流图。

5.根据权利要求1所述的方法，其特征在于，所述根据所述高层光流图、所述中层光流图、所述低层光流图、以及所述参考特征图，确定所述对齐特征图，包括：

根据所述高层光流图、所述中层光流图以及所述低层光流图，分别对所述参考特征图进行扭曲优化，得到高层对齐特征图、中层对齐特征图以及低层对齐特征图；

确定所述高层对齐特征图、中层对齐特征图以及低层对齐特征图，作为所述对齐特征图。

6.根据权利要求1所述的方法，其特征在于，所述基于所述输入图像的语义特征，将所述参考图像对应的对齐特征图进行语义融合，得到所述对齐特征图对应的融合特征图，包括：

基于所述输入图像的语义特征，确定所述输入图像的输入特征图；

将所述输入特征图与所述对齐特征图进行特征融合，得到所述融合特征图。

7.根据权利要求6所述的方法，其特征在于，所述对齐特征图包括高层对齐特征图、中层对齐特征图以及低层对齐特征图，所述将所述输入特征图与所述对齐特征图进行特征融合，得到所述融合特征图，包括：

基于生成对抗神经网络中的融合模块，分别计算所述输入特征图与所述高层对齐特征图、中层对齐特征图以及低层对齐特征图之间的特征相似度；

根据所述特征相似度，分别对所述高层对齐特征图、中层对齐特征图以及低层对齐特征图进行加权融合，得到高层融合特征图、中层融合特征图以及低层融合特征图；

确定所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图，作为所述融合特征图。

8.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像，包括：

确定所述融合特征图中的高层融合特征图、中层融合特征图以及低层融合特征图；

将所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图分别输入至生成对抗神经网络中的解码器；

获取所述解码器输出的目标图像；所述目标图像为具有所述输入图像中输入内容的参考图像。

9.根据权利要求1所述的方法，其特征在于，在所述根据所述融合特征图，将所述输入图像的输入内容替换至所述参考图像中，得到具有所述输入内容的目标图像之后，所述方法还包括：

基于生成对抗神经网络中的类别分类判别器和/或类别相似度判别器，对所述目标图像进行优化训练，以获取所述生成对抗神经网络中生成器优化后的目标图像。

10.根据权利要求1所述的方法，其特征在于，所述获取输入图像和参考图像，包括：

获取脸部内容待替换的人脸输入图像，作为所述输入图像，以及，获取具有不同脸部内容替换角度的人脸参考图像，作为所述参考图像。

11.一种图像替换装置，其特征在于，所述装置包括：

图像获取模块，用于获取输入图像和参考图像；

图像对齐模块，用于基于所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述参考图像的参考特征图，以及所述输入图像的输入特征图；确定生成对抗神经网络中的语义对齐模块；所述语义对齐模块包括高层语义对齐模块、中层语义对齐模块以及低层语义对齐模块；在所述高层语义对齐模块中，根据所述输入特征图与所述参考特征图进行图像扭曲后进行特征对齐，得到高层光流图；在所述中层语义对齐模块中，将所述高层光流图进行优化处理，得到中层光流图，在所述低层语义对齐模块中，将所述中层光流图进行优化处理，得到低层光流图；根据所述高层光流图、所述中层光流图、所述低层光流图、以及所述参考特征图，确定对齐特征图；

12.根据权利要求11所述的装置，其特征在于，所述图像对齐模块，还用于：基于生成对抗神经网络中的分层编码器，提取所述输入图像的语义特征，并根据所述输入图像的语义特征，提取所述参考图像的语义特征，得到所述分层编码器对应的输入特征图和参考特征图。

13.根据权利要求11所述的装置，其特征在于，所述图像对齐模块，还用于在所述高层语义对齐模块中，根据所述输入特征图中的语义特征的所在位置，将所述参考特征图中的语义特征扭曲至相应位置后进行特征对齐，得到高层光流图。

14.根据权利要求11所述的装置，其特征在于，所述图像对齐模块，还用于通过所述中层语义对齐模块，获取所述高层光流图；将所述高层光流图进行像素偏移处理，得到高层偏移光流图；根据所述高层偏移光流图，对所述参考特征图进行扭曲优化，得到扭曲特征图；将所述扭曲特征图与所述输入特征图进行语义对齐，并与所述高层偏移光流图进行累加，得到所述中层光流图。

15.根据权利要求11所述的装置，其特征在于，所述图像对齐模块，还用于根据所述高层光流图、所述中层光流图以及所述低层光流图，分别对所述参考特征图进行扭曲优化，得到高层对齐特征图、中层对齐特征图以及低层对齐特征图；确定所述高层对齐特征图、中层对齐特征图以及低层对齐特征图，作为所述对齐特征图。

16.根据权利要求11所述的装置，其特征在于，所述图像融合模块，还用于基于所述输入图像的语义特征，确定所述输入图像的输入特征图；将所述输入特征图与所述对齐特征图进行特征融合，得到所述融合特征图。

17.根据权利要求16所述的装置，其特征在于，所述对齐特征图包括高层对齐特征图、中层对齐特征图以及低层对齐特征图，所述图像融合模块，还用于基于生成对抗神经网络中的融合模块，分别计算所述输入特征图与所述高层对齐特征图、中层对齐特征图以及低层对齐特征图之间的特征相似度；根据所述特征相似度，分别对所述高层对齐特征图、中层对齐特征图以及低层对齐特征图进行加权融合，得到高层融合特征图、中层融合特征图以及低层融合特征图；确定所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图，作为所述融合特征图。

18.根据权利要求11所述的装置，其特征在于，所述图像替换模块，还用于确定所述融合特征图中的高层融合特征图、中层融合特征图以及低层融合特征图；将所述高层融合特征图、所述中层融合特征图以及所述低层融合特征图分别输入至生成对抗神经网络中的解码器；获取所述解码器输出的目标图像；所述目标图像为具有所述输入图像中输入内容的参考图像。

19.根据权利要求11所述的装置，其特征在于，所述装置还包括图像优化模块，用于基于生成对抗神经网络中的类别分类判别器和/或类别相似度判别器，对所述目标图像进行优化训练，以获取所述生成对抗神经网络中生成器优化后的目标图像。

20.根据权利要求11所述的装置，其特征在于，所述图像获取模块，还用于获取脸部内容待替换的人脸输入图像，作为所述输入图像，以及，获取具有不同脸部内容替换角度的人脸参考图像，作为所述参考图像。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述方法的步骤。

22.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。