CN114266693A

CN114266693A - 图像处理方法、模型生成方法及设备

Info

Publication number: CN114266693A
Application number: CN202111547423.1A
Authority: CN
Inventors: 孙泽锋; 吕江靖; 盘博文; 常元章; 考月英; 李晓波
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-04-01

Abstract

本申请实施例提供了一种图像处理方法、模型生成方法及设备。其中，确定相机位姿信息及至少一种人脸属性特征；利用生成对抗网络中的生成器，基于所述相机位姿信息构建在三维空间中的体素坐标信息；基于所述体素坐标信息及所述至少一种人脸属性特征，构建体素特征；将所述体素特征转换为对应二维空间的像素特征，并基于所述像素特征，渲染获得目标人脸图像。本申请实施例提供的技术方案保证图像生成效果，从而提高了图像生成准确度。

Description

图像处理方法、模型生成方法及设备

技术领域

本申请实施例涉及计算机图像技术领域，尤其涉及一种图像处理方法、模型生成方法及设备。

背景技术

实际应用中，存在生成特定对象图像，例如生成人脸图像的图像生成需求，如何生成更加准确的图像也成为本领域技术人员需要解决的技术问题。

发明内容

本申请实施例提供了一种图像处理方法、模型生成方法及设备，用以解决现有技术中图像生成准确度低的技术问题。

第一方面，本申请实施例中提供了一种图像处理方法，包括：

确定相机位姿信息及至少一种人脸属性特征；

利用生成对抗网络中的生成器，基于所述相机位姿信息构建在三维空间中的体素坐标信息；

基于所述体素坐标信息及所述至少一种人脸属性特征，构建体素特征；

将所述体素特征转换为对应二维空间的像素特征，并基于所述像素特征，渲染获得目标人脸图像。

第二方面，本申请实施例中提供了一种模型生成方法，包括：

确定相机位姿样本信息、至少一种人脸属性样本特征及样本图像；

将所述相机位姿样本信息及所述至少一种人脸属性样本特征输入生成对抗网络中的生成器，以由所述生成器基于所述相机位姿样本信息构建在三维空间中的体素样本坐标信息，基于所述体素样本坐标信息及所述至少一种人脸属性样本特征构建体素样本特征，及将所述体素样本特征转换为对应二维空间的像素样本特征，并基于所述像素样本特征渲染获得预测图像；

将所述预测图像及所述样本图像输入所述生成对抗网络中的判别器；

基于所述判别器的判别结果，调整所述生成对抗网络的模型参数。

第三方面，本申请实施例中提供了一种图像处理方法，包括：

确定相机位姿信息及至少一种目标对象属性特征；

基于所述体素坐标信息及所述至少一种目标对象属性特征，构建体素特征；

将所述体素特征转换为对应二维空间的像素特征，并基于所述像素特征渲染获得包含目标对象的目标图像。

第四方面，本申请实施例中提供了一种模型生成方法，包括：

确定相机位姿样本信息、至少一种目标对象属性样本特征以及样本图像；

将所述相机位姿样本信息及所述至少一种目标对象属性样本特征输入生成对抗网络中的生成器，以基于所述相机位姿样本信息构建在三维空间中的体素样本坐标信息，基于所述体素样本坐标信息及所述至少一种目标对象属性样本特征构建体素样本特征，及将所述体素样本特征转换为对应二维空间的像素样本特征，并基于所述像素样本特征渲染获得包含目标对象的预测图像；

将所述预测图像及所述样本图像输入所述生成对抗网络中的判别器，以获得判别结果；

基于所述判别结果，调整所述生成对抗网络的模型参数。

第五方面，本申请实施例中提供了一种计算设备，包括存储组件以及处理组件，所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如上述第一方面或第三方面所述的图像处理方法或者实现如上述第二方面或第四方面所述的模型生成方法。

本申请实施例，基于相机位姿信息以及至少一种人脸属性特征。利用预先训练获得的生成对抗网络中的生成器，可以基于所述相机位姿信息构建在三维空间中的体素坐标信息，基于所述体素坐标信息及所述至少一种人脸属性特征，构建体素特征，以及将所述体素特征转换为对应二维空间的像素特征，从而基于所述像素特征，可以渲染获得目标人脸图像。在人脸图像生成过程中，通过结合相机位姿信息以及至少一个人脸属性特征，可以构建在三维空间中的体素特征，使得体素特征引入了三维信息，之后再将体素特征转换为二维空间中的像素特征进行渲染，由于在图像生成过程中引入更多信息，可以提高生成的目标人脸图像的图像效果，从而可以提高图像生成的准确度。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请提供的一种模型生成方法一个实施例的流程图；

图2示出了本申请提供的一种图像处理方法一个实施例的流程图；

图3示出了本申请提供的一种模型生成方法又一个实施例的流程图；

图4示出了本申请实施例提供的生成对抗网络在一个实际应用中的结构示意图；

图5示出了本申请提供的一种图像处理方法又一个实施例的流程图；

图6a示出了本申请实施例的技术方案适用的一个示例性的交互场景示意图；

图6b示出了本申请实施例在一个实际应用中的图像生成效果对比示意图；

图7示出了本申请提供的一种模型生成装置一个实施例的结构示意图；

图8示出了本申请提供的一种计算设备一个实施例的结构示意图；

图9示出了本申请提供的一种图像处理装置一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案可以应用于存在图像生成需求的各种应用场景中，如训练图像生成场景或人脸属性编辑场景中，通过改变人脸的某些属性，从而来生成具有特定属性的人脸图像等。

发明人在实现本申请的过程中发现，图像生成相关技术中，以生成人脸图像为例，可以采用生成对抗网络来实现，基于一些真实人脸所提取的人脸属性特征，训练生成对抗网络，从而使得生成对抗网络中的生成器基于给定的人脸属性特征，即可以生成对应的人脸图像。然而，这种方式生成的图像效果并不好，发明人经过进一步研究，由于人脸复杂多样，具有不同的人脸结构、姿态和表情等，而真实人脸图像为二维图像，从中所提取的人脸属性特征也不够准确，因此最终影响了图像生成准确度。

结合上述发现，为了提高图像生成准确度，发明人创造性的提出了本申请的技术方案。本申请实施例中，在图像生成过程中，通过结合相机位姿信息以及至少一个目标对象属性特征，可以构建在三维空间中的体素特征，使得体素特征引入了三维信息，之后再将体素特征转换为二维空间中的像素特征进行渲染，通过转换为三维空间再映射回二维空间，使得在图像生成过程中可以引入更多信息，提高生成图像中的目标对象效果，从而可以提高图像生成的准确度。

实际应用中，目标对象可以具体是指人脸，在下文一个或多个实施例中将主要以人脸为例对本申请技术方案进行介绍。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请实施例提供的一种模型生成方法一个实施例的流程图，该方法可以包括以下几个步骤：

101：确定相机位姿样本信息、至少一种目标对象属性样本特征及样本图像。

相机位姿样本信息、至少一种目标对象属性样本特征以及样本图像可以作为训练样本输入生成对抗网络，生成对抗网络的训练需要大量的训练样本，训练过程也可以分批次进行等。生成对抗网络主要由生成器以及判别器构成，当然，还可以包括其他网络结构，在下文实施例中会详细介绍。

相机位姿样本信息可以包括外参样本信息以及内参样本信息。外参样本信息可以基于在世界坐标系中的相机位置以及指向方向生成，可以包括旋转矩阵以及平移向量。内参样本信息可以包括能够将三维相机坐标与二维齐次图像坐标进行变换的变化矩阵等。

目标对象实际应用中例如可以是指人脸、人体、动物脸、动物身体或者其它可以进行属性变换的对象。属性例如可以是指目标对象的形状、纹理、表情、姿态等。

样本图像可以是指具有真实的目标对象的图像，如真实人脸图像等。

其中，为了实现生成对抗网络的训练，相机位姿样本信息、至少一种目标对象属性样本特征可以是从符合相应数学分布的数据集中随机选择获得。因此，可选地，相机位姿样本信息、以及至少一种目标对象属性样本特征的确定方式可以包括：

从符合相应数学分布的相机位姿数据集中随机选择相机位姿样本信息；

分别从符合相应数学分布的至少一种对象属性类型对应的特征数据集中随机选择至少一种目标对象属性样本特征。

其中，样本图像可以是从图像数据集中随机选择获得，图像数据集可以由包含真实目标对象的图像构成。

从而相机位姿样本信息、至少一种目标对象属性样本特征以及样本图像，构成训练样本。

其中，相机位姿数据集可以基于给定取值范围按照其符合的相应数学分布而生成。该取值范围也可以结合实际情景进行人为设定，当然，也可以从图像数据集中提取每一张真实目标对象图像的相机位姿信息，再对多个相机位姿信息经过统计获得相机位姿取值范围，从而基于该相机位姿取值范围而生成符合相应数学分布的相机位姿数据集，该相机位姿信息符合的数学分布例如可以是均匀分布等。

而对于任一种对象属性类型对应的特征数据集，也可以基于给定的取值范围按照其符合的相应数学分布而生成。该取值范围也可以结合实际情景进行人为设定，当然，也可以从图像数据集中提取每一张真实的目标对象图像的属性特征，再对多个属性特征经过统计获得属性特征取值范围，从而基于该属性特征取值范围而生成符合相应数学分布特征数据集。不同对象属性类型对应的特征训练集符合数学分布可以包括均匀分布或标准正态分布等，例如对于人脸形状特征、人脸纹理特征可以是符合标准正态分布，对于人脸表情系数特征、人脸位姿特征、眼珠转动方向特征可以是符合均匀分布。

102：将相机位姿样本信息及至少一种目标对象属性样本特征输入生成对抗网络中的生成器，以基于相机位姿样本信息构建在三维空间中的体素样本坐标信息，基于体素样本坐标信息及至少一种目标对象属性样本特征构建体素样本特征，及将体素样本特征转换为对应二维空间的像素样本特征，并基于像素样本特征渲染获得包含目标对象的预测图像。

生成器基于相机位姿样本信息及至少一种目标对象属性样本特征，执行一系列操作即可以预测获得包含目对象的预测图像。

其中，体素也即是体积元素的简称，用于三维成像，其可以是指三维图像中的最小单位。

体素样本坐标信息可以包括在三维空间中的体素坐标位置及视角信息，该视角信息可以是指从相机位置到某个体素的视角分解角度的正切值而构成的向量，该视角分解角度也即是指将与预测图像的中心位置的连线垂直于预测图像且距离为相机焦距的点作为起点，该起点向预测图像各个像素点的连线，与预测图像所在平面形成的角度。其中，体素坐标位置为三维世界坐标系下的坐标位置，可以基于相机位姿样本信息中的外参矩阵和内参矩阵，在图像坐标下、相机坐标系以及世界坐标系中进行变换获得，与传统实现方式一致本申请对此不进行过多赘述。

其中，生成器可以包括特征构建模块，用于基于体素样本坐标信息及至少一种目标对象属性样本特征构建体素样本特征，该特征构建模块可以在生成对抗网络训练过程而训练获得，该特征构建模块例如可以采用多层感知机实现等。

体素样本特征可以再映射回二维空间中的像素样本特征，生成器中可以包括特征识别模块可以基于像素样本特征而生成包含目标对象的预测图像，该特征识别模块可以在生成对抗网络训练过程而训练获得，其可以对像素样本特征进行上采样和卷积处理操作从而实现渲染操作，实际应用，该特征识别模块可以采用卷积神经网络实现。

当然，生成器中还可以包括用于基于相机位姿样本信息构建在三维空间中的体素样本坐标信息的特征提取模块等，该特征提取模块可以对相机位姿样本信息进行计算和编码等从而获得体素样本坐标信息。

为了进一步提高图像生成准确度，可选地，训练样本中还可以包括至少一种背景属性样本特征，该至少一种背景属性样本特征例如可以包括背景形状特征、背景纹理特征、和/或背景位姿特征等。

从而基于体素样本坐标信息及至少一种目标对象属性样本特征构建体素样本特征可以是将体素样本坐标信息以及至少一种目标对象属性样本特征，映射为前景体素样本特征；将体素样本坐标信息以及至少一种背景属性样本特征，映射为背景体素样本特征；将前景体素样本特征以及背景体素样本特征，融合为体素样本特征。

因此，生成器可以具体包括前景特征构建模块以及背景特征模块，此外还可以包括特征融合模块，用于融合前景体素样本特征以及背景体素样本特征，而获得最终的体素样本特征，及将体素样本特征转换为像素样本特征。

103：将预测图像及样本图像输入生成对抗网络中的判别器，以获得判别结果。

104：基于判别结果，调整生成对抗网络的模型参数。

该判别结果可以表示预测图像与样本图像的接近程度，通过判别器与生成器的反复对抗，不断调整生成对抗网络的模型参数，使得接近程度符合训练要求，即训练完成，获得生成对抗网络。本申请实施例对生成对抗网络的具体训练方式不进行限定。

生成对抗网络训练完成之后，即可以利用生成对抗网络中的生成器进行图像生成，通过训练生成对抗网络可以使得生成对抗网络学习各个属性特征的解耦，进而使得训练获得的生成对抗网络实现对各个属性的单独编辑，可以实现生成具有特征属性特征的目标对象图像等。且生成对抗网络可以实现在三维空间重建体素特征，通过转换为三维空间再映射回二维空间，使得在图像生成过程中可以引入更多信息，比如人脸位姿具有空间效果，因此采用本申请的技术方案使得特征表达效果更好，可以提高生成图像中的目标对象效果，从而可以提高图像生成的准确度。

如图2所示，为本申请实施例提供的一种图像处理方法一个实施例的流程图，该方法可以包括以下几个步骤：

201：确定相机位姿信息及至少一种目标对象属性特征。

其中，相机位姿信息可以从符合相应数学分布的相机位姿数据集中随机选择获得。该相机位姿数据集的确定方式可以参见前文实施例中所述。

该至少一种目标对象属性特征的确定方式可以有多种实现方式，例如可以结合实际应用场景，采用固定配置的目标对象属性特征、用户设置的目标对象属性特征、和/或从特定人脸图像中提取的目标对象属性特征等，在下文相应实施例中会详细进行介绍。

202：利用生成对抗网络中的生成器，基于相机位姿信息构建在三维空间中的体素坐标信息。

将相机位姿信息以及至少一种目标对象属性特征，输入生成器中，即可以实现步骤202～步骤204的操作。

生成器可以首先基于相机位姿信息构建在三维空间中的体素坐标信息。体素坐标信息可以包括体素坐标位置及视角信息，该视角信息可以是指从相机位置到体素的视角分解角度的正切值而构成的向量，该视角分解角度也即是指将与预测图像的中心位置的连线垂直于预测图像且距离为相机焦距的点作为起点，该起点向预测图像各个像素点的连线，与预测图像所在平面形成的角度。其中，体素坐标位置为三维世界坐标系下的坐标位置，可以基于相机位姿样本信息中的外参矩阵和内参矩阵，在图像坐标下、相机坐标系以及世界坐标系中进行变换获得，与传统实现方式一致本申请对此不进行过多赘述。

203：基于体素坐标信息及至少一种目标对象属性特征，构建体素特征。

生成器中可以包括特征构建模块，用于基于体素坐标信息及至少一种目标对象属性特征构建体素特征，该特征构建模块可以在生成对抗网络训练过程而训练获得，该特征构建模块例如可以采用多层感知机实现等。

204：将体素特征转换为对应二维空间的像素特征，并基于像素特征渲染获得包含目标对象的目标图像。

体素特征可以再映射回像素特征，实现从三维空间映射会二维空间的目的，生成器中可以包括特征识别模块，可以基于像素特征而生成包含目标对象的目标图像，该特征识别模块可以在生成对抗网络训练过程而训练获得，其可以对像素特征进行上采样和卷积处理操作从而实现渲染操作，实际应用，该特征识别模块可以采用卷积神经网络实现。

当然，生成器中还可以包括特征提取模块等，由特征提取模块对相机位姿信息进行计算和编码等从而获得体素坐标信息。

为了进一步提高图像生成准确度，可选地，还可以确定至少一种背景属性特征，从而基于体素坐标信息以及至少一种目标对象属性特征，构建前景体素特征；基于体素坐标信息以及至少一种背景属性特征，构建背景体素特征；将前景体素特征及背景体素特征进行融合处理，获得体素特征。

本申请实施例中，通过结合相机位姿信息以及至少一个目标对象属性特征，可以构建在三维空间中的体素特征，使得体素特征引入了三维信息，之后再将体素特征转换为二维空间中的像素特征进行渲染，通过转换为三维空间再映射回二维空间，使得在图像生成过程中可以引入更多信息，提高生成图像中的目标对象效果，从而可以提高图像生成的准确度。

如图3所示，为本申请实施例提供的一种模型生成方法又一个实施例的流程图，该方法可以包括以下几个步骤：

301：确定相机位姿样本信息、至少一种人脸属性样本特征及样本图像。

该至少一种人脸属性样本特征可以包括人脸具有的各个属性的属于样本特征，例如可以包括人脸形状样本特征、人脸纹理样本特征、人脸位姿样本特征、人脸表情系数样本特征、以及眼珠转动方向样本特征等。

其中，人脸形状决定了脸部形状，人脸纹理可以决定皮肤颜色等，人脸位姿也即是指头部转动姿态信息，人脸表情系数也即是指多个表情基组合为一个表情时的各个表情基的权重值，表情基可以是指拓扑结果相同的一组三维人脸模型，可以表示人脸各自表情的主成分，目前可以划分为52个表情基，该人脸表情系数即可以是指52个表情基各自的权重值，人脸表情系数不同，最终产生不同的人脸表情。

样本图像可以是指真实人脸图像。

其中，相机位姿样本信息、至少一种人脸属性样本特征是从符合相应数学分布的数据集中随机选择获得。因此，可选地，相机位姿样本信息、以及至少一种人脸属性样本特征的确定方式可以包括：

分别从符合相应数学分布的至少一种人脸属性类型对应的特征数据集中随机选择至少一种人脸属性样本特征。

其中，样本图像可以是从图像数据集中随机选择获得。

从而相机位姿样本信息、至少一种目标对象属性样本特征以及样本图像，即构成训练样本。

该相机位姿数据集可以基于给定取值范围按照其符合的相应数学分布而生成。该取值范围也可以结合实际情景进行人为设定，当然，也可以从图像数据集中提取每一张真实的目标对象图像的相机位姿信息，再对多个相机位姿信息经过统计获得相机位姿取值范围，从而基于该相机位姿取值范围而生成符合相应数学分布的相机位姿数据集，该相机位姿信息符合的数学分布例如可以是均匀分布等。

而任一种人脸属性类型的人脸属性特征对应的特征数据集也可以基于给定的取值范围按照其符合的相应数学分布而生成。该取值范围也可以结合实际情景进行人为设定当然，也可以从图像数据集中提取每一张真实人脸图像的人脸属性特征，再对多个人脸属性特征经过统计获得属性特征取值范围，从而基于该人脸属性特征取值范围而生成符合相应数学分布特征数据集。不同人脸属性类型对应的特征数据集符合数学分布可以包括均匀分布或标准正态分布等，例如对于人脸形状特征、人脸纹理特征可以是符合标准正态分布，对于人脸表情系数特征、人脸位姿特征、眼珠转动方向特征可以是符合均匀分布。

其中，人脸形状特征、人脸纹理特征、人脸表情系数特征、和眼珠转动方向特征可以采用latent code(潜向量，一种特征向量)表示，人脸位姿特征可以采用人脸位姿矩阵表示等。相机位姿样本信息也即可以是指相机位姿矩阵，其由外参矩阵和内参矩阵构成等。

302：将相机位姿样本信息及至少一种人脸属性样本特征输入生成对抗网络中的生成器，以由生成器基于相机位姿样本信息构建在三维空间中的体素样本坐标信息，基于体素样本坐标信息及至少一种人脸属性样本特征构建体素样本特征，及将体素样本特征转换为像素样本特征，并基于像素样本特征渲染获得预测图像。

体素样本特征可以再映射回像素样本特征，生成器中可以包括特征识别模块可以基于像素样本特征而生成包含目标对象的预测图像，该特征识别模块可以在生成对抗网络训练过程而训练获得，其可以对像素样本特征进行上采样和卷积处理操作从而实现渲染操作，实际应用，该特征识别模块可以采用卷积神经网络实现。

为了进一步提高图像生成准确度，可选地，还可以包括确定至少一种背景属性样本特征，该训练样本中还可以包括至少一种背景属性样本特征，该至少一种背景属性样本特征例如可以包括背景形状特征、背景纹理特征、和/或背景位姿特征等。该至少一种背景属性样本特征可以采用固定特征，每次训练的背景属性样本特征可以一样，当然也可以每次构建训练成本时，分别从符合相应数学分布的至少一种背景属性类型所对应的特征训练数据机进行随机选择。

从而，基于体素样本坐标信息及至少一种人脸属性样本特征构建体素样本特征可以是将体素样本坐标信息以及至少一种人脸属性样本特征，映射为前景体素样本特征；将体素样本坐标信息以及至少一种背景属性样本特征，映射为背景体素样本特征；将前景体素样本特征以及背景体素样本特征，融合为体素样本特征。

因此，生成器可以具体包括前景特征构建模块以及背景特征构建模块，此外还可以包括特征融合模块，用于融合前景体素样本特征以及背景体素样本特征，而获得最终的体素样本特征。

303：将预测图像及样本图像输入生成对抗网络中的判别器。

304：基于判别器的判别结果，调整生成对抗网络的模型参数。

在某些实施例中，为了进一步提高模型准确度，进而提高图像生成准确度，在某些实施例中，该方法还可以包括：

将预测图像输入生成对抗网络中的识别器，由识别器从预测图像中提取一种或多种人脸属性预测特征；

将一种或多种属性预测特征，与对应的人脸属性样本特征进行比较；

基于比较结果，调整生成对抗网络的模型参数。

也即，生成对抗网络中还可以包括与生成器输出连接的识别器，识别器可以从生成器生成的预测图中提取至少一种目标人脸属性预测特征；该至少一种目标人脸属性预测特征可以结合实际需求而确定，比如训练生成对抗网络的目的是想要生成特定表情的图像，则该至少一种目标人脸属性可以包括人脸表情系数以及眼珠转动方向；又如训练生成对抗网络的目的是想要生成特定形状或纹理的图像，则至少一种目标人脸属性可以包括人脸形状或人脸纹理等。

通过将属于同一人脸属性类型的人脸属性预测特征与人脸属性样本特征进行比较，基于比较结果结合损失函数以及梯度回传等算法，可以调整生成对抗网络的模型参数，直至符合训练要求等。

也即生成对抗网络可以结合判别器的判别结果以及识别器的判别结果而进行模型参数调整等，直至获得符合训练要求的生成对抗网络。

该识别器可以再生成对抗网络训练过程而训练获得，当然也可以采用预先训练获得的可以实现目标人脸属性特征提取的模型实现，实际应用中，该识别器例如可以采用回归模型实现等。

下面结合图4所示的一个示例性的生成对抗网络的结构示意图，对生成对抗网络的具体生成过程进行解释说明。

如图4中所示，生成对抗网络例如可以包括生成器100、判别器200，此外还可以包括识别器300。其中，生成器100可以包括特征提取模块401、前景特征构建模块402、背景特征构建模块403、特征融合模块404以及特征识别模块405。

其中，前景特征构建模块402以及背景特征构建模块403可以采用多层感知机。特别识别模块405可以采用卷积神经网络实现。

相机位姿样本信息输入特征提取模块401，由特征提取模块401可以从相机位姿样本信息中计算获得体素坐标位置x，以及视角信息d，并可以分别对体素坐标位置x以及视角信息d进行编码处理等，由编码之后的体素坐标位置x以及视角信息d构成在三维空间中的体素样本坐标信息。

至少一种人脸属性样本特征以及体素样本坐标信息可以输入前景特征构建模块402，由前景特征构建模块402，映射获得每个前景体素的前景体素样本特征f_ij ^F。其中，j表示某一条视线，i表示j视线上的一个体素。此外可以获得每个前景体素样本特征所对应的稠密值σ_ij ^F，稠密值可以表示前景体素样本特征的权重系数。

至少一种背景属性样本特征以及体素样本坐标信息可以输入背景特征构建模块403，以由背景特征构建模块403，映射获得每个背景体素的背景体素样本特征f_ij ^B和稠密值σ_ij ^B。

之后，特征融合模块404可以首先将相同体素坐标位置的前景体素样本特征和背景体素样本特征，根据各自对应的稠密值进行加权融合，从而获得体素样本特征以及体素样本特征对应的稠密值，一种融合方式例如体素样本特征对应的稠密值可以是同一位置的前景体素样本特征和背景体素样本特征分别对应稠密值相加获得的稠密和值；前景体素样本特征的加权系数可以是其所对应的稠密值与该稠密和值的比值，背景体素样本特征的加权系数可以是其所对应的稠密值与该稠密和值的比值，之后再将前景体素样本特征和背景体素样本特征按照各自加权系数进行加权求和即可获得体素样本特征，具体融合方式可以按照如下第一融合公式实现：

其中，C代表融合后的体素特征空间中的某一个体素的体素样本特征

和稠密值σ；m等于1或2，f₁例如可以代表前景体素样本特征，σ₁例如可以代表前景体素样本特征的稠密值，f₂例如可以代表背景体素样本特征，σ₂例如可以代表背景体素样本特征的稠密值。

此外，特征融合模块404还可以将体素样本特征转换为像素样本特征，例如可以将位于同一视线下的所有体素样本特征进行融合而获得一个像素样本特征。一种融合方式例如进行加权求和获得，而每个体素样本特征的加权系数可以基于其对应体素与同一视线下的相邻体素的距离获得，具体可以按照如下第二融合公式实现：

其中，Ns表示位于同一个视线下的体素数量；δ_n表示在同一视线下第n个体素与其相邻的一个体素之间的距离。f_n表示同一视线下第n个体素的体素样本特征，σ_n表示同一视线下第n个体素的稠密值。τ_nα_n可以表示第n个体素的体素样本特征的加权系数。

特征融合模块404生成的像素样本特征，可以输入特征识别模块405，由特征识别模块405渲染获得预测图像。该特征识别模块例如可以采用卷积神经网络实现，通过对各个像素样本特征进行上采样以及卷积等操作，以预测渲染包含人脸的图像。

特征识别模块405渲染获得的预测图像可以输入判别器200以及识别器300，同样样本图像，也即真实人脸图像也会输入判别器200。判别器200通过判别样本图像与预测图像的相似度；识别器300用于提取预测图像中的至少一种目标人脸属性预测特征，比如提取人脸表情系数预测特征以及眼珠转动方向预测特征，分别与人脸表情系数样本特征以及眼珠转动方向预测特征进行比较。根据识别器300的比较结果以及判别器200的判别结果，可以共用作用，以对生成对抗网络的模型参数进行调整，实现对生成对抗网络的训练。通过判别器、识别器与生成器的反复对抗，从而不断强化生成器的属性解耦能力。

生成对抗网络训练完成之后，即可以利用生成对抗网络中的生成器进行图像生成，通过训练生成对抗网络可以使得生成对抗网络学习各个属性特征的解耦，进而使得训练获得的生成对抗网络实现对各个属性的单独编辑，可以实现生成具有特定人脸属性人脸图像等。图5即从图像生成角度对本申请技术方案进行了介绍，图5所示的图像处理方法可以包括如下几个步骤：

501：确定相机位姿信息及至少一种人脸属性特征。

502：利用生成对抗网络中的生成器，基于相机位姿信息构建在三维空间中的体素坐标信息。

将相机位姿信息以及至少一种人脸属性特征输入生成器中，即可以实现步骤502～步骤504的操作。

503：基于体素坐标信息及至少一种人脸属性特征，构建体素特征。

504：将体素特征转换为对应二维空间的像素特征，并基于像素特征，渲染获得目标人脸图像。

图5所示实施例与图2所示不同之处，目标对象具体是指人脸，其它详细操作可以详见图2所示实施例中所述。

在某些实施例中，该方法还可以包括：

确定至少一种背景属性特征；

则基于体素坐标信息及至少一种人脸属性特征，构建体素特征可以包括：基于体素坐标信息以及至少一种人脸属性特征，构建前景体素特征；基于体素坐标信息以及至少一种背景属性特征，构建背景体素特征；将前景体素特征及背景体素特征进行融合处理，获得体素特征。

结合前文描述可知，如图4所示的生成对抗网络中，生成器可以包括特征提取模块、前景特征构建模块、背景特征构建模块、特征融合模块以及特征识别模块，可以具体是由特征提取模块基于相机位姿信息构建在三维空间中的体素坐标信息；由前景特征构建模块基于体素坐标信息以及至少一种人脸属性特征，构建前景体素特征；由背景特征构建模块基于体素坐标信息以及至少一种背景属性特征，构建背景体素特征；之后，经由特征融合模块将前景体素特征及背景体素特征进行融合处理，获得体素特征，以及将体素特征转换为对应二维空间的像素特征；由特征识别模块基于像素特征渲染获得目标人脸图像，该目标人脸图像即为具有该至少一种人脸属性特征的人脸图像。

其中，将前景体素特征及背景体素特征进行融合处理，获得体素特征可以具体是将相同体素坐标位置的前景体素样本特征和背景体素样本特征，进行加权融合，从而获得体素样本特征。加权融合方式例如可以按照上述第一融合公式进行加权融合获得，可以首先将相同体素坐标位置的前景体素特征和背景体素特征分别对应稠密值相加获得稠密和值；前景体素特征的加权系数可以是其所对应的稠密值与该稠密和值的比值，背景体素特征的加权系数可以是其所对应的稠密值与该稠密和值的比值，之后再将前景体素特征和背景体素特征按照各自加权系数进行加权求和即可获得体素样本特征，而该稠密和值作为体素样本特征对应的稠密值。

其中，将体素特征转换为对应二维空间的像素特征可以具体是将位于同一视线下的所有体素特征进行融合而获得一个像素特征。一种融合方式例如进行加权求和获得，而每个体素特征的加权系数可以基于其对应体素与同一视线下的相邻体素的距离获得，具体可以按照上述第二融合公式实现等。

其中，相机位姿信息可以从符合相应数学分布的相机位姿数据集中随机选择获得。该相机位姿数据集的确定方式可以参见前文实施例中。

而该至少一种人脸属性特征的确定方式可以有多种实现方式，作为一种可选方式，至少一种人脸属性特征的确定方式可以包括：

从至少一个特定人脸图像中提取至少一种人脸属性特征；其中，一个特定人脸图像用于提取一种或多种人脸属性特征。

其中，该至少一个特定人脸图像可以用户上传获得。本申请技术方案中，可以是由服务端执行本申请实施例提供的图像处理方法，该至少一个特定人脸图像可以是用户经由客户端上传至服务端。此外，本申请技术方案，也可以是由客户端执行本申请实施例提供的图像处理方法等。其中，客户端可以基于用户请求，对用户所在环境进行图像采集获得和/或从本地系统中获得该至少一个特定人脸图像等。客户端可以是实现人脸属性编辑类应用程序，例如一些可以变换人脸属性的变脸应用程序等。

用户可以指定从哪一个特定人脸图像中提取哪几种人脸属性特征，也即可以按照用户指示从至少一个特定人脸图像中提取至少一种人脸属性特征。

从而生成的目标人脸属性即为融合了不同特定人脸的人脸属性特征的图像。以两个特定人脸图像举例说明，假设从第一特定人脸图像提取人脸形状特征、人脸纹理特征以及人脸位姿特征，从第二特定人脸图像中提取中人脸表情系数特征以及眼珠转动方向转动，从而目标人脸图像即为具有第一特定人脸图像的人脸形状、人脸纹理及人脸位姿，并具有第二特定人脸图像的人脸表情和眼转转动方向等。实际应用中，例如第一特定人脸图像可以是用户自拍获得的自己的人脸图像，第二特定人脸图像可以用户上传某个名人的人脸图像等，从而可以实现利用名人的人脸图像来驱动自己人脸图像的表情变化的效果等。

作为另一种可选方式，至少一种人脸属性特征的确定方式可以包括：

从分别满足相应数学分布的至少一种人脸属性类型对应的特征数据集中，随机选择人脸属性特征，获得至少一种人脸属性特征。

随机选择的至少一种人脸属性特征，获得的目标人脸图像可以是一张虚拟人脸图像。从而实现生成虚拟人脸图像的目的。

虚拟人脸图像例如可以作为一些人脸处理类模型的训练样本，由于虚拟人脸图像非真实人脸图像，可以保护个人隐私，提高数据处理的安全性。

作为又一种可选方式，至少一种人脸属性特征的确定方式可以包括：

感应于特征设置操作，确定所设置的至少一种人脸属性特征；

该特征设置操作可以是用户触发的。可以具有由客户端感应用户设置操作并通知服务端等，从而确定所设置的该至少一种人脸属性特征。

为了方便用户设置，可选地，该方法还可以包括：

输出多个人脸效果提示信息，该多个人脸效果提示信息例如可以提示用户对应的人脸显示效果，比如高兴的脸、悲伤的脸、老人的脸、孩子的脸、显瘦的脸、变胖的脸等等；该特征设置操作可以具体是指针对该人脸效果提示信息的选择操作。

则该感应于特征设置操作，确定所设置的至少一种人脸属性特征可以包括：

感应于针对多个人脸效果提示信息所触发的选择操作，确定所选择的目标人脸效果；

确定该目标人脸效果所对应的至少一种人脸属性特征。

从至少一个特定人脸图像中提取至少一种特定人脸属性特征，由至少一种特定人脸属性特征及至少一种目标人脸属性特征，构成至少一种人脸属性特征。

该至少一个目标人脸属性特征可以预先配置获得。

也即该至少一种人脸属性特征可以一部分从特定人脸图像中提取，一部分采用固定设置的目标人脸属性特征。

该至少一个特定人脸图像可以是用户上传的，实际应用中，用户可以上传一个特定人脸图像，可以具体为用户自己的人脸图像。用户可以通过客户端对自己人脸进行拍摄获得，或者从本地系统中上传获得等。该至少一种特定人脸属性特征比如可以包括人脸形状特征、人脸纹理特征以及人脸位姿特征，而该至少一种目标人脸属性特征例如可以包括人脸表情系数特征以及眼珠转动方向特征，从而可以实现将特定人脸图像中的特定人脸的表情进行变换的目的，当然，至少一种目标人脸属性特征也可以包括人脸形状特征或人脸纹理特征等，其它人脸属性特征从特定人脸图像中提取，从而可以实现将特定人脸图像中的特定人脸进行形状或纹理的变化等。

此外，该至少一个特定人脸属性特征可以具体是从一个特定人脸图像中进行提取，该一个特定人脸图像可以是目标视频的任意图像帧。目标视频例如可以由用户上传获得等，可选地，该方法还可以包括：

由目标视频中的多个图像帧分别对应的人脸图像，拼接生成第二视频。

可以按照该多个图像帧的在目标视频中的时间顺序进行拼接而生成第二视频。

从而可以实现根据至少一个目标人脸属性特征而改变目标视频中的相应人脸属性特征的目的，从而获得具有目标人脸属性特征的第二视频。

当然，该至少一种目标人脸属性特征，也可以是从某个人脸图像中提取获得或者可以是用户设置获得等。

确定目标音频数据或目标文本数据中的元素所对应的至少一种人脸属性特征。

其中，元素可以是构成目标音频数据或目标文本数据的最小单位，例如对于目标音频数据可以是指音频帧，对于目标文本数据可以是单字等。

也即本申请也可以基于目标音频数据或者目标文本数据的驱动而确定至少一种人脸属性特征。元素所对应的至少一种人脸属性特征可以预先设定等。

实际应用中，在某些实施例中，该方法还可以包括：

按照目标音频数据或目标文本对应的多个元素的排列顺序，将多个元素分别对应的人脸图像进行合并以获得视频画面；

将视频画面与目标音频数据或目标文本数据进行关联，以获得第一视频。

第一视频即可以呈现由一个虚拟人脸基于该目标音频数据发声，并可以将目标文本数据作为字幕显示的视听效果。在新闻播报场景、或机器人客服场景等，即可以采用该方式实现虚拟人脸进行新闻播报或者客服提供服务的场景。

此外，至少一种背景属性特征的确定方式也可以有多种实现方式，例如可以分别从符合相应数学分布至少一种背景属性类型的特征数据集中提取获得；或者可以是感应于用户设置操作而获得等。

在某些实施例中，基于像素特征，渲染获得目标人脸图像之后，该方法还可以包括：

基于目标人脸图像，获得图像渲染结果；

输出图像渲染结果。

可选地，本申请技术方案由服务端执行时，输出图像渲染结果可以是服务端将图像渲染结果发送至客户端，由客户端展示图像渲染效果；或者本申请技术方案由客户端执行时，由客户端展示该图像渲染结果。

其中，该图像渲染结果例如即可以包括该目标人脸图像等，或者还可以为该目标人脸图像匹配对应的音频数据和/或文本数据等，将目标人脸图像与音频数据和/或文本数据进行融合，获得该图像渲染结果；当然，也可以是基于该目标人脸图像，结合音频数据和/或文本数据而生成渲染视频，作为该图像渲染结果等。

图6a示出了可以适用本申请实施例的技术方案的一个示例性的交互场景示意图，在该交互场景中，包括客户端601以及服务端602，其中，服务端602可以部署按照图3所示实施例训练获得的生成对抗网络。

客户端601可以感应用户操作，例如可以基于用户相应请求，从本地系统中确定第一特定图像，当然，也可以基于用户相应请求，调用图像采集控件进行人脸图像采集而获得。

此外，客户端601还可以展示多个人脸效果提示信息，以提示用户选择目标人脸效果。

客户端601可以将第一特定图像以及目标人脸效果发送至服务端602。假设该目标人脸效果对应一个特定人脸表情，如大笑表情。

服务端602可以根据目标人脸效果确定人脸表情系数特征、眼珠转动方向特征等。之后，可以从第一特定图像中提取人脸纹理特征、人脸位姿特征及人脸形状特征等。

之后，服务端602可以基于目标人脸效果对应人脸表情系数特征、眼珠转动方向特征以及人脸形状特征，以及从第一特定图像中提取人脸纹理特征以及人脸位姿特征，以及随机选择的至少一种背景属性特征，结合随机选择的相机位姿信息，利用生成对抗网络中的生成器，生成目标人脸图像。

服务端602可以将该目标人脸图像作为对第一特定人脸图像的图像渲染效果发送至客户端601，由客户端601展示该目标人脸图像。

客户端可以基于用户相应操作，选择保存或者分享该目标人脸图像等。

如图6b中所示，示出了第一特定图像600变换为目标人脸图像700的对比显示示意图。

图6a以及图6b仅是举例说明了本申请技术方案可以应用一个使用场景，可以理解的是，本申请技术方案的使用场景并不仅限定于此。

图7为本申请实施例提供的一种模型生成装置一个实施例的结构示意图，该装置可以包括：

第一确定模块701，用于确定相机位姿样本信息、至少一种目标对象属性样本特征以及样本图像；

第一预测模块702，用于将相机位姿样本信息及至少一种目标对象属性样本特征输入生成对抗网络中的生成器，以基于相机位姿样本信息构建在三维空间中的体素样本坐标信息，基于体素样本坐标信息及至少一种目标对象属性样本特征构建体素样本特征，及将体素样本特征转换为像素样本特征，并基于像素样本特征渲染获得包含目标对象的预测图像；

第一判别模块703，用于将预测图像及样本图像输入生成对抗网络中的判别器，以获得判别结果；

第一训练模型704，用于基于判别结果，调整生成对抗网络的模型参数。

实际应用中，该目标对象可以具体是指人脸。

在某些实施例中，该装置还可以包括：

第一识别模块，用于将预测图像输入生成对抗网络中的识别器，由识别器从预测图像中提取至少一种目标人脸属性预测特征；以及将至少一种目标人脸属性预测特征，与对应的人脸属性样本特征进行比较；

该第一训练模块还可以用于基于比较结果，调整生成对抗网络的模型参数。

在某些实施例中，第一确定模块还用于确定至少一种背景属性样本特征；

第一预测模块还用于将至少一种背景属性样本特征输入生成器；

则第一预测模块基于体素样本坐标信息及至少一种人脸属性样本特征构建体素样本特征可以具体是将体素样本坐标信息以及至少一种人脸属性样本特征，映射为前景体素样本特征；将体素样本坐标信息以及至少一种背景属性样本特征，映射为背景体素样本特征；将前景体素样本特征以及背景体素样本特征，融合为体素样本特征。

图7所述的模型生成装置可以执行图1所示实施例所述的模型生成方法，其实现原理和技术效果不再赘述。对于上述实施例中的模型生成装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，本申请实施例还提供了一种计算设备，如图8所示，该计算设备可以包括存储组件801以及处理组件802；该存储组件801存储一条或多条计算机指令，其中，该一条或多条计算机指令供处理组件调用执行，以实现图1所示实施例的模型生成方法或者图2所示实施例的模型生成方法。

其中，处理组件802可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件801被配置为存储各种类型的数据以支持在终端的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

当然，该计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。

输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

其中，该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等，此时计算设备即可以是指云服务器，上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。

计算设备为服务器时，其可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。其可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

此外，本申请实施例还提供了一种计算机可读存储介质，存储由计算机程序时，该计算机程序被计算机执行时可以实现图1所示实施例的模型生成方法或者图2所示实施例的模型生成方法。该计算机可读介质可以是上述实施例中描述的计算设备中所包含的；也可以是单独存在，而未装配入该计算设备中。

计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

此外，本申请实施例还提供了一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，所述计算机程序被计算机执行时可以实现如上述如图1所示实施例火或图3所示实施例的模型生成方法。

在这样的实施例中，计算机程序可以是从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被处理组件执行时，执行本申请的系统中限定的各种功能。

图9为本申请实施例提供的一种图像处理装置一个实施例的结构示意图，该装置可以包括：

第二确定模块901，用于确定相机位姿信息及至少一种目标对象属性特征；

第一构建模块902，利用生成对抗网络中的生成器，基于相机位姿信息构建在三维空间中的体素坐标信息；

第二构建模块903，基于体素坐标信息及至少一种人脸属性特征，构建体素特征；

第一渲染模块904，用于将体素特征转换为对应二维空间的像素特征，并基于像素特征，渲染获得包含目标对象的目标图像。

实际应用中，该目标对象可以具体是指人脸，目标图像即为目标人脸图像。

在某些实施例中，第二确定模块还用于确定至少一种背景属性特征；

第二构建模块可以是基于体素坐标信息以及至少一种背景属性特征，构建背景体素特征；将前景体素特征及背景体素特征进行融合处理，获得体素特征。

在某些实施例中，该第二确定模块即可以具体用于：

从至少一个特定人脸图像中提取至少一种人脸属性特征；其中，一个特定人脸图像用于提取一种或多种人脸属性特征；

或者，从分别满足相应数学分布的至少一种人脸属性类型对应的特征数据集中，随机选择人脸属性特征，获得至少一种人脸属性特征；

或者，感应于特征设置操作，确定所设置的至少一种人脸属性特征；

或者，从至少一个特定人脸图像中提取至少一种特定人脸属性特征，由至少一种特定人脸属性特征及至少一种目标人脸属性特征，构成至少一种人脸属性特征；

或者，确定目标音频数据或目标文本数据中的元素所对应的至少一种人脸属性特征。

在某些实施例中，至少一种人脸属性特征为从目标音频数据或目标文本数据中的元素所对应的至少一种人脸属性特征的情况下时，该装置还可以包括：

第一生成模块，用于按照目标音频数据或目标文本对应的多个元素的排列顺序，将多个元素分别对应的人脸图像进行合并以获得视频画面；将视频画面与目标音频数据或目标文本数据进行关联，以获得第一视频。

在某些实施例中，至少一种人脸属性特征包括从一个特定人脸图像提取的至少一种特定人脸属性特征以及至少一种目标人脸属性特征的情况下，特定人脸图像为从目标视频中提取的任意图像帧；

该装置还可以包括：

第二生成模块，由目标视频中的多个图像帧分别对应的人脸图像，拼接生成第二视频。

在某些实施例中，该装置还可以包括：

输出模块，用于基于目标人脸图像，获得图像渲染结果；输出图像渲染结果。

在某些实施例中，第二构建模块将前景体素特征及背景体素特征进行融合处理，获得体素特征可以具体是将相同体素坐标位置对应的前景体素特征以及背景体素特征，进行融合以获得每个体素坐标位置对应的体素特征；

第二构建模块将体素特征转换为对应二维空间的像素特征可以具体是将位于同一视线的所有体素特征进行融合以获得像素特征。

图9所述的模型生成装置可以执行图2所示实施例所述的图像处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的模型生成装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，本申请实施例还提供了一种计算设备，该计算设备可以与图8所示的计算设备为同一个计算设备或者不同的计算设备，本实施例的计算设备可以包括存储组件以及处理组件；该存储组件存储一条或多条计算机指令，其中，该一条或多条计算机指令供所述处理组件调用执行，以实现图3所示实施例的图像处理方法或者图5所示实施例的图像生成方法。该计算设备的具体结构与图8所示计算设备的具体结构相同，此处将不再重复赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，包括：

确定相机位姿信息及至少一种人脸属性特征；

2.根据权利要求1所述的方法，其特征在于，还包括：

确定至少一种背景属性特征；

所述基于所述体素坐标信息及所述至少一种人脸属性特征，构建体素特征包括：

基于所述体素坐标信息以及所述至少一种人脸属性特征，构建前景体素特征；

基于所述体素坐标信息以及所述至少一种背景属性特征，构建背景体素特征；

将所述前景体素特征及所述背景体素特征进行融合处理，获得体素特征。

3.根据权利要求1所述的方法，其特征在于，所述至少一种人脸属性特征的确定方式包括：

或者，从至少一个特定人脸图像中提取至少一种特定人脸属性特征，由所述至少一种特定人脸属性特征及至少一种目标人脸属性特征，构成所述至少一种人脸属性特征；

4.根据权利要求3所述的方法，其特征在于，所述至少一种人脸属性特征为从所述目标音频数据或所述目标文本数据中的元素所对应的至少一种人脸属性特征的情况下，所述方法还包括：

按照所述目标音频数据或所述目标文本对应的多个元素的排列顺序，将所述多个元素分别对应的人脸图像进行合并以获得视频画面；

将所述视频画面与所述目标音频数据或所述目标文本数据进行关联，以获得第一视频。

5.根据权利要求3所述的方法，其特征在于，所述至少一种人脸属性特征包括从一个特定人脸图像提取的至少一种特定人脸属性特征以及至少一种目标人脸属性特征的情况下，所述特定人脸图像为从目标视频中提取的任意图像帧；

所述方法还包括：

由所述目标视频的多个图像帧分别对应的人脸图像，拼接生成第二视频。

6.根据权利要求1所述的方法，其特征在于，所述基于所述像素特征，渲染获得目标人脸图像之后，所述方法还包括：

基于所述目标人脸图像，获得图像渲染结果；

输出所述图像渲染结果。

7.根据权利要求2所述的方法，其特征在于，所述将所述前景体素特征及所述背景体素特征进行融合处理，获得体素特征包括：

将相同体素坐标位置对应的前景体素特征以及背景体素特征，进行融合以获得每个体素坐标位置对应的体素特征；

所述将所述体素特征转换为对应二维空间的像素特征包括：

将位于同一视线的所有体素特征进行融合以获得像素特征。

8.一种模型生成方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，还包括：

将所述预测图像输入所述生成对抗网络中的识别器，由所述识别器从所述预测图像中提取至少一种目标人脸属性预测特征；

将所述至少一种目标人脸属性预测特征，与对应的人脸属性样本特征进行比较；

基于比较结果，调整所述生成对抗网络的模型参数。

10.根据权利要求8所述的方法，其特征在于，所述方法还包括：

确定至少一种背景属性样本特征；

将所述至少一种背景属性样本特征输入所述生成器；

所述基于所述体素样本坐标信息及所述至少一种人脸属性样本特征构建体素样本特征包括：

将所述体素样本坐标信息以及所述至少一种人脸属性样本特征，映射为前景体素样本特征；

将所述体素样本坐标信息以及所述至少一种背景属性样本特征，映射为背景体素样本特征；

将所述前景体素样本特征以及所述背景体素样本特征，融合为体素样本特征。

11.根据权利要求8所述的方法，其特征在于，所述确定相机位姿样本信息、至少一种人脸属性样本特征以及样本图像包括：

分别从符合相应数学分布的至少一种人脸属性类型对应的特征数据集中随机选择至少一种人脸属性样本特征；

从符合相应数学分布的图像数据集中随机选择样本图像；

由所述相机位姿样本信息、所述至少一种人脸属性样本特征以及所述样本图像，构成训练样本。

12.一种图像处理方法，其特征在于，包括：

确定相机位姿信息及至少一种目标对象属性特征；

13.一种模型生成方法，其特征在于，包括：

基于所述判别结果，调整所述生成对抗网络的模型参数。

14.一种计算设备，其特征在于，包括存储组件以及处理组件，所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如权利要求1或12所述的图像处理方法或者如权利要求8或13所述的模型生成方法。