CN114092649A

CN114092649A - 基于神经网络的图片生成方法及装置

Info

Publication number: CN114092649A
Application number: CN202111412364.7A
Authority: CN
Inventors: 杨春勇; 王洪斌; 蒋宁; 吴海英; 曾琳铖曦; 刘敏
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-02-25
Anticipated expiration: 2041-11-25
Also published as: CN114092649B

Abstract

本申请公开了一种基于神经网络的图片生成方法及装置。所述方法包括：获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。

Description

基于神经网络的图片生成方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种基于神经网络的图片生成方法及装置。

背景技术

随着科学技术的发展，基于神经网络模型进行用户图片生成已变得越来越普遍。

相关技术在生成用户图片的过程中，会先基于原始用户图片进行传统渲染，得到有一定失真的用户图片，然后将此失真的用户图片输入神经网络模型，得到生成的用户图片。

然而，相关技术中的这种图片生成方式未考虑用户的形体移动因素，在用户存在形体移动的情况下，生成的图片容易失真。

发明内容

本申请实施例提供一种基于神经网络的图片生成方法及装置，用以解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

为了解决上述技术问题，本申请实施例采用以下技术方案：

第一方面，本申请提供了一种基于神经网络的图片生成方法，所述方法包括：

获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；

基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。

第二方面，本申请提供了一种基于神经网络的图片生成装置，所述装置包括：

获取模块，用于获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；

生成模块，用于基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。

第三方面，本申请提供了一种电子设备，包括：处理器，存储器及存储在所述存储器上并在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现第一方面所述的图片生成方法的步骤。

第四方面，本申请提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现第一方面所述的图片生成方法的步骤。

本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

在本申请实施例中，获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。如此，在利用目标神经网络模型生成图片的过程中，通过考虑目标用户的第一数据(包括所述目标用户的UV图数据)和用于反映所述目标用户的形体移动的第二数据，可以基于第一数据和第二数据生更好地对数字人进行渲染，保证生成的目标图片可以体现目标用户的形体移动，从而解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种基于神经网络的图片生成方法的流程图；

图2为本申请实施例提供的一种基于神经网络的图片生成方法的流程图；

图3为本申请实施例提供的一种基于神经网络的图片生成方法中目标神经网络模型的结构示意图；

图4为本申请实施例提供的一种基于神经网络的图片生成方法中目标神经网络模型的结构示意图；

图5为本申请实施例提供的一种基于神经网络的图片生成方法中第二模块的结构示意图；

图6为本申请实施例提供的一种基于神经网络的图片生成装置的结构框图；

图7为本申请实施例提供的一种电子设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1是本申请实施例提供的一种基于神经网络的图片生成方法的流程图。参照图1，本申请实施例提供的基于神经网络的图片生成方法可以包括：

步骤110，获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；

可以理解的是，所述目标用户可以为基于神经网络的图片生成方法所针对的对象。所述第二数据可以为任何可以反映目标用户的形体移动的数据，例如，所述第二数据可以包括表情和/或声音。所述形体移动可以为目标用户的可移动部位(例如嘴部、眼部、下巴或脸颊)的移动。举例而言，在所述第二数据为表情的情况下，所述表情可以用于反映所述目标用户上用于体现表情的可移动部位(例如，眼部、脸颊等)的移动；在所述第二数据为声音的情况下，所述声音可以用于反映所述目标用户上与声音对应的可移动部位(例如嘴部、下巴等)的移动。

在本申请实施例中，在步骤110之前，还可以对目标用户的图片进行三维(3D)人脸建模，并基于3D人脸，可得到UV图数据。其中，目标用户的图片可以来源于视频图像。例如，可以从一段视频中提取出目标用户的真人图片。在所述第二数据包括表情和/或声音的情况下，表情和/或声音也可以来源于所述视频图像。例如，可以从这一段视频中提取出目标用户对应的声音和/或表情。

在本申请实施例中，所述UV图(UV map)可以理解的是将三维物体上的点映射到2维空间上。具体地，“UV”可以是指u、v纹理贴图坐标的简称(它和空间模型的X，Y，Z轴是类似的)。“UV”定义了图片上每个点的位置的信息。这些点与三维(3D)模型是相互联系的,以决定表面纹理贴图的位置。UV就是将图像上每一个点精确对应到模型物体的表面。在点与点之间的间隙位置由软件进行图像光滑插值处理。这就是所谓的UV贴图。UV坐标通常具有U和V两个坐标轴，也可以称为纹理坐标；U代表横向坐标上的分布，V代表纵向坐标上的分布。

举例而言，在本申请的一个实施例中，UV图数据可以是一个维度为(v，3，2)的张量(tensor)；其中，v可以代表3D重建得到的3D模型的顶点个数，3可以为顶点坐标，2可以为该顶点的在UV空间的值。在深度学习中，张量实际上可以是一个多维数组；而张量的目的是能够创造更高维度的矩阵、向量。

步骤120，基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。

其中，神经网络(Neural Networks，NN)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，神经网络反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

一个简单的神经网络，可以包含3个层：输入层、隐藏层和输出层。输入层(Inputlayer)：可以用于输入样本数据；隐藏层(Hidden layer)：可以用于处理输入的数据，例如降维，突出数据特征，其中可能含有多个层；输出层(Output layer)：可以输入数据由隐藏层传入，经过计算，再输出最终结果。神经网络模型可以包括卷积神经网络模型、循环神经网络模型和对抗神经网络模型等等。

在本申请的一个实施例中，所述目标图片可以为数字人图片；其中，数字人图片可以是真人图片，也可以是机器人图片，机器人图片的表情和/或声音等可以与真人相同。在所述第二数据包括表情和/或声音的情况下，所述第二数据中的表情和/或声音数据还可以是对用户输入的文字转换而来的表情和/或声音数据，在经过目标神经网络模型之后，控制数字人上与表情和/或声音对应的可移动部位(例如嘴部、下巴等)进行移动，从而可以通过输入文字实现对数字人的面部的控制。

本申请实施例提供的基于神经网络的图片生成方法，获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。如此，在利用目标神经网络模型生成图片的过程中，通过考虑目标用户的第一数据(包括所述目标用户的UV图数据)和用于反映所述目标用户的形体移动的第二数据，可以基于第一数据和第二数据生更好地对数字人进行渲染，保证生成的目标图片可以体现目标用户的形体移动，从而解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

在本申请实施例中，步骤120可以通过各种不同的方式来实现。

下面举出一种具体的实现范例。需了解，下面列出的仅是示例，并不意为限制。

图2为本申请实施例提供的一种基于神经网络的图片生成方法的流程图。参见图2，步骤120中基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片的具体过程可以包括：步骤210、步骤220和步骤230。下面对这三个步骤进行具体阐释。

步骤210，将所述第一数据和所述第二数据融合成目标数据，所述目标数据作为预先已训练好的目标神经网络模型的输入；

可以理解的是，所述第二数据可以包括表情和/或声音，表情数据可以不用做特殊处理，声音数据可以转化为频谱或者音素后再与所述第一数据进行融合。所述第一数据可以为二维数据，所述第二数据可以为二维数据，所述目标数据可以为一维数据。举例而言，所述融合方法可以为在神经网络模型中，对表情或者声音转换的特征经过一个全连接层变成一维张量，大小可以为v*3*2，即一维的元素个数值，再通过张量形状改变为三维张量(V，3，2)，与所述第二数据的UV图的形状一样；其中，三维的元素个数值与一维的元素个数值相同，于是可以直接加一个(V，3，2)的张量作为预先已训练好的目标神经网络模型的输入。

步骤220，通过所述目标神经网络模型，将所述目标数据转换成神经纹理数据；

在本申请实施例中，所述神经纹理(Neural texture)可以为通过神经网络生成的纹理；所述神经纹理数据可以为所述目标数据通过所述目标神经网络模型的输出结果。

步骤230，基于所述神经纹理数据，生成目标图片。

可以理解的是，基于所述神经纹理数据，可以通过神经渲染，将3D模型栅格化为目标图片。

其中，栅格化(rasterization)可以为将多边形表示的三维场景渲染到二维表面，形成用于显示的位图。

本申请实施例提供的图片生成方法，可以通过将目标用户的UV图数据和形体移动数据进行融合得到目标数据，再输入到预先训练好的目标神经网络模型中进行神经渲染得到神经纹理数据，最后生成真实的目标图片，从而保证生成的目标图片可以体现目标用户的形体移动，解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

可选地，在本申请的一个实施例中，如图3所示，所述目标神经网络模型可以包括用于将所述目标数据转换成神经纹理数据的第一模块，所述第一模块可以包括采样组件和N个处理组件，所述N个处理组件包括第一处理组件...第N处理组件，N大于或等于2；其中，所述N个处理组件可以形成N个处理层，所述N个处理层中前一个处理层的输出可以作为后一个处理层的输入；每一个处理组件可以包括一个线性单元和一个激活单元，所述线性单元的输出可以作为所述激活单元的输入。

可以理解的是，所述线性单元(Linear)可以用于对输入的一维数据进行线性组合；所述激活单元(Rectified Linear Units，ReLU)可以对输入的数据进行非线性变换，赋予多层神经网络具有深度的意义；所述采样组件可以为网格采样(grid sample)，可以将所述目标数据经过所述线性单元和所述激活单元的输出结果进行线性插值处理，得到新的处理结果，处理结果例如为原数据的两倍大小。需了解的是，为了平衡计算代价和模型效果，故选择插值可以为原来的两倍大小。

其中，所述激活单元可以为激活函数，又称激励函数。神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值，并将输入值传递给下一层，输入层神经元节点会将输入属性值直接传递给下一层(隐层或输出层)。在多层神经网络中，上层节点的输出和下层节点的输入之间具有一个函数关系，这个函数称为激活函数。常用的激活函数可以包括sigmoid函数、tanh函数以及ReLU函数(如Leaky-ReLU、P-ReLU、R-ReLU)等。

在本申请实施例中，步骤220中所述通过所述目标神经网络模型，将所述目标数据转换成神经纹理数据，可以包括：

将所述目标数据输入所述N个处理组件中的第一处理组件的线性单元；

所述线性单元对所述目标数据进行线性处理，得到第一处理数据，并将所述第一处理数据输入至所述第一处理组件的激活单元；

所述第一处理组件的所述激活单元对所述第一处理数据进行处理，得到第二处理数据，并将所述第二处理数据输入至第二处理组件的线性单元；

通过所述N个处理组件，得到第N处理组件的激活单元输出的第2N处理数据；

将所述第2N处理数据输入至所述采样组件；

所述采样组件对所述第2N处理数据进行处理，得到与所述目标数据对应的神经纹理数据。

其中，需了解的是，N的大小可以根据输入第一模块的目标数据进行设置。具体地，N的取值可以与所述目标数据的复杂性相关联，N的取值在一定范围内可随着所述目标数据的复杂性的增加而变大。例如，所述目标数据的复杂性越高，N的取值在一定范围内越大。在本申请实施例中，N的取值可以在1和8之间的范围内。即N可以大于1且小于或等于8。所述目标数据的复杂性可以与目标数据的数据量和/或多样性相关，所述目标数据的复杂性可以随着目标数据的数据量和多样性的增加而变高。例如，目标数据的数据量越多，目标数据的多样性越多，目标数据的复杂性可以越高。同时，根据前文举例目标数据可以为三维张量(V，3，2)，此时，经过处理组件进行处理后的输出数据的张量大小为(16，32)，即二维数据，再经过采样组件后输出数据的张量大小为(16*64)，即一维数据。

在本申请实施例中，通过处理组件中的线性单元的计算可将目标数据映射到稠密特征空间，从而为后续模型提升效果。而整个模型架构可采用生成对抗网络的架构，可以在隐藏层中间引入例如LeakyReLU作为激活函数，可以有效地避免引入稀疏梯度，从而影响整个模型的稳定性。另外，所述目标数据经过所述线性单元和所述激活单元输出的2D矩阵，可以通过网格采样进行线性插值到原矩阵的两倍大小，从而提高图像的清晰度，能够让模型获取更多的细节特征，提升模型的效果。

为了便于理解，结合图4在此举例说明：

所述目标神经网络模型的所述第一模块可以包括例如5个处理组件，则5个处理组件可以形成5个处理层，每层可以包括一个线性单元和一个激活单元。将用户A的UV图数据和表情数据经过融合后得到目标数据X输入到第一层的线性单元进行线性处理，得到第一处理数据X₁，并将第一处理数据X₁输入至第一层的激活单元中进行处理，得到第二处理数据X₂；再将第二处理数据X₂输入到第二层的线性单元进行线性处理，同理依次经过5层的线性单元和激活单元进行处理，得到第十处理数据X₁₀；然后将第十处理数据X₁₀输入至采样组件中进行处理，得到与目标数据X对应的神经纹理数据Y。

如此，可以通过将目标用户的UV图数据和形体移动数据进行融合得到目标数据，再输入到目标神经网络模型中的第一模块的处理组件和采样组件中进行处理，得到神经纹理数据，最后生成真实的数字人图片，从而保证生成的数字人图片可以体现目标用户的形体移动，提高模型生成真实的数字人图片的质量。

可选地，在本申请的一个实施例中，如图5所示，所述目标神经网络模型可以包括用于基于所述神经纹理数据，生成目标图片的第二模块，所述第二模块可以包括M个卷积组件和M个卷积转置组件，M大于或等于2；其中，所述M个卷积组件可以形成M个卷积层，所述M个卷积层中前一个卷积层的输出可以作为后一个卷积层的输入；所述M个卷积转置组件可以形成M个卷积转置层，所述M个卷积转置层中前一个卷积转置层的输出可以作为后一个卷积转置层的输入；第M个卷积层的输出可以作为第一个卷积转置层的输入；其中，所述M个卷积层中的第i个卷积层可以与所述M个卷积转置层中的第i个卷积转置层相连接，其中i小于或等于M，且大于或等于1。

其中，所述第二模块可以为U-net结构的网络模块，也可以为其他结构的网络模块，例如非线性网络模块。其中，U-net通俗来讲是卷积神经网络的一种变形，整个神经网络主要有两部分组成：收缩路径(contracting path)和扩展路径(expanding path)；收缩路径主要是用来捕捉图片中的上下文信息(context information)，而与收缩路径相对称的扩展路径则是为了对图片中所需要分割出来的部分进行精准定位。所述卷积层(Convolutional layer)可以为卷积神经网络中重要组成结构，卷积运算的目的是提取输入的不同特征，第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级，更多层的网路能从低级特征中迭代提取更复杂的特征。所述卷积转置层也可以称做反卷积层，即正常卷积的逆向，但是只是大小上的逆向，内容上并不一定。卷积转置层最大的用途就是上采样，例如，在正常卷积中步长(stride)大于1时进行的是等距下采样，会让输出的大小比输入小，而卷积转置层可以用步长小于1的卷积进行上采样，使输出的大小变大，所以卷积转置层还有一个别称就是分数卷积层。

在本申请的一个实施例中，步骤230中所述基于所述神经纹理数据，生成目标图片，可以包括：

将所述神经纹理数据输入所述M个卷积组件中的第一卷积组件；

所述第一卷积组件对所述神经纹理数据进行处理，得到第一卷积数据，并将所述第一卷积数据输入至第二卷积组件；

通过所述M个卷积组件中的L个卷积组件，得到第L卷积组件输出的第L卷积数据，其中，L小于或等于M；

将所述第L卷积数据输入至所述M个卷积转置组件中的第L卷积转置组件；

所述第L卷积转置组件对所述第L卷积数据进行处理，得到第L卷积转置数据；

通过所述L个卷积转置组件，得到第一卷积转置组件输出的第一卷积转置数据，所述第一卷积转置数据用于表示所述目标图片。

需了解的是，M的大小可以根据实际应用情况进行设置。例如，可以采用由4层的4*4的卷积，步长(stride)为2的结构组成U-net网络，根据前文举例可知，此时将经过采样组件后张量大小为(16*64)的数据再经过U-net网络输出数据的张量大小为224*3，即一维数据。经过U-net结构的神经网络后得到的224*3的图片可以为最终包含颜色值RGB 3个通道的图片，大小为224像素，即最终生成的目标图片。

在本申请实施例中，U-net网络通过对称的数量的编码和解码可将多层编码得到的不同级特征图恢复到原图片的分辨率，并且在同一层级的编码和解码之间使用了跳跃式传递，使得最终反解码出特征图融合了不同层级和不同尺度的特征，从而可以为后续生成更准确的图片。

为了便于理解，结合图5在此举例说明：

例如，M取值可以为5，L取值可以为4，所述目标神经网络模型的所述第二模块可以包括5个卷积组件和5个卷积转置组件，5个卷积组件可以形成5个卷积层，5个卷积转置组件可以形成5个卷积转置层。可以将经过第一模块处理后得到的神经纹理数据Y输入到第一卷积组件的第一卷积层中进行处理，得到第一卷积数据Y₁，并将第一卷积数据Y₁输入至第二卷积组件的第二卷积层中进行处理，得到第二卷积数据Y₂；再将第二卷积数据Y₂输入到第三卷积组件的第三卷积层中进行处理，同理依次经过第四卷积组件进行处理，得到第四卷积数据Y₄；然后第四卷积数据Y₄不再经过第五卷积组件，而是将第四卷积数据Y₄输入至第四卷积转置组件的第四卷积转置层中进行处理，得到第四卷积转置数据Z₄，同理再依次经过第三卷积转置层、第二卷积转置层和第一卷积转置层进行处理，最后得到第一卷积转置数据Z₁；第一卷积转置数据Z₁可以用于表示目标图片。

如此，可以将经过第一模块处理后得到的神经纹理数据，再通过第二模块的卷积组件和卷积转置组件进行处理，最后生成真实的目标图片，从而保证生成的目标图片可以体现目标用户的形体移动，提高模型生成真实的目标图片的质量。

可选地，在本申请的一个实施例中，步骤120中所述目标神经网络模型的训练过程可以包括：获取第一神经网络模型和所述目标用户的目标部位的K张真实图片，K大于2；将所述K张真实图片中的第一张真实图片输入所述第一神经网络模型，得到与所述真实图片对应的生成图片；基于所述真实图片和所述生成图片，确定图片像素损失；基于所述图片像素损失，对所述第一神经网络模型的参数进行调整，得到第二神经网络模型；通过所述K张真实图片，得到第K+1神经网络模型；基于所述第K+1神经网络模型，得到所述目标神经网络模型。

其中，所述第一神经网络模型可以为初始设置的神经网络模型，即没有经过训练之前的初始神经网络模型。所述确定图片像素损失的具体过程可以包括：根据目标损失函数确定图片像素损失。举例而言，所述目标损失函数可以包括L1损失函数，L1损失函数可以用于最小化误差，该误差可以是真实值和预测值之间的所有绝对差之和。具体地，可以根据L1损失函数计算所述真实图片中各点的像素值与所述生成图片中相对应的各点的像素值之间的绝对差之和。例如，L1损失函数的公式可以为：

其中，y_i可以为所述真实图片中第i个点的像素值，f(x_i)可以为所述生成图片中第i个点的像素值，n可以为所述真实图片或者所述生成图片中有n个像素点，i可以满足1≤i≤n且i可以为正整数。

另外，损失函数还可以包括L2损失函数，L2损失函数也可以称为最小平方误差，该误差可以是真实值和预测值之间所有平方差的总和。具体地，可以根据L2损失函数计算所述真实图片中各点的像素值与所述生成图片中相对应的各点的像素值之间所有平方差的总和。例如，L2损失函数的公式可以为：

另外，在本申请的一个实施例中，在确定图片像素损失的同时，还可以对所述真实图片和所述生成图片进行判别损失，从而判定图片是真实图片还是生成图片。例如，将真实图片和生成图片均输入到判别网络中，在经过判别网络后，计算判别损失：若真实图片经过判别网络可以例如输出为1，则生成图片经过判别网络可以例如输出为0。

在本申请实施例中，所述目标部位可以包括以下任一种：嘴部、眼部、下巴和脸颊，所述图片像素损失可以为所述目标部位的加权像素损失。

其中，权即由测量值精度的不同在平差计算中所取的权重不同。精度越高，权越大。“加权”的意思就是“乘以权重”，即“乘以系数”的意思。

举例而言，在本申请的一个实施例中，用户可以将5张用户A嘴巴的真实图片中的一张输入到第一神经网络模型中，得到与真实图片对应的生成图片；根据真实图片与生成图片的对比，确定图片像素损失；根据图片像素损失再对第一神经网络模型的参数进行适应性调整，得到第二神经网络模型；这样依次通过5张用户A嘴巴的真实图片，可以得到第六神经网络模型；此时，第六神经网络模型已经根据5张用户A嘴巴的真实图片进行适应性参数调整，从而可以基于第六神经网络模型得到目标神经网络模型。也就是说，可以将第六神经网络模型直接作为目标神经网络模型；也可以再对第六神经网络模型执行上述步骤进行适应性参数调整，得到目标神经网络模型。

如此，可以通过预先对初始的神经网络模型进行训练，并进行调整优化，得到目标神经网络模型，从而提高模型生成真实的目标图片的质量。

在本申请实施例中，提及对神经网络模型的参数进行调整，可以是对影响第一模块的输出的参数进行调整，也可以是对影响第二模块的输出的参数进行调整。以对影响第一模块的输出的参数进行调整为例，所述参数可以为处理组件的数目，激活单元的具体选取(例如将sigmoid函数替换为Leaky-ReLU)等。以对影响第二模块的输出的参数进行调整为例，所述参数可以为第二模块的选取、第二模块内的卷积组件的数目，卷积组件的步长取值等。

为了便于理解，下面结合图3-图5以及实际的应用场景，对本申请实施例提供的图片生成方法的具体过程进行进一步详细介绍：

例如，N取值为3，M取值为4，L取值也为4时，参见图3至图5，可以先将目标用户A的UV图数据和表情数据经过融合后得到目标数据X，再将目标数据X输入到第一层的线性单元进行线性处理，得到第一处理数据X₁，并将第一处理数据X₁输入至第一层的激活单元中进行处理，得到第二处理数据X₂；再将第二处理数据X₂输入到第二层的线性单元进行线性处理，同理依次经过3层的线性单元和激活单元进行处理，得到第六处理数据X₆；然后将第六处理数据X₆输入至采样组件网格采样中进行上采样处理，得到与目标数据X对应的神经纹理数据Y。然后可以将经过第一模块处理后得到的神经纹理数据Y输入到第一卷积组件的第一卷积层中进行处理，得到第一卷积数据Y₁，并将第一卷积数据Y₁输入至第二卷积组件的第二卷积层中进行处理，得到第二卷积数据Y₂；再将第二卷积数据Y₂输入到第三卷积组件的第三卷积层中进行处理，同理依次经过第四卷积组件的第四卷积层进行处理，得到第四卷积数据Y₄；然后再将第四卷积数据Y₄输入至第四卷积转置组件的第四卷积转置层中进行处理，得到第四卷积转置数据Z₄，同理再依次经过第三卷积转置层、第二卷积转置层和第一卷积转置层进行处理，最后得到第一卷积转置数据Z₁；第一卷积转置数据Z₁即可以用于表示目标图片。同时，训练目标神经网络模型时需要经过计算图片像素损失这一步骤，对模型不断进行调整优化。在使用目标神经网络模型时，可以改变目标用户的表情参数(或者输入新的说话声音)，并输入对应的UV图数据即可按照上述流程最终生成真实的虚拟的目标图片。

在本申请的一个实施例中，在所述第二数据包括表情和/或声音的情况下，所述第二数据中的表情和/或声音数据还可以是对用户输入的文字转换而来的表情和/或声音数据，在经过目标神经网络模型之后，控制数字人上与表情和/或声音对应的可移动部位(例如嘴部、下巴等)进行移动，从而可以通过输入文字实现对数字人的面部的控制。

在本申请实施例中，在目标图片的生成过程中，如目标用户A发生头部转动与表情变化以及说话时，依然能够生成非常真实的目标图片，且不会因为训练数据中光线照射到人脸上不均匀(如一半脸黑，一半脸亮)，导致最终通过模型渲染出的目标图片的一整张脸全是灰色的效果。能够生成非常真实的目标图片的原因主要是因为训练模型时使用了UV图数据代替传统渲染的失真图片作为输入，这样相当于结合了传统渲染需要的UV数据信息，使UV数据信息直接放到后面的神经渲染网络中，而不是使用失真图片进行重渲染，从而能够有效地结合传统渲染原理和神经渲染的优势。另外，可以通过增加表情和/或声音数据，该数据能够表示人脸和/或嘴部动作变化的数据，而人脸和/或嘴部动作恰恰是引发人脸光线反射变化的数据，因而能够得到光照在人脸变化时应该如何动态的变化，从而采用动态神经渲染技术能够很好地对数字人进行渲染，得到用来合成真人视频的图片。

本申请实施例提供的图片生成方法，在利用目标神经网络模型生成图片的过程中，通过考虑目标用户的第一数据(包括所述目标用户的UV图数据)和用于反映所述目标用户的形体移动的第二数据，可以基于第一数据和第二数据生更好地对数字人进行渲染，保证生成的目标图片可以体现目标用户的形体移动，从而解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

图6为本申请实施例提供的一种基于神经网络的图片生成装置的结构框图。参照图6，本申请实施例提供的一种图片生成装置600，可以包括：获取模块610和生成模块620。

其中，所述获取模块610，用于获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；

所述生成模块620，用于基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。

可选地，在一个实施例中，所述生成模块620可以具体用于：将所述第一数据和所述第二数据融合成目标数据，所述目标数据作为预先已训练好的目标神经网络模型的输入；通过所述目标神经网络模型，将所述目标数据转换成神经纹理数据；基于所述神经纹理数据，生成目标图片。

可选地，在一个实施例中，所述目标神经网络模型可以包括用于将所述目标数据转换成神经纹理数据的第一模块，所述第一模块可以包括采样组件和N个处理组件，所述N个处理组件包括第一处理组件...第N处理组件，N大于或等于2；其中，所述N个处理组件可以形成N个处理层，所述N个处理层中前一个处理层的输出可以作为后一个处理层的输入；每一个处理组件可以包括一个线性单元和一个激活单元，所述线性单元的输出可以作为所述激活单元的输入；所述生成模块620可以具体用于：将所述目标数据输入所述N个处理组件中的第一处理组件的线性单元；所述线性单元对所述目标数据进行线性处理，得到第一处理数据，并将所述第一处理数据输入至所述第一处理组件的激活单元；所述第一处理组件的所述激活单元对所述第一处理数据进行非线性处理，得到第二处理数据，并将所述第二处理数据输入至第二处理组件的线性单元；通过所述N个处理组件，得到第N处理组件的激活单元输出的第2N处理数据；将所述第2N处理数据输入至所述采样组件；所述采样组件对所述第2N处理数据进行线性插值处理，得到与所述目标数据对应的神经纹理数据。

可选地，在一个实施例中，所述目标神经网络模型可以包括用于基于所述神经纹理数据，生成目标图片的第二模块，所述第二模块可以包括M个卷积组件和M个卷积转置组件，M大于或等于2；其中，所述M个卷积组件可以形成M个卷积层，所述M个卷积层中前一个卷积层的输出可以作为后一个卷积层的输入；所述M个卷积转置组件可以形成M个卷积转置层，所述M个卷积转置层中前一个卷积转置层的输出可以作为后一个卷积转置层的输入；第M个卷积层的输出可以作为第一个卷积转置层的输入；其中，所述M个卷积层中的第i个卷积层与所述M个卷积转置层中的第i个卷积转置层相连接，其中i小于或等于M，且大于或等于1；所述生成模块620可以具体用于：将所述神经纹理数据输入所述M个卷积组件中的第一卷积组件；所述第一卷积组件对所述神经纹理数据进行卷积处理，得到第一卷积数据，并将所述第一卷积数据输入至第二卷积组件；通过所述M个卷积组件中的L个卷积组件，得到第L卷积组件输出的第L卷积数据，其中，L小于或等于M；将所述第L卷积数据输入至所述M个卷积转置组件中的第L卷积转置组件；所述第L卷积转置组件对所述第L卷积数据进行卷积转置处理，得到第L卷积转置数据；通过所述L个卷积转置组件，得到第一卷积转置组件输出的第一卷积转置数据，所述第一卷积转置数据用于表示所述目标图片。

可选地，在一个实施例中，所述第二数据可以包括表情和/或声音。

可选地，在一个实施例中，所述获取模块610可以具体用于：获取第一神经网络模型和所述目标用户的目标部位的K张真实图片，K大于2；将所述K张真实图片中的第一张真实图片输入所述第一神经网络模型，得到与所述真实图片对应的生成图片；基于所述真实图片和所述生成图片，确定图片像素损失；基于所述图片像素损失，对所述第一神经网络模型的参数进行调整，得到第二神经网络模型；通过所述K张真实图片，得到第K+1神经网络模型；基于所述第K+1神经网络模型，得到所述目标神经网络模型。

可选地，在一个实施例中，N的取值与所述目标数据的复杂性相关联，N的取值随着所述目标数据的复杂性的增加而变大。

需要说明的是，本申请实施例提供的图片生成装置与上文提到的图片生成方法相对应。相关内容可参照上文对图片生成方法的描述，在此不做赘述。

此外，如图7所示，本申请实施例还提供一种电子设备700，所述电子设备700包括：处理器710，存储器720及存储在所述存储器720上并在所述处理器710上运行的程序或指令，所述程序或指令被所述处理器710执行时实现上文所描述的任一种图片生成方法的步骤。举例而言，所述程序被所述处理器710执行时实现如下过程：获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。如此，在利用目标神经网络模型生成图片的过程中，通过考虑目标用户的第一数据(包括所述目标用户的UV图数据)和用于反映所述目标用户的形体移动的第二数据，可以基于第一数据和第二数据生更好地对数字人进行渲染，保证生成的目标图片可以体现目标用户的形体移动，从而解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被所述处理器710执行时实施上文所描述的任一种图片生成方法的步骤。举例而言，所述程序被所述处理器710执行时实现如下过程：获取目标用户的第一数据和第二数据，所述第一数据包括所述目标用户的UV图数据，所述第二数据用于反映所述目标用户的形体移动；基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片。如此，在利用目标神经网络模型生成图片的过程中，通过考虑目标用户的第一数据(包括所述目标用户的UV图数据)和用于反映所述目标用户的形体移动的第二数据，可以基于第一数据和第二数据生更好地对数字人进行渲染，保证生成的目标图片可以体现目标用户的形体移动，从而解决在用户存在形体移动的情况下，生成的图片容易失真的问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于神经网络的图片生成方法，其特征在于，包括：

2.根据权利要求1所述的图片生成方法，其特征在于，所述基于所述第一数据、所述第二数据以及预先已训练好的目标神经网络模型，生成与所述目标用户对应的目标图片包括：

将所述第一数据和所述第二数据融合成目标数据，所述目标数据作为预先已训练好的目标神经网络模型的输入；

通过所述目标神经网络模型，将所述目标数据转换成神经纹理数据；

基于所述神经纹理数据，生成目标图片。

3.根据权利要求2所述的图片生成方法，其特征在于，所述目标神经网络模型包括用于将所述目标数据转换成神经纹理数据的第一模块，所述第一模块包括采样组件和N个处理组件，所述N个处理组件包括第一处理组件...第N处理组件，N大于或等于2；其中，所述N个处理组件形成N个处理层，所述N个处理层中前一个处理层的输出作为后一个处理层的输入；每一个处理组件包括一个线性单元和一个激活单元，所述线性单元的输出作为所述激活单元的输入；

所述通过所述目标神经网络模型，将所述目标数据转换成神经纹理数据包括：

所述第一处理组件的所述激活单元对所述第一处理数据进行非线性处理，得到第二处理数据，并将所述第二处理数据输入至第二处理组件的线性单元；

将所述第2N处理数据输入至所述采样组件；

所述采样组件对所述第2N处理数据进行线性插值处理，得到与所述目标数据对应的神经纹理数据。

4.根据权利要求2或3所述的图片生成方法，其特征在于，所述目标神经网络模型还包括用于基于所述神经纹理数据，生成目标图片的第二模块，所述第二模块包括M个卷积组件和M个卷积转置组件，M大于或等于2；其中，所述M个卷积组件形成M个卷积层，所述M个卷积层中前一个卷积层的输出作为后一个卷积层的输入；所述M个卷积转置组件形成M个卷积转置层，所述M个卷积转置层中前一个卷积转置层的输出作为后一个卷积转置层的输入；第M个卷积层的输出作为第一个卷积转置层的输入；其中，所述M个卷积层中的第i个卷积层与所述M个卷积转置层中的第i个卷积转置层相连接，其中i小于或等于M，且大于或等于1；

所述基于所述神经纹理数据，生成目标图片包括：

所述第一卷积组件对所述神经纹理数据进行卷积处理，得到第一卷积数据，并将所述第一卷积数据输入至第二卷积组件；

所述第L卷积转置组件对所述第L卷积数据进行卷积转置处理，得到第L卷积转置数据；

5.根据权利要求1所述的图片生成方法，其特征在于，所述第二数据包括表情和/或声音，所述目标图片为数字人图片。

6.根据权利要求1所述的图片生成方法，其特征在于，所述目标神经网络模型的训练过程包括：

获取第一神经网络模型和所述目标用户的目标部位的K张真实图片，K大于2；

将所述K张真实图片中的第一张真实图片输入所述第一神经网络模型，得到与所述真实图片对应的生成图片；

基于所述真实图片和所述生成图片，确定图片像素损失；

基于所述图片像素损失，对所述第一神经网络模型的参数进行调整，得到第二神经网络模型；

通过所述K张真实图片，得到第K+1神经网络模型；

基于所述第K+1神经网络模型，得到所述目标神经网络模型。

7.根据权利要求3所述的图片生成方法，其特征在于，N的取值与所述目标数据的复杂性相关联，N的取值随着所述目标数据的复杂性的增加而变大。

8.一种基于神经网络的图片生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的图片生成方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的图片生成方法的步骤。