CN113538659A

CN113538659A - 一种图像生成方法、装置、存储介质及设备

Info

Publication number: CN113538659A
Application number: CN202110757300.4A
Authority: CN
Inventors: 卫华威; 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-10-22

Abstract

本说明书提供一种图像生成方法、装置、存储介质及设备，该方法中，基于预设对象的多个预设姿态和多个预设表情的训练图像训练得到预设对象的神经网络模型，该神经网络模型的神经辐射场网络学习得到基准表情模型，形变网络学习得到该基准表情模型的密度场从基准表情到其他表情的偏移，在应用时，将获取到的第一用户的指定姿态和指定表情作为输入，以使形变网络确定从基准表情至指定表情对应的目标偏移，神经辐射场网络根据目标偏移调整基准表情模型的密度场，再采用神经渲染的方式渲染出对应指定姿态的目标图像。这样，可以将第一用户的姿态和表情复制到预设对象的形象上，减少了图像生成成本，同时提升了图像生成效率。

Description

一种图像生成方法、装置、存储介质及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种图像生成方法、装置、存储介质及设备。

背景技术

表情驱动，是图像处理技术的重要部分，应用十分广泛。目前的表情驱动一般采用手动建模的方式来实现，其通过预先建立好三维模型，再将所需要生成的表情转换成对应的运动参数，用以驱动三维模型生成对应的表情。然而，手动建模通常需要专业技术人员来完成，而且需要耗费大量的人力和时间。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种图像生成方法、装置、存储介质及设备。

根据本说明书实施例的第一方面，提供一种图像生成方法，包括：

获取第一用户的指定姿态和指定表情；

由预设对象的神经网络模型利用所述指定姿态和指定表情，输出所述预设对象展示所述指定姿态和指定表情的目标图像；其中，

所述神经网络模型包括神经辐射场网络和形变网络，所述神经网络模型由所述预设对象的多个预设姿态和多个预设表情的训练图像训练得到，其中，神经辐射场网络通过所述训练图像学习得到基准表情模型，形变网络学习得到所述基准表情模型的密度场从基准表情到其他表情的偏移，以使所述形变网络确定从基准表情至指定表情对应的目标偏移，神经辐射场网络根据所述目标偏移调整基准表情模型的密度场，再采用神经渲染的方式渲染出对应所述指定姿态的目标图像。

在某些例子中，上述训练图像基于以下步骤进行数据预处理：

从训练图像中提取出相机位置特征和朝向特征作为预设姿态；

从训练图像中提出出表情特征作为预设表情，其中，所述表情特征是具有预设维度的特征，每一维度的特征表示脸部中不同部位的动作幅度。

在某些例子中，上述基准表情是预设表情中的一种，或，基准表情是基于将表情特征对应每个维度的值设置为最小值而得到的。

在某些例子中，若所述预设对象包括真实世界中的角色，所述训练图像采用深度摄像头采集得到。

在某些例子中，上述方法应用于直播客户端或直播服务端，所述第一用户为主播用户，上述方法还包括：将所述目标图像展示在主播用户的直播画面中。

在某些例子中，上述将所述目标图像展示在主播用户的直播画面中，包括：

将所述目标图像按照时间序列编码成视频流，或，从直播客户端采集到的主播用户的图像中提取出背景画面，将所述目标图像与所述背景画面进行融合并编码成视频流，以展示在主播用户的直播画面中。

在某些例子中，上述直播服务端预存多个不同预设对象的神经网络模型，以使所述主播用户通过所述直播客户端，从展示的多个预设对象中选择其中一个。

根据本说明书实施例的第二方面，提供一种图像生成装置，包括：

获取模块，用于获取第一用户的指定姿态和指定表情；

生成模块，用于由预设对象的神经网络模型利用所述指定姿态和指定表情，输出所述预设对象展示所述指定姿态和指定表情的目标图像；其中，

根据本说明书实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现说明书实施例中任一项方法。

根据本说明书实施例的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现说明书实施例中任一项方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，公开了一种图像生成方法、装置、存储介质及设备，该方法中，基于预设对象的多个预设姿态和多个预设表情的训练图像训练得到预设对象的神经网络模型，该神经网络模型的神经辐射场网络学习得到基准表情模型，形变网络学习得到该基准表情模型的密度场从基准表情到其他表情的偏移，在应用时，将获取到的第一用户的指定姿态和指定表情作为输入，以使形变网络确定从基准表情至指定表情对应的目标偏移，神经辐射场网络根据目标偏移调整基准表情模型的密度场，再采用神经渲染的方式渲染出对应指定姿态的目标图像，此时的目标图像即为预设对象展示指定姿态和指定表情的图像。这样，可以将第一用户的姿态和表情复制到预设对象的形象上，减少了图像生成成本，同时提升了图像生成效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种图像生成方法的流程图；

图2是本说明书根据一示例性实施例示出的神经网络模型基于目标表情调整基准表情模型的密度场的示意图；

图3是本说明书实施例图像生成装置所在计算机设备的一种硬件结构图；

图4是本说明书根据一示例性实施例示出的一种图像生成装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

表情驱动，是图像处理技术的重要部分，应用十分广泛。目前的表情驱动一般采用手动建模的方式来实现，其通过预先建立好三维模型，再将所需要生成的表情转换成对应的运动参数，用以驱动三维模型生成对应的表情。然而，手动建模通常需要专业技术人员来完成，而且需要耗费大量的人力和时间。基于此，本说明书实施例提供一种图像生成方法，以解决上述问题。

接下来对本说明书实施例进行详细说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种图像生成方法的流程图，所述方法包括：

在步骤101、获取第一用户的指定姿态和指定表情；

在步骤102、由预设对象的神经网络模型利用所述指定姿态和指定表情，输出所述预设对象展示所述指定姿态和指定表情的目标图像。

其中，所述神经网络模型包括神经辐射场网络和形变网络，所述神经网络模型由所述预设对象的多个预设姿态和多个预设表情的训练图像训练得到，其中，神经辐射场网络通过所述训练图像学习得到基准表情模型，形变网络学习得到所述基准表情模型的密度场从基准表情到其他表情的偏移，以使所述形变网络确定从基准表情至指定表情对应的目标偏移，神经辐射场网络根据所述目标偏移调整基准表情模型的密度场，再采用神经渲染的方式渲染出对应所述指定姿态的目标图像。

神经辐射场(Neural Radiance Field，NERF)是一种用于新视角合成的技术，新视角合成的定义是基于一系列对某一场景的捕获图像，合成新的视角下的图像。神经辐射场的核心点在于隐式地将一个静态场景用一个神经网络来建模表示，具体的，这一神经网络可以通过一系列相机位姿已确定的图像进行训练，其输入是5D坐标，包括空间位置(x，y，z)和视角方向

其输出是该空间位置处的体积密度(也可以称为密度)和与该视角方向相关的颜色(也可以称为辐射亮度)，在训练过程中，沿着相机光线获取5D坐标，使用经典的体绘制(Volume Rendering)技术，将输出的体积密度和颜色投影到图像上，实现视图合成，进而利用神经网络合成的图像与原始图像的像素差作为损失函数进行优化，从而得到训练好的神经网络。

相关技术中，原始的神经辐射场一般用于生成静态场景的新视角照片，即该场景中的物体是不能运动的。而本实施例应用神经辐射场到表情驱动领域中，并对其进行改进，以使其支持物体运动。

不同于相关技术中神经辐射场的训练样本要求图像中的物体是不能运动的，本实施例是通过预设对象的多个预设姿态和多个预设表情的训练图像来对神经网络模型进行训练，也就是说，本实施例的训练样本中，预设对象的表情可以变化，无需保持一个表情。这里的预设对象可以包括支持运动、且具有表情变化的角色，如人、动物，需要说明的是，此处的角色可以是真实世界中的角色，也可以是虚拟世界中的角色，虚拟世界中的角色所对应的训练图像可以是从互联网收集得到，也可以是由专业技术人员绘制而成。当预设对象是真实角色对象时，训练图像可以采用深度摄像头进行采集，减少姿态和表情估计中的误差，以提升训练的效率。

另外，为了提高神经网络模型生成新视角及新表情图像的准确度，在某些例子中，预设姿态是相机放置的预设位置和预设朝向，这里的预设姿态可以有多个，即可以预先准备预设对象在不同预设姿态下的图像，通过多个预设姿态来使模型能够全面观察到预设对象，本说明书中的姿态是指视角姿态，也可以称为空间姿态，预设姿态的训练图像可以包括正视图、左视图、俯视图、仰视图等等。

本实施例的预设表情可以有多个，这多个预设表情可以包括脸部可能经常会出现的多个表情，例如闭嘴、张嘴、大笑、瞪眼、吐舌等；预设表情可以包括不同情景中可能出现的表情，而在一些例子中，预设表情也可以仅包括指定情景中可能出现的表情，如指定情景是会议演讲，则预设表情可以包括表征严肃的一些表情，或指定情景是直播互动，则预设表情可以包括表征活泼的一些表情，这样，可以在满足具体场景需求的同时，尽可能地减少对训练样本的样本量的需求。

在利用训练图像对神经网络模型进行训练时，可以对训练图像进行数据预处理，以提取出对应姿态和表情的特征。在某些例子中，这里的姿态的特征可以是一个6维的特征，代表旋转和平移，即相机放置的位置和朝向；这里的表情的特征可以是一个51维的特征，每一维度的特征表示脸部中不同部位的动作幅度，如，其中一个维度可以代表眉毛的抬升程度，另一个维度可以代表眼睛的闭合程度等等。在一可选实施例中，图像中对应姿态的特征可以通过colmap提取得到，colmap是一种三维重建工具，用于从图像中得到稀疏特征点云和相机位姿。在一可选实施例中，图像中对应表情的特征可以通过ARKit提取得到，ARkit是一种用于开发AR应用的SDK(Software Development Kit，软件开发工具包)，在本实施例中，可以借助ARKit提供的面部跟踪功能，从图像中提取出对应表情的特征。当然，在其他实施例中，也可以根据具体场景的需求采用其他的方式来提取特征，本说明书对此不作限制。

本实施例的神经网络模型包括形变网络和神经辐射场网络，神经辐射场网络通过前面提到的训练图像学习得到基准表情模型，本实施例的基准表情模型可以认为是神经网络模型从训练图像中学习到的预设对象的3D场景，这里的基准表情可以是预设表情中的任意一种，也可以是表征无表情的状态，如，表情特征是51维系数，其中表征无表情的状态可以是将该特征对应每个维度的值设置为最小值。神经辐射场学习得到基准表情模型的过程与前面提到的神经辐射场的训练过程是一致的，在此不再赘述。

而与原始的神经辐射场不同的是，本实施例的神经网络模型增加了一个形变网络，用以支持物体运动。在神经辐射场网络通过基准表情模型来表示场景的基础上，形变网络通过优化来估计其他表情的场景和基准表情的场景的形变，由于表情是由图像中像素点位置决定，而图像中像素点位置与神经辐射场网络输出的体积密度相关联，因此，本实施例的形变网络实际上学习得到的形变可以是基准表情模型的密度场从基准表情到其他表情的偏移，这样在推理阶段，给定目标表情，形变网络输出目标偏移，以调整基准表情模型的密度场，从而使得输出的目标图像中预设对象展示的是目标表情。密度场可以认为是基准表情模型输出的所有体积密度值的集合，其决定了渲染的图像上各像素点的位置。需要说明的是，本实施例的神经网络模型是通过形变网络来对基准表情模型的脸部进行变化，以得到对应指定表情的脸部，这是一种非线性的脸部表达能力，具有延展性，如，虽然训练图像中没有半张嘴的表情，但是形变网络可以通过学习到的从基准表情分别到闭嘴、张嘴这两个预设表情的偏移，自适应输出对应从基准表情到半张嘴这一指定表情的偏移。

本实施例中，步骤101和步骤102是应用阶段的步骤，相应的，在步骤101中，第一用户的指定姿态也可以是使用colmap从第一用户的图像中提取得到的；指定表情也可以是使用ARKit从第一用户的图像中提取得到的。需要说明的是，这里的指定姿态可以是预设姿态中的一种，也可以是与预设姿态不同的姿态；同样的，指定表情可以预设表情中的一种，也可也是与预设表情不同的表情。另外，这里的第一用户是与预设对象不同的，如预设对象可以是指第二用户，则此时本实施例的方案可以实现由采集得到的第二用户的若干姿态和若干表情的图片来训练神经网络模型，再由第一用户的新姿态和新表情，来驱动神经网络模型产生第二用户展示相同姿态和表情时的图片，从而实现写实级的表情驱动。

步骤102中提到的神经渲染，相当于用一个虚拟相机对基准表情模型进行成像，即用一个虚拟相机对预设对象的3D场景进行成像，从虚拟相机出发的光线穿过这个场景，即对这个神经辐射场进行采样，生成一组采样点，将采样点的5D坐标输入网络，生成一组颜色和体积密度，使用经典的体绘制技术将这些颜色和体积密度累积到二维图像中，即可得到渲染的图像。而本实施例中提到的采用神经渲染的方式渲染出对应指定姿态的目标图像，可以相当于根据指定姿态，调节虚拟相机的光线穿过场景时的入射方向。

前面提到的体绘制技术是科学可视化领域中的一个技术方向，使用经典的体绘制技术可以渲染出虚拟相机的光线穿过场景得到的颜色。神经辐射场输出的体积密度σ(x)可以解释是光线停留在位置x处的无穷小粒子的可导概率，在一可选实施例中，可以将虚拟相机的光线标记为r(t)＝o+td，其中，o是光线原点，d是光线方向，即前面提到的视角方向，此时，在最近和最远边界分别标记为t_n和t_f的条件下，该光线穿过场景得到的颜色可以通过以下公式计算得到：

上述公式(1)中，C(r)这个积分就是虚拟相机穿过每个像素的相机光线得到的颜色；T(t)表示沿着光线从最近边界t_n到t所累积的透明度，其可以通过以下公式计算得到：

在另一实施例中，也可以采用以下分层抽样的方法对射线的最终渲染颜色进行计算：将射线需要积分的区域分为N份，把[t_n，t_f]分为均匀分布的小区段，并对每个小区段进行均匀采样，第i个采样点可以表示为：

此时，该光线穿过场景得到的颜色可以通过以下公式计算得到：

其中，δ_i是邻近两个采样点之间的距离，即δ_i＝t_i+1-t_i，相应的，T_i可以通过以下公式计算得到：

当然，在其他实施例中，神经辐射场也可以采用其他渲染方式，本说明书对此不做限制。另外，为了进一步增强神经网络模型输出的准确度，在输出目标图像后，还可以通过该目标图像对该神经网络模型进行持续训练。

本说明书实施例的方法，基于预设对象的多个预设姿态和多个预设表情的训练图像训练得到预设对象的神经网络模型，该神经网络模型包括神经辐射场网络和形变网络，其中，神经辐射场网络通过训练图像学习得到基准表情模型，形变网络学习得到该基准表情模型的密度场从基准表情到其他表情的偏移，在应用时，将获取到的第一用户的指定姿态和指定表情输入该神经网络模型，以使形变网络确定从基准表情至指定表情对应的目标偏移，神经辐射场网络根据目标偏移调整基准表情模型的密度场，再采用神经渲染的方式渲染出对应指定姿态的目标图像，此时的目标图像即为预设对象展示指定姿态和指定表情的图像。这样，可以将第一用户的姿态和表情复制到预设对象的形象上，减少了图像生成成本，同时提升了图像生成效率。

在某些例子中，本说明书的方法可以应用于直播客户端，前面提到的第一用户为主播用户，该目标图像展示在主播用户的直播画面中。例如，可以先收集目标人物，如某个明星的多视角姿态、多表情的图像作为训练图像，训练神经网络模型，这样在开播后，直播客户端可以从采集到的主播用户的图像中提取出姿态和表情并输入神经网络模型，从而得到输出的目标人物展示相同姿态和表情的目标图像，这样，实现了一种虚拟数字替身的直播效果，丰富直播间的趣味性。当然，这一方法也可以应用于直播服务器，以减少直播客户端的负担。还有，在一些例子中，直播服务器可以预先准备多个不同预设对象的神经网络模型，以使主播可以在直播客户端中选择其想要在直播间展示的形象。而针对将目标图像展示在直播画面中，其可以是通过将生成的目标图像按照时间序列编码成视频流而实现，此时的直播画面中只有预设对象，也可以是从直播客户端采集到的主播用户的图像中提取出背景画面，再将目标图像和背景画面进行结合后再编码成视频流而实现，使得直播画面中既有主播当前的背景又有预设对象的形象，当然，在其他实施例中，其具体实现方式可以根据场景的需求进行不同的设置。

另外，本说明书的方法还可以应用于VR(Virtual Reality，虚拟现实)会话，预设对象是第一用户或其他用户的数字人形象，其训练图像可以是通过专业深度摄像头对第一用户或其他用户进行拍摄而采集得到，这样可以实现模拟真实的对话或演讲。

本说明书的方法还可以应用于影视制作中，例如，在拍摄过程中可以采集主演在当前场景中的多个预设姿态和多个预设表情的图像数据，以训练神经网络模型，而在后期剪辑时，若需要更换成新姿态或新表情，可以通过动态捕捉设备获取其他人的姿态或表情并送入该神经网络模型，即可得到目标图像，而无需主演回到原场景中再次拍摄，从而减少拍摄成本。另外，还可以收集一些表演巨星的多姿态多表情数据，以便于在这些表演巨星退休后，使其“重回荧幕”。

为了方便对本说明书的方法做更为详细的说明，接下来介绍一个具体实施例：

本实施例的图像生成方法应用于直播服务器中，旨在实现将主播A的表情无损地复制到主播B的形象上的直播效果。直播服务器所执行的过程如下所示：

S201、收集主播B的训练图像集合，并获取每张训练图像对应的姿态和表情的特征，其中，直播服务器通过colmap从训练图像提取对应姿态的特征，通过ARKit从训练图像提取对应表情的特征；

在本实施例中，训练图像集合包括(姿态1，表情1)、(姿态1，表情2)、(姿态1，表情3)、(姿态2，表情1)、(姿态2，表情2)、(姿态2，表情3)、(姿态3，表情1)、(姿态3，表情2)和(姿态3，表情3)这九张训练图像，也就是说，训练图像集合中的姿态包括姿态1、姿态2和姿态3，训练图像集合中的表情包括表情1、表情2和表情3；

S202、基于训练图像集合训练神经网络模型，输入是每张训练图像对应的姿态和表情的特征，通过神经网络模型输出的图像和原始的训练图像的像素差作为损失函数，优化网络权重，根据各训练图像最小化误差，从而训练好神经网络模型；

在本实施例中，神经网络模型包括形变网络和神经辐射场网络，其中，神经辐射场网络根据训练图像集合学习得到主播B的基准表情模型，这里的基准表情表征无表情的状态，记为表情0；形变网络学习得到基准表情模型的密度场从基准表情到其他表情的偏移；

这一神经网络模型可以表示为以下隐式函数：

F_θ＝(x，d，e)→(c，σ)

其中，x是射线方向对应的像素点在三维坐标系下的位置，d是根据相机位置和朝向确定的射线方向，e是表情特征，c是隐式函数输出的在该射线方向和位置上的像素点的颜色值，σ是隐式函数输出的在该射线方向和位置上的像素点的体积密度值；

在得到输出的颜色和体积密度数据后，使用经典的体绘制技术将这些颜色和体积密度累积到二维图像中，即可得到渲染的图像，这里的体绘制技术可以包括前面提到的公式(1)(2)所体现的渲染方式，也可以包括前面提到的公式(3)(4)(5)所体现的渲染方式；

S203、在主播A开播后，通过主播A的客户端获取主播A展示目标姿态和目标表情时的图像，相应的，采用colmap和ARKit分别获取该图像中的目标姿态和目标表情对应的特征，输入训练好的神经网络模型中，得到目标图像，并将目标图像展示在主播A的直播画面中并进行分发；

在本实施例中，目标姿态是姿态m，姿态m不同于姿态1、2、3；目标表情是表情n，表情n不同于表情1、2、3；因此，在推理阶段，神经网络模型的形变网络确定从表情0到表情n对应的目标偏移，神经辐射场网络基于目标偏移调整基准表情模型的密度场，并基于神经渲染的方式渲染出对应姿态m的目标图像；如图2所示，图2是本实施例示出的神经网络模型基于目标表情调整基准表情模型的密度场的示意图；

输出的目标图像是直播B展示目标姿态和目标表情时的图像，由此可见，本实施例的方案可以由主播A展示所要的姿态和表情，驱动主播B的形象来展示相对应的姿态和表情，从而实现将主播A的表情无损地复制到主播B的形象上的直播效果，丰富了趣味性，从而提高了直播间的观众留存率。

与前述方法的实施例相对应，本说明书还提供了图像生成装置及其所应用的终端的实施例。

本说明书图像生成装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图3所示，为本说明书实施例图像生成装置所在计算机设备的一种硬件结构图，除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外，实施例中装置331所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

如图4所示，图4是本说明书根据一示例性实施例示出的一种图像生成装置的框图，所述装置包括：

获取模块41，用于获取第一用户的指定姿态和指定表情；

生成模块42，用于由预设对象的神经网络模型利用所述指定姿态和指定表情，输出所述预设对象展示所述指定姿态和指定表情的目标图像；其中，

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种图像生成方法，其特征在于，包括：

获取第一用户的指定姿态和指定表情；

2.根据权利要求1所述的方法，其特征在于，所述训练图像基于以下步骤进行数据预处理：

3.根据权利要求2所述的方法，其特征在于，所述基准表情是预设表情中的一种，或，所述基准表情是基于将表情特征对应每个维度的值设置为最小值而得到的。

4.根据权利要求1所述的方法，其特征在于，若所述预设对象包括真实世界中的角色，所述训练图像采用深度摄像头采集得到。

5.根据权利要求1所述的方法，其特征在于，所述方法应用于直播客户端或直播服务端，所述第一用户为主播用户；所述方法还包括：

将所述目标图像展示在主播用户的直播画面中。

6.根据权利要求5所述的方法，其特征在于，将所述目标图像展示在主播用户的直播画面中，包括：

7.根据权利要求5所述的方法，其特征在于，所述直播服务端预存多个不同预设对象的神经网络模型，以使所述主播用户通过所述直播客户端，从展示的多个预设对象中选择其中一个。

8.一种图像生成装置，其特征在于，包括：

获取模块，用于获取第一用户的指定姿态和指定表情；

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1至7任一项所述的方法。