CN115588108A

CN115588108A - 一种生成序列影像的方法、电子设备及介质

Info

Publication number: CN115588108A
Application number: CN202211360364.1A
Authority: CN
Inventors: 李学龙; 王栋; 李伟创
Original assignee: Shanghai AI Innovation Center
Current assignee: Shanghai AI Innovation Center
Priority date: 2022-11-02
Filing date: 2022-11-02
Publication date: 2023-01-10
Anticipated expiration: 2042-11-02
Also published as: CN115588108B

Abstract

本发明公开一种生成序列影像的方法，其首先提取源图像中的人物特征，然后对神经辐射场中的每个点进行矫正后结合相机参数，计算得到神经辐射场的每个点的点特征，并与原始点的点特征拼接，送入神经辐射场进行渲染，得到低分辨率的渲染图像，最后进行表情修正，得到序列图像。该方法将序列影像中的动作变化划分为姿态变化和表情变化并利用神经网络进行隐式建模，从而提升了生成序列影像的保真度。同时，其将图像特征作为神经辐射场的输入，可以使得神经辐射场能够泛化至不同场景。

Description

一种生成序列影像的方法、电子设备及介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种生成序列影像的方法、电子设备及介质。

背景技术

序列影像生成算法旨在生成指定人物的视频流。目前的主流序列影像生成算法具体步骤如下：首先使用自监督的方法，利用神经网络对于源图像和驱动图像进行关键点检测，并预测源图像中每个关键点到目标图像关键点所需偏移量，然后根据神经网络预测的偏移量对每个关键点的位置进行矫正(Warping)。由于关键点在矫正过程中可能产生遮挡(Occlusion)，为了保证输出结果的可信度，模型在预测偏移量时也会同时预测掩码图来标识可能被遮挡的部分，并将被遮挡部分设置为空。对于没有被遮挡的部分采用经过矫正的源图像，而对于被遮挡部分的内容则使用生成器进行图像复原(Image Inpainting)，对于矫正过的源图像和生成器填充出的生成部分进行组合，作为最终的生成图像，最终使用通过判别器对于生成视频帧的真实性进行评估，重复上述步骤直至模型收敛。

可以看出，目前算法仅利用了二维平面信息进行图像矫正，当生成人物需要发生较大姿态变化或表情变化时将会导致较大的遮挡，会使得模型难以精准建模，最终使得生成影像在相应区域相对模糊，甚至导致生成影像的人物特征丢失，进而难以精准地对图像进行复原。其次，现有算法对于表情的变化往往基于关键点，如果算法未能对于关键点进行精确的定位，则会导致算法的性能出现明显的下降。

发明内容

针对现有技术中的部分或全部问题，本发明首先提供一种生成序列影像的方法，包括：

提取源图像中的人物特征，得到特征图；

对神经辐射场中的每个点进行矫正；

结合相机参数及所述特征图，计算矫正后的神经辐射场的每个点的点特征；

将所述点特征与原始点的点特征拼接，送入神经辐射场进行渲染，得到低分辨率的渲染图像；以及

对所述低分辨率的渲染图像进行表情修正，得到序列图像。

进一步地，所述人物特征采用经预训练的人脸识别网络从源图像中提取得到，且采用所述人脸识别网络的中间层输出的特征图作为所述人物特征。

进一步地，所述神经辐射场的点特征的计算包括：

计算相机外参；

将所述相机外参结合相机内参计算出神经辐射场中的每个点在所述特征图上的平面位置；以及

对所述平面位置进行栅格采样，以得到每个点的点特征。

进一步地，所述相机外参的计算包括：

使用预训练的姿态评估网络对驱动图像进行姿态评估；以及

根据姿态评估得到的旋转角计算相机外参。

进一步地，神经辐射场中的每个点的矫正包括：

基于驱动图像中的图像特征对神经辐射场中每个点进行偏移量的预测；以及

将预测得到的偏移量与原始坐标进行求和，得到经过矫正的点。

进一步地，表情修正包括：

采用生成器对所述低分辨率的渲染图像进行上采样；

提取所述驱动图像的表情特征；以及

将所述表情特征输入到所述生成器中，对经过上采样得到的渲染图像进行表情修正。

进一步地，所述方法还包括：

通过判别器，根据所述序列图像及驱动图像对应的相机外参，计算图像的可信度及姿态，并根据所述可信度及姿态与真实数据的差值对所述神经辐射场进行迭代修正。

进一步地，所述判别器采用真实图像和对应的姿态作为训练数据训练得到。

基于如前所述的方法，本发明第二方面还提供一种生成序列影像的电子设备，包括存储器以及处理器，其中所述存储器被配置为存储计算机程序，所述计算机程序在所述处理器运行时执行如前所述的生成序列影像的方法。

本发明第三方面还提供一种生成序列影像的计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行如前所述的生成序列影像的方法。

本发明提供的一种生成序列影像的方法，其将序列影像中的动作变化划分为姿态变化和表情变化，基于此，分别对源图像及驱动图像的身份特征及表情特征进行提取，并利用神经网络进行隐式建模，从而提升生成序列影像的保真度。同时，为了应对神经辐射场泛化性较差的问题，所述方法将图像特征作为神经辐射场的输入，从而使得神经辐射场能够泛化至不同场景，对不同人物的输入都可以精准建模。

附图说明

为进一步阐明本发明的各实施例的以上和其它优点和特征，将参考附图来呈现本发明的各实施例的更具体的描述。可以理解，这些附图只描绘本发明的典型实施例，因此将不被认为是对其范围的限制。在附图中，为了清楚明了，相同或相应的部件将用相同或类似的标记表示。

图1示出本发明一个实施例的一种生成序列影像的方法的流程示意图。

具体实施方式

以下的描述中，参考各实施例对本发明进行描述。然而，本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法或组件一起实施各实施例。在其它情形中，未示出或未详细描述公知的结构或操作以免模糊本发明的发明点。类似地，为了解释的目的，阐述了特定数量和配置，以便提供对本发明的实施例的全面理解。然而，本发明并不限于这些特定细节。

在本说明书中，对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本发明的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。

需要说明的是，本发明的实施例以特定顺序对方法步骤进行描述，然而这只是为了阐述该具体实施例，而不是限定各步骤的先后顺序。相反，在本发明的不同实施例中，可根据实际需求的调节来调整各步骤的先后顺序。

在本发明的实施例中，术语“源图像”是指具有初始姿态和/或表情的图像，以及术语“驱动图像”是指具有目标姿态和/或表情的图像。

现有的影像生成算法通常仅利用了二维平面信息进行图像矫正，当生成人物需要发生较大姿态变化和/或表情变化时将会导致较大的遮挡，进而使得现有算法将难以精准对于图像进行复原。其次，现有算法对于表情的变化往往基于关键点。如果算法未能对于关键点进行精确的定位，则会导致算法的性能出现明显的下降。针对上述问题，本发明提出一种生成序列影像的方法，所述方法将人物的动作变化分为姿态变化及表情变化，并分别通过神经辐射场及生成器进行调整。所述方法分别基于源图像及驱动图像提取身份特征及表情特征，然后通过神经辐射场对于人物进行隐式建模，通过改变观察的角度来实现姿势的变化。同时，在对于表情进行操作时，相较于传统基于关键点的算法，所述方法对于神经辐射场内所有的点都进行偏移量预测，从而实现对表情更为精准的操控。为了进一步实现细粒度的表情操纵，驱动图像的表情特征也将作为生成器的条件输入，旨在进行插值时能够实现细节的补充。

下面结合实施例附图，对本发明的方案做进一步描述。

图1示出本发明一个实施例的一种生成序列影像的方法的流程示意图。如图1所示，一种生成序列影像的方法包括：

首先，在步骤101，提取人物特征。基于源图像提取人物特征，得到特征图，其中所述人物特征包括诸如人脸特征等。在本发明的一个实施例中，采用经过预训练得到的人脸识别网络作为身份特征提取器对源图像的人物特征进行提取，并采用所述人脸识别网络的中间层输出的特征图(Feature Map)作为所述人物特征；

接下来，在步骤102，矫正点。传统的影像生成方法中，在对表情进行操作时，仅对关键点进行矫正，而没有对其他部分进行修改，这就使得传统方法面对大规模表情变化时无法对于表情进行细粒度的操纵。为解决这一问题，本发明采用了神经辐射场对图像进行像素级别的构建，并每个点进行矫正，以实现更为细粒度的表情操控。在本发明的一个实施例中，是基于驱动图像中提取得到的图像特征对神经辐射场中的每个点都进行偏移量预测，并将预测的道德偏移量与原始坐标进行求和，得到经过矫正的点；

接下来，在步骤103，计算点特征。结合相机参数及所述特征图，将所述经过矫正的点进行位置编码(Positional Encoding)，计算矫正后的神经辐射场的每个点的点特征。其中，所述相机参数包括相机外参及相机内参，所述相机内参可直接根据相机上标注的信息得到，而相机外参可根据所述相机拍摄得到的图像推导或计算得到。在本发明的一个实施例中，是通过对驱动图像进行姿态评估，并基于姿态评估得到的旋转角计算得到，在本发明的一个实施例中，所述姿态评估通过经预训练得到的姿态评估网络实现。在本发明的实施例中，所述神经辐射场中每个点的特征均由源图像的身份特征表示。基于此，在本发明的一个实施例中，基于相机参数对所述神经辐射场中的点进行采样以得到所述神经辐射场的每个点的点特征。具体而言，在本发明的一个实施例中，首先结合相机参数计算出每个点在对应特征图上的平面位置，然后通过所述平面位置进行栅格采样(Grid Sampling)从而求得每个点的点特征；

接下来，在步骤104，初步渲染。通过所述神经辐射场进行初步渲染，以得到低分辨率的渲染图像。在本发明的一个实施例中，将步骤103中得到的点特征和原始点的特征点进行拼接，送入神经辐射场进行渲染，进而得到低分辨率的渲染图像；以及

最后，在步骤105，表情修正。对所述低分辨率的渲染图像进行表情修正，得到最终的序列图像。在本发明的一个实施例中，首先采用生成器对于所述神经辐射场渲染生成的低分辨率的渲染图像进行上采样，同时，提取所述驱动图像的表情特征，然后将所述表情特征输入到所述生成器中，对经过上采样后的渲染图像进行表情修正，作为最终的生成图像。由此所得到的生成图像的分辨率将高于所述低分辨率的渲染图像。

在本发明的一个实施例中，为了提高生成精度，还可以对所述神经辐射场进行迭代优化。具体而言，是将最终的生成图像及驱动图像对应的相机外参作为判别器的输入，对图像的可信度及姿态进行判别。同时，为了使得判别器能够成功判别姿态，在本发明的一个实施例中，在对所述判别器进行训练时，可将真实图像及其对应的姿态作为判别器中真实数据的输入。重复上述步骤直至模型收敛。

本发明提供的一种生成序列影像的方法采用了神经辐射场对于人物进行建模，能够保持人物身份特征。通过神经辐射场对目标人物进行建模，从而隐式获得关于目标人物的三维信息，能够避免由于遮挡导致人物身份特征发生改变。此外，由于获得了三位信息，其可以通过改变观察角度实现人物的姿态变化。

基于如前所述的方法，本发明还提供一种生成序列影像的电子设备，其包括存储器以及处理器，其中所述存储器被配置为存储计算机程序，所述计算机程序在所述处理器运行时执行如前所述的生成序列影像的方法。

本发明还提供一种生成序列影像的计算机可读存储介质，其存储有计算机程序，所述计算机程序在处理器上运行时执行如前所述的生成序列影像的方法。

尽管上文描述了本发明的各实施例，但是，应该理解，它们只是作为示例来呈现的，而不作为限制。对于相关领域的技术人员显而易见的是，可以对其做出各种组合、变型和改变而不背离本发明的精神和范围。因此，此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制，而应当仅根据所附权利要求书及其等同替换来定义。

Claims

1.一种生成序列影像的方法，其特征在于，包括步骤：

提取源图像中的人物特征，以得到特征图；

对神经辐射场中的每个点进行矫正；

根据相机参数及所述特征图，计算矫正后的神经辐射场的每个点的点特征；

将所述点特征并与原始点的点特征拼接，并将其送入神经辐射场进行渲染，以得到第一分辨率的渲染图像；以及

对所述第一分辨率的渲染图像进行表情修正，得到序列图像，其中所述序列图像的分辨率高于所述第一分辨率。

2.如权利要求1所述的方法，其特征在于，所述人物特征采用经预训练的人脸识别网络从源图像中提取得到，且采用所述人脸识别网络的中间层输出的特征图作为所述人物特征。

3.如权利要求1所述的方法，其特征在于，所述神经辐射场的点特征的计算包括步骤：

计算相机外参；

根据所述相机外参及相机内参，计算神经辐射场中的每个点在所述特征图上的平面位置；以及

对所述平面位置进行栅格采样，以得到每个点的点特征。

4.如权利要求3所述的方法，其特征在于，所述相机外参的计算包括步骤：

使用预训练的姿态评估网络对驱动图像进行姿态评估；以及

根据姿态评估得到的旋转角计算相机外参。

5.如权利要求1所述的方法，其特征在于，神经辐射场中的每个点的矫正包括：

6.如权利要求1所述的方法，其特征在于，所述表情修正包括步骤：

采用生成器对所述低分辨率的渲染图像进行上采样；

提取驱动图像的表情特征；以及

7.如权利要求1所述的方法，其特征在于，还包括步骤：

8.如权利要求7所述的方法，其特征在于，所述判别器采用真实图像和对应的姿态作为训练数据训练得到。

9.一种生成序列影像的电子设备，其特征在于，包括存储器以及处理器，其中所述存储器被配置为存储计算机程序，所述计算机程序在所述处理器运行时执行如权利要求1至8任一所述的生成序列影像的方法。

10.一种生成序列影像的计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序在处理器上运行时执行如权利要求1至8任一所述的生成序列影像的方法。