CN112767534B

CN112767534B - 视频图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN112767534B
Application number: CN202011625995.2A
Authority: CN
Inventors: 曹炎培; 赵培尧
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-02-09
Anticipated expiration: 2040-12-31
Also published as: CN112767534A; WO2022142702A1

Abstract

本公开关于一种视频图像处理方法、装置、电子设备及存储介质，该方法包括：将目标视频中第一帧图像分别输入三维重建网络和视频帧编码网络，得到第一帧图像中目标对象的三维重建结果及第一帧图像的图像特征；将目标视频中第i帧图像的图像特征和第i帧图像对应的三维重建结果输入时序特征提取网络，得到第i帧图像的时序特征；将目标视频中第i+1帧图像输入视频帧编码网络，得到第i+1帧图像的图像特征；基于第i+1帧图像的图像特征和第i帧图像的时序特征，生成第i+1帧图像对应的三维重建结果；将i的值更新为i+1，重复执行上述输入时序特征提取网络至生成第i+1帧图像对应的三维重建结果的步骤，直至i＝N。本公开能够提高对象三维重建的精度和效率。

Description

视频图像处理方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机处理技术领域，尤其涉及一种视频图像处理方法、装置、电子设备及存储介质。

背景技术

对视频图像中的人体姿势估计及人体三维模型重建旨在对各视频帧中的人体关节位置及人体表面三维模型进行恢复，该技术被广泛应用于安防、健康监控、计算机动画、虚拟现实、增强现实等场景。

相关技术中，通常利用光流或循环神经网络(Recurrent Neural Network，RNN)提取时序信息来进行人体动态三维模型重建，该方案需要先提取输入视频图像中的光流信息，接着利用深度RNN网络或时序卷积网络对输入视频图像中的人体特征进行提取，然后利用提取的人体特征对人体姿态或三维模型进行回归。然而，该方案所涉及的计算量巨大，导致处理效率不高。

发明内容

本公开提供一种视频图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品，以至少解决相关技术中对视频图像的人体三维重建方案计算量及存储量巨大，导致处理效率不高的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频图像处理方法，包括：

将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征；

将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1；

将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征；

基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果；

将i的值更新为i+1，重复执行上述将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络至基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果的步骤，直至i＝N，其中，N为所述目标视频的总帧数。

可选的，所述三维重建网络的结构参数数量大于所述视频帧编码网络的结构参数数量。

可选的，所述基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果，包括：

对所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征进行融合，得到所述第i+1帧图像的融合特征；

基于所述第i+1帧图像的融合特征对所述第i+1帧图像中的目标对象进行三维重建，得到所述第i+1帧图像中的目标对象的三维重建结果。

可选的，所述三维重建网络的训练过程包括：

获取标注有第一对象的三维重建数据的训练图像集，其中，所述第一对象的类型与所述目标对象的类型相同；

将所述训练图像集中的训练图像输入初始三维重建网络，得到各训练图像的三维重建数据；

计算所述各训练图像的三维重建数据与标注的各训练图像的三维重建数据之间的第一误差；

基于所述第一误差，对所述初始三维重建网络的模型参数进行调整，得到训练好的所述三维重建网络。

可选的，所述视频帧编码网络和所述时序特征提取网络的训练过程包括：

获取标注有第二对象的三维重建数据的训练视频集，其中，所述第二对象的类型与所述目标对象的类型相同；

将所述训练视频集中的训练视频中的第一帧训练图像输入至训练好的所述三维重建网络，得到所述第一帧训练图像中的第二对象的三维重建结果；

将所述训练视频中的每帧训练图像分别输入至初始视频帧编码网络，得到所述每帧训练图像的第二图像特征，所述第二图像特征为针对所述第二对象的图像特征；

将所述训练视频中的第j帧训练图像中的第二对象的三维重建结果和所述第j帧训练图像的第二图像特征输入至初始时序特征提取网络，得到所述第j帧训练图像的时序特征，其中，j为1至M之间的任意整数，M为所述训练视频的总帧数；

基于所述训练视频中的第k-1帧训练图像的时序特征和第k帧训练图像的第二图像特征，生成所述第k帧训练图像中的第二对象的三维重建结果，其中，k为2至M之间的任意整数；

计算所述每帧训练图像的时序特征中对应的三维重建数据与标注的所述每帧训练图像的三维重建数据之间的第二误差；

根据所述第二误差，对所述初始视频帧编码网络的模型参数和所述初始视频帧编码网络的模型参数进行调整，得到训练好的所述视频帧编码网络和所述视频帧编码网络。

可选的，所述基于所述训练视频中的第k-1帧训练图像的时序特征和第k帧训练图像的第二图像特征，生成所述第k帧训练图像中的第二对象的三维重建结果，包括：

对所述训练视频中的第k-1帧训练图像的时序特征和第k帧训练图像的第二图像特征进行融合，得到所述第k帧训练图像的融合特征；

基于所述第k帧训练图像的融合特征，对所述第k帧训练图像中的第二对象进行三维重建，得到所述第k帧训练图像中的第二对象的三维重建结果。

可选的，所述第二对象为人体图像时，所述三维重建数据包括人体区域位置和人体关节点位置，所述第二图像特征包括形体姿态特征，所述第二误差包括人体关节投影误差。

可选的，所述三维重建数据还包括人体三维形体数据，所述第二误差还包括人体三维表面顶点误差。

根据本公开实施例的第二方面，提供一种视频图像处理装置，包括：

第一处理模块，被配置为执行将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征；

第二处理模块，被配置为执行将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1；

第三处理模块，被配置为执行将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征；

三维重建模块，被配置为执行基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果；

执行模块，被配置为执行将i的值更新为i+1，重复执行上述将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络至基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果的步骤，直至i＝N，其中，N为所述目标视频的总帧数。

可选的，所述三维重建模块包括：

融合单元，被配置为执行对所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征进行融合，得到所述第i+1帧图像的融合特征；

三维重建单元，被配置为执行基于所述第i+1帧图像的融合特征对所述第i+1帧图像中的目标对象进行三维重建，得到所述第i+1帧图像中的目标对象的三维重建结果。

可选的，所述三维重建网络的训练过程包括：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述第一方面所述的视频图像处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备执行时，使得所述电子设备能够执行上述第一方面所述的视频图像处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，当所述计算机程序被处理器执行时实现上述第一方面所述的视频图像处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征；将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1；将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征；基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果；将i的值更新为i+1，重复执行上述将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络至基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果的步骤，直至i＝N，其中，N为所述目标视频的总帧数。

这样，通过使用三维重建网络对视频的第一帧图像中的目标对象进行三维重建，得到较为精准的三维重建结果，并对于视频中的后续每帧图像，通过结合第一帧图像中目标对象的三维重建结果和每帧图像的第一图像特征，便可实现快速地对每帧图像中的目标对象进行精确地三维重建。该方案相比相关技术中的方案，具有计算量小，处理速度快即效率高的优点。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频图像处理方法的流程图。

图2是根据一示例性实施例示出的一种对视频图像中的人体进行三维重建的流程图。

图3是根据一示例性实施例示出的一种视频图像处理装置的框图。

图4是根据一示例性实施例示出的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开实施例可应用于三维动画制作、增强现实等场景，具体可基于视频图像，通过对各帧视频图像中的目标对象，如人体、特定物体等进行三维重建，来生成对应的三维图像，最终将各帧视频图像对应的三维图像连续快速播放便可生成对应的三维动态视频图像。

图1是根据一示例性实施例示出的一种视频图像处理方法的流程图，如图1所示，该方法包括以下步骤。

在步骤S11中，将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征。

本公开实施例中，为保证能够得到对所述目标视频中的目标对象的较为精确的三维重建结果，可以使用预先构建好的能够对图像中的目标对象进行精确三维重建的三维重建网络，对所述目标视频中的首帧图像也即第一帧图像进行三维重建，得到由所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，并可将该三维重建结果中的相关重建数据传递给后续帧图像使用。

具体地，所述三维重建网络可以通过识别所述第一帧图像中的目标对象的三维重建相关特征信息，并基于所述三维重建相关特征信息对所述第一帧图像中的目标对象进行三维重建，得到所述第一帧图像中的目标对象的三维重建结果，所述三维重建结果可以是所述目标对象的三维重建模型，其中，所述三维重建相关特征信息可以是进行三维重建中需要使用到的相关特征信息，例如，所述目标对象为人体图像时，所述三维重建相关特征信息可以是人体关节点位置信息、人体区域信息等特征信息，人体关节点位置信息可以包括人体的各关节点在视频帧图像中的位置信息，人体区域信息可以是指人体图像中的各像素点在视频帧图像中的位置信息或人体图像轮廓上的各像素点在视频帧图像中的位置信息。

其中，所述目标视频可以是任意需要生成三维动态图像的视频，且所述目标视频可以是普通的单视角彩色视频，所述目标对象可以是所述目标视频中任意需要进行三维重建的对象，例如，人体图像、特定物体图像或建筑物图像等。

对于所述目标视频中的第一帧图像，还可以将其输入视频帧编码网络进行图像特征编码处理，进而得到由所述视频帧编码网络输出的所述第一帧图像的第一图像特征，所述第一图像特征为针对所述目标对象的图像特征，具体地，所述第一图像特征可以是所述视频帧编码网络对图像中的目标对象进行编码得到的高层级图像特征，例如，目标对象为人体图像时，第一图像特征可以是编码的人体形体、人体姿态等特征信息，从而通过所述第一图像特征，可以确定对应图像中的人体形体和人体姿态信息。

该步骤中，通过所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及通过所述视频帧编码网络输出的所述第一帧图像的第一图像特征，可以用于结合提取所述第一帧图像中的时序特征。

在步骤S12中，将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1。

在步骤S13中，将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征。

在步骤S14中，基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果。

在步骤S15中，将i的值更新为i+1，重复执行上述步骤S12至步骤S14，直至i＝N，其中，N为所述目标视频的总帧数。

本公开实施例中，上述步骤S12至步骤15可以是随i取值的不同，不断重复执行的步骤，整个循环过程自i＝1开始直至i＝N结束。

对于所述目标视频中的每一帧图像，均可以通过时序特征提取网络对其中的时序特征进行提取，具体地，可以在得到每一帧图像的第一图像特征和该帧图像中的目标对象的三维重建结果后，将二者输入所述时序特征提取网络，由所述时序特征提取网络提取出该帧图像的时序特征。

对于所述目标视频中除所述第一帧图像之后的每一帧图像，均可以通过所述视频帧编码网络对其中的目标对象进行编码，得到第一图像特征。

具体地，由于i的初始值为1，故可以先从所述目标视频中的第1帧图像也即所述第一帧图像开始，将所述三维重建网络和所述视频帧编码网络分别输出的所述第1帧图像中的目标对象的三维重建结果和所述第1帧图像的第一图像特征直接输入所述时序特征提取网络，得到所述时序特征提取网络输出的所述第1帧图像的时序特征。具体地，可以是将所述第1帧图像的第一图像特征和所述第1帧图像中的目标对象的三维重建结果，如三维重建模型，经过所述时序特征提取网络进行变换后，可得到所述第1帧图像的时序特征，提取所述时序特征也即相当于是复用所述第1帧图像的第一图像特征和所述第1帧图像中的目标对象的三维重建结果，也就是说，所述第1帧图像的时序特征可包括所述目标对象的第一图像特征和三维重建特征。

还可将所述目标视频中的第2帧图像输入至所述视频帧编码网络，得到所述第2帧图像的第一图像特征，并可将所述第1帧图像中的目标对象的时序特征传递给第2帧图像进行三维重建使用。具体地，可以综合所述第1帧图像的时序特征和所述第2帧图像的第一图像特征，来得到所述2帧图像中的目标对象的三维重建相关特征信息，并基于该三维重建相关特征信息生成所述第2帧图像中的目标对象的三维重建结果。

然后，在生成所述第2帧图像中的目标对象的三维重建结果后，可以将i的值加1，即可将i的值更新为2，开始将所述目标视频中的第2帧图像的第一图像特征和所述第2帧图像中的目标对象的三维重建结果输入至所述时序特征提取网络，得到所述第2帧图像的时序特征；将所述目标视频中的第3帧图像输入至所述视频帧编码网络，得到所述第3帧图像的第一图像特征，基于所述第3帧图像的第一图像特征和所述第2帧图像的时序特征，生成所述第3帧图像中的目标对象的三维重建结果；具体地各个过程均与i等于1时相对应的处理方式类似，为避免重复，此处不再赘述。

这样，可以在每生成得到一帧图像的三维重建结果后，便将i的值加1，并按照上述类似过程生成所述目标视频中后续每帧图像中的目标对象的三维重建结果。

也就是说，本公开实施例中，可以按照上述步骤S12至步骤S15，逐帧生成所述目标视频中第1帧图像之后的每一帧图像中的目标对象的三维重建结果。

可选的，所述步骤S14包括：

即在得到第i+1帧图像的第一图像特征和第i帧图像的时序特征后，可以对这两种特征信息进行融合，以得到所述第i+1帧图像的融合特征，所述融合特征也即针对当前帧图像中的目标对象的特征信息集合，具体地，可以采用拼接或加和等方式进行特征融合，例如，第i+1帧图像为当前帧图像，可对当前帧图像的第一图像特征和上一帧图像的时序特征进行拼接即可，或者，将当前帧图像的第一图像特征替代上一帧图像的时序特征中的第一图像特征，替换后的时序特征作为当前帧图像中的目标对象的特征信息集合，也即为当前帧图像的融合特征。

在得到所述第i+1帧图像的融合特征后，便可基于所述第i+1帧图像的融合特征对所述第i+1帧图像中的目标对象进行三维重建，生成所述目标对象的三维模型图像，并确定所述三维模型图像中目标对象的三维特征信息，例如，目标对象为人体图像时，可以生成三维人体图像，并确定三维人体关节位置信息、表面三维顶点位置信息等。具体地，可以利用一三维重建模型来对所述第i+1帧图像中的目标对象进行快速三维重建，该三维重建模型可以利用大量视频帧图像中的目标对象的总体特征信息作为输入训练数据和相应的目标对象的三维模型作为输出训练数据，对初始三维重建模型进行训练得到的，该初始三维重建模型可以是简单的卷积神经网络。

这样，通过该实施方式，可以通过特征融合和简单的模型回归处理，便可快速构建得到所述第i+1帧图像中的目标对象的较为精确的三维重建结果。

需说明的是，本公开实施例中，在准备对当前帧图像中的目标对象进行三维重建时，可以直接利用上一帧图像的时序特征来实现对所述目标对象的快速三维建模，即上一帧图像的时序特征是已知的，可以在对每一帧图像中的目标对象进行三维重建时，缓存该帧图像的时序特征，用于在对下一帧图像中的目标对象进行三维重建时使用。

这样，在对当前帧图像中的目标对象进行三维重建时，只需识别其中的第一图像特征，而无需再识别其他特征信息，其他特征信息可以直接从上一帧图像的三维重建结果中获取即可，进而可大幅降低计算量，以及提高对每帧图像进行三维重建的速度。

即本公开实施例中，为确保对所述目标视频中的目标对象的三维重建速度和精度，所述三维重建网络可以是一大型骨干卷积神经网络，所述视频帧编码网络则可以是一轻量化卷积神经网络。其中，所述大型骨干卷积神经网络可以是层级数较多，结构参数较多的卷积神经网络；所述轻量化神经网络可以是层级数较少，结构参数较少的卷积神经网络，且所述三维重建网络的结构参数数量大于所述视频帧编码网络的结构参数数量。

其中，所述三维重建网络可以是利用标注有第一对象的三维重建数据的训练图像集对初始三维重建网络进行训练得到的，所述第一对象可以是与所述目标对象的类型相同的特定对象，例如，所述第一对象和所述目标对象均为人体图像。

可选的，所述三维重建网络的训练过程包括：

具体地，为保证能够对待处理视频中的首帧图像中的目标对象进行精确三维重建，采用大型骨干卷积神经网络作为初始三维重建网络，并使用大量标注有第一对象的三维重建数据的视频帧图像作为训练图像集，即可将所述训练图像集中的各训练图像作为输入数据输入所述初始三维重建网络，相应的通过所述初始三维重建网络输出的对各训练图像中的第一对象的三维重建数据作为输出数据，还可以使用标注的各训练图像中的第一对象的三维重建数据作为输出训练数据，通过计算所述各训练图像的三维重建数据与标注的各训练图像的三维重建数据之间的误差，对所述初始三维重建网络的模型参数进行训练调整，通过反复的训练过程和训练目标确定所述初始三维重建网络的模型参数，得到训练好的所述三维重建网络，所述训练目标可以是使模型输出数据与标注数据的误差最小化，或使所述误差小于一定阈值。

这样，通过上述训练过程，可保证训练得到的三维重建网络能有效精确地对目标视频中的目标对象进行三维重建。且由于大型骨干神经网络具有较多的参数量和较大的计算量，从而可保证通过训练得到的三维重建网络能够精确识别视频帧图像中的目标对象的三维重建数据，并对视频帧图像中的目标对象进行精确地三维重建，且由于只需利用所述三维重建网络对所述目标视频中的第一帧图像进行处理，对于其他帧图像的处理速度较快，故可以达到兼顾三维模型重建精确度和处理速度的目的。

其中，所述视频帧编码网络和所述时序特征提取网络可以是利用标注有第二对象的三维重建数据的训练视频集对轻量化卷积神经网络进行联合训练得到的，所述第二对象也可以是与所述目标对象的类型相同的特定对象，即所述第一对象、所述第二对象和所述目标对象均可以是同一类型对象，例如，均为人体图像。

即本公开实施例中，可以先对所述三维重建网络按照前述方式进行训练，固定好所述三维重建网络的模型参数后，再利用训练视频集对所述视频帧编码网络和时序特征提取网络进行联合训练。

其中，为保证能够对待处理视频中第一帧图像之后的每帧图像中的目标对象进行快速三维重建，可以采用一轻量化卷积神经网络作为初始视频帧编码网络，也可以采用另一轻量化卷积神经网络作为初始时序特征提取网络，并可使用大量标注有第二对象的三维重建数据的视频数据作为训练视频集，并可将所述训练视频集中的各训练视频作为输入数据，将所述训练视频中各帧训练图像逐帧输入所述初始视频帧编码网络，相应的通过所述时序特征提取网络输出的对所述训练视频中各帧训练图像中的第二对象的时序特征作为输出数据，还可以使用标注的各训练视频中各帧训练图像中的第二对象的三维重建数据作为输出训练数据，对所述初始视频帧编码网络和所述初始时序特征提取网络进行联合训练，通过计算所述训练视频中各帧训练图像的三维重建数据与标注的各帧训练图像的三维重建数据之间的误差，调整所述初始视频帧编码网络和所述初始时序特征提取网络的模型参数，通过反复的训练过程和训练目标确定所述初始视频帧编码网络和所述初始时序特征提取网络的模型参数，得到训练好的所述视频帧编码网络和所述初始时序特征提取网络，所述训练目标可以是使模型输出数据与标注数据的误差最小，或使所述误差小于预设阈值。

更具体地，在上述训练过程中，可以先将所述训练视频集中的训练视频中的首帧训练图像也即第1帧训练图像输入至已训练好的所述三维重建网络，得到所述第一帧训练图像中的第二对象的三维重建结果；然后，可将所述训练视频中的第1帧训练图像中的第二对象的三维重建结果和所述第1帧训练图像的第二图像特征输入至初始时序特征提取网络，得到所述第1帧训练图像的时序特征；并且还可将所述训练视频中的下一帧训练图像也即第2帧训练图像输入至初始视频帧编码网络，得到第2帧训练图像的第二图像特征，所述第二图像特征为针对所述第二对象的图像特征；从而可基于所述训练视频中的第1帧训练图像的时序特征和第2帧训练图像的第二图像特征，生成所述第2帧训练图像中的第二对象的三维重建结果。

类似地，可将所述训练视频中的第2帧训练图像中的第二对象的三维重建结果和所述第2帧训练图像的第二图像特征输入至所述初始时序特征提取网络，得到所述第2帧训练图像的时序特征，并且还可继续将所述训练视频中的下一帧训练图像也即第3帧训练图像输入至所述初始视频帧编码网络，得到第3帧训练图像的第二图像特征，从而可基于所述训练视频中的第2帧训练图像的时序特征和第3帧训练图像的第二图像特征，生成所述第3帧训练图像中的第二对象的三维重建结果。这样，可以在每输出一帧训练图像的三维重建结果后，便按类似方式确定当前帧训练图像的时序特征，以及继续对下一帧执行相似操作，确定每一帧训练图像中的目标对象的三维重建结果，并可记录所述初始时序特征提取网络输出的每一帧训练图像的时序特征。其中，具体地各个过程均与前述介绍的相关处理方式类似，为避免重复，此处不再赘述。

最后，通过计算所述每帧训练图像的时序特征中对应的三维重建数据与标注的所述每帧训练图像的三维重建数据之间的误差，并根据该误差，对所述初始视频帧编码网络的模型参数和所述初始视频帧编码网络的模型参数进行联合调整，直至得到训练好的所述视频帧编码网络和所述时序特征提取网络。

这样，通过上述训练过程，可保证训练得到的视频帧编码网络和时序特征提取网络能有效精确地对目标视频中各帧图像进行快速编码和时序特征提取处理。且由于轻量化神经网络具有参数量小、运算速度快的特点，从而可保证通过训练得到的视频帧编码网络能够快速识别视频帧图像中的目标对象的第一图像特征，进而满足实时、低延迟运行的要求。

其中，模型训练过程中如何基于所述训练视频中的第k-1帧训练图像的时序特征和第k帧训练图像的第二图像特征，生成所述第k帧训练图像中的第二对象的三维重建结果的实施方式与前述对步骤S14的细化实施方式类似，具体可参见前述相关介绍，为避免重复，此处不再赘述。

这样，通过该实施方式，可以通过特征融合和简单的模型回归处理，可在训练过程中实现快速构建得到所述第k帧图像中的目标对象的较为精确的三维重建结果。

可选的，所述根据所述第二误差，对所述初始视频帧编码网络的模型参数和所述初始视频帧编码网络的模型参数进行调整，包括：

以最小化所述第二误差为训练目标，对所述初始视频帧编码网络的模型参数和所述初始视频帧编码网络的模型参数进行调整。

即一种实施方式中，可以最小化模型输出数据与标注数据的误差作为模型训练过程中的训练目标，具体地，可通过构建相关损失函数来实现该训练目标，计算出误差最小化时各训练网络的模型参数。

一种具体的实施方式中，本公开实施例可以应用于对视频中的人体图像进行三维重建的场景，即本公开实施例中的目标对象可以是人体图像，训练目标对象也相应为人体图像，所述第二图像特征可以包括形体姿态特征，也即可包括人体形体特征和人体姿态特征等人体图像特征，本公开实施例中的第一图像特征也相应包括形体姿态特征，所述三维重建数据可以包括人体区域位置和人体关节点位置等三维重建相关数据。

在前述相关网络的训练过程中，所述第二误差则可以包括人体关节投影误差，所述第一误差页可以相应包括人体关节投影误差。也就是说，在对所述三维重建网络、视频帧编码网络、时序特征提取网络的训练过程中，均可以最小化关节投影误差为训练目标，即在训练过程中可以使训练网络输出的三维人体关节位置与训练图像中标注的人体关节位置之间的差值也即关节投影误差不断趋小，直至该误差稳定于一较小误差，该误差可以很小，以保证训练出的相关网络具备较高的精度。

这样，可以应用本公开实施例中的视频图像处理方法对人体类视频图像中的人体进行三维重建，生成相应的人体三维动态图像。

进一步的，所述三维重建数据还包括人体三维形体数据，所述第二误差还包括人体三维表面顶点误差。

即当各训练图像中还标注有三维形体数据时，也即在各训练图像中标注了人体三维重建的位置时，所述第二误差还可以包括人体三维表面顶点误差，所述训练目标相应还可以包括最小化人体三维表面顶点误差，即在训练过程中可以使训练网络输出的三维人体重建结果中的表面三维顶点位置与人工标注的人体表面三维顶点位置之间的差值，也即三维表面顶点误差不断趋小，直至该误差稳定于一较小误差。

下面结合图2，以目标对象为人体图像为例，对本公开实施例中的视频图像处理方法的具体实施方式进行举例说明：

首先，可以将视频中的首帧图像即第一帧图像输入至三维人体重建网络，得到首帧图像中的人体三维重建结果，该人体三维重建结果中可以包括人体关节位置、人体区域等信息。该三维人体重建网络可以是一大型骨干卷积神经网络，具有较多的参数量和较大的计算量，可以利用海量的单帧人体图像标注数据训练得到，该三维人体重建网络能够对单帧彩色图像中的人体进行精确地三维重建。

还可以将首帧图像输入至视频帧编码网络，得到首帧图像对应的高层级图像特征，该视频帧编码网络可以是一轻量化的卷积神经网络，具有参数量小、运算速度快的特点，能够满足实时、低延迟运行的要求，所述高层级图像特征可以是卷积神经网络的部分层输出的中间特征，编码了人体形体、姿态等特征信息。

接着，可以将视频帧编码网络输出的首帧图像的高层级图像特征和三维人体重建网络输出的三维人体重建结果，共同输入至时序特征提取网络，该时序特征提取网络的作用是，综合当前帧的高层级图像特征与三维人体重建结果，对当前帧中的时序特征进行提取，并传递给后续帧中的人体三维模型重建流程。

然后，将视频中的第二帧图像输入至视频帧编码网络，以得到相应的高层级图像特征，并将该高层级图像特征与上一步骤中传递而来的上一帧图像中的时序特征进行融合，并通过一简单的卷积神经网络对融合后的特征进行回归，便可得到第二帧图像的三维人体重建结果。然后，可以重复上述综合当前帧的高层级图像特征与三维人体重建结果，对当前帧中的时序特征进行提取的流程。

对于后续帧图像，均可以采用与第二帧图像的三维人体重建流程类似的方式，来得到后续每一帧图像的三维人体重建结果，即利用前一帧传递的时序特征和视频帧编码网络提取的高层级图像特征对当前帧的三维人体模型进行重建，继而生成当前帧的时序特征。

本公开实施例中的视频图像处理方法，将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征；将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1；将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征；基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果；将i的值更新为i+1，重复执行上述将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络至基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果的步骤，直至i＝N，其中，N为所述目标视频的总帧数。这样，通过使用三维重建网络对视频的第一帧图像中的目标对象进行三维重建，得到较为精准的三维重建结果，并对于视频中的后续每帧图像，通过结合第一帧图像中目标对象的三维重建结果和每帧图像的第一图像特征，便可实现快速地对每帧图像中的目标对象进行精确地三维重建。该方案相比相关技术中的方案，具有计算量小，处理速度快即效率高的优点。

图3是根据一示例性实施例示出的一种视频图像处理装置框图。参照图3，该视频图像处理装置包括第一处理模块301、第二处理模块302、第三处理模块303、三维重建模块304和执行模块305。

该第一处理模块301被配置为执行将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征；

该第二处理模块302被配置为执行将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1；

该第三处理模块303被配置为执行将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征；

该三维重建模块304被配置为执行基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果；

该执行模块305被配置为执行将i的值更新为i+1，重复执行上述将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络至基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果的步骤，直至i＝N，其中，N为所述目标视频的总帧数。

可选的，三维重建模块304包括：

可选的，所述三维重建网络的训练过程包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本公开实施例中的视频图像处理装置300，将目标视频中的第一帧图像分别输入至三维重建网络和视频帧编码网络，得到所述三维重建网络输出的所述第一帧图像中的目标对象的三维重建结果，以及所述视频帧编码网络输出的所述第一帧图像的第一图像特征，其中，所述第一图像特征为针对所述目标对象的图像特征；将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络，得到所述第i帧图像的时序特征，其中，i的初始值为1；将所述目标视频中的第i+1帧图像输入至所述视频帧编码网络，得到所述第i+1帧图像的第一图像特征；基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果；将i的值更新为i+1，重复执行上述将所述目标视频中的第i帧图像的第一图像特征和所述第i帧图像中的目标对象的三维重建结果输入至时序特征提取网络至基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果的步骤，直至i＝N，其中，N为所述目标视频的总帧数。这样，通过使用三维重建网络对视频的第一帧图像中的目标对象进行三维重建，得到较为精准的三维重建结果，并对于视频中的后续每帧图像，通过结合第一帧图像中目标对象的三维重建结果和每帧图像的第一图像特征，便可实现快速地对每帧图像中的目标对象进行精确地三维重建。该方案相比相关技术中的方案，具有计算量小，处理速度快即效率高的优点。

图4是根据一示例性实施例示出的一种用于电子设备400的框图。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器410，上述指令可由电子设备400的处理器420执行以完成上述视频图像处理方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。在图4中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器420代表的一个或多个处理器和存储器410代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口430提供接口。处理器420负责管理总线架构和通常的处理，存储器410可以存储处理器420在执行操作时所使用的数据。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述视频图像处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述三维重建网络的结构参数数量大于所述视频帧编码网络的结构参数数量。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第i+1帧图像的第一图像特征和所述第i帧图像的时序特征，生成所述第i+1帧图像中的目标对象的三维重建结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述三维重建网络的训练过程包括：

5.根据权利要求4所述的方法，其特征在于，所述视频帧编码网络和所述时序特征提取网络的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述训练视频中的第k-1帧训练图像的时序特征和第k帧训练图像的第二图像特征，生成所述第k帧训练图像中的第二对象的三维重建结果，包括：

7.根据权利要求5所述的方法，其特征在于，所述第二对象为人体图像时，所述三维重建数据包括人体区域位置和人体关节点位置，所述第二图像特征包括形体姿态特征，所述第二误差包括人体关节投影误差。

8.根据权利要求7所述的方法，其特征在于，所述三维重建数据还包括人体三维形体数据，所述第二误差还包括人体三维表面顶点误差。

9.一种视频图像处理装置，其特征在于，包括：

10.根据权利要求9所述的视频图像处理装置，其特征在于，所述三维重建网络的结构参数数量大于所述视频帧编码网络的结构参数数量。

11.根据权利要求9所述的视频图像处理装置，其特征在于，所述三维重建模块包括：

12.根据权利要求9所述的视频图像处理装置，其特征在于，所述三维重建网络的训练过程包括：

13.根据权利要求12所述的视频图像处理装置，其特征在于，所述视频帧编码网络和所述时序特征提取网络的训练过程包括：

14.根据权利要求13所述的视频图像处理装置，其特征在于，所述基于所述训练视频中的第k-1帧训练图像的时序特征和第k帧训练图像的第二图像特征，生成所述第k帧训练图像中的第二对象的三维重建结果，包括：

15.根据权利要求13所述的视频图像处理装置，其特征在于，所述第二对象为人体图像时，所述三维重建数据包括人体区域位置和人体关节点位置，所述第二图像特征包括形体姿态特征，所述第二误差包括人体关节投影误差。

16.根据权利要求15所述的视频图像处理装置，其特征在于，所述三维重建数据还包括人体三维形体数据，所述第二误差还包括人体三维表面顶点误差。

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8任一项所述的视频图像处理方法。

18.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至8中任一项所述的视频图像处理方法。

19.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的视频图像处理方法。