CN111028346B

CN111028346B - 一种视频对象的重建方法和装置

Info

Publication number: CN111028346B
Application number: CN201911344788.7A
Authority: CN
Inventors: 刘思阳
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-10-10
Anticipated expiration: 2039-12-23
Also published as: CN111028346A

Abstract

本申请涉及一种视频对象的重建方法和装置，其中，该方法包括：对多个视频帧进行对象检测，得到多个对象区域图像，其中，多个对象区域图像与多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；从多个对象区域图像中提取预测信息，其中，预测信息用于指示目标对象在每个对象区域图像中的位置、形状和旋转角度；对预测信息进行平滑处理，得到平滑信息；使用平滑信息创建目标对象的对象模型。本申请解决了对视频对象进行重建的准确度较低的技术问题。

Description

一种视频对象的重建方法和装置

技术领域

本申请涉及计算机领域，尤其涉及一种视频对象的重建方法和装置。

背景技术

针对视频对象重建任务，目前受模型精度及视频拍摄环境等多方面的影响，单帧去重建对象存在不准的时候，那么对于视频这个序列，把重建的结果连起来的时候就会发现重建的对象是抖动的，导致对视频对象进行重建的准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种视频对象的重建方法和装置。

根据本申请实施例的一个方面，提供了一种视频对象的重建方法，包括：

对多个视频帧进行对象检测，得到多个对象区域图像，其中，所述多个对象区域图像与所述多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；

从所述多个对象区域图像中提取预测信息，其中，所述预测信息用于指示所述目标对象在所述每个对象区域图像中的位置、形状和旋转角度；

对所述预测信息进行平滑处理，得到平滑信息；

使用所述平滑信息创建所述目标对象的对象模型。

可选地，从所述多个对象区域图像中提取预测信息包括：从所述多个对象区域图像中提取预测位置信息，预测形状信息和预测旋转信息，其中，所述预测位置信息用于指示所述目标对象在所述多个对象区域图像中每个对象区域图像上的位置，所述预测形状信息用于指示所述目标对象在所述每个对象区域图像上的形状，所述预测旋转信息用于指示所述目标对象在所述每个对象区域图像上的旋转角度；

对所述预测信息进行平滑处理，得到平滑信息包括：分别对所述预测位置信息，所述预测形状信息和所述预测旋转信息进行平滑处理，得到平滑位置信息、平滑形状信息和平滑旋转信息。

可选地，从所述多个对象区域图像中提取预测位置信息，所述预测形状信息和所述预测旋转信息包括：

将所述多个对象区域图像输入3D重建网络；

获取所述3D重建网络输出的多个预测姿态信息矩阵，多个预测形状信息矩阵，多个预测镜头信息，其中，所述预测位置信息包括所述多个预测镜头信息，所述预测形状信息包括所述多个预测形状信息矩阵，所述预测旋转信息包括所述多个预测姿态信息矩阵。

可选地，对所述预测位置信息进行平滑处理，得到所述平滑位置信息包括：

获取对象X轴位移信息和对象Y轴位移信息，其中，所述预测位置信息包括所述对象X轴位移信息和所述对象Y轴位移信息，所述对象X轴位移信息用于指示所述目标对象相对于所述对象区域图像在X轴方向上的位移，所述对象Y轴位移信息用于指示所述目标对象相对于所述对象区域图像在Y轴方向上的位移；

分别将所述对象X轴位移信息和所述对象Y轴位移信息映射到所述视频帧，得到对象X轴映射信息和对象Y轴映射信息，其中，所述对象X轴映射信息用于指示所述目标对象相对于所述视频帧在X轴方向上的位移，所述对象Y轴映射信息用于指示所述目标对象相对于所述视频帧在Y轴方向上的位移；

分别对所述对象X轴映射信息和所述对象Y轴映射信息进行平滑处理，得到所述平滑位置信息。

可选地，对所述预测形状信息进行平滑处理，得到平滑形状信息包括：

获取n个视频帧中每个视频帧的预测形状信息矩阵S^k，得到预测形状信息总矩阵Sⁿ，其中，所述预测形状信息包括n个所述预测形状信息矩阵S^k，k表示所述每个视频帧，所述预测形状信息矩阵S^k为1×a维的矩阵，a为正整数，所述预测形状信息总矩阵Sⁿ为n×a维的矩阵；

对所述预测形状信息总矩阵Sⁿ按照每一维进行拆分，得到a个n维向量；

对所述a个n维向量中的每个n维向量，剔除所述每个n维向量中的m个最大值和m个最小值得到a个n-2m维向量，其中，2m<n；

对所述a个n-2m维向量中的每个n-2m维向量取平均值，得到1个a维向量作为所述平滑形状信息。

可选地，对所述预测旋转信息进行平滑处理，得到平滑旋转信息包括：

获取预测姿态信息矩阵P^L和部位连接关系，其中，所述预测姿态信息矩阵P^L包括b个子矩阵，b为正整数，所述b个子矩阵中每个子矩阵与所述目标对象的b个部位中的每个部位一一对应，所述部位连接关系用于指示所述b个部位之间的从属关系，所述b个子矩阵中每个子矩阵为所述每个部位的局部角度表示；

将所述每个部位的局部角度表示转换为所述每个部位的全局角度表示，得到全局角度表示矩阵P^G，其中，在所述从属关系中的子节点的全局角度表示为所述子节点的局部角度表示与所述子节点的父节点的全局角度表示的乘积；

对所述全局角度表示矩阵P^G所包括的每个数据进行平滑处理，得到所述平滑旋转信息。

可选地，对所述多个视频帧进行对象检测，得到所述多个对象区域图像包括：

将所述多个视频帧输入对象检测网络；

获取所述对象检测网络输出的所述多个视频帧中每个视频帧对应的Crop参数，其中，所述Crop参数包括：图像缩放系数，对象开始坐标，对象结束坐标和对象图像分辨率；

使用所述每个视频帧对应的Crop参数对所述每个视频帧中包括的所述目标对象进行定位，得到所述多个对象区域图像。

可选地，在对多个视频帧进行对象检测，得到多个对象区域图像之前，所述方法还包括：

获取待处理的视频流或者视频文件；

在获取到所述视频流的情况下，从所述视频流中提取第一时间长度的视频帧作为所述多个视频帧；

在获取到所述视频文件的情况下，将所述视频文件中每隔第二时间长度的视频帧确定为所述多个视频帧。

可选地，对所述预测信息进行平滑处理，得到所述平滑信息包括：

从所述预测信息中获取目标时序数据以及所述目标时序数据对应的关联数据序列，其中，所述关联数据序列包括所述目标时序数据和与所述目标时序数据具有时序关系的关联数据；

确定所述关联数据序列中每个数据所对应的平滑权重，其中，所述平滑权重用于指示所述每个数据与所述目标时序数据之间的差异度和所述每个数据与所述目标时序数据之间的距离对所述目标时序数据的相关度；

根据所述平滑权重和所述关联数据序列确定所述目标时序数据对应的平滑数据。

可选地，确定所述关联数据序列中每个数据所对应的平滑权重包括：

根据所述每个数据与所述目标时序数据之间的差异度确定所述每个数据对应的速度权重，其中，所述每个数据与所述目标时序数据之间的差异度越大，所述每个数据对应的速度权重越小；

根据所述每个数据与所述目标时序数据之间的距离以及所述关联数据序列的采样频率确定所述每个数据对应的距离权重，其中，所述每个数据与所述目标时序数据之间的距离越大，所述每个数据对应的距离权重越小；

将所述速度权重和所述距离权重的乘积确定为所述每个数据对应的所述平滑权重。

可选地，获取所述目标时序数据以及所述目标时序数据对应的所述关联数据序列包括：

在所述多个视频帧来自视频流的情况下，将所述视频流中当前待处理的视频帧的预测信息确定为所述目标时序数据，并将所述目标时序数据之前的第一长度的视频帧的预测信息确定为所述关联数据序列；

在所述多个视频帧来自视频文件的情况下，将所述视频文件中当前待处理的视频帧的预测信息确定为所述目标时序数据，并将所述目标时序数据之前的第二长度的视频帧的预测信息和所述目标时序数据之后的第三长度的视频帧的预测信息确定为所述关联数据序列。

根据本申请实施例的另一方面，还提供了一种视频对象的重建装置，包括：

检测模块，用于对多个视频帧进行对象检测，得到多个对象区域图像，其中，所述多个对象区域图像与所述多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；

第一提取模块，用于从所述多个对象区域图像中提取预测信息，其中，所述预测信息用于指示所述目标对象在所述每个对象区域图像中的位置、形状和旋转角度；

平滑模块，用于对所述预测信息进行平滑处理，得到平滑信息；

创建模块，用于使用所述平滑信息创建所述目标对象的对象模型。

可选地，所述第一提取模块用于：从所述多个对象区域图像中提取预测位置信息，预测形状信息和预测旋转信息，其中，所述预测位置信息用于指示所述目标对象在所述多个对象区域图像中每个对象区域图像上的位置，所述预测形状信息用于指示所述目标对象在所述每个对象区域图像上的形状，所述预测旋转信息用于指示所述目标对象在所述每个对象区域图像上的旋转角度；

所述平滑模块用于：分别对所述预测位置信息，所述预测形状信息和所述预测旋转信息进行平滑处理，得到平滑位置信息、平滑形状信息和平滑旋转信息。

可选地，所述第一提取模块用于包括：

将所述多个对象区域图像输入3D重建网络；

可选地，所述平滑模块用于：

可选地，所述检测模块用于：

将所述多个视频帧输入对象检测网络；

可选地，所述装置还包括：

获取模块，用于在对多个视频帧进行对象检测，得到多个对象区域图像之前，获取待处理的视频流或者视频文件；

第二提取模块，用于在获取到所述视频流的情况下，从所述视频流中提取第一时间长度的视频帧作为所述多个视频帧；

确定模块，用于在获取到所述视频文件的情况下，将所述视频文件中每隔第二时间长度的视频帧确定为所述多个视频帧。

可选地，所述平滑模块包括：

获取单元，用于从所述预测信息中获取目标时序数据以及所述目标时序数据对应的关联数据序列，其中，所述关联数据序列包括所述目标时序数据和与所述目标时序数据具有时序关系的关联数据；

第一确定单元，用于确定所述关联数据序列中每个数据所对应的平滑权重，其中，所述平滑权重用于指示所述每个数据与所述目标时序数据之间的差异度和所述每个数据与所述目标时序数据之间的距离对所述目标时序数据的相关度；

第二确定单元，用于根据所述平滑权重和所述关联数据序列确定所述目标时序数据对应的平滑数据。

可选地，所述第一确定单元用于：

可选地，所述获取单元用于：

根据本申请实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本申请实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本申请实施例中，采用对多个视频帧进行对象检测，得到多个对象区域图像，其中，多个对象区域图像与多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；从多个对象区域图像中提取预测信息，其中，预测信息用于指示目标对象在每个对象区域图像中的位置、形状和旋转角度；对预测信息进行平滑处理，得到平滑信息；使用平滑信息创建目标对象的对象模型的方式，通过对象检测过程检测出目标对象所在的对象区域图像，从对象区域图像中提取出目标对象的位置、形状和旋转角度等信息作为预测信息，对预测信息进行平滑处理得到平滑信息，使用平滑信息创建对象模型，达到了降低对象模型创建的过程中目标对象在位置、形状和旋转角度上的抖动的目的，从而实现了提高对视频对象进行重建的准确度的技术效果，进而解决了对视频对象进行重建的准确度较低的技术问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是根据本申请实施例的视频对象的重建方法的硬件环境的示意图；

图2是根据本申请实施例的一种可选的视频对象的重建方法的流程图；

图3是根据本申请实施例的人体部位连接关系的示意图；

图4是根据本申请可选的实施方式的速度权重的确定过程的示意图一；

图5是根据本申请可选的实施方式的速度权重的确定过程的示意图二；

图6是根据本申请可选的实施方式的速度权重的确定过程的示意图三；

图7是根据本申请实施例的一种视频人体重建平滑方法的示意图；

图8是根据本申请实施例的一种可选的视频对象的重建装置的示意图；

以及

图9是根据本申请实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例的一方面，提供了一种视频对象的重建的方法实施例。

可选地，在本实施例中，上述视频对象的重建方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示，服务器103通过网络与终端101进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务等)，可在服务器上或独立于服务器设置数据库105，用于为服务器103提供数据存储服务，上述网络包括但不限于：广域网、城域网或局域网，终端101并不限定于PC、手机、平板电脑等。本申请实施例的视频对象的重建方法可以由服务器103来执行，也可以由终端101来执行，还可以是由服务器103和终端101共同执行。其中，终端101执行本申请实施例的视频对象的重建方法也可以是由安装在其上的客户端来执行。

图2是根据本申请实施例的一种可选的视频对象的重建方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S201，对多个视频帧进行对象检测，得到多个对象区域图像，其中，所述多个对象区域图像与所述多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；

步骤S202，从所述多个对象区域图像中提取预测信息，其中，所述预测信息用于指示所述目标对象在所述每个对象区域图像中的位置、形状和旋转角度；

步骤S203，对所述预测信息进行平滑处理，得到平滑信息；

步骤S204，使用所述平滑信息创建所述目标对象的对象模型。

通过上述步骤S201至步骤S204，采用对多个视频帧进行对象检测，得到多个对象区域图像，其中，多个对象区域图像与多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；从多个对象区域图像中提取预测信息，其中，预测信息用于指示目标对象在每个对象区域图像中的位置、形状和旋转角度；对预测信息进行平滑处理，得到平滑信息；使用平滑信息创建目标对象的对象模型的方式，通过对象检测过程检测出目标对象所在的对象区域图像，从对象区域图像中提取出目标对象的位置、形状和旋转角度等信息作为预测信息，对预测信息进行平滑处理得到平滑信息，使用平滑信息创建对象模型，达到了降低对象模型创建的过程中目标对象在位置、形状和旋转角度上的抖动的目的，从而实现了提高对视频对象进行重建的准确度的技术效果，进而解决了对视频对象进行重建的准确度较低的技术问题。

在步骤S201提供的技术方案中，上述目标对象可以但不限于包括任何需要进行模型重建的对象。比如：人体、动植物、物品、交通工具、建筑物等等。

可选地，在本实施例中，对象区域图像是所对应的视频帧中目标对象所在区域的图像。对象区域图像可以但不限于对目标对象进行抠图得到，或者也可以是使用特定形状特定尺寸的边框将目标对象框在边框内得到的图像，也可以是使用与目标对象适应的形状适应的尺寸的边框将目标对象框在边框内得到的图像。

在步骤S202提供的技术方案中，预测信息用于指示目标对象在每个对象区域图像中的位置、形状和旋转角度。预测信息能够用于指示目标对象在每个对象区域图像中的特征。

在步骤S203提供的技术方案中，通过预测信息能够预测出目标对象在整个视频中在位置、形状和旋转角度方面的抖动情况，从而通过平滑处理的过程对目标对象在位置、形状和旋转角度上的抖动进行消除。

在步骤S204提供的技术方案中，可以但不限于使用各种类型的重建模型对目标对象的对象模型进行创建。比如：SMPL模型对人体对象进行模型的重建。

作为一种可选的实施例，从所述多个对象区域图像中提取预测信息包括：从所述多个对象区域图像中提取预测位置信息，预测形状信息和预测旋转信息，其中，所述预测位置信息用于指示所述目标对象在所述多个对象区域图像中每个对象区域图像上的位置，所述预测形状信息用于指示所述目标对象在所述每个对象区域图像上的形状，所述预测旋转信息用于指示所述目标对象在所述每个对象区域图像上的旋转角度；

可选地，在本实施例中，预测信息可以但不限于包括预测位置信息，预测形状信息和预测旋转信息。预测位置信息用于指示目标对象在多个对象区域图像中每个对象区域图像上的位置，预测形状信息用于指示目标对象在每个对象区域图像上的形状，预测旋转信息用于指示目标对象在每个对象区域图像上的旋转角度。

可选地，在本实施例中，在平滑处理分别对预测位置信息，预测形状信息和预测旋转信息进行平滑处理，从而分别消除位置、形状和旋转角度上的抖动。

通过上述过程，预测信息可以包括预测位置信息，预测形状信息和预测旋转信息等，分别对预测位置信息，预测形状信息和预测旋转信息进行平滑处理能够分别消除对象在位置、形状和旋转信息上的抖动，从而提高对视频对象进行重建的准确度。

作为一种可选的实施例，从所述多个对象区域图像中提取预测位置信息，所述预测形状信息和所述预测旋转信息包括：

S11，将所述多个对象区域图像输入3D重建网络；

S12，获取所述3D重建网络输出的多个预测姿态信息矩阵，多个预测形状信息矩阵，多个预测镜头信息，其中，所述预测位置信息包括所述多个预测镜头信息，所述预测形状信息包括所述多个预测形状信息矩阵，所述预测旋转信息包括所述多个预测姿态信息矩阵。

可选地，在本实施例中，可以但不限于通过3D重建网络对预测信息进行提取，预测位置信息可以但不限于包括多个预测镜头信息，预测形状信息可以但不限于包括多个预测形状信息矩阵，预测旋转信息可以但不限于包括多个预测姿态信息矩阵。

例如：通过3D重建网络可以获得人体信息，包括：预测姿态信息矩阵P(24×3维)、预测形状信息矩阵S(1×10维)、预测镜头信息(1×3维，包括人体缩放系数s_b、人体x轴位移o_x、人体y轴位移o_y)。

通过上述过程，通过3D重建网络获取个预测姿态信息矩阵，多个预测形状信息矩阵，多个预测镜头信息等预测信息，获取的信息更加准确，更加丰富。信息获取的过程也能够更加便捷迅速，从而提高了对视频对象进行重建的效率。使用准确度更高的内容更加丰富的信息进行视频对象的重建，能够进一步提高对视频对象进行重建的准确度。

作为一种可选的实施例，对所述预测位置信息进行平滑处理，得到所述平滑位置信息包括：

S21，获取对象X轴位移信息和对象Y轴位移信息，其中，所述预测位置信息包括所述对象X轴位移信息和所述对象Y轴位移信息，所述对象X轴位移信息用于指示所述目标对象相对于所述对象区域图像在X轴方向上的位移，所述对象Y轴位移信息用于指示所述目标对象相对于所述对象区域图像在Y轴方向上的位移；

S22，分别将所述对象X轴位移信息和所述对象Y轴位移信息映射到所述视频帧，得到对象X轴映射信息和对象Y轴映射信息，其中，所述对象X轴映射信息用于指示所述目标对象相对于所述视频帧在X轴方向上的位移，所述对象Y轴映射信息用于指示所述目标对象相对于所述视频帧在Y轴方向上的位移；

S23，分别对所述对象X轴映射信息和所述对象Y轴映射信息进行平滑处理，得到所述平滑位置信息。

可选地，在本实施例中，对位置信息的平滑过程在X轴和Y轴分别进行。在进行平滑处理之前，首先将相对于对象区域图像的数据映射到输入的视频帧图像上，再使用相对于视频帧图像的数据进行平滑处理。

例如：在计算重建人体的空间位置的过程中，首先网络输出的人体x轴位移人体y轴位移/>都是相对于人体图像的，可以但不限于采用以下公式将其映射到输入图片。

映射后人体x轴位移

映射后人体y轴位移

其中，视频帧图像为(w_i×h_i×3)，人体图像为(w_c×h_c×3)，获得的n个视频帧图像中第k个图像缩放系数第k个人体开始坐标/>第k个人体结束坐标/>第k个人体图像分辨率/>

再对预测重建人体的空间位置的平滑中，分别对和/>进行平滑。

通过上述过程，对预测位置信息分别进行基于X轴的平滑处理以及基于Y轴的平滑处理，处理精度更高，能够更加准确地消除对象在位置上的抖动，使得平滑处理后得到的平滑位置信息更加准确，更加能够体现出对象在视频中的真实位置，从而提高对视频对象进行重建的准确度。

作为一种可选的实施例，对所述预测形状信息进行平滑处理，得到平滑形状信息包括：

S31，获取n个视频帧中每个视频帧的预测形状信息矩阵S^k，得到预测形状信息总矩阵Sⁿ，其中，所述预测形状信息包括n个所述预测形状信息矩阵S^k，k表示所述每个视频帧，所述预测形状信息矩阵S^k为1×a维的矩阵，a为正整数，所述预测形状信息总矩阵Sⁿ为n×a维的矩阵；

S32，对所述预测形状信息总矩阵Sⁿ按照每一维进行拆分，得到a个n维向量；

S33，对所述a个n维向量中的每个n维向量，剔除所述每个n维向量中的m个最大值和m个最小值得到a个n-2m维向量，其中，2m<n；

S34，对所述a个n-2m维向量中的每个n-2m维向量取平均值，得到1个a维向量作为所述平滑形状信息。

可选地，在本实施例中，在对预测形状信息矩阵S的平滑过程中，因为处理的是视频中的同一个对象，所以对象的形状参数按道理来说应该是一直不变的，但因为模型的精度导致形状参数一直发生变化，所以要做平滑处理。

例如：预测形状信息矩阵S^k是一个1×10维的矩阵，待平滑共有n帧，那么可以得到一个n×10维的矩阵，按照每一维进行拆分，获得10个n维的向量，分别对这10个n维向量进行处理，每个向量中的元素进行排序，剔除m个最大值，m个最小值，剩下的取平均值即为当前位置的形状参数。其中2*m<n。

通过上述过程，对于预测形状信息矩阵，按照维度分别进行数据的平滑处理，平滑过程更加精细，处理维度更加丰富，能够提高对于对象形状的抖动进行平滑处理的准确度，从而有效消除对象的形状抖动。

作为一种可选的实施例，对所述预测旋转信息进行平滑处理，得到平滑旋转信息包括：

S41，获取预测姿态信息矩阵P^L和部位连接关系，其中，所述预测姿态信息矩阵P^L包括b个子矩阵，b为正整数，所述b个子矩阵中每个子矩阵与所述目标对象的b个部位中的每个部位一一对应，所述部位连接关系用于指示所述b个部位之间的从属关系，所述b个子矩阵中每个子矩阵为所述每个部位的局部角度表示；

S42，将所述每个部位的局部角度表示转换为所述每个部位的全局角度表示，得到全局角度表示矩阵P^G，其中，在所述从属关系中的子节点的全局角度表示为所述子节点的局部角度表示与所述子节点的父节点的全局角度表示的乘积；

S43，对所述全局角度表示矩阵P^G所包括的每个数据进行平滑处理，得到所述平滑旋转信息。

可选地，在本实施例中，目标对象可以包括多个部位，比如：以人体为例，可以设定每个关节为一个部位，图3是根据本申请实施例的人体部位连接关系的示意图，如图3所示，人体关节点的表示可以表示成一个树状图，以“Pelvis”节点为根节点依次连接得到连接关系，如：手肘节点是手腕节点的父节点，人体的节点数为24，因此上述b为24。人体的预测姿态信息矩阵P(24×3维)是关节的轴角(Axis-Angle)，并且是Local的表示方法。

在一个可选的实施方式中，需要将Local的角度表示转为Global的角度表示，可以通过两种方式进行转换，比如：计算“L_Knee”的Global角度表示，那么可以将该节点的旋转矩阵乘上它到“Pelvis”之间节点的旋转矩阵即可。

或者将该点的旋转矩阵乘以其父节点的全局旋转矩阵。

经过上述方式，可以获得24个节点的全局旋转信息，也就是24×3×3的矩阵，采用单通道的平滑方式，即对24×3×3＝216个数据分别进行平滑操作。

通过上述过程，按照对象的部位之间的连接关系构造对象的全局角度表示矩阵，并对全局角度表示矩阵中的每个数据分别进行平滑处理，能够提高平滑处理的精度，从而更加精确地消除对象在旋转角度上的抖动，提高对视频对象进行重建的准确度。

作为一种可选的实施例，对所述多个视频帧进行对象检测，得到所述多个对象区域图像包括：

S51，将所述多个视频帧输入对象检测网络；

S52，获取所述对象检测网络输出的所述多个视频帧中每个视频帧对应的Crop参数，其中，所述Crop参数包括：图像缩放系数，对象开始坐标，对象结束坐标和对象图像分辨率；

S53，使用所述每个视频帧对应的Crop参数对所述每个视频帧中包括的所述目标对象进行定位，得到所述多个对象区域图像。

可选地，在本实施例中，在人体重建的过程中，可以利用人体检测网络获取Crop参数，并通过Crop参数获得人体区域图像。Crop参数包括：图像缩放系数s_i、开始坐标p_s＝(p_s-x,p_s-y)、结束坐标p_e＝(p_e-x,p_e-y)、人体图像分辨率r_b。

通过上述过程，从对象检测网络中获取每个视频帧对应的Crop参数，使用每个视频帧对应的Crop参数对目标对象在视频帧中的位置进行定位，能够使得定位过程更加地快速，定位准确度更高，节省视频帧的处理时间，从而提高目标对象重建的效率。

作为一种可选的实施例，在对多个视频帧进行对象检测，得到多个对象区域图像之前，所述方法还包括：

S61，获取待处理的视频流或者视频文件；

S62，在获取到所述视频流的情况下，从所述视频流中提取第一时间长度的视频帧作为所述多个视频帧；

S63，在获取到所述视频文件的情况下，将所述视频文件中每隔第二时间长度的视频帧确定为所述多个视频帧。

可选地，在本实施例中，对于预测形状信息矩阵S的平滑过程，在线和离线的场景可以但不限于采用不同的处理方式，对于在线实时的直播场景，先采集T秒，获得30*T帧的图像(假定摄像头FPS为30)，通过这30*T帧的图像推理出来的30*T个预测形状信息矩阵S^k进行平滑，平滑结果应用于后续人体重建。(后面就不需要对形状信息矩阵S^k进行推理，减少计算量，对实时应用帮助很大)。对于离线视频的处理场景，精度要求比较高，因为没有实时的要求，因此可以对所有视频帧进行平滑。

通过上述过程，对于实时传输的视频流，从视频流中提取第一时间长度的视频帧进行平滑处理，并能够将平滑处理的结果应用到后续的视频流中，从而保证了视频流的实时性。对于视频文件，每个一定时间提取多个视频帧进行平滑处理，能够使得平滑处理的结果应用到与其关联性更高的视频帧上，从而能够更加有效地提高对象重建的准确度。

作为一种可选的实施例，对所述预测信息进行平滑处理，得到所述平滑信息包括：

S71，从所述预测信息中获取目标时序数据以及所述目标时序数据对应的关联数据序列，其中，所述关联数据序列包括所述目标时序数据和与所述目标时序数据具有时序关系的关联数据；

S72，确定所述关联数据序列中每个数据所对应的平滑权重，其中，所述平滑权重用于指示所述每个数据与所述目标时序数据之间的差异度和所述每个数据与所述目标时序数据之间的距离对所述目标时序数据的相关度；

S73，根据所述平滑权重和所述关联数据序列确定所述目标时序数据对应的平滑数据。

可选地，上述时序数据的平滑处理过程可以但不限于应用于关键点稳定算法，比如：人脸关键点、人体关键点的稳定性，可用于美颜，上装，贴纸等应用。还可以应用于虚拟人物驱动算法，用于人体重建算法的平滑。以及其他时序数据的平滑场景中。

可选地，在本实施例中，与目标时序数据具有时序关系的关联数据可以但不限于为历史数据，或者也可以但不限于为历史数据和未来数据。

可选地，在本实施例中，目标时序数据可以但不限于包括各种类型的具有时序关系的数据，比如：视频数据，音频数据等等。

可选地，在本实施例中，平滑权重用于指示每个数据与目标时序数据之间的差异度和每个数据与目标时序数据之间的距离对目标时序数据的相关度。该差异度可以但不限于称为速度，可以用于表示数据的变化速度。

通过上述过程，对时序数据进行平滑处理，能够消除时序数据的抖动，通过用于指示数据之间差异度和距离的平滑权重，将当前待平滑数据结合历史和将来的数据综合计算，可使平滑结果更加准确，从而提高了对时序数据进行平滑处理后平滑处理结果的准确度。

作为一种可选的实施例，确定所述关联数据序列中每个数据所对应的平滑权重包括：

S81，根据所述每个数据与所述目标时序数据之间的差异度确定所述每个数据对应的速度权重，其中，所述每个数据与所述目标时序数据之间的差异度越大，所述每个数据对应的速度权重越小；

S82，根据所述每个数据与所述目标时序数据之间的距离以及所述关联数据序列的采样频率确定所述每个数据对应的距离权重，其中，所述每个数据与所述目标时序数据之间的距离越大，所述每个数据对应的距离权重越小；

S83，将所述速度权重和所述距离权重的乘积确定为所述每个数据对应的所述平滑权重。

可选地，在本实施例中，平滑权重可以但不限于包括速度权重和距离权重，速度权重用于表示数据之间的差异对当前的目标时序数据的影响，数据之间的差异度越大，数据对应的速度权重越小。距离权重用于表示数据之间的距离对目标时序数据的影响，数据之间的距离越大，数据对应的距离权重越小。平滑权重可以为速度权重和距离权重的乘积。

通过上述过程，以速度权重来衡量数据之间的差异对当前的目标时序数据的影响，以距离权重来衡量数据之间的距离对目标时序数据的影响，参考各维度对当前的目标时序数据的影响来确定平滑权重，使得平滑处理的过程参考的维度更加丰富，平滑处理的结果更加准确。

作为一种可选的实施例，根据所述每个数据与所述目标时序数据之间的差异度确定所述每个数据对应的速度权重包括：

S91，获取所述每个数据对应的速度和预设的速度阈值，其中，所述每个数据对应的速度用于指示所述每个数据与所述每个数据的相邻数据之间的差异度；

S92，根据所述每个数据对应的速度与所述预设的速度阈值之间的关系和所述相邻数据对应的速度权重确定所述每个数据对应的速度权重，其中，所述目标时序数据对应的速度权重为目标权重值。

可选地，在本实施例中，通过两个相邻数据之间的差异度作为每个数据对应的速度来衡量每个数据与目标时序数据之间的差异度，再根据每个数据的速度与所述预设的速度阈值之间的关系，还有相邻数据对应的速度权重来确定速度权重。

在一个可选的实施方式中，以非实时的时序数据文件为例，给定待平滑序列Z＝{z₁,z₂,z₃,…,z_l-1,z_l}，设定滑动窗口长度为2n+1，即关联数据的数量为2n，将给定待平滑序列中的每个数据依次作为目标时序数据，对于每个目标时序数据z_t可以得到滑动窗口内的数据为{z_t-n,z_t-n+1,z_t-n+2,…,z_t-1,z_t,z_t+1,…,z_t+n-2,z_t+n-1,z_t+n},其中，对于所述滑动数据序列中的每个滑动数据z_m，如果m＜1，则z_m＝z₁，如果m>l，则z_m＝z_l(即进行前后padding的处理)。

图4是根据本申请可选的实施方式的速度权重的确定过程的示意图一，如图4所示，以z_t为分界，当z_m中的m＜t时，速度v_m＝z_m+1-z_m，当z_m中的m>t时，速度v_m＝z_m-z_m-1。定义一种函数g(z)，当z>0，g(z)＝z，当z≤0，g(z)＝0。通过以下公式计算z_t-u对应的速度权重为计算z_t+u对应的速度权重为/>

其中u属于1～n，v_set为预设的速度阈值，s是预设速度因子系数，s为大于0的整数。

在本可选的实施方式中，不同于期望不变的时序数据，音视频等多媒体数据的时序数据一般都是会发生变化的，如果时序数据发生变化，等权重的求平均就不太适合。因此，在本实施方式中引入了速度的概念，当速度小的时候，可以认为数据是在期望值附近震荡，而速度较大的时候，认为期望值是真的在变化。因此根据速度可以确定出速度权重。

图5是根据本申请可选的实施方式的速度权重的确定过程的示意图二，如图5所示，在s＝1，v_set＝5的时候，的函数图像上横轴是速度，纵轴是函数的值，当速度为0的时候，值为1，当速度绝对值大于设定值v_set后，值为0。该函数的值可以直接作为速度权重，但是，比如在要平滑的是z_t，但是v_t-2速度已经大于设定值，所以上面的方程值为0，但是v_t-3速度小于设定值，上面方程值不为零，如果将方程的值作为权重显然不合理，因为t-2的时候速度大于设定值，判定发生运动，那么t-2左边的数据就不具有参考意义了，所以在速度权重公式中乘了上一个数据的速度权重，保证判定发生移动后，后面的数据不再加入平滑计算，即权重都为0。此外，s的值影响曲线的变化程度，对于s的设定可以根据任务的需求来确定，不同任务设置不同的s值，图6是根据本申请可选的实施方式的速度权重的确定过程的示意图三，如图6所示，当s＝10的时候，函数/>的曲线变化程度比s＝1时曲线的变化程度小。

通过上述过程，确定每个数据对应的速度与速度阈值之间的变化来确定数据是否发生运动，能够准确获取到数据对应的速度权重，并且将相邻数据是否运动的影响也加入到每个数据的速度权重确定过程中，能够提高所确定的速度权重的准确度。

作为一种可选的实施例，根据所述每个数据与所述目标时序数据之间的距离以及所述关联数据序列的采样频率确定所述每个数据对应的距离权重包括：

S101，确定预设的距离因子系数与所述采样频率之间的比值；

S102，将以所述比值为底数，所述每个数据与所述目标时序数据之间的距离为幂指数的计算结果确定为所述每个数据对应的距离权重。

可选地，在本实施例中，距离权重表示了数据离得远的点对当前数据的影响小，离得近的点对当前节点的影响大。

在上述可选的实施方式中，计算z_t-u对应的距离权重为计算z_t+u对应的距离权重为/>换种说法也就是计算z_O对应的距离权重为/>其中o为t-n到t+n的整数。r为距离因子系数，f为z的采样频率。

通过上述过程，实现了距离权重的确定过程，得到预设的距离因子系数与所述采样频率之间的比值，从而确定了一个固定的衡量距离权重的值为底数，以数据间的距离为幂指数，使得数据离得远的点对当前数据的影响小，离得近的点对当前节点的影响大，符合实际中数据的变化规律，使得得到的距离权重能够更加精确地体现出距离对数据之间的影响。

作为一种可选的实施例，获取所述目标时序数据以及所述目标时序数据对应的所述关联数据序列包括：

S111，在所述多个视频帧来自视频流的情况下，将所述视频流中当前待处理的视频帧的预测信息确定为所述目标时序数据，并将所述目标时序数据之前的第一长度的视频帧的预测信息确定为所述关联数据序列；

S112，在所述多个视频帧来自视频文件的情况下，将所述视频文件中当前待处理的视频帧的预测信息确定为所述目标时序数据，并将所述目标时序数据之前的第二长度的视频帧的预测信息和所述目标时序数据之后的第三长度的视频帧的预测信息确定为所述关联数据序列。

可选地，在本实施例中，如果对数据流进行平滑处理，则考虑当前数据和当前数据的历史数据对当前数据的影响。如果对数据文件进行平滑处理，则考虑当前数据、当前数据的历史数据和当前数据的未来数据对当前数据的影响。

通过上述过程，对于视频流等实时数据，考虑历史数据对其的影响对其进行平滑处理，对于视频文件等非实时的数据，考虑历史数据和未来数据对其的影响进行平滑处理，使得平滑处理过程更加符合实际要求，平滑处理结果更加准确。

作为一种可选的实施例，根据所述平滑权重和所述关联数据序列确定所述目标时序数据对应的平滑数据包括：

S121，在对数据流中的数据进行平滑处理的情况下，通过以下公式确定所述目标时序数据z_t对应的平滑数据

其中，w_i为所述平滑权重，n1为所述第一长度；

S122，在对数据文件中的数据进行平滑处理的情况下，通过以下公式确定所述目标时序数据z_t对应的平滑数据

其中，w_j为所述平滑权重，n2为所述第二长度，n3为所述第三长度。

可选地，在本实施例中，w_i可以为其中，/>为速度权重，/>为距离权重。w_j可以为/>其中，/>为速度权重，/>为距离权重。

本申请还提供了一种可选实施例，该可选实施例提供了一种视频人体重建平滑方法，该方法针对空间位置、关键节点旋转和人体形状的抖动问题，提供了不同的平滑方法，通过坐标系变换，时序信息处理等方法，完成了视频的时序重建信息的平滑，使重建人体的运动变得稳定连贯。图7是根据本申请实施例的一种视频人体重建平滑方法的示意图，如图7所示，获得一个待处理视频，拆帧获得n个连续的视频帧图像(w_i×h_i×3),这里用表示第k个图像。将上述n帧图像输入人体检测网络，获得了n个对应的Crop信息，其中第k个图像缩放系数/>第k个开始坐标/>第k个结束坐标/>第k个人体图像分辨率/>通过上述的Crop信息，对原图处理获得n个人体图像(w_c×h_c×3)，,这里用/>表示第k个图像。将上述n帧图像送入人体重建网络，获得n组人体信息，包括：预测姿态信息矩阵P^k、预测形状信息矩阵S^k、人体缩放系数/>人体x轴位移/>人体y轴位移/>获得上述变量后对其进行平滑处理，使用SMPL模型对平滑处理后的数据进行人体重建得到人体模型。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面，还提供了一种用于实施上述视频对象的重建方法的视频对象的重建装置。图8是根据本申请实施例的一种可选的视频对象的重建装置的示意图，如图8所示，该装置可以包括：

检测模块82，用于对多个视频帧进行对象检测，得到多个对象区域图像，其中，所述多个对象区域图像与所述多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；

第一提取模块84，用于从所述多个对象区域图像中提取预测信息，其中，所述预测信息用于指示所述目标对象在所述每个对象区域图像中的位置、形状和旋转角度；

平滑模块86，用于对所述预测信息进行平滑处理，得到平滑信息；

创建模块88，用于使用所述平滑信息创建所述目标对象的对象模型。

需要说明的是，该实施例中的检测模块82可以用于执行本申请实施例中的步骤S202，该实施例中的第一提取模块84可以用于执行本申请实施例中的步骤S204，该实施例中的平滑模块86可以用于执行本申请实施例中的步骤S206，该实施例中的创建模块88可以用于执行本申请实施例中的步骤S208。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，通过对象检测过程检测出目标对象所在的对象区域图像，从对象区域图像中提取出目标对象的位置、形状和旋转角度等信息作为预测信息，对预测信息进行平滑处理得到平滑信息，使用平滑信息创建对象模型，达到了降低对象模型创建的过程中目标对象在位置、形状和旋转角度上的抖动的目的，从而实现了提高对视频对象进行重建的准确度的技术效果，进而解决了对视频对象进行重建的准确度较低的技术问题。

作为一种可选的实施例，所述第一提取模块用于：从所述多个对象区域图像中提取预测位置信息，预测形状信息和预测旋转信息，其中，所述预测位置信息用于指示所述目标对象在所述多个对象区域图像中每个对象区域图像上的位置，所述预测形状信息用于指示所述目标对象在所述每个对象区域图像上的形状，所述预测旋转信息用于指示所述目标对象在所述每个对象区域图像上的旋转角度；

作为一种可选的实施例，所述第一提取模块用于包括：

将所述多个对象区域图像输入3D重建网络；

作为一种可选的实施例，所述平滑模块用于：

作为一种可选的实施例，所述检测模块用于：

将所述多个视频帧输入对象检测网络；

作为一种可选的实施例，所述装置还包括：

作为一种可选的实施例，所述平滑模块包括：

第二确定单元，用于根据所述平滑权重和所述目标时序数据确定所述目标时序数据对应的平滑数据。

作为一种可选的实施例，所述第一确定单元用于：

作为一种可选的实施例，所述获取单元用于：

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本申请实施例的另一个方面，还提供了一种用于实施上述视频对象的重建方法的服务器或终端。

图9是根据本申请实施例的一种终端的结构框图，如图9所示，该终端可以包括：一个或多个(图中仅示出一个)处理器901、存储器903、以及传输装置905，如图9所示，该终端还可以包括输入输出设备907。

其中，存储器903可用于存储软件程序以及模块，如本申请实施例中的视频对象的重建方法和装置对应的程序指令/模块，处理器901通过运行存储在存储器903内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频对象的重建方法。存储器903可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器903可进一步包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置905用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置905包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置905为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器903用于存储应用程序。

处理器901可以通过传输装置905调用存储器903存储的应用程序，以执行下述步骤：

S1，对多个视频帧进行对象检测，得到多个对象区域图像，其中，所述多个对象区域图像与所述多个视频帧一一对应，多个对象区域图像中的每个对象区域图像是所对应的视频帧中目标对象所在区域的图像；

S2，从所述多个对象区域图像中提取预测信息，其中，所述预测信息用于指示所述目标对象在所述每个对象区域图像中的位置、形状和旋转角度；

S3，对所述预测信息进行平滑处理，得到平滑信息；

S4，使用所述平滑信息创建所述目标对象的对象模型。

采用本申请实施例，提供了一种视频对象的重建的方案。通过对象检测过程检测出目标对象所在的对象区域图像，从对象区域图像中提取出目标对象的位置、形状和旋转角度等信息作为预测信息，对预测信息进行平滑处理得到平滑信息，使用平滑信息创建对象模型，达到了降低对象模型创建的过程中目标对象在位置、形状和旋转角度上的抖动的目的，从而实现了提高对视频对象进行重建的准确度的技术效果，进而解决了对视频对象进行重建的准确度较低的技术问题。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图9所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如，终端还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图9所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行视频对象的重建方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S3，对所述预测信息进行平滑处理，得到平滑信息；

S4，使用所述平滑信息创建所述目标对象的对象模型。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频对象的重建方法，其特征在于，包括：

对所述预测信息进行平滑处理，得到平滑信息；

使用所述平滑信息创建所述目标对象的对象模型；

其中，对所述预测信息进行平滑处理，得到平滑信息包括：分别对预测位置信息，预测形状信息和预测旋转信息进行平滑处理，得到平滑位置信息、平滑形状信息和平滑旋转信息；

对所述预测旋转信息进行平滑处理，得到平滑旋转信息包括：

2.根据权利要求1所述的方法，其特征在于，

从所述多个对象区域图像中提取预测信息包括：从所述多个对象区域图像中提取预测位置信息，预测形状信息和预测旋转信息，其中，所述预测位置信息用于指示所述目标对象在所述多个对象区域图像中每个对象区域图像上的位置，所述预测形状信息用于指示所述目标对象在所述每个对象区域图像上的形状，所述预测旋转信息用于指示所述目标对象在所述每个对象区域图像上的旋转角度。

3.根据权利要求2所述的方法，其特征在于，从所述多个对象区域图像中提取预测位置信息，所述预测形状信息和所述预测旋转信息包括：

将所述多个对象区域图像输入3D重建网络；

4.根据权利要求2所述的方法，其特征在于，对所述预测位置信息进行平滑处理，得到所述平滑位置信息包括：

5.根据权利要求2所述的方法，其特征在于，对所述预测形状信息进行平滑处理，得到平滑形状信息包括：

6.根据权利要求1所述的方法，其特征在于，对所述多个视频帧进行对象检测，得到所述多个对象区域图像包括：

将所述多个视频帧输入对象检测网络；

7.根据权利要求1所述的方法，其特征在于，在对多个视频帧进行对象检测，得到多个对象区域图像之前，所述方法还包括：

获取待处理的视频流或者视频文件；

8.根据权利要求1所述的方法，其特征在于，对所述预测信息进行平滑处理，得到所述平滑信息包括：

9.根据权利要求8所述的方法，其特征在于，确定所述关联数据序列中每个数据所对应的平滑权重包括：

10.根据权利要求8所述的方法，其特征在于，获取所述目标时序数据以及所述目标时序数据对应的所述关联数据序列包括：

11.一种视频对象的重建装置，其特征在于，包括：

创建模块，用于使用所述平滑信息创建所述目标对象的对象模型；

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至10任一项中所述的方法。

13.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至10任一项中所述的方法。