CN108876814B

CN108876814B - 一种生成姿态流图像的方法

Info

Publication number: CN108876814B
Application number: CN201810026862.XA
Authority: CN
Inventors: 曹汛; 李可; 朱昊
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2021-05-28
Anticipated expiration: 2038-01-11
Also published as: CN108876814A

Abstract

本发明公开了一种生成姿态流图像的方法，属于计算机视觉领域。该方法包括：(1)通过旋转三维人体模型和移动顶点，生成多视点多姿态的三维模型，再通过投影变换得到二维图像；(2)定义姿态流图像，生成姿态流；(3)用聚类算法将统计得到的姿态流向量进行聚类标注，得到标记映射表和标记图像；(4)将任意姿态图像和对应的标记图像作为训练数据，训练卷积神经网络；(5)使用标记映射表对卷积神经网络输出的标记图像进行解码，得到每个像素点上的姿态流向量，生成姿态流图像。本发明能够基于卷积神经网络生成姿态流图像，生成的姿态流图像可以应用于生成虚拟视点图像、生成虚拟姿态的人体图像、三维重建等。

Description

一种生成姿态流图像的方法

技术领域

本发明涉及计算机图形学领域，特别涉及一种基于深度神经网络的由任意姿态生成指定姿态的姿态流的方法。

背景技术

姿态流属于一种特殊的光流，针对以人为主体的图像而言，姿态流表示密集的像素位移，由基础姿态(模板姿态)指向特定姿态。将每个像素所处位置的姿态流赋值给当前像素，即构成姿态流图像。姿态流图像是一种表示人体姿态的载体，与其他姿态表示方法如骨架表示法、关节旋转角表示法不同，姿态流图像显式地描述出人体姿态信息，具有密集、准确、拓扑结构稳定的特征，因此在图形学领域具有广泛的应用价值，如应用于生成虚拟视点图像、虚拟姿态的人体图像、三维重建等。

近年来，虚拟视点生成技术得到了发展。给定一张输入图片，虚拟视点生成技术可以得到同一物体或同一场景在任意视点下的图像。虚拟视点生成技术的解决方法主要有两类：一种是基于几何结构的生成方法，另一种是基于学习的生成方法。基于几何结构的生成方法首先预测物体的3D结构，然后通过对输入图像中的像素进行变换进而得到结果。TaoChen,Zhe Zhu等人(3-sweep:Extracting editable objects from a single photo[J].ACM Transactions on Graphics(TOG),2013,32(6):195)提出了由单张图片提取物体的三维结构的方法。对提取得到的三维模型进行旋转便可以得到虚拟视点下的图像。机器学习的生成方法认为新视点下的图像合成是一个学习问题，该方法在训练阶段得到物体类别的参数模型，在测试阶段结合输入图片得到新视点下的图像。Tinghui Zhou,ShubhamTulsiani等人(View synthesis by appearance flow[C].European Conference onComputer Vision.Springer International Publishing,2016:286-301)使用卷积神经网络预测appearance flow，即表征输入图像中的哪些像素可以用来重建目标视点下的图像的二维坐标向量。Eunbyung Park,Jimei Yang等人(Transformation-grounded imagegeneration network for novel 3d view synthesis[J].arXiv preprint arXiv:1703.02921,2017)使用生成网络实现单张图片的虚拟视点生成，该方法首先推断输入图像和新视点图像的共同可见区域，然后将非共同可见区域作为图像填充问题解决。MaximTatarchenko,Alexey Dosovitskiy等人(Multi-view 3d models from single imageswith a convolutional network[C].European Conference on ComputerVision.Springer International Publishing,2016:322-337)提出的卷积神经网络可以由物体的单张图像得到任意视点下物体的RGB图和深度图，融合多个视点下的图像便可以得到物体的完整点云。除了通过学习完全重新生成新视点下的图像，图像的虚拟视点生成问题还可以通过从输入图像复制像素解决。基于机器学习的方法相对基于几何结构的生成方法已经凸显出巨大优势，但基于机器学习的方法仍难以处理具有复杂姿态的人体图片。这是由于人体图片的虚拟视点生成将同时涉及“视点变换”和“姿态变换”，神经网络难以同时处理这两种问题。姿态流图像的引入巧妙解决了姿态变换的问题，将上述两种问题分离，使得复杂姿态下人体图片的虚拟视点生成成为可能。

虚拟姿态图片生成是指将某个姿态下的人体图片转化为另一个姿态下图片的过程。由于目标的姿态包含三维空间中的位移和旋转，传统方法通常在恢复出目标三维模型后，在三维空间中将目标姿态改变，最后投影至二维平面生成图像。如Guo Kaiwen等人(Robust non-rigid motion tracking and surface reconstruction usingl0regularization[C].Proceedings of the IEEE International Conference onComputer Vision.2015:3083-3091)提出了使用深度图及骨架操纵三维模型对齐到虚拟姿态的方法，从而生成具有虚拟姿态的三维模型，该模型可进一步渲染出虚拟姿态下的模型图片。另一种生成虚拟姿态图像的方法是通过“光流”进行合成。光流是指图像亮度模式的表观运动，通常以二维速度矢量构成的图像，即“光流图”表示。传统的光流计算方法关注于多幅图像的计算方法，或者小尺度的运动位移，因此难以用于人体的虚拟姿态图片生成。

基于图片的三维重建一直是图形学和视觉方向的热门研究课题，该问题通过多个视点的二维图片恢复出目标的三维模型。由于二维图片难以完全表示出三维结构，高质量的三维重建依赖于先验知识的引入。常用的先验信息包括法向量、曼哈顿先验、几何结构先验等等，这些先验已经广泛应用于面部、城市建筑、室内场景等目标，但由于它们针对具有固定形状模式的物体，因此无法提升人体三维重建的效果。实验表明基于图片的重建算法在处理人体目标时仍然存在不稳定的问题。

发明内容

由于上述图形学和视觉技术的发展，姿态流图像的生成成为一个研究重点。本发明首次提出了一种基于深度神经网络的提取普通图像中姿态流图像的方法。

本发明采用的技术方案如下：

一种生成姿态流图像的方法，包括如下步骤：

S1，将待处理的三维人体模型通过骨架驱动进行姿态变换，生成多姿态的人体模型，并设定多个虚拟视点，分别渲染得到不同姿态和不同视点下的图片，其中，指定某一姿态为基准姿态Pose₀，其他姿态为任意姿态Pose_X；再通过投影变换得到多视点多姿态的二维图像；

S2，定义姿态流图像为

flow(Pose_X,[u,v])＝xyz2uv(uv2xyz(Pose₀,[u,v]))-[u,v]

其中uv2xyz(Pose₀,[u,v])为逆投影函数，得到在姿态Pose₀状态下图像中[u,v]像素点所对应的模型上的三维模型点，记为P，则xyz2uv(P)为投影函数，得到模型点P在姿态Pose_X状态下投影在图像上的图像坐标；flow(Pose_X,[u,v])描述的是三维模型上的一个点通过姿态变换规则，在不同姿态图像中图像坐标的改变量；而对于不同的姿态图像，相同图像坐标(u,v)对应的空间中的点，其空间坐标的改变是一个三维光流向量，这就是图像坐标(u,v)上像素点对应的姿态流向量；

S3，统计所有的姿态流向量，用聚类算法将统计得到的姿态流向量进行聚类标注，得到标记映射表和标记图像；

S4，将人工生成的随机姿态图像和对应的标记图像作为训练数据，训练神经网络，其中，姿态图像作为神经网络的输入，对应的标记图像作为真值标记；通过反复训练得到具有精确预测标记图像预测能力的深度神经网络；

S5，使用所述标记映射表对卷积神经网络输出的标记图像进行解码，得到每个像素点上的姿态流向量，生成姿态流图像。

本发明提出了描述人体运动姿态的光流方法，即姿态流图像，由于姿态流图像具有密集的三维光流，能够描述任意状态下人体的姿态特征，因此可以跳过逆投影和投影的过程，将姿态转换的处理效率大幅度提升。同时，本发明提出的姿态流图像弥补了人体三维重建先验方面的缺失，这是由于姿态流反应了三维空间中人体部位的姿态变化，对骨架型目标具有很稳定的约束性。而姿态流图像包含逐个像素的姿态运动向量，是具有重要意义的先验信息。因此，本发明提出的姿态流图像生成方法将有助于提升针对人体的三维重建精度和鲁棒性，生成的姿态流图像可以应用于生成虚拟视点图像、生成虚拟姿态的人体图像、三维重建等。

附图说明

图1为本发明生成姿态流图像方法的流程图；

图2为本发明实施例中卷积神经网络的结构，其中k表示卷积层的卷积核大小(kernel size)，s表示采样步长(stride)；

图3为本发明实施例中的测试图像的输出结果；(a)输入图像，(b)每个像素上的姿态流，(c)解码后的姿态流图像，(d)对应的基准姿态。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过卷积神经网络得到姿态流图像，并用其将任意姿态图像变换成基准姿态图像，这是姿态流图像的应用方向之一。具体步骤如下：

(1)多姿态多视点图像生成：通过旋转三维人体模型和移动顶点，生成多视点多姿态的三维模型，再投影得到二维图像。

对于同一视点下的模型，通过移动顶点实现姿态的变化，通过旋转矩阵实现视点的变化。一个固定姿态的人体模型进行竖直方向旋转变换可以通过旋转矩阵得到。对于一个三维空间的点P(x,y,z)，以

为轴做θ角旋转的旋转矩阵写为，

要将其绕Z轴旋转θ角度可以用旋转矩阵R_z(θ)表示。其中

通过旋转矩阵便可以旋转三维模型至任意一个角度。

(2)定义姿态流：姿态流可以认为是从模板姿态到任意姿态的运动矢量。模板姿态是固定的作为基准的姿态，通常选择T姿态，即人体立正、双臂伸直至水平状态作为基准姿态，记为Pose₀。任意姿态是输入图片中对应的姿态，记为Pose_X。姿态流图像可表示为：

flow(Pose_X,[u,v])＝xyz2uv(uv2xyz(Pose₀,[u,v]))-[u,v]

其中uv2xyz(Pose₀,[u,v])为逆投影函数，得到在姿态Pose₀状态下图像中[u,v]像素点所对应的模型上的三维点P，xyz2uv(P)为投影函数，得到模型点P在姿态Pose_X状态下投影在图像上的像素坐标。

由基准姿态Pose₀变为任意姿态Pose_X，对于相同图像坐标(u,v)对应的空间中的点，其空间坐标的改变是一个三维光流向量，即uv2xyz(Pose_X,[u,v])-uv2xyz(Pose₀,[u,v])，这就是(u,v)上像素点对应的姿态流。姿态流的物理意义是指将基准姿态图像image(Pose₀)上的像素到任意姿态图像image(Pose_X)中对应像素的空间位移，它表征了基准姿态和任意姿态图像中同一图像坐标对应的空间中的点的坐标改变。姿态流图像的图像坐标与任意姿态Pose_X下的图片的图像坐标对应，每个像素包含浮点型三通道，分别对应u、v、d方向上对应点的空间位移。姿态流图像可以在二维图像中形象地表示三维姿态流向量，本发明姿态流的定义使得在二维图像中包含深度改变量等信息成为可能。

根据三维模型的顶点移动规则，uv2xyz(Pose₀,[u,v])和uv2xyz(Pose_X,[u,v])都可以唯一确定。对于image(Pose_X)，每个图像坐标上都对应着唯一的姿态流。因为空间坐标是连续的三维向量，所以姿态流向量的所在空间也是连续的三维空间，因此理论上，姿态流的预测是一个回归问题。但是这种处理方式的得到的是连续的输出空间，使得预测问题非常复杂，且往往会平滑结果。所以，本发明将这一回归问题作为分类问题处理。

(3)姿态流聚类与图像标记：统计所有光流向量，用k-means聚类将所有向量进行标记，得到标记映射表(code book)和标记图像(label image)。标记映射表的每行是一个三维向量，为一个聚类中心，对应一个量化后的姿态流。标记图像即在每个像素点上利用标记映射表将该像素点对应的姿态流进行标记后，将该标记信息包含在图像中。对于一幅图像，将每个像素上的对应的姿态流进行标记，得到每个像素点对应的聚类中心的行号，将行号标记到图像中，得到标记图像(label image)。

(4)将姿态流生成问题转化为“图像到图像”的预测问题，具体预测方案采用训练深度神经网络的方式完成：将image(Pose_X)和对应的标记图像作为训练数据训练神经网络。image(Pose_X)作为神经网络的输入，标记图像作为真值优化网络参数。image(Pose_X)作为输入图像，可以是灰度图像，RGB图像，也可扩展为多通道光谱图像。

(5)解码生成姿态流图像：通过标记映射表对标记图像进行解码，得到姿态流图像。在解码过程中根据标记预测的概率拟合得到连续性的姿态流图像。

实施例

本实施例生成姿态流图像的方法具体如下：

1)通过移动顶点得到三维人体模型的10000个不同姿态，再通过18个旋转矩阵和投影变换得到这10000个姿态在18个视点下分辨率为200×200的二维图像，共180000张。

2)通过姿态改变时顶点的移动规则得到每张图像每个像素点上的姿态流向量。统计所有图像所有像素点上的姿态流向量，共七千两百万个姿态流向量。设置800个聚类中心，使用k-means算法将所有的光流向量进行聚类，得到一个维度为800×3的标记映射表。其中，标记映射表的每一行是一个聚类中心，为一个三维姿态流向量。计算图像像素点上对应姿态流向量所属的聚类中心，将对应的标记映射表的行号编入图像，形成标记图像。

3)将任意姿态图像输入神经网络，对应的标记图像作为真值优化网络参数。卷积神经网络包含的层结构如下：输入层，卷积层，激励层(ReLU)，局部相应归一化层(LRN)，池化层，全连接层，解卷积层。主要参数设置参见图2。其中k表示卷积核大小，s表示步长，即卷积核在输入图片上每次移动的像素个数，步长的默认设置是(1,1)。

4)为了在同一视点下将任意姿态图像变换成基准姿态图像，对卷积神经网络输出的标记图像解码，得到每个像素点上的姿态流向量。对该三维向量进行运算，得到每个像素点图像坐标的改变量。根据该改变量移动任意姿态图像的像素，得到基准姿态图像，如图3所示。

Claims

1.一种生成姿态流图像的方法，其特征在于，包括如下步骤：

S2，定义姿态流图像为

flow(Pose_X,[u,v])＝xyz2uv(uv2xyz(Pose₀,[u,v]))-[u,v]

2.根据权利要求1所述的一种生成姿态流图像的方法，其特征在于，所述步骤S1中，对于同一视点下的模型，通过移动顶点实现姿态的变化，通过旋转矩阵实现视点的变化。

3.根据权利要求1所述的一种生成姿态流图像的方法，其特征在于，所述步骤S3中，标记映射表的每行是一个三维向量，为一个聚类中心，对应一个量化后的姿态流；将图像每个像素上的对应的姿态流进行标记，得到每个像素点对应的聚类中心的行号，将行号标记到图像中，得到标记图像。

4.根据权利要求1所述的一种生成姿态流图像的方法，其特征在于，所述步骤S4中，训练神经网络的过程中，采用前向传播和后向传播不断减小误差变量，优化网络参数。

5.根据权利要求1所述的一种生成姿态流图像的方法，其特征在于，所述步骤S5中，在解码过程中根据标记预测的概率拟合得到连续性的姿态流图像。