CN116051722A

CN116051722A - 三维头部模型重建方法、装置及终端

Info

Publication number: CN116051722A
Application number: CN202210835499.2A
Authority: CN
Inventors: 张进; 俞济洋; 刘金根; 张炜; 王苏君
Original assignee: China Mobile Communications Group Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2023-05-02

Abstract

本发明提供了一种三维头部模型重建方法、装置及终端，属于三维建模技术领域，方法包括：获取目标视频数据，目标视频数据是围绕人物头部拍摄得到的视频；针对目标视频数据中的视频帧图像，获得视频帧图像对应的三维点云和相机位姿信息；基于初始三维头部模型，根据三维点云和相机位姿信息，确定三维头部模型的位置信息，位置信息包括人脸特征点的位置信息；根据三维点云、相机位姿信息和三维头部模型的位置信息，对三维头部模型进行调整，获得目标三维头部模型；根据相机位姿信息以及目标纹理生成模型，对目标三维头部模型进行纹理渲染。本发明实施例中，无需复杂的硬件设备或特殊环境的场地，建模过程较为简单，能够削减三维头部模型重建的成本。

Description

三维头部模型重建方法、装置及终端

技术领域

本发明涉及三维建模技术领域，尤其涉及一种三维头部模型重建方法、装置及终端。

背景技术

现有的三维人脸模型重建的方式主要包括基于激光或结构光的三维扫描或基于多视角图像的三维重建，然而，这些方式需要复杂的硬件设备和严格控制环境的场地以达到较高的精度，耗时长、速度慢且成本极高，难以用于面向普通用户的应用。

发明内容

本发明提供一种三维头部模型重建方法、装置及终端，解决了现有技术中重建三维人脸模型的方式成本较高的问题。

为解决上述技术问题，第一方面，本发明提供一种三维头部模型重建方法，包括：

获取目标视频数据，所述目标视频数据是围绕人物头部拍摄得到的视频；

针对所述目标视频数据中的视频帧图像，获得所述视频帧图像对应的三维点云和相机位姿信息；

基于初始三维头部模型，根据所述三维点云和所述相机位姿信息，确定所述三维头部模型的位置信息，所述位置信息包括人脸特征点的位置信息；

根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型进行调整，获得目标三维头部模型；

根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染。

可选地，所述针对所述目标视频数据中的视频帧图像，获得所述视频帧图像对应的三维点云和相机位姿信息，包括：

利用SURF(Speeded Up Robust Features，加速稳健特征)算法，对所述视频帧图像进行检测，获得所述视频帧图像的特征点；

利用KLT(Kanade-Lucas-Tomasi Tracking，角点跟踪)算法，对所述视频帧图像的特征点进行修正；

根据相邻两帧图像之间的特征点匹配关系，估算所述视频帧图像对应的特征点三维位置和三维相机位姿信息；

根据所述特征点三维位置和所述三维相机位姿信息，获得所述视频帧图像对应的所述三维点云和所述相机位姿信息。

可选地，所述利用角点跟踪KLT算法，对所述视频帧图像的特征点进行修正，包括：

利用KLT算法，获得所述视频帧图像与第二目标图像之间相匹配的第一特征点，其中，所述第二目标图像是所述视频帧图像的下一帧图像；

根据所述第二目标图像中除所述第一特征点之外的特征点，修正所述视频帧图像的特征点。

可选地，所述根据所述三维点云和所述相机位姿信息，确定所述三维头部模型的位置信息，包括：

根据所述三维点云和所述相机位姿信息，确定所述三维头部模型上的人脸特征点经相机投影后得到的二维人脸特征点；

对所述二维人脸特征点与目标二维人脸特征点进行匹配，获得所述三维头部模型的位置信息；

其中，所述目标二维人脸特征点为从所述视频帧图像中检测到的二维人脸特征点。

可选地，所述根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型进行调整，获得目标三维头部模型，包括：

根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型的形状和表情进行调整，获得所述目标三维头部模型的目标形状和目标表情；

使用几何优化算法，对所述三维头部模型的顶点和所述三维点云进行匹配，调整所述三维头部模型的位置信息，使得所述三维头部模型的顶点和匹配后的所述三维点云之间的点面距离最小，获得所述目标三维头部模型的目标位置信息。

可选地，所述根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染，包括：

根据所三维点云，生成隐空间向量；

将所述隐空间向量输入至所述目标纹理生成模型中，获得第一纹理图像；

根据所述相机位姿信息，得到所述第一纹理图像经相机投影后的目标纹理图像；

利用所述目标纹理图像，在所述目标三维头部模型上进行纹理渲染。

可选地，在所述根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染之前，所述方法还包括：

获取训练数据集，所述训练数据集包括人脸图像；

利用所述训练数据集，对纹理生成网络模型进行训练，得到所述目标纹理生成模型。

可选地，所述利用所述训练数据集，对纹理生成网络模型进行训练，包括：

根据所述训练数据集中的第一人脸图像对应的三维点云，生成满足高斯分布的隐空间向量；

将所述隐空间向量输入至所述纹理生成网络模型的生成器中，获得二维图像；

将所述二维图像作为纹理，在一个三维人脸模型上进行渲染，获得第二人脸图像；

将所述第一人脸图像和所述第二人脸图像分别输入至所述纹理生成网络模型的判别器中，获得判别结果；

根据所述判别结果，修正所述生成器和所述判别器的参数；

重复执行上述步骤，直至所述生成器和所述判别器的参数收敛。

第二方面，本发明还提供一种三维头部模型重建装置，包括：

数据获取模块，用于获取目标视频数据，所述目标视频数据是围绕人物头部拍摄得到的视频；

第一处理模块，用于针对所述目标视频数据中的视频帧图像，获得所述视频帧图像对应的三维点云和相机位姿信息；

第二处理模块，用于基于初始三维头部模型，根据所述三维点云和所述相机位姿信息，确定所述三维头部模型的位置信息，所述位置信息包括人脸特征点的位置信息；

第三处理模块，用于根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型进行调整，获得目标三维头部模型；

渲染模块，用于根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染。

第三方面，本发明还提供一种终端，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述方法中的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如第一方面或者第一方面所述方法中的步骤。

本发明的上述技术方案的有益效果如下：

本发明的实施例，围绕人物头部拍摄视频，通过对视频中的图像进行分析处理，能够得到图像对应的三维点云和相机位姿等信息，从而利用这些信息对初始三维头部模型进行调整，实现重建人物三维头部模型，该方案无需复杂的硬件设备或特殊环境的场地，建模过程较为简单，能够削减三维头部模型的建模成本，有效地提高了人脸渲染的拟真度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的三维头部模型重建方法的流程图；

图2是本发明实施例提供的三维头部模型重建装置的结构框图；

图3是本发明实施例提供的终端的硬件结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。在下面的描述中，提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本发明的实施例。因此，本领域技术人员应该清楚，可以对这里描述的实施例进行各种改变和修改而不脱离本发明的范围和精神。另外，为了清楚和简洁，省略了对已知功能和构造的描述。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

在本发明的各种实施例中，应理解，下述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。另外，本文中术语“系统”和“网络”在本文中常可互换使用。

在本申请所提供的实施例中，应理解，“与A相应的B”表示B与A相关联，根据A可以确定B。但还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本发明实施例中，用户终端可以是移动电话(或手机)，或者其他能够发送或接收无线信号的设备，包括用户设备、个人数字助理(PDA)、无线调制解调器、无线通信装置、手持装置、膝上型计算机、无绳电话、无线本地回路(WLL)站、能够将移动信号转换为WiFi信号的CPE(Customer Premise Equipment，客户终端)或移动智能热点、智能家电、或其他不通过人的操作就能自发与移动通信网络通信的设备等。

通常，在面向消费者的应用中(如虚拟人、游戏建模等场景)，需要低成本、高保真度的三维人脸重建方式，而现有的三维人脸模型重建的方式耗时长、速度慢且成本高，因此，在5G用户应用蓬勃发展的当下，亟需一种成本低、速度快且操作简单的三维头部模型重建方案。

请参阅图1，图1为本发明实施例提供的一种三维头部模型重建方法的流程示意图，该方法包括以下步骤：

步骤11，获取目标视频数据，所述目标视频数据是围绕人物头部拍摄得到的视频。

这里，可以利用相机进行拍摄，其中，相机可以是手机摄像头、平板摄像头或者其他可以拍摄视频的任意相机。例如，可以使用手机围绕一个静止的人的头部进行拍摄，得到目标视频数据(例如RGB视频)。

步骤12，针对所述目标视频数据中的视频帧图像，获得所述视频帧图像对应的三维点云和相机位姿信息。

需要说明的是，目标视频数据可视作一系列连续的图像，视频帧图像为目标视频数据中的任意一帧图像。可以理解的是，由于目标视频数据是围绕人物头部拍摄得到的视频，因此，目标视频数据可以提供多视角的RGB图像。

步骤13，基于初始三维头部模型，根据所述三维点云和所述相机位姿信息，确定所述三维头部模型的位置信息，所述位置信息包括人脸特征点的位置信息。

需要说明的是，这里的初始三维头部模型可以采用人类平均的三维头部模型。

步骤14，根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型进行调整，获得目标三维头部模型。

这里，基于一个人类平均的三维头部模型，在其基础上根据由目标视频数据处理得到的三维点云等信息对其进行调整，以使目标三维头部模型的形状等特征更接近目标视频数据中的人物头部。

需要说明的是，现有技术中的人脸重建方案，速度很慢且成本极高。而本发明实施例中，通过上述步骤，只需基于普通相机(例如智能手机的摄像头)拍摄的视频即可重建完整的人物三维头部，而不需要昂贵设备和场地的支持，削减了三维头部建模成本。

步骤15，根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染。

该步骤中，采用目标纹理生成模型对目标三维头部模型进行纹理渲染，有效地提高了人脸渲染的拟真度。

该实施例中，围绕人物头部拍摄视频，通过对视频中的图像进行分析处理，能够得到图像对应的三维点云和相机位姿等信息，从而利用这些信息对初始三维头部模型进行调整，实现重建人物三维头部模型，该方案无需复杂的硬件设备或特殊环境的场地，建模过程较为简单，能够削减三维头部模型的建模成本，有效地提高了人脸渲染的拟真度，可应用于虚拟人(例如虚拟客服、虚拟主播等)、游戏制作、电影制作等场景。

作为本发明一可选实施例，本发明所提供的三维头部模型重建方法可以由一系统执行，该系统主要包括：运动结构估计模块、全局位姿估计模块、形状和表情估计模块、纹理估计模块。其中，可以将目标视频数据输入系统，则系统可以输出具有真实纹理的三维头部模型，即目标三维头部模型。

需要说明的是，这里系统中的4个模块，可以理解为是4个有数据交互关系的模型(例如运动结构估计模块的输出数据可以作为全局位姿估计模块的部分或全部输入数据)，其中，每个模型可以对应一个学习算法，可以通过对模型分别进行训练，直至模型收敛。

作为本发明一可选实施例，该步骤12具体可以包括：

步骤1201，利用加速稳健特征SURF算法，对所述视频帧图像进行检测，获得所述视频帧图像的特征点。

该步骤中，可以采用SURF算法检测目标视频数据中的视频帧图像的特征点。

步骤1202，利用角点跟踪KLT算法，对所述视频帧图像的特征点进行修正。

具体的，该步骤1202具体可以包括：

利用KLT算法，获得所述视频帧图像与第二目标图像之间相匹配的第一特征点，其中，所述第二目标图像是所述视频帧图像的下一帧图像；根据所述第二目标图像中除所述第一特征点之外的特征点，修正所述视频帧图像的特征点。

例如，可以用第二目标图像中新出现的特征点(即第二目标图像中除所述第一特征点之外的特征点)补充至视频帧图像的特征点中，从而修正视频帧图像的特征点。

步骤1203，根据相邻两帧图像之间的特征点匹配关系，估算所述视频帧图像对应的特征点三维位置和三维相机位姿信息。

该步骤中，由于相邻两帧图像之间具有一定的运动变换关系，二者之间具有较多相同的特征点，因此可以利用三角投影关系，粗略估算帧间的三维相机位姿运动和特征点三维位置，得到视频帧图像对应的特征点三维位置和三维相机位姿信息。

步骤1204，根据所述特征点三维位置和所述三维相机位姿信息，获得所述视频帧图像对应的所述三维点云和所述相机位姿信息。

该实施例中，通过特征匹配，计算相机在每一帧的位姿(即相机位姿信息)和整个场景的三维点云，使得三维点云经相机投影后能够匹配图像(即视频帧图像)中检测到的二维特征点坐标(即视频帧图像的特征点)。换句话说，就是根据粗略估算的三维相机位姿和特征点三维位置，进行联合优化，使所有三维特征点坐标(即特征点三维位置)在相机的投影满足前级SURF算法中二维特征点的位置(即从视频帧图像检测到的特征点的位置，用v_i表示)。

需要说明的是，上述步骤12中的具体过程可由系统中的运动结构估计模块执行，该运动结构估计模块的主要功能是计算相机的位置(即三维相机位姿信息)，以及对场景的几何结构(即三维点云)进行粗略的估算。其中，该运动结构估计模块的输入为：RGB视频帧(即视频帧图像，用I表示)，该运动结构估计模块的输出为：三维点云和每一帧的相机位姿(也即视频帧图像对应的相机位姿信息，用P_t表示)。其中，该运动结构估计模块可以根据以下公式进行优化：

其中，L1表示运动结构估计模块的优化函数；P_t表示三维相机位姿；t表示当前帧序号；w_i表示特征点三维位置；i表示特征点序号；v_i表示二维特征点的位置；V_t表示帧t中出现的二维特征点集合；λ表示系数；T_i表示包含有特征点i的所有帧序号的集合；I_t为帧t对应的视频帧图像的向量表示；I_τ为帧t的下一帧图像的向量表示；P_τ表示帧t的下一帧图像对应的三维相机位姿。

本发明实施例中，能够使得所有三维特征点坐标(即特征点三维位置)的经相机投影后能够匹配图像(即视频帧图像)中检测到的二维特征点坐标，提高了准确度。

需要说明的是，目前业界常用的方案中，通常只使用特征点坐标的匹配，但受限于视频中特征点检测和追踪算法的准确性，容易导致相机位姿的计算误差大。而本发明实施例中的联合优化过程，利用三维相机位姿和特征点三维位置进行了联合优化，提高了准确度。

可选地，步骤13具体可以包括：

步骤1301，根据所述三维点云和所述相机位姿信息，确定所述三维头部模型上的人脸特征点经相机投影后得到的二维人脸特征点。

这里，对于人脸特征点的位置的定义遵循业界通用的68点人脸关键点定义。

步骤1302，对所述二维人脸特征点与目标二维人脸特征点进行匹配，获得所述三维头部模型的位置信息；其中，所述目标二维人脸特征点为从所述视频帧图像中检测到的二维人脸特征点。

该步骤中，通过计算三维头部模型的位置(即三维头部模型的位置信息)，使得三维头部模型上对应的68个人脸特征点经相机投影后能够匹配从视频帧图像中检测出的68个二维人脸特征点。

该实施例中，采用了一个人类平均的头部三维模型，其形状和表情可以分别通过两个一维向量进行修改。基于初始三维头部模型，根据目标视频数据进行一系列调整(例如表情、形状调整，皮肤问题渲染等)，最终能够得到目标三维头部模型。

该实施例中的步骤，可由系统中的全局位姿估计模块执行，该全局位姿估计模块的主要功能是计算三维头部模型的位置。其中，该全局位姿估计模块的输入为：RGB视频帧和每一帧的相机位姿，该全局位姿估计模块的输出为：三维头部模型的位置信息(例如一个4x4的矩阵，用T表示)。其中，该全局位姿估计模块可以根据以下公式进行优化：

其中，L2表示全局位姿估计模块的优化函数；T表示三维头部模型的位置；t为当前帧序号；P_t表示三维相机位姿；L(F)表示三维头部模型上对应的68个人脸特征点；F表示三维人脸模型；I_t为帧t对应的视频帧图像的向量表示。

需要说明的是，现有技术中的人脸重建方案，主要是针对人物面部区域的重建，却忽略了整个头部(比如头发等)，由于大多数应用(如虚拟主播、游戏形象等)均要求模型具有完整性，导致实际应用的场景受限。而本发明实施例中，使用多视角几何投影和三维点云约束，可以恢复整个任务头部的几何形状。

可选地，步骤14具体可以包括：

步骤1401，根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型的形状和表情进行调整，获得所述目标三维头部模型的目标形状和目标表情。

该步骤中，可以应用三维点云和人脸特征点对三维头部模型的形状进行精细估计，其中，可以先根据人脸特征点确定三维头部模型的位置信息，再进一步根据三维头部模型的位置信息调整三维头部模型的形状。

步骤1402，使用几何优化算法，对所述三维头部模型的顶点和所述三维点云进行匹配，调整所述三维头部模型的位置信息，使得所述三维头部模型的顶点和匹配后的所述三维点云之间的点面距离最小，获得所述目标三维头部模型的目标位置信息。

需要说明的是，这里执行步骤1401和步骤1402的先后顺序不做限定。比如，可以在对三维头部模型的形状和表情进行调整优化的同时，对三维头部模型的顶点和三维点云进行高精度匹配，即最小化三维头部模型的顶点和匹配后的三维点云之间的点面距离。

需要说明的是，该实施例中的步骤，可由系统中的形状和表情估计模块执行，该形状和表情估计模块的主要功能是精确计算三维头部的形状、表情和位置(即三维头部模型的位置信息)，也就是说，在全局位姿估计模块粗略对齐三维人脸模型和人脸特征点之后，该形状和表情估计模块能够调整三维头部模型的形状和表情，以更精确地匹配特征点。其中，该形状和表情估计模块的输入为：RGB视频帧、相机位姿(用P_t表示)、三维点云(用w_i表示)和三维头部模型的位置(用T表示)，该形状和表情估计模块的输出为：三维头部模型的形状(用α表示)、三维头部模型的表情(用β表示)、优化调整后的三维头部模型的位置。其中，该形状和表情估计模块可以根据以下公式进行优化：

其中，L3表示形状和表情估计模块的优化函数；α表示形状；β表示表情；T表示调整后的三维头部模型的位置；t为当前帧序号；P_t表示三维相机位姿；w_i表示特征点三维位置；i表示特征点序号；v_i表示二维特征点位置；V_t表示帧t中出现的二维特征点集合；λ表示系数；φ(F_α,β)表示距离三维头部模型的顶点最近的三维点云的点(记为“点一”)；F_α,β表示三维点云的估计值；I_t为帧t对应的视频帧图像的向量表示；n_i为点一上估计的平面法向量。

通过上式中的算法，可以精确匹配三维的特征点和二维的特征点，还可以匹配三维头部模型的形状和三维点云的形状。

需要说明的是，目前业界常用的方法中，由于68个人脸特征点过于稀疏，且全部集中在面部，因而忽略了头部的其他位置，导致难以匹配头顶、耳朵等位置。而本发明实施例中，通过应用三维点云作为额外的几何约束，可以匹配头顶、耳朵以及整个头部的几何形状，从而获得更为完整的目标三维头部模型，效果逼真，提升了算法鲁棒性，增强了人脸模型重建的准确性和真实性。

根据所三维点云，生成隐空间向量；

需要说明的是，现有技术中面部纹理细节质量不佳，导致视觉真实性较差。而本发明实施例中，可以直接基于RGB视频帧对整个人物头部的纹理进行估计，能够达到真实的渲染结果。

还需要说明的是，现有技术中基于计算机视觉重建三维人脸模型的技术只能恢复人物面部区域的几何特征，而难以恢复逼真的人脸纹理。而本发明实施例中，通过训练好的目标纹理生成模型，能够对目标三维头部模型进行纹理渲染，从而得到具有逼真人脸纹理效果的人物三维头部模型。

该实施例中的步骤，可由系统中的纹理估计模块执行，该纹理估计模块的主要功能是计算三维头部模型的纹理，能够提高目标三维头部模型外观上的拟真度。也就是说，在系统的运动结构估计模块、全局位姿估计模块、形状和表情估计模块计算处理之后，目标三维头部模型的几何形状已经可以确定，而该纹理估计模块可以用于估计用于渲染的头部纹理贴图，从而对目标三维头部模型进行纹理渲染。其中，该纹理估计模块的输入为：RGB视频帧、相机位姿、三维头部模型的形状、三维头部模型的表情、调整后的三维头部模型的位置，该纹理估计模块的输出为：三维头部模型的目标纹理图像。

该纹理估计模块中，通过优化预训练的纹理生成网络的输入向量(即隐空间向量)，使得纹理生成网络的输出纹理为根据相机位姿投影后渲染出的图像(即目标纹理图像)匹配目标视频数据中的视频帧图像(也就是相机采集的多视角的RGB图像)。其中，该纹理估计模块可以根据以下公式进行优化：

其中，L4表示纹理估计模块的优化函数；Z表示隐空间向量；t为当前帧序号；G表示目标纹理生成模型；

表示用z作为G的输入，并在目标三维头部模型上进行渲染后得到的图像；P_t表示三维相机位姿；α表示形状；β表示表情；T表示调整后的三维头部模型的位置；I_t为帧t对应的视频帧图像的向量表示。

需要说明的是，目前业界常用的人脸纹理重建方法中，通常是通过复杂的测量设备，精确地采集不同角度的人脸图像，并对采集到的人脸图像进行融合。然而，这种方式需要精密控制的实验场景，且计算量很大，此外，若相机位姿校对不准，会导致融合生成的人脸纹理出现重影问题。

针对现有技术中的该缺陷，本发明实施例采用了基于预训练网络进行人脸纹理重建的方式，可以在设备(例如手机)相机位姿估计不准的情况下，仍能够较好地匹配采集到的人脸视频，从而保证生成的人脸纹理不含有重影等不良效果。

获取训练数据集，所述训练数据集包括人脸图像；

(一)根据所述训练数据集中的第一人脸图像对应的三维点云，生成满足高斯分布的隐空间向量。

例如，训练数据集可以采用90000张预设尺寸的人脸图像(照片)，预设尺寸可以为1024x1024像素。这样，生成的满足Gaussian(高斯)分布的隐空间向量长度为512像素。

(二)将所述隐空间向量输入至所述纹理生成网络模型的生成器中，获得二维图像。

该步骤中，可以将生成的随机隐空间向量作为生成器网络的输入，此时，输出则为一张1024x1024像素的二维图像。

(三)将所述二维图像作为纹理，在一个三维人脸模型上进行渲染，获得第二人脸图像。

需要说明的是，该步骤中的三维人脸模型可以是随机选择的，其形状和表情不需要进行特别的设定。

该步骤中，将上一步骤中生成的1024x1024的二维图像作为纹理，在随机形状和表情的三维人脸(即三维人脸模型)上进行渲染，得到渲染后的1024x1024的人脸图像，即第二人脸图像。可以理解的是，该第二人脸图像的生成与第一人脸图像是相关的。

(四)将所述第一人脸图像和所述第二人脸图像分别输入至所述纹理生成网络模型的判别器中，获得判别结果；

(五)根据所述判别结果，修正所述生成器和所述判别器的参数。

也就是说，将训练数据集中的真实人脸图像(即第一人脸图像)和生成器生成的人脸图像(即第二人脸图像)分别输入判别器进行判别，以此来优化生成器和判别器的参数。

(六)重复执行上述步骤，直至所述生成器和所述判别器的参数收敛。

需要说明的是，上述对纹理生成网络模型进行的训练的过程，可以从极低维度的输入参数(例如，长度为512的一维向量)生成复杂的人脸纹理(例如，1024x1024分辨率的二维人脸纹理)，可以极大的提高最后输出的人脸逼真度和算法鲁棒性。

本发明实施例中，通过普通设备(例如相机、手机摄像头等)拍摄的视频即可重建人物三维头部模型，且这种基于多视角和三维点云的三维头部模型方式，重建的三维头部模型较为完整，可以包括人脸、耳朵、头发、皮肤斑点等细节，能够获得比现有人脸重建方案更好的精度，增强了人脸模型重建的准确性和真实性，效果逼真，削减了三维人脸建模成本，提升了算法鲁棒性。

如图2所示，本发明实施例提供了一种三维头部模型重建装置200，包括：

数据获取模块201，用于获取目标视频数据，所述目标视频数据是围绕人物头部拍摄得到的视频；

第一处理模块202，用于针对所述目标视频数据中的视频帧图像，获得所述视频帧图像对应的三维点云和相机位姿信息；

第二处理模块203，用于基于初始三维头部模型，根据所述三维点云和所述相机位姿信息，确定所述三维头部模型的位置信息，所述位置信息包括人脸特征点的位置信息；

第三处理模块204，用于根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型进行调整，获得目标三维头部模型；

渲染模块205，用于根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染。

该实施例中，围绕人物头部拍摄视频，通过对视频中的图像进行分析处理，能够得到图像对应的三维点云和相机位姿等信息，从而利用这些信息对初始三维头部模型进行调整，实现重建人物三维头部模型，该方案无需复杂的硬件设备或特殊环境的场地，建模过程较为简单，能够削减三维头部模型的建模成本。

可选地，所述第一处理模块202包括：

第一处理子模块，用于利用加速稳健特征SURF算法，对所述视频帧图像进行检测，获得所述视频帧图像的特征点；

特征修正子模块，用于利用角点跟踪KLT算法，对所述视频帧图像的特征点进行修正；

第二处理子模块，用于根据相邻两帧图像之间的特征点匹配关系，估算所述视频帧图像对应的特征点三维位置和三维相机位姿信息；

第三处理子模块，用于根据所述特征点三维位置和所述三维相机位姿信息，获得所述视频帧图像对应的所述三维点云和所述相机位姿信息。

可选地，所述特征修正子模块包括：

第一处理单元，用于利用KLT算法，获得所述视频帧图像与第二目标图像之间相匹配的第一特征点，其中，所述第二目标图像是所述视频帧图像的下一帧图像；

特征修正单元，用于根据所述第二目标图像中除所述第一特征点之外的特征点，修正所述视频帧图像的特征点。

可选地，所述第二处理模块203包括：

第四处理子模块，用于根据所述三维点云和所述相机位姿信息，确定所述三维头部模型上的人脸特征点经相机投影后得到的二维人脸特征点；

第五处理子模块，用于对所述二维人脸特征点与目标二维人脸特征点进行匹配，获得所述三维头部模型的位置信息；

可选地，所述第三处理模块204包括：

第六处理子模块，用于根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型的形状和表情进行调整，获得所述目标三维头部模型的目标形状和目标表情；

第七处理子模块，用于使用几何优化算法，对所述三维头部模型的顶点和所述三维点云进行匹配，调整所述三维头部模型的位置信息，使得所述三维头部模型的顶点和匹配后的所述三维点云之间的点面距离最小，获得所述目标三维头部模型的目标位置信息。

可选地，所述渲染模块包括：

第八处理子模块，用于根据所三维点云，生成隐空间向量；

第九处理子模块，用于将所述隐空间向量输入至所述目标纹理生成模型中，获得第一纹理图像；

第十处理子模块，用于根据所述相机位姿信息，得到所述第一纹理图像经相机投影后的目标纹理图像；

渲染子模块，用于利用所述目标纹理图像，在所述目标三维头部模型上进行纹理渲染。

可选地，所述装置200还包括：

第一训练模块，用于获取训练数据集，所述训练数据集包括人脸图像；

第二训练模块，用于利用所述训练数据集，对纹理生成网络模型进行训练，得到所述目标纹理生成模型。

可选地，所述第二训练模块包括：

第一训练子模块，用于根据所述训练数据集中的第一人脸图像对应的三维点云，生成满足高斯分布的隐空间向量；

第二训练子模块，用于将所述隐空间向量输入至所述纹理生成网络模型的生成器中，获得二维图像；

第三训练子模块，用于将所述二维图像作为纹理，在一个三维人脸模型上进行渲染，获得第二人脸图像；

第四训练子模块，用于将所述第一人脸图像和所述第二人脸图像分别输入至所述纹理生成网络模型的判别器中，获得判别结果；

第五训练子模块，用于根据所述判别结果，修正所述生成器和所述判别器的参数；

第六处理子模块，用于重复执行上述步骤，直至所述生成器和所述判别器的参数收敛。

本发明实施例中，通过普通设备(例如相机、手机摄像头等)拍摄的视频即可重建人物三维头部模型，且这种基于多视角和三维点云的三维头部模型方式，重建的三维头部模型较为完整，可以包括人脸、耳朵、头发、皮肤斑点等细节，能够获得比现有人脸重建方案更好的精度，效果逼真，削减了三维人脸建模成本，提升了算法鲁棒性，增强了人脸模型重建的准确性和真实性。

如图3所示，本发明实施例的终端，包括：处理器300；以及通过总线接口与所述处理器300相连接的存储器320，所述存储器320用于存储所述处理器300在执行操作时所使用的程序和数据，处理器300调用并执行所述存储器320中所存储的程序和数据。

处理器300用于读取存储器320中的程序，执行下列过程：

收发机310，用于在处理器300的控制下接收和发送数据。

其中，在图3中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器300代表的一个或多个处理器和存储器320代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发机310可以是多个元件，即包括发送机和收发机，提供用于在传输介质上与各种其他装置通信的单元。针对不同的用户设备，用户接口330还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。

处理器300负责管理总线架构和通常的处理，存储器320可以存储处理器300在执行操作时所使用的数据。

可选地，处理器300还用于读取所述计算机程序，执行如下步骤：

利用加速稳健特征SURF算法，对所述视频帧图像进行检测，获得所述视频帧图像的特征点；

利用角点跟踪KLT算法，对所述视频帧图像的特征点进行修正；

根据所三维点云，生成隐空间向量；

获取训练数据集，所述训练数据集包括人脸图像；

根据所述判别结果，修正所述生成器和所述判别器的参数；

本发明实施例提供的终端，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本领域技术人员可以理解，实现上述实施例的全部或者部分步骤可以通过硬件来完成，也可以通过计算机程序来指示相关的硬件来完成，所述计算机程序包括执行上述方法的部分或者全部步骤的指令；且该计算机程序可以存储于一可读存储介质中，存储介质可以是任何形式的存储介质。

另外，本发明具体实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的三维头部模型重建方法中的步骤。且能达到相同的技术效果，为避免重复，这里不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述的是本发明的优选实施方式，应当指出对于本技术领域的普通人员来说，在不脱离本发明所述的原理前提下还可以作出若干改进和润饰，这些改进和润饰也在本发明的保护范围内。

Claims

1.一种三维头部模型重建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述针对所述目标视频数据中的视频帧图像，获得所述视频帧图像对应的三维点云和相机位姿信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述利用角点跟踪KLT算法，对所述视频帧图像的特征点进行修正，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述三维点云和所述相机位姿信息，确定所述三维头部模型的位置信息，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述三维点云、所述相机位姿信息和所述三维头部模型的位置信息，对所述三维头部模型进行调整，获得目标三维头部模型，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染，包括：

根据所述三维点云，生成隐空间向量；

7.根据权利要求1所述的方法，其特征在于，在所述根据所述相机位姿信息以及目标纹理生成模型，对所述目标三维头部模型进行纹理渲染之前，所述方法还包括：

获取训练数据集，所述训练数据集包括人脸图像；

8.根据权利要求7所述的方法，其特征在于，所述利用所述训练数据集，对纹理生成网络模型进行训练，包括：

根据所述判别结果，修正所述生成器和所述判别器的参数；

9.一种三维头部模型重建装置，其特征在于，包括：

10.一种终端，其特征在于，包括：处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的三维头部模型重建方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的三维头部模型重建方法的步骤。