CN103778661B

CN103778661B - 一种生成说话人三维运动模型的方法、系统及计算机

Info

Publication number: CN103778661B
Application number: CN201310721911.9A
Authority: CN
Inventors: 朱云; 王岚; 陈辉
Original assignee: Institute of Software of CAS; Shenzhen Institute of Advanced Technology of CAS
Current assignee: Institute of Software of CAS; Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-12-24
Filing date: 2013-12-24
Publication date: 2018-02-09
Anticipated expiration: 2033-12-24
Also published as: CN103778661A

Abstract

本发明适用于三维可视化技术领域，提供了一种生成说话人三维运动模型的方法包括：获取摄像头采集的彩色图像的信息以及深度数据信息；将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态；根据计算出的当前人脸的状态生成被测试人的三维人头模型；获取被测试人发音的运动轨迹的位移；根据被测试人发音的运动轨迹的位移和生成被测试人的三维人头模型，生成发音的三维人头运动模拟。本发明增加了三维建模的效率。另外，本发明在建立任意人的三维说话人运动模型的基础上，同时考虑声音向任意人的转变，从而使得本发明具有个性化人头与个性化声音结合效果。

Description

一种生成说话人三维运动模型的方法、系统及计算机

技术领域

本发明属于三维可视化技术领域，尤其涉及一种生成说话人三维运动模型的方法、系统及计算机。

背景技术

现有的自动生成任意人的三维运动模型的方案为：预先建立三维人脸库和三维发型库，对输入的正面人脸照片进行特征点提取和头发分割，分别生成三维人脸模型与三维头发模型，然后将人脸模型与头发模型合成。由于只采取了正面的照片作为输入，照片是二维的，因此，在恢复三维模型时必然失去了很多重要的信息，如侧脸的深度信息，在这种情况下恢复出的三维人模型也必然存在与实际人物的误差。而且，头发的模型也采用从头发数据库里去匹配寻找，而并非直接去恢复，这无疑增加了许多人工合成的因素。由上可知，现有技术实现任意人的三维运动模型是非全自动，需要人工干预。

发明内容

本发明的目的在于提供一种生成说话人三维运动模型的方法、系统及计算机，旨在解决现有技术中存在的实现任意人的三维运动模型是非全自动，需要人工干预，且恢复出的三维人模型也必然存在与实际人物的误差的问题。

本发明是这样实现的，一种生成说话人三维运动模型的方法，所述方法包括以下步骤：

获取摄像头采集的彩色图像的信息以及深度数据信息；

将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态；

根据计算出的当前人脸的状态生成被测试人的三维人头模型；

获取被测试人发音的运动轨迹的位移；

根据所述被测试人发音的运动轨迹的位移和所述生成被测试人的三维人头模型，生成发音的三维人头运动模拟。

本发明的另一目的在于提供一种生成说话人三维运动模型的系统，所述系统包括：

数据自动采集模块，用于获取摄像头采集的彩色图像的信息以及深度数据信息；

自动实时建模模块，用于将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态；根据计算出的当前人脸的状态生成被测试人的三维人头模型；

发音驱动模块，用于获取被测试人发音的运动轨迹的位移；根据所述被测试人发音的运动轨迹的位移和所述生成被测试人的三维人头模型，生成发音的三维人头运动模拟。

本发明的另一目的在于提供一种包括上面所述的生成说话人三维运动模型的系统的计算机。

在本发明中，本发明实施例是一种融合了三维人头建模技术、三维人头运动模拟技术、人脸检测技术等众多先进技术的一体化系统。本发明实施例的硬件外设部分为一台计算机和一个带有深度数据获取功能的彩色摄像头，如Kinect；软件部分主要由四个模块构成：初始化模块、数据自动采集模块、自动实时建模模块和发音驱动模块。系统启动首先交由初始化模块，打开带有深度数据获取功能的彩色摄像头，初始化各种参数，然后被测试人坐于摄像头之前，调整身体和头部姿势，系统的数据自动采集模块会自动进行检测并提示，当系统提示已检测到目标，就会再次提示，让被测试人缓慢移动头部，从左到右或从右到左转动，系统会自动记录采集人的彩色数据、深度数据、及头部姿态。采集到足够的人物的数据之后，数据自动采集模块会将采集的数据交由自动建模模块。自动实时建模模块会根据采集的数据进行规范化，使用标准模型对其配准，然后完成贴图，生成测试的人三维人模型。最后自动建模模块将变形后的三维人头模型交由发音驱动模块，生成发音的运动模拟。

整个过程，大部分都是系统内部的工作，只是在进行数据采集时需要测试的人进行简单的人机交互。整个流程简单、自动、高效。

本发明实施例能够自动实时建立任意人的三维说话人运动模型，模型建立完成后即可根据发音驱动文件进行发音运动的表达。由于系统为全自动实时生成结果，从而大大增加了三维建模的效率。

另外，本发明实施例外设简单，属低成本设备，且操作简单，只需要简单的人机交互即可生成三维说话人运动模型。

再者，本发明实施例生成三维说话人运动模型质量较高，特别是正面与真人差别不大。由于保留了被测人的头发，使得正面效果更加逼真。

又，本发明实施例在建立任意人的三维说话人运动模型的基础上，也考虑到了生成对任意人声音的变换，虽然不能实时生成个性化语音，但是将此项功能加入到三维说话人运动模型的发音模拟，无疑增加了整个虚拟三维人的真实性。

再者，本发明在建立任意人的三维说话人运动模型的基础上，同时考虑声音向任意人的转变，对于任意一个人，使得生成此人的三维说话模型不仅具有此人的模样而且具有与此人一样的声音，从而使得本发明具有个性化人头与个性化声音结合效果。

附图说明

图1是本发明实施例提供的生成说话人三维运动模型的方法的实现流程示意图。

图2是本发明实施例提供的定义的坐标系的示意图。

图3是本发明实施例提供的生成说话人三维运动模型的系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，本发明实施例提出了一种低成本、全自动、实时生成任意人的三维运动模型的方案，且说话人三维运动模型具有很逼真的表情和发音动作，还能模拟出与当前人的类似的发声。其实现方案为：通过采用带有深度数据获取功能的彩色摄像头（如Kinect），以彩色数据与深度数据为基础，引入自动人脸检测技术，通过人脸特征的定位，完成人物头部数据的自动获取，然后通过三维人脸建模技术，由一个标准人脸模型变形到真人，并由预先定义的EMA动作参数与数据驱动接口，完成发音的运动模拟。

请参阅图1，为本发明实施例提供的生成说话人三维运动模型的方法的实现流程，其包括以下步骤：

在步骤S101中，获取摄像头采集的彩色图像的信息以及深度数据信息；

在本发明实施例中，在步骤S101之前，还包括：

初始化深度摄像头和彩色摄像头、初始化三维标准模型和初始化EMA发音驱动参数。然而，可以理解的是，深度摄像头和彩色摄像头可容为一体。

初始化深度摄像头和彩色摄像头主要是进行摄像头的检测与选择，保证至少有一个深度摄像头和一个彩色摄像头可用于数据的采集。

初始化标准三维人头模型主要是进行三维人头模型的载入，以及三维人头模型特征点的预设。

初始化发音数据驱动参数主要是生成已经载入的三维人头模型的每个点的发音运动参数。方法采用狄利克雷自由变形算法（Dirichlet free-form deformation），简称DFFD。具体方法如下：首先，对预设的三维人头模型的特征点进行三维下的Delaunay划分，生成Delaunay四面体集合。其次，生成Delaunay四面体集合所对应的Voronoi图。最后，计算Voronoi图下，三维人头模型上的每个点所对应每个特征点的Sibson坐标。特征点的坐标以及生成的Sibson坐标用于生成发音数据驱动和进行表情动作时的模型点的位移。此外，此步骤还初始化了声音数据，主要是读入EMA发音数据对应的声音信息文件，文件包括被采集EMA运动数据的人的原始发音数据。

在本发明实施例中，数据自动采集模块获取摄像头采集的彩色图像的信息以及深度数据信息以及头部姿态等最原始的图像信息，结合人脸检测技术，对获取数据进行分析，自动出检测人脸位置，并记录保存当前被测试人的正面、左侧面和右侧面的信息。最后，记录一段当前被测人的声音信息，用于寻找并生成对应的EMA的语音。

在步骤S102中，将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态；

在本发明实施例中，将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态，当前人脸的状态即头部姿态；如果没有检测到人脸，则继续检测到有人脸为止。头部姿态为人脸在坐标系下的旋转角度，本实施例中定义的坐标系为图2所示，z轴的负方向为正脸，且规定人脸正面朝向与X，Y，Z轴0度角度误差均小于1度为正面，与X，Z轴0度角度误差均小于3度，在Y轴45度46度范围为左侧面，在Y轴45度46度范围为右侧面。当人脸分别在正面、左侧面和右侧面的情况下，则视为满足保存条件。满足条件后，系统便自动记录当前人物彩色数据、深度数据、以及人物头部姿态数据，此外还保存人脸检测计算出的人脸特征点坐标，特征点包括眼角点、嘴角点、鼻尖点、脸部轮廓点等。

在步骤S103中，根据计算出的当前人脸的状态生成被测试人的三维人头模型；

在本发明实施例中，将所述计算出的当前人脸的状态进行规范化，使用三维标准模型对其配准，然后完成贴图，生成被测试人的三维人头模型。

在本发明实施例中，自动实时建模模块对深度数据进行规范化。深度数据获取完毕后其三维人头深度数据的坐标并不是统一的，需要根据三维人头的姿态对其进行规范化处理，将其进行旋转平移缩放，统一到一坐标系的同一个位置，并做归一化，生成一组用于配准的三维人头模型的深度数据。然后，使用规范化后的三维人头模型深度数据特征点信息以及三维人头深度数据，将标准模型与其配准，得到被测人的三维人头模型。配准方法采用DFFD和最小二乘法，具体特征点的设置以人脸检测函数保存下来的特征点数量与位置为准。再次，将多角度的彩色图像根据对应的三维深度特征点的坐标映射到配准后的三维人头模型，生成对应的三维人头模型的纹理。由于彩色数据不可能完全覆盖三维人头模型，每个角度的彩色数据只有模型对应的那个角度的部分可用，所以需要将采集数据时系统分别获取的正面、左侧面、右侧面的图像进行提取与融合。在融合前，先将模型UV平面展开，以柱面展开为例，规定图像融合边界，根据融合边界将人脸的正面、左侧面与右侧面进行图像融合，从而生成完整的三维人头模型的纹理。但是由于在采集侧面图像信息时，采集角度可能并不能全方位完全覆盖人头，被测试人后面的头发会有一小部分未能采集到，所以需要纹理后处理部分定义三维人模型的补充纹理的区域，然后提取能够采集到的测试人头发部分的纹理数据补充到这部分区域，由于区域固定，只是纹理数据不同，所以这部分不涉及人工干预。

在步骤S104中，获取被测试人发音的运动轨迹的位移；

在步骤S105中，根据所述被测试人发音的运动轨迹的位移和所述生成被测试人的三维人头模型，生成发音的三维人头运动模拟。

在本发明实施例中，将所述被测试人发音的运动轨迹的位移和所述生成被测试人的三维人头模型交给运动模拟显示函数进行发音运动的显示。具体为：发音驱动模块接收自动实时建模模块生成的三维人头模型，以及载入初始化模块生成的发音运动模拟参数，并通过导入EMA发音驱动数据，驱动三维人头模型发音说话。

在本发明实施例中，发音驱动模块首先读入EMA发音数据。EMA发音数据记录了真人发音的运动数据，它通过将传感器贴在真人的发音器官上，记录其发音时运动轨迹的位移，记录的位置包括左右嘴角L1和L2、上下嘴唇L3和L4，以及舌尖T1、舌中T2、舌背T3。标准模型在特征点设置时分别都设置了与这7个点对应的特征点，特征点包括这7个特征点，但还有其他很多特征点用于表情控制，剩下一小部分特征点用于固定模型。EMA表情数据记录了真人各种各样的表情位移参数，主要记录的位置包括左右嘴角L1和L2、上下嘴唇L3和L4、左右脸颊F1和F2以及左右眉毛点L-EB1、L-EB2、R-EB1、R-EB2。然后，读入初始化模块在初始化阶段生成的发音运动模拟的参数或表情参数，即每个点对应其特征点的Sibson坐标，再结合EMA记录的特征点的位移，计算生成三维人头模型其他点的运动位移。计算由公式①给出。这样就得出三维人头模型在进行发音动作模拟时每个点所发生的运动位移。然后将生成的运动位移交给运动模拟显示函数进行发音运动的显示。模型表情的模拟与发音驱动模拟类似。

①

其中，ui代表当前模型点在第i特征点上的Sibson坐标，Sibson坐标的计算由公式②给出，pi代表EMA记录的第i个特征点的位移。且u_i＞0(0≤i≤n)。

假设控制点集Q{q₁,q₂,...,q_n}经过Delaunay划分并生成Voronoi图V(Q)，设q是点集Q形成的凸包内任意一点，Q'{q₁,q₂,...,q_n,q}形成的新的Voronoi图为V'(Q')，那么影响q点的Sibson邻居控制点集Q″就是在V(Q)中那些与V'(q)重合的点，即Q″中的点q_i对q的Sibson坐标可通过公式②计算得出。

②

如果读入EMA的数据用于发音驱动模拟，还要生成与当前人物发音相似的声音。此部分考虑到生成音频的质量，不会实时生成结果，需要一定量的时间对数据进行训练，但这不影响发音运动模拟的实时显示。具体过程如下：首先以EMA原始声音数据作为数据集，以采集被测试人音频数据作为训练集，使用GMM-HMM模型以训练集为输入对数据集进行训练，生成训练数据集到训练集的带有声学特征的转移矩阵W，然后采用与当前需要显示EMA发音运动对应的音频作为测试集，对测试集进行特征提取，生成MFCC参数M，通过与转移矩阵W的运算生成，带有被测试人的声学特征点的MFCC参数M'，然后通过逆向映射，生成与被测试人相似的发音音频。

请参阅图3，为本发明实施例提供的生成说话人三维运动模型的系统的结构示意图。为了便于说明，仅示出了与本发明实施例相关的部分。所述生成说话人三维运动模型的系统包括：数据自动采集模块101、自动实时建模模块102和发音驱动模块103。所述生成说话人三维运动模型的系统可以是内置于计算机中的软件单元、硬件单元或者是软硬件结合的单元。

数据自动采集模块101，用于获取摄像头采集的彩色图像的信息以及深度数据信息；

自动实时建模模块102，用于将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态；根据计算出的当前人脸的状态生成被测试人的三维人头模型；

发音驱动模块103，用于获取被测试人发音的运动轨迹的位移；根据所述被测试人发音的运动轨迹的位移和所述生成被测试人的三维人头模型，生成发音的三维人头运动模拟。

在本发明实施例中，所述系统还包括：初始化模块。

初始化模块，用于初始化深度摄像头和彩色摄像头、初始化三维标准模型和初始化EMA发音驱动参数。

在本发明实施例中，

自动实时建模模块102，具体用于将所述计算出的当前人脸的状态进行规范化，使用三维标准模型对其配准，然后完成贴图，生成被测试人的三维人头模型。

在本发明实施例中，

发音驱动模块，具体用于接收自动实时建模模块生成的三维人头模型，以及载入初始化模块生成的发音运动模拟参数，并通过导入EMA发音驱动数据，驱动三维人头模型发音说话。

综上所述，本发明实施例是一种融合了三维人头建模技术、三维人头运动模拟技术、人脸检测技术等众多先进技术的一体化系统。本发明实施例的硬件外设部分为一台计算机和一个带有深度数据获取功能的彩色摄像头，如Kinect；软件部分主要由四个模块构成：初始化模块、数据自动采集模块、自动实时建模模块和发音驱动模块。系统启动首先交由初始化模块，打开带有深度数据获取功能的彩色摄像头，初始化各种参数，然后被测试人坐于摄像头之前，调整身体和头部姿势，系统的数据自动采集模块会自动进行检测并提示，当系统提示已检测到目标，就会再次提示，让被测试人缓慢移动头部，从左到右或从右到左转动，系统会自动记录采集人的彩色数据、深度数据、及头部姿态。采集到足够的人物的数据之后，数据自动采集模块会将采集的数据交由自动建模模块。自动实时建模模块会根据采集的数据进行规范化，使用标准模型对其配准，然后完成贴图，生成测试的人三维人模型。最后自动建模模块将变形后的三维人头模型交由发音驱动模块，生成发音的运动模拟。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，所述的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘、光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成说话人三维运动模型的方法，其特征在于，所述方法包括以下步骤：

初始化深度摄像头和彩色摄像头、初始化三维标准模型和初始化EMA发音驱动参数；读入EMA发音数据对应的声音信息文件，所述文件包括被采集EMA运动数据的人的原始发音数据；

获取摄像头采集的彩色图像的信息以及深度数据信息，所述深度数据信息获取完毕后，对三维人头的姿态进行规范化处理，将其进行旋转平移缩放，统一到一坐标系的同一个位置，并做归一化，生成一组用于配准的三维人头模型的深度数据；

根据所述彩色图像的信息、所述深度数据信息和计算出的当前人脸的状态生成被测试人的三维人头模型，将多角度的彩色图像根据对应的三维深度特征点的坐标映射到配准后的三维人头模型，生成对应的三维人头模型的纹理；所述三维人头模型上覆盖有对应的三维人头模型的纹理；

获取被测试人发音的运动轨迹的位移；

2.如权利要求1所述的方法，其特征在于，所述根据所述彩色图像的信息、所述深度数据信息和计算出的当前人脸的状态生成被测试人的三维人头模型的步骤，具体为：

将所述计算出的当前人脸的状态进行规范化，使用三维标准模型对其配准，然后完成贴图，生成被测试人的三维人头模型。

3.如权利要求1所述的方法，其特征在于，所述根据所述被测试人发音的运动轨迹的位移和所述生成被测试人的三维人头模型，生成发音的三维人头运动模拟的步骤，具体为：

接收生成的三维人头模型，以及载入生成的发音运动模拟参数，并通过导入EMA发音驱动数据，驱动三维人头模型发音说话。

4.一种生成说话人三维运动模型的系统，其特征在于，所述系统包括：

初始化模块，用于初始化深度摄像头和彩色摄像头、初始化三维标准模型和初始化EMA发音驱动参数；读入EMA发音数据对应的声音信息文件，所述文件包括被采集EMA运动数据的人的原始发音数据；

数据自动采集模块，用于获取摄像头采集的彩色图像的信息以及深度数据信息，所述深度数据信息获取完毕后，对三维人头的姿态进行规范化处理，将其进行旋转平移缩放，统一到一坐标系的同一个位置，并做归一化，生成一组用于配准的三维人头模型的深度数据；

自动实时建模模块，用于将获取到的数据送入人脸检测函数，计算是否检测到人脸，如果检测到人脸，则计算当前人脸的状态；根据所述彩色图像的信息、所述深度数据信息和计算出的当前人脸的状态生成被测试人的三维人头模型，将多角度的彩色图像根据对应的三维深度特征点的坐标映射到配准后的三维人头模型，生成对应的三维人头模型的纹理；所述三维人头模型上覆盖有对应的三维人头模型的纹理；

5.如权利要求4所述的系统，其特征在于，

所述自动实时建模模块，具体用于将所述计算出的当前人脸的状态进行规范化，使用三维标准模型对其配准，然后完成贴图，生成被测试人的三维人头模型。

6.如权利要求4所述的系统，其特征在于，

所述发音驱动模块，具体用于接收自动实时建模模块生成的三维人头模型，以及载入初始化模块生成的发音运动模拟参数，并通过导入EMA发音驱动数据，驱动三维人头模型发音说话。

7.一种包括权利要求4至6任一项所述的生成说话人三维运动模型的系统的计算机。