CN111291674A

CN111291674A - 一种虚拟人物表情动作的提取方法、系统、装置及介质

Info

Publication number: CN111291674A
Application number: CN202010079897.7A
Authority: CN
Inventors: 王伦基; 李�权; 叶俊杰; 任勇; 黄桂芳; 韩蓝青
Original assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Current assignee: CYAGEN BIOSCIENCES (GUANGZHOU) Inc; Research Institute Of Tsinghua Pearl River Delta
Priority date: 2020-02-04
Filing date: 2020-02-04
Publication date: 2020-06-16
Anticipated expiration: 2040-02-04
Also published as: CN111291674B

Abstract

本发明公开了一种虚拟人物表情动作的提取方法、装置、装置及存储介质，所述方法包括采集人物动作视频，从所述人物动作视频中提取人物动作信息，构建人物动作库，根据语音信号获取对应的唇形图像，将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像，从所述图像提取人物表情动作。通过构建人物动作库，并简单的修改二维点坐标，或者二维掩码的形状，就可以生成互不相同的第二标签信息，进而能够丰富人物动作库的内容；在简化人物表情动作提取操作的同时，还能随时提取不同的表情动作，并且能够提供丰富的人物动作库，并可以方便地在人物动作库中加入新的动作，提高工作效率。本发明广泛应用于图像处理技术领域。

Description

一种虚拟人物表情动作的提取方法、系统、装置及介质

技术领域

本发明属于图像处理技术领域，尤其涉及一种虚拟人物表情动作的提取方法、系统、装置及存储介质。

背景技术

现有的虚拟人物表情动作的提取通常基于3D摄影机的High Fidelity，捕捉人的表情和头部动作，如眨眼和嘴唇等动作，并同步到虚拟角色身上，提供灵活的场景编辑和更丰富的交互体验，但这类应用依赖于辅助外设，如3D摄影机等；且现有全方位体验型大部分只捕捉用户眨眼、口型以及头部运动等参数，缺乏对面部表情的捕捉及缺乏对表情和肢体动作的同步的捕捉；同时在到虚拟角色过程中，需要人工一一对相应表情或动作进行标注，工作效率低。

发明内容

为解决上述至少一个问题，本发明的目的在于提供一种虚拟人物表情动作的提取方法、系统、装置及存储介质。

本发明所采取的技术方案是：一方面，本发明实施例包括一种虚拟人物表情动作的提取方法，包括：

采集人物动作视频；

从所述人物动作视频中提取人物动作信息，所述人物动作信息包括人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

构建人物动作库，所述人物动作库包含多帧人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

根据语音信号获取对应的唇形图像；

将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像；

从所述图像提取人物表情动作。

进一步地，从所述人物动作视频中提取人物动作信息这一步骤，具体包括：

使用dlib采集得到人脸关键点坐标；

使用openPose采集得到人物身体关键点坐标；

使用maskRCNN采集得到人体轮廓特征；

提取所述采集得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

根据提取得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征生成对应的人物动作信息。

进一步地，构建人物动作库这一步骤，具体包括：

根据提取的人物动作信息，生成第一标签信息，所述第一标签信息包括二维点坐标和二维掩码，存储与第一标签信息对应的人脸图像，构建人物动作库；

将所述第一标签信息输入生成对抗神经网络以对所述生成对抗神经网络进行训练；

修改所述二维点坐标和/或二维掩码以生成互不相同的第二标签信息；

将所述互不相同的第二标签信息输入训练好的生成对抗神经网络中；

输出与第二标签信息对应的人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

存储与第二标签信息对应的人脸图像，进一步丰富人物动作库。

进一步地，将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像这一步骤，具体包括：

采用双线性插值方式对唇形图像中的唇形关键点坐标进行比例缩放；

采用仿射变换方式将缩放后的唇形关键点坐标平移到人物动作库中相应的人脸图像中的嘴唇位置；

计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

将变换后的唇形关键点坐标嵌入相应的人脸图像中，生成包含人物表情和动作的图像。

另一方面，本发明实施例还包括一种虚拟人物表情动作的提取系统，包括：

采集模块，用于采集人物动作视频；

第一提取模块，用于从所述人物动作视频中提取人物动作信息，所述人物动作信息包括人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

人物动作库构建模块，用于构建人物动作库，所述人物动作库包含多帧人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

唇形图像获取模块，用于根据语音信号获取对应的唇形图像；

生成模块，用于将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像；

第二提取模块，用于从所述图像提取人物表情动作。

进一步地，所述第一提取模块包括：

第一采集单元，用于使用dlib采集得到人脸关键点坐标；

第二采集单元，用于使用openPose采集得到人物身体关键点坐标；

第三采集单元，用于使用maskRCNN采集得到人体轮廓特征；

提取单元，用于提取所述采集得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

生成单元，用于根据提取得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征生成对应的人物动作信息。

进一步地，所述人物动作库构建模块包括：

第一处理单元，用于根据提取的人物动作信息，生成第一标签信息，所述第一标签信息包括二维点坐标和二维掩码，存储与第一标签信息对应的人脸图像，构建人物动作库；

第二处理单元，用于将所述第一标签信息输入生成对抗神经网络以对所述生成对抗神经网络进行训练；

第三处理单元，用于修改所述二维点坐标和/或二维掩码以生成互不相同的第二标签信息；

输入单元，用于将所述互不相同的第二标签信息输入训练好的生成对抗神经网络中；

输出单元，用于输出与第二标签信息对应的人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

存储单元，用于存储与第二标签信息对应的人脸图像，进一步丰富人物动作库。

进一步地，所述生成模块包括：

缩放单元，用于采用双线性插值方式对唇形图像中的唇形关键点坐标进行比例缩放；

平移单元，用于采用仿射变换方式将缩放后的唇形关键点坐标平移到人物动作库中相应的人脸图像中的嘴唇位置；

计算单元，用于计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

矩阵变换单元，用于根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

生成单元，用于将变换后的唇形关键点坐标嵌入相应的人脸图像中，生成包含人物表情和动作的图像。

另一方面，本发明实施例还包括一种虚拟人物表情动作的提取装置，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行实施例所述虚拟人物表情动作的提取方法。

另一方面，本发明实施例还包括一种计算机可读存储介质，其中，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所述虚拟人物表情动作的提取方法。

本发明的有益效果是：本发明实施例通过将提取的人物动作信息，生成标签信息，即将复杂的人物图像，简化为二维点坐标或二维掩码，用于训练对抗神经生成网络，进而构建人物动作库，通过简单的修改二维点坐标，或者二维掩码的形状，就可以生成互不相同的第二标签信息，进而能够丰富人物动作库的内容；再将根据语音信号获取对应的唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像，最终从所述图像中提取出人物表情动作；本发明实施例在简化人物表情动作提取操作的同时，还能随时提取不同的表情动作，并且能够提供丰富的人物动作库，并可以方便地在人物动作库中加入新的动作，提高工作效率。

附图说明

图1为本发明实施例中所述虚拟人物表情动作的提取方法的流程图；

图2为本发明实施例中所述虚拟人物表情动作的提取系统的结构示意图；

图3为本发明实施例中所述的一种虚拟人物表情动作的提取装置的结构示意图。

具体实施方式

图1是发明实施例中所述虚拟人物表情动作的提取方法的流程图，如图1所示，该方法包括以下处理步骤：

S1.采集人物动作视频；

S2.从所述人物动作视频中提取人物动作信息，所述人物动作信息包括人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

S3.构建人物动作库，所述人物动作库包含多帧人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

S4.根据语音信号获取对应的唇形图像；

S5.将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像；

S6.从所述图像提取人物表情动作。

本实施例中，根据实际需求采集特定场景人物动作视频，比如，我们最终要提取的是新闻播报或者课堂教育等场景的虚拟人物表情动作，就采集相关新闻播报或者课堂教育的真实场景视频，其中采集到的场景视频要重点包含人物动作。

本实施例中，所述步骤S2，也就是从所述人物动作视频中提取人物动作信息这一步骤，是由以下步骤组成的：

S201.使用dlib采集得到人脸关键点坐标；

S202.使用openPose采集得到人物身体关键点坐标；

S203.使用maskRCNN采集得到人体轮廓特征；

S204.提取所述采集得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征；

S205.根据提取得到的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征生成对应的人物动作信息。

本实施例中，将采集到的人物动作视频分帧处理，得到包含人物动作的图像帧，再分别采集每一帧图像中的人脸关键点坐标、人物身体关键点坐标和人体轮廓特征，进而使所有的图像都能够清晰地显示出对应的人物动作信息。

本实施例中，所述步骤S3，也就是构建人物动作库这一步骤，是由以下步骤组成的：

S301.根据提取的人物动作信息，生成第一标签信息，所述第一标签信息包括二维点坐标和二维掩码，存储与第一标签信息对应的人脸图像，构建人物动作库；

S302.将所述第一标签信息输入生成对抗神经网络以对所述生成对抗神经网络进行训练；

S304.修改所述二维点坐标和/或二维掩码以生成互不相同的第二标签信息；

S305.将所述互不相同的第二标签信息输入训练好的生成对抗神经网络中；

S306.输出与第二标签信息对应的人脸图像，每一帧所述人脸图像包含对应的人物动作信息；

S307.存储与第二标签信息对应的人脸图像，进一步丰富人物动作库。

本实施例中，对包含人物动作信息的图像进行关键点及掩码提取，进而生成标签信息。例如，其具体操作可以为：利用关键点检测法从图像中检测出关键点，并进行连线；再采用图像分割，对服饰分割，获得衣服和领带的掩码，并用不同的值存放；或者利用关键点检测法从图片中检测出人脸、人体和手部关键点，并分别进行连线；再采用图像分割，对头部分割，获得头部的掩码，并用不同的值存放。在第二种操作过程中，当检测不到人脸关键点时，判断图像中的人物头部转到背面，显示头部掩码，此时，根据人体关键点检测的正背面标识，分别给人体和手部关键点连线，并用不同的值存放。当检测到不全的人脸关键点时，判断图像中的人物头部转到侧面，此时，因采用了头部分割的方法，可将图像中人体头部标识出来。生成的标签信息用于训练生成对抗神经网络；简单的修改关键点坐标，或者掩码形状，就可以生成互不相同的第二标签信息，将互不相同的第二标签信息输入训练好的生成对抗神经网络中，便可生成与标签信息对应的人物图像，所述人物图像主要包括人脸及对应的人物动作信息。当将一序列的第二标签信息输入训练好的生成对抗神经网络中，更可生成与这一序列标签信息对应的人物视频。进一步地存储这些图像，便可构建成丰富的人物动作库；并且可以根据后续具体需求，修改标签信息，进一步丰富人物动作库的内容。

本实施例中，所述步骤S5，也就是将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像这一步骤，是由以下步骤组成的：

S501.采用双线性插值方式对唇形图像中的唇形关键点坐标进行比例缩放；

S502.采用仿射变换方式将缩放后的唇形关键点坐标平移到人物动作库中相应的人脸图像中的嘴唇位置；

S503.计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

S504.根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

S505.将变换后的唇形关键点坐标嵌入相应的人脸图像中，生成包含人物表情和动作的图像。

本实施例中，根据语音信号获取对应的唇形图像，将获取得到的每一帧唇形图像中的唇形关键点坐标通过比例缩放、平移、矩阵变换方式与人物动作库中的每一包含相应动作信息的人脸图像相适配，使得唇形与人物动作库中的人脸能够自然配准。其具体操作可以为：首先采用双线性插值方式对唇形关键点坐标进行比例缩放，接着采用仿射变换方式将唇形关键点坐标平移到人物动作库中相应人脸图像中的嘴唇位置，最后计算人物动作库前一帧与当前帧人脸透射变换矩阵，将每一帧唇形图像中的唇形进行矩阵变化后嵌入人物动作库中的每一帧人脸图像中，进行配准得到包含人物表情和动作的图像。

综上所述，本实施例中的虚拟人物表情动作的提取方法具有以下优点：

通过将提取的人物动作信息，生成标签信息，即将复杂的人物图像，简化为二维点坐标或二维掩码，用于训练对抗神经生成网络，进而构建人物动作库，通过简单的修改二维点坐标，或者二维掩码的形状，就可以生成互不相同的第二标签信息，进而能够丰富人物动作库的内容；再将根据语音信号获取对应的唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像，最终从所述图像中提取出人物表情动作；本发明实施例在简化人物表情动作提取操作的同时，还能随时提取不同的表情动作，并且能够提供丰富的人物动作库，并可以方便地在人物动作库中加入新的动作，提高工作效率。

如图2所示，本实施例还包括一种虚拟人物表情动作的提取系统，包括：

采集模块，用于采集人物动作视频；

第二提取模块，用于从所述图像提取人物表情动作。

进一步作为可选的具体实施方式，所述第一提取模块包括：

第一采集单元，用于使用dlib采集得到人脸关键点坐标；

第三采集单元，用于使用maskRCNN采集得到人体轮廓特征；

进一步作为可选的具体实施方式，所述人物动作库构建模块包括：

第一处理单元，用于根据提取的人物动作信息，生成第一标签信息，所述第一标签信息包括二维点坐标和二维掩码；

存储单元，用于存储所述人脸图像，构建成人物动作库。

作为可选的具体实施方式，所述生成模块包括：

图3为本发明实施例提供的一种虚拟人物表情动作的提取装置的结构示意图，请参见图3所示，该装置60可以包括处理器601和存储器602。其中，

存储器602用于存储程序指令；

处理器601用于读取存储器602中的程序指令，并根据存储器602中的程序指令执行实施例所示的虚拟人物表情动作的提取方法。

所述存储器还可以单独生产出来，并用于存储与所述一种虚拟人物表情动作提取方法相应的计算机程序。当这个存储器与处理器连接时，其存储的计算机程序将被处理器读取出来并执行，从而实施所述虚拟人物表情动作提取方法，达到实施例中所述的技术效果。

本实施例还包括一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行实施例所示的虚拟人物表情动作的提取方法。

需要说明的是，如无特殊说明，当某一特征被称为“固定”、“连接”在另一个特征，它可以直接固定、连接在另一个特征上，也可以间接地固定、连接在另一个特征上。此外，本公开中所使用的上、下、左、右等描述仅仅是相对于附图中本公开各组成部分的相互位置关系来说的。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。此外，除非另有定义，本实施例所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本实施例说明书中所使用的术语只是为了描述具体的实施例，而不是为了限制本发明。本实施例所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种元件，但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如，在不脱离本公开范围的情况下，第一元件也可以被称为第二元件，类似地，第二元件也可以被称为第一元件。本实施例所提供的任何以及所有实例或示例性语言(“例如”、“如”等)的使用仅意图更好地说明本发明的实施例，并且除非另外要求，否则不会对本发明的范围施加限制。

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本实施例描述的过程的操作，除非本实施例另外指示或以其他方式明显地与上下文矛盾。本实施例描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本实施例所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本实施例所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

以上所述，只是本发明的较佳实施例而已，本发明并不局限于上述实施方式，只要其以相同的手段达到本发明的技术效果，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。

Claims

1.一种虚拟人物表情动作的提取方法，其特征在于，包括：

采集人物动作视频；

根据语音信号获取对应的唇形图像；

从所述图像提取人物表情动作。

2.根据权利要求1所述的一种虚拟人物表情动作的提取方法，其特征在于，从所述人物动作视频中提取人物动作信息这一步骤，具体包括：

使用dlib采集得到人脸关键点坐标；

使用openPose采集得到人物身体关键点坐标；

使用maskRCNN采集得到人体轮廓特征；

3.根据权利要求1所述的一种虚拟人物表情动作的提取方法，其特征在于，构建人物动作库这一步骤，具体包括：

4.根据权利要求1所述的一种虚拟人物表情动作的提取方法，其特征在于，将所述唇形图像嵌入人物动作库相应的人脸图像中，生成包含人物表情和动作的图像这一步骤，具体包括：

计算人物动作库中相邻两帧人脸图像透射变换的矩阵；

根据所述矩阵，将平移后的唇形关键点坐标进行相应变换；

5.一种虚拟人物表情动作的提取系统，其特征在于，包括：

采集模块，用于采集人物动作视频；

第二提取模块，用于从所述图像提取人物表情动作。

6.根据权利要求5所述的一种虚拟人物表情动作的提取系统，其特征在于，所述第一提取模块包括：

第一采集单元，用于使用dlib采集得到人脸关键点坐标；

第三采集单元，用于使用maskRCNN采集得到人体轮廓特征；

7.根据权利要求5所述的一种虚拟人物表情动作的提取系统，其特征在于，所述人物动作库构建模块包括：

8.根据权利要求5所述的一种虚拟人物表情动作的提取系统，其特征在于，所述生成模块包括：

9.一种虚拟人物表情动作的提取装置，其特征在于，包括处理器和存储器，其中，

所述存储器用于存储程序指令；

所述处理器用于读取所述存储器中的程序指令，并根据所述存储器中的程序指令执行权利要求1～4任一项所示的虚拟人物表情动作的提取方法。

10.一种计算机可读存储介质，其特征在于，

计算机可读存储介质上存储有计算机程序，在所述计算机程序被处理器执行时，执行权利要求1～4任一项所示的虚拟人物表情动作的提取方法。