CN114220172A

CN114220172A - 一种唇动识别的方法、装置、电子设备和存储介质

Info

Publication number: CN114220172A
Application number: CN202111548005.4A
Authority: CN
Inventors: 刘青松; 刘露婕; 梁家恩
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-22

Abstract

本申请涉及一种唇动识别的方法、装置、电子设备和存储介质，该方法包括：获取二维人脸图像以及预先训练的3D人脸关键点生成模型；根据预先训练的3D人脸关键点生成模型确定3D唇部关键点；根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像；根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数；以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型；将二维人脸图像输入到唇动识别模型中得到唇动信息。本申请通过二维人脸获得三维唇动信息的方案，解决了用户在使用过程中的姿态和人脸方向限制问题。

Description

一种唇动识别的方法、装置、电子设备和存储介质

技术领域

本申请涉及唇动识别技术领域，特别是涉及一种唇动识别的方法、装置、电子设备和存储介质。

背景技术

目前唇动识别基于二维的唇形图像信息，首先从连续的视频流中获取人脸位置和唇形位置区域，将唇形信息送入唇动识别模型中，识别出对应的嘴部状态(开口/闭口)，以判断用户是否在说话。摄像头录入过程对人的姿态以及方向存在较大限制。在目前的唇动识别系统中，获得的嘴唇视觉特征信息都是正向的，这就意味着你与它交互时，需要保持正对着设备。限制了用户和产品的使用场景，二维唇动图像序列损失一部分唇动信息，影响唇动识别的性能。

发明内容

基于上述问题，本申请提供一种唇动识别的方法、装置、电子设备和存储介质。

第一方面，本申请实施例提供一种唇动识别的方法，包括：

获取二维人脸图像以及预先训练的3D人脸关键点生成模型；

根据预先训练的3D人脸关键点生成模型确定3D唇部关键点；

根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像；

根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数；

以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型；

将二维人脸图像输入到唇动识别模型中得到唇动信息。

进一步地，上述一种唇动识别的方法中，根据预先训练的3D人脸关键点生成模型确定3D唇部关键点，包括：

根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点；

通过3D人脸关键点获取3D唇部关键点。

进一步地，上述一种唇动识别的方法中，根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像，包括：

基于3D唇部关键点获取二维人脸图像的唇部图像区域，

并在唇部图像区域向外扩充得到唇部区域的二维图像；

在唇部图像区域向外扩充包括：采用鼻尖关键点作为扩充的上界，脸部轮廓的关键点作为扩充的下界。

进一步地，上述一种唇动识别的方法中，根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数，包括：

获取标准3D人脸模型的关键点；

计算3D人脸关键点和标准3D人脸模型的关键点的旋转变换矩阵；

求解旋转变换矩阵估计人脸姿态参数。

进一步地，上述一种唇动识别的方法中，生成图像的编码特征损失最小化，包括：

生成图像的人脸姿态参数和目标人脸姿态参数之间的距离损失最小；生成图像和目标输出图像之间的差异最小；生成图像的3D人脸关键点和目标人脸关键点的距离最小。

进一步地，上述一种唇动识别的方法中，以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，构建对抗生成网络之前包括：

确定唇部区域的二维图像的编码特征；

计算3D唇部关键点的光流参数。

进一步地，上述一种唇动识别的方法，包括：

以唇部区域的二维图像的编码特征、光流参数以及人脸姿态参数作为输入构建对抗生成网络。

第二方面，本申请实施例还提供一种唇动识别的装置，包括：

获取模块：用于获取二维人脸图像以及预先训练的3D人脸关键点生成模型；

第一确定模块：用于根据预先训练的3D人脸关键点生成模型确定3D唇部关键点；

第二确定模块：用于根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像；

估计模块：用于根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数；

构建模块：用于以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型；

输入模块：用于将二维人脸图像输入到唇动识别模型中得到唇动信息。

第三方面，本申请实施例还提供一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行上述一种唇动识别的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机上述一种唇动识别的方法。

本申请实施例的优点在于：本申请涉及一种唇动识别的方法、装置、电子设备和存储介质，该方法包括：获取二维人脸图像以及预先训练的3D人脸关键点生成模型；根据预先训练的3D人脸关键点生成模型确定3D唇部关键点；根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像；根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数；以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型；将二维人脸图像输入到唇动识别模型中得到唇动信息。本申请通过二维人脸获得三维唇动信息的方案，解决了用户在使用过程中的姿态和人脸方向限制问题，提供了一种对用户更加友好的交互体验；通过用户二维唇形估计出三维唇动信息，相比原有二维唇形的唇动识别系统，进一步提升了唇动识别的准确性，相比于利用3D摄像设备的唇动系统，降低了对图像采集硬件设备的要求。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种唇动识别的方法示意图一；

图2为本申请实施例提供的一种唇动识别的方法示意图二；

图3为本申请实施例提供的一种唇动识别的装置示意图；

图4是本申请实施例提供的一种电子设备的示意性框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵时做类似改进，因此本申请不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1为本申请实施例提供的一种唇动识别的方法示意图一。

第一方面，本申请实施例提供一种唇动识别的方法，结合图1，包括S101至S106六个步骤：

S101：获取二维人脸图像以及预先训练的3D人脸关键点生成模型。

具体的，本申请实施例中，获取二维人脸图像可以通过交互设备摄像头的视频流获取图像帧序列，执行人脸检测模块，获取人脸位置区域图像，从而获取二维人脸图像，获取的预先训练的3D人脸关键点生成模型是根据现有的人脸数据，标注出人脸关键点，训练得到的3D人脸关键点生成模型。

S102：根据预先训练的3D人脸关键点生成模型确定3D唇部关键点。

具体的，本申请实施例中，可以通过预先训练的3D人脸关键点生成模型确定3D唇部关键点。

S103：根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像。

具体的，本申请实施例中，根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像。

S104：根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数。

具体的，本申请实施例中，根据3D人脸关键点估计人脸姿态参数的步骤下文将做详细介绍。

S105：以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型。

具体的，本申请实施例中，分别将唇部区域的二维图像、3D唇部关键点和人脸姿态参数作为输入构建对抗生成网络，以加快对抗生成网络的收敛，目标函数为生成图像的编码特征损失最小化得到的对抗生成网络的精度高。

S106：将二维人脸图像输入到唇动识别模型中得到唇动信息。

具体的，本申请实施例中，通过二维人脸图像可以直接获得三维唇动信息，解决了用户在使用过程中的姿态和人脸方向限制问题，提供了一种对用户更加友好的交互体验，通过用户二维唇形估计出三维唇动信息，相比原有二维唇形的唇动识别系统，进一步提升了唇动识别的准确性，相比于利用3D摄像设备的唇动系统，降低了对图像采集硬件设备的要求。

根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，通过3D人脸关键点获取3D唇部关键点。

具体的，本申请实施例中，根据预先训练的3D人脸关键点生成模型确定3D唇部关键点首先是通过预先训练的3D人脸关键点生成模型估计出3D人脸关键点，然后通过3D人脸关键点获取3D唇部关键点。

基于3D唇部关键点获取二维人脸图像的唇部图像区域，并在唇部图像区域向外扩充得到唇部区域的二维图像；

具体的，本申请实施例中，通过3D人脸关键点获取3D唇部关键点，基于3D唇部关键点以及二维人脸图像获取二维人脸上的唇部区域，并对唇部区域向外扩充，采用鼻尖关键点作为扩充的上界，利用脸部轮廓的关键点作为外扩的下界。

图2为本申请实施例提供的一种唇动识别的方法示意图二。

进一步地，上述一种唇动识别的方法中，根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数，包括S201至S203三个步骤：

S201：获取标准3D人脸模型的关键点；

S202：计算3D人脸关键点和标准3D人脸模型的关键点的旋转变换矩阵；

S203：旋转变换矩阵估计人脸姿态参数。

具体的，本申请实施例中，假设标准3D人脸关键点序列为A＝[A_1,A_2,A_3,…,A_N]，N为标注人脸关键点数目，3D人脸关键点序列为B＝[B_1,B_2,B_3,…,B_N]，N为当前人脸关键点数目，令旋转变换矩阵R＝[R_x,R_y,R_z]；则计算3D人脸关键点和标准3D人脸模型的关键点的旋转变换矩阵的计算关系为B＝A*R，由于3D人脸关键点数大于人脸姿态参数，通过关键点计算人脸姿态参数转化为求解超定方程组，计算得到R中的人脸姿态参数。

具体的，本申请实施例中，定义损失函数包括以下三部分生成图像的编码特征损失最小化：

Loss_1:计算生成图像output_generator_1和目标输出图像output_groundtruth之间的差异最小；Loss_2:计算预测出的3D人脸关键点和ground_truth 3D人脸关键点的距离最小；Loss_3:计算预测出的人脸姿态参数和ground_truth的人脸姿态参数之间的距离损失最小。

进一步地，上述一种唇动识别的方法中，以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络。构建对抗生成网络之前包括：

确定唇部区域的二维图像的编码特征；

计算3D唇部关键点的光流参数。

进一步地，上述一种唇动识别的方法，包括：

具体的，本申请实施例中，对抗生成网络的输入为原始二维的唇部区域图像input_1,3D唇部关键点input_2,人脸姿态参数input_3,其中，input_1经过神经网络编码器之后，编码特征为encode_input_1,input_2基于帧间变换，计算光流参数flow_input_2,将上述特征encode_input_1，flow_input_2和input_3作为输入构建对抗生成网络。

图3为本申请实施例提供的一种唇动识别的装置示意图。

第二方面，本申请实施例还提供一种唇动识别的装置，结合图3，包括：

获取模块301：用于获取二维人脸图像以及预先训练的3D人脸关键点生成模型。

具体的，本申请实施例中，获取模块301获取二维人脸图像可以通过交互设备摄像头的视频流获取图像帧序列，执行人脸检测模块，获取人脸位置区域图像，从而获取二维人脸图像，获取模块301获取的预先训练的3D人脸关键点生成模型是根据现有的人脸数据，标注出人脸关键点，训练得到的3D人脸关键点生成模型。

第一确定模块302：用于根据预先训练的3D人脸关键点生成模型确定3D唇部关键点。

具体的，本申请实施例中，第一确定模块302可以通过预先训练的3D人脸关键点生成模型确定3D唇部关键点。

第二确定模块303：用于根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像。

具体的，本申请实施例中，第二确定模块303根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像。

估计模块304：用于根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据3D人脸关键点估计人脸姿态参数。

具体的，本申请实施例中，估计模块304根据3D人脸关键点估计人脸姿态参数的步骤上文已做详细介绍。

构建模块305：用于以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型。

具体的，本申请实施例中，构建模块305分别将唇部区域的二维图像、3D唇部关键点和人脸姿态参数作为输入构建对抗生成网络，以加快对抗生成网络的收敛，目标函数为生成图像的编码特征损失最小化得到的对抗生成网络的精度高。

输入模块306：用于将二维人脸图像输入到唇动识别模型中得到唇动信息。

具体的，本申请实施例中，输入模块306通过将二维人脸图像输入到唇动识别模型可以直接获得三维唇动信息，解决了用户在使用过程中的姿态和人脸方向限制问题，提供了一种对用户更加友好的交互体验，通过用户二维唇形估计出三维唇动信息，相比原有二维唇形的唇动识别系统，进一步提升了唇动识别的准确性，相比于利用3D摄像设备的唇动系统，降低了对图像采集硬件设备的要求。

图4是本公开实施例提供的一种电子设备的示意性框图。

如图4所示，电子设备包括：至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403，用于与外部设备之间的信息传输。可理解，总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图4中将各种总线都标为总线系统404。

可以理解，本实施例中的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器402存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种唇动识别的方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器401通过调用存储器402存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器401用于执行本申请实施例提供的一种唇动识别的方法各实施例的步骤。

获取二维人脸图像以及预先训练的3D人脸关键点生成模型；

根据预先训练的3D人脸关键点生成模型确定3D唇部关键点；

将二维人脸图像输入到唇动识别模型中得到唇动信息。

本申请实施例提供的一种唇动识别的方法中任一方法可以应用于处理器401中，或者由处理器401实现。处理器401可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种唇动识别的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402，处理器401读取存储器402中的信息，结合其硬件完成一种唇动识别的方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种唇动识别的方法，其特征在于，包括：

获取二维人脸图像以及预先训练的3D人脸关键点生成模型；

根据所述预先训练的3D人脸关键点生成模型确定3D唇部关键点；

根据所述3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像；

根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据所述3D人脸关键点估计人脸姿态参数；

以所述唇部区域的二维图像、所述3D唇部关键点以及所述人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型；

将所述二维人脸图像输入到所述唇动识别模型中得到唇动信息。

2.根据权利要求1所述的唇动识别的方法，其特征在于，所述根据所述预先训练的3D人脸关键点生成模型确定3D唇部关键点，包括：

根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点；

通过所述3D人脸关键点获取3D唇部关键点。

3.根据权利要求1所述的唇动识别的方法，其特征在于，所述根据所述3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像，包括：

基于所述3D唇部关键点获取二维人脸图像的唇部图像区域，

并在唇部图像区域向外扩充得到唇部区域的二维图像；

4.根据权利要求1所述的唇动识别的方法，其特征在于，根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据所述3D人脸关键点估计人脸姿态参数，包括：

获取标准3D人脸模型的关键点；

计算所述3D人脸关键点和所述标准3D人脸模型的关键点的旋转变换矩阵；

求解所述旋转变换矩阵估计人脸姿态参数。

5.根据权利要求1所述的唇动识别的方法，其特征在于，生成图像的编码特征损失最小化，包括：

6.根据权利要求1所述的唇动识别的方法，其特征在于，以所述唇部区域的二维图像、所述3D唇部关键点以及所述人脸姿态参数作为输入构建对抗生成网络，构建对抗生成网络之前包括：

确定唇部区域的二维图像的编码特征；

计算所述3D唇部关键点的光流参数。

7.根据权利要求6所述的唇动识别的方法，其特征在于，所述方法还包括：

以所述唇部区域的二维图像的编码特征、所述光流参数以及所述人脸姿态参数作为输入构建对抗生成网络构建对抗生成网络。

8.一种唇动识别的装置，其特征在于，包括：

第一确定模块：用于根据所述预先训练的3D人脸关键点生成模型确定3D唇部关键点；

第二确定模块：用于根据所述3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像；

估计模块：用于根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点，根据所述3D人脸关键点估计人脸姿态参数；

构建模块：用于以所述唇部区域的二维图像、所述3D唇部关键点以及所述人脸姿态参数作为输入构建对抗生成网络，目标函数为生成图像的编码特征损失最小化得到唇动识别模型；

输入模块：用于将所述二维人脸图像输入到唇动识别模型中得到唇动信息。

9.一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至7任一项所述一种唇动识别的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种唇动识别的方法。