CN114220172A - 一种唇动识别的方法、装置、电子设备和存储介质 - Google Patents

一种唇动识别的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114220172A
CN114220172A CN202111548005.4A CN202111548005A CN114220172A CN 114220172 A CN114220172 A CN 114220172A CN 202111548005 A CN202111548005 A CN 202111548005A CN 114220172 A CN114220172 A CN 114220172A
Authority
CN
China
Prior art keywords
lip
face
key points
image
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111548005.4A
Other languages
English (en)
Inventor
刘青松
刘露婕
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202111548005.4A priority Critical patent/CN114220172A/zh
Publication of CN114220172A publication Critical patent/CN114220172A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种唇动识别的方法、装置、电子设备和存储介质,该方法包括:获取二维人脸图像以及预先训练的3D人脸关键点生成模型;根据预先训练的3D人脸关键点生成模型确定3D唇部关键点;根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像;根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数;以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;将二维人脸图像输入到唇动识别模型中得到唇动信息。本申请通过二维人脸获得三维唇动信息的方案,解决了用户在使用过程中的姿态和人脸方向限制问题。

Description

一种唇动识别的方法、装置、电子设备和存储介质
技术领域
本申请涉及唇动识别技术领域,特别是涉及一种唇动识别的方法、装置、电子设备和存储介质。
背景技术
目前唇动识别基于二维的唇形图像信息,首先从连续的视频流中获取人脸位置和唇形位置区域,将唇形信息送入唇动识别模型中,识别出对应的嘴部状态(开口/闭口),以判断用户是否在说话。摄像头录入过程对人的姿态以及方向存在较大限制。在目前的唇动识别系统中,获得的嘴唇视觉特征信息都是正向的,这就意味着你与它交互时,需要保持正对着设备。限制了用户和产品的使用场景,二维唇动图像序列损失一部分唇动信息,影响唇动识别的性能。
发明内容
基于上述问题,本申请提供一种唇动识别的方法、装置、电子设备和存储介质。
第一方面,本申请实施例提供一种唇动识别的方法,包括:
获取二维人脸图像以及预先训练的3D人脸关键点生成模型;
根据预先训练的3D人脸关键点生成模型确定3D唇部关键点;
根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像;
根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数;
以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;
将二维人脸图像输入到唇动识别模型中得到唇动信息。
进一步地,上述一种唇动识别的方法中,根据预先训练的3D人脸关键点生成模型确定3D唇部关键点,包括:
根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点;
通过3D人脸关键点获取3D唇部关键点。
进一步地,上述一种唇动识别的方法中,根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像,包括:
基于3D唇部关键点获取二维人脸图像的唇部图像区域,
并在唇部图像区域向外扩充得到唇部区域的二维图像;
在唇部图像区域向外扩充包括:采用鼻尖关键点作为扩充的上界,脸部轮廓的关键点作为扩充的下界。
进一步地,上述一种唇动识别的方法中,根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数,包括:
获取标准3D人脸模型的关键点;
计算3D人脸关键点和标准3D人脸模型的关键点的旋转变换矩阵;
求解旋转变换矩阵估计人脸姿态参数。
进一步地,上述一种唇动识别的方法中,生成图像的编码特征损失最小化,包括:
生成图像的人脸姿态参数和目标人脸姿态参数之间的距离损失最小;生成图像和目标输出图像之间的差异最小;生成图像的3D人脸关键点和目标人脸关键点的距离最小。
进一步地,上述一种唇动识别的方法中,以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,构建对抗生成网络之前包括:
确定唇部区域的二维图像的编码特征;
计算3D唇部关键点的光流参数。
进一步地,上述一种唇动识别的方法,包括:
以唇部区域的二维图像的编码特征、光流参数以及人脸姿态参数作为输入构建对抗生成网络。
第二方面,本申请实施例还提供一种唇动识别的装置,包括:
获取模块:用于获取二维人脸图像以及预先训练的3D人脸关键点生成模型;
第一确定模块:用于根据预先训练的3D人脸关键点生成模型确定3D唇部关键点;
第二确定模块:用于根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像;
估计模块:用于根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数;
构建模块:用于以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;
输入模块:用于将二维人脸图像输入到唇动识别模型中得到唇动信息。
第三方面,本申请实施例还提供一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述一种唇动识别的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机上述一种唇动识别的方法。
本申请实施例的优点在于:本申请涉及一种唇动识别的方法、装置、电子设备和存储介质,该方法包括:获取二维人脸图像以及预先训练的3D人脸关键点生成模型;根据预先训练的3D人脸关键点生成模型确定3D唇部关键点;根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像;根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数;以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;将二维人脸图像输入到唇动识别模型中得到唇动信息。本申请通过二维人脸获得三维唇动信息的方案,解决了用户在使用过程中的姿态和人脸方向限制问题,提供了一种对用户更加友好的交互体验;通过用户二维唇形估计出三维唇动信息,相比原有二维唇形的唇动识别系统,进一步提升了唇动识别的准确性,相比于利用3D摄像设备的唇动系统,降低了对图像采集硬件设备的要求。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种唇动识别的方法示意图一;
图2为本申请实施例提供的一种唇动识别的方法示意图二;
图3为本申请实施例提供的一种唇动识别的装置示意图;
图4是本申请实施例提供的一种电子设备的示意性框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵时做类似改进,因此本申请不受下面公开的具体实施的限制。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
图1为本申请实施例提供的一种唇动识别的方法示意图一。
第一方面,本申请实施例提供一种唇动识别的方法,结合图1,包括S101至S106六个步骤:
S101:获取二维人脸图像以及预先训练的3D人脸关键点生成模型。
具体的,本申请实施例中,获取二维人脸图像可以通过交互设备摄像头的视频流获取图像帧序列,执行人脸检测模块,获取人脸位置区域图像,从而获取二维人脸图像,获取的预先训练的3D人脸关键点生成模型是根据现有的人脸数据,标注出人脸关键点,训练得到的3D人脸关键点生成模型。
S102:根据预先训练的3D人脸关键点生成模型确定3D唇部关键点。
具体的,本申请实施例中,可以通过预先训练的3D人脸关键点生成模型确定3D唇部关键点。
S103:根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像。
具体的,本申请实施例中,根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像。
S104:根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数。
具体的,本申请实施例中,根据3D人脸关键点估计人脸姿态参数的步骤下文将做详细介绍。
S105:以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型。
具体的,本申请实施例中,分别将唇部区域的二维图像、3D唇部关键点和人脸姿态参数作为输入构建对抗生成网络,以加快对抗生成网络的收敛,目标函数为生成图像的编码特征损失最小化得到的对抗生成网络的精度高。
S106:将二维人脸图像输入到唇动识别模型中得到唇动信息。
具体的,本申请实施例中,通过二维人脸图像可以直接获得三维唇动信息,解决了用户在使用过程中的姿态和人脸方向限制问题,提供了一种对用户更加友好的交互体验,通过用户二维唇形估计出三维唇动信息,相比原有二维唇形的唇动识别系统,进一步提升了唇动识别的准确性,相比于利用3D摄像设备的唇动系统,降低了对图像采集硬件设备的要求。
进一步地,上述一种唇动识别的方法中,根据预先训练的3D人脸关键点生成模型确定3D唇部关键点,包括:
根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,通过3D人脸关键点获取3D唇部关键点。
具体的,本申请实施例中,根据预先训练的3D人脸关键点生成模型确定3D唇部关键点首先是通过预先训练的3D人脸关键点生成模型估计出3D人脸关键点,然后通过3D人脸关键点获取3D唇部关键点。
进一步地,上述一种唇动识别的方法中,根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像,包括:
基于3D唇部关键点获取二维人脸图像的唇部图像区域,并在唇部图像区域向外扩充得到唇部区域的二维图像;
在唇部图像区域向外扩充包括:采用鼻尖关键点作为扩充的上界,脸部轮廓的关键点作为扩充的下界。
具体的,本申请实施例中,通过3D人脸关键点获取3D唇部关键点,基于3D唇部关键点以及二维人脸图像获取二维人脸上的唇部区域,并对唇部区域向外扩充,采用鼻尖关键点作为扩充的上界,利用脸部轮廓的关键点作为外扩的下界。
图2为本申请实施例提供的一种唇动识别的方法示意图二。
进一步地,上述一种唇动识别的方法中,根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数,包括S201至S203三个步骤:
S201:获取标准3D人脸模型的关键点;
S202:计算3D人脸关键点和标准3D人脸模型的关键点的旋转变换矩阵;
S203:旋转变换矩阵估计人脸姿态参数。
具体的,本申请实施例中,假设标准3D人脸关键点序列为A=[A_1,A_2,A_3,…,A_N],N为标注人脸关键点数目,3D人脸关键点序列为B=[B_1,B_2,B_3,…,B_N],N为当前人脸关键点数目,令旋转变换矩阵R=[R_x,R_y,R_z];则计算3D人脸关键点和标准3D人脸模型的关键点的旋转变换矩阵的计算关系为B=A*R,由于3D人脸关键点数大于人脸姿态参数,通过关键点计算人脸姿态参数转化为求解超定方程组,计算得到R中的人脸姿态参数。
进一步地,上述一种唇动识别的方法中,生成图像的编码特征损失最小化,包括:
生成图像的人脸姿态参数和目标人脸姿态参数之间的距离损失最小;生成图像和目标输出图像之间的差异最小;生成图像的3D人脸关键点和目标人脸关键点的距离最小。
具体的,本申请实施例中,定义损失函数包括以下三部分生成图像的编码特征损失最小化:
Loss_1:计算生成图像output_generator_1和目标输出图像output_groundtruth之间的差异最小;Loss_2:计算预测出的3D人脸关键点和ground_truth 3D人脸关键点的距离最小;Loss_3:计算预测出的人脸姿态参数和ground_truth的人脸姿态参数之间的距离损失最小。
进一步地,上述一种唇动识别的方法中,以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络。构建对抗生成网络之前包括:
确定唇部区域的二维图像的编码特征;
计算3D唇部关键点的光流参数。
进一步地,上述一种唇动识别的方法,包括:
以唇部区域的二维图像的编码特征、光流参数以及人脸姿态参数作为输入构建对抗生成网络。
具体的,本申请实施例中,对抗生成网络的输入为原始二维的唇部区域图像input_1,3D唇部关键点input_2,人脸姿态参数input_3,其中,input_1经过神经网络编码器之后,编码特征为encode_input_1,input_2基于帧间变换,计算光流参数flow_input_2,将上述特征encode_input_1,flow_input_2和input_3作为输入构建对抗生成网络。
图3为本申请实施例提供的一种唇动识别的装置示意图。
第二方面,本申请实施例还提供一种唇动识别的装置,结合图3,包括:
获取模块301:用于获取二维人脸图像以及预先训练的3D人脸关键点生成模型。
具体的,本申请实施例中,获取模块301获取二维人脸图像可以通过交互设备摄像头的视频流获取图像帧序列,执行人脸检测模块,获取人脸位置区域图像,从而获取二维人脸图像,获取模块301获取的预先训练的3D人脸关键点生成模型是根据现有的人脸数据,标注出人脸关键点,训练得到的3D人脸关键点生成模型。
第一确定模块302:用于根据预先训练的3D人脸关键点生成模型确定3D唇部关键点。
具体的,本申请实施例中,第一确定模块302可以通过预先训练的3D人脸关键点生成模型确定3D唇部关键点。
第二确定模块303:用于根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像。
具体的,本申请实施例中,第二确定模块303根据3D唇部关键点和二维人脸图像确定唇部区域的二维图像。
估计模块304:用于根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数。
具体的,本申请实施例中,估计模块304根据3D人脸关键点估计人脸姿态参数的步骤上文已做详细介绍。
构建模块305:用于以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型。
具体的,本申请实施例中,构建模块305分别将唇部区域的二维图像、3D唇部关键点和人脸姿态参数作为输入构建对抗生成网络,以加快对抗生成网络的收敛,目标函数为生成图像的编码特征损失最小化得到的对抗生成网络的精度高。
输入模块306:用于将二维人脸图像输入到唇动识别模型中得到唇动信息。
具体的,本申请实施例中,输入模块306通过将二维人脸图像输入到唇动识别模型可以直接获得三维唇动信息,解决了用户在使用过程中的姿态和人脸方向限制问题,提供了一种对用户更加友好的交互体验,通过用户二维唇形估计出三维唇动信息,相比原有二维唇形的唇动识别系统,进一步提升了唇动识别的准确性,相比于利用3D摄像设备的唇动系统,降低了对图像采集硬件设备的要求。
第三方面,本申请实施例还提供一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行上述一种唇动识别的方法。
第四方面,本申请实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机上述一种唇动识别的方法。
图4是本公开实施例提供的一种电子设备的示意性框图。
如图4所示,电子设备包括:至少一个处理器401、至少一个存储器402和至少一个通信接口403。电子设备中的各个组件通过总线系统404耦合在一起。通信接口403,用于与外部设备之间的信息传输。可理解,总线系统404用于实现这些组件之间的连接通信。总线系统404除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见,在图4中将各种总线都标为总线系统404。
可以理解,本实施例中的存储器402可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
在一些实施方式中,存储器402存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本申请实施例提供的一种唇动识别的方法中任一方法的程序可以包含在应用程序中。
在本申请实施例中,处理器401通过调用存储器402存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器401用于执行本申请实施例提供的一种唇动识别的方法各实施例的步骤。
获取二维人脸图像以及预先训练的3D人脸关键点生成模型;
根据预先训练的3D人脸关键点生成模型确定3D唇部关键点;
根据3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像;
根据预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据3D人脸关键点估计人脸姿态参数;
以唇部区域的二维图像、3D唇部关键点以及人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;
将二维人脸图像输入到唇动识别模型中得到唇动信息。
本申请实施例提供的一种唇动识别的方法中任一方法可以应用于处理器401中,或者由处理器401实现。处理器401可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器401中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器401可以是通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本申请实施例提供的一种唇动识别的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器402,处理器401读取存储器402中的信息,结合其硬件完成一种唇动识别的方法的步骤。
本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。
本领域的技术人员能够理解,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种唇动识别的方法,其特征在于,包括:
获取二维人脸图像以及预先训练的3D人脸关键点生成模型;
根据所述预先训练的3D人脸关键点生成模型确定3D唇部关键点;
根据所述3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像;
根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据所述3D人脸关键点估计人脸姿态参数;
以所述唇部区域的二维图像、所述3D唇部关键点以及所述人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;
将所述二维人脸图像输入到所述唇动识别模型中得到唇动信息。
2.根据权利要求1所述的唇动识别的方法,其特征在于,所述根据所述预先训练的3D人脸关键点生成模型确定3D唇部关键点,包括:
根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点;
通过所述3D人脸关键点获取3D唇部关键点。
3.根据权利要求1所述的唇动识别的方法,其特征在于,所述根据所述3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像,包括:
基于所述3D唇部关键点获取二维人脸图像的唇部图像区域,
并在唇部图像区域向外扩充得到唇部区域的二维图像;
在唇部图像区域向外扩充包括:采用鼻尖关键点作为扩充的上界,脸部轮廓的关键点作为扩充的下界。
4.根据权利要求1所述的唇动识别的方法,其特征在于,根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据所述3D人脸关键点估计人脸姿态参数,包括:
获取标准3D人脸模型的关键点;
计算所述3D人脸关键点和所述标准3D人脸模型的关键点的旋转变换矩阵;
求解所述旋转变换矩阵估计人脸姿态参数。
5.根据权利要求1所述的唇动识别的方法,其特征在于,生成图像的编码特征损失最小化,包括:
生成图像的人脸姿态参数和目标人脸姿态参数之间的距离损失最小;生成图像和目标输出图像之间的差异最小;生成图像的3D人脸关键点和目标人脸关键点的距离最小。
6.根据权利要求1所述的唇动识别的方法,其特征在于,以所述唇部区域的二维图像、所述3D唇部关键点以及所述人脸姿态参数作为输入构建对抗生成网络,构建对抗生成网络之前包括:
确定唇部区域的二维图像的编码特征;
计算所述3D唇部关键点的光流参数。
7.根据权利要求6所述的唇动识别的方法,其特征在于,所述方法还包括:
以所述唇部区域的二维图像的编码特征、所述光流参数以及所述人脸姿态参数作为输入构建对抗生成网络构建对抗生成网络。
8.一种唇动识别的装置,其特征在于,包括:
获取模块:用于获取二维人脸图像以及预先训练的3D人脸关键点生成模型;
第一确定模块:用于根据所述预先训练的3D人脸关键点生成模型确定3D唇部关键点;
第二确定模块:用于根据所述3D唇部关键点和所述二维人脸图像确定唇部区域的二维图像;
估计模块:用于根据所述预先训练的3D人脸关键点生成模型估计出3D人脸关键点,根据所述3D人脸关键点估计人脸姿态参数;
构建模块:用于以所述唇部区域的二维图像、所述3D唇部关键点以及所述人脸姿态参数作为输入构建对抗生成网络,目标函数为生成图像的编码特征损失最小化得到唇动识别模型;
输入模块:用于将所述二维人脸图像输入到唇动识别模型中得到唇动信息。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述处理器通过调用所述存储器存储的程序或指令,用于执行如权利要求1至7任一项所述一种唇动识别的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储程序或指令,所述程序或指令使计算机执行如权利要求1至7任一项所述一种唇动识别的方法。
CN202111548005.4A 2021-12-16 2021-12-16 一种唇动识别的方法、装置、电子设备和存储介质 Pending CN114220172A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111548005.4A CN114220172A (zh) 2021-12-16 2021-12-16 一种唇动识别的方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111548005.4A CN114220172A (zh) 2021-12-16 2021-12-16 一种唇动识别的方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114220172A true CN114220172A (zh) 2022-03-22

Family

ID=80703475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111548005.4A Pending CN114220172A (zh) 2021-12-16 2021-12-16 一种唇动识别的方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114220172A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115965724A (zh) * 2022-12-26 2023-04-14 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
WO2024037280A1 (zh) * 2022-08-17 2024-02-22 马上消费金融股份有限公司 唇动检测方法和装置、存储介质和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024037280A1 (zh) * 2022-08-17 2024-02-22 马上消费金融股份有限公司 唇动检测方法和装置、存储介质和电子设备
CN115965724A (zh) * 2022-12-26 2023-04-14 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端
CN115965724B (zh) * 2022-12-26 2023-08-08 华院计算技术(上海)股份有限公司 图像生成方法及装置、计算机可读存储介质、终端

Similar Documents

Publication Publication Date Title
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
KR102387570B1 (ko) 표정 생성 방법, 표정 생성 장치 및 표정 생성을 위한 학습 방법
CN114220172A (zh) 一种唇动识别的方法、装置、电子设备和存储介质
KR101347840B1 (ko) 신체 제스처 인식 방법 및 장치
CN113706699B (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN111414797B (zh) 用于估计对象的姿势和姿态信息的系统和方法
US11417095B2 (en) Image recognition method and apparatus, electronic device, and readable storage medium using an update on body extraction parameter and alignment parameter
CN114663593B (zh) 三维人体姿态估计方法、装置、设备及存储介质
CN111968165A (zh) 动态人体三维模型补全方法、装置、设备和介质
CN110998663B (zh) 一种仿真场景的图像生成方法、电子设备和存储介质
CN112580582A (zh) 动作学习方法、装置、介质及电子设备
CN114783017A (zh) 基于逆映射的生成对抗网络优化方法及装置
CN111968208B (zh) 一种基于人体软组织网格模型的人体动画合成方法
CN111738092A (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN115131407B (zh) 面向数字仿真环境的机器人目标跟踪方法、装置和设备
CN113033430B (zh) 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN112257642B (zh) 人体连续动作相似性评价方法及评价装置
CN110753239B (zh) 视频预测方法、视频预测装置、电子设备和车辆
CN110519597A (zh) 一种基于hevc的编码方法、装置、计算设备和介质
CN114973396B (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
CN114782287B (zh) 动作数据修正方法、装置、设备及存储介质
CN117456611B (zh) 一种基于人工智能的虚拟人物训练方法及系统
Hatano et al. Trajectory Prediction in First-Person Video: Utilizing a Pre-Trained Bird's-Eye View Model.
WO2023185241A1 (zh) 数据处理方法、装置、设备以及介质
CN116152919A (zh) 手部姿态跟踪方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination