CN112016371B - 人脸关键点检测方法、装置、设备及存储介质 - Google Patents

人脸关键点检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112016371B
CN112016371B CN201910473174.2A CN201910473174A CN112016371B CN 112016371 B CN112016371 B CN 112016371B CN 201910473174 A CN201910473174 A CN 201910473174A CN 112016371 B CN112016371 B CN 112016371B
Authority
CN
China
Prior art keywords
face
information
frame
key
key point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910473174.2A
Other languages
English (en)
Other versions
CN112016371A (zh
Inventor
项伟
张小伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bigo Technology Pte Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201910473174.2A priority Critical patent/CN112016371B/zh
Priority to PCT/CN2020/081262 priority patent/WO2020238374A1/zh
Publication of CN112016371A publication Critical patent/CN112016371A/zh
Application granted granted Critical
Publication of CN112016371B publication Critical patent/CN112016371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种人脸关键点检测方法、系统、设备以及存储介质,涉及计算机视觉技术领域,该方法包括:获取视频的图像帧信息,其中,视频的图像帧信息包含关键帧信息和非关键帧信息;根据关键帧信息确定人脸框位置信息;基于人脸框位置信息,通过预先训练的第一神经网络进行人脸关键点检测,得到初始关键点位置信息;基于初始关键点位置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到视频的人脸关键点检测结果。本发明解决了现有技术采用单个深度卷积网络实现人脸关键点检测方案中存在的计算复杂度高、计算量大、实时处理效果差等问题,能够快速地、稳定地检测到人脸的关键点位置。

Description

人脸关键点检测方法、装置、设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种人脸关键点检测方法、装 置、设备及存储介质。
背景技术
在计算机视觉领域,基于视频数据的算法开发一直以来都受到学术界和工 业界的广泛关注。其中,人脸视频数据由于其在生物信息验证、监控安防、视 频直播等领域拥有非常现实的应用场景而占有很重要的地位。人脸关键点的检 测属于人脸图像处理当中非常重要的一步,其主要功能是准确地定位出人脸上 的关键点在图片上的位置,以为后续的操作作准备,如定位眼睛、鼻子、嘴角、 脸部轮廓点等人脸关键点在图片上的位置,以为后续的人脸对齐、人脸识别等 操作作准备。
在具体实现中,人脸关键点检测通常是位于人脸检测之后的一个环节。人 脸检测器通常将检测到的人脸位置信息已及相应的人脸图片输入到关键点检测 算法,得到当前人脸的关键点位置,如将以一个矩形框或者正方形框的形式给 出的人脸位置信息输入到关键点检测算法中进行计算,以将计算得到的结果确 定为当前人脸的关键点位置。近年来,基于深度卷积网络的人脸关键点检测算 法在精度上相比传统人脸关键点算法有了很大的提高。然而,基于一个深度卷 积网络实现的人脸关键点检测方法通常计算量大,需要对深度卷积网络的网络 结构进行精心设计安排,否则很难在计算资源有限的平台上达到实时处理的效 果,如很难在诸如手机等移动端上达到实时处理的效果。
发明内容
有鉴于此,本发明实施例提供一种新的人脸关键点检测方法、系统、设备 以及存储介质,以解决现有人脸关键点检测方法在移动端中受计算能力有限、 存储空间较小及实时性要求高等限制的问题。
第一方面,本发明实施例提供了一种人脸关键点检测方法,包括:获取视 频的图像帧信息,其中,所述视频的图像帧信息包含关键帧信息和非关键帧信 息;根据所述关键帧信息确定人脸框位置信息;基于所述人脸框位置信息,通 过预先训练的第一神经网络进行人脸关键点检测,得到初始关键点位置信息; 基于所述初始关键点位置信息,通过预先训练的第二神经网络进行人脸关键点 检测,得到所述视频的人脸关键点检测结果,其中,所述人脸关键点检测结果 包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人 脸关键点位置信息。
可选的,所述基于所述初始关键点位置信息,通过预先训练的第二神经网 络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,包括:根据所 述初始关键点位置信息生成图片裁剪框;通过所述图片裁剪框对所述关键帧信 息进行裁剪处理,得到关键帧人脸图片信息,并将所述关键帧人脸图片信息输 入到所述第二神经网络进行人脸关键点检测,得到所述关键帧信息对应的人脸 关键点位置信息。
可选的,所述根据所述关键帧信息确定人脸框位置信息之前,还包括:从 所述视频的图像帧信息中,选取出关键帧信息和所述关键帧信息对应的非关键 帧信息。其中,所述基于所述初始关键点位置信息,通过预先训练的第二神经 网络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,还包括:通 过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理,得到非关 键帧图片信息;当所述非关键帧图片信息包含人脸图片信息时,依据所述关键 帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息,并将所述非关 键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测,得到所述非 关键帧信息对应的人脸关键点位置信息。
可选的,在得到非关键帧图片信息之后,还包括:将所述非关键帧图片信 息输入到人脸检测跟踪网络中,得到人脸检测跟踪网的输出信息,所述输出信 息包含人脸概率信息;基于所述人脸概率信息确定所述非关键帧图片信息是否 包含人脸图片信息。
可选的,所述输出信息还包含人脸框相对位置信息和关键点相对位置信息, 所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信 息之前,还包括:依据所述人脸框相对位置信息和关键点相对位置信息,确定 所述非关键帧信息的人脸关键点信息。其中,所述依据所述关键帧信息对应的 人脸关键点位置信息生成非关键帧人脸图片信息,包括:基于所述非关键帧信 息的人脸关键点信息,对所述关键帧信息对应的人脸关键点位置信息进行修正, 得到关键点修正信息;根据所述关键点修正信息和所述初始关键点位置信息, 确定关键点追踪位置信息;根据所述关键点追踪位置信息生成人脸图片裁剪框; 通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理,得到所述非关键帧人脸图片信息。
可选的,所述根据所述关键帧信息确定人脸框位置信息,包括:将所述关 键帧信息输入到人脸检测器中,其中,所述人脸检测器用于检测人脸框位置; 将所述人脸检测器的输出信息确定为所述人脸框位置信息。
第二方面,本发明实施例还提供了一种人脸关键点检测装置,包括:
视频图像帧获取模块,用于获取视频的图像帧信息,其中,所述视频的图 像帧信息包含关键帧信息和非关键帧信息;
第一人脸关键点检测模块,用于根据所述关键帧信息确定人脸框位置信息, 并基于所述人脸框位置信息,通过预先训练的第一神经网络进行人脸关键点检 测,得到初始关键点位置信息;
第二人脸关键点检测模块,用于基于所述初始关键点位置信息,通过预先 训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检测结 果,其中,所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位 置信息和所述非关键帧信息对应的人脸关键点位置信息。
可选的,所述第二人脸关键点检测模块包括:
图片裁剪框生成子模块,用于根据所述初始关键点位置信息生成图片裁剪 框;
关键帧裁剪处理子模块,用于通过所述图片裁剪框对所述关键帧信息进行 裁剪处理,得到关键帧人脸图片信息;
关键帧人脸关键点检测子模块,用于将所述关键帧人脸图片信息输入到所 述第二神经网络进行人脸关键点检测,得到所述关键帧信息对应的人脸关键点 位置信息。
第三方面,本发明实施例还提供了一种设备,包括:处理器和存储器;所 述存储器中存储有至少一条指令,所述指令由所述处理器执行,使得所述设备 执行如第一方面所述的人脸关键点检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介 质中的指令由设备的处理器执行时,使得设备能够执行如第一方面所述的人脸 关键点检测方法。
采用本发明实施例,在获取视频的图像帧信息后,可以根据该视频的图像 帧信息中的关键帧信息确定出人脸框位置信息,以基于该人脸框位置信息通过 第一神经网络进行人脸关键点检测,得到初始关键点位置信息,随后可基于该 初始关键点位置信息通过第二神经网络进行人脸关键点检测,即利用两级的神 经网络进行人脸关键点检测,从而解决了现有技术采用单个深度卷积网络实现 人脸关键点检测方案中存在的计算复杂度高、计算量大、实时处理效果差等问 题,能够快速地、稳定地检测到人脸的关键点位置,亦即达到快速、稳定处理 视频中的人脸关键点检测及追踪问题的目的。
附图说明
图1是本发明实施例中的一种人脸关键点检测方法的步骤流程示意图;
图2是本发明一个可选实施例中的一种人脸关键点检测方法的步骤流程示 意图;
图3是本发明一个示例中的一个视频中的人脸关键点检测与追踪流程示意 图;
图4是本发明一个示例中对上一帧的人脸关键点进行修正的流程示意图;
图5是本发明实施例中的一种人脸关键点检测装置实施例的结构方框示意 图;
图6是本发明一个示例中的一种设备的结构方框示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结 构或组成。
本发明人发现,当前大部分的人脸关键点检测算法都是基于单张静态图像 去设计的;而对于视频中的人脸关键点的检测,通常是逐帧处理或者运用一般 物体追踪算法来追踪人脸再检测人脸关键点。现有人脸关键点追踪方案可以大 致可以分为两类:一类是通过逐帧进行人脸检测和人脸关键点检测;另一类是 对第一个图像帧进行人脸检测,再以检测到的人脸为目标运用一般物体追踪方 法对后续图像帧进行人脸框追踪,在每一个追踪到的人脸上使用关键点检测算 法,如果在某个图像帧追踪失败没有找到人脸,则重新运用人脸检测器检测人 脸。其中,第一类方案由于需要对每个图像帧都进行人脸检测和关键点检测, 没有充分利用相邻帧之间的关联信息,速度上受到限制;另外,由于每个图像 帧都是独立处理,容易出现关键点抖动的问题,影响到后续的依赖关键点稳定 性的模块,如影响后续依靠检测出的人脸关键点进行人脸贴纸特效设置的模块, 降低用户体验。第二类方案在某个图像帧追踪失败没有找到人脸时重新运用人 脸检测器检测人脸,虽然在关键点稳定性方面相比第一类方案要高,但是一方 面作为一般物体追踪方法通常比较耗时,另一方面存在两个潜在问题。一个潜 在问题是,由于在视频中人脸会经常出现快速的姿态、尺度、遮挡、表情等变 化,如手机视频中人脸会经常出现快速的姿态、尺度、遮挡、表情等变化,导 致物体追踪方法失效并且重新使用人脸检测器;另一个问题是,一般人脸关键 点算法对于输入的人脸在人脸框内的相对位置比较敏感,即扰动输入的人脸框, 关键点检测算法在扰动前后输出的结果会有很大差异,而通过追踪得到的人脸 框相比通过检测器得到的人脸框人脸贴合程度要低,这会导致关键点检测出现 误差。可见,现有这些人脸关键点检测方法存在计算复杂度高、易丢失追踪目 标等问题。另外,大部分人脸关键点检测的应用场景都在诸如手机等移动端, 现有人脸关键点检测方案存在计算能力有限、存储空间较小、实时性要求较高 等限制。
为了实现快速、稳定地人脸关键点检测及追踪,本发明实施例提出了一种 新的人脸关键点检测方法。具体的,本发明实施例在获取到视频信息后,可以 根据该视频信息中的关键帧信息确定出人脸框位置信息,以根据该人脸框位置 信息通过第一神经网络确定出初始关键点位置信息,随后可基于该初始关键点 位置信息,通过第二神经网络进行人脸关键点检测,得到该视频的人脸关键点 检测结果,亦即利用了两级的神经网络来实现视频信息中的人脸关键点检测, 从而能够高效处理视频中人脸关键点的检测。
参照图1,示出了本发明实施例中的一种人脸关键点检测方法的步骤流程 示意图。该人脸关键点检测方法可用于诸如人脸识别、人脸上的特效贴纸、换 脸特效等人脸视觉应用中,具体可以包括如下步骤:
步骤110,获取视频的图像帧信息,其中,所述视频的图像帧信息包含关 键帧信息和非关键帧信息。
具体而言,一个视频可以包含一个或多个视频帧;每个视频帧可以包含用 于显示视频画面的图像帧和/或用于播放视频声音的音频帧等。本实施例中的视 频的图像帧信息可以表征视频中的图像帧,如可以是指视频帧中的图像信息, 具体可以用于显示视频画面,使得用户可以观看到视频的播放画面。
本发明实施例在检测视频中的人脸关键点时,可以获取当前需要检测的视 频的图像帧信息,以根据该图像帧信息中的人脸图片信息进行人脸关键点检测。 其中,人脸图片信息可以用于表征视频帧中所包含的人脸图片,如在某一视频 帧包含一个人的人脸图片时,可以基于图像帧信息中的人脸图片信息确定这个 人在该视频帧中显示的人脸图片;又如,在某一视频帧包含多个人脸图片的情 况下,可以基于图像帧信息中的人脸图片信息确定在该视频帧中显示的多个人 的人脸图片等。
进一步的,本发明实施例在获取到视频的图像帧信息后,可以将获取到的 图像帧信息分为关键帧信息和非关键帧信息,以基于关键帧信息检测出人脸框 位置,即执行步骤120。其中,关键帧信息可以表征视频中关键图像帧(简称 关键帧),而非关键帧信息可以表征视频中非关键图像帧(简称非关键帧)。
步骤120,根据所述关键帧信息确定人脸框位置信息,并基于所述人脸框 位置信息,通过预先训练的第一神经网络进行人脸关键点检测,得到初始关键 点位置信息。
具体的,本实施例在获取到表征关键帧的关键帧信息后,可以利用预先好 的人脸检测器,如作为人脸检测器的联合人脸定位及对齐的多任务级联卷积网 络(Multi-TaskConvolutional Neural Network,MTCNN),对该关键帧信息进 行检测,产生人脸框位置信息。该人脸框位置信息可以表征人脸框位置,具体 可以确定人脸框在视频的图像帧中的显示位置。随后,可以基于该人脸框位置 信息从该关键帧中裁剪出人脸框图片,亦即按照人脸框位置从作为视频关键帧 的图像帧中裁剪出包含人脸的人脸框图片,并可生成对应的人脸框图片信息, 以采用人脸框图片信息表征裁剪出的人脸图片,然后可以将生成的人脸框图片 信息输入到预先训练的第一神经网络进行人脸关键点检测,以初步检测出人脸 关键点的位置,如可以将第一神经网络的输出信息作为初始关键点位置信息, 以便后续可以采用该初始关键点位置信息初步确定人脸关键点位置,如确定人 脸关键点在当前关键帧的大概位置。
步骤130,基于所述初始关键点位置信息,通过预先训练的第二神经网络 进行人脸关键点检测,得到所述视频的人脸关键点检测结果。
其中,所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位 置信息和所述非关键帧信息对应的人脸关键点位置信息。
具体而言,本实施例中的视频的人脸关键点检测结果可以用于确定该视频 中各图像帧的人脸关键点位置,具体可以包括视频中各图像帧信息对应的人脸 关键点位置信息,如可以包括关键帧信息对应的人脸关键点位置信息、所述非 关键帧信息对应的人脸关键点位置信息等。其中,图像帧信息对应的人脸关键 点位置信息可以用于表征图像帧的人脸关键点位置,如关键帧信息对应的人脸 关键点位置信息可以用于表征关键帧中的人脸关键点位置,又如非关键帧信息 对应的人脸关键点位置信息可以用于表征非关键帧中的人脸关键点位置等。
在具体实现中,本发明实施例在确定出初始关键点位置信息后,可以基于 该初始关键点位置信息,按照人脸关键点在当前关键帧的大概位置生成图片裁 剪框,随后可以采用该图片裁剪框对当前关键帧中人脸图片进行一步的裁剪, 亦即可以采用该图片裁剪框对该视频的图像帧进行裁剪处理,得到关键帧人脸 图片信息,并可采用该关键帧人脸图片信息表征此次裁剪处理后得到的图片。 随后,可以将得到的关键帧人脸图片信息输入到预先训练的第二神经网络进行 人脸关键点检测,并可将第二神经网络检测后输出的信息确定为当前关键帧的 人脸关键点信息,以及可以基于该关键帧的人脸关键点信息对视频中的非关键 帧进行人脸关键点检测及追踪,得到非关键帧的人脸关键点信息,从而可以基于该关键帧的人脸关键点信息和/或非关键帧的人脸关键点信息生成视频的人 脸关键点检测结果。
综上,本发明实施例在获取视频的图像帧信息后,可以根据该视频的图像 帧信息中的关键帧信息确定出人脸框位置信息,以基于该人脸框位置信息通过 第一神经网络进行人脸关键点检测,得到初始关键点位置信息,随后可基于该 初始关键点位置信息通过第二神经网络进行人脸关键点检测,即利用两级的神 经网络进行人脸关键点检测,从而解决了现有技术采用单个深度卷积网络实现 人脸关键点检测方案中存在的计算复杂度高、计算量大、实时处理效果差等问 题,能够快速地、稳定地检测到人脸的关键点位置,亦即达到快速、稳定处理 视频中的人脸关键点检测及追踪问题的目的。
在实际处理中,本实施例在获取视频的图像帧后,可以按照预设规则从该 视频图像帧中选择其中一帧或多帧作为关键帧,如从视频的每N帧图像帧中选 择其中的第一帧作为关键帧,并可将其余图像帧作为非关键帧,即将与该关键 帧相邻的连续(N-1)帧的图像帧确定为该关键帧对应的非关键帧,其中,N的 取值可以根据不同的应用场景确定,亦即,N的取值可根据不同的应用场景变 化。随后,可在该关键帧中利用人脸检测器检测出人脸框位置,以按照该人脸 框位置从关键帧信息中裁剪出人脸框图像信息,进而可以通过第一神经网络对 该人脸框图像信息进行人脸关键点检测,以检测出该关键帧中大概的人脸关键点。
在上述实施例的基础上,可选的,本实施例提供的人脸关键点检测方法在 根据所述关键帧信息确定人脸框位置信息之前,还可以包括:从所述视频的图 像帧信息中,选取出关键帧信息和所述关键帧信息对应的非关键帧信息。随后, 可以根据该关键帧信息确定出人脸框位置信息,以基于该人脸框位置信息通过 第一神经网络确定出人脸关键点大概位置。例如,可以将视频中第t帧图片确 定为关键帧信息,并科将该视频中的第(t+1)帧到第(t+N-1)帧的图片确定 为非关键帧信息,并可以这些非关键帧信息与作为关键帧信息的第t帧图片相 关联,以将这些非关键帧信息确定为上述关键帧信息对应的非关键帧信息。其 中,t可以是大于0的整数。
可选的,上述根据关键帧信息确定出人脸框位置信息,具体可以包括:将 所述关键帧信息输入到人脸检测器中,其中,所述人脸检测器用于检测人脸框 位置;将所述人脸检测器的输出信息确定为所述人脸框位置信息。从而,可以 基于该人脸框位置信息确定出人脸框位置,以按照人脸框位置从关键帧中裁剪 出人脸框图片,生成对应的人脸框图片信息,如用作为人脸检测器的MTCNN 检测出人脸框位置,并对每个人脸框位置对应的方框作正方形扩充处理,即可 以以框的中心为正方形中心,框的长边为正方形的边,进行扩充处理,得到这 个正方形所裁剪到的人脸框图片信息,并可将该人脸框图片信息输入到第一神经网络中进行人脸关键点检测。该第一神经网络可以作为是人脸关键点检测过 程中的第一级的人脸关键点检测网络,具体可以用于对视频关键帧的人脸框图 片进行关键点检测,输出初始关键点位置信息,以便后续流程也依据该初始关 键点位置信息对关键帧和/或非关键帧进行进一步的人脸关键点检测,从而能够 快速、稳定地检测出视频中人脸关键点位置。其中,初始关键点位置信息可以 用于初步确定出人脸关键点大概位置。
在本发明的一个可选实施例中,上述基于所述初始关键点位置信息,通过 预先训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检 测结果,具体包括:根据所述初始关键点位置信息生成图片裁剪框;通过所述 图片裁剪框对所述关键帧信息进行裁剪处理,得到关键帧人脸图片信息,并将 所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测,得到 所述关键帧信息对应的人脸关键点位置信息。
具体而言,本发明实施例在确定出初始关键点位置信息后,可以基于该初 始关键点位置信息生成一个图片裁剪框,以采用该图片裁剪框按照人脸关键点 大概位置裁剪出当前关键帧对应的人脸图片信息,即对关键帧信息进行裁剪处 理,得到关键帧人脸图片信息。随后,可以将关键帧人脸图片信息作为第二神 经网络的输入,输入到第二神经网络中进行进一步的人脸关键点检测,以精确 地的确定出该关键帧的人脸关键点位置,并可将第二神经网络的输出信息确定 为该关键帧信息对应的人脸关键点位置信息,以便后续可以基于该人脸关键点 位置信息对该关键帧信息对应的非关键帧信息进行人脸关键点进行检查及追 踪,即利用视频相邻帧间的信息进行人脸关键点追踪,生成非关键帧信息对应 的人脸关键点位置信息,从而可以基于关键帧信息对应的人脸关键点位置信息 和/非关键帧信息对应的人脸关键点信息生成视频的人脸关键点检测结果,达到 高速处理视频中人脸关键点的检测的目的。
在上述实施例的基础上,可选的,本发明实施例中基于所述初始关键点位 置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到所述视频的 人脸关键点检测结果,还可以包括:通过所述图片裁剪框对所述关键帧信息对 应的非关键帧信息裁剪处理,得到非关键帧图片信息;当所述非关键帧图片信 息包含人脸图片信息时,依据所述关键帧信息对应的人脸关键点位置信息生成 非关键帧人脸图片信息,并将所述非关键帧人脸图片信息输入到所述第二神经 网络进行人脸关键点检测,得到所述非关键帧信息对应的人脸关键点位置信息。
参照图2,示出了本发明一个可选实施例中的一种人脸关键点检测方法的 步骤流程示意图。该人脸关键点检测方法具体可以包括如下步骤:
步骤210,获取视频的图像帧信息。
其中,所述视频的图像帧信息包含关键帧信息和非关键帧信息。
步骤220,从所述视频的图像帧信息中,选取出关键帧信息和所述关键帧 信息对应的非关键帧信息。
步骤230,将所述关键帧信息输入到人脸检测器中。
其中,所述人脸检测器用于检测人脸框位置。
步骤240,将所述人脸检测器的输出信息确定为所述人脸框位置信息。
具体的,本发明实施例在从视频中选出关键帧信息后,可以将该关键帧信 息输入到人脸检测器中,以通过人脸检测器检测出关键帧的人脸框位置,即可 基于人脸检测器的输出信息确定为人脸框位置信息,从而基于该人脸框位置信 息按照人脸框位置从关键帧裁剪出人脸框图片信息进行初步的人脸关键点检 测,即执行步骤250。
步骤250,基于所述人脸框位置信息,通过预先训练的第一神经网络进行 人脸关键点检测,得到初始关键点位置信息。
步骤260,根据所述初始关键点位置信息生成图片裁剪框。
步骤270,通过所述图片裁剪框对所述关键帧信息进行裁剪处理,得到关 键帧人脸图片信息,并将所述关键帧人脸图片信息输入到所述第二神经网络进 行人脸关键点检测,得到所述关键帧信息对应的人脸关键点位置信息。
具体的,本发明实施例在确定出人脸框位置信息后,可以基于该人脸框位 置信息按照人脸框位置从关键帧中裁剪出人脸框图片信息,以将该裁剪出的人 脸图片信息输入到第一神经网络中进行人脸关键点检测,得到初始关键点位置 信息,从而可以基于初始关键点位置信息生成一个图片裁剪框,以采用该图片 裁剪框按照人脸关键点大概的位置对关键帧进行裁剪处理,得到关键帧人脸图 片信息。关键帧人脸图片信息可以用于表征视频关键帧中的人脸图片。随后, 可以将关键帧人脸图片信息作为第二神经网络的输入,输入到第二神经网络中 进行进一步的人脸关键点检测,以基于第二神经网络所输出的信息精确、稳定 地确定出关键帧中人脸关键点位置,如可将该第二神经网络所输出的信息确定为关键帧信息对应的人脸关键点位置信息,以便后续可以基于该关键帧信息对 应的人脸关键点位置信息对非关键帧的人脸关键点进行检测及追踪。
作为本发明的一个示例,在从视频的每N帧选取一帧作为关键帧,其余帧 作为非关键帧的情况下,如图3所示,可以将视频中第t帧、第t+N帧确定为 关键帧信息,并可以在每个关键帧中,用作为人脸检测器的MTCNN检测出人 脸框位置,并可对该MTCNN确定出的每个一个框作正方形扩充处理,以根据 这个正方形裁剪人脸图片,如图3中所示的裁剪人脸图片I模块,并且可以将 裁剪得到人脸图片并且缩放到宽、高均为70像素后输入到作为第一神经网络的 人脸关键点检测网络C进行处理,得到作为初始关键点位置信息的106个人脸 关键点坐标。随后,可以根据该106个人脸关键点坐标构成最小正方形框裁剪 一个人脸图片,如图3中所示的裁剪人脸图片II模块,即可将构成的最小正方 形框作为图片裁剪框,以采用该图片裁剪框裁对关键帧信息进行裁剪处理,得 到关键帧人脸图片信息,如可将裁剪得到的人脸图片缩放到宽、高均为70像素 后输入到作为第二神经网络的人脸关键点检测网络F中进行处理,以得到更准 确的106个人脸关键点坐标,作为关键帧信息对应的人脸关键点位置信息,从 而可以基于关键帧信息对应的人脸关键点位置信息生对应视频的人脸关键点检 测结果,以便后续可以基于该关键帧信息对应的人脸关键点位置信息进行关键 点进后处理,并可根据得到的关键帧信息对应的人脸关键点位置信息对非关键 帧的人脸关键点进行检测及追踪,执行步骤280,以利用相邻帧间的信息去直 接追踪视频中的人脸关键点,达到高效处理视频中人脸关键点的检测的目的。
需要说明的是,本示例中的人脸关键点检测网络C与人脸关键点检测网络F均可以通过多个卷积层(Convolution Layer)和特征池化层(Pooling Layer)去提 取特征,并且可以通过全连接层(Fully Connected Layer)来回归关键点的相对位 置。虽然这两个人脸关键点检测网络的网络结构一样,但是在人脸关键点检测 网络C的每一层中使用了更少的通道(Channel)数目,因此作为第一神经网络 的人脸关键点检测网络C比作为第二神经网络的人脸关键点检测网络F更轻 量。另外,这两个人脸关键点检测网络的输入图片的裁剪方式不同,人脸关键 点检测网络C的输入图片可以是通过人脸框裁剪得到的,而人脸关键点检测网 络C的输入图片可以是根据106个人脸关键点裁剪得到的,且根据这106个人 脸关键点位置裁剪得到的输入图片会更加紧贴人脸。此外,这个两个人脸关键 点检测网络可以是分别独立训练的,且每个卷积层的权重都可以是不同的,以 降低由于人脸框不够紧贴人脸而导致关键点不准的影响。由此可见,本发明实 施例可以通过一个两级神经网络进行人脸关键点检测的渐进方法,得到更准确 的关键点位置,具体的,人脸关键点检测网络C可以回归出关键点的粗略位置, 而人脸关键点检测网络F则进一步改善得到更准确的关键点。
步骤280,通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁 剪处理,得到非关键帧图片信息。
具体的,本发明实施例在非关键帧中,可以利用图片裁剪框在当前帧裁进 行裁剪处理,如对图3中所示的第t+1帧图片进行裁剪处理,以基于裁剪出的 图片生成对应的非关键帧图片信息。该非关键帧图片信息可以用于表征根据关 键帧的人脸关键点位置从视频非关键帧中裁剪出的图片。随后,可以将该非关 键帧图片信息作为人脸检测追踪网的输入,以通过该人脸检测追踪网对该非关 键帧图片信息中的人脸进行检测及追踪,如确定非关键帧图片信息是否包含人 脸图片信息。其中,人脸检测追踪网可以作为人非关键帧的人脸检测器,如可 以是图3中所示的人脸检测器追踪网(Tracking Net,TNet),该人脸检测器Tnet可以判断非关键帧图片信息是否包含人脸图片信息,以判断输入图片是否 是人脸图片,并可在判断出输入图片是人脸图片时,输出人脸框的相对位置和 人脸关键点的相对位置息等。需要说明的是,人脸图片信息可以包括用于表征 人脸图片的各种信息,如可以是人脸图片对应的图像信息等,本实施例对此不 作限制。
步骤290,依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧 人脸图片信息,并将所述非关键帧人脸图片信息输入到所述第二神经网络进行 人脸关键点检测,得到所述非关键帧信息对应的人脸关键点位置信息。
可选的,本发明实施例在得到非关键帧图片信息之后,还包括:将所述非 关键帧图片信息输入到人脸检测跟踪网络中,得到人脸检测跟踪网的输出信息, 所述输出信息包含人脸概率信息;基于所述人脸概率信息确定所述非关键帧图 片信息是否包含人脸图片信息。人脸概率信息可以用于确定非关键帧是否包含 人脸图片,如可以表征该非关键帧包含人脸图片的概率;当人脸概率信息的值 超过一定阈值时,可以确定非关键帧图片信息包含人脸图片信息;相应的,在 人脸概率信息的值不超过上述阈值时,可以确定非关键帧图片中的人脸数目与 对应关键帧中的人脸数目相比减少了,即可确定在非关键帧中出现了人脸数目 的变化,随后可将当前的非关键帧转化为关键帧来处理,即对当前帧进行关键帧的操作,如在确定出非关键帧图片信息不包含人脸图片信息时,可将当前的 非关键帧转化为关键帧来处理,以将关键帧上的人脸检测、两级关键点检测作 用在当前帧上,以防止处理误检测或者漏检测的情形。在非关键帧图片信息包 含人脸图片信息时,可以确定当前的非关键帧包含人脸图片,并可通过人脸检 测追踪网,利用关键帧的人脸关键点位置对该非关键帧进行人脸检测,以检测 出非关键帧中人脸关键点大概的位置,以及生成对应的非关键帧人脸图片信息, 即执行步骤290。其中,非关键帧人脸图片信息可以表征非关键帧的人脸图片 信息,具体可以包括非关键帧信息的人脸关键点信息,如可以包括非关键帧中 5个人脸关键点坐标等。这5个人脸关键点坐标可以分别是左眼中心、右眼中 心、鼻尖、嘴巴左角、嘴巴右角的位置坐标。
在本发明的一个可选实施例中,人脸检测跟踪网的输出信息还可以包含人 脸框相对位置信息和关键点相对位置信息。所述依据所述关键帧信息对应的人 脸关键点位置信息生成非关键帧人脸图片信息之前,还可以包括:依据所述人 脸框相对位置信息和关键点相对位置信息,确定所述非关键帧信息的人脸关键 点信息。其中,人脸框相对位置信息可以表示回归人脸框的相对位置,如可以 是人脸检测跟踪网通过输出层输出的一个4维向量;关键点相对位置信息可以 用于5个人脸关键点的相对位置,如可以是人脸检测跟踪网通过输出层输出的 一个10维向量等。
在实际处理中,本发明实施例中的人脸检测跟踪网在接收到输入的非关键 帧图片信息后,可以基于该非关键帧图片信息判断该非关键帧所显示的图片是 否是人脸图片;如果是人脸图片,则回归该人脸图片在当前帧人脸框的位置, 并且可输出其中5个人脸关键点左眼中心、右眼中心、鼻尖、嘴巴左角、嘴巴 右角的位置坐标,即输出非关键帧信息的人脸关键点信息,以作为该人脸检测 跟踪网的输出信息。
具体的,结合上述示例,人脸检测跟踪网输出的5个人脸关键点信息可以 是人脸关键点检测网络C和人脸关键点检测网络F输出的106个关键点当中的 一部分,如在人脸检测跟踪网的输出层为全连接层FC的情况下,可以通过该 全连接层FC,输出一个2维向量(p0,p1),作为人脸概率信息,以表示输入 图片是/不是人脸的概率,如在p0表示非人脸的概率且p1表示人脸的概率的情 况下,p0与p1的和可以为1,即p0+p1=1,当p1超过预设的阈值时可以判断 为检测到了人脸,否则可以判断为当前输入的图片是非人脸图片;并可输出一 个4维向量(x0,y0,w,h),作为人脸框相对位置信息,以表示回归的人脸框的相 对位置,其中(x0,y0)可以是人脸框的左上角在图片中的坐标,(w,h)可以是人脸 框的宽和高,如在输入TNet的一个作为非关键帧图片信息的方框信息是(x0,y0, w,h),输出的4维向量是(dx0,dy0,dx1,dy1)时,可以采用输出的4维向量中的 这4个数表示检测出来的框相对于输入框的相对位置,其对应的检出框是 (x0+dx0*w,y0+dy0*h,(dx1-dx0)*w,(dy1-dy0)*h),以便后续可以将该检出框作 为非关键帧的人脸框对非关键帧的图片进行裁剪处理;以及可输出一个10维向 量(dx0,dy0,...,dx4,dy4),作为关键点相对位置信息,以表示5个人脸关键点的 相对位置,从而可以确定出该非关键帧的5个人脸关键点坐标是(x0+dx0*w, y0+dy0*h,...,x0+dx4*w,y0+dy4*h),以作为非关键帧信息的人脸关键点信息, 随后可以基于这5个人脸关键点坐标对上一帧的人脸关键点位置信息进行修正 处理,得到输入到第二神经网络的非关键帧人脸图片信息,如图3中所示的裁 剪人脸图片III,进而可以通过第二神经网络对该非关键帧人脸图片信息进行进 一步的人脸关键点检测,以产生非关键帧的人脸关键点位置信息。相比在关键 帧上使用的人脸检测器MTCNN,Tnet可以是一个计算量更小的网络。因为视 频中相邻帧之间人脸在图片中的位置变化不大,由上一帧传递来的人脸关键点 位置信息已经给出了人脸在当前帧的大概位置,因此只需要用一个简单的人脸 检测追踪网络就可以回归出人脸框的位置。
进一步而言,由于将上一帧的信息作为关键帧信息,用在当前帧上,对于 快速的人脸运动可能会出现偏差,因此引入一个关键点修改模块修正这些人脸 关键点的坐标位置。在一种可选实施方式中,可以采用一个线性变换的方式, 利用TNet学习到的当前帧的新信息来修正上一帧传递来的106个人脸关键点的 位置,从而可以利用修正后的106个人脸关键点的坐标构成最小正方形框裁剪 一个人脸图片,如图3中裁剪人脸图片III,并可以将该裁剪出的人脸图片缩放 到宽、高均为70像素后,作为非关键帧人脸图片信息,输入到人脸关键点检测 网络F进行人脸关键点检测,得到当前帧的106个人脸关键点坐标,以作为非 关键帧信息对应的人脸关键点位置信息。
可选的,本实施例依据所述关键帧信息对应的人脸关键点位置信息生成非 关键帧人脸图片信息,具体可以包括:基于所述非关键帧信息的人脸关键点信 息,对所述关键帧信息对应的人脸关键点位置信息进行修正,得到关键点修正 信息;根据所述关键点修正信息和所述初始关键点位置信息,确定关键点追踪 位置信息;根据所述关键点追踪位置信息生成人脸图片裁剪框;通过所述人脸 图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理,得到所 述非关键帧人脸图片信息。
具体而言,本实施例在人脸关键点的追踪过程中,针对非关键帧,可以采 用上一帧的人脸关键点坐标作为当前帧对应人脸关键点的大致位置,以利用相 邻帧的信息达到对非关键帧进行人脸关键点检测及追踪的目的。为了应对帧间 的变化,增加了一个矫正的步骤,即是以TNet输出的5个人脸关键点坐标为基 准,根据TNet输出的5个人脸关键点坐标与上一帧对应5个人脸关键点坐标的 差异计算出线性变换信息(A*,b*),然后可以将该线性变化信息(A*,b*) 作用在上一帧的所有106个人脸关键点上,得到修正后的106个人脸关键点信 息,以依据修改后的106个人脸关键点信息裁人脸图片,使得裁剪得到的人脸 图片会更贴合当前帧的人脸,在效果上起到了关键帧处理流程上人脸关键点检 测网络C的作用。
例如,结合上述示例,可在非关键帧上,诸如Tnet等人脸检测跟踪网可回 归出5个人脸关键点的坐标,如可以记作{(u’1,v’1),……,(u’5,v’5)},如图4所 示,Tnet输出5个人脸关键点坐标;并可从上一帧的人脸关键点检测网络F输 出的106个人脸关键点坐标中抽取出这5个人脸关键点的坐标,记作 {(u1,v1),……,(u5,v5)},以及可以将人脸关键点检测网络F输出的其余101 个人脸关键点的坐标记作为{(u6,v6),……,(u106,v106)},随后可以将抽取出的 5个人脸关键点的坐标{(u1,v1),……,(u5,v5)}作为关键帧信息对应的人脸关键点位置信息,以基于该关键帧信息对应的人脸关键点位置信息进行修正,得 到关键点修正信息。
作为本发明的一个可选实施方式,可以通过计算公式
Figure RE-GDA0002106250900000161
确定出作为关键点修正信息的线性变换信息(A*,b*)。其中,A可以通过计算公式
Figure RE-GDA0002106250900000162
来确定,b可以根据公式b=(bx,by)来确定。需 要说明的是,s可以是表征缩放系数,R可以是2x2的旋转变换矩阵,b可以 是2维的位移向量。
具体的,线性变换信息(A*,b*)可以由以下步骤得到:
步骤S1,分别根据公式
Figure RE-GDA0002106250900000163
和公式
Figure RE-GDA0002106250900000164
求两组人脸关键点的平均坐标,并可以中心化计算出的这两组人脸关键点的坐标,如可以按照公式
Figure RE-GDA0002106250900000165
中心化作为关键帧的上一帧的这组人脸关键点的坐 标,且可按照公式
Figure RE-GDA0002106250900000166
中心化作为关键帧的上一帧 的这组人脸关键点的坐标;
步骤S2,按照公式
Figure RE-GDA0002106250900000171
计算2x2矩阵C,并可按照公式 C=U∑VT对矩阵C奇异值分解,得到最优的2x2旋转矩阵R*,且R*=VTU;
步骤S3,根据最优的2x2旋转矩阵R*计算数值S*,如按照计算公式S*=e/d计 算得到,其中,
Figure RE-GDA0002106250900000172
步骤S4,根据最优的2x2旋转矩阵R*和数值S*确定A*和b*,其中, A*=s*R*
Figure BDA0002081341380000174
随后,可以通过线性变换信息(A*,b*),利用TNet学习到的当前帧的 新信息来修正上一帧传递来的106个人脸关键点的位置,如可以按照修正公式
Figure BDA0002081341380000175
将线性变换线性信息(A*,b*)作用 于上一帧所有的106个人脸关键点的坐标位置,从而使得根据修正后106个人 脸关键点裁剪出得人脸图片更加贴近当前帧的人脸。具体而言,可以利用修正 后的106个关键点的坐标构成最小正方形框裁剪一个人脸图片,如图3中裁剪 人脸图片III,并可将裁剪得到的人脸图片缩放到宽、高均为70像素后输入人 脸关键点检测网络F得到当前帧的106个人脸关键点坐标,亦即根据所述关键 点追踪位置信息生成人脸图片裁剪框,并通过所述人脸图片裁剪框对所述非关 键帧信息和/或所述非关键帧图片信息裁剪处理,得到非关键帧人脸图片信息, 以及将所输入到作为第二神经网络的人脸关键点检测网络F进行人脸关键点检 测,得到所述非关键帧信息对应的人脸关键点位置信息,以便后续可以基于非 关键帧信息对应的人脸关键点位置信息生成视频的人脸关键点检测结果,达到 对视频中人脸关键点检测及追踪的目的。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列 的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动 作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时 进行。
参照图5,示出了本发明实施例中的一种人脸关键点检测装置实施例的结 构方框示意图,该人脸关键点检测装置具体可以包括如下模块:
视频图像帧获取模块510,用于获取视频的图像帧信息,其中,所述视频 的图像帧信息包含关键帧信息和非关键帧信息;
第一人脸关键点检测模块520,用于根据所述关键帧信息确定人脸框位置 信息,并基于所述人脸框位置信息,通过预先训练的第一神经网络进行人脸关 键点检测,得到初始关键点位置信息;
第二人脸关键点检测模块530,用于基于所述初始关键点位置信息,通过 预先训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检 测结果,其中,所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键 点位置信息和所述非关键帧信息对应的人脸关键点位置信息。
在本发明的一个可选实施例中,所述第二人脸关键点检测模块530可以包 括如下模块:
图片裁剪框生成子模块,用于根据所述初始关键点位置信息生成图片裁剪 框;
关键帧裁剪处理子模块,用于通过所述图片裁剪框对所述关键帧信息进行 裁剪处理,得到关键帧人脸图片信息;
关键帧人脸关键点检测子模块,用于将所述关键帧人脸图片信息输入到所 述第二神经网络进行人脸关键点检测,得到所述关键帧信息对应的人脸关键点 位置信息。
在上述实施例的基础上,可选的,人脸关键点检测装置还可以包括帧信息 选取模块。该帧信息选取模块,用于从所述视频的图像帧信息中,选取出关键 帧信息和所述关键帧信息对应的非关键帧信息。例如,帧信息选取模块可以在 第一人脸关键点检测模块根据所述关键帧信息确定人脸框位置信息之前,从视 频图像帧获取模块获取到的视频的图像帧信息中,选取出关键帧信息和所述关 键帧信息对应的非关键帧信息,从而使得第一人脸关键点检测模块可以根据所 述关键帧信息确定人脸框位置信息。
在本发明的一个可选实施例中,所述第二人脸关键点检测模块530还可以 包括如下子模块:
非关键帧裁剪处理子模块,用于通过所述图片裁剪框对所述关键帧信息对 应的非关键帧信息裁剪处理,得到非关键帧图片信息;
非关键帧人脸图片信息生成子模块,用于当所述非关键帧图片信息包含人 脸图片信息时,依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧 人脸图片信息,并触发非关键帧人脸关键点检测子模块将非关键帧人脸图片信 息输入到所述第二神经网络进行人脸关键点检测;
非关键帧人脸关键点检测子模块,用于将所述非关键帧人脸图片信息输入 到所述第二神经网络进行人脸关键点检测,得到所述非关键帧信息对应的人脸 关键点位置信息。
本实施例中,可选的,所述非关键帧裁剪处理子模块在得到非关键帧图片 信息之后,还用于将所述非关键帧图片信息输入到人脸检测跟踪网络中,得到 人脸检测跟踪网的输出信息,所述输出信息包含人脸概率信息。
所述第二人脸关键点检测模块530还可以包括人脸图片确定子模块。该人 脸图片确定子模块用于基于所述人脸概率信息确定所述非关键帧图片信息是否 包含人脸图片信息,以在确定出非关键帧图片信息含人脸图片信息时触发非关 键帧人脸图片信息生成子模块生成非关键帧人脸图片信息,如触发非关键帧人 脸图片信息生成子模块依据所述关键帧信息对应的人脸关键点位置信息生成非 关键帧人脸图片信息等。
在本发明的一个可选实施例中,人脸检测跟踪网的输出信息还可以包含人 脸框相对位置信息和关键点相对位置信息,所述非关键帧人脸图片信息生成子 模块在依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片 信息之前,还用于依据所述人脸框相对位置信息和关键点相对位置信息,确定 所述非关键帧信息的人脸关键点信息。
可选的,所述非关键帧人脸图片信息生成子模块依据所述关键帧信息对应 的人脸关键点位置信息生成非关键帧人脸图片信息,具体可以包括:基于所述 非关键帧信息的人脸关键点信息,对所述关键帧信息对应的人脸关键点位置信 息进行修正,得到关键点修正信息;根据所述关键点修正信息和所述初始关键 点位置信息,确定关键点追踪位置信息;根据所述关键点追踪位置信息生成人 脸图片裁剪框;通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键 帧图片信息裁剪处理,得到所述非关键帧人脸图片信息。
在本发明的一个可选实施例中,所述第一人脸关键点检测模块520可以包 括如下子模块:
关键帧信息输入子模块,用于将所述关键帧信息输入到人脸检测器中,其 中,所述人脸检测器用于检测人脸框位置;
人脸框位置确定子模块,用于将所述人脸检测器的输出信息确定为所述人 脸框位置信息。
需要说明的是,上述提供的人脸关键点检测装置可执行本发明任意实施例 所提供的人脸关键点检测方法,具备执行方法相应的功能和有益效果。
在具体实现中,上述人脸关键点检测装置可以集成在设备中。该设备可以 是两个或多个物理实体构成,也可以是一个物理实体构成,如设备可以是PC、 电脑、手机、平板设备、个人数字助理、服务器、消息收发设备、游戏控制台 等。
进一步的,本发明实施例还提供一种设备,包括:处理器和存储器。存储 器中存储有至少一条指令,且指令由所述处理器执行,使得所述设备执行如上 述方法实施例中所述的人脸关键点检测方法。
参照图6,示出了本发明一个示例中的一种设备的结构示意图。如图6所 示,该设备具体可以包括:处理器60、存储器61、具有触摸功能的显示屏62、 输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是 一个或者多个,图6中以一个处理器60为例。该设备中存储器61的数量可以 是一个或者多个,图6中以一个存储器61为例。该设备的处理器60、存储器 61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者 其他方式连接,图6中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可 执行程序以及模块,如本发明任意实施例所述的人脸关键点检测方法对应的程 序指令/模块(例如,人脸关键点检测装置中的视频图像帧获取模块510、第一 人脸关键点检测模块520以及第二人脸关键点检测模块530等)。存储器61可 主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少 一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。 此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器, 例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些 远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、 企业内部网、局域网、移动通信网及其组合。
显示屏62为具有触摸功能的显示屏62,其可以是电容屏、电磁屏或者红 外屏。一般而言,显示屏62用于根据处理器60的指示显示数据,还用于接收 作用于显示屏62的触摸操作,并将相应的信号发送至处理器60或其他装置。 可选的,当显示屏62为红外屏时,其还包括红外触摸框,该红外触摸框设置在 显示屏62的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器 60或者其他设备。
通信装置65,用于与其他设备建立通信连接,其可以是有线通信装置和/ 或无线通信装置。
输入装置63可用于接收输入的数字或者字符信息,以及产生与设备的用户 设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获 取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的 是,输入装置63和输出装置64的具体组成可以根据实际情况设定。
处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而 执行设备的各种功能应用以及数据处理,即实现上述的人脸关键点检测方法。
具体的,实施例中,处理器60执行存储器61中存储的一个或多个程序时, 具体实现如下操作:获取视频的图像帧信息,其中,所述视频的图像帧信息包 含关键帧信息和非关键帧信息;根据所述关键帧信息确定人脸框位置信息,并 基于所述人脸框位置信息,通过预先训练的第一神经网络进行人脸关键点检测, 得到初始关键点位置信息;基于所述初始关键点位置信息,通过预先训练的第 二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,其中, 所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所 述非关键帧信息对应的人脸关键点位置信息。
本发明实施例还提供一种计算机可读存储介质,所述存储介质中的指令由 设备的处理器执行时,使得设备能够执行如上述方法实施例所述的人脸关键点 检测方法。示例性的,该人脸关键点检测方法包括:获取视频的图像帧信息, 其中,所述视频的图像帧信息包含关键帧信息和非关键帧信息;根据所述关键 帧信息确定人脸框位置信息,并基于所述人脸框位置信息,通过预先训练的第 一神经网络进行人脸关键点检测,得到初始关键点位置信息;基于所述初始关 键点位置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到所述 视频的人脸关键点检测结果,其中,所述人脸关键点检测结果包含所述关键帧 信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信 息。。
需要说明的是,对于装置、设备、存储介质实施例而言,由于其与方法实 施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即 可。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory, RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任 意实施例所述的人脸关键点检测方法。
值得注意的是,上述人脸关键点检测装置中,所包括的各个单元和模块只 是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的 功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于 限制本发明的保护范围。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。 在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执 行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方 式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有 用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合 逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA) 等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具 体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结 构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中, 对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具 体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适 的方式结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员 会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽 然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以 上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例, 而本发明的范围由权利要求范围决定。

Claims (10)

1.一种人脸关键点检测方法,其特征在于,包括:
获取视频的图像帧信息,其中,所述视频的图像帧信息包含关键帧信息和非关键帧信息;
根据所述关键帧信息确定人脸框位置信息,并基于所述人脸框位置信息,通过预先训练的第一神经网络进行人脸关键点检测,得到初始关键点位置信息;
基于所述初始关键点位置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,其中,所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。
2.根据权利要求1所述的人脸关键点检测方法,其特征在于,所述基于所述初始关键点位置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,包括:
根据所述初始关键点位置信息生成图片裁剪框;
通过所述图片裁剪框对所述关键帧信息进行裁剪处理,得到关键帧人脸图片信息,并将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测,得到所述关键帧信息对应的人脸关键点位置信息。
3.根据权利要求2所述的人脸关键点检测方法,其特征在于,所述根据所述关键帧信息确定人脸框位置信息之前,还包括:
从所述视频的图像帧信息中,选取出关键帧信息和所述关键帧信息对应的非关键帧信息;
其中,所述基于所述初始关键点位置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,还包括:通过所述图片裁剪框对所述关键帧信息对应的非关键帧信息裁剪处理,得到非关键帧图片信息;当所述非关键帧图片信息包含人脸图片信息时,依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息,并将所述非关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测,得到所述非关键帧信息对应的人脸关键点位置信息。
4.根据权利要求3所述的人脸关键点检测方法,其特征在于,在得到非关键帧图片信息之后,还包括:
将所述非关键帧图片信息输入到人脸检测跟踪网络中,得到人脸检测跟踪网的输出信息,所述输出信息包含人脸概率信息;
基于所述人脸概率信息确定所述非关键帧图片信息是否包含人脸图片信息。
5.根据权利要求4所述的人脸关键点检测方法,其特征在于,所述输出信息还包含人脸框相对位置信息和关键点相对位置信息,所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息之前,还包括:
依据所述人脸框相对位置信息和关键点相对位置信息,确定所述非关键帧信息的人脸关键点信息;
其中,所述依据所述关键帧信息对应的人脸关键点位置信息生成非关键帧人脸图片信息,包括:
基于所述非关键帧信息的人脸关键点信息,对所述关键帧信息对应的人脸关键点位置信息进行修正,得到关键点修正信息;
根据所述关键点修正信息和所述初始关键点位置信息,确定关键点追踪位置信息;
根据所述关键点追踪位置信息生成人脸图片裁剪框;
通过所述人脸图片裁剪框对所述非关键帧信息和/或所述非关键帧图片信息裁剪处理,得到所述非关键帧人脸图片信息。
6.根据权利要求1至5任一所述的人脸关键点检测方法,其特征在于,所述根据所述关键帧信息确定人脸框位置信息,包括:
将所述关键帧信息输入到人脸检测器中,其中,所述人脸检测器用于检测人脸框位置;
将所述人脸检测器的输出信息确定为所述人脸框位置信息。
7.一种人脸关键点检测装置,其特征在于,包括:
视频图像帧获取模块,用于获取视频的图像帧信息,其中,所述视频的图像帧信息包含关键帧信息和非关键帧信息;
第一人脸关键点检测模块,用于根据所述关键帧信息确定人脸框位置信息,并基于所述人脸框位置信息,通过预先训练的第一神经网络进行人脸关键点检测,得到初始关键点位置信息;
第二人脸关键点检测模块,用于基于所述初始关键点位置信息,通过预先训练的第二神经网络进行人脸关键点检测,得到所述视频的人脸关键点检测结果,其中,所述人脸关键点检测结果包含所述关键帧信息对应的人脸关键点位置信息和所述非关键帧信息对应的人脸关键点位置信息。
8.根据权利要求7所述的人脸关键点检测装置,其特征在于,所述第二人脸关键点检测模块包括:
图片裁剪框生成子模块,用于根据所述初始关键点位置信息生成图片裁剪框;
关键帧裁剪处理子模块,用于通过所述图片裁剪框对所述关键帧信息进行裁剪处理,得到关键帧人脸图片信息;
关键帧人脸关键点检测子模块,用于将所述关键帧人脸图片信息输入到所述第二神经网络进行人脸关键点检测,得到所述关键帧信息对应的人脸关键点位置信息。
9.一种设备,其特征在于,包括:处理器和存储器;
所述存储器中存储有至少一条指令,所述指令由所述处理器执行,使得所述设备执行如权利要求1至6任一所述的人脸关键点检测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如权利要求1至6任一所述的人脸关键点检测方法。
CN201910473174.2A 2019-05-31 2019-05-31 人脸关键点检测方法、装置、设备及存储介质 Active CN112016371B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910473174.2A CN112016371B (zh) 2019-05-31 2019-05-31 人脸关键点检测方法、装置、设备及存储介质
PCT/CN2020/081262 WO2020238374A1 (zh) 2019-05-31 2020-03-26 人脸关键点检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910473174.2A CN112016371B (zh) 2019-05-31 2019-05-31 人脸关键点检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112016371A CN112016371A (zh) 2020-12-01
CN112016371B true CN112016371B (zh) 2022-01-14

Family

ID=73506983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910473174.2A Active CN112016371B (zh) 2019-05-31 2019-05-31 人脸关键点检测方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112016371B (zh)
WO (1) WO2020238374A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561840B (zh) * 2020-12-02 2024-05-28 北京有竹居网络技术有限公司 视频裁剪方法、装置、存储介质及电子设备
CN112633084B (zh) * 2020-12-07 2024-06-11 深圳云天励飞技术股份有限公司 人脸框确定方法、装置、终端设备及存储介质
CN112597842B (zh) * 2020-12-15 2023-10-20 芜湖明瞳数字健康科技有限公司 基于人工智能的运动检测面瘫程度评估系统
CN112488064B (zh) * 2020-12-18 2023-12-22 平安科技(深圳)有限公司 一种人脸追踪方法、系统、终端及存储介质
CN112597973A (zh) * 2021-01-29 2021-04-02 秒影工场(北京)科技有限公司 一种基于卷积神经网络的高清视频人脸对齐的方法
CN113177526B (zh) * 2021-05-27 2023-10-03 中国平安人寿保险股份有限公司 基于人脸识别的图像处理方法、装置、设备及存储介质
CN113269155B (zh) * 2021-06-28 2024-07-16 苏州市科远软件技术开发有限公司 端到端的人脸识别方法、装置、设备及存储介质
TWI831582B (zh) * 2023-01-18 2024-02-01 瑞昱半導體股份有限公司 偵測系統以及偵測方法
CN116309710B (zh) * 2023-02-27 2024-07-09 荣耀终端有限公司 目标追踪方法和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2672424A1 (en) * 2012-06-08 2013-12-11 Realeyes OÜ Method and apparatus using adaptive face registration method with constrained local models and dynamic model switching
CN103824049A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸关键点检测方法
CN108875480A (zh) * 2017-08-15 2018-11-23 北京旷视科技有限公司 一种人脸特征信息的追踪方法、装置及系统
CN109376684A (zh) * 2018-11-13 2019-02-22 广州市百果园信息技术有限公司 一种人脸关键点检测方法、装置、计算机设备和存储介质
CN109800635A (zh) * 2018-12-11 2019-05-24 天津大学 一种基于光流法的受限局部人脸关键点检测与跟踪方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063679A (zh) * 2018-08-24 2018-12-21 广州多益网络股份有限公司 一种人脸表情检测方法、装置、设备、系统及介质
CN109598234B (zh) * 2018-12-04 2021-03-23 深圳美图创新科技有限公司 关键点检测方法和装置
CN109657583B (zh) * 2018-12-10 2021-10-22 腾讯科技(深圳)有限公司 脸部关键点检测方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2672424A1 (en) * 2012-06-08 2013-12-11 Realeyes OÜ Method and apparatus using adaptive face registration method with constrained local models and dynamic model switching
CN103824049A (zh) * 2014-02-17 2014-05-28 北京旷视科技有限公司 一种基于级联神经网络的人脸关键点检测方法
CN108875480A (zh) * 2017-08-15 2018-11-23 北京旷视科技有限公司 一种人脸特征信息的追踪方法、装置及系统
CN109376684A (zh) * 2018-11-13 2019-02-22 广州市百果园信息技术有限公司 一种人脸关键点检测方法、装置、计算机设备和存储介质
CN109800635A (zh) * 2018-12-11 2019-05-24 天津大学 一种基于光流法的受限局部人脸关键点检测与跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deep Recurrent Regression for Facial Landmark Detection;Hanjiang Lai etal.;《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》;20180531;第28卷(第5期);全文 *
基于级联卷积神经网络的人脸关键点定位;陈 锐等;《四川理工学院学报( 自然科学版)》;20170228;第30卷(第1期);全文 *

Also Published As

Publication number Publication date
CN112016371A (zh) 2020-12-01
WO2020238374A1 (zh) 2020-12-03

Similar Documents

Publication Publication Date Title
CN112016371B (zh) 人脸关键点检测方法、装置、设备及存储介质
US10832069B2 (en) Living body detection method, electronic device and computer readable medium
CN109934065B (zh) 一种用于手势识别的方法和装置
CN111104925B (zh) 图像处理方法、装置、存储介质和电子设备
CN113973190A (zh) 视频虚拟背景图像处理方法、装置及计算机设备
CN111626105B (zh) 姿态估计方法、装置及电子设备
CN111667504B (zh) 一种人脸追踪方法、装置及设备
CN111723707A (zh) 一种基于视觉显著性的注视点估计方法及装置
CN112381071A (zh) 一种视频流中目标的行为分析方法、终端设备及介质
CN112308770A (zh) 人像转换模型生成方法及人像转换方法
CN111898571A (zh) 动作识别系统及方法
WO2024022301A1 (zh) 视角路径获取方法、装置、电子设备及介质
CN114024944A (zh) 媒体内容植入方法、装置、电子设备及存储介质
CN111062279B (zh) 照片处理方法及照片处理装置
CN116563588A (zh) 图像聚类方法、装置、电子设备及存储介质
CN113544701B (zh) 关联对象的检测方法及装置、电子设备及存储介质
Wang et al. SPGNet: Spatial projection guided 3D human pose estimation in low dimensional space
CN111986230B (zh) 一种视频中目标物的姿态跟踪方法及装置
CN113724176A (zh) 一种多摄像头动作捕捉无缝衔接方法、装置、终端及介质
CN117097982B (zh) 目标检测方法及系统
CN116645699B (zh) 一种关键点检测方法、装置、终端及计算机可读存储介质
TWI792693B (zh) 用於進行人物重辨識的方法與裝置
CN114401446B (zh) 人体姿态迁移方法、装置、系统、电子设备以及存储介质
WO2023152971A1 (ja) 画像処理装置、画像処理方法、およびプログラム
CN116469028A (zh) 一种目标对象丢失判断方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221130

Address after: 31a, 15 / F, building 30, maple mall, bangrang Road, Brazil, Singapore

Patentee after: Baiguoyuan Technology (Singapore) Co.,Ltd.

Address before: 511400 floor 5-13, West Tower, building C, 274 Xingtai Road, Shiqiao street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: GUANGZHOU BAIGUOYUAN INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right