CN110544272B

CN110544272B - 脸部跟踪方法、装置、计算机设备及存储介质

Info

Publication number: CN110544272B
Application number: CN201910844104.3A
Authority: CN
Inventors: 彭伟龙; 时学鹏; 孙冲; 沈小勇; 戴宇荣; 贾佳亚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2023-08-04
Anticipated expiration: 2039-09-06
Also published as: CN110544272A

Abstract

本发明公开了一种脸部跟踪方法、装置、计算机设备及存储介质，属于图像处理技术领域。本申请实施例提供的技术方案，通过在对脸部跟踪框的脸部关键点进行转正处理后还增加了基于历史视频帧的位置调整，由于基于历史视频帧中的脸部关键点来对当前脸部关键点进行调整，从而能够使得调整后的脸部关键点在时序上稳定，有利于上层应用的实现。

Description

脸部跟踪方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种脸部跟踪方法、装置、计算机设备及存储介质。

背景技术

脸部跟踪技术是人脸识别等应用的基本技术，在短视频社交、人像视频帧处理、安防监控等领域都有着广泛的应用。目前的脸部跟踪技术中，当计算机设备获取到视频中的一帧图像后，可以基于该帧图像中的脸部关键点，确定该帧图像中的脸部区域，基于该帧图像中的脸部区域进行跟踪。而这种跟踪方法，对于一些动态场景下进行的拍摄来说，由于拍摄过程中，由于运动模糊或者视频流误差影响，对于脸部关键点的预测会存在误差，这种误差会造成视频中关键点位在时序中有微小的抖动，从而会影响上层应用的效果。

发明内容

本发明实施例提供了一种脸部跟踪方法、装置、计算机设备及存储介质，可以解决由于视频中关键点位在时序中的抖动而对上层应用的影响。所述技术方案如下：

一方面，提供了一种脸部跟踪方法，所述方法包括：

确定目标视频中目标视频帧的脸部跟踪框；

根据所述目标视频帧的前一个视频帧中的脸部关键点和所述脸部跟踪框，将所述脸部跟踪框内的第一脸部关键点进行转正处理，得到多个第二脸部关键点；

根据所述目标视频帧之前的多个视频帧中的脸部关键点，对所述多个第二脸部关键点的位置进行调整；

根据调整后的多个第二脸部关键点进行脸部跟踪。

一方面，提供了一种脸部跟踪装置，所述装置包括：

跟踪框确定模块，用于确定目标视频中目标视频帧的脸部跟踪框；

转正模块，用于根据所述目标视频帧的前一个视频帧中的脸部关键点和所述脸部跟踪框，将所述脸部跟踪框内的第一脸部关键点进行转正处理，得到多个第二脸部关键点；

位置调整模块，用于根据所述目标视频帧之前的多个视频帧中的脸部关键点，对所述多个第二脸部关键点的位置进行调整；

识别模块，用于根据调整后的多个第二脸部关键点进行脸部跟踪。

在一种可能实现方式中，该位置调整模块用于：对于所述第二脸部关键点，获取目标视频帧与所述前一个视频帧中的所述第二脸部关键点的移动速度；

若所述移动速度大于或等于目标阈值，保持所述第二脸部关键点的位置不变；

若所述移动速度小于所述目标阈值，根据所述多个视频帧中所述第二脸部关键点的位置进行加权处理，得到所述第二脸部关键点的目标位置，将所述第二脸部关键点在所述目标视频帧中的位置调整为所述目标位置。

在一种可能实现方式中，该位置调整模块用于：应用下述公式得到所述第二脸部关键点的目标位置：

其中，为第t帧中第二脸部特征点的目标位置，w为窗口长度，且w为大于1的整数，i为小于w的正整数；c₁、c₂以及e为常数。

在一种可能实现方式中，该转正模块用于：对于所述第一脸部关键点，根据所述前一个视频帧中的脸部关键点的中心位置以及参考脸部图像，确定初始转换矩阵，所述初始转换矩阵用于表示所述第一脸部关键点与所述参考脸部图像中对应关键点的映射关系；

根据所述前一个视频帧和所述目标视频帧，对所述初始转换矩阵进行调整，得到满足局部时域稳定性的转换矩阵；

基于所述转换矩阵，得到所述目标视频帧的第二脸部关键点。

在一种可能实现方式中，该转正模块用于：若所述前一个视频帧的尺度与所述目标视频帧的尺度的差值小于目标尺度阈值，则将所述目标视频帧的尺度设置为所述前一个视频帧的尺度；

若所述前一个视频帧的尺度与所述目标视频帧的尺度的差值大于或等于所述目标尺度阈值，则将所述目标视频帧的尺度保持不变。

在一种可能实现方式中，该转正模块用于：基于所述转换矩阵，将所述参考脸部图像映射至所述目标视频帧，得到所述目标视频中的与所述参考脸部图像对应的目标图像块，对所述目标图像块进行关键点检测，得到所述目标视频帧的第二脸部关键点。

在一种可能实现方式中，该转正模块用于：法，其特征在于，所述基于所述转换矩阵，得到所述目标视频帧的第二脸部关键点包括：

对于一个第一脸部关键点p，应用下述公式获取所述第一脸部关键点的第二脸部关键点：

q＝sR(θ)*(p+(c-p_c))+t

其中，s表示尺度，θ表示转换角度，t表示移动距离，c为跟踪框的中心坐标，p_c为多个第一脸部关键点的中心位置坐标。

一方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条指令，所述指令由所述一个或多个处理器加载并执行以实现所述脸部跟踪方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述脸部跟踪方法所执行的操作。

本申请实施例提供的技术方案，通过在对脸部跟踪框的脸部关键点进行转正处理后还增加了基于历史视频帧的位置调整，由于基于历史视频帧中的脸部关键点来对当前脸部关键点进行调整，从而能够使得调整后的脸部关键点在时序上稳定，有利于上层应用的实现。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种脸部跟踪方法的实施环境的示意图；

图2是本发明实施例提供的一种脸部跟踪的实际应用示意图；

图3是本发明实施例提供的一种脸部跟踪方法的流程图；

图4是本发明实施例提供的一种实验效果示意图；

图5本发明实施例提供的一种转正前后示意图；

图6本发明实施例提供的模型框架图；

图7是本发明实施例提供的一种脸部跟踪装置结构示意图；

图8是本发明实施例提供的一种终端的结构示意图；

图9是本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维图形(Three-Dimensional，3D)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。脸部跟踪技术是一种先进的计算机视觉检测技术，充分利用了机器学习等技术来实现。

图1是本发明实施例提供的一种脸部跟踪方法的实施环境的示意图，参见图1，该实施环境中包括终端110和服务器140。

终端110通过无线网络或有线网络与服务器110相连。终端110可以是智能手机、平板电脑、便携计算机等设备。终端110安装和运行有支持脸部跟踪技术的应用程序。该应用程序可以是社交应用类应用程序、摄影类应用程序、视频类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与服务器140相连。

服务器140可以是云计算平台、虚拟化中心等。服务器140用于为支持视频目标跟踪技术的应用程序提供后台服务。可选地，服务器140承担主要目标跟踪工作，终端110承担次要目标跟踪工作；或者，服务器140承担次要目标跟踪工作，终端110承担主要目标跟踪工作；或者，服务器140或终端110分别可以单独承担目标跟踪工作。

可选地，服务器140包括：接入服务器、视频处理服务器和数据库。接入服务器用于为终端110提供接入服务。视频处理服务器用于提供视频处理有关的后台服务。该数据库可以包括表情数据库以及特效素材数据库等，当然，还可以包括例如个性化挂件数据库等，基于服务器所提供的不同服务可以对应于不同数据库，视频处理服务器可以是一台或多台。当视频处理服务器是多台时，存在至少两台视频处理服务器用于提供不同的服务，和/或，存在至少两台视频处理服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本申请实施例对此不加以限定。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述实施环境中还包括其他终端。本发明实施例对终端的数量和设备类型不加以限定。

在本申请实施例中，可以将该脸部跟踪方法应用于终端110上，尤其是移动终端上，由于本申请实施例提供的方法处理过程简单、跟踪效果好，因此可以应用于终端上来实现快捷的跟踪，不仅不会对终端的正常运行造成影响，还能够应用在多种不同的场景中，为基于脸部的一些应用场景提供强有力的技术支持。例如，目前的表情斗图、自拍以及短视频领域，均可以应用该脸部跟踪技术，来实现例如支持人脸美化、挂件特效等等，例如图2所示，图2所示是一种视频直播过程中在人脸上显示挂件特效的效果示意图，可以看出挂件由挂件组件201、挂件组件202和挂件组件203组成，该挂件需要基于人脸检测和人脸跟踪技术才能够准确的显示于人脸的特定部位，尤其是社交应用中的趣味表情等，不仅可以丰富趣味性，同时还可以避免对移动终端的过度负载，是一种可实施性很强的技术应用。

图2是本发明实施例提供的一种脸部跟踪方法的流程图。参见图2，该方法包括：

301、终端确定目标视频中目标视频帧的脸部跟踪框。

对于终端来说，可以对目标视频进行脸部跟踪，以第N帧视频帧和第N+1帧视频帧为例进行说明，终端可以基于第N帧视频帧的脸部关键点，确定该第N帧视频帧的脸部检测框，再基于该第N帧的脸部检测框进行跟踪，以确定第N+1帧视频帧中的脸部跟踪框。可选地，该进行跟踪时，可以基于脸部检测框在第N帧中的坐标，在第N+1帧视频帧中在上述坐标的附近区域内进行搜索，当搜索到匹配的人脸时，则可以确定跟踪成功，输出跟踪得到的脸部跟踪框。其中，N为大于或等于0的整数。

需要说明的是，在上述终端的处理过程中，对于视频来说，可以每个一定帧数执行人脸检测过程，以便得到该帧的脸部检测框，而对于其余帧来说，则可以基于上述跟踪算法来确定脸部跟踪框。

在一种可能实现方式中，上述的脸部检测、脸部跟踪、以及关键点检测所采用的算法均可以是基于较高性能的深度网络算法。例如，脸部检测可以是基于开源的SSD(SingleShot MultiBox Detector)架构训练得到的GoogleNet网络模型,该网络模型整体尺寸较小，可以根据移动端计算要求减少层数和输入尺度,并能够从网络模型所输入的候选框中选出置信度大于一定置信度阈值的矩形框作为脸部检测框。又例如，脸部跟踪算法可以是结合KCF(Kernelized Correlation Filter)算法和神经网络算法的一种算法，前者的输出位置更稳定，后者的输出尺度更准确。再例如，关键点检测网络可以是基于两层级联神经网络，根据两个阶段的回归结果之和，来得到脸部关键点的位置。

而在进行基于视频的脸部跟踪时，还可以基于ReID模块来维护视频中的实例，在进行跟踪时，可以根据跟踪所确定的跟踪框的置信度来确定是否进行跟踪框的更新，例如，当候选跟踪框的置信度大于置信度阈值，则更新相应实例的跟踪框，而当候选跟踪框的置信度小于置信度阈值，则销毁该实例。而对于基于视频的脸部检测来说，可以基于脸部关键点来更新相应实例的检测框，例如，基于一个视频帧中的脸部关键点确定的检测框和上一帧视频帧中的检测框之间的IOU值，来确定两个检测框内的脸部会否属于同一个脸部，如果属于同一个脸部，则不新增实例，仅更新该实例对应的检测框，而如果不属于同一个脸部，且该检测框未命中已有实例，且已有实例未达到目标实例数量，则可以增加实例。

302、对于所述第一脸部关键点，该终端根据所述前一个视频帧中的脸部关键点的中心位置以及参考脸部图像，确定初始转换矩阵，所述初始转换矩阵用于表示所述第一脸部关键点与所述参考脸部图像中对应关键点的映射关系。

其中，该初始转换矩阵包括转换的尺度、平面上旋转角度以及点位的移动距离。由于相邻两帧视频帧之间的脸部位置变化不会太大，因此，终端可以将上一帧所有脸部关键点的中心位置平移到当前帧的跟踪框的中心位置，也即是，前一个视频帧中的脸部关键点的中心位置作为当前帧的跟踪框的中心位置，再基于一个正面脸部的脸部关键点作为参考，来计算得到一个初始转换矩阵。其中，该参考脸部关键点所在图像可以为一个目标尺寸的图像，例如，可以为128*128的图像。

该初始转换矩阵可以采用下述公式表示：

R(s,θ,t)＝[s*R(θ)；t]

其中，s表示尺度，θ表示转换角度，t表示移动距离。

303、该终端根据该前一个视频帧的尺度和该目标视频帧的尺度，对该初始转换矩阵进行调整，得到满足局部时域稳定性的转换矩阵。

为了使得最终转正得到的图像能够在时域上处于稳定状态，则可以基于前后两帧视频帧之间的尺度差异，来确定是否进一步对初始转换矩阵中的尺度进行调整，具体调整过程可以包括：

若该前一个视频帧的尺度与该目标视频帧的尺度的差值小于目标尺度阈值，则将该目标视频帧的尺度设置为该前一个视频帧的尺度。若该前一个视频帧的尺度与该目标视频帧的尺度的差值大于或等于该目标尺度阈值，则将该目标视频帧的尺度保持不变。该过程可以采用以下稳定机制公式来表示：

其中，t为当前视频帧的帧号，∈为尺度阈值。

当然，上述对尺度的调整可以适用于转换角度和移动距离中，以达到多个维度的调整，从而在时域上保证帧与帧之间的检测框的稳定过渡。

以对尺度进行调整为例，参见图4，虚线表示稳定前的参数，实线表示稳定后的参数，从图4中可以看出，通过调整可以保证转换矩阵在局部时域内是不变的。

304、该终端基于所述转换矩阵，得到所述目标视频帧的第二脸部关键点。

具体地，对于当前帧视频帧中的第一脸部关键点p，可以应用下述公式来将其映射为第二脸部关键点q。

q＝sR(θ)*(p+(c-p_c))+t

利用上述公式进行处理，可以把当前帧视频帧的带旋转角度的人脸区域采样或插值到转正了人脸的图像区域内，图5所示，图5中左图用于展示视频帧中的人脸跟踪框以及脸部关键点，而右图的上图用于展示参考脸部关键点，右图的下图则用于展示经过转正后的脸部关键点所在图像。

上述步骤304中，具体可以基于所述转换矩阵，将所述参考脸部图像映射至所述目标视频帧，得到所述目标视频中的与所述参考脸部图像对应的目标图像块，对所述目标图像块进行关键点检测，得到所述目标视频帧的第二脸部关键点。需要说明的是，而转正后得到的新图像块的尺寸等均有可能与原跟踪框或检测框的尺寸不同，其具体尺寸等根据实际视频帧的情况变化而变化。剪裁的目的在于减少关键点算法输入空间的多样性，以提升关键点定位的准确性和稳定性。

上述剪裁过程实际上包括了脸部转正、以及对转换矩阵的局部时域稳定机制两个步骤，脸部转正用于提高关键点的定位精度，而稳定机制是为了保证裁剪出来的图像块背景在局部时域上是不变的，减小背景瞬时变动带来的关键点抖动。

305、对于该第二脸部关键点，该终端获取目标视频帧与该前一个视频帧中的该第二脸部关键点的移动速度。

其中，该移动速度可以基于目标视频帧与该前一个视频帧中的该第二脸部关键点的坐标以及视频帧的帧率确定，基于两个视频帧中的坐标可以确定关键点的位移，将位移和帧率相除，则可以得到其移动速度。

306、若该移动速度大于或等于目标阈值，该终端保持该第二脸部关键点的位置不变。

307、若该移动速度小于该目标阈值，根据该多个视频帧中该第二脸部关键点的位置进行加权处理，得到该第二脸部关键点的目标位置，将该第二脸部关键点在该目标视频帧中的位置调整为该目标位置。

上述步骤305至307是根据该目标视频帧之前的多个视频帧中的脸部关键点，对该多个第二脸部关键点的位置进行调整的过程。

上述基于移动速度的调整可以用下述公式表示：

其中，NormDist(p_t,p_t-1)表示p_t和p_t-1之间的归一化距离，为第t帧中第二脸部特征点的目标位置，w为窗口长度，且w为大于1的整数，i为小于w的正整数；c₁、c₂以及e为常数。

当p的移动速度大于某个阈值时,p值维持p_t不变，否则进行如公式第二行的加权处理。需要说明的是，c₁和c₂的为常数，其具体取值可以根据帧率确定，从而使得每个脸部关键点能够保证点位在视频序列上是平稳的。

在通过关键点算法模块推理出关键点坐标后，根据R(s,θ,t)将关键点反算到原图坐标系上，但由于预测误差的存在，直接在视频上显示会存在微小抖动。为减小抖动，需要一个时域点稳定算法。假设某个点在第t帧位置为p_t(x分量或y分量),可以用历史视频帧中对应关键点的位置{p_t-i}_i＝0:w加权对p_t重新计算。

308、根据调整后的多个第二脸部关键点进行脸部跟踪。

在一种可能实现方式中，在进行脸部跟踪时，则可以将调整后的多个第二脸部关键点根据调整后的多个第二脸部关键点对该目标视频帧进行剪裁，得到包括该调整后的多个第二脸部关键点的图像块；对该图像块进行脸部识别。

本申请实施例提供的技术方案，通过在对脸部跟踪框的脸部关键点进行转正处理后还增加了基于历史视频帧的位置调整，由于基于历史视频帧中的脸部关键点来对当前脸部关键点进行调整，从而能够使得调整后的脸部关键点在时序上稳定，有利于上层应用的实现。脸部关键点在时序上的稳定，不仅有利于跟踪的成功，而且能够保证后续应用脸部跟踪结果的脸部识别等场景下的准确性。

下面基于图6所提供的模型框架以及人脸跟踪过程为例对整体流程进行说明，如图6所示，检测基础模型检测出一帧视频帧中的所有人脸，输出人脸所在范围的矩阵框(也即是检测框)；跟踪基础模型则根据前一帧的矩形框，判定当前帧人脸所在矩形框位置；关键点基础模型则根据跟踪人脸框区域的输入以得到脸部关键点。ReID模块负责负责维护多个ID实例，根据前一帧的检测/跟踪/关键点结果与当前帧的检测/跟踪结果进行校验，得到用于输入到关键点模型的人脸区域框；剪裁模块(Affine Align)是根据根据上一帧关键点计算人脸的所在区域和尺度、平面内旋转角度，作为当前帧跟踪模块的输入，从而得到当前帧更准确的人脸位置，也负责把当前帧的人脸裁剪为图像平面内的正脸。稳点算法的机制是缓存历史若干帧关键点信息，当人脸移动移动速度慢时，采用滤波算法对历史帧的脸部关键点和当前帧中关键点的位置进行归一化加权，重新定义当前关键点的位置，以上这些操作可以保证点位在时序上的稳定性。

在一些可能实现方式中，上述进行脸部跟踪时所采用的脸部检测、基础网络以及关键点检测均可以采用较小规模的网络进行，该较小规模是指网络内的层级数较少，从而可以是应用在移动端上，满足计算速度快的要求。例如，脸部检测是基于SSD算法、YOLO、FastRCNN等小规模的开源框架进行设计，而基础网络是MobileNet v1、MobileNetV2、VGG(Visual Geometry Group)、ShuffleNet V1、ShuffleNetV2、BlazeFace等小网络及其变种；关键点检测所采用的的可以是基于FPN结构设计，也可以是基于HourGlass结构设计，基础网络也可以是VGG网络、MobileNetV1、MobileNetV2、ShuffleNet V1、ShuffleNetV2等小网络及其变种，本发明实施例对此不做限定。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图7是本申请实施例提供的一种脸部跟踪装置的结构示意图。参见图7，所述装置包括：

跟踪框确定模块701，用于确定目标视频中目标视频帧的脸部跟踪框；

转正模块702，用于根据所述目标视频帧的前一个视频帧中的脸部关键点和所述脸部跟踪框，将所述脸部跟踪框内的第一脸部关键点进行转正处理，得到多个第二脸部关键点；

位置调整模块703，用于根据所述目标视频帧之前的多个视频帧中的脸部关键点，对所述多个第二脸部关键点的位置进行调整；

跟踪模块704，用于根据调整后的多个第二脸部关键点进行脸部跟踪。

q＝sR(θ)*(p+(c-p_c))+t

需要说明的是：上述实施例提供的脸部跟踪装置在脸部跟踪时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的脸部跟踪装置与脸部跟踪方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本发明实施例提供的一种终端的结构示意图。该终端800可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端800包括有：一个或多个处理器801和一个或多个存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本发明中方法实施例提供的脸部跟踪方法。

在一些实施例中，终端800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头806、音频电路807和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏805用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置终端800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端800的不同表面或呈折叠设计；在再一些实施例中，显示屏805可以是柔性显示屏，设置在终端800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时，可以检测用户对终端800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9是本发明实施例提供的一种计算机设备的结构示意图，该计算机设备900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processingunits，CPU)901和一个或多个的存储器902，其中，所述一个或多个存储器902中存储有至少一条指令，所述至少一条指令由所述一个或多个处理器901加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的脸部跟踪方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种脸部跟踪方法，其特征在于，所述方法包括：

确定目标视频中目标视频帧的脸部跟踪框；

根据调整后的多个第二脸部关键点进行脸部跟踪。

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧之前的多个视频帧中的脸部关键点，对所述多个第二脸部关键点的位置进行调整包括：

对于所述第二脸部关键点，获取目标视频帧与所述前一个视频帧中的所述第二脸部关键点的移动速度；

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个视频帧中所述第二脸部关键点的位置进行加权处理，得到所述第二脸部关键点的目标位置包括：

应用下述公式得到所述第二脸部关键点的目标位置：

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标视频帧的前一个视频帧中的脸部关键点和所述脸部跟踪框，将所述脸部跟踪框内的第一脸部关键点进行转正处理，得到多个第二脸部关键点包括：

对于所述第一脸部关键点，根据所述前一个视频帧中的脸部关键点的中心位置以及参考脸部图像，确定初始转换矩阵，所述初始转换矩阵用于表示所述第一脸部关键点与所述参考脸部图像中对应关键点的映射关系；

5.根据权利要求4所述的方法，其特征在于，所述根据所述前一个视频帧和所述目标视频帧，对所述初始转换矩阵进行调整，得到满足局部时域稳定性的转换矩阵包括：

若所述前一个视频帧的尺度与所述目标视频帧的尺度的差值小于目标尺度阈值，则将所述目标视频帧的尺度设置为所述前一个视频帧的尺度；

6.根据权利要求4所述的方法，其特征在于，所述基于所述转换矩阵，得到所述目标视频帧的第二脸部关键点包括：

基于所述转换矩阵，将所述参考脸部图像映射至所述目标视频帧，得到所述目标视频中的与所述参考脸部图像对应的目标图像块，对所述目标图像块进行关键点检测，得到所述目标视频帧的第二脸部关键点。

7.根据权利要求4所述的方法，其特征在于，所述基于所述转换矩阵，得到所述目标视频帧的第二脸部关键点包括：

q＝sR(θ)*(p+(c-p_c))+t

其中，s表示尺度，θ表示转换角度，t表示移动距离，c为所述目标视频帧中跟踪框的中心坐标，p_c为所述前一个视频帧中多个第一脸部关键点的中心位置坐标。

8.一种脸部跟踪装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述位置调整模块，用于对于所述第二脸部关键点，获取目标视频帧与所述前一个视频帧中的所述第二脸部关键点的移动速度；

10.根据权利要求9所述的装置，其特征在于，所述位置调整模块，用于应用下述公式得到所述第二脸部关键点的目标位置：

11.根据权利要求8所述的装置，其特征在于，所述转正模块，用于对于所述第一脸部关键点，根据所述前一个视频帧中的脸部关键点的中心位置以及参考脸部图像，确定初始转换矩阵，所述初始转换矩阵用于表示所述第一脸部关键点与所述参考脸部图像中对应关键点的映射关系；

12.根据权利要求11所述的装置，其特征在于，所述转正模块，用于若所述前一个视频帧的尺度与所述目标视频帧的尺度的差值小于目标尺度阈值，则将所述目标视频帧的尺度设置为所述前一个视频帧的尺度；

13.根据权利要求11所述的装置，其特征在于，所述转正模块，用于基于所述转换矩阵，将所述参考脸部图像映射至所述目标视频帧，得到所述目标视频中的与所述参考脸部图像对应的目标图像块，对所述目标图像块进行关键点检测，得到所述目标视频帧的第二脸部关键点。

14.根据权利要求11所述的装置，其特征在于，所述转正模块，用于对于一个第一脸部关键点p，应用下述公式获取所述第一脸部关键点的第二脸部关键点：

q＝sR(θ)*(p+(c-p_c))+t

15.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求7任一项所述的脸部跟踪方法所执行的操作。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求7任一项所述的脸部跟踪方法所执行的操作。