CN114267065A

CN114267065A - 人脸关键点修正方法及其装置、设备、介质

Info

Publication number: CN114267065A
Application number: CN202111592463.8A
Authority: CN
Inventors: 任高生
Original assignee: Guangzhou Jinhong Network Media Co ltd; Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Jinhong Network Media Co ltd; Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-01

Abstract

本申请公开一种人脸关键点修正方法及其装置、设备、介质，所述方法包括：采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息，预测信息包含多个预测关键点相对应的坐标；获取与所述训练样本相对应的标注信息，标注信息包含与所述预测关键点相对应的实际关键点的坐标；计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值；判定所述损失值是否达到预设阈值，当未达到预设阈值时，实施梯度更新，调用下一训练样本对所述检测模型实施迭代训练直至模型收敛。本申请确定损失值的过程简单高效，能够获得更为精准的关键点信息，以此为基础服务于多种下游任务，改善用户体验，具有广泛适应性。

Description

人脸关键点修正方法及其装置、设备、介质

技术领域

本申请涉及网络直播技术领域，尤其涉及一种人脸关键点修正方法及其相应的装置、计算机设备以及计算机可读存储介质。

背景技术

随着计算机视觉技术的发展，人脸关键点识别技术在包括人脸识别、美妆、3D人脸重建等领域已经有了广泛的应用。目前的人脸关键点修正方法根据侧重点的不同，大致可以分为两类：基于回归方法和基于热力图方法。其中，基于回归的方法是直接回归出点的坐标，所需计算量较小；基于热力图的方法是在热力图中求出最大的响应值，通过缩放系数求得关键点坐标，所需计算量较大。因此在实际工程中，往往采用回归的方式获取人脸关键点。

现有回归的方法，采用神经网络模型来实施，例如MobileNet、ShuffleNet等，均可用于回归检测人脸关键点。实践中，此类模型所预测出的结果，存在着边界不贴合，大角度、大表情等偏离器官严重等问题。在实际场景中，人脸是不可避免的会有大表情和各种角度转向的情况出现，如何能将大角度、大表情等人脸关键点做得贴合一直是一个亟需解决的问题。

有鉴于此，本申请人作为本领域的先行者，尝试做出相关探索。

发明内容

本申请的首要目的在于解决上述问题至少之一而提供一种人脸关键点修正方法及其相应的装置、计算机设备以及计算机可读存储介质。

为满足本申请的各个目的，本申请采用如下技术方案：

适应本申请的目的之一而提出的一种人脸关键点修正方法，包括如下步骤：

采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息，所述预测信息包含所述人脸图像中多个预测关键点相对应的坐标；

从所述数据集中获取与所述训练样本相对应的标注信息，所述标注信息包含与所述预测关键点相对应的实际关键点的坐标；

基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值；

判定所述损失值是否达到预设阈值，当未达到预设阈值时，对所述人脸关键点检测模型实施梯度更新，调用下一训练样本对所述人脸关键点检测模型实施迭代训练直至模型收敛。

深化的一种实施例中，基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值，包括如下步骤：

根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息；

根据查找出的实际关键点的获取其前后两个相邻的实际关键点的坐标，以分别限定与该两个相邻的实际关键点之间的第一连线和第二连线；

根据坐标计算每个预测关键点分别到其相对应的第一连线和第二连线之间的点到线之间距离的均值距离，将所有预测关键点的均值距离求和作为损失值。

进一步的实施例中，根据坐标计算每个预测关键点分别到其相对应的第一连线和第二连线之间的点到线之间距离的均值距离，将所有预测关键点的均值距离求和作为损失值的步骤中，在求和的过程中为每个均值距离匹配归一化权重。

深化的另一实施例中，基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值，包括如下步骤：

根据查找出的实际关键点的获取其最邻近的实际关键点的坐标，以限定与该最邻近的实际关键点之间的连线；

根据坐标计算每个预测关键点到其相对应的所述连线之间的点到线之间距离，将所有预测关键点的距离求和作为损失值。

扩展的实施例中，所述人脸关键点检测模型达至收敛之后，包括如下步骤：

从直播视频流中提取视频帧；

采用所述人脸关键点检测模型检测出所述视频帧中人脸图像的关键点信息；

从所述直播视频流的播放界面获取图像修正参数，根据所述图像修正参数调整所述关键点信息；

根据调整后的关键点信息修正所述视频帧的人脸图像。

具体化的实施例中，从所述直播视频流的播放界面获取图像修正参数，根据所述图像修正参数调整所述关键点信息，包括如下步骤：

响应用户操作指令向图形用户界面弹出控制面板，在控制面板中显示人脸图像修正控件；

获取作用于所述人脸图像修正控件而相应产生的图像修正参数；

根据所述图像修正参数重新调整所述关键点信息。

深化的实施例中，采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息的步骤中，所述人脸关键点检测模型执行如下步骤：

获取数据集中的单个训练样本，所述训练样本为包含人脸图像的图片；

采用扩展卷积层扩大所述训练样本的图像特征信息的尺度；

采用深度可分离卷积层从所述图像特征信息中提取出深度语义信息；

采用瓶颈卷积层缩小所述图像特征信息的尺度作为残差信息；

引用所述训练样本的原图信息与所述残差信息相综合获得表示所述人脸图像中多个预测关键点的坐标的预测信息。

适应本申请的目的之一而提供的一种人脸关键点修正装置，包括：样本调用模块、监督调用模块、目标构造模块，以及更新迭代模块，其中，所述样本调用模块，被配置为采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息，所述预测信息包含所述人脸图像中多个预测关键点相对应的坐标；所述监督调用模块，被配置为从所述数据集中获取与所述训练样本相对应的标注信息，所述标注信息包含与所述预测关键点相对应的实际关键点的坐标；所述目标构造模块，用于基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值；所述更新迭代模块，用于判定所述损失值是否达到预设阈值，当未达到预设阈值时，对所述人脸关键点检测模型实施梯度更新，调用下一训练样本对所述人脸关键点检测模型实施迭代训练直至模型收敛。

深化的一种实施例中，所述目标构造模块，包括：映射对应子模块，用于根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息；定位连线子模块，用于根据查找出的实际关键点的获取其前后两个相邻的实际关键点的坐标，以分别限定与该两个相邻的实际关键点之间的第一连线和第二连线；损失计算子模块，用于根据坐标计算每个预测关键点分别到其相对应的第一连线和第二连线之间的点到线之间距离的均值距离，将所有预测关键点的均值距离求和作为损失值。

进一步的实施例中，所述损失计算子模块在求和的过程中为每个均值距离匹配归一化权重。

深化的另一实施例中，所述目标构造模块，包括：映射对应子模块，用于根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息；定位连线子模块，用于根据查找出的实际关键点的获取其最邻近的实际关键点的坐标，以限定与该最邻近的实际关键点之间的连线；损失计算子模块，用于根据坐标计算每个预测关键点到其相对应的所述连线之间的点到线之间距离，将所有预测关键点的距离求和作为损失值。

扩展的实施例中，所述人脸关键点检测模型达至收敛之后，本申请人脸关键点修正装置还包括：视频帧提取模块，用于从直播视频流中提取视频帧；关键点检测模块，用于采用所述人脸关键点检测模型检测出所述视频帧中人脸图像的关键点信息；参数获取模块，用于从所述直播视频流的播放界面获取图像修正参数，根据所述图像修正参数调整所述关键点信息；视频帧修正模块，用于根据调整后的关键点信息修正所述视频帧的人脸图像。

具体化的实施例中，所述参数获取模块，包括：界面展示子模块，用于响应用户操作指令向图形用户界面弹出控制面板，在控制面板中显示人脸图像修正控件；参数提取子模块，用于获取作用于所述人脸图像修正控件而相应产生的图像修正参数；参数重调子模块，用于根据所述图像修正参数重新调整所述关键点信息。

深化的实施例中，所述样本调用模块中，所述人脸关键点检测模型运行表现为包括如下单元：训练调用单元，用于获取数据集中的单个训练样本，所述训练样本为包含人脸图像的图片；扩展卷积单元，用于采用扩展卷积层扩大所述训练样本的图像特征信息的尺度；深度卷积单元，用于采用深度可分离卷积层从所述图像特征信息中提取出深度语义信息；瓶颈卷积单元，用于采用瓶颈卷积层缩小所述图像特征信息的尺度作为残差信息；预测合成单元，用于引用所述训练样本的原图信息与所述残差信息相综合获得表示所述人脸图像中多个预测关键点的坐标的预测信息。

适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的人脸关键点修正方法的步骤。

适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的人脸关键点修正方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请的优势如下：

首先，本申请利用基于回归方法实现的人脸关键点检测模型从训练样本中提取出其中人脸图像的预测关键点相对应的预测信息之后，利用预先标注所述人脸图像的实际关键点形成的标注信息，通过计算各个预测关键点到其相对应的实际关键点及该实际关键点的相邻实际关键点之间连接的距离，即点到线的距离，确定反映该距离的损失值，利用该损失值监督人脸关键点检测模型的训练过程，通过梯度回传对该检测模型做必要的权重修正，计算量小，计算效率较高，使所述的人脸关键点检测模型更易被快速训练至收敛状态，从而提升训练效率，节省训练成本。

其次，本申请的人脸关键点检测模型经训练至收敛状态后，根据其损失值计算原理，其在训练过程中使得模型不断调整权重参数，最终拟合出正确预测人脸图像关键点的权重参数，将具备从被检测图片或视频帧中正确预测出其中人脸图像的关键点的能力，从而可以被投入多种应用场景中使用，在这些应用场景中正确识别人脸图像的轮廓和部位，为下游任务提供准确的关键点信息，实现更丰富的业务效果，例如网络直播场景中用于对视频帧的人脸图像进行识别美化、用于对静态图片的人脸图像进行识别美化等。

此外，本申请适用于基于回归实现的用于人脸关键点检测的所有神经网络模型，只要所述神经网络模型能够预测出关键点，便可利用各个预测关键点的坐标信息对相应的模型的权重参数进行修正，促使其收敛，因此，实现与模型的具体构造相解耦，具有广泛的适用性。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的人脸关键点修正方法的典型实施例的流程示意图；

图2为本申请示例性的人脸关键点示意图；

图3为本申请的一个扩展实施例中计算损失值过程的流程示意图；

图4为本申请示例性的点到线间距离映射关系示意图；

图5为本申请的另一扩展实施例中计算损失值过程的流程示意图；

图6为本申请的人脸关键点检测模型用于为直播视频流进行人脸图像美化的过程的流程示意图；

图7为本申请在对直播视频流进行人脸图像美化过程中的人机交互过程的流程示意图；

图8为图7所示的人机交互过程中弹出控制面板的图形用户界面示意图；

图9为图7所示的人机交互过程中完成人脸图像美化后的图形用户界面示意图；

图10为本申请的示例性人脸关键点检测模型的工作过程的流程示意图；

图11为本申请的示例性的人脸关键点检测模型的网络架构示意图；

图12为本申请的人脸关键点修正装置的原理框图；

图13为本申请所采用的一种计算机设备的结构示意图；

图14为本申请所实现的计算机程序产品应用时可采用的网络环境的图示。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种人脸关键点修正方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的人脸关键点修正方法在其典型实施例中，包括如下步骤：

步骤S1100、采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息，所述预测信息包含所述人脸图像中多个预测关键点相对应的坐标：

所述的人脸关键点检测模型，采用卷积神经网络实现，用于从人脸图像中获得人脸特征相关的各个关键点，以通过这些关键点表示出人脸图像中的人脸及眼、鼻、嘴等部位的轮廓。更形象的示例如图2所示，其中示出整个人脸轮廓对应的多个关键点，以及双眼、鼻部以及嘴巴相对应的轮廓的关键点各个关键点之间可按序组织以便访问。

所述人脸关键点检测模型，示例而言，可采用如MobileNet、ShuffleNet等已有的模型，也可由本领域技术人员自行搭建有效的卷积神经网络架构来实施。只要适于根据人脸图像提取出其中的关键点，获得相应的预测信息即可。

MobileNetV2，是Google针对移动端而设计的一种轻量化，高效率的网络模型，是MobileNet的升级版本。可通过级联的方式搭建架构，用于实施人脸关键点的检测。

ShuffleNet，是Face++提出的一种轻量化网络结构，主要思路是使用Groupconvolution和Channelshuffle改进ResNet，可以看作是ResNet的压缩版本。后旷视科技又提出ShuffleNetV2，为ShuffleNet的升级版本，比之ShuffleNet和MobileNetv2更准确对人脸关键点的识别更准确，故为本申请所优先推荐。

为了实施对所述人脸关键点检测模型的训练，预备一数据集，所述数据集中包括多个供人脸关键点检测模型调用于训练的训练样本，每一训练样本均包含一个人脸图像。

所述人脸关键点检测模型获得一个所述的训练样本后，对其进行多个层级的卷积，提取出其中的图像特征信息，得到相应的预测信息，所述预测信息中包含该检测模型从人脸图像中预测出的多个预测关键点的数据，所述数据可表示为二维坐标形式。

步骤S1200、从所述数据集中获取与所述训练样本相对应的标注信息，所述标注信息包含与所述预测关键点相对应的实际关键点的坐标：

对应每一训练样本，在所述数据集中还存储有人工标注所生成的标注信息，所述标注信息是对训练样本中人脸图像的多个实际关键点的数据化表示，具体可表示为二维坐标形式。当人脸关键点检测模型对人脸图像进行预测获得相应的预测信息后，便可从数据集中调用该训练样本相对应的标注信息，用于计算所述预测信息相对于所述标注信息产生的预测损失，从而可通过相应的损失函数确定所述检测模型的损失值。

不难理解，标注信息中的实际关键点是人工预先标注获得的，而预测信息中的预测关键点是人脸关键点检测模型预测获得的，两者之间存在对应关系，在计算机内存中进行表示时，两者采用同一数组下标体系来对应，使得通过数组下标建立起预测信息中各个预测关键点与标注信息中各个实际关键点之间的一一对应关系，从而方便通过预测关键点查找其相对应的实际关键点。

此外，在数组存储形式下，无论对于所述预测信息中的预测关键点，还是对于所述标注信息中的实际关键点，均可按序排列存储，以便计算机程序通过简单的计算即可快速查找某一关键点的相邻关键点。

如前所述，预测关键点及实际关键点均被存储为二维坐标形式，因此，从所述预测信息中可以获得任意一个预测关键点的坐标，同理，从所述标注信息中也可以获得任意一个实际关键点的坐标，所述坐标为平面直角坐标，以便借助平面几何原理基于坐标进行相关快速计算。所述坐标指示基于所述人脸图像的某一点为原点构造的坐标系中的一个点，由此，为方便计算，预测关键点的坐标及实际关键点的坐标，均可统一于同一坐标系中进行数据表示。

步骤S1300、基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值：

由于所述预测信息及所述标注信息均可统一以人脸图像为参考而建立的平面直角坐标系，因此，可以方便地基于坐标和点到距离计算公式，确定出其中每个预测关键点到达经过其对应的实际关键点及该实际关键点与其相邻的实际关键点之间的连线之间的距离，将该距离作为损失值的确定依据确定出相应的损失值，用于判断每个预测关键点相对于其相对应的实际关键点之间的模型损失。

所述相邻的实际关键点，可以是与所述预测关键点相对应的实际关键点的左邻和右邻的实际关键点，相应构造出左邻的第一连线以及右邻的第二连线，计算距离时可取点到两条线间距离的均值距离；也可只选取其中一个，简单确定出其点到线间距离即可。前者更为精确，后者计算量小。所述的损失值，可以是所有预测关键点的点到线间距离的和值，也可以是这些距离的均值，且进一步还可匹配归一化权重。

根据以上关于确定损失值的原理，可以进一步将其构造为人脸关键点检测模型的损失函数，在检测模型输出预测信息后，直播套用该损失函数快速获得损失值，用于控制该检测模型的权重的梯度更新。

步骤S1400、判定所述损失值是否达到预设阈值，当未达到预设阈值时，对所述人脸关键点检测模型实施梯度更新，调用下一训练样本对所述人脸关键点检测模型实施迭代训练直至模型收敛：

为了判断人脸关键点检测模型是否已经被训练至收敛状态，将前一步骤确定的损失值与预设阈值进行比较，判定是否达到该预设阈值例如e^-6或者是否无限接近于0，当其达到预设阈值或无限接近于0时，便可判定该检测模型已经达到收敛状态，从而可以终止对其训练，可将该检测模型用于下游任务所需。相反，如果尚未达到所述的预设阈值，则可判定该模型并未收敛，需要继续训练，据此，从所述数据集中继续调用下一训练样本，对检测模型实施迭代训练，不断循环，直至该检测模型被训练至收敛状态为止。

通过本实施例，可以看出，本申请具有丰富的积极优势，包括但不限于如下各方面：

请参阅图3，深化的一种实施例中，所述步骤S1300、基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值，包括如下步骤：

步骤S1311、根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息：

如前所述，示例而言，预测信息与标注信息可通过数组存储形式所携带的下标建立起彼此的映射关系，据此，便可利用下标对应关系，从标注信息中查找出每个预测关键点相对应的实际关键点，具体是获得该实际关键点的坐标。例如，设对于预测信息中的预测关键点P(x₀，y₀)，可确定出与其在标注信息中相对应的实际关键点B(x₂，y₂)。

步骤S1312、根据查找出的实际关键点的获取其前后两个相邻的实际关键点的坐标，以分别限定与该两个相邻的实际关键点之间的第一连线和第二连线：

由于标注信息中的各实际关键点已经预先按序组织，因此，可根据前一步骤中从标注信息中查找出的实际关键点B(x₂，y₂)进一步确定出其左邻及右邻的两个实际关键点，分别表示为：A(x₁，y₁)、C(x₃，y₃)。

请参阅图4所示，根据直线两点式的原理可知，由点A和点B可以确定出一条直线AB，称为第一连线，同理由点B和点C可以确定出另一条直线BC，称为第二连线。因此，确定了与实际关键点B(x₂，y₂)相邻的两个点A(x₁，y₁)、C(x₃，y₃)，也便限定出了相应的两条连线。

步骤S1313、根据坐标计算每个预测关键点分别到其相对应的第一连线和第二连线之间的点到线之间距离的均值距离，将所有预测关键点的均值距离求和作为损失值：

对于每个预测关键点而言，确定了其点坐标以及其对应的实际关键点的坐标、该实际关键点的相邻关键点的坐标之后，便可进一步计算所述预测关键点到所述各条连线之间的点到直线间距离。具体推导如下：

根据直线两点式：L_AB、L_BC：

转为一般式为：(y₂-y₁)x-(x₂-x₁)y-x₁y₂+x₂y₁＝0

根据点到直线的距离计算公式，可得每一预测关键点到其中一条连线的计算公式为：

其中，d_i+1,i表示一个预测关键点到经过所述连线之一的距离；下标i表示与该预测关键点相对应的实际关键点；下标i+1表示与该实际关键点相邻的一个左邻或右邻的实际关键点；(x,y)用于表示预测关键点的坐标；而∈为正则项，避免分母为0。

根据该距离公式可知，对于每个预测关键点例如而言，其到达每一连线的距离可以通过上述的公式计算，例如对于图4中到达两条连线距离d_AB和d_BC，均可采用上述距离公式，套入相应的坐标数值，计算获得相应的结果。

根据以上计算原理，可进一步构造出用于训练所述人脸关键点检测模型的损失函数：

其中，min表示模型的训练目标为最小化右式，N为关键点的总数，该式表示，将每一个预测关键点依据点到直线距离公式参考两条连线计算出的距离数值之和求均值，获得每个预测关键点相对应的均值距离，将所有预测关键点的均值距离之和作为模型的损失值L_edge。

据此，便可确定出预测信息中每个预测关键点的损失值，继而确定整个模型预测过程中产生的损失值L_edge，根据该损失值，便可对检测模型实施权重更新，使检测模型通过梯度回传修正其各个环节的权重参数，通过多次迭代训练，使该损失值达到预设阈值而实现收敛。

为了进一步提升模型的学习性能，可以在计算所述损失值的过程中，为各个均值距离匹配归一化权重，推荐的一种归一化权重计算公式表示为：

根据该公式，将预测关键点的坐标(x,y)与其相对应的实际关键点的坐标(x_i,y_i)的各轴距离差值之和，与根据点到线距离公式计算出的均值距离中的最大值d_max之比，作为该预测关键点相对应的归一化权重w_i+1,i。因此，进一步可修正所述损失函数公式为：

适用修正后的公式用于实施梯度回传，由于每个均值距离在计算过程中均被匹配了归一化权重，在该归一化权重的调节下，可提升模型的学习能力，促进该模型的快速收敛，从而进一步节省训练成本。

本实施例中，利用点到直线距离公式为人脸关键点检测模型推导出一个相适配的损失函数，该损失函数计算效率高，计算速度快，并且计算精准，因此可以引导检测模型的训练过程，使模型训练过程更为高效迅速。特别是在其中利用三个实际关键点构造两条连线用于计算出同一预测关键点相对应的两个距离，对其求均值，可实现对所需确定的距离的平滑，防止点到距离间产生偏移，使预测关键点到其对应的实际关键点之间的匹配更为精准，更有助于检测模型获得精确预测出关键点的训练效果。

请参阅图5，深化的另一实施例中，为进一步提升计算效率而对损失函数进行适度简化，具体而言，所述步骤S1300、基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值，包括如下步骤：

步骤S1321、根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息：

如前所述，示例而言，预测信息与标注信息可通过数组存储形式所携带的下标建立起彼此的映射关系，据此，便可利用下标对应关系，从标注信息中查找出每个预测关键点相对应的实际关键点，具体是获得该实际关键点的坐标。例如，设对于预测信息中的预测关键点P(x₀,y₀)，可确定出与其在标注信息中相对应的实际关键点B(x₂,y₂)。

步骤S1322、根据查找出的实际关键点的获取其最邻近的实际关键点的坐标，以限定与该最邻近的实际关键点之间的连线：

由于标注信息中的各实际关键点已经预先按序组织，因此，可根据前一步骤中从标注信息中查找出的实际关键点B(x₂,y₂)进一步确定出其左邻实际关键点的坐标，即为：A(x₁,y₁)。

请参阅图4所示，根据直线两点式的原理可知，由点A和点B可以确定出一条直线AB，构成一条连线，此处与前一实施例不同之处在于仅选用一条连线。因此，确定了与实际关键点B(x₂,y₂)相邻的点A(x₁,y₁)，也便限定出了相应的单条连线。

步骤S1323、根据坐标计算每个预测关键点到其相对应的所述连线之间的点到线之间距离，将所有预测关键点的距离求和作为损失值：

对于每个预测关键点而言，确定了其点坐标以及其对应的实际关键点的坐标、该实际关键点的左邻实际关键点的坐标之后，便可进一步计算所述预测关键点到所述连线之间的点到直线间距离。同理引用前一实施例中推导所得的点到距离计算公式：

参考前一实施例，适应本实施例仅采用单条连线的情况，重新构造出用于训练所述人脸关键点检测模型的损失函数：

其中，min表示模型的训练目标为最小化右式，N为关键点的序号，该式表示，将每一个预测关键点依据点到直线距离公式参考单条连线计算出的距离全部进行加总，作为模型的损失值L_edge。

本实施例相对于前一实施例进行简化，尽管如此，由于所采用的损失函数本身计算量小，仍然有助于提升本申请的人脸关键点检测模型的训练效率，使其快速收敛。

请参阅图6，扩展的实施例中，所述人脸关键点检测模型达至收敛之后，包括如下步骤：

步骤S2100、从直播视频流中提取视频帧：

本实施例中，将本申请训练所得的人脸关键点检测模型用于网络直播场景中，部署于其后台的媒体服务器或者其直播间中主播用户侧的客户端设备中，为美化直播视频流中人脸图像而提供准确的人脸关键点信息。据此，需要先从直播视频流中提取出视频帧。提取所述视频帧时，可以是针对每一帧进行预测人脸关键点，也可以间隔提取，本领域技术人员可灵活实施。

步骤S2200、采用所述人脸关键点检测模型检测出所述视频帧中人脸图像的关键点信息：

获得所述的视频帧之后，可借助本领域技术人员熟知的各种人脸检测模型对视频帧进行人脸检测，提取出其中的人脸图像，将该人脸图像输入至本申请训练所得的所述人脸关键点检测模型中进行人脸关键点预测，获得人脸图像相对应的关键点信息，也即前文所称的预测信息。

步骤S2300、从所述直播视频流的播放界面获取图像修正参数，根据所述图像修正参数调整所述关键点信息：

继而，可通过所述的直播视频流的播放界面获取相关的图像修正参数，以便根据图像修正参数调整所述的关键点信息。如果本申请的计算机程序部署于媒体服务器，则可通过远程指令向该直播视频流的一个用户的客户端设备获取所述的图像修正参数。如果该计算机程序部署于客户端设备中，特别是提供所述直播视频流的直播间主播用户的客户端设备中，则可参阅图7，按如下过程进行界面交互：

步骤S2310、响应用户操作指令向图形用户界面弹出控制面板，在控制面板中显示人脸图像修正控件：

当主播用户期望对其推送的直播视频流中的人脸图像进行美化时，可利用直播间的图像用户界面中提供的控件触发相应的用户操作指令，以使计算机程序响应该用户操作指令而向直播间的图形用户界面弹出一个用于实施人脸图像美化操作的控制面板，如图8所示，在该控制面板中显示人脸图像修正相关的各种控件(功能)，用于实施各种人脸美化效果，例如瘦脸、美白、特效等，其中以瘦脸美化效果为例，其对人脸关键点信息的依赖较重，需要依赖于人脸关键点信息。

步骤S2320、获取作用于所述人脸图像修正控件而相应产生的图像修正参数：

用户触控相应的控件后，可以设置达成相应的美化效果相对应的控制参数，这些控制参数可进一步经预设业务逻辑转换为操作该人脸图像的关键点信息所需的图像修正参数。

步骤S2330、根据所述图像修正参数重新调整所述关键点信息：

最后，根据所述图像修正参数，通过修改所述的关键点信息，以便为后续根据关键点信息重建人脸图像中的面部图像提供了必要信息。

步骤S2400、根据调整后的关键点信息修正所述视频帧的人脸图像：

调整后的关键点信息，包含了用户期望中的人脸图像的美化效果所需的基础信息，根据这些关键调整后的关键点信息，可以重构所述人脸图像，使其获得美化效果，如图9所示，主播用户相对于图8实现了瘦脸效果。

本实施例将本申请训练所得的人脸关键点检测模型与网络直播场景相结合，将其用于为直播视频流提供人脸图像美化所需的基础信息，由于该检测模型经训练后具有精准预测人脸图像的关键点信息的能力，因此，本实施例可以有效提升网络直播的基础服务能力，通过精准预测关键点，改善网络直播的直播视频流中人脸美化过程中的人脸关键点的贴合度，尤其是在特殊表情、大侧脸等特殊情况下，可使美颜、美妆等人像美化效果表现更优，改善用户体验。

请参阅图10，深化的实施例中，所述步骤S1100、采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息的步骤中，结合图11示例的人脸关键点检测模型的基础架构，示例性的人脸关键点检测模型执行如下步骤：

步骤S3100、获取数据集中的单个训练样本，所述训练样本为包含人脸图像的图片：

所述检测模型可以从数据集中直接获取单个训练样本，对该训练样本按需进行图像格式化处理，例如缩放、裁剪到固定尺寸等，还可先调用人脸识别模型检测确认训练样本中存在人脸图像，以排除不合格的样本，在此基础上继续后续操作。

步骤S3200、采用扩展卷积层扩大所述训练样本的图像特征信息的尺度：

该检测模型中设置一个1*1的扩展卷积层(expansion convolution)，用于将所述训练样本的多通道信息从低维空间映射到高维空间，通过提升通道数，扩大所述训练样本的图像特征信息的尺度，方便获得更丰富的语义特征。

步骤S3300、采用深度可分离卷积层从所述图像特征信息中提取出深度语义信息：

通过深度可分离卷积层(depthwise convolution)，对所述图像特征信息中各应用一个卷积核进行卷积操作，获得其中的深度语义信息，实现特征提取过程，获得相应的图像特征信息。

步骤S3400、采用瓶颈卷积层缩小所述图像特征信息的尺度作为残差信息：

继而，采用一个1*1的瓶颈卷积层(Projection Convolution)缩小所述图像特征信息的尺度，使其从高维空间回归低维空间，获得残差信息。

步骤S3500、引用所述训练样本的原图信息与所述残差信息相综合获得表示所述人脸图像中多个预测关键点的坐标的预测信息：

最后，根据残差卷积原理，将所述训练样本的原图信息与所述残差信息进行拼接或者叠加(residual convolution)激活输出，获得表征了所述人脸图像中的多个预测关键点的坐标的预测信息。

本实施例综合MobileNet、ShuffleNet等模型的共性，运用Inverted Residual(反射残差)的网络架构原理，允许自行搭建网络架构作为本申请的其中一种实施方式，方便指导本领域技术人员灵活实施。其中，训练样本经过特征的扩展、卷积提特征、压缩之后，在卷积提特征的过程中尽量减少运算量以及参数量，并且在末端输出时应用残差信息，实现快捷获取预测结果。

请参阅图12，适应本申请的目的之一而提供的一种人脸关键点修正装置，包括：样本调用模块1100、监督调用模块1200、目标构造模块1300，以及更新迭代模块1400，其中，所述样本调用模块1100，被配置为采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息，所述预测信息包含所述人脸图像中多个预测关键点相对应的坐标；所述监督调用模块1200，被配置为从所述数据集中获取与所述训练样本相对应的标注信息，所述标注信息包含与所述预测关键点相对应的实际关键点的坐标；所述目标构造模块1300，用于基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值；所述更新迭代模块1400，用于判定所述损失值是否达到预设阈值，当未达到预设阈值时，对所述人脸关键点检测模型实施梯度更新，调用下一训练样本对所述人脸关键点检测模型实施迭代训练直至模型收敛。

深化的一种实施例中，所述目标构造模块1300，包括：映射对应子模块，用于根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息；定位连线子模块，用于根据查找出的实际关键点的获取其前后两个相邻的实际关键点的坐标，以分别限定与该两个相邻的实际关键点之间的第一连线和第二连线；损失计算子模块，用于根据坐标计算每个预测关键点分别到其相对应的第一连线和第二连线之间的点到线之间距离的均值距离，将所有预测关键点的均值距离求和作为损失值。

深化的另一实施例中，所述目标构造模块1300，包括：映射对应子模块，用于根据所述预测信息中的预测关键点查找出其相对应的标注信息中的实际关键点，所述预测信息与所述标注信息中包含所述预测关键点与所述实际关键点之间的映射关系信息；定位连线子模块，用于根据查找出的实际关键点的获取其最邻近的实际关键点的坐标，以限定与该最邻近的实际关键点之间的连线；损失计算子模块，用于根据坐标计算每个预测关键点到其相对应的所述连线之间的点到线之间距离，将所有预测关键点的距离求和作为损失值。

深化的实施例中，所述样本调用模块1100中，所述人脸关键点检测模型运行表现为包括如下单元：训练调用单元，用于获取数据集中的单个训练样本，所述训练样本为包含人脸图像的图片；扩展卷积单元，用于采用扩展卷积层扩大所述训练样本的图像特征信息的尺度；深度卷积单元，用于采用深度可分离卷积层从所述图像特征信息中提取出深度语义信息；瓶颈卷积单元，用于采用瓶颈卷积层缩小所述图像特征信息的尺度作为残差信息；预测合成单元，用于引用所述训练样本的原图信息与所述残差信息相综合获得表示所述人脸图像中多个预测关键点的坐标的预测信息。

为解决上述技术问题，本申请实施例还提供计算机设备。如图13所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种人脸关键点修正方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的人脸关键点修正方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图12中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的人脸关键点修正装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的人脸关键点修正方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

如图14所示，本申请的技术方案所实现的应用程序产品，可以运行于服务机群的业务服务器中，通过客户端设备对业务服务器中所述应用程序产品运行所开放的接口进行调用，而实施本申请对所述人脸关键点检测模型的训练过程，训练过程中所需调用的训练样本可存储于服务机群的后端服务器中，由负责实施训练的业务服务自行调用。当然，如果单机的运行资源能够胜任，则可通过单台客户端设备存储相关训练样本及实施相应的训练，未必需要依赖于服务机群，对此，本领域技术人员可灵活实施。

综上所述，本申请确定损失值的过程简单高效，能够使人脸关键点检测模型被快速训练至收敛状态，使其在网络直播之类的应用场景中对人脸图像进行识别和美化时，能够获得更为精准的关键点信息，以此为基础服务于多种下游任务，改善用户体验，具有广泛适应性。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种人脸关键点修正方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的人脸关键点修正方法，其特征在于，基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值，包括如下步骤：

3.根据权利要求2所述的人脸关键点修正方法，其特征在于，根据坐标计算每个预测关键点分别到其相对应的第一连线和第二连线之间的点到线之间距离的均值距离，将所有预测关键点的均值距离求和作为损失值的步骤中，在求和的过程中为每个均值距离匹配归一化权重。

4.根据权利要求1所述的人脸关键点修正方法，其特征在于，基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值，包括如下步骤：

5.根据权利要求1所述的人脸关键点修正方法，其特征在于，所述人脸关键点检测模型达至收敛之后，包括如下步骤：

从直播视频流中提取视频帧；

根据调整后的关键点信息修正所述视频帧的人脸图像。

6.根据权利要求5所述的人脸关键点修正方法，其特征在于，从所述直播视频流的播放界面获取图像修正参数，根据所述图像修正参数调整所述关键点信息，包括如下步骤：

根据所述图像修正参数重新调整所述关键点信息。

7.根据权利要求1至6中任意一项所述的人脸关键点修正方法，其特征在于，采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息的步骤中，所述人脸关键点检测模型执行如下步骤：

采用扩展卷积层扩大所述训练样本的图像特征信息的尺度；

8.一种人脸关键点修正装置，其特征在于，包括：

样本调用模块，被配置为采用人脸关键点检测模型获取数据集中训练样本中人脸图像的预测信息，所述预测信息包含所述人脸图像中多个预测关键点相对应的坐标；

监督调用模块，被配置为从所述数据集中获取与所述训练样本相对应的标注信息，所述标注信息包含与所述预测关键点相对应的实际关键点的坐标；

目标构造模块，用于基于坐标计算每一预测关键点到达其相对应的实际关键点与相邻实际关键点之间连线的距离而确定损失值；

更新迭代模块，用于判定所述损失值是否达到预设阈值，当未达到预设阈值时，对所述人脸关键点检测模型实施梯度更新，调用下一训练样本对所述人脸关键点检测模型实施迭代训练直至模型收敛。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。