CN112733795B

CN112733795B - 人脸图像的视线矫正方法、装置、设备及存储介质

Info

Publication number: CN112733795B
Application number: CN202110088340.4A
Authority: CN
Inventors: 蒋正锴; 彭瑾龙; 贺珂珂; 余晓铭; 易阳; 涂娟辉; 周易; 刘程浩; 王亚彪; 邰颖; 汪铖杰; 李季檩; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2022-10-11
Anticipated expiration: 2041-01-22
Also published as: WO2022156622A1; CN112733795A; US20230072627A1

Abstract

本申请公开了一种人脸图像的视线矫正方法、装置、设备及存储介质，涉及人工智能技术领域。所述方法包括：从人脸图像中获取待矫正眼部图像；基于待矫正眼部图像和目标视线方向，生成眼部运动流场；采用眼部运动流场对待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像；基于矫正后眼部图像，生成经视线矫正后的人脸图像。由于本申请技术方案无需固定头部姿态进行视线矫正，因此对于诸如视频会议、视频通话、视频直播等用户头部姿态实时会发生变化的场景，本申请技术方案具有较好的视线矫正能力。

Description

人脸图像的视线矫正方法、装置、设备及存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种人脸图像的视线矫正方法、装置、设备及存储介质。

背景技术

人的眼睛是最能传神的器官，视线矫正旨在将人眼的视线矫正为任意指定的方向。

在相关技术中，提供了一种基于固定头部姿态进行视线矫正的技术方案，该方案对于头部姿态固定的图像，具有较好的视线矫正能力。但是，对于视频会议、视频通话等场景，用户头部姿态实时会发生变化，导致该方案对于这种场景无法适用。

发明内容

本申请实施例提供了一种人脸图像的视线矫正方法、装置、设备及存储介质，对于诸如视频会议、视频通话等用户头部姿态实时会发生变化的场景，具有较好的视线矫正能力。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种人脸图像的视线矫正方法，所述方法包括：

从人脸图像中获取待矫正眼部图像；

基于所述待矫正眼部图像和目标视线方向，生成眼部运动流场；其中，所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向，所述眼部运动流场用于调整所述待矫正眼部图像中的像素位置；

采用所述眼部运动流场对所述待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像；

基于所述矫正后眼部图像，生成经视线矫正后的人脸图像。

根据本申请实施例的一个方面，提供了一种视线矫正模型的训练方法，所述方法包括：

训练基于运动流场的第一教师视线矫正模型，所述第一教师视线矫正模型用于基于待矫正眼部图像样本输出相应的眼部运动流场，所述眼部运动流场用于调整所述待矫正眼部图像样本中的像素位置；

训练基于图像的第二教师视线矫正模型，所述第二教师视线矫正模型用于基于所述待矫正眼部图像样本输出相应的矫正后眼部图像样本；

采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型。

根据本申请实施例的一个方面，提供了一种人脸图像的视线矫正装置，所述装置包括：

眼部图像获取模块，用于从人脸图像中获取待矫正眼部图像；

运动流场生成模块，用于基于所述待矫正眼部图像和目标视线方向，生成眼部运动流场；其中，所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向，所述眼部运动流场用于调整所述待矫正眼部图像中的像素位置；

视线矫正处理模块，用于采用所述眼部运动流场对所述待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像；

眼部图像整合模块，用于基于所述矫正后眼部图像，生成经视线矫正后的人脸图像。

根据本申请实施例的一个方面，提供了一种视线矫正模型的训练装置，所述装置包括：

第一教师模型训练模块，用于训练基于运动流场的第一教师视线矫正模型，所述第一教师视线矫正模型用于基于待矫正眼部图像样本输出相应的眼部运动流场，所述眼部运动流场用于调整所述待矫正眼部图像样本中的像素位置；

第二教师模型训练模块，用于训练基于图像的第二教师视线矫正模型，所述第二教师视线矫正模型用于基于所述待矫正眼部图像样本输出相应的矫正后眼部图像样本；

学生模型训练模块，用于采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型。

根据本申请实施例的一个方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述人脸图像的视线矫正方法，或者上述视线矫正模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述人脸图像的视线矫正方法，或者上述视线矫正模型的训练方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述人脸图像的视线矫正方法，或者上述视线矫正模型的训练方法。

本申请实施例提供的技术方案至少包括如下有益效果：

通过结合待矫正眼部图像和需要矫正至的目标视线方向，生成眼部运动流场，然后采用该眼部运动流场对待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像，由于本申请技术方案无需固定头部姿态进行视线矫正，因此对于诸如视频会议、视频通话、视频直播等用户头部姿态实时会发生变化的场景，本申请技术方案具有较好的视线矫正能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的方案实施环境的示意图；

图2示出了在视频会议场景下，摄像头、人眼、人眼视线看的位置之间形成的夹角的示意图；

图3是本申请一个实施例提供的人脸图像的视线矫正方法的流程图；

图4是本申请一个实施例提供的视线矫正前后的对比图；

图5是本申请另一个实施例提供的人脸图像的视线矫正方法的流程图；

图6是本申请一个实施例提供的视线矫正模型的示意图；

图7是本申请一个实施例提供的视线矫正模型的训练方法的流程图；

图8是本申请一个实施例提供的第一教师视线矫正模型的训练过程的示意图；

图9是本申请一个实施例提供的第二教师视线矫正模型的训练过程的示意图；

图10是本申请一个实施例提供的学生视线矫正模型的训练过程的示意图；

图11是本申请一个实施例提供的人脸图像的视线矫正装置的框图；

图12是本申请一个实施例提供的视线矫正模型的训练装置的框图；

图13是本申请一个实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR(Optical Character Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D(3Dimension，三维)技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本申请实施例提供的技术方案，涉及人工智能的机器学习和计算机视觉等技术，具体通过如下实施例进行介绍说明。

请参考图1，其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现称为一个视频会议系统。该方案实施环境可以包括服务器10和多个终端20。

终端20可以是诸如手机、平板电脑、PC(Personal Computer，个人计算机)、智能电视、多媒体播放设备等电子设备。终端20中可以安装运行视频会议应用程序的客户端，从而向用户提供视频会议功能。

服务器10可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。服务器10可以是视频会议应用程序的后台服务器，用于为上述客户端提供后台服务器。

终端20和服务器10之间可以通过网络进行通信。

如图2所示，在视频会议场景下，用户的视线一般都是看着屏幕21中的对方，而摄像头22并不在屏幕21中，而是在其他位置(如图2所示的屏幕21上方)，因此摄像头22、人眼、人眼视线看的位置之间往往有一个夹角(图2中虚线所示夹角α)。在对方用户看来，用户的视线并没有看着对方用户，而是视线偏下，从而影响了用户的交流体验。

除了在视频会议场景之外，视频通话、视频直播等场景中均有类似问题。

而且，在上述这些场景下，用户头部姿态实时会发生变化，导致相关技术提供的基于固定头部姿态进行视线矫正的技术方案无法适用。本申请提供的技术方案，通过结合待矫正眼部图像和需要矫正至的目标视线方向，生成眼部运动流场，然后采用该眼部运动流场对待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像，由于本申请技术方案无需固定头部姿态进行视线矫正，因此对于诸如视频会议、视频通话、视频直播等用户头部姿态实时会发生变化的场景，本申请技术方案具有较好的视线矫正能力。

请参考图3，其示出了本申请一个实施例提供的人脸图像的视线矫正方法的流程图。该方法各步骤的执行主体可以是诸如手机、平板电脑、PC等终端设备，也可以是服务器。该方法可以包括如下几个步骤(310～340)：

步骤310，从人脸图像中获取待矫正眼部图像。

人脸图像是指包含人脸的图像，该人脸图像可以是一张照片或图片，也可以是视频中的一个图像帧，本申请实施例对此不作限定。待矫正眼部图像是从人脸图像中截取的，包含需要进行视线矫正的眼部区域的图像。

需要说明的是，通常来讲，一个人脸图像中包含左右两个人眼，因此可以从一张人脸图像中获取两张待矫正眼部图像，其中一张对应于左眼的待矫正眼部图像，另一张对应于右眼的待矫正眼部图像。

步骤320，基于待矫正眼部图像和目标视线方向，生成眼部运动流场。

目标视线方向是指待矫正眼部图像中的眼部视线需要矫正至的视线方向。可选地，目标视线方向是指正视摄像头的方向，从而实现将待矫正眼部图像中的眼部视线矫正至正视摄像头的方向。可选地，目标视线方向包括俯仰角(pitch)和偏航角(yaw)，例如，在正视摄像头的情况下，定义俯仰角等于0°且偏航角也等于0°。

眼部运动流场用于调整待矫正眼部图像中的像素位置。可选地，眼部运动流场中每个像素的像素值，包括水平位移量和垂直位移量；其中，眼部运动流场中某一像素的水平位移量，表示待矫正眼部图像中与该像素相同位置的像素在水平方向上的位移量，如水平方向上位移的像素数量；眼部运动流场中某一像素的垂直位移量，表示待矫正眼部图像中与该像素相同位置的像素在垂直方向上的位移量，如垂直方向上位移的像素数量。眼部运动流场可以包括一个二维图像，如包括第一维度图像和第二维度图像，第一维度图像用于存储各像素的水平位移量，第二维度图像用于存储各像素的垂直位移量。并且，第一维度图像和第二维度图像的尺寸(包括高和宽)，与待矫正眼部图像的尺寸相同。

步骤330，采用眼部运动流场对待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像。

例如，对于待矫正眼部图像中的任一像素，从眼部运动流场中获取该像素的水平位移量和垂直位移量，然后基于水平位移量和垂直位移量对该像素进行位移处理，得到矫正后眼部图像。

步骤340，基于矫正后眼部图像，生成经视线矫正后的人脸图像。

将矫正后眼部图像整合至原始的人脸图像中的相应位置，采用矫正后眼部图像覆盖或替换掉上述待矫正眼部图像，得到经视线矫正后的人脸图像。

如图4所示，其示出了采用本申请实施例提供的视线矫正方法，在视线矫正前后的对比图。左侧图示(a)为未经视线矫正的人脸图像，人眼视线偏移；右侧图示(b)为经视线矫正后的人脸图像，人眼视线聚焦在正前方。

综上所述，本申请实施例提供的技术方案，通过结合待矫正眼部图像和需要矫正至的目标视线方向，生成眼部运动流场，然后采用该眼部运动流场对待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像，由于本申请技术方案无需固定头部姿态进行视线矫正，因此对于诸如视频会议、视频通话、视频直播等用户头部姿态实时会发生变化的场景，本申请技术方案具有较好的视线矫正能力。

请参考图5，其示出了本申请另一个实施例提供的人脸图像的视线矫正方法的流程图。该方法各步骤的执行主体可以是诸如手机、平板电脑、PC等终端设备，也可以是服务器。该方法可以包括如下几个步骤(510～550)：

步骤510，从人脸图像中获取待矫正眼部图像。

可选地，首先对人脸图像进行人脸检测，确定人脸图像中是否包含人脸，以及在包含人脸的情况下确定人脸位置。进一步地，如果在人脸图像中包含人脸的情况下，进行人脸关键点检测。由于本申请重点关注的是眼部区域，因此可以仅进行眼部关键点的检测，诸如嘴、鼻子等其他部位的关键点不需要检测。

在示例性实施例中，基于单个眼睛的轮廓关键点，确定该单个眼睛的最小外接矩形；对该单个眼睛的最小外接矩形放大指定倍数，得到该单个眼睛的图像截取框；基于该单个眼睛的图像截取框，从人脸图像中截取得到该单个眼睛的待矫正眼部图像。

单个眼睛的最小外接矩形是指包含该单个眼睛的最小外接矩形框。例如，左眼的最小外接矩形即是指包含该左眼的最小外接矩形框。上述指定倍数可以是预先设定的数值，例如1.5倍、2倍或3倍等，本申请实施例对此不作限定。在对单个眼睛的最小外接矩形进行放大处理得到图像截取框的过程中，以该最小外接矩形的中心点为中心，对其进行等比例放大处理，得到图像截取框，该图像截取框的中心点与上述最小外接矩形的中心点重合。最后，采用图像截取技术，从人脸图像中截取该单个眼睛的图像截取框中的图像内容，得到该单个眼睛的待矫正眼部图像。

相比于直接对人脸图像进行视线矫正处理，通过从人脸图像中获取待矫正眼部图像，对该待矫正眼部图像进行视线矫正处理，有助于减少后续步骤的计算量，提升效率。

步骤520，基于待矫正眼部图像和目标视线方向，生成眼部运动流场和眼部轮廓掩码。

目标视线方向是指待矫正眼部图像中的眼部视线需要矫正至的视线方向，眼部运动流场用于调整待矫正眼部图像中的像素位置。有关目标视线方向和眼部运动流场的介绍说明，可参见上文实施例，此处不再赘述。

眼部轮廓掩码用于指示待矫正眼部图像中的像素位置属于眼部区域的概率。例如，眼部轮廓掩码可以表示为一个一维图像，该一维图像的尺寸(包括高和宽)，与待矫正眼部图像的尺寸相同。眼部轮廓掩码中某一像素的像素值可以是一个概率值，表示待矫正眼部图像中相同位置的像素属于眼部区域的概率。例如，眼部轮廓掩码中坐标为(i,j)位置的像素值，可以是一个属于[0,1]取值范围的概率值，表示待矫正眼部图像中坐标为(i,j)位置的像素属于眼部区域的概率。

在示例性实施例中，将待矫正眼部图像和目标视线方向输入至视线矫正模型，通过该视线矫正模型对上述输入数据进行处理，输出眼部运动流场和眼部轮廓掩码。视线矫正模型可以是预先对神经网络进行训练得到的机器学习模型。

可选地，步骤520可以包括如下几个子步骤：

1、对待矫正眼部图像和目标视线方向在通道维进行组合，得到组合数据；

2、通过视线矫正模型对组合数据进行处理，得到视线矫正模型的输出数据；

3、从输出数据中提取得到眼部运动流场和眼部轮廓掩码。

待矫正眼部图像可以包括R、G、B三个通道的图像，目标视线方向可以包括俯仰角、偏航角这两个通道的图像，通过对待矫正眼部图像和目标视线方向在通道维进行组合，得到组合数据，该组合数据可以包括上述5个通道的图像。另外，在目标视线方向包括俯仰角等于0°且偏航角也等于0°的情况下，俯仰角这一通道对应的图像中各像素的像素值均为0，偏航角这一通道对应的图像中各像素的像素值也均为0。

视线矫正模型可以是一个神经网络模型，如其可以包括编码网络和解码网络。编码网络用于对组合数据进行下采样处理，提取得到该组合数据的特征信息；解码网络用于对上述特征信息进行上采样处理，输出得到输出数据。

输出数据可以包括3通道的图像(或称为数据)，从输出数据中提取第一通道和第二通道的数据，得到眼部运动流场；从输出数据中提取第三通道的数据，得到眼部轮廓掩码。例如，第一通道的数据作为第一维度图像，用于存储各像素的水平位移量；第二通道的数据作为第二维度图像，用于存储各像素的垂直位移量。

在一个示例中，假设待矫正眼部图像的高为H，宽为W，H和W可以分别表示高度方向上的像素数量和宽度方向上的像素数量。那么待矫正眼部图像是一个H×W×3的三通道图像，目标视线方向是一个H×W×2的二通道图像，两者在通道维进行组合，得到H×W×5的组合数据。视线矫正模型的输出数据包括H×W×3的三通道图像，从中提取两个通道的数据H×W×2作为眼部运动流场，剩下一个通道的数据H×W×1作为眼部轮廓掩码。

可选地，视线矫正模型为经多个教师视线矫正模型进行知识蒸馏训练后得到的学生视线矫正模型。学生视线矫正模型相比于教师视线矫正模型的模型结构和/或模型参数会有所简化。采用这种方式，能够训练得到视线矫正效果优，模型体积小的视线矫正模型，适合诸如手机等移动设备上应用。

步骤530，采用眼部运动流场对待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像。

假设待矫正眼部图像为x，矫正后眼部图像为y，眼部运动流场为f，对于图像中的任一坐标为(i,j)位置，y(i，j)的计算如下：y(i，j)＝x(i+f(i,j)[0],j+f(i,j)[1])，由于i+f(i,j)[0]和j+f(i,j)[1]是浮点数，因此我们需要用双线性插值计算其值。

步骤540，采用眼部轮廓掩码对矫正后眼部图像进行调整处理，生成调整后眼部图像。

可选地，步骤540可以包括如下几个子步骤：

1、将眼部轮廓掩码与矫正后眼部图像中对应位置的像素值进行相乘，得到第一中间图像；

2、将眼部轮廓掩码对应的映射图像与待矫正眼部图像中对应位置的像素值进行相乘，得到第二中间图像；

3、将第一中间图像和第二中间图像中对应位置的像素值进行相加，得到调整后眼部图像。

结合上文实施例中的介绍说明，眼部轮廓掩码中各位置的像素值是一个属于[0,1]取值范围的概率值，眼部轮廓掩码对应的映射图像中任一位置的像素值，是采用1减去眼部轮廓掩码中相同位置的像素值(即概率值)得到的数值。例如，眼部轮廓掩码中坐标为(i,j)位置的像素值(即概率值)为0.2，那么眼部轮廓掩码对应的映射图像中坐标为(i,j)位置的像素值为1-0.2＝0.8。

上述生成调整后眼部图像可以采用如下公式表示：调整后眼部图像＝眼部轮廓掩码×矫正后眼部图像+(1-眼部轮廓掩码)×待矫正眼部图像。

步骤550，基于调整后眼部图像，生成经视线矫正后的人脸图像。

可选地，将调整后眼部图像整合至待矫正眼部图像在人脸图像的图像截取框位置处，得到整合图像；对该整合图像中图像截取框位置处进行图像和谐化处理，得到经视线矫正后的人脸图像。其中，图像和谐化处理的目的是为了消除图像截取框位置处的边界痕迹。在本申请实施例中，对图像和谐化处理所采用的方式不作限定，如高斯模糊、腐蚀膨胀或者基于深度学习的图像和谐化方法等。

在一种可能的实现方式中，采用如下方式对整合图像中图像截取框位置处进行图像和谐化处理，得到经视线矫正后的人脸图像：

1、生成与人脸图像相同尺寸的初始化掩膜图像，该初始化掩膜图像在图像截取框位置处的像素值为1，其余位置的像素值为0；

例如，假设原始的人脸图像的尺寸为C×H×W；其中，C为通道数(如包括R、G、B三个通道)，H为高度(如高度方向上包含的像素数量)，W为宽度(如宽度方向上包含的像素数量)。同时假设上述图像截取框是一个在人脸图像中的目标位置处的尺寸为h×w的矩形框，h为高度(如高度方向上包含的像素数量)，w为宽度(如宽度方向上包含的像素数量)，那么待矫正眼部图像和矫正后眼部图像的尺寸均为c×h×w，c为通道数(如包括R、G、B三个通道)。

那么生成尺寸为C×H×W的初始化掩膜图像，对于C个通道中的每一个单通道图像H×W，在上述目标位置处的h×w图像截取框中的像素值设为1，除该图像截取框之外的其他区域的像素值设为0，作为初始化掩膜图像。

2、对初始化掩膜图像进行腐蚀操作和高斯模糊处理，得到处理后掩膜图像；

腐蚀操作的目的是消除物体之间的边界点，例如可以采用椭圆模板对初始化掩膜图像进行腐蚀操作，得到腐蚀后掩膜图像。高斯模糊处理也称为高斯平滑处理，用于减少图像噪声以及降低细节层次。在得到上述腐蚀后掩膜图像之后，可以对该腐蚀后掩膜图像进行高斯模糊处理，得到处理后掩膜图像。处理后掩膜图像中，仍然是一个尺寸为C×H×W的图像，各像素的取值在范围[0,1]之间，特别是对于原本0和1之间的交界位置处的像素来说，经过上述腐蚀操作和高斯模糊处理之后，取值会介于0和1之间，从而实现平滑过渡。

3、将处理后掩膜图像与整合图像中对应位置的像素值进行相乘，得到第一生成图像；

4、将处理后掩膜图像对应的映射图像与人脸图像中对应位置的像素值进行相乘，得到第二生成图像；

5、将第一生成图像和第二生成图像中对应位置的像素值进行相加，得到经视线矫正后的人脸图像。

处理后掩膜图像中各位置的像素值是一个属于[0,1]取值范围的数值，处理后掩膜图像对应的映射图像中任一位置的像素值，是采用1减去处理后掩膜图像中相同位置的像素值得到的数值。例如，处理后掩膜图像中坐标为(i,j)位置的像素值为0.3，那么处理后掩膜图像对应的映射图像中坐标为(i,j)位置的像素值为1-0.3＝0.7。

上述生成经视线矫正后的人脸图像可以采用如下公式表示：经视线矫正后的人脸图像＝处理后掩膜图像×整合图像+(1-处理后掩膜图像)×人脸图像。

通过上述方式，能够使得整合图像中位于图像截取框位置处的边界痕迹得到消除，使得最终得到的经视线矫正后的人脸图像没有明显的拼接痕迹，效果更佳。

如图6所示，将待矫正眼部图像和目标视线方向输入至视线矫正模型，由模型输出眼部运动流场和眼部轮廓掩码，采用眼部运动流场对待矫正眼部图像进行变换处理，生成变换处理后眼部图像(相当于步骤530中的矫正后眼部图像)，然后采用眼部轮廓掩码对变换处理后眼部图像进行图像调整处理，生成最终的矫正后眼部图像(相当于步骤540中的调整后眼部图像)。

综上所述，本申请实施例提供的技术方案，由于从人脸图像中截取的待矫正眼部图像，除了包括眼部轮廓内部的眼部区域之外，还包括眼部轮廓外部的非眼部区域，本申请通过采用眼部轮廓掩码对矫正后眼部图像进行调整处理，生成调整后眼部图像，将该调整后眼部图像作为最终的矫正后眼部图像，实现了对于眼部轮廓内部的眼部区域保留经眼部运动流场进行像素位移后的结果，而对于眼部轮廓外部的非眼部区域保留更多的原始图像信息，实现了通过注意力机制将原始的待矫正眼部图像和经眼部运动流场矫正后的眼部图像进行融合，保证了只对眼部轮廓内部的图像内容进行视线矫正，而眼部轮廓外部的图像内容不需要进行视线矫正，提升了最终得到的矫正后眼部图像的视线矫正效果。

下面，通过实施例对视线矫正模型的训练流程进行介绍说明，有关该视线矫正模型使用过程中涉及的内容和训练过程中涉及的内容是相互对应的，两者互通，如在一侧未作详细说明的地方，可以参考另一侧的描述说明。

请参考图7，其示出了本申请一个实施例提供的视线矫正模型的训练方法的流程图。该方法各步骤的执行主体可以是电脑、服务器等计算机设备。该方法可以包括如下几个步骤(710～730)：

步骤710，训练基于运动流场的第一教师视线矫正模型，第一教师视线矫正模型用于基于待矫正眼部图像样本输出相应的眼部运动流场，眼部运动流场用于调整待矫正眼部图像样本中的像素位置。

第一教师视线矫正模型可以是一个神经网络模型。可选地，该模型的输入数据包括待矫正眼部图像样本和目标视线方向，输出数据包括眼部运动流场和眼部轮廓掩码。

在示例性实施例中，步骤710可以包括如下几个子步骤：

1、获取第一教师视线矫正模型的训练样本，该训练样本包括待矫正眼部图像样本和目标矫正眼部图像；

每个训练样本包括两张图像，分别是同一个人在同一个头部姿态角下拍摄得到的两张不同视线的图像，其中一张图像可以是任意视线方向的图像，该张图像作为待矫正眼部图像样本使用，另一张图像是具有目标视线方向的图像，该张图像作为目标矫正眼部图像使用。需要说明的是，不同的训练样本可以是不同的人物，也可以具有不同的头部姿态。也即，模型的训练样本集中可以包括多个训练样本，该多个训练样本可以包括具有不同人物的训练样本，包括具有不同头部姿态的训练样本，从而使得训练出的模型能够适应不同人物和不同头部姿态，提升模型的鲁棒性。

2、通过第一教师视线矫正模型对待矫正眼部图像样本进行处理，输出待矫正眼部图像样本对应的眼部运动流场和眼部轮廓掩码，眼部轮廓掩码用于指示待矫正眼部图像样本中的像素位置属于眼部区域的概率；

如图8所示，将待矫正眼部图像样本和目标视线方向在通道维进行组合，得到组合数据；通过第一教师视线矫正模型对组合数据进行处理，得到相应的输出数据；从输出数据中提取得到眼部运动流场和眼部轮廓掩码。在一个示例中，假设待矫正眼部图像样本的高为H，宽为W，H和W可以分别表示高度方向上的像素数量和宽度方向上的像素数量。那么待矫正眼部图像样本是一个H×W×3的三通道图像，目标视线方向是一个H×W×2的二通道图像，两者在通道维进行组合，得到H×W×5的组合数据，输入至第一教师视线矫正模型。第一教师视线矫正模型的输出数据包括H×W×3的三通道图像，从中提取两个通道的数据H×W×2作为眼部运动流场，剩下一个通道的数据H×W×1作为眼部轮廓掩码。

需要说明的是，在训练过程中，目标视线方向可以是正视摄像头的(0°，0°)方向，也可以是其他任意方向，从而使得模型具备将视线矫正至任意方向的能力。

3、基于待矫正眼部图像样本及其对应的眼部运动流场和眼部轮廓掩码，生成第一矫正后眼部图像样本；

采用眼部运动流场对待矫正眼部图像样本进行变换处理，生成变换处理后眼部图像样本，然后采用眼部轮廓掩码对变换处理后眼部图像样本进行调整处理，生成第一矫正后眼部图像样本。该过程与图5实施例中介绍的步骤530至540相同或类似，具体可参见图5实施例中的介绍说明，此处不再赘述。

4、基于第一矫正后眼部图像样本和目标矫正眼部图像，计算第一教师视线矫正模型的损失，并基于第一教师视线矫正模型的损失对第一教师视线矫正模型的参数进行调整。

可选地，第一教师视线矫正模型的损失函数可以基于第一矫正后眼部图像样本和目标矫正眼部图像之间的差异来构建，如将第一矫正后眼部图像样本和目标矫正眼部图像之间的重构损失，作为第一教师视线矫正模型的损失。然后，基于该第一教师视线矫正模型的损失，采用梯度下降算法对第一教师视线矫正模型的参数进行调整，以优化模型参数。

步骤720，训练基于图像的第二教师视线矫正模型，第二教师视线矫正模型用于基于待矫正眼部图像样本输出相应的矫正后眼部图像样本。

第二教师视线矫正模型可以是一个神经网络模型。可选地，该模型的输入数据包括待矫正眼部图像样本和目标视线方向，输出数据包括初步矫正后眼部图像样本和眼部轮廓掩码。第二教师视线矫正模型与第一教师视线矫正模型的不同之处在于，第二教师视线矫正模型直接输出经视线矫正后得到的初步矫正后眼部图像样本。

在示例性实施例中，步骤720可以包括如下几个子步骤：

1、获取第二教师视线矫正模型的训练样本，该训练样本包括待矫正眼部图像样本和目标矫正眼部图像；

第二教师视线矫正模型采用的训练样本，可以与第一教师视线矫正模型采用的训练样本相同，也可以不同。但是，不论相同还是不同，每个训练样本均是包括待矫正眼部图像样本和目标矫正眼部图像。

2、通过第二教师视线矫正模型对待矫正眼部图像样本进行视线矫正处理，输出初步矫正后眼部图像样本和眼部轮廓掩码，眼部轮廓掩码用于指示待矫正眼部图像样本中的像素位置属于眼部区域的概率；

如图9所示，将待矫正眼部图像样本和目标视线方向在通道维进行组合，得到组合数据；通过第二教师视线矫正模型对组合数据进行处理，得到相应的输出数据；从输出数据中提取得到初步矫正后眼部图像样本和眼部轮廓掩码。在一个示例中，假设待矫正眼部图像样本的高为H，宽为W，H和W可以分别表示高度方向上的像素数量和宽度方向上的像素数量。那么待矫正眼部图像样本是一个H×W×3的三通道图像，目标视线方向是一个H×W×2的二通道图像，两者在通道维进行组合，得到H×W×5的组合数据，输入至第二教师视线矫正模型。第二教师视线矫正模型的输出数据包括H×W×4的四通道图像，从中提取三个通道的数据H×W×3作为初步矫正后眼部图像样本，剩下一个通道的数据H×W×1作为眼部轮廓掩码。

3、基于初步矫正后眼部图像样本和眼部轮廓掩码，生成第二矫正后眼部图像样本；

例如，将眼部轮廓掩码与初步矫正后眼部图像样本中对应位置的像素值进行相乘，得到第三中间图像；将眼部轮廓掩码对应的映射图像与待矫正眼部图像样本中对应位置的像素值进行相乘，得到第四中间图像；将第三中间图像和第四中间图像中对应位置的像素值进行相加，得到第二矫正后眼部图像样本。该过程与图5实施例步骤540中介绍的生成调整后眼部图像的方式相同或类似，具体可参见上文介绍说明，此处不再赘述。

4、基于第二矫正后眼部图像样本和目标矫正眼部图像，计算第二教师视线矫正模型的损失，并基于第二教师视线矫正模型的损失对第二教师视线矫正模型的参数进行调整。

可选地，第二教师视线矫正模型的损失函数可以基于第二矫正后眼部图像样本和目标矫正眼部图像之间的差异来构建，如将第二矫正后眼部图像样本和目标矫正眼部图像之间的重构损失，作为第二教师视线矫正模型的损失。然后，基于该第二教师视线矫正模型的损失，采用梯度下降算法对第二教师视线矫正模型的参数进行调整，以优化模型参数。

步骤730，采用第一教师视线矫正模型和第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型。

在本申请实施例中，知识蒸馏训练过程的目的是让学生视线矫正模型能够学习到第一教师视线矫正模型和第二教师视线矫正模型所学习到的知识，从而生成出一个视线矫正效果优，模型体积小的学生视线矫正模型，适合诸如手机等移动设备上应用。

在训练学生视线矫正模型的过程中，第一教师视线矫正模型和第二教师视线矫正模型的模型参数固定不变，通过调整学生视线矫正模型的参数，对其性能进行优化。

在示例性实施例中，步骤730可以包括如下几个子步骤：

1、获取学生视线矫正模型的训练样本，该训练样本包括待矫正眼部图像样本和目标矫正眼部图像；

学生视线矫正模型采用的训练样本，可以与第一/第二教师视线矫正模型采用的训练样本相同，也可以不同。但是，不论相同还是不同，每个训练样本均是包括待矫正眼部图像样本和目标矫正眼部图像。

2、通过第一教师视线矫正模型输出待矫正眼部图像样本对应的教师眼部运动流场和第一教师眼部轮廓掩码，并基于待矫正眼部图像样本及其对应的教师眼部运动流场和第一教师眼部轮廓掩码，生成第一输出图像；

该过程与步骤710中介绍的生成第一矫正后眼部图像样本的过程相同或类似，此处不再赘述。

3、通过第二教师视线矫正模型输出待矫正眼部图像样本对应的初步矫正后图像和第二教师眼部轮廓掩码，并基于初步矫正后图像和第二教师眼部轮廓掩码，生成第二输出图像；

该过程与步骤720中介绍的生成第二矫正后眼部图像样本的过程相同或类似，此处不再赘述。

4、通过学生视线矫正模型输出待矫正眼部图像样本对应的学生眼部运动流场和学生眼部轮廓掩码，并基于待矫正眼部图像样本及其对应的学生眼部运动流场和学生眼部轮廓掩码，生成第三输出图像；

如图10所示，学生视线矫正模型的输入数据包括待矫正眼部图像样本和目标视线方向，输出数据包括学生眼部运动流场和学生眼部轮廓掩码。

可选地，采用学生眼部运动流场对待矫正眼部图像样本进行变换处理，生成变换后图像；采用学生眼部轮廓掩码对变换后图像进行调整处理，生成第三输出图像。

5、基于第一输出图像与第三输出图像之间的差异、第二输出图像与第三输出图像之间的差异，以及第三输出图像与目标矫正眼部图像之间的差异，计算学生视线矫正模型的损失；

在示例性实施例中，基于第一输出图像与第三输出图像之间的差异，计算第一子损失；基于第二输出图像与第三输出图像之间的差异，计算第二子损失；基于第三输出图像与目标矫正眼部图像之间的差异，计算第三子损失；对第一子损失、第二子损失和第三子损失进行加权求和处理，得到学生视线矫正模型的损失。

例如，学生视线矫正模型的损失L可以采用如下公式计算得到：

L＝Kd_loss+Rec_loss；

其中，Kd_loss＝w1×LPIPS Loss(teacher1_img,student_img)+w2×LPIPS Loss(teacher2_img,student_img)，Rec_loss＝w3×L1 Loss(student_img,img_tar)。

其中，w1、w2和w3分别表示3个权重值，其可以是可调节数值，例如w1+w2+w3＝1。LPIPS Loss(teacher1_img,student_img)表示上述第一子损失，LPIPS Loss(teacher2_img,student_img)表示上述第二子损失，L1 Loss(student_img,img_tar)表示上述第三子损失。teacher1_img表示第一输出图像，teacher2_img表示第二输出图像，student_img表示第三输出图像，img_tar表示目标矫正眼部图像。在上述公式中，第一子损失和第二子损失采用LPIPS(Learned Perceptual Image Patch Similarity，感知图像块相似度学习)损失，第三子损失采用L1损失。

6、基于学生视线矫正模型的损失，对学生视线矫正模型的参数进行调整，得到完成训练的学生视线矫正模型。

基于该学生视线矫正模型的损失，采用梯度下降算法对学生视线矫正模型的参数进行调整，以优化模型参数。

综上所述，本申请实施例提供的技术方案，通过采用多教师蒸馏方式，训练生成最终线上使用的学生视线矫正模型，使得学生视线矫正模型能够学习到第一教师视线矫正模型和第二教师视线矫正模型所学习到的知识，从而生成出一个视线矫正效果优，模型体积小的学生视线矫正模型，适合诸如手机等移动设备上应用。

另外，第一教师视线矫正模型是基于运动流场的模型，其输出数据包括眼部运动流场，基于眼部运动流场进行视线矫正，由于是对原始待矫正眼部图像中的像素进行位移实现视线矫正，因此第一教师视线矫正模型能够较好地保留原始图像特征；但是，对于眼部视线偏移较大的情况，如果眼部轮廓内容仅有少量的眼珠对应像素，采用像素位移实现视线矫正会存在失真，因此训练另一个基于图像的第二教师视线矫正模型，由于其输出数据包括初步矫正后的眼部图像，因此第二教师视线矫正模型能够较好地克服上述失真问题；最后，采用多教师蒸馏学习的方式，利用上述两个教师模型训练得到学生视线矫正模型，使得学生视线矫正模型能够兼顾上述两个教师模型的各自优势，生成出更加真实且不易失真的矫正后眼部图像。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的人脸图像的视线矫正装置的框图。该装置具有实现上述人脸图像的视线矫正方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1100可以包括：眼部图像获取模块1110、运动流场生成模块1120、视线矫正处理模块1130和眼部图像整合模块1140。

眼部图像获取模块1110，用于从人脸图像中获取待矫正眼部图像。

运动流场生成模块1120，用于基于所述待矫正眼部图像和目标视线方向，生成眼部运动流场；其中，所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向，所述眼部运动流场用于调整所述待矫正眼部图像中的像素位置。

视线矫正处理模块1130，用于采用所述眼部运动流场对所述待矫正眼部图像进行视线矫正处理，生成矫正后眼部图像。

眼部图像整合模块1140，用于基于所述矫正后眼部图像，生成经视线矫正后的人脸图像。

在示例性实施例中，所述运动流场生成模块1120，还用于基于所述待矫正眼部图像和所述目标视线方向，生成眼部轮廓掩码，所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率。

所述眼部图像整合模块1140，还用于采用所述眼部轮廓掩码对所述矫正后眼部图像进行调整处理，生成调整后眼部图像；基于所述调整后眼部图像，生成所述经视线矫正后的人脸图像。

在示例性实施例中，所述运动流场生成模块1120，用于：

对所述待矫正眼部图像和所述目标视线方向在通道维进行组合，得到组合数据；

通过视线矫正模型对所述组合数据进行处理，得到所述视线矫正模型的输出数据；

从所述输出数据中提取得到所述眼部运动流场和所述眼部轮廓掩码。

在示例性实施例中，所述视线矫正模型为经多个教师视线矫正模型进行知识蒸馏训练后得到的学生视线矫正模型，所述学生视线矫正模型的训练过程如下：

训练基于运动流场的第一教师视线矫正模型，所述第一教师视线矫正模型用于基于待矫正眼部图像样本输出相应的眼部运动流场；

采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对所述学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型。

在示例性实施例中，所述眼部图像整合模块1140，用于：

将所述眼部轮廓掩码与所述矫正后眼部图像中对应位置的像素值进行相乘，得到第一中间图像；

将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像中对应位置的像素值进行相乘，得到第二中间图像；

将所述第一中间图像和所述第二中间图像中对应位置的像素值进行相加，得到所述调整后眼部图像。

请参考图12，其示出了本申请一个实施例提供的视线矫正模型的训练装置的框图。该装置具有实现上述视线矫正模型的训练方法的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以是计算机设备，也可以设置在计算机设备中。该装置1200可以包括：第一教师模型训练模块1210、第二教师模型训练模块1220和学生模型训练模块1230。

第一教师模型训练模块1210，用于训练基于运动流场的第一教师视线矫正模型，所述第一教师视线矫正模型用于基于待矫正眼部图像样本输出相应的眼部运动流场，所述眼部运动流场用于调整所述待矫正眼部图像样本中的像素位置。

第二教师模型训练模块1220，用于训练基于图像的第二教师视线矫正模型，所述第二教师视线矫正模型用于基于所述待矫正眼部图像样本输出相应的矫正后眼部图像样本。

学生模型训练模块1230，用于采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型。

在示例性实施例中，所述第一教师模型训练模块1210，用于：

获取所述第一教师视线矫正模型的训练样本，所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像；

通过所述第一教师视线矫正模型对所述待矫正眼部图像样本进行处理，输出所述待矫正眼部图像样本对应的眼部运动流场和眼部轮廓掩码，所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率；

基于所述待矫正眼部图像样本及其对应的眼部运动流场和眼部轮廓掩码，生成第一矫正后眼部图像样本；

基于所述第一矫正后眼部图像样本和所述目标矫正眼部图像，计算所述第一教师视线矫正模型的损失，并基于所述第一教师视线矫正模型的损失对所述第一教师视线矫正模型的参数进行调整。

在示例性实施例中，所述第二教师模型训练模块1220，用于：

获取所述第二教师视线矫正模型的训练样本，所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像；

通过所述第二教师视线矫正模型对所述待矫正眼部图像样本进行视线矫正处理，输出初步矫正后眼部图像样本和眼部轮廓掩码，所述眼部轮廓掩码用于指示所述待矫正眼部图像样本中的像素位置属于眼部区域的概率；

基于所述初步矫正后眼部图像样本和所述眼部轮廓掩码，生成第二矫正后眼部图像样本；

基于所述第二矫正后眼部图像样本和所述目标矫正眼部图像，计算所述第二教师视线矫正模型的损失，并基于所述第二教师视线矫正模型的损失对所述第二教师视线矫正模型的参数进行调整。

在示例性实施例中，所述学生模型训练模块1230，用于：

获取所述学生视线矫正模型的训练样本，所述训练样本包括待矫正眼部图像样本和目标矫正眼部图像；

通过所述第一教师视线矫正模型输出所述待矫正眼部图像样本对应的教师眼部运动流场和第一教师眼部轮廓掩码，并基于所述待矫正眼部图像样本及其对应的教师眼部运动流场和第一教师眼部轮廓掩码，生成第一输出图像；

通过所述第二教师视线矫正模型输出所述待矫正眼部图像样本对应的初步矫正后图像和第二教师眼部轮廓掩码，并基于所述初步矫正后图像和所述第二教师眼部轮廓掩码，生成第二输出图像；

通过所述学生视线矫正模型输出所述待矫正眼部图像样本对应的学生眼部运动流场和学生眼部轮廓掩码，并基于所述待矫正眼部图像样本及其对应的学生眼部运动流场和学生眼部轮廓掩码，生成第三输出图像；

基于所述第一输出图像与所述第三输出图像之间的差异、所述第二输出图像与所述第三输出图像之间的差异，以及所述第三输出图像与所述目标矫正眼部图像之间的差异，计算所述学生视线矫正模型的损失；

基于所述学生视线矫正模型的损失，对所述学生视线矫正模型的参数进行调整，得到完成训练的学生视线矫正模型。

在示例性实施例中，所述学生模型训练模块1230，用于：

采用所述学生眼部运动流场对所述待矫正眼部图像样本进行变换处理，生成变换后图像；

采用所述学生眼部轮廓掩码对所述变换后图像进行调整处理，生成所述第三输出图像。

在示例性实施例中，所述学生模型训练模块1230，用于：

基于所述第一输出图像与所述第三输出图像之间的差异，计算第一子损失；

基于所述第二输出图像与所述第三输出图像之间的差异，计算第二子损失；

基于所述第三输出图像与所述目标矫正眼部图像之间的差异，计算第三子损失；

对所述第一子损失、所述第二子损失和所述第三子损失进行加权求和处理，得到所述学生视线矫正模型的损失。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请一个实施例提供的计算机设备的结构示意图。该计算机设备可以是任何具备数据计算、处理和存储功能的电子设备，如手机、平板电脑、PC(Personal Computer，个人计算机)或服务器等。该计算机设备用于实施上述实施例中提供的人脸图像的视线矫正方法或视线矫正模型的训练方法。具体来讲：

该计算机设备1300包括处理单元(如CPU(Central Processing Unit，中央处理器)、GPU(Graphics Processing Unit，图形处理器)和FPGA(Field Programmable GateArray，现场可编程逻辑门阵列)等)1301、包括RAM(Random-Access Memory，随机存储器)1302和ROM(Read-Only Memory，只读存储器)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。该计算机设备1300还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input Output System，I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

该基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中，该显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。该基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

该大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。该大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，该大容量存储设备1307可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory，只读光盘)驱动器之类的计算机可读介质(未示出)。

不失一般性，该计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory，电可擦写可编程只读存储器)、闪存或其他固态存储其技术，CD-ROM、DVD(Digital Video Disc，高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知该计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

根据本申请实施例，该计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在该系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集存储于存储器中，且经配置以由一个或者一个以上处理器执行，以实现上述人脸图像的视线矫正方法或视线矫正模型的训练方法。

在示例性实施例中，还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述实施例提供的人脸图像的视线矫正方法或视线矫正模型的训练方法。

可选地，该计算机可读存储介质可以包括：ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存储器)、SSD(Solid State Drives，固态硬盘)或光盘等。其中，随机存取记忆体可以包括ReRAM(Resistance Random Access Memory，电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory，动态随机存取存储器)。

在示例性实施例中，还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行上述人脸图像的视线矫正方法或视线矫正模型的训练方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外，本文中描述的步骤编号，仅示例性示出了步骤间的一种可能的执行先后顺序，在一些其它实施例中，上述步骤也可以不按照编号顺序来执行，如两个不同编号的步骤同时执行，或者两个不同编号的步骤按照与图示相反的顺序执行，本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人脸图像的视线矫正方法，其特征在于，所述方法包括：

从人脸图像中获取待矫正眼部图像；

对所述待矫正眼部图像和目标视线方向在通道维进行组合，得到组合数据；其中，所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向；

通过视线矫正模型对所述组合数据进行处理，得到所述视线矫正模型的输出数据；其中，所述视线矫正模型为经多个教师视线矫正模型进行知识蒸馏训练后得到的学生视线矫正模型；

从所述输出数据中提取得到所述眼部运动流场和所述眼部轮廓掩码；其中，所述眼部运动流场用于调整所述待矫正眼部图像中的像素位置，所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率；

将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像中对应位置的像素值进行相乘，得到第二中间图像；其中，所述眼部轮廓掩码对应的映射图像中任一位置的像素值，为1和所述眼部轮廓掩码中相同位置的像素值之间的差值；

将所述第一中间图像和所述第二中间图像中对应位置的像素值进行相加，得到调整后眼部图像；

基于所述调整后眼部图像，生成经视线矫正后的人脸图像。

2.根据权利要求1所述的方法，其特征在于，所述学生视线矫正模型的训练过程如下：

3.一种视线矫正模型的训练方法，其特征在于，所述方法包括：

采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型；

其中，所述完成训练的学生视线矫正模型用于实现如上述权利要求1至2任一项所述的人脸图像的视线矫正方法。

4.根据权利要求3所述的方法，其特征在于，所述训练基于运动流场的第一教师视线矫正模型，包括：

5.根据权利要求3所述的方法，其特征在于，所述训练基于图像的第二教师视线矫正模型，包括：

6.根据权利要求3所述的方法，其特征在于，所述采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述待矫正眼部图像样本及其对应的学生眼部运动流场和学生眼部轮廓掩码，生成第三输出图像，包括：

8.根据权利要求6所述的方法，其特征在于，所述基于所述第一输出图像与所述第三输出图像之间的差异、所述第二输出图像与所述第三输出图像之间的差异，以及所述第三输出图像与所述目标矫正眼部图像之间的差异，计算所述学生视线矫正模型的损失，包括：

9.一种人脸图像的视线矫正装置，其特征在于，所述装置包括：

运动流场生成模块，用于对所述待矫正眼部图像和目标视线方向在通道维进行组合，得到组合数据；其中，所述目标视线方向是指所述待矫正眼部图像中的眼部视线需要矫正至的视线方向；通过视线矫正模型对所述组合数据进行处理，得到所述视线矫正模型的输出数据；其中，所述视线矫正模型为经多个教师视线矫正模型进行知识蒸馏训练后得到的学生视线矫正模型；从所述输出数据中提取得到所述眼部运动流场和所述眼部轮廓掩码；其中，所述眼部运动流场用于调整所述待矫正眼部图像中的像素位置，所述眼部轮廓掩码用于指示所述待矫正眼部图像中的像素位置属于眼部区域的概率；

眼部图像整合模块，用于将所述眼部轮廓掩码与所述矫正后眼部图像中对应位置的像素值进行相乘，得到第一中间图像；将所述眼部轮廓掩码对应的映射图像与所述待矫正眼部图像中对应位置的像素值进行相乘，得到第二中间图像；其中，所述眼部轮廓掩码对应的映射图像中任一位置的像素值，为1和所述眼部轮廓掩码中相同位置的像素值之间的差值；将所述第一中间图像和所述第二中间图像中对应位置的像素值进行相加，得到调整后眼部图像；基于所述调整后眼部图像，生成经视线矫正后的人脸图像。

10.一种视线矫正模型的训练装置，其特征在于，所述装置包括：

学生模型训练模块，用于采用所述第一教师视线矫正模型和所述第二教师视线矫正模型，对学生视线矫正模型进行知识蒸馏训练，得到完成训练的学生视线矫正模型；其中，所述完成训练的学生视线矫正模型用于实现如上述权利要求1至2任一项所述的人脸图像的视线矫正方法。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至2任一项所述的人脸图像的视线矫正方法，或者实现如权利要求3至8任一项所述的视线矫正模型的训练方法。

12.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至2任一项所述的人脸图像的视线矫正方法，或者实现如权利要求3至8任一项所述的视线矫正模型的训练方法。