CN111353336A

CN111353336A - 图像处理方法、装置及设备

Info

Publication number: CN111353336A
Application number: CN201811570280.4A
Authority: CN
Inventors: 刘恒; 李志刚; 车慧敏
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-06-30
Anticipated expiration: 2038-12-21
Also published as: CN111353336B

Abstract

本申请提供一种图像处理方法、装置及设备。该方法包括：提取出视频图像中的前景图像和背景图像，前景图像为人脸图像，将前景图像以及前景图像对应的人脸倾斜角度输入至矫正模型，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的前景图像，并将矫正后的前景图像与背景图像进行合成，得到矫正后的视频图像。本申请能够调整用户的视线方向，从而可以支持眼神交流，提高了视频交互的交互体验。

Description

图像处理方法、装置及设备

技术领域

本申请涉及图像处理领域，尤其涉及一种图像处理方法、装置及设备。

背景技术

随着终端设备技术的不断发展，越来越多的用户选择使用终端设备进行视频交互，比如视频聊天、视频会议、远程医疗、网络直播、在线开户等。

现有技术中，由于终端设备的图像采集设备和显示设备空间存在距离，并且，用户在使用终端设备进行视频交互时，通常是注视着显示设备而不是图像采集设备。因此，交互双方在进行视频交互时，交互双方看到对方图像中的眼睛往往是看着屏幕以外其它地方的，而不是与自己的眼睛对视，交互看到的对方图像的眼睛注视方向与自己的视线方向总是有个角度差。

因此，现有技术中，存在视频交互的过程中，无法支持眼神交流的问题。

发明内容

本申请提供一种图像处理方法、装置及设备，用以支持视频交互的过程中的眼神交流。

第一方面，本申请提供一种图像处理方法，应用于终端设备，该方法包括：提取出视频图像中的前景图像和背景图像，该前景图像为人脸图像，将该前景图像以及该前景图像对应的人脸倾斜角度输入至矫正模型，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的该人脸图像的模型，并将矫正后的该前景图像与该背景图像进行合成，得到矫正后的该视频图像。

在上述方案中，通过提取出视频图像中的前景图像和背景图像，前景图像为人脸图像，将前景图像以及前景图像对应的人脸倾斜角度输入至矫正模型，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的前景图像，并将矫正后的前景图像与背景图像进行合成，得到矫正后的视频图像，得到了人脸倾斜角度为第一目标人脸倾斜角度的矫正后的视频图像，调整了用户的视线方向，从而可以支持眼神交流，提高了视频交互的交互体验。

在一种可能的实现中，该矫正模型为基于生成对抗网络GAN实现的模型；该GAN包括生成器和对抗器。

在上述方案中，通过矫正模型为基于GAN实现的模型，使得矫正模型输出的矫正后的前景图像对应的人脸倾斜角度可以更逼近第二目标人脸倾斜角度。

在一种可能的实现中，该GAN的损失函数基于训练目标确定，该训练目标包括：该生成器在输入第一样本人脸图像时输出的矫正后的该第一样本人脸图像输入至该对抗器后，该对抗器的输出与目标输出的误差小于或等于第一误差阈值，该目标输出为该对抗器判决输入数据为真实数据的输出。

在上述方案中，通过训练目标包括：该生成器在输入第一样本人脸图像时输出的矫正后的该第一样本人脸图像输入至该对抗器后，该对抗器的输出与目标输出的误差小于或等于第一误差阈值，可以提高生成器生成人脸图像对应的人脸倾斜角度趋近第二目标人脸倾斜角度的能力。

在一种可能的实现中，该GAN还包括分类器；该分类器，用于根据矫正后的该第一样本人脸图像，得到矫正后的该第一样本人脸图像的人脸倾斜角度；

该训练目标还包括：矫正后的该第一样本人脸图像的人脸倾斜角度与第二目标人脸倾斜角度的误差小于或等于第二误差阈值，该第二目标人脸倾斜角度为期望得到的人脸倾斜角度。

在上述方案中，通过该GAN还包括根据矫正后的该第一样本人脸图像，得到矫正后的该第一样本人脸图像的人脸倾斜角度的分类器，并且该训练目标还包括：矫正后的该第一样本人脸图像的人脸倾斜角度与第二目标人脸倾斜角度的误差小于或等于第二误差阈值，可以避免生成器对于对抗器的过分依赖，避免由于对抗器的过拟合，而导致模型不收敛和崩溃。

在一种可能的实现中，该分类器是基于最大化该第一样本人脸图像对应的人脸倾斜角度与矫正后的该第一样本人脸图像的互信息的目标训练。

在一种可能的实现中，该训练目标还包括：矫正人脸图像与该第一样本人脸图像的相似度大于或等于相似度阈值，该矫正人脸图像为将矫正后的该第一样本人脸图像以及该第一样本人脸图像对应的人脸倾斜角度取反后的结果输入至该GAN的生成器，得到的人脸图像。

在上述方案中，通过该训练目标还包括矫正人脸图像与该第一样本人脸图像的相似度大于或等于相似度阈值，可以实现一个人脸图像输入至矫正模型后，生成器输出的人脸图像中可以尽可能的包括该人脸图像的人脸特征，避免生成器输出的人脸图像的失真。

第二方面，本申请提供一种图像处理装置，应用于终端设备，该装置包括：

提取单元，用于提取出视频图像中的前景图像和背景图像，该前景图像为人脸图像；

矫正单元，用于将该前景图像以及该前景图像对应的人脸倾斜角度输入至矫正模型，得到矫正后的该前景图像；该矫正模型为用于根据人脸图像和该人脸图像对应的人脸倾斜角度，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的该人脸图像的模型；

合成单元，用于将矫正后的该前景图像与该背景图像进行合成，得到矫正后的该视频图像。

上述第二方面以及第二方面的各可能的实施方式所提供的装置，其有益效果可以参照上述第一方面以及第一方面的各可能的实施方式所带来的有益效果，在此不再赘述。

第三方面，本申请提供一种终端设备，包括：处理器和存储器；其中，

该存储器存储程序；

该处理器调用该存储器存储的程序，以执行上述第一方面任一项所述的方法。

第四方面，本申请实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面任一项所述的方法。

第五方面，本申请实施例还提供一种程序产品，该程序产品包括计算机程序(即执行指令)，该计算机程序存储在可读存储介质中。终端设备的至少一个处理器可以从可读存储介质读取该计算机程序，至少一个处理器执行该计算机程序使得终端设备实施上述第一方面提供的方法。

附图说明

图1为本申请实施例的应用场景示意图；

图2为本申请实施例提供的一种图像处理方法的流程示意图；

图3A为本申请实施例提供的提取前景图像和背景图像的示意图；

图3B为在图3A的基础上本申请实施例提供的矫正后的前景图像的示意图；

图4为本申请实施例提供的确定前景图像对应的人脸倾斜角度的示意图；

图5为本申请实施例提供的图像处理系统的结构示意图；

图6为本申请实施例提供的模型训练的流程示意图；

图7为本申请实施例提供的人脸特征点的示意图；

图8为本申请实施例提供的模型训练的训练方式示意图；

图9为在图3A和图3B的基础上本申请实施例提供的合成矫正后的前景图像和背景图像的示意图；

图10为本申请实施例提供的图像处理装置的结构示意图；

图11为本申请实施例提供的终端设备的结构示意图。

具体实施方式

图1为本申请实施例的应用场景示意图，如图1所示，本实施例的应用场景可以包括：终端设备1、终端设备2和通信网络。其中，终端设备1与终端设备2之间可以通过通信网络进行通信。使用终端设备1的用户(即，用户1)可以使用终端设备1与使用终端设备2的用户(即，用户2)进行视频交互。

其中，终端设备，也可以称为用户设备，具体可以为任何具备图像采集以及显示能力的设备，可以包括但不限于用户终端设备(customer premise equipment，CPE)、智能手机(如Android手机、IOS手机等)、多媒体设备、流媒体设备、个人电脑、平板电脑、智能手表、带屏幕的智能音箱、带屏幕的机器人、电子会议设备(如，电子白板)掌上电脑、移动互联网设备(mobile internet devices，MID)或穿戴式智能设备，车载设备等互联网设备等。

通信网络具体可以为能够支持终端设备1和终端设备2之间进行通信的任意网络。可选的，通信网络可以包括无线网络和/或有线网络。其中，无线网络是指采用无线通信技术实现的网络，有线网络是指采用有线通信技术实现的网络。无线网络例如可以为第五代(5G)移动通信系统(也称为新空口(new radio，NR))，有线网络例如可以为因特网。

可选的，可以由一个终端设备对该终端设备采集到的用户的视频图像，基于本申请提供的图像处理方法进行处理，并将处理获得的视频图像发送至对端终端设备，并由对端终端设备将接收到的视频图像呈现给用户。例如，可以由终端设备1对终端设备1采集到的用户1的视频图像，基于本申请提供的图像处理方法进行处理，并将处理获得的视频图像发送至终端设备2，并由终端设备2将接收到的视频图像呈现给用户2。

或者，可选的，可以由一个终端设备将其采集到的用户的视频图像发送至对端终端设备，由对端终端设备对接收到的视频图像基于本申请提供的图像处理方法进行处理，并将处理获得的视频图像呈现给用户。例如，可以由终端设备1将终端设备1采集到的用户1的视频图像发送至终端设备2，由终端设备2对接收到的用户1的视频图像基于本申请提供的图像处理方法进行处理，并将处理获得的视频图像呈现给用户2。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

图2为本申请实施例提供的一种图像处理方法的流程示意图。本实施例提供的图像处理方法可以由图1所示应用场景中的终端设备执行，如图2所示，本实施例的方法可以包括：

步骤201，提取出视频图像中的前景图像和背景图像，所述前景图像为人脸图像。

本步骤中，可选的，该视频图像具体可以为采集到的视频图像。例如，当本实施例的方法由图1中的终端设备1执行时，该视频图像具体可以为终端设备1采集到的用户1的视频图像。又例如，当本实施例的方法由图1中的终端设备2执行时，该视频图像具体可以为终端设备2采集到的用户2的视频图像。

或者，可选的，该视频图像具体可以为接收到的视频图像。例如，当本实施例的方法由图1中的终端设备1执行时，该视频图像具体可以为终端设备2采集到的用户2的视频图像。又例如，当本实施例的方法由图1中的终端设备2执行时，该视频图像具体可以为终端设备1采集到的用户1的视频图像。

该视频图像中的前景图像为人脸图像。其中，视频图像、前景图像以及背景图像的关系具体可以如图3A所示，具体的，前景图像与背景图像叠加之后可以得到视频图像。

需要说明的是，对于提取视频图像中的前景图像和背景图像的具体方式，本申请不作限定。

步骤202，将所述前景图像以及所述前景图像对应的人脸倾斜角度输入至矫正模型，得到矫正后的所述前景图像。

本步骤中，所述矫正模型为用于根据人脸图像和所述人脸图像对应的人脸倾斜角度，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的所述人脸图像的模型。可选的，人脸图像对应的人脸倾斜角度具体可以包括人脸图像中人脸上下倾斜的倾斜角度，和/或人脸图像中人脸左右倾斜的倾斜角度。所述第一目标人脸倾斜角度与人脸图像对应的人脸倾斜角度对应，可以表示对人脸图像进行矫正得到的人脸图像中人脸上下倾斜的倾斜角度，和/或人脸图像中人脸左右倾斜的倾斜角度。

具体的，当人脸图像对应的人脸倾斜角度包括人脸图像中人脸上下倾斜的倾斜角度时，所述第一目标人脸倾斜角度包括对人脸图像进行矫正得到的人脸图像中人脸上下倾斜的倾斜角度。当人脸图像对应的人脸倾斜角度包括人脸图像中人脸左右倾斜的倾斜角度时，所述第一目标人脸倾斜角度包括对人脸图像进行矫正得到的人脸图像中人脸左右倾斜的倾斜角度。

例如，图3A中的前景图像对应的人脸倾斜角度具体可以为人脸上下倾斜的倾斜角度，假设人脸上倾斜的倾斜角度表示为正数，人脸下倾斜的倾斜角度表示为负数，人脸未上下倾斜的倾斜角度为0°，图3A中前景图像对应的人脸倾斜角度例如可以为-20°。相应的，第一目标人脸倾斜角度具体为人脸上下倾斜角度，当第一人脸倾斜角度为0°时，矫正后的所述前景图像可以如图3B所示。

可选的，如图4所示，假设终端设备的屏幕的中心点为O，θ是用户的视线与中心点连线和用户的视线与摄像头连线之间的角度的绝对值，因为tagθ＝a/b,由此可计算出θ，进一步的，可以根据用户的视线与摄像头的位置关系，确定出用户的视线与中心点连线和用户的视线与摄像头连线之间的角度的正负，从而得到前景图像对应的人脸倾斜角度。需要说明的是，对于确定前景图像对应的人脸倾斜角度的具体方式，本申请不作限定。

考虑到生成对抗网络(Generative Adversarial Networks，GAN)可以通过生成器和对抗器的互相博弈学习产生相当好的输出。可选的，所述矫正模型可以为基于GAN实现的模型。其中,GAN至少包括生成器(G，generator)和对抗器(D，discriminator)两部分，生成器用于利用输入的人脸图像以及人脸图像的人脸倾斜角度，生成人脸倾斜角度为一定人脸倾斜角度的人脸图像，对抗器用于区分输入对抗器的人脸图像是生成器输出的人脸图像(即，生成数据)，还是非生成器生成的人脸图像(即，真实图像)。

其中，对抗器的目的是：能判决出来输入的一个人脸图像是真实数据还是生成数据。生成器的目的是：使得自己生成数据的能力尽可能强，强到判决网络无法判断自己生成的数据是真实数据还是生成数据。由此可见，生成器与对抗器的目的正好相反，对抗器说我能判别得好，生成器说我让你判别不好，因此叫做博弈。

如图5所示，本实施例提供的图像处理系统可以包括训练子系统和矫正子系统，其中，训练子系统可以用于利用训练数据对GAN进行训练，得到矫正模型，矫正子系统可以利用训练子系统训练好的矫正模型，生成矫正结果(即，矫正后的前景图像)。具体的，训练子系统可以对GAN的生成器和判决器进行训练，矫正子系统利用训练好的生成器(即，矫正模型)，得到矫正结果。

可选的，考虑到终端设备的运算能力，可以由服务器对GAN进行训练，得到矫正模型。即，图5中，训练子系统可以由服务器实现，矫正子系统可以由终端设备实现。

其中，训练子系统可以用于对训练数据集中的图像数据进行预处理，生成特定大小的包括人脸的样本人脸图像并识别该样本人脸图像的人脸倾斜角度，以作为GAN训练的输入。其中，根据样本人脸图像的人脸倾斜角度，样本人脸图像可以分为第一样本人脸图像和第二样本人脸图像，第一样本人脸图像的人脸倾斜角度不为第二目标人脸倾斜角度，第二样本人脸图像的人脸倾斜角度为第二目标人脸倾斜角度。这里，第二目标人脸倾斜角度可以为期望的人脸倾斜角度，期望的人脸倾斜角度可以最好的实现眼神交流，该人脸倾斜角度可以包括人脸上下倾斜角度和/或左右倾斜角度。

可选的，训练过程例如可以如图6所示，其中训练数据集中可以包括多个人脸图像，该样本人脸图像可以包括多个人，多个拍照角度、多个姿态的图片。通过对训练数据集中的图片进行S1图像预处理，可以得到样本人脸图像。进一步的，通过对样本人脸图像进行S2特征点角度识别可以得到样本人脸图像的人脸倾斜角度。进一步的，可以通过S3模型训练最终可以得到训练好的矫正模型。

其中，例如训练数据集合中可以预先收集至少10000张64×64的黑色背景，肩部以上的图片，S1图像预处理中可以通过图像降噪算法对图片进行预处理，得到质量好且清晰度高的样本人脸图像。S2特征点角度识别中，可以使用人脸特征点检测算法对预处理得到的样本人脸图像进行特征点检测。例如，可以首先通过深度学习网络模型(该深度网络模型可以是经过带标签的人脸数据进行训练得到的)获取图7所示的鼻尖、下巴、左眼左眼角、右眼右眼角、左嘴角和右嘴角，6个特征点各自的坐标，然后可以根据6个特征点各自的坐标以及摄像头的相机内参，利用OpenCV and Dlib开源工具计算出人脸倾斜角度。

可选的，S3模型训练中，可以通过如下方式训练得到所述矫正模型。

步骤11，如图5所示，将样本人脸图像以及样本人脸图像对应的人脸倾斜角度，输入至GAN的生成器。

其中，样本人脸图像对应的人脸倾斜角度即为该样本人脸图像中人脸的倾斜角度。可选的，可以通过机器学习的方式确定样本人脸图像的人脸倾斜角度。可选的，当人脸倾斜角度包括人脸上下倾斜角度和人脸左右倾斜角度时，可以通过二维数据(A，B)表示人脸倾斜角度。例如，当A和B均等于0°时，可以表示样本人脸图像中人脸的视线正对摄像头；当A大于0°，且B等于0°时，可以表示样本人脸图像中人脸的视线在摄像头的正左方；当A小于0°，且B等于0°时，可以表示样本人脸图像中人脸的视线在摄像头的正右方；当A等于0°，且B大于0°时，可以表示样本人脸图像中人脸的视线在摄像头的正上方；当A等于0°，且B小于0°时，可以表示样本人脸图像中人脸的视线在摄像头的正下方；当A和B均大于0°时，可以表示样本人脸图像中人脸的视线在摄像头的左上方；当A和B均小于0°时，可以表示样本人脸图像中人脸的视线在摄像头的右下方；当A大于0°，且B小于0°时，可以表示样本人脸图像中人脸的视线在摄像头的左下方；当A小于0°，且B大于0°时，可以表示样本人脸图像中人脸的视线在摄像头的右上方。

具体的，将第一样本人脸图像z以及所述第一样本人脸图像对应的人脸倾斜角度c输入至所述GAN的生成器，得到矫正后的所述第一样本人脸图像x’。例如，如图8所示，可以将z和c进行组合，得到总的输入变量Z，将Z输入至生成器G，生成器的输出即为矫正后的样本人脸图像x’。其中，z具体可以为矩阵，c具体可以是向量，将z和c进行组合，具体可以是对矩阵进行拼接。

步骤12，如图5所示，将样本人脸图像和生成器矫正后的样本人脸图像，分别输入至GAN的对抗器。

具体的，将矫正后的所述第一样本人脸图像x’以及第二样本人脸图像分别输入至GAN对抗器。其中，矫正后的所述第一样本人脸图像x’可以对应第一标签(label)，第一标签具体可以为对抗器中用于表示生成数据的标签，可选的，第一标签可以为0。第二样本人脸图像可以对应第二标签，第二标签具体可以为对抗器中用于表示真实数据的标签，可选的，第二标签可以为1。这里，通过将矫正后的第一样本人脸图像和第二样本人脸图像输入至对抗器，是为了使得对抗器能够区分生成数据和真实数据，从而最大化判决准确率。

其中，对抗器可以输出0至1之间的数，用于表示输入的数据为真实数据的概率。当对抗器的输出为0时，可以表示对抗器将输入数据区分生成数据。当对抗器的输出为1时，可以表示对抗器将输入数据区分为真实数据。当对抗器的输出为0.5时，可以表示对抗器区分不出输入数据是真实数据还是生成数据。

步骤13，如图5所示，根据所述对抗器的输出对GAN的网络参数进行优化，得到矫正模型。

具体的，可以根据所述对抗器的输出以及所述GAN的损失函数，确定损失值，并根据所述损失值优化所述生成器和所述对抗器的网络参数，得到所述矫正模型。

其中，所述GAN的损失函数是基于训练目标确定的。可选的，所述训练目标包括：矫正后的所述第一样本人脸图像输入至所述对抗器后，所述对抗器的输出尽可能接近目标输出，所述目标输出为所述对抗器判决输入数据为真实数据的输出(即，与第二标签相等)。可替换的，所述训练目标包括：所述生成器在输入第一样本人脸图像时输出的矫正后的所述第一样本人脸图像输入至所述对抗器后，所述对抗器的输出与目标输出的误差小于或等于第一误差阈值(以下记为训练目标1)。这里，可以从使得对抗器无法将生成器输出的人脸图像识别为生成数据的角度考虑，提高生成器生成人脸图像对应的人脸倾斜角度趋近第二目标人脸倾斜角度的能力。考虑到对抗器主要基于人脸倾斜角度判断是真实数据还是生成数据，因此训练目标1可以用于减小生成器生成人脸图像的人脸倾斜角度与第二目标人脸倾斜角度之间的差异。

可选的，为了避免生成器对于对抗器的过分依赖，避免由于对抗器的过拟合，而导致模型不收敛和崩溃，所述GAN还包括分类器(C，Classifier)，该分类器用于根据人脸图像得到人脸图像中人脸的倾斜角度。进一步的，如图8所示，可以将矫正后的所述第一样本人脸图像x’输入至C，得到矫正后的所述第一样本人脸图像的人脸倾斜角度c’。相应的，所述训练目标还可以包括：矫正后的所述第一样本人脸图像的人脸倾斜角度尽可能的接近第二目标人脸倾斜角度。可替换的，所述训练目标还可以包括：矫正后的所述第一样本人脸图像的人脸倾斜角度与第二目标人脸倾斜角度的误差小于或等于第二误差阈值(以下记为训练目标2)。其中，第二误差阈值可以表示能够允许的期望的人脸倾斜角度与矫正模型输出的人脸图像实际的人脸倾斜角度之间的差异程度。

可选的，可以基于最大化所述第一样本人脸图像对应的人脸倾斜角度与矫正后的所述第一样本人脸图像的互信息(Mutual Information)的目标，训练所述分类器。其中，互信息是信息论里一种有用的信息度量，可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。互信息是计算语言学模型分析的常用方法，可以度量两个对象之间的相互性，互信息越大可以表示相关性越大。

为了实现一个人脸图像输入至矫正模型后，生成器输出的人脸图像中可以尽可能的包括该人脸图像的人脸特征，可选的，在训练的过程中，还可以将矫正后的所述第一样本人脸图像以及所述第一样本人脸图像对应的人脸倾斜角度取反后的结果输入至所述GAN的生成器，得到矫正人脸图像。所述训练目标还包括：所述矫正人脸图像尽快能接近所述第一样本人脸图像。可替换的，所述训练目标还包括：所述矫正人脸图像与所述第一样本人脸图像的相似度大于或等于相似度阈值(以下，记为训练目标3)。其中，所述相似度阈值可以表示能够允许的矫正模型输入的人脸图像与矫正模型输出的人脸图像之间的差异程度。

例如，如图8所示，可以将x’和～c(这里，～c表示对于c取反后的结果，例如，假设c等于30°，则～c等于-30°)进行组合，得到总的输入变量X，将X输入至生成器G，生成器的输出即为矫正人脸图像z’。其中，x’具体可以为矩阵，～c具体可以是向量，将x’和～c进行组合，具体可以是对矩阵进行拼接。

其中，所述GAN的损失函数的损失值可以表示当前的GAN网络离训练目标的远近程度损失函数的损失值越小可以表示离训练目标越近，损失函数的损失值越大可以表示离训练目标越远。可选的，所述GAN的损失函数具体可以包括：生成器的损失函数、对抗器的损失函数和分类器的损失函数。其中，可以基于真实数据输入至判断器后，判决器可以输出判决结果“真”，生成数据输入至判决器后，判决器可以输出判决结果“假”的目标(以下记为训练目标4)，确定生成器的损失函数。可以基于训练目标1、训练目标2和训练目标3，确定对抗器的损失函数。可以基于第一样本人脸图像对应的人脸倾斜角度与矫正后的所述第一样本人脸图像的互信息最大的目标(以下记为训练目标5)，确定分类器的损失函数。

其中，由于GAN的损失越小可以表示离训练目标越近，损失值越大可以表示离训练目标越远，因此可以根据损失值优化GAN中生成器和对抗器的网络参数，使得当前网络参数下的模型可以不断接近训练目标，从而最终得到可以用于步骤202的矫正模型。可选的，还可以包括根据损失值优化GAN中的分类器的网络参数。可选的，生成器、对抗器和分类器均可以基于神经网络实现，例如卷积神经网络(CNN，convolutional neural network)网络。

在S3模型训练中，通常需要对GAN中网络参数进行多次的调整，最终才可以得到矫正模型。可选的，对GAN中网络参数进行一次调整的具体过程可以包括：

首先，固定G的网络参数，将G输出的矫正后的第一样本人脸图像和第二样本人脸图像输入至D，并基于训练目标4优化D的网络参数，并在训练达到固定次数后训练停止。

然后，固定G的网络参数，基于训练目标5优化C的网络参数。可选的，C和D的区别可以在于C和D的最后一层是独立的，除最后一层之外的其他层均是公用的，因此这里可以只训练C的最后一层。

最后，固定D和C的网络参数，并基于训练目标1至训练目标3，优化G的网络参数。

步骤203，将矫正后的所述前景图像与所述背景图像进行合成，得到矫正后的所述视频图像。

本步骤中，可选的，可以对矫正后的所述前景图像和所述背景图像进行叠加，得到矫正后的所述视频图像。在图3A和图3B的基础上，矫正后的前景图像、背景图像以及矫正后的视频图像的关系具体可以如图9所示。需要说明的是，对于将矫正后的前景图像与背景图像进行合并，得到矫正后的视频图像的具体方式，本申请不作限定。

本实施例提供的图像处理方法，通过提取出视频图像中的前景图像和背景图像，前景图像为人脸图像，将前景图像以及前景图像对应的人脸倾斜角度输入至矫正模型，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的前景图像，并将矫正后的前景图像与背景图像进行合成，得到矫正后的视频图像，得到了人脸倾斜角度为第一目标人脸倾斜角度的矫正后的视频图像，调整了用户的视线方向，从而可以支持眼神交流，提高了视频交互的交互体验。

图10为本申请实施例提供的图像处理装置的结构示意图。本实施例提供的图像处理装置可以应用于上述方法实施例中，实现其终端设备的功能，如图10所示，本实施例的装置可以包括：提取单元101、矫正单元102和合成单元103。其中，

提取单元101，用于提取出视频图像中的前景图像和背景图像，所述前景图像为人脸图像；

矫正单元102，用于将所述前景图像以及所述前景图像对应的人脸倾斜角度输入至矫正模型，得到矫正后的所述前景图像；所述矫正模型为用于根据人脸图像和所述人脸图像对应的人脸倾斜角度，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的所述人脸图像的模型；

合成单元103，用于将矫正后的所述前景图像与所述背景图像进行合成，得到矫正后的所述视频图像。

在一种可能的实现中，所述矫正模型为基于生成对抗网络GAN实现的模型；所述GAN包括生成器和对抗器。

在一种可能的实现中，所述GAN的损失函数基于训练目标确定，所述训练目标包括：所述生成器在输入第一样本人脸图像时输出的矫正后的所述第一样本人脸图像输入至所述对抗器后，所述对抗器的输出与目标输出的误差小于或等于第一误差阈值，所述目标输出为所述对抗器判决输入数据为真实数据的输出。

在一种可能的实现中，所述GAN还包括分类器；所述分类器，用于根据矫正后的所述第一样本人脸图像，得到矫正后的所述第一样本人脸图像的人脸倾斜角度；

所述训练目标还包括：矫正后的所述第一样本人脸图像的人脸倾斜角度与第二目标人脸倾斜角度的误差小于或等于第二误差阈值，所述第二目标人脸倾斜角度为期望得到的人脸倾斜角度。

在一种可能的实现中，所述分类器是基于最大化所述第一样本人脸图像对应的人脸倾斜角度与矫正后的所述第一样本人脸图像的互信息的目标训练。

在一种可能的实现中，所述训练目标还包括：矫正人脸图像与所述第一样本人脸图像的相似度大于或等于相似度阈值，所述矫正人脸图像为将矫正后的所述第一样本人脸图像以及所述第一样本人脸图像对应的人脸倾斜角度取反后的结果输入至所述GAN的生成器，得到的人脸图像。

本实施例提供的图像处理装置，可以用于上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

需要说明的是，应理解以上图像处理装置的各个单元的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分单元通过软件通过处理元件调用的形式实现，部分单元通过硬件的形式实现。例如，提取单元可以为单独设立的处理元件，也可以集成在终端设备的某一个芯片中实现，此外，也可以以程序的形式存储于终端设备的存储器中，由终端设备的某一个处理元件调用并执行该提取单元的功能。其它单元的实现与之类似。此外这些单元全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

以上这些单元可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，ASIC)，或，一个或多个微处理器(digital singnal processor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。再如，当以上某个单元通过处理元件调度程序的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central ProcessingUnit，CPU)或其它可以调用程序的处理器。再如，这些单元可以集成在一起，以片上系统(system-on-a-chip，SOC)的形式实现。

图11为本申请实施例提供的终端设备的结构示意图。如图11所示，本实施例的终端设备可以包括：处理器111和存储器112。其中，

存储器111存储程序；

处理器112调用存储器111存储的程序，以执行一种图像处理方法，该方法包括：

提取出视频图像中的前景图像和背景图像，所述前景图像为人脸图像；

将所述前景图像以及所述前景图像对应的人脸倾斜角度输入至矫正模型，得到矫正后的所述前景图像；所述矫正模型为用于根据人脸图像和所述人脸图像对应的人脸倾斜角度，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的所述人脸图像的模型；

将矫正后的所述前景图像与所述背景图像进行合成，得到矫正后的所述视频图像。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(Solid State Disk，SSD))等。

Claims

1.一种图像处理方法，其特征在于，应用于终端设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述矫正模型为基于生成对抗网络GAN实现的模型；所述GAN包括生成器和对抗器。

3.根据权利要求2所述的方法，其特征在于，所述GAN的损失函数基于训练目标确定，所述训练目标包括：所述生成器在输入第一样本人脸图像时输出的矫正后的所述第一样本人脸图像输入至所述对抗器后，所述对抗器的输出与目标输出的误差小于或等于第一误差阈值，所述目标输出为所述对抗器判决输入数据为真实数据的输出。

4.根据权利要求3所述的方法，其特征在于，所述GAN还包括分类器；所述分类器，用于根据矫正后的所述第一样本人脸图像，得到矫正后的所述第一样本人脸图像的人脸倾斜角度；

5.根据权利要求4所述的方法，其特征在于，所述分类器是基于最大化所述第一样本人脸图像对应的人脸倾斜角度与矫正后的所述第一样本人脸图像的互信息的目标训练。

6.根据权利要求3-5任一项所述的方法，其特征在于，所述训练目标还包括：矫正人脸图像与所述第一样本人脸图像的相似度大于或等于相似度阈值，所述矫正人脸图像为将矫正后的所述第一样本人脸图像以及所述第一样本人脸图像对应的人脸倾斜角度取反后的结果输入至所述GAN的生成器，得到的人脸图像。

7.一种图像处理装置，其特征在于，应用于终端设备，所述装置包括：

提取单元，用于提取出视频图像中的前景图像和背景图像，所述前景图像为人脸图像；

矫正单元，用于将所述前景图像以及所述前景图像对应的人脸倾斜角度输入至矫正模型，得到矫正后的所述前景图像；所述矫正模型为用于根据人脸图像和所述人脸图像对应的人脸倾斜角度，得到人脸倾斜角度为第一目标人脸倾斜角度的矫正后的所述人脸图像的模型；

合成单元，用于将矫正后的所述前景图像与所述背景图像进行合成，得到矫正后的所述视频图像。

8.根据权利要求7所述的装置，其特征在于，所述矫正模型为基于生成对抗网络GAN实现的模型；所述GAN包括生成器和对抗器。

9.根据权利要求8所述的装置，其特征在于，所述GAN的损失函数基于训练目标确定，所述训练目标包括：所述生成器在输入第一样本人脸图像时输出的矫正后的所述第一样本人脸图像输入至所述对抗器后，所述对抗器的输出与目标输出的误差小于或等于第一误差阈值，所述目标输出为所述对抗器判决输入数据为真实数据的输出。

10.根据权利要求9所述的装置，其特征在于，所述GAN还包括分类器；所述分类器，用于根据矫正后的所述第一样本人脸图像，得到矫正后的所述第一样本人脸图像的人脸倾斜角度；

11.根据权利要求10所述的装置，其特征在于，所述分类器是基于最大化所述第一样本人脸图像对应的人脸倾斜角度与矫正后的所述第一样本人脸图像的互信息的目标训练。

12.根据权利要求9-11任一项所述的装置，其特征在于，所述训练目标还包括：矫正人脸图像与所述第一样本人脸图像的相似度大于或等于相似度阈值，所述矫正人脸图像为将矫正后的所述第一样本人脸图像以及所述第一样本人脸图像对应的人脸倾斜角度取反后的结果输入至所述GAN的生成器，得到的人脸图像。

13.一种终端设备，其特征在于，包括：处理器和存储器；其中，

所述存储器存储程序；

所述处理器调用所述存储器存储的程序，以执行权利要求1-6任一项所述的方法。