CN114283238A

CN114283238A - 数据增强方法、神经网络训练方法、图像处理方法及设备

Info

Publication number: CN114283238A
Application number: CN202111572140.2A
Authority: CN
Inventors: 卫华威; 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-05

Abstract

本申请提供一种数据增强方法、神经网络训练方法、图像处理方法及设备，所述数据增强方法包括获取包括第一图像和第一标签的第一样本，所述第一图像包含人脸图像，所述第一标签为人脸姿态角；对所述第一图像进行旋转，获得第二图像；分别对所述第一图像和所述第二图像中的人脸进行三维重建，获得与所述第一图像对应的第一人脸模型和与所述第二图像对应的第二人脸模型；计算从所述第一人脸模型转换到所述第二人脸模型的旋转关系；根据所述旋转关系和所述第一标签，获得第二标签，所述第二标签为所述第二图像中的人脸姿态角，以所述第二图像和所述第二标签生成第二样本。用现有样本生成新样本，丰富神经网络的训练集，提升网络的准确度和泛化性。

Description

数据增强方法、神经网络训练方法、图像处理方法及设备

技术领域

本申请涉及神经网络，尤其涉及一种数据增强方法、神经网络训练方法、图像处理方法及设备。

背景技术

头部姿态估计，是指根据输入的一张包含人脸的图像，再计算并输出图像中人的头部的三个姿态角：pitch(俯仰角)、yaw(偏航角)和roll(横滚角)，这三个角表示了人的头部在三维空间中的状态。目前的头部姿态估计方法一般采用深度学习的方案，而该方案需要收集多个“图像-三个姿态角标签”的训练数据。然而，由于三个姿态角是三维空间姿态，所以三个姿态角一般需要通过深度摄像机或者多目摄像机来解算获取，成本很高。因此，现有的方案一般都是利用一些开源的数据集来训练头部姿态估计的神经网络。然而，这些开源的数据集覆盖的人头角度比较有限，其中一些比较极端的大角度的样本极其缺少，以致于利用这些开源数据集训练得到的神经网络在头部姿态角度比较大的场景下表现很差。

发明内容

为克服相关技术中存在的问题，本申请提供一种数据增强方法、神经网络训练方法、图像处理方法及设备，用以解决相关技术中的缺陷。

根据本申请的第一方面，提供一种数据增强方法，所述方法包括：

获取包括第一图像和第一标签的第一样本，所述第一图像包含人脸图像，所述第一标签为人脸姿态角；

对所述第一图像进行旋转，获得第二图像；

分别对所述第一图像和所述第二图像中的人脸进行三维重建，获得与所述第一图像对应的第一人脸模型和与所述第二图像对应的第二人脸模型；

计算从所述第一人脸模型转换到所述第二人脸模型的旋转关系；

根据所述旋转关系和所述第一标签，获得第二标签，所述第二标签为所述第二图像中的人脸姿态角，以所述第二图像和所述第二标签生成第二样本。

根据本申请的第二方面，提供一种神经网络的训练方法，所述神经网络用于估计头部姿态角度，所述方法包括：

获取样本集，所述样本集中包括第二样本，所述第二样本利用上述任意实施例所述的数据增强方法生成；

将所述样本集输入神经网络进行训练，以利用训练后的所述神经网络估计头部姿态角度。

根据本申请的第三方面，提供一种图像处理方法，所述方法包括：

获取待处理的图像；

将待处理的图像输入指定的神经网络，所述神经网络利用上述任意实施例所述的神经网络的训练方法训练生成；

根据所述神经网络的输出结果估计头部姿态角度；

根据头部姿态角度对所述待处理的图像进行图像处理。

根据本申请的第四方面，提供一种直播中的图像处理方法，所述方法包括：

获取主播客户端的直播图像；

将所述直播图像输入指定的神经网络，所述神经网络利用上述任意实施例所述的神经网络的训练方法训练生成；

根据所述神经网络的输出结果估计头部姿态角度；

根据头部姿态角度对所述直播图像进行图像处理，生成目标图像；

将所述目标图像通过直播服务器发送给观众客户端。

根据本申请的第五方面，提供一种数据增强装置，所述装置包括：

样本获取模块，用于获取包括第一图像和第一标签的第一样本，所述第一图像包含人脸图像，所述第一标签为人脸姿态角；

数据增强模块，用于对所述第一图像进行旋转，获得第二图像；以及

分别对所述第一图像和所述第二图像中的人脸进行三维重建，获得与所述第一图像对应的第一人脸模型和与所述第二图像对应的第二人脸模型；以及

计算从所述第一人脸模型转换到所述第二人脸模型的旋转关系；以及

根据本申请的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述任意实施例所述的方法。

根据本申请的第七方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任意实施例所述的方法。

本申请基于所述现有的“图像-姿态角标签”样本，对样本中的图像进行旋转，并基于三维的旋转关系计算出旋转后的图像对应的姿态角标签，从而组成新的“图像-姿态角标签”样本。即可以利用有限的样本，生产大量不同姿态的样本以及对应的姿态角标签，极大丰富了神经网络的训练样本，提升了神经网络的准确度。而且，旋转后的图像能覆盖比较极端的大姿态角，基于这些样本训练得到的神经网络在不同的头部姿态估计场景中均具有很好的表现，提升了神经网络的泛化性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是本申请根据一实施例示出的一种数据增强方法的流程图。

图2是本申请根据一实施例示出的第一图像和第一人脸模型的示意图。

图3是本申请根据一实施例示出的第二图像和第二人脸模型的示意图。

图4是本申请根据一实施例示出的一种神经网络的训练方法的流程图。

图5是本申请根据一实施例示出的一种图像处理方法的流程图。

图6是本申请根据一实施例示出的一种直播中的图像处理方法的流程图。

图7是本申请根据一实施例示出的一种应用图像处理的直播场景示意图。

图8是本申请根据一实施例示出的一种数据增强装置的结构示意图。

图9是本申请根据一实施例示出的一种计算机设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

由于三个姿态角一般需要通过深度摄像机或者多目摄像机来解算获取，构建一组“图像-三个姿态角标签”的数据样本的成本比较高，因此用于训练头部姿态估计的神经网络的训练数据一般是使用现有的开源的数据集。由于训练数据比较有限，特别是一些姿态角比较大的图像，数据样本更加匮乏，以致于其训练出的神经网络的头部姿态估计的效果比较差。

在不重新构建“图像-三个姿态角标签”数据样本的情况下，一种可行的方法是通过数据增强的方式来增大神经网络的训练集中训练数据的数量，进而提升训练后的神经网络的准确度和泛化性。数据增强(Data Augmentation)，是指在不实质性的增加数据的情况下，让有限的数据产生等价于更多数据的价值。即，可以对现有的数据集中的“图像-三个姿态角标签”数据样本进行处理，生成多个新的“图像-三个姿态角标签”数据样本，从而增加训练数据的数量。

接下来根据示出的一些实施例对本申请提出的一种数据增强方法进行详细说明。

如图1所示，图1是本申请根据一实施例示出的一种数据增强方法的流程图，包括以下步骤：

步骤S101：获取包括第一图像和第一标签的第一样本，所述第一图像包含人脸图像，所述第一标签为人脸姿态角；

步骤S102：对所述第一图像进行旋转，获得第二图像；

步骤S103：分别对所述第一图像和所述第二图像中的人脸进行三维重建，获得与所述第一图像对应的第一人脸模型和与所述第二图像对应的第二人脸模型；

步骤S104：计算从所述第一人脸模型转换到所述第二人脸模型的旋转关系；

步骤S105：根据所述旋转关系和所述第一标签，获得第二标签，所述第二标签为所述第二图像中的人脸姿态角，以所述第二图像和所述第二标签生成第二样本。

在步骤S101中，首先获取需要进行数据增强的第一样本，即输入的数据样本。在本申请中，第一样本是指用于训练头部姿态估计神经网络的训练数据，其中包括了与头部姿态估计神经网络的输入对应的第一图像，以及与头部姿态估计神经网络的输出对应的第一标签。

在本申请中，第一样本中的第一图像包含了人脸的图像，该人脸图像对应的人即是需要进行获取头部姿态的人。在一些实施例中，第一图像中的人脸可以是人脸的正面，也可以是倾斜一定角度的人脸，本申请对此不做限制。在一些实施例中，为了准确识别第一图像中的人脸特征，还可以要求第一图像中不能是人的头部背面，第一图像中至少可以观测到部分五官。

在本申请中，第一样本中的第一标签是与第一样本中的第一图像中的人脸对应的三个姿态角标签，即第一图像中的人的头部的三个姿态角：pitch(俯仰角)、yaw(偏航角)和roll(横滚角)。其中，三个姿态角用于表示第一图像中的人的头部在空间中的状态。

在一些实施例中，第一样本中的第一图像可以包含不止一个人脸图像，即第一图像中有多个人。当第一图像包含多个人脸图像时，可以只对其中的一个人脸图像进行头部姿态标定，该人脸图像可以称为目标人脸，此时，第一样本中的第一标签为该目标人脸对应的三个姿态角标签。在一些实施例中，该目标人脸可以是图像中最大的人脸图像，或者是具有特定特征的人脸图像，或者是预先标定的人脸图像，或者通过其他方式选择的人脸图像，本申请对此不做限制。

在一些实施例中，第一样本可以是通过深度摄像机或者多目摄像机来解算获取并构建的一组“图像-三个姿态角标签”的数据样本，也可以是一些现有的开源的或不开源的数据集中的一组“图像-三个姿态角标签”的数据样本，还可以通过其他方式获取的一组“图像-三个姿态角标签”的数据样本，本申请对此不做限制。特别地，在一些实施例中，第一样本还可以是经过本申请提出的数据增强方法生成的第二样本，即以第二样本作为第一样本，再做一次数据增强，生成一个新的第二样本。

在步骤S102中，对第一样本中的第一图像进行旋转，获得第二图像，该第二图像可以用于组成新的第二样本。在一些实施例中，第一图像旋转的角度可以是预设范围内的一个随机角度，也可以是按照一定规则设置的角度，本申请对此不做限制。在一些实施例中，当第一图像以预设范围内的一个随机角度进行旋转时，该预设范围可以是-180°至180°，即第一图像可以以任意角度选择。在一些实施例中，不同角度旋转后的图像生成的第二样本对于神经网络的训练效果的影响不同，由在一个较小的范围内进行随机旋转后的图像生成的第二样本组成的训练集训练出的神经网络可能有更好的效果，例如，经过实验后发现，将预设范围设置为-45°至45°时，其数据增强后的训练集训练出来的神经网络的头部姿态估计的效果相比其他设置时更优，准确率更高。当然，根据需求的不同，也可以以其他范围内的随机角度对第一图像进行旋转，本申请对此不做限制。

在步骤S103中，分别对第一图像和第二图像中的人脸进行三维重建，并获得与第一图像中人的头部姿态对应的第一人脸模型和与第二图像中人的头部姿态对应的第二人脸模型。图像中携带的数据只是二维信息，而人的头部姿态的三个姿态角是三维信息，根据二维的信息无法直接地获取三维的信息，因此需要先对图像进行三维重建，即将图像中的二维信息转化成模型中的三维信息，再根据模型中的三维信息来计算三个姿态角。在一些实施例中，可以只对图像中的人脸图像进行三维重建，其生成的模型可以只包含人脸模型，而不包含除了人脸外的其他部分，例如脖子、头发等，以减少干扰信息，以使该人脸模型的姿态与图像中人的头部姿态更加接近，以使根据其计算出的第二图像中人脸的三个姿态角更加准确。

如图2所示，图2是本申请根据一实施例示出的第一图像和第一人脸模型的示意图。其中，左图为一实施例中的第一样本中的第一图像，右图为根据左图中的第一图像进行三维人脸重建后获得的第一人脸模型。

如图3所示，图3是本申请根据一实施例示出的第二图像和第二人脸模型的示意图。其中，左图为图2中的第一图像旋转一定角度后获得的第二图像，右图为根据左图中的第二图像进行三维人脸重建后获得的第二人脸模型。

在本申请，三维重建算法是指用于根据二维图像生成三维模型的算法。在一些实施例中，对图像中的人脸进行三维重建时使用的三维重建算法可以是现有的任意三维重建算法，其既可以是开源的算法，也可以是私有的算法，本申请对此不做限制。

在本申请中，由三维重建算法生成的人脸模型可以由一系列点云表示。在一些实施例中，人脸模型中的每个点云可以携带语义标签，用于表示自己的特征。例如，位于人脸模型中左眼眼角处的点云，可以携带表示左眼角点的标签；位于人脸模型中鼻尖处的点云，可以携带表示鼻尖点的标签。

在一些实施例中，可以是如图1所示的顺序，先对第一图像进行旋转获得第二图像，再分别对第一图像和第二图像进行三维人脸重建。在一些实施例中，还可以是先对第一图像进行三维人脸重建，再对第一图像进行旋转获得第二图像，然后再对第二图像进行三维人脸重建。即是说，本申请图1所示的数据增强方法中的步骤S102中对第一图像进行旋转获得第二图像和步骤S103中对第一图像进行三维人脸重建之间没有严格的顺序要求，可以根据需求进行设置，只要旋转获得第二图像的步骤在对第二图像进行三维人脸建模之前即可，本申请对此不做限制。

在步骤S104中，由于第一人脸模型和第二人脸模型分别来自第一图像和第二图像，而第二图像是由第一图像旋转后获得的，因此第一人脸模型和第二人脸模型具有相同的形状以及不同的空间状态，即第一人脸模型和第二人脸模型具有相同数量的点云，且第一人脸模型中的各个点云和第二人脸模型中的各个点云是一一对应的，只是点云对在第一人脸模型和第二人脸模型中的空间坐标不同，而根据点云对各自在第一人脸模型和第二人脸模型中的空间坐标，可以推算出对应点云从第一人脸模型中的空间位置转换到第二人脸模型中的空间位置的旋转关系，进而计算出从第一人脸模型转换到第二人脸模型的旋转关系。

在一些实施例中，可以根据人脸模型中点云携带的语义标签来匹配第一人脸模型和第二人脸模型中对应的点云。在对图像中的人脸进行三维重建时，是按一定规则对人脸图像取点生成点云的，不同人脸图像中取点的数量和规则相同，则根据不同人脸图像生成的三维人脸模型中的点云数量和对应人脸上的位置关系也是相同的，即不同的三维人脸模型中对应的点云携带相同的语义标签。例如，对于不同的人脸图像，均在其左眉毛上平均取四个点，则不同人脸模型在左眉毛处均有四个点云，其携带的语义标签分别可以是左眉毛一、左眉毛二、左眉毛三以及左眉毛四。因此，可以根据第一人脸模型和第二人脸模型中点云携带的语义标签确认两个人脸模型中互相匹配的点云。在本申请中，进行三维人脸重建时取点的规则可以根据需求进行设置，本申请对此不做限制。

在一些实施例中，还可以使用点云配准算法来匹配第一人脸模型和第二人脸模型中对应的点云。在一些实施例中，所述点云配准算法可以是迭代最近点(IterativeClosest Point,ICP)算法。在一些实施例中，所述点云配准算法还可以是其他现有的点云配准算法，本申请对此不做限制。

在一些实施例中，由于从第一人脸模型中的点云的空间位置转换到第二人脸模型中的对应点云的空间位置的旋转关系，和从第一人脸模型转换到第二人脸模型的旋转关系是相同的，因此，可以分别在第一人脸模型上和第二人脸模型分别选取若干个相互匹配的点云，其中，选取的点云可以视为人脸模型的特征点，在第一人脸模型上选取的特征点的集合称为第一点集，在第二人脸模型上选取的特征点的集合称为第二点集，第一点集和第二点集中的特征点数量相同且一一对应，则可以根据从第一点集转换到第二点集的旋转关系，来确定从第一人脸模型转换到第二人脸模型的转换关系。

在一些实施例中，为了使选出的特征点更加明显，便于匹配，计算从第一人脸模型转换到第二人脸模型的旋转关系时从人脸模型中选取的特征点可以是人脸模型中的角点，其中，角点是指属性比较突出的极值点，角点一般是在某些属性上强度最大或者最小的孤立点、线段的终点，或者是曲线上局部曲率最大的点，例如，人脸模型中的角点可以是眼角、鼻尖、嘴角等位置的点。

在一些实施例中，计算从第一点集转换到第二点集的旋转关系的方式可以是，先计算从第一点集到第二点集的平移关系，再减去点集间的平移关系，使第一点集和第二点集的中心位置重合，然后再求解出从第一点集旋转至第二点集需要的经历的姿态转换。其中，计算从第一点集到第二点集的平移关系的方式可以是，分别计算第一点集和第二点集中的每个点构成的形状的中心点的空间坐标，则第一点集到第二点集的平移关系为两个中心点空间坐标的差值。在一些实施例中，可以是第一点集中的各个点均减去第一点集的中心点的空间坐标，第二点集中的各个点均减去第二点集的中心点的空间坐标，使第一点集和第二点集的中心点均移动至原点的位置，从而消去点集间的平移关系，可以直接通过矩阵变化计算出旋转矩阵，即从第一点集到第二点集的旋转关系。

例如，在一些实施例中，可以记第一图像生成的第一人脸模型为M1，与第一图像对应的第一标签的三个姿态角分别为p1、y1和r1，而第二图像生成的第二人脸模型为M2，与第二图像对应的第二标签的三个姿态角分别为p2、y2和r2，则p2、y2和r2即为求解的目标，而M1、M2、p1、y1和r1为可知的值。首先，从M1上取出若干个角点，记为X，X即为所述第一点集，其组成的形状为(N，3)，表示一共有N个点，且每个点有三个坐标；同样的，也从M2上取出等量且与X对应的若干个角点，记为Y，Y为所述第二点集，其组成的形状也是(N，3)；则从X到Y的过程即为一个平移加旋转的过程。在求解X和Y的旋转关系前，需要先消去X和Y的平移关系的影响。首先，记x_mean＝mean(X)，mean是取均值操作，也就是得到X的N个点的平均坐标值，也就是X的中心点位置；同样的，记y_mean＝mean(Y)，得到Y的中心点坐标y_mean；则X到Y的平移关系为(y_mean–x_mean)。接着，将X中的每个点都减去x_mean，得到X’，即把X的中心点拉回原点；同样的，将Y中的每个点都减去y_mean，得到Y’，即把Y的中心点也拉回原点。通过上述方式，X’和Y’之间消除了平移关系，只剩下旋转关系，即Y’＝RX’，其中，R为从X旋转到Y的旋转矩阵，即求解的目标。可以直接用最小二乘法解算上述公式，获得R的值，然后R可以通过现有的旋转矩阵转姿态角的公式计算得到从X旋转到Y的旋转关系，即X和Y的p、y和r的变化量，即Δp、Δy和Δr。

在步骤S105中，可以根据步骤S104求解出的从第一人脸模型转换到第二人脸模型的旋转关系和第一标签，计算出第二标签，即第二图像中的人的头部姿态的三个姿态角。例如，在上述实施例中，计算出Δp、Δy和Δr后，由于p1、y1和r1已知，则可以通过p2＝p1+Δp，y2＝y1+Δy，r2＝r1+Δr，直接计算出p2、y2和r2的值。

在计算出第二标签后，则可以以第二图像和第二标签组成新的样本，即第二样本。

在一些实施例中，可以利用一个第一样本造出很多第二样本，而利用这些第二样本训练获得的神经网络进行头部姿态估计的效果更加准确，而且更具泛化能力。

本申请还提出一种神经网络的训练方法，该神经网络可以估计头部姿态角度，接下来根据示出的一些实施例对本申请提出的一种神经网络的训练方法进行详细说明。

如图4所示，图4是本申请根据一实施例示出的一种神经网络的训练方法的流程图，包括以下步骤：

步骤S401：获取样本集，该样本集中包括利用数据增强方法生成的样本；

步骤S402：将样本集输入神经网络进行训练，以利用训练后的神经网络估计头部姿态角度。

在步骤S401中，样本集为用于训练头部姿态估计神经网络的训练集，该样本集中的样本是“图像-三个姿态角标签”数据样本。

在一些实施例中，该样本集中可以包括第一样本，这里的第一样本与前文所述的第一样本相同，指未经处理的原始数据样本。

在一些实施例中，该样本集中还可以包括第二样本，这里的第二样本与前文所述的第二样本相同，指第一样本经过数据增强方法生成的新样本。当然，第二样本还可以是其他第二样本经过数据增强方法生成的新样本。

在一些实施例中，生成第二样本的数据增强方法可以是本申请提出的任意一种数据增强方法。当然，生成第二样本的数据增强方法还可以是其他数据增强方法，只要能根据现有的“图像-三个姿态角标签”数据样本生成新的“图像-三个姿态角标签”数据样本即可，本申请对此不做限制。

在步骤S402中，利用步骤S401获得的样本集对神经网络进行训练，且训练后的神经网络可以用于估计头部姿态角度。

如果样本集中只包含第一样本，样本的数量比较少，其中的样本覆盖的头部姿态角度的范围比较小，尤其是一些比较极端的大头部姿态角度更是缺乏数据样本，因此由其训练出来的神经网络估计头部姿态角度的适用范围比较局限，泛化能力较差，在一些头部姿态角度比较大的场景下难以估计出比较准确的结果。

由于一个第一样本就能生成多个第二样本，而且根据预设的规则，可以生成多种角度的第二样本，因此当样本集中包含第二样本时，样本数量多，样本覆盖的头部姿态角度也很大，一些极端的大角度也能有足够数量的样本支持，因此由其训练出来的神经网络估计头部姿态角度的准确性更高，而且适用范围也比较广，具有较强的泛化能力，在一些头部姿态角度比较大的场景下也可以估计出比较准确的结果。

在一些实施例中，可以是先对只包含第一样本的第一样本集进行数据增强，获得带有第二样本的第二样本集，再将第二样本集输入神经网络中进行训练。这种方式称为线下增强，即先进行数据增强，再对神经网络进行训练。

在一些实施例中，还可以是先将第一样本集输入神经网络中，再分批次对神经网络进行训练时，每批次训练前，对该批次的第一样本进行数据增强，生成第二样本，再对神经网络进行训练。这种方式称为线上增强，即在神经网络训练过程中进行数据增强。

当样本集中的样本数量比较少时，可以使用线下增强的方式；而当样本数量比较多时，数据增强后的样本数量会更多，可能超出机器的负荷，则可以使用线上增强的方式。

在一些实施例中，可以对第一样本集中的所有第一样本均进行数据增强，也可以只对部分第一样本进行数据增强，本申请对此不做限制。

在一些实施例中，对于一个第一样本，可以只做一次数据增强，生成一个第二样本，也可以做多次数据增强，生成多个第二样本，本申请对此不做限制。

在一些实施例中，第二样本集可以是同时包含第一样本和第二样本的样本集，也可以是只包含第二样本的样本集，可以根据需求进行设置，本申请对此不做限制。

本申请还提供一种图像处理方法，接下来根据示出的一些实施例对本申请提出的一种图像处理方法进行详细说明。

如图5所示，图5是本申请根据一实施例示出的一种图像处理方法的流程图，包括以下步骤：

步骤S501：获取待处理图像；

步骤S502：将待处理图像输入指定的神经网络；

步骤S503：根据该神经网络的输出结果估计头部姿态角度；

步骤S504：根据头部姿态角度对待处理图像进行图像处理。

在一些实施例中，待处理图像可以包含人脸图像，也可以不包含人脸图像。当待处理图像包含人脸图像时，可以通过神经网络估计出该头像中的人的头部姿态角度，并基于该头部姿态角度对图像中的人脸进行处理。

在一些实施例中，当待处理图像包含人脸图像时，待处理图像可以只包含一张人脸图像，也可以包含多张人脸图像。

在一些实施例中，当待处理图像包含人脸图像时，可以对该人脸图像进行处理，也可以不对该人脸图像进行处理。在一些实施例中，可以预设一定规则，当待处理图像或其中的人脸图像符合预设的规则时，才对该人脸图像进行处理。例如，所述规则可以是该人脸图像属于指定人物、具有指定特征、摆出指定手势等规则中的一种或多种，本申请对此不做限制。

在一些实施例中，当待处理图像包含多张人脸图像时，可以只对其中的一张人脸图像进行处理，也可以是对其中的多张人脸图像进行处理，还可以是对其中的所有人脸图像进行处理，本申请对此不做限制。在一些实施例中，可以预设一定规则，根据规则来选取待处理图像中的一张或多张人脸图像进行处理。例如，所述选取的人脸图像的规则可以是选取待处理图像中最大的一个或多个人脸图像、选取属于指定人物的人脸图像、选取摆出指定手势的人物的人脸图像等规则中的一种或多种，本申请对此不做限制。

在一些实施例中，指定的神经网络为具有头部姿态估计功能的神经网络，将图像输入该神经网络时，该神经网络会输出图像中人的头部姿态角度。

在一些实施例中，指定的神经网络可以是本申请提出的任意一种神经网络的训练方法训练出来的神经网络。本申请提出的神经网络的训练方法训练出来的神经网络所具有的有益效果可参见上文，本文在此不再赘述。

在一些实施例中，图像处理可以是根据估计出的头部姿态角度对图像中的人物进行处理。例如，可以是在图像中的人的头部添加装饰图案，该装饰图案可以根据人的头部姿态进行调整；还可以在图像中的人的头部上添加虚拟头套，该虚拟头套可以根据人的头部姿态进行调整；还可以将图像中的人的头部替换成虚拟头像，该虚拟头像可以根据人的头部姿态进行调整；还可以根据图像中的人的头部姿态生成头部姿态控制信息，所述头部姿态控制信息可以用于生成用于控制其他设备的控制指令；本申请对图像处理的具体行为不做限制。

在一些实施例中，图像处理方法可以用于静态图像中，还可以用于动态图像中，本申请对此不做限制。

在一些实施例中，图像处理方法还可以用于视频中。特别地，图像处理方法可以用于实时的视频中。例如，用于视频通话中，或者用于视频直播中，本申请对此不做限制。

在一些实施例中，利用本申请提出的神经网络的训练方法训练出来的神经网络估计头部姿态角度的效果更加准确、泛化性更强，则基于该神经网络获得的头部姿态角度处理后的图像效果更优，可显著提升相关应用，例如虚拟直播和AR(Augmented Reality，增强现实)头套特效的可玩性和生动性。

本申请还提供一种直播中的图像处理方法，接下来根据示出的一些实施例对本申请提出的一种直播中的图像处理方法进行详细说明。

如图6所示，图6是本申请根据一实施例示出的一种直播中的图像处理方法的流程图，包括以下步骤：

步骤S601：获取主播客户端的直播图像；

步骤S602：将直播图像输入指定的神经网络；

步骤S603：根据该神经网络的输出结果估计头部姿态角度；

步骤S604：根据头部姿态角度对直播图像进行图像处理，生成目标图像；

步骤S605：将目标图像通过服务器发送给观众客户端。

在一些实施例中，该直播中的图像处理方法可以在主播客户端上执行，也可以在直播平台的服务器上执行，本申请对此不做限制。

在一些实施例中，该直播中的图像处理方法可以类比于本申请前文所述的图像处理方法，其具体实施例可参见上文，本文在此不再赘述。

如图7所示，图7是本申请根据一实施例示出的一种应用图像处理的直播场景示意图。

图7中，主播先在主播客户端上进行视频录制，生成直播图像；同时，该主播开启虚拟直播功能，即生成可以跟着主播头部一起运动的虚拟形象的头部，该功能既可以增强直播的可玩性和生动性，还可以隐藏主播的真实面貌，保护主播的隐私。当主播开启虚拟直播功能后，主播客户端或直播平台的服务器会对直播图像进行处理，生成带有虚拟头套的目标图像。生成的目标图像经过网络和直播平台的服务器，最终在观众客户端上进行显示。在观众客户端上，观众只能观看带有虚拟头套的目标图像，而无法观看到原始的直播图像；而在主播客户端上，主播可以观看到全部两种直播图像。

与前文所述的数据增强方法实施例相对应，本申请还提供一种数据增强装置。

如图8所示，图8是本申请根据一实施例示出的一种数据增强装置的结构示意图，包括以下模块：

样本获取模块810：用于获取包括第一图像和第一标签的第一样本，所述第一图像包含人脸图像，所述第一标签为人脸姿态角；

数据增强模块820：用于对所述第一图像进行旋转，获得第二图像；以及分别对所述第一图像和所述第二图像中的人脸进行三维重建，获得与所述第一图像对应的第一人脸模型和与所述第二图像对应的第二人脸模型；以及计算从所述第一人脸模型转换到所述第二人脸模型的旋转关系；以及根据所述旋转关系和所述第一标签，获得第二标签，所述第二标签为所述第二图像中的人脸姿态角，以所述第二图像和所述第二标签生成第二样本。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述任一实施例所述的方法。

图9示出了本申请所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器901、存储器902、输入/输出接口903、通信接口904和总线905。其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

处理器901可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。处理器901还可以包括显卡，所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。

存储器902可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行。

输入/输出接口903用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口904用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线905包括一通路，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器901、存储器902、输入/输出接口903、通信接口904以及总线905，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本申请方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本申请的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据增强方法，其特征在于，所述方法包括：

对所述第一图像进行旋转，获得第二图像；

2.根据权利要求1所述的方法，其特征在于，对所述第一图像进行旋转的角度为预设范围内的一个随机角度。

3.根据权利要求2所述的方法，其特征在于，所述预设范围为-45°至45°。

4.根据权利要求1所述的方法，其特征在于，所述计算从所述第一人脸模型转换到所述第二人脸模型的旋转关系，具体为：

从所述第一人脸模型中选取若干个特征点，构成第一点集；

从所述第二人脸模型中选取与所述第一点集中的特征点对应的若干个特征点，构成第二点集；

计算从所述第一点集转换到的所述第二点集的旋转关系。

5.根据权利要求4所述的方法，其特征在于，所述计算从所述第一点集转换到的所述第二点集的旋转关系，具体为：

计算从所述第一点集到所述第二点集的平移关系；

根据所述平移关系，获得第三点集，所述第三点集的空间姿态与所述第二点集相同，且所述第三点集的中心点与所述第一点集的中心点重合；

计算从所述第一点集转换到的所述第三点集的旋转关系。

6.根据权利要求4所述的方法，其特征在于，所述第一模型中选取的若干个特征点，为所述第一模型中的若干个角点。

7.一种神经网络的训练方法，其特征在于，所述神经网络用于估计头部姿态角度，所述方法包括：

获取样本集，所述样本集中包括第二样本，所述第二样本利用权利要求1-6任意一项所述的数据增强方法生成；

8.一种图像处理方法，其特征在于，所述方法包括：

获取待处理的图像；

将待处理的图像输入指定的神经网络，所述神经网络利用权利要求7所述的方法训练生成；

根据所述神经网络的输出结果估计头部姿态角度；

根据头部姿态角度对所述待处理的图像进行图像处理。

9.一种直播中的图像处理方法，其特征在于，所述方法包括：

获取主播客户端的直播图像；

将所述直播图像输入指定的神经网络，所述神经网络利用权利要求7所述的方法训练生成；

根据所述神经网络的输出结果估计头部姿态角度；

将所述目标图像通过直播服务器发送给观众客户端。

10.一种数据增强装置，其特征在于，所述装置包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1-6任意一项所述的方法。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-6任意一项所述的方法。