CN114120389A

CN114120389A - 网络训练及视频帧处理的方法、装置、设备及存储介质

Info

Publication number: CN114120389A
Application number: CN202111055985.4A
Authority: CN
Inventors: 卫华威; 韩欣彤
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-03-01

Abstract

本申请公开了一种网络训练及视频帧处理的方法、装置、设备及存储介质，该视频帧处理的方法包括：对包含目标脸部的视频帧进行脸部分割，获得多个局部脸部图像，其中，各局部脸部图像包含至少一种脸部部位；分别将所述局部脸部图像输入至预先训练的、与其脸部部位对应的局部表情识别网络中，并获得该局部表情识别网络输出的若干表情系数；根据各局部表情识别网络输出的若干表情系数，生成与所述目标脸部的表情一致的虚拟图像。实现赋能虚拟直播、数字人等场景，大大降低了虚拟直播的成本与门槛，提高直播业务的互动性和趣味性，极大地扩展了直播应用前景与市场潜力。

Description

网络训练及视频帧处理的方法、装置、设备及存储介质

技术领域

本申请实施例涉及直播技术领域，尤其涉及一种网络训练及视频帧处理的方法、装置、设备及存储介质。

背景技术

随着二次元虚拟直播在游戏、唱歌等各个领域的迅速发展，虚拟形象的受众群体逐渐庞大。

虚拟直播背后的技术是表情捕捉，在相关技术中，表情捕捉技术依赖厚重的头盔面捕设备，而且价格昂贵，如果要让虚拟直播大众化，使用该设备成本较高。

发明内容

本申请提供一种网络训练及视频帧处理的方法、装置、设备及存储介质，以解决现有技术中进行虚拟直播时表情捕捉技术中因依赖厚重的头盔面捕设备，导致设备成本较高和虚拟直播推广受限的问题。

第一方面，本申请实施例提供了一种表情识别网络训练的方法，所述方法包括：

对训练样本集中的各脸部图像进行脸部分割，获得多个样本局部图像；

按照不同的脸部部位，对所述多个样本局部图像进行分组，得到多个脸部部位样本集合；

对各脸部部位样本集合中的各样本局部图像进行特征提取；

根据各脸部部位样本集合提取出的特征集合，采用预设神经网络算法和指定损失函数进行联合学习，得到各脸部部位对应的局部表情识别网络，其中，各局部表情识别网络用于输出与其对应的脸部部位对应的设定维度的表情系数。

第二方面，本申请实施例还提供了一种视频帧处理的方法，所述方法包括：

对包含目标脸部的视频帧进行脸部分割，获得多个局部脸部图像，其中，各局部脸部图像包含至少一种脸部部位；

分别将所述局部脸部图像输入至预先训练的、与其脸部部位对应的局部表情识别网络中，并获得该局部表情识别网络输出的若干表情系数；

根据各局部表情识别网络输出的若干表情系数，生成与所述目标脸部的表情一致的虚拟图像。

第三方面，本申请实施例还提供了一种表情识别网络训练的装置，所述装置包括：

样本图像脸部分割模块，用于对训练样本集中的各脸部图像进行脸部分割，获得多个样本局部图像；

图像分组模块，用于按照不同的脸部部位，对所述多个样本局部图像进行分组，得到多个脸部部位样本集合；

特征提取模块，用于对各脸部部位样本集合中的各样本局部图像进行特征提取；

表情识别网络训练模块，用于根据各脸部部位样本集合提取出的特征集合，采用预设神经网络算法和指定损失函数进行联合学习，得到各脸部部位对应的局部表情识别网络，其中，各局部表情识别网络用于输出与其对应的脸部部位对应的设定维度的表情系数。

第四方面，本申请实施例还提供了一种视频帧处理的装置，所述装置包括：

视频帧脸部分割模块，用于对包含目标脸部的视频帧进行脸部分割，获得多个局部脸部图像，其中，各局部脸部图像包含至少一种脸部部位；

表情系数获取模块，用于分别将所述局部脸部图像输入至预先训练的、与其脸部部位对应的局部表情识别网络中，并获得该局部表情识别网络输出的若干表情系数；

虚拟图像生成模块，用于根据各局部表情识别网络输出的若干表情系数，生成与所述目标脸部的表情一致的虚拟图像。

第五方面，本申请实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述第一方面或第二方面的方法。

第六方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面或第二方面的方法。

本申请所提供的技术方案，具有如下有益效果：

在本实施例中，通过对包含目标脸部的视频帧进行脸部分割，获得多个局部脸部图像。然后获取与各个局部脸部图像对应的、预先训练的局部表情识别网络，并将该局部脸部图像输入至其对应的局部表情识别网络进行实时表情捕捉，获得该局部表情识别网络输出的若干表情系数，从而实时获取视频帧中的目标脸部的表情。然后根据各局部表情识别网络输出的若干表情系数，可以生成与目标脸部的表情一致的虚拟图像，虚拟图像的表情会跟随目标脸部的表情一起变化，实现赋能虚拟直播、数字人等场景，提高直播业务的互动性和趣味性，极大地扩展了直播应用前景与市场潜力。

另外，本实施例通过对视频帧进行分析则可以实现对目标脸部的表情捕捉以及确定虚拟形象做出与目标脸部一致的表情，只需要摄像头采集视频帧即可，相比于现有技术中的头盔面捕设备等，大大降低了虚拟直播的成本与门槛，扩大了虚拟直播的受众和应用场景。

附图说明

图1是本申请实施例一提供的一种表情识别网络训练的方法实施例的流程图；

图2是本申请实施例一提供的一组示例性的表情标签示意图；

图3是本申请实施例一提供的一种标定点对标定示例示意图；

图4是本申请实施例二提供的一种视频帧处理的方法实施例的流程图；

图5是本申请实施例三提供的一种表情识别网络训练的装置实施例的结构框图；

图6是本申请实施例四提供的一种视频帧处理的装置实施例的结构框图；

图7是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的一种表情识别网络训练的方法实施例的流程图，本实施例可以应用于直播平台中，由直播平台的服务器执行，可以包括如下步骤：

步骤110，对训练样本集中的各脸部图像进行脸部分割，获得多个样本局部图像。

在一种实现中，可以采用苹果公司的Arkit工具来采集训练样本数据，例如，可以通过开发指定的应用程序APP来调用苹果公司提供的Arkit接口，从而实现数据的采集。在样本数据采集的过程中，为了提高预测效率，可以要求被采集人尽可能做一些丰富表情，覆盖眼睛、眉毛、鼻子、嘴巴等多个部位。这样利用该样本数据训练得到的神经网络对于各种表情才能捕捉得较好。

在一种示例中，采集的训练样本数据可以包含若干段视频，对于视频中每一帧图像都可以作为一个训练样本，都可以对其预先标记若干维度的表情标签。示例性地可以采用52维表情标签，每一维表情标签都具有一个[0，1]范围的表情系数，每一维表情标签都可以表示一个单一的表情，其数值(即表情系数)表示该表情的幅度，表情系数越靠近1，表示表情的幅度越大。例如，如图2的表情标签示意图示出了部分表情标签，从左到右可以包括：左眼内眼睑区域收敛(eyeSquintLeft)、左眼向下看(eyeLookDownLeft)、下巴张开(jawOpen)、双唇张开程度(mouthFunnel)、下巴向右移动(jawRight)、嘴巴关闭(mouthClose)、下嘴唇不动上嘴唇动(mouthShrugUpper)、左眼向内看(eyeLookInLeft)、左眼闭眼(eyeBlinkLeft)、右下唇往上压缩(mouthPressRight)，等等。

在获得训练样本集以后，则可以对各训练样本进行脸部识别，并基于识别得到的脸部图像进行样本数据集扩展。具体的，在进行脸部识别以后，可以标记脸部各部位的关键点，例如包括左眼、右眼、鼻尖、嘴巴等。然后基于上述关键点对脸部图像进行几何归一化处理，先确定脸部图像的中心点V，将该图像绕V点旋转，使得左眼和右眼处于同一水平位置，再平移图像使得鼻尖处于图像中心位置。几何归一化处理之后，进行光照归一化，对脸部图像做直方图均衡。最后对脸部图像进行训练集扩展，将脸部图像进行水平方向的翻转，并对原图和翻转过的图像分别进行6种变换，分别是：亮度增加、亮度减少、对比度增加、对比度减少、高斯模糊和高斯噪声，从而可以将1张图像扩展成14张图像。

在实际中，在进行脸部分割之前，还可以将每个脸部图像的尺寸统一调整为指定尺寸，例如，调整为256*256。然后，按照脸部部位进行脸部分割，获得多个样本局部图像，其中，各样本局部图像可以包括一个或多个脸部部位。

需要说明的是，上述的脸部可以为人脸脸部，也可以是其他的动物脸部，本实施例对此不作限定。

在一种实施例中，步骤110进一步可以包括如下步骤：

步骤110-1，针对各脸部图像，对所述脸部图像进行关键点检测，以获得多种脸部部位的关键点。

在一种实现中，可以采用定制的SDK(Software Development Kit，软件开发工具包)检测工具来对各脸部图像进行关键点检测，以提取各脸部部位的关键点信息，其中，脸部部位可以包括左眼睛、左眉毛、右眼睛、右眉毛、鼻子、嘴巴、脸部轮廓等。

步骤110-2，按照所述多种脸部部位的关键点以及预设的分割规则，对所述脸部图像进行脸部分割，得到多个样本局部图像。

步骤110-3，按照所述分割规则，将所述多个样本局部图像的尺寸分别调整为对应的设定尺寸。

示例性地，预设的分割规则可以用于规范各局部图像包含的脸部部位以及局部图像的尺寸大小。例如，分割规则中可以规定，分割后得到的局部图像包括左上脸部图像、右上脸部图像、中部脸部图像以及下部脸部图像，其中，左上脸部图像包括左眉毛以及左眼睛区域，右上脸部图像包括右眉毛以及右眼睛区域，中部脸部图像包括鼻子区域，下部脸部图像包括嘴巴和下巴区域；并且规定左上脸部图像、右上脸部图像、中部脸部图像以及下部脸部图像对应的尺寸分别是：48*48、48*48、48*48、96*96。则根据上述的分割规则以及检测出的各脸部部位的关键点，则可以将各脸部图像划分成4个样本局部图像，并分别将其尺寸设置为对应的设定尺寸。

步骤120，按照不同的脸部部位，对所述多个样本局部图像进行分组，得到多个脸部部位样本集合。

例如，可以将分割得到的所有左上脸部图像组成左上脸部(即左眉+左眼的区域)样本集合，将所有右上脸部图像组成右上脸部(即右眉+右眼的区域)样本集合，将所有中部脸部图像组成中部脸部(即鼻子区域)样本集合，以及，将所有下部脸部图像组成下部脸部(即嘴巴区域+下巴区域)样本集合。

步骤130，对各脸部部位样本集合中的各样本局部图像进行特征提取。

在一种实现中，可以采用特征提取网络来提取各脸部部位样本集合的特征。可以是不同的脸部部位样本集合采用不同的特征提取网络进行特征提取，也可以是所有的脸部部位样本集合均采用相同的特征提取网络进行特征提取，本实施例对此不作限定。

示例性地，特征特征提取网络可以包括深度神经网络，该深度神经网络可以包括如下部分：第一部分由两个卷积层、一个激活函数与一个池化层组成；第二部分由三个卷积层、一个激活函数与一个池化层组成；第三部分由三个卷积层、一个激活函数与一个池化层组成；第四部分由三个卷积层、一个激活函数与一个池化层组成；第五部分由两个全连接层组成。

步骤140，根据各脸部部位样本集合提取出的特征集合，采用预设神经网络算法和指定损失函数进行联合学习，得到各脸部部位对应的局部表情识别网络。

在该实施例中，对于不同的脸部部位，如左上脸部部位(包括左眉和左眼)、右上脸部部位(包括右眉和右眼)、中部脸部部位(包括鼻子)以及下部脸部部位(包括嘴巴和下巴)，可以训练对应的局部表情识别网络，一个脸部部位对应一个局部表情识别网络。其中，各局部表情识别网络用于输出与其对应的脸部部位对应的设定维度的表情系数，一个局部表情识别网络负责输出一部分表情系数。

在一种示例中，预设神经网络算法可以包括轻量级的ShuffleNet V2卷积神经网络算法。指定损失函数可以包括顶点距损失函数vertex distance loss、顶点损失函数vertex loss以及回归损失函数L1 loss。在进行联合学习时，可以基于顶点距损失函数对应的顶点距损失值、顶点损失函数对应的顶点损失值以及回归损失函数对应的回归损失值的总损失值，对各局部表情识别网络进行收敛。

在一种实施例中，当指定损失函数为顶点距损失函数时，所述顶点距损失函数对应的顶点距损失值采用如下方式获得：

步骤S1，获取各局部表情识别网络输出的表情系数以及表情标签。

在本实施例中，每个局部表情识别网络可以输出一定数量的表情标签以及输出该表情标签对应的表情系数。而每个局部表情识别网络输出的表情标签的数量可以预先设定好。例如，假设局部表情识别网络包括左上脸部识别网络、右上脸部识别网络、中部脸部识别网络以及下部脸部识别网络，对应的表情标签的数量分别是10、10、2、30，具体可以如下：

左上脸部识别网络的10个表情标签是：eyeBlinkLeft、eyeLookDownLeft、eyeLookInLeft、左眼向外看(eyeLookOutLeft)、左眼向上看(eyeLookUpLeft)、eyeSquintLeft、左眼周眼睑变宽(eyeWideLeft)、左眉外部往下移动(browDownLeft)、左眉内侧往上移动(browInnerUp)、左眉外侧往上移动(browOuterUpLeft)；

右上脸部识别网络的10个表情标签是：右眼闭眼(eyeBlinkRight)、右眼向下看(eyeLookDownRight)、右眼向内看(eyeLookInRight)、右眼向外看(eyeLookOutRight)、右眼向上看(eyeLookUpRight)、右眼内眼睑区域收敛(eyeSquintRight)、右眼周眼睑变宽(eyeWideRight)、右眉外部往下移动(browDownRight)、右眉内侧往上移动(browInnerUp)、右眉外侧往上移动(browOuterUpRight)；

中部脸部识别网络的2个表情标签是：左鼻孔周围往上移动(noseSneerLeft)、右鼻孔周围往上移动(noseSneerRight)；

下部脸部识别网络的30个表情标签是：双颊往外移动(cheekPuff)、左侧脸颊向上移动(cheekSquintLeft)、右侧脸颊向上移动(cheekSquintRight)、下巴向前移动(jawForward)、下巴向左移动(jawLeft)、jawOpen、jawRight、mouthClose、左侧嘴巴向后移动(mouthDimpleLeft)、右侧嘴巴向后移动(mouthDimpleRight)、左侧嘴巴向下移动(mouthFrownLeft)、右侧嘴巴向下移动(mouthFrownRight)、mouthFunnel、双唇向左移动(mouthLeft)、左下唇往下移动(mouthLowerDownLeft)、右下唇往下移动(mouthLowerDownRight)、左下唇往上压缩(mouthPressLeft)、mouthPressRight、闭合的嘴唇收缩程度(mouthPucker)、双唇向右移动(mouthRight)、下唇往嘴巴内部移动(mouthRollLower)、上唇往嘴巴内部移动(mouthRollUpper)、下唇往外移动(mouthShrugLower)、上唇往外移动(mouthShrugUpper)、左侧嘴巴向上移动(mouthSmileLeft)、右侧嘴巴向上移动(mouthSmileRight)、左侧嘴巴向左移动(mouthStretchLeft)、右侧嘴巴向左移动(mouthStretchRight)、左上唇往上移动(mouthUpperUpLeft)、右上唇往上移动(mouthUpperUpRight)。

步骤S2，根据各局部表情识别网络输出的表情系数生成第一脸部网格数据，以及，根据各局部表情识别网络输出的表情标签生成第二脸部网格数据。

当获得各局部表情识别网络输出的表情标签以及对应的表情系数以后，则可以分别根据各局部表情识别网络输出的表情标签和表情系数进行网格数据的转换，以生成对应的mesh网格。其中，在计算机图形学中，通过mesh(网格)数据可定义一个三维物体的形状，三维模型包含了mesh数据与颜色信息，mesh由三角面组成，一个三角面包含三个顶点，mesh数据结构包括：顶点数组和索引数组；顶点数组存储顶点的坐标信息，索引数组存储顶点顺序。在三维坐标系中创建三角面时，只需遍历索引数组，根据索引去顶点数组中获取顶点坐标信息，三个索引对应三个顶点，三个顶点构成一个三角面。

在一种实现中，可以以各局部表情识别网络输出的表情系数作为第一3DMM(3DMorphableModel，三维人脸可变形模型)系数，然后将该第一3DMM系数输入到3DMM公式中，得到第一脸部网格数据。相似地，以各局部表情识别网络输出的表情标签作为第二3DMM系数，然后将该第二3DMM系数输入到3DMM公式中，得到第二脸部网格数据。

步骤S3，获取针对各脸部部位预先标定的标定点对信息。

其中，每个标定点对信息可以包含两个标定点的信息，示例性地，该标定点的信息可以包括标定点序号。例如，如图3所示，该标定点对信息可以为在预设的标准mesh的左眼、右眼和嘴巴上预先标定的标定点的信息，如左眼上、下两个标定点组成一个标定点对，右眼上、下两个标定点组成一个标定点对，以及，嘴巴上、下两个标定点组成一个标定点对。

步骤S4，基于所述标定点对信息，确定所述第一脸部网格数据对应的第一欧式距离，以及，确定所述第二脸部网格数据对应的第二欧式距离。

其中，第一脸部网格数据对应的第一欧式距离是指基于第一脸部网格数据计算各标定点对的两个标定点之间的欧式距离之和；第二脸部网格数据对应的第二欧式距离是指基于第二脸部网格数据计算各标定点对的两个标定点之间的欧式距离之和。

具体的，在一种实施例中，各标定点对信息包括第一标定点序号以及第二标定点序号；则步骤S4中确定第一脸部网格数据对应的第一欧式距离的步骤，进一步可以包括如下步骤：

步骤S4-1，在所述第一脸部网格数据的各脸部部位中分别查找所述第一标定点序号以及所述第二标定点序号，以确定所述第一标定点序号在所述第一脸部网格数据的对应脸部部位的第一坐标，以及，确定所述第二标定点序号在所述第一脸部网格数据的对应脸部部位的第二坐标。

例如，假设每个脸部网格数据(包括第一脸部网格数据和第二脸部网格数据)一共有1220个点，设定左眼的第一标定点序号(如图3中左眼上面的标定点序号)为650，第二标定点序号(如图3中左眼下面的标定点序号)为450，则可以在第一脸部网格数据的左上脸部区域中查找序号为650的标定点的坐标作为左上脸部区域的第一坐标，查找序号为450的标定点的坐标作为左上脸部区域的第二坐标。

相同地，设定右眼的第一标定点序号(如图3中右眼上面的标定点序号)为888，第二标定点序号(如图3中右眼下面的标定点序号)为796，则可以在第一脸部网格数据的右上脸部区域中查找序号为888的标定点的坐标作为右上脸部区域的第一坐标，查找序号为796的标定点的坐标作为右上脸部区域的第二坐标。

设定嘴唇的第一标定点序号(如图3中嘴唇上面的标定点序号)为250，第二标定点序号(如图3中嘴唇下面的标定点序号)为174，则可以在第一脸部网格数据的下部脸部区域中查找序号为250的标定点的坐标作为下部脸部区域的第一坐标，查找序号为174的标定点的坐标作为下部脸部区域的第二坐标。

步骤S4-2，计算所述第一坐标与所述第二坐标的欧氏距离，得到对应脸部部位的表情系数欧式距离。

得到各个脸部部位的第一坐标以及第二坐标以后，针对各脸部部位，可以计算该脸部部位的第一坐标与第二坐标的欧氏距离，得到该脸部部位的表情系数欧式距离。例如，在上例中，针对左上脸部区域，可以计算标定点650的第一坐标与标定点450的第二坐标的欧式距离，得到左上脸部区域的表情系数欧式距离；针对右上脸部区域，可以计算标定点888的第一坐标与标定点796的第二坐标的欧式距离，得到右上脸部区域的表情系数欧式距离；针对下部脸部区域，可以计算标定点250的第一坐标与标定点174的第二坐标的欧式距离，得到下部脸部区域的表情系数欧式距离。

步骤S4-3，计算各脸部部位的表情系数欧式距离的总和得到所述第一脸部网格数据对应的第一欧式距离。

例如，可以采用如下公式表示第一脸部网格数据对应的第一欧式距离Dist_x：

Dist_x＝Dist_x_左上脸部+Dist_x_右上脸部+Dist_x_下部脸部

其中，“Dist_x_左上脸部”表示左上脸部区域的表情系数欧式距离，“Dist_x_右上脸部”表示右上脸部区域的表情系数欧式距离，“Dist_x_下部脸部”表示下部脸部区域的表情系数欧式距离。

相似地，步骤S4中确定第二脸部网格数据对应的第二欧式距离的步骤，进一步可以包括如下步骤：

从所述第二脸部网格数据的各脸部部位中分别查找所述第一标定点序号以及所述第二标定点序号，以确定所述第一标定点序号在所述第二脸部网格数据的对应脸部部位的第三坐标，以及，确定所述第二标定点序号在所述第二脸部网格数据的对应脸部部位的第四坐标；计算所述第三坐标以及所述第四坐标的欧氏距离，得到对应脸部部位的标签欧式距离；计算各脸部部位的标签欧式距离的总和得到所述第二脸部网格数据对应的第二欧式距离。

具体的，关于第二脸部网格数据对应的第二欧式距离的计算方式，与上述第一脸部网格数据对应的第一欧式距离的计算方式是类似的，相似过程可以参考上述计算第一欧式距离的过程。

例如，可以在第二脸部网格数据的左上脸部区域中查找序号为650的标定点的坐标作为左上脸部区域的第三坐标，查找序号为450的标定点的坐标作为左上脸部区域的第四坐标；在第二脸部网格数据的右上脸部区域中查找序号为888的标定点的坐标作为右上脸部区域的第三坐标，查找序号为796的标定点的坐标作为右上脸部区域的第四坐标；在第二脸部网格数据的下部脸部区域中查找序号为250的标定点的坐标作为下部脸部区域的第三坐标，查找序号为174的标定点的坐标作为下部脸部区域的第四坐标。然后计算各脸部部位的第三坐标与第四坐标的欧式距离，作为该脸部部位的标签欧式距离，将所有脸部部位的标签欧式距离相加则可以得到第二脸部网格数据对应的第二欧式距离，即：

Dist_y＝Dist_y_左上脸部+Dist_y_右上脸部+Dist_y_下部脸部

其中，Dist_y为第二欧式距离，“Dist_y_左上脸部”表示左上脸部区域的标签欧式距离，“Dist_y_右上脸部”表示右上脸部区域的标签欧式距离，“Dist_y_下部脸部”表示下部脸部区域的标签欧式距离。

步骤S5，计算所述第一欧式距离与所述第二欧式距离的差值绝对值，得到优化后的顶点距损失值。

具体的，顶点距损失值vertex distance loss可以采用如下公式表示：

vertex distance loss＝||Dist_x-Dist_y||

在该实施例中，通过计算vertex distance loss，有助于使得眼睛、嘴巴这些张闭程度影响视觉感官的脸部部位和对应的标签值尽可能对齐。

在其他实施例中，当指定损失函数为顶点损失函数vertex loss时，该顶点损失函数vertex loss对应的顶点损失值Vertex loss可以采用如下方式获得：

其中，Mx_j表示Mx(即上一实施例中的第一脸部网格数据)中的第j个顶点；My_j表示My(即上一实施例中的第二脸部网格数据)中的第j个顶点。

vertex loss的直观意思就是让网络输出表情系数转化得到的mesh和标签转化得到的mesh尽可能接近。

当指定损失函数为回归损失函数L1 loss时，该回归损失函数L1 loss对应的回归损失值可以采用如下方式获得：

其中，x为局部表情识别网络输出的表情系数，y为局部表情识别网络输出的该表情系数对应的表情标签，n为当前表情标签对应的维度。

通过上述三种损失函数，可以用梯度反传等方法联合训练多个局部表情识别网络。

在本实施例中，通过对训练样本集中的各脸部图像进行脸部分割，获得多个样本局部图像，并将各样本局部图像按照不同的脸部部位聚合成多个脸部部位样本集合。通过对不同脸部部位样本集合的特征提取得到不同脸部部位的特征集合，然后基于不同脸部部位的特征集合，采用预设神经网络算法和指定损失函数进行联合学习，可以同时得到各脸部部位对应的轻量的局部表情识别网络，各局部表情识别网络用于输出与其对应的脸部部位对应的设定维度的表情系数，相比于使用一个模型来识别整个脸部的表情系数的做法，可以提高表情捕捉的效率和准确度。

实施例二

图4为本申请实施例二提供的一种视频帧处理的方法实施例的流程图，本实施例可以应用于直播平台中，由直播平台的服务器执行，属于对上述模型进行模型推理的阶段。如图4所示，本实施例可以包括如下步骤：

步骤410，对包含目标脸部的视频帧进行脸部分割，获得多个局部脸部图像，其中，各局部脸部图像包含至少一种脸部部位。

在该步骤中，对包含目标脸部的视频帧进行脸部分割的过程，与步骤110中对训练样本集中的脸部图像进行脸部分割类似，具体过程可以参考步骤110的过程，此处不再赘述了。

步骤420，分别将所述局部脸部图像输入至预先训练的、与其脸部部位对应的局部表情识别网络中，并获得该局部表情识别网络输出的若干表情系数。

例如，假设将包含目标脸部的视频帧分割出的多个局部脸部图像包括左上脸部图像、右上脸部图像、中部脸部图像以及下部脸部图像，则可以将该左上脸部图像输入至左上脸部识别网络中进行表情识别，并获得左上脸部识别网络输出的10维的表情标签以及对应的表情系数；将该右上脸部图像输入至右上脸部识别网络中进行表情识别，并获得右上脸部识别网络输出的10维的表情标签以及对应的表情系数；将该中部脸部图像输入至中部脸部识别网络中进行表情识别，并获得中部脸部识别网络输出的2维的表情标签以及对应的表情系数；将该下部脸部图像输入至下部脸部识别网络中进行表情识别，并获得下部脸部识别网络输出的30维的表情标签以及对应的表情系数。

步骤430，根据各局部表情识别网络输出的若干表情系数，生成与所述目标脸部的表情一致的虚拟图像。

例如，当获得左上脸部识别网络输出的10维的表情标签以及对应的表情系数、右上脸部识别网络输出的10维的表情标签以及对应的表情系数、中部脸部识别网络输出的2维的表情标签以及对应的表情系数、以及下部脸部识别网络输出的30维的表情标签以及对应的表情系数以后，则这52维度的表情标签以及表情系数可以直接应用在3D虚拟形象上，以驱动3D虚拟形象做出与目标脸部的表情一致的表情，且3D虚拟形象的表情会跟随目标脸部的表情一起变化。

另外，本实施例通过对视频帧进行分析则可以实现对目标脸部的表情捕捉以及确定虚拟形象做出与目标脸部一致的表情，只需要摄像头采集视频帧即可，相比于现有技术中的头盔面捕设备等，大大降低了直播的成本与门槛，扩大了虚拟直播的受众和应用场景。

实施例三

图5为本申请实施例三提供的一种表情识别网络训练的装置实施例的结构框图，所述装置可以应用于直播平台中，可以包括如下模块：

样本图像脸部分割模块510，用于对训练样本集中的各脸部图像进行脸部分割，获得多个样本局部图像；

图像分组模块520，用于按照不同的脸部部位，对所述多个样本局部图像进行分组，得到多个脸部部位样本集合；

特征提取模块530，用于对各脸部部位样本集合中的各样本局部图像进行特征提取；

表情识别网络训练模块540，用于根据各脸部部位样本集合提取出的特征集合，采用预设神经网络算法和指定损失函数进行联合学习，得到各脸部部位对应的局部表情识别网络，其中，各局部表情识别网络用于输出与其对应的脸部部位对应的设定维度的表情系数。

在一种实施例中，所述指定损失函数包括顶点损失函数、回归损失函数以及顶点距损失函数；

所述表情识别网络训练模块540具体用于：

在进行联合学习时，基于所述顶点距损失函数对应的顶点距损失值、所述顶点损失函数对应的顶点损失值以及所述回归损失函数对应的回归损失值的总损失值，对各所述局部表情识别网络进行收敛。

在一种实施例中，当所述指定损失函数为顶点距损失函数时，所述表情识别网络训练模块540包括顶点距损失值确定子模块，所述顶点距损失值确定子模块包括：

表情系数及表情标签获取单元，用于获取各局部表情识别网络输出的表情系数以及表情标签；

网格数据生成单元，用于根据各局部表情识别网络输出的表情系数生成第一脸部网格数据，以及，根据各局部表情识别网络输出的表情标签生成第二脸部网格数据；

标定点对信息获取单元，用于获取针对各脸部部位预先标定的标定点对信息；

欧式距离确定单元，用于基于所述标定点对信息，确定所述第一脸部网格数据对应的第一欧式距离，以及，确定所述第二脸部网格数据对应的第二欧式距离；

顶点距损失值计算单元，用于计算所述第一欧式距离与所述第二欧式距离的差值绝对值，得到优化后的顶点距损失值。

在一种实施例中，各所述标定点对信息包括第一标定点序号以及第二标定点序号；所述欧式距离确定单元具体用于：

在所述第一脸部网格数据的各脸部部位中分别查找所述第一标定点序号以及所述第二标定点序号，以确定所述第一标定点序号在所述第一脸部网格数据的对应脸部部位的第一坐标，以及，确定所述第二标定点序号在所述第一脸部网格数据的对应脸部部位的第二坐标；

计算所述第一坐标与所述第二坐标的欧氏距离，得到对应脸部部位的表情系数欧式距离；

计算各脸部部位的表情系数欧式距离的总和得到所述第一脸部网格数据对应的第一欧式距离。

在一种实施例中，所述欧式距离确定单元还用于：

从所述第二脸部网格数据的各脸部部位中分别查找所述第一标定点序号以及所述第二标定点序号，以确定所述第一标定点序号在所述第二脸部网格数据的对应脸部部位的第三坐标，以及，确定所述第二标定点序号在所述第二脸部网格数据的对应脸部部位的第四坐标；

计算所述第三坐标与所述第四坐标的欧氏距离，得到对应脸部部位的标签欧式距离；

计算各脸部部位的标签欧式距离的总和得到所述第二脸部网格数据对应的第二欧式距离。

在一种实施例中，所述样本图像脸部分割模块510具体用于：

针对各脸部图像，对所述脸部图像进行关键点检测，以获得多种脸部部位的关键点；

按照所述多种脸部部位的关键点以及预设的分割规则，对所述脸部图像进行脸部分割，得到多个样本局部图像；

按照所述分割规则，将所述多个样本局部图像的尺寸分别调整为对应的设定尺寸。

本申请实施例所提供的一种表情识别网络训练的装置可执行本申请实施例一中的一种表情识别网络训练的方法，具备执行方法相应的功能模块和有益效果。

实施例四

图6为本申请实施例四提供的一种视频帧处理的装置实施例的结构框图，所述装置可以应用于直播平台中，可以包括如下模块：

视频帧脸部分割模块610，用于对包含目标脸部的视频帧进行脸部分割，获得多个局部脸部图像，其中，各局部脸部图像包含至少一种脸部部位；

表情系数获取模块620，用于分别将所述局部脸部图像输入至预先训练的、与其脸部部位对应的局部表情识别网络中，并获得该局部表情识别网络输出的若干表情系数；

虚拟图像生成模块630，用于根据各局部表情识别网络输出的若干表情系数，生成与所述目标脸部的表情一致的虚拟图像。

本申请实施例所提供的一种视频帧处理的装置可执行本申请实施例二中的一种视频帧处理的方法，具备执行方法相应的功能模块和有益效果。

实施例五

图7为本申请实施例五提供的一种电子设备的结构示意图，如图7所示，该电子设备包括处理器710、存储器720、输入装置730和输出装置740；电子设备中处理器710的数量可以是一个或多个，图7中以一个处理器710为例；电子设备中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器720作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的上述实施例一或实施例二对应的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的方法实施例一或实施例二中提到的方法。

存储器720可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器720可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器720可进一步包括相对于处理器710远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置730可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。

实施例六

本申请实施例六还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行上述方法实施例中的方法。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种表情识别网络训练的方法，其特征在于，所述方法包括：

对各脸部部位样本集合中的各样本局部图像进行特征提取；

2.根据权利要求1所述的方法，其特征在于，所述指定损失函数包括顶点损失函数、回归损失函数以及顶点距损失函数；

所述根据各脸部部位样本集合提取出的特征集合，采用预设神经网络算法和指定损失函数进行联合学习，得到各脸部部位对应的局部表情识别网络，包括：

3.根据权利要求2所述的方法，其特征在于，当所述指定损失函数为顶点距损失函数时，所述顶点距损失函数对应的顶点距损失值采用如下方式获得：

获取各局部表情识别网络输出的表情系数以及表情标签；

根据各局部表情识别网络输出的表情系数生成第一脸部网格数据，以及，根据各局部表情识别网络输出的表情标签生成第二脸部网格数据；

获取针对各脸部部位预先标定的标定点对信息；

基于所述标定点对信息，确定所述第一脸部网格数据对应的第一欧式距离，以及，确定所述第二脸部网格数据对应的第二欧式距离；

计算所述第一欧式距离与所述第二欧式距离的差值绝对值，得到优化后的顶点距损失值。

4.根据权利要求3所述的方法，其特征在于，各所述标定点对信息包括第一标定点序号以及第二标定点序号；所述确定所述第一脸部网格数据对应的第一欧式距离，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定所述第二脸部网格数据对应的第二欧式距离，包括：

6.根据权利要求1-4任一项所述的方法，其特征在于，所述对训练样本集中的各脸部图像进行脸部分割，获得多个样本局部图像，包括：

7.一种视频帧处理的方法，其特征在于，所述方法包括：

8.一种表情识别网络训练的装置，其特征在于，所述装置包括：

9.一种视频帧处理的装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的方法。