CN114463825A

CN114463825A - 基于多模态融合的人脸预测方法及相关设备

Info

Publication number: CN114463825A
Application number: CN202210363355.1A
Authority: CN
Inventors: 王光宇; 冯发金; 张平; 王凯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-05-10
Anticipated expiration: 2042-04-08
Also published as: CN114463825B

Abstract

本公开提供一种基于多模态融合的人脸预测方法及相关设备。该方法包括：获取带有纹理的3D人脸信息数据，将其划分为点云坐标和纹理图像，并将点云坐标处理成几何特征向量、纹理图像处理成纹理特征向量；将所述几何特征向量与所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量；将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量；将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。本公开提供的一种基于多模态融合的人脸预测方法及相关设备，将点云的空间几何信息与贴图的纹理图像信息融合，有效提高了人脸预测的精度。

Description

基于多模态融合的人脸预测方法及相关设备

技术领域

本公开涉及深度学习算法技术与多模态融合领域，尤其涉及一种基于多模态融合的人脸预测方法及相关设备。

背景技术

随着人工智能技术的发展，先进的人工智能应用程序改变了技术交互的方式，使人类生活更加便捷。如今，计算机视觉已是人工智能领域的一个重要组成部分，其通过计算机及相关设备对生物视觉进行模拟，使计算机能够对目标进行分割、跟踪、识别、分类和判别决策。在计算机视觉领域，最重要的数据源之一是人脸信息，可用于电影、娱乐、商业或安全领域，例如 3D 视频游戏、虚拟标记、在线运输和人脸开锁。现有的3D人脸信息利用方法可分为两类：

1）基于点，其中3D人脸信息的坐标、颜色采用 3D 面部顶点的关系来训练模型，并随后解决任务。

2）基于投影，将源 3D 网格投影到输入为 2D 图像的模型的特定姿势，获取纹理图像信息。

上述两种单模态的分析方法对人脸特征进行了提取和利用，然而，只是基于单模态的分析预测结果会缺少纹理图像信息或空间几何信息，导致获取信息不完整、预测结果不准确。因此，亟需一种能够融合两种方法的优势并做到缺点互补的多模态融合预测分析方法。

发明内容

有鉴于此，本公开的目的在于提出一种基于多模态融合的人脸预测方法及相关设备。

基于上述目的，本公开提供了一种基于多模态融合的人脸预测方法，包括：获取带有纹理的3D人脸信息数据；

将所述3D人脸信息数据划分为点云坐标和纹理图像；

将所述点云坐标输入到分层点云编码器，输出多组几何特征向量，将所述纹理图像输入到分层纹理图像编码器，输出多组纹理特征向量；

将所述几何特征向量与所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量；

将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量；

将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。

进一步的，所述分层点云编码器为PointNet++、PointWeb或PointConv；所述分层纹理图像编码器为VGG、GoogleNet或Resnet。

进一步的，所述平衡处理包括：采用RoiAlign方法对所述几何特征向量和所述纹理特征向量进行整形。

进一步的，所述Transformer融合模型包括Transformer层、1x1卷积层和一维平均池化层，将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量，包括：

将所述无序词向量输入至所述Transformer层，得到中间向量，再将所述中间向量输入至所述1x1卷积层和一维平均池化层，得到所述融合特征向量。

进一步的，所述Transformer层按照输入顺序依次包括特征类型嵌入层、一个多头自注意力机制和一个多层感知机，所述多头自注意力机制和所述多层感知机之前分别各设置一个层范数LayerNorm和一个残差层。

进一步的，一个所述多层感知机对应一个预测任务，响应于确定存在多个所述预测任务，将多个所述融合特征向量分别输入至多个所述多层感知机中，经由多个所述多层感知机输出对应不同所述预测任务的所述预测结果。

进一步的，所述多层感知机通过最小化多任务预测损失函数进行所述预训练，所述多任务预测损失函数具体为

其中，n是任务总数，L_j是第j个任务的均方误差，L是所有任务的均方差求和，j的取值范围是1~n。

基于同一发明构思，本公开还提供了一种基于多模态融合的人脸预测装置，包括：

输入模块，被配置为获取带有纹理的3D人脸信息数据；

特征提取模块，被配置为将所述3D人脸信息数据划分为点云坐标和纹理图像；

将多组所述几何特征向量与多组所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量；

融合模块，被配置为将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量；

输出模块，被配置为将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。

基于同一发明构思，本公开还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上任意所述的方法。

基于同一发明构思，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上任意所述的方法。

从上面所述可以看出，本公开提供的一种基于多模态融合的人脸预测方法及相关设备，将输入的3D人脸信息数据处理为几何特征向量和纹理特征向量，并经过处理得到两者的融合特征向量，所述融合特征向量输入经过预训练的多层感知机即可得到预测结果。本公开的基于多模态融合的人脸预测方法及相关设备能够结合点云和贴图两种人脸信息处理方式，所述融合特征向量既保留了点云的空间几何信息，又含有精细的贴图纹理信息，将两种单模态获取的信息互补，使融合了两种单模态信息的预测结果更准确。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的基于多模态融合的人脸预测方法流程示意图；

图2为本公开实施例的Transformer融合模型示意图；

图3为本公开实施例的Transformer层示意图；

图4a为本公开实施例的分层点云编码器示意图；

图4b为本公开实施例的分层纹理图像编码器示意图；

图5为本公开实施例的基于多模态融合的人脸预测装置示意图；

图6为本公开实施例的电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。

如背景技术所述，目前常用3D人脸信息利用方法可分为两类，包括：1）基于点，其中3D人脸信息的坐标、颜色采用 3D 面部顶点的关系来训练模型，并随后解决任务。2）基于投影，将源 3D 网格投影到输入为 2D 图像的模型的特定姿势，获取纹理图像信息。

基于投影的方法将非结构化3D点云投影到特定的预设模态（例如正平面，体素，支柱）中，并从目标格式中提取纹理特征。这种方法的一大好处是可以使用已有且很成熟的网络框架对投影后的结果进行预测。然而，基于投影的方法在表达物体时更复杂繁琐，且不可避免的会遗失一部分信息，如平面正投影会损失空间几何信息。

与基于投影从空间邻域聚合点的方法相比，基于点的方法试图从各个点学习特征，这样很好的保留了点云的空间几何信息。但由于点云与点云之间存在不规则的间隙，导致点云信息的处理更困难，也使点云信息中缺少像基于投影方法那样精细的纹理信息，影响了预测结果的准确性。

将点云数据和贴图数据结合共同分析，使两者信息形成互补，是提高人脸预测精度的有效方式。在相关文献中，基于多模态的物体检测方法可分为早期融合，深度融合和晚期融合方法。早期融合直接组合原始数据来创建新型数据，再将原始数据发送到检测框架，并需要每种类型传感器数据之间的像素级对应；晚期融合首先分别对每种类型的数据执行检测，然后将检测结果融合到边界框级别。与上述两种方法不同，基于深度融合的方法通常用不同类型的深度神经网络提取特征，然后在特征级别进行融合。

本公开所提出的基于多模态融合的人脸预测方法属于深度融合方法，是一种简单而直观的顺序融合。将输入的人脸信息图像同时划分为点云坐标和纹理图像，并进行特征提取，选择了以Transformer的自注意力方式对两种模态进行融合，并将融合所得特征向量输入已训练的多层感知机得到预测结果。基于多模态融合的人脸预测方法通过将贴图和点云两种模态融合，有效弥补了单模态信息的遗失，使两种模态的优势得到融合。

以下结合附图来详细说明本公开的实施例。

本公开提供了一种基于多模态融合的人脸预测方法，参考图1，具体包括以下步骤：

步骤S101、获取带有纹理的3D人脸信息数据。所述3D人脸信息数据的获取可以通过相机现场拍摄，也可以使用预先提供的图像信息。

步骤S102、将所述3D人脸信息数据划分为点云坐标和纹理图像；将所述点云坐标输入到分层点云编码器，输出多组几何特征向量，将所述纹理图像输入到分层纹理图像编码器，输出多组纹理特征向量；将所述几何特征向量与所述纹理特征向量进行平衡处理后两两拼接，得到多个无序词向量。

在本实施例中，点云坐标是基于点的方法，得到的某个坐标系下点的数据集，其包含了丰富的信息，包括三维坐标和颜色。但点云的无序和不规则分布使得它比纹理图像的规则网格更难处理，因为缺少纹理也会导致在语义分析方面的困难。纹理图像是基于投影方法得到的投影图片，其包含了精细的纹理信息，但不如点云坐标的表达方式简单，且缺少了点云所含有的空间几何信息。所述分层点云编码器和所述分层纹理图像编码器被命名为多尺度特征编码器。为了平衡得到的所述几何特征向量和所述纹理特征向量的权重，输入的3D人脸信息数据可以通过所述分层点云编码器和所述分层纹理图像编码器获取多个层次的几何特征向量和纹理特征向量，多尺度的两种模态的向量之间形成递进和互补的关系。

步骤S103、将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量；

在本实施例中，所述的Transformer融合模型命名为多尺度和多模态融合模块M2FM，用来解决点云方法和投影方法两种单模态模型在不同生物特征测量上的回归性能不同的技术问题，以在不同任务上利用这两种模态。

步骤S104、将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。

多层感知机 (MLP，Multilayer Perceptron)是一种前馈人工神经网络模型，多层感知机由一个输入层、一个以上的隐藏层和一个输出层构成，层与层之间为全连接。进一步地，本实施例的多层感知机包括一个隐藏层。

所述多层感知机接收多个经过Transformer模型输出的融合特征向量，并将其输入隐藏层中多个权重不同的节点，通过调整大量节点之间相互连接的关系，从而达到识别所述融合特征向量并判断类型的目的，并具有自学习和自适应的能力。进一步地，本实施例中的所述隐藏层选择Sigmoid激活函数，最后由输出层的softmax函数输出预测任务结果，在本实施例中，预测任务包括年龄、性别、身高、体重和BMI等。

多层感知机是最基础的神经网络模型，在使用之前需要先对它进行训练。所述多层感知机的训练过程如下：将大量预设的样本特征向量和其对应的标准结果迭代地输入到多层感知机，获取预设样本对应的训练结果和训练误差，判断训练误差是否大于预设误差；若大于所述预设误差，则将所述训练误差反向传播至多层感知机模型，结合梯度下降的方式去调节其网络参数；若不大于所述预设误差，则停止迭代输入，此多层感知机的训练结束。经过多次前向传播和反向传播，最终所述多层感知机能够完成针对不同预测任务的分类输出。

在一些实施例中，所述分层点云编码器为PointNet++、PointWeb或PointConv；所述分层纹理图像编码器为VGG、GoogleNet或Resnet。进一步地，本实施例中选择基于PointNet设计的PointNet++作为分层点云编码器，Resnet作为分层纹理图像编码器。PointNet++用于无序点集输入，通过由采样、分组和PointNet主干组成的多个集合抽象层增强了局部点集特征提取能力，并保持输入排列不变；ResNet是用多个残差块构建的网络架构，用于解决梯度消失问题，通过向量卷积运算、批标准化和ReLU函数，有效地优化神经网络。

在一些实施例中，采用RoiAlign方法对所述几何特征向量和所述纹理特征向量进行整形。RoiAlign作为一种Mask R-CNN中引入区域池化方法，使用双线性内插的方法，获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作。RoiAlign将纹理图像特征图区域池化为更小的空间尺寸，并将其重塑为与点云近乎相同的尺寸大小，最终达到平衡点云特征向量和纹理特征向量两种模态的目的。

在一些实施例中，所述预先构建的Transformer融合模型包括Transformer层、1x1卷积层和一维平均池化层，将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量，包括：

其中，所述1x1卷积层和一维平均池化层对所述Transformer层输出的中间向量进行进一步调整和加工，所述中间向量经过卷积池化的过程进一步融合提取需要的特征，并将所述中间向量整形为需要的尺度大小，最终得到所述的融合特征向量。

在一些实施例中，参考图3所述Transformer层按照输入顺序依次包括特征类型嵌入层、一个多头自注意力机制和一个多层感知机，所述多头自注意力机制和所述多层感知机之前分别各设置一个层范数LayerNorm和一个残差层，对上一层输出的激活值做归一化（normalize），在一定程度上避免梯度消失问题，使得信息前后向传播更加顺畅，保护信息的完整性。

本公开涉及的所述Transformer层与常见Transformer层相比，添加了两种特征类型嵌入来识别输入模态，因为特征是无序的，因此去除了位置嵌入。特征向量经过特征嵌入层的识别，再经过多头自注意力机制对两种模态的权重进行自主学习，最后经过多层感知机输出到输出模块。

在一些实施例中，一个所述多层感知机对应一个预测任务，响应于确定存在多个所述预测任务，将多个所述融合特征向量分别输入至多个所述多层感知机中，经由多个所述多层感知机输出对应不同所述预测任务的所述预测结果。

在一些实施例中，所述多层感知机通过最小化多任务预测损失函数进行所述预训练，所述多任务预测损失函数具体为

其中，n是任务数，L_j是第j个任务的均方误差，L是所有任务的均方差求和，j的取值范围是1~n。

其中，所述的均方误差L_j（Mean Square Error,MSE）是回归损失函数中最常用的误差，它是预测值f(x)与目标值y之间差值平方和的均值，所述均方误差L_j的具体函数为：

其中, f(x)是预测值, y是目标值，n是任务总数。

其优点是函数曲线光滑、连续，处处可导，便于使用梯度下降算法，随着误差的减小，梯度也在减小，这有利于收敛，即使使用固定的学习速率，也能较快的收敛到最小值。所述多任务预测损失函数可以捕捉不同任务之间的相关性，提高模型的鲁棒性。

下面结合图2、图3、图4a和图4b，对基于多模态融合的人脸预测方法的具体实施步骤进行说明。

获取带有纹理的3D人脸信息数据，参考图4a，将点云坐标输入到分层点云编码器PointNet++，PointNet++的四个点集提取模块（Set Abstraction）同时进行提取得到四个层次的点云特征向量；参考图4b，将纹理输入到分层纹理图像编码器Resnet，Resnet的四个残差模块（Residual Block）同时进行提取得到四个层次的纹理特征向量。

以其中一个层次为例，将所述几何特征向量

和纹理特征向量

组成的无序词向量输入至如图2所示的Transformer模型，首先将二者通过RoiAlign方法整形为相同的尺寸大小，将整形后的两种特征向量拼接为一个无序词向量，输入如图3所示的 Transformer层。

所述无序词向量经过所述Transformer层中的特征类型嵌入层来识别输入模态，然后通过多头自注意力和多层感知机对点云坐标和纹理图像两种模态的权重进行自主学习，所述多头自注意力机制和所述多层感知机之前分别各设置一个层范数LayerNorm和一个残差层，所述层范数LayerNorm和一个残差层统一命名为Add&Norm层。经过上述步骤输出中间向量到1x1卷积层和一维平均池化层进行进一步的加工得到融合特征向量

，将多个融合特征向量

拼接得到的最终融合特征向量如下：

其中，

是得到的单个融合特征向量，

是拼接得到的最终融合特征向量。

需要说明的是，在一些实施例中，所述多层感知机的隐藏层数目可以为一层或多层，所述隐藏层的数目和节点个数依据任务场景的不同而有所改变、所述隐藏层的激活函数包括但不限于Sigmoid函数、tanh函数；在一些实施例中，所述分层点云编码器和分层纹理图像编码器的模块数目依据实际情况设定，且所述分层点云编码器和分层纹理图像编码器可以为任一预设的点云网络和图像神经网络。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种基于多模态融合的人脸预测装置。

参考图5，所述基于多模态融合的人脸预测装置，包括：

输入模块501，被配置为获取带有纹理的3D人脸信息数据；

特征提取模块502，被配置为将所述3D人脸信息数据划分为点云坐标和纹理图像；

融合模块503，被配置为将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量；

输出模块504，被配置为将多个所述融合特征向量输入至经过预训练的多层感知机进行预测，输出与所述3D人脸信息数据对应的预测结果。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述任一实施例中相应的基于多模态融合的人脸预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于多模态融合的人脸预测方法。

图6示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU（Central Processing Unit，中央处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线1050包括一通路，在设备的各个组件（例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于多模态融合的人脸预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于多模态融合的人脸预测方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存（PRAM）、静态随机存取存储器（SRAM）、动态随机存取存储器（DRAM）、其他类型的随机存取存储器（RAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、快闪记忆体或其他内存技术、只读光盘只读存储器（CD-ROM）、数字多功能光盘（DVD）或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于多模态融合的人脸预测方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路（IC）芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的（即，这些细节应当完全处于本领域技术人员的理解范围内）。在阐述了具体细节（例如，电路）以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构（例如，动态RAM（DRAM））可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于多模态融合的人脸预测方法，包括：

获取带有纹理的3D人脸信息数据；

将所述3D人脸信息数据划分为点云坐标和纹理图像；

2.根据权利要求1所述的方法，其中，

所述分层点云编码器为PointNet++、PointWeb或PointConv；

所述分层纹理图像编码器为VGG、GoogleNet或Resnet。

3.根据权利要求1所述的方法，其中，所述平衡处理包括：

采用RoiAlign方法对所述几何特征向量和所述纹理特征向量进行整形。

4.根据权利要求1所述的方法，其中，所述Transformer融合模型包括Transformer层、1x1卷积层和一维平均池化层，将多个所述无序词向量分别输入到多个预先构建的Transformer融合模型进行融合，得到多个融合特征向量，包括：

5.根据权利要求4所述的方法，其中，所述Transformer层按照输入顺序依次包括特征类型嵌入层、一个多头自注意力机制和一个多层感知机，所述多头自注意力机制和所述多层感知机之前分别各设置一个层范数LayerNorm和一个残差层。

6.根据权利要求1所述的方法，其中，一个所述多层感知机对应一个预测任务，

响应于确定存在多个所述预测任务，将多个所述融合特征向量分别输入至多个所述多层感知机中，经由多个所述多层感知机输出对应不同所述预测任务的所述预测结果。

7.根据权利要求6所述的方法，其中，所述多层感知机通过最小化多任务预测损失函数进行所述预训练，所述多任务预测损失函数具体为

8.一种基于多模态融合的人脸预测装置，包括：

输入模块，被配置为获取带有纹理的3D人脸信息数据；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。

10.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至7任一所述方法。