CN113628326A

CN113628326A - 多视角三维重建方法、装置、电子设备和可读存储介质

Info

Publication number: CN113628326A
Application number: CN202110915249.5A
Authority: CN
Inventors: 芦爱余; 李志文
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-08-10
Filing date: 2021-08-10
Publication date: 2021-11-09

Abstract

本申请提供一种多视角三维重建方法、装置、电子设备和可读存储介质，在获得多组分别包含多张同一时刻从不同视角采集的训练图像的训练样本后，将各训练图像与预设的拓扑人脸模型进行拟合，根据拟合参数以及拓扑人脸模型，得到各训练图像的样本标签，利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型。该方案采用的各训练样本为同一时刻的多张训练图像，可保障人脸表情的一致性，可从人脸形状和人脸表情方面实现模型的优化，且训练图像的样本标签基于拟合拓扑人脸模型得到，样本标签具有规范、精准的效果，进而提升模型的训练效果。

Description

多视角三维重建方法、装置、电子设备和可读存储介质

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种多视角三维重建方法、装置、电子设备和可读存储介质。

背景技术

目前，在很多应用场景下需要进行人脸的三维重建，例如在直播应用场景下，可以基于主播的图像进行人脸三维重建，以应用到对于数字人、换脸、AI三维动效等的控制应用中。

现有技术中，在进行人脸三维重建时，有采用采集多张不同时刻的人脸图像进行重建模型的约束和优化的方案。但是这种方式中，由于人脸表情不断变化，虽然依据不同视角人脸图像进行模型优化，但是只能从人脸形状方面达到优化效果，对于人脸表情方面的优化效果很差。并且，用于模型训练的人脸图像的标签基于手动标注，这种方式存在标签信息不准确、不规范的问题。

发明内容

本申请的目的包括，例如，提供了一种多视角三维重建方法、装置、电子设备和可读存储介质，其能够从人脸形状和人脸表情方面实现准确地三维重建。

本申请的实施例可以这样实现：

第一方面，本申请提供一种多视角三维重建方法，所述方法包括：

获取多组训练样本，每组训练样本包括多张同一时刻从不同视角采集的训练图像；

针对各组训练样本，将各所述训练图像与预设的拓扑人脸模型进行拟合，根据拟合参数以及拓扑人脸模型，得到各所述训练图像的样本标签；

在可选的实施方式中，每组训练样本包括的多张训练图像划分为第一视角训练图像和第二视角训练图像，所述神经网络模型包括第一分支模型和第二分支模型；

所述利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型的步骤，包括：

利用携带样本标签的第一视角训练图像对第一分支模型进行训练，直至满足预设要求时得到目标第一分支模型；

基于所述目标第一分支模型，并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练，直至满足预设要求时得到目标第二分支模型。

在可选的实施方式中，所述基于所述目标第一分支模型，并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练，直至满足预设要求时得到目标第二分支模型的步骤，包括：

将所述第一视角训练图像和第二视角训练图像分别导入所述目标第一分支模型和第二分支模型；

利用所述目标第一分支模型得到所述第一视角训练图像的中间特征信息；

结合所述第一视角训练图像的中间特征信息和所述第二视角训练图像对所述第二分支模型进行训练，直至满足预设要求时得到目标第二分支模型。

在可选的实施方式中，所述利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型的步骤，包括：

将各组训练样本导入构建的神经网络模型进行处理，输出各所述训练样本的输出系数；

根据所述输出系数、拓扑人脸模型和样本标签，计算得到损失函数值；

调整所述神经网络模型的模型参数后继续训练，直至所述损失函数值满足预设要求时停止训练，得到三维重建模型。

在可选的实施方式中，所述根据所述输出系数、拓扑人脸模型和样本标签，计算得到损失函数值的步骤，包括：

基于所述输出系数和拓扑人脸模型构建预测项，将所述训练样本携带的样本标签作为标签项；

基于所述预测项和标签项构建损失函数，计算得到损失函数值。

在可选的实施方式中，所述拓扑人脸模型包括拓扑平均脸模型、拓扑人脸形状模型以及拓扑人脸表情模型，所述输出系数包括人脸形状系数、人脸表情系数和仿射变换矩阵；

所述基于所述输出系数和所述拓扑人脸模型构建预测项的步骤，包括：

将所述拓扑平均脸模型、携带人脸形状系数的拓扑人脸形状模型、携带人脸表情系数的拓扑人脸表情模型叠加，得到叠加项；

利用所述叠加项乘以所述仿射变换矩阵，以构建得到预测项。

在可选的实施方式中，所述将各所述训练图像与预设的拓扑人脸模型进行拟合的步骤，包括：

提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点；

对所述训练图像包含的训练人脸提取与各所述核心点对应的关键点；

基于多个关键点和多个核心点，进行所述训练人脸和所述拓扑人脸的拟合。

在可选的实施方式中，所述方法还包括：

获取待重建图像，所述待重建图像包含多张同一时刻从不同视角拍摄的目标对象的人脸图像；

将多张人脸图像导入所述三维重建模型进行处理，输出所述目标对象的人脸三维重建信息。

在可选的实施方式中，所述多张人脸图像包括第一视角人脸图像和第二视角人脸图像，所述三维重建模型包括第一重建模型和第二重建模型；

所述将多张人脸图像导入所述三维重建模型进行处理，输出所述目标对象的人脸三维重建信息的步骤，包括：

将所述第一视角人脸图像和第二视角人脸图像分别导入所述第一重建模型和第二重建模型；

利用所述第一重建模型得到所述第一视角人脸图像对应的第一视角特征信息；

利用所述第二重建模型，并基于所述第一视角特征信息和所述第二视角人脸图像，输出所述目标对象的与所述第二视角人脸图像对应的人脸三维重建信息。

第二方面，本申请提供一种多视角三维重建装置，所述装置包括：

获取模块，用于获取多组训练样本，每组训练样本包括多张同一时刻从不同视角采集的训练图像；

拟合模块，用于针对各组训练样本，将各所述训练图像与预设的拓扑人脸模型进行拟合，根据拟合参数以及拓扑人脸模型，得到各所述训练图像的样本标签；

训练模块，用于利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型。

第三方面，本申请提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行前述实施方式中任意一项所述的方法步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现前述实施方式中任意一项所述的方法步骤。

本申请实施例的有益效果包括，例如：

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的多视角三维重建方法的应用场景示意图；

图2为本申请实施例提供的多视角三维重建方法的流程图；

图3为图2中步骤S120包含的子步骤的流程图；

图4为本申请实施例提供的拓扑人脸模型中核心点提取的示意图；

图5为图2中步骤S130包含的子步骤的流程图；

图6为图5中步骤S132包含的子步骤的流程图；

图7为本申请实施例提供的神经网络模型的结构示意图；

图8为图2中步骤S130包含的子步骤的另一流程图；

图9为图8中步骤S134包含的子步骤的流程图；

图10为本申请实施例提供的多视角三维重建方法的另一流程图；

图11为图10中步骤S220包含的子步骤的流程图；

图12为本申请实施例提供的三维重建模型的结构示意图；

图13为本申请实施例提供的三维重建信息还原后的三维特征点的示意图；

图14为本申请实施例提供的电子设备的结构框图；

图15为本申请实施例提供的多视角三维重建装置的功能模块框图。

图标：100-电子设备；110-存储介质；120-处理器；130-多视角三维重建装置；131-获取模块；132-拟合模块；133-训练模块；140-通信接口；200-图像采集设备。

具体实施方式

在很多应用场景下，例如直播应用场景中，会有表情驱动、虚拟数字人、虚拟三维特效、avater等应用控制需求。在这些应用场景中，对于控制的真实度和精度均有较高的要求。因此，如何重建出高精度的三维人脸模型，且保证一定的实时性，十分重要。

在三维重建的实现方案中，所借助的采集设备可以包括例如深度摄像头、普通摄像头等。基于深度摄像头可以获取深度信息，基于点云重建即可获取很好的重建效果。但是这种方案对于设备要求较高，深度摄像头成本高，且深度摄像头的彩色摄像头一般精度较低，不利于做纹理重建。因此，基于普通摄像头相对于基于深度摄像头的方案而言，具有更容易实施等优点。

其中，普通摄像头中包括高精度的单反摄像头和普通的相机。普通相机相对于高精度的单反摄像头而言，会更加方便实施，且能满足一定的业务场景要求，例如高精度表情驱动、高精度人脸纹理获取等。

而现有技术中基于普通相机实现人脸三维重建的方案中，主要是通过采集的多张图像进行模型优化和重建。这种方案中，一般是利用多张图像优化人脸形状，即对外形做一定优化，但是由于多张图像可能采集自不同时刻，人脸表情并不一致、光照等也不统一，在重建时在人脸表情方面效果很差，精度大受影响。

基于上述研究发现，本申请实施例提供一种多视角三维重建方法，可以采用的多组分别包含多张同一时刻从不同视角采集的训练图像的训练样本，训练得到三维重建模型，可保障人脸表情的一致性，可从人脸形状和人脸表情方面实现模型的优化，且训练图像的样本标签基于拟合拓扑人脸模型得到，样本标签具有规范、精准的效果，进而提升模型的训练效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

需要说明的是，在不冲突的情况下，本申请的实施例中的特征可以相互结合。

请参阅图1，为本申请实施例提供的多视角三维重建方法的应用场景示意图，该应用场景中包含电子设备100以及与电子设备100通信连接的多个图像采集设备200。其中，电子设备100可以是服务器或者终端设备。多个图像采集设备200中可包括用于采集二维图像的设备，如照相机。

本实施例中，各个图像采集设备200可将采集的图像信息或视频信息发送至电子设备100，通过电子设备100对接收到的图像信息或视频信息进行分析处理，得到可用于实现人脸三维重建的信息。

结合图2，本申请实施例还提供一种可应用于电子设备100的多视角三维重建方法，以实现三维重建模型的优化和人脸三维重建，该电子设备100可以为服务器或终端设备，例如直播应用场景下的直播服务器、直播提供终端等。该多视角三维重建方法有关的流程所定义的方法步骤可以由所述电子设备100实现。下面将对图2所示的具体流程进行详细阐述。

步骤S110，获取多组训练样本，每组训练样本包括多张同一时刻从不同视角采集的训练图像。

步骤S120，针对各组训练样本，将各所述训练图像与预设的拓扑人脸模型进行拟合，根据拟合参数以及拓扑人脸模型，得到各所述训练图像的样本标签。

步骤S130，利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型。

本实施例中，在模型训练阶段，首先可采集获得训练样本。可以将多个图像采集设备200以不同视角对准目标人脸进行采集，所谓的目标人脸可以是任意的作为模特的人脸，本实施例并不作限制。为了丰富样本的多样性，可以采集多个不同的目标人脸，以及目标人脸处于不同的表情状态的图像作为样本。

利用多个图像采集设备200在同一时刻以不同视角采集多张训练图像，该多张训练图像可作为一组训练样本。该多张训练图像在视角上可不作强要求，但是在时刻上做强要求，也即，该多张训练图像需要是同一时刻所采集的。

对于各组训练样本中的多张训练图像，由于在应用中一般会以中间视角对例如数字人、AI模型等进行驱动，因此，多张训练图像中一般会包含从中间视角采集的训练图像。此外，一般还包括从左侧视角、右侧视角等视角采集的训练图像。从而一则可以基于多个不同视角的训练图像得到较为全面的三维信息，准确构建三维重建信息，此外，保障可以得到中间视角的三维重建信息，以便于后续的驱动应用。

由图像采集设备200仅能采集到训练图像，若要实现对模型的训练，需要对训练图像进行标签标识。现有方式中，一般是采用人工标注的方式得到样本的标签，这种方式存在不规范且不准确的问题。

基于此，本实施例中，采用了拓扑人脸模型(BFM)，BFM拓扑人脸模型是一种人脸三维表达的模型，这个模型是通过采集的N个人的三维人脸模型，通过PCA(PrincipalComponent Analysis，主成分分析)解耦得到。该拓扑人脸模型可以理解为一个标准的人脸模型，任何一个人的人脸都可以通过一定调整从而与拓扑人脸模型对应。

因此，本实施例中，将采集的任意的训练图像与预设的拓扑人脸模型进行拟合，以标准的拓扑人脸模型作为标准，通过拟合参数以及拓扑人脸模型，得到训练样本的样本标签。也就是说，训练图像的样本标签可以基于标准化的拓扑人脸模型拟合后来表征，如此，以统一的标准化的拓扑人脸模型作为准则，保障得到的训练图像的样本标签的规范性和准确性。

本实施例中，训练图像的样本标签可以包括训练图像中人脸的形状系数、表情系数以及训练图像在对应视角下的仿射变换矩阵等。

利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，从而得到三维重建模型。如此，由于采用的各训练样本为同一时刻的多张训练图像，可保障人脸表情的一致性，可从人脸形状和人脸表情方面实现模型的优化，且训练图像的样本标签基于拟合拓扑人脸模型得到，样本标签具有规范、精准的优点，进而提升模型的训练效果。

请参阅图3，本实施例中，在将训练图像和拓扑人脸模型进行拟合时，可以通过以下方式实现：

步骤S121，提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点。

步骤S122，对所述训练图像包含的训练人脸提取与各所述核心点对应的关键点。

步骤S123，基于多个关键点和多个核心点，进行所述训练人脸和所述拓扑人脸的拟合。

人脸一般可包含多个特征点，而人脸特征可以由其中的多个关键特征点来主要表征。因此，本实施例中，在保障拟合精度的情况下，为了降低信息处理量，可以通过提取人脸上部分特征点进行拟合处理。

请结合参阅图4，其中，图4中密集点构成的人脸可以表征拓扑人脸模型中的拓扑人脸，其中，标记出的多个对应脸部五官和轮廓的点可为核心点。

本实施例中，对于每个人脸上的特征点均按相同的索引方式进行标号，因此，在提取出拓扑人脸上的多个核心点后，可以根据各个核心点的索引标号，获得训练图像中训练人脸上对应的关键点。

再基于拓扑人脸上的核心点和训练人脸上的关键点，进行训练人脸和拓扑人脸的拟合。

本实施例中，采用人脸上的部分特征点进行拟合的方式，实现基于拓扑人脸模型的系数得到样本标签的目的。

本实施例中，每组训练样本包含多张训练图像，多张训练图像可划分为第一视角训练图像和第二视角训练图像。第一视角训练图像和第二视角训练图像均可以包含多个不同视角下的训练图像，也即，第一视角和第二视角可以包含多个视角，而不限于一个视角。例如，第一视角训练图像可以包括左侧视角下的训练图像和右侧视角下的训练图像，第二视角训练图像可以是中间视角下的训练图像。

相应地，构建的神经网络模型可包括第一分支模型和第二分支模型，其中，第一分支模型可与第一视角训练图像对应、第二分支模型可与第二视角训练图像对应。在第一视角训练图像包含左侧视角训练图像和右侧视角训练图像时，第一分支模型包括与左侧视角训练图像对应的左侧第一分支模型、以及与右侧视角训练图像对应的右侧第一分支模型。若第二视角训练图像为中间视角训练图像，则第二分支模型为对应中间视角训练图像的分支模型。

在人脸三维重建中，一般需要尽可能保障中间视角下的三维重建信息的准确性，而侧面视角的人脸图像可以提供侧脸信息，用于补全正脸学习不到的特征。但是，在传统方式中，往往是将侧面视角的人脸图像和中间视角的人脸图像一并导入到模型进行学习训练，这种方式中由于侧面视角的学习训练也是从初始状态开始，学习效果还未达到良好状态，对于中间视角的人脸图像的特征弥补帮助不大，并且容易造成特征冗余、影响训练效率的问题。

基于此，请参阅图5，本实施例中，在对神经网络模型进行训练的过程中，通过以下方式实现：

步骤S131，利用携带样本标签的第一视角训练图像对第一分支模型进行训练，直至满足预设要求时得到目标第一分支模型。

步骤S132，基于所述目标第一分支模型，并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练，直至满足预设要求时得到目标第二分支模型。

本实施例中，可根据需求对第二视角训练图像以及第二分支模型进行设置，第二视角可以是最终所需的进行后续驱动的目标视角，例如若后续驱动所需视角为中间视角，则第二视角可为中间视角，若后续驱动所需视角为左侧视角，则第二视角可为左侧视角。而往往在进行如数字人、AI模型的驱动中，一般采用的视角为中间视角，因此，本实施例中，第二视角训练图像可为中间视角的图像，而第一视角训练图像则可以是其他的侧面视角的图像，例如左侧视角和右侧视角的图像。

可以先利用携带样本标签的第一视角训练图像对第一分支模型进行训练，在将第一分支模型训练到满足预设要求的情况下，将第一分支模型初步固定下来，即得到目标第一分支模型。其中，第一分支模型可采用，但不限于MobilenetV3的轻量级网络模型。所述的预设要求可以是训练达到收敛、训练迭代次数达到最大设定次数或者是训练时长达到设定最大时长等不限。

在得到满足一定要求的目标第一分支模型后，再基于目标第一分支模型，并结合第一视角训练图像、第二视角训练图像对第二分支模型进行训练，直到满足预设要求得到目标第二分支模型。

由于目标第一分支模型已经预先进行训练，基于目标第一分支模型提取的特征精准度更高。再结合第一视角训练图像的精准度更高的特征以补全第二视角训练图像学习不到的特征信息，从而可以进一步地提高得到的目标第二分支模型的准确性。

本实施例中，相比多个视角图像对应的分支模型都从初始状态同步开始训练的方式而言，虽然同步训练最终也能收敛且损失函数较小，但是采用上述方式可以避免同时重头训练所存在的特征冗余、容易陷入局部最优等缺陷。

详细地，请参阅图6，本实施例中，在对第二分支模型进行训练时，可以通过以下方式实现：

步骤S1321，将所述第一视角训练图像和第二视角训练图像分别导入所述目标第一分支模型和第二分支模型。

步骤S1322，利用所述目标第一分支模型得到所述第一视角训练图像的中间特征信息。

步骤S1323，结合所述第一视角训练图像的中间特征信息和所述第二视角训练图像对所述第二分支模型进行训练，直至满足预设要求时得到目标第二分支模型。

在对第一分支模型进行训练时，是基于第一视角训练图像的样本标签和第一分支模型的输出来多次调整第一分支模型达到模型优化的目的。而第一分支模型的中间网络层可以得到第一视角训练图像的中间特征信息，中间特征信息再经由第一分支模型后续的网络层处理并得到最终的输出。

在进行第二分支模型的训练时，所需的第一视角训练图像的信息则为目标第一分支模型的中间网络层所得到的第一视角训练图像的中间特征信息。

将第二视角训练图像导入到第二分支模型，经由第二分支模型的中间网络层处理后，可得到第二视角训练图像的中间特征信息。结合由目标第一分支模型得到的第一视角训练图像的中间特征信息，以及第二视角训练图像的中间特征信息，再经由第二分支模型的后续网络层的处理后得到第二分支模型的模型输出。基于第二分支模型的模型输出以及第二视角训练图像的样本标签，对第二分支模型进行多次训练，在满足预设要求时，得到目标第二分支模型。

本实施例中，结合第一视角训练图像的中间特征信息和第二视角训练图像对第二分支模型进行训练，可以利用第一视角下的特征信息补全第二视角的特征学习，使得训练得到的第二分支模型学习到的特征更全面、更精准。并且，通过先将第一分支模型训练为满足预设要求的目标第一分支模型后，再利用目标第一分支模型得到的中间特征信息用到第二分支模型的训练中，可以避免特征信息的冗余、避免训练陷入局部最优，进一步地提高模型训练的精准度。

请结合参阅图7，本实施例中，以第一分支模型包括左侧第一分支模型和右侧第一分支模型、第二分支模型为中间视角的模型为例进行说明。其中，各个分支模型可包括多层FC(全连接)层，其中，各个FC层的维度可为240维，包括用于回归人脸形状系数的199维，用于回归表情系数的29维，以及用于回归仿射变换矩阵的12维。

可先单独训练图7中的左侧分支模型和右侧分支模型，在左侧分支模型和右侧分支模型训练达到预设要求后，左侧分支模型和右侧分支模型最后一个FC层获取到的特征就是有实际特征意义的特征信息，可以帮助中间视角图像更快、更好的回归。

在中间视角的分支模型进行训练时，同样将左侧视角训练图像导入左侧分支模型、右侧视角训练图像导入右侧分支模型，并将中间视角训练图像导入中间分支模型。左侧视角训练图像和右侧视角训练图像，在经由FC_左2和FC_右2层后得到中间特征信息，中间视角训练图像在经由FC_中2层后得到中间特征信息。将FC_左2和FC_右2层的中间特征信息与FC_中2的中间特征信息相结合，并共同通过FC_中3层的处理之后，得到中间分支模型的输出。利用中间视角训练图像的样本标签和中间分支模型的输出调整模型参数并多次训练，直到得到满足要求的中间分支模型。

请参阅图8，本实施例中，针对上述任意一个分支模型，在分支模型内部进行训练时，其训练的具体过程可以通过以下方式实现：

步骤S133，将各组训练样本导入构建的神经网络模型进行处理，输出各所述训练样本的输出系数。

步骤S134，根据所述输出系数、拓扑人脸模型和样本标签，计算得到损失函数值。

步骤S135，调整所述神经网络模型的模型参数后继续训练，直至所述损失函数值满足预设要求时停止训练，得到三维重建模型。

在模型的训练过程中，损失函数的设置对模型训练效果也起到十分重要的作用。本实施例中，各组训练样本的样本标签是经由与拓扑人脸模型进行拟合得到。在神经网络模型对导入的训练样本进行特征提取、特征抽象化等处理后，最终可输出相应的输出系数。将通过真实标签与模型输出的差异化来实现模型的优化，则同样地，需要将模型的输出系数结合到拓扑人脸模型，从而统一真实标签与输出之间的标准。

因此，请参阅图9，本实施例中，损失函数值的计算可以通过以下方式实现：

步骤S1341，基于所述输出系数和拓扑人脸模型构建预测项，将所述训练样本携带的样本标签作为标签项。

步骤S1342，基于所述预测项和标签项构建损失函数，计算得到损失函数值。

在本实施例中，针对每一个分支模型，各个分支模型均可以对导入的训练样本进行处理，因此，各个分支模型内部的训练处理逻辑相同。可以基于模型的输出系数、拓扑人脸模型和训练样本的样本标签构建损失函数。基于输出系数和拓扑人脸模型作为模型的预测项，而训练样本的样本标签作为标签项。损失函数则可表征预测项和标签项之间的差异。

对模型的训练过程则为最小化损失函数的过程，在多次迭代训练中，可调整神经网络模型的模型参数并以最小化损失函数的方向进行训练，直到满足预设要求时停止训练，得到三维重建模型。

本实施例中，拓扑人脸模型可通过PCA解耦出拓扑平均脸模型、拓扑人脸形状模型和拓扑人脸表情模型。任何一个人的三维人脸，都可以通过在拓扑平均脸模型的基础上，调整人脸形状和人脸表情系数，来达到像目标人脸的功能。而神经网络模型的输出系数可包括人脸形状系数、人脸表情系数和仿射变换矩阵。

本实施例中，将拓扑平均脸模型、携带人脸形状系数的拓扑人脸形状模型、携带人脸表情系数的拓扑人脸表情模型叠加，得到叠加项，再利用叠加项乘以仿射变换矩阵，以构建得到预测项。

可选地，构建的损失函数可为如下：

其中，predict表示预测项，label表示标签项。

预测项的具体构成可如下所示：

{(bfm_mean+shape_predict*shape_std+exp_predict*exp_std)*affine_matrix}_{pts_index}

其中，bfm_mean表示拓扑平均人脸模型，shape_std表示拓扑人脸形状模型，exp_std表示拓扑人脸表情模型，shape_predict、exp_predict分别表示模型输出的人脸形状系数和人脸表情系数，affine_matrix表示仿射变换矩阵。pts_index表示从拓扑人脸模型中的提取出的核心点索引信息。

标签项具体构成可如下：

mesh_{pts_index}*affine_{matrix_label}

其中，affine_{matrix_label}表示训练图像的样本标签中的仿射变换矩阵，mesh_{pts_index}表示训练图像中的关键点的索引信息。对于上述的多个分支模型而言，每个分支模型的mesh_{pts_index}是相同的，不同点在于affine_{matrix_label}，因为一个人脸在不同视角的体现只是投影的矩阵方向不同而已。

神经网络模型中各个分支模型内部分别按照上述的损失函数进行迭代训练，训练得到满足预设要求的三维重建模型。

以上过程为利用训练样本训练得到三维重建模型的过程，本实施例中，采用同一时刻从不同视角采集的多张训练图像作为一组训练样本，以训练得到三维重建模型，可保障一组训练样本中训练图像的人脸表情的一致性，可从人脸形状和人脸表情方面实现模型的优化。

并且，训练图像的样本标签基于拟合拓扑人脸模型得到，样本标签具有规范、精准的效果，可提升模型的训练效果。

进一步地，采用的神经网络模型包括多个分支模型，通过先将辅助视角对应的分支模型训练到满足一定要求的情况下，再结合满足要求的分支模型得到辅助视角下的中间特征信息、以及目标视角(如中间视角)下的训练图像，对目标视角对应的分支模型进行训练，可避免训练陷入局部最优、提升目标视角下的分支模型的优化效果。

本实施例中，各个分支模型不共用编码器，而是分别让不同分支网络主攻学习各个视角下的训练图像，然后再在最后共享参数的方式，可实现更优的重建效果。

上述得到的三维重建模型可以用于在实际应用场景下的人脸三维重建信息的获取，从而基于获取的三维重建信息以驱动如直播应用场景下的数字人、AI模型等。

请参阅图10，本实施例中，可以通过以下方式实现人脸三维重建信息的获取：

步骤S210，获取待重建图像，所述待重建图像包含多张同一时刻从不同视角拍摄的目标对象的人脸图像。

步骤S220，将多张人脸图像导入所述三维重建模型进行处理，输出所述目标对象的人脸三维重建信息。

本实施例中，待重建图像可以是例如直播场景下获得的主播的人脸图像。同样地，待重建图像包括多张同一时刻从不同视角采集的人脸图像。利用上述获得的三维重建模型对待重建图像进行处理，得到的人脸三维重建信息可以包括如人脸形状系数、人脸表情系数和仿射变换矩阵。

基于获得人脸三维重建信息可还原出目标对象的人脸三维特征点，从而基于人脸三维特征点构建人脸三维模型，进而基于人脸三维模型对所需驱动的数字人等进行驱动。

本实施例中，三维重建模型由构建的神经网络模型训练得到，同样地包含多个分支模型。待重建图像包含的多张人脸图像中包括第一视角人脸图像和第二视角人脸图像，三维重建模型包括第一重建模型和第二重建模型。可选地，请参阅图11，可以通过以下方式获得人脸三维重建信息：

步骤S221，将所述第一视角人脸图像和第二视角人脸图像分别导入所述第一重建模型和第二重建模型。

步骤S222，利用所述第一重建模型得到所述第一视角人脸图像对应的第一视角特征信息。

步骤S223，利用所述第二重建模型，并基于所述第一视角特征信息和所述第二视角人脸图像，输出所述目标对象的与所述第二视角人脸图像对应的人脸三维重建信息。

以第二视角人脸图像为目标视角下的图像为例，如中间视角下的人脸图像。则第一视角人脸图像可为辅助视角下的图像，如左侧视角和右侧视角下的人脸图像。三维重建模型为神经网络模型的一部分，详细地，如图12中所示，三维重建模型中的第一重建模型相比神经网络模型中的第一分支模型而言，可缺少最后一层FC层。而第二重建模型与神经网络模型中的第二分支模型相同。

因为在实际三维重建中，最终需要获得的目标视角下的图像的三维信息，辅助视角下的图像的特征信息作为目标视角下的图像的三维信息的补充。因此，第一重建模型不需要最终的输出结果，只需得到中间的特征信息即可。

实施时，第一重建模型和第二重建模型可同步进行信息处理。如图12中所示，第一视角人脸图像在通过第一重建模型前两层FC层的处理后，得到第一视角特征信息。第二视角人脸图像在通过第二重建模型的前两层FC层的处理后，得到相应的第二视角特征信息。将第一视角特征信息和第二视角特征信息一并通过第二重建模型最后一层FC层的处理，输出第二视角人脸图像对应的人脸三维重建信息。

本实施例中，通过得到的人脸三维重建信息进行人脸三维点的还原后，得到的效果图可如图13中所示。

请参阅图14，为本申请实施例提供的电子设备100的示例性组件示意图，该电子设备100可为直播应用场景下的直播服务器或直播提供终端。该电子设备100可包括存储介质110、处理器120、多视角三维重建装置130及通信接口140。本实施例中，存储介质110与处理器120均位于电子设备100中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于电子设备100之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

多视角三维重建装置130可以理解为上述电子设备100，或电子设备100的处理器120，也可以理解为独立于上述电子设备100或处理器120之外的在电子设备100控制下实现上述多视角三维重建方法的软件功能模块。

如图15所示，上述多视角三维重建装置130可以包括获取模块131、拟合模块132和训练模块133。下面分别对该多视角三维重建装置130的各个功能模块的功能进行详细阐述。

获取模块131，用于获取多组训练样本，每组训练样本包括多张同一时刻从不同视角采集的训练图像；

可以理解，该获取模块131可以用于执行上述步骤S110，关于该获取模块131的详细实现方式可以参照上述对步骤S110有关的内容。

拟合模块132，用于针对各组训练样本，将各所述训练图像与预设的拓扑人脸模型进行拟合，根据拟合参数以及拓扑人脸模型，得到各所述训练图像的样本标签；

可以理解，该拟合模块132可以用于执行上述步骤S120，关于该拟合模块132的详细实现方式可以参照上述对步骤S120有关的内容。

训练模块133，用于利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型。

可以理解，该训练模块133可以用于执行上述步骤S130，关于该训练模块133的详细实现方式可以参照上述对步骤S130有关的内容。

在一种可能的实现方式中，每组训练样本包括的多张训练图像划分为第一视角训练图像和第二视角训练图像，所述神经网络模型包括第一分支模型和第二分支模型；上述训练模块133具体可以用于：

在一种可能的实现方式中，上述训练模块133可以用于通过以下方式训练得到目标第二分支模型：

在一种可能的实现方式中，上述训练模块133具体可以用于：

在一种可能的实现方式中，上述训练模块133可以用于通过以下方式计算得到损失函数值：

在一种可能的实现方式中，所述拓扑人脸模型包括拓扑平均脸模型、拓扑人脸形状模型以及拓扑人脸表情模型，所述输出系数包括人脸形状系数、人脸表情系数和仿射变换矩阵；上述训练模块133可以用于通过以下方式构建预测项：

在一种可能的实现方式中，上述拟合模块132具体可以用于：

提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点；

在一种可能的实现方式中，所述多视角三维重建装置130还包括重建模块，该重建模块可以用于：

在一种可能的实现方式中，所述多张人脸图像包括第一视角人脸图像和第二视角人脸图像，所述三维重建模型包括第一重建模型和第二重建模型；上述重建模块具体可以用于：

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的多视角三维重建方法。

具体地，该计算机可读存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该计算机可读存储介质上的计算机程序被运行时，能够执行上述多视角三维重建方法。关于计算机可读存储介质中的及其可执行指令被运行时，所涉及的过程，可以参照上述方法实施例中的相关说明，这里不再详述。

综上所述，本申请实施例提供的多视角三维重建方法、装置、电子设备100和可读存储介质，在获得多组分别包含多张同一时刻从不同视角采集的训练图像的训练样本后，将各训练图像与预设的拓扑人脸模型进行拟合，根据拟合参数以及拓扑人脸模型，得到各训练图像的样本标签，利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型。该方案采用的各训练样本为同一时刻的多张训练图像，可保障人脸表情的一致性，可从人脸形状和人脸表情方面实现模型的优化，且训练图像的样本标签基于拟合拓扑人脸模型得到，样本标签具有规范、精准的效果，进而提升模型的训练效果。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种多视角三维重建方法，其特征在于，所述方法包括：

利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型。

2.根据权利要求1所述的多视角三维重建方法，其特征在于，每组训练样本包括的多张训练图像划分为第一视角训练图像和第二视角训练图像，所述神经网络模型包括第一分支模型和第二分支模型；

3.根据权利要求2所述的多视角三维重建方法，其特征在于，所述基于所述目标第一分支模型，并根据所述第一视角训练图像、第二视角训练图像对第二分支模型进行训练，直至满足预设要求时得到目标第二分支模型的步骤，包括：

4.根据权利要求1所述的多视角三维重建方法，其特征在于，所述利用携带样本标签的各组训练样本对构建的神经网络模型进行训练，直至满足预设要求时得到三维重建模型的步骤，包括：

5.根据权利要求4所述的多视角三维重建方法，其特征在于，所述根据所述输出系数、拓扑人脸模型和样本标签，计算得到损失函数值的步骤，包括：

6.根据权利要求5所述的多视角三维重建方法，其特征在于，所述拓扑人脸模型包括拓扑平均脸模型、拓扑人脸形状模型以及拓扑人脸表情模型，所述输出系数包括人脸形状系数、人脸表情系数和仿射变换矩阵；

7.根据权利要求1所述的多视角三维重建方法，其特征在于，所述将各所述训练图像与预设的拓扑人脸模型进行拟合的步骤，包括：

提取预设的拓扑人脸模型包含的拓扑人脸的多个核心点；

8.根据权利要求1-7任意一项所述的多视角三维重建方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的多视角三维重建方法，其特征在于，所述多张人脸图像包括第一视角人脸图像和第二视角人脸图像，所述三维重建模型包括第一重建模型和第二重建模型；

10.一种多视角三维重建装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-9中任意一项所述的方法步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-9中任意一项所述的方法步骤。