CN117635784B

CN117635784B - 三维数字人脸部动画自动生成系统

Info

Publication number: CN117635784B
Application number: CN202311750304.5A
Authority: CN
Inventors: 王英; 蒋正浩; 李睿
Original assignee: 4u Beijing Technology Co ltd
Current assignee: 4u Beijing Technology Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-04-19
Anticipated expiration: 2043-12-19
Also published as: CN117635784A

Abstract

公开了一种三维数字人脸部动画自动生成系统。其首先获取被检测人脸的检测视频，接着，对所述检测视频进行邻帧间语义互补特征分析以得到人脸视频语义特征图，然后，对所述人脸视频语义特征图进行特征自相关关联强化处理以得到自相关强化人脸视频语义特征图，接着，对所述自相关强化人脸视频语义特征图进行人脸上下文语义关联编码以得到人脸上下文语义关联特征，最后，基于所述人脸上下文语义关联特征，生成三维数字人脸动画。这样，可以实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量，以及增强数字娱乐的体验和沉浸感。

Description

三维数字人脸部动画自动生成系统

技术领域

本申请涉及人脸动画生成领域，且更为具体地，涉及一种三维数字人脸部动画自动生成系统。

背景技术

三维数字人脸部动画生成是指通过计算机技术将真实人脸的表情和动作信息应用到三维人脸模型上，生成逼真的三维数字人脸动画。这项技术在娱乐、游戏、虚拟现实、电影制作等领域具有广泛的应用前景。

然而，传统的人脸动画生成系统通常依赖于技术人员的手工制作或者基于关键帧的技术，需要大量的人力和时间投入，同时也需要技术人员需要具备专业的动画既能。此外，传统的人脸动画生成系统也难以满足实际的高质量和逼真度的应用要求，尤其是对于复杂的表情和动作，传统系统可能无法产生自然流畅的过渡效果。

因此，期望一种三维数字人脸部动画自动生成系统。

发明内容

有鉴于此，本申请提出了一种三维数字人脸部动画自动生成系统，其可以实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量，以及增强数字娱乐的体验和沉浸感。

根据本申请的一方面，提供了一种三维数字人脸部动画自动生成系统，其包括：

视频采集模块，用于获取被检测人脸的检测视频；

视频邻帧间语义交互关联分析模块，用于对所述检测视频进行邻帧间语义互补特征分析以得到人脸视频语义特征图；

人脸视频语义特征自相关关联强化模块，用于对所述人脸视频语义特征图进行特征自相关关联强化处理以得到自相关强化人脸视频语义特征图；

人脸上下文语义关联编码模块，用于对所述自相关强化人脸视频语义特征图进行人脸上下文语义关联编码以得到人脸上下文语义关联特征；以及

三维数字人脸动画生成模块，用于基于所述人脸上下文语义关联特征，生成三维数字人脸动画。

根据本申请的实施例，其首先获取被检测人脸的检测视频，接着，对所述检测视频进行邻帧间语义互补特征分析以得到人脸视频语义特征图，然后，对所述人脸视频语义特征图进行特征自相关关联强化处理以得到自相关强化人脸视频语义特征图，接着，对所述自相关强化人脸视频语义特征图进行人脸上下文语义关联编码以得到人脸上下文语义关联特征，最后，基于所述人脸上下文语义关联特征，生成三维数字人脸动画。这样，可以实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量，以及增强数字娱乐的体验和沉浸感。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请的实施例的三维数字人脸部动画自动生成系统的框图。

图2示出根据本申请的实施例的三维数字人脸部动画自动生成系统中所述人脸上下文语义关联编码模块的框图。

图3示出根据本申请的实施例的三维数字人脸部动画自动生成系统中所述维度重构单元的框图。

图4示出根据本申请的实施例的三维数字人脸部动画自动生成方法的流程图。

图5示出根据本申请的实施例的三维数字人脸部动画自动生成方法的架构示意图。

图6示出根据本申请的实施例的三维数字人脸部动画自动生成系统的应用场景图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

针对上述技术问题，本申请的技术构思为通过采集被检测人脸的检测视频，并在后端引入基于人工智能的数据处理和分析算法来进行所述检测视频的分析，以此来提取人脸的表情和动作信息，例如人脸的微笑、眨眼、张嘴等表情，以及头部的旋转、摇晃等动作，并将这些人脸的表情和动作信息应用到三维人脸模型上，生成具有真实人脸表情和动作的三维数字人脸动画。这样，能够实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量，以及增强数字娱乐的体验和沉浸感。

图1示出根据本申请的实施例的三维数字人脸部动画自动生成系统的框图示意图。如图1所示，根据本申请实施例的三维数字人脸部动画自动生成系统100，包括：视频采集模块110，用于获取被检测人脸的检测视频；视频邻帧间语义交互关联分析模块120，用于对所述检测视频进行邻帧间语义互补特征分析以得到人脸视频语义特征图；人脸视频语义特征自相关关联强化模块130，用于对所述人脸视频语义特征图进行特征自相关关联强化处理以得到自相关强化人脸视频语义特征图；人脸上下文语义关联编码模块140，用于对所述自相关强化人脸视频语义特征图进行人脸上下文语义关联编码以得到人脸上下文语义关联特征；以及，三维数字人脸动画生成模块150，用于基于所述人脸上下文语义关联特征，生成三维数字人脸动画。

具体地，在本申请的技术方案中，首先，获取被检测人脸的检测视频。接着，考虑到所述检测视频中存在有诸多视频帧，每个视频帧中存在有这一时刻关于人脸的语义特征信息，但是相邻视频帧间的语义相似度较高，会存在有大量冗余，增加不必要的信息量增加。并且，还考虑到降低图像的分辨率能够有效提升网络在原始图像的感受野，从而关注到一个更全局的区域，并且使用低分辨率的输入帧能够有效降低计算开销。因此，为了能够更为充分和准确地提取出所述检测视频中关于人脸的语义特征信息，并降低冗余，在本申请的技术方案中，将所述检测视频通过时序多尺度互补网络模型以得到人脸视频语义特征图。特别地，这里，所述时序多尺度互补网络模型的结构包括高分辨率分支、低分辨率分支、多分支批量归一化层和跨分支融合层，其中，高分辨率分支能够处理原始分辨率的视频帧，用于保留人脸的细节视觉语义特征；低分辨率分支处理能够处理以不同降采样率得到的低分辨率帧，用于增大网络的感受区域从而捕捉到人脸中更全局的内容。也就是说，所述时序多尺度互补网络模型能够以不同的分辨率处理连续的视频帧，从而使连续的视频帧关注到不同尺度的人脸空间区域特征信息，以提取到帧间互补的人脸语义特征，丰富人脸语义表达。值得一提的是，在本申请的一个具体示例中，所述人脸视频语义特征图可以包含诸如人脸的微笑、眨眼、张嘴等表情信息，以及头部的旋转、摇晃等动作信息，其提供了人脸视频中重要的语义信息，为后续的人脸动画生成提供了基础。

相应地，所述视频邻帧间语义交互关联分析模块120，用于：将所述检测视频通过时序多尺度互补网络模型以得到所述人脸视频语义特征图。其中，所述时序多尺度互补网络模型的结构包括高分辨率分支、低分辨率分支、多分支批量归一化层和跨分支融合层。

应可以理解，时序多尺度互补网络模型是一种用于视频语义特征提取的深度学习模型，它的主要目的是通过分析视频中相邻帧之间的语义交互关联，提取出视频中的语义特征。该模型的结构包括高分辨率分支、低分辨率分支、多分支批量归一化层和跨分支融合层。高分辨率分支和低分辨率分支分别处理输入视频的高分辨率和低分辨率表示。多分支批量归一化层用于归一化不同分辨率分支的特征表示，以便更好地进行特征融合。跨分支融合层用于将不同分辨率分支的特征进行融合，以获取更全面的视频语义特征。时序多尺度互补网络模型的作用是从视频中提取出丰富的语义特征。通过对相邻帧之间的语义交互关联进行建模，该模型可以捕捉到视频中的时序信息和上下文信息，提高对视频内容的理解和表示能力。

然后，考虑到所述人脸视频语义特征图中包含了有关于人脸的各个表情语义特征信息和各个动作语义特征信息，这些语义特征之间具有着相互的关联关系，这种关联关系对于三维数字人脸动画的构建至关重要。并且，还考虑到所述人脸的各个表情语义和动作语义对于最终的三维数字人脸动画的构建和生成的重要程度不同。因此，为了能够更为充分地捕捉和刻画所述被检测人脸的语义关联特征，以此来进一步提升人脸动画的连贯性和逼真度，在本申请的技术方案中，将所述人脸视频语义特征图通过特征自相关关联强化模块以得到自相关强化人脸视频语义特征图。应可以理解，所述特征自相关关联强化模块能够对所述人脸视频语义特征图进行自相关操作，从而增强人脸的各个表情和各个动作之间的相关性，使得生成的人脸动画能够更加准确地反映出人脸的真实动作，且更加连贯和自然。并且，所述特征自相关关联强化模块能够强化所述人脸视频语义特征图中的重要特征，抑制噪声和不相关的特征信息，提高动画的质量和真实感。

相应地，所述人脸视频语义特征自相关关联强化模块130，用于：将所述人脸视频语义特征图通过特征自相关关联强化模块以得到所述自相关强化人脸视频语义特征图。应可以理解，特征自相关关联强化模块是用于增强人脸视频语义特征的模块，它通过对人脸视频语义特征图进行一系列操作，得到自相关强化的人脸视频语义特征图。具体来说，特征自相关关联强化模块包括多个子单元，如第一卷积单元、第二卷积单元、特征图展开单元、余弦相似度计算单元、归一化单元、按位置点乘单元、第一反卷积单元、第一逐元素加和单元、第二反卷积单元和第二逐元素加和单元。这些子单元的组合操作可以增强人脸视频语义特征。特征自相关关联强化模块的作用是通过特征自相关关联的方式，提取出人脸视频语义特征中的相关信息，并将其强化。具体来说，它通过计算人脸视频语义特征图中不同特征向量之间的余弦相似度，得到余弦相似性特征图。然后，通过归一化和按位置点乘的操作，将余弦相似性特征图与原始特征图进行优化和融合，得到自相关强化的人脸视频语义特征图。这种特征自相关关联强化的方法可以提取出人脸视频中的重要特征，并增强特征之间的相关性。这有助于改善人脸视频的表征能力和区分度，提高人脸识别、人脸表情分析、人脸动作识别等任务的准确性和性能。通过自相关关联强化，模型可以更好地捕捉人脸视频中的细微变化和动态信息，从而提高对人脸视频内容的理解和分析能力。

具体地，在一个示例中，所述人脸视频语义特征自相关关联强化模块130，包括：第一卷积单元，用于将所述人脸视频语义特征图通过所述特征自相关关联强化模块的第一卷积层以得到第一特征图；第二卷积单元，用于将所述第一特征图通过所述特征自相关关联强化模块的第二卷积层以得到第二特征图；特征图展开单元，用于将所述第二特征图沿通道维度的各个特征矩阵展开为特征向量以得到第一特征向量的序列；余弦相似度计算单元，用于计算所述第一特征向量的序列中的任意两个第一特征向量之间的余弦相似度以得到余弦相似性特征图；归一化单元，用于将所述余弦相似性特征图通过Softmax函数进行归一化处理以得到归一化余弦相似性特征图；按位置点乘单元，用于将所述归一化余弦相似性特征图与所述余弦相似性特征图进行按位置点乘以得到相似度映射优化特征图；第一反卷积单元，用于将所述相似度映射优化特征图通过所述特征自相关关联强化模块的第一反卷积层以得到第一反卷积特征图；第一逐元素加和单元，用于计算所述第一反卷积特征图和所述第一特征图的逐元素和以得到第一融合特征图；第二反卷积单元，用于将所述第一融合特征图通过所述特征自相关关联强化模块的第二反卷积层以得到第二反卷积特征图；以及，第二逐元素加和单元，用于计算所述第二反卷积特征图和所述人脸视频语义特征图的逐元素和以得到所述自相关强化人脸视频语义特征图。

进一步地，还考虑到所述自相关强化人脸视频语义特征图中每个特征矩阵对应于每个时间点下的有关于所述被检测人脸的各个表情和各个脸部动作的语义关联特征信息。因此，为了能够综合利用各个时间点下的视频中的人脸表情和动作语义关联特征，在本申请的技术方案中，进一步将所述自相关强化人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量以得到自相关强化人脸视频语义特征向量的序列。继而，再将所述自相关强化人脸视频语义特征向量的序列通过基于转换器的人脸上下文语义编码器中进行编码，以提取出所述各个视频帧中有关于人脸表情和动作语义关联自相关关联强化特征之间基于全局的上下文语义关联特征信息，从而得到人脸上下文语义关联特征向量。这样，可以捕捉到特征向量之间的上下文关系，例如前后帧之间的语义关联、动作的连贯性等，从而进一步增强动画的连贯性和真实感，使得生成的人脸动画更加自然和逼真。

相应地，如图3所示，所述人脸上下文语义关联编码模块140，包括：维度重构单元141，用于将所述自相关强化人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量以得到自相关强化人脸视频语义特征向量的序列；以及，人脸局部语义关联单元142，用于将所述自相关强化人脸视频语义特征向量的序列通过基于转换器的人脸上下文语义编码器以得到人脸上下文语义关联特征向量作为所述人脸上下文语义关联特征。

应可以理解，维度重构单元141是人脸上下文语义关联编码模块的一个子单元，其作用是将自相关强化的人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量序列，这个操作可以将特征图中的每个特征矩阵转换为一个特征向量，从而得到自相关强化的人脸视频语义特征向量序列。人脸局部语义关联单元142是人脸上下文语义关联编码模块的另一个子单元，其作用是将自相关强化的人脸视频语义特征向量序列通过基于转换器的人脸上下文语义编码器，得到人脸上下文语义关联特征向量作为人脸上下文语义关联特征。具体来说，人脸局部语义关联单元使用基于转换器的人脸上下文语义编码器对自相关强化的人脸视频语义特征向量序列进行编码，这个编码过程可以将人脸视频语义特征向量序列转换为更具语义关联性的特征向量序列，从而捕捉到人脸上下文中的语义关联信息。综合来看，维度重构单元和人脸局部语义关联单元共同组成了人脸上下文语义关联编码模块。维度重构单元将自相关强化的人脸视频语义特征图转换为特征向量序列，而人脸局部语义关联单元则通过基于转换器的编码器，进一步将特征向量序列转换为人脸上下文语义关联特征向量序列。这样的编码过程可以提取出更具语义关联性的人脸上下文特征，有助于提高人脸识别、人脸表情分析等任务的准确性和性能。

其中，在一个示例中，如图4所示，所述维度重构单元141，包括：特征分布优化子单元1411，用于对所述自相关强化人脸视频语义特征图进行特征分布优化以得到优化自相关强化人脸视频语义特征图；以及，矩阵展开子单元1412，用于将所述优化自相关强化人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量以得到所述自相关强化人脸视频语义特征向量的序列。

应可以理解，特征分布优化子单元1411是维度重构单元141中的一个子单元，其作用是对自相关强化的人脸视频语义特征图进行特征分布优化，以得到优化后的自相关强化人脸视频语义特征图，这个操作可以通过调整特征图中特征的分布和权重，提高特征的表达能力和区分度。具体来说，特征分布优化子单元可以应用各种优化算法或方法，如特征重加权、特征归一化、特征平滑等，对自相关强化的人脸视频语义特征图进行优化。这样可以改善特征图中特征的分布情况，使其更加符合任务需求，提高特征的质量和表达能力。矩阵展开子单元1412是维度重构单元中的另一个子单元，其作用是将优化后的自相关强化人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量序列。这个操作可以将特征图中的每个特征矩阵转换为一个特征向量，从而得到自相关强化的人脸视频语义特征向量序列。综合来看，维度重构单元中的特征分布优化子单元和矩阵展开子单元共同完成了维度重构的过程。特征分布优化子单元对自相关强化的人脸视频语义特征图进行优化，改善特征的分布情况和质量；而矩阵展开子单元将优化后的特征图转换为特征向量序列，方便后续的处理和分析。这样的维度重构操作有助于提取和表示人脸视频中的语义特征，为后续的人脸上下文语义关联编码提供输入。

进而，再将所述人脸上下文语义关联特征向量通过基于AIGC的三维人脸模型动画生成器以得到三维数字人脸动画。这样，能够利用基于AIGC的三维人脸模型动画生成器来将所述被检测人脸的各个表情和各个动作的时序上下文语义关联特征信息应用到三维人脸模型上，生成具有真实表情和动作的三维数字人脸动画。这样，能够实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量。

相应地，所述三维数字人脸动画生成模块150，用于：将所述人脸上下文语义关联特征向量通过基于AIGC的三维人脸模型动画生成器以得到三维数字人脸动画。

特别地，在上述技术方案中，所述人脸视频语义特征图的每个特征矩阵表达所述检测视频的相应帧的时序关联的图像语义特征，而其各个特征矩阵之间遵循所述检测视频的各个帧的图像语义特征的时序分布，这样，将所述人脸视频语义特征图通过特征自相关关联强化模块后，可以进一步基于特征矩阵的图像语义特征表示来对通道维度分布进行约束，使得得到的所述自相关强化人脸视频语义特征图在通道维度上聚焦于图像语义特征的时序关联表达，也就使得所述自相关强化人脸视频语义特征图在整体上，具有基于特征图各位置的图像语义特征空间分布属性的特征表达。由此，如果能够提升所述自相关强化人脸视频语义特征图作为高维特征的空间信息表达效果，则能够提升所述自相关强化人脸视频语义特征向量的序列的序列间关联表达效果，从而提升所述人脸上下文语义关联特征向量的表达效果，改进其通过基于AIGC的三维人脸模型动画生成器得到的三维数字人脸动画的图像质量。基于此，本申请的申请人对所述自相关强化人脸视频语义特征图进行优化。

相应地，在一个示例中，所述特征分布优化子单元1411，进一步用于：以如下优化公式对所述自相关强化人脸视频语义特征图进行特征分布优化以得到所述优化自相关强化人脸视频语义特征图；其中，所述优化公式为：其中，/>，/>是所述自相关强化人脸视频语义特征图，具体地，/>是所述自相关强化人脸视频语义特征图的第/>位置的特征值，/>是所述自相关强化人脸视频语义特征图/>的全局特征均值，且/>为局部空间分割系数，/>是所述优化自相关强化人脸视频语义特征图的第/>位置的特征值。

具体地，以所述自相关强化人脸视频语义特征图展开后的希尔伯特空间内的局部分割空间为基准，对所述自相关强化人脸视频语义特征图/>在高维特征空间内的特征流形进行曲面的局部积分，从而基于积分函数的局部积分处理，来修正所述自相关强化人脸视频语义特征图/>的局部空间展开后的非平稳数据序列所表达的特征流形的相变不连续点，从而获得特征流形的更精细的结构和几何特征，提升所述自相关强化人脸视频语义特征图/>在高维特征空间内的空间信息表达效果，从而提升所述自相关强化人脸视频语义特征向量的序列的序列间关联表达效果，以改进所述人脸上下文语义关联特征向量通过基于AIGC的三维人脸模型动画生成器得到的三维数字人脸动画的图像质量。这样，能够基于人脸的表情和动作信息来生成具有真实人脸表情和动作的三维数字人脸动画，通过这样的方式，能够实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量，以及增强数字娱乐的体验和沉浸感。

综上，基于本申请实施例的三维数字人脸部动画自动生成系统100被阐明，其可以实现高质量的三维数字人脸动画的自动生成，从而提高人脸动画和数字媒体的制作效率和质量，以及增强数字娱乐的体验和沉浸感。

如上所述，根据本申请实施例的所述三维数字人脸部动画自动生成系统100可以实现在各种终端设备中，例如具有三维数字人脸部动画自动生成算法的服务器等。在一个示例中，三维数字人脸部动画自动生成系统100可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该三维数字人脸部动画自动生成系统100可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该三维数字人脸部动画自动生成系统100同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该三维数字人脸部动画自动生成系统100与该终端设备也可以是分立的设备，并且该三维数字人脸部动画自动生成系统100可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

图4示出根据本申请的实施例的三维数字人脸部动画自动生成方法的流程图。图5示出根据本申请的实施例的三维数字人脸部动画自动生成方法的系统架构的示意图。如图4和图5所示，根据本申请实施例的三维数字人脸部动画自动生成方法，其包括：S110，获取被检测人脸的检测视频；S120，对所述检测视频进行邻帧间语义互补特征分析以得到人脸视频语义特征图；S130，对所述人脸视频语义特征图进行特征自相关关联强化处理以得到自相关强化人脸视频语义特征图；S140，对所述自相关强化人脸视频语义特征图进行人脸上下文语义关联编码以得到人脸上下文语义关联特征；以及，S150，基于所述人脸上下文语义关联特征，生成三维数字人脸动画。

在一种可能的实现方式中，对所述检测视频进行邻帧间语义互补特征分析以得到人脸视频语义特征图，包括：将所述检测视频通过时序多尺度互补网络模型以得到所述人脸视频语义特征图。

这里，本领域技术人员可以理解，上述三维数字人脸部动画自动生成方法中的各个步骤的具体操作已经在上面参考图1到图3的三维数字人脸部动画自动生成系统的描述中得到了详细介绍，并因此，将省略其重复描述。

图6示出根据本申请的实施例的三维数字人脸部动画自动生成系统的应用场景图。如图6所示，在该应用场景中，首先，获取被检测人脸的检测视频（例如，图6中所示意的D），然后，将所述检测视频输入至部署有三维数字人脸部动画自动生成算法的服务器（例如，图6中所示意的S）中，其中，所述服务器能够使用所述三维数字人脸部动画自动生成算法对所述检测视频进行处理以得到三维数字人脸动画。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器，上述计算机程序指令可由装置的处理组件执行以完成上述方法。

本申请可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种三维数字人脸部动画自动生成系统，其特征在于，包括：

视频采集模块，用于获取被检测人脸的检测视频；

三维数字人脸动画生成模块，用于基于所述人脸上下文语义关联特征，生成三维数字人脸动画；

其中，所述视频邻帧间语义交互关联分析模块，用于：将所述检测视频通过时序多尺度互补网络模型以得到所述人脸视频语义特征图；

其中，所述时序多尺度互补网络模型的结构包括高分辨率分支、低分辨率分支、多分支批量归一化层和跨分支融合层；

其中，所述人脸视频语义特征自相关关联强化模块，用于：将所述人脸视频语义特征图通过特征自相关关联强化模块以得到所述自相关强化人脸视频语义特征图；

其中，所述人脸视频语义特征自相关关联强化模块，包括：

第一卷积单元，用于将所述人脸视频语义特征图通过所述特征自相关关联强化模块的第一卷积层以得到第一特征图；

第二卷积单元，用于将所述第一特征图通过所述特征自相关关联强化模块的第二卷积层以得到第二特征图；

特征图展开单元，用于将所述第二特征图沿通道维度的各个特征矩阵展开为特征向量以得到第一特征向量的序列；

余弦相似度计算单元，用于计算所述第一特征向量的序列中的任意两个第一特征向量之间的余弦相似度以得到余弦相似性特征图；

归一化单元，用于将所述余弦相似性特征图通过Softmax函数进行归一化处理以得到归一化余弦相似性特征图；

按位置点乘单元，用于将所述归一化余弦相似性特征图与所述余弦相似性特征图进行按位置点乘以得到相似度映射优化特征图；

第一反卷积单元，用于将所述相似度映射优化特征图通过所述特征自相关关联强化模块的第一反卷积层以得到第一反卷积特征图；

第一逐元素加和单元，用于计算所述第一反卷积特征图和所述第一特征图的逐元素和以得到第一融合特征图；

第二反卷积单元，用于将所述第一融合特征图通过所述特征自相关关联强化模块的第二反卷积层以得到第二反卷积特征图；以及

第二逐元素加和单元，用于计算所述第二反卷积特征图和所述人脸视频语义特征图的逐元素和以得到所述自相关强化人脸视频语义特征图。

2.根据权利要求1所述的三维数字人脸部动画自动生成系统，其特征在于，所述人脸上下文语义关联编码模块，包括：

维度重构单元，用于将所述自相关强化人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量以得到自相关强化人脸视频语义特征向量的序列；以及

人脸局部语义关联单元，用于将所述自相关强化人脸视频语义特征向量的序列通过基于转换器的人脸上下文语义编码器以得到人脸上下文语义关联特征向量作为所述人脸上下文语义关联特征。

3.根据权利要求2所述的三维数字人脸部动画自动生成系统，其特征在于，所述维度重构单元，包括：

特征分布优化子单元，用于对所述自相关强化人脸视频语义特征图进行特征分布优化以得到优化自相关强化人脸视频语义特征图；以及

矩阵展开子单元，用于将所述优化自相关强化人脸视频语义特征图沿着通道维度的各个特征矩阵展开为特征向量以得到所述自相关强化人脸视频语义特征向量的序列。

4.根据权利要求3所述的三维数字人脸部动画自动生成系统，其特征在于，所述三维数字人脸动画生成模块，用于：将所述人脸上下文语义关联特征向量通过基于AIGC的三维人脸模型动画生成器以得到三维数字人脸动画。