CN113035198A

CN113035198A - 三维人脸的唇动控制方法、设备和介质

Info

Publication number: CN113035198A
Application number: CN202110221201.4A
Authority: CN
Inventors: 郭紫垣; 赵亚飞; 陈超; 张世昌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-26
Filing date: 2021-02-26
Publication date: 2021-06-25
Anticipated expiration: 2041-02-26
Also published as: CN113035198B

Abstract

本公开提供了一种三维人脸的唇动控制方法，涉及人工智能技术领域，尤其涉及深度学习和语音处理技术领域。实现方案为：首先，对目标语音相应的文本进行切分，得到一个或多个字；然后，基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

Description

三维人脸的唇动控制方法、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习和语音处理技术领域，具体涉及一种三维人脸的唇动控制方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术:人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据语音生成相应唇动的语音唇动拟合技术，是虚拟主播、虚拟形象机器人、动画角色嘴型设计等应用的基础技术之一。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种三维人脸的唇动控制方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种三维人脸的唇动控制方法，包括：对目标语音相应的文本进行切分，得到一个或多个字；基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；以及至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

根据本公开的一方面，提供了唇动模型的训练方法，包括：获取样本用户的样本语音以及所述样本语音相应的真实混合系数；对所述样本语音相应的文本进行切分，得到一个或多个字；将所述一个或多个字输入特征向量层，获取所述特征向量层输出的所述一个或多个字中每一个字的第三向量，所述特征向量层被配置为基于所述样本用户的音色特征输出的所述一个或多个字中每一个字的第三向量，所述特征向量层能够输出每一个字的不同于第三向量的第四向量；至少将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，并获取所述唇动模型输出的预测混合系数；以及基于所述真实混合系数和预测混合系数之间的损失值，调整所述唇动模型和所述特征向量层的参数。

根据本公开的另一方面，提供了一种三维人脸的唇动控制装置，包括：第一文本切分模块，被配置用于对目标语音相应的文本进行切分，得到一个或多个字；第一获取模块，被配置用于基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；确定模块，被配置用于至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；以及控制模块，被配置用于至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

根据本公开的另一方面，提供了一种唇动模型的训练装置，包括：语语音获取模块，被配置用于获取样本用户的样本语音以及所述样本语音相应的真实混合系数；第二文本切分模块，被配置用于对所述样本语音相应的文本进行切分，得到一个或多个字；第二获取模块，被配置用于将所述一个或多个字输入特征向量层，获取所述特征向量层输出的所述一个或多个字中每一个字的第三向量，所述特征向量层被配置为基于所述样本用户的音色特征输出的所述一个或多个字中每一个字的第三向量，所述特征向量层能够输出每一个字的不同于第三向量的第四向量；第三获取模块，被配置用于至少以及将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，并获取所述唇动模型输出的预测混合系数；以及调整模块，被配置用于基于所述真实混合系数和预测混合系数之间的损失值，调整所述唇动模型和所述特征向量层的参数。

根据本公开的另一方面，提供了一种计算设备，所述计算设备包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述的方法。

根据本公开的另一方面，提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述程序包括指令，所述指令在由计算设备的处理器执行时，致使所述计算设备执行上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据上述的方法。

根据本公开的一个或多个实施例，通过解耦目标语音中的每个字，并基于目标语音的音色特征从向量库中获取针对该音色特征的每个字的向量，并且不同音色特征对应的同一个字的向量不同，从而通过考虑语音的音色特征，能够提升唇动表现。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1示出了根据本公开的实施例的三维人脸的唇动控制方法的流程图；

图2示出了根据本公开的实施例的确定目标语音对应的目标向量盒的方法的流程图；

图3示出了根据本公开的实施例的三维人脸模型的唇部示意图；

图4示出了根据本公开的实施例的三维人脸模型的关键点分布示意图；

图5示出了可以实现根据本公开的实施例的三维人脸的唇动控制方法的工作示意图；

图6示出了根据本公开的实施例的唇动模型的训练方法的流程图；

图7示出了根据本公开的实施例的一种三维人脸的唇动控制装置的组成框图；

图8示出了根据本公开的实施例的一种唇动模型的训练装置的组成框图；

图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，基于单音色的3D人脸唇动驱动方法由于训练角色音色比较单一(一般为单个角色)，无法准确估计多种非训练集合音色下的口型变化。实际训练后模型对多音色特征具有模糊性，模型对模糊音色的音频输入表现效果较差，尤其是针对爆破音、闭口音、张口音的口型异常。

为了解决上述技术问题，本公开通过解耦目标语音中的每个字，并基于目标语音的音色特征从向量库中获取针对该音色特征的每个字的向量，并且不同音色特征对应的同一个字的向量不同，由此，通过考虑语音的音色特征，能够提升唇动表现。

下面将结合附图详细描述本公开的实施例。

在具体描述之前，先对本公开涉及的术语进行以下解释说明：

本公开中的三维人脸是指三维人脸的参数化模型，是从大量人脸数据中学习到的基于顶点的加性模型，其由一定个数的顶点和对应的三角面片组成，并且包括一个拥有不同人脸表情的blendshape(混合形状)，通过对不同blenshape的系数(简称为blendshape系数)进行加权可以驱动三维人脸做出各种表情变化。通过将语音映射到blendshape系数，可以使三维人脸准确的模拟不同语音的唇动。如果不能准确地将语音映射到blendshape系数，重建后的人脸唇部动画将缺乏变化的一致性和合理性，无法直接用于人脸唇动驱动等应用。

本公开中的混合系数即是blendshape系数，通过对不同混合系数进行加权可以驱动三维人脸做出各种表情变化，例如唇动。

三维人脸的唇动适配语音是指三维人脸的唇部动画能够模拟语音中每个字在发音时的唇部动作。

图1示出了根据本公开的实施例的三维人脸的唇动控制方法的流程图，如图1所示，该方法可以包括：步骤S101、对目标语音相应的文本进行切分，得到一个或多个字；步骤S102、基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；步骤S103、至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；以及步骤S104、至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。通过建立向量库，所述向量库中具有针对同一个字的不同向量，通过解耦目标语音中的每个字，并基于目标语音的音色特征从向量库中获取针对该音色特征的每个字的向量。由此，通过解耦目标语音中的每个字，并基于目标语音的音色特征从向量库中获取针对该音色特征的每个字的向量，并且不同音色特征对应的同一个字的向量不同，从而通过考虑每个字的音色特征，能够提升唇动表现效果。

可以利用语音识别工具(例如vosk)对目标语音进行识别，以得到目标语音相应的文本。

根据一些实施例，所述向量库可包括多个向量盒，每一个向量盒包括多个字和多个向量之间的相应关系，所述多个向量盒中与同一个字相应的向量不同。由此，通过将向量库划分为多个向量盒，针对不同音色特征的语音，可以从不同向量盒中查找同一个字的向量，提高查找效率。

根据一些实施例，步骤S102，基于目标语音的音色特征，从向量库中获取所述目标语音中每一个字相应的第一向量可以包括：基于目标语音的音色特征，从多个向量盒中确定所述目标语音对应的目标向量盒；从所述目标向量盒中获取所述目标语音中每一个字相应的第一向量。由此，基于目标语音的音色特征，首先确定适配的向量盒，然后可以直接从该向量盒中获取目标语音中每一个字相应的向量，从而能够提高效率。

根据一些实施例，在所述目标语音为目标用户的语音的情况下，参见图2，步骤S102中从多个向量盒中确定所述目标语音对应的目标向量盒可以包括：步骤S201、获取所述目标用户的预设语音，所述预设语音能够表征所述目标语音的音色特征；步骤S202、从所述向量库的至少一部分向量盒中的每一个向量盒中获取所述预设语音对应的预设向量；步骤S203、针对从至少一部分向量盒中所获取的多个预设向量，确定与每一个预设向量相应的预设混合系数；步骤S204、基于与所述多个预设向量相应的多个预设混合系数分别对所述三维人脸进行唇动控制；步骤S205、基于所述三维人脸的针对多个预设向量的唇动，确定其中一个预设向量所在的向量盒为所述目标向量盒。由此，可以获取能够表征用户的音色特征的预设语音，并且该预设语音也能够表征所述目标语音的音色特征。可以从至少一部分向量盒中均获取该预设语音的多个向量，基于预设语音的多个向量分别生成用于唇动驱动的混合系数，从而能够根据不同向量对应的唇动表现效果，来选择适配目标语音的向量盒，以从该向量盒中获取目标语音对应的每一个字的向量，进而能够提升对该目标语音的唇动表现效果。由于所述预设语音能够表征所述目标用户的音色特征，因此也能够表征所述目标语音的音色特征。

发明人发现爆破音、闭口音和张口音能够很好地表征用户的音色特征，也就是说，若基于一个向量盒中对应该用户的爆破音、闭口音和张口音的向量所确定的混合系数来驱动唇动，能够获得良好的唇动表现效果，那么从该向量盒所获取的针对该用户的其它音的向量也能够获得良好的唇动表现效果

基于此，所述预设语音可以为爆破音语音、闭口音语音或张口音语音。示例性的，可以获取目标用户的爆破音语音、闭口音语音和张口音语音，分别执行步骤S202-步骤S204，综合这三种音的唇动表现效果来确定适配目标语音的向量盒。爆破音例如可以为b、p、d、t、k、g，闭口音例如可以为i、u，开口音例如可以为a、e、u。

在图3示意的示例中，在基于从至少一部分向量盒中所分别获取的所述预设语音的多个预设向量，确定与多个预设向量对应的混合系数之后，可以利用多个预设向量对应的混合系数分别进行唇动驱动，通过检测对于爆破音、闭口音和张口音对应的口型变化来挑选最适合目标语音的音色的向量。图3中的线段长度能够表示口型张合的幅度。对于闭口音，可以约束该线段的长度为第一预设值，保证嘴巴闭合；对于闭口音，可以约束该线段的长度小于第二预设值；对于张口音，可以约束该线段的长度大于第二预设值，从而提升口型的节奏感和丰富度，同时爆破音口型准确度和稳定性提升明显，做到对不同音色进行合理的唇动驱动。由于爆破音、闭口音、张口音使得面部表情大幅度变化，因此最能够表征目标语音的音色特征，能够确定适合目标语音的向量盒，保证唇动表现良好。

根据一些实施例，所述目标语音为目标用户的语音，该方法还可以包括：存储所述向量库中向量盒和用户之间的对应关系，其中，基于目标语音的音色特征，从向量库中获取所述目标语音中每一个字相应的第一向量，包括：响应于基于所述对应关系确定所述向量库中包括与所述目标用户对应的目标向量盒，从所述目标向量盒中获取所述目标语音中每一个字相应的第一向量。由此，通过预设存储向量盒和用户之间的对应关系，从而能够在用户每次使用时可以首先确定对应的向量盒，从而方便了用户的使用，也使得该唇动模型驱动效率更高。

根据一些实施例，该方法还可以包括：响应于基于所述对应关系确定所述向量库中不包括与所述目标用户对应的目标向量盒，基于目标语音的音色特征，从所述向量盒中确定所述目标语音对应的目标向量盒；以及存储所述向量库中所述目标向量盒和所述目标用户之间的对应关系。换言之，对于新用户，在确定对应的向量盒之后存储该用户和向量盒之间的对应关系，以方便后续该用户在之后的输入语音时，可以直接确定对应的向量盒，提升效率。

其中，基于目标语音的音色特征从所述向量盒中确定所述目标语音对应的目标向量盒例如可以采样上面内容中的步骤S201-步骤S205来实现。

在确定目标语音所包括的一个或多个字中每一个字相应的第一向量之后，可以执行步骤S103、至少基于所述一个或多个字相应的多个向量，确定与所述目标语音相应的目标混合系数。根据一些实施例，步骤S103可以包括：至少将所述一个或多个字相应的一个或多个向量输入唇动模型，获取所述唇动模型所输出的与所述目标语音相应的目标混合系数。由此，通过唇动模型能够快速预测相应的目标混合系数。

示例性的，唇动模型可以选择卷积神经网络，可以分别在空间与时间轴上做卷积，为网络的特征提取提供有效的先验。

根据一些实施例，所述方法还可以包括：获取所述目标语音的目标用户的声音特征，其中，步骤S103可以包括：基于所述一个或多个字相应的一个或多个向量，以及所述目标用户的声音特征，确定与所述目标语音相应的目标混合系数。从而能够在确定目标混合系数时，同时考虑用户的声音特征，进一步提升唇动表现效果。

示例性的，声音特征可以为自相关特征，可以通过以下步骤获得：可以获取用户的一段语音，将这段语音划分为多个大小为520ms的语音窗口。对于每一个大小为520ms的语音窗口，可以分割成64个语音片段，对每个的语音片段提取长度为32个分量的自相关系数，组成64x32维的声音特征。由于自相关特征与语音音素强相关，音素与嘴型强相关，从而能够获得更好的泛化效果。可以理解的是，所述声音特征也可以为其它特征，例如MFCC特征。根据一些实施例，获取所述目标用户的声音特征可以包括：存存储多个用户与多个声音特征之间的对应关系；基于所存储的用户与声音特征之间的对应关系，查找所述目标用户的声音特征。由此，通过存储用户与声音特征之间的对应关系，从而用户在每次使用时可以通过输入用户直接确定对应的声音特征，具有更高的效率。

根据一些实施例，获取所述目标用户的声音特征还可包括：响应于确定基于所存储的用户与声音特征之间的对应关系未查找到所述目标用户的声音特征，采集所述目标用户的至少一条注册语音；以及基于所述至少一条注册语音，获取所述目标用户的声音特征。所述方法还包括：存储所述目标用户和所述目标用户的声音特征之间的对应关系。由此，对于新用户，在使用之前可以首先获取该用户的声音特征并存储，从而该用户在后续使用时可以通过输入用户直接确定对应的声音特征，具有更高的效率。

根据一些实施例，所述目标混合系数可以包括与唇动无关的多个预设系数，则步骤S104、基于所述目标混合系数控制所述三维人脸的唇动可以包括：去除所述目标混合系数中的所述多个预设系数；至少基于所述目标混合系数中除去所述多个预设系数以外的剩余混合系数，来控制所述三维人脸的唇动，从而能够减少运算量，提升唇动驱动的响应速度。所述多个预设系数例如可以包括眉眼混合系数，由于眉眼动画与运动姿态与口型变化无关，可以不考虑眉眼等混合系数。所述多个预设系数例如还可以包括重复定义的混合系数。

示例性的，三维人脸包括多个关键点，该方法还可包括：获取所述三维人脸的关键点的相关特征；以及基于所述三维人脸的关键点的相关特征，确定所述三维人脸的所述多个关键点中每一个关键点的置信度，其中，至少基于所述目标混合系数控制所述三维人脸的唇动包括：基于所述目标混合系数以及所述三维人脸的所述多个关键点中每一个关键点的置信度，来控制所述三维人脸的唇动。由此，通过引入带置信度的2D关键点信息，能够提升拟合精度。

示例性的，所述相关特征可以包括关键点是否被遮挡，可以设置被遮挡的关键点的置信度小于未被遮挡的关键点的置信度。结合图4和图5所示，通过引入带置信度的2D关键点信息，人脸3D模型进行融合可以极大提升拟合的速度和精度，并且整个融合过程有效剔除错误关键点位置约束，提升拟合结果的鲁棒性和稳定性。

在一个示例性实施例中，参见图4，可以通过人脸关键点模型检测人脸面部的300个关键点(图4中的一个点对应一个关键点)。通过拟合现有的人脸3D模型的2D投影和检测到的人脸关键点的误差，逐步生成人脸3D模型的混合系数。同时，基于所述混合系数中除去所述多个预设系数以外的剩余混合系数，来控制所述三维人脸的唇动。由于眉眼与口型变化无关，可以使用的人脸参数化模型对眉眼等混合系数做归零约束，并剥离人脸的运动姿态。

下面将结合示例性场景对本公开实施例中的三维人脸的唇动控制方法进行具体描述。

在用户初次使用时需要进行注册，唇动模型中可以内置5条话术文本，从而获取用户的注册语音，进一步基于注册语音获取样本用户的声音特征。将每一注册语音分割成多个520ms的语音窗口，对于每一个大小为520ms的语音窗口，把语音分成64个语音片段，对每个的语音片段提取长度为32个分量的自相关系数，组成64x32维语音特征作为模型输入。

可以获取用户的爆破音语音、闭口音语音和张口音语音。以爆破音语音为例，可以从多个向量盒中分别获取爆破音语音的多个第一向量，将多个第一向量输入唇动模型，分别获取多个第一向量各自相应的混合系数，基于多个第一向量各自相应的混合系数进行唇动驱动，并基于唇动表现来确定最适合的向量盒，以及存储用户和该向量盒的对应关系。

参见图5，针对目标语音，可以识别该目标语音相应的文本，并对文本进行切分得到多个字。可以基于该目标语音的用户从所存储的对应关系中确定最适合该目标语音的向量盒，从该向量盒中获取该目标语音所对应的多个字的第一向量V₁……第一向量Vn(n为正整数)。可以基于该目标语音的用户从所存储的对应关系中确定该目标语音的声音特征。然后，第一向量V₁……第一向量Vn和目标语音的声音特征输入唇动模型，获取唇动模型输出的目标混合系数，基于目标混合系数进行三维人脸的唇动驱动。

根据本公开的另一方面，还提供一种唇动模型的训练方法。如图6所示，该方法可以包括：步骤S601、获取样本用户的样本语音以及所述样本语音相应的真实混合系数；步骤S602、对所述样本语音相应的文本进行切分，得到一个或多个字；步骤S603、将所述一个或多个字输入特征向量层，获取所述特征向量层输出的所述一个或多个字中每一个字的第三向量，所述特征向量层被配置为基于所述样本用户的音色特征输出的所述一个或多个字中每一个字的第三向量，所述特征向量层能够输出每一个字的不同于第三向量的第四向量；步骤S604、至少将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，获取所述唇动模型输出的预测混合系数；步骤S605、基于所述真实混合系数和预测混合系数之间的损失值，调整所述唇动模型和所述特征向量层的参数。由此，通过解耦样本语音中的每一个字，特征向量层基于目标语音的音色特征输出针对该音色特征的每个字的向量，并且特征向量层能够针对不同音色特征对应的同一个字输出不同的向量，从而通过考虑语音的音色特征，能够提升基于训练完成的唇动模型预测的混合系数进行唇动驱动时的唇动表现效果。

根据一些实施例，该方法还可以包括：在所述唇动模型和所述特征向量层训练完成之后，基于所述特征向量层确定向量库，其中，所述向量库包括多个向量盒，每一个向量盒包括多个字和多个向量之间的相应关系，所述多个向量盒中与同一个字相应的向量不同。由此，在模型训练完成后，通过特征向量层建立向量盒，只需从向量盒中获取语音对应的每个字的向量，能够提升唇动驱动效率。

示例性的，可以利用多个样本用户的样本语音对唇动模型和所述特征向量层进行训练，所述特征向量层能够针对不同样本用户的同一个字输出不同的向量，从而能够提升模型的泛化性。

示例性的，特征向量层可以为全连接神经网络模型，包括多个全连接层，每一全连接层包括多个节点，不同样本用户的样本语音可以输入至全连接层的不同节点进行训练，以调整全连接层中对应节点的参数。同一样本用户的样本语音可以输入至全连接层的多个预设节点进行训练，以调整全连接层中所述多个预设节点的参数。可以基于全连接层的多个预设节点来建立针对该样本用户的向量盒。

根据一些实施例，唇动模型的训练方法还可以包括：获取所述样本用户的样本声音特征，其中，至少将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，获取所述唇动模型输出的预测混合系数包括：将所述一个或多个字相应的一个或多个第三向量以及所述样本用户的样本声音特征输入所述唇动模型，获取所述唇动模型输出的预测混合系数。由此，通过同时考虑样本用户的声音特征，能够提升利用训练完成的唇动模型实现唇动驱动的准确性。

根据本公开的另一方面，参见图7，还提供一种三维人脸的唇动控制装置700，包括：第一文本切分模块701，被配置用于对目标语音相应的文本进行切分，得到一个或多个字；第一获取模块702，被配置用于基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；确定模块703，被配置用于至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；控制模块704，被配置用于至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

根据本公开的另一方面，参见图8，还提供一种唇动模型的训练装置800，包括：语音获取模块801，被配置用于获取样本用户的样本语音以及所述样本语音相应的真实混合系数；第二文本切分模块802，被配置用于对所述样本语音相应的文本进行切分，得到一个或多个字；第二获取模块803，被配置用于将所述一个或多个字输入特征向量层，获取所述特征向量层输出的所述一个或多个字中每一个字的第三向量，所述特征向量层被配置为基于所述样本用户的音色特征输出的所述一个或多个字中每一个字的第三向量，所述特征向量层能够输出每一个字的不同于第三向量的第四向量；第三获取模块804，被配置用于至少以及将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，并获取所述唇动模型输出的预测混合系数；调整模块805，被配置用于基于所述真实混合系数和预测混合系数之间的损失值，调整所述唇动模型和所述特征向量层的参数。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图9，现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备9900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备800中的多个部件连接至I/O接口905，包括：输入单元906、输出单元807、存储单元808以及通信单元909。输入单元906可以是能向设备9900输入信息的任何类型的设备，输入单元906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如三维人脸的唇动控制方法。例如，在一些实施例中，方法三维人脸的唇动控制方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的三维人脸的唇动控制方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行三维人脸的唇动控制方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参见附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种三维人脸的唇动控制方法，包括：

对目标语音相应的文本进行切分，得到一个或多个字；

基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；

至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；以及

至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

2.根据权利要求1所述的方法，其中，所述向量库包括多个向量盒，每一个向量盒包括多个字和多个向量之间的相应关系，所述多个向量盒中与同一个字相应的向量不同。

3.根据权利要求2所述的方法，其中，基于目标语音的音色特征，从向量库中获取所述目标语音中每一个字相应的第一向量包括：

基于目标语音的音色特征，从所述多个向量盒中确定所述目标语音对应的目标向量盒；

从所述目标向量盒中获取所述目标语音中每一个字相应的第一向量。

4.根据权利要求3所述的方法，其中，所述目标语音为目标用户的语音，

其中，基于目标语音的音色特征，从所述多个向量盒中确定所述目标语音对应的目标向量盒包括：

获取所述目标用户的预设语音，所述预设语音能够表征所述目标语音的音色特征；

从所述向量库的至少一部分向量盒中的每一个向量盒中获取所述预设语音对应的预设向量；

针对从至少一部分向量盒中所获取的多个预设向量，确定与每一个预设向量相应的预设混合系数；

基于与所述多个预设向量相应的多个预设混合系数分别对所述三维人脸进行唇动控制；

基于所述三维人脸的针对多个预设向量的唇动，确定其中一个预设向量所在的向量盒为所述目标向量盒。

5.根据权利要求4所述的方法，其中，所述预设语音为爆破音语音、闭口音语音或张口音语音。

6.根据权利要求2所述的方法，其中，所述目标语音为目标用户的语音，并且所述方法还包括：

存储所述向量库中向量盒和用户之间的对应关系，

其中，基于目标语音的音色特征，从向量库中获取所述目标语音中每一个字相应的第一向量包括：

响应于基于所述对应关系确定所述向量库中包括与所述目标用户对应的目标向量盒，从所述目标向量盒中获取所述目标语音中每一个字相应的第一向量。

7.根据权利要求6所述的方法，还包括：

响应于基于所述对应关系确定所述向量库中不包括与所述目标用户对应的目标向量盒，基于目标语音的音色特征，从所述向量盒中确定所述目标语音对应的目标向量盒；以及

存储所述向量库中所述目标向量盒和所述目标用户之间的对应关系。

8.根据权利要求1所述的方法，其中，至少基于所述一个或多个字相应的一个或多个向量，确定与所述目标语音相应的目标混合系数包括：

至少将所述一个或多个字相应的一个或多个向量输入唇动模型，获取所述唇动模型所输出的与所述目标语音相应的目标混合系数。

9.根据权利要求1-8中任一项所述的方法，还包括：

获取所述目标语音的目标用户的声音特征，

其中，至少基于所述一个或多个字相应的一个或多个向量，确定与所述目标语音相应的目标混合系数包括：

基于所述一个或多个字相应的一个或多个向量，以及所述目标用户的声音特征，确定与所述目标语音相应的目标混合系数。

10.根据权利要求9所述的方法，其中，获取所述目标用户的声音特征包括：

存储多个用户与多个声音特征之间的对应关系；

基于所存储的用户与声音特征之间的对应关系，查找所述目标用户的声音特征。

11.根据权利要求9所述的方法，其中，获取所述目标用户的声音特征包括：

响应于确定基于所存储的用户与声音特征之间的对应关系未查找到所述目标用户的声音特征，采集所述目标用户的至少一条注册语音；以及

基于所述至少一条注册语音，获取所述目标用户的声音特征，

其中，所述方法还包括：

存储所述目标用户和所述目标用户的声音特征之间的对应关系。

12.根据权利要求1-8中任一项所述的方法，其中，所述目标混合系数包括与唇动无关的多个预设系数，

其中，基于所述目标混合系数控制所述三维人脸的唇动包括：

去除所述目标混合系数中的所述多个预设系数；

至少基于所述目标混合系数中除去所述多个预设系数以外的剩余混合系数，来控制所述三维人脸的唇动。

13.根据权利要求1-8中任一项所述的方法，其中，所述三维人脸包括多个关键点，还包括：

获取所述三维人脸的关键点的相关特征；以及

基于所述三维人脸的关键点的相关特征，确定所述三维人脸的所述多个关键点中每一个关键点的置信度，

其中，至少基于所述目标混合系数控制所述三维人脸的唇动包括：

基于所述目标混合系数以及所述三维人脸的所述多个关键点中每一个关键点的置信度，来控制所述三维人脸的唇动。

14.根据权利要求13中任一项所述的方法，其中，所述相关特征包括关键点是否被遮挡，

其中，被遮挡的关键点的置信度小于未被遮挡的关键点的置信度。

15.一种唇动模型的训练方法，包括：

获取样本用户的样本语音以及所述样本语音相应的真实混合系数；

对所述样本语音相应的文本进行切分，得到一个或多个字；

将所述一个或多个字输入特征向量层，获取所述特征向量层输出的所述一个或多个字中每一个字的第三向量，所述特征向量层被配置为基于所述样本用户的音色特征输出的所述一个或多个字中每一个字的第三向量，所述特征向量层能够输出每一个字的不同于第三向量的第四向量；

至少将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，并获取所述唇动模型输出的预测混合系数；以及

基于所述真实混合系数和预测混合系数之间的损失值，调整所述唇动模型和所述特征向量层的参数。

16.根据权利要求15所述的方法，还包括：

在所述唇动模型和所述特征向量层训练完成之后，基于所述特征向量层确定向量库，

其中，所述向量库包括多个向量盒，每一个向量盒包括多个字和多个向量之间的相应关系，所述多个向量盒中与同一个字相应的向量不同。

17.根据权利要求15所述的方法，其中，利用多个样本用户的样本语音对唇动模型和所述特征向量层进行训练，所述特征向量层能够针对不同样本用户的同一个字输出不同的向量。

18.根据权利要求14-17中任一项所述的方法，还包括：

获取所述样本用户的样本声音特征，

其中，至少将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，获取所述唇动模型输出的预测混合系数包括：

将所述一个或多个字相应的一个或多个第三向量以及所述样本用户的样本声音特征输入所述唇动模型，获取所述唇动模型输出的预测混合系数。

19.一种三维人脸的唇动控制装置，包括：

第一文本切分模块，被配置用于对目标语音相应的文本进行切分，得到一个或多个字；

第一获取模块，被配置用于基于目标语音的音色特征，从向量库中获取所述一个或多个字中每一个字相应的第一向量，所述向量库包括与每一个字相应的不同于第一向量的第二向量；

确定模块，被配置用于至少基于所述一个或多个字相应的一个或多个第一向量，确定与所述目标语音相应的目标混合系数；以及

控制模块，被配置用于至少基于所述目标混合系数控制所述三维人脸的唇动，以使得所述三维人脸的唇动适配所述目标语音。

20.一种唇动模型的训练装置，包括：

语音获取模块，被配置用于获取样本用户的样本语音以及所述样本语音相应的真实混合系数；

第二文本切分模块，被配置用于对所述样本语音相应的文本进行切分，得到一个或多个字；

第二获取模块，被配置用于将所述一个或多个字输入特征向量层，获取所述特征向量层输出的所述一个或多个字中每一个字的第三向量，所述特征向量层被配置为基于所述样本用户的音色特征输出的所述一个或多个字中每一个字的第三向量，所述特征向量层能够输出每一个字的不同于第三向量的第四向量；

第三获取模块，被配置用于至少以及将所述一个或多个字相应的一个或多个第三向量输入所述唇动模型，并获取所述唇动模型输出的预测混合系数；以及

调整模块，被配置用于基于所述真实混合系数和预测混合系数之间的损失值，调整所述唇动模型和所述特征向量层的参数。

21.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有计算机程序，所述计算机程序在被所述至少一个处理器执行时实现根据权利要求1-18中任一项所述的方法。

22.一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被处理器执行时实现根据权利要求1-18中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据权利要求1-18中任一项所述的方法。