CN113077536B

CN113077536B - 一种基于bert模型的嘴部动作驱动模型训练方法及组件

Info

Publication number: CN113077536B
Application number: CN202110423648.XA
Authority: CN
Inventors: 陈泷翔; 刘炫鹏; 王鑫宇; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2024-05-28
Anticipated expiration: 2041-04-20
Also published as: CN113077536A

Abstract

本申请公开了一种基于BERT模型的嘴部动作驱动模型训练方法及组件。本申请使用BERT模型将角色声学特征的频谱转换为单音色特征或多音色融合特征，之后将该单音色特征或多音色融合特征作为嘴部动作驱动模型的训练数据，从而训练得到嘴部动作驱动模型。其中，单音色特征、多音色融合特征均是单特征，不像现有方案中需要设定多种音色的特征，因此BERT模型提高了训练数据的质量，降低了训练数据的复杂性和训练成本，使用多音色融合特征还不会影响嘴部动作驱动模型的通用性。相应地，本申请提供的一种基于BERT模型的嘴部动作驱动模型训练组件，也同样具有上述技术效果。

Description

一种基于BERT模型的嘴部动作驱动模型训练方法及组件

技术领域

本申请涉及计算机技术领域，特别涉及一种基于BERT模型的嘴部动作驱动模型训练方法及组件。

背景技术

在人物影像生成、电子动画中的类人类角色动作渲染等领域，为了使得影像中的人物更加真实、自然，嘴部动作与语音的匹配是十分重要的，如何完成声音到嘴部动作的映射是解决这一问题的关键。

现有的技术可以初步分为基于规则的方法与基于深度学习的方法两种。

基于规则的方法利用类似字典的结构记录由语言学家提供的音素与嘴部动作的对应关系，使用时通过查表的方式完成声音到嘴部动作的映射。此方式需要的人工因素较多，其中专家数据库的成本较为高昂，而且偏于定制化，无法灵活应用到多个场景。

基于深度学习的方法则直接将声音特征输入到神经网络后，即可得到相关嘴部动作参数。此方式直接用各种音色的音频训练模型，虽然模型能覆盖各种音色和场景，但训练任务大，成本高。

对这两种方法得到的嘴部动作进一步像素渲染等处理，最终可得到与声音匹配的人物嘴部动作视频动画。

因此，如何降低训练数据的复杂性和训练成本，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于BERT模型的嘴部动作驱动模型训练方法及组件，以降低训练数据的复杂性和训练成本。其具体方案如下：

第一方面，本申请提供了一种基于BERT模型的嘴部动作驱动模型训练方法，包括：

获取训练视频，并提取所述训练视频中的音频和图像；

从所述音频中提取角色声学特征，从所述图像中提取与所述角色声学特征对应的嘴部动作参数；

利用BERT模型处理所述角色声学特征的频谱得到频谱处理结果，并基于所述频谱处理结果确定目标特征；所述目标特征为单音色特征或多音色融合特征；

以所述目标特征作为训练输入数据，以所述嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

优选地，所述利用BERT模型处理所述角色声学特征的频谱得到频谱处理结果，并基于所述频谱处理结果确定目标特征，包括：

利用所述BERT模型中的transformer模块处理所述角色声学特征的频谱得到频谱处理结果，并将所述频谱处理结果确定为所述目标特征。

利用所述BERT模型中的transformer模块处理所述角色声学特征的频谱得到频谱处理结果；

利用所述BERT模型中的predictHead模块处理所述频谱处理结果得到所述目标特征。

优选地，所述从所述图像数据中提取与所述角色声学特征对应的嘴部动作参数，包括：

利用人脸检测算法从所述图像数据中提取嘴部关键点信息作为所述嘴部动作参数；

或

利用三维模型从所述图像数据中提取嘴部轮廓信息作为所述嘴部动作参数；

或

利用人脸检测算法从所述图像数据中提取嘴部关键点信息；

利用三维模型从所述图像数据中提取嘴部轮廓信息；

融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作参数。

优选地，所述BERT模型的训练过程包括：

获取目标单音色语音或多音色语音，以及相应的目标频谱信息；

将所述目标单音色语音或所述多音色语音中的部分频谱信息遮盖后，输入初始BERT模型，以输出训练结果；

计算所述训练结果与所述目标频谱信息的损失值；

若所述损失值达到模型收敛要求，则将所述初始BERT模型确定为所述BERT模型；否则，更新所述初始BERT模型的模型参数后，对更新后的初始BERT模型进行迭代训练，直至所述损失值符合模型收敛要求。

优选地，还包括：

若获取到待处理音频，则从所述待处理音频中提取待处理声学特征；

利用BERT模型处理所述待处理声学特征的频谱得到待处理频谱处理结果，并基于所述待处理频谱处理结果确定待处理目标特征；

将所述待处理目标特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

优选地，所述待处理音频为待处理视频中的音频或利用TTS技术合成并添加有录制场景噪音的语音。

第二方面，本申请提供了一种基于BERT模型的嘴部动作驱动模型训练装置，包括：

获取模块，用于获取训练视频，并提取所述训练视频中的音频和图像；

提取模块，用于从所述音频中提取角色声学特征，从所述图像中提取与所述角色声学特征对应的嘴部动作参数；

处理模块，用于利用BERT模型处理所述角色声学特征的频谱得到频谱处理结果，并基于所述频谱处理结果确定目标特征；所述目标特征为单音色特征或多音色融合特征；

训练模块，用于以所述目标特征作为训练输入数据，以所述嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

优选地，处理模块具体用于：

优选地，提取模块包括：

第一提取单元，用于利用人脸检测算法从所述图像数据中提取嘴部关键点信息作为所述嘴部动作参数；

或

第二提取单元，用于利用三维模型从所述图像数据中提取嘴部轮廓信息作为所述嘴部动作参数；

或

第一提取单元，用于利用人脸检测算法从所述图像数据中提取嘴部关键点信息；

第二提取单元，用于利用三维模型从所述图像数据中提取嘴部轮廓信息；

融合单元，用于融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作参数。

优选地，还包括BERT模型训练模块，用于训练所述BERT模型，该BERT模型训练模块包括：

获取单元，用于获取目标单音色语音或多音色语音，以及相应的目标频谱信息；

处理单元，用于将所述目标单音色语音或所述多音色语音中的部分频谱信息遮盖后，输入初始BERT模型，以输出训练结果；

计算单元，用于计算所述训练结果与所述目标频谱信息的损失值；

训练单元，用于若所述损失值达到模型收敛要求，则将所述初始BERT模型确定为所述BERT模型；否则，更新所述初始BERT模型的模型参数后，对更新后的初始BERT模型进行迭代训练，直至所述损失值符合模型收敛要求。

优选地，还包括嘴部动作驱动模型应用模块，该嘴部动作驱动模型应用模块具体用于：

第三方面，本申请提供了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的基于BERT模型的嘴部动作驱动模型训练方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的基于BERT模型的嘴部动作驱动模型训练方法。

通过以上方案可知，本申请提供了一种基于BERT模型的嘴部动作驱动模型训练方法，包括：获取训练视频，并提取所述训练视频中的音频和图像；从所述音频中提取角色声学特征，从所述图像中提取与所述角色声学特征对应的嘴部动作参数；利用BERT模型处理所述角色声学特征的频谱得到频谱处理结果，并基于所述频谱处理结果确定目标特征；所述目标特征为单音色特征或多音色融合特征；以所述目标特征作为训练输入数据，以所述嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

可见，本申请使用BERT模型将角色声学特征的频谱转换为单音色特征或多音色融合特征，之后将该单音色特征或多音色融合特征作为嘴部动作驱动模型的训练数据，从而训练得到嘴部动作驱动模型。其中，单音色特征、多音色融合特征均是单特征，不像现有方案中需要设定多种音色的训练数据，因此BERT模型提高了训练数据的质量，降低了训练数据的复杂性和训练成本，使用多音色融合特征还不会影响嘴部动作驱动模型的通用性。

相应地，本申请提供的一种基于BERT模型的嘴部动作驱动模型训练组件(即装置、设备及可读存储介质)，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种基于BERT模型的嘴部动作驱动模型训练方法流程图；

图2为本申请公开的一种嘴部动作驱动模型应用流程示意图；

图3为本申请公开的一种基于BERT模型的嘴部动作驱动模型训练装置示意图；

图4为本申请公开的一种计算机设备示意图；

图5为本申请公开的一种交互系统示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，深度学习方法直接用各种音色的音频训练模型，虽然模型能覆盖各种音色和场景，但训练任务大，成本高。为此，本申请提供了一种基于BERT模型的嘴部动作驱动模型训练方案，能够降低训练数据的复杂性和训练成本。

下面对本申请实施例提供的一种基于BERT模型的嘴部动作驱动模型训练方法进行介绍，参见图1所示，本申请实施例公开了一种基于BERT模型的嘴部动作驱动模型训练方法，包括：

S101、获取训练视频，并提取训练视频中的音频和图像。

在本实施例中，训练视频可以是动画视频，也可以是真人录制视频，一般优选为真人录制视频。从训练视频中提取的音频即：视频中角色所说的语音，其中可能包括少量录制噪声。从训练视频中提取的图像即：视频中角色说话时视频的画面数据。

S102、从音频中提取角色声学特征，从图像中提取与角色声学特征对应的嘴部动作参数。

其中，角色声学特征可以是音频的振幅谱、梅尔频谱、梅尔倒谱系数等特征。嘴部动作参数即：视频中角色说话时嘴部的图像特征。

S103、利用BERT模型处理角色声学特征的频谱得到频谱处理结果，并基于频谱处理结果确定目标特征；目标特征为单音色特征或多音色融合特征。

其中，BERT(Pre-training of Deep Bidirectional Transformers forLanguage Understanding)模型可以包括transformer模块和predictHead模块，也可以仅包括transformer模块。transformer模块用于处理角色声学特征的频谱得到频谱处理结果(具体为类似音素分布的结果)。predictHead模块用于处理频谱处理结果得到单音色特征或多音色融合特征。多音色融合特征即：融合有多种音色的语音频谱，单音色特征即：具有某单一音色的语音频谱。

predictHead模块输出单音色特征还是多音色融合特征取决于：BERT模型在训练过程中是学习了单音色表达能力，还是多音色表达能力。BERT模型的输入和输出都是频谱，因此其作用为：将一个频谱表示为具有某单一音色或多音色的频谱。

S104、以目标特征作为训练输入数据，以嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

其中，深度学习模型可以是任意结构，如循环神经网络、卷积神经网络等。以目标特征作为训练数据，以嘴部动作参数作为模型的学习目标，可以让深度学习模型学习目标特征至嘴部动作参数的映射能力，从而得到支持单音色或多音色的嘴部动作驱动模型。

嘴部动作驱动模型的具体训练过程可以包括：将目标特征输入初始深度学习模型，以输出训练结果；计算训练结果与目标特征对应的嘴部动作参数的损失值；若损失值达到模型收敛要求，则将该初始深度学习模型确定为嘴部动作驱动模型；否则，更新初始深度学习模型的模型参数后，对更新后的模型进行迭代训练，直至损失值符合模型收敛要求。

可见，本实施例使用BERT模型将角色声学特征的频谱转换为单音色特征或多音色融合特征，之后将该单音色特征或多音色融合特征作为嘴部动作驱动模型的训练数据，从而训练得到嘴部动作驱动模型。其中，单音色特征、多音色融合特征均是单特征，不像现有方案中需要设定多种音色的训练数据，因此BERT模型提高了训练数据的质量，降低了训练数据的复杂性和训练成本，使用多音色融合特征还不会影响嘴部动作驱动模型的通用性。

基于上述实施例，需要说明的是，利用BERT模型处理角色声学特征的频谱得到频谱处理结果，并基于频谱处理结果确定目标特征，包括：利用BERT模型中的transformer模块处理角色声学特征的频谱得到频谱处理结果，并将频谱处理结果确定为目标特征。

在一种具体实施方式中，利用BERT模型处理角色声学特征的频谱得到频谱处理结果，并基于频谱处理结果确定目标特征，包括：利用BERT模型中的transformer模块处理角色声学特征的频谱得到频谱处理结果；利用BERT模型中的predictHead模块处理频谱处理结果得到目标特征。

其中，BERT(Pre-training of Deep Bidirectional Transformers forLanguage Understanding)模型可以包括transformer模块和predictHead模块，也可以仅包括transformer模块。transformer模块用于处理角色声学特征的频谱得到频谱处理结果(具体为类似音素分布的结果)。predictHead模块用于处理频谱处理结果得到单音色特征或多音色融合特征。

可见，目标特征可以是transformer模块的输出结果，也可以是predictHead模块的输出结果。

基于上述实施例，需要说明的是，从图像数据中提取与角色声学特征对应的嘴部动作参数，包括：利用人脸检测算法从图像数据中提取嘴部关键点信息(landmarks)作为嘴部动作参数；或利用三维模型从图像数据中提取嘴部轮廓信息(blendshape)作为嘴部动作参数；或利用人脸检测算法从图像数据中提取嘴部关键点信息；利用三维模型从图像数据中提取嘴部轮廓信息；融合嘴部关键点信息和嘴部轮廓信息，得到融合信息，并将融合信息作为嘴部动作参数。

其中，人脸检测算法可以是任意能够识别嘴部关键点的算法，其一般以二维坐标提取特征数据，故所提取的特征数据缺少三维信息。而利用三维模型提取的特征数据虽然包括三维信息，但准确度相对较低。故为了提高嘴部动作特征的有效性，可以融合嘴部关键点信息和嘴部轮廓信息，融合过程中重复信息仅保留一份，未重复信息均保留并相互补充。

基于上述实施例，需要说明的是，BERT模型的训练过程包括：获取目标单音色语音或多音色语音，以及相应的目标频谱信息；将目标单音色语音或多音色语音中的部分频谱信息遮盖后，输入初始BERT模型，以输出训练结果；计算训练结果与目标频谱信息的损失值；若损失值达到模型收敛要求，则将初始BERT模型确定为BERT模型；否则，更新初始BERT模型的模型参数后，对更新后的初始BERT模型进行迭代训练，直至损失值符合模型收敛要求。

其中，由于本申请中的BERT模型可以输出两种特征：单音色特征或多音色融合特征，相应的其训练过程就需要针对这两种特征分别实现。

当以目标单音色语音作为训练时的输入数据时，所训练的BERT模型就可以输出单音色特征。在该训练过程中，BERT模型学习目标单音色语音的音色表达能力。

当前以多音色语音作为训练时的输入数据时，所训练的BERT模型就可以输出多音色融合特征。在该训练过程中，BERT模型学习多音色语音中的多种音色的表达能力，具体可以使用自注意力机制使BERT模型分别学习每种音色的表达参数。在应用此BERT模型时，该BERT模型就能够将一种音色的语音用多种音色的表达参数进行表示，从而得到多音色融合特征。

基于上述实施例，需要说明的是，训练获得嘴部动作驱动模型后，可以应用该模型给任一段语音匹配对应的嘴部动作图像数据，具体请参见图2，图2示意了一种嘴部动作驱动模型应用流程。

S201、获取待处理音频；

S202、从待处理音频中提取待处理声学特征；

S203、利用BERT模型处理待处理声学特征的频谱得到待处理频谱处理结果，并基于待处理频谱处理结果确定待处理目标特征；

S204、将待处理目标特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

本实施例中的BERT模型、嘴部动作驱动模型以及相关执行步骤可参照上述实施例的相关介绍，本说明书在此不再赘述。

在一种具体实施方式中，待处理音频为待处理视频中的音频或利用TTS技术合成并添加有录制场景噪音的语音。

需要说明的是，若BERT模型以视频中的音频作为训练数据，为了使BERT模型应用过程中的输入音频与训练数据保持一致，可以给TTS合成的语音中添加录制场景噪音，以使应用过程中的输入音频模拟真实录制音频。其本质的原因是：BERT模型在应用过程中的待处理音频需要和BERT模型的训练音频保持一致。

可见，本实施例中的嘴部动作驱动模型可以借助BERT模型处理视频中的音频、TTS合成的语音，具有较好的通用性，且处理效率较高。

下面基于深度学习方法，提供一种嘴部动作驱动模型的训练方案与应用方案。训练方案包括：录制视频数据、处理视频数据得到声学特征与嘴部动作参数、训练嘴部动作驱动模型几个步骤。应用方案包括：提取待匹配声学特征，并用嘴部动作驱动模型进行处理。如果BERT模型线上使用，那么该待匹配声学特征通过BERT模型进行转换后，输入到嘴部动作驱动模型，以得到相应的嘴部动作参数。如果BERT模型线上不使用，那么该待匹配声学特征直接输入到嘴部动作驱动模型，以得到相应的嘴部动作参数(此时使用的嘴部动作驱动模型的训练数据可能是经过BERT模型转换的)。

其中，训练方案中“处理视频数据得到声学特征与嘴部动作参数”的具体细节包括：

将录制的视频数据分为音频文件与图像帧两个部分，将音频文件通过信号处理的方式获得声学特征，这些特征可以是振幅谱、梅尔频谱、梅尔倒谱系数等；将图像帧通过关键点检测得到landmarks或者通过三维建模的方式得到嘴部动作参数。

获得声学特征后，使用该特征训练得到一个能够将该声学特征转换为目标单音色/多音色的BERT模型。目标单音色灵活指定一个就行，例如：从音频文件中选一个人物的音色作为目标单音色。其中，BERT模型的训练过程采用开源模型即可，具体可参照现有相关技术。

训练得到BERT模型后，可以使用BERT模型将音频文件中的声学特征都转换为目标单音色/多音色，之后可以直接使用转换后的声学特征作为模型训练数据，用嘴部动作参数作为模型训练目标，基于深度学习方法训练得到嘴部动作驱动模型。

相应的应用方案为：在使用嘴部动作驱动模型时，待匹配音频先输入BERT模型进行转换后，再输入嘴部动作驱动模型进行匹配识别。

BERT模型可以包括transformer模块和predictHead模块，也可以仅包括transformer模块。如果BERT在模型应用的过程中使用，那么可以设定BERT模型仅包括transformer模块，以减少线上使用过程中资源的消耗。如果BERT在模型应用的过程中不使用，即线下用BERT模型将所有数据都转换为单音色特征或多音色融合特征后，以单音色特征或多音色融合特征作为训练数据来训练深度学习模型，此时可以设定BERT模型包括transformer模块和predictHead模块，因为线下使用BERT模型不会给深度学习模型的训练过程增加资源开销。

需要说明的是，训练嘴部动作驱动模型的软件环境可以为支持tensorflow或者pytorch的python环境，应用模型时，其软件环境可以与训练阶段保持一致，也可以改写其他软件框架获得适用于该模型的软件环境，以降低落地成本。如果模型应用阶段有流式的需求，那么模型结构的设计应满足：包含循环神经网络的情况下必须采用单向循环神经网络；包含卷积神经网络的情况下其感受野(滑动窗口)不能过大。

其中，BERT模型线下使用时，模型整体的应用流程较短，需要的硬件资源较少，但是不够灵活；BERT模型线上使用时，虽然需要更多的资源，但是相对较为灵活。

如果在模型应用时，想要改变嘴部动作驱动模型支持的单音色特征或多音色融合特征的种类，那么需要重新训练BERT模型，但此时只需要更换线上的BERT模型即可；但对于线下使用BERT模型的情况而言，相应的嘴部动作驱动模型也需要重新训练。不过由于BERT模型较为庞大，线上使用消耗的硬件资源比较多，故非线上使用仍然是一个较好的方案。

可见，本实施例不需要引入规则，整个流程均可自动化。训练过程端到端，简单易理解，便于优化。线上使用BERT模型灵活性高，能够缩短整体系统更新流程。

下面对本申请实施例提供的一种基于BERT模型的嘴部动作驱动模型训练装置进行介绍，下文描述的一种基于BERT模型的嘴部动作驱动模型训练装置与上文描述的一种基于BERT模型的嘴部动作驱动模型训练方法可以相互参照。

参见图3所示，本申请实施例公开了一种基于BERT模型的嘴部动作驱动模型训练装置，包括：

获取模块301，用于获取训练视频，并提取训练视频中的音频和图像；

提取模块302，用于从音频中提取角色声学特征，从图像中提取与角色声学特征对应的嘴部动作参数；

处理模块303，用于利用BERT模型处理角色声学特征的频谱得到频谱处理结果，并基于频谱处理结果确定目标特征；目标特征为单音色特征或多音色融合特征；

训练模块304，用于以目标特征作为训练输入数据，以嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

在一种具体实施方式中，处理模块具体用于：

利用BERT模型中的transformer模块处理角色声学特征的频谱得到频谱处理结果，并将频谱处理结果确定为目标特征。

在一种具体实施方式中，处理模块具体用于：

利用BERT模型中的transformer模块处理角色声学特征的频谱得到频谱处理结果；

利用BERT模型中的predictHead模块处理频谱处理结果得到目标特征。

在一种具体实施方式中，提取模块包括：

第一提取单元，用于利用人脸检测算法从图像数据中提取嘴部关键点信息作为嘴部动作参数；

或

第二提取单元，用于利用三维模型从图像数据中提取嘴部轮廓信息作为嘴部动作参数；

或

第一提取单元，用于利用人脸检测算法从图像数据中提取嘴部关键点信息；

第二提取单元，用于利用三维模型从图像数据中提取嘴部轮廓信息；

融合单元，用于融合嘴部关键点信息和嘴部轮廓信息，得到融合信息，并将融合信息作为嘴部动作参数。

在一种具体实施方式中，还包括BERT模型训练模块，用于训练BERT模型，该BERT模型训练模块包括：

处理单元，用于将目标单音色语音或多音色语音中的部分频谱信息遮盖后，输入初始BERT模型，以输出训练结果；

计算单元，用于计算训练结果与目标频谱信息的损失值；

训练单元，用于若损失值达到模型收敛要求，则将初始BERT模型确定为BERT模型；否则，更新初始BERT模型的模型参数后，对更新后的初始BERT模型进行迭代训练，直至损失值符合模型收敛要求。

在一种具体实施方式中，还包括嘴部动作驱动模型应用模块，该嘴部动作驱动模型应用模块具体用于：

若获取到待处理音频，则从待处理音频中提取待处理声学特征；

利用BERT模型处理待处理声学特征的频谱得到待处理频谱处理结果，并基于待处理频谱处理结果确定待处理目标特征；

将待处理目标特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种基于BERT模型的嘴部动作驱动模型训练装置，该装置提高了训练数据的质量，降低了训练数据的复杂性和训练成本，使用多音色融合特征还不会影响嘴部动作驱动模型的通用性。

下面对本申请实施例提供的一种计算机设备进行介绍，下文描述的一种计算机设备与上文描述的一种基于BERT模型的嘴部动作驱动模型训练方法及装置可以相互参照。

参见图4所示，本申请实施例公开了一种计算机设备，包括：

存储器401，用于保存计算机程序；

处理器402，用于执行所述计算机程序，以实现前述任意实施例公开的基于BERT模型的嘴部动作驱动模型训练方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种基于BERT模型的嘴部动作驱动模型训练方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的基于BERT模型的嘴部动作驱动模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

下面结合具体应用场景详细介绍本申请提供的基于BERT模型的嘴部动作驱动模型训练方法，需要说明的是，训练得到的嘴部动作驱动模型可以用于制作动画，具体为：利用该模型控制动画中角色的嘴部动作。

请参阅图5，图5示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的基于BERT模型的嘴部动作驱动模型训练方法可以应该用于如图5所示的交互系统。交互系统包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不做具体限定。

其中，终端设备101可以是具有显示屏、具有基于BERT模型的嘴部动作驱动模型训练模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP，微信小程序等)触发训练方法。用户可以基于客户端应用程序在服务器102注册一个用户账号，并基于该用户账号与服务器102进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，实现训练方法的装置也可以设置于终端设备101上，使得终端设备101无需依赖于服务器102建立通信即可实现与用户的交互，此时交互系统可以只包括终端设备101。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于BERT模型的嘴部动作驱动模型训练方法，其特征在于，包括：

获取训练视频，并提取所述训练视频中的音频和图像；

以所述目标特征作为训练输入数据，以所述嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型；

其中，所述利用BERT模型处理所述角色声学特征的频谱得到频谱处理结果，并基于所述频谱处理结果确定目标特征，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用BERT模型处理所述角色声学特征的频谱得到频谱处理结果，并基于所述频谱处理结果确定目标特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述从所述图像中提取与所述角色声学特征对应的嘴部动作参数，包括：

利用人脸检测算法从所述图像中提取嘴部关键点信息作为所述嘴部动作参数；

或

利用三维模型从所述图像中提取嘴部轮廓信息作为所述嘴部动作参数；

或

利用人脸检测算法从所述图像中提取嘴部关键点信息；

利用三维模型从所述图像中提取嘴部轮廓信息；

4.根据权利要求1至3任一项所述的方法，其特征在于，所述BERT模型的训练过程包括：

计算所述训练结果与所述目标频谱信息的损失值；

5.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，所述待处理音频为待处理视频中的音频或利用TTS技术合成并添加有录制场景噪音的语音。

7.一种基于BERT模型的嘴部动作驱动模型训练装置，其特征在于，包括：

训练模块，用于以所述目标特征作为训练输入数据，以所述嘴部动作参数作为训练输出目标，训练深度学习模型，以得到嘴部动作驱动模型；

其中，所述处理模块，具体用于利用所述BERT模型中的transformer模块处理所述角色声学特征的频谱得到频谱处理结果；利用所述BERT模型中的predictHead模块处理所述频谱处理结果得到所述目标特征。

8.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至6任一项所述的方法。

9.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的方法。