CN113129925B

CN113129925B - 一种基于vc模型的嘴部动作驱动模型训练方法及组件

Info

Publication number: CN113129925B
Application number: CN202110424539.XA
Authority: CN
Inventors: 陈泷翔; 刘炫鹏; 王鑫宇; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2023-08-04
Anticipated expiration: 2041-04-20
Also published as: CN113129925A

Abstract

本申请公开了一种基于VC模型的嘴部动作驱动模型训练方法及组件。本申请使用VC模型调整训练数据的音色参数/语种参数，从而得到特定音色/语种的目标特征，之后以该目标特征作为模型训练数据，从而可训练得到支持特定音色/语种的得到嘴部动作驱动模型，可以降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。相应地，本申请提供的一种基于VC模型的嘴部动作驱动模型训练组件，也同样具有上述技术效果。

Description

一种基于VC模型的嘴部动作驱动模型训练方法及组件

技术领域

本申请涉及计算机技术领域，特别涉及一种基于VC模型的嘴部动作驱动模型训练方法及组件。

背景技术

在人物影像生成、电子动画中的类人类角色动作渲染等领域，为了使得影像中的人物更加真实、自然，嘴部动作与语音的匹配是十分重要的，如何完成声音到嘴部动作的映射是解决这一问题的关键。

现有的技术可以初步分为基于规则的方法与基于深度学习的方法两种。

基于规则的方法利用类似字典的结构记录由语言学家提供的音素与嘴部动作的对应关系，使用时通过查表的方式完成声音到嘴部动作的映射。此方式需要的人工因素较多，其中专家数据库的成本较为高昂，而且偏于定制化，无法灵活应用到多个场景。

基于深度学习的方法则直接将声音特征输入到神经网络后，即可得到相关嘴部动作参数。此方式通常以不同音色的语音或不同语言的语音作为训练数据，从而训练得到支撑多音色或多语种的模型，但这样一来，模型的训练任务就变得多而复杂，导致训练成本较高。

对这两种方法得到的嘴部动作进一步像素渲染等处理，最终可得到与声音匹配的人物嘴部动作视频动画。

因此，如何降低成本，提高方案通用性，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种基于VC模型的嘴部动作驱动模型训练方法及组件，以降低成本，提高方案通用性。其具体方案如下：

第一方面，本申请提供了一种基于VC模型的嘴部动作驱动模型训练方法，包括：

获取训练视频，并提取所述训练视频中的音频数据和图像数据；

从所述音频数据中提取角色声学特征，从所述图像数据中提取与所述角色声学特征对应的嘴部动作特征；

若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征；所述目标特征对应的音色/语种为所述目标单音色/所述目标单语种；

以所述目标特征作为模型输入数据，以所述嘴部动作特征作为模型输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

优选地，所述VC模型为基于Star-GAN结构双向转换模型、基于Cycle-GAN的双向转换模型或基于siamese network的单向转换模型。

优选地，还包括：

若所述角色声学特征对应的音色/语种是所述目标单音色/所述目标单语种，则以所述角色声学特征作为模型输入数据，以所述嘴部动作特征作为模型输出目标，训练深度学习模型，以得到所述嘴部动作驱动模型。

优选地，所述从所述图像数据中提取与所述角色声学特征对应的嘴部动作特征，包括：

利用人脸检测算法从所述图像数据中提取嘴部关键点信息作为所述嘴部动作特征；

或

利用三维模型从所述图像数据中提取嘴部轮廓信息作为所述嘴部动作特征；

或

利用人脸检测算法从所述图像数据中提取嘴部关键点信息；

利用三维模型从所述图像数据中提取嘴部轮廓信息；

融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作特征。

优选地，所述若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征，包括：

若所述角色声学特征对应的音色不是所述目标单音色，则利用所述VC模型将所述角色声学特征的音色参数调整为所述目标单音色的音色参数，以得到所述目标特征；音色参数包括频率特征和/或发音习惯特征；

或

若所述角色声学特征对应的语种不是所述目标单语种，则利用所述VC模型将所述角色声学特征的语种参数调整为所述目标单语种的语种参数，以得到所述目标特征；语种参数包括时间排布特征。

优选地，还包括：

若获取到待匹配音频，则从所述待匹配音频中提取待匹配声学特征；

若所述待匹配声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述待匹配声学特征的音色参数/语种参数，以得到待匹配目标特征；所述待匹配目标特征对应的音色/语种为所述目标单音色/所述目标单语种；

将所述待匹配目标特征输入所述嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

优选地，所述获取待匹配音频，包括：

获取待匹配视频，并从所述待匹配视频中提取所述待匹配音频；

或

利用TTS技术将预设文本转换为语音数据，并添加录制场景噪音至所述语音数据，以得到所述待匹配音频；

或

提取演唱作品中的人声音频作为所述待匹配音频。

优选地，还包括：

若所述待匹配声学特征对应的音色/语种是所述目标单音色/所述目标单语种，则将所述待匹配声学特征输入所述嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

第二方面，本申请提供了一种基于VC模型的嘴部动作驱动模型训练装置，包括：

获取模块，用于获取训练视频，并提取所述训练视频中的音频数据和图像数据；

提取模块，用于从所述音频数据中提取角色声学特征，从所述图像数据中提取与所述角色声学特征对应的嘴部动作特征；

转换模块，用于若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征；所述目标特征对应的音色/语种为所述目标单音色/所述目标单语种；

训练模块，用于以所述目标特征作为模型输入数据，以所述嘴部动作特征作为模型输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

优选地，还包括：

直接训练模块，用于若所述角色声学特征对应的音色/语种是所述目标单音色/所述目标单语种，则以所述角色声学特征作为模型输入数据，以所述嘴部动作特征作为模型输出目标，训练深度学习模型，以得到所述嘴部动作驱动模型。

优选地，提取模块包括：

第一提取单元，用于利用人脸检测算法从所述图像数据中提取嘴部关键点信息作为所述嘴部动作特征；

或

第二提取单元，用于利用三维模型从所述图像数据中提取嘴部轮廓信息作为所述嘴部动作特征；

或

第一提取单元，用于利用人脸检测算法从所述图像数据中提取嘴部关键点信息；

第二提取单元，用于利用三维模型从所述图像数据中提取嘴部轮廓信息；

融合单元，用于融合所述嘴部关键点信息和所述嘴部轮廓信息，得到融合信息，并将所述融合信息作为所述嘴部动作特征。

优选地，转换模块包括：

音色转换单元，用于若所述角色声学特征对应的音色不是所述目标单音色，则利用所述VC模型将所述角色声学特征的音色参数调整为所述目标单音色的音色参数，以得到所述目标特征；音色参数包括频率特征和/或发音习惯特征；

或

语种转换单元，用于若所述角色声学特征对应的语种不是所述目标单语种，则利用所述VC模型将所述角色声学特征的语种参数调整为所述目标单语种的语种参数，以得到所述目标特征；语种参数包括时间排布特征。

优选地，还包括模型应用模块，用于：

若获取到待匹配音频，则从所述待匹配音频中提取待匹配声学特征；若所述待匹配声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述待匹配声学特征的音色参数/语种参数，以得到待匹配目标特征；所述待匹配目标特征对应的音色/语种为所述目标单音色/所述目标单语种；将所述待匹配目标特征输入所述嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

优选地，模型应用模块包括：

第一获取单元，用于获取待匹配视频，并从所述待匹配视频中提取所述待匹配音频；

或

第二获取单元，用于利用TTS技术将预设文本转换为语音数据，并添加录制场景噪音至所述语音数据，以得到所述待匹配音频；

或

第三获取单元，用于提取演唱作品中的人声音频作为所述待匹配音频。

优选地，模型应用模块还用于：

第三方面，本申请提供了一种计算机设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的基于VC模型的嘴部动作驱动模型训练方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的基于VC模型的嘴部动作驱动模型训练方法。

通过以上方案可知，本申请提供了一种基于VC模型的嘴部动作驱动模型训练方法，包括：获取训练视频，并提取所述训练视频中的音频数据和图像数据；从所述音频数据中提取角色声学特征，从所述图像数据中提取与所述角色声学特征对应的嘴部动作特征；若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征；所述目标特征对应的音色/语种为所述目标单音色/所述目标单语种；以所述目标特征作为模型输入数据，以所述嘴部动作特征作为模型输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

可见，本申请能够使用VC模型调整训练数据的音色参数/语种参数，从而得到具有特定音色/语种的目标特征，之后以该目标特征作为模型训练数据，从而可训练得到支持特定音色/语种的得到嘴部动作驱动模型。其中，虽然本申请中的嘴部动作驱动模型仅支持特定音色/语种，但由于有VC模型作为辅助，因此并不影响嘴部动作驱动模型的通用性。可见，用VC模型将其他音色/语种的特征转换为某种特定音色/语种的特征后，再以此训练得到嘴部动作驱动模型，可以降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。

相应地，本申请提供的一种基于VC模型的嘴部动作驱动模型训练组件(组件即装置、设备及可读存储介质)，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种基于VC模型的嘴部动作驱动模型训练方法流程图；

图2为本申请公开的一种模型应用流程示意图；

图3为本申请公开的一种基于VC模型的嘴部动作驱动模型训练装置示意图；

图4为本申请公开的一种计算机设备示意图；

图5为本申请公开的一种交互系统示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，现有方案成本高，通用性交差。为此，本申请提供了一种基于VC模型的嘴部动作驱动模型训练方案，能够降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。

下面对本申请实施例提供的一种基于VC模型的嘴部动作驱动模型训练方法进行介绍，参见图1所示，本申请实施例公开了一种基于VC模型的嘴部动作驱动模型训练方法，包括：

S101、获取训练视频，并提取训练视频中的音频数据和图像数据。

其中，训练视频可以是动画视频，也可以是真人录制视频，一般优选为真人录制视频。从训练视频中提取的音频数据即：视频中角色所说的语音，其中可能包括少量录制噪声。从训练视频中提取的图像数据即：视频中角色说话时视频的画面数据。

S102、从音频数据中提取角色声学特征，从图像数据中提取与角色声学特征对应的嘴部动作特征。

其中，角色声学特征可以是音频数据的振幅谱、梅尔频谱、梅尔倒谱系数等特征。嘴部动作特征即：视频中角色说话时嘴部的图像特征。

S103、若角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整角色声学特征的音色参数/语种参数，以得到目标特征；目标特征对应的音色/语种为目标单音色/目标单语种。

在一种具体实施方式中，若角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整角色声学特征的音色参数/语种参数，以得到目标特征，包括：若角色声学特征对应的音色不是目标单音色，则利用VC模型将角色声学特征的音色参数调整为目标单音色的音色参数，以得到目标特征；音色参数包括频率特征和/或发音习惯特征(说话快慢等)；或若角色声学特征对应的语种不是目标单语种，则利用VC模型将角色声学特征的语种参数调整为目标单语种的语种参数，以得到目标特征；语种参数包括时间排布特征(发音时间长短等)。

在本实施例中，VC(Voice Conversion)模型能够将任意音色/语种转换为某一种目标单音色/目标单语种。“/”表示或，但并不意味着VC模型处理音色时不能处理语种。也就是：VC模型能够处理角色声学特征对应的音色，同时也能够处理角色声学特征对应的语种，只是可以选择是处理音色还是处理语种。当然，也可以二者都处理。

在一种具体实施方式中，若角色声学特征对应的音色/语种是目标单音色/目标单语种，那么就无需使用VC模型进行音色转换或语种转换，因此可以直接以角色声学特征作为模型输入数据，以嘴部动作特征作为模型输出目标，训练深度学习模型，以得到支持目标单音色/目标单语种的嘴部动作驱动模型。

S104、以目标特征作为模型输入数据，以嘴部动作特征作为模型输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

其中，深度学习模型可以是任意结构，如循环神经网络、卷积神经网络等。以目标特征作为训练数据，以嘴部动作特征作为模型的学习目标，可以让深度学习模型学习目标特征至嘴部动作特征的映射能力，从而得到支持目标单音色/目标单语种的嘴部动作驱动模型。

本实施例使用VC模型调整训练数据的音色参数/语种参数，从而得到具有特定音色/语种的目标特征，之后以该目标特征作为模型训练数据，从而可训练得到支持特定音色/语种的得到嘴部动作驱动模型。其中，虽然本申请中的嘴部动作驱动模型仅支持特定音色/语种，但由于有VC模型作为辅助，因此并不影响嘴部动作驱动模型的通用性。

可见，本实施例用VC模型将其他音色/语种的特征转换为某种特定音色/语种的特征后，再以此训练得到嘴部动作驱动模型，可以降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。

基于上述实施例，需要说明的是，VC模型为基于Star-GAN结构双向转换模型、基于Cycle-GAN的双向转换模型或基于siamese network的单向转换模型。

其中，Star-GAN和Cycle-GAN支持双向转换。即：基于Star-GAN和Cycle-GAN训练得到的VC模型能够使人物A的音色和人物B的音色相互转换，此时VC模型的输入为多种音色或多个语种，输出为目标单音色/目标单语种。siamese network支持单向转换。即：基于siamese network训练得到的VC模型能够使人物A的音色转换为人物B的音色，但人物B的音色不能转换为人物A的音色，此时VC模型的输入为某一种音色或某一个语种，输出为目标单音色/目标单语种。

当然，基于siamese network也可以训练得到能将人物B的音色转换为人物A的音色，但需要分别训练VC模型。也就是：基于siamese network训练得到的VC模型只能具有A到B的转换功能，若需要实现B到A，或A到C的转换功能，就需要基于siamese network新训练一个具有相应转换功能的VC模型。

基于上述实施例，需要说明的是，从图像数据中提取与角色声学特征对应的嘴部动作特征，包括：利用人脸检测算法从图像数据中提取嘴部关键点信息(landmarks)作为嘴部动作特征；或利用三维模型从图像数据中提取嘴部轮廓信息(blendshape)作为嘴部动作特征；或利用人脸检测算法从图像数据中提取嘴部关键点信息；利用三维模型从图像数据中提取嘴部轮廓信息；融合嘴部关键点信息和嘴部轮廓信息，得到融合信息，并将融合信息作为嘴部动作特征。

其中，人脸检测算法可以是任意能够识别嘴部关键点的算法，其一般以二维坐标提取特征数据，故所提取的特征数据缺少三维信息。而利用三维模型提取的特征数据虽然包括三维信息，但准确度相对较低。故为了提高嘴部动作特征的有效性，可以融合嘴部关键点信息和嘴部轮廓信息，融合过程中重复信息仅保留一份，未重复信息均保留并相互补充。

基于上述实施例，需要说明的是，训练获得支持目标单音色/目标单语种的嘴部动作驱动模型后，可以应用该模型给任一段语音匹配对应的嘴部动作图像数据，具体请参见图2，图2示意了一种模型应用流程。

S201、获取待匹配音频；

S202、从待匹配音频中提取待匹配声学特征；

S203、判断待匹配声学特征对应的音色/语种是否为目标单音色/目标单语种；若是，则执行S204；若否，则执行S205；

S204、将待匹配声学特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据；

S205、利用VC模型调整待匹配声学特征的音色参数/语种参数，以得到待匹配目标特征；

S206、将待匹配目标特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

其中，待匹配目标特征对应的音色/语种为目标单音色/目标单语种。

本实施例中的VC模型、嘴部动作驱动模型以及相关执行步骤可参照上述实施例的相关介绍，本说明书在此不再赘述。

在一种具体实施方式中，获取待匹配音频，包括：获取待匹配视频，并从待匹配视频中提取待匹配音频；或利用TTS(Text To Speech)技术将预设文本转换为语音数据，并添加录制场景噪音至语音数据，以得到待匹配音频；或提取演唱作品(如歌曲、戏曲等)中的人声音频作为待匹配音频。可见，待匹配音频可以是视频中的角色语音，也可以是TTS合成的语音，还可以是歌曲或戏曲中的人声。

其中，歌曲或戏曲中的人声可以使用声乐分离模型spleeter从歌曲或戏曲中分离得到，分离得到的人声相当于清唱。在本实施例中，语种、歌曲中的人声都可以类比为音色，以便理解方案。

需要说明的是，由于嘴部动作驱动模型是以视频中的音频制作训练数据，为了使应用过程中的待匹配音频与训练数据保持一致，因此给TTS合成的语音中添加录制场景噪音，以模拟真实录制场景。但若嘴部动作驱动模型的训练数据是经过VC模型转换的，那么就无需添加录制场景噪音，因为经过VC模型转换能消除一部分噪声，此时可以认为训练数据没有噪声。因此TTS合成的语音中是否添加噪音取决于：嘴部动作驱动模型的训练数据是否经过VC模型转换。其本质的原因仍然是：嘴部动作驱动模型的训练数据需要和嘴部动作驱动模型的待匹配音频保持一致。

其中，添加录制场景噪音时，可在频谱上做加法，或者在傅里叶变化后做乘法。所添加的录制场景噪音可以从视频中提取，也可以是实景录音得到。实景录音即：在录制场景放置设备进行录制，期间不人为制造噪音。

可见，本实施例中的嘴部动作驱动模型可以处理视频中的音频、TTS合成的语音、甚至歌曲中的人声，同时还可以使用VC模型进行音色或语种的转换，具有较好的通用性，且处理效率较高。

下面基于深度学习方法，提供一种嘴部动作驱动模型的训练方案与应用方案。训练方案包括：录制视频数据、处理视频数据得到声学特征与嘴部动作参数、训练嘴部动作驱动模型几个步骤。应用方案包括：提取待匹配声学特征，并用嘴部动作驱动模型进行处理。如果VC模型线上使用，那么该待匹配声学特征通过VC模型进行转换后，输入到嘴部动作驱动模型，以得到相应的嘴部动作参数。如果VC模型线上不使用，那么该待匹配声学特征直接输入到嘴部动作驱动模型，以得到相应的嘴部动作参数(此时使用的嘴部动作驱动模型的训练数据可能是经过VC模型转换的)。

其中，训练方案中“处理视频数据得到声学特征与嘴部动作参数”的具体细节包括：

将录制的视频数据分为音频文件与图像帧两个部分，将音频文件通过信号处理的方式获得声学特征，这些特征可以是振幅谱、梅尔频谱、梅尔倒谱系数等；将图像帧通过关键点检测得到landmarks或者通过三维建模的方式得到嘴部动作参数。

获得声学特征后，使用该特征、特定语音(目标单音色的语音和/或目标单语种的语音)训练得到一个能够将该声学特征的语音/语种转换为目标单音色/目标单语种的VC模型。目标单音色和目标单语种灵活指定一个就行，例如：从音频文件中选一个人物的音色作为目标单音色，从众多语种中选择一种语种作为目标单语种。其中，VC模型的训练过程采用开源模型Voice Conversion即可，具体可参照现有相关技术。

训练方案1：训练得到VC模型后，可以使用VC模型将音频文件中的声学特征都转换为目标单音色/目标单语种，之后可以直接使用转换后的声学特征作为模型训练数据，用嘴部动作参数作为模型训练目标，基于深度学习方法训练得到嘴部动作驱动模型。

训练方案2：当然，也可以直接用未经过VC模型转换的声学特征作为模型训练数据，用嘴部动作参数作为模型训练目标，基于深度学习方法训练得到嘴部动作驱动模型。

结合上述两种训练方案，相应的应用方案也有两种。

与训练方案1对应的应用方案1(即VC模型线下使用)：在使用嘴部动作驱动模型时，将目标单音色/目标单语种的语音直接输入嘴部动作驱动模型进行识别匹配。

与训练方案2对应的应用方案2(即VC模型线上使用)：在使用嘴部动作驱动模型时，待匹配音频先输入VC模型进行转换后，再输入嘴部动作驱动模型进行匹配识别。其中，若待匹配音频是目标单音色/目标单语种，则不用使用VC模型进行转换。直接输入嘴部动作驱动模型即可。

需要说明的是，训练嘴部动作驱动模型的软件环境可以为支持tensorflow或者pytorch的python环境，应用模型时，其软件环境可以与训练阶段保持一致，也可以改写其他软件框架获得适用于该模型的软件环境，以降低落地成本。如果模型应用阶段有流式的需求，那么模型结构的设计应满足：包含循环神经网络的情况下必须采用单向循环神经网络；包含卷积神经网络的情况下其感受野(滑动窗口)不能过大。

其中，VC模型线下使用时，模型整体的应用流程较短，需要的硬件资源较少，但是不够灵活；VC模型线上使用时，虽然需要更多的资源，但是相对较为灵活。

如果在模型应用时，想要改变嘴部动作驱动模型支持的目标单音色/目标单语种的种类，那么需要重新训练VC模型，但此时只需要更换线上的VC模型即可；但对于线下使用VC模型的情况而言，相应的嘴部动作驱动模型也需要重新训练，因此会增加模型训练的消耗。

可见，本实施例不需要引入规则，整个流程均可自动化。训练过程端到端，简单易理解，便于优化。线上使用VC模型灵活性高，能够缩短整体系统更新流程。

下面对本申请实施例提供的一种基于VC模型的嘴部动作驱动模型训练装置进行介绍，下文描述的一种基于VC模型的嘴部动作驱动模型训练装置与上文描述的一种基于VC模型的嘴部动作驱动模型训练方法可以相互参照。

参见图3所示，本申请实施例公开了一种基于VC模型的嘴部动作驱动模型训练装置，包括：

获取模块301，用于获取训练视频，并提取训练视频中的音频数据和图像数据；

提取模块302，用于从音频数据中提取角色声学特征，从图像数据中提取与角色声学特征对应的嘴部动作特征；

转换模块303，用于若角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整角色声学特征的音色参数/语种参数，以得到目标特征；目标特征对应的音色/语种为目标单音色/目标单语种；

训练模块304，用于以目标特征作为模型输入数据，以嘴部动作特征作为模型输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

在一种具体实施方式中，VC模型为基于Star-GAN结构双向转换模型、基于Cycle-GAN的双向转换模型或基于siamese network的单向转换模型。

在一种具体实施方式中，还包括：

直接训练模块，用于若角色声学特征对应的音色/语种是目标单音色/目标单语种，则以角色声学特征作为模型输入数据，以嘴部动作特征作为模型输出目标，训练深度学习模型，以得到嘴部动作驱动模型。

在一种具体实施方式中，提取模块包括：

第一提取单元，用于利用人脸检测算法从图像数据中提取嘴部关键点信息作为嘴部动作特征；

或

第二提取单元，用于利用三维模型从图像数据中提取嘴部轮廓信息作为嘴部动作特征；

或

第一提取单元，用于利用人脸检测算法从图像数据中提取嘴部关键点信息；

第二提取单元，用于利用三维模型从图像数据中提取嘴部轮廓信息；

融合单元，用于融合嘴部关键点信息和嘴部轮廓信息，得到融合信息，并将融合信息作为嘴部动作特征。

在一种具体实施方式中，转换模块包括：

音色转换单元，用于若角色声学特征对应的音色不是目标单音色，则利用VC模型将角色声学特征的音色参数调整为目标单音色的音色参数，以得到目标特征；音色参数包括频率特征和/或发音习惯特征；

或

语种转换单元，用于若角色声学特征对应的语种不是目标单语种，则利用VC模型将角色声学特征的语种参数调整为目标单语种的语种参数，以得到目标特征；语种参数包括时间排布特征。

在一种具体实施方式中，还包括模型应用模块，用于：

若获取到待匹配音频，则从待匹配音频中提取待匹配声学特征；若待匹配声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整待匹配声学特征的音色参数/语种参数，以得到待匹配目标特征；待匹配目标特征对应的音色/语种为目标单音色/目标单语种；将待匹配目标特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

在一种具体实施方式中，模型应用模块包括：

第一获取单元，用于获取待匹配视频，并从待匹配视频中提取待匹配音频；

或

第二获取单元，用于利用TTS技术将预设文本转换为语音数据，并添加录制场景噪音至语音数据，以得到待匹配音频；

或

第三获取单元，用于提取演唱作品中的人声音频作为待匹配音频。

在一种具体实施方式中，模型应用模块还用于：

若待匹配声学特征对应的音色/语种是目标单音色/目标单语种，则将待匹配声学特征输入嘴部动作驱动模型，以输出相应的嘴部动作图像数据。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种基于VC模型的嘴部动作驱动模型训练装置，该装置使用VC模型调整训练数据的音色参数/语种参数，从而得到具有特定音色/语种的目标特征，之后以该目标特征作为模型训练数据，从而可训练得到支持特定音色/语种的得到嘴部动作驱动模型，可以降低训练数据的复杂性，减少训练数据量和训练成本，同时还不会影响嘴部动作驱动模型的通用性。

下面对本申请实施例提供的一种计算机设备进行介绍，下文描述的一种计算机设备与上文描述的一种基于VC模型的嘴部动作驱动模型训练方法及装置可以相互参照。

参见图4所示，本申请实施例公开了一种计算机设备，包括：

存储器401，用于保存计算机程序；

处理器402，用于执行所述计算机程序，以实现前述任意实施例公开的基于VC模型的嘴部动作驱动模型训练方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种基于VC模型的嘴部动作驱动模型训练方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的基于VC模型的嘴部动作驱动模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

下面结合具体应用场景详细介绍本申请提供的基于VC模型的嘴部动作驱动模型训练方法，需要说明的是，训练得到的嘴部动作驱动模型可以用于制作动画，具体为：利用该模型控制动画中角色的嘴部动作。

请参阅图5，图5示出了一种适用于本申请实施例的应用环境示意图。本申请实施例提供的基于VC模型的嘴部动作驱动模型训练方法可以应该用于如图5所示的交互系统。交互系统包括终端设备101以及服务器102，服务器102与终端设备101通信连接。其中，服务器102可以是传统服务器，也可以是云端服务器，在此不做具体限定。

其中，终端设备101可以是具有显示屏、具有基于VC模型的嘴部动作驱动模型训练模块、具有拍摄相机、具有音频输入/输出等功能，且支持数据输入的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机、自助服务终端和可穿戴式电子设备等。具体的，数据输入可以是基于电子设备上具有的语音模块输入语音、字符输入模块输入字符等。

其中，终端设备101上可以安装有客户端应用程序，用户可以基于客户端应用程序(例如APP，微信小程序等)触发训练方法。用户可以基于客户端应用程序在服务器102注册一个用户账号，并基于该用户账号与服务器102进行通信，例如用户在客户端应用程序登录用户账号，并基于该用户账号通过客户端应用程序进行输入，可以输入文字信息或语音信息等，客户端应用程序接收到用户输入的信息后，可以将该信息发送至服务器102，使得服务器102可以接收该信息并进行处理及存储，服务器102还可以接收该信息并根据该信息返回一个对应的输出信息至终端设备101。

在一些实施方式中，实现训练方法的装置也可以设置于终端设备101上，使得终端设备101无需依赖于服务器102建立通信即可实现与用户的交互，此时交互系统可以只包括终端设备101。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于VC模型的嘴部动作驱动模型训练方法，其特征在于，包括：

若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征；所述目标特征对应的音色/语种为所述目标单音色/所述目标单语种；所述VC模型能够将任意音色/语种转换为一种目标单音色/目标单语种；所述VC模型为基于Star-GAN结构双向转换模型；

2.根据权利要求1所述的方法，其特征在于，所述VC模型为基于Cycle-GAN的双向转换模型或基于siamese network的单向转换模型。

3.根据权利要求1所述的方法，其特征在于，还包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述从所述图像数据中提取与所述角色声学特征对应的嘴部动作特征，包括：

或

利用人脸检测算法从所述图像数据中提取嘴部关键点信息；

利用三维模型从所述图像数据中提取嘴部轮廓信息；

5.根据权利要求1至3任一项所述的方法，其特征在于，所述若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征，包括：

或

6.根据权利要求1至3任一项所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述获取待匹配音频，包括：

或

提取演唱作品中的人声音频作为所述待匹配音频。

8.根据权利要求6所述的方法，其特征在于，还包括：

9.一种基于VC模型的嘴部动作驱动模型训练装置，其特征在于，包括：

转换模块，用于若所述角色声学特征对应的音色/语种不是目标单音色/目标单语种，则利用VC模型调整所述角色声学特征的音色参数/语种参数，以得到目标特征；所述目标特征对应的音色/语种为所述目标单音色/所述目标单语种；所述VC模型能够将任意音色/语种转换为一种目标单音色/目标单语种；所述VC模型为基于Star-GAN结构双向转换模型；

10.一种计算机设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至8任一项所述的基于VC模型的嘴部动作驱动模型训练方法。

11.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的基于VC模型的嘴部动作驱动模型训练方法。