CN115035604B

CN115035604B - 一种音频驱动人物口型方法、模型及其训练方法

Info

Publication number: CN115035604B
Application number: CN202210953133.5A
Authority: CN
Inventors: 司马华鹏; 廖铮
Original assignee: Nanjing Silicon Intelligence Technology Co Ltd
Current assignee: Nanjing Silicon Intelligence Technology Co Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-12-16
Anticipated expiration: 2042-08-10
Also published as: US11928767B2; CN115035604A; US20240054711A1

Abstract

本申请实施例提供了一种音频驱动人物口型方法、模型及其训练方法。通过获取目标人物的人物图像与由用于生成目标动态图像的语音，并将人物图像和语音分别处理为能够训练的图音数据，并将图音数据与辅助数据混合训练，得到目标动态图像。对于不同场景需要获取大量样本数据来进行训练时，通过对其他人物在说话时的视频作为辅助视频进行处理，得到辅助数据，并将辅助数据代替非通用样本数据与其他数据以预设比例输入模型中进行训练。辅助数据可以完善模型对合成训练口型动作的过程，使得在训练过程中没有与合成口型动作无关的部分，解决了训练过程需要大量样本数据的问题。

Description

一种音频驱动人物口型方法、模型及其训练方法

技术领域

本申请涉及自然人机交互领域，尤其涉及一种音频驱动人物口型方法、模型及其训练方法。

背景技术

音频驱动口型技术的研究是自然人机交互领域的重要内容。音频驱动口型技术是对一个人物的语音进行处理，使其能在该人物的动态头像上合成与语音对应的口型动作，并且驱动对应的人物按照音频做出口型动作，进而合成与音频对应的口型动作视频。

上述音频驱动口型技术的实现依赖于预先训练好的神经网络模型。神经网络模型以口型动作视频作为通用样本数据，在训练过程中会学习口型动作视频中的口型变化与音频的关系，进而使得模型能够实现音频驱动口型。而在神经网络模型应用的过程中，为了满足用户实际使用的场景下实现良好的音频驱动口型效果，还需要根据用户实际使用的场景进行针对化的训练。

在根据用户实际使用的场景进行针对化的训练过程中，需要预先通过样本数据对模型进行训练。而样本数据中包括与合成动作有关的样本数据和与合成口型动作无关的数据。这就导致训练模型需要大量的样本数据，才能够完善模型合成口型动作无关的训练部分。完成训练过程所需要的样本数据量过于庞大。

发明内容

为了解决训练数据中包括与合成动作有关的样本数据和与合成口型动作无关的数据，导致模型在完成训练的过程需要的样本数据量过于庞大的问题。第一方面，本申请提供一种音频驱动人物口型模型，所述模型包括特征提取模块、编码器模块、合成模块、数据处理模块和解码器模块，其中，

所述特征提取模块被配置为提取目标语音的音频特征与目标图像的图像特征；其中，所述目标语音是用于指示目标人物生成目标动态图像的语音，所述目标图像是用于指示目标人物生成目标动态图像的口型图像；所述目标动态图像是用于指示所述目标图像执行所述目标语音对应的口型动作时的视频图像；

所述编码器模块被配置为，对所述音频特征和所述图像特征进行编码处理，分别得到音频编码数据和图像编码数据；

所述合成模块被配置为，将所述音频编码数据和所述图像编码数据进行拼接，得到图音数据；

所述数据处理模块被配置为，对所述图音数据进行合成处理得到动态图像编码结果；

所述解码器模块被配置为，对所述动态图像编码结果进行解码处理，得到所述目标动态图像。

在本申请的一个实施例中，所述模型还包括预处理模块，所述预处理模块被配置为，在所述模型的训练过程中根据样本图像生成预设时长的静默视频，并将所述静默视频处理为样本图像数据；以及，将辅助视频处理为辅助数据；其中，所述样本图像用于指示目标人物的口型图像，所述辅助视频包括非目标人物说话发出的非目标口型动作以及与所述非目标口型动作对应的非目标语音；所述样本图像数据与所述辅助数据用于对所述模型进行训练。

在本申请的一个实施例中，所述编码器模块包括输入层、卷积层和输出层；

所述输入层被配置为将所述音频特征作为输入序列输入；

所述卷积层被配置为将所述输入序列进行卷积处理；

所述输出层被配置为将卷积处理后的序列作为输出序列输出。

在本申请的一个实施例中，所述数据处理模块包括若干残差块和分散注意力块；

所述残差块被配置为对所述图音数据的特征进行深度学习；

所述分散注意力块被配置为分割所述残差块深度学习的特征。

第二方面，本申请提供一种音频驱动人物口型模型的训练方法，所述方法包括：

获取样本数据；其中，所述样本数据包括样本图像与辅助数据，所述样本图像是用于指示目标人物的口型图像；所述辅助数据由辅助视频经过预处理得到，所述辅助视频包括非目标人物说话发出的非目标口型动作以及与所述非目标口型动作对应的非目标语音；

根据所述样本图像生成预设时长的静默视频，并将所述静默视频处理为样本图像数据；所述静默视频中的音频为空白音频；

将所述样本数据中的所述样本图像数据与所述辅助数据，按照预设比例输入至待训练模型中得到图像编码结果，并根据所述图像编码结果与所述样本数据的标签对所述待训练模型进行训练，得到训练结果；其中，所述待训练模型为第一方面中任意一项所述的音频驱动人物口型模型；所述样本数据的标签包括所述静默视频中所述样本图像数据对应的空白音频，以及，所述辅助视频中所述非目标口型动作对应的非目标语音；

当所述训练结果符合预设结果，得到训练完成的模型；其中，所述预设结果用于指示所述待训练模型的损失函数训练至收敛。

在本申请的一个实施例中，当所述训练结果不符合预设结果时，按照所述预设比例，重新调整所述样本数据中的所述样本图像数据与所述辅助数据的分布，并将调整后的所述样本数据重新输入至所述待训练模型中进行训练；

当所述训练结果符合预设结果，得到训练完成的模型。

在本申请的一个实施例中，所述按照所述预设比例，重新调整所述样本数据中的所述样本图像数据与所述辅助数据的分布的步骤，包括：

重置所述样本数据中第一预设数量的样本图像数据和第二预设数量的辅助数据，或者，根据所述预设比例，同时增加或减少第三预设数量的样本图像数据和第四预设数量的辅助数据。

在本申请的一个实施例中，所述当所述训练结果符合预设结果，得到训练完成的模型的步骤包括：

计算所述训练结果的训练误差；

将所述训练误差与标准动态图像的图像误差进行比对，得到比对结果；所述图像误差为标准动态图像连续两帧画面之间的误差；

当所述比对结果为所述训练误差小于或等于所述图像误差，则所述训练结果符合预设结果。

第三方面，本申请提供一种音频驱动人物口型方法，应用于第二方面中任意一种训练方法得到的音频驱动人物口型模型，包括：

获取用于驱动目标口型动作的目标语音与目标图像；其中，所述目标语音用于指示目标人物生成目标动态图像的语音，所述目标图像是用于指示目标人物生成目标动态图像的口型图像；所述目标动态图像是用于指示所述目标图像执行所述目标语音对应的口型动作时的视频图像；

提取所述目标语音的音频特征和所述目标图像的图像特征；

对所述音频特征和所述图像特征进行编码处理，分别得到音频编码数据和图像编码数据；

将所述音频编码数据和所述图像编码数据进行拼接，得到图音数据；

对所述图音数据进行合成处理得到动态图像编码结果；

对所述动态图像编码结果进行解码处理，得到所述目标动态图像。

在本申请的一个实施例中，对所述音频特征进行编码处理，得到所述音频编码数据的过程包括：

对所述音频特征进行因果卷积计算，得到因果卷积数据；

对所述因果卷积数据进行扩张卷积计算，得到扩张卷积数据；

计算进行卷积计算的过程中产生的残差；

结合所述扩张卷积数据和所述残差，得到所述音频编码数据。

由以上技术方案可知，基于本申请提供的一种音频驱动人物口型方法、模型及其训练方法，具体有以下技术效果：通过获取目标人物的人物图像与由用于生成目标动态图像的语音，并将人物图像和语音分别处理为能够训练的图音数据，并将图音数据与辅助数据混合训练，得到目标动态图像。对于不同场景需要获取大量样本数据来进行训练时，通过对其他人物在说话时的视频作为辅助视频进行处理，得到辅助数据，并将辅助数据代替非通用样本数据与其他数据以预设比例混合，将混合后的样本数据带入模型中进行训练。在缺少实际使用场景的训练数据时，通过辅助数据替换的方式，达到音频驱动口型的目的，减小训练过程中需要的样本数据的量级。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种音频驱动人物口型模型结构示意图；

图2为本申请提供的一种音频驱动人物口型模型的工作流程图；

图3为本申请提供一种音频驱动人物口型模型的训练方法的流程图；

图4为本申请提供的一种音频驱动人物口型方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

需要说明的是，本申请的说明书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本说明书中通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等，意味着结合该实施例描述的具体特征，部件或特性包括在至少一个实施例中，因此，本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等，并不一定都指相同的实施例。此外，在一个或多个实施例中，具体特征、部件或特性可以任何合适的方式进行组合。因此，在无限制的情形下，结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括早本申请的范围之内。

神经网络模型在训练的过程中，以口型动作视频作为通用样本数据，通过学习口型动作视频中的口型变化与音频的关系，进而使得模型能够实现音频驱动口型。而在神经网络模型应用的过程中，为了满足用户实际使用的场景下实现良好的音频驱动口型效果，还需要根据用户实际使用的场景进行针对化的训练。但是根据用户实际使用的场景进行针对化的训练过程中，需要预先通过样本数据对模型进行训练。而样本数据中包括与合成动作有关的样本数据和与合成口型动作无关的数据。这就导致训练模型需要大量的样本数据，获取样本数据的过程十分困难。

为了解决上述问题，第一方面，本申请公开了一种音频驱动人物口型模型，参见图1，音频驱动人物口型模型包括：特征提取模块、编码器模块、合成模块、数据处理模块、解码器模块；

参见图2，为本申请提供的一种音频驱动人物口型模型的工作流程图。图2中，特征提取模块被配置为提取目标语音的音频特征与目标图像的图像特征；目标语音的音频特征包括：时域特征、频域特征、能量特征、音量大小等。目标图像的图像特征可以包括颜色特征、纹理特征、形状特征和空间关系特征等。

目标语音是用于指示目标人物生成目标动态图像的语音，目标语音可以是用户通过移动终端的录音功能所录制的语音，也可以是对某用户所发出的语音进行声音处理后的语音，例如加速、降速、升调、降调或者其他方式处理的语音。

目标图像是用于指示目标人物生成目标动态图像的口型图像，即所生成的目标动态图像中目标人物的口型图像。目标图像可以是由用户拍摄的人物图像，还可以是虚拟数字人物图像、动漫人物图像等。

目标动态图像是用于指示目标图像执行所述目标语音对应的口型动作时的视频图像，则目标动态图像是以目标图像中的目标人物作为人物形象，其中，人物形象的嘴部区域执行目标语音对应内容的口型动作。

在一些实施例中，目标动态图像还可以根据用户的需求设定虚拟背景来替换目标图像中的真实背景，还可以根据用户的需求在目标动态图像中加入动态效果和带有修饰作用的表情、弹幕等。

所述编码器模块被配置为对所述音频特征和所述图像特征进行编码处理，分别得到音频编码数据和图像编码数据。

对于图像特征可采用传统的卷积编码，例如卷积神经网络。在一些实施例中，还可以使用其他能够对图像进行编码的神经网络或编码器，例如，深度神经网络、端到端的神经网络编码器等。

对于音频特征，为了保证生成图像的音质的流畅度，在编码的过程中需要严格保持音频特征的时间序列。

在一些实施例中，编码器模块包括输入层、卷积层和输出层。

输入层被配置为将音频特征作为输入序列输入；音频特征可以分成多段输入，但是需要保证音频特征的时间序列是连续的，以保证音频特征所对应的口型动作流畅。

卷积层被配置为将输入序列进行卷积处理；卷积层可能存在多个，为确保上述音频特征的时间序列，在时间序列执行卷积处理的过程中，对于存在上下层关系的卷积层，上层卷积层某一时刻的值只依赖于下层卷积某一时刻的值以及在所述某一时刻之前的值，形成一种严格的时间约束关系，保证输入序列的时间序列为连续。进一步而言，在根据下层卷积某一时刻的值以及在所述某一时刻之前的值确定上层卷积对应时刻的值的过程中，上层卷积中实际参与卷积计算的卷积通道的数量小于下层卷积中实际参与卷积计算的卷积通道的数量，例如，在根据下层卷积t时刻，t-1时刻，t-2时刻对应的输出确定上层卷积的值时，下层卷积t时刻，t-1时刻，t-2时刻对应的值分别由一个卷积通道输出，并将三个值输入至上层卷积中的一个卷积通道中进行计算，并进一步输出。

以此类推，在本实施例的卷积层中，在输入至输出的过程中，上层卷积在计算过程中会逐步出现空卷积通道，以此，在实现计算目的的前提下，可有效控制模型的整体体积。

本实施例可以减小编码时造成的音频误差，进一步提高目标动态图像中的音频精度和流畅度。

输出层被配置为将卷积处理后的序列作为输出序列输出。输出序列的长度与输入序列的长度相等，输出序列与输入序列为单向映射关系。

合成模块被配置为将音频编码数据和图像编码数据进行拼接，得到图音数据；图音数据中同时包含音频特征和对应的图像特征。在图音数据中，可以将音频编码数据和图像编码数据以帧为单位一一对应匹配，使得每一图像特征对应于该图像帧下的音频特征，便于后续对图音数据的进一步处理。

数据处理模块被配置为对图音数据进行合成处理得到动态图像编码结果；

在一些实施例中，数据处理模块包括若干残差块和分散注意力块。

残差块被配置为对图音数据的特征进行深度学习；残差块能够提取图音数据中更深层次的特征，进一步的优化动态图像编码结果的合成效果。

分散注意力块被配置为分割残差块深度学习的特征。将残差块深度学习的特征分为多个特征，根据多个特征共同合成动态编码结果。

解码器模块被配置为对动态图像编码结果进行解码处理，得到目标动态图像。

在一些实施例中，音频驱动人物口型模型还包括预处理模块，预处理模块被配置为在音频驱动人物口型模型的训练过程中根据样本图像生成预设时长的静默视频，并将所述静默视频处理为样本图像数据；以及，将辅助视频处理为辅助数据；其中，所述样本图像用于指示目标人物的口型图像，所述辅助视频包括非目标人物说话发出的非目标口型动作以及与所述非目标口型动作对应的非目标语音；所述样本图像数据与所述辅助数据用于对所述模型进行训练。

在本实施例中，静默视频的每一帧图像均为样本图像，每一帧图像对应的音频为空白音频。辅助数据用于后续与样本图像数据共同输入至待训练模型中，对待训练模型进行训练。样本图像数据中的图像即为样本图像，样本图像数据中的音频即为空白音频。辅助数据中的图像即为非目标人物发出非目标口型动作的图像，辅助数据中的音频即为非目标口型动作对应的非目标语音音频。辅助数据的作用是通过与样本图像混合的形式，使辅助数据代替部分的样本图像数据，能够达到减小样本数据的所需数量的目的。

第二方面，参见图3，为本申请提供一种音频驱动人物口型模型的训练方法的流程图，所述方法包括：

S101：获取样本数据；其中，所述样本数据包括样本图像与辅助数据，所述样本图像是用于指示目标人物的口型图像；所述辅助数据由辅助视频经过预处理得到，所述辅助视频包括非目标人物说话发出的非目标口型动作以及与所述非目标口型动作对应的非目标语音；

在S101的步骤中，首先要对样本数据进行处理，即对样本图像与辅助数据分别进行预处理，获得能够对待训练模型进行训练的数据。

需要说明的是，样本图像可以是由用户通过带有摄像功能的移动终端拍摄的人物图像，还可以是虚拟数字人物图像、动漫人物图像等。其中，为了模型能够更好的训练嘴部区域的动作，样本图像最好能够完整露出人物的面部或完整露出人物的嘴部区域。

进一步的，在对样本图像处理之前，还可以识别样本图片中的人数，当样本图片中仅存在一个人物时，可直接对所述样本图像进行预处理。当样本图像中存在多个人物时，首选完整露出人物面部的图像作为样本图像。若存在多个完整露出人物面部的图像，首先选择人物面部面积最大的最为样本图像。

根据样本图像生成预设时长的静默视频，并将静默视频处理为样本图像数据；静默视频中的音频为空白音频。示例性的，根据样本图像生成一段十分钟的静默视频，以帧为单位对十分钟的静默视频进行预处理，每一帧的图像为样本图像，每一帧的音频为空白音频。

需要说明的是，因为视频是由一帧一帧的图像组成，所以视频的时长越长，能够得到的帧数据也就越多。因此，训练模型所需样本图像数据数量可以根据所生成静默视频的时长进行调整，当所需的样本数量的量级较大，可以通过生成更长的静默视频来获取更多的样本图像数据。辅助数据的获取方式与样本图像数据原理相同，即为选择不同时长的辅助视频，并对辅助视频进行预处理，在此不做赘述。

S102：将样本数据中的样本图像数据与辅助数据，按照预设比例输入至待训练模型中得到图像编码结果。

需要说明的是，为了达到减小样本数据量级的目的,需要使用辅助数据代替部分的样本图像数据参与训练，所以样本数据中的辅助数据不能为0。

示例性的，在模型的一次训练过程中，所选取参与训练的样本数据的数量为n个，n中的样本图像数据和辅助数据可以随机选取，例如，选取1张样本图像数据和n-1个辅助数据，或者选取20张样本图像数据和n-20个辅助数据。以此保证样本照片每轮都会被训练，达到较好的拟合效果。在一些实施例中，图像数据与辅助数据比例可以是0:1，即参与训练的样本数据全部为辅助数据。

S103：根据所述图像编码结果与所述样本数据的标签对所述待训练模型进行训练，得到训练结果；其中，所述待训练模型为第一方面中任意一项所述的音频驱动人物口型模型；所述样本数据的标签包括所述静默视频中所述样本图像数据对应的空白音频，以及，所述辅助视频中所述非目标口型动作对应的非目标语音。

在本实施例中，图像编码结果中包括以预设比例输入的辅助数据和样本图像数据，在训练的过程中，样本数据的标签会不断替换掉图像编码结果中的音频特征。在图像编码结果中，由辅助数据输入至待训练模型后，其辅助音频特征是由非目标语音经过提取得到。在训练的过程中，样本数据的标签会替换掉图像编码中由样本图像数据中的静音特征和由辅助数据中的辅助音频特征，以保证图像编码结果中的所有数据都能够被训练到，提高图像的拟合效果。

以上述相同示例对步骤S103做详细说明，在一次训练的过程中，以m数量的静音特征替换样本数据中的音频特征。例如，当n为500时，m为100时，由5次训练即可使全部的样本数据参与训练。在实际使用中m过大容易导致过拟合，影响目标动态图像的口型效果，m过小容易导致目标动态图像重构有瑕疵。在本示例中，m为n/8时，图像拟合的效果最好。

S104：当所述训练结果符合预设结果，得到训练完成的模型；其中，所述预设结果用于指示所述待训练模型的损失函数训练至收敛。

当训练结果符合预设结果时，说明此时模型的损失函数已经收敛，模型完成训练。用户即可输入目标语音即可得到驱动目标语音口型动作的目标动态图像。目标动态图像中的口型动作是执行说出目标语音内容时的动作。

在一些实施例中，所述当所述训练结果符合预设结果，得到训练完成的模型的步骤包括：

计算所述训练结果的训练误差；在得到训练结果后，还需要对训练结果进行图像精度判断，此时需要将训练误差与标准动态图像的图像误差进行比对，得到比对结果；所述图像误差为标准动态图像连续两帧画面之间的误差。训练结果是由样本数据经过待训练模型处理后得到的动态图像。

在本实施例中，可以获取训练结果中任意连续两帧的图像作为图像误差的计算素材。计算训练误差时，可以通过计算两幅图像的均方误差、均方根误差、平均绝对误差或峰值信噪比等，来获取训练误差。

当比对结果为训练误差小于或等于所述图像误差，此时说明训练结果的拟合程度已经能够达到标准图像的精度，训练结果符合预设结果，另外，也说明模型的损失函数已经收敛，模型完成训练。

在一些实施例中，当所述训练结果不符合预设结果时，转至步骤S105。

S105：按照样本图像数据与辅助数据的比例，重新调整所述样本数据中的所述样本图像数据与所述辅助数据的分布，并将调整后的所述样本数据重新输入至所述待训练模型中进行训练。

训练结果不符合预设结果时，说明在模型训练过程中的拟合效果较差，得到训练结果的拟合程度达不到标准图像的精度。此时需要调整样本数据中的样本图像数据与辅助数据的分布，并重新执行步骤S102。

进一步的，按照样本图像数据与辅助数据的比例，重新调整样本数据中的样本图像数据与辅助数据的分布的步骤，包括：

重置样本数据中第一预设数量的样本图像数据和第二预设数量的辅助数据。

在训练的过程中，需要保证样本图像数据与辅助数据保持不变。所以就需要替换掉相同数量的样本图像数据或相同数量的辅助数据，在替换的过程中，替换掉的样本图像数据的数量和替换掉的辅助数据的数量可以不同。替换的数量可以是全部替换，也可以是部分数量替换，仅需要保证替换前后的样本图像数据与辅助数据保持不变即可。

在一些实施例中，还可以根据样本图像数据与辅助数据的比例，同时增加或减少第三预设数量的样本图像数据和第四预设数量的辅助数据。例如，当此时样本图像数据和辅助数据的比例为1:3，而样本图像数据的数量是200，辅助数据的数量是600。此时，可以增加样本图像数据的数量至400，增加辅助数据的数量至1200，以保证样本图像数据和辅助数据的比例依然为1:3。

第三方面，参见图4，为本申请提供的一种音频驱动人物口型方法的流程图，所述方法应用于第二方面中任意一种训练方法得到的音频驱动人物口型模型，包括：

S201：获取用于驱动目标口型动作的目标语音与目标图像；其中，所述目标语音是用于指示目标人物生成目标动态图像的语音，所述目标图像是用于指示目标人物生成目标动态图像的口型图像；所述目标动态图像是用于指示所述目标图像执行所述目标语音对应的口型动作时的视频图像；

S202：提取所述目标语音的音频特征和所述目标图像的图像特征；

S203：对所述音频特征和所述图像特征进行编码处理，分别得到音频编码数据和图像编码数据；

S204：将所述音频编码数据和所述图像编码数据进行拼接，得到图音数据；

S205：对所述图音数据进行合成处理得到动态图像编码结果；

S206：对所述动态图像编码结果进行解码处理，得到所述目标动态图像。

上述方法需要将用于合成目标动态图像的目标图像以及用于指示目标人物生成目标动态图像的目标语音输入至训练好的音频驱动人物口型模型中，通过训练好的音频驱动人物口型模型执行上述S201-S206的步骤，输出目标动态图像。

进一步的，对所述音频特征进行编码处理，得到所述音频编码数据的过程包括：

对所述音频特征进行因果卷积计算，得到因果卷积数据；在因果卷积的过程中，每一层的输出都是由上一层的输入得到的，经过多个卷积层的计算，能够对音频特征完成编码。

如果一个输出对应的所有输入越多，并且输入和输出离得越远，就需要增加卷积层的数量，而卷积层数的增加就会带来梯度消失、训练复杂、拟合效果不好等问题。为了解决上述问题，还需要对因果卷积数据进行扩张卷积计算，得到扩张卷积数据；扩张卷积可以通过跳过部分的输入，使模型在层数较低的情况下有更大的感受野，解决梯度消失的问题。

此时需要计算进行卷积计算的过程中产生的残差，并将残差与经过扩张卷积计算后得到的扩张卷积数据进行合成得到音频编码数据。

下面结合实施例对上述方法的应用进行详细说明：

本示例性实施例中，以用户期望生成某APP的动态头像为例进行说明。首先获取用户通过通过手机终端程序拍摄的一张带有人物面部照片，并上传至云端。云端基于上述照片参照前述音频驱动人物口型模型与该模型对应训练方法即可完成音频驱动口型模型的训练。完成训练后，用户通过手机终端程序录制一段音频作为目标音频，如“你好”。并将目标音频上传云端，云端基于上述照片与目标音频，将两者一起输入预先训练好的音频驱动口型模型中，输出最终的目标动态图像。

需要说明的是，上述实施例为用户首次生成目标动态图像，所以需要对音频驱动口型模型进行训练。当音频驱动口型模型已完成训练后，用户再次使用时，可直接输入带有人物面部照片和录制好的目标音频即可。

由上述方案可知，本申请提供一种音频驱动人物口型方法、模型及其训练方法，所述模型的特征提取模块能够对用户输入的目标图像和目标语音分别提取特征，并通过编码器对音频特征和图像特征进行编码处理，再对音频编码数据和图像编码数据进行拼接，得到图音数据，最后对图音数据进行合成和解码处理，得到目标动态图像。音频驱动人物口型模型还可以在训练过程中对样本图像和辅助视频进行处理得到用于训练的样本图像数据和辅助数据。上述模型能够根据用户输入的目标图像和目标语音直接进行处理得到目标图像执行对应目标语音内容的口型动作的目标动态图像。

所述训练方法，首先获取样本数据，包括样本图像和辅助数据。通过获取用于辅助模型训练的辅助视频，并对辅助视频进行预处理得到辅助数据。通过对样本图像生成一段预设时长的静默视频，并将静默视频进行预处理得到样本图像数据。在对待训练模型训练的过程中，通过将样本图像数据和辅助数据以预设比例输入至待训练模型中，包含非目标人物说话发出的非目标口型动作的辅助数据可以完善模型对合成训练口型动作的过程，使得在训练过程中没有与合成口型动作无关的部分，解决了训练过程需要大量样本数据的问题。

所述音频驱动人物口型方法，用户通过将照片和一段语音输入至音频驱动人物口型模型中，分别提取照片的图像特征和语音的音频特征，并分别对图像特征和音频特征进行编码处理，得到音频编码数据和图像编码数据，并将二者拼接得到图音数据，最后对图音数据进行进一步合成和解码处理，得到目标动态图像。

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种音频驱动人物口型模型，其特征在于，包括：特征提取模块、编码器模块、合成模块、数据处理模块、预处理模块、和解码器模块，其中，

所述编码器模块被配置为对所述音频特征和所述图像特征进行编码处理，分别得到音频编码数据和图像编码数据；

所述合成模块被配置为将所述音频编码数据和所述图像编码数据进行拼接，得到图音数据；

所述数据处理模块被配置为对所述图音数据进行合成处理得到动态图像编码结果；

所述解码器模块被配置为对所述动态图像编码结果进行解码处理，得到所述目标动态图像；

所述预处理模块被配置为，在所述模型的训练过程中根据样本图像生成预设时长的静默视频，并将所述静默视频处理为样本图像数据；以及，将辅助视频处理为辅助数据；其中，所述样本图像用于指示目标人物的口型图像，所述辅助视频包括非目标人物说话发出的非目标口型动作以及与所述非目标口型动作对应的非目标语音；所述样本图像数据所述样本图像数据与所述辅助数据用于对所述模型进行训练。

2.根据权利要求1所述的音频驱动人物口型模型，其特征在于，所述编码器模块包括输入层、卷积层和输出层；

所述输入层被配置为将所述音频特征作为输入序列输入；

所述卷积层被配置为将所述输入序列进行卷积处理；

3.根据权利要求2所述的音频驱动人物口型模型，其特征在于，所述数据处理模块包括若干残差块和分散注意力块；

所述残差块被配置为对所述图音数据的特征进行深度学习；

4.一种音频驱动人物口型模型的训练方法，其特征在于，包括：

将所述样本数据中的所述样本图像数据与所述辅助数据，按照预设比例输入至待训练模型中得到图像编码结果，并根据所述图像编码结果与所述样本数据的标签对所述待训练模型进行训练，得到训练结果；其中，所述待训练模型为权利要求1-3中任意一项所述的音频驱动人物口型模型；所述样本数据的标签包括所述静默视频中所述样本图像数据对应的空白音频，以及，所述辅助视频中所述非目标口型动作对应的非目标语音；

5.根据权利要求4所述的音频驱动人物口型模型的训练方法，其特征在于，当所述训练结果不符合预设结果时，

按照所述预设比例，重新调整所述样本数据中的所述样本图像数据与所述辅助数据的分布，并将调整后的所述样本数据重新输入至所述待训练模型中进行训练；

当所述训练结果符合预设结果，得到训练完成的模型。

6.根据权利要求5所述的音频驱动人物口型模型的训练方法，其特征在于，所述按照所述预设比例，重新调整所述样本数据中的所述样本图像数据与所述辅助数据的分布的步骤，包括：

7.根据权利要求6所述的音频驱动人物口型模型的训练方法，其特征在于，所述当所述训练结果符合预设结果，得到训练完成的模型的步骤包括：

计算所述训练结果的训练误差；

8.一种音频驱动人物口型方法，其特征在于，应用于权利要求4至7中任意一种训练方法得到的音频驱动人物口型模型，包括：

获取用于驱动目标口型动作的目标语音与目标图像；其中，所述目标语音是用于指示目标人物生成目标动态图像的语音，所述目标图像是用于指示目标人物生成目标动态图像的口型图像；所述目标动态图像是用于指示所述目标图像执行所述目标语音对应的口型动作时的视频图像；

提取所述目标语音的音频特征和所述目标图像的图像特征；

对所述图音数据进行合成处理得到动态图像编码结果；

9.根据权利要求8所述的音频驱动人物口型方法，其特征在于，对所述音频特征进行编码处理，得到所述音频编码数据的过程包括：

对所述音频特征进行因果卷积计算，得到因果卷积数据；

计算进行卷积计算的过程中产生的残差；