CN114581567B

CN114581567B - 一种声音驱动虚拟形象口型方法、装置及介质

Info

Publication number: CN114581567B
Application number: CN202210483379.0A
Authority: CN
Inventors: 唐浩
Original assignee: Chengdu Tishi Infinite Technology Co ltd
Current assignee: Chengdu Tishi Infinite Technology Co ltd
Priority date: 2022-05-06
Filing date: 2022-05-06
Publication date: 2022-08-02
Anticipated expiration: 2042-05-06
Also published as: CN114581567A

Abstract

本申请公开了一种声音驱动虚拟形象口型方法、装置及介质，涉及人工智能领域。通过获取由音频采集设备采集的目标语音，获取其中的声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，得到与目标语音时间同步的目标口型。上述方案通过采集语音并识别音频中每个词的发音及其对应的时间段，结合声音波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，使得虚拟人物的口型和声音同步，同步效率高且成本低。

Description

一种声音驱动虚拟形象口型方法、装置及介质

技术领域

本申请涉及人工智能领域，特别是涉及一种声音驱动虚拟形象口型方法、装置及介质。

背景技术

目前人工智能技术和增强现实（Augmented Reality，AR）智能技术正在飞速发展，互联网用户的内容摄取需求越来丰富，针对动画，虚拟数字形象，AR等内容的需求越加强烈，在动画的制作过程中，面部表情的控制通常由动捕演员表演后导入虚拟形象，然后由配音演员配音后再对虚拟形象的口型进行人为的调整。此方法对于配音演员的要求极高，要求其对动画片段及其的熟悉已经超高的反应能力。

但是，这种方法难以保证配音后的虚拟形象的声音和口型能够精准的同步。所以需要人为的对口型进行再调整。这整个过程比较繁杂，制作成本高，并且需要非常专业的技术人员才能完成。

鉴于上述问题，设计一种声音驱动虚拟形象口型方法，使声音和口型同步效率高且成本低，是该领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供一种声音驱动虚拟形象口型方法、装置及介质，使得声音和口型同步效率高且成本低。

为解决上述技术问题，本申请提供一种声音驱动虚拟形象口型方法，包括：

获取通过音频采集设备采集的目标语音；

获取所述目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；

根据所述持续时间和所述幅度值获取基本发音口型模型在预设频率下的时序数据；其中，所述基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；

将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型。

优选地，所述获取所述目标语音中声韵母或音标及其对应的持续时间包括：

输入所述目标语音至时间获取模型中；

其中，所述时间获取模型为通过神经网络训练的用于识别语音中声韵母或音标及其对应的持续时间的模型；

获取所述时间获取模型输出的所述目标语音中声韵母或音标及其对应的所述持续时间。

优选地，所述基本发音口型模型的生成过程包括如下步骤：

获取不同的声韵母或不同的音标的发音口型，并合并相似的声韵母或音标的发音口型；

获取与所述发音口型对应的语音波形包络的幅度值；

根据所述发音口型与所述对应的语音波形包络的幅度值生成得到所述基本发音口型模型。

优选地，在所述将所述时序数据输入至所述基本发音口型模型之前，还包括：

对所述时序数据进行滤波处理和消抖处理。

优选地，在所述得到与所述目标语音时间同步的目标口型之后，还包括：

输出所述目标口型生成成功的信息。

优选地，在所述输出所述目标口型生成成功的信息之后，还包括：

将所述目标口型的数据导入虚拟引擎进行渲染，以得到所述目标口型的图像。

优选地，在所述将所述目标口型的数据导入虚拟引擎进行渲染之后，还包括：

记录根据所述目标语音获取到所述目标口型的过程信息。

为解决上述技术问题，本申请还提供一种声音驱动虚拟形象口型装置，包括：

第一获取模块，用于获取通过音频采集设备采集的目标语音；

第二获取模块，用于获取所述目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；

第三获取模块，用于根据所述持续时间和所述幅度值获取基本发音口型模型在预设频率下的时序数据；其中，所述基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；

输入模块，用于将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型。

为解决上述技术问题，本申请还提供另一种声音驱动虚拟形象口型装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述所述的声音驱动虚拟形象口型方法的步骤。

为解决上述技术问题，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的声音驱动虚拟形象口型方法的步骤。

本申请所提供的声音驱动虚拟形象口型方法，通过获取由音频采集设备采集的目标语音，获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。由此可见，上述技术方案通过采集目标语音并识别音频中每个词的发音及其对应的时间段，然后结合声音的波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，从而使得虚拟人物的口型和声音能够同步，同步效率高且成本低。

此外，本申请实施例还提供了一种声音驱动虚拟形象口型装置及计算机可读存储介质，效果同上。

附图说明

为了更清楚地说明本申请实施例，下面将对实施例中所需要使用的附图做简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种声音驱动虚拟形象口型方法的流程图；

图2为本申请实施例提供的声韵母对应的基础口型图；

图3为本申请实施例提供的另一种声音驱动虚拟形象口型方法的流程图；

图4为本申请实施例提供的一种声音驱动虚拟形象口型装置的结构示意图；

图5为本申请实施例提供的另一种声音驱动虚拟形象口型装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下，所获得的所有其他实施例，都属于本申请保护范围。

本申请的核心是提供一种声音驱动虚拟形象口型方法、装置及介质。

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。

图1为本申请实施例提供的一种声音驱动虚拟形象口型方法的流程图。可以理解的是，在动画的制作过程中，面部口型与声音同步是其中重要的一部分。本实施例中声音驱动虚拟形象口型方法主要应用于面部口型与声音同步的制作场景。如图1所示，声音驱动虚拟形象口型方法包括：

S10：获取通过音频采集设备采集的目标语音。

S11：获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值。

S12：根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型。

S13：将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。

在动画的制作过程中，虚拟人物的口型要与声音同步，这样才能保证良好的观看体验。为了实现声音与口型同步，在本实施例中，首先获取通过音频采集设备采集的目标语音；这里的音频采集设备是具有音频录制功能的设备，在本实施例中不做限制。采集到的目标语音即为想要得到的虚拟人物口型的对应的语音。可以理解的是，目标语音可以是中文语音，也可以是其他语言的语音，例如英语等其他语言等。其中，中文语音的拼音是由声母和韵母组成，英文音标是由元音和辅音组成；例如“你好”的拼音是由n、i、h和ao两个声母和两个韵母组成。

具体地，本实施例中获取目标语音中声韵母或音标对应的持续时间。可以理解的是，在为了实现口型同步，要获取语音中每一个声韵母或音标及其对应的持续时间，使得在口型同步时能够准确地确定每一个口型持续的时间。对于声韵母或音标及其对应的持续时间的获取方式在本实施例中不做限制，可以为通过测量获得，也可以为通过深度学习获得，根据具体的实施情况而定。同时获取对应的语音波形包络信息并进行归一化处理，具体获取到对应的幅度值。

需要注意的是，在获取到目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值后，根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据。可以理解的是，每一个声韵母或音标都有一个对应的口型，而基本发音口型模型是通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型，每一个幅度值对应着一个固定的口型。对于基本发音口型模型的生成方式在本实施例中不做限制，根据具体的实施情况而定。本实施例中的预设频率为口型图像的输出频率，以语音“你好”为例，假设语音持续时间为0.5s，获取到“你好”语音声韵母的持续时间分别为：n（132ms~178ms）；i（178ms~230ms）；h（358ms~376ms）；ao（376ms~421ms）；假设预设频率为每秒20帧输出，则共输出10帧口型图像；n，i，h，ao分别在20维向量的第1、2、3和4位；且得到的对应的波形包络的幅度值分别为0.16、0.398、0.282和0.19。在这段语音中只有这四个声韵母，因此这20维向量的第5至20位全为0，在这里只取前4位，输出的时序数据为：[0，0，0，0]；[0，0，0，0]；[0，0，0，0]；[0.16，0，0，0]；[0，0.398，0，0]；[0，0，0，0]；[0，0，0，0]；[0，0，0.282，0]；[0，0，0，0.19] ；[0，0，0，0]。在得到上述时序数据后将其输入至基本发音口型模型，由于基本发音口型模型是通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型，每一个幅度值对应着一个口型，且在时序数据中的幅度值是基于声韵母持续时间排列的，因此就能在时间顺序上得到与声音对应的口型，最终实现了声音驱动虚拟形象的口型同步。

本实施例中，通过获取由音频采集设备采集的目标语音，获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。由此可见，上述技术方案通过采集目标语音并识别音频中每个词的发音及其对应的时间段，然后结合声音的波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，从而使得虚拟人物的口型和声音能够同步，同步效率高且成本低。

在上述实施例的基础上：

作为一种优选的实施例，获取目标语音中声韵母或音标及其对应的持续时间包括：

输入目标语音至时间获取模型中；

其中，时间获取模型为通过神经网络训练的用于识别语音中声韵母或音标及其对应的持续时间的模型；

获取时间获取模型输出的目标语音中声韵母或音标及其对应的持续时间。

在上述实施例中，对于声韵母或音标的持续时间的获取方式不做限制，根据具体的实施情况而定。作为一种优选的实施例，在本实施例中通过神经网络训练的时间获取模型来获取声韵母或音标的持续时间。可以理解的是，对于声韵母或音标对应的持续时间的获取可以采用测量的方式，但是测量的方式所消耗的时间较长，且每一次的声音口型同步都需要进行测量，所消耗的资源较大，不利于高资源占用的动画制作。因此通过神经网络训练一个用于识别语音中声韵母或音标及其对应持续时间的时间获取模型，其优势是测量迅速，调用资源小，只需输入目标语音至时间获取模型中，能够立刻获取到目标语音中声韵母或音标及其对应的持续时间。对于时间获取模型的具体训练方式在本实施例中不做限制，对于训练所使用的神经网络在本实施例不做限制，根据具体的实施情况而定。

本实施例中，通过使用神经网络训练的用于识别语音中声韵母或音标及其对应的持续时间的时间获取模型，去获取模型输出的目标语音中声韵母或音标及其对应的持续时间，相比于测量等其他方式更加快速，且节省资源。

在上述实施例的基础上：

作为一种优选的实施例，基本发音口型模型的生成过程包括如下步骤：

获取与发音口型对应的语音波形包络的幅度值；

根据发音口型与对应的语音波形包络的幅度值生成得到基本发音口型模型。

可以理解的是，基本发音口型模型是通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型。为了生成该模型，首先需要获取不同的声韵母或不同音标的发音口型。其次需要合并相似的声韵母或音标的发音口型；以声韵母为例，y和i，en和eng，其发音相近，从口型上看几乎没有区别，对其发音口型进行合并。图2为本申请实施例提供的声韵母对应的基础口型图。如图2所示，经过对相似口型的合并，得到了如图2所示的20中口型和对应的声韵母。同时，获取与发音口型对应的语音波形包络的幅度值，使得声韵母的口型与语音波形包络的幅度值一一对应，最终生成基本发音口型模型。

本实施例中，通过获取不同的声韵母或不同的音标的发音口型，并合并相似的声韵母或音标的发音口型，获取与发音口型对应的语音波形包络的幅度值；根据发音口型与对应的语音波形包络的幅度值生成得到基本发音口型模型，以用于后续输入时序数据得到目标口型。

图3为本申请实施例提供的另一种声音驱动虚拟形象口型方法的流程图。如图3所示，在将时序数据输入至基本发音口型模型之前，即步骤S13之前，方法还包括：

S14：对时序数据进行滤波处理和消抖处理。

在具体实施中，在获得了时序数据后，对时序数据进行滤波处理和消抖处理，能够有效抑制和防止干扰，对数据进行误差修正，再将时序数据输入至基本发音口型模型中，使得通过时序数据生成的口型动作更加自然合理。

如图3所示，在得到与目标语音时间同步的目标口型之后，即步骤S13之后，方法还包括：

S15：输出目标口型生成成功的信息。

S16：将所述目标口型的数据导入虚拟引擎进行渲染，以得到所述目标口型的图像。

在口型制作的过程中，可能会批量生成目标口型的动画。例如输入一段演员的配音音频，获取该音频中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值。根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据并输入至基本发音口型模型中，其口型同步渲染过程可能会持续一段时间。为了提醒工作人员目标口型生成成功，在生成了目标口型之后，输出目标口型生成成功的信息，例如进行弹窗提醒或产生声音提醒，在本实施例中不做限制，根据具体的实施情况而定；同时在进行提醒之后，将目标口型的数据导入虚拟引擎进行渲染，得到目标口型的图像或视频，以供工作人员进行后续操作。这里用于渲染得到目标口型图像的虚拟引擎即为三维动画特效引擎，例如Autodesk 公司的玛雅引擎（Autodesk Maya）、3D Studio Max引擎或其他的特效引擎；在本实施例中对于具体使用的引擎不做限制，根据具体的实施情况而定。

本实施例中，在得到目标口型之后，输出目标口型生成成功的信息，将目标口型的数据导入虚拟引擎进行渲染，得到目标口型的图像，能够提醒工作人员目标口型生成，并输出口型图像以供工作人员进行后续操作。

如图3所示，为了方便下一次的声音与口型的同步，在将所述目标口型的数据导入虚拟引擎进行渲染之后，方法还包括：

S17：记录根据目标语音获取到目标口型的过程信息。

可以理解的是，上述步骤完成了一次完整的声音驱动虚拟形象口型的过程，而该过程是动画制作中贯穿始终的部分。考虑到在后续进行声音和口型同步的过程中，可能会出现相同的语音输入，以至于得到相同的口型；因此为了节省动画制作时间，记录根据目标语音获取到目标口型的过程信息，以便于在下一次输入目标语音时直接得到目标口型。需要注意的是，这里的过程信息至少要包括目标语音的时长、每个声韵母或音标的持续时间以及预设频率，这样才能保证输出准确的目标口型。

本实施例中，记录根据目标语音获取到目标口型的过程信息，以便于在下一次输入目标语音时直接得到目标口型，节省了动画制作的时间。

在上述实施例中，对于声音驱动虚拟形象口型方法进行了详细描述，本申请还提供声音驱动虚拟形象口型装置对应的实施例。需要说明的是，本申请从两个角度对装置部分的实施例进行描述，一种是基于功能模块的角度，另一种是基于硬件结构的角度。

图4为本申请实施例提供的一种声音驱动虚拟形象口型装置的结构示意图。如图4所示，声音驱动虚拟形象口型装置包括：

第一获取模块10，用于获取通过音频采集设备采集的目标语音。

第二获取模块11，用于获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值。

第三获取模块12，用于根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型。

输入模块13，用于将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。

本实施例提供的声音驱动虚拟形象口型装置，通过获取由音频采集设备采集的目标语音，获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。由此可见，上述技术方案通过采集目标语音并识别音频中每个词的发音及其对应的时间段，然后结合声音的波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，从而使得虚拟人物的口型和声音能够同步，同步效率高且成本低。

图5为本申请实施例提供的另一种声音驱动虚拟形象口型装置的结构示意图。如图5所示，声音驱动虚拟形象口型装置包括：

存储器20，用于存储计算机程序。

处理器21，用于执行计算机程序时实现如上述实施例中所提到的声音驱动虚拟形象口型方法的步骤。

本实施例提供的声音驱动虚拟形象口型装置可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processor，数字信号处理器)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器20可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器20还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器20至少用于存储以下计算机程序201，其中，该计算机程序被处理器21加载并执行之后，能够实现前述任一实施例公开的声音驱动虚拟形象口型方法的相关步骤。另外，存储器20所存储的资源还可以包括操作系统202和数据203等，存储方式可以是短暂存储或者永久存储。其中，操作系统202可以包括Windows、Unix、Linux等。数据203可以包括但不限于声音驱动虚拟形象口型方法涉及到的数据。

在一些实施例中，声音驱动虚拟形象口型装置还可包括有显示屏22、输入输出接口23、通信接口24、电源25以及通信总线26。

本领域技术人员可以理解，图5中示出的结构并不构成对声音驱动虚拟形象口型装置的限定，可以包括比图示更多或更少的组件。

本实施例提供的另一种声音驱动虚拟形象口型装置，包括存储器，用于存储计算机程序；处理器，用于执行计算机程序时实现如上述实施例中所提到的声音驱动虚拟形象口型方法的步骤。通过获取由音频采集设备采集的目标语音，获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。由此可见，上述技术方案通过采集目标语音并识别音频中每个词的发音及其对应的时间段，然后结合声音的波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，从而使得虚拟人物的口型和声音能够同步，同步效率高且成本低。

最后，本申请还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。

可以理解的是，如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例中提供的计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。通过获取由音频采集设备采集的目标语音，获取目标语音中声韵母或音标及其对应的持续时间，并获取对应的语音波形包络的幅度值；根据持续时间和幅度值获取基本发音口型模型在预设频率下的时序数据；其中，基本发音口型模型为通过不同的声韵母或不同的音标的口型下对应的语音波形包络的幅度值生成的模型；将时序数据输入至基本发音口型模型，以得到与目标语音时间同步的目标口型。由此可见，上述技术方案通过采集目标语音并识别音频中每个词的发音及其对应的时间段，然后结合声音的波形输出连续的时序数据至预先生成的基本发音口型模型中以得到目标口型，从而使得虚拟人物的口型和声音能够同步，同步效率高且成本低。

以上对本申请所提供的一种声音驱动虚拟形象口型方法、装置及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种声音驱动虚拟形象口型方法，其特征在于，包括：

获取通过音频采集设备采集的目标语音；

将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型；

所述获取所述目标语音中声韵母或音标及其对应的持续时间包括：

输入所述目标语音至时间获取模型中；

2.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，所述基本发音口型模型的生成过程包括如下步骤：

获取与所述发音口型对应的语音波形包络的幅度值；

3.根据权利要求1所述的声音驱动虚拟形象口型方法，其特征在于，在所述将所述时序数据输入至所述基本发音口型模型之前，还包括：

对所述时序数据进行滤波处理和消抖处理。

4.根据权利要求1至3任意一项所述的声音驱动虚拟形象口型方法，其特征在于，在所述得到与所述目标语音时间同步的目标口型之后，还包括：

输出所述目标口型生成成功的信息。

5.根据权利要求4所述的声音驱动虚拟形象口型方法，其特征在于，在所述输出所述目标口型生成成功的信息之后，还包括：

6.根据权利要求5所述的声音驱动虚拟形象口型方法，其特征在于，在所述将所述目标口型的数据导入虚拟引擎进行渲染之后，还包括：

记录根据所述目标语音获取到所述目标口型的过程信息。

7.一种声音驱动虚拟形象口型装置，其特征在于，包括：

输入模块，用于将所述时序数据输入至所述基本发音口型模型，以得到与所述目标语音时间同步的目标口型；

所述第二获取模块包括：

语音输入模块，用于输入所述目标语音至时间获取模型中；其中，所述时间获取模型为通过神经网络训练的用于识别语音中声韵母或音标及其对应的持续时间的模型；

持续时间获取模块，用于获取所述时间获取模型输出的所述目标语音中声韵母或音标及其对应的所述持续时间。

8.一种声音驱动虚拟形象口型装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的声音驱动虚拟形象口型方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的声音驱动虚拟形象口型方法的步骤。