CN113506360A

CN113506360A - 一种虚拟人物表情驱动方法和系统

Info

Publication number: CN113506360A
Application number: CN202110785312.8A
Authority: CN
Inventors: 余国军; 梁帅东; 尹川; 虞强
Original assignee: Beijing Shun Tian Li'an Technology Co ltd
Current assignee: Beijing Shun Tian Li'an Technology Co ltd
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-10-15

Abstract

本申请实施例公开了一种虚拟人物表情驱动方法和系统，所述方法包括：通过获取用户的语音信息；将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。简化了表情动画的生成，可以广泛应用于智能音箱、智能机器人、聊天机器人等场景，使这类产品拟人化，具备了情感交互体验。

Description

一种虚拟人物表情驱动方法和系统

技术领域

本申请实施例涉及人工智能技术领域，具体涉及一种虚拟人物表情驱动方法和系统。

背景技术

随着大数据和深度学习技术的发展，语音识别和声纹识别越来越多的运用于各行各业，包括目标任务确认，语音开锁，智能语音机器人等行业，还包括智能人机交互，声控机器人，智能家居语音唤醒等，随着深度学习技术的不断发展，声纹识别和语音识别技术已经出现了很多影响人们生活的产品，越来越大的影响了人类生活。

传统的口型、表情驱动需要由模特配合，例如：通过拍摄模特不同的表情不同的口型，再通过算法将表情口型数字化，最终将表情口型参数应用于虚拟角色，驱动虚拟角色的表情口型，生成表情口型动画。这个过程非常麻烦，该技术也难以应用于当今智能机器人、智能直播、聊天机器人等，其传统的表情捕捉方式已经难以适应快速发展的新型技术。

发明内容

为此，本申请实施例提供一种虚拟人物表情驱动方法和系统，简化了表情动画的生成，可以广泛应用于智能音箱、智能机器人、聊天机器人等场景，使这类产品拟人化，具备了情感交互体验。

为了实现上述目的，本申请实施例提供如下技术方案：

根据本申请实施例的第一方面，提供了一种虚拟人物表情驱动方法，所述方法包括：

获取用户的语音信息；

将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；

将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；

将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；

将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。

可选地，所述将所述应答语音转化为表情口型动画数据，包括：将所述应答语音导入至预先训练好的卷积神经网络内，结合设定的表情口型动画的权重，获得表情口型动画数据。

可选地，所述将获得的应答转化为应答语音，包括：将应答的结果经TTS模块转化为应答语音，所述应答语音为对用户的应答语音，包括通过音量分析模块分析出来的口型表情指令。

可选地，所述用户的语音信息是通过智能音箱、智能机器人、聊天机器人、麦克风进行采集的。

根据本申请实施例的第二方面，提供了一种虚拟人物表情驱动系统，所述系统包括：

语音信息获取模块，用于获取用户的语音信息；

文字信息模块，用于将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；

口型表情指令模块，用于将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；

语义计算模块，用于将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；

驱动模块，用于将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。

可选地，所述驱动模块，具体用于：

将所述应答语音导入至预先训练好的卷积神经网络内，结合设定的表情口型动画的权重，获得表情口型动画数据。

可选地，所述驱动模块，具体用于：

将应答的结果经TTS模块转化为应答语音，所述应答语音为对用户的应答语音，包括通过音量分析模块分析出来的口型表情指令。

根据本申请实施例的第三方面，提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行第一方面任一项所述的方法。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如第一方面任一项所述的方法。

综上所述，本申请实施例提供了一种虚拟人物表情驱动方法和系统，通过获取用户的语音信息；将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。简化了表情动画的生成，可以广泛应用于智能音箱、智能机器人、聊天机器人等场景，使这类产品拟人化，具备了情感交互体验。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本申请实施例提供的一种虚拟人物表情驱动方法流程示意图；

图2为本申请实施例提供的虚拟人物表情驱动方法实施例示意图；

图3为本申请实施例提供的虚拟人物表情驱动系统框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本申请实施例提供的一种虚拟人物表情驱动方法，所述方法包括：

步骤101：获取用户的语音信息；

步骤102：将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；

步骤103：将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；

步骤104：将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；

步骤105：将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。

在一种可能的实施方式中，在步骤105中，所述将所述应答语音转化为表情口型动画数据，包括：将所述应答语音导入至预先训练好的卷积神经网络内，结合设定的表情口型动画的权重，获得表情口型动画数据。

在一种可能的实施方式中，在步骤105中，所述将获得的应答转化为应答语音，包括：将应答的结果经TTS模块转化为应答语音，所述应答语音为对用户的应答语音，包括通过音量分析模块分析出来的口型表情指令。

在一种可能的实施方式中，在步骤101之前，所述用户的语音信息是通过智能音箱、智能机器人、聊天机器人、麦克风进行采集的。

在一种可能的实施方式中，应答的结果以字符串的形式输出。

图2示出了本申请实施例提供的虚拟人物表情驱动方法适用的系统流程图，图中：100-语音采集端、200-云端、201-ASR模块、202-NLP模块、203-TTS模块。具体可以包括以下步骤：

步骤1：对用户的语音信息进行采集，并将得到的语音信息以无线或有线的方式进行输出，此处，语音信息的采集可以通过智能音箱、智能机器人、聊天机器人、麦克风等设备进行采集；

步骤2：将获得的语音信息中的音量音素进行解析，优选的，语音信息经过ASR模块解析，获得与该语音信息相对的文字信息，语音中的音量信息通过音量分析模块，得到对应口型表情指令，两者合并进行语义计算同时获得应答，此处，语义计算由NLP模块进行，NLP模块进行语义计算完成后，可知用户的语义信息，而现有的语音交互设备均具有自动应答功能，因此，根据该语义信息可以获的与该语义信息相对的应答，此处，为了便于后续的处理，应答以字符串的形式输出；

步骤3：将获得的应答转化为语音，优选的，该应答的结果经TTS模块转化为语音，此语音相当于是对用户的应答语音，应答语音中包括通过音量分析模块分析出来的口型表情指令，可以转化为表情动画数据，用来驱动虚拟人物作出对应的表情口型，即用户发出语音后，虚拟人物可以做出对应的表情口型来应答用户。

具体来说，应答语音转化为表情口型动画数据可以通过卷积神经网络的方式来实现，将应答语音导入至预先训练好的卷积神经网络内，考虑到表情口型动画的权重，可以直接获得表情口型动画数据。

在实际应用时，对用户的语音信息进行采集很容易实现，但是后期对语音音量信息进行处理以获得对应的表情动画数据需要大量的计算，因此，本实施例将语音信息的收集、语音音量的分析，语义计算、应答、应答结果的转化以及表情口型动画数据的获得在云端中进行，得到的包括音量的语音信息以无线或有线的方式进行输出至云端，在云端内完成计算等处理后，将获得的表情口型动画数据再通过无线或有线的方式传输。

在本申请实施例提供的方法中，基于语音音量模块实现用户语音信息到文字信息的转换，经过NLP模块进行语义的计算和理解后，将其转化为具有表情、带动口型的语音，再经过预先训练好的卷积神经网络模型中，直接获得表情动画数据，大大简化了表情动画的生成，可以广泛应用于智能音箱、智能机器人、聊天机器人等场景，使这类产品拟人化，具备了情感交互体验，用户可以跟一个虚拟人物面对面交互。

综上所述，本申请实施例提供了一种虚拟人物表情驱动方法，通过获取用户的语音信息；将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。简化了表情动画的生成，可以广泛应用于智能音箱、智能机器人、聊天机器人等场景，使这类产品拟人化，具备了情感交互体验。

基于相同的技术构思，本申请实施例还提供了一种虚拟人物表情驱动系统，如图3所示，所述系统包括：

语音信息获取模块301，用于获取用户的语音信息；

文字信息模块302，用于将所述语音信息的音量信息进行解析，得到所述语音信息的文字信息；

口型表情指令模块303，用于将所述语音信息中的音量信息进行音量分析，得到对应口型表情指令；

语义计算模块304，用于将所述语音信息的文字信息和对应口型表情指令合并进行语义计算，获得应答；

驱动模块305，用于将获得的应答转化为应答语音，将所述应答语音转化为表情口型动画数据，以驱动虚拟人物做出对应的表情和口型。

在一种可能的实施方式中，所述驱动模块305，具体用于：

在一种可能的实施方式中，所述用户的语音信息是通过智能音箱、智能机器人、聊天机器人、麦克风进行采集的。

基于相同的技术构思，本申请实施例还提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行所述的方法。

基于相同的技术构思，本申请实施例还提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行所述的方法。

本说明书中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

需要说明的是，尽管在附图中以特定顺序描述了本发明方法的操作，但这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟人物表情驱动方法，其特征在于，所述方法包括：

获取用户的语音信息；

2.如权利要求1所述的方法，其特征在于，所述将所述应答语音转化为表情口型动画数据，包括：

3.如权利要求1所述的方法，其特征在于，所述将获得的应答转化为应答语音，包括：

4.如权利要求1所述的方法，其特征在于，所述用户的语音信息是通过智能音箱、智能机器人、聊天机器人、麦克风进行采集的。

5.一种虚拟人物表情驱动系统，其特征在于，所述系统包括：

语音信息获取模块，用于获取用户的语音信息；

6.如权利要求5所述的系统，其特征在于，所述驱动模块，具体用于：

7.如权利要求5所述的系统，其特征在于，所述驱动模块，具体用于：

8.如权利要求5所述的系统，其特征在于，所述用户的语音信息是通过智能音箱、智能机器人、聊天机器人、麦克风进行采集的。

9.一种设备，其特征在于，所述设备包括：数据采集装置、处理器和存储器；

所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行如权利要求1-4任一项所述的方法。