CN113704390A

CN113704390A - 虚拟对象的交互方法、装置、计算机可读介质及电子设备

Info

Publication number: CN113704390A
Application number: CN202110313618.3A
Authority: CN
Inventors: 刘杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-11-26

Abstract

本申请的实施例提供了一种虚拟对象的交互方法、装置、计算机可读介质及电子设备。该交互方法包括：根据目标用户输入的待交互信息，确定与所述待交互信息对应的反馈内容的文本信息；根据所述文本信息，确定虚拟对象待输出的音频数据；根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标肢体动作以及目标嘴型动作；获取具有所述目标肢体动作的目标虚拟对象；根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互。本申请实施例的技术方案可以提高人机交互的真实性，进而保证人机交互的交互体验。

Description

虚拟对象的交互方法、装置、计算机可读介质及电子设备

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种虚拟对象的交互方法、装置、计算机可读介质及电子设备。

背景技术

随着人工智能技术的不断发展，可以实现自动人机交互的虚拟机器人越来越多的被应用到日常生活中。在目前的技术方案中，虚拟机器人只能机械的进行人机交互，且没有对应的人物形象展示，导致交互体验较差。因此，如何提高人机交互的真实性，进而保证人机交互的交互体验成为了亟待解决的技术问题。

发明内容

本申请的实施例提供了一种虚拟对象的交互方法、装置、计算机可读介质及电子设备，进而至少在一定程度上可以提高人机交互的真实性，进而保证人机交互的交互体验。

本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。

根据本申请实施例的一个方面，提供了一种虚拟对象的交互方法，该方法包括：

根据目标用户输入的待交互信息，确定与所述待交互信息对应的反馈内容的文本信息；

根据所述文本信息，确定虚拟对象待输出的音频数据；

根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标肢体动作以及目标嘴型动作；

获取具有所述目标肢体动作的目标虚拟对象；

根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互。

根据本申请实施例的一个方面，提供了一种虚拟对象的交互装置，该装置包括：

第一确定模块，用于根据目标用户输入的待交互信息，确定与所述待交互信息对应的反馈内容的文本信息；

第二确定模块，用于根据所述文本信息，确定虚拟对象待输出的音频数据；

第三确定模块，用于根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标肢体动作以及目标嘴型动作；

获取模块，用于获取具有所述目标肢体动作的目标虚拟对象；

处理模块，用于根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互。

在本申请的一些实施例中，基于前述方案，该第三确定模块被配置为：根据所述文本信息，确定所述文本信息对应的文本类型，所述文本类型用于描述所述虚拟对象在进行交互时的情绪状态；根据所述文本类型，确定所述虚拟对象输出所述音频数据时对应的目标肢体动作。

在本申请的一些实施例中，基于前述方案，该第三确定模块被配置为：根据所述文本信息，确定所述文本信息对应的音素序列；根据所述音素序列，确定所述虚拟对象输出所述音频数据时的目标嘴型动作。

在本申请的一些实施例中，基于前述方案，该第三确定模块被配置为：根据所述音素序列，确定所述音素序列对应的音节序列；根据所述音节序列以及所述音素序列中各音素的起始时间和持续时长，确定所述音节序列对应的目标嘴型动作。

在本申请的一些实施例中，基于前述方案，该获取模块在获取具有所述目标肢体动作的目标虚拟对象之前，还被配置为：响应针对虚拟对象的生成请求，显示虚拟对象生成界面；根据预设的至少一个肢体动作的动作配置信息，对所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象进行动作配置，得到具有对应的肢体动作的第二虚拟对象；将所述第二虚拟对象添加至动作库中以供选取。

在本申请的一些实施例中，基于前述方案，该获取模块在得到具有对应的肢体动作的第二虚拟对象之后，还被配置为：根据所述第二虚拟对象，生成预览界面，所述预览界面用于显示至少一个所述第二虚拟对象；根据所述预览界面接收到的针对所述第二虚拟对象的动作调整请求，显示第二虚拟对象的动作调整界面；根据所述动作调整界面接收到的动作调整信息，对所述第二虚拟对象进行动作配置，得到并存储更新后的所述第二虚拟对象。

在本申请的一些实施例中，基于前述方案，该获取模块被配置为：根据更新后的所述第二虚拟对象，在所述预览界面中对更新前的所述第二虚拟对象进行替换；或将更新后的所述第二虚拟对象添加至所述预览界面中。

在本申请的一些实施例中，基于前述方案，该获取模块被配置为：获取所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象；将所述第一虚拟对象与预设的至少一个肢体动作的动作配置信息进行匹配；若所述第一虚拟对象和所述动作配置信息之间存在同一肢体部位，根据所述动作配置信息，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请的一些实施例中，基于前述方案，该获取模块被配置为：获取所述动作配置信息中的所述同一肢体部位的第一肢体信息，以及所述第一虚拟对象中的所述同一肢体部位的第二肢体信息；根据所述第一肢体信息和所述第二肢体信息，采用所述动作配置信息对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请的一些实施例中，基于前述方案，所述动作配置信息包括旋转角度、位移距离、关键帧数量以及动作时长；该获取模块被配置为：根据所述第一肢体信息和所述第二肢体信息之间的参数差值以及所述动作配置信息，确定所述第一虚拟对象中的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长；根据所确定的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请的一些实施例中，基于前述方案，处理模块被配置为：驱动所述目标虚拟对象同步输出所述音频数据以及所述目标嘴型动作，以与所述目标用户进行交互。

在本申请的一些实施例中，基于前述方案，在根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互之前，该处理模块还被配置为：若接收到针对目标虚拟对象的声音调整请求，显示声音调整界面，所述声音调整界面包括至少一个声音调整选项；根据所述至少一个声音调整选项接收到的声音调整信息，对所述目标虚拟对象进行声音配置。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中提供的虚拟对象的交互方法

根据本申请实施例的一个方面，提供了一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述实施例中所述的虚拟对象的交互方法。

根据本申请实施例的一个方面，提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上述实施例中所述的虚拟对象的交互方法。

在本申请的一些实施例所提供的技术方案中，通过根据目标用户输入的待交互信息，确定与该待交互信息对应的反馈内容的文本信息，根据该文本信息，确定虚拟对象待输出的音频数据以及该虚拟对象输出该音频数据时的目标肢体动作以及目标嘴型动作，并获取具有该目标肢体动作的目标虚拟对象，再根据该音频数据以及目标嘴型动作，驱动该目标虚拟对象与目标用户进行交互。由此，目标虚拟对象在于目标用户进行交互时，能够输出对应的肢体动作、嘴型动作以及音频，提高了目标虚拟对象的人机交互的真实性，进而保证了人机交互的交互体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了可以应用本申请实施例的技术方案的示例性系统架构的示意图。

图2示出了根据本申请的一个实施例的虚拟对象的交互方法的流程示意图。

图3示出了根据本申请的一个实施例的图2的虚拟对象的交互方法中确定目标肢体动作的流程示意图。

图4示出了根据本申请的一个实施例的图2的虚拟对象的交互方法中确定目标嘴型动作的流程示意图。

图5示出了根据本申请的一个实施例的图4的虚拟对象的交互方法中步骤S420的流程示意图。

图6示出了根据本申请的一个实施例的虚拟对象的交互方法中还包括的生成虚拟对象的流程示意图。

图7示出了根据本申请的一个实施例的虚拟对象的交互方法中还包括的对第二虚拟对象进行动作调整的流程示意图。

图8示出了根据本申请的一个实施例的图6的虚拟对象的交互方法中步骤S620的流程示意图。

图9示出了根据本申请的一个实施例的图8的虚拟对象的交互方法中步骤S830的流程示意图。

图10示出了根据本申请的一个实施例的图9的虚拟对象的交互方法中步骤S920的流程示意图。

图11示出了根据本申请的一个实施例的虚拟对象的交互方法中还包括的对目标虚拟对象进行声音配置的流程示意图。

图12示出了根据本申请的一个实施例的虚拟对象的交互方法的流程框图。

图13至图14示出了可应用于本申请的一示例性实施例的虚拟对象的交互方法的终端界面图。

图15示出了根据本申请的一个实施例的虚拟对象的交互装置的框图。

图16示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

如图1所示，系统架构可以包括终端设备101、网络102以及服务器103，网络102用以在终端设备101和服务器103之间提供通信链路的介质。该网络102可以包括各种连接类型，例如有线通信链路、无线通信链路等等。

需要说明的，该终端设备101可以包括但不限于智能手机、平板电脑、便携式计算机以及台式计算机等等。终端设备也可以是设置于公共场所的交互终端，例如博物馆的解说机器人或者购物商场的导购机器人等等。

应该理解的，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器103可以是由多个服务器组成的服务器集群等。

用户可以使用终端设备101通过网络102与服务器103进行交互，以接收或发送消息等。服务器103可以是提供各种服务的服务器。例如，用户利用终端设备101上传了待交互信息，服务器可以根据用户输入的待交互信息，确定与所述待交互信息对应的反馈内容的文本信息，根据该文本信息，确定虚拟对象待输出的音频数据以及虚拟对象输出该音频数据时的目标肢体动作以及目标嘴型动作，并获取具有该目标肢体动作的目标虚拟对象，再根据音频数据以及目标嘴型动作，驱动该目标虚拟对象与目标用户进行交互。

需要说明的是，本申请实施例所提供的虚拟对象的交互方法一般由服务器103执行，相应地，虚拟对象的交互装置一般设置于服务器103中。但是，在本申请的其它实施例中，终端设备也可以与服务器具有相似的功能，从而执行本申请实施例所提供的虚拟对象的交互方法的方案。

以下对本申请实施例的技术方案的实现细节进行详细阐述：

图2示出了根据本申请的一个实施例的虚拟对象的交互方法的流程示意图。参照图2所示，该虚拟对象的交互方法至少包括步骤S210至步骤S250，详细介绍如下：

在步骤S210中，根据目标用户输入的待交互信息，确定与所述待交互信息对应的反馈内容的文本信息。

其中，待交互信息可以是用以描述用户的交互需求的信息，该待交互信息可以是各种形式的交互信息，例如该待交互信息的形式可以包括但不限于语音、文本、图像以及视频等。用户可以通过终端设备所配置的输入设备(例如键盘、触控式触摸屏、摄像头等)输入待交互信息，例如用户可以通过终端设备所配置的麦克风，语音输入“我想了解凤凰古城”，等等。

反馈内容可以是用以响应该待交互信息的内容，服务器可以根据所接收到的待交互信息，确定目标用户的交互需求，并获取对应的反馈内容以与目标用户进行交互。例如，待交互信息为“我想了解凤凰古城”，服务器可以对应获取凤凰古城的相关信息以作为反馈内容，并向目标用户进行反馈。

在本申请一示例性实施例中，目标用户可以通过终端设备所配置的输入键盘，输入文字信息以作为待交互信息，服务器可以获取目标用户所输入的文字信息，并对该文字信息进行语义分析，确定该目标用户的交互需求。从而根据该交互需求，确定该待交互信息对应的反馈内容，得到该反馈内容的文本信息。例如，目标用户输入文字形式的待交互信息为“我想了解凤凰古城”，则服务器可以根据该待交互信息进行语义分析，确定该目标用户的交互需求为了解凤凰古城的相关信息，因此，服务器可以获取与凤凰古城相关的信息作为反馈内容，并得到该反馈内容的文本信息。

在本申请另一示例性实施例中，目标用户也可以通过终端设备所配置的语音输入装置(例如麦克风等)或者图像获取装置(例如摄像头等)输入待交互信息，例如用户可以通过麦克风采用语音输入的方式输入待交互信息，服务器可以根据该语音信息进行语音识别，从而确定该待交互信息的交互需求，以进行交互；又如用户可以通过摄像头对目标位置进行拍摄，从而将拍摄得到的图像或者视频作为待交互信息，服务器可以根据该待交互信息进行图像识别，从而得到图像中所包含的信息，以根据该图像中所包含的信息确定该用户的交互需求，例如图像中包含某一车辆，则服务器可以获取该车辆的车型或品牌的相关相信以作为反馈内容进行交互，等等。

在步骤S220中，根据所述文本信息，确定虚拟对象待输出的音频数据。

其中，虚拟对象可以是用以进行交互的虚拟形象，虚拟对象可以包含多种形象，例如虚拟对象可以为机器人、人、动物或者卡通形象等，本申请对此不作特殊限定。

在本申请一示例性实施例中，服务器可以根据反馈内容的文本信息，将文本信息转换为对应的音频数据，以作为虚拟对象待输出的音频文件。在一示例中，服务器可以根据该文本信息进行转换，得到该文本信息对应的脉冲编码调制(Pulse Code Modulation，PCM)音频数据，以待虚拟对象进行输出。

在步骤S230中，根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标肢体动作以及目标嘴型动作。

其中，肢体动作可以是虚拟对象的各个肢体的动态变化形式，例如旋转、左右移动以及上下移动等。应该理解的，该肢体动作可以是单个肢体进行动态变化，也可以是由两个或者两个以上的肢体相互配合的动态变化，本申请对此不作特殊限定。

嘴型动作可以是虚拟对象在输出音频数据时的嘴部的动态变化形式。应该理解的，在虚拟对象输出音频数据时，其嘴型动作应与该音频数据对应的文字相匹配，以提高虚拟对象在交互时的真实感。

在本申请一示例性实施例中，服务器可以根据文本信息的文字内容，确定与该文字内容对应的肢体动作和嘴型动作，以作为虚拟对象在输出音频数据时的目标肢体动作以及目标嘴型动作。例如，若文本信息的文字内容为景点介绍或者物品介绍，则可以确定虚拟对象的目标肢体动作为右手向外翻折，左手掌心贴于小腹的引导性动作；若文本信息的文字内容为打招呼，则可以确定虚拟对象的目标肢体动作为挥手，等等。

另外，服务器可以根据文本信息中的文字内容，确定虚拟对象在发音该文字内容时的嘴型变化。应该理解的，在发音不同文字时，人体的嘴部的开合状态是不一样的。在一示例中，服务器可以根据文本信息中的每一文字，确定虚拟对象在发音该文字时对应的嘴型。并在虚拟对象输出音频数据时，按照文字的排列顺序进行相应的嘴型变化，避免用户察觉出嘴型动作与音频数据的文字内容不匹配，从而提高虚拟对象在输出音频数据时的真实感。

在步骤S240中，获取具有所述目标肢体动作的目标虚拟对象。

在本申请一示例性实施例中，在确定虚拟对象输出音频数据时的目标肢体动作之后，服务器可以从预先存储的动作库中获取具有该目标肢体动作的虚拟对象。需要说明的，该动作库中可以预先存储有至少一个的具有肢体动作的虚拟对象，本领域技术人员可以预先对虚拟对象的肢体动作进行配置，从而得到多个具有不同肢体动作的虚拟对象，并将具有不同肢体动作的虚拟对象存储在动作库中，以备后续进行选取。

由此，服务器无需临时对虚拟对象的肢体动作进行配置，只需从动作库中获取具有目标肢体动作的目标虚拟对象进行展示即可，提高了交互效率。

在步骤S250中，根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互。

在本申请一示例性实施例中，服务器可以根据在先确定的音频数据以及目标嘴型动作，对具有目标肢体动作的目标虚拟对象进行驱动，从而实现与目标用户之间的交互。具体地，服务器可以控制音频输出装置(例如音响等)输出该音频数据，同时控制目标虚拟对象的嘴部按照目标嘴型动作进行变化，由此，使得音频数据的输出能够与目标嘴型动作以及目标肢体动作相匹配，进而提高了虚拟对象在交互时的真实感，提升了用户的交互体验。

基于图2所示的实施例，图3示出了根据本申请的一个实施例的图2的虚拟对象的交互方法中确定目标肢体动作的流程示意图。参照图3所示，确定目标肢体动作至少包括步骤S310至步骤S320，详细介绍如下：

在步骤S310中，根据所述文本信息，确定所述文本信息对应的文本类型，所述文本类型用于描述所述虚拟对象在进行交互时的情绪状态。

其中，文本类型可以是与输出该文本信息时的情绪状态相对应的分类信息。应该理解的，不同的文字内容在进行交互时，应对应不同的情绪状态。例如当用户的交互需求为信息获取时，则交互时的情绪状态可以是平淡的，而当用户的交互需求为需要情感共鸣时(例如需要安慰或者遇到了开心的事，等等)，则交互时的情绪状态可以是低落或者开心等。

在本申请一示例性实施例中，服务器在得到反馈内容的文本信息之后，可以对该文本信息进行情绪识别，以确定该文字信息所对应的文本类型。具体地，服务器可以根据文本信息所包含的文字内容进行语义识别，明确该文本信息所包含的内容，从而确定虚拟对象在输出对应的反馈内容时的情绪状态，以作为该文本信息的文本类型。

需要说明的，本领域技术人员可以采用现有的语义识别技术，对反馈内容对应的文本信息进行语义分析，例如自然语言处理(Natural Language Processing，NLP)技术，等等，本申请对此不作特殊限定。

在步骤S320中，根据所述文本类型，确定所述虚拟对象输出所述音频数据时对应的目标肢体动作。

在本申请一示例性实施例中，本领域技术人员可以预先根据文本类型，设置文本类型与肢体动作的对应关系。在确定文本信息对应的文本类型之后，服务器可以查询文本类型与肢体动作的对应关系，从而确定目标肢体动作。

需要说明的，一个文本类型可以对应于一个肢体动作，也可以对应于多个肢体动作(即两个至两个以上的任意数量)。若某一文本类型对应多个肢体动作，则在选取时可以随机从所对应的多个肢体动作中选择其一作为目标肢体动作，也可以按照顺序依次选取其一作为目标肢体动作等，本申请对此不作特殊限定。

由此，在图3所示的实施例中，服务器可以根据文本信息确定其对应的文本类型，再根据该文本类型确定对应的目标肢体动作。由于文本类型用于描述虚拟对象在进行交互时的情绪状态，所以，根据文本类型确定对应的目标肢体动作，可以使得目标肢体动作与目标用户的交互需求相匹配，以避免目标肢体动作与目标用户的交互需求相违背的情况发生，保证了目标肢体动作的合理性，进而提升了用户体验。

基于图2所示的实施例，图4示出了根据本申请的一个实施例的图2的虚拟对象的交互方法中确定目标嘴型动作的流程示意图。参照图4所示，确定目标嘴型动作至少包括步骤S410至步骤S420，详细介绍如下：

在步骤S410中，根据所述文本信息，确定所述文本信息对应的音素序列。

其中，音素可以是根据语音的自然属性划分出来的最小的语音单位，其是构成音节的最小单位或最小的语音片段。

在本申请一示例性实施例中，服务器可以根据文本信息，获取文本信息中每一文字的汉语拼音，从而得到该文本信息对应的音素序列。例如，以“普通话”三个字为例，其由三个音节组成，可以分解为“p，u，t，o，ng，h，u，a”八个音素，等等。将所确认的音素按照文本信息中的文字顺序进行排列，以得到文本信息对应的音素序列。

在步骤S420中，根据所述音素序列，确定所述虚拟对象输出所述音频数据时的目标嘴型动作。

在本申请一示例性实施例中，服务器可以根据音素序列中所包含的音素，依次确定每个音素对应的嘴型动作，以作为虚拟对象输出该音频数据时的目标嘴型动作。例如[m]的发音动作是上唇和下唇闭拢，等等。具体地，本领域技术人员可以预先存储音素与嘴型动作的对应关系，服务器可以根据音素与嘴型动作的对应关系，确定音素序列中各个音素所对应的嘴型动作以作为虚拟对象输出该音频数据时的目标嘴型动作。

在图4所示的实施例中，根据文本信息，确定对应的音素序列，再根据该音素序列，确定虚拟对象的目标嘴型动作，从而保证虚拟对象的嘴型动作能够与其所输出的音频数据相匹配，提高了交互的真实感，避免了机械性的嘴型动作，提升了用户体验。

基于图2和图4所示的实施例，图5示出了根据本申请的一个实施例的图4的虚拟对象的交互方法中步骤S420的流程示意图。参照图5所示，步骤S420至少包括步骤S510至步骤S520，详细介绍如下：

在步骤S510中，根据所述音素序列，确定所述音素序列对应的音节序列。

其中，音节可以是表音语系中单个元音音素和辅音音素组合发音的最小语音单位，单个元音音素也可以构成音节。

在本申请一示例性实施例中，服务器可以根据音素序列中所包含的音素按顺序进行组合，从而得到文本信息中每一文字所对应的音节，以得到音素序列对应的音节序列。还是以“普通话”三个字为例，其对应的音素序列为[p，u，t，o，ng，h，u，a]，经过组合，得到对应的音节序列为[pu，tong，hua]，等等。需要说明的，音节序列中包含了各个音节的声调，例如pu的声调为第三声，tong的声调为第一声，等等。

在步骤S520中，根据所述音节序列以及所述音素序列中各音素的起始时间和持续时间，确定所述音节序列对应的目标嘴型动作。

在本申请一示例性实施例中，音素序列中可以对应存储有各个音素的起始时间以及持续时间。其中，该起始时间可以是各个音素对应在音频数据里的播放时间，例如音频数据所对应的时间长度为一分钟，某一音素的起始时间为00:25，则表示在第二十五秒的时候，播放该音素所对应的音频数据，等等。持续时间则可以表示该音素在音频数据中的发音时长，例如某一音素的持续时间为2秒，则表示该音素在音频数据的发音时长为2秒，等等。

应该理解的，虚拟对象的嘴型动作应与对应音素的起始时间和持续时长相匹配，以避免嘴型动作滞后或提前的情况发生，保证嘴型动作与音频数据的匹配度。

服务器可以根据所确定的音节序列，确定音节序列中每一音节所对应的嘴型动作，以及嘴型动作的持续时间，从而确定该音节虚拟对应的目标嘴型动作。具体地，根据每一音节所包含的音素，确定每一音素对应的嘴型动作，再基于该音节中元音音素和辅音音素的划分，确定每一音素对应的嘴型动作的持续时间，由此实现每一音节中每个音素的嘴型动作相互配合，使该音节对应的嘴型动作更贴合人的实际发音动作，提高交互的真实感。

另外，服务器再根据音素序列中各个音素的起始时间和持续时间，确定每个音节所对应的嘴型动作的起始时间和持续时间，具体地，每个音节对应的嘴型动作的起始时间即为该音节内第一个音素的起始时间，而该嘴型动作对应的持续时间即为该音节内所有音素的持续时间的总和。由此，使得各个音节对应的嘴型动作能够与音频数据相匹配，以保持目标嘴型动作与音频数据的同步性。

基于图2所示的实施例，图6示出了根据本申请的一个实施例的虚拟对象的交互方法中还包括的生成虚拟对象的流程示意图。参照图6所示，生成虚拟对象至少包括步骤S610至步骤S630，详细介绍如下：

在步骤S610中，响应针对虚拟对象的生成请求，显示虚拟对象生成界面。

其中，针对虚拟对象的生成请求可以是用于请求生成新的虚拟对象的信息。在一示例中，管理人员可以点击终端设备的显示界面上的特定区域(例如“新建虚拟对象”按键等)以生成针对虚拟对象的生成请求。

在本申请一示例性实施例中，若服务器接收到针对虚拟对象的生成请求，服务器可以响应该生成请求，指示终端设备在显示界面中显示虚拟对象生成界面。该虚拟对象生成界面可以包含虚拟对象上传选项，管理人员可以通过点击该虚拟对象上传选项，上传预先设计的虚拟对象文件，该虚拟对象文件可以包括虚拟对象的形象信息(例如虚拟对象为人形、动物形态或者卡通形态等等)、肢体信息(例如肢体的长度、宽度)等等。

在一示例中，管理人员可以根据设想，编辑虚拟对象的JSON文件，该JSON文件可以包含虚拟对象的基础信息，例如形象以及肢体等等。需要说明的，该管理人员所编辑的JSON文件，为基础的虚拟对象文件，即该虚拟对象不具有肢体动作，仅包括五官、肢体等信息，以备后续进行配置。

在步骤S620中，根据预设的至少一个肢体动作的动作配置信息，对所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

其中，肢体动作的动作配置信息可以是由本领域技术人员预先设定的、用以对基础的虚拟对象进行动作配置的配置信息。本领域技术人员可以根据所欲得到的肢体动作，配置在该肢体动作内各个肢体的动作参数，从而得到该肢体动作的动作配置信息，该动作参数可以包括但不限于旋转角度、位移方向、位移长度、运动时长，等等。

应该理解的，一个肢体动作可以对应一个动作配置信息，该动作配置信息具有适用性，以便于后续通过一个肢体动作的配置信息，对各个不同形象的第一虚拟对象进行配置，从而得到具有相同肢体动作的多个不同形象的虚拟对象。

在本申请一示例性实施例中，服务器可以获取虚拟对象生成界面所接收到的第一虚拟对象，该第一虚拟对象并未配置肢体动作，因此可以作为基础虚拟对象。服务器可以获取本领域技术人员预先设置的肢体动作的动作配置信息，自动对第一虚拟对象进行动作配置，从而得到具有对应的肢体动作的第二虚拟对象。

应该理解的，若动作配置信息为多个，则可以根据多个动作配置信息分别对第一虚拟对象进行动作配置，以得到多个具有不同肢体动作的第二虚拟对象，无需管理人员进行手动配置，提高了动作配置的效率。

在步骤S630中，将所述第二虚拟对象添加至动作库中以供选取。

其中，动作库可以是用以存储具有肢体动作的虚拟对象的数据库，管理人员可以将进行动作配置后的虚拟对象存储在该对工作库中，以供后续交互时进行选取。应该理解的，该动作库中可以存储单个形象的多个肢体动作的虚拟对象，也可以存储多个形象的多个肢体动作的虚拟对象，本申请对此不作特殊限定。

在本申请一示例性实施例中，当对第一虚拟对象进行动作配置完成之后，服务器可以将得到的具有肢体动作的第二虚拟对象上传至动作库中进行存储，以供后续进行选取。在交互时，服务器可以根据所确定的目标肢体动作，从动作库中获取具有该目标肢体动作的虚拟对象进行交互。

需要说明的，若动作库中包含有多个形象的虚拟对象，则服务器可以根据用户当前交互的虚拟对象的标识信息，从动作库中获取具有相同标识信息，且具有对应的目标肢体动作的目标虚拟对象进行交互。其中，该虚拟对象的标识信息可以是用以区别不同形象的虚拟对象的信息，一个标识信息对应于一个形象的虚拟对象。从而避免获取到与当前交互的虚拟对象不同形象的虚拟对象进行交互，提高用户的交互体验。

基于图2和图6所示的实施例，图7示出了根据本申请的一个实施例的虚拟对象的交互方法中还包括的对第二虚拟对象进行动作调整的流程示意图。参照图7所示，对第二虚拟对象进行动作调整至少包括步骤S710至步骤S730，详细介绍如下：

在步骤S710中，根据所述第二虚拟对象，生成预览界面，所述预览界面用于显示至少一个所述第二虚拟对象。

在本申请一示例性实施例中，服务器可以根据所得到的具有肢体动作的第二虚拟对象，生成该虚拟对象的预览界面，以供管理人员进行预览，进而确定第二虚拟对象的动作配置效果。

在一示例中，服务器可以根据所生成的第二虚拟对象，依次生成每一个第二虚拟对象的预览界面。管理人员可以通过每一个预览界面，确定每一个第二虚拟对象的动作配置效果。

在另一示例中，服务器可以根据所生成的所有的第二虚拟对象，生成包含有所有第二虚拟对象的预览界面。在该预览界面中，每一第二虚拟对象可以以缩略图的形式显示，若管理人员欲查看某一第二虚拟对象的细节，则可以通过点击该第二虚拟对象对应的缩略图，以对该第二虚拟对象进行放大显示，从而能够观察到对应的动作细节。

步骤S720中，根据所述预览界面接收到的针对所述第二虚拟对象的动作调整请求，显示第二虚拟对象的动作调整界面。

其中，动作调整界面可以是用以对第二虚拟对象进行肢体动作调整的界面。该动作调整界面可以包含多个动作调整选项，例如旋转角度调整选项、位移距离调整选项，等等。

在本申请一示例性实施例中，当管理人员在预览界面中对某一第二虚拟对象的动作配置效果并不满意，则可以通过点击预览界面上的特定区域(例如“动作调整”按键等)以生成针对该虚拟对象的动作调整请求。服务器在接收到该动作调整请求之后，可以在终端设备的显示界面上显示该第二虚拟对象的动作调整界面，该动作调整界面中可以包含多个动作调整选项。管理人员可以通过动作调整选项对该第二虚拟对象的肢体动作进行调整，例如通过旋转角度选项，将肢体的旋转角度由30°调整为40°，等等。

在步骤S730中，根据所述动作调整界面接收到的动作调整信息，对所述第二虚拟对象进行动作配置，得到并存储更新后的所述第二虚拟对象。

在本申请一示例性实施例中，服务器可以根据动作调整界面所接收到的动作调整信息，对第二虚拟对象的肢体动作进行调整，以符合管理人员的调整需求。同时，在该动作调整界面中，可以实时显示调整后的第二虚拟对象，以便于管理人员进行查看。当管理人员确定调整完成之后，服务器可以将调整后的第二虚拟对象进行存储。

由此，在图7所示的实施例中，通过动作调整界面的设置，可以便于管理人员对得到的第二虚拟对象进行肢体动作的调整，以保证第二虚拟对象的动作显示效果。

基于图2、图6和图7所示的实施例，在本申请的一示例性实施例中，所述得到并存储更新后的所述第二虚拟对象，包括：

根据更新后的所述第二虚拟对象，在所述预览界面中对更新前的所述第二虚拟对象进行替换；

或

将更新后的所述第二虚拟对象添加至所述预览界面中。

在一示例中，服务器可以将更新后的第二虚拟对象，在预览界面中对更新前的该第二虚拟对象进行替换，从而只保留更新后的第二虚拟对象，以保证各个第二虚拟对象的动作配置效果。

在另一示例中，服务器也可以将更新后的第二虚拟对象添加至预览界面中，从而可以保留更新前以及更新后的该第二虚拟对象。由此可以方便管理人员基于现有的第二虚拟对象进行动做调整，以生成具有新的肢体动作的第二虚拟对象，提高了动作配置的效率。

基于图2和图6所示的实施例，图8示出了根据本申请的一个实施例的图6的虚拟对象的交互方法中步骤S620的流程示意图。参照图8所示，步骤S620至少包括步骤S810至步骤S830，详细介绍如下：

在步骤S810中，获取所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象。

在该实施例中，终端设备可以将虚拟对象生成界面所接收到的第一虚拟对象向服务器进行发送，服务器可以接收该第一虚拟对象以备于后续进行配置。

在步骤S820中，将所述第一虚拟对象与预设的至少一个肢体动作的动作配置信息进行匹配。

在本申请一示例性实施例中，服务器可以根据预设的至少一个肢体动作的动作配置信息分别与第一虚拟对象进行匹配。需要说明的，肢体动作的动作配置信息中可以包含各个肢体部位的动作配置参数，而第一虚拟对象中可以包含该第一虚拟对象的各个肢体部位的参数信息。

服务器可以将第一虚拟对象与肢体动作的动作配置信息进行匹配，以确定第一虚拟对象与动作配置信息中是否存在同一肢体部位，例如第一虚拟对象中含有左臂这一肢体部位，而动作配置信息中包含针对左臂这一肢体部位的动作配置参数，则可以确定第一虚拟对象与动作配置信息中存在同一肢体部位，等等。

在步骤S830中，若所述第一虚拟对象和所述动作配置信息之间存在同一肢体部位，根据所述动作配置信息，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请一示例性实施例中，服务器可以根据匹配结果，若第一虚拟对象与动作配置信息之间存在同一肢体部位，例如左臂或者右臂等，则服务器可以根据该动作配置信息中包含的同一肢体部位的动作配置参数，对第一虚拟对象的同一肢体部位进行动作配置，从而得到具有对应的肢体动作的第二虚拟对象。

例如，第一虚拟对象与动作配置信息中均存在左臂和右臂，则服务器可以根据动作配置信息中所包含的针对左臂的动作配置参数，对第一虚拟对象的左臂进行动作配置，再基于动作配置信息中所包含的针对右臂的动作配置参数对第一虚拟对象的右臂进行动作配置，从而得到具有对应肢体动作的第二虚拟对象。

应该理解的，第一虚拟对象与动作配置信息可以存在一个同一肢体部位，也可以存在多个同一肢体部位，其根据第一虚拟对象以及动作配置信息的具体情况而定，本申请对此不作特殊限定。

在图8所示的实施例中，将第一虚拟对象与预设的肢体动作的动作配置信息进行匹配，以确定第一虚拟对象与动作配置信息所存在的同一肢体部位，根据动作配置信息中该同一肢体部位的动作配置参数对第一虚拟对象中的该同一肢体部位进行动作配置，可以保证动作配置的准确性，避免出现动作配置混乱的情况发生。

基于图2、图6和图8所示的实施例，图9示出了根据本申请的一个实施例的图8的虚拟对象的交互方法中步骤S830的流程示意图。参照图9所示，步骤S830至少包括步骤S910至步骤S920，详细介绍如下：

在步骤S910中，获取所述动作配置信息中的所述同一肢体部位的第一肢体信息，以及所述第一虚拟对象中的所述同一肢体部位的第二肢体信息。

在本申请一示例性实施例中，在动作配置信息中，为了保证动作配置信息的适用性，本领域技术人员可以预先设定动作配置信息中各个肢体部位的肢体信息，该肢体信息可以包括但不限于肢体部位的长度以及宽度等。具体地，本领域技术人员可以根据在先经验对各个肢体部位的肢体信息进行配置，再基于动作配置信息中各个肢体部位的肢体信息，确定其对应的动作配置参数。

服务器在确定第一虚拟对象与动作配置信息中存在同一肢体部位之后，可以获取从动作配置信息中获取该同一肢体部位的第一肢体信息，再从第一虚拟对象中获取该同一肢体部位的第二肢体信息。例如，同一肢体部位为左臂，则从动作配置信息中获取左臂的肢体信息以作为第一肢体信息，再从第一虚拟对象中获取左臂的肢体信息以作为第二肢体信息，等等。

应该理解的，第一肢体信息与第二肢体信息可以相同也可以不同，然而，若第一肢体信息与第二肢体信息相差较大，则在相同动作配置参数下，也可能出现不同的动作显示效果，因此需要根据第一肢体信息和第二肢体信息之间的差距，对动作配置参数进行适应性调整，以提高动作配置后的第二虚拟对象的动作显示效果。

在步骤S920中，根据所述第一肢体信息和所述第二肢体信息，采用所述动作配置信息对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请一示例性实施例中，服务器可以根据第一肢体信息和第二肢体信息之间的差距以及动作配置信息，对第一虚拟对象的同一肢体部位进行动作配置。例如同一肢体部位为左臂，而第二肢体信息中左臂的宽度明显大于第一肢体信息中左臂的宽度，则在相同转动角度的情况下，第一虚拟对象中的左臂的转动效果将会小于动作配置信息中所欲达到的转动效果。因此，应该调大动作配置信息中的转动角度以对第一虚拟对象的左臂进行动作配置，从而提高所得到的的第二虚拟对象的动作显示效果。

在图9所示的实施例中，根据第一肢体信息和第二肢体信息之间的差异，对动作配置信息中的动作配置参数进行适应性的调整，可以提高第二虚拟对象的动作显示效果。

在基于图2、图6、图8和图9所示的实施例，图10示出了根据本申请的一个实施例的图9的虚拟对象的交互方法中步骤S920的流程示意图。参照图10所示，动作配置信息包括旋转角度、位移距离、关键帧数量以及动作时长，步骤S920至少包括步骤S1010至步骤S1020，详细介绍如下：

在步骤S1010中，根据所述第一肢体信息和所述第二肢体信息之间的参数差值以及所述动作配置信息，确定所述第一虚拟对象中的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长。

在本申请一示例性实施例中，服务器可以将第一肢体信息与第二肢体信息进行比较，确定第一肢体信息与第二肢体信息之间的参数是否存在差值以及确定该差值的大小。若参数之间存在差值，则表示需要对动作配置信息进行适应性调整，本领域技术人员可以预先根据差值的大小，设定对应的差值区间，不同的差值区间对应不同的调整幅度。服务器可以根据所确定的差值的大小，确定该差值对应的差值区间，以确定调整幅度。

需要说明的，若第一肢体信息中的参数大于第二肢体信息中的参数，则表示需要根据调整幅度减小动作配置信息的参数，反之，则需要根据调整幅度增大动作配置信息的参数。例如第一肢体信息中的左臂的宽度大于第二肢体信息中左臂的宽度，则第一虚拟对象的左臂相比于动作配置信息中所配置的肢体信息较窄，第一虚拟对象的左臂在旋转角度较小的情况下即可达到动作配置信息中所遇达到的动作显示效果。因此，需要调小动作配置信息中的旋转角度，以对第一虚拟对象中的左臂进行动作配置，等等。

同理，服务器可以基于第一肢体信息和第二肢体信息之间的参数差值，可以对预先设置的动作配置信息进行调整，以得到与第一虚拟对象对应的旋转角度、位移位置、关键帧数量以及动作时长，提高了动作配置信息对第一虚拟对象的适用性。

其中，关键帧数量可以是于肢体部位在动作过程中各个阶段相对应的关键帧的数量。应该理解的，肢体动作是一个动态且连续的过程，为了清楚表示出对应的动作过程，则需要在肢体动作过程中设定对应的关键帧，以使用户能够清楚看到肢体的动作过程，避免出现跳跃式动作以显得动作很突兀，影响交互体验。

该关键帧可以包括肢体动作过程的起始帧、结束帧以及介于起始帧与结束帧之间的过程帧。应该理解的，关键帧数量应与肢体动作的动作时长相匹配，动作时长越大，则关键帧数量应随之增大，以保证动作的连续性。

在一示例中，服务器可以根据调整后的旋转角度以及位移距离，确定第一虚拟对象的动作时长，再基于该动作时长，确定所需的关键帧数量，以使关键帧数量能够与第一虚拟对象的肢体动作相匹配。

在步骤S1020中，根据所确定的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在图10所示的实施例中，通过第一肢体信息与第二肢体信息之间的参数差值，对动作配置信息进行适应性调整，以使动作配置信息能够与第一虚拟对象的肢体信息相适配，从而提升了配置后的第二虚拟对象的动作显示效果。

基于图2所示的实施例，在申请的一示例性实施例中，所述根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互，包括：

驱动所述目标虚拟对象同步输出所述音频数据以及所述目标嘴型动作，以与所述目标用户进行交互。

在该实施例中，驱动目标虚拟对象同步输出音频数据和目标嘴型动作，可以保证音频数据与目标嘴型的同步性，提升虚拟对象交互时的真实感。同时该目标虚拟对象具有对应的目标肢体动作，三者同步进行输出，可以保证目标虚拟对象在与目标用户进行交互时的真实性，进而提升目标用户的交互体验。

基于图2所示的实施例，图11示出了根据本申请的一个实施例的虚拟对象的交互方法中还包括的对目标虚拟对象进行声音配置的流程示意图。参照图11所示，对目标虚拟对象进行声音配置至少包括步骤S1110至步骤S1120，详细介绍如下：

在步骤S1110中，若接收到针对目标虚拟对象的声音调整请求，显示声音调整界面，所述声音调整界面包括至少一个声音调整选项。

其中，针对目标虚拟对象的声音调整请求可以是用于请求调整目标虚拟对象的声音参数的信息。用户可以通过点击界面上的特定区域(例如“声音配置”按键等)生成该声音调整请求。

声音调整界面可以是用以对目标虚拟对象的声音参数进行调整的界面，该声音调整界面可以包括至少一个声音调整选项，该声音调整选项可以包括但不限于音量调整选项、声音速度调整选项以及发声人调整选项，等等。其中该发声人调整选项可以用以选择不同音色的发声人，以提高交互的趣味性。

在本申请一示例性实施例中，若服务器接收到针对目标虚拟对象的声音调整请求，则可以指示在终端设备的显示界面中显示声音调整界面。用户可以通过声音调整界面中所包含的声音调整选项，对目标虚拟对象的声音进行声音配置。

在步骤S1120中，根据所述至少一个声音调整选项接收到的声音调整信息，对所述目标虚拟对象进行声音配置。

在本申请一示例性实施例中，服务器可以根据声音调整选项接收到的声音调整信息，对目标虚拟对象进行声音配置，例如提高目标虚拟对象的音量、加快声音速度或者切换发声人，等等。

由此，用户可以通过该声音调整界面，将目标虚拟对象的声音配置，调整到自己所满意的状态，从而提高了与用户之间的交互性，进而提升了用户的交互体验。

基于上述实施例的技术方案，以下介绍本申请实施例的一个具体应用场景：

请参考图12，图12示出了根据本申请的一个实施例的虚拟对象的交互方法的流程框图。

参照图12所示，如图12中1210所示，用户可以在动作合成平台上，上传无肢体动作的虚拟对象，该动作合成平台可以根据预先设置的动作配置信息，对该无肢体动作的虚拟对象进行动作配置，以批量合成具有肢体动作的虚拟对象。在本申请一示例性实施例中，本领域技术人员可以采用Lottie虚拟人动画合成工具以作为动作合成平台进行虚拟对象的动作合成，需要说明的，本领域技术人员也可以采用其他的动画合成工具作为动作合成平台，本申请对此不作特殊限定。

如图12中1220所示，服务器可以对所合成的虚拟对象进行预览展示，用户可以对所合成的虚拟对象进行动作调整，以使所合成的虚拟对象的动作显示效果符合需求。当用户调整完成之后，可以将调整后的虚拟对象，保存到合成列表中，以备后续进行选取。用户也可以直接下载并存储调整后的虚拟对象的JSON文件。另外，当调整后的虚拟对象存储至合成列表后，用户可以选择合成列表中符合需求的虚拟对象，进行批量下载，以提高下载效率。

如图12中1230所示，在语音合成平台中，服务器在交互时可以从合成列表中选择具有目标肢体动作的目标虚拟对象，并获取反馈内容的文本信息，并经过TTS(Text ToSpeech，从文本到语音)引擎，得到该文本信息对应的音频数据以及音素序列，再根据该音素序列得到虚拟对象的目标嘴型动作。最后，将目标嘴型动作、音频数据以及目标虚拟对象的肢体动作进行音画同步，从而得到对应形象的播报虚拟对象。

由此，在图12所示的实施例中，通过配置虚拟对象在交互时的目标肢体动作、目标嘴型动作以及音频数据，使得三者能够互相对应，提高了虚拟对象在交互时的真实感，提高了用户体验。

请参考图13-14，图13至图14示出了可应用于本申请的一示例性实施例的虚拟对象的交互方法的终端界面图。

如图13所示，图13为虚拟对象生成界面，如图1310所示，用户可以通过点击“选择JSON文件”按键，上传预先编辑好的无肢体动作的虚拟对象(即第一虚拟对象)。图1320用以显示预先配置的肢体动作的动作配置文件，该动作配置文件可以为一个也可以为多个，即两个或者两个以上的任意数量。

如图1330所示，当用户上传无肢体动作的虚拟对象之后，动作合成平台可以根据肢体动作的动作配置信息对该虚拟对象进行动作配置，从而得到具有肢体动作的合成虚拟对象(即第二虚拟对象)。服务器可以将合成虚拟对象逐一显示在设置的预览框中，以供用户进行预览。

如图14所示，若用户选择某一合成对象进行动作调整，则可以显示合成虚拟对象的动作调整界面，该动作调整界面中可以包含至少一个动作调整选项，用户可以通过该动作调整选项对合成虚拟对象的肢体动作进行调整。调整完成之后，用户可以选择将其添加至合成列表中，也可以选择直接对调整后的合成虚拟对象的JSON文件进行下载。

以下介绍本申请的装置实施例，可以用于执行本申请上述实施例中的虚拟对象的交互方法。对于本申请装置实施例中未披露的细节，请参照本申请上述的虚拟对象的交互方法的实施例。

参照图15所示，根据本申请的一个实施例的虚拟对象的交互装置，包括：

第一确定模块1510，用于根据目标用户输入的待交互信息，确定与所述待交互信息对应的反馈内容的文本信息；

第二确定模块1520，用于根据所述文本信息，确定虚拟对象待输出的音频数据；

第三确定模块1530，用于根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标肢体动作以及目标嘴型动作；

获取模块1540，用于获取具有所述目标肢体动作的目标虚拟对象；

处理模块1550，用于根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互。

在本申请的一些实施例中，基于前述方案，该第三确定模块1530被配置为：根据所述文本信息，确定所述文本信息对应的文本类型，所述文本类型用于描述所述虚拟对象在进行交互时的情绪状态；根据所述文本类型，确定所述虚拟对象输出所述音频数据时对应的目标肢体动作。

在本申请的一些实施例中，基于前述方案，该第三确定模块1530被配置为：根据所述文本信息，确定所述文本信息对应的音素序列；根据所述音素序列，确定所述虚拟对象输出所述音频数据时的目标嘴型动作。

在本申请的一些实施例中，基于前述方案，该第三确定模块1530被配置为：根据所述音素序列，确定所述音素序列对应的音节序列；根据所述音节序列以及所述音素序列中各音素的起始时间和持续时长，确定所述音节序列对应的目标嘴型动作。

在本申请的一些实施例中，基于前述方案，该获取模块1540在获取具有所述目标肢体动作的目标虚拟对象之前，还被配置为：响应针对虚拟对象的生成请求，显示虚拟对象生成界面；根据预设的至少一个肢体动作的动作配置信息，对所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象进行动作配置，得到具有对应的肢体动作的第二虚拟对象；将所述第二虚拟对象添加至动作库中以供选取。

在本申请的一些实施例中，基于前述方案，该获取模块1540在得到具有对应的肢体动作的第二虚拟对象之后，还被配置为：根据所述第二虚拟对象，生成预览界面，所述预览界面用于显示至少一个所述第二虚拟对象；根据所述预览界面接收到的针对所述第二虚拟对象的动作调整请求，显示第二虚拟对象的动作调整界面；根据所述动作调整界面接收到的动作调整信息，对所述第二虚拟对象进行动作配置，得到并存储更新后的所述第二虚拟对象。

在本申请的一些实施例中，基于前述方案，该获取模块1540被配置为：根据更新后的所述第二虚拟对象，在所述预览界面中对更新前的所述第二虚拟对象进行替换；或将更新后的所述第二虚拟对象添加至所述预览界面中。

在本申请的一些实施例中，基于前述方案，该获取模块1540被配置为：获取所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象；将所述第一虚拟对象与预设的至少一个肢体动作的动作配置信息进行匹配；若所述第一虚拟对象和所述动作配置信息之间存在同一肢体部位，根据所述动作配置信息，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请的一些实施例中，基于前述方案，该获取模块1540被配置为：获取所述动作配置信息中的所述同一肢体部位的第一肢体信息，以及所述第一虚拟对象中的所述同一肢体部位的第二肢体信息；根据所述第一肢体信息和所述第二肢体信息，采用所述动作配置信息对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请的一些实施例中，基于前述方案，所述动作配置信息包括旋转角度、位移距离、关键帧数量以及动作时长；该获取模块1540被配置为：根据所述第一肢体信息和所述第二肢体信息之间的参数差值以及所述动作配置信息，确定所述第一虚拟对象中的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长；根据所确定的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

在本申请的一些实施例中，基于前述方案，处理模块1550被配置为：驱动所述目标虚拟对象同步输出所述音频数据以及所述目标嘴型动作，以与所述目标用户进行交互。

在本申请的一些实施例中，基于前述方案，在根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互之前，该处理模块1550还被配置为：若接收到针对目标虚拟对象的声音调整请求，显示声音调整界面，所述声音调整界面包括至少一个声音调整选项；根据所述至少一个声音调整选项接收到的声音调整信息，对所述目标虚拟对象进行声音配置。

需要说明的是，图16示出的电子设备的计算机系统仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图16所示，计算机系统包括中央处理单元(Central Processing Unit，CPU)1601，其可以根据存储在只读存储器(Read-Only Memory，ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(Random Access Memory，RAM)1603中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1603中，还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output，I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1607；包括硬盘等的储存部分1608；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入储存部分1608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种虚拟对象的交互方法，其特征在于，包括：

根据所述文本信息，确定虚拟对象待输出的音频数据；

获取具有所述目标肢体动作的目标虚拟对象；

2.根据权利要求1所述的方法，其特征在于，根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标肢体动作，包括：

根据所述文本信息，确定所述文本信息对应的文本类型，所述文本类型用于描述所述虚拟对象在进行交互时的情绪状态；

根据所述文本类型，确定所述虚拟对象输出所述音频数据时对应的目标肢体动作。

3.根据权利要求1所述的方法，其特征在于，根据所述文本信息，确定所述虚拟对象输出所述音频数据时的目标嘴型动作，包括：

根据所述文本信息，确定所述文本信息对应的音素序列；

根据所述音素序列，确定所述虚拟对象输出所述音频数据时的目标嘴型动作。

4.根据权利要求3所述的方法，其特征在于，所述根据所述音素序列，确定所述虚拟对象输出所述音频数据时的目标嘴型动作，包括：

根据所述音素序列，确定所述音素序列对应的音节序列；

根据所述音节序列以及所述音素序列中各音素的起始时间和持续时长，确定所述音节序列对应的目标嘴型动作。

5.根据权利要求1所述的方法，其特征在于，在所述获取具有所述目标肢体动作的目标虚拟对象之前，还包括：

响应针对虚拟对象的生成请求，显示虚拟对象生成界面；

根据预设的至少一个肢体动作的动作配置信息，对所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象进行动作配置，得到具有对应的肢体动作的第二虚拟对象；

将所述第二虚拟对象添加至动作库中以供选取。

6.根据权利要求5所述的方法，其特征在于，在所述得到具有对应的肢体动作的第二虚拟对象之后，还包括：

根据所述第二虚拟对象，生成预览界面，所述预览界面用于显示至少一个所述第二虚拟对象；

根据所述预览界面接收到的针对所述第二虚拟对象的动作调整请求，显示第二虚拟对象的动作调整界面；

根据所述动作调整界面接收到的动作调整信息，对所述第二虚拟对象进行动作配置，得到并存储更新后的所述第二虚拟对象。

7.根据权利要求6所述的方法，其特征在于，所述得到并存储更新后的所述第二虚拟对象，包括：

或

将更新后的所述第二虚拟对象添加至所述预览界面中。

8.根据权利要求5所述的方法，其特征在于，所述根据预设的至少一个肢体动作的动作配置信息，对所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象进行动作配置，得到具有对应的肢体动作第二虚拟对象，包括：

获取所述虚拟对象生成界面接收到的无肢体动作的第一虚拟对象；

将所述第一虚拟对象与预设的至少一个肢体动作的动作配置信息进行匹配；

若所述第一虚拟对象和所述动作配置信息之间存在同一肢体部位，根据所述动作配置信息，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

9.根据权利要求8所述的方法，其特征在于，所述根据所述动作配置信息，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象，包括：

获取所述动作配置信息中的所述同一肢体部位的第一肢体信息，以及所述第一虚拟对象中的所述同一肢体部位的第二肢体信息；

根据所述第一肢体信息和所述第二肢体信息，采用所述动作配置信息对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

10.根据权利要求9所述的方法，其特征在于，所述动作配置信息包括旋转角度、位移距离、关键帧数量以及动作时长；

所述根据所述第一肢体信息和所述第二肢体信息，采用所述动作配置信息对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象，包括：

根据所述第一肢体信息和所述第二肢体信息之间的参数差值以及所述动作配置信息，确定所述第一虚拟对象中的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长；

根据所确定的所述同一肢体部位的旋转角度、位移位置、关键帧数量以及动作时长，对所述第一虚拟对象中的所述同一肢体部位进行动作配置，得到具有对应的肢体动作的第二虚拟对象。

11.根据权利要求1所述的方法，其特征在于，所述根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互，包括：

12.根据权利要求1所述的方法，其特征在于，在所述根据所述音频数据以及所述目标嘴型动作，驱动所述目标虚拟对象与所述目标用户进行交互之前，还包括：

若接收到针对目标虚拟对象的声音调整请求，显示声音调整界面，所述声音调整界面包括至少一个声音调整选项；

根据所述至少一个声音调整选项接收到的声音调整信息，对所述目标虚拟对象进行声音配置。

13.一种虚拟对象的交互装置，其特征在于，包括：

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12中任一项所述的虚拟对象的交互方法。

15.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至12中任一项所述的虚拟对象的交互方法。