CN114596391A

CN114596391A - 虚拟人物控制方法、装置、设备及存储介质

Info

Publication number: CN114596391A
Application number: CN202210061213.XA
Authority: CN
Inventors: 马远凯; 朱鹏程; 罗智凌; 周伟; 李禹�; 李龙龙
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-06-07
Also published as: WO2023138634A1

Abstract

本公开涉及一种虚拟人物控制方法、装置、设备及存储介质。本公开通过从预设文本中获取一个或多个目标关键词，并针对一个或多个目标关键词中的每个目标关键词，从预设文本中确定第一目标字符和第二目标字符，第一目标字符与目标关键词的动作开始位置对应，第二目标字符与目标关键词的动作结束位置对应。进一步，预测从第一目标字符到第二目标字符的音频播报时长，并根据该音频播报时长从目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，使得目标动作文件驱动虚拟人物执行目标动作得到的目标动作视频的时长与音频播报时长匹配。从而提高了虚拟人物的表现力。

Description

虚拟人物控制方法、装置、设备及存储介质

技术领域

本公开涉及信息技术领域，尤其涉及一种虚拟人物控制方法、装置、设备及存储介质。

背景技术

随着科技的不断发展，数字人(也叫虚拟人)的应用越来越广泛，例如，数字人可用于播报天气预报、新闻、广告、体育赛事等。

但是，本申请的发明人发现，当前包含有数字人的多媒体信息中的音频信息和画面无法很好的匹配，从而导致数字人的表现力不足。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种虚拟人物控制方法、装置、设备及存储介质，以保证该多媒体信息中每个目标动作视频的播放时长与从该目标动作开始位置到结束位置的音频播报时长相匹配，避免了播报音频完毕时，虚拟人物的动作还未结束，或者虚拟人物的动作播放完毕之后播报音频还没有结束的情况出现，从而提高了虚拟人物的表现力。

第一方面，本公开实施例提供一种虚拟人物控制方法，包括：

获取预设文本中的一个或多个目标关键词；

针对所述一个或多个目标关键词中的每个目标关键词，从所述预设文本中确定第一目标字符和第二目标字符，所述第一目标字符与所述目标关键词的动作开始位置对应，所述第二目标字符与所述目标关键词的动作结束位置对应；

预测从所述第一目标字符到所述第二目标字符的音频播报时长；

从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，所述目标动作文件用以驱动虚拟人物执行目标动作以得到目标动作视频，所述目标动作视频的时长与所述音频播报时长匹配；

根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，所述多媒体信息包括所述音频信息和每个目标关键词分别对应的目标动作视频。

第二方面，本公开实施例提供一种虚拟人物控制装置，包括：

第一获取模块，用于获取预设文本中的一个或多个目标关键词；

第一确定模块，用于针对所述一个或多个目标关键词中的每个目标关键词，从所述预设文本中确定第一目标字符和第二目标字符，所述第一目标字符与所述目标关键词的动作开始位置对应，所述第二目标字符与所述目标关键词的动作结束位置对应；

预测模块，用于预测从所述第一目标字符到所述第二目标字符的音频播报时长；

第二确定模块，用于从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，所述目标动作文件用以驱动虚拟人物执行目标动作以得到目标动作视频，所述目标动作视频的时长与所述音频播报时长匹配；

第一生成模块，用于根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，所述多媒体信息包括所述音频信息和每个目标关键词分别对应的目标动作视频。

第三方面，本公开实施例提供一种电子设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面所述的方法。

第四方面，本公开实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现第一方面所述的方法。

本公开实施例提供的虚拟人物控制方法、装置、设备及存储介质，通过从预设文本中获取一个或多个目标关键词，并针对一个或多个目标关键词中的每个目标关键词，从预设文本中确定第一目标字符和第二目标字符，第一目标字符与目标关键词的动作开始位置对应，第二目标字符与目标关键词的动作结束位置对应。进一步，预测从第一目标字符到第二目标字符的音频播报时长，并根据该音频播报时长从目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，使得目标动作文件驱动虚拟人物执行目标动作得到的目标动作视频的时长与音频播报时长匹配。因此，根据预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，生成多媒体信息时，可以保证该多媒体信息中每个目标动作视频的播放时长与从该目标动作开始位置到结束位置的音频播报时长相匹配，避免了播报音频完毕时，虚拟人物的动作还未结束，或者虚拟人物的动作播放完毕之后播报音频还没有结束的情况出现，从而提高了虚拟人物的表现力。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的虚拟人物控制方法流程图；

图2为本公开实施例提供的应用场景的示意图；

图3为本公开实施例提供的预设文本的示意图；

图4为本公开实施例提供的预设文本的示意图；

图5为本公开另一实施例提供的预设文本的示意图；

图6为本公开另一实施例提供的虚拟人物控制方法流程图；

图7为本公开另一实施例提供的预设文本的示意图；

图8为本公开另一实施例提供的预设文本的示意图；

图9为本公开另一实施例提供的预设文本的示意图；

图10为本公开另一实施例提供的虚拟人物控制方法流程图；

图11为本公开另一实施例提供的预设文本的示意图；

图12为本公开另一实施例提供的虚拟人物控制方法流程图；

图13为本公开另一实施例提供的虚拟人物控制方法流程图；

图14为本公开另一实施例提供的虚拟人物控制方法流程图；

图15为本公开实施例提供的虚拟人物控制装置的结构示意图；

图16为本公开实施例提供的电子设备实施例的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

随着科技的不断发展，数字人(也叫虚拟人)的应用越来越广泛，例如，数字人可用于播报天气预报、新闻、广告、体育赛事等。但是，当前包含有数字人的多媒体信息中的音频信息和画面无法很好的匹配，从而导致数字人的表现力不足。例如，播报音频完毕时，数字人的动作还未结束，或者数字人的动作播放完毕之后播报音频还没有结束。

针对该问题，本公开实施例提供了一种虚拟人物控制方法，下面结合具体的实施例对该方法进行介绍。

图1为本公开实施例提供的虚拟人物控制方法流程图。该方法可以由虚拟人物控制装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器或终端，其中，终端具体包括手机、电脑或平板电脑等。该方法可以适用于图2所示的应用场景，该场景中包括服务器21和终端22。其中，服务器21可以生成包含有虚拟人物的多媒体信息，该虚拟人物可以是如上所述的数字人。该多媒体信息可以包括音频信息和视频信息，该音频信息可以是虚拟人物播报预设文本的音频。该视频信息可以是该虚拟人物执行目标动作的视频。进一步，服务器21可以将该多媒体信息推送给终端22，从而使得终端22可以播放该多媒体信息。或者，也可以由终端22生成多媒体信息。服务器21生成多媒体信息的具体过程和终端22生成多媒体信息的具体过程一致。下面以服务器21生成多媒体信息为例进行示意性说明。如图1所示，该方法具体步骤如下：

S101、获取预设文本中的一个或多个目标关键词。

例如，该预设文本可以是虚拟人物的当前播报文案，本公开实施例并不限定当前播报文案的类型和具体内容。例如，当前播报文案可以是天气预报、新闻、广告、体育赛事等相关文本。进一步，服务器21可以获取该预设文本中的目标关键词，可以理解的是，该预设文本中的目标关键词可以是一个，也可以是多个。例如，该预设文本是“本次播报到此结束，下次再见”，其中的目标关键词是“再见”。

S102、针对所述一个或多个目标关键词中的每个目标关键词，从所述预设文本中确定第一目标字符和第二目标字符，所述第一目标字符与所述目标关键词的动作开始位置对应，所述第二目标字符与所述目标关键词的动作结束位置对应。

具体的，每个目标关键词可以对应有一个动作，例如，目标关键词“再见”所对应的动作是举起手并挥手。因此，针对每个目标关键词分别对应的动作，可以从该预设文本中确定出第一目标字符和第二目标字符，也就是说，针对每个目标关键词可以分别得到一组第一目标字符和第二目标字符。以其中的某个目标关键词为例，该目标关键词所对应的动作的开始位置与第一目标字符对应，该目标关键词所对应的动作的结束位置与第二目标字符对应。例如，以目标关键词“再见”为例，第一目标字符可以是“本次播报到此结束，下次再见”中的“到”，第二目标字符可以是“本次播报到此结束，下次再见”中的“见”，也就是说，当虚拟人物播报“到”的时刻开始举手，当虚拟人物播报“见”的时刻挥手完毕。可以理解的是，本实施例并不限定第一目标字符和第二目标字符在该预设文本中的位置，此处只是示意性说明，并不做具体限定。

S103、预测从所述第一目标字符到所述第二目标字符的音频播报时长。

例如，在确定出某个目标关键词对应的第一目标字符和第二目标字符后，可以进一步，预测从该第一目标字符到第二目标字符的音频播报时长。

S104、从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，所述目标动作文件用以驱动虚拟人物执行目标动作以得到目标动作视频，所述目标动作视频的时长与所述音频播报时长匹配。

例如，服务器21可以存储有样本关键词集合，该样本关键词集合中可以包括多个样本关键词。另外，服务器21还可以存储有该多个样本关键词中每个样本关键词分别对应的预设动作文件，具体的，一个样本关键词可以对应有一个或多个预设动作文件。具体的，服务器21可以根据该目标关键词从该样本关键词集合中查询与该目标关键词最匹配的样本关键词，并将该样本关键词对应的一个或多个预设动作文件作为该目标关键词对应的一个或多个预设动作文件。进一步，服务器21可以根据上述步骤预测从该第一目标字符到第二目标字符的音频播报时长，并根据该音频播报时长，从该一个或多个预设动作文件中确定出目标动作文件。其中，预设动作文件或目标动作文件可以是动作骨骼点位文件，通过动作骨骼点位文件可以渲染出动作视频，该渲染过程也是驱动虚拟人物执行动作的过程。具体的，该目标动作文件可以驱动虚拟人物执行目标动作以得到目标动作视频。该目标动作可以是目标关键词对应的动作。具体的，从该一个或多个预设动作文件中确定出的目标动作文件需要满足的条件是：根据目标动作文件驱动虚拟人物执行目标动作所得到的目标动作视频的时长与该音频播报时长匹配。

S105、根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，所述多媒体信息包括所述音频信息和每个目标关键词分别对应的目标动作视频。

例如，在本实施例中，服务器21还可以通过文本转语音(Text To Speech，TTS)技术将该预设文本转换为音频信息。进一步，根据该音频信息、以及该预设文本中每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，从而生成多媒体信息，具体的，由于不同的目标关键词所对应的目标动作是不同的，因此，不同的目标动作文件可以驱动虚拟人物执行不同的目标动作，从而得到不同的目标动作视频，也就是说，根据每个目标动作文件可以得到一个目标动作视频。从而使得该多媒体信息不仅可以包括该音频信息，还可以包括每个目标动作文件驱动虚拟人物执行目标动作时得到的目标动作视频。

本公开实施例通过从预设文本中获取一个或多个目标关键词，并针对一个或多个目标关键词中的每个目标关键词，从预设文本中确定第一目标字符和第二目标字符，第一目标字符与目标关键词的动作开始位置对应，第二目标字符与目标关键词的动作结束位置对应。进一步，预测从第一目标字符到第二目标字符的音频播报时长，并根据该音频播报时长从目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，使得目标动作文件驱动虚拟人物执行目标动作得到的目标动作视频的时长与音频播报时长匹配。因此，根据预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，生成多媒体信息时，可以保证该多媒体信息中每个目标动作视频的播放时长与从该目标动作开始位置到结束位置的音频播报时长相匹配，避免了播报音频完毕时，虚拟人物的动作还未结束，或者虚拟人物的动作播放完毕之后播报音频还没有结束的情况出现，从而提高了虚拟人物的表现力。

可以理解的是，本公开实施例并不限定第一目标字符和第二目标字符在该预设文本中的位置，下面对几种可能的情况进行介绍。

可选的，所述第一目标字符是所述目标关键词的第一个字符，或者所述第一目标字符是在所述目标关键词预设数量之前的字符。所述第二目标字符是所述目标关键词的最后一个字符，或者所述第二目标字符是所述目标关键词所属句子的最后一个字符，或者所述第二目标字符是所述目标关键词的下一个目标关键词的前一个字符，或者所述第二目标字符是在所述目标关键词的最后一个字符预设数量之后的字符。

例如图3所示，预设文本是“今天开始气温下降，请大家注意防范”，其中，“下降”是目标关键词，第一目标字符可以是该目标关键词的第一个字符例如“下”，第二目标字符可以是该目标关键词所属句子的最后一个字符例如“范”。或者，第一目标字符可以是“下”之前的某个字符例如“今”，“今”和“下”之间相隔预设数量的字符，该预设数量可以根据预设时长(例如1秒)和TTS语音播报语速确定。此外，第二目标字符还可以是该目标关键词的最后一个字符例如“降”，或者第二目标字符是“降”之后的某个字符例如“家”，“降”和“家”之间相隔预设数量的字符。

例如图4所示，预设文本是“今天开始气温下降，但是后天会有暴雪，请大家注意防范”，该预设文本中包括两个目标关键词，一个是“下降”、另一个是“暴雪”。针对“下降”，第一目标字符可以是“下”，第二目标字符可以是下一个目标关键词即“暴雪”的前一个字符例如“有”。针对“暴雪”，第一目标字符可以是“暴”，第二目标字符可以是“范”。同理，针对“下降”，第一目标字符还可以是“下”之前的某个字符例如“今”，第二目标字符还可以是“降”或“降”之后的某个字符例如“后”。或者如图5所示，针对“下降”，第一目标字符可以是“下”，第二目标字符可以是“后”。针对“暴雪”，第一目标字符可以是“暴”之前的某个字符例如“会”，第二目标字符可以是“范”。

图6为本公开另一实施例提供的虚拟人物控制方法流程图。该方法包括如图6所示的如下几个步骤：

S601、获取预设文本中的一个或多个目标关键词。

具体的，S601和S101的实现方式和具体原理一致，此处不再赘述。

S602、针对所述一个或多个目标关键词中的每个目标关键词，从所述预设文本中确定第一目标字符和第二目标字符，所述第一目标字符与所述目标关键词的动作开始位置对应，所述第二目标字符与所述目标关键词的动作结束位置对应。

具体的，S602和S102的实现方式和具体原理一致，此处不再赘述。

S603、根据所述第一目标字符和所述第二目标字符之间的字符个数、标点符号的个数，以及单个字符的音频播报时长、每个标点符号的停顿时长，预测从所述第一目标字符到所述第二目标字符的音频播报时长。

例如以图3为例，统计第一目标字符和第二目标字符之间非标点的字符个数，例如记为c_1，并通过实验计算出当前TTS播报单个字符的时长t_1。另外，由于TTS在播报预设文本的过程中，遇到逗号、句号等标点符号时会停顿，例如，遇到逗号时停顿的时长为t_2，遇到句号时停顿的时长为t_3，因此，还可以统计出第一目标字符和第二目标字符之间各类标点符号的个数，例如，逗号的个数是c_2，句号的个数是c_3。从而可以计算出从第一目标字符到第二目标字符的音频播报时长t，t可以通过如下公式(1)计算得到：

t＝c_1*t_1+c_2*t_2+c_3*t_3 (1)

S604、从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，所述目标动作文件用以驱动虚拟人物执行目标动作以得到目标动作视频，所述目标动作视频的时长与所述音频播报时长匹配。

例如图3所示，“下降”是目标关键词，该目标关键词对应有一个或多个预设动作文件，从该多个预设动作文件中决策出一个目标动作文件的逻辑包括如下几种：

1)如果一个或多个预设动作文件中每个预设动作文件分别渲染出的动作视频的时长均大于如上所述的t，则将时长最短的动作视频所对应的预设动作文件作为目标动作文件。

2)如果每个预设动作文件分别渲染出的动作视频的时长均小于t，则将时长最长的动作视频所对应的预设动作文件作为目标动作文件。

总之，目标动作文件所能渲染出的目标动作视频的时长与t是最接近的。

S605、根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，所述多媒体信息包括所述音频信息和每个目标关键词分别对应的目标动作视频。

可以理解的是，虽然通过目标动作文件所能渲染出的目标动作视频的时长与t最接近，但是，该目标动作视频的时长与t可能是不完全相同的，例如，该目标动作视频的时长可能大于t，也可能小于t。

例如图7所示，预设文本中包括两个目标关键词，例如，“下降”和“暴雪”，通过上述方法可以确定出每个目标关键词分别对应的目标动作文件。例如，根据“下降”对应的目标动作文件可以渲染出“下降”对应的目标动作视频。根据“暴雪”对应的目标动作文件可以渲染出“暴雪”对应的目标动作视频。由于“下降”和“暴雪”是不同的目标关键词，因此，“下降”和“暴雪”分别对应的目标动作视频可能不同。另外，“下降”和“暴雪”是相邻的两个目标关键词，因此，“下降”和“暴雪”分别对应的目标动作视频可以是连续播放的。但是，“下降”对应的目标动作视频的时长可能大于或小于t，“暴雪”对应的目标动作视频的时长也可能大于或小于从“暴”到“范”的音频播报时长，因此，需要做一些灵活调整，下面分情况介绍。

在一种可行的实现方式中，根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，包括：若所述目标关键词对应的目标动作视频的时长大于所述音频播报时长，则根据所述音频播报时长调整所述目标关键词对应的目标动作文件驱动虚拟人物的时长，以使所述目标动作文件驱动虚拟人物的时长与所述音频播报时长相同；根据所述预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及每个目标动作文件驱动虚拟人物的时长，实时驱动虚拟人物，以生成多媒体信息。

例如图7所示，t表示从“下”到“有”的音频播报时长。若“下降”对应的目标动作文件所能渲染出的目标动作视频的时长大于t，则会导致从“下”到“有”的音频播报完成时，该目标动作视频还没有播放完，因此，可以根据t来调整“下降”对应的目标动作文件驱动虚拟人物的时长，从而使得该目标动作文件驱动虚拟人物的时长可以与t相同。也就是说，可以控制该目标动作文件少驱动一会，以减少该目标动作视频的播放时长。例如，根据“下降”对应的目标动作文件驱动虚拟人物的时长达到t时，可以立即开始根据“暴雪”对应的目标动作文件驱动虚拟人物，从而使得“下降”对应的目标动作视频可以在如图7所示的打断位置上被“暴雪”对应的目标动作视频所打断。同理，可以确定出“暴雪”对应的目标动作文件驱动虚拟人物的时长。进一步，根据预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及每个目标动作文件驱动虚拟人物的时长，实时驱动虚拟人物，以生成多媒体信息。如图7所示，虚拟人物可以以默认姿态播报“今天开始气温”。在虚拟人物播报“下降，但是后天会有”的过程中，虚拟人物可以执行“下降”对应的目标动作。在虚拟人物播报“暴雪，请大家注意防范”的过程中，虚拟人物可以执行“暴雪”对应的目标动作。

在另一种可行的实现方式中，根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，包括：若所述目标关键词对应的目标动作视频的时长小于所述音频播报时长，则确定默认动作文件驱动虚拟人物的时长，所述默认动作文件驱动虚拟人物的时长是所述音频播报时长和所述目标动作视频的时长的差值；根据所述预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及所述默认动作文件实时驱动虚拟人物，以生成多媒体信息。

如图8所示，t表示从“下”到“有”的音频播报时长，但是，“下降”对应的目标动作文件所能渲染出的目标动作视频的时长小于t，则会导致该目标动作视频播放完成时，从“下”到“有”的音频还没有播报完。因此，可以根据t和该目标动作视频的时长的差值T，确定默认动作文件驱动虚拟人物的时长，使得该默认动作文件驱动虚拟人物的时长为T。具体的，该默认动作文件可以驱动虚拟人物执行默认动作，或者在该默认动作文件的驱动下，虚拟人物保持默认姿态。进一步，根据预设文本的音频信息、“下降”对应的目标动作文件、该默认动作文件、以及“暴雪”对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息。

可选的，所述默认动作文件在所述目标关键词对应的目标动作文件之后驱动所述虚拟人物；或者所述默认动作文件在所述目标关键词对应的目标动作文件之前驱动所述虚拟人物。

例如，该默认动作文件可以在“下降”对应的目标动作文件之后驱动所述虚拟人物。在这种情况下，如图8所示，虚拟人物可以以默认姿态播报“今天开始气温”。在t-T时间内，虚拟人物执行“下降”对应的目标动作。在T时间内，虚拟人物执行默认动作或保持默认姿态。在虚拟人物播报“暴雪，请大家注意防范”的过程中，虚拟人物执行“暴雪”对应的目标动作。

在其他实施例中，该默认动作文件还可以在“下降”对应的目标动作文件之前驱动虚拟人物。在这种情况下，如图9所示，虚拟人物可以以默认姿态播报“今天开始气温”。在T时间内，虚拟人物执行默认动作或保持默认姿态。在t-T时间内，虚拟人物执行“下降”对应的目标动作。在虚拟人物播报“暴雪，请大家注意防范”的过程中，虚拟人物执行“暴雪”对应的目标动作。

本实施例通过音频播报时长，从一个或多个预设动作文件中确定出目标动作文件，使得根据目标动作文件渲染出的目标动作视频的时长与音频播报时长匹配，相比于随机选取预设动作文件的策略，本实施例可以避免由于目标动作视频的时长与音频播报时长不匹配，而导致的虚拟人物表现力下降的问题。另外，本实施例在根据目标动作文件渲染出的目标动作视频的时长与音频播报时长匹配的基础上，进一步确定目标动作视频的时长大于或小于音频播报时长。如果目标动作视频的时长大于音频播报时长，则可以减少该目标动作文件驱动虚拟人物的时长，使得该目标动作文件驱动虚拟人物的时长与该音频播报时长相同。如果目标动作视频的时长小于音频播报时长，则可以在该目标动作视频之前或之后，通过默认动作文件来驱动虚拟人物，从而使得相邻两个目标关键词分别对应的目标动作视频可以连贯起来，进一步提高虚拟人物的表现力。

可以理解的是，如果预设文本中没有目标关键词，则虚拟人物可以默认动作或保持默认姿态播报该预设文本。

另外，在一些情况下，目标关键词中存在目标关键字，目标动作视频中存在关键帧，如果能将目标关键字的音频播报时刻与该关键帧的播放时刻对齐，可以进一步提高虚拟人物的表现力，下面结合具体的实施例进行说明。

图10为本公开另一实施例提供的虚拟人物控制方法流程图。该方法具体包括如图10所示的如下几个步骤：

S1001、获取预设文本中的一个或多个目标关键词。

具体的，S1001和S101的实现方式和具体原理一致，此处不再赘述。

S1002、针对所述一个或多个目标关键词中的每个目标关键词，从所述预设文本中确定第一目标字符和第二目标字符，所述第一目标字符与所述目标关键词的动作开始位置对应，所述第二目标字符与所述目标关键词的动作结束位置对应。

具体的，S1002和S102的实现方式和具体原理一致，此处不再赘述。

S1003、预测从所述第一目标字符到所述第二目标字符的音频播报时长。

具体的，S1003和S103的实现方式和具体原理一致，此处不再赘述。

S1004、从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，所述目标动作文件用以驱动虚拟人物执行目标动作以得到目标动作视频，所述目标动作视频的时长与所述音频播报时长匹配。

具体的，S1004和S104的实现方式和具体原理一致，此处不再赘述。

S1005、将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐。

例如，预设文本是“该运动员今天获得了全场最高分，高分的关键在这个动作的完成上”，其中，“这个”是目标关键词，“这”是该目标关键词中的目标关键字。“这个”对应的目标动作可以是指代动作，指代动作具体可以是从抬手到指向某个特定对象的过程。“这个”对应的目标动作视频中的关键帧是虚拟人物的手指指向该运动员高分动作的这一帧。因此为了进一步提高虚拟人物的表现力，可以将“这”的音频播报时刻与该关键帧的播放时刻进行对齐。也就是说，在虚拟人物播报到“这”字的同时，目标动作视频正好播放到了该关键帧。

可选的，所述多媒体信息包括所述音频信息和虚拟人物播报视频，所述虚拟人物播报视频包括每个目标关键词分别对应的目标动作视频，且所述虚拟人物播报视频与所述预设文本对应；所述音频信息的起始播报时刻相比于所述虚拟人物播报视频的起始播放时刻延后所述预设时长。

例如，与离线合成的视频不同的是，实时驱动虚拟人物的场景中不能提前预知当前TTS音频播报中某一个字被播报的具体时刻，但是可以预估某一个字在当前时刻之后的多长时间会被播报。

如图11所示，TTS时序表示预设文本中每个字的音频播报时序。动作时序表示虚拟人物播报视频中每一帧的播报时序。可以理解的是，预设文本中包括目标关键词，目标关键词对应的目标动作文件可以驱动虚拟人物执行目标动作从而得到目标动作视频。但是，除了从第一目标字符到第二目标字符之外的部分，例如图7所示的“今天开始气温”需要虚拟人物以默认动作或默认姿态来播报。在本实施例中，虚拟人物播报视频可以是该预设文本被完整播报过程中所渲染出来的完整视频。因此，虚拟人物播报视频可以包括虚拟人物以默认动作或默认姿态进行播报的视频，也包括目标动作视频。可以理解的是，当预设文本中包括多个目标关键词时，该虚拟人物播报视频可以包括每个目标关键词分别对应的目标动作视频。服务器21最终生成的多媒体信息包括该预设文本的音频信息和该虚拟人物播报视频。

例如图11所示，预设文本是“该运动员今天获得了全场最高分，高分的关键在这个动作的完成上”，其中，“这个”是目标关键词，例如，“这个”对应的第一目标字符是“这”，第二目标字符是“上”。根据上述方法可以确定出“这个”对应的目标动作文件。另外，还可以确定出从“该”到“在”的内容所对应的默认动作文件。也就是说，通过上述方法可以确定出虚拟人物以默认动作或默认姿态播报从“该”到“在”的内容，以指代动作播报从“这”到“上”的内容。也就是说，当虚拟人物播报从“该”到“在”的内容时可以渲染出默认动作视频或默认姿态视频，当虚拟人物播报从“这”到“上”的内容时可以渲染出目标动作视频，例如，指代动作视频。该指代动作具体可以是从抬手到指向某个特定对象的过程。如果虚拟人物在播报“这”的时刻才开始抬手，那么将会导致“这”的音频播报时刻不能与该目标动作视频中关键帧的播放时刻对齐。因此，为了将“这”的音频播报时刻与该目标动作视频中关键帧的播放时刻对齐，本公开实施例可以规定：包括关键帧的目标动作视频的起始帧到该关键帧的时长为预设时长，例如500ms，并且该预设文本的音频信息的起始播报时刻相比于虚拟人物播报视频的起始播放时刻延后500ms。如图11所示的初始时刻是虚拟人物播报视频的起始播放时刻，该预设文本的音频信息的起始播报时刻是“该”字的播报时刻，“该”字的播报时刻相比于该初始时刻延后了500ms。

可选的，将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐，包括：预测第一时刻之后的第二时刻是否播放所述目标关键字，所述第一时刻和所述第二时刻之间的时长为预设时长；若在所述第二时刻播放所述目标关键字，则将所述目标关键词对应的目标动作视频的起始帧的播放时刻与所述第一时刻对齐，所述起始帧和所述关键帧之间的时长为所述预设时长。

例如，从图11所示的初始时刻开始，可以实时预测当前时刻之后的500ms是否会播放目标关键字。假设当前时刻是图11所示的第一时刻，此时可以预测第一时刻之后的第二时刻是否会播放目标关键字“这”，其中，第一时刻和第二时刻之间的时长为500ms。如果预测到在第二时刻要播放目标关键字“这”，那么将该目标动作视频的起始帧(即第一帧)的播放时刻与该第一时刻对齐，使得该目标动作视频可以从第一时刻开始播放，由于目标动作视频的起始帧到关键帧的时长也是500ms，因此，从第一时刻开始经过500ms之后，音频信息正好播放到了“这”字，该目标动作视频正好播放到了该关键帧，从而使得“这”的音频播报时刻与关键帧的播放时刻在第二时刻实现了对齐。例如图11所示，虚拟人物在第一时刻播放“的”字，并在第一时刻开始抬手，随着手不断的抬高，当手到达最高点时，虚拟人物的手指指向某个特定对象，并且从开始抬手到手指指向某个特定对象的时长是500ms。也就是说，第一时刻是指代动作的开始执行时刻，第二时刻是指代动作执行到关键位置(例如手指指向某个特定对象)的时刻。

可以理解的是，包括关键帧的目标动作视频的时长可以大于或等于500ms，例如，以该目标动作视频的时长大于500ms为例，由于该目标动作视频的起始帧到该关键帧的时长为500ms，因此，当该目标动作视频播放到该关键帧时，该关键帧可以保持一段时间，例如持续1-2秒。

S1006、根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成所述多媒体信息，并使得所述目标关键字的音频和所述关键帧在同一时刻播放，所述多媒体信息包括所述音频信息和每个目标关键词分别对应的目标动作视频。

具体的，S1006和S105的实现方式和具体原理一致，此处不再赘述。

本实施例通过将预设文本的音频信息的起始播报时刻相比于所述虚拟人物播报视频的起始播放时刻延后所述预设时长，例如通过一个500ms的TTS错位，有效实现了目标关键字的音频和目标动作视频中关键帧的对齐。相比于不对齐的虚拟人物而言，将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐，可以更加明显的提升虚拟人物的表现力。

在上述实施例的基础上，本公开实施例提供的虚拟人物控制方法还包括如图12所示的如下几个步骤：

S1201、获取样本文本中的多个样本关键词。

例如，服务器21可以获取到虚拟人物所有可能的播报文案，所有可能的播报文案可以记为样本文本。例如，样本文本可以是历史播报文案，历史播报文案的个数可以是一个或多个。进一步，对样本文本中的关键信息例如关键词进行提取，从而得到样本文本中的多个样本关键词。另外，针对不同种类的虚拟人物，该样本文本的类型也可以不同。例如，对于天气播报类的虚拟人物而言，样本文本中可以包括更多天气信息，从而使得虚拟人物的动作可以与天气信息强相关。对于客服类的虚拟人物而言，样本文本中可以包括更多与客户相关的内容。

可选的，获取样本文本中的多个样本关键词，包括：对所述样本文本进行分词处理，得到多个分词；对所述多个分词进行排序，得到第一序列，所述分词在所述第一序列中的排序位置与所述分词的词频、重要程度相关；根据每个分词在所述第一序列中的排序位置，从所述第一序列中至少选取部分分词作为所述多个样本关键词。

例如，可以对样本文本进行分词处理，得到多个分词。进一步，采用文本加权排序算法对该多个分词进行排序，具体的，该文本加权排序算法可以是词频逆文本频率指数(term frequency–inverse document frequency，TF-IDF)。该文本加权排序算法可以根据该多个分词中每个分词的词频(例如分词出现的次数)、重要程度等信息对该多个分词进行排序，得到第一序列，其中，词频较高、重要程度较高的分词可以排在该第一序列的前面位置。进一步，可以将该第一序列中前n个分词作为样本关键词，此处不限定n的取值大小。

S1202、对所述多个样本关键词进行调整，得到样本关键词集合。

例如，可以对上述确定出的n个样本关键词进行调整，得到样本关键词集合。

可选的，对所述多个样本关键词进行调整，得到样本关键词集合，包括：在所述多个样本关键词的基础上增加样本关键词，并调整各个样本关键词的排序位置，得到第二序列；从所述第二序列中至少选取部分样本关键词得到样本关键词集合。

例如，在上述n个样本关键词的基础上，可以对该n个样本关键词中个别样本关键词的排序进行调整，例如，在天气预报的应用场景中，可以将该n个样本关键词中出现的“暴雪”、“阴天”等与天气相关的样本关键词调整到较为靠前的排序位置，以便体现出该类样本关键词的重要程度。或者，还可以在上述n个样本关键词的基础上增加新的样本关键词，该新的样本关键词可以是根据需求增加的，例如，可以增加“拜拜”、“你好”等经常使用的样本关键词。例如，新增的样本关键词是m个，进一步，可以调整n+m个样本关键词的排序，从而得到第二序列。或者还可以增加“这个”、“这”、“这些”、“那”等指代类的样本关键词，虚拟人物播报到该类样本关键词时往往意味着对后面信息的强调，因此，该类样本关键词也可以被放在较为靠前的排序位置上。进一步，从所述第二序列中至少选取部分样本关键词得到样本关键词集合。该样本关键词集合可以记为样本关键词列表。

S1203、针对所述样本关键词集合中的每个样本关键词，生成所述样本关键词对应的一个或多个预设动作文件。

例如，根据该样本关键词集合中的每个样本关键词，可以生成该样本关键词的标识信息。另外，由于一个样本关键词可以对应一个动作，因此，每个样本关键词的标识信息还可以是该样本关键词对应动作的动作标签，每个样本关键词分别对应的动作标签可以构成动作标签集合。具体的，一个动作对应一个动作标签，一个样本关键词对应一个动作标签。进一步，针对该样本关键词集合中的每个样本关键词，可以生成该样本关键词对应的一个或多个预设动作文件。从而使得一个动作标签可以对应一个或多个预设动作文件。例如，动作标签集合可以记为L，该动作标签集合中包括多个动作标签，例如，L_1、L_2、…、L_n。以L_i为例，L_i对应的多个预设动作文件可以记为L_i1、L_i2、…、L_im。此外，还可以生成一个默认动作文件，该默认动作文件可以记为L_idle。

在一种可行的实现方式中，生成所述样本关键词对应的一个或多个预设动作文件，包括：根据所述样本关键词对应的动作，录制一个或多个包含真实人物的动作视频；生成每个包含真实人物的动作视频分别对应的预设动作文件。

例如，针对该样本关键词集合中的每个样本关键词，可以根据该样本关键词对应的动作，录制一个或多个包含真实人物的动作视频，进一步，根据每一个包含真实人物的动作视频中真实人物的骨骼变化，生成一个预设动作文件，即根据一个真实人物的动作视频可以生成一个预设动作文件。从而得到该样本关键词对应的一个或多个预设动作文件。

在另一种可行的实现方式中，生成所述样本关键词对应的一个或多个预设动作文件，包括：根据所述样本关键词对应的动作，生成一个或多个预设动作文件。

例如，针对该样本关键词集合中的每个样本关键词，可以根据该样本关键词对应的动作，生成虚拟人物的骨骼变化，从而生成该样本关键词对应的一个或多个预设动作文件。

可选的，上述步骤S104，从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，包括：从所述样本关键词集合中确定出与所述目标关键词匹配的样本关键词，并从所述样本关键词对应的一个或多个预设动作文件中确定出目标动作文件。

例如，服务器21可以存储有样本关键词集合，该样本关键词集合中可以包括多个样本关键词。另外，服务器21还可以存储有该多个样本关键词中每个样本关键词分别对应的预设动作文件，具体的，一个样本关键词可以对应有一个或多个预设动作文件。具体的，服务器21可以根据该目标关键词从该样本关键词集合中查询与该目标关键词最匹配的样本关键词，并将该样本关键词对应的一个或多个预设动作文件作为该目标关键词对应的一个或多个预设动作文件。进一步，服务器21可以从该一个或多个预设动作文件中确定出目标动作文件。

相比于文案中的关键信息与虚拟人物的关键动作集合事先由人指定好的方式，本实施例采用算法自动提取样本文本中的样本关键词，并对样本关键词进行排序，使得样本关键词更准确、更全面。从而可以避免由于虚拟人物的可选动作严重受限而导致的表现力不佳的问题。

如图13所示为本公开实施例提供的整体方案流程图。其中，播报文案全集可以是如上所述的样本文本。关键信息定位与排序算法可以实现如上所述的样本关键词提取、以及对样本关键词进行排序的过程。样本关键词的排序列表可以是如上所述的样本关键词集合。由于一个样本关键词对应一个或多个预设动作文件，因此，该样本关键词集合中的每个样本关键词分别对应的一个或多个预设动作文件可以构成预设动作文件集合。当前播报文案可以是如上所述的预设文本。TTS模块可以将预设文本转换为音频信息，例如，当前播报音频。动作决策算法可以实现从目标关键词对应的一个或多个预设动作文件中确定出目标动作文件的过程。动作关键帧与音频关键字对齐算法可以实现将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐的过程。虚拟人物驱动渲染可以指采用unity渲染出动作视频。从而使得对齐后的音频信息和动作视频构成多媒体信息。

如图14所示为本公开实施例提供的动作决策算法的流程图。其中，文本输入具体可以是图13所示的当前播报文案。该当前播报文案可以包括多个句子，进一步，采用分句算法将该当前播报文案分成n个句子，每个句子是一个分句。针对每个分句中的目标关键词，音频时长预测模型可以预测从该目标关键词对应的第一目标字符到第二目标字符的音频播报时长t，t也可以记为预测时长。假设每个分句中包括一个目标关键词。针对每个分句中的目标关键词，动作文件决策模型可以根据从该目标关键词对应的第一目标字符到第二目标字符的音频播报时长，从该目标关键词对应的一个或多个预设动作文件中确定出目标动作文件。例如，针对分句1中的目标关键词确定出目标动作文件1，针对分句2中的目标关键词确定出目标动作文件2，以此类推，针对分句n中的目标关键词确定出目标动作文件n。进一步，n个目标动作文件可以JavaScript对象表示法(JavaScript Object Notation)的格式封装在一起得到图14所示的动作决策结果文件。此外，在其他一些实施例中，当某个分句中包括多个目标关键词时，动作决策算法还可以根据各个目标关键词在该分句中的位置，决策出各个目标关键词对应的目标动作视频之间是否可以相互打断。

图15为本公开实施例提供的虚拟人物控制装置的结构示意图。本公开实施例提供的虚拟人物控制装置可以执行虚拟人物控制方法实施例提供的处理流程，如图15所示，虚拟人物控制装置150包括：

第一获取模块151，用于获取预设文本中的一个或多个目标关键词；

第一确定模块152，用于针对所述一个或多个目标关键词中的每个目标关键词，从所述预设文本中确定第一目标字符和第二目标字符，所述第一目标字符与所述目标关键词的动作开始位置对应，所述第二目标字符与所述目标关键词的动作结束位置对应；

预测模块153，用于预测从所述第一目标字符到所述第二目标字符的音频播报时长；

第二确定模块154，用于从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，所述目标动作文件用以驱动虚拟人物执行目标动作以得到目标动作视频，所述目标动作视频的时长与所述音频播报时长匹配；

第一生成模块155，用于根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，所述多媒体信息包括所述音频信息和每个目标关键词分别对应的目标动作视频。

具体的，第一目标字符和第二目标字符在预设文本中所处的位置可以有多种灵活选择方式。例如包括如下几种可能，所述第一目标字符是所述目标关键词的第一个字符，或者所述第一目标字符是在所述目标关键词预设数量之前的字符；所述第二目标字符是所述目标关键词的最后一个字符，或者所述第二目标字符是所述目标关键词所属句子的最后一个字符，或者所述第二目标字符是所述目标关键词的下一个目标关键词的前一个字符，或者所述第二目标字符是在所述目标关键词的最后一个字符预设数量之后的字符。

可选的，预测模块153预测从所述第一目标字符到所述第二目标字符的音频播报时长时，具体用于：根据所述第一目标字符和所述第二目标字符之间的字符个数、标点符号的个数，以及单个字符的音频播报时长、每个标点符号的停顿时长，预测从所述第一目标字符到所述第二目标字符的音频播报时长。

另外，目标关键词对应的目标动作视频的时长与音频播报时长可能不完全相同，此时可以做一些灵活调整。

在一种可能的实现方式中，第一生成模块155根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息时，具体用于：若所述目标关键词对应的目标动作视频的时长大于所述音频播报时长，则根据所述音频播报时长调整所述目标关键词对应的目标动作文件驱动虚拟人物的时长，以使所述目标动作文件驱动虚拟人物的时长与所述音频播报时长相同；根据所述预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及每个目标动作文件驱动虚拟人物的时长，实时驱动虚拟人物，以生成多媒体信息。

在另一种可能的实现方式中，第一生成模块155根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息时，具体用于：若所述目标关键词对应的目标动作视频的时长小于所述音频播报时长，则确定默认动作文件驱动虚拟人物的时长，所述默认动作文件驱动虚拟人物的时长是所述音频播报时长和所述目标动作视频的时长的差值；根据所述预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及所述默认动作文件实时驱动虚拟人物，以生成多媒体信息。

此外，为了进一步提升虚拟人物的表现力，还可以将目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐。在这种情况下，所述装置150还包括：对齐模块156，对齐模块156用于在所述第一生成模块根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息之前，将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐；相应的，所述第一生成模块155在根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息时，具体用于：根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成所述多媒体信息，并使得所述目标关键字的音频和所述关键帧在同一时刻播放。

可选的，所述对齐模块156将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐时，具体用于：预测第一时刻之后的第二时刻是否播放所述目标关键字，所述第一时刻和所述第二时刻之间的时长为预设时长；若在所述第二时刻播放所述目标关键字，则将所述目标关键词对应的目标动作视频的起始帧的播放时刻与所述第一时刻对齐，所述起始帧和所述关键帧之间的时长为所述预设时长。

此外，每个目标关键词对应的一个或多个预设动作文件可以是预先设置的，或者可以是通过如上方法实施例生成的。该生成过程涉及到如下几个新增的模块。

例如，所述装置150还包括：第二获取模块157、调整模块158、第二生成模块159；其中，第二获取模块157用于获取样本文本中的多个样本关键词；调整模块158用于对所述多个样本关键词进行调整，得到样本关键词集合；第二生成模块159用于针对所述样本关键词集合中的每个样本关键词，生成所述样本关键词对应的一个或多个预设动作文件；相应的，第二确定模块154从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件时，具体用于：从所述样本关键词集合中确定出与所述目标关键词匹配的样本关键词，并从所述样本关键词对应的一个或多个预设动作文件中确定出目标动作文件。

可选的，第二获取模块157在获取样本文本中的多个样本关键词时，具体可以用于：对所述样本文本进行分词处理，得到多个分词；对所述多个分词进行排序，得到第一序列，所述分词在所述第一序列中的排序位置与所述分词的词频、重要程度相关；根据每个分词在所述第一序列中的排序位置，从所述第一序列中至少选取部分分词作为所述多个样本关键词。

可选的，调整模块158对所述多个样本关键词进行调整，得到样本关键词集合时，具体用于：在所述多个样本关键词的基础上增加样本关键词，并调整各个样本关键词的排序位置，得到第二序列；从所述第二序列中至少选取部分样本关键词得到样本关键词集合。

在一种可能的实现方式中，第二生成模块159生成所述样本关键词对应的一个或多个预设动作文件时，具体用于：根据所述样本关键词对应的动作，录制一个或多个包含真实人物的动作视频；生成每个包含真实人物的动作视频分别对应的预设动作文件。

在另一种可能的实现方式中，第二生成模块159生成所述样本关键词对应的一个或多个预设动作文件时，具体用于：根据所述样本关键词对应的动作，生成一个或多个预设动作文件。

图15所示实施例的虚拟人物控制装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

以上描述了虚拟人物控制装置的内部功能和结构，该装置可实现为一种电子设备。图16为本公开实施例提供的电子设备实施例的结构示意图。如图16所示，该电子设备包括存储器161和处理器162。

存储器161用于存储程序。除上述程序之外，存储器161还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器161可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器162与存储器161耦合，执行存储器161所存储的程序，以用于：

获取预设文本中的一个或多个目标关键词；

进一步，如图16所示，电子设备还可以包括：通信组件163、电源组件164、音频组件165、显示器166等其它组件。图16中仅示意性给出部分组件，并不意味着电子设备只包括图16所示组件。

其中，该电子设备可以是如上所述的服务器21，也可以是终端22。当该电子设备是服务器21时，处理器162可以根据预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息。进一步，通信组件163可以将该多媒体信息发送给终端22。

当该电子设备是终端22时，处理器162可以根据预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息。显示器166可以显示该多媒体信息中的视频。音频组件165可以播放该多媒体信息中的音频。

通信组件163被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件163经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件163还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件164，为电子设备的各种组件提供电力。电源组件164可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件165被配置为输出和/或输入音频信号。例如，音频组件165包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器161或经由通信组件163发送。在一些实施例中，音频组件165还包括一个扬声器，用于输出音频信号。

显示器166包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的虚拟人物控制方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种虚拟人物控制方法，其中，所述方法包括：

获取预设文本中的一个或多个目标关键词；

2.根据权利要求1所述的方法，其中，所述第一目标字符是所述目标关键词的第一个字符，或者所述第一目标字符是在所述目标关键词预设数量之前的字符；

所述第二目标字符是所述目标关键词的最后一个字符，或者所述第二目标字符是所述目标关键词所属句子的最后一个字符，或者所述第二目标字符是所述目标关键词的下一个目标关键词的前一个字符，或者所述第二目标字符是在所述目标关键词的最后一个字符预设数量之后的字符。

3.根据权利要求1所述的方法，其中，预测从所述第一目标字符到所述第二目标字符的音频播报时长，包括：

根据所述第一目标字符和所述第二目标字符之间的字符个数、标点符号的个数，以及单个字符的音频播报时长、每个标点符号的停顿时长，预测从所述第一目标字符到所述第二目标字符的音频播报时长。

4.根据权利要求1所述的方法，其中，根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，包括：

若所述目标关键词对应的目标动作视频的时长大于所述音频播报时长，则根据所述音频播报时长调整所述目标关键词对应的目标动作文件驱动虚拟人物的时长，以使所述目标动作文件驱动虚拟人物的时长与所述音频播报时长相同；

根据所述预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及每个目标动作文件驱动虚拟人物的时长，实时驱动虚拟人物，以生成多媒体信息。

5.根据权利要求1所述的方法，其中，根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，包括：

若所述目标关键词对应的目标动作视频的时长小于所述音频播报时长，则确定默认动作文件驱动虚拟人物的时长，所述默认动作文件驱动虚拟人物的时长是所述音频播报时长和所述目标动作视频的时长的差值；

根据所述预设文本的音频信息、每个目标关键词分别对应的目标动作文件、以及所述默认动作文件实时驱动虚拟人物，以生成多媒体信息。

6.根据权利要求5所述的方法，其中，所述默认动作文件在所述目标关键词对应的目标动作文件之后驱动所述虚拟人物；或者

所述默认动作文件在所述目标关键词对应的目标动作文件之前驱动所述虚拟人物。

7.根据权利要求1所述的方法，其中，根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息之前，所述方法还包括：

将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐；

相应的，根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息，包括：

根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成所述多媒体信息，并使得所述目标关键字的音频和所述关键帧在同一时刻播放。

8.根据权利要求7所述的方法，其中，将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐，包括：

预测第一时刻之后的第二时刻是否播放所述目标关键字，所述第一时刻和所述第二时刻之间的时长为预设时长；

若在所述第二时刻播放所述目标关键字，则将所述目标关键词对应的目标动作视频的起始帧的播放时刻与所述第一时刻对齐，所述起始帧和所述关键帧之间的时长为所述预设时长。

9.根据权利要求8所述的方法，其中，所述多媒体信息包括所述音频信息和虚拟人物播报视频，所述虚拟人物播报视频包括每个目标关键词分别对应的目标动作视频，且所述虚拟人物播报视频与所述预设文本对应；

所述音频信息的起始播报时刻相比于所述虚拟人物播报视频的起始播放时刻延后所述预设时长。

10.根据权利要求1所述的方法，其中，所述方法还包括：

获取样本文本中的多个样本关键词；

对所述多个样本关键词进行调整，得到样本关键词集合；

针对所述样本关键词集合中的每个样本关键词，生成所述样本关键词对应的一个或多个预设动作文件；

相应的，从所述目标关键词对应的一个或多个预设动作文件中确定出目标动作文件，包括：

从所述样本关键词集合中确定出与所述目标关键词匹配的样本关键词，并从所述样本关键词对应的一个或多个预设动作文件中确定出目标动作文件。

11.一种多媒体信息生成装置，其中，包括：

12.根据权利要求11所述的装置，其中，所述装置还包括：对齐模块，用于在所述第一生成模块根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息之前，将所述目标关键词中目标关键字的音频播报时刻与所述目标关键词对应的目标动作视频中关键帧的播放时刻进行对齐；

相应的，所述第一生成模块在根据所述预设文本的音频信息、以及每个目标关键词分别对应的目标动作文件实时驱动虚拟人物，以生成多媒体信息时，具体用于：

13.一种电子设备，其中，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-10中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-10中任一项所述的方法。