CN112541959A

CN112541959A - 虚拟对象显示方法、装置、设备及介质

Info

Publication number: CN112541959A
Application number: CN202011519438.2A
Authority: CN
Inventors: 刘春宇
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-23
Anticipated expiration: 2040-12-21
Also published as: CN112541959B

Abstract

本申请实施例公开了一种虚拟对象显示方法、装置、设备及介质，属于图像处理技术领域。该方法包括：获取目标音频的音频信息，所述目标音频为正在播放的音频或者为当前采集的音频；确定虚拟对象标识，所述虚拟对象标识指示待显示的虚拟对象；根据所述音频信息和所述虚拟对象标识，获取目标动画，所述目标动画包括所述虚拟对象且所述虚拟对象的动作与所述音频信息匹配；播放所述目标动画，达到了根据音频显示虚拟对象，虚拟对象随着音频起舞的效果，提高了虚拟对象显示的灵活性。

Description

虚拟对象显示方法、装置、设备及介质

技术领域

本申请实施例涉及图像处理技术领域，特别涉及一种虚拟对象显示方法、装置、设备及介质。

背景技术

随着计算机技术和图像处理技术的不断发展，越来越多的应用具有显示虚拟对象的功能。例如，在显示目标虚拟对象时，可以获取该目标虚拟对象的动画，对该动画进行播放，由于该动画的时长有限，因此终端在播放一遍该动画之后，还会进行循环播放。但是，该目标虚拟对象的动画内容是固定的，因此，显示虚拟对象的方法比较单一，灵活性较差。

发明内容

本申请实施例提供了一种虚拟对象显示方法、装置、设备及介质，提高了虚拟对象显示的灵活性。所述技术方案如下：

一方面，提供了一种虚拟对象显示方法，所述方法包括：

获取目标音频的音频信息，所述目标音频为正在播放的音频或者为当前采集的音频；

确定虚拟对象标识，所述虚拟对象标识指示待显示的虚拟对象；

根据所述音频信息和所述虚拟对象标识，获取目标动画，所述目标动画包括所述虚拟对象且所述虚拟对象的动作与所述音频信息匹配；

播放所述目标动画。

另一方面，提供了一种虚拟对象显示装置，所述装置包括：

信息获取模块，用于获取目标音频的音频信息，所述目标音频为正在播放的音频或者为当前采集的音频；

确定模块，用于确定虚拟对象标识，所述虚拟对象标识指示待显示的虚拟对象；

动画获取模块，用于根据所述音频信息和所述虚拟对象标识，获取目标动画，所述目标动画包括所述虚拟对象且所述虚拟对象的动作与所述音频信息匹配；

显示模块，用于播放所述目标动画。

在一种可能实现方式中，所述显示模块，用于获取所述目标音频的节奏速度，所述节奏速度指示参考时长内节拍的数量；根据所述节奏速度，对所述目标动画的播放速度进行调整；按照调整后的播放速度，播放所述目标动画；或者，

所述显示模块，用于获取所述目标音频的情感类型，根据所述情感类型，对所述目标动画的播放速度进行调整；按照调整后的播放速度，播放所述目标动画。

在一种可能实现方式中，所述目标动画包括多个动作标识对应的动画片段，所述动画获取模块，包括：

确定单元，用于确定所述音频信息对应的多个动作标识；

获取单元，用于从所述虚拟对象标识对应的动画集中，获取每个动作标识对应的动画片段，所述动作标识对应的动画片段中所述虚拟对象执行所述动作标识对应的动作。

在一种可能实现方式中，所述显示模块，用于按照所述多个动作标识的排列顺序，依次播放所述每个动作标识对应的动画片段。

在一种可能实现方式中，所述装置还包括：

所述显示模块，用于显示动作配置界面，所述动作配置界面包括至少一种音频信息；

标识获取模块，用于响应于对任一音频信息的触发操作，获取为所述音频信息配置的至少一个动作标识；

建立模块，用于建立所述音频信息与所述至少一个动作标识之间的第一对应关系。

在一种可能实现方式中，所述装置还包括：

模型获取模块，用于若未获取到所述目标动画，则获取所述虚拟对象标识对应的虚拟对象模型；

所述确定模块，用于确定所述音频信息对应的动作标识；

所述显示模块，用于显示所述虚拟对象模型，并控制所述虚拟对象模型执行所述动作标识对应的动作。

在一种可能实现方式中，所述装置还包括：

录制模块，用于在显示所述虚拟对象模型，并控制所述虚拟对象模型执行所述动作标识对应的动作的过程中，对所述虚拟对象模型进行录制，得到所述虚拟对象的动画；

建立模块，用于建立所述动画与所述音频信息之间的第二对应关系，或者，建立所述动画与所述动作标识之间的第三对应关系。

在一种可能实现方式中，所述信息获取模块，用于对所述目标音频进行曲调识别，得到所述目标音频的曲调类型；或者，

对所述目标音频进行风格识别，得到所述目标音频的风格类型；或者，

对所述目标音频进行情感识别，得到所述目标音频的情感类型；或者，

对所述目标音频进行名称识别，得到所述目标音频的音频名称。

在一种可能实现方式中，所述确定模块，用于从直播服务器中获取主播标识对应的虚拟对象标识；或者，显示虚拟对象选择界面，响应于对所述虚拟对象选择界面中任一虚拟对象的选择操作，获取所述虚拟对象的虚拟对象标识。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述方面所述的虚拟对象显示方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述方面所述的虚拟对象显示方法中所执行的操作。

再一方面，提供了一种计算机程序，所述计算机程序中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述实施例的虚拟对象显示方法中所执行的操作。

本申请实施例提供的虚拟对象显示方法、装置、设备及介质，由于目标动画中虚拟对象的动作与音频信息匹配，因此，达到了根据音频显示虚拟对象，虚拟对象随着音频起舞的效果，提高了虚拟对象显示的灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的结构示意图。

图2是本申请实施例提供的一种虚拟对象显示方法的流程图。

图3是本申请实施例提供的一种虚拟对象显示方法的流程图。

图4是本申请实施例提供的一种目标动画的示意图。

图5是本申请实施例提供的一种虚拟对象显示装置的结构示意图。

图6是本申请实施例提供的另一种虚拟对象显示装置的结构示意图。

图7是本申请实施例提供的一种终端的结构示意图。

图8是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”、“第三”、“第四”、“第五”、“第六”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一对应关系称为第二对应关系，将第二对应关系称为第一对应关系。

本申请所使用的术语“每个”、“多个”、“至少一个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个动作标识包括3个动作标识，而每个是指这3个动作标识中的每一个动作标识，任一是指这3个动作标识中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

本申请实施例提供的虚拟对象显示方法，应用于计算机设备。在一种可能实现方式中，计算机设备为终端，例如，手机、平板电脑、计算机等。在另一种可能实现方式中，计算机设备包括终端和服务器。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括至少一个终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。

终端101上安装由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地，目标应用为终端101操作系统中的目标应用，或者为第三方提供的目标应用。例如，目标应用为图像处理应用，该图像处理应用具有图像处理的功能，例如，在拍摄画面中播放动画等。当然，该图像处理应用还能够具有其他功能，例如，图像分享功能、点评功能等。可选地，目标应用为直播应用、短视频应用等任一图像处理应用。

可选地，终端101基于用户标识登录目标应用，通过目标应用向服务器102上传虚拟对象标识和目标音频，由服务器102对目标音频进行处理，获取目标音频的音频信息，根据音频信息和虚拟对象标识，获取目标动画，其中，目标动画包括虚拟对象且虚拟对象的动作与音频信息匹配。服务器102将获取的目标动画下发给终端101，终端101接收该目标动画，播放该目标动画。

需要说明的是，本申请实施例仅是以终端101通过目标应用向服务器102上传虚拟对象标识和目标音频为例，对终端101和服务器102之间的交互过程进行示例性说明，而在另一实施例中，终端101向服务器102发送登录目标应用的用户标识，由服务器102根据用户标识确定虚拟对象标识；在另一实施例中，终端101获取目标音频的音频信息，通过目标应用向服务器102上传该音频信息。

本申请实施例提供的虚拟对象显示方法，能够应用于图像处理场景中：

例如，应用于直播场景中。

在直播过程中，主播客户端使用虚拟对象代替主播进行直播，采用本申请实施例提供的虚拟对象显示方法，能够根据麦克风采集的音频，来播放动画，且该动画中的虚拟对象的动作与采集的音频匹配，达到了虚拟对象随着音频起舞的效果，提高了虚拟对象显示的灵活性。

例如，应用于短视频拍摄场景中。

在拍摄短视频的过程中，可以选择一个虚拟对象进行合拍，采用本申请实施例提供的虚拟对象显示方法，虚拟对象的动作与短视频应用所播放的音频匹配，达到了虚拟对象随着音频起舞的效果，提高了虚拟对象显示的灵活性。

需要说明的是，本申请实施例仅是以直播场景和短视频拍摄场景为例，对图像处理场景进行示例性说明，并不对图像处理场景造成限制，可选地，本申请实施例提供的图像处理方法还能够应用于影片的后期制作等其他任一图像处理场景中。

图2是本申请实施例提供的一种虚拟对象显示方法的流程图。本申请实施例以执行主体为终端为例，进行示例性说明。参见图2，该方法包括：

201、终端获取目标音频的音频信息。

其中，目标音频为正在播放的音频或者为当前采集的音频。

202、终端确定虚拟对象标识，该虚拟对象标识指示待显示的虚拟对象。

其中，虚拟对象标识指示待显示的虚拟对象是指：虚拟对象标识为该待显示的虚拟对象的标识，例如，该虚拟对象标识为虚拟对象的名称、序号等。

203、终端根据音频信息和虚拟对象标识，获取目标动画，目标动画包括虚拟对象且虚拟对象的动作与音频信息匹配。

终端根据虚拟对象标识，能够获取到包括虚拟对象的动画；终端根据音频信息和虚拟对象标识，能够获取到包括虚拟对象且虚拟对象的动作与音频信息匹配的动画。

204、终端播放该目标动画。

由于本申请中目标动画是根据正在播放的音频或者当前采集的音频的音频信息获取的，且目标动画中的虚拟对象的动作与音频信息匹配，因此，达到了虚拟对象随着正在播放的音频或者当前采集的音频起舞的效果。

本申请实施例提供的虚拟对象显示方法，由于目标动画中虚拟对象的动作与音频信息匹配，因此，达到了根据音频显示虚拟对象，虚拟对象随着音频起舞的效果，提高了虚拟对象显示的灵活性。

图3是本申请实施例提供的一种虚拟对象显示方法的流程图。参见图3，本申请实施例以执行主体为终端为例进行示例性说明，该方法包括：

301、终端获取目标音频的音频信息，该目标音频为正在播放的音频或者为当前采集的音频。

其中，目标音频为终端正在播放的音频，或者为终端当前采集的音频，也就是说，终端获取的目标音频是当前的，而不是任一音频。

在一种可能实现方式中，目标音频为正在播放的音频，则终端获取目标音频的音频信息，包括：终端获取目标应用正在播放的音频的音频信息。在另一种可能实现方式中，目标音频为当前采集的音频，则终端获取目标音频的音频信息，包括：终端获取麦克风当前采集的音频的音频信息。

例如，在直播过程中，主播表演唱歌，则终端获取麦克风当前采集的音频(也即是主播演唱的歌曲)。又如，在短视频拍摄过程中，用户可以选择视频录制的背景音乐，在短视频拍摄过程中，短视频应用播放用户选择的背景音乐，并将该背景音乐与拍摄的画面录制为视频，其中，终端获取短视频应用所播放的背景音乐的音频信息。

其中，音频信息为音频的属性信息，可选地，音频信息为音频名称、音频的情感类型、音频的曲调类型、或者音频的风格类型等，本申请实施例对音频信息不做限定。

在一种可能实现方式中，终端能够直接获取到目标音频的音频信息。其中，目标音频为目标应用正在播放的音频，且目标应用中包括正在播放的音频的音频信息，则终端可以直接获取到目标音频的音频信息。

例如，目标应用通过向服务器发送歌曲A的歌曲名称《xxx》，从服务器中获取到歌曲A的音频数据进行播放，因此，目标应用中存储有歌曲A的歌曲名称《xxx》，在虚拟对象显示的过程中，能够直接获取该歌曲名称《xxx》。

在另一种可能实现方式中，终端需要先获取目标音频，再对目标音频进行处理，得到目标音频的音频信息。其中，终端获取目标音频的音频信息，包括：对目标音频进行曲调识别，得到目标音频的曲调类型；或者，对目标音频进行风格识别，得到目标音频的风格类型；或者，对目标音频进行情感识别，得到目标音频的情感类型；或者，对目标音频进行名称识别，得到目标音频的音频名称。

其中，音频的曲调类型是音频的主旋律所属的类型，例如，曲调类型为民族风、现代歌曲、动感歌曲等。音频的风格类型是指音频所属的风格，例如，风格类型为嘻哈、摇滚、朋克、古典、金属、拉丁等。情感类型是指欢快、悲伤、爱情、友情等。

在一种可能实现方式中，通过分类模型确定目标音频的曲调类型。其中，对目标音频进行曲调识别，得到目标音频的曲调类型，包括：将目标音频输入曲调识别模型中，由曲调识别模型输出该目标音频的曲调类型，该曲调识别模型用于确定音频所属的曲调类型，例如，曲调识别模型用于确定音频属于民族风、现代歌曲或者动感歌曲。

在一种可能实现方式中，通过分类模型确定目标音频的风格类型。其中，对目标音频进行风格识别，得到目标音频的风格类型，包括：将目标音频输入风格识别模型中，由风格识别模型输出该目标音频的风格类型，该风格识别模型用于确定音频所属的风格类型。例如，风格识别模型用于确定音频属于嘻哈、摇滚、朋克、古典、金属或者拉丁。

在一种可能实现方式中，通过分类模型确定目标音频的情感类型，其中，对目标音频进行情感识别，得到目标音频的情感类型，包括：将目标音频输入情感识别模型中，由情感识别模型输出该目标音频的情感类型，该情感识别模型用于确定音频所属的情感类型，例如，情感识别模型用于确定音频的情感为欢快、悲伤、爱情或者友情。

在一种可能实现方式中，目标音频为目标歌曲，目标音频的音频名称为歌曲名称，通过歌词确定目标歌曲的歌曲名称。其中，对目标音频进行名称识别，得到目标音频的音频名称，包括：对目标歌曲进行歌词提取，得到目标歌曲的第一歌词数据，将该第一歌词数据与歌词库中的歌词数据进行匹配，若歌词库中的第二歌词数据与第一歌词数据匹配，则将第二歌词数据对应的歌曲名称作为目标歌曲的歌曲名称。其中，歌词库包括多个歌词数据，以及每个歌词数据对应的歌曲名称。

在另一种可能实现方式中，通过目标音频的音频特征确定目标音频的音频名称，其中，对目标音频进行名称识别，得到目标音频的音频名称，包括：对目标音频进行特征提取，得到目标音频的第一音频特征，将第一音频特征与特征库中的音频特征进行匹配，若特征库中的第二音频特征与第一音频特征匹配，则将第二音频特征对应的音频名称作为目标音频的音频名称。其中，特征库包括多个音频特征，以及每个音频特征对应的音频名称。其中，音频特征可以是旋律特征、节奏特征等，本申请实施例对音频特征不做限定。

在一种可能实现方式中，终端每隔参考时长，获取一次目标音频的音频信息；或者，终端实时获取目标音频的音频信息；或者，终端在目标音频发生变化之后，获取新的目标音频的音频信息。

由于目标音频需要一定的时长才能播放完成，因此，终端可以每隔参考时长，获取一次目标音频的音频信息。其中，参考时长为任一时长，例如，10秒、30秒或者60秒等。

或者，为了保证在目标音频发生变化之后，虚拟对象的动作随之变化，还可以实时获取目标音频的音频信息，以便在目标音频发生变化之后，能够立刻根据新的目标音频的音频信息，获取对应的动画进行播放，使得虚拟对象的动作与新的目标音频的音频信息匹配。

在一种可能实现方式中，由于目标音频是终端的目标应用所播放的音频，因此，在目标音频发生变化之后，目标应用能够立刻获取新的目标音频的音频信息。例如，终端响应于音频切换指令，获取下一音频的音频信息。

302、终端确定虚拟对象标识，该虚拟对象标识指示待显示的虚拟对象。

其中，虚拟对象标识为虚拟对象的标识，例如，该虚拟对象标识为虚拟对象的名称、虚拟对象的序号等。

在一种可能实现方式中，虚拟对象标识为用户选择的任一虚拟对象的虚拟对象标识。其中，终端确定虚拟对象标识，包括：显示虚拟对象选择界面，响应于对虚拟对象选择界面中任一虚拟对象的选择操作，获取该虚拟对象的虚拟对象标识。

例如，在直播开始之前或者在直播过程中，主播客户端显示虚拟对象选择界面，该虚拟对象选择界面包括多个虚拟对象，主播可以从虚拟对象选择界面中的多个虚拟对象中选择任一虚拟对象，在直播时，主播客户端会使用主播选择的虚拟对象代替主播进行直播，或者，主播客户端会在屏幕的部分区域中显示该虚拟对象。

在另一种可能实现方式中，虚拟对象标识为用户定制的虚拟对象的虚拟对象标识，或者，虚拟对象标识为用户在用的虚拟对象的虚拟对象标识。其中，终端确定虚拟对象标识，包括：从服务器中获取用户标识对应的虚拟对象标识。以直播场景为例，终端确定虚拟对象标识，包括：从直播服务器中获取主播标识对应的虚拟对象标识。

例如，主播定制有专属的虚拟对象，直播服务器会将该主播的主播标识与该虚拟对象的虚拟对象标识对应存储，在主播开始直播时，主播客户端向直播服务器发送携带主播标识的直播开播请求，直播服务器允许开播，并向主播客户端发送该主播标识对应的虚拟对象标识。

303、终端根据音频信息和虚拟对象标识，获取目标动画，该目标动画包括虚拟对象且虚拟对象的动作与音频信息匹配。

其中，本申请中动画为任一虚拟对象执行任一动作的动画，例如，动画为虚拟对象进行旋转的动画，或者，动画为虚拟对象进行拍手+踢腿的动画。本申请实施例对动画不做限定。

目标动画包括虚拟对象且虚拟对象的动作与音频信息匹配，说明：目标动画为虚拟对象执行音频信息对应的动作的动画。

终端根据音频信息和虚拟对象标识，获取目标动画，则目标动画不仅与虚拟对象标识匹配，还与音频信息匹配。其中，目标动画与虚拟对象标识匹配表示：目标动画中的虚拟对象为该虚拟对象标识指示的虚拟对象；目标动画与音频信息匹配表示：目标动画中虚拟对象的动作与音频信息匹配。

在一种可能实现方式中，每个虚拟对象标识对应一个动画集，该动画集中包括多个动画，该多个动画中的每个动画中的虚拟对象为虚拟对象标识指示的虚拟对象。终端根据音频信息和虚拟对象标识，获取目标动画，包括：从虚拟对象标识对应的动画集中，获取音频信息对应的动画作为目标动画。

例如，音频信息为音频名称，服务器或者终端包括多个虚拟对象的动画集，每个动画集中包括多个音频名称对应的动画，当虚拟对象标识为虚拟人物A对应的标识，则从虚拟人物A对应的动画集中，获取音频名称《xxx》所对应的动画作为目标动画，该目标动画中虚拟人物A跳《xxx》对应的舞蹈动作。

可选地，该动画集还包括与每个动画对应的音频信息，也即是，该动画集还包括每个动画与音频信息的第二对应关系，从虚拟对象标识对应的动画集中，获取音频信息对应的目标动画，包括：根据第二对应关系，从动画集中，获取音频对应的动画作为目标动画。

可选地，动画集还包括与每个动画对应的动作标识，其中，动画与动作标识对应是指：该动画中虚拟对象执行的该动作标识对应的动作，也就是说，该动画集还包括动作标识与动画的第三对应关系，并且，每个音频信息对应一个动作标识。其中，从虚拟对象标识对应的动画集中，获取音频信息对应的目标动画，包括：确定音频信息对应的动作标识，根据第三对应关系，从虚拟对象标识对应的动画集中，获取该动作标识对应的动画作为目标动画。

可选地，音频信息对应多个动作标识，目标动画包括多个动作标识对应的动画片段。其中，根据音频信息和虚拟对象标识，获取目标动画，包括：确定音频信息对应的多个动作标识，从虚拟对象标识对应的动画集中，获取每个动作标识对应的动画片段，该动作标识对应的动画片段中虚拟对象执行动作标识对应的动作。

例如，音频信息为民族风，民族风对应的动作标识为“抬手”和“转身”，则获取“抬手”对应的动画片段和“转身”对应的动画片段，“抬手”对应的动画片段和“转身”对应的动画片段组成民族风对应的动画。

若一个动画片段对应一个动作标识，那么上述动画集中的多个动画可以进行复用，例如，音频信息为民族风时，对应的动作标识为“抬手”和“转身”，而音频信息为动感歌曲时，对应的动作标识为“转身”和“出拳”，那么，在音频信息从民族风切换为动感歌曲，或者从动感歌词切换为民族风时，“转身”对应的动画片段得到了复用。

在本申请实施例中，音频信息与动作标识之间的第一对应关系是由设备默认设置的，或者是由用户设置的；或者，是由设备默认设置且经过用户更改的，本申请实施例对音频信息与动作标识之间的第一对应关系不做限定。

在一种可能实现方式中，音频信息与动作标识之间的第一对应关系是由用户设置的，或者，是由用户更改设备默认设置的第一对应关系得到的。其中，该方法还包括：显示动作配置界面，该动作配置界面包括至少一种音频信息；响应于对任一音频信息的触发操作，获取为该音频信息配置的至少一个动作标识，建立音频信息与该至少一个动作标识之间的第一对应关系。

其中，若当前的第一对应关系中，不包括上述音频信息与上述至少一个动作标识之间的第一对应关系，则在当前的第一对应关系中添加上述音频信息与上述至少一个动作标识之间的第一对应关系；若当前的第一对应关系中，已经包括上述音频信息与其他动作标识之间的第一对应关系，则将该音频信息与其他动作标识之间的第一对应关系，修改为上述音频信息与上述至少一个动作标识之间的第一对应关系。

上述第一对应关系可以存储在终端本地，也可以存储在服务器中，本申请实施例对此不做限定。

304、若获取到该目标动画，则终端播放该目标动画。

其中，终端播放该目标动画包括两种情况：

第一种情况：在终端屏幕的部分区域中进行播放。

也就是说，终端屏幕上只有部分区域用于播放该目标动画，可选地，其余区域用于显示拍摄得到的内容。

例如，在直播场景中，主播客户端上显示有拍摄的内容，在屏幕右下方，播放目标动画，也即是，将目标动画叠加显示在拍摄内容的右下方。

又如，在短视频拍摄场景中，用户在短视频客户端选择虚拟对象之后，将虚拟对象拖动至短视频的拍摄画面中，调整虚拟对象在拍摄画面中的位置，之后，对拍摄画面和虚拟对象进行录制。

第二种情况：在终端屏幕的全部区域中进行播放。

例如，在直播场景中，主播客户端使用虚拟对象替代主播进行直播，因此，主播客户端仅播放目标动画，并将目标动画上传到直播服务器中，由直播服务器将该目标动画发送至观看客户端。

另外，目标动画是具有播放速度的，例如，每秒播放N(N为大于1的任一整数)帧。因此，在播放目标动画时，可以按照目标动画的原始播放速度进行播放，也可以调整目标动画的播放速度，按照调整后的播放速度进行播放。

在一种可能实现方式中，可以按照音频的属性信息，来调整目标动画的播放速度，使得目标动画的播放效果与音频更加匹配。可选地，播放该目标动画，包括：获取目标音频的节奏速度，节奏速度指示参考时长内节拍的数量；根据节奏速度，对目标动画的播放速度进行调整；按照调整后的播放速度，播放目标动画。

例如，目标音频为快歌，该目标音频的节奏速度会较快，因此，根据目标音频的节奏速度，将目标动画的播放速度调整为1.5倍，按照1.5倍速对目标动画进行播放，使得目标动画中虚拟对象执行动作的速度较快。又如，目标音频为慢歌，该目标音频的节奏速度会较慢，因此，根据目标音频的节奏速度，将目标音频的播放速度调整为0.8倍，按照0.8倍速对目标动画进行播放，使得目标动画中虚拟对象执行动作的速度较慢。

或者，根据音频的情感类型调整目标音频的播放速度，可选地，获取目标音频的情感类型，根据情感类型，对目标动画的播放速度进行调整；按照调整后的播放速度，播放目标动画。

例如，目标音频的情感类型为欢快，则将目标动画的播放速度调整为1.2倍，按照1.2倍速对目标动画进行播放，使得目标动画中虚拟对象执行动作的速度加快。又如，目标音频的情感类型为悲伤，则将目标动画的播放速度调整为0.8倍，则按照0.8倍速对目标动画进行播放，使得目标动画中虚拟对象执行动作的速度减慢。

可选地，根据节奏速度，对目标动画的播放速度进行调整，包括：对节奏速度进行统计处理，得到目标动画的播放速度。例如，将节奏速度与目标系数相乘，得到目标动画的播放速度。

或者，根据节奏速度，对目标动画的播放速度进行调整，包括：根据第四对应关系，确定该节奏速度对应的播放速度，其中，第四对应关系包括多个节奏速度，以及每个节奏速度对应的播放速度；或者，第四对应关系包括多个节奏速度范围，以及每个节奏速度范围对应的播放速度。

305、若未获取到该目标动画，则终端获取虚拟对象标识对应的虚拟对象模型。

需要说明的是，在本申请实施例中，目标动画可以是终端生成的，若终端还未生成过目标动画，则终端不能直接获取到目标动画，还需要终端自行生成。或者，由于用户能够自定义音频与动作标识之间的对应关系，因此，终端或者服务器中可能未存储有用户自定义动作所对应的目标动画。

因此，本申请实施例还提供了一种通过驱动虚拟对象模型执行动作，实现虚拟对象随着音频起舞的方法。

其中，虚拟对象模型为虚拟对象的可配置三维模型，服务器中存储有多个虚拟对象的可配置三维模型，终端根据虚拟对象标识从多个虚拟对象模型中，获取虚拟对象标识对应的虚拟对象模型。

可选地，虚拟对象可以是原创或者已经获得授权的动画角色、动漫角色、影视角色、游戏角色等。本申请实施例对虚拟对象不做限定。

306、终端确定音频信息对应的动作标识。

终端根据第一对应关系，确定音频信息对应的动作标识，其中，一种音频信息对应一个动作标识或者多个动作标识，若一种音频信息对应多个动作标识，则该多个动作标识按照顺序排列。

307、终端显示虚拟对象模型，并控制虚拟对象模型执行动作标识对应的动作。

其中，终端在获取虚拟对象模型之后，显示该虚拟对象模型，并控制虚拟对象模型执行动作标识对应的动作，这样，用户可以看到虚拟对象执行的动作，随着音频起舞。

可选地，音频信息对应多个动作标识，则控制虚拟对象模型执行动作标识对应的动作，包括：按照多个动作标识的排列顺序，控制虚拟对象模型依次执行每个动作标识对应的动作。

其中，多个动作标识为“抬手”、“转身”和“踢腿”，则控制虚拟对象模型执行抬手，再执行转身，后执行踢腿，如图4所示。

在一种可能实现方式中，通过控制虚拟对象模型中的关键点移动来控制虚拟对象执行动作。其中，控制虚拟对象模型执行动作标识对应的动作，包括：获取该动作标识对应的关键点移动轨迹，控制虚拟对象模型的关键点按照该关键点移动轨迹进行移动，通过移动关键点带动虚拟对象的其他部位移动，使得虚拟对象执行该动作标识对应的动作。

其中，关键点可以为膝盖关键点、手部关键点、脚部关键点、胯骨关键点等。例如，通过移动脚部关键点和膝盖关键点，带动虚拟对象的腿部进行移动。

可选地，虚拟对象模型执行的动作可以是肢体动作，例如，拍手、跳跃、旋转、踢腿、打拳等；可选地，虚拟对象模型执行的动作还可以是表情动作，例如，微笑、大笑、哭泣、噘嘴、做鬼脸等。

需要说明的是，本申请实施例仅是以终端为例进行说明，而在另一实施例中，是由服务器获取虚拟对象模型，控制虚拟对象模型执行动作标识对应的动作以生成动画，将动画下发给终端，终端显示该动画。

308、在显示虚拟对象模型，并控制虚拟对象模型执行动作标识对应的动作的过程中，终端对虚拟对象模型进行录制，得到虚拟对象的动画。

在得到该动画之后，可以将动画保存在本地，还可以将动画上传到服务器中，本申请不做限定。

可选地，在得到该动画之后，若目标音频还未播放完，且还在播放中，则播放该动画，而无需再次控制虚拟对象执行动作标识对应的动作，节约终端资源。

309、终端建立动画与音频信息之间的第二对应关系，或者，终端建立动画与动作标识之间的第三对应关系。

由于已经生成了虚拟对象执行动作标识对应的动作的目标动画，后续则无需再次控制虚拟对象模型再次执行该动作，可以直接播放目标动画。为了下次使用时，能够准确地获取到目标动画，本申请还会建立动画与音频信息之间的第二对应关系，或者，建立动画与动作标识之间的第三对应关系，以便后续可以根据音频信息或者动作标识，来获取相应的动画。

另外，本申请还会按照音频的属性信息，来调整目标动画的播放速度，使得目标动画的播放效果与音频更加匹配。

另外，本申请还能够通过音频来驱动虚拟对象模型进行动画的展示，相比于通过拍摄画面中人体关键点来确定虚拟对象模型来说，应用场景更加广泛，避免了由于人体部分在拍摄画面之外，无法检测到人体关键点而导致的虚拟对象模型无法驱动的问题。

另外，本申请中每个动作对应一个动画片段，这样，动画片段只需设计一次，就可以进行复用，通过将动画片段进行任意组合来生成动画，减少了设备的资源消耗。

图5是本申请提供的一种虚拟对象显示装置的结构示意图。参见图5，该装置包括：

信息获取模块501，用于获取目标音频的音频信息，目标音频为正在播放的音频或者为当前采集的音频；

确定模块502，用于确定虚拟对象标识，虚拟对象标识指示待显示的虚拟对象；

动画获取模块503，用于根据音频信息和虚拟对象标识，获取目标动画，目标动画包括虚拟对象且虚拟对象的动作与音频信息匹配；

显示模块504，用于播放目标动画。

如图6所示，在一种可能实现方式中，显示模块504，用于获取目标音频的节奏速度，节奏速度指示参考时长内节拍的数量；根据节奏速度，对目标动画的播放速度进行调整；按照调整后的播放速度，播放目标动画；或者，

显示模块504，用于获取目标音频的情感类型，根据情感类型，对目标动画的播放速度进行调整；按照调整后的播放速度，播放目标动画。

在一种可能实现方式中，目标动画包括多个动作标识对应的动画片段，动画获取模块503，包括：

确定单元5031，用于确定音频信息对应的多个动作标识；

获取单元5032，用于从虚拟对象标识对应的动画集中，获取每个动作标识对应的动画片段，动作标识对应的动画片段中虚拟对象执行动作标识对应的动作。

在一种可能实现方式中，显示模块504，用于按照多个动作标识的排列顺序，依次播放每个动作标识对应的动画片段。

在一种可能实现方式中，装置还包括：

显示模块504，用于显示动作配置界面，动作配置界面包括至少一种音频信息；

标识获取模块505，用于响应于对任一音频信息的触发操作，获取为音频信息配置的至少一个动作标识；

建立模块506，用于建立音频信息与至少一个动作标识之间的第一对应关系。

在一种可能实现方式中，装置还包括：

模型获取模块507，用于若未获取到目标动画，则获取虚拟对象标识对应的虚拟对象模型；

确定模块502，用于确定音频信息对应的动作标识；

显示模块504，用于显示虚拟对象模型，并控制虚拟对象模型执行动作标识对应的动作。

在一种可能实现方式中，装置还包括：

录制模块508，用于在显示虚拟对象模型，并控制虚拟对象模型执行动作标识对应的动作的过程中，对虚拟对象模型进行录制，得到虚拟对象的动画；

建立模块506，用于建立动画与音频信息之间的第二对应关系，或者，建立动画与动作标识之间的第三对应关系。

在一种可能实现方式中，信息获取模块501，用于对目标音频进行曲调识别，得到目标音频的曲调类型；或者，

对目标音频进行风格识别，得到目标音频的风格类型；或者，

对目标音频进行情感识别，得到目标音频的情感类型；或者，

对目标音频进行名称识别，得到目标音频的音频名称。

在一种可能实现方式中，确定模块502，用于从直播服务器中获取主播标识对应的虚拟对象标识；或者，显示虚拟对象选择界面，响应于对虚拟对象选择界面中任一虚拟对象的选择操作，获取虚拟对象的虚拟对象标识。

本申请实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现如上述实施例的虚拟对象显示方法中所执行的操作。

可选地，计算机设备被提供为终端。图7是本申请实施例提供的一种终端的结构示意图。该终端700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器701所执行以实现本申请中方法实施例提供的虚拟对象显示方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及20G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置在终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在另一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的格雷纳斯定位系统以及欧盟的伽利略定位系统。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端70建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或显示屏7020的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏7020的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，计算机设备被提供为服务器。图8是根据一示例性实施例示出的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)801和一个或一个以上的存储器802，其中，存储器802中存储有至少一条程序代码，至少一条程序代码由处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的虚拟对象显示方法中所执行的操作。

本申请实施例还提供了一种计算机程序，该计算机程序中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的虚拟对象显示方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种虚拟对象显示方法，其特征在于，所述方法包括：

播放所述目标动画。

2.根据权利要求1所述的方法，其特征在于，所述目标动画包括多个动作标识对应的动画片段，所述根据所述音频信息和所述虚拟对象标识，获取目标动画，包括：

确定所述音频信息对应的多个动作标识；

从所述虚拟对象标识对应的动画集中，获取每个动作标识对应的动画片段，所述动作标识对应的动画片段中所述虚拟对象执行所述动作标识对应的动作。

3.根据权利要求2所述的方法，其特征在于，所述播放所述目标动画，包括：

按照所述多个动作标识的排列顺序，依次播放所述每个动作标识对应的动画片段。

4.根据权利要求2所述的方法，其特征在于，所述确定所述音频信息对应的多个动作标识之前，所述方法还包括：

显示动作配置界面，所述动作配置界面包括至少一种音频信息；

响应于对任一音频信息的触发操作，获取为所述音频信息配置的至少一个动作标识；

建立所述音频信息与所述至少一个动作标识之间的第一对应关系。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若未获取到所述目标动画，则获取所述虚拟对象标识对应的虚拟对象模型；

确定所述音频信息对应的动作标识；

显示所述虚拟对象模型，并控制所述虚拟对象模型执行所述动作标识对应的动作。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在显示所述虚拟对象模型，并控制所述虚拟对象模型执行所述动作标识对应的动作的过程中，对所述虚拟对象模型进行录制，得到所述虚拟对象的动画；

建立所述动画与所述音频信息之间的第二对应关系，或者，建立所述动画与所述动作标识之间的第三对应关系。

7.根据权利要求1所述的方法，其特征在于，所述获取目标音频的音频信息，包括：

对所述目标音频进行曲调识别，得到所述目标音频的曲调类型；或者，

8.根据权利要求1所述的方法，其特征在于，所述确定虚拟对象标识，包括：

从直播服务器中获取主播标识对应的虚拟对象标识；或者，

显示虚拟对象选择界面，响应于对所述虚拟对象选择界面中任一虚拟对象的选择操作，获取所述虚拟对象的虚拟对象标识。

9.根据权利要求1所述的方法，其特征在于，所述播放所述目标动画，包括：

获取所述目标音频的节奏速度，所述节奏速度指示参考时长内节拍的数量；根据所述节奏速度，对所述目标动画的播放速度进行调整；按照调整后的播放速度，播放所述目标动画；或者，

获取所述目标音频的情感类型，根据所述情感类型，对所述目标动画的播放速度进行调整；按照调整后的播放速度，播放所述目标动画。

10.一种虚拟对象显示装置，其特征在于，所述装置包括：

显示模块，用于播放所述目标动画。

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至9任一权利要求所述的虚拟对象显示方法中所执行的操作。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至9任一权利要求所述的虚拟对象显示方法中所执行的操作。