CN113923462A

CN113923462A - 视频生成、直播处理方法、设备和可读介质

Info

Publication number: CN113923462A
Application number: CN202111063264.8A
Authority: CN
Inventors: 胡立; 张邦; 潘攀; 徐盈辉
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-11

Abstract

本申请实施例提供了一种视频生成、直播处理方法、设备和可读介质，以更准确自然的生成虚拟形象执行动作的视频。所述的方法包括：获取待处理信息；对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；输出包含所述虚拟形象的视频数据。能够得到更符合真实肢体动作的驱动信号，驱动虚拟形象执行动作并生成视频数据，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

Description

视频生成、直播处理方法、设备和可读介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频生成方法、一种直播处理方法、一种终端设备和一种机器可读介质。

背景技术

动画通常是通过绘制每帧的图片，生成相应的动画视频。动画图片是基于动画的固定情节绘制的，相应的，动画中的对象如人物、动物等通常只是几个固定的动作，形成动态效果即可。

目前有一些3D人物的虚拟形象可以进行歌舞表演，然而，这些虚拟形象只能执行几个固定的动作，并且动作比较机械和僵硬，因此，本领域技术人员亟需解决的一个技术问题在于：如何更准确、自然的生成虚拟形象执行动作的视频。

发明内容

本申请实施例提供了一种视频生成方法，以更准确自然的生成虚拟形象执行动作的视频。

相应的，本申请实施例还提供了一种直播处理方法、一种电子设备和一种机器可读介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种视频生成方法，所述方法包括：获取待处理信息；对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；输出包含所述虚拟形象的视频数据。

可选的，所述待处理信息包括文本数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。

可选的，所述待处理信息包括语音数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。

可选的，所述依据所述多模态特征确定意图动作和带情绪的自然动作，包括：依据意图标签在动作数据库中匹配意图动作；将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。

可选的，所述依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，包括：依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

可选的，所述输出包含所述虚拟形象的视频数据，包括：在视频页面中输出包含所述虚拟形象的视频数据；和/或，向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据。

可选的，还包括：在视频页面中显示所述标签数据；响应于对编辑控件的触发，获取调整的标签数据；反馈所述调整的标签数据，以便调整虚拟形象的动作。

本申请实施例还公开了一种直播处理方法，所述方法包括：提供直播页面；基于所述直播页面获取待直播信息；确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据待直播信息确定语音数据并驱动虚拟形象执行动作生成，所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作，所述意图动作和带情绪的自然动作依据多模态特征确定，所述多模态特征依据所述待直播信息分析得到；在所述直播页面中播放所述直播视频数据；发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

可选的，所述基于所述直播页面获取待直播信息，包括以下至少一种：响应于对直播页面中编辑控件的触发，获取对应的待直播信息；响应于直播页面接收的观看直播的用户发送的目标信息，确定所述目标信息对应的待直播信息。

可选的，还包括：依据所述直播视频数据确定直播进度信息，依据所述直播进度信息确定目标商品对象的商品对象信息；当直播到所述目标商品对象时，在所述直播页面中显示所述商品对象信息。

可选的，还包括：当检测到所述直播视频数据中虚拟形象执行目标动作时，在所述直播页面中显示所述目标动作对应的显示元素，以与观看直播的用户进行互动。

本申请实施例公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例中任一项所述的方法。

本申请实施例公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例中任一项所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，可对待处理信息进行多模态分析，获取多模态特征，包括标签数据和语音特征，基于该多模态特征确定意图动作和带情绪的自然动作，得到更符合真实肢体动作的驱动信号，进而依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

附图说明

图1A是本申请实施例的一种视频生成场景的示意图；

图1B是本申请的一种视频生成方法实施例的步骤流程图；

图2是本申请实施例的一种动作生成模型的处理方法示意图；

图3是本申请的另一种视频生成方法实施例的步骤流程图；

图4是本申请的一种直播场景的直播处理方法实施例的步骤流程图；

图5是本申请实施例的一种虚拟主播的直播页面的示意图；

图6是本申请实施例的一种直播架构下的直播处理示例的交互示意图；

图7是本申请的一种客服处理方法实施例的步骤流程图；

图8是本申请的一种主持处理方法实施例的步骤流程图；

图9是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可应用于虚拟形象生成视频的场景中，例如虚拟形象作为主播、客服、主持人等场景中，在虚拟形象执行动作的视频中，可基于需求驱动虚拟形象执行相应动作，如商品介绍动作、客服动作、主持动作等。该虚拟形象可模拟真人来执行动作，可基于多模态的特征，如文本、语音、情绪、意图等特征，驱动虚拟形象的肢体动作，使得虚拟形象可执行多样化的动作。其中，以直播等场景为例，可实时基于交互消息、回复消息等驱动虚拟形象执行相应的动作并生成视频数据，来实现交互。

以应用于直播场景为例，虚拟形象可作为虚拟主播与观看直播的用户进行交互。例如在电商直播的场景下，虚拟主播可介绍上海对象，针对直播过程中用户的提问，运营人员可进行回复，可基于回复信息转换语音，并驱动虚拟形象执行相应的动作，在直播视频中，虚拟主播可执行回复信息的动作并通过语音输出回复信息。或者在其他直播场景下，也可基于相应的信息实时驱动虚拟主播执行动作，并通过语音回复。还可应用于客服场景，采用虚拟形象作为虚拟客服，给用户一种与真人交互提供服务的感觉，例如，可以用于教育、医疗、金融等行业的客服，给用户进行项目的介绍，提供咨询服务等。还可应用于文娱场景中，采用虚拟形象作为虚拟主持人，进行各种会议或晚会的主持，虚拟主持人还与真人主持进行互动。

本申请实施例的电子设备可具有图像采集组件、显示组件、音频输入/输出组件等，如摄像头、显示器、麦克风、音响等组件。从而能够进行图像、视频、音频数据的采集、播放。本申请实施例中，可通过麦克风等音频输入组件采集语音数据，可以通过触摸屏、按键等获取文本数据，然后分析语义并结合情感等多模态的信息确定动作特征，驱动虚拟形象执行动作并生成相应的视频数据。该虚拟形象指的是通过信息技术基于人体的形态、功能等参数仿真人体所得到的用户，例如基于3D技术结合人体的形态等参数进行人物建模，通过仿真技术得到的虚拟形象，也可称为数字人。虚拟形象可基于人体的形态、肢体、姿势等各种参数驱动执行动作，从而模拟动作，实现通过虚拟形象执行动作，生成相应的视频数据来进行交互。

本申请实施例中，预先设置虚拟形象的动作数据库，该动作数据库可存储动作对应的数据，动作数据包括虚拟形象的动作参数和属性信息，所述动作参数可包括人物骨骼驱动参数、面部表情参数等，属性信息包括动作的意图标签以及相应的细节参数等。从而能够为虚拟形象提供丰富的动作信息。如人物骨骼驱动参数可基于人体的骨骼信息设置驱动参数，使得虚拟形象的动作更加符合真实用户的动作，并且提高动作的复杂度和丰富性。面部表情参数为模拟面部骨骼、肌肉等确定的表情参数。属性信息为动作的属性信息，如设置动作的意图标签，本申请实施例中有些动作可以设置意图标签，从而针对相应的词汇可基于意图标签查找动作，实现动作的快速匹配。属性信息还可包括其他的细节参数，如情绪标签，如比较激烈的情绪相应的动作幅度会增大等，可基于细节参数来调整动作参数。其中，动作执行是一个运动变化的过程，因此动作参数的属性信息可包括运动变化的细节参数，如骨骼驱动的运动范围、时间范围等参数。例如，打招呼的动作为手举起左右摇摆的动作，则相应可对应手臂、手等骨骼的驱动参数，以及相应的运动范围和时间等信息。并且，一个动作可在另一个动作之后执行，因此还可基于前一个动作的位置调整输入，实现动作的连续执行。

参照图1A，示出了一种驱动虚拟形象执行动作并生成视频数据的场景，其可执行如下图1B的步骤。

步骤102，获取待处理信息。该待处理信息为驱动虚拟形象执行动作的信息，可为文本数据，也可为语音数据。用户可通过语音输入或者文本输入的方式输入待翻译信息。以直播场景为例，运营或后台的用户可通过文本或语音的方式输入直播交互信息。

步骤104，对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征。

针对语音类的待处理信息，可基于语音识别技术识别得到文本数据。针对文本数据可执行文本分析，文本分析处理可基于需求确定，如对文本数据进行分词处理，得到各词汇信息，又如对文本数据进行语义识别，得到相应的语义信息或语义词汇序列等。从而对所述待处理信息进行文本分析，确定对应的词汇序列，再依据所述词汇序列，在动作数据库中匹配动作参数。其中，该词汇序列可为关键词等词汇构成的序列，还可为多种类型的词汇序列，如与意图相关的词汇的序列，与情绪相关的词汇的序列等。在挖掘文本特征的基础上，可基于所确定的词汇匹配标签数据，如基于词汇确定用户的意图，匹配意图标签，如词汇“hi”、“你好”等可匹配“打招呼”的意图标签，又如“爱你”、“比心”等可匹配“比心”的意图标签。也可基于词汇确定用户的情绪信息，从而匹配情绪标签，如“强调”、“兴奋”、“沮丧”等情绪标签。从而能够基于待处理信息得到多模态特征。本申请实施例的多模态特征还包括语音特征，因此还可基于待处理信息确定语音特征。其中，针对语音类的待处理信息可基于语音分析确定语音特征。例如，基于语音数据提取语谱图特征(spectrogram)、梅尔倒谱系数(Mel-Frequency Cepstral Coefficients，MFCC)特征等。其中，语谱图为语音数据的频谱特征，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量，其是采用二维平面表达三维信息，因此能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。针对文本数据，可可基于文本到语音(TextToSpeech，TTS)的语音技术，采用文本数据合成语音数据，然后获取相应的语音特征。

因此，一个可选实施例中，所述待处理信息包括文本数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。另一个可选实施例中，所述待处理信息包括语音数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。

步骤106，依据所述多模态特征确定意图动作和带情绪的自然动作。

步骤108，依据所述意图动作和带情绪的自然动作，驱动虚拟人物执行动作并生成视频数据。

可基于该意图标签可到动作数据库中查询所匹配的意图动作，该意图动作可通过动作参数表示。还可基于多个标签数据来确定相应的动作参数。因此可基于意图标签到动作数据库中匹配意图动作的动作参数。其中，每个意图标签可对应动作数据库中的一个或多个动作参数。动作参数为驱动骨骼执行动作的参数，因此每个意图标签可能对应多个动作参数，且该动作参数也对应时间属性，基于时间进行变化，实现动作的执行。基于动作参数可驱动虚拟形象执行动作，其中，可基于动作参数的属性信息驱动虚拟形象执行动作，如驱动手部骨骼、手臂骨骼的动作参数执行打招呼的动作等，并且在虚拟形象执行动作的过程中录制视频数据，得到虚拟形象的视频数据。

本申请实施例中，带情绪的自然动作可基于相应的处理模型实现。以一种模型实现的过程为例：可预先动作生成模型，该动作生成模型可基于文本、语音等输入来驱动虚拟形象执行相应的动作。将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作，如图2所示：该动作生成模型可包括流(Flow)生成式模型和自回归模型，该Flow生成式模型用于确定流式的动作，其可基于情绪标签和语音特征等，确定动作参数序列，该动作参数序列为虚拟形象所需执行动作对应的参数序列。然后可将该动作参数序列输入到自回归模型中，结合历史动作参数序列进行分析，得到虚拟形象的带情绪的自然动作对应的动作序列。该自回归模型的输入、输入均是序列，基于该自回归模型可实现一帧一帧的动作序列。该历史动作参数为指定时间(如单位时间)的输出，与上一秒输出的动作序列作为下一秒的输入的历史动作参数，实现动作的连续执行。其中，自回归模型输出的动作序列可表示为(T，N)这样一个维度的数据，T代表某个时间长(帧数)，N代表骨骼驱动的动作参数。即自回归模型输出的动作序列可标识每一帧所也要执行的N个骨骼动作参数。其中，Flow生成式模型的输入还可包括随机噪声数据，该随机噪声数据可为一个随机采样的高斯分布参数，使得虚拟形象的动作更自然。其中，动作生成模型的Flow生成式模型和自回归模型，均可采用神经网络、机器学习等模型。以神经网络模型为例，该Flow生成式模型的组件可包括CNN(Convolutional Neural Networks，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等模型，该自回归模型可采用RNN(Recurrent Neural Network，循环神经网络)等。通过以上处理可得到带情绪的自然动作的动作序列。

然后依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作。可以在时间轴上对特定意图动作和带情绪的自然动作进行连接和融合，生成虚拟形象执行的完整的连续动作并生成视频数据。如将特定意图动作和带情绪的自然动作在时间轴上做一个连接和融合，生成完整的连续动作。其中，动作生成模型，通过随机噪声输入，提升输出的多样性。通过语音特征和情绪标签作为控制量，更好地匹配待处理信息。通过历史动作来自回归，更好地平滑连续动作的结果。渲染虚拟形象执行融合动作的各帧图像生成包含虚拟形象的视频数据。

在另外一些实施例中，该包含虚拟形象的视频数据中还可合成语音数据，渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。可将采集的语音数据与虚拟形象所执行的动作进行同步，然后将语音数据添加到视频数据中。又如，采集的是文本数据，则可基于文本到语音(TextToSpeech，TTS)的语音技术，采用文本数据合成语音数据，然后将该语音数据与虚拟形象所执行的动作进行同步，然后将语音数据添加到视频数据中。从而得到即具有语音，又能够由虚拟形象执行相应动作的视频数据。虚拟形象的动作由虚拟形象的模型的每个骨骼点的参数来表示，最后通过动画渲染输出动画结果，到相应的视频数据。本申请实施例中，驱动虚拟形象执行动作的过程，可基于相应的处理模型实现，也可基于3D模拟技术实。

步骤110，输出包含所述虚拟形象的视频数据。

可以输出包含虚拟形象的视频数据，例如在终端设备的屏幕上播放该虚拟形象的视频数据。可在视频页面中输出包含所述虚拟形象的视频数据；和/或，向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据，从而观看直播的用户可在终端设备的直播页面中播放包含所述虚拟形象的视频数据。

本申请实施例中，可对待处理信息进行多模态分析，获取多模态特征，包括标签数据和语音特征，基于该多模态特征确定意图动作和带情绪的自然动作，得到更符合真实肢体动作的驱动信号，进而依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

本申请实施例中，以上过程可在终端设备侧执行，也可在服务端执行，或者由服务端和终端设备合作实现。如终端设备的性能比较好，可以将相应的模型设置在终端设备中，从而终端设备采集待处理信息后，按照上述过程驱动虚拟形象执行动作并录制包含虚拟形象的视频数据，然后可在该终端设备上播放，在视频页面中输出包含所述虚拟形象的视频数据。终端设备还可将包含虚拟形象的视频数据发送到服务端，由服务端基于具体的应用场景执行所需的处理，如缓存，又如直播场景下推流到各个观看用户的终端设备上，又如通信、客服等场景中，发送到相应的终端设备上输出。或者可由服务端获取待处理信息，然后执行分析处理并驱动虚拟形象执行动作并生成视频数据，再输出到相应的终端设备上。或者在一些实施例中，可由终端设备采集待处理信息，然后直接上传到服务端，或者通过预处理后上传到服务端，如进行语音到文本的识别，又如对文本进行分析得到词汇序列等，而后由服务端确定动作参数，并基于动作参数驱动虚拟形象执行动作并生成视频数据，再输出到相应的终端设备上。

以上是一种基于文本、语音等数据，驱动虚拟形象执行相应的动作并生成视频数据的方案。区别于现有的3D动画技术，其一般是基于固定的情节预先设置并生成视频数据，其也仅能实现一些预定的动作。而本申请实施例基于动作参数来驱动虚拟形象执行动作，使得虚拟形象能够执行更加多样的动作，该动作参数是基于人体骨骼数据构建的，使得虚拟形象所执行的动作也更加真实。

并且，本申请实施例可基于待处理信息随时生成包含虚拟形象执行相应动作的视频数据，如在直播场景中虚拟主播可基于回复给观看用户的信息生成执行相应动作的视频数据。

本申请实施例中，还可在视频页面中显示所述标签数据；响应于对编辑控件的触发，获取调整的标签数据；反馈所述调整的标签数据，以便调整虚拟形象的动作。通过多模态分析所得到的标签数据，还可在终端设备的视频页面显示，从而用户可以查看到标签数据，如运营用户查看虚拟主播要执行动作的标签数据等，然后可基于需求对该标签进行调整，如标签对应的标签编辑控件，可触发该编辑控件，然后显示对应的文本框，还可推荐候选的标签数据等，基于用户的选择确定调整的标签数据。然后反馈该标签数据给视频的生成端。如在本地生成视频，则传输给本地的处理进程，如在服务端生成视频，则发送到服务端。

在上述实施例的基础上，本申请实施例还提供了视频生成方法，能够基于多模态特征驱动虚拟人物执行动作并生成视频。

参照图3，示出了本申请的另一种视频生成方法实施例的步骤流程图。

步骤302，获取待处理信息。

对于文本类的待处理信息可执行步骤304、步骤306和步骤310，对于语音类的待处理信息，可执行步骤308、步骤310和步骤306。

步骤304，采用所述文本数据生成语音数据。

步骤306，对所述语音数据进行语音分析，提取对应的语音特征。

步骤308，对所述语音数据进行语音识别，得到对应的文本数据。

步骤310，对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。

步骤312，依据意图标签在动作数据库中匹配意图动作。

步骤314，将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。

步骤316，依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作。

步骤318，渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

步骤320，输出包含所述虚拟形象的视频数据。可在视频页面中输出包含所述虚拟形象的视频数据；和/或，向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据。

本申请实施例能够从文本、语音中提取出多模态特征，更符合真实肢体动作的驱动信号。拆解动作类型，融合基于查询的特意意图动作和基于深度模型的带情绪自然动作。

在上述实施例的基础上，本申请实施例还提供了一种虚拟主播的直播处理方法。能够将虚拟形象作为虚拟主播，提供直播服务并与用户互动，如图4所示。

步骤402，提供直播页面。

步骤404，基于所述直播页面获取待直播信息。

该直播页面可为主播端的直播页面，也可为直播编辑页面，该直播编辑页面可提供直播相关的编辑操作，如执行各种互动，编辑用于直播的待直播信息等。该待直播信息可为直播过程中的互动信息，如直播过程中基于观看用户的评论进行回复的信息，如由运营用户进行配置相应的文本数据。又如虚拟主播对应有音频提供给用户，则可回复语音数据作为待直播信息。待直播信息还可为基于直播场景确定的信息，如音乐等虚拟主播对应音频提供用户唱歌的语音数据，又如，虚拟主播介绍商品的待直播信息，其可对应相应的图文信息、链接地址等商品对象信息。

本申请实施例中，所述基于所述直播页面获取待直播信息，包括以下至少一种：响应于对直播页面中编辑控件的触发，获取对应的待直播信息；响应于直播页面接收的观看直播的用户发送的目标信息，确定所述目标信息对应的待直播信息。可在直播页面提供编辑控件，该编辑控件用于进行待直播信息的编辑，如每次编辑可编辑一定时长的直播互动视频，时长可基于编辑的信息确定，如该编辑控件可提供文本框输入控件，以进行文本类待直播信息的编辑，从而在完成输入并点击确认后，响应于对直播页面中编辑控件的触发，获取对应的待直播信息。编辑控件可提供语音控件，触发可调用音频输入控件来接收语音类的待直播信息。编辑控件可提供其他编辑相关的控件，如形象编辑控件，可用于调整虚拟主播(虚拟形象)的形象信息，如衣着服饰、配饰、造型等。提供背景乐编辑控件，可编辑直播过程中使用的背景乐。还可基于场景提供相应的编辑控件，如电商直播场景中可包括商品编辑控件，用于编辑所需的商品对象的商品对象信息。还可包括虚拟资源编辑控件，如红包、打赏信息等虚拟资源的编辑控件。从而能够在虚拟主播的直播过程中随时生成直播视频且虚拟主播能够与用户互动。用户在观看虚拟主播的直播过程中，也可发送评论信息或者虚拟资源信息如打赏信息，可将虚拟资源信息作为目标信息，也可将具有关键词的评论信息作为目标信息，从而在接收到观看直播的用户发送的目标信息后，可以确定所述目标信息对应的待直播信息，例如待直播信息为“谢谢XX的打赏”，“这件衣服有黑、白、灰，3个颜色”等。

步骤406，确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据待直播信息确定语音数据并驱动虚拟形象执行动作生成，所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作，所述意图动作和带情绪的自然动作依据多模态特征确定，所述多模态特征依据所述待直播信息分析得到。

其中，可对所述待直播信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟人物执行动作并生成视频数据。所述待直播信息包括文本数据；所述对所述待直播信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。所述待直播信息包括语音数据；所述对所述待直播信息进行多模态分析，确定对应的多模态特征，包括：对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。所述依据所述多模态特征确定意图动作和带情绪的自然动作，包括：依据意图标签在动作数据库中匹配意图动作；将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。所述依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，包括：依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

在直播场景中，如果待直播信息为文本数据，则可基于文本到语音(TextToSpeech，TTS)的语音技术，采用文本数据合成语音数据，然后将该语音数据与虚拟主播所执行的动作进行同步，然后将语音数据添加到视频数据中。如直播互动信息为语音数据，则将该语音数据与虚拟主播所执行的动作进行同步，然后将语音数据添加到视频数据中。从而得到即具有语音，又能够由虚拟直播执行相应动作的视频数据，实现虚拟主播进行直播。

步骤408，在所述直播页面中播放所述直播视频数据。

步骤410，发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

其中，可在主播的设备端生成虚拟主播的直播视频数据，然后上传到服务端，通过服务端推流到各观看用户的终端设备中。也可将直播互动信息上传到服务端，由服务端分析并生成虚拟主播的直播视频数据，然后再分别推流到主播的设备端，以及各观看用户的终端设备中。如图5所示的一种电商直播的直播页面的示意图。虚拟主播可通过各种动作进行直播，如介绍商品对象。相应观看直播的用户可发表评论，如用户A：这个多少钱？用户B：尺码是多少等。虚拟主播可基于用户的评论确定待直播信息，而后生成相应的动作进行直播。又如，有用户评论展示一些商品的背面，相应主播可以执行调整商品展示位置的动作。在该直播页面中还可提供购物车(或称购物袋)的图标，用户通过该图标可以看到本次直播已经开始销售的商品对象，进而可以基于所提供的链接地址跳转到该商品对象的详情页面中。该直播页面还提供了其他控件，如作为运营的页面按可提供待直播信息的编辑控件，以及商品对象、虚拟资源的编辑控件等。又如作为观看用户的直播页面，可提供评论控件、分享控件、关注控件等。还可在该直播页面展示一些商品对象的细节，该细节可由虚拟主播展示，也可在直播页面中提供相应的图片。如图5中，提供了虚拟主播的裙子的图片。

在直播场景中，往往需要多端合作来实现直播。本申请实施例提供一种应用架构，包括主播端、视频生成端、直播服务端和直播观看端。其中，主播端为执行直播的处理端，其可由虚拟用户对应的后台运营用户等处理，视频生成端用于生成包含虚拟主播的直播视频数据。直播服务端为提供直播服务的服务端。直播观看端为观看直播的用户的处理端。在另外的一些框架中，主播端和视频生成端可为同一处理端。或者视频生成端和直播服务端为同一处理端，具体依据需求设置，本申请实施例对此不做限定。

步骤602，直播服务端提供第一直播页面给主播端。

步骤604，主播端确定待直播信息，并发送给视频生成端。

步骤606，视频生成端对所述待处理信息进行多模态分析，确定对应的多模态特征。所述多模态特征包括：标签数据和语音特征。

步骤608，视频生成端依据所述多模态特征确定意图动作和带情绪的自然动作。

步骤610，视频生成端依据所述意图动作和带情绪的自然动作，驱动虚拟主播执行动作并生成直播视频数据。

步骤612，视频生成端发送包含虚拟主播的直播视频数据给主播端和直播服务端。

步骤614，直播服务端将包含虚拟主播的直播视频数据推流到各直播观看端。

步骤616，直播观看端确定评论数据，并发送评论数据给直播服务端。

步骤618，直播服务端将评论数据推送到主播端和直播观看端。

从而实现基于虚拟主播的直播，可以从文本、语音中提取出多模态特征，更符合真实肢体动作的驱动信号。拆解动作类型，融合基于查询的特意意图动作和基于深度模型的带情绪自然动作。与观看直播的用户进行互动。

本申请实施例中，还可依据所述直播视频数据确定直播进度信息，依据所述直播进度信息确定目标商品对象的商品对象信息；当直播到所述目标商品对象时，在所述直播页面中显示所述商品对象信息。在直播过程中可设置本次直播的进度信息，以电商直播为例，可根据所需销售的商品对象设置进度信息，又如在歌舞直播、游戏直播中也可设置相应的进度，如设置几首歌作为节点，或者游戏的某些场景作为进度节点等。相应在直播过程中，可基于直播视频数据确定直播进度信息，即可基于直播视频数据中的直播内容与进度信息进行对比，确定直播进度信息，然后基于该直播进度信息确定下一进度对应的待直播信息或关联信息，从而提前准备相应的信息。以电商直播为例，虚拟主播介绍商品对象之后会展示商品对象信息，如商品对象的图像、价格、链接地址等，基于链接地址可访问商品对象详情页，了解商品对象的详细描述信息，如各种细节图像、尺寸、材料等内容。相应可依据所述直播进度信息确定目标商品对象的商品对象信息，即依据当前介绍的商品对象确定下一商品对象作为目标商品对象，获取其商品对象信息，在直播的过程中如果直播到介绍该目标商品对象，可在所述直播页面中显示所述商品对象信息，其中，也可基于一些关键词来确定显示商品对象信息的时机，如当虚拟主播说到“上链接”时，可显示商品对象信息。

本申请实施例中，当检测到所述直播视频数据中虚拟形象执行目标动作时，在所述直播页面中显示所述目标动作对应的显示元素，以与观看直播的用户进行互动。还可对直播视频数据中虚拟形象的动作进行检测，确定目标动作，该目标动作对应有显示元素，可在直播页面中显示所述目标动作对应的显示元素，例如虚拟主播做出比心的动作，可在显示页面中显示心形的显示元素，如多个心形的显示元素从上向下掉落，又如多个不同大小的心形叠加显示的显示元素等。又如，虚拟主播做出发红包的目标动作，则可有多个红包样式的显示元素从上向下掉落，相应观看用户可点击红包元素来获取红包。本申请实施例中，以上显示元素可预先设置于直播视频数据中，也可设置在终端设备本地，从而在本地播放直播视频数据达到目标位置时，调用显示元素进行显示，如叠加到直播视频数据中显示等，可以依据需求确定。

在上述实施例的基础上，本申请实施例还提供了一种虚拟客服的客服处理方法。能够将虚拟形象作为虚拟客服，提供客户服务并与用户互动，如图7所示。

步骤702，提供客服页面。

步骤704，基于所述客服页面获取客服信息。

该客服页面可为各类客服场景的客服页面，包括线上场景的客服，如电商、教育、医疗、金融等行业提供线上服务客服。也可为线下场景的客服，如银行、行业销售部门提供的线下的虚拟客服，通过平板等终端设备显示客服页面，则虚拟形象可作为虚拟客服为用户提供客户服务。该客服页面可提供客户服务相关的编辑操作，如执行各种互动，编辑用于服务的客服信息等。该客服信息可为服务过程中的服务互动信息、咨询信息的解答内容、介绍内容，如服务过程中基于用户的问题进行回复的信息，如由客服运营用户进行配置相应的服务的介绍文本数据等。

本申请实施例中，所述基于所述客服页面获取客服信息，包括以下至少一种步骤：响应于对客服页面中编辑控件的触发，获取对应的客服信息；响应于客服页面接收的用户发送的目标信息，确定所述目标信息对应的客服信息。可在客服页面提供编辑控件，该编辑控件用于进行客服信息的编辑，如每次编辑可编辑一定时长的客服视频，时长可基于编辑的信息确定，如该编辑控件可提供文本框输入控件，以进行文本类客服信息的编辑，从而在完成输入并点击确认后，响应于对客服页面中编辑控件的触发，获取对应的客服信息。编辑控件可提供语音控件，触发可调用音频输入控件来接收语音类的客服信息。编辑控件可提供其他编辑相关的控件，如形象编辑控件，可用于调整虚拟客服(虚拟形象)的形象信息，如衣着服饰、配饰、造型等。还可基于场景提供相应的编辑控件，如客服直播场景中可包括商品编辑控件，用于编辑所需的商品对象的商品对象信息。还可包括虚拟资源编辑控件，如红包、优惠券等虚拟资源的编辑控件。从而能够在虚拟客服与用户交互，提供服务的过程中，根据服务需求编辑相应的信息，提供给服务的用户。其中，有些信息可生成虚拟客服的动作，通过视频的形式提供，有些信息可在客服页面中通过其他形式提供，具体依据客服场景确定。

从而用户在与虚拟客服对接的过程中，可观看到虚拟客服执行服务相关的动作，如介绍商品、查询等，也可获取相应的服务数据，如优惠券等，通过虚拟客服实现客户服务。

步骤706，确定依据所述客服信息驱动虚拟客服执行动作的客服视频数据。所述客服视频数据依据客服信息确定语音数据并驱动虚拟形象执行动作生成，所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作，所述意图动作和带情绪的自然动作依据多模态特征确定，所述多模态特征依据所述客服分析得到；

其中，可对所述客服信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟人物执行动作并生成视频数据。

所述客服信息包括文本数据；所述对所述客服信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。所述客服信息包括语音数据；所述对所述客服信息进行多模态分析，确定对应的多模态特征，包括：对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。所述依据所述多模态特征确定意图动作和带情绪的自然动作，包括：依据意图标签在动作数据库中匹配意图动作；将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。所述依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，包括：依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

在客服场景中，如果客服信息为文本数据，则可基于文本到语音(TextToSpeech，TTS)的语音技术，采用文本数据合成语音数据，然后将该语音数据与虚拟客服所执行的动作进行同步，然后将语音数据添加到视频数据中。如客服信息为语音数据，则将该语音数据与虚拟客服所执行的动作进行同步，然后将语音数据添加到视频数据中。从而得到即具有语音，又能够由虚拟直播执行相应动作的视频数据，实现虚拟客服的服务。

步骤708，通过客服页面输出客服视频数据。

其中，可在客服的设备端生成虚拟客服的客服视频数据，在终端设备的客服页面显示该客服视频数据。用户可通过终端设备与视频中的虚拟客服交互，基于交互的内容确定客服内容后生成客服视频，给用户提供相应的服务。从而在该交互过程中，可基于所需的服务信息生成虚拟客服的视频来为用户提供服务。

在上述实施例的基础上，本申请实施例还提供了一种虚拟主持人的处理方法。能够将虚拟形象作为虚拟主持人，可主持各种会议、晚会，还可与真人主持、观众等进行互动，如图8所示。

步骤802，提供会议页面。该会议页面包括各种公司的工作会议、晚会、年会等，还可包括文娱场景中的晚会，如节日晚会等。

步骤804，基于所述会议页面获取主持信息。

该主持页面可为各类主持场景的主持页面，虚拟形象可作为虚拟主持人。该主持页面可提供主持相关的编辑操作，如执行各种互动，编辑用于主持、介绍的主持信息等。该主持信息可为主持过程中的主持互动信息、主持介绍词、解说词等内容，如主持过程中与用户进行问题互动的信息，如由主持运营用户进行配置相应的主持介绍文本数据等。

本申请实施例中，所述基于所述主持页面获取主持信息，包括以下至少一种步骤：响应于对主持页面中编辑控件的触发，获取对应的主持信息；响应于主持页面接收的用户发送的目标信息，确定所述目标信息对应的主持信息。可在主持页面提供编辑控件，该编辑控件用于进行主持信息的编辑，如每次编辑可编辑一定时长的主持视频，时长可基于编辑的信息确定，如该编辑控件可提供文本框输入控件，以进行文本类主持信息的编辑，从而在完成输入并点击确认后，响应于对主持页面中编辑控件的触发，获取对应的主持信息。编辑控件可提供语音控件，触发可调用音频输入控件来接收语音类的主持信息。编辑控件可提供其他编辑相关的控件，如形象编辑控件，可用于调整虚拟主持人(虚拟形象)的形象信息，如衣着服饰、配饰、造型等。还可基于场景提供相应的编辑控件，如主持直播场景中可包括商品编辑控件，用于编辑所需的商品对象的商品对象信息。还可包括虚拟资源编辑控件，如晚会所提供的红包、优惠券等虚拟资源的编辑控件。从而能够在虚拟主持人与用户交互，提供主持服务的过程中，根据主持需求编辑相应的信息。其中，有些信息可生成虚拟主持人的动作，通过视频的形式提供，有些信息可在主持页面中通过其他形式提供，具体依据主持场景确定。

从而用户在与虚拟主持人对接的过程中，可观看到虚拟主持人执行主持相关的动作，如介绍晚会节目、发布晚会流程，与观众互动等，也可获取相应的资源数据，如优惠券等，通过虚拟主持人实现主持。

步骤706，确定依据所述主持信息驱动虚拟主持人执行动作的主持视频数据。所述主持视频数据依据主持信息确定语音数据并驱动虚拟形象执行动作生成，所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作，所述意图动作和带情绪的自然动作依据多模态特征确定，所述多模态特征依据所述主持分析得到；

其中，可对所述主持信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；依据所述多模态特征确定意图动作和带情绪的自然动作；依据所述意图动作和带情绪的自然动作，驱动虚拟人物执行动作并生成视频数据。

所述主持信息包括文本数据；所述对所述主持信息进行多模态分析，确定对应的多模态特征，包括：对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。所述主持信息包括语音数据；所述对所述主持信息进行多模态分析，确定对应的多模态特征，包括：对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。所述依据所述多模态特征确定意图动作和带情绪的自然动作，包括：依据意图标签在动作数据库中匹配意图动作；将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。所述依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，包括：依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

在主持场景中，如果主持信息为文本数据，则可基于文本到语音(TextToSpeech，TTS)的语音技术，采用文本数据合成语音数据，然后将该语音数据与虚拟主持人所执行的动作进行同步，然后将语音数据添加到视频数据中。如主持信息为语音数据，则将该语音数据与虚拟主持人所执行的动作进行同步，然后将语音数据添加到视频数据中。从而得到即具有语音，又能够由虚拟直播执行相应动作的视频数据，实现虚拟主持人的服务。

步骤708，通过主持页面输出主持视频数据。

其中，可在主持的设备端生成虚拟主持人的主持视频数据，在终端设备的主持页面显示该主持视频数据。用户可通过终端设备与视频中的虚拟主持人交互，基于交互的内容确定主持内容后生成主持视频，给用户提供相应的服务。从而在该交互过程中，可基于所需的服务信息生成虚拟主持人的视频来为用户提供服务。

本申请实施例能够从文本、语音中提取出多模态特征，更符合真实肢体动作的驱动信号。拆解动作类型，融合基于查询的特意意图动作和基于深度模型的带情绪自然动作。该虚拟形象可模拟真人来执行动作，可基于多模态的特征，如文本、语音、情绪、意图等特征，驱动虚拟形象的肢体动作，使得虚拟形象可执行多样化的动作。

动作生成模型，通过随机噪声输入，提升输出的多样性。通过语音特征和情绪标签作为控制量，更好地匹配待处理信息。通过历史动作来自回归，更好地平滑连续动作的结果。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种视频声场装置，应用于终端设备、服务端设备等电子设备中。

获取模块，用于获取待处理信息；特征分析模块，用于对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；动作确定模块，用于依据所述多模态特征确定意图动作和带情绪的自然动作；视频生成模块，用于依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；输出模块，用于输出包含所述虚拟形象的视频数据。

综上，可对待处理信息进行多模态分析，获取多模态特征，包括标签数据和语音特征，基于该多模态特征确定意图动作和带情绪的自然动作，得到更符合真实肢体动作的驱动信号，进而依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

其中，所述待处理信息包括文本数据；所述特征分析模块，用于对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。

另一个示例中，所述待处理信息包括语音数据；特征分析模块，用于对所述语音数据进行语音分析，提取对应的语音特征；对所述语音数据进行语音识别，得到对应的文本数据；对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。

所述动作确定模块，用于依据意图标签在动作数据库中匹配意图动作；将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。

所述视频生成模块，用于依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

所述输出模块，用于在视频页面中输出包含所述虚拟形象的视频数据；和/或，向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据。

还包括：调整模块，用于在视频页面中显示所述标签数据；响应于对编辑控件的触发，获取调整的标签数据；反馈所述调整的标签数据，以便调整虚拟形象的动作。

在上述实施例的基础上，本申请实施例还提供了一种直播处理装置，包括：页面提供模块，用于提供直播页面；直播处理模块，用于基于所述直播页面获取待直播信息；直播生成模块，用于确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据待直播信息确定语音数据并驱动虚拟形象执行动作生成，所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作，所述意图动作和带情绪的自然动作依据多模态特征确定，所述多模态特征依据所述待直播信息分析得到；显示模块，用于在所述直播页面中播放所述直播视频数据；发送模块，用于发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

所述直播处理模块，用于响应于对直播页面中编辑控件的触发，获取对应的待直播信息；和/或，响应于直播页面接收的观看直播的用户发送的目标信息，确定所述目标信息对应的待直播信息。

所述直播处理模块，还用于依据所述直播视频数据确定直播进度信息，依据所述直播进度信息确定目标商品对象的商品对象信息；所述显示模块，还用于当直播到所述目标商品对象时，在所述直播页面中显示所述商品对象信息。

所述显示模块，还用于当检测到所述直播视频数据中虚拟形象执行目标动作时，在所述直播页面中显示所述目标动作对应的显示元素，以与观看直播的用户进行互动。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块(programs)，该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器(集群)等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括数据中心内的终端设备、服务器(集群)等电子设备。图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置900。

对于一个实施例，图9示出了示例性装置900，该装置具有一个或多个处理器902、被耦合到(一个或多个)处理器902中的至少一个的控制模块(芯片组)904、被耦合到控制模块904的存储器906、被耦合到控制模块904的非易失性存储器(NVM)/存储设备908、被耦合到控制模块904的一个或多个输入/输出设备910，以及被耦合到控制模块904的网络接口912。

处理器902可包括一个或多个单核或多核处理器，处理器902可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中，装置900能够作为本申请实施例中所述终端设备、服务器(集群)等设备。

在一些实施例中，装置900可包括具有指令914的一个或多个计算机可读介质(例如，存储器906或NVM/存储设备908)以及与该一个或多个计算机可读介质相合并被配置为执行指令914以实现模块从而执行本公开中所述的动作的一个或多个处理器902。

对于一个实施例，控制模块904可包括任意适当的接口控制器，以向(一个或多个)处理器902中的至少一个和/或与控制模块904通信的任意适当的设备或组件提供任意适当的接口。

控制模块904可包括存储器控制器模块，以向存储器906提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器906可被用于例如为装置900加载和存储数据和/或指令914。对于一个实施例，存储器906可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器906可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。

对于一个实施例，控制模块904可包括一个或多个输入/输出控制器，以向NVM/存储设备908及(一个或多个)输入/输出设备910提供接口。

例如，NVM/存储设备908可被用于存储数据和/或指令914。NVM/存储设备908可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。

NVM/存储设备908可包括在物理上作为装置900被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如，NVM/存储设备908可通过网络经由(一个或多个)输入/输出设备910进行访问。

(一个或多个)输入/输出设备910可为装置900提供接口以与任意其他适当的设备通信，输入/输出设备910可以包括通信组件、音频组件、传感器组件等。网络接口912可为装置900提供接口以通过一个或多个网络通信，装置900可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器(例如，存储器控制器模块)的逻辑封装在一起。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。

在各个实施例中，装置900可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置900可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置900包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频生成方法、一种直播处理方法、一种终端设备和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取待处理信息；

对所述待处理信息进行多模态分析，确定对应的多模态特征，所述多模态特征包括：标签数据和语音特征；

依据所述多模态特征确定意图动作和带情绪的自然动作；

依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据；

输出包含所述虚拟形象的视频数据。

2.根据权利要求1所述的方法，其特征在于，所述待处理信息包括文本数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：

对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签；

采用所述文本数据生成语音数据，从所述语音数据中提取语音特征。

3.根据权利要求1所述的方法，其特征在于，所述待处理信息包括语音数据；所述对所述待处理信息进行多模态分析，确定对应的多模态特征，包括：

对所述语音数据进行语音分析，提取对应的语音特征；

对所述语音数据进行语音识别，得到对应的文本数据；

对所述文本数据进行文本分析，确定词汇对应的标签数据，所述标签数据包括意图标签和情绪标签。

4.根据权利要求2或3所述的方法，其特征在于，所述依据所述多模态特征确定意图动作和带情绪的自然动作，包括：

依据意图标签在动作数据库中匹配意图动作；

将所述情绪标签和语音特征输入动作生成模型，得到带情绪的自然动作。

5.根据权利要求2或3所述的方法，其特征在于，所述依据所述意图动作和带情绪的自然动作，驱动虚拟形象执行动作并生成视频数据，包括：

依据时间信息融合所述意图动作和带情绪的自然动作，并驱动虚拟形象执行融合动作；

渲染虚拟形象执行融合动作的各帧图像，依据各帧图像和语音数据生成包含虚拟形象的视频数据。

6.根据权利要求1所述的方法，其特征在于，输出包含所述虚拟形象的视频数据，包括：

在视频页面中输出包含所述虚拟形象的视频数据；和/或

向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据。

7.根据权利要求1所述的方法，其特征在于，还包括：

在视频页面中显示所述标签数据；

响应于对编辑控件的触发，获取调整的标签数据；

反馈所述调整的标签数据，以便调整虚拟形象的动作。

8.一种直播处理方法，其特征在于，所述方法包括：

提供直播页面；

基于所述直播页面获取待直播信息；

确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据待直播信息确定语音数据并驱动虚拟形象执行动作生成，所述虚拟形象执行的动作包括所述意图动作和带情绪的自然动作，所述意图动作和带情绪的自然动作依据多模态特征确定，所述多模态特征依据所述待直播信息分析得到；

在所述直播页面中播放所述直播视频数据；

发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

9.根据权利要求8所述的方法，其特征在于，所述基于所述直播页面获取待直播信息，包括以下至少一种：

响应于对直播页面中编辑控件的触发，获取对应的待直播信息；

响应于直播页面接收的观看直播的用户发送的目标信息，确定所述目标信息对应的待直播信息。

10.根据权利要求8所述的方法，其特征在于，还包括：

依据所述直播视频数据确定直播进度信息，依据所述直播进度信息确定目标商品对象的商品对象信息；

当直播到所述目标商品对象时，在所述直播页面中显示所述商品对象信息。

11.根据权利要求8所述的方法，其特征在于，还包括：

当检测到所述直播视频数据中虚拟形象执行目标动作时，在所述直播页面中显示所述目标动作对应的显示元素，以与观看直播的用户进行互动。

12.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-11中任一项所述的方法。

13.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-11中任一项所述的方法。