CN113822972B

CN113822972B - 基于视频的处理方法、设备和可读介质

Info

Publication number: CN113822972B
Application number: CN202111372799.3A
Authority: CN
Inventors: 庄文林; 张鹏; 张邦; 胡立; 李嘉辉
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-05-27
Anticipated expiration: 2041-11-19
Also published as: CN113822972A

Abstract

本申请实施例提供了一种基于视频的处理方法、设备和可读介质，以更准确、自然的驱动虚拟形象执行动作。所述方法包括：获取骨骼动作片段，将所述骨骼动作片段划分为骨骼动作子片段；采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图；获取目标信息；依据所述目标信息和骨骼动作连接图中的骨骼动作子片段，匹配目标子片段及其关联子片段；对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据；输出所述视频数据。可拼接成动作平滑过渡的视频，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

Description

基于视频的处理方法、设备和可读介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于视频的处理方法、一种直播处理方法、一种视频生成方法、一种终端设备和一种机器可读介质。

背景技术

动画通常是通过绘制每帧的图片，生成相应的动画视频。动画图片是基于动画的固定情节绘制的，相应的，动画中的对象如人物、动物等通常只是几个固定的动作，形成动态效果即可。

目前有一些3D人物的虚拟形象可以进行歌舞表演，然而，这些虚拟形象只能执行几个固定的动作，并且动作比较机械和僵硬，因此，本领域技术人员亟需解决的一个技术问题在于：如何更准确、自然的驱动虚拟形象执行动作。

发明内容

本申请实施例提供了一种基于视频的处理方法，以更准确、自然的驱动虚拟形象执行动作。

相应的，本申请实施例还提供了一种直播处理方法、一种视频生成方法、一种电子设备和一种机器可读介质，用以保证上述方法的实现及应用。

为了解决上述问题，本申请实施例公开了一种基于视频的处理方法，所述方法包括：获取骨骼动作片段，将所述骨骼动作片段划分为骨骼动作子片段；采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图；获取目标信息；依据所述目标信息和骨骼动作连接图中的骨骼动作子片段，匹配目标子片段及其关联子片段；对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据；输出所述视频数据。

可选的，所述将骨骼动作片段划分为骨骼动作子片段，包括：获取骨骼动作片段；对所述骨骼动作片段中各帧图像中虚拟形象的目标关节点进行检测，确定运动强度信息；依据所述运动强度信息判断相邻两帧图像之间的差异值；依据所述差异值确定切分点，将所述骨骼动作片段依据切分点切分为多个骨骼动作子片段

可选的，所述采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图，包括：依据骨骼动作子片段确定节点的节点信息；确定两个节点对应骨骼动作子片段之间的运动相似度，依据所述运动相似度确定所述两个节点之间的边；依据所述节点和边，创建骨骼动作连接图。

可选的，所述确定两个节点对应骨骼动作子片段之间的运动相似度，依据所述运动相似度确定所述两个节点之间的边，包括：确定两个节点对应骨骼动作子片段，依据所述骨骼动作子片段中目标关节点，确定对应的运动相似度，所述运动相似度包括：姿态相似度和/或速度相似度；在所述运动相似度满足相似阈值时，创建边连接两个节点。、

可选的，还包括：在编辑页面显示所述骨骼动作连接图；响应于对所述骨骼动作连接图的调整操作，对相应的节点进行调整。

可选的，所述依据所述目标信息和骨骼动作连接图中的骨骼动作子片段，匹配目标子片段及其关联子片段，包括：采用所述目标信息匹配目标子片段，所述目标子片段为包括虚拟形象执行动作的片段；基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段。

可选的，还包括：对所述目标信息进行分析，确定对应的节点匹配信息，所述节点匹配信息包括以下至少一种：语义信息、基音信息、节奏信息。

可选的，所述对所述目标信息进行分析，确定对应的节点匹配信息，包括：若所述目标信息为文本信息，对所述文本信息进行语义分析，确定语义信息；若所述目标信息为语音信息，对所述语音信息进行音频分析，确定基音信息；若所述目标信息为音频信息，对所述音频信息进行音频分析，确定节奏信息。

可选的，所述采用所述目标信息匹配目标子片段，包括以下至少一种步骤：依据所述语义信息匹配语义动作对应的目标子片段；依据所述基音信息匹配随机动作对应的目标子片段；依据所述节奏信息匹配舞蹈动作对应的目标子片段。

可选的，所述基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段，包括：在所述骨骼动作连接图中确定目标子片段对应的目标节点；在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。

可选的，所述对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据，包括：对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段；确定所述目标信息对应的音频信息；对所述骨骼动作片段进行渲染，并结合音频信息，生成对应视频数据。

可选的，还包括：在视频页面显示子片段的片段信息，所述子片段包括目标子片段和/或关联子片段；响应于对反馈控件的触发，获取调整的子片段对应片段信息；反馈所述调整的子片段对应片段信息，以对子片段进行调整。

本申请实施例还公开了一种直播处理方法，所述方法包括：采用骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图；基于直播页面获取直播互动信息；依据所述直播互动信息确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据直播互动信息和所匹配的骨骼动作片段生成，所述匹配的骨骼动作片段采用目标子片段和关联子片段拼接生成，所述目标子片段和关联子片段依据所述直播互动信息匹配骨骼动作连接图确定；在所述直播页面中播放所述直播视频数据；发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

本申请实施例还公开了一种视频生成方法，所述方法包括：采用骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图；获取音乐数据；对所述音乐数据进行音频分析，确定节奏信息；依据所述节奏信息在骨骼动作连接图中匹配目标子片段，并确定所述目标子片段的关联子片段，所述骨骼动作子片段为包括虚拟形象执行动作的片段；对所述目标子片段和关联子片段进行拼接，并结合所述音乐数据构成包含虚拟形象的舞蹈视频数据；在视频页面输出所述舞蹈视频数据。

本申请实施例还公开了一种电子设备，包括：处理器；和存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如本申请实施例所述的方法。

本申请实施例还公开了一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如本申请实施例所述的方法。

与现有技术相比，本申请实施例包括以下优点：

在本申请实施例中，将虚拟形象执行动作的骨骼动作片段划分为骨骼动作子片段，采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图，从而可基于目标信息匹配在骨骼动作连接图中目标子片段及其关联子片段，再对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据，子片段之间连接依据骨骼动作连接图，因此可拼接成动作平滑过渡的视频，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

附图说明

图1A是本申请实施例的一种基于骨骼动作连接图的使用场景的示意图；

图1B是本申请实施例的一种骨骼动作连接图建立示例的示意图；

图2A是本申请的一种基于视频的处理方法实施例的步骤流程图；

图2B 是本申请实施例的一种基于骨骼动作连接图的检索拼接示例的示意图；

图3是本申请的另一种基于视频的处理方法实施例的步骤流程图；

图4A是本申请的一种直播场景的直播处理方法实施例的步骤流程图；

图4B是本申请的一种直播场景的直播处理示例的示意图；

图5是本申请实施例的一种虚拟主播的直播页面的示意图；

图6是本申请实施例的一种直播架构下的直播处理示例的交互示意图；

图7A是本申请的一种舞蹈视频处理方法实施例的步骤流程图；

图7B是本申请的一种舞蹈视频处理示例的示意图；

图8是本申请的一种主持处理方法实施例的步骤流程图；

图9是本申请一实施例提供的装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例可应用于虚拟形象生成视频的场景中，例如虚拟形象作为主播、客服、主持人等场景中，在虚拟形象执行动作的视频中，可基于需求驱动虚拟形象执行相应动作，如商品介绍动作、客服动作、主持动作、舞蹈动作等。该虚拟形象可模拟真人来执行动作，从而能够驱动虚拟形象的肢体动作，使得虚拟形象可执行多样化的动作。其中，以舞蹈、直播等场景为例，可实时基于交互消息、回复消息、音乐等驱动虚拟形象执行相应的动作并生成视频数据，来实现交互。

以应用于直播场景为例，虚拟形象可作为虚拟主播与观看直播的用户进行交互。例如在电商直播的场景下，虚拟主播可介绍上海对象，针对直播过程中用户的提问，运营人员可进行回复，可基于回复信息转换语音，并驱动虚拟形象执行相应的动作，在直播视频中，虚拟主播可执行回复信息的动作并通过语音输出回复信息。或者在其他直播场景下，也可基于相应的信息实时驱动虚拟主播执行动作，并通过语音回复。还可应用于客服场景，采用虚拟形象作为虚拟客服，给用户一种与真人交互提供服务的感觉，例如，可以用于教育、医疗、金融等行业的客服，给用户进行项目的介绍，提供咨询服务等。还可应用于文娱场景中，采用虚拟形象作为虚拟主持人，进行各种会议或晚会的主持，虚拟主持人还与真人主持进行互动。以应用于舞蹈场景为例，虚拟形象可作为跳舞的角色，基于所配的音乐跳舞，可基于音乐的节奏匹配舞蹈工作，从而生成驱动虚拟形象跳舞的舞蹈视频。

本申请实施例的电子设备可具有图像采集组件、显示组件、音频输入/输出组件等，如摄像头、显示器、麦克风、音响等组件。从而能够进行图像、视频、音频数据的采集、播放。本申请实施例中，可通过麦克风等音频输入组件采集语音数据，可以通过触摸屏、按键等获取文本数据，也可获取本地或网络的音乐数据等作为目标信息，该目标信息为生成视频的预处理信息，然后分析目标信息的语义、音频特征等，从骨骼动作连接图（motiongraph）中匹配子片段，再查询骨骼动作连接图中关联子片段，生成骨骼动作片段，然后结合目标信息确定对应的语音、音乐、文本等，与骨骼动作片段生成相应的视频数据。如图1A所示，可先创建骨骼动作连接图，再基于骨骼动作连接图匹配片段，渲染构成视频。其中，骨骼动作片段指的是基于骨骼驱动执行动作的片段，其中，可基于骨骼动作参数驱动虚拟形象执行动作，如驱动手部骨骼、手臂骨骼的动作参数执行打招呼的动作等。该骨骼动作参数是基于人体骨骼数据构建的，使得虚拟形象所执行的动作也更加真实。例如，采集人在打招呼时，手、手臂、身体相应动作执行时骨骼的运动情况，确定骨骼参数，依此构建虚拟形象的骨骼动作参数，基于骨骼动作参数驱动骨骼动作，生成骨骼动作片段。在对骨骼动作片段进行渲染时，可结合虚拟形象的形象参数，渲染得到相应的视频数据（或图像流）。其中，形象参数为虚拟形象的外观形象的参数，包括虚拟形象的性别、外貌、服饰等。

参照图2A，示出了本申请实施例的一种基于视频的处理方法的步骤流程图。

步骤202，获取骨骼动作片段，将所述骨骼动作片段划分为骨骼动作子片段。

其中，骨骼动作连接图依据骨骼动作子片段生成，骨骼动作连接图以骨骼动作子片段为节点，骨骼动作子片段之间的关联信息为边构成。如图1B所示，其中，可以获取骨骼动作片段，该骨骼动作片段为预先生成的包含虚拟形象执行动作的骨骼动作片段，该骨骼动作片段的时长可大于20秒。基于该骨骼动作片段可切分骨骼动作子片段，切分得到的骨骼动作子片段的时间长度为2秒~9秒之间，如骨骼动作子片段的时间长度为2、3、4、5、6、7、8或9秒。一个可选实施例中，所述将骨骼动作片段划分为骨骼动作子片段，包括：获取骨骼动作片段，对所述骨骼动作片段中各帧图像中虚拟形象执行的动作进行检测，确定运动信息；依据所述运动信息判断相邻两帧图像之间的运动幅度信息；依据所述运动幅度信息确定切分点，将所述骨骼动作片段依据切分点切分为多个骨骼动作子片段。可对骨骼动作片段中虚拟形象执行的动作进行检测，其中，可对每帧图像中虚拟形象的动作进行检测，如检测动作对应的坐标等运动信息，然后可判断相邻两帧图像之间的运动幅度信息，如肢体动作之间的幅度信息，如肢体动作对应的坐标确定距离为幅度信息等，然后可基于各图像帧之间的运动幅度信息确定切分点，其中可确定运动幅度小于一定范围，或者运动幅度的最小值等作为切分点，然后按照切分点对骨骼动作片段进行切分，得到多个骨骼动作子片段。另一个可选实施例中，所述将骨骼动作片段划分为骨骼动作子片段，包括：获取骨骼动作片段，对所述骨骼动作片段中各帧图像中虚拟形象的目标关节点进行检测，确定运动强度信息；依据所述运动强度信息判断相邻两帧图像之间的差异值；依据所述差异值确定切分点，将所述骨骼动作片段依据切分点切分为多个骨骼动作子片段。该骨骼动作片段中包含虚拟形象执行动作，可计算骨骼动作片段中虚拟形象的运动强度信息，其中，运动强度信息为虚拟形象的目标关节点的运动速度和，所述目标关节点包括头部关节点、四肢关节点等虚拟形象执行动作的主要关节点。计算不同图像帧之间的运动强度信息之间的差异值。确定差异值满足差异条件的两帧图像，确定划分点。其中，差异条件可为差异值满足差异阈值，也可为差异值最小等，可依据需求设置。其中，虚拟形象的一个动作通常是连续多帧图像构成的，因此可对每帧图像进行检测获取运动强度信息，也可间隔设定帧，如5帧、10帧来检测运动强度信息。然后按照切分点对骨骼动作片段进行切分，得到多个骨骼动作子片段。

步骤204，采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图。

切分得到子片段之后，可基于子片段生成骨骼动作连接图。依据子片段确定骨骼动作连接图的节点（graph node），如将子片段作为节点的节点值，或者将骨骼动作连接图对应的运动属性信息作为节点的节点值等。其中，多个骨骼动作片段所切分得到的子片段，均可确定骨骼动作连接图的节点，从而建立多个子片段之间的关联。所述采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图，包括：依据骨骼动作子片段确定节点的节点信息；确定两个节点对应骨骼动作子片段之间的运动相似度，依据所述运动相似度确定所述两个节点之间的边；依据所述节点和边，创建骨骼动作连接图。可基于节点对应子片段的运动相似度确定两个节点之间的边（graphedge），如图2B所示建立节点之间的边。所述确定两个节点对应骨骼动作子片段之间的运动相似度，依据所述运动相似度确定所述两个节点之间的边，包括：确定两个节点对应骨骼动作子片段，依据所述骨骼动作子片段中目标关节点，确定对应的运动相似度，所述运动相似度包括：姿态相似度和/或速度相似度；在所述运动相似度满足相似阈值时，创建边连接两个节点。其中，运动相似度可包括姿态相似度和速度相似度，该运动相似度可依据虚拟形象的目标关节点确定，如姿态相似度可确定目标关节点的位置一致性，速度相似度可确定目标关节点的速度一致性。其中，可计算两个子片段中虚拟形象的姿态之间的位置之差，以及速度之差。两个子片段之间可采用一个子片段的第一帧图像，与另一个子片段的最后一帧图像进行比较，确定对应帧图像中虚拟形象的目标关节点的位置信息和速度信息，判断两个虚拟形象的位置信息、速度信息之间的姿态相似度、速度相似度。基于该相似度信息确定两个节点之间的关系并创建边。其中，为了实现动作之前的平滑过渡，可设置相似度阈值，包括姿态相似度阈值和速度相似度阈值，计算的相似度小于相似度阈值，确定两个在子片段之间虚拟形象的动作可平滑过渡，从而可建立边，确定两个子片段之间的连接关系。

本申请实施例中，还可在编辑页面显示所述骨骼动作连接图；响应于对所述骨骼动作连接图的调整操作，对相应的节点进行调整。在完成骨骼动作连接图的构建后，还可提供编辑页面来展示骨骼动作连接图，并提供针对骨骼动作连接图的编辑功能。其中，可通过控件编辑，也可直接通过拖动等方式来调整骨骼动作连接图中的节点和/或边，具体可依据需求确定。例如，可以调整节点在骨骼动作连接图中的位置，也可添加或删除一些节点之间的边。还可在该编辑页面中显示各节点对应子片段的信息，以及节点之间边的距离（相似度）。从而用户可以基于该编辑页面自动编排相关动作之间的顺序。

本申请实施例在骨骼动作连接图的构建中，先细化分割出子片段，在构建子片段之间的边，形成骨骼动作连接图。其中，对于划分点还可进行稀疏化处理。可先检测骨骼动作片段中虚拟形象的运动强度，形成运动强度曲线，然后基于该运动强度曲线确定极小值点，再基于极小值点确定划分点，例如划分点间隔大约60-100帧。然后可综合考虑节点对应子片段的长度、边的数量，将密集划分点稀疏化，合理进行子片段的切分，使得子片段的时间长度更加稳定。并且，可以使节点具有更多的边，与更多的子片段实现平滑过渡，实现更为逼真多样的肢体动作合成。

与深度学习等模型相比，这类模型的处理过程是黑盒、不可控的过程，因此其输入信号与肢体动作之间并没有强关联性，难以根据输入特征来合成逼真的肢体运动，会存在动作不自然的情况。并且，还会存在难以受控的情况，例如音乐驱动舞蹈中难以实现舞蹈节奏匹配音乐节奏。而本申请实施例可基于统计模型方法，在实现给定输入信号下的全自动化肢体动作合成。这是一个多模态任务，输入为给定信号特征，输出为肢体动作序列。可在基于已有动作数据构建骨骼动作连接图的基础上，基于给定信号特征，从骨骼动作连接图中检索子片段为长序列动作。在上述实施例的基础上，可基于骨骼动作连接图确定虚拟形象的动作构成视频。

参照图2B，示出了一种驱动虚拟形象执行动作并生成视频数据的场景。

步骤206，获取目标信息。

该目标信息为生成视频的预处理信息，可用于驱动虚拟形象执行动作，目标信息为文本数据和/或音频数据，音频数据可为包括语音或不包括语音的音频数据，如语音数据，又如音乐数据等。以跳舞场景为例，用户可选择乐曲作为目标信息。以直播场景为例，运营或后台的用户可通过文本或语音的方式输入直播交互信息作为目标信息。

对所述目标信息进行分析，确定对应的节点匹配信息，所述节点匹配信息包括以下至少一种：语义信息、基音信息、节奏信息。可对目标信息进行处理，得到节点匹配信息，该节点匹配信息为用于检索虚拟形象动作的信息。一个实施例中，所述对所述目标信息进行分析，确定对应的节点匹配信息，包括：若所述目标信息为文本信息，对所述文本信息进行语义分析，确定语义信息；将所述文本信息转换为语音信息，对所述语音信息进行音频分析，确定基音信息；采用所述目标语义信息和目标音频信息作为节点匹配信息。可基于文本/语音驱动虚拟形象的肢体动作。针对文本信息可进行语义识别，得到语义信息，例如，目标信息为“大家好，今天我要给大家介绍一个护肤品”，可基于语义分析，确定“大家好”、“介绍”、“护肤品”为语义信息，或者“大家好”、“介绍”、“护肤品”为关键词，确定对应的语义信息分别为“打招呼”、“介绍”、“产品”等。基于语义信息确定对应的节点匹配信息，如语义关键词确定为节点匹配信息，又如基于语义确定标签作为节点匹配信息等。可基于节点匹配信息匹配语义关联的动作，实现文本驱动动作（Text To Action，TTA）。其中，文本信息还可通过文本语音转换（Text To Speech，TTS），转换得到语音信息，然后对该语音信息进行音频分析，得到该段语音数据中的基音（pitch），可基于该基音与子片段对应的运动强度进行匹配，如基音越高，匹配的运动强度越大等。

另一个实施例中，对所述目标信息进行分析，确定对应的节点匹配信息，包括：若所述目标信息为音频信息，对所述音频信息进行音频分析，确定节奏信息作为节点匹配信息。还可采用音乐驱动虚拟形象执行舞蹈动作，该音乐可为仅具有乐曲的纯音乐，也可为包含人声的音乐，如歌曲等。对于音频信息可进行音频分析，可分析该音乐的节奏信息，其中，节奏信息包括基本节奏信息和规律节奏信息，其中，基本节奏信息如音符起始点onset，规律节奏信息如强拍信息beat等。例如一个4/4拍的音乐，基本都是一个小节有1个强拍。

步骤208，依据所述目标信息和骨骼动作连接图中的骨骼动作子片段，匹配目标子片段及其关联子片段。

在确定出目标信息后，可基于目标信息在特征图中匹配目标子片段。所述依据所述目标信息和骨骼动作连接图中的骨骼动作子片段，匹配目标子片段及其关联子片段，包括：采用所述目标信息匹配目标子片段，所述目标子片段为包括虚拟形象执行动作的片段；基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段。

其中，可基于目标信息所对应的语义、节奏、音频等匹配目标子片段。所述采用所述目标信息匹配目标子片段，包括：若节点匹配信息为语义信息，依据所述语义信息匹配语义动作对应的目标子片段；若节点匹配信息为基音信息，依据所述基音信息匹配随机动作对应的目标子片段；若节点匹配信息为节奏信息，依据所述节奏信息匹配舞蹈动作对应的目标子片段。

可基于语义信息所对应的语义，匹配对应语义动作的目标子片段。其中，子片段可设置一个或多个标签，如语义标签、节奏标签，运动强度标签等，从而可基于语义信息匹配标签，确定对应的目标子片段。一般情况下，语义动作是一些特定的动作，如，你好/大家好/hello 对应打招呼的动作；上方/下方/左侧/右侧对应方位指示的动作等，其可与动作文本具有强相关性，因此可匹配相应动作对应的子片段。例如在电商直播场景下，可基于电商文案匹配相应的动作对应的子片段，如打招呼，介绍商品，提供链接地址等。针对基音（pitch）信息，其与文本动作的相关性比较弱，主要是基于语音的音频信息，如基音（pitch）等，因此可基于目标音频信息匹配随机动作对应的目标子片段，其中，随机动作代表动作与文本是弱相关的，不决定动作的位置与速度，而是需要满足语音的拍平。针对节奏信息，可以舞蹈动作进行匹配，可计算节奏信息和舞蹈动作的节奏点的匹配度，其中，可将子片段中运动强度的极大值点作为舞蹈动作的节奏点，采用规律节奏信息与舞蹈动作的节奏点进行匹配，又如将子片段中启示动作的运动强度与基本节奏信息进行匹配等。从而能够匹配出音乐所对应的舞蹈动作。

在匹配出目标子片段之后，还可采用目标子片段匹配骨骼动作连接图，其中，可匹配两个目标子片段之间连接的一个或多个子片段作为关联子片段。一个示例中，所述基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段，包括：在所述骨骼动作连接图中确定目标子片段对应的目标节点；在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。在所述骨骼动作连接图中确定目标子片段对应的目标节点，然后在与该目标节点连接的节点中确定至少一个节点作为关联节点，将所述关联节点对应的子片段作为关联子片段。其中，可基于两个目标子片段之间的时间间隔查找对应的至少一个关联子片段，关联子片段可实现目标子片段之间的平滑过渡，使得虚拟形象的动作更加自然，流畅。

本申请一个可选实施例中，针对语义信息、节奏信息等与动作强相关的信息，还可确定与动作强相关的信息在目标信息中的位置，如时间点等信息，建立位置与所匹配动作的对应关系，从而可在特定动作的骨骼动作片段之间关联其他骨骼动作片段，形成虚拟形象的动作序列。即确定目标信息中语义信息对应所匹配语义动作的目标子片段，依据语义信息定位所述语义动作的目标子片段在目标中的位置，然后可基于位置之间的间隔，在语义动作的目标子片段之间确定关联子片段，得到虚拟形象的动作序列。也饿可确定目标信息中节奏信息对应所匹配舞蹈动作的目标子片段，依据节奏信息定位所述舞蹈动作的目标子片段在目标中的位置，然后可基于位置之间的间隔，在舞蹈动作的目标子片段之间确定关联子片段，得到虚拟形象的动作序列。

步骤210，对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据。

在确定出目标子片段和关联子片段后，可按照片顺序对目标子片段和关联子片段进行拼接，得到长片段作为骨骼动作片段，再配上目标信息对应的音频、文字等，得到对应的视频数据。其中，所述对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据，包括：对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段；确定所述目标信息对应的音频信息，对所述骨骼动作片段进行渲染，并结合音频信息，生成对应视频数据。可渲染得到虚拟形象执行动作的图像流，确定所述目标信息对应的音频信息，采用所述音频信息和图像流生成视频数据。例如，针对音乐信息可匹配舞蹈动作以及关联动作，渲染成虚拟形象跳舞蹈的图像流，而后配置上该音乐可得到相应的音乐舞蹈视频数据。又如在直播场景中，匹配直播脚本对应的特定动作以及关联动作，可生成直播的骨骼动作片段，然后配置上直播脚本对应生成的直播音频，可得到直播视频数据。

步骤212，输出所述视频数据。

可以输出包含虚拟形象的视频数据，例如在终端设备的屏幕上播放该虚拟形象的视频数据。可在视频页面中输出包含所述虚拟形象的视频数据；和/或，向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据，从而观看直播的用户可在终端设备的直播页面中播放包含所述虚拟形象的视频数据。

本申请实施例中，将虚拟形象执行动作的子片段构成骨骼动作连接图，从而可基于目标信息匹配在骨骼动作连接图中目标子片段及其关联子片段，再对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据，子片段之间连接依据骨骼动作连接图，因此可拼接成动作平滑过渡的视频，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

本申请实施例中，以上过程可在终端设备侧执行，也可在服务端执行，或者由服务端和终端设备合作实现。如终端设备的性能比较好，可以将相应的模型设置在终端设备中，从而终端设备采集目标信息后，按照上述过程驱动虚拟形象执行动作并录制包含虚拟形象的视频数据，然后可在该终端设备上播放，在视频页面中输出包含所述虚拟形象的视频数据。终端设备还可将包含虚拟形象的视频数据发送到服务端，由服务端基于具体的应用场景执行所需的处理，如缓存，又如直播场景下推流到各个观看用户的终端设备上，又如客服等场景中，发送到相应的终端设备上输出。或者可由服务端获取待处理信息，然后执行分析处理并驱动虚拟形象执行动作并生成视频数据，再输出到相应的终端设备上。或者在一些实施例中，可由终端设备采集待处理信息，然后直接上传到服务端，或者通过预处理后上传到服务端，如进行语音到文本的识别，又如对文本进行分析得到词汇序列等，而后由服务端确定动作参数，并基于动作参数驱动虚拟形象执行动作并生成视频数据，再输出到相应的终端设备上。

以上是一种基于文本、语音等数据，驱动虚拟形象执行相应的动作并生成视频数据的方案。区别于现有的3D动画技术，其一般是基于固定的情节预先设置并生成视频数据，其也仅能实现一些预定的动作。而本申请实施例基于动作参数来驱动虚拟形象执行动作，使得虚拟形象能够执行更加多样的动作，各动作之间基于骨骼动作连接图进行匹配，实现平滑过，使得虚拟形象所执行的动作也更加真实。

并且，本申请实施例可基于目标信息随时生成包含虚拟形象执行相应动作的视频数据，如在直播场景中虚拟主播可基于回复给观看用户的信息生成执行相应动作的视频数据。

本申请实施例中，还可在视频页面中显示子片段的片段信息，所述子片段包括目标子片段和/或关联子片段；响应于对编辑控件的触发，获取调整的子片段对应片段信息；反馈所述子片段对应片段信息，以便子片段进行调整，实现调整虚拟形象的动作。在终端设备的视频页面显示所匹配的子片段的片段信息，从而用户可以查看到片段信息，如运营用户查看虚拟主播要执行动作的片段信息等，还可显示该子片段，然后可基于需求对该子片段进行调整，如可触发编辑控件，然后显示对应的文本框，还可推荐候选的子片段的片段信息等，基于用户的选择确定调整的子片段。然后反馈该子片段的片段信息给视频的生成端。如在本地生成视频，则传输给本地的处理进程，如在服务端生成视频，则发送到服务端。

在上述实施例的基础上，本申请实施例还提供了视频生成方法，能够基于骨骼动作连接图匹配子片段拼接成视频数据。

参照图3，示出了本申请的另一种视频生成方法实施例的步骤流程图。

步骤302，获取目标信息。

对于文本类的目标信息可执行步骤304-步骤308，对于音乐类的目标信息，可执行步骤310。

步骤304，对所述文本信息进行语义分析，确定目标语义信息。

步骤306，将所述文本信息转换为语音信息，对所述语音信息进行音频分析，确定目标音频信息。

步骤308，采用所述目标语义信息和目标音频信息作为目标信息。

步骤310，对所述音频信息进行音频分析，确定节奏信息作为目标信息。

步骤312，依据所述目标语义信息匹配语义动作对应的目标子片段。

步骤314，依据所述目标音频信息匹配随机动作对应的目标子片段。

步骤316，依据所述节奏信息匹配舞蹈动作对应的目标子片段。

步骤318，在所述骨骼动作连接图中确定目标子片段对应的目标节点。

步骤320，在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。

步骤322，对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段。

步骤324，确定所述目标信息对应的音频信息，采用所述音频信息和骨骼动作片段生成视频数据。

步骤326，输出包含所述虚拟形象的视频数据。可在视频页面中输出包含所述虚拟形象的视频数据；和/或，向服务端推送包含所述虚拟形象的视频数据，以便服务端向直播端推流来播放所述视频数据。

本申请实施例能够从文本、语音中提取出相应的语义、节奏等特征，获取更符合真实肢体动作的驱动信号。然后基于骨骼动作连接图匹配相应的动作的子片段，以及连接子片段的动作对应关联子片段，再拼接成视频数据。

在上述实施例的基础上，本申请实施例还提供了一种虚拟主播的直播处理方法。能够将虚拟形象作为虚拟主播，提供直播服务并与用户互动，如图4A所示。

步骤402，提供直播页面。

步骤404，基于所述直播页面获取直播互动信息。

该直播页面可为主播端的直播页面，也可为直播编辑页面，该直播编辑页面可提供直播相关的编辑操作，如执行各种互动，编辑用于直播的直播互动信息等。该直播互动信息可为直播过程中的互动信息，如直播过程中基于观看用户的评论进行回复的信息，如由运营用户进行配置相应的文本数据。又如虚拟主播对应有音频提供给用户，则可回复语音数据作为直播互动信息。直播互动信息还可为基于直播场景确定的信息，如音乐等虚拟主播对应音频提供用户唱歌的语音数据，又如，虚拟主播介绍商品的直播互动信息，其可对应相应的图文信息、链接地址等商品对象信息。

本申请实施例中，所述基于所述直播页面获取直播互动信息，包括以下至少一种：响应于对直播页面中编辑控件的触发，获取对应的直播互动信息；响应于直播页面接收的观看直播的用户发送的目标信息，确定所述目标信息对应的直播互动信息。可在直播页面提供编辑控件，该编辑控件用于进行直播互动信息的编辑，如每次编辑可编辑一定时长的直播互动视频，时长可基于编辑的信息确定，如该编辑控件可提供文本框输入控件，以进行文本类直播互动信息的编辑，从而在完成输入并点击确认后，响应于对直播页面中编辑控件的触发，获取对应的直播互动信息。编辑控件可提供语音控件，触发可调用音频输入控件来接收语音类的直播互动信息。编辑控件可提供其他编辑相关的控件，如形象编辑控件，可用于调整虚拟主播（虚拟形象）的形象信息，如衣着服饰、配饰、造型等。提供背景乐编辑控件，可编辑直播过程中使用的背景乐。还可基于场景提供相应的编辑控件，如电商直播场景中可包括商品编辑控件，用于编辑所需的商品对象的商品对象信息。还可包括虚拟资源编辑控件，如红包、打赏信息等虚拟资源的编辑控件。从而能够在虚拟主播的直播过程中随时生成直播视频且虚拟主播能够与用户互动。用户在观看虚拟主播的直播过程中，也可发送评论信息或者虚拟资源信息如打赏信息，可将虚拟资源信息作为目标信息，也可将具有关键词的评论信息作为目标信息，从而在接收到观看直播的用户发送的目标信息后，可以确定所述目标信息对应的直播互动信息，例如直播互动信息为“谢谢XX的打赏”，“这件衣服有黑、白、灰，3个颜色”等。

步骤406，依据所述直播互动信息确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据直播互动信息和是匹配的骨骼动作片段生成，所述匹配的骨骼动作片段采用目标子片段和关联子片段拼接生成，所述目标子片段和关联子片段依据所述直播互动信息匹配骨骼动作连接图确定。

其中，可对所述直播互动信息进行分析，对所述文本信息进行语义分析，确定目标语义信息；将所述文本信息转换为语音信息，对所述语音信息进行音频分析，确定目标音频信息；采用所述目标语义信息和目标音频信息作为目标信息。依据所述目标语义信息匹配语义动作对应的目标子片段，依据所述目标音频信息匹配随机动作对应的目标子片段。在所述骨骼动作连接图中确定目标子片段对应的目标节点，在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段；确定所述直播互动信息对应的音频信息，采用所述音频信息和骨骼动作片段生成视频数据。还可对应添加直播相关其他数据，如链接地址、商品图片等。在直播场景中，如果直播互动信息为文本数据，则可基于文本到语音（Text To Speech，TTS）的语音技术，采用文本数据合成语音数据，如图4B所示的一种直播视频的生成视频中。主播的直播互动信息可为“hello，我来*****。首先，我们***”，可基于“hello”匹配打招呼动作的子片段，“我”匹配指向自己动作的子片段等，而后在骨骼动作连接图中查找中间连接过渡的关联子片段，然后可拼接得到视频数据。然后将该语音数据与虚拟主播所执行的动作进行同步，然后将语音数据添加到视频数据中。如直播互动信息为语音数据，则将该语音数据与虚拟主播所执行的动作进行同步，然后将语音数据添加到视频数据中。从而得到即具有语音，又能够由虚拟直播执行相应动作的视频数据，实现虚拟主播进行直播。

步骤408，在所述直播页面中播放所述直播视频数据。

步骤410，发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

其中，可在主播的设备端生成虚拟主播的直播视频数据，然后上传到服务端，通过服务端推流到各观看用户的终端设备中。也可将直播互动信息上传到服务端，由服务端分析并生成虚拟主播的直播视频数据，然后再分别推流到主播的设备端，以及各观看用户的终端设备中。如图5所示的一种电商直播的直播页面的示意图。虚拟主播可通过各种动作进行直播，如介绍商品对象。相应观看直播的用户可发表评论，如用户A：这个多少钱

用户B：尺码是多少等。虚拟主播可基于用户的评论确定直播互动信息，而后生成相应的动作进行直播。又如，有用户评论展示一些商品的背面，相应主播可以执行调整商品展示位置的动作。在该直播页面中还可提供购物车（或称购物袋）的图标，用户通过该图标可以看到本次直播已经开始销售的商品对象，进而可以基于所提供的链接地址跳转到该商品对象的详情页面中。该直播页面还提供了其他控件，如作为运营的页面按可提供直播互动信息的编辑控件，以及商品对象、虚拟资源的编辑控件等。又如作为观看用户的直播页面，可提供评论控件、分享控件、关注控件等。还可在该直播页面展示一些商品对象的细节，该细节可由虚拟主播展示，也可在直播页面中提供相应的图片。如图5中，提供了虚拟主播的裙子的图片。

在直播场景中，往往需要多端合作来实现直播。本申请实施例提供一种应用架构，包括主播端、视频生成端、直播服务端和直播观看端。其中，主播端为执行直播的处理端，其可由虚拟用户对应的后台运营用户等处理，视频生成端用于生成包含虚拟主播的直播视频数据。直播服务端为提供直播服务的服务端。直播观看端为观看直播的用户的处理端。在另外的一些框架中，主播端和视频生成端可为同一处理端。或者视频生成端和直播服务端为同一处理端，具体依据需求设置，本申请实施例对此不做限定。

步骤602，直播服务端提供第一直播页面给主播端。

步骤604，主播端确定直播信息，并发送给视频生成端。

步骤606，视频生成端确定所述直播互动信息对应的节点匹配信息。

步骤608，视频生成端采用所述目标信息匹配目标子片段，所述目标子片段为包括虚拟形象执行动作的片段，并基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段。

步骤610，视频生成端对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据。

步骤612，视频生成端发送包含虚拟主播的直播视频数据给主播端和直播服务端。

步骤614，直播服务端将包含虚拟主播的直播视频数据推流到各直播观看端。

步骤616，直播观看端确定评论数据，并发送评论数据给直播服务端。

步骤618，直播服务端将评论数据推送到主播端和直播观看端。

从而实现基于虚拟主播的直播，可以从文本、语音中提取出特征，更符合真实肢体动作的驱动信号。并且与观看直播的用户进行互动。

本申请实施例中，还可依据所述直播视频数据确定直播进度信息，依据所述直播进度信息确定目标商品对象的商品对象信息；当直播到所述目标商品对象时，在所述直播页面中显示所述商品对象信息。在直播过程中可设置本次直播的进度信息，以电商直播为例，可根据所需销售的商品对象设置进度信息，又如在歌舞直播、游戏直播中也可设置相应的进度，如设置几首歌作为节点，或者游戏的某些场景作为进度节点等。相应在直播过程中，可基于直播视频数据确定直播进度信息，即可基于直播视频数据中的直播内容与进度信息进行对比，确定直播进度信息，然后基于该直播进度信息确定下一进度对应的直播互动信息或关联信息，从而提前准备相应的信息。以电商直播为例，虚拟主播介绍商品对象之后会展示商品对象信息，如商品对象的图像、价格、链接地址等，基于链接地址可访问商品对象详情页，了解商品对象的详细描述信息，如各种细节图像、尺寸、材料等内容，可将其作为商品对象信息。相应可依据所述直播进度信息确定目标商品对象的商品对象信息，即依据当前介绍的商品对象确定下一商品对象作为目标商品对象，获取其商品对象信息，在直播的过程中如果直播到介绍该目标商品对象，可在所述直播页面中显示所述商品对象信息，其中，也可基于一些关键词来确定显示商品对象信息的时机，如当虚拟主播说到“上链接”时，可显示商品对象信息。

本申请实施例中，当检测到所述直播视频数据中虚拟形象执行目标动作时，在所述直播页面中显示所述目标动作对应的显示元素，以与观看直播的用户进行互动。还可对直播视频数据中虚拟形象的动作进行检测，确定目标动作，该目标动作对应有显示元素，可在直播页面中显示所述目标动作对应的显示元素，例如虚拟主播做出比心的动作，可在显示页面中显示心形的显示元素，如多个心形的显示元素从上向下掉落，又如多个不同大小的心形叠加显示的显示元素等。又如，虚拟主播做出发红包的目标动作，则可有多个红包样式的显示元素从上向下掉落，相应观看用户可点击红包元素来获取红包。本申请实施例中，以上显示元素可预先设置于直播视频数据中，也可设置在终端设备本地，从而在本地播放直播视频数据达到目标位置时，调用显示元素进行显示，如叠加到直播视频数据中显示等，可以依据需求确定。

在上述实施例的基础上，本申请实施例还提供了一种舞蹈视频生成方法。能够使虚拟形象随着音乐的节奏舞动，既能够符合音乐的节拍，又能够随着音乐自然、流畅的跳舞，如图7A所示。

步骤702，获取音乐数据。

步骤704，对所述音乐数据进行音频分析，确定节奏信息。

可提供相应的视频页面，视频页面提供音乐选择控件，响应于对音乐选择控件的触发，可选择音乐数据。其中，可选择本地的音乐数据，也可从网络侧选择音乐数据。另外一些示例中，音乐数据可的对应音乐类型，如摇滚乐、爵士乐、流行乐、民族乐、国风乐等，相应也可给骨骼动作连接图中子片段设置音乐类型的标签。根据虚拟形象的舞蹈动作确定所属的一个或多个音乐类型的标签，并与后续匹配

步骤706，依据所述节奏信息在骨骼动作连接图中匹配目标子片段，并确定所述目标子片段的关联子片段，所述骨骼动作连接图以骨骼动作子片段为节点，骨骼动作子片段之间的关联信息为边构成，所述骨骼动作子片段为包括虚拟形象执行动作的片段。

步骤708，对所述目标子片段和关联子片段进行拼接，并结合所述音乐数据构成包含虚拟形象的舞蹈视频数据。

可基于音乐的节奏在骨骼动作连接图中匹配目标子片段，并确定所述目标子片段的关联子片段。如图7B所示，基于音乐的节奏信息音符起始点onset、强拍信息beat等匹配对应的目标子片段，然后采用目标子片段检索骨骼动作连接图，确定过渡连接的关联子片段。其中，如果设置有音乐类型标签，在匹配时还可基于音乐类型匹配子片段。所述依据所述节奏信息在骨骼动作连接图中匹配目标子片段，包括：计算所述节奏信息与骨骼动作连接图中节点的匹配度；依据所述匹配度确定骨骼动作连接图中匹配的节点，将所述匹配的节点对应子片段作为目标子片段。可将子片段中运动强度的极大值点作为舞蹈动作的节奏点，采用规律节奏信息与舞蹈动作的节奏点进行匹配，又如将子片段中启示动作的运动强度与基本节奏信息进行匹配等。从而能够匹配出音乐所对应的舞蹈动作。

步骤710，在视频页面输出所述舞蹈视频数据。

其中，可在设备端生成虚拟形象的舞蹈视频数据，在终端设备的视频页面显示该舞蹈视频数据。

在上述实施例的基础上，本申请实施例还提供了一种虚拟主持人的处理方法。能够将虚拟形象作为虚拟主持人，可主持各种会议、晚会，还可与真人主持、观众等进行互动，如图8所示。

步骤802，提供会议页面。该会议页面包括各种公司的工作会议、晚会、年会等，还可包括文娱场景中的晚会，如节日晚会等。

步骤804，基于所述会议页面获取主持信息。

该主持页面可为各类主持场景的主持页面，虚拟形象可作为虚拟主持人。该主持页面可提供主持相关的编辑操作，如执行各种互动，编辑用于主持、介绍的主持信息等。该主持信息可为主持过程中的主持互动信息、主持介绍词、解说词等内容，如主持过程中与用户进行问题互动的信息，如由主持运营用户进行配置相应的主持介绍文本数据等。

本申请实施例中，所述基于所述主持页面获取主持信息，包括以下至少一种步骤：响应于对主持页面中编辑控件的触发，获取对应的主持信息；响应于主持页面接收的用户发送的目标信息，确定所述目标信息对应的主持信息。可在主持页面提供编辑控件，该编辑控件用于进行主持信息的编辑，如每次编辑可编辑一定时长的主持视频，时长可基于编辑的信息确定，如该编辑控件可提供文本框输入控件，以进行文本类主持信息的编辑，从而在完成输入并点击确认后，响应于对主持页面中编辑控件的触发，获取对应的主持信息。编辑控件可提供语音控件，触发可调用音频输入控件来接收语音类的主持信息。编辑控件可提供其他编辑相关的控件，如形象编辑控件，可用于调整虚拟主持人（虚拟形象）的形象信息，如衣着服饰、配饰、造型等。还可基于场景提供相应的编辑控件，如主持直播场景中可包括商品编辑控件，用于编辑所需的商品对象的商品对象信息。还可包括虚拟资源编辑控件，如晚会所提供的红包、优惠券等虚拟资源的编辑控件。从而能够在虚拟主持人与用户交互，提供主持服务的过程中，根据主持需求编辑相应的信息。其中，有些信息可生成虚拟主持人的动作，通过视频的形式提供，有些信息可在主持页面中通过其他形式提供，具体依据主持场景确定。

从而用户在与虚拟主持人对接的过程中，可观看到虚拟主持人执行主持相关的动作，如介绍晚会节目、发布晚会流程，与观众互动等，也可获取相应的资源数据，如优惠券等，通过虚拟主持人实现主持。

步骤806，依据所述主持信息确定包含虚拟形象执行动作的主持视频数据，所述主持视频数据依据主持信息和所匹配的骨骼动作片段生成，所述匹配的骨骼动作片段采用目标子片段和关联子片段拼接生成，所述目标子片段和关联子片段依据所述直播互动信息匹配骨骼动作连接图确定。其中，可对主持信息对应文本信息进行语义分析，确定目标语义信息；将所述文本信息转换为语音信息，对所述语音信息进行音频分析，确定目标音频信息；采用所述目标语义信息和目标音频信息作为目标信息。依据所述目标语义信息匹配语义动作对应的目标子片段，依据所述目标音频信息匹配随机动作对应的目标子片段。在所述骨骼动作连接图中确定目标子片段对应的目标节点；在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段；确定所述账户持信息对应的音频信息，采用所述音频信息和骨骼动作片段生成主持视频数据。

在主持场景中，如果主持信息为文本数据，则可基于文本到语音（Text ToSpeech，TTS）的语音技术，采用文本数据合成语音数据，然后将该语音数据与虚拟主持人所执行的动作进行同步，然后将语音数据添加到视频数据中。如主持信息为语音数据，则将该语音数据与虚拟主持人所执行的动作进行同步，然后将语音数据添加到视频数据中。从而得到即具有语音，又能够由虚拟直播执行相应动作的视频数据，实现虚拟主持人的服务。

步骤808，通过主持页面输出主持视频数据。

其中，可在主持的设备端生成虚拟主持人的主持视频数据，在终端设备的主持页面显示该主持视频数据。用户可通过终端设备与视频中的虚拟主持人交互，基于交互的内容确定主持内容后生成主持视频，给用户提供相应的服务。从而在该交互过程中，可基于所需的服务信息生成虚拟主持人的视频来为用户提供服务。

本申请实施例能够采用了先密集细分子片段，构建子片段的关联后，再将划分点进行稀疏化。使得节点对应子片段的长度会更稳定，边会更多。从而构建骨骼动作连接图，为实现更为逼真多样的合成提供基础。

上述骨骼动作连接图能够实现目标信息和虚拟形象的动作之间的强相关，从而能够基于目标信息匹配特定动作、随机动作、舞蹈动作等，并进行合成，使得虚拟形象流畅自然的动作。针对音乐可基于音乐onset/beat与舞蹈运动节奏点的匹配度，可以实现符合音乐节奏的舞蹈合成。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

在上述实施例的基础上，本实施例还提供了一种视频声场装置，应用于终端设备、服务端设备等电子设备中。

获取模块，用于获取目标信息，并确定所述目标信息的目标信息；匹配模块，用于采用所述目标信息匹配目标子片段，所述目标子片段为包括虚拟形象执行动作的片段；基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段；拼接合成模块，用于对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据；输出模块，用于输出包含所述虚拟形象的视频数据。

综上，将虚拟形象执行动作的子片段构成骨骼动作连接图，从而可基于目标信息匹配在骨骼动作连接图中目标子片段及其关联子片段，再对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据，子片段之间连接依据骨骼动作连接图，因此可拼接成动作平滑过渡的视频，使得视频数据中虚拟用户的动作自然、流畅，能够准确、自然的生成虚拟形象执行动作的视频。

其中，所述获取模块，用于若所述目标信息为文本信息，对所述文本信息进行语义分析，确定目标语义信息；将所述文本信息转换为语音信息，对所述语音信息进行音频分析，确定目标音频信息；采用所述目标语义信息和目标音频信息作为目标信息。所述获取模块，还用于若所述目标信息为音频信息，对所述音频信息进行音频分析，确定节奏信息作为目标信息。

所述匹配模块，用于若目标信息为目标语义信息，依据所述目标语义信息匹配语义动作对应的目标子片段；若目标信息为目标音频信息，依据所述目标音频信息匹配随机动作对应的目标子片段；若目标信息为节奏信息，依据所述节奏信息匹配舞蹈动作对应的目标子片段。

所述匹配模块，用于在所述骨骼动作连接图中确定目标子片段对应的目标节点；在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。

所述拼接合成模块，用于对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段；确定所述目标信息对应的音频信息，采用所述音频信息和骨骼动作片段生成视频数据。

还包括：调整模块，用于在视频页面显示子片段的片段信息，所述子片段包括目标子片段和/或关联子片段；响应于对反馈控件的触发，获取调整的子片段对应片段信息；反馈所述调整的子片段对应片段信息，以对子片段进行调整。

在上述实施例的基础上，本申请实施例还提供了一种直播处理装置，包括：页面提供模块，用于提供直播页面；直播处理模块，用于基于所述直播页面获取直播互动信息；直播生成模块，用于依据所述直播互动信息确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据直播互动信息和所匹配的骨骼动作片段生成，所述匹配的骨骼动作片段采用目标子片段和关联子片段拼接生成，所述目标子片段和关联子片段依据所述直播互动信息匹配骨骼动作连接图确定；显示模块，用于在所述直播页面中播放所述直播视频数据；发送模块，用于发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

所述直播处理模块，用于响应于对直播页面中编辑控件的触发，获取对应的直播互动信息；和/或，响应于直播页面接收的观看直播的用户发送的目标信息，确定所述目标信息对应的直播互动信息。

所述直播处理模块，还用于依据所述直播视频数据确定直播进度信息，依据所述直播进度信息确定目标商品对象的商品对象信息；所述显示模块，还用于当直播到所述目标商品对象时，在所述直播页面中显示所述商品对象信息。

所述显示模块，还用于当检测到所述直播视频数据中虚拟形象执行目标动作时，在所述直播页面中显示所述目标动作对应的显示元素，以与观看直播的用户进行互动。

本申请实施例还提供了一种视频生成装置，包括：音乐获取模块，用于获取音乐数据；节奏分析模块，用于对所述音乐数据进行音频分析，确定节奏信息；舞蹈视频生成模块，用于依据所述节奏信息在骨骼动作连接图中匹配目标子片段，并确定所述目标子片段的关联子片段，所述骨骼动作连接图以骨骼动作子片段为节点，骨骼动作子片段之间的关联信息为边构成，所述骨骼动作子片段为包括虚拟形象执行动作的片段；对所述目标子片段和关联子片段进行拼接，并结合所述音乐数据构成包含虚拟形象的舞蹈视频数据；舞蹈输出模块，用于在视频页面输出所述舞蹈视频数据。

与深度学习等模型相比，这类模型的处理过程是黑盒、不可控的过程，因此其输入信号与肢体动作之间并没有强关联性，难以根据输入特征来合成逼真的肢体运动，会存在动作不自然的情况。并且，还会存在难以受控的情况，例如音乐驱动舞蹈中难以实现舞蹈节奏匹配音乐节奏。而本申请实施例可基于统计模型方法，在实现给定输入信号下的全自动化肢体动作合成。这是一个多模态任务，输入为给定信号特征，输出为肢体动作序列。可在基于已有动作数据构建骨骼动作连接图的基础上，基于给定信号特征，从骨骼动作连接图中检索子片段为长序列动作。

本申请实施例还提供了一种非易失性可读存储介质，该存储介质中存储有一个或多个模块（programs），该一个或多个模块被应用在设备时，可以使得该设备执行本申请实施例中各方法步骤的指令（instructions）。

本申请实施例提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中，所述电子设备包括终端设备、服务器（集群）等各类型的设备。

本公开的实施例可被实现为使用任意适当的硬件，固件，软件，或及其任意组合进行想要的配置的装置，该装置可包括数据中心内的终端设备、服务器（集群）等电子设备。图9示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置900 。

对于一个实施例，图9示出了示例性装置900，该装置具有一个或多个处理器902、被耦合到(一个或多个)处理器902中的至少一个的控制模块（芯片组）904、被耦合到控制模块904的存储器906、被耦合到控制模块904的非易失性存储器(NVM)/存储设备908、被耦合到控制模块904的一个或多个输入/输出设备910，以及被耦合到控制模块904的网络接口912。

处理器902可包括一个或多个单核或多核处理器，处理器902可包括通用处理器或专用处理器（例如图形处理器、应用处理器、基频处理器等）的任意组合。在一些实施例中，装置900 能够作为本申请实施例中所述终端设备、服务器（集群）等设备。

在一些实施例中，装置900 可包括具有指令914的一个或多个计算机可读介质(例如，存储器906或NVM/ 存储设备908) 以及与该一个或多个计算机可读介质相合并被配置为执行指令914以实现模块从而执行本公开中所述的动作的一个或多个处理器902。

对于一个实施例，控制模块904可包括任意适当的接口控制器，以向(一个或多个)处理器902中的至少一个和/或与控制模块904通信的任意适当的设备或组件提供任意适当的接口。

控制模块904可包括存储器控制器模块，以向存储器906提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。

存储器906可被用于例如为装置900加载和存储数据和/或指令914。对于一个实施例，存储器906可包括任意适当的易失性存储器，例如，适当的DRAM。在一些实施例中，存储器906可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。

对于一个实施例，控制模块904可包括一个或多个输入/输出控制器，以向NVM/存储设备908及(一个或多个)输入/输出设备910 提供接口。

例如，NVM/存储设备908可被用于存储数据和/或指令914。NVM/存储设备908可包括任意适当的非易失性存储器(例如，闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如，一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。

NVM/存储设备908可包括在物理上作为装置900 被安装在其上的设备的一部分的存储资源，或者其可被该设备访问可不必作为该设备的一部分。例如， NVM/存储设备908可通过网络经由(一个或多个)输入/输出设备910 进行访问。

(一个或多个)输入/输出设备910 可为装置900 提供接口以与任意其他适当的设备通信，输入/输出设备910可以包括通信组件、音频组件、传感器组件等。网络接口912可为装置900 提供接口以通过一个或多个网络通信，装置900 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信，例如接入基于通信标准的无线网络，如WiFi、2G、3G、4G、5G等，或它们的组合进行无线通信。

对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器(例如，存储器控制器模块) 的逻辑封装在一起。对于一个实施例，(一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP) 。对于一个实施例， (一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例， (一个或多个)处理器902中的至少一个可与控制模块904的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC) 。

在各个实施例中，装置900可以但不限于是：服务器、台式计算设备或移动计算设备(例如，膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中，装置900 可具有更多或更少的组件和/或不同的架构。例如，在一些实施例中，装置900包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。

其中，检测装置中可采用主控芯片作为处理器或控制模块，传感器数据、位置信息等存储到存储器或NVM/存储设备中，传感器组可作为输入/输出设备，通信接口可包括网络接口。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种基于视频的处理方法和装置、一种终端设备和一种机器可读介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于视频的处理方法，其特征在于，所述方法包括：

获取骨骼动作片段，将所述骨骼动作片段依据切分点划分为多个骨骼动作子片段，所述切分点依据相邻两帧图像之间的差异值确定，所述差异值依据骨骼动作片段中各帧图像中虚拟形象的目标关节点的运动强度信息确定；

采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图；

获取目标信息，对所述目标信息进行分析，确定节点匹配信息，所述节点匹配信息包括以下至少一种：语义信息、基音信息和节奏信息，其中，所述语义信息对应语义动作，所述基音信息对应随机动作，所述节奏信息对应舞蹈动作；

采用所述节点匹配信息匹配目标子片段；

基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段；

对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据；

输出所述视频数据。

2.根据权利要求1所述的方法，其特征在于，所述将所述骨骼动作片段依据切分点划分为多个骨骼动作子片段，包括：

对所述骨骼动作片段中各帧图像中虚拟形象的目标关节点进行检测，确定运动强度信息；

依据所述运动强度信息判断相邻两帧图像之间的差异值；

依据所述差异值确定切分点，将所述骨骼动作片段依据切分点切分为多个骨骼动作子片段。

3.根据权利要求1所述的方法，其特征在于，所述采用所述骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图，包括：

依据骨骼动作子片段确定节点的节点信息；

确定两个节点对应骨骼动作子片段之间的运动相似度，依据所述运动相似度确定所述两个节点之间的边；

依据所述节点和边，创建骨骼动作连接图。

4.根据权利要求3所述的方法，其特征在于，所述确定两个节点对应骨骼动作子片段之间的运动相似度，依据所述运动相似度确定所述两个节点之间的边，包括：

确定两个节点对应骨骼动作子片段，依据所述骨骼动作子片段中目标关节点，确定对应的运动相似度，所述运动相似度包括：姿态相似度和/或速度相似度；

在所述运动相似度满足相似阈值时，创建边连接两个节点。

5.根据权利要求1所述的方法，其特征在于，还包括：

在编辑页面显示所述骨骼动作连接图；

响应于对所述骨骼动作连接图的调整操作，对相应的节点进行调整。

6.根据权利要求1所述的方法，其特征在于，对所述目标信息进行分析，确定以下至少一种节点匹配信息的步骤包括：

若所述目标信息为文本信息，对所述文本信息进行语义分析，确定语义信息；

若所述目标信息为语音信息，对所述语音信息进行音频分析，确定基音信息；

若所述目标信息为音频信息，对所述音频信息进行音频分析，确定节奏信息；

所述采用所述目标信息匹配目标子片段，包括以下至少一种步骤：

依据所述语义信息匹配语义动作对应的目标子片段；

依据所述基音信息匹配随机动作对应的目标子片段；

依据所述节奏信息匹配舞蹈动作对应的目标子片段。

7.根据权利要求1所述的方法，其特征在于，所述基于所述目标子片段匹配骨骼动作连接图，确定所述目标子片段的关联子片段，包括：

在所述骨骼动作连接图中确定目标子片段对应的目标节点；

在所述骨骼动作连接图中匹配所述目标节点连接的至少一个关联节点，将所述关联节点对应的子片段作为关联子片段。

8.根据权利要求5所述的方法，其特征在于，所述对所述目标子片段和关联子片段进行拼接，并结合所述目标信息构成视频数据，包括：

对所述目标子片段和关联子片段进行拼接，得到骨骼动作片段；

确定所述目标信息对应的音频信息；

对所述骨骼动作片段进行渲染，并结合音频信息，生成对应视频数据。

9.根据权利要求1所述的方法，其特征在于，还包括：

在视频页面显示子片段的片段信息，所述子片段包括目标子片段和/或关联子片段；

响应于对反馈控件的触发，获取调整的子片段对应片段信息；

反馈所述调整的子片段对应片段信息，以对子片段进行调整。

10.一种直播处理方法，其特征在于，所述方法包括：

采用骨骼动作子片段确定节点，依据所述骨骼动作子片段之间的运动信息确定边，构建骨骼动作连接图，所述骨骼动作子片段为骨骼动作片段依据切分点划分得到的，所述切分点依据相邻两帧图像之间的差异值确定，所述差异值依据骨骼动作片段中各帧图像中虚拟形象的目标关节点的运动强度信息确定；

基于直播页面获取直播互动信息；

依据所述直播互动信息确定包含虚拟形象执行动作的直播视频数据，所述直播视频数据依据直播互动信息和所匹配的骨骼动作片段生成，所述匹配的骨骼动作片段采用目标子片段和关联子片段拼接生成，所述目标子片段和关联子片段依据对所述直播互动信息进行分析匹配节点匹配信息，采用节点匹配信息匹配骨骼动作连接图确定，所述节点匹配信息包括以下至少一种：语义信息、基音信息和节奏信息，其中，所述语义信息对应语义动作，所述基音信息对应随机动作，所述节奏信息对应舞蹈动作；

在所述直播页面中播放所述直播视频数据；

发送所述直播视频数据到服务端，以便服务端向直播端推流来播放所述直播视频数据。

11.一种视频生成方法，其特征在于，所述方法包括：

获取音乐数据；

对所述音乐数据进行音频分析，确定节奏信息；

依据所述节奏信息在骨骼动作连接图中匹配目标子片段，并确定所述目标子片段的关联子片段，所述骨骼动作子片段为包括虚拟形象执行动作的片段；

对所述目标子片段和关联子片段进行拼接，并结合所述音乐数据构成包含虚拟形象的舞蹈视频数据；

在视频页面输出所述舞蹈视频数据。

12.一种电子设备，其特征在于，包括：处理器；和

存储器，其上存储有可执行代码，当所述可执行代码被执行时，使得所述处理器执行如权利要求1-11中任一项所述的方法。

13.一个或多个机器可读介质，其上存储有可执行代码，当所述可执行代码被执行时，使得处理器执行如权利要求1-11中任一项所述的方法。