CN109905724A

CN109905724A - 直播视频处理方法、装置、电子设备及可读存储介质

Info

Publication number: CN109905724A
Application number: CN201910318813.8A
Authority: CN
Inventors: 徐子豪; 林哲; 蔡青峰
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-06-18

Abstract

本申请实施例提供一种直播视频处理方法、装置、电子设备及可读存储介质，通过从待迁移动作的源动作视频中提取源人物的姿态动作简笔画后，通过归一化过程将姿态动作简笔画迁移到目标主播的各个关节上，以创建目标主播对应的姿态动作简笔画，而后将目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成目标主播按照姿态动作简笔画执行对应的姿态动作的直播视频。如此，本申请将姿态动作简笔画作为源人物和主播之间的中间表示，并以此将源人物的才艺赋能到主播身上，使得才艺有限的主播也能够为观众提供近乎真实的才艺表演，从而提高直播过程中的观众活跃度，增加观看吸引力，更大程度上地调动观众与主播的互动。

Description

直播视频处理方法、装置、电子设备及可读存储介质

技术领域

本申请涉及互联网直播领域，具体而言，涉及一种直播视频处理方法、装置、电子设备及可读存储介质。

背景技术

目前，互联网直播平台不论是直接向用户推送实时直播视频，还是推送已直播视频或者实时直播视频中的精彩片段，上述推送的内容都是主播端录制的原始视频内容。在娱乐直播领域，主播才艺表演是一种常见的表演形式，例如主播可以展示各种舞蹈才艺以吸引在线观众用户量。然而部分主播跳舞才艺有限，无法迎合不同观众的才艺观看需求，从而影响直播过程中的观众活跃度，难以调动观众与主播的互动。

发明内容

有鉴于此，本申请实施例的目的在于提供一种直播视频处理方法、装置及电子设备，以解决或者改善上述问题。

根据本申请实施例的一个方面，提供一种电子设备，可以包括一个或多个存储介质和一个或多个与存储介质通信的处理器。一个或多个存储介质存储有处理器可执行的机器可执行指令。当电子设备运行时，处理器执行所述机器可执行指令，以执行直播视频处理方法。

根据本申请实施例的另一方面，提供一种直播视频处理方法，应用于直播提供终端，所述方法包括：

获取待迁移动作的源动作视频；

通过姿态检测网络从所述源动作视频中提取源人物的姿态动作简笔画；

通过归一化过程将所述姿态动作简笔画迁移到目标主播的各个关节上，以创建所述目标主播对应的姿态动作简笔画；

将所述目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成所述目标主播按照所述姿态动作简笔画执行对应的姿态动作的直播视频。

根据本申请实施例的另一方面，提供一种直播视频处理装置，应用于直播提供终端，所述装置包括：

获取模块，用于获取待迁移动作的源动作视频；

提取模块，用于通过姿态检测网络从所述源动作视频中提取源人物的姿态动作简笔画；

迁移模块，用于通过归一化过程将所述姿态动作简笔画迁移到目标主播的各个关节上，以创建所述目标主播对应的姿态动作简笔画；

生成模块，用于将所述目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成所述目标主播按照所述姿态动作简笔画执行对应的姿态动作的直播视频。

根据本申请实施例的另一方面，提供一种可读存储介质，该可读存储介质上存储有机器可执行指令，该计算机程序被处理器运行时可以执行上述的直播视频处理方法的步骤。

基于上述任一方面，本申请实施例通过从待迁移动作的源动作视频中提取源人物的姿态动作简笔画后，通过归一化过程将姿态动作简笔画迁移到目标主播的各个关节上，以创建目标主播对应的姿态动作简笔画，而后将目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成目标主播按照姿态动作简笔画执行对应的姿态动作的直播视频。如此，本申请将姿态动作简笔画作为源人物和主播之间的中间表示，并以此将源人物的才艺赋能到主播身上，使得才艺有限的主播也能够为观众提供近乎真实的才艺表演，从而提高直播过程中的观众活跃度，增加观看吸引力，更大程度上地调动观众与主播的互动。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下面将结合实施例，并配合所附附图，作详细说明。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的直播系统的应用场景示意框图；

图2示出了本申请实施例所提供的直播视频处理方法的流程示意图之一；

图3示出了本申请实施例所提供的直播视频生成过程的示意图；

图4示出了本申请实施例所提供的直播视频处理方法的流程示意图之二；

图5示出了本申请实施例所提供的图4中所示的步骤S103包括的各个子步骤的流程示意图；

图6示出了本申请实施例所提供的姿态动作生成模型的训练流程示意图；

图7示出了本申请实施例所提供的图1所示的直播提供终端的示例性组件示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例提供的直播系统10的应用场景示意图。例如，直播系统10可以是用于诸如互联网直播之类的服务平台。参照图1所示，直播系统10可以包括直播服务器200、直播提供终端100以及直播接收终端300，直播服务器200分别与直播提供终端100以及直播接收终端300通信连接，用于为直播提供终端100以及直播接收终端300提供直播服务。例如，直播提供终端100可以将直播间的直播视频流发送给直播服务器200，观众可以通过直播接收终端300从直播服务器200拉取直播视频流以观看直播间的直播视频。又例如，主播服务器也可以在观众订阅的直播间开播时向该观众的直播接收终端300发送通知消息。直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。

可以理解，图1所示的直播系统10仅为一种可行的示例，在其它可行的实施例中，该直播系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

在一些实施场景中，直播提供终端100和直播接收终端300可以互换使用。例如，直播提供终端100的主播可以使用直播提供终端100来为观众提供直播视频服务，或者作为观众查看其它主播提供的直播视频。又例如，直播接收终端300的观众也可以使用直播接收终端300观看所关注的主播提供的直播视频，或者作为主播为其它观众提供直播视频服务。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，直播系统10还可以包括用于采集主播的主播视频帧的视频采集装置400，视频采集装置400直接安装或者集成于直播提供终端100，也可以独立于直播提供终端100并与直播提供终端100连接。

图2示出了本申请实施例提供的直播视频处理方法的流程示意图，该直播视频处理方法可由图1中所示的直播提供终端100执行。应当理解，在其它实施例中，本实施例的直播视频处理方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该直播视频处理方法的详细步骤介绍如下。

步骤S110，获取待迁移动作的源动作视频。

本实施例中，源动作视频中包括源人物执行标准动作所录制的视频，例如可以包括但不限于源人物进行舞蹈才艺表演、即兴表演、杂技表演等所录制的视频。该源动作视频可以是即时录制的视频，也可以是预先录制的视频，或者还可以是从外部网站服务器下载的其它用户录制的视频，本实施例对此不作任何限制。

步骤S120，通过姿态检测网络从源动作视频中提取源人物的姿态动作简笔画。

步骤S130，通过归一化过程将姿态动作简笔画迁移到目标主播的各个关节上，以创建目标主播对应的姿态动作简笔画。

步骤S140，将目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成目标主播按照姿态动作简笔画执行对应的姿态动作的直播视频。

上述姿态检测网络所提取到的源人物的姿态动作简笔画可以作为源人物和主播之间的中间表示，姿态动作简笔画包括了源人物的各个关键特征点的姿态动作信息，这些姿态动作信息能够保持随时间变化的运动特征，同时尽可能多地抽象源人物特质，由此可以通过将这些姿态动作信息设计成姿势简笔画。

在一种可能的实施方式中，上述姿态检测网络可以通过如下方式训练得到：

首先，获取姿态训练样本集合和对应的深度信息集合，其中，姿态训练样本集合中的各个姿态训练样本都标注有每个关键特征点对应的姿态动作标签。

然后，将各个姿态训练样本和对应的姿态动作标签输入到深度学习模型中，通过深度学习模型提取各个姿态训练样本的姿态动作信息并输出各个姿态训练样本对应的姿态动作信息。

接着，计算各个姿态训练样本对应的姿态动作信息和对应的姿态动作标签之间的损失函数值，并根据损失函数值更新深度学习模型的模型参数，直至深度学习模型满足训练终止条件时，得到训练完成的姿态检测网络。

在此基础上，请结合参阅图3，当确定待迁移动作的源动作视频后，首先将待迁移动作的源动作视频输入到姿态检测网络中，以提取源人物的姿态动作简笔画，然后通过归一化过程将姿态动作简笔画迁移到目标主播的各个关节上，以创建目标主播对应的姿态动作简笔画。最后，将目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成目标主播按照姿态动作简笔画执行对应的姿态动作的直播视频。如此，即可生成目标主播可以按照源人物所执行的标准动作执行同样动作的直播视频，并且通过归一化过程考虑了源人物和目标人物的身材、位置差异，提升直播视频的真实感。例如，如果源人物所执行的标准动作为跳一段3分钟的爵士舞，那么生成的直播视频中则演示目标主播跳同样一段3分钟的爵士舞。

作为一种可能的实施方式，请参阅图4，在步骤S110之前，本实施例提供的直播视频生成方法还可以包括预先训练姿态动作生成模型的步骤，下面对预先训练姿态动作生成模型的具体流程进行详细阐述。

步骤S101，获取训练样本，训练样本包括源动作视频样本和目标主播视频样本。

本实施例中，源动作视频样本也即待迁移动作的视频样本，例如源人物跳一段舞蹈的视频样本；目标主播视频样本可以是目标主播提供的任意视频样本，例如可以是通过视频采集装置400采集的目标主播随意跳一段舞蹈的视频样本。

步骤S102，通过姿态检测网络从目标主播视频样本中提取目标主播的姿态动作简笔画。

本实施例中，采用上述训练得到的姿态检测网络从目标主播视频样本中提取目标主播的姿态动作简笔画。可选地，目标主播的姿态动作简笔画包括目标主播的各个肢体关键特征点的肢体姿态动作简笔画以及目标主播的各个脸部关键特征点的脸部姿态动作简笔画，通过提取目标主播的各个脸部关键特征点的脸部姿态动作简笔画可以使得后续生成的主播视频的目标主播的脸部姿态执行与源人物同样的脸部姿态动作，以增强后续生成的主播视频的目标主播的面部逼真程度，旨在为目标主播的面部区域添加更多细节和真实感。

步骤S103，根据目标主播的姿态动作简笔画和源动作视频样本对预先建立的生成网络和对抗判别网络进行训练，得到姿态动作生成模型。

详细地，请结合参阅图5-图6，作为一种可能的实施方式，该步骤S103可以通过如下子步骤实现：

子步骤S1031，通过生成网络将源动作视频样本中源人物的姿态动作简笔画迁移到目标主播的姿态动作简笔画中的目标主播的各个关节上，生成目标主播按照源人物的姿态动作简笔画执行对应的姿态动作的目标主播视频。

子步骤S1032，通过预先建立的对抗判别网络对目标主播视频样本、目标主播视频以及目标主播的姿态动作简笔画进行误差判别。

子步骤S1033，通过预先建立的视频特征提取网络分别提取目标主播视频样本的第一视频特征和目标主播视频的第二视频特征，并计算第一视频特征和第二视频特征之间的视频特征误差值。

子步骤S1034，根据误差判别结果和视频特征误差值分别调整生成网络和对抗判别网络的网络参数。

本实施例中，误差判别结果可以包括目标主播视频中每帧视频帧和目标主播的姿态动作简笔画中对应的姿态动作帧之间的第一误差结果以及目标主播视频样本中每帧视频帧与目标主播的姿态动作简笔画中对应的姿态动作帧之间的第二误差结果。

在此基础上，根据上述误差判别结果分别调整生成网络和对抗判别网络的网络参数，从而使得生成网络学习源人物的姿态动作简笔画到目标主播视频样本中的目标主播的各个关节上，对抗判别网络学习区分目标主播视频中每帧视频帧和目标主播的姿态动作简笔画中对应的姿态动作帧，以及学习区分目标主播视频样本中每帧视频帧与目标主播的姿态动作简笔画中对应的姿态动作帧。

子步骤S1035，判断生成网络是否满足训练终止条件。

其中，上述的训练终止条件可以包括以下条件中的至少一种：

1)迭代训练次数达到设定次数；2)误差判别结果中的误差函数值以及视频特征误差值低于设定阈值；3)误差判别结果中的误差函数值以及视频特征误差值不再下降。

其中，在条件1)中，为了节省运算量，可以设置迭代次数的最大值，如果迭代次数达到设定次数，可以停止本迭代周期的迭代，将最后得到的生成网络作为姿态动作生成模型。在条件2)中，如果误差函数值以及视频特征误差值低于设定阈值，说明当前的姿态动作生成模型已经基本可以满足条件，此时可以停止迭代。在条件3)中，误差函数值以及视频特征误差值不再下降，表明已经形成了最佳的姿态动作生成模型，可以停止迭代。

需要说明的是，上述迭代停止条件可以结合使用，也可以择一使用，例如，可以在误差函数值不再下降停止迭代，或者，在迭代次数达到设定次数时停止迭代，或者，在误差函数值以及视频特征误差值不再下降时停止迭代。或者，还可以在误差函数值以及视频特征误差值低于设定阈值，并且误差函数值以及视频特征误差值不再下降时，停止迭代。

此外，在实际实施过程中，也可以不限于采用上述示例作为训练终止条件，本领域技术人员可以根据实际需求设计与上述示例不同的训练终止条件。

若判定生成网络满足训练终止条件时，则执行：

子步骤S1036，输出训练得到的姿态动作生成模型。

若判定生成网络不满足训练终止条件时，则返回上述子步骤S1031继续训练，直到判定生成网络满足训练终止条件时，输出训练得到的姿态动作生成模型。

在上述过程中，为了增强目标主播视频中相邻视频帧之间的时间连贯性，可选地，在子步骤S1031中，本实施例具体可以通过生成网络将源动作视频样本中第一帧中的源人物的姿态动作简笔画迁移到目标主播的姿态动作简笔画的第一帧中的目标主播的各个关节上，生成第一帧主播视频帧。

在此基础上，对于第一帧主播视频帧之后的每一帧目标主播视频帧，根据该帧目标主播视频帧对应帧的源人物的姿态动作简笔画和相邻的上一帧主播视频帧，生成该帧目标主播视频帧，以生成包括多帧主播视频帧的目标主播视频。

例如，假设源人物的姿态动作简笔画包括x(1)、x(2)、x(3)、......、x(t-1)、x(t)、......，那么可以通过生成网络将x(1)迁移到目标主播的姿态动作简笔画的第一帧中的目标主播的各个关节上，生成第一帧主播视频帧G(1)。在此基础上，生成网络可以根据x(2)以及第一帧主播视频帧G(1)生成第二帧主播视频帧G(2)。以此类推，对于第t帧主播视频帧G(t)，生成网络可以根据x(t)和G(t-1)生成。如此，可以获得时间平滑输出的目标主播视频，增强目标主播视频中相邻视频帧之间的时间连贯性。

相对应地，前述的误差判别结果还可以包括目标主播视频中每相邻两帧视频帧和目标主播的姿态动作简笔画中与该相邻两帧视频帧对应的姿态动作帧之间的第三误差结果以及目标主播视频样本中每相邻两帧视频帧和目标主播的姿态动作简笔画中与该相邻两帧视频帧对应的姿态动作帧之间的第四误差结果。如此，可以使得生成网络在学习源人物的姿态动作简笔画到目标主播视频样本中的目标主播的各个关节上的过程中可以学习每相邻两帧视频帧之间的时间连贯的姿态动作简笔画，对抗判别网络可以学习区分目标主播视频中每相邻两帧视频帧和目标主播的姿态动作简笔画中与该相邻两帧视频帧对应的姿态动作帧，以及学习区分目标主播视频样本中每相邻两帧视频帧和目标主播的姿态动作简笔画中与该相邻两帧视频帧对应的姿态动作帧。

基于上述步骤得到的姿态动作生成模型可以将源人物的才艺赋能到主播身上，使得才艺有限的主播也能够为观众提供近乎真实的才艺表演，从而提高直播过程中的观众活跃度，增加观看吸引力，更大程度上地调动观众与主播的互动。

在一种实际应用场景中，可以将生成的迁移了源人物的姿态动作的直播视频通过直播服务器200发送给直播接收终端300进行播放，这样观众所看到的直播界面中即可播放该目标主播执行源人物的姿态动作的直播视频。

此外，在另一种实际应用场景中，还可以根据生成的直播视频控制直播提供终端100的直播界面中的虚拟形象执行对应的互动动作，以生成虚拟形象的互动视频流，并通过直播服务器200将虚拟形象的互动视频流发送给直播接收终端300进行播放。

值得说明的是，主播可以在直播过程中选择不同待迁移动作的源动作视频从而为观众提供不同的直播视频。例如，当观众希望主播跳一段爵士舞时，主播可以选择一段爵士舞表演的源动作视频进行源人物的姿态动作的迁移。又例如，当观众希望主播跳一段机械舞时，主播可以选择一段机械舞表演的源动作视频进行源人物的姿态动作的迁移。

图7示出了本申请实施例提供的图1中所示的直播提供终端100的示例性组件示意图，直播提供终端100可包括存储介质110、处理器120以及直播视频处理装置500。本实施例中，存储介质110与处理器120均位于直播提供终端100中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于直播提供终端100之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

直播视频处理装置500可以理解为上述直播提供终端100，或直播提供终端100的处理器120，也可以理解为独立于上述直播提供终端100或处理器120之外的在直播提供终端100控制下实现上述直播视频处理方法的软件功能模块。如图7所示，该直播视频处理装置500可以包括获取模块510、提取模块520、迁移模块530以及生成模块540，下面分别对该直播视频处理装置500的各个功能模块的功能进行详细阐述。

获取模块510，用于获取待迁移动作的源动作视频。可以理解，该获取模块510可以用于执行上述步骤S110，关于该获取模块510的详细实现方式可以参照上述对步骤S110有关的内容。

提取模块520，用于通过姿态检测网络从所述源动作视频中提取源人物的姿态动作简笔画。可以理解，该提取模块520可以用于执行上述步骤S120，关于该提取模块520的详细实现方式可以参照上述对步骤S120有关的内容。

迁移模块530，用于通过归一化过程将所述姿态动作简笔画迁移到目标主播的各个关节上，以创建所述目标主播对应的姿态动作简笔画。可以理解，该迁移模块530可以用于执行上述步骤S130，关于该迁移模块530的详细实现方式可以参照上述对步骤S130有关的内容。

生成模块540，用于将所述目标主播对应的姿态动作简笔画输入到预先训练的姿态动作生成模型中，生成所述目标主播按照所述姿态动作简笔画执行对应的姿态动作的直播视频。可以理解，该生成模块540可以用于执行上述步骤S140，关于该生成模块540的详细实现方式可以参照上述对步骤S140有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的直播视频处理方法。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种直播视频处理方法，其特征在于，应用于直播提供终端，所述方法包括：

获取待迁移动作的源动作视频；

2.根据权利要求1所述的直播视频处理方法，其特征在于，所述方法还包括：

获取训练样本，所述训练样本包括源动作视频样本和目标主播视频样本；

通过所述姿态检测网络从所述目标主播视频样本中提取目标主播的姿态动作简笔画；

根据所述目标主播的姿态动作简笔画和所述源动作视频样本对预先建立的生成网络和对抗判别网络进行训练，得到所述姿态动作生成模型。

3.根据权利要求2所述的直播视频处理方法，其特征在于，所述根据所述目标主播的姿态动作简笔画和所述源动作视频样本对预先建立的生成网络和对抗判别网络进行训练，得到所述姿态动作生成模型的步骤，包括：

通过所述生成网络将所述源动作视频样本中源人物的姿态动作简笔画迁移到所述目标主播的姿态动作简笔画中的目标主播的各个关节上，生成所述目标主播按照所述源人物的姿态动作简笔画执行对应的姿态动作的目标主播视频；

通过预先建立的对抗判别网络对所述目标主播视频样本、所述目标主播视频以及所述目标主播的姿态动作简笔画进行误差判别；

通过预先建立的视频特征提取网络分别提取所述目标主播视频样本的第一视频特征和所述目标主播视频的第二视频特征，并计算所述第一视频特征和所述第二视频特征之间的视频特征误差值；

根据误差判别结果和所述视频特征误差值分别调整所述生成网络和所述对抗判别网络的网络参数，并返回通过所述生成网络将所述源动作视频样本中源人物的姿态动作简笔画迁移到所述目标主播的姿态动作简笔画中的目标主播的各个关节上的步骤，直到所述生成网络满足训练终止条件后，输出训练得到的姿态动作生成模型。

4.根据权利要求3所述的直播视频处理方法，其特征在于，所述误差判别结果包括所述目标主播视频中每帧视频帧和所述目标主播的姿态动作简笔画中对应的姿态动作帧之间的第一误差结果以及所述目标主播视频样本中每帧视频帧与所述目标主播的姿态动作简笔画中对应的姿态动作帧之间的第二误差结果。

5.根据权利要求3所述的直播视频处理方法，其特征在于，所述通过所述生成网络将所述源动作视频样本中源人物的姿态动作简笔画迁移到所述目标主播的姿态动作简笔画中的目标主播的各个关节上，生成所述目标主播按照所述源人物的姿态动作简笔画执行对应的姿态动作的目标主播视频的步骤，包括：

通过所述生成网络将所述源动作视频样本中第一帧中的源人物的姿态动作简笔画迁移到所述目标主播的姿态动作简笔画的第一帧中的目标主播的各个关节上，生成第一帧主播视频帧；

对于所述第一帧主播视频帧之后的每一帧目标主播视频帧，根据该帧目标主播视频帧对应帧的源人物的姿态动作简笔画和相邻的上一帧主播视频帧，生成该帧目标主播视频帧，以生成包括多帧主播视频帧的目标主播视频。

6.根据权利要求4或5所述的直播视频处理方法，其特征在于，所述误差判别结果还包括所述目标主播视频中每相邻两帧视频帧和所述目标主播的姿态动作简笔画中与该相邻两帧视频帧对应的姿态动作帧之间的第三误差结果以及所述目标主播视频样本中每相邻两帧视频帧和所述目标主播的姿态动作简笔画中与该相邻两帧视频帧对应的姿态动作帧之间的第四误差结果。

7.根据权利要求2所述的直播视频处理方法，其特征在于，所述目标主播的姿态动作简笔画包括所述目标主播的各个肢体关键特征点的肢体姿态动作简笔画以及所述目标主播的各个脸部关键特征点的脸部姿态动作简笔画。

8.根据权利要求1所述的直播视频处理方法，其特征在于，所述方法还包括：

将生成的所述直播视频通过直播服务器发送给直播接收终端进行播放。

9.根据权利要求1所述的直播视频处理方法，其特征在于，所述方法还包括：

根据生成的所述直播视频控制所述直播提供终端的直播界面中的虚拟形象执行对应的互动动作，以生成所述虚拟形象的互动视频流，并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放。

10.一种直播视频处理装置，其特征在于，应用于直播提供终端，所述装置包括：

获取模块，用于获取待迁移动作的源动作视频；

11.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-9中任意一项所述的直播视频处理方法。

12.一种可读存储介质，其特征在于，所述可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-9中任意一项所述的直播视频处理方法。