CN110139115B

CN110139115B - 基于关键点的虚拟形象姿态控制方法、装置及电子设备

Info

Publication number: CN110139115B
Application number: CN201910395722.4A
Authority: CN
Inventors: 林哲; 王文斓
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2020-06-09
Anticipated expiration: 2039-04-30
Also published as: CN110139115A

Abstract

本申请实施例提供一种基于关键点的虚拟形象姿态控制方法、装置及电子设备，通过对视频采集设备采集到的主播视频帧进行图像分析，得到主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息。然后，根据每个肢体关键点的位置信息，计算得到主播各肢体部位的姿态信息。最后，根据主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。如此，通过分析主播的各个肢体关键点的位置信息从而得到各个肢体部位准确的姿态，进而根据主播的姿态控制虚拟形象执行相应姿态动作，实现虚拟形象与主播姿态动作的随动，提高直播过程中的互动效果。

Description

基于关键点的虚拟形象姿态控制方法、装置及电子设备

技术领域

本申请涉及互联网直播领域，具体而言，涉及一种基于关键点的虚拟形象控制方法、装置及电子设备。

背景技术

为了丰富主播与观众之间的互动形式，目前在网络直播过程中可以通过虚拟形象代替真实主播与观众进行互动。目前，大多数基于虚拟形象的直播方法，虚拟形象大多是基于主播的简易操作，控制虚拟形象单纯演示特定的简单动作。虚拟形象的姿态动作难以跟随主播的实际姿态动作，导致虚拟形象的表现形式单一，互动效果不佳。

发明内容

有鉴于此，本申请实施例的目的在于提供一种基于关键点的虚拟形象姿态控制方法、装置及电子设备，以解决或者改善上述问题。

根据本申请实施例的一个方面，提供一种基于关键点的虚拟形象姿态控制方法，应用于直播提供终端，所述方法包括：

对视频采集设备采集到的主播视频帧进行图像分析，得到该主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息；

根据每个所述肢体关键点的位置信息，计算得到所述主播各肢体部位的姿态信息；

根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。

根据本申请实施例的另一方面，提供一种基于关键点的虚拟形象姿态控制装置，应用于直播提供终端，所述装置包括：

分析模块，用于对视频采集设备采集到的主播视频帧进行图像分析，得到该主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息；

计算模块，用于根据每个所述肢体关键点的位置信息，计算得到所述主播各肢体部位的姿态信息；

控制模块，用于根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。

根据本申请实施例的另一方面，提供一种电子设备，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行上述的基于关键点的虚拟形象姿态控制方法。

根据本申请实施例的另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现上述的基于关键点的虚拟形象姿态控制方法。

基于上述任一方面，本申请实施例通过对视频采集设备采集到的主播视频帧进行图像分析，得到主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息。然后根据每个肢体关键点的位置信息，计算得到主播各肢体部位的姿态信息。最后，根据主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。如此，通过分析主播的各个肢体关键点的位置信息从而得到各个肢体部位准确的姿态，进而根据主播的姿态控制虚拟形象执行相应姿态动作，使得虚拟形象尽量逼真的还原主播的姿态动作，提高直播过程中的互动效果。

为使本申请实施例的上述目的、特征和优点能更明显易懂，下面将结合实施例，并配合所附附图，作详细说明。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的直播系统的示意图。

图2为本申请实施例提供的基于关键点的虚拟形象姿态控制方法的流程图。

图3为图2中步骤220的子步骤的流程图。

图4为本申请实施例提供的肢体关键点分布示意图。

图5为图2中步骤220的子步骤的另一流程图。

图6为本申请实施例提供的电子设备的示例性组件示意图。

图7为本申请实施例提供的基于关键点的虚拟形象姿态控制装置的功能模块框图。

图标：10-直播系统；100-直播提供终端；110-存储介质；120-处理器；130-基于关键点的虚拟形象姿态控制装置；131-分析模块；132-计算模块；133-控制模块；200-直播服务器；300-直播接收终端；400-视频采集设备。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。另外，应当理解，示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1所示为本申请实施例提供的直播系统10的示意图，其中，该直播系统10可以是用于实现互联网直播的服务平台。该直播系统10可以包括直播提供终端100、直播服务器200、直播接收终端300。直播服务器200分别与直播提供终端100和直播接收终端300通信连接，用于为直播提供终端100以及直播接收终端300提供直播服务。例如，直播提供终端100可以将直播视频流发送给直播服务器200，观众可以通过直播接收终端300访问直播服务器200以观看直播视频。其中，直播服务器200推送的直播视频流可以是当前正在直播平台中直播的视频流或者直播完成后形成的完整视频流。可以理解，图1所示的直播系统10仅为一种可行的示例，在其它可行的实施例中，该直播系统10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。

在一些实施场景中，直播提供终端100和直播接收终端300可以互换使用。例如，直播提供终端100的主播可以使用直播提供终端100来为观众提供直播视频服务，或者作为观众查看其它主播提供的直播视频。又例如，直播接收终端300的观众也可以使用直播接收终端300观看所关注的主播提供的直播视频，或者作为主播为其它观众提供直播视频服务。

本实施例中，直播提供终端100和直播接收终端300可以是，但不限于，智能手机、个人数字助理、平板电脑、个人计算机、笔记本电脑、虚拟现实终端设备、增强现实终端设备等。其中，直播提供终端100和直播接收终端300中可以安装用于提供互联网直播服务的互联网产品，例如，互联网产品可以是计算机或智能手机中使用的与互联网直播服务相关的应用程序APP、Web网页、小程序等。

本实施例中，直播系统10还可以包括用于采集主播视频帧的视频采集设备400，视频采集设备400可以是，但不限于摄像头、数码照相机的镜头、监控摄像头或者网络摄像头等。视频采集设备400可以直接安装或集成于直播提供终端100。例如，视频采集设备400可以是配置在直播提供终端100上的摄像头，直播提供终端100中的其他模块或组件可以经由内部总线接收从视频采集设备400处发送的视频、图像。或者，视频采集设备400也可以独立于直播提供终端100，两者之间通过有线或无线的方式进行通信。

图2示出了本申请实施例提供的基于关键点的虚拟形象姿态控制方法的流程示意图，该控制方法可由图1中所示的直播提供终端100执行。应当理解，在其它实施例中，本实施例的控制方法其中部分步骤的顺序可以根据实际需要相互交换，或者其中的部分步骤也可以省略或删除。该控制方法的详细步骤介绍如下。

步骤210，对视频采集设备400采集到的主播视频帧进行图像分析，得到该主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息。

步骤220，根据每个所述肢体关键点的位置信息，计算得到所述主播各肢体部位的姿态信息。

步骤230，根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。

本实施例中，在步骤210中，可通过视频采集设备400采集主播在直播过程中的主播视频帧，该主播视频帧包含主播图像。可将采集到的主播视频帧导入至预先训练得到的关键点识别模型进行图像分析，以对主播的肢体关键点进行识别。其中，该关键点识别模型根据预先获取的主播的样本图像通过神经网络模型进行训练而得到。具体地，关键点识别模型可通过以下方式获得。

首先，获取包含主播的样本图像，该样本图像可为包含多张图像的图像集。其中，样本图像中包含的主播图像并不限定于某个特定对象，可以是包含任意主播图像的样本图像。例如，可以预先采集包含不同姿态动作的主播图像作为样本图像，例如翘脚动作、举手动作、双手比心动作等。其中，每张样本图像中标记有主播的各个肢体关键点的位置信息。肢体关键点可以是，但不限于头部关键点、颈部关键点、左/右肩关键点、左/右肘关键点、左/右腕关键点、左/右臀关键点、左/右膝关键点、左/右踝关键点等，此处并非穷举。

本实施例中，可以根据样本图像中各个肢体关键点在样本图像中的位置信息生成该肢体关键点的对比热点图。例如，可首先生成一张空白的热点图，该热点图可为与样本图像具有相同的长、宽的图像。根据肢体关键点的位置信息，找到热点图中具有相应位置的像素点，对该像素点的点信息进行设置，例如可以将该像素点的像素颜色深度设置为相对最深值，或者是对该像素点设置相应的标签。其中，该像素点的点信息则表示上述肢体关键点对应为该像素点的概率值，即肢体关键点与像素点之间存在映射关系，各个像素点的点信息则表示肢体关键点映射为对应像素点的相对概率值。

在此基础上，可以该像素点为圆心、以放射状向外延伸的方式，对延伸方向上的各个像素点的点信息进行设置，例如将延伸方向上的像素点的像素颜色深度逐渐变浅，或者按预设变化规则对延伸方向上的像素点的标签进行设置，从而生成上述肢体关键点的对比热点图。

需要说明的是，上述对各像素点的点信息的设置方式仅为举例说明，并不进行限制，只要能够体现出肢体关键点对应为各像素点的概率值即可。

本实施例中，还可将得到的样本图像导入至构建的神经网络模型进行训练，可选地，构建的神经网络模型可以采用，但不限于卷积神经网络模型(Convolutional NeuralNetwork,CNN)。利用神经网络模型可输出样本图像中各个肢体关键点的预测热点图。

可选地，本实施例中构建的神经网络模型可包括输入层、多层卷积层级多层反卷积层。将样本图像导入至构建的神经网络模型进行训练，具体可以通过以下方式实现。

通过输入层对导入的样本图像进行预处理得到预处理图像。利用多层卷积层对输出的预处理图像进行下采样及特征提取操作，输出预处理图像的多维特征图。然后再通过多层反卷积层对得到的多维特征图进行上采样操作，得到样本图像中各个肢体关键点的热点图。

针对每一个肢体关键点，可将上述直接根据样本图像中肢体关键点的位置信息生成的对比热点图以及通过神经网络模型输出的肢体关键点的预测热点图进行比对，计算肢体关键点的对比热点图和预测热点图之间的损失函数值。

根据得到的损失函数值对神经网络模型的参数进行调整，对调整后的神经网络模型继续训练，直至得到的损失函数值满足预设条件时停止训练，得到基于神经网络模型的关键点识别模型。其中，预设条件可以是训练迭代次数达到预设的最大迭代次数，也可以是得到的损失函数值低于预设阈值，也可以是得到的损失函数值不再下降。预设条件可以是上述条件中的至少一种，具体地可根据需求进行设置。

通过以上对神经网络模型的训练得到可用于对肢体关键点进行识别的关键点识别模型。在此基础上，可将视频采集设备400采集到的主播视频帧导入至训练得到的关键点识别模型中进行识别，以输出主播视频帧中的主播的各个肢体关键点对应的热点图。本实施例中，根据神经网络模型训练得到的关键点识别模型相应地也包括输入层、多层卷积层级多层反卷积层，关键点识别模型可通过以下方式得到主播视频帧的主播的各个肢体关键点对应的热点图：

通过关键点识别模型中的输入层对导入的视频采集设备400采集到的主播视频帧进行预处理得到预处理图像。再利用关键点识别模型中的多层卷积层对主播视频帧对应的预处理图像进行下采样及特征提取操作，输出预处理图像的多维特征图。最后，通过多层反卷积层对主播视频帧对应的多维特征图进行上采样操作，得到主播视频帧中的主播的各个肢体关键点对应的热点图。

其中，输出的热点图中的各个像素点的点信息表示肢体关键点对应为各像素点的概率值。

例如，在热点图中，像素点的像素颜色深度越深，则表明肢体关键点对应为该像素点的概率值越大，而像素点的像素颜色深度越浅，则表示肢体关键点对应为该像素点的概率值越小。又如，可依照预设的标签设置规则，根据各个像素点的标签信息得到肢体关键点对应为各个像素点的概率值。

针对主播视频帧中主播的各个肢体关键点，可获得该肢体关键点对应为热点图中各个像素点的概率值中的最大概率值。再获得该最大概率值对应的像素点。而各个像素点在热点图中均具有相应的位置，因此，可获得该最大概率值对应的像素点在热点图中的位置信息，根据该像素点在热点图中的位置信息获得相应的肢体关键点的位置信息。

本实施例中计算主播的各个肢体关键点的位置信息，其目的是对直播界面上的虚拟形象进行控制，以实现虚拟形象与主播之间的动作联动，实现动作跟随。考虑到采集到的主播视频帧的图像大小与直播界面上虚拟形象所在的界面的大小并不一定相同，并且主播视频帧中主播所处的位置与直播界面上虚拟形象所处的位置也可能不相同，因此，直接以主播的各个肢体关键点的位置信息对虚拟形象进行控制可能存在控制困难或控制不准确的问题。

基于上述内容，在步骤220和步骤230中，可根据主播的各个肢体关键点的位置信息得到主播各肢体部位的姿态信息，再根据各个肢体部位的姿态信息对虚拟形象的姿态进行控制。基于对主播的肢体关键点的位置计算，可以准确识别主播的动作，再基于姿态信息对虚拟形象进行控制。如此，在解决了主播的肢体关键点的位置信息与虚拟形象的肢体关键点的位置信息难以统一标准的问题的同时，实现了虚拟形象的姿态动作准确跟随主播姿态的目的。

可选地，本实施例中，主播包含的肢体部位可以是，但不限于手臂、腿部、头部、躯干部等。可以根据每个肢体部位的肢体关键点的位置信息得到该肢体部位的姿态信息。

可根据属于同一肢体部位的肢体关键点的位置信息得到该肢体部位的姿态信息。例如，肢体关键点中手肘、手腕、肩部同属于肢体部位手臂，则可根据手肘、手腕及肩部的位置信息得到手臂的姿态信息。

主播的肢体部位的姿态信息可以是，但不限于手臂弯曲、手臂垂放、腿部弯曲、腿部直立等。

请结合参阅图3，作为一种可能的实施方式，可以通过以下步骤获得肢体部位的姿态信息：

步骤310，针对每个肢体部位的处于两个肢体关键点中间的肢体关键点，获得该肢体关键点的相邻两个肢体关键点。

步骤320，分别连接所述肢体关键点及相邻两个肢体关键点得到第一连线和第二连线。

步骤330，计算所述第一连线和所述第二连线之间的夹角，根据所述夹角得到所述肢体部位的姿态信息。

针对属于同一个肢体部位的多个肢体关键点，获得该多个肢体关键点中处于两个肢体关键点中间的肢体关键点，并获得该肢体关键点的两个相邻的肢体关键点。将该肢体关键点分别与该两个相邻肢体关键点连接，得到第一连线及第二连线。再计算第一连线和第二连线之间形成的夹角大小，根据夹角大小即可确定对应的肢体部位的姿态信息。

例如，图4中示出的关键点0-17表示主播的各个肢体关键点。针对图4中所示，其中，肢体关键点2、3、4分别表示肢体部位手臂上的肩部关键点、手腕关键点及手肘关键点。其中，手肘关键点3处于肩部关键点2和手腕关键点4之间，可连接手肘关键点3和手腕关键点4得到连线3-4，并连接手肘关键点3以及肩部关键点2得到连线3-2。再计算连线3-4与连线3-2之间的夹角大小，根据两者之间的夹角大小确定该手臂的姿态。例如，若连线3-4与连线3-2之间的夹角为180度，则可确定该手臂处于垂放状态，若连线3-4与连线3-2之间的夹角为90度，则可确定该手臂处于弯曲状态。

其中，上述对于连线间的夹角大小与姿态之间的对应关系仅为举例说明，并不限定于此，在具体实施时，可根据实际需求设计对应的连线夹角大小与姿态的对应关系。

请结合参阅图5，作为另一种实施方式，在本实施例中，还可通过以下方式确定主播的各个肢体部位的姿态信息：

步骤510，针对每个所述肢体部位的各个肢体关键点，根据所述肢体关键点的位置信息与预设方向轴的原点的位置信息获得所述肢体关键点与所述预设方向轴之间的方位角度。

步骤520，根据所述肢体部位的各个肢体关键点与所述预设方向轴之间的方位角度获得该肢体部位的姿态信息。

针对每个肢体部位的各个肢体关键点，即属于同一个肢体部位的各个肢体关键点，可获得该肢体关键点的位置信息，再获得基于主播视频帧所设置的预设方向轴的原点的位置信息。其中，该预设方向轴可以是基于主播视频帧所建立的任意方向的方向轴，例如水平方向轴、竖直方向轴，或者是在水平方向轴基础上旋转一定角度的旋转方向轴等等。

针对属于同一个肢体部位的各个肢体关键点，根据各个肢体关键点的位置信息以及预设方向轴的原点的位置信息，获得对应肢体关键点与该预设方向轴之间的方位角度。可选地，在确定肢体关键点的位置信息以及预设方向轴的原点的位置信息之后，可连接肢体关键点及原点，再计算两者之间的连线与预设方向轴之间的夹角大小，以该夹角大小表示肢体关键点相对于预设方向轴的方位角度。

在上述基础上，根据肢体部位的各个肢体关键点与预设方向轴之间的方位角度获得该肢体部位的姿态信息。例如，以图4中所示的肢体部位手臂包含的肩部关键点2、手肘关键点3、手腕关键点4为例进行说明。假设建立的预设方向轴为水平方向轴，其原点的坐标位于图4的左下角边缘处。在分别确定肩部关键点2、手肘关键点3、手腕关键点4以及预设方向轴的原点的位置信息之后，分别连接肩部关键点2和原点、手肘关键点3和原点、手腕关键点4和原点。再根据三个关键点分别与原点之间的连线，得到连线与预设方向轴之间的夹角，即各个关键点相对于预设方向轴的方位角度。根据得到的方位角度确定该手臂的姿态信息。

例如，假设若手臂处于向外弯曲状态，则手腕关键点4相对于预设方向轴的方位角度应大于手肘关键点3相对于预设方向轴的方位角度。反之，若手臂处于垂放状态，则手腕关键点4相对于预设方向轴的方位角度应小于手肘关键点3相对于预设方向轴的方位角度。

此外，在本实施例中，在一些直播场景下，还可检测主播的各个肢体部位的姿态动作是否标准，在姿态动作不标准时进行提示以进行纠正。

可选地，直播提供终端100中可预存多个姿态模板，每个姿态模板中包含各个肢体部位的姿态信息，将主播的各个肢体部位的姿态信息与预存的各个姿态模板包含的姿态信息进行比对。若主播的各个肢体部位的姿态信息与多个姿态模板中的其中一个姿态模板包含的姿态信息匹配，则确定主播的姿态标准。若主播的各个肢体部位的姿态信息与预存的多个姿态模板中的任意一个姿态模板包含的姿态信息不匹配，则确定主播的姿态不标准，可输出姿态调整提示信息以提示主播调整姿态动作。

例如，在跳舞游戏直播场景下，姿态模板可以是某个跳舞动作的各个肢体部位的姿态信息，如左手臂垂放、右手臂弯曲、左腿外翘、右腿直立等。主播的各个肢体部位的姿态信息均符合姿态模板中对应肢体部位的姿态信息时，可确定主播的姿态动作符合标准，否则可在直播界面上跳出姿态提示信息以提示主播调整姿态。如此，可在主播直播过程中，对主播姿态进行调整提示，提升直播效果。

在本实施例中，在根据视频采集设备400所采集到的主播视频帧中的主播的姿态动作对直播界面上的虚拟形象的姿态动作进行控制后，直播界面上的虚拟形象将跟随主播的姿态动作进行随动，以在直播提供终端100形成互动视频流。直播提供终端100可通过直播服务器200将互动视频流发送至直播接收终端300进行播放。其中，直播提供终端100可实时地通过直播服务器200将互动视频流推送至直播接收终端300，也可以是在一段直播完成之后，将该段时间内完整的互动视频流通过直播服务器200推送至直播接收终端300。具体形式在本实施例中不作限制。

请参阅图6，为本申请实施例提供的电子设备的示例性组件示意图，该电子设备可为图1中所示的直播提供终端100，直播提供终端100可包括存储介质110、处理器120以及基于关键点的虚拟形象姿态控制装置130。本实施例中，存储介质110与处理器120均位于直播提供终端100中且二者分离设置。然而，应当理解的是，存储介质110也可以是独立于直播提供终端100之外，且可以由处理器120通过总线接口来访问。可替换地，存储介质110也可以集成到处理器120中，例如，可以是高速缓存和/或通用寄存器。

基于关键点的虚拟形象姿态控制装置130可以理解为上述直播提供终端100，或直播提供终端100的处理器120，也可以理解为独立于上述直播提供终端100或处理器120之外的在直播提供终端100控制下实现上述基于关键点的虚拟形象姿态控制方法的软件功能模块。

如图7所示，上述基于关键点的虚拟形象姿态控制装置130可以包括分析模块131、计算模块132以及控制模块133，下面分别对该基于关键点的虚拟形象姿态控制装置130的各个功能模块的功能进行详细阐述。

分析模块131，用于对视频采集设备400采集到的主播视频帧进行图像分析，得到该主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息。可以理解，该分析模块131可以用于执行上述步骤210，关于该分析模块131的详细实现方式可以参照上述对步骤210有关的内容。

计算模块132，用于根据每个所述肢体关键点的位置信息，计算得到所述主播各肢体部位的姿态信息。可以理解，该计算模块132可以用于执行上述步骤220，关于该计算模块132的详细实现方式可以参照上述对步骤220有关的内容。

控制模块133，用于根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。可以理解，该控制模块133可以用于执行上述步骤230，关于该控制模块133的详细实现方式可以参照上述对步骤230有关的内容。

进一步地，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有机器可执行指令，机器可执行指令被执行时实现上述实施例提供的基于关键点的虚拟形象姿态控制方法。

综上所述，本申请实施例提供的基于关键点的虚拟形象姿态控制方法、装置及电子设备，通过对视频采集设备400采集到的主播视频帧进行图像分析，得到主播视频帧中主播的多个肢体关键点及各个肢体关键点的位置信息。然后，根据每个肢体关键点的位置信息，计算得到主播各肢体部位的姿态信息。最后，根据主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作。如此，通过分析主播的各个肢体关键点的位置信息从而得到各个肢体部位准确的姿态，进而根据主播的姿态控制虚拟形象执行相应姿态动作，实现虚拟形象与主播姿态动作的随动，提高直播过程中的互动效果。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于关键点的虚拟形象姿态控制方法，其特征在于，应用于直播提供终端，所述方法包括：

根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作；

其中，所述根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作的步骤，包括：

比对所述主播的各个肢体部位的姿态信息与直播画面中展示的虚拟形象当前的对应肢体部位的姿态信息，生成针对所述虚拟形象的各个肢体部位的姿态控制信息，基于所述虚拟形象的各个肢体部位的姿态控制信息控制所述虚拟形象的对应肢体部位的各个肢体关键点执行相应动作；

所述直播提供终端中预存有多个姿态模板，所述方法还包括：

将所述主播的各个肢体部位的姿态信息与预存的各个姿态模板包含的姿态信息进行比对以判断所述主播的姿态是否标准。

2.根据权利要求1所述的基于关键点的虚拟形象姿态控制方法，其特征在于，所述对视频采集设备采集到的主播视频帧进行图像分析，得到该主播视频帧中主播的多个肢体关键点及各肢体关键点的位置信息的步骤，包括：

将视频采集设备采集到的主播视频帧导入至预先训练得到的关键点识别模型中进行识别，输出所述主播视频帧中的主播的各个肢体关键点对应的热点图，其中，所述热点图中的各个像素点的点信息表示所述肢体关键点对应为各所述像素点的概率值；

针对各所述肢体关键点，获得该肢体关键点对应为所述热点图中的各个像素点的概率值中的最大概率值；

获得所述最大概率值对应的像素点，并根据该像素点在所述热点图中的位置信息获得所述肢体关键点的位置信息。

3.根据权利要求2所述的基于关键点的虚拟形象姿态控制方法，其特征在于，所述关键点识别模型根据预先获取的主播的样本图像通过神经网络模型进行训练而得到。

4.根据权利要求2所述的基于关键点的虚拟形象姿态控制方法，其特征在于，所述关键点识别模型包括输入层、多层卷积层及多层反卷积层，所述将视频采集设备采集到的主播视频帧导入至预先训练得到的关键点识别模型中进行识别，输出所述主播视频帧中的主播的各个肢体关键点对应的热点图的步骤，包括：

通过所述输入层对导入的视频采集设备采集到的主播视频帧进行预处理得到预处理图像；

利用所述多层卷积层对所述预处理图像进行下采样及特征提取操作，输出所述预处理图像的多维特征图；

通过所述多层反卷积层对所述多维特征图进行上采样操作，得到所述主播视频帧中的主播的各个肢体关键点对应的热点图。

5.根据权利要求1所述的基于关键点的虚拟形象姿态控制方法，其特征在于，每个所述肢体部位包括多个肢体关键点；

所述根据每个所述肢体关键点的位置信息，计算得到所述主播各肢体部位的姿态信息的步骤，包括：

针对每个肢体部位的处于两个肢体关键点中间的肢体关键点，获得该肢体关键点的相邻两个肢体关键点；

分别连接所述肢体关键点及相邻两个肢体关键点得到第一连线和第二连线；

计算所述第一连线和所述第二连线之间的夹角，根据所述夹角得到所述肢体部位的姿态信息。

6.根据权利要求1所述的基于关键点的虚拟形象姿态控制方法，其特征在于，每个所述肢体部位包括多个肢体关键点；

针对每个所述肢体部位的各个肢体关键点，根据所述肢体关键点的位置信息与预设方向轴的原点的位置信息获得所述肢体关键点与所述预设方向轴之间的方位角度；

根据所述肢体部位的各个肢体关键点与所述预设方向轴之间的方位角度获得该肢体部位的姿态信息。

7.根据权利要求1所述的基于关键点的虚拟形象姿态控制方法，其特征在于，所述方法还包括：

将所述主播的各个肢体部位的姿态信息与预存的各个姿态模板包含的姿态信息进行比对；

若所述主播的各个肢体部位的姿态信息与所述多个姿态模板中的其中一个姿态模板包含的姿态信息匹配，则确定所述主播的姿态标准；

若所述主播的各个肢体部位的姿态信息与所述多个姿态模板中的任意一个姿态模板包含的姿态信息不匹配，则确定所述主播的姿态不标准，输出姿态调整提示信息以提示所述主播调整姿态动作。

8.根据权利要求1-7任意一项所述的基于关键点的虚拟形象姿态控制方法，其特征在于，所述方法还包括：

根据所述虚拟形象的动作生成所述虚拟形象的互动视频流，将所述互动视频流通过直播服务器发送至直播接收终端进行播放。

9.一种基于关键点的虚拟形象姿态控制装置，其特征在于，应用于直播提供终端，所述装置包括：

控制模块，用于根据所述主播各肢体部位的姿态信息控制直播画面中展示的虚拟形象执行相应的姿态动作；

其中，所述控制模块用于比对所述主播的各个肢体部位的姿态信息与直播画面中展示的虚拟形象当前的对应肢体部位的姿态信息，生成针对所述虚拟形象的各个肢体部位的姿态控制信息，基于所述虚拟形象的各个肢体部位的姿态控制信息控制所述虚拟形象的对应肢体部位的各个肢体关键点执行相应动作；

所述直播提供终端中预存有多个姿态模板，所述控制模块还用于：

10.一种电子设备，其特征在于，包括一个或多个存储介质和一个或多个与存储介质通信的处理器，一个或多个存储介质存储有处理器可执行的机器可执行指令，当电子设备运行时，处理器执行所述机器可执行指令，以执行权利要求1-8中任意一项所述的基于关键点的虚拟形象姿态控制方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有机器可执行指令，所述机器可执行指令被执行时实现权利要求1-8中任意一项所述的基于关键点的虚拟形象姿态控制方法。