CN108712661B

CN108712661B - 一种直播视频处理方法、装置、设备及存储介质

Info

Publication number: CN108712661B
Application number: CN201810520566.5A
Authority: CN
Inventors: 徐子豪; 蔡青峰
Original assignee: Guangzhou Huya Information Technology Co Ltd
Current assignee: Guangzhou Huya Information Technology Co Ltd
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2022-02-25
Anticipated expiration: 2038-05-28
Also published as: CN108712661A

Abstract

本发明公开了一种直播视频处理方法、装置、设备及存储介质。该方法包括：从直播视频流中识别出与设定直播场景关联的第一视频流片段，直播场景包括直播对象完成预设肢体动作的场景；检测第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹；根据预设肢体动作和运动轨迹按照预设特效处理方式对第一视频流片段进行特效合成，得到第二视频流片段。通过从直播视频流中识别出与设定直播场景关联的第一视频流片段，进而根据由检测到的预设肢体动作及其运动轨迹所确定预设特效处理方式对第一视频流片段进行特效合成，解决现有的直播视频表现形式单一和观赏体验差的问题，达到优化特效视频的生成方式，提高了特效视频的合成效率以及实时性。

Description

一种直播视频处理方法、装置、设备及存储介质

技术领域

本发明实施例涉及直播技术，尤其涉及一种直播视频处理方法、装置、设备及存储介质。

背景技术

网络直播平台不论是直接向用户推送实时直播视频，还是推送已直播视频或者实时直播视频中的精彩片段，上述推送的内容都是主播端录制的原始视频内容，这就使得网络直播平台中视频的显示形式比较单一，不利于提高观众数量、点击率、平均在线时长以及观看时长等。

发明内容

本发明提供一种直播视频处理方法、装置、设备及存储介质，丰富直播视频表现形式，并优化了特效视频的生成方式，提高了特效视频的合成效率以及实时性。

第一方面，本发明实施例提供了一种直播视频处理方法，该方法包括：

从直播视频流中识别出与设定直播场景关联的第一视频流片段，所述直播场景包括直播对象完成预设肢体动作的场景；

检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹；

根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段。

可选的，从直播视频流中识别出与设定直播场景关联的第一视频流片段，包括：

将与所述直播视频流对应的多张视频帧分别输入至预先训练的直播场景识别模型中，得到与所述直播场景关联的多张第一视频帧；

截取所述第一视频帧出现频率超过预设阈值的一段所述直播视频流，得到与所述直播场景关联的第一视频流片段。

可选的，检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹，包括：

检测所述第一视频流片段对应的多张视频帧的肢体关键点，以确定每张视频帧对应的肢体位置；

跟踪所述第一视频流片段中的所述肢体位置，识别预设肢体动作及所述预设肢体动作的运动轨迹。

可选的，在检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹之前，还包括：

获取配置文件，其中，所述配置文件用于配置所述预设肢体动作对应的预设特效处理方式。

可选的，所述预设特效处理方式包括预设特效类型和预设特效配置参数；

根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段，包括：

根据所述预设肢体动作确定所述预设特效类型；

根据所述运动轨迹更新所述预设特效类型对应的所述预设特效配置参数；

根据所述预设特效类型和所述预设特效配置参数对所述第一视频流片段进行特效合成，得到第二视频流片段。

可选的，在根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段之后，还包括：

使用所述第二视频流片段替换所述直播视频流中的第一视频流片段后，将更新的所述直播视频流推送至所述用户端。

将所述第二视频流片段保存为短视频，并推送到预设栏目。

第二方面，本发明实施例还提供了一种直播视频处理装置，该装置包括：

第一视频片段识别模块，用于从直播视频流中识别出与设定直播场景关联的第一视频流片段，所述直播场景包括直播对象完成预设肢体动作的场景；

预设肢体动作检测模块，用于检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹；

第二视频片段生成模块，用于根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段。

第三方面，本发明实施例还提供了一种直播视频处理设备，该设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中提供的任一所述的直播视频处理方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面中提供的任一所述的直播视频处理方法。

本发明实施例的技术方案通过从直播视频流中识别出与设定直播场景关联的第一视频流片段；检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹；根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段的技术手段，可以自动检测出直播视频流中包括预设肢体动作及所述预设肢体动作的运动轨迹进行特效合成生成对应的特效视频片段，由此，本发明实施例所生成的第二视频流片段并非原始视频，而是自动地增加了与肢体动作和运动轨迹相关的特效，使得直播视频表现形式更为多样，容易对观众产生有力的视觉冲击，进而提高观众对整个直播平台的兴趣度，有利于提高观众数量、点击率、平均在线时长以及观看时长等，而且优化了现有的特效视频的生成方式，提高了特效视频的合成效率以及实时性。

附图说明

图1是本发明实施例一提供的一种直播视频处理方法的流程图；

图2是本发明实施例二提供的直播视频处理方法的流程图；

图3是本发明实施例二提供的卷积姿态机器网络结构示意图；

图4是本发明实施例三提供的一种直播视频处理装置的模块结构图；

图5是本发明实施例四提供的一种直播视频处理设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种直播视频处理方法的流程图，本实施例可适用于直播平台或用户(网络主播或者观众)对直播视频流进行处理后传送到用户端进行观看的情况，该方法可以由直播视频处理设备来执行，该直播视频处理设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。该直播视频处理设备可以是电脑，手机，平板或服务器等。在实施例中，以处理主体是直播平台，服务器为直播视频处理设备为例进行描述，对服务器的类型不作限定，如服务器可以是独立服务器或者服务器集群，可以是真实服务器或者虚拟服务器，也可以是云端服务器。一般的，服务器用于管理资源并为用户提供服务，如本实施例中为用户提供的服务是直播视频处理服务，以实现本实施例提供的直播视频处理方法。

具体的，参考图1，本实施例提供的直播视频处理方法具体包括如下步骤：

S110、从直播视频流中识别出与设定直播场景关联的第一视频流片段，直播场景包括直播对象完成预设肢体动作的场景。

其中，用户端是直播平台提供给用户观看直播视频的客户端，本实施例对用户端的形式不作限定，可以是专用软件，也可以是浏览器。直播(即网络直播)是指网络主播(即直播对象)将自己的音频、图像或视频实时传递给互联网上所有人收看，具体的，可通过在现场架设独立的信号采集设备(音频+视频)导入导播端(如导播设备或直播平台)，再通过网络上传至服务器，发布至对应网址供观众观看。视频流是指以流媒体形式进行传输的视频数据，由于其流动的特性，在整个视频数据未被传输完成时，视频流接收端也可以播放已接收到的视频流。本实施例中的服务器可以用于存放、控制和处理网络主播上传的直播视频流。

进一步的，直播场景是指网络主播在直播间中进行的直播行为，可以是唱歌、跳舞和/或与观众进行互动等。本实施例主要是通过对特定的直播场景进行识别并进行特效合成来丰富直播视频的表现形式，使得直播过程具备观赏性。示例性的，直播场景是包括直播对象完成预设肢体动作的场景，比如直播场景为跳舞的情况，包含的预设肢体动作可以是挥手、旋转身体和/或踢腿等肢体动作。又如，直播场景是与观众互动的情况，包含的预设肢体动作可以是比心、点赞和/或挥手等肢体动作。第一视频流片段是直播视频流中包含直播场景的一段或多段视频流。本实施例对直播场景的识别方式不作限定，即对第一视频流片段的选取方法不作限定。

在一示例中，直播场景识别方式是获取第一视频流片段截取指令，该截取指令包括第一视频流片段的起始和结束位置，本实施例对截取指令的来源不作限定，如该截取指令可以是由观众、网络主播或者直播平台发送。

在一示例中，直播场景识别方式是通过人工智能的方法识别出直播视频流中每张视频帧的直播场景，从而得到第一视频流片段的起始和结束位置。在这一示例中，第一视频流片段是最有可能具有预设肢体动作的片段，具体的预设肢体动作还得通过后续的方法进行识别。

在一示例中，直播场景识别方式是通过人工智能的方法识别出直播视频流中每个视频帧是否有预设肢体动作，从而得到第一视频流片段的起始和结束位置。

通过从直播视频流中识别出与设定直播场景关联的第一视频流片段，后续无需对整个直播视频流进行视频处理，而仅针对第一视频流片段进行视频处理，从而减小视频处理的数据量、提高视频处理的效率，并保障视频流传输的流畅性和实时性。

需要说明的是，本实施例提供的直播视频处理方法中的直播视频流也可以是直播结束后已经保存的直播视频流，同样可以从该直播视频流中识别出与设定直播场景关联的第一视频流片段，并进行后续的S120-S130。

S120、检测第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹。

本实施例中对直播场景不作限定，其中，预设肢体动作是预先设定的至少一个肢体动作，且每一个肢体动作都有其对应的运动轨迹。运动轨迹至少包括时间和位置等信息，即运动轨迹至少可以得到在某个时间点肢体的关键部位运动到某个位置的信息。本发明实施例所述的肢体动作可以包括头部动作、脸部动作、手部动作、身体躯干动作以及腿部动作等，所述脸部动作可以包括眉毛动作、舌头动作、眼珠动作等。

本实施例通过识别预设肢体动作及其运动轨迹，并根据预设肢体动作及其运动轨迹进行特效的合成。而且识别的肢体动作类型越多，很大程度上激励主播用户创作包括酷炫、有趣肢体动作的优质直播内容，丰富了视频的表现形式，对用户带来有力的视觉冲击，进而提高观众对整个直播平台的兴趣度，进一步可以刺激观众用户为该优质直播产生点赞、评论等社交行为，有利于提高观众数量、点击率、平均在线时长以及观看时长等，从而营造良性循环的直播平台活跃氛围，达到丰富直播视频表现形式和增加用户与直播平台粘性的技术效果。

本实施例以直播场景是跳舞进行详细说明，预设肢体动作包括但不限于挥手、旋转身体和/或踢腿等基本的舞蹈动作。举例说明，如预设肢体动作是挥手，其运动轨迹可选为手指末端所经过的轨迹，又如预设肢体动作是旋转身体，其运动轨迹可选为以身体外围旋转得到的轨迹，再如预设肢体动作是五指握拳，其运动轨迹可选为五根手指形成的外围圈向中间收缩成一点的轨迹。

进一步的，预设肢体动作还可以多种舞蹈动作的组合，如新疆舞蹈的左右摆头动作，又如，街舞中定义的一系列的标准动作，部分街舞标准动作见表1。

表1

通过检测在与设定直播场景关联的第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹，为下面步骤中的特效合成提供触发条件。

S130、根据预设肢体动作和运动轨迹按照预设特效处理方式对第一视频流片段进行特效合成，得到第二视频流片段。

其中，预设特效处理方式用于确定预设肢体动作和运动轨迹对应的特效合成技术手段或者效果。需要说明的是，本实施例的预设特效处理方式除了与识别到的预设肢体动作有关，特效的合成效果与预设肢体动作的运动轨迹也有关系。与预设肢体动作的运动轨迹相关联的预设特效处理方式，使得特效的合成效果更加符合视频的内容，特别是对于一些包含多个预设肢体动作的第一视频流片段，如跳舞的片段，能使得特效效果更加流畅，另外，不同的肢体动作对应多种不同的运动轨迹，相应的，采取多种不同的预设特效处理方式，更加丰富了直播视频的表现形式，使得直播视频更加具备观赏性，对用户带来有力的视觉冲击，进而提高观众对整个直播平台的兴趣度。

进一步的，在本实施例中对预设特效处理方式不作限定。

示例性的，预设特效处理方式可选为光流跟随预设肢体动作的运动轨迹，如预设肢体动作是挥手，则在挥手过程中，可在手指末端所经过的运动轨迹生成一道光流。预设特效处理方式也可选为根据预设肢体动作的运动轨迹生成光球，如预设肢体动作是五指握拳，则在五指握拳的过程中，根据五根手指形成的外围圈向中间收缩成一点的轨迹生成一个不断变大的光球，类似能量积聚的效果。预设特效处理方式还可选为慢/快动作播放，如预设肢体动作是一套复杂或者经典的街舞标准动作，可以适当的更改包含该预设肢体动作的视频流片段的播放速度。当然，预设特效处理方式还可选为生成闪电、动作重复或添加转场等其他特效处理方式，在此不进行详述。

实施例二

本实施例对上述实施例进行进一步优化，图2是本发明实施例二提供的直播视频处理方法的流程图，如图2所示，本实施例提供的直播视频处理方法包括以下步骤：

S210、从直播视频流中识别出与设定直播场景关联的第一视频流片段，直播场景包括直播对象完成预设肢体动作的场景。

在本实施例中，将步骤S210进一步细化为S211-S212：

S211、将与直播视频流对应的多张视频帧分别输入至预先训练的直播场景识别模型中，得到与直播场景关联的多张第一视频帧。

其中，直播场景识别模型用于识别特定的直播场景。本实施例中对直播场景识别模型的类型不作限定，示例性的，可以是预先训练好的神经网络模型或者其它专家系统模型。

进一步的，本实施例以神经网络模型是卷积神经网络为例进行详细说明，直播场景为跳舞。首先建立直播场景识别模型的样本集<视频帧图像，是否跳舞>，将样本集分成独立的三部分，包括训练样本集、测试样本集和验证样本集，其中训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。一个典型的划分是训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。示例性的，样本集中的标签“是否跳舞”可以是以“1”代表“跳舞”，以“0”代表“不是跳舞”，如视频帧图像Img1为跳舞的直播场景，则其样本为<Img1,1>，视频帧图像Img2为不是跳舞的直播场景，则其样本为<Img2,0>。另外，为直播场景识别模型选择合适的卷积神经网络结构，可通过现有的常见的卷积神经网络进行改进的到，其中，常见的卷积神经网络可以是Lenet、AlexNet、VGG16或ResNet。一般的，卷积神经网络结构至少包括数据输入层、卷积计算层、激励层、池化层、全连接层和数据输出层。在本实施例中，直播场景识别模型的数据输入层用于输入视频帧图像，数据数据输出层为激励层，常见的激励层函数有sigmoid、tanh、Relu、Leaky Relu、ELU、Maxout，以激励层函数是sigmoid为例，其输出为大于0小于1的数值，表示该输入的视频帧图像是跳舞场景的概率。再者，采用反向传播算法和该样本集对直播场景识别模型进行训练，得到预先训练的直播场景识别模型。其中，反向传播(英语：Backpropagation，缩写为BP)是“误差反向传播”的简称，是一种与最优化方法(如梯度下降法)结合使用的，用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。

具体的，将与直播视频流对应的多张视频帧分别输入至预先训练的直播场景识别模型中，得到输出为大于0小于1的数值，表示该输入的视频帧图像是跳舞场景的概率，将概率大于预设概率阈值的视频帧图像作为与直播场景关联的第一视频帧。

在一示例中，直播场景识别模型的样本集可以是<视频帧图像，舞蹈类型>，直播场景识别模型的输出为多维向量，向量中的每一维为大于0小于1的数值，表示该输入的视频帧图像是对应舞蹈类型的概率。如该向量每一维分别表示[新疆舞街舞]，对应的数值为[0.9 0.1]，则表示该输入的视频帧图像为新疆舞的概率为0.9，街舞的概率为0.1。

S212、截取第一视频帧出现频率超过预设阈值的一段直播视频流，得到与直播场景关联的第一视频流片段。

其中，第一视频帧出现频率用于确定直播视频流中第一视频帧具有集中性的一段直播视频流，可以通过单位时间内第一视频帧出现的次数进行计算。首先，直播场景识别模型存在识别准确率的问题，存在误判的可能性。其次，直播场景不同，第一视频帧出现频率不同，如直播场景是跳舞，则第一视频帧出现频率较高，又如直播场景是与观众进行互动，则第一视频帧出现频率较低。所以需要通过调整得到合适的预设阈值进一步筛选，使得适用于特定的应用场景，且可以进一步减少后续步骤的计算量。

示例性的，在直播视频流中设置一个预设滑动时间窗口，滑动计算预设滑动时间窗口内的第一视频帧出现频率，从而得到第一视频流片段的起始和结束位置。

S220获取配置文件。

其中，配置文件用于配置预设肢体动作对应的预设特效处理方式，预设特效处理方式包括预设特效类型和预设特效配置参数。示例性的，如预设特效类型是光流跟随预设肢体动作，其预设特效配置参数至少包括光流经过的轨迹、光流的形状和光流的持续时间。又如预设特效类型是慢/快动作播放，其预设特效配置参数至少包括播放速度和播放区间。需要说明的是，预设特效配置参数存在默认参数，且部分参数需要在特效合成时或在获取预设肢体动作的运动轨迹后进行设定。

具体的，本实施例对配置文件获取方式不作限定，可以是用户进行自定义配置，也可以是直播平台提供的主题配置文件，其中，该主题配置文件可以方便的为用户提供参考的预设特效处理方式，增加用户操作的便利性。进一步的，还可以通过建立下载、共享和修改主题配置文件的途径，使得操作过程简便，进一步降低了普通用户为直播视频添加特效的难度，从而提高用户参与度，营造良性循环的直播平台活跃氛围，达到丰富直播视频表现形式和增加用户与直播平台粘性的技术效果。

S230、检测第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹。

在本实施例中，将步骤S230进一步细化为S231-S232：

S231、检测第一视频流片段对应的多张视频帧的肢体关键点，以确定每张视频帧对应的肢体位置。

其中，肢体关键点对于描述人体姿态，预测人体行为至关重要，可用于肢体动作分类。示例性的，肢体关键点至少包括以下一种：头部、颈部、膝盖、脚踝、手腕、手指、手肘、胯部和肩部等。

一般的，肢体关键点检测可以通过卷积姿态机器(Convolutional PoseMachines，CPM)、DeeperCut、CMU OpenPose或AlphaPose等实现。

本实施例以CPM网络进行示例性详述，CPM网络使用卷积神经神经网络进行人体姿态估计，主要在于使用顺序化的卷积架构来表达空间信息和纹理信息。

图3是本发明实施例二提供的卷积姿态机器网络结构示意图，如图3所示，中心映射是一个高斯函数模板，用于将响应归一到中心部分；卷积层用于进行卷积运算；响应图是经过卷积层计算后的输出图像，即空间信息；串联结构用于融合卷积层的中间结果(纹理信息)、上一阶段的响应图以及小中心映射(高斯模板)生成的中心约束。顺序化的卷积架构表现在CPM网络分为多个阶段，每一个阶段都有监督训练的部分。前面的阶段使用原始图片作为输入，后面阶段使用之前阶段的特征图作为输入，从而使得整个顺序化的卷积架构可以融合空间信息，纹理信息和中心约束。另外，对同一个卷积架构同时使用多个尺度处理输入的特征和响应，既能保证精度，又考虑了各部件之间的远近距离关系。需要说明的是，肢体关键点样本集的标定是在每个肢体关键点的位置放置一个高斯响应，来构造响应图的真值。一般的，在每个阶段中，每一张响应图对应一个肢体关键点，也就是说，若要同时检测n个肢体关键点，则每个阶段中输出的响应图个数为n，其中，n为大于等于0的整数。另外，对于含有多个人的视频帧图像，生成两种真值响应，一是在每个人的相应肢体关键点位置，放置高斯响应。二是只在标定的人的相应肢体关键点位置，放置高斯响应。进而采用反向传播算法和该肢体关键点样本集对CPM网络进行训练，得到预先训练的CPM网络。进一步的，最后一个阶段输出的响应图即整个CPM网络的输出响应图，其对应的高斯响应的位置即为肢体关键点的位置。具体的，在进行肢体关键点检测的过程是将第一视频流片段对应的每一张视频帧输入到CPM网络中，对应每一张视频帧输出n张响应图，代表n个肢体关键点的响应，即检测出每张视频帧中的肢体关键点的位置，进而确定肢体的位置。

S232、跟踪第一视频流片段中的肢体位置，识别预设肢体动作及预设肢体动作的运动轨迹。

其中，跟踪第一视频流片段中的肢体位置可以通过跟踪肢体关键点的位置进行确定,由于每一种预设肢体动作的运动特点是不同的,进一步的可以识别出预设肢体动作。本实施例中对预设肢体动作的识别方式不作限定，示例性的，可以是预先训练好的神经网络模型或者其它专家系统模型进行分类识别,在此不进行详述。

S240、根据预设肢体动作和运动轨迹按照预设特效处理方式对第一视频流片段进行特效合成，得到第二视频流片段。

在本实施例中，将步骤S240进一步细化为S241-S243：

S241、根据预设肢体动作确定预设特效类型。

示例性的，可以通过获取的配置文件中确定预设肢体动作对应的预设特效类型。如预设肢体动作为挥手，对应的预设特效类型为光流跟随预设肢体动作的运动轨迹，则合成特效的效果是在挥手过程中，手指末端所经过的运动轨迹生成一道光流。如预设肢体动作是五指握拳，对应的预设特效类型为根据预设肢体动作的运动轨迹生成光球，则合成特效的效果是在五指握拳的过程中，根据五根手指形成的外围圈向中间收缩成一点的轨迹生成一个不断变大的光球，类似能量积聚的效果。如预设肢体动作是一套复杂或者经典的街舞标准动作，对应的预设特效类型为慢/快动作播放，则合成特效的效果是更改包含该预设肢体动作的视频流片段的播放速度。当然，预设特效类型还可以是生成闪电、动作重复或添加转场等特效处理方式，在此不进行详述。

S242、根据运动轨迹更新预设特效类型对应的预设特效配置参数。

在本实施例中，可以通过获取的配置文件中获取预设特效类型对应的默认的预设特效配置参数。需要注意的是，预设特效配置参数需要在特效合成时或在获取预设肢体动作的运动轨迹后进行设定。示例性的，如预设特效类型是光流跟随预设肢体动作，其预设特效配置参数至少包括光流经过的轨迹、光流的形状和光流的持续时间。又如预设特效类型是慢/快动作播放，其预设特效配置参数至少包括播放速度和播放区间。

S243、根据预设特效类型和预设特效配置参数对第一视频流片段进行特效合成，得到第二视频流片段。

需要说明的是，本实施例在进行特效合成时，除了需要根据识别预设肢体动作，还需要结合预设肢体动作的运动轨迹，特别是对于一些包含多预设肢体动作的第一视频流片段，如跳舞的片段，使得特效的合成效果更加符合视频的内容，且特效效果更加流畅。

S250、使用第二视频流片段替换直播视频流中的第一视频流片段后，将更新的直播视频流推送至用户端。

其中，用户端是直播平台提供给用户观看直播视频的客户端，本实施例对用户端的形式不作限定，可以是专用软件，也可以是浏览器。

具体的，以服务器为例进行说明，服务器通过从直播视频流识别出第一视频流片段，并对其进行处理得到第二视频流片段，进而使用第二视频流片段替换直播视频流中的第一视频流片段，从而更新直播视频流，最后，服务器响应用户端的观看请求，将更新的直播视频流推送至用户端给观众观看。

可选的，在根据预设肢体动作和运动轨迹按照预设特效处理方式对第一视频流片段进行特效合成，得到第二视频流片段之后，还包括：将第二视频流片段保存为短视频，并推送到预设栏目。

示例性的，对于含有跳舞直播场景内容的第二视频流片段，保存为短视频后，推送至跳舞类型的栏目，以便观众用户可以直接通过该栏目获取跳舞相关的直播节目。

一般的，如果直播用户或者网络直播平台希望在特定直播内容(例如，跳舞或者打拳)中，加入一定的特效以增加观众对该直播内容的兴趣度，则只能在整个直播视频播放完毕后，人工选取包括特定直播内容的视频片段，并使用专门的特效软件对该片段进行特效合成后才能获取满足要求的特效视频。这对用户的软件操作水平提出了要求，增加了主播使用该网络直播平台的难度，并且合成过程的实时性差，合成效率低。本实施例的技术方案通过识别出第一视频流片段，并自动添加特效，以生成第二视频流片段，达到自动、高效和操作简便的技术效果。

可选的，在从待推送至用户端的直播视频流中识别出与设定直播场景关联的第一视频流片段之前，还包括获取用于推送至对应用户端的直播视频流，并对直播视频流进行缓存。

其中，用户端是直播平台提供给用户观看直播视频的客户端，本实施例对用户端的形式不作限定，可以是专用软件，也可以是浏览器。直播视频流是网络主播通过网络上传至服务器，发布至网址供拥有用户端的观众观看的流媒体。以服务器为例进行说明，本实施例中的服务器可以用于存放、控制和处理网络主播上传的直播视频流。

具体的，服务器响应网络主播上传的直播视频流的请求，并建立获取直播视频流的通道，进而对直播视频流进行缓存或者永久性存储(存储到硬盘)。该缓存的直播视频流随着网络主播的上传而不断更新，且随时可以被服务器读取，从而被进一步处理。本实施例对用于缓存直播视频流的缓存的大小不进行限定，具体大小可以根据直播平台的规模和服务需求进行确定。

通过先进行直播视频流的部分缓存，再对缓存部分的直播视频流进行处理，可以在处理直播视频流后，还可以保证直播视频流推送的流畅性和持续性。

本发明相对于现有技术中直接播放原始录制的直播视频流的方案，通过从待推送至用户端的直播视频流中识别出与设定直播场景关联的第一视频流片段，并获取用于配置预设肢体动作对应的预设特效处理方式的配置文件，进而检测第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹，根据预设肢体动作及运动轨迹按照配置文件中设置的预设特效处理方式对第一视频流片段进行特效合成，不同的肢体动作对应多种不同的运动轨迹，相应的，采取多种不同的预设特效处理方式，得到第二视频流片段，并在使用第二视频流片段替换直播视频流中的第一视频流片段后，将更新的所述直播视频流推送至所述用户端。第二视频流片段相对于第一视频流片段，由于增加了与肢体动作和运动轨迹相关的特效，丰富了视频的表现形式，对用户带来有力的视觉冲击，进而提高观众对整个直播平台的兴趣度，有利于提高观众数量、点击率、平均在线时长以及观看时长等，而且优化了现有的特效视频的生成方式，提高了特效视频的合成效率以及实时性。另外，通过配置文件的使用，使得操作过程简便，进一步降低了普通用户为直播视频添加特效的难度，从而提高用户参与度，营造良性循环的直播平台活跃氛围，达到丰富直播视频表现形式和增加用户与直播平台粘性的技术效果。

实施例三

图4是本发明实施例三提供的一种直播视频处理装置的模块结构图。如图4所示，该装置包括：第一视频片段识别模块310、预设肢体动作检测模块320和第二视频片段生成模块330。

第一视频片段识别模块310，用于从直播视频流中识别出与设定直播场景关联的第一视频流片段，直播场景包括直播对象完成预设肢体动作的场景。

预设肢体动作检测模块320，用于检测第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹。

第二视频片段生成模块330，用于根据预设肢体动作和运动轨迹按照预设特效处理方式对第一视频流片段进行特效合成，得到第二视频流片段。

本发明通过从直播视频流中识别出与设定直播场景关联的第一视频流片段，进而根据由检测到的肢体动作及其运动轨迹所确定预设特效处理方式对第一视频流片段进行特效合成，解决现有的直播视频表现形式单一和观赏体验差的问题，很大程度激励用户创作酷炫、有趣的直播，还刺激用户为优质直播产生点赞、评论等社交行为，营造良性循环的直播平台活跃氛围，达到丰富直播视频表现形式和增加用户与直播平台粘性的技术效果。

在一可选实施方式中，第一视频片段识别模块310包括：第一视频帧获取单元和第一视频流片段截取单元。

第一视频帧获取单元，用于将与直播视频流对应的多张视频帧分别输入至预先训练的直播场景识别模型中，得到与直播场景关联的多张第一视频帧。

第一视频流片段截取单元，用于截取第一视频帧出现频率超过预设阈值的一段直播视频流，得到与直播场景关联的第一视频流片段。

在一可选实施方式中，预设肢体动作检测模块320包括：肢体位置确定单元和预设肢体动作识别单元。

肢体位置确定单元，用于检测第一视频流片段对应的多张视频帧的肢体关键点，以确定每张视频帧对应的肢体位置。

预设肢体动作识别单元，用于跟踪第一视频流片段中的肢体位置，识别预设肢体动作及预设肢体动作的运动轨迹。

在一可选实施方式中，直播视频处理装置还包括：配置文件获取模块。

配置文件获取模块，用于获取配置文件，其中，配置文件用于配置预设肢体动作对应的预设特效处理方式。

在一可选实施方式中，预设特效处理方式包括预设特效类型和预设特效配置参数，第二视频片段生成模块330包括：预设特效类型确定单元、预设特效配置参数更新单元和特效合成单元。

预设特效类型确定单元，用于根据预设肢体动作确定预设特效类型。

预设特效配置参数更新单元，用于根据运动轨迹更新预设特效类型对应的预设特效配置参数。

特效合成单元，用于根据预设特效类型和预设特效配置参数对第一视频流片段进行特效合成，得到第二视频流片段。

在一可选实施方式中，直播视频处理装置还包括：推送模块。

推送模块，用于使用第二视频流片段替换直播视频流中的第一视频流片段后，将更新的直播视频流推送至用户端。

在一可选实施方式中，直播视频处理装置还包括：短视频推送模块。

短视频推送模块，用于将第二视频流片段保存为短视频，并推送到预设栏目。

在一可选实施方式中，直播视频处理装置还包括：缓存模块。

缓存模块，用于获取用于推送至对应用户端的直播视频流，并对直播视频流进行缓存。

本发明实施例所提供的直播视频处理装置可执行本发明任意实施例所提供的直播视频处理方法，具备执行方法相应的功能模块和有益效果。

实施例四

图5是本发明实施例四提供的一种直播视频处理设备的结构示意图，如图5所示，该设备包括处理器40、存储器41、输入装置42和输出装置43；设备中处理器40的数量可以是一个或多个，图5中以一个处理器40为例；设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的直播视频处理方法对应的程序指令/模块(例如，直播视频处理装置中的第一视频片段识别模块310、预设肢体动作检测模块320和第二视频片段生成模块330)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的直播视频处理方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设别的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

实施例五

本发明实施例五还提供一种存储有计算机程序的计算机可读存储介质，计算机程序在由计算机处理器执行时用于执行一种直播视频处理方法，该方法包括：

从直播视频流中识别出与设定直播场景关联的第一视频流片段，直播场景包括直播对象完成预设肢体动作的场景；

检测第一视频流片段中的预设肢体动作及预设肢体动作的运动轨迹；

根据预设肢体动作和运动轨迹按照预设特效处理方式对第一视频流片段进行特效合成，得到第二视频流片段。

当然，本发明实施例所提供的存储有计算机程序的计算机可读存储介质，其计算机程序不限于如上的方法操作，还可以执行本发明任意实施例所提供的直播视频处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

值得注意的是，上述直播视频处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种直播视频处理方法，其特征在于，包括：

将与直播视频流对应的多张视频帧分别输入至预先训练的直播场景识别模型中，得到与直播场景关联的多张第一视频帧，所述直播场景包括直播对象完成预设肢体动作的场景，所述直播场景识别模型用于识别特定的直播场景,数据输入层用于输入视频帧，数据输出层为激励层；

截取所述第一视频帧出现频率超过预设阈值的一段所述直播视频流，得到与所述直播场景关联的第一视频流片段；

检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹，所述运动轨迹至少得到在某个时间点肢体的关键部位运动到某个位置的信息，所述预设肢体动作及所述运动轨迹用于特效的合成；

通过配置文件确定所述预设肢体动作对应的预设特效类型及所述预设特效类型对应的、默认的预设特效配置参数；

2.根据权利要求1所述的直播视频处理方法，其特征在于，检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹，包括：

3.根据权利要求1所述的直播视频处理方法，其特征在于，在检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹之前，还包括：

4.根据权利要求1所述的直播视频处理方法，其特征在于，在根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段之后，还包括：

使用所述第二视频流片段替换所述直播视频流中的第一视频流片段后，将更新的所述直播视频流推送至用户端。

5.根据权利要求1所述的直播视频处理方法，其特征在于，还包括：

将所述第二视频流片段保存为短视频，并推送到预设栏目。

6.一种直播视频处理装置，其特征在于，包括：

第一视频帧获取单元，用于将与直播视频流对应的多张视频帧分别输入至预先训练的直播场景识别模型中，得到与直播场景关联的多张第一视频帧，所述直播场景包括直播对象完成预设肢体动作的场景，所述直播场景识别模型用于识别特定的直播场景,数据输入层用于输入视频帧，数据输出层为激励层；

第一视频流片段截取单元，用于截取所述第一视频帧出现频率超过预设阈值的一段所述直播视频流，得到与所述直播场景关联的第一视频流片段；

预设肢体动作检测模块，用于检测所述第一视频流片段中的预设肢体动作及所述预设肢体动作的运动轨迹，所述运动轨迹至少得到在某个时间点肢体的关键部位运动到某个位置的信息，所述预设肢体动作及所述运动轨迹用于特效的合成；

第二视频片段生成模块，用于根据所述预设肢体动作和所述运动轨迹按照预设特效处理方式对所述第一视频流片段进行特效合成，得到第二视频流片段；

其中，所述预设特效处理方式包括预设特效类型和预设特效配置参数，所述第二视频片段生成模块包括：

预设特效类型确定单元，用于通过配置文件确定所述预设肢体动作对应的预设特效类型及所述预设特效类型对应的、默认的预设特效配置参数；

预设特效配置参数更新单元，用于根据所述运动轨迹更新所述预设特效类型对应的所述预设特效配置参数；

特效合成单元，用于根据所述预设特效类型和所述预设特效配置参数对所述第一视频流片段进行特效合成，得到第二视频流片段。

7.一种直播视频处理设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的直播视频处理方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的直播视频处理方法。