CN111209440B

CN111209440B - 一种视频播放方法、装置和存储介质

Info

Publication number: CN111209440B
Application number: CN202010033943.XA
Authority: CN
Inventors: 艾立超
Original assignee: Shenzhen Yayue Technology Co ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2020-01-13
Filing date: 2020-01-13
Publication date: 2023-04-14
Anticipated expiration: 2040-01-13
Also published as: CN111209440A

Abstract

本申请实施例公开了一种视频播放方法、装置和存储介质，其中，本申请实施例可以在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段；对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；根据所述控制等级，控制所述待播放视频片段的播放。在播放目标视频时，对目标视频的内容进行检测，并根据检测结果控制目标视频的播放，从而可以有效地过滤视频内容，净化用户的观影环境。

Description

一种视频播放方法、装置和存储介质

技术领域

本申请涉及多媒体的技术领域，具体涉及一种视频播放方法、装置和存储介质。

背景技术

近年来，伴随着互联网技术和经济的不断发展，在智能电视或智能盒子等智能终端上观看在线观看视频已经成为人们日常生活中的一项重要的娱乐活动。目前的视频播放客户端可以设置不同的观影模式，不同的观影模式可以观看不同类型的影片。比如，为了防止青少年儿童沉迷网络，一些视频播放客户端推出了儿童模式，甚至出现了专门的儿童视频播放客户端，经过预先审核和分类，这些客户端只能用于观看适宜儿童观看的视频，但是由于审核不及时或缺失，造成不少非儿童影片出现在了儿童模式或儿童视频播放客户端中。另外，现有的审核和分类一般只针对专辑进行审核和分类，不会对专辑中的每个视频中的所有画面进行审核，因此，可能会导致本属于儿童影片的专辑中出现了一段或多段并不适宜儿童观看的内容，造成用户体验不佳。

发明内容

有鉴于此，本申请实施例提供了一种视频播放方法、装置和存储介质，可以有效地过滤视频内容，净化用户的观影环境。

一方面，本申请实施例提供了一种视频播放方法，包括：

在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段；

对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；

基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；

基于所述控制等级，控制所述待播放视频片段的播放。

在一实施例中，所述对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，包括：

对所述待播放视频片段的视频内容进行特征提取，得到所述视频内容的特征信息；

根据所述特征信息，确定所述待播放视频片段中对象的动作类型；

根据所述动作类型，对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型。

在一实施例中，所述特征信息包括画面元素特征信息与运动特征信息；

所述对所述待播放视频片段的视频内容进行特征提取，得到所述视频内容的特征信息，包括：

从所述视频内容的视频帧中确定采样帧；

根据所述采样帧以及所述采样帧的相邻视频帧，提取所述视频内容中像素的运动信息，得到所述视频内容对应的光流序列；

根据预设动作识别网络模型的空间流卷积神经网络对所述采样帧进行卷积运算，提取所述视频内容的画面元素特征信息；

根据预设动作识别网络模型的时间流卷积神经网络对所述光流信息进行卷积运算，提取所述视频内容的运动特征信息。

在一实施例中，所述将所述特征信息进行融合，确定所述待播放视频片段中的对象的动作类型，包括：

基于所述预设动作识别网络模型的空间流卷积神经网络，对所述画面元素特征信息进行全连接运算，得到第一类型概率信息；

基于所述预设动作识别网络模型的时间流卷积神经网络，对所述运动特征信息进行全连接运算，得到第二类型概率信息；

将所述第一类型概率信息和所述第二类型概率信息进行融合，得到所述待播放视频片段中的对象的动作类型。

在一实施例中，所述对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，还包括：

对所述待播放视频片段的音频内容进行识别，得到所述音频内容对应的文本信息；

根据当前播放模式所需控制播放的敏感词集合，对所述文本信息进行识别，得到音频识别结果；

根据所述音频识别结果和所述动作类型，对所述待播放视频片段进行分类，得到所述视频片段类型。

在一实施例中，根据当前播放模式所需控制播放的敏感词集合，对所述文本信息进行识别，得到音频识别结果，包括：

当所述文本信息在所述敏感词集合中具有匹配的敏感词时，获取所述敏感词的属性；

根据所述敏感词的属性，获取所述音频识别结果。

在一实施例中，在对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型之后，还包括：

根据所述待播放视频片段对应的目标视频片段类型，生成所述目标视频的类型标记；

基于所述类型标记，对所述目标视频进行标记，得到标记后的目标视频。

当所述目标视频为所述标记后的目标视频时，根据所述类型标记，确定所述待播放视频片段的目标视频片段类型。

在一实施例中，对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，包括：

在一实施例中，基于所述对比结果，控制待播放视频片段的播放，包括：

当所述控制等级为允许播放等级时，播放所述待播放视频片段。

当所述控制等级为限制播放等级时，获取用户在预设时间段内播放所述目标视频片段类型的视频片段的时长；

若所述时长小于预设阈值，则播放所述待播放视频片段；

若所述时长大于或者等于所述预设阈值，则根据所述目标视频中视频片段的播放顺序，获取待播放视频片段的下一视频片段；

将所述下一视频片段更新为待播放视频片段；

重复执行所述对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，确定当前播放模式下所述目标视频片段类型对应的控制等级，根据所述控制等级，控制所述待播放视频片段的播放的步骤，直至所述目标视频片段类型对应的控制等级为允许播放等级。

在一实施例中，根据所述控制等级，控制所述待播放视频片段的播放，包括：

当所述控制等级为禁止播放等级时，禁止播放所述待播放视频片段；

根据所述目标视频中视频片段的播放顺序，获取待播放视频片段的下一视频片段；

将所述下一视频片段更新为待播放视频片段；

重复执行所述对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，确定当前播放模式下所述目标视频片段类型对应的控制等级，根据所述控制等级，控制所述待播放视频片段的播放的步骤。

当所述控制等级为限制播放等级时，根据所述目标视频片段类型对应的预设播放条件，获取目标播放信息；

若所述目标播放信息满足所述预设播放条件，则播放所述待播放视频片段；

若所述目标播放信息不满足所述预设播放条件，则根据所述目标视频中视频片段的播放顺序，获取待播放视频片段的下一视频片段；

将所述下一视频片段更新为待播放视频片段；

另一方面，本申请的实施例提供了一种视频播放装置，包括：

视频获取单元，用于在当前播放模式下播放目标视频时，获取待播放的目标视频的视频片段；

类型获取单元，用于对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；

控制单元，用于基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；

播放单元，用于根据所述控制等级，控制所述待播放视频片段的播放。

另一方面，本申请的实施例提供了一种服务器，包括：处理器和存储器；所述存储器质存储有多条指令，所述处理器加载所述存储器存储的指令以执行如本申请任一实施例提供的视频播放方法中的步骤。

另一方面，本申请的实施例提供的存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如本申请任一实施例提供的视频播放方法中的步骤。

本申请实施例可以在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段；对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；基于所述控制等级，控制所述待播放视频片段的播放。在播放目标视频时，对目标视频的内容进行检测，并根据检测结果，控制目标视频的播放，从而有效地过滤视频内容，净化用户的观影环境。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的视频播放方法的一种应用场景示意图。

图2是本申请实施例提供的视频播放方法的流程示意图。

图3是本申请实施例提供的视频播放装置的结构示意图。

图4是本申请实施例提供的计算机设备的示意图。

图5a是本申请实施例提供的视频专辑分类示意图。

图5b是本申请实施例提供的终端与服务器的交互示意图。

图5c是本申请实施例提供的动作识别网络模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种视频播放方法、装置和存储介质。

本申请实施例提供的识别视频内容的过程，涉及人工智能的计算机视觉技术和机器学习技术等技术，如下：

其中，动作识别网络模型识别采样帧以及光流信息的过程，涉及计算机视觉技术，其中，计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/动作识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

其中，动作识别网络模型的训练涉及机器学习，其中，机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习动作，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

参考图1，本发明的实施例提供了一种视频播放系统，至少包括终端和服务器，终端与服务器通过网络链接。

该终端可以为手机、平板电脑、笔记本电脑等设备，也为包括穿戴设备、智能音箱、智能盒子、智能电视等智能终端。该终端上设有客户端，该客户端可以是视频应用客户端或浏览器客户端等。该服务器可以是单台服务器，也可以是由多个服务器组成的服务器集群。

终端可以从服务器中获取目标视频的视频片段，在客户端中进行播放。终端在当前播放模式下播放目标视频时，服务器可以根据终端的请求从数据库中获取目标视频的待播放视频片段，然后对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；最后通过网络向终端发送该控制等级，以使客户端基于所述控制等级，控制所述待播放视频片段的播放。

在一实施例中，服务器还可以根据所述待播放视频片段对应的目标视频片段类型，生成所述目标视频的类型标记，服务器可以基于所述类型标记，对所述目标视频进行标记，得到并保存标记后的目标视频。在终端请求播放标记后的目标视频时，根据类型标记，确定目标视频中待播放视频片段的目标视频片段类型。

上述图1的例子只是实现本发明实施例的一个系统架构实例，本发明实施例不限于上述图1所示的系统结构，基于该系统架构，提出本发明各个实施例。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

如图2所示，提供了一种视频播放方法，该方法可以由终端或服务器来执行，也可以由终端和服务器一起来执行，本实施例以该方法由服务器来执行为例进行说明。该视频播放方法的具体流程如下:

101、在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段。

其中，当前播放模式指的是，在当前时刻下，客户端为用户提供播放服务的模式，在不同的播放模式下可以为用户提供不同的播放服务，实现不同的播放功能，比如，在不同的播放模式下具有播放不同类型视频的播放权限。

在一实施例中，为了满足不同用户的需求，客户端可以提供儿童模式、青少年模式和普通模式，分别可以提供不同的视频播放服务。比如，儿童模式不可以播放含有恐怖元素的视频，青少年模式不可以播放含有较多恐怖元素的视频，普通模式可以播放法律允许的含有恐怖元素的视频。另外，为了防止未成年人沉迷网络，还可以设置不同播放模式下允许用户每天使用的总时长不同，比如，可以设置儿童模式下，允许用户每天观看视频的总时长为1小时，青少年模式下，允许用户每天观看视频的总时长为2小时，普通模式下，对用户观看视频的总时长没有限制。

其中，服务器可以基于终端发送的请求，从服务器的数据库中，获取目标视频的待播放视频片段。

在一实施例中，当终端在线播放目标视频时，服务器可以通过视频流传输的方式向终端发送目标视频。视频流传输是将视频文件经过特殊的压缩方式分成一个个视频片段压缩包，不必等到整个文件全部下载完毕后，而是经过几秒或者几十秒的缓冲，即可对获取到的视频片段压缩包进行解压并播放，同时还可以继续从服务器中下载视频文件的剩余部分(即待播放视频片段)。

相应地，当用户下载目标视频时，服务器也可以通过视频流传输的方式，向终端发送目标视频，并且在下载目标视频时，对目标视频的内容进行识别，得到目标视频片段类型和控制等级，根据控制等级控制视频片段的下载，从而可以有效地过滤视频内容，净化用户的观影环境。其中具体的下载的识别和控制方法可以参见本申请实施例中对播放的识别和控制方法，不再赘述。

在一实施例中，为了方便服务器的视频库管理视频片段，还可以把视频文件，映射为HLS(HTTP Live Streaming，HTTP直播技术)协议中的一个个小的TS(Transport Stream，传输流)分片文件，在不实际切分视频文件的情况下，通过HLS协议播放视频文件。视频文件包括MoovBox文件，MoovBox文件记录了后续所有音频帧和视频帧的解码信息、时间戳、位置等非常关键的数据，称为索引数据。可以根据moov box中罗列的音频和视频帧索引数据，把整个视频文件，根据关键帧为界限，进行分片的划分，每个分段就对应一个TS文件，并把这种对应关系写入到索引文件。视频文件还包括m3u8文件和索引文件。m3u8文件是给播放器使用的播放地址文件，里面罗列了所有的ts分片地址，索引文件可以记录实际视频文件和需要切分的TS分片直接的数据对应关系。在播放客户端实际请求播放的时候，通过索引文件中的对应关系，以及m3u8文件中的播放地址，获取相应的音频视频数据，并在内存中拼装为TS文件。比如，对目标视频文件，请求0～2秒的数据，那么就需要通过对应记录，找到0～2秒的数据，组合成MPEG-TS格式，生成TS分片文件。

在一实施例中，为了方便服务器识别目标视频的内容，可以由服务器对从数据库中获取到的视频文件(其中，该视频文件可以时视频片段的压缩包，也可以是TS分片文件)进行解码得到待播放视频片段，比如，步骤“获取所述目标视频的待播放视频片段”，可以包括：

对获取到的视频文件进行解封装处理，得到视频数据流和音频数据流；

分别对视频数据流和音频数据流进行解码，得到待播放视频片段的视频内容和音频内容。其中，视频内容包括多张视频帧，音频内容包括一组音频帧。

在一实施例中，可以基于用户在终端的用户操作界面上的操作，触发向服务器发送视频获取请求，获取待播放视频片段。

参考图5b，在一实施例中，服务器除了可以实现视频识别和播放控制等功能，还可以实现搜索过滤的功能。其中，通过服务器中的预设动作识别模型、语音识别模型和预设视频片段类型，实现视频识别功能。通过服务器中的目标视频片段类型和当前播放模式，实现播放控制功能。通过视频数据库中保存的专辑类型，实现搜索过滤功能。

具体地，可以对视频专辑进行预先归类，从而限制用户只能搜索到当前播放模式下允许播放的视频专辑，以实现搜索过滤功能。比如，《小猪xx》专辑可以按照播放模式的要求，预先被归类为少儿类型。当然，还可以按照其它分类标准，比如，根据艺术形式，将该专辑归类为动画类型，根据内容形式，分为正片、预告或者片头等。还可以进行其它分类。参考图5a，在服务器的视频数据库中可以保存《小猪xx》专辑的相关信息。

参考图5b，终端包括搜索模块、播放模块和网络请求管理模块。终端可以根据用户在客户端的用户操作界面中的搜索操作，确定待播放的目标专辑，所述目标专辑包括至少一个视频，当用户在用户操作页面中搜索目标专辑时，客户端向服务端发送搜索请求，搜索请求携带目标专辑名称和当前播放模式信息，服务端根据当前播放模式信息，确定当前播放模式下允许观看的候选专辑的候选专辑集合，根据目标专辑名称，在候选专辑集合中搜索目标专辑，当搜索到目标专辑之后，向客户端返回目标专辑的详情信息，终端根据详情信息，在客户端中显示目标专辑的详情页面，该详情页面包括至少一个视频对应的选择控件；当检测到用户针对所述选择控件的视频选择操作时，确定待播放的目标视频。获取目标视频的标识信息，并根据该标识信息向服务器请求目标视频。其中，标识信息可以表现为目标视频在目标专辑中的集数。

在另一实施例中，当由终端来实现本申请的视频播放方法时，除了在线播放和下载时，可以对目标视频的内容进行识别和控制之外，当终端离线播放已下载的目标视频时，也可以对目标视频中的待播放视频片段进行识别和控制。其中，已下载的目标视频文件在终端中以流媒体文件的格式存储，该流媒体文件包括多个按照播放顺序存储的视频片段压缩包，在播放目标视频时，可以根据播放顺序，获取待播放的视频片段压缩包，并进行解压缩和播放。当然，为了方便终端管理视频数据，终端中存储的目标视频文件可以不经过实际切分。终端通过HLS协议播放该目标视频文件。

由终端来对目标视频内容进行识别和控制，在服务器需要响应大量终端的视频获取请求时，可以缓解服务器的计算压力。

102、对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型。

其中，视频片段类型是根据视频片段中画面、动作、声音等元素表达的情感、目的以及比重，划分得到的用于确定是否适合当前播放模式下播放的类型，视频片段类型可以包括娱乐、体育、恐怖、暴力、色情等类型。相应地，目标视频片段类型指的是待播放视频片段的视频片段类型。

在一实施例中，对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，具体可以包括如下步骤：

其中，动作类型是用于表示对象的姿态行为举动的信息，可以包括“骑马”、“射箭”、“打架”、“看书”等。

在一实施例中，所述特征信息包括对象特征信息与运动特征信息，对所述待播放视频片段的视频内容进行特征提取，得到所述视频内容的特征信息，具体可以包括如下步骤：

从所述视频内容的视频帧中确定采样帧；

根据预设动作识别网络模型的时间流卷积神经网络对所述光流序列进行运动特征提取，得到所述待播放视频片段的运动特征信息。

其中，采样帧是从待播放视频中选取的，用于提取画面元素特征信息的视频帧。其中，画面元素包括画面中的对象(包括发出动作的对象、承受动作的对象，动作中使用的道具等)、姿态以及场景(包括背景)等元素。

在一实施例中，在待播放视频的时长较短的情况下，视频画面没有进行切换，画面中对象和场景都没有发生切换，采样帧为可以为单张视频帧。其中，采样帧可以包含“RGB”三通道信息，也可以包含RGB-D灰度图信息。

其中，光流是对相邻的两张视频帧进行梯度计算得到的，在本实施例中，可以获取对视频帧中的所有像素的运动矢量，得到稠密光流。可以使用OpenCV中的光流计算接口计算待播放视频的光流。其中，光流序列指的是多张按顺序排列的光流图的组合。

在一实施例中，可以对所述采样帧开始接下来的连续的L帧视频帧，进行梯度计算，得到L张光流图，将这L张光流图顺序组合，得到光流序列。一般的光流图是2通道的信息，包括像素x轴和y轴上的运动信息。

其中，预设动作识别网络模型的卷积神经网络可以包括多个卷积层和多个全连接层，卷积层用于对象特征提取，全连接层用于特征融合。

其中，卷积层(Convolutional layer)主要用于对输入的图像(比如光流图和采样帧)进行特征提取，每个卷积层包括多个卷积核，其中，卷积层的卷积核大小可以根据实际应用而定，不同的卷积核具有不同的权重值，可以用于提取不同维度的特征，比如，对象、姿态、场景、运动方向、运动幅度、运动速度等特征，其中，卷积核内的权重值可以通过训练来确定。在一实施例中，经过不同的卷积核的卷积运算，可以得到不同维度的多个特征图。

在一实施例中，为了提高模型的表达能力，还可以通过加入激活函数来加入非线性因素，在本发明实施例中，该激活函数均为“relu(线性整流函数，Rectified LinearUnit)”，而填充(padding，指属性定义元素边框与元素内容之间的空间)方式均为“same”，“same”填充方式可以简单理解为以0填充边缘，左边(上边)补0的个数和右边(下边)补0的个数一样或少一个。

在一实施例中，为了进一步减少计算量，还可以在某一或者某几个卷积层中进行下采样(pooling)操作，该下采样操作与卷积的操作基本相同，只不过下采样的卷积核为只取对应位置的最大值(max pooling)或平均值(average pooling)等。

其中，卷积层的数量可以根据实际需求进行调整，上一层卷积层输出的图像特征可以作为下一层卷积层输入图像，进行进一步的特征提取，经过多层卷积层的卷积运算，每一层抽取的特征越来越抽象。

其中，全连接层可以将学到的特征映射到图像标记空间，其在整个识别模型中主要起到“分类器”的作用，全连接层的每一个结点都与上一层(如卷积层中的下采样层)输出的所有结点相连，其中，全连接层的一个结点即称为全连接层中的一个神经元，全连接层中神经元的数量可以根据实际应用的需求而定，与卷积层类似，可选的，在全连接层中，也可以通过加入激活函数来加入非线性因素，比如，可以加入激活函数sigmoid(S型函数)。

在一实施例中，全连接层输出的风格类型概率信息是一种一维向量形式，其中向量内的每一个元素表示对象的动作属于不同动作类型的概率，比如，动作识别网络模型可以识别出n种动作类型(包括“骑马”、“射箭”、“打架”“看书”等)，那么全连接层输出的向量有n个元素，分别表示n种风格类型对应的概率。

如图5c所示，预设动作识别网络模型的空间流卷积神经网络和时间流卷积神经网络都是一种分类神经网络，以AlexNet为例，可以包括5个卷积层和3个全连接层，在第1、2和5个卷积层之后进行下采样操作，其中，下采样操作采用的是最大池化(max pooling)，最大值池化即对邻域内特征点取最大，可以避免平均池化的模糊化效果，从而保留最显著的特征,并且AlexNet中提出让步长比池化核的尺寸小,这样池化层的输出之间会有重叠和覆盖，提升了特征的丰富性，减少了信息的丢失。最后一层全连接层应用softmax函数，它可以把一些输出的神经元映射到(0，-1)之间的实数，并且归一化保证和为1，从而使得多分类的概率之和也刚好为1。

需说明的是，为了描述方便，在本发明实施例中，将激活函数所在层归入卷积层中，应当理解的是，也可以认为该结构包括卷积层、激活函数所在层、下采样层(即池化层)和全连接层，当然，预设动作识别网络模型还可以包括用于输入数据的输入层和用于输出数据的输出层，在此不作赘述。

在一实施例中，根据所述特征信息，确定所述待播放视频片段中对象的动作类型，具体可以包括如下步骤：

其中，第一类型概率信息是根据静止的单张采样帧中的画面元素，预测得到的对象的动作类型对应的概率。空间流卷积神经网络融合对象的姿态、道具以及场景等画面元素特征，可以预测画面中的对象的动作。

其中，第二类型概率信息是根据视频帧中的像素变化，预测得到的动作类型对应的概率。

在一实施例中，可以采用svm算法对第一类型概率信息和所述第二类型概率信息进行融合，得到最终的动作类型对应的概率信息，概率最高的动作类型可以确定为该待播放视频片段中对象的动作类型。

其中，SVM(Support Vector Machine,支持向量机)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalizedlinear classifier)，其决策边界是对学习样本求解的最大边距超平面(maximum-marginhyperplane)。

基于融合后的动作类型概率信息，可以确定待播放视频中的动作类型。

在一实施例中，所述svm算法层输出的一维向量中，将最大的元素对应的动作类型确定为所述待播放视频片段中对象的动作类型。

上述预设动作识别网络模型可以通过多任务训练得到，多任务训练是基于共享表示，把多个相关的任务放在一起学习的一种机器学习方法。现在大多数机器学习任务都是单任务学习，多任务学习的好处在于可以把多个相关的任务放在一起学习，共享多个任务之间的信息，能将其它任务学到的知识，运用在目标任务中，提高目标任务的效果。本发明中，目标任务指的是动作类型识别任务，其它任务指的是画面识别任务，在一个网络中同时学习两个任务，把从画面识别任务中学到的信息共享给动作识别任务，提高动作的识别效果。初始动作识别网络模型提供两个全连接输出层。这样两个数据集对初始动作识别网络模型进行训练时，其中一个全连接输出层对其中一个数据集(比如UCF101)的视频进行分类，另一个全连接输出层对另一个数据集中的图片进行分类，在最后用BP(BackPropagation，反向传播)算法计算误差时，把两个全连接输出层的输出加和，作为总的损失执行BP算法更新该网络模型中的权值。其中，用UCF101数据集，包括共计101个动作类型，13320段视频。共有5个大类的动作：人-物交互、肢体运动、人-人交互、弹奏乐器和运动等。数据集中的视频已被标注了正确的动作类型。

在一实施例中，可以根据动作类型的属性，来对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型。比如，“打斗”动作的属性为“暴力”，则目标视频片段类型为暴力类型。比如，“看书”动作的属性为“教育”，则目标视频片段类型为教育类型。再比如，“踢毽子”动作的属性为“娱乐”，则目标视频片段段类型为娱乐类型。

在一实施例中，可以采用自然语言处理技术，来理解所述动作类型对应的动作属性。其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

在另一实施例中，还可以通过预先标记了动作属性或者视频片段类型的数据集，训练动作识别网络模型，得到训练后的动作识别网络模型，使用训练后的动作识别网络模型直接得到动作类型对应的动作属性或者目标视频片段类型。

在另一实施例中，当所述待播放视频片段较长，包含的动作较多时，可以使用C3D卷积网络将待播放视频片段划分为多段，分别进行动作类型识别，最后进行叠加。

在另一实施例中，对视频内容进行识别也可以在终端中进行，终端可以通过网络从服务器中获取训练好的预设动作识别模型。

在另一实施例中，还可以通过识别待播放视频中的音频内容，来对待播放视频进行分类，对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型，具体还可以包括如下步骤：

其中，敏感词是指当前播放模式下禁止播放的词单元。

其中，音频内容包括背景音乐和语音信息，在本实施例中，服务器识别的是音频内容中的语音信息，识别语音信息的过程涉及到人工智能的ASR技术。

其中，ASR(Automatic Speech Recognition，自动语音识别技术)用于将将语音信息中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。ASR是语音技术(Speech Technology)的关键技术之一。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

在一实施例中，服务器中设置有语音助手，语音助手包括语音识别引擎，语音识别引擎可以应用ASR技术，对音频内容中的语音信息进行识别，获取语音信息对应的文本信息。

在一实施例中，利用ASR技术对所述语音信息进行识别，获取所述语音信息对应的文本信息，包括以下步骤：首先将语音信息输入给特征提取模块，提取出合适的声学特征参数，然后将提取出的声学特征参数输入声学模型进行分类和判断，得到语音信息对应的文本信息。

其中，可以采用隐马尔科夫模型(HMM)作为声学模型。隐马尔科夫模型(HMM)需要经过训练才可以使用。

在另一实施例中，还可以基于深度神经网络训练语言模型，提取语音信息的特征，将提取出的特征输入语言模型进行分类和判断，得到语音信息对应的文本信息。

在另一实施例中，对音频内容进行识别也可以在终端中进行，终端可以通过网络从服务器中获取训练好的语言模型或者声学模型。

在一实施例中，根据当前播放模式所需控制播放的敏感词集合，对所述文本信息进行识别，得到音频识别结果，可以包括如下步骤：

根据所述敏感词的属性，获取所述音频识别结果。

在一实施例中，可以先根据动作类型的属性，来对所述待播放视频片段进行分类，得到所述待播放视频片段的初始目标视频片段类型。然后根据音频识别结果对该初始目标视频片段类型进行验证，若初始目标视频片段类型与音频识别结果一致，则将该初始目标视频片段类型作为目标视频片段类型；若初始目标视频片段类型与音频识别结果不一致，则根据当前模式下对两者的控制程度，将目标视频片段类型确定为与控制程度更重的一致，比如，若青少年模式下对色情类型的控制程度比恐怖类型更重，初始目标视频片段类型为“恐怖”类型，而音频识别结果检测出敏感词汇为“色情”属性，则将目标视频片段确定为色情类型。

在一实施例中，为了方便分类和管理，可以预先对数据库中的可能出现的视频片段类型进行划分，得到预设视频片段类型。当根据动作类型和/或音频识别结果对待播放视频片段进行分类时，将待播放视频片段划分为预设视频片段类型中的某一个。预设视频片段类型可以存储在服务器或者终端中，当根据动作类型和/或音频识别结果对待播放视频片段进行分类时，可以从所述预设视频片段类型中确定所述目标视频片段类型。

在一实施例中，在对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型之后，还可以根据所述待播放视频片段对应的目标视频片段类型，生成所述目标视频的类型标记；基于所述类型标记，对所述目标视频进行标记，得到标记后的目标视频。

具体地，服务器对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型之后，可以将目标视频的视频片段对应的视频片段类型写入目标视频文件的索引文件中，得到标记后的目标视频文件，然后将数据库中的目标视频替换为标记后的目标视频。

当其它终端或者该终端再次请求在线播放该目标视频时，可以根据所述标记后的目标视频，直接获取所述待播放视频片段的视频片段类型。从而可以减少服务器的计算量，提高播放速度。

在另一实施例中，当由终端来执行本申请的视频播放方法时，如果是在线播放时，识别到目标视频片段类型之后，终端可以向服务器发送标记后的目标视频或者对应的类型标记。如果是离线播放已下载视频时，识别到目标视频片段类型，可以对已下载视频进行标记并保存。

103、基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级。

其中，控制等级用于表示对视频片段播放的控制尺度。根据播放模式对视频的控制程度不同，预设视频片段类型可以分为“禁止播放等级”、“限制播放等级”和“允许播放等级”三个等级。其中，“禁止播放等级”的视频片段是完全不可以播放的视频片段，比如，在儿童模式下，恐怖类型的片段为“禁止播放等级”的片段，“限制播放等级”的视频片段是限制观看时长或者需要家长陪同观看的类型，比如，在儿童模式下，娱乐类型的片段可以限制观看时长，在青少年模式下，恐怖、暴力类型的片段需要家长陪同观看等。

可以预先设置预设视频片段类型、播放模式和控制等级的映射关系，并存储在服务器中，服务器可以根据该映射关系，确定所述当前播放模式下，所述待播放视频片段对应的控制等级。

在一实施例中，当由终端来执行本申请的视频播放方法时，可以在终端中存储预设视频片段类型、播放模式和控制等级的映射关系，由终端根据该映射关系，确定控制等级。

104、根据所述控制等级，控制所述待播放视频片段的播放。

在一实施例中，服务器可以向终端发送所述待播放视频以及对应的所述控制等级，以使所述终端根据所述控制等级，控制所述待播放视频片段的播放。

终端可以根据所述控制等级，可以触发不同的控制指令，终端执行该控制指令，以控制所述待播放视频片段的播放。

在另一实施例中，服务器可以不向终端发送控制等级，而是在服务器中完成是否播发该待播放视频片段的判断，当可以播放时，向终端发送该待播放视频片段，若不可播放，则不向终端发送该待播放视频片段。

在一实施例中，所述播放等级包括允许播放等级，根据所述控制等级，控制所述待播放视频片段的播放，可以包括如下步骤：

在一实施例中，所述播放等级还包括禁止播放等级，根据所述控制等级，控制所述待播放视频片段的播放，还可以包括如下步骤：

当所述控制等级为禁止播放等级时，禁止播放待播放视频片段；

将所述下一视频片段更新为待播放视频片段；

在一实施例中，所述控制等级还包括限制播放等级，根据所述控制等级，控制所述待播放视频片段的播放，还可以包括如下步骤：

将所述下一视频片段更新为待播放视频片段；

其中，目标播放信息为与当前播放模式下，所述目标视频片段类型对应的预设播放条件相关的信息。

比如，服务器可以根据发送视频获取请求的用户的用户账号，获取用户在预设时间段内的播放记录，并统计播放记录中目标视频片段类型的时长，作为目标播放信息。当时长小于预设阈值时，认为满足预设播放条件，否则，认为不满足预设播放条件。其中，预设时间段和预设阈值是由用户设置的预设播放条件，比如，用户可以设置在儿童模式下，一天内观看娱乐类型片段的总时长不超过30分钟，其中，“一天”为预设时间段，“30分钟”为预设阈值。

再比如，服务器可以根据用户账号，向用户的关联账号或者关联设备(比如，家长的设备或者账号)发送播放请求，若关联设备允许播放，则可以播放该待播放视频片段，若关联设备不允许播放，则跳过该待播放视频片段。

在另一实施例中，当由终端来执行本申请的视频播放方法时，终端可以根据获取到的控制等级，可以触发不同的控制指令，终端执行该控制指令，以控制所述待播放视频片段的播放。

由上可知，本申请实施例可以在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段；对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；基于所述控制等级，控制所述待播放视频片段的播放。在播放目标视频时，对目标视频内容进行检测，并控制目标视频的播放，从而有效地过滤视频内容，净化用户的观影环境。

为了更好地实施以上方法，本发明实施例还提供一种视频播放装置，该视频播放装置具体可以集成在计算机设备中，该计算机设备可以为终端或服务器等设备。

比如，在本实施例中，将以视频播放装置集成在服务器中为例，对本发明实施例地方法进行详细说明。

比如，如图3所示，该视频播放装置可以包括视频获取单元201、类型获取单元202、控制单元203和播放单元204。如下：

(1)视频获取单元201，用于在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段。

(2)类型获取单元202，用于对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型。

在一实施例中，类型获取单元202具体可以包括特征提取子单元，特征融合子单元，类型确定子单元，如下：

特征提取子单元，用于对所述待播放视频片段的视频内容进行特征提取，得到所述视频内容的特征信息；

特征融合子单元，用于根据所述特征信息，确定所述待播放视频片段中对象的动作类型；

类型确定子单元，用于根据所述动作类型，对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型。

其中，在一实施例中，特征提取子单元具体可以用于：

从所述视频内容的视频帧中确定采样帧；

其中，在一实施例中，特征融合子单元具体可以用于：

在一实施例中，所述类型获取单元202具体还可以用于：

对所述文本信息进行词法划分，得到至少一个目标词单元；

根据所述敏感词的属性，获取所述音频识别结果；

在一实施例中，所述类型获取单元202具体还可以用于：

(3)控制单元203，用于基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级。

(4)播放单元204，用于根据所述控制等级，控制所述待播放视频片段的播放。

在一实施例中，所述控制等级包括允许播放等级，播放单元204具体可以用于：

在一实施例中，所述控制等级还包括禁止播放等级，播放单元204具体还可以用于：

将所述下一视频片段更新为待播放视频片段；

在一实施例中，所述控制等级还包括限制播放等级，播放单元204具体还可以用于：

将所述下一视频片段更新为待播放视频片段；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的视频播放装置由视频获取单元，在当前播放模式下播放目标视频时，获取待播放的目标视频的视频片段；由类型获取单元对所述待播放视频片段的内容进行识别，得到所述待播放视频片段的目标视频片段类型；由控制单元基于所述目标视频片段类型，确定所述当前播放模式下，所述待播放视频片段对应的控制等级；由播放单元根据所述控制等级，控制所述待播放视频片段的播放。在播放目标视频时，对目标视频的内容进行检测，并根据检测结果，控制目标视频的播放，从而有效地过滤视频内容，净化用户的观影环境。

本发明实施例还提供一种计算机设备，该计算机设备可以为终端或服务器。

例如，如图4所示，其示出了本发明实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303、输入模块304以及通信模块305等部件。本领域技术人员可以理解，图4中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器301是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行计算机设备的各种功能和处理数据。在一些实施例中，处理器301可包括一个或多个处理核心；在一些实施例中，处理器301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

存储器302可用于存储软件程序以及模块，处理器301通过运行存储在存储器302的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器302还可以包括存储器控制器，以提供处理器301对存储器302的访问。

计算机设备还包括给各个部件供电的电源303，在一些实施例中，电源303可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入模块304，该输入模块304可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该计算机设备还可包括通信模块305，在一些实施例中，通信模块305可以包括无线子模块，计算机设备可以通过该通信模块305的无线子模块进行短距离无线传输，从而提供无线的宽带互联网访问。比如，该通信模块305可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器301会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能，如下：

根据所述控制等级，控制所述待播放视频片段的播放。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。以上各个操作的具体实施方式可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种视频播放方法中的步骤。例如，该指令可以执行如下步骤：

根据所述控制等级，控制所述待播放视频片段的播放。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种视频播放方法中的步骤，因此，可以实现本申请实施例所提供的任一种视频播放方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种视频播放方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频播放方法，其特征在于，包括：

在当前播放模式下播放目标视频时，获取所述目标视频的待播放视频片段，所述待播放视频片段的内容包括视频内容，所述视频内容包括至少一张视频帧；

从所述视频内容的视频帧中确定采样帧；

根据预设动作识别网络模型的时间流卷积神经网络对光流信息进行卷积运算，提取所述视频内容的运动特征信息，基于所述画面元素特征信息与所述运动特征信息得到所述视频内容的特征信息；

根据所述动作类型，对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型；

根据所述控制等级，控制所述待播放视频片段的播放。

2.如权利要求1所述的视频播放方法，其特征在于，所述根据所述特征信息，确定所述待播放视频片段中对象的动作类型，包括：

3.如权利要求1所述的视频播放方法，其特征在于，所述根据所述动作类型，对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型，还包括：

根据所述音频识别结果和所述动作类型，对所述待播放视频片段进行分类，得到所述目标视频片段类型。

4.如权利要求3所述的视频播放方法，其特征在于，所述根据当前播放模式所需控制播放的敏感词集合，对所述文本信息进行识别，得到音频识别结果，包括：

根据所述敏感词的属性，获取所述音频识别结果。

5.如权利要求1所述的视频播放方法，其特征在于，在所述对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型之后，还包括：

6.如权利要求5所述的视频播放方法，其特征在于，所述对所述待播放视频片段进行分类，得到所述待播放视频片段的目标视频片段类型，包括：

7.如权利要求1所述的视频播放方法，其特征在于，所述控制等级包括允许播放等级，所述根据所述控制等级，控制所述待播放视频片段的播放，包括：

8.如权利要求1所述的视频播放方法，其特征在于，所述控制等级还包括禁止播放等级，所述根据所述控制等级，控制所述待播放视频片段的播放，还包括：

将所述下一视频片段更新为待播放视频片段；

重复执行从所述从所述视频内容的视频帧中确定采样帧的步骤开始，至所述根据所述控制等级，控制所述待播放视频片段的播放的步骤为止的视频播放控制过程的步骤。

9.如权利要求1所述的视频播放方法，其特征在于，所述控制等级还包括限制播放等级，所述根据所述控制等级，控制所述待播放视频片段的播放，包括：

将所述下一视频片段更新为待播放视频片段；

10.一种视频播放装置，其特征在于，包括：

视频获取单元，用于在当前播放模式下播放目标视频时，获取待播放的目标视频的视频片段，所述待播放视频片段的内容包括视频内容，所述视频内容包括至少一张视频帧；

类型获取单元，用于从所述视频内容的视频帧中确定采样帧；

11.一种服务器，其特征在于，包括：处理器和存储器；所述存储器质存储有多条指令，所述处理器加载所述存储器存储的指令以执行权利要求1-9任一项所述的视频播放方法中的步骤。

12.一种存储介质，其上存储有计算机程序，其特征在于，当计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至9中任一项所述的视频播放方法。