CN110996138A

CN110996138A - 一种视频标注方法、设备及存储介质

Info

Publication number: CN110996138A
Application number: CN201911304063.5A
Authority: CN
Inventors: 朱城伟; 孙子荀; 陈晓; 姚文韬; 李廷天; 屠子睿; 赵爽; 王丽
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-10
Anticipated expiration: 2039-12-17
Also published as: CN110996138B; WO2021120814A1

Abstract

本发明提供了一种视频标注方法、设备及存储介质；该方法包括：接收终端发送的视频提取指令，并根据视频提取指令获取待提取视频；从待提取视频的视频帧中提取出一个或多个事件信息；其中，事件信息表征组成待提取视频的情节内容的基本元素；利用一个或多个事件信息组成至少一个事件信息流；基于至少一个事件信息流，从待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到至少一个第一片段的情节标注标签；其中，所述情节标注标签用于对所述至少一个第一片段进行标注。通过本发明，能够提高视频标注的效率。

Description

一种视频标注方法、设备及存储介质

技术领域

本发明涉及视频处理技术，尤其涉及一种视频标注方法、设备及存储介质。

背景技术

视频标注是指将视频中的精彩片段标注出来，同时得到精彩片段的标注标题，使得用户可以根据标注标题选择精彩片段进行播放，便于用户在有限的观看时间内，完成对视频中的精彩片段的观看。目前，常用的视频标注方式有三种，分别为根据播放量进行标注，根据视频本身对应的运行数据进行标注，例如利用游戏视频对应的游戏运行数据等标注出精彩片段，以及根据视频播放过程中的评论信息进行标注，例如弹幕数据等提取精彩片段。

然而，利用播放量标注出精彩片段时，需要统计视频每个时刻的播放量，工作量巨大，使得视频标注的效率较低；利用视频对应的运行数据标注出精彩片段时，由于视频获取渠道存在差异，使得一些视频可能缺失其所对应运行数据，此时，会导致视频标注的效率较低；而利用评论信息标注出精彩片段时，精彩片段受限于评论信息的参考价值，当评论信息的参考价值较低时，也会使得视频标注的效率较低。

发明内容

本发明实施例提供一种视频标注方法、设备及存储介质，能够提高视频标注的效率。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种视频标注方法，包括：

接收终端发送的视频提取指令，并根据所述视频提取指令获取待提取视频；

从所述待提取视频的视频帧中提取出一个或多个事件信息；其中，事件信息表征组成所述待提取视频的情节内容的基本元素；

利用所述一个或多个事件信息组成至少一个事件信息流；基于所述至少一个事件信息流，从所述待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到所述至少一个第一片段的情节标注标签；其中，所述情节标注标签用于对所述至少一个第一片段进行标注。

本发明实施例提供一种视频标注方法，包括：

向服务器发送视频提取指令；所述视频提取指令指定了进行视频标注的待提取视频；

接收所述服务器发送的至少一个第一片段和对应的情节标注标签；所述至少一个第一片段和所述情节标注标签是所述服务器响应于所述视频提取指令得到的；

获取所述至少一个第一片段的标注信息；其中，所述标注信息是利用所述情节标注标签对所述至少一个第一片段对应标注得到的；

在进行所述待提取视频展示时，在显示区域展示所述标识信息；其中，所述显示区域为展示所述待提取视频的显示界面中的第一预设区域。

本发明实施例提供一种服务器，包括：

第一存储器，用于存储可执行视频标注指令；

第一处理器，用于执行所述第一存储器中存储的可执行视频标注指令时，实现本发明实施例服务器侧提供视频标注方法。

本发明实施例提供一种终端，包括：

第二存储器，用于存储可执行视频标注指令；

第二处理器，用于执行所述第二存储器中存储的可执行视频标注指令时，实现本发明实施例终端侧提供视频标注方法。

本发明实施例提供一种存储介质，存储有可执行视频标注指令，用于第一引起第一处理器执行时，实现本发明实施例服务器侧提供的视频标注方法，或者用于引起第二处理器执行时，实现本发明实施例终端侧提供的视频标注方法。

本发明实施例具有以下有益效果：

本发明实施例中，服务器能够接收终端发送的视频提取指令，然后根据视频提取指令得到待提取视频，接着从待提取视频的视频帧中提取出一个或多个事件信息，之后，利用所得到一个或多个事件信息组成至少一个事件信息流，最后基于至少一个事件信息流从待提取视频中截取出满足情节触发条件的至少一个第一片段，以及至少一个第一片段的情节标注标签；终端接收服务器发送的至少一个第一片段和情节标注标签，之后，获取利用情节标注标签对至少一个第一片段进行对应标注所得到标注信息，进而在显示区域展示标注信息，完成对待提取视频的视频标注过程。如此，能够利用待提取视频的视频帧中的图像内容，完成对精彩片段的标注，提高了视频标注的效率。

附图说明

图1是本发明实施例提供的视频标注系统100的一个可选的结构示意图；

图2是本发明实施例提供的服务器200的一个可选的结构示意图；

图3是本发明实施例提供的终端400的一个可选的流程示意图；

图4是本发明实施例提供的视频标注方法的一个可选的流程示意图；

图5是本发明实施例提供的标注信息的示意图；

图6是本发明实施例提供的对游戏视频中的精彩情节的分析过程示意图；

图7是本发明实施例提供的匹配第一事件信息的示意图；

图8是本发明实施例提供的抽取第二事件信息的示意图；

图9是本发明实施例提供的抽取第三事件信息的示意图；

图10是本发明实施例提供的对初始视频帧进行裁剪处理的示意图；

图11是本发明实施例提供的根据分类结果识别待处理视频帧的示意图；

图12是本发明实施例提供的对待处理视频帧进行特征重排的示意图；

图13是本发明实施例提供的待处理视频帧和分辨率增强后的待处理视频帧的对比示意图；

图14是本发明实施例提供的得到修正后的事件信息的示意图；

图15是本发明实施例提供的结构化信息的示意图；

图16是本发明实施例提供的呈现第一片段的示意图；

图17是本发明实施例提供的视频标注过程示意图；

图18是本发明实施例示出的游戏视频中的一些视频帧；

图19是本发明实施例示出的帧分类模型的示意图；

图20是本发明实施例示出的分辨率增强模型的示意图；

图21是本发明实施例提供的对游戏视频进行视频信息抽取的示意图；

图22是本发明实施例示出的剧本配置示意图；

图23是本发明实施例示出的结构信息项和剧本构建的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)第一片段，是指视频中观看价值较高的片段，可以理解为视频中的精彩片段。相比于视频中的其他片段，第一片段中常常包含有情节的关键的内容，或者是观众更喜爱观看的内容。例如，电竞游戏视频内容中的团战内容，电视剧中的情节转折点等。

2)事件信息，表征组成视频的情节内容的基本元素，例如时间、人物、地点、人物行为、造成后果等内容。事件信息可以从视频帧中提取。

3)事件信息流，指将多个视频帧中的事件信息，按照视频帧的顺序整理而来的信息流。事件信息流能够描述视频中所发生的事件。

4)事件检测模型，用于对视频帧中的事件信息进行检测的模型。通过事件检测模型，对视频帧进行图像处理，从而将视频帧中的事件信息识别出来。例如，针对某个电视剧的视频帧，可以利用事件检测模型识别出电视剧中的人物角色等。

5)视频图像特征点，指能够对视频帧的特征进行描述的结构，例如，视频帧中两个边缘的交点，视频帧中灰度值剧烈变化的点等。通过匹配视频图像特征点，能够识别出视频帧中的事件信息。

视频标注是指将视频中的精彩片段标注出来，同时得到精彩片段的标注标题，使得用户可以根据标注标题选择精彩片段进行播放，进而使得用户可以在有限的观看时间内，不遗漏视频中的精彩片段。相关技术中，常用的视频标注方式有三种，分别为利用播放量进行标注，利用视频本身的运行时间进行标注，以及利用视频播放过程中的评论信息进行标注。

根据播放量进行标注时，需要先获取视频在各个时刻的播放量，并将视频中播放量最大的时刻提取出来，接着从视频中找到播放量最大的时刻所属的分镜片段，进而根据该分镜片段，标注出视频中的精彩片段。然而，这种方式需要统计视频每个时刻的播放量，工作量巨大，使得视频标注的效率较低。

利用视频对应的运行数据标注出精彩片段时，需要对视频对应的程序运行数据进行获取，进而根据运行数据，确定出精彩片段。例如，利用游戏视频对应的游戏运行数据提取精彩片段时，先根据游戏运行数据确定出精彩片段起始时刻和终止时刻，然后根据起始时刻和终止时刻，从视频中截取出精彩片段。然而，这种方式并不适用一些不具有对应的运行数据的视频，例如，用户上传的游戏视频，电影视频等，此时，就无法再使用该方式得到精彩片段，导致视频标注的效率降低。

利用评论信息标注出精彩片段时，先要获取视频各个时刻的评论信息，例如弹幕信息等，然后评论信息满足要求的视频段作为精彩片段，从而达到从视频中标注出精彩片段的目的。然而，利用这种方式标注出精彩视频时，是非常依赖评论信息的参考价值的，当评论信息的参考价值较低时，或者是有些视频中不具有评论信息时，就难以进行精彩片段的标注，进而使得视频标注的效率较低。

本发明实施例提供一种视频标注方法、设备和存储介质，能够提高视频标注的效率。下面说明本发明实施例提供视频标注设备的示例性应用，本发明实施例提供的视频标注设备可以实施为智能手机、平板电脑、笔记本电脑等各种类型的用户终端，也可以实施为服务器。下面，将说明视频标注设备分别实施为服务器和终端，通过服务器和终端之间的协同运作完成视频标注时的示例性应用。

参见图1，图1是本发明实施例提供的视频标注系统100的一个可选的架构示意图，为实现支撑一个视频标注应用，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

终端400用于通过网络300向服务器200发送视频提取指令，其中，视频提取指令指定了需要进行视频提取的待提取视频。服务器200用于接收视频终端发送的视频提取指令，并根据视频提取指令获取待提取视频。之后，服务器200待提取视频的视频帧中，提取出一个或多个事件信息，其中，事件信息表征组成待提取视频的情节内容的基本元素。接下来，服务器200会利用所抽取到的一个或多个事件信息，组成至少一个事件信息流，并且事件信息流中事件信息的顺序与视频帧的顺序相同。接着，服务器200基于至少一个事件信息流，从待提取视频中截取出至少一个第一片段，同时得到至少一个第一片段的情节标注标签，以便于利用情节标注标签对至少一个片段进行标注。之后，服务器200会通过网络300，将至少一个第一片段和对应的情节标注标签返回给终端400，终端400在接收到服务器200发送的至少一个精彩片段和对应的情节标注标签之后，或获取至少一个第一片段的标注信息，其中，标注信息是利用情节标注标签对至少一个第一片段对应标注得到的。最后，终端400在进行待提取视频展示时，在显示区域展示标注信息。

参见图2，图2是本发明实施例提供的服务器200的一个可选的结构示意图，图2所示的服务器200包括：至少一个第一处理器210、第一存储器250、至少一个第一网络接口220和第一用户接口230。服务器200中的各个组件通过第一总线系统240耦合在一起。可理解，第一总线系统240用于实现这些组件之间的连接通信。第一总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为第一总线系统240。

第一处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

第一用户接口230包括使得能够呈现媒体内容的一个或多个第一输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。第一用户接口230还包括一个或多个第一输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

第一存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的第一存储器250旨在包括任意适合类型的存储器。第一存储器250可选地包括在物理位置上远离第一处理器210的一个或多个存储设备。

在一些实施例中，第一存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

第一操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

第一网络通信模块252，用于经由一个或多个(有线或无线)第一网络接口220到达其他计算设备，示例性的第一网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

第一显示模块253，用于经由一个或多个与第一用户接口230相关联的第一输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

第一输入处理模块254，用于对一个或多个来自一个或多个第一输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的视频标注装置可以采用软件方式实现，图2示出了存储在第一存储器250中的视频标注装置255，其可以是程序和插件等形式的软件，包括以下软件模块：第一接收模块2551、提取模块2552、信息流生成模块2553、截取模块2554，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的视频标注装置可以采用硬件方式实现，作为示例，本发明实施例提供的视频标注装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频标注方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

示例性的，本发明实施例提供一种服务器，包括：

第一存储器，用于存储可执行视频标注指令；

第一处理器，用于执行所述第一存储器中存储的可执行视频标注指令时，实现本发明实施例服务器侧提供的视频标注方法。

参见图3，图3是本发明实施例提供的终端400的一个可选的结构示意图，图3所示的终端400包括：至少一个第二处理器410、第二存储器450、至少一个第二网络接口420和第二用户接口430。终端400中的各个组件通过第二总线系统440耦合在一起。可理解，第二总线系统440用于实现这些组件之间的连接通信。第二总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为第二总线系统440。

第二处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

第二用户接口430包括使得能够呈现媒体内容的一个或多个第二输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。第二用户接口430还包括一个或多个第二输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

第二存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的第二存储器450旨在包括任意适合类型的存储器。第二存储器450可选地包括在物理位置上远离第二处理器410的一个或多个存储设备。

在一些实施例中，第二存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

第二操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

第二网络通信模块452，用于经由一个或多个(有线或无线)第二网络接口420到达其他计算设备，示例性的第二网络接口420包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

第二显示模块453，用于经由一个或多个与第二用户接口430相关联的第二输出装置431(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

第二输入处理模块454，用于对一个或多个来自一个或多个第二输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的呈现装置可以采用软件方式实现，图3示出了存储在第二存储器450中的呈现装置455，其可以是程序和插件等形式的软件，包括以下软件模块：第二发送模块4551、第二接收模块4552、获取模块4553和呈现模块4554，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的呈现装置可以采用硬件方式实现，作为示例，本发明实施例提供的呈现装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的视频标注方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

示例性的，本发明实施例提供一种终端，包括：

第二存储器，用于存储可执行视频标注指令；

第二处理器，用于执行所述第二存储器中存储的可执行视频标注指令时，实现本发明实施例终端侧提供的视频标注方法。

下面，将结合本发明实施例提供的视频标注设备的示例性应用和实施，说明本发明实施例提供的视频标注方法。

参见图4，图4是本发明实施例提供的视频标注方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。本发明实施例提供的视频标注方法，包括：

S101、服务器接收终端发送的视频提取指令，并根据视频提取指令获取待提取视频。

本发明实施例是在对视频进行视频片段标注的场景下实现的。终端根据用户的操作生成视频提取指令，并用视频指令指定了需要进行视频标注的待提取视频，然后将视频提取指令发送给服务器。服务器接收终端发送的视频提取指令，并根据视频提取指令获取用户所指定的待处理视频。

需要说明的是，终端可以将待提取视频携带在视频提取指令中，使得服务器在接收到视频提取指令时，可以同步接收到待提取视频，以根据视频提取指令获取待提取视频；还可以是在视频提取指令中携带有待提取视频的标识信息，使得服务器在接收到视频提取指令时，可以根据待提取视频的标识信息，从网络中获取到待提取视频，本发明实施例在此不作限定。

可以理解的是，待提取视频的标识信息，是指能将待提取视频与其他视频进行区分的标识。本发明实施例中，可以选择视频编号作为待提取视频的标识信息，也可以选择视频标题等作为待提取视频的标识信息，还可以选择其他信息作为待提取视频的标识信息，本发明实施例在此不作限定。

在本发明实施例中，待提取视频可以是由用户实时录制的视频，例如，在游戏直播平台上实时录制的游戏视频，此时，通过终端和服务器的协同运作，能够实现边直播边提取精彩片段的效果；待提取视频也可以是已经存储在终端的视频，例如，用户下载好的游戏视频等，此时，通过终端和服务器的协同运作，能够实现对已有视频进行精彩片段提取的效果；还可以是其他类型的视频，例如存储在云端的视频等，本发明实施例在此不作具体限定。

可以理解的是，待提取视频可以是任意类型的视频，例如电影视频、电视剧视频、动漫视频、游戏视频、综艺视频等，本发明实施例在此不作具体限制。

S102、服务器从待提取视频的视频帧中提取出一个或多个事件信息；其中，事件信息表征组成待提取视频的情节内容的基本元素。

服务器在得到待提取视频之后，就可以将待提取视频拆解成一系列视频帧，然后对待提取视频的视频帧进行事件信息抽取操作，得到视频帧中所包含的一个或多个事件信息，即从视频帧中提取出能够组成待提取视频的情节内容的基本元素。

可以理解的是，由于对于一些视频帧，其所包含的能够组成情节内容的基本元素可能不止一个，即服务器从这些视频帧中，能够提取出多个事件信息，同时，每个视频帧中必然会包括有构成情节内容的基本元素，因此，服务器针对每个视频帧都能提取到一个或多个事件信息。

需要说明的是，由于情节内容一般可以拆解为时间、地点、人物、行为、后果、情节条件等基本元素，相应地，事件信息可以是表征人物的信息，例如是游戏视频中所出现的游戏人物，电影视频中所出现的角色人物等；事件信息可以是表征地点的信息，例如，游戏视频中坐标位置，电视剧视频中的室内外场景等；事件信息可以是表征行为的信息，例如游戏视频中游戏人物的行为；事件信息可以是表征情节条件的信息，例如游戏视频中游戏人物的生命值等；事件信息还可以是表征后果的信息，例如游戏视频中游戏人物的击败游戏中的野怪等。值得注意的是，由于视频帧具有先后顺序，因此，服务器从不同视频帧中所抽取出的不同事件信息，也是具有先后顺序的。

S103、服务器利用一个或多个事件信息组成至少一个事件信息流。

服务器利用所提取到的一个或多个事件信息，按照视频帧的顺序整合起来，并将整合的结果作为事件信息流，换句话说，事件信息流中的事件信息的顺序，必然是与视频帧的顺序相同的。由于一些待处理视频帧中的事件信息，可以组成一个事件信息流，而另一些待处理视频帧中的事件信息，所组成的则是另一个事件信息流，因而，服务器就可以得到至少一个事件信息流。

需要说明的是，虽然情节内容可以拆分为时间、地点、人物、行为、后果、情节条件等基本元素组成的，但是这些基本元素之间是具有组合、顺序的，即只有将时间、地点、人物、行为、后果、情节条件按照一定的顺序组合起来，才有可能得到视频中用户所能理解的情节内容，因此，服务器需要先对事件信息按照视频帧的顺序进行整合，以事件信息流的形式来对视频中的情节内容进行描述，如此，才能在后续结合情节触发条件截取出第一片段。

S104、服务器基于至少一个事件信息流，从待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到至少一个第一片段的情节标注标签；其中，情节标注标签用于对至少一个第一片段进行标注。

服务器在得到能够表征情节内容的事件信息流之后，会结合情节触发条件对这些事件信息流进行分析，判断这些事件是否满足成为第一片段的条件，即是否满足预设情节触发条件，然后将满足情节触发条件的事件信息流提取出来，并确定出该事件信息流所对应的起始视频帧和结束视频帧，进而根据起始视频帧对应的播放时刻，确定出第一片段的起始时间，根据结束视频帧对应的播放时刻，确定出第一片段的结束时间，这样，服务器就能够根据起始时间和结束时间，从待提取视频中截取出一段视频，并将该段视频作为第一片段。与此同时，服务器还会对根据情节触发条件，得到至少一个第一片段的情节标注标签。

需要说明的是，本发明实施例中，第一片段可以是视频中的精彩片段，还可以是视频中其他片段，例如观众喜爱观看的片段、社会正能量宣传片段等，本发明实施例在此不作限定。

可以理解的是，由于待提取视频所具有的各种情节内容中，满足成为第一片段的条件的情节内容极有可能不止一个，因而，服务器能从待提取视频中截取出至少一个第一片段。

需要说明的是，本发明实施例中，情节触发条件表征衡量情节内容能够成为第一片段的条件，即只有满足了情节触发条件，情节内容才能作为一个第一片段。在本发明实施例中，情节触发条件是通过对剧情进行分析，并依据分析结果进行配置得到的。

本发明实施例中，情节标注标签是指能够对第一片段中的情节内容进行概括描述的标签。需要说明的是，情节标注标签与情节触发条件是相对应的，即事件信息流满足了哪个情节触发条件，所截取出的第一片段就会具有与该情节触发条件对应的情节标注标签。示例性的，当事件信息流满足极限反击情节所对应的情节触发条件时，第一片段的情节标注标签就为极限反击。

S105、终端接收服务器发送的至少一个第一片段和对应的情节标注标签；至少一个第一片段和情节标注标签是服务器响应于视频提取指令得到的。

在本发明实施例中，服务器在基于至少一个事件信息流，从待提取视频中截取出满足情节触发条件的至少一个第一片段，得到至少一个第一片段的情节标注标签之后，服务器能将至少一个精彩片段和对应的情节标注标签发送给终端，以使终端采用所述情节标注标签标注对应的至少一个精彩片段，将得到的标注信息和对应至少一个精彩片段进行呈现，完成针对待提取视频的视频标注。终端接收服务器发来的至少一个第一片段和对应的情节标注标签，其中，服务器在上述步骤所进行的截取第一片段，以及得到情节标注标签的操作，都是在接收到终端所发送的视频提取指令之后的响应操作，此时，第一片段和情节标注标签可以理解为是服务器响应于视频提取指令得到的。

S106、终端获取至少一个第一片段的标注信息；其中，标识信息是利用情节标注标签对至少一个第一片段对应标注得到的。

终端获取至少一个第一片段中的每个第一片段的标注信息，以便于后续对标识信息进行呈现。由于情节标注标签和第一片段是同时生成的，因而，情节标注标签与第一片段之间存在着对应关系。终端利用该对应关系，可以在获取至少一个第一片段的标注信息之前，利用情节标注标签对至少一个第一片段的进行对应标注，从而得到标注信息。

需要说明的是，终端所获取的至少一个片段的标注信息，还可以是服务器利用情节标注标签对至少一个第一片段对应标注得到的，这时，上述S105的步骤就变为终端接收服务器发送的至少一个第一片段和标注信息，或是接收服务器发送的至少一个第一片段、情节标注标签和标注信息，本发明实施例在此不作限定。

S107、终端在进行待提取视频展示时，在显示区域展示标注信息；其中，显示区域为展示待提取视频的显示界面中的第一预设区域。

终端将标注信息显示在显示界面中事先划定好的显示区域中，以使用户可以通过标注信息，得知待提取视频中都有哪些第一片段，以便于用户后续对这些第一片段进行操作，如此，就完成了针对待提取视频的视频标注过程。

需要说明的是，标注信息显示区域是位于显示界面的第一预设区域的，其中，第一预设区域可以位于显示界面的右侧，也可以位于显示界面的左侧，还可以位于显示界面的其他位置，本发明实施例在此不作限定。

在本发明的一些实施例中，终端除了对标注信息呈现之外，可以对第一片段的开始时间和结束时间进行呈现，使得用户了解标注信息对应的是哪个时间段的视频；还可以在与第一预设区域不重叠的其他显示区域中，对待提取视频进行呈现，以使得用户在获知待提取视频哪些视频段是第一片段的同时，可以对待提取视频进行播放播放。除此之外，终端还可以在其他显示区域中，设置用于播放第一片段的显示区域，如此，不仅能够使用户获知哪些是片段是第一片段，还能够在该显示区域中直接观看第一片段。

可以理解的是，终端可以在标注信息上添加第一片段的播放连接，使得用户点击标注信息时，就可以播放对应的第一片段，还可以为标注信息生成播放标识，使得用户在点击播放标识之后，播放标注信息对应的第一片段。

示例性的，参见图5，本发明实施例提供了标注信息的示意图。在图5中，显示区域5-1为播放待提取视频的显示区域，显示区域5-2为展现标注信息的显示区域。当待提取视频为用户在直播平台上录制的竞技类游戏视频时，在显示区域5-1中，终端能够对该竞技类游戏视频进行播放，在显示区域5-2中，分别显示了从该竞技类游戏视频中所截取出的4个第一片段的开始时间、结束时间，以及这4个第一片段对应的标注信息，即00:08:51-00:09:51击败暴君5-21、00:11:14-00:12:14连续推塔5-22、00:12:05-00:13:05直播糗事5-23、00:15:32-00:16:32草丛偷袭5-24。这样，用户就可以从终端的显示界面上，知晓该竞技类游戏视频中具有哪些观看价值较高的第一片段了。

在本发明的一些是实施例中，服务器基于至少一个事件信息流，从待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到至少一个第一片段的情节标注标签，即S104的具体实现过程，可以包括：S1041-S1042，如下：

S1041、服务器从至少一个事件信息流中，提取出满足情节触发条件的事件信息流，作为至少一个目标事件信息流；其中，情节触发条件表征精彩情节内容的条件。

服务器在得到至少一个事件信息流之后，就可以在自身的存储空间中获取预设的情节触发条件，并用获取到的情节触发条件对所得到的事件信息流进行判断，当事件信息流符合情节触发条件时，服务器认为该事件信息流所描述的情节内容的观看价值较高，即该事件信息流所对应的一些视频帧按照顺序播放出来之后，能够呈现出用户喜爱观看的情节内容，这时，服务器会将该事件信息流作为目标事件信息流。由于在所提取出的至少一个事件信息流中，满足情节触发条件的可能不止一个，因而，服务器可以获得至少一个目标事件信息流。

示例性的，当综艺节目中精彩情节内容为辩论情节时，可以对辩论情节进行分析，得知辩论情节为两队辩手在一段时间内轮番发言，此时，可以将情节触发条件设置为当综艺视频中的两队辩手轮番发言，只有当综艺视频中的情节内容满足该要求时，才是精彩情节内容，而当视频内容不满足该要求时，例如，主持人与观众互动，则不是精彩情节内容。

示例性的，参见图6，为本发明实施例提供的对游戏视频中的精彩情节的分析过程示意图。如图6所示，当游戏视频中的精彩情节内容为极限反击情节6-1时，可以对极限反击情节进行分析，得知极限反击情节6-1是指游戏人物在生命值低于30％情况下，将2名以上的敌方游戏人物击败的情形6-2，进一步地，服务器可以将该情节进一步细化，得知极限反击的地点6-31为不限，极限反击的人物6-32为A阵营的游戏人物和B阵营的游戏人物(A阵营和B阵营互为敌对阵营)，极限反击的条件6-33为A阵营的游戏人物生命值低于30％，极限反击的时间6-34为A阵营的游戏人物生命值低于30％的时间段内，极限反击的行为6-35为A阵营的游戏人物攻击多名B阵营的游戏人物，极限反击的后果6-36为A阵营的游戏人物击败多名B阵营的游戏人物。这时，服务器就可以将上述这些分析结果设置情节触发条件。

可以理解的是，本发明实施例中，情节触发条件并不只是特指某一个情节条件，而是泛指所有提前设置好的情节触发条件，进一步地，服务器中可以具有多个不同的情节触发条件，服务器根据这些情节触发条件，能够提取出对应多个不同的情节内容所对应的目标事件信息流。

S1042、服务器根据至少一个目标事件流中的每个目标事件信息流，从待提取视频中截取出至少一个第一片段，并根据情节触发条件得到至少一个第一片段的情节标注标签。

服务器分析出每个目标事件信息流所对应的起始视频帧和结束视频帧，进而根据起始视频帧对应的播放时刻，和结束视频帧对应的播放时刻，从待提取视频中截取出至少一个第一片段，同时，根据情节触发条件得到情节标注标签。

在本发明的一些实施例中，服务器可以将情节触发条件进行简要概括，将概括所得到的内容作为第一片段的情节标注标签。当然，服务器还可以根据其他方式来生成第一片段的情节标注标签，本发明实施例在此不作限定。

本发明实施例中，服务器能利用至少一个事件信息流和设置好的情节触发条件进行比较，从至少一个事件信息流中提取出至少一个目标事件信息流，最后根据这些目标事件信息流对应的时间信息，截取出至少一个第一片段，并根据情节触发条件得到情节标注标签，如此，服务器就能够基于由待提取视频的视频帧的图像内容所得到至少一个事件信息流，截取出满足情节触发条件的第一片段，同时得到情节标注标签，完成视频标注。

在本发明的一些实施例中，服务器根据至少一个目标事件信息流中的每个目标事件信息流，从待提取视频中截取出至少一个第一片段，并根据情节触发条件得到至少一个第一片段的情节标注标签，即S1042的具体实现过程，可以包括：S1042a-S1042d，如下：

S1042a、服务器为每个目标事件信息流，分别确定出起始视频帧和结束视频帧；起始视频帧对应目标事件信息流开始的视频帧，结束视频帧对应目标事件信息流结束的视频帧。

由于事件信息是从待提取视频的视频帧中提取出来的，因而，事件信息与待提取视频的视频帧之间必然存在着对应关系的。服务器根据该对应关系，以及目标事件流开始时的事件信息，能够从待提取视频的视频帧中，为目标事件流确定出其所开始的视频帧，即确定出起始视频帧，根据该对应关系和目标事件流结束时的事件信息，从待提取视频的视频帧中，为目标事件流确定出其所结束的视频帧，即确定出结束视频帧。服务器为每个目标事件信息流都进行上述操作，就能够为每个目标事件信息流，分别确定出起始视频帧和结束视频帧。

S1042b、服务器将起始视频帧对应的播放时间作为第一片段起始时间点，将结束视频帧对应的播放时间作为第一片段结束时间点。

由于每个视频帧都有其对应的播放时刻，起始视频帧和结束视频帧都是从待提取视频的视频中中确定出来的，因而，起始视频帧和结束视频帧会分别具有其所对应的播放时间，这时，服务器就可以将起始视频帧对应的播放时间，直接作为第一片段的起始时间点，将结束视频帧所对应的播放时间，作为第一片段结束时间点，这样，服务器就能够知晓在待提取视频的哪个时间段内的视频内容，是属于第一片段了。

示例性的，当目标事件信息流的起始视频帧为第10帧时，目标事件信息流的结束事件信息流的结束视频帧为第30帧时，服务器可以将第10帧对应的播放时间，作为第一片段起始时间点，将第30帧对应的播放时间，作为第一片段结束时间点，这样，服务器就能够知道第一片段所对应的时间段。

S1042c、服务器根据第一片段起始时间点，和第一片段结束时间点，从待提取视频中截取出至少一个第一片段。

服务器在知晓第一片段起始时间点，以及第一片段结束时间点之后，就可以将处于第一片段起始时间点，以及第一片段结束时间点之间的视频内容截取出来，作为第一片段，利用这种方式，服务器就可以得到每个目标事件信息流对应的第一片段，即得到至少一个第一片段。

S1042d、服务器将情节触发条件对应的情节标签，作为情节标注标签。

服务器直接将情节触发条件对应的情节标签，作为情节标注标签，可以理解的是，情节标签是在剧情分析时，根据剧情的特点进行命名的，当然，情节标签也可以是根据其他方式确定出来的，例如根据情节触发条件中所包含的明星人物确定出来的，本发明实施例在此不作限定。

本发明实施例中，服务器为每个目标事件信息流，分别确定出起始视频帧和结束视频帧，进而确定出第一片段起始时间点和第一片段结束时间点，再将第一片段起始时间点和第一片段结束时间点之间的视频内容提取出来，得到至少一个第一片段，再将情节触发条件对应的情节标签作为情节标注标签。通过这种方式，服务器能够完成至少一个第一片段的标注过程。

在本发明的一些实施例中，服务器在接收终端发送的视频提取指令，并根据视频提取指令获取待提取视频之后，从待提取视频的视频帧中提取出一个或多个事件信息之前，即在S101之后，S102之前，该方法还可以包括：S108-S110，如下：

S108、服务器从待提取视频中，抽取出至少一个初始视频帧。

服务器在得到待提取视频之后，除了从待提取视频的视频帧中直接得到一个或多个事件信息，还可以对待提取视频中的视频帧进行抽帧、裁剪、识别等预处理，得到至少一个待处理视频帧。预处理一方面可以减少后续事件信息抽取过程所需要处理的视频帧的数量，加快处理速度，另一方面可以去除待提取视频中容易对事件信息提取造成影响的内容，例如将视频中的广告内容去除，使得事件信息的抽取更加准确。

服务器在对待提取视频帧进行预处理时，先是要从待提取视频中，按照一定的抽帧间隔，抽取出至少一个初始视频帧，以便于后续对这些初始视频帧进行处理。

需要说明的是，抽帧是为了减少后续需要进行处理的视频帧的数量，加快处理速度，从而提高视频标注的效率。

可以理解的是，本发明实施例中，抽帧间隔可以是设置好的，例如，每隔10帧抽取一帧，也可以是根据待提取视频的帧率计算出来的。具体的抽帧间隔可以根据实际情况来进行设定，本发明实施例在此不作限定。

S109、服务器对至少一个初始视频帧中的每个初始视频帧进行裁剪处理，得到至少一个中间视频帧。

服务器在得到至少一个初始视频帧之后，就可以对初始视频帧进行裁剪处理，得到视频播放部分和非视频播放部分，并将非视频播放部分滤除，将视频播放部分作为中间视频帧，这样，在完成对每个初始视频帧的裁剪处理之后，服务器就能够得到至少一个中间视频帧。

需要说明的是，非视频播放部分指的是在视频播放区域周边的图像部分，例如，在视频播放区域侧边的广告页面，在视频播放区域侧边的简要内容介绍页面等。将这些非视频播放部分滤除，能够使得后续的帧识别处理，乃至事件信息抽取处理，都集中在视频播放部分，降低视频帧中的冗余内容对后续处理的影响，提高事件信息抽取的准确度，进而提高视频标注的准确度。

S110、服务器从至少一个中间视频帧中，识别出至少一个待处理视频帧。

服务器在得到至少一个中间视频帧之后，会对中间视频帧进行图像识别，从中间视频帧中识别出需要进行处理的视频帧，作为待处理视频帧。服务器在完成对每个中间视频帧的识别操作之后，就可以得到至少一个待处理视频帧。服务器在得到至少一个待处理视频帧之后，相应的，从待提取视频的视频帧中提取出一个或多个事件信息的过程，就会变为从至少一个待处理视频帧的每个待处理视频帧中，提取出一个或多个事件信息。

可以理解的是，由于在视频中可能存在一些与视频无关的内容，例如插播的广告等，使得至少一个中间视频帧中可能存在与视频内容无关的视频帧，且这些视频帧无法通过裁剪方式去除。这时，就需要通过图像识别的方式，从至少一个中间视频帧中，将这些与视频内容无关的视频帧识别出来并删除，将剩余的视频帧作为待处理视频帧，以使后续的事件信息提取的准确率更高。

本发明实施例中，服务器能够先从待提取视频中抽取出至少一个初始视频帧，然后对每个初始视频帧进行裁剪处理，得到至少一个中间视频帧，最后通过图像识别的方式，从至少一个中间视频帧中挑选出至少一个待处理视频帧，如此，不仅能够减少事件信息抽取过程所需要处理的视频帧，提高视频标注的效率，还可以减少与视频内容无关的内容对事件信息提取所造成的影响，提高视频标注的效率。

在本发明的一些实施例中，服务器从待提取视频的视频帧中提取出一个或多个事件信息，即S102的具体实现过程，可以包括：S1021-S1024，如下：

S1021、服务器利用预设匹配模板，从视频帧中匹配出一个或多个第一事件信息；第一事件信息表征利用模板匹配所得到的事件信息。

服务器利用预先设置好的图像模板，即利用预设匹配模板，对每个待处理视频帧进行模板匹配操作，将每个待处理视频帧中利用模板匹配方式所匹配出的事件信息，作为第一事件信息。

可以理解的是，服务器可以通过模板匹配算法，从待处理视频帧中得到一个或多个第一事件信息，还可以利用其他算法，从待处理视频帧中得到一个或多个第一事件信息。

需要说明的是，在本发明实施例中，服务器可以直接利用预设匹配模板，从待处理视频帧中得到第一事件信息，还可以利用预设匹配模板，从待处理视频中匹配出中间信息，然后再对该中间信息进行处理，得到第一事件信息。具体利用预设匹配模板得到第一事件信息的方式可以根据实际需求进行选择，本发明实施例在此不作限定。

示例性的，本发明实施例提供了匹配第一事件信息的示意图，如图7所示，第一事件信息为游戏视频中游戏人物A的生命值，此时，利用显示区域7-1中的所设置好的生命值的外观形状7-11，分别对显示区域7-2中的视频帧7-21和视频帧7-22进行模板匹配。在待处理视频帧7-21中，游戏人物A正在利用显示区域7-211中的技能，对地图中的野生怪物B造成伤害，同时，野生怪物B也会对游戏人物A造成伤害，这时，服务器可以利用生命值的外观形状7-11，从待处理视频帧7-21中，匹配出游戏人物A的生命值的外观形状A-1，然后，利用A-1中的深色区域占A-1的比例，计算出视频帧7-21中的游戏人物A的生命值。在视频帧7-22中，游戏人物A正在利用显示区域7-221中的技能，对地图中的建筑物C造成伤害，此时，服务器可以利用生命值的外观形状7-11，从待处理视频帧7-22中，匹配出游戏人物A的生命值的外观形状A-2，进而利用A-2中的深色区域占A-2的比例，计算出视频帧7-22中的游戏人物A的生命值。

S1022、服务器对视频帧进行特征抽取，得到视频图像特征点，并将视频图像特征点，与从预设图像中所抽取出的特征点进行匹配，得到一个或多个第二事件信息；第二事件信息表征利用特征点匹配所得到的事件信息；视频图像特征点表征对视频帧中的图像特征进行描述的点。

服务器可以先从预设图像中抽取出特征点，然后再对视频帧进行特征抽取，得到视频图像特征点，接着，利用视频帧的视频图像特征点，与从预设图像中所抽取出的特征点进行匹配，若是存在一些与预设图像中所抽取出的特征点相匹配的视频图像特征点，服务器会将这些视频图像特征点所对应的图像内容截取出来，并对这部分图像内容进行分析，得到第二事件信息，例如为图像内容建立坐标系，进而得到视频中的人物的坐标，将坐标作为第二事件信息等；或是从数据库中将这些预设图像所对应的信息提取出来，作为第二事件信息，例如将预设图像所对应的游戏人物名称，作为第二事件信息等。

可以理解的是，服务器可以利用快速特征点提取和描述(Oriented FAST andRotated BRIEF，ORB)算法，分别对预设图像和视频帧进行特征抽取，还可以利用主成分分析(Principal Component Analysis，PCA)算法分别对预设图像和视频帧进行特征抽取。当然，也可以利用其他特征抽取算法分别对预设图像和视频帧进行特征抽取，只要能够保证预设图像和视频帧所使用的是同一种特征抽取算法即可，本发明实施例在此不作限定。

示例性的，参见图8，本发明实施例提供抽取第二事件信息的示意图。在图8中，第二事件信息指的是游戏视频中不同的游戏人物在小地图中的坐标，预设图像8-1为小地图的图像，服务器对预设图像8-1进行ORB特征提取，以及对视频帧8-2也进行ORB特征提取，然后将预设图像8-1的ORB特征和视频帧8-2的ORB特征进行匹配，得到匹配结果8-3，其中，连线的特征点表示匹配上的特征点，这时，服务器就可以从视频帧8-2中截取出小地图8-4。接着，服务器为小地图8-4建立坐标系，从而得知小地图8-4中的每个游戏人物的头像，在小地图8-4中的坐标，即分别得知头像8-4a、头像8-4b、头像8-4c和头像8-4d的坐标，这时，服务器还需要将游戏人物的头像，与游戏人物对应之后，才能得到第二事件信息。此时，服务器提取游戏人物头像库8-5中，各个游戏人物头像的ORB特征，以及提取小地图8-4中每个游戏人物的头像的ORB特征，并将游戏人物头像库8-5中各个游戏人物的头像的ORB特征，与小地图8-4中每个游戏人物的头像的ORB特征进行匹配，这样，服务器就能够得知小地图8-4中的每个游戏人物的头像，分别对应的是哪个游戏人物，即得知头像8-4a对应游戏人物8-4A，头像8-4b对应游戏人物8-4B、头像8-4c对应游戏人物8-4C，头像8-4d对应游戏人物8-4D，进而根据小地图8-4中的每个游戏人物的头像在小地图8-4中的坐标，分别得知游戏人物8-4A、游戏人物8-4B、游戏人物8-4C和游戏人物8-4D在小地图8-4上的坐标。如此，服务器就完成了第二事件信息的获取。

S1023、服务器利用预设事件检测模型，从视频帧中，抽取出一个或多个第三事件信息；第三事件信息表征利用模型提取所得到的事件信息。

服务器还能够利用训练好的预设事件检测模型，直接对视频帧进行处理，即将视频帧分别作为输入进预设事件检测模型中进行分类，并将分类所得到的结果，作为第三事件信息。

需要说明的是，在本发明实施例中，服务器可以直接将视频帧输入进预设事件检测模型中进行分类，也可以将视频帧进行缩放处理，将缩放结果输入预设事件检测模型中进行分类，还可以是从视频帧中截取出部分图像，将所截取到的图像输出预设事件检测模型中进行分类。具体对视频帧进行分类的方式可以根据实际情况进行选择，本发明实施例在此不作限定。

可以理解的是，本发明实施例中，预设事件检测模型是用于对图像进行分类的模型，预设事件检测模型可以是深度学习模型，例如卷积神经网络(Convolutional NeuralNetwork，CNN)模型，也可以是其他分类模型，本发明实施例在此不作具体限定。

示例性的，本发明实施例提供了抽取第三事件信息的示意图，如图9所示，第三事件信息可以是游戏视频中游戏人物是否在草丛中，此时，预设事件检测模型是利用游戏人物在草丛，和游戏人物不在草丛两类图像进行训练所得到的模型。这时，服务器可以对视频帧9-1缩放处理，得到缩放视频帧9-21，以及对视频帧9-1中的图像部分9-11进行截取并复制，得到复合图像9-22。之后，服务器将缩放视频帧9-21和复合图像9-22分别输入进行预设事件检测模型9-31和预设事件检测模型9-32中(预设事件检测模型9-31和预设事件检测模型9-32的结构相同，只是训练数据不同)，并且用全连接层将预设事件检测模型9-31输出结果，和预设事件检测模型9-32输出结果进行整合，得到整合结果，最后利用sofamax层对整合结果进行分析，得知游戏人物是在草丛中9-41，还是不在草丛中9-42。如此，服务器就完成了对第三事件信息的提取过程。

S1024、服务器对一个或多个第一事件信息、一个或多个第二事件信息和一个或多个第三事件信息进行整合，得到一个或多个事件信息。

服务器在得到一个或多个第一事件信息、一个或多个第二事件信息和一个或多个第三事件信息之后，就可以将这些第一事件信息、第二事件信息和第三事件信息整合在一起，这样，服务器就能够得到一个或多个事件信息了。

本发明实施例中，服务器能够利用模板匹配得到第一事件信息，利用特征点匹配得到第二事件信息，以及利用模型检测得到第三事件信息，即利用多种不同的事件信息抽取方式，对待处理视频帧中的事件信息进行抽取，从而使得待处理视频帧中的事件信息不会被漏抽取。

在本发明的一些实施例中，服务器从待提取视频中，抽取出至少一个初始视频帧，即S108的具体实现过程，可以包括：S1081-S1084，如下：

S1081、服务器获取待提取视频的播放帧率。

S1082、服务器对播放帧率进行近似处理，得到近似播放帧率。

服务器在从待提取视频中抽取出至少一个初始视频帧时，需要先获取待提取视频帧的播放帧率，其中，播放帧率是待提取视频在生成时就确定好的帧率。由于对于一些视频而言，其播放帧率可能不为整数，而抽帧操作时，要求视频的帧率是整数，因此，服务器需要对播放帧率进行近似处理，得到整数的近似播放帧率。

在本发明实施例中，服务器先将播放帧率与帧率近似参数相比，得到比值结果，然后将比值结果进行四舍五入操作，得到中间近似结果，最后，将中间近似结果的2倍，作为近似播放帧率。需要说明的是，帧率近似参数可以根据实际情况进行设置，例如，可以将帧率近似参数设置为2，也可以将帧率近似参数设置为5，本发明实施例在此不作限定。

示例性的，本发明实施例提供了一种计算近似播放帧率的公式，如式(1)所示：

其中，fps_ture是播放帧率，round()表示四舍五入操作，σ是帧率近似参数，fps_round为计算出的近似播放帧率。服务器在获取到播放帧率的具体数值之后，就可以将该数值代入式(1)中，计算出近似播放帧率。

可以理解的是，在本发明的另一些实施例中，还可以利用其他方式来计算尽量播放帧率，只需要保证近似播放帧率为整数即可，本发明实施例在此不作限定。

S1083、服务器将近似播放帧率和预设抽帧频率进行相比，得到抽帧间隔；其中，预设抽帧频率表征每秒所要抽取的视频帧的数目。

服务器将计算出的近似播放帧率，和每秒所要抽取的视频帧的数目，即和预设抽帧频率进行相比，将所得到的比值作为抽帧间隔，如此，服务器就得到了抽帧间隔。

示例性的，本发明实施例提供了一种抽帧间隔的计算公式，如式(2)所示：

其中，fps_round是近似播放帧率，R预设抽帧频率，α是计算出的抽帧间隔。服务器在得到近似播放帧率的具体数值之后，就可以将该参数代入至式(2)中，计算出抽帧间隔的具体数值了。

可以理解的是，预设抽帧频率可以根据实际需求进行设定，本发明实施例在此不作具体限制。示例性的，可以将预设抽帧频率设置为2，即每秒抽取2个视频帧，也可以将预设抽帧频率设置为10，即每秒抽取10个视频帧。

S1084、服务器将待提取视频分解为全量视频帧，并根据抽取间隔，从全量视频帧中抽取出至少一个初始视频帧；其中，全量视频帧表征组成待提取视频的所有视频帧。

服务器将待提取视频分解成全量视频帧，并紧接着根据上述步骤所计算出的抽帧间隔，从全量视频中每隔该抽帧间隔就抽取出一帧视频帧，并将抽取出的视频帧作为初始视频帧，这样，服务器就能够得到至少一个初始视频帧了。其中，全量视频帧指的是组成待提取视频的所有视频帧。

需要说明的是，本发明实施例中，由于抽帧间隔是根据近似播放频率计算出来的，因此，服务器还需要为初始视频帧确定出播放时刻。在确定播放时刻时，需要知晓全量视频帧的数目，以及待提取视频的播放帧率。具体的，播放时刻是由全量视频帧的数目，与待提取视频的播放帧率相比得到的。

示例性的，本发明实施例提供了计算播放时刻的公式，如式(3)所示：

其中，F是全量视频帧的数目，fps_ture是播放帧率，T是计算出的播放时刻。服务器在得知全量视频帧的数目、播放帧率的具体数值之后，就能够计算出初始视频帧的播放时刻。

除此之外，由于服务器而言，全量视频帧的数目可能是未知的，需要另外利用播放帧率和视频的总时长进行计算，而所抽取出的初始视频帧的编号，可以是通过在抽帧操作中得到，即将第一个初始视频帧的编号记为1，将第二个初始视频帧的编号记为2，以此类推，在对最后一个初始视频帧的编号之后，就得到了所有初始视频帧的编号。过因而，服务器可以对计算播放时刻的公式进行变形，使其能够利用近似播放帧率、预设抽帧频率和初始视频帧的编号进行计算。

服务器可以将1改写为近似播放帧率与近似播放帧率的比值，这样，计算播放时刻的过程，就可以变先将全量视频帧的数目与近似播放帧率的相比，得到第一比值结果，将近似播放帧率与播放帧率相比，得到第二比值结果，再用第一比值结果和第二比值结果相乘，如此，所得到的乘积即为播放时刻。

示例性的，本发明实施例提供了另一种计算播放时刻的公式，如式(4)所示：

其中，F是全量视频帧的数目，fps_ture是播放帧率，fps_round是近似播放帧率，T是计算出的播放时刻。

由于初始视频帧的数目，是利用近似播放帧率所对应的近似播放时刻，与预设抽帧频率的乘积，而近似播放时刻，则是利用全量视频帧的数目，与进行播放帧率相比得到的。因而，服务器可以知晓全量视频帧的数目与近似播放帧率的比值，与初始视频帧的编号与预设抽帧频率的比值相同，这时，服务器可以利用初始视频帧的编号与预设抽帧频率的比值，将上述过程中的另一种计算播放时刻的公式中，全量视频帧的数目与进行播放帧率的比值进行替换，此时，播放时刻就变为初始视频帧的数目与预设抽帧频率的比值，与近似播放帧率与播放帧率的比值的乘积，如此，服务器就得到了利用近似播放帧率、预设抽帧频率和初始视频帧的编号进计算初始视频帧对应的播放时刻的方式。

示例性的，本发明实施例提供了初始视频帧的数目与预设的抽帧频率的关系，如式(5)所示：

其中，t是近似播放时间，R为预设抽帧频率，N为初始视频帧的编号，即第N个初始视频帧。

进一步的，本发明实施例提供了一种近似播放时间的计算公式，如式(6)所示：

其中，F是全量视频帧的数目，fps_round是近似播放帧率，t是近似播放时间。服务器将式(6)代入式(5)，就可以得到式(7)：

其中，F是全量视频帧的数目，fps_round是近似播放帧率，t是近似播放时间，R为预设抽帧频率，N为初始视频帧的编号。

服务器将使(7)代入式(4)中，就可以得到利用近似播放帧率、预设抽帧频率和初始视频帧的数目计算播放时刻的过程，如式(8)所示：

其中，fps_round是近似播放帧率，fps_ture是播放帧率，R为预设抽帧频率，N为初始视频帧的编号，T是计算出的播放时刻。服务器在获知近似播放帧率的具体数值，播放帧率的具体数值，预设抽帧频率的具体数值以及初始视频帧的数目之后，就可以将上述参数代入式(8)中，计算出第N个初始视频帧所对应的播放时刻。

本发明实施例中，服务器先获取待提取视频的播放帧率，然后对播放帧率进行近似，以保证所有的抽帧操作都是基于整数的近似播放帧率进行的，之后，将近似播放帧率和预设抽帧频率相比，得到抽帧间隔，最后利用该抽帧间隔，从全量视频帧中抽取出至少一个初始视频帧。如此，能够降低后续裁剪操作、识别操作、乃至事件信息抽取操作所需要处理的视频帧的个数，进一步提高视频标注的效率。

在本发明的一些实施例中，服务器对至少一个初始视频帧中的每个初始视频帧进行裁剪处理，得到至少一个中间视频帧，即S109的具体实现过程，可以包括：S1091-S1093，如下：

S1091、服务器对至少一个初始视频帧中的每个初始视频帧进行边缘检测，得到视频播放边缘；视频播放边缘表征将视频播放区域与非视频播放区域分隔开的边缘。

由于在视频的播放页面中，会有一个播放窗口用于显示视频内容，即视频播放区域，以及另外有一些播放窗口显示与视频内容无关的内容，例如视频提供者的社交账号、广告内容等，这些播放窗口可以看作是与视频播放过程无关的非视频播放区域。这时，不同的播放窗口之间具有明显的分界边缘，能够将视频的播放区域与非视频播放区域分隔开。因此，服务器在对每个初始视频帧进行裁剪处理时，可以先通过边缘检测，识别出每个初始视频帧中的视频播放边缘。

可以理解的是，服务器可以利用Canny边缘检测(Canny edge detector)算法检测出视频播放边缘，也可以利用霍夫曼直线检测算法检测出视频播放边缘，当然，还可以利用其他能够达到相同目的边缘检测算法，本发明实施例在此不作限定。

需要说明的是，服务器所检测出的视频播放边缘，可以是直线边缘，也可以是曲线边缘，本发明实施例在此不作限定。

S1092、服务器根据视频播放边缘，将每个初始视频帧裁剪为视频播放部分和非视频播放部分。

服务器在检测出视频播放边缘之后，就可以利用视频播放边缘，将每个初始视频帧划分成视频播放区域和非视频播放区域，并将视频播放区域中的图像内容截取出来，作为视频播放部分，将非视频播放区域中的图像内容截取出来，作为非视频播放部分。

S1093、服务器对每个初始视频帧对应的视频播放部分进行整合，得到至少一个中间视频帧。

服务器将每个初始视频帧对应的视频播放部分都作为中间视频帧，能够得到至少一个中间视频帧，同时，将每个初始视频帧对应的非视频播放部分删除，至此，服务器就完成了对至少一个初始视频帧中的每个初始视频帧的裁剪处理过程。

可以理解的是，由于至少一个中间视频帧是由至少一个初始视频帧进行裁剪处理得到的，因此，中间视频帧的数量与初始视频帧的数量是相等的。

示例性的，参见图10，本发明实施例提供了对初始视频帧进行裁剪处理的示意图。如图10所示，待提取视频为用户所录制的游戏视频，此时，初始视频帧为用户所录制的游戏视频中的一帧。显示区域10-1为视频播放区域，显示了游戏视频的画面内容；显示区域10-2显示了录制该游戏视频时所同步录制的用户操作录像；显示区域10-3则是预设的卡通动画页面。服务器利用边缘检测算法，从初始视频帧中分别检测出视频播放边缘10-4和视频播放边缘10-5，之后，服务器利用视频播放边缘10-4和视频播放边缘10-5对初始视频帧进行裁剪，将显示区域10-1中的图像内容作为视频播放部分，将显示区域10-2中图像内容，以及显示区域10-3中的图像内容作为非视频播放部分。最后，服务器将视频播放部分，即显示区域10-1中的图像内容作为中间视频帧，将显示非视频播放部分，即显示区域10-2中的图像内容，以及显示区域10-3中的图像内容删除。这样，服务器就得到了中间视频帧。

本发明实施例中，服务器先对每个初始视频帧进行边缘检测，得到视频播放边缘，再依据视频播放边缘将每个初始视频帧裁剪为视频播放部分和非视频播放部分，最后，对视频播放部分进行整合得到至少一个中间视频帧，如此，能够减少视频画面中与视频内容无关的图像内容给后续的识别操作，以及事件信息提取操作所带来的影响，进一步提高视频标注的效率。

在本发明的一些实施例中，服务器从至少一个中间视频帧中，识别出至少一个待处理视频帧，即S110的具体实现过程，可以包括：S1101-S1103，如下：

S1101、服务器针对至少一个中间视频帧中的每个中间视频帧进行特征提取，得到待分类特征。

服务器在识别出至少一个待处理视频帧时，是先利用特征提取模型对每个中间视频帧进行特征提取，并将提取出来的特征作为待分类特征。在本发明的一些实施例中，特征提取模型可以是CNN模型，所提取出的待分类特征可以是中间视频帧所对应的多个特征图。

S1102、服务器对待分类特征进行分类，得到每个中间视频帧对应的分类结果。

S1103、服务器根据分类结果，从至少一个中间视频帧中识别出至少一个待处理视频。

服务器利用分类模型对每个中间视频帧对应的待分类特征进行分类，得到每个中间视频帧所对应的分类结果，之后，服务器再根据分类结果，从至少一个中间视频帧中挑选出需要进行处理的待处理视频帧，即得到至少一个待处理视频帧，将不属于待处理视频帧的其他视频帧剔除。

需要说明的是，在本发明的另一些实施例中，则可以利用一个CNN同时作为特征提取模型和分类模型，也可以是利用不同的模型，分别作为特征提取模型和分类模型，本发明实施例在此不作限定。

可以理解的是，本发明实施例中的分类模型是利用预设好的图像类别所训练好的模型。预设的图像类别是与根据待提取视频的内容相匹配的，例如，在竞技类游戏视频中，预设的图像类别可以是游戏对局帧、游戏人物选择帧、对局结果帧、游戏加载帧和非游戏视频帧；在综艺节目视频中，预设的图像类别可以是主持人开场介绍帧、真人游戏帧、观众互动帧以及非综艺节目视频帧等。具体的预设图像类别可以根据实际情况进行设置，本发明实施例在此不作限定。

需要说明的是，在训练分类模型时，为了保证样本均衡，服务器应尽量使各个预设图像类别中的训练图像的数目相近，例如，当预设的图像类别可以是游戏对局帧、游戏人物选择帧、对局结果帧、游戏加载帧和非游戏视频帧时，游戏对局帧对应的训练图像可以有328张，游戏人物选择帧对应的训练图像可以有425张，对局结果帧对应的训练图像可以有252张，游戏加载帧对应的训练图像可以有349张，非游戏视频帧对应的训练图像可以有608张。

示例性的，本发明实施例提供了根据分类结果识别待处理视频帧的示意图。如图11所示，待提取视频为竞技类游戏视频，显示区域11-1中的中间视频帧的分类结果为对局画面帧，显示区域11-2中的中间视频帧的分类结果为游戏人物选择帧，显示区域11-3中的中间视频帧的分类结果为对局结束帧，显示区域11-4中的中间视频帧的分类结果为游戏加载帧，显示区域11-5和显示区域11-6中的中间视频帧的分类结果均为非游戏视频帧，更具体的，显示区域11-5中的图像具有游戏视频暂停时所弹出的广告页面，显示区域11-6中的图像为其他游戏的画面内容。当服务器得到每个中间视频帧的分类结果，挑选出显示区域11-1、显示区域11-2、显示区域11-3和显示区域11-4中的中间识别帧作为待处理视频帧，将显示区域11-5以及显示区域11-6中的中间视频帧删除，这样，服务器就完成了从中间视频帧中识别出待处理视频帧的过程。

本发明实施例中，服务器能够先对每个中间视频帧进行特征提取，进而得到每个中间视频帧的分类结果，然后根据分类结果，从至少一个中间视频帧中识别出至少一个待处理视频帧，如此，能够使后续的事件信息提取过程基于待处理视频帧实现，减少无关视频帧对事件信息抽取所造成的英雄，提高视频标注的准确率。

在本发明的一些实施例中，服务器在从至少一个中间视频帧中，识别出至少一个待处理视频帧之后，即在S110之后，该方法还可以包括：S111-S114，如下：

S111、服务器对至少一个待处理视频帧中的每个待处理视频帧进行特征重排，得到至少一个缩小视频帧。

服务器先对每个待处理视频帧进行特征重排，使得每个待处理视频帧在缩小的同时，还能够避免待处理视频帧中特征信息的丢失。特征重排是指将每个待处理视频分成多个特征块，并利用多个特征块组合出缩小视频帧，具体的，服务器可以对每个待处理视频帧进行区域划分，得到多个子区域，然后再对每个子区域进行划分，得到子特征块，之后，将处于每个子区域的相同位置上的子特征块提取出来，并用所提取出的子特征块组成一个缩小视频帧，这样，服务器能够得到子区域数目个缩小视频帧。

示例性的，本发明实施例提供了对待处理视频帧进行特征重排的示意图，如图12所示，待处理视频帧被分为四个子区域，即子区域12-1、子区域12-2、子区域12-3和子区域12-4，然后，服务器再对这四个子区域进行划分，将每个子区域划分为左上、右上、左下和右下四个子特征块。之后，服务器将利用子区域12-1的左上子特征块、子区域12-2的左上子特征块、子区域12-3的左上子特征块和子区域12-4的左上子特征块拼接成缩小视频帧12-5，利用子区域12-1的右上子特征块、子区域12-2的右上子特征块、子区域12-3的右上子特征块和子区域12-4的右上子特征块拼接成缩小视频帧12-6，利用子区域12-1的左下子特征块、子区域12-2的左下子特征块、子区域12-3的左下子特征块和子区域12-4的左下子特征块拼接成缩小视频帧12-7，以及利用子区域12-1的右下子特征块、子区域12-2的右下子特征块、子区域12-3的右下子特征块和子区域12-4的右下子特征块拼接成缩小视频帧12-8。如此，服务器就得到了至少一个缩小视频帧。

S112、服务器针对至少一个缩小视频帧中的每个缩小视频帧进行特征图生成，得到至少一个特征图；其中，特征图中具有缩小视频帧的图像特征。

服务器紧接着为每个缩小视频帧中生成特征图，这样，服务器能够得到至少一个特征图。可以理解的是，本发明实施例中，服务器可以利用CNN来进行特征图生成，也可以利用其他模型来进行特征图生成，本发明实施例在此不作限定。

S113、服务器将至少一个特征图中的每个特征图进行尺寸放大，得到至少一个放大后的特征图。

服务器再对每个特征图进行尺寸放大，并将所得到的特征图记为放大后的特征图。由于服务器是按照S112中的特征重排过程得到缩小视频帧的，这时，服务器需要按照特征重排的逆过程，得到放大后的特征图。具体的，服务器将每个特征图再拆分成子特征块，然后用所有特征图的相同位置的子特征块，拼接成放大后的特征图的一个子区域，在得到放大后的特征图的全部子区域之后，服务器就能够得到放大后的特征图了。

S114、服务器利用至少一个放大后的特征图和至少一个待处理视频，构造出至少一个分辨率增强后的待处理视频帧；至少一个分辨率增强后的待处理视频帧用于提取所述一个或多个事件信息。

服务器将放大后的特征图和原本的待处理视频进行对应，并同时将放大后的特征图和待处理视频帧共同输入进构造模型中，对待处理视频帧中的每个像素进行重建，从而构造出分辨率增强后的待处理视频帧，以便于后续在这些分辨率增强后的待处理视频帧上实施事件信息提取操作，得到更为准确的事件信息。

需要说明的是，本发明实施例中，服务器在得到至少一个分辨率增强后的待处理视频帧之后，就可以在分辨率增强后的待处理视频帧上进行事件信息抽取，即从至少一个分辨率增强后的待处理视频帧的每个分辨率增强后的待处理视频帧中，抽取出一个或多个事件信息。

在本发明实施例中，由于待提取视频在传输过程中，会经过编码、解码操作，使得待提取视频的分辨率降低。这时，如果直接从待提取视频的视频帧中抽取事件信息时，会使得抽取出的事件信息存在较大的误差。因而，服务器可以对待处理视频帧进行特征重排、特征图生成、特征图尺寸放大，以及高分辨率图像构造过程，得到分辨率增强后的待处理视频帧，从而进一步提高事件信息抽取的准确率。

可以理解的是，服务器可以利用一个CNN模型，实现步骤S111至步骤S114中的实现过程。在该CNN模型中，设置按照顺序设置有特征重排模块、特征图生成模块、特征尺寸放大模块，以及像素重建模块。其中，特征重排可以利用子像素反卷积层(即Desubpixel层)实现，特征图生成模块可以利用多个卷积层实现，特征尺寸放大模块可以利用子像素卷积层(即Subpixel层)实现，像素重建模块可以利用损失函数层实现。该CNN模型可以利用服务器生成的训练数据进行训练。为了减少人工截取低分辨率图像和对应高分辨率图像的工作量，服务器在获取训练数据时，先获取高清视频图像，然后对高清视频图像进行压缩，得到低清视频图像，同时，对这些视频图像进行数据增强，得到大量配对的高清视频图像和低清视频图像，再将这些高清视频图像和低清视频图像共同作为训练数据，对CNN模型进行训练。这样，所得到的CNN模型在得到低清的待提取视频帧之后，就可以输出分辨率增强后的待处理视频帧了。

示例性的，本发明实施例提供了待处理视频帧和分辨率增强后的待处理视频帧的对比示意图，如图13所示，待处理视频帧为竞技类视频中的小地图图像，小地图图像13-1的分辨率较低，使得图13竞技类游戏视频的小地图中的内容并不是十分清楚，如果直接在小地图图像13-1上进行事件信息提取，可能会造成较大的误差，例如，所提取到游戏人物的坐标存在误差等。服务器将利用CNN模型对小地图图像13-1经过特征重排、特征图生成、尺寸放大等一系列处理之后，可以得到小地图图像13-1所对应的放大后的特征图，进而在利用该特征图和小地图图像13-1，得到分辨率增强后的小地图图像13-2。从图13中可以看出，分辨率增强后的小地图图像13-2比未经过处理的小地图图像13-1更为清晰，在分辨率增强后的小地图图像13-2所提取到的事件信息的准确率也就会更高。其中，服务器在对CNN模型进行训练时，可以从竞技类游戏视频的安装包中得到高清的小地图图像，以及游戏人物的头像，之后，通过随机将游戏人物的头像放置在小地图上并移动，得到高清小地图图像(1024×1024)，之后，服务器对这些高清小地图图像进压缩，得到分辨率为高清小地图图像的1/4低清小地图图像(256×256)，同时在低清小地图图像上随机截取小地图图像块(128×128)以进行数据增强，最后，将低清小地图图像，和小地图图像块作为输入，以高清小地图图像，和小地图图像块对应的高清小地图图像块作为真实值，完成对CNN模型进行训练。

本发明实施例中，服务器能够为每个待处理视频帧构造出分辨率增强后的待处理视频帧，使得服务器可以在分辨率增强后的待处理视频帧上进行事件信息的提取，提高事件信息提取的准确率。

在本发明的一些实施例中，服务器在从待提取视频的视频帧中提取出一个或多个事件信息之后，利用一个或多个事件信息组成至少一个事件流之前，即在S102之后，S103之前，该方法还可以包括：S115-S117，如下：

S115、服务器从待提取视频的视频帧中，获取当前视频帧的相邻视频帧。

本发明实施例中，相邻视频帧包括当前视频帧的前一个视频帧，和当前视频帧的后一个视频帧。服务器从待提取视频的所有视频帧中，对当前时刻所要处理的视频帧，即当前视频帧进行相邻帧获取，得到当前视频帧的前一个视频帧，以及当前视频帧的后一个视频帧，进而用当前视频帧的前一个视频帧，和当前视频帧的后一个视频帧组成相邻视频帧。

S116、服务器对相邻视频帧中的事件信息进行统计，得到统计结果。

S117、服务器利用统计结果，对当前视频帧的一个或多个事件信息进行修正，得到当前视频帧一个或多个修正后的事件信息，进而得到视频帧对应的一个或多个修正后的事件信息；一个或多个修正后的事件信息用于组成至少一个事件信息流。

服务器获取出相邻视频帧中的事件信息，并将相邻视频帧中的事件信息都写入至统计结果中，之后，服务器将所得到的统计结果，与当前视频帧一个或多个事件信息中的每个事件信息进行比较，当事件信息与统计结果相同时，保留原事件信息，当统计结果与事件信息不同时，则按照少数服从多数，小概率服从大概率的原则，对事件信息进行修正，得到当前视频帧一个或多个修正后的事件信息，如此循环往复，直至完成对视频帧的修正过程，得到视频帧对应的一个或多个修正后的事件信息。此时，服务器就可以利用一个或多个修正后的事件信息组成至少一个事件信息流，以提高事件信息的准确率。

需要说明的是，服务器按照少数服从多数的原则，以及小概率服从大概率的原则对事件信息进行修正时，分别将当前视频的事件信息，与当前视频帧的前一个视频帧中的事件信息，以及当前视频帧的后一个视频帧中的事件信息相比较。当当前视频帧的事件信息与相邻视频帧中的事件信息都相同时，则将当前待处理视频帧的事件信息，作为修正后的事件信息；当当前视频帧的事件信息与相邻视频帧中的事件信息不同时，则将当前视频帧的前一个视频帧的事件信息和当前视频帧的后一个视频帧的事件信息相比较，当这两帧的事件信息相同时，则用该事件信息替换当前视频帧中的事件信息，当这两帧的事件信息不同时，则比较当前视频帧、相邻视频帧的事件信息的概率，取概率大的事件信息，为最终的修正后的事件信息。

示例性的，本发明实施例提供得到修正后的事件信息的示意图，如图14所示，待提取视频为竞技类游戏视频，当前视频帧14-1对应的事件信息14-11为播报内容：“”，事件信息14-12为胜方：“游戏人物A”，事件信息14-13为胜方阵营：“”，事件信息14-14为败方：“游戏人物B”，事件信息14-15为败方阵营：“”，其中，事件信息14-11和事件信息14-14为漏检的事件信息。当前视频帧的下一个视频帧14-2对应的事件信息14-21为播报内容：“二连击破”，事件信息14-22为胜方：“游戏人物A”，事件信息14-23为胜方阵营：“红方”，事件信息14-24为败方：“游戏人物B”，事件信息14-25为败方阵营：“蓝方”，其中，事件信息14-23为误检的事件信息。当前视频帧的上一个视频帧14-3对应的事件信息14-31为播报内容：“二连击破”，事件信息14-32为胜方：“游戏人物A”，事件信息14-33为胜方阵营：“蓝方”，事件信息14-34为败方：“游戏人物B”，事件信息14-35为败方阵营：“红方”。服务器将当前视频帧14-1对应的事件信息，分别与当前视频帧的下一个视频帧14-2对应的事件信息，以及当前视频帧的上一个视频帧14-3对应的事件信息相比较，按照少数服从多数，小概率服从大概率的原则，得到当前视频帧14-1的修正后的事件信息，如图14所示，修正后的事件信息14-41为播报内容：“二连击破”，修正后的事件信息14-42为胜方：“游戏人物A”，修正后的事件信息14-43为胜方阵营：“蓝方”，修正后的事件信息14-44为败方：“游戏人物B”，修正后的事件信息14-45为败方阵营：“红方”(其中，事件信息14-23败方阵营：“红方”的概率，小于事件信息14-33胜方阵营：“蓝方”的概率；事件信息14-25败方阵营：“蓝方”的概率，小于事件信息14-35败方阵营：“红方”的概率)。至此，服务器就得到了修正后的事件信息。

本发明实施例中，服务器可以利用当前视频帧的相邻视频帧中的时间信息，对当前视频帧的事件信息进行修正，进而得到视频帧的修正事件信息，如此，能够利用修正后的事件信息组成事件信息流，从而提高视频标注的准确率。

在本发明的一些实施例中，服务器在从待提取视频的视频帧中提取出一个或多个事件信息之后，即在S102之后，该方法还可以包括：S118，如下：

S118、对一个或多个事件信息进行结构化整理，得到视频帧对应的结构化事件信息并存储。

服务器按照提前设计好的结构化模板，对视频帧对应的一个或多个事件信息中的所有事件信息进行结构化处理，所得到的处理结果即为每个待处理视频帧对应的结构化事件信息，之后，服务器可以将结构化事件信息存储至数据库中，以使得事件信息以结构化的形式保存，以便于后续在需要使用事件信息时，可以从结构化事件信息中获取到事件信息，进而基于事件信息截取出精彩片段。

示例性的，本发明实施例提供了结构化信息的示意图，如图15所示，为游戏视频中一个视频帧的结构化信息。在该结构化事件信息中，_id表征视频帧的编号，即当前为第1647个视频帧。v_id表征待提取视频的id(具体id未示出)，可以用该id唯一地查找到一个待提取视频。ret_hero_msg为游戏人物的具体信息，其中，location：[668，307]为游戏人物所在的坐标，life_value：10表示游戏人物的生命值等级为10，level：4表示游戏人物的等级为4，blue表征游戏人物属于蓝方阵营。ret_broadcast为该视频帧中的播报信息，其中，broadcast_id：1表示当前的播报信息为预设的播报信息集合中的第1个，broadcast_text：击败表征当前的播报信息的内容为击败，winner是指胜利方，loser是指失败方，具体的，hero_id为游戏人物的编号，hero_name为游戏人物在游戏中的名称，camp为游戏人物所属的阵营，从图14可以看出，编号为2618，名称为人名-1的红方阵营游戏人物，击败了编号为2572，名称为人名-2的蓝方阵营游戏人物。ret_grass表示草丛信息，in_grass：0表示游戏人物不在草丛中，in_grass：1表示游戏人物在草丛中，由此可以看出，蓝方阵营没有游戏人物在草丛中。ret_tower为该视频帧中的建筑物信息，其中，red表示红方阵营的建筑物，blue表示蓝方阵营的建筑物，1：[799，170]表示编号为1的建筑物的坐标信息。服务器在得到该结构化事件信息之后，就可以将该结构化事件信息存储到数据库中，以便后续使用。

本发明实施例中，服务器能够对事件信息进行结构化整理，得到视频帧对应的结构化事件信息并存储，如此，使得事件信息清楚、层次分明，便于后续事件信息的使用。

在本发明的一些实施例中，终端在进行待提取视频的展示使，在显示区域展示标识信息之后，即在S107之后，该方法还可以包括：S119-S120，如下：

S119、终端在显示区域接收针对标注信息中的子标注信息的视频片段播放指令。

S120、终端响应于视频片段播放指令，在视频片段播放区域播放子标注信息对应的目标第一片段；其中，视频片段播放区域位于显示界面的第二预设区域，且未覆盖第一预设区域；目标第一片段为至少一个第一片段中与子标注信息对应的第一片段。

终端在得到标注信息之后，还可以为标注信息中的每个子标注信息生成对应的视频片段播放标识，以使用户可以通过点击该标识，实现对应的第一片段的播放。终端在显示区域接收用户针对标注信息中的子标注信息所触发的视频片段播放指令，即终端接收用户在视频片段播放标识处所触发的视频片段播放指令，然后根据该视频片段播放指令，确定出需要播放的目标第一片段，最后将目标第一片段呈现在提前划定的视频片段播放区域，其中，视频片段播放区域是位于第二预设区域的，且未覆盖第一预设区域。如此，可以使用户在获知待提取视频都具有哪些第一片段的同时，对这些第一片段中的某个第一片段进行播放。

可以理解的是，第二预设区域可以是根据实际情况进行设置的，本发明实施例在此不作限定。例如，终端将第二预设区域设置在待提取视频的播放区域，与第一预设区域之间，也可以将第二预设显示区域设置在其他区域，本发明实施例在此不作限定。

在本发明的另一些实施例中，视频片段播放区域还可以是用户在点击操作之后所弹出的浮窗，本发明实施例在此不作具体限制。

示例性的，本发明实施例提供了呈现第一片段的示意图，如图16所示，显示区域16-1为待提取视频的播放区域，可以对待提取视频进行播放，显示区域16-2为用于展示标注信息的显示区域，其中，示例性的显示了第一片段16-21的子标注信息：决战到底，第一片段16-22的子标注信息：绝地反击以及第一片段16-23的子标注信息：摧城拔寨，以便于用户通过点击子标注信息旁的视频片段播放标识，选择所要播放的第一片段。显示区域16-3为视频片段播放区域，当用户通过点击操作，点击第一片段16-21的子标注信息旁的第一片段播放标识时，终端就会将第一片段16-21呈现在显示区域16-3中，完成对用户所选择的精彩片段的播放。

本发明实施例中，终端能够接收用户所触发的视频片段播放指令，并根据该指令，在显示界面的视频片段播放区域展示第一片段，使得用户能够直接对第一片段进行观看。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例是在对竞技类游戏视频进行视频标注的场景下实现的。参见图17，本发明实施例提供的视频标注过程主要包括：视频预处理17-1、视频信息抽取17-2和视频理解17-3三个主要步骤。

在视频预处理17-1中，游戏视频17-13是从内容库17-11中获取的(根据视频提取指令获取游戏视频)，或是用户上传17-12的(待提取视频携带在视频提取指令中)。在得到游戏视频17-13后，服务器可以对游戏视频17-13进行视频帧抽取17-14(未示出)、边框裁切17-15(裁剪处理)、游戏帧分类17-16(识别待处理视频帧)和分辨率增强17-17等操作，并将经过处理的视频帧存入至MongoDB数据库中。

具体的，服务器可以先逐帧读取游戏视频17-13的所有视频帧数据(全量视频帧)，每隔抽帧间隔抽取出1帧数据，并命名为1.png，第2帧命名为2.png，依次类推，第N帧命名为N.png。在抽帧完成后，就可以根据式(8)得到这些视频帧对应的播放时刻，从而实现了均匀抽帧，并将抽帧后的数据与视频帧在游戏视频中的播放时刻对应起来。由于游戏视频17-13中，可能会存在画中画的形式，即为游戏画面添加了边框，此时，若直接进行游戏帧分类17-16的操作，会存在较大的干扰。这时，服务器基于Canny边缘检测和霍夫曼直线检测方法，检测出游戏画面的边框(视频播放边缘)，并用边框裁切17-15得到纯游戏画面(视频播放部分作为中间视频帧)。由于在游戏视频中，可能会包含大量的非游戏视频帧，例如主播聊天画面、游戏登陆局面、游戏商店界面以及其他游戏的画面，并且，在游戏视频帧中，也包含有不同种类的信息，例如，游戏选人界面和游戏加载页面包含当局英雄(游戏人物)的信息，对局结束页面包含对局胜负信息，对局过程帧包含对局中间信息等。服务器通过游戏帧分类17-16就是要分辨这些内容，过滤掉无用的视频帧(识别出待处理视频帧)，提高视频标注过程的效率。示例性的，图18示出了游戏视频中的一些视频帧，其中，视频帧18-1为主播聊天画面，视频帧18-2为游戏大厅界面，视频帧18-3为游戏商店界面，视频帧18-4为对局过程，视频帧18-5和视频帧18-6均是其他游戏界面。

服务器基于CNN的分类模型，可以实现游戏帧分类17-16。这里，采用图19所示出的帧分类模型进行游戏帧分类17-16。从图19可以看出，帧分类模型具有3个特征提取模块，分别为提取模块19-1、提取模块19-2和提取模块19-3，在这三个提取模块之后，还有1×1的卷积层。游戏视频17-13的视频帧经过着3个特征提取模块，以及1×1的卷积层后能够得到若干个特征图，之后，这些特征图需要经过全局池化层19-4，全连接层19-5以及softmax层19-6，就可以得到分类结果了，之后，服务器可以根据分类结果，确定对游戏视频17-13的视频帧进行保留还是过滤。

服务器在进行分辨率增强17-16时，选用的是如图20所示出的分辨率增强模型。游戏视频17-13的视频帧经过特征尺寸缩小模块(其中具有两个×2的子像素反卷积层，即Desubpixel层，和4通道的1×1的卷积层)，经过多个特征提取模块(其中具有两个16通道的3×3的卷积层，两个归一化层和一个非线性激活层)，再经过特征尺寸放大模块(其中具有一个64通道的1×1的卷积层，一个12通道的1×1的卷积层，以及两个×2的子像素卷积层，即Subpixel层)，得到特征图和原来输入的游戏视频17-13的视频帧利用MSE loss进行像素重建，就可以得到高清的帧图像(分辨率增强后的待处理视频帧)。

在视频信息抽取17-2中，服务器可以对游戏视频17-13的视频帧进行野怪识别服务17-21、血条检测服务17-22、英雄识别服务17-23、播报检测服务17-24、草丛检测服务17-25、小地图检测服务17-26、对局状态检测17-27、击打状态检测17-28以及防御塔识别服务17-29，并将这些检测服务所得到的检测结果存储至MongDB数据库中。

参见图21，图21是对游戏视频进行视频信息抽取的示意图。服务器可以基于ORB特征完成播报检测21-1，得到播报类型、胜负英雄、胜负阵营和助攻信息；利用模板匹配的方法完成血条检测21-2，得到血条位置、英雄血量、英雄阵营和英雄等级；利用模板匹配方法完成野怪检测21-3，得到野怪位置、野怪血量；基于ORB特征(视频图像特征点)完成小地图检测21-4，得到英雄位置、野怪信息和防御塔信息；利用模板匹配完成防御塔检测21-5，得到防御塔位置、防御塔血量；以及利用卷积神经网络(预设事件检测模型)进行草丛检测21-6，得到蹲草丛操作。这样，服务器就完成了对游戏视频17-13的视频信息抽取。具体的，以小地图检测为例，对基于ORB特征完成各种检测操作进行说明。服务器分别提取下地图模板和游戏视频17-13的视频帧的ORB特征，然后进行逐像素点特征值比较，提取很粗相似度较高的特征点，进行小地图区域定位，从而裁剪出小地图区域。

由于血条、播报、防御塔、野怪、草丛、小地图(上述这些均是事件信息)是竞技类游戏中的基础元素信息，因此，服务器可以将每帧视频帧中的基础元素信息按照图13的形式进行结构化，得到结构化的每帧数据(结构化事件信息)。

在视频理解17-3中，服务器会先在开始视频标注之前，进行剧本编辑17-31，在视频标注过程中，进行平滑策略17-32(对一个或多个事件信息进行修正)和事件召回17-33。其中，平滑策略17-2中，服务器先采用平滑和取闭包处理，结合前后帧信息，实现去除误检和补偿漏检，即对误检结果进行修正，对漏检结果采用相邻帧的信息进行填补(填补后的结果即是修正后的事件信息)。

在剧本编辑17-31中，由于游戏视频17-13中的所有事件都可以拆分成：时间、地点、任务、条件、行为、后果。以“极限反击”事件为例，该事件描述的是一方英雄血量低于30％的情况下，连续造成大于等于2名对方英雄阵亡，根据该分析，可以构建出如图22所示的剧本配置，服务器根据英雄信息22-1和血条信息22-2，判断在一段时间内英雄a的血量是否较低22-3，然后在根据播报信息22-4，判断在这段时间内英雄a是否完成多次击败22-5，如果满足这些条件，则该事件就为极限反击事件。类似的，当需要构建信息的事件时，否可以只分析时间、地点、任务、条件、行为、后果，找到对应的视频结构信息项，并为其配置剧本，即可完成剧本事件检测。图23示出了结构信息项和剧本构建的示意，在区域23-1中，是从视频帧中提取出来的基础元素信息，包括：野怪信息23-11，具体有野怪位置23-111和野怪血量23-112；防御塔信息23-12，具体有防御塔位置23-121和防御塔血量23-122；血条信息23-13，具体有英雄位置23-131、英雄血量23-132和英雄等级23-133；小地图信息23-14，具体有英雄全局位置23-141、防御塔状态23-142和野怪状态23-143；播报信息23-15，具体有击败者阵营23-151、被击败者阵营23-152、击败英雄23-153、播报内容23-154和被击败英雄23-155；对局状态信息23-16，具体为胜利/失败；草丛信息23-17，具体为蹲草丛操作。服务器根据上述信息就可以配置剧本，得到显示区域23-2中的剧本配置(情节触发条件)，即根据英雄信息、血条信息、草丛信息判断一段时间内，英雄a在草丛中待的时间超过n秒23-211，根据播报信息判断英雄a完成击杀23-212，进而得到剧本草丛蹲人23-21；根据防御塔信息、血条信息、小地图信息和击打状态信息判断在一段时间内，A阵营英雄a独自击打B阵营水晶，且B阵营水晶周围无B阵营23-221，根据对局状态信息判断阵营A胜利23-222，从而得到剧本偷袭水晶23-22。

在事件召回17-33中，在上述基础元素信息触发剧本设定的条件时，就可以输出相应的语义标签(第一片段的情节标注标签)，同时截取出视频片段(第一片段)，完成对游戏视频的信息提取过程。

通过上述方式，服务器能够从游戏视频的视频画面中，通过图像处理的方式提取到基础元素信息，进而根据设置好的剧本配置和基础元素信息，从游戏视频中截取出视频片段，提高了视频标注的效率。

下面继续说明本发明实施例提供的视频标注装置255的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在第一存储器250的视频标注装置255中的软件模块可以包括：

第一接收模块2551，用于接收终端发送的视频提取指令，并根据所述视频提取指令获取待提取视频；

提取模块2552，用于从所述待提取视频的视频帧中提取出一个或多个事件信息；

信息流生成模块2553，用于利用所述一个或多个事件信息组成至少一个事件信息流；其中，事件信息流中事件信息的顺序与视频帧的顺序相同；

截取模块2554，用于基于所述至少一个事件信息流，从所述待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到所述至少一个第一片段的情节标注标签；其中，所述情节标注标签用于对所述至少一个第一片段进行标注。

在本发明的一些实施例中，提取装置255还包括：第一发送模块2555；

所述第一发送模块2555，用于将所述至少一个第一片段和对应的情节标注标签发送给所述终端，以使所述终端采用所述情节标注标签标注对应的所述至少一个第一片段，将得到的标注信息和对应所述至少一个第一片段进行呈现，完成针对所述待提取视频的视频标注。

在本发明的一些实施例中，所述截取模块2554，具体用于从所述至少一个事件信息流中，提取出满足情节触发条件的事件信息流，作为至少一个目标事件信息流；其中，所述情节触发条件表征精彩情节内容的条件；根据所述至少一个目标事件信息流中的每个目标事件信息流，从所述待提取视频中截取出所述至少一个第一片段，并根据情节触发条件得到所述至少一个第一片段的所述情节标注标签。

在本发明的一些实施例中，所述截取模块2554，具体用于为所述每个目标事件信息流，分别确定出起始视频帧和所述结束视频帧；所述起始视频帧对应所述目标事件信息流开始的视频帧，所述结束视频帧对应所述目标事件信息流结束的视频帧；将所述起始视频帧对应的播放时间作为所述第一片段起始时间点，将所述结束视频帧对应的播放时间作为所述第一片段结束时间点；根据所述第一片段起始时间点，和所述第一片段结束时间点，从所述待提取视频中截取出所述至少一个第一片段；将所述情节触发条件对应的情节标签，作为所述情节标注标签。

在本发明的一些实施例中，所述视频标注装置255还包括：解析模块2556；

所述解析模块2556，具体用于从所述待提取视频中，抽取出至少一个初始视频帧；对所述至少一个初始视频帧中的每个初始视频帧进行裁剪处理，得到至少一个中间视频帧；从所述至少一个中间视频帧中，识别出所述至少一个待处理视频帧；

相应的，所述提取模块2552，还用于从所述至少一个待处理视频帧的每个待处理视频帧中，提取出所述一个或多个事件信息。

在本发明的一些实施例中，所述提取模块2552，具体用于利用预设匹配模板，从所述视频帧中匹配出一个或多个第一事件信息；第一事件信息表征利用模板匹配所得到的事件信息；对所述视频帧进行特征抽取，得到视频图像特征点，并将所述视频图像特征点，与从预设图像中所抽取出的特征点进行匹配，得到一个或多个第二事件信息；第二事件信息表征利用特征点匹配所得到的事件信息；所述视频图像特征点表征对视频帧的图像特征进行描述的点；利用预设事件检测模型，从所述视频帧中，抽取出一个或多个第三事件信息；第三事件信息表征利用模型提取所得到的事件信息；对所述一个或多个第一事件信息、所述一个或多个第二事件信息和所述一个或多个第三事件信息进行整合，得到所述一个或多个事件信息。

在本发明的一些实施例中，所述解析模块2556，具体用于获取所述待提取视频的播放帧率；对所述播放帧率进行近似处理，得到近似播放帧率；将所述近似播放帧率和预设抽帧频率进行相比，得到抽帧间隔；其中，预设抽帧频率表征每秒所要抽取的视频帧的数目；将所述待提取视频分解为全量视频帧，并根据所述抽帧间隔，从所述全量视频帧中抽取出所述至少一个初始视频帧；其中，所述全量视频帧表征组成所述待提取视频的所有视频帧。

在本发明的一些实施例中，所述解析模块2556，具体用于对所述至少一个初始视频帧中的每个初始视频帧进行边缘检测，得到视频播放边缘；所述视频播放边缘表征将视频播放区域与非视频播放区域分隔开的边缘；根据所述视频播放边缘，将所述每个初始视频帧裁剪为视频播放部分和非视频播放部分；对所述每个初始视频帧对应的所述视频播放部分进行整合，得到所述至少一个中间视频帧。

在本发明的一些实施例中，所述解析模块2556，具体用于针对所述至少一个中间视频帧中的每个中间视频帧进行特征提取，得到待分类特征；对所述待分类特征进行分类，得到所述每个中间视频帧对应的分类结果；根据所述分类结果，从所述至少一个中间视频帧中识别出所述至少一个待处理视频帧。

在本发明的一些实施例中，所述解析模块2556，还用于对所述至少一个待处理视频帧中的每个待处理视频帧进行特征重排，得到至少一个缩小视频帧；针对所述至少一个缩小视频帧中的每个缩小视频帧进行特征图生成，得到至少一个特征图；其中，特征图中具有缩小视频帧的图像特征；将所述至少一个特征图中的每个特征图进行尺寸放大，得到至少一个放大后的特征图；利用所述至少一个放大后的特征图和所述至少一个待处理视频帧，构造出至少一个分辨率增强后的待处理视频帧；所述至少一个分辨率增强后的待处理视频帧用于提取所述一个或多个事件信息。

在本发明的一些实施例中，所述视频标注装置255还包括：修正模块2557；

所述修正模块2557，从所述待提取视频的视频帧中，获取当前视频帧的相邻视频帧；所述相邻视频帧包括所述当前视频帧的前一个视频帧，和所述当前视频帧的后一个视频帧；对所述相邻视频帧中的事件信息进行统计，得到统计结果；利用所述统计结果，对所述当前视频帧的一个或多个事件信息进行修正，得到所述当前视频帧的一个或多个修正后的事件信息，进而得到所述视频帧对应的一个或多个修正后的事件信息；所述一个或多个修正后的事件信息用于组成所述至少一个事件信息流。

在本发明的一些实施例中，所述视频标注装置255还包括：结构化模块2558，用于对所述一个或多个事件信息进行结构化整理，得到所述视频帧对应的结构化事件信息并存储。

下面继续说明本发明实施例提供的呈现装置455的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在第二存储器450的呈现装置455中的软件模块可以包括：

第二发送模块4551，用于向服务器发送视频提取指令；所述视频提取指令指定了进行视频标注的待提取视频；

第二接收模块4552，用于接收所述服务器发送的至少一个第一片段和对应的情节标注标签；所述至少一个第一片段和所述情节标注标签是所述服务器响应于所述视频提取指令得到的；

获取模块4553，用于获取所述至少一个第一片段的标注信息；其中，所述标注信息是利用所述情节标注标签对所述至少一个第一片段对应标注得到的；

呈现模块4554，在进行所述待提取视频展示时，在显示区域展示所述标注信息；其中，所述显示区域为展示所述待提取视频的显示界面中的第一预设区域。

在本发明的一些实施例中，所述第二接收模块4552，还用于在所述显示区域接收针对所述标注信息中的子标注信息的视频片段播放指令；

所述呈现模块4553，还用于响应于所述视频片段播放指令，在视频片段播放区域播放所述子标注信息对应的目标第一片段；其中，所述视频片段播放区域位于所述显示界面的第二预设区域，且未覆盖所述第一预设区域；所述目标第一片段为所述至少一个第一片段中与所述子标注信息对应的第一片段。

本发明实施例提供一种存储有可执行视频标注指令的存储介质，其中存储有可执行视频标注指令，当可执行视频标注指令被第一处理器或第二处理器执行时，将执行本发明实施例提供的视频标注方法，例如，如图4和图17示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种视频标注方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在所述基于所述至少一个事件信息流，从所述待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到所述至少一个第一片段的情节标注标签之后，所述方法还包括：

将所述至少一个第一片段和对应的所述情节标注标签发送给所述终端，以使所述终端采用所述情节标注标签标注对应的所述至少一个第一片段，将得到的标注信息和对应所述至少一个第一片段进行呈现，完成针对所述待提取视频的视频标注。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述至少一个事件信息流，从所述待提取视频中截取出满足情节触发条件的至少一个第一片段，并得到所述至少一个第一片段的情节标注标签，包括：

从所述至少一个事件信息流中，提取出满足情节触发条件的事件信息流，作为至少一个目标事件信息流；其中，所述情节触发条件表征精彩情节内容的条件；

根据所述至少一个目标事件信息流中的每个目标事件信息流，从所述待提取视频中截取出所述至少一个第一片段，并根据所述情节触发条件得到所述至少一个第一片段的所述情节标注标签。

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一个目标事件信息流中的每个目标事件信息流，从所述待提取视频中截取出所述至少一个第一片段，并根据情节触发条件得到所述至少一个第一片段的所述情节标注标签，包括：

为所述每个目标事件信息流，分别确定出起始视频帧和结束视频帧；所述起始视频帧对应目标事件信息流开始的视频帧，所述结束视频帧对应所述目标事件信息流结束的视频帧；

将所述起始视频帧对应的播放时间作为第一片段起始时间点，将所述结束视频帧对应的播放时间作为第一片段结束时间点；

根据所述第一片段起始时间点，和所述第一片段结束时间点，从所述待提取视频中截取出所述至少一个第一片段；

将所述情节触发条件对应的情节标签，作为所述情节标注标签。

5.根据权利要求1至4任一项所述的方法，其特征在于，在所述接收终端发送的视频提取指令，并根据所述视频提取指令获取待提取视频之后，所述从所述待提取视频的视频帧中提取出一个或多个事件信息之前，所述方法还包括：

从所述待提取视频中，抽取出至少一个初始视频帧；

对所述至少一个初始视频帧中的每个初始视频帧进行裁剪处理，得到至少一个中间视频帧；

从所述至少一个中间视频帧中，识别出所述至少一个待处理视频帧；

相应的，所述从所述待提取视频的视频帧中提取出一个或多个事件信息，包括：

从所述至少一个待处理视频帧的每个待处理视频帧中，提取出所述一个或多个事件信息。

6.根据权利要求5所述的方法，其特征在于，所述从所述待提取视频中，抽取出至少一个初始视频帧，包括：

获取所述待提取视频的播放帧率；

对所述播放帧率进行近似处理，得到近似播放帧率；

将所述近似播放帧率和预设抽帧频率进行相比，得到抽帧间隔；其中，所述预设抽帧频率表征每秒所要抽取的视频帧的数目；

将所述待提取视频分解为全量视频帧，并根据所述抽帧间隔，从所述全量视频帧中抽取出所述至少一个初始视频帧；其中，所述全量视频帧表征组成所述待提取视频的所有视频帧。

7.根据权利要求5所述的方法，其特征在于，所述对所述至少一个初始视频帧中的每个初始视频帧进行裁剪处理，得到至少一个中间视频帧，包括：

对所述至少一个初始视频帧中的每个初始视频帧进行边缘检测，得到视频播放边缘；所述视频播放边缘表征将视频播放区域与非视频播放区域分隔开的边缘；

根据所述视频播放边缘，将所述每个初始视频帧裁剪为视频播放部分和非视频播放部分；

对所述每个初始视频帧对应的所述视频播放部分进行整合，得到所述至少一个中间视频帧。

8.根据权利要求5所述的方法，其特征在于，所述从所述至少一个中间视频帧中，识别出所述至少一个待处理视频帧，包括：

针对所述至少一个中间视频帧中的每个中间视频帧进行特征提取，得到待分类特征；

对所述待分类特征进行分类，得到所述每个中间视频帧对应的分类结果；

根据所述分类结果，从所述至少一个中间视频帧中识别出所述至少一个待处理视频帧。

9.根据权利要求5所述的方法，其特征在于，在所述从所述至少一个中间视频帧中，识别出所述至少一个待处理视频帧之后，所述方法还包括：

对所述至少一个待处理视频帧中的每个待处理视频帧进行特征重排，得到至少一个缩小视频帧；

针对所述至少一个缩小视频帧中的每个缩小视频帧进行特征图生成，得到至少一个特征图；其中，特征图中具有缩小视频帧的图像特征；

将所述至少一个特征图中的每个特征图进行尺寸放大，得到至少一个放大后的特征图；

利用所述至少一个放大后的特征图和所述至少一个待处理视频帧，构造出至少一个分辨率增强后的待处理视频帧；所述至少一个分辨率增强后的待处理视频帧用于提取所述一个或多个事件信息。

10.根据权利要求1至9任一项所述的方法，其特征在于，在所述从所述待提取视频的视频帧中提取出一个或多个事件信息之后，所述利用所述一个或多个事件信息组成至少一个事件信息流之前，所述方法还包括：

从所述待提取视频的视频帧中，获取当前视频帧的相邻视频帧；

对所述相邻视频帧中的事件信息进行统计，得到统计结果；

利用所述统计结果，对所述当前视频帧的一个或多个事件信息进行修正，得到所述当前视频帧的一个或多个修正后的事件信息，进而得到所述视频帧对应的一个或多个修正后的事件信息；所述一个或多个修正后的事件信息用于组成所述至少一个事件信息流。

11.根据权利要求1至9任一项所述的方法，其特征在于，在所述从待提取视频的视频帧中提取出一个或多个事件信息之后，所述方法还包括：

对所述一个或多个事件信息进行结构化整理，得到所述视频帧对应的结构化事件信息并存储。

12.一种视频标注方法，其特征在于，包括：

在进行所述待提取视频展示时，在显示区域展示所述标注信息；其中，所述显示区域为展示所述待提取视频的显示界面中的第一预设区域。

13.一种服务器，其特征在于，包括：

第一存储器，用于存储可执行视频标注指令；

第一处理器，用于执行所述第一存储器中存储的可执行视频标注指令时，实现权利要求1至11任一项所述的方法。

14.一种终端，其特征在于，包括：

第二存储器，用于存储可执行视频标注指令；

第二处理器，用于执行所述第二存储器中存储的可执行视频标注指令时，实现权利要求12所述的方法。

15.一种存储介质，其特征在于，存储有可执行视频标注指令，用于引起第一处理器执行时，实现权利要求1至11任一项所述的方法，或者用于引起第二处理器执行时，实现权利要求12所述的方法。