CN111726682A

CN111726682A - 视频片段生成方法、装置、设备和计算机存储介质

Info

Publication number: CN111726682A
Application number: CN202010612586.2A
Authority: CN
Inventors: 张继丰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-09-29
Anticipated expiration: 2040-06-30
Also published as: CN111726682B

Abstract

本申请公开了一种视频片段生成方法、装置、设备和计算机存储介质。涉及计算机领域，尤其涉及深度学习及视频编辑领域。包括：对视频数据流进行解析，得到至少一个第一视频帧；根据至少一个第一视频帧进行类型识别，得到至少一个第一视频帧对应的目标类型；根据类型与视频片段的预设对应关系，得到与目标类型对应的至少一个视频片段；将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；根据第二视频帧，截取视频数据流中的目标视频片段。本申请实施例能够在视频播放过程中自动获取目标视频片段，进一步获取整合的视频片段，无需主播端操作，为主播端的视频播放提供便利。

Description

视频片段生成方法、装置、设备和计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能和视频技术领域。

背景技术

随着互联网技术的进步和网络的普及，网络直播也得到了快速发展和广泛应用。网络直播存在很多种种类，在网络游戏被越来越多的网民喜爱的如今，游戏直播是网络直播的一种。各大游戏厂商将游戏和直播结合起来，以提高游戏产品的宣传和推广。

目前各大游戏主播大多是通过分享自己的精彩操作，精彩片段剪辑等视频来吸引粉丝的眼球。在游戏直播的过程中，游戏主播在主播的客户端通过三方录制软件将将游戏直播内容进行录制，然后等下播后再通过三方视频剪辑软件将游戏直播过程中的精彩片段进行剪辑，整个过程比较繁琐且不够智能化，也无法给游戏主播获取精彩片段带来较好的用户体验。

发明内容

本公开提供了一种视频片段方法、装置、设备以及计算机存储介质。

根据本公开的一方面，提供了一种视频片段生成方法，包括：

对视频数据流进行解析，得到至少一个第一视频帧；

根据至少一个第一视频帧进行类型识别，得到至少一个第一视频帧对应的目标类型；

根据类型与视频片段的预设对应关系，得到与目标类型对应的至少一个视频片段；

将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；

根据第二视频帧，截取视频数据流中的目标视频片段。

根据本公开的另一方面，提供一种视频片段生成装置，包括：

解析模块，用于对视频数据流进行解析，得到至少一个第一视频帧；

类型识别模块，用于根据至少一个第一视频帧进行类型识别，得到至少一个第一视频帧对应的目标类型；

片段获得模块，用于根据类型与视频片段的预设对应关系，得到与目标类型对应的至少一个视频片段；

匹配模块，用于将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；

截取模块，用于根据第二视频帧，截取视频数据流中的目标视频片段。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本申请任意一项实施例所提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本申请任意一项实施例所提供的方法。

根据本申请的技术能够在视频播放过程中自动获取目标视频片段，然后根据目标视频片段获取整合的视频片段，从而无需主播端操作，为主播端的视频播放提供便利。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的视频片段生成方法示意图；

图2是根据本申请另一示例的视频片段生成方法示意图；

图3是根据本申请另一实施例的视频片段生成方法示意图；

图4是根据本申请另一实施例的视频片段生成装置示意图；

图5是根据本申请另一实施例的视频片段生成装置示意图；

图6是用来实现本申请实施例的视频片段生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1示出了根据本申请一种实施例的视频片段生成方法，包括：

步骤101：对视频数据流进行解析，得到至少一个第一视频帧；

步骤102：根据至少一个第一视频帧进行类型识别，得到至少一个第一视频帧对应的目标类型；

步骤103：根据类型与视频片段的预设对应关系，得到与目标类型对应的至少一个视频片段；

步骤104：将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；

步骤105：根据第二视频帧，截取视频数据流中的目标视频片段。

本实施例中，主播端可以是游戏主播的终端。对主播端播放的视频数据流进行解析，得到至少一个视频帧，可以是对主播端播放的视频数据流进行解析，得到一个关于游戏开始或游戏结束节点的视频帧。该视频帧可以是游戏开始界面对应的视频帧和。

在本实施例的另一种实现方式中，可以根据音频帧对游戏的类型进行识别。

本实施例中，对至少一个第一视频帧进行类型识别，根据识别结果得到至少一个第一视频帧对应的目标类型，具体可以是，对至少一个第一视频帧或者对应的音频帧进行识别，得到视频的类型，具体而言可以是游戏类型。然后根据视频的类型获得预先存储的与视频的类型对应的至少一个视频片段。视频片段可以包括一个视频帧或者一个以上的视频帧。

本实施例中，第二视频帧可以是游戏的精彩视频图像。将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，可以包括将至少一个视频片段的视频帧与视频数据流中的视频帧进行相似度计算，若相似度大于设定阈值，则确定匹配成功。在匹配成功的情况下，根据第二视频帧，可以得到至少一个目标视频片段，可以是，在匹配成功的情况下，根据与第二视频帧在视频流中的位置，确定目标视频片段的起始节点，然后根据起始节点获取目标视频片段。

比如，可以获得多个匹配的第二视频帧，将时间较早的匹配的视频帧之前设定时间节点作为开始节点，将时间较晚的匹配的视频帧之后设定时间节点作为终止节点，获取开始节点和终止节点之间的视频片段，作为目标视频片段。

本实施例中，视频片段生成操作可以是主播端的下线操作。

根据第二视频帧具体的数量，可以获得一个或一个以上的目标视频片段。在视频播放结束后，可以将一个或一个以上的目标视频片段发送至视频的播放端。

本实施例中，视频数据流可以是在任意终端上播放的视频数据流，比如终端上进行直播时产生的直播视频数据流；再如，终端上播放录像时产生的录像数据流。

本申请实施例中，对视频数据流进行解析，获得对应的视频数据流的视频的目标类型，然后根据目标类型确定至少一个视频片段。根据第二图像帧在视频数据流中检测目标视频帧，从而可以自动在视频数据流中获取与目标视频帧匹配的第二视频帧，无需用户手动操作，就能根据需要截取目标视频片段，从而能够带给用户更好的体验。

本申请另一种实施例中，对视频数据流进行解析，得到至少一个第一视频帧，包括：

对视频数据流从播放开始至播放结束，持续进行实时监控，以得到用于类型识别的至少一个视频帧。

本实施例中，当视频数据流为主播端进行游戏直播而播放的视频数据流时，从游戏开启到游戏结束一直采用游戏类型匹配模块进行匹配，具体可以对图像帧和音频帧进行匹配，在匹配确定游戏类型之后，确定对应的第二视频帧，即精彩片段视频帧。

本实施例中，在视频数据流播放到结束的过程中，始终对视频的类型进行匹配和确定，从而，当视频数据流中包括两个以上不同的种类时，能够将两个以上不同的种类识别出来。

本申请另一种实施例中，视频片段生成方法包括上述实施例的各步骤。在本实施例中，根据至少一个第一视频帧进行类型识别，得到至少一个第一视频帧对应的目标类型，包括：

将至少一个第一视频帧，输入预先训练得到的类型匹配网络进行类型识别；

根据类型匹配网络输出的分类标签，得到预设的至少一个目标类型。

本实施例中，在主播端将至少一个以视频帧输入预先训练得到的类型匹配网络，实现视频的类型的匹配，然后根据分类标签在数据库中找到第二视频帧。当视频流数据为游戏直播的视频流数据时，游戏类型匹配模块的实现，可以通过该类型匹配网络得到。根据分类标签在数据库中找到精彩瞬间。

在本申请另一种实施方式中，本方法还包括：

获得用于训练待训练的类型匹配网络的样本视频帧；

将所述样本视频帧输入所述待训练的类型匹配网络；

根据样本视频帧的参考类型，对所述待训练的类型匹配网络进行优化，得到所述类型匹配网络。

本实施例中，根据样本视频帧训练待训练的类型匹配网络然后得到类型匹配网络，从而能够直接将视频数据流输入类型匹配网络，获得视频数据流对应的目标类型。

本申请另一种实施方式中，视频片段生成方法包括上述实施例的各步骤。在本实施例中，将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧，包括：

提取至少一个视频片段的视频帧对应的第一图像特征、及视频数据流的视频帧对应的第二图像特征；

根据第一图像特征及第二图像特征进行图像相似度匹配，若匹配成功，将匹配成功的第二图像特征对应的视频帧作为第二视频帧。

本实施例中，第二视频帧可以有一个或多个。

根据第一图像特征及第二图像特征进行图像相似度匹配，若匹配成功，将比对得到的至少一个第二视频帧，具体可以包括：根据第一图像特征及第二图像特征进行图像相似度匹配，相似度达到设定的匹配阈值时，认为第一图像特征和第二图像特征匹配。匹配成功后，将第二图像特征在视频流数据中对应的视频帧作为目标视频帧。

在一种实施方式中，视频片段生成方法包括上述实施例的步骤。本实施例中，还包括：

设置用于标识至少一个第二视频帧的位置的锚点。

上式实施例中，锚点用于标记目标视频片段的起始节点。例如，在视频流数据中，识别出与第一视频片段匹配的两个第二视频帧，分别对应于第一时间节点A的视频帧和对应于第二时间节点B的视频帧。第一时间节点A早于第二时间节点B，将A之前第一设定时间(比如A节点之前2秒)的时间节点C作为开始时间节点，将B之后的第二设定时间节点(比如B节点之后3秒)的时间节点D作为结束时间节点。然后截取开始施加节点和结束时间节点之间的视频片段为目标视频片段。

本实施例中，通过设置锚点，能够方便地标记目标视频片段中起始节点对应的时间节点，锚点可以是起始时间节点，或者可以是与第一视频片段匹配的视频帧对应的时间节点。设置锚点有助于快速从视频流数据中截取目标视频。

在一种实施方式中，视频片段生成方法包括上述实施例的步骤。本实施例中，根据第二视频帧，截取视频数据流中的目标视频片段，还包括：

提取锚点前后预设范围内的至少一个视频片段，作为目标视频片段。

针对至少一个待整合的视频片段，提取锚点前后预设范围内的至少一个第一视频片段，对至少一个第一视频片段进行整合处理，得到目标视频片段。

本实施例中，锚点为视频流中与第二视频帧匹配的视频帧对应的节点。本实施例以每一局锚点作为单位，提取锚点前后预设范围内的视频进行编码合成形成新的视频片段，从而得到目标视频片段。

在一种实施方式中，视频数据流进行解析，得到至少一个第一视频帧，包括：

获取所述视频数据流的登录操作，得到所述至少一个第一视频帧；或

获取所述视频数据流的内容切换操作，得到所述至少一个第一视频帧。

在本实施例中，通过下限操作或者切换播放操作触发视频片段的整合，从而能够及时将获取的待整合视频片段进行整合，同时不影响视频播放过程。

在一种实施方式中，视频片段生成方法包括上述实施例的步骤。本实施例中，视频数据流，包括：游戏直播视频；

目标视频片段，包括：游戏精彩瞬间的视频片段。

本申请实施例可以通过训练大量游戏开启的图像与声音训练集，得到游戏类型匹配模块，这个模块在游戏开始-游戏结束一直实时监测主播端的媒体流数据。游戏类型匹配模块的训练目的是：训练后，在实时获取主播端的媒体流数据的情况下，通过解析得到构成媒体流数据的视频帧及对应的音频帧，连续根据视频帧及音频进行游戏类型匹配模块的联合判断，游戏类型匹配模块输出游戏类型分类标签，根据分类标签结果找到数据库中对应的游戏精彩瞬间图像，这个游戏精彩瞬间图像用于后续从游戏直播视频流中获取目标视频片段。

本实施例中，可以采用精彩游戏视频片段整合模块进行目标视频片段整合；视频流帧图像与预设的游戏的精彩视频图像相似度做对比，如果特征向量匹配成功，则对此数据进行锚点标识，当识别到对局游戏结束的时候，以每一局锚点作为单位，提取锚点前后预设范围内的视频进行编码合成形成新的视频片段，当监听到主播端下播的时候，将精彩视频片段下发给主播端。从而在游戏直播的过程中，不需要主播自己截取视频片段，提升主播的播放体验和直播视频观看者的观看体验。

在本申请一种示例中，如图2所示，包括：

步骤201：获取游戏直播视频媒体流。即获取直播端的视频播放流。

步骤202：解码分析视频流与音频流。即对游戏直播视频媒体流的视频流与音频流进行解码分析。

步骤203：深度学习模型匹配游戏类型。通过深度学习模型，对解析的视频流与音频流进行分析，获得匹配的游戏类型，游戏启动。

步骤204：设置精彩瞬间图像。即根据游戏类型，获取对应的精彩瞬间图像，并设置为检查条件。

步骤205：判断是否是精彩瞬间。即根据精彩瞬间图像，确定视频流中是否存在与精彩瞬间匹配的图像帧。

步骤206：设置数据位置锚点。在查到与精彩瞬间图像匹配的图像帧之后，在于精彩瞬间匹配的图像帧处设置数据位置锚点。

步骤207：解码分析视频流与音频流。即，对数据锚点对应的视频流与音频流进行解码分析。

步骤208：深度学习模型匹配游戏类型。即，在游戏结束时刻，再次对游戏类型进行分析。

步骤209：根据锚点生成待合成视频片段。具体的，根据锚点生成目标视频片段，根据目标视频片段生成待合成视频片段。

步骤210：判断主播是否下播。若是，进入下一步。

步骤211：下发片段。将待合成视频片段生成合成视频片段，发送到主播端。

本申请实施例还提供一种视频片段生成装置，如图3所示，包括：

解析模块301，用于对视频数据流进行解析，得到至少一个第一视频帧；

类型识别模块302，用于根据至少一个第一视频帧进行类型识别，得到至少一个第一视频帧对应的目标类型；

片段获得模块303，用于根据类型与视频片段的预设对应关系，得到与目标类型对应的至少一个视频片段；

匹配模块304，用于将至少一个视频片段与视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；

截取模块305，用于根据第二视频帧，截取视频数据流中的目标视频片段。

在一种实施方式中，如图4所示，类型识别模块302包括：

类型模型单元401，用于将至少一个第一视频帧，输入预先训练得到的类型匹配网络进行类型识别；

第二视频帧单元402，用于根据类型匹配网络输出的分类标签，得到预设的至少一个目标类型。

在一种实施方式中，如图4所示，类型识别模块302还包括：

训练视频获得单元403，获得用于训练待训练的类型匹配网络的样本视频帧；

训练视频输入单元404，将样本视频帧输入待训练的类型匹配网络；

类型匹配网络训练单元405，根据样本视频帧的参考类型，对待训练的类型匹配网络进行优化，得到类型匹配网络。

在一种实施方式中，如图5所示，匹配模块304包括：

提取单元501，用于提取至少一个视频片段的视频帧对应的第一图像特征、及视频数据流的视频帧对应的第二图像特征；

对比单元502，用于根据第一图像特征及第二图像特征进行图像相似度匹配，若匹配成功，将匹配成功的第二图像特征对应的视频帧作为第二视频帧。

在一种实施方式中，匹配模块还用于：

设置用于标识至少一个第二视频帧的位置的锚点。

在一种实施方式中，匹配模块还用于：

根据锚点，对相应的至少一个待整合的视频片段进行整合处理，得到目标视频片段；或

在一种实施方式中，所述解析模块还用于：

获取视频数据流的登录操作，得到至少一个第一视频帧；或

获取视频数据流的内容切换操作，得到至少一个第一视频帧。

在一种实施方式中，视频数据流，包括：游戏直播视频；

至少一个目标视频片段，包括：游戏精彩瞬间的视频片段。

如图6所示，是根据本申请实施例的视频片段生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的视频片段生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的视频片段生成方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的视频片段生成方法对应的程序指令/模块(例如，附图3所示的解析模块301、类型识别模块302、匹配模块303、整合模块304)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的视频片段生成方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据视频编码电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至视频编码电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

视频片段生成方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与视频编码电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，对主播端播放的视频数据流进行解析，获得对应的视频数据流的视频的类型，然后根据类型确定预设的视频片段。根据预设的视频片段在视频数据流中检测目标视频片段，从而可以自动在主播端播放的视频数据流中获取与第二图像帧相似度匹配的目标视频片段，无需主播端的用户手动操作，能够带给用户更好的体验。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种视频片段生成方法，包括：

对视频数据流进行解析，得到至少一个第一视频帧；

根据所述至少一个第一视频帧进行类型识别，得到所述至少一个第一视频帧对应的目标类型；

根据类型与视频片段的预设对应关系，得到与所述目标类型对应的至少一个视频片段；

将所述至少一个视频片段与所述视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；

根据所述第二视频帧，截取所述视频数据流中的目标视频片段。

2.根据权利要求1所述的方法，其中，所述根据所述至少一个第一视频帧进行类型识别，得到所述至少一个第一视频帧对应的目标类型，包括：

将所述至少一个第一视频帧，输入预先训练得到的类型匹配网络进行类型识别；

根据所述类型匹配网络输出的分类标签，得到预设的至少一个目标类型。

3.根据权利要求2所述的方法，其中，还包括：

获得用于训练待训练的类型匹配网络的样本视频帧；

将所述样本视频帧输入所述待训练的类型匹配网络；

4.根据权利要求1所述的方法，其中，所述将所述至少一个视频片段与所述视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧，包括：

提取所述至少一个视频片段的视频帧对应的第一图像特征、及所述视频数据流的视频帧对应的第二图像特征；

根据所述第一图像特征及所述第二图像特征进行图像相似度匹配，若匹配成功，将匹配成功的第二图像特征对应的视频帧作为所述第二视频帧。

5.根据权利要求4所述的方法，还包括：

设置用于标识所述至少所述第二视频帧的位置的锚点。

6.根据权利要求5所述的方法，所述根据所述第二视频帧，截取所述视频数据流中的目标视频片段，还包括：

根据所述锚点，对相应的至少一个待整合的视频片段进行整合处理，得到所述目标视频片段；或

提取所述锚点前后预设范围内的至少一个视频片段，作为所述目标视频片段。

7.根据权利要求1所述的方法，其中，所述对视频数据流进行解析，得到至少一个第一视频帧，包括：

8.根据权利要求1或2所述的方法，其中，所述视频数据流，包括：游戏直播视频；

所述目标视频片段，包括：游戏精彩瞬间的视频片段。

9.一种视频片段生成装置，包括：

类型识别模块，用于根据所述至少一个第一视频帧进行类型识别，得到所述至少一个第一视频帧对应的目标类型；

片段获得模块，用于根据类型与视频片段的预设对应关系，得到与所述目标类型对应的至少一个视频片段；

匹配模块，用于将所述至少一个视频片段与所述视频数据流中的视频帧进行相似度匹配，得到匹配的第二视频帧；

截取模块，用于根据所述第二视频帧，截取所述视频数据流中的目标视频片段。

10.根据权利要求9所述的装置，所述类型识别模块包括：

类型模型单元，用于将所述至少一个第一视频帧，输入预先训练得到的类型匹配网络进行类型识别；

第二视频帧单元，用于根据所述类型匹配网络输出的分类标签，得到预设的至少一个目标类型。

11.根据权利要求10所述的装置，其中，所述类型识别模块还包括：

训练视频获得单元，获得用于训练待训练的类型匹配网络的样本视频帧；

训练视频输入单元，将所述样本视频帧输入所述待训练的类型匹配网络；

类型匹配网络训练单元，根据样本视频帧的参考类型，对所述待训练的类型匹配网络进行优化，得到所述类型匹配网络。

12.根据权利要求9所述的装置，其中，所述匹配模块包括：

提取单元，用于提取所述至少一个视频片段的视频帧对应的第一图像特征、及所述视频数据流的视频帧对应的第二图像特征；

对比单元，用于根据所述第一图像特征及所述第二图像特征进行图像相似度匹配，若匹配成功，将匹配成功的第二图像特征对应的视频帧作为所述第二视频帧。

13.根据权利要求12所述的装置，所述匹配模块还用于：

设置用于标识所述至少所述第二视频帧的位置的锚点。

14.根据权利要求13所述的装置，所述匹配模块还用于：

15.根据权利要求9所述的装置，其中，所述解析模块还用于：

16.根据权利要求9或10所述的装置，其中，所述视频数据流，包括：游戏直播视频；

所述目标视频片段，包括：游戏精彩瞬间的视频片段。

17.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。