CN111428660B

CN111428660B - 视频剪辑方法和装置、存储介质及电子装置

Info

Publication number: CN111428660B
Application number: CN202010232327.7A
Authority: CN
Inventors: 张一飞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-27
Filing date: 2020-03-27
Publication date: 2023-04-07
Anticipated expiration: 2040-03-27
Also published as: CN111428660A

Abstract

本发明公开了一种视频剪辑方法和装置、存储介质及电子装置。该方法包括：从直播视频流数据中提取出多帧关键图像帧；依次将关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与关键图像帧相匹配的识别结果；在识别结果指示关键图像帧为开始事件中的图像帧或结束事件中的图像帧的情况下，将关键图像帧对应时刻确定为开始对象时刻或结束对象时刻；对开始时间列表及结束时间列表进行比对，确定出目标局竞速任务的开始事件的目标开始对象时刻及结束事件的目标结束对象时刻；根据目标开始对象时刻和目标结束对象时刻对直播视频流数据中进行剪辑。本发明解决了视频剪辑效率较低的问题。

Description

视频剪辑方法和装置、存储介质及电子装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频剪辑方法和装置、存储介质及电子装置。

背景技术

对于包含竞速类内容的直播视频，为了便于更多的用户观看，往往需要专门的工作人员在直播结束后，再人工下载直播视频源文件，并肉眼识别出竞速比赛过程的开始画面、结束画面。最后，还是由工作人员来使用剪辑软件进行手动地剪辑，以得到将要分享的比赛视频集锦。

也就是说，在相关技术提供的视频剪辑方法中，仍需请专门的工作人员来手动执行编辑操作，使得视频剪辑操作的复杂度增加，从而导致视频剪辑效率较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频剪辑方法和装置、存储介质及电子装置，以至少解决视频剪辑操作较复杂所导致的视频剪辑效率较低的技术问题。

根据本发明实施例的一个方面，提供了一种视频剪辑方法，包括：从直播视频流数据中提取出多帧关键图像帧，其中，上述直播视频流中携带有正在直播的竞速类视频内容；依次将每一帧上述关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与上述关键图像帧相匹配的识别结果，其中，上述第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，上述第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，上述识别结果为根据上述第一图像识别模型的输出结果及上述第二图像识别模型的输出结果确定得出；在上述识别结果指示上述关键图像帧为上述开始事件中的图像帧的情况下，将上述关键图像帧对应时刻确定为开始对象时刻，其中，上述开始对象时刻为上述开始事件对应的开始时间列表中的时刻；在上述识别结果指示上述关键图像帧为上述结束事件中的图像帧的情况下，将上述关键图像帧对应时刻确定为结束对象时刻，其中，上述结束对象时刻为上述结束事件对应的结束时间列表中的时刻；在获取到与上述多帧关键图像帧对应的多个识别结果之后，对上述开始时间列表及上述结束时间列表进行比对；根据比对的结果从上述结束时间列表及上述结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及上述目标局竞速任务的结束事件的目标结束对象时刻；根据上述目标开始对象时刻和上述目标结束对象时刻，对上述直播视频流数据中进行剪辑，以生成与上述目标局竞速任务对应的目标视频。

根据本发明实施例的另一方面，还提供了一种视频剪辑装置，包括：提取单元，用于从直播视频流数据中提取出多帧关键图像帧，其中，上述直播视频流中携带有正在直播的竞速类视频内容；输入单元，用于依次将每一帧上述关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与上述关键图像帧相匹配的识别结果，其中，上述第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，上述第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，上述识别结果为根据上述第一图像识别模型的输出结果及上述第二图像识别模型的输出结果确定得出；第一确定单元，用于在上述识别结果指示上述关键图像帧为上述开始事件中的图像帧的情况下，将上述关键图像帧对应时刻确定为开始对象时刻，其中，上述开始对象时刻为上述开始事件对应的开始时间列表中的时刻；在上述识别结果指示上述关键图像帧为上述结束事件中的图像帧的情况下，将上述关键图像帧对应时刻确定为结束对象时刻，其中，上述结束对象时刻为上述结束事件对应的结束时间列表中的时刻；第一比对单元，用于在获取到与上述多帧关键图像帧对应的多个识别结果之后，对上述开始时间列表及上述结束时间列表进行比对；第二确定单元，用于根据比对的结果从上述结束时间列表及上述结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及上述目标局竞速任务的结束事件的目标结束对象时刻；剪辑单元，用于根据上述目标开始对象时刻和上述目标结束对象时刻，对上述直播视频流数据中进行剪辑，以生成与上述目标局竞速任务对应的目标视频。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述视频剪辑方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的视频剪辑方法。

在本发明实施例中，在从直播视频流数据中提取出多帧关键图像帧之后，将上述多帧关键图像帧依次分别输入第一图像识别模型及第二图像识别模型，以便于识别确定该关键图像帧是否为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧。在根据识别结果确定该关键图像帧为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧，则将该关键图像帧对应时刻存储到开始时间列表或结束时间列表中。在对上述开始时间列表或结束时间列表进行比对后，将确定出每一个目标局中竞速任务的开始事件中的目标开始对象时刻或结束事件中的目标结束对象时刻，从而实现基于该目标开始对象时刻及目标结束对象时刻来进行自动剪辑，以得到与上述目标局竞速任务对应的目标视频。而无需再由工作人员参与执行手动剪辑视频的操作，简化了视频剪辑操作，达到提高视频剪辑效率的效果，进而解决了视频剪辑操作较复杂所导致的视频剪辑效率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的视频剪辑方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的视频剪辑方法的流程图；

图3是根据本发明实施例的一种可选的视频剪辑方法的示意图；

图4是根据本发明实施例的一种可选的视频剪辑方法的时序图；

图5是根据本发明实施例的另一种可选的视频剪辑方法的示意图；

图6是根据本发明实施例的又一种可选的视频剪辑方法的示意图；

图7是根据本发明实施例的一种可选的视频剪辑方法中所采用神经网络模型的示意图；

图8是根据本发明实施例的又一种可选的视频剪辑方法的示意图；

图9是根据本发明实施例的又一种可选的视频剪辑方法的示意图；

图10是根据本发明实施例的一种可选的视频剪辑装置的结构示意图；

图11是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例的一个方面，提供了一种视频剪辑方法，可选地，作为一种可选的实施方式，上述视频剪辑方法可以但不限于应用于如图1所示的环境中的视频剪辑系统中，其中，该视频剪辑系统可以包括但不限于终端设备102、网络104、服务器106和终端设备108。终端设备102中运行有使用户账号(如ID-1)登录的客户端(如图1所示为直播应用客户端)。上述终端设备102中包括人机交互屏幕1022，处理器1024及存储器1026。人机交互屏幕1022用于呈现上述直播应用客户端中正在直播的竞速类视频内容，还用于提供人机交互接口检测对人机交互界面执行的人机交互操作，以触发用于与正在直播的主播进行互动的操作指令。处理器1024用于响应上述操作指令，来与正在直播的主播进行互动。存储器1026用于存储上述直播视频流数据中的图像帧。

此外，服务器106中包括数据库1062及处理引擎1064，数据库1062中用于存储第一图像识别模型及第二图像识别模型，和直播流数据中提取出的关键图像帧。处理引擎1064用于将从直播视频流数据中提取出的多帧关键图像帧，依次分别输入第一图像识别模型及第二图像识别模型，以得到与关键图像帧相匹配的识别结果，这里第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，识别结果为根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定得出。然后，在上述识别结果确定该关键图像帧是一局竞速任务开始事件中的图像帧的情况下，将关键图像帧对应时刻确定为开始对象时刻，其中，开始对象时刻为开始事件对应的开始时间列表中的时刻，而在关键图像帧为一局竞速任务结束事件中的图像帧的情况下，将关键图像帧对应时刻确定为结束对象时刻，其中，结束对象时刻为结束事件对应的结束时间列表中的时刻。在获取到多个识别结果之后，比对上述开始时间列表及结束时间列表，并根据比对的结果确定出目标局竞速任务的开始事件的目标开始对象时刻和结束事件的目标结束对象时刻。从而实现基于上述目标开始对象时刻和目标结束对象时刻，对上述直播流数据进行剪辑，以生成与目标局竞速任务对应的目标视频。进而将该目标视频分享给终端设备108。

进一步，上述终端设备108中运行有使用户账号(如ID-2)登录的视频共享播放平台的客户端，该客户端用于播放剪辑好的视频集锦，其中包括上述服务器106分享来的目标视频。上述终端设备108中包括人机交互屏幕1082，处理器1084及存储器1086。人机交互屏幕1082用于呈现上述目标视频，上述处理器1084用于控制管理及播放上述目标视频，上述存储器1086用于存储上述目标视频。

具体过程如以下步骤：如步骤S102，在终端设备102中的直播应用客户端中正在直播竞速类视频内容的情况下，服务器106可以通过网络104获取上述直播视频流数据，并执行步骤S104-S114：将从直播视频流数据中提取出的多帧关键图像帧，依次分别输入第一图像识别模型及第二图像识别模型，以得到与关键图像帧相匹配的识别结果。然后，在上述识别结果确定该关键图像帧是一局竞速任务开始事件中的图像帧或一局竞速任务结束事件中的图像帧的情况下，将关键图像帧对应时刻确定为开始对象时刻或结束对象时刻，其中，开始对象时刻为开始事件对应的开始时间列表中的时刻，结束对象时刻为结束事件对应的结束时间列表中的时刻；。在获取到多个识别结果之后，比对上述开始时间列表及结束时间列表，并根据比对的结果确定出目标局竞速任务的开始事件的目标开始对象时刻和结束事件的目标结束对象时刻。从而实现基于上述目标开始对象时刻和目标结束对象时刻，对上述直播流数据进行剪辑，以生成与目标局竞速任务对应的目标视频。然后执行步骤S116，将上述目标视频通过网络104发送给终端设备108，以便于分享该剪辑好的目标视频。如图1所示，终端设备108的人机交互屏幕1082中将呈现对各个主播所直播的竞速任务剪辑好的视频列表，如点击主播A直播的竞速任务x对应的剪辑视频，则可以直接播放该剪辑视频。

需要说明的是，在本实施例中，在从直播视频流数据中提取出多帧关键图像帧之后，将上述多帧关键图像帧依次分别输入第一图像识别模型及第二图像识别模型，以便于识别确定该关键图像帧是否为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧。在根据识别结果确定该关键图像帧为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧，则将该关键图像帧对应时刻存储到开始时间列表或结束时间列表中。在对上述开始时间列表或结束时间列表进行比对后，将确定出每一个目标局中竞速任务的开始事件中的目标开始对象时刻或结束事件中的目标结束对象时刻，从而实现基于该目标开始对象时刻及目标结束对象时刻来进行自动剪辑，以得到与上述目标局竞速任务对应的目标视频。而无需再由工作人员参与执行手动剪辑视频的操作，简化了视频剪辑操作，达到提高视频剪辑效率的效果，进而克服了相关技术中视频剪辑效率较低的问题。

可选地，在本实施例中，上述视频剪辑方法可以但不限于应用于终端设备中，该终端设备可以但不限于为手机、平板电脑、笔记本电脑、PC机等支持运行应用客户端的终端设备。上述服务器和终端设备可以但不限于通过网络实现数据交互，上述网络可以包括但不限于无线网络或有线网络。其中，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于：广域网、城域网、局域网。上述仅是一种示例，本实施例中对此不作任何限定。

可选地，作为一种可选的实施方式，如图2所示，上述视频剪辑方法包括：

S202，从直播视频流数据中提取出多帧关键图像帧，其中，直播视频流中携带有正在直播的竞速类视频内容；

S204，依次将每一帧关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与关键图像帧相匹配的识别结果，其中，第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，识别结果为根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定得出；

S206，在识别结果指示关键图像帧为开始事件中的图像帧的情况下，将关键图像帧对应时刻确定为开始对象时刻，其中，开始对象时刻为开始事件对应的开始时间列表中的时刻；在识别结果指示关键图像帧为结束事件中的图像帧的情况下，将关键图像帧对应时刻确定为结束对象时刻，其中，结束对象时刻为结束事件对应的结束时间列表中的时刻；

S208，在获取到与多帧关键图像帧对应的多个识别结果之后，对开始时间列表及结束时间列表进行比对；

S210，根据比对的结果从结束时间列表及结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及目标局竞速任务的结束事件的目标结束对象时刻；

S212，根据目标开始对象时刻和目标结束对象时刻，对直播视频流数据中进行剪辑，以生成与目标局竞速任务对应的目标视频。

可选地，在本实施例中，上述视频剪辑方法可以但不限于应用视频编辑平台，或视频共享播放平台等场景中。也就是说，在视频编辑平台中通过上述方法将可以实现对批量视频的预剪辑操作，以便于快速分割不同的竞速任务对应的视频，从而缩短后续视频优化编辑的等待时长，达到提高视频编辑效率的效果。此外，在视频共享播放平台中也可以通过上述方法对直播过程中的视频流数据进行快速剪辑，以分离不同的竞速任务对应的视频，便于及时生成与该直播内容关联的视频集锦，并在视频共享播放平台及时分享上述视频集锦，来吸引更多用户观看。上述应用场景为示例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述直播视频流数据中携带的正在直播的竞速类视频内容可以但不限于为执行竞速任务的视频，这里竞速任务可以包括但不限于以下情形：1)竞速游戏应用中的虚拟竞速任务，通过人机交互操作控制虚拟对象与非玩家角色(Non-player Character，简称NPC)或其他用户控制的虚拟对象共同完成一局虚拟竞速任务。其中，参与竞速任务的虚拟对象可以包括：虚拟角色(如跑步竞速)、虚拟交通道具(如赛车竞速)等。2)实际生活中的真实竞速任务，由众多真人选手参加共同完成一局真实竞速任务，这里的视频为采用真实摄像头在实际场景中拍摄得到。其中，这里的竞速任务可以为摩托车竞速比赛、赛车竞速比赛或马拉松比赛等。上述为应用实例，本实施例中对此不作任何限定。

可选地，在本实施例中，上述第一图像识别模型与第二图像识别模型可以但不限于采用相同的神经网络模型结构，如卷积神经网络结构或其他形式的神经网络结构。但二者的训练样本不同，其中，第一图像识别模型的训练样本可以包括但不限于：作为第一正样本图像的一局竞速任务的开始事件中的图像帧，及作为第一负样本图像的并非一局竞速任务的开始事件中的图像帧。第二图像识别模型的训练样本可以包括但不限于：作为第二正样本图像的一局竞速任务的结束事件中的图像帧，及作为第二负样本图像的并非一局竞速任务的结束事件中的图像帧。也就是说，利用不同的样本图像分别进行训练，以得到不同的图像识别模型，即用于识别一局竞速任务的开始事件中的图像帧的第一图像识别模型，和用于识别一局竞速任务的结束事件中的图像帧的第二图像识别模型。进一步，根据第一图像识别模型的输出结果及第二图像识别模型的输出结果，来综合确定得到与一帧关键图像帧相匹配的识别结果。

可选地，在本实施例中，在得到多帧关键图像帧的多个识别结果之后，同时获得对应的开始时间列表及结束时间列表，其中，上述开始时间列表内记录有从多帧关键图像帧中识别出的是开始事件中的图像帧所对应的开始对象时刻，上述结束时间列表内记录有从多帧关键图像帧中识别出的是结束事件中的图像帧所对应的结束对象时刻。

进一步，通过比对上述开始时间列表及结束时间列表，来确定出目标局竞速任务开始事件的目标开始对象时刻及目标局竞速任务的结束事件的目标结束对象时刻，其中，上述目标局可以但不限于为直播视频流中的任意一局竞速任务。

可选地，在本实施例中，在基于上述目标开始对象时刻及目标结束对象时刻进行剪辑时，可以但不限于通过开源视频流处理程序FFmpeg进行剪辑，得到与目标局竞速任务对应的目标视频。其中，上述目标视频的视频文件格式可以包括但不限于flv格式、mp4格式或其他视频存储格式。需要说明的是，上述FFmpeg是一种对数字音频、视频等流媒体数据进行剪切、合并、转换等各种剪辑或编辑处理的开源计算机程序。上述为示例，本实施例中还可以采用其他视频流处理程序，不限于FFmpeg。

可选地，在本实施例中，从直播视频流数据中提取出多帧关键图像帧可以包括但不限于：从直播视频流数据中实时定期截取目标视频片段；依次从目标视频片段中提取出连续多帧的关键图像帧。

具体结合以下示例进行说明，假设使用开源视频流处理程序FFmpeg，在从直播流端口(统一资源定位符(Uniform Resource Locator，简称URL)链接形式)获取实时直播视频流数据，并每隔固定时间进行截取保存，以通用视频文件格式mp4或flv保存在本地。即，定期(例如一个周期为10分钟)截取得到一个或多个目标视频片段之后，再依次对上述每个目标视频片段进行图像帧提取，得到连续多帧的关键图像帧。例如，每隔5帧抽取一帧作为关键图像帧。上述示例中的具体数值可以根据不同场景设置为不同取值，例如，针对总时长较短的直播视频流数据，可以以一个周期为5分钟截取目标视频片段，每隔2帧抽取一帧作为关键图像帧。这里对此不作任何限定。

可选地，在本实施例中，在对直播视频流数据中进行剪辑，以生成与目标局竞速任务对应的目标视频之后，还包括：将与目标局竞速任务对应的目标视频分享至视频共享播放平台。

需要说明的是，上述视频共享播放平台可以为第三方提供的视频内容平台，如通过登录该平台的客户端，来观看与上述直播视频流数据对应剪辑好的视频集锦，如目标视频。此外，上述视频共享播放平台还可以为视频管理平台，如从各个直播流端口获取到直播视频流数据之后，以通用视频文件格式存储在该平台中，以便于在第三方视频播放平台需要(如收到第三方视频播放平台发送的视频资源拉取请求)时，再将该视频资源分享给第三方视频播放平台。上述应用场景为示例，本实施例中对此不作任何限定。例如，如图3所示为对目标视频的管理界面，其中可以包括以下内容：类型、标题、封面图片、时长、主播ID及直播平台名称等。以管理界面中第一行所示目标视频为例，该目标视频为虚拟竞速游戏(即“赛车”)对应的视频，时长为143秒，标题为“经典地图”，主播ID为“张三”，来自直播平台A。

具体结合图4所示示例进行说明：如步骤S402-S404，在直播应用客户端402开始直播后，将把直播视频流数据发送给服务器404。然后服务器404将执行步骤S406-S408：通过对上述直播视频流数据中提取出的关键图像帧进行图像识别，得到一局竞速任务的开始事件中的开始对象图像帧的对应时刻，及该一局竞速任务的结束事件中的结束对象图像帧的对应时刻，并对上述时刻所在时间列表进行时刻比对，得到该局竞速任务的开始对象时刻及结束对象时刻。然后根据上述开始对象时刻及结束对象时刻进行剪辑，以得到与上述一局竞速任务匹配的目标视频。接着，如步骤S410-S412，服务器404将上述目标视频发送视频播放应用客户端406，以便于该视频播放应用客户端406播放目标视频。

上述图4所示交互过程为本申请实施例中的一种可选示例，不做任何限定。

通过本申请提供的实施例，在从直播视频流数据中提取出多帧关键图像帧之后，将上述多帧关键图像帧依次分别输入第一图像识别模型及第二图像识别模型，以便于识别确定该关键图像帧是否为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧。在根据识别结果确定该关键图像帧为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧，则将该关键图像帧对应时刻存储到开始时间列表或结束时间列表中。在对上述开始时间列表或结束时间列表进行比对后，将确定出每一个目标局中竞速任务的开始事件中的目标开始对象时刻或结束事件中的目标结束对象时刻，从而实现基于该目标开始对象时刻及目标结束对象时刻来进行自动剪辑，以得到与上述目标局竞速任务对应的目标视频。而无需再由工作人员参与执行手动剪辑视频的操作，简化了视频剪辑操作，达到提高视频剪辑效率的效果，进而克服了相关技术中视频剪辑效率较低的问题。

作为一种可选的方案，依次将每一帧关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与关键图像帧相匹配的识别结果包括：

S1，获取第一图像识别模型的输出层输出的第一中间向量，及第二图像识别模型的输出层输出的第二中间向量，其中，第一中间向量中携带有第一概率及第二概率，第一概率用于指示关键图像帧为一局竞速任务的开始事件中的图像帧的概率，第二概率用于指示关键图像帧并非一局竞速任务的开始事件中的图像帧的概率；第二中间向量中携带有第三概率及第四概率，第三概率用于指示关键图像帧为一局竞速任务的结束事件中的图像帧的概率，第四概率用于指示关键图像帧并非一局竞速任务的结束事件中的图像帧的概率；

S2，将第一概率与第二概率中的最大概率值，确定为第一图像识别模型的输出结果，并将第三概率与第四概率中的最大概率值，确定为第二图像识别模型的输出结果；

S3，根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定识别结果。

可选地，在本实施例中，上述第一图像识别模型及第二图像识别模型可以但不限于采用相同的神经网络模型结构，但采用不同样本图像进行训练。其中，在上述第一图像识别模型及第二图像识别模型中的的输出层可以包括但不限于2个神经元，该层输出向量用Vout表示，是一个二维向量。Vout(0)表示二维向量中的第一位输出值，用于指示输入图像不是目标类别的概率，Vout(1)表示二维向量中的第二位输出值，用于指示输入图像是目标类别的概率。在Vout(1)>Vout(0)时，确定该输出层的输出结果为1，用于指示当前输入图像是目标类别；而在Vout(0)>Vout(1)时，确定该输出层的输出结果为0，用于指示当前输入图像并非目标类别。

在本实施例中，对于第一图像识别模型，在用于指示关键图像帧为一局竞速任务的开始事件中的图像帧的第一概率，大于用于指示关键图像帧并非一局竞速任务的开始事件中的图像帧的第二概率的情况下，则第一图像识别模型的输出结果指示当前输入的关键图像帧为开始事件中的图像帧，否则反而反之。而对于第二图像识别模型，在用于指示关键图像帧为一局竞速任务的结束事件中的图像帧的第三概率，大于用于指示关键图像帧并非一局竞速任务的结束事件中的图像帧的第四概率的情况下，则第二图像识别模型的输出结果指示当前输入的关键图像帧为结束事件中的图像帧，否则反而反之

例如，结合图5所示进行说明：假设输入的关键图像帧为开始事件中的图像帧(也可称作开始画面)，将其输入第一图像识别模型(卷积神经网络模型)，则基于上述判断逻辑可知，该第一图像识别模型的输出结果将为Vout(1)>Vout(0)时，输出结果将为1，如图5(a)所示。假设输入的关键图像帧为随机画面，将其输入第一图像识别模型(卷积神经网络模型)，则基于上述对第一图像识别模型的判断逻辑可知，该第一图像识别模型的输出结果将为Vout(1)<Vout(0)时，输出结果将为0，如图5(b)所示。

因而，在实际应用过程中，在获取到第一图像识别模型的输出结果为1时，可推导得出当前输入的关键图像帧为开始事件中的图像帧(也可称作开始画面)。同理，在获取到第一图像识别模型的输出结果为0时，可推导得出当前输入的关键图像帧并非开始事件中的图像帧，例如可以是竞速任务中除开始事件及结束事件之外的随机画面。

例如，结合图6所示进行说明：假设输入的关键图像帧为结束事件中的图像帧(也可称作结束画面)，将其输入第二图像识别模型(卷积神经网络模型)，则基于上述判断逻辑可知，该第二图像识别模型的输出结果将为Vout(1)>Vout(0)时，输出结果将为1，如图6(a)所示。假设输入的关键图像帧为随机画面，将其输入第二图像识别模型(卷积神经网络模型)，则基于上述对第二图像识别模型的判断逻辑可知，该第二图像识别模型的输出结果将为Vout(1)<Vout(0)时，输出结果将为0，如图6(b)所示。

因而，在实际应用过程中，在获取到第二图像识别模型的输出结果为1时，可推导得出当前输入的关键图像帧为结束事件中的图像帧(也可称作结束画面)。同理，在获取到第二图像识别模型的输出结果为0时，可推导得出当前输入的关键图像帧并非结束事件中的图像帧，例如可以是竞速任务中除开始事件及结束事件之外的随机画面。

可选地，在本实施例中，上述步骤S3，根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定识别结果包括：

1)在第一概率大于第二概率，且第三概率小于第四概率的情况下，确定关键图像帧的识别结果为关键图像帧为开始事件中的图像帧；

2)在第一概率小于第二概率，且第三概率大于第四概率的情况下，确定关键图像帧的识别结果为关键图像帧为结束事件中的图像帧；

3)在第一概率小于第二概率，且第三概率小于第四概率的情况下，确定关键图像帧的识别结果为关键图像帧并非开始事件中的图像帧，且并非结束事件中的图像帧。

需要说明的是，鉴于同一帧关键图像帧不可能既是开始对象图像帧，又是结束对象图像帧，因而在第一概率大于第二概率，且第三概率大于第四概率的情况下，则可确定当前结果有误，推定第一图像识别模型或第二图像识别模型识别故障，并发出提示报警信息。

通过本申请提供的实施例，通过第一图像识别模型输出层输出的第一中间向量和第二图像识别模型输出层输出的第二中间向量中的概率值，来确定关键图像帧是否为一局竞速任务的开始事件中的图像帧或结束事件中的图像帧，从而实现基于图像识别模型来自动识别出关键图像帧所属的类型，而无需再由工作人员肉眼识别，简化了识别操作，达到提高识别效率的效果的同时，也缩短了从直播视频流数据中分离出目标视频的处理时长，有助于提高视频剪辑效率。

作为一种可选的方案，在依次将每一帧关键图像帧分别输入第一图像识别模型及第二图像识别模型中之后，还包括：

通过第一图像识别模型对关键图像帧执行至少两次第一目标操作组合，其中，第一目标操作组合包括：通过第一图像识别模型中卷积层提取特征图，并通过第一图像识别模型中池化层进行池化处理；

通过第二图像识别模型对关键图像帧执行至少两次第二目标操作组合，其中，第二目标操作组合包括：通过第二图像识别模型中卷积层提取特征图，并通过第二图像识别模型中池化层进行池化处理。

可选地，在本实施例中，通过第一图像识别模型对关键图像帧执行至少两次第一目标操作组合包括：通过第一图像识别模型中的第一卷积层及第二卷积层提取关键图像帧的第一特征图；将第一特征图输入第一图像识别模型中的第一池化层，得到第一池化结果；通过第一图像识别模型中的第三卷积层及第四卷积层提取第一池化结果的第二特征图；将第二特征图输入第一图像识别模型中的第二池化层，得到第二池化结果；将第二池化结果输入第一图像识别模型中的全连接层，以得到第一图像识别模型的输出结果；

可选地，在本实施例中，通过第二图像识别模型对关键图像帧执行至少两次第二目标操作组合包括：通过第二图像识别模型中的第五卷积层及第六卷积层提取关键图像帧的第三特征图；将第三特征图输入第二图像识别模型中的第三池化层，得到第三池化结果；通过第二图像识别模型中的第七卷积层及第八卷积层提取第三池化结果的第四特征图；将第四特征图输入第二图像识别模型中的第四池化层，得到第四池化结果；将第四池化结果输入第二图像识别模型中的全连接层，以得到第二图像识别模型的输出结果。

需要说明的是，上述第一图像识别模型可以包括但不限于4个卷积层，2个池化层，一个全联接层和一个标签输出层。结合图7所示，在输入图像(即上述关键图像帧)后，卷积层1和卷积层2及池化层1，用于完成第一次第一目标操作组合，卷积层3和卷积层4及池化层3，用于完成第二次第一目标操作组合。对应的，第二图像识别模型与第一图像识别模型包括相同的模型结构，也可以包括但不限于4个卷积层，2个池化层，一个全联接层和一个标签输出层。结合图7所示，在输入图像(即上述关键图像帧)后，卷积层1和卷积层2及池化层1，用于完成第一次第二目标操作组合，卷积层3和卷积层4及池化层3，用于完成第二次第二目标操作组合。

也就是说，这里以图7所示为第一图像识别模型的结构为例进行说明，第一图像识别模型中的第一卷积层和第二卷积层，对应为卷积层1和卷积层2，第一图像识别模型中的第一池化层对应为池化层1，第一图像识别模型中的第三卷积层和第四卷积层，对应为卷积层3和卷积层4，第一图像识别模型中的第二池化层对应池化层2。这里以图7所示为第二图像识别模型的结构为例进行说明，第二图像识别模型中的第五卷积层和第六卷积层，对应为卷积层1和卷积层2，第二图像识别模型中的第三池化层对应为池化层1，第二图像识别模型中的第七卷积层和第八卷积层，对应为卷积层3和卷积层4，第二图像识别模型中的第四池化层对应池化层2。

在经过两次池化处理之后，将池化结果输入全连接层及输出层，以得到上述实施例中的中间向量所指示的概率值。

具体结合以下示例进行说明：假设第一图像识别模型与第二图像识别模型采用相同的卷积神经网络模型(Convolutional Neural Networks，简称CNN)结构，因而下文这里将针对一个图像识别模型的结构进行说明，相关内容适用上述第一图像识别模型与第二图像识别模型两个模型中。

在获取到待输入的关键图像帧之后，将对其进行归一化处理，如归一化到大小96(宽)*48(高)*3(波段)。

对于卷积层1和卷积层2：卷积核大小为3*3，卷积步长为1，输出特征图个数为32，激活函数可以但不限于采用relu。

对于池化层1和池化层2：可以但不限于采用最大池化方法，池化核大小为2*2，池化步长为2。这里池化层可以但不限于采用最大池化方法，令池化核大小为S*S，步长为N，对于输入特征图，设置一个S*S的滑动窗口在特征图上滑动，每次滑动步长为N，窗口内的最大值所组成的矩阵就是池化层的输出。

对于卷积层3和卷积层4：卷积核大小为3*3，卷积步长为1，输出特征图个数为64。

对于全联接层：神经元个数为256，激活函数可以但不限于采用relu。这里全连接层的作用就是将多个维度的特征图映射为一维的特征向量，每一个输出神经元都与上一层的所有神经元相连接，所有输入神经元与权值乘积的总和加上偏置值，再经过激活函数f(x)即为输出神经元的值。

对于输出层：神经元个数为2，该层输出向量用Vout表示，是一个二维向量。Vout(0)表示二维向量中的第一位输出值，用于指示输入图像不是目标类别的概率，Vout(1)表示二维向量中的第二位输出值，用于指示输入图像是目标类别的概率。在Vout(1)>Vout(0)时，确定该输出层的输出结果为1，用于指示当前输入图像是目标类别；而在Vout(0)>Vout(1)时，确定该输出层的输出结果为0，用于指示当前输入图像并非目标类别。

需要说明的是，对于每层卷积层适用以下公式：

其中

是第k层第j个特征图，

是第k-1层第i个特征图到第k层第j个特征图之间的卷积核，M_k-1是第k-1层的特征图的集合，

表示卷积操作的偏置，f(x)表示激活函数。这里激活函数可以但不限于采用relu。

公式如下：

f(x)＝max(0,x) (2)

通过本申请提供的实施例，通过本申请提供的神经网络模型结构构建的第一图像识别模型和第二图像识别模型，来对关键图像帧进行识别，从而实现自动从视频中识别出一局竞速任务的开始事件中的图像帧，或结束事件中的图像帧，以简化识别操作，达到提高识别效率的目的。

作为一种可选的方案，在从直播视频流数据中提取出多帧关键图像帧之前，还包括：

获取第一样本图像集合，其中，第一样本图像集合中包括第一正样本图像及第一负样本图像，其中，第一正样本图像为一局竞速任务的开始事件中的图像帧，第一负样本图像并非一局竞速任务的开始事件中的图像帧；利用第一样本图像集合对第一初始化的图像识别模型进行训练，以得到第一图像识别模型；

获取第二样本图像集合，其中，第二样本图像集合中包括第二正样本图像及第二负样本图像，其中，第二正样本图像为一局竞速任务的结束事件中的图像帧，第二负样本图像并非一局竞速任务的结束事件中的图像帧；利用第二样本图像集合对第二初始化的图像识别模型进行训练，以得到第二图像识别模型。

可选地，在本实施例中，上述训练过程可以但不限于采用反向传播(BackPropagation，简称BP)算法。BP算法的基本思路是将输出层的输出误差通过求导逐层反向传播，再对每一层参数进行修正，以最终训练得到所要应用的神经网络模型。此外，在本实施例中，还可以使用其他形式的训练方法进行优化，例如随机梯度下降(StochasticGradient Descent，简称SGD)算法，自适应矩估计(Adaptive Moment Estimation，简称Adam)算法等。上述算法为示例，本实施例中对此不作任何限定。

可选地，在本实施例中，利用第一样本图像集合对第一初始化的图像识别模型进行训练，以得到第一图像识别模型包括：

对第一图像识别模型的每次训练结果执行以下操作，直至训练结果对应的输出误差达到第一收敛条件：

确定第一当前输入样本图像对应的第一当前训练结果及与第一当前输入样本图像对应的第一标签值，其中，第一当前训练结果中包括与第一当前输入样本图像匹配的第一预测概率值，第一标签值用于指示第一当前输入样本图像为一局竞速任务的开始事件中的图像帧的真实概率值；

根据第一预测概率值及第一标签值的差值，确定与第一当前训练结果对应的第一当前输出误差；

在第一当前输出误差尚未达到第一收敛条件的情况下，利用第一当前输出误差通过求导计算方式，反向逐层确定与第一当前训练结果对应的第一当前训练图像模型中每层卷积层中的卷积核和卷积偏置值；

根据确定出的卷积核和卷积偏置值更新第一当前训练图像模型，得到更新后的第一当前训练图像模型；

将下一个输入样本图像作为第一当前输入样本图像，输入更新后的第一当前训练图像模型。

具体结合以下示例来说明训练过程：假设设置初始参数：lr(学习率)＝0.02，epochs(迭代次数)＝20，batchsize(每批次训练样本数)＝500。

对用于训练第一图像识别模型(识别出开始事件中的图像帧)的第一样本图像集合包括：假设正样本为10000张竞速任务的开始事件中的图像帧(下文也可称作开始画面)，如图8(a)所示为在开始事件中采集到的开始画面，参与竞速任务的对象尚未出发，仍停留在起点。负样本为20000张竞速任务的随机画面，如图8(b)所示为竞速任务过程中除开始事件及结束事件之外采集到的过程画面。采用反向传播算法来对上述第一样本图像集合中的每个样本图像(下文可称作训练样本)进行训练：

对于每个训练样本(x，y)，其中x为当前输入样本图像(下文可称作输入数据)，y为当前输入样本图像对应的标签值(下文可称作真实标签)，神经网络的输出误差公式可以如下：

其中，h_w,b(x)为该模型输出的预测概率值(下文可称作预测值)，W为该模型的权值参数与b为该模型的偏置参数。

其中，在正向传播中，第k层可以表示为：

z^k＝g(w^k,b^k；x^k-1) (4)

u^k＝f(z^k) (5)

其中，x^k-1表示第k层的输入，u^k表示第k层的输出，g(x)表示卷积运算、池化运算或者全连接层中的乘法运算，f(x)表示激活函数。

对于输出层第K层，残差的计算公式为：

对于其它层，残差的计算公式为：

基于残差，可计算输出误差对每一层参数的偏导数：

最后，上述训练模型中参数的更新计算方法可以为：

重复以上步骤，获取下一个样本图像输入更新参数后的训练模型中，依此类推迭代计算，直到上述输出误差J(W,b；x,y)达到收敛条件，从而得到最终完成训练的第一图像识别模型。

需要说明的是，这里收敛条件(第一收敛条件)可以包括但不限于：1)上述训练模型的输出误差至少连续两次没有下降。2)上述训练模型的训练次数达到预先设置的迭代次数。如上述假设示例，可以设置epochs(迭代次数)为20，并设置batchsize(每批次训练样本数)为500。这里遍历一次全部样本图像(500张)进行识别训练，视为完成一次迭代。这里上述描述的收敛条件为示例，本实施例中还可以但不限于其他条件，如输出误差收敛到目标值等。这里不做任何限定。

可选地，在本实施例中，利用第二样本图像集合对第二初始化的图像识别模型进行训练，以得到第二图像识别模型包括：

对第二图像识别模型的每次训练结果执行以下操作，直至训练结果对应的输出误差达到第二收敛条件：

确定第二当前输入样本图像对应的第二当前训练结果及与第二当前输入样本图像对应的第二标签值，其中，第二当前训练结果中包括与第二当前输入样本图像匹配的第二预测概率值，第二标签值用于指示第二当前输入样本图像为一局竞速任务的结束事件中的图像帧的真实概率值；

根据第二预测概率值及第二标签值的差值，确定与第二当前训练结果对应的第二当前输出误差；

在第二当前输出误差尚未达到第二收敛条件的情况下，利用第二当前输出误差通过求导计算方式，反向逐层确定与第二当前训练结果对应的第二当前训练图像模型中每层卷积层中的卷积核和卷积偏置值；

根据确定出的卷积核和卷积偏置值更新第二当前训练图像模型，得到更新后的第二当前训练图像模型；

将下一个输入样本图像作为第二当前输入样本图像，输入更新后的第二当前训练图像模型。

具体结合以下示例来说明训练过程：假设设置初始参数：lr(学习率)＝0.02，epochs(迭代次数)＝20，batchsize(每训练批次样本数)＝500。

对用于训练第二图像识别模型(识别出结束事件中的图像帧)的第二样本图像集合包括：假设正样本为10000张竞速任务的结束事件中的图像帧(下文也可称作结束画面)，如图9(a)所示在结束事件中采集到的结束画面，参与竞速任务的对象已到达终点，已完成该竞速任务。负样本为20000张竞速任务的随机画面，如图9(b)所示为竞速任务过程中除开始事件及结束事件之外采集到的过程画面。采用反向传播算法来对上述第二样本图像集合中的每个样本图像(下文可称作训练样本)进行训练，训练过程可以参考上述实施例，本实施例在此不再赘述。

需要说明的是，这里收敛条件(第二收敛条件)可以包括但不限于：1)上述训练模型的输出误差至少连续两次没有下降。2)上述训练模型的训练次数达到预先设置的迭代次数。如上述假设示例，可以设置epochs(迭代次数)为20，并设置batchsize(每批次训练样本数)为500。这里遍历一次全部样本图像(500张)进行识别训练，视为完成一次迭代。这里上述描述的收敛条件为示例，本实施例中还可以但不限于其他条件，如输出误差收敛到目标值等。这里不做任何限定。

通过本申请提供的实施例，通过第一样本图像集合来训练得到第一图像识别模型，通过第二样本图像集合来训练得到第二图像识别模型，利用不同的样本图像集合来得到不同用途的图像识别模型，以便于自动化识别关键图像帧的类型，而无需再肉眼识别，简化了识别操作，提高识别效率。

作为一种可选的方案，对开始时间列表及结束时间列表进行比对包括：

遍历开始时间列表中的每个开始对象时刻，执行以下操作：从开始时间列表中获取第一当前开始对象时刻；从结束时间列表中确定出与第一当前开始对象时刻对应的第一当前结束对象时刻，其中，第一当前结束对象时刻大于第一当前开始对象时刻，且为结束时间列表中所有结束对象时刻中的最小时刻值；或者，

遍历结束时间列表中的每个结束对象时刻，执行以下操作：从结束时间列表中获取第二当前结束对象时刻；从开始时间列表中确定出与第二当前结束对象时刻对应的第二当前开始对象时刻，其中，第二当前开始对象时刻小于第二当前结束对象时刻，且为开始时间列表中所有开始对象时刻中的最大时刻值。

具体结合以下示例进行说明，假设开始时间列表用list_start表示，其中，开始时间列表list_start＝[t_s1,t_s2,…,t_sn]，结束时间列表用list_end表示，其中，结束时间列表list_end＝[t_e1,t_e2,…,t_en]。

在配对过程中可以包括但不限于，从开始时间列表list_start中获取一个开始对象时刻t_sk，其对应的结束时刻t_ek为list_end列表中的所有时刻中，大于开始对象时刻t_sk的最小时刻值，即如下表达式：

TeSet_k＝{t_e|t_e>t_sk,t_e∈list_end} (12)

t_ek＝min(TeSet) (13)

也就是说，从list_end列表中的所有时刻中找到大于开始对象时刻t_sk的全部结束对象时刻t_e，得到候选时刻集合TeSet，这里TeSet中的每个时刻TeSet_k均大于开始对象时刻t_sk的结束对象时刻t_e。然后从候选时刻集合TeSet中确定出与上述开始对象时刻t_sk对应的结束时刻t_ek，即确定出候选时刻集合TeSet中的最小时刻值，即min(TeSet)。

在配对过程中还可以包括但不限于，从结束时间列表list_end中获取一个结束对象时刻t_ek，其对应的开始时刻t_sk为list_start列表中的所有时刻中，小于结束对象时刻t_ek的最大时刻值，具体配对方式可以参考上述实施例，本实施中在此不再赘述。

假设在直播视频流数据截取的目标视频片段中提取的多帧关键图像帧中，有6帧图像帧为开始事件中的图像帧或结束事件中的图像帧，对应的匹配结果可以如表1所示。

表1

目标视频编号	开始对象时刻	结束对象时刻
			1	t_s1	t_e1
2	t_s2	t_e2
			n	t_sn	t_en

通过本申请提供的实施例，通过比对开始时间列表和结束时间列表，来确定属于同一局竞速任务的开始对象时刻和结束对象时刻，以得到同一个目标视频的开始对象时刻和结束对象时刻，从而实现基于上述开始对象时刻和结束对象时刻，直接对直播视频流数据进行智能剪辑，来生成与上述一局竞速任务对应的目标视频。而无需人为手动剪辑，以克服剪辑操作较复杂的问题，达到提高剪辑效率的效果。

作为一种可选的方案，在对开始时间列表及结束时间列表进行比对之前，还包括：

对开始时间列表中的任意两个开始对象时刻进行比对；在比对结果指示两个开始对象时刻的时刻差小于第一阈值的情况下，从开始时间列表中删除两个开始对象时刻中最大时刻值；

对结束时间列表中的任意两个结束对象时刻进行比对；在比对结果指示两个结束对象时刻的时刻差小于第二阈值的情况下，从结束时间列表中删除两个结束对象时刻中最小时刻值。

具体结合以下示例进行说明：

在识别出多帧关键图像帧均为一局竞速任务的开始事件中的图像帧的情况下，可以但不限于对这里多帧开始对象图像帧进行清洗。如在开始时间列表list_start＝[t_s1,t_s2,…,t_sn]中存在任意t_s(k+1)-t_sk<N(如假设N＝2秒)，则说明t_s(k+1)和t_sk是同一个开始事件中的图像帧，可以从开始时间列表中删除t _s(k+1)，只保留t_sk。

对应的，在识别出多帧关键图像帧均为一局竞速任务的结束事件中的图像帧的情况下，可以但不限于对这里多帧结束对象图像帧进行清洗。如在结束时间列表list_end＝[t_e1,t_e2,…,t_en]中存在任意t_e(k+1)-t_ek<M(如假设M＝2秒)，则说明t_e(k+1)和t_ek是同一个结束事件中的图像帧，可以从结束时间列表中删除t_ek，只保留t_e(k+1)。

通过本申请提供的实施例，通过对多帧均为开始事件中的图像帧或多帧均为结束事件中的图像帧进行清洗管理，来减少用于比对的时刻，从而达到缩短比对时长，提高确定目标视频的开始对象时刻和结束对象时刻的效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述视频剪辑方法的视频剪辑装置。如图10所示，该装置包括：

1)提取单元1002，用于从直播视频流数据中提取出多帧关键图像帧，其中，直播视频流中携带有正在直播的竞速类视频内容；

2)输入单元1004，用于依次将每一帧关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与关键图像帧相匹配的识别结果，其中，第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，识别结果为根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定得出；

3)第一确定单元1006，用于在识别结果指示关键图像帧为开始事件中的图像帧的情况下，将关键图像帧对应时刻确定为开始对象时刻，其中，开始对象时刻为开始事件对应的开始时间列表中的时刻；在识别结果指示关键图像帧为结束事件中的图像帧的情况下，将关键图像帧对应时刻确定为结束对象时刻，其中，结束对象时刻为结束事件对应的结束时间列表中的时刻；

4)第一比对单元1008，用于在获取到与多帧关键图像帧对应的多个识别结果之后，对开始时间列表及结束时间列表进行比对；

5)第二确定单元1010，用于根据比对的结果从结束时间列表及结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及目标局竞速任务的结束事件的目标结束对象时刻；

6)剪辑单元1012，用于根据目标开始对象时刻和目标结束对象时刻，对直播视频流数据中进行剪辑，以生成与目标局竞速任务对应的目标视频。

可选地，在本实施例中，上述视频剪辑装置可以但不限于应用视频编辑平台，或视频共享播放平台等场景中。也就是说，在视频编辑平台中通过上述装置将可以实现对批量视频的预剪辑操作，以便于快速分割不同的竞速任务对应的视频，从而缩短后续视频优化编辑的等待时长，达到提高视频编辑效率的效果。此外，在视频共享播放平台中也可以通过上述装置对直播过程中的视频流数据进行快速剪辑，以分离不同的竞速任务对应的视频，便于及时生成与该直播内容关联的视频集锦，并在视频共享播放平台及时分享上述视频集锦，来吸引更多用户观看。上述应用场景为示例，本实施例中对此不作任何限定。

本方案中的实施例，可以但不限于参照上述方法实施例，本实施例中对此不作任何限定。

作为一种可选的方案，输入单元1004包括：

获取模块，用于获取第一图像识别模型的输出层输出的第一中间向量，及第二图像识别模型的输出层输出的第二中间向量，其中，第一中间向量中携带有第一概率及第二概率，第一概率用于指示关键图像帧为一局竞速任务的开始事件中的图像帧的概率，第二概率用于指示关键图像帧并非一局竞速任务的开始事件中的图像帧的概率；第二中间向量中携带有第三概率及第四概率，第三概率用于指示关键图像帧为一局竞速任务的结束事件中的图像帧的概率，第四概率用于指示关键图像帧并非一局竞速任务的结束事件中的图像帧的概率；

第一确定模块，用于将第一概率与第二概率中的最大概率值，确定为第一图像识别模型的输出结果，并将第三概率与第四概率中的最大概率值，确定为第二图像识别模型的输出结果；

第二确定模块，用于根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定识别结果。

作为一种可选的方案，第二确定模块包括：

第一确定子模块，用于在第一概率大于第二概率，且第三概率小于第四概率的情况下，确定关键图像帧的识别结果为关键图像帧为开始事件中的图像帧；

第二确定子模块，用于在第一概率小于第二概率，且第三概率大于第四概率的情况下，确定关键图像帧的识别结果为关键图像帧为结束事件中的图像帧；

第三确定子模块，用于在第一概率小于第二概率，且第三概率小于第四概率的情况下，确定关键图像帧的识别结果为关键图像帧并非开始事件中的图像帧，且并非结束事件中的图像帧。

作为一种可选的方案，还包括：

第一操作单元，用于在依次将每一帧关键图像帧分别输入第一图像识别模型及第二图像识别模型中之后，通过第一图像识别模型对关键图像帧执行至少两次第一目标操作组合，其中，第一目标操作组合包括：通过第一图像识别模型中卷积层提取特征图，并通过第一图像识别模型中池化层进行池化处理；

第二操作单元，用于通过第二图像识别模型对关键图像帧执行至少两次第二目标操作组合，其中，第二目标操作组合包括：通过第二图像识别模型中卷积层提取特征图，并通过第二图像识别模型中池化层进行池化处理。

作为一种可选的方案，第一操作单元包括：第一处理模块，用于通过第一图像识别模型中的第一卷积层及第二卷积层提取关键图像帧的第一特征图；将第一特征图输入第一图像识别模型中的第一池化层，得到第一池化结果；通过第一图像识别模型中的第三卷积层及第四卷积层提取第一池化结果的第二特征图；将第二特征图输入第一图像识别模型中的第二池化层，得到第二池化结果；将第二池化结果输入第一图像识别模型中的全连接层，以得到第一图像识别模型的输出结果；

第二操作单元包括：第二处理模块，用于通过第二图像识别模型中的第五卷积层及第六卷积层提取关键图像帧的第三特征图；将第三特征图输入第二图像识别模型中的第三池化层，得到第三池化结果；通过第二图像识别模型中的第七卷积层及第八卷积层提取第三池化结果的第四特征图；将第四特征图输入第二图像识别模型中的第四池化层，得到第四池化结果；将第四池化结果输入第二图像识别模型中的全连接层，以得到第二图像识别模型的输出结果。

作为一种可选的方案，还包括：

第一获取单元，用于在从直播视频流数据中提取出多帧关键图像帧之前，获取第一样本图像集合，其中，第一样本图像集合中包括第一正样本图像及第一负样本图像，其中，第一正样本图像为一局竞速任务的开始事件中的图像帧，第一负样本图像并非一局竞速任务的开始事件中的图像帧；

第一训练单元，用于利用第一样本图像集合对第一初始化的图像识别模型进行训练，以得到第一图像识别模型；

第二获取单元，用于获取第二样本图像集合，其中，第二样本图像集合中包括第二正样本图像及第二负样本图像，其中，第二正样本图像为一局竞速任务的结束事件中的图像帧，第二负样本图像并非一局竞速任务的结束事件中的图像帧；

第二训练单元，用于利用第二样本图像集合对第二初始化的图像识别模型进行训练，以得到第二图像识别模型。

作为一种可选的方案，第一训练单元包括：

第一操作模块，用于对第一图像识别模型的每次训练结果执行以下操作，直至训练结果对应的输出误差达到第一收敛条件：

作为一种可选的方案，第二训练单元包括：

第二操作模块，用于对第二图像识别模型的每次训练结果执行以下操作，直至训练结果对应的输出误差达到第二收敛条件：

作为一种可选的方案，第一比对单元1008包括：

第三操作模块，用于遍历开始时间列表中的每个开始对象时刻，执行以下操作：从开始时间列表中获取第一当前开始对象时刻；从结束时间列表中确定出与第一当前开始对象时刻对应的第一当前结束对象时刻，其中，第一当前结束对象时刻大于第一当前开始对象时刻，且为结束时间列表中所有结束对象时刻中的最小时刻值；或者，

第四操作模块，用于遍历结束时间列表中的每个结束对象时刻，执行以下操作：从结束时间列表中获取第二当前结束对象时刻；从开始时间列表中确定出与第二当前结束对象时刻对应的第二当前开始对象时刻，其中，第二当前开始对象时刻小于第二当前结束对象时刻，且为开始时间列表中所有开始对象时刻中的最大时刻值。

作为一种可选的方案，还包括：

第二比对单元，用于在对开始时间列表及结束时间列表进行比对之前，对开始时间列表中的任意两个开始对象时刻进行比对；在比对结果指示两个开始对象时刻的时刻差小于第一阈值的情况下，从开始时间列表中删除两个开始对象时刻中最大时刻值；对结束时间列表中的任意两个结束对象时刻进行比对；在比对结果指示两个结束对象时刻的时刻差小于第二阈值的情况下，从结束时间列表中删除两个结束对象时刻中最小时刻值。

作为一种可选的方案，提取单元1002包括：

截取模块，用于从直播视频流数据中实时定期截取目标视频片段；

提取模块，用于依次从目标视频片段中提取出连续多帧的关键图像帧。

作为一种可选的方案，还包括：

分享单元，用于在对直播视频流数据中进行剪辑，以生成与目标局竞速任务对应的目标视频之后，将与目标局竞速任务对应的目标视频分享至视频共享播放平台。

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频剪辑方法的电子装置，如图11所示，该电子装置包括存储器1102和处理器1104，该存储器1102中存储有计算机程序，该处理器1104被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，从直播视频流数据中提取出多帧关键图像帧，其中，直播视频流中携带有正在直播的竞速类视频内容；

S2，依次将每一帧关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与关键图像帧相匹配的识别结果，其中，第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，识别结果为根据第一图像识别模型的输出结果及第二图像识别模型的输出结果确定得出；

S3，在识别结果指示关键图像帧为开始事件中的图像帧的情况下，将关键图像帧对应时刻确定为开始对象时刻，其中，开始对象时刻为开始事件对应的开始时间列表中的时刻；在识别结果指示关键图像帧为结束事件中的图像帧的情况下，将关键图像帧对应时刻确定为结束对象时刻，其中，结束对象时刻为结束事件对应的结束时间列表中的时刻；

S4，在获取到与多帧关键图像帧对应的多个识别结果之后，对开始时间列表及结束时间列表进行比对；

S5，根据比对的结果从结束时间列表及结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及目标局竞速任务的结束事件的目标结束对象时刻；

S6，根据目标开始对象时刻和目标结束对象时刻，对直播视频流数据中进行剪辑，以生成与目标局竞速任务对应的目标视频。

可选地，本领域普通技术人员可以理解，图11所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等)，或者具有与图11所示不同的配置。

其中，存储器1102可用于存储软件程序以及模块，如本发明实施例中的视频剪辑方法和装置对应的程序指令/模块，处理器1104通过运行存储在存储器1102内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频剪辑方法。存储器1102可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1102可进一步包括相对于处理器1104远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1102具体可以但不限于用于存储直播流数据及目标视频等信息。作为一种示例，如图11所示，上述存储器1102中可以但不限于包括上述视频剪辑装置中的提取单元1002、输入单元1004、第一确定单元1006、第一比对单元1008、第二确定单元1010及剪辑单元1012。此外，还可以包括但不限于上述视频剪辑装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1106包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1106为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1108，用于显示直播视频或目标视频；和连接总线1110，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频剪辑方法，其特征在于，包括：

从直播视频流数据中提取出多帧关键图像帧，其中，所述直播视频流中携带有正在直播的竞速类视频内容；

依次将每一帧所述关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与所述关键图像帧相匹配的识别结果，其中，所述第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，所述第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，所述识别结果为根据所述第一图像识别模型的输出结果及所述第二图像识别模型的输出结果确定得出；

在所述识别结果指示所述关键图像帧为所述开始事件中的图像帧的情况下，将所述关键图像帧对应时刻确定为开始对象时刻，其中，所述开始对象时刻为所述开始事件对应的开始时间列表中的时刻；在所述识别结果指示所述关键图像帧为所述结束事件中的图像帧的情况下，将所述关键图像帧对应时刻确定为结束对象时刻，其中，所述结束对象时刻为所述结束事件对应的结束时间列表中的时刻；

在获取到与所述多帧关键图像帧对应的多个识别结果之后，对所述开始时间列表及所述结束时间列表进行比对；

根据比对的结果从所述结束时间列表及所述结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及所述目标局竞速任务的结束事件的目标结束对象时刻；

根据所述目标开始对象时刻和所述目标结束对象时刻，对所述直播视频流数据中进行剪辑，以生成与所述目标局竞速任务对应的目标视频。

2.根据权利要求1所述的方法，其特征在于，依次将每一帧所述关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与所述关键图像帧相匹配的识别结果包括：

获取所述第一图像识别模型的输出层输出的第一中间向量，及所述第二图像识别模型的输出层输出的第二中间向量，其中，所述第一中间向量中携带有第一概率及第二概率，所述第一概率用于指示所述关键图像帧为所述一局竞速任务的开始事件中的图像帧的概率，所述第二概率用于指示所述关键图像帧并非所述一局竞速任务的开始事件中的图像帧的概率；所述第二中间向量中携带有第三概率及第四概率，所述第三概率用于指示所述关键图像帧为所述一局竞速任务的结束事件中的图像帧的概率，所述第四概率用于指示所述关键图像帧并非所述一局竞速任务的结束事件中的图像帧的概率；

将所述第一概率与所述第二概率中的最大概率值，确定为所述第一图像识别模型的输出结果，并将所述第三概率与所述第四概率中的最大概率值，确定为所述第二图像识别模型的输出结果；

根据所述第一图像识别模型的输出结果及所述第二图像识别模型的输出结果确定所述识别结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一图像识别模型的输出结果及所述第二图像识别模型的输出结果确定所述识别结果包括：

在所述第一概率大于所述第二概率，且所述第三概率小于第四概率的情况下，确定所述关键图像帧的识别结果为所述关键图像帧为所述开始事件中的图像帧；

在所述第一概率小于所述第二概率，且所述第三概率大于第四概率的情况下，确定所述关键图像帧的识别结果为所述关键图像帧为所述结束事件中的图像帧；

在所述第一概率小于所述第二概率，且所述第三概率小于第四概率的情况下，确定所述关键图像帧的识别结果为所述关键图像帧并非所述开始事件中的图像帧，且并非所述结束事件中的图像帧。

4.根据权利要求1所述的方法，其特征在于，在所述依次将每一帧所述关键图像帧分别输入第一图像识别模型及第二图像识别模型中之后，还包括：

通过所述第一图像识别模型对所述关键图像帧执行至少两次第一目标操作组合，其中，所述第一目标操作组合包括：通过所述第一图像识别模型中卷积层提取特征图，并通过所述第一图像识别模型中池化层进行池化处理；

通过所述第二图像识别模型对所述关键图像帧执行至少两次第二目标操作组合，其中，所述第二目标操作组合包括：通过所述第二图像识别模型中卷积层提取特征图，并通过所述第二图像识别模型中池化层进行池化处理。

5.根据权利要求4所述的方法，其特征在于，

所述通过所述第一图像识别模型对所述关键图像帧执行至少两次第一目标操作组合包括：通过所述第一图像识别模型中的第一卷积层及第二卷积层提取所述关键图像帧的第一特征图；将所述第一特征图输入所述第一图像识别模型中的第一池化层，得到第一池化结果；通过所述第一图像识别模型中的第三卷积层及第四卷积层提取所述第一池化结果的第二特征图；将所述第二特征图输入所述第一图像识别模型中的第二池化层，得到第二池化结果；将所述第二池化结果输入所述第一图像识别模型中的全连接层，以得到所述第一图像识别模型的输出结果；

所述通过所述第二图像识别模型对所述关键图像帧执行至少两次第二目标操作组合包括：通过所述第二图像识别模型中的第五卷积层及第六卷积层提取所述关键图像帧的第三特征图；将所述第三特征图输入所述第二图像识别模型中的第三池化层，得到第三池化结果；通过所述第二图像识别模型中的第七卷积层及第八卷积层提取所述第三池化结果的第四特征图；将所述第四特征图输入所述第二图像识别模型中的第四池化层，得到第四池化结果；将所述第四池化结果输入所述第二图像识别模型中的全连接层，以得到所述第二图像识别模型的输出结果。

6.根据权利要求1所述的方法，其特征在于，在所述从直播视频流数据中提取出多帧关键图像帧之前，还包括：

获取所述第一样本图像集合，其中，所述第一样本图像集合中包括第一正样本图像及第一负样本图像，其中，所述第一正样本图像为一局竞速任务的开始事件中的图像帧，所述第一负样本图像并非所述一局竞速任务的开始事件中的图像帧；

利用所述第一样本图像集合对第一初始化的图像识别模型进行训练，以得到所述第一图像识别模型；

获取所述第二样本图像集合，其中，所述第二样本图像集合中包括第二正样本图像及第二负样本图像，其中，所述第二正样本图像为一局竞速任务的结束事件中的图像帧，所述第二负样本图像并非所述一局竞速任务的结束事件中的图像帧；

利用所述第二样本图像集合对第二初始化的图像识别模型进行训练，以得到所述第二图像识别模型。

7.根据权利要求6所述的方法，其特征在于，所述利用所述第一样本图像集合对第一初始化的图像识别模型进行训练，以得到所述第一图像识别模型包括：

对所述第一图像识别模型的每次训练结果执行以下操作，直至所述训练结果对应的输出误差达到第一收敛条件：

确定第一当前输入样本图像对应的第一当前训练结果及与所述第一当前输入样本图像对应的第一标签值，其中，所述第一当前训练结果中包括与所述第一当前输入样本图像匹配的第一预测概率值，所述第一标签值用于指示所述第一当前输入样本图像为一局竞速任务的开始事件中的图像帧的真实概率值；

根据所述第一预测概率值及所述第一标签值的差值，确定与所述第一当前训练结果对应的第一当前输出误差；

在所述第一当前输出误差尚未达到所述第一收敛条件的情况下，利用所述第一当前输出误差通过求导计算方式，反向逐层确定与所述第一当前训练结果对应的第一当前训练图像模型中每层卷积层中的卷积核和卷积偏置值；

根据确定出的所述卷积核和卷积偏置值更新所述第一当前训练图像模型，得到更新后的所述第一当前训练图像模型；

将下一个输入样本图像作为所述第一当前输入样本图像，输入更新后的所述第一当前训练图像模型。

8.根据权利要求6所述的方法，其特征在于，所述利用所述第二样本图像集合对第二初始化的图像识别模型进行训练，以得到所述第二图像识别模型包括：

对所述第二图像识别模型的每次训练结果执行以下操作，直至所述训练结果对应的输出误差达到第二收敛条件：

确定第二当前输入样本图像对应的第二当前训练结果及与所述第二当前输入样本图像对应的第二标签值，其中，所述第二当前训练结果中包括与所述第二当前输入样本图像匹配的第二预测概率值，所述第二标签值用于指示所述第二当前输入样本图像为一局竞速任务的结束事件中的图像帧的真实概率值；

根据所述第二预测概率值及所述第二标签值的差值，确定与所述第二当前训练结果对应的第二当前输出误差；

在所述第二当前输出误差尚未达到所述第二收敛条件的情况下，利用所述第二当前输出误差通过求导计算方式，反向逐层确定与所述第二当前训练结果对应的第二当前训练图像模型中每层卷积层中的卷积核和卷积偏置值；

根据确定出的所述卷积核和卷积偏置值更新所述第二当前训练图像模型，得到更新后的所述第二当前训练图像模型；

将下一个输入样本图像作为所述第二当前输入样本图像，输入更新后的所述第二当前训练图像模型。

9.根据权利要求1所述的方法，其特征在于，所述对所述开始时间列表及所述结束时间列表进行比对包括：

遍历所述开始时间列表中的每个开始对象时刻，执行以下操作：从所述开始时间列表中获取第一当前开始对象时刻；从所述结束时间列表中确定出与所述第一当前开始对象时刻对应的第一当前结束对象时刻，其中，所述第一当前结束对象时刻大于所述第一当前开始对象时刻，且为所述结束时间列表中所有结束对象时刻中的最小时刻值；或者，

遍历所述结束时间列表中的每个结束对象时刻，执行以下操作：从所述结束时间列表中获取第二当前结束对象时刻；从所述开始时间列表中确定出与所述第二当前结束对象时刻对应的第二当前开始对象时刻，其中，所述第二当前开始对象时刻小于所述第二当前结束对象时刻，且为所述开始时间列表中所有开始对象时刻中的最大时刻值。

10.根据权利要求8所述的方法，其特征在于，在所述对所述开始时间列表及所述结束时间列表进行比对之前，还包括：

对所述开始时间列表中的任意两个开始对象时刻进行比对；在比对结果指示所述两个开始对象时刻的时刻差小于第一阈值的情况下，从所述开始时间列表中删除所述两个开始对象时刻中最大时刻值；

对所述结束时间列表中的任意两个结束对象时刻进行比对；在比对结果指示所述两个结束对象时刻的时刻差小于第二阈值的情况下，从所述结束时间列表中删除所述两个结束对象时刻中最小时刻值。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述从直播视频流数据中提取出多帧关键图像帧包括：

从所述直播视频流数据中实时定期截取目标视频片段；

依次从所述目标视频片段中提取出连续多帧的所述关键图像帧。

12.根据权利要求1至10中任一项所述的方法，其特征在于，在所述对所述直播视频流数据中进行剪辑，以生成与所述目标局竞速任务对应的目标视频之后，还包括：

将与所述目标局竞速任务对应的所述目标视频分享至视频共享播放平台。

13.一种视频剪辑装置，其特征在于，包括：

提取单元，用于从直播视频流数据中提取出多帧关键图像帧，其中，所述直播视频流中携带有正在直播的竞速类视频内容；

输入单元，用于依次将每一帧所述关键图像帧分别输入第一图像识别模型及第二图像识别模型中，得到与所述关键图像帧相匹配的识别结果，其中，所述第一图像识别模型为利用第一样本图像集合进行训练后，得到的用于识别一局竞速任务的开始事件中的图像帧的神经网络模型，所述第二图像识别模型为利用第二样本图像集合进行训练后，得到的用于识别一局竞速任务的结束事件中的图像帧的神经网络模型，所述识别结果为根据所述第一图像识别模型的输出结果及所述第二图像识别模型的输出结果确定得出；

第一确定单元，用于在所述识别结果指示所述关键图像帧为所述开始事件中的图像帧的情况下，将所述关键图像帧对应时刻确定为开始对象时刻，其中，所述开始对象时刻为所述开始事件对应的开始时间列表中的时刻；在所述识别结果指示所述关键图像帧为所述结束事件中的图像帧的情况下，将所述关键图像帧对应时刻确定为结束对象时刻，其中，所述结束对象时刻为所述结束事件对应的结束时间列表中的时刻；

第一比对单元，用于在获取到与所述多帧关键图像帧对应的多个识别结果之后，对所述开始时间列表及所述结束时间列表进行比对；

第二确定单元，用于根据比对的结果从所述结束时间列表及所述结束时间列表中，确定出目标局竞速任务的开始事件的目标开始对象时刻及所述目标局竞速任务的结束事件的目标结束对象时刻；

剪辑单元，用于根据所述目标开始对象时刻和所述目标结束对象时刻，对所述直播视频流数据中进行剪辑，以生成与所述目标局竞速任务对应的目标视频。

14.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行所述权利要求1至12任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。