CN111541912A

CN111541912A - 一种视频拆分方法、装置、电子设备及存储介质

Info

Publication number: CN111541912A
Application number: CN202010366240.9A
Authority: CN
Inventors: 郭晓锋
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-14
Anticipated expiration: 2040-04-30
Also published as: CN111541912B

Abstract

本发明实施例提供的一种视频拆分方法、装置、电子设备及存储介质，可以获取待拆分的目标视频；对目标视频进行拆分，得到多个视频段；对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集；针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取各视频帧标签中对应的数量大于第一预设阈值的一个或多个视频帧标签，组成任一视频段的视频段标签集；根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频。从而可以代替人工进行视频的快速拆分，不但可以节约视频拆分的成本，还可以提高视频拆分的速度。

Description

一种视频拆分方法、装置、电子设备及存储介质

技术领域

本发明涉及信息技术领域，特别是涉及一种视频拆分方法、装置、电子设备及存储介质。

背景技术

目前，人们生活中观看到的长视频，往往会包括多条主线。例如，在纪录片中记录多只动物测成长经历时，一般会轮流记录每只动物不同时期的成长经历，如按照视频的时序，分别记录每只动物的幼年经历，再分别记录每只动物的成年经历等。

然而，当前的视频拆分一般为通过人工等方法，按照时间顺序进行视频的拆分，例如按照时间将上述视频拆分为每只动物的幼年经历和每只动物的成年经历等视频段。而当以视频中的内容进行视频的拆分时，一般需要人工进行视频内容的浏览和拆分，再将拆分后的视频进行合并，不但所需的人工成本较高，拆分速度慢，拆分的效率低。

发明内容

本发明实施例的目的在于提供一种视频拆分方法、装置、电子设备及存储介质，以实现视频的快速拆分。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种视频拆分方法，包括：

获取待拆分的目标视频，其中，目标视频包括多个视频帧；

对目标视频进行拆分，得到多个视频段，其中，一个视频段为同一场景镜头对应的目标视频中的一段视频；

对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集，其中，视频帧标签集中包括一个或多个视频帧标签；

针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取各视频帧标签中对应的数量大于第一预设阈值的一个或多个视频帧标签，组成任一视频段的视频段标签集；

根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频。

可选的，对目标视频进行拆分，得到多个视频段，包括：

对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头；

将对应同一场景镜头的连续的多个视频帧确定为同一视频段，得到多个视频段。

可选的，对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集，包括：

对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，得到各视频帧各自对应的一个或多个视频帧标签及各个视频帧标签对应的置信度；

针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成任一视频帧对应的视频帧标签集。

可选的，视频段标签集包括多个视频标签，根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频，包括：

根据各视频段的时序，对各视频段进行排序；

根据各视频段的视频段标签集与视频段的排序，将各视频段中，视频段标签集中存在相同视频标签且在视频段的排序中相邻的视频段进行合并，得到目标视频的拆分视频。

在本发明实施的第二方面，还提供了一种视频拆分装置，包括：

视频获取模块，用于获取待拆分的目标视频，其中，目标视频包括多个视频帧；

镜头检测模块，用于对目标视频进行拆分，得到多个视频段，其中，一个视频段为同一场景镜头对应的目标视频中的一段视频；

标签检测模块，用于对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集，其中，视频帧标签集中包括一个或多个视频帧标签；

标签数量模块，用于针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取各视频帧标签中对应的数量大于预设阈值的一个或多个视频帧标签，组成任一视频段的视频段标签集；

视频拆分模块，用于根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频。

可选的，镜头检测模块，包括：

镜头点位子模块，用于对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头；

分集子模块，用于将对应同一场景镜头的连续的多个视频帧确定为同一视频段，得到多个视频段。

可选的，标签检测模块，包括：

置信度子模块，用于对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，得到各视频帧各自对应的一个或多个视频帧标签及各个视频帧标签对应的置信度；

标签子模块，用于针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成任一视频帧对应的视频帧标签集。

可选的，视频拆分模块，包括：

排序子模块，用于根据各视频段的时序，对各视频段进行排序；

合并子模块，用于根据各视频段的视频段标签集与视频段的排序，将各视频段中，视频段标签集中存在相同视频标签且在视频段的排序中相邻的视频段进行合并，得到目标视频的拆分视频。

在本发明实施的第三方面，还提供了一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现上述任一视频拆分方法。

在本发明实施的第四方面，还提供了一种计算机可读存储介质，其特征在于，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一视频拆分方法。

本发明实施例提供的一种视频拆分方法、装置、电子设备及存储介质，可以获取待拆分的目标视频；对目标视频进行拆分，得到多个视频段；对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集；针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取各视频帧标签中对应的数量大于第一预设阈值的一个或多个视频帧标签，组成任一视频段的视频段标签集；根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频。从而可以代替人工进行视频的快速拆分，不但可以节约视频拆分的成本，还可以提高视频拆分的速度。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施的一种视频拆分方法的一种流程图；

图2为本发明实施的对目标视频进行拆分的流程图；

图3为本发明实施的确定各视频段的标签集的流程图；

图4为本发明实施的对各视频段进行合并的流程图；

图5为本发明实施的一种视频拆分方法的实例图；

图6为本发明实施的视频拆分装置的第一种示意图；

图7为本发明实施的视频拆分装置的第二种示意图；

图8为本发明实施的视频拆分装置的第三种示意图；

图9为本发明实施的视频拆分装置的第四种示意图；

图10为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施的一种视频拆分方法，包括：

获取待拆分的目标视频，其中，目标视频包括多个视频帧；

可见，通过本申请实施例的视频拆分方法，可以代替人工进行视频的快速拆分，不但可以节约视频拆分的成本，还可以提高视频拆分的速度。

以下进行详细说明，参见图1，图1为本发明实施的视频拆分方法的一种流程图，包括：

步骤S11，获取待拆分的目标视频。

其中，目标视频包括多个视频帧。其中，上述待拆分的目标视频可以为多种格式的视频，例如avi(Audio Video Interleaved，音频视频交错格式)，mp4(Moving PictureExperts Group 4，动态图像专家组)等格式的视频。

本发明实施例的视频拆分方法针对的是智能终端设备中的视频，因此可以通过智能终端设备执行，具体的，该智能终端设备可以为电脑或服务器等。

步骤S12，对目标视频进行拆分，得到多个视频段。

其中，一个视频段为同一场景镜头对应的目标视频中的一段视频。其中，对目标视频进行拆分可以通过镜头检测算法，例如PySceneDetect算法库，对目标视频的各个视频帧进行镜头检测，从而根据检测结果进行视频的拆分。例如，待拆分的目标视频包括10个视频帧，通过镜头检测算法检测，判断得到前四帧为同一个场景镜头，后六帧为同一个镜头，则可以将前四帧分为一个视频段，后六帧分为一个视频段。再比如，对某一视频进行镜头点位的检测并拆分，得到[1,100]、[105,291]、[301,315]…其中[]中为各个镜头对应的镜头的起始帧和终止帧。

步骤S13，对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集。

其中，视频帧标签集中包括一个或多个视频帧标签。其中，对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，可以通过预设视频标签算法对各视频帧分集中的视频帧进行视频帧标签的检测。上述预设视频标签算法可以通过卷积神经网络实现。例如通过残差网络对每一视频帧进行检测，得到该视频帧的标签及标签的置信度。其中，对于同时视频帧可以识别出多个标签，并得出各个标签的置信度，并将置信度最高的多个标签确定为当前视频帧的标签，得到各视频帧对应的视频帧标签集。

例如，对某一视频帧进行标签检测时，得到的标签包括猫、狗、花、桌子、手机、人……对应的置信度为0.35、01、0.05、0.03、0.02、0.01……通过选取置信度最高的前五个标签可以得到当前视频帧的标签集为猫、狗、花、桌子、手机。

步骤S14，针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取各视频帧标签中对应的数量大于第一预设阈值的一个或多个视频帧标签，组成任一视频段的视频段标签集。

其中，第一预设阈值可以为任一数值，通过第一预设阈值选取各视频帧标签中对应的数量大于第一预设阈值的一个或多个视频帧标签，可以为通过第一预设阈值选取各视频帧标签中对应的数量最大的前N个视频帧标签，组成该视频段的视频段标签集。例如，对某一视频段，计算该视频段中各类型的视频帧标签的数量，得到视频帧标签集：猫、狗、花、桌子、手机、人，对应的数量为10、8、6、5、4、3，选取第一预设阈值为3，可以得到该视频段的视频段标签集为：猫、狗、花、桌子、手机。

步骤S15，根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频。

其中，根据各视频段的视频段标签集对各视频段进行合并，可以为各视频段的视频段标签集进行对比，将视频段标签集中拥有相同标签的视频段进行合并。例如，镜头1的视频段标签集为[猫，女人，草地，玩具]，镜头2的视频段标签集为[儿童，玩具，猫，天空]，镜头3的视频段标签集为[男人，汽车，抽烟，开心]，经过对上述视频段标签集进行对比发现，镜头1和镜头2有相同的标签猫，则对镜头1和镜头2进行合并。

其中，根据各视频段的视频段标签集对各视频段进行合并，可以为按照对应目标视频中的顺序进行合并，例如将镜头1和镜头2进行合并时，镜头1和镜头2对应的目标视频中的顺序为镜头1在前，镜头2在后，因此，在进行合并时可以为将镜头1对应的视频段在前，镜头2对应的视频段在后的方式进行合并，得到目标视频的拆分视频。

可见，通过本申请实施例的视频拆分方法，可以按照视频帧的内容进行视频的拆分和合并，从而实现代替人工进行视频的快速拆分，不但可以节约视频拆分的成本，还可以提高视频拆分的速度。

可选的，参见图2，步骤S12对目标视频进行拆分，得到多个视频段，包括：

步骤S121，对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头。

其中，对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头，可以为对目标视频的各个视频帧进行场景检测，例如检测当前视频帧对应的画面的背景等，确定各个视频帧对应的场景。

步骤S122，将对应同一场景镜头的连续的多个视频帧确定为同一视频段，得到多个视频段。

其中，对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头后，将对应同一场景镜头的连续的多个视频帧确定为同一视频段，可以为对目标视频的各个视频帧进行场景检测，例如检测当前视频帧对应的画面的背景等，将拥有相同或相似背景的连续的一段视频帧确定为同一视频段，得到多个视频段。

可选的，对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头后，将对应同一场景镜头的连续的多个视频帧确定为同一视频段。可以通过预先训练好的镜头检测算法，对目标视频进行检测，确定目标视频中各个视频帧对应的镜头点位，其中，镜头点位可以表示当前视频帧对应的摄像镜头的位置，当镜头点位发生变化时，可以理解为非同一镜头对应的视频帧，从而可以得到目标视频对应的多个视频段。上述镜头检测算法可以为用于对上述目标视频的各个视频帧进行镜头检测的任一算法，例如PySceneDetect算法库。

可选的，参见图3，步骤S13对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集，包括：

步骤S131，对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，得到各视频帧各自对应的一个或多个视频帧标签及各个视频帧标签对应的置信度。

其中，对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，可以为对各视频段进行视频帧内容的识别，根据所识别到的目标对对视频帧打标签，同时，得到各个视频帧标签对应的置信度。例如，对某一视频帧进行检测，得到多个标签，分别为猫，女人，草地，玩具，对应的置信度分别为0.4，0.2，0.1，0.2。

步骤S132，针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成任一视频帧对应的视频帧标签集。

其中，针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成任一视频帧对应的视频帧标签集，可以为根据预设阈值，选取各视频帧各自对应的一个或多个视频帧标签中对应的置信度最大的前N个视频帧标签。

可选的，参见图4，步骤S15视频段标签集包括多个视频标签，根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频，包括：

步骤S151，根据各视频段的时序，对各视频段进行排序。

其中，根据各视频段的时序，对各视频段进行排序，可以为根据各视频段对应的目标视频中的时序，对各视频段进行排序。

步骤S152，根据各视频段的视频段标签集与视频段的排序，将各视频段中，视频段标签集中存在相同视频标签且在视频段的排序中相邻的视频段进行合并，得到目标视频的拆分视频。

其中，根据各视频段的视频段标签集与视频段的排序，将各视频段中，视频段标签集中存在相同视频标签且在视频段的排序中相邻的视频段进行合并，可以为根据各视频段的排序与标签集，将拥有同一分类标签的相邻的视频段进行合并，可以将拥有同一分类标签的一个或多个视频段进行合并，得到目标视频的拆分视频。

可见，通过根据各视频段的时序，对各视频段进行排序，根据各视频段的视频段标签集与视频段的排序，将各视频段中，视频段标签集中存在相同视频标签且在视频段的排序中相邻的视频段进行合并，得到目标视频的拆分视频。可以使得拆分后的视频与目标视频中的时序一致，从而保证拆分结果的时序合理，提高视频拆分的质量。

参见图5，图5为本发明实施的一种视频拆分方法的实例图，包括：

步骤S101，输入视频，输入待拆分的目标视频。

步骤S102，镜头检测，对上述输入的目标视频进行镜头检测，得到多个视频段，视频段[1,100]，视频段[105,291]，视频段[301,315]，视频段[316,400]，其中[]中为对应视频段的起始帧和终止帧。

步骤S103，视频标签检测，对上述镜头检测得到的多个视频段进行视频标签检测，得到各个视频段对应的多个视频标签组成的标签集。其中，视频段[1,100]，视频段[105,291]，视频段[301,315]，视频段[316,400]对应的标签集分别为食物、辣椒、火锅、汤…，食物、鸡肉、火锅、油…，天空、山、早晨、蓝天…，山、草地、男人、石头…

步骤S103，视频合并，通过对视频标签检测得到的各个视频段的标签集进行标签比对，将包含相同标签的标签集对应的视频段进行合并，得到拆条后的结果1和拆条后的结果2。

参见图6，图6为本发明实施的一种视频拆分装置的第一种示意图，包括：

视频获取模块601，用于获取待拆分的目标视频，其中，目标视频包括多个视频帧；

镜头检测模块602，用于对目标视频进行拆分，得到多个视频段，其中，一个视频段为同一场景镜头对应的目标视频中的一段视频；

标签检测模块603，用于对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，确定各视频段中的各视频帧对应的视频帧标签集，其中，视频帧标签集中包括一个或多个视频帧标签；

标签数量模块604，用于针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取各视频帧标签中对应的数量大于预设阈值的一个或多个视频帧标签，组成任一视频段的视频段标签集；

视频拆分模块605，用于根据各视频段的视频段标签集对各视频段进行合并，得到目标视频的拆分视频。

可选的，参见图7，镜头检测模块602，包括：

镜头点位子模块6021，用于对目标视频进行检测，确定目标视频中各个视频帧对应的场景镜头；

分集子模块6022，用于将对应同一场景镜头的连续的多个视频帧确定为同一视频段，得到多个视频段。

可选的，参见图8，标签检测模块603，包括：

置信度子模块6031，用于对多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对视频帧打标签，得到各视频帧各自对应的一个或多个视频帧标签及各个视频帧标签对应的置信度；

标签子模块6032，用于针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成任一视频帧对应的视频帧标签集。

可选的，参见图9，视频拆分模块605，包括：

排序子模块6051，用于根据各视频段的时序，对各视频段进行排序；

合并子模块6052，用于根据各视频段的视频段标签集与视频段的排序，将各视频段中，视频段标签集中存在相同视频标签且在视频段的排序中相邻的视频段进行合并，得到目标视频的拆分视频。

可见，通过本申请实施例的视频拆分装置，可以按照视频帧的内容进行视频的拆分和合并，从而实现代替人工进行视频的快速拆分，不但可以节约视频拆分的成本，还可以提高视频拆分的速度。

本发明实施例还提供了一种电子设备，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信，

存储器1003，用于存放计算机程序；

处理器1001，用于执行存储器1003上所存放的程序时，实现如下步骤：

获取待拆分的目标视频，其中，目标视频包括多个视频帧；

可选的，上述处理器，用于执行存储器上所存放的程序时，实现如上述任一视频拆分方法。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processor，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一视频拆分方法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一视频拆分方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种视频拆分方法，其特征在于，包括：

获取待拆分的目标视频，其中，所述目标视频包括多个视频帧；

对所述目标视频进行拆分，得到多个视频段，其中，一个视频段为同一场景镜头对应的目标视频中的一段视频；

对所述多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对所述视频帧打标签，确定所述各视频段中的各视频帧对应的视频帧标签集，其中，所述视频帧标签集中包括一个或多个视频帧标签；

针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取所述各视频帧标签中对应的数量大于第一预设阈值的一个或多个视频帧标签，组成所述任一视频段的视频段标签集；

根据所述各视频段的视频段标签集对所述各视频段进行合并，得到所述目标视频的拆分视频。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频进行拆分，得到多个视频段，包括：

对所述目标视频进行检测，确定所述目标视频中各个视频帧对应的场景镜头；

3.根据权利要求1所述的方法，其特征在于，所述对所述多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对所述视频帧打标签，确定所述各视频段中的各视频帧对应的视频帧标签集，包括：

对所述多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对所述视频帧打标签，得到所述各视频帧各自对应的一个或多个视频帧标签及各个视频帧标签对应的置信度；

针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成所述任一视频帧对应的视频帧标签集。

4.根据权利要求1所述的方法，其特征在于，所述视频段标签集包括多个视频标签，所述根据所述各视频段的视频段标签集对所述各视频段进行合并，得到所述目标视频的拆分视频，包括：

根据所述各视频段的时序，对所述各视频段进行排序；

根据所述各视频段的视频段标签集与所述视频段的排序，将所述各视频段中，所述视频段标签集中存在相同视频标签且在所述视频段的排序中相邻的视频段进行合并，得到所述目标视频的拆分视频。

5.一种视频拆分装置，其特征在于，包括：

视频获取模块，用于获取待拆分的目标视频，其中，所述目标视频包括多个视频帧；

镜头检测模块，用于对所述目标视频进行拆分，得到多个视频段，其中，一个视频段为同一场景镜头对应的目标视频中的一段视频；

标签检测模块，用于对所述多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对所述视频帧打标签，确定所述各视频段中的各视频帧对应的视频帧标签集，其中，所述视频帧标签集中包括一个或多个视频帧标签；

标签数量模块，用于针对任一视频段，统计该视频段对应的所有视频帧标签集中各视频帧标签的数量，选取所述各视频帧标签中对应的数量大于预设阈值的一个或多个视频帧标签，组成所述任一视频段的视频段标签集；

视频拆分模块，用于根据所述各视频段的视频段标签集对所述各视频段进行合并，得到所述目标视频的拆分视频。

6.根据权利要求5所述的装置，其特征在于，所述镜头检测模块，包括：

镜头点位子模块，用于对所述目标视频进行检测，确定所述目标视频中各个视频帧对应的场景镜头；

7.根据权利要求5所述的装置，其特征在于，所述标签检测模块，包括：

置信度子模块，用于对所述多个视频段中的各视频段进行视频帧内容的识别，并根据视频帧内容对所述视频帧打标签，得到所述各视频帧各自对应的一个或多个视频帧标签及各个视频帧标签对应的置信度；

标签子模块，用于针对任一视频帧，选取置信度大于第二预设阈值的一个或多个视频帧标签组成所述任一视频帧对应的视频帧标签集。

8.根据权利要求5所述的装置，其特征在于，所述视频拆分模块，包括：

排序子模块，用于根据所述各视频段的时序，对所述各视频段进行排序；

合并子模块，用于根据所述各视频段的视频段标签集与所述视频段的排序，将所述各视频段中，所述视频段标签集中存在相同视频标签且在所述视频段的排序中相邻的视频段进行合并，得到所述目标视频的拆分视频。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的所述计算机程序时，实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。