CN111327945B

CN111327945B - 用于分割视频的方法和装置

Info

Publication number: CN111327945B
Application number: CN201811534302.1A
Authority: CN
Inventors: 曾建平; 吕晶晶; 包勇军
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-03-30
Anticipated expiration: 2038-12-14
Also published as: EP3896986A1; EP3896986A4; US11275950B2; CN111327945A; WO2020119187A1; US20210224550A1

Abstract

本申请实施例公开了用于分割视频的方法和装置。该方法的一具体实施方式包括：获取待分割视频；对待分割视频进行视频镜头分割，得到初始的视频片段集合；从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。该实施方式丰富了视频分割的方式，有助于提高视频镜头分割的准确性。

Description

用于分割视频的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于分割视频的方法和装置。

背景技术

视频镜头分割方法，是一种将视频切分成镜头(或者镜头和镜头边界)的方法，是视频检索、视频摘要和视频剪辑制作等应用中的一项基础技术。其中，镜头是指一段图像内容较为连续的视频片段。

镜头突变是指直接的视频场景切换，没有中间过渡。对于镜头突变，切换前后的两个场景之间为突变的镜头边界。镜头渐变是指一个场景以某种方式逐渐过渡到另外一个场景，包括淡入、淡出和图像叠加等。对于镜头渐变，场景过渡之前和场景过渡之后的两个场景之间为渐变的镜头边界。

现有的视频镜头分割方法，通常采用各种图像特征(例如，颜色直方图特征、图像边缘特征和区域纹理等)结合经验规则或者支持向量机等分类技术，来判断图像之间的相似性，以此为基础，从而实现视频镜头分割。

发明内容

本申请实施例提出了用于分割视频的方法和装置。

第一方面，本申请实施例提供了一种用于分割视频的方法，该方法包括：获取待分割视频；对待分割视频进行视频镜头分割，得到初始的视频片段集合；从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

第二方面，本申请实施例提供了一种用于分割视频的装置，该装置包括：获取单元，被配置成获取待分割视频；分割单元，被配置成对待分割视频进行视频镜头分割，得到初始的视频片段集合；确定单元，被配置成从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；合并单元，被配置成对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

第三方面，本申请实施例提供了一种用于分割视频的电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得该一个或多个处理器实现如上述用于分割视频的方法中任一实施例的方法。

第四方面，本申请实施例提供了一种用于分割视频的计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述用于分割视频的方法中任一实施例的方法。

本申请实施例提供的用于分割视频的方法和装置，通过获取待分割视频，然后，对待分割视频进行视频镜头分割，得到初始的视频片段集合，之后，从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度，最后，对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并，从而丰富了视频分割的方式，有助于提高视频镜头分割的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于分割视频的方法的一个实施例的流程图；

图3是根据本申请的一个实施例的对待分割视频进行部分视频镜头分割的操作示意图；

图4A是根据本申请的一个实施例的不相似度与视频帧的位置之间的对应关系示意图；

图4B是根据本申请的一个实施例的位置信息集合中的位置信息指示的位置示意图；

图4C是根据本申请的一个实施例的添加后得到的位置信息集合中的位置信息指示的位置示意图；

图4D是根据本申请的一个实施例的对位置信息集合中位置信息进行删除后的剩余的位置信息指示的位置的示意图；

图5是根据本申请的一个实施例的用于分割视频的方法的应用场景的一个示意图；

图6是根据本申请的用于分割视频的方法的又一个实施例的流程图；

图7是根据本申请的用于分割视频的方法的又一个实施例的流程图；

图8是根据本申请的用于分割视频的装置的一个实施例的结构示意图；

图9是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的用于分割视频的方法或用于分割视频的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如视频)等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如视频播放软件、视频处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持数据传输的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的视频提供支持的后台服务器。后台服务器可以对接收到的视频处理请求等数据进行分析等处理，并将处理结果(例如对视频进行分割后得到的视频片段或其他数据)反馈给与其通信连接的电子设备(例如终端设备)。

需要说明的是，本申请实施例所提供的用于分割视频的方法可以由服务器105执行，相应地，用于分割视频的装置可以设置于服务器105中。此外，本申请实施例所提供的用于分割视频的方法也可以由终端设备101、102、103执行，相应地，用于分割视频的装置也可以设置于终端设备101、102、103中。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当用于分割视频方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括用于分割视频方法运行于其上的电子设备(例如终端设备101、102、103或服务器105)。

继续参考图2，示出了根据本申请的用于分割视频的方法的一个实施例的流程200。该用于分割视频的方法，包括以下步骤：

步骤201，获取待分割视频。

在本实施例中，用于分割视频的方法的执行主体(例如图1所示的服务器或终端设备)可以通过有线连接方式或者无线连接方式从其他电子设备获取待分割视频。其中，上述待分割视频可以是待对其进行分割的视频。

当上述执行主体为终端设备时，其可以从与其通信连接的其他电子设备获取待分割视频；也可以获取预先存储于本地的待分割视频。例如，上述执行主体可以是具有视频分割功能的终端设备，其可以从其他不具有视频分割功能的终端设备获取待分割视频。当上述执行主体为服务器时，其可以从与其通信连接的其他电子设备(例如不具有视频分割功能，但存储有需要进行分割的视频的终端设备或服务器)获取待分割视频；也可以获取预先存储于本地的待分割视频。

步骤202，对待分割视频进行视频镜头分割，得到初始的视频片段集合。

在本实施例中，上述执行主体可以对步骤201中所获取到的待分割视频进行视频镜头分割，得到初始的视频片段集合。

其中，视频镜头分割又称镜头变化检测，其目的是得到视频中的镜头。其中，镜头是由视频中的相邻视频帧组成的，镜头是组成视频的基本单位。作为示例，镜头可以是视频中的一个场景对应的连续视频帧。

示例性的，上述视频镜头分割可以包括但不限于以下至少一项：像素法、直方图法、边缘轮廓变化率法等等。

在这里，上述初始的视频片段集合可以是对上述待分割视频进行视频镜头分割而得到的多个视频片段。

在本实施例的一些可选的实现方式中，该步骤202中的对待分割视频进行视频镜头分割，可以包括：对待分割视频进行部分视频镜头分割。其中，部分视频镜头分割得到的初始的视频片段集合中的视频片段包括表征部分镜头的视频片段。

作为示例，请参考图3。其示出了根据本申请的一个实施例的对待分割视频进行部分视频镜头分割的操作示意图。如图3所示，待分割视频301包括镜头10、镜头20、镜头30和镜头40。上述执行主体对待分割视频301进行部分视频镜头分割，得到了初始的视频片段集合302，该初始的视频片段集合302包括视频片段1-10。其中，视频片段0-4组成镜头10(即视频片段0-4包括的视频帧组成了镜头10)，视频片段5与镜头20由相同的视频帧组成，视频片段6与镜头30由相同的视频帧组成，视频片段7-9组成镜头40。其中，部分视频镜头301分割得到的初始的视频片段集合302中的视频片段包括表征部分镜头的视频片段(例如视频片段0、1、2、3、4、7、8、9分别表征部分镜头)。上述部分镜头即镜头的一部分，图示中，视频片段0表征部分镜头，视频片段0是镜头10的一部分。

需要说明的是，部分视频镜头分割即过度的视频镜头分割，通过对待分割视频进行部分视频镜头分割，所得到的视频片段的数量可以多于该待分割视频包括的镜头的数量。

可以理解，对待分割视频进行部分视频镜头分割，可以得到更多的视频片段，通过后续步骤对所得到的视频片段进行合并，从而可以提高将待分割视频分割为镜头的准确性，丰富了从视频中确定镜头的方式。

需要说明的是，基于过度分割与本申请实施例的后续步骤(例如语义合并，即步骤204中的合并处理，以得到最终的视频片段集合的步骤，)相结合的方式，可以提高视频分割的准确性。

在本实施例的一些可选的实现方式中，对于上述对待分割视频进行部分视频镜头分割，上述执行主体可以按照如下步骤执行：

第一步骤，对于待分割视频包括的至少一个相邻视频帧对中的相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度。

上述相邻视频帧对可以是待分割视频包括的两个相邻的视频帧。作为示例，假设待分割视频包括视频帧1、视频帧2和视频帧3，那么，该待分割视频包括的相邻视频帧对可以是以下任一项：视频帧1和视频帧2，或者，视频帧2和视频帧3。

上述特征向量可以用于表征视频帧的特征(例如颜色特征、纹理特征等)。上述提取视频帧的特征向量的方法可以是现有的或者现在未知将来提出的各种特征向量提取方法，例如，颜色直方图、方向梯度直方图(Histogram of Oriented Gradient,HOG)等等。

作为示例，上述执行主体可以对于待分割视频包括的至少一个相邻视频帧对中的每个相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度。由此得到该待分割视频包括的所有的相邻视频帧对包括的两个相邻的视频帧的不相似度。例如，假设待分割视频包括视频帧1、视频帧2、视频帧3和视频帧4，那么，上述执行主体可以确定该待分割视频包括的所有的相邻视频帧对包括：由视频帧1和视频帧2组成的相邻视频帧对、由视频帧2和视频帧3组成的相邻视频帧对、由视频帧3和视频帧4组成的相邻视频帧对，由此，上述执行主体可以分别计算视频帧1和视频帧2的不相似度，视频帧2和视频帧3的不相似度，视频帧3和视频帧4的不相似度。

请参考图4A，其示出了根据本申请的一个实施例的不相似度与视频帧的位置之间的对应关系示意图。图示中，横坐标表征视频帧的位置(例如待分割视频的第1个视帧的位置用1来表示，待分割视频的第2个视帧的位置用2来表示，以此类推)。

可选的，上述执行主体也可以对于待分割视频包括的所有相邻视频帧对中的一部分(即并非所有)相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度。由此得到该待分割视频包括的所有的相邻视频帧对中的一部分相邻视频帧对包括的两个相邻的视频帧的不相似度。例如，假设待分割视频包括视频帧1、视频帧2、视频帧3和视频帧4，那么，上述执行主体可以确定该待分割视频包括的所有的相邻视频帧对包括：由视频帧1和视频帧2组成的相邻视频帧对、由视频帧2和视频帧3组成的相邻视频帧对、由视频帧3和视频帧4组成的相邻视频帧对，由此，上述执行主体可以只计算如下视频帧之间的不相似度：计算视频帧1和视频帧2的不相似度，视频帧3和视频帧4的不相似度。

需要说明的是，不相似度通常可以表征视频帧之间的不相似程度，可以理解，基于相同的构思，可以将上述计算不相似度的方案转换为计算相似度的方案，因此，无论计算相似度还是计算不相似度的方案均应属于本申请所要求保护的技术方案范围之内。

基于两个视频帧的特征向量，计算该两个视频帧的相似度的方法可以是基于归一化相关的方法、基于直方图交叉核的方法或者其他计算视频帧之间的相似度的方法。上述计算两个视频帧的相似度的方法是目前本领域的技术人员广泛研究的公知技术，在此不再赘述。两个视频帧的不相似度可以为预定数值(例如1)与该两个视频帧的相似度之差。

第二步骤，基于所确定的不相似度，对待分割视频进行部分视频镜头分割。

在本实施例的一些可选的实现方式中，上述执行主体可以按照如下步骤执行上述第二步骤：

第一子步骤，基于所确定的不相似度，确定待分割视频的视频帧变化位置，得到表征所确定的视频帧变化位置的位置信息集合。

上述视频帧变化位置可以是符合预先设置的条件的、上述待分割视频包括的视频帧的位置。上述预先设置的条件可以是视频帧与该视频帧的下一帧视频帧(或者上一帧视频帧)之间的不相似度大于预设的不相似度阈值。上述视频帧变化位置也可以是按照预先确定的方法确定的。上述预先设置的条件也可以是视频帧与该视频帧的下一帧视频帧(或者上一帧视频帧)之间的不相似度大于所确定的不相似度中，最大的不相似度与预定数值(例如0.8)的乘积。

上述视频帧变化位置也可以是按照预先确定的方法得到的。上述预定方法可以是核函数时域分割方法(kernel temporal segmentation，KTS)。KTS方法的一个输入参数是切分镜头的数目，我们设置一个参数,表示每个镜头的平均视频帧数目使得切分镜头的数目与设置的参数之间满足以下公式：

其中，N_(max_shots)表征切分镜头的数目，N_(mean_stime)表示每个镜头的平均视频帧数目，N是待分割视频的视频帧数目，符号

表征向下取整。可以理解，对待分割视频的视频帧数目与每个镜头的平均视频帧数目的比值，进行行下取整，即可以得到切分镜头的数目。由于要使用KTS方法检测出较多的视频帧变化位置，以便对视频做部分视频镜头分割，所以可以将N_(mean_stime)设置为一个较小值，例如，N_(mean_stime)的取值范围可以为10至30。

示例性的，请参考图4B。其示出了根据本申请的一个实施例的位置信息集合中的位置信息指示的位置示意图。如图4B所示，上述执行主体采用上述KTS方法，得到了位置信息集合。其中，该位置信息集合中的位置信息指示的位置为图4B中所示的视频帧位置401-420。

第二子步骤，对于待分割视频包括的视频帧，响应于确定该视频帧符合预先确定的第一预设条件，将表征该视频帧在待分割视频所处的位置的位置信息添加到位置信息集合。其中，上述第一预设条件可以是技术人员预先设置的条件。例如，第一预设条件可以是与上述视频帧变化位置(添加之前的位置信息集合)中的位置信息指示的位置处的视频帧的相似度大于预设阈值的视频帧。

在这里，上述执行主体可以对得到的待分割视频包括的所有的相邻视频帧对包括的两个相邻的视频帧的不相似度进行拟合，从而得到表征两个相邻的视频帧的不相似度与视频帧的位置之间的曲线(例如图4A所示的曲线)。由此，上述执行主体可以确定出待分割视频包括的各个视频帧对应的不相似度。上述第一预设条件可以是其(视频帧)下一帧视频帧对应的不相似度大于或等于其(该视频帧)对应的不相似度，并且位于上述位置信息集合(添加之前的位置信息集合)中的位置信息表征的位置的视频帧。上述第一预设条件也可以是其(视频帧)对应的不相似度大于其(该视频帧)下一帧视频帧对应的不相似度，并且位于上述位置信息集合(添加之前的位置信息集合)中的位置信息表征的位置的视频帧。

作为示例，上述执行主体可以按照如下步骤，对位置信息集合进行添加：

首先，上述执行主体可以从待分割视频包括的第一帧视频帧开始，依次向后，直到该待分割视频包括的倒数第二帧(即最后一帧的前一帧)视频帧结束，对每一帧视频帧，计算该视频帧的下一帧视频帧对应的不相似度是否大于等于该视频帧对应的不相似度，如果该视频帧的下一帧视频帧对应的不相似度大于等于该视频帧对应的不相似度，并且，该视频帧所在的位置(该视频帧在待分割视频中的位置)的位置信息属于上述位置信息集合(添加之前的位置信息集合)，则将该视频帧的下一帧视频帧所在的位置的位置信息添加到上述位置信息集合(添加之前的位置信息集合)。

然后，上述执行主体可以从待分割视频包括的倒数第二帧(即最后一帧的前一帧)视频帧开始，依次向前，直到该待分割视频包括的第一帧视频帧结束，对每一帧视频帧，计算该视频帧对应的不相似度是否大于等于该视频帧的下一帧视频帧对应的不相似度，如果该视频帧对应的不相似度大于等于该视频帧的下一帧视频帧对应的不相似度，并且，该视频帧的下一帧视频帧所在的位置(该视频帧的下一帧视频帧在待分割视频中的位置)的位置信息属于上述位置信息集合(添加之前的位置信息集合)，则将该视频帧所在的位置的位置信息添加到上述位置信息集合(添加之前的位置信息集合)。

由此，得到了添加后得到的位置信息集合。该扩展后的位置信息集合为上述两次添加后得到的两个添加后位置信息集合的并集。

示例性的，请参考图4C。其示出了根据本申请的一个实施例的添加后得到的位置信息集合中的位置信息指示的位置示意图。如图4C所示，上述执行主体按照上述示例所示的方法，对位置信息集合进行扩展，得到了新的位置信息集合(即上述添加后得到的位置信息集合)。其中，该新的位置信息集合中的位置信息指示的位置为图4C中所示的视频帧位置401-425。

可以理解，通过对位置信息集合进行扩展，可以使本申请实施例的方法更加鲁棒。

第三子步骤，在添加后得到的位置信息集合中的位置信息指示的位置，对待分割视频进行分割，以进行部分视频镜头分割。

可以理解，在添加后得到的位置信息集合中的位置信息指示的位置，对待分割视频进行分割，以进行部分视频镜头分割，即可以得到步骤202所描述的初始的视频片段集合。

步骤203，从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度。

在本实施例中，上述执行主体可以从步骤202得到的视频片段集合中，选取至少一个视频片段。然后，针对所选取的至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度。

作为示例，上述执行主体可以按照如下步骤，从视频片段集合中，选取至少一个视频片段：

第一步骤，对于上述位置信息集合中的位置信息，在确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度小于预先确定的不相似度阈值的情况下，上述执行主体可以从位置信息集合中删除该位置信息。

上述位置信息集合可以是上述在添加后得到的位置信息集合，也可以是添加前的、表征所确定的视频帧变化位置的位置信息集合(即第一子步骤得到的位置信息集合)。

上述不相似度阈值可以是技术人员预先设置的数值。例如，当不相似度通过0与1之间的数值表征，并且数值越大表征不相似程度越高时，不相似度阈值可以是0.04、0.05等等。

可以理解，上述第一步骤可以一定程度上从位置信息集合中剔除误检的位置信息，上述误检的位置信息指示的位置处的视频帧对应的不相似度小于不相似度阈值，可以表明该位置处的视频帧属于镜头边界的可能性较小。由此，有助于提高确定镜头边界的位置的准确性，有助于提高视频分割的准确性。

在一些使用情况下，上述不相似度阈值可以是技术人员、上述执行主体、或者与上述执行主体通信连接的其他电子设备通过如下步骤确定的：

首先，对于待分割视频包括的各个视频帧对应的不相似度按照由小到大的顺序进行排序，得到不相似度序列。

然后，从上述不相似度序列包括的最小(或者最大)的不相似度的一端，选取位于预定位置处(例如第四个五等分点位置处、第5个7等分点位置处等)的视频帧对应的不相似度作为不相似度阈值。例如，上述执行主体可以将不相似度序列分为两部分，一部分包括不相似度序列包括的不相似度的数量的80％的不相似度，另一部分包括不相似度序列包括的不相似度的数量的20％的不相似度。其中，不相似度序列包括的最小的不相似度包含在不相似度的数量为不相似度序列包括的不相似度的数量的80％的一部分。由此，可以将包含最小的不相似度所在的部分的最大的相似度确定为上述不相似度阈值。

可以理解，将包含最小的不相似度所在的部分的最大的相似度确定为上述不相似度阈值，可以一定程度上避免人为主观设定不相似度阈值所存在的误差，在此基础上，通过执行本实施例的后续步骤，可以进一步提高视频分割的准确性。

可选的，上述不相似度阈值也可以是技术人员、上述执行主体、或者与上述执行主体通信连接的其他电子设备通过如下步骤确定的：

首先，确定待分割视频包括的各个视频帧对应的不相似度的均值。

然后，对所得到的均值与预定数值(例如1、0.9等)的乘积确定为上述不相似度阈值。

作为示例，请参考图4D。图4D示出了根据本申请的一个实施例的对位置信息集合中位置信息进行删除后的剩余的位置信息指示的位置的示意图。如图4D所示，上述执行主体将位置信息集合中位置信息指示的位置处的视频帧对应的不相似度小于不相似度阈值(图示中为0.05)的位置信息进行删除，保留了位置信息指示的位置为位置401-413。

第二步骤，上述执行主体可以从删除后的位置信息集合中，提取属于目标类别的位置信息。

在这里，可以将位置信息集合中的位置信息划分为突变类和渐变类。上述目标类别可以是渐变类。

具体地，上述执行主体可以按照如下步骤确定位置信息的类别：

第一步，将待分割视频包括的第一帧视频帧和最后一帧视频帧所在的位置的位置信息确定为突变类位置信息。

第二步，对于待分割视频包括的第二帧视频帧到待分割视频包括的倒数第二帧(最后一帧的前一帧)视频帧中的每一帧，将该帧视频帧对应的不相似度与该帧视频帧的前一帧视频帧对应的不相似度之间的差值确定为该视频帧的第一差值；将该帧视频帧对应的不相似度与该帧视频帧的后一帧视频帧对应的不相似度之间的差值确定为该视频帧的第二差值；将该视频帧的第一差值与该视频帧的第二差值中较大的差值确定为该视频帧的大差值，将该视频帧的第一差值与该视频帧的第二差值中较小的差值确定为该视频帧的小差值，如果该视频帧满足预先确定的突变条件，则将该视频帧的位置的位置信息确定为突变类位置信息，否则，将该视频帧的位置的位置信息确定为渐变类位置信息。

上述突变条件可以包括以下至少一项：该视频帧的小差值大于等于第一预定数值(例如0.1，0.015等)，该视频帧的小差值与该视频帧的大差值的商大于等于第二预定数值(例如，0.80，0.075等)，该视频帧的小差值小于等于上述第三预定数值。

可以理解，在这里，可以得到渐变类位置信息和突变类位置信息，基于此，可以进一步得到突变的镜头边界和渐变的镜头边界，进而得到待分割视频包括的镜头。例如，待分割视频包括1000帧视频帧，突变类位置信息表征待分割视频中的第110帧所在的位置为突变的镜头边界，渐变类位置信息表征待分割视频中的第660帧至第700帧所在的位置为渐变的的镜头边界，由此，可以确定出该待分割视频包括的镜头包括第1帧视频帧至第109帧视频帧所在的视频片段、第111帧视频帧至第659帧视频帧所在的视频片段、第701帧视频帧至第1000帧视频帧所在的视频片段。

在这里，上述第一预定数值、第二预定数值、第三预定数值可以是预先设置的数值，上述预定数值(包括第一预定数值、第二预定数值、第三预定数值)可以相等也可以不等，上述第一、第二、第三仅用作区分预定数值，并不构成对本申请的特殊限制。

需要说明的是，通过上述方法来确定渐变类位置信息和突变类位置信息，相对于现有技术，可以提高确定渐变的镜头边界和突变的镜头边界的速度。

第三步骤，上述执行主体可以从所提取的位置信息中，确定符合第二预设条件的位置信息对。其中，位置信息对可以由两个视频帧的位置的位置信息组成。

上述第二预设条件可以是技术人员预先设置的条件。该第二预设条件得到的位置信息对对应的两个视频帧之间的视频帧可以组成一个镜头。

作为示例，将位置信息对包括的两个位置信息分别指示的位置对应的两个不相似度中较大的相似度确定为该位置信息对的大相似度，较小的相似度确定为该位置信息对的小相似度，将所提取的各个位置信息指示的位置对应的各个不相似度中最小的相似度确定为该位置信息对的最小相似度，将该位置信息对的小相似度与该位置信息对的答相似度的和确定为该位置信息对的相似度和。基于此，上述第二预设条件可以是以下至少一项：

第一项，位置信息对包括的两个位置信息分别指示的位置处的视频帧之间包括的视频帧的数量小于等于第三预定数值(例如1)。

第二项，位置信息对包括的位于后边的位置的位置信息对应的不相似度与位置信息对包括的位于前边的位置的位置信息对应的不相似度之间的差值小于等于第四预定数值(例如5)

第三项，位置信息对的小相似度与该位置信息对的小相似度的商大于等于第五预定数值(例如0.6)。

第四项，位置信息对的最小相似度与位置信息对的相似度和的商大于等于第六预定数值(例如0.3)。

需要说明的是，上述第一预定数值、第二预定数值、第三预定数值、第四预定数值、第五预定数值、第六预定数值可以是技术人员分别预先确定的数值，上述各个预定数值(包括第一预定数值、第二预定数值、第三预定数值、第四预定数值、第五预定数值、第六预定数值)可以相等，也可以不等。上述第一、第二、第三、第四、第五、第六仅用作区分预定数值，并不构成对本申请的特殊限定。

第四步骤，上述执行主体可以从视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段。

可以理解，由于视频片段集合可以是上述执行主体对待分割视频按照位置信息集合中的位置信息指示的位置进行分割得到的，当位置信息集合变化(例如向位置信息集合中添加或删除位置信息)时，视频片段集合包括的视频片段随之变化，因此，所确定的位置信息对指示的两个位置之间的视频片段包含于视频片段集合之中。

可选的，上述执行主体还可以从视频片段集合中，随机选取预定数量个视频片段。其中，上述预定数量可以为正整数。

可以理解，通过上述步骤，可以得到目标类别的位置信息对包括的位置信息对应的两个视频帧之间的视频片段，所得到的视频片段可以是用于分隔镜头的渐变的镜头边界。由此，通过得到渐变的镜头边界，有助于提高视频分割的准确性。

在本实施例的一些可选的实现方式中，对于上述确定与该视频片段相邻的两个视频片段之间的相似度，上述执行主体可以按照如下步骤执行：

第一步骤，从与该目标视频片段相邻的两个视频片段分别选取预定数量个视频帧。其中，上述预定数量可以是预先确定的数量值(例如，1、2、3、4等)。与该目标视频片段相邻的两个视频片段可以是在该目标视频片段之前并且与该目标视频片段相邻的视频片段，以及在该目标视频片段之后并且与该目标视频片段相邻的视频片段。

所选取的视频帧可以是两个视频片段中分别与目标视频片段接近的预定数量个视频帧，也可以是随机选取的预定数量个视频帧。

第二步骤，基于所选取的视频帧之间的相似度，确定与该视频片段相邻的两个视频片段之间的相似度。

在本实施例的一些可选的实现方式中，上述执行主体可以按照如下步骤确定与该视频片段相邻的两个视频片段之间的相似度：

第一子步骤，针对所选取的、该目标视频片段之前的预定数量个视频帧中的视频帧，确定该视频帧与所选取的、该目标视频片段之后的预定数量个视频帧中的各个视频帧之间的相似度。

第二子步骤，将所确定的相似度中数值最大的相似度，确定为与该视频片段相邻的两个视频片段之间的相似度。

可选的，上述执行主体还可以将所选取的视频帧对之间的相似度的均值，确定为与该视频片段相邻的两个视频片段之间的相似度。其中，上述视频帧对包括的两个视频帧可以分别属于目标视频片段相邻的两个视频片段，且上述视频帧对包括的两个视频帧各自与目标视频片段之间的视频帧的数量相等。

步骤204，对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

在本实施例中，上述执行主体可以对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，在确定该相似度大于预设的第一相似度阈值的情况下，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。其中，上述第一相似度阈值可以是预先设置的相似度数值，作为示例，当相似度通过0-1之间的数值表征时，该第一相似度阈值可以是0.8至0.9之间的数值。

需要说明的是，上述第一相似度阈值、第二相似度阈值可以是分别预先设置的相似度数值，上述各个相似度阈值(包括第一相似度阈值、第二相似度阈值)可以相等，也可以不等。上述第一、第二仅用作区分相似度阈值，并不构成对本申请的特殊限定。此外，相似度通常可以表征视频帧之间的相似程度，可以理解，基于相同的构思，可以将上述计算相似度的方案转换为计算不相似度的方案，因此，无论计算相似度还是计算不相似度的方案均应属于本申请所要求保护的技术方案范围之内。

可以理解，对视频片段集合中的视频片段，进行合并处理后得到的最终的视频片段集合可以包括镜头和镜头边界，由此，实现了将待分割视频分割为镜头和镜头边界，提高了视频分割的准确性和鲁棒性，丰富了视频分割的方式。

继续参见图5，图5是根据本实施例的用于分割视频的方法的应用场景的一个示意图。在图5的应用场景中，服务器501首先获取到了待分割视频5011。之后，服务器501对待分割视频5011进行视频镜头分割，得到初始的视频片段集合5012。其中，视频片段集合5012包括视频片段1-10。随后，服务器501从视频片段集合5012中选取至少一个视频片段。在这里服务器501选取了视频片段2和视频片段9。然后，服务器501针对视频片段2和视频片段9中的每个视频片段，确定与该视频片段相邻的两个视频片段之间的相似度。例如，针对视频片段2，服务器501确定视频片段1和视频片段3之间的相似度，针对视频片段9，服务器501确定视频片段8和视频片段10之间的相似度。接着，服务器501对视频片段集合5012中的每个视频片段，进行如下合并处理：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值(例如0.8)，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。由此得到了最终的视频片段集合5013。其中，视频片段集合5013包括视频片段1-8，其中，最终的视频片段集合5013包括的视频片段8是对初始的视频片段集合5012包括的视频片段8-10进行合并得到的。

本申请的上述实施例提供的方法，通过首先对待分割视频进行视频镜头分割，然后对分割后的待分割视频的视频片段进行合并，从而提高了视频镜头分割的准确性和鲁棒性，丰富了视频分割的方式，有助于提高视频分割的效率。

进一步参考图6，其示出了用于分割视频的方法的又一个实施例的流程600。该用于分割视频的方法的流程600，包括以下步骤：

步骤601，获取待分割视频。

在本实施例中，步骤601与图2对应实施例中的步骤201基本一致，这里不再赘述。

步骤602，对待分割视频进行视频镜头分割，得到初始的视频片段集合。

在本实施例中，步骤602与图2对应实施例中的步骤202基本一致，这里不再赘述。

步骤603，对于位置信息集合中的位置信息，响应于确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度大于预先确定的不相似度阈值，从位置信息集合中删除该位置信息。

在本实施例中，对于位置信息集合中的位置信息，在确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度大于预先确定的不相似度阈值的情况下，用于分割视频的方法的执行主体(例如图1所示的服务器或终端设备)可以从位置信息集合中删除该位置信息。

其中，上述位置信息集合中的位置信息可以是初始的视频片段集合中的两个相邻的视频片段之间的位置的位置信息。可以理解，对待分割视频在位置信息集合中的各个位置信息指示的各个位置进行分割，可以得到初始的视频片段集合。

步骤604，从删除后的位置信息集合中，提取属于目标类别的位置信息。

在本实施例中，上述执行主体可以从删除后的位置信息集合中，提取属于目标类别的位置信息。

上述突变条件可以包括以下至少一项：该视频帧的小差值大于等于第一预定数值(例如0.1，0.015等)，该视频帧的小差值与该视频帧的大差值的商大于等于第二预定数值(例如，0.80，0.075等)，该视频帧的小差值小于等于第三预定数值。

步骤605，从所提取的位置信息中，确定符合第二预设条件的位置信息对。

在本实施例中，其中，位置信息对可以由两个视频帧的位置的位置信息组成。

作为示例，将位置信息对包括的两个位置信息分别指示的位置对应的两个不相似度中较大的相似度确定为该位置信息对的大相似度，较小的相似度确定为该位置信息对的小相似度，将所提取的各个位置信息指示的位置对应的各个不相似度中最小的相似度确定为该位置信息对的最小相似度，将该位置信息对的小相似度与该位置信息对的答相似度的和确定为该位置信息对的相似度和。基于此，上述第二预设条件可以包括以下四项(即如下第一项、第二项、第三项、第四项均满足，则第二预设条件满足)：

步骤606，从视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段。

在本实施例中，上述执行主体可以从视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段。

步骤607，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度。

在本实施例中，步骤607与图2对应实施例中的步骤203中的针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度，基本一致，这里不再赘述。

步骤608，对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

在本实施例中，步骤608与图2对应实施例中的步骤204基本一致，这里不再赘述。

从图6中可以看出，与图2对应的实施例相比，本实施例中的用于分割视频的方法的流程600突出了从视频片段集合中选取至少一个视频片段的具体步骤。由此，本实施例描述的方案可以通过更多方式，从视频片段集合中选取视频片段，从而进一步丰富了视频分割的方式，进一步提高了视频分割的准确性和效率。

下面请参考图7，其示出了用于分割视频的方法的再一个实施例的流程700。该用于分割视频的方法的流程700，包括以下步骤：

步骤701，获取待分割视频。

在本实施例中，步骤701与图2对应实施例中的步骤201基本一致，这里不再赘述。

步骤702，对于待分割视频包括的至少一个相邻视频帧对中的相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度。

在本实施例中，对于待分割视频包括的至少一个相邻视频帧对中的相邻视频帧对，用于分割视频的方法的执行主体(例如图1所示的服务器或终端设备)可以基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度。

在这里，上述待分割视频可以看作一段视频序列(video sequence)V＝{I_i│i＝1,…,N}(其中，V表征视频序列，I_i可以标识视频图像，N表征视频序列所包括的视频图像的数量)。由此，可以根据视频场景的变化将其切分为长度不一的多个镜头(shots)S＝{S_t│t＝1,…,T}(其中，S可以表征镜头，S_t可以用于标识视频帧图像，T可以用来表征镜头包括的视频帧图像的数量)。每个镜头可以是一段内容连续的视频场景，由连续时间的视频帧图像组成，可以用一个二元组S_t＝(ss_t,se_t)来表示，S_t可以用于标识视频帧图像，ss_t可以表示镜头的起始视频帧索引，se_t可以表示结束视频帧索引。

镜头之间的边界(shot boundary)可以分为突变(abrupt change)和渐变(gradual change)两种。突变的镜头边界不包含视频图像。所有的镜头边界的集合可以表示为B＝{B_k│k＝1,…,K}，B可以表征镜头边界的集合，B_k可以表示镜头边界，k可以用于标识镜头边界，K可以表征镜头边界的集合中镜头边界的数量。其中，镜头边界可以用三元组表示，例如，可以表示为B_k＝(bs_k，be_k，bt_k)。bs_k可以表示镜头边界的起始视频帧索引，be_k可以表示镜头边界的结束视频帧索引，bt_k可以表示镜头边界的边界类型，其中bt_k＝1可以表示突变类型，bt_k＝2可以表示渐变类型。镜头边界包含的视频帧索引的区间为[bs_k,be_k]，由于镜头突变边界不包含任何视频图像，所以其bs_k＝be_k+1。

具体地，上述执行主体可以按照以下步骤，来执行步骤702：

首先，计算视频图像的特征向量(颜色直方图)。

颜色直方图可以使用RGB(red、green、blue)和Lab(色彩模型)两个颜色空间共六个颜色分量，每个颜色分量量化为32个BIN(BINary，二进制)，这样颜色直方图特征向量为192维，所有视频图像V＝{Ii│i＝1,…,N}的颜色直方图集合为H＝{H_i│i＝1,…,N}。其中，H表征颜色直方图集合，H_i可以用于标识颜色直方图,H_i表征Ii对应的颜色直方图。

然后，计算相邻视频帧之间的特征不相似性。

使用图像的颜色直方图集合H计算连续视频帧之间的不相似性集合D＝{d_i|i＝1，…，N}。其中，D表征连续视频帧之间的不相似性集合，d_i表征连续视频帧之间的不相似性，i可以用于标识不相似性，N可以用于征连续视频帧之间的不相似性集合包括的不相似性的数量。其中，不相似性的计算方法有很多种，例如，基于归一化相关的方法

和基于直方图交叉核的方法

上述方法都有较好的效果。

在这里，需要说明的是，由于只计算相邻视频帧之间的不相似性，所以上述计算公式中i-i′＝N_cons,其中N_cons是一个可设置参数，取值范围可以为1至3，取值越大，整体的平均不相似性越大，一般取值为2就能取得较好的效果。

步骤703，基于所确定的不相似度，确定待分割视频的视频帧变化位置，得到表征所确定的视频帧变化位置的位置信息集合。

在本实施例中，上述执行主体可以基于所确定的不相似度，确定待分割视频的视频帧变化位置，得到表征所确定的视频帧变化位置的位置信息集合。

步骤704，对于待分割视频包括的视频帧，响应于确定该视频帧符合预先确定的第一预设条件，将表征该视频帧在待分割视频所处的位置的位置信息添加到位置信息集合。

在本实施例中，上述执行主体可以对于待分割视频包括的视频帧，响应于确定该视频帧符合预先确定的第一预设条件，将表征该视频帧在待分割视频所处的位置的位置信息添加到位置信息集合。

其中，上述第一预设条件可以是技术人员预先设置的条件。例如，第一预设条件可以是与上述视频帧变化位置(添加之前的位置信息集合)中的位置信息指示的位置处的视频帧的相似度大于预设阈值的视频帧。

步骤705，在添加后得到的位置信息集合中的位置信息指示的位置，对待分割视频进行分割，以进行部分视频镜头分割，得到初始的视频片段集合。

在本实施例中，上述执行主体可以在添加后得到的位置信息集合中的位置信息指示的位置，对待分割视频进行分割，以进行部分视频镜头分割，得到初始的视频片段集合。

可以理解，在添加后得到的位置信息集合中的位置信息指示的位置，对待分割视频进行分割，以进行部分视频镜头分割，即可以得到步骤705所描述的初始的视频片段集合。

步骤706，对于位置信息集合中的位置信息，响应于确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度小于预先确定的不相似度阈值，从位置信息集合中删除该位置信息。

在本实施例中，上述执行主体可以对于位置信息集合中的位置信息，响应于确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度小于预先确定的不相似度阈值，从位置信息集合中删除该位置信息。

可以理解，上述步骤706可以一定程度上从位置信息集合中剔除误检的位置信息，上述误检的位置信息指示的位置处的视频帧对应的不相似度小于不相似度阈值，可以表明该位置处的视频帧属于镜头边界的可能性较小。由此，有助于提高确定镜头边界的位置的准确性，有助于提高视频分割的准确性。

具体地，对于上述视频连续帧之间的不相似性集合D＝{d_i|i＝1，…，N}中的数值从小到大排序，得到排序的集合SD＝{sd_i|i＝1，…，N}。其中，SD表征对于上述视频连续帧之间的不相似性集合进行排序后得到的集合。sd_i表征排序后集合中的元素(即不相似性值)。i可以用于标识排序后集合中的元素。N可以表征排序后集合中的元素的数量。然后，取排序集合的80％的分位点的不相似性值sd_i作为阈值th_simi_global，如果时域变化点cp_c的相邻帧不相似性值d_i小于th_simi_global，则此时域变化点cp_c被滤除。通过此方法可以将绝大部分误检的时域变化点滤除。

步骤707，从删除后的位置信息集合中，提取属于目标类别的位置信息。

具体地，上述执行主体可以按照如下步骤来执行该步骤707：

将时域变化点cp_o的相邻帧不相似性值记为d_i，其前一帧和后一帧的相邻帧不相似性值分别记为d_i-1和d_i+1，计算d_p＝d_i-d_i-1,d_n＝d_i-d_i+1,d_min＝min(d_p，d_n),d_max＝max(d_p，d_n)，如果条件(例如d_min≥0.1，并且，

并且max(d_p，d_n)≤0.1)满足，则此时域变化点为突变点，否则为渐变点。

对于突变点，可以立即使用它形成突变的镜头边界B_k＝(cp_c，cp_c-1，1)；对于渐变点，在下一个步骤对其进行处理形成渐变的镜头边界。

需要说明的是，上述渐变点可以属于渐变类，即上述目标类别。此步骤可以将时域变化点区分为两类:突变点(即非目标类别)和渐变点(即目标类别)。

步骤708，从所提取的位置信息中，确定符合第二预设条件的位置信息对。

在本实施例中，上述执行主体可以从所提取的位置信息中，确定符合第二预设条件的位置信息对。

其中，位置信息对可以由两个视频帧的位置的位置信息组成。

作为示例，将位置信息对包括的两个位置信息分别指示的位置对应的两个不相似度中较大的相似度确定为该位置信息对的大相似度，较小的相似度确定为该位置信息对的小相似度，将所提取的各个位置信息指示的位置对应的各个不相似度中最小的相似度确定为该位置信息对的最小相似度，将该位置信息对的小相似度与该位置信息对的答相似度的和确定为该位置信息对的相似度和。基于此，上述第二预设条件可以包括如下各项：

渐变镜头边界具有一定的宽度，一般包含了多个渐变点，首先需要将相邻的满足一定条件的渐变点合并为一组，然后由这一组渐变点的时间顺序上的第一个和最后一个点获得渐变镜头边界的起始和结束位置。

如果相邻渐变点cp_c和cp_c+1(渐变点cp_c的下一渐变点)满足以下条件之一，则将它们合并为一组：

条件一：cp_c+1-cp_c≤2。

条件二：设渐变点的不相似度值

和

计算d_min＝min(d_s，d_e)，d_max＝max(d_s，d_e)，d_c＝min{d_i|i＝cp_c，...，cp_c+1}，如果满足条件(例如，

cp_c+1-c_pc≤5，并且，

并且，

)，则合并渐变点cp_c和cp_c+1。

对于合并为一组的渐变点，设其时间顺序上的第一个渐变点是cp_s，最后一个渐变点是cp_c，如果组内的渐变点数目至少为2个，则用这一组渐变点形成渐变的镜头边界B_k＝(cp_s，cp_e-1，2)，如果组内只有一个渐变点则不形成镜头边界。

至此，将突变镜头边界和渐变镜头边界按照时间顺序排序，得到镜头边界集合B＝{B_k|k＝1，…，K}，B_k＝(bs_k，be_k，bt_k)。

步骤709，从视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段，针对至少一个视频片段中的视频片段，从与该目标视频片段相邻的两个视频片段分别选取预定数量个视频帧。

在本实施例中，上述执行主体可以从视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段，针对至少一个视频片段中的视频片段，从与该目标视频片段相邻的两个视频片段分别选取预定数量个视频帧。其中，上述预定数量可以是预先确定的数量值(例如，1、2、3、4等)。与该目标视频片段相邻的两个视频片段可以是在该目标视频片段之前并且与该目标视频片段相邻的视频片段，以及在该目标视频片段之后并且与该目标视频片段相邻的视频片段。

具体地，上述执行主体可以选择镜头边界两端分属两个视频镜头的图像。对镜头边界B_k＝(bs_k，be_k，bt_k)，在其左侧的视频镜头临近边界处选择N_b(表征上述预定数量)张图像LI_k＝{I_i|i＝bs_k-N_b，...，bs_k-1}，同样在其右侧的视频镜头临近边界处选择N_b张图像RI_k＝{I_i|i＝be_k+1，...，be_k+N_b}，N_b是一个可设置参数，取值范围1至4，例如，取值可以为2。LI_k可以用于表征左侧的N_b张图像，I_i可以用于表征N_b张图像中的一张图像。RI_k可以用于表征右侧的N_b张图像。

步骤710，针对所选取的、该目标视频片段之前的预定数量个视频帧中的视频帧，确定该视频帧与所选取的、该目标视频片段之后的预定数量个视频帧中的视频帧之间的相似度。

在本实施例中，上述执行主体可以针对所选取的、该目标视频片段之前的预定数量个视频帧中的每个视频帧，确定该视频帧与所选取的、该目标视频片段之后的预定数量个视频帧中的每个视频帧之间的相似度。

由于深度学习的分类模型具有很强的图像分类能力，它的嵌入特征向量(featureembedding)对不同场景和内容的图像具有较强的语义区分能力，因此可以使用基于深度学习的分类模型(如使用ImageNet数据集训练的VGG,Inception,ResNet等卷积网络模型)计算上述选择的图像的嵌入特征向量,特征向量的维数可以为1024。对于左侧镜头的图像集合Li_k，其特征向量集合可以表示为LX_k＝{LX_k，j|j＝1，...，N_b}，同样对于右侧镜头的图像集合RI_k，其特征向量集合可以表示为RX_k＝{RX_k，j|j＝1，...，N_b}。其中，LI_k表征左侧镜头的图像集合，LX_k，_j可以用于表征左侧镜头的图像集合中的每个图像，j可以用于标识左侧镜头的图像集合中的图像，N_b可以用于表征左侧镜头的图像集合中的图像的数量。RI_k可以用于表征右侧镜头的图像集合中的每个图像。

步骤711，将所确定的相似度中数值最大的相似度，确定为与该视频片段相邻的两个视频片段之间的相似度。

在本实施例中，上述执行主体可以将所确定的相似度中数值最大的相似度，确定为与该视频片段相邻的两个视频片段之间的相似度。

具体地，上述执行主体可以使用上述特征向量计算左侧镜头和右侧镜头两两图像对之间的余弦相似性

得到图像对的相似性集合并取集合的最大值simi_shot＝max{simi_j1，j2|j1＝1，…，Nb；j2＝1，…，Nb作为边界左右两侧的镜头的相似性(即与该视频片段相邻的两个视频片段之间的相似度)。其中，simi_j1，j2表征左侧镜头和右侧镜头两图像对(即左侧镜头的图像LX_k，j1和右侧镜头的图像RX_k，j2)之间的余弦相似性。

表征计算左侧镜头的图像LX_k，j1和右侧镜头的图像RX_k，j2之间的余弦相似性。

步骤712，对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

在本实施例中，步骤712与图2对应实施例中的步骤204基本一致，这里不再赘述。

可以理解，对于突变镜头边界，如果其左右两侧的镜头相似性simi_shot大于阈值th_simi_a,则可以判定此镜头边界为误检；对于渐变镜头边界，如果其左右两侧的镜头相似性simi_shot大于阈值th_simi_g,则可以判定此镜头边界为误检。删除判定为误检的镜头边界即可合并被它切分的两个镜头。其中阈值th_simi_a和th_simi_g的取值范围可以为0.8至0.9。

在一些使用情况下，上述执行主体还可以通过如下步骤从镜头边界集合B＝{B_k|k＝1，…，K}获得视频镜头集合S＝{S_t|t＝1，…，T}。其中，B表征镜头边界集合，B_k表征镜头边界集合中的每个镜头边界，k可以用于标识镜头边界，K可以用于表征镜头边界集合中的镜头边界的数量。S可以用于表征视频镜头集合，S_t可以用于表征视频镜头集合中的每个视频镜头，t可以用于标识视频镜头，T可以用于表征视频镜头集合中的视频镜头的数量。

首先，将视频的开始位置和结束位置作为突变的镜头边界添加到集合中，即B＝B∪{B_s，B_e}，其中B_s＝(0，-1，1),B_e＝(N，N-1，1)，N是视频中图像的数目。其中，等号左侧的B表征添加后得到的集合，等号右边的B表征添加前的集合。B_s表征视频的开始位置的视频图像，B_e表征视频的结束位置的视频图像。

然后，将相邻镜头边界B_k＝(bs_k，be_k，bt_k)和B_k+1＝(bs_k+1，be_k+1，bt_k+1))之间的连续视频图像作为镜头，即镜头S_k＝(be_k+1，bs_k+1-1)，从而获得镜头集合S＝{S_k|k＝1，…，K-1},改变下标等价表示为S＝{S_t|t＝1，…，T}。

由此，可以得到视频镜头集合。

需要说明的是，对于图7对应的实施例中所包括的各个步骤，除上面所记载的特征和效果之外，该实施例还可以包括与图2或图4所示的方法实施例相同或相应的特征和效果，在此不再赘述。

还需要说明的是，除特别说明之外，上述表达式中相同的符号可以用于表征相同的含义。

从图7中可以看出，与图2对应的实施例相比，本实施例中的用于分割视频的方法的流程700突出了对待分割视频进行视频镜头分割的具体步骤。由此，本实施例描述的方案可以通过更多镜头分割方式，从而进一步丰富了视频分割的方式，进一步提高了视频分割的方式。此外，本实施例中的用于分割视频的方法的流程700还突出了从视频片段集合中选取至少一个视频片段的具体步骤。由此，本实施例描述的方案可以通过更多方式，从视频片段集合中选取视频片段，从而进一步丰富了视频分割的方式，进一步提高了视频分割的准确性和效率。

进一步参考图8，作为对上述各图所示方法的实现，本申请提供了一种用于分割视频的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与图2所示的方法实施例相同或相应的特征。该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的用于分割视频的装置800包括：获取单元801被配置成获取待分割视频；分割单元802被配置成对待分割视频进行视频镜头分割，得到初始的视频片段集合；确定单元803被配置成从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；合并单元804被配置成对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

在本实施例中，用于分割视频的装置800的获取单元801可以通过有线连接方式或者无线连接方式从其他电子设备获取待分割视频。其中，上述待分割视频可以是待对其进行分割的视频。

在本实施例中，上述分割单元802可以对获取单元801得到的待分割视频进行视频镜头分割，得到初始的视频片段集合。其中，视频镜头分割又称镜头变化检测，其目的是得到视频中的镜头。其中，镜头是由视频中的相邻视频帧组成的，镜头是组成视频的基本单位。作为示例，镜头可以是视频中的一个场景对应的连续视频帧。

在本实施例中，上述确定单元803可以从分割单元802得到的初始的视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度。

在本实施例中，上述合并单元804可以对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对确定单元803所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。其中，上述第一相似度阈值可以是预先设置的相似度数值，作为示例，当相似度通过0-1之间的数值表征时，该第一相似度阈值可以是0.8至0.9之间的数值。

在本实施例的一些可选的实现方式中，分割单元802可以包括：分割子单元(图中未示出)被配置成对待分割视频进行部分视频镜头分割。其中，部分视频镜头分割得到的初始的视频片段集合中的视频片段包括表征部分镜头的视频片段。

在本实施例的一些可选的实现方式中，分割子单元可以包括：确定模块(图中未示出)被配置成对于待分割视频包括的至少一个相邻视频帧对中的相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度。以及分割模块(图中未示出)被配置成基于所确定的不相似度，对待分割视频进行部分视频镜头分割。

上述视频帧变化位置可以是符合预先设置的条件的、上述待分割视频包括的视频帧的位置。上述视频帧变化位置也可以是按照预先确定的方法得到的。

在本实施例的一些可选的实现方式中，分割模块包括：确定子模块(图中未示出)被配置成基于所确定的不相似度，确定待分割视频的视频帧变化位置，得到表征所确定的视频帧变化位置的位置信息集合。添加子模块(图中未示出)被配置成对于待分割视频包括的视频帧，响应于确定该视频帧符合预先确定的第一预设条件，将表征该视频帧在待分割视频所处的位置的位置信息添加到位置信息集合。分割子模块(图中未示出)被配置成在添加后得到的位置信息集合中的位置信息指示的位置，对待分割视频进行分割，以进行部分视频镜头分割。

在本实施例的一些可选的实现方式中，确定单元803可以包括：删除子单元(图中未示出)被配置成对于位置信息集合中的位置信息，响应于确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度小于预先确定的不相似度阈值，从位置信息集合中删除该位置信息；提取子单元(图中未示出)被配置成从删除后的位置信息集合中，提取属于目标类别的位置信息；第一确定子单元(图中未示出)被配置成从所提取的位置信息中，确定符合第二预设条件的位置信息对；第一选取子单元(图中未示出)被配置成从视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段。

在本实施例的一些可选的实现方式中，确定单元803可以包括：第二选取子单元(图中未示出)被配置成从与该目标视频片段相邻的两个视频片段分别选取预定数量个视频帧。第二确定子单元(图中未示出)被配置成基于所选取的视频帧之间的相似度，确定与该视频片段相邻的两个视频片段之间的相似度。

其中，上述预定数量可以是预先确定的数量值(例如，1、2、3、4等)。与该目标视频片段相邻的两个视频片段可以是在该目标视频片段之前并且与该目标视频片段相邻的视频片段，以及在该目标视频片段之后并且与该目标视频片段相邻的视频片段。

在本实施例的一些可选的实现方式中，第二确定子单元可以包括：第一确定模块(图中未示出)被配置成针对所选取的、该目标视频片段之前的预定数量个视频帧中的视频帧，确定该视频帧与所选取的、该目标视频片段之后的预定数量个视频帧中的视频帧之间的相似度。第二确定模块(图中未示出)被配置成将所确定的相似度中数值最大的相似度，确定为与该视频片段相邻的两个视频片段之间的相似度。

本申请的上述实施例提供的装置，通过获取单元801获取待分割视频，之后，分割单元802对待分割视频进行视频镜头分割，得到初始的视频片段集合，然后，确定单元803从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度，最后，合并单元804对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。由此，通过首先对待分割视频进行视频镜头分割，然后对分割后的待分割视频的视频片段进行合并，从而提高了视频镜头分割的准确性和鲁棒性，丰富了视频分割的方式，有助于提高视频分割的效率。

下面参考图9，其示出了适于用来实现本申请实施例的控制设备的计算机系统900的结构示意图。图9示出的控制设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向目标的程序设计语言—诸如Python、Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元、分割单元、确定单元和合并单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，获取单元还可以被描述为“获取待分割视频的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待分割视频；对待分割视频进行视频镜头分割，得到初始的视频片段集合；从视频片段集合中选取至少一个视频片段，针对至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；对视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于分割视频的方法，包括：

获取待分割视频；

对所述待分割视频进行视频镜头分割，得到初始的视频片段集合，包括：根据所述待分割视频中视频帧的变化位置分割所述待分割视频，其中，所述变化位置包括与相邻的视频帧之间的不相似度大于筛选阈值的视频帧的位置，所述筛选阈值包括相邻的视频帧之间的不相似度中的最大不相似度与预定数值的乘积；

从所述视频片段集合中选取至少一个视频片段，针对所述至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；对所述视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

2.根据权利要求1所述的方法，其中，所述对所述待分割视频进行视频镜头分割，包括：

对所述待分割视频进行部分视频镜头分割，其中，所述部分视频镜头分割得到的初始的视频片段集合中的视频片段包括表征部分镜头的视频片段。

3.根据权利要求2所述的方法，其中，所述对所述待分割视频进行部分视频镜头分割，包括：

对于所述待分割视频包括的至少一个相邻视频帧对中的相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度；

基于所确定的不相似度，对所述待分割视频进行部分视频镜头分割。

4.根据权利要求3所述的方法，其中，所述基于所确定的不相似度，对所述待分割视频进行部分视频镜头分割，包括：

基于所确定的不相似度，确定所述待分割视频的视频帧变化位置，得到表征所确定的视频帧变化位置的位置信息集合；

对于所述待分割视频包括的视频帧，响应于确定该视频帧符合预先确定的第一预设条件，将表征该视频帧在所述待分割视频所处的位置的位置信息添加到所述位置信息集合；

在添加后得到的位置信息集合中的位置信息指示的位置，对所述待分割视频进行分割，以进行部分视频镜头分割。

5.根据权利要求4所述的方法，其中，所述从所述视频片段集合中选取至少一个视频片段，包括：

对于所述位置信息集合中的位置信息，响应于确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度小于预先确定的不相似度阈值，从所述位置信息集合中删除该位置信息；

从删除后的位置信息集合中，提取属于目标类别的位置信息；

从所提取的位置信息中，确定符合第二预设条件的位置信息对；

从所述视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段。

6.根据权利要求1-5之一所述的方法，其中，所述确定与该视频片段相邻的两个视频片段之间的相似度，包括：

从与目标视频片段相邻的两个视频片段分别选取预定数量个视频帧；

基于所选取的视频帧之间的相似度，确定与该视频片段相邻的两个视频片段之间的相似度。

7.根据权利要求6所述的方法，其中，所述基于所选取的视频帧之间的相似度，确定与该视频片段相邻的两个视频片段之间的相似度，包括：

针对所选取的、该目标视频片段之前的所述预定数量个视频帧中的视频帧，确定该视频帧与所选取的、该目标视频片段之后的所述预定数量个视频帧中的视频帧之间的相似度；

将所确定的相似度中数值最大的相似度，确定为与该视频片段相邻的两个视频片段之间的相似度。

8.一种用于分割视频的装置，包括：

获取单元，被配置成获取待分割视频；

分割单元，被配置成对所述待分割视频进行视频镜头分割，得到初始的视频片段集合，包括：根据所述待分割视频中视频帧的变化位置分割所述待分割视频，其中，所述变化位置包括与相邻的视频帧之间的不相似度大于筛选阈值的视频帧的位置，所述筛选阈值包括相邻的视频帧之间的不相似度中的最大不相似度与预定数值的乘积；

确定单元，被配置成从所述视频片段集合中选取至少一个视频片段，针对所述至少一个视频片段中的视频片段，确定与该视频片段相邻的两个视频片段之间的相似度；

合并单元，被配置成对所述视频片段集合中的视频片段，进行如下合并处理，以得到最终的视频片段集合：针对所确定的相似度中的相似度，响应于确定该相似度大于预设的第一相似度阈值，将该相似度对应的两个视频片段以及该相似度对应的两个视频片段之间的视频片段进行合并。

9.根据权利要求8所述的装置，其中，所述分割单元包括：

分割子单元，被配置成对所述待分割视频进行部分视频镜头分割，其中，所述部分视频镜头分割得到的初始的视频片段集合中的视频片段包括表征部分镜头的视频片段。

10.根据权利要求9所述的装置，其中，所述分割子单元包括：

确定模块，被配置成对于所述待分割视频包括的至少一个相邻视频帧对中的相邻视频帧对，基于该相邻视频帧对包括的两个相邻的视频帧的两个特征向量，确定该相邻视频帧对包括的两个相邻的视频帧的不相似度；

分割模块，被配置成基于所确定的不相似度，对所述待分割视频进行部分视频镜头分割。

11.根据权利要求10所述的装置，其中，所述分割模块包括：

确定子模块，被配置成基于所确定的不相似度，确定所述待分割视频的视频帧变化位置，得到表征所确定的视频帧变化位置的位置信息集合；

添加子模块，被配置成对于所述待分割视频包括的视频帧，响应于确定该视频帧符合预先确定的第一预设条件，将表征该视频帧在所述待分割视频所处的位置的位置信息添加到所述位置信息集合；

分割子模块，被配置成在添加后得到的位置信息集合中的位置信息指示的位置，对所述待分割视频进行分割，以进行部分视频镜头分割。

12.根据权利要求11所述的装置，其中，所述确定单元包括：

删除子单元，被配置成对于所述位置信息集合中的位置信息，响应于确定与位于该位置信息指示的位置的视频帧相邻的两视频帧之间的不相似度小于预先确定的不相似度阈值，从所述位置信息集合中删除该位置信息；

提取子单元，被配置成从删除后的位置信息集合中，提取属于目标类别的位置信息；

第一确定子单元，被配置成从所提取的位置信息中，确定符合第二预设条件的位置信息对；

第一选取子单元，被配置成从所述视频片段集合中，选取所确定的位置信息对指示的两个位置之间的视频片段。

13.根据权利要求8-12之一所述的装置，其中，所述确定单元包括：

第二选取子单元，被配置成从与目标视频片段相邻的两个视频片段分别选取预定数量个视频帧；

第二确定子单元，被配置成基于所选取的视频帧之间的相似度，确定与该视频片段相邻的两个视频片段之间的相似度。

14.根据权利要求13所述的装置，其中，所述第二确定子单元包括：

第一确定模块，被配置成针对所选取的、该目标视频片段之前的所述预定数量个视频帧中的视频帧，确定该视频帧与所选取的、该目标视频片段之后的所述预定数量个视频帧中的视频帧之间的相似度；

第二确定模块，被配置成将所确定的相似度中数值最大的相似度，确定为与该视频片段相邻的两个视频片段之间的相似度。

15.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

16.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。