CN110619284B

CN110619284B - 一种视频场景划分方法、装置、设备及介质

Info

Publication number: CN110619284B
Application number: CN201910804662.7A
Authority: CN
Inventors: 胡东方
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-28
Filing date: 2019-08-28
Publication date: 2023-09-05
Anticipated expiration: 2039-08-28
Also published as: CN110619284A

Abstract

本申请公开了一种视频场景划分方法、装置、设备及介质，应用于视频处理技术领域，用以提高视频场景划分的精确度和效率。具体为：对视频进行镜头切分，得到镜头集合；将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到各个场景检测单位；分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果；根据各个场景检测单位各自对应的聚类结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头；根据各个合并镜头和镜头集合中的各个未合并镜头，得到各个视频场景。这样，通过镜头切分、聚类和合并即可实现对视频场景的划分，操作相对简单，场景划分的效率和准确度较高，而且，通用性较强。

Description

一种视频场景划分方法、装置、设备及介质

技术领域

本申请涉及视频处理技术领域，尤其涉及一种视频场景划分方法、装置、设备及介质。

背景技术

近年来，随着网络技术和多媒体技术的不断发展，视频网站已经快速融入到人们的日常生活，随之而来的是大量视频在互联网中涌现，视频可以说是信息量最为丰富的重要媒介。

一般而言，根据视频内容粒度由粗到细的顺序，视频可以划分为场景、镜头和图像三个层次，其中，场景作为有相对完整的故事情节的视频片段，是分析与理解视频的关键，进而视频场景的划分逐渐成为视频处理技术领域较为热门的研究方向。

然而，由于视频内容的多样性和复杂性，目前还没有一种通用且有效的视频场景划分方法，如何提高视频场景划分的精确度和效率是视频处理技术领域需要解决的一个问题。

发明内容

本申请实施例提供了一种视频场景划分方法、装置、设备及介质，用以提高视频场景划分的精确度和效率。

本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种视频场景划分方法，包括：

对视频进行镜头切分，得到视频对应的镜头集合；

将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位；

分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，其中，场景检测单位对应的聚类结果表征场景检测单位中的两个镜头是否属于同一个场景；

根据各个场景检测单位各自对应的聚类结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头；

根据各个合并镜头和镜头集合中的各个未合并镜头，得到视频对应的各个视频场景。

在一种可能的实施方式中，分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，包括：

针对每一个场景检测单位，获取场景检测单位中的两个镜头各自对应的目标图像序列，分别对两个镜头各自对应的目标图像序列进行图像特征提取，得到两个镜头各自对应的图像特征数据，基于两个镜头各自对应的图像特征数据，利用图像聚类模型，获得场景检测单位对应的图像聚类结果；

和/或；

针对每一个场景检测单位，获取场景检测单位中的两个镜头各自对应的目标语音信号，分别将两个镜头各自对应的目标语音信号转化为文本向量，基于两个镜头各自对应的文本向量，并利用文本聚类模型，获得场景检测单位对应的文本聚类结果；

分别将各个场景检测单位各自对应的图像聚类结果和/或文本聚类结果，确定为各个场景检测单位各自对应的聚类结果。

在一种可能的实施方式中，获取场景检测单位中的两个镜头各自对应的目标图像序列，包括：

获取场景检测单位中前一个镜头对应的所有图像，并将所有图像组成的图像序列确定为前一个镜头对应的目标图像序列；获取场景检测单位中后一个镜头对应的所有图像，并将所有图像组成的图像序列确定为后一个镜头对应的目标图像序列；

或者；

获取场景检测单位中前一个镜头对应的所有图像中的后N帧图像，并将后 N帧图像组成的图像序列确定为前一个镜头对应的目标图像序列；获取场景检测单位中后一个镜头对应的所有图像中的前M帧图像，并将前M帧图像组成的图像序列确定为后一个镜头对应的目标图像序列，其中，N、M为大于1的正整数。

在一种可能的实施方式中，获取场景检测单位中的两个镜头各自对应的目标语音信号，包括：

获取场景检测单位中前一个镜头对应的所有语音信号，并将所有语音信号确定为前一个镜头对应的目标语音信号；获取场景检测单位中后一个镜头对应的所有语音信号，并将所有语音信号确定为后一个镜头对应的目标语音信号；

或者；

获取场景检测单位中前一个镜头的后N帧图像对应的语音信号，并将后N 帧图像对应的语音信号确定为前一个镜头对应的目标语音信号；获取场景检测单位中后一个镜头的前M帧图像对应的语音信号，并将前M帧图像对应的语音信号确定为后一个镜头对应的目标语音信号，其中，N、M为大于1的正整数。

在一种可能的实施方式中，根据各个场景检测单位各自对应的聚类结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头，包括：

根据各个场景检测单位各自对应的聚类结果，从各个场景检测单位中，筛选出各个目标场景检测单位，其中，目标场景检测单位是包含的两个镜头属于同一个场景的场景检测单位；

将相邻的各个目标场景检测单位整合至同一个镜头合并单位，将不相邻的各个目标场景检测单位分别作为一个镜头合并单位；

分别对各个镜头合并单位中的镜头进行合并，得到各个合并镜头。

在一种可能的实施方式中，将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位之后，还包括：

针对每一个场景检测单位，获取场景检测单位中的两个镜头各自对应的目标语音信号，分别将两个镜头各自对应的目标语音信号转化为文本信息，并根据两个镜头各自对应的文本信息，获得两个镜头各自对应的关键词集合，根据两个镜头各自对应的关键词集合的重合度，检测场景检测单位中的两个镜头是否属于同一个场景；

根据各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到视频对应的各个视频场景。

获取为视频配置的各个场景检测方式，并从各个场景检测方式中选取至少一个场景检测方式；

基于至少一个场景检测方式，分别对各个场景检测单位中的两个镜头是否属于同一个场景进行检测，得到各个场景检测单位各自对应的检测结果；

另一方面，本申请实施例提供了一种视频场景划分装置，包括：

视频切分单元，用于对视频进行镜头切分，得到视频对应的镜头集合；

镜头划分单元，用于将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位；

聚类处理单元，用于分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，其中，场景检测单位对应的聚类结果表征场景检测单位中的两个镜头是否归属于同一个场景；

镜头合并单元，用于根据各个场景检测单位各自对应的聚类结果，对镜头集合中归属于同一个场景的各个镜头进行合并，得到各个合并镜头；

场景获取单元，用于根据各个合并镜头和镜头集合中的各个未合并镜头，得到视频对应的各个视频场景。

在一种可能的实施方式中，在分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果时，聚类处理单元用于：

和/或；

在一种可能的实施方式中，在获取场景检测单位中的两个镜头各自对应的目标图像序列时，聚类处理单元用于：

或者；

在一种可能的实施方式中，在获取场景检测单位中的两个镜头各自对应的目标语音信号时，聚类处理单元用于：

或者；

在一种可能的实施方式中，在根据各个场景检测单位各自对应的聚类结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头时，镜头合并单元用于：

在一种可能的实施方式中，本申请实施例提供的视频场景划分装置还包括第一检测单元，其中：

第一检测单元，用于在镜头划分单元将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位之后，针对每一个场景检测单位，获取场景检测单位中的两个镜头各自对应的目标语音信号，分别将两个镜头各自对应的目标语音信号转化为文本信息，并根据两个镜头各自对应的文本信息，获得两个镜头各自对应的关键词集合，根据两个镜头各自对应的关键词集合的重合度，检测场景检测单位中的两个镜头是否属于同一个场景；

场景获取单元，用于根据第一检测单元获得的各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到视频对应的各个视频场景。

在一种可能的实施方式中，本申请实施例提供的视频场景划分装置还包括第二检测单元，其中：

第二检测单元，用于在镜头划分单元将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位之后，获取为视频配置的各个场景检测方式，并从各个场景检测方式中选取至少一个场景检测方式，以及基于至少一个场景检测方式，分别对各个场景检测单位中的两个镜头是否属于同一个场景进行检测，得到各个场景检测单位各自对应的检测结果；

场景获取单元，用于根据第二检测单元获得的各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到视频对应的各个视频场景。

另一方面，本申请实施例提供了一种视频场景划分设备，包括：存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现本申请实施例提供的视频场景划分方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的视频场景划分方法。

本申请实施例的有益效果如下：

本申请实施例中，通过对视频进行镜头切分获得镜头集合，并以镜头集合中每相邻的两个镜头为一个场景检测单位进行聚类，可以快速地确定出镜头集合中属于同一个场景的各个镜头，通过将镜头集合中属于同一个场景的各个镜头进行合并，即可根据各个合并镜头和镜头集合中的各个未合并镜头，获得该视频对应的各个视频场景，从而提高了视频场景划分的效率和准确度，而且，通过镜头切分、聚类和合并等操作即可实现对视频场景的划分，操作相对简单，通用性较强，此外，通过对划分出的各个视频场景进行重组，还可以形成新的视频片段，实用性较强。

附图说明

图1为本申请实施例中视频的层次划分示意图；

图2为本申请实施例中视频场景划分系统的系统架构示意图；

图3为本申请实施例中视频镜头切分方法的流程示意图；

图4为本申请实施例中一种视频场景划分方法的流程示意图；

图5为本申请实施例中另一种视频场景划分方法的流程示意图；

图6为本申请实施例中另一种视频场景划分方法的流程示意图；

图7为本申请实施例中视频场景划分方法的具体流程示意图；

图8为本申请实施例中视频场景划分模型建立的流程示意图；

图9为本申请实施例中视频场景划分装置的功能结构示意图；

图10为本申请实施例中视频场景划分设备的硬件结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本申请，首先对本申请中提及的技术用语进行说明。

1、视频，为有声的连环画，是视听序列的集合，包括图像集和音频集两部分。本申请中，参阅图1所示，视频可划分为图像、镜头和场景三个层次，其中：

图像，为视频的基本组成单元；

镜头，为摄像机的单操作产生的图像序列；

场景，为语义上相关、时间上相邻的一组镜头，能够表达相对完整的故事情节或事件等。

本申请中，视频的类型包括但不限于：体育视频，新闻联播视频、影视视频、短视频等。

2、图像聚类模型，为根据两个镜头各自对应的图像特征数据，对两个镜头是否属于同一个场景进行检测的深度学习模型。

3、文本聚类模型，为根据两个镜头各自对应的文本向量，对两个镜头是否属于同一个场景进行检测的深度学习模型。

4、镜头边界预测模型，为根据视频片段对应的图像序列，对视频片段的镜头类型进行检测的深度学习模型。

5、客户端，本申请中，为可以安装在手机、计算机、个人数字助理(PersonalDigital Assistant，PDA)等终端设备上，能够从视频中划分出多个视频场景的一种应用程序。

6、服务器，为根据客户端发起的请求，为客户端提供数据库服务、计算服务等各类服务的后台运行设备。

需要说明的是，本申请中提及的“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，本申请中提及的“和/或”，描述的是关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A 和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或” 的关系。

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，并不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参阅图2所示，本申请实施例提供了一种视频场景划分系统，该视频场景划分系统200可以包括终端设备201、安装在终端设备201上的客户端202和服务器203，客户端202可以利用终端设备201并通过互联网与服务器203进行通信连接。实际应用中，用户可以使用终端设备201向客户端202发起视频场景划分请求，客户端202接收到视频场景划分请求时，可以对用户请求的视频进行场景划分，得到该视频的各个视频场景后，将该视频的各个视频场景显示给用户。当然，客户端202接收到视频场景划分请求时，还可以将视频场景划分请求转发至服务器；服务器203接收到视频场景划分请求时，可以对用户请求的视频进行场景划分，得到该视频的各个视频场景后，将该视频的各个视频场景返回至客户端202；客户端202接收到服务器203返回的该视频的各个视频场景后，将该视频的各个视频场景显示给用户。

应当理解，图2中的终端设备、通信网络和服务器的数目仅仅是示意性的，根据实际需求可以具有任意数目的终端设备、通信网络和服务器。当用于运行视频场景划分方法的视频场景划分设备不需要与其他设备进行数据传输时，该视频场景划分系统可以仅包括用于运行视频场景划分方法的视频场景划分设备，例如，该视频场景划分系统可以仅包括终端设备或服务器。

实际应用中，客户端202或服务器203在对用户请求的视频进行场景划分时，可以采用本申请实施例提供的视频场景划分方法进行场景划分，即对视频进行镜头切分，得到该视频对应的镜头集合，并将该镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到各个场景检测单位；分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，其中，场景检测单位对应的聚类结果表征该场景检测单位中的两个镜头是否属于同一个场景；根据各个场景检测单位各自对应的聚类结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头；根据各个合并镜头和镜头集合中的各个未合并镜头，得到该视频对应的各个视频场景。这样，通过镜头切分、聚类和合并等操作即可实现对视频场景的划分，操作相对简单，通用性较强，而且，视频场景的划分效率和准确度较高，此外，通过对划分出的各个视频场景进行重组，还可以形成新的视频片段，实用性较强。

在介绍了本申请实施例的应用场景和设计思想之后，下面对本申请实施例提供的技术方案进行说明。

首先，对本申请中提及的镜头切分进行说明，本申请实施例提供了一种视频镜头切分方法，实际应用中，该视频镜头切分方法可以由终端设备执行，也可以由服务器执行。具体的，参阅图3所示，本申请实施例提供的视频镜头切分方法的流程如下：

步骤301：按照时间顺序，将视频划分为各个视频片段。

例如：假设视频共有160帧图像，则可以将该视频划分为10个视频片段，一个视频片段具有16帧图像。

步骤302：通过镜头边界预测模型，获取各个视频片段各自对应的镜头类型，其中，镜头类型为第一镜头类型或者第二镜头类型，第一镜头类型表征具有变化的镜头，第二镜头类型表征不具有变化的镜头。

步骤303：针对镜头类型为第一镜头类型的各个视频片段，获取该视频片段的图像方差。

具体的，在获取视频片段的图像方差时，可以采用但不限于以下方式：

首先，从视频片段中获取第一图像、第二图像和第三图像，并获取第一图像对应的第一色彩模型、第二图像对应的第二色彩模型和第三图像对应的第三色彩模型，其中，第一图像为第二图像相邻的前一帧图像，第二图像为第三图像相邻的前一帧图像；第一色彩模型包括第一色调参数、第一饱和度参数和第一明度参数，第二色彩模型包括第二色调参数、第二饱和度参数和第二明度参数，第三色彩模型包括第三色调参数、第三饱和度参数和第三明度参数。

然后，根据第一色调参数和第二色调参数获得第一色调差值，根据第一饱和度参数和第二饱和度参数获得第一饱和度差值，根据第一明度参数和第二明度参数获得第一明度差值，并根据第一色调差值、第一饱和度差值和第一明度差值，获得第一平均差值。

其次，根据第二色调参数和第三色调参数获得第二色调差值，根据第二饱和度参数和第三饱和度参数获得第二饱和度差值，根据第二明度参数和第三明度参数获得第二明度差值，并根据第二色调差值、第二饱和度差值和第二明度差值，获得第二平均差值。

最后，根据第一平均差值和第二平均差值，获得该视频片段的图像方差。

例如：假设视频对应的10个视频片段中有3个视频片段的镜头类型为第一镜头类型，则可以针对该3个视频片段分别执行以下操作：

首先，从该视频片段中获取三帧图像，即第一红绿蓝(Red Green Blue， RGB)图像、第二RGB图像和第三RGB图像，并分别将该三帧图像转换为色彩模型(Hue SaturationValue，HSV)，其中，HSV中颜色的参数分别是色调、饱和度和明度。参阅表1所示，为该视频片段中的三帧图像各自对应的色彩模型一个示意。

表1.

	色调(H)通道	饱和度(S)通道	明度(V)通道
				第一图像	200	250	180
第二图像	100	230	170
				第三图像	50	140	120

由表1可见，第一图像的第一色调参数为200、第一饱和度参数为250、第一明度参数为180；第二图像的第二色调参数为100、第二饱和度参数为230、第二明度参数为170；第三图像的第三色调参数为50、第三饱和度参数为140、第三明度参数为120。

然后，根据第一色调参数和第二色调参数，获得第一色调差值，即 200-100＝100；根据第一饱和度参数和第二饱和度参数，获得第一饱和度差值，即250-230＝20；根据第一明度参数和第二明度参数，获得第一明度差值，即 180-170＝10；根据第一色调差值、第一饱和度差值和第一明度差值，获得第一平均差值，即(100+20+10)/3＝43.33。

其次，根据第二色调参数和第三色调参数，获得第二色调差值，即 100-50＝50；根据第二饱和度参数和第三饱和度参数，获得第二饱和度差值，即230-140＝90；根据第二明度参数和第三明度参数获得第二明度差值，即 170-120＝50；根据第二色调差值、第二饱和度差值和第二明度差值，获得第二平均差值，即(50+90+50)/3＝63.33。

最后，根据第一平均差值和第二平均差值，获得均值，即(43.33+63.33) /2＝53.33，并根据均值、第一平均差值和第二平均差值，获得该视频片段的图像方差，即S²＝[(43.33-53.33)²+(63.33-53.33)²]/2＝100。

步骤304：针对镜头类型为第一镜头类型的各个视频片段，根据该视频片段的图像方差，获取该视频的镜头边界信息，其中，镜头边界信息包括镜头变化位置，镜头变化位置可以是镜头突变情况下的变化切点，也可以是镜头渐变情况下的变化区域。

具体的，在根据视频片段的图像方差，获取该视频的镜头边界信息时，可以采用但不限于以下方式：

若该视频片段的图像方差大于或等于第一阈值，则确定该视频片段的镜头变化类型为镜头突变，此种情况下，若第一平均差值大于第二平均差值，则确定该视频片段的镜头变化位置为第一图像与第二图像之间，若第二平均差值大于第一平均差值，则确定该视频片段的镜头变化位置为第二图像与第三图像之间；

若该视频片段的图像方差小于第一阈值，则确定该视频片段的镜头变化类型为镜头渐变，此种情况下，若第一平均差值大于第二阈值，则确定镜头变化位置包括第一图像和第二图像，若第二平均差值大于第二阈值，则确定镜头变化位置包括第二图像和第三图像，若第一平均差值与第二平均差值均大于第二阈值，则确定镜头变化位置包括第一图像、第二图像和第三图像。

步骤305：根据镜头类型为第一镜头类型的各个视频片段的镜头边界信息，将该视频划分为多个镜头，得到该视频对应的镜头集合。

本申请实施例提供的上述视频镜头切分方法中，先利用镜头边界预测模型，对各个视频片段作初步的镜头类型检测，对于有镜头变化的各个视频片段，再根据图像方差进一步检测属于镜头突变还是镜头渐变，并根据不同的镜头检测结果，采用不同的边界获取方式，获取有镜头变化的各个视频片段各自对应的镜头变化位置，从而根据有镜头变化的各个视频片段的镜头变化位置，可以将视频划分为多个镜头，这种基于镜头边界预测模型和图像方差的两层边界检测方式，能够精确地检测出各个镜头变化位置，而且，镜头变化位置的漏检率较低，从而提高了镜头切分的精确度，因此，本申请实施例提供的上述视频镜头切分方法可以作为一个较佳的实施例，实际应用中，本申请并不限于采用该视频镜头切分方法，还可以采用其他镜头切分方法，例如，对视频内容的变化进行分析，获得图像强度的变化情况，并根据图像强度的变化情况，获得各个镜头变化位置，以及根据各个镜头变化位置，对视频进行镜头切分。

在介绍了本申请实施例提供的视频镜头切分方法之后，接下来，对本申请实施例提供的视频场景划分方法进行说明，实际应用中，本申请实施例提供的视频场景划分方法可以由终端设备执行，也可以由服务器执行，本申请不作具体限定。

参阅图4所示，本申请实施例提供了一种视频场景划分方法，该视频场景划分方法的流程如下：

步骤401：对视频进行镜头切分，得到视频对应的镜头集合。

实际应用中，在对视频进行镜头切分时，可以采用本申请实施例提供的上述视频镜头切分方法进行镜头切分，重复之处不再赘述。

步骤402：将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位。

例如：假设对视频进行镜头切分获得的镜头集合中包含5个镜头，则可以将每相邻的两个镜头划分为一个场景检测单位，获得4个场景检测单位，即(镜头1，镜头2)、(镜头2，镜头3)、(镜头3，镜头4)和(镜头4，镜头5)。

步骤403：分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，其中，场景检测单位对应的聚类结果表征场景检测单位中的两个镜头是否属于同一个场景。

本申请实施例中，在对各个场景检测单位中的两个镜头进行聚类时，可以采用但不限于以下三种聚类方式：

第一种聚类方式：图像聚类。

在具体实施时，针对每一个场景检测单位，可以获取该场景检测单位中的两个镜头各自对应的目标图像序列，并分别对该两个镜头各自对应的目标图像序列进行图像特征提取，得到该两个镜头各自对应的图像特征数据，以及基于该两个镜头各自对应的图像特征数据，通过图像聚类模型，获得该场景检测单位对应的图像聚类结果，并将该场景检测单位对应的图像聚类结果确定为该场景检测单位对应的聚类结果。

实际应用中，在获取该场景检测单位中的两个镜头各自对应的目标图像序列时，可以采用但不限于以下两种获取方式：

(1)获取该场景检测单位中前一个镜头对应的所有图像，并将所有图像组成的图像序列确定为该前一个镜头对应的目标图像序列，以及，获取该场景检测单位中后一个镜头对应的所有图像，并将所有图像组成的图像序列确定为该后一个镜头对应的目标图像序列。

(2)获取该场景检测单位中前一个镜头对应的所有图像中的后N帧图像，并将后N帧图像组成的图像序列确定为该前一个镜头对应的目标图像序列，以及，获取该场景检测单位中后一个镜头对应的所有图像中的前M帧图像，并将前M帧图像组成的图像序列确定为该后一个镜头对应的目标图像序列，其中，N、M为大于1的正整数。

例如：假设场景检测单位为(镜头1，镜头2)，其中，镜头1包含10帧图像，镜头2包含15帧图像，则可以将镜头1包含的10帧图像确定为镜头1 的目标图像序列1，将镜头2包含的15帧图像确定为镜头2的目标图像序列2，并从目标图像序列1中提取镜头1的图像特征数据1，从目标图像序列2中提取镜头2的图像特征数据2，以及将图像特征数据1和图像特征数据2输入图像聚类模型，获得镜头1和镜头2是否属于同一个场景的图像聚类结果。

又如：假设场景检测单位为(镜头1，镜头2)，其中，镜头1包含10帧图像，镜头2包含15帧图像，则可以从镜头1包含的10帧图像中选取后5帧图像作为镜头1的目标图像序列1，从镜头2包含的15帧图像中选取前5帧图像作为镜头2的目标图像序列2，并从目标图像序列1中提取镜头1的图像特征数据1，从目标图像序列2中提取镜头2的图像特征数据2，以及将图像特征数据1和图像特征数据2输入图像聚类模型，获得镜头1和镜头2是否属于同一个场景的图像聚类结果。

第二种聚类方式：文本聚类。

在具体实施时，针对每一个场景检测单位，获取该场景检测单位中的两个镜头各自对应的目标语音信号，并分别将该两个镜头各自对应的目标语音信号转化为文本向量，基于该两个镜头各自对应的文本向量，并利用文本聚类模型，获得该场景检测单位对应的文本聚类结果，并将该场景检测单位对应的文本聚类结果确定为该场景检测单位对应的聚类结果。

实际应用中，在获取该场景检测单位中的两个镜头各自对应的目标语音信号时，可以采用但不限于以下两种获取方式：

(1)获取该场景检测单位中前一个镜头对应的所有语音信号，并将所有语音信号确定为该前一个镜头对应的目标语音信号，以及，获取该场景检测单位中后一个镜头对应的所有语音信号，并将所有语音信号确定为该后一个镜头对应的目标语音信号。

(2)获取该场景检测单位中前一个镜头的后N帧图像对应的语音信号，并将后N帧图像对应的语音信号确定为该前一个镜头对应的目标语音信号，以及，获取该场景检测单位中后一个镜头的前M帧图像对应的语音信号，并将前M帧图像对应的语音信号确定为该后一个镜头对应的目标语音信号，其中， N、M为大于1的正整数。

例如：假设场景检测单位为(镜头1，镜头2)，则可以将镜头1对应的所有语音信号确定为镜头1的目标语音信号1，将镜头2对应的所有语音信号确定为镜头2的目标语音信号2，并将目标语音信号1转化为文本向量1，将目标语音信号2转化为文本向量2，以及将文本向量1和文本向量2输入文本聚类模型，获得镜头1和镜头2是否属于同一个场景的图像聚类结果。

又如：假设场景检测单位为(镜头1，镜头2)，其中，镜头1包含10帧图像，镜头2包含15帧图像，则可以将镜头1包含的10帧图像中后5帧图像对应的语音信号确定为镜头1的目标语音信号1，将镜头2包含的15帧图像中前5帧图像对应的语音信号确定为镜头2的目标语音信号2，并将目标语音信号1转化为文本向量1，将目标语音信号2转化为文本向量2，以及将文本向量1和文本向量2输入文本聚类模型，获得镜头1和镜头2是否属于同一个场景的图像聚类结果。

第三种聚类方式：图像聚类结合文本聚类。

在具体实施时，针对每一个场景检测单位，获取该场景检测单位对应的图像聚类结果和文本聚类结果，并将该场景检测单位对应的图像聚类结果和文本聚类结果确定为该场景检测单位对应的聚类结果。其中，图像聚类结果的获取方式可参见上述第一种聚类方式，文本聚类结果的获取方式可参见上述第二种聚类方式，重复之处不再赘述。

步骤404：根据各个场景检测单位各自对应的聚类结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头。

本申请实施例中，在对镜头集合中属于同一个场景的各个镜头进行合并时，可以采用但不限于以下方式：

首先，根据各个场景检测单位各自对应的聚类结果，从各个场景检测单位中，筛选出各个目标场景检测单位，其中，目标场景检测单位是包含的两个镜头属于同一个场景的场景检测单位。

具体的，若聚类结果为图像聚类结果，则针对每一个场景检测单位，若该场景检测单位的图像聚类结果表征该场景检测单位包含的两个镜头属于同一个场景，则将该场景检测单位确定为目标场景检测单位，若该场景检测单位的图像聚类结果表征该场景检测单位包含的两个镜头不属于同一个场景，则将该场景检测单位确定为非目标场景检测单位；

若聚类结果为文本聚类结果，则针对每一个场景检测单位，若该场景检测单位的文本聚类结果表征该场景检测单位包含的两个镜头属于同一个场景，则将该场景检测单位确定为目标场景检测单位，若该场景检测单位的文本聚类结果表征该场景检测单位包含的两个镜头不属于同一个场景，则将该场景检测单位确定为非目标场景检测单位；

若聚类结果为图像聚类结果和文本聚类结果，则针对每一个场景检测单位，若该场景检测单位的图像聚类结果和文本聚类结果中的至少一个表征该场景检测单位包含的两个镜头属于同一个场景，则将该场景检测单位确定为目标场景检测单位，若该场景检测单位的图像聚类结果和文本聚类结果均表征该场景检测单位包含的两个镜头不属于同一个场景，则将该场景检测单位确定为非目标场景检测单位。

然后，将相邻的各个目标场景检测单位整合至同一个镜头合并单位，将不相邻的各个目标场景检测单位分别作为一个镜头合并单位。

最后，分别对各个镜头合并单位中的镜头进行合并，得到各个合并镜头。

例如：参阅表2所示，为镜头集合对应的场景检测单位(镜头1，镜头2)、 (镜头2，镜头3)、(镜头3，镜头4)和(镜头4，镜头5)各自的聚类结果的一个示意，其中，1表征属于同一个场景，0表征不属于同一个场景。

表2.

由表2可见，场景检测单位(镜头1，镜头2)的图像聚类结果表征镜头1 和镜头2属于同一个场景、文本聚类结果表征镜头1和镜头2不属于同一个场景；场景检测单位(镜头2，镜头3)的图像聚类结果表征镜头2和镜头3不属于同一个场景、文本聚类结果表征镜头2和镜头3属于同一个场景；场景检测单位(镜头3，镜头4)的图像聚类结果表征镜头3和镜头4不属于同一个场景、文本聚类结果表征镜头3和镜头4不属于同一个场景；场景检测单位(镜头4，镜头5)的图像聚类结果表征镜头4和镜头5属于同一个场景、文本聚类结果表征镜头4和镜头5属于同一个场景。

首先，根据4个场景检测单位各自对应的图像聚类结果和文本聚类结果，可以筛选出场景检测单位(镜头1，镜头2)、场景检测单位(镜头2，镜头3) 和场景检测单位(镜头4，镜头5)为目标场景检测单位。

然后，将相邻的目标场景检测单位(镜头1，镜头2)和目标场景检测单位(镜头2，镜头3)整合至同一个镜头合并单位(镜头1，镜头2，镜头3)，将不相邻的目标场景检测单位(镜头4，镜头5)确定为一个镜头合并单位(镜头4，镜头5)。

最后，对镜头合并单位(镜头1，镜头2，镜头3)中的镜头进行合并，得到合并镜头1，对镜头合并单位(镜头4，镜头5)中的镜头进行合并，得到合并镜头2。

步骤405：根据各个合并镜头和镜头集合中的各个未合并镜头，得到视频对应的各个视频场景。

例如：假设4个场景检测单位(镜头1，镜头2)、(镜头2，镜头3)、(镜头3，镜头4)和(镜头4，镜头5)中，对场景检测单位(镜头1，镜头2) 和(镜头2，镜头3)进行整合和镜头合并后获得合并镜头1，对场景检测单位 (镜头4，镜头5)进行镜头合并后获得合并镜头2，则可以将合并镜头1和合并镜头2确定为镜头集合中的各个合并镜头，将场景检测单位(镜头3，镜头 4)中的镜头4确定为镜头集合中的各个未合并镜头，以及，将合并镜头1确定为视频场景1，将合并镜头2确定为视频场景2，将镜头3确定为视频场景3，将镜头4确定为视频场景4。

参阅图5所示，本申请实施例还提供了另一种视频场景划分方法，该视频场景划分方法的流程如下：

步骤501：对视频进行镜头切分，得到视频对应的镜头集合。

步骤502：将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位。

步骤503：针对每一个场景检测单位，获取该场景检测单位中的两个镜头各自对应的目标语音信号，分别将该两个镜头各自对应的目标语音信号转化为文本信息，并根据该两个镜头各自对应的文本信息，获得该两个镜头各自对应的关键词集合，根据该两个镜头各自对应的关键词集合的重合度，检测该场景检测单位中的两个镜头是否属于同一个场景。

实际应用中，在获取该场景检测单位中的两个镜头各自对应的目标语音信号时，可以采用但不限于本申请实施例中提及的上述两种获取方式，重复之处不再赘述。

例如：假设场景检测单位为(镜头1，镜头2)，其中，镜头1包含10帧图像，镜头2包含15帧图像，则步骤503可以包括：

首先，将镜头1包含的10帧图像中后5帧图像对应的语音信号确定为镜头1的目标语音信号1，将镜头2包含的15帧图像中前5帧图像对应的语音信号确定为镜头2的目标语音信号2。

然后，将镜头1的目标语音信号1转化为文本信息1，并对文本信息1进行关键词提取，得到镜头1的关键词集合1，以及，将镜头2的目标语音信号 2转化为文本信息2，并对文本信息2进行关键词提取，得到镜头2的关键词集合2。

最后，根据关键词集合1和关键词集合2的重合度，检测场景检测单位(镜头1，镜头2)中的镜头1和镜头2是否属于同一个场景。其中，若检测出重合度不小于设定阈值，则确定场景检测单位(镜头1，镜头2)中的镜头1和镜头2属于同一个场景，若检测出重合度小于设定阈值，则确定场景检测单位 (镜头1，镜头2)中的镜头1和镜头2不属于同一个场景。

步骤504：根据各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头。

步骤505：根据各个合并镜头和镜头集合中的各个未合并镜头，得到视频对应的各个视频场景。

其中，步骤501、步骤502、步骤504和步骤505的具体实现方式与上述描述的具体实现方式类似，重复之处不再赘述。

参阅图6所示，本申请实施例还提供了另一种视频场景划分方法，该视频场景划分方法的流程如下：

步骤601：对视频进行镜头切分，得到视频对应的镜头集合。

步骤602：将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位。

步骤603：获取为该视频配置的各个场景检测方式，并从各个场景检测方式中选取至少一个场景检测方式，并基于至少一个场景检测方式，分别对各个场景检测单位中的两个镜头是否属于同一个场景进行检测，得到各个场景检测单位各自对应的检测结果。

本申请实施例中，视频的各个场景检测方式是根据该视频的特性配置的用于检测该视频对应的各个场景检测单位各自包含的两个镜头是否属于同一个场景。

例如：以资讯视频为例，资讯视频的特性包括但不限于：不同主持人分别对不同事件进行播报；单个事件在播报时的语音是连续的，不同事件在切换播报期间具有一定的时间间隔；在播报每个事件时，该事件的标题名称会在标题位置显示一段时间；握手、事件相关人等场景图像一般在事件开始时显示。基于此，为资讯视频配置的场景检测方式可以包括但不限于以下4种：

第一种场景检测方式：针对每一个场景检测单位，获取该场景检测单位中的两个镜头之间的语音停顿时间，并根据该语音停顿时间和设定时间阈值的关系，确定该场景检测单位中的两个镜头是否属于同一个场景。

具体的，可以通过语音跳变进行语音停顿检测，若检测出语音停顿时间小于第一设定时间阈值，则确定该场景检测单位中的两个镜头属于同一个场景，若检测出语音停顿时间大于第二设定时间阈值，则确定该场景检测单位中的两个镜头不属于同一个场景。

当然，若检测出语音停顿时间在第一设定时间阈值和第二设定时间阈值之间，则可以采用其他方式作进一步检测。

第二种场景检测方式：针对每一个场景检测单位，获取该场景检测单位中的两个镜头各自对应的人物特征信息，并根据两个人物特征信息表征的是否是同一个主持人，确定该场景检测单位中的两个镜头是否属于同一个场景。其中，人物特征信息可以是但不限于是：图像信息、语音信息等。

具体的，可以通过二分类模型进行人物分类检测，若检测出两个人物特征信息表征的是同一个主持人，则确定该场景检测单位中的两个镜头属于同一个场景，若检测出两个人物特征信息表征的不是同一个主持人，则确定该场景检测单位中的两个镜头不属于同一个场景。

当然，为了提高视频场景划分的准确性，若检测出两个人物特征信息表征的是同一个主持人，则还可以采用其他方式作进一步检测。

第三种场景检测方式：针对每一个场景检测单位，根据该场景检测单位中的两个镜头的标题位置是否有标题名称，确定该场景检测单位中的两个镜头是否属于同一个场景。

具体的，可以通过光学字符识别(Optical Character Recognition，OCR)检测标题位置是否有标题名称，若检测出该场景检测单位中的前一个镜头的标题位置有标题名称，或者该场景检测单位中的两个镜头的标题位置均有标题名称，则确定该场景检测单位中的两个镜头属于同一个场景，若检测出该场景检测单位中的两个镜头的标题位置均没有标题名称，则确定该场景检测单位中的两个镜头不属于同一个场景。

当然，为了提高视频场景划分的准确性，若检测出该场景检测单位中的两个镜头的标题位置均没有标题名称，则还可以采用其他方式作进一步检测。

第四种场景检测方式：针对每一个场景检测单位，根据该场景检测单位中的两个镜头是否存在设定场景图像，确定该场景检测单位中的两个镜头是否属于同一个场景，其中，设定场景图像可以是但不限于是：握手图像、事件相关人图像等。

具体的，可以通过图像识别检测标题位置是否存在设定场景图像，若检测出该场景检测单位中的前一个镜头存在设定场景图像，或者该场景检测单位中的两个镜头均存在设定场景图像，则确定该场景检测单位中的两个镜头属于同一个场景，若检测出该场景检测单位中的两个镜头均不存在设定场景图像，则确定该场景检测单位中的两个镜头不属于同一个场景。

当然，为了提高视频场景划分的准确性，若检测出该场景检测单位中的两个镜头均不存在设定场景图像，则还可以采用其他方式作进一步检测。

步骤604：根据各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头。

步骤605：根据各个合并镜头和镜头集合中的各个未合并镜头，得到视频对应的各个视频场景。

其中，步骤601、步骤602、步骤604和步骤605的具体实现方式与上述描述的具体实现方式类似，重复之处不再赘述。

本申请实施例中，为了提高视频场景划分的准确性，还可以将上述三种视频场景划分方法进行结合，通过上述三种视频场景划分方法的结合方案，对视频进行场景划分，下面以“新闻联播”为具体应用场景，对本申请实施例提供的视频场景划分方法作进一步详细说明。

参阅图7所示，本申请实施例提供的视频场景划分方法的具体流程如下：

步骤701：对新闻联播视频进行镜头切分，得到该新闻联播视频对应的镜头集合。

实际应用中，在对新闻联播视频进行镜头切分时，可以采用本申请实施例提供的上述视频镜头切分方法进行镜头切分，重复之处不再赘述。

步骤702：将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到该新闻联播视频对应的各个场景检测单位。

步骤703：分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，其中，场景检测单位对应的聚类结果表征场景检测单位中的两个镜头是否属于同一个场景。

实际应用中，聚类结果的获取方式可参见本申请实施例中提及的第一种聚类方式、第二种聚类方式和第三种聚类方式，重复之处不再赘述。

步骤704：根据各个场景检测单位各自对应的聚类结果，从各个场景检测单位中，筛选出各个目标场景检测单位，其中，目标场景检测单位是包含的两个镜头属于同一个场景的场景检测单位。

步骤705：针对各个场景检测单位中除目标场景检测单位之外的其他每一个场景检测单位，获取该场景检测单位中的两个镜头之间的语音停顿时间T，若语音停顿时间T小于第一设定时间阈值T1，则执行步骤711；若语音停顿时间T大于第二设定时间阈值T2，则执行步骤712；若语音停顿时间T在第一设定时间阈值T1和第二设定时间阈值T2之间，则执行步骤706。

步骤706：获取该场景检测单位中的两个镜头各自对应的人物特征信息，并检测两个人物特征信息表征的是不是同一个主持人，若两个人物特征信息表征的不是同一个主持人，则执行步骤712；若两个人物特征信息表征的是同一个主持人，则执行步骤707。

步骤707：检测该场景检测单位中的两个镜头的标题位置是否有标题名称，若该场景检测单位中的前一个镜头的标题位置有标题名称，或者两个镜头的标题位置均有标题名称，则执行步骤711；若检测出该场景检测单位中的两个镜头的标题位置均没有标题名称，则执行步骤708。

步骤708：检测该场景检测单位中的两个镜头是否存在握手图像，若该场景检测单位中的前一个镜头存在握手图像，或者两个镜头均存在握手图像，则执行步骤711；若检测出该场景检测单位中的两个镜头均不存在握手图像，则执行步骤709。

步骤709：检测该场景检测单位中的两个镜头是否存在事件相关人图像，若该场景检测单位中的前一个镜头存在事件相关人图像，或者两个镜头均存在事件相关人图像，则执行步骤711；若检测出该场景检测单位中的两个镜头均不存在事件相关人图像，则执行步骤710。

步骤710：获取该场景检测单位中的两个镜头各自对应的文本信息，根据该两个镜头各自对应的文本信息，获得该两个镜头各自对应的关键词集合，并检测两个关键词集合之间的重合度是否不小于设定阈值，若是，则执行步骤711；若否，则执行步骤712。

步骤711：确定该场景检测单位中的两个镜头属于同一个场景，并将该场景检测单位确定为目标场景检测单位。

步骤712：确定该场景检测单位中的两个镜头不属于同一个场景。

步骤713：将相邻的各个目标场景检测单位整合至同一个镜头合并单位，将不相邻的各个目标场景检测单位分别作为一个镜头合并单位。

步骤714：分别对各个镜头合并单位中的镜头进行合并，得到各个合并镜头。

其中，基于聚类的场景检测方式、基于语音停顿的场景检测方式、基于人物特征的场景检测方式、基于标题名称的场景检测方式、基于握手图像的场景检测方式、基于事件相关人图像的场景检测方式和基于关键词的场景检测方式等各个场景检测方式的使用顺序，可以根据实际应用场景进行相应调节，本申请不作具体限定，图7为各个场景检测方式的使用顺序的一个示例。

值得说的是，随着人工智能(Artificial Intelligence，AI)技术的进步，AI 技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等。

具体的，AI是利用数字计算机或者数字计算机控制的机器，模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，AI是计算机科学的一个综合技术，企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

AI既有硬件层面的技术，也有软件层面的技术。AI的基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作 /交互系统、机电一体化等技术。AI的软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向，其中：

计算机视觉(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步作图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，逐渐成为未来最被看好的人机交互方式之一。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。

随着AI技术的发展，AI技术在视频处理技术领域也得到了广泛应用，并发挥越来越重要的价值。实际应用中，本申请实施例提供的视频场景划分方法也可以通过AI技术实现，具体通过以下实施例进行说明。

本申请实施例提供了一种视频场景划分模型的建立方法，参阅图8所示，该视频场景划分模型的建立方法的流程如下：

步骤801：采集待训练视频集合，其中，待训练视频集合包括各个待训练视频。

步骤802：通过待训练视频场景划分模型，获取待训练视频集合中各个待训练视频的预测场景划分边界信息，其中，预测场景划分边界信息至少包括待训练视频的各个预测场景切分点。

步骤803：根据各个待训练视频的预测场景划分边界信息和真实场景划分边界信息，采用损失函数对待训练视频场景划分模型进行训练，得到各个模型参数，其中，真实场景划分边界信息为预先对待训练视频的各个真实场景切分点进行标注后得到的。

步骤804：根据各个模型参数，生成视频场景划分模型。

本申请实施例中，视频场景划分模型建立完成后，即可通过视频场景划分模型，对视频进行场景划分，即将视频输入视频场景划分模型，即可获得该视频对应的各个视频场景，操作简单，通用性较强，而且，视频场景的划分效率和准确度较高，此外，通过对划分出的各个视频场景进行重组，还可以形成新的视频片段，实用性较强。

基于上述实施例，本申请实施例提供了一种视频场景划分装置，参阅图9 所示，本申请实施例提供的视频场景划分装置900至少包括：

视频切分单元901，用于对视频进行镜头切分，得到视频对应的镜头集合；

镜头划分单元902，用于将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位；

聚类处理单元903，用于分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果，其中，场景检测单位对应的聚类结果表征场景检测单位中的两个镜头是否归属于同一个场景；

镜头合并单元904，用于根据各个场景检测单位各自对应的聚类结果，对镜头集合中归属于同一个场景的各个镜头进行合并，得到各个合并镜头；

场景获取单元905，用于根据各个合并镜头和镜头集合中的各个未合并镜头，得到视频对应的各个视频场景。

在一种可能的实施方式中，在分别对各个场景检测单位中的两个镜头进行聚类，得到各个场景检测单位各自对应的聚类结果时，聚类处理单元903用于：

和/或；

在一种可能的实施方式中，在获取场景检测单位中的两个镜头各自对应的目标图像序列时，聚类处理单元903用于：

或者；

在一种可能的实施方式中，在获取场景检测单位中的两个镜头各自对应的目标语音信号时，聚类处理单元903用于：

或者；

在一种可能的实施方式中，在根据所述各个场景检测单位各自对应的聚类结果，对所述镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头时，镜头合并单元904用于：

根据所述各个场景检测单位各自对应的聚类结果，从所述各个场景检测单位中，筛选出各个目标场景检测单位，其中，所述目标场景检测单位是包含的两个镜头属于同一个场景的场景检测单位；

在一种可能的实施方式中，本申请实施例提供的视频场景划分装置还包括第一检测单元906，其中：

第一检测单元906，用于在镜头划分单元902将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位之后，针对每一个场景检测单位，获取场景检测单位中的两个镜头各自对应的目标语音信号，分别将两个镜头各自对应的目标语音信号转化为文本信息，并根据两个镜头各自对应的文本信息，获得两个镜头各自对应的关键词集合，根据两个镜头各自对应的关键词集合的重合度，检测场景检测单位中的两个镜头是否属于同一个场景；

场景获取单元905，用于根据第一检测单元906获得的各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到视频对应的各个视频场景。

在一种可能的实施方式中，本申请实施例提供的视频场景划分装置还包括第二检测单元907，其中：

第二检测单元907，用于在镜头划分单元902将镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到镜头集合对应的各个场景检测单位之后，获取为视频配置的各个场景检测方式，并从各个场景检测方式中选取至少一个场景检测方式，以及基于至少一个场景检测方式，分别对各个场景检测单位中的两个镜头是否属于同一个场景进行检测，得到各个场景检测单位各自对应的检测结果；

场景获取单元905，用于根据第二检测单元907获得的各个场景检测单位各自对应的检测结果，对镜头集合中属于同一个场景的各个镜头进行合并，得到视频对应的各个视频场景。

需要说明的是，当本申请实施例提供的视频场景划分方法由服务器执行时，本申请实施例提供的视频场景划分装置900可以设置于服务器中，当本申请实施例提供的视频场景划分方法终端设备执行时，本申请实施例提供的视频场景划分装置900可以设置于终端设备中。

此外，本申请实施例提供的视频场景划分装置900解决技术问题的原理与本申请实施例提供的视频场景划分方法相似，因此，本申请实施例提供的视频场景划分装置900的实施可以参见本申请实施例提供的视频场景划分方法的实施，重复之处不再赘述。

在介绍了本申请实施例提供的视频场景划分系统、方法和装置之后，接下来，对本申请实施例提供的视频场景划分设备进行简单介绍。

本申请实施例提供的视频场景划分设备100可以是终端设备，也可以是服务器，参阅图10所示，本申请实施例提供的视频场景划分设备100至少包括：处理器101、存储器102和存储在存储器102上并可在处理器101上运行的计算机程序，处理器101执行计算机程序时实现本申请实施例提供的视频场景划分方法。

需要说明的是，图10所示的视频场景划分设备100仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供的视频场景划分设备100还可以包括连接不同组件(包括处理器101和存储器102)的总线103。其中，总线103表示几类总线结构中的一种或多种，包括存储器总线、外围总线、局域总线等。

存储器102可以包括易失性存储器形式的可读介质，例如随机存储器 (RandomAccess Memory，RAM)1021和/或高速缓存存储器1022，还可以进一步包括只读存储器(Read Only Memory，ROM)1023。

存储器102还可以包括具有一组(至少一个)程序模块1024的程序工具 1025，程序模块1024包括但不限于：操作子系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

视频场景划分设备100也可以与一个或多个外部设备104(例如键盘、遥控器等)通信，还可以与一个或者多个使得用户能与视频场景划分设备100交互的设备通信(例如手机、电脑等)，和/或，与使得视频场景划分设备100与一个或多个其它视频场景划分设备100进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口105 进行。并且，视频场景划分设备100还可以通过网络适配器106与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork， WAN)和/或公共网络，例如因特网)通信。如图10所示，网络适配器106通过总线103与视频场景划分设备100的其它模块通信。应当理解，尽管图10 中未示出，可以结合视频场景划分设备100使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列 (Redundant Arrays of Independent Disks，RAID)子系统、磁带驱动器以及数据备份存储子系统等。

下面对本申请实施例提供的计算机可读存储介质进行介绍。本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，计算机指令被处理器执行时实现本申请实施例提供的视频场景划分方法。具体地，该可执行程序可以内置或者安装在视频场景划分设备100中，这样，视频场景划分设备100就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的视频场景划分方法。

此外，本申请实施例提供的视频场景划分方法还可以实现为一种程序产品，该程序产品包括程序代码，当该程序产品可以在视频场景划分设备100上运行时，该程序代码用于使视频场景划分设备100执行本申请实施例提供的视频场景划分方法。

本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合，其中，可读介质可以是可读信号介质或者可读存储介质，而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合，具体地，可读存储介质的更具体的例子(非穷举的列表) 包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码，还可以在计算设备上运行。然而，本申请实施例提供的程序产品不限于此，在本申请实施例中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频场景划分方法，其特征在于，包括：

对视频进行镜头切分，得到所述视频对应的镜头集合；

将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到所述镜头集合对应的各个场景检测单位；

针对每一个场景检测单位，获取所述场景检测单位中前一个镜头对应的所有图像中的后N帧图像，并将后N帧图像组成的图像序列确定为所述前一个镜头对应的目标图像序列，以及，获取所述场景检测单位中后一个镜头对应的所有图像中的前M帧图像，并将前M帧图像组成的图像序列确定为所述后一个镜头对应的目标图像序列；分别对所述两个镜头各自对应的目标图像序列进行图像特征提取，得到所述两个镜头各自对应的图像特征数据，基于所述两个镜头各自对应的图像特征数据，利用图像聚类模型，获得所述场景检测单位对应的图像聚类结果，其中，N、M为大于1的正整数，场景检测单位对应的聚类结果表征所述场景检测单位中的两个镜头是否属于同一个场景；

分别将所述各个场景检测单位各自对应的图像聚类结果，确定为所述各个场景检测单位各自对应的聚类结果；

根据所述各个场景检测单位各自对应的聚类结果，对所述镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头；

根据所述各个合并镜头和所述镜头集合中的各个未合并镜头，得到所述视频对应的各个视频场景。

2.如权利要求1所述的视频场景划分方法，其特征在于，分别将所述各个场景检测单位各自对应的图像聚类结果，确定为所述各个场景检测单位各自对应的聚类结果之前，所述方法还包括：

针对每一个场景检测单位，获取所述场景检测单位中的两个镜头各自对应的目标语音信号，分别将所述两个镜头各自对应的目标语音信号转化为文本向量，基于所述两个镜头各自对应的文本向量，并利用文本聚类模型，获得所述场景检测单位对应的文本聚类结果；

分别将所述各个场景检测单位各自对应的文本聚类结果，确定为所述各个场景检测单位各自对应的聚类结果。

3.如权利要求2所述的视频场景划分方法，其特征在于，获取所述场景检测单位中的两个镜头各自对应的目标语音信号，包括：

获取所述场景检测单位中前一个镜头对应的所有语音信号，并将所有语音信号确定为所述前一个镜头对应的目标语音信号，以及，获取所述场景检测单位中后一个镜头对应的所有语音信号，并将所有语音信号确定为所述后一个镜头对应的目标语音信号；或者，

获取所述场景检测单位中前一个镜头的后N帧图像对应的语音信号，并将后N帧图像对应的语音信号确定为所述前一个镜头对应的目标语音信号，以及，获取所述场景检测单位中后一个镜头的前M帧图像对应的语音信号，并将前M帧图像对应的语音信号确定为所述后一个镜头对应的目标语音信号，其中，N、M为大于1的正整数。

4.如权利要求1所述的视频场景划分方法，其特征在于，根据所述各个场景检测单位各自对应的聚类结果，对所述镜头集合中属于同一个场景的各个镜头进行合并，得到各个合并镜头，包括：

分别对各个镜头合并单位中的镜头进行合并，得到所述各个合并镜头。

5.如权利要求1-4任一项所述的视频场景划分方法，其特征在于，将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到所述镜头集合对应的各个场景检测单位之后，还包括：

针对每一个场景检测单位，获取所述场景检测单位中的两个镜头各自对应的目标语音信号，分别将所述两个镜头各自对应的目标语音信号转化为文本信息，并根据所述两个镜头各自对应的文本信息，获得所述两个镜头各自对应的关键词集合，根据所述两个镜头各自对应的关键词集合的重合度，检测所述场景检测单位中的两个镜头是否属于同一个场景；

根据所述各个场景检测单位各自对应的检测结果，对所述镜头集合中属于同一个场景的各个镜头进行合并，得到所述视频对应的各个视频场景。

6.如权利要求1-4任一项所述的视频场景划分方法，其特征在于，将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到所述镜头集合对应的各个场景检测单位之后，还包括：

获取为所述视频配置的各个场景检测方式，并从所述各个场景检测方式中选取至少一个场景检测方式；

基于所述至少一个场景检测方式，分别对所述各个场景检测单位中的两个镜头是否属于同一个场景进行检测，得到所述各个场景检测单位各自对应的检测结果；

7.一种视频场景划分装置，其特征在于，包括：

视频切分单元，用于对视频进行镜头切分，得到所述视频对应的镜头集合；

镜头划分单元，用于将所述镜头集合中每相邻的两个镜头划分为一个场景检测单位，得到所述镜头集合对应的各个场景检测单位；

聚类处理单元，用于针对每一个场景检测单位，获取场景检测单位中前一个镜头对应的所有图像中的后N帧图像，并将后N帧图像组成的图像序列确定为前一个镜头对应的目标图像序列；获取场景检测单位中后一个镜头对应的所有图像中的前M帧图像，并将前M帧图像组成的图像序列确定为后一个镜头对应的目标图像序列，分别对所述两个镜头各自对应的目标图像序列进行图像特征提取，得到所述两个镜头各自对应的图像特征数据，基于所述两个镜头各自对应的图像特征数据，利用图像聚类模型，获得所述场景检测单位对应的图像聚类结果，其中，N、M为大于1的正整数，场景检测单位对应的聚类结果表征所述场景检测单位中的两个镜头是否归属于同一个场景；

镜头合并单元，用于根据所述各个场景检测单位各自对应的聚类结果，对所述镜头集合中归属于同一个场景的各个镜头进行合并，得到各个合并镜头；

场景获取单元，用于根据所述各个合并镜头和所述镜头集合中的各个未合并镜头，得到所述视频对应的各个视频场景。

8.一种视频场景划分设备，其特征在于，包括：存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的视频场景划分方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被处理器执行时实现如权利要求1-6任一项所述的视频场景划分方法。