CN115937742A

CN115937742A - 视频场景分割、视觉任务处理方法、装置、设备以及介质

Info

Publication number: CN115937742A
Application number: CN202211526714.7A
Authority: CN
Inventors: 唐鑫; 王冠皓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-28
Filing date: 2022-11-28
Publication date: 2023-04-07
Anticipated expiration: 2042-11-28
Also published as: CN115937742B

Abstract

本公开提供了一种视频场景分割、视觉任务处理方法、装置、设备以及介质，涉及人工智能技术领域，尤其涉及视频处理、图像处理、计算机视觉和深度学习技术领域。具体实现方案为：对视频进行镜头分割，得到至少一个镜头；确定与至少一个镜头对应的镜头特征，其中，镜头特征包括局部语义特征，局部语义特征表征视频中视频场景之间的局部关联信息；根据与至少一个镜头对应的镜头特征，确定视频的场景分割信息。

Description

视频场景分割、视觉任务处理方法、装置、设备以及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及视频处理、图像处理、计算机视觉和深度学习技术领域。具体地，涉及一种视频场景分割、视觉任务处理方法、装置、设备以及介质。

背景技术

随着计算机技术的发展，人工智能技术也得到了发展。例如，可以利用人工智能技术来实现视频理解。视频场景分割是视频检索的任务之一，为视频理解提供了关键信息。视频场景分割可以指用于确定视频的语义边界的技术。

发明内容

本公开提供了一种视频场景分割、视觉任务处理方法、装置、设备以及介质。

根据本公开的一方面，提供了一种视频场景分割方法，包括：对视频进行镜头分割，得到至少一个镜头；确定与上述至少一个镜头对应的镜头特征，其中，上述镜头特征包括局部语义特征，上述局部语义特征表征上述视频中视频场景之间的局部关联信息；以及，根据与上述至少一个镜头对应的镜头特征，确定上述视频的场景分割信息。

根据本公开的另一方面，提供了一种视觉任务处理方法，包括：确定待处理视频的场景分割信息，其中，上述待处理视频的场景分割信息是利用根据本公开上述的方法确定的；以及，根据上述待处理视频的场景分割信息处理视觉任务。

根据本公开的另一方面，提供了一种视频场景分割装置，包括：获得模块，用于对视频进行镜头分割，得到至少一个镜头；第一确定模块，用于确定与上述至少一个镜头对应的镜头特征，其中，上述镜头特征包括局部语义特征，上述局部语义特征表征上述视频中视频场景之间的局部关联信息；以及，第二确定模块，用于根据与上述至少一个镜头对应的镜头特征，确定上述视频的场景分割信息。

根据本公开的另一方面，提供了一种视觉任务处理装置，包括：第三确定模块，用于确定待处理视频的场景分割信息，其中，上述待处理视频的场景分割信息是利用根据本公开上述的方法确定的；以及，处理模块，用于根据上述待处理视频的场景分割信息处理视觉任务。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开上述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开上述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开上述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用视频场景分割方法、视觉任务处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的视频场景分割方法的流程图；

图3示意性示出了根据本公开实施例的视频场景分割方法的示例示意图；

图4A示意性示出了根据本公开实施例的确定正样本对的示例示意图；

图4B示意性示出了根据本公开实施例的确定负样本对的示例示意图；

图4C示意性示出了根据本公开另一实施例的确定负样本对的示例示意图；

图4D示意性示出了根据本公开实施例的确定正样本对和负样本对的示例示意图；

图5A示意性示出了根据本公开实施例的视频场景分割方法的原理示意图；

图5B示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5C示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5D示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5E示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5F示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5G示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5H示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图5I示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图；

图6示意性示出了根据本公开另一实施例的视觉任务处理方法的流程图；

图7示意性示出了根据本公开实施例的视觉任务处理方法的示例示意图；

图8示意性示出了根据本公开实施例的视频场景分割装置的框图；

图9示意性示出了根据本公开实施例的视觉任务处理装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现视频场景分割方法和视觉任务处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

视频是一种存储动态信息和进行信息通信的媒体形式。按照由粗到细的粒度可以将视频划分为视频片段、视频场景、视频镜头(即镜头)和视频帧。视频可以包括至少一个视频片段。视频片段可以包括至少一个视频场景。视频场景可以包括至少一个镜头。视频场景包括的各个镜头可以具有相似的语义信息。视频场景包括的各个镜头可以配合描述具有语义意义的事件。

视频场景分割可以指用于确定视频的语义边界的技术。视频场景分割还可以称为视频场景边界检测或视频场景识别。此外，可以将对视频进行视频场景分割得到的场景分割信息应用于下游的视觉任务。

为此，本公开实施例提出了一种视频场景分割方案。例如，对视频进行镜头分割，得到至少一个镜头。确定与至少一个镜头对应的镜头特征。镜头特征包括局部语义特征。局部语义特征表征视频中视频场景之间的局部关联信息。根据与至少一个镜头对应的镜头特征，确定视频的场景分割信息。

根据本公开的实施例，由于镜头的镜头特征包括局部语义特征，镜头是对视频进行镜头分割得到的，局部语义特征能够表征视频中视频场景之间的局部关联关系，因此，根据与至少一个镜头对应的镜头特征，确定视频的场景分割信息，提高了视频场景分割的准确性。

图1示意性示出了根据本公开实施例的可以应用视频场景分割方法、视觉任务处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用视频场景分割方法、视觉任务处理方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的视频场景分割方法、视觉任务处理方法及装置。

如图1所示，根据该实施例的系统架构100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型。例如，有线和无线通信链路等中的至少之一。终端设备可以包括第一终端设备101、第二终端设备102和第三终端设备103中的至少之一。

用户可以使用第一终端设备101、第二终端设备102和第三终端设备103中的至少之一通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102和第三终端设备103中的至少之一可以安装有各种通讯客户端应用。例如，知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和社交平台软件等中的至少之一。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备。例如，电子设备可以包括智能手机、平板电脑、膝上型便携计算机和台式计算机等中的至少之一。

服务器105可以是提供各种服务的服务器。例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(Virtual Private Server，虚拟专用服务器)中，存在的管理难度大，业务扩展性弱的缺陷。

需要说明的是，本公开实施例所提供的视频场景分割方法和视觉任务处理方法一般可以由第一终端设备101、第二终端设备102和第三终端设备103中的之一执行。相应地，本公开实施例所提供的视频场景分割装置和视觉任务处理装置也可以设置于第一终端设备101、第二终端设备102和第三终端设备103中的之一。

备选地，本公开实施例所提供的视频场景分割方法和视觉任务处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的视频场景分割装置和视觉任务处理装置一般可以设置于服务器105中。本公开实施例所提供的视频场景分割方法和视觉任务处理方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群执行。相应地，本公开实施例所提供的视频场景分割装置和视觉任务处理装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和服务器105中的至少之一通信的服务器或服务器集群中。

应该理解，图1中的第一终端设备、第二终端设备、第三终端设备网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的第一终端设备、第二终端设备、第三终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的视频场景分割方法的流程图。

如图2所示，该方法200包括操作S210～S230。

在操作S210，对视频进行镜头分割，至少一个镜头。

在操作S220，确定与至少一个镜头对应的镜头特征。

在操作S230，根据与至少一个镜头对应的镜头特征，确定视频的场景分割信息。

根据本公开的实施例，镜头特征可以包括局部语义特征。局部语义特征可以表征视频中视频场景之间的局部关联信息。

根据本公开的实施例，视频可以指按照时间顺序对视频帧进行编码的数据流。视频可以包括以下至少之一：娱乐场景视频、体育场景视频、学习场景视频、生活场景视频和工作场景视频等。例如，娱乐场景视频可以包括以下至少之一：影视剧视频和娱乐节目视频。体育场景视频可以包括以下至少之一：赛事视频和体育节目视频。学习场景视频可以包括以下至少之一：培训视频和教学视频等。

根据本公开的实施例，按照由粗到细的粒度可以将视频划分为视频片段、视频场景、镜头和视频帧。视频可以包括至少一个视频片段。视频片段可以包括至少一个视频场景。视频场景可以包括至少一个镜头。视频场景包括的各个镜头可以具有相似的语义信息。镜头可以指图像采集设备连续拍摄得到的视频帧。同一镜头包括的视频帧具有相似的语义信息。镜头可以指可逻辑片段。具有相似的语义信息的镜头出现在同一实际场景中。备选地，具有相似的语义信息的镜头未出现在同一实际场景中。实际场景可以指事件发生地。例如，对象A与对象B在打电话，对象A位于咖啡店。对象B位于操场。与对象A对应的镜头和与对象B对应的镜头未出现在同一实际场景中，但与对象A对应的镜头和与对象B对应的镜头属于具有相似的语义信息的镜头。与对象A对应的镜头和与对象B对应的镜头属于同一视频场景。此外，针对不同类型的视频，具有不同类型的镜头。例如，影视剧视频可以包括特写镜头和远景镜头等中的至少之一。赛事视频可以包括回放镜头和正常直播镜头等中的至少之一。

根据本公开的实施例，镜头分割可以指用于确定视频中的镜头分割位置的操作。镜头分割位置可以指视频中发生镜头切换的视频帧的位置。通过镜头分割可以确定视频中属于同一镜头的视频帧。镜头分割位置可以用于进行视频剪辑。镜头可以包括至少一个视频帧。可以从镜头包括的至少一个视频帧中确定能够代表镜头的视频帧。例如，可以从镜头包括的至少一个视频帧中确定关键帧。关键帧可以指镜头中具有代表性的视频帧。

根据本公开的实施例，场景分割信息可以用于表征镜头与视频场景切换镜头之间的关系。镜头可以用与镜头对应的关键帧来表征。视频场景切换镜头可以指视频中发生视频场景切换的镜头。场景分割信息可以包括表征镜头是视频场景切换镜头的场景分割信息和表征镜头是非视频场景切换镜头的场景分割信息中的至少之一。非视频场景切换镜头可以指是视频中未发生视频场景切换的镜头。例如，可以用第一预定标识表征镜头是视频场景切换镜头的场景分割信息。用第二预定标识表征镜头是非视频场景切换镜头的场景分割信息。第一预定标识和第二预定标识可以根据实际业务需求进行配置，在此不作限定。例如，第一预定标识可以是“1”。第二预定标识可以是“0”。备选地，第一预定标识可以是“0”。第二预定标识可以是“1”。由于能够根据镜头是视频场景切换镜头还是非视频场景切换镜头，确定场景分割位置，因此，根据场景分割信息，能够确定视频的场景分割位置。可以根据场景分割位置，可以从视频中确定至少一个视频场景。

根据本公开的实施例，此外，由于存在至少一种类别的视频场景，因此，还可以确定视频场景切换镜头的类别。由此，场景分割信息可以被称为场景分类信息。场景分类信息可以包括场景二分类信息和场景多分类信息中的之一。

根据本公开的实施例，场景二分类信息可以包括以下至少之一：第一场景类别和第二场景类别。第一场景类别可以用于表征镜头是视频场景切换镜头的类别。第二场景类别可以表征镜头是非视频场景切换镜头的类别。视频场景切换镜头可以指视频中发生视频场景切换的镜头。非视频场景镜头可以指视频中未发生视频场景切换的镜头。

根据本公开的实施例，场景多分类信息可以包括以下至少之一：第三场景类别和至少一个第四场景类别。第三场景类别可以用于表征视频场景切换镜头是正常视频场景切换镜头的类别。第四场景类别可以用于表征视频场景切换镜头是特殊视频场景切换镜头的类别。在视频是影视剧视频的情况下，与至少一个第四场景类别对应的特殊视频场景切换镜头可以包括以下至少之一：表征片头的视频场景切换镜头、表征片尾的视频场景切换镜头和表征广告的视频场景切换镜头。在视频是赛事视频的情况下，与至少一个第四场景类别对应的特殊视频场景切换镜头可以包括以下至少之一：表征回放的视频场景切换镜头和表征广告的视频场景切换镜头。

根据本公开的实施例，镜头特征可以指用于描述镜头具有的特征信息。特征信息可以包括语义特征。语义特征可以用于表征镜头所表达的语义。语义特征可以包括局部语义特征。局部语义特征可以用于表征视频中的各个视频场景之间的局部关联信息。此外，语义特征还可以包括全局语义特征。全局语义特征的感受野较局部语义特征的感受野大。

根据本公开的实施例，特征信息还可以包括视觉特征。视觉特征可以包括浅层视觉特征和深层视觉特征中的至少之一。浅层视觉特征可以指用于表征视频帧的细粒度视觉特征。细粒度视觉特征可以包括以下至少之一：颜色特征、纹理特征、边缘特征和棱角特征等。深层视觉特征可以用于表征视频帧的粗粒度视觉特征。粗粒度视觉特征可以指抽象视觉特征。抽象视觉特征可以指能够表达语义信息的视觉特征。

根据本公开的实施例，可以获取视频。对视频进行进行镜头分割，得到镜头分割信息。根据镜头分割信息，得到至少一个镜头。镜头分割信息可以用于表征视频帧与镜头切换视频帧之间的关系。镜头切换视频帧可以指视频中发生镜头切换的视频帧。镜头分割信息可以包括表征视频帧是镜头切换视频帧的镜头分割信息和表征视频帧是非镜头切换视频帧的镜头分割信息中的至少之一。非镜头切换视频帧可以指是视频中未发生镜头切换的视频帧。例如，可以用第三预定标识表征视频帧是镜头切换视频帧的镜头分割信息。用第四预定标识表征视频帧是非镜头切换视频帧的镜头分割信息。第三预定标识和第四预定标识可以根据实际业务需求进行配置，在此不作限定。例如，第三预定标识可以是“1”。第四预定标识可以是“0”。备选地，第三预定标识可以是“0”。第四预定标识可以是“1”。

根据本公开的实施例，由于能够根据视频帧是镜头切换视频帧还是非镜头切换视频帧，确定镜头分割位置，因此，根据镜头分割信息，能够确定视频的镜头分割位置。可以根据镜头分割位置，可以从视频中确定至少一个镜头。

根据本公开的实施例，获取视频，可以包括：响应于检测到场景分割指令，从数据源中获取视频。数据源可以包括以下至少之一：本地数据库、云数据库和网络资源。可以调用数据接口。利用数据接口从数据源中获取视频。

根据本公开的实施例，可以对视频包括的至少一个视频帧进行特征提取，得到与至少一个视频帧对应的视频帧特征。对与至少一个镜头对应的视频帧特征进行镜头分割，得到镜头分割信息。例如，可以将视频输入镜头分割模型，得到镜头分割信息。镜头分割模型可以是利用第四样本视频训练第一深度学习模型得到的。第一深度学习模型可以根据实际业务需求进行配置，能够实现特征提取和镜头分割的功能即可，在此不作限定。

例如，第一深度学习模型可以包括至少一个模型结构。模型结构可以包括至少一个模型子结构和各个模型子结构彼此之间的连接关系。模型结构可以是基于模型子结构之间的连接关系，将至少一个模型子结构进行连接得到的结构。模型结构包括的至少一个模型子结构可以是来自至少一个操作层的结构。例如，模型结构可以是基于模型子结构之间的连接关系，将来自至少一个操作层的至少一个模型子结构进行连接得到的结构。例如，至少一个操作层可以包括以下至少之一：输入层、卷积层、隐藏层、转录层、池化层、反池化层、反卷积层、前馈神经网络层、注意力层、残差层、全连接层、批量归一化层、线性嵌入(即Linear Embedding)层和非线性层等。

例如，第一深度学习模型可以包括以下至少之一：基于第一视觉编码器的深度学习模型和基于第一卷积神经网络的深度学习模型等。第一视觉编码器可以包括视觉Transformer(即转换器)的编码器。视觉Transformer可以包括以下至少之一：VisionTransformer和Swin Transformer等。基于第一卷积神经网络的深度学习模型可以包括以下至少之一：基于二维卷积的深度学习模型和基于三维卷积的深度学习模型。基于二维卷积的深度学习模型可以包括以下至少之一：AlexNet、LeNet和VGG(Visual GeometryGroup，视觉几何小组)、D2-Net和R2D2等。基于三维卷积的深度学习模型可以包括C3DNetwork(即3D Convolution Network)等。

根据本公开的实施例，可以对视频包括的至少一个视频帧进行特征提取，得到与至少一个视频帧对应的特征信息，可以包括：基于滑动窗口对视频包括的至少一个视频帧进行特征提取，得到与至少一个视频帧对应的特征信息。可以从视频包括的至少一个视频帧中确定与第t时刻的滑动窗口对应的至少一个视频帧。对与第u时刻的滑动窗口对应的至少一个视频帧进行特征提取，得到与第u时刻的滑动窗口对应的至少一个视频帧对应的特征信息。u可以是大于或等于1且小于或等于T的整数。U可以是大于或等于1的整数。U可以表征时刻的数目。滑动窗口内的视频帧按照时间顺序排序。滑动窗口内的视频帧的数目可以根据业务需求进行配置，在此不作限定。例如，滑动窗口内的视频帧的数目小于或等于预定数目。预定数目可以根据实际业务需求进行配置，在此不作限定。此外，相邻两个滑动窗口之间至少部分不重叠。

例如，视频可以包括V个视频帧。例如，第1视频帧、第2视频帧、......、第v视频帧、......、第V-1视频帧和第V视频帧。V可以是大于或等于1的整数。v可以是大于或等于1且小于或等于V的整数。滑动窗口内的视频帧的数目为5个。

在相邻两个滑动窗口之间部分重叠的情况下。第1时刻的滑动窗口内的视频帧可以为第1视频帧至第5视频帧。第2时刻的滑动窗口内的视频帧可以为第3视频帧至第7视频帧。在相邻两个滑动窗口之间完全不重叠的情况下，第1时刻的滑动窗口内的视频帧可以为第1视频帧至第5视频帧。第2时刻的滑动窗口内的视频帧可以为第6视频帧至第10视频帧。

根据本公开的实施例，在确定至少一个镜头之后，可以确定与至少一个镜头对应的关键帧。镜头可以具有与该镜头对应的至少一个关键帧。例如，可以基于关键帧提取方法确定与至少一个镜头对应的关键帧。关键帧提取方法可以包括以下至少之一：传统关键帧提取方法和基于第二深度学习模型的关键帧提取方法。传统关键帧提取方法可以是基于图像的第一浅层视觉特征来实现关键帧的方法。第一浅层视觉特征可以包括以下至少之一：纹理特征、颜色特征、边缘特征和棱角特征等。第二深度学习模型可以包括以下至少之一：基于第二视觉编码器的深度学习模型和基于第二卷积神经网络的深度学习模型等。第二视觉编码器可以包括视觉Transformer的编码器。视觉Transformer可以包括以下至少之一：Vision Transformer和Swin Transformer等。基于第二卷积神经网络的深度学习模型可以包括以下至少之一：基于二维卷积的深度学习模型和基于三维卷积的深度学习模型。基于二维卷积的深度学习模型可以包括以下至少之一：AlexNet、LeNet和VGG、D2-Net和R2D2等。基于三维卷积的深度学习模型可以包括C3D Network等。

例如，基于传统关键帧提取方法确定与至少一个镜头对应的关键帧，可以包括：确定与至少一个镜头各自对应的第一浅层视觉特征集。对与至少一个镜头各自对应的第一浅层视觉特征集进行聚类，得到与至少一个镜头各自对应的至少一个聚类簇。针对至少一个镜头中的镜头，从与该镜头对应的至少一个聚类簇中确定目标聚类簇。将与目标聚类中心对应的视频帧确定为关键帧。目标聚类中心可以是与目标聚类簇对应的聚类中心。对与至少一个镜头各自对应的第一浅层视觉特征集进行聚类，得到与至少一个镜头各自对应的至少一个聚类簇，可以包括：针对至少一个镜头中的镜头，对与该镜头对应的第一浅层视觉特征集进行聚类，得到与该镜头对应的至少一个聚类簇。第一浅层视觉特征集可以包括与镜头包括的至少一个视频帧各自对应的第一浅层视觉特征。

例如，基于传统关键帧提取方法确定与至少一个镜头对应的关键帧，可以包括：确定与至少一个镜头各自对应的第一浅层视觉特征集。针对至少一个镜头中的镜头，根据与该镜头对应的第一浅层视觉特征集，确定与该镜头包括的至少一个视频帧彼此之间的第四相似度。根据与该镜头包括的至少一个视频帧彼此之间的第四相似度，从与该镜头包括的至少一个视频帧中确定关键帧。

例如，基于第二深度学习模型的关键帧提取方法从至少一个镜头中确定与至少一个镜头各自对应的关键帧，可以包括：确定与至少一个镜头各自对应的第一深层视觉特征集。针对至少一个镜头中的镜头，根据与该镜头对应的第一深层视觉特征集，确定该镜头包括的至少一个视频帧彼此之间的第八相似度。根据与该镜头包括的至少一个视频帧彼此之间的第八相似度，从与该镜头包括的至少一个视频帧中确定关键帧。

根据本公开的实施例，在确定与至少一个镜头对应的镜头特征之后，可以确定与至少一个镜头对应的镜头特征。镜头特征可以包括语义特征。语义特征可以包括局部语义特征。全局语义特征可以包括以下至少之一：全局隐式语义特征和全局显式语义特征。全局隐式语义特征可以用于隐式的表征全局语义特征。全局隐式语义特征可以是根据局部语义特征确定的。全局显式语义特征可以用于显式的表征全局语义特征。全局显式语义特征可以是根据镜头的深层视觉特征确定的。深层视觉特征可以是对镜头进行特征提取得到的。镜头特征还可以包括第二浅层视觉特征。第二浅层视觉特征可以包括以下至少之一：颜色特征、纹理特征、边缘特征和棱角特征等。

根据本公开的实施例，在确定与至少一个镜头对应的镜头特征之后，可以对至少一个镜头各自对应的镜头特征进行场景分割，得到视频的场景分割信息。例如，可以对至少一个镜头各自对应的镜头特征进行场景分割，得到与至少一个镜头各自对应的场景分割信息。根据与至少一个镜头各自对应的场景分割信息，确定视频的场景分割信息。

根据本公开的实施例，对至少一个镜头各自对应的镜头进行场景分割，得到视频的场景分割信息，可以包括：在镜头特征包括局部语义特征的情况下，可以对与至少一个镜头对应的局部语义特征进行场景分割，得到视频的场景分割信息。备选地，在镜头特征包括局部语义特征和全局语义特征的情况下，可以对与至少一个镜头对应的全局语义特征进行场景分割，得到视频的场景分割信息。对与至少一个镜头对应的全局语义特征进行场景分割，得到视频的场景分割信息，可以包括：在全局语义特征包括全局隐式语义特征的情况下，对与至少一个镜头对应的全局隐式语义特征进行场景分割，得到视频的场景分割信息。在全局语义特征包括全局显式语义特征的情况下，对与至少一个镜头对应的全局显式语义特征进行场景分割，得到视频的场景分割信息。在全局语义特征包括全局显式语义特征和全局隐式语义特征的情况下，可以对与至少一个镜头对应的全局显式语义特征和全局隐式语义特征进行融合，得到与至少一个镜头对应的第一融合特征。对与至少一个镜头对应的第一融合特征进行场景分割，得到视频的场景分割信息。

备选地，在镜头特征包括局部语义特征和第二浅层视觉特征的情况下，可以对与至少一个镜头对应的局部语义特征和第二浅层视觉特征进行融合，得到与至少一个镜头对应的第二融合特征。对与至少一个镜头对应的第二融合特征进行场景分割，得到视频的场景分割信息。

备选地，在镜头特征包括局部语义特征、全局语义特征和第二浅层视觉特征的情况下，对与至少一个全局语义特征和第二浅层视觉特征进行融合，得到与至少一个镜头对应的第三融合特征。对与至少一个镜头对应的第三融合特征进行场景分割，得到视频的场景分割信息。

根据本公开的实施例，根据与至少一个镜头对应的镜头特征，确定视频的场景分割信息，可以包括：对至少一个镜头进行划分，得到至少一个镜头集。根据与至少一个镜头集对应的镜头特征集，确定与至少一个镜头集对应的场景分割信息。根据与至少一个镜头集对应的场景分割信息，确定视频的场景分割信息。针对至少一个镜头集中的镜头集，根据与该镜头集对应的镜头特征集，确定与该镜头集包括的至少一个镜头对应的场景分割信息。从与该镜头集包括的至少一个镜头中确定至少一个候选镜头。由此可以得到与至少一个镜头集各自对应的至少一个候选镜头。根据与至少一个镜头集各自包括的至少一个候选镜头各自的场景分割信息，确定视频的场景分割信息。候选镜头可以指在镜头集中位于预定时刻范围内的镜头。预定时刻范围可以根据实际业务需求进行配置，在此不作限定。

下面参考图3，结合具体实施例对图2所示的方法做进一步说明。

图3示意性示出了根据本公开实施例的视频场景分割方法的示例示意图。

场景分割信息可以包括表征镜头是视频场景切换镜头的场景分割信息和表征镜头是非视频场景切换镜头的场景分割信息中的之一。镜头分割信息可以包括表征视频帧是镜头切换视频帧的镜头分割信息和表征视频帧是非镜头切换视频帧的镜头分割信息中的之一。用第一预定标识表征镜头是视频场景切换镜头的场景分割信息。用第二预定标识表征镜头是非视频场景切换镜头的场景分割信息。用第三预定标识表征视频帧是镜头切换视频帧的镜头分割信息。第四预定标识表征视频帧是非镜头切换视频帧的镜头分割信息。第一预定标识和第三预定标识是“1”。第二预定标识和第四预定标识是“0”。

如图3所示，在300中，视频301可以包括1 2个视频帧，例如，视频帧301 1、视频帧3012、视频帧3013、视频帧3014、视频帧3015、视频帧3016、视频帧3017、视频帧3018、视频帧3019、视频帧30110、视频帧30111和视频帧30112。

对视频进行镜头分割，得到视频的镜头分割信息302。镜头分割信息302可以包括视频帧3011的镜头分割信息3021、视频帧3012的镜头分割信息3022、视频帧3013的镜头分割信息3023、视频帧3014的镜头分割信息3024、视频帧3015的镜头分割信息3025、视频帧3016的镜头分割信息3026、视频帧3017的镜头分割信息3027、视频帧3018的镜头分割信息3028、视频帧3019的镜头分割信息3029、视频帧30110的镜头分割信息30210、视频帧30111的镜头分割信息30211和视频帧30112的镜头分割信息30212。

根据镜头分割信息3021为“0”、镜头分割信息3022为“0”、镜头分割信息3023为“0”、镜头分割信息3024为“1”、镜头分割信息3025为“0”、镜头分割信息3026为“0”、镜头分割信息3027为“1”、镜头分割信息3028为“0”、镜头分割信息3029为“0”、镜头分割信息30210为“0”、镜头分割信息30211为“1”和镜头分割信息30212为“1”，确定视频301包括4个镜头，例如，镜头303、镜头304、镜头305和镜头306。镜头303可以包括视频帧3011、视频帧3012、视频帧3013和视频帧3014。镜头304可以包括视频帧3015、视频帧3016和视频帧3017。镜头305可以包括视频帧3018、视频帧3019、视频帧30110和视频帧30111。镜头306可以包括视频帧30112。

确定与镜头303、镜头304、镜头305和镜头306各自对应的镜头特征。根据与镜头303与镜头303、镜头304、镜头305和镜头306各自对应的镜头特征，确定镜头303的场景分割信息307为“1”、镜头304的场景分割信息308为“1”、镜头305的场景分割信息309为“0”和镜头306的场景分割信息310为“1”。

根据镜头303的场景分割信息307、镜头304的场景分割信息308、镜头305的场景分割信息309和镜头306的场景分割信息310，确定视频的场景分割信息。由此，可以确定视频包括场景311、场景312和场景313。场景311可以包括镜头303。场景312可以包括镜头304。场景313可以包括镜头305和镜头306。

根据本公开的实施例，镜头特征还可以包括全局语义特征。全局语义特征可以包括以下至少之一：全局显式语义特征和全局隐式语义特征。

根据本公开的实施例，在确定全局语义特征包括全局显式语义特征的情况下，确定与至少一个镜头对应的镜头特征，可以包括如下操作。

确定与至少一个镜头对应的深层视觉特征。根据与至少一个镜头对应的深层视觉特征，确定与至少一个镜头对应的全局显式语义特征。

根据本公开的实施例，针对至少一个镜头中的镜头，可以对该镜头进行特征提取，得到与该镜头对应的深层视觉特征。例如，可以利用第三深度学习模型对该镜头进行特征提取，得到与该镜头对应的第二深层视觉特征。第二深度学习模型的模型结构可以根据实际业务需求进行配置，在此不作限定，能够实现特征提取即可。例如，第三深度学习模型可以包括以下至少之一：基于第三视觉编码器的深度学习模型和基于第三卷积神经网络的深度学习模型等。第三视觉编码器可以包括视觉Transformer的编码器。视觉Transformer可以包括以下至少之一：Vision Transformer和SwinTransformer等。基于第三卷积神经网络的深度学习模型可以包括以下至少之一：基于二维卷积的深度学习模型和基于三维卷积的深度学习模型。基于二维卷积的深度学习模型可以包括以下至少之一：AlexNet、LeNet和VGG、D2-Net和R2D2等。基于三维卷积的深度学习模型可以包括C3DNetwork等。

根据本公开的实施例，根据与至少一个镜头对应的第二深层视觉特征，确定与至少一个镜头对应的全局显式语义特征，可以包括：可以根据与至少一个镜头各自对应的第二深层视觉特征，确定与至少一个镜头各自对应的相似度。根据与至少一个镜头各自对应的相似度，确定与至少一个镜头各自对应的全局显式语义特征。备选地，可以根据与至少一个镜头各自对应的深层视觉特征，确定与至少一个镜头各自对应的第四融合特征。根据与至少一个镜头各自对应的第四融合特征，确定与至少一个镜头各自对应的全局显式语义特征。根据与至少一个镜头各自对应的第二深层视觉特征，确定与至少一个镜头各自对应的第四融合特征，可以包括：针对至少一个镜头中的镜头，可以将该镜头的第二深层视觉特征和其他镜头的第二深层视觉特征进行融合，得到与该镜头对应的第四融合特征。其他镜头可以是至少一个镜头中除该镜头以外的至少一个镜头。

根据本公开的实施例，可以用镜头的关键帧来表征镜头。对镜头进行特征提取，得到与镜头对应的第二深层视觉特征，可以包括：对与镜头对应的关键帧进行特征提取，得到与该镜头对应的第二深层视觉特征。第二视觉视觉特征可以指“确定与至少一个镜头对应的深层视觉特征”中的“深层视觉特征”。

根据本公开的实施例，在确定全局语义特征包括全局隐式语义特征的情况下，确定与至少一个镜头对应的镜头特征，可以包括如下操作。

确定与至少一个镜头对应的局部语义特征。根据与至少一个镜头对应的局部语义特征，确定与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，可以基于局部特征提取策略处理至少一个镜头，得到与至少一个镜头各自对应的局部语义特征。基于全局特征提取策略处理与至少一个镜头各自对应的局部语义特征，得到与至少一个镜头各自对应的全局隐式语义特征。局部特征提取策略可以指用于确定局部语义特征的策略。局部特征提取策略可以包括自对比学习策略。全局特征提取策略可以指用于确定全局隐式语义特征的策略。全局特征提取策略可以包括注意力策略。

根据本公开的实施例，可以用镜头的关键帧来表征镜头。可以基于局部特征提取策略处理至少一个镜头，得到与至少一个镜头各自对应的局部语义特征，可以包括：可以基于局部特征提取策略处理与至少一个镜头各自对应的关键帧，得到与至少一个镜头各自对应的局部语义特征。

根据本公开的实施例，由于全局隐式语义特征能够隐式地表征镜头自身和镜头与其他镜头之间的语义信息，因此，利用全局隐式语义特征来确定视频的场景分割信息，提高了场景分割信息的准确性，由此提高了视频场景分割的准确性。此外，由于全局显示语义特征能够显式的表征镜头自身和镜头与其他镜头之间的深层视觉特征，因此，利用全局显式语义特征来确定视频的场景分割信息，提高了场景分割信息的准确性。

根据本公开的实施例，根据与至少一个镜头对应的深层视觉特征，确定与至少一个镜头对应的全局显式语义特征，可以包括如下操作。

根据与至少一个镜头对应的深层视觉特征，确定至少一个镜头之间的第三相似度。根据至少一个镜头之间的第三相似度，确定与至少一个镜头对应的全局显式语义特征。

根据本公开的实施例，相似度可以用于表征两个待匹配对象之间的相似程度。相似度的数值和相似程度的关系可以根据实际业务需求进行配置，在此不作限定。例如，相似度的数值越大，可以表征两个待匹配对象之间的相似程度越大。反之，两个待匹配对象之间的相似程度越小。备选地，相似度的数值越小，可以表征两个待匹配对象之间的相似程度越大。反之，两个待匹配对象之间的相似程度越小。相似度可以根据实际业务需求进行配置，在此不作限定。例如，相似度可以包括以下至少之一：基于字面相似度的方法、基于文本相似度的方法和基于实体相似度的方法等。基于字面相似度的方法可以包括以下至少之一：编辑距离、Dice系数和Jaccard相似度等。基于文本相似度的方法可以包括以下至少之一：余弦相似度、相对熵、KL(Kullback-Leibler，KL)散度和概率模型相似度等。

根据本公开的实施例，两个待匹配对象可以指至少一个镜头中的任意两个镜头。针对至少一个镜头中的镜头，可以确定该镜头与其他镜头之间的第三相似度，得到与该镜头对应的至少一个第三相似度。根据与该镜头对应的至少一个第三相似度，得到与该镜头对应的全局显式语义特征。例如，可以对与该镜头对应的至少一个第三相似度进行加权求和，得到与该镜头对应的加权信息。将与该镜头对应的加权信息确定为与该镜头对应的全局显式语义特征。其他镜头可以指至少一个镜头中除该镜头以外的至少一个镜头。针对第三相似度的说明可以参见上文关于相似度的说明部分，在此不再赘述。

根据本公开的实施例，可以用镜头的关键帧来表征镜头。可以确定该镜头与其他镜头之间的第三相似度，得到与该镜头对应的至少一个第三相似度，可以包括：可以确定与该镜头对应的关键帧和与其他镜头对应的关键帧之间的第三相似度，得到与该镜头对应的至少一个第三相似度。

根据本公开的实施例，由于全局显示语义特征是根据镜头的深层视觉特征与其他镜头的深层视觉特征之间的相似度确定的，因此，全局显示语义特征能够显式的表征镜头自身和镜头与其他镜头之间的深层视觉特征，由此，利用全局显式语义特征来确定视频的场景分割信息，提高了场景分割信息的准确性。

根据本公开的实施例，镜头特征还可以包括浅层视觉特征。

根据本公开的实施例，根据与至少一个镜头对应的全局语义特征，确定视频的场景分割信息，可以包括如下操作。

根据与至少一个镜头对应的全局语义特征和浅层视觉特征，得到与至少一个镜头对应的融合特征。根据与至少一个镜头对应的融合特征，确定视频的场景分割信息。

根据本公开的实施例，浅层视觉特征可以包括以下至少之一:颜色特征、纹理特征、边缘特征和棱角特征等。颜色特征可以包括可以包括颜色空间直方图等。颜色空间直方图可以包括以下至少之一：HSV颜色空间直方图、RGB颜色空间直方图、YCbCr颜色空间直方图、Lab颜色空间直方图和YUV颜色空间直方图。全局语义特征可以包括全局隐式语义特征和全局显式语义特征中的至少之一。HSV中的“H”可以表征“色调(即Hue)”。HSV中的“S”可以表征“饱和度(即Saturation，S)”。HSV中的“V”可以表征“亮度(即Value)”。“RGB”中的“R”可以表征“红色(即Red)”。“RGB”中的“G”可以表征“绿色(即Green)”。“RGB”中的“B”可以表征“蓝色(即Blue)”。“YCbCr”中的“Y”可以表征“亮度”。“YCbCr”中的“Cb”可以表征“蓝色分量”。“YCbCr”中的“Cr”可以表征“红色分量”。“Lab”中的“L”可以表征“亮度”。“Lab”中的“a的正数”可以表征“红色”，“a的负数”可以表征“绿色”。“Lab”中的“b的正数”可以表征“黄色”，“b的负数”可以表征“蓝色”。

根据本公开的实施例，针对至少一个镜头中的镜头，可以将与该镜头对应的全局语义特征和第二浅层视觉特征进行融合，得到与该镜头对应的第三融合特征。例如，可以将与该镜头对应的全局语义特征和第二浅层视觉特征进行拼接，得到与该镜头对应的第三融合特征。备选地，可以将与该镜头对应的全局语义特征和第二浅层视觉特征进行相加，得到与该镜头对应的第三融合特征。第二浅层视觉特征可以指“镜头特征还可以包括浅层视觉特征”中的“浅层视觉特征”。第三融合特征可以指“根据与至少一个镜头对应的全局语义特征和浅层视觉特征，得到与至少一个镜头对应的融合特征”中的“融合特征”。

根据本公开的实施例，在确定与至少一个镜头对应的第三融合特征之后，可以对与至少一个镜头对应的第三融合特征进行场景分割，得到与至少一个镜头对应的场景分割信息。根据与至少一个镜头对应的场景分割信息，得到视频的场景分割信息。

根据本公开的实施例，由于场景分割信息是根据镜头的融合特征确定的，融合特征是根据全局语义特征和浅层视觉特征确定的，浅层视觉特征能够体现镜头的细粒度视觉特征，全局语义特征能够体现镜头的粗粒度视觉特征，因此，融合特征所携带的信息更为全面，由此，提高了场景分割信息的准确性，进而提高了视频场景分割的准确性。

根据本公开的实施例，操作S220可以包括如下操作。

基于对比学习策略处理至少一个镜头，得到与至少一个镜头对应的局部语义特征。

根据本公开的实施例，对比学习策略可以用于确定镜头的局部语义特征。对比学习策略可以用于对比学习正样本对和负样本对的局部语义特征，能够得到表征样本视频中各个场景之间的局部关联的局部语义特征。本公开实施例中对比学习策略的目的在于使得同场景类别的镜头之间的距离越接近，不同场景类别的镜头之间的距离越远离。正样本对和负样本对的数目可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，正样对可以包括两个正样本镜头。两个正样本镜头的场景类别相同。负样本对可以包括两个负样本镜头。两个负样本镜头的场景类别不同。例如，正样本对可以包括第四样本镜头和第五样本镜头。负样本对可以包括第四样本镜头和第六样本镜头。第四样本镜头与第五样本镜头的场景类别相同。第四样本镜头与第六样本镜头的场景类别不同。

根据本公开的实施例，由于局部语义特征是基于对比学习策略处理镜头得到的，对比学习策略可以用于对比学习正样本对和负样本对的局部语义特征，能够得到表征样本视频中各个场景之间的局部关联的局部语义特征，因此，提高了局部语义特征的准确性。此外，由于场景分割信息是根据镜头的局部语义特征确定的，因此，提高的场景分割信息的准确性，进而提高了视频场景分割的准确性。

根据本公开的实施例，基于对比学习策略处理至少一个镜头，得到与至少一个镜头对应的局部语义特征，可以包括如下操作。

利用表征模型处理至少一个镜头，得到与至少一个镜头对应的局部语义特征。

根据本公开的实施例，表征模型可以是利用正样本对的样本局部语义特征和负样本对的样本局部语义特征训练自监督模型得到的。正样本对可以包括第一样本镜头和第二样本镜头。负样本对可以包括第一样本镜头和第三样本镜头。第一样本镜头和第二样本镜头的场景类别相同。第一样本镜头和第三样本镜头的场景类别不同。

根据本公开的实施例，自监督模型可以包括以下至少之一：CPC(ContrastivePredictive Coding)、AMDIM(Augmented Multiscale Deep InfoMax)、MOCO(MOmentumCOntrast，动量对比)、SimCLR(Simple Framework for Contrastive Learning of VisualRepresentations)和BYOL(Bootstrap Your Own Latent)等。

根据本公开的实施例，正样本对和负样本对可以利用如下方式之一来确定：基于已有的场景分割标签的方式、基于场景分割信息的方式和基于聚类的方式。

根据本公开的实施例，针对基于已有的场景分割标签的方式，在确定样本镜头是具有场景分割标签的样本镜头的情况下，该样本镜头的场景类别可以是根据该样本镜头的场景分割标签确定的，例如，可以将该样本镜头的场景分割标签确定为该样本镜头的场景类别。针对基于场景分割信息的方式，在确定样本镜头是不具有场景分割标签的样本镜头的情况下，该样本镜头的场景类别可以是根据该样本镜头的场景分割信息确定的。该样本镜头是第五样本视频的样本镜头。例如，可以对第五样本视频进行镜头分割，得到至少一个样本镜头。确定与至少一个样本镜头对应的视觉特征。根据与至少一个样本镜头对应的视觉特征，确定与至少一个样本镜头各自对应的场景分割信息。根据与至少一个样本镜头各自对应的场景分割信息，确定第五样本视频的场景分割信息。

根据本公开的实施例，在样本镜头是第一样本镜头的情况下，如果确定第一样本镜头是具有场景分割标签的样本镜头的情况下，该样本镜头的场景类别可以是根据该第一样本镜头的场景分割标签确定的，如果确定第一样本镜头是不具有场景分割标签的样本镜头的情况下，该第一样本镜头的场景类别可以是根据该第一样本镜头的场景分割信息确定的。类似地，可以确定第二样本镜头的场景类别和第三样本镜头的场景类别。

根据本公开的实施例，在对比学习中，对父样本进行数据增强得到的子样本被认为是针对父样本的正样本，这是由于子样本与父样本的类别相同，彼此保持相同的语义信息。父样本可以指作为进行数据增强处理对象的样本。针对同一父样本，可以对该父样本进行多次数据增强，从而得到多个子样本。负样本可以指与父样本的类别不同的其他样本。由此，第一样本镜头可以是父样本，第二样本镜头可以是对父样本进行数据增强得到的子样本。第三样本镜头可以是与父样本的场景类别不同的样本镜头。

根据本公开的实施例，针对基于聚类的方式，第一样本镜头、第二样本镜头和第三样本镜头可以是不具有场景分割标签的样本镜头。

根据本公开的实施例，表征模型可以是基于损失函数，根据正样本对的样本局部语义特征和负样本对的样本局部语义特征训练得到的。例如，表征模型可以是在满足预定结束条件的情况下训练得到的自监督模型。可以将正样本对的样本局部语义特征和负样本对的样本局部语义特征输入第一损失函数，得到第一损失函数值。可以根据第一损失函数值调整自监督模型的模型参数，直至满足预定结束条件。预定结束条件可以包括以下至少之一：第一损失函数值收敛和达到最大训练轮次。第一损失函数可以包括以下至少之一：InfoNCE(Info Noise-contrastive Estimation，信息噪声对比估计)和NCE(Noise-Constrastive Estimation Loss，噪声对比估计)等。第一损失函数还可以包括对上述第一损失函数进行改进得到的损失函数。

根据本公开的实施例，由于正样本对包括的样本镜头的场景类别相同，负样本对包括的样本镜头的场景类别不同，表征模型是利用正样本对的样本局部语义特征和负样本对的样本局部语义特征训练自监督模型得到的因此，使得表征模型能够学习到更为准确地镜头的语义特征，由此，提高了表征模型的表征效果，进而提高了利用表征模型得到镜头的局部语义特征的准确性。

根据本公开的实施例，正样本对是从第一样本视频包括的第一样本镜头集中确定的，可以包括以下之一：

第一样本镜头是从第一样本视频包括的第一样本镜头集中确定的，第二样本镜头是随机从第一样本镜头集中确定的。第一样本镜头是从第一样本视频包括的第一样本镜头集中确定的，第二样本镜头是第一样本镜头集中与第一样本镜头之间的第一相似度大于或等于第一预定相似度阈值的样本镜头。

根据本公开的实施例，第一样本视频可以包括至少一个第一样本镜头。可以利用滑动窗口方法将第一样本视频包括的至少一个第一样本镜头划分为至少一个第一样本镜头集。相邻两个第一样本镜头中的样本镜头至少不同。第一样本镜头集可以包括至少一个第一样本镜头。第一样本镜头集包括的各个第一样本镜头的场景类别相同或不同。可以用与第一样本镜头对应的样本关键帧来表征第一样本镜头。

根据本公开的实施例，在确定第一样本镜头集之后，可以从第一样本镜头集中确定第一样本镜头。第一样本镜头可以是随机从第一样本镜头集中确定的。备选地，第一样本镜头可以是第一样本镜头集中的预定样本镜头。预定样本镜头可以指第一样本镜头集中的中心样本镜头。中心样本镜头可以指按照时间顺序位于第一样本镜头集的中心位置的样本镜头。

根据本公开的实施例，在确定第一样本镜头之后，可以根据第一样本镜头，从第一样本镜头集中确定第二样本镜头。例如，可以根据第一样本镜头集的特征信息，从第一样本镜头集中确定与第一样本镜头之间的第一相似度大于或等于第一预定相似度相似度阈值的样本镜头。将与第一样本镜头之间的第一相似度大于或等于第一预定相似度阈值的样本镜头确定为第二样本镜头。第一预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。备选地，可以随机从第一样本镜头集中确定第二样本镜头，保证第二样本镜头和第一样本镜头的场景类别相同即可。

根据本公开的实施例，第一样本镜头和第二样本镜头是从第一样本镜头集中确定的，第一样本镜头集可以包括场景类别相同的样本镜头，因此，降低了确定正样本对的难度和提高了正样本对的质量。

根据本公开的实施例，第三样本镜头可以是根据如下方式之一确定的：

第三样本镜头是从第一样本镜头集中确定的。第三样本镜头是从第一样本视频包括的第二样本镜头集中确定的，第二样本镜头集和第一样本镜头集之间至少包括不同的样本镜头。第三样本镜头是从第二样本视频的第三样本镜头集中确定的，第二样本视频与第一样本视频不同。

根据本公开的实施例，第三样本镜头可以是从第一样本镜头集中确定的。备选地，第三样本镜头集可以是从第一样本镜头包括的第二样本镜头集中确定的。备选地，第三样本镜头集可以是从第二样本视频包括的第三样本镜头集中确定的，上述需保证第三样本镜头与第一样本镜头的场景类别不同。

根据本公开的实施例，第二样本镜头集和第一样本镜头集可以是利用滑动窗口方法对至少一个第一样本镜头进行划分得到的。至少一个第一样本镜头是对第一样本视频进行镜头分割得到的。第二样本镜头集和第一样本镜头集之间至少存在不同的样本镜头。例如，第二样本镜头集和第一样本镜头集之间不存在相同的样本镜头。备选地，第二样本镜头集和第一样本镜头集之间存在相同的样本镜头和不同的样本镜头。

根据本公开的实施例，第二样本视频包括至少一个第三样本镜头。可以利用滑动窗口方法将第二样本视频包括的至少一个第三样本镜头划分为至少一个第三样本镜头集。相邻两个第三样本镜头中的样本镜头至少不同。第三样本镜头集可以包括至少一个第三样本镜头。第三样本镜头集包括的各个第三样本镜头的场景类别相同或不同。可以用与第三样本镜头对应的样本关键帧来表征第三样本镜头。

根据本公开的实施例，第三样本镜头可以是从第三样本镜头集中确定的，可以包括：第三样本镜头可以是随机从第三样本镜头集中确定的，保证第三样本镜头与第一样本镜头的场景类别不同即可。备选地，第三样本镜头可以是从第三样本镜头集中确定与第一样本镜头之间的第五相似度小于或等于第三预定相似度阈值的样本镜头。例如，可以根据第三样本镜头集的特征信息，从第三样本镜头集中确定与第一样本镜头之间的第五相似度小于或等于第三预定相似度相似度阈值的样本镜头。将与第一样本镜头之间的第五相似度小于或等于第三预定相似度阈值的样本镜头确定为第三样本镜头。第三预定相似度阈值小于第一预定相似度阈值。第三预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，第三样本镜头是从第一样本镜头集中确定的，可以包括以下之一：

第三样本镜头是随机从第一样本镜头集中确定的。第三样本镜头是第一样本镜头集中与第一样本镜头之间的第二相似度小于或等于第二预定相似度阈值的样本镜头。

根据本公开的实施例，第三样本镜头集可以是从第一样本镜头集中确定的，可以包括：第三样本镜头可以是随机从第一样本镜头集中确定的，保证第三样本镜头与第一样本镜头的场景类别不同即可。备选地，可以根据第一样本镜头集的特征信息，从第一样本镜头集中确定与第一样本镜头之间的第二相似度小于或等于第二预定相似度相似度阈值的样本镜头。将与第一样本镜头之间的第二相似度小于或等于第二预定相似度阈值的样本镜头确定为第三样本镜头。第二预定相似度阈值可以与第三预定相似度阈值相同或不同。第二预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，由于第三样本镜头可以是随机从第一样本镜头集中确定的，因此，降低了确定第三样本镜头的难度。此外，由于第三样本镜头是第一样本镜头集中与第一样本镜头之间的第二相似度小于或等于第二预定相似度阈值的样本镜头，因此，提高了确定第三样本镜头的准确性，由此提高了负样本对的质量。

根据本公开的实施例，正样本对可以是从第四样本镜头集中确定的，第三样本镜头是从第五样本镜头集中确定的。第四样本镜头集和第五样本镜头集是对第六样本镜头集进行聚类得到的。第六样本镜头集是对第三样本视频进行镜头分割得到的。第四样本镜头集和第五样本镜头集是不同的聚类簇。

根据本公开的实施例，可以对第三样本视频进行镜头分割，得到至少一个第七样本镜头。根据至少一个第七样本镜头，得到至少一个第六样本镜头集。可以对第六样本镜头集进行聚类，得到至少一个聚类簇。例如，可以对至少一个第七样本镜头进行聚类，得到至少一个聚类簇。从至少一个聚类簇中确定第一聚类簇和第二聚类簇。将第一聚类簇确定为第四样本镜头集。将第二聚类簇确定为第五样本镜头集。聚类算法可以包括以下至少之一：K-Means(K-means Clustering，K均值聚类)算法、基于链接的层次聚类算法、基于密度的聚类算法、基于模型的SOM(Self-organizing Maps，自组织映射)聚类算法和基于概率的GMM(Gaussian Mixture Model，高斯混合模型)聚类算法等。基于密度的聚类算法可以包括以下至少之一：DBSCAN(Density-Based Spatial Clustering of Application with Noise，基于密度的噪声应用空间聚类)算法和CFSFDP(Clustering by Fast Search and Find ofDensity Peaks，基于快速搜索和发现密度峰值的聚类)算法等。可以根据实际业务需求确定聚类算法，在此不作限定。

根据本公开的实施例，第一样本镜头和第二样本镜头可以是从第四样本镜头集中确定的。例如，可以随机从第四样本镜头集中确定第一样本镜头和第二样本镜头。备选地，可以将与第四样本镜头集对应的聚类中心确定为第一样本镜头。在确定第一样本镜头之后，可以随机从第四样本镜头集中确定第二样本镜头。备选地，可以根据第一样本镜头，从第四样本镜头集中确定与第一样本镜头之间的第六相似度大于或等于第四预定相似度阈值的样本镜头。将第四样本镜头集中与第一样本镜头之间的第六相似度大于或等于第四预定相似度阈值的样本镜头确定为第二样本镜头。第四预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，第三样本镜头可以是从第五样本镜头集中确定的。例如，可以随机从第五样本镜头集中确定第三样本镜头。备选地，可以将与第五样本镜头集对应的聚类中心确定为第三样本镜头。备选地，可以根据第一样本镜头，从第五样本镜头集中确定与第一样本镜头之间的第七相似度小于或等于第五预定相似度阈值的样本镜头。将第五样本镜头集中与第一样本镜头之间的第七相似度小于或等于第五预定相似度阈值的样本镜头确定为第三样本镜头。第五预定相似度阈值可以小于第四预定相似度阈值。第五预定相似度阈值可以根据实际业务需求进行配置，在此不作限定。

需要说明的是，本公开实施例中的第一样本镜头和第二样本镜头可以交换，例如，负样本对也可以包括第二样本镜头和第三样本镜头。针对根据第二样本镜头确定第三样本镜头可以利用与上文根据第一样本镜头确定第三样本镜头的类似方式来实现，在此不再赘述。

下面参考图4A、图4B、图4C和图4D，结合具体实施例对根据本公开实施例所述的确定正样本对和负样本对的过程做进一步说明。

图4A示意性示出了根据本公开实施例的确定正样本对的示例示意图。

如图4A所示，在400A中，如图4A中的上图所示，从第一样本视频的第一样本镜头集401中确定第一样本镜头4011。在确定第一样本镜头4011的情况下，如图4A的上图所示，随机从第一样本镜头集401中确定第二样本镜头4012，保证第二样本镜头4012与第一样本镜头40l1的场景类别相同即可。备选地，如图4A的下图所示，从第一样本镜头集401中确定与第一样本镜头4011之间的第一相似度大于或等于第一预定相似度阈值的样本镜头。将与第一样本镜头4011之间的第一相似度大于或等于第一预定相似度阈值的样本镜头确定为第二样本镜头4013。

图4B示意性示出了根据本公开实施例的确定负样本对的示例示意图。

如图4B所示，在400B中，如图4B中的上图所示，从第一样本视频的第一样本镜头集402中确定第一样本镜头4021。在确定第一样本镜头4021的情况下，如图4B中的上图所示，从第一样本镜头集401中确定第三样本镜头4022。第一样本镜头4021和第三样本镜头4022的场景类别不同。如图4B中的下图所示，从第一样本视频的第二样本镜头集403中确定第三样本镜头4031。第二样本镜头集403和第一样本镜头集402之间包括不同的样本镜头。

图4C示意性示出了根据本公开另一实施例的确定负样本对的示例示意图。

如图4C所示，在400C中，从第一样本视频的第一样本镜头集404中确定第一样本镜头4041。从第二样本视频的第三样本镜头集405中确定第三样本镜头4051。第二样本视频与第一样本视频不同。

图4D示意性示出了根据本公开实施例的确定正样本对和负样本对的示例示意图。

如图4D所示，在400D中，对第三样本视频进行镜头分割，得到第六样本镜头集。对第六样本镜头集进行聚类得到至少一个聚类簇。至少一个聚类簇可以包括与第四样本镜头集406对应的聚类簇、与第五样本镜头集407对应的聚类簇和与第七样本镜头集408对应的聚类簇。

从第四样本镜头集406中确定第一样本镜头4061和第二样本镜头4062。第一样本镜头4061和第二样本镜头4062的场景类别相同。

从第五样本镜头集407中确定第三样本镜头4071。第三样本镜头4071和第一样本镜头4061的场景类别不同。

根据本公开的实施例，镜头特征还可以包括全局语义特征。

根据本公开的实施例，操作S230可以包括如下操作。

根据与至少一个镜头对应的全局语义特征，确定视频的场景分割信息。

根据本公开的实施例，可以对与至少一个镜头对应的全局语义特征进行场景分割，得到与至少一个镜头各自对应的场景分割信息。根据与至少一个镜头各自对应的场景分割信息，确定视频的场景分割信息。

根据本公开的实施例，由于全局语义特征能够表征镜头自身和镜头与其他镜头之间的语义信息，因此，利用全局语义特征来确定视频的场景分割信息，提高了场景分割信息的准确性，由此提高了视频场景分割的准确性。

根据本公开的实施例，根据与至少一个镜头对应的局部语义特征，确定与至少一个镜头对应的全局隐式语义特征，可以包括如下操作。

基于注意力策略处理与至少一个镜头对应的局部语义特征，得到与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，注意力策略可以用于实现以高权重去聚焦重要信息，低权重去忽略非重要信息，并能通过共享重要信息与其他信息进行信息交换，从而实现重要信息的传递。在本公开实施例中，注意力策略能够提取镜头自身和各个镜头之间的信息，以更好地完成视频的视频场景分割。注意力策略可以包括自注意力策略和互注意力策略中的之一。

根据本公开的实施例，局部语义特征可以用于确定第一键矩阵、第一值矩阵和第一查询矩阵。例如，在注意力策略可以是自注意力策略的情况下，局部语义特征可以用于作为第一键矩阵、第一值矩阵和第一查询矩阵。键(即Key)矩阵、值(即Value)和查询(即Query)矩阵可以是注意力机制中的矩阵。

根据本公开的实施例，在注意力策略可以是自注意力策略的情况下，可以基于自注意力策略，对与至少一个镜头对应的用于作为第一键矩阵、第一值矩阵和第一查询矩阵的局部语义特征进行处理，得到与至少一个镜头各自对应的全局隐式语义特征。例如，可以根据自注意力策略确定注意力单元。利用注意力单元处理与至少一个镜头对应的用于作为第一键矩阵、第一值矩阵和第一查询矩阵的局部语义特征，得到与至少一个镜头各自对应的全局隐式语义特征。

根据本公开的实施例，利用注意力策略处理与至少一个镜头对应的局部语义特征来得到与至少一个镜头对应的全局隐式语义特征，注意力策略能够提取镜头自身和镜头与其他镜头之间的语义信息，提高了视频的视频场景分割的准确性。

根据本公开的实施例，基于注意力策略处理与至少一个镜头对应的局部语义特征，得到与至少一个镜头对应的全局隐式语义特征，可以包括如下操作。

将至少一个镜头划分为至少一个镜头集。基于自注意力策略对与至少一个镜头集对应的局部语义特征集进行M层级处理，得到与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，相邻两个镜头集中的镜头至少部分不同。M可以是大于或等于1的整数。M的数值可以根据实际业务需求进行配置，在此不作限定。例如，M＝4。

根据本公开的实施例，可以将对视频进行镜头分割得到的至少一个镜头集划分为至少一个镜头集。例如，可以基于滑动窗口方法将至少一个镜头划分为至少一个镜头集。相邻两个镜头集之间至少存在不同镜头。例如，相邻两个镜头集之间不存在相同镜头。备选地，相邻两个镜头集之间存在相同镜头和不同镜头。

根据本公开的实施例，局部语义特征集可以包括与至少一个镜头对应的局部语义特征。针对至少一个镜头集中的镜头集，可以基于注意力策略处理与该镜头集对应的局部语义特征集，得到与该镜头集对应的全局隐式语义特征集。根据与至少一个镜头集各自对应的全局隐式语义特征集，得到与至少一个镜头各自对应的全局隐式语义特征。例如，可以基于自注意力策略对与该镜头集对应的局部语义特征集进行M层级处理，得到与该镜头集对应的全局隐式语义特征集。

根据本公开的实施例，在相邻两个镜头集之间存在相同镜头的情况下，与镜头对应的全局隐式语义特征包括至少两个。在此情况下，可以在确定存在目标镜头的情况下，可以将与目标镜头对应的至少两个全局隐式语义特征进行融合，得到与目标镜头对应的全局隐式语义特征。目标镜头可以指与镜头对应的全局隐式语义特征包括至少两个的镜头。

根据本公开的实施例，在M是大于1的整数的情况下，基于自注意力策略对与至少一个镜头集对应的局部语义特征集进行M层级处理，得到与至少一个镜头对应的全局隐式语义特征，可以包括如下操作。

在1＜m≤M的情况下，根据第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第二中间语义特征集。根据第m层级的与至少一个镜头集对应的第二中间语义特征集和第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第一中间语义特征集。根据第R层级的与至少一个镜头集对应的第一中间语义特征集，得到与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，第一中间语义集包括的第一中间语义特征用于确定第一查询矩阵、第一键矩阵和第一值矩阵。m可以是大于或等于1且小于或等于M的整数。m∈{1，2，......，M-1，M}。R可以是大于或等于1且小于或等于M的整数。

根据本公开的实施例，在1＜m≤M的情况下，基于自注意力策略处理第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第二中间语义特征集。第m层级的与镜头对应的第一中间语义特征可以用于作为第m+1层级的第一键矩阵、第一值矩阵和第一查询矩阵。将第m层级的与至少一个镜头集对应的第二中间语义特征集和第m-1层级的与至少一个镜头集对应的第一中间语义特征集进行融合，得到第m层级的与至少一个镜头集对应的第四中间语义特征集。根据第m层级的与至少一个镜头集对应的第四中间语义特征集，得到第m层级的与至少一个镜头集对应的第一中间语义特征集。根据第R层级的与至少一个镜头集对应的第一中间语义特征集，得到与至少一个镜头对应的全局隐式语义特征。例如，可以根据第M层级的与至少一个镜头集对应的第一中间语义特征集，得到与至少一个镜头对应的全局隐式语义特征。将第M层级的与至少一个镜头对应的第一中间语义特征集，得到与至少一个镜头对应的全局隐式语义特征。融合可以包括以下之一：相加和拼接。

根据本公开的实施例，根据第m层级的与至少一个镜头集对应的第四中间语义特征集，得到第m层级的与至少一个镜头集对应的第一中间语义特征集，可以包括：对第m层级的与至少一个镜头集对应的第四中间语义特征集进行多层感知机处理，得到第m层级的与至少一个镜头集对应的第五中间语义特征集。根据第m层级的与至少一个镜头集对应的第五中间语义特征集，得到第m层级的与至少一个镜头集对应的第四中间语义特征集。例如，可以对第m层级的与至少一个镜头集对应的第六中间特征数据进行标准化处理，得到第m层级的与至少一个镜头集对应的第四中间语义特征集。标准化(即Normalization)可以包括以下之一：批标准化(Batch Normalization，BN)和层标准化(Lay Normalization，LN)。例如，可以可以对第m层级的与至少一个镜头集对应的第六中间特征数据进行批标准化处理，得到第m层级的与至少一个镜头集对应的第四中间语义特征集。

根据本公开的实施例，基于自注意力策略处理第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第二中间语义特征集，可以包括：根据第m-1层级的与至少一个镜头集对应的第七中间语义特征集，得到第m层级的与至少一个镜头集对应的第八中间语义特征集。例如，对第m-1层级的与至少一个镜头集对应的第七中间语义特征集进行标准化处理，得到第m层级的与至少一个镜头集对应的第八中间语义特征集。基于自注意力策略处理第m层级的与至少一个镜头集对应的第八中间语义特征集，得到第m层级的与至少一个镜头集对应的第一中间语义特征集。

根据本公开的实施例，针对第m-1层级的至少一个镜头集中的镜头集，基于自注意力策略处理第m-1层级的与该镜头集对应的第一中间语义特征集，得到第m层级的与该镜头集对应的第二中间语义特征集。第m层级的与该镜头对应的第一中间语义特征可以用于作为第m+1层级的第一键矩阵、第一值矩阵和第一查询矩阵。根据第m层级的与该镜头集对应的第二中间语义特征集和第m-1层级的与该镜头集对应的第一中间语义特征集，得到第m层级的与该镜头集对应的第四中间语义特征集。根据第m层级的与该镜头集对应的第四中间语义特征集，得到第m层级的与该镜头集对应的第一中间语义特征集。

根据本公开的实施例，根据第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第二中间语义特征集，可以包括如下操作。

根据第m-1层级的与至少一个镜头集对应的第一中间语义特征集，确定第m层级的与至少一个镜头集对应的至少一个第一矩阵集。针对第m层级的至少一个镜头中的镜头，针对与镜头对应的至少一个第一矩阵集中的第一矩阵集，根据第m层级的与镜头对应的第一查询矩阵和第m层级的与至少一个镜头对应的第一键矩阵，得到第m层级的与镜头对应的第一注意力矩阵。根据第m层级的与镜头对应的第一注意力矩阵和第m层级的与镜头对应的第一值矩阵，得到第m层级的与镜头对应的第三中间语义特征。根据第m层级的与镜头对应的至少一个第三中间语义特征，得到第m层级的与镜头对应的第二中间语义特征。

根据本公开的实施例，第一矩阵集可以包括第一查询矩阵、第一键矩阵和第一值矩阵。

根据本公开的实施例，自注意力策略可以包括多头自注意力策略。根据第m-1层级的与至少一个镜头集对应的第一中间语义特征集，确定第m层级的与至少一个镜头集对应的至少一个第一矩阵集，可以包括：针对第m-1层级的至少一个镜头集中的镜头集，根据第m-1层级的与该镜头集对应的第一中间语义特征集，确定第m层级的与该镜头集对应的至少一个第一矩阵集。第一矩阵集可以包括第一键矩阵、第一值矩阵和第一查询矩阵。

根据本公开的实施例，根据第m层级的与镜头对应的至少一个第三中间语义特征，得到第m层级的与镜头对应的第二中间语义特征，可以包括：可以根据第m层级的与镜头对应的至少一个第三中间语义特征，得到第m层级的与镜头对应的第九中间语义特征。例如，可以对第m层级的与镜头对应的至少一个第三中间语义特征进行融合，得到第m层级的与镜头对应的第九中间语义特征。融合可以包括以下至少之一：拼接和相加。根据第m层级的与镜头对应的第九中间语义特征，得到第m层级的与镜头对应的第二中间语义特征。例如，可以对第m层级的与镜头对应的第九中间语义特征进行线性变换，得到第m层级的与镜头对应的第二中间语义特征。

根据本公开的实施例，在m＝1的情况下，根据第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第二中间语义特征集。根据第2层级的与至少一个镜头集对应的第二中间语义特征集和第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第一中间语义特征集。

根据本公开的实施例，局部语义特征可以用于确定第二查询矩阵、第二键矩阵和第二值矩阵。

根据本公开的实施例，基于自注意力策略处理第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第二中间语义特征集。第2层级的与镜头对应的局部语义特征可以用于作为第2层级的第一查询矩阵(即第二查询矩阵)、第一键矩阵(即第二键矩阵)和第一值矩阵(即第二值矩阵)。将第2层级的与至少一个镜头集对应的第二中间语义特征集和第1层级的与至少一个镜头集对应的局部语义特征集进行融合，得到第2层级的与至少一个镜头集对应的第四中间语义特征集。根据第2层级的与至少一个镜头集对应的第四中间语义特征集，得到第2层级的与至少一个镜头集对应的第一中间语义特征集。

根据本公开的实施例，根据第2层级的与至少一个镜头集对应的第四中间语义特征集，得到第2层级的与至少一个镜头集对应的第一中间语义特征集，可以包括：对第2层级的与至少一个镜头集对应的第四中间语义特征集进行多层感知机处理，得到第2层级的与至少一个镜头集对应的第五中间语义特征集。根据第2层级的与至少一个镜头集对应的第五中间语义特征集，得到第2层级的与至少一个镜头集对应的第四中间语义特征集。例如，可以对第2层级的与至少一个镜头集对应的第六中间特征数据进行标准化处理，得到第2层级的与至少一个镜头集对应的第四中间语义特征集。标准化可以包括以下之一：批标准化和层标准化。例如，可以可以对第2层级的与至少一个镜头集对应的第六中间特征数据进行批标准化处理，得到第2层级的与至少一个镜头集对应的第四中间语义特征集。

根据本公开的实施例，基于自注意力策略处理第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第二中间语义特征集，可以包括：根据第1层级的与至少一个镜头集对应的第七中间语义特征集，得到第1层级的与至少一个镜头集对应的第八中间语义特征集。例如，对第1层级的与至少一个镜头集对应的第七中间语义特征集进行标准化处理，得到第1层级的与至少一个镜头集对应的第八中间语义特征集。基于自注意力策略处理第1层级的与至少一个镜头集对应的第八中间语义特征集，得到第2层级的与至少一个镜头集对应的第一中间语义特征集。

根据本公开的实施例，针对第1层级的至少一个镜头集中的镜头集，基于自注意力策略处理第1层级的与该镜头集对应的局部语义特征集，得到第2层级的与该镜头集对应的第二中间语义特征集。根据第2层级的与该镜头集对应的第二中间语义特征集和第1层级的与该镜头集对应的第一中间语义特征集，得到第2层级的与该镜头集对应的第四中间语义特征集。根据第2层级的与该镜头集对应的第四中间语义特征集，得到第2层级的与该镜头集对应的第一中间语义特征集。

根据本公开的实施例，根据第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第二中间语义特征集，可以包括如下操作。

根据第1层级的与至少一个镜头集对应的局部语义特征集，确定第2层级的与至少一个镜头集对应的至少一个第二矩阵集。针对第2层级的至少一个镜头中的镜头，针对与镜头对应的至少一个第二矩阵集中的第二矩阵集，根据第2层级的与镜头对应的第二查询矩阵和第2层级的与至少一个镜头对应的第二键矩阵，得到第2层级的与镜头对应的第二注意力矩阵。根据第2层级的与镜头对应的第二注意力矩阵和第2层级的与镜头对应的第二值矩阵，得到第2层级的与镜头对应的第三中间语义特征。根据第2层级的与镜头对应的至少一个第三中间语义特征，得到第2层级的与镜头对应的第二中间语义特征。

根据本公开的实施例，第二矩阵集可以包括第二查询矩阵、第二键矩阵和第二值矩阵。

根据本公开的实施例，自注意力策略可以包括多头自注意力策略。根据第1层级的与至少一个镜头集对应的局部语义特征集，确定第2层级的与至少一个镜头集对应的至少一个第二矩阵集，可以包括：针对第1层级的至少一个镜头集中的镜头集，根据第1层级的与该镜头集对应的局部语义特征集，确定第2层级的与该镜头集对应的至少一个第二矩阵集。第二矩阵集可以包括第二键矩阵、第二值矩阵和第二查询矩阵。

根据本公开的实施例，根据第2层级的与镜头对应的至少一个第三中间语义特征，得到第2层级的与镜头对应的第二中间语义特征，可以包括：可以根据第2层级的与镜头对应的至少一个第三中间语义特征，得到第2层级的与镜头对应的第九中间语义特征。例如，可以对第2层级的与镜头对应的至少一个第三中间语义特征进行融合，得到第2层级的与镜头对应的第九中间语义特征。融合可以包括以下至少之一：拼接和相加。根据第2层级的与镜头对应的第九中间语义特征，得到第2级的与镜头对应的第二中间语义特征。例如，可以对第2层级的与镜头对应的第九中间语义特征进行线性变换，得到第2层级的与镜头对应的第二中间语义特征。

根据本公开的实施例，在M＝1情况下，基于自注意力策略对与至少一个镜头集对应的局部语义特征集进行M层级处理，得到与至少一个镜头对应的全局隐式语义特征，可以包括：根据第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第二中间语义特征集。局部语义特征用于确定第二查询矩阵、第二键矩阵和第二值矩阵。根据第2层级的与至少一个镜头集对应的第二中间语义特征集和第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第一中间语义特征集。根据第2层级的与至少一个镜头集对应的第一中间语义特征集，得到与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，操作S230可以包括如下操作。

根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征。根据与至少一个镜头对应的时序特征，确定视频的场景分割信息。

根据本公开的实施例，时序特征可以表征至少一个镜头之间的时序关系。

根据本公开的实施例，在镜头特征包括局部语义特征的情况下，根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征，可以包括：根据与至少一个镜头对应的局部语义特征，确定与至少一个镜头各自对应的时序特征。在镜头特征包括局部语义特征和全局语义特征的情况下，根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征，可以包括：根据与至少一个镜头对应的全局语义特征，确定与至少一个镜头各自对应的时序特征。在镜头特征包括局部语义特征、全局语义特征和第二浅层视觉特征的情况下，根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征，可以包括：根据与至少一个镜头对应的全局语义特征和第二浅层视觉特征，得到与至少一个镜头各自对应的第三融合特征。根据与至少一个镜头对应的第三融合特征，确定与至少一个镜头各自对应的时序特征。

根据本公开的实施例，根据与至少一个镜头对应的时序特征，确定视频的场景分割信息，可以包括：根据与至少一个镜头各自对应的时序特征，得到与至少一个镜头各自对应的场景分割信息。根据与至少一个镜头各自对应的场景分割信息，得到视频的场景分割信息。

根据本公开的实施例，根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征，可以包括：利用时序模型处理与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征。时序模型可以包括以下至少之一：循环神经网络(Recurrent Neural Network，RNN)和双向循环神经网络(Bi-directional RecurrentNeural Network，Bi-RNN)。循环神经网络可以包括长短期记忆网络(Long Short-TermMemory，LSTM)等。双向循环卷积神经网络模型可以包括双向长短期记忆网络(Bi-directional Long Short-Term Memory，Bi-LSTM)等。此外，长短期记忆网络可以包括基本长短期记忆网络和针对基本长短期记忆网络的改进网络中的至少之一。双向长短期记忆网络可以包括基本双向长短期记忆网络和针对基本双向长短期记忆网络的变形网络中的至少之一。

根据本公开的实施例，由于本公开实施例中的视频场景是时序上有序的连续语义场景，因此，根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征，再根据与至少一个镜头对应的时序特征，确定视频的场景分割信息，能够使得在确定场景分割信息的过程中结合了时序信息，由此，提高了场景分割信息的准确性，进而提高了视频场景分割的准确性。

根据本公开的实施例，根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征，可以包括如下操作。

基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与至少一个镜头对应的时序特征。

根据本公开的实施例，长期依赖信息学习策略可以包括单向长期依赖信息学习策略和双向长期依赖信息学习策略中的之一。镜头集可以是将至少一个镜头进行划分得到的。相邻两个镜头集中的镜头至少部分不同。

根据本公开的实施例，长期依赖信息学习策略可以用于确定镜头的时序特征，在确定镜头的时序特征的过程中，使得时序特征能够体现长期记忆携带的信息。单向长期依赖学习策略可以用于通过正向处理与至少一个镜头对应的镜头特征来确定镜头的时序特征。双向长期依赖学习策略可以用于通过正向和反向处理与至少一个镜头对应的镜头特征来确定镜头的时序特征。

根据本公开的实施例，通过利用长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集来得到镜头对应的时序特征，长期依赖信息学习策略能够实现长期记忆，因此，提高的时序特征的准确性。

根据本公开的实施例，在长期依赖信息学习策略包括单向长期依赖信息学习策略的情况下，基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与至少一个镜头对应的时序特征，可以包括如下操作。

对与至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习，得到与至少一个镜头对应的时序特征。

在长期依赖信息学习策略包括双向长期依赖信息学习策略的情况下，基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与至少一个镜头对应的时序特征，可以包括如下操作。

对与至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习和反向长期依赖信息学习，得到与至少一个镜头对应的时序特征。

根据本公开的实施例，正向长期依赖信息学习可以指利用当前时刻的输入信息和上一时刻的隐藏状态信息进行的长期依赖信息学习。反向长期依赖信息学习可以指利用下一时刻的隐藏状态信息和当前时刻的输入信息进行的长期依赖信息学习。

根据本公开的实施例，至少一个镜头集可以包括N个。第n个镜头集可以包括n_T个镜头。N可以是大于或等于1的整数。T可以是大于1的整数。N可以是大于或等于1且小于或等于N的整数。

根据本公开的实施例，对与至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习，得到与至少一个镜头对应的时序特征，可以包括如下操作。

在1＜t≤T的情况下，根据第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的遗忘特征、第n_t个镜头的更新特征和第n_t个镜头的候选状态特征。根据第n_t-1个镜头的状态特征、第n_t个镜头的遗忘特征、第n_t个镜头的更新特征和第n_t个镜头的候选状态特征，得到第n_t个镜头的状态特征。根据第n_t个镜头的镜头特征、第n_t-1个镜头的隐藏特征和第n_t个镜头的状态特征，得到第n_t个镜头的隐藏特征。根据第n_t个镜头的隐藏特征，得到第n_t个镜头的时序特征。

根据本公开的实施例，t可以是大于或等于1且小于或等于T的整数。N的数值和T的数值可以根据实际业务需求进行配置，在此不作限定。

根据本公开的实施例，在1＜t≤T的情况下，根据第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的遗忘特征、第n_t个镜头的更新特征和第n_t个镜头的候选状态特征，可以包括：根据第一权重、第二权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的遗忘特征。根据第三权重、第四权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的更新特征。根据第五权重、第六权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的候选状态特征。

根据本公开的实施例，根据第一权重、第二权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的遗忘特征，可以包括：根据第一权重和第n_t个镜头的镜头特征，得到第n_t个镜头的第一加权特征。根据第二权重和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的第二加权特征。根据第n_t个镜头的第一加权特征和第二加权特征，得到第n_t个镜头的遗忘特征。

根据本公开的实施例，根据第三权重、第四权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的更新特征，可以包括：根据第三权重和第n_t个镜头的镜头特征，得到第n_t个镜头的第三加权特征。第四权重和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的第四加权特征。根据第n_t个镜头的第三加权特征和第四加权特征，得到第n_t个镜头的更新特征。

根据本公开的实施例，根据第五权重、第六权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的候选状态特征，可以包括：根据第五权重和第n_t个镜头的镜头特征，得到第n_t个镜头的第五加权特征。根据第六权重和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的第六加权特征。根据第n_t个镜头的第五加权特征和第六加权特征，得到第n_t个镜头的候选状态特征。

根据本公开的实施例，根据第n_t-1个镜头的状态特征、第n_t个镜头的遗忘特征、第n_t个镜头的更新特征和第n_t个镜头的候选状态特征，得到第n_t个镜头的状态特征，可以包括：根据第n_t-1个镜头的状态特征和第n_t个镜头的遗忘特征，得到第n_t个镜头的第一特征。根据第n_t个镜头的更新特征和第n_t个镜头的候选状态特征，得到第n_t个镜头的第二特征。根据第n_t个镜头的第一特征和第二特征，得到第n_t个镜头的状态特征。

根据本公开的实施例，根据第n_t个镜头的镜头特征、第n_t-1个镜头的隐藏特征和第n_t个镜头的状态特征，得到第n_t个镜头的隐藏特征，可以包括：根据第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的输出特征。根据第n_t个镜头的输出特征和状态特征，得到第n_t个镜头的隐藏特征。根据第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的输出特征，可以包括：根据第七权重、第八权重、第n_t个镜头的镜头特征和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的输出特征。例如，可以根据第七权重和第n_t个镜头的镜头特征，得到第n_t个镜头的第七加权特征。根据第八权重和第n_t-1个镜头的隐藏特征，得到第n_t个镜头的第八加权特征。根据第n_t个镜头的第七加权特征和第八加权特征，得到第n_t个镜头的输出特征。

根据本公开的实施例，在t＝1的情况下，根据第n₁个镜头的镜头特征，得到第n₁个镜头的遗忘特征、第n₁个镜头的更新特征和第n₁个镜头的候选状态特征。根据第n₁个镜头的遗忘特征、第n₁个镜头的更新特征和第n₁个镜头的候选状态特征，得到第n₁个镜头的状态特征。根据第n₁个镜头的镜头特征和第n₁个镜头的状态特征，得到第n₁个镜头的隐藏特征。根据第n₁个镜头的隐藏特征，得到第n₁个镜头的时序特征。

根据本公开的实施例，可以利用视频场景分割模型来处理视频，得到视频的场景分割信息。视频场景分割模型可以是利用样本视频训练第四深度学习模型得到的。第四深度学习模型可以包括镜头分割模块、表征模块(即表征模型)和分类器。例如，可以将视频输入镜头分割模块，得到至少一个镜头。将至少一个镜头输入表征模型，得到与至少一个镜头各自对应的局部语义特征。将与至少一个镜头各自对应的局部语义特征输入分类器，得到视频的场景分割信息。

根据本公开的实施例，第四深度学习模型还可以包括以下至少之一：全局特征提取模块和时序特征提取模块。例如，可以将与至少一个镜头各自对应的局部语义特征输入全局特征提取模块，得到与至少一个镜头各自对应的全局隐式语义特征。将与至少一个镜头各自对应的全局隐式语义特征输入时序模块，得到与至少一个镜头各自对应的时序特征。将与至少一个镜头各自对应的时序特征输入分类器，得到视频的场景分割信息。

根据本公开的实施例，第四深度学习模型还可以包括深层视觉特征提取模块。可以将至少一个镜头输入深层视觉特征提取模块，得到与至少一个镜头各自对应的深层视觉特征。根据与至少一个镜头各自对应的深层视觉特征，确定与至少一个镜头各自对应的全局显式语义特征。可以确定与至少一个镜头各自对应的浅层视觉特征。视频场景分割模型还可以包括融合模块。可以将与至少一个镜头各自对应的全局隐式语义特征、全局显式语义特征和浅层视觉特征输入融合模块，得到与至少一个镜头各自对应的融合特征。将与至少一个镜头各自对应的融合特征输入时序特征提取模块，得到与至少一个镜头各自对应的时序特征。

根据本公开的实施例，可以先利用第六样本视频训练第四深度学习模型的表征模块。在完成表征模块的训练的情况下，可以固定表征模块的预定模型参数，利用第七样本视频训练第四深度学习模型的其他模块的模型参数。例如，可以将第八样本视频输入第四深度学习模型，得到第八样本视频的样本场景分割信息。将第八样本视频的样本场景分割信息和样本场景标签输入第二损失函数，得到第二损失函数值。根据第二损失函数值调整第四深度学习模型中除表征模块的预定模型参数以外的模型参数，直至满足预定结束条件。将在满足预定结束条件的情况下得到的第四深度学习模型确定为视频场景分割模型。由此，不仅可以减少模型参数的学习量，还可以提高模型的视频场景分割的准确性。

根据本公开的实施例，可以利用第八样本视频联合训练第四深度学习模型。例如，可以将第八样本视频输入第四深度学习模型，得到第八样本视频的样本场景分割信息。将第八样本视频的样本场景分割信息和样本场景标签输入第二损失函数，得到第三损失函数值。根据第三损失函数值调整第四深度学习模型的模型参数，直至满足预定结束条件。将在满足预定结束条件的情况下得到的第四深度学习模型确定为视频场景分割模型。

下面参考图5A、图5B、图5C、图5D、图5E、图5F、图5G、图5H和图5I，结合具体实施例对根据本公开实施例所述的视频场景分割方法做进一步说明。

图5A示意性示出了根据本公开实施例的视频场景分割方法的原理示意图。

如图5A所示，在500A中，对视频501进行镜头分割，得到至少一个镜头502。确定与至少一个镜头502对应的镜头特征503。根据与至少一个镜头502对应的镜头特征503，确定视频501的场景分割信息504。

图5B示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5B所示，在500B中，对视频505进行镜头分割，得到至少一个镜头506。确定与至少一个镜头506对应的局部语义特征507。根据与至少一个镜头506对应的局部语义特征507，确定视频505的场景分割信息508。

图5C示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5C所示，在500C中，对视频509进行镜头分割，得到至少一个镜头510。确定与至少一个镜头510对应的局部语义特征511。根据与至少一个镜头510对应的局部语义特征511，确定与至少一个镜头510对应的时序特征512。根据与至少一个镜头510对应的时序特征512，确定视频509的场景分割信息513。

图5D示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5D所示，在500D中，对视频514进行镜头分割，得到至少一个镜头515。确定与至少一个镜头515对应的局部语义特征516。根据与至少一个镜头515对应的局部语义特征516，确定与至少一个镜头515对应的全局隐式语义特征517。根据与至少一个镜头515对应的全局隐式语义特征517，确定视频514的场景分割信息518。

图5E示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5E所示，在500E中，对视频519进行镜头分割，得到至少一个镜头520。确定与至少一个镜头520对应的局部语义特征521。根据与至少一个镜头520对应的局部语义特征521，确定与至少一个镜头520对应的全局隐式语义特征522。根据与至少一个镜头520对应的全局隐式语义特征522，确定与至少一个镜头520对应的时序特征523。根据与至少一个镜头520对应的时序特征523，确定视频519的场景分割信息524。

图5F示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5F所示，在500F中，对视频525进行镜头分割，得到至少一个镜头526。确定与至少一个镜头526对应的局部语义特征527。根据与至少一个镜头526对应的局部语义特征527，确定与至少一个镜头526对应的全局隐式语义特征528。确定与至少一个镜头526对应的深层视觉特征529。根据与至少一个镜头526对应的深层视觉特征529，确定与至少一个镜头526对应的全局显式语义特征530。根据与至少一个镜头526对应的全局隐式语义特征528和全局显式语义特征530，确定视频525的场景分割信息531。

图5G示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5G所示，在500G中，对视频532进行镜头分割，得到至少一个镜头533。确定与至少一个镜头533对应的局部语义特征534。根据与至少一个镜头533对应的局部语义特征534，确定与至少一个镜头533对应的全局隐式语义特征535。确定与至少一个镜头533对应的深层视觉特征536。根据与至少一个镜头533对应的深层视觉特征536，确定与至少一个镜头533对应的全局显式语义特征537。根据与至少一个镜头533对应的全局隐式语义特征535和全局显式语义特征537，确定与至少一个镜头533对应的时序特征538。根据与至少一个镜头533对应的时序特征538，确定视频532的场景分割信息539。

图5H示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5H所示，在500H中，对视频540进行镜头分割，得到至少一个镜头541。确定与至少一个镜头541对应的局部语义特征542。根据与至少一个镜头541对应的局部语义特征542，确定与至少一个镜头541对应的全局隐式语义特征543。确定与至少一个镜头541对应的深层视觉特征544。根据与至少一个镜头541对应的深层视觉特征544，确定与至少一个镜头541对应的全局显式语义特征545。确定与至少一个镜头541对应的浅层视觉特征546。根据与至少一个镜头541对应的全局隐式语义特征543、全局显式语义特征545和浅层视觉特征546，确定视频540的场景分割信息547。

图5I示意性示出了根据本公开另一实施例的视频场景分割方法的原理示意图。

如图5I所示，在500I中，对视频548进行镜头分割，得到至少一个镜头549。确定与至少一个镜头549对应的局部语义特征550。根据与至少一个镜头549对应的局部语义特征550，确定与至少一个镜头549对应的全局隐式语义特征551。确定与至少一个镜头549对应的深层视觉特征552。根据与至少一个镜头549对应的深层视觉特征552，确定与至少一个镜头549对应的全局显式语义特征553。确定与至少一个镜头549对应的浅层视觉特征554。根据与至少一个镜头549对应的全局隐式语义特征551、全局显式语义特征543和浅层视觉特征554，确定与至少一个镜头549对应的时序特征555。根据与至少一个镜头549对应的时序特征555，确定视频548的场景分割信息556。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他视频场景分割方法，只要能够提高视频场景分割的准确性即可。

图6示意性示出了根据本公开实施例的视觉任务处理方法的流程图。

如图6所示，该方法600包括操作S610～S620。

在操作S610，确定待处理视频的场景分割信息。

在操作S620，根据待处理视频的场景分割信息处理视觉任务。

根据本公开的实施例，待处理视频的场景分割信息可以是利用根据本公开实施例所述的视频场景分割方法确定的。

根据本公开的实施例，可以根据待处理视频的场景分割信息，从待处理视频中确定目标视频片段。根据目标视频片段处理视觉任务，得到视觉任务处理信息。目标视频片段可以包括至少一个目标视频场景。

根据本公开的实施例，由于场景分割信息是根据本公开实施例所述的视频场景分割方法处理待处理视频得到的，本公开实施例的视频场景分割方法能够提高场景分割信息的准确性，因此，根据待处理视频的场景分割信息来处理视觉任务，能够提高视觉任务的视觉任务处理信息的准确性。

根据本公开的实施例，视觉任务可以包括以下至少之一：精彩片段提取任务和对象行为识别任务。

根据本公开的实施例，针对精彩片段提取任务，目标视频片段可以表征精彩片段。精彩片段提取任务可以包括以下至少之一：影视剧精彩片段提取任务和赛事精彩片段提取任务。例如，赛事可以是足球赛事。足球赛事精彩片段可以包括进球片段。影视剧精彩片段可以包括剧情冲突片段。针对对象行为识别任务，可以根据待处理视频的场景分割信息，确定目标视频场景。对目标视频场景进行对象行为识别，得到对象行为识别信息。

下面参考图7，结合具体实施例对根据本公开实施例所述的视觉任务处理方法做进一步说明。

图7示意性示出了根据本公开实施例的视觉任务处理方法的示例示意图。

如图7所示，在700中，待处理视频701为体育赛事视频。视觉任务为精彩片段提取任务。

利用根据本公开实施例所述的视频场景分割方法处理待处理视频701，得到待处理视频701的场景分割信息702。根据场景分割信息702，得到精彩视频片段703。

以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他视觉任务处理方法，只要能够提高视觉任务的视觉任务处理信息的准确性即可。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图8示意性示出了根据本公开实施例的视频场景分割装置的框图。

如图8所示，视频场景分割装置800可以包括获得模块810、第一确定模块820和第二确定模块830。

获得模块810，用于对视频进行镜头分割，得到至少一个镜头。

第一确定模块820，用于确定与至少一个镜头对应的镜头特征。镜头特征包括局部语义特征。局部语义特征表征视频中视频场景之间的局部关联信息。

第二确定模块830，用于根据与至少一个镜头对应的镜头特征，确定视频的场景分割信息。

根据本公开的实施例，第一确定模块820可以包括第一获得子模块。

第一获得子模块，用于基于对比学习策略处理至少一个镜头，得到与至少一个镜头对应的局部语义特征。对比学习策略用于对比学习正样本对和负样本对的局部语义特征。

根据本公开的实施例，第一获得子模块可以包括第一获得单元。

第一获得单元，用于利用表征模型处理至少一个镜头，得到与至少一个镜头对应的局部语义特征。

根据本公开的实施例，表征模型是利用正样本对的样本局部语义特征和负样本对的样本局部语义特征训练自监督模型得到的。正样本对包括第一样本镜头和第二样本镜头。负样本对包括第一样本镜头和第三样本镜头。

根据本公开的实施例，第一样本镜头和第二样本镜头的场景类别相同，第一样本镜头和第三样本镜头的场景类别不同。

根据本公开的实施例，正样本对是从第一样本视频包括的第一样本镜头集中确定的，包括以下之一：

第一样本镜头是从第一样本视频包括的第一样本镜头集中确定的，第二样本镜头是随机从第一样本镜头集中确定的。

第一样本镜头是从第一样本视频包括的第一样本镜头集中确定的。第二样本镜头是第一样本镜头集中与第一样本镜头之间的第一相似度大于或等于第一预定相似度阈值的样本镜头。

根据本公开的实施例，第三样本镜头是根据如下方式之一确定的：

第三样本镜头是从第一样本镜头集中确定的。

第三样本镜头是从第一样本视频包括的第二样本镜头集中确定的，第二样本镜头集和第一样本镜头集之间至少包括不同的样本镜头。

第三样本镜头是从第二样本视频包括的第三样本镜头集中确定的，第二样本视频与第一样本视频不同。

根据本公开的实施例，第三样本镜头是从第一样本镜头集中确定的，包括以下之一：

第三样本镜头是随机从第一样本镜头集中确定的。

第三样本镜头是第一样本镜头集中与第一样本镜头之间的第二相似度小于或等于第二预定相似度闽值的样本镜头。第二预定相似度阈值小于第一预定相似度阈值。

根据本公开的实施例，正样本对是从第四样本镜头集中确定的。第三样本镜头是从第五样本镜头集中确定的。

根据本公开的实施例，第四样本镜头集和第五样本镜头集是对第六样本镜头集进行聚类得到的。第六样本镜头集是对第三样本视频进行镜头分割得到的。

根据本公开的实施例，第四样本镜头集和第五样本镜头集是不同的聚类簇。

根据本公开的实施例，镜头特征还包括全局语义特征。

根据本公开的实施例，第二确定模块830可以包括第一确定子模块。

第一确定子模块，用于根据与至少一个镜头对应的全局语义特征，确定视频的场景分割信息。

根据本公开的实施例，全局语义特征包括以下至少之一：全局显式语义特征和全局隐式语义特征。

根据本公开的实施例，在确定全局语义特征包括全局显式语义特征的情况下，第一确定模块820可以包括第二确定子模块和第三确定子模块。

第二确定子模块，用于确定与至少一个镜头对应的深层视觉特征。

第三确定子模块，用于根据与至少一个镜头对应的深层视觉特征，确定与至少一个镜头对应的全局显式语义特征；

根据本公开的实施例，在确定全局语义特征包括全局隐式语义特征的情况下，第一确定模块820可以包括第四确定子模块和第五确定子模块。

第四确定子模块，用于确定与至少一个镜头对应的局部语义特征。

第五确定子模块，用于根据与至少一个镜头对应的局部语义特征，确定与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，第三确定子模块可以包括第一确定单元和第二确定单元。

第一确定单元，用于根据与至少一个镜头对应的深层视觉特征，确定至少一个镜头之间的第三相似度。

第二确定单元，用于根据至少一个镜头之间的第三相似度，确定与至少一个镜头对应的全局显式语义特征。

根据本公开的实施例，镜头特征还包括浅层视觉特征。

根据本公开的实施例，第一确定子模块可以包括第二获得单元和第三确定单元。

第二获得单元，用于根据与至少一个镜头对应的全局语义特征和浅层视觉特征，得到与至少一个镜头对应的融合特征。

第三确定单元，用于根据与至少一个镜头对应的融合特征，确定视频的场景分割信息。

根据本公开的实施例，第五确定子模块可以包括第三获得单元。

第三获得单元，用于基于注意力策略处理与至少一个镜头对应的局部语义特征，得到与至少一个镜头对应的全局隐式语义特征。

根据本公开的实施例，第三获得单元可以包括划分子单元和第一获得子单元。

划分子单元，用于将至少一个镜头划分为至少一个镜头集，其中，相邻两个镜头集中的镜头至少部分不同。

第一获得子单元，用于基于自注意力策略对与至少一个镜头集对应的局部语义特征集进行M层级处理，得到与至少一个镜头对应的全局隐式语义特征。M是大于或等于1的整数。

在1＜m≤M的情况下，根据第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第二中间语义特征集。第一中间语义集包括的第一中间语义特征用于确定第一查询矩阵、第一键矩阵和第一值矩阵。根据第m层级的与至少一个镜头集对应的第二中间语义特征集和第m-1层级的与至少一个镜头集对应的第一中间语义特征集，得到第m层级的与至少一个镜头集对应的第一中间语义特征集。根据第R层级的与至少一个镜头集对应的第一中间语义特征集，得到与至少一个镜头对应的全局隐式语义特征；

根据本公开的实施例，m是大于或等于1且小于或等于M的整数。R是大于或等于1且小于或等于M的整数。

根据第m-1层级的与至少一个镜头集对应的第一中间语义特征集，确定第m层级的与至少一个镜头集对应的至少一个第一矩阵集。第一矩阵集包括第一查询矩阵、第一键矩阵和第一值矩阵。针对第m层级的至少一个镜头中的镜头，针对与镜头对应的至少一个第一矩阵集中的第一矩阵集，根据第m层级的与镜头对应的第一查询矩阵和第m层级的与至少一个镜头对应的第一键矩阵，得到第m层级的与镜头对应的第一注意力矩阵。根据第m层级的与镜头对应的第一注意力矩阵和第m层级的与镜头对应的第一值矩阵，得到第m层级的与镜头对应的第三中间语义特征。根据第m层级的与镜头对应的至少一个第三中间语义特征，得到第m层级的与镜头对应的第二中间语义特征。

根据本公开的实施例，上述视频场景分割装置800还可以包括：

在m＝1的情况下，根据第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第二中间语义特征集。局部语义特征用于确定第二查询矩阵、第二键矩阵和第二值矩阵。根据第2层级的与至少一个镜头集对应的第二中间语义特征集和第1层级的与至少一个镜头集对应的局部语义特征集，得到第2层级的与至少一个镜头集对应的第一中间语义特征集。

根据第1层级的与至少一个镜头集对应的局部语义特征集，确定第2层级的与至少一个镜头集对应的至少一个第二矩阵集。第二矩阵集包括第二查询矩阵、第二键矩阵和第二值矩阵。针对第2层级的至少一个镜头中的镜头，针对与镜头对应的至少一个第二矩阵集中的第二矩阵集，根据第2层级的与镜头对应的第二查询矩阵和第2层级的与至少一个镜头对应的第二键矩阵，得到第2层级的与镜头对应的第二注意力矩阵。根据第2层级的与镜头对应的第二注意力矩阵和第2层级的与镜头对应的第二值矩阵，得到第2层级的与镜头对应的第三中间语义特征。根据第2层级的与镜头对应的至少一个第三中间语义特征，得到第2层级的与镜头对应的第二中间语义特征。

根据本公开的实施例，第二确定模块可以包括第六确定子模块和第七确定子模块。

第六确定子模块，用于根据与至少一个镜头对应的镜头特征，确定与至少一个镜头对应的时序特征。时序特征表征至少一个镜头之间的时序关系。

第七确定子模块，用于根据与至少一个镜头对应的时序特征，确定视频的场景分割信息。

根据本公开的实施例，第七确定子模块可以包括第四获得单元。

第四获得单元，用于基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与至少一个镜头对应的时序特征。长期依赖信息学习策略包括单向长期依赖信息学习策略和双向长期依赖信息学习策略中的之一。镜头集是将至少一个镜头进行划分得到的。相邻两个镜头集中的镜头至少部分不同。

根据本公开的实施例，在长期依赖信息学习策略包括单向长期依赖信息学习策略的情况下，第四获得单元可以包括第二获得子单元。

第二获得子单元，用于对与至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习，得到与至少一个镜头对应的时序特征。

根据本公开的实施例，在长期依赖信息学习策略包括双向长期依赖信息学习策略的情况下，第四获得单元可以包括第三获得子单元。

第三获得子单元，用于对与至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习和反向长期依赖信息学习，得到与至少一个镜头对应的时序特征。

根据本公开的实施例，至少一个镜头集包括N个。第n个镜头集包括n_T个镜头。N是大于或等于1的整数。T是大于1的整数。n是大于或等于1且小于或等于N的整数。

根据本公开的实施例，t是大于或等于1且小于或等于T的整数。

根据本公开的实施例，场景分割信息包括以下之一：场景二分类信息和场景多分类信息。

图9示意性示出了根据本公开实施例的视觉任务处理装置的框图。

如图8所示，视觉任务处理装置900还可以包括第三确定模块910和处理模块920。

第三确定模块910，用于确定待处理视频的场景分割信息。

处理模块920，用于根据待处理视频的场景分割信息处理视觉任务。

根据本公开的实施例，待处理视频的场景分割信息可以是利用根据本公开实施例所述的视觉任务处理装置确定的。

根据本公开的实施例，视觉任务包括以下至少之一：精彩片段提取任务和对象行为识别任务。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。

图10示意性示出了根据本公开实施例的适于实现视频场景分割方法和视觉任务处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，电子设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储电子设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

电子设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许电子设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如，视频场景分割方法和视觉任务处理方法。例如，在一些实施例中，视频场景分割方法和视觉任务处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到电子设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的视频场景分割方法和视觉任务处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频场景分割方法和视觉任务处理方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频场景分割方法，包括：

对视频进行镜头分割，得到至少一个镜头；

确定与所述至少一个镜头对应的镜头特征，其中，所述镜头特征包括局部语义特征，所述局部语义特征表征所述视频中视频场景之间的局部关联信息；以及

根据与所述至少一个镜头对应的镜头特征，确定所述视频的场景分割信息。

2.根据权利要求1所述的方法，其中，所述确定与所述至少一个镜头对应的镜头特征，包括：

基于对比学习策略处理所述至少一个镜头，得到与所述至少一个镜头对应的局部语义特征，其中，所述对比学习策略用于对比学习正样本对和负样本对的局部语义特征。

3.根据权利要求2所述的方法，其中，所述基于对比学习策略处理所述至少一个镜头，得到与所述至少一个镜头对应的局部语义特征，包括：

利用表征模型处理所述至少一个镜头，得到与所述至少一个镜头对应的局部语义特征；

其中，所述表征模型是利用所述正样本对的样本局部语义特征和所述负样本对的样本局部语义特征训练自监督模型得到的，所述正样本对包括第一样本镜头和第二样本镜头，所述负样本对包括所述第一样本镜头和第三样本镜头；

其中，所述第一样本镜头和所述第二样本镜头的场景类别相同，所述第一样本镜头和所述第三样本镜头的场景类别不同。

4.根据权利要求3所述的方法，其中，所述正样本对是从第一样本视频包括的第一样本镜头集中确定的，包括以下之一：

所述第一样本镜头是从所述第一样本视频包括的第一样本镜头集中确定的，所述第二样本镜头是随机从所述第一样本镜头集中确定的；以及

所述第一样本镜头是从所述第一样本视频包括的第一样本镜头集中确定的，所述第二样本镜头是所述第一样本镜头集中与所述第一样本镜头之间的第一相似度大于或等于第一预定相似度阈值的样本镜头。

5.根据权利要求4所述的方法，其中，所述第三样本镜头是根据如下方式之一确定的：

所述第三样本镜头是从所述第一样本镜头集中确定的；

所述第三样本镜头是从所述第一样本视频包括的第二样本镜头集中确定的，所述第二样本镜头集和所述第一样本镜头集之间至少包括不同的样本镜头；以及

所述第三样本镜头是从所述第二样本视频包括的第三样本镜头集中确定的，所述第二样本视频与所述第一样本视频不同。

6.根据权利要求5所述的方法，其中，所述第三样本镜头是从所述第一样本镜头集中确定的，包括以下之一：

所述第三样本镜头是随机从所述第一样本镜头集中确定的；以及

所述第三样本镜头是所述第一样本镜头集中与所述第一样本镜头之间的第二相似度小于或等于第二预定相似度阈值的样本镜头，其中，所述第二预定相似度阈值小于所述第一预定相似度阈值。

7.根据权利要求3所述的方法，其中，所述正样本对是从第四样本镜头集中确定的，所述第三样本镜头是从第五样本镜头集中确定的；

其中，所述第四样本镜头集和所述第五样本镜头集是对第六样本镜头集进行聚类得到的，所述第六样本镜头集是对第三样本视频进行镜头分割得到的；

其中，所述第四样本镜头集和所述第五样本镜头集是不同的聚类簇。

8.根据权利要求1～7中任一项所述的方法，其中，所述镜头特征还包括全局语义特征；

其中，所述根据与所述至少一个镜头对应的镜头特征，确定所述视频的场景分割信息，包括：

根据与所述至少一个镜头对应的全局语义特征，确定所述视频的场景分割信息。

9.根据权利要求8所述的方法，其中，所述全局语义特征包括以下至少之一：全局显式语义特征和全局隐式语义特征；

其中，在确定所述全局语义特征包括所述全局显式语义特征的情况下，所述确定与所述至少一个镜头对应的镜头特征，包括：

确定与所述至少一个镜头对应的深层视觉特征；以及

根据与所述至少一个镜头对应的深层视觉特征，确定与所述至少一个镜头对应的全局显式语义特征；

其中，在确定所述全局语义特征包括所述全局隐式语义特征的情况下，所述确定与所述至少一个镜头对应的镜头特征，包括：

确定与所述至少一个镜头对应的局部语义特征；以及

根据与所述至少一个镜头对应的局部语义特征，确定与所述至少一个镜头对应的全局隐式语义特征。

10.根据权利要求9所述的方法，其中，所述根据与所述至少一个镜头对应的深层视觉特征，确定与所述至少一个镜头对应的全局显式语义特征，包括：

根据与所述至少一个镜头对应的深层视觉特征，确定所述至少一个镜头之间的第三相似度；以及

根据所述至少一个镜头之间的第三相似度，确定与所述至少一个镜头对应的全局显式语义特征。

11.根据权利要求8～10中任一项所述的方法，其中，所述镜头特征还包括浅层视觉特征；

其中，所述根据与所述至少一个镜头对应的全局语义特征，确定所述视频的场景分割信息，包括：

根据与所述至少一个镜头对应的全局语义特征和浅层视觉特征，得到与所述至少一个镜头对应的融合特征；以及

根据与所述至少一个镜头对应的融合特征，确定所述视频的场景分割信息。

12.根据权利要求9～11中任一项所述的方法，其中，所述根据与所述至少一个镜头对应的局部语义特征，确定与所述至少一个镜头对应的全局隐式语义特征，包括：

基于注意力策略处理与所述至少一个镜头对应的局部语义特征，得到与所述至少一个镜头对应的全局隐式语义特征。

13.根据权利要求12所述的方法，其中，所述基于注意力策略处理与所述至少一个镜头对应的局部语义特征，得到与所述至少一个镜头对应的全局隐式语义特征，包括：

将所述至少一个镜头划分为至少一个镜头集，其中，相邻两个所述镜头集中的镜头至少部分不同；以及

基于自注意力策略对与所述至少一个镜头集对应的局部语义特征集进行M层级处理，得到与所述至少一个镜头对应的全局隐式语义特征，其中，M是大于或等于1的整数。

14.根据权利要求13所述的方法，其中，在所述M是大于1的整数的情况下，

其中，所述基于自注意力策略对与所述至少一个镜头集对应的局部语义特征集进行M层级处理，得到与所述至少一个镜头对应的全局隐式语义特征，包括：

在1＜m≤M的情况下，

根据第m-1层级的与所述至少一个镜头集对应的第一中间语义特征集，得到第m层级的与所述至少一个镜头集对应的第二中间语义特征集，其中，所述第一中间语义集包括的第一中间语义特征用于确定第一查询矩阵、第一键矩阵和第一值矩阵；

根据所述第m层级的与所述至少一个镜头集对应的第二中间语义特征集和所述第m-1层级的与所述至少一个镜头集对应的第一中间语义特征集，得到第m层级的与所述至少一个镜头集对应的第一中间语义特征集；以及

根据第R层级的与所述至少一个镜头集对应的第一中间语义特征集，得到与所述至少一个镜头对应的全局隐式语义特征；

其中，m是大于或等于1且小于或等于M的整数，R是大于或等于1且小于或等于M的整数。

15.根据权利要求14所述的方法，其中，所述根据第m-1层级的与所述至少一个镜头集对应的第一中间语义特征集，得到第m层级的与所述至少一个镜头集对应的第二中间语义特征集，包括：

根据所述第m-1层级的与所述至少一个镜头集对应的第一中间语义特征集，确定所述第m层级的与所述至少一个镜头集对应的至少一个第一矩阵集，其中，所述第一矩阵集包括所述第一查询矩阵、所述第一键矩阵和所述第一值矩阵；以及

针对所述第m层级的所述至少一个镜头中的镜头，

针对与所述镜头对应的至少一个第一矩阵集中的第一矩阵集，

根据所述第m层级的与所述镜头对应的第一查询矩阵和所述第m层级的与所述至少一个镜头对应的第一键矩阵，得到所述第m层级的与所述镜头对应的第一注意力矩阵；

根据所述第m层级的与所述镜头对应的第一注意力矩阵和所述第m层级的与所述镜头对应的第一值矩阵，得到所述第m层级的与所述镜头对应的第三中间语义特征；

根据所述第m层级的与所述镜头对应的至少一个第三中间语义特征，得到所述第m层级的与所述镜头对应的第二中间语义特征。

16.根据权利要求14或15所述的方法，还包括：

在m＝1的情况下，

根据第1层级的与所述至少一个镜头集对应的局部语义特征集，得到第2层级的与所述至少一个镜头集对应的第二中间语义特征集，其中，所述局部语义特征用于确定第二查询矩阵、第二键矩阵和第二值矩阵；以及

根据所述第2层级的与所述至少一个镜头集对应的第二中间语义特征集和所述第1层级的与所述至少一个镜头集对应的局部语义特征集，得到第2层级的与所述至少一个镜头集对应的第一中间语义特征集。

17.根据权利要求16所述的方法，其中，所述根据第1层级的与所述至少一个镜头集对应的局部语义特征集，得到第2层级的与所述至少一个镜头集对应的第二中间语义特征集，包括：

根据所述第1层级的与所述至少一个镜头集对应的局部语义特征集，确定所述第2层级的与所述至少一个镜头集对应的至少一个第二矩阵集，其中，所述第二矩阵集包括所述第二查询矩阵、所述第二键矩阵和所述第二值矩阵；以及

针对所述第2层级的所述至少一个镜头中的镜头，

针对与所述镜头对应的至少一个第二矩阵集中的第二矩阵集，

根据所述第2层级的与所述镜头对应的第二查询矩阵和所述第2层级的与所述至少一个镜头对应的第二键矩阵，得到所述第2层级的与所述镜头对应的第二注意力矩阵；

根据所述第2层级的与所述镜头对应的第二注意力矩阵和所述第2层级的与所述镜头对应的第二值矩阵，得到所述第2层级的与所述镜头对应的第三中间语义特征；

根据所述第2层级的与所述镜头对应的至少一个第三中间语义特征，得到所述第2层级的与所述镜头对应的第二中间语义特征。

18.根据权利要求1～17中任一项所述的方法，其中，所述根据与所述至少一个镜头对应的镜头特征，确定所述视频的场景分割信息，包括：

根据与所述至少一个镜头对应的镜头特征，确定与所述至少一个镜头对应的时序特征，其中，所述时序特征表征所述至少一个镜头之间的时序关系；以及

根据与所述至少一个镜头对应的时序特征，确定所述视频的场景分割信息。

19.根据权利要求18所述的方法，其中，所述根据与所述至少一个镜头对应的镜头特征，确定与所述至少一个镜头对应的时序特征，包括：

基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与所述至少一个镜头对应的时序特征，其中，长期依赖信息学习策略包括单向长期依赖信息学习策略和双向长期依赖信息学习策略中的之一，所述镜头集是将所述至少一个镜头进行划分得到的，相邻两个所述镜头集中的镜头至少部分不同。

20.根据权利要求19所述的方法，其中，在所述长期依赖信息学习策略包括所述单向长期依赖信息学习策略的情况下，所述基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与所述至少一个镜头对应的时序特征，包括：

对与所述至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习，得到与所述至少一个镜头对应的时序特征；

其中，在所述长期依赖信息学习策略包括所述双向长期依赖信息学习策略的情况下，所述基于长期依赖信息学习策略处理与至少一个镜头集对应的镜头特征集，得到与所述至少一个镜头对应的时序特征，包括：

对与所述至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习和反向长期依赖信息学习，得到与所述至少一个镜头对应的时序特征。

21.根据权利要求20所述的方法，其中，所述至少一个镜头集包括N个，第n个所述镜头集包括n_T个所述镜头，N是大于或等于1的整数，T是大于1的整数，n是大于或等于1且小于或等于N的整数；

其中，所述对与所述至少一个镜头集对应的镜头特征集进行正向长期依赖信息学习，得到与所述至少一个镜头对应的时序特征，包括：

在1＜t≤T的情况下，

根据第n_t个所述镜头的镜头特征和第n_t-1个所述镜头的隐藏特征，得到第n_t个所述镜头的遗忘特征、第n_t个所述镜头的更新特征和第n_t个所述镜头的候选状态特征；

根据第n_t-1个所述镜头的状态特征、第n_T个所述镜头的遗忘特征、第n_t个所述镜头的更新特征和第n_T个所述镜头的候选状态特征，得到第n_t个所述镜头的状态特征；

根据第n_T个所述镜头的镜头特征、第n_t-1个所述镜头的隐藏特征和第n_T个所述镜头的状态特征，得到第n_T个所述镜头的隐藏特征；以及

根据第n_T个所述镜头的隐藏特征，得到第n_T个所述镜头的时序特征；

其中，t是大于或等于1且小于或等于T的整数。

22.根据权利要求1～21中任一项所述的方法，其中，所述场景分割信息包括以下之一：场景二分类信息和场景多分类信息。

23.一种视觉任务处理方法，包括：

确定待处理视频的场景分割信息，其中，所述待处理视频的场景分割信息是利用根据权利要求1～22中任一项所述的方法确定的；以及

根据所述待处理视频的场景分割信息处理视觉任务。

24.根据权利要求23所述的方法，其中，所述视觉任务包括以下至少之一：精彩片段提取任务和对象行为识别任务。

25.一种视频场景分割装置，包括：

获得模块，用于对视频进行镜头分割，得到至少一个镜头；

第一确定模块，用于确定与所述至少一个镜头对应的镜头特征，其中，所述镜头特征包括局部语义特征，所述局部语义特征表征所述视频中视频场景之间的局部关联信息；以及

第二确定模块，用于根据与所述至少一个镜头对应的镜头特征，确定所述视频的场景分割信息。

26.一种视觉任务处理装置，包括：

第三确定模块，用于确定待处理视频的场景分割信息，其中，所述待处理视频的场景分割信息是利用根据权利要求25所述的装置确定的；以及

处理模块，用于根据所述待处理视频的场景分割信息处理视觉任务。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～24中任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～24中任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～24中任一项所述的方法。