CN117729391A

CN117729391A - 一种视频分割方法、装置、计算机设备、介质及产品

Info

Publication number: CN117729391A
Application number: CN202311260980.4A
Authority: CN
Inventors: 张浩鑫; 黄溯源
Original assignee: Shuhang Technology Beijing Co ltd
Current assignee: Shuhang Technology Beijing Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2024-03-19

Abstract

本申请实施例公开了一种视频分割方法、装置、计算机设备、介质及产品，其中方法包括：获取待分割视频，对待分割视频对应的图像序列中每帧图像进行图像特征提取，得到每帧图像的图像特征；获取参考动作集中每个参考动作的提示文本，任一参考动作的提示文本是对任一参考动作进行描述的文本；分别对每个参考动作的提示文本进行文本特征提取，得到每个参考动作的文本特征；分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，基于确定的特征差异对待分割视频进行分割，得到待分割视频中所包含的动作以及动作发生的时间段；可有效提高识别视频中所出现动作以及每个动作所发生时间段的识别准确性。

Description

一种视频分割方法、装置、计算机设备、介质及产品

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频分割方法、装置、计算机设备、介质及产品。

背景技术

视频动作分割是将视频序列中的每个时间段与相应的动作标签相关联的过程。传统的动作识别任务仅是对整个视频进行分类，即仅可以确定一个视频所关联的动作，其分类粒度较粗，无法对视频中不同时间段内的动作进行细分。因此，如何准确的识别出一个视频中所出现的所有动作以及每个动作所发生的时间段成为当前研究热点。

发明内容

本申请实施例提供了一种视频分割方法、装置、计算机设备、介质及产品，可有效提高识别视频中所出现动作以及每个动作所发生时间段的识别准确性。

本申请实施例第一方面公开了一种视频分割方法，所述方法包括：

获取待分割视频，对所述待分割视频对应的图像序列中每帧图像进行图像特征提取，得到所述每帧图像的图像特征；

获取参考动作集中每个参考动作的提示文本，任一参考动作的提示文本是对所述任一参考动作进行描述的文本；

分别对所述每个参考动作的提示文本进行文本特征提取，得到所述每个参考动作的文本特征；

分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，基于确定的特征差异对所述待分割视频进行分割，得到所述待分割视频中所包含的动作以及动作发生的时间段。

本申请实施例第二方面公开了一种视频分割装置，所述装置包括：

第一提取单元，用于获取待分割视频，对所述待分割视频对应的图像序列中每帧图像进行图像特征提取，得到所述每帧图像的图像特征；

获取单元，用于获取参考动作集中每个参考动作的提示文本，任一参考动作的提示文本是对所述任一参考动作进行描述的文本；

第二提取单元，用于分别对所述每个参考动作的提示文本进行文本特征提取，得到所述每个参考动作的文本特征；

分割单元，用于分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，基于确定的特征差异对所述待分割视频进行分割，得到所述待分割视频中所包含的动作以及动作发生的时间段。

本申请实施例第三方面公开了一种计算机设备，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本申请实施例第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例第五方面公开了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括程序指令，所述程序指令被处理器执行时实现上述第一方面的方法。

在本申请实施例中，可以获取待分割视频，并可以对待分割视频对应的图像序列中每帧图像进行图像特征提取，得到每帧图像的图像特征；还可以获取参考动作集中每个参考动作的提示文本，任一参考动作的提示文本是对任一参考动作进行描述的文本；以分别对每个参考动作的提示文本进行文本特征提取，得到每个参考动作的文本特征；进一步的，可以分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，并基于确定的特征差异对待分割视频进行分割，得到待分割视频中所包含的动作以及动作发生的时间段。通过上述方式，可以利用基于动作的文本提示辅助视频中动作的识别，以有效提高识别视频中所出现动作以及每个动作所发生时间段的识别准确性。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频分割系统的架构示意图；

图2是本申请实施例提供的一种视频分割方法的流程示意图；

图3a是本申请实施例提供的一种确定存在动作分割需求的示意图；

图3b是本申请实施例提供的一种视频分割网络的结构示意图；

图3c是本申请实施例提供的另一种视频分割网络的结构示意图；

图3d是本申请实施例提供的又一种视频分割网络的结构示意图；

图4是本申请实施例提供的另一种视频分割方法的流程示意图；

图5是本申请实施例提供的一种视频分割装置的结构示意图；

图6是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提出了一种视频分割方案，该视频分割方案原理如下：对于待分割视频，可以结合参考动作集中每个参考动作的提示文本，确定该待分割视频中所包含的动作以及动作发生的时间段。可选的，可以对待分割视频对应的图像序列中的每帧图像进行图像特征提取，以得到用于表征每帧图像对应的图像特征；还可以对每个参考动作的提示文本进行文本特征提取，以得到用于表征每个参考动作的文本特征。进一步的，可以基于每帧图像的图像特征以及每个参考动作的文本特征，确定该待分割视频中所包含的动作以及动作发生的时间段。例如，可以分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，以基于确定的特征差异对所述待分割视频进行分割，得到待分割视频中所包含的动作以及动作发生的时间段。

通过本申请实施例中的视频分割方案，可以基于动作的文本提示辅助视频中动作的识别，以识别出视频帧中每一帧的图像所包含的动作，进而可以基于每一帧图像所包含的动作将一个视频分割成多个连续的时间段，以实现对每个时间段的分类，并确定每个时间段发生的动作，准确确定每个动作发生的时间点，从而可以实现更精细的时间段分类和识别每个时间段在视频中的起点和终点，提高动作识别准确性；综上，可以有效提高识别视频中所出现动作以及每个动作所发生时间段的识别准确性。

在具体实现中，上述所提及的视频分割方案的执行主体可以是计算机设备，该计算机设备可以是终端或者服务器。此处所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等设备；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

示例的，当计算机设备为服务器时，本申请实施例提供了一种视频分割系统，如图1所示，该视频分割系统可包括至少一个终端和至少一个服务器；终端可以获取待分割视频，并将获取到的待分割视频上传至服务器(即计算机设备)，以使服务器可以采用视频分割方案对待分割视频进行视频分割。

基于上述所提供的视频分割方案，本申请实施例提供了一种视频分割方法，该视频分割方法可由上述所提及的计算机设备执行。请参阅图2，该视频分割方法包括但不限于以下步骤：

S201，获取待分割视频，对待分割视频对应的图像序列中每帧图像进行图像特征提取，得到每帧图像的图像特征。

其中，待分割视频可以是任意类型、以及任意时长的视频，如待分割视频可以是综艺、游戏、音乐、影视等类型中的任意一种视频，如待分割视频可以是时长为5秒或10分钟等时长的视频。

在一种实现方式中，可以在获取到针对视频的动作分割需求时，触发执行步骤S201中的获取待分割视频操作。

可选的，可以在计算机设备获取到针对待分割视频的动作分割请求，确定获取到针对待分割视频的动作分割需求，该动作分割请求可以由一对象(可以是指任一用户)在用户操作界面上执行相关操作，而触发生成动作分割请求。如当对象需要确定一个视频中所包含的动作以及发生动作的时间段，则可以在所使用的终端所输出的用户操作界面上执行相关操作，以向计算机设备发送针对待分割视频的动作分割请求。例如，参见图3a所示，对象所使用的终端的终端屏幕上可以显示一个用户操作界面，该用户操作界面可以至少包括视频输入区域301以及确认控件302。若对象想要得到一个视频中所包含的动作以及发生动作的时间段，则可以先在视频输入区域301中输入待分割视频的相关信息(如可以直接是该待分割视频，或者是该目待分割视频对应的链接地址)；然后，可以对确认控件302执行触发操作(如点击、按压等操作)；在终端检测到确认控件302被触发之后，可以基于输入区域301中的信息获取到待分割视频，而在终端获取到待分割视频之后，即可以向计算机设备发送携带有待分割视频的动作分割请求。

可选的，可以在触发一个分割定时任务时，确定获取到针对待分割视频的动作分割需求。如可以设置一个分割定时任务，当触发了针对该分割定时任务中的触发条件时，则可以确定获取到动作分割需求。在一个实施例中，在某一指定区域可以存储有大量的视频，则触发条件可以是当前时间到达预设处理时间，或指定存储区域的剩余存储空间超过预设剩余存储空间等等。其中，待分割视频可以是该指定区域中的一个视频。

其中，待分割视频对应的图像序列可以是该待分割视频所包含的所有图像帧(或称之为视频帧)；或者，也可以是对该待分割视频所包含的所有图像帧进行抽帧处理之后的图像帧序列。即在获取待分割视频之后，可以对待分割视频进行抽帧处理，以得到该待分割视频对应的图像序列。

可选的，基于抽帧处理得到图像序列的具体实现可以是：按照目标抽帧方式从该待分割视频中抽取帧图像，以得到图像序列。其中，目标抽帧方式可以包括时间抽帧方式，设置总帧数的均匀抽帧方式，等等。

在一个实施例中，可以根据目标抽帧方式为时间抽帧方式的方式从待分割视频中抽取帧图像，以得到图像序列。具体地，可以依照预设时间间隔从待分割视频中抽取帧图像，以得到图像序列。其中，该预设时间间隔可以是预先设定的，例如预设时间间隔可以为1秒，2秒等等，本申请实施例对此不作具体限定。

举例来说，如果预设时间间隔为1秒，则可以依照1秒的时间间隔从待分割视频中抽取1帧图像。那么假设待分割视频的时长为T秒，则从待分割视频的每1秒对应的视频中抽取1帧图像，那么服务器可以从待分割视频中抽取的图像帧数为T。

在一个实施例中，可以根据目标抽帧方式为设置总帧数的均匀抽帧方式的方式从待分割视频中抽取帧图像，以得到图像序列。具体第，可以将待分割视频划分为数量为总帧数的多个视频分段，然后再从每个视频分段中选取一帧图像，并将每个视频分段所选选取的图像组合为图像序列。其中，总帧数可以是预先设定的，例如总帧数为10，20等等，本申请实施例对此不作具体限定。

举例来说，如果总帧数为10，则可以将待分割视频划分为10个视频分段；在得到10个视频分段之后，则可以在每个视频分段中抽取1帧图像，那么从待分割视频中抽取的图像帧数为10。

在一种实现方式中，步骤S201中的图像特征提取操作可以是通过调用视频分割网络得到的，该视频分割网络可以包括图像特征提取网络(或称之为图像编码器(ImageEncoder))以及文本特征提取网络(或称之为文本编码器(Text Encoder))，如该视频分割网络可如图3b所示。其中，图像特征提取网络可以用于对图像进行图像特征提取，以得到图像对应的特征；该图像特征提取网络也可以称之为是图像编码器(Image Encoder)，因为该图像特征提取网络是对帧级图像进行图像特征提取，即通过该图像特征提取网络可以提取待分割视频的帧级特征，则该图像特征提取网络也可以称之为是帧级图像编码器(Framewise Image Encoder)。文本特征提取网络用于对文本进行文本特征提取，以得到文本对应的特征；该文本特征提取网络也可以称之为是文本编码器(Text Encoder)。

基于此可知，每帧图像的图像特征可以是通过调用视频分割网络中的图像特征提取网络得到的。具体实现中，可以将待分割视频对应的图像序列中每帧图像输入该图像特征提取网络，以使该图像特征提取网络对每帧图像进行图像特征提取，以得到每帧图像的图像特征。

其中，图像特征提取网络可以是具有提取图像中图像特征功能的网络，例如，该图像特征提取网络可以是resnet网络、vit网络等。在一个实施例中，图像特征提取网络可以是CLIP(Contrastive Language-Image Pre-training)网络中用于进行图像特征提取的网络。CLIP网络是一种基于对比文本-图像对的预训练模型，也可以说是一种基于对比学习的多模态模型，CLIP网络的输入数据是文本-图像对，CLIP网络可以通过对文本和图像进行对比学习，学习到文本-图像对的匹配关系。CLIP网络中可以包括用于进行图像特征提取的网络，以及用于进行文本特征提取的网络。CLIP网络是一个已利用大量的训练样本进行预训练，且网络效果比较好的网络，在图像以及文本上的表征效果比较好，考虑到CLIP网络这一优势，可以利用CLIP网络中用于进行图像特征提取的网络，对待分割视频对应的图像序列中每帧图像进行图像特征提取，以得到每帧图像的图像特征。

在一种实现方式中，步骤S201中的图像特征提取操作的具体实现还可以是：首先，可以分别对待分割视频对应的图像序列中的每帧图像进行图像特征提取，以得到每帧图像的初始图像特征；进一步的，可以获取图像序列中各帧图像之间的时间关联信息，并依照时间关联关系对每帧图像的初始图像特征进行特征提取，得到每帧图像的图像特征。

在此实施方式中，同样可以通过调用视频分割网络得到每帧图像的图像特征，在这种情况下，图像特征提取网络可以包括第一特征提取网络以及第二特征提取网络，例如，此时视频分割网络的网络结构可如图3c所示。第一特征提取网络可以对图像本身所包含的信息进行特征提取，第二特征提取网络可以获取图像序列中各帧图像之间的时间关联信息，并依照时间关联关系对每帧图像进行特征提取。基于此可知，每帧图像的初始图像特征可以是通过视频分割网络的图像特征提取网络中的第一特征提取网络提取得到的；每帧图像的图像特征可以是通过视频分割网络的图像特征提取网络中的第二特征提取网络，获取图像序列中各帧图像之间的时间关联信息，并依照时间关联关系对每帧图像的初始图像特征进行特征提取得到的。通过第一特征提取网络以及第二特征提取网络的结合，不仅可以提取到视频中的帧级特征，还可以更好地利用视频中的时序信息，以加强对图像的表征效果。

其中，第一特征提取网络可以是具有图像编码功能的网络，例如，第一特征提取网络可以是CLIP网络中用于进行图像特征提取的网络。即可以利用CLIP网络中用于进行图像特征提取的网络，对待分割视频对应的图像序列中每帧图像进行图像特征提取，以得到每帧图像的初始图像特征。此处的第一特征提取网络的功能可以等效于上述提及的图像特征提取网络。

其中，第二特征提取网络可以是一个视觉时序适配器(Visual TemporalAdapter)，视觉时序适配器可以接收帧级特征以整合时间信息并保持原始特征的形状。视觉时序适配器可以采用时序卷积网络(Temporal Convolutional Networks，TCN)构成，即第二特征提取网络可以是TCN。TCN旨在用于建模序列数据，其核心思想是通过卷积层捕捉时间序列数据中的时间依赖关系。TCN可由多个卷积块组成，每个卷积块包含多个一维卷积层。每层卷积核的大小和步幅可以自由调整，以提取不同时间尺度的特征。这种灵活性使得TCN能够在各种时间分辨率下提取有用的时间特征，视觉时序适配器所输出的是时序建模后的帧级特征。即通过第二特征提取网络对第一特征提取网络输出的初始图像特征进行再次特征提取，可以使得最终得到的每帧图像对应的图像特征中还可以包含各帧图像之间的时间依赖关系。

例如，针对此处对第一特征提取网络以及第二特征提取网络的描述可知，该视频分割网络还可如图3d所示，图3d中的帧级图像编码器(Frame wise Image Encoder)等效于第一特征提取网络，视觉时序适配器等效于第二特征提取网络。

基于此可知，在调用视频分割网络来实现步骤S201中图像特征提取操作的具体实施方式可以是：可以将待分割视频对应的图像序列中每帧图像输入第一特征提取网络，以使第一特征提取网络对每帧图像进行图像特征提取，以得到每帧图像的初始图像特征。然后，将每帧图像的初始图像特征输入第二特征提取网络，以使第二特征提取网络获取图像序列中各帧图像之间的时间关联信息，并依照时间关联关系对每帧图像的初始图像特征进行特征提取，以得到每帧图像的图像特征。

例如，参见图3d所示，x₁，x₂，x₃，x₄，x₅，…，x_T可以表示：待分割视频对应的图像序列中每帧图像通过第一特征提取网络所输出的初始图像特征，其中，x₁可以表示：图像序列中第一帧图像对应的初始图像特征，依次类推，x_T可以表示：图像序列中第T帧图像对应的初始图像特征。可以表示：每帧图像的初始图像特征通过第二特征提取网络所输出的图像特征，其中，/>可以表示：图像序列中第一帧图像对应的图像特征，依次类推，/>可以表示：图像序列中第T帧图像对应的图像特征。

S202，获取参考动作集中每个参考动作的提示文本。

其中，参考动作集(或可称之为是Class Context)中的参考动作可以是“take(拿走)”、“put(拿起)”、“fold(打开)”等动作。任一参考动作的提示文本是对任一参考动作进行描述的文本。

在一种实现方式中，一个参考动作的提示文本可以是由该参考动作本身的文字描述以及可学习提示所组合而成的。基于此可知，步骤S202的具体实现可以是：可以获取参考动作集中每个参考动作的文字描述信息；并可以获取针对参考动作集的可学习提示；该可学习提示文本可以是对每个参考动作进行提示描述的信息；在获取到这两种信息之后，可以分别将每个参考动作的文字描述信息与可学习提示进行拼接，以得到每个参考动作的提示文本。

需要理解的是，此处的可学习提示可以是针对参考动作集的提示，即参考动作集对应一个可学习提示，且针对一个参考动作而言，该参考动作的文字描述信息与可学习提示拼接而成的提示文本是一个完整且通顺的语句。

S203，分别对每个参考动作的提示文本进行文本特征提取，得到每个参考动作的文本特征。

在一种实现方式中，步骤S203中的文本特征提取操作可以是通过调用视频分割网络得到的，如图3a或图3b所示，该视频分割网络可以包括文本特征提取网络，该文本特征提取网络可以用于对文本进行文本特征提取，以得到文本对应的特征。其中，该文本特征提取网络可以是具有提取文本中文本特征功能的网络，例如，该文本特征提取网络可以是transformer网络、bert网络等。可以理解的是，transformer网络可以包括编码器以及解码器，则此处的文本特征提取网络可以是指transformer网络中的编码器。

其中，文本特征提取网络旨在接收指定感兴趣类别(即此处的参考动作)的文本描述，如“take”、“put”或“fold”。这些文本描述可以和一个可学习的提示拼接在一起，经过文本特征提取网络后输出固定尺寸的文本特征，其中每个文本特征对应于一个特定的动作类别(即参考动作)。

基于此可知，每个参考动作的文本特征可以是通过调用视频分割网络中的文本特征提取网络得到的。具体实现中，可以将每个参考动作的提示文本输入该文本特征提取网络，以使该文本特征提取网络分别对每个参考动作的提示文本进行文本特征提取，得到每个参考动作的文本特征。

例如，参见图3d所示所涉及的可学习提示(或可称之为Learnable Context)：V₁，V₂，…，V_M可以表示可学习提示中的每个字符。t₁，t₂，t₃，t₄，t₅，…，t_C可以表示：参考动作集中每个参考动作的提示文本通过文本特征提取网络所输出的文本特征，其中，t₁可以表示：参考动作集中第一个参考动作的文本特征，依次类推，t_C可以表示：参考动作集中第C个参考动作的文本特征。

需要理解的是，文本特征提取网络是需要对计算机语言进行处理，则需要先将每个参考动作的提示文本进行嵌入处理，以分别得到每个提示文本对应的嵌入向量；进而对每个提示文本对应的嵌入向量进行文本特征提取，以得到每个参考动作的文本特征，即将每个提示文本对应的嵌入向量输入文本特征提取网络进行文本特征提取，以得到每个参考动作的文本特征。

除了上述描述的将整体的提示文本进行嵌入处理，以得到提示文本对应的嵌入向量之外，还可以以如下方式得到嵌入向量，具体实现中，针对任一参考动作而言，可以先对参考动作的文字描述信息进行嵌入处理，以得到针对该参考动作的嵌入向量，如图3d所示中的CLASS可表征嵌入处理；还可以对可学习提示进行嵌入处理，以得到针对可学习提示的嵌入向量；在得到这两种嵌入向量之后，将这两种嵌入向量进行拼接，拼接后的嵌入向量即为该参考动作的提示文本的嵌入向量。

S204，分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，基于确定的特征差异对待分割视频进行分割，得到待分割视频中所包含的动作以及动作发生的时间段。

可以理解的是，为确定待分割视频中所包含的动作以及动作发生的时间段，也就是确定待分割视频中每帧图像所包含的动作，然后再基于每帧图像所包含的动作对待分割视频进行时间的分割(或者理解为分段)，得到一个或多个时间段，每个时间段所包含的图像中的动作是一样的。基于此可知，为实现对待分割视频的动作分割处理，可以先确定待分割视频对应的图像序列中每帧图像所包含的动作。

在一种实现方式中，可以先分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，以基于确定的特征差异确定每帧图像所包含的动作。需要说明的是，此处在确定特征差异时，针对图像序列中的任一帧图像，是需要将该任一帧图像的图像特征与参考动作集中每个参考动作的文本特征进行相关计算，以得到该任一帧图像的图像特征与参考动作集中每个参考动作的文本特征之间的特征差异，对于一帧图像而言，可以基于一帧图像的图像特征与一个参考动作的文本特征，得到一个特征差异，即对于任一帧图像而言，可以得到对应的多个特征差异。

可选的，一帧图像的图像特征与一个参考动作的文本特征之间的特征差异，可以是通过两个特征(一帧图像的图像特征与一个参考动作的文本特征)之间的相似度来表征的；一帧图像的图像特征与一个参考动作的文本特征之间的相似度越小，表明一帧图像的图像特征与一个参考动作的文本特征之间的特征差异越大，同时也可以表明图像所包含的动作为该参考动作之间的匹配度越低，即图像所包含的动作为该参考动作的概率越小；一帧图像的图像特征与一个参考动作的文本特征之间的相似度越大，表明一帧图像的图像特征与一个参考动作的文本特征之间的特征差异越小，同时也可以表明图像所包含的动作为该参考动作之间的匹配度越高，即图像所包含的动作为该参考动作的概率越大。

在一个实施例中，该相似度可以是余弦相似度，即可以将图像的图像特征与参考动作的文本特征之间的余弦距离作为图像特征与文本特征之间的相似度，且余弦距离与相似度呈负相关；即图像特征与文本特征之间的余弦距离越小，表明图像特征与文本特征之间的相似度越高，或者说图像所包含的动作为该参考动作的概率越大；图像特征与文本特征之间的余弦距离越大，表明图像特征与文本特征之间的相似度越低，或者说图像所包含的动作为该参考动作的概率越小。其中，图像的图像特征与参考动作的文本特征之间的余弦距离，也就是图像的图像特征与参考动作的文本特征之间的余弦值。

那么，确定一帧图像的图像特征与一个参考动作的文本特征之间的特征差异，也就是计算该图像的图像特征与该参考动作的文本特征之间的余弦距离。

另一个实施例中，该相似度可以是内积(点积)结果，也就是说图像的图像特征与参考动作的文本特征之间的相似度可以是通过计算图像的图像特征与参考动作的文本特征之间的内积所得到的，即两个特征之间内积的内积结果可以作为这两个特征之间的相似度，或者说两个特征之间内积的结果可以作为这两个特征之间的特征差异。其中，内积结果与相似度呈正相关关系，内积结果与特征差异呈负相关关系，即两个特征的内积结果越大，则可以表明这两个特征的相似度越大，也可以表明这两个特征之间的特征差异越小；两个特征的内积结果越小，则可以表明这两个特征的相似度越小，也可以表明这两个特征之间的特征差异越大。

那么，确定一帧图像的图像特征与一个参考动作的文本特征之间的特征差异，也就是计算该图像的图像特征与该参考动作的文本特征之间的内积。

基于上述描述可知，计算每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，可以获得一个针对特征的相似矩阵，例如，该相似矩阵可以如图3d中的矩阵A，其中，矩阵A中的每一行中的元素可以表示一帧图像的图像特征与参考动作集中的每个参考动作的文本特征进行内积计算的结果。例如，对于矩阵A中的第一行中的元素表示的是待分割视频中的第一帧图像的图像特征分别与参考动作的文本特征t₁，t₂，t₃，t₄，t₅，…，t_C计算的结果，如/>表示的是待分割视频中的第一帧图像的图像特征与参考动作集中的第一个参考动作的文本特征进行内积计算的结果；/>表示的是待分割视频中的第T帧图像的图像特征与参考动作集中的第C个参考动作的文本特征进行内积计算的结果。

考虑到确定每帧图像所包含的动作的原理是一致的，则下述一个图像序列中的任一帧图像为例对确定该任一帧图像所包含的动作进行具体阐述。可选的，针对图像序列中的任一帧图像，可以从任一帧图像的图像特征与每个参考动作的提示文本所确定的多个特征差异中，选择出最小特征差异，并将最小特征差异对应的参考动作作为任一帧图像所包含的动作。如前所述，一帧图像的图像特征与一个参考动作的文本特征之间的特征差异越小，则可以表明图像所包含的动作为该参考动作之间的匹配度越高，即图像所包含的动作为该参考动作的概率越大，则可以从多个特征差异中选择出最小特征差异，并将最小特征差异对应的参考动作作为任一帧图像所包含的动作。

需要说明的是，如果特征差异是余弦距离计算得到的，则最小特征差异可以是指最小余弦距离。如果特征差异是基于内积计算得到的，则最小特征差异可以是指最大内积结果。

基于上述确定一帧图像所包含的动作的确定方式，可以获取到图像序列中每帧图像所包含的动作。而在获取到图像序列中每帧图像所包含的动作之后，即可以按照连续图像所包含的动作为同一动作的划分规则，将待分割视频对应的图像序列中的图像划分为一个或多个时间段。其中，一个时间段内所有图像包含的动作为同一动作。

例如，假设图像序列中包括10帧图像，其中，第1帧图像与第4帧图像之间所有图像所包含的动作为“put”，第5帧图像与第10帧图像之间所有图像所包含的动作为“fold”；则可以将第1帧图像至第4帧图像的图像划分为一个时间段，且该时间段对应的动作为“put”，并可以将第5帧图像至第10帧图像的图像划分为一个时间段，且该时间段对应的动作为“fold”。

在本申请实施例中，可以基于动作的文本提示辅助视频中动作的识别，以识别出视频帧中每一帧的图像所包含的动作，进而可以基于每一帧图像所包含的动作将一个视频分割成多个连续的时间段，以实现对每个时间段的分类，并确定每个时间段发生的动作，准确确定每个动作发生的时间点，从而可以实现更精细的时间段分类和识别每个时间段在视频中的起点和终点，实现对视频中不同时间段内的动作的细分，提高动作识别准确性；综上，可以有效提高识别视频中所出现动作以及每个动作所发生时间段的识别准确性。另外，可以利用一个基于prompt(提示)的端到端的视频分割网络来实现视频的动作分割任务，以有效提高动作分割的自动化以及智能化，并可以提高动作分割效率。

请参阅图4，图4是本申请实施例提供的另一种视频分割方法的流程示意图，本实施例所描述的视频分割方法可应用于上述的计算机设备，如图4所示，该方法可包括：

S401，获取用于训练视频分割网络的训练样本集，训练样本集中的任一训练样本包括样本视频以及样本动作集中每个样本动作的样本提示文本。

在一种实现方式中，为训练视频分割网络，需要先获取训练该视频分割网络的训练样本即，该训练样本集可以包括一个或多个训练样本，该训练样本集中的任一训练样本可以包括样本视频以及样本动作集中每个样本动作的样本提示文本。

其中，样本视频可以是任意类型、以及任意时长的视频，如样本视频可以是综艺、游戏、音乐、影视等类型中的任意一种视频，如样本视频可以是时长为10秒或5分钟等时长的视频。样本动作可以是“take(拿走)”、“put(拿起)”、“fold(打开)”等动作。此处的样本动作与上述的参考动作可以是相同的，也可以是不相同的，对此不作限定。每个参考动作的样本提示文本也就是对应参考动作的提示文本，具体理解可以参考上述参考动作的提示文本，对此不再赘述。

S402，针对训练样本中任一训练样本，调用视频分割网络对训练样本进行处理，得到样本视频对应的样本图像序列中每帧样本图像的样本图像特征，以及每个样本动作的样本文本特征。

其中，样本视频对应的样本图像序列是指该样本视频对应的图像序列，样本视频对应的图像序列的获取方式可以参加上述描述的待分割视频对应的图像序列的获取方式，此处不再赘述。

在一种实现方式中，如图3b所示，视频分割网络可以包括图像特征提取网络以及文本特征提取网络；图像特征提取网络可以用于对图像进行图像特征提取，文本特征提取网络可以对文本进行文本特征提取。则此处可以调用图像特征提取网络对样本视频对应的样本图像序列中每帧样本图像进行图像特征提取，以得到样本视频对应的样本图像序列中每帧样本图像的样本图像特征；并可以调用文本特征提取网络对每个样本动作的样本提示文本进行文本特征提取，以得到每个样本动作的样本文本特征。

可选的，如图3b或图3d所示，图像特征提取网络包括可以第一特征提取网络以及第二特征提取网络。在这种情况下，获取样本视频对应的样本图像序列中每帧样本图像的样本图像特征的具体实现可以是：可以先调用第一特征提取网络对样本视频对应的样本图像序列中每帧样本图像进行图像特征提取，以得到样本视频对应的样本图像序列中每帧样本图像的初始样本图像特征；然后，可以调用第二特征提取网络获取样本视频对应的样本图像序列中每帧样本图像之间的样本时间关联信息，并依照样本时间关联关系对每帧样本图像的初始样本图像特征进行特征提取，得到样本视频对应的样本图像序列中每帧样本图像的样本图像特征。

需要说明的是，如前所述，第一特征提取网络可以是CLIP网络中用于进行图像特征提取的网络，且CLIP网络是一个已利用大量的训练样本进行预训练，且网络效果比较好的网络，则为不破坏第一特征提取网络的图像表征效果，可以保持第一特征提取网络中的参数不变，即第一特征提取网络可以是一个参数被冻结的网络。简单来说，第一特征提取网络由CLIP的预训练权重初始化，并在训练阶段保持参数不变的网络，通过这种训练方式，不仅可以保证网络的训练效果，还可以有效降低训练开销，因为CLIP是一个比较大的网络，如果再次对该第一特征提取网络进行训练，还需花费大量的训练开销，也可能破快网络原始的图像表征效果。

可见，本申请实施例可以构建一个端到端的视频分割网络，该可以是一个基于CLIP的端到端的网络框架，在CLIP网络的基础上，还利用到学习到的文本提示和即插即用的视觉适配器，可以更好地利用视频序列中的时序信息，并实现更好的零样本学习和跨数据集推理能力，从而提高视频动作分割任务的性能和泛化能力。

S403，基于每帧样本图像的样本图像特征，以及每个样本动作的样本文本特征，构建样本对。

需要说明的是，在进行样本对的构建时，可以从样本图像的角度(维度)来构建样本对，针对一个训练样本中的样本视频来说，该样本视频中的每帧样本图像可以具有对应的样本对。考虑到构建每帧样本图像的样本对的原理是一致的，则下述以一帧样本图像为例对样本的构建进行具体阐述。

在一种实现方式中，针对样本视频中的任一帧样本图像，可以计算任一帧样本图像的样本图像特征与每个样本动作的样本文本特征之间的特征差异，以得到多个样本特征差异，其中，任一帧样本图像的样本图像特征与一个样本动作的样本文本特征可以得到一个样本特征差异。此处计算样本特征差异的具体实现可以上述计算图像的图像特征与参考动作的文本特征之间的特征差异的原始是一致的，此处不再对特征差异的计算进行具体说明。

在得到多个样本特征差异之后，即可以从多个样本特征差异中确定最小样本特征差异，并可以将最小样本特征差异对应的样本动作作为目标样本动作。进一步的，可以将任一帧样本图像对应的样本图像特征、与目标样本动作对应的样本文本特征构建为正样本对；将任一帧样本图像对应的样本图像特征、与除目标样本动作之外的其他样本动作对应的样本文本特征构建为负样本对。最后，可以将构建的正样本对以及负样本对作为样本对，即样本对由正样本对以及负样本对构成。

其中，两个特征的特征差异是基于这两个特征之间的相似度确定的，且相似度与特征差异之间呈负相关关系，即两个特征之间的相似度越小，则这两个特征之间的特征差异越大，两个特征之间的相似度越大，则这两个特征之间的特征差异越小。综上对正样本对以及负样本对构建的描述可知，以任一样本图像来说，可以将与该任一样本图像的样本图像特征相似度最大的样本动作的样本文本特征构建为正样本对，负样本对则是基于该任一样本图像的样本图像特征与其他样本动作的样本文本特征所构建。

其中，任一样本图像的样本图像特征可以与除目标样本动作之外的一个其他样本动作对应的样本文本特征构建为一个负样本对，则如果除目标样本动作之外的其他样本动作的数量为多个，则针对任一样本图像所构建的负样本对的数量也为多个。或者，也可以将针对任一样本图像的多个负样本对的每个负样本对中样本动作对应的样本文本特征，所构建的集合理解为任一样本图像的样本图像特征的负样本集。

例如，假设存在4个样本动作，这4个样本动作对应的样本文本特征分别表征为：动作1、动作2、动作3、动作4；任一样本图像的样本图像特征表征为图像1。如果通过计算确定目标样本动作对应的样本文本特征为动作3，则此处任一样本图像的正样本对包括：(图像1、动作3)，负样本对包括：(图像1、动作1)，(图像1、动作2)，(图像1、动作4)；图像1的负样本集为{动作1，动作2，动作4}。

S404，基于样本对对视频分割网络进行对比训练，得到训练后的视频分割网络。

如前所述，一个样本对中可以包括一个样本图像的样本图像特征以及一个样本动作的样本文本特征；则可以先基于样本对中样本图像的样本图像特征以及样本动作的样本文本特征，生成针对视频分割网络的网络损失值；然后，可以再利用该网络损失值对视频分割网络进行训练，以得到训练后的视频分割网络。需要理解的是，此处样本对中涉及正样本对以及负样本对，此处的训练可以理解为对比训练。

可选的，在利用该网络损失值对视频分割网络进行训练时，可以利用网络损失值修正视频分割网络的网络参数，以得到训练后的视频分割网络。例如，可以按照减少网络损失值的方向，修正视频分割网络的网络参数，以得到训练后的视频分割网络。

如前所述，样本对可以包括正样本对以及负样本对，则可以基于正样本对中包括的特征以及负样本对中包括的特征来对视频分割网络进行训练。在一个实施例中，可以基于样本对中正样本对包括的样本图像的样本图像特征与目标样本动作对应的样本文本特征之间的差异，生成视频分割网络针对正样本对的第一偏差；并可以基于样本对中负样本对包括的样本图像的样本图像特征与非目标样本动作的样本文本特征之间的差异，生成视频分割网络针对负样本对的第二偏差。在得到这两个偏差之后，即可以基于第一偏差以及第二偏差对视频分割网络进行对比训练，以得到训练后的视频分割网络。此处非目标样本动作也就是指除目标样本动作之外的其他样本动作。

基于前述描述也可知，可以先基于第一偏差以及第二偏差确定针对视频分割网络的网络损失值，进而基于该网络损失值对视频分割网络进行训练。

其中，第一偏差可以用于缩小正样本对包含的样本图像的样本图像特征与样本动作的样本文本特征之间的差异，第二偏差可以用于增大负样本对包含的样本图像的样本图像特征与样本动作的样本文本特征之间的差异。

在一个实施例中，样本图像的样本图像特征与样本动作的样本文本特征之间的差异，可以是通过样本图像的样本图像特征与样本动作的样本文本特征之间的相似度来表征的；样本图像的样本图像特征与样本动作的样本文本特征之间的相似度越小，表明样本图像的样本图像特征与样本动作的样本文本特征之间的差异越大，同时也可以表明样本图像所包含的动作为该样本动作之间的匹配度越低，即样本图像所包含的动作为该样本动作的概率较小；样本图像的样本图像特征与样本动作的样本文本特征之间的相似度越大，表明样本图像的样本图像特征与样本动作的样本文本特征之间的差异越小，同时也可以表明样本图像所包含的动作为该样本动作之间的匹配度越高，即样本图像所包含的动作为该样本动作的概率较大。

例如，该相似度可以是余弦相似度，即可以将样本图像的样本图像特征与样本动作的样本文本特征之间的余弦距离作为样本图像特征与样本文本特征之间的相似度，且余弦距离与相似度呈负相关；即样本图像特征与样本文本特征之间的余弦距离越小，表明样本图像特征与样本文本特征之间的相似度越高，或者说样本图像所包含的动作为该样本动作的概率较大；样本图像特征与样本文本特征之间的余弦距离越大，表明样本图像特征与样本文本特征之间的相似度越低，或者说样本图像所包含的动作为该样本动作的概率较小。其中，样本图像的样本图像特征与样本动作的样本文本特征之间的余弦距离，也就是样本图像的样本图像特征与样本动作的样本文本特征之间的余弦值。

那么，确定正样本对中样本图像的样本图像特征与样本动作的样本文本特征之间的差异，也就是计算正样本对所包含的样本图像特征与样本文本特征之间的余弦距离，并可以将该余弦距离，作为视频分割网络针对正样本对的第一偏差。确定负样本对中样本图像的样本图像特征与样本动作的样本文本特征之间的差异，也就是计算负样本对所包含的样本图像特征与样本文本特征之间的余弦距离，并可以将该余弦距离，作为视频分割网络针对负样本对的第二偏差。

又如，该相似度可以是内积结果，即可以将样本图像的样本图像特征与样本动作的样本文本特征之间的内积结果作为样本图像特征与样本文本特征之间的相似度，且内积结果与相似度呈正相关；即样本图像特征与样本文本特征之间的内积结果越小，表明样本图像特征与样本文本特征之间的相似度越低，或者说样本图像所包含的动作为该样本动作的概率较小；样本图像特征与样本文本特征之间的内积结果越大，表明样本图像特征与样本文本特征之间的相似度越高，或者说样本图像所包含的动作为该样本动作的概率较大。

那么，确定正样本对中样本图像的样本图像特征与样本动作的样本文本特征之间的差异，也就是计算正样本对所包含的样本图像特征与样本文本特征之间的内积，并可以将该内积结果作为视频分割网络针对正样本对的第一偏差。确定负样本对中样本图像的样本图像特征与样本动作的样本文本特征之间的差异，也就是计算负样本对所包含的样本图像特征与样本文本特征之间的内积，并可以将该内积结果，作为视频分割网络针对负样本对的第二偏差。

在一个实施例中，基于第一偏差以及第二偏差，生成针对视频分割网络的网络损失值的具体实现可以是：采用目标损失函数基于第一偏差以及第二偏差，生成针对视频分割网络的网络损失值。其中，该目标损失函数可以是对比损失函数，如该对比损失函数可以是NCE(Noise Contrastive Estimation，噪声对比估计)损失函数。

基于此可知，对于任一样本视频而言，可以利用如下公式(1)计算得到该任一样本视频的网络损失值：

L表示针对一个样本视频的网络损失值；T表示一个样本视频中样本图像序列中样本图像的帧数，log()表示对数作用，exp()表示指数作用，τ是超参数；(a,b)表示特征a与特征b之间的内积。x_i表示样本视频中第i个样本图像的样本图像特征，t表示样本动作的样本文本特征，t_j表示样本动作的样本文本特征；t相对于x_i来说是一个正样本，t_j相对于x_i来说是第j个负样本，D表示x_i的负样本集。

(x_i,t_j)表示针对第i个样本图像的负样本对。

可知的是，通过对比学习的思想来进行训练视频分割网络可以扩大不相似的样本图像与样本动作之间的差异，并可以缩小相似的样本图像与样本动作之间的差异，从而提高利用视频分割网络对图像以及动作进行向量化表征的效果。

为更加理解本申请实施例所提出的视频分割方法，下述结合图3d所示的视频分割网络对该视频分割网络的训练过程进行相关阐述。其中训练视频分割网络的具体实现可以包括如下步骤s1-s4：

s1，首先，需要对要做分割的样本视频而言，可以先对该样本视频进行抽帧处理，抽帧之后的图像(即样本图像序列中的每帧样本图像)将会被输入视频分割网络中的帧级图像编码器(Frame-wise Image Encoder)，提取视频的帧级特征，即上述提及的每帧样本图像的初始样本图像特征。其中，帧级图像编码器由CLIP的预训练权重初始化，并在训练阶段保持参数不变，即在视频分割网络中的训练中，帧级图像编码器可以是一个参数被冻结的帧级图像编码器。

s2，接着，每帧样本图像的帧级特征会被输入到视觉时序适配器(VisualTemporal Adapter)当中，特殊设计的适配器可以接收帧级特征以整合时间信息并保持原始特征的形状。视觉时序适配器输出时序建模后的帧级特征，即上述提及的每帧样本图像的样本图像特征。

s3，训练样本中的样本动作的参考提示文本可以输入视频分割网络中的文本编码器。其中，文本编码器旨在接收指定感兴趣类别的文本描述，如“take”、“put”、“fold”等等。这些文本描述会和一个可学习的提示拼接在一起，经过文本编码器后输出固定尺寸的样本文本特征，其中每个样本文本特征对应于一个特定的动作类别，即一个样本文本特征对应一个样本动作。

s4，最后，计算帧级的样本图像特征和样本文本特征之间的内积，以获得关于特征的相似矩阵，例如，该相似矩阵可以参见如图3d中的矩阵A。综上可知，可以通过计算特征之间的相似度来获得动作分割任务的预测结果，此处的动作分割任务也就是针对视频分割网络的训练任务，预测结果可以是指针对该视频分割网络的网络损失值，则可以通过训练优化这个预测结果，得到最后的视频分割网络。

在本申请实施例中，可以构建一个基于prompt(提示)的端到端的视频分割网络，并可以结合到学习到的文本提示进行辅助学习，以提高网络训练效果；并且，该视频分割网络可以是一个基于CLIP的端到端的网络框架，以实现更好的零样本学习和跨数据集推理能力；另外，该视频分割网络中还可以包含一个用于获取视频中个帧图像之间的时间关联关系，则可以更好利用图像序列中的时序信息，以有效提高网络训练效果；进而使得训练后的视频分割网络可以提高视频动作分割任务的性能和泛化能力。

请参阅图5，图5是本申请实施例提供的一种视频分割装置的结构示意图。本实施例中所描述的视频分割装置，包括：

第一提取单元501，用于获取待分割视频，对所述待分割视频对应的图像序列中每帧图像进行图像特征提取，得到所述每帧图像的图像特征；

获取单元502，用于获取参考动作集中每个参考动作的提示文本，任一参考动作的提示文本是对所述任一参考动作进行描述的文本；

第二提取单元503，用于分别对所述每个参考动作的提示文本进行文本特征提取，得到所述每个参考动作的文本特征；

分割单元504，用于分别确定每帧图像的图像特征与每个参考动作的文本特征之间的特征差异，基于确定的特征差异对所述待分割视频进行分割，得到所述待分割视频中所包含的动作以及动作发生的时间段。

在一种实现方式中，所述第一提取单元501，具体用于：

分别对所述待分割视频对应的图像序列中的每帧图像进行图像特征提取，得到所述每帧图像的初始图像特征；

获取所述图像序列中各帧图像之间的时间关联信息，并依照所述时间关联关系对所述每帧图像的初始图像特征进行特征提取，得到所述每帧图像的图像特征。

在一种实现方式中，所述获取单元502，具体用于：

获取参考动作集中每个参考动作的文字描述信息；

获取针对参考动作集的可学习提示；所述可学习提示是对所述每个参考动作进行提示描述的信息；

分别将所述每个参考动作的文字描述信息与所述可学习提示进行拼接，得到所述每个参考动作的提示文本。

在一种实现方式中，所述分割单元504，具体用于：

针对所述图像序列中的任一帧图像，从所述任一帧图像的图像特征与每个参考动作的提示文本所确定的多个特征差异中，选择出最小特征差异，并将所述最小特征差异对应的参考动作作为所述任一帧图像所包含的动作；

获取所述图像序列中每帧图像所包含的动作；

按照连续图像所包含的动作为同一动作的划分规则，将所述待分割视频对应的图像序列中的图像划分为一个或多个时间段；一个时间段内所有图像包含的动作为同一动作。

在一种实现方式中，所述每帧图像的图像特征以及所述每个参考动作的文本特征是调用视频分割网络得到的，所述装置还包括训练单元505，具体用于：

获取用于训练视频分割网络的训练样本集，所述训练样本集中的任一训练样本包括样本视频以及样本动作集中每个样本动作的样本提示文本；

针对所述训练样本集中任一训练样本，调用所述视频分割网络对所述训练样本进行处理，得到样本视频对应的样本图像序列中每帧样本图像的样本图像特征，以及每个样本动作的样本文本特征；

基于所述每帧样本图像的样本图像特征，以及每个样本动作的样本文本特征，构建样本对；

基于所述样本对对所述视频分割网络进行对比训练，得到训练后的视频分割网络。

在一种实现方式中，所述视频分割网络包括图像特征提取网络以及文本特征提取网络；所述训练单元505，具体用于：

调用所述图像特征提取网络对所述样本视频对应的样本图像序列中每帧样本图像进行图像特征提取，得到所述样本视频中每帧样本图像的样本图像特征；

调用所述文本特征提取网络对所述每个样本动作的样本提示文本进行文本特征提取，得到所述每个样本动作的样本文本特征。

在一种实现方式中，所述图像特征提取网络包括第一特征提取网络以及第二特征提取网络；所述训练单元505，具体用于：

调用所述第一特征提取网络对所述样本视频对应的样本图像序列中每帧样本图像进行图像特征提取，得到所述样本视频对应的样本图像序列中每帧样本图像的初始样本图像特征；

调用所述第二特征提取网络获取所述样本视频对应的样本图像序列中每帧样本图像之间的样本时间关联信息，并依照所述样本时间关联关系对所述每帧样本图像的初始样本图像特征进行特征提取，得到所述样本视频对应的样本图像序列中每帧样本图像的样本图像特征。

在一种实现方式中，所述训练单元505，具体用于：

针对所述样本视频中的任一帧样本图像，计算所述任一帧样本图像的样本图像特征与每个样本动作的样本文本特征之间的特征差异，得到多个样本特征差异；

从所述多个样本特征差异中确定最小样本特征差异，并将所述最小样本特征差异对应的样本动作作为目标样本动作；

将所述任一帧样本图像对应的样本图像特征、与所述目标样本动作对应的样本文本特征构建为正样本对；

将所述任一帧样本图像对应的样本图像特征、与除所述目标样本动作之外的其他样本动作对应的样本文本特征构建为负样本对；

将构建的正样本对以及负样本对作为样本对。

在一种实现方式中，所述训练单元505，具体用于：

基于所述样本对中正样本对包括的样本图像的样本图像特征与目标样本动作对应的样本文本特征之间的差异，生成所述视频分割网络针对正样本对的第一偏差；

基于所述样本对中负样本对包括的样本图像的样本图像特征与非目标样本动作的样本文本特征之间的差异，生成所述视频分割网络针对负样本对的第二偏差；

基于所述第一偏差以及所述第二偏差对所述视频分割网络进行对比训练，得到训练后的视频分割网络。

可以理解，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

请参阅图6，图6是本申请实施例提供的一种计算机设备的结构示意图。计算机设备包括：处理器601、存储器602。可选的，该计算机设备还可包括网络接口603。上述处理器601、存储器602以及网络接口603之间可以交互数据。

上述处理器601可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

上述存储器602可以包括只读存储器和随机存取存储器，并向处理器601提供程序指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。其中，所述处理器601调用所述程序指令时用于执行：

在一种实现方式中，所述处理器601，具体用于：

获取参考动作集中每个参考动作的文字描述信息；

在一种实现方式中，所述处理器601，具体用于：

获取所述图像序列中每帧图像所包含的动作；

在一种实现方式中，所述每帧图像的图像特征以及所述每个参考动作的文本特征是调用视频分割网络得到的，所述处理器601，还用于：

在一种实现方式中，所述视频分割网络包括图像特征提取网络以及文本特征提取网络；所述处理器601，具体用于：

在一种实现方式中，所述图像特征提取网络包括第一特征提取网络以及第二特征提取网络；所述处理器601，具体用于：

在一种实现方式中，所述处理器601，具体用于：

将构建的正样本对以及负样本对作为样本对。

在一种实现方式中，所述处理器601，具体用于：

本申请实施例还提供了一种计算机存储介质，该计算机存储介质中存储有程序指令，所述程序执行时可包括如图2或者图4对应实施例中的视频分割方法的部分或全部步骤。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括程序指令，程序指令被处理器执行时可实现上述方法中的部分或全部步骤。例如，该程序指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该程序指令，处理器执行该程序指令，使得该计算机设备执行上述各方法的实施例中所执行的步骤。

以上对本申请实施例所提供的一种视频分割方法、装置、计算机设备、介质及产品进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频分割方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待分割视频对应的图像序列中每帧图像进行图像特征提取，得到所述每帧图像的图像特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取参考动作集中每个参考动作的提示文本，包括：

获取参考动作集中每个参考动作的文字描述信息；

4.根据权利要求1所述的方法，其特征在于，所述基于确定的特征差异对所述待分割视频进行分割，得到所述待分割视频中所包含的动作以及动作发生的时间段，包括：

获取所述图像序列中每帧图像所包含的动作；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述每帧图像的图像特征以及所述每个参考动作的文本特征是调用视频分割网络得到的，所述视频分割网络的训练过程包括：

6.根据权利要求5所述的方法，其特征在于，所述视频分割网络包括图像特征提取网络以及文本特征提取网络；所述调用所述视频分割网络对所述训练样本进行处理，得到所述样本视频对应的样本图像序列中每帧样本图像的样本图像特征，以及每个样本动作的样本文本特征，包括：

7.根据权利要求6所述的方法，其特征在于，所述图像特征提取网络包括第一特征提取网络以及第二特征提取网络；所述调用所述图像特征提取网络对所述样本视频对应的样本图像序列中每帧样本图像进行图像特征提取，得到所述样本视频中每帧样本图像的样本图像特征，包括：

8.根据权利要求5所述的方法，其特征在于，所述基于所述每帧样本图像的样本图像特征，以及每个样本动作的样本文本特征，构建样本对，包括：

将构建的正样本对以及负样本对作为样本对。

9.根据权利要求8所述的方法，其特征在于，所述基于所述样本对对所述视频分割网络进行对比训练，得到训练后的视频分割网络，包括：

10.一种视频分割装置，其特征在于，包括：

11.一种计算机设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-9任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-9任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括程序指令，所述程序指令被处理器执行时实现权利要求1-9任一项所述方法。