CN114299074A

CN114299074A - 一种视频分割方法、装置、设备及存储介质

Info

Publication number: CN114299074A
Application number: CN202111531811.0A
Authority: CN
Inventors: 程星; 吴翔宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-04-08

Abstract

本公开关于一种视频分割方法、装置、设备及存储介质，涉及图像处理领域。本公开实施例至少解决相关技术中，基于场景对视频分割不准确的问题。该方法包括：获取待分割视频，并确定待分割视频所包括的多个视频片段；确定每个视频片段的片段特征；基于每个视频片段的片段特征，以及预训练的自注意力模型，将多个视频片段划分至多个场景；自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定相邻两个视频片段之间的相关性；基于划分得到的多个场景，分割待分割视频。

Description

一种视频分割方法、装置、设备及存储介质

技术领域

本公开涉及计算机领域，尤其涉及一种视频分割方法、装置、设备及存储介质。

背景技术

在视频处理的任务中，可以采用基于卷积神经网络的视频分割方法，按照视频拍摄的场景不同，将视频分割为多个场景。其中，每个场景是由很多个不同的图像组成的视频片段；同时，在每一个视频片段所包括的多个图像帧之间具有较高的相似度以及语义上的连续性。具体的，采用预先训练好的卷积神经网络，提取视频中的每一帧图像的图像特征，并基于图像特征之间的相似度，判断相邻的两个图像帧是否属于同一个场景，并进一步的根据判断结果，对视频进行分割。

但是采用上述视频分割方法，由于卷积神经网络的归纳偏置的特性天然的适用于对图像特征的提取，但是对于相邻图像帧帧的特征的比较、总结的性能不足，基于场景对视频进行分割的结果不够准确。

发明内容

本公开提供一种视频分割方法、装置、设备及存储介质，以至少解决相关技术中，基于场景对视频分割不准确的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频分割方法，包括：获取待分割视频，并确定待分割视频所包括的多个视频片段；确定每个视频片段的片段特征；基于每个视频片段的片段特征，以及预训练的自注意力模型，将多个视频片段划分至多个场景；自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定相邻两个视频片段之间的相关性；基于划分得到的多个场景，分割待分割视频。

可选的，上述确定每个视频片段的片段特征，包括：确定每个视频片段的图像特征以及每个视频片段的文本特征；根据每个视频片段的图像特征以及文本特征，确定每个视频片段的片段特征。

可选的，上述确定每个视频片段的图像特征以及每个视频片段的文本特征，包括：从每个视频片段所包括的多个图像帧中确定关键图像帧；关键图像帧位于多个图像帧中的预设位置；基于关键图像帧以及预训练的第一神经网络，确定关键图像帧的图像特征，并将关键图像帧的图像特征确定为每个视频片段的图像特征；第一神经网络用于对输入的图像帧进行卷积处理，以得到对应的图像特征；确定多个图像帧的文本信息，并根据文本信息以及预训练的第二神经网络，确定每个视频片段的文本特征；第二神经网络用于对输入的文本信息进行卷积处理，以得到对应的文本特征。

可选的，上述基于关键图像帧以及预训练的第一神经网络，确定关键图像帧的图像特征，包括：将关键图像帧裁剪为多个子图像帧，并根据多个子图像帧以及第一神经网络，生成多个子图像帧的图像特征；将多个子图像帧的图像特征进行平均池化，以得到关键图像帧的图像特征。

可选的，上述基于每个视频片段的片段特征，以及预训练的自注意力模型，将多个视频片段划分至多个场景，包括：将每个视频片段的图像特征以及每个视频片段的文本特征输入自注意力模型的第一自注意力层中，并基于第一自注意力层确定的特征权重，对每个视频片段的图像特征以及每个视频片段的文本特征进行加权，以得到每个视频片段的第一融合特征；对于多个视频片段中的相邻视频片段，将相邻视频片段的第一融合特征均输入到自注意力模型的第二自注意力层中，并基于第二自注意力层确定的特征权重，对相邻视频片段的第一融合特征进行加权，以得到对应相邻视频片段的第二融合特征；将对应相邻视频片段的第二融合特征输入到自注意力模型的全连接层中，以确定相邻视频片段之间的相关性；根据相邻视频片段之间的相关性，确定针对相邻视频片段的场景分割结果；场景分割结果指示相邻视频片段是否位于同一场景；根据多个视频片段中每个相邻视频片段的场景分割结果，将多个视频片段划分至多个场景。

根据本公开实施例的第二方面，提供一种视频分割装置，包括获取单元、确定单元以及处理单元；获取单元，用于获取待分割视频；确定单元，用于确定待分割视频所包括的多个视频片段；确定单元，还用于确定每个视频片段的片段特征；处理单元，用于基于每个视频片段的片段特征，以及预训练的自注意力模型，将多个视频片段划分至多个场景；自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定相邻两个视频片段之间的相关性；处理单元，还用于基于划分得到的多个场景，分割待分割视频。

可选的，上述确定单元，具体用于：确定每个视频片段的图像特征以及每个视频片段的文本特征；根据每个视频片段的图像特征以及文本特征，确定每个视频片段的片段特征。

可选的，上述确定单元，具体用于：从每个视频片段所包括的多个图像帧中确定关键图像帧；关键图像帧位于多个图像帧中的预设位置；基于关键图像帧以及预训练的第一神经网络，确定关键图像帧的图像特征，并将关键图像帧的图像特征确定为每个视频片段的图像特征；第一神经网络用于对输入的图像帧进行卷积处理，以得到对应的图像特征；确定多个图像帧的文本信息，并根据文本信息以及预训练的第二神经网络，确定每个视频片段的文本特征；第二神经网络用于对输入的文本信息进行卷积处理，以得到对应的文本特征。

可选的，上述确定单元，具体用于：将关键图像帧裁剪为多个子图像帧，并根据多个子图像帧以及第一神经网络，生成多个子图像帧的图像特征；将多个子图像帧的图像特征进行平均池化，以得到关键图像帧的图像特征。

可选的，上述处理单元，具体用于：将每个视频片段的图像特征以及每个视频片段的文本特征输入自注意力模型的第一自注意力层中，并基于第一自注意力层确定的特征权重，对每个视频片段的图像特征以及每个视频片段的文本特征进行加权，以得到每个视频片段的第一融合特征；对于多个视频片段中的相邻视频片段，将相邻视频片段的第一融合特征均输入到自注意力模型的第二自注意力层中，并基于第二自注意力层确定的特征权重，对相邻视频片段的第一融合特征进行加权，以得到对应相邻视频片段的第二融合特征；将对应相邻视频片段的第二融合特征输入到自注意力模型的全连接层中，以确定相邻视频片段之间的相关性；根据相邻视频片段之间的相关性，确定针对相邻视频片段的场景分割结果；场景分割结果指示相邻视频片段是否位于同一场景；根据多个视频片段中每个相邻视频片段的场景分割结果，将多个视频片段划分至多个场景。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器、用于存储处理器可执行的指令的存储器；其中，处理器被配置为执行指令，以实现如第一方面所提供的视频分割方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，包括指令，当指令由电子设备的处理器执行时，使得电子设备执行如第一方面提供的视频分割方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括指令，当指令由电子设备的处理器执行时，使得电子设备执行如第一方面提供的视频分割方法。

上述实施例提供的技术方案至少具有以下有益效果：通过自注意力模型能够充分挖掘特征之间的长程依赖的特性，判断任意两个相邻的视频片段的片段特征之间是否具有相关性，以此来确定上述两个相邻的视频片段是否位于同一场景。这样一来，即可以确定待分割视频所包括的视频片段所在的多个场景，进而能够实现分割待分割视频的结果的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多视频分割系统的结构示意图；

图2是根据一示例性实施例示出的一种视频分割方法的流程示意图之一；

图3是根据一示例性实施例示出的一种视频分割方法的流程示意图之二；

图4是根据一示例性实施例示出的一种视频分割方法的流程示意图之三；

图5是根据一示例性实施例示出的一种视频分割方法的流程示意图之四；

图6是根据一示例性实施例示出的一种视频分割方法的流程示意图之五；

图7是根据一示例性实施例示出的一种视频分割装置的结构示意图；

图8是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

另外，在本公开实施例的描述中，除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B。本文中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，在本公开实施例的描述中，“多个”是指两个或多于两个。

本公开实施例提供的视频分割方法可以适用于视频分割系统。图1示出了该视频分割系统的一种结构示意图。如图1所示，视频分割系统10用于基于场景对视频进行分割，并提高视频分割的准确性。视频分割系统10包括视频分割装置11以及电子设备12。视频分割装置11与电子设备12连接。视频分割装置11与电子设备12之间可以采用有线方式连接，也可以采用无线方式连接，本公开实施例对此不作限定。

视频分割装置11可以用于接收电子设备12发送的视频，例如，视频分割装置11可以用于接收电子设备12待分割视频，并将待分割视频裁剪成多个视频片段。进一步的，视频分割装置还可以将多个视频片段划分至多个场景，并根据划分得到场景，确定场景间的场景分割点，并向电子设备发送确定到的场景分割点。

电子设备12可以用于接收视频分割装置11发送的场景分割点，并根据接收到的场景分割点，对待分割视频进行分割。

在本公开实施例涉及的上述视频分割系统10中的电子设备12可以是一台用于分割视频的服务器，也可以是由多台服务器组成的服务器集群，还可以是一个云计算服务中心。

需要说明的，视频分割装置11和电子设备12可以为相互独立的设备，也可以集成于同一设备中，本公开对此不作具体限定。

当视频分割装置11和电子设备12集成于同一设备时，视频分割装置11和电子设备12之间的通信方式为该设备内部模块之间的通信。这种情况下，二者之间的通信流程与“视频分割装置11和电子设备12之间相互独立的情况下，二者之间的通信流程”相同。

在本公开提供的以下实施例中，本公开以视频分割装置11和电子设备12相互独立设置为例进行说明。同时，由于本公开实施例提供的视频分割方法可以应用于上述视频分割装置，也可以应用于包括视频分割装置的电子设备或者其他类似设备，因此，本公开实施例结合附图，以应用于视频分割装置为例，对本公开实施例提供的视频分割方法进行描述。

如图2所示，本公开实施例提供的视频分割方法包括下述S201-S205。

S201、视频分割装置获取待分割视频。

作为一种可能的实现方式，当用户向电子设备发起指示对待分割视频进行分割的操作指令之后，电子设备响应于接收到的操作指令，向视频分割装置发送待分割视频。相应的，视频分割装置接收待分割视频。

需要说明的，待分割视频可以为电子设备的多媒体资源库中预先存储的视频，也可以为用户上传的视频。

S202、视频分割装置确定待分割视频所包括的多个视频片段。

作为一种可能的实现方式，视频分割装置按照预设的时长，将待分割视频分割为多个视频片段。

在一些实施例中，多个视频片段中每个视频片段的时长相同。

示例性的，每个视频片段的时长可以为0.1秒(s)。

S203、视频分割装置确定每个视频片段的片段特征。

其中，片段特征用于标识视频片段所包括的图像帧以及视频片段所包括的文本信息。

作为一种可能的实现方式，视频分割装置可以将每个视频片段所包括的图像帧的图像特征进行合并，以得到每个视频片段的图像特征。

同时，视频分割装置还可以将每个视频片段所包括的图像帧的中的字幕、描述信息等文本信息进行合并，并根据合并后的文本信息确定该视频片段的文本特征。

进一步的，视频分割装置将确定到的图像特征以及文本特征进行融合，以得到每个视频片段的片段特征。

此步骤中的具体实现方式，可以参照本公开实施例的后续描述，此处不再进行赘述。

S204、视频分割装置基于每个视频片段的片段特征以及预训练的自注意力模型，将多个视频片段划分至多个场景。

其中，自注意力模型用于根据相邻两个视频片段的片段特征确定相邻两个视频片段之间的相关性。

作为一种可能的实现方式，视频分割装置依次将相邻的两个视频片段的片段特征输入到自注意力模型中，并根据自注意力模型的输出结果，确定上述两个视频片段的片段特征之间的相关性，进而判断两个视频片段是否为同一个场景，直至为所有相邻的两个视频片段是否为同一个场景。

可以理解的，采用此步骤，可以将多个视频片段划分至多个场景中。

需要说明的，上述自注意力模型为预先训练好的模型，其中包括多个自注意力层以及一个全连接层。每个自注意力层用于计算得到输入的多个特征之间的加权融合特征，全连接层用于计算输入的多个特征之间的相关性。

此步骤的具体实现方式，可以参照本公开实施例的后续描述，此处不再赘述。另外，此步骤中，关于自注意力模型的具体描述可以参照本公开实施例的后续描述或者现有技术，此处不再赘述。

S205、视频分割装置基于划分得到的多个场景，分割待分割视频。

作为一种可能的实现方式，视频分割装置在确定多个视频片段位于多个场景之后，确定相邻两个场景之间的场景分割点。进一步的，视频分割装置向电子设备发送确定到的场景分割点，以使得电子设备基于收到的场景分割点，对待分割视频进行分割。

需要说明的，上述场景分割点，为位于不同的场景中且相邻的视频片段之间的切换时刻。

示例性的，视频片段a与视频片段b相邻，且视频片段a位于场景1中，视频片段b位于场景2中，在这种情况下，场景1与场景2之间的场景分割点为视频片段a的结束时刻，或者为视频片段b的开始时刻。

在一种设计中，为了能够确定每个视频片段的片段特征，且减小设备的计算资源，如图3所示，本公开实施例提供的S203，具体包括下述S2031-S2032。

S2031、视频分割装置确定每个视频片段的图像特征以及每个视频片段的文本特征。

其中，每个视频片段的图像特征用于标识每个视频片段所包括的图像帧，每个视频片段的文本特征用于标识每个视频片段所包括的文本信息。

作为一种可能的实现方式，视频分割装置可以获取每个视频片段所包括的图像帧，并基于每个视频片段所包括的多个图像帧以及预先训练好的图像处理神经网络，确定多个图像帧的图像特征。进一步的，视频分割装置将确定得到的多个图像帧的图像特征进行合并，并将合并得到的图像特征作为该视频片段的图像特征。

另一方面，视频分割装置在获取每个视频片段所包括的图像帧之后，还获取每个图像帧中的文本信息，并基于获取到的文本信息以及预设的文本处理神经网络，确定每个图像帧对应的文本特征。进一步的，视频分割装置将确定得到的多个文本特征进行合并，并将合并得到的问题本特征作为该视频片段的文本特征。

此步骤的具体实现方式，还可以参照本公开实施例的后续描述，此处不再进行赘述。

S2032、视频分割装置根据每个视频片段的图像特征以及文本特征，确定每个视频片段的片段特征。

作为一种可能的实现方式，视频分割装置可以将每个视频片段的图像特征以及文本特征进行合并，得到每个视频片段的片段特征。

作为另外一种可能的实现方式，视频分割装置还可以将确定每个视频片段的片段特征将每个视频片段的图像特征以及每个视频片段的文本特征确定为每个视频片段的片段特征。

上述实施例提供的技术方案至少具有以下有益效果：基于得到的视频片段的图像特征以及文本特征确定每个视频片段的片段特征，能够真实反映视频片段所包括的多个图像帧以及多个图像帧中的文本信息，进而能够实现分割待分割视频的结果的准确性。

在一种设计中，为了能够确定每个视频片段的图像特征以及每个视频片段的文本特征，如图4所示，本公开实施例提供的S2031，具体包括下述S301-S305。

S301、视频分割装置从每个视频片段所包括的多个图像帧中确定关键图像帧。

其中，关键图像帧位于多个图像帧中的预设位置。

作为一种可能的实现方式，视频分割装置基于预先设置好的预设位置，从多个图像帧中确定关键图像帧。

需要说明的，预设位置可以为多个图像帧的中间位置。预设位置也可以由视频分割系统的运维人员预先在视频分割装置或者电子设备中进行设置。

示例性的，以一个视频片段包括6个图像帧为例，则关键图像帧可以为6个图像帧中的第3个或者第4个。

可以理解的，采用中间位置的图像帧作为关键图像帧，能够更加准确的采用关键图像帧代表该视频片段中包括的多个图像帧。

S302、视频分割装置基于关键图像帧以及预训练的第一神经网络，确定关键图像帧的图像特征。

其中，第一神经网络用于对输入的图像帧进行卷积处理，以得到对应的图像特征。

作为一种可能的实现方式，视频分割装置将关键图像帧输入到第一神经网络中，以使得第一神经网络输出关键图像帧的图像特征。

示例性的，第一神经网络可以为resnet50网络。

S303、视频分割装置将关键图像帧的图像特征确定为每个视频片段的图像特征。

S304、视频分割装置确定多个图像帧的文本信息。

作为一种可能的实现方式，视频分割装置基于预设的光学字符识别(opticalcharacter recognition,OCR)模型对每个视频频段所包括的多个图像帧进行处理，以获取多个图像帧中的文本信息。

需要说明的，上述文本信息可以为多个图像帧中的字幕，也可以为多个图像帧中描述信息，还可以为多个图像帧中的场景信息。

S305、视频分割装置根据文本信息以及预训练的第二神经网络，确定每个视频片段的文本特征。

其中，第二神经网络用于对输入的文本信息进行卷积处理，以得到对应的文本特征。

作为一种可能的实现方式，视频分割装置将获取到的多个图像帧中的文本信息输入到第二神经网络中，并将第二神经网络输出的结果作为该视频片段的文本特征。

示例性的，第二神经网络可以为bert模型中的编码(encoder)部分。

需要说明的，在第二神经网络为encoder部分的情况下，视频片段的文本特征可以为一个768维的文本特征。

上述实施例提供的技术方案至少具有以下有益效果：采用关键图像帧的图像特征反映视频片段所包括的图像帧的图像特征，以及采用多个图像帧的文本特征反映视频片段所包括的图像帧中的文本信息的文本特征，能够大幅减少视频分割装置或者电子设备的计算资源，提够处理速度。

在一种设计中，为了能够确保第一神经网络能够充分对关键图像帧中的内容进行学习，如图5所示，本公开实施例提供的S302，具体可以包括S3021-S3023。

S3021、视频分割装置将关键图像帧裁剪为多个子图像帧。

其中，每个子图像帧的大小相同。

作为一种可能的实现方式，视频分割装置基于预设的大小，将关键图像帧裁剪为多个子图像帧。

在一些实施例中，视频分割装置可以按照预设的大小，采用滑动步长的裁剪方式对关键图像帧进行裁剪。

示例性的，每个子图像帧的大小可以为224*224。

S3022、视频分割装置根据多个子图像帧以及第一神经网络，生成多个子图像帧的图像特征。

作为一种可能的实现方式，视频分割装置将多个子图像帧输入到第一神经网络中，以获得第一神经网络输出的多个子图像帧的图像特征。

作为另外一种可能的实现方式，视频分割装置将多个子图像帧中的每个子图像帧进行数据增强操作，以得到多个增强子图像帧。进一步的，视频分割装置将多个增强子图像帧变换为张量数据，并将变换的到的张量数据输入到第一神经网络中，以获的第一神经网络输出的多个子图像帧的图像特征。

需要说明的，上述增强操作可以为cutout增强方式。同时，视频分割装置可以利用pytouch将多个增强子图像帧变换为维度为[b，3,224,224]的张量数据。

其中，b为多个子图像帧的数量，3为每个子图像帧的维数，224为每个子图像帧的大小。

示例性的，第一神经网络包括有4个不同的卷积层layer1、layer2、layer3以及layer4，每一个卷积层都包括有多个block，每个block由三层卷积组成。输入到第一神经网络的维度为[b，3,224,224]的张量数据依次经过上述4个卷积层，最终输出为维度为[b，2048,7,7]的张量数据。由此，视频分割装置将输出得到的张量数据作为每个子图像帧的图像特征。

以下，还介绍了一种第一神经网络的训练方法：

在训练过程的样本过程中，视频分割装置将获取到的样本图像帧裁剪为多个子样本图像帧。进一步的，视频分割装置基于上述cutout增强方式对每个子样本图像帧进行增强处理，以得到多个增强子样本图像帧，并将得到的多个增强子样本图像帧变换为样本张量数据。从而，视频分割装置可以将样本张量数据作为样本，对第一神经网络进行训练。

需要说明的，此步骤中获取样本数据的过程，可以参照上述S3022中第二种实现方式中的具体描述，此处不再进行赘述。

S3023、视频分割装置将多个子图像帧的图像特征进行平均池化，以得到关键图像帧的图像特征。

作为一种可能的实现方式，视频分割装置对多个子图像帧的图像特征进行平均池化操作处理，并将处理得到的图像特征作为关键图像帧的图像特征。

此步骤中，进行平均池化操作的实现方式，可以参照现有技术，此处不再进行赘述。

上述实施例提供的技术方案至少具有以下有益效果：将关键图像帧裁剪为多个子图像帧，并利用多个子图像帧以及第一神经网络确定关键图像帧的图像特征。由于第一神经网络能够从多个子图像帧中学习到更多的特征，因此，确定到的关键图像帧的图像特征更加准确、充分，从而提高确定到的图像特征的准确性。

在一种设计中，为了能够将多个视频片段划分至多个场景，如图6所示，本公开实施例提供的S204，具体包括下述S2041-S2047。

S2041、视频分割装置将每个视频片段的图像特征以及每个视频片段的文本特征输入自注意力模型的第一自注意力层中，得到每个视频片段的图像特征的特征权重以及每个视频片段的文本特征的特征权重。

示例性的，以第一自注意力层中输入的图像特征为a、文本特征为b为例，视频分割装置将每个视频片段的图像特征为a、文本特征为b输入到第一自注意力层中，第一自注意力层对特征图像特征a、文本特征b进行学习，以得到图像特征a的特征权重α以及文本特征b的特征权重β。

可以理解的，第一自注意力层输出的特征权重，能够表征输入的图像特征与文本特征之间的相关性及依赖性。

以下，结合第一自注意力层中的公式对第一自注意力层确定特征权重的过程进行说明。以图像特征的特征权重为例，每个视频片段的图像特征的特征权重满足以下公式：

其中，S为每个视频片段的图像特征的特征权重，Q为上述视频片段的图像特征的query转换向量，K^T为上述视频片段的图像特征的的key转换向量的转置，V为上述视频片段的图像特征的的value转换向量，d为在第一自注意力层中输入的特征的个数。

对于视频片段的文本特征的确定方式，同样可以参考上述公式，此处不再进行赘述。

S2042、视频分割装置基于第一自注意力层确定的特征权重，对每个视频片段的图像特征以及每个视频片段的文本特征进行加权，以得到每个视频片段的第一融合特征。

作为一种可能的实现方式，视频分割装置根据每个视频片段的图像特征的特征权重以及每个视频片段的文本特征的特征权重，对每个视频片段的图像特征以及每个视频片段的文本特征进行加权，得到每个视频片段的第一融合特征。

示例性的，以上述示例为例，视频分割装置将图像特征a与其特征权重α的乘积，与文本特征b与其特征权重β的乘积之和，作为该视频片段的第一融合特征。

可以理解的，第一融合特征能够将每个视频片段的图像特征以及本文特征进行融合，且第一融合特征能够反映每个视频片段的图像特征与文本特征之间的相关性。

S2043、视频分割装置对于多个视频片段中的相邻视频片段，将相邻视频片段的第一融合特征均输入到自注意力模型的第二自注意力层中，得到相邻视频片段中第一视频片段的特征权重以及第二视频片段的特征权重。

作为一种可能的实现方式，视频分割装置将相邻视频片段中第一视频频段的第一融合特征以及第二视频频段的第一融合特征输入到第二自注意力层中，第二自注意力层对第一视频频段的第一融合特征、第二视频频段的第一融合特征进行学习，以得到第一视频频段的第一融合特征的特征权重α以及第二视频频段的第一融合特征的特征权重β。

可以理解的，第二自注意力层输出的特征权重，能够表征输入的第一视频频段的第一融合特征与第二视频频段的第一融合特征之间的相关性及依赖性。

对于每个视频片段的第一融合特征的特征权重的确定方式，同样可以参考上述公式，此处不再进行赘述。

S2044、视频分割装置基于第二自注意力层确定的特征权重，对相邻视频片段的第一融合特征进行加权，以得到对应相邻视频片段的第二融合特征。

作为一种可能的实现方式，视频分割装置根据相邻视频片段中第一视频频段的第一融合特征的特征权重以及以及第二视频频段的第一融合特征的特征权重，对相邻视频片段中第一视频频段的第一融合特征以及第二视频频段的第一融合特征进行加权，得到相邻视频片段的第二融合特征。

可以理解的，第二融合特征能够将相邻视频片段中第一视频频段的第一融合特征以及以及第二视频频段的第一融合特征进行融合，且第二融合特征能够反映相邻视频片段的第一融合特征之间的相关性。

在一些实施例中，此处得到第二融合特征的过程，可以采用在自注意力模型中的第二自注意力层之后连接一个特征融合层。该特征融合层可以用于执行cls-token操作，并通过cls-token操作将相邻视频片段的第一融合特征进行融合，得到第二融合特征。

在一些实施例中，任意的相邻视频片段的第二融合特征可以为一个1024维的特征。

S2045、视频分割装置将对应相邻视频片段的第二融合特征输入到自注意力模型的全连接层中，以确定相邻视频片段之间的相关性。

作为一种可能的实现方式，视频分割装置将两个相邻视频片段的第二融合特征输入到自注意力模型的FC全连接层中，全连接层经过二分类之后，得到相邻视频片段之间的相关性。

示例性的，视频分割装置将对应相邻视频片段的第二融合特征输入到自注意力模型的全连接层中，全连接层可以基于二分类输出一个分类结果，该分类结果用于反映相邻视频片段之间的相关性。在分类结果为0的情况下，表明该相邻片段之间不相关，在分类结果为1的情况下，表明该相邻片段之间相关。

S2046、视频分割装置根据相邻视频片段之间的相关性，确定针对相邻视频片段的场景分割结果。

其中，场景分割结果指示相邻视频片段是否位于同一场景。

作为一种可能的实现方式，视频分割装置将上述全连接层输出的分类结果确定相邻视频片段之间的相关性，并根据确定到的相关性，确定相邻视频片段是否位于同一场景中。

示例性的，若全连接层输出的分类结果为0，则表明两个相邻视频片段不位于同一场景，若全连接层输出的分类结果为1，则表明两个相邻片段位于同一场景中。

S2047、视频分割装置根据多个视频片段中每个相邻视频片段的场景分割结果，将多个视频片段划分至多个场景。

作为一种可能的实现方式，视频分割装置针对每个相邻视频片段，重复执行上述S2041-S2046，直至在确定到多个视频片段中每个相邻视频片段的场景分割结果之后，将待分割视频所包括的多个视频片段划分至多个场景。

可以理解的，在任意一个场景中，每个相邻片段的场景分割结果都用于指示该相邻视频片段位于同一场景。

上述实施例提供的技术方案至少具有以下有益效果：基于自注意力模型中的多个自注意力层以及全连接层，能够基于相邻视频片段的片段特征之间相互影响的相关性，进而可以确定相邻视频片段之间的相关性。后续的，能够基于连个待处理视频片段之间的相关性，确定两个待处理视频片段是否位于同一场景中。这样一来，即提供了一种能够将所有视频片段划分为多个场景中的实现方式，同时，由于自注意力模型中的多个自注意力层分别用于根据输入的特征确定输入的特征之间的相关性与依赖性，因此最终计算得到的视频片段之间的相关性更加准确，进而确保场景的划分结果更加准确。

另外，本公开还提供一种视频分割装置，用于执行本公开实施例提供的视频分割方法，以解决现有技术中基于场景对视频分割不准确的问题。参照图7所示，该视频分割装置40包括获取单元401、确定单元402以及处理单元403。

获取单元401，用于获取待分割视频。

确定单元402，用于确定待分割视频所包括的多个视频片段。

确定单元402，还用于确定每个视频片段的片段特征。

处理单元403，用于基于每个视频片段的片段特征，以及预训练的自注意力模型，将多个视频片段划分至多个场景。自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定相邻两个视频片段之间的相关性。

处理单元403，还用于基于划分得到的多个场景，分割待分割视频。

可选的，如图7所示，本公开实施例提供的确定单元402，具体用于：

确定每个视频片段的图像特征以及每个视频片段的文本特征。

根据每个视频片段的图像特征以及文本特征，确定每个视频片段的片段特征。

从每个视频片段所包括的多个图像帧中确定关键图像帧。关键图像帧位于多个图像帧中的预设位置。

基于关键图像帧以及预训练的第一神经网络，确定关键图像帧的图像特征，并将关键图像帧的图像特征确定为每个视频片段的图像特征。第一神经网络用于对输入的图像帧进行卷积处理，以得到对应的图像特征。

确定多个图像帧的文本信息，并根据文本信息以及预训练的第二神经网络，确定每个视频片段的文本特征。第二神经网络用于对输入的文本信息进行卷积处理，以得到对应的文本特征。

将关键图像帧裁剪为多个子图像帧，并根据多个子图像帧以及第一神经网络，生成多个子图像帧的图像特征。

将多个子图像帧的图像特征进行平均池化，以得到关键图像帧的图像特征。

可选的，如图7所示，本公开实施例提供的处理单元403，具体用于：

将每个视频片段的图像特征以及每个视频片段的文本特征输入自注意力模型的第一自注意力层中，并基于第一自注意力层确定的特征权重，对每个视频片段的图像特征以及每个视频片段的文本特征进行加权，以得到每个视频片段的第一融合特征。

对于多个视频片段中的相邻视频片段，将相邻视频片段的第一融合特征均输入到自注意力模型的第二自注意力层中，并基于第二自注意力层确定的特征权重，对相邻视频片段的第一融合特征进行加权，以得到对应相邻视频片段的第二融合特征。

将对应相邻视频片段的第二融合特征输入到自注意力模型的全连接层中，以确定相邻视频片段之间的相关性。

根据相邻视频片段之间的相关性，确定针对相邻视频片段的场景分割结果。场景分割结果指示相邻视频片段是否位于同一场景。

根据多个视频片段中每个相邻视频片段的场景分割结果，将多个视频片段划分至多个场景。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图8是本公开提供的一种电子设备的结构示意图。如图8，该电子设备50可以包括至少一个处理器501以及用于存储处理器可执行指令的存储器503。其中，处理器501被配置为执行存储器503中的指令，以实现上述实施例中的视频分割方法。

另外，电子设备50还可以包括通信总线502以及至少一个通信接口504。

处理器501可以是一个处理器(central processing units，CPU)，微处理单元，ASIC，或一个或多个用于控制本公开方案程序执行的集成电路。

通信总线502可包括一通路，在上述组件之间传送信息。

通信接口504，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器503可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理单元相连接。存储器也可以和处理单元集成在一起。

其中，存储器503用于存储执行本公开方案的指令，并由处理器501来控制执行。处理器501用于执行存储器503中存储的指令，从而实现本公开方法中的功能。

在具体实现中，作为一种实施例，处理器501可以包括一个或多个CPU，例如图8中的CPU0和CPU1。

在具体实现中，作为一种实施例，电子设备50可以包括多个处理器，例如图8中的处理器501和处理器507。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，电子设备50还可以包括输出设备505和输入设备506。输出设备505和处理器501通信，可以以多种方式来显示信息。例如，输出设备505可以是液晶显示器(liquid crystal display，LCD)，发光二级管(light emitting diode，LED)显示设备，阴极射线管(cathode ray tube，CRT)显示设备，或投影仪(projector)等。输入设备506和处理器501通信，可以以多种方式接受用户的输入。例如，输入设备506可以是鼠标、键盘、触摸屏设备或传感设备等。

本领域技术人员可以理解，图8中示出的结构并不构成对电子设备50的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

另外，本公开还提供一种计算机可读存储介质，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的视频分割方法。

另外，本公开还提供一种计算机程序产品，包括指令，当指令由处理器执行时，使得处理器执行如上述实施例所提供的视频分割方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种视频分割方法，其特征在于，包括：

获取待分割视频，并确定所述待分割视频所包括的多个视频片段；

确定每个视频片段的片段特征；

基于所述每个视频片段的片段特征，以及预训练的自注意力模型，将所述多个视频片段划分至多个场景；所述自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定所述相邻两个视频片段之间的相关性；

基于划分得到的所述多个场景，分割所述待分割视频。

2.根据权利要求1所述的视频分割方法，其特征在于，所述确定每个视频片段的片段特征，包括：

确定所述每个视频片段的图像特征以及所述每个视频片段的文本特征；

根据所述每个视频片段的图像特征以及文本特征，确定所述每个视频片段的片段特征。

3.根据权利要求2所述的视频分割方法，其特征在于，所述确定所述每个视频片段的图像特征以及所述每个视频片段的文本特征，包括：

从所述每个视频片段所包括的多个图像帧中确定关键图像帧；所述关键图像帧位于所述多个图像帧中的预设位置；

基于所述关键图像帧以及预训练的第一神经网络，确定所述关键图像帧的图像特征，并将所述关键图像帧的图像特征确定为所述每个视频片段的图像特征；所述第一神经网络用于对输入的图像帧进行卷积处理，以得到对应的图像特征；

确定所述多个图像帧的文本信息，并根据所述文本信息以及预训练的第二神经网络，确定所述每个视频片段的文本特征；所述第二神经网络用于对输入的文本信息进行卷积处理，以得到对应的文本特征。

4.根据权利要求3所述的视频分割方法，其特征在于，所述基于所述关键图像帧以及预训练的第一神经网络，确定所述关键图像帧的图像特征，包括：

将所述关键图像帧裁剪为多个子图像帧，并根据所述多个子图像帧以及所述第一神经网络，生成所述多个子图像帧的图像特征；

将所述多个子图像帧的图像特征进行平均池化，以得到所述关键图像帧的图像特征。

5.根据权利要求2-4中任一项所述的视频分割方法，其特征在于，所述基于所述每个视频片段的片段特征，以及预训练的自注意力模型，将所述多个视频片段划分至多个场景，包括：

将所述每个视频片段的图像特征以及所述每个视频片段的文本特征输入所述自注意力模型的第一自注意力层中，并基于所述第一自注意力层确定的特征权重，对所述每个视频片段的图像特征以及每个视频片段的文本特征进行加权，以得到所述每个视频片段的第一融合特征；

对于所述多个视频片段中的相邻视频片段，将所述相邻视频片段的所述第一融合特征均输入到所述自注意力模型的第二自注意力层中，并基于所述第二自注意力层确定的特征权重，对所述相邻视频片段的所述第一融合特征进行加权，以得到对应所述相邻视频片段的第二融合特征；

将对应所述相邻视频片段的第二融合特征输入到所述自注意力模型的全连接层中，以确定所述相邻视频片段之间的相关性；

根据所述相邻视频片段之间的相关性，确定针对所述相邻视频片段的场景分割结果；所述场景分割结果指示所述相邻视频片段是否位于同一场景；

根据所述多个视频片段中每个相邻视频片段的场景分割结果，将所述多个视频片段划分至多个场景。

6.一种视频分割装置，其特征在于，包括获取单元、确定单元以及处理单元；

所述获取单元，用于获取待分割视频；

所述确定单元，用于确定所述待分割视频所包括的多个视频片段；

所述确定单元，还用于确定每个视频片段的片段特征；

所述处理单元，用于基于所述每个视频片段的片段特征，以及预训练的自注意力模型，将所述多个视频片段划分至多个场景；所述自注意力模型用于根据相邻两个视频片段中每个视频片段的片段特征确定所述相邻两个视频片段之间的相关性；

所述处理单元，还用于基于划分得到的所述多个场景，分割所述待分割视频。

7.根据权利要求6所述的视频分割装置，其特征在于，所述确定单元，具体用于：

8.一种电子设备，其特征在于，包括：处理器、用于存储所述处理器可执行的指令的存储器；其中，所述处理器被配置为执行指令，使得所述电子设备实现所述权利要求1-5中任一项所述的视频分割方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备执行如权利要求1-5中任一项所述的视频分割方法。

10.一种计算机程序产品，包括指令，其特征在于，所述计算机程序产品包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-5中任意一项所述的视频分割方法。