CN116128043A

CN116128043A - 视频场景边界检测模型的训练方法和场景边界检测方法

Info

Publication number: CN116128043A
Application number: CN202310406256.1A
Authority: CN
Inventors: 张勇东; 张天柱; 魏曦; 喻晓源; 肖磊
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-05-16
Anticipated expiration: 2043-04-17
Also published as: CN116128043B

Abstract

本发明提供一种视频场景边界检测模型的训练方法和场景边界检测方法。该方法旨在学习深度学习模型，将长时间视频分解为有意义的故事片段，即视频场景边界检测。利用多模态专家网络和片段编码器提取输入视频序列的镜头级别多模态短时上下文特征。使用高阶编码器通过多头机制、浅层卷积网络和全局自注意力进行高阶关系建模和多模态特征融合；设计自适应解码器，利用可学习的场景原型机和交叉注意力机制将镜头级别特征聚合为场景级别特征。最后该方法利用包含上下文信息的镜头级特征和场景级特征来实现视频场景边界检测。模型根据预测场景边界和场景边界标签计算损失函数并根据损失迭代地调整初始的网络参数，得到经训练的视频场景边界检测模型。

Description

视频场景边界检测模型的训练方法和场景边界检测方法

技术领域

本发明涉及视频图像处理技术领域，更具体地，涉及一种视频场景边界检测模型的训练方法和视频场景边界预测方法。

背景技术

随着多媒体技术的进步，海量视频内容在互联网空间激增，诸如视频字幕生成、内容驱动的视频搜索、场景分类、以人为中心的故事情节构建应用也蓬勃发展。而长时间的视频内容理解、视频场景边界检测正是为这些应用提供基础支撑的关键性技术。

虽然现有技术在预测视频边界的过程中建模了多模态特征，但是缺忽略了各个镜头的上下文信息建模，忽略了不同视频的场景边界差异性很大，从而导致最终的预测结果的准确性较差。

发明内容

有鉴于此，本发明实施例提供了一种视频场景边界检测模型的训练方法和视频场景边界预测方法。

本发明实施例的一个方面提供了一种视频场景边界检测模型的训练方法，包括：

获取训练数据集，其中，上述训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签，上述多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征；

针对上述多模态样本特征中的任一模态特征，根据上述模态特征和与上述模态特征对应的邻居模态特征，生成与上述模态特征对应的上下文模态特征；

基于时间相似性，利用注意力机制层对多个上述上下文模态特征进行特征融合处理，得到上下文融合特征；

利用解码器根据上述上下文融合特征和场景原型机向量，生成动态聚合场景特征，其中，上述动态聚合场景特征用于回归场景边界位置；

根据上述上下文融合特征、上述动态聚合场景特征和上述场景边界标签，生成预测场景边界，并根据上述预测场景边界和上述场景边界标签计算目标损失结果；

根据上述目标损失结果迭代地调整初始神经网络的网络参数，得到经训练的上述视频场景边界检测模型，其中，上述初始神经网络包括专家网络、注意力机制层和解码器。

根据本发明的实施例，上述专家网络包括视觉骨干网络、地点骨干网络和音频骨干网络；

其中，上述多模态样本特征是通过如下方式获得的：

获取训练视频序列；

利用上述视觉骨干网络对上述训练视频序列进行特征提取，得到上述视觉特征；

利用上述地点骨干网络对上述训练视频序列进行特征提取，得到上述地点特征；

利用上述音频骨干网络对上述训练视频序列进行特征提取，得到上述音频特征。

根据本发明的实施例，根据上述模态特征和与上述模态特征对应的邻居模态特征，生成与上述模态特征对应的上下文模态特征，包括：

基于预设窗口长度，在上述模态特征中的每个序列特征中确定一个窗口特征，其中，上述窗口特征包括第一分窗口特征和第二分窗口特征；

针对每个上述窗口特征，利用时域卷积层处理上述第一分窗口特征和上述第二分窗口特征，得到与上述窗口特征对应的差异信息和关系信息；

利用第一全连接层处理分别处理每个上述差异信息和与上述差异信息对应的上述关系信息，得到上述上下文模态特征，其中，上述初始神经网络还包括上述时域卷积层和上述第一全连接层。

根据本发明的实施例，基于时间相似性，利用注意力机制层对多个上述上下文模态特征进行特征融合处理，得到上下文融合特征，包括：

基于上述注意力机制层，根据多个上述上下文模态特征，生成多模态引导图；

利用编码器处理上述多模态引导图，生成上述上下文融合特征，其中，上述初始神经网络还包括上述编码器。

根据本发明的实施例，基于上述注意力机制层，根据多个上述上下文模态特征，生成多模态引导图，包括：

基于上述时间相似性，根据多个上述上下文模态特征，生成时间相似性矩阵；

利用上述注意力机制层处理上述时间相似性矩阵，得到上述多模态引导图。

根据本发明的实施例，利用编码器处理上述多模态引导图，生成上述上下文融合特征，包括：

利用第二全连接层处理多个上述上下文模态特征，生成中间模态特征；

根据上述中间模态特征和上述编码器的参数，生成向量集合，其中，上述向量集合包括查询向量、键向量和值向量；

基于预设处理规则，根据上述向量集合和上述多模态引导图，生成上述上下文融合特征，其中，上述预设处理规则包括残差连接、归一化操作和前馈层处理操作。

根据本发明的实施例，利用解码器根据上述上下文融合特征和场景原型机向量，生成动态聚合场景特征，包括：

根据上述上下文融合特征和场景原型机向量，生成更新后的场景原型机向量；

根据上述更新后的场景原型机向量、上述解码器的参数和上述上下文融合特征，生成过渡模态特征；

根据上述过渡模态特征和上述上下文融合特征，生成上述动态聚合场景特征。

根据本发明的实施例，上述上下文融合特征包括多个融合子特征，每个上述融合子特征对应于上述视频序列样本中的一个视频帧；

其中，根据上述上下文融合特征、上述动态聚合场景特征和上述场景边界标签，生成预测场景边界，并根据上述预测场景边界和上述场景边界标签计算目标损失结果，包括：

将与所述上下文融合特征的二分类值对应的融合子特征确定为第一预测边界；

将上述第一预测边界和上述场景边界标签输入分类损失函数，输出第一损失结果；

根据线性层回归头和上述动态聚合场景特征生成第二预测边界；

将上述场景边界标签和上述第二预测边界输入均方误差函数，输出第二损失结果；

根据上述第一损失结果和上述第二损失结果，生成上述目标损失结果。

根据本发明的实施例，视频场景边界检测模型的训练方法还包括：

获取测试数据集，其中，上述测试数据集包括与每个测试视频序列样本对应的多模态测试特征和与每个视频序列测试样本对应的场景边界测试标签；

针对每个上述多模态测试特征，将上述多模态测试特征输入上述视频场景边界检测模型，输出测试视频场景边界；

根据上述测试视频场景边界和上述场景边界测试标签，计算测试准确率；

在上述测试准确率不满足准确率阈值的情况下，根据上述测试准确率迭代地调整上述视频场景边界检测模型的网络参数，得到新的视频场景边界检测模型。

本发明实施例的另一个方面提供了一种视频场景边界预测方法，包括：

获取由视频采集设备拍摄的待处理视频序列；

将上述待处理视频序列输入视频场景边界检测模型，输出预测的视频场景边界；

其中，上述视频场景边界检测模型是利用如上所述的方法训练得到的。

根据本发明的实施例，通过提取视频序列中视觉、地点和音频等多模态特征，对于每个模态特征进行片段层级的上下文建模，从而得到每种模态特征的上下文模态特征，利用解码器根据融合得到的上下文融合特征上下文融合特征和场景原型机向量挖掘多模态特征之间的复杂关联，并建模它们的上下文语义，利用解码器根据上下文融合特征和场景原型机向量，生成视频场景级别的动态聚合场景特征，最终根据目标损失结果调整整个初始神经网络的网络参数，得到视频场景边界检测模型。因此至少部分地克服了相关技术中在对视频场景的边界划分时产生的边界划分结果不准确的技术问题，实现了准确识别视频场景的边界，便于根据场景边界生成对应于不同故事情节的视频片段。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了根据本发明实施例的人体姿态估计模型的训练方法的流程图；

图2示出了根据本发明实施例的人体姿态估计模型的训练过程图；

图3示出了根据本发明实施例的动态聚合场景特征的获取流程图；

图4示出了根据本发明实施例的视频场景边界预测方法的流程图。

具体实施方式

以下，将参照附图来描述本发明的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本发明实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

为实现高效的长时间视频内容理解，相关技术通常先将一段长视频分解成有意义的单元，并推理它们之间的关系，再进一步根据下游任务需求做出处理。因此，将一段长视频分割成一系列包含有故事情节的视频场景，即视频场景检测，是一项关键的基础性技术。然而，视频场景边界检测需要综合、全面地建模视频各个镜头的差异性，及它们之间的关系。为了实现准确的视频场景边界检测，模型需要很好地挖掘视频多模态内容表示，并进行高层级的抽象语义理解。

一些基于深度学习的方法利用视频中的视觉内容来建模场景边界信息，利用无监督对比学习策略来区分不同场景中的镜头。但是，它们仅凭视觉的表观特征来生成伪标签，并进行对比学习，导致模型学习到的镜头特征表示只停留在视觉表观层面，而不是语义层面。这限制了视频场景边界检测所需的多模态语义的学习能力，会造成视频场景边界检测的混乱。另一些方法虽然建模了多模态特征，但是缺忽略了各个镜头的上下文信息建模，忽略了不同视频的场景边界差异性很大，设计通用的场景检测器是很困难的。

有鉴于此，本发明的实施例提供了一种视频场景边界检测模型的训练方法和视频场景边界预测方法。该训练方法包括获取训练数据集，其中，训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签，多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征；针对多模态样本特征中的任一模态特征，根据模态特征和与模态特征对应的邻居模态特征，生成与模态特征对应的上下文模态特征；基于时间相似性，利用注意力机制层对多个上下文模态特征进行特征融合处理，得到上下文融合特征；利用解码器根据上下文融合特征和场景原型机向量，生成动态聚合场景特征，其中，动态聚合场景特征用于回归场景边界位置；根据上下文融合特征、动态聚合场景特征和场景边界标签，生成预测场景边界，并根据预测场景边界和场景边界标签计算目标损失结果；根据目标损失结果迭代地调整初始神经网络的网络参数，得到经训练的视频场景边界检测模型，其中，初始神经网络包括专家网络、注意力机制层和解码器。

图1示出了根据本发明实施例的人体姿态估计模型的训练方法的流程图。图2示出了根据本发明实施例的人体姿态估计模型的训练过程图。

根据本发明的实施例，如图1所示，视频场景边界检测模型的训练方法包括操作S101~操作S106。

在操作S101，获取训练数据集，其中，训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签，多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征；

在操作S102，针对多模态样本特征中的任一模态特征，根据模态特征和与模态特征对应的邻居模态特征，生成与模态特征对应的上下文模态特征；

在操作S103，基于时间相似性，利用注意力机制层对多个上下文模态特征进行特征融合处理，得到上下文融合特征；

在操作S104，利用解码器根据上下文融合特征和场景原型机向量，生成动态聚合场景特征，其中，动态聚合场景特征用于回归场景边界位置；

在操作S105，根据上下文融合特征、动态聚合场景特征和场景边界标签，生成预测场景边界，并根据预测场景边界和场景边界标签计算目标损失结果；

在操作S106，根据目标损失结果迭代地调整初始神经网络的网络参数，得到经训练的视频场景边界检测模型，其中，初始神经网络包括专家网络、注意力机制层和解码器。

根据本发明的实施例，在训练之前，如图2所示，首先利用专家网络对每个视频序列样本进行特征提取，得到视觉特征、地点特征和音频特征等多模态样本特征。由于视频序列样本包括 l帧图像，因此生成的每个多模态样本特征均包含对应于每帧图像的多模态特征。

根据本发明的实施例，对于视觉特征、地点特征和音频特征中的任一个模态特征，根据模态特征和与模态特征对应的邻居模态特征，生成与模态特征对应的上下文模态特征，如与视觉特征对应的上下文模态特征、与地点特征对应的上下文模态特征、与音频特征对应的上下文模态特征。基于时间相似性，利用注意力机制层对多个上下文模态特征进行特征融合处理，得到上下文融合特征。

根据本发明的实施例，利用transformer encoder解码器根据上下文融合特征和场景原型机向量，生成动态聚合场景特征 Z。根据上下文融合特征、动态聚合场景特征 Z和场景边界标签，生成预测场景边界，并根据预测场景边界和场景边界标签计算目标损失结果 L。根据目标损失结果 L迭代地调整初始神经网络的网络参数，得到经训练的视频场景边界检测模型。

根据本发明的实施例，专家网络包括视觉骨干网络、地点骨干网络和音频骨干网络。

根据本发明的实施例，多模态样本特征是通过如下方式获得的：

获取训练视频序列；

利用视觉骨干网络对训练视频序列进行特征提取，得到视觉特征；

利用地点骨干网络对训练视频序列进行特征提取，得到地点特征；

利用音频骨干网络对训练视频序列进行特征提取，得到音频特征。

根据本发明的实施例，视觉骨干网络可以是ViT Encoder，“Place 365”数据集上训练过的ResNet50作为地点骨干网络，“YouTube-8m”数据集上训练过的VGGish作为音频骨干网络。

根据本发明的实施例，根据模态特征和与模态特征对应的邻居模态特征，生成与模态特征对应的上下文模态特征，包括如下操作：

基于预设窗口长度，在模态特征中的每个序列特征中确定一个窗口特征，其中，窗口特征包括第一分窗口特征和第二分窗口特征；

针对每个窗口特征，利用时域卷积层处理第一分窗口特征和第二分窗口特征，得到与窗口特征对应的差异信息和关系信息；

利用第一全连接层处理分别处理每个差异信息和与差异信息对应的关系信息，得到上下文模态特征，其中，初始神经网络还包括时域卷积层和第一全连接层。

根据本发明的实施例，预设窗口长度可以根据实际情况具体设置，例如可以是，对视觉特征、地点特征和音频特征中的每一个镜头特征，都在一个长度为的窗口内，利用时域卷积与第一全连接层来建模其与周围邻居的差异信息与关系信息，如公式（1）所示：

（1）

其中，concat表示向量串联，为內积操作，为第一分窗口特征，为第二分窗口特征，为窗口特征。对每个多模态样本特征，均会学习独立的视频片段层级编码器。这样，所有的镜头特征都被局部上下文增强，得到与视觉特征对应的上下文模态特征、与地点特征对应的上下文模态特征、与音频特征对应的上下文模态特征。

根据本发明的实施例，上文记载的模态特征和与模态特征对应的邻居模态特征可以指该窗口特征内第一分窗口特征和第二分窗口特征中任一个。

图3示出了根据本发明实施例的动态聚合场景特征的获取流程图。

根据本发明的实施例，基于时间相似性，利用注意力机制层对多个上下文模态特征进行特征融合处理，得到上下文融合特征，包括如下操作：

基于注意力机制层，根据多个上下文模态特征，生成多模态引导图；

利用编码器处理多模态引导图，生成上下文融合特征，其中，初始神经网络还包括编码器。

根据本发明的实施例，基于注意力机制层，根据多个上下文模态特征，生成多模态引导图，包括如下操作：

基于时间相似性，根据多个上下文模态特征，生成时间相似性矩阵；

利用注意力机制层处理时间相似性矩阵，得到多模态引导图。

根据本发明的实施例，如图3所示，首先基于MultiHead注意力机制层为每个上下文模态特征、、，基于多头时序相似度计算时间相似性矩阵，并根据生成一阶多模态关系图，它反应了镜头特征之间的关系，其中 h是MultiHead的头数；接着利用一个浅层的卷积神经网络CNN以及一个经典的transformer encoder来建模这些上下文模态特征的“关系的关系”，即镜头特征的高阶关系；然后引用单层的第三全连接层及激活函数来生成一个多模态引导图。

根据本发明的实施例，利用编码器处理多模态引导图，生成上下文融合特征，包括如下操作：

利用第二全连接层处理多个上下文模态特征，生成中间模态特征；

根据中间模态特征和编码器的参数，生成向量集合，其中，向量集合包括查询向量、键向量和值向量；

基于预设处理规则，根据向量集合和多模态引导图，生成上下文融合特征，其中，预设处理规则包括残差连接、归一化操作和前馈层处理操作。

根据本发明的实施例，如图3所示，先用线性层融合上下文模态特征，并利用来增强其中transformer encoder的上下文建模过程。具体而言，多模态特征融合过程可表示为公式（2），根据生成的多个生成中间模态特征：

（2）

根据本发明的实施例，transformer encoder编码器中的查询向量Q、键向量K和值向量V由公式（3）生成：

（3）

其中，、和均为编码器的参数。

调整后的由引导图增强的注意力过程可用公式（4）表示：

（4）

其中，是哈达玛积，是 K的维度。该公式也表明作为一个调节因子工作，以增强镜头间适当的相关性并抑制镜头间错误的相关性。残差连接、归一化操作及前馈层在该注意力模块之后也被添加进来，从而高阶的编码器就可以生成包含全面的多模态上下文信息的上下文融合特征。

根据本发明的实施例，利用解码器根据上下文融合特征和场景原型机向量，生成动态聚合场景特征，包括如下操作：

根据上下文融合特征和场景原型机向量，生成更新后的场景原型机向量；

根据更新后的场景原型机向量、解码器的参数和上下文融合特征，生成过渡模态特征；

根据过渡模态特征和上下文融合特征，生成动态聚合场景特征 Z。

根据本发明的实施例，虽然高阶的编码器成功地将多模态线索和高阶关系建模到镜头表示中，但由于不同的视频可能会有很大差异，还需要自适应合并同一场景中的镜头，从而产生包含上下文语义的视频场景层级特征的动态聚合场景特征。具体地，如图3右半部分所示，该模块包含一对可学习的场景原型机和基于解码器的参数和生成的查询、键-值对的注意力模块。为了减少场景原型和镜头特征之间的域差距，首先使用所有镜头的平均池化特征来调整场景原型机，而后镜头和场景原型机之间的注意力交互，视频场景特征的动态聚合场景特征 Z的生成如公式（5）所示：

（5）

根据本发明的实施例，上下文融合特征包括多个融合子特征，每个融合子特征对应于视频序列样本中的一个视频帧；

其中，根据上下文融合特征、动态聚合场景特征和场景边界标签，生成预测场景边界，并根据预测场景边界和场景边界标签计算目标损失结果，包括如下操作：

将与上下文融合特征的二分类值对应的融合子特征确定为第一预测边界；

将第一预测边界和场景边界标签输入分类损失函数，输出第一损失结果；

根据线性层回归头和动态聚合场景特征生成第二预测边界；

将场景边界标签和第二预测边界输入均方误差函数，输出第二损失结果；

根据第一损失结果和第二损失结果，生成目标损失结果。

根据本发明的实施例，如图2所示，对输入的视频序列样本，学习到了一组包含多模态线索、高阶关系的上下文融合特征和两个自适应聚合的动态聚合场景特征。对每一个视频序列样本，仅对其对应的上下文融合特征的中心位置的镜头做二分类预测，即判定其是否为场景边界，下标表示向下取整操作。由此，第一损失结果如公式（6）所示：

（6）

其中，是中心位置镜头的场景边界标签，标记它是否为场景边界，是一个由线性层构成的二元分类头。

根据本发明的实施例，利用自适应聚合的动态聚合场景特征和由线性层构成的回归头来预测镜头序列中边界的位置，并利用均方误差函数进行约束，由此，第二损失结果如公式（7）所示：

（7）

其中场景边界在镜头序列中的真实位置，表示均方误差。

根据本发明的实施例，目标损失结果如公式（8）所示：

（8）

其中，是超参数。

根据本发明的实施例，视频场景边界检测模型的训练方法还包括如下操作：

获取测试数据集，其中，测试数据集包括与每个测试视频序列样本对应的多模态测试特征和与每个视频序列测试样本对应的场景边界测试标签；

针对每个多模态测试特征，将多模态测试特征输入视频场景边界检测模型，输出测试视频场景边界；

根据测试视频场景边界和场景边界测试标签，计算测试准确率；

在测试准确率不满足准确率阈值的情况下，根据测试准确率迭代地调整视频场景边界检测模型的网络参数，得到新的视频场景边界检测模型。

根据本发明的实施例，为了提高视频场景边界检测模型的准确度，可以利用测试数据集对该视频场景边界检测模型的准确度进行预测，从而使得该视频场景边界检测模型在后期使用时能够输出准确性较高的视频场景边界。

需要说明的是，准确率阈值可以根据实际需求进行确定，同时测试过程与训练过程大致相同，在此不进行赘述。

根据本发明的实施例，如图4所示，视频场景边界预测方法包括操作S401~操作S402。

在操作S401，获取由视频采集设备拍摄的待处理视频序列；

在操作S402，将待处理视频序列输入视频场景边界检测模型，输出预测的视频场景边界。

根据本发明的实施例，视频采集设备可以指手机、摄像机等具有录像功能的电子设备。待处理视频序列可以是直接利用视频采集设备拍摄的，也可以是从互联网中获取的视频文件。

根据本发明的实施例，将待处理视频序列输入至视频场景边界检测模型，视频场景边界检测模型对该待处理视频序列进行多模态特征的提取，并利用注意力机制层和解码器等对多模态特征进行处理，最终输出预测的视频场景边界。

本发明提供的视频场景边界检测模型的训练方法和视频场景边界预测方法用于视频场景检测的统一多模态框架。本发明的多模态高阶关系transformer encoder解码器，可以在统一的结构同时实现多模态线索、高阶关系建模，并实现场景自适应聚类。具体地，首先通过专家网络提取多模态的镜头特征，如视觉特征、地点特征和音频特征，并对各镜头特征进行片段层级的上下文进行建模；然后在多模态高阶关系transformer encoder解码器中应用高阶编码器来挖掘多模态镜头特征之间的复杂关联，并建模它们的上下文语义，然后还利用自适应解码器来动态聚合同一场景中的镜头，生成视频场景级别特征的动态聚合场景特征 Z；整个视频场景边界检测模型通过最小化边界分类损失（即第一损失结果）和边界位置回归损失（即第二损失结果）来进行优化，可以保证最终生成的是具有高级故事情节的镜头特征和动态自适应聚合的视频场景特征。

以上对本发明的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本发明的范围由所附权利要求及其等同物限定。不脱离本发明的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本发明的范围之内。

Claims

1.一种视频场景边界检测模型的训练方法，其特征在于，包括：

获取训练数据集，其中，所述训练数据集包括与每个视频序列样本对应的多模态样本特征和与每个视频序列样本对应的场景边界标签，所述多模态样本特征包括利用专家网络对训练视频序列进行提取得到的视觉特征、地点特征和音频特征；

针对所述多模态样本特征中的任一模态特征，根据所述模态特征和与所述模态特征对应的邻居模态特征，生成与所述模态特征对应的上下文模态特征；

基于时间相似性，利用注意力机制层对多个所述上下文模态特征进行特征融合处理，得到上下文融合特征；

利用解码器根据所述上下文融合特征和场景原型机向量，生成动态聚合场景特征，其中，所述动态聚合场景特征用于回归场景边界位置；

根据所述上下文融合特征、所述动态聚合场景特征和所述场景边界标签，生成预测场景边界，并根据所述预测场景边界和所述场景边界标签计算目标损失结果；

根据所述目标损失结果迭代地调整初始神经网络的网络参数，得到经训练的所述视频场景边界检测模型，其中，所述初始神经网络包括专家网络、注意力机制层和解码器。

2.根据权利要求1所述的训练方法，其特征在于，所述专家网络包括视觉骨干网络、地点骨干网络和音频骨干网络；

其中，所述多模态样本特征是通过如下方式获得的：

获取训练视频序列；

利用所述视觉骨干网络对所述训练视频序列进行特征提取，得到所述视觉特征；

利用所述地点骨干网络对所述训练视频序列进行特征提取，得到所述地点特征；

利用所述音频骨干网络对所述训练视频序列进行特征提取，得到所述音频特征。

3.根据权利要求1所述的训练方法，其特征在于，根据所述模态特征和与所述模态特征对应的邻居模态特征，生成与所述模态特征对应的上下文模态特征，包括：

基于预设窗口长度，在所述模态特征中的每个序列特征中确定一个窗口特征，其中，所述窗口特征包括第一分窗口特征和第二分窗口特征；

针对每个所述窗口特征，利用时域卷积层处理所述第一分窗口特征和所述第二分窗口特征，得到与所述窗口特征对应的差异信息和关系信息；

利用第一全连接层处理分别处理每个所述差异信息和与所述差异信息对应的所述关系信息，得到所述上下文模态特征，其中，所述初始神经网络还包括所述时域卷积层和所述第一全连接层。

4.根据权利要求1所述的训练方法，其特征在于，基于时间相似性，利用注意力机制层对多个所述上下文模态特征进行特征融合处理，得到上下文融合特征，包括：

基于所述注意力机制层，根据多个所述上下文模态特征，生成多模态引导图；

利用编码器处理所述多模态引导图，生成所述上下文融合特征，其中，所述初始神经网络还包括所述编码器。

5.根据权利要求4所述的训练方法，其特征在于，基于所述注意力机制层，根据多个所述上下文模态特征，生成多模态引导图，包括：

基于所述时间相似性，根据多个所述上下文模态特征，生成时间相似性矩阵；

利用所述注意力机制层处理所述时间相似性矩阵，得到所述多模态引导图。

6.根据权利要求4所述的训练方法，其特征在于，利用编码器处理所述多模态引导图，生成所述上下文融合特征，包括：

利用第二全连接层处理多个所述上下文模态特征，生成中间模态特征；

根据所述中间模态特征和所述编码器的参数，生成向量集合，其中，所述向量集合包括查询向量、键向量和值向量；

基于预设处理规则，根据所述向量集合和所述多模态引导图，生成所述上下文融合特征，其中，所述预设处理规则包括残差连接、归一化操作和前馈层处理操作。

7.根据权利要求1所述的训练方法，其特征在于，利用解码器根据所述上下文融合特征和场景原型机向量，生成动态聚合场景特征，包括：

根据所述上下文融合特征和场景原型机向量，生成更新后的场景原型机向量；

根据所述更新后的场景原型机向量、所述解码器的参数和所述上下文融合特征，生成过渡模态特征；

根据所述过渡模态特征和所述上下文融合特征，生成所述动态聚合场景特征。

8.根据权利要求1所述的训练方法，其特征在于，所述上下文融合特征包括多个融合子特征，每个所述融合子特征对应于所述视频序列样本中的一个视频帧；

其中，根据所述上下文融合特征、所述动态聚合场景特征和所述场景边界标签，生成预测场景边界，并根据所述预测场景边界和所述场景边界标签计算目标损失结果，包括：

将所述第一预测边界和所述场景边界标签输入分类损失函数，输出第一损失结果；

根据线性层回归头和所述动态聚合场景特征生成第二预测边界；

将所述场景边界标签和所述第二预测边界输入均方误差函数，输出第二损失结果；

根据所述第一损失结果和所述第二损失结果，生成所述目标损失结果。

9.根据权利要求1所述的训练方法，其特征在于，还包括：

获取测试数据集，其中，所述测试数据集包括与每个测试视频序列样本对应的多模态测试特征和与每个视频序列测试样本对应的场景边界测试标签；

针对每个所述多模态测试特征，将所述多模态测试特征输入所述视频场景边界检测模型，输出测试视频场景边界；

根据所述测试视频场景边界和所述场景边界测试标签，计算测试准确率；

在所述测试准确率不满足准确率阈值的情况下，根据所述测试准确率迭代地调整所述视频场景边界检测模型的网络参数，得到新的视频场景边界检测模型。

10.一种视频场景边界预测方法，其特征在于，包括：

获取由视频采集设备拍摄的待处理视频序列；

将所述待处理视频序列输入视频场景边界检测模型，输出预测的视频场景边界；

其中，所述视频场景边界检测模型是利用如权利要求1至9中任一项所述的方法训练得到的。