CN117456431B

CN117456431B - 一种基于扩张卷积和密集连接的镜头边界检测方法

Info

Publication number: CN117456431B
Application number: CN202311799128.4A
Authority: CN
Inventors: 陈丹伟; 林道阳; 纪翀; 罗圣美
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-26
Anticipated expiration: 2043-12-26
Also published as: CN117456431A

Abstract

本发明涉及视频检索领域，尤其是涉及一种基于扩张卷积和密集连接的镜头边界检测方法。所述检测方法包括如下步骤：对视频进行预处理，将视频的帧转换为48×27像素大小，这样做计算量相对较小，可以加快模型的训练速度，并减少过拟合。对于训练集，训练脚本随机选择包含注释过渡的100帧序列。将处理后的帧序列输入训练好的神经网络模型；模型输出每一帧的镜头边界概率，根据设定的阈值得到镜头边界帧，用于分割镜头。本发明通过在视频帧上运用卷积神经网络，准确判定镜头边界，实现视频分割，有利于视频管理和检索。本发明所涉及方法综合运用扩张卷积、自注意力和密集连接等技术，强化了特征提取和传递，提高了镜头边界检测的准确性和效率。

Description

一种基于扩张卷积和密集连接的镜头边界检测方法

技术领域

本发明涉及视频检索领域，特别地，涉及一种基于扩张卷积和密集连接的镜头边界检测方法。

背景技术

目前，构建视频的一种常见方法是使用镜头构图，其中镜头之间使用不同过渡来分割。过渡的方法包括直接过渡，即直接从一个镜头切换到另一个镜头，以及渐变过渡，如：溶解、淡入淡出、擦除等。然而，由于视频格式本身并未提供有关这些过渡的明确信息，因此镜头边界检测成为视频管理和检索系统中至关重要的步骤。举例来说，在已知项目搜索任务中，镜头信息的准确捕捉可用于实现视频摘要以及内容筛选等功能。在视频检索任务中，镜头边界检测可以将整个视频分割成不同的镜头片段，从而将视频分段存储在数据库中。在视频检索过程中，系统可以针对用户查询的特定镜头内容进行搜索，从而大大减少了搜索的范围，提高了检索效率。

镜头边界检测方法可分为两种类型，一种是基于手工特征的镜头边界检测方法，另一种是基于深度学习的镜头边界检测方法。手工特征指的是人针对特定对象构造的特征，主要是相对于机器学习特征而来的。基于手工特征的镜头边界检测方法，包括基于像素（Pixel-Based）特征的检测方法，基于直方图（Histogram-Based）特征的检测方法，基于边缘（Edge-Based）特征的检测方法，基于变换（Transform-Based）的特征的检测方法，基于运动（Motion-Based）特征的检测方法等。基于手工特征的镜头边界检测方法有如下缺点：

（1）对复杂场景的适应性有限：

基于手工特征的镜头边界检测方法通常依赖于人工构造的特征，这些特征可能无法很好地适应复杂多变的场景。当镜头边界中存在各种不同的视觉元素、颜色变化和光照条件时，手工特征提取可能会受到限制，导致检测性能下降。

（2）通用性差：

基于手工特征的方法通常在特定任务和数据集上进行了优化，难以泛化到其他镜头检测问题。这限制了它们在实际应用中的通用性，需要不断重新设计和调整特征提取器。

（3）深度学习方法不足：

学者S Tang, L Feng等人在“Fast Video Shot Transition Localization withDeep Structured Models”中构建初始滤波、切变检测和渐变检测三部分组成的检测框架，采用了C3DConvNet和 ResNet-18网络的级联架构，提高了实时速度，但网络层次加深出现的冗余等问题没有解决。学者S Chen, X Nie等人在“Shot Contrastive Self-SupervisedLearning for Scene Boundary Detection”中提出了一种使用未标记视频数据学习长视频镜头表示的自监督学习方法，速度较快，并使用较少的标签，但对于非电影或电视类型的视频效果不好。学者Q Li, X Chen等人在“Shot Boundary Detection Based on GlobalFeatures and the Target Features”中提出了一种基于全局特征和目标特征的多步比较方案镜头边界检测算法, 可以解决特征提取过程中由于忽略目标特征而导致的误检和漏检问题，但在特定类型的视频上表现较好，鲁棒性不够高，且多步比较方案的计算复杂度较高。

发明内容

针对现有技术的不足，本发明提出了一种基于扩张卷积和密集连接的镜头边界检测方法，通过卷积神经网络提取视频帧的特征，根据设定的阈值判断该帧是否为镜头边界帧，从而通过镜头边界帧将视频分割为多个镜头，用于后续的视频检索等任务。

本发明采用如下技术方案：

一种基于扩张卷积和密集连接的镜头边界检测方法，通过神经网络模型提取视频帧的特征，输出视频帧为镜头边界帧的概率，根据设定的阈值判断该帧是否为镜头边界帧，从而通过镜头边界帧将视频分割为多个镜头，用于后续的视频检索等任务。

进一步的，所述神经网络模型包含三个混合卷积单元，即SCDNN单元；三个单元通过密集连接卷积网络连接；所述SDCNN内部，包含了两个DDCNN层与一个空间平均池化层；所述DDCNN层内部，包含了两个扩张卷积层，并且在时间维度上采用了不同的扩张率，输出在通道维度上连接。

进一步的，本发明设计了三种不同的DDCNN块，分别为DDCNNA、DDCNNB、DDCNNC。所述DDCNNA是一种将三维 K×K×K卷积分解成2维K×K空间卷积以及核大小为K的一维时间卷积；所述DDCNNB是一种在DDCNNA的基础上采用一个共享的二维卷积，而不是空间二维卷积的多个分支；所述DDCNNC与DDCNNA相比，是一种使用3D深度可分离卷积代替了三维展开的卷积。

进一步的，所述三个混合卷积单元后连接自注意力层；同时，三个平均池化层的输出连接到帧间相似度比较模块；所述模块中，每一帧用与其前后50帧的余弦相似性来表示；相似度向量进一步用密集层进行变换，并连接到从网络的其他部分推断的其他特征。

本发明采用的以上技术与现有技术相比，具有以下有益效果：

1、本发明具备更强的特征学习能力。通过引入扩张卷积和密集连接，本发明的神经网络模型能够更好地捕获视频帧中的时空特征。扩张卷积允许模型在不同的时间尺度上进行特征提取，从而更好地识别不同类型的镜头边界。而密集连接有助于减轻梯度消失问题，增强了特征传递和学习的深度。

2、本发明具备更精确的边界检测能力。本发明的方法能够输出视频帧为镜头边界帧的概率，而不仅仅是二元分类结果。这意味着可以根据需要调整阈值，以实现更高的精确度或更高的召回率，从而满足不同应用场景下的需求。

3、本发明拥有多样性的DDCNN块。本发明设计了三种不同的DDCNN块，允许根据任务需求选择最合适的块。这种多样性可以在不同的数据集和场景中提供更好的通用性和适应性。

4、本发明引入了自注意力层。自注意力层有助于模型关注视频帧之间的时空关系，进一步提高了边界检测的准确性。这意味着模型能够更好地理解不同帧之间的关联性，进一步提高了边界检测的性能。

附图说明

图1是DDCNNA的结构示意图；

图2是DDCNNB的结构示意图；

图3是DDCNNC的结构示意图；

图4是模型的整体架构示意图；

图5是SDCNN单元结构示意图。

具体实施方式

为了使本发明实现的技术方法、目标和作用易于理解，下面结合实例进一步阐明本发明。在下文对本发明的阐述中，详尽地描述了包括训练集选取在内的一些细节，但是本发明并不局限于这些具体的实施例。

一种基于扩张卷积和密集连接的镜头边界检测方法，包括如下步骤：

1、对视频进行预处理，将视频的帧转换为48×27像素大小，这样做计算量相对较小，可以加快模型的训练速度，同时可以减少过拟合，有助于提高模型的泛化能力。

2、将处理后的帧输入训练好的模型。

下面详细介绍所述模型的细节：

所述模型包含三个混合卷积（SDCNN）单元，通过密集连接卷积网络连接，每个SDCNN单元包含两个DDCNN层和一个平均池化层。对于DDCNN层，包含了两个扩张卷积层，在时间维度上采用了不同的扩张率，目的是在不增加网络参数数量的情况下增强感受野。所述扩展卷积输出在通道维度上连接。

本发明设计了三种不同的DDCNN架构，分别为DDCNNA、DDCNNB、DDCNNC。

所述DDCNNA如图1所示，是一种将三维 K×K×K卷积分解成2维K×K空间卷积以及核大小为K的一维时间卷积。该思想首次与2018年由Xie等人提出。研究表明，这种3D卷积核的解纠缠迫使图像特征提取的时间特征的提取分开。此外，分解卷积会减少可学习参数的数量，这可以避免过拟合。

所述DDCNNB在DDCNNA的基础上，采用一个共享的二维卷积，而不是空间二维卷积的多个分支，如图2所示。共享空间二维卷积的目的是提取统一的空间特征，用于后续不同时间特征的提取。DDCNNB可以表示为：

（1）

（2）

（1）～（2）式中，h为当前块的输出，S为共享的二维空间卷积，为膨胀率为的一维时间卷积。

所述DDCNNC如图3所示，与DDCNNA相比，是一种使用3D深度可分离卷积代替了三维展开的卷积。深度可分离卷积是一种卷积神经网络中的卷积操作，分为深度卷积和逐点卷积两个步骤。它的主要思想是将标准卷积操作分解成两个较小的卷积操作，以减少参数数量和计算负担，同时保持模型的表现能力。由于深度卷积和逐点卷积分别减少了参数数量，相比标准的卷积操作，它可以显著降低模型的参数量，减少过拟合的风险。同时深度卷积的小型卷积核和逐点卷积的1x1卷积核减少了计算负担，从而加速模型训练和推断。

本模型借用了Densenet的思路，将SDCNN块的输出与之前所有输出都连接起来。DenseNet（Densely Connected Convolutional Networks）是一种深度卷积神经网络架构，旨在解决深度神经网络中的梯度消失问题，并在图像分类和其他计算机视觉任务中取得了很好的性能。DenseNet的核心思想是密集连接（Dense Connectivity），通过在网络中的每一层将前面所有层的特征图连接在一起，从而使信息能够更流畅地传递。在传统的卷积神经网络中，每个层的输出只连接到下一层的输入。而在DenseNet中，每个层的输出与之前所有层的输出连接起来，使得网络中的信息可以更充分地传播。三个SDCNN块通过密集连接卷积网络连接，有助于缓解神经网络学习过程中的梯度消失问题，加强了特征的重用和传递。

所述模型在三个SDCNN单元之后，连接了一个自注意力层。自注意力机制是深度学习和自然语言处理中的一种机制，有助于在模型进行预测时聚焦于输入的不同部分。其基本构成包括键、查询和值的概念。在自注意力中，输入被转换为三个向量：键、查询和值。其中，键向量表示了输入中每个样本的重要性，查询向量用于从键向量中检索信息，而值则包含了实际信息。

在所述自注意力过程中，查询张量被用来计算其自身与每个键张量之间的相似度分数。然后，这些相似度分数被用作权重，用于计算值向量的加权和。这个加权和即为自注意机制的输出。从根本上说，键、查询和值的概念使得自注意力机制能够识别输入中最相关的部分（由键向量表示），从这些部分中检索信息（利用查询向量），并利用这些信息生成最终的输出（由值向量表示）。键、查询、值分别用、/>、/>表示如下：

（3）

（4）

（5）

在本模型中，表示残差函数入口的张量。/>为批次维度，/>为通道数，/>为空间维，/>为时间维。我们通过可学习的查询/>、键/>和值/>层来投影/>。这些层的过滤器的数量定义了将获得的特征映射的数量。注意图是一个方阵，其维度等于所定义的特征的数量。自注意图/>可计算为：

（6）

式中，表示每个/>位置与其他/>位置之间的相关关注程度。注意层的输出为：

（7）

式中，表示用于输出与原始输入相等的通道数量的卷积。自注意力块的最终输出公式为：

（8）

与此同时，三个平均池化层的输出连接到帧间相似度比较模块。在该模块中，每一帧用与其前后50帧的余弦相似性来表示。所述相似度向量进一步用密集层进行变换，并连接到从网络的其他部分推断的其他特征。

进一步地，RGB相似度模块用于提取颜色特征，最后与帧相似度特征和自注意力层的输出进行合并。

所述模型的完整结构如图4和图5所示。

以上所述，仅为本发明的具体实施方式，用以阐述本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的修改或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，所述检测方法包括如下步骤：

步骤S1、对视频进行预处理，将视频的帧转换为48×27像素大小；

步骤S2、对于训练集，训练脚本随机选择包含注释过渡的100帧序列；

步骤S3、将处理后的帧序列输入训练好的神经网络模型；

步骤S4、模型输出每一帧的镜头边界概率，根据设定的阈值得到镜头边界帧；

步骤S5、根据S4的镜头边界帧分割镜头；

所述神经网络模型包含三个通过密集链接卷积网络链接的SDCNN单元；所述SDCNN单元内部，包含了两个DDCNN层与一个空间平均池化层；所述DDCNN层有三种，分别为DDCNNA、DDCNNB和DDCNNC，每个SDCNN单元可以根据情况选择任意两个作为DDCNN层；所述DDCNN层包括两个扩张卷积层，在时间维度上采用了不同的扩张率，并在通道维度上连接；其中，DDCNNA将三维K×K×K卷积分解成2维K×K空间卷积以及核大小为K的一维时间卷积，DDCNNB在DDCNNA的基础上采用一个共享的二维卷积，而不是空间二维卷积的多个分支，DDCNNC与DDCNNA相比，使用3D深度可分离卷积代替了三维展开的卷积。

2.根据权利要求1所述的一种基于扩张卷积和密集连接的镜头边界检测方法，其特征在于，三个混合卷积单元后连接自注意力层；同时，三个平均池化层的输出连接到帧间相似度比较模块；所述模块中，每一帧用与其前后50帧的余弦相似性来表示；相似度向量进一步用密集层进行变换，并连接到从网络的其他部分推断的其他特征。