CN115731505A

CN115731505A - 视频显著性区域检测方法、装置、电子设备及存储介质

Info

Publication number: CN115731505A
Application number: CN202310018255.XA
Authority: CN
Inventors: 张云佐; 张天; 刘亚猛; 武存宇; 朱鹏飞; 康伟丽; 郑宇鑫; 霍磊; 郑丽娟
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-03-03
Anticipated expiration: 2043-01-06
Also published as: CN115731505B

Abstract

本发明公开了一种视频显著性区域检测方法、装置、电子设备及存储介质。所述方法包括如下步骤：获取待传输视频序列，输入到训练好的视频显著性区域检测网络中；采用3D卷积主干网络的编码器，提取多尺度时空特征；通过帧间注意力模块，增强深度特征的时间特性；将多尺度时空特征传入双向时空金字塔中，采用注意力引导融合机制进行融合；将融合后的特征传入解码器中，进行求和与上采样，恢复原始视频帧尺寸，以获取最终的视频显著性图，为后期视频通信服务。所述方法探索多尺度时空特征高效融合方式，提高视频显著性区域检测精度，且计算复杂度低，在精度和计算时间上均有明显优势。

Description

视频显著性区域检测方法、装置、电子设备及存储介质

技术领域

本发明涉及图像通信方法技术领域，尤其涉及一种视频显著性区域检测方法、装置、电子设备及存储介质。

背景技术

视频显著性区域检测是视频处理和计算机视觉中的基本任务之一，旨在模拟人类视觉注意系统，预测人类自由观看视频时对各个视频区域的关注程度，以显著性图的形式表达出来。后续处理中，可以把计算或存储资源分配至关注程度较高的区域，从而节省资源，可以作为视频通信的预处理任务。视频显著性区域检测不仅需要包含语义信息的深层特征，还需要包含位置和细节信息的浅层特征，这就要求所提出方法需要充分利用多尺度时空特征。视频显著性区域检测方法是在主干网络提取到多尺度时空特征的基础上，对其特征进行充分融合，获取显著性区域预测所需的上下文信息，然后进行解码得到预测的显著性图。

随着深度学习的发展和大规模视频显著性数据集的提出，现有的视频显著性区域检测方法取得了一些进展，但仍然存在以下几个方面的问题。首先，所采用的融合框架较为简单，大多是基本的2D卷积融合框架的迁移，缺乏浅层位置信息的传输路径；其次，特征之间大多采用求和或拼接的方式进行融合，忽视了相邻特征间的语义和时空隔阂；最后，所采用的特征大多直接来自于主干网络，而没有进行预增强处理。这几个问题阻碍了多尺度时空特征的充分融合，进一步限制了视频显著性区域检测方法的精度提升。

发明内容

本发明为了解决现有方法中的上述问题，提出一种视频显著性区域检测方法、装置、电子设备及存储介质。

第一方面，本发明提供一种技术方案：一种视频显著性区域检测方法，其特征在于包括如下步骤：

步骤1：获取待传输的视频，选取32帧连续帧，输入到训练好的视频显著性区域检测网络中；

步骤2：采用3D卷积主干网络的编码器，提取视频的多尺度时空特征；

步骤3：通过帧间注意力模块，增强深度特征的时间特性；

步骤4：将多尺度时空特征传入双向时空金字塔中，并采用注意力引导融合机制进行融合，以促进多尺度特征充分融合，生成显著性预测所需的上下文信息；

步骤5：将融合后的特征传入解码器中，恢复原始视频尺寸，以获取输入序列最后一帧的视频显著性图，为后期视频通信服务。

进一步的技术方案在于，帧间注意力模块放置在3D主干网络输出的深度特征之后，用以捕捉帧间关系，调整不同帧的权重，为后期融合提供精细的多尺度特征；该模块包含：平均池化层、全连接层和Sigmoid层，经由此三层可以得到该特征的时间权重FA，将该权重与原特征点乘便可得到优化后的特征，其公式表达如下：

进一步的技术方案在于，双向时空金字塔用以融合多尺度时空特征；沿自上而下的路径，深层特征逐层上采样并与相应的浅层特征融合，然后沿自下而上的路径，浅层特征逐层下采样并与相应的深层特征融合，从而生成准确预测所需的上下文信息；1x1卷积用来调整相融合特征的通道数，上采样和下采样用来调整相融合特征的分辨率；其中上采样采取三线性插值法，下采样采取最大池化法。

进一步的技术方案在于，注意力引导融合机制可以从训练数据中自动学习融合权重，并在不同场景中自适应地调整权重，从而实现更加精准高效的融合；该机制的应用可分为两类：空间注意力引导融合模块和通道注意力引导融合模块。

进一步的技术方案在于，空间注意力引导融合模块应用在双向时空金字塔的相邻特征融合中，用于加强浅层特征的细节，抑制无关噪声干扰；该模块由上采样层、最大池化层、平均池化层和Sigmoid层组成，以获得浅层特征的空间权重，

，

和

分别代表深层特征，用于引导的深层特征和浅层特征，其具体公式如下：

进一步的技术方案在于，通道注意力引导融合模块应用在双向时空金字塔的相邻特征融合中，不仅可以优化浅层特征，还可以在相邻特征之间建立信息交互路径；该模块由最大池化层、平均池化层、全连接层和Sigmoid层组成，

和

分别代表深层特征和浅层特征，其具体公式如下：

进一步的技术方案在于，训练好的视频显著性区域检测网络的训练步骤包括：

构建视频显著性区域检测网络；

构建训练集，所述训练集为视频原始序列及其对应显著性图；

将训练集输入到视频显著性区域检测网络中，对网络进行训练；

视频显著性区域检测网络输出预测的显著性图；

将输出预测的显著性图和原始视频帧的显著性图进行损失函数值的计算；

当损失函数值达到最小值时，停止训练，得到训练好的视频显著性区域检测网络。

第二方面，本发明提供了视频显著性区域检测装置，其特征是，包括：

获取模块，其被配置为：获取待检测视频，并截取32帧连续帧作为输入序列；

编码器，其被配置为：以3D卷积网络为主干，对输入帧序列进行编码，提取视频的多尺度时空特征；

帧间注意力模块，其被配置为：输入深层时空特征，捕捉帧间关系，调整不同帧的权重，增强深度特征的时间特性；

双向时空金字塔模块，其被配置为：对多尺度时空特征进行由上到下和由下到上两种通路的融合，并部分或完全采用注意力引导融合机制对相邻特征进行融合；

解码器，其被配置为：采用求和与上采样方式，将融合后的多尺度特征恢复原始视频尺寸，以获取输入序列最后一帧的视频显著性图。

第三方面，本发明还提供了一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面或第一方面的任一种进一步的技术方案所述方法。

第四方面，本发明还提供了一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述第一方面或第一方面的任一种进一步的技术方案所述方法。

采用上述技术方案所产生的有益效果在于：本方法通过在融合框架、融合机制和特征预增强方面的改进，综合利用了多尺度、空间和时间信息，大大提高了多尺度时空特征的融合效率，进而提高了视频显著性区域检测的精度。并且所采用的模块结构简单，计算复杂度低，故本模型在精度和计算时间上均有明显优势。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例一中视频显著性区域检测方法的整体框架图；

图2是本发明实施例一中视频显著性区域检测方法的网络结构图；

图3是本发明实施例一中帧级注意力模块的结构示意图；

图4(a)-图4(b)分别是本发明实施例一中空间注意力引导融合模块和通道注意力引导融合模块的结构示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

实施例一

如图1所示，本发明提供了一个实施例的视频显著性区域检测方法，包括：

S1：获取待传输的视频，选取32帧连续帧，输入到训练好的视频显著性区域检测网络中；

S2：采用3D卷积主干网络的编码器，提取视频的多尺度时空特征；

S3：通过帧间注意力模块，增强深度特征的时间特性；

S4：将多尺度时空特征传入双向时空金字塔中，并采用注意力引导融合机制进行融合，以促进多尺度特征充分融合，生成显著性预测所需的上下文信息；

S5：将融合后的特征传入解码器中，恢复原始视频尺寸，以获取输入序列最后一帧的视频显著性图，为后期视频通信服务。

本发明提供一个优选实施例执行S1，将视频帧序列输入到训练好的视频显著性区域检测网络中。其检测网络的训练步骤包括：

第一步，构建视频显著性区域检测网络，如图2所示，具体见S2，S3，S4和S5步骤；

第二步，构建训练集，所述训练集为视频原始序列及其对应显著性图。采用三个常用的视频显著性数据集：DHF1K、Hollywood-2和UCF-Sports。其中，DHF1K为大型视频注视数据库，涵盖类型较多，该数据集中1000个视频被划分为训练集、验证集和测试集，其数量分别为600个、100个和300个。Hollywood-2为来自好莱坞电影的1707段视频，其中823个视频用于训练，884个视频用于测试。UCF-Sports为来自体育运动视频的数据集，其中103个视频用于训练，47个视频用于测试。

第三步，将训练集输入到视频显著性区域检测网络中，对网络进行训练。将输入图像分辨率调整为384x224，并采用随机水平翻转的数据增强方式。对于每次训练，从单个视频中随机选择32帧连续帧作为输入。batchsize设置为16，初始学习率为10^-3，采用衰减因子为2x10^-7的L2正则化来减少过拟合。在DHF1K数据集上训练80带，并在第40和70带将学习率降低10倍，用验证集来进行早停。对于Hollywood-2和UCF-Sports数据集，使用在DHF1K上训练的权重进行微调，并用测试集检测收敛效果。

第四步，视频显著性区域检测网络输出预测的显著性图；

第五步，将输出预测的显著性图和原始视频帧的显著性图进行损失函数值的计算。本实施例采用多个显著性损失项作为损失函数，包含KL散度(Kullback-Leibler divergence)损失、线性相关系数(Linear Correlation Coefficient, CC)损失和归一化扫描路径显著性(Normalized Scanpath Saliency, NSS)损失。假如

和

分别为显著性真值图和预测图，

是而注视点标注数据，则各个损失项的计算方法如下：

其中i代表像素坐标，

，

和

分别代表协方差、均值和标准差。最终损失函数的表达式如下：

其中，

和

为权重系数。通过实验验证，设置

=0.5，

=0.1。

第六步，当损失函数值达到最小值时，停止训练，得到训练好的视频显著性区域检测网络。

本发明提供了一个优选实施例执行S2。采用S3D卷积主干网络的编码器，提取视频的多尺度时空特征。S3D网络是视频分类任务中的经典主干网络，由四个3D卷积层和三个最大池化层组成。以T帧HxW的视频帧作为输入，编码器S3D通过多个池化层生成多尺度时空特征：

，

，

和

。

本发明提供了一个优选实施例执行S3。通过帧间注意力模块，增强深度特征的时间特性。帧间注意力模块放置在3D主干网络输出的深度特征之后，用以捕捉帧间关系，调整不同帧的权重，为后期融合提供精细的多尺度特征。该模块如图3所示，包含平均池化（AvgPool）层，全连接（FC）层和Sigmoid层，该模块首先通过平均池化来聚合空间和通道信息，生成帧级张量，然后通过全连接层来建模帧间关系，最终通过Sigmoid函数来获取每帧权重FA，将该权重与原特征点乘便可得到优化后的特征。其公式表达如下：

由于浅层特征具有较少的语义信息，因此很难通过它们来建模准确的帧间关系，故将FA模块用于在深度特征

和

上，以提高这些特征的时间感知能力。

本发明提供了一个优选实施例执行S4。本实施例旨在将多尺度时空特征传入双向时空金字塔中，并采用注意力引导融合机制进行融合，以促进多尺度特征充分融合，生成显著性预测所需的上下文信息。该网络包含三个部分：双向时空金字塔、空间注意力引导融合模块和通道注意力引导融合模块。3个部分的具体构建步骤如下：

S41，双向时空金字塔在自上而下的路径之后添加自下而上的融合路径。通过该框架，多尺度时空特征将得以充分融合，进一步生成用于准确预测所需的上下文信息。深度特征沿着自上而下的融合路径逐步上采样，并与相应的浅层特征融合，而后，浅层特征沿着自下而上的融合路径逐层下采样，并与对应的深层特征融合。详细计算过程如下：

其中,Fu是多尺度特征融合函数。为了多尺度特征之间的融合，Conv^1x1用于将其特征调整至相同的通道数，而Upsample和MaxPool用于将其特征调整至相同的分辨率。

为了进一步提高融合效率，将空间注意力引导融合模块和通道注意力引导融合模块分别插入自上而下和自下而上的路径上，如图2所示。

S2，空间注意力引导融合模块由上采样（Upsample）层，最大池化（MaxPool）和平均池化（AvgPool）层，Sigmoid层组成，以获得浅层特征的空间权重。通过该模块，相邻特征在深层特征的语义信息引导下进行融合，抑制无关噪声影响，突出浅层特征中的重要细节。

空间注意力引导融合模块的具体流程如图4(a)所示，其中

，

和

分别表示深层特征，用于引导的深层特征和浅层特征。首先对

进行上采样，使其与

同等大小，然后，将上采样后的

特征沿通道和时间维度进行最大池化和平均池化，最后，将池化后的特征图进行拼接，经过卷积层和Sigmoid层生成空间注意力。将其与

相乘，便可得到在深层语义引导下的浅层特征，进而进行后续融合。该计算过程如下：

如图2所示，SAGF模块用于深层特征

和浅层特征

、

之间。这是因为，与

相比,

不仅集成了

的深层信息，而且与

、

的位置和尺寸差别更小，更加适合用于作为引导的深层特征。

S43，通道注意力引导融合模块由最大池化（MaxPool）和平均池化(AvgPool)层，全连接(FC)层和Sigmoid层组成。它能够从深层语义信息中自适应地学习浅层的通道权重。该模块不仅可以优化浅层特征，还可以构建起相邻特征间的信息交互路径。

通道注意力引导融合模块的具体流程如图4(b)所示。该模块首先通过最大池化和平均池化来聚合

的空间和时间信息，生成两个通道张量；该张量将被传入到全连接层，以学习通道的相关性信息；然后，将全连接层的输出结果进行相加，并通过Sigmoid函数来获取

的通道注意力；最后，将

进行最大池化，并与之通道注意力相乘，再与

进行最终融合。其具体计算流程如下：

本发明提供了一个优选实施例执行S5。本实施例旨在将融合后的特征传入解码器中，恢复原始视频尺寸，以获取输入序列最后一帧的视频显著性图。本实施例的解码器由四个3D卷积层和两个上采样层组成。在该编码器中，融合后的时空特征通过3D卷积层沿着时间和通道维度进行聚合，通过上采样层逐渐恢复到原始帧的分辨率，并最终通过Sigmoid函数来得到最终的显著性图。

为了验证以上实施例一的有效性，本发明方法与其他先进方法在三个数据集DHF1K、Hollywood-2和UCF-Sports上进行性能对比，并选用常用的4个指标：AUC-Judd（AUC-J）、相似性度量（Similarity Metric，SIM）、CC和NSS。这四个指标越大，说明显著性区域越精准。实验结果如表1所示。

表1 在三个数据集上的预测精度对比结果

由表1可知，本实施例在各个数据集上的多项指标上都领先于现有方法。此外，将本实施例与其他方法的运行时间和参数量进行比较，结果如表2所示，可以看出本实施例的运行时间和参数两均较小，证明了本实施例方法的有效性。

表2 多个方法的运行时间与参数

实施例二

本实施例提供了视频显著性区域检测装置，其特征是，包括：

此处需要说明的是，上述多个模块对应于实施例一中的步骤S1至S5，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频显著性区域检测方法，其特征在于，包括如下步骤：

步骤3：通过帧间注意力模块，增强深度特征的时间特性；

步骤5：将融合后的特征传入解码器中，恢复原始视频帧尺寸，以获取输入序列最后一帧的视频显著性图，为后期视频通信服务。

2.如权利要求1所述的视频显著性区域检测方法，其特征在于，所述帧间注意力模块放置在3D主干网络输出的深度特征之后，用以捕捉帧间关系，调整不同帧的权重，为后期融合提供精细的多尺度特征；该模块包含：平均池化，全连接层和Sigmoid层，经由此三层可以得到该特征的时间权重FA，将该权重与原特征点乘便可得到优化后的特征，其公式表达如下：

。

3.如权利要求1所述的视频显著性区域检测方法，其特征在于，所述双向时空金字塔用以融合多尺度时空特征；沿自上而下的路径，深层特征逐层上采样并与相应的浅层特征融合，然后沿自下而上的路径，浅层特征逐层下采样并与相应的深层特征融合，从而生成准确预测所需的上下文信息；1x1卷积用来调整相融合特征的通道数，上采样和下采样用来调整相融合特征的分辨率；其中上采样采取三线性插值法，下采样采取最大池化法。

4.如权利要求1所述的视频显著性区域检测方法，其特征在于，所述注意力引导融合机制可以从训练数据中自动学习融合权重，并在不同场景中自适应地调整权重，从而实现更加精准高效的融合；该机制的应用可分为两类：空间注意力引导融合模块和通道注意力引导融合模块。

5.如权利要求4所述的视频显著性区域检测方法，其特征在于，所述的空间注意力引导融合模块应用在双向时空金字塔的相邻特征融合中，用于加强浅层特征的细节，抑制无关噪声干扰；该模块由上采样层、最大池化层、平均池化层和Sigmoid层组成，以获得浅层特征的空间权重，

，

和

。

6.如权利要求4所述的视频显著性区域检测方法，其特征在于，所述的通道注意力引导融合模块应用在双向时空金字塔的相邻特征融合中，不仅可以优化浅层特征，还可以在相邻特征之间建立信息交互路径；该模块由最大池化层、平均池化层、全连接层和Sigmoid层组成，

和

分别代表深层特征和浅层特征，其具体计算公式如下：

。

7.如权利要求1所述的视频显著性区域检测方法，其特征在于，所述训练好的视频显著性区域检测网络的训练步骤包括：

构建视频显著性区域检测网络；

视频显著性区域检测网络输出预测的显著性图；

8.视频显著性区域检测装置，其特征是，包括：

解码器，其被配置为：采用求和与上采样方式，将融合后的多尺度特征恢复原始视频帧尺寸，以获取输入序列最后一帧的视频显著性图。

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。