CN112149459B

CN112149459B - 一种基于交叉注意力机制的视频显著性物体检测模型及系统

Info

Publication number: CN112149459B
Application number: CN201910566667.0A
Authority: CN
Inventors: 张海军; 姬玉柱
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2023-07-25
Anticipated expiration: 2039-06-27
Also published as: CN112149459A

Abstract

本发明涉及一种基于交叉注意力机制的视频显著性物体检测方法及系统。所述方法包括：A、将输入相邻帧图像输入到共享参数的相似网络结构中，抽取高级和低级特征；B、利用自注意力模块对单帧图像内部的显著性特征进行特征的重新配准和对齐；C、利用帧间交叉注意力机制，获取帧间时空关系上显著性物体位置上的关系依赖，作为权重作用到高级特征上，捕获时空关系上的显著性物体检测的一致性；D、对抽取的相邻帧帧内高级特征、低级特征以及具有帧间依赖关系的时空特征进行融合；E、将输入的特征进行特征降维，利用分类器输出像素级分类结果；F、建立一个基于交叉注意力机制的深度视频显著性物体检测模型，并使用GPU并行计算来加速模型的训练。

Description

一种基于交叉注意力机制的视频显著性物体检测模型及系统

技术领域

本发明属于视频显著性物体检测与视频分割领域，尤其涉及一种基于交叉注意力机制的视频显著性物体检测模型及系统，所述模型及系统使用交叉注意力机制的短时记忆功能，保持进内显著性检测准确性的同时，捕捉连续相邻帧间的显著相关性和一致性信息，从而完成视频显著性物体检测这一像素级分类任务。

背景技术

人眼视觉系统可以快速精准地定位到视野中高区分度的物体或是场景区域(也称显著性物体)引发了视觉领域对人眼视觉感知能力的模拟、研究与探索。研究表明，人眼视觉注意力机制对视觉空间内的部分信息进行分析整合，进而建立对整个场景的理解。显著性物体检测也旨在高效过滤视觉场景中的非重要信息，抽取、模拟与预测人眼视觉感知中的高级信息，探索与模拟人类视觉感知系统的机制。

目前，由于时空信息建模的复杂度以及视频显著性物体检测数据集的缺乏，基于视频数据的显著性物体检测模型的研究并没有大量展开。加之，处理视频数据通常要面临复杂场景、相机抖动、目标位置多变等问题，使得视频显著性检测问题相较于静态图像将更具有挑战性。

从整体上讲，现有的视频显著性物体检测方法分为传统方法和深度卷积神经网络方法。传统方法的性能受限于传统特征抽取方法和时空信息建模等方面。近年来，随着深度学习在许多视觉任务上取得了不错的成果，基于卷积神经网络的视频显著性物体检测的方法的提出促进了这一领域的发展，并在性能和时空信息建模方面超越了传统方法。

然而，基于卷积循环神经网络的方法在长程时序关系建模方面的能力已损失单帧模型的检测精度为代价。而引入光流场时空信息的双股网络则因为引入额外的网络分支导致整体模型训练过程的割裂。本发明旨在综合考虑帧内显著性物体检测的准确性以及帧间显著性物体的一致性，在相似网络(Siamese network)框架下，利用交叉注意力机制对时空信息进行建模，形成端到端的基于时空信息融合的编码译码框架；在此框架下，以相邻且具有先后顺序的前后帧数据作为输入，利用多级特征抽取，交叉注意力模块，及时空特征融合等模块，对输入帧对儿进行准确且一致的显著性物体检测，并且可以将所有模块统一联合进行端到端的训练，获得视频显著性物体检测模型。

发明内容

本发明的目的在于提出了一种基于交叉注意力机制的视频显著性物体检测模型及系统，旨在解决现有技术中模型精度和时序特征建模的问题。

本发明通过以下技术方案实现：一种基于交叉注意力机制的视频显著性物体检测方法，包括以下步骤：

A、多级特征抽取步骤：利用深度卷积神经网络对视频原始帧图像进行多级特征抽取，并生成高级、低级特征图；在卷积神经网络中，高级特征图通常包含高级语义信息，低级特征图通常包含更多的纹理、边缘等细节信息；直观上讲，高级特征通常从网络深层特征抽取获得，而低级特征图通常可由网络的浅层部分获得；

B、自注意力生成步骤：采用自注意力机制，利用帧内高级特征图各像素位置上的特征关系，对帧内特征进行重新配准和对齐，使得特征包含帧内上下文的语义和位置信息，提升模型对帧内显著性物体检测的响应；

C、交叉注意力生成步骤：利用帧间交叉注意力机制，获取帧间时空关系上显著性物体语义及位置上的关系依赖，作为配准权重作用到高级特征上，保持时空关系上的显著性物体检测的一致性；

D、时空特征融合步骤：对抽取的相邻帧帧内高级特征、低级特征以及具有帧间依赖关系的时空特征进行融合；

E、输出步骤：将输入的融合特征进行特征降维，利用分类器输出相邻两帧图像的像素级分类结果；

F、联合检测步骤：建立一个基于交叉注意力机制的深度视频显著性物体检测模型(CASNet)，并使用GPU并行计算来加速模型的训练。

进一步地，所述步骤A包括以下步骤：

A1、视频帧数据准备：利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图，通过抽取相邻或具有一定时序间隔的视频帧对儿，建立模型训练数据；

A2、基于卷积神经网络编码译码结构的预训练：设计基于静态图像的深度卷积编码译码网络D(E(·))，利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

A3、多级特征抽取：在A2步骤中预训练的主干网络基础上，对输入的前后帧对儿分别抽取多尺度高级与低级特征表达。将t和t+Δt时刻的输入帧(I_t，I_t+Δt)输入权值共享的预训练主干网络中D(E(·))，得到多级特征表达这样就完成了在相似网络结构下的多级特征抽取。

进一步地，所述步骤B包括以下步骤：

B1、静态特征准备：利用抽取的高级特征数据，构建像素级键值关系(key-value)对儿以及输出(output)特征，分别通过投影变换得到低维嵌入空间的特征表达；

B2、帧内像素级自注意力权重生成：利用矩阵乘法获得像素级键值关系矩阵，并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分，输出注意力权重；

B3、帧内高级特征重配准：利用生成的注意力权重，作用到输出特征上，实现特征的配准，通过引入残差链接，保证深层网络的信息流通畅以及训练时的梯度回传。

进一步地，所述步骤C包括以下步骤：

C1、时空特征准备：利用生成的两帧各自的帧内配准特征，重新构建像素级键值源(Source)关系对儿，利用目标帧特征(target)作为输出，分别通过投影变换矩阵得到低维嵌入空间的特征表达；

C2、帧间像素级注意力权重生成：利用矩阵乘法获得源帧特征的像素级键值关系矩阵，并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分，输出注意力权重；

C3、双向帧间交叉注意力特征重配准：将从源帧特征得到的注意力权重作用到目标帧的输出特征上，进行帧间特征重配准，并利用同时残差链接，保证深层网络的信息流通畅。之后，通过交换源帧和目标帧特征的输入，实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准，输出配准特征(Z_t+Δt→t，Z_t→t+Δt)。

进一步地，所述步骤D包括以下步骤：

D1、帧内高级和低级特征融合：根据每帧内抽取的高级和低级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，得到帧内多尺度空间特征；

D2、帧间时空特征融合：利用交叉注意力模块输出的时序特征，利用特征图的上采样和级联操作进行特征融合，得到帧间时空特征。

进一步地，所述步骤E包括以下步骤：

E1、特征降维：输出模块首先接收融合了时空信息的特征，利用卷积层进行降维；

E2、像素级分类：最后将降维后的特征输入分类器输出每个像素点上显著性的概率，实现像素级分类；

进一步地，所述步骤F包括以下步骤：

F1、形成基于相似(Siamese)网络的短时视频显著性物体检测模型；

F2、通过对编码译码结构，交叉注意力模块以及时空特征融合模块进行端到端训练，利用GPU并行计算技术加速模型的训练过程；

F3、利用训练好的模型，通过规定输入的待检测视频帧对儿，可以实现视频显著性物体检测。

另一方面，本发明还提供了一种基于交叉注意力机制的视频显著性物体检测系统，包括：

多级特征抽取模块：利用深度卷积神经网络对视频原始帧图像进行多级特征抽取，并生成高级、低级特征图，此模块属于基于卷积神经网络的编码译码结构特征抽取器；

自注意力模块：采用自注意力机制，利用帧内高级特征图各像素位置上的特征关系，对帧内特征进行重新配准和对齐，使得特征包含帧内上下文的语义和位置信息，提升模型对帧内显著性物体检测的响应；

交叉注意力模块：利用帧间交叉注意力机制，获取帧间时空关系上显著性物体语义及位置上的关系依赖，作为配准权重作用到高级特征上，保持时空关系上的显著性物体检测的一致性；

时空特征融合模块：对抽取的相邻帧帧内高级特征、低级特征、以及具有帧间依赖关系的时空特征进行融合；

输出模块：将输入的融合特征进行特征降维，利用分类器输出相邻两帧图像的像素级分类结果；

联合检测模块：将上述5个网络模块联合起来，建立一个基于交叉注意力机制的深度视频显著性物体检测模型(CASNet)，并使用GPU并行计算来加速模型的训练。

进一步地，所述多级特征抽取模块包括：

视频帧数据准备子模块：利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图，通过抽取相邻或具有一定时序间隔的视频帧对儿，建立模型训练数据；

基于卷积神经网络编码译码结构的预训练模块：设计基于静态图像的深度卷积编码译码网络D(E(·))，利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

多级特征抽取模块：在预训练的主干网络基础上，对输入的前后帧对儿分别抽取多尺度高级与低级特征表达。将t和t+Δt时刻的输入帧(I_t，I_t+Δt)，输入权值共享的预训练主干网络中D(E(·))，得到多级特征表达这样就完成了在相似网络结构下的多级特征抽取。

进一步地，所述自注意力模块包括：

静态特征准备子模块：利用抽取的高级特征数据，构建像素级键值关系(key-value)对儿以及输出(output)特征，分别通过投影变换得到低维嵌入空间的特征表达；

帧内像素级自注意力权重生成子模块：利用矩阵乘法获得像素级键值关系矩阵，并利用softmax函数得到像素i与其他相关像素间的关系权重并进行权重配分，输出注意力权重；

帧内高级特征重配准子模块：利用生成的注意力权重，作用到输出特征上，实现特征的配准，通过引入残差链接，保证深层网络的信息流通畅以及训练时的梯度回传。

进一步地，所述交叉注意力模块包括：

时空特征准备子模块：利用生成的两帧各自的帧内配准特征，重新构建像素级键值源(source)关系对儿，利用目标帧特征(target)作为输出，分别通过投影变换矩阵得到低维嵌入空间的特征表达；

帧间像素级注意力权重生成子模块：利用矩阵乘法获得源帧特征的像素级键值关系矩阵，并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分，输出注意力权重；

双向帧间交叉注意力特征重配准子模块：将从源帧特征得到的注意力权重作用到目标帧的输出特征上，进行帧间特征重配准，并利用同时残差链接，保证深层网络的信息流通畅。之后，通过交换源帧和目标帧特征的输入，实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准，输出配准特征(Z_t+Δt→t，Z_t→t+Δt)。

进一步地，所述时空特征融合模块包括：

帧内高级和低级特征融合子模块：根据每帧内抽取的高级和低级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，得到帧内多尺度空间特征；

帧间时空特征融合子模块：利用交叉注意力模块输出的时序特征，利用特征图的上采样和级联操作进行特征融合，得到帧间时空特征。

进一步地，所述输出模块包括：

特征降维子模块：输出模块首先接收融合了时空信息的特征，利用卷积层进行降维；

像素级分类子模块：最后将降维后的特征输入分类器输出每个像素点上显著性的概率，实现像素级分类。

进一步地，所述联合检测模块包括：

将上述5个模块联合起来形成基于相似(Siamese)网络的短时视频显著性物体检测模型；通过对编码译码结构，交叉注意力模块以及时空特征融合模块进行端到端训练，利用GPU并行计算技术加速模型的训练过程；利用训练好的模型，通过给定待检测视频帧对儿，可以实现视频显著性物体检测；

本发明的有益效果是：本发明提供的基于交叉注意力机制的视频显著性物体检测模型，以相邻且具有先后顺序的前后帧数据作为输入，对于网络结构，与基于循环神经网络的方法相比，更注重于短时帧内的显著性检测精度。与引入额外光流信息的多分支网络相比，更注重通过交叉注意力模块获得帧间显著性物体检测的相关性和一致性。同时，在相似网络的框架下，设计并构造视频显著性物体检测模型中的各个子模块，(包括“多级特征抽取”，“自注意力模块”，“交叉注意力模块”，“时空特征融合等模块”，以及“输出模块”)，并且将所有模块统一联合，形成一个统一的基于卷积神经网络的时空编码译码结构，称之为“CASNet模型”。整体结构可以进行端到端的训练，获得视频显著性物体检测模型。在多级特征抽取部分，利用深度卷积神经网络抽取出具有前后关系的视频帧对儿的多尺度特征表达。通过自注意力模块，获取帧内高级特征图各像素点之间的空间相关信息。之后，利用交叉注意力模块，捕获帧间显著性特征的像素级相关性特征。在时空特征融合部分，帧内多级特征与帧间时空相关性特征融合在一起，并被送入输出模块，进行像素级分类，获得预测结果。所有训练过程都是由设计并构造的神经网络模型自动完成，不需要额外对数据进行离线特征抽取、抑或是数据统计工作。利用GPU并行计算加速技术，可以实现高速的训练和测试过程。

附图说明

图1是本发明基于交叉注意力机制的视频显著性物体检测方法的流程图；

图2是本发明基于交叉注意力机制的视频显著性物体检测系统的框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的设计灵感来源于对视频帧短时依赖关系进行建模。考虑当前基于循环神经网络结构的模型对长序列训练的难度较大，在精细化分割要求的场景下不能满足高精确度的需求。考虑从短时依赖关系入手，在相似网络的框架下，通过综合考虑帧内显著性物体检测的准确性和保持帧间显著性物体的一致性，设计并实现一种基于交叉注意力机制的视频显著性物体检测模型及系统。

附图1示出了本发明提供的基于交叉注意力机制的视频显著性物体检测模型的流程图，其详述如下：

步骤S1：多级特征抽取步骤。本步骤需要利用现有的深度卷积神经网络作为主干模型对输入的具有先后关系的视频帧进行多级特征抽取。数据集可以选用逐帧标注的视频显著性物体检测公开数据集，例如，DAVIS数据集，UVSD数据集，以及SegTrack数据集等。具体步骤如下：

(S11)视频帧数据准备：对于给定的具有逐帧标注的视频数据集，利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图，通过抽取相邻或具有一定时序间隔的视频帧对儿(I_t，I_t+Δt)，建立训练数据集。通常，帧间隔Δt的选取是为了提高具有一定帧间变动的样本对儿多样性。给定的一个序列长度为N视频数据，通过设定帧间隔，穷举具有先后顺序的视频帧对儿，共可以得到(N-1)·Δt个样本对儿。此外，在模型训练之前，还可以通过随机水平镜像、对输入图像添加随机扰动、噪声等方式进行数据增广，获取更加丰富的训练数据。

(S12)基于卷积神经网络编码译码结构的预训练：本步骤通过设计基于静态图像的深度卷积编码译码网络D(E(·))，利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；通常，可以选取生成多级多尺度特征表达的网络进行模型的预训练。这里选取一种感知一致性解析网络(UnifiedPerceptual Parsing Network，简称UPerNet)作为特征抽取的主干网络进行模型预训练，获得具有显著性物体检测泛化能力的预训练模型。本步骤为后续抽取视频帧内蕴含语义和细节信息的高级低级特征，以及模型能力迁移做准备。

(S13)多级特征抽取：在(S12)步骤中获得的预训练主干网络基础上，对输入的前后帧对儿分别抽取多尺度高级与低级特征表达。具体地，将t和t+Δt时刻的输入帧对儿(I_t，I_t+Δt)输入到权值共享的预训练主干网络D(E(·))，得到多级特征表达这里，在具体实现中，分别抽取了1/4，1/8，1/16，以及1/32尺度上的多级特征图。在应用中，可根据具体问题及实际设备运算能力，考虑增加或去除某些尺度。通常，低级特征图中包含更多的细节特征，高级特征图蕴涵了显著性的语义及位置信息。这些特征均为生成精确的帧内显著性物体检测结果提供重要依据。

步骤S2：自注意力生成步骤。本步骤以帧内显著性的空间相关性为建模对象，通过生成基于帧内高级特征图的像素级关系注意力权重，并根据注意力权重对原高级特征图进行重配准和特征增强，生成更准确的阵内显著性特征图。具体步骤如下：

(S21)静态特征准备：首先，利用步骤S1中抽取得到的帧内高级特征，构建像素级键值关系(key-value)对儿以及输出(output)特征，分别通过投影变换得到低维嵌入空间的特征表达；这里，为简化符号表示，将特征约简为/>具体地，给定t帧的高级特征图/>首先利用投影变换，原始特征像素点上的特征进行投影，此过程可表示为：

s_i，j＝(W_fx_i)^T(W_gx_j)，

其中，W_f和W_g分别表示两个投影变换矩阵，x_i和x_j分别表示i和j像素位置上的特征向量。在具体实现中，可以通过设定W_f和W_g的维度将原始特征投影到低维空间中，从而降低特征维度和后续像素级关系的注意力权重计算复杂度。

(S22)帧内像素级自注意力权重生成：获得投影后的关系矩阵之后，利用softmax函数对像素j相对i元素的注意力权重进行配分，具体过程可表示为：

其中，exp表示以自然常数e为底的指数函数，分母表示与所有与j像素相关的所有权重之和。通过此步骤，可以将权重配分到0～1之间，并可得到和为1，并输出重新分配的注意力权重。

(S23)帧内高级特征重配准：利用生成的注意力权重，对每个像素位置上的输入特征，利用与之相关的所有特征间的关系注意力权重，通过加权求和的方式对原始特征进行重配准。此过程可以表示为：

其中，δ(x_i)＝W_δx_i表示输出端的投影过程，W_δ表示投影矩阵。在具体实现中，可以引入残差链接，保证深层网络的信息流通畅以及训练时的梯度回传。具体形式可以表示为：

y_j＝o_j+x_j

为简化后续的表述过程，将自注意力生成步骤利用符号表示为：

Y＝S^att(X).

步骤S3：交叉注意力生成步骤。

(S31)时空特征准备：经过步骤S2中生成的自注意力权重，分别对两视频帧的帧内高级特征进行配准，获得具有像素级空间相关性的显著性特征，为交叉注意力步骤生成时空注意力特征做好数据准备。

(S32)帧间像素级注意力权重生成：通过重新构建像素级键值源(source)到目标(target)关系对儿，利用目标帧特征(target)作为输出，分别通过投影变换矩阵得到低维嵌入空间的特征表达，并利用步骤S2中的相似步骤生成基于像素级关系的注意力权重。具体地，利用矩阵乘法获得源帧特征的像素级键值关系矩阵，并利用softmax函数对像素i与其他相关像素间的关系权重进行权重配分，输出注意力权重；并利用此注意力权重进行导向型的特征配准，生成融合了时空信息的特征。因此，t到t+Δt帧的时空特征生成过程可以表示为：

其中，表示Hadamard乘法，亦称元素级乘法。在具体实现中，通过同样引入残差结构，融合帧间的时空信息，以保证深层网络信息流的通畅以及训练时的梯度回传的稳定性。

(S33)双向帧间交叉注意力特征重配准：将从源帧特征得到的注意力权重作用到目标帧的输出特征上，进行帧间特征重配准，并利用同时残差链接，保证深层网络的信息流通畅。之后，通过交换源帧和目标帧特征的输入，实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准，输出配准特征(Z_t+Δt→t，Z_t→t+Δt)。

步骤S4：时空特征融合步骤。本步骤将上述生成的帧内多尺度特征以及帧间的时空关系特征进行特征融合，为后续像素级分类提供数据输入。具体步骤如下：

(S41)帧内高级和低级特征融合：根据每帧内抽取的高级和低级特征利用特征图的上采样和特征图沿通道维度方向的级联操作进行特征融合，得到帧内多尺度空间特征；在具体实现中，可以利用多尺度特征金字塔网络结构，对阵内的多尺度特征进行特征融合。给定t时刻的帧内多级特征为融合过程为：

其中，ν(·)表示相应尺度上的1x1卷积降维操作，τ(·)表示对应尺度上利用卷积层进行特征融合操作，κ(·)表示上采样操作，用于将高级特征上采样到相应的低级特征的尺度上。最终得到t时刻帧内融合特征(Y_t ^1/4，Y_t ^1/8，Y_t ^1/16，Y_t)。同理对t+Δt时刻的帧内多尺度特征进行高级和低级特征融合，得到

D2、帧间时空特征融合：利用交叉注意力模块输出的时序特征(Z_t+Δt→t，Z_t→t+Δt)，利用特征图的上采样和级联操作进行特征融合，得到帧间时空特征。具体实现的时空特征融合过程可表示为：

S_t+Δt→t＝Ω[κ^8×(Z_t+Δt→t)，κ^8×(Y_t)，κ^4×(Y_t ^1/16)，κ^2×(Y_t ^1/8)，Y_t ^1/4]

其中，κ(·)表示上采样操作，Ω(·)表示沿通道维度的特征图级联操作。这样就得到了融合了帧内多尺度特征以及帧间时空信息的特征图。

步骤S5：输出步骤。本步骤用于将输入的融合特征进行特征降维，最终，利用分类器输出两帧图像的像素级分类结果；具体实现步骤包括：

(S51)特征降维步骤：输出模块首先接收融合了时空信息的特征S_t+Δt→t以及S_t→t+Δt，利用卷积层进行特征降维；

(S52)像素级分类步骤：最后将降维后的特征输入分类器中，输出每个像素点上显著性的概率或得分，并利用设定的阈值实现像素级分类；

步骤S6：联合上述各个子模块，形成基于相似网络(Siamese network)的短时视频显著性物体检测模型；通过对编码译码结构，交叉注意力模块以及时空特征融合模块进行端到端训练。在具体实现中，首先联合模型，将上述各个步骤中涉及到的卷积神经网络模块链接起来，构建出相似网络框架，统一训练参数模型。在具体实现中，对于编码译码模型的编码部分的各层权重，可以通过加载在静态图像数据集上预训练好的模型进行参数初始化。自注意力和交叉注意力模块，以及多尺度特征融合及最终的输出模块通过设定通用的初始化策略为参数进行赋值，例如Xavier初始化、MSRA初始化等。这里采用MSRA初始化方法。在模型训练过程中，模型优化使用批量梯度下降算法。设置批输入样本对儿个数为8。初始学习率设置为0.02，设定学习率以Poly策略衰减。梯度更新方式利用带动量的梯度下降算法，动量值设置为0.9。利用多卡GPU工作站或计算集群等设备进行并行计算，加速模型的训练过程；利用训练好的模型，通过给定待检测视频帧对儿，可以实现视频显著性物体检测。

附图2所示为本发明的基于交叉注意力机制的视频显著性物体检测系统，所述视频显著性物体检测系统包括：

自注意力模块：采用自注意力机制，利用帧内高级特征图各像素位置上的特征关系，对帧内特征进行重新配准和对齐，使得特征包含帧内上下文的语义和位置信息，提升模型对帧内显著性物体检测的响应。

交叉注意力模块：利用帧间交叉注意力机制，获取帧间时空关系上显著性物体语义及位置上的关系依赖，作为配准权重作用到高级特征上，保持时空关系上的显著性物体检测的一致性。

所述多级特征抽取模块包括：

基于卷积神经网络编码译码结构的预训练子模块：设计基于静态图像的深度卷积编码译码网络D(E(·))，利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

多级特征抽取子模块：在预训练的主干网络基础上，对输入的前后帧对儿分别抽取多尺度高级与低级特征表达。将t和t+Δt时刻的输入帧(I_t，I_t+Δt)，输入权值共享的预训练主干网络中D(E(·))，得到多级特征表达这样就完成了在相似网络结构下的多级特征抽取。

所述自注意力模块包括：

所述交叉注意力模块包括：

所述时空特征融合模块包括：

所述输出模块包括：

像素级分类子模块：最后将降维后的特征输入分类器输出每个像素点上显著性的概率，实现像素级分类；

所述联合检测模块包括：

本发明的主要贡献有以下两点：(1)首先，本发明提供的基于交叉注意力机制的视频显著性物体检测模型，从短时时序依赖关系入手，以相邻且具有先后顺序的前后帧数据作为输入，通过自注意力和交叉注意力模块分别用于提升帧内显著性物体检测的准确性，同时捕捉帧间显著性物体的一致性；(2)在相似网络的框架下，设计并构造视频显著性物体检测模型中的多级特征抽取模块、自注意力模块、交叉注意力模块、时空特征融合等模块和输出模块联合起来，形成一个统一的基于卷积神经网络的时空编码译码模型“CASNet”。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于交叉注意力机制的视频显著性物体检测方法，其特征在于：所述方法包括以下步骤：

A、多级特征抽取步骤：利用深度卷积神经网络对视频原始帧图像进行多级特征抽取，并生成高级、低级特征图；在卷积神经网络中，高级特征图通常包含高级语义信息，低级特征图通常包含更多的纹理、边缘细节信息；直观上讲，高级特征通常从网络深层特征抽取获得，而低级特征图通常可由网络的浅层部分获得；

F、联合检测步骤：建立一个基于交叉注意力机制的深度视频显著性物体检测模型，并使用GPU并行计算来加速模型的训练；

所述步骤C包括以下步骤：

C1、时空特征准备：利用生成的两帧各自的帧内配准特征，重新构建像素级键值源关系对儿，利用目标帧特征作为输出，分别通过投影变换矩阵得到低维嵌入空间的特征表达；

C3、双向帧间交叉注意力特征重配准：将从源帧特征得到的注意力权重作用到目标帧的输出特征上，进行帧间特征重配准，并利用同时残差链接，保证深层网络的信息流通畅；之后，通过交换源帧和目标帧特征的输入，实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准，输出配准特征Z_t+Δt→t，Z_t→t+Δt；

所述步骤F包括以下步骤：

F1、形成基于相似网络的短时视频显著性物体检测模型；

F3、利用训练好的模型，通过规定输入的待检测视频帧对儿，实现视频显著性物体检测。

2.根据权利要求1所述的方法，其特征在于：所述步骤A包括以下步骤：

A1、视频帧数据预处理：利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图，通过抽取相邻或具有一定时序间隔Δt的视频帧对儿(I_t,I_t+Δt)，建立模型训练数据；

A2、基于卷积神经网络编码译码结构的预训练：设计基于静态图像的深度卷积编码译码网络利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

A3、多级特征抽取：在A2步骤中预训练的主干网络基础上，对输入的前后帧对儿分别抽取多尺度高级与低级特征表达；将t和t+Δt时刻的输入帧(I_t，I_t+Δt)输入权值共享的预训练主干网络中得到多级/多尺度特征表达这样就完成了在相似网络结构下的多级特征抽取。

3.根据权利要求1所述的方法，其特征在于：所述步骤B包括以下步骤：

B1、静态特征准备：利用抽取的高级特征数据，构建像素级键值关系对儿以及输出特征，分别通过投影变换得到低维嵌入空间的特征表达；

4.根据权利要求1所述的方法，其特征在于：所述步骤D包括以下步骤：

D2、帧间时空特征融合：利用交叉注意力步骤中输出的时序特征，利用特征图的上采样和级联操作进行特征融合，得到帧间时空特征。

5.根据权利要求1所述的方法，其特征在于：所述步骤E包括以下步骤：

E2、像素级分类：最后将降维后的特征输入分类器输出每个像素点上显著性的概率，实现像素级分类。

6.一种基于交叉注意力机制的视频显著性物体检测系统，其特征在于：所述系统包括：

联合检测模块：将上述5个网络模块联合起来，建立一个基于交叉注意力机制的深度视频显著性物体检测模型，并使用GPU并行计算来加速模型的训练；

所述交叉注意力模块包括：

时空特征准备子模块：利用生成的两帧各自的帧内配准特征，重新构建像素级键值源关系对儿，利用目标帧特征作为输出，分别通过投影变换矩阵得到低维嵌入空间的特征表达；

双向帧间交叉注意力特征重配准子模块：将从源帧特征得到的注意力权重作用到目标帧的输出特征上，进行帧间特征重配准，并利用同时残差链接，保证深层网络的信息流通畅；之后，通过交换源帧和目标帧特征的输入，实现t到t+Δt帧和t+Δt到t帧的双向交叉注意力特征配准，输出配准特征Z_t+Δt→t，Z_t→t+Δt；

所述联合检测模块包括：

将上述5个模块联合起来形成基于相似网络的短时视频显著性物体检测模型；通过对编码译码结构，交叉注意力模块以及时空特征融合模块进行端到端训练，利用GPU并行计算技术加速模型的训练过程；利用训练好的模型，通过给定待检测视频帧对儿，可以实现视频显著性物体检测。

7.根据权利要求6所述的基于交叉注意力机制的视频显著性物体检测模型及系统，其特征在于：所述多级特征抽取模块包括：

视频帧数据预处理子模块：利用视频帧及与之对应的逐帧标定的像素级显著性掩模真值图，通过抽取相邻或具有一定时序间隔的视频帧对儿，建立训练数据；

基于卷积神经网络编码译码结构的预训练子模块：设计基于静态图像的深度卷积编码译码网络利用已有的静态图像数据集进行模型预训练，使得深度卷积编码译码网络具备静态图像的显著性检测能力；

多级特征抽取模块：在预训练的主干网络基础上，对输入的前后帧对儿分别抽取多尺度高级与低级特征表达；将t和t+Δt时刻的输入帧(I_t，I_t+Δt)输入权值共享的预训练主干网络中得到多级特征表达/>这样就完成了在相似网络结构下的多级特征抽取。

8.根据权利要求6所述的基于交叉注意力机制的视频显著性物体检测模型及系统，其特征在于：所述自注意力模块包括：

静态特征准备子模块：利用抽取的高级特征数据，构建像素级键值关系对儿以及输出特征，分别通过投影变换得到低维嵌入空间的特征表达；

9.根据权利要求6所述的基于交叉注意力机制的视频显著性物体检测模型及系统，其特征在于：所述时空特征融合模块包括：

10.根据权利要求6所述的基于交叉注意力机制的视频显著性物体检测模型及系统，其特征在于：所述输出模块包括：

11.根据权利要求7所述的基于交叉注意力机制的视频显著性物体检测模型及系统，其特征在于：利用具有先后顺序的视频帧对儿数据作为输入，通过训练基于相似神经网络和编码译码构造的视频显著性物体检测模型进行训练，可以对输入的新视频序列进行实时显著性物体检测。