CN112040222B

CN112040222B - 一种视觉显著性预测方法及设备

Info

Publication number: CN112040222B
Application number: CN202010789004.8A
Authority: CN
Inventors: 廖建鑫; 邹文斌; 庄越; 卓圣楷; 邹辉; 李霞; 袁涛
Original assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Current assignee: Shenzhen Wisdom Union Technology Co ltd; Shenzhen University
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2022-08-19
Anticipated expiration: 2040-08-07
Also published as: CN112040222A

Abstract

本发明提供了一种视觉显著性预测方法及设备，通过获取待检测视频；所述待检测视频含有多个视频帧，且多个所述视频帧中均含有目标注视物；将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图；其中，显著性预测模型包括编码端和解码端；所述编码端包括多个用于分配各个视频帧所占权重的帧间注意力模块，所述解码端包括多个用于对输入的空间特征上采样和对输入的时间特征降维的自适应上采样模块。本实施例中由于在显著性预测模型的编码端加入帧间注意力模块，以增加帧间传递的时间特征信息，以及在解码端加入自适应上采样模块，以优化空间特征，提高了人眼注视点预测的精确性和人眼注视点转移捕捉的鲁棒性。

Description

一种视觉显著性预测方法及设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及的是一种基于时空注意力的视觉显著性预测方法及设备。

背景技术

视觉显著性预测是指利用计算机模拟人眼视觉注意机制，建立一套完整的视觉信息显著性模型，从而准确快速地预测出视觉信息中的人眼注视区域。

传统的视频显著性预测方法主要是基于底层线索的方法，该类方法从底层线索出发，提取视频的运动特征，探索视频的视觉先验信息，挖掘视频的帧间关系，并结合视频的空时信息，建立显著性预测模型，但由于运动场景的更新、目标尺寸的变化以及拍摄视角的切换，基于底层线索的方法预测精度远远没有达到理想的要求。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于提供基于时空注意力的视觉显著性预测方法及设备，克服现有技术中的视频显著性预测方法由于缺乏考虑注意力引导所导致的人眼注视点预测不精确和人眼注视点转移捕捉不鲁棒的缺陷。

本发明实施例公开的方案如下：

第一方面，本实施例提供了一种视觉显著性预测方法，其中，包括：

获取待检测视频；所述待检测视频含有多个视频帧，且多个所述视频帧中均含有目标注视物；

将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图；

其中，所述显著性预测模型包括编码端和解码端；

所述编码端包括多个用于分配各个视频帧所占权重的帧间注意力模块，所述解码端包括多个用于对输入的空间特征上采样和对输入的时间特征降维的自适应上采样模块。

可选的，所述编码端还包括：至少一个三维卷积块和至少一个空间特征提取块；其中，所述空间特征提取块包括：设置有所述帧间注意力模块的帧间注意力模组和三维最大池化层。

可选的，所述将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图的步骤包括：

依次将所述待检测视频中的各个视频帧输入所述三维卷积块，通过所述三维卷积块得到与各个视频帧对应的多个浅层特征；

依次将各个所述浅层特征输入至所述空间特征提取块，通过所述空间特征提取块得到与各个视频帧对应的多个深层特征；

将各个深层特征输入至所述解码端，通过所述解码端得到与各个视频帧分别对应的显著性图。

可选的，所述解码端包括至少一个1×1×1卷积层、至少一个三维反卷积块和与所述三维反卷积块个数相同的三维最大反池化层以及至少一个自适应上采样模块；其中，各个所述三维反卷积块和各个三维最大反池化层的尺度不同，相同尺度的所述三维反卷积块与所述三维最大反池化层一一对应相连接。

可选的，所述将各个深层特征输入至所述解码端，通过所述解码端得到与各个视频帧分别对应的显著性图的步骤包括：

将各个所述深度特征依次输入至1×1×1卷积层，得到所述1×1×1卷积层输出的与所述待检测视频对应的各个时空特征图；

将各个所述时空特征图先后输入至所述最大反池化层和所述三维反卷积块，得到所述三维反卷积块输出的与各个所述时空特征图一一对应的多个第一上采样特征图；

将各个所述第一上采样特征图依次输入各个所述自适应上采样模块，得到最后一个所述自适应上采样模块输出的与各个所述视频帧对应的显著性图。

可选的，所述三维卷积块包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层和第四卷积层。

可选的，所述帧间注意力模组包括：三维可分离Inception卷积模块和帧间注意力模块；

所述依次将各个所述浅层特征输入至所述空间特征提取块，通过所述空间特征提取块得到与各个视频帧对应的多个深层特征的步骤包括：

依次将各个所述浅层特征输入至第一空间特征提取块中的第一三维最大池化层，得到所述第一三维最大池化层输出的多个第一特征图；

将多个所述第一特征图输入至第一空间特征提取块中的第一三维可分离Inception卷积模块，得到所述第一三维可分离Inception卷积模块输出的多个第二特征图；

将多个所述第二特征图沿通道方向叠加后输入至第一空间特征提取块的第一帧间注意力模块，得到所述第一帧间注意力模块输出的第三特征图；

将所述第三特征图输入第二空间特征提取块的第二三维最大池化层，得到所述第二三维最大池化层输出的第四特征图；

将所述第四特征图输入至第二空间特征提取块中的第二三维可分离Inception卷积模块，得到所述第二三维可分离Inception卷积模块输出的多个第五特征图；

将多个所述第五特征图沿通道方向叠加后输入到第二空间特征提取块的第二帧间注意力模块，得到所述第二帧间注意力模块输出的第六特征图；

重复上述将前一个空间特征提取块中输出的特征图输入至后一个空间特征提取块的步骤，直至第K空间特征提取块输出第3K特征图；所述第3K特征图为所述深层特征，其中，K为正整数。

可选的，所述帧间注意力模块包括全局最大池化层和非线性激活层；

所述将多个所述第二特征图沿通道方向叠加后输入至第一空间特征提取块的第一帧间注意力模块，得到所述第一帧间注意力模块输出的第三特征图的步骤包括：

将所述第二特征图依次输入至所述全局最大池化层和非线性激活层，得到所述非线性激活层输出的与第二特征图对应的各个视频帧的权重；

利用各个视频帧对应的权重对各个所述第二特征图进行加权后，计算加权和，得到各个所述第一帧间注意力模块输出的第三特征图。

可选的，所述自适应上采样模块包括上采样核预测单元、特征组合单元和第五卷积层；

将各个所述第一上采样特征图依次输入各个所述自适应上采样模块，得到最后一个所述自适应上采样模块输出的与各个所述视频帧对应的显著性图的步骤包括：

将各个所述第一上采样特征图输入至所述上采样核预测单元，并将所述上采样核预测单元输出的多个目标像素权重与所述第一上采样特征图同步输入至所述特征重组单元，得到所述特征重组单元输出的上采样结果特征图；

将所述上采样结果特征图输入至所述第五卷积层，通过第五卷积层得到第二上采样特征图；

重复将前一个自适应上采样模块输出的特征图输入至后一个自适应上采样模块的步骤，直至第N自适应上采样模块输出与各个视频帧对应的显著性图，其中N为正整数。

第二方面，本实施例公开了一种终端设备，其中，包括处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述所述的视觉显著性预测方法的步骤。

有益效果，本发明提供了一种视觉显著性预测方法及设备，通过获取待检测视频；所述待检测视频含有多个视频帧，且多个所述视频帧中均含有目标注视物；将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图；其中，所述显著性预测模型包括编码端和解码端；所述编码端包括多个用于分配各个视频帧所占权重的帧间注意力模块，所述解码端包括多个用于对输入的空间特征上采样和对输入的时间特征降维的自适应上采样模块。本实施例中由于在显著性预测模型的编码端加入帧间注意力模块，以增加帧间传递的时间特征信息，以及在解码端加入自适应上采样模块，以优化空间特征，提高了人眼注视点预测的精确性和人眼注视点转移捕捉的鲁棒性。

附图说明

图1是本实施例所提供的视觉显著性预测方法步骤流程图；

图2是本实施例所提供的视觉显著性预测模型的结构示意图；

图3是本实施例所述三维卷积块的原理示意图；

图4是本实施例中帧间注意力膜组的结构示意图；

图5是本实施例中帧间注意力模块的结构示意图；

图6是本实施例中自适应上采样模块的结构示意图；

图7是本发明所述终端设备的原理框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

现有技术中的显著性预测模型，通常是输入单张图像或一段视频，输出是一种显著区域上的能量分布图，表示人眼在显著区域上的注视强度，称为显著性图。近年来,视频显著性预测逐渐应用于视频监控、视频压缩、视频分割等研究领域。

由于传统的视频显著性预测方法为基于底层线索出发，提取视频的运动特征，探索视频的视觉先验信息，挖掘视频的帧间关系，并结合视频的空时信息，建立显著性预测模型，因此当运动场景的更新、目标尺寸的变化以及拍摄视角的切换时，该类方法的预测精度远远没有达到理想的要求，有待进一步地提高和完善。

现有技术中基于深度学习的视频显著性预测方法在遇到一些比较复杂的场景时也会出现不足，主要有两点：

(1)不精确的人眼注视点预测结果，包括注视点扩散、注视点冗余和注视点缺失等现象。在这里，注视点扩散是指预测的人眼注视点伴随有较大程度的扩散现象，这是预测精确度不高的直接体现；注视点冗余是指与真实结果相比，预测结果存在多余人眼注视点的现象，而注视点缺失则是相比真实结果漏检了该有的人眼注视点，这两种现象是预测精确度不高的间接体现。

(2)不鲁棒的人眼注视点转移捕捉结果。假设一个人正在拧干衣服，他的左手有向下拧的动作，属于从视频帧t到视频帧t+1的运动部分。那么最强烈的显著性响应是左手位置有轻微的向下的移动，这种情况称为短期注视点转移，即人眼注视点从当前视频帧到下一个视频帧略有转移，这通常是发生在同一场景中的。再假设一个人正在主持一档餐饮节目，有一个从口头讲解到亲身参与的场景转变过程，该过程发生在十几个视频帧内，而注视点始终落在这个人所在的位置，这种情况称为长期注视点转移，即人眼注视点在当前视频帧与相隔较远的视频帧中存在转移，这通常是发生在一个视频序列的不同场景中。由于缺乏帧间信息的有效传递，因此现有技术中的预测方法对两种注视点转移情况都无法很好地捕捉。

为了克服现有技术中的上述缺陷，本实施例提供了一种视觉显著性预测方法，通过将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图；其中，所述显著性预测模型包括编码端和解码端；所述编码端包括多个用于分配各个视频帧所占权重的帧间注意力模块，所述解码端包括多个用于对输入的空间特征上采样和对输入的时间特征降维的自适应上采样模块。通过编码端中设置的帧间注意力模块增加帧间时间特征的传递，挖掘视频帧之间的关联，以及通过解码端设置的自适应上采样模块实现基于语义相关信息的空间特征上采样和时间特征降维，实现人眼注视点转移捕捉的准确性，提升复杂场景中视频显著性预测的准确度。

下面结合附图，对本发明所公开的所述方法做更为详细的解释。

示例性方法

本实施例提供了一种视觉显著性预测方法，如图1所示，包括：

步骤S1、获取待检测视频；所述待检测视频含有多个视频帧，且多个所述视频帧中均含有目标注视物。

本步骤中首先获取待检测视频，该视频含有多个视频帧，且多个视频帧为一个序列，本实施例所要实现的视觉显著性预测是对待检测视频中各个视频帧中含有的显著区域进行检测，得到视频帧中显著区域上的能量分布图，以该能量分布图作为人眼在显著区域上的注视强度，称为显著性图。具体的应用场景中，人眼在显著区域上的目标注视物可以为某个人物发出的动作，或某个运动中的物体。

获取待检测视频的方法可以有多种，可以为终端设备利用摄像头直接拍摄采集的视频文件，也可以是从其他终端设备通过通信连接获取到的，也可以是终端设备本地内存中保存的视频文件。

步骤S2、将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图；

其中，所述显著性预测模型包括编码端和解码端；

当获取到待检测视频后，将待检测视频输入至已训练完成的显著性预测模型中，利用已训练完成的显著性预测模型对待检测视频中的显著区域进行预测，得到与待检测视频中各个视频帧对应的显著性图。具体的，待检测视频的每一帧视频都对应一个显著性图。

进一步的，结合图2所示，显著性预测模型的网络结构整体为编码-解码结构，本步骤中以一种滑动窗的方式一次输入该视频的视频帧序列，并逐帧输出对应的显著性图。以一个含有T帧的视频序列为例，滑动窗的输入方式是指第t(1≤t≤T)帧的显著性图将由网络利用当前帧t及其前面N-1帧进行预测，这里的N是指预测当前帧的显著性图需要考虑的连续视频帧的数量，可根据实验结果对其进行合理设定。

具体的，所述编码端还包括：至少一个三维卷积块和至少一个空间特征提取块；其中，所述空间特征提取块包括：设置有所述帧间注意力模块的帧间注意力模组和三维最大池化层。

所述将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图的步骤包括：

步骤S21、依次将所述待检测视频中的各个视频帧输入所述三维卷积块，通过所述三维卷积块得到与各个视频帧对应的多个浅层特征。

以滑动窗的方式将所述待检测视频输入至三维卷积块中，通过所述三维卷积块得到与各个输入的视频帧对应的浅层特征。具体的，所述浅层特征中含有的浅层特征为视频帧中所含有的边缘等特征。

具体的，本步骤中三维卷积块的个数不限于一个，若为多个时，则将前一个三维卷积块中提取出的浅层特征输入至后一个三维卷积块中，以实现对浅层特征更精确的提取。

步骤S22、依次将各个所述浅层特征输入至所述空间特征提取块，通过所述空间特征提取块得到与各个视频帧对应的多个深层特征。

将三维卷积块中提取到的浅层特征输入至连接在所述三维卷积块之后的空间特征提取块中，以利用所述空间特征提取块提取到各个视频帧的深层特征。

具体的，结合图3所示，所述三维卷积块包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层和第四卷积层。

结合图4所示，所述帧间注意力模组包括：三维可分离Inception卷积模块和帧间注意力模块；

具体的，所述依次将各个所述浅层特征输入至所述空间特征提取块，通过所述空间特征提取块得到与各个视频帧对应的多个深层特征的步骤包括：

步骤S221、依次将各个所述浅层特征输入至第一空间特征提取块中的第一三维最大池化层，得到所述第一三维最大池化层输出的多个第一特征图；

步骤S222、将多个所述第一特征图输入至第一空间特征提取块中的第一三维可分离Inception卷积模块，得到所述第一三维可分离Inception卷积模块输出的多个第二特征图；

步骤S223、将多个所述第二特征图沿通道方向叠加后输入至第一空间特征提取块的第一帧间注意力模块，得到所述第一帧间注意力模块输出的第三特征图；

步骤S224、将所述第三特征图输入第二空间特征提取块的第二三维最大池化层，得到所述第二三维最大池化层输出的第四特征图；

步骤S225、将所述第四特征图输入至第二空间特征提取块中的第二三维可分离Inception卷积模块，得到所述第二三维可分离Inception卷积模块输出的多个第五特征图；

步骤S226、将多个所述第五特征图沿通道方向叠加后输入到第二空间特征提取块的第二帧间注意力模块，得到所述第二帧间注意力模块输出的第六特征图；

步骤S227、依次重复上述将前一个空间特征提取块中输出的特征图输入至后一个空间特征提取块的步骤，直至第K空间特征提取块输出第3K特征图；所述第3K特征图为所述深层特征，其中，K为正整数。

结合图5所示，所述帧间注意力模块包括全局最大池化层和非线性激活层；

步骤S23、将各个深层特征输入至所述解码端，通过所述解码端得到与各个视频帧分别对应的显著性图。

结合图2所示，所述解码端包括至少一个1×1×1卷积层、至少一个三维反卷积块和与所述三维反卷积块个数相同的三维最大反池化层以及至少一个自适应上采样模块；其中，各个所述三维反卷积块和各个三维最大反池化层的尺度不同，相同尺度的所述三维反卷积块与所述三维最大反池化层一一对应相连接。

具体的，所述将各个深层特征输入至所述解码端，通过所述解码端得到与各个视频帧分别对应的显著性图的步骤包括：

步骤S231、将各个所述深度特征依次输入至1×1×1卷积层，得到所述1×1×1卷积层输出的与所述待检测视频对应的各个时空特征图；

步骤S232、将各个所述时空特征图先后输入至所述最大反池化层和所述三维反卷积块，得到所述三维反卷积块输出的与各个所述时空特征图一一对应的多个第一上采样特征图；

步骤S233、将各个所述第一上采样特征图依次输入各个所述自适应上采样模块，得到最后一个所述自适应上采样模块输出的与各个所述视频帧对应的显著性图。

结合图6所示，所述自适应上采样模块包括上采样核预测单元、特征组合单元和第五卷积层。

具体的，将各个所述第一上采样特征图依次输入各个所述自适应上采样模块，得到最后一个所述自适应上采样模块输出的与各个所述视频帧对应的显著性图的步骤包括：

重复将前一个自适应上采样模块输出的特征图输入至后一个自适应上采样模块的步骤，直至第N自适应上采样模块输出与各个视频帧对应的显著性图，其中N为正整数。在一种实施方式中，自适应上采样模块的个数为2个。

下面以本实施例的具体应用为例，对本实施例的方法做进一步更详细的说明。

如图2可看到，时空注意力三维卷积神经网络的编码端主要由三部分组成：一个三维卷积块、三个帧间注意力模组和三个三维最大池化层。一个三维最大池化层和一个帧间注意力模组间隔连接，一个三维最大池化层和一个帧间注意力模组组合成一个空间特征提取块，则三个帧间注意力模组和三个三维最大池化层组合成三个空间特征提取块，三个空间特征提取块的尺度依次降低，分别为原输入视频的1/8、1/16和1/32。

解码端包括：一个1×1×1卷积层、三个三维反卷积层、三个三维最大反池化层和两个自适应上采样模块。其中，1×1×1卷积层的尺寸为原输入视频尺寸的1/32，三个三维反卷积层的尺寸依次增加分别为原输入视频的尺寸的1/8、1/16和1/32。三个最大反池化层的尺寸同样依次增加，分别为原输入视频尺寸的1/16、1/8和1/4，两个自适应上采样模块的尺寸分别为原视频尺寸的1/2和与原视频尺寸相同。从图2中，可以得到，1×1×1卷积层与尺寸为原输入视频的尺寸的1/32的三维反卷积块相连接，尺寸同为原输入视频尺寸1/16的三维最大反池化层和三维反卷积块相连接，尺寸同为原输入视频尺寸1/8的三维最大反池化层和三维反卷积块相连接。

如图3，三维卷积块用于提取输入视频的浅层时空特征，由一系列三维卷积层和最大池化层组成。帧间注意力模组(如图4)则用于进一步学习深层的时空特征，主要由三维可分离Inception模块(separable Inception)和本发明所提出的帧间注意力模块(图5)组成，“1/x”表示特征图空间尺寸缩放倍数。

帧间注意力模块主要用于为分配视频帧的权重，其具体结构如图5所示，输入特征图为一个四维张量X∈R^H×W×C×T(H为高；W为宽；C为通道数，这里设定为3，即一个视频帧具有3通道；T为帧数，这里设定为4)，首先依次经过全局最大池化、非线性激活得到各帧权重(数值范围0-1)，再将其与原始输入按帧融合，最终得到加权的输出特征图X’。在一种实施方式中，设定输入至帧间注意力模块中的一个特征图有4帧，那么生成的权重也有四帧，将四帧对应着加权，并且因为每帧是三通道，这三通道所得到的加权是一样的，均为乘以其对应帧所生成的权重。

具体的计算流程如下：

S_t＝a(z_t,W)＝σ(W₂·δ(W₁·z_t))，

x'_t＝c(x_t,s_t)＝s_t·x_t，

其中，Z＝[z₁,z₂,...,z_t,...,z_T]是由全局最大池化g(·)生成的关于X各帧的统计特征集合，S＝[s₁,s₂,...,s_t,...,s_T]是由非线性激活a(·)得到的关于X各帧的权重集合，δ(·)是ReLU激活函数，σ(·)是sigmoid激活函数，W₁∈R^T/r×T和W₂∈R^T×T/r分别是两个全连接层的权重，c(·)代表视频帧加权操作。通过以上操作过程，网络可以有选择性地提取帧间的时间特征并传递给后续网络模块。

所述解码端主要由四部分组成：一个1×1×1卷积层(conv_1×1×1)、三个三维反卷积层(transposed-conv3d)、三个三维最大反池化层(max-unpool3d)和两个自适应上采样模块。Conv_1×1×1用于重新组织已编码的时空特征。Transposed-conv3d与max-unpool3d交替组合用于初步的空间特征上采样，而自适应上采样模块则用于最终的基于语义相关信息的空间特征上采样及时间特征降维。

本实施例中自适应上采样模块能够根据当前像素所在位置考虑周围与他语义相关的点来上采样，没有限制采样的范围和形状，因此可以取得效果更好的上采样效果。

如图6所示，自适应上采样模块的输入特征图是一个四维张量X∈R^H×W×C×T(这里帧数，即时间维度T设定为2)，首先通过上采样核预测单元将每个像素根据其上下文信息预测上采样后每个目标像素的权重集合W∈R^{K×K×(2H×2W)×T}(这里上采样倍数设定为2，K×K为卷积核尺寸)，接着通过特征重组单元将每个目标像素所对应的原始输入的邻域(大小为K×K)与相应的权重图进行点对点相乘得到自适应上采样结果特征图X’∈R^2H×2W×C×T，最后经过一个2×1×1卷积层得到时间维度降为1的输出特征图X”∈R^2H×2W×C，从而减少后续步骤的计算量。

具体的计算流程如下：

W_l'＝Ψ(N(X_l,k))，

X_l'＝Φ(N(X_l,k),W_l')，

其中，X_l是指X在位置点l上的像素，N(X_l,K)是以X_l为中心的一个K×K大小的邻域，W_l’则是由上采样核预测单元Ψ(·)计算得到的关于上采样后目标位置点l’上权重，最后X_l’是由特征重组单元Φ(·,·)得到的结果。通过以上操作过程，邻域中每个像素能够基于语义特征以不同权重为目标像素的上采样做出贡献，最终得到空间特征更为完善的自适应上采样结果。

示例性设备

本实施例公开了一种终端设备，其中，包括处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现所述的视觉显著性预测方法的步骤方法的步骤。在具体实施例中，所述终端设备可以为手机、平板电脑或智能电视。

具体的，如图7所示，所述终端设备包括至少一个处理器(processor)20以及存储器(memory)22，还可以包括显示屏21、通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中视觉显著性预测方法的步骤。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器30通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

另一方面，一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现所述的视觉显著性预测方法的步骤。

本发明提供了一种视觉显著性预测方法及设备，通过获取待检测视频；所述待检测视频含有多个视频帧，且多个所述视频帧中均含有目标注视物；将待检测视频输入已训练的显著性预测模型，得到与所述待检测视频相对应的显著性图；其中，所述显著性预测模型包括编码端和解码端；所述编码端包括多个用于分配各个视频帧所占权重的帧间注意力模块，所述解码端包括多个用于对输入的空间特征上采样和对输入的时间特征降维的自适应上采样模块。本实施例中由于在显著性预测模型的编码端加入帧间注意力模块，以增加帧间传递的时间特征信息，以及在解码端加入自适应上采样模块，以优化空间特征，提高了人眼注视点预测的精确性和人眼注视点转移捕捉的鲁棒性。

可以理解的是，对本领域普通技术人员来说，可以根据本发明的技术方案及其发明构思加以等同替换或改变，而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims

1.一种视觉显著性预测方法，其特征在于，包括：

其中，所述显著性预测模型包括编码端和解码端；

所述编码端包括多个用于分配各个视频帧所占权重的帧间注意力模块，所述解码端包括多个用于对输入的空间特征上采样和对输入的时间特征降维的自适应上采样模块；

所述编码端还包括：至少一个三维卷积块和至少一个空间特征提取块；其中，所述空间特征提取块包括：设置有所述帧间注意力模块的帧间注意力模组和三维最大池化层；

将各个深层特征输入至所述解码端，通过所述解码端得到与各个视频帧分别对应的显著性图；

所述帧间注意力模组包括：三维可分离Inception卷积模块和帧间注意力模块；

重复上述将前一个空间特征提取块中输出的特征图输入至后一个空间特征提取块的步骤，直至第K空间特征提取块输出第3K特征图；所述第3K特征图为所述深层特征，其中，K为正整数；

所述帧间注意力模块包括全局最大池化层和非线性激活层；

利用各个视频帧对应的权重对各个所述第二特征图进行加权后，计算加权和，得到各个所述第一帧间注意力模块输出的第三特征图；

所述自适应上采样模块包括上采样核预测单元、特征组合单元和第五卷积层；

将各个第一上采样特征图依次输入各个所述自适应上采样模块，得到最后一个所述自适应上采样模块输出的与各个所述视频帧对应的显著性图的步骤包括：

将各个所述第一上采样特征图输入至所述上采样核预测单元，并将所述上采样核预测单元输出的多个目标像素权重与所述第一上采样特征图同步输入至特征重组单元，得到所述特征重组单元输出的上采样结果特征图；

2.根据权利要求1所述的视觉显著性预测方法，其特征在于，所述解码端包括至少一个1×1×1卷积层、至少一个三维反卷积块和与所述三维反卷积块个数相同的三维最大反池化层以及至少一个自适应上采样模块；其中，各个所述三维反卷积块和各个三维最大反池化层的尺度不同，相同尺度的所述三维反卷积块与所述三维最大反池化层一一对应相连接。

3.根据权利要求1所述的视觉显著性预测方法，其特征在于，所述三维卷积块包括：依次连接的第一卷积层、第二卷积层、第一最大池化层、第三卷积层和第四卷积层。

4.一种终端设备，其特征在于，包括处理器、与处理器通信连接的存储介质，所述存储介质适于存储多条指令；所述处理器适于调用所述存储介质中的指令，以执行实现上述权利要求1-3任一项所述的视觉显著性预测方法的步骤。