CN116563524B

CN116563524B - 一种基于多视觉记忆单元的扫视路径预测方法

Info

Publication number: CN116563524B
Application number: CN202310773662.1A
Authority: CN
Inventors: 仇梦雨; 权荣; 梁栋; 秦杰
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-29
Anticipated expiration: 2043-06-28
Also published as: CN116563524A

Abstract

本发明公开了一种基于多视觉记忆单元的扫视路径预测方法，包括构建眼动追踪数据集；提取图像不同级别语义特征图与显著图；使用显著图对特征图进行空间注意力操作；序列化特征图，生成特征向量并拼接为特征矩阵；建模特征向量间全局依赖关系；生成注视点嵌入；生成扫视路径：训练优化扫视路径预测模型；本发明提出的视觉扫描路径预测器并不融入启发式规则，极大地简化了扫视路径预测的工作流程和整体模型架构。本发明将扫描路径预测视为一个连续注视点序列生成问题，利用前一个注视点的位置初始化注视点查询，从全局视觉表示中获取场景信息，并融合历史注视点的影响来预测当前时间步的注视点，以生成更接近人类的扫视路径。

Description

一种基于多视觉记忆单元的扫视路径预测方法

技术领域

本发明涉及图像扫视路径预测技术领域，主要涉及一种基于多视觉记忆单元的扫视路径预测方法。

背景技术

通过人类视觉系统（HVS），人类可以对复杂的视觉环境做出实时反应--识别其关键注视点，并通过顺序分析关键注视点的空间相关性来理解整个场景。扫视路径预测是一项模拟HVS的任务，以预测自由观看视觉场景时的眼睛运动轨迹。扫视路径预测对人类如何处理视觉信息提供了有价值的见解，因此在各种领域都有重要的应用，包括人机交互、虚拟现实、视觉搜索、认知心理学。例如，准确预测人类的视觉扫描路径可以帮助虚拟现实中的图形渲染。

多年来，许多研究人员在模拟HVS中广泛地探索了扫视路径的生成。早期的工作是通过对静态的显著性地图进行广泛证明的视觉规则，如赢家通吃（Winner-Take-All）和抑制返回（Inhibit-Of-Return）来生成扫描路径，然后通过简单地对显著性的位置进行排序来预测扫描路径。随后的模型在这种方法的基础上做了大量的改进，试图通过使用前一次注视点的信息来预测当前的注视点位置，从而探索眼跳的动态属性。然而，只对一个时间步长的依赖关系进行建模，不利于模拟连续的视觉探索过程。一些研究使用了递归神经网络（RNN），其中当前的注视点是由之前的注视点和其他历史注意力信息决定的。然而，除了先前的注视点，所有的历史注视点信息都被整合到一个隐藏单元中，在这种整合形式下，它们的信息性和代表性都被削弱了，这在一定程度上影响了预测效果。在人类视觉系统中，视觉工作记忆（VWM）需要为场景理解提供连续的视觉记忆表征，简单地忽略或淡化历史注意力信息会导致预测误差随着时间步长而增加。

此外，以前的工作在模型设计过程中依赖于现有的视觉规则，例如，IOR-ROI通过一个单独的LSTM模块学习IOR机制；VQA和ScanpathNet通过生成的前一个注视点的概率图抑制原始特征图中的历史感兴趣区域，以减少其被选中的概率。在这些工作中，参考启发式规则的模型设计引入了人为的偏差并增加了模型的复杂程度。

发明内容

发明目的：本申请提供了一个模拟视觉工作记忆的新视角，通过保留所有的历史注意力信息，并学习它们对当前注视点的影响来进行眼跳决策。具体来说，利用一个注视点查询来模拟每个时间步长的独立的视觉工作记忆单元，它负责生成一个包含当前感兴趣区域信息的注视点嵌入，并以上一时间步注视点的位置坐标为初始。注视点查询通过自我注意机制整合来自历史注意信息的影响，并通过交叉注意力机制来从全局视觉表征中访问场景信息以产生注视点嵌入。随后，注视点嵌入被输入混合密度网络（MDN）以获得最终的注视点坐标。与以前的工作相比，本申请提供的方法是无启发式规则的，这消除了对其他模型设计中广泛引用的视觉规则的依赖，大大简化了扫描路径预测的工作流程和模型的整体架构。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于多视觉记忆单元的扫视路径预测方法，包括以下步骤：

步骤S1、搜集多张图片，每张图片均由不同受试者自由观看，采集每个受试者自由观看时产生的真实人眼注视点坐标序列，其中 /> 为/> 时间步的真实人眼注视点坐标；

步骤S2、对于每张图片, 利用预先训练好的显著性预测网络提取前个卷积层输出的语义特征图，得到语义特征图组 />，其中 /> 为显著性预测网络的第 />个卷积层输出的语义特征图，以及显著性预测网络最终预测输出的显著图 />；

步骤S3、将语义特征图组中的语义特征图 /> ，/>上采样到步骤S1中的图片的尺寸并按通道拼接成特征图 /> ，使用显著图 /> 对得到的特征图 />进行空间注意力操作，得到空间位置重加权的特征图 />；

步骤S4、将空间位置重加权的特征图划分为图像块，使用平均池化将每个图像块的区域特征图汇聚成一维特征向量，展平得到一维特征向量序列 />，其中 />为第 />个图像块的区域特征图汇聚成的一维特征向量，并拼接成视觉特征矩阵；

步骤S5、将视觉特征矩阵输入到特征编码器中获取一维特征向量间的全局依赖关系；

步骤S6、假设当前时间步为,使用/>时间步生成的注视点坐标/>初始化时间步的注视点坐标查询向量/>，与历史时间步/>的注视点坐标查询向量序列/>拼接成注视点坐标查询矩阵/>，注视点坐标查询矩阵/>经过扫视路径解码器生成注视点坐标嵌入向量序列/>，其中/>为/>时间步的注视点坐标嵌入向量，同时将注视点坐标嵌入向量序列/>定义为注视点坐标嵌入矩阵/>；

步骤S7、使用混合密度网络来解码时间步的注视点坐标嵌入向量 />，预测/>时间步的注视点坐标的概率分布并采样注视点坐标 />，生成扫视路径；

步骤S8、利用时间步的真实人眼注视点坐标 /> 优化扫视路径预测模型输出的注视点坐标概率分布，将/>时间步的真实人眼注视点坐标 /> 被选择概率值最大化，进行梯度反向传播，优化扫视路径预测模型参数，其中所述扫视路径预测模型包括依次串接的显著性预测网络、特征编码器、扫视路径解码器和混合密度网络。

优选的，步骤S1中，将搜集的多张图片尺寸统一为分辨率，其中/>为高度，/>为宽度，每张图片平均有60名受试者，每名受试者搜集1条真实人眼扫视路径，每条真实人眼扫视路径由真实人眼注视点坐标序列 /> 组成, 其中 />为时间步的真实人眼注视点坐标。

优选的，步骤S2中显著性预测网络为 SalGAN 网络的生成器模块；将图片输入SalGAN 网络的生成器模块，输出 SalGAN 网络的生成器模块前个卷积层产生的语义特征图，得到语义特征图组 /> 以及最终预测的显著图 />。

优选的，步骤 S3 中空间位置重加权的特征图的生成步骤为:

步骤 S3.1、将语义特征图组中的语义特征图 />， />上采样到 /> 分辨率，并按通道拼接成形状为 /> 的特征图 /> ；其中，/>为通道数，且语义特征图 />原始形状为/>，语义特征图 />的原始形状为，其中下标 1 和 />为卷积层的层数；

步骤 S3.2、使用显著图对得到的特征图 />进行空间注意力操作, 得到空间位置重加权的特征图 />：

；

其中代表哈达玛积。

优选的，步骤 S4 中将空间位置重加权的特征图划分为若干个图像块，每个图像块尺寸为 /> ，其中/>为图像块的高度， />为图像块的宽度，使用平均池化将每个图像块的区域特征图汇聚成一维特征向量，并将所有一维特征向量在空间维度进行展平，得到一维特征向量序列/>, 其中图像块个数 /> ,并拼接成视觉特征矩阵/>，其中/>函数表示将向量组合成矩阵形式。

优选的，步骤S5中所述特征编码器包括一个线性层和4个相同的编码器层，视觉特征矩阵经过所述线性层将一维特征向量序列/>的维度映射到特征编码器的内部维度，随后依次经过4个串接的编码器层；

每个编码器层均包括一个第一多头自注意力模块和一个第一前馈网络 />，第一多头自注意力模块/>的输出 /> 以及第一前馈网络/>的输出 /> 的具体计算为：

；

其中：

；

;

；

和

;

式中：为第 />个头部，且/> ,/>,/>,/>为矩阵，/> 为缩放因子，/> 表示层归一化, /> 表示归一化指数函数，,/>，/>,/>,/>,/>,/>,/>是网络参数。

优选的，步骤S6中扫视路径解码器包括一个全连接层和4个相同的解码器层，其中全连接层和4个解码器层依次串接;

初始化时间步的注视点查询向量 /> 的操作为：

；

其中表示所述全连接层； />为 /> 时间步生成的注视点坐标，初始注视点坐标为图片的中心点坐标/>，/>;

每个解码器层包括一个第二多头自注意力模块、一个多头交叉注意力模块和一个第二前馈网络；其中，第二多头自注意力模块的输出 />、多头交叉注意力模块的输出 /> 以及第二前馈网络 /> 的输出 /> 的具体计算如下：

；

其中：

;

；

和

。

优选的，所述步骤 S7 使用混合密度网络来解码注视点坐标嵌入向量，预测当前注视点坐标的概率分布并采样注视点坐标 /> ，生成扫视路径的具体操作为：

步骤S7.1、混合密度网络包括两个线性层：隐藏层和激活层，混合密度网络的输出为/>组高斯分布参数，每组高斯分布参数包括平均值 />、标准偏差 /> 、相关性 /> 和混合权重 /> 且有：

；

其中表示线性层及隐藏层的权重和偏置，参数上标/>表示第/>组高斯分布参数，/>表示当前时间步，波浪号表示参数需要进一步限制到满足高斯分布的基本属性，具体为：

；

其中表示以自然常数/>为底的指数函数， /> 表示双曲正切函数；

步骤S7.2、根据组高斯分布参数共同构建注视点坐标概率图，将注视点坐标概率图中概率最高的像素所对应的坐标作为下一个注视点坐标 /> ；若 />, 返回步骤S6 迭代生成下一注视点坐标，其中/>表示预设的时间步的个数；

选择概率最高的像素所对应的坐标作为下一个注视点坐标的操作为：

；

其中表示二元正态分布，/> 指示图像所有像素空间， /> 代表/>时间步的真实人眼注视点坐标。

优选的，所述步骤S8中训练优化扫视路径预测模型的损失函数为：

；

使用AdamW优化器对扫视路径预测模型进行训练，并将初始学习率设置为，使用了前20轮进行学习率预热并且学习率每50个轮次减少一半。

有益效果：

（1）、本发明提出了一个无启发式规则的视觉扫描路径预测器，具有简单和可扩展的结构，将扫描路径预测视为一个连续的注视点序列生成问题；

（2）、本发明为模拟视觉工作记忆提供了一个新的视角，即在每个时间步上维持一个独立的视觉记忆单元，从而保留所有的历史注意力信息，并整合所有历史注视点的影响，以做出眼跳决策。

附图说明

图1是本发明提供的基于多视觉记忆单元的扫视路径预测方法流程图。

实施方式

下面结合附图对本发明作更进一步的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于多视觉记忆单元的扫视路径预测方法，具体原理如图1所示，结合扫视路径预测在人机交互中预测人类注意力分布的具体过程进行描述，包括以下步骤：

步骤S1、构建眼动追踪数据集用于扫视路径模型训练：

首先，搜集人们在观察电脑显示图片时产生的真实人眼扫视路径，它由一系列有序的注视点组成。使用发表在2015年 CVPR 上的《Saliency in Context》贡献的眼动数据集 SALICON 作为模型训练数据集，它由10000张训练图像、5000张验证图像和5000张测试图像组成。所有这些眼睛注视数据是通过众包平台上的鼠标跟踪收集的，每个图像平均收集了 60 名受试者的扫视路径。所有图片尺寸被统一为分辨率，其中/>为高度具体数值为 192像素, />为宽度具体数值为256像素。扫视路径由注视点序列组成, 其中/>为第/>个时间步人类观察显示图片时注视点位于图片中的坐标。

步骤S2、利用预训练的显著性特征提取器提取图像不同级别语义特征图与显著图：

在预测扫视路径之前，先对输入的视觉图片进行特征编码，不同于其他工作，本发明使用扫视路径预测任务高度相关的显著性预测任务预训练的模型进行视觉特征编码。具体的，使用同样在 SALICON 数据集上训练的显著性预测模型 SalGAN，它内部采用卷积编码器和解码器的架构，其中编码器的架构与经典图像分类网络VGG-16相同，去除了最终池化和完全连接层。解码器架构类似于编码器，但层顺序相反，池化层被上采样层取代。电脑显示的视觉图片被输入到 SalGAN，得到其卷积解码器的不同层特征映射，提取前/>个卷积层产生的语义特征图/>以及最终预测的显著图/>，其中/>具体数值为 5。其中/>，/>原始形状分别为/>，/>，/>的形状为/>。显著图/>可理解为模型对人类观察这个视觉图片时的注视点分布概率图，对其进行预测将有利于提取高显著性的视觉特征，抑制图片中背景和其他毫无吸引力的区域特征。

步骤S3、融合不同语义层次的特征图并使用显著图对特征图进行空间注意力操作：

这一步骤中，对得到的视觉特征进行整合过滤，具体来说将语义特征图组中/>和/>上采样到/>分辨率，并按通道拼接成形状为的特征图/>，其中/>, 它整合了低阶和高阶的视觉特征。随后使用显著性地图/>，对得到的特征图/>进行空间注意力操作, 通过增加高显著性区域的特征权重以引导模型在后续解码注视点阶段关注重要区域。这一操作具体为：/>，其中/>代表哈达玛积（Hadamard Product）。通过元素乘法，得到空间位置上的注意力重新加权的图像特征图/>。

步骤S4、序列化特征图，生成特征向量并拼接为特征矩阵：

由于先前步骤对于视觉特征的提取采用基于卷积操作的模型，这种方法只建模了区域特征间的局部相关性，为了进一步建模区域特征间的全局依赖关系，后续使用特征编码器对 S3 得到的图像特征图进行进一步编码。具体的，采用Transformer架构的特征编码器，其输入形式为一组向量，为了适应特征编码器的输入，将特征图/>划分为若干个图像块，每个图像块尺寸为/>，其中/>为图像块的高度，具体数值为 8像素，/>为图像块的宽度，具体数值为 8像素。对每个图像块的区域进行平均池化，使其汇聚成一个一维特征向量，每个特征向量的维度为/>。得到的特征向量按图片区域的先后顺序进行排列，表示为/>, 其中图像块个数/>，在后续计算中，向量组的运算将以矩阵形式表示，定义/>，其中/>函数表示将向量组合成矩阵形式。

步骤S5、建模特征向量间全局依赖关系：

视觉特征矩阵在经过一个线性层将特征向量的维度/>映射到特征编码器的内部维度/>后被输入到特征编码器中，其中/>具体数值为576，/>的具体数值为64。特征编码器由4个相同的编码器层组成，每个编码器层具有两个子模块，分别为多头自注意力模块和前馈网络/>模块。视觉特征矩阵在进入每个子模块后都会与原始特征矩阵进行相加，这一步骤被定义为残差连接，随后会进行层归一化（/>），每层的具体计算如下：

；

其中：

；

式中：为第 />个头部，且/> ,/>,/>,/>为矩阵，/> 为缩放因子，/> 表示层归一化, /> 表示归一化指数函数，/>,，/>,/>,/>,/>,/>,/>是网络参数。经过特征编码器后，视觉特征图建模了区域间的全局依赖关系。

步骤S6、初始化扫视路径解码器的注视点查询向量并经过扫视路径解码器生成注视点嵌入，在对输入的电脑显示图片进行完整的视觉编码后，利用扫视路径解码器预测人类观察图片时每个时间步的注意力过程，从视觉特征矩阵/>中预测出/>个时间步的注视点位置，得到注视点序列/>，其中/>被设置为 10。采用自回归的模式来迭代预测注视点，假设当前时间步为/>, 使用/>时间步的注视点位置/>初始化时间步的注视点查询向量/>，它负责模拟独立的视觉记忆单元编码当前视觉记忆的感兴趣区域信息，并最终被转化为对应的注视点嵌入/>，初始化定义如下：；

其中，表示全连接层。/>为/>时间步的注视点位置，注视点位置是使用被图片尺寸归一化后到[0,1]的相对值，初始位置为图像中心点/>，/>。/>是一个向量，维度被设置为解码器的内部维度 64。历史时间步的注视点查询与当前时间步注视点查询/>拼接成注视点查询矩阵。

扫视路径解码器包括4个相同的解码器层；每个解码器层包括一个多头的自注意力模块,一个多头交叉注意力模块和一个前馈网络。在每一个解码器层中，当前时间步的注视点查询首先与历史的注视点查询进行自注意(SelfAttention)运算，以整合历史注视的影响，然后与视觉编码器输出的视觉特征进行交叉注意力(CrossAttention)运算，以从视觉特征中获取场景信息，最后经过前馈网络后转化为注视点嵌入。

每层具体计算如下：

；

其中：

；

以及：

；

式中：SelfAttetion 表示多头自注意力层，CrossAttetion 表示多头交叉注意力层，指将向量组拼接为矩阵形式。

步骤S7、使用混合密度网络来解码注视点嵌入，预测当前注视点的概率分布并采样注视点坐标，生成扫视路径：

每个时间步的注视点嵌入编码了注视点的相关信息，使用注视点生成模块进行解码，以预测最终的注视点坐标。

步骤S7.1、在不同人类观察输入的电脑显示图片时，注视点可能会有所差异，也就是视觉扫视路径中注视点的分布通常是多峰值的，即存在多个可能的注视点，因此采用混合密度网络 (MDN) 来预测当前注视的概率分布。混合密度网络包括两个线性层，一个隐藏层和激活层，输出为/>组高斯分布参数，其中/>具体设置为5，每组高斯分布参数包括平均值 />、标准偏差 /> 、相关性 /> 和混合权重 />：

；

其中是扫视路径解码器输出的注视点嵌入，形状与/>保持一致，是一个维度为64 的向量。/>表示线性层及隐藏层的权重和偏置。

另外, 混合密度网络的输出参数进一步被限制到满足高斯分布的基本属性，具体如下：

其中表示以自然常数/>为底的指数函数，/>表示双曲正切函数。

步骤S7.2、将组高斯分布参数建模为最终的注视点概率图，将概率最高的像素点作为当前时间步的注视点坐标，即模型对人类观察输入视觉图片时当前时间步的注视点位置。若/>, 当前时间步小于预设的最大时间步，则返回 S6 迭代生成下一注视点，其中选择概率最高的像素作为/>时间步的注视点的操作被定义为：

；

其中表示二元正态分布，/>指示图像所有像素空间。

通过个时间步的解码操作，扫视路径解码器模块和注视点生成模块会从视觉特征矩阵/>中预测出/>个时间步的注视点位置，得到注视点序列/>，它代表了人类在观察电脑显示的视觉图片时，眼睛的整体注视过程，这模拟了人类视觉系统对于视觉输入的处理，得到了人类面对电脑交互界面时的注意力分布，可用于辅助设计师优化交互界面，有利于面向交互友好的设计。

步骤S8、训练优化扫视路径预测模型：

这一步骤中，将本发明提出的模型预测的结果向真实人类的扫视路径进行优化。对于每张展示给人类的电脑现实图片，本发明提出的模型会预测长度为个时间步的注视点序列，其中每个注视点的概率优先级地图由模型输出的 />组高斯核参数构建。通过优化这些高斯核参数来缩小模型最终输出的注视点坐标与真实人眼注视点坐标的差距。用于训练的损失函数是负对数似然损失函数，定义如下：

其中为/> 时间步的真实人眼注视点坐标。训练中使用/>优化器进行训练，并将初始学习率设置为/>，使用了前20轮进行学习率预热并且学习率每50个轮次减少一半。模型的显著性特征提取器模块是基于显着性预测任务进行预训练的，其参数在模型训练过程中被冻结不更新，只更新视觉编码器模块、注视点解码器模块和注视点生成器模块的参数。

将在SALICON数据集上训练的扫视路径预测模型在其他眼动数据集（iSUN数据集、OSIE数据集和 MIT1003数据集）上进行验证，以确保扫视路径预测模型的性能。如表1所示，使用三个评估标准来评估扫视路径预测模型的性能，包括 ScanMatch扫视匹配、SequenceScore(SS) 序列分值和MultiMatch多重匹配，其中黑体表示当前指标下最优结果，下划线表示次优结果，每个指标的第一行都展示了不同人类扫视路径之间的指标分数，这可以作为评价模型与真实人类差距的参考。 ScanMatch 扫视匹配使用字符对注视点进行编码，并将每个扫描路径表示为一个字符串。然后，它使用 Needleman-Wunsch 算法来匹配两个字符串并计算它们的相似度。 SS 序列分值是对 ScanMatch 扫视匹配的改进，在计算任何两个扫描路径之间的相似性之前，它首先对所有实际的人类注视点进行聚类。该集群中的所有注视点都由一个字符表示。 MultiMatch 多重匹配从扫视的形状、方向和长度以及注视的位置和持续时间等五个方面评估两个扫描路径之间的相似性。由于只预测注视的时间顺序和空间位置，仅从形状、方向、长度和位置等方面评估预测的扫描路径。

表1显示了ScanMatch、SS和MultiMatch指标下本发明提出的模型和其他现有方法的比较结果。可以看出，本发明提出的模型在所有四个数据集上取得了比最先进的方法更好的结果。通过 ScanMach 和 SS 的评估指标，本发明提出的模型在所有四个数据集中都优于其他模型。在大多数 MultiMatch 指标上表现最高或者次高，取得了最稳定可靠的结果。

表1：

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，包括以下步骤：

步骤S3、将语义特征图组中的语义特征图 /> ，/>上采样到步骤S1中的图片的尺寸并按通道拼接成特征图 /> ，使用显著图 /> 对得到的特征图 /> 进行空间注意力操作，得到空间位置重加权的特征图 />；

步骤S4、将空间位置重加权的特征图划分为图像块，使用平均池化将每个图像块的区域特征图汇聚成一维特征向量，展平得到一维特征向量序列 />，其中为第 />个图像块的区域特征图汇聚成的一维特征向量，并拼接成视觉特征矩阵 />；

步骤S6、假设当前时间步为,使用/>时间步生成的注视点坐标/>初始化/>时间步的注视点坐标查询向量/>，与历史时间步/>的注视点坐标查询向量序列拼接成注视点坐标查询矩阵/>，注视点坐标查询矩阵/>经过扫视路径解码器生成注视点坐标嵌入向量序列/>，其中/>为/>时间步的注视点坐标嵌入向量，同时将注视点坐标嵌入向量序列/>定义为注视点坐标嵌入矩阵；

步骤S8、利用时间步的真实人眼注视点坐标 /> 优化扫视路径预测模型输出的注视点坐标概率分布，将/>时间步的真实人眼注视点坐标 /> 被选择概率值最大化，进行梯度反向传播，优化扫视路径预测模型参数，其中所述扫视路径预测模型包括依次串接的显著性预测网络、特征编码器、扫视路径解码器和混合密度网络；

步骤 S4 中将空间位置重加权的特征图划分为若干个图像块，每个图像块尺寸为，其中/>为图像块的高度， />为图像块的宽度，使用平均池化将每个图像块的区域特征图汇聚成一维特征向量，并将所有一维特征向量在空间维度进行展平，得到一维特征向量序列/>, 其中图像块个数 /> , 并拼接成视觉特征矩阵/>，其中/>函数表示将向量组合成矩阵形式。

2.根据权利要求1所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，步骤S1中，将搜集的多张图片尺寸统一为分辨率，其中/>为高度，/>为宽度，每张图片平均有60名受试者，每名受试者搜集1条真实人眼扫视路径，每条真实人眼扫视路径由真实人眼注视点坐标序列 /> 组成, 其中 />为/>时间步的真实人眼注视点坐标。

3.根据权利要求2所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，步骤S2中显著性预测网络为 SalGAN 网络的生成器模块；将图片输入 SalGAN 网络的生成器模块，输出 SalGAN 网络的生成器模块前个卷积层产生的语义特征图，得到语义特征图组 /> 以及最终预测的显著图 />。

4.根据权利要求3所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，步骤 S3 中空间位置重加权的特征图的生成步骤为:

步骤 S3.1、将语义特征图组中的语义特征图 />， />上采样到分辨率，并按通道拼接成形状为 /> 的特征图 /> ；其中，/>为通道数，且语义特征图 />原始形状为/>，语义特征图 />的原始形状为，其中下标 1 和 />为卷积层的层数；

；

其中代表哈达玛积。

5.根据权利要求4所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于：步骤S5中所述特征编码器包括一个线性层和4个相同的编码器层，视觉特征矩阵经过所述线性层将一维特征向量序列/>的维度映射到特征编码器的内部维度，随后依次经过4个串接的编码器层；

每个编码器层均包括一个第一多头自注意力模块和一个第一前馈网络 />，第一多头自注意力模块/>的输出 /> 以及第一前馈网络的输出 /> 的具体计算为：

；

其中：

；

;

；

和

;

式中：为第 />个头部，且/> ,/>,/>,/>为矩阵，为缩放因子，/> 表示层归一化, /> 表示归一化指数函数，,/>，/>,/>,/>,/>,/>,/>是网络参数。

6.根据权利要求5所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，步骤S6中扫视路径解码器包括一个全连接层和4个相同的解码器层，其中全连接层和4个解码器层依次串接;

初始化时间步的注视点查询向量 /> 的操作为：

；

其中：

;

；

和

。

7.根据权利要求6所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，所述步骤 S7 使用混合密度网络来解码注视点坐标嵌入向量，预测当前注视点坐标的概率分布并采样注视点坐标 /> ，生成扫视路径的具体操作为：

步骤S7.1、混合密度网络包括两个线性层：隐藏层和激活层，混合密度网络的输出为/>组高斯分布参数，每组高斯分布参数包括平均值 />、标准偏差 /> 、相关性和混合权重 /> 且有：

；

8.根据权利要求7所述的一种基于多视觉记忆单元的扫视路径预测方法，其特征在于，所述步骤S8中训练优化扫视路径预测模型的损失函数为：

；