CN114170537A

CN114170537A - 一种多模态三维视觉注意力预测方法及其应用

Info

Publication number: CN114170537A
Application number: CN202111465974.3A
Authority: CN
Inventors: 厉向东; 吴玥; 单逸飞; 阴凯琳; 姚佳怡; 沈思扬
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-11

Abstract

本发明公开了一种多模态三维视觉注意力预测方法，包括以下步骤，(1)样本数据和样本标签采集、(2)样本数据预处理、(3)多模态视觉注意力模型构建、(4)训练多模态视觉注意力模型、(5)预测用户在浏览画面时的注意力；其中，多模态视觉注意力模型包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块，残差全连接卷积网络模块中包括特征提取模块、最大池化模块和平均池化模块。本发明通过多模态融合技术综合利用眼动和头部运动多个模态的数据，提高视觉注意力预测的准确度，本发明预测方法可用于定位视觉兴趣区域和视觉搜索路径、评估空间信息布局，提高了评估效率，节约了评估成本。

Description

一种多模态三维视觉注意力预测方法及其应用

技术领域

本发明涉及眼动追踪领域，具体涉及一种多模态三维视觉注意力预测方法及其应用。

背景技术

眼动追踪技术通过追踪眼部特征并映射到现实世界或虚拟画面上获取注视点数据。多模态融合技术整合两个或多个模态的信息，实现信息补充，从而提高预测结果的精度和预测模型的鲁棒性。传统眼动跟踪技术基于二维图像和视频序列进行视觉注意力检测，如公开号为CN111309138A和CN113040700A的申请专利仅提高了基于二维图像的眼动追踪的精确度和效率，不能用到三维空间的视觉注意力检测中去。传统眼动跟踪技术仅基于眼部或眼部特征进行眼动跟踪，如申请号为CN111625090A和CN111417335A的专利申请仅关注眼部图像的处理，没有进行多模态数据融合，存在噪音干扰时难以去除误差，影响预测结果的准确度。

注视点数据可以反映用户的注意力和认知状态，从而应用于评估。传统三维空间设计评估方法通常采用问卷法、访谈法、行为观察法和专家评价法。这些方法需要招募大量被试才能获取可靠的数据，往往需要消耗大量的金钱和时间成本，且结论缺少客观数据支撑。使用多模态视觉注意力预测的视觉兴趣区域和视觉搜索路径提供用户在三维空间的注视模式、注视重点等信息，辅助设计师对三维空间的干扰项和视觉盲点进行评估，不仅可以提高效率，节约成本，而且能对三维空间设计评估提供客观数据的有力支撑。

公开号为CN113177515A的中国专利文献公开了一种基于图像的眼动追踪方法，包括对待检测图像进行人脸检测，获得人脸检测框；利用人脸关键点定位网络定位出眼睛感兴趣区域并进行瞳孔关键点定位；基于瞳孔中心和眼睛区域中心计算获取水平偏移比率以确定人眼朝向。该方法能够在环境光照条件不理想，背景复杂等情况下有效地定位到人脸和瞳孔中心并进行眼动跟踪，该方法同样也是仅关注眼部图像的处理。

发明内容

本发明提供了一种多模态三维视觉注意力预测方法，通过多模态融合技术综合利用眼动和头部运动多个模态的数据进行视觉注意力预测，提高了预测准确度。

具体采用的技术方案如下：

1.一种多模态三维视觉注意力预测方法，包括以下步骤：

(1)采集用户的浏览画面，并记录浏览画面时的用户转头速度、用户转头方向以及视觉注视点，其中，浏览画面、用户转头速度以及用户转头方向作为样本数据，视觉注视点作为样本标签；

(2)对样本数据进行预处理，所述的预处理步骤为：利用预训练的球面卷积模型提取样本数据的二维特征后，对二维特征依次进行时间戳对齐、数据补漏、噪声清洗、归一化处理，得到预处理后的样本数据；预处理后的样本数据包括头动样本数据和画面样本数据；

(3)构建包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块的多模态视觉注意力模型；其中，将头动样本数据输入至注意力长短期记忆人工模块提取得到行为特征，将画面样本数据输入至残差全连接卷积网络模块提取得到视觉特征，行为特征和视觉特征经融合模块融合后预测注意力位置；

(4)利用预处理后样本数据对多模态视觉注意力模型在样本标签的监督下进行训练，以优化多模态视觉注意力模型参数；

(5)利用参数优化的多模态视觉注意力模型预测用户在浏览画面时的注意力并显示。

优选的，步骤(1)中，用VR设备模拟三维空间，所述的VR设备带有传感器和内置眼动仪，传感器用于采集浏览画面和记录用户在浏览画面时的用户转头速度和用户转头方向；内置眼动仪用于记录用户在浏览画面时的视觉注视点。

优选的，步骤(2)中，所述的球面卷积模型使用广义傅里叶变换将样本数据投影到谱域，经过卷积后，再通过逆傅里叶变换投影得到样本数据的二维特征。

优选的，步骤(2)中，采用线性插值进行数据补漏；使用最大值最小值滤波进行噪声清洗；将样本数据的所有二维特征归一化处理。

优选的，步骤(3)中，所述的残差全连接卷积网络模块中，包括特征提取模块、最大池化模块和平均池化模块；画面样本数据经特征提取模块提取特征后，得到的特征分别输入至最大池化模块和平均池化模块，经最大池化操作后输出第一视觉特征，经平均池化操作后输出第二视觉特征，第一视觉特征和第二视觉特征拼接后得到视觉特征。

进一步优选的，所述特征提取模块包括多个block模块和球卷积层，block模块用于提取画面样本数据的特征，球卷积层用于对block模块得到的特征进行处理，减少全景扭曲带来的影响，通过跳跃连接捕获更深层次的特征。

优选的，步骤(5)中，采集用户的浏览画面，及浏览画面时的用户转头速度、用户转头方向作为待测数据，将待测数据预处理后输入至参数优化的多模态视觉注意力模型中，预测用户在浏览画面时的注意力并显示。

本发明还提供了一种定位视觉兴趣区域和视觉搜索路径的方法，包括以下步骤：

上传空间前、后、左、右、上和下六个方位的图片合成全景图像；

采集全景图像，并记录浏览全景图像时的用户转头速度、用户转头方向作为待测数据；

将待测数据预处理后输入至多模态视觉注意力模型中，经计算得到用户在浏览全景图像时的注意力位置坐标，形成注意力位置集合，对注意力位置集合进行聚类得到视觉兴趣区域，对注意力位置集合进行时间戳排序得到视觉搜索路径。

本发明还提供了一种评估空间信息布局的方法，包括以下步骤：

采集用户的浏览画面，及浏览画面时的用户转头速度、用户转头方向作为待测数据；

将待测数据预处理后输入至多模态视觉注意力模型中，经计算得到用户在浏览全景图像时的注意力位置坐标，形成注意力位置集合，对注意力位置集合进行聚类得到视觉兴趣区域，对注意力位置集合进行时间戳排序得到视觉搜索路径；

将视觉搜索路径和视觉兴趣区域与空间设计需求结合来评估当前的空间信息布局，包括：当不重要信息被留在视觉兴趣区域，可判断为干扰信息，将干扰信息移出视觉兴趣区域；当重要信息被排除在视觉兴趣区域外，可判断为易忽视信息，将重要信息移到视觉兴趣区域。

与现有技术相比，本发明具有的有益效果为：

(1)本发明提供的多模态三维视觉注意力预测方法可以在三维空间实现高精度的视觉注意力预测，并结合多模态数据去除数据噪声，进一步提高预测结果的准确度。

(2)本发明提供的多模态三维视觉注意力预测方法可以用于定位视觉兴趣区域和视觉搜索路径，并能够将视觉搜索路径和视觉兴趣区域与空间设计需求结合来评估当前的空间信息布局，可以提高评估效率，节约评估成本，能够为三维空间设计评估提供客观数据的有力支撑。

附图说明

图1为多模态三维视觉注意力预测方法流程图。

图2为多模态三维视觉注意力预测方法的技术路线图。

图3为构建多模态视觉注意力模型的框架图。

具体实施方式

下面结合附图与实施例，进一步阐明本发明。应理解，这些实施例仅用于说明本发明，而不用于限制本发明的范围。

如图1和图2所示，本实施例提供一种多模态三维视觉注意力预测方法，包括以下步骤，(1)样本数据和样本标签采集、(2)样本数据预处理、(3)多模态视觉注意力模型构建、(4)训练多模态视觉注意力模型、(5)预测用户在浏览画面时的注意力并显示。

(1)样本数据和样本标签采集

用VR设备模拟三维空间，采集用户的浏览画面，并记录浏览画面时的用户转头速度、用户转头方向以及视觉注视点，其中，浏览画面、用户转头速度以及用户转头方向作为样本数据，视觉注视点作为样本标签。

VR设备选用Oculus Rift DK2，所述的VR设备带有传感器和内置Pupil Lab眼动仪，传感器用于采集浏览画面和记录用户在浏览虚拟现实画面时的用户转头速度和用户转头方向；Pupil Lab内置眼动仪用于记录用户在浏览虚拟现实画面时的视觉注视点。

(2)样本数据预处理

对步骤(1)得到的样本数据进行预处理，所述的预处理步骤为：利用预训练的球面卷积模型提取样本数据的二维特征后，对二维特征依次进行时间戳对齐、数据补漏、噪声清洗，归一化处理，得到预处理后样本数据，预处理后的样本数据包括头动样本数据(预处理后的用户转头速度以及用户转头方向)和画面样本数据(预处理后的浏览画面)。

使用预训练的球面卷积模型提取样本数据的二维特征，球面卷积模型使用广义傅里叶变换将样本数据投影到谱域，经过卷积后，再通过逆傅里叶变换投影得到样本数据的二维特征。

对二维特征进行时间戳对齐，得到时间序列[(0，x₀)，(t₁-t₀，x₁)，...，(t_N-t₀，x_N)]，其中，t₀为起始时间，x_N为时间t_N对应的特征值。

再利用线性插值对时间序列数据进行补漏，及通过x_n,x_n+2预测x_n+1：x_n+1＝(x_n+x_n+1)/2，n＝1,2,3,…,N。

使用最大值最小值滤波进行噪声清洗，即对任意x_n,如果x_n>max，x_n＝max；如果x_n<min,x_n＝min；否则x_n不变，max和min的值为手动设置。

将样本数据的所有二维特征归一化处理，对任意x_n,x_n＝x_n/max0，max0为所有x_n中的最大的绝对值，然后将所有归一化处理的二维特征拼接成特征向量作为步骤(3)中多模态视觉注意力模型的输入。

(3)多模态视觉注意力模型构建

构建包括注意力长短期记忆人工模块、残差全连接卷积网络模块以及融合模块的多模态视觉注意力模型；其中，将头动样本数据输入至注意力长短期记忆人工模块提取得到行为特征，将画面样本数据输入至残差全连接卷积网络模块提取得到视觉特征，行为特征和视觉特征经融合模块融合后预测注意力位置。

注意力长短期记忆人工模块整合了注意力机制——计算当前输入序列和注视点坐标之间的匹配程度，从而有选择地关注输入中的相应信息——以捕捉远距离相关依赖特征。

注意力长短期记忆人工模块中，头动样本数据经过计算得到隐藏层变量h_j，隐藏层变量h_j对应的总权重C_t为：

其中，Tx为每个样本数据的总时长，α_tj是隐藏层变量h_j的对应权重，α_tj的计算公式为：

e_tj是时间t的输出与时间j的输入之间的匹配度，e_tj＝g(S_t-1，h_j)，g可被视为全连接的子网络，用于学习特征在模型中的新表示，S_t-1是时间t-1时注意力长短期记忆人工模块的输出。

此外，长短期记忆人工模块输出的多个表示都分别引入丢弃层来提高模型训练时的效率，丢弃层会在训练时以给定的概率从网络中随机地丢弃节点，这也会降低模型的泛化误差，最后经过残差层的输出会作为残差网络的输入。

如图3所示，所述的残差全连接卷积网络模块中，画面样本数据经特征提取模块提取特征后，得到的特征分别输入至最大池化模块(Max pooling)和平均池化模块(Averagepooling)，经最大池化操作后输出第一视觉特征，经平均池化操作后输出第二视觉特征，第一视觉特征和第二视觉特征拼接后得到视觉特征。

每个特征提取模块包括多个block模块和球卷积层，block模块用于提取画面样本数据的特征，球卷积层用于对block模块得到的特征进行处理，减少全景扭曲带来的影响，通过跳跃连接捕获更深层次的特征。

每个block模块由球卷积层(Spherical convolution)和批量归一化层(BN)形成的残差结构，该残差结构有助于在网络中更深地传输特征。解决了网络退化问题，使网络收敛速度加快；其次，在最后一层球面卷积之后，残差全连接卷积网络模块添加了最大池层和平均池层，这有助于网络从输入中学习语义信息。

残差全连接卷积网络模块是在经典的全连接卷积网络的基础上进行改进，相比于经典的全连接卷积网络，本发明中构建的包含特征提取模块、最大池化模块和平均池化模块的残差全连接卷积网络模块可以更好的学习到三维的注意力信息，此外也具有更好的识别旋转和形变的能力。残差结构则将上一层输入使用跳转直接连接到下一层的输出，这个结构降低了模型深度增加带来过拟合的风险，因此整个网络可以尝试更大的深度，并且可以处理来自较低层的更多信息。残差全连接卷积网络模块同时结合最大池化模块和平均池化模块以提高模型的鲁棒性。残差全连接卷积网络模块采用最大池化模块来减少全连接的参数并在语义级别提取这些参数，减少由于邻域大小有限导致的估计值方差与特征提取误差。采用平均池化模块为了提取更多模糊的全局抽象特征，减少卷积层参数误差导致的估计均值偏差。

(4)训练多模态视觉注意力模型

利用处理后样本数据对多模态视觉注意力模型在样本标签的监督下进行训练，以优化多模态视觉注意力模型参数。

将步骤(2)得到的头动样本数据作为注意力长短期记忆人工模块的输入，注意力长短期记忆人工模块设置有640个神经元；将画面样本数据作为残差全连接卷积网络模块的输入，残差全连接卷积网络模块分别堆叠有128、256和640个滤波器的时间卷积层。其中，注意力长短期记忆人工模块、残差全连接卷积网络模块的输出输入至融合模块，即通过融合模块的concatenate层进行融合连接，并经过sigmoid回归得到当前时刻的注视点坐标。

本发明方法在残差全连接卷积网络模块的损失函数中引入正则化加速模型训练，提高模型的泛化能力，以消除训练期间的过拟合。

将用户未来注视区域的预测定义为一个分类问题，不断优化多模态视觉注意力模型参数，直到在模型训练期间损失收敛，以便从训练数据中学习输入输出的映射关系，回归得到注视点坐标。

多模态视觉注意力模型由Adam优化器进行训练，初始学习率为1e-3，最终学习率为1e-4，批次值设置为128。学习率降低了一倍

在每50个阶段中，验证分数没有改善，直到达到预设的最终学习率。损失函数定义为：

其中，y_i和f(x_i)分别表示第i个样本数据的真实值和预测值，m为样本个数。最后在训练集上进行训练并进行十字交叉验证，优化多模态视觉注意力模型参数。

(5)预测用户在浏览画面时的注意力

采集用户的浏览画面，及浏览画面时的用户转头速度、用户转头方向作为待测数据，将待测数据预处理后输入至参数优化的多模态视觉注意力模型中，利用参数优化的多模态视觉注意力模型预测用户在浏览画面时的注意力并显示。

通过参数优化的多模态视觉注意力模型生成视觉兴趣区域，根据头动方向连接视觉兴趣区域得到视觉搜索路径。利用视觉兴趣区域和视觉搜索路径。基于这些输出，实施例可以分析以下两点：(1)用户在三维空间处理信息的浏览顺序，及视线的移动轨迹；(2)用户在三维空间的浏览重点，及长时间视线停留的区域；设计师可以根据提供的信息评估判断三维空间中是否存在干扰信息、三维空间中的重要信息是否被忽视等问题。

三维空间的视觉注意力预测以全景图片为输入，全景图片包含三维空间的全方位角度画面，并以球形展示，因此提取图片的全局与局部信息，可以更好的捕获图像粗粒度与细粒度特征。

上传空间前、后、左、右、上和下六个方位图片至系统后，图片通过ptgui模型实现360°图像合成全景图像，采集全景图像，并记录浏览全景图像时的用户转头速度、用户转头方向作为待测数据；将待测数据预处理后输入至多模态视觉注意力模型中，多模态三维视觉注意力预测方法构建的多模态视觉注意力模型中，经计算得到用户在浏览全景图像时的注意力位置坐标，形成注意力位置集合，对注意力位置集合进行聚类得到视觉兴趣区域，对注意力位置集合进行进行时间戳排序得到视觉搜索路径。

在得到预测视觉兴趣区域和视觉搜索路径后，可将视觉搜索路径输出为三维空间中用户处理信息的浏览顺序(视觉移动轨迹)，将视觉兴趣区域输出为用户在三维空间中处理信息的浏览重点区域(视觉重心区域)。进而将视觉移动轨迹和视觉重心结合空间设计需求评估该空间的信息布局。当不重要信息被留在了浏览重点区域，可判断为干扰信息，将干扰信息移出浏览重点区域；当重要信息被排除在浏览区域外，可判断为易忽视信息，将重要信息移到视觉重心区域。

本发明提供的多模态三维视觉注意力预测方法及应用基于用户转头速度、转头方向以及三维场景浏览画面的视觉注意力模型，以虚拟现实模拟三维空间的方式，实现VR头盔内置传感器和眼动仪的多模态用户数据联合获取，并通过多模态视觉注意力数据集训练得到可用的三维视觉注意力模型，实现三维空间的视觉注意力预测与评估。

本发明通过双支流实现对头动样本数据和画面样本数据的分别学习，注意力长短期记忆人工模块对头动样本数据提取局域时间特征，具有较强的上下文文本学习能力；残差全连接卷积网络模块对画面样本数据提取视觉特征，通过拼接减少全景扭曲带来的影响，通过跳跃连接捕获更深层次的特征。

本发明结合多模态数据降低数据噪声，实现高精度的三维视觉注意力预测；本发明提供注意力预测的视觉兴趣区域和视觉搜索路径，从而实现高效、低成本、有客观数据支撑的三维空间设计评估。

以上所述的实施例对本发明的技术方案进行了详细说明，应理解的是以上所述的仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充或类似方式替代等，均应包含在本发明的保护范围之内。

Claims

1.一种多模态三维视觉注意力预测方法，包括以下步骤：

2.根据权利要求1所述的多模态三维视觉注意力预测方法，其特征在于，步骤(1)中，用VR设备模拟三维空间，所述的VR设备带有传感器和内置眼动仪，传感器用于采集浏览画面和记录用户在浏览画面时的用户转头速度和用户转头方向；内置眼动仪用于记录用户在浏览画面时的视觉注视点。

3.根据权利要求1所述的多模态三维视觉注意力预测方法，其特征在于，步骤(2)中，所述的球面卷积模型使用广义傅里叶变换将样本数据投影到谱域，经过卷积后，再通过逆傅里叶变换投影得到样本数据的二维特征。

4.根据权利要求1所述的多模态三维视觉注意力预测方法，其特征在于，步骤(2)中，采用线性插值进行数据补漏；使用最大值最小值滤波进行噪声清洗；将样本数据的所有二维特征归一化处理。

5.根据权利要求1所述的的多模态三维视觉注意力预测方法，其特征在于，所述的残差全连接卷积网络模块中，包括特征提取模块、最大池化模块和平均池化模块；画面样本数据经特征提取模块提取特征后，得到的特征分别输入至最大池化模块和平均池化模块，经最大池化操作后输出第一视觉特征，经平均池化操作后输出第二视觉特征，第一视觉特征和第二视觉特征拼接后得到视觉特征。

6.根据权利要求5所述的多模态三维视觉注意力预测方法，其特征在于，所述特征提取模块包括多个block模块和球卷积层，block模块用于提取画面样本数据的特征，球卷积层用于对block模块得到的特征进行处理，减少全景扭曲带来的影响，通过跳跃连接捕获更深层次的特征。

7.根据权利要求1所述的多模态三维视觉注意力预测方法，其特征在于，步骤(5)中，采集用户的浏览画面，及浏览画面时的用户转头速度、用户转头方向作为待测数据，将待测数据预处理后输入至参数优化的多模态视觉注意力模型中，预测用户在浏览画面时的注意力并显示。

8.一种定位视觉兴趣区域和视觉搜索路径的方法，其特征在于，包括以下步骤：

将待测数据预处理后输入至根据权利要求1-7任一所述的多模态三维视觉注意力预测方法构建的多模态视觉注意力模型中，经计算得到用户在浏览全景图像时的注意力位置坐标，形成注意力位置集合，对注意力位置集合进行聚类得到视觉兴趣区域，对注意力位置集合进行时间戳排序得到视觉搜索路径。

9.一种评估空间信息布局的方法，其特征在于，包括以下步骤：

将待测数据预处理后输入至根据权利要求1-7任一所述的多模态三维视觉注意力预测方法构建的多模态视觉注意力模型中，经计算得到用户在浏览全景图像时的注意力位置坐标，形成注意力位置集合，对注意力位置集合进行聚类得到视觉兴趣区域，对注意力位置集合进行时间戳排序得到视觉搜索路径；