CN116185179A

CN116185179A - 基于众包眼动数据的全景图视觉显著性预测方法和系统

Info

Publication number: CN116185179A
Application number: CN202211710720.8A
Authority: CN
Inventors: 程时伟; 沈泽鹏
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-05-30

Abstract

本发明公开了基于众包眼动数据的全景图视觉显著性预测方法和系统，基于用户回忆和自我报告的众包式眼动跟踪方式去收集全景图像的众包式眼动数据。该眼动数据同时考虑了众包用户浏览全景图像时的全局视觉特征和局部视觉特征。通过该众包式眼动跟踪方法构建了全景图像眼动数据集CrowdSourcing360。利用该数据集构建并训练了全景图像视觉显著性预测模型CSnet360，并对CSnet360模型生成的显著性结果进行了可视化处理。本发明对于全景图像视觉显著性预测性能较优异，使用众包式眼动数据不仅能提高眼动数据收集效率，降低模型过拟合风险，还能让视觉显著性模型学习到人眼的视觉感知特征，并输出精确的视觉显著性预测结果。

Description

基于众包眼动数据的全景图视觉显著性预测方法和系统

技术领域

本申请属于人机交互、视觉显著性等领域，具体涉及到基于众包眼动数据的全景图视觉显著性预测方法和系统。

背景技术

视觉显著性预测是指依赖算法来模拟人眼的视觉特点，找出图像中显著区域，该区域同样是人眼感兴趣区域。视觉显著性可以将相对有限的计算资源重新分配给图像中重要的信息，其反映的结果更能满足人类的视觉认知需求。随着虚拟现实应用的兴起，预测全景图像视觉注意力信息对于创作者理解用户视觉行为来说是非常有价值的，并且也可以用来改善算法。

近些年来由于深度卷积网络的快速发展，传统二维图像领域的视觉显著性预测已经得到了广泛的研究，也为传统二维图像提出了很多的显著性预测模型，同时也建立了丰富数据集。虽然上述的一些显著性预测模型在二维图像上显著性预测性能较为优异，但其都并不能很好适用于全景图像。而且其中多数视觉显著性模型是利用图像本身颜色，亮度等低级特征进行的显著性预测。这类模型仅单纯使用图像特征而没有引入人类视觉特征的因素，其预测效果自然不能真实反映人类视觉特征，所以需要利用真实的眼动数据来构建视觉显著性预测模型。在利用传统眼动设备来获取图像的眼动数据时会遇到收集成本昂贵、效率低下、数据精度较差等问题，更何况使用传统设备去收集全景图像的眼动数据来构建全景图像的视觉显著性预测模型。由于大多数观察者只对全景图像的部分区域感兴趣，所以研究全景图像的视觉显著性预测，来理解用户的视觉行为就变得十分重要。为了能解决上述问题，本文在利用众包用户注视点回忆和报告的方法之上，提出了一种基于众包式眼动数据的全景图像视觉显著性预测方法和系统。

发明内容

本发明克服了现有技术的缺点，提供了基于众包眼动数据的全景图视觉显著性预测方法和系统。通过众包回忆注视点的方法，构建了目前最大的基于众包式眼动数据的全景图像数据集CrowdSourcing360，该数据集对比现有的全景图像眼动数据集有较大的优势；通过实验验证了基于该数据集所训练全景图像显著性预测模型的可行性，提出了基于众包式眼动数据的全景图像显著性模型CSnet360；结合该模型开发了全景图像视觉显著性预测系统。

为了实现上述目的，本申请技术方案如下：

基于众包眼动数据的全景图视觉显著性预测方法，利用众包式眼动数据训练视觉显著性模型，向模型输入全景图像来预测其的视觉显著性，包括如下步骤：

1)采集众包式眼动数据：

通过在众包平台发布浏览图像并回忆注视点任务，回忆注视点任务包括两个：一个收集局部注视点，另一个收集全局注视点；然后将全局、局部注视点热区图按比例融合；最后构建基于众包回忆注视点形式的全景图像眼动数据集CrowdSourcing360；

2)构建视觉显著性模型：

视觉显著性模型是以VGG网络为基础，将网络中的全连接层都用卷积层替换，得到全卷积网络结构；输入图像每经过一次池化层，其宽和高都会相对前者输出长度缩短一半，经过所有的卷积层和池化层后，输入图像尺寸会变成原来的1/32；视觉显著性模型结构预测层通道数为1，在经过预测层后使用反卷积进行上采样操作，将经过多层卷积后的输入图像恢复到原来的尺寸，再最后输出之前调用Logistic函数，将网络预测值映射到[0,1]的区间内产生最终的视觉显著性预测结果；

3)训练视觉显著性模型：

训练视觉显著性模型分两个阶段：预训练阶段和微调训练阶段；预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对应的显著性图；预训练可使模型具备二维图像视觉显著性预测能力；微调训练阶段使用全景图像众包式眼动数据集CrowdSourcing360，微调训练完毕，即得到全景图像视觉显著性模型CSnet360。

4)可视化模型预测显著性结果：

训练完毕的视觉显著性模型所输出的显著性预测结果为一张二值图像，白色区域对应图像显著性高的区域，黑色区域对应图像显著性低的区域；将二值图像中的黑白颜色映射为RGB颜色，并叠加原始全景图像，使得预测的显著性结果呈现效果更直观。

进一步的，步骤1)中的回忆注视点任务具体过程如下：

一个是，浏览全景图像经等距柱状投影ERP生成的等距柱状图像后，回忆并点击注视点所在位置，注视点数据将依靠高斯算法生成全景图像的全局注视点热区图；

另一个是，浏览全景图像经立方体投影CMP生成的6个直线图像后，在图像上回忆并点击注视点所在位置，注视点数据将依靠高斯算法生成全景图像的局部注视点热区图。

进一步的，步骤3)具体过程如下:

预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对应的显著性图；然后，基于二值交叉嫡损失，并利用真实显著性图来监督网络的训练；预训练时使用SALICON图像的输入尺寸为640*480像素，初始学习率为10^-5，学习率每经过2个epochs下降到先前的十分之一，共迭代6个epochs；微调训练阶段使用全景图像众包式眼动数据集CrowdSourcing360；全景图像的输入尺寸为原始图像尺寸的十分之一，初始学习率为10^-6，共迭代了200个epochs；基于线性相关系数CC、归一化扫描路径显著性NSS、相对熵KL三个显著性度量指标构建模型的二值交叉熵损失函数，以改善不同因素下的性能并优化模型训练；

损失函数如下：

L＝μ_BCE+σ_BCEL₁+L_BCE(S_pre，S_gt)

其中S_pre，S_gt分别表示CSnet360预测的显著性图和众包回忆注视点热区图；μ_BCE，σ_BCE分别表示CSnet360在预测图像显著性时所计算L_BCE的平均值和标准差；其中L_BCE函数定义如下式：

其中i表示图像像素坐标，N表示像素数目。式中的

分别表示KL、CC的归一化函数。

进一步的，所述的基于众包眼动数据的全景图视觉显著性预测方法，基于用户回忆和自我报告的众包式眼动跟踪方式去收集全景图像的众包式眼动数据。该眼动数据同时考虑了众包用户浏览全景图像时的全局视觉特征和局部视觉特征。在对众包实验过程中涉及不同参数对众包式眼动数据精度的影响作分析后确定了众包实验中的最优参数。

进一步的，所述的基于众包眼动数据的全景图视觉显著性预测方法，在虚拟现实场景下构建了基于支持向量回归的误差补偿模型用于收集的众包式眼动根据。最后建立了一个基于众包回忆注视点形式的全景图像眼动数据集。

进一步的，所述的基于众包眼动数据的全景图视觉显著性预测方法，基于全景图像众包式眼动数据集CrowdSourcing360训练视觉显著性模型，所训练得到的CSnet360模型显著性预测性能优于大多数现有模型。

本申请还提出了基于众包眼动数据的全景图视觉显著性预测系统，包括了三大模块全景图像预处理模块，视觉显著性预测模块、视觉显著性训练模块、众包式眼动数据采集模块。所述模块可执行实现基于众包式眼动数据的全景图像视觉显著性预测方法。

众包式眼动数据采集模块是收集用户的局部眼动数据和全局眼动数据，它将360度图像投影到立方体六个面生成的6个直线图像和360度图像投影成的等矩形图像上传到众包平台收集用户的回忆注视点；

全景图像预处理模块是将全局注视点热区图和局部注视点热区图线性加权融合，将融合后的注视点热区图和对应的360度图像作为模型的训练集使用；

视觉显著性预测模块是使用上文构建的视觉显著性模型CSnet360将网络预测值映射到[0,1]的区间内产生最终的360度图像的视觉显著性预测结果；

视觉显著性训练模块是通过预训练和微调使模型具备更好的预测功能，需要先通过自然场景图像数据集SALICON上进行预训练，再通过众包回忆注视点得到的数据集CrowdSourcing360进行微调。

本发明提出的基于众包眼动数据的全景图视觉显著性预测系统，分类全景图像上每个像素的显著性，0为非显著，1为显著来实现最终的全景图像视觉显著性预测；本发明基于众包技术收集用户的回忆注视点数据来训练视觉显著性模型，而非使用传统眼动跟踪设备所采集的真实眼动数据，通过分析众包实验中各参数的影响以及建立基于支持向量回归的数据补偿模型来改善众包式眼动数据的精度，提高所训练的视觉显著性预测性能。本申请使用精度不如真实眼动数据的众包式眼动数据训练出了性能优异的全景图像视觉显著性预测模型。

本发明的有益效果如下：

1)解决了现有全景图像眼动数据集不足的问题，提出基于用户回忆和自我报告的众包式眼动跟踪方式去收集全景图像的类眼动数据，提升数据的获取效率和数据量；

2)解决了部分模型无法反应人眼的视觉感知特征的问题；

3)能够实现全景图像的视觉显著性预测，且预测精度与最先进模型相比差距较小。

附图说明

图1为本发明流程图；

图2位本发明全景图像的预处理流程示意图；

图3为本发明众包式眼动数据收集流程示意图；

图4为本发明全景图像视觉显著性模型结构示意图；

图5为本发明全景图像视觉显著性模型训练过程示意图；

图6为本发明全景图像视觉显著性预测结果示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本发明基于用户回忆和自我报告的众包式眼动跟踪方式去收集全景图像的众包式眼动数据。该眼动数据同时考虑了众包用户浏览全景图像时的全局视觉特征和局部视觉特征。全局视觉特征是用户通过浏览全景图像经ERP后得到的等距柱状图像所反映的；局部视觉特征是用户浏览全景图像经CMP后得到的6个直线图像所反映的。通过众包的方式可以扩充全景图像眼动数据集的数据量，有助于全景图像视觉显著性模型的训练，防止其陷入过拟合。最后构建了基于众包回忆注视点形式的全景图像眼动数据集CrowdSourcing360。建立了基于全卷积神经网络的全景图像视觉显著性模型CSnet360，该模型通过两个阶段的训练，分别是基于SALICON数据集的预训练和基于CrowdSourcing360数据集的微调训练。最后对模型的预测做了可视化处理，以RGB的热区图形式呈现。

在一个实施例中，如图1所示，提供了基于众包眼动数据的全景图视觉显著性预测方法，包括：

步骤S1：采集众包式眼动数据。

本申请使用计算机终端来实现，通过在阿里云服务器部署开发的众包平台，在众包平台上发布回忆注视点任务，众包用户可通过个人计算机登录到开发的众包平台接受并执行回忆注视点任务。

在正式收集众包用户回忆注视点之前，需要对全景图像进行预处理操作，具体的预处理流程如图2所示。由于全景图像的特性不能像二维图像一样直接作为模型的输入进行训练，所以需要进行投影操作转变成普通的平面图像。一些全景图像视觉显著性研究会同时考虑了图像的局部显著性和全局显著性，有效解决了全局性图像中低显著性区域的敏感问题，提高了全景图像的视觉显著性预测性能。借鉴其对于全景图像局部、全局显著性的考量，本文将用户回忆注视点收集工作分为局部和全局两个部分展开，第一是利用CMP将全景图像投影到立方体的六个面上，生成6个直线图像，每个直线图像有90度的视场。将6个直线图像依顺序上传到众包平台收集用户的回忆注视点；第二是利用ERP将全景图像投影成等距柱状图像，将等距柱状图像也按相同操作收集回忆注视点。第一部分会获取全景图像经CMP后6张直线图像对应的注视点热区图，需经反投影操作将6张热区图进行合并生成局部注视点热区图；第二部分会获取全景图像的全局注视点热区图。最后通过线性加权将全景图像的全局和局部注视点热区图融合，最终得到融合后的注视点热区图。将其与对应的全景图像作为输入来训练模型。

全景图像预处理流程中，涉及到众包用户在众包平台执行回忆注视点任务。众包用户回忆注视点正式采集流程如图3所示。图中a为众包用户阅读并志愿同意实验知情同意书界面；b为用户预训练提示界面，内容包括实验的相关信息；c为预训练界面，用户点击自己所看的区域；d为正式实验图片加载完毕后，用户点击开始就正式进入众包实验的界面；e为过渡图像，其是由灰色底图和随机位置(在图中位于底部中央)的小点构成，在每次开始浏览刺激图像时出现，作用是避免用户的注视点一直停留在上一张刺激图像的某个位置，对新刺激图像浏览产生干扰，也可以防止用户疲劳；f为刺激图像，该刺激图像一共分为f1和f2两种，f1是全景图像经CMP生成的六个局部图像之一，f2是全景图像经ERP后得到的图像，全景图像预处理如图3所示。此处用来收集众包用户眼动数据的图像(下文简称刺激图像)；g为蒙版图像，根据刺激图像的大小对刺激图像进行适应覆盖，众包用户对刺激图像进行注视点回忆，在蒙版图像上进行回忆点击，对于局部图像采用纯灰色蒙版图像g1，而对于全景图像采用灰色半透明蒙版图像g2；h为众包用户完成所有刺激图像的回忆任务，点击提交，将所有任务数据上传完毕后会返回一串验证码。

经过所有众包用户执行回忆注视点任务之后，对全局和局部注视点进行汇集后融合，构建了基于众包回忆注视点形式的全景图像眼动数据集CrowdSourcing360。

步骤S2：构建视觉显著性模型。

此处构建的视觉显著性模型结构如图4所示，模型是以VGG网络为基础，将该网络中全连接层转变成了卷积层后得到了全卷积网络结构。输入图像每经过一次池化层，其宽和高都会相对前者输出长度缩短一半，经过所有的卷积层和池化层后，输入图像尺寸会变成原来的1/32。本模型的预测层通道数为1，在经过预测层后使用反卷积进行上采样操作，将经历过多层卷积后的输入图像恢复到原来的尺寸，在最后输出之前调用Logistic函数，将预测值映射到[0,1]的区间内产生最终的全景图像视觉显著性预测结果。

步骤S3：训练视觉显著性模型。

模型训练流程如图5所示。首先对修改后的VGG网络模型进行预训练。预训练使用的数据集是SALICON，随机选择了10000张的自然场景图像。预训练完毕的初级模型可预测二维图像的显著性图。该阶段是基于二值交叉嫡损失函数，并利用显著性图来监督网络的训练。预训练时使用SALICON图像的输入尺寸为640*480像素，初始学习率为10^-5，学习率每经过2个epochs下降到原来的十分之一，总共迭代6个epochs。然后进行微调训练，该阶段使用众包式眼动数据集CrowdSourcing360，使用了包含208张全景图像和对应回忆注视点数据生成的热区图。微调训练时输入图像和对应热区图尺寸设置为原始图像尺寸的十分之一，该部分训练的初始学习率为10^-6，共迭代了200个epochs。对于模型的视觉显著性预测性能通常会依据不同的度量指标来评估，以捕获不同的质量因素，如CC，NSS以及KL。因此该阶段的二值交叉嫡损失函数融合了上述三个指标，具体损失函数如下：

L＝μ_BCE+σ_BCEL₁+L_BCE(S_pre，S_gt)

/>

其中S_pre，S_gt分别表示CSnet360预测的显著性图和众包回忆注视点热区图。μ_BCE，σ_BCE分别表示CSnet360在预测图像显著性时所计算LBCE的平均值和标准差。其中L_BCE函数定义如下式：

其中i表示图像像素坐标，N表示像素数目。式中的

分别表示KL、CC的归一化函数。

两个阶段的训练完成后就得到了全景图像视觉显著性模型CSnet360。

步骤S4：可视化模型预测显著性结果。

训练完毕的模型所输出的显著性预测结果为一张二值图像。将二值图像中的黑白颜色映射为以“红-绿-蓝”为主的颜色，并叠加原始全景图像，使得预测的显著性结果呈现效果更直观。分析和计算图像中单个像素的透明度或颜色等可视化属性变量，考虑到单个像素可能会影响到热区图上的所有像素，这里使用非线性计算方式使热区图中过度效果更加自然、平滑。比如使用高斯分布来计算单个像素透明度值。可视化结果如图6所示。

在一个实施例中，本申请还提供了一个基于众包眼动数据的全景图视觉显著性预测系统，包括了四大模块全景图像预处理模块，视觉显著性预测模块、视觉显著性训练模块，众包式眼动数据采集模块。上述模块可执行实现基于众包式眼动数据的全景图像视觉显著性预测方法的步骤。

本发明实施例中各个模块可以集成于一体，也可以分离部署,或进一步拆分成多个子模块。各个模块可以按照实施例描述分布于实施例的系统中，也可以进行相应变化部署在不同于本发明实施例的一个或多个系统中。

关于基于众包眼动数据的全景图视觉显著性预测系统的具体限定可以参见上文中对于基于众包眼动数据的全景图视觉显著性预测方法的限定，在此不再赘述。上述基于众包式眼动数据的全景图像视觉显著性预测系统可全部或部分通过软件、硬件及其组合来实现。可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上对应的操作。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.基于众包眼动数据的全景图视觉显著性预测方法，其特征在于，利用众包式眼动数据训练视觉显著性模型，向模型输入全景图像来预测其的视觉显著性，包括如下步骤：

1)采集众包式眼动数据：

2)构建视觉显著性模型：

3)训练视觉显著性模型：

训练视觉显著性模型分两个阶段：预训练阶段和微调训练阶段；预训练阶段使用SALICON数据集中随机选择的M张二维图像及其对应的显著性图；预训练可使模型具备二维图像视觉显著性预测能力；微调训练阶段使用全景图像众包式眼动数据集CrowdSourcing360，微调训练完毕，即得到全景图像视觉显著性模型CSnet360；

4)可视化模型预测显著性结果：

训练完毕的视觉显著性模型所输出的显著性预测结果为一张二值图像，白色区域对应图像显著性高的区域，黑色区域对应图像显著性低的区域；将二值图像中的黑白颜色映射为RGB颜色，并叠加原始全景图像，形成眼动热区图，使得预测的显著性结果呈现效果更直观。

2.根据权利要求1所述的基于众包眼动数据的全景图视觉显著性预测方法，其特征在于：步骤1)中的回忆注视点任务具体过程如下：

3.根据权利要求1所述的基于众包眼动数据的全景图视觉显著性预测方法，其特征在于：步骤3)具体过程如下:

损失函数如下：

L＝μ_BCE+σ_BCEL₁+L_BCE(S_pre，S_gt)

其中i表示图像像素坐标，N表示像素数目，式中的

分别表示KL、CC的归一化函数。

4.基于众包眼动数据的全景图视觉显著性预测系统，其特征在于：包括众包式眼动数据采集模块、全景图像预处理模块，视觉显著性预测模块和视觉显著性训练模块；