CN116343012B

CN116343012B - 基于深度马尔可夫模型的全景图像扫视路径预测方法

Info

Publication number: CN116343012B
Application number: CN202310611763.9A
Authority: CN
Inventors: 方玉明; 徐可烁; 眭相杰; 刘学林; 鄢杰斌; 左一帆; 陈强; 刘扬
Original assignee: Shengjing Intelligent Technology Jiaxing Co ltd; Jiangxi University of Finance and Economics
Current assignee: Shengjing Intelligent Technology Jiaxing Co ltd; Jiangxi University of Finance and Economics
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-07-21
Anticipated expiration: 2043-05-29
Also published as: CN116343012A

Abstract

本发明提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法，利用选择的观看起始点对视觉状态进行初始化；根据场景语义特征及历史视觉状态，通过转移函数获得当前时刻的视觉状态表征；并从三维高斯坐标中根据三维高斯密度采集注视点样本，通过从参数化的三维高斯密度中采样来模拟发射过程，构建不同视觉状态下描述注视点的发射函数，预测当前时刻的注视点，扫视路径任务中的用户真实注视点，将用户真实注视点利用变分推理潜在视觉状态的后验分布，预测全景图像的扫视路径，通过不断迭代转移函数和发射函数，直至获得并生成所需长度的预测扫视路径。本发明提出一种初始化视觉状态的策略，可以灵活地指定一个特定的起点用于扫视路径生成。

Description

基于深度马尔可夫模型的全景图像扫视路径预测方法

技术领域

本发明涉及机遗传算法领域，特别涉及一种基于深度马尔可夫模型的全景图像扫视路径预测方法。

背景技术

当前的全景图像扫视路径预测方法可以大致分为两类：基于显著性的方法和基于生成模型的方法。前者的基本思想是从显着图中采样预测的注视点。这种方法的性能高度依赖于显着图的性能。此外，构建一个令人满意的采样策略来解释时间相关的视觉行为是非常重要的。后一组方法利用生成模型，例如生成对抗网络（Generative AdversarialNetwork，GAN），来预测真实的扫视路径。然而，此类方法生成的扫视路径表现出对感兴趣区域的关注较少。此外，基于GAN的方法在确定扫视路径的长度方面不太灵活，并且通常会受到不稳定训练的影响。

上述研究均未完整处理观看行为的时间依赖性，而时间依赖性对于全景图像中的动态注视行为建模至关重要。对于时间序列数据，一种流行的方法是利用顺序模型，例如循环神经网络（Recurrent Neural Networks，RNN)。然而，这种确定性模型容易过度拟合，尤其是在小型全景图像数据库上。更重要的是，这类方法通常会做出简单化的假设，例如，一种选择是将显著性图连接到模型的隐藏状态，它假设网络通过从显著图中学习状态如何演变。然而，神经科学研究表明，除了自上而下和自下而上的特征外，记忆先验和场景语义是引导视觉注意力的重要来源。此外，要被识别为兴趣或被拒绝为干扰因素，目标必须与记忆中保存的目标模板进行比较。

发明内容

鉴于上述状况，本发明的主要目的是为了提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法，以解决上述技术问题。

本发明实施例提供了一种基于深度马尔可夫模型的全景图像扫视路径预测方法，所述方法包括如下步骤：

步骤1、利用选择的观看起始点对视觉状态进行初始化；

步骤2、获取场景语义特征和历史视觉状态，利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换，以历史视觉状态作为转移函数中视觉工作记忆的函数，根据场景语义特征及历史视觉状态，通过转移函数获得当前时刻的视觉状态表征；

步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标，从三维高斯坐标中根据三维高斯密度采集注视点样本；

从起点视觉状态开始，利用注视点样本来模拟发射过程，构建不同视觉状态下描述注视点的发射函数，利用发射函数预测不同视觉状态下当前时刻的注视点；

步骤4、获取过去和未来真实观察的信息，过去和未来真实观察的信息即扫视路径任务中的用户真实注视点，将用户真实注视点利用变分推理推导出条件分布族，将预测不同视觉状态的注视点形成潜在视觉状态的后验分布，采用条件分布族来近似潜在视觉状态的后验分布，推理出潜在视觉状态的后验分布的近似值，利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径；

步骤5、重复步骤2至步骤4，通过不断迭代转移函数和发射函数，直至获得并生成所需长度的预测扫视路径。

本发明提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法，采用起点的状态初始化策略，有助于模型专注于学习具有正确“启动器”的状态动态建模，使该模型能够为扫视路径生成分配一个特定的起点，能够通过正确的“发射器”学习动力学。

本发明的附加方面与优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

图1为本发明提出的基于深度马尔可夫模型的全景图像扫视路径预测方法的流程图；

图2为本发明提出的基于深度马尔可夫模型的全景图像扫视路径预测方法的算法流程图；

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来表示实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

请参阅图1和图2，其中图1为本发明流程图，图2为本发明算法流程图，从图2中可以得知的是，本发明预先将视觉状态初始化，然后得出发射函数和转移函数，通过迭代发射函数和转移函数预测扫视路径。

本发明提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法，其中，所述方法包括如下步骤：

步骤1、利用选择的观看起始点对视觉状态进行初始化；

利用选择的观看起始点对视觉状态进行初始化存在如下关系式：

；

其中，是一个可学习的参数， />表示线性神经网络，/>为初始化的视觉状态，表示观看起始点。

不同于常见策略简单地将初始状态设置为零向量或随机向量，本发明提出一种考虑扫视路径起点的实用策略，动机来自最近的研究揭示了全景图像观看的起始点对用户扫视路径有重要影响。本发明的模型更好地专注于使用正确的“启动器”而不是从随机的初始状态开始学习视觉状态的动态，在训练阶段，直接使用观看起始点来初始化/>。

此种配置的优势是：本发明可以灵活地指定一个特定的起点用于扫视路径生成，在一些视觉任务中（例如全景图像质量评估）是至关重要的。值得注意的是，为了公平地将本发明模型与其他扫视路径预测模型进行比较，在模型评估中，本发明实施例从覆盖整个经度和20%纬度的赤道偏置图中随机抽取起始点。

具体的，根据场景语义特征及历史视觉状态，通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤：

S201、设置历史视觉状态作为视觉工作记忆的函数，采用转移函数/>控制当前时刻的视觉状态和历史视觉状态的转换；

S202、利用S-CNN（用于时序动作定位的多阶段 3D 卷积网络）提取当前场景下的场景语义特征，利用CoordConv策略使得卷积访问输入图像的坐标，给定图像的坐标给定场景语义特征和历史视觉状态/>，利用场景语义特征和历史视觉状态生成高斯函数，利用转移函数从注视分布的高斯函数中采集视觉状态样本。

上述方案中，注视分布的高斯函数表达式为：

；

其中，表示采样操作，/>表示描述视觉状态/>的注视分布的高斯函数均值，/>表示描述视觉状态/>的注视分布的高斯函数方差，/>，/>表示实数/>的/>阶矩阵；

具体的，高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤：

S2021、利用历史视觉状态和场景语义特征计算新的潜在视觉状态的注视分布；

新的潜在视觉状态的注视分布表达式为：

；

其中，表示连接操作，/>表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习权重参数，/>，/>表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习偏置参数，/>；

S2022、利用Sigmoid函数计算出历史视觉状态自适应的不确定性权重，进而自适应地得出前一个视觉状态的被更新分量，不确定性权重的表达式为：

；

其中，表示由历史视觉状态/>确定的不确定性权重，/>表示Sigmoid 函数，/>表示更新视觉状态时所采用线性神经网络中可学习的权重参数， />，/>表示实数的/>阶方阵，/>表示更新视觉状态时所采用线性神经网络中可学习的偏置参数，/>；

S2023、利用历史视觉状态、历史视觉状态自适应的不确定性权重和新的潜在视觉状态的注视分布得出注视分布的高斯函数均值；其中，注视分布的高斯函数均值的表达式为：

；

其中，表示注视分布的高斯函数均值；

利用新的潜在视觉状态的注视分布得出注视分布的高斯函数方差，其中，注视分布的高斯函数方差表达式为：

；

其中，注视分布的高斯函数方差，/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的权重参数，/>，/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的偏置参数，/>。

具体的，从三维高斯坐标中根据三维高斯密度采集注视点样本的步骤中，对应存在如下关系式：

；

其中，表示三维高斯密度，/>表示三维高斯密度函数的分布均值，/>表示三维高斯密度函数的分布方差，/>表示当前时刻的视觉状态的注视点。

上述方案中，利用当前时刻的视觉状态计算得出三维高斯密度函数的分布均值和分布方差，三维高斯密度函数的分布均值表达式为；

；

其中，表示计算三维高斯密度函数的分布均值时所采用线性神经网络中可学习的权重参数， />，/>表示实数/>的/>阶矩阵，/>表示计算三维高斯密度函数的分布均值时所采用线性神经网络中可学习的偏置参数， />，/>表示实数/>的/>阶矩阵；

三维高斯密度函数的分布方差表达式为：

：

其中，表示三维高斯密度函数的分布方差，/>表示计算三维高斯密度函数的分布方差时所采用线性神经网络中可学习的权重参数，/>，/>表示计算三维高斯密度函数的分布方差时所采用线性神经网络中可学习的偏置参数，/>。

步骤4、获取过去和未来真实观察的信息，所述过去和未来真实观察的信息为扫视路径任务中的用户真实注视点，将用户真实注视点利用变分推理推导出条件分布族，将预测不同视觉状态的注视点形成潜在视觉状态的后验分布，采用条件分布族来近似潜在视觉状态的后验分布，推理出潜在视觉状态的后验分布的近似值，利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径；

具体的，推理出潜在视觉状态的后验分布的近似值的步骤中，存在如下关系式：

；

其中，表示条件分布族，/>表示可变长度序列，/>表示通过将可变长度的观测序列/>映射到其/>维空间计算得到的变分参数， />，/>表示实数/>的/>阶矩阵，/>表示可变长度的观测序列/>和历史视觉状态/>的近似视觉状态/>的分布，/>表示视觉状态潜在注视分布的高斯函数，/>表示视觉状态潜在注视分布的高斯密度函数的均值，/>表示视觉状态潜在注视分布的高斯密度函数的方差，/>表示受限制符号。

上述方案中，计算视觉状态潜在注视分布的高斯密度函数的均值和方差的具体方法包括如下步骤：

S401、先得出变分参数和历史视觉状态的联合特征，其中，联合特征的表达式为：

；

其中，表示历史视觉状态/>和RNN隐藏状态的变分参数/>的联合特征，/>表示计算联合特征所采用线性神经网络中可学习的权重参数，其中/>，/>表示实数/>的/>阶矩阵，/>表示计算联合特征所采用线性神经网络中可学习的偏置参数，；

S402、利用联合特征计算得出视觉状态潜在注视分布的高斯密度函数的均值和方差，联合特征/>和视觉状态潜在注视分布的高斯密度函数的均值的关系式为：

；

其中，表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的权重参数， />，/>表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的偏置参数， />；

联合特征和视觉状态潜在注视分布的高斯密度函数的方差的关系式为：

：

其中，表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的权重参数，/>，/>表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的偏置参数，/>。

与现有技术相比，本发明的有益效果为：

本发明通过指定这些状态如何在场景语义和视觉工作记忆的指导下演变，来学习对时间相关的注意力进行编码的视觉状态；

本发明通过维护和更新马尔可夫链中的视觉状态来模拟视觉工作记忆的机制；

本发明构建了语义引导的转移函数来学习状态的非线性动力，以模拟场景语义对视觉工作记忆的干预；

本发明提出了一种初始化视觉状态的实用策略，有助于模型专注于学习具有正确“启动器”的状态动态建模，以及使该模型能够为扫视路径生成分配一个特定的起点，可以灵活地指定一个特定的起点用于扫视路径生成；

本发明方法能够在一秒内生成1000个可变长度的扫视路径，这对于实际应用至关重要。

应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，所述方法包括如下步骤：

步骤1、利用选择的观看起始点对视觉状态进行初始化；

步骤4、获取过去和未来真实观察的信息，所述过去和未来真实观察的信息为扫视路径任务中的用户真实注视点，将用户真实注视点利用变分推理推导出条件分布族；

将预测不同视觉状态的注视点形成潜在视觉状态的后验分布，采用条件分布族来近似潜在视觉状态的后验分布，推理出潜在视觉状态的后验分布的近似值，利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径；

2.根据权利要求1所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，在所述步骤1中，利用选择的观看起始点对视觉状态进行初始化存在如下关系式：

；

其中，是一个可学习的参数，/>表示线性神经网络，/>为初始化的视觉状态，/>表示观看起始点。

3.根据权利要求2所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，在所述步骤2中，根据场景语义特征及历史视觉状态，通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤：

S202、利用用于时序动作定位的多阶段3D卷积网络提取当前场景下的场景语义特征，使得卷积访问输入图像的坐标，给定图像的坐标给定场景语义特征和历史视觉状态/>，利用场景语义特征和历史视觉状态生成高斯函数，利用转移函数从注视分布的高斯函数中采集视觉状态样本。

4.根据权利要求3所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，注视分布的高斯函数表达式为：

；

其中，表示采样操作，/>表示描述视觉状态/>的注视分布的高斯函数均值，/>表示描述视觉状态/>的注视分布的高斯函数方差，/>，/>表示实数/>的/>阶矩阵。

5.根据权利要求4所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤：

新的潜在视觉状态的注视分布表达式为：

；

其中，表示由历史视觉状态/>确定的不确定性权重，/>表示Sigmoid 函数，/>表示更新视觉状态时所采用线性神经网络中可学习的权重参数， />，/>表示实数/>的/>阶方阵，/>表示更新视觉状态时所采用线性神经网络中可学习的偏置参数，/>；

；

其中，表示注视分布的高斯函数均值；

；

其中，表示注视分布的高斯函数方差，/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的权重参数，/>，/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的偏置参数，/>。

6.根据权利要求5所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，所述步骤3中，从三维高斯坐标中根据三维高斯密度采集注视点样本的步骤中，对应存在如下关系式：

；

7.根据权利要求6所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，三维高斯密度函数的分布均值和分布方差由视觉状态，三维高斯密度函数的分布均值表达式为；

；

三维高斯密度函数的分布方差表达式为：

：

8.根据权利要求7所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，在所述步骤4中，推理出潜在视觉状态的后验分布的近似值的步骤中，存在如下关系式：

；

其中，表示条件分布族，/>表示可变长度序列，/>表示通过将可变长度的观测序列/>映射到其/>维空间计算得到的变分参数， />，/>表示实数/>的阶矩阵，/>表示可变长度的观测序列/>和历史视觉状态/>的近似视觉状态/>的分布，/>表示视觉状态潜在注视分布的高斯函数，/>表示视觉状态潜在注视分布的高斯密度函数的均值，/>表示视觉状态潜在注视分布的高斯密度函数的方差，表示受限制符号。

9.根据权利要求8所述的基于深度马尔可夫模型的全景图像扫视路径预测方法，其特征在于，计算视觉状态潜在注视分布的高斯密度函数的均值和方差的方法包括：

；

其中，表示历史视觉状态/>和RNN隐藏状态的变分参数/>的联合特征，/>表示计算联合特征所采用线性神经网络中可学习的权重参数，其中/>，/>表示实数/>的/>阶矩阵，/>表示计算联合特征所采用线性神经网络中可学习的偏置参数，/>；

；

其中，表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的权重参数， />，/>表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的偏置参数，/>；

：

其中，表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的权重参数，/>，/>表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的偏置参数/>。