CN116343012B - 基于深度马尔可夫模型的全景图像扫视路径预测方法 - Google Patents
基于深度马尔可夫模型的全景图像扫视路径预测方法 Download PDFInfo
- Publication number
- CN116343012B CN116343012B CN202310611763.9A CN202310611763A CN116343012B CN 116343012 B CN116343012 B CN 116343012B CN 202310611763 A CN202310611763 A CN 202310611763A CN 116343012 B CN116343012 B CN 116343012B
- Authority
- CN
- China
- Prior art keywords
- visual
- representing
- distribution
- function
- gaze
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000000007 visual effect Effects 0.000 claims abstract description 144
- 238000012546 transfer Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 4
- 238000005070 sampling Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 108
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 230000003936 working memory Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004091 panning Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000007858 starting material Substances 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003945 visual behavior Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
- G06V10/85—Markov-related models; Markov random fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,利用选择的观看起始点对视觉状态进行初始化;根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;并从三维高斯坐标中根据三维高斯密度采集注视点样本,通过从参数化的三维高斯密度中采样来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,预测当前时刻的注视点,扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理潜在视觉状态的后验分布,预测全景图像的扫视路径,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。本发明提出一种初始化视觉状态的策略,可以灵活地指定一个特定的起点用于扫视路径生成。
Description
技术领域
本发明涉及机遗传算法领域,特别涉及一种基于深度马尔可夫模型的全景图像扫视路径预测方法。
背景技术
当前的全景图像扫视路径预测方法可以大致分为两类:基于显著性的方法和基于生成模型的方法。前者的基本思想是从显着图中采样预测的注视点。这种方法的性能高度依赖于显着图的性能。此外,构建一个令人满意的采样策略来解释时间相关的视觉行为是非常重要的。后一组方法利用生成模型,例如生成对抗网络(Generative AdversarialNetwork,GAN),来预测真实的扫视路径。然而,此类方法生成的扫视路径表现出对感兴趣区域的关注较少。此外,基于GAN的方法在确定扫视路径的长度方面不太灵活,并且通常会受到不稳定训练的影响。
上述研究均未完整处理观看行为的时间依赖性,而时间依赖性对于全景图像中的动态注视行为建模至关重要。对于时间序列数据,一种流行的方法是利用顺序模型,例如循环神经网络(Recurrent Neural Networks,RNN)。然而,这种确定性模型容易过度拟合,尤其是在小型全景图像数据库上。更重要的是,这类方法通常会做出简单化的假设,例如,一种选择是将显著性图连接到模型的隐藏状态,它假设网络通过从显著图中学习状态如何演变。然而,神经科学研究表明,除了自上而下和自下而上的特征外,记忆先验和场景语义是引导视觉注意力的重要来源。此外,要被识别为兴趣或被拒绝为干扰因素,目标必须与记忆中保存的目标模板进行比较。
发明内容
鉴于上述状况,本发明的主要目的是为了提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,以解决上述技术问题。
本发明实施例提供了一种基于深度马尔可夫模型的全景图像扫视路径预测方法,所述方法包括如下步骤:
步骤1、利用选择的观看起始点对视觉状态进行初始化;
步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;
步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标,从三维高斯坐标中根据三维高斯密度采集注视点样本;
从起点视觉状态开始,利用注视点样本来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,利用发射函数预测不同视觉状态下当前时刻的注视点;
步骤4、获取过去和未来真实观察的信息,过去和未来真实观察的信息即扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理推导出条件分布族,将预测不同视觉状态的注视点形成潜在视觉状态的后验分布,采用条件分布族来近似潜在视觉状态的后验分布,推理出潜在视觉状态的后验分布的近似值,利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径;
步骤5、重复步骤2至步骤4,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。
本发明提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,采用起点的状态初始化策略,有助于模型专注于学习具有正确“启动器”的状态动态建模,使该模型能够为扫视路径生成分配一个特定的起点,能够通过正确的“发射器”学习动力学。
本发明的附加方面与优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1为本发明提出的基于深度马尔可夫模型的全景图像扫视路径预测方法的流程图;
图2为本发明提出的基于深度马尔可夫模型的全景图像扫视路径预测方法的算法流程图;
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
请参阅图1和图2,其中图1为本发明流程图,图2为本发明算法流程图,从图2中可以得知的是,本发明预先将视觉状态初始化,然后得出发射函数和转移函数,通过迭代发射函数和转移函数预测扫视路径。
本发明提出一种基于深度马尔可夫模型的全景图像扫视路径预测方法,其中,所述方法包括如下步骤:
步骤1、利用选择的观看起始点对视觉状态进行初始化;
利用选择的观看起始点对视觉状态进行初始化存在如下关系式:
;
其中,是一个可学习的参数, />表示线性神经网络,/>为初始化的视觉状态,表示观看起始点。
不同于常见策略简单地将初始状态设置为零向量或随机向量,本发明提出一种考虑扫视路径起点的实用策略,动机来自最近的研究揭示了全景图像观看的起始点对用户扫视路径有重要影响。本发明的模型更好地专注于使用正确的“启动器”而不是从随机的初始状态开始学习视觉状态的动态,在训练阶段,直接使用观看起始点来初始化/>。
此种配置的优势是:本发明可以灵活地指定一个特定的起点用于扫视路径生成,在一些视觉任务中(例如全景图像质量评估)是至关重要的。值得注意的是,为了公平地将本发明模型与其他扫视路径预测模型进行比较,在模型评估中,本发明实施例从覆盖整个经度和20%纬度的赤道偏置图中随机抽取起始点。
步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;
具体的,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤:
S201、设置历史视觉状态作为视觉工作记忆的函数,采用转移函数/>控制当前时刻的视觉状态和历史视觉状态的转换;
S202、利用S-CNN(用于时序动作定位的多阶段 3D 卷积网络)提取当前场景下的场景语义特征,利用CoordConv策略使得卷积访问输入图像的坐标,给定图像的坐标给定场景语义特征和历史视觉状态/>,利用场景语义特征和历史视觉状态生成高斯函数,利用转移函数从注视分布的高斯函数中采集视觉状态样本。
上述方案中,注视分布的高斯函数表达式为:
;
其中,表示采样操作,/>表示描述视觉状态/>的注视分布的高斯函数均值,/>表示描述视觉状态/>的注视分布的高斯函数方差,/>,/>表示实数/>的/>阶矩阵;
具体的,高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤:
S2021、利用历史视觉状态和场景语义特征计算新的潜在视觉状态的注视分布;
新的潜在视觉状态的注视分布表达式为:
;
其中,表示连接操作,/>表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习权重参数,/>,/>表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习偏置参数,/>;
S2022、利用Sigmoid函数计算出历史视觉状态自适应的不确定性权重,进而自适应地得出前一个视觉状态的被更新分量,不确定性权重的表达式为:
;
其中,表示由历史视觉状态/>确定的不确定性权重,/>表示Sigmoid 函数,/>表示更新视觉状态时所采用线性神经网络中可学习的权重参数, />,/>表示实数的/>阶方阵,/>表示更新视觉状态时所采用线性神经网络中可学习的偏置参数,/>;
S2023、利用历史视觉状态、历史视觉状态自适应的不确定性权重和新的潜在视觉状态的注视分布得出注视分布的高斯函数均值;其中,注视分布的高斯函数均值的表达式为:
;
其中,表示注视分布的高斯函数均值;
利用新的潜在视觉状态的注视分布得出注视分布的高斯函数方差,其中,注视分布的高斯函数方差表达式为:
;
其中,注视分布的高斯函数方差,/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的权重参数,/>,/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的偏置参数,/>。
步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标,从三维高斯坐标中根据三维高斯密度采集注视点样本;
从起点视觉状态开始,利用注视点样本来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,利用发射函数预测不同视觉状态下当前时刻的注视点;
具体的,从三维高斯坐标中根据三维高斯密度采集注视点样本的步骤中,对应存在如下关系式:
;
其中,表示三维高斯密度,/>表示三维高斯密度函数的分布均值,/>表示三维高斯密度函数的分布方差,/>表示当前时刻的视觉状态的注视点。
上述方案中,利用当前时刻的视觉状态计算得出三维高斯密度函数的分布均值和分布方差,三维高斯密度函数的分布均值表达式为;
;
其中,表示计算三维高斯密度函数的分布均值时所采用线性神经网络中可学习的权重参数, />,/>表示实数/>的/>阶矩阵,/>表示计算三维高斯密度函数的分布均值时所采用线性神经网络中可学习的偏置参数, />,/>表示实数/>的/>阶矩阵;
三维高斯密度函数的分布方差表达式为:
:
其中,表示三维高斯密度函数的分布方差,/>表示计算三维高斯密度函数的分布方差时所采用线性神经网络中可学习的权重参数,/>,/>表示计算三维高斯密度函数的分布方差时所采用线性神经网络中可学习的偏置参数,/>。
步骤4、获取过去和未来真实观察的信息,所述过去和未来真实观察的信息为扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理推导出条件分布族,将预测不同视觉状态的注视点形成潜在视觉状态的后验分布,采用条件分布族来近似潜在视觉状态的后验分布,推理出潜在视觉状态的后验分布的近似值,利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径;
具体的,推理出潜在视觉状态的后验分布的近似值的步骤中,存在如下关系式:
;
;
其中,表示条件分布族,/>表示可变长度序列,/>表示通过将可变长度的观测序列/>映射到其/>维空间计算得到的变分参数, />,/>表示实数/>的/>阶矩阵,/>表示可变长度的观测序列/>和历史视觉状态/>的近似视觉状态/>的分布,/>表示视觉状态潜在注视分布的高斯函数,/>表示视觉状态潜在注视分布的高斯密度函数的均值,/>表示视觉状态潜在注视分布的高斯密度函数的方差,/>表示受限制符号。
上述方案中,计算视觉状态潜在注视分布的高斯密度函数的均值和方差的具体方法包括如下步骤:
S401、先得出变分参数和历史视觉状态的联合特征,其中,联合特征的表达式为:
;
其中,表示历史视觉状态/>和RNN隐藏状态的变分参数/>的联合特征,/>表示计算联合特征所采用线性神经网络中可学习的权重参数,其中/>,/>表示实数/>的/>阶矩阵,/>表示计算联合特征所采用线性神经网络中可学习的偏置参数,;
S402、利用联合特征计算得出视觉状态潜在注视分布的高斯密度函数的均值和方差,联合特征/>和视觉状态潜在注视分布的高斯密度函数的均值的关系式为:
;
其中,表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的权重参数, />,/>表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的偏置参数, />;
联合特征和视觉状态潜在注视分布的高斯密度函数的方差的关系式为:
:
其中,表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的权重参数,/>,/>表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的偏置参数,/>。
与现有技术相比,本发明的有益效果为:
本发明通过指定这些状态如何在场景语义和视觉工作记忆的指导下演变,来学习对时间相关的注意力进行编码的视觉状态;
本发明通过维护和更新马尔可夫链中的视觉状态来模拟视觉工作记忆的机制;
本发明构建了语义引导的转移函数来学习状态的非线性动力,以模拟场景语义对视觉工作记忆的干预;
本发明提出了一种初始化视觉状态的实用策略,有助于模型专注于学习具有正确“启动器”的状态动态建模,以及使该模型能够为扫视路径生成分配一个特定的起点,可以灵活地指定一个特定的起点用于扫视路径生成;
本发明方法能够在一秒内生成1000个可变长度的扫视路径,这对于实际应用至关重要。
应当理解的,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,所述方法包括如下步骤:
步骤1、利用选择的观看起始点对视觉状态进行初始化;
步骤2、获取场景语义特征和历史视觉状态,利用转移函数控制当前时刻的视觉状态和历史视觉状态的转换,以历史视觉状态作为转移函数中视觉工作记忆的函数,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征;
步骤3、将当前时刻的视觉状态所对应的注视点参数化成三维高斯坐标,从三维高斯坐标中根据三维高斯密度采集注视点样本;
从起点视觉状态开始,利用注视点样本来模拟发射过程,构建不同视觉状态下描述注视点的发射函数,利用发射函数预测不同视觉状态下当前时刻的注视点;
步骤4、获取过去和未来真实观察的信息,所述过去和未来真实观察的信息为扫视路径任务中的用户真实注视点,将用户真实注视点利用变分推理推导出条件分布族;
将预测不同视觉状态的注视点形成潜在视觉状态的后验分布,采用条件分布族来近似潜在视觉状态的后验分布,推理出潜在视觉状态的后验分布的近似值,利用当前时刻的视觉状态和当前时刻的注视点预测全景图像的扫视路径;
步骤5、重复步骤2至步骤4,通过不断迭代转移函数和发射函数,直至获得并生成所需长度的预测扫视路径。
2.根据权利要求1所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于, 在所述步骤1中,利用选择的观看起始点对视觉状态进行初始化存在如下关系式:
;
其中,是一个可学习的参数,/>表示线性神经网络,/>为初始化的视觉状态,/>表示观看起始点。
3.根据权利要求2所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,在所述步骤2中,根据场景语义特征及历史视觉状态,通过转移函数获得当前时刻的视觉状态表征的方法具体包括如下步骤:
S201、设置历史视觉状态作为视觉工作记忆的函数,采用转移函数/>控制当前时刻的视觉状态和历史视觉状态的转换;
S202、利用用于时序动作定位的多阶段3D卷积网络提取当前场景下的场景语义特征,使得卷积访问输入图像的坐标,给定图像的坐标给定场景语义特征和历史视觉状态/>,利用场景语义特征和历史视觉状态生成高斯函数,利用转移函数从注视分布的高斯函数中采集视觉状态样本。
4.根据权利要求3所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,注视分布的高斯函数表达式为:
;
其中,表示采样操作,/>表示描述视觉状态/>的注视分布的高斯函数均值,/>表示描述视觉状态/>的注视分布的高斯函数方差,/>,/>表示实数/>的/>阶矩阵。
5.根据权利要求4所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,高斯函数中注视分布的高斯函数均值和高斯函数方差的计算方法包括如下步骤:
S2021、利用历史视觉状态和场景语义特征计算新的潜在视觉状态的注视分布;
新的潜在视觉状态的注视分布表达式为:
;
其中,表示连接操作,/>表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习权重参数,/>,/>表示计算潜在视觉状态的注视分布时所采用线性神经网络中的可学习偏置参数,/>;
S2022、利用Sigmoid函数计算出历史视觉状态自适应的不确定性权重,进而自适应地得出前一个视觉状态的被更新分量,不确定性权重的表达式为:
;
其中,表示由历史视觉状态/>确定的不确定性权重,/>表示Sigmoid 函数,/>表示更新视觉状态时所采用线性神经网络中可学习的权重参数, />,/>表示实数/>的/>阶方阵,/>表示更新视觉状态时所采用线性神经网络中可学习的偏置参数,/>;
S2023、利用历史视觉状态、历史视觉状态自适应的不确定性权重和新的潜在视觉状态的注视分布得出注视分布的高斯函数均值;其中,注视分布的高斯函数均值的表达式为:
;
其中,表示注视分布的高斯函数均值;
利用新的潜在视觉状态的注视分布得出注视分布的高斯函数方差,其中,注视分布的高斯函数方差表达式为:
;
其中,表示注视分布的高斯函数方差,/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的权重参数,/>,/>表示计算转移函数中高斯参数所采用的线性神经网络中可学习的偏置参数,/>。
6.根据权利要求5所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,所述步骤3中,从三维高斯坐标中根据三维高斯密度采集注视点样本的步骤中,对应存在如下关系式:
;
其中,表示三维高斯密度,/>表示三维高斯密度函数的分布均值,/>表示三维高斯密度函数的分布方差,/>表示当前时刻的视觉状态的注视点。
7.根据权利要求6所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,三维高斯密度函数的分布均值和分布方差由视觉状态,三维高斯密度函数的分布均值表达式为;
;
其中,表示计算三维高斯密度函数的分布均值时所采用线性神经网络中可学习的权重参数, />,/>表示实数/>的/>阶矩阵,/>表示计算三维高斯密度函数的分布均值时所采用线性神经网络中可学习的偏置参数, />,/>表示实数/>的/>阶矩阵;
三维高斯密度函数的分布方差表达式为:
:
其中,表示三维高斯密度函数的分布方差,/>表示计算三维高斯密度函数的分布方差时所采用线性神经网络中可学习的权重参数,/>,/>表示计算三维高斯密度函数的分布方差时所采用线性神经网络中可学习的偏置参数,/>。
8.根据权利要求7所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,在所述步骤4中,推理出潜在视觉状态的后验分布的近似值的步骤中,存在如下关系式:
;
;
其中,表示条件分布族,/>表示可变长度序列,/>表示通过将可变长度的观测序列/>映射到其/>维空间计算得到的变分参数, />,/>表示实数/>的阶矩阵,/>表示可变长度的观测序列/>和历史视觉状态/>的近似视觉状态/>的分布,/>表示视觉状态潜在注视分布的高斯函数,/>表示视觉状态潜在注视分布的高斯密度函数的均值,/>表示视觉状态潜在注视分布的高斯密度函数的方差,表示受限制符号。
9.根据权利要求8所述的基于深度马尔可夫模型的全景图像扫视路径预测方法,其特征在于,计算视觉状态潜在注视分布的高斯密度函数的均值和方差的方法包括:
S401、先得出变分参数和历史视觉状态的联合特征,其中,联合特征的表达式为:
;
其中,表示历史视觉状态/>和RNN隐藏状态的变分参数/>的联合特征,/>表示计算联合特征所采用线性神经网络中可学习的权重参数,其中/>,/>表示实数/>的/>阶矩阵,/>表示计算联合特征所采用线性神经网络中可学习的偏置参数,/>;
S402、利用联合特征计算得出视觉状态潜在注视分布的高斯密度函数的均值和方差,联合特征/>和视觉状态潜在注视分布的高斯密度函数的均值的关系式为:
;
其中,表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的权重参数, />,/>表示计算视觉状态潜在注视分布的高斯密度函数的均值所采用线性神经网络中可学习的偏置参数,/>;
联合特征和视觉状态潜在注视分布的高斯密度函数的方差的关系式为:
:
其中,表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的权重参数,/>,/>表示计算视觉状态潜在注视分布的高斯密度函数的方差所采用线性神经网络中可学习的偏置参数/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310611763.9A CN116343012B (zh) | 2023-05-29 | 2023-05-29 | 基于深度马尔可夫模型的全景图像扫视路径预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310611763.9A CN116343012B (zh) | 2023-05-29 | 2023-05-29 | 基于深度马尔可夫模型的全景图像扫视路径预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116343012A CN116343012A (zh) | 2023-06-27 |
CN116343012B true CN116343012B (zh) | 2023-07-21 |
Family
ID=86893359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310611763.9A Active CN116343012B (zh) | 2023-05-29 | 2023-05-29 | 基于深度马尔可夫模型的全景图像扫视路径预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343012B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843684B (zh) * | 2023-08-30 | 2023-11-14 | 江西财经大学 | 一种基于动态视觉内容的端到端的全景图像质量评价方法 |
CN117876430B (zh) * | 2024-03-13 | 2024-06-18 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种全景图像及视频中的扫视路径预测方法、设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008111080A1 (en) * | 2007-03-15 | 2008-09-18 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for forming a panoramic image of a scene having minimal aspect distortion |
CN102231806A (zh) * | 2011-06-13 | 2011-11-02 | 山东大学 | 基于视频的双参数管道内壁全景图像模型与生成方法 |
CN113313123A (zh) * | 2021-06-11 | 2021-08-27 | 西北工业大学 | 一种基于语义推断的扫视路径预测方法 |
-
2023
- 2023-05-29 CN CN202310611763.9A patent/CN116343012B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008111080A1 (en) * | 2007-03-15 | 2008-09-18 | Yissum Research Development Company Of The Hebrew University Of Jerusalem | Method and system for forming a panoramic image of a scene having minimal aspect distortion |
CN102231806A (zh) * | 2011-06-13 | 2011-11-02 | 山东大学 | 基于视频的双参数管道内壁全景图像模型与生成方法 |
CN113313123A (zh) * | 2021-06-11 | 2021-08-27 | 西北工业大学 | 一种基于语义推断的扫视路径预测方法 |
Non-Patent Citations (2)
Title |
---|
基于中央凹图像显著性和扫视倾向的注视点转移预测模型;王宜修;吴晓峰;王斌;;复旦学报(自然科学版)(04);全文 * |
自主导航农业车辆的全景视觉多运动目标识别跟踪;李盛辉;田光兆;姬长英;周俊;顾宝兴;王海青;;农业机械学报(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116343012A (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Learning particle dynamics for manipulating rigid bodies, deformable objects, and fluids | |
CN116343012B (zh) | 基于深度马尔可夫模型的全景图像扫视路径预测方法 | |
US11842261B2 (en) | Deep reinforcement learning with fast updating recurrent neural networks and slow updating recurrent neural networks | |
CN110383299B (zh) | 记忆增强的生成时间模型 | |
WO2019155065A1 (en) | Neural network systems implementing conditional neural processes for efficient learning | |
Chen et al. | DynaNet: Neural Kalman dynamical model for motion estimation and prediction | |
CN110730970B (zh) | 优化策略控制器的方法和系统 | |
US11537901B2 (en) | System and method for unsupervised domain adaptation with mixup training | |
CN110766038B (zh) | 无监督式的地貌分类模型训练和地貌图构建方法 | |
CN112488104A (zh) | 深度及置信度估计系统 | |
CN112084836A (zh) | 机器学习系统 | |
CN114332578A (zh) | 图像异常检测模型训练方法、图像异常检测方法和装置 | |
EP3864581A1 (en) | Controlling agents over long time scales using temporal value transport | |
CN111914949B (zh) | 基于强化学习的零样本学习模型的训练方法及装置 | |
WO2021171768A1 (ja) | 情報処理装置及び情報処理方法、コンピュータプログラム、並びに観測装置 | |
Fotiadis et al. | Disentangled generative models for robust prediction of system dynamics | |
CN115359508A (zh) | 通过专家的神经元优化以提高的效率执行复杂优化任务 | |
CN115240843A (zh) | 基于结构因果模型的公平性预测系统 | |
WO2021171384A1 (ja) | クラスタリング装置、クラスタリング方法、および、クラスタリングプログラム | |
JP2024500459A (ja) | マルチ・レベル多目的自動機械学習 | |
EP4278301A1 (en) | An apparatus and method for training a parametric policy | |
Ferret | On actions that matter: Credit assignment and interpretability in reinforcement learning | |
Li | Learning compositional dynamics models for model-based control | |
CN116608866B (zh) | 基于多尺度细粒度特征融合的图片导航方法、装置及介质 | |
Balasubramanian et al. | ExAgt: Expert-guided augmentation for representation learning of traffic scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |