CN117876430A - 一种全景图像及视频中的扫视路径预测方法、设备及介质 - Google Patents
一种全景图像及视频中的扫视路径预测方法、设备及介质 Download PDFInfo
- Publication number
- CN117876430A CN117876430A CN202410281592.2A CN202410281592A CN117876430A CN 117876430 A CN117876430 A CN 117876430A CN 202410281592 A CN202410281592 A CN 202410281592A CN 117876430 A CN117876430 A CN 117876430A
- Authority
- CN
- China
- Prior art keywords
- path
- coordinates
- sequence
- view port
- glance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000005070 sampling Methods 0.000 claims abstract description 32
- 239000000203 mixture Substances 0.000 claims abstract description 20
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 230000001133 acceleration Effects 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 21
- 238000004091 panning Methods 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 17
- 230000000007 visual effect Effects 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 230000001364 causal effect Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 description 18
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种全景图像及视频中的扫视路径预测方法、设备及介质,涉及扫视路径预测技术领域,方法包括:获取历史扫视路径下的全景图像及视频;采用图像转化方法,将全景图像及视频转为视口序列;将注视位置序列投影到与每一注视位置对应的视口中,得到每一视口中历史路径的相对坐标;将视口序列、每一视口的相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径;本发明将视口序列、每一视口的历史路径相对坐标序列以及自回归路径先验坐标输入至高斯混合模型,实现对下一时刻扫视路径的预测,提高了扫视路径预测的准确性。
Description
技术领域
本发明涉及扫视路径预测技术领域,特别是涉及一种全景图像及视频中的扫视路径预测方法、设备及介质。
背景技术
扫视路径是人们观看全景图像及视频时通过头动和眼动形成的关注点序列。通过对多个用户的全景图像及视频扫视路径进行采样,即可生成对应图像的视觉显著性图(Visual Saliency Map)。但是,与显著性图相比,扫视路径能够更好地描述用户观看图片时的动态模式和时序信息。扫视路径模型的目标不是生成单一的预测扫视路径,而是模拟用户在观看全景图像的行为。作为一种更全面的用户注意力机制描述方法,扫视路径计算建模是计算视觉领域长期以来的研究难点。
全景图像方面,Assens 等人训练了基于深度神经网络(Deep Neural Networks)的全景图像扫视路径模型,该模型仅简单地拓展了传统图像显著区域检测方法,通过在显著区域采样的方式生成扫视路径。上海交通大学地 Zhu 等人通过对显著区域进行聚类,利用贪心算法连接相邻视觉显著点从而生成扫视路径,然而该方法不能对扫视路径进行概率建模。Assens 等人延续之前地工作使用生成对抗网络(Generative AdversarialNetworks, GANs)对全景图像扫视路径进行隐式概率建模,生成了更真实扫视路径。以上方法将全景图像的等距长方形投影格式当作传统 2D 图像进行处理,忽略了全景图像的球面特性及投影过程中带来的物体形变失真,从而准确性较低。
在全景视频方面,Li 等人提出使用用户的历史信息和其他用户的未来信息来预测用户视场的轨迹。Nguyen 等人将平面视频的显著性检测模型扩展到全景视频领域,并借助全景视频的显著性图来预测用户的扫视轨迹。北航的 Xu 等人提出了全景视频扫视路径的在线预测方法,通过对所要学习的某个用户的部分扫视路径进行拟合,达到预测单个用户扫视路径的目的。该方法因扫视路径数据不足,存在模型过拟合的风险。全景视频自动剪辑算法也将扫视路径预测作为核心算法进行研究。Su 等人通过计算 2D 剪辑视频的“值得观看值”,结合基于学习的视口内容表征,用以全景视频扫视路径预测。该方法仅能预测短时间内的扫视路径,缺乏实际意义。Hu 等人提出了基于目标检测与强化学习的针对特定运动场景的全景视频扫视路径预测模型。该方法对目标检测算法的精度要求较高同时在应用场景上存在一定的局限性。Kang 等人结合全景视频关键帧的视觉显著性和扫视路径的光滑性,提出了一种全景视频扫视路径模型。然而,视觉显著区域并不等同于用户感兴趣的区域,因此该方法不能真实地反映扫视路径的多样性。
发明内容
本发明的目的是提供一种全景图像及视频中的扫视路径预测方法、设备及介质,可以提高预测生成路径的准确性。
为实现上述目的,本发明提供了如下方案:
第一方面,本发明提供了一种全景图像及视频中的扫视路径预测方法,包括:
获取历史扫视路径下的全景图像及视频;所述历史扫视路径为观看全景图像及视频时的注视位置序列;所述注视位置序列包括多个扫视点;所述扫视点以球坐标形式保存。
采用图像转化方法,将所述全景图像及视频转为视口序列;所述视口序列包括多个视口;每一所述视口为任一时刻从任一注视位置观看所述全景图像及视频时对应显示的图形区域。
将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标。
将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,得到下一时刻扫视点的概率分布,并使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标;所述自回归路径先验坐标为基于当前时刻扫视路径中模型预测得到的下一时刻的扫视点坐标投影到当前时刻注视位置对应的视口所得到的平面坐标,所述自回归路径先验坐标作为补充信息用于估计下一时刻之后的扫视路径。
可选的,所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标,具体包括:
获取观察者物理模型的状态变量和观测变量;所述状态变量包括初始位置、初始速度和加速度;所述观测变量为任意时刻预测的扫视点;所述扫视点是根据上一时刻预测的扫视点以及当前时刻观察者的速度、加速度以及采样间隔确定的。
对于每一时刻预测的扫视点,将所述观察者的加速度作为变量,使用批量梯度下降优化器对所述加速度进行优化;具体为:根据当前时刻扫视点对应的概率分布中随机采样多个参考点,并将采样的参考点作为一组训练样本,利用各所述参考点的均方误差作为目标函数,产生对加速度的梯度,更新加速度。
根据当前轮次预测中更新后的加速度调整观察者物理模型,当各所述参考点的均方误差小于阈值时,得到当前轮次预测的扫视路径。
可选的,所述采用图像转化方法,将所述全景图像及视频转为视口序列,具体包括:
根据所述全景图像及视频,确定所述视口序列中各视口的范围和位置。
对于每一视口,基于第一罗德里格旋转公式,将所述视口的中心旋转到当前注视位置,得到旋转后的视口,并对所述旋转后的视口中的像素位置进行旋转,得到旋转后的像素位置。
将所述旋转后的像素位置映射到全景图像及视频中,得到所述全景图像及视频对应显示的图形区域。
可选的,对于每一视口,基于罗德里格旋转公式,将所述视口的中心旋转到当前视点,得到旋转后的视口,具体包括:
根据公式将所述视口的中心旋转到当前视点。
其中,q为像素位置,是合成后的旋转矩阵,为像素位置q旋转过后的坐标,分别是的xyz坐标。
可选的,将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标,具体包括:
将所述注视位置序列投影到三维坐标系中,得到所述注视位置序列中各扫视点的三维坐标表示。
基于罗德里格旋转公式,将各所述扫视点的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述注视位置序列在视口内的平面坐标。
可选的,基于罗德里格旋转公式,将所述图形区域的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述视口的历史路径相对坐标,具体包括:
根据公式,各所述扫视点的三维坐标表示进行旋转。
根据公式,将旋转后的三维坐标表示投影到x轴的一设定平面上。
根据公式,得到所述视口的历史路径相对坐标。
其中,与为视口的宽度与高度,t表示历史路径h被投影到了t时刻的视口,(,)为视口中心坐标,其中,xc,yc,zc为扫视点的三维坐标;xtc,ytc,ztc为扫视点经旋转后的三维坐标表示,r为由全景图像构成的球面图像的球半径,为将坐标投影到x=r平面上,x’tc,y’tc,z’tc为扫视点经旋转后的三维坐标表示投影到x轴的一设定平面后的三维坐标表示。
可选的,将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径,具体包括:
根据公式预测下一时刻之后的扫视路径,在视口(,)上的概率分布。
其中,为需要预测的未来注视点集合,是在预测()前已经预测完成的扫视点的集合;集合是路径点的上下文,X是历史视觉上下文,h是历史路径上下文,是自回归路径先验,()表示当前时刻是T-1时刻,T+t是从当前时刻开始,需要预测的第t+1个扫视点的球面角坐标。
可选的,所述高斯混合模型的模型训练,具体包括:
对所述视口序列进行特征提取得到第一历史视觉特征输出。
对每一所述视口的历史路径相对坐标序列进行特征提取得到第二历史路径特征输出。
对所述自回归路径先验坐标进行特征提取得到第三因果路径特征输出。
基于所述第一历史视觉特征输出、第二历史路径特征输出和第三因果路径特征输出,训练高斯混合模型;所述高斯混合模型由三个预测头组成,分别是权重预测头、均值预测头和协方差预测头。
第二方面,本发明提供了一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现第一方面所述一种全景图像及视频中的扫视路径预测方法的步骤。
第三方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现第一方面所述一种全景图像及视频中的扫视路径预测方法的步骤。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开了一种全景图像及视频中的扫视路径预测方法、设备及介质,包括:获取历史扫视路径下的全景图像及视频;历史扫视路径为观看全景图像及视频时的注视位置序列;注视位置序列以球坐标形式保存;采用图像转化方法,将全景图像及视频转为视口序列;视口序列包括多个视口;每一视口为任一时刻从任一注视位置观看全景图像及视频时对应显示的图形区域;将注视位置序列投影到与每一注视位置对应的视口中,得到每一视口的历史路径相对坐标;将视口序列、每一视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径;自回归路径先验坐标为基于当前时刻扫视路径中的注视位置投影到当前时刻注视位置对应的视口所得到的历史路径相对坐标。本发明利用罗德里格旋转公式对图形区域进行旋转,再将旋转后的三维坐标表示投影到x轴的一设定平面上,从而得到视口的历史路径相对坐标。在此基础上,将视口序列、每一视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,实现对下一时刻扫视路径的预测,能够提高扫视路径预测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种全景图像及视频中的扫视路径预测方法流程图。
图2为本发明实施例一提供的全景图像及视频球坐标示意图。
图3为本发明实施例一提供的模型训练示意图。
图4为本发明实施例一提供的历史扫描路径上下文训练示意图。
图5为本发明实施例一提供的自回归路径先验训练示意图。
图6为本发明实施例一提供的模型构建示意图。
图7为本发明实施例一提供的扫描路径预测流程图。
图8为本发明实施例提供的计算机设备的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种全景图像及视频中的扫视路径预测方法、设备及介质,可以提高预测生成路径的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,本实施例提供了一种全景图像及视频中的扫视路径预测方法,包括以下步骤101至步骤。
步骤101:获取历史扫视路径下的全景图像及视频;所述历史扫视路径为观看全景图像及视频时的注视位置序列;所述注视位置序列包括多个扫视点;所述扫视点以球坐标形式保存。
步骤102:采用图像转化方法,将所述全景图像及视频转为视口序列;所述视口序列包括多个视口;每一所述视口为任一时刻从某一注视位置观看所述全景图像及视频时对应显示的图形区域。
步骤103:将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标。
步骤104:将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,得到下一时刻扫视点的概率分布,并使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标;所述自回归路径先验坐标为基于当前时刻扫视路径中模型预测得到的下一时刻的扫视点坐标投影到当前时刻注视位置对应的视口所得到的平面坐标,所述自回归路径先验坐标作为补充信息用于估计下一时刻之后的扫视路径。
在本实施例的一些实施方式中,在执行步骤102时,具体可以如下:
步骤201:根据所述全景图像及视频,确定所述视口序列中各视口的范围和位置。
步骤202:对于每一视口,基于第一罗德里格旋转公式,将所述视口的中心旋转到当前注视位置,得到旋转后的视口,并对所述旋转后的视口中的像素位置进行旋转,得到旋转后的像素位置。
步骤203:将所述旋转后的像素位置映射到全景图像及视频中,得到所述全景图像及视频对应显示的图形区域。
具体的,使用的全景图像及视频是过去一段时间内扫视路径对应的视口,在这一步中需要将全景图像及视频转化为以扫视路径为中心的视口,下面先介绍一帧图像的转化方法。
具体来说,如图2所示,一个FoV(视场角)为的视口被定义为以切点为中心的球体的切平面,其中与为此切平面的高和宽。为了简化参数,本实施例将视口(在uv坐标中)放在以为中心的平面上,其中是球体的半径,u、v的取值范围在、内。此时,视口中的像素位置可以方便地用3D空间中的表示,其中。本实施例使用罗德里格旋转公式(Rodrigues’rotationformula)将视口的中心旋转到当前视点,公式如下:
。
具体的,采用旋转任意向量的方法,需要在三维空间中给定一个轴(由单位长度向量描述)和旋转角度ω(使用右手定则)。
其中,。
式中,cx,cy,cz表示旋转参数通过。
对于视口中的一个像素位置,将其绕z轴旋转,然后将y轴旋转同样角度,再将像素位置q绕以它作为旋转轴旋转,对这两个过程使用罗德里格旋转公式得到一个旋转公式:
。
其中的是合成后的旋转矩阵,是像素位置q旋转过后的坐标,分别是的xyz坐标。最后本实施例将投影到球坐标中:与,再将映射到ERP格式的全景视频里位置。
。
。
式中,H与W为全景视频的高与宽,在操作后得到了视口中像素位置对应的像素,对于每个位置进行这个操作即可得到一段时间对应扫视路径的每个视口,即历史视觉上下文。
在本实施例的一些实施方式中,在执行步骤103时,具体可以如下:
步骤301:将所述注视位置序列投影到三维坐标系中,得到所述注视位置序列的三维坐标表示。
步骤302:基于罗德里格旋转公式,将所述注视位置序列的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述注视位置序列在视口内的平面坐标。
其中,历史扫视路径是指用户过去在全景视频中的注视位置序列,以球坐标形式保存。
这一步中需要将球坐标上过去一段时间的历史扫描路径投影到步骤102中的每个视口中,投影球坐标到每个视口的历史路径相对坐标。
具体投影方法为步骤102中的反向操作,对于特定的像,将其投影到xyz坐标中:
。
用类似于式5中的旋转矩阵旋转,公式如下:
。
再投影到平面上,其公式如下:
。
其中,这里的角标t表示历史路径h被投影到了t时刻的视口中。接下来转换到uv坐标系中:
。
其中,Wv与Hv为视口的宽度与高度,对于每个历史扫视路径的坐标与每个时刻的视口实行投影,结果可以得到与视口数量相同的平面扫视路径坐标图,作为历史扫视路径上下文。
在本实施例的一些实施方式中,在执行步骤104时,具体可以如下:
步骤401:获取自回归路径先验坐标。
步骤402:将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径。
其中,在执行步骤401时,自回归路径先验是机器学习模型在进行一轮预测过程中新产生的路径。在训练阶段,本实施例采用真实路径点进行替代,其主要目的是为模型预测提供方向性引导。这一先验信息在预测过程中的处理方式与步骤2相似,但存在一定差异。差异主要体现在,生成的路径在一轮预测中只需映射到一个特定时刻的视口,当预测达到预设长度后,需要开展下一轮预测时,再将路径映射到下一个视口。
具体的,使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标,具体包括:
获取观察者物理模型的状态变量和观测变量;所述状态变量包括初始位置、初始速度和加速度;所述观测变量为任意时刻预测的扫视点;所述扫视点是根据上一时刻预测的扫视点以及当前时刻观察者的速度、加速度以及采样间隔确定的。
对于每一时刻预测的扫视点,将所述观察者的加速度作为变量,使用批量梯度下降优化器对所述加速度进行优化;具体为:根据当前时刻扫视点对应的概率分布中随机采样多个参考点,并将采样的参考点作为一组训练样本,利用各所述参考点的均方误差作为目标函数,产生对加速度的梯度,更新加速度。
根据当前轮次预测中更新后的各扫视点、速度与加速度,将预测的所有扫视点合并,得到当前轮次预测的扫视路径。
经过这样的处理,本实施例最终获得一张自回归路径先验坐标序列。至此,通过三个步骤,本实施例已经成功获得了模型训练和实际应用所需的三种输入。这三种输入分别是:真实路径点、自回归路径先验坐标序列以及预测过程中的中间结果。这些输入对于模型训练和预测具有至关重要的作用,能够有效提高模型的准确性和稳定性。
其中,在执行步骤402时,比如当前时刻是t,当预测了t+1时刻的坐标时,那这个坐标可以被拿来预测t+2,t+3时刻及以后时刻的坐标。
在实际应用中,自回归路径先验的引入使得模型能够更好地捕捉到时序数据中的依赖关系,从而提高预测的准确性。此外,通过动态调整路径映射的视口,可以使模型更好地适应不同长度的预测任务,进一步提高模型的泛化能力。
其中在执行步骤401之前,还包括构建预测扫视路径的高斯混合模型,具体如下:
如图3所示,模型可以分为三个部分,第一部分分别处理三种输入提取出视觉与路径特征,第二部分使用三个预测头分别根据视觉与路径特征生成混合权重向量、K个均值向量与K个协方差矩阵,使用这三个输出构造GMM,第三部分在GMM上使用基于物理模型和梯度下降优化器的随机采样模型生成多条预测路径。模型的训练包括对于第一第二部分模型的训练。
第一部分中,历史视觉上下文输入第一步经过MAE模型处理,输入模型的向量维度为,其中B为批次大小,H为视口数量,3表示图片的3色彩通道,Hv,Wv分别为图片高度与宽度。输出维度为B×H×Kv,Kv为设定的视觉特征向量长度。
如图4所示,历史扫视路径上下文输入维度为B×H×(2H+1)×2,其中B,H,(2H+1)分别为批次大小,历史视口数量,扫视路径窗口大小。第一步调整维度到B×H×2(2H+1)。第二步通过一层全连接层和四层残差全链接块,输出维度为B×H×Kh,Kh为设定的历史扫视路径特征向量长度。第三步调整维度到B×H×Kh,第四步通过一层1×1卷积层和四层残差卷积块,得到了历史扫视路径特征向量,维度为B×F×Kh。
如图5所示,自回归路径先验输入维度为B×F×2。其中B,F分别为批次大小,生成序列时间长度。第一步调整维度为(B×F)×2。第二步通过一层全连接层调整通道维度为(B×F)×K,K为中间的向量长度。第三步调整维度为B×(F×K)。第四步通过一个多层感知机,此感知机由携带了掩模的四层全链接残差层和两层全连接层组成,掩模用于对未来的扫视路径进行遮盖。感知机的输出为自回归路径先验特征向量,向量维度为B×F×Ks,Ks为设定的自回归路径先验特征向量长度。将三个特征向量直接进行拼接形成总的视觉与路径特征输出,维度为B×F×(Kv+Kh+Ks)。
其中掩模全连接层由下式定义:
。
其中表示哈马达积,,。分别为权重和掩模矩阵,其中前端的全连接层中的为:
。
而隐藏层的与后端的全连接层中的M为:
。
式中,Kin表示生成序列中每个时刻对应的特征的输入维度,Kout表示掩膜全连接层针对每个特征的输出维度。
第二部分中预测模型G的三个预测头分别根据总的视觉与路径特征X输出生成混合权重向量、K个均值向量与K个协方差矩阵,其中K为GMM中高斯分布的数量。
。
分别为权重、均值、协方差预测头,三个预测头的结构相同,都为两层全链接层与两层全连接残差层,其中与直接将全连接层的输出作为输出,输出时额外通过softmax层将混合权重向量归一化后输出。使用三个预测头的输出构造GMM。
。
其中表示具体坐标,K表示GMM使用的子分布数量,分别表示历史视觉上下文、历史扫视路径上下文和自回归路径先验,分别表示生成的混合权重向量、K个均值向量与K个协方差矩阵。
如图6所示,然后本实施例通过对区域上的概率密度进行积分来离散GMM模型。
。
其中],表示用于积分的面积,而表示量子化的步长。
最后,本实施例通过最小化批次中扫描路径的预期代码长度来端到端优化整个模型,需最小化的公式为:
。
其中,B批次大小,F为生成序列时间长度,此最小化相当于最大化批次中扫视路径在GMM中的概率。
其中,在执行步骤401时,具体可以如下:
在生成预测路径时,会在GMM上使用优化器控制器生成一段预测路径,然后通过新的现实或预测路径与对于图像通过模型生成新一轮的GMM,再继续向后生成预测路径,循环可以一直持续,以下介绍一轮中的路径生成方法。
本实施例假设一个基于牛顿运动定律的代理观察者。在开始时,代理查看器被放置在起始点(0,0),拥有初始速度和加速度。那么第t个预测的扫视点由以下公式给出:
。
将速度更新由以下公式给出:
。
其中,∆t是采样间隔。对于加速度的更新,需要从获得的参考位置,其中,由下式构造损失函数。
其中,∆τ是采样间隔。本方案将加速度视为一个变量,使用任何依据批量梯度下降的优化对加速度进行优化。对于时刻t代理模型产生的采样点,本实施例从t时刻采样点对应的概率分布中随机采样k个参考点,把视为一组训练样本,利用的均方误差作为目标函数,产生对加速度的梯度,更新加速度。所述采样点即为扫视点。
。
优化器基于上述损失函数,通过反向传播调整加速度。
在一轮预测中不断更新扫视点、速度与加速度,最后将预测的所有扫视点合并即为一轮的预测路径。
对于在不同轮次中的位置、速度、加速度继承,位置通过坐标转换在两个视口中切换,速度通过两个位置继续计算,加速度则重新设置为0。
综上所述,全景图像及视频扫视路径预测意图学习到一个序列到序列的映射r,其中是看见的全景视频帧的集合,是过去的扫视路径,他们被用于预测扫视路径。其中S表示预测扫视路径的长度,是用球坐标表示的t时刻扫视点。
本实施例将全景扫描路径预测表述为无监督密度估计问题:
。
通常,由于维数的限制,估计高维空间的概率分布是具有挑战性的。本实施例利用概率论中的链式法则将它分解为每个视点的条件概率的乘积以简化问题。
。
式中,为需要预测的未来注视点集合,是在预测()前已经预测完成的扫视点的集合;集合是路径点的上下文,X是历史视觉上下文,h是历史路径上下文,st是自回归路径先验。
模型会利用上下文构造出对应的GMM,训练时用GMM评估概率,在GMM上使用一个基于物理模型和梯度下降优化器的随机采样模型生成预测路径。
这个模型涉及了两个主要的概念:高斯混合模型(GMM)和预测控制。首先,高斯混合模型(Gaussian Mixture Model,简称GMM)是一种概率密度函数,由多个高斯分布混合而成。在机器学习中,GMM常常被用于对复杂数据分布的建模,因为许多真实世界的分布都可以被近似为GMM。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是数据库,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理事务。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据处理方法。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器以存储在存储器上并可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的对象信息(包括但不限于对象设备信息、对象个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经对象授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种全景图像及视频中的扫视路径预测方法,其特征在于,包括:
获取历史扫视路径下的全景图像及视频;所述历史扫视路径为观看全景图像及视频时的注视位置序列;所述注视位置序列包括多个扫视点;所述扫视点以球坐标形式保存;
采用图像转化方法,将所述全景图像及视频转为视口序列;所述视口序列包括多个视口;每一所述视口为任一时刻从任一注视位置观看所述全景图像及视频时对应显示的图形区域;
将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标;
将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,得到下一时刻扫视点的概率分布,并使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标;所述自回归路径先验坐标为基于当前时刻扫视路径中模型预测得到的下一时刻的扫视点坐标投影到当前时刻注视位置对应的视口所得到的平面坐标,所述自回归路径先验坐标作为补充信息用于估计下一时刻之后的扫视路径。
2.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述使用基于物理模型和梯度下降优化器的随机采样模型从概率分布中采样,预测下一时刻的扫视点坐标,具体包括:
获取观察者物理模型的状态变量和观测变量;所述状态变量包括初始位置、初始速度和加速度;所述观测变量为任意时刻预测的扫视点;所述扫视点是根据上一时刻预测的扫视点以及当前时刻观察者的速度、加速度以及采样间隔确定的;
对于每一时刻预测的扫视点,将所述观察者的加速度作为变量,使用批量梯度下降优化器对所述加速度进行优化;具体为:根据当前时刻扫视点对应的概率分布中随机采样多个参考点,并将采样的参考点作为一组训练样本,利用各所述参考点的均方误差作为目标函数,产生对加速度的梯度,更新加速度;
根据当前轮次预测中更新后的加速度调整观察者物理模型,当各所述参考点的均方误差小于阈值时,得到当前轮次预测的扫视路径。
3.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述采用图像转化方法,将所述全景图像及视频转为视口序列,具体包括:
根据所述全景图像及视频,确定所述视口序列中各视口的范围和位置;
对于每一视口,基于第一罗德里格旋转公式,将所述视口的中心旋转到当前注视位置,得到旋转后的视口,并对所述旋转后的视口中的像素位置进行旋转,得到旋转后的像素位置;
将所述旋转后的像素位置映射到全景图像及视频中,得到所述全景图像及视频对应显示的图形区域。
4.根据权利要求3所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,对于每一视口,基于罗德里格旋转公式,将所述视口的中心旋转到当前视点,得到旋转后的视口,具体包括:
根据公式将所述视口的中心旋转到当前视点;
其中,q为像素位置,是合成后的旋转矩阵,为像素位置q旋转过后的坐标,分别是的xyz坐标。
5.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,将所述注视位置序列投影到与每一注视位置对应的所述视口中,得到每一所述视口的历史路径相对坐标,具体包括:
将所述注视位置序列投影到三维坐标系中,得到所述注视位置序列中各扫视点的三维坐标表示;
基于罗德里格旋转公式,将各所述扫视点的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述注视位置序列在视口内的平面坐标。
6.根据权利要求5所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,基于罗德里格旋转公式,将所述图形区域的三维坐标表示进行旋转,并将旋转后的三维坐标表示投影到x轴的一设定平面上,得到所述视口的历史路径相对坐标,具体包括:
根据公式,各所述扫视点的三维坐标表示进行旋转;
根据公式,将旋转后的三维坐标表示投影到x轴的一设定平面上;
根据公式,得到所述视口的历史路径相对坐标;
其中,与为视口的宽度与高度,t表示历史路径h被投影到了t时刻的视口,(,)为视口中心坐标,其中,xc,yc,zc为扫视点的三维坐标;xtc,ytc,ztc为扫视点经旋转后的三维坐标表示,r为由全景图像构成的球面图像的球半径,为将坐标投影到x=r平面上,x’tc,y’tc,z’tc为扫视点经旋转后的三维坐标表示投影到x轴的一设定平面后的三维坐标表示。
7.根据权利要求1所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,将所述视口序列、每一所述视口的历史路径相对坐标以及自回归路径先验坐标输入至高斯混合模型,并使用基于物理模型和梯度下降优化器的随机采样模型预测下一时刻之后的扫视路径,具体包括:
根据公式预测下一时刻之后的扫视路径,在视口(,)上的概率分布;
其中,为需要预测的未来注视点集合,是在预测()前已经预测完成的扫视点的集合;集合是路径点的上下文,X是历史视觉上下文,h是历史路径上下文,是自回归路径先验,()表示当前时刻是T-1时刻,T+t是从当前时刻开始,需要预测的第t+1个扫视点的球面角坐标。
8.根据权利要求7所述的一种全景图像及视频中的扫视路径预测方法,其特征在于,所述高斯混合模型的模型训练,具体包括:
对所述视口序列进行特征提取得到第一历史视觉特征输出;
对每一所述视口的历史路径相对坐标序列进行特征提取得到第二历史路径特征输出;
对所述自回归路径先验坐标进行特征提取得到第三因果路径特征输出;
基于所述第一历史视觉特征输出、第二历史路径特征输出和第三因果路径特征输出,训练高斯混合模型;所述高斯混合模型由三个预测头组成,分别是权重预测头、均值预测头和协方差预测头。
9.一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述一种全景图像及视频中的扫视路径预测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-8中任一项所述一种全景图像及视频中的扫视路径预测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410281592.2A CN117876430B (zh) | 2024-03-13 | 2024-03-13 | 一种全景图像及视频中的扫视路径预测方法、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410281592.2A CN117876430B (zh) | 2024-03-13 | 2024-03-13 | 一种全景图像及视频中的扫视路径预测方法、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117876430A true CN117876430A (zh) | 2024-04-12 |
CN117876430B CN117876430B (zh) | 2024-06-18 |
Family
ID=90584938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410281592.2A Active CN117876430B (zh) | 2024-03-13 | 2024-03-13 | 一种全景图像及视频中的扫视路径预测方法、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117876430B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180288363A1 (en) * | 2017-03-30 | 2018-10-04 | Yerba Buena Vr, Inc. | Methods and apparatuses for image processing to optimize image resolution and for optimizing video streaming bandwidth for vr videos |
US11503998B1 (en) * | 2021-05-05 | 2022-11-22 | Innodem Neurosciences | Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases |
CN116343012A (zh) * | 2023-05-29 | 2023-06-27 | 江西财经大学 | 基于深度马尔可夫模型的全景图像扫视路径预测方法 |
CN116777963A (zh) * | 2023-07-13 | 2023-09-19 | 浙江吉利控股集团有限公司 | 一种点云和图像配准方法、装置、电子设备及存储介质 |
CN116843684A (zh) * | 2023-08-30 | 2023-10-03 | 江西财经大学 | 一种基于动态视觉内容的端到端的全景图像质量评价方法 |
-
2024
- 2024-03-13 CN CN202410281592.2A patent/CN117876430B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180288363A1 (en) * | 2017-03-30 | 2018-10-04 | Yerba Buena Vr, Inc. | Methods and apparatuses for image processing to optimize image resolution and for optimizing video streaming bandwidth for vr videos |
US11503998B1 (en) * | 2021-05-05 | 2022-11-22 | Innodem Neurosciences | Method and a system for detection of eye gaze-pattern abnormalities and related neurological diseases |
CN116343012A (zh) * | 2023-05-29 | 2023-06-27 | 江西财经大学 | 基于深度马尔可夫模型的全景图像扫视路径预测方法 |
CN116777963A (zh) * | 2023-07-13 | 2023-09-19 | 浙江吉利控股集团有限公司 | 一种点云和图像配准方法、装置、电子设备及存储介质 |
CN116843684A (zh) * | 2023-08-30 | 2023-10-03 | 江西财经大学 | 一种基于动态视觉内容的端到端的全景图像质量评价方法 |
Non-Patent Citations (1)
Title |
---|
李穆 等: "基于粒子滤波的透射电镜肾小球基底膜分割", 《科学技术与工程》, vol. 17, no. 11, 18 April 2017 (2017-04-18), pages 30 - 36 * |
Also Published As
Publication number | Publication date |
---|---|
CN117876430B (zh) | 2024-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Weakly-supervised disentangling with recurrent transformations for 3d view synthesis | |
US11559887B2 (en) | Optimizing policy controllers for robotic agents using image embeddings | |
CN112215050A (zh) | 非线性3dmm人脸重建和姿态归一化方法、装置、介质及设备 | |
KR102602112B1 (ko) | 얼굴 이미지 생성을 위한 데이터 프로세싱 방법 및 디바이스, 및 매체 | |
CN113822993B (zh) | 一种基于3d模型匹配的数字孪生方法和系统 | |
WO2023103576A1 (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN110942512B (zh) | 基于元学习的室内场景重建方法 | |
CN116977522A (zh) | 三维模型的渲染方法、装置、计算机设备和存储介质 | |
WO2022052782A1 (zh) | 图像的处理方法及相关设备 | |
CN115578515B (zh) | 三维重建模型的训练方法、三维场景渲染方法及装置 | |
CN116385667B (zh) | 三维模型的重建方法、纹理重构模型的训练方法以及装置 | |
WO2022167602A2 (en) | Rendering new images of scenes using geometry-aware neural networks conditioned on latent variables | |
Zhang et al. | Unsupervised depth estimation from monocular videos with hybrid geometric-refined loss and contextual attention | |
Wu et al. | Mapnerf: Incorporating map priors into neural radiance fields for driving view simulation | |
CN117237547B (zh) | 图像重建方法、重建模型的处理方法和装置 | |
CN116934970B (zh) | 一种基于先验知识引导的医学单视图三维重建装置 | |
US20240161362A1 (en) | Target-augmented material maps | |
CN117876430B (zh) | 一种全景图像及视频中的扫视路径预测方法、设备及介质 | |
KR20230167086A (ko) | 공간과 시간에 따른 어텐션을 이용한 비디오 시퀀스에서 객체 표현에 대한 비지도 학습 | |
CN110009717B (zh) | 一种基于单目深度图的动画人物绑定录制系统 | |
Savant et al. | Modeling uncertainty for Gaussian Splatting | |
CN112463936A (zh) | 一种基于三维信息的视觉问答方法及系统 | |
Zhang et al. | Interactive object placement with reinforcement learning | |
CN118229781B (zh) | 显示屏异物检测方法、模型训练方法、装置、设备及介质 | |
CN118071969B (zh) | 一种基于ai实时生成xr环境背景的方法、介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |