CN116228989A - 一种三维轨迹预测方法、装置、设备及介质 - Google Patents
一种三维轨迹预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116228989A CN116228989A CN202310328655.0A CN202310328655A CN116228989A CN 116228989 A CN116228989 A CN 116228989A CN 202310328655 A CN202310328655 A CN 202310328655A CN 116228989 A CN116228989 A CN 116228989A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- detection result
- predicted motion
- est
- motion trail
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001514 detection method Methods 0.000 claims abstract description 107
- 230000033001 locomotion Effects 0.000 claims abstract description 107
- 230000005855 radiation Effects 0.000 claims abstract description 67
- 230000001537 neural effect Effects 0.000 claims abstract description 49
- 210000005036 nerve Anatomy 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000008033 biological extinction Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000007774 longterm Effects 0.000 abstract description 5
- 238000012549 training Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000009877 rendering Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/277—Analysis of motion involving stochastic approaches, e.g. using Kalman filters
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Graphics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Geometry (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Radar Systems Or Details Thereof (AREA)
- Image Generation (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请公开了一种三维轨迹预测方法、装置、设备及介质,涉及计算机视觉和计算机图形学技术领域。该方法包括:获取场景数据;根据场景数据,基于动态神经辐射场模型创建三维动态场景;获取三维动态场景中的三维目标的检测结果;根据检测结果,获取三维目标的预测运动轨迹;将检测结果和预测运动轨迹相关联;根据关联结果,更新预测运动轨迹。由此,该方法能够对动态神经辐射场中多目标进行检测,同时能够对于检测到的多目标进行轨迹跟踪并根据三维轨迹规律使用三维卡尔曼滤波进行轨迹预测,能够有效解决动态神经辐射场中长期预测目标轨迹困难,系统计算量大等问题。
Description
技术领域
本申请涉及计算机视觉和计算机图形学技术领域,特别涉及一种三维轨迹预测方法、装置、设备及介质。
背景技术
动态神经辐射场(Dynamic Neural Radiance Fields)是神经辐射场(NeuralRadiance Fields)模型的一种扩展,能够基于动态神经辐射场处理动态场景的重建和渲染,并完成多目标三位轨迹预测。多目标三维轨迹预测是指预测多个物体在三维空间中的未来运动轨迹,在自动驾驶、航空航天、机器人技术领域得到了广泛的应用。
目前,可以基于动态神经辐射场使用运动学和动力学等物理模型来解决多目标三维轨迹预测问题,也可以基于动态神经辐射场使用轨迹回归和轨迹分类等数据方法来预测物体的未来运动轨迹,还可以基于动态神经辐射场将物理模型和数据方法结合起来,以达到更好的预测效果。
然而,尽管动态神经辐射场可以处理动态场景的重建和渲染,但它在三维物体空间轨迹预测方面存在一些不足。第一,动态神经辐射场只能处理已知物体的运动和形变,无法处理场景中新物体的出现和消失。第二,动态神经辐射场虽然可以捕捉物体的基本运动和形变信息,但对于复杂的运动和形变,例如快速的运动或变形,动态神经辐射场可能无法准确地预测物体的轨迹。
发明内容
有鉴于此,本申请实施例提供了一种三维轨迹预测方法、装置、设备及介质,能够准确预测动态三维场景中的物体运动轨迹。
本申请实施例公开了如下技术方案:
第一方面,本申请提供了一种三维轨迹预测方法,所述方法包括:获取场景数据;
根据所述场景数据,基于动态神经辐射场模型创建三维动态场景;
获取所述三维动态场景中的三维目标的检测结果;
根据所述检测结果,获取所述三维目标的预测运动轨迹;
将所述检测结果和所述预测运动轨迹相关联;
根据关联结果,更新所述预测运动轨迹。
可选的,所述获取所述三维动态场景中的三维目标的检测结果,包括:
获取动态神经辐射场的输入数据;
根据所述输入数据,通过卷积神经网络获取所述三维动态场景中的三维目标的特征;
根据所述三维动态场景中的三维目标的特征,获取所述三维目标的检测结果,所述检测结果包括所述三维目标在三维动态场景中的中心位置、三维尺寸、方向角和置信度得分。
可选的,根据所述检测结果,获取所述三维目标的预测运动轨迹的公式具体如下:
xest=x+vx,yest=y+vy,zest=z+vz
其中,Ti est为i个使用三维卡尔曼滤波方法预测的下一帧状态的集合、xest为预测到的三维目标下一帧在x轴方向的位置、yest为预测到三维目标下一帧在y轴方向的位置、zest为预测到三维目标下一帧在z轴方向的位置、(l,w,h)为三维目标的三维尺寸、s为置信度得分、(vx,vy,vz)为三维目标在三维动态场景中的速度。
可选的,将所述检测结果和所述预测运动轨迹相关联,包括:
获取所述检测结果和所述预测运动轨迹的三维交并比和/或负中心距离;
根据所述三维交并比和/或负中心距离,构建亲和矩阵;
根据所述亲和矩阵,基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果、未匹配的预测运动轨迹和未匹配的检测结果。
可选的,基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果、未匹配的预测运动轨迹和未匹配的检测结果,包括:
判断所述三维交并比是否大于或等于预设阈值;
若是,则基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果;
若否,则得到未匹配的预测运动轨迹和未匹配的检测结果。
可选的,所述根据关联结果,更新所述预测运动轨迹,包括:
根据所述匹配的预测运动轨迹和检测结果,更新所述预测运动轨迹;
根据所述未匹配的预测运动轨迹和所述未匹配的检测结果,对所述预测运动轨迹建立新生和消亡机制。
第二方面,本申请提供了一种三维轨迹预测装置,所述装置包括:场景模块、创建模块、检测模块、预测模块、关联模块、更新模块;
所述场景模块,用于获取场景数据;
所述创建模块,用于根据所述场景数据,基于动态神经辐射场模型创建三维动态场景;
所述检测模块,用于获取所述三维动态场景中的三维目标的检测结果;
所述预测模块,用于根据所述检测结果,获取所述三维目标的预测运动轨迹;
所述关联模块,用于将所述检测结果和所述预测运动轨迹相关联;
所述更新模块,用于根据关联结果,更新所述预测运动轨迹。
可选的,根据所述检测结果,获取所述三维目标的预测运动轨迹的公式具体如下:
xest=x+vx,yest=y+vy,zest=z+vz
其中,Ti est为i个使用三维卡尔曼滤波方法预测的下一帧状态的集合、xest为预测到的三维目标下一帧在x轴方向的位置、yest为预测到三维目标下一帧在y轴方向的位置、zest为预测到三维目标下一帧在z轴方向的位置、(l,w,h)为三维目标的三维尺寸、s为置信度得分、(vx,vy,vz)为三维目标在三维动态场景中的速度。
第三方面,本申请提供了一种三维轨迹预测设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述计算机程序时实现上述三维轨迹预测方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述三维轨迹预测方法的步骤。
相较于现有技术,本申请具有以下有益效果:
本申请公开了一种三维轨迹预测方法、装置、设备及介质,能够对动态神经辐射场中多目标进行检测,同时能够对于检测到的多目标进行轨迹跟踪并根据三维轨迹规律使用三维卡尔曼滤波进行轨迹预测,进而能够有效解决动态神经辐射场中长期预测目标轨迹困难,系统计算量大等问题。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种三维轨迹预测方法的流程图;
图2为本申请实施例提供的一种三维目标检测方法的示意图;
图3为本申请实施例提供的一种三维轨迹预测装置的示意图。
具体实施方式
动态神经辐射场(Dynamic Neural Radiance Fields)是神经辐射场(NeuralRadiance Fields)模型的一种扩展,能够处理动态场景的重建和渲染。与静态神经辐射场模型不同,动态神经辐射场模型需要在训练数据中同时提供多个时间点的场景信息。具体地,对于每个时间点,需要提供相机位置和方向、场景中物体的位置、姿态和形状等信息。训练过程中,动态神经辐射场模型将同时优化每个时间点的场景表示,以捕捉场景的运动和形变信息。
多目标三维轨迹预测是指预测多个物体在三维空间中的未来运动轨迹。该问题在许多领域都有应用,比如自动驾驶、航空航天、机器人技术等。近年来,随着深度学习的发展,许多研究者开始使用神经网络等机器学习算法来解决多目标三维轨迹预测问题。研究者们提出了许多不同的方法来解决多目标三维轨迹预测问题,其中一些方法使用基于物理的模型,比如运动学和动力学模型,来预测物体的运动轨迹。另一些方法则使用基于数据的方法,比如轨迹回归和轨迹分类,来预测物体的未来运动轨迹。还有一些方法将基于物理的模型和基于数据的方法结合起来,以达到更好的预测效果。
然而,尽管动态神经辐射场可以处理动态场景的重建和渲染,但它在三维物体空间轨迹预测方面存在一些不足,主要包括以下几个方面:第一,无法处理新物体的出现和消失:动态神经辐射场只能处理已知物体的运动和形变,无法处理场景中新物体的出现和消失。第二,无法处理复杂的运动和形变:动态神经辐射场可以捕捉物体的基本运动和形变信息,但对于复杂的运动和形变,例如快速的运动或变形,动态神经辐射场可能无法准确地预测物体的轨迹。
有鉴于此,本申请公开了一种三维轨迹预测方法、装置、设备及介质,首先获取场景数据;根据场景数据,基于动态神经辐射场模型创建三维动态场景;获取三维动态场景中的三维目标的检测结果;根据检测结果,获取三维目标的预测运动轨迹;将检测结果和预测运动轨迹相关联;根据关联结果,更新预测运动轨迹。由此,该方法能够对动态神经辐射场中多目标进行检测,同时能够对于检测到的多目标进行轨迹跟踪并根据三维轨迹规律使用三维卡尔曼滤波进行轨迹预测,能够有效解决动态神经辐射场中长期预测目标轨迹困难,系统计算量大等问题。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,该图为本申请实施例提供的一种三维轨迹预测方法的流程图。该方法包括:
S101:获取场景数据。
场景数据指的是对现实场景或模拟场景(合成数据集)拍摄的场景图像的数据。需要说明的是,上述场景图像为同一个场景的多个不同角度的图像,可以是RGB图像,也可以是其他格式的图像,对于具体的图像格式,本申请不做限定。
需要说明的是,上述所有场景图像可以是一系列不同方位的相机同时进行拍摄,也可以是单个相机进行移动拍摄,对于场景图像的具体拍摄方法,本申请不做限定。
需要说明的是,在获取场景数据之后、基于场景数据训练动态神经辐射场模型之前,可以先判断获取到的场景数据是否是动态神经辐射场模型所需要的格式。若是,则可以执行S102步骤及其后续操作;若不是,则可以先将场景数据转换为动态神经辐射场模型所需的格式后,再执行S102步骤及其后续操作。在一些示例中,可以将视频格式的场景数据转换为图像序列,以满足动态神经辐射场模型所需要的格式。
S102:利用训练数据训练动态神经辐射场模型。
动态神经辐射场(Dynamic Neural Radiance Fields)指的是神经辐射场(NeuralRadiance Fields)模型的一种扩展,能够处理动态场景的重建和渲染。训练数据指的是训练动态神经辐射场模型的过程中用于训练动态神经辐射场模型的数据。
可以理解的是,训练数据的用途是:在动态神经辐射场模型的训练过程中,动态神经辐射场会从上述训练数据中学习到每个时间点的三维场景表示,并且学会捕捉场景随时间变化的演化过程。因此,上述训练数据可以与上述场景数据不同,也可以与上述场景数据相同,对于具体的训练数据,本申请不做限定。
需要说明的是,实际执行上述步骤时,可以先执行S101后执行S102,也可以先执行S102后执行S101,也可以S101、S102同时执行,对于具体的先后顺序,本申请不做限定。
S103:根据场景数据,利用动态神经辐射场模型创建三维动态场景。
基于S102步骤中训练好的动态神经辐射场模型,根据S101步骤中的场景数据重建场景数据所对应的三维场景。通过对场景数据进行前向推断,动态神经辐射场可以估计场景中每个点的位置、颜色和透明度等属性,并将其组合成一个完整的三维场景表示。
在完成三维场景重建后,还可以使用光线追踪等技术,将上述重建后的三维场景渲染成图像或视频,以渲染动态神经辐射场重建的三维场景。
S104:根据三维目标检测算法,检测三维动态场景中的三维目标。
三维目标指的是三维动态场景中的三维物体。参见图2,该图为本申请实施例提供的一种三维目标检测方法的示意图,使用三维目标检测算法对于三维目标进行检测的流程通常包括以下步骤:
S1041:获取动态神经辐射场的输入数据。
本申请采用从动态神经辐射场查询到的辐射场和密度作为动态神经辐射场的输入。采用辐射场和密度作为动态神经辐射场的输入的原因是:尽管自原始的动态神经辐射场以来存在许多变体,采用不同的辐射场表示或结构,但它们拥有相同的属性,即可以使用视图方向和空间位置查询重建后的辐射场和密度。
S1042:基于输入数据,通过卷积神经网络提取三维目标的特征。
在三维物体检测中,通常采用卷积神经网络(Convolutional Neural Networks,CNN)来提取三维动态场景中的三维目标的特征。具体的,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。
在一些具体的实现方式中,可以使用DenseNet作为提取特征的卷积神经网络。需要说明的是,对于具体的卷积神经网络,本申请不做限定。
S1043:基于提取到的特征,根据三维区域提议网络得到检测结果。
根据S1042步骤中获取到的特征,通过三维区域提议网络,获得一组边界框及其对应物体的置信度。具体的,三维区域提议网络是一种用于三维物体检测的网络结构,它可以从输入的特征中提取出一组边界框及其相应物体的置信度。置信度,也称为可靠度,或置信水平、置信系数,指的是三维目标检测的对象是某个类别的概率。
在一些具体的实现方式中,可以采用基于锚点的区域提议方法,首先在S103步骤中渲染出的三维动态场景上生成大量不同大小和长宽比的预设锚点,然后对这些锚点进行分类和回归,最终得到每个锚点对应的物体得分和边界框位置。
示例性的,在三维动态场景的第t帧,使用三维目标检测算法对于三维目标进行检测的输出是如下公式(1)的一组检测:
其中,Dt是检测结果,nt是检测结果的数量。对于每个检测到的Dj t,其中j∈{1,2,…nt}都表示为一个元组(x,y,z,l,w,h,s),包括三维目标在三维动态场景中的中心位置(x,y,z),三维目标的三维尺寸(l,w,h)和三维目标的置信度得分s。其中,置信度得分s是指三维目标检测的对象是某个类别的概率。
S105:根据三维卡尔曼滤波方法,获取动态神经辐射场中三维目标的预测运动轨迹。
在动态神经辐射场构建的三维动态场景中,可以使用三维卡尔曼滤波预测动态神经辐射场中的多目标物体轨迹。具体的,三维卡尔曼滤波方法是一种递推预测滤波算法,算法中涉及到滤波,也涉及到对下一时刻数据的预测,由一系列递归数学公式描述。三维卡尔曼滤波方法提供了一种高效可计算的方法来估计过程的状态,可以估计信号的过去和当前状态,甚至能估计将来的状态,即使并不知道模型的确切性质。
本申请将三维目标的运动轨迹T表述为如下公式(2)所示的一个10维向量:
T=(x,y,z,l,w,h,s,vx,vy,vz) (2)
其中,T为三维目标的运动轨迹,(x,y,z)为三维目标在三维动态场景中的中心位置,(l,w,h)为三维目标的三维尺寸,s为置信度得分,(vx,vy,vz)为三维目标在三维动态场景中的速度。
在每一帧中,与前一帧中相关轨迹的状态Tt-1可以如下公式(3)所示:
其中,Tt-1为t-1帧中的轨迹,mt-1为在t-1帧中的轨迹数量。这些轨迹的状态将基于恒定速度模型被传播到当前帧t,作为Test,即Test是指使用轨迹预测算法预测的下一帧状态。对于在Tt-1中的每一个轨迹Ti t-1,i∈{1,2,…,mt-1},在第t帧中的预测状态可以如下公式(4)、(5)所示:
xest=x+vx,yest=y+vy,zest=z+vz (5)
其中,Ti est为i个使用三维卡尔曼滤波方法预测的下一帧状态的集合、xest为预测到的三维目标下一帧在x轴方向的位置、yest为预测到三维目标下一帧在y轴方向的位置、zest为预测到三维目标下一帧在z轴方向的位置、(l,w,h)为三维目标的三维尺寸、s为置信度得分、(vx,vy,vz)为三维目标在三维动态场景中的速度。
S106:将三维目标检测结果和预测运动轨迹相关联。
为了将预测运动轨迹Test和检测结果Dt相关联(即进行匹配),首先通过计算每对预测运动轨迹Ti est和检测结果Dj t之间的三维交并比(IoU,Intersection over Union)或负中心距离,构建一个mt-1×nt维的亲和矩阵,也就是说,对于每个时间步长,我们将预测运动轨迹Test和检测结果Dt之间的三维交并比或负中心距离计算出来,并将这些距离存储在一个mt-1×nt维的亲和矩阵中。具体的,三维交并比是一种测量在特定数据集中检测相应物体准确度的一个标准。
然后,数据关联问题就成为二分图匹配问题,那么,可以使用匈牙利算法将上述亲和矩阵进行最优匹配,从而将每个检测结果Dt与最佳匹配的预测运动轨迹Test关联起来。具体的,匈牙利算法是一种经典的图论算法,用于解决二分图最大权匹配问题。匈牙利算法可以首先将上述亲和矩阵转换为一个带权二分图,其中左侧节点表示预测的轨迹,右侧节点表示检测结果,边的权重表示它们之间的距离。然后,从左侧节点开始遍历图,并尝试为每个节点找到一个最佳匹配。如果找到了一个可行的匹配,则将其添加到结果中,并继续遍历下一个节点。如果没有找到可行的匹配,则回溯并尝试其他可能性。这个过程会一直持续直到所有节点都被遍历完毕,并且每个节点都有了一个最佳匹配。这样就可以得到一个最优匹配方案,将每个预测运动轨迹Test和检测结果Dt关联起来。
在一些具体的实现方式中,基于匈牙利算法将三维目标检测结果和预测运动轨迹相关联可以包括:判断上述三维交并比是否大于预设阈值IoUmin。若上述三维交并比大于或等于预设阈值IoUmin,那么可以将三维目标检测结果和预测运动轨迹相关联;若上述三维交并比小于预设阈值IoUmin,那么可以拒绝该匹配。
在一些具体的实现方式中,上述数据关联的产出可以如下公式(6)至公式(9)所示:
其中,Tmatch为匹配的预测运动轨迹、Dmatch为匹配的检测结果、wt为匹配的数量、Tunmatch为未匹配的预测运动轨迹、Dunmatch为未匹配的检测结果。具体的,Tunmatch为Test中与Tmatch互补的集合,类似的,Dunmatch为Dt中与Dmatch互补的集合。
S107:对预测运动轨迹进行更新。
在一些具体的实现方式中,为了解决状态预测的不确定性,可以基于在匹配的检测结果Dmatch中与之对应的检测结果,对每个匹配的预测运动轨迹Tmatch中的轨迹状态进行更新。那么,更新后的帧t中的最终关联轨迹如下公式(10)所示:
其中,Tk t为每个轨迹的更新状态、k∈{1,2,…,wt}为Tk match和Dk match状态之间的平均权重。具体的,平均权重由每个匹配的预测运动轨迹Tk match和每个匹配的检测结果Dk match的状态不确定性决定。
S108:建立新生和消亡机制。
在一些具体的实现方式中,由于被跟踪的三维目标可能会离开三维动态场景,而新的三维目标可能会进入三维动态场景,因此需要建立一个新生和消亡的机制。
一方面,将所有未匹配的检测结果Dunmatch视为进入场景的潜在新生对象。然而,为了避免创建错误的正确轨迹,未匹配的检测结果Dunmatch不会创建新的轨迹Tp new,直到在接下来的Birmin帧中未匹配的检测结果Dunmatch被持续匹配,其中p∈{1,2,…,nt-wt}。一旦创建了新轨迹Tp new,则将其状态初始化为其最近检测到的Dp match,vx、vy和vz的速度为零。
另一方面,将所有未匹配的预测运动轨迹Tunmatch视为离开场景的潜在消亡对象。然而,为了防止删除仍然存在于场景中但由于缺少检测而无法找到匹配的真正轨迹,在确保Tq unmatch是消失的轨迹Tq lost之前,继续跟踪Agemax帧的每个不匹配轨迹Tq unmatch,其中q∈{1,2,…,mt-1-wt}。Agemax的初始设置为20,在后续的每一帧中若持续未匹配,则在每一帧中Agemax数值持续减小,当Agemax=0时,则从相关轨迹集中删除它。
本申请公开了一种三维轨迹预测方法,首先获取场景数据;根据场景数据,基于动态神经辐射场模型创建三维动态场景;获取三维动态场景中的三维目标的检测结果;根据检测结果,获取三维目标的预测运动轨迹;将检测结果和预测运动轨迹相关联;根据关联结果,更新预测运动轨迹。由此,该方法能够对动态神经辐射场中多目标进行检测,同时能够对于检测到的多目标进行轨迹跟踪并根据三维轨迹规律使用三维卡尔曼滤波进行轨迹预测,能够有效解决动态神经辐射场中长期预测目标轨迹困难,系统计算量大等问题。
参见图3,该图为本申请实施例提供的一种三维轨迹预测装置的示意图。该三维轨迹预测装置300包括场景模块301、创建模块302、检测模块303、预测模块304、关联模块305、更新模块306。
其中,场景模块301用于获取场景数据;创建模块302用于根据场景数据,基于动态神经辐射场模型创建三维动态场景;检测模块303用于获取三维动态场景中的三维目标的检测结果;预测模块304用于根据检测结果,获取三维目标的预测运动轨迹;关联模块305用于将检测结果和预测运动轨迹相关联;更新模块306用于根据关联结果,更新预测运动轨迹。
在一些具体的实现方式中,检测模块303具体用于:获取动态神经辐射场的输入数据;根据输入数据,通过卷积神经网络获取三维动态场景中的三维目标的特征;根据三维动态场景中的三维目标的特征,获取三维目标的检测结果,检测结果包括三维目标在三维动态场景中的中心位置、三维尺寸、方向角和置信度得分。
在一些具体的实现方式中,关联模块305具体用于:获取所述检测结果和所述预测运动轨迹的三维交并比和/或负中心距离;根据所述三维交并比和/或负中心距离,构建亲和矩阵;根据所述亲和矩阵,基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果、未匹配的预测运动轨迹和未匹配的检测结果。
在一些具体的实现方式中,上述基于匈牙利算法将检测结果和预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果、未匹配的预测运动轨迹和未匹配的检测结果,包括:判断三维交并比是否大于或等于预设阈值;若是,则基于匈牙利算法将检测结果和预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果;若否,则得到未匹配的预测运动轨迹和未匹配的检测结果。
在一些具体的实现方式中,上述更新模块306具体用于:根据匹配的预测运动轨迹和检测结果,更新预测运动轨迹;根据未匹配的预测运动轨迹和未匹配的检测结果,对预测运动轨迹建立新生和消亡机制。
本申请公开了一种三维轨迹预测装置,能够对动态神经辐射场中多目标进行检测,同时能够对于检测到的多目标进行轨迹跟踪并根据三维轨迹规律使用三维卡尔曼滤波进行轨迹预测,进而能够有效解决动态神经辐射场中长期预测目标轨迹困难,系统计算量大等问题。
本申请实施例还提供了对应的生成设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,设备包括存储器和处理器,存储器用于存储指令或代码,处理器用于执行指令或代码,以使设备执行本申请任一实施例的一种灯光控制方法。
计算机存储介质中存储有代码,当代码被运行时,运行代码的设备实现本申请任一实施例所述的方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种三维轨迹预测方法,其特征在于,所述方法包括:
获取场景数据;
根据所述场景数据,基于动态神经辐射场模型创建三维动态场景;
获取所述三维动态场景中的三维目标的检测结果;
根据所述检测结果,获取所述三维目标的预测运动轨迹;
将所述检测结果和所述预测运动轨迹相关联;
根据关联结果,更新所述预测运动轨迹。
2.根据权利要求1所述的方法,其特征在于,所述获取所述三维动态场景中的三维目标的检测结果,包括:
获取动态神经辐射场的输入数据;
根据所述输入数据,通过卷积神经网络获取所述三维动态场景中的三维目标的特征;
根据所述三维动态场景中的三维目标的特征,获取所述三维目标的检测结果,所述检测结果包括所述三维目标在三维动态场景中的中心位置、三维尺寸、方向角和置信度得分。
3.根据权利要求1所述的方法,其特征在于,根据所述检测结果,获取所述三维目标的预测运动轨迹的公式具体如下:
Ti est=(xest,yest,zest,l,w,h,s,vx,vy,vz)
xest=x+vx,yest=y+vy,zest=z+vz
其中,Ti est为i个使用三维卡尔曼滤波方法预测的下一帧状态的集合、xest为预测到的三维目标下一帧在x轴方向的位置、yest为预测到三维目标下一帧在y轴方向的位置、zest为预测到三维目标下一帧在z轴方向的位置、(l,w,h)为三维目标的三维尺寸、s为置信度得分、(vx,vy,vz)为三维目标在三维动态场景中的速度。
4.根据权利要求1所述的方法,其特征在于,将所述检测结果和所述预测运动轨迹相关联,包括:
获取所述检测结果和所述预测运动轨迹的三维交并比和/或负中心距离;
根据所述三维交并比和/或负中心距离,构建亲和矩阵;
根据所述亲和矩阵,基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果、未匹配的预测运动轨迹和未匹配的检测结果。
5.根据权利要求4所述的方法,其特征在于,基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果、未匹配的预测运动轨迹和未匹配的检测结果,包括:
判断所述三维交并比是否大于或等于预设阈值;
若是,则基于匈牙利算法将所述检测结果和所述预测运动轨迹相关联,以得到匹配的预测运动轨迹和检测结果;
若否,则得到未匹配的预测运动轨迹和未匹配的检测结果。
6.根据权利要求5所述的方法,其特征在于,所述根据关联结果,更新所述预测运动轨迹,包括:
根据所述匹配的预测运动轨迹和检测结果,更新所述预测运动轨迹;
根据所述未匹配的预测运动轨迹和所述未匹配的检测结果,对所述预测运动轨迹建立新生和消亡机制。
7.一种三维轨迹预测装置,其特征在于,所述装置包括:场景模块、创建模块、检测模块、预测模块、关联模块、更新模块;
所述场景模块,用于获取场景数据;
所述创建模块,用于根据所述场景数据,基于动态神经辐射场模型创建三维动态场景;
所述检测模块,用于获取所述三维动态场景中的三维目标的检测结果;
所述预测模块,用于根据所述检测结果,获取所述三维目标的预测运动轨迹;
所述关联模块,用于将所述检测结果和所述预测运动轨迹相关联;
所述更新模块,用于根据关联结果,更新所述预测运动轨迹。
8.根据权利要求7所述的装置,其特征在于,根据所述检测结果,获取所述三维目标的预测运动轨迹的公式具体如下:
Ti est=(xest,yest,zest,l,w,h,s,vx,vy,vz)
xest=x+vx,yest=y+vy,zest=z+vz
其中,Ti est为i个使用三维卡尔曼滤波方法预测的下一帧状态的集合、xest为预测到的三维目标下一帧在x轴方向的位置、yest为预测到三维目标下一帧在y轴方向的位置、zest为预测到三维目标下一帧在z轴方向的位置、(l,w,h)为三维目标的三维尺寸、s为置信度得分、(vx,vy,vz)为三维目标在三维动态场景中的速度。
9.一种三维轨迹预测设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1至7中任一项所述的方法的各个步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310328655.0A CN116228989A (zh) | 2023-03-30 | 2023-03-30 | 一种三维轨迹预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310328655.0A CN116228989A (zh) | 2023-03-30 | 2023-03-30 | 一种三维轨迹预测方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116228989A true CN116228989A (zh) | 2023-06-06 |
Family
ID=86571415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310328655.0A Pending CN116228989A (zh) | 2023-03-30 | 2023-03-30 | 一种三维轨迹预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228989A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116718197A (zh) * | 2023-08-09 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 轨迹处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161325A (zh) * | 2019-12-31 | 2020-05-15 | 广州视声智能科技有限公司 | 基于卡尔曼滤波与lstm的三维多目标跟踪方法 |
CN111932580A (zh) * | 2020-07-03 | 2020-11-13 | 江苏大学 | 一种基于卡尔曼滤波与匈牙利算法的道路3d车辆跟踪方法及系统 |
CN114638855A (zh) * | 2022-01-21 | 2022-06-17 | 山东汇创信息技术有限公司 | 一种多目标跟踪方法、设备及介质 |
-
2023
- 2023-03-30 CN CN202310328655.0A patent/CN116228989A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111161325A (zh) * | 2019-12-31 | 2020-05-15 | 广州视声智能科技有限公司 | 基于卡尔曼滤波与lstm的三维多目标跟踪方法 |
CN111932580A (zh) * | 2020-07-03 | 2020-11-13 | 江苏大学 | 一种基于卡尔曼滤波与匈牙利算法的道路3d车辆跟踪方法及系统 |
CN114638855A (zh) * | 2022-01-21 | 2022-06-17 | 山东汇创信息技术有限公司 | 一种多目标跟踪方法、设备及介质 |
Non-Patent Citations (1)
Title |
---|
BENRAN HU等: "NeRF-RPN: A general framework for object detection in NeRFs", ARXIV, 21 November 2022 (2022-11-21) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116718197A (zh) * | 2023-08-09 | 2023-09-08 | 腾讯科技(深圳)有限公司 | 轨迹处理方法、装置、电子设备及存储介质 |
CN116718197B (zh) * | 2023-08-09 | 2023-10-24 | 腾讯科技(深圳)有限公司 | 轨迹处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Human memory update strategy: a multi-layer template update mechanism for remote visual monitoring | |
Kim et al. | 3-D scene graph: A sparse and semantic representation of physical environments for intelligent agents | |
CN112132893B (zh) | 一种适用于室内动态环境的视觉slam方法 | |
Parisotto et al. | Global pose estimation with an attention-based recurrent network | |
CN108564119B (zh) | 一种任意姿态行人图片生成方法 | |
CN110660082A (zh) | 一种基于图卷积与轨迹卷积网络学习的目标跟踪方法 | |
Sun et al. | Active perception for foreground segmentation: An RGB-D data-based background modeling method | |
US20230118864A1 (en) | Lifted semantic graph embedding for omnidirectional place recognition | |
CN116343330A (zh) | 一种红外-可见光图像融合的异常行为识别方法 | |
CN112507859B (zh) | 一种用于移动机器人的视觉跟踪方法 | |
CN116228989A (zh) | 一种三维轨迹预测方法、装置、设备及介质 | |
Shen et al. | DytanVO: Joint refinement of visual odometry and motion segmentation in dynamic environments | |
Niwa et al. | Spatio-temporal graph localization networks for image-based navigation | |
CN113379795B (zh) | 一种基于条件卷积和光流特征的多目标跟踪与分割方法 | |
CN111739066B (zh) | 一种基于高斯过程的视觉定位方法、系统及存储介质 | |
WO2023178951A1 (zh) | 图像分析方法、模型的训练方法、装置、设备、介质及程序 | |
Cruz et al. | Finding the place: how to train and use convolutional neural networks for a dynamically learning robot | |
Kunchala et al. | Smpl-based 3d pedestrian pose prediction | |
Ramasamy et al. | Object detection and tracking in video using deep learning techniques: A review | |
Wursthorn et al. | Uncertainty quantification with deep ensembles for 6d object pose estimation | |
Karkus et al. | Particle filter networks: End-to-end probabilistic localization from visual observations | |
Taguchi et al. | Unsupervised Simultaneous Learning for Camera Re-Localization and Depth Estimation from Video | |
González-Santamarta et al. | SAILOR: Perceptual Anchoring For Robotic Cognitive Architectures | |
Rajendran et al. | An Efficient Pelican optimization based CNN-BiLSTM to Detect and Classify 3D Objects | |
CN116580066B (zh) | 一种低帧率场景下的行人目标跟踪方法及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |