CN118155063A - 多视角三维目标检测方法、装置、设备及存储介质 - Google Patents
多视角三维目标检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN118155063A CN118155063A CN202410196160.1A CN202410196160A CN118155063A CN 118155063 A CN118155063 A CN 118155063A CN 202410196160 A CN202410196160 A CN 202410196160A CN 118155063 A CN118155063 A CN 118155063A
- Authority
- CN
- China
- Prior art keywords
- feature
- view
- remote sensing
- dimensional
- basic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 57
- 238000000034 method Methods 0.000 claims abstract description 40
- 230000003287 optical effect Effects 0.000 claims abstract description 37
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims abstract description 11
- 238000010586 diagram Methods 0.000 claims description 48
- 239000013598 vector Substances 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 10
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 6
- 238000004590 computer program Methods 0.000 description 16
- 230000015654 memory Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000033228 biological regulation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 241000905137 Veronica schmidtiana Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供了一种基于轻量化遥感基础模型的多视角三维目标检测方法、装置、设备及存储介质,可以应用于图像处理技术领域。该方法包括:将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张该多视角下的特征图,该轻量化遥感基础模型用于提取该光学遥感图像的特征图;根据每张该特征图的特征像素深度,将所有该特征图转换到相同的世界坐标系下生成鸟瞰特征图;将该鸟瞰特征图送入FPN网络,得到尺度特征融合后的鸟瞰特征图;利用该尺度特征融合后的鸟瞰特征图进行三维目标检测,可提升目标检测的准确性。
Description
技术领域
本发明涉及光通信领域,尤其涉及一种基于轻量化遥感基础模型的多视角三维目标检测方法、装置、设备及存储介质。
背景技术
目前,遥感基础模型在各种下游任务中取得了优异的性能,但对计算资源的高需求限制了这些模型在边缘设备上的应用,因此基于轻量级基础模型来支持在轨遥感图像解译是一个重点研究方向。
在遥感基础模型的下游任务中,多视角三维目标检测是一个前沿研究领域,其利用拍摄同一区域的不同视角的遥感图像,在统一的三维世界坐标系下检测目标的位置和范围,从而更好利用遥感图像的感知场景。目前的多视角三维目标检测方法检测效果准确性较差。
发明内容
鉴于上述问题,本发明提供了基于轻量化遥感基础模型的多视角三维目标检测方法、装置、设备及存储介质。
根据本发明的第一个方面,提供了一种基于轻量化遥感基础模型的多视角三维目标检测方法,包括:
将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张所述多视角下的特征图,所述轻量化遥感基础模型用于提取所述光学遥感图像的特征图;
根据每张所述特征图的特征像素深度,将所有所述特征图转换到相同的世界坐标系下生成鸟瞰特征图;
将所述鸟瞰特征图送入FPN网络,得到尺度特征融合后的鸟瞰特征图;
利用所述尺度特征融合后的鸟瞰特征图进行三维目标检测。
在一些实施例中,所述根据每张所述特征图的特征像素深度,将所有所述特征图转换到相同的世界坐标系下生成鸟瞰特征图包括:
对所述特征图上的特征像素进行逆向投影,得到逆向投影结果;
在世界坐标系中设置二维鸟瞰网络,二维鸟瞰网络包括多个二维鸟瞰网格;
将每张特征图的逆向投影投射到二维鸟瞰网络上,得到投射结果;
对投射结果使用平均池化,使每个二维鸟瞰网格中只存在一个特征向量,得到二维鸟瞰特征图。
在一些实施例中,所述对所述特征图上的特征像素进行逆向投影,得到逆向投影结果包括:
为所述特征图上的特征像素设置离散深度范围,形成每张所述特征图的三维视锥体;
将所述特征图上的特征像素的特征向量用预设的深度概率加权,得到加权后的特征向量;
将所述加权后的特征向量放置在对应的三维视锥体中,得到基于不同图像坐标系下的每张所述特征图的三维视锥体;
将基于不同图像坐标系下的每张所述特征图的三维视锥体转换到统一的世界坐标系下,得到每张所述特征图的逆向投影。
在一些实施例中,所述方法还包括:
计算所有所述特征图中的同名点的重投影损失;
利用所述重投影损失,优化每张所述特征图的三维视锥体。
在一些实施例中,所述计算所有所述特征图中的同名点的重投影损失包括:
利用相位一致性方法计算所有所述特征图的相位特征图;
将所有所述特征图两两之间利用归一化互相关方法进行相位特征图匹配,得到多对匹配结果,每对所述匹配结果包括两张相位特征图;
对于每对所述匹配结果,在一张相位特征图上选择特征点,并以特征点为中心设置目标区域,另一张相位特征图为待匹配区域;
将所述目标区域的相位特征图在所述待匹配区域的相位特征图中滑动,计算归一化互相关系数,所述相关系数的峰值为同名点;
计算分别位于两张所述特征图上的一对同名点的重投影损失。
在一些实施例中,所述方法还包括:
基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集;
利用所述多视角三维目标检测数据集,训练待训练的轻量化遥感基础模型,得到所述训练完成的轻量化遥感基础模型;
其中,在所述场景所在的世界坐标系下标注目标对象的位置和范围作为训练真值。
在一些实施例中,所述基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集包括:
收集多组从多视角拍摄的同一场景的光学遥感图像;
对于每张所述光学遥感图像,标注所述光学遥感图像的相机坐标系相对于所述世界坐标系的变换矩阵;
根据变换矩阵,构建所述多视角三维目标检测数据集。
本发明的第二方面提供了一种基于轻量化遥感基础模型的多视角三维目标检测装置,包括:
输入模块,用于将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张所述多视角下的特征图,所述轻量化遥感基础模型用于提取所述光学遥感图像的特征图;
生成模块,用于根据每张所述特征图的特征像素深度,将所有所述特征图转换到相同的世界坐标系下生成鸟瞰特征图;
送入模块,用于将所述鸟瞰特征图送入FPN网络,得到尺度特征融合后的鸟瞰特征图;
检测模块,用于利用所述尺度特征融合后的鸟瞰特征图进行三维目标检测。
本发明的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述方法。
本发明的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述方法。
根据本发明提供的基于轻量化遥感基础模型的多视角三维目标检测方法、装置、设备和介质,根据每张特征图的特征像素深度,将所有特征图转换到相同的世界坐标系下生成鸟瞰特征图,也即通过视角变换机制,对多视角特征图进行匹配并提取同名点,将这些同名点的重投影误差作为深度监督信号参与到深度优化中,以获得更好地深度估计,同时无需消耗额外计算资源,显著提高了目标检测的准确率与鲁棒性,从mAP,mTE,mSE三个指标上显著优于现有方法。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本发明实施例的基于轻量化遥感基础模型的多视角三维目标检测方法的流程图;
图2示意性示出了根据本发明实施例的基于轻量化遥感基础模型的多视角三维目标检测方法的架构图;
图3示意性示出了根据本发明实施例的基于轻量化遥感基础模型的多视角三维目标检测装置的结构框图;
图4示意性示出了根据本发明实施例的适于实现基于轻量化遥感基础模型的多视角三维目标检测方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本发明的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本发明的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本发明的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、发明和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
在本发明的技术方案中,对数据的获取、收集、存储、使用、加工、传输、提供、发明和应用等处理,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
图1示意性示出了根据本发明实施例的基于轻量化遥感基础模型的多视角三维目标检测方法的流程图。图2示意性示出了根据本发明实施例的基于轻量化遥感基础模型的多视角三维目标检测方法的架构图。
如图1所示,该实施例的基于轻量化遥感基础模型的多视角三维目标检测方法包括操作S110~操作S140。
在操作S110,将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张该多视角下的特征图。
在操作S120,根据每张该特征图的特征像素深度,将所有该特征图转换到相同的世界坐标系下生成鸟瞰特征图。
在操作S130,将该鸟瞰特征图送入FPN网络,得到尺度特征融合后的鸟瞰特征图。
在操作S140,利用该尺度特征融合后的鸟瞰特征图进行三维目标检测。
在一些实施例中,上述操作S110中的轻量化遥感基础模型用于提取该光学遥感图像的特征图。该轻量化遥感基础模型可采用以下方式训练而得:基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集;利用该多视角三维目标检测数据集,训练待训练的轻量化遥感基础模型,得到该训练完成的轻量化遥感基础模型,其中,在该场景所在的世界坐标系下标注目标对象的位置和范围作为训练真值。
具体的,收集多组从多视角拍摄同一场景的光学遥感图像,对场景设置世界坐标系,在该坐标系下标注目标对象的位置(x,y,z)和范围(w,h,l)作为训练真值,对于每张光学遥感图像,标注其相机坐标系相对于该世界坐标系的变换矩阵,相机的内部参数来自遥感器自身携带的信息,以此构建基于轻量化遥感基础模型的多视角三维目标检测数据集。
在一些实施例中,操作S120,根据每张该特征图的特征像素深度,将所有该特征图转换到相同的世界坐标系下生成鸟瞰特征图包括:对该特征图上的特征像素进行逆向投影,得到逆向投影结果;在世界坐标系中设置二维鸟瞰网络,二维鸟瞰网络包括多个二维鸟瞰网格;将每张特征图的逆向投影投射到二维鸟瞰网络上,得到投射结果;对投射结果使用平均池化,使每个二维鸟瞰网格中只存在一个特征向量,得到二维鸟瞰特征图。
在一些实施例中,上述对该特征图上的特征像素进行逆向投影,得到逆向投影结果包括:为该特征图上的特征像素设置离散深度范围,形成每张该特征图的三维视锥体;将该特征图上的特征像素的特征向量用预设的深度概率加权,得到加权后的特征向量;将该加权后的特征向量放置在对应的三维视锥体中,得到基于不同图像坐标系下的每张该特征图的三维视锥体;将基于不同图像坐标系下的每张该特征图的三维视锥体转换到统一的世界坐标系下,得到每张该特征图的逆向投影。
具体的,为特征图上的特征像素设置离散深度范围,进而形成每张特征图的三维视锥体,为了本发明估计更准确的深度概率分布,将特征像素的特征向量用深度概率加权,接着放置在对应的三维视锥体网格中,之后将基于不同图像坐标系下的三维视锥体转换到统一的世界坐标系下。
在一些实施例中,图1所示方法还包括:计算所有该特征图中的同名点的重投影损失;利用该重投影损失,优化每张该特征图的三维视锥体。
计算所有该特征图中的同名点的重投影损失包括:利用相位一致性方法计算所有该特征图的相位特征图;将所有该特征图两两之间利用归一化互相关方法进行相位特征图匹配,得到多对匹配结果,每对该匹配结果包括两张相位特征图;对于每对该匹配结果,在一张相位特征图上选择特征点,并以特征点为中心设置目标区域,另一张相位特征图为待匹配区域;将该目标区域的相位特征图在该待匹配区域的相位特征图中滑动,计算归一化互相关系数,该相关系数的峰值为同名点;计算分别位于两张该特征图上的一对同名点的重投影损失。
现有的三维目标检测方法通过下游任务损失监督优化深度概率分布,其实是对每个视角都进行单目深度估计,本质上是病态问题。同时,目标检测的损失反向传播到深度估计模块需要进行长距离传播,可能存在梯度消失等问题。为了解决深度估计效果差和梯度消失等问题,本发明采用特征图同名点重投影误差,将同名点的重投影误差作为深度监督信号参与到特征图的三维视锥体的优化中,以获得更好地深度估计,同时无需消耗额外计算资源。
在一示例中,同名点重投影误差具体流程:
利用相位一致性方法计算同一场景不同特征图的相位特征图。并将特征图两两之间利用归一化互相关方法进行相位特征图匹配。在一张相位特征图上选择特征点,并以特征点为中心设置目标区域,另一张相位特征图为待匹配区域。将目标区域相位特征图在待匹配区域相位特征图中滑动,计算归一化互相关系数,相关系数的峰值即为同名点;
对于分别位于两张特征图上的一对同名点p、q,对p计算深度期望zp,之后通过单应性方法得到点p在另一张特征图上的重投影点p’,计算p’与p之间的欧式距离作为误差,遍历所有的匹配点,计算同名点重投影损失。
在一些实施例中,在操作S140,利用该尺度特征融合后的鸟瞰特征图进行三维目标检测,具体可以是,通过3D卷积神经网络提取每个体素的特征。
网络输出一个中心点热图,标示了物体的中心位置。每个体素被分类为是或不是物体的中心。在实践中,中心点通常是物体的底部中心。对于检测到的中心点,还需要预测与它相关的3D边界框的属性,比如大小、朝向和物体的准确位置。最后,通过后处理步骤如非极大值抑制(NMS)来去除重叠的预测,确保每个检测到的物体只有一个边界框。
基于上述基于轻量化遥感基础模型的多视角三维目标检测方法,本发明还提供了一种波长路由装置。以下将结合图3对该装置进行详细描述。
图3示意性示出了根据本发明实施例的基于轻量化遥感基础模型的多视角三维目标检测装置的结构框图。
如图3所示,该实施例的基于轻量化遥感基础模型的多视角三维目标检测装置300包括输入模块310、生成模块320、送入模块330和检测模块340。
输入模块310,用于将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张该多视角下的特征图,该轻量化遥感基础模型用于提取该光学遥感图像的特征图。在一实施例中,输入模块310可以用于执行前文描述的操作S110,在此不再赘述。
生成模块320用于将该光拓扑网络的结构图转换成辅助图。在一实施例中,生成模块320可以用于执行前文描述的操作S120,在此不再赘述。
送入模块330用于将该鸟瞰特征图送入FPN网络,得到尺度特征融合后的鸟瞰特征图。在一实施例中,送入模块330可以用于执行前文描述的操作S130,在此不再赘述。
检测模块340,用于利用该尺度特征融合后的鸟瞰特征图进行三维目标检测。在一实施例中,检测模块340可以用于执行前文描述的操作S140,在此不再赘述。
根据本发明的实施例,该根据每张该特征图的特征像素深度,将所有该特征图转换到相同的世界坐标系下生成鸟瞰特征图包括:
对该特征图上的特征像素进行逆向投影,得到逆向投影结果;
在世界坐标系中设置二维鸟瞰网络,二维鸟瞰网络包括多个二维鸟瞰网格;
将每张特征图的逆向投影投射到二维鸟瞰网络上,得到投射结果;
对投射结果使用平均池化,使每个二维鸟瞰网格中只存在一个特征向量,得到二维鸟瞰特征图。
根据本发明的实施例,该对该特征图上的特征像素进行逆向投影,得到逆向投影结果包括:
为该特征图上的特征像素设置离散深度范围,形成每张该特征图的三维视锥体;
将该特征图上的特征像素的特征向量用预设的深度概率加权,得到加权后的特征向量;
将该加权后的特征向量放置在对应的三维视锥体中,得到基于不同图像坐标系下的每张该特征图的三维视锥体;
将基于不同图像坐标系下的每张该特征图的三维视锥体转换到统一的世界坐标系下,得到每张该特征图的逆向投影。
根据本发明的实施例,该方法还包括:
计算所有该特征图中的同名点的重投影损失;
利用该重投影损失,优化每张该特征图的三维视锥体。
根据本发明的实施例,该计算所有该特征图中的同名点的重投影损失包括:
利用相位一致性方法计算所有该特征图的相位特征图;
将所有该特征图两两之间利用归一化互相关方法进行相位特征图匹配,得到多对匹配结果,每对该匹配结果包括两张相位特征图;
对于每对该匹配结果,在一张相位特征图上选择特征点,并以特征点为中心设置目标区域,另一张相位特征图为待匹配区域;
将该目标区域的相位特征图在该待匹配区域的相位特征图中滑动,计算归一化互相关系数,该相关系数的峰值为同名点;
计算分别位于两张该特征图上的一对同名点的重投影损失。
根据本发明的实施例,该方法还包括:
基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集;
利用该多视角三维目标检测数据集,训练待训练的轻量化遥感基础模型,得到该训练完成的轻量化遥感基础模型;
其中,在该场景所在的世界坐标系下标注目标对象的位置和范围作为训练真值。
根据本发明的实施例,该基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集包括:
收集多组从多视角拍摄的同一场景的光学遥感图像;
对于每张该光学遥感图像,标注该光学遥感图像的相机坐标系相对于该世界坐标系的变换矩阵;
根据变换矩阵,构建该多视角三维目标检测数据集。
根据本发明的实施例,输入模块310、生成模块320、送入模块330和检测模块340中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,输入模块310、生成模块320、送入模块330和检测模块340中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,输入模块310、生成模块320、送入模块330和检测模块340中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图4示意性示出了根据本发明实施例的适于实现基于轻量化遥感基础模型的多视角三维目标检测方法的电子设备的方框图。
如图4所示,根据本发明实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本发明实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器 601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本发明实施例的方法流程的各种操作。需要注意,该程序也可以存储在除ROM602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在该一个或多个存储器中的程序来执行根据本发明实施例的方法流程的各种操作。
根据本发明的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本发明实施例的方法。
根据本发明的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本发明的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
本发明的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本发明实施例所提供的方法。
在该计算机程序被处理器601执行时执行本发明实施例的系统/装置中限定的上述功能。根据本发明的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本发明实施例的系统中限定的上述功能。根据本发明的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本发明的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本发明的各个实施例中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本发明中。特别地,在不脱离本发明精神和教导的情况下,本发明的各个实施例中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本发明的范围。
以上对本发明的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。不脱离本发明的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本发明的范围之内。
Claims (10)
1.一种基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,包括:
将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张所述多视角下的特征图,所述轻量化遥感基础模型用于提取所述光学遥感图像的特征图;
根据每张所述特征图的特征像素深度,将所有所述特征图转换到相同的世界坐标系下生成鸟瞰特征图;
将所述鸟瞰特征图送入特征金字塔FPN网络,得到尺度特征融合后的鸟瞰特征图;
利用所述尺度特征融合后的鸟瞰特征图进行三维目标检测。
2.根据权利要求1所述的基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,所述根据每张所述特征图的特征像素深度,将所有所述特征图转换到相同的世界坐标系下生成鸟瞰特征图包括:
对所述特征图上的特征像素进行逆向投影,得到逆向投影结果;
在世界坐标系中设置二维鸟瞰网络,二维鸟瞰网络包括多个二维鸟瞰网格;
将每张特征图的逆向投影投射到二维鸟瞰网络上,得到投射结果;
对投射结果使用平均池化,使每个二维鸟瞰网格中只存在一个特征向量,得到二维鸟瞰特征图。
3.根据权利要求2所述的基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,所述对所述特征图上的特征像素进行逆向投影,得到逆向投影结果包括:
为所述特征图上的特征像素设置离散深度范围,形成每张所述特征图的三维视锥体;
将所述特征图上的特征像素的特征向量用预设的深度概率加权,得到加权后的特征向量;
将所述加权后的特征向量放置在对应的三维视锥体中,得到基于不同图像坐标系下的每张所述特征图的三维视锥体;
将基于不同图像坐标系下的每张所述特征图的三维视锥体转换到统一的世界坐标系下,得到每张所述特征图的逆向投影。
4.根据权利要求3所述的基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,所述方法还包括:
计算所有所述特征图中的同名点的重投影损失;
利用所述重投影损失,优化每张所述特征图的三维视锥体。
5.根据权利要求4所述的基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,所述计算所有所述特征图中的同名点的重投影损失包括:
利用相位一致性方法计算所有所述特征图的相位特征图;
将所有所述特征图两两之间利用归一化互相关方法进行相位特征图匹配,得到多对匹配结果,每对所述匹配结果包括两张相位特征图;
对于每对所述匹配结果,在一张相位特征图上选择特征点,并以特征点为中心设置目标区域,另一张相位特征图为待匹配区域;
将所述目标区域的相位特征图在所述待匹配区域的相位特征图中滑动,计算归一化互相关系数,所述相关系数的峰值为同名点;
计算分别位于两张所述特征图上的一对同名点的重投影损失。
6.根据权利要求1所述的基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,所述方法还包括:
基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集;
利用所述多视角三维目标检测数据集,训练待训练的轻量化遥感基础模型,得到所述训练完成的轻量化遥感基础模型;
其中,在所述场景所在的世界坐标系下标注目标对象的位置和范围作为训练真值。
7.根据权利要求6所述的基于轻量化遥感基础模型的多视角三维目标检测方法,其特征在于,所述基于多组从多视角拍摄的同一场景的光学遥感图像,构建多视角三维目标检测数据集包括:
收集多组从多视角拍摄的同一场景的光学遥感图像;
对于每张所述光学遥感图像,标注所述光学遥感图像的相机坐标系相对于所述世界坐标系的变换矩阵;
根据变换矩阵,构建所述多视角三维目标检测数据集。
8.一种基于轻量化遥感基础模型的多视角三维目标检测装置,其特征在于,包括:
输入模块,用于将从多视角拍摄的同一场景的待检测的光学遥感图像输入训练完成的轻量化遥感基础模型,得到多张所述多视角下的特征图,所述轻量化遥感基础模型用于提取所述光学遥感图像的特征图;
生成模块,用于根据每张所述特征图的特征像素深度,将所有所述特征图转换到相同的世界坐标系下生成鸟瞰特征图;
送入模块,用于将所述鸟瞰特征图送入FPN网络,得到尺度特征融合后的鸟瞰特征图;
检测模块,用于利用所述尺度特征融合后的鸟瞰特征图进行三维目标检测。
9. 一种电子设备,其特征在于,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410196160.1A CN118155063A (zh) | 2024-02-22 | 2024-02-22 | 多视角三维目标检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410196160.1A CN118155063A (zh) | 2024-02-22 | 2024-02-22 | 多视角三维目标检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118155063A true CN118155063A (zh) | 2024-06-07 |
Family
ID=91288014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410196160.1A Pending CN118155063A (zh) | 2024-02-22 | 2024-02-22 | 多视角三维目标检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118155063A (zh) |
-
2024
- 2024-02-22 CN CN202410196160.1A patent/CN118155063A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Berman et al. | Air-light estimation using haze-lines | |
WO2019161813A1 (zh) | 动态场景的三维重建方法以及装置和系统、服务器、介质 | |
EP2731075B1 (en) | Backfilling points in a point cloud | |
US10521694B2 (en) | 3D building extraction apparatus, method and system | |
CN109242913A (zh) | 采集器相对参数的标定方法、装置、设备和介质 | |
JP5181704B2 (ja) | データ処理装置、姿勢推定システム、姿勢推定方法およびプログラム | |
JP2019518268A (ja) | 日常シーン復元エンジン | |
JP2017010562A (ja) | 迅速な3dモデリング | |
CN102959946A (zh) | 基于相关3d点云数据来扩充图像数据的技术 | |
Chen et al. | Transforming a 3-d lidar point cloud into a 2-d dense depth map through a parameter self-adaptive framework | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN112364843A (zh) | 插拔式航拍图像目标定位检测方法、系统、设备 | |
CN114519772A (zh) | 一种基于稀疏点云和代价聚合的三维重建方法及系统 | |
CN114612575A (zh) | 一种相机参数的标定、三维数据生成方法和系统 | |
Pintus et al. | Techniques for seamless color registration and mapping on dense 3D models | |
Xu et al. | Deep learning guided building reconstruction from satellite imagery-derived point clouds | |
CN117726747A (zh) | 补全弱纹理场景的三维重建方法、装置、存储介质和设备 | |
CN117132649A (zh) | 人工智能融合北斗卫星导航的船舶视频定位方法及装置 | |
Hu et al. | 3D map reconstruction using a monocular camera for smart cities | |
CN113496138A (zh) | 稠密点云数据的生成方法、装置、计算机设备及存储介质 | |
CN116486038A (zh) | 一种三维构建网络训练方法、三维模型生成方法以及装置 | |
CN107194334B (zh) | 基于光流模型的视频卫星影像密集匹配方法及系统 | |
CN118155063A (zh) | 多视角三维目标检测方法、装置、设备及存储介质 | |
CN115393423A (zh) | 目标检测方法和装置 | |
He et al. | Sparse depth map upsampling with rgb image and anisotropic diffusion tensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |