CN115866229A - 多视角图像的视角转换方法、装置、设备和介质 - Google Patents
多视角图像的视角转换方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115866229A CN115866229A CN202310168244.XA CN202310168244A CN115866229A CN 115866229 A CN115866229 A CN 115866229A CN 202310168244 A CN202310168244 A CN 202310168244A CN 115866229 A CN115866229 A CN 115866229A
- Authority
- CN
- China
- Prior art keywords
- local
- coordinate system
- global
- view
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000006243 chemical reaction Methods 0.000 claims abstract description 48
- 230000000007 visual effect Effects 0.000 claims abstract description 42
- 238000010586 diagram Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 238000013135 deep learning Methods 0.000 abstract description 5
- 230000004438 eyesight Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 8
- 230000008447 perception Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种多视角图像的视角转换方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:提取多视角图像的图像特征得到各视角图像的特征图,将特征图作为值;根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键;根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在局部3D坐标系下的局部查询;将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在全局坐标系下的图像特征。本公开可以降低transformer网络的学习难度,从而提高视角转换精度。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景,具体涉及一种多视角图像的视角转换方法、装置、设备和介质。
背景技术
自动驾驶汽车,即可以根据乘客计划自主完成出行任务的汽车,在整个出行过程中,完全不需要驾驶员的参与和控制。自动驾驶汽车想要完成出行安排,离不开感知、决策、控制这三大要素,其中感知作为让汽车“认得路”的重要环节,可以让自动驾驶汽车和驾驶员一样,读懂周围的交通要素。
在自动驾驶的视觉感知领域,通常需要融合来自不同视角相机以及雷达等传感器采集的跨模态信息,从而能够更好地基于融合特征进行感知。而使用一种统一的特征空间进行特征融合,如鸟瞰图空间(BEV,Bird’s Eye View),借助该统一的空间实现端到端的融合感知,是目前较为热门的研究方向。因此,这就会涉及如何实现多视角2D图像到统一3D空间的视角变换的问题。
发明内容
本公开提供了一种多视角图像的视角转换方法、装置、设备和介质。
根据本公开的一方面,提供了一种多视角图像的视角转换方法,包括:
提取多视角图像的图像特征,得到各视角图像的特征图,并将所述特征图作为值,其中,所述多视角图像是由不同视角的相机获取;
根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键;
根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询;
将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征。
根据本公开的另一方面,提供了一种多视角图像的视角转换装置,包括:
特征提取模块,用于提取多视角图像的图像特征,得到各视角图像的特征图,并将所述特征图作为值,其中,所述多视角图像是由不同视角的相机获取;
局部键构建模块,用于根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键;
局部查询构建模块,用于根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询;
视角转换计算模块,用于将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所述的多视角图像的视角转换方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开任意实施例所述的多视角图像的视角转换方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的一种多视角图像的视角转换方法的流程示意图;
图2是根据本公开实施例的另一种多视角图像的视角转换方法的流程示意图;
图3是根据本公开实施例的另一种多视角图像的视角转换方法的流程示意图;
图4a是根据本公开实施例的另一种多视角图像的视角转换方法的流程示意图;
图4b是根据本公开实施例的多视角图像的视角转换方法中解码器的详细设计示意图;
图5是根据本公开实施例的多视角图像的视角转换方法的整体框图;
图6是根据本公开实施例的多视角图像的视角转换方法中图像先转局部坐标系视角的示意图;
图7是根据本公开实施例的多视角图像的视角转换方法与现有技术的对比图;
图8是根据本公开实施例的多视角图像的视角转换装置的示意图;
图9是用来实现本公开实施例的多视角图像的视角转换方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开实施例的一种多视角图像的视角转换方法的流程示意图,本实施例可适用于在完成自动驾驶感知等任务时将多视角2D图像向统一的全局3D空间进行视角转换的情况,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。该方法可由一种多视角图像的视角转换装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如计算机设备或服务器等。如图1所示,该方法具体包括如下:
S101、提取多视角图像的图像特征,得到各视角图像的特征图,并将特征图作为值(value),其中,多视角图像是由不同视角的相机获取。
S102、根据特征图,构建各视角图像在对应的相机视角的局部3D坐标系下的局部键(key)。
S103、根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在所述局部3D坐标系下的局部查询(query)。
S104、将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在所述全局坐标系下的图像特征。
其中,多视角图像是由不同视角的相机获取,例如,安装在自动驾驶车辆上的不同位置的相机,这些相机分别从各自的视角进行拍摄,获取不同视角的车辆周围的图像。多视角图像的特征提取可以采用任意一种特征提取器,例如,可以通过共享的骨干网络(backbone)提取多视角图像的图像特征,得到各视角图像的特征图。
在完成自动驾驶感知等任务时,通常需要进行多模态数据的融合,其中就包括多视角图像的融合,而且将多视角图像以及其他不同模态的数据转换到统一空间下可以实现端到端的融合,不需要复杂的后处理。本公开实施例中的全局坐标系即为统一的3D空间,例如可以为基于BEV确定的3D坐标系。本公开实施例对全局坐标系的定义不做任何限定。
将多视角图像从原本的2D视角转换到全局坐标系的3D视角,本实施例采用的方法是基于transformer网络来实现。transformer网络包括解码器和编码器,并且需要构建出查询、键和值,并将其送入transformer网络,经过transformer网络的计算即可隐式地实现2D到3D的视角变换。其中,关于transformer网络以及查询、键和值的定义,可参考现有技术中对其的说明,此处不再赘述。需要说明的是,在现有的基于transformer网络隐式地实现2D图像到3D的视角变换方法中,通常是需要强行让网络学习怎么从每个不同的图像视角到全局3D空间的变换,这个变换过程耦合了内参与外参。而不同视角相机的内外参都是不一样的,导致网络学习难度较高,不仅影响学习效率,同时也影响学习的效果。
本公开实施例的技术方案,是将现有技术中的直接将图像特征转换到全局空间下,拆解为图像特征先到各自局部的相机坐标系的变换,再基于外参从局部坐标系变换到全局坐标系,从而消除外参的影响。具体的,先构建各相机视角的局部3D坐标系,然后构建局部3D坐标系下的局部键和局部查询。然后,在transformer网络的解码器中,让局部键和局部查询进行计算,全局键和全局查询进行计算,也即,保留原本要学习的全局坐标系下的查询,同时还学习局部3D坐标系下的查询,从而消除transformer网络学习过程中相机外参的影响,降低学习难度,提升学习效果。
其中,由于局部键是各视角图像在对应的相机视角的局部3D坐标系下的键,因此,可以基于设定的图像深度和相机的内参在特征图的基础上构建出特征视锥体,该特征视锥体所在的3D坐标系就是局部3D坐标系。因此,就可以根据特征图构建出各视角图像在对应的相机视角的局部3D坐标系下的局部键。对于局部查询则是根据全局坐标系到各视角的相机坐标系的转换关系进行构建。也就是说,将全局坐标系下的参考点转换到局部3D坐标系下,就可以基于局部3D坐标系下的参考点构建局部查询。其中,查询初始化为0。
解码器由多层堆叠的解码器层组成,每个解码器层包括自注意力网络、交叉注意力网络和前向网络,关于解码器层的结构和操作可以参考DETR(Detection Transformer)范式,此处不再赘述。但正如上文所述,本实施例的改进之处就在于将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,作为transformer网络的解码器的输入,在解码器中,让局部键和局部查询进行计算,全局键和全局查询进行计算,保留原本要学习的全局坐标系下的查询的同时还学习局部3D坐标系下的查询,从而消除transformer网络学习过程中相机外参的影响,降低学习难度,提升学习效果。
图2是根据本公开实施例的另一种多视角图像的视角转换方法的流程示意图,本实施例在上述实施例的基础上,对构建局部键作出进一步优化。如图2所示,该方法具体包括如下:
S201、提取多视角图像的图像特征,得到各视角图像的特征图,并将特征图作为值,其中,多视角图像是由不同视角的相机获取。
S202、针对各视角图像的特征图上的像素点,基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合。
S203、对各视角图像对应的3D坐标集合进行第一位置编码(PE,positionembedding),得到各视角图像在对应的相机视角的局部3D坐标系下的局部键。
S204、根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在所述局部3D坐标系下的局部查询。
S205、将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在所述全局坐标系下的图像特征。
首先根据特征图构建特征视锥体,也就是局部3D坐标系。具体的,针对各视角图像的特征图上的像素点,基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合。其中,图像深度范围是预先设定的,例如从0米到60米的深度范围。有了图像深度的信息,赋予特征图上每个像素点多个深度值,就可以构建出一条以相机作为原点的射线,而多个像素点对应的射线就可以构建出特征视锥体,而特征图上的像素点在特征视锥体所表示的局部3D坐标系中的3D坐标集合也可以根据像素点的坐标和相机的内参计算出来。
在一种实施方式中,基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合,可以包括:将图像深度范围划分为多个深度区间(bin);根据各像素点的位置信息、各视角相机的内参以及各像素点对应的多个深度区间,计算各像素点在每个深度区间的局部3D坐标;根据各像素点的局部3D坐标,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合。其中,对图像深度范围的划分,可以采用均匀划分的方式或近密远疏的方式,本公开不做任何限定。其中,按照均匀划分的方式就是指划分出的多个深度区间的数量是均匀分布的,而按照近密远疏的方式就是指以相机为原点,距离原点远的深度区间的数量少于距离原点近的深度区间的数量。
每个深度区间都有对应的深度值,将各视角相机的内参的逆、各像素点的位置信息和对应的每个深度区间的值相乘,经计算就可以得到各像素点在每个深度区间的局部3D坐标。示例性的,设图像深度范围表示为D={D1,D2,…,DD},即划分为D个深度区间,设每个视角相机的内参为,特征图上每个像素点的坐标为(u,v),那么各像素点在与之对应的局部3D坐标系中对应不同深度区间的3D坐标PC可以表示为(k取值为[1-D]):
在得到各像素点在与之对应的局部3D坐标系中的3D坐标集合后,通过对3D坐标集合进行第一位置编码即可得到各视角图像在对应的相机视角的局部3D坐标系下的局部键。其中,第一位置编码可以利用第一多层感知机(MLP)实现。设局部键表示为,那么,其中,表示第一多层感知机。
本公开实施例的技术方案,通过相机的内参和设定的图像深度范围为各视角相机构建对应的局部3D坐标系,并对特征图上各像素点在局部3D坐标系下的3D坐标集合进行第一位置编码,从而得到各视角图像在对应的相机视角的局部3D坐标系下的局部键。因此,本公开不需要直接估计图像深度,处理方法更加快捷、有效。
图3是根据本公开实施例的另一种多视角图像的视角转换方法的流程示意图,本实施例在上述实施例的基础上进一步进行优化。如图3所示,该方法具体包括如下:
S301、提取多视角图像的图像特征,得到各视角图像的特征图,并将特征图作为值,其中,多视角图像是由不同视角的相机获取。
S302、根据特征图,构建各视角图像在对应的相机视角的局部3D坐标系下的局部键。
S303、根据全局坐标系到各视角的相机坐标系的转换关系,获取全局坐标系下的预定义参考点在各相机视角的局部3D坐标系下的局部参考点。
S304、对局部3D坐标系下的局部参考点的坐标进行第二位置编码,得到各视角图像在所述局部3D坐标系下的局部查询。
S305、将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过解码器得到多视角图像在所述全局坐标系下的图像特征。
对于查询特征的位置编码,通常会将参考点直接定义在全局坐标系下,本公开实施例中,由于同时要学习局部3D坐标系下的局部键和局部查询,因此,需要将全局坐标系下定义的参考点转换到局部3D坐标系下,即得到局部参考点,然后再对局部参考点的坐标进行第二位置编码,得到各视角图像在局部3D坐标系下的局部查询。这样,局部查询就与局部键所编码的位置信息同一个坐标系(局部3D坐标系)下。
具体的,根据全局坐标系到各视角的相机坐标系的转换关系,获取全局坐标系下的预定义参考点在各相机视角的局部3D坐标系下的局部参考点,可以包括:获取各视角图像在全局坐标系下对应的预定义参考点;将预定义参考点的坐标与不同视角的相机外参的逆相乘,得到各相机视角的局部3D坐标系下的局部参考点。
其中,相机外参表示从相机坐标系到全局坐标系的转换关系,设相机外参为,那么局部参考点可以表示为:,其中,g表示全局坐标系,c表示相机坐标系,表示全局坐标系下的参考点,i表示第i个相机。局部查询则可以表示为:,其中,表示第二多层感知机。也就是说,第二位置编码是利用第二多层感知机实现。
本公开实施例的技术方案,根据相机的外参将全局坐标系下的参考点转换到相机对应的局部3D坐标系下,从而得到局部查询,并使得局部查询与局部键所编码的位置信息同一个坐标系(局部3D坐标系)下,之后就可以通过编码器在保留原本要学习的全局坐标系下的查询的同时还学习局部3D坐标系下的查询,从而消除transformer网络学习过程中相机外参的影响,降低学习难度,提升学习效果。
图4a是根据本公开实施例的另一种多视角图像的视角转换方法的流程示意图,本实施例在上述实施例的基础上进一步进行优化。如图4a所示,该方法具体包括如下:
S401、提取多视角图像的图像特征,得到各视角图像的特征图,并将特征图作为值,其中,多视角图像是由不同视角的相机获取。
S402、根据特征图,构建各视角图像在对应的相机视角的局部3D坐标系下的局部键。
S403、根据全局坐标系到各视角的相机坐标系的转换关系,构建各视角图像在所述局部3D坐标系下的局部查询。
S404、将值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,作为交叉注意力网络的输入,通过交叉注意力网络的计算得到多视角图像在所述全局坐标系下的图像特征。
具体的,解码器可以包括自注意力网络(Self-Attention, SA)、交叉注意力网络(Cross Attention, CA)和前向网络(Feed-forward network, FFN)。全局查询可以通过自注意力网络计算得到。而值、局部键和局部查询,以及全局坐标系下的全局键和全局查询,则作为交叉注意力网络的输入,通过交叉注意力网络的计算得到多视角图像在所述全局坐标系下的图像特征。
其中,在交叉注意力网络中,局部键和局部查询之间进行计算,全局键和全局查询之间进行计算。也即,交叉注意力网络的键包括两部分,表示为,查询也包括两部分,表示为。其中,x表示各视角图像的特征图,也即全局键,表示局部键;表示全局查询,表示局部查询。交叉注意力的计算方法为:。其中,下标g表示全局坐标系(global),下标l表示局部3D坐标系(local),,,,T表示转置。
具体可如图4b所示。图4b是根据本公开实施例的多视角图像的视角转换方法中解码器的详细设计示意图。图4b中,全局查询可以表示为:,其含义是原本要学习的全局查询嵌入(embedding) 和全局坐标系下的参考点经位置编码的结果输入自注意力网络,经自注意力网络计算得到,这一自注意力网络的计算过程可参考现有技术中对其的介绍,此处不再赘述。
交叉注意力网络的输入包括V、、、和,分别对应本公开实施例中所述的值、全局键和全局查询、局部键和局部查询。其中,和、和分别经矩阵乘法(MatMul)进行计算。各自的计算结果送入Add & Softmax网络,进行相加与softmax(归一化指数函数)计算,之后,该计算结果与V再经矩阵乘法计算后,最终送入前向网络。其中,V就是指2D图像特征(Image Features),对应本公开实施例中的特征图。图像视锥体为ImageFrustum,[图像(Image)to相机(Camera)]就是指基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合,也即视锥体中各个点的3D坐标,然后经第一位置编码得到,即Kl。[全局坐标系(Global)to相机(Camera)]就是指全局坐标系与相机坐标系之间的转换关系,相机外参为Camera Extrinsics,参考点(Reference Points)是指全局坐标系下的预设参考点,该预设参考点根据相机外参可以转换到局部3D坐标系,得到局部参考点,局部参考点经PE后得到局部查询,即。
如上所述,本公开实施例的技术方案中,先构建各相机视角的局部3D坐标系,然后构建局部3D坐标系下的局部键和局部查询。接着,在transformer网络的解码器的交叉注意力网络中,让局部键和局部查询进行计算,全局键和全局查询进行计算,也即,保留原本要学习的全局坐标系下的查询,同时还学习局部3D坐标系下的查询,从而将现有技术中的直接将图像特征转换到全局空间下,拆解为图像特征先到各自局部的相机坐标系的变换,再基于外参从局部坐标系变换到全局坐标系,从而消除外参的影响,降低学习难度,提升学习效果。
图5是根据本公开实施例的多视角图像的视角转换方法的整体框图。如图所示,多视角图像(Multi-View Images)经主干网络提取2D图像特征(2D Features),得到N个特征图。图像视锥体(Image Frustum)根据相机内参(Camera Intrinsics)得到相机视角下的3D视锥体(Camera View 3D Frustum),即局部3D坐标系。根据特征图构建各视角图像在对应的相机视角的局部3D坐标系下的局部键之后,经键位置编码得到局部键。根据相机外参(Camera Extrinsics)并经位置编码得到局部查询。将特征图作为值,将值,局部键和局部查询送入Transformer,全局键和全局查询(图中未示出)也送入Transformer,通过Transformer的解码器得到多视角图像在全局坐标系下的图像特征,完成从2D图像到3D视角的转换。经转换后即可得到多视角图像的在统一的全局视角的融合特征,融合特征可以用于基于图像的目标识别等任务,此外,还可以融合其他多模态特征以用于更加复杂的感知任务。
图6是根据本公开实施例的多视角图像的视角转换方法中图像先转局部坐标系视角的示意图。如图所示,左边为现有技术中将图像直接转到全局3D视角,由于各相机视角不统一,转换过程中耦合了相机的内参与外参,使得网络的学习难度增高(Hard),影响网络的学习效果。而图6右边所示,本公开实施例先将图像向局部3D坐标系转换,再统一转换到全局坐标系,相对于现有技术而言,本公开实施例的方案中将外参剥离出来,消除了各视角相机外参各不相同的影响,降低了网络学习的难度,从而让网络的学习更加容易,继而提升网络的学习效果,提高多视角图像的视角转换的准确性。
图7是根据本公开实施例的多视角图像的视角转换方法与现有技术的对比图。如图7所示,方案改进前,是直接在全局 3D坐标系下定义参考点,网络学习的是全局查询,属于直接将2D图像特征向3D视角的转换过程。而经本公开实施例的技术方案改进后,是在局部 3D坐标系下确定局部键和局部查询,并与全局键和全局查询(图中未示出)一起学习,从而将现有技术中的直接将图像特征转换到全局空间下,拆解为图像特征先到各自局部的相机坐标系的变换,再基于外参从局部坐标系变换到全局坐标系,从而消除外参的影响,降低学习难度。
图8是根据本公开实施例的多视角图像的视角转换装置的结构示意图,本实施例可适用于在完成自动驾驶感知等任务时将多视角2D图像向统一的全局3D空间进行视角转换的情况,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。该装置可实现本公开任意实施例所述的多视角图像的视角转换方法。如图8所示,该装置800具体包括:
特征提取模块801,用于提取多视角图像的图像特征,得到各视角图像的特征图,并将所述特征图作为值,其中,所述多视角图像是由不同视角的相机获取;
局部键构建模块802,用于根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键;
局部查询构建模块803,用于根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询;
视角转换计算模块804,用于将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征。
可选的,所述局部键构建模块,包括:
3D坐标集合获取单元,用于针对所述各视角图像的特征图上的像素点,基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合;
局部键获取单元,用于对所述各视角图像对应的所述3D坐标集合进行第一位置编码,得到所述各视角图像在对应的相机视角的局部3D坐标系下的局部键。
可选的,所述3D坐标集合获取单元,包括:
划分子单元,用于将所述图像深度范围划分为多个深度区间;
局部3D坐标计算子单元,用于根据所述各像素点的位置信息、所述各视角相机的内参以及所述各像素点对应的多个深度区间,计算所述各像素点在每个深度区间的局部3D坐标;
3D坐标集合获取子单元,用于根据所述各像素点的局部3D坐标,获取所述各像素点在与之对应的局部3D坐标系中的3D坐标集合。
可选的,所述划分子单元具体用于:
按照均匀划分的方式,将所述图像深度范围划分为多个深度区间。
可选的,所述划分子单元具体用于:
按照近密远疏的方式,将所述图像深度范围划分为多个深度区间,其中,所述近密远疏是指,以所述相机为原点,距离所述原点远的深度区间的数量少于距离所述原点近的深度区间的数量。
可选的,所述局部3D坐标计算子单元具体用于:
将所述各视角相机的内参的逆、所述各像素点的位置信息和对应的每个深度区间的值相乘,得到所述各像素点在每个深度区间的局部3D坐标。
可选的,所述局部查询构建模块,包括:
局部参考点获取单元,用于根据全局坐标系到各视角的相机坐标系的转换关系,获取所述全局坐标系下的预定义参考点在各相机视角的局部3D坐标系下的局部参考点;
局部查询获取单元,用于对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码,得到所述各视角图像在所述局部3D坐标系下的局部查询。
可选的,所述局部参考点获取单元,包括:
预定义参考点获取子单元,用于获取所述各视角图像在所述全局坐标系下对应的预定义参考点;
局部参考点获取子单元,用于将所述预定义参考点的坐标与所述不同视角的相机外参的逆相乘,得到所述各相机视角的局部3D坐标系下的局部参考点。
可选的,所述解码器包括交叉注意力网络;
所述视角转换计算模块具体用于:
将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,作为所述交叉注意力网络的输入,通过所述交叉注意力网络的计算得到所述多视角图像在所述全局坐标系下的图像特征。
可选的,在所述交叉注意力网络中,局部键和局部查询之间进行计算,全局键和全局查询之间进行计算。
可选的,所述解码器还包括自注意力网络;所述全局查询是通过所述自注意力网络计算得到。
可选的,所述全局键是所述各视角图像的特征图。
可选的,所述解码器由多层堆叠的解码器层组成,所述解码器层包括自注意力网络、交叉注意力网络和前向网络。
可选的,所述局部键获取单元对所述各视角图像对应的所述3D坐标集合进行第一位置编码,具体为:
所述局部键获取单元利用第一多层感知机对所述各视角图像对应的所述3D坐标集合进行第一位置编码。
可选的,所述局部查询获取单元对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码,具体为:
所述局部查询获取单元利用第二多层感知机对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码。
可选的,所述特征提取模块具体用于:
通过共享的骨干网络提取多视角图像的图像特征。
可选的,所述全局坐标系为基于鸟瞰图空间确定的3D坐标系。
上述产品可执行本公开任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906,例如键盘、鼠标等;输出单元907,例如各种类型的显示器、扬声器等;存储单元908,例如磁盘、光盘等;以及通信单元909,例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如多视角图像的视角转换方法。例如,在一些实施例中,多视角图像的视角转换方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的多视角图像的视角转换方法的一个或多个步骤。备选地,在其他实施例中,计算单元901可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行多视角图像的视角转换方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (34)
1.一种多视角图像的视角转换方法,包括:
提取多视角图像的图像特征,得到各视角图像的特征图,并将所述特征图作为值,其中,所述多视角图像是由不同视角的相机获取;
根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键;
根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询;
将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征。
2.根据权利要求1所述的方法,其中,所述根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键,包括:
针对所述各视角图像的特征图上的像素点,基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合;
对所述各视角图像对应的所述3D坐标集合进行第一位置编码,得到所述各视角图像在对应的相机视角的局部3D坐标系下的局部键。
3.根据权利要求2所述的方法,其中,所述基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合,包括:
将所述图像深度范围划分为多个深度区间;
根据所述各像素点的位置信息、所述各视角相机的内参以及所述各像素点对应的多个深度区间,计算所述各像素点在每个深度区间的局部3D坐标;
根据所述各像素点的局部3D坐标,获取所述各像素点在与之对应的局部3D坐标系中的3D坐标集合。
4.根据权利要求3所述的方法,其中,所述将所述图像深度范围划分为多个深度区间,包括:
按照均匀划分的方式,将所述图像深度范围划分为多个深度区间。
5.根据权利要求3所述的方法,其中,所述将所述图像深度范围划分为多个深度区间,包括:
按照近密远疏的方式,将所述图像深度范围划分为多个深度区间,其中,所述近密远疏是指,以所述相机为原点,距离所述原点远的深度区间的数量少于距离所述原点近的深度区间的数量。
6.根据权利要求1所述的方法,其中,所述根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询,包括:
根据全局坐标系到各视角的相机坐标系的转换关系,获取所述全局坐标系下的预定义参考点在各相机视角的局部3D坐标系下的局部参考点;
对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码,得到所述各视角图像在所述局部3D坐标系下的局部查询。
7.根据权利要求6所述的方法,其中,所述根据全局坐标系到各视角的相机坐标系的转换关系,获取所述全局坐标系下的预定义参考点在各相机视角的局部3D坐标系下的局部参考点,包括:
获取所述各视角图像在所述全局坐标系下对应的预定义参考点;
将所述预定义参考点的坐标与所述不同视角的相机外参的逆相乘,得到所述各相机视角的局部3D坐标系下的局部参考点。
8.根据权利要求1所述的方法,其中,所述解码器包括交叉注意力网络;
所述将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征,包括:
将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,作为所述交叉注意力网络的输入,通过所述交叉注意力网络的计算得到所述多视角图像在所述全局坐标系下的图像特征。
9.根据权利要求8所述的方法,其中,在所述交叉注意力网络中,局部键和局部查询之间进行计算,全局键和全局查询之间进行计算。
10.根据权利要求8所述的方法,其中,所述解码器还包括自注意力网络;所述全局查询是通过所述自注意力网络计算得到。
11.根据权利要求8所述的方法,其中,所述全局键是所述各视角图像的特征图。
12.根据权利要求1所述的方法,其中,所述解码器由多层堆叠的解码器层组成,所述解码器层包括自注意力网络、交叉注意力网络和前向网络。
13.根据权利要求2所述的方法,其中,所述对所述各视角图像对应的所述3D坐标集合进行第一位置编码,包括:
利用第一多层感知机对所述各视角图像对应的所述3D坐标集合进行第一位置编码。
14.根据权利要求6所述的方法,其中,所述对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码,包括:
利用第二多层感知机对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码。
15.根据权利要求1所述的方法,其中,所述提取多视角图像的图像特征,包括:
通过共享的骨干网络提取多视角图像的图像特征。
16.根据权利要求1所述的方法,其中,所述全局坐标系为基于BEV鸟瞰图空间确定的3D坐标系。
17.一种多视角图像的视角转换装置,包括:
特征提取模块,用于提取多视角图像的图像特征,得到各视角图像的特征图,并将所述特征图作为值,其中,所述多视角图像是由不同视角的相机获取;
局部键构建模块,用于根据所述特征图,构建所述各视角图像在对应的相机视角的局部3D坐标系下的局部键;
局部查询构建模块,用于根据全局坐标系到各视角的相机坐标系的转换关系,构建所述各视角图像在所述局部3D坐标系下的局部查询;
视角转换计算模块,用于将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,输入transformer网络的解码器,通过所述解码器得到所述多视角图像在所述全局坐标系下的图像特征。
18.根据权利要求17所述的装置,其中,所述局部键构建模块,包括:
3D坐标集合获取单元,用于针对所述各视角图像的特征图上的像素点,基于各视角相机的内参和设定的图像深度范围,获取各像素点在与之对应的局部3D坐标系中的3D坐标集合;
局部键获取单元,用于对所述各视角图像对应的所述3D坐标集合进行第一位置编码,得到所述各视角图像在对应的相机视角的局部3D坐标系下的局部键。
19.根据权利要求18所述的装置,其中,所述3D坐标集合获取单元,包括:
划分子单元,用于将所述图像深度范围划分为多个深度区间;
局部3D坐标计算子单元,用于根据所述各像素点的位置信息、所述各视角相机的内参以及所述各像素点对应的多个深度区间,计算所述各像素点在每个深度区间的局部3D坐标;
3D坐标集合获取子单元,用于根据所述各像素点的局部3D坐标,获取所述各像素点在与之对应的局部3D坐标系中的3D坐标集合。
20.根据权利要求19所述的装置,其中,所述划分子单元具体用于:
按照均匀划分的方式,将所述图像深度范围划分为多个深度区间。
21.根据权利要求19所述的装置,其中,所述划分子单元具体用于:
按照近密远疏的方式,将所述图像深度范围划分为多个深度区间,其中,所述近密远疏是指,以所述相机为原点,距离所述原点远的深度区间的数量少于距离所述原点近的深度区间的数量。
22.根据权利要求17所述的装置,其中,所述局部查询构建模块,包括:
局部参考点获取单元,用于根据全局坐标系到各视角的相机坐标系的转换关系,获取所述全局坐标系下的预定义参考点在各相机视角的局部3D坐标系下的局部参考点;
局部查询获取单元,用于对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码,得到所述各视角图像在所述局部3D坐标系下的局部查询。
23.根据权利要求22所述的装置,其中,所述局部参考点获取单元,包括:
预定义参考点获取子单元,用于获取所述各视角图像在所述全局坐标系下对应的预定义参考点;
局部参考点获取子单元,用于将所述预定义参考点的坐标与所述不同视角的相机外参的逆相乘,得到所述各相机视角的局部3D坐标系下的局部参考点。
24.根据权利要求17所述的装置,其中,所述解码器包括交叉注意力网络;
所述视角转换计算模块具体用于:
将所述值、局部键和局部查询,以及所述全局坐标系下的全局键和全局查询,作为所述交叉注意力网络的输入,通过所述交叉注意力网络的计算得到所述多视角图像在所述全局坐标系下的图像特征。
25.根据权利要求24所述的装置,其中,在所述交叉注意力网络中,局部键和局部查询之间进行计算,全局键和全局查询之间进行计算。
26.根据权利要求24所述的装置,其中,所述解码器还包括自注意力网络;所述全局查询是通过所述自注意力网络计算得到。
27.根据权利要求24所述的装置,其中,所述全局键是所述各视角图像的特征图。
28.根据权利要求17所述的装置,其中,所述解码器由多层堆叠的解码器层组成,所述解码器层包括自注意力网络、交叉注意力网络和前向网络。
29.根据权利要求18所述的装置,其中,所述局部键获取单元对所述各视角图像对应的所述3D坐标集合进行第一位置编码,具体为:
所述局部键获取单元利用第一多层感知机对所述各视角图像对应的所述3D坐标集合进行第一位置编码。
30.根据权利要求22所述的装置,其中,所述局部查询获取单元对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码,具体为:
所述局部查询获取单元利用第二多层感知机对所述局部3D坐标系下的局部参考点的坐标进行第二位置编码。
31.根据权利要求17所述的装置,其中,所述特征提取模块具体用于:
通过共享的骨干网络提取多视角图像的图像特征。
32.根据权利要求17所述的装置,其中,所述全局坐标系为基于BEV鸟瞰图空间确定的3D坐标系。
33.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-16中任一项所述的多视角图像的视角转换方法。
34.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-16中任一项所述的多视角图像的视角转换方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168244.XA CN115866229B (zh) | 2023-02-14 | 2023-02-14 | 多视角图像的视角转换方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310168244.XA CN115866229B (zh) | 2023-02-14 | 2023-02-14 | 多视角图像的视角转换方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115866229A true CN115866229A (zh) | 2023-03-28 |
CN115866229B CN115866229B (zh) | 2023-05-05 |
Family
ID=85659084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310168244.XA Active CN115866229B (zh) | 2023-02-14 | 2023-02-14 | 多视角图像的视角转换方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115866229B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580212A (zh) * | 2023-05-16 | 2023-08-11 | 北京百度网讯科技有限公司 | 图像生成方法、图像生成模型的训练方法、装置和设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122378A1 (en) * | 2017-04-17 | 2019-04-25 | The United States Of America, As Represented By The Secretary Of The Navy | Apparatuses and methods for machine vision systems including creation of a point cloud model and/or three dimensional model based on multiple images from different perspectives and combination of depth cues from camera motion and defocus with various applications including navigation systems, and pattern matching systems as well as estimating relative blur between images for use in depth from defocus or autofocusing applications |
CN113673425A (zh) * | 2021-08-19 | 2021-11-19 | 清华大学 | 一种基于Transformer的多视角目标检测方法及系统 |
CN114743017A (zh) * | 2022-04-15 | 2022-07-12 | 北京化工大学 | 基于Transformer全局与局部注意力交互的目标检测方法 |
CN114782510A (zh) * | 2022-04-29 | 2022-07-22 | 北京地平线信息技术有限公司 | 目标物体的深度估计方法和装置、存储介质、电子设备 |
CN114966789A (zh) * | 2022-05-12 | 2022-08-30 | 华中科技大学 | 一种融合gnss与多视角视觉的建图方法和系统 |
CN115273002A (zh) * | 2022-07-01 | 2022-11-01 | 华为技术有限公司 | 一种图像处理方法、装置、存储介质及计算机程序产品 |
CN115409855A (zh) * | 2022-09-20 | 2022-11-29 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
-
2023
- 2023-02-14 CN CN202310168244.XA patent/CN115866229B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190122378A1 (en) * | 2017-04-17 | 2019-04-25 | The United States Of America, As Represented By The Secretary Of The Navy | Apparatuses and methods for machine vision systems including creation of a point cloud model and/or three dimensional model based on multiple images from different perspectives and combination of depth cues from camera motion and defocus with various applications including navigation systems, and pattern matching systems as well as estimating relative blur between images for use in depth from defocus or autofocusing applications |
CN113673425A (zh) * | 2021-08-19 | 2021-11-19 | 清华大学 | 一种基于Transformer的多视角目标检测方法及系统 |
CN114743017A (zh) * | 2022-04-15 | 2022-07-12 | 北京化工大学 | 基于Transformer全局与局部注意力交互的目标检测方法 |
CN114782510A (zh) * | 2022-04-29 | 2022-07-22 | 北京地平线信息技术有限公司 | 目标物体的深度估计方法和装置、存储介质、电子设备 |
CN114966789A (zh) * | 2022-05-12 | 2022-08-30 | 华中科技大学 | 一种融合gnss与多视角视觉的建图方法和系统 |
CN115273002A (zh) * | 2022-07-01 | 2022-11-01 | 华为技术有限公司 | 一种图像处理方法、装置、存储介质及计算机程序产品 |
CN115409855A (zh) * | 2022-09-20 | 2022-11-29 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116580212A (zh) * | 2023-05-16 | 2023-08-11 | 北京百度网讯科技有限公司 | 图像生成方法、图像生成模型的训练方法、装置和设备 |
CN116580212B (zh) * | 2023-05-16 | 2024-02-06 | 北京百度网讯科技有限公司 | 图像生成方法、图像生成模型的训练方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115866229B (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115880555B (zh) | 目标检测方法、模型训练方法、装置、设备及介质 | |
EP3989117A1 (en) | Vehicle information detection method and apparatus, method and apparatus for training detection model, electronic device, storage medium and program | |
CN113901909B (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
CN111291650A (zh) | 自动泊车辅助的方法及装置 | |
CN116188893A (zh) | 基于bev的图像检测模型训练及目标检测方法和装置 | |
CN115879060B (zh) | 基于多模态的自动驾驶感知方法、装置、设备和介质 | |
CN115866229B (zh) | 多视角图像的视角转换方法、装置、设备和介质 | |
CN117746133B (zh) | 目标检测方法、模型训练方法、装置、设备及存储介质 | |
CN115908992A (zh) | 双目立体匹配的方法、装置、设备以及存储介质 | |
CN117745944A (zh) | 预训练模型确定方法、装置、设备以及存储介质 | |
CN113932796B (zh) | 高精地图车道线生成方法、装置和电子设备 | |
CN118038229A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN116363615B (zh) | 数据融合方法、装置、车辆和存储介质 | |
CN115909255B (zh) | 图像生成、图像分割方法、装置、设备、车载终端及介质 | |
CN115861755A (zh) | 特征融合方法、装置、电子设备及自动驾驶车辆 | |
CN116664997A (zh) | 一种感知融合系统、电子设备和存储介质 | |
CN114463409B (zh) | 图像深度信息的确定方法、装置、电子设备和介质 | |
CN115790621A (zh) | 高精地图更新方法、装置及电子设备 | |
CN113593046B (zh) | 全景切换方法、装置、电子设备和存储介质 | |
CN114429631A (zh) | 三维对象检测方法、装置、设备以及存储介质 | |
JP2021101370A (ja) | モデリングルートの検証方法、装置、無人車両及び記憶媒体 | |
CN112819874A (zh) | 深度信息处理方法、装置、设备、存储介质以及程序产品 | |
CN115240171B (zh) | 道路结构感知方法及装置 | |
CN115049895B (zh) | 一种图像属性识别方法、属性识别模型训练方法及装置 | |
CN115829898B (zh) | 数据处理方法、装置、电子设备、介质以及自动驾驶车辆 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |