CN116635893A - 用于确定三维位置的方法和系统 - Google Patents
用于确定三维位置的方法和系统 Download PDFInfo
- Publication number
- CN116635893A CN116635893A CN202180085845.3A CN202180085845A CN116635893A CN 116635893 A CN116635893 A CN 116635893A CN 202180085845 A CN202180085845 A CN 202180085845A CN 116635893 A CN116635893 A CN 116635893A
- Authority
- CN
- China
- Prior art keywords
- optical sensor
- map
- image
- plane
- application
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 230000003287 optical effect Effects 0.000 claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 53
- 238000012545 processing Methods 0.000 claims description 8
- 230000003190 augmentative effect Effects 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000005484 gravity Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005305 interferometry Methods 0.000 description 2
- 230000000704 physical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 239000013255 MILs Substances 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Length Measuring Devices By Optical Means (AREA)
- Image Analysis (AREA)
Abstract
一种用于确定物体的三维(3D)位置的方法,其中,所述物体位于光学传感器的视场中;其中,所述物体位于平面上或平面上方,或者优选地位于虚拟平面上。所述方法包括以下步骤:a)从所述光学传感器获取包括所述物体的图像;b)获得所述光学传感器在包括所述光学传感器的视场的至少一部分的3D地图中的3D位置;c)辨别所述图像中的所述物体;d)确定所述物体在所述图像中的2D位置;e)确定所述3D地图中的所述平面;f)基于所述物体的2D位置在所述3D地图中的投影,在所述3D地图中确定从所述光学传感器的3D位置到所述物体的至少一个视线矢量;g)基于所述至少一个视线矢量与所述平面的交点来确定所述物体的3D位置。
Description
技术领域
本发明涉及用于确定三维位置的方法和系统。特别地,本发明涉及用于基于使用光学传感器捕获的图像来确定物体在空间中相对于光学传感器的三维(3D)位置的方法和系统。
背景技术
物体在空间中的3D位置的确定是不同技术领域中经常出现的问题。已经找到了不同的解决方案。这些解决方案基于不同的传感器技术和物理效应。一些解决方案甚至结合了不同的传感器和物理效应。根据技术问题,不同的定位参数是相关的。典型的相关参数是精度、准确度、速度和成本。
干涉测量系统基于光学测量方案。将反射器作为标记放置在物体上。基于激光的干涉测量系统提供物体的位置和角度。在半径为20m的半球测量体积中,大约5微米的精度是可能的。然而,这样的系统非常昂贵。
基于相机的系统通常依赖于立体图像来确定位置。然而,市售的基于相机的系统不太准确和/或测量速度低。
红外系统用于运动捕获应用。通常,使用一个或多个红外反射器。这种系统的精度通常在几毫米的范围内。
磁性系统基于磁场的测量。磁场可以由永磁体或磁线圈产生。基于磁场的已知位置和/或结构、使用合适的传感器进行的磁通密度的测量,可以确定物体的位置和角度。一个典型的系统在3米的距离上具有1.3厘米的分辨率。然而,这需要在物体处放置一个或多个线圈或者一个或多个传感器。
基于声音或超声波的系统也需要将合适的接收器和/或反射器放置在物体处。此外,接收器必须不被覆盖,并且检测范围相当低。因此,这种定位不适合大多数应用。
发明内容
因此,本发明的目的是提供一种用于确定三维位置的改进的方法和系统。该目的通过独立权利要求的主题来实现,从属权利要求涉及本发明的其它方面。
在本发明的一个方面中,提供了一种用于确定物体的三维(3D)位置的方法,其中,所述物体位于光学传感器的视场中;其中,所述物体位于平面上或平面上方,或者优选地位于虚拟平面上;所述方法包括以下步骤:
a)从所述光学传感器获取包括所述物体的图像;
b)获得所述光学传感器在包括所述光学传感器的视场的至少一部分的3D地图中的3D位置;
c)辨别所述图像中的所述物体;
d)确定所述物体在所述图像中的2D位置;
e)确定所述3D地图中的所述平面;
f)基于所述物体的2D位置在所述3D地图中的投影,在所述3D地图中确定从所述光学传感器的3D位置到所述物体的至少一个视线矢量;
g)基于所述至少一个视线矢量与所述平面的交点来确定所述物体的3D位置。
根据本发明的一个实施方式,在辨别出所述物体之后,执行数据库搜索以识别所述物体,并且从所述数据库中检索关于所述物体的3D形式的信息,其中,基于检索到的信息进一步确定所述物体的3D位置,以及其中,所述检索到的信息包括以下中的至少一者:所述物体的高度、宽度、深度和形状信息。
根据本发明的一个实施方式,步骤c)和步骤d)中的至少一者基于计算机视觉算法,和/或其中,步骤b)和步骤e)至步骤g)中的至少一者基于增强现实(AR)算法。
根据本发明的一个实施方式,基于AR算法并基于所述图像生成所述3D地图,和/或其中,基于所述图像预先计算所述3D地图并从数据库下载所述3D地图。
根据本发明的一个实施方式,所述平面对应于所述图像中的真实世界的平面,优选地由所述3D地图中的表面表示;和/或其中,所述虚拟平面由关于所述物体的至少一个另外的位置信息确定,所述至少一个另外的位置信息优选地是通过所述物体的高度传感器获取的高度信息。
根据本发明的一个实施方式,步骤a)至步骤g)以周期重复;其中,在第一次辨别出所述物体之后,在所述图像中执行对所述物体的2D跟踪;其中,只要在所述图像中跟踪所述物体,就跳过步骤c)和步骤d);以及其中,根据所述2D跟踪获得所述2D位置。
根据本发明的一个实施方式,所述光学传感器是智能设备的光学传感器;以及其中,所述方法的步骤在所述智能设备的处理装置上执行;和/或,其中,所述智能设备的处理装置被配置为与云环境通信以执行所述方法的步骤。
根据本发明的一个实施方式,基于所述智能设备的定位单元来确定所述光学传感器的位置和取向。
根据本发明的一个实施方式,所述计算机视觉算法是YOLO、RetinaNet、SSD及其衍生算法中的一者;和/或,其中,所述增强现实算法是同时定位和映射(SLAM)。
在本发明的一个方面中,提供了一种用于确定物体的三维(3D)位置的系统;其中,所述系统包括光学传感器,并且所述物体位于所述光学传感器的视场中;其中,所述系统包括数据处理装置,所述数据处理装置被配置为执行根据前述方面和实施方式中的任一者的方法。
在本发明的一个方面中,提供了一种计算机程序,所述计算机程序包括指令,当连接到光学传感器的计算设备执行所述程序时,所述指令使得计算设备执行根据前述方面和实施方式中的任一者的方法。
在本发明的一个方面中,提供了一种计算机可读介质,所述计算机可读介质包括指令,所述指令在由连接到光学传感器的计算设备执行时,使得所述计算设备执行根据前述方面和实施方式中的任一者的方法。
本发明的一个一般方面是使用智能设备的一个光学传感器来确定在光学传感器的视场中的物体的3D位置。这具有以下优点:可以使用典型的智能设备,例如通常只有一个光学传感器的智能电话。
在下文中,物体的3D定位被定义为确定一组坐标的过程,该组坐标描述了物体在空间中的三维位置。在下文中,物体的跟踪被定义为随着时间的推移重复的3D定位和空间中轨迹的确定。这两个问题密切相关。在以下描述中,除非另有指示或显而易见,否则与物体的3D定位有关的实施方式的特征也被认为是与物体的3D跟踪有关的相应实施方式的特征,反之亦然。
在本说明书中,术语“平面”和“2D表面”被用作等价物。在一个简单的3D模型中,所有表面都可以抽象为平面。然而,在实践中,3D模型的表面可能更复杂。为了更好地理解本发明,在适当的情况下,仅将其称为平面。这始终包括更复杂的2D表面。
此外,使用术语“虚拟平面”。类似于平面和2D表面,术语“虚拟平面”也包括虚拟表面,甚至复杂的虚拟表面,即多个相邻的严格平面的表面。
本发明的一个一般方面是基于智能设备,特别是基于所述智能设备的光学传感器、处理能力和/或连接功能来执行所述方法。在本发明的实施方式中,在智能电话、平板电脑设备或智能相机中的一个或多个上执行所述方法。
本发明的另一个一般方面是,所述系统是包括光学传感器、计算单元,并且优选地包括连接单元的分布式系统。所有后一种分布式组件通过无线和/或有线连接适当地可操作地连接。
换句话说,所述系统可以包括:集成的相机和计算设备(如智能电话或平板电脑设备);具有单独计算设备(如PC)的网络摄像头;或者通过某种形式的电信向计算设备提供图像数据的某种远程图像传感器。
本发明的一个一般方面是根据从图像传感器获得的一个图像执行两阶段定位过程。首先,基于图像,获得图像传感器的视场中的空间的3D模型,这也被称为渲染。对于渲染,可以使用一种或多种方法,优选地,使用被称为同时定位和映射(SLAM)的方法。
在3D模型中,识别一个或多个平面。其次,基于图像,将物体定位在3D模型的一个平面上。然后可以基于相机的位置和观看方向以及平面的位置来计算3D位置。
可以在从光学传感器获取图像的同时连续计算3D模型。附加地或替选地,所述方法和系统可以基于预先计算的3D模型,该预先计算的3D模型优选地通过连接功能从数据库访问和/或下载。
3D模型也可以被称为3D地图。3D地图优选地基于已知的增强现实(AR)算法来计算。附加地或替选地,可以使用现有的3D地图。例如,3D地图可以作为建筑物或房间的数字模型或所述模型的一部分来获得。所述模型的所述部分可以基于光学传感器的图像来确定。
本发明的一个一般方面是,在从光学传感器获取的图像中,优选地基于计算机视觉算法来辨别物体,并确定所辨别物体的2D位置。
基于一个或多个AR算法生成空间的3D地图。此外,确定3D地图与光学传感器之间的关系。
换句话说,传感器在3D地图内的位置和视角方向始终是已知的,或者可以直接计算。优选地,使用定位单元来确定传感器的位置。更优选地,定位单元与光学传感器一起集成在一个设备中。优选地,使用智能电话的光学传感器和定位单元。
基于图像传感器的位置和取向,确定3D地图中的视线矢量L。最后,在第一计算中计算物体在空间中的3D位置。第一计算基于视线矢量L与空间的3D地图中定义的2D表面的交点P1的计算。
可选地,第一计算的结果基于根据物体的已知3D几何形状计算的校正参数来改进。在识别出所辨别物体的情况下,基于计算机视觉算法,通过智能设备的连接功能从数据库中检索物体的3D几何形状,以便确定校正参数。
附图说明
当结合附图考虑时,本发明的上述目的、优点和特征以及其他目的、优点和特征将从本发明的某些优选实施方式的以下详细描述中更容易理解,其中:
图1示出了根据本发明的一个实施方式的定位系统的示意图;
图2a示出了根据本发明的第一实施方式的定位方法的流程图;
图2b示出了根据本发明的第二实施方式的定位方法的流程图;
图2c示出了根据本发明的第三实施方式的定位方法的流程图;
图2d示出了根据本发明的第四实施方式的定位方法的流程图;以及
图3示出了根据本发明的一个实施方式的3D定位方法的应用。
具体实施方式
在下文中,将描述本发明的实施方式。应注意,除非另有说明或显而易见,否则所描述的实施方式中的任何一个的一些方面也可以在一些其他实施方式中找到。然而,为了增加可理解性,每个方面将仅在首次提及时进行详细描述,并且将省略对相同方面的任何重复描述。
在整个描述中,来自光学传感器的图像被处理。虽然用于处理步骤的所有所使用的术语都应基于其普通含义进行解释,但以下术语基于以下定义来使用:
i)辨别一个或多个物体。来自光学传感器(例如智能电话的相机)的图像就是图像数据。可以使用各种计算机视觉算法来辨别图像内的一个或多个物体。也就是说,确定物体在图像中的2D位置。优选地,还确定一些基本参数,例如所述物体的形状、大小和颜色。作为辨别过程的结果,除了图像之外,图像中物体的位置也是已知的。
ii)识别一个或多个物体。在辨别出物体之后,可以识别该物体。该识别可以基于存储在数据库中的数据。该识别优选地基于机器学习算法,更优选地基于神经网络。在识别之后,除了图像和物体的位置之外,物体的类型也是已知的。基于该识别,可以获得附加数据,例如已知的3D几何形状。
iii)在3D地图中定位一个或多个物体,即确定3D位置。基于本发明的上述方面,基于物体在3D地图中的平面上的定位来确定3D位置。也就是说,计算平面上的与图像中物体的2D位置相对应的位置。根据平面中的位置,确定3D位置。
3D地图中的平面优选地对应于在光学传感器的视角中的真实世界平面,优选地是房间的地板。在这种情况下,物体的移动优选地被限制在该平面中的移动,即物体被认为是非飞行的。然而,虚拟平面,即不对应于现实世界中的平面也是可能的。在这种情况下,远程受控物体的移动优选地与所述虚拟平面相关,即,相对于虚拟平面,物体是非飞行的,然而,相对于现实世界的平面,物体可以是飞行的,例如在平行于房间地板的平面中,例如在地板上方1米的虚拟平面中。
图1示出了根据本发明的一个实施方式的定位系统的示意图。根据本发明,将计算机视觉和AR算法的要素相结合。根据本发明的3D定位基于物体101在智能设备100的相机图像中的2D定位,优选基于实时2D定位。
计算基于两个先决条件。第一个先决条件是物体101没有在空间中飞行,即它是在空间的表面上发现的。换句话说,物体始终是在空间中定义的平面E上找到的。换句话说,位置的一个维度是固定的。如上详细所述,虚拟平面可以用于固定一个坐标。在本发明的一个优选实施方式中,飞行的无人机的高度传感器用于固定高度,从而创建虚拟平面。使用根据本发明的方法和系统来确定无人机在该平面中的位置,从而确定无人机在房间中的3D位置。
平面E可以例如由合适数量的坐标或矢量来定义。第二个先决条件是相机的位置H,即智能设备100的位置是已知的,或者至少可以直接确定。
在一个优选实施方式中,基于AR算法方法、优选SLAM来确定智能设备的位置。为了确定位置,在SLAM中,生成周围环境的地图并将其用于跟踪智能设备的位置,即光学传感器在所述地图中的位置。
位置H由合适的空间坐标来定义。许多坐标系是已知的。为了说明目的,假设使用笛卡尔坐标。也就是说,H由Hx、Hy和Hz给出。类似地,平面E被定义在空间的合适坐标系中。
在第一步骤中,获得相机的视场中的空间的3D模型。
在本发明的一个实施方式中,基于AR算法根据相机图像计算3D地图。附加地或替选地,3D地图可以被预先计算并存储在数据库中。在这种情况下,3D地图从数据库加载到智能设备100中。
在本发明的一个优选实施方式中,SLAM用于创建3D地图。然而,可以使用替选的AR方法。对于每种AR方法,特别是对于SLAM,可以使用不同的传感器。光学传感器和激光雷达(LIDAR)是优选的传感器。
不管传感器如何,都生成周围环境的云图。基于所述云图,重建地图的平面和其他要素。不管传感器如何,都基于AR实时生成3D地图,并且基于AR确定所述3D地图中的位置,或者3D地图是预加载的,并且基于AR仅确定3D地图中的位置。
在物体的3D位置、即P1(Px,Py,Pz)的第一计算中,基于2D位置在所述平面E上的视线投影。也就是说,首先通过在3D地图中确定从相机、即从位置H到物体在图像中的2D位置的视线的矢量L来计算该位置。
由于第一个先决条件,假设物体是在空间的平面上找到的。由于第二个先决条件,位置H是已知的。因此,可以通过计算视线矢量L与空间中的平面E在3D地图中的交点来确定物体的位置P1。
在一个优选实施方式中,仅在真实世界的表面(例如地板或桌面)上识别平面。也就是说,在光学传感器与物体之间只有一个平面,该物体位于该平面上。因此,当物体被确定在第一平面上,例如在桌面上时,物体被辨别,即可见。替选地,物体不可见,例如,因为它在桌子下面的地板上,则不能确定3D位置,因为在2D图像中也不能辨别出物体。
在本发明的一个实施方式中,视线矢量L是基于相机角度和物体在图像中的2D位置来计算的。
位置P1不考虑物体的实际尺寸。在本发明的一个实施方式中,考虑到相机仅捕获物体的2D图像、即2D投影,第二位置P2基于物体的尺寸来计算。
根据物体的几何复杂性,第二计算可能具有高度的复杂度。在已经识别了物体并且基于三角原理已知物体的3D几何形状之后,可以根据P1计算物体的任何特定点的3D位置。
在本发明的一个实施方式中,物体近似为具有高度h(优选50cm)、宽度w和深度d(宽度w和深度d每者优选10cm)的块。光学传感器位于高度h1(优选为1m),并且与物体的距离d1(优选1m的距离)处。也就是说,光学传感器在角度α下观察物体。根据本发明的一个实施方式,轨迹、即视线矢量是基于物体的质心或重心来确定的,该质心或重心是物体在图像中的2D位置。在所描述的优选示例中,这导致视线矢量与物体后方约30cm的平面相交。然而,由于物体的几何形状是已知的,即h、w和d是已知的,并且光学传感器的位置也是已知的,因此可以基于三角法来确定物体的正确位置、即真实中心。
换句话说,第二计算基于视线与所述平面的交点和光学传感器的位置来确定物体的2D投影的中心与物体在3D世界/3D地图中的真实中心之间的差异。
为了说明目的,校正由偏移角α和偏移高度h′定义,偏移高度h′描述了物体101的重心偏移,该重心偏移取决于视角和3D地图中物体到相机的距离。
在本发明的一个实施方式中,上述3D定位算法用硬件实现,所述硬件被优化,以允许在智能电话上进行实时定位。这也允许在空间中实时跟踪物体。
在本发明的一个实施方式中,所述方法包括物体识别步骤。优选地,在智能设备100上执行物体识别步骤。优选地,物体识别基于机器学习算法,更优选地基于神经网络。这种神经网络的一个示例是“你只看一次(you only look once)”(YOLO)。
在本发明的一个实施方式中,智能设备100包括连接功能,并由此连接到数据库。物体识别基于由所述数据库提供的数据。在本发明的一个优选实施方式中,物体识别基于图片分类算法。
图2a示出了根据本发明的第一实施方式的定位方法的流程图;图2b示出了根据本发明的第二实施方式的定位方法的流程图;图2c示出了根据本发明的第三实施方式的定位方法的流程图;图2d示出了根据本发明的第四实施方式的定位方法的流程图。
在本发明的第一实施方式中,如图2a所示,第一步骤S1中,从智能设备的光学传感器获取图像。在该图像中,要定位的物体在传感器的视场中,即物体在图像上。根据本发明的第三步骤S3,在图像中辨别一个或多个物体。在本发明的实施方式中,为了辨别图像中的物体,使用已知的计算机视觉算法。此类算法的示例有YOLO–YOLOv3或KCF。
如上所述,YOLO指的是“你只看一次”,它描述了所述算法允许仅基于一个相机帧来确定物体。KCF指的是核相关滤波算法,这是一种用于跟踪物体的算法。这两种算法都是物体辨别和跟踪的优选算法。然而,类似的算法也起作用。用于跟踪的另外的优选算法是KCF、MedianFlow、TLD、boosting(助推)、MIL及其各自的衍生算法。另外优选的检测算法是YOLO、RetinaNet、SSD及其各自的衍生算法。
在没能辨别出任何物体的情况下,获取下一个图像,即重复步骤S1。在已经辨别出物体的情况下,继续步骤S4,即确定物体在图像中的2D位置。优选地,S3中的图像辨别使用与步骤S4中的2D位置的确定相同的计算机视觉算法。2D位置是物体在图像中的2D坐标。
在步骤S7中,获得3D地图。在本发明的实施方式中,基于一个或多个AR算法来执行前述步骤S7中的3D地图的获得。这种算法的示例有ARCore、ARKit或Vuforia。附加地或替选地,3D地图是预加载的。
在本发明的步骤S6中,对2D位置进行处理。根据本发明的一个实施方式,图像中的2D位置用于确定视线矢量L,该视线矢量L锚定在光学传感器的位置处并且指向投影到3D地图上的图像中的物体的2D位置的方向。
在一个优选实施方式中,视线矢量L从光学传感器指向物体的中心。
中心有不同的定义,例如质心或重心。每个定义都同样适用于本发明。然而,根据所使用的计算机视觉算法,“中心”的概念是由该算法决定的。在一个优选实施方式中,该算法提供矩形,该矩形是包括整个物体的最小矩形。物体的“中心”被认为是矩形的中心。
可以使用不同的数学方法来定义2D图像在3D地图上的投影。在一个优选实施方式中,对于每个图像,光学传感器的位置和/或取向也是已知的和/或确定的,并且可以确定光学传感器在3D模型中的视场。视线矢量是基于中心像素及其在3D地图中的投影来确定的。
在本发明的一个优选实施方式中,物体的3D位置被计算为矢量L与3D地图的平面E的交点P1。
在本发明的第二实施方式中,如图2b所示,跟踪物体的2D位置。第二实施方式基于第一实施方式。省略了与第一实施方式的步骤基本相同的所有步骤的描述。
根据本发明的步骤S2,确定物体的位置、即在图像中的2D位置是否已经被确定。在已经确定2D位置的情况下,继续进行步骤S6,即如上所述的3D位置的确定。在没有确定2D位置的情况下,继续步骤S3,即辨别图像中的一个或多个物体。在步骤S2中的过程的第一次迭代中,答案通常是“否”,因此总是继续步骤S3。
在跟踪物体的情况下,在步骤S5中,使用单独的计算机视觉算法来跟踪物体的变化的2D位置。S5中的双框指示可选地独立运行的计算机视觉算法。步骤S5使用当前帧和所确定的2D位置以及由光学传感器提供的下一图像帧来保持对物体的跟踪。
在第三实施方式中,如图2c所示,在步骤S7a中采用单独的AR算法,以根据获取的一个或多个图像生成3D地图。第三实施方式基于第一实施方式和/或第二实施方式。省略了与第一实施方式和/或第二实施方式的步骤基本相同的所有步骤的描述。
在步骤S7a中,基于AR算法生成视场的3D地图。在一个优选实施方式中,该AR算法作为独立运行的算法来操作。如上所述,可以使用已知的AR算法和/或可以使用预先计算的3D地图。
在第四实施方式中,如图2d所示,在步骤S8中搜索数据库匹配以改进处理。第四实施方式基于第一实施方式、第二实施方式和/或第三实施方式。省略了与第一实施方式、第二实施方式和/或第四实施方式的步骤基本相同的所有步骤的描述。
在本发明的一个优选实施方式中,在已经在图像中辨别出物体的情况下,在步骤S8中,在数据库中搜索与辨别出的物体的匹配。在没有找到匹配的情况下,获取下一个图像,直到找到辨别出的物体与数据库条目的匹配为止。
由于大多数物体不是二维物体,因此在步骤S8中,将三维物体几何形状从数据库重新引入到计算中,以更准确地计算物体的点的真实位置。以上对校正进行了描述。
在与所描述的所有四个实施方式兼容的优选实施方式中,对于由光学传感器提供的每个图像帧重复上述过程。可选地,如果物体保持在光学传感器范围内,即物体保持“在帧中”,则跳过步骤S3和步骤S4,或者如果物体在前一帧中不在光学传感器的范围内,则触发步骤S3和步骤S4。换句话说,如果由于跟踪而可以跟踪2D位置,则不需要再次辨别物体。在物体是新的或重新进入视场的情况下,则需要再次辨别该物体。
根据本发明,真实物体和AR内容之间的交互是可能的。这种交互对于不同行业中(例如跟踪人类或机器)的许多应用是感兴趣的。
在本发明的一个实施方式中,将用于远程受控物体的通用远程控制方法和3D定位方法相结合。用于远程受控物体的通用远程控制方法在名称为“System and Method forRemote Controlled Objects”的专利申请,即与本申请一起提交的代理人案号为AD2569EP的专利申请中详细描述,该专利申请通过引用并入本文。
所述系统包括具有相机的智能设备和第二控制器。第二控制器通过标准化接口连接到智能设备。第二控制器被配置为向远程受控物体发送远程控制信号。在一个优选实施方式中,第二控制器设置在加密狗类型的设备中,该设备被配置为附接到智能设备的端口,并且还被配置为向远程受控物体发送远程控制信号。
在初始化阶段中,智能设备的相机用于通过计算机视觉算法识别远程受控物体。优选地,智能设备连接到数据库,并且计算机视觉算法是利用来自数据库的数据来识别远程受控物体的机器学习算法。
在远程受控物体被识别的情况下,从数据库接收相应的远程控制信息,并且通过3D定位方法验证包括在远程控制信息中的远程控制命令。
也就是说,从智能设备向第二控制器发送远程控制命令。第二控制器生成相应的远程控制信号,并将远程控制信号发送到远程受控物体。替选地,远程控制信号已经在智能设备处生成,并且第二控制器仅通过标准化接口从智能设备接收远程控制信号,并且将这些信号发送到远程受控物体。
为了验证远程控制命令,智能设备的相机用于检测移动,即检测远程受控物体的位置变化。换句话说,智能设备的相机被用作动作验证装置。
随后,从相机获取多个图像。基于这些图像和增强现实算法,计算图像中空间的3D地图,并且在3D地图中标识一个或多个平面。基于智能设备的定位单元来确定相机在3D地图内的3D位置。附加地或替选地,可以使用来自数据库的预先计算的3D地图。附加地或替选地,基于图像来计算相机在3D地图内的3D位置。
此外,基于图像和计算机视觉算法,确定远程受控物体在图像中的多个2D位置。基于每个2D位置来计算相应的3D位置。
相应的3D位置如下确定:在3D地图中计算矢量,该矢量源自相机的位置,并指向远程受控物体的2D位置在3D地图中的平面上的投影。通过确定所述矢量与3D地图中的所述平面的交点来计算3D位置。对于每个2D位置,计算3D位置。
多个3D位置定义远程受控物体的轨迹。轨迹指示远程受控物体的移动。该移动用于验证远程控制命令。
在无法识别远程受控物体的情况下,执行对远程控制命令的启发式搜索。使用相同的基于相机的移动验证方法来识别远程受控物体的移动。
在操作阶段中,用户向智能设备输入驱动命令。智能设备优选地向第二控制器发送所述驱动命令,优选地基于预定格式进行发送。第二控制器基于用户的驱动命令生成相应的远程控制信号。
图3示出了根据本发明的一个实施方式的方法和系统。在该实施方式中,使用了具有集成的相机的智能设备100。基于相机输入来识别RCO 101。没有动作验证装置的第二控制器400连接到智能设备100。优选地,第二控制器400通过物理接口,即插入式或有线连接,更优选地通过USB或闪电(Lightning)接口连接到智能设备100。
如上所述,第二控制器400被配置为向RCO 101发送远程控制信号。RCO在智能设备100的相机的视场内。智能设备100被配置为基于如上所述的3D定位方法来检测RCO 101的移动208。
在本发明的可以与上述实施方式中的任何一个相结合的实施方式中,被检测物体的定位是基于使用关于物体的至少一个另外的位置信息的或是通过使用关于物体的至少一个另外的位置信息来改进的,该位置信息优选地是通过物体的高度传感器获取的高度信息。换句话说,被检测物体的定位是基于在物体处获取的传感器数据的或通过在物体处获取的传感器数据来改进的。基于所述传感器数据生成虚拟平面。虚拟平面的概念超出了仅使用由检测设备的传感器(优选图像传感器)检测到的标准2D平面的范围。替代地,使用被检测物体的传感器数据。
在本发明的一个实施方式中,使用高度检测。该高度通过在被检测物体处的相应传感器来检测。检测到的高度然后用于计算虚拟平面,该虚拟平面用于如上所述的定位过程。
为了定位飞行物体,例如无人机,虚拟平面由从包括在无人机中的相应高度传感器获取的高度信息来定义。所述传感器可以是GPS传感器、压力传感器、超声波传感器、激光雷达/雷达(RADAR)传感器和/或类似的传感器系统。
在本发明的另一个实施方式中,被检测物体是地面物体,例如车辆、无线电/远程受控车辆、和/或玩具。定位是在非平面表面上进行的。
虚拟平面通过至少一组传感器数据、优选高度传感器数据和/或IMU传感器数据来近似。可以使用与无人机实施方式中所讨论的基本上相同的传感器。
山坡表面通过由两个数据点定义的虚拟平面来近似,并且通过将任意数量的其他数据点添加到近似中来获得更复杂的虚拟平面形状。这适用于表面是静态但非平面的任何场景。
在本发明的一个实施方式中,被检测物体位于未知表面上,即不存在表面模型的表面上。如上所述,被检测物体可以是地面物体,并且表面可以是山坡。在本发明的一个实施方式中,基于3D B样条(3D B-Splines)的使用来确定虚拟平面。
在本发明的一个实施方式中,不同的传感器数据被组合。优选地,另一个数据点是被检测物体和检测物体之间的检测到的距离。这可以用于也将检测域扩展到部分遮挡的物体。
在本发明的一个实施方式中,被检测物体正在导轨上移动。换句话说,被检测物体受到进一步的定位约束。也就是说,物体不仅在一般的二维表面上移动,而且绑定到导轨的位置。根据本发明,如上所述,基于2D图像数据定位物体,其中基于加速度数据确定虚拟平面。例如,过山车在专门的虚拟2D表面上移动,该表面可以由来自一次往返的加速度数据来确定,优选地仅由来自一次往返的加速度数据来确定。
在本发明的一个实施方式中,被检测物体可以跟踪传感器数据的多于一个的点,以定义三维曲线。结合如上所述的2D图像跟踪,确定3D位置。这方面的示例有使用多个超声波传感器来保持跟踪到地面的距离和到建筑物的距离的无人机,和/或使用压力和/或飞行时间传感器跟踪到检测物体的高度和距离的无人机。
在本发明的一个实施方式中,被检测物体在轨道中移动。在时空测地线上移动的物体可以使用航天工业标准传感器,例如恒星传感器、太阳传感器或类似传感器,来跟踪至少一个另外的位置信息。基于该数据,将虚拟平面确定为物体在其上移动的一组轨道。该虚拟平面用于上述定位方法。值得注意的是,这基本上是与飞行的无人机相同的实施方式,只是使用了显著更大的距离和更专门的传感器设备和数学运算。
本文已经描述和示出的是本发明的实施方式以及一些变型。本文中使用的术语、描述和附图仅以说明的方式提出,并不意味着限制。本领域技术人员将认识到,在本发明的精神和范围内,许多变型是可能的,本发明的精神和范围旨在由所附权利要求及其等价方案来定义,其中,除非另有说明,否则所有术语都具有在其最广泛的合理意义上的含义。
Claims (12)
1.一种用于确定物体的三维(3D)位置的方法,
其中,所述物体位于光学传感器的视场中;
其中,所述物体位于平面上或平面上方,或者优选地位于虚拟平面上;
所述方法包括以下步骤:
a)从所述光学传感器获取包括所述物体的图像;
b)获得所述光学传感器在包括所述光学传感器的视场的至少一部分的3D地图中的3D位置;
c)辨别所述图像中的所述物体;
d)确定所述物体在所述图像中的2D位置;
e)确定所述3D地图中的所述平面;
f)基于所述物体的2D位置在所述3D地图中的投影,在所述3D地图中确定从所述光学传感器的3D位置到所述物体的至少一个视线矢量;
g)基于所述至少一个视线矢量与所述平面的交点来确定所述物体的3D位置。
2.根据权利要求1所述的方法,
其中,在辨别出所述物体之后,执行数据库搜索以识别所述物体,并且从所述数据库中检索关于所述物体的3D形式的信息,
其中,基于检索到的信息进一步确定所述物体的3D位置,以及
其中,所述检索到的信息包括以下中的至少一者:所述物体的高度、宽度、深度和形状信息。
3.根据权利要求1或2所述的方法,
其中,步骤c)和步骤d)中的至少一者基于计算机视觉算法,和/或
其中,步骤b)和步骤e)至步骤g)中的至少一者基于增强现实(AR)算法。
4.根据权利要求1至3中任一项所述的方法,
其中,基于AR算法并基于所述图像生成所述3D地图,和/或
其中,基于所述图像预先计算所述3D地图并从数据库下载所述3D地图。
5.根据权利要求1至4中任一项所述的方法,
其中,所述平面对应于所述图像中的真实世界的平面,优选地由所述3D地图中的表面表示;和/或
其中,所述虚拟平面由关于所述物体的至少一个另外的位置信息确定,所述至少一个另外的位置信息优选地是通过所述物体的高度传感器获取的高度信息。
6.根据权利要求1至5中任一项所述的方法,
其中,步骤a)至步骤g)以周期重复;
其中,在第一次辨别出所述物体之后,在所述图像中执行对所述物体的2D跟踪;
其中,只要在所述图像中跟踪所述物体,就跳过步骤c)和步骤d);以及
其中,根据所述2D跟踪获得所述2D位置。
7.根据权利要求1至6中任一项所述的方法,
其中,所述光学传感器是智能设备的光学传感器;以及
其中,所述方法的步骤在所述智能设备的处理装置上执行;和/或
其中,所述智能设备的处理装置被配置为与云环境通信以执行所述方法的步骤。
8.根据权利要求7所述的方法,其中,基于所述智能设备的定位单元来确定所述光学传感器的位置和取向。
9.根据权利要求1至8中任一项所述的方法,
其中,所述计算机视觉算法是YOLO、RetinaNet、SSD及其衍生算法中的一者;和/或
其中,所述增强现实算法是同时定位和映射(SLAM)。
10.一种用于确定物体的三维(3D)位置的系统,
其中,所述系统包括光学传感器,并且所述物体位于所述光学传感器的视场中;
其中,所述系统包括数据处理装置,所述数据处理装置被配置为执行根据权利要求1至9中任一项所述的方法。
11.一种计算机程序,所述计算机程序包括指令,当连接到光学传感器的计算设备执行所述程序时,所述指令使得所述计算设备执行根据权利要求1至9中任一项所述的方法。
12.一种计算机可读介质,所述计算机可读介质包括指令,所述指令在由连接到光学传感器的计算设备执行时,使得所述计算设备执行根据权利要求1至9中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20215720.2A EP4016456A1 (en) | 2020-12-18 | 2020-12-18 | Method and system for determining a three dimensional position |
EP20215720.2 | 2020-12-18 | ||
PCT/EP2021/086377 WO2022129457A1 (en) | 2020-12-18 | 2021-12-17 | Method and system for determining a three dimensional position |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116635893A true CN116635893A (zh) | 2023-08-22 |
Family
ID=73855942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180085845.3A Pending CN116635893A (zh) | 2020-12-18 | 2021-12-17 | 用于确定三维位置的方法和系统 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP4016456A1 (zh) |
JP (1) | JP2024501368A (zh) |
CN (1) | CN116635893A (zh) |
WO (1) | WO2022129457A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10430641B2 (en) * | 2017-03-08 | 2019-10-01 | GM Global Technology Operations LLC | Methods and systems for object tracking using bounding boxes |
US11062461B2 (en) * | 2017-11-16 | 2021-07-13 | Zoox, Inc. | Pose determination from contact points |
US10008045B1 (en) * | 2017-12-21 | 2018-06-26 | Capital One Services, Llc | Placement of augmented reality objects using a bounding shape |
CN112017236B (zh) * | 2020-07-13 | 2023-10-31 | 魔门塔(苏州)科技有限公司 | 一种基于单目相机计算目标物位置的方法及装置 |
-
2020
- 2020-12-18 EP EP20215720.2A patent/EP4016456A1/en active Pending
-
2021
- 2021-12-17 CN CN202180085845.3A patent/CN116635893A/zh active Pending
- 2021-12-17 JP JP2023561431A patent/JP2024501368A/ja active Pending
- 2021-12-17 WO PCT/EP2021/086377 patent/WO2022129457A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
JP2024501368A (ja) | 2024-01-11 |
WO2022129457A1 (en) | 2022-06-23 |
EP4016456A1 (en) | 2022-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110312912B (zh) | 车辆自动停车系统和方法 | |
Yang et al. | Cubeslam: Monocular 3-d object slam | |
CN108406731B (zh) | 一种基于深度视觉的定位装置、方法及机器人 | |
US8744169B2 (en) | Voting strategy for visual ego-motion from stereo | |
KR101633620B1 (ko) | 영상 기반의 위치 인식을 위한 특징점 등록 장치 및 그 방법 | |
KR20180050823A (ko) | 3차원의 도로 모델을 생성하는 방법 및 장치 | |
Nair et al. | Moving obstacle detection from a navigating robot | |
Fiala et al. | Visual odometry using 3-dimensional video input | |
CN108364304A (zh) | 一种用于单目机载目标检测的系统和方法 | |
KR102075844B1 (ko) | 다종 센서 기반의 위치인식 결과들을 혼합한 위치 측위 시스템 및 방법 | |
CN208323361U (zh) | 一种基于深度视觉的定位装置及机器人 | |
EP4057626A1 (en) | Stereo camera apparatus having wide field of view, and depth image processing method using same | |
Huang et al. | Mobile robot localization using ceiling landmarks and images captured from an rgb-d camera | |
Ruchanurucks et al. | Automatic landing assist system using IMU+ P n P for robust positioning of fixed-wing UAVs | |
US11758100B2 (en) | Portable projection mapping device and projection mapping system | |
Tsukiyama | Global navigation system with RFID tags | |
Aliakbarpour et al. | Three-dimensional reconstruction based on multiple virtual planes by using fusion-based camera network | |
CN116635893A (zh) | 用于确定三维位置的方法和系统 | |
CN113011212B (zh) | 图像识别方法、装置及车辆 | |
Aoki et al. | Self-position estimation based on road sign using augmented reality technology | |
Kakillioglu et al. | Autonomous altitude measurement and landing area detection for indoor uav applications | |
Trusheim et al. | Cooperative image orientation considering dynamic objects | |
CN117649619B (zh) | 无人机视觉导航定位回收方法、系统、装置及可读存储介质 | |
Burschka | Spatiotemporal representation of dynamic scences | |
KR102212268B1 (ko) | 위치 측정 시스템과 이를 구비하는 이동 수단 및 이를 수행하기 위한 컴퓨팅 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |