CN113610967A - 三维点检测的方法、装置、电子设备及存储介质 - Google Patents
三维点检测的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113610967A CN113610967A CN202110929512.6A CN202110929512A CN113610967A CN 113610967 A CN113610967 A CN 113610967A CN 202110929512 A CN202110929512 A CN 202110929512A CN 113610967 A CN113610967 A CN 113610967A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- target
- points
- image
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000000007 visual effect Effects 0.000 claims abstract description 19
- 238000005070 sampling Methods 0.000 claims description 232
- 238000004590 computer program Methods 0.000 claims description 11
- DMSMPAJRVJJAGA-UHFFFAOYSA-N benzo[d]isothiazol-3-one Chemical compound C1=CC=C2C(=O)NSC2=C1 DMSMPAJRVJJAGA-UHFFFAOYSA-N 0.000 claims description 6
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种三维点检测的方法、装置、电子设备及存储介质,其中,该方法包括:获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的目标图像确定的多个目标对象中每个目标对象的候选三维点的三维坐标信息;针对每个目标对象,执行如下步骤:基于目标对象的候选三维点的三维坐标信息,确定目标对象对应的候选三维空间;基于目标对象对应的候选三维空间、以及目标图像,确定目标对象的目标三维点的三维坐标信息。本公开可以准确的对多个目标对象的点进行检测,还可以显著提升检测的效率。
Description
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种三维点检测的方法、装置、电子设备及存储介质。
背景技术
三维(Three-Dimensional,3D)人体姿态估计是指从图像、视频或点云中估计人物目标的姿态,常用于人体重建、人机交互、行为识别、游戏建模等各个工业领域。在实际应用场景中,经常会出现多人姿态估计的需求。其中,人体中心点检测可作为多人姿态估计的一个前置任务。
相关技术中提供了一种人体中心点检测方案,该基于3D空间体素化进行多视角特征提取,并通过卷积神经网络(Convolutional Neural Networks,CNN)检测人体中心点。其中,空间体素化是将3D空间等距地划分为等大小的网格,体素化后的多视角图像特征可以作为3D卷积的输入。
然而,在进行体素化的过程中,无法有效的区分不同的目标,将导致所检测到的多个人体中心点的准确性较差,与此同时,由于上述体素化是针对整个空间进行的,这将耗费大量的计算量。
发明内容
本公开实施例至少提供一种三维点检测的方法、装置、电子设备及存储介质,在提升检测准确性的同时,提升检测效率。
第一方面,本公开实施例提供了一种三维点检测的方法,所述方法包括:
获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的所述目标图像确定的所述多个目标对象中每个目标对象的候选三维点的三维坐标信息;
针对所述每个目标对象,执行如下步骤:
基于所述目标对象的候选三维点的三维坐标信息,确定所述目标对象对应的候选三维空间;
基于所述目标对象对应的候选三维空间、以及所述目标图像,确定所述目标对象的目标三维点的三维坐标信息。
采用上述三维点检测的方法,在基于多个视角下对多个目标对象进行拍摄得到的目标图像确定每个目标对象的候选三维点的三维坐标信息的情况下,能够基于每个目标对象的候选三维点的三维坐标信息、以及目标图像,确定每个目标对象的目标三维点的三维坐标信息。
本公开利用目标对象的候选三维点所在候选三维空间与多个视角下的目标图像之间的投影关系,可以准确的对每个目标对象的三维点进行检测,与此同时,针对候选三维点在候选三维空间内的投影操作避免了整个空间的体素化操作,这将显著提升检测的效率。
在一种可能的实施方式中,所述三维点包括三维中心点;所述候选三维点包括候选三维中心点,且所述目标对象的所述候选三维中心点位于所述目标对象的中心位置;所述目标三维点包括目标三维中心点。
在一种可能的实施方式中,所述基于所述目标对象对应的候选三维空间、以及所述目标图像,确定所述目标对象的目标三维点的三维坐标信息,包括:
将所述目标对象的候选三维空间进行空间采样,确定多个采样点;
针对所述多个采样点中的每个采样点,基于所述采样点在所述候选三维空间内的三维坐标信息、以及所述目标图像,确定所述采样点对应的三维点检测结果;
基于得到的所述三维点检测结果,确定所述目标对象的目标三维点的三维坐标信息。
这里,针对每个目标对象可以确定对应的候选三维空间,并基于对候选三维空间的采样实现有关三维点的检测,相比整个体素空间的操作,针对候选三维空间的采样操作显著提升了检测的效率。
在一种可能的实施方式中,所述基于所述采样点在所述候选三维空间内的三维坐标信息、以及所述目标图像,确定所述采样点对应的三维点检测结果,包括:
针对所述多个采样点中的每个采样点,基于所述候选三维空间所在三维坐标系与各个视角所在二维坐标系之间的对应关系,将所述三维坐标信息投影至不同视角下,确定所述采样点分别在多个所述目标图像中的二维投影点信息;
基于所述采样点分别在多个所述目标图像中的二维投影点信息,确定所述采样点在不同视角下的采样点特征信息;
基于所述采样点在不同视角下的采样点特征信息,确定所述采样点对应的三维点检测结果。
本公开利用采样点在不同视角下的采样点特征信息可以确定采样点在不同视角下的连接关系,这样的连接关系将有助于确定出更为准确的采样点特征信息,进一步使得所确定的三维点检测结果和准确度得以提升。
在一种可能的实施方式中,所述二维投影点信息包括二维投影点的图像位置信息;所述基于所述采样点分别在多个所述目标图像中的二维投影点信息,确定所述采样点在不同视角下的采样点特征信息,包括:
提取多个所述目标图像分别对应的图像特征;
针对多个所述目标图像中的每个所述目标图像,基于所述采样点在多个所述目标图像中的二维投影点的图像位置信息,从所述目标图像对应的图像特征中提取与所述图像位置信息对应的图像特征;
将提取的与所述图像位置信息对应的图像特征,确定所述采样点在不同视角下的采样点特征信息。
这里,可以基于采样点在多个目标图像中的二维投影点信息与图像特征之间的对应关系,确定与采样点匹配的采样点特征信息,操作简单。
在一种可能的实施方式中,所述基于所述采样点在不同视角下的采样点特征信息,确定所述采样点对应的三维点检测结果,包括:
基于所述采样点在不同视角下的采样点特征信息,以及与所述采样点关联的其他采样点的采样点特征信息,确定所述采样点在不同视角下的更新采样点特征信息;
基于所述采样点对应的更新采样点特征信息,确定所述采样点对应的三维点检测结果。
这里,可以利用采样点在不同视角下的采样点特征信息,以及与该采样点关联的其他采样点的采样点特征信息进行该采样点的采样点特征信息的更新,更新采样点特征信息一定程度上包括了一个视图内的其它采样点的特征,还包括了不同视图间的采样点的特征,使得采样点的特征更趋近于准确,进而使得所确定的三维姿态信息也更为准确。
在一种可能的实施方式中,按照如下步骤确定每个目标对象的候选三维点的三维坐标信息:
从多个所述目标图像中分别提取多个二维点的图像特征信息,其中,每个二维点是位于对应的目标对象中的像素点;
基于从多个所述目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,其中,所述成对的二维点来自不同的目标图像;
根据确定的所述成对的二维点在各自目标图像中的二维坐标信息,确定所述同一目标对象的候选三维点的三维坐标信息。
本公开有关成对的二维点的确定可以有效的关联目标对象在二维空间中的对应关系,这样所构建出的候选三维点一定程度上可以指向的是同一目标对象,从而为多目标对象的准确检测提供很好的数据支撑。
在一种可能的实施方式中,所述基于从多个所述目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,包括:
将所述目标图像进行两两组合,得到至少一组目标图像;
基于多个所述目标图像中的二维点的图像特征信息,确定每组所述目标图像中是否存在图像特征匹配的两个二维点;所述两个二维点分别属于同一组目标图像中的不同目标图像;
若存在,则将图像特征匹配的两个二维点确定为所述属于同一目标对象的成对的二维点。
这里,基于图像分组和图像特征匹配实现了有关属于同一目标对象的成对的二维点的确定,使得所确定的成对的二维点对应的是同一目标对象的可能性大为提升,进而提升了后续进行三维点检测的准确性。
在一种可能的实施方式中,所述基于多个所述目标图像中的二维点的图像特征信息,确定每组所述目标图像中是否存在图像特征匹配的两个二维点,包括:
针对每组目标图像,将该组目标图像的两个目标图像中的二维点两两组合,得到多组二维点;基于每组二维点包括的两个二维点的图像特征信息,确定该组目标图像中是否存在图像特征匹配的两个二维点。
在一种可能的实施方式中,所述基于每组二维点包括的两个二维点的图像特征信息,确定该组目标图像中是否存在图像特征匹配的两个二维点,包括:
针对每组二维点,将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定所述两个二维点的图像特征信息是否匹配;
若是,则将图像特征匹配的两个二维点确定为该组目标图像中存在图像特征匹配的两个二维点。
这里,结合特征匹配网络实现了每组二维点中的两个二维点的图像特征信息的匹配操作,操作简单。
在一种可能的实施方式中,所述将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定所述两个二维点的图像特征信息是否匹配,包括:
针对该组二维点中的每个二维点,基于该二维点的图像特征信息,以及与该二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息,对该二维点的图像特征信息进行更新,得到更新后的图像特征信息;
将所述两个二维点分别对应的更新后的图像特征信息输入到特征匹配网络中,确定所述两个二维点的图像特征信息是否匹配。
这里,基于其它目标图像中其它二维点的图像特征信息可以对二维点的图像特征信息进行更新,使得所确定的更新后的图像特征信息的准确性更高,进一步提升匹配的准确性。
在一种可能的实施方式中,所述基于从多个所述目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,包括:
针对多个所述目标图像中的第一目标图像,基于所述第一目标图像中提取的图像特征信息、以及所述多个目标图像中除所述第一目标图像之外的其它目标图像中提取的图像特征信息,对所述第一目标图像中多个所述二维点的图像特征信息进行更新,得到所述第一目标图像中多个所述二维点分别对应的更新后的图像特征信息;
基于多个所述目标图像分别对应的更新后的图像特征信息,确定属于同一目标对象的成对的二维点。
这里,可以在对各个目标图像中的各个二维点进行更新的情况下,基于更新后的图像特征信息来确定属于同一目标对象的成对的二维点,提升二维点配对的准确性。
在一种可能的实施方式中,所述基于多个所述目标图像分别对应的更新后的图像特征信息,确定属于同一目标对象的成对的二维点,包括:
从多个所述目标图像中任意选取两个目标图像,并从选取的所述两个目标图像中分别选取对应的两个二维点;
将选取的所述两个二维点分别对应的更新后的图像特征信息输入预先训练好的特征匹配网络中,并在确定网络输出特征匹配成功的情况下,确定选取的所述两个二维点为属于同一目标对象的成对的二维点。
这里,可以基于选取操作实现两个目标图像中对应两个二维点的匹配操作,且一旦确定出两个目标图像中的两个二维点匹配成功,即可以锁定到一个目标对象,相比遍历操作实现匹配而言,运算量显著降低。
在一种可能的实施方式中,按照如下步骤对二维点的图像特征信息进行更新:
基于所述二维点在对应目标图像中的二维坐标信息、以及与所述二维点所在目标图像不同的其它目标图像中其它二维点的二维坐标信息,确定所述二维点与所述其它二维点之间的极线距离;
基于所述二维点的图像特征信息、与所述二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息、以及所述极线距离对所述二维点的图像特征信息进行更新,得到更新后的图像特征信息。
这里,可以基于二维点的图像特征信息、与该二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息、以及所述极线距离对该二维点的图像特征信息进行更新,高效的融合多视角特征,匹配精度得以显著提升。
第二方面,本公开实施例还提供了一种三维点检测的装置,所述装置包括:
获取模块,用于获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的所述目标图像确定的所述多个目标对象中每个目标对象的候选三维点的三维坐标信息;
检测模块,用于针对所述每个目标对象,基于所述目标对象的候选三维点的三维坐标信息,确定所述目标对象对应的候选三维空间;基于所述目标对象对应的候选三维空间、以及所述目标图像,确定所述目标对象的目标三维点的三维坐标信息。
第三方面,本公开实施例还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的三维点检测的方法的步骤。
第四方面,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的三维点检测的方法的步骤。
关于上述三维点检测的装置、电子设备、及计算机可读存储介质的效果描述参见上述三维点检测的方法的说明,这里不再赘述。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1示出了本公开实施例所提供的一种三维点检测的方法的流程图;
图2示出了本公开实施例所提供的一种三维点检测的方法的应用示意图;
图3示出了本公开实施例所提供的一种三维点检测的装置的示意图;
图4示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本公开保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
本文中术语“和/或”,仅仅是描述一种关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
经研究发现,相关技术中提供了一种人体点检测方案,该基于3D空间体素化进行多视角特征提取,并通过CNN检测人体点。其中,空间体素化是将3D空间等距地划分为等大小的网格,体素化后的多视角图像特征可以作为3D卷积的输入。
然而,在进行体素化的过程中,无法有效的区分不同的目标,将导致所检测到的多个点的准确性较差,与此同时,由于上述体素化是针对整个空间进行的,这将耗费大量的计算量。
基于上述研究,本公开提供了一种三维点检测的方法、装置、电子设备及存储介质,在提升点检测准确性的同时,提升检测效率。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种三维点检测的方法进行详细介绍,本公开实施例所提供的三维点检测的方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(User Equipment,UE)、移动设备、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该三维点检测的方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
参见图1所示,为本公开实施例提供的三维点检测的方法的流程图,方法包括步骤S101~S104,其中:
S101:获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的目标图像确定的多个目标对象中每个目标对象的候选三维点的三维坐标信息;
S102:针对每个目标对象,基于目标对象的候选三维点的三维坐标信息,确定目标对象对应的候选三维空间;基于目标对象对应的候选三维空间、以及目标图像,确定目标对象的目标三维点的三维坐标信息。
为了便于理解本公开实施例提供的三维点检测的方法,接下来首先可以对该方法的应用场景进行简单描述。本公开实施例中的三维点检测的方法主要可以应用于多人三维姿态估计的相关应用领域中,例如,自动驾驶领域中对自动驾驶车辆前方的多个行人进行三维姿态估计,再如,智能安防领域对多个道路车辆的三维姿态进行估计等,本公开实施例对此不做具体的限制。接下来多以自动驾驶领域进行示例说明。
考虑到相关技术中结合体素化和CNN网络确定多目标中心点检测的方案中,由于在进行体素化的过程中,无法有效的区分不同的目标,将导致所检测到的多个点的准确性较差,与此同时,由于体素化是针对整个空间进行的,这将耗费大量的计算量。除此之外,即使采用其它诸如结合极线匹配和三角化重建目标点的方案,也由于受到极线匹配的影响而导致检测准确性较差。
正是为了解决上述问题,本公开实施例才提供了一种结合多视角下二维点匹配以及候选三维点重建所实现的检测方案,在提升检测准确性的同时,还提高了检测效率。
其中,本公开实施例所获取的目标图像可以是在多个视角下针对多个目标对象拍摄得到的,一个视角可以对应一个目标图像。在自动驾驶领域中,上述目标图像可以是安装在车辆的多个摄像头分别针对多个目标对象进行同步拍摄得到的,这里的多个摄像头可以是结合不同的用户需求来选取,例如可以是车头两侧及中心位置处对应安装的三个摄像头针对前方行人抓拍的三个目标图像。每个目标图像可以对应有多个目标对象,例如,可以是拍摄到的包括两个行人的目标图像。
本公开实施例中,基于多个视角下拍摄得到的多个目标图像可以确定每个目标对象的候选三维点的三维坐标信息,在基于三维坐标信息确定每个目标对象对应的候选三维空间的情况下,可以基于每个目标对象对应的候选三维空间、以及多个视角下的多个目标图像,确定每个目标对象的目标三维点的三维坐标信息。
这里,有关目标对象的候选三维点可以是位于目标对象的中心位置的候选三维中心点,还可以是其它能够表征目标对象的特定点,例如,可以仅在人物的头部取一个特定点,也可以是在行人的头部、上半身和下半身各取一个特定点,有关特定点的数量可以基于不同的应用场景来设置,在此不做具体的限制。为了便于进行说明,接下来多以候选三维中心点作为候选三维点进行示例。
有关候选三维点的三维坐标信息可以是先基于三维空间内的目标图像进行二维点配对,而后基于成对的二维点重建得到的。除此之外,还可以是基于其它方法确定的,在此不做具体的限制。
这里,针对每个目标对象可以构建出一个或多个候选三维点。以一个目标对象可以构建出多个候选三维点为例,基于该目标对象的每个候选三维点可以确定一个以候选三维点的三维坐标信息为球心的球形范围,而后将这一目标对象的多个候选三维点确定的球形范围进行并集操作,可以实现对应这一目标对象的候选三维空间的确定。
有关每个目标对象的目标三维点的三维坐标信息可以是基于各自对应的候选三维空间的空间采样与多个视角下的目标图像之间的投影关系来确定的,这里,避免了对整个空间体素化,仅需对指定的目标对象所在候选三维空间进行三维投影,即可以确定出更为准确的目标三维点的三维坐标信息,计算量显著下降。
考虑到目标对象的候选三维点的三维坐标信息的确定对候选进行三维点检测的关键作用,接下来对确定候选三维点的三维坐标信息的过程进行具体说明。
本公开实施例中,可以按照如下步骤确定目标对象的候选三维点的三维坐标信息:
步骤一、从多个目标图像中分别提取多个二维点的图像特征信息,其中,每个二维点是位于对应的目标对象中的像素点;
步骤二、基于从多个目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,其中,成对的二维点来自不同的目标图像;
步骤三、根据确定的成对的二维点在各自目标图像中的二维坐标信息,确定同一目标对象的候选三维点的三维坐标信息。
这里,可以基于图像特征提取方法从每个目标图像中提取多个二维点的图像特征信息,也可以直接利用二维点识别网络对目标图像进行识别,以确定出每个二维点的图像特征信息,这里的二维点的图像特征信息可以表示的是对应目标对象的相关特征,例如,可以是人物中心点的位置特征。
本公开实施例中,基于多个目标图像中分别提取的图像特征信息可以确定属于同一目标对象的成对的二维点,这里的成对的二维点来自于不同的目标图像。
在具体应用中,本公开实施例一方面可以是先进行图像配对再基于配对图像所对应的二维点的特征更新进行成对的二维点的确定,另一方面还可以对所有二维点的特征进行更新,而后再进行成对的二维点的确定,本公开实施例对此不做具体的限制。
不管采用哪种配对方式,由于成对的二维点属于同一目标对象,这样,基于任意成对二维点在各自目标图像中的二维坐标信息,可以重建出对应目标对象的候选三维点的三维坐标信息。在具体应用中,针对每一对被判断为同一个目标对象的二维点,都可通过三角化重建出一个候选三维点,也即,在多相机系统下,通过多个视角的二维点的2D坐标和相机参数,重建出二维点对应的3D坐标。
考虑到成对的二维点的确定对于重建目标三维点的关键作用,接下来可以通过如下两个方面进行具体说明。
第一方面:本公开实施例提供的三维点检测的方法可以先进行图像匹配,而后再进行成对的二维点的确定,具体可以通过步骤来实现:
步骤一、将目标图像进行两两组合,得到至少一组目标图像;
步骤二、基于多个目标图像中的二维点的图像特征信息,确定每组目标图像中是否存在图像特征匹配的两个二维点;两个二维点分别属于同一组目标图像中的不同目标图像;
步骤三、若存在,则将图像特征匹配的两个二维点确定为属于同一目标对象的成对的二维点。
这里,可以将多个目标图像进行两两组合,得到一组或多组目标图像,而后可以确定每组目标图像中是否存在图像特征匹配的两个二维点,这里的匹配可以是两个二维点的图像特征信息的匹配度大于预设阈值,这样,即可以将图像特征匹配的两个二维点确定为属于同一目标对象的成对的二维点。
考虑到每个目标图像中存在多个二维点,这里,可以针对每组目标图像先进行该组目标图像的两个目标图像中的二维点两两组合,得到多组二维点,将每组二维点包括的两个二维点的图像特征信息进行特征比对,即可以确定每组目标图像中是否存在图像特征匹配的两个二维点,具体可以通过如下步骤来实现:
步骤一、针对每组二维点,将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定两个二维点的图像特征信息是否匹配;
步骤二、若是,则将图像特征匹配的两个二维点确定为该组目标图像中存在图像特征匹配的两个二维点。
这里,可以利用特征匹配网络确定两个二维点的图像特征信息是否匹配。其中,上述特征匹配网络对应的是一组目标图像对应的一组二维点。
在训练特征匹配网络的过程中,可以是基于多个视角的图像样本、针对同一目标对象的标注信息训练得到的,也即,在从多个视角的图像样本中提取出对应二维点的图像特征信息的情况下,可以将提取的多个图像特征信息输入到待训练的特征匹配网络中。在网络输出结果与标注信息不一致的情况下,可以对特征匹配网络进行网络参数值的调整,直至网络输出结果与标注信息一致,从而训练得到特征匹配网络。
利用训练好的特征匹配网络可以确定两个二维点的图像特征信息是否匹配,两个二维点的图像特征匹配说明这两个二维点对应的是同一个目标对象。
考虑到在实际应用中,与一个二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息对于这一二维点的影响,本公开实施例可以结合上述其它二维点的图像特征信息对二维点的图像特征信息进行更新,继而将更新后的图像特征信息输入到特征匹配网络中,确定两个二维点的图像特征信息是否匹配。本公开实施例可以按照如下方式实现二维点的图像特征信息的更新:
步骤一、基于二维点在对应目标图像中的二维坐标信息、以及与二维点所在目标图像不同的其它目标图像中其它二维点的二维坐标信息,确定二维点与其它二维点之间的极线距离;
步骤二、基于二维点的图像特征信息、与二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息、以及极线距离对二维点的图像特征信息进行更新,得到更新后的图像特征信息。
这里,可以基于一个二维点与其它二维点各自的二维坐标信息来确定两个二维点之间的极线距离,进而基于这一极线距离以及两个二维点各自的图像特征信息实现二维点的图像特征信息的更新。这主要是考虑到不同视角下的相机所对应的极线距离可以体现不同目标点之间的关系,以两个相机(分别为相机1和相机2)和两个目标点(点A和点B)而言,相机1视角下的点A对应到相机2视角下为一条线(极线),该极线与相机2视角里点B的距离(对应极线距离)决定了两个点之间的靠近程度,利用极线距离进行二维点的特征更新可以使得所更新的图像特征信息的内容更为丰富,从而更有利于实现后续的三维点的确定。
在进行两个二维点的图像特征信息匹配的过程中,可以直接选取对应二维点的更新的图像特征信息进行匹配,而无需对所有的二维点进行更新,这将可以提升整体的检测效率。
第二方面:本公开实施例提供的三维点检测的方法可以先进行特征更新,而后再进行成对的二维点的确定,具体可以通过步骤来实现:
步骤一、针对多个目标图像中的第一目标图像,基于第一目标图像中提取的图像特征信息、以及多个目标图像中除第一目标图像之外的其它目标图像中提取的图像特征信息,对第一目标图像中多个二维点的图像特征信息进行更新,得到第一目标图像中多个二维点分别对应的更新后的图像特征信息;
步骤二、基于多个目标图像分别对应的更新后的图像特征信息,确定属于同一目标对象的成对的二维点。
这里,可以基于多个目标图像中除第一目标图像之外的其它目标图像中提取的图像特征信息对第一目标图像中多个二维点的图像特征信息进行更新,而后从多个目标图像中任意选取两个目标图像,并从选取的两个目标图像中分别选取对应的两个二维点,并将选取的两个二维点分别对应的更新后的图像特征信息输入预先训练好的特征匹配网络中,以确定选取的两个二维点是否为属于同一目标对象的成对的二维点。
其中,有关第一目标图像中多个二维点中每个二维点的图像特征信息的更新过程可以参见上述第一方面的具体描述,在此不再赘述。
本公开实施例在进行成对的二维点的确定的过程中,可以是从多个目标图像中任意选取两个目标图像,并从选取的两个目标图像中分别选取对应的两个二维点,以利用预先训练好的特征匹配网络进行特征匹配的验证,有关验证的具体过程参见上述第一方面的具体说明,在此也不再赘述。
需要说明的是,这里在进行特征匹配的验证过程中,可以是任意选取两个目标图像,而后再任选对应的两个二维点,一旦这两个二维点的图像特征得以成功匹配,则可以基于这一成对的二维点确定对应的目标对象的候选三维点,而无需验证所有的配对情况,这将提升整体的检测效率。
本公开实施例中,在基于构建的候选三维点确定每个目标对象的目标三维点的过程中,可以先确定对应的候选三维空间,而后基于三维空间至二维空间的投影操作,实现每个目标对象的目标三维点的三维坐标信息的确定。针对每个目标对象,具体可以通过如下步骤确定目标三维点的三维坐标信息:
步骤一、将目对象的标候选三维空间进行空间采样,确定多个采样点;
步骤二、针对多个采样点中的每个采样点,基于采样点在候选三维空间内的三维坐标信息、以及目标图像,确定采样点对应的三维点检测结果;
步骤三、基于得到的三维点检测结果,确定每个目标对象的目标三维点的三维坐标信息。
这里,针对每个目标对象对应的候选三维空间可以进行适应性的采样,先在搜索空间中等距采样,而后基于该采样点在候选三维空间内的三维坐标信息、以及多个目标图像,确定每个采样点对应的三维点检测结果,这样,可以实现在重建出的候选三维点周围的进一步精细采样,从而可以获得更精确的目标三维点位置。
本公开实施例中,具体可以通过如下步骤确定采样点对应的三维点检测结果:
步骤一、针对多个采样点中的每个采样点,基于候选三维空间所在三维坐标系与各个视角所在二维坐标系之间的对应关系,将三维坐标信息投影至不同视角下,确定采样点分别在多个目标图像中的二维投影点信息;
步骤二、基于采样点分别在多个目标图像中的二维投影点信息,确定采样点在不同视角下的采样点特征信息;
步骤三、基于采样点在不同视角下的采样点特征信息,确定该采样点对应的三维点检测结果。
本公开实施例提供的三维点检测的方法可以先确定采样点分别在多个目标图像中的二维投影点信息,并基于二维投影点信息,确定采样点在不同视角下的采样点特征信息。
其中,有关二维投影点信息可以是基于采样点所在三维坐标系与目标图像所在二维坐标系之间的转换关系确定的,也即,利用转换关系可以将采样点投影到目标图像上,从而确定采样点在目标图像上的二维投影点的图像位置等信息。
基于采样点分别在多个目标图像中的二维投影点信息,可以确定采样点在不同视角下的采样点特征信息,这里所确定的采样点特征信息可以是融合不同视角的特征信息,这主要是考虑到针对同一目标对象而言,在不同视角下,对应采样点之间存在一定的连接关系,利用这一连接关系可以实现有关采样点特征的更新,除此以外,在同一视角下,对应采样点之间也存在一定的连接关系,利用这一连接关系也可以实现有关采样点特征的更新,从而使得所确定的采样点特征信息更为贴合符合目标对象的实际三维信息。
考虑到采样点的采样点特征信息的确定对于三维点检测的关键作用,接下来可以对确定采样点特征信息的过程进行详细描述。
上述确定采样点特征信息的过程主要包括如下步骤:
步骤一、提取多个目标图像分别对应的图像特征;
步骤二、针对多个目标图像中的每个目标图像,基于采样点在多个目标图像中的二维投影点的图像位置信息,从目标图像对应的图像特征中提取与图像位置信息对应的图像特征;
步骤三、将提取的与图像位置信息对应的图像特征,确定采样点在不同视角下的采样点特征信息。
本公开实施例提供的三维点检测的方法,为了提取与采样点匹配的采样点特征信息,可以基于采样点在多个目标图像中的二维投影点的图像位置信息,从该目标图像对应的图像特征中提取与图像位置信息对应的图像特征,并将提取的该图像特征作为与采样点匹配的采样点特征信息。
其中,有关目标图像对应的图像特征可以是基于图像处理得到的,也可以是基于训练好的特征提取网络提取得到的,还可以是其它能够提取出表征目标对象、目标对象所在场景等各种信息的其它方法确定的,本公开实施例对此不做具体的限制。
为了确定出更为准确的目标对象的目标三维点,这里,可以先对采样点的采样点特征信息进行更新,而后基于更新采样点特征信息,确定采样点对应的三维点检测结果,具体可以通过如下步骤来实现:
步骤一、基于采样点在不同视角下的采样点特征信息,以及与采样点关联的其他采样点的采样点特征信息,确定采样点在不同视角下的更新采样点特征信息;
步骤二、基于采样点对应的更新采样点特征信息,确定该采样点对应的三维点检测结果。
这里,与采样点关联的其他采样点可以是与采样点存在连接关系的采样点,这里的连接关系主要对应的是同一视图下采样点之间的连接关系,而对于采样点在不同视角下的采样点特征信息而言,可以确定的是不同视图下针对同一采样点所确定的二维投影点之间的连接关系。针对目标视角下的一个采样点,具体可以通过如下步骤来进行采样点特征信息的更新:
步骤一、基于采样点在不同视角下的采样点特征信息以及采样点在不同视角下的各个二维投影点之间的第一连接关系对采样点在不同视角下的采样点特征信息进行第一更新,得到第一更新后的采样点特征信息;以及,基于采样点在目标视角下的采样点特征信息以及与采样点同属于目标视角、且与采样点存在第二连接关系的其他采样点的采样点特征信息对采样点在目标视角下的采样点特征信息进行第二更新,得到第二更新后的采样点特征信息;
步骤二、基于第一更新后的采样点特征信息以及第二更新后的采样点特征信息,确定采样点在目标视角下的更新采样点特征信息。
其中,采样点在不同视角下的各个二维投影点之间的第一连接关系是预先确定的,基于第一连接关系可以实现对一个视角下的采样点特征信息进行更新,也即,第一更新后的采样点特征信息融合了其它视图下同一采样点的采样点特征。另外,基于同属于目标视角、且与采样点存在第二连接关系的其他采样点的采样点特征信息可以对采样点的采样点特征信息进行更新,这里的第二连接关系也可以是预先确定的,这样所确定的第二更新后的采样点特征信息融合了同一视图的其它采样点的采样点特征。
结合第一更新后的采样点特征信息以及第二更新后的采样点特征信息,可以使得所确定的采样点在目标视角下的更新采样点特征信息更为准确。有关采样点在其它视角下的更新可以参照上述描述内容,在此不做赘述。
在实际应用中,可以利用图神经网络(Graph Neural Network,GNN)实现上述采样点特征信息的更新。这里,在进行特征更新之前,可以基于上述第一连接关系、第二连接关系以及采样点特征信息构建图模型,通过对图模型进行卷积运算,不断更新采样点的采样点特征信息。
针对同一目标对象而言,可以将对应该目标对象的所有采样点分别对应的更新采样点特征信息输入到三维点检测网络中,通过对每个采样点对应的为点的预测概率确定出对应于目标对象的三维点检测结果。这里,可以将预测概率最大的采样点的三维坐标信息确定为对应目标对象的目标三维点的三维坐标信息。
为了便于进一步理解本公开实施例提供的三维点检测的方法,接下来可以结合图2进一步进行说明。
如图2左边的图中的虚线所示,利用三个目标图像中分别对应的两个2D中心点,来构造图模型G={V,E}。其中,节点V对应的是各个视角下2D中心点的图像特征信息,边E对应的是节点之间的关系,可以是2D中心点之间的极线距离。
构造好图模型之后,可以进行2D中心点在不同视角下的图像特征信息的更新,这里,可以利用GNN来具体实现特征的更新。对于更新得到的更新后的图像特征信息可以利用特征匹配网络来确定每一对2D中心点(即一个边)是否属于同一个目标对象,经过特征更新和特征匹配可以得到如图2右边的图中实线所示的配对关系。
利用图2右边的图所示的配对关系,针对每个目标对象可以确定出候选三维空间,如图2右边的图中虚线所指向的圆球三维空间。
本公开实施例中,通过对该三维空间进行空间采样,并基于有关三维坐标系与二维坐标系之间的转换关系,可以实现有关采样点对应的三维中心点检测结果的确定,进而可以确定出每个目标对象的目标三维中心点的三维坐标信息。
由于本公开实施例提供的三维点检测的方法能够在候选三维空间内进一步搜索每个目标对象的目标三维点,这一定程度上可以降低由于重建出来的候选三维点不够准确所带来的重建误差,除此之外,即使在进行重建之前发生配对匹配错误的情况下,也可以通过各个目标对象所在候选三维空间的搜索操作实现目标对象的目标三维点的确定,例如,在目标对象A和目标对象B发生配对错误,目标对象B和目标对象C的配对正确的情况下,可以基于配对正确的搜索结果来校验配对错误的搜索结果,进一步提升多个目标对象的检测准确度。
基于上述确定的各个目标对象的目标三维点的三维坐标信息,可以确定各个目标对象的大致位置,进而可以实现后续的多人姿态识别。本公开实施例中,还可以通过连续多帧的目标图像中有关多个目标对象的目标三维点的三维坐标信息的分析,确定各个目标对象的行驶轨迹,除此之外,还可以实现其它相关应用,在此不再赘述。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与三维点检测的方法对应的三维点检测的装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述三维点检测的方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
参照图3所示,为本公开实施例提供的一种三维点检测的装置的示意图,装置包括:获取模块301、检测模块302;其中,
获取模块301,用于获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的目标图像确定的多个目标对象中每个目标对象的候选三维点的三维坐标信息;
检测模块302,用于针对每个目标对象,基于目标对象的候选三维点的三维坐标信息,确定目标对象对应的候选三维空间;基于目标对象对应的候选三维空间、以及目标图像,确定目标对象的目标三维点的三维坐标信息。
本公开利用目标对象的候选三维点所在候选三维空间与多个视角下的目标图像之间的投影关系,可以准确的对每个目标对象的三维点进行检测,与此同时,针对候选三维点在候选三维空间内的投影操作避免了整个空间的体素化操作,这将显著提升检测的效率。
在一种可能的实施方式中,三维点包括三维中心点;候选三维点包括候选三维中心点,且目标对象的候选三维中心点位于目标对象的中心位置;目标三维点包括目标三维中心点。
在一种可能的实施方式中,检测模块302,用于按照如下步骤基于目标对象对应的候选三维空间、以及目标图像,确定目标对象的目标三维点的三维坐标信息,包括:
将目标对象的候选三维空间进行空间采样,确定多个采样点;
针对多个采样点中的每个采样点,基于采样点在候选三维空间内的三维坐标信息、以及目标图像,确定采样点对应的三维点检测结果;
基于得到的三维点检测结果,确定目标对象的目标三维点的三维坐标信息。
在一种可能的实施方式中,检测模块302,用于按照如下步骤基于采样点在候选三维空间内的三维坐标信息、以及目标图像,确定采样点对应的三维点检测结果:
针对多个采样点中的每个采样点,基于候选三维空间所在三维坐标系与各个视角所在二维坐标系之间的对应关系,将三维坐标信息投影至不同视角下,确定采样点分别在多个目标图像中的二维投影点信息;
基于采样点分别在多个目标图像中的二维投影点信息,确定采样点在不同视角下的采样点特征信息;
基于采样点在不同视角下的采样点特征信息,确定采样点对应的三维点检测结果。
在一种可能的实施方式中,二维投影点信息包括二维投影点的图像位置信息;检测模块302,用于按照如下步骤基于采样点分别在多个目标图像中的二维投影点信息,确定采样点在不同视角下的采样点特征信息:
提取多个目标图像分别对应的图像特征;
针对多个目标图像中的每个目标图像,基于采样点在多个目标图像中的二维投影点的图像位置信息,从目标图像对应的图像特征中提取与图像位置信息对应的图像特征;
将提取的与图像位置信息对应的图像特征,确定采样点在不同视角下的采样点特征信息。
在一种可能的实施方式中,检测模块302,用于按照如下步骤基于采样点在不同视角下的采样点特征信息,确定采样点对应的三维点检测结果:
基于采样点在不同视角下的采样点特征信息,以及与采样点关联的其他采样点的采样点特征信息,确定采样点在不同视角下的更新采样点特征信息;
基于采样点对应的更新采样点特征信息,确定采样点对应的三维点检测结果。
在一种可能的实施方式中,获取模块301,用于按照如下步骤确定每个目标对象的候选三维点的三维坐标信息:
从多个目标图像中分别提取多个二维点的图像特征信息,其中,每个二维点是位于对应的目标对象中的像素点;
基于从多个目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,其中,成对的二维点来自不同的目标图像;
根据确定的成对的二维点在各自目标图像中的二维坐标信息,确定同一目标对象的候选三维点的三维坐标信息。
在一种可能的实施方式中,获取模块301,用于按照如下步骤基于从多个目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点:
将目标图像进行两两组合,得到至少一组目标图像;
基于多个目标图像中的二维点的图像特征信息,确定每组目标图像中是否存在图像特征匹配的两个二维点;两个二维点分别属于同一组目标图像中的不同目标图像;
若存在,则将图像特征匹配的两个二维点确定为属于同一目标对象的成对的二维点。
在一种可能的实施方式中,获取模块301,用于按照如下步骤基于多个目标图像中的二维点的图像特征信息,确定每组目标图像中是否存在图像特征匹配的两个二维点:
针对每组目标图像,将该组目标图像的两个目标图像中的二维点两两组合,得到多组二维点;基于每组二维点包括的两个二维点的图像特征信息,确定该组目标图像中是否存在图像特征匹配的两个二维点。
在一种可能的实施方式中,获取模块301,用于按照如下步骤基于每组二维点包括的两个二维点的图像特征信息,确定该组目标图像中是否存在图像特征匹配的两个二维点:
针对每组二维点,将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定两个二维点的图像特征信息是否匹配;
若是,则将图像特征匹配的任一组的两个二维点确定为该组目标图像中存在图像特征匹配的两个二维点。
在一种可能的实施方式中,获取模块301,用于按照如下步骤将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定两个二维点的图像特征信息是否匹配:
针对该组二维点中的每个二维点,基于该二维点的图像特征信息,以及与该二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息,对该二维点的图像特征信息进行更新,得到更新后的图像特征信息;
将两个二维点分别对应的更新后的图像特征信息输入到特征匹配网络中,确定两个二维点的图像特征信息是否匹配。
在一种可能的实施方式中,获取模块301,用于按照如下步骤基于从多个目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点:
针对多个目标图像中的第一目标图像,基于第一目标图像中提取的图像特征信息、以及多个目标图像中除第一目标图像之外的其它目标图像中提取的图像特征信息,对第一目标图像中多个二维点的图像特征信息进行更新,得到第一目标图像中多个二维点分别对应的更新后的图像特征信息;
基于多个目标图像分别对应的更新后的图像特征信息,确定属于同一目标对象的成对的二维点。
在一种可能的实施方式中,获取模块301,用于按照如下步骤基于多个目标图像分别更新后的图像特征信息,确定属于同一目标对象的成对的二维点:
从多个目标图像中任意选取两个目标图像,并从选取的两个目标图像中分别选取对应的两个二维点;
将选取的两个二维点分别对应的更新后的图像特征信息输入预先训练好的特征匹配网络中,并在确定网络输出特征匹配成功的情况下,确定选取的两个二维点为属于同一目标对象的成对的二维点。
在一种可能的实施方式中,获取模块301,用于按照如下步骤对二维点的图像特征信息进行更新:
基于二维点在对应目标图像中的二维坐标信息、以及与二维点所在目标图像不同的其它目标图像中其它二维点的二维坐标信息,确定二维点与其它二维点之间的极线距离;
基于二维点的图像特征信息、与二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息、以及极线距离对二维点的图像特征信息进行更新,得到更新后的图像特征信息。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
本公开实施例还提供了一种电子设备,如图4所示,为本公开实施例提供的电子设备结构示意图,包括:处理器401、存储器402、和总线403。存储器402存储有处理器401可执行的机器可读指令(比如,图3中的装置中获取模块301、检测模块302对应的执行指令等),当电子设备运行时,处理器401与存储器402之间通过总线403通信,机器可读指令被处理器401执行时执行如下处理:
获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的目标图像确定的多个目标对象中每个目标对象的候选三维点的三维坐标信息;
针对每个目标对象,执行如下步骤:
基于目标对象的候选三维点的三维坐标信息,确定目标对象对应的候选三维空间;基于目标对象对应的候选三维空间、以及目标图像,确定目标对象的目标三维点的三维坐标信息。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的三维点检测的方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的三维点检测的方法的步骤,具体可参见上述方法实施例,在此不再赘述。
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。
Claims (17)
1.一种三维点检测的方法,其特征在于,所述方法包括:
获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的所述目标图像确定的所述多个目标对象中每个目标对象的候选三维点的三维坐标信息;
针对所述每个目标对象,执行如下步骤:
基于所述目标对象的候选三维点的三维坐标信息,确定所述目标对象对应的候选三维空间;
基于所述目标对象对应的候选三维空间、以及所述目标图像,确定所述目标对象的目标三维点的三维坐标信息。
2.根据权利要求1所述的方法,其特征在于,所述三维点包括三维中心点;所述候选三维点包括候选三维中心点,且所述目标对象的所述候选三维中心点位于所述目标对象的中心位置;所述目标三维点包括目标三维中心点。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述目标对象对应的候选三维空间、以及所述目标图像,确定所述目标对象的目标三维点的三维坐标信息,包括:
将所述目标对象的候选三维空间进行空间采样,确定多个采样点;
针对所述多个采样点中的每个采样点,基于所述采样点在所述候选三维空间内的三维坐标信息、以及所述目标图像,确定所述采样点对应的三维点检测结果;
基于得到的所述三维点检测结果,确定所述目标对象的目标三维点的三维坐标信息。
4.根据权利要求3所述的方法,其特征在于,所述基于所述采样点在所述候选三维空间内的三维坐标信息、以及所述目标图像,确定所述采样点对应的三维点检测结果,包括:
针对所述多个采样点中的每个采样点,基于所述候选三维空间所在三维坐标系与各个视角所在二维坐标系之间的对应关系,将所述三维坐标信息投影至不同视角下,确定所述采样点分别在多个所述目标图像中的二维投影点信息;
基于所述采样点分别在多个所述目标图像中的二维投影点信息,确定所述采样点在不同视角下的采样点特征信息;
基于所述采样点在不同视角下的采样点特征信息,确定所述采样点对应的三维点检测结果。
5.根据权利要求4所述的方法,其特征在于,所述二维投影点信息包括二维投影点的图像位置信息;所述基于所述采样点分别在多个所述目标图像中的二维投影点信息,确定所述采样点在不同视角下的采样点特征信息,包括:
提取多个所述目标图像分别对应的图像特征;
针对多个所述目标图像中的每个所述目标图像,基于所述采样点在多个所述目标图像中的二维投影点的图像位置信息,从所述目标图像对应的图像特征中提取与所述图像位置信息对应的图像特征;
将提取的与所述图像位置信息对应的图像特征,确定所述采样点在不同视角下的采样点特征信息。
6.根据权利要求4或5所述的方法,其特征在于,所述基于所述采样点在不同视角下的采样点特征信息,确定所述采样点对应的三维点检测结果,包括:
基于所述采样点在不同视角下的采样点特征信息,以及与所述采样点关联的其他采样点的采样点特征信息,确定所述采样点在不同视角下的更新采样点特征信息;
基于所述采样点对应的更新采样点特征信息,确定所述采样点对应的三维点检测结果。
7.根据权利要求1-6任一所述的方法,其特征在于,按照如下步骤确定每个目标对象的候选三维点的三维坐标信息:
从多个所述目标图像中分别提取多个二维点的图像特征信息,其中,每个二维点是位于对应的目标对象中的像素点;
基于从多个所述目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,其中,所述成对的二维点来自不同的目标图像;
根据确定的所述成对的二维点在各自目标图像中的二维坐标信息,确定所述同一目标对象的候选三维点的三维坐标信息。
8.根据权利要求7所述的方法,其特征在于,所述基于从多个所述目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,包括:
将所述目标图像进行两两组合,得到至少一组目标图像;
基于多个所述目标图像中的二维点的图像特征信息,确定每组所述目标图像中是否存在图像特征匹配的两个二维点;所述两个二维点分别属于同一组目标图像中的不同目标图像;
若存在,则将图像特征匹配的两个二维点确定为所述属于同一目标对象的成对的二维点。
9.根据权利要求8所述的方法,其特征在于,所述基于多个所述目标图像中的二维点的图像特征信息,确定每组所述目标图像中是否存在图像特征匹配的两个二维点,包括:
针对每组目标图像,将该组目标图像的两个目标图像中的二维点两两组合,得到多组二维点;基于每组二维点包括的两个二维点的图像特征信息,确定该组目标图像中是否存在图像特征匹配的两个二维点。
10.根据权利要求9所述的方法,其特征在于,所述基于每组二维点包括的两个二维点的图像特征信息,确定该组目标图像中是否存在图像特征匹配的两个二维点,包括:
针对每组二维点,将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定所述两个二维点的图像特征信息是否匹配;
若是,则将图像特征匹配的两个二维点确定为该组目标图像中存在图像特征匹配的两个二维点。
11.根据权利要求10所述的方法,其特征在于,所述将该组二维点的两个二维点的图像特征信息输入到特征匹配网络中,确定所述两个二维点的图像特征信息是否匹配,包括:
针对该组二维点中的每个二维点,基于该二维点的图像特征信息,以及与该二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息,对该二维点的图像特征信息进行更新,得到更新后的图像特征信息;
将所述两个二维点分别对应的更新后的图像特征信息输入到特征匹配网络中,确定所述两个二维点的图像特征信息是否匹配。
12.根据权利要求7所述的方法,其特征在于,所述基于从多个所述目标图像中分别提取的图像特征信息,确定属于同一目标对象的成对的二维点,包括:
针对多个所述目标图像中的第一目标图像,基于所述第一目标图像中提取的图像特征信息、以及所述多个目标图像中除所述第一目标图像之外的其它目标图像中提取的图像特征信息,对所述第一目标图像中多个所述二维点的图像特征信息进行更新,得到所述第一目标图像中多个所述二维点分别对应的更新后的图像特征信息;
基于多个所述目标图像分别对应的更新后的图像特征信息,确定属于同一目标对象的成对的二维点。
13.根据权利要求12所述的方法,其特征在于,所述基于多个所述目标图像分别对应的更新后的图像特征信息,确定属于同一目标对象的成对的二维点,包括:
从多个所述目标图像中任意选取两个目标图像,并从任意选取的所述两个目标图像中分别选取对应的两个二维点;
将选取的所述两个二维点分别对应的更新后的图像特征信息输入预先训练好的特征匹配网络中,并在确定网络输出特征匹配成功的情况下,确定选取的所述两个二维点为属于同一目标对象的成对的二维点。
14.根据权利要求11-13任一所述的方法,其特征在于,按照如下步骤对所述二维点的图像特征信息进行更新:
基于所述二维点在对应目标图像中的二维坐标信息、以及与所述二维点所在目标图像不同的其它目标图像中其它二维点的二维坐标信息,确定所述二维点与所述其它二维点之间的极线距离;
基于所述二维点的图像特征信息、与所述二维点所在目标图像不同的其它目标图像中其它二维点的图像特征信息、以及所述极线距离对所述二维点的图像特征信息进行更新,得到更新后的图像特征信息。
15.一种三维点检测的装置,其特征在于,所述装置包括:
获取模块,用于获取多个视角下对多个目标对象进行拍摄得到的目标图像,以及基于获取的所述目标图像确定的所述多个目标对象中每个目标对象的候选三维点的三维坐标信息;
检测模块,用于针对所述每个目标对象,基于所述目标对象的候选三维点的三维坐标信息,确定所述目标对象对应的候选三维空间;基于所述目标对象对应的候选三维空间、以及所述目标图像,确定所述目标对象的目标三维点的三维坐标信息。
16.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至14任一所述的三维点检测的方法的步骤。
17.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至14任一所述的三维点检测的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110929512.6A CN113610967B (zh) | 2021-08-13 | 2021-08-13 | 三维点检测的方法、装置、电子设备及存储介质 |
PCT/CN2022/088149 WO2023015938A1 (zh) | 2021-08-13 | 2022-04-21 | 三维点检测的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110929512.6A CN113610967B (zh) | 2021-08-13 | 2021-08-13 | 三维点检测的方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113610967A true CN113610967A (zh) | 2021-11-05 |
CN113610967B CN113610967B (zh) | 2024-03-26 |
Family
ID=78340615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110929512.6A Active CN113610967B (zh) | 2021-08-13 | 2021-08-13 | 三维点检测的方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113610967B (zh) |
WO (1) | WO2023015938A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821497A (zh) * | 2022-02-24 | 2022-07-29 | 广州文远知行科技有限公司 | 目标物位置的确定方法、装置、设备及存储介质 |
WO2023015938A1 (zh) * | 2021-08-13 | 2023-02-16 | 上海商汤智能科技有限公司 | 三维点检测的方法、装置、电子设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582207A (zh) * | 2020-05-13 | 2020-08-25 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、电子设备及存储介质 |
WO2020207190A1 (zh) * | 2019-04-12 | 2020-10-15 | Oppo广东移动通信有限公司 | 一种三维信息确定方法、三维信息确定装置及终端设备 |
CN111951326A (zh) * | 2019-05-15 | 2020-11-17 | 北京地平线机器人技术研发有限公司 | 基于多摄像装置的目标对象骨骼关键点定位方法和装置 |
WO2021046716A1 (zh) * | 2019-09-10 | 2021-03-18 | 深圳市大疆创新科技有限公司 | 目标对象的检测方法、系统、设备及存储介质 |
CN112528831A (zh) * | 2020-12-07 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 多目标姿态估计方法、多目标姿态估计装置及终端设备 |
CN112926461A (zh) * | 2021-02-26 | 2021-06-08 | 商汤集团有限公司 | 神经网络训练、行驶控制方法及装置 |
CN112926395A (zh) * | 2021-01-27 | 2021-06-08 | 上海商汤临港智能科技有限公司 | 目标检测方法、装置、计算机设备及存储介质 |
CN112991440A (zh) * | 2019-12-12 | 2021-06-18 | 纳恩博(北京)科技有限公司 | 车辆的定位方法和装置、存储介质和电子装置 |
CN113168716A (zh) * | 2020-03-19 | 2021-07-23 | 深圳市大疆创新科技有限公司 | 对象解算、绕点飞行方法及设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10089750B2 (en) * | 2017-02-02 | 2018-10-02 | Intel Corporation | Method and system of automatic object dimension measurement by using image processing |
CN109766882B (zh) * | 2018-12-18 | 2020-11-20 | 北京诺亦腾科技有限公司 | 人体光点的标签识别方法、装置 |
CN112200851B (zh) * | 2020-12-09 | 2021-02-26 | 北京云测信息技术有限公司 | 一种基于点云的目标检测方法、装置及其电子设备 |
CN112950668A (zh) * | 2021-02-26 | 2021-06-11 | 北斗景踪技术(山东)有限公司 | 一种基于模位置测量的智能监控方法及系统 |
CN113610967B (zh) * | 2021-08-13 | 2024-03-26 | 北京市商汤科技开发有限公司 | 三维点检测的方法、装置、电子设备及存储介质 |
-
2021
- 2021-08-13 CN CN202110929512.6A patent/CN113610967B/zh active Active
-
2022
- 2022-04-21 WO PCT/CN2022/088149 patent/WO2023015938A1/zh unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020207190A1 (zh) * | 2019-04-12 | 2020-10-15 | Oppo广东移动通信有限公司 | 一种三维信息确定方法、三维信息确定装置及终端设备 |
CN111951326A (zh) * | 2019-05-15 | 2020-11-17 | 北京地平线机器人技术研发有限公司 | 基于多摄像装置的目标对象骨骼关键点定位方法和装置 |
WO2021046716A1 (zh) * | 2019-09-10 | 2021-03-18 | 深圳市大疆创新科技有限公司 | 目标对象的检测方法、系统、设备及存储介质 |
CN112991440A (zh) * | 2019-12-12 | 2021-06-18 | 纳恩博(北京)科技有限公司 | 车辆的定位方法和装置、存储介质和电子装置 |
CN113168716A (zh) * | 2020-03-19 | 2021-07-23 | 深圳市大疆创新科技有限公司 | 对象解算、绕点飞行方法及设备 |
CN111582207A (zh) * | 2020-05-13 | 2020-08-25 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112528831A (zh) * | 2020-12-07 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 多目标姿态估计方法、多目标姿态估计装置及终端设备 |
CN112926395A (zh) * | 2021-01-27 | 2021-06-08 | 上海商汤临港智能科技有限公司 | 目标检测方法、装置、计算机设备及存储介质 |
CN112926461A (zh) * | 2021-02-26 | 2021-06-08 | 商汤集团有限公司 | 神经网络训练、行驶控制方法及装置 |
Non-Patent Citations (3)
Title |
---|
S.M. IMAN ZOLANVARI等: "Three-dimensional building façade segmentation and opening area detection from point clouds", 《ISPRS JOURNAL OF PHOTOGRAMMETRY AND REMOTE SENSING》, vol. 143 * |
沈琦;陈逸伦;刘枢;刘利刚;: "基于两级网络的三维目标检测算法", 计算机科学, vol. 47, no. 10 * |
陆林东等: "基于三维语义包围框的车辆事故检测方法研究", 《计算机与数字工程》, vol. 49, no. 6 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023015938A1 (zh) * | 2021-08-13 | 2023-02-16 | 上海商汤智能科技有限公司 | 三维点检测的方法、装置、电子设备及存储介质 |
CN114821497A (zh) * | 2022-02-24 | 2022-07-29 | 广州文远知行科技有限公司 | 目标物位置的确定方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023015938A1 (zh) | 2023-02-16 |
CN113610967B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107742311B (zh) | 一种视觉定位的方法及装置 | |
CN106940704B (zh) | 一种基于栅格地图的定位方法及装置 | |
KR101722803B1 (ko) | 이미지들의 시퀀스에서 물체들의 실시간 표현들의 하이브리드 추적을 위한 방법, 컴퓨터 프로그램 및 디바이스 | |
KR101791590B1 (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
WO2019099095A1 (en) | Pose estimation and model retrieval for objects in images | |
CN109410316B (zh) | 物体的三维重建的方法、跟踪方法、相关装置及存储介质 | |
Jellal et al. | LS-ELAS: Line segment based efficient large scale stereo matching | |
WO2014022036A1 (en) | Fast 3-d point cloud generation on mobile devices | |
CN111445526A (zh) | 一种图像帧之间位姿的估计方法、估计装置和存储介质 | |
CN113610967B (zh) | 三维点检测的方法、装置、电子设备及存储介质 | |
CN112686178B (zh) | 一种多视角目标轨迹生成方法、装置和电子设备 | |
CN112785705B (zh) | 一种位姿获取方法、装置及移动设备 | |
CN113610966A (zh) | 三维姿态调整的方法、装置、电子设备及存储介质 | |
WO2023087758A1 (zh) | 定位方法、定位装置、计算机可读存储介质和计算机程序产品 | |
CN112802081A (zh) | 一种深度检测方法、装置、电子设备及存储介质 | |
CN111899279A (zh) | 一种目标对象的运动速度检测方法及装置 | |
US20170069096A1 (en) | Simultaneous localization and mapping initialization | |
CN114882106A (zh) | 位姿确定方法和装置、设备、介质 | |
CN110673607A (zh) | 动态场景下的特征点提取方法、装置、及终端设备 | |
CN114548214A (zh) | 目标跟踪方法、计算机设备及存储装置 | |
CN108109164B (zh) | 一种信息处理方法及电子设备 | |
CN110514140B (zh) | 一种三维成像方法、装置、设备以及存储介质 | |
Price et al. | Augmenting crowd-sourced 3d reconstructions using semantic detections | |
Chen et al. | Epipole Estimation under Pure Camera Translation. | |
JP2014199559A (ja) | 視点推定装置及びその分類器学習方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40055490 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |