CN116051832A - 车辆的三维标注方法和装置 - Google Patents
车辆的三维标注方法和装置 Download PDFInfo
- Publication number
- CN116051832A CN116051832A CN202211672257.2A CN202211672257A CN116051832A CN 116051832 A CN116051832 A CN 116051832A CN 202211672257 A CN202211672257 A CN 202211672257A CN 116051832 A CN116051832 A CN 116051832A
- Authority
- CN
- China
- Prior art keywords
- image
- vehicle
- target vehicle
- map
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Traffic Control Systems (AREA)
Abstract
本公开提供了车辆的三维标注方法和装置,涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于自动驾驶、元宇宙等场景。具体实现方案为:获取多视角的环境图像集合;基于环境图像集合重建三维地图;将已知位姿参数和形状参数的车辆模型放置到三维地图中的目标位置,并对车辆模型进行可微渲染得到第一掩码图,其中,目标位置对应的环境图像中包含目标车辆的图像;对于目标位置对应的环境图像进行语义分割得到第二掩码图;根据第一掩码图和第二掩码图之间的差异调整车辆模型的位姿参数和形状参数,得到目标车辆的位姿参数和形状参数。该实施方式能够快捷、准确地进行车辆的三维标注,并降低了标注成本。
Description
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于自动驾驶、元宇宙等场景。
背景技术
在自动驾驶中,车辆的标注是非常重要的工作,车辆的三维标注可以为后续识别检测等工作提供数据源,对于自动驾驶流程中数据采集完后的数据标注的闭环,可以大大提高自动驾驶功能的泛化性,降低自动驾驶使用三维传感器的成本,带有时序信息的标注更为车辆的路径规划带来帮助提高车辆的自动驾驶能力。
现有的三维标注大多利用合成数据,先利用仿真软件如carla等生成带有真实标签的视频,并用于训练,利用合成数据与真实数据存在一定差距,导致预测模型在真实数据的泛化性能难以达到较高的水平。
如果利用传感器如雷达进行数据采集并利用雷达的三维信息进行车辆的三维标注,需要昂贵传感器导致采集数据的成本较高。
发明内容
本公开提供了一种车辆的三维标注方法、装置、设备、存储介质以及计算机程序产品。
根据本公开的第一方面,提供了一种车辆的三维标注方法,包括:获取多视角的环境图像集合;基于所述环境图像集合重建三维地图;将已知位姿参数和形状参数的车辆模型放置到所述三维地图中的目标位置,并对所述车辆模型进行可微渲染得到第一掩码图,其中,所述目标位置对应的环境图像中包含目标车辆的图像;对于所述目标位置对应的环境图像进行语义分割得到第二掩码图;根据所述第一掩码图和所述第二掩码图之间的差异调整所述车辆模型的位姿参数和形状参数,得到所述目标车辆的位姿参数和形状参数。
根据本公开的第二方面,提供了一种车辆的三维标注装置,包括:获取单元,被配置成获取多视角的环境图像集合;重建单元,被配置成基于所述环境图像集合重建三维地图;渲染单元,被配置成将已知位姿参数和形状参数的车辆模型放置到所述三维地图中的目标位置,并对所述车辆模型进行可微渲染得到第一掩码图,其中,所述目标位置对应的环境图像中包含目标车辆的图像;分割单元,被配置成对于所述目标位置对应的环境图像进行语义分割得到第二掩码图;调整单元,被配置成根据所述第一掩码图和所述第二掩码图之间的差异调整所述车辆模型的位姿参数和形状参数,得到所述目标车辆的位姿参数和形状参数。
根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面所述的方法。
本公开的实施例提供的车辆的三维标注方法和装置,通过利用环境图像生成地图,利用地图作为参考系进行辅助标注车辆信息。根据待标记图片的相机位姿以及环境信息,给可变形车辆进行初始位置固定,并利用可微渲染优化车辆的位姿以及变形参数。从而可以快速、准确地对车辆进行三维标注,并节省了人力成本。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本公开的车辆的三维标注方法的一个实施例的流程图;
图3a、3b是根据本公开的车辆的三维标注方法的应用场景的示意图;
图4是根据本公开的车辆的三维标注方法的又一个实施例的流程图;
图5是根据本公开的车辆的三维标注装置的一个实施例的结构示意图;
图6是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本申请实施例的车辆的三维标注方法和装置的示例性系统架构100。
如图1所示,系统架构100可以包括无人车(也称自动驾驶车)101、102,网络103、数据库服务器104和服务器105。网络103用以在无人车101、102,数据库服务器104与服务器105之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
无人车101、102中可安装有驾驶控制设备以及激光雷达、毫米波雷达等采集点云数据的设备,本申请中为了降低成本可以不安装。还安装有摄像头用于采集全景图像。驾驶控制设备(又称为车载大脑)负责无人车的智能控制。驾驶控制设备可以是单独设置的控制器,例如可编程逻辑控制器(Programmable Logic Controller,PLC)、单片机、工业控制机等;也可以是由其他具有输入/输出端口,并具有运算控制功能的电子器件组成的设备;还可以是安装有车辆驾驶控制类应用的计算机设备。
需要说明的是,实践中无人车中还可以安装有至少一个传感器,例如,、重力传感器、轮速传感器等。某些情况下,无人车中还可以安装有GNSS(Global NavigationSatellite System,全球导航卫星系统)设备和SINS(Strap-down Inertial NavigationSystem,捷联惯性导航系统)等等。
数据库服务器104可以是提供各种服务的数据库服务器。例如数据库服务器中可以存储有环境图像集合和车辆模型。这样,用户也可以通过无人车101、102,从数据库服务器104所存储的环境图像集合选取环境图像构建三维地图,并获取车辆模型的位姿参数和形状参数。
服务器105也可以是提供各种服务的服务器,例如对无人车101、102上显示的各种应用提供支持的后台服务器。后台服务器可以利用无人车101、102采集的环境图像集合生成三维地图,再利用数据库服务器104中存储的车辆模型的位姿参数和形状参数对环境图像中的车辆进行三维标注。
这里的数据库服务器104和服务器105同样可以是硬件,也可以是软件。当它们为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当它们为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。数据库服务器104和服务器105也可以为分布式系统的服务器,或者是结合了区块链的服务器。数据库服务器104和服务器105也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
需要说明的是,本申请实施例所提供的车辆的三维标注方法一般由服务器105执行。相应地,车辆的三维标注装置一般也设置于服务器中。
需要指出的是,在服务器105可以实现数据库服务器104的相关功能的情况下,系统架构100中可以不设置数据库服务器104。
应该理解,图1中的无人车、网络、数据库服务器和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的无人车、网络、数据库服务器和服务器。
继续参见图2,其示出了根据本申请的车辆的三维标注方法的一个实施例的流程200。该车辆的三维标注方法可以包括以下步骤:
步骤201,获取多视角的环境图像集合。
在本实施例中,车辆的三维标注方法的执行主体(例如图1所示的服务器)可以通过无人车的车载摄像头获取多视角的环境图像集合。也可从数据库服务器获取已采集好的多视角的环境图像集合。这里的环境图像集合是一些街景的图像,可包含行人、车辆等。
步骤202,基于环境图像集合重建三维地图。
在本实施例中,可通过现有技术的算法进行点云重建,得到三维地图,例如,双目三维重建、SFM(Structure from Motion,运动推断结构)、MVS(Multi View Stereo,多视图立体)等。三维地图可以仅包含街景(如道路、绿化带、建筑物等),而不包含行人、车辆。
步骤203,将已知位姿参数和形状参数的车辆模型放置到三维地图中的目标位置,并对车辆模型进行可微渲染得到第一掩码图。
在本实施例中,预先设计了3维的车辆模型,已知该车辆模型的位姿参数(例如车辆航向角、横摆角、质心侧偏角等)和形状参数(长、宽、高)。将需要标注的车辆设置为目标车辆。目标位置指的是包含目标车辆的环境图像对应在三维地图中的位置。环境图像集合中可能出现多次目标车辆,可任选一张环境图像作为目标位置对应的图像。通过可微渲染将三维的车辆模型转换成二维的掩码图。为了和环境图像得到的掩码图做区分,将通过车辆模型得到的掩码图命名为第一掩码图。将通过语义分割得到的掩码图命名为第二掩码图。
步骤204,对于目标位置对应的环境图像进行语义分割得到第二掩码图。
在本实施例中,通过现有的语义分割模型对目标位置对应的环境图像进行语义分割,该语义分割模型可以识别出环境图像中的车辆,通过与背景不同的颜色区分出来,得到了掩码图。
步骤205,根据第一掩码图和第二掩码图之间的差异调整车辆模型的位姿参数和形状参数,得到目标车辆的位姿参数和形状参数。
在本实施例中,可通过调整车辆模型的位姿参数和形状参数来改变第一掩码图中车辆的位姿和形状,使得第一掩码图越来接接近第二掩码图。例如,将车辆模型的宽度减少到90%,长度减少到80%,高度增加到105%后得到的第一掩码图与第二掩码图一致,则目标车辆的宽度为车辆模型的宽度的90%,目标车辆的长度为车辆模型的长度的80%,目标车辆的高度为车辆模型的高度的1.05倍。车辆模型的位姿也根据第二掩码图中目标车辆的位姿调整,例如将第一掩码图中车辆模型的航向角顺时针旋转30度后与第二掩码图中的目标车辆的航向角相同,则目标车辆的航向角为车辆模型的航向角+30度。
本公开的上述实施例提供的方法,不需要通过雷达采集点云数据,仅通过环境图像就能快速、准确地进行车辆三维标注,降低了标注成本。
在本实施例的一些可选的实现方式中,该方法还包括:从所述环境图像集合中确定出与所述目标车辆的特征匹配的待标注图像;将所述待标注图像进行语义分割得到第三掩码图;根据所述第一掩码图和所述第三掩码图之间的差异调整所述车辆模型的位姿参数,得到所述待标注图像中目标车辆的位姿参数,并根据已得到的目标车辆的形状参数标注所述待标注图像的目标车辆的形状参数。这里的待标注图像为目标车辆的时序图像,环境图像集合中出现多次目标车辆,只是采集的时间不同。因为是同一辆车,因此可通过特征匹配算法进行车辆跟踪。可采用常见的稠密匹配算法匹配不同图像之间的像素特征。对于每个待标注图像,目标车辆的形状参数都是一样的,区别在于位姿参数。只需要采用上文同样的方法,通过掩码来调整车辆模型的位姿参数就可得到每张待标注图像中目标车辆的位姿参数。通过该方法能够快速为同一辆车进行标注。还能够根据拍摄的图像间隔和车辆的位置变化来计算车辆的行驶速度,并标注在视频中。
在本实施例的一些可选的实现方式中,所述基于所述环境图像集合重建三维地图,包括:通过从运动恢复结构(SFM)算法和多视图立体视觉(MVS)算法重建稠密点云;获取所述环境图像集合中各环境图像的GPS信息;根据各环境图像的GPS信息对所述稠密点云进行尺度恢复,得到三维地图。为了得到精确的三维地图,需要进行稠密点云重建。
首先,SFM重建步骤:
1、提取图像的特征点(提取关键点,计算描述子)。
2、两两图片对特征匹配(无法用极线约束,匹配比较盲目,误匹配点较多,所以这种方法点云较为稀疏)。
3、获得两两之间相机空间姿态变换(为后面MVS图像矫正提供相机参数)。
4、根据匹配的特征点进行稀疏重建。
其次,MVS重建步骤:
1、上述SFM获得相机参数的基础上进行稠密重建。
2、根据相机参数对任意两两图片对进行立体矫正(参见双目重建)。
3、提取图像的特征点(提取关键点,计算描述子)。
4、立体匹配(对齐后的图片利用极线约束匹配特征点)。
5、极线约束使得任一像素很容易找到对应点,获得稠密对应点。
6、生成稠密点云。
该方法重建出来的是归一化模型,它和真实模型的尺寸差一个缩放尺度因子,解决这个问题需要GPS信息进行尺度恢复。具体过程为现有技术,因此不再赘述。
通过该方式能够获得精准的三维地图,从而提高车辆标注的准确性。
在本实施例的一些可选的实现方式中,从所述环境图像集合中确定出与所述目标车辆的特征匹配的待标注图像,包括:通过稠密匹配算法从所述环境图像集合中确定出与所述目标车辆的特征匹配的候选图像集;将所述候选图像集中的车辆的特征进行聚类,过滤掉与所述目标车辆的特征不同类的候选图像,得到待标注图像。
由于许多车辆纹理重复或存在较多无明显纹理区域,传统的特征匹配难以正确匹配不同时序的车,利用dense match(稠密匹配)的方法可以获得大量匹配,最后利用聚类的方法对车辆进行匹配,得到车辆的对应关系,对于已经标注的车后续优化不需要优化车辆的变形参数。目标车辆的聚类可采用常见的聚类算法,例如kmeans等。如图3b所示,左上角的目标车辆与右侧2辆车都有匹配的特征点,但是右下角的特征点没法与上侧两车的特征点聚为一类,因此被过滤掉,只留下右上角的车的特征点与左上角的车匹配,即上面的2辆车都是目标车辆,只是位姿不同,可根据上文所述的方法进行标注。通过聚类的方法可以快速的过滤掉非目标车辆,提高目标车辆的跟踪准确性,减少了计算量。
继续参见图3a,图3a是根据本实施例的车辆的三维标注方法的应用场景的一个示意图。在图3a的应用场景中,无人车采集了多视角的环境图像集合。将这些图像通过patchmatch stereo(多视图立体匹配)算法构建出三维地图。图中右上角为车辆模型,已知车辆模型的位置和形状,将其放置在三维地图中。然后通过可微渲染将三维地图中的车辆模型转换成第一掩码图(右侧)。多视角的环境图像集合通过语义分割得到了第二掩码图(左侧)。根据第一掩码图和第二掩码图的差异进行损失计算,优化出目标车辆的位姿参数和形状参数。优化完成后车辆本身的三维信息(长宽高)以及车辆在三维地图中的信息都可以获得。
进一步参考图4,其示出了车辆的三维标注方法的又一个实施例的流程400。该车辆的三维标注方法的流程400,包括以下步骤:
步骤401,获取多视角的环境图像集合。
步骤402,基于环境图像集合重建三维地图。
步骤403,将已知位姿参数和形状参数的车辆模型放置到三维地图中的目标位置,并对车辆模型进行可微渲染得到第一掩码图。
步骤404,对于目标位置对应的环境图像进行语义分割得到第二掩码图。
步骤405,根据第一掩码图和第二掩码图之间的差异调整车辆模型的位姿参数和形状参数,得到目标车辆的位姿参数和形状参数。
步骤401-405与步骤201-205基本相同,因此不再赘述。
步骤406,获取待定位图像。
在本实施例中,待定位图像不是建立三维地图时采集的环境图像,而是在三维地图区域内任意拍摄的图像,也包含了目标车辆。如果是其它车辆的图像,则可按照步骤201-205的方法得到该车辆的位姿参数和形状参数。
步骤407,将待定位图像与三维地图进行匹配,获得待定位图像相对于三维地图的位置。
在本实施例中,可通过图像关键点进行地图匹配,也可通过GPS信息进行匹配。从三维地图中确定出待定位图像的位置。
步骤408,根据位置标注待定位图像中目标车辆的位姿参数和形状参数。
在本实施例中,可通过VPAS(Visual Positioning and Augmenting Service,视觉定位与增强服务)技术,已知待定位图像的位置和目标车辆的形状参数,就能标注待定位图像中目标车辆的位姿参数。VPAS是通过采集摄像头及其他传感器数据并进行深度融合所实现的精准定位,可以很好的覆盖室内和楼宇间的窄路场景,从而与GPS定位服务形成很好的互补关系。此外,区别于GPS的定位,视觉定位能力可以返回信息维度更多的6Dof的姿态信息(同时包含三维位置信息和朝向数据)用以支持AR内容的精准叠加显示。
在本实施例的一些可选的实现方式中,该方法还包括:根据不同时序的待定位图像中所述目标车辆在所述三维地图中的位置变化计算出所述目标车辆的速度并标注在待定位图像中。根据图像的时间间隔以及车辆在图像中位置的变化可以计算出车辆的行驶速度,并标注在图像中,从而由图像组成的视频中可以看到车辆速度不断的变化。
从图4中可以看出,与图2对应的实施例相比,本实施例中的车辆的三维标注方法的流程400体现了对任意图像进行标注的步骤。由此,本实施例描述的方案可以广泛应用于不同场景下的图像标注。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了一种车辆的三维标注装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的车辆的三维标注装置500包括:获取单元501、重建单元502、渲染单元503、分割单元504、调整单元505。其中,获取单元501,被配置成获取多视角的环境图像集合;重建单元502,被配置成基于所述环境图像集合重建三维地图;渲染单元503,被配置成将已知位姿参数和形状参数的车辆模型放置到所述三维地图中的目标位置,并对所述车辆模型进行可微渲染得到第一掩码图,其中,所述目标位置对应的环境图像中包含目标车辆的图像;分割单元504,被配置成对于所述目标位置对应的环境图像进行语义分割得到第二掩码图;调整单元505,被配置成根据所述第一掩码图和所述第二掩码图之间的差异调整所述车辆模型的位姿参数和形状参数,得到所述目标车辆的位姿参数和形状参数。
在本实施例中,车辆的三维标注装置500的获取单元501、重建单元502、渲染单元503、分割单元504、调整单元505的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203、步骤204、步骤205。
在本实施例的一些可选的实现方式中,装置500还包括时序单元(附图中未示出),被配置成:从所述环境图像集合中确定出与所述目标车辆的特征匹配的待标注图像;将所述待标注图像进行语义分割得到第三掩码图;根据所述第一掩码图和所述第三掩码图之间的差异调整所述车辆模型的位姿参数,得到所述待标注图像中目标车辆的位姿参数,并根据已得到的目标车辆的形状参数标注所述待标注图像的目标车辆的形状参数。
在本实施例的一些可选的实现方式中,重建单元502进一步被配置成:通过从运动恢复结构算法和多视图立体视觉算法重建稠密点云;获取所述环境图像集合中各环境图像的GPS信息;根据各环境图像的GPS信息对所述稠密点云进行尺度恢复,得到三维地图。
在本实施例的一些可选的实现方式中,装置还包括标注单元(附图中未示出),被配置成:获取待定位图像;将所述待定位图像与所述三维地图进行匹配,获得所述待定位图像相对于所述三维地图的位置;根据所述位置标注所述待定位图像中目标车辆的位姿参数和形状参数。
在本实施例的一些可选的实现方式中,标注单元进一步被配置成:根据不同时序的待定位图像中所述目标车辆在所述三维地图中的位置变化计算出所述目标车辆的速度并标注在待定位图像中。
在本实施例的一些可选的实现方式中,时序单元进一步被配置成:通过稠密匹配算法从所述环境图像集合中确定出与所述目标车辆的特征匹配的候选图像集;将所述候选图像集中的车辆的特征进行聚类,过滤掉与所述目标车辆的特征不同类的候选图像,得到待标注图像。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行流程200或400所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行流程200或400所述的方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现流程200或400所述的方法。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如车辆的三维标注方法。例如,在一些实施例中,车辆的三维标注方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的车辆的三维标注方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行车辆的三维标注方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种车辆的三维标注方法,包括:
获取多视角的环境图像集合;
基于所述环境图像集合重建三维地图;
将已知位姿参数和形状参数的车辆模型放置到所述三维地图中的目标位置,并对所述车辆模型进行可微渲染得到第一掩码图,其中,所述目标位置对应的环境图像中包含目标车辆的图像;
对于所述目标位置对应的环境图像进行语义分割得到第二掩码图;
根据所述第一掩码图和所述第二掩码图之间的差异调整所述车辆模型的位姿参数和形状参数,得到所述目标车辆的位姿参数和形状参数。
2.根据权利要求1所述的方法,其中,所述方法还包括:
从所述环境图像集合中确定出与所述目标车辆的特征匹配的待标注图像;
将所述待标注图像进行语义分割得到第三掩码图;
根据所述第一掩码图和所述第三掩码图之间的差异调整所述车辆模型的位姿参数,得到所述待标注图像中目标车辆的位姿参数,并根据已得到的目标车辆的形状参数标注所述待标注图像的目标车辆的形状参数。
3.根据权利要求1所述的方法,其中,所述基于所述环境图像集合重建三维地图,包括:
通过从运动恢复结构算法和多视图立体视觉算法重建稠密点云;
获取所述环境图像集合中各环境图像的GPS信息;
根据各环境图像的GPS信息对所述稠密点云进行尺度恢复,得到三维地图。
4.根据权利要求1所述的方法,其中,所述方法还包括:
获取待定位图像;
将所述待定位图像与所述三维地图进行匹配,获得所述待定位图像相对于所述三维地图的位置;
根据所述位置标注所述待定位图像中目标车辆的位姿参数和形状参数。
5.根据权利要求4所述的方法,其中,所述方法还包括:
根据不同时序的待定位图像中所述目标车辆在所述三维地图中的位置变化计算出所述目标车辆的速度并标注在待定位图像中。
6.根据权利要求2所述的方法,其中,所述从所述环境图像集合中确定出与所述目标车辆的特征匹配的待标注图像,包括:
通过稠密匹配算法从所述环境图像集合中确定出与所述目标车辆的特征匹配的候选图像集;
将所述候选图像集中的车辆的特征进行聚类,过滤掉与所述目标车辆的特征不同类的候选图像,得到待标注图像。
7.一种车辆的三维标注装置,包括:
获取单元,被配置成获取多视角的环境图像集合;
重建单元,被配置成基于所述环境图像集合重建三维地图;
渲染单元,被配置成将已知位姿参数和形状参数的车辆模型放置到所述三维地图中的目标位置,并对所述车辆模型进行可微渲染得到第一掩码图,其中,所述目标位置对应的环境图像中包含目标车辆的图像;
分割单元,被配置成对于所述目标位置对应的环境图像进行语义分割得到第二掩码图;
调整单元,被配置成根据所述第一掩码图和所述第二掩码图之间的差异调整所述车辆模型的位姿参数和形状参数,得到所述目标车辆的位姿参数和形状参数。
8.根据权利要求7所述的装置,其中,所述装置还包括时序单元,被配置成:
从所述环境图像集合中确定出与所述目标车辆的特征匹配的待标注图像;
将所述待标注图像进行语义分割得到第三掩码图;
根据所述第一掩码图和所述第三掩码图之间的差异调整所述车辆模型的位姿参数,得到所述待标注图像中目标车辆的位姿参数,并根据已得到的目标车辆的形状参数标注所述待标注图像的目标车辆的形状参数。
9.根据权利要求7所述的装置,其中,所述重建单元进一步被配置成:
通过从运动恢复结构算法和多视图立体视觉算法重建稠密点云;
获取所述环境图像集合中各环境图像的GPS信息;
根据各环境图像的GPS信息对所述稠密点云进行尺度恢复,得到三维地图。
10.根据权利要求7所述的装置,其中,所述装置还包括标注单元,被配置成:
获取待定位图像;
将所述待定位图像与所述三维地图进行匹配,获得所述待定位图像相对于所述三维地图的位置;
根据所述位置标注所述待定位图像中目标车辆的位姿参数和形状参数。
11.根据权利要求10所述的装置,其中,所述标注单元进一步被配置成:
根据不同时序的待定位图像中所述目标车辆在所述三维地图中的位置变化计算出所述目标车辆的速度并标注在待定位图像中。
12.根据权利要求8所述的装置,其中,所述时序单元进一步被配置成:
通过稠密匹配算法从所述环境图像集合中确定出与所述目标车辆的特征匹配的候选图像集;
将所述候选图像集中的车辆的特征进行聚类,过滤掉与所述目标车辆的特征不同类的候选图像,得到待标注图像。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672257.2A CN116051832A (zh) | 2022-12-26 | 2022-12-26 | 车辆的三维标注方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211672257.2A CN116051832A (zh) | 2022-12-26 | 2022-12-26 | 车辆的三维标注方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116051832A true CN116051832A (zh) | 2023-05-02 |
Family
ID=86117342
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211672257.2A Pending CN116051832A (zh) | 2022-12-26 | 2022-12-26 | 车辆的三维标注方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116051832A (zh) |
-
2022
- 2022-12-26 CN CN202211672257.2A patent/CN116051832A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106665B2 (ja) | 単眼深度推定方法およびその装置、機器ならびに記憶媒体 | |
JP6745328B2 (ja) | 点群データを復旧するための方法及び装置 | |
KR102472767B1 (ko) | 신뢰도에 기초하여 깊이 맵을 산출하는 방법 및 장치 | |
CN107735797B (zh) | 用于确定第一坐标系与第二坐标系之间的运动的方法 | |
CN111739005B (zh) | 图像检测方法、装置、电子设备及存储介质 | |
JP2021500689A (ja) | 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体 | |
CN113920307A (zh) | 模型的训练方法、装置、设备、存储介质及图像检测方法 | |
CN113377888B (zh) | 训练目标检测模型和检测目标的方法 | |
KR20200075727A (ko) | 깊이 맵 산출 방법 및 장치 | |
US20220051425A1 (en) | Scale-aware monocular localization and mapping | |
WO2017139516A1 (en) | System and method for achieving fast and reliable time-to-contact estimation using vision and range sensor data for autonomous navigation | |
CN107830869B (zh) | 用于车辆的信息输出方法和装置 | |
CN111721281B (zh) | 位置识别方法、装置和电子设备 | |
CN113887400B (zh) | 障碍物检测方法、模型训练方法、装置及自动驾驶车辆 | |
CN116188893A (zh) | 基于bev的图像检测模型训练及目标检测方法和装置 | |
CN113592015B (zh) | 定位以及训练特征匹配网络的方法和装置 | |
CN114299230A (zh) | 一种数据生成方法、装置、电子设备及存储介质 | |
CN113378605B (zh) | 多源信息融合方法及装置、电子设备和存储介质 | |
Bao et al. | Robust tightly-coupled visual-inertial odometry with pre-built maps in high latency situations | |
CN115880555B (zh) | 目标检测方法、模型训练方法、装置、设备及介质 | |
WO2023283929A1 (zh) | 双目相机外参标定的方法及装置 | |
CN115937449A (zh) | 高精地图生成方法、装置、电子设备和存储介质 | |
CN116051832A (zh) | 车辆的三维标注方法和装置 | |
Yi et al. | Real-time Estimation of Road Surfaces using Fast Monocular Depth Estimation and Normal Vector Clustering | |
Sun et al. | Accurate deep direct geo-localization from ground imagery and phone-grade gps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |