CN116469101A - 数据标注方法、装置、电子设备及存储介质 - Google Patents
数据标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116469101A CN116469101A CN202310299840.1A CN202310299840A CN116469101A CN 116469101 A CN116469101 A CN 116469101A CN 202310299840 A CN202310299840 A CN 202310299840A CN 116469101 A CN116469101 A CN 116469101A
- Authority
- CN
- China
- Prior art keywords
- dimensional scene
- dimensional
- target object
- parameter information
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 45
- 230000000007 visual effect Effects 0.000 claims abstract description 11
- 238000009877 rendering Methods 0.000 claims description 37
- 230000015654 memory Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 8
- 230000005855 radiation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 4
- 210000005036 nerve Anatomy 0.000 description 4
- 230000001537 neural effect Effects 0.000 description 4
- 230000033001 locomotion Effects 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000016776 visual perception Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Software Systems (AREA)
- Processing Or Creating Images (AREA)
Abstract
本申请提供了一种数据标注方法、装置、电子设备及存储介质,涉及图像处理技术领域,包括:根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息;三维场景中包含目标物体;基于内部参数信息和外部参数信息,对三维场景进行重建,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在三维场景中对目标物体进行数据标注。本实施例中,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在三维场景中对目标物体进行数据标注,更加直观,提高标注的准确性;而且,不需要在二维图像中多次进行标注再生成三维标注数据,从而提高了标注效率。
Description
技术领域
本申请涉及图像处理技术领域,尤其涉及一种数据标注方法、装置、电子设备及存储介质。
背景技术
在视觉感知类应用场景中,三维目标检测的需求日益增多,往往需要通过三维目标检测模型获得目标的位置、大小和姿态等信息,用于后续的场景应用。例如,在工业机器人场景中,需要获取物料在空间中的位姿信息,引导机器人完成夹取、放置等操作;在城市场景中,需要获取车辆的位姿信息来实现判断车辆停车是否规范、计算停车时长等功能。而三维目标检测模型的训练,往往受限于训练数据的数量级和丰富程度,需要大量带有精确标注的训练数据进行支撑。
目前采用的数据标注流程中,需要标注人员在二维图像中,依据自身观察和经验,顺次在目标周围标注标注框的多个顶点,并力图使标注的多个标注框顶点满足几何透视关系,作为目标在空间中的外接三维包围盒。然而,由于经验差异、观察视角受限、画面内物体间遮挡关系,标注数据往往存在一定偏差,即训练数据的标注结果不准确。同时,每个目标需要人工标注出多个位置,也造成了标注成本高,标注效率低的问题。
发明内容
本申请实施例提供了一种数据标注方法、装置、电子设备及存储介质,以提高数据标注的准确性和标注效率。
第一方面,本申请实施例提供了一种数据标注方法,该方法包括:
根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息;三维场景中包含目标物体;
基于内部参数信息和外部参数信息,对三维场景进行重建,得到三维场景的隐式表达模型;
基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注。
第二方面,本申请实施例提供了一种数据标注装置,该装置包括:
参数确定模块,用于根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息;三维场景中包含目标物体;
场景重建模块,用于基于内部参数信息和外部参数信息,对三维场景进行重建,得到三维场景的隐式表达模型;
数据标注模块,用于基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,处理器在执行所述计算机程序时实现上述任一项所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本申请具有如下优点:
本申请提供了一种数据标注方法、装置、电子设备及存储介质,根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息;三维场景中包含目标物体;基于内部参数信息和外部参数信息,对三维场景进行重建,得到三维场景的隐式表达模型;基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注。本实施例中,利用多视角下的三维场景的多个二维图像,得到三维场景的隐式表达模型,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注,更加直观,避免因经验差异、观察视角受限、画面内物体间遮挡关系而产生的标注偏差,提高标注的准确性;而且,不需要在二维图像中多次进行标注再生成三维标注数据,从而提高了标注效率。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为本申请提供的数据标注方法的一个应用场景示意图;
图2为本申请一实施例的数据标注方法的流程图;
图3为本申请一实施例的数据标注装置的结构框图;以及
图4为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的构思或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的,而非限制性的。
为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。
相关技术中,在视觉感知领域中,基于预构建的三维仿真场景,进行数据标注。但是,其方法依赖于三维仿真场景的预构建,建模成本高。同时,在图像的真实感方面,对建模精度,渲染方式,设备性能的要求较高。一般针对特定场景,如自动驾驶,需要长期的模型积累与场景优化工作,很难针对新场景进行快速响应。
本申请技术方案中,利用多视角下的三维场景的多个二维图像,得到三维场景的隐式表达模型,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注,更加直观,避免因经验差异、观察视角受限、画面内物体间遮挡关系而产生的标注偏差,提高标注的准确性;而且,不需要在二维图像中多次进行标注再生成三维标注数据,从而提高了标注效率。
图1为本申请提供的数据标注方法的一个应用场景示意图。如图1所示,环绕拍摄三维场景中的目标物体(如图1所示的“多视角图像输入”部分示出的圆柱体和棱锥体),得到多视角下三维场景的二维图像,利用多视角下的二维图像,预测拍摄图像的相机的内部参数信息和外部参数信息。
利用神经辐射场技术,基于内部参数信息和外部参数信息,对三维场景进行重建,得到三维场景的隐式表达模型,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像(如图1中所示的“神经辐射场重建”)。通过神经辐射场技术来进行场景三维重建,免去了传统人工建模或扫描建模,是一种快速、低成本、高真实感的建模方法,有利于在实际应用场景中进行大批量物体的建模。
在重建后的三维场景中根据用户输入指令对应的位置进行数据标注(如图1中所示的“三维标注”),标注完成得到目标物体在重建后的三维场景中的标注框的8个顶点的位置,输入新视角,将位置标注数据从世界坐标系中映射到新的观察视角下的二维图像的坐标系中,得到目标物体在新的观察视角下的二维图像中的位置标注数据,即三维标注框的8个顶点的位置(如图1中所示的“3D标注框”)。
根据多个目标物体分别对应的二维图像中的三维标注框的8个顶点的位置,对不同标注框中的目标物体设置不同的标签信息,标签信息用于区分不同的目标物体,例如,可以是不同的数值。根据标签信息,按照不同的颜色分别进行渲染,得到目标分割图像(如图1中所示的“分割图像”)。计算相机原点到三维场景中各点的距离,作为各点的像素值,得到该视角下的深度图像,根据目标物体的位置标注数据可以得到目标物体对应的深度图像。
本实施例中,采用了神经辐射场技术,相比与传统人工建模或扫描建模的方式,该方法极大地减少了建模成本,针对多变的场景,能够实现快速三维重建。同时生成的三维场景具有很强的真实感,渲染得到的场景图像可作为训练数据输入至目标检测模型中,降低数据采集成本,提高目标检测模型快速响应能力。
通过人工交互在三维场景中进行三维标注,相比于在二维图像中进行标注,更为直观准确,针对同一目标物体只需要标记一次,提高标注的效率和质量。与此同时,本实施例案还基于标注结果同时生成三维标注框、目标分割图像、深度图像,可适应于多种场景需求。
本申请实施例提供了一种数据标注方法,本实施例中的方法可以应用于计算设备中,计算设备可以包括:用户终端等。如图2所示为本申请一实施例的数据标注方法的流程图,数据标注方法包括:
步骤S201,根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息;三维场景中包含目标物体。
步骤S202,基于内部参数信息和外部参数信息,对三维场景进行重建,得到三维场景的隐式表达模型。
步骤S203,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注。
其中,图像采集设备包括任意具有图像采集功能的设备,例如,相机等。
示例性的,利用相机环绕拍摄三维场景中的目标物体,得到多视角下三维场景的多个二维图像。例如,以目标物体为视野中心,在环绕物体预设距离的半球面进行拍摄,覆盖物体的各个方向,拍摄顺序相邻的图像具有充分的视觉重叠,以便更好地进行图像之间的匹配。拍摄图像的数量可以在50-150张的范围内,能较好地兼顾重建效率和质量。
其中,内部参数信息是与图像采集设备自身特性相关的参数,比如,相机的焦距、像素大小等;外部参数信息是图像采集设备在世界坐标系中的参数,比如,相机的位置、旋转方向等。
示例性的,基于内部参数信息和外部参数信息,利用神经辐射场(NeuralRadiance Fields,NeRF),可以得到三维场景的隐式表达模型。
本实施例提供的数据标注方法,利用多视角下的三维场景的多个二维图像,得到三维场景的隐式表达模型,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注,更加直观,避免因经验差异、观察视角受限、画面内物体间遮挡关系而产生的标注偏差,提高标注的准确性;而且,不需要在二维图像中多次进行标注再生成三维标注数据,从而提高了标注效率。
在一种实现方式中,步骤S201,根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息,包括:
步骤S2011,基于多个二维图像分别对应的多个特征点的位置,确定多个二维图像的相对位置关系。
步骤S2012,根据多个二维图像的相对位置关系,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息。
具体的,在二维图像中识别出多个特征点。特征点可能在目标物体上,也可能在图像中目标物体之外的其他位置。例如,特征点可能是图像中目标物体的角点,也可能是目标物体的边缘点等。对多个二维图像中的特征点进行匹配计算,可以得到多个二维图像的相对位置关系。示例性的,利用运动结构恢复(Structure From Motion,SFM)算法,根据多个视角下的二维图像的相对位置关系,对三维场景进行稀疏重建,可以得到图像采集设备的内部参数信息和外部参数信息。
在一种实现方式中,步骤S202,基于内部参数信息和外部参数信息,对三维场景进行重建,得到三维场景的隐式表达模型,包括:
步骤S2021,基于内部参数信息和外部参数信息,确定图像采集设备拍摄三维场景中的目标物体时对应的多条射线的端点位置和方向。
步骤S2022,基于多条射线的端点位置和方向,预测多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度。
步骤S2023,根据多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度,得到三维场景的隐式表达模型。
其中,利用神经辐射场,由相机的内部参数信息和外部参数信息,随机初始化相机到目标物体之间不同的射线(即相机射出的光线),射线原点为相机原点o(x,y,z),方向为相机到成像平面上各点的方向d(θ,φ),根据o(x,y,z)和d(θ,φ),得到(x,y,z,θ,φ),将(x,y,z,θ,φ)输入多层感知机(Multi-Layer Perception,MLP),可以预测得到重建后的三维场景中多个空间点的颜色值(r,g,b)和透明度(σ)。根据重建后的三维场景中多个空间点的颜色值(r,g,b)和透明度(σ),可以重建得到一个正方体场景的隐式表达模型。
在一种实现方式中,步骤S2023,根据多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度,得到三维场景的隐式表达模型,包括:
根据重建后的三维场景中的多个空间点的颜色值和透明度,预测多条射线在重建后的三维场景中分别对应的多个像素点的颜色值;根据多条射线在重建后的三维场景中分别对应的多个像素点的颜色值,得到三维场景的隐式表达模型。
具体的,根据重建后的三维场景中多个空间点的颜色值和透明度,通过体素渲染的方式,可以得到该条射线对应的重建后的三维场景中的像素点的预测颜色值(r,g,b),射线在重建后的三维场景中分别对应的多个像素点的颜色值,为射线路径上的三维场景中的多个空间点的颜色值和透明度进行累积得到的颜色值。利用多个像素点的预测颜色值,以及该预测颜色值与图像上对应像素点的真实颜色值作比较,作为反馈给MLP进行训练,最终重建得到一个正方体场景的隐式表达模型。
在一种实现方式中,步骤S203中,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,包括:根据预设渲染区域和预设观察视角,利用隐式表达模型,确定目标物体的多个像素点的颜色值。根据目标物体的多个像素点的颜色值,得到目标物体在重建后的三维场景中的预设观察视角下的图像。
具体的,基于神经辐射场得到的隐式表达模型,根据指定的渲染区域和观察视角,通过隐式表达模型计算得到目标物体的多个像素点对应的颜色值,根据多个像素点对应的颜色值对目标物体进行渲染,得到指定观察视角下的图像。其中,渲染区域和观察视角可以根据具体需要来确定,目标物体的形状多种多样,从不同视角观察呈现出的二维图像可能不同,根据指定的渲染区域和渲染角度进行渲染,才能得到相对应的图像。
在一种实现方式中,步骤S203中,在重建后的三维场景中对目标物体进行数据标注,包括:将目标物体的标注框和渲染框进行关联。接收针对目标物体的渲染框的位置变换指令,根据位置变换指令,确定目标物体的渲染框的多个顶点位置,将渲染框的多个顶点位置作为标注框的多个顶点位置,得到目标物体的位置标注数据。
在实际应用中,将标注框与渲染框绑定,标注框表示目标物体所在的位置,渲染框表示对目标物体进行渲染的范围。通过接收到的移动、旋转、缩放等交互操作指令,指定渲染框的位置、大小,对场景中的目标物体进行渲染,记录此时的渲染框的8个顶点位置,作为标注框的顶点位置,完成单个目标物体的标注。通过不同的标注框,将三维场景中分为不同的区域,每个标注框中的场景作为一个单独的实例区域,其余未标注区域作为背景区域。
在一种实现方式中,该方法还包括:获取重建后的三维场景中的目标物体在新的观察视角下的二维图像,将位置标注数据映射到新的观察视角下的二维图像的坐标系中,得到目标物体在新的观察视角下的二维图像中的位置标注数据。
在实际应用中,在重建的三维场景中,获取新的观察视角下的相机参数,通过内部参数信息和外部参数信息,计算得到由世界坐标系到新视角下的二维图像坐标系的映射关系。将世界坐标系下的标注框的8个顶点位置投影映射到新视角下的二维图像坐标系中,获得新视角下的二维图像中的三维标注框信息。
在一种实现方式中,该方法还包括:根据多个目标物体分别对应的二维图像中的位置标注数据,确定多个目标物体分别对应的标签信息;根据多个目标物体分别对应的标签信息,对多个目标物体按照多种渲染方式分别进行渲染,得到目标分割图像。
将不同标注框中的目标物体赋予不同的标签信息,不同的标签信息用于区分不同的目标物体,例如,可以是不同的数值。
可以根据不同的标签信息,对不同的目标物体采用不同的渲染方式。其中,不同的渲染方式可以呈现不同的视觉效果,例如,不同颜色,不同纹理等。
可选的,在渲染时用不同的颜色同时渲染不同的目标物体,获得在该视角下的目标分割图像,目标分割图像中用不同的颜色区分不同的目标物体。在一种实现方式中,该方法还包括:根据目标物体对应的二维图像中的位置标注数据,确定目标物体对应的深度图像。
具体的,计算相机原点到三维场景中各点的距离,作为各点的像素值,得到该视角下的深度图像,根据目标物体的位置标注数据可以得到目标物体对应的深度图像。
本申请技术方案中,通过在三维场景下的一次性标注,可生成三维标注框、目标分割图像、深度图像,提供多模数据输入,可满足视觉检测各领域中的标注需求。
与本申请实施例提供的方法的应用场景以及方法相对应地,本申请实施例还提供一种数据标注装置。如图3所示为本申请一实施例的数据标注装置的结构框图,该装置包括:
参数确定模块301,用于根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息;所述三维场景中包含目标物体。
场景重建模块302,用于基于所述内部参数信息和所述外部参数信息,对所述三维场景进行重建,得到所述三维场景的隐式表达模型。
数据标注模块303,用于基于所述隐式表达模型,得到所述目标物体在重建后的三维场景中的图像,在重建后的三维场景中对所述目标物体进行数据标注。
本实施例提供的数据标注装置,利用多视角下的三维场景的多个二维图像,得到三维场景的隐式表达模型,基于隐式表达模型,得到目标物体在重建后的三维场景中的图像,在重建后的三维场景中对目标物体进行数据标注,更加直观,避免因经验差异、观察视角受限、画面内物体间遮挡关系而产生的标注偏差,提高标注的准确性;而且,不需要在二维图像中多次进行标注再生成三维标注数据,从而提高了标注效率。
在一种实现方式中,参数确定模块301,用于:基于多个二维图像分别对应的多个特征点的位置,确定多个二维图像的相对位置关系;根据多个二维图像的相对位置关系,确定图像采集设备在采集多个二维图像时的内部参数信息和外部参数信息。
在一种实现方式中,场景重建模块302,用于:基于内部参数信息和外部参数信息,确定图像采集设备拍摄三维场景中的目标物体时对应的多条射线的端点位置和方向;基于多条射线的端点位置和方向,预测多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度;根据多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度,得到三维场景的隐式表达模型。
在一种实现方式中,场景重建模块303在根据多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度,得到三维场景的隐式表达模型时,用于:根据重建后的三维场景中的多个空间点的颜色值和透明度,预测多条射线在重建后的三维场景中分别对应的多个像素点的颜色值;根据多条射线在重建后的三维场景中分别对应的多个像素点的颜色值,得到三维场景的隐式表达模型。
在一种实现方式中,数据标注模块303,用于:根据预设渲染区域和预设观察视角,利用隐式表达模型,确定目标物体的多个像素点的颜色值;根据目标物体的多个像素点的颜色值,得到目标物体在重建后的三维场景中的预设观察视角下的图像。
在一种实现方式中,数据标注模块303在重建后的三维场景中对目标物体进行数据标注时,用于:将目标物体的标注框和渲染框进行关联;接收针对目标物体的渲染框的位置变换指令,根据位置变换指令,确定目标物体的渲染框的多个顶点位置,将渲染框的多个顶点位置作为标注框的多个顶点位置,得到目标物体的位置标注数据。
在一种实现方式中,装置还用于:获取重建后的三维场景中的目标物体在新的观察视角下的二维图像,将位置标注数据映射到新的观察视角下的二维图像的坐标系中,得到目标物体在新的观察视角下的二维图像中的位置标注数据。
在一种实现方式中,装置还用于:根据多个目标物体分别对应的二维图像中的位置标注数据,确定多个目标物体分别对应的标签信息;根据多个目标物体分别对应的标签信息,对多个目标物体按照多种渲染方式分别进行渲染,得到目标分割图像。
在一种实现方式中,装置还用于:根据目标物体对应的二维图像中的位置标注数据,确定目标物体对应的深度图像。
在一种实现方式中,多个二维图像是通过图像采集设备对三维场景中的目标物体进行环绕拍摄得到的。
本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述,并具备相应的有益效果,在此不再赘述。
图4为用来实现本申请实施例的电子设备的框图。如图4所示,该电子设备包括:存储器410和处理器420,存储器410内存储有可在处理器420上运行的计算机程序。处理器420执行该计算机程序时实现上述实施例中的方法。存储器410和处理器420的数量可以为一个或多个。
该电子设备还包括:
通信接口430,用于与外界设备进行通信,进行数据交互传输。
如果存储器410、处理器420和通信接口430独立实现,则存储器410、处理器420和通信接口430可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器410、处理器420及通信接口430集成在一块芯片上,则存储器410、处理器420及通信接口430可以通过内部接口完成相互间的通信。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(Advanced RISC Machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机访问存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机访问存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM均可用。例如,静态随机访问存储器(Static RAM,SRAM)、动态随机访问存储器(Dynamic Random Access Memory,DRAM)、同步动态随机访问存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机访问存储器(Double Data RateSDRAM,DDR SDRAM)、增强型同步动态随机访问存储器(Enhanced SDRAM,ESDRAM)、同步链接动态随机访问存储器(Sync link DRAM,SLDRAM)和直接内存总线随机访问存储器(DirectRambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生依照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中描述的或在此以其他方式描述的任何过程或方法可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中描述的或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的示例性实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请记载的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (13)
1.一种数据标注方法,其特征在于,所述方法包括:
根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集所述多个二维图像时的内部参数信息和外部参数信息;所述三维场景中包含目标物体;
基于所述内部参数信息和所述外部参数信息,对所述三维场景进行重建,得到所述三维场景的隐式表达模型;
基于所述隐式表达模型,得到所述目标物体在重建后的三维场景中的图像,并在重建后的三维场景中对所述目标物体进行数据标注。
2.根据权利要求1所述的方法,其特征在于,所述根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集所述多个二维图像时的内部参数信息和外部参数信息,包括:
基于所述多个二维图像分别对应的多个特征点的位置,确定所述多个二维图像的相对位置关系;
根据所述多个二维图像的相对位置关系,确定所述图像采集设备在采集所述多个二维图像时的内部参数信息和外部参数信息。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述内部参数信息和所述外部参数信息,对所述三维场景进行重建,得到所述三维场景的隐式表达模型,包括:
基于所述内部参数信息和所述外部参数信息,确定所述图像采集设备拍摄所述三维场景中的目标物体时对应的多条射线的端点位置和方向;
基于所述多条射线的端点位置和方向,预测所述多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度;
根据所述多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度,得到所述三维场景的隐式表达模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多条射线在重建后的三维场景中分别对应的多个空间点的颜色值和透明度,得到所述三维场景的隐式表达模型,包括:
根据所述重建后的三维场景中的多个空间点的颜色值和透明度,预测所述多条射线在重建后的三维场景中分别对应的多个像素点的颜色值;
根据所述多条射线在重建后的三维场景中分别对应的多个像素点的颜色值,得到所述三维场景的隐式表达模型。
5.根据权利要求1或2所述的方法,其特征在于,所述基于所述隐式表达模型,得到所述目标物体在重建后的三维场景中的图像,包括:
根据预设渲染区域和预设观察视角,利用所述隐式表达模型,确定所述目标物体的多个像素点的颜色值;
根据所述目标物体的多个像素点的颜色值,得到所述目标物体在重建后的三维场景中的所述预设观察视角下的图像。
6.根据权利要求1或2所述的方法,其特征在于,所述在重建后的三维场景中对所述目标物体进行数据标注,包括:
将所述目标物体的标注框和渲染框进行关联;
接收针对目标物体的渲染框的位置变换指令,根据所述位置变换指令,确定所述目标物体的渲染框的多个顶点位置,将所述渲染框的多个顶点位置作为所述标注框的多个顶点位置,得到所述目标物体的位置标注数据。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取所述重建后的三维场景中的目标物体在新的观察视角下的二维图像,将所述位置标注数据映射到所述新的观察视角下的二维图像的坐标系中,得到所述目标物体在新的观察视角下的二维图像中的位置标注数据。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据多个目标物体分别对应的二维图像中的位置标注数据,确定所述多个目标物体分别对应的标签信息;
根据所述多个目标物体分别对应的标签信息,对所述多个目标物体按照多种渲染方式分别进行渲染,得到目标分割图像。
9.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据目标物体对应的二维图像中的位置标注数据,确定所述目标物体对应的深度图像。
10.根据权利要求1所述的方法,其特征在于,所述多个二维图像是通过所述图像采集设备对所述三维场景中的目标物体进行环绕拍摄得到的。
11.一种数据标注装置,其特征在于,所述装置包括:
参数确定模块,用于根据多视角下的三维场景的多个二维图像,确定图像采集设备在采集所述多个二维图像时的内部参数信息和外部参数信息;所述三维场景中包含目标物体;
场景重建模块,用于基于所述内部参数信息和所述外部参数信息,对所述三维场景进行重建,得到所述三维场景的隐式表达模型;
数据标注模块,用于基于所述隐式表达模型,得到所述目标物体在重建后的三维场景中的图像,在重建后的三维场景中对所述目标物体进行数据标注。
12.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器在执行所述计算机程序时实现权利要求1-10中任一项所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310299840.1A CN116469101A (zh) | 2023-03-20 | 2023-03-20 | 数据标注方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310299840.1A CN116469101A (zh) | 2023-03-20 | 2023-03-20 | 数据标注方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116469101A true CN116469101A (zh) | 2023-07-21 |
Family
ID=87184896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310299840.1A Pending CN116469101A (zh) | 2023-03-20 | 2023-03-20 | 数据标注方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469101A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024082965A1 (zh) * | 2022-10-20 | 2024-04-25 | 华为技术有限公司 | 一种图像标注方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-20 CN CN202310299840.1A patent/CN116469101A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024082965A1 (zh) * | 2022-10-20 | 2024-04-25 | 华为技术有限公司 | 一种图像标注方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968235B (zh) | 一种物体姿态估计方法、装置、系统和计算机设备 | |
CN112367514B (zh) | 三维场景构建方法、装置、系统和存储介质 | |
CN109407547A (zh) | 面向全景视觉感知的多摄像头在环仿真测试方法与系统 | |
CN111353969B (zh) | 道路可行驶区域的确定方法、装置及计算机设备 | |
US9420265B2 (en) | Tracking poses of 3D camera using points and planes | |
CN113330486A (zh) | 深度估计 | |
CN113689578B (zh) | 一种人体数据集生成方法及装置 | |
CN111815707A (zh) | 点云确定方法、点云筛选方法、装置、计算机设备 | |
CN112258574A (zh) | 标注位姿信息的方法、装置及计算机可读存储介质 | |
WO2021164887A1 (en) | 6d pose and shape estimation method | |
CN113870430B (zh) | 一种工件数据处理方法和装置 | |
CN114119992A (zh) | 基于图像与点云融合的多模态三维目标检测方法及装置 | |
CN116469101A (zh) | 数据标注方法、装置、电子设备及存储介质 | |
CN115410167A (zh) | 目标检测与语义分割方法、装置、设备及存储介质 | |
CN116012805B (zh) | 目标感知方法、装置、计算机设备、存储介质 | |
CN116894829A (zh) | 焊缝缺陷检测的方法、装置、计算机设备及存储介质 | |
US20220301176A1 (en) | Object detection method, object detection device, terminal device, and medium | |
CN112634439B (zh) | 一种3d信息展示方法及装置 | |
JP2002094849A (ja) | 広視野画像撮像装置 | |
US11227166B2 (en) | Method and device for evaluating images, operating assistance method, and operating device | |
CN117095131B (zh) | 物体运动关键点的三维重建方法、设备及存储介质 | |
CN110796596A (zh) | 图像拼接方法、成像装置及全景成像系统 | |
CN114049355B (zh) | 一种散乱工件的识别标注方法、系统和装置 | |
CN111127422B (zh) | 图像标注方法、装置、系统及主机 | |
Yamao et al. | A sequential online 3d reconstruction system using dense stereo matching |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |