CN117152753B - 图像标注方法、计算机设备和存储介质 - Google Patents

图像标注方法、计算机设备和存储介质 Download PDF

Info

Publication number
CN117152753B
CN117152753B CN202311422619.7A CN202311422619A CN117152753B CN 117152753 B CN117152753 B CN 117152753B CN 202311422619 A CN202311422619 A CN 202311422619A CN 117152753 B CN117152753 B CN 117152753B
Authority
CN
China
Prior art keywords
image
mask
mask map
view
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311422619.7A
Other languages
English (en)
Other versions
CN117152753A (zh
Inventor
任少卿
谢涛
周欣
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Weilai Zhijia Technology Co Ltd
Original Assignee
Anhui Weilai Zhijia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Weilai Zhijia Technology Co Ltd filed Critical Anhui Weilai Zhijia Technology Co Ltd
Priority to CN202311422619.7A priority Critical patent/CN117152753B/zh
Publication of CN117152753A publication Critical patent/CN117152753A/zh
Application granted granted Critical
Publication of CN117152753B publication Critical patent/CN117152753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及数据自动标注领域,并且更具体地涉及一种图像标注方法、实施该方法的计算机设备、实施该方法的计算机存储介质。该图像标注方法包括:利用图像分割模型对多视角下的原始图像进行分割处理,以输出各视角下的原始图像的分割掩码图,分割掩码图包含指示目标物体的轮廓的标注信息;利用神经辐射场对各视角下的分割掩码图进行多视角融合以修正单视角错误,并生成经修正的第一掩码图;以及根据时序关系对第一掩码图进行多帧时序融合以修正单帧错误,并生成鸟瞰图视角下的第二掩码图。

Description

图像标注方法、计算机设备和存储介质
技术领域
本申请涉及数据自动标注领域,并且更具体地涉及一种图像标注方法、实施该方法的计算机设备以及实施该方法的计算机存储介质。
背景技术
自动驾驶系统中对物体的感知依赖于模型迭代,而大量的标注数据是模型迭代的基础。图像分割模型作为自动驾驶中重要的感知识别模型,不同于检测和分类模型,其标注需要像素级。像素级标注精度要求极高,物体边缘必须完美的拟合,这就导致了一张图像的分割标注成本极高,且标注时间极长。此类像素级标注由于过高的复杂性和成本,无法支持大规模的数据量,使得自动驾驶系统的感知功能受限于数据量,精度无法进一步提高。
要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
为了解决或至少缓解以上问题中的一个或多个,提供了以下技术方案。本申请的实施例提供了一种图像标注方法、实施该方法的计算机设备以及实施该方法的计算机存储介质,其能够降低标注成本并提高标注效率,从而提高自动驾驶模型的迭代效率。
按照本申请的第一方面,提供一种图像标注方法,所述方法包括以下步骤:A、利用图像分割模型对多视角下的原始图像进行分割处理,以输出各视角下的原始图像的分割掩码图,所述分割掩码图包含指示目标物体的轮廓的标注信息;B、利用神经辐射场对各视角下的分割掩码图进行多视角融合以修正单视角错误,并生成经修正的第一掩码图;以及C、根据时序关系对所述第一掩码图进行多帧时序融合以修正单帧错误,并生成鸟瞰图视角下的第二掩码图。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,所述方法进一步包括:对由多视角视频采集单元采集的视频数据进行抽帧处理,并生成一系列带有时间戳的原始图像。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,步骤A包括:利用所述图像分割模型对所述原始图像进行像素级识别,其中所述原始图像中的每个像素都被标注有类别信息;以及基于标注的类别信息绘制目标物体的轮廓。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,所述图像分割模型是基于包含样本图像和所述样本图像的掩码信息的训练数据集而构建的,所述掩码信息是基于针对所述样本图像中的目标物体的目标识别结果而生成的,并且所述图像分割模型包括以下各项中的一项或多项:针对刚性物体的实例分割模型、针对非刚性物体的语义分割模型、针对刚性物体以及非刚性物体的全景分割模型。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,步骤B包括:利用所述神经辐射场对所述分割掩码图进行三维重建,以将多视角下的分割掩码图中的二维掩码投影到三维掩码网格;以及将重建后的三维掩码图反投影至二维掩码网格,以生成经修正的、多视角下的第一掩码图。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,步骤C包括:针对时间戳相同的多视角下的第一掩码图,利用仿射变换将其投影至世界坐标系下的鸟瞰图视角,以生成各时刻的鸟瞰图视角下的第三掩码图;以及根据时序关系对所述各时刻的第三掩码图进行多帧时序融合以生成所述第二掩码图,其中所述第二掩码图的尺寸大于所述第三掩码图的尺寸。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,所述方法进一步包括:在多帧时序融合过程中计算各个目标物体的修正误差;以及将所述第二掩码图反投影至特定视角,以生成特定视角下的第四掩码图。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,所述方法进一步包括:若各个目标物体的修正误差均小于或等于所述第一阈值,则输出所述第四掩码图以作为最终标注结果,其中所述特定视角包括所述原始图像的多个原始视角。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,所述方法进一步包括:若第一目标物体的修正误差大于所述第一阈值,则对所述第四掩码图中的所述第一目标物体进行单目标聚合以修复所述第四掩码图中的第一目标物体的误差,并生成经修正的第五掩码图,其中所述特定视角包括所述原始图像的多个原始视角中的一个或多个;以及利用所述第五掩码图更新所述分割掩码图,并重新执行所述步骤B和步骤C。
作为以上方案的替代或补充,在根据本申请一实施例的图像标注方法中,计算所述目标物体的修正误差包括计算相邻帧中所述目标物体的像素差,并且/或者所述单目标聚合是基于交互式分割模型执行的。
根据本申请的第二方面,提供一种计算机设备,包含:存储器;处理器;以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序的运行使得根据本申请第一方面所述的图像标注方法中的任意一项被执行。
根据本申请的第三方面,提供一种计算机存储介质,所述计算机存储介质包括指令,所述指令在运行时执行根据本申请第一方面所述的图像标注方法中的任意一项。
根据本申请的一个或多个实施例的图像标注方案基于图像分割和时序动态修复技术而实现。该方案引入了自动驾驶中的时序特征,不仅具有单帧标注能力,还能够利用神经辐射场修正图像的单视角错误,并且根据前后时序关系自动修正图像的单帧错误。相较于现有的图像分割标注方法,该方案能够减少因单帧图像抖动、空洞、误差等问题引起的标注错误,从而提高标注准确率,提高自动驾驶系统的感知功能精度。此外,该方案无需人工标注,大大降低了标注成本,减少了无效的冗余标注。
附图说明
本申请的上述和/或其它方面和优点将通过以下结合附图的各个方面的描述变得更加清晰和更容易理解,附图中相同或相似的单元采用相同的标号表示。在所述附图中:
图1为按照本申请的一个或多个实施例的图像标注方法10的示意性流程图;
图2为按照本申请的一个或多个实施例的计算机设备20的示意性框图。
具体实施方式
以下具体实施方式的描述本质上仅仅是示例性地,并且不旨在限制所公开的技术或所公开的技术的应用和用途。此外,不意图受在前述技术领域、背景技术或以下具体实施方式中呈现的任何明示或暗示的理论的约束。
在实施例的以下详细描述中,阐述了许多具体细节以便提供对所公开技术的更透彻理解。然而,对于本领域普通技术人员显而易见的是,可以在没有这些具体细节的情况下实践所公开的技术。在其他实例中,没有详细描述公知的特征,以避免不必要地使描述复杂化。
诸如“包含”和“包括”之类的用语表示除了具有在说明书中有直接和明确表述的单元和步骤以外,本申请的技术方案也不排除具有未被直接或明确表述的其它单元和步骤的情形。诸如“第一”和“第二”之类的用语并不表示单元在时间、空间、大小等方面的顺序而仅仅是作区分各单元之用。本申请的技术通常用于电动汽车,其包括但不限于纯电动汽车(BEV)、混合动力汽车(HEV)、燃料电池汽车(FCEV)等。
一些图像分割人工标注方法主要通过对目标物体绘制外接多边形的方式来实现图像标注。在这种标注方式下,单个目标物体所需的外接多边形通常由10-20个点构成,所消耗的时间约为10-30秒不等。因此,一张具有上百种目标物体的复杂场景,其图像标注时间通常超过30分钟。对此,为了提高标注效率,还可采用半自动交互式分割作为标注手段。半自动交互式分割通常需要通过提取鼠标点击处的物体特征、计算周围像素的相似度、并对超过阈值的像素进行聚类来输出物体轮廓。由于采用了自动特征提取的图像算法,使得模型能够一定程度上自动识别目标物体,大大降低了标注速度和标注成本。然而,半自动交互式分割的标注结果通常并不精确,仍存在一定的误差,因此需要通过人工修正进行弥补。对此,本申请提出一种基于图像分割和时序动态修复技术而实现的图像标注方案,以在降低标注成本和耗时的同时实现更高的标注精度,从而提高自动驾驶的感知能力。
在下文中,将参考附图详细地描述根据本申请的各示例性实施例。
下面参考附图,图1为按照本申请的一个或多个实施例的图像标注方法10的示意性流程图。
如图1所示,在步骤S110中,利用图像分割模型对多视角下的原始图像进行分割处理,以输出各视角下的原始图像的分割掩码图。
根据本发明的一个或多个实施例采用多个视频采集单元对车辆周围环境信息进行多视角采集并输出对应的多视角视频数据。多个视频采集单元可分别设置在车辆上的不同预设位置,每个视频采集单元对应一个视角。为了避免视角盲区,多个视频采集单元的取像视野范围可以存在重叠。
示例性地,上述多个视频采集单元包括一个或多个前视摄像头和/或一个或多个侧视摄像头,上述摄像头可安装在车顶高位侧、车辆翼子板上、或安装在反光镜上方的灯带上、或安装在反光镜下方与车门板连接处,以增加视觉冗余度并减小感知盲区。示例性地,在进行图像分割处理之前,还可对由上述多视角视频采集单元(例如,左前向摄像头、正向摄像头、右前向摄像头)采集的视频数据进行抽帧处理,并生成一系列带有时间戳的原始图像(例如,左前视角下的原始图像、正前视角下的原始图像、右前视角下的原始图像)。在本文中,相机、镜头、摄像机、摄像头等均表示可以获取覆盖范围内的图像或影像的设备,其含义类似,且可以互换,本发明对此不做限制。
图像分割是指根据灰度、彩色、空间纹理、几何形状等特征将图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。示例性地,图像分割模型可以是SegNet、DeepLab、Mask R-CNN、U-Net、GatedSCNN之一。
可选地,图像分割模型是基于包含样本图像和样本图像的掩码信息的训练数据集而构建的,其中掩码信息是基于针对样本图像中的目标物体的目标识别结果而生成的。在根据本申请的一些实施例中,为了避免通过人工标注的方式对样本图像进行标注,可以预先训练一个或多个目标检测模型,以通过其对样本图像中的目标物体所在的区域和目标物体的类别进行识别,并确定样本图像中像素点是否为目标物体中的像素点,从而生成相应的掩码信息。接着利用包含样本图像和样本图像的掩码信息的训练数据集对图像分割模型进行训练。在步骤S110中,可利用通过上述方式训练好的图像分割模型对每个视角(例如,左前视角、正前视角和右前视角)下的原始图像进行识别,使得每个视角下的原始图像中的每个像素都被标注有类别信息(例如,车辆、行人、车道线),以达到像素级标注的要求。此外,在步骤S110中,还可基于标注好的类别信息绘制目标物体的轮廓并输出包含指示目标物体的轮廓的标注信息的分割掩码图。例如,在输出的分割掩码图中,可以将具有相同类别信息的像素标注成相同颜色,将具有不同类别信息的像素标注成不同颜色。
可选地,可针对数据自身特点、需要标注的目标等特征,采用具有不同的分割框架的模型图像分割。示例性地,步骤S110中的图像分割模型可以是实例分割(InstanceSegmentation,IS)模型、语义分割(Semantic segmentation,SS)模型以及全景分割(Panoptic Segmentation,PS)模型中的一者或多者的组合。语义分割基于像素级分割而不单独区分类别内的实例,其主要适用于非刚性物体,例如,路面、车道线、地面标志等。示例性地,可将图像中的全部车道线打上黄色标签、将全部路面打上黑色标签。实例分割为目标检测和语义分割的结合,也即,在图像中将目标物体检测出来,然后对每个像素打上标签。实例分割通常受限于目标物体必须是规则可框入的特性,因此适用于分割刚性物体,例如,车辆、行人、障碍物、红绿灯等。需要说明的是,语义分割结果不区分属于相同类别的不同实例(例如,将所有行人都标为红色),实例分割结果区分同类的不同实例(例如,使用不同颜色区分不同的行人)。全景分割为实例分割和全景分割的能力集合,既要将所有目标物体都检测出来,又要区分出同个类别中的不同实例,以输出图像中所有物体的像素轮廓。需要说明的是,实例分割只对图像中的目标物体(例如,行人)进行检测和按像素分割,使用不同颜色区分不同实例,而全景分割是对图像中的所有物体(包括背景)都要进行检测和分割,并使用不同颜色区分不同实例。上述三种图像分割模型所输出的图像分割结果(也即,分割掩码图)均能作为后续步骤的输入,其中所述图像分割结果为与原始图像尺寸比例相同的掩码图。
接下来,在步骤S120中,利用神经辐射场(Neural Radiance Field,NeRF)对各视角下的分割掩码图进行多视角融合以修正单视角错误,并生成经修正的第一掩码图。
NeRF是一种基于神经网络的三维(3D)重建技术,不同于传统的3D重建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一个连续的辐射场隐式存储在神经网络中,只需输入多角度的二维(2D)图像,就可以通过训练得到NeRF,并根据NeRF渲染出任意视角下的清晰照片。步骤S120旨在使用NeRF并结合多视角信息进行3D重建,从不同视角融合图像分割结果,然后以任意视角生成高质量的新2D视图。
可选地,在步骤S120中,可首先利用训练好的NeRF将图像分割结果(也即,各视角下的分割掩码图)中的2D掩码投影到三维掩码网格以进行3D重建(例如,基于左前视角下的2D分割掩码图、正前视角下的2D分割掩码图和右前视角下的2D分割掩码图生成一个3D掩码图),并将重建后的3D掩码图反投影至2D掩码网格,以生成经修正的、多视角下的第一掩码图(例如,生成左前视角下的第一掩码图、正前视角下的第一掩码图和右前视角下的第一掩码图,其分别是前述左前视角下的2D分割掩码图、正前视角下的2D分割掩码图和右前视角下的2D分割掩码图的修正版本)。需要说明的是,单视角下的图像分割结果容易出现分割不全、类别错误等缺陷,因此,相较于步骤S110中的图像分割模块输出的各视角下的分割掩码图(例如,左前视角下的2D分割掩码图、正前视角下的2D分割掩码图和右前视角下的2D分割掩码图),步骤S120输出的第一掩码图(例如,左前视角下的第一掩码图、正前视角下的第一掩码图和右前视角下的第一掩码图)融合了各视角的信息,从而通过信息互补修正了单视角下的缺陷,提高了数据标注的准确性。
在步骤S130中,根据时序关系对步骤S120生成的各视角下的第一掩码图进行多帧时序融合以修正单帧错误,并生成鸟瞰图视角下的第二掩码图。由于部分样本在多视角融合后仍无法修复,因此步骤S130旨在通过视角融合与时序融合的结合进一步改善图像分割结果中细节不准的问题。
可选地,在步骤S130中,首先针对时间戳相同的多视角下的第一掩码图,利用仿射变换将其投影至世界坐标系下的鸟瞰图(Bird's Eye View,BEV)视角,以生成各时刻的BEV视角下的第三掩码图,接着根据时序关系对各时刻的第三掩码图进行多帧时序融合以生成第二掩码图。示例性地,可将基于左前向摄像头、正向摄像头、右前向摄像头在同一时刻采集的原始数据而获得的左前视角下、正前视角下以及右前视角下的第一掩码图进行空间融合,得到一个BEV视角下的第三掩码图,其中BEV视角下的第三掩码图的尺寸大于原视角下的第一掩码图的尺寸。接下来,根据前后帧的时序关系,将多个时刻的第三掩码图进行融合,得到时序融合后的第二掩码图,其中第二掩码图的尺寸大于第三掩码图的尺寸。可以理解的是,由于融合了多视角信息和多帧信息,因此相较于第一掩码图,第二掩码图已对单帧错误进行了修补,从而能够减少单帧抖动、空洞等问题,进一步提高数据标注的准确性。
上述图像标注方法10利用了图像分割和时序动态修复技术的结合,相较于现有的分割方案引入了自动驾驶中的时序特征,不仅具有单帧标注能力,还能够利用NeRF修正图像的单视角错误,并且根据前后时序关系自动修正图像的单帧错误,在降低了标注成本的同时减少了因单帧图像抖动、空洞、误差等问题引起的标注错误,提高了标注准确率,提高了自动驾驶系统的感知功能精度。与此同时,本发明意识到在实践过程中可能仍有一些长时间出现的标注错误无法通过时序动态修复来解决,因此还可进一步添加单目标聚合步骤以针对错误样本进行定点修复。
可选地,方法10还可以包括步骤S140:在多帧时序融合过程中计算各个目标物体的修正误差,并将第二掩码图反投影至特定视角,以生成特定视角下的第四掩码图。
在一个示例中,可以通过计算相邻帧中目标物体的像素差来确定上述修正误差。在另一个示例中,还可以通过计算时序融合前、后的掩码图中的目标物体的位置和姿态变化,确定上述修正误差,例如,平移量、旋转角度或尺度变化等。
示例性地,若各个目标物体的修正误差均小于或等于第一阈值,则判定无需执行单目标聚合,并将第二掩码图反投影至特定视角下的第四掩码图以作为最终标注结果,其中特定视角为原始图像的多个原始视角(例如,左前视角、正前视角和右前视角)。
示例性地,若多个目标物体中的第一目标物体的修正误差大于第一阈值,则判定需要执行针对第一目标物体的单目标聚合。例如,可针对特定视角下的第四掩码图中的第一目标物体进行单目标聚合以修复第四掩码图中的第一目标物体的误差,并生成经修正的第五掩码图,其中特定视角包括原始图像的多个原始视角中的一个或多个。通过单目标聚合,原始视角下的第一目标物体的标注已得到修正,对此,可利用经修正的第五掩码图更新步骤S110生成的分割掩码图,也即,利用第五掩码图作为步骤S120的输入,针对第五掩码图进行多视角融合并执行步骤S130中的多帧时序融合,以进一步提高标注的准确性。示例性地,上述单目标聚合可基于交互式分割模型而执行,也即,通过输入目标的掩码图、提取对应区域的特征、查找特征最近邻像素这三个步骤,对错误和遗漏的像素进一步修正和聚类,以此得到更加准确的标注图像。
图2为按照本申请的一个或多个实施例的计算机设备20的示意性框图。计算机设备20包含存储器210、处理器220、以及存储在存储器210上并可在处理器220上运行的计算机程序230,计算机程序230的运行使得如图1所示的图像标注方法10被执行。另外,如上所述,本申请也可以被实施为一种计算机存储介质,在其中存储有用于使计算机执行如图1所示的图像标注方法10的程序。在此,作为计算机存储介质,能采用盘类(例如,磁盘、光盘等)、卡类(例如,存储卡、光卡等)、半导体存储器类(例如,ROM、非易失性存储器等)、带类(例如,磁带、盒式磁带等)等各种方式的计算机存储介质。
在可适用的情况下,可以使用硬件、软件或硬件和软件的组合来实现由本申请提供的各种实施例。而且,在可适用的情况下,在不脱离本申请的范围的情况下,本文中阐述的各种硬件部件和/或软件部件可以被组合成包括软件、硬件和/或两者的复合部件。在可适用的情况下,在不脱离本申请的范围的情况下,本文中阐述的各种硬件部件和/或软件部件可以被分成包括软件、硬件或两者的子部件。另外,在可适用的情况下,预期的是,软件部件可以被实现为硬件部件,以及反之亦然。
根据本申请的软件(诸如程序代码和/或数据)可以被存储在一个或多个计算机存储介质上。还预期的是,可以使用联网的和/或以其他方式的一个或多个通用或专用计算机和/或计算机系统来实现本文中标识的软件。在可适用的情况下,本文中描述的各个步骤的顺序可以被改变、被组合成复合步骤和/或被分成子步骤以提供本文中描述的特征。
提供本文中提出的实施例和示例,以便最好地说明按照本申请及其特定应用的实施例,并且由此使本领域的技术人员能够实施和使用本申请。但是,本领域的技术人员将会知道,仅为了便于说明和举例而提供以上描述和示例。所提出的描述不是意在涵盖本申请的各个方面或者将本申请局限于所公开的精确形式。

Claims (12)

1.一种图像标注方法,其特征在于,所述方法包括以下步骤:
A、利用图像分割模型对多视角下的原始图像进行分割处理,以输出各视角下的原始图像的分割掩码图,所述分割掩码图包含指示目标物体的轮廓的标注信息;
B、利用神经辐射场对各视角下的分割掩码图进行三维重建和反投影,并输出经修正的、与所述分割掩码图的视角相同的所述各视角下的第一掩码图,以利用多视角融合修正单视角错误;
C、针对时间戳相同的各视角下的第一掩码图,利用仿射变换将其投影至世界坐标系下的鸟瞰图视角,以生成各时刻的鸟瞰图视角下的第三掩码图;以及
D、根据时序关系对所述各时刻的第三掩码图进行多帧时序融合以生成鸟瞰图视角下的第二掩码图。
2.根据权利要求1所述的图像标注方法,其中,所述方法进一步包括:
对由多视角视频采集单元采集的视频数据进行抽帧处理,并生成一系列带有时间戳的原始图像。
3.根据权利要求1所述的图像标注方法,其中,步骤A包括:
利用所述图像分割模型对所述原始图像进行像素级识别,其中所述原始图像中的每个像素都被标注有类别信息;以及
基于标注的类别信息绘制所述目标物体的轮廓。
4.根据权利要求1所述的图像标注方法,其中,
所述图像分割模型是基于包含样本图像和所述样本图像的掩码信息的训练数据集而构建的,所述掩码信息是基于针对所述样本图像中的所述目标物体的目标识别结果而生成的,并且所述图像分割模型包括以下各项中的一项或多项:针对刚性物体的实例分割模型、针对非刚性物体的语义分割模型、针对刚性物体以及非刚性物体的全景分割模型。
5.根据权利要求1所述的图像标注方法,其中,步骤B包括:
利用所述神经辐射场对所述分割掩码图进行三维重建,以将多视角下的分割掩码图中的二维掩码投影到三维掩码网格;以及
将重建后的三维掩码图反投影至二维掩码网格,以生成经修正的、多视角下的第一掩码图。
6.根据权利要求1所述的图像标注方法,其中,所述第二掩码图的尺寸大于所述第三掩码图的尺寸。
7.根据权利要求1所述的图像标注方法,其中,所述方法进一步包括:
在多帧时序融合过程中计算各个目标物体的修正误差;以及
将所述第二掩码图反投影至特定视角,以生成特定视角下的第四掩码图。
8.根据权利要求7所述的图像标注方法,其中,所述方法进一步包括:
若各个目标物体的修正误差均小于或等于第一阈值,则输出所述第四掩码图以作为最终标注结果,其中所述特定视角包括所述原始图像的多个原始视角。
9.根据权利要求7所述的图像标注方法,其中,所述方法进一步包括:
若第一目标物体的修正误差大于第一阈值,则对所述第四掩码图中的所述第一目标物体进行单目标聚合以修复所述第四掩码图中的第一目标物体的误差,并生成经修正的第五掩码图,其中所述特定视角包括所述原始图像的多个原始视角中的一个或多个;以及
利用所述第五掩码图更新所述分割掩码图,并重新执行所述步骤B、步骤C和步骤D。
10.根据权利要求9所述的图像标注方法,其中,
计算所述目标物体的修正误差包括计算相邻帧中所述目标物体的像素差,并且/或者所述单目标聚合是基于交互式分割模型执行的。
11.一种计算机设备,其特征在于,包含:存储器;处理器;以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序的运行使得根据权利要求1-10中任一项所述的图像标注方法被执行。
12.一种计算机存储介质,其特征在于,所述计算机存储介质包括指令,所述指令在运行时执行根据权利要求1-10中任一项所述的图像标注方法。
CN202311422619.7A 2023-10-31 2023-10-31 图像标注方法、计算机设备和存储介质 Active CN117152753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311422619.7A CN117152753B (zh) 2023-10-31 2023-10-31 图像标注方法、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311422619.7A CN117152753B (zh) 2023-10-31 2023-10-31 图像标注方法、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN117152753A CN117152753A (zh) 2023-12-01
CN117152753B true CN117152753B (zh) 2024-04-16

Family

ID=88903067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311422619.7A Active CN117152753B (zh) 2023-10-31 2023-10-31 图像标注方法、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117152753B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796620A (zh) * 2019-10-29 2020-02-14 广州华端科技有限公司 乳腺断层重建图像的层间伪影抑制方法和装置
WO2022155933A1 (en) * 2021-01-22 2022-07-28 Shanghaitech University Accelerated training of neural radiance fields-based machine learning models
CN115244582A (zh) * 2020-12-03 2022-10-25 辉达公司 使用一个或更多个神经网络生成虚拟环境的图像
CN115512036A (zh) * 2022-09-28 2022-12-23 浙江大学 一种基于本征神经辐射场的可编辑新颖视图合成方法
CN115700760A (zh) * 2022-11-16 2023-02-07 上海无线电设备研究所 一种基于多模态数据的全空间激光雷达散射截面计算方法
WO2023086194A1 (en) * 2021-11-15 2023-05-19 Google Llc High dynamic range view synthesis from noisy raw images
CN116682082A (zh) * 2023-05-30 2023-09-01 浙江大学 一种适用于自动驾驶场景下的车辆数字孪生方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230154104A1 (en) * 2021-11-12 2023-05-18 Nec Laboratories America, Inc. UNCERTAINTY-AWARE FUSION TOWARDS LARGE-SCALE NeRF

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796620A (zh) * 2019-10-29 2020-02-14 广州华端科技有限公司 乳腺断层重建图像的层间伪影抑制方法和装置
CN115244582A (zh) * 2020-12-03 2022-10-25 辉达公司 使用一个或更多个神经网络生成虚拟环境的图像
WO2022155933A1 (en) * 2021-01-22 2022-07-28 Shanghaitech University Accelerated training of neural radiance fields-based machine learning models
WO2023086194A1 (en) * 2021-11-15 2023-05-19 Google Llc High dynamic range view synthesis from noisy raw images
CN115512036A (zh) * 2022-09-28 2022-12-23 浙江大学 一种基于本征神经辐射场的可编辑新颖视图合成方法
CN115700760A (zh) * 2022-11-16 2023-02-07 上海无线电设备研究所 一种基于多模态数据的全空间激光雷达散射截面计算方法
CN116682082A (zh) * 2023-05-30 2023-09-01 浙江大学 一种适用于自动驾驶场景下的车辆数字孪生方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Focused Specific Objects NeRF;Yuesong Li 等;《https://arxiv.org/pdf/2308.05970》;全文 *
基于深度学习的多视角螺钉缺失智能检测算法;于畅 等;《山东大学学报( 工学版)》;全文 *
毫米波全息成像中的部分发育散斑模型;经文;江舸;成彬彬;张健;;光学学报(05);全文 *

Also Published As

Publication number Publication date
CN117152753A (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
Uittenbogaard et al. Privacy protection in street-view panoramas using depth and multi-view imagery
CN110569704B (zh) 一种基于立体视觉的多策略自适应车道线检测方法
US11954813B2 (en) Three-dimensional scene constructing method, apparatus and system, and storage medium
US10097812B2 (en) Stereo auto-calibration from structure-from-motion
Königshof et al. Realtime 3d object detection for automated driving using stereo vision and semantic information
CN111563415B (zh) 一种基于双目视觉的三维目标检测系统及方法
Zhang et al. Semantic segmentation of urban scenes using dense depth maps
EP3264367A2 (en) Image generating apparatus, image generating method, and recording medium
CN105825173A (zh) 通用道路和车道检测系统与方法
CN110706269B (zh) 一种基于双目视觉slam的动态场景密集建模方法
CN113096003B (zh) 针对多视频帧的标注方法、装置、设备和存储介质
Guo et al. Matching vehicles under large pose transformations using approximate 3d models and piecewise mrf model
CN112613387A (zh) 一种基于YOLOv3的交通标志检测方法
CN111768332A (zh) 一种车载环视实时3d全景图像的拼接方法及图形采集装置
CN111444916A (zh) 面向无约束条件下的车牌定位及识别方法、系统
CN117152753B (zh) 图像标注方法、计算机设备和存储介质
Li et al. Removal-based multi-view stereo using a window-based matching method
Guislain et al. Detecting and correcting shadows in urban point clouds and image collections
Nejadasl et al. Optical flow based vehicle tracking strengthened by statistical decisions
Zheng et al. Cross-Dataset Sensor Alignment: Making Visual 3D Object Detector Generalizable
US20230127188A1 (en) Method for removing objects from texture
Berrio et al. Semantic sensor fusion: From camera to sparse LiDAR information
CN113362236B (zh) 点云增强方法、点云增强装置、存储介质与电子设备
Shrotre et al. Background recovery from multiple images
Zheng et al. 3D bounding box proposal for on-street parking space status sensing in real world conditions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant