CN116612357A - 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 - Google Patents
一种无监督rgbd多模态数据集的构建方法、系统和存储介质 Download PDFInfo
- Publication number
- CN116612357A CN116612357A CN202310845651.XA CN202310845651A CN116612357A CN 116612357 A CN116612357 A CN 116612357A CN 202310845651 A CN202310845651 A CN 202310845651A CN 116612357 A CN116612357 A CN 116612357A
- Authority
- CN
- China
- Prior art keywords
- inflection point
- marked
- depth
- image
- depth image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000002372 labelling Methods 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 238000010276 construction Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 238000005286 illumination Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及计算机视觉技术领域,具体涉及一种无监督RGBD多模态数据集的构建方法、系统和存储介质,包括:采集待标注物体的RGB图像和深度图像;根据深度图像绘制深度图像折线图,并计算拐点坐标;将计算过拐点坐标与RGB图像输入神经网络,得到标注有待标注物体的边界的RGB图像标注文件和深度图像的标注文件,根据深度图像的标注文件构建数据集。本发明充分考虑到RGB图像和深度图像之间的不同,通过无监督方式自动生成RGBD多模态数据集,使用神经网络自动生成RGB图像边缘轮廓的标注信息,将标注结果迁移到深度图像,避免了直接标注深度图像时由于边缘模糊,噪声等导致的标注错误,同时大幅减少了标注的时间成本,效率极大提升。
Description
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种无监督RGBD多模态数据集的构建方法、系统和存储介质。
背景技术
在计算机视觉领域,基于深度学习的目标检测和分割已经成为一个重要的研究方向。其中,融合RGBD多模态数据集由于可以提供更丰富的信息、增强对光照和纹理变化的鲁棒性、改善目标分割和识别的性能,以及处理遮挡物体和提供深度感知等优势,在计算机视觉各领域中具有广泛的应用前景。
目前,RGBD多模态数据集主要依赖人工对RGB图像和深度图像进行手动标注。深度图像中的物体轮廓和边界可能因为深度图像算法的限制而变得模糊不清。此外,深度图像中的深度值可能受到噪声和不一致性的影响,导致深度信息的完整性有所缺失。在标注RGBD多模态数据集时,标注者需要根据深度图像的可见部分进行推断,以获得完整图像,这些因素都增加了标注者对物体形状和边界的判断的难度,并严重影响了标注效率。
RGBD多模态数据集主要依赖人工对RGB图像和深度图像进行手动标注。然而,由于涉及两种模态的信息,RGBD多模态数据集的数据量和标注复杂性较大,且标注的准确性和一致性受到标注人员的专注程度和熟练程度的影响。因此,完成数据集的标注工作需要较多的人力和时间成本,且标注结果可能存在人为的错误和不一致性。
发明内容
(一)发明目的
本发明的目的是提供一种克服标注困难和效率低下的无监督RGBD多模态数据集的构建方法、系统和存储介质。
(二)技术方案
为解决上述问题,本发明的提供了一种无监督RGBD多模态数据集的构建方法,采集待标注物体的RGB图像和深度图像;
根据所述深度图像绘制待标注物体的深度图像折线图,所述折线图中包括多个拐点;
从所述多个拐点中确定第一拐点和第二拐点,并计算所述第一拐点和第二拐点的坐标,所述第一拐点表示待标注物体的开始点,所述第二拐点表示待标注物体的结束点;
基于所述第一拐点和第二拐点的坐标、以及所述RGB图像,通过预设的神经网络得到标注有待标注物体的边界的RGB图像标注文件;
将所述RGB图像标注文件与深度图像对齐,利用所标注的边界生成所述深度图像的标注文件;
根据所述深度图像的标注文件构建多模态数据集。
优选地,所述得到标注有待标注物体的边界的RGB图像标注文件包括:
将第一拐点和第二拐点的坐标和RGB图像输入预设的神经网络,通过所述神经网络生成RGB图像中待标注物体的mask掩膜;
将所述待标注物体的mask掩膜转换为待标注物体的边界;
根据所述待标注物体的边界生成所述RGB图像的标注文件。
优选地,采集待标注物体的RGB图像和深度图像包括:采用双目结构光红外相机采集待标注物体的RGB图像和深度图像,所述采集的RGB图像和深度图像为相互对齐的图像。
优选地,根据所述深度图像绘制待标注物体的深度图像折线图,包括:
选取所述RGB图像在X轴方向上的中线;
依次获取所述中线上沿Y轴方向若干个采样点的深度坐标值,所述深度坐标值采用该采样点的Y轴坐标值和深度值表示;其中,设所述RGB图像的水平方向为X轴方向,垂直方向为Y轴方向;
建立深度值坐标系,将若干个采样点绘制于在所述深度值坐标系中,得到待标注物体的深度图像折线图;其中,所述深度值坐标系的横坐标为所述Y轴坐标,纵坐标为所述深度值坐标。
优选地,计算所述第一拐点和第二拐点的坐标,包括:
其中为第一个估计的拐点,/>为第k+1个估计的拐点,上标 k 表示算法的第k 步,T表示曲线的采样点总数,y表示曲线在某一采样处的纵坐标;c()表示损失函数,V()表示成本函数;其中,第一个估计的拐点为第一拐点,第k+1个估计的拐点为第二拐点。
优选地,所述方法还包括:
分别将第一拐点和第二拐点的纵轴坐标向待标注物体中心偏移相同像素,获得第一拐点的偏移坐标和第二拐点的偏移坐标;
将所述第一拐点的偏移坐标和第二拐点的偏移坐标作为正样本点与RGB图像输入预设的神经网络,通过所述神经网络生成RGB图像中待标注物体的mask掩膜。
优选地,将所述待标注物体的mask掩膜转换为待标注物体的边界包括:
提取所述待标注物体的mask掩膜的第一边缘轮廓;
使用多边形逼近方法将第一边缘轮廓生成为第二边缘轮廓;
对第二边缘轮廓进行去噪,得到第三边缘轮廓;
将第三边缘轮廓上点的坐标进行缩放,与所述RGB图像的尺寸对齐得到待标注物体的边界。
优选地,所述多边形逼近方法的逼近精度为(0.001~0.01)*第一边缘轮廓的周长。
优选地,一种无监督RGBD多模态数据集的构建系统,包括:
采集模块:采集待标注物体的RGB图像和深度图像;
计算模块:根据所述深度图像绘制待标注物体深度图像折线图,所述折线图中包括多个拐点;从所述多个拐点中确定第一拐点和第二拐点,并计算所述第一拐点和第二拐点的坐标,所述第一拐点表示待标注物体的开始点,所述第二拐点表示待标注物体的结束点;
生成模块:基于所述第一拐点和第二拐点的坐标、以及所述RGB图像,通过预设的神经网络得到标注有待标注物体的边界的RGB图像标注文件;将所述RGB图像标注文件与深度图像对齐,利用所标注的边界生成所述深度图像的标注文件;
构建模块:根据所述深度图像的标注文件构建多模态数据集。
优选地,一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上中任一项所述的无监督RGBD多模态数据集的构建方法。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:
本发明采集待标注物体的RGB图像和深度图像,充分考虑到RGB图像和深度图像之间的不同,通过无监督方式自动生成RGBD多模态数据集,根据深度图像绘制深度图像折线图,并计算待标注物体的拐点坐标,将拐点坐标和RGB图像一起输入神经网络,有利于神经网络对待标注物体进行分割,提高了分割的准确性,有利于提高mask掩膜的精度;先形成RGB图像中待标注物体的标注信息,将标注结果迁移到深度图像,避免了直接标注深度图像时由于边缘模糊,噪声等导致的标注错误,同时大幅减少了标注的时间成本,相比人工标注,效率得到极大提升。
附图说明
图1是本发明一个实施例的整体流程图;
图2是本发明一个实施例的深度图像中线处折线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例一
一种无监督RGBD多模态数据集的构建方法,图1示出了本发明一个实施例的整体流程图,如图1所示,包括:
采集待标注物体的RGB图像和深度图像;RGBD是一种可以直接通过拍摄的深度图得到物体的空间位置的相机,RGBD可以直接拍摄获得RGB图像和深度图像,深度图像可以包括逐像素(pixel-wise)信息,该信息与传感器采集的原始图像中的对应像素表示的场景的一部分到采集工具的观察位置的距离,此处不限制RGBD相机的具体内容,可选的,本实施例中,RGBD相机为双目结构光红外相机,进一步的,具体型号为RealSense D435i,此处不限制采集的RGB图像和深度图像得具体数量和环境,可以是各采集一张图像,也可以是采集多张图像,可选的,本实施例中,采集待标注物体的RGB图像和深度图像为采集不同光线环境、不同视角距离下的待标注物体RGB图像和深度图像;此处不限定光线环境的具体内容,也不限定视角距离的具体内容,可选的,本实施例中光线环境可以是正面光照、侧面光照和背面光照等不同光线环境下,采用俯视、平视、仰视等不同视角,距离可以在10cm-50cm之间,可选的,可以分别在20cm、25cm、30cm、35cm和40cm距离下采集待标注物体RGB图像和深度图像;此处不限制待标注物体的具体内容和数量,可以是不同类别的多个物体,也可以是相同类别的多个物体,也可以是单个物体,本实施例中,可选的,待标注物体为单个类别,且是单个物体;此处不限定采集的RGB图像和深度图像保存格式和命名方式,可选的,RGB图像和深度图像保存格式可以为jpg、png、gif、bmp;可选的,本实施例中,RGB图像和深度图像保存格式为png,可选的,RGB图像和深度图像的命名方式分别为classes_index_rgb.png和classes_index_d_norm.png,其中,classes表示待标注物体所属类别,index表示当前索引;可选的,本实施例中,保证待标注物体在双目结构光红外相机视野中央;可选的,本实施例中,对深度图像和彩色图像进行配准,进行准确对齐,以保证RGB图像和深度图像的像素级一致性,方便将后续的RGB图像的标注文件迁移到深度图像,对深度图像和彩色图像进行配准,可以避免迁移过程对深度图像标注结果造成误差;
根据所述深度图像绘制待标注物体深度图像折线图,所述折线图中包括多个拐点;从所述多个拐点中确定第一拐点和第二拐点,并计算所述第一拐点和第二拐点的坐标,所述第一拐点表示待标注物体的开始点,所述第二拐点表示待标注物体的结束点;此处不限制绘制待标注物体深度图像折线图的具体策略,正视图的情况下,可以是选择折线图的第一拐点和第二拐点分别为待标注物体中心线最左和最右两点,也可以是不在中心线位置的最左和最右两点,也可以选择折线图的第一拐点和第二拐点分别为最高和最低两点,也可以选择待标注物体某条线的两端为第一拐点和第二拐点;同理,俯视图、左视图、右视图等情况下拐点选择策略如正视图策略;可选的,本实施例中,直接将折线图上采样点代入拐点坐标计算公式即可得到待标注物体深度图像折线图中所有的拐点坐标,取第一个拐点为第一拐点,最后一个拐点为第二拐点;可选的,本实施例中,绘制待标注物体深度图像折线图策略为设置待标注物体在采集的RGB图像和深度图像宽度的中间位置,也就是将待标注物体放置在相机视野中央,设所述RGB图像的水平方向为X轴方向,垂直方向为Y轴方向;选取所述RGB图像在X轴方向上的中线;依次获取所述中线上沿Y轴方向若干个采样点的深度坐标值,所述深度坐标值采用该采样点的Y轴坐标值和深度值表示;建立深度值坐标系,将若干个采样点绘制于在所述深度值坐标系中,得到待标注物体的深度图像折线图;其中,所述深度值坐标系的横坐标为所述Y轴坐标,纵坐标为所述深度值坐标。
设置待标注物体在采集的RGB图像和深度图像宽度的中间位置,此处不限定选择的图像的视角,可选的,本实施例中,选取的图像为正视图,选取待标注物体中垂直方向的中线位置,此处读取的是沿依次获取所述中线上沿Y轴方向若干个采样点的深度坐标值,定义为中线位置为W/2,图2示出了本发明一个实施例深度图像中线折线图,如图2所示,为待标注物体的折线图,第一拐点为待标注物体物体开始点,第二拐点为待标注物体物体结束点,本实施例中,第一拐点为待标注物体的顶部点,第二拐点为待标注物体的底部点,此处也不限制计算所述深度图像折线图的第一拐点和第二拐点坐标使用的算法,可选的,本实施例中,可以使用二分分割 (Binary segmentation) 曲线拐点检测算法计算得出拐点坐标,定义第一拐点为待标注物体开始点,第二拐点为待标注物体结束点,定义第一拐点坐标为(W/2,Y1),第二拐点坐标为(W/2,Y2),其中第一拐点(W/2,Y1)表示物体开始点,第二拐点(W/2,Y2) 表示物体结束点;
二分分割曲线拐点检测算法可表示为:
其中为第一个估计的拐点,/>为第k+1个估计的拐点,上标 k指的二分分割曲线拐点检测算法的第 k 步,T表示曲线的采样点总数,y表示曲线在某一采样处的纵坐标;c()表示损失函数,V()表示成本函数,式中“U”是并集符号,并非字母U或某一具体参数;其中,第一个估计的拐点为第一拐点,第k+1个估计的拐点为第二拐点。
具体的计算所述第一拐点和第二拐点的坐标,包括:
将要检测拐点的曲线表示为一组有序的数据点;
将整个曲线作为初始的一个子段,并记录子段的起始点和终止点;
计算整个子段的平方误差损失作为初始的总体损失值;
通过二分法将当前的子段进一步划分为两个子段,计算划分点的索引作为拐点位置;
将拐点位置作为新的终止点,并更新子段和损失;
重复进行计算整个子段的平方误差损失并更新子段和损失,直到总体损失最小;
输出拐点位置;
二分分割曲线拐点检测算法计算拐点坐标计算速度快,计算量适中;可选的,本实施例中,采集的RGB图像和深度图像分辨率均设置为640*480,RGB图像和深度图像的中间位置W/2即为320,因此第一拐点和第二拐点坐标分别为(320,Y1),(320,Y2),其中,Y1,Y2由二分分割曲线拐点检测算法计算得出;进一步,将深度图像的深度值进行规范化处理,利于降低冗余,利于保证数据的一致性和完整性,可选的,本实施例中,将深度图像的深度值进行规范化处理具体为:设置深度图像的深度值范围为0~580(mm),当深度图像中某点的深度值大于580时,将其设置为580;进一步,将深度图像的深度值进行正则化处理,正则化技术是保证算法泛化能力的有效工具,正则化技术令参数数量多于输入数据量的网络避免产生过拟合现象,过拟合通常发生在算法学习的输入数据无法反应真实的分布且存在一些噪声的情况,可选的,本实施例中,将深度图像的深度值进行正则化处理具体为:将深度图像所有像素的深度值除以255,结果向上取整;
在一具体实施案例中,定义第一拐点为待标注物体开始点,第二拐点为待标注物体结束点,分别将第一拐点和第二拐点的Y坐标向待标注物体中心偏移相同像素分别获得第一拐点和第二拐点的偏移坐标,也就是待标注物体开始点和待标注物体结束点分别向待标注物体中心偏移相同像素,可以避免拐点刚好出现在轮廓边缘导致分割歧义,此处不限定偏移像素的大小范围,只要保证第一拐点和第二拐点在待标注物体上即可,可选的,本实施例中分别将第一拐点和第二拐点两点的Y坐标向待标注物体中心偏移10个像素,以保证第一拐点和第二拐点两点的偏移坐标在待标注物体上,偏移后的第一拐点和第二拐点的偏移坐标分别为(W/2,Y1+10),(W/2,Y2-10);
将第一拐点和第二拐点的坐标与所述RGB图像输入预设的神经网络,通过所述神经网络生成RGB图像中待标注物体的mask掩膜;第一拐点和第二拐点的坐标的作用是方便RGB图像在分割时的准确性,也能缩短生成RGB图像中待标注物体的mask掩膜的时间,此处不限制神经网络的具体内容,可选的,本实施例中,预设的神经网络为SAM网络,将RGB图像输入神经网络可以自动生成可以成待标注物体的mask掩膜区域,mask掩膜是用选定的图像、图形,对处理的图像全部或局部进行遮挡,来控制图像处理的区域或处理过程,此处不限定神经网络对图片进行mask掩膜获取的策略,可选的,可以为实例分割,本实施例中,设置神经网络输出置信度最高的分割结果作为待标注物体的mask掩膜;
将所述待标注物体的mask掩膜转换为待标注物体的边界;此处不限定将所述待标注物体的mask掩膜转换为待标注物体的边界的具体内容,可选的,本实施例中,边界提取的具体内容包括:提取所述待标注物体的mask掩膜的第一边缘轮廓;此处不限定提取第一边缘轮廓的方法,可选的,为OpenCV函数、findContours函数提取第一边缘轮廓,drawContours函数提取第一边缘轮廓或者卷积函数提取第一边缘轮廓,本实施例中,使用图像处理库opencv内置的cv2.findContours函数找到图像中的轮廓,进一步的,并对第一边缘轮廓进行细化处理;
使用多边形逼近方法将第一边缘轮廓生成为第二边缘轮廓;多边形逼近算法是一种用于将曲线或者面的边缘转换成近似的多边形的方法,这种算法可以将曲线或者面的边缘简化成由少量的直线段或者折线段组成的多边形,从而减少计算量和存储空间,同时保持足够的准确度,多边形逼近算法是将曲线或面的边缘分割成小的部分,然后对每一小段进行逼近,逼近的方法可以是直接连接两端点,也可以是通过插值得到一些中间点再进行连接,然后,再将所有逼近的小段连接起来,就可以得到一个多边形逼近曲线或者面的边缘,多边形逼近算法有很多不同的实现方法,本实施例中,可选的,使用多边形逼近方法cv2.approxPolyDP将轮廓近似成多边形;进一步,设置多边形逼近方法的逼近精度为(0.001~0.01)*第一边缘轮廓的周长,进一步,设置多边形逼近方法的逼近精度为0.001*第一边缘轮廓的周长;该精度可以较为准确的提取物体的轮廓;
对第二边缘轮廓进行去噪,得到第三边缘轮廓;此处不限定去噪的具体方法,可选的,本实施例中,去噪的具体内容为计算第二边缘轮廓的平均面积并移除面积小于平均面积20%的第二边缘轮廓来排除噪点和不相关的轮廓,避免噪声影响最后的边界结果;
将第三边缘轮廓上点的坐标进行缩放,与原始图像的尺寸对齐得到待标注物体的边界;
根据所述待标注物体的边界生成所述RGB图像的标注文件;此处所述RGB图像的标注文件的为所述待标注物体的边界内部区域;
将所述RGB图像的标注文件与深度图像对齐,利用所标注的边界生成所述深度图像的标注文件;根据所述深度图像的标注文件构建多模态数据集。因为获取RGB图像和深度图像时将两者进行了对准处理,所以可以直接将RGB图像的标注文件迁移到深度图像,节约标注时间。
本发明的一个实施例中,进一步,将神经网络转换为ONNX格式,其中onnxruntime版本为1.14.1,并使用gpu加速。网络模型转换为ONNX格式,不再依赖于深度学习框架,使用范围更广,可以方便的在边缘设备部署。同时大幅降低了运行时的显存占用,提升了运行速度。
本发明的一个实施例中,进一步,所述标注文件包括:将待标注物体的类别写入标注文件的label属性,将所述待标注物体的边界上点的坐标写入标注文件的points属性,将RGB图像和深度图像的文件名分别写入标注文件的imagePath属性。根据RGB图像和深度图像的文件名分别新建classes_index_rgb.josn和classes_index_d_norm. josn标注文件,将待标注物体的classes类别写入标注文件的label属性,将轮廓上所有点的坐标写入标注文件的points属性,将RGB图像和深度图像的文件名分别写入标注文件的imagePath属性。在一具体实施案例中, josn标注文件中版本设置为5.1.1,imageWidth和imageHeight属性分别设置为相机采集画面的宽和高,即640和480。在一具体实施案例中,本发明的测试平台和实验环境为: Windows 10 专业版操作系统, NVIDIA GeForce RTX 3060 Ti显卡,显存大小为8GB,CPU配置为英特尔®酷睿™i5-12400 处理器,CUDA版本为11 .3 .1,Pytorch版本为1 .12 .0,Python语言环境为3 .8 .1,onnxruntime-gpu版本为1.14.1。
本实施例采集待标注物体的RGB图像和深度图像,充分考虑到RGB图像和深度图像之间的不同,通过无监督方式自动生成RGBD多模态数据集,根据深度图像绘制深度图像折线图,并计算待标注物体的拐点坐标,将拐点坐标和RGB图像一起输入神经网络,有利于神经网络对待标注物体进行分割,提高了分割的准确性,有利于提高mask掩膜的精度;先形成RGB图像中待标注物体的标注信息,将标注结果迁移到深度图像,避免了直接标注深度图像时由于边缘模糊,噪声等导致的标注错误,同时大幅减少了标注的时间成本,相比人工标注,效率得到了极大地提升。
实施例二
一种无监督RGBD多模态数据集的构建系统,包括:
采集模块:用于采集待标注物体的RGB图像和深度图像;不限定采集的具体内容,可选的,采集待标注物体的RGB图像和深度图像包括:设置双目结构光红外相机采集待标注物体的RGB图像和深度图像,并通过双目结构光红外相机将所述RGB图像和深度图像进行对齐;
计算模块:根据所述深度图像绘制待标注物体深度图像折线图,所述折线图中包括多个拐点;从所述多个拐点中确定第一拐点和第二拐点,并计算所述第一拐点和第二拐点的坐标,所述第一拐点表示待标注物体的开始点,所述第二拐点表示待标注物体的结束点;本实施例中,选取的图像为正视图,选取待标注物体中垂直方向的中线位置,此处读取的是沿依次获取所述中线上沿Y轴方向若干个采样点的深度坐标值,定义为中线位置为W/2,图2示出了本发明一个实施例深度图像中线折线图,如图2所示,为待标注物体的折线图,第一拐点为待标注物体物体开始点,第二拐点为待标注物体物体结束点,本实施例中,第一拐点为待标注物体的顶部点,第二拐点为待标注物体的底部点,此处也不限制计算所述深度图像折线图的第一拐点和第二拐点坐标使用的算法,可选的,本实施例中,可以使用二分分割 (Binary segmentation) 曲线拐点检测算法计算得出拐点坐标,定义第一拐点为待标注物体开始点,第二拐点为待标注物体结束点,定义第一拐点坐标为(W/2,Y1),第二拐点坐标为(W/2,Y2),其中第一拐点(W/2,Y1)表示物体开始点,第二拐点(W/2,Y2) 表示物体结束点;
所述拐点坐标计算包括:
其中为第一个估计的拐点,/>为第k+1个估计的拐点,上标 k指的二分分割曲线拐点检测算法的第 k 步,T表示曲线的采样点总数,y表示曲线在某一采样处的纵坐标;c()表示损失函数,V()表示成本函数,U表示采样点t的并集;其中,第一个估计的拐点为第一拐点,第k+1个估计的拐点为第二拐点;
生成模块:将第一拐点和第二拐点的坐标和RGB图像输入预设的神经网络,通过所述神经网络生成RGB图像中待标注物体的mask掩膜;将所述待标注物体的mask掩膜转换为待标注物体的边界;根据所述待标注物体的边界生成所述RGB图像的标注文件;将所述RGB图像的标注文件与深度图像对齐,利用所标注的边界生成所述深度图像的标注文件,将所述待标注物体的mask掩膜转换为待标注物体的边界包括:提取所述待标注物体的mask掩膜的第一边缘轮廓;
使用多边形逼近方法将第一边缘轮廓生成为第二边缘轮廓;
对第二边缘轮廓进行去噪,得到第三边缘轮廓;
将第三边缘轮廓上点的坐标进行缩放,与原始图像的尺寸对齐得到待标注物体的边界;
构建模块:根据所述深度图像的标注文件构建多模态数据集。
实施例三
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如上中任一项所述的无监督RGBD多模态数据集的构建方法。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
以上参照本发明的实施例对本发明予以了说明。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围,本领域技术人员可以做出多种替换和修改,这些替换和修改都应落在本发明的范围之内。
尽管已经详细描述了本发明的实施方式,但是应该理解的是,在不偏离本发明的精神和范围的情况下,可以对本发明的实施方式做出各种改变、替换和变更。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种无监督RGBD多模态数据集的构建方法,其特征在于,包括:
采集待标注物体的RGB图像和深度图像;
根据所述深度图像绘制待标注物体的深度图像折线图,所述折线图中包括多个拐点;
从所述多个拐点中确定第一拐点和第二拐点,并计算所述第一拐点和第二拐点的坐标,所述第一拐点表示待标注物体的开始点,所述第二拐点表示待标注物体的结束点;
基于所述第一拐点和第二拐点的坐标、以及所述RGB图像,通过预设的神经网络得到标注有待标注物体的边界的RGB图像标注文件;
将所述RGB图像标注文件与深度图像对齐,利用所标注的边界生成所述深度图像的标注文件;
根据所述深度图像的标注文件构建多模态数据集。
2.根据权利要求1所述的无监督RGBD多模态数据集的构建方法,其特征在于,所述得到标注有待标注物体的边界的RGB图像标注文件包括:
将第一拐点和第二拐点的坐标和RGB图像输入预设的神经网络,通过所述神经网络生成RGB图像中待标注物体的mask掩膜;
将所述待标注物体的mask掩膜转换为待标注物体的边界;
根据所述待标注物体的边界生成所述RGB图像的标注文件。
3.根据权利要求1所述的无监督RGBD多模态数据集的构建方法,其特征在于,采集待标注物体的RGB图像和深度图像包括:采用双目结构光红外相机采集待标注物体的RGB图像和深度图像,所述采集的RGB图像和深度图像为相互对齐的图像。
4.根据权利要求1所述的无监督RGBD多模态数据集的构建方法,其特征在于,根据所述深度图像绘制待标注物体的深度图像折线图,包括:
选取所述RGB图像在X轴方向上的中线;
依次获取所述中线上沿Y轴方向若干个采样点的深度坐标值,所述深度坐标值采用该采样点的Y轴坐标值和深度值表示;其中,所述X轴方向为RGB图像的水平方向,所述Y轴方向为RGB图像的垂直方向;
建立深度值坐标系,将若干个采样点绘制于在所述深度值坐标系中,得到待标注物体的深度图像折线图;其中,所述深度值坐标系的横坐标为所述Y轴坐标,纵坐标为所述深度值坐标。
5.根据权利要求1所述的无监督RGBD多模态数据集的构建方法,其特征在于,计算所述第一拐点和第二拐点的坐标,包括:
;
;
其中为第一个估计的拐点,/>为第k+1个估计的拐点,上标 k 表示算法的第 k步,T表示曲线的采样点总数,y表示曲线在某一采样处的纵坐标;c()表示损失函数,V()表示成本函数;其中,第一个估计的拐点为第一拐点,第k+1个估计的拐点为第二拐点。
6.根据权利要求4所述的无监督RGBD多模态数据集的构建方法,其特征在于:所述方法还包括:
分别将第一拐点和第二拐点的纵轴坐标向待标注物体中心偏移相同像素,获得第一拐点的偏移坐标和第二拐点的偏移坐标;
将所述第一拐点的偏移坐标和第二拐点的偏移坐标作为正样本点与RGB图像输入预设的神经网络,通过所述神经网络生成RGB图像中待标注物体的mask掩膜。
7.根据权利要求2所述的无监督RGBD多模态数据集的构建方法,其特征在于,将所述待标注物体的mask掩膜转换为待标注物体的边界包括:
提取所述待标注物体的mask掩膜的第一边缘轮廓;
使用多边形逼近方法将第一边缘轮廓生成为第二边缘轮廓;
对第二边缘轮廓进行去噪,得到第三边缘轮廓;
将第三边缘轮廓上点的坐标进行缩放,与所述RGB图像的尺寸对齐得到待标注物体的边界。
8.根据权利要求7所述的无监督RGBD多模态数据集的构建方法,其特征在于:所述多边形逼近方法的逼近精度为(0.001~0.01)*第一边缘轮廓的周长。
9.一种无监督RGBD多模态数据集的构建系统,其特征在于,包括:
采集模块:采集待标注物体的RGB图像和深度图像;
计算模块:根据所述深度图像绘制待标注物体深度图像折线图,所述折线图中包括多个拐点;从所述多个拐点中确定第一拐点和第二拐点,并计算所述第一拐点和第二拐点的坐标,所述第一拐点表示待标注物体的开始点,所述第二拐点表示待标注物体的结束点;
生成模块:基于所述第一拐点和第二拐点的坐标、以及所述RGB图像,通过预设的神经网络得到标注有待标注物体的边界的RGB图像标注文件;将所述RGB图像标注文件与深度图像对齐,利用所标注的边界生成所述深度图像的标注文件;
构建模块:根据所述深度图像的标注文件构建多模态数据集。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~8中任一项所述的无监督RGBD多模态数据集的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310845651.XA CN116612357B (zh) | 2023-07-11 | 2023-07-11 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310845651.XA CN116612357B (zh) | 2023-07-11 | 2023-07-11 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612357A true CN116612357A (zh) | 2023-08-18 |
CN116612357B CN116612357B (zh) | 2023-11-24 |
Family
ID=87683881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310845651.XA Active CN116612357B (zh) | 2023-07-11 | 2023-07-11 | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612357B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437366A (zh) * | 2023-12-20 | 2024-01-23 | 中山大学 | 一种多模态大规模场景数据集的构建方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211061A (zh) * | 2019-05-20 | 2019-09-06 | 清华大学 | 基于神经网络的单深度相机深度图实时增强方法及装置 |
CN112989881A (zh) * | 2019-12-16 | 2021-06-18 | 深圳慧智星晨科技有限公司 | 一种无监督可迁移的3d视觉物体抓取方法 |
CN114119780A (zh) * | 2021-11-24 | 2022-03-01 | 奥比中光科技集团股份有限公司 | 一种图像标注方法、装置及电子设备 |
CN115083015A (zh) * | 2022-06-09 | 2022-09-20 | 广州紫为云科技有限公司 | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 |
CN115273080A (zh) * | 2022-07-29 | 2022-11-01 | 浙江工业大学 | 一种面向动态场景的轻量级视觉语义里程计方法 |
CN115384971A (zh) * | 2021-05-25 | 2022-11-25 | 发那科株式会社 | 透明对象料箱拾取 |
CN116168393A (zh) * | 2023-01-17 | 2023-05-26 | 浙江大学 | 基于点云神经辐射场的语义标注数据自动生成方法、装置 |
CN116310622A (zh) * | 2022-12-15 | 2023-06-23 | 珠海创智科技有限公司 | 一种基于深度学习对托盘进行准确识别的方法及系统 |
CN116310188A (zh) * | 2023-05-19 | 2023-06-23 | 中国电子科技南湖研究院 | 基于实例分割及建筑重构的虚拟城市生成方法及存储介质 |
-
2023
- 2023-07-11 CN CN202310845651.XA patent/CN116612357B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211061A (zh) * | 2019-05-20 | 2019-09-06 | 清华大学 | 基于神经网络的单深度相机深度图实时增强方法及装置 |
CN112989881A (zh) * | 2019-12-16 | 2021-06-18 | 深圳慧智星晨科技有限公司 | 一种无监督可迁移的3d视觉物体抓取方法 |
CN115384971A (zh) * | 2021-05-25 | 2022-11-25 | 发那科株式会社 | 透明对象料箱拾取 |
CN114119780A (zh) * | 2021-11-24 | 2022-03-01 | 奥比中光科技集团股份有限公司 | 一种图像标注方法、装置及电子设备 |
CN115083015A (zh) * | 2022-06-09 | 2022-09-20 | 广州紫为云科技有限公司 | 一种3d人体姿态估计数据标注方式和对应的模型构建方法 |
CN115273080A (zh) * | 2022-07-29 | 2022-11-01 | 浙江工业大学 | 一种面向动态场景的轻量级视觉语义里程计方法 |
CN116310622A (zh) * | 2022-12-15 | 2023-06-23 | 珠海创智科技有限公司 | 一种基于深度学习对托盘进行准确识别的方法及系统 |
CN116168393A (zh) * | 2023-01-17 | 2023-05-26 | 浙江大学 | 基于点云神经辐射场的语义标注数据自动生成方法、装置 |
CN116310188A (zh) * | 2023-05-19 | 2023-06-23 | 中国电子科技南湖研究院 | 基于实例分割及建筑重构的虚拟城市生成方法及存储介质 |
Non-Patent Citations (2)
Title |
---|
QIAN XIE ET AL.: ""Object Detection and Tracking Under Occlusion for Object-Level RGB-D Video Segmentation"", 《IEEE》 * |
顾天纵: ""基于深度学习的岩体裂隙图像识别及坐标提取"", 《硕士电子期刊》, no. 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437366A (zh) * | 2023-12-20 | 2024-01-23 | 中山大学 | 一种多模态大规模场景数据集的构建方法 |
CN117437366B (zh) * | 2023-12-20 | 2024-04-12 | 中山大学 | 一种多模态大规模场景数据集的构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116612357B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109872397B (zh) | 一种基于多目立体视觉的飞机零件的三维重建方法 | |
US10943346B2 (en) | Multi-sample whole slide image processing in digital pathology via multi-resolution registration and machine learning | |
CN108765363B (zh) | 一种基于人工智能的冠脉cta自动后处理系统 | |
US20210118144A1 (en) | Image processing method, electronic device, and storage medium | |
WO2023137914A1 (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110570352B (zh) | 图像标注方法、装置、系统及细胞标注方法 | |
CN110807775A (zh) | 基于人工智能的中医舌像分割装置、方法及存储介质 | |
EP2987142A1 (en) | Systems and methods for multiplexed biomarker quantitation using single cell segmentation on sequentially stained tissue | |
US10929643B2 (en) | 3D image detection method and apparatus, electronic device, and computer readable medium | |
CN116612357B (zh) | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 | |
CN111046843A (zh) | 一种智能驾驶环境下的单目测距方法 | |
CN110767292A (zh) | 病理编号识别方法、信息识别方法、装置及信息识别系统 | |
CN111354047A (zh) | 一种基于计算机视觉的摄像模组定位方法及系统 | |
CN111415364A (zh) | 一种计算机视觉中图像分割样本的转换方法、系统及存储介质 | |
Parmehr et al. | Automatic parameter selection for intensity-based registration of imagery to LiDAR data | |
CN114119695A (zh) | 一种图像标注方法、装置及电子设备 | |
CN112017221B (zh) | 基于尺度空间的多模态图像配准方法、装置和设备 | |
CN113538363A (zh) | 一种基于改进U-Net的肺部医学影像分割方法及装置 | |
CN110910497B (zh) | 实现增强现实地图的方法和系统 | |
CN113205526B (zh) | 基于多源信息融合的配电线路精准语义分割方法 | |
CN112330660B (zh) | 一种基于神经网络的精子尾部检测方法及其系统 | |
CN114627136A (zh) | 一种基于特征金字塔网络的舌象分割与对齐方法 | |
CN111630569B (zh) | 双目匹配的方法、视觉成像装置及具有存储功能的装置 | |
EP4350615A1 (en) | Facial deformation compensation method for facial depth image, and imaging apparatus and storage medium | |
Jiang et al. | Research on Image Fuzzy Edge Processing Based on Subpixel and Ramer-Douglas-Peucker Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |