CN106709481A - 一种基于二维‑三维语义数据集的室内场景理解方法 - Google Patents

一种基于二维‑三维语义数据集的室内场景理解方法 Download PDF

Info

Publication number
CN106709481A
CN106709481A CN201710124139.0A CN201710124139A CN106709481A CN 106709481 A CN106709481 A CN 106709481A CN 201710124139 A CN201710124139 A CN 201710124139A CN 106709481 A CN106709481 A CN 106709481A
Authority
CN
China
Prior art keywords
image
data
grid
rgb
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710124139.0A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710124139.0A priority Critical patent/CN106709481A/zh
Publication of CN106709481A publication Critical patent/CN106709481A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/35Categorising the entire scene, e.g. birthday party or wedding scene
    • G06V20/36Indoor scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/04Texture mapping
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/30Polynomial surface description

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Algebra (AREA)
  • Multimedia (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Geometry (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明中提出的一种基于二维‑三维语义数据集的室内场景理解方法,其主要内容包括:数据的收集和整理、训练和测试分割,其过程为,先捕捉图像输出扫描区域,输出扫描区域,原始颜色深度图像(RGB‑D)和3D纹理网格,接着通过对网格进行采样生成点云,对数据进行语义注释,然后将每个点标签投影在3D网格和图像域上,最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分,定义标准训练和测试分割。本发明提出的语义数据集可以利用大规模室内空间中存在的规律来开发联合跨模态学习模型和潜在的无监督方法;为语义、布局、遮挡、形状、模式检测等提供强有力的提示;不受规模、多样性和数量的限制。

Description

一种基于二维-三维语义数据集的室内场景理解方法
技术领域
本发明涉及场景理解领域,尤其是涉及了一种基于二维-三维语义数据集的室内场景理解方法。
背景技术
室内场景的识别与理解是智能化信息处理的关键技术之一,相关的研究成果已经成功应用在不同的领域,例如,在安全防范领域的目标追踪、行人检测和人脸检测与识别,互联网信息领域的图像内容检索,智能机器人领域的目标搜寻、场景理解、障碍物检测,智能家居和危险环境的救援等,使得人们的工作和生活变得更加方便,因此,室内场景的识别与理解具有重要的理论研究意义和工程应用价值。
传统的图像资源利用大多借助低层视觉特征,如颜色、形状、纹理,实质上是计算机对图像内容的理解。然而低层视觉特征仅代表视觉信息,忽略了图像内容所包含的语义信息,与人类对图像的理解存在一定差异。
本发明提出了一种基于二维-三维语义数据集的室内场景理解方法,先捕捉图像输出扫描区域,输出扫描区域,原始颜色深度图像(RGB-D)和3D纹理网格,接着通过对网格进行采样生成点云,对数据进行语义注释,然后将每个点标签投影在3D网格和图像域上,最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分,定义标准训练和测试分割。本发明提出的语义数据集可以利用大规模室内空间中存在的规律来开发联合跨模态学习模型和潜在的无监督方法;为语义、布局、遮挡、形状、模式检测等提供强有力的提示;不受规模、多样性和数量的限制。
发明内容
针对传统方法仅代表视觉信息而忽略语义信息的问题,本发明的目的在于提供一种基于二维-三维语义数据集的室内场景理解方法,先捕捉图像输出扫描区域,输出扫描区域,原始颜色深度图像(RGB-D)和3D纹理网格,接着通过对网格进行采样生成点云,对数据进行语义注释,然后将每个点标签投影在3D网格和图像域上,最后利用数据集中的某些区域表示在其外观和建筑特征方面具有相似性建筑物的部分,定义标准训练和测试分割。
为解决上述问题,本发明提供一种基于二维-三维语义数据集的室内场景理解方法,其主要内容包括:
(一)数据的收集和整理;
(二)训练和测试分割。
其中,所述的二维-三维语义数据集,收集的数据集是6个大型室内地区,来源于3个不同的建筑物,主要是教育和办公用途;对于每个区域,所有的方式在相同的参考系统注册,产生像素到像素之间的对应关系;该数据集包含总共约102000种普通RGB和1413张等量的RGB图像,以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据;此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。
其中,所述的数据的收集和整理,使用相机收集数据,它结合了3个结构光传感器,在每个扫描位置旋转,360°捕获18种RGB和深度图像;输出扫描区域,原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格;使用这些数据作为基础生成额外的RGB-D数据,并通过对网格进行采样生成点云;直接在3D点云上对数据进行语义注释,然后将每个点标签投影在3D网格和图像域上;数据的收集和整理包括3D模式,2D形式和命名约定。
进一步地,所述的3D模式,该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域;包括三维点云和网格和3D语义;从相机得到重建的三维纹理的网格模型为每个扫描区域,每个模型包含200k个三角形面的平均值和材质映射到纹理图像,提供扫描空间的实际重建;产生的彩色3D点云密集和均匀采样点在网格表面上,并分配相应的颜色。
进一步地,所述的3D语义,语义上标注数据的3D点云,并指定以下13个对象类的每一个点:天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素;在3D进行注释,提供3D对象模型并且能够执行遮挡和模态分析,语义可以被投影到任何数量的图像上,在2D中提供标定好的真实数据;
数据集中的每个对象实例都有唯一的标识符;将点云数据注释为房间,并为每个房间分配以下11个场景标签之一:办公室、会议室、走廊、礼堂、休息室、大堂、休息室、茶水间、复印室、存储室和厕所;同样,点云中的每个实例都会收到一个唯一的索引;给定这些注释,计算每个实例最紧密的轴对齐对象边界框,并进一步将其体素化为具有二进制占有的6×6×6网格;该信息提供对底层几何的更好理解,并且可以利用在3D对象检测或分类中;然后,在网格模型的面上投射对象和场景语义,并生成保留相同类结构和实例索引的3D语义网格;使用投射方案将这些注释转移到网格;每个注释点对与其最接近的面进行投票,然后计算投票,并且用模式类来注释每个面。
进一步地,所述的2D形式,数据集包含每个扫描位置的密集采样的RGB图像,这些图像从使用由扫描仪捕获的原始数据(也是数据集的一部分)的每个扫描位置和模态生成的等方图像采样;包括RGB图像,每个图像的元数据和摄像机参数,深度图像,表面法线图像,语义标记图像和3D坐标编码图像。
进一步地,所述的RGB图像,每个图像的元数据和摄像机参数和深度图像,其特征在于,RGB图像使用提供的原始RGB数据形成每个扫描位置的立方图,并在此空间中采样新图像;对每个扫描位置采样3×72个图像,然后使用熵值的一半高斯来从它们中采样72个图像;熵值被定义为每个图像中当前语义类的分布上的信息熵;使用抽样方法,熵值通过不完全去除低熵场景来保持数据集的多样性;
每个图像的元数据和摄像机参数是每个生成的图像在“姿势文件夹”中提供的摄像机姿势;
深度图像是对于每个图像,提供从3D网格计算的深度;通过z缓冲区保存深度信息从3D网格中渲染这些图像;图像被保存为16位灰度PNG,其中像素强度的一个单位变化对应于深度的变化;因此,最大可观测范围为约128米超过此最大距离的所有深度均采用最大值(65,535);对于没有深度信息的位置像素也采用该最大距离。
进一步地,所述的表面法线图像,语义标记图像和3D坐标编码图像,表面法线是法线传递计算出来的,并保存为24位RBG的PNG图像;从3D网格计算对应于每个像素的3D中的表面法线;法线向量保存在RGB颜色值中;每个通道都以127.5为中心,因此可以使用左右两个值(轴的);
语义标记图像是将3D语义从网格模型投影到2D图像上;由于在网格模型中存在某些几何伪像,主要是由于重建中的细节水平,2D注释偶尔未对准底层像素小的局部,特别是具有到照相机的短距离的点,通过使用图形模型将图像内容与投影的注释融合来对准;语义标记的图像被保存为24位RGB的PNG图像,但每个像素的颜色值可以直接解释为列表中的索引;
3D坐标编码图像中的像素编码坐标系中点的X,Y,Z位置;该信息可以用于方便地关联RGB图像的内容;图像以OpenEXR格式存储,每个通道包含32位浮点数。
进一步地,所述的命名约定,数据集中图像的文件名是全局唯一的,因为没有两个文件共享摄像头uuid,帧号和域;房间类型包括方便过滤。
其中,所述的训练和测试分割,数据集中的某些区域表示在其外观和建筑特征方面具有相似性的建筑物的部分,因此定义标准训练和测试分割,使得没有类似建筑物的区域出现在两者之中。
附图说明
图1是本发明一种基于二维-三维语义数据集的室内场景理解方法的系统框架图。
图2是本发明一种基于二维-三维语义数据集的室内场景理解方法的联合二维-三维语义数据集。
图3是本发明一种基于二维-三维语义数据集的室内场景理解方法的三维模式。
图4是本发明一种基于二维-三维语义数据集的室内场景理解方法的等角度投影采样图像。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于二维-三维语义数据集的室内场景理解方法的系统流程图。主要包括数据的收集和整理,训练和测试分割。
数据的收集和整理,使用相机收集数据,它结合了3个结构光传感器,在每个扫描位置旋转,360°捕获18种RGB和深度图像;输出扫描区域,原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格;使用这些数据作为基础生成额外的RGB-D数据,并通过对网格进行采样生成点云;直接在3D点云上对数据进行语义注释,然后将每个点标签投影在3D网格和图像域上;数据的收集和整理包括3D模式,2D形式和命名约定。
RGB图像使用提供的原始RGB数据形成每个扫描位置的立方图,并在此空间中采样新图像;对每个扫描位置采样3×72个图像,然后使用熵值的一半高斯来从它们中采样72个图像;熵值被定义为每个图像中当前语义类的分布上的信息熵;使用抽样方法,熵值通过不完全去除低熵场景来保持数据集的多样性;
每个图像的元数据和摄像机参数是每个生成的图像在“姿势文件夹”中提供的摄像机姿势;
深度图像是对于每个图像,提供从3D网格计算的深度;通过z缓冲区保存深度信息从3D网格中渲染这些图像;图像被保存为16位灰度PNG,其中像素强度的一个单位变化对应于深度的变化;因此,最大可观测范围为约128米超过此最大距离的所有深度均采用最大值(65,535);对于没有深度信息的位置像素也采用该最大距离。
表面法线是法线传递计算出来的,并保存为24位RBG的PNG图像;从3D网格计算对应于每个像素的3D中的表面法线;法线向量保存在RGB颜色值中;每个通道都以127.5为中心,因此可以使用左右两个值(轴的);
语义标记图像是将3D语义从网格模型投影到2D图像上;由于在网格模型中存在某些几何伪像,主要是由于重建中的细节水平,2D注释偶尔未对准底层像素小的局部,特别是具有到照相机的短距离的点,通过使用图形模型将图像内容与投影的注释融合来对准;语义标记的图像被保存为24位RGB的PNG图像,但每个像素的颜色值可以直接解释为列表中的索引;
3D坐标编码图像中的像素编码坐标系中点的X,Y,Z位置;该信息可以用于方便地关联RGB图像的内容;图像以OpenEXR格式存储,每个通道包含32位浮点数。
其中,命名约定,数据集中图像的文件名是全局唯一的,因为没有两个文件共享摄像头uuid,帧号和域;房间类型包括方便过滤。
训练和测试分割,数据集中的某些区域表示在其外观和建筑特征方面具有相似性的建筑物的部分,因此定义标准训练和测试分割,使得没有类似建筑物的区域出现在两者之中。
图2是本发明一种基于二维-三维语义数据集的室内场景理解方法的联合二维-三维语义数据集。收集的数据集是6个大型室内地区,来源于3个不同的建筑物,主要是教育和办公用途;对于每个区域,所有的方式在相同的参考系统注册,产生像素到像素之间的对应关系;该数据集包含总共约102000种普通RGB和1413张等量的RGB图像,以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据;此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。
图3是本发明一种基于二维-三维语义数据集的室内场景理解方法的三维模式。该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域;包括三维点云和网格和3D语义;从相机得到重建的三维纹理的网格模型为每个扫描区域,每个模型包含200k个三角形面的平均值和材质映射到纹理图像,提供扫描空间的实际重建;产生的彩色3D点云密集和均匀采样点在网格表面上,并分配相应的颜色。
其中,3D语义,语义上标注数据的3D点云,并指定以下13个对象类的每一个点:天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素;在3D进行注释,提供3D对象模型并且能够执行遮挡和模态分析,语义可以被投影到任何数量的图像上,在2D中提供标定好的真实数据;
数据集中的每个对象实例都有唯一的标识符;将点云数据注释为房间,并为每个房间分配以下11个场景标签之一:办公室、会议室、走廊、礼堂、休息室、大堂、休息室、茶水间、复印室、存储室和厕所;同样,点云中的每个实例都会收到一个唯一的索引;给定这些注释,计算每个实例最紧密的轴对齐对象边界框,并进一步将其体素化为具有二进制占有的6×6×6网格;该信息提供对底层几何的更好理解,并且可以利用在3D对象检测或分类中;然后,在网格模型的面上投射对象和场景语义,并生成保留相同类结构和实例索引的3D语义网格;使用投射方案将这些注释转移到网格;每个注释点对与其最接近的面进行投票,然后计算投票,并且用模式类来注释每个面。
图4是本发明一种基于二维-三维语义数据集的室内场景理解方法的等角度投影采样图像。数据集包含每个扫描位置的密集采样的RGB图像,这些图像从使用由扫描仪捕获的原始数据(也是数据集的一部分)的每个扫描位置和模态生成的等方图像采样;包括RGB图像,每个图像的元数据和摄像机参数,深度图像,表面法线图像,语义标记图像和3D坐标编码图像。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于二维-三维语义数据集的室内场景理解方法,其特征在于,主要包括数据的收集和整理(一);训练和测试分割(二)。
2.基于权利要求书1所述的二维-三维语义数据集,其特征在于,收集的数据集是6个大型室内地区,来源于3个不同的建筑物,主要是教育和办公用途;对于每个区域,所有的方式在相同的参考系统注册,产生像素到像素之间的对应关系;该数据集包含总共约102000种普通RGB和1413张等量的RGB图像,以及与它们对应的深度、表面法线、语义注释、坐标系XYZ的OpenEXR格式和相机的元数据;此外还提供了整个建筑三维重建纹理网格和相应的3D语义网格。
3.基于权利要求书1所述的数据的收集和整理(一),其特征在于,使用相机收集数据,它结合了3个结构光传感器,在每个扫描位置旋转,360°捕获18种RGB和深度图像;输出扫描区域,原始颜色深度图像(RGB-D)和照相机元数据重构的3D纹理网格;使用这些数据作为基础生成额外的RGB-D数据,并通过对网格进行采样生成点云;直接在3D点云上对数据进行语义注释,然后将每个点标签投影在3D网格和图像域上;数据的收集和整理包括3D模式,2D形式和命名约定。
4.基于权利要求书3所述的3D模式,其特征在于,该数据集包含两个主要的三维模式(3D点云数据和3D网格模型)和它们的语义对应的6个领域;包括三维点云和网格和3D语义;从相机得到重建的三维纹理的网格模型为每个扫描区域,每个模型包含200k个三角形面的平均值和材质映射到纹理图像,提供扫描空间的实际重建;产生的彩色3D点云密集和均匀采样点在网格表面上,并分配相应的颜色。
5.基于权利要求书4所述的3D语义,其特征在于,语义上标注数据的3D点云,并指定以下13个对象类的每一个点:天花板、地板、墙壁、梁、柱、窗、门、桌子、椅子、沙发、书柜、板和杂波的所有其他元素;在3D进行注释,提供3D对象模型并且能够执行遮挡和模态分析,语义可以被投影到任何数量的图像上,在2D中提供标定好的真实数据;
数据集中的每个对象实例都有唯一的标识符;将点云数据注释为房间,并为每个房间分配以下11个场景标签之一:办公室、会议室、走廊、礼堂、休息室、大堂、休息室、茶水间、复印室、存储室和厕所;同样,点云中的每个实例都会收到一个唯一的索引;给定这些注释,计算每个实例最紧密的轴对齐对象边界框,并进一步将其体素化为具有二进制占有的6×6×6网格;该信息提供对底层几何的更好理解,并且可以利用在3D对象检测或分类中;然后,在网格模型的面上投射对象和场景语义,并生成保留相同类结构和实例索引的3D语义网格;使用投射方案将这些注释转移到网格;每个注释点对与其最接近的面进行投票,然后计算投票,并且用模式类来注释每个面。
6.基于权利要求书3所述的2D形式,其特征在于,数据集包含每个扫描位置的密集采样的RGB图像,这些图像从使用由扫描仪捕获的原始数据(也是数据集的一部分)的每个扫描位置和模态生成的等方图像采样;包括RGB图像,每个图像的元数据和摄像机参数,深度图像,表面法线图像,语义标记图像和3D坐标编码图像。
7.基于权利要求书6所述的RGB图像,每个图像的元数据和摄像机参数和深度图像,其特征在于,RGB图像使用提供的原始RGB数据形成每个扫描位置的立方图,并在此空间中采样新图像;对每个扫描位置采样3×72个图像,然后使用熵值的一半高斯来从它们中采样72个图像;熵值被定义为每个图像中当前语义类的分布上的信息熵;使用抽样方法,熵值通过不完全去除低熵场景来保持数据集的多样性;
每个图像的元数据和摄像机参数是每个生成的图像在“姿势文件夹”中提供的摄像机姿势;
深度图像是对于每个图像,提供从3D网格计算的深度;通过z缓冲区保存深度信息从3D网格中渲染这些图像;图像被保存为16位灰度PNG,其中像素强度的一个单位变化对应于深度的变化;因此,最大可观测范围为约128米超过此最大距离的所有深度均采用最大值(65,535);对于没有深度信息的位置像素也采用该最大距离。
8.基于权利要求书6所述的表面法线图像,语义标记图像和3D坐标编码图像,其特征在于,表面法线是法线传递计算出来的,并保存为24位RBG的PNG图像;从3D网格计算对应于每个像素的3D中的表面法线;法线向量保存在RGB颜色值中;每个通道都以127.5为中心,因此可以使用左右两个值(轴的);
语义标记图像是将3D语义从网格模型投影到2D图像上;由于在网格模型中存在某些几何伪像,主要是由于重建中的细节水平,2D注释偶尔未对准底层像素小的局部,特别是具有到照相机的短距离的点,通过使用图形模型将图像内容与投影的注释融合来对准;语义标记的图像被保存为24位RGB的PNG图像,但每个像素的颜色值可以直接解释为列表中的索引;
3D坐标编码图像中的像素编码坐标系中点的X,Y,Z位置;该信息可以用于方便地关联RGB图像的内容;图像以OpenEXR格式存储,每个通道包含32位浮点数。
9.基于权利要求书3所述的命名约定,其特征在于,数据集中图像的文件名是全局唯一的,因为没有两个文件共享摄像头uuid,帧号和域;房间类型包括方便过滤。
10.基于权利要求书1所述的训练和测试分割,其特征在于,数据集中的某些区域表示在其外观和建筑特征方面具有相似性的建筑物的部分,因此定义标准训练和测试分割,使得没有类似建筑物的区域出现在两者之中。
CN201710124139.0A 2017-03-03 2017-03-03 一种基于二维‑三维语义数据集的室内场景理解方法 Withdrawn CN106709481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710124139.0A CN106709481A (zh) 2017-03-03 2017-03-03 一种基于二维‑三维语义数据集的室内场景理解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710124139.0A CN106709481A (zh) 2017-03-03 2017-03-03 一种基于二维‑三维语义数据集的室内场景理解方法

Publications (1)

Publication Number Publication Date
CN106709481A true CN106709481A (zh) 2017-05-24

Family

ID=58912294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710124139.0A Withdrawn CN106709481A (zh) 2017-03-03 2017-03-03 一种基于二维‑三维语义数据集的室内场景理解方法

Country Status (1)

Country Link
CN (1) CN106709481A (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107862745A (zh) * 2017-10-25 2018-03-30 武汉楚锐视觉检测科技有限公司 一种反射式的曲面三维重建标签方法和装置
CN108805036A (zh) * 2018-05-22 2018-11-13 电子科技大学 一种新的非监督的视频语义提取方法
CN109242984A (zh) * 2018-08-27 2019-01-18 百度在线网络技术(北京)有限公司 虚拟三维场景构建方法、装置及设备
CN109410307A (zh) * 2018-10-16 2019-03-01 大连理工大学 一种场景点云语义分割方法
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN109685095A (zh) * 2017-10-18 2019-04-26 达索系统公司 根据3d布置类型对2d图像进行分类
CN109934228A (zh) * 2019-03-18 2019-06-25 上海盎维信息技术有限公司 基于人工智能的3d点云处理方法及装置
CN110009727A (zh) * 2019-03-08 2019-07-12 深圳大学 一种具有结构语义的室内三维模型自动重构方法及系统
CN110060255A (zh) * 2017-12-28 2019-07-26 达索系统公司 利用逐像素分类器来对2d平面图进行语义分割
CN110264468A (zh) * 2019-08-14 2019-09-20 长沙智能驾驶研究院有限公司 点云数据标注、分割模型确定、目标检测方法及相关设备
CN110288712A (zh) * 2019-03-30 2019-09-27 天津大学 室内场景的稀疏多视角三维重建方法
CN110376195A (zh) * 2019-07-11 2019-10-25 中国人民解放军国防科技大学 一种爆炸物检测方法
CN110807350A (zh) * 2018-08-04 2020-02-18 北京京东尚科信息技术有限公司 用于面向扫描匹配的视觉slam的系统和方法
CN110825028A (zh) * 2018-08-08 2020-02-21 发那科株式会社 三维模型生成装置
CN111279705A (zh) * 2017-07-13 2020-06-12 交互数字Ce专利控股公司 用于编码和解码体积视频的方法、设备和流
CN111383234A (zh) * 2020-03-04 2020-07-07 中国空气动力研究与发展中心超高速空气动力研究所 一种基于机器学习的结构光在线密集三维重建方法
WO2020173297A1 (zh) * 2019-02-25 2020-09-03 腾讯科技(深圳)有限公司 点云分割方法、计算机可读存储介质和计算机设备
CN111886609A (zh) * 2018-03-13 2020-11-03 丰田研究所股份有限公司 用于减少机器学习中的数据存储的系统和方法
CN111882459A (zh) * 2019-05-03 2020-11-03 Bsh家用电器有限公司 建筑物的管理
CN111915730A (zh) * 2020-07-20 2020-11-10 北京建筑大学 一种顾及语义从点云自动生成室内三维模型的方法及系统
CN112561071A (zh) * 2019-09-10 2021-03-26 苹果公司 根据3d语义网格的对象关系估计
CN112771539A (zh) * 2018-09-25 2021-05-07 马特波特公司 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
CN113051986A (zh) * 2019-12-27 2021-06-29 财团法人工业技术研究院 基于2d图像标记信息的3d图像标记方法及3d图像标记装置
CN113239749A (zh) * 2021-04-27 2021-08-10 四川大学 一种基于多模态联合学习的跨域点云语义分割方法
CN113587935A (zh) * 2021-08-04 2021-11-02 燕山大学 一种基于射频信号多任务学习网络的室内场景理解方法
WO2022016407A1 (en) * 2020-07-22 2022-01-27 Intel Corporation Multi-plane mapping for indoor scene reconstruction
CN113989376A (zh) * 2021-12-23 2022-01-28 贝壳技术有限公司 室内深度信息的获取方法、装置和可读存储介质
CN115249261A (zh) * 2021-08-12 2022-10-28 达闼机器人股份有限公司 图像重力方向的获取方法、装置、电子设备及存储介质
CN116399328A (zh) * 2023-04-17 2023-07-07 石家庄铁道大学 一种基于bim的室内移动机器人的地图构建与定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IRO ARMENI等: "Joint 2D-3D-Semantic Data for Indoor Scene Understanding", 《ARXIV:1702.01105V1》 *

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111279705B (zh) * 2017-07-13 2023-10-03 交互数字Ce专利控股公司 用于编码和解码体积视频的方法、设备和流
CN111279705A (zh) * 2017-07-13 2020-06-12 交互数字Ce专利控股公司 用于编码和解码体积视频的方法、设备和流
CN109685095A (zh) * 2017-10-18 2019-04-26 达索系统公司 根据3d布置类型对2d图像进行分类
CN109685095B (zh) * 2017-10-18 2024-05-28 达索系统公司 根据3d布置类型对2d图像进行分类
CN107862745B (zh) * 2017-10-25 2021-04-09 武汉楚锐视觉检测科技有限公司 一种反射式的曲面三维重建标签方法和装置
CN107862745A (zh) * 2017-10-25 2018-03-30 武汉楚锐视觉检测科技有限公司 一种反射式的曲面三维重建标签方法和装置
CN110060255A (zh) * 2017-12-28 2019-07-26 达索系统公司 利用逐像素分类器来对2d平面图进行语义分割
US12051261B2 (en) 2017-12-28 2024-07-30 Dassault Systemes Semantic segmentation of 2D floor plans with a pixel-wise classifier
CN111886609A (zh) * 2018-03-13 2020-11-03 丰田研究所股份有限公司 用于减少机器学习中的数据存储的系统和方法
CN111886609B (zh) * 2018-03-13 2021-06-04 丰田研究所股份有限公司 用于减少机器学习中的数据存储的系统和方法
CN108805036A (zh) * 2018-05-22 2018-11-13 电子科技大学 一种新的非监督的视频语义提取方法
CN110807350B (zh) * 2018-08-04 2023-12-08 北京京东乾石科技有限公司 用于面向扫描匹配的视觉slam的系统和方法
CN110807350A (zh) * 2018-08-04 2020-02-18 北京京东尚科信息技术有限公司 用于面向扫描匹配的视觉slam的系统和方法
CN110825028B (zh) * 2018-08-08 2024-04-26 发那科株式会社 三维模型生成装置
CN110825028A (zh) * 2018-08-08 2020-02-21 发那科株式会社 三维模型生成装置
CN109242984A (zh) * 2018-08-27 2019-01-18 百度在线网络技术(北京)有限公司 虚拟三维场景构建方法、装置及设备
CN112771539B (zh) * 2018-09-25 2023-08-25 马特波特公司 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
CN112771539A (zh) * 2018-09-25 2021-05-07 马特波特公司 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
CN109410307A (zh) * 2018-10-16 2019-03-01 大连理工大学 一种场景点云语义分割方法
CN109410307B (zh) * 2018-10-16 2022-09-20 大连理工大学 一种场景点云语义分割方法
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
WO2020173297A1 (zh) * 2019-02-25 2020-09-03 腾讯科技(深圳)有限公司 点云分割方法、计算机可读存储介质和计算机设备
US11810377B2 (en) 2019-02-25 2023-11-07 Tencent Technology (Shenzhen) Company Limited Point cloud segmentation method, computer-readable storage medium, and computer device
CN110009727B (zh) * 2019-03-08 2023-04-18 深圳大学 一种具有结构语义的室内三维模型自动重构方法及系统
CN110009727A (zh) * 2019-03-08 2019-07-12 深圳大学 一种具有结构语义的室内三维模型自动重构方法及系统
CN109934228B (zh) * 2019-03-18 2023-02-10 上海盎维信息技术有限公司 基于人工智能的3d点云处理方法及装置
CN109934228A (zh) * 2019-03-18 2019-06-25 上海盎维信息技术有限公司 基于人工智能的3d点云处理方法及装置
CN110288712A (zh) * 2019-03-30 2019-09-27 天津大学 室内场景的稀疏多视角三维重建方法
CN111882459A (zh) * 2019-05-03 2020-11-03 Bsh家用电器有限公司 建筑物的管理
CN110376195A (zh) * 2019-07-11 2019-10-25 中国人民解放军国防科技大学 一种爆炸物检测方法
CN110264468A (zh) * 2019-08-14 2019-09-20 长沙智能驾驶研究院有限公司 点云数据标注、分割模型确定、目标检测方法及相关设备
CN110264468B (zh) * 2019-08-14 2019-11-19 长沙智能驾驶研究院有限公司 点云数据标注、分割模型确定、目标检测方法及相关设备
CN112561071A (zh) * 2019-09-10 2021-03-26 苹果公司 根据3d语义网格的对象关系估计
CN113051986A (zh) * 2019-12-27 2021-06-29 财团法人工业技术研究院 基于2d图像标记信息的3d图像标记方法及3d图像标记装置
CN111383234B (zh) * 2020-03-04 2022-05-17 中国空气动力研究与发展中心超高速空气动力研究所 一种基于机器学习的结构光在线密集三维重建方法
CN111383234A (zh) * 2020-03-04 2020-07-07 中国空气动力研究与发展中心超高速空气动力研究所 一种基于机器学习的结构光在线密集三维重建方法
CN111915730B (zh) * 2020-07-20 2023-05-19 北京建筑大学 一种顾及语义从点云自动生成室内三维模型的方法及系统
CN111915730A (zh) * 2020-07-20 2020-11-10 北京建筑大学 一种顾及语义从点云自动生成室内三维模型的方法及系统
WO2022016407A1 (en) * 2020-07-22 2022-01-27 Intel Corporation Multi-plane mapping for indoor scene reconstruction
CN113239749A (zh) * 2021-04-27 2021-08-10 四川大学 一种基于多模态联合学习的跨域点云语义分割方法
CN113587935B (zh) * 2021-08-04 2023-12-01 燕山大学 一种基于射频信号多任务学习网络的室内场景理解方法
CN113587935A (zh) * 2021-08-04 2021-11-02 燕山大学 一种基于射频信号多任务学习网络的室内场景理解方法
CN115249261B (zh) * 2021-08-12 2023-05-12 达闼机器人股份有限公司 图像重力方向的获取方法、装置、电子设备及存储介质
CN115249261A (zh) * 2021-08-12 2022-10-28 达闼机器人股份有限公司 图像重力方向的获取方法、装置、电子设备及存储介质
CN113989376A (zh) * 2021-12-23 2022-01-28 贝壳技术有限公司 室内深度信息的获取方法、装置和可读存储介质
CN116399328A (zh) * 2023-04-17 2023-07-07 石家庄铁道大学 一种基于bim的室内移动机器人的地图构建与定位方法

Similar Documents

Publication Publication Date Title
CN106709481A (zh) 一种基于二维‑三维语义数据集的室内场景理解方法
Gruen et al. Automatic extraction of man-made objects from aerial and space images (II)
CA2382466C (en) Information converting system
WO2020192355A1 (zh) 一种城市观山可视域的测量方法及系统
CN103927511B (zh) 基于差异特征描述的图像识别方法
CN107689073A (zh) 图像集的生成方法、装置及图像识别模型训练方法、系统
Lu et al. Digital preservation for heritages: Technologies and applications
Li et al. Distribution of landscape architecture based on 3D images and virtual reality rationality study
CN106503170B (zh) 一种基于遮挡维度的图像库构建方法
CN114202622B (zh) 虚拟建筑生成方法、装置、设备及计算机可读存储介质
Yang et al. Semantic decomposition and recognition of indoor spaces with structural constraints for 3D indoor modelling
Gao et al. Large-scale synthetic urban dataset for aerial scene understanding
Jia et al. OccupancyDETR: Making semantic scene completion as straightforward as object detection
Huang et al. From bim to pointcloud: automatic generation of labeled indoor pointcloud
Chen et al. Ground material classification for UAV-based photogrammetric 3D data A 2D-3D Hybrid Approach
Jiang et al. Object-oriented building extraction by DSM and very highresolution orthoimages
Wolf et al. Applicability of neural networks for image classification on object detection in mobile mapping 3d point clouds
Iwaszczuk et al. Semantic labeling of structural elements in buildings by fusing RGB and depth images in an encoder-decoder CNN framework
Kovács et al. LidPose: Real-Time 3D Human Pose Estimation in Sparse Lidar Point Clouds with Non-Repetitive Circular Scanning Pattern
Gore et al. Photo-modeling for construction site space planning
CN108132979B (zh) 一种基于遥感图像的港口地物监测方法及系统
Zhang [Retracted] Key Technologies of Digital Protection of Historical and Cultural Heritage Based on Virtual Reality Technology
Liu et al. A survey on processing of large-scale 3D point cloud
Agnello et al. Integrated surveying and modeling techniques for the documentation and visualization of three ancient houses in the Mediterranean area
Mahmood et al. Learning indoor layouts from simple point-clouds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170524

WW01 Invention patent application withdrawn after publication