JP2019159910A - 三次元画像分類装置および三次元画像分類方法 - Google Patents
三次元画像分類装置および三次元画像分類方法 Download PDFInfo
- Publication number
- JP2019159910A JP2019159910A JP2018046791A JP2018046791A JP2019159910A JP 2019159910 A JP2019159910 A JP 2019159910A JP 2018046791 A JP2018046791 A JP 2018046791A JP 2018046791 A JP2018046791 A JP 2018046791A JP 2019159910 A JP2019159910 A JP 2019159910A
- Authority
- JP
- Japan
- Prior art keywords
- dimensional
- scene
- image
- maps
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 abstract description 10
- 238000013135 deep learning Methods 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明による3Dシーン分類の流れを図1に示す。まず、3Dシーンの位置と大きさを正規化し、ボクセル表現を生成する。ボクセル表現とは、三次元の格子(すなわち、ボクセル)に値を設定することで、三次元形状を立方体の集合で表現したものである。本発明では物体の有無を0か1の値で表現したバイナリボクセルで形状を表現する。次にボクセル表現に変換した3Dシーンを、ユークリッド空間x軸,y軸,z軸それぞれを奥行きとした投影平面から、ボクセル群の奥行きの密度を反映したマップを生成する。その後、各マップを一つの画像にまとめることで3Dシーンの画像化を行う。これらの処理によって生成された画像を入力として畳み込みニューラルネットワーク(以下、CNNと略語を使うことがある。)で学習し、学習されたモデルを分類器とすることで3Dシーンの分類を行う。
本発明では最初にボクセル化の前処理として、3Dシーンの位置と大きさを正規化する。重心が原点となるように3Dシーンを平行移動することで位置を正規化する。(処理L1, T1)
3Dシーンの大きさの正規化は、原点から最も離れた頂点への距離を求め、求めた値で3Dシーンの各頂点座標の値を除算することで行う。(処理L2, T2)
正規化した3Dシーンからバイナリボクセル表現に変換する。まず3Dシーンを構成する三次元モデルの(空間の3角形の)面上にランダムな点をm個の点群として生成する。この際、三次元モデルの面上に一様に分布する点の座標pは、頂点と接続性により構成される3角形の頂点座標a,b,cから数1の式で求める。
バイナリボクセル表現に変換した3Dシーンから、3Dシーンの判定を行う手助けとなる画像を生成する。本発明では、まずユークリッド空間x軸,y軸,z軸それぞれを奥行きとした投影平面(図3)から、ボクセル群の奥行きの密度を表現したマップを生成する(図4)。わかりやすさのため、図3と図4ではボクセル表現の大きさを4×4×4としている。ボクセル表現の大きさをN×N×Nとし、ボクセル群に含まれる各ボクセルをν(x,y,z)(ただしx,y,zはN以下の正整数)、x軸を奥行きとした面をYZ、y軸を奥行きとした面をXZ、z軸を奥行きとした面をXYとすると、それぞれの投影平面から生成されるマップMは、
本発明では、畳み込み層を多く含む多層のニューラルネットワークを適用して学習を行う。実施例ではResNet50(K. He, X. Zhang, S. Ren and J. Sun .: Deep Residual Learning for Image Recognition. in CVPR, 2016.を参照)のネットワーク構造を利用している。ニューラルネットワークのハイパーパラメータとして、最適化アルゴリズムに「Adam」(Diederik Kingma; Jimmy Ba (2015). “Adam: A Method for Stochastic Optimization”. Proceedings of the 3rd International Conference for Learning Representations, San Diego.を参照)を採用し、学習率を0.01とする。訓練時の損失関数は以下のクロスエントロピーを適用する。
処理L6によって生成した学習済みネットワークを分類器として扱い、3Dシーンの分類を行う。未知の3Dシーンを本発明による手法で画像化し、学習済みネットワークに入力(処理T5)することで、入力した3Dシーンの各カテゴリの所属確率を計算し出力する(処理T6)。次に、出力した各カテゴリの所属確率の中で最も値の大きいカテゴリのものを、入力データの予測カテゴリとする。各カテゴリの所属確率の中で同値が存在する場合、アルファベット順で先にくるカテゴリのものを予測カテゴリとし、分類を行う(処理T7)。
本実施例では6クラスの分類問題とする。プリンストン大学から公開された屋内の3Dシーンデータである、SUNCGデータセット(http://suncg.cs.princeton.edu/を参照)で公開されている家の3Dシーンを部屋ごとに分割し、その中からデータ数が多い6種(浴室、寝室、ダイニング、キッチン、居間、オフィス)を各6,400個取り出し、訓練データ4,600個、テストデータ1,800個に分けたものを実施例データセットとして使用する。そのため、訓練データ総数は27,600個、テストデータの総数は10,800個となる。また、3Dシーンの分割の際にノイズ除去として、人や猫といった生物のオブジェクト除去、床や机といった要素が10個以下のシーン除去を行った。
比較実験の結果を表1に示す。同表は各手法の6カテゴリのF値と、F値の平均をまとめたものであり、カテゴリで最も大きな値を太字で表している。本発明が全てのカテゴリにおいて比較した従来手法を上回る値となった。また、VoxNetは3Dシーンの学習ができず、どのクラスの入力であっても1種類のクラスを返す結果となっている。
Claims (4)
- 複数の三次元物体情報を含む画像を入力として三次元情景を分類する三次元画像分類装置であって、
三次元情景を三次元格子の集合で表す手段と、
三次元格子集合で表される三次元情景の複数の投影面から該三次元格子集合の奥行密度を求めて複数のマップを作成する手段と、
複数のマップから合成される学習用の画像を生成する手段と、
該画像を学習しかつ判定するニューラルネットワークと、を備え、
当該ニューラルネットワークによって空間情報の畳み込み処理を行うことを特徴とする三次元画像分類装置。 - 前記複数のマップは、三次元情景を三方向の投影平面から作成される三つのマップであり、前記学習用の画像は、前記三つのマップをR,G,Bとするカラー画像であることを特徴とする請求項1に記載の三次元画像分類装置。
- 複数の三次元物体情報を含む画像を入力として三次元情景を分類する三次元画像分類方法であって、
三次元情景を三次元格子の集合で表す工程と、
三次元格子集合で表される三次元情景の複数の投影面から該三次元格子集合の奥行密度を求めて複数のマップを作成する工程と、
複数のマップから合成される学習用の画像を生成する工程と、
ニューラルネットワークによって空間情報の畳み込み処理を行う工程と、
を含むことを特徴とする三次元画像分類方法。 - 前記複数のマップは、三次元情景を三方向の投影平面から作成される三つのマップであり、前記学習用の画像は、前記三つのマップをR,G,Bとするカラー画像であることを特徴とする請求項3に記載の三次元画像分類方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046791A JP2019159910A (ja) | 2018-03-14 | 2018-03-14 | 三次元画像分類装置および三次元画像分類方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046791A JP2019159910A (ja) | 2018-03-14 | 2018-03-14 | 三次元画像分類装置および三次元画像分類方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019159910A true JP2019159910A (ja) | 2019-09-19 |
Family
ID=67993466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018046791A Pending JP2019159910A (ja) | 2018-03-14 | 2018-03-14 | 三次元画像分類装置および三次元画像分類方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019159910A (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091996A1 (en) * | 2015-09-25 | 2017-03-30 | Magic Leap, Inc. | Methods and Systems for Detecting and Combining Structural Features in 3D Reconstruction |
JP2017157138A (ja) * | 2016-03-04 | 2017-09-07 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
-
2018
- 2018-03-14 JP JP2018046791A patent/JP2019159910A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091996A1 (en) * | 2015-09-25 | 2017-03-30 | Magic Leap, Inc. | Methods and Systems for Detecting and Combining Structural Features in 3D Reconstruction |
JP2017157138A (ja) * | 2016-03-04 | 2017-09-07 | キヤノン株式会社 | 画像認識装置、画像認識方法及びプログラム |
Non-Patent Citations (2)
Title |
---|
ROBERT OSADA ET AL.: "Shape Distributions", ACM TRANSACTIONS ON GRAPHICS, vol. 21, no. 4, JPN7022004467, October 2002 (2002-10-01), US, pages 807 - 832, XP058185457, ISSN: 0005013761, DOI: 10.1145/571647.571648 * |
濱田 和真: "ボクセル群の奥行き密度を反映した画像による屋内3Dシーン分類", 電子情報通信学会技術研究報告, vol. 117, no. 514, JPN6022008823, 11 March 2018 (2018-03-11), JP, pages 189 - 194, ISSN: 0005013760 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Image-based 3D object reconstruction: State-of-the-art and trends in the deep learning era | |
WO2021232687A1 (zh) | 一种基于深度学习的点云上采样方法 | |
CN112529015B (zh) | 一种基于几何解缠的三维点云处理方法、装置及设备 | |
CN110060255A (zh) | 利用逐像素分类器来对2d平面图进行语义分割 | |
CN110033513A (zh) | 生成表示建筑的3d模型 | |
CN111753698A (zh) | 一种多模态三维点云分割系统和方法 | |
CN115995039A (zh) | 用于全向地点识别的提升语义图嵌入 | |
Guo et al. | Using multi-scale and hierarchical deep convolutional features for 3D semantic classification of TLS point clouds | |
Zhao et al. | DAR-Net: Dynamic aggregation network for semantic scene segmentation | |
CN113345106A (zh) | 一种基于多尺度多层级转换器的三维点云分析方法及系统 | |
CN112242002B (zh) | 基于深度学习的物体识别和全景漫游方法 | |
Ahmad et al. | 3D capsule networks for object classification from 3D model data | |
CN117581232A (zh) | 基于NeRF的机器学习模型的加速训练 | |
Zhang et al. | Multiresolution attention extractor for small object detection | |
CN115222896A (zh) | 三维重建方法、装置、电子设备及计算机可读存储介质 | |
Xu et al. | 3D Scene interpretation by combining probability theory and logic: The tower of knowledge | |
CN108986210B (zh) | 三维场景重建的方法和设备 | |
CN110516751A (zh) | 三维数据的处理方法、系统及设备 | |
CN117765258A (zh) | 基于密度自适应和注意力机制的大规模点云语义分割方法 | |
CN117456104A (zh) | 一种基于结构功能分析的室内场景三维建模方法与系统 | |
Kwadjo et al. | From PC2BIM: Automatic Model generation from Indoor Point Cloud | |
CN116486030A (zh) | 基于地表图像的三维地质体模型的建模方法和相关装置 | |
Zhongyang et al. | Classification of LiDAR point cloud based on multiscale features and pointnet | |
JP2019159910A (ja) | 三次元画像分類装置および三次元画像分類方法 | |
Caglayan et al. | 3D convolutional object recognition using volumetric representations of depth data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220308 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220509 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230315 |