JP7162750B2 - 画像処理装置、画像処理方法、及び、プログラム - Google Patents

画像処理装置、画像処理方法、及び、プログラム Download PDF

Info

Publication number
JP7162750B2
JP7162750B2 JP2021545056A JP2021545056A JP7162750B2 JP 7162750 B2 JP7162750 B2 JP 7162750B2 JP 2021545056 A JP2021545056 A JP 2021545056A JP 2021545056 A JP2021545056 A JP 2021545056A JP 7162750 B2 JP7162750 B2 JP 7162750B2
Authority
JP
Japan
Prior art keywords
dimensional
pixel
image
captured image
position recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021545056A
Other languages
English (en)
Other versions
JPWO2021048985A1 (ja
Inventor
勉 堀川
大地 小野
博之 矢部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2021048985A1 publication Critical patent/JPWO2021048985A1/ja
Application granted granted Critical
Publication of JP7162750B2 publication Critical patent/JP7162750B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/579Depth or shape recovery from multiple images from motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/08Indexing scheme for image data processing or generation, in general involving all processing steps from image acquisition to 3D model generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。
入力画像に基づいて、自己位置推定と入力画像に表されたオブジェクトの3次元位置認識を同時に実行することで3次元マップ形成を行う技術(いわゆる、スラム(SLAM: Simultaneous Localization and Mapping))が知られている。
また、入力画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識し、当該種類を表すラベルを各ピクセルに付すオブジェクト種類認識技術(いわゆる、セマンティックセグメンテーション(Semantic segmentation))が知られている。当該オブジェクト種類認識は、学習データを用いて学習済である機械学習モデルを用いて行われる。
自己位置推定と入力画像に表されたオブジェクトの3次元位置認識を同時に実行することで3次元マップを形成する技術は、当該入力画像に表されたオブジェクトが静止していることを前提としている。そのため、入力画像に表されたオブジェクトに人物や動物等の動く(位置、姿勢、形状等が時間で変化する)オブジェクトが含まれている場合、3次元マップを正しく形成することができない。また、入力画像に表されたオブジェクトがコップ等の静止しているものであっても、3次元マップを形成後に当該コップを動かした場合、3次元マップを再度作成する必要がある。
本発明は、上記問題点に鑑みてなされたものであり、その目的は、入力画像に移動するオブジェクトが含まれる場合であっても、精度よく3次元マップを形成することができる画像処理装置、画像処理方法、及び、プログラムを提供することである。
上記課題を解決するために、本発明に係る画像処理装置は、2次元の撮像画像を順次取得する画像取得部と、順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する3次元マップ作成部と、を含み、前記3次元マップ作成部は、前記撮像画像の各ピクセルの3次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とする。
本発明の一態様では、前記3次元マップ作成部は、ピクセルに付されたラベルが、移動するオブジェクトの種類を示す場合に、該ピクセルの3次元位置認識を制限する、ことを特徴とする。
本発明の一態様では、前記3次元マップ作成部は、前記撮像画像の各ピクセルに付されたラベルに基づいて、前記撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの3次元位置認識を実行する、ことを特徴とする。
本発明の一態様では、前記3次元マップ作成部は、領域ごとの3次元位置認識結果を合成することで前記3次元マップを作成する、ことを特徴とする。
本発明の一態様では、前記撮像画像の撮像位置を視点として前記3次元マップをレンダリングすることにより2次元画像を作成するレンダリング部と、前記2次元画像に対して、前記撮像画像のピクセルのうち、3次元位置認識が制限されたピクセルを合成する合成部と、をさらに有することを特徴とする。
本発明の一態様では、前記3次元マップ作成部は、さらに、前記ラベルに応じて予め設定された重み係数を用いて、前記3次元位置認識を制限することを特徴とする。
本発明に係る画像処理方法は、2次元の撮像画像を順次取得する画像取得ステップと、順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する3次元マップ作成ステップと、を含み、前記3次元マップ作成ステップにおいて、前記撮像画像の各ピクセルの3次元位置認識は、該ピクセルに付されたラベルに応じて制限される、ことを特徴とする。
本発明に係るプログラムは、2次元の撮像画像を順次取得する画像取得手順と、順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する3次元マップ作成手順と、をコンピュータに実行させるプログラムであって、前記3次元マップ作成手順において、前記撮像画像の各ピクセルの3次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とする。
本発明の一実施形態に係る画像処理装置の構成図である。 本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。 本発明の一実施形態に係る画像処理装置で行われる画像処理の流れの一例を示す図である。
以下、本発明の一実施形態について図面に基づき詳細に説明する。図1は、本実施形態に係る画像処理装置10の構成図である。
本実施形態に係る画像処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。また、画像処理装置10は、デジタルカメラ等の撮像装置であってもよい。図1に示すように、本実施形態に係る画像処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
プロセッサ12は、例えば画像処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
なお、画像処理装置10は、ネットワークボードなどの通信インタフェース、DVD-ROMやBlu-ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
続いて、本実施形態に係る画像処理装置10の機能、及び、画像処理装置10で実行される処理についてさらに説明する。
図2に示すように、本実施形態に係る画像処理装置10には、機能的には例えば、画像取得部202、オブジェクト種類認識実行部204、3次元マップ作成部206、レンダリング部208、合成部210、が含まれる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。
画像取得部202は、2次元の撮像画像を順次取得する。具体的には、例えば、画像取得部202は、一般的なビデオカメラで撮影された動画像に含まれる各フレームの静止画像を順次取得する。ここで、静止画像は、例えば赤、緑、及び、青の各色の階調情報を含む2次元画像である。また、入力画像を撮影するビデオカメラは、時間に応じて位置及び方向が変化する。従って、画像取得部202は、時間によって連続的に視点及び画角が変化しながら撮影された2次元画像を取得する。
なお、画像取得部202は、撮像画像とともに深度情報を取得してもよい。具体的には、例えば、画像取得部202は、ビデオカメラのレンズ近傍に配置された測距センサから、各ピクセルに表されたオブジェクトとレンズの距離を、当該入力画像の各ピクセルに対応する深度情報として取得してもよい。また、例えば、2眼のビデオカメラが撮像した2枚の撮像画像に基づいて、画像取得部202は、赤、緑、及び、青の各色の階調情報とともに、各ピクセルの深度情報を含む2次元画像を取得してもよい。
オブジェクト種類認識実行部204は、順次取得された撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、例えば、オブジェクト種類認識実行部204は、畳み込みニューラルネットワーク(CNN)により実装された機械学習モデルである。オブジェクト種類認識実行部204は、画像取得部202が1フレームの入力画像を取得するたびに、入力画像に含まれる階調情報に基づいて、当該入力画像に対するセマンティックセグメンテーションを実行する。これにより、フレームごとに、取得された入力画像の各ピクセルに対して、該ピクセルにより表されたオブジェクトの種類を表すラベルが付される。ラベルは、例えば、人物を表す「human」、テーブルを表す「table」、ソファを表す「sofa」、コップを表す「cup」、床を表す「floor」、壁を表す「wall」等である。
3次元マップ作成部206は、順次取得された撮像画像に基づいて、撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する。具体的には、例えば、3次元マップ作成部206は、画像取得部202が順次取得した入力画像に基づいて、ビジュアルスラム(Visual SLAM)を実行する。3次元マップ作成部206は、カメラで撮影された2次元画像からカメラが撮影した環境の3次元情報とカメラの位置姿勢を同時に推定することができる。これにより、3次元マップ作成部206は、3次元マップを作成できる。
なお、3次元マップ作成部206は、GPS(図示なし)から取得した位置情報と、画像取得部202が取得した深度情報と、を用いて3次元位置認識を行うことで、3次元マップを作成してもよい。
ここで、3次元マップ作成部206は、撮像画像の各ピクセルの3次元位置認識を、該ピクセルに付されたラベルに応じて制限する。具体的には、3次元マップ作成部206は、ピクセルに付されたラベルが、移動するオブジェクトの種類を示す場合に、該ピクセルの3次元位置認識を制限する。例えば、1枚の撮像画像に含まれる各ピクセルに対して、人物を表す「human」、コップを表す「cup」、テレビを表す「TV」、テーブルを表す「table」、ソファを表す「sofa」、床を表す「floor」、または、壁を表す「wall」のいずれかが付されているとする。この場合、3次元マップ作成部206は、移動するオブジェクトの種類を示す「human」というラベルが付されたピクセルの3次元位置認識を制限する。すなわち、3次元マップ作成部206は、取得された撮像画像に含まれる複数のピクセルのうち、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて、3次元マップを作成する。これにより、実空間において、移動する対象である人物が存在する位置以外の位置と対応するボクセルによって構成される3次元マップが作成される。人物が存在する位置に対応するボクセルは、当該3次元マップに含まれない。
なお、上記において、移動するオブジェクトの種類が「human」のみである場合について説明したが、移動するオブジェクトの種類は、適宜設定されてよい。具体的には、例えば、コップは人物が頻繁に移動させる対象であるため、移動するオブジェクトの種類として、「human」及び「cup」が設定されてよい。また、例えば、床及び壁以外の対象はすべて移動させることができるため、移動するオブジェクトの種類として、「human」、「cup」、「TV」、「table」及び「sofa」が設定されてもよい。
また、3次元マップ作成部206は、撮像画像の各ピクセルに付されたラベルに基づいて、撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの3次元位置認識を実行してもよい。具体的には上記例では、3次元マップ作成部206は、撮像画像を「human」というラベルが付された領域と、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付された領域に分割する。そして、3次元マップ作成部206は、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて3次元位置認識を実行する。また、3次元マップ作成部206は、「human」というラベルが付されたピクセルのみを用いて3次元位置認識を実行する。そして、3次元マップ作成部206は、領域ごとの3次元位置認識結果を合成することで3次元マップを作成してもよい。これにより、人物が存在する位置に対応するボクセルを含む3次元マップを作成できる。
なお、3次元マップ作成部206は、人物が動かない状況下でのみ、領域ごとの3次元位置認識結果を合成することで3次元マップを作成することができる。そのため、人物が動いた時点で、3次元マップ作成部206は、領域ごとの3次元位置認識結果の合成を停止し、移動するオブジェクトの種類を示すラベル以外のラベルが付されたピクセルのみを用いて、3次元マップを作成する。そして、人物の動きが停止した時点で、移動するオブジェクトの種類を示すラベルが付されたピクセルに対する3次元位置認識を再開し、再び領域ごとの3次元位置認識結果が合成された3次元マップを作成することができる。
レンダリング部208は、撮像画像の撮像位置を視点として3次元マップをレンダリングすることにより2次元画像を作成する。具体的には、例えば、画像取得部202は、2次元の撮像画像をフレームごとに順次取得する。このとき、ビデオカメラ等の撮像装置は時間とともに移動するため、撮像時の視点はフレームごとに変化する。レンダリング部208は、現フレームにおける撮像画像の撮像位置を視点として、3次元マップに対してレンダリングを行う。
合成部210は、レンダリング部208の作成した2次元画像に対して、撮像画像のピクセルのうち、3次元位置認識が制限されたピクセルを合成する。具体的には、上記例のように、レンダリング部208は、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて作成された3次元マップに対して、現フレームにおける撮像画像の撮像位置を視点として、2次元画像を作成したとする。当該3次元マップには、「human」というラベルが付されたピクセルと対応するボクセルが含まれないため、作成された2次元画像は、人物が表された領域に階調情報を含まない。一方、画像取得部202が取得した撮像画像の全てのピクセルは階調情報を含む。そのため、撮像画像のピクセルのうち、人物を表すピクセルは階調情報を含む。合成部210は、人物が表された領域に階調情報を含まない2次元画像に対して、現フレームの撮像画像のピクセルのうち、人物を表すラベルが付されたピクセルの階調情報を合成する。これにより、精度よく3次元マップを作成しつつ、3次元マップから作成された2次元画像と、3次元位置認識が制限されたために、3次元マップに存在しない移動するオブジェクトと、を重ねて表示することができる。
なお、3次元マップ作成部206が撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの3次元位置認識を実行する場合には、3次元マップからレンダリングによって作成された2次元画像は、移動するオブジェクトの種類を示すラベルが付与されたオブジェクトと、それ以外のラベルが付与されたオブジェクトと、どちらのオブジェクトも含む。この場合、画像処理装置10は、合成部210を含まない構成であってもよい。
以上の機能は、コンピュータである画像処理装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置10に供給されてもよい。
本実施形態では例えば、一般的なビデオカメラで撮影される2次元画像に基づいて、3次元マップが作成される。以下、3次元マップの作成方法について図3を参照しながら説明する。
まず、画像取得部202によってフレームごとに順次取得された2次元の入力画像は、オブジェクト種類認識実行部204に入力される。具体的には、例えば、2眼のビデオカメラによって撮影された2次元の入力画像は、フレームごとに順次オブジェクト認識実行部に入力される。ここで、例えば、入力画像の各ピクセルは、赤、緑及び青を表す階調情報と、ビデオカメラからの距離を表す深度情報と、を含む。
オブジェクト種類認識実行部204は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、オブジェクト種類認識実行部204は、入力された2次元の入力画像の各ピクセルの階調情報に基づいて、該ピクセルにより表されたオブジェクトの種類を判定する。そして、オブジェクト種類認識実行部204は、入力画像の各ピクセルに対して、判定されたオブジェクトの種類を表すラベルを付す。例えば、オブジェクト種類認識実行部204は、あるピクセルが表すオブジェクトが人物であると判定した場合、当該ピクセルに対して「human」というラベルを付す。また、例えば、オブジェクト種類認識実行部204は、あるピクセルが表すオブジェクトが壁面であると判定した場合、当該ピクセルに対して「wall」というラベルを付す。従って、オブジェクト種類認識実行部204が出力した画像の各ピクセルは、階調情報及び深度情報に加えて、ラベルを表す情報を含む。
次に、出力された画像は、フレームごとに順次3次元マップ作成部206に入力され、3次元マップが作成される。具体的には、上記のように、各ピクセルが階調情報、深度情報、及び、ラベルを表す情報を含む2次元の画像は、3次元マップ作成部206に入力される。3次元マップ作成部206は、順次入力された入力画像の階調情報及び深度情報に基づいて、入力画像に表されたオブジェクトの3次元位置認識を実行して3次元マップを作成する。
ここで、3次元マップ作成部206は、撮像画像の各ピクセルの3次元位置認識を、該ピクセルに付されたラベルに応じて制限する。図3の例では、3次元マップ作成部206は、制限の対象となるラベルとして、「human」というラベルを取得する。そして、3次元マップ作成部206は、各ラベルが付された画像を、「human」というラベルが付された領域と、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付された領域と、に分割する(図3の3次元マップ作成部206の下側参照)。そして、3次元マップ作成部206は、「cup」、「TV」、「table」、「sofa」、「floor」、及び、「wall」というラベルが付されたピクセルのみを用いて3次元位置認識を実行する。
静止しているオブジェクトについてのみスラムを実行することにより、3次元マップ作成部206は、入力画像に移動するオブジェクトが含まれる場合であっても、精度よく3次元マップを形成することができる。また、時間が経過するごとに、入力画像中の移動するオブジェクトが位置を変更するとともに、画像取得部202が異なる視点で撮像された入力画像を取得する。これにより、3次元マップ作成部206は、図3の3次元マップにおいて、移動するオブジェクトの奥にあったために欠けてしまった領域のボクセルを含む3次元マップを作成できる。
上記のように作成された3次元マップは、例えば、拡張現実(AR:Augmented Reality)技術に適用することができる。テーブル、テレビ、ソファ等が配置された部屋の内部の3次元マップを作成した場合、ユーザは、現実世界の部屋にいながら、現実世界の部屋が反映された仮想空間を体験できる。この時、撮影のために部屋から人物を退去させたり、コップなどの小物や動く物体を片づけたりする必要がなく、ユーザはより手軽に高精度な3次元マップを作成することができる。
なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。
例えば、3次元マップ作成部206は、さらに、ラベルに応じて予め設定された重み係数を用いて、3次元位置認識を制限してもよい。具体的には、nフレーム目の入力画像が入力されたときに、3次元マップ作成部206は、n-1フレームで作成された3次元マップと、nフレーム目の入力画像と、からそれぞれ特徴点を抽出する。3次元マップ作成部206は、当該特徴点の誤差の総和が最小となるように、入力画像の位置認識を行う。
ここで、3次元マップ作成部206は、特徴点ごとに、当該特徴点の誤差に対して重み付け係数を乗算してもよい。乗算される重み付け係数は、特徴点が現れたピクセルに付されたラベルに対して予め設定される。
予め設定される重みづけ係数は、ラベルが示すオブジェクトの種類が移動しやすいほど小さい値が設定される。具体的には、例えば、「floor」及び「wall」というラベルに対して、「1.0」という重み係数が設定される。「table」、「TV」及び「sofa」というラベルに対して、「0.5」という重み係数が設定される。「cup」というラベルに対して、「0.1」という重み係数が設定される。「human」というラベルに対して、「0.0」という重み係数が設定される。
この場合、「0.0」という重み係数が乗算される特徴点の誤差は「0.0」であるため、3次元マップ作成部206が位置認識する際に、当該特徴点の誤差は計算対象から除外される。「0.1」、「0.5」及び「1.0」という重み係数が乗算される特徴点の誤差は、当該係数に応じて誤差の総和に対する影響の大きさが異なる。これにより、オブジェクトの移動する可能性の高さに応じて、特徴点ごとに3次元位置認識に与える影響の大きさを変化させることができる。
上記重み付け係数は、撮影環境や使用用途に応じて、適宜設定される。従って、移動する可能性は低いがゼロではないオブジェクト(上記例では「table」、「TV」及び「sofa」が表すオブジェクト)が3次元位置認識の精度に与える悪影響を軽減することができる。一方、移動する可能性が高いオブジェクト(上記例では「cup」が表すオブジェクト)も必要に応じて特徴点として利用することが可能となる。

Claims (7)

  1. 2次元の撮像画像を順次取得する画像取得部と、
    順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、
    順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する3次元マップ作成部と、
    前記撮像画像の撮像位置を視点として前記3次元マップをレンダリングすることにより2次元画像を作成するレンダリング部と、
    前記2次元画像に対して、前記撮像画像のピクセルのうち、3次元位置認識が制限されたピクセルを合成する合成部と、
    を含み、
    前記3次元マップ作成部は、前記撮像画像の各ピクセルの3次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とする画像処理装置。
  2. 前記3次元マップ作成部は、ピクセルに付されたラベルが、移動するオブジェクトの種類を示す場合に、該ピクセルの3次元位置認識を制限する、ことを特徴とする請求項1に記載の画像処理装置。
  3. 前記3次元マップ作成部は、前記撮像画像の各ピクセルに付されたラベルに基づいて、前記撮像画像を複数の領域に分割し、領域ごとに該領域に含まれるピクセルの3次元位置認識を実行する、ことを特徴とする請求項1または2に記載の画像処理装置。
  4. 前記3次元マップ作成部は、領域ごとの3次元位置認識結果を合成することで前記3次元マップを作成する、ことを特徴とする請求項3に記載の画像処理装置。
  5. 前記3次元マップ作成部は、さらに、前記ラベルに応じて予め設定された重み係数を用いて、前記3次元位置認識を制限することを特徴とする請求項1に記載の画像処理装置。
  6. 2次元の撮像画像を順次取得する画像取得ステップと、
    順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、
    順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する3次元マップ作成ステップと、
    前記撮像画像の撮像位置を視点として前記3次元マップをレンダリングすることにより2次元画像を作成するレンダリングステップと、
    前記2次元画像に対して、前記撮像画像のピクセルのうち、3次元位置認識が制限されたピクセルを合成する合成ステップと、
    を含み、
    前記3次元マップ作成ステップにおいて、前記撮像画像の各ピクセルの3次元位置認識は、該ピクセルに付されたラベルに応じて制限される、ことを特徴とする画像処理方法。
  7. 2次元の撮像画像を順次取得する画像取得手順と、
    順次取得された前記撮像画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、
    順次取得された前記撮像画像に基づいて、前記撮像画像の各ピクセルの3次元位置認識を実行して3次元マップを作成する3次元マップ作成手順と、
    前記撮像画像の撮像位置を視点として前記3次元マップをレンダリングすることにより2次元画像を作成するレンダリング手順と、
    前記2次元画像に対して、前記撮像画像のピクセルのうち、3次元位置認識が制限されたピクセルを合成する合成手順と、
    をコンピュータに実行させるプログラムであって、
    前記3次元マップ作成手順において、前記撮像画像の各ピクセルの3次元位置認識を、該ピクセルに付されたラベルに応じて制限する、ことを特徴とするプログラム。
JP2021545056A 2019-09-12 2019-09-12 画像処理装置、画像処理方法、及び、プログラム Active JP7162750B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/035972 WO2021048985A1 (ja) 2019-09-12 2019-09-12 画像処理装置、画像処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021048985A1 JPWO2021048985A1 (ja) 2021-03-18
JP7162750B2 true JP7162750B2 (ja) 2022-10-28

Family

ID=74866314

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021545056A Active JP7162750B2 (ja) 2019-09-12 2019-09-12 画像処理装置、画像処理方法、及び、プログラム

Country Status (2)

Country Link
JP (1) JP7162750B2 (ja)
WO (1) WO2021048985A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7254222B1 (ja) 2022-01-20 2023-04-07 三菱電機エンジニアリング株式会社 環境地図生成装置、環境地図生成方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111283A1 (ja) 2014-01-23 2015-07-30 ソニー株式会社 画像表示装置及び画像表示方法
JP2019028861A (ja) 2017-08-02 2019-02-21 ソニー株式会社 信号処理装置、および信号処理方法、プログラム、並びに移動体
JP2019134428A (ja) 2019-02-13 2019-08-08 キヤノン株式会社 制御装置、制御方法、及び、プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778406B2 (ja) * 1991-03-11 1995-08-23 工業技術院長 多視点距離データの統合方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015111283A1 (ja) 2014-01-23 2015-07-30 ソニー株式会社 画像表示装置及び画像表示方法
JP2019028861A (ja) 2017-08-02 2019-02-21 ソニー株式会社 信号処理装置、および信号処理方法、プログラム、並びに移動体
JP2019134428A (ja) 2019-02-13 2019-08-08 キヤノン株式会社 制御装置、制御方法、及び、プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TATENO, Keisuke et al.,CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction,[online],2017年,https://arxiv.org/pdf/1704.03489.pdf

Also Published As

Publication number Publication date
JPWO2021048985A1 (ja) 2021-03-18
WO2021048985A1 (ja) 2021-03-18
US20220335681A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
US10102639B2 (en) Building a three-dimensional composite scene
Kadambi et al. 3d depth cameras in vision: Benefits and limitations of the hardware: With an emphasis on the first-and second-generation kinect models
Zollmann et al. Image-based ghostings for single layer occlusions in augmented reality
US8401225B2 (en) Moving object segmentation using depth images
JP2020526818A (ja) 畳み込み画像変換を使用して同時位置特定およびマッピングを実施する方法およびシステム
Shen et al. Virtual mirror rendering with stationary rgb-d cameras and stored 3-d background
US20200320727A1 (en) Method and apparatus for generating a three-dimensional model
CN110998659A (zh) 图像处理系统、图像处理方法、及程序
Rambach et al. [poster] augmented things: Enhancing ar applications leveraging the internet of things and universal 3d object tracking
JP2011095797A (ja) 画像処理装置、画像処理方法及びプログラム
CN110832542B (zh) 识别处理设备、识别处理方法和程序
JP7499280B2 (ja) 人物の単眼深度推定のための方法およびシステム
US11403781B2 (en) Methods and systems for intra-capture camera calibration
US9208606B2 (en) System, method, and computer program product for extruding a model through a two-dimensional scene
JP7162750B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
US11275434B2 (en) Information processing apparatus, information processing method, and storage medium
JP7178499B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
Zhang et al. Setforge-synthetic RGB-D training data generation to support CNN-based pose estimation for augmented reality
US12014459B2 (en) Image processing device, image processing method, and program for forming an accurate three-dimensional map
US11315334B1 (en) Display apparatuses and methods incorporating image masking
JP7479978B2 (ja) 内視映像表示システム、内視映像表示装置及び内視映像表示方法
Penk et al. DeNos22: A Pipeline to Learn Object Tracking Using Simulated Depth.
Jiddi Photometric registration of indoor real scenes using an RGB-D camera with application to mixed reality
Yang et al. Sparse Color-Code Net: Real-Time RGB-Based 6D Object Pose Estimation on Edge Devices
Alldieck et al. Reconstructing 3D Human Avatars from Monocular Images

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220916

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221011

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221018

R150 Certificate of patent or registration of utility model

Ref document number: 7162750

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150