JP7178499B2 - 画像処理装置、画像処理方法、及び、プログラム - Google Patents

画像処理装置、画像処理方法、及び、プログラム Download PDF

Info

Publication number
JP7178499B2
JP7178499B2 JP2021532559A JP2021532559A JP7178499B2 JP 7178499 B2 JP7178499 B2 JP 7178499B2 JP 2021532559 A JP2021532559 A JP 2021532559A JP 2021532559 A JP2021532559 A JP 2021532559A JP 7178499 B2 JP7178499 B2 JP 7178499B2
Authority
JP
Japan
Prior art keywords
label
frame
labeling
voxel
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021532559A
Other languages
English (en)
Other versions
JPWO2021009798A1 (ja
Inventor
勉 堀川
大地 小野
博之 矢部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JPWO2021009798A1 publication Critical patent/JPWO2021009798A1/ja
Application granted granted Critical
Publication of JP7178499B2 publication Critical patent/JP7178499B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19127Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

特許法第30条第2項適用 開催日 平成30年12月4日~平成30年12月7日 集会名、開催場所 シーグラフアジア2018カンファレンス仮想現実/拡張現実 アーティクルNo.17(SIGGRAPH Asia 2018 Virtual&Augmented Reality Article No.17)東京国際フォーラム(東京都千代田区丸の内3丁目5番1号) 展示日 平成30年12月4日~平成30年12月7日 展示会名 シーグラフアジア2018 展示会 掲載年月日 平成30年12月4日 掲載アドレス https://dl.acm.org/doi/10.1145/3275495.3275498 https://sa2018.siggraph.org/en/attendees/virtual-augmented-reality-vr-ar/session_slot/1079.htm
本発明は、画像処理装置、画像処理方法、及び、プログラムに関する。
入力画像の各ピクセルに対して、該ピクセルに表された人物、道路、空等のオブジェクトの種類を認識し、当該種類を表すラベルを各ピクセルに付すオブジェクト種類認識技術(いわゆる、セマンティックセグメンテーション(Semantic segmentation))が知られている。当該オブジェクト種類認識技術は、学習データを用いて学習済である機械学習モデルを用いて行われる。
また、入力画像に基づいて、自己位置推定と入力画像に表された被写体の3次元位置認識を同時に実行することで3次元マップ形成を行う技術(いわゆる、スラム(SLAM: Simultaneous Localization and Mapping))が知られている。
3次元マップは、ボクセルによって構成される。当該ボクセルに表されたオブジェクトの種類を認識するために3次元マップに対してオブジェクト認識技術を適用すると、画像処理装置に過大な負荷がかかり、長い処理時間を要する。
また、3次元マップに対してオブジェクト認識技術を適用するためには、3次元マップに対してオブジェクト認識技術を実行する学習済の機械学習モデルが必要である。さらに、当該機械学習モデルに対して機械学習を行うためには、予めボクセル毎にオブジェクトの種類を表すラベルが付された3次元マップの学習データが必要である。2次元画像である学習データを収集することと比較して、3次元マップの学習データを収集することは困難であり、コストもかかる。
本発明は、上記問題点に鑑みてなされたものであり、その目的は、3次元マップの学習データを収集することが不要であって、かつ、負荷が少なく高速な処理が可能である、3次元マップのオブジェクト認識のための画像処理装置、画像処理方法、及び、プログラムを提供することである。
本発明の一側面に係る画像処理装置は、2次元の入力画像をフレームごとに順次取得する画像取得部と、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与部と、を含むことを特徴とする。
また、本発明の他の一側面に係る画像処理装置によれば、前記ラベル付与部は、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付すことを特徴とする。
また、本発明の他の一側面に係る画像処理装置によれば、前記ラベル付与部は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントし、前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントし、カウントが0である場合に、現フレームで判定されたラベルを付し、カウントが0でない場合に、前フレームに付されたラベルを維持する、ことを特徴とする。
また、本発明の他の一側面に係る画像処理装置によれば、前記ボクセルごとに、複数のフレームにおいて判定されたラベルを記憶する記憶部を有し、前記ラベル付与部は、前記複数のフレームにおいて、最も多く判定された種類のラベルを前記ボクセルに付す、ことを特徴とする。
また、本発明の他の一側面に係る画像処理装置によれば、前記オブジェクト種類認識実行部と前記ラベル付与部は、取得された前記各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することを特徴とする。
また、本発明の一側面に係る画像処理方法は、2次元の入力画像をフレームごとに順次取得する画像取得ステップと、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与ステップと、を含むことを特徴とする。
また、本発明の一側面に係るプログラムは、2次元の入力画像をフレームごとに順次取得する画像取得手順と、フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与手順と、をコンピュータに実行させることを特徴とする。
本発明の一実施形態に係る画像処理装置の構成を示す図である。 本発明の一実施形態に係る画像処理装置で実装される機能の一例を示す機能ブロック図である。 画像処理装置で行われる画像処理方法の一例を表す図である。 ラベルの判定方法の一例を表すフロー図である。
以下、本発明の一実施形態である第1実施形態について図面に基づき詳細 に説明する。なお、以下の説明では、オブジェクト種類認識技術の一例としてセマンティックセグメンテーション技術、3次元マップ形成技術の一例としてスラム技術が適用される場合について説明する。
図1は、本実施形態に係る画像処理装置10の構成図である。本実施形態に係る画像処理装置10は、例えば、ゲームコンソールやパーソナルコンピュータなどのコンピュータである。図1に示すように、本実施形態に係る画像処理装置10は、例えば、プロセッサ12、記憶部14、操作部16、表示部18を含んでいる。
プロセッサ12は、例えば画像処理装置10にインストールされるプログラムに従って動作するCPU等のプログラム制御デバイスである。
記憶部14は、ROMやRAM等の記憶素子やハードディスクドライブなどである。記憶部14には、プロセッサ12によって実行されるプログラムなどが記憶される。
操作部16は、キーボード、マウス、ゲームコンソールのコントローラ等のユーザインタフェースであって、ユーザの操作入力を受け付けて、その内容を示す信号をプロセッサ12に出力する。
表示部18は、液晶ディスプレイ等の表示デバイスであって、プロセッサ12の指示に従って各種の画像を表示する。
なお、画像処理装置10は、ネットワークボードなどの通信インタフェース、DVD-ROMやBlu-ray(登録商標)ディスクなどの光ディスクを読み取る光ディスクドライブ、USB(Universal Serial Bus)ポートなどを含んでいてもよい。
本実施形態に係る画像処理装置10には学習済の機械学習モデルが実装される。そして当該機械学習モデルを用いて、各ボクセルに対して、ボクセルと対応するピクセルのラベルが付された3次元マップが生成される。
以下、本実施形態に係る画像処理装置10の機能、及び、画像処理装置10で実行される処理についてさらに説明する。
図2は、本実施形態に係る画像処理装置10で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係る画像処理装置10で、図2に示す機能のすべてが実装される必要はなく、また、図2に示す機能以外の機能が実装されていても構わない。
図2に示すように、本実施形態に係る画像処理装置10には、機能的には例えば、画像取得部202、深度情報取得部204、オブジェクト種類認識実行部206、ラベル付与部208、カウント記憶部210、が含まれる。以上の要素はプロセッサ12、及び、記憶部14を主として実装される。本実施形態に係る画像処理装置10は、各ピクセルにより表されたオブジェクトの種類を表すラベルが当該ピクセルに付された2次元画像を学習データとして、学習が実行済である機械学習モデルである。
画像取得部202は、2次元の入力画像をフレームごとに順次取得する。具体的には、例えば、画像取得部202は、一般的なビデオカメラで撮影された動画像に含まれる各フレームの静止画像を順次取得する。ここで、静止画像は、例えば赤、緑、及び、青の各色の階調情報を含む2次元画像である。また、入力画像を撮影するビデオカメラは、時間に応じて位置及び方向が変化する。従って、画像取得部202は、時間によって連続的に視点及び画角が変化しながら撮影された2次元画像を取得する。
深度情報取得部204は、画像取得部202が取得する入力画像のピクセル毎に対応する深度情報を取得する。具体的には、例えば、深度情報取得部204は、ビデオカメラのレンズ近傍に配置された測距センサである。深度情報取得部204は、画像取得部202が1フレームの入力画像を取得するごとに、各ピクセルに表されたオブジェクトとレンズの距離を測定することで、当該入力画像の各ピクセルに対応する深度情報を取得する。
なお、画像取得部202と深度情報取得部204は一体的に構成されてもよい。具体的には、例えば、2眼のビデオカメラを用いて入力画像が取得される場合、画像取得部202と深度情報取得部204は、赤、緑、及び、青の各色の階調情報とともに、各ピクセルの深度情報を含む2次元画像を取得できる。
オブジェクト種類認識実行部206は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、例えば、オブジェクト種類認識実行部206は、畳み込みニューラルネットワーク(CNN)により実装された機械学習モデルである。オブジェクト種類認識実行部206は、画像取得部202が1フレームの入力画像を取得するたびに、入力画像に含まれる階調情報に基づいて、当該入力画像に対するセマンティックセグメンテーションを実行する。これにより、フレームごとに、取得された入力画像の各ピクセルに対して、該ピクセルにより表されたオブジェクトの種類を表すラベルが付される。
ラベル付与部208は、順次入力された入力画像に基づいて、入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成し、3次元マップに含まれる各ボクセルに対して、ボクセルと対応するピクセルのラベルを付す。具体的には、ラベル付与部208は、画像取得部202が順次取得した入力画像と、深度情報取得部204が順次取得した深度情報と、に基づいて、スラムを実行する。ラベル付与部208がスラムを実行する際、GPS(図示なし)から取得した位置情報を用いて3次元位置認識を行ってもよい。
ここで、ラベル付与部208は、2次元画像に含まれる各ピクセルと、3次元マップに含まれるボクセルとを対応づけることによって、2次元画像に含まれる各ピクセルから3次元マップを作成する。また、2次元画像から3次元マップが構成される際に、ラベル付与部208には各ピクセルにラベルが付された2次元画像が入力されている。従って、ラベル付与部208は、3次元マップを作成する際に、3次元マップに含まれる各ボクセルに対して、ボクセルと対応するピクセルのラベルを付すことができる。
ラベル付与部208は、複数のフレームにおいて判定されたラベルの種類に基づいて、ボクセルにラベルを付す。具体的には、例えば、ラベル付与部208は、複数のフレームにおいて、最も多く判定された種類のラベルをボクセルに付す。また、後述するように、ラベル付与部208は、カウントを用いて判定されたラベルをボクセルに付してもよい。
なお、オブジェクト種類認識実行部206とラベル付与部208は、取得された各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することが好ましい。本実施形態によれば、上記のように、3次元マップを構成する際に、同時にラベルを付すことができるため、プロセッサに係る負荷を軽減できる。従って、オブジェクト種類認識実行部206とラベル付与部208は、セマンティックセグメンテーションとスラムを同一のフレームで実行することができる。
カウント記憶部210は、ボクセルごとに、複数のフレームにおいて判定されたラベルの種類を記憶する。具体的には、例えば、カウント記憶部210は、各ボクセルについて、直近の30フレームの間に判定されたラベルを記憶する。これにより、ラベル付与部208は、各ボクセルに対して、30フレームの間で最も判定された回数の多いラベルを付すことができる。
以上の機能は、コンピュータである画像処理装置10にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ12で実行することにより実装されてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介して画像処理装置10に供給されてもよい。
また、深度情報取得部204は省略されてもよい。具体的には、例えば、ラベル付与部208が深度情報を用いずに3次元マップを作成するビジュアルスラム(Visual SLAM)を実行する場合、ラベル付与部208は、カメラで撮影された2次元画像からカメラが撮影した環境の3次元情報とカメラの位置姿勢を同時に推定することができる。従って、ラベル付与部208は、深度情報を用いずに、順次取得される2次元画像のみを用いて3次元マップを作成できる。
本実施形態では例えば、一般的なビデオカメラで撮影される2次元画像に基づいて、ボクセル毎にラベルが付された3次元マップが生成される。以下、3次元マップの生成方法について図3を参照しながら説明する。
まず、画像取得部202によってフレームごとに順次取得された2次元の入力画像は、オブジェクト種類認識実行部206に入力される。具体的には、例えば、2眼のビデオカメラによって撮影された2次元の入力画像は、フレームごとに順次オブジェクト認識実行部に入力される。ここで、入力画像の各ピクセルは、赤、緑及び青を表す階調情報と、ビデオカメラからの距離を表す深度情報と、を含む。
オブジェクト種類認識実行部206は、フレームごとに取得した入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付す。具体的には、オブジェクト種類認識実行部206は、入力された2次元の入力画像の各ピクセルの階調情報に基づいて、該ピクセルにより表されたオブジェクトの種類を判定する。そして、オブジェクト種類認識実行部206は、入力画像の各ピクセルに対して、判定された種類を表すラベルを付す。例えば、オブジェクト種類認識実行部206は、あるピクセルが表すオブジェクトがテーブルであると判定した場合、当該ピクセルに対して「T」というラベルを付す。また、例えば、オブジェクト種類認識実行部206は、あるピクセルが表すオブジェクトが壁面であると判定した場合、当該ピクセルに対して「W」というラベルを付す。従って、オブジェクト種類認識実行部206が出力した画像の各ピクセルは、階調情報及び深度情報に加えて、ラベルを表す情報を含む。
次に、出力された画像は、フレームごとに順次ラベル付与部208に入力され、3次元マップが作成される。具体的には、上記のように、各ピクセルが階調情報、深度情報、及び、ラベルを表す情報を含む2次元の画像は、ラベル付与部208に入力される。ラベル付与部208は、順次入力された入力画像の階調情報及び深度情報に基づいて、入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成する。ここで、3次元マップは、2次元の入力画像の各ピクセルと対応するボクセルによって構成されている。また、各ピクセルが階調情報及び深度情報に加えてラベルを表す情報を含むため、当該ラベルは、該ピクセルと対応する3次元マップのボクセルに対して付される。以上の方法により、各ボクセルに対してラベルが付された3次元マップを作成できる。
2次元の入力画像が順次入力される毎に、当該入力画像に含まれるピクセルと対応するボクセルが3次元マップの中に形成される。ここで、異なるフレームにおける入力画像の各ピクセルが3次元マップにおける同じ位置を表すピクセルであると認識された場合、当該ピクセルは同じボクセルに対応すると判定される。オブジェクト種類認識実行部206によるラベルの判定結果が常に正確であれば、同一のボクセルに対応する各ピクセルは同じラベルが付されるはずである。しかしながら、入力画像が撮影された角度や、オブジェクトに照射される光の反射具合等、様々な要因によって、オブジェクト種類認識実行部206によるラベルの判定結果には誤差が含まれる。このような場合において、高精度なラベルが付された3次元マップを作成するために、本実施形態に係るラベル付与部208で付されるラベルの判定方法の一例について図4を参照しながら説明する。なお、以下において、「new」、「old」及び「c」は、それぞれソースコードに含まれる変数である。
まず、2次元の入力画像がオブジェクト種類認識実行部206に入力される。ラベル付与部208は、作成中である3次元マップにおいて、対応するボクセルが存在するピクセルであるか判定する(S402)。なお、入力画像において、対象のピクセルには「new」というラベルが付されているものとする。
対応するボクセルが存在するピクセルでないと判定された場合、ラベル付与部208は、当該ピクセルと対応するボクセルを3次元マップ中に新たに作成する。そして、ラベル付与部208は、当該ピクセルに付されたラベルを新たに作成したボクセルに「new」というラベルを付する(S404)。また、当該ボクセルに対して、新たに付与したラベルと関連付けて1というカウントを付する。なお、カウントはカウント記憶部210に記憶される。新たなボクセルが作成された場合、当該ピクセルに関する当該フレームにおける処理は終了する。
一方、対応するボクセルが存在するピクセルであると判定された場合、S406のステップへすすむ。この時、当該既存のボクセルに対して付されたラベルは「old」であって、カウントは「c」であるとする。
次に、ラベル付与部208は、当該既存のボクセルの付された「old」と、新たに入力された入力画像の対応するピクセルに付された「new」というラベルが表すオブジェクトが同じであるか判定する(S406)。
ラベル付与部208は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントする(S408)。具体的には、「old」と「new」というラベルが表すオブジェクトが同じである場合、ラベル付与部208は、対応するボクセルのラベルは「old」のままとし、当該ボクセルに対して付されたカウント「c」をインクリメントする。そして、当該ピクセルに関する当該フレームにおける処理は終了する。
一方、ラベル付与部208は、各ボクセルに対して、前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントする(S410)。具体的には、「old」と「new」というラベルが表すオブジェクトが異なる場合、ラベル付与部208は、対応するボクセルのラベルは「old」のままとし、当該ボクセルに対して付されたカウント「c」をデクリメントする。
そして、ラベル付与部208は、当該ボクセルのカウントが0でない場合に前フレームに付されたラベルを維持する。すなわち、当該ボクセルに付されるラベルとして「old」が維持される(S412)。
一方、ラベル付与部208は、カウントが0である場合に、現フレームで判定されたラベルを付す。すなわち、当該ボクセルに付されるラベルとして「new」が付される(S414)。また、このとき、当該ボクセルに対して、新たに付与したラベルと関連付けて1というカウントが付される。
以上のようなフローで各ボクセルに付されるラベルが判定されることにより、オブジェクト種類認識実行部206があるフレームで誤ったラベルを付した場合であっても、前後のフレームで正しいラベルが付されていた場合、ラベル付与部208は、各ボクセルに対して正しいラベルを付すことができる。
作成された3次元マップは、各ボクセルに、当該ボクセルにより表されたオブジェクトの種類を表すラベルが付されたボクセルの集合である。これにより、同じ種類のラベルが付されたボクセルの集合ごとに、異なる処理を行うことができる。具体的には、例えば、作成された3次元マップは、拡張現実(AR:Augmented Reality)技術に適用することができる。テーブル、テレビ、ソファ等が配置された部屋の内部の3次元マップを作成した場合、ユーザは、現実世界の部屋にいながら、現実世界の部屋が反映された仮想空間を体験できる。そして、ユーザが特定のラベルと対応する現実世界の対象物に対して何らかの挙動を行った場合、仮想空間において、当該ラベルが付されたボクセルの集合に対してのみ異なる処理を行うことができる。例えば、現実世界において、ユーザがテーブルの一部に触れる、テレビのある個所にボールをぶつける、等の挙動を行った場合、仮想空間において、テーブル全体のデザインを変更する、テレビの電源をONにする、等の同じラベルが付されたボクセルの集合ごとに異なる処理を行うことができる。
なお、本発明は上述の実施形態に限定されるものではない。また、上記の具体的な文字列や数値及び図面中の具体的な文字列や数値は例示であり、これらの文字列や数値には限定されない。例えば、上記のように、付されるラベルはカウントによって判定されず、複数のフレームにおいて、最も多く判定された種類のラベルが付されてもよい。

Claims (6)

  1. 2次元の入力画像をフレームごとに順次取得する画像取得部と、
    フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行部と、
    順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行して3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与部と、
    を含み、
    前記ラベル付与部は、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とする画像処理装置。
  2. 前記ラベル付与部は、各ボクセルに対して、
    前フレームに付されたラベルと、現フレームで判定されたラベルと、が同じである場合にカウントをインクリメントし、
    前フレームに付されたラベルと、現フレームで判定されたラベルと、が異なる場合にカウントをデクリメントし、
    カウントが0である場合に、現フレームで判定されたラベルを付し、
    カウントが0でない場合に、前フレームに付されたラベルを維持する、
    ことを特徴とする請求項に記載の画像処理装置。
  3. 前記ボクセルごとに、複数のフレームにおいて判定されたラベルを記憶する記憶部を有し、
    前記ラベル付与部は、前記複数のフレームにおいて、最も多く判定された種類のラベルを前記ボクセルに付す、
    ことを特徴とする請求項に記載の画像処理装置。
  4. 前記オブジェクト種類認識実行部と前記ラベル付与部は、取得された前記各入力画像に対して、同一のフレームでセマンティックセグメンテーションとスラムを実行することを特徴とする請求項1からのいずれかに記載の画像処理装置。
  5. 2次元の入力画像をフレームごとに順次取得する画像取得ステップと、
    フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行ステップと、
    順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与ステップと、
    を含み、
    前記ラベル付与ステップにおいて、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とする画像処理方法。
  6. 2次元の入力画像をフレームごとに順次取得する画像取得手順と、
    フレームごとに取得した前記入力画像の各ピクセルに、該ピクセルにより表されたオブジェクトの種類を表すラベルを付すオブジェクト種類認識実行手順と、
    順次入力された前記入力画像に基づいて、前記入力画像に表された被写体の3次元位置認識を実行し、3次元マップを作成し、前記3次元マップに含まれる各ボクセルに対して、前記ボクセルと対応する前記ピクセルのラベルを付すラベル付与手順と、
    をコンピュータに実行させるプログラムであって、
    前記ラベル付与手順において、複数のフレームにおいて判定されたラベルの種類に基づいて、前記ボクセルにラベルを付す、ことを特徴とするプログラム。
JP2021532559A 2019-07-12 2019-07-12 画像処理装置、画像処理方法、及び、プログラム Active JP7178499B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/027670 WO2021009798A1 (ja) 2019-07-12 2019-07-12 画像処理装置、画像処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JPWO2021009798A1 JPWO2021009798A1 (ja) 2021-01-21
JP7178499B2 true JP7178499B2 (ja) 2022-11-25

Family

ID=74210293

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021532559A Active JP7178499B2 (ja) 2019-07-12 2019-07-12 画像処理装置、画像処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20220292811A1 (ja)
JP (1) JP7178499B2 (ja)
WO (1) WO2021009798A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11688144B2 (en) * 2021-06-16 2023-06-27 International Business Machines Corporation Self guidance based on dimensional relationship

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190043203A1 (en) 2018-01-12 2019-02-07 Intel Corporation Method and system of recurrent semantic segmentation for image processing

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190043203A1 (en) 2018-01-12 2019-02-07 Intel Corporation Method and system of recurrent semantic segmentation for image processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TATENO, Keisuke et al.,CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction,2017 IEEE Conference on Computer Vision and Pattern Recognition,米国,IEEE,2017年,pp.6565-6574

Also Published As

Publication number Publication date
WO2021009798A1 (ja) 2021-01-21
US20220292811A1 (en) 2022-09-15
JPWO2021009798A1 (ja) 2021-01-21

Similar Documents

Publication Publication Date Title
JP7181977B2 (ja) 3次元再構成において構造特徴を検出し、組み合わせるための方法およびシステム
US20210279957A1 (en) Systems and methods for building a virtual representation of a location
Park et al. Pix2pose: Pixel-wise coordinate regression of objects for 6d pose estimation
Tjaden et al. A region-based gauss-newton approach to real-time monocular multiple object tracking
US10373380B2 (en) 3-dimensional scene analysis for augmented reality operations
Zollmann et al. Image-based ghostings for single layer occlusions in augmented reality
US6124864A (en) Adaptive modeling and segmentation of visual image streams
US8401225B2 (en) Moving object segmentation using depth images
US9519968B2 (en) Calibrating visual sensors using homography operators
JP7162750B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
Tian et al. Handling occlusions in augmented reality based on 3D reconstruction method
US9129435B2 (en) Method for creating 3-D models by stitching multiple partial 3-D models
CN109479098A (zh) 多视图场景分割和传播
JP2019003621A (ja) 建築物のレイアウトの決定
TW201308252A (zh) 深度測量之品質提升
Mori et al. Efficient use of textured 3D model for pre-observation-based diminished reality
US20210056337A1 (en) Recognition processing device, recognition processing method, and program
KR101865173B1 (ko) 가상현실 콘텐츠의 영상 분석을 통한 모션 시뮬레이터의 운동 생성 방법
EP4107650A1 (en) Systems and methods for object detection including pose and size estimation
US20240062345A1 (en) Method, apparatus, and computer-readable medium for foreground object deletion and inpainting
Park et al. Neural object learning for 6d pose estimation using a few cluttered images
CN115362478A (zh) 用于标记图像之间的空间关系的强化学习模型
CN110310325B (zh) 一种虚拟测量方法、电子设备及计算机可读存储介质
JP7178499B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
Battisti et al. Seamless bare-hand interaction in mixed reality

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211111

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A801

Effective date: 20211111

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20211111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221114

R150 Certificate of patent or registration of utility model

Ref document number: 7178499

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150