JP2018136632A - 形状推定装置 - Google Patents

形状推定装置 Download PDF

Info

Publication number
JP2018136632A
JP2018136632A JP2017029248A JP2017029248A JP2018136632A JP 2018136632 A JP2018136632 A JP 2018136632A JP 2017029248 A JP2017029248 A JP 2017029248A JP 2017029248 A JP2017029248 A JP 2017029248A JP 2018136632 A JP2018136632 A JP 2018136632A
Authority
JP
Japan
Prior art keywords
shape
learning
information
subject
dimensional shape
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017029248A
Other languages
English (en)
Other versions
JP6987508B2 (ja
JP2018136632A5 (ja
Inventor
安藤 丹一
Tanichi Ando
丹一 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Priority to JP2017029248A priority Critical patent/JP6987508B2/ja
Priority to CN201880006147.8A priority patent/CN110291358B/zh
Priority to PCT/JP2018/003499 priority patent/WO2018150901A1/en
Priority to US16/479,246 priority patent/US11036965B2/en
Priority to EP18709087.3A priority patent/EP3583380B1/en
Publication of JP2018136632A publication Critical patent/JP2018136632A/ja
Publication of JP2018136632A5 publication Critical patent/JP2018136632A5/ja
Application granted granted Critical
Publication of JP6987508B2 publication Critical patent/JP6987508B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】2次元画像から被写体の3次元形状を推定する。【解決手段】本発明の第1の態様によれば、形状推定装置は、取得部と、推定部とを含む。取得部は、2次元画像を取得する。推定部は、人工知能を備え、当該人工知能に2次元画像を与えて2次元画像の被写体の3次元形状を推定させる。人工知能は、サンプル被写体の3次元形状を表す教師データと、サンプル被写体の3次元形状を撮影したサンプル2次元画像とを含む学習データを用いて行われた機械学習の学習結果が設定されている。【選択図】 図1

Description

本発明は、2次元画像から被写体の3次元形状を推定する技術に関する。
カメラによって撮影された画像を分析し、予め定められた種類の被写体を認識する技術が研究されている。例えば、自動車に取り付けられたカメラによって撮影された当該自動車前方の画像を分析し、道路の路側帯、車線、先行車両、対向車両、歩行者などの予め定められた種類の被写体を認識する技術が知られている。
このような認識技術と、レーザーレーダーなどの測距装置とを併用すれば、自動車の前方10メートルに先行車両が存在する、などの情報が得られる。このような情報は、例えば自動運転の分野において有用となる可能性がある。
しかしながら、前述の予め定められた種類の被写体を認識する技術によれば、例えば自動車の前方に先行車両が存在するなどの情報は得られるものの、当該先行車両の3次元形状の情報を得ることはできない。
前方にある被写体の3次元形状がわからないと、当該被写体の存在を単に検出するだけでは適切な対応動作を行うことができないことがある。例えば、対向車の荷台から荷物がはみ出しているような場合には、対向車が存在するという情報のみでは、適切な対応ができない。
「Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks」<URL: https://arxiv.org/abs/1511.06434>
本発明は、2次元画像から被写体の3次元形状を推定することを目的とする。
以降の説明および特許請求の範囲において、人工知能とは、ディープラーニングのような機械学習の仕組みを用いて、機械自身が学習を行うことによって所定の能力を獲得する機械学習装置、機械によって実行される学習方法、学習によって獲得された能力を発揮する装置およびその実現方法などの意味で用いられる。本願において、機械学習は、ディープラーニングに限られず、形状を推定する能力が獲得できる任意の学習方法を用いることができる。
本発明の第1の態様によれば、形状推定装置は、取得部と、推定部とを含む。取得部は、2次元画像を取得する。推定部は、人工知能を備え、当該人工知能に2次元画像を与えて2次元画像の被写体の3次元形状を推定させる。人工知能は、サンプル被写体の3次元形状を表す教師データと、サンプル被写体の3次元形状を撮影したサンプル2次元画像とを含む学習データを用いて行われた機械学習の学習結果が設定されている。故に、この態様によれば、2次元画像から被写体の3次元形状を推定することができる。
本発明の第2の態様によれば、推定部は、人工知能に2次元画像の被写体の3次元形状を推定させ、3次元形状を記述する形状情報を得る。故に、この態様によれば、2次元画像から被写体の3次元形状を記述する形状情報を得ることができる。
本発明の第3の態様によれば、形状情報は、基本モデルの表す所定の3次元形状の表面に対して施される変形毎に変形の位置および強度をそれぞれ定める位置情報および強度情報を含む。故に、この態様によれば、形状情報は、例えばポリゴンを用いた場合に比べて小さなデータサイズで、少なくとも被写体の基本的な(実サイズを考慮しない)3次元形状を表現することができる。
本発明の第4の態様によれば、形状情報は、2次元画像の被写体の3次元形状の実サイズを定めるサイズ情報をさらに含む。故に、この態様によれば、形状情報は、例えばポリゴンを用いた場合に比べて小さなデータサイズで、被写体の実サイズを含めた3次元形状を表現することができる。
本発明の第5の態様によれば、変形は、所定の3次元形状の表面のうち位置情報の示す作用点を予め定められた原点から作用点を結ぶ直線に略平行な作用方向に沿って強度情報の示す量だけ変位させる第1の種別の変形を含む。故に、この態様によれば、被写体の基本的な3次元形状に含まれる凹凸を小さなデータサイズで表現することができる。
本発明の第6の態様によれば、第1の種別の変形は、所定の3次元形状の表面を伸縮自在な膜と仮定して作用点を作用方向に沿って強度情報の示す量だけ変位させた場合に所定の3次元形状の表面に生じる伸縮をシミュレートする。故に、この態様によれば、形状情報は、被写体の基本的な3次元形状に含まれる凹凸を小さなデータサイズで表現することができる。
本発明の第7の態様によれば、第1の種別の変形は、所定の3次元形状の表面を伸縮自在な膜と仮定して作用点に膜の内側または外側から曲面を押し当てて作用点を作用方向に沿って強度情報の示す量だけ変位させた場合に所定の3次元形状の表面に生じる伸縮をシミュレートする。故に、この態様によれば、形状情報は、被写体の基本的な3次元形状に含まれる丸みを帯びた凹凸を小さなデータサイズで表現することができる。
本発明の第8の態様によれば、形状情報は、曲面のサイズを定めるサイズ情報をさらに含む。故に、この態様によれば、形状情報は、より複雑な3次元形状を小さなデータサイズで表現することができる。
本発明の第9の態様によれば、機械学習は、学習用の人工知能にサンプル2次元画像を与えてサンプル被写体の3次元形状を推定させることと、サンプル被写体の3次元形状の推定結果に基づいてレンダリングされたサンプル被写体の推定3次元形状を撮影した再現画像を生成することと、再現画像がサンプル2次元画像に類似するように学習用の人工知能の学習パラメータを更新することとを含む。故に、この態様によれば、学習用の人工知能に、2次元画像から被写体の3次元形状を推定する能力を獲得させることができる。
本発明の第10の態様によれば、推定部は、被写体の姿勢を推定し、被写体の基準姿勢からの差分を示す姿勢情報をさらに生成する。故に、この態様によれば、2次元画像から被写体の3次元形状に加えてその姿勢も推定することができる。
本発明の第11の態様によれば、被写体の3次元形状は基準面に関して略面対称である。形状情報は、所定の3次元形状の表面のうち基準面から一方側に対して施される変形について位置情報および強度情報を含み、所定の3次元形状の表面のうち基準面から他方側に対して施される変形について位置情報および強度情報を含まない。故に、この態様によれば、形状情報は、全ての変形のうち約半分について位置情報および強度情報を含まなくてよいので、データサイズを抑制することができる。
本発明によれば、2次元画像から被写体の3次元形状を推定することができる。
第1の実施形態に係る形状推定装置を例示するブロック図。 図1の深層ニューラルネットワークに設定される学習パラメータを得る機械学習システムを例示するブロック図。 第2の実施形態に係る空間認識システムを例示するブロック図。 図3のシーンパラメータのデータ構成を例示する図。 先行車両の姿勢の一例を示す図。 先行車両の姿勢の一例を示す図。 対向車両の姿勢の一例を示す図。 対向車両の姿勢の一例を示す図。 車両前方を撮影したシーン画像に含まれ得る被写体を例示する図。 実施例における環境モデルを例示する図。 実施例における物体形状モデルの説明図。 実施例における空間形状モデルの説明図。 第3の実施形態に係るサービス提供システムを例示するブロック図。 図10の利用者端末装置のハードウェア構成を例示するブロック図。 図10のサービス提供システムに含まれるサーバ型装置の共通のハードウェア構成を例示するブロック図。 図10の学習サービス提供装置の機能構成を例示するブロック図 図10の学習データ作成システムを例示するブロック図。 図10の各学習装置の共通のハードウェア構成を例示するブロック図。 図10の各学習装置の共通の機能構成を例示するブロック図。 図16のニューラルネットワークを例示するブロック図。 図10のサービス提供システムの動作を例示するフローチャート。 図10の各学習装置の共通の動作を例示するフローチャート。
以下、図面を参照しながら実施形態の説明を述べる。なお、以降、説明済みの要素と同一または類似の要素には同一または類似の符号を付し、重複する説明については基本的に省略する。
(第1の実施形態)
図1に例示されるように、第1の実施形態に係る形状推定装置100は、取得部101と、推定部102とを含む。形状推定装置100は、2次元画像10を受け取り、当該2次元画像10から当該2次元画像10の被写体の3次元形状を推定する。推定結果は、例えば後述される形状情報11として出力されてよい。
形状推定装置100は、形状を推定する能力を獲得するための学習機能を備えてもよく、外部装置である学習装置から形状を推定する能力を獲得するための機械学習の結果を取得するようにしてもよい。
取得部101は、2次元画像10を取得する。取得部101は、例えば図示されないカメラによってリアルタイムで撮影されている動画像のフレームデータを2次元画像10として取得してもよいし、過去に撮影され図示されないストレージに格納されている2次元画像10を取得してもよい。取得部101は、2次元画像10をそのまま推定部102へと出力してもよいし、2次元画像10に含まれる1以上の被写体領域を認識し、被写体領域を抽出して推定部102へと出力してもよい。
推定部102は、取得部101から2次元画像10を受け取り、深層ニューラルネットワーク103に当該2次元画像10を与えて当該2次元画像10の被写体の3次元形状を推定させる。この深層ニューラルネットワーク103は、サンプル被写体の3次元形状を表す教師データと、当該サンプル被写体の3次元形状を撮影したサンプル2次元画像とを含む学習データを用いて行われた機械学習(教師あり学習)の学習結果が設定されている。なお、深層ニューラルネットワーク103は、深層ニューラルネットワーク以外の人工知能(機械学習によって獲得された形状を推定する能力を発揮する装置)に置き換えられてもよい。そして、推定部102は、形状情報11を推定結果として生成して出力してもよい。
深層ニューラルネットワーク103には、2次元画像10から当該2次元画像10の被写体の3次元形状を推定する能力を獲得するための機械学習(例えば、ディープラーニング)を通じて得られた学習結果(例えば、ニューラルネットワーク内のユニットのバイアス、ユニット間のエッジの重みなどの学習パラメータ)が設定されている。この機械学習は、例えば以下に説明するように実施することができる。
図2には、深層ニューラルネットワーク210の機械学習を実施する機械学習システムが例示される。この機械学習に用いられる学習データ24は、それぞれ、入力データとしてのサンプル被写体の2次元画像21と、教師データとしてのサンプル被写体の形状情報20とを含む。2次元画像21は、例えば、画像生成装置200が形状情報20に基づいてサンプル被写体の3次元形状をレンダリングし、当該3次元形状を仮想カメラで撮影することによって生成されてもよい。なお、仮想カメラの配置を変更することで、被写体の姿勢または位置が異なる多数の2次元画像21を1セットの形状情報20から生成することができる。
画像生成装置200は、形状情報20に基づいてサンプル被写体の3次元形状をレンダリングする。画像生成装置200は、例えば、形状情報20に基づいて3次元CGを生成するプログラムと、当該プログラムを実行するプロセッサとを含むことができる。係るプログラムは、例えば、映画、TV番組、ビデオゲームなどの映像作品において利用されている3次元CGの生成技術をベースとすることができる。一例として、所定のパラメータから3次元CGを生成する既存のプログラムと、形状情報を当該所定のパラメータに変換するためのプログラムとを組み合わせることで、画像生成装置200の機能を実現可能である。同様の画像生成を、被写体の実物とカメラを操作するロボットを用いて、さまざまな位置や方向から対象を撮影して行うようにしてもよい。ロボットに撮影条件を指定することで、多数の画像を効率的に作成することができる。
深層ニューラルネットワーク210は、入力データとしての2次元画像21を取得し、当該2次元画像21の被写体の3次元形状を推定する。そして、深層ニューラルネットワーク210は、推定結果としての形状情報22を生成する。
学習装置220は、形状情報22が教師データとしての形状情報20に近づくように、深層ニューラルネットワーク210の学習(学習パラメータの更新)を行う。
具体的には、学習装置220は、形状情報20と形状情報22との誤差を最小化するように深層ニューラルネットワーク210の学習を行ってもよいし、形状情報22を2次元画像化した2次元画像23(再現画像と呼ぶこともできる)と2次元画像21との誤差を最小化するように深層ニューラルネットワーク210の学習を行ってもよい。形状情報22の2次元画像化は、例えば、画像生成装置200が形状情報22に基づいて3次元形状をレンダリングし、当該3次元形状を仮想カメラで撮影することで実現可能である。
2次元画像23と2次元画像21との誤差を最小化する学習には、例えば、DCGAN(Deep Convolutional Generative Adversarial Networks)に類似するアルゴリズムが利用されてもよい。
DCGANは、大量の画像を用いて学習を行うことで、本物らしい(例えば、学習に用いられた画像との区別がつかない)画像を生成する能力を獲得できる。DCGANのベースとなるGANでは、GeneratorとDiscriminatorとが交互に学習を繰り返す(いわゆる、いたちごっこ)。この結果、Generatorは、Discriminatorに学習に用いられたデータと誤認させるようなデータを生成する能力を獲得する。
なお、本発明におけるニューラルネットワークの学習方法はDCGANには限定されない。学習は、所定の2次元形状データをニューラルネットワークに入力したときの出力と、それに対応する3次元形状の誤差が計算できるものであればよい。誤差を減らすように学習を行うことで、学習を進めることができる。具体的には、ニューラルネットワークの出力である形状情報と、形状情報の教師データとの誤差を減らすように学習を行うようにしてもよい。あるいは、ニューラルネットワークの出力である形状情報を所定の関数で別のベクトルに変換した後の変換形状情報と変換形状情報の教師データの誤差を減らすように学習を行うようにしてもよい。その際に、ベクトルの次元数に増減があってもよい。
形状情報11(ならびに、形状情報20および形状情報22)は、被写体の3次元形状を表現することのできる任意の情報が採用されてよい。被写体の3次元形状は、例えば、被写体としての製品の外形を設計するための、ポリゴンを用いたCADデータとして表現することができる。この場合には、形状推定装置100には、所定の2次元画像が入力されたときに、それに対応するポリゴンを用いたCADデータを推定して出力することを学習した結果が設定される。ポリゴン数が少ないシンプルな被写体であれば、比較的短い時間で学習が完了する。ニューラルネットワークの出力の各ニューロンが、各ポリゴンを構成するパラメータの各部分を出力するようにすれば、ニューラルネットワークの学習によって、ポリゴンの形状を推定する能力を獲得することができる。
ただし、比較的複雑な3次元形状を例えば数百個程度のポリゴンで表現するとすれば、形状情報11のデータサイズは非常に大きくなる。故に、係る形状情報11を用いた機械学習は、莫大な演算を必要とすることになり、コストおよび所要時間の観点から実現困難となるおそれがある。そこで、データサイズを抑制する観点から、以下に説明される形状情報11が用いられてもよい。所定の個数の数値データで3次元形状を記述できるデータであれば、下記に説明される以外の形状情報11を用いるようにしてもよい。ニューラルネットワークの出力に関連付けることが可能なパラメータで構成される、任意の形状情報11を用いることができる。
具体的には、形状情報11は、例えば、被写体の基本的な3次元形状を表現するために、後述される位置情報、強度情報などの値を含むベクトルとして定義することができる。さらに、形状情報11としてのベクトルは、後述されるサイズ情報の値を含んでいてもよい。かかる形状情報11は、例えば従来のビデオゲームまたは映画における3次元CG(Computer Graphics)生成に用いられるポリゴンに比べて、はるかに小さいデータサイズで3次元形状を表現することができる。故に、かかる形状情報11を用いることで、後述される機械学習に必要な演算量を減少させることができる。
具体的には、推定部102は基本モデルの表す所定の3次元形状の表面に任意の変形を加えることで、推定した被写体の基本的な3次元形状を表現する。ここで、基本的とは、実サイズを区別しないことを意味している。すなわち、基本的な3次元形状は、被写体の真の3次元形状と略相似関係にあればよく、実サイズを問わない。例えば、自動車の基本的な3次元形状は、ミニカーの基本的な3次元形状と同一であり得る。また、例えば、所定の3次元形状は、球、立方体などであるがこれらに限られない。

形状情報11は、所定の3次元形状の表面に対して施される任意の変形のそれぞれについて当該変形の位置及び強度をそれぞれ定める位置情報および強度情報を含み得る。
任意の変形には、例えば、所定の3次元形状の表面のうち位置情報の示す作用点を予め定められた原点から当該作用点を結ぶ直線に略平行な作用方向に沿って強度情報の示す量だけ変位させる第1の種別の変形が含まれていてもよい。第1の種別の変形とは、概念的には、所定の3次元形状の表面の一点(作用点)を当該3次元形状の外側に向かって引っ張ったり、当該3次元形状の内側に向かって押し込んだりすることに相当する。原点は、例えば所定の3次元形状の中心点に定められるがこれに限られない。
第1の種別の変形によって、所定の3次元形状の表面のうち作用点の周辺部分も当該作用点に連動して変位し、この周辺部分の形状は変化することになる。例えば、第1の種別の変形は、所定の3次元形状の表面を伸縮自在な膜(例えばゴム)と仮定して作用点を作用方向に沿って強度情報の示す量だけ変位させた場合に当該3次元形状の表面に生じる伸縮をシミュレートするものであってよい。
このように3次元形状を表現することで、3次元形状の一部のデータをわずかに変化させたときに、影響を受ける周囲の部分が表面の連続性を保ったまま、わずかに変化する。このような変化は、深層ニューラルネットワークにおいて誤差を減らすことによって行う学習にとって、好適である。また、このような表現方法では、ポリゴンを組み合わせる場合のように、学習過程で変形させたポリゴンに隣り合うポリゴンの位置を再計算することが不要であるので、計算処理がよりシンプルな構成となるとともに、演算量を削減できる。この結果、学習効率が向上する。
第1の種別の変形は、例えば、固定または可変のサイズを有する曲面を用いて行われてもよい。ただし、ここでのサイズとは、実サイズである必要はなく、例えば、所定の3次元形状の半径、1辺の長さなどの基準となるサイズを「1」とする任意単位のサイズであってよい。すなわち、第1の種別の変形は、所定の3次元形状の表面を伸縮自在な膜と仮定して作用点に当該膜の内側または外側から曲面を押し当てて当該作用点を作用方向に沿って強度情報の示す量だけ変位させた場合に当該3次元形状の表面に生じる伸縮をシミュレートするものであってよい。
曲面のサイズ(例えば、球面の半径)を可変とすることで、より複雑な3次元形状を表現することができる。この場合には、形状情報11は、所定の3次元形状の表面に対して施される第1の種別の変形のそれぞれについて曲面のサイズを定めるサイズ情報を含む必要がある。曲面の形状は、例えば球面であるが、これに限らず例えば角張ったものも含み得る。
なお、推定部102は、3次元形状が基準面に関して略面対称である(例えば、左右対称、上下対称、前後対称)という仮定の下で推定を行ってもよい。このような仮定の下では、所定の3次元形状の表面に対して施される変形のうちの半分についての情報を形状情報11から省略可能である。
具体的には、形状情報11は、所定の3次元形状の表面のうち上記基準面から一方側(例えば右側)に対して施される変形についてのみ位置情報および強度情報を含んでいればよい。他方側(例えば左側)に対して施される変形は、一方側に対して施される変形についての位置情報を適宜変換することで複製することができる。形状情報11のデータサイズを削減することで、機械学習に必要な演算量をさらに減少させることができる。なお、このような仮定の下でも、例えば、基準面から一方側または他方側にのみ作用する変形を表現する情報を形状情報11に追加することで、非対称な3次元形状を表現することができる。
さらに、形状情報11は、被写体の3次元形状の実サイズを定めるサイズ情報を含み得る。例えば、サイズ情報の値が「s」である場合には(sは、例えば正の実数値)、所定の3次元形状を半径s[m]の球として前述の変形を行った場合に得られる3次元形状によって被写体の実サイズを含む3次元形状の推定結果が定められてもよい。
以上説明したように、第1の実施形態に係る形状推定装置は、人工知能に2次元画像を与えて当該2次元画像の被写体の3次元形状を推定させる。この人工知能は、サンプル被写体の3次元形状を表す教師データと、当該サンプル被写体の3次元形状を撮影したサンプル2次元画像とを含む学習データを用いて行われた機械学習の学習結果が設定されている。故に、この形状推定装置によれば、2次元画像から被写体の3次元形状を推定することができる。
さらに、推定結果として、例えば形状情報が生成されてもよい。形状情報は、所定の3次元形状の表面に対して施される任意の変形のそれぞれについて当該変形の位置及び強度をそれぞれ定める位置情報および強度情報の値を含むベクトルとして定義され得る。かかる形状情報を用いれば、例えばポリゴンを用いた場合に比べて小さなデータサイズで、2次元画像の被写体の3次元形状を表現することができる。さらに、この形状情報としてのベクトルは、被写体の3次元形状の実サイズを定めるサイズ情報の値も含み得る。かかる形状情報を用いれば、例えばポリゴンを用いた場合に比べて小さなデータサイズで、2次元画像の被写体の実サイズを含む3次元形状を表現することができる。
なお、第1の実施形態に係る形状推定装置は、2次元画像の被写体の3次元形状に加えて当該被写体の姿勢を推定してもよい。姿勢は、例えば被写体の基準姿勢(例えば正面を向いた状態)からの差分(回転角)を示す姿勢情報によって表現可能である。係る追加機能を実現するためには、例えば、形状情報に追加して姿勢情報を教師データとして用いて前述の機械学習を行えばよい。
3次元形状を表現する方法は、上記に限定されない。例えば、所定の数(例えば100個)の立方体を積み上げるようにして、各立方体の相対位置をベクトルとして3次元形状を表現するようにしてもよい。所定の数のパラメータで3次元形状を表現できる方法であれば、任意の表現(形状情報)を使用して学習することができる。
(第2の実施形態)
第2の実施形態は、前述の第1の実施形態に係る形状推定装置を利用した空間認識システムである。この空間認識システムは、カメラによって撮影された(2次元)シーン画像からシーン内の被写体を認識(モデル化)する。具体的には、この空間認識システムは、シーン画像からシーン内の被写体を表現するシーンパラメータを生成し、このシーンパラメータには前述の形状情報および姿勢情報が含まれる。
図3に例示されるように、第2の実施形態に係る空間認識システムは、空間認識装置320を含む。空間認識装置320は、シーン画像32からシーン内の被写体を認識し、当該被写体を表現するシーンパラメータ33を生成する。
シーンパラメータ33は、図4に例示されるように、形状情報と、姿勢情報と、位置情報と、移動情報と、テクスチャ情報とを含む。なお、シーンパラメータ33は、図4に示されていない他の情報をさらに含んでいてもよいし、図4に示される情報の一部を含んでいなくてもよい。例えば、テクスチャ情報が認識対象から除外されてもよい。
図4の形状情報および姿勢情報は、第1の実施形態で説明した形状情報および姿勢情報と同一または類似であってよい。すなわち、形状情報は、任意個数の変形を表現する情報(例えば、位置情報および強度情報)の値を含むベクトルとして定義されてよい。形状情報は、さらにサイズ情報の値を含むベクトルとして定義されてよい。姿勢情報は、被写体の基準姿勢(例えば正面を向いた状態)からの差分(回転角)を示すように定義されてよい。
位置情報は、被写体が占める位置を示し、例えば後述される近隣空間内の座標として定義される。位置情報は、直交座標系および極座標系のどちらを用いて表現することもできる。移動情報は、被写体の移動の態様を示す。従って、移動体でない被写体のシーンパラメータに移動情報は不要である。移動の態様とは、典型的には、方向であるが、速度または加速度を含む可能性もある。
テクスチャ情報は、被写体のテクスチャ(例えば、色、模様、文字)を表す画像として定義される。なお、立体である被写体についても、当該被写体の外観の展開図を作成することで2次元画像としてテクスチャを表現可能である。
空間認識装置320は、図示されない深層ニューラルネットワークを利用して、シーン画像32からシーン内の被写体を認識してシーンパラメータ33を生成する。この深層ニューラルネットワークには、例えば、以下の機械学習を通じて得られた学習パラメータが設定されている。
機械学習は、図3の空間認識学習装置310によって行われる。この機械学習に用いられる学習データは、それぞれ、入力データとしてのサンプル被写体のシーン画像31と、教師データとしてのサンプル被写体のシーンパラメータ30とを含む。
シーン画像31は、例えば、画像生成装置300がシーンパラメータ30に基づいてサンプル被写体の3次元形状をレンダリングし、当該3次元形状を仮想カメラで撮影することによって生成されてもよい。
なお、仮想カメラの配置は、シーンパラメータ30に含まれる姿勢情報および位置情報に基づいて決定される。故に、形状情報が同一であっても、姿勢情報または位置情報が異なれば、シーン画像31における被写体の外観は異なる。
画像生成装置300は、シーンパラメータに含まれる形状情報に基づいてサンプル被写体の3次元形状をレンダリングする。画像生成装置300は、前述の画像生成装置200と同一または類似であってよい。第1の実施形態の場合と同様に、仮想カメラを実際のカメラに置き換えて、ロボットなどに操作させるようにしてもよい。
空間認識学習装置310に含まれる学習用の深層ニューラルネットワークは、入力データとしてのシーン画像31を取得し、当該シーン画像31の被写体を認識する。そして、この深層ニューラルネットワークは、認識結果としてのシーンパラメータを生成する。
空間認識学習装置310は、学習用の深層ニューラルネットワークによって生成されるシーンパラメータが教師データとしてのシーンパラメータ30に近づくように、当該深層ニューラルネットワークの学習を行う。
具体的には、空間認識学習装置310は、シーンパラメータ30と学習用の深層ニューラルネットワークによって生成されるシーンパラメータとの誤差を最小化するように当該深層ニューラルネットワークの学習を行ってもよい。或いは、空間認識学習装置310は、学習用の深層ニューラルネットワークによって生成されるシーンパラメータを2次元画像化した2次元画像(再現画像と呼ぶこともできる)とシーン画像31との誤差を最小化するように当該深層ニューラルネットワークの学習を行ってもよい。シーンパラメータの2次元画像化は、例えば、画像生成装置300がシーンパラメータに含まれる形状情報に基づいて3次元形状をレンダリングし、当該3次元形状を仮想カメラで撮影することで実現可能である。なお、画像間の誤差を最小化する学習には、例えば、DCGANに類似するアルゴリズムが利用されてもよい。
空間認識学習装置310は、機械学習の終了後に学習結果(例えば、学習終了後の深層ニューラルネットワークにおけるユニットのバイアス、ユニット間の重みなどの学習パラメータ)を空間認識装置320に送る。
空間認識装置320は、空間認識学習装置310から受け取った学習パラメータを自己の深層ニューラルネットワークに設定することで、シーン画像32からシーン内の被写体を認識してシーンパラメータ33を生成する能力を獲得する。
比較的簡単なシーンを与えて学習させた後に、徐々に構成要素を追加して、複雑なシーンに対応する学習を行わせるようにすることができる。これによって、学習効率の向上が期待できる。
以上説明したように、第2の実施形態に係る空間認識装置は、シーン画像の被写体を認識し、第1の実施形態と同一または類似の形状情報を含むシーンパラメータを被写体の認識結果として生成する。故に、このシーンパラメータを用いれば、形状情報として例えばポリゴンを用いた場合に比べて小さな演算量で、シーン画像の被写体の少なくとも3次元形状を認識する能力を深層ニューラルネットワークに獲得させることができる。
(実施例)
以降、この空間認識システムの実施例の1つである車両の前方監視について述べるが、この空間認識システムの実施例はこれに限られない。
車両の前方監視では、車載カメラが車両前方を撮影してシーン画像を生成する。このシーン画像には、様々な被写体が含まれる。例えば、図6に示されるように、先行車両、対向車両、自車両(撮影車両)の一部(例えばボンネット)、道路、道路の左側の領域、道路の右側の領域、道路よりも上方の領域(例えば空)などの被写体がシーン画像に含まれる可能性がある。空間認識装置320は、これらの被写体を、図4に例示されるシーンパラメータを用いて個別にモデル化できる。
他方、画像生成装置300は、1つまたは複数の被写体のシーンパラメータから所望のシーン画像を再現できる。例えば、道路、先行車両および対向車両のそれぞれのシーンパラメータを画像生成装置300に与えれば、当該画像生成装置300は道路上に先行車両および対向車両が存在するシーン画像を再現できる。
空間認識装置320によって生成されるシーンパラメータは、以下に説明するように車両の周囲の状況を推論するのに有用である。
撮影車両から見て右カーブの道路上にある先行車両(バス)が例えば図5Aに示されるようにシーン画像に写るかもしれない。なお、図5A〜図5Dにおいて、矢印は車体の正面の向きを表している。この場合に、空間認識装置320は、シーン画像から先行車両の姿勢を認識し、先行車両が道路の方向に沿って正常に走行していると推論できる。他方、同道路上にある先行車両が例えば図5Bに示されるようにシーン画像に写るかもしれない。空間認識装置320は、シーン画像から先行車両の姿勢を認識し、先行車両の姿勢が道路の方向から外れていることを検知する。この結果、空間認識装置320は、先行車両が、スピンしている、若しくは、道路を塞いで停車している可能性があると推論するかもしれない。
撮影車両から見て右カーブ(対向車両から見て左カーブ)の道路上にある対向車両(バス)が例えば図5Cに示されるようにシーン画像に写るかもしれない。この場合に、空間認識装置320は、シーン画像から対向車両の姿勢を認識し、対向車両が道路の方向に沿って正常に走行していると推論できる。他方、同道路上にある対向車両が例えば図5Dに示されるようにシーン画像に写るかもしれない。空間認識装置320は、シーン画像から対向車両の姿勢を認識し、対向車両の姿勢が道路の方向から外れていることを検知する。この結果、空間認識装置320は、対向車両が撮影車両の車線に侵入する可能性があると推論するかもしれない。
図5A〜図5Dを用いて説明した姿勢情報に基づく先行車両または対向車両の状況の推論は、先行車両または対向車両との接触リスクを早期に発見できる点で効果的である。係る接触リスクは先行車両または対向車両の位置または撮影車両からの距離からもある程度評価可能であるが、姿勢情報を利用すれば先行車両または対向車両に近づく前に異常接近や接触リスクを発見し、必要な措置を講じることができる。また、姿勢情報は、係る推論を行わない場合であっても、先頭車両または対向車両の進行方向の推定に利用することができる。
また、例えば駐車場において、周囲の車、ゲート、フェンスなどの障害物を避けながら走行または駐車するためには、空間認識装置320によって認識された各障害物の形状情報が有用である。
さらに、シーン画像において被写体は周囲の影響で遮蔽されることがあるが、空間認識装置320によって認識された被写体の形状情報からこの影響を推論することもできる。例えば、先行車両の全体が見えていない(例えば、先行車両の形状情報の確度が低い)場合には、空間認識装置320は、撮影車両と先行車両との間に障害物または他の車両が存在する可能性があると推論するかもしれない。
この実施例において空間認識装置320によって使用される環境モデルが図7に例示される。図7において、近隣空間は、カメラを中心とする所定の半径を持つ円柱として定義される。この円柱の底面はフロア環境として定義され、この円柱の上面が上方環境として定義される。近隣空間よりも外側は遠方環境として定義される。カメラは、設定された撮影方向に従って近隣空間および遠方環境を撮影し、シーン画像を生成する。カメラの撮影範囲は、撮影方向に応じて変化する。
各被写体(例えば、先行車両、対向車両)は、フロア環境のいずれかの位置にあると定義されてよい。この場合に、各被写体の位置情報は、2次元情報として表現可能である。遠方環境にある被写体は、接触などの物理的な影響を受ける可能性が低い。例えば、撮影車両が10km以上離れた建物と数秒以内に衝突することはあり得ない。故に、遠方環境にある被写体は、例えば近隣空間を定める円柱の側面の内側に投影されるようにモデル化されてもよい。
なお、近隣空間を定める立体は、円柱に限られない。例えば、交差点が少ない高速道路の走行中には、左右の被写体(車両)を考慮する必要性が低いので、例えば直方体を道路の形状に応じて湾曲させた立体によって近隣空間を定めることもできる。
また、図7の環境モデルは、重力がある空間を前提としている。しかしながら、無重力空間であっても、上下方向を定義することでこの環境モデルを使用することができる。例えば、地球の公転面または銀河系の回転平面を基準に上下方向を定義してもよい。
この実施例では、先行車両、対向車両、落下物などの物体の3次元形状を表現するために、図8に例示される物体形状モデルが使用されてよい。図8の物体形状モデルは、移動体の3次元形状を表現するのに適しているが、近隣空間にある構造物の3次元形状を表現するために用いることもできる。
図8の例では、基本モデルとして、球基本モデルおよび立方体基本モデルが用意されている。球基本モデルは所定の3次元形状として球が設定されたモデルであり、立方体基本モデルは所定の3次元形状として立方体が設定されたモデルである。また、基本モデルおよび被写体には、基準となる方向(姿勢)が定義されており、この方向を正面(前面)とする。例えば、被写体が車両であるならば、前進時の進行方向を正面とすればよい。
なお、利用可能な基本モデルは、2種類に限られず、1種類であってもよいし、3種類以上であってもよい。例えば、球基本モデルを変形すれば立方体を表現することが可能であるから、立方体基本モデルは省略されてもよい。但し、車両などの角張った3次元形状を推定する場合には、球基本モデルよりも立方体基本モデルを用いた方が、変形についての情報を削減できる可能性がある。基本モデルの3次元形状は特に制限されないが、被写体の3次元形状が基準面に関して略面対称であることを仮定するならば、基本モデルの3次元形状も同様であることが好ましい。
図8の例では、基本モデルの表す所定の3次元形状の表面に適用される変形と、被写体の3次元形状の実サイズとを表現するために変形モデルが用意されている。図8の変形モデルは、サイズモデルと、プッシュモデルと、プルモデルとを含む。但し、利用可能な変形モデルは、図8に例示されたものに限られない。
プッシュモデルは、所定の3次元形状の表面に適用される変形を表現するためのモデルの1つである。具体的には、プッシュモデルは、所定の3次元形状の表面を伸縮自在な膜と仮定して作用点に当該膜の内側から球面を押し当てて当該作用点を作用方向に変位させた場合に当該3次元形状の表面に生じる伸縮をモデル化する。ここで、作用方向とは原点から作用点を結ぶ直線に略平行な方向であって、原点とは所定の3次元形状の中心点であってよい。
すなわち、プッシュモデルは、作用点の位置を示す位置情報と、作用点に押し当てる球面の半径を定めるサイズ情報と、作用点の変位量を表す強度情報とを含む。
位置情報は、例えば、正面方向を基準とした水平方向の回転角とフロア環境を基準とした垂直方向の回転角との2次元情報として表現することができる。但し、位置情報を直交座標系または極座標系を用いて3次元情報として表現することも可能である。サイズ情報は、球面の半径を示す数値であってよい。強度情報は、作用点を押す距離を示す数値であってよい。
プルモデルは、所定の3次元形状の表面に適用される変形を表現するためのモデルの1つである。具体的には、プルモデルは、所定の3次元形状の表面を伸縮自在な膜と仮定して作用点に当該膜の外側から球面を押し当てて当該作用点を作用方向に変位させた場合に当該3次元形状の表面に生じる伸縮をモデル化する。ここで、作用方向の定義はプッシュモデルと同じである。
すなわち、プルモデルは、作用点の位置を示す位置情報と、作用点に押し当てる球面の半径を定めるサイズ情報と、作用点の変位量を表す強度情報とを含む。これらの情報は、プッシュモデルと同様に定義可能である。
なお、プッシュモデルおよびプルモデルは、作用方向が正反対である以外は同様の変形をモデル化しているともいえる。故に、プッシュモデルおよびプルモデルの強度情報を工夫すれば、両者を同一のモデル(プッシュ/プルモデル)として取り扱うことも可能である。例えば、プッシュ/プルモデルの強度情報は、変位後の作用点から原点までの距離を表す数値であってもよい。或いは、プッシュ/プルモデルの強度情報は符号付きの数値であって、強度情報の符号がプッシュ方向であるかプル方向であるかを表し、強度情報の絶対値が変位量を表してもよい。
なお、基本モデルおよび被写体の3次元形状が基準面に関して略面対称であるという仮定の下では、基準面から一方側(例えば右側)に適用されるプッシュモデルおよびプルモデルを形状情報11に含めることで、基準面から他方側(左側)に適用されるプッシュモデルおよびプルモデルを形状情報11から省略することができる。従って、以降に挙げる3次元形状の表現例においても、基準面から右側に適用されるプッシュモデルおよびプルモデルについて言及し、基準面から左側に適用されるプッシュモデルおよびプルモデルについて言及しないこととする。
サイズモデルは、被写体の3次元形状が持つ実サイズを表現するモデルであって、第1の実施形態において説明したサイズ情報に相当する。サイズモデルは、被写体の3次元形状の実サイズを表す数値であってよい。例えば、サイズモデルが「s」であるならば(sは、例えば正の実数値)、球基本モデルの表す所定の3次元形状を半径s[m]の球として前述の変形を行った場合に得られる3次元形状によって被写体の実サイズを含む3次元形状の推定結果が定められてもよい。
変形モデルを使用すれば、以下に例示されるように種々の3次元形状を表現することができる。
・球基本モデルの表す所定の3次元形状を半径0.5mmの球とし、前方右45度かつ水平に半径0.5mmの球面で所定距離プッシュし、さらに、後方左45度かつ水平に半径0.5mmの球面で同距離プッシュしたとする。この結果、所定の3次元形状を、上面および底面が丸みを帯びたコーナーを持つ略正方形状であって厚み1mmである板のような3次元形状に変形することができる。この場合に、形状情報は、サイズ情報と、2つのプッシュ変形のそれぞれの位置情報、サイズ情報および強度情報とを含む。
・球基本モデルの表す所定の3次元形状を半径0.5mmの球とし、前方右30度かつ水平と平行に半径0.5mmの球面で所定距離プッシュし、さらに、後方左30度かつ水平と平行に半径0.5mmの球面で同距離プッシュしたとする。この結果、所定の3次元形状を、上面および底面が丸みを帯びたコーナーを持ち前後方向が左右方向に比べて長い略長方形状であって厚み1mmである板のような3次元形状に変形することができる。この場合に、形状情報は、サイズ情報と、2つのプッシュ変形のそれぞれの位置情報、サイズ情報および強度情報とを含む。
・球基本モデルの表す所定の3次元形状を半径20cmの球とし、前方右方向かつ上方向、前方右方向かつ下方向、後方左方向かつ上方向および後方左方向かつ下方向に、それぞれ半径20cmの球面で3m程度プッシュしたとする。この結果、所定の3次元形状をワンボックスカーのボディのような3次元形状に変形することができる。この場合に、形状情報は、サイズ情報と、4つのプッシュ変形のそれぞれの位置情報、サイズ情報および強度情報とを含む。なお、さらに多くの変形を施すことで、3次元形状の細部の調整も可能である。タイヤハウスは、プル変形をさらに適用すれば表現することができる。タイヤは、プッシュ変形をさらに適用すれば表現することができる。
この実施例では、トンネル(の入り口)、障害物、道路などの構造物の3次元形状を表現するために、図9に例示される空間形状モデルが使用されてよい。図9の空間形状モデルは、構造物の3次元形状を表現するのに適しているが、近隣空間にある移動体の3次元形状を表現するために用いることもできる。
図9の例では、基本モデルとして、アーチモデル、障害物モデル、矩形平面モデルが用意されている。アーチモデルは、例えば外円から内円をくり抜いて2等分した平面図形またはこれを底面とする柱体が所定の3次元形状として設定されていると仮定することができる。障害物モデルは、例えば立方体が所定の3次元形状として設定されていると仮定することができる。矩形平面モデルは、例えば等脚台形またはこれを底面とする柱体が所定の3次元形状として設定されていると仮定することができる。矩形平面モデルは主に道路の3次元形状を表現するために用いられる。一定幅の道路を撮影したとしても撮影車両から近くの道幅は撮影車両から遠くの道幅よりも広く見える。故に、図9の例では、矩形平面モデルは、上辺および下辺の長さが異なる等脚台形を表しているが、他の矩形を表してもよい。
なお、利用可能な基本モデルは、3種類に限られず、2種類以下であってもよいし、4種類以上であってもよい。基本モデルの3次元形状は特に制限されないが、被写体の3次元形状が基準面に関して略面対称であることを仮定するならば、基本モデルの3次元形状も同様であることが好ましい。
図9の例では、基本モデルの表す所定の3次元形状の表面に適用される変形と、被写体の3次元形状の実サイズとを表現するために変形モデルが用意されている。図8の変形モデルは、サイズモデルと、凹凸モデルと、湾曲モデルとを含む。但し、利用可能な変形モデルは、図9に例示されたものに限られない。
凹凸モデルは、所定の3次元形状の表面に適用される変形を表現するためのモデルの1つである。具体的には、凹凸モデルは、所定の3次元形状の表面の任意の位置(作用点)に任意のレベルの凹凸を生じさせる変形をモデル化する。すなわち、凹凸モデルは、作用点の位置を示す位置情報と、作用点に生じさせる凹凸のレベルを表す強度情報とを含む。
湾曲モデルは、所定の3次元形状の表面に適用される変形を表現するためのモデルの1つである。具体的には、湾曲モデルは、所定の3次元形状の表面を湾曲させる変形をモデル化する。例えば、矩形平面モデルの3次元形状を湾曲させることで、カーブした道路の3次元形状を簡易に表現することができる。
サイズモデルは、被写体の3次元形状が持つ実サイズを表現するモデルであって、第1の実施形態において説明したサイズ情報に相当する。サイズモデルは、被写体の3次元形状の実サイズを表す数値であってよい。なお、サイズモデルは、複数用意されてもよい。例えば、サイズモデルが「s1」および「s2」であるならば(s1およびs2は例えば正の実数値)、アーチモデルの表す所定の3次元形状を外円および内円の半径がそれぞれs1[m]およびs2[m]のアーチとして前述の変形を行った場合に得られる3次元形状によって被写体の実サイズを含む3次元形状の推定結果が定められてもよい。或いは、矩形平面モデルの表す所定の3次元形状を上辺および下辺がそれぞれs2[m]およびs1[m]の等脚台形として前述の変形を行った場合に得られる3次元形状によって被写体の実サイズを含む3次元形状の推定結果が定められてもよい。
図8の物体形状モデルおよび図9の空間形状モデルを利用すれば、空間認識装置320は、車両の前方を撮影することで得られたシーン画像32から先行車両、対向車両、トンネルの入り口、門柱、道路などの被写体を表現するためのシーンパラメータ33を生成できる。また、上方環境および遠方環境を表現するためのモデルをさらに利用することも可能である。必要であれば、このシーンパラメータ33から各被写体の3次元形状、姿勢、位置およびテクスチャなどを再現し、任意のアングルから仮想カメラで撮影してシーン画像32を再現することもできる。
シーンパラメータのデータ構造は、柔軟な設計を可能としてもよい。例えば、非常に多くの変形を施したり、微細なテクスチャも表現したりすることが許容されてもよい。このようなシーンパラメータを用いれば、被写体の細部まで忠実に表現することができる。反面、被写体の細部まで忠実に表現しようとすれば、シーンパラメータのデータサイズは大きくなる。シーンパラメータの要求精度は、空間認識システムの用途に依存して異なる。例えば、映像作品を制作するために大道具を撮影して3DCG化する場合には高い精度が要求されるであろう。他方、対向車両の姿勢を推定する場合には、当該対向車両のワイパーの形状を無視したとしても問題ないであろうし、当該対向車両のテクスチャについても同様である。
シーンパラメータは、例えば以下に説明するように簡略化されてよい。ここでは説明の便宜のために、簡略化前のシーンパラメータを完全シーンパラメータと称し、簡略化後のシーンパラメータを単にシーンパラメータと称する。
機械学習に用いられる学習データは、入力データおよび教師データを含む。入力データは、サンプル被写体の完全シーンパラメータに基づいて高精度に作成された本物らしいシーン画像である。教師データは、この完全シーンパラメータから例えばテクスチャ情報を省略したシーンパラメータである。
深層ニューラルネットワークは、入力データとしてのシーン画像を取得し、当該シーン画像の被写体を認識する。そして、この深層ニューラルネットワークは、認識結果としてのシーンパラメータを生成する。
空間認識学習装置は、深層ニューラルネットワークによって生成されるシーンパラメータが教師データとしてのシーンパラメータに近づくように、当該深層ニューラルネットワークの学習を行う。
具体的には、空間認識学習装置は、深層ニューラルネットワークによって生成されるシーンパラメータを2次元画像化した2次元画像(再現画像と呼ぶこともできる)と、完全シーンパラメータではなく教師データとしてのシーンパラメータを2次元画像化した2次元画像との誤差を最小化するように当該深層ニューラルネットワークの学習を行ってもよい。なお、これらのシーンパラメータはいずれもテクスチャ情報を含んでいないが、2次元画像化の都合上、完全シーンパラメータとデータ形式を揃えることが求められるかもしれない。この場合には、シーンパラメータにダミーのテクスチャ情報として例えばグレー色に相当する値が設定されてもよい。画像間の誤差を最小化する学習には、例えば、DCGANに類似するアルゴリズムが利用されてもよい。
シーンパラメータは、複数のパラメータで構成されており、ニューラルネットワークの出力の各ニューロンに、複数のパラメータのそれぞれを出力させるようにすれば、学習の過程で、期待される出力との誤差を計算させることができる。誤差が減少するようにニューラルネットワークのパラメータを繰り返し変更することで、深層ニューラルネットワークを用いた学習を行うことができる。
テクスチャ情報の代わりに例えば形状情報に含まれる変形についての情報の一部を省略する(すなわち、変形の適用数を削減する)場合にも同様の機械学習を実施すればよい。
この実施例では、第2の実施形態に係る空間認識システムを車両の前方監視に適用すれば、車両の前方を撮影したシーン画像からシーン内の先行車両、対向車両などの被写体の3次元形状、姿勢および位置などを認識(モデル化)できることを説明した。この空間認識システムは、車両の前方監視に限らず広範な用途に利用可能である。
この空間認識システムは、ロボット(人型か否かを問わない)のコンピュータビジョンに利用することができる。具体的には、この空間認識システムは、ロボットが行うピッキング作業およびロボットの接触回避の精度向上に寄与し得る。
この空間認識システムによれば、ロボットがピッキング対象である物品の3次元形状を認識することができる。故に、例えば物品の3次元形状に応じてロボットの指やアームを駆動制御することで、ロボットは物品の適切な把持位置に指やアームを添え当てて精密なピッキング作業を行うことができる。
また、この空間認識装置によれば、ロボットは近隣にある物体の3次元形状を認識することができる。故に、ロボットは、例えば近隣にある物体との接触を賢く回避しながら移動できる。また、ロボットは、車載カメラまたは監視カメラの画像に写った障害物を認識し、障害物に接触しないように車両を操縦して車庫に入れたり駐車をしたりすることができる。さらに、ロボットは、製品の組み立て作業を行う場合に、部品の3次元情報に基づいて、当該部品の姿勢を適切に変更したり、当該部品の種別を正しく識別したりすることができる。
この空間認識システムは、スマートフォンなどのカメラ付き情報処理装置にインストールされるアプリケーションとしても有用である。例えば、販売者は、商品の3次元形状を提示してより視覚的効果の高い販売活動を行うことができる。具体的には、販売者は、空間認識装置として機能するスマートフォンを用いて商品を撮影し、画像から生成されたシーンパラメータを得る。販売者は、このシーンパラメータから再現された商品の3次元形状を顧客に提示しながら商品をアピールすることができる。シーンパラメータは、顧客のスマートフォンに送信されてもよい。この場合には、顧客は、自己のスマートフォンを操作して商品の3次元画像を確認することができる。
この空間認識システムは、3Dプリンタの入力データ作成にも有用である。具体的には、3Dプリントの対象となる被写体を複数のアングルから撮影することで得られる複数のシーン画像から当該被写体のシーンパラメータを生成することができる。さらに、複数のシーン画像を用いて機械学習を行うことで、推定される3次元形状を精密化することもできる。このようにして生成されたシーンパラメータを例えばソフトウェアによって3Dプリンタの入力データ形式に適合するように変換すれば、被写体を3Dプリントするための入力データを作成することができる。
この空間認識システムは、被写体がどのようなものであるかを識別する対象識別装置にも応用可能である。具体的には、対象識別装置は、空間認識システムと同じように、被写体のシーン画像から被写体の3次元形状を示す形状情報と被写体の姿勢を示す姿勢情報とを生成できる。対象識別装置は、これら形状情報および姿勢情報を利用することで、被写体を高精度に識別できる。
例えば、対象識別装置は、略直方体の紙パック飲料を撮影した画像から当該紙パック飲料の商品名を識別することができる。まず、対象識別装置は、任意のアングルで撮影された紙パック飲料のシーン画像から当該紙パック飲料の3次元形状および姿勢を認識する。略直方体の被写体を撮影すれば、アングル次第で1〜3個の面が写り込む。故に、対象識別装置は、認識された3次元形状のうちの1〜3面に被写体のシーン画像を貼り付けることで被写体のテクスチャの一部を3次元モデル上で再現することができる。それから、対象識別装置は、飲料製品の例えば正面または他の面の画像が蓄積されたカタログデータまたは商品データベースを検索し、被写体の正面または他の面の画像に最も類似する画像に関連付けられた飲料製品(およびそのメーカー)を特定する。対象識別装置は、特定された飲料製品を示す情報(例えば商品名)を被写体の識別情報として生成する。
なお、対象識別装置は、直方体などの角柱体で近似されない3次元形状を持つ被写体を識別することもできる。例えば、対象識別装置は、車両を撮影した画像から当該車両の車種を識別することができる。まず、対象識別装置は、任意のアングルで撮影された車両のシーン画像から当該車両の3次元形状および姿勢を認識する。それから、対象識別装置は、車両の形状情報およびテクスチャ情報が蓄積されたカタログデータまたは商品データベースを検索し、被写体の形状情報に類似する1つ以上の形状情報に関連付けられた1つ以上の車種(およびそのメーカー)を特定する。対象識別装置は、被写体の姿勢情報に基づいて、特定された車種のそれぞれに関連付けられたテクスチャ情報の示すテクスチャの一部をシーン画像と比較できるようにマッピングする。対象識別装置は、シーン画像と最も類似するテクスチャに関連付けられた車種を示す情報(例えば車種名)を被写体の識別情報として生成する。
上述のように、この空間認識システムは被写体がどのようなものであるかを識別する対象識別装置にも応用可能であるが、この対象識別装置は例えば被写体との距離を推定するために使用することもできる。具体的には、対象識別装置は、被写体のシーン画像から当該被写体の実サイズを含む3次元形状および姿勢を認識し、これらを利用して当該被写体が例えばどの車種であるかを識別する。対象識別装置は、識別された車種の実サイズを例えばカタログデータまたは商品データベースから検索し、検索された実サイズと被写体の3次元形状および姿勢とシーン画像とに基づいて、シーン画像は被写体からどのくらい離れて撮影されたか、すなわち、被写体との距離を推定することができる。なお、おおよその距離を推定する場合には、被写体を大まかに識別することができればよい。例えば、車種レベルでの識別でなくても車両分類(小型車、普通車など)レベルでの識別をすれば、被写体の大まかな実サイズを推定することができるので、距離についてもある程度の精度で推定することができる。この応用例によれば、レーザーレーダーなどの測距装置を用いることなく2次元画像から距離を推定することができる。
(第3の実施形態)
第3の実施形態は、第2の実施形態において説明した物体認識、空間認識および対象識別の機能を利用者に利用させるためのサービス提供システムに関する。このサービス提供システムが図10に例示される。
図10のサービス提供システムは、利用者端末装置401と、学習サービス提供装置402と、学習データ作成システム403と、学習データベース装置404と、物体認識学習装置405と、移動空間認識学習装置406と、対象識別学習装置407とを含む。
なお、図10のサービス提供システムの装置構成は例示に過ぎない。すなわち、図10に示される装置の一部または全部が1つの装置に統合されてもよいし、図10に示される装置の機能が複数の装置に分割されてもよい。
図18は、図10のサービス提供システムの動作を例示する。図18の動作は、学習サービス提供装置402が利用者からの学習依頼情報を受け取ることで開始し、処理はステップS1201に進む。
ステップS1201において、学習データ作成システム403は、上記学習依頼情報に基づいて利用者の目的(物体認識、移動空間認識および対象識別のうちの一部または全部)にふさわしい学習データ(例えば、車両のシーンパラメータおよびシーン画像)を作成し、学習データベース装置404に登録する。
物体認識学習装置405、移動空間認識学習装置406および対象識別学習装置407のうち利用者の目的にふさわしい少なくとも1つの学習装置は、ステップS1201において作成された学習データを学習データベース装置404から取得し、機械学習を実施する(ステップS1202)。
ステップS1202において機械学習を実施した学習装置は、学習結果としての学習パラメータを利用者端末装置401へと出力する(ステップS1203)。なお、利用者端末装置401への出力は、学習サービス提供装置402または他の装置を介して行われてもよい。
ステップS1203の終了後に未処理の他の学習依頼が残っているならば処理はステップS1201に戻り、そうでなければ図18の動作は終了となる。
なお、図18の動作例では、利用者からの学習依頼に応じて学習データの作成から機械学習の実施までを行っているが、利用者の目的にふさわしい学習データを作成済みである場合には、新たに学習データを作成しなくてもよい。また、利用者の目的にふさわしい学習パラメータを調整済みである場合には、新たに機械学習を行わなくてもよい。
利用者端末装置401は、利用者の目的にふさわしい学習サービスの提供を学習サービス提供装置402に依頼する。それから、利用者端末装置401は、利用者の目的にふさわしい学習結果を受け取る。利用者端末装置401は、受け取った学習結果を当該利用者端末装置401に含まれる深層ニューラルネットワークに設定することで、利用者の目的にふさわしい機能を利用できるようになる。利用者の目的が形状推定によって改善する場合には、受け取った学習結果が、形状推定する能力を含むようにすることで、目的により適合させることができる。例えば、学習サービスとして提供された、学習メニューを利用者が選択したときに、呼び出されて学習を行う学習装置の学習プログラムに第1の実施形態や第2の実施形態の学習処理を行わせるようにすればよい。
学習依頼時のメニューの中に、許容される誤差の条件、ポリゴン数あるいは、位置情報、強度情報などの値の種類や範囲などの、形状情報を規定する依頼情報を含めることによって、より利用者の目的に適合する学習結果が提供されるようになる。
利用者端末装置401は、例えば、デジタルカメラ、監視カメラ、自動車、スマートフォン、PC(Personal computer)、スマートウォッチ、ウェアラブルデバイス、家電機器、健康機器、医療機器、業務端末、公共端末、音声端末、自動車のコンソール、ヘッドアップディスプレイ、テレマティクス端末などであってよい。
図11に例示されるように、利用者端末装置401は、コンピュータ501と、カメラ502と、表示部503と、キーボード504と、マウス505とを含む。
コンピュータ501は、ネットワーク接続されており、図10の他の装置との間でデータをやり取りすることができる。コンピュータ501は、他の装置との間でデータをネットワーク経由でやり取りするための通信部を含む。
コンピュータ501は、図10の物体認識学習装置405、移動空間認識学習装置406または対象識別学習装置407による学習結果が設定される深層ニューラルネットワークを含む。
この深層ニューラルネットワークは、例えば、コンピュータ501に含まれる図示されないGPU(Graphics Processing Unit)またはCPU(Central Processing Unit)などのプロセッサがメモリに格納されたプログラムを実行することで実現される。深層ニューラルネットワークには、利用者の目的にふさわしい学習結果が設定される。例えば、深層ニューラルネットワークは、学習結果を設定されることで、物体認識、移動空間認識および対象識別のうちの一部または全部の能力を獲得できる。
カメラ502は、コンピュータ501中の深層ニューラルネットワークの入力データに相当するシーン画像を生成する。
表示部503は、カメラ502によって撮影されたシーン画像、コンピュータ501中の深層ニューラルネットワークによって生成されたシーンパラメータに基づく再現画像などを表示する。このほか、表示部503は、Webブラウザまたはその他のアプリケーションの画面を表示することもある。表示部503は、例えば、液晶ディスプレイ、有機EL(electroluminescence)ディスプレイ、CRT(Cathode Ray Tube)ディスプレイなどである。なお、表示部503は、タッチスクリーンのように入力装置の機能を備えていてもよい。
キーボード504およびマウス505は、ユーザ入力を受け付ける入力装置である。なお、利用者端末装置401は、キーボード504およびマウス505以外の入力装置を備えていてもよいし、キーボード504およびマウス505の一方または両方を備えていなくてもよい。
図10のサービス提供システムのうち学習サービス提供装置402、学習データ作成システム403に含まれる各装置および学習データベース装置404は、サーバ型装置と呼ぶことができる。このサーバ型装置の共通のハードウェア構成が図12に例示される。
図12のサーバ型装置は、CPU601と、ROM602と、RAM603と、記憶装置604と、入出力部605と、通信部606とを含む。
CPU601は、ROM(Read Only Memory)602またはRAM(Random Access Memory)603に格納されているプログラムを実行する。ROM602およびRAM603は、それぞれ不揮発性および揮発性メモリに相当し、CPU601によって実行されるプログラムまたはCPU601によって使用されるデータが格納される。
記憶装置604は、補助記憶装置とも呼ばれ、一般にメモリに比べて大量のプログラムまたはデータを格納することができる。記憶装置604は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)などであるがこれらに限られない。
入出力部605は、ユーザ入力を受け付けたり、アプリケーションの処理結果をユーザに提示したりする。入出力部605は、キーボード、マウス、テンキーなどの入力装置、ディスプレイ、プリンタなどの出力装置、タッチスクリーンなどの入出力装置のうちの一部または全部を含むことができる。
通信部606は、学習サービス提供装置402とは異なる装置との間でデータをネットワーク経由でやり取りする。通信部606は、無線通信および有線通信の一方または両方を行うことのできるモジュールまたはデバイスである。
学習サービス提供装置402の機能構成が図13に例示される。図13の学習サービス提供装置402は、ユーザインタフェース部701と、学習依頼情報取得部702と、学習プログラム起動部704と、外部プログラム起動部705と、通信部706とを含む。
ユーザインタフェース部701は、ユーザ入力を受け付けたり、アプリケーションの処理結果をユーザに提示したりする。学習依頼情報取得部702は、利用者からの学習依頼情報を取得する。この学習依頼情報の取得をトリガに、利用者の目的にふさわしい機械学習が実施される。
学習プログラム起動部704は、学習依頼情報の取得をトリガに、利用者の目的にふさわしい機械学習を実施するための学習プログラムを起動する。外部プログラム起動部705は、学習サービス提供装置402とは異なる装置のメモリに格納されたプログラムをネットワーク経由でリモート起動する。
通信部706は、学習サービス提供装置402とは異なる装置との間でデータをネットワーク経由でやり取りする。通信部706は、無線通信および有線通信の一方または両方を行うことができる。
学習データ作成システム403は、図14に例示されるように、シーンパラメータ生成装置801と、画像生成装置802と、学習データ設定装置803と、通信装置804と、画像記録装置805とを含む。
シーンパラメータ生成装置801は、学習用のサンプル被写体のシーンパラメータを生成する。画像生成装置802は、このシーンパラメータに基づいてサンプル被写体の3次元形状をレンダリングし、サンプル被写体のシーン画像を生成する。シーン画像は、画像記録装置805に記録される。
学習データ設定装置803は、サンプル被写体のシーンパラメータおよびシーン画像をそれぞれ教師データおよび入力データとして学習データを設定する。なお、学習データ設定装置803は、前述のように、シーンパラメータの一部(例えば、テクスチャ情報、または、形状情報に含まれる変形についての情報の一部など)を省略してから教師データを設定してもよい。学習データ設定装置803は、設定した学習データを学習データベース装置404に登録する。
通信装置804は、学習データ作成システム403とは異なる装置との間でデータをネットワーク経由でやり取りする。通信装置804は、無線通信および有線通信の一方または両方を行うことのできるデバイスである。
学習データ作成システム403による学習データの作成は、利用者からの学習依頼情報の取得後に行うこともできるし、依頼が見込まれるサンプル被写体について予め行うこともできる。
図10のサービス提供システムのうち物体認識学習装置405、移動空間認識学習装置406および対象識別学習装置407は、いずれも異なる能力(物体認識能力、移動空間認識能力および対象識別能力)の獲得を目指して機械学習を行うものの学習装置である点では共通する。これらの学習装置の共通のハードウェア構成が図15に、共通の機能構成が図16に、共通の動作が図19にそれぞれ例示される。
図15の学習装置は、GPU901と、CPU902と、ROM903と、RAM904と、記憶装置905と、入出力部906と、通信部907とを含む。
GPU901は、図15の学習装置によって実現される深層ニューラルネットワークの演算(主に、行列積演算)を高速に実行する。GPU901は、アクセラレータと呼ぶこともできる。
CPU902は、ROM602またはRAM603に格納されているプログラムを実行する。ROM903およびRAM904は、それぞれ不揮発性および揮発性メモリに相当し、CPU902によって実行されるプログラムまたはCPU902によって使用されるデータが格納される。
記憶装置905は、補助記憶装置とも呼ばれ、一般にメモリに比べて大量のプログラムまたはデータを格納することができる。記憶装置905は、例えば、HDD、SSDなどであるがこれらに限られない。
入出力部906は、ユーザ入力を受け付けたり、アプリケーションの処理結果をユーザに提示したりする。入出力部906は、キーボード、マウス、テンキーなどの入力装置、ディスプレイ、プリンタなどの出力装置、タッチスクリーンなどの入出力装置のうちの一部または全部を含むことができる。
通信部907は、図15の学習装置とは異なる装置との間でデータをネットワーク経由でやり取りする。通信部907は、無線通信および有線通信の一方または両方を行うことのできるモジュールまたはデバイスである。
図16の学習装置は、通信部1001と、学習制御部1002と、ニューラルネットワーク1003と、学習結果抽出部1004と、学習結果出力部1005とを含む。
通信部907は、図16の学習装置とは異なる装置との間でデータをネットワーク経由でやり取りする。通信部907は、例えば、学習開始指令を受け取ったり、学習データベース装置404へアクセスして必要な学習データを取得したり、学習結果としての学習パラメータを利用者端末装置401へと送信したりしてもよい。
学習制御部1002は、学習開始指令の受け取りをトリガとして学習を開始する。学習制御部1002は、学習開始指令によって指定される対象に関わる(換言すれば、利用者の目的にふさわしい)学習データを学習データベース装置404に通信部1001を介して要求する。学習制御部1002は、学習開始指令によって指定される対象に関わる機械学習を行うためのモデルをニューラルネットワーク1003に設定する。
学習制御部1002は、学習データベース装置404から取得した学習データをニューラルネットワーク1003に与えて学習を実施する。学習制御部1002は、ニューラルネットワーク1003が所定の学習レベルに到達すると、学習結果としての学習パラメータを学習結果抽出部1004に抽出させる。そして、学習制御部1002は、抽出された学習パラメータを学習結果出力部1005に出力させる。なお、学習制御部1002は、所定の条件下で学習を打ち切ることもある。
ニューラルネットワーク1003は、図17に例示されるように、ニューラルネットワーク入力部1101と、深層ニューラルネットワーク1102と、ニューラルネットワーク出力部1103とを含む。
ニューラルネットワーク入力部1101は、入力データとしてのシーン画像を学習制御部1002から受け取り、深層ニューラルネットワーク1102に送る。深層ニューラルネットワーク1102は、入力シーン画像に基づいてシーンパラメータを生成する。ニューラルネットワーク出力部1103は、生成されたシーンパラメータを出力データとして学習制御部1002に返す。
学習結果抽出部1004は、学習制御部1002からの指示に従って、ニューラルネットワーク1003の学習終了後に当該ニューラルネットワークに設定されている学習パラメータを抽出し、学習結果出力部1005に送る。
学習結果出力部1005は、学習結果抽出部1004から学習パラメータを受け取り、例えばパケット化などの必要な処理を施し、通信部1001を介して利用者端末装置401または他の装置へと出力する。
以下、図19を用いて各学習装置の動作が説明される。
まず、学習制御部1002は、通信部1001を介して学習開始指令を受領する(ステップS1301)。学習制御部1002は、この学習開始指令によって指定される対象に関わる学習データを学習データベース装置404に通信部1001を介して要求する(ステップ1302)。また、学習制御部1002は、この学習開始指令によって指定される対象に関わる機械学習を行うためのモデルをニューラルネットワーク1003に設定する(ステップS1303)。ステップS1302およびステップS1303の終了後に処理はステップS1304へと進む。
ステップS1304において、学習制御部1002は、学習データベース装置404から取得した学習データを所定単位読み込み、ニューラルネットワーク1003の機械学習を実施する。学習制御部1002は、所定の学習打ち切り条件が満足するか(ステップS1305)、ニューラルネットワーク1003が所定の学習レベルに到達するまで(ステップS1306)、ステップS1304を繰り返し実行する。ニューラルネットワーク1003が所定の学習レベルに到達すると、学習結果抽出部1004が学習結果としての学習パラメータを抽出し、学習結果出力部1005がこれを出力することで図19の動作は終了する(ステップS1307)。
以上説明したように、第3の実施形態に係るサービス提供システムは、2次元画像に基づいて推定、認識または識別などをする能力を獲得するための機械学習を利用者からの要求に応じて実施し、学習結果を利用者端末に含まれる深層ニューラルネットワークに設定する。従って、このサービス提供システムによれば、利用者は、自己の利用者端末において機械学習を実施せずとも、利用者の目的にふさわしい能力を備えた深層ニューラルネットワークを使用することができる。
上述の実施形態は、本発明の概念の理解を助けるための具体例を示しているに過ぎず、本発明の範囲を限定することを意図されていない。実施形態は、本発明の要旨を逸脱しない範囲で、様々な構成要素の付加、削除または転換をすることができる。
上記各実施形態において説明された種々の機能部は、回路を用いることで実現されてもよい。回路は、特定の機能を実現する専用回路であってもよいし、プロセッサのような汎用回路であってもよい。
上記各実施形態の処理の少なくとも一部は、汎用のコンピュータを基本ハードウェアとして用いることでも実現可能である。上記処理を実現するプログラムは、コンピュータで読み取り可能な記録媒体に格納して提供されてもよい。プログラムは、インストール可能な形式のファイルまたは実行可能な形式のファイルとして記録媒体に記憶される。記録媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなどである。記録媒体は、プログラムを記憶でき、かつ、コンピュータが読み取り可能であれば、何れであってもよい。また、上記処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
上記各実施形態の一部または全部は、特許請求の範囲のほか以下の付記に示すように記載することも可能であるが、これに限られない。
(付記1)
メモリと、
前記メモリに接続されたプロセッサと
を具備し、
前記プロセッサは、
(a)2次元画像を取得し、
(b)人工知能に前記2次元画像を与えて前記2次元画像の被写体の3次元形状を推定させる
ように構成され、
前記人工知能は、サンプル被写体の3次元形状を表す教師データと、当該サンプル被写体の3次元形状を撮影したサンプル2次元画像とを含む学習データを用いて行われた機械学習の学習結果が設定されている、
形状推定装置。
10,21,23・・・2次元画像
11,20,22・・・形状情報
24・・・学習データ
30,33・・・シーンパラメータ
31,32・・・シーン画像
100・・・形状推定装置
101・・・取得部
102・・・推定部
102,210,1102・・・深層ニューラルネットワーク
200,300,802・・・画像生成装置
220・・・学習装置
310・・・空間認識学習装置
320・・・空間認識装置
401・・・利用者端末装置
402・・・学習サービス提供装置
403・・・学習データ作成システム
404・・・学習データベース装置
405・・・物体認識学習装置
406・・・移動空間認識学習装置
407・・・対象識別学習装置
501・・・コンピュータ
502・・・カメラ
503・・・表示部
504・・・キーボード
505・・・マウス
601,902・・・CPU
602,903・・・ROM
603,904・・・RAM
604,905・・・記憶装置
605,906・・・入出力部
606,706,907,1001・・・通信部
701・・・ユーザインタフェース部
702・・・学習依頼情報取得部
704・・・学習プログラム起動部
705・・・外部プログラム起動部
801・・・シーンパラメータ生成装置
803・・・学習データ設定装置
804・・・通信装置
805・・・画像記録装置
901・・・GPU
1002・・・学習制御部
1003・・・ニューラルネットワーク
1004・・・学習結果抽出部
1005・・・学習結果出力部
1101・・・ニューラルネットワーク入力部
1103・・・ニューラルネットワーク出力部

Claims (11)

  1. 2次元画像を取得する取得部と、
    人工知能を備え、当該人工知能に前記2次元画像を与えて前記2次元画像の被写体の3次元形状を推定させる推定部と
    を具備し、
    前記人工知能は、サンプル被写体の3次元形状を表す教師データと、当該サンプル被写体の3次元形状を撮影したサンプル2次元画像とを含む学習データを用いて行われた機械学習の学習結果が設定されている、
    形状推定装置。
  2. 前記推定部は、前記人工知能に前記2次元画像の被写体の3次元形状を推定させ、当該3次元形状を記述する形状情報を得る、請求項1に記載の形状推定装置。
  3. 前記形状情報は、基本モデルの表す所定の3次元形状の表面に対して施される変形毎に当該変形の位置および強度をそれぞれ定める位置情報および強度情報を含む、請求項2に記載の形状推定装置。
  4. 前記形状情報は、前記2次元画像の被写体の3次元形状の実サイズを定めるサイズ情報をさらに含む、請求項3に記載の形状推定装置。
  5. 前記変形は、前記所定の3次元形状の表面のうち前記位置情報の示す作用点を予め定められた原点から当該作用点を結ぶ直線に略平行な作用方向に沿って前記強度情報の示す量だけ変位させる第1の種別の変形を含む、請求項3に記載の形状推定装置。
  6. 前記第1の種別の変形は、前記所定の3次元形状の表面を伸縮自在な膜と仮定して前記作用点を前記作用方向に沿って前記強度情報の示す量だけ変位させた場合に前記所定の3次元形状の表面に生じる伸縮をシミュレートする、請求項5に記載の形状推定装置。
  7. 前記第1の種別の変形は、前記所定の3次元形状の表面を伸縮自在な膜と仮定して前記作用点に当該膜の内側または外側から曲面を押し当てて当該作用点を前記作用方向に沿って前記強度情報の示す量だけ変位させた場合に前記所定の3次元形状の表面に生じる伸縮をシミュレートする、請求項6に記載の形状推定装置。
  8. 前記形状情報は、前記曲面のサイズを定めるサイズ情報をさらに含む、請求項7に記載の形状推定装置。
  9. 前記機械学習は、
    学習用の人工知能に前記サンプル2次元画像を与えて前記サンプル被写体の3次元形状を推定させることと、
    前記サンプル被写体の3次元形状の推定結果に基づいてレンダリングされた前記サンプル被写体の推定3次元形状を撮影した再現画像を生成することと、
    前記再現画像が前記サンプル2次元画像に類似するように前記学習用の人工知能の学習パラメータを更新することと
    を含む、請求項1に記載の形状推定装置。
  10. 前記推定部は、前記被写体の姿勢を推定し、前記被写体の基準姿勢からの差分を示す姿勢情報をさらに生成する、請求項2に記載の形状推定装置。
  11. 前記被写体の3次元形状は基準面に関して略面対称であって、
    前記形状情報は、前記所定の3次元形状の表面のうち前記基準面から一方側に対して施される変形について前記位置情報および前記強度情報を含み、前記所定の3次元形状の表面のうち前記基準面から他方側に対して施される変形について前記位置情報および前記強度情報を含まない、
    請求項3に記載の形状推定装置。
JP2017029248A 2017-02-20 2017-02-20 形状推定装置及び方法 Active JP6987508B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2017029248A JP6987508B2 (ja) 2017-02-20 2017-02-20 形状推定装置及び方法
CN201880006147.8A CN110291358B (zh) 2017-02-20 2018-01-25 形状估计装置
PCT/JP2018/003499 WO2018150901A1 (en) 2017-02-20 2018-01-25 Shape estimating apparatus
US16/479,246 US11036965B2 (en) 2017-02-20 2018-01-25 Shape estimating apparatus
EP18709087.3A EP3583380B1 (en) 2017-02-20 2018-01-25 Shape estimating apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017029248A JP6987508B2 (ja) 2017-02-20 2017-02-20 形状推定装置及び方法

Publications (3)

Publication Number Publication Date
JP2018136632A true JP2018136632A (ja) 2018-08-30
JP2018136632A5 JP2018136632A5 (ja) 2019-04-25
JP6987508B2 JP6987508B2 (ja) 2022-01-05

Family

ID=61569309

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017029248A Active JP6987508B2 (ja) 2017-02-20 2017-02-20 形状推定装置及び方法

Country Status (5)

Country Link
US (1) US11036965B2 (ja)
EP (1) EP3583380B1 (ja)
JP (1) JP6987508B2 (ja)
CN (1) CN110291358B (ja)
WO (1) WO2018150901A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671084A (zh) * 2018-11-15 2019-04-23 华东交通大学 一种工件形状的测量方法
JP2020086869A (ja) * 2018-11-22 2020-06-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 画像生成装置、画像生成方法及びコンピュータープログラム
WO2020148810A1 (ja) * 2019-01-15 2020-07-23 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JP2020198004A (ja) * 2019-06-04 2020-12-10 三菱電機株式会社 移動体識別装置、移動体識別方法及びプログラム
JP2021060294A (ja) * 2019-10-08 2021-04-15 三星電子株式会社Samsung Electronics Co.,Ltd. 3次元形状推定装置及び3次元形状推定方法
JP2021071919A (ja) * 2019-10-31 2021-05-06 三菱電機株式会社 道路監視装置
WO2023063006A1 (ja) * 2021-10-13 2023-04-20 株式会社日立製作所 物体認識装置、物体認識方法
WO2024095871A1 (ja) * 2022-11-02 2024-05-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 方法、サーバー、および、撮影装置
WO2024106565A1 (ko) * 2022-11-16 2024-05-23 전준혁 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10692244B2 (en) 2017-10-06 2020-06-23 Nvidia Corporation Learning based camera pose estimation from images of an environment
JP7133926B2 (ja) * 2018-01-15 2022-09-09 キヤノン株式会社 情報処理装置、システム、情報処理方法
EP3564917B1 (en) * 2018-05-04 2020-07-01 Axis AB A method for detecting motion in a video sequence
US20200020121A1 (en) * 2018-07-13 2020-01-16 Denso International America, Inc. Dimension estimating system and method for estimating dimension of target vehicle
US10957099B2 (en) * 2018-11-16 2021-03-23 Honda Motor Co., Ltd. System and method for display of visual representations of vehicle associated information based on three dimensional model
CN111415326A (zh) * 2020-02-18 2020-07-14 中国铁道科学研究院集团有限公司 一种用于铁路接触网螺栓异常状态的检测方法及系统
JP6846765B1 (ja) * 2020-03-26 2021-03-24 株式会社 情報システムエンジニアリング 情報処理プログラム
US20210334594A1 (en) * 2020-04-23 2021-10-28 Rehrig Pacific Company Scalable training data capture system
CN111964606B (zh) * 2020-08-18 2021-12-07 广州小鹏汽车科技有限公司 一种三维信息的处理方法和装置
US11972052B2 (en) * 2021-05-05 2024-04-30 University Of Southern California Interactive human preference driven virtual texture generation and search, and haptic feedback systems and methods
WO2023204548A1 (ko) * 2022-04-20 2023-10-26 삼성전자 주식회사 이미지를 처리하는 전자 장치 및 그 동작 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749962A (ja) * 1994-04-25 1995-02-21 Sony Corp 曲面作成装置
JP2014137725A (ja) * 2013-01-17 2014-07-28 Canon Inc 情報処理装置、情報処理方法及びプログラム
JP2015197374A (ja) * 2014-04-01 2015-11-09 キヤノン株式会社 3次元形状推定装置及び3次元形状推定方法
JP2016194892A (ja) * 2015-04-01 2016-11-17 みずほ情報総研株式会社 加齢化予測システム、加齢化予測方法及び加齢化予測プログラム

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4791581A (en) 1985-07-27 1988-12-13 Sony Corporation Method and apparatus of forming curved surfaces
JPH06162173A (ja) 1992-11-20 1994-06-10 Mitsubishi Electric Corp 3次元物体認識装置
US7657083B2 (en) * 2000-03-08 2010-02-02 Cyberextruder.Com, Inc. System, method, and apparatus for generating a three-dimensional representation from one or more two-dimensional images
SE528068C2 (sv) * 2004-08-19 2006-08-22 Jan Erik Solem Med Jsolutions Igenkänning av 3D föremål
JP4938093B2 (ja) 2007-03-23 2012-05-23 トムソン ライセンシング 2d−to−3d変換のための2d画像の領域分類のシステム及び方法
JP5395470B2 (ja) 2009-03-12 2014-01-22 ダイハツ工業株式会社 形状認識装置
CN102645173A (zh) 2011-02-16 2012-08-22 张文杰 一种基于多目视觉的桥梁三维变形监测方法
CN102223553B (zh) 2011-05-27 2013-03-20 山东大学 一种二维视频到三维视频的自动转换方法
CN102819855B (zh) 2011-06-08 2015-07-29 北京开心人信息技术有限公司 二维图像的生成方法及装置
EP2538388B1 (en) 2011-06-20 2015-04-01 Alcatel Lucent Method and arrangement for image model construction
US10095917B2 (en) 2013-11-04 2018-10-09 Facebook, Inc. Systems and methods for facial representation
EP2869239A3 (en) 2013-11-04 2015-08-19 Facebook, Inc. Systems and methods for facial representation
CN103984936A (zh) 2014-05-29 2014-08-13 中国航空无线电电子研究所 用于三维动态目标识别的多传感器多特征融合识别方法
US20160070952A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus for facial recognition
US20160096318A1 (en) * 2014-10-03 2016-04-07 Disney Enterprises, Inc. Three dimensional (3d) printer system and method for printing 3d objects with user-defined material parameters
JP6548967B2 (ja) * 2015-06-16 2019-07-24 株式会社東芝 画像処理装置、画像処理方法及びプログラム
JP6754619B2 (ja) * 2015-06-24 2020-09-16 三星電子株式会社Samsung Electronics Co.,Ltd. 顔認識方法及び装置
KR20170000748A (ko) 2015-06-24 2017-01-03 삼성전자주식회사 얼굴 인식 방법 및 장치
CN105488785B (zh) 2015-11-23 2019-01-15 华南理工大学 一种基于视觉词典的深度图生成方法
CN105528779A (zh) 2015-11-30 2016-04-27 井冈山大学 一种气囊柔性人台个性化腹部测量方法及系统
CN105930382A (zh) 2016-04-14 2016-09-07 严进龙 一种用2d图片搜索3d模型的方法
CN105979244A (zh) 2016-05-31 2016-09-28 十二维度(北京)科技有限公司 一种基于深度学习的2d图像转3d图像的方法及系统
US9965863B2 (en) * 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0749962A (ja) * 1994-04-25 1995-02-21 Sony Corp 曲面作成装置
JP2014137725A (ja) * 2013-01-17 2014-07-28 Canon Inc 情報処理装置、情報処理方法及びプログラム
JP2015197374A (ja) * 2014-04-01 2015-11-09 キヤノン株式会社 3次元形状推定装置及び3次元形状推定方法
JP2016194892A (ja) * 2015-04-01 2016-11-17 みずほ情報総研株式会社 加齢化予測システム、加齢化予測方法及び加齢化予測プログラム

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109671084A (zh) * 2018-11-15 2019-04-23 华东交通大学 一种工件形状的测量方法
CN109671084B (zh) * 2018-11-15 2023-05-30 华东交通大学 一种工件形状的测量方法
JP2020086869A (ja) * 2018-11-22 2020-06-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 画像生成装置、画像生成方法及びコンピュータープログラム
JP7199931B2 (ja) 2018-11-22 2023-01-06 エヌ・ティ・ティ・コミュニケーションズ株式会社 画像生成装置、画像生成方法及びコンピュータープログラム
JP7134260B2 (ja) 2019-01-15 2022-09-09 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
WO2020148810A1 (ja) * 2019-01-15 2020-07-23 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JPWO2020148810A1 (ja) * 2019-01-15 2021-11-18 株式会社ソニー・インタラクティブエンタテインメント 情報処理装置
JP2020198004A (ja) * 2019-06-04 2020-12-10 三菱電機株式会社 移動体識別装置、移動体識別方法及びプログラム
JP7262312B2 (ja) 2019-06-04 2023-04-21 三菱電機株式会社 移動体識別装置、移動体識別方法及びプログラム
JP2021060294A (ja) * 2019-10-08 2021-04-15 三星電子株式会社Samsung Electronics Co.,Ltd. 3次元形状推定装置及び3次元形状推定方法
JP2021071919A (ja) * 2019-10-31 2021-05-06 三菱電機株式会社 道路監視装置
WO2023063006A1 (ja) * 2021-10-13 2023-04-20 株式会社日立製作所 物体認識装置、物体認識方法
WO2024095871A1 (ja) * 2022-11-02 2024-05-10 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 方法、サーバー、および、撮影装置
WO2024106565A1 (ko) * 2022-11-16 2024-05-23 전준혁 2d 얼굴 이미지로부터 3d 얼굴 모델을 생성하는 시스템 및 방법

Also Published As

Publication number Publication date
EP3583380A1 (en) 2019-12-25
JP6987508B2 (ja) 2022-01-05
US11036965B2 (en) 2021-06-15
CN110291358B (zh) 2022-04-05
US20190384964A1 (en) 2019-12-19
CN110291358A (zh) 2019-09-27
WO2018150901A1 (en) 2018-08-23
EP3583380B1 (en) 2022-02-23

Similar Documents

Publication Publication Date Title
JP6987508B2 (ja) 形状推定装置及び方法
US11842517B2 (en) Using iterative 3D-model fitting for domain adaptation of a hand-pose-estimation neural network
Xia et al. Gibson env: Real-world perception for embodied agents
CN109003325B (zh) 一种三维重建的方法、介质、装置和计算设备
CN112771539B (zh) 采用使用神经网络从二维图像预测的三维数据以用于3d建模应用
US11030525B2 (en) Systems and methods for deep localization and segmentation with a 3D semantic map
EP3343502B1 (en) Depth sensor noise
Kumar et al. Monocular fisheye camera depth estimation using sparse lidar supervision
RU2642167C2 (ru) Устройство, способ и система для реконструкции 3d-модели объекта
US11373067B2 (en) Parametric top-view representation of scenes
CN111079619B (zh) 用于检测图像中的目标对象的方法和装置
JP7178396B2 (ja) 入力映像に含まれた客体の3次元ポーズの推定のためのデータを生成する方法およびコンピュータシステム
CN110730970B (zh) 优化策略控制器的方法和系统
US9177381B2 (en) Depth estimate determination, systems and methods
CN105164726A (zh) 用于3d重构的相机姿态估计
KR20210025942A (ko) 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법
US11748998B1 (en) Three-dimensional object estimation using two-dimensional annotations
CN112512755A (zh) 使用从2.5d视觉数据预测的域不变3d表示的机器人操纵
CN116917949A (zh) 根据单目相机输出来对对象进行建模
CN116097316A (zh) 用于非模态中心预测的对象识别神经网络
Huang et al. Network algorithm real-time depth image 3D human recognition for augmented reality
CN114494395A (zh) 基于平面先验的深度图生成方法、装置、设备及存储介质
US11417063B2 (en) Determining a three-dimensional representation of a scene
CN115578236A (zh) 基于物理引擎和碰撞实体的位姿估计虚拟数据集生成方法
Zhang et al. Kinect-based Universal Range Sensor and its Application in Educational Laboratories.

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190312

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190312

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200529

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201127

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20201127

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20201208

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20201215

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210122

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210126

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20210817

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20210917

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20210921

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

C302 Record of communication

Free format text: JAPANESE INTERMEDIATE CODE: C302

Effective date: 20211018

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20211019

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20211116

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211201

R150 Certificate of patent or registration of utility model

Ref document number: 6987508

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150