JP7370922B2 - 学習方法、プログラム及び画像処理装置 - Google Patents

学習方法、プログラム及び画像処理装置 Download PDF

Info

Publication number
JP7370922B2
JP7370922B2 JP2020069159A JP2020069159A JP7370922B2 JP 7370922 B2 JP7370922 B2 JP 7370922B2 JP 2020069159 A JP2020069159 A JP 2020069159A JP 2020069159 A JP2020069159 A JP 2020069159A JP 7370922 B2 JP7370922 B2 JP 7370922B2
Authority
JP
Japan
Prior art keywords
learning
distance
image
statistical model
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020069159A
Other languages
English (en)
Other versions
JP2021165944A (ja
Inventor
直 三島
正子 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020069159A priority Critical patent/JP7370922B2/ja
Priority to US17/192,973 priority patent/US20210312233A1/en
Publication of JP2021165944A publication Critical patent/JP2021165944A/ja
Application granted granted Critical
Publication of JP7370922B2 publication Critical patent/JP7370922B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/467Encoded features or binary features, e.g. local binary patterns [LBP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。
被写体までの距離を取得するために、2つの撮像装置(カメラ)やステレオカメラ(複眼のカメラ)で撮像された画像を用いることが知られていたが、近年では、1つの撮像装置(単眼のカメラ)で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。
ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。
しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット(学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット)を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。
Lee, Dong-Hyun. "Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks."Workshop on Challenges in Representation Learning, ICML. Vol.3. 2013.
そこで、本発明が解決しようとする課題は、統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。
実施形態によれば、被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置が実行する学習方法が提供される。前記学習方法は、形状が既知である被写体を含む学習用画像を取得することと、前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得することと、前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることとを具備する。前記学習させることは、前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正することと、前記学習用画像及び前記第2距離を前記統計モデルに学習させることとを含む。前記学習させることは、前記統計モデルを正則化することを含む。前記統計モデルを正則化することは、前記第2距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新することを含む。
実施形態における測距システムの構成の一例を示す図。 画像処理装置のシステム構成の一例を示す図。 測距システムの動作の概要について説明するための図。 被写体までの距離を予測する原理について説明するための図。 撮像画像から距離を予測するパッチ方式について説明するための図。 画像パッチに関する情報の一例を示す図。 撮像画像から距離を予測する画面一括方式について説明するための図。 一般的な統計モデルの学習方法の概要について説明するための図。 学習処理部の機能構成の一例を示すブロック図。 学習処理部の動作の概要を示す図。 統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。 撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。
以下、図面を参照して、実施形態について説明する。
図1は、本実施形態における測距システムの構成の一例を示す。図1に示す測距システム1は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得(測定)するために使用される。なお、本実施形態において説明する距離は、絶対的な距離を表すものであってもよいし、相対的な距離を表すものであってもよい。
図1に示すように、測距システム1は、撮像装置2及び画像処理装置3を備える。本実施形態においては、測距システム1が別個の装置である撮像装置2及び画像処理装置3を備えるものとして説明するが、当該測距システム1は、撮像装置2が撮像部として機能し、画像処理装置3が画像処理部として機能する1つの装置(測距装置)として実現されていてもよい。また、画像処理装置3は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。
撮像装置2は、各種画像を撮像するために用いられる。撮像装置2は、レンズ21及びイメージセンサ22を備える。レンズ21及びイメージセンサ22は、撮像装置2の光学系(単眼カメラ)に相当する。
レンズ21には、被写体で反射した光が入射する。レンズ21に入射した光は、レンズ21を透過する。レンズ21を透過した光は、イメージセンサ22に到達し、当該イメージセンサ22によって受光(検出)される。イメージセンサ22は、受光した光を電気信号に変換(光電変換)することによって、複数の画素から構成される画像を生成する。
なお、イメージセンサ22は、例えばCCD(Charge Coupled Device)イメージセンサ及びCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等により実現される。イメージセンサ22は、例えば赤色(R)の波長帯域の光を検出する第1センサ(Rセンサ)221、緑色(G)の波長帯域の光を検出する第2センサ(Gセンサ)222及び青色(B)の波長帯域の光を検出する第3センサ(Bセンサ)223を含む。イメージセンサ22は、第1~第3センサ221~223により対応する波長帯域の光を受光して、各波長帯域(色成分)に対応するセンサ画像(R画像、G画像及びB画像)を生成することができる。すなわち、撮像装置2によって撮像される画像はカラー画像(RGB画像)であり、当該画像にはR画像、G画像及びB画像が含まれる。
なお、本実施形態においてはイメージセンサ22が第1~第3センサ221~223を含むものとして説明するが、イメージセンサ22は、第1~第3センサ221~223のうちの少なくとも1つを含むように構成されていればよい。また、イメージセンサ22は、第1~第3センサ221~223に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。
本実施形態においてレンズ21を透過した光に基づいて生成された画像は、光学系(レンズ21)の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。
図1に示す画像処理装置3は、機能構成として、統計モデル格納部31、画像取得部32、距離取得部33、出力部34及び学習処理部35を含む。
統計モデル格納部31には、被写体までの距離を撮像装置2によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部31に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として当該画像中の被写体までの距離を予測(出力)することができる。
なお、統計モデルは、例えばニューラルネットワークまたはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。
画像取得部32は、上記した撮像装置2によって撮像された画像を、当該撮像装置2(イメージセンサ22)から取得する。
距離取得部33は、画像取得部32によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部33は、画像を統計モデル格納部31に格納されている統計モデルに入力することによって、当該画像中の被写体までの距離を示す距離情報を取得する。
出力部34は、距離取得部33によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部34は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する(つまり、距離情報を画像データとして出力する)ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示することができる。出力部34によって出力される距離情報は、例えば撮像装置2によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。
学習処理部35は、例えば画像取得部32によって取得される画像を用いて統計モデル格納部31に格納されている統計モデルを学習させる処理を実行する。学習処理部35によって実行される処理の詳細については後述する。
なお、図1に示す例では、画像処理装置3が各部31~35を含むものとして説明したが、当該画像処理装置3は、例えば画像取得部32、距離取得部33及び出力部34を含む測距装置と、統計モデル格納部31、画像取得部32及び学習処理部35を含む学習装置とから構成されていてもよい。
図2は、図1に示す画像処理装置3のシステム構成の一例を示す。画像処理装置3は、CPU301、不揮発性メモリ302、RAM303及び通信デバイス304を備える。また、画像処理装置3は、CPU301、不揮発性メモリ302、RAM303及び通信デバイス304を相互に接続するバス305を有する。
CPU301は、画像処理装置3内の様々なコンポーネントの動作を制御するためのプロセッサである。CPU301は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。CPU301は、不揮発性メモリ302からRAM303にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム(OS)や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム303Aを含む。
不揮発性メモリ302は、補助記憶装置として用いられる記憶媒体である。RAM303は、主記憶装置として用いられる記憶媒体である。図2においては不揮発性メモリ302及びRAM303のみが示されているが、画像処理装置3は、例えばHDD(Hard Disk Drive)及びSSD(Solid State Drive)等の他の記憶装置を備えていてもよい。
なお、本実施形態において、図1に示す統計モデル格納部31は、例えば不揮発性メモリ302または他の記憶装置等によって実現される。
また、本実施形態において、図1に示す画像取得部32、距離取得部33、出力部34及び学習処理部35の一部または全ては、CPU301(つまり、画像処理装置3のコンピュータ)に画像処理プログラム303Aを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム303Aは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置3にダウンロードされてもよい。
ここでは、CPU301に画像処理プログラム303Aを実行させるものとして説明したが、各部32~35の一部または全ては、CPU301の代わりに例えばGPU(図示せず)を用いて実現されてもよい。また、各部32~35の一部または全ては、IC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。
通信デバイス304は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス304は、信号を送信する送信部と信号を受信する受信部とを含む。通信デバイス304は、ネットワークを介した外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置2が含まれる。この場合、画像処理装置3は、通信デバイス304を介して、撮像装置2から画像を受信することができる。
図2においては省略されているが、画像処理装置3は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。
次に、図3を参照して、本実施形態における測距システム1の動作の概要について説明する。
測距システム1において、撮像装置2(イメージセンサ22)は、上記したように光学系(レンズ21)の収差の影響を受けた画像を生成する。
画像処理装置3(画像取得部32)は、撮像装置2によって生成された画像を取得し、当該画像を統計モデル格納部31に格納されている統計モデルに入力する。
ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離(予測値)が出力される。これにより、画像処理装置3(距離取得部33)は、統計モデルから出力された距離(画像中の被写体までの距離)を示す距離情報を取得することができる。
このように本実施形態においては、統計モデルを用いて、撮像装置2によって撮像された画像から距離情報を取得することができる。
ここで、図4を参照して、本実施形態において被写体までの距離を予測する原理について簡単に説明する。
撮像装置2によって撮像された画像(以下、撮像画像と表記)には、上記したように当該撮像装置2の光学系の収差(レンズ収差)に起因するぼけが生じている。具体的には、収差のあるレンズ21を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置(撮像装置2においてピントが合う位置)からずれているような場合には、各波長帯域の光が1点に集まらず異なった点に到達する。これが、画像上でぼけ(色収差)として現れる。
また、撮像画像においては、当該撮像画像中の被写体までの距離(つまり、撮像装置2に対する被写体の位置)に応じて非線形に変化するぼけ(色、サイズ及び形状)が観察される。
このため、本実施形態においては、図4に示すように撮像画像401に生じるぼけ(ぼけ情報)402を被写体403までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体403までの距離404を予測する。
以下、統計モデルにおいて撮像画像から距離を予測する方式の一例について説明する。ここでは、パッチ方式及び画面一括方式について説明する。
まず、図5を参照して、パッチ方式について説明する。パッチ方式においては、撮像画像401から局所領域(以下、画像パッチと表記)401aが切り出される(抽出される)。
この場合、例えば撮像画像401の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ401aとして順次切り出すようにしてもよいし、撮像画像401を認識して、被写体(像)が検出された領域を網羅するように画像パッチ401aを切り出すようにしてもよい。なお、画像パッチ401aは、他の画像パッチ401aとの間で一部がオーバーラップしていてもよい。
パッチ方式においては、上記したように切り出された画像パッチ401aに対応する予測値として距離が出力される。すなわち、パッチ方式においては、撮像画像401から切り出された画像パッチ401aの各々を入力として、当該画像パッチ401aの各々に含まれる被写体までの距離404が予測される。
図6は、上記したパッチ方式において統計モデルに入力される画像パッチ401aに関する情報の一例を示す。
パッチ方式においては、撮像画像401に含まれるR画像、G画像及びB画像のそれぞれについて、当該撮像画像401から切り出された画像パッチ401aの勾配データ(R画像の勾配データ、G画像の勾配データ及びB画像の勾配データ)が生成される。統計モデルには、このように生成された勾配データが入力される。
なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分(差分値)に相当する。例えば画像パッチ401aがn画素(X軸方向)×m画素(Y軸方向)の矩形領域として抽出される場合、当該画像パッチ401a内の各画素について算出した例えば右隣の画素との差分値をn行×m列のマトリクス状に配置した勾配データ(つまり、各画素の勾配データ)が生成される。
統計モデルは、R画像の勾配データと、G画像の勾配データと、B画像の勾配データとを用いて、当該各画像に生じているぼけから距離を予測する。図6においてはR画像、G画像及びB画像の各々の勾配データが統計モデルに入力される場合について示しているが、RGB画像の勾配データが統計モデルに入力される構成であってもよい。
次に、図7を参照して、画面一括方式について説明する。画面一括方式においては、上記した画像パッチ401aの切り出しは行われない。
画面一括方式においては、撮像画像401の全体領域(に関する情報)が統計モデルに入力され、当該統計モデルから当該全体領域に対応する予測値として距離が出力される。すなわち、画面一括方式においては、撮像画像401の全体領域を入力として、撮像画像401の全体領域に含まれる被写体までの距離404が予測される。
なお、画面一括方式において統計モデルに入力される全体領域に関する情報は、例えば上記したR画像、G画像及びB画像(を構成する各画素の)の勾配データである。
また、画面一括方式においては、撮像画像401の全体領域が統計モデルに入力されるため、上記した距離の予測に当該撮像画像401(全体領域)から抽出されるコンテクストを利用することが可能である。なお、コンテクストとは、撮像画像401中の線分や色の分布等に関する特徴量に相当する。また、コンテクストには、被写体についての特徴(人物の形状及び建物の形状等)も含まれる。
ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離(を示す距離情報)を取得することが可能であるが、当該統計モデルから出力される距離の精度を向上させるためには、当該統計モデルを学習させる必要がある。
以下、図8を参照して、一般的な統計モデルの学習方法の概要について説明する。上記したパッチ方式及び画面一括方式のいずれの方式を用いる場合においても、統計モデルの学習は、基本的に、図8に示すような流れで行われる。具体的には、統計モデルの学習は、当該学習のために用意された画像(以下、学習用画像と表記)501に関する情報を統計モデルに入力し、当該統計モデルから出力(予測)された距離502と正解値503との誤差を当該統計モデルにフィードバックすることによって行われる。なお、正解値503とは、学習用画像501の撮像地点から当該学習用画像501に含まれる被写体までの実際の距離(実測値)をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ(例えば、重み係数)を更新することをいう。
具体的には、パッチ方式が適用される場合には、学習用画像501から切り出された画像パッチ(局所領域)毎に、当該画像パッチに関する情報(勾配データ)が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する画素の距離502が出力される。このように出力された距離502と正解値503とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。
また、画面一括方式が適用される場合には、学習用画像501の全体領域に関する情報(勾配データ)が一括して統計モデルに入力され、当該統計モデルによって当該学習用画像501を構成する各画素の距離502が出力される。このように出力された距離502と正解値503とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。
ところで、統計モデルを学習させるためには、図8において説明した正解ラベル(正解値)が付与された学習用画像(つまり、学習用画像と当該学習用画像から取得されるべき距離である正解ラベルとを含む学習用のデータセット)を用意する必要があるが、当該正解ラベルを得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測する必要があり、煩雑である。また、統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用データセットを用意することは容易ではない。
そこで、本実施形態においては、正解ラベルを必要としない統計モデルの学習を実現するための構成を有する。
以下、図1に示す画像処理装置3に含まれる学習処理部35について具体的に説明する。図9は、学習処理部35の機能構成の一例を示すブロック図である。
図9に示すように、学習処理部35は、距離取得部35a、疑似ラベル生成部35b及び統計モデル学習部35cを含む。
ここで、本実施形態において統計モデルの学習を行う場合、画像処理装置3に含まれる画像取得部32は、学習用画像として、上記した正解ラベルが付与されていない画像(つまり、教示なしの画像)を取得する。なお、本実施形態において、学習用画像には、既知の形状の被写体(既知形状を有する被写体)が含まれているものとする。
距離取得部35aは、画像取得部32によって取得された学習用画像から当該学習用画像に含まれる被写体までの距離を取得する。この場合、距離取得部35aは、学習用画像を統計モデル格納部31に格納されている統計モデルに入力し、当該統計モデルから出力された学習用画像を構成する画素毎の距離を取得する。
ここでは距離取得部35aが統計モデルを利用して距離を取得するものとして説明したが、当該距離は、学習用画像から取得される距離(の予測値)であればよく、例えば当該学習用画像に含まれる被写体に付されたARマーカのような二次元コード等に基づいて取得される距離(当該ARマーカまでの距離)であってもよい。
疑似ラベル生成部35bは、距離取得部35aによって取得された距離に対して学習用画像に含まれる被写体の形状(既知形状)で拘束をかけることによって疑似ラベルを生成する。
上記した距離取得部35aにおいては学習用画像を構成する画素毎の距離が取得されるが、本実施形態において、「距離に対して被写体の既知形状で拘束をかける」とは、距離に対して被写体の既知形状の情報を与えることをいい、具体的には、被写体の既知形状に基づいて、学習用画像を構成する画素毎の距離が当該既知形状に適合するように当該距離を補正することをいう。また、疑似ラベルは、被写体の既知形状に基づいて拘束をかけることによって補正された距離をいう。
統計モデル学習部35cは、疑似ラベル生成部35bによって生成された疑似ラベルを正解ラベルとして用いて統計モデル格納部31に格納されている統計モデルを再学習させる。統計モデル学習部35cによる再学習が完了した統計モデルは、統計モデル格納部31に格納される(つまり、統計モデル格納部31に格納されている統計モデルに上書きされる)。
上記したように学習処理部35は、形状が既知である被写体までの距離を学習用画像から取得し、当該距離に対して被写体の既知形状で拘束をかけることで統計モデルを学習させるように構成されている。
次に、学習処理部35の動作について説明する。図10は、統計モデルを学習させる場合の学習処理部の動作の概要を示している。
本実施形態においては、事前に学習済みの統計モデルが用意されており、当該統計モデルを更に学習させる場合を想定している。
具体的には、学習処理部35は、図10に示すように、事前に学習済みの統計モデル(統計モデル格納部31に格納されている統計モデル)に学習用画像(正解ラベルが付されていない画像)を入力することによって当該統計モデルから出力される学習用画像を構成する画素毎の距離(例えば、マップ形式の距離)を取得する。
更に、学習処理部35は、このような画素毎の距離に対して被写体の既知形状(例えば、平面形状)で拘束をかけることによって疑似ラベルを生成し、当該生成された疑似ラベルを正解ラベルとして用いて当該統計モデルのファインチューニング(再学習)を行う。
本実施形態においては、学習処理部35が上記したように動作することによって、学習用画像に正解ラベル(つまり、実際に計測された距離)が付されていない場合であっても、当該学習用画像を統計モデルに学習させることが可能となる。
図11のフローチャートを参照して、統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。
ここでは、統計モデル格納部31に事前に学習済みである統計モデル(事前学習済みモデル)が格納されているものとして説明するが、当該統計モデルは、例えば撮像装置2で撮像された画像を学習することによって生成されていてもよいし、当該撮像装置2とは異なる撮像装置(またはレンズ)で撮像された画像を学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離を出力するための統計モデルが事前に用意されていればよい。
まず、距離取得部35aは、画像取得部32によって取得された学習用画像(撮像装置2で撮像された画像)を取得する(ステップS11)。なお、学習用画像を撮像する撮像装置2は、任意のレンズが取り付けられた任意のカメラシステムであればよく、上記した統計モデルに事前に学習させた画像を撮像した撮像装置である必要はない。また、ステップS1において取得される学習用画像は、複数であってもよいし、1つであってもよい。
ここで、このステップS11において取得される学習用画像には上記したように既知形状を有する被写体が含まれているが、本実施形態において、既知形状には例えば平面形状が含まれる。この場合、学習用画像に含まれる被写体としては、テレビモニタを利用することができる。このようにテレビモニタを被写体として利用した場合、当該テレビモニタには様々な画像を切り替えて表示することができるため、様々な色パターン(の学習用画像)を統計モデルに学習させることが可能となる。
ここでは、平面形状を有するテレビモニタを被写体として利用する場合について説明するが、当該被写体は、例えば立方体、直方体、球体等の任意の形状を有する他の物体であってもよい。
次に、距離取得部35aは、ステップS11において取得された学習用画像(に関する情報)を統計モデルに入力することによって当該統計モデルから出力された距離を取得する(ステップS2)。このステップS2においては、学習用画像を構成する各画素の勾配データが統計モデルに入力されることによって当該統計モデルから出力される画素毎の距離が取得される。
ここで、本実施形態において、ステップS2において距離を取得するために用いられる統計モデルは例えば学習用画像を撮像した撮像装置2とは異なる撮像装置(またはレンズ)で撮像した画像を学習した統計モデル(すなわち、撮像装置2で撮像された画像の学習については不十分な統計モデル)であるため、当該ステップS2において取得される距離は、比較的精度の低い値となる。
このため、疑似ラベル生成部35bは、ステップS2において取得された距離に対してステップS1において取得された学習用画像に含まれる被写体の既知形状で拘束をかけることにより疑似ラベルを生成する(ステップS3)。なお、学習用画像に含まれる被写体の既知形状(を示す情報)は、例えば画像処理装置3の外部から入力され、当該画像処理装置3(学習処理部35)の内部で予め管理されていればよい。
以下、ステップS3の処理について詳細に説明する。ステップS3においては、学習用画像に含まれる被写体の既知形状(つまり、拘束させるべき形状)のパラメータ表現を生成(または取得)し、ステップS2において取得された距離に当該パラメータ表現をフィッティングさせることで、当該距離を被写体の既知形状で拘束させる。この場合、ステップS2において取得された距離は、パラメータ表現に用いられるパラメータに基づいて補正され、当該補正された距離を疑似ラベルとして利用することができる。
ここで、被写体の既知形状が平面形状である場合を想定する。この場合、3次元空間上の点の座標値をx,y,zとすると、当該3次元空間上の平面は、式(1)のようなパラメータ表現(関数)によって表すことができ、当該式(1)は更に式(2)のように表すことができる。
Figure 0007370922000001

Figure 0007370922000002
この式(2)におけるφは、式(1)におけるa,b,cに相当し、平面形状のパラメータである。この式(1)及び(2)は、パラメータφを満たす点(x,y,z)の集合によって平面形状を表している。なお、上記した式(2)によれば、z座標(つまり、距離)は、x座標、y座標及びパラメータφを用いて表す(算出する)ことができる。
ここで、本実施形態において、ステップS2において取得された画素毎の距離をzとすると、当該距離zに対する上記したパラメータφのフィッティング問題は以下の式(3)のような最適化問題に帰着する。
Figure 0007370922000003
この式(3)においては一般的な最小二乗法を用いており、当該式(3)によれば、学習用画像を構成する各画素(座標値がx,yである各画素)について式(2)を用いて算出される距離(g(x,y;φ))とステップS2において取得された当該画素の距離zとの誤差の合計が最も小さくなるパラメータφ´(つまり、フィッティング後のパラメータ)を求めることができる。
なお、上記したステップS2において取得された距離にはノイズが多く含まれているため、式(3)を用いて求められるパラメータφ´がノイズの影響を受けることが考えられる。このため、例えばノイズに対して高いロバスト性を有するRANSAC(Random Sample Consensus)等をパラメータφ´を求める際に用いてもよい。
次に、疑似ラベル生成部35bは、上記した式(3)によって求められたパラメータφ´(フィッティング後のパラメータ)を用いて、学習用画像を構成する各画素の疑似ラベルを生成する。例えば座標値がx,yである画素(以下、単に画素(x,y)と表記)の疑似ラベルz´は、以下の式(4)を用いて生成(算出)される。
Figure 0007370922000004
この式(4)によれば、画素(x,y)の疑似ラベルz´は、上記した式(2)に対して式(3)を用いて求められたパラメータφ´を当てはめることで生成(算出)することができる。
ここでは学習用画像に含まれる被写体の既知形状が平面形状である場合について説明したが、当該既知形状は、パラメータ表現(複数のパラメータからなる任意の関数で表現すること)が可能であれば他の形状であってもよい。
ステップS3の処理が実行されると、統計モデル学習部35cは、当該ステップS3において生成された疑似ラベル(画素毎の距離)を正解ラベルとして用いて、統計モデル格納部31に格納されている統計モデルを学習させる(ステップS4)。換言すれば、統計モデル学習部35cは、ステップS1において取得された学習用画像とステップS3において生成された当該学習用画像を構成する各画素の疑似ラベルとを含む学習用データセットを統計モデルに学習させる。
以下、ステップS4の処理について詳細に説明する。ここでは、学習用画像Iに含まれる被写体の距離を取得するために用いられる統計モデルであって、パラメータ(例えば、重み等)がθである統計モデルをf(I,x,y;θ)と表現する。この統計モデルf(I,x,y;θ)は、学習用画像Iを構成する画素(座標値がx,yである画素)の勾配データを入力すると、当該画素に対応する距離を出力する。以下の説明においては、学習用画像Iを構成する画素の勾配データが入力されることによって統計モデルから出力される当該画素に対応する距離を単に当該画素に対応する予測値と表記する。
本実施形態においては、統計モデルを学習させる方法として第1~第3学習方法を説明する。
まず、第1学習方法について説明する。第1学習方法は、上記した疑似ラベルで統計モデルを直接教示する方法に相当する。具体的には、第1学習方法においては、損失関数の値を最小化するための以下の式(5)を用いて統計モデルを学習させる。
Figure 0007370922000005
ここで、式(5)におけるNは、学習用画像Iの集合を表し、当該学習用画像Iを構成する画素の座標値x,y、当該画素の疑似ラベルz´及び学習用画像Iのタプル(x,y,z´,I)を含む。また、式(5)中のf(I,x,y;θ)は上記したように統計モデルを表している。
すなわち、式(5)における損失関数は、学習用画像Iを構成する画素の疑似ラベルz´と当該画素に対応する予測値(統計モデルから出力される距離)との誤差を、Nに含まれる学習用画像Iを構成する全ての画素について算出して合計することを表しており、このような式(5)によれば、当該誤差の合計が最も小さくなるパラメータθ´を求めることができる。
第1学習方法においては、統計モデルのパラメータθを上記した式(5)を用いて求められたパラメータθ´に更新することにより、学習用画像を統計モデルに学習させることができる。
なお、式(5)においてはL1ノルムを用いた損失関数が示されているが、パラメータθ´を求めるための損失関数は、L2ノルムを用いる損失関数であってもよいし、例えば不均一分散を用いる損失関数等であってもよい。
次に、第2学習方法について説明する。上記した第1学習方法においては疑似ラベルで統計モデルを直接教示するものとして説明したが、第2学習方法は、更に正則化項を追加することで、統計モデルのパラメータに既知形状の拘束をかける方法に相当する。具体的には、第2学習方法においては、損失関数に正規化項を加えた目的関数の値を最小化するための以下の式(6)を用いて統計モデルを学習させる(正則化する)。
Figure 0007370922000006
ここで、第2学習方法においては、学習用画像Iを構成する1つの画素(以下、第1画素と表記)の座標値をx1,y1、当該学習用画像Iを構成する画素であって当該第1画素とは異なる1つの画素(以下、第2画素と表記)の座標値をx2,y2とする。また、第1画素の疑似ラベルをz1´、第2画素の疑似ラベルをz2´とする。
この場合、式(6)における損失関数は、上記した第1学習方法で用いられる式(5)における損失関数中のx、y、z´をx1、y1、z1´とした点以外は当該式(5)における損失関数と同様である。
一方、式(6)における正則化項中のNは、学習用画像Iの集合を表し、当該学習用画像Iを構成する第1画素のタプル(x1,y1,z1´,I)及び第2画素のタプル(x2,y2,z2´,I)を含む。
また、式(6)における正則化項は、疑似ラベルの相対値と予測値の相対値との誤差を、Nに含まれる学習用画像Iを構成する全ての画素について算出して合計することを表している。なお、疑似ラベルの相対値とは、上記した第1画素の疑似ラベルz1´と、第2画素の疑似ラベルz2´との差分に相当する。また、予測値の相対値とは、第1画素に対応する予測値と、第2画素に対応する予測値との差分に相当する。また、式(6)における正則化項において「誤差をNに含まれる学習用画像Iを構成する全ての画素について算出する」とは、当該学習用画像Iを構成する画素の各々を第1画素として誤差を算出することをいう。なお、この場合における第2画素としては、第1画素に対して任意の1つの画素が選択されればよい。
上記した式(6)によれば、当該式(6)における損失関数の値に正則化項の値を加算した値が最も小さくなるパラメータθ´を求めることができる。
第2学習方法においては、統計モデルのパラメータθを上記した式(6)を用いて求められたパラメータθ´に更新することにより、学習用画像を統計モデルに学習させることができる。
なお、式(6)における損失関数(第1項)は任意のパラメータλで重みづけられ、式(6)における正則化項(第2項)は、任意のパラメータλで重みづけられるが、当該パラメータλ及びλは、それぞれ0以上の値であればよい。すなわち、例えばλ=0とした場合には、第1学習方法(つまり、式(5))と同様の学習を行うことができ、λ=0とした場合には、正則化項のみ(を含む目的関数)を用いた学習を行うことができる。
次に、第3学習方法について説明する。上記した第1及び第2学習方法は正解ラベルが付されていない学習用画像を学習するため、一般的に教師なし学習と称されるが、第3学習方法は、学習用画像の一部(を構成する画素)に正解ラベルが付されている半教師あり学習に相当する。
すなわち、第3学習方法が適用される場合、上記したステップS1においては正解ラベルが付されている学習用画像(第1学習用画像)及び正解ラベルが付されていない学習用画像(第2学習用画像)が取得される。なお、正解ラベルが付されている学習用画像及び正解ラベルが付されていない学習用画像には、同一の形状の被写体が含まれているものとする。また、上記したステップS2及びS3の処理は、正解ラベルが付されている学習用画像及び正解ラベルが付されていない学習用画像の両方に対して実行される。
ここで、疑似ラベルは絶対値としてみたときに正解ラベル(実際に計測された被写体までの距離)と一致していない可能性がある。このため、第3学習方法においては、疑似ラベルは絶対値としては用いずに、相対値として用い、絶対値は正解ラベルで同定する方法を採用する。
具体的には、第3学習方法においては、以下に説明する損失関数の値を最小化するための式(7)を用いて統計モデルを学習させる。
Figure 0007370922000007
ここで、式(7)における損失関数は、任意のパラメータλで重みづけられる第1項及び任意のパラメータλで重みづけられる第2項を含む。
式(7)における第1項中のNGTは、上記したN(学習用画像の集合)のうちの正解ラベルが付されている学習用画像Iの集合を表し、当該学習用画像Iを構成する画素の座標値x,y、当該画素の疑似ラベルz´及び学習用画像Iのタプル(x,y,z´,I)を含む。また、式(7)における第1項中のzGTは、NGTのうちの学習用画像Iを構成する画素に付されている正解ラベル(つまり、実際の距離)である。
すなわち、式(7)における第1項は、学習用画像Iを構成する画素に付されている正解ラベルzGTと当該画素に対応する予測値との誤差を、NGTに含まれる学習用画像Iを構成する全ての画素について算出して合計することを表している。
一方、式(7)における第2項中のNは、全ての学習用画像I(正解ラベルが付されている学習用画像及び正解ラベルが付されていない学習用画像)の集合を表し、i番目の学習用画像Iのタプル(x,y,z´,I)及びi+1番目の学習用画像Iのタプル(x,y,z´,I)i+1を含む。なお、i番目の学習用画像Iのタプル中のx,yは当該学習用画像Iを構成する画素の座標値を表し、z´は当該画素の疑似ラベルを表している。i+1番目の学習用画像Iのタプルについても同様である。
更に、式(7)中の第2項におけるzi+1´はi+1番目の学習用画像Iを構成する画素(x,y)の疑似ラベルを表し、z´はi番目の学習用画像Iを構成する画素(x,y)の疑似ラベルを表している。
また、式(7)における第2項中のf(Ii+1,x,y;θ)はi+1番目の学習用画像Iを構成する画素(x,y)に対する予測値(つまり、統計モデルf(Ii+1,x,y;θ)から出力される距離)を表し、f(I,x,y;θ)はi番目の学習用画像Iを構成する画素(x,y)に対する予測値(つまり、統計モデルf(I,x,y;θ)から出力される距離)を表している。
すなわち、このような式(7)によれば、上記した第1項の値に第2項の値を加算した値が最も小さくなるパラメータθ´を求めることができる。
第3学習方法においては、統計モデルのパラメータθを上記した式(7)を用いて求められたパラメータθ´に更新することにより、学習用画像を事前学習済みモデルに学習させることができる。
なお、式(7)に含まれる第1項に対する重みパラメータλ及び第2項に対する重みパラメータλは、それぞれ0以上の値であればよい。
また、第3学習方法は、第2学習方法と組み合わせても構わない。この場合、式(7)における第1項及び第2項に式(6)における正則化項を更に加えた式を用いてパラメータθ´を求めるようにすればよい。
上記した図11に示す処理が実行されることによって、正解ラベルが付されていない学習用画像を用いた統計モデルの学習を実現することができる。
次に、図12のフローチャートを参照して、上記した図11に示す処理が実行されることによって学習用画像を学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置3の処理手順の一例について説明する。
まず、撮像装置2(イメージセンサ22)は、被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置2の光学系(レンズ21)の収差の影響を受けた画像である。
画像処理装置3に含まれる画像取得部32は、撮像画像を撮像装置2から取得する(ステップS11)。
次に、距離取得部33は、ステップS11において取得された撮像画像に関する情報を、統計モデル格納部31に格納されている統計モデルに入力する(ステップS12)。なお、ステップS12において統計モデルに入力される撮像画像に関する情報は当該撮像画像を構成する各画素の勾配データを含む。
ステップS12の処理が実行されると、統計モデルにおいて被写体までの距離が予測され、当該統計モデルは、当該予測された距離を出力する。これにより、距離取得部33は、統計モデルから出力された距離を示す距離情報を取得する(ステップS13)。なお、ステップS13において取得された距離情報は、ステップS11において取得された撮像画像を構成する画素毎の距離を含む。
ステップS13の処理が実行されると、出力部34は、当該ステップS13において取得された距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する(ステップS14)。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。
上記したように本実施形態においては、形状が既知である被写体を含む学習用画像を取得し、当該学習用画像から被写体までの距離(第1距離)を取得し、当該距離に対して学習用画像に含まれる被写体の形状で拘束をかけることで統計モデルを学習させる。
ここで、本実施形態においては、学習用画像から取得された距離に対して当該学習用画像に含まれる被写体の形状で拘束をかけることによって、当該距離から疑似ラベルが生成される(つまり、第1距離を第2距離に補正する)。なお、本実施形態において学習用画像に含まれる被写体の形状はパラメータを含む任意の関数で表現可能な形状であるものとし、疑似ラベルは、学習用画像から取得された距離に対して、当該被写体の形状を表すために用いられるパラメータをフィッティングさせることによって生成される。
本実施形態においては、このような構成により、学習用画像に正解ラベルが付されていない場合であっても当該学習用画像及び疑似ラベル(第2距離)を含むデータセットを用いて統計モデルを学習させることが可能となるため、統計モデルにおける学習の容易性を向上させることが可能となる。
また、本実施形態においては、第1~第3学習方法のうちの少なくとも1つを適用して統計モデルを学習させることができる。
第1学習方法においては、疑似ラベルと、学習用画像を統計モデルに入力することによって当該統計モデルから出力される距離(第3距離)との誤差(つまり、式(5)中の損失関数の値)を最小化するように当該統計モデルのパラメータを更新する。このような第1学習方法によれば、疑似ラベルで統計モデルを直接教示することにより、学習用画像(観測画像)に対して精度の高い距離を出力可能な統計モデルを得ることが可能となる。
第2学習方法においては、統計モデルを正則化する。具体的には、第2学習方法においては、疑似ラベルの相対値と学習用画像を統計モデルに入力することによって当該統計モデルから出力される距離(予測値)の相対値との誤差(つまり、式(6)中の正則化項の値)を最小化するように当該統計モデルのパラメータを更新する。このような第2学習方法においては、学習用画像上の各画素(座標点)の疑似ラベルの相対値及び当該画素に対応する予測値の相対値で正則化をかけることにより、絶対的な誤差(疑似ラベルと予測値との誤差)が大きい場合であっても、被写体の形状を主体的に観測した形で統計モデルを学習させることができる。
なお、第2学習方法において説明した式(6)では、上記した第1学習方法における損失関数に正則化項を加えた目的関数の値を最小化するパラメータを求めるものとして説明したが、当該損失関数及び正則化項に対する重みパラメータ(λ及びλ)はそれぞれ調整することができる。これによれば、第2学習方法が適用される場合に、絶対値の誤差(つまり、損失関数)を重視して統計モデルを学習させるか、相対値の誤差(つまり、正則化項)を重視して統計モデルを学習させるかを選択(設定)することが可能となる。
第3学習方法においては、正解ラベルと学習用画像(第1学習用画像)を統計モデルに入力することによって当該統計モデルから出力される距離(予測値)との誤差に、学習用画像(第2学習用画像)から取得された距離から生成された疑似ラベルの相対値と学習用画像(第2学習用画像)を統計モデルに入力することによって当該統計モデルから出力される距離(予測値)の相対値との誤差を加算した値を最小化するように統計モデルのパラメータを更新する。このような第3学習方法においては、正解ラベル(絶対値)と疑似ラベル(相対値)とを組み合わせて統計モデルを学習させるため、より精度の高い距離を出力可能な統計モデルを得ることが可能となる。
すなわち、本実施形態においては、例えば1つのレンズ(撮像装置)によって撮像された学習用画像及び当該学習用画像に付されている正解ラベルを含むデータセットで一旦統計モデル(事前学習済みモデル)を生成しておけば、正解ラベルが付されていない学習用画像を用いた当該統計モデルの再学習を容易に行うことが可能となる。
なお、本実施形態においては第1~第3学習方法のうちの少なくとも1つを適用して統計モデルを学習するものとして説明したが、本実施形態において適用される学習方法については、例えば学習用画像に含まれる被写体の種別等に応じて選択されるようにしてもよく、学習対象レンズの特性(望遠、魚眼等)に応じて選択されるようにしてもよい。
また、本実施形態においては、例えば統計モデル格納部31に格納されている統計モデルを用いて学習用画像から取得された距離に基づいて疑似ラベルを生成し、当該学習用画像及び疑似ラベルを用いて当該統計モデルを再学習させるものとして説明したが、当該学習用画像及び疑似ラベル(を含むデータセット)は、他の統計モデルを学習させる(生成する)ために用いられてもよい。
更に、本実施形態においては、統計モデル格納部31に格納されている統計モデルを用いて学習用画像から被写体までの距離を取得して疑似ラベルを生成するものとして説明したが、当該距離は、学習用画像に含まれる被写体に付されているARマーカのような二次元コードに基づいて取得されてもよい。すなわち、本実施形態に係る画像処理装置3は被写体までの距離の予測値(正確さについて保証が得られていない値)を学習用画像から取得する構成であればよく、当該学習用画像から距離を取得する方法については本実施形態において説明した以外の方法であってもよい。なお、疑似ラベルを生成するために用いられる被写体までの距離は、当該被写体にレーザを照射すること(つまり、レーザ計測)等によって計測されてもよい。
また、本実施形態においては、統計モデルが光学系の収差の影響を受けた画像(当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけ)を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置2の開口部に設けられたフィルタ(カラーフィルタ等)を透過した光に基づいて生成される画像(つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ)を学習することによって生成されるものであってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…測距システム、2…撮像装置、3…画像処理装置、21…レンズ、22…イメージセンサ、31…統計モデル格納部、32…画像取得部、33…距離取得部、34…出力部、35…学習処理部、35a…距離取得部、35b…疑似ラベル生成部、35c…統計モデル学習部、221…第1センサ、222…第2センサ、223…第3センサ、301…CPU、302…不揮発性メモリ、303…RAM、303A…画像処理プログラム、304…通信デバイス、305…バス。

Claims (12)

  1. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置が実行する学習方法であって、
    形状が既知である被写体を含む学習用画像を取得することと、
    前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得することと、
    前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
    を具備し、
    前記学習させることは、
    前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正することと、
    前記学習用画像及び前記第2距離を前記統計モデルに学習させることと
    を含み、
    前記学習させることは、前記統計モデルを正則化することを含み、
    前記統計モデルを正則化することは、前記第2距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新することを含む
    学習方法。
  2. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置が実行する学習方法であって、
    形状が既知である被写体を含む学習用画像を取得することと、
    前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得することと、
    前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
    を具備し、
    前記学習させることは、
    前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正することと、
    前記学習用画像及び前記第2距離を前記統計モデルに学習させることと
    を含み、
    前記学習用画像は、正解ラベルが付されている第1学習用画像及び正解ラベルが付されていない第2学習用画像を含み、
    前記第1及び第2学習用画像は、同一の形状の被写体を含み、
    前記第1距離を取得することは、前記第2学習用画像から当該第2学習用画像に含まれる被写体までの第1距離を取得することを含み、
    前記第1距離は、前記第2学習用画像に含まれる被写体の形状に基づいて第2距離に補正され、
    前記学習させることは、正解ラベルと前記第1学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離との誤差に、前記第2距離の相対値と前記第2学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を加算した値を最小化するように当該統計モデルのパラメータを更新することを含む
    学習方法。
  3. 前記補正することは、前記第1距離に対して前記被写体の形状を表すために用いられるパラメータをフィッティングさせることによって当該第1距離を前記第2距離に補正することを含む請求項1または2記載の学習方法。
  4. 前記被写体の形状は、前記パラメータを含む任意の関数で表現される請求項3記載の学習方法。
  5. 前記統計モデルは、光学系の収差の影響を受けた画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項1~のいずれか一項に記載の学習方法。
  6. 前記統計モデルは、フィルタを透過した光に基づいて生成される画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項1~のいずれか一項に記載の学習方法。
  7. 前記取得することは、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される距離を取得することを含む請求項1~のいずれか一項に記載の学習方法。
  8. 前記取得することは、前記学習用画像に含まれる被写体に付されたマーカに基づいて距離を取得することを含む請求項1~のいずれか一項に記載の学習方法。
  9. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させるプログラムであって、
    コンピュータに、
    形状が既知である被写体を含む学習用画像を取得することと、
    前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得することと、
    前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
    を実行させ
    前記学習させることは、
    前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正することと、
    前記学習用画像及び前記第2距離を前記統計モデルに学習させることと
    を含み、
    前記学習させることは、前記統計モデルを正則化することを含み、
    前記統計モデルを正則化することは、前記第2距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新することを含む
    プログラム。
  10. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させるプログラムであって、
    コンピュータに、
    形状が既知である被写体を含む学習用画像を取得することと、
    前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得することと、
    前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させることと
    を実行させ、
    前記学習させることは、
    前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正することと、
    前記学習用画像及び前記第2距離を前記統計モデルに学習させることと
    を含み、
    前記学習用画像は、正解ラベルが付されている第1学習用画像及び正解ラベルが付されていない第2学習用画像を含み、
    前記第1及び第2学習用画像は、同一の形状の被写体を含み、
    前記第1距離を取得することは、前記第2学習用画像から当該第2学習用画像に含まれる被写体までの第1距離を取得することを含み、
    前記第1距離は、前記第2学習用画像に含まれる被写体の形状に基づいて第2距離に補正され、
    前記学習させることは、正解ラベルと前記第1学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離との誤差に、前記第2距離の相対値と前記第2学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を加算した値を最小化するように当該統計モデルのパラメータを更新することを含む
    プログラム。
  11. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置であって、
    形状が既知である被写体を含む学習用画像を取得する第1取得手段と、
    前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得する第2取得手段と、
    前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させる学習手段と
    を具備し、
    前記学習手段は、
    前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正する手段と、
    前記学習用画像及び前記第2距離を前記統計モデルに学習させる手段と
    を含み、
    前記学習させる手段は、前記統計モデルを正則化する手段を含み、
    前記統計モデルを正則化する手段は、前記第2距離の相対値と、前記学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を最小化するように前記統計モデルのパラメータを更新する
    画像処理装置。
  12. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置であって、
    形状が既知である被写体を含む学習用画像を取得する第1取得手段と、
    前記学習用画像から当該学習用画像に含まれる被写体までの第1距離を取得する第2取得手段と、
    前記第1距離に対して前記学習用画像に含まれる被写体の形状で拘束をかけることで前記統計モデルを学習させる学習手段と
    を具備し、
    前記学習手段は、
    前記第1距離を前記学習用画像に含まれる被写体の形状に基づいて第2距離に補正する手段と、
    前記学習用画像及び前記第2距離を前記統計モデルに学習させる手段と
    を含み、
    前記学習用画像は、正解ラベルが付されている第1学習用画像及び正解ラベルが付されていない第2学習用画像を含み、
    前記第1及び第2学習用画像は、同一の形状の被写体を含み、
    前記第2取得手段は、前記第2学習用画像から当該第2学習用画像に含まれる被写体までの第1距離を取得し、
    前記第1距離は、前記第2学習用画像に含まれる被写体の形状に基づいて第2距離に補正され、
    前記学習させる手段は、正解ラベルと前記第1学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離との誤差に、前記第2距離の相対値と前記第2学習用画像を前記統計モデルに入力することによって当該統計モデルから出力される第3距離の相対値との誤差を加算した値を最小化するように当該統計モデルのパラメータを更新する
    画像処理装置。
JP2020069159A 2020-04-07 2020-04-07 学習方法、プログラム及び画像処理装置 Active JP7370922B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020069159A JP7370922B2 (ja) 2020-04-07 2020-04-07 学習方法、プログラム及び画像処理装置
US17/192,973 US20210312233A1 (en) 2020-04-07 2021-03-05 Learning method, storage medium, and image processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020069159A JP7370922B2 (ja) 2020-04-07 2020-04-07 学習方法、プログラム及び画像処理装置

Publications (2)

Publication Number Publication Date
JP2021165944A JP2021165944A (ja) 2021-10-14
JP7370922B2 true JP7370922B2 (ja) 2023-10-30

Family

ID=77921671

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020069159A Active JP7370922B2 (ja) 2020-04-07 2020-04-07 学習方法、プログラム及び画像処理装置

Country Status (2)

Country Link
US (1) US20210312233A1 (ja)
JP (1) JP7370922B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11272097B2 (en) * 2020-07-30 2022-03-08 Steven Brian Demers Aesthetic learning methods and apparatus for automating image capture device controls
JP7482070B2 (ja) 2021-03-16 2024-05-13 株式会社東芝 学習方法、プログラム及び画像処理装置
CN114468977B (zh) * 2022-01-21 2023-03-28 深圳市眼科医院 一种眼科视力检查数据收集分析方法、系统及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018132477A (ja) 2017-02-17 2018-08-23 日本電信電話株式会社 深度推定装置、寸法推定装置、深度推定方法、寸法推定方法、及びプログラム
JP2019015575A (ja) 2017-07-05 2019-01-31 株式会社東芝 画像処理装置、測距装置および処理システム
JP2019016275A (ja) 2017-07-10 2019-01-31 キヤノン株式会社 画像処理方法、画像処理プログラム、記憶媒体、画像処理装置、および撮像装置
JP2019029021A (ja) 2017-07-30 2019-02-21 国立大学法人 奈良先端科学技術大学院大学 学習データセット作製方法、並びに、物体認識及び位置姿勢推定方法
JP2020026990A (ja) 2018-08-10 2020-02-20 株式会社東芝 画像処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018132477A (ja) 2017-02-17 2018-08-23 日本電信電話株式会社 深度推定装置、寸法推定装置、深度推定方法、寸法推定方法、及びプログラム
JP2019015575A (ja) 2017-07-05 2019-01-31 株式会社東芝 画像処理装置、測距装置および処理システム
JP2019016275A (ja) 2017-07-10 2019-01-31 キヤノン株式会社 画像処理方法、画像処理プログラム、記憶媒体、画像処理装置、および撮像装置
JP2019029021A (ja) 2017-07-30 2019-02-21 国立大学法人 奈良先端科学技術大学院大学 学習データセット作製方法、並びに、物体認識及び位置姿勢推定方法
JP2020026990A (ja) 2018-08-10 2020-02-20 株式会社東芝 画像処理装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Asif Sattar,"Human detection and distance estimation with monocular camera using YOLOv3 neural network",Master's Thesis,EE,University of Tartu ,2016年06月14日,pp.1-43,https://dspace.ut.ee/handle/10062/64352
J. Krishna Murthy et al.,"Shape Priors for Real-Time Monocular Object Localization in Dynamic Environments",2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),米国,IEEE,2017年09月24日,pp.1768-1774
今井 拓司,"東芝が単眼カメラの収差からステレオ並み距離画像レンズの色収差などから深層学習で形状推定",NIKKEI Robotics,日本,日経BP,2020年02月10日,No.56,pp.10-15

Also Published As

Publication number Publication date
US20210312233A1 (en) 2021-10-07
JP2021165944A (ja) 2021-10-14

Similar Documents

Publication Publication Date Title
US20200302640A1 (en) Eye tracking method and system
JP7370922B2 (ja) 学習方法、プログラム及び画像処理装置
US9344690B2 (en) Image demosaicing
US20200250427A1 (en) Shadow and cloud masking for agriculture applications using convolutional neural networks
JP2021072615A (ja) 映像復元装置及び方法
US11334986B2 (en) System and method for processing images of agricultural fields for remote phenotype measurement
JP7379299B2 (ja) 位置姿勢推定装置、位置姿勢推定方法及びプログラム
JP7204586B2 (ja) 学習方法、プログラム及び画像処理装置
JP2020197774A (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
JP7451465B2 (ja) 学習方法、プログラム及び画像処理装置
US9210386B2 (en) Filter setup learning for binary sensor
JP2023035612A (ja) 推定装置、方法及びプログラム
JP2019212132A (ja) 画像処理方法、画像処理装置、撮像装置、プログラム、および、記憶媒体
JP7482070B2 (ja) 学習方法、プログラム及び画像処理装置
JP7446985B2 (ja) 学習方法、プログラム及び画像処理装置
JP2018133064A (ja) 画像処理装置、撮像装置、画像処理方法および画像処理プログラム
KR20100054929A (ko) 신경 회로망을 이용한 위성 영상 보정 방법 및 장치
JP6384961B2 (ja) カメラキャリブレーション装置、カメラキャリブレーション方法、カメラキャリブレーションプログラム及び記録媒体
JP2019139694A (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
JP7129229B2 (ja) 画像処理方法、画像処理装置、撮像装置、プログラム、および、記憶媒体
JP6656132B2 (ja) 撮像管理装置および撮像管理プログラム
JP2022053060A (ja) 情報処理装置、情報処理方法およびプログラム
CN118018863A (zh) 对图像进行白平衡的方法及装置、计算机系统及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220912

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230718

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230904

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231018

R151 Written notification of patent or utility model registration

Ref document number: 7370922

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151