JP7446985B2 - 学習方法、プログラム及び画像処理装置 - Google Patents

学習方法、プログラム及び画像処理装置 Download PDF

Info

Publication number
JP7446985B2
JP7446985B2 JP2020207634A JP2020207634A JP7446985B2 JP 7446985 B2 JP7446985 B2 JP 7446985B2 JP 2020207634 A JP2020207634 A JP 2020207634A JP 2020207634 A JP2020207634 A JP 2020207634A JP 7446985 B2 JP7446985 B2 JP 7446985B2
Authority
JP
Japan
Prior art keywords
image
distance
statistical model
learning
imaging device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020207634A
Other languages
English (en)
Other versions
JP2022094636A (ja
Inventor
直 三島
正子 柏木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2020207634A priority Critical patent/JP7446985B2/ja
Priority to US17/467,720 priority patent/US20220188571A1/en
Priority to CN202111042419.XA priority patent/CN114638354A/zh
Publication of JP2022094636A publication Critical patent/JP2022094636A/ja
Application granted granted Critical
Publication of JP7446985B2 publication Critical patent/JP7446985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/695Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N25/00Circuitry of solid-state image sensors [SSIS]; Control thereof
    • H04N25/60Noise processing, e.g. detecting, correcting, reducing or removing noise
    • H04N25/61Noise processing, e.g. detecting, correcting, reducing or removing noise the noise originating only from the lens unit, e.g. flare, shading, vignetting or "cos4"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。
被写体までの距離を取得するために、2つの撮像装置(カメラ)やステレオカメラ(複眼のカメラ)で撮像された画像を用いることが知られていたが、近年では、1つの撮像装置(単眼のカメラ)で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。
ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。
しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット(学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット)を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。
M.Kashiwagi et al., "Deep Depth From Aberration Map", Proceedings of the IEEEE International Conference on Computer Vision, 2019 Mishima et al. "Physical Cue based Depth-Sensing by Color Coding with Deaberration Network", BMVC2019
そこで、本発明が解決しようとする課題は、統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。
実施形態によれば、被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる学習方法が提供される。前記学習方法は、撮像装置によって撮像された被写体を含む第1及び第2画像を取得することと、前記第1画像の少なくとも一部である第1領域を入力として前記統計モデルから出力される第1距離及び前記第2画像の少なくとも一部である第2領域を入力として前記統計モデルから出力される第2距離に基づいて前記統計モデルを学習させることとを具備する。前記第1画像に含まれる被写体までの第3距離の正解値は前記第1画像に付与されておらず、前記第2画像に含まれる被写体まで第4距離の正解値は前記第2画像に付与されておらず、前記第3距離と前記第4距離との大小関係は既知であり、前記学習させることは、前記第3距離の正解値及び前記第4距離の正解値を用いることなく、前記第1距離と前記第2距離との大小関係が前記第3距離と前記第4距離との大小関係と等しくなるように前記統計モデルを学習させることを含む。
第1実施形態における測距システムの構成の一例を示す図。 画像処理装置のシステム構成の一例を示す図。 測距システムの動作の概要について説明するための図。 被写体までの距離を予測する原理について説明するための図。 撮像画像から距離を予測するパッチ方式について説明するための図。 画像パッチに関する情報の一例を示す図。 一般的な統計モデルの学習方法の概要について説明するための図。 学習用のデータセットについて説明するための図。 本実施形態に係る統計モデルの学習方法の概要について説明するための図。 統計モデルが学習する学習用画像について説明するための図。 学習処理部の機能構成の一例を示すブロック図。 統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。 撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。 第2実施形態において統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。
以下、図面を参照して、実施形態について説明する。
(第1実施形態)
まず、第1実施形態について説明する。図1は、本実施形態における測距システムの構成の一例を示す。図1に示す測距システム1は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得(測定)するために使用される。なお、本実施形態において説明する距離は、絶対的な距離を表すものであってもよいし、相対的な距離を表すものであってもよい。
図1に示すように、測距システム1は、撮像装置2及び画像処理装置3を備える。本実施形態においては、測距システム1が別個の装置である撮像装置2及び画像処理装置3を備えるものとして説明するが、当該測距システム1は、撮像装置2が撮像部として機能し、画像処理装置3が画像処理部として機能する1つの装置(測距装置)として実現されていてもよい。また、画像処理装置3は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。
撮像装置2は、各種画像を撮像するために用いられる。撮像装置2は、レンズ21及びイメージセンサ22を備える。レンズ21及びイメージセンサ22は、撮像装置2の光学系(単眼カメラ)に相当する。
レンズ21には、被写体で反射した光が入射する。レンズ21に入射した光は、レンズ21を透過する。レンズ21を透過した光は、イメージセンサ22に到達し、当該イメージセンサ22によって受光(検出)される。イメージセンサ22は、受光した光を電気信号に変換(光電変換)することによって、複数の画素から構成される画像を生成する。
なお、イメージセンサ22は、例えばCCD(Charge Coupled Device)イメージセンサ及びCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等により実現される。イメージセンサ22は、例えば赤色(R)の波長帯域の光を検出する第1センサ(Rセンサ)221、緑色(G)の波長帯域の光を検出する第2センサ(Gセンサ)222及び青色(B)の波長帯域の光を検出する第3センサ(Bセンサ)223を含む。イメージセンサ22は、第1~第3センサ221~223により対応する波長帯域の光を受光して、各波長帯域(色成分)に対応するセンサ画像(R画像、G画像及びB画像)を生成することができる。すなわち、撮像装置2によって撮像される画像はカラー画像(RGB画像)であり、当該画像にはR画像、G画像及びB画像が含まれる。
なお、本実施形態においてはイメージセンサ22が第1~第3センサ221~223を含むものとして説明するが、イメージセンサ22は、第1~第3センサ221~223のうちの少なくとも1つを含むように構成されていればよい。また、イメージセンサ22は、第1~第3センサ221~223に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。
本実施形態においてレンズ21を透過した光に基づいて生成された画像は、光学系(レンズ21)の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。
図1に示す画像処理装置3は、機能構成として、統計モデル格納部31、画像取得部32、距離取得部33、出力部34及び学習処理部35を含む。
統計モデル格納部31には、被写体までの距離を撮像装置2によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部31に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として当該画像中の被写体までの距離を予測(出力)することができる。
なお、統計モデルは、例えばニューラルネットワーク、線形識別器またはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。
画像取得部32は、上記した撮像装置2によって撮像された画像を、当該撮像装置2(イメージセンサ22)から取得する。
距離取得部33は、画像取得部32によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部33は、画像を統計モデル格納部31に格納されている統計モデルに入力することによって、当該画像中の被写体までの距離を示す距離情報を取得する。
出力部34は、距離取得部33によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部34は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する(つまり、距離情報を画像データとして出力する)ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示することができる。出力部34によって出力される距離情報は、例えば撮像装置2によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。
学習処理部35は、例えば画像取得部32によって取得される画像を用いて統計モデル格納部31に格納されている統計モデルを学習させる処理を実行する。学習処理部35によって実行される処理の詳細については後述する。
なお、図1に示す例では、画像処理装置3が各部31~35を含むものとして説明したが、当該画像処理装置3は、例えば画像取得部32、距離取得部33及び出力部34を含む測距装置と、統計モデル格納部31、画像取得部32及び学習処理部35を含む学習装置とから構成されていてもよい。
図2は、図1に示す画像処理装置3のシステム構成の一例を示す。画像処理装置3は、CPU301、不揮発性メモリ302、RAM303及び通信デバイス304を備える。また、画像処理装置3は、CPU301、不揮発性メモリ302、RAM303及び通信デバイス304を相互に接続するバス305を有する。
CPU301は、画像処理装置3内の様々なコンポーネントの動作を制御するためのプロセッサである。CPU301は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。CPU301は、不揮発性メモリ302からRAM303にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム(OS)や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム303Aを含む。
不揮発性メモリ302は、補助記憶装置として用いられる記憶媒体である。RAM303は、主記憶装置として用いられる記憶媒体である。図2においては不揮発性メモリ302及びRAM303のみが示されているが、画像処理装置3は、例えばHDD(Hard Disk Drive)及びSSD(Solid State Drive)等の他の記憶装置を備えていてもよい。
なお、本実施形態において、図1に示す統計モデル格納部31は、例えば不揮発性メモリ302または他の記憶装置等によって実現される。
また、本実施形態において、図1に示す画像取得部32、距離取得部33、出力部34及び学習処理部35の一部または全ては、CPU301(つまり、画像処理装置3のコンピュータ)に画像処理プログラム303Aを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム303Aは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置3にダウンロードされてもよい。
ここでは、CPU301に画像処理プログラム303Aを実行させるものとして説明したが、各部32~35の一部または全ては、CPU301の代わりに例えばGPU(図示せず)を用いて実現されてもよい。また、各部32~35の一部または全ては、IC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。
通信デバイス304は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス304は、信号を送信する送信部と信号を受信する受信部とを含む。通信デバイス304は、ネットワークを介して外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置2が含まれる。この場合、画像処理装置3は、通信デバイス304を介して、撮像装置2から画像を受信することができる。
図2においては省略されているが、画像処理装置3は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。
次に、図3を参照して、本実施形態における測距システム1の動作の概要について説明する。
測距システム1において、撮像装置2(イメージセンサ22)は、上記したように光学系(レンズ21)の収差の影響を受けた画像を生成する。
画像処理装置3(画像取得部32)は、撮像装置2によって生成された画像を取得し、当該画像を統計モデル格納部31に格納されている統計モデルに入力する。
ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離(予測値)が出力される。これにより、画像処理装置3(距離取得部33)は、統計モデルから出力された距離(画像中の被写体までの距離)を示す距離情報を取得することができる。
このように本実施形態においては、統計モデルを用いて、撮像装置2によって撮像された画像から距離情報を取得することができる。
ここで、図4を参照して、本実施形態において被写体までの距離を予測する原理について簡単に説明する。
撮像装置2によって撮像された画像(以下、撮像画像と表記)には、上記したように当該撮像装置2の光学系の収差(レンズ収差)に起因するぼけが生じている。具体的には、収差のあるレンズ21を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置(撮像装置2においてピントが合う位置)からずれているような場合には、各波長帯域の光が1点に集まらず異なった点に到達する。これが、画像上でぼけ(色収差)として現れる。
また、撮像画像においては、当該撮像画像中の被写体までの距離(つまり、撮像装置2に対する被写体の位置)に応じて非線形に変化するぼけ(色、サイズ及び形状)が観察される。
このため、本実施形態においては、図4に示すように撮像画像401に生じるぼけ(ボケ情報)402を被写体403までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体403までの距離404を予測する。
以下、図5を参照して、統計モデルにおいて撮像画像から距離を予測する方式の一例について説明する。ここでは、パッチ方式について説明する。
図5に示すように、パッチ方式においては、撮像画像401から局所領域(以下、画像パッチと表記)401aが切り出される(抽出される)。
この場合、例えば撮像画像401の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ401aとして順次切り出すようにしてもよいし、撮像画像401を認識して、被写体(像)が検出された領域を網羅するように画像パッチ401aを切り出すようにしてもよい。なお、画像パッチ401aは、他の画像パッチ401aとの間で一部がオーバーラップしていてもよい。
パッチ方式においては、上記したように切り出された画像パッチ401aに対応する予測値として距離が出力される。すなわち、パッチ方式においては、撮像画像401から切り出された画像パッチ401aの各々に関する情報を入力として、当該画像パッチ401aの各々に含まれる被写体までの距離404が予測される。
図6は、上記したパッチ方式において統計モデルに入力される画像パッチ401aに関する情報の一例を示す。
パッチ方式においては、撮像画像401に含まれるR画像、G画像及びB画像のそれぞれについて、当該撮像画像401から切り出された画像パッチ401aの勾配データ(R画像の勾配データ、G画像の勾配データ及びB画像の勾配データ)が生成される。統計モデルには、このように生成された勾配データが入力される。
なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分(差分値)に相当する。例えば画像パッチ401aがn画素(X軸方向)×m画素(Y軸方向)の矩形領域として抽出される場合、当該画像パッチ401a内の各画素について算出した例えば右隣の画素との差分値をn行×m列のマトリクス状に配置した勾配データ(つまり、各画素の勾配データ)が生成される。
統計モデルは、R画像の勾配データと、G画像の勾配データと、B画像の勾配データとを用いて、当該各画像に生じているぼけから距離を予測する。図6においてはR画像、G画像及びB画像の各々の勾配データが統計モデルに入力される場合について示しているが、RGB画像の勾配データが統計モデルに入力される構成であってもよい。
ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離(を示す距離情報)を取得することが可能であるが、当該統計モデルから出力される距離の精度を向上させるためには、当該統計モデルを学習させる必要がある。
以下、図7を参照して、一般的な統計モデルの学習方法の概要について説明する。統計モデルの学習は、当該学習のために用意された画像(以下、学習用画像と表記)501に関する情報を統計モデルに入力し、統計モデルから出力(予測)された距離502と正解値503との誤差(損失)を当該統計モデルにフィードバックすることによって行われる。なお、正解値503とは、学習用画像501の撮像地点から当該学習用画像501に含まれる被写体までの実際の距離(実測値)をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ(例えば、重み係数)を更新することをいう。
具体的には、統計モデルにおいて撮像画像から距離を予測する方式として上記したパッチ方式が適用される場合、学習用画像501から切り出された画像パッチ(局所領域)毎に、当該画像パッチに関する情報(勾配データ)が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する予測値として距離502が出力される。このように出力された距離502と正解値503とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。
上記した一般的な統計モデルの学習方法においては、図8に示すような正解ラベルが付与された学習用画像(つまり、学習用画像と当該学習用画像から取得されるべき距離である正解ラベルとを含む学習用のデータセット)を用意する必要があり、当該正解ラベルを得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測しなければならない。統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用データセットを用意することは容易ではない。
ここで、統計モデルを学習するためには学習用画像(画像パッチ)が入力されることによって当該統計モデルから出力される距離に基づいて計算される損失(誤差)を評価(フィードバック)する必要があるところ、本実施形態においては、学習用画像に含まれる被写体までの距離の実測値は不明であるが、当該距離の大小関係が既知である複数の学習用画像を用いて計算される順位損失(ランクロス)による弱教師学習を行うものとする。
なお、順位損失による弱教師学習とは、データ間の相対的な順序関係(順位)に基づいて学習を行う方法である。本実施形態においては、撮像装置2から被写体までの距離に基づく2つの画像の各々の順位に基づいて統計モデルを学習させるものとする。
ここで、図9に示すように、撮像装置2からの実際の距離は不明であるが、当該距離の大小関係(順位)が既知である5つの被写体S~Sがあるものとする。なお、被写体S~Sのうち、被写体Sが撮像装置2から最も近い位置にあり、被写体Sが撮像装置2から最も遠い位置にある。このような被写体S~Sの各々を撮像装置2で撮像し、当該被写体S~Sの各々を含む画像を画像x~xとすると、当該画像x~xの各々に含まれる被写体S~Sまでの距離に応じた各画像の順位(ランク)は、画像xが「1」、画像xが「2」、画像xが「3」、画像xが「4」、画像xが「5」となる。
このような画像x~xにおいて、例えば画像xに含まれる被写体Sまでの距離と、画像xに含まれる被写体Sまでの距離とを、統計モデルを用いて予測する場合を想定する。
この場合、十分に学習が行われ、高い精度を有する統計モデルが用いられるのであれば、画像xを入力することによって当該統計モデルから出力される距離は、画像xを入力することによって当該統計モデルから出力される距離よりも小さくなるはずである。
すなわち、本実施形態においては、例えば2つの画像xと画像xとの大小関係が既知である場合には「rank(x)>rank(x)であればfθ(x)>fθ(x)」という関係が成り立つという前提に基づいて、このような関係が維持されるような損失(順位損失)を用いて統計モデルを学習させるものとする。
この場合、rank(x)は画像xに付されている順位(ランク)を表しており、rank(x)は画像xに付されている順位(ランク)を表している。また、fθ(x)は画像xを入力することによって統計モデルfθから出力される距離(つまり、画像xに対応する予測値)を表しており、fθ(x)は画像xを入力することによって統計モデルfθから出力される距離(つまり、画像xに対応する予測値)を表している。また、fθにおけるθは、統計モデルのパラメータである。
なお、上記した撮像装置2から被写体までの距離の大小関係が既知である画像は、例えば図10に示すように所定の位置に固定された被写体Sから遠ざかる方向に撮像装置2を移動しながら順次撮像することで容易に取得することができる。
一般的に撮像装置2によって撮像された画像には当該撮像された順番に識別番号(例えば、連続する番号)が付されるため、本実施形態においては、この画像に付される識別番号を当該画像の順位として用いる。すなわち、識別番号が小さい場合には当該識別番号が付されている画像に含まれる被写体までの距離が小さい(近い)ことを判別することができ、当該識別番号が大きい場合には当該識別番号が付されている画像に含まれる被写体までの距離が大きい(遠い)ことを判別することができる。
なお、撮像装置2によって撮像された画像には、上記した識別番号以外に当該画像が撮像された日時が付されている。このため、上記したように被写体から遠ざかる方向に撮像装置2を移動しながら順次画像が撮像されている場合には、画像の各々に含まれる被写体までの距離の大小関係(つまり、当該画像の順位の前後関係)は、当該画像に付されている日時に基づいて判別することも可能である。
ここでは、被写体から遠ざかる方向に撮像装置2を移動しながら画像が撮像されるものとして説明したが、被写体に近づく方向に撮像装置2を移動しながら画像が順次撮像されるようにしてもよい。この場合には、識別番号が小さい場合には当該識別番号が付されている画像に含まれる被写体までの距離が大きい(遠い)ことを判別することができ、当該識別番号が大きい場合には当該識別番号が付されている画像に含まれる被写体までの距離が小さい(近い)ことを判別することができる。
なお、図10においては平面形状を有する被写体が示されているが、このような被写体としては例えばテレビモニタ等を利用することができる。ここでは平面形状を有する被写体について説明したが、当該被写体は、他の形状を有する他の物体等であってもよい。
以下、図1に示す画像処理装置3に含まれる学習処理部35について具体的に説明する。図11は、学習処理部35の機能構成の一例を示すブロック図である。
図11に示すように、学習処理部35は、判別部35a、計算部35b及び学習部35cを含む。
ここで、本実施形態において統計モデルの学習を行う場合、画像取得部32は、上記した正解ラベルが付与されていない複数の学習用画像を取得する。なお、学習用画像には、上記した識別番号が付されているものとする。
判別部35aは、画像取得部32によって取得された複数の学習用画像のうちの2つの学習用画像の各々に付されている識別番号(順位)に基づいて、当該学習用画像の各々に含まれる被写体までの距離の大小関係(以下、単に画像間の大小関係と表記)を判別する。
計算部35bは、判別部35aによって大小関係が判別された2つの学習用画像の各々を統計モデルに入力することによって出力された距離と、判別部35aによって判別された当該学習用画像間の大小関係に基づいて、順位損失を計算する。
学習部35cは、計算部35bによって計算された順位損失に基づいて、統計モデル格納部31に格納されている統計モデルを学習させる。学習部35cによる学習が完了した統計モデルは、統計モデル格納部31に格納される(つまり、統計モデル格納部31に格納されている統計モデルに上書きされる)。
次に、図12のフローチャートを参照して、統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。
ここでは、統計モデル格納部31に事前に学習済みである統計モデル(事前学習済みモデル)が格納されているものとして説明するが、当該統計モデルは、例えば撮像装置2で撮像された画像を学習することによって生成されていてもよいし、当該撮像装置2とは異なる撮像装置(またはレンズ)で撮像された画像を学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離を出力するための統計モデルが事前に用意されていればよい。なお、本実施形態において事前に用意される統計モデルは、例えばランダム初期化された状態の統計モデル(未学習な統計モデル)等であってもよい。
まず、画像取得部32は、複数の学習用画像(以下、学習用画像集合と表記)を取得する(ステップS1)。ステップS1において取得される学習用画像集合は、例えば撮像装置2によって撮像された画像の集合である。
ステップS1の処理が実行されると、学習処理部35は、ステップS1において取得された学習用画像集合の中から、例えば任意の2つの学習用画像を選択(取得)する(ステップS2)。以下の説明においては、ステップS2において選択された2つの学習用画像を画像x及び画像xとする。
ステップS2の処理が実行されると、学習処理部35は、画像x及び画像xの各々から任意の領域を切り出す(ステップS3)。具体的には、学習処理部35は、画像xから、当該画像xの少なくとも一部である領域を切り出す。同様に、学習処理部35は、画像xから、当該画像xの少なくとも一部である領域を切り出す。なお、ステップS3において画像x及び画像xの各々から切り出される領域は上記した画像パッチに相当し、例えばn画素×m画素の矩形領域である。
ここでは、画像x及び画像xの各々から所定の領域(画像パッチ)が切り出されるものとして説明したが、当該所定の領域は画像x及び画像xの全体を占める領域であっても構わない。
なお、以下の説明においては、便宜的に、ステップS3において画像xから切り出された領域を単に画像x、当該ステップS3において画像xから切り出された領域を単に画像xとする。
ここで、本実施形態においては学習用画像に含まれる被写体までの距離の大小関係は既知であるため、学習処理部35に含まれる判別部35aは、ステップS2において選択された画像x及び画像x間の大小関係(画像x及び画像xの各々に含まれる被写体までの距離の大小関係)を判別する(ステップS4)。この画像x及び画像x間の大小関係は、当該画像x及び画像xの各々に付されている識別番号に基づいて判別可能である。
ステップS4の処理が実行されると、学習処理部35に含まれる計算部35bは、統計モデル格納部31に格納されている統計モデルを用いて、画像xに含まれている被写体までの距離(予測値)及び画像xに含まれている被写体までの距離(予測値)を取得する(ステップS5)。
ステップS5においては、画像x(つまり、画像xから切り出されたn画素×m画素の画像パッチ)を入力することによって統計モデルから出力される距離fθ(x)及び画像x(つまり、画像xから切り出されたn画素×m画素の画像パッチ)を入力することによって統計モデルから出力される距離fθ(x)が取得される。
次に、計算部35bは、ステップS5において取得された距離(以下、画像x及び画像xの各々に対応する予測値と表記)に基づいて順位損失(画像x及び画像x間の大小関係を考慮した損失)を計算する(ステップS6)。
ステップS6においては、画像x及び画像xの各々に対応する予測値の大小関係が画像x及び画像x間の大小関係と等しいか否かが反映された損失(順位損失)が計算される。
ここで、例えば「Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Greg Hullender. Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Machinelearning, pages 89-96, 2005.」によれば、順位損失を表す関数(順位損失関数)は以下の式(1)によって定義される。
Figure 0007446985000001
この式(1)において、Lrank(x,x)は順位損失を表しており、yikは上記した画像x及び画像xの各々に対応する予測値の大小関係が画像x及び画像x間の大小関係と等しい(つまり、統計モデルの予測値が既知の大小関係を満たす)か否かを表すラベルに相当する。なお、yikは、式(2)に示すように、rank(x)>rank(x)である場合に1であり、rank(x)<rank(x)である場合に0である。rank(x)>rank(x)及びrank(x)<rank(x)は、上記したステップS4における画像x及び画像x間の大小関係の判別結果に相当する。
また、式(1)のsoftplusは、活性化関数として用いられるソフトプラスと称される関数であり、式(3)のように定義される。
このような順位損失関数によれば、画像x及び画像xの各々に対応する予測値の大小関係が画像x及び画像x間の大小関係と等しい場合には計算される順位損失(の値)が小さくなり、画像x及び画像xの各々に対応する予測値の大小関係が画像x及び画像x間の大小関係と等しくない場合には計算される順位損失(の値)が大きくなる。
次に、学習処理部35に含まれる学習部35cは、ステップS6において計算された順位損失を用いて、統計モデルを学習させる(ステップS7)。統計モデルの学習は当該統計モデルのパラメータθを更新することによって行われるが、当該パラメータθの更新は、以下の式(4)のような最適化問題に従って行われる。
Figure 0007446985000002
ここで、式(4)におけるNは、上記した学習用画像集合を表している。図12においては省略されているが、ステップS2~S6の処理は、当該学習用画像集合Nから選択される任意の画像x及び画像x(の各々から切り出される領域)の組毎に実行されるものとする。
この場合、式(4)により、画像x及び画像xの組毎に計算される順位損失Lrank(x,x)の合計が最も小さくなるパラメータθ´(つまり、更新後のパラメータ)を求めることができる。
なお、本実施形態における統計モデルにニューラルネットワークまたは畳み込みニューラルネットワーク等が適用されている(つまり、統計モデルがニューラルネットワークまたは畳み込みニューラルネットワーク等で構成されている)場合、当該統計モデルの学習(パラメータθの更新)には、上記した式(4)を逆方向に計算する誤差逆伝播法が用いられる。この誤差逆伝播法によれば、順位損失の勾配が計算され、当該勾配に従ってパラメータθが更新される。
ステップS7においては、統計モデルのパラメータθを上記した式(4)を用いて求められたパラメータθ´に更新することにより、ステップS1において取得された学習用画像集合を統計モデルに学習させることができる。
なお、本実施形態においては、例えば予め定められた数の画像x及び画像xの組を対象として図12に示す処理が実行されるが、当該図12に示す処理を繰り返すことによって、統計モデルを更に学習させてもよい。
また、上記した式(1)のような順位損失関数を用いた学習方法はRankNetと称されるが、本実施形態においては、他の学習方法により統計モデルを学習させてもよい。具体的には、本実施形態に係る統計モデルの学習方法としては、例えばFRank、RankBoost、Ranking SVMまたはIR SVM等が利用されてもよい。すなわち、本実施形態においては、上記したように画像x及び画像xの各々に対応する予測値の大小関係が画像x及び画像x間の大小関係と等しくなるように学習モデルを学習させる(つまり、学習用画像の各々の順位に関する制約の下で学習を行う)のであれば、様々な損失関数を利用することができる。
次に、図13のフローチャートを参照して、上記した図11に示す処理が実行されることによって学習用画像集合を学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置3の処理手順の一例について説明する。
まず、撮像装置2(イメージセンサ22)は、撮像装置2からの距離を測定する被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置2の光学系(レンズ21)の収差の影響を受けた画像である。
画像処理装置3に含まれる画像取得部32は、撮像画像を撮像装置2から取得する(ステップS11)。
次に、距離取得部33は、ステップS11において取得された撮像画像(画像パッチの各々)に関する情報を、統計モデル格納部31に格納されている統計モデルに入力する(ステップS12)。なお、ステップS12において統計モデルに入力される撮像画像に関する情報は、当該撮像画像を構成する各画素の勾配データを含む。
ステップS12の処理が実行されると、統計モデルにおいて被写体までの距離が予測され、当該統計モデルは、当該予測された距離を出力する。これにより、距離取得部33は、統計モデルから出力された距離を示す距離情報を取得する(ステップS13)。なお、ステップS13において取得された距離情報は、例えばステップS11において取得された撮像画像を構成する画像パッチ毎の距離を含む。
ステップS13の処理が実行されると、出力部34は、当該ステップS13において取得された距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する(ステップS14)。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。
上記したように本実施形態においては、撮像装置2によって撮像された被写体を含む画像x及び画像x(第1及び第2画像)を取得し、当該画像x(当該画像xの少なくとも一部である第1領域)を入力として統計モデルから出力された距離(第1距離)及び当該画像x(当該画像xの少なくとも一部である第2領域)を入力として統計モデルから出力された距離(第2距離)に基づいて統計モデルを学習させる。本実施形態においては、画像xに含まれる被写体までの距離(第3距離)と画像xに含まれる被写体までの距離(第4距離)との大小関係(つまり、画像x及び画像x間の大小関係)が既知であり、画像xに対応する予測値(第1距離)と画像xに対応する予測値(第2距離)との大小関係が、画像x及び画像x間の前後関係と等しくなるように統計モデルを学習させる。
本実施形態においては、このよう構成により、正解ラベル(教示ラベル)が付与されていない学習用画像であっても統計モデルを学習させることができるため、当該当該モデルにおける学習の容易性を向上させることが可能となる。
また、本実施形態においては、画像x及び画像xを含む複数の学習用画像を、例えば所定の位置に固定された被写体から遠ざかる方向に撮像装置2を移動しながら撮像するものとする。これによれば、撮像された順番に従って当該学習用画像の各々に付される識別番号(例えば、連続する番号)に基づいて各学習用画像に含まれる被写体までの距離の大小関係を容易に判別することができる。
なお、画像x及び画像xを含む複数の学習用画像は、例えば被写体に近づく方向に撮像装置2を移動しながら撮像されてもよい。
また、本実施形態においては複数の学習用画像の各々に含まれる被写体までの距離の大小関係が当該学習用画像に付されている識別番号に基づいて判別されるものとして説明したが、当該大小関係は、上記したように被写体の位置を固定している場合における当該学習用画像を撮像した際の撮像装置2の位置に基づいて判別されてもよい。このような撮像装置2の位置は、学習用画像に付されていればよい。
ここで、例えば撮像装置2には内界センサ(ジャイロセンサまたは加速度センサ等)が搭載されている場合があり、当該内界センサによって検出される信号によれば当該撮像装置2の動き(軌跡)を算出することができる。この場合、上記した学習用画像を撮像した際の撮像装置2の位置は、内界センサによって得られる信号から算出された撮像装置2の動きに基づいて取得することができる。
また、例えば撮像装置2を移動させる移動機構を有するステージを用いて学習用画像を撮像するような場合には、学習用画像を撮像した際の撮像装置2の位置は、当該ステージの位置に基づいて取得されてもよい。
また、本実施形態における学習用画像に含まれる被写体としては、例えば平面形状を有するテレビモニタ等を利用することができる。このようにテレビモニタを被写体として利用した場合、当該テレビモニタには様々な画像を切り替えて表示することができるため、様々な色パターン(の学習用画像)を統計モデルに学習させることが可能となる。
更に、本実施形態においては、統計モデルの学習時に、学習用画像集合の中から任意の2つの学習用画像が選択される(つまり、ランダムに学習用画像が選択される)ものとして説明したが、当該2つの学習用画像としては、例えば被写体までの距離の差分が予め定められた値以上となる学習用画像が優先的に選択されてもよい。なお、各学習用画像に含まれる被写体までの距離(実測値)は不明であるが、当該学習用画像の各々が撮像された順番(つまり、被写体までの距離の大小関係)は識別番号により既知であるため、例えば学習用画像に付されている識別番号の差分が予め定められた値以上の2つの学習用画像が選択することによって、被写体までの距離の差分が予め定められた値以上であると推定される画像を選択することができる。これによれば、学習用画像間の大小関係の誤認(混乱)を排除することができる。
また、学習用画像を撮像する際には撮像装置2の動作によっては被写体が移動していないにもかかわらず連続的に画像が撮像されるような事態が生じ得る。このため、撮像された時刻(日時)の差分が予め定められた値以上となる2つの学習用画像が優先的に選択されるようにしてもよい。
また、統計モデルの学習時には、学習用画像集合の中から選択された2つの学習用画像の各々から任意の領域が切り出される(つまり、ランダムに領域が切り出される)が、この領域は、例えば各学習用画像中の位置や画素値等に応じた所定の規則性に基づいて切り出されてもよい。
なお、本実施形態においては、統計モデルにおいて画像から距離を予測する方式の一例としてパッチ方式を説明したが、画像から距離を予測する方式としては、例えば画像の全体領域が統計モデルに入力され、当該全体領域に対応する予測値(距離)が出力される画面一括方式等が採用されてもよい。
また、本実施形態においては、統計モデルが光学系の収差の影響を受けた学習用画像(当該学習用画像に含まれる被写体までの距離に応じて非線形に変化するぼけ)を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置2の開口部に設けられたフィルタ(カラーフィルタ等)を透過した光に基づいて生成される学習用画像(つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ)を学習することによって生成されるものであってもよい。
(第2実施形態)
次に、第2実施形態について説明する。本実施形態における測距システム(撮像装置及び画像処理装置)の構成等については前述した第1実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図1等を用いる。ここでは、前述した第1実施形態とは異なる点について主に述べる。
前述した第1実施形態においては統計モデルが画像に含まれる被写体までの距離を出力するものとして説明したが、本実施形態における統計モデルは、当該距離(つまり、予測値)に対する不確実性の度合い(以下、不確実度と表記)を当該距離とともに出力するものとする。本実施形態は、このように統計モデルから出力される不確実度を反映した順位損失(順位損失関数)を用いて統計モデルを学習させる点で、前述した第1実施形態とは異なる。なお、不確実度は例えば0以上の実数によって表され、値が大きいほど不確実性が高いことを表すものとする。不確実度の算出方法は、特定の方法に限定されず、既知の様々な方法を適用することができる。
以下、図14のフローチャートを参照して、本実施形態において統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。
まず、前述した図12に示すステップS1~S4の処理に相当するステップS21~S24の処理が実行される。
ステップS24の処理が実行されると、学習処理部35に含まれる計算部35bは、統計モデル格納部31に格納されている統計モデルを用いて、画像xに含まれている被写体までの距離及び当該距離に対する不確実度(画像xに対応する予測値及び不確実度)と、画像xに含まれている被写体までの距離及び当該距離に対する不確実度(画像xに対応する予測値及び不確実度)とを取得する(ステップS25)。
ここで、上記した不確実度をσで表すものとすると、ステップS5においては、画像x(つまり、画像xから切り出されたn画素×m画素の画像パッチ)を統計モデルに入力することによって統計モデルfθから出力される距離fθ(x)及び不確実度σと、画像x(つまり、画像xから切り出されたn画素×m画素の画像パッチ)を入力することによって統計モデルfθから出力される距離fθ(x)及び不確実度σとが取得される。
次に、計算部35bは、ステップS25において取得された距離及び不確実度に基づいて、順位損失を計算する(ステップS26)。
前述した第1実施形態においては式(1)を用いて順位損失が計算されるものとして説明したが、本実施形態における順位損失を表す関数(順位損失関数)は以下の式(5)のように定義される。
Figure 0007446985000003
この式(5)において、Luncrt(x,x)は本実施形態において計算される順位損失を表しており、Lrank(x,x)は前述した第1実施形態における式(1)のLrank(x,x)と同様である。
ここで、例えばテクスチャのない領域や光が飽和している(つまり、白飛びしている)領域がステップS23において切り出されている場合には、統計モデルから精度の高い距離が出力される(つまり、正しい距離を予測する)ことが困難であるが、前述した第1実施形態においては、このような距離を予測するための手掛かりがないまたは少ない領域(以下、予測困難領域と表記)であっても画像x及び画像x間の大小関係を満たすように学習しようとするため、過学習が発生する可能性がある。この場合、統計モデルが予測困難領域に最適化されてしまい、当該統計モデルの汎用性が低下する。
そこで、本実施形態においては、上記した式(5)に示すように不確実度σを損失関数に加えることで、上記した予測困難領域における予測困難性(予測不可能性)を考慮した順位損失を計算する。なお、式(5)のσは、式(6)に定義されるように、不確実度σ及び不確実度σのうちの値が大きい不確実度である。
式(5)のような順位損失関数(不確実性順位損失関数)によれば、予測困難領域においてLrank(x,x)を下げる(小さくする)ことができない場合には、不確実度σ及び不確実度σのうちの少なくとも一方(つまり、不確実度σ)を高くすることによって、本実施形態における順位損失であるLuncrt(x,x)を下げるように調整することができる。ただし、不確実度σを過度に高くすることによりLuncrt(x,x)が下がりすぎることを防止するため、ペナルティとして式(5)の右辺に第2項が加えられている。
なお、式(5)に示す順位損失関数は、例えば不均一分散の定義式を拡張することによって得ることができる。
ステップS26の処理が実行されると、前述した図12に示すステップS7の処理に相当するステップS27の処理が実行される。なお、このステップS27においては、前述した第1実施形態において説明した式(4)のLrank(x,x)をLuncrt(x,x)として統計モデルを学習させればよい。
上記したように本実施形態においては画像x及び画像xに対応する予測値(第1距離及び第2距離)に基づいて計算される順位損失を最小化するように統計モデルを学習させる際に、統計モデルから出力される画像x及び画像xに対応する不確実度(第1及び第2不確実度)のうちの少なくとも一方に基づいて当該順位損失を調整する。
本実施形態においては、このような構成により、上記した予測困難領域が統計モデルの学習に対して与える影響を緩和することができるため、精度の高い統計モデルの学習を実現することが可能となる。
(第3実施形態)
次に、第3実施形態について説明する。本実施形態における測距システム(撮像装置及び画像処理装置)の構成等については前述した第1実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図1等を用いる。ここでは、前述した第1実施形態とは異なる点について主に述べる。
本実施形態は、2つの学習用画像間の大小関係を満たし、かつ、同一の学習用画像内の異なる2つの領域に対応する距離(予測値)のばらつきが最小となるように統計モデルを学習させる点で、前述した第1実施形態とは異なる。なお、本実施形態においては、学習用画像に含まれる被写体として平面形状を有するテレビモニタ等を利用する場合を想定している。
以下、本実施形態において統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。ここでは、便宜的に、図12のフローチャートを用いて説明する。
まず、前述した第1実施形態において説明したステップS1及びS2の処理が実行される。以下の説明においては、ステップS2において選択された2つの学習用画像を画像x及び画像xとする。
ステップS2の処理が実行されると、学習処理部35は、画像x及び画像xの各々から任意の領域を切り出す(ステップS3)。
ここで、前述した第1実施形態においては画像x及び画像xからそれぞれ1つの領域が切り出されるものとして説明したが、本実施形態においては、例えば画像xから2つの領域が切り出され、画像xから1つの領域が切り出される。
なお、前述した第1実施形態においては画像x及び画像xの全体を占める領域が切り出されてもよいものとして説明したが、本実施形態においては、画像x及び画像xの一部の領域(画像パッチ)が切り出されるものとする。
以下の説明においては、便宜的に、ステップS3において画像xから切り出された2つの領域を画像xi1及び画像xi2、当該ステップS3において画像xから切り出された領域を単に画像xとする。
ステップS3の処理が実行されると、前述した第1実施形態において説明したステップS4及びS5の処理が実行される。なお、ステップS5においては、画像xi1を入力することによって統計モデルfθから出力される距離fθ(xi1)、画像xi2を入力することによって統計モデルfθから出力される距離fθ(xi2)及び画像xを入力することによって統計モデルfθから出力される距離fθ(x)が取得される。
次に、計算部35bは、ステップS5において取得された距離(画像xi1、画像xi2及び画像xの各々に対応する予測値)に基づいて順位損失を計算する(ステップS6)。
ここで、本実施形態における学習用画像に含まれる被写体は平面形状を有しているため、同一の学習用画像に含まれる被写体までの距離は同一である。本実施形態においては、この点に着目し、画像xi1及び画像xi2(つまり、同一の画像xから切り出された2つの領域)に対応する予測値のばらつきが最小化するように統計モデルを学習させるものとする。
この場合、本実施形態における順位損失を表す関数(順位損失関数)は以下の式(7)のように定義される。
Figure 0007446985000004
この式(7)において、Lintra(xi1,xi2,x)は本実施形態において計算される順位損失を表しており、Lrank(xi1,x)は前述した第1実施形態における式(1)のLrank(x,x)に相当する。すなわち、Lrank(xi1,x)は、式(1)における画像xを画像xi1として計算される。
また、式(7)の右辺の第2項は画像xi1に対応する距離(予測値)と画像xi2に対応する距離(予測値)とのばらつき(差分)を表しており、当該第2項中のλは、当該右辺の第1項とのバランスを取るための任意の係数(λ>0)である。
なお、本実施形態においては画像xi1及び画像xi2はそれぞれ同一の画像xから切り出された領域であるため、画像xi1、画像xi2及び画像x間の大小関係(つまり、画像xi1、画像xi2及び画像xの各々の順位の前後関係)は、式(8)を満たす。
ステップS6の処理が実行されると、前述した第1実施形態において説明したステップS7の処理が実行される。このステップS7においては、前述した第1実施形態において説明した式(4)のLrank(x,x)をLintra(xi1,xi2,x)として統計モデルを学習させればよい。
上記したように本実施形態においては、画像xから切り出された2つの領域(第1及び第3領域)の各々を入力として統計モデルから出力される距離(第1距離及び第5距離)の差分が最小化されるように統計モデルを学習させる構成により、前述した第1実施形態と比較して、同一の学習用画像内の各領域に対応する距離のばらつきを考慮したより精度の高い統計モデルの学習を実現することが可能となる。
本実施形態においては、画像x及び画像xのうちの画像x内の各領域に対応する距離のばらつきを考慮して順位損失を計算するものとして説明したが、例えば以下の式(9)のように、画像x内の各領域に対応する距離のばらつきを更に考慮した順位損失を計算する順位損失関数を用いてもよい。
Figure 0007446985000005
なお、式(9)においては、画像xから切り出される2つの領域をそれぞれ画像xk1及び画像xk2として表している。
また、本実施形態は、前述した第2実施形態と組み合わせた構成としてもよい。この場合には、以下の式(10)のような順位損失関数を用いることができる。
Figure 0007446985000006
以上述べた少なくとも1つの実施形態によれば、統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…測距システム、2…撮像装置、3…画像処理装置、21…レンズ、22…イメージセンサ、31…統計モデル格納部、32…画像取得部、33…距離取得部、34…出力部、35…学習処理部、35a…判別部、35b…計算部、35c…学習部、221…第1センサ、222…第2センサ、223…第3センサ、301…CPU、302…不揮発性メモリ、303…RAM、303A…画像処理プログラム、304…通信デバイス、305…バス。

Claims (15)

  1. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる学習方法であって、
    撮像装置によって撮像された被写体を含む第1及び第2画像を取得することと、
    前記第1画像の少なくとも一部である第1領域を入力として前記統計モデルから出力される第1距離及び前記第2画像の少なくとも一部である第2領域を入力として前記統計モデルから出力される第2距離に基づいて前記統計モデルを学習させることと
    を具備し、
    前記第1画像に含まれる被写体までの第3距離の正解値は前記第1画像に付与されておらず、
    前記第2画像に含まれる被写体まで第4距離の正解値は前記第2画像に付与されておらず、
    前記第3距離と前記第4距離との大小関係は既知であり、
    前記学習させることは、前記第3距離の正解値及び前記第4距離の正解値を用いることなく、前記第1距離と前記第2距離との大小関係が前記第3距離と前記第4距離との大小関係と等しくなるように前記統計モデルを学習させることを含む
    学習方法。
  2. 前記統計モデルは、前記第1領域を入力として前記第1距離及び当該第1距離の第1不確実度を出力し、前記第2領域を入力として前記第2距離及び当該第2距離の第2不確実度を出力し、
    前記学習させることは、前記統計モデルから出力される第1距離及び第2距離に基づいて計算される順位損失を最小化するように当該統計モデルを学習させることを含み、
    前記順位損失は、前記第1不確実度及び前記第2不確実度のうちの少なくとも一方に基づいて調整される
    請求項1記載の学習方法。
  3. 前記統計モデルは、前記第1画像の少なくとも一部であり、前記第1領域とは異なる第3領域を入力として第5距離を出力し、
    前記学習させることは、前記第1距離と前記第5距離との差分が最小化されるように前記統計モデルを学習させることを含む
    請求項1または2記載の学習方法。
  4. 前記第1画像及び前記第2画像は、前記被写体から遠ざかる方向に前記撮像装置を移動しながら当該撮像装置によって撮像され、
    前記撮像装置によって撮像された順番を表す識別番号が前記第1画像及び前記第2画像に付されており、
    前記第3距離と前記第4距離との大小関係は、前記第1画像及び前記第2画像に付されている識別番号に基づいて判別される
    請求項1~3のいずれか一項に記載の学習方法。
  5. 前記第1画像及び前記第2画像は、前記被写体に近づく方向に前記撮像装置を移動しながら当該撮像装置によって撮像され、
    前記撮像装置によって撮像された順番を表す識別番号が前記第1画像及び前記第2画像に付されており、
    前記前記第3距離と前記第4距離との大小関係は、前記第1画像及び前記第2画像に付されている識別番号に基づいて判別される
    請求項1~3のいずれか一項に記載の学習方法。
  6. 前記第3距離と前記第4距離との大小関係は、前記撮像装置によって前記第1画像及び前記第2画像が撮像された際の当該撮像装置の位置に基づいて判別される請求項1~3のいずれか一項に記載の学習方法。
  7. 前記撮像装置によって前記第1画像及び前記第2画像が撮像された際の当該撮像装置の位置は、当該撮像装置に搭載されたセンサによって取得される請求項6記載の学習方法。
  8. 前記撮像装置によって前記第1画像及び前記第2画像が撮像された際の当該撮像装置の位置は、当該撮像装置を移動させる移動機構の位置に基づいて取得される請求項6記載の学習方法。
  9. 前記被写体の形状は、平面形状である請求項1~8のいずれか一項に記載の学習方法。
  10. 前記第3距離と前記第4距離との差分は、予め定められた値以上である請求項1~9のいずれか一項に記載の学習方法。
  11. 前記第1画像が撮像された第1時刻と前記第2画像が撮像された第2時刻との差分は、予め定められた値以上である請求項1~10のいずれか一項に記載の学習方法。
  12. 前記統計モデルは、光学系の収差の影響を受けた画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項1~11のいずれか一項に記載の学習方法。
  13. 前記統計モデルは、フィルタを透過した光に基づいて生成される画像に生じる、当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけを学習することによって生成される請求項1~11のいずれか一項に記載の学習方法。
  14. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させるプログラムであって、
    コンピュータに、
    撮像装置によって撮像された被写体を含む第1及び第2画像を取得することと、
    前記第1画像の少なくとも一部である第1領域を入力として前記統計モデルから出力される第1距離及び前記第2画像の少なくとも一部である第2領域を入力として前記統計モデルから出力される第2距離に基づいて前記統計モデルを学習させることと
    を実行させ、
    前記第1画像に含まれる被写体までの第3距離の正解値は前記第1画像に付与されておらず、
    前記第2画像に含まれる被写体まで第4距離の正解値は前記第2画像に付与されておらず、
    前記第3距離と前記第4距離との大小関係は既知であり、
    前記学習させることは、前記第3距離の正解値及び前記第4距離の正解値を用いることなく、前記第1距離と前記第2距離との大小関係が前記第3距離と前記第4距離との大小関係と等しくなるように前記統計モデルを学習させることを含む
    プログラム。
  15. 被写体を含む画像を入力として当該被写体までの距離を出力するための統計モデルを学習させる画像処理装置であって、
    撮像装置によって撮像された被写体を含む第1及び第2画像を取得する取得手段と、
    前記第1画像の少なくとも一部である第1領域を入力として前記統計モデルから出力される第1距離及び前記第2画像の少なくとも一部である第2領域を入力として前記統計モデルから出力される第2距離に基づいて前記統計モデルを学習させる学習手段と
    を具備し、
    前記第1画像に含まれる被写体までの第3距離の正解値は前記第1画像に付与されておらず、
    前記第2画像に含まれる被写体まで第4距離の正解値は前記第2画像に付与されておらず、
    前記第3距離と前記第4距離との大小関係は既知であり、
    前記学習手段は、前記第3距離の正解値及び前記第4距離の正解値を用いることなく、前記第1距離と前記第2距離との大小関係が前記第3距離と前記第4距離との大小関係と等しくなるように前記統計モデルを学習させる
    画像処理装置。
JP2020207634A 2020-12-15 2020-12-15 学習方法、プログラム及び画像処理装置 Active JP7446985B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020207634A JP7446985B2 (ja) 2020-12-15 2020-12-15 学習方法、プログラム及び画像処理装置
US17/467,720 US20220188571A1 (en) 2020-12-15 2021-09-07 Learning method, storage medium, and image processing device
CN202111042419.XA CN114638354A (zh) 2020-12-15 2021-09-07 学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020207634A JP7446985B2 (ja) 2020-12-15 2020-12-15 学習方法、プログラム及び画像処理装置

Publications (2)

Publication Number Publication Date
JP2022094636A JP2022094636A (ja) 2022-06-27
JP7446985B2 true JP7446985B2 (ja) 2024-03-11

Family

ID=81941551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020207634A Active JP7446985B2 (ja) 2020-12-15 2020-12-15 学習方法、プログラム及び画像処理装置

Country Status (3)

Country Link
US (1) US20220188571A1 (ja)
JP (1) JP7446985B2 (ja)
CN (1) CN114638354A (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016102733A (ja) 2014-11-28 2016-06-02 株式会社東芝 レンズ及び撮影装置
JP2019008460A (ja) 2017-06-22 2019-01-17 株式会社東芝 物体検出装置、物体検出方法およびプログラム
WO2019073814A1 (ja) 2017-10-13 2019-04-18 ソニー株式会社 焦点検出装置および方法、並びにプログラム
JP2019124537A (ja) 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム、並びに、車両の運転支援システム
JP2020026990A (ja) 2018-08-10 2020-02-20 株式会社東芝 画像処理装置
JP2020148483A (ja) 2019-03-11 2020-09-17 株式会社東芝 画像処理装置、測距装置、方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5837463B2 (ja) * 2012-07-06 2015-12-24 株式会社東芝 画像処理装置および画像処理システム
JP2021168048A (ja) * 2020-04-10 2021-10-21 キヤノン株式会社 画像処理方法、画像処理装置、画像処理システム、およびプログラム
JP7467368B2 (ja) * 2021-02-25 2024-04-15 株式会社東芝 画像処理装置、測距装置、方法及びプログラム
JP7451465B2 (ja) * 2021-07-29 2024-03-18 株式会社東芝 学習方法、プログラム及び画像処理装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016102733A (ja) 2014-11-28 2016-06-02 株式会社東芝 レンズ及び撮影装置
JP2019008460A (ja) 2017-06-22 2019-01-17 株式会社東芝 物体検出装置、物体検出方法およびプログラム
WO2019073814A1 (ja) 2017-10-13 2019-04-18 ソニー株式会社 焦点検出装置および方法、並びにプログラム
JP2019124537A (ja) 2018-01-15 2019-07-25 キヤノン株式会社 情報処理装置及びその制御方法及びプログラム、並びに、車両の運転支援システム
JP2020026990A (ja) 2018-08-10 2020-02-20 株式会社東芝 画像処理装置
JP2020148483A (ja) 2019-03-11 2020-09-17 株式会社東芝 画像処理装置、測距装置、方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
今井 拓司,東芝が単眼カメラの収差からステレオ並み距離画像レンズの色収差などから深層学習で形状推定,NIKKEI Robotics,日本,日経BP,2020年02月10日,2020.03,P.10-15

Also Published As

Publication number Publication date
CN114638354A (zh) 2022-06-17
US20220188571A1 (en) 2022-06-16
JP2022094636A (ja) 2022-06-27

Similar Documents

Publication Publication Date Title
US20200302640A1 (en) Eye tracking method and system
US20170132785A1 (en) Method and system for evaluating the quality of a surgical procedure from in-vivo video
US9344690B2 (en) Image demosaicing
JP4906034B2 (ja) 撮影装置および方法並びにプログラム
JP7370922B2 (ja) 学習方法、プログラム及び画像処理装置
KR20210140763A (ko) 시선 방향 결정 방법, 장치, 전자 장치 및 저장 매체
US11210560B2 (en) Multi-modal dense correspondence imaging system
JP7379299B2 (ja) 位置姿勢推定装置、位置姿勢推定方法及びプログラム
WO2022213552A1 (en) Systems and methods for helmet detection
JP7176616B2 (ja) 画像処理システム、画像処理装置、画像処理方法、及び画像処理プログラム
JP7451465B2 (ja) 学習方法、プログラム及び画像処理装置
JP5591090B2 (ja) 画像処理装置およびその方法
JP2019074777A (ja) 画像処理方法、画像処理装置、および撮像装置
JP7204586B2 (ja) 学習方法、プログラム及び画像処理装置
JP7446985B2 (ja) 学習方法、プログラム及び画像処理装置
US20220165055A1 (en) Information processing apparatus, information processing method, and storage medium
JP2023035612A (ja) 推定装置、方法及びプログラム
JP7482070B2 (ja) 学習方法、プログラム及び画像処理装置
US9210386B2 (en) Filter setup learning for binary sensor
JP2019212132A (ja) 画像処理方法、画像処理装置、撮像装置、プログラム、および、記憶媒体
JP7009219B2 (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
JP7239002B2 (ja) 物体数推定装置、制御方法、及びプログラム
JP4741804B2 (ja) 画像処理装置及び画像処理方法
JP2019139694A (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
JP6292613B2 (ja) 背景抽出装置、主成分分析装置及び主成分分析プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240228

R151 Written notification of patent or utility model registration

Ref document number: 7446985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151