JP7451465B2 - 学習方法、プログラム及び画像処理装置 - Google Patents

学習方法、プログラム及び画像処理装置 Download PDF

Info

Publication number
JP7451465B2
JP7451465B2 JP2021124296A JP2021124296A JP7451465B2 JP 7451465 B2 JP7451465 B2 JP 7451465B2 JP 2021124296 A JP2021124296 A JP 2021124296A JP 2021124296 A JP2021124296 A JP 2021124296A JP 7451465 B2 JP7451465 B2 JP 7451465B2
Authority
JP
Japan
Prior art keywords
image
statistical model
distance
learning
blur
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021124296A
Other languages
English (en)
Other versions
JP2023019521A (ja
Inventor
直 三島
晃仁 関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2021124296A priority Critical patent/JP7451465B2/ja
Priority to US17/682,696 priority patent/US20230032387A1/en
Priority to CN202210185761.3A priority patent/CN115700611A/zh
Publication of JP2023019521A publication Critical patent/JP2023019521A/ja
Application granted granted Critical
Publication of JP7451465B2 publication Critical patent/JP7451465B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Measurement Of Optical Distance (AREA)
  • Studio Devices (AREA)
  • Image Processing (AREA)

Description

本発明の実施形態は、学習方法、プログラム及び画像処理装置に関する。
被写体までの距離を取得するために、2つの撮像装置(カメラ)やステレオカメラ(複眼のカメラ)で撮像された画像を用いることが知られていたが、近年では、1つの撮像装置(単眼のカメラ)で撮像された画像を用いて被写体までの距離を取得する技術が開発されている。
ここで、上記したように画像を用いて被写体までの距離を取得するために、ニューラルネットワーク等の機械学習アルゴリズムを適用して生成される統計モデルを用いることが考えられる。
しかしながら、高い精度の統計モデルを生成するためには、膨大な学習用のデータセット(学習用画像と当該学習用画像中の被写体までの距離に関する正解値とのセット)を統計モデルに学習させる必要があるが、当該データセットを用意することは容易ではない。
M.Kashiwagi et al., "Deep Depth From Aberration Map", Proceedings of the IEEEE International Conference on Computer Vision, 2019 Mishima et al. "Physical Cue based Depth-Sensing by Color Coding with Deaberration Network", BMVC2019
そこで、本発明が解決しようとする課題は、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することにある。
実施形態によれば、被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる学習方法が提供される。前記学習方法は、撮像装置によって第1被写体を多視点から撮像した第1多視点画像を取得することと、前記第1多視点画像のうちの第1画像を入力として前記統計モデルから出力される第1ぼけ値及び前記第1多視点画像のうちの第2画像を入力として前記統計モデルから出力される第2ぼけ値に基づいて前記統計モデルを学習させることとを具備する。前記学習させることは、前記第1多視点画像から、前記第1画像を撮像した際の前記撮像装置から当該第1画像に含まれる第1被写体までの第1距離及び前記第2画像を撮像した際の前記撮像装置から当該第2画像に含まれる第1被写体までの第2距離を取得することと、前記第1距離と前記第2距離との大小関係を判別することと、前記第1ぼけ値と前記第2ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させることを含む。
第1実施形態における測距システムの構成の一例を示す図。 画像処理装置のシステム構成の一例を示す図。 測距システムの動作の概要について説明するための図。 被写体までの距離を取得する原理について説明するための図。 統計モデルにおいて予測されるぼけ値について具体的に説明するための図。 撮像画像からぼけを予測する方式の一例について説明するための図。 画像パッチに関する情報の一例を示す図。 一般的な統計モデルの学習方法の概要について説明するための図。 学習用のデータセットについて説明するための図。 本実施形態に係る統計モデルの学習方法の概要について説明するための図。 学習処理部の機能構成の一例を示すブロック図。 多視点画像について説明するための図。 統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。 SfMの概要を示す図。 スケールパラメータとぼけ値との関係性について説明するための図。 撮像画像から距離情報を取得する際の画像処理装置の処理手順の一例を示すフローチャート。 複数のシーンで撮像された多視点画像を用いて統計モデルを学習させる場合について説明するための図。 第2実施形態において統計モデルを学習させる際の画像処理装置の処理手順の一例を示すフローチャート。
以下、図面を参照して、各実施形態について説明する。
(第1実施形態)
図1は、第1実施形態における測距システムの構成の一例を示す。図1に示す測距システム1は、画像を撮像し、当該撮像された画像を用いて撮像地点から被写体までの距離を取得(測定)するために使用される。
図1に示すように、測距システム1は、撮像装置2及び画像処理装置3を備える。本実施形態においては、測距システム1が別個の装置である撮像装置2及び画像処理装置3を備えるものとして説明するが、当該測距システム1は、撮像装置2が撮像部として機能し、画像処理装置3が画像処理部として機能する1つの装置(測距装置)として実現されていてもよい。また、画像処理装置3は、例えば各種クラウドコンピューティングサービスを実行するサーバとして動作するものであってもよい。
撮像装置2は、各種画像を撮像するために用いられる。撮像装置2は、レンズ21及びイメージセンサ22を備える。レンズ21及びイメージセンサ22は、撮像装置2の光学系(単眼カメラ)に相当する。
レンズ21には、被写体で反射した光が入射する。レンズ21に入射した光は、レンズ21を透過する。レンズ21を透過した光は、イメージセンサ22に到達し、当該イメージセンサ22によって受光(検出)される。イメージセンサ22は、受光した光を電気信号に変換(光電変換)することによって、複数の画素から構成される画像を生成する。
なお、イメージセンサ22は、例えばCCD(Charge Coupled Device)イメージセンサ及びCMOS(Complementary Metal Oxide Semiconductor)イメージセンサ等により実現される。イメージセンサ22は、例えば赤色(R)の波長帯域の光を検出する第1センサ(Rセンサ)221、緑色(G)の波長帯域の光を検出する第2センサ(Gセンサ)222及び青色(B)の波長帯域の光を検出する第3センサ(Bセンサ)223を含む。
イメージセンサ22は、第1~第3センサ221~223により対応する波長帯域の光を受光して、各波長帯域(色成分)に対応するセンサ画像(R画像、G画像及びB画像)を生成することができる。すなわち、撮像装置2によって撮像される画像はカラー画像(RGB画像)であり、当該画像にはR画像、G画像及びB画像が含まれる。
なお、本実施形態においてはイメージセンサ22が第1~第3センサ221~223を含むものとして説明するが、イメージセンサ22は、第1~第3センサ221~223のうちの少なくとも1つを含むように構成されていればよい。また、イメージセンサ22は、第1~第3センサ221~223に代えて、例えばモノクロ画像を生成するためのセンサを含むように構成されていてもよい。
本実施形態においてレンズ21を透過した光に基づいて生成された画像は、光学系(レンズ21)の収差の影響を受けた画像であり、当該収差により生じるぼけを含む。
図1に示す画像処理装置3は、機能構成として、統計モデル格納部31、画像取得部32、距離取得部33、出力部34及び学習処理部35を含む。
統計モデル格納部31には、被写体までの距離を撮像装置2によって撮像された画像から取得するために用いられる統計モデルが格納されている。統計モデル格納部31に格納されている統計モデルは、上記した光学系の収差の影響を受けた画像に生じる、当該画像中の被写体までの距離に応じて非線形に変化するぼけを学習することによって生成されている。このような統計モデルによれば、画像が当該統計モデルに入力されることによって、当該画像に対応する予測値として、当該画像に含まれ被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を予測(出力)することができる。
なお、統計モデルは、例えばニューラルネットワークまたはランダムフォレスト等の既知の様々な機械学習アルゴリズムを適用して生成することができるものとする。また、本実施形態において適用可能なニューラルネットワークには、例えば畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)、全結合ニューラルネットワーク及び再帰型ニューラルネットワーク等が含まれていてもよい。
画像取得部32は、上記した撮像装置2によって撮像された画像を、当該撮像装置2(イメージセンサ22)から取得する。
距離取得部33は、画像取得部32によって取得された画像を用いて、当該画像中の被写体までの距離を示す距離情報を取得する。この場合、距離取得部33は、画像を統計モデル格納部31に格納されている統計モデルに入力することによって当該統計モデルから出力されるぼけ値(当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値)に基づいて距離情報を取得する。
出力部34は、距離取得部33によって取得された距離情報を、例えば画像と位置的に対応づけて配置したマップ形式で出力する。この場合、出力部34は、距離情報によって示される距離を画素値とする画素から構成される画像データを出力する(つまり、距離情報を画像データとして出力する)ことができる。このように距離情報が画像データとして出力される場合、当該画像データは、例えば色で距離を示す距離画像として表示されることができる。出力部34によって出力される距離情報は、例えば撮像装置2によって撮像された画像中の被写体のサイズを算出するために利用することも可能である。
学習処理部35は、例えば画像取得部32によって取得される画像を用いて統計モデル格納部31に格納されている統計モデルを学習させる処理を実行する。学習処理部35によって実行される処理の詳細については後述する。
なお、図1に示す例では、画像処理装置3が各部31~35を含むものとして説明したが、当該画像処理装置3は、例えば画像取得部32、距離取得部33及び出力部34を含む測距装置と、統計モデル格納部31、画像取得部32及び学習処理部35を含む学習装置とから構成されていてもよい。
図2は、図1に示す画像処理装置2のシステム構成の一例を示す。画像処理装置3は、CPU301、不揮発性メモリ302、RAM303及び通信デバイス304を備える。また、画像処理装置3は、CPU301、不揮発性メモリ302、RAM303及び通信デバイス304を相互に接続するバス305を有する。
CPU301は、画像処理装置3内の様々なコンポーネントの動作を制御するためのプロセッサである。CPU301は、単一のプロセッサであってもよいし、複数のプロセッサで構成されていてもよい。CPU301は、不揮発性メモリ302からRAM303にロードされる様々なプログラムを実行する。これらプログラムは、オペレーティングシステム(OS)や様々なアプリケーションプログラムを含む。アプリケーションプログラムは、画像処理プログラム303Aを含む。
不揮発性メモリ302は、補助記憶装置として用いられる記憶媒体である。RAM303は、主記憶装置として用いられる記憶媒体である。図2においては不揮発性メモリ302及びRAM303のみが示されているが、画像処理装置3は、例えばHDD(Hard Disk Drive)及びSSD(Solid State Drive)等の他の記憶装置を備えていてもよい。
なお、本実施形態において、図1に示す統計モデル格納部31は、例えば不揮発性メモリ302または他の記憶装置等によって実現される。
また、本実施形態において、図1に示す画像取得部32、距離取得部33、出力部34及び学習処理部35の一部または全ては、CPU301(つまり、画像処理装置3のコンピュータ)に画像処理プログラム303Aを実行させること、すなわち、ソフトウェアによって実現されるものとする。この画像処理プログラム303Aは、コンピュータ読み取り可能な記憶媒体に格納して頒布されてもよいし、ネットワークを通じて画像処理装置3にダウロードされてもよい。
ここでは、CPU301に画像処理プログラム303Aを実行させるものとして説明したが、各部32~35の一部または全ては、CPU301の代わりに例えばGPU(図示せず)を用いて実現されてもよい。また、各部32~35の一部または全ては、IC(Integrated Circuit)等のハードウェアによって実現されてもよいし、ソフトウェア及びハードウェアの組み合わせによって実現されてもよい。
通信デバイス304は、有線通信または無線通信を実行するように構成されたデバイスである。通信デバイス304は、信号を送信する送信部及び信号を受信する受信部を含む。通信デバイス304は、ネットワークを介した外部機器との通信、周辺に存在する外部機器との通信等を実行する。この外部機器には、撮像装置2が含まれる。この場合、画像処理装置3は、通信デバイス304を介して、撮像装置2から画像を受信することができる。
図2においては省略されているが、画像処理装置3は、例えばマウスまたはキーボードのような入力デバイス及びディスプレイのような表示デバイスを更に備えていてもよい。
次に、図3を参照して、本実施形態における測距システム1の動作の概要について説明する。
測距システム1において、撮像装置2(イメージセンサ22)は、上記したように光学系(レンズ21)の収差の影響を受けた画像を生成する。
画像処理装置3(画像取得部32)は、撮像装置2によって生成された画像を取得し、当該画像を統計モデル格納部31に格納されている統計モデルに入力する。
ここで、本実施形態における統計モデルによれば、上記したように入力された画像中の被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値(ぼけ情報)が出力される。後述するように画像中の被写体までの距離と当該距離に応じて画像に生じるぼけの色、サイズ及び形状とは相関があり、画像処理装置3(距離取得部33)は、統計モデルから出力されたぼけ値を距離に変換することによって当該被写体までの距離を示す距離情報を取得することができる。なお、本実施形態において統計モデルから出力されるぼけ値とは、画像に生じるぼけの色、サイズ及び形状を含むぼけ量を表すスカラー量である。
このように本実施形態においては、統計モデルを用いて、撮像装置2によって撮像された画像から距離情報を取得することができる。
ここで、図4を参照して、本実施形態において被写体までの距離(を示す距離情報)を取得する原理について簡単に説明する。
撮像装置2によって撮像された画像(以下、撮像画像と表記)には、上記したように当該撮像装置2の光学系の収差(レンズ収差)に起因するぼけが生じている。具体的には、収差のあるレンズ21を透過する際の光の屈折率は波長帯域毎に異なるため、例えば被写体の位置がピント位置(撮像装置2においてピントが合う位置)からずれているような場合には、各波長帯域の光が1点に集まらず異なった点に到達する。これが、画像上でぼけ(色収差)として現れる。
また、撮像画像においては、当該撮像画像中の被写体までの距離(つまり、撮像装置2に対する被写体の位置)に応じて非線形に変化するぼけ(色、サイズ及び形状)が観察される。
このため、本実施形態においては、図4に示すように撮像画像401に生じるぼけ(ぼけ値)402を被写体403までの距離に関する物理的な手掛かりとして統計モデルで分析することによって当該被写体403までの距離を取得する。
具体的には、本実施形態における統計モデルは撮像画像401が入力されることによって当該撮像画像401に生じるぼけ402を予測(推定)するが、本実施形態においては、当該ぼけ402を被写体403までの距離に変換することによって、当該撮像画像401中の被写体403までの距離を取得することができる。
ここで、図5を参照して、統計モデルにおいて予測されるぼけ値について具体的に説明する。
撮像画像に生じるぼけのサイズ(ピクセル)の絶対値は、被写体の位置がピント位置よりも近い場合及び被写体の位置がピント位置よりも遠い場合のいずれの場合においても、被写体がピント位置から離れるほど大きくなる。一方、ぼけの色及び形状は、被写体の位置がピント位置よりも近い場合と被写体の位置がピント位置よりも遠い場合とで異なる。
このため、本実施形態においては、被写体がピント位置よりも近い(手前にある)場合に生じるぼけ(の色、サイズ及び形状)を示すぼけ値をマイナスの値で示し、被写体がピント位置よりも遠い(奥にある)場合に生じるぼけ(の色、サイズ及び形状)を示すぼけ値をプラスの値で示すものとする。
すなわち、本実施形態における統計モデルにおいては、被写体までの距離が近い場合にはぼけ値として小さな値が予測され、被写体までの距離が遠い場合にはぼけ値として大きな値が予測されるものとする。
以下、図6を参照して、統計モデルにおいて撮像画像から被写体までの距離に応じて当該撮像画像に生じるぼけ(を示すぼけ値)を予測する方式の一例について説明する。ここでは、パッチ方式について説明する。
図6に示すように、パッチ方式においては、撮像画像401から局所領域(以下、画像パッチと表記)401aが切り出される(抽出される)。
この場合、例えば撮像画像401の全体領域をマトリクス状に分割し、当該分割後の部分領域を画像パッチ401aとして順次切り出すようにしてもよいし、撮像画像401を認識して、被写体(像)が検出された領域を網羅するように画像パッチ401aを切り出してもよい。なお、画像パッチ401aは、他の画像パッチ401aとの間で一部がオーバーラップしていてもよい。
パッチ方式においては、上記したように切り出された画像パッチ401aに対応する予測値としてぼけ値が出力される。すなわち、パッチ方式においては、撮像画像401から切り出された画像パッチ401aの各々に関する情報を入力として、当該画像パッチ401aの各々に含まれる被写体に生じているぼけ402が予測される。
図7は、上記したパッチ方式において統計モデルに入力される画像パッチ401aに関する情報の一例を示す。
パッチ方式においては、撮像画像401に含まれるR画像、G画像及びB画像のそれぞれについて、当該撮像画像401から切り出された画像パッチ401aの勾配データ(R画像の勾配データ、G画像の勾配データ及びB画像の勾配データ)が生成される。統計モデルには、このように生成された勾配データが入力される。
なお、勾配データは、各画素と当該画素に隣接する画素との画素値の差分(差分値)に相当する。例えば画像パッチ401aがn画素(X軸方向)×m画素(Y軸方向)の矩形領域として抽出される場合、当該画像パッチ401a内の各画素について算出した例えば右隣の画素との差分値をn行×m列のマトリクス状に配置した勾配データ(つまり、各画素の勾配データ)が生成される。
統計モデルは、R画像の勾配データと、G画像の勾配データと、B画像の勾配データとを用いて、当該画素に生じているぼけを予測する。図7においてはR画像、G画像及びB画像の各々の勾配データが統計モデルに入力される場合について示しているが、RGB画像の勾配データが統計モデルに入力される構成であってもよい。
なお、上記したように各画素の勾配データが統計モデルに入力される場合、当該統計モデルは、画素毎にぼけ値を出力する。
ここで、本実施形態においては、上記したように統計モデルを用いることによって画像から当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけ(を示すぼけ値)を予測することが可能であるが、当該ぼけ値の精度を向上させるためには、当該統計モデルを学習させる必要がある。
以下、図8を参照して、一般的な統計モデルの学習方法の概要について説明する。統計モデルの学習は、当該学習のために用意された画像(以下、学習用画像と表記)501に関する情報を統計モデルに入力し、当該統計モデルによって予測されたぼけ値502と正解値503との誤差を当該統計モデルにフィードバックすることによって行われる。なお、正解値503とは、学習用画像501の撮像地点から当該学習用画像501に含まれる被写体までの実際の距離(実測値)に応じて当該学習用画像501に生じるぼけを示すぼけ値(つまり、当該実際の距離を変換することによって得られるぼけ値)をいい、例えば正解ラベル等とも称される。また、フィードバックとは、誤差が減少するように統計モデルのパラメータ(例えば、重み係数)を更新することをいう。
具体的には、統計モデルにおいて撮像装置からぼけ値を予測する方式として上記したパッチ方式が適用される場合、学習用画像501から切り出された画像パッチ(局所領域)毎に、当該画像パッチに関する情報(勾配データ)が統計モデルに入力され、当該統計モデルによって各画像パッチに対応する予測値としてぼけ値502が出力される。このように出力されたぼけ値502と正解値503とが比較されることによって得られる誤差が、統計モデルにフィードバックされる。
ところで、上記した一般的な統計モデルの学習方法においては、例えば図9に示すような正解ラベルが付与された学習用画像(つまり、学習用画像と当該学習用画像から予測されるべき実際の距離を変換することによって得られる正解値とを含む学習用のデータセット)を用意する必要があり、当該正解ラベルを得るためには、学習用画像を撮像する度に当該学習用画像に含まれる被写体までの実際の距離を計測しなければならない。統計モデルの精度を向上させるためには多数の学習用のデータセットを統計モデルに学習させる必要があるため、このような多数の学習用データセットを用意することは容易ではない。
ここで、統計モデルの学習においては学習用画像(画像パッチ)が入力されることによって当該統計モデルから出力されるぼけ値に基づいて計算される損失(誤差)を評価(フィードバック)する必要があるところ、本実施形態においては、学習用画像に含まれる被写体までの距離の大小関係を用いて計算される順位損失(ランクロス)による弱教師学習を行うものとする。
なお、順位損失による弱教師学習とは、データ間の相対的な順序関係(順位)に基づいて学習を行う方法である。本実施形態においては、撮像装置2から被写体までの距離(相対距離)に基づく2つの画像の各々の順位に基づいて統計モデルを学習させるものとする。
このような学習方法であれば、学習用画像に含まれる被写体までの距離の大小関係が判明していれば、当該距離の実測値(実際の距離)は不明であってもよい。
ここで、図10に示すように、撮像装置2からの実際の距離は不明であるが、当該距離の大小関係(順位)が判明している5つの被写体S~Sがあるものとする。なお、被写体S~Sのうち、被写体Sが撮像装置2から最も近い位置にあり、被写体Sが撮像装置2から最も遠い位置にある。このような被写体S~Sの各々を撮像装置2で撮像し、当該被写体S~Sの各々を含む画像を画像x~xとすると、当該画像x~xの各々に含まれる被写体S~Sまでの距離に応じた各画像の順位(ランク)は、画像xが「1」、画像xが「2」、画像xが「3」、画像xが「4」、画像xが「5」となる。
このような画像x~xにおいて、例えば画像xに含まれる被写体Sまでの距離に応じて当該画像xに生じるぼけを示すぼけ値と、画像xに含まれる被写体Sまでの距離に応じて当該画像xに生じるぼけを示すぼけ値とを統計モデルを用いて予測する場合を想定する。
この場合、上記した図5において説明したような距離とぼけ値との関係性によれば、十分に学習が行われ、高い精度を有する統計モデルが用いられるのであれば、画像xを入力することによって当該統計モデルから出力されるぼけ値は、画像xを入力することによって当該統計モデルから出力されるぼけ値よりも小さくなるはずである。
そこで、本実施形態においては、例えば画像xに含まれる被写体までの距離(画像xを撮像した際の撮像装置2から当該被写体までの距離)と画像xに含まれる被写体までの距離(画像xを撮像した際の撮像装置2から当該被写体までの距離)との大小関係を判別し、「rank(x)>rank(x)であればfθ(x)>fθ(x)」という関係が成り立つという前提に基づいて、このような関係が維持されるような損失(順位損失)を用いて統計モデルを学習させるものとする。
なお、rank(x)>rank(x)は、画像xに含まれる被写体までの距離が画像xに含まれる被写体までの距離よりも大きいことを表している。また、fθ(x)は画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)(つまり、画像xに対応する予測値)を表しており、fθ(x)は画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)(つまり、画像xに対応する予測値)を表している。また、fθにおけるθは、統計モデルのパラメータである。
図9及び図10においては、便宜的に、平面形状を有する被写体が示されているが、被写体は他の形状を有する他の物体等であってもよい。
以下、図1に示す画像処理装置3に含まれる学習処理部35について具体的に説明する。図11は、学習処理部35の機能構成の一例を示すブロック図である。
図11に示すように、学習処理部35は、距離取得部35a、判別部35b、計算部35c及び学習部35dを含む。
ここで、本実施形態においては複数の学習用画像を用いて計算される順位損失による弱教師学習が行われるが、このような学習を行うためには、上記したように当該複数の学習用画像の各々に含まれる被写体までの距離の大小関係を判別する必要がある。
この場合、画像取得部32は、撮像装置2によって撮像された多視点画像を取得するものとする。距離取得部35aは、この多視点画像を当該画像取得部32から取得し、当該取得された多視点画像から当該多視点画像の各々に含まれる被写体までの距離(奥行き)を取得する。本実施形態における多視点画像とは、図12に示すように同一の被写体を異なる視点(つまり、多視点)から撮像した複数の画像(2つ以上の画像)である。なお、距離取得部35aによって取得される距離の詳細については後述する。
判別部35bは、距離取得部35aによって取得された距離に基づいて、多視点画像のうちの例えば2つの画像の各々に含まれる被写体までの距離の大小関係(以下、単に画像間の距離の大小関係と表記)を判別する。
計算部35cは、判別部35bによって大小関係が判別された2つの画像の各々を統計モデルに入力することによって出力されたぼけ値と、判別部35bによって判別された当該画像間の距離の大小関係に基づいて、順位損失を計算する。
学習部35dは、計算部35cによって計算された順位損失に基づいて、統計モデル格納部31に格納されている統計モデルを学習させる。学習部35dによる学習が完了した統計モデルは、統計モデル格納部31に格納される(つまり、統計モデル格納部31に格納されている統計モデルに上書きされる)。
次に、図13のフローチャートを参照して、統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。
ここでは、統計モデル格納部31に事前に学習済みである統計モデル(事前学習済みモデル)が格納されているものとして説明するが、当該統計モデルは、例えば撮像装置2で撮像された画像を学習することによって生成されていてもよいし、当該撮像装置2とは異なる撮像装置(またはレンズ)で撮像された画像を学習することによって生成されていてもよい。すなわち、本実施形態においては、少なくとも画像を入力として当該画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値(つまり、当該距離に対応するぼけ値)を出力(予測)するための統計モデルが事前に用意されていればよい。
まず、距離取得部35aは、画像取得部32によって取得された多視点画像(撮像装置2によって被写体を多視点から撮像した画像)を学習用画像集合として取得する(ステップS1)。ステップS1において取得される多視点画像は、可能な限り静止している同一の被写体を互いに相違なる位置から撮像した画像であることが好ましい。また、本実施形態において、多視点画像(複数の画像)は、撮像装置2のフォーカス(つまり、レンズ21とイメージセンサ22との距離に基づくピント位置)が固定された状態で撮像されているものとし、被写体に様々なぼけが生じるように撮像されていることが好ましい。
なお、多視点画像を撮像する撮像装置2は、任意のレンズが取り付けられた任意のカメラシステムであればよく、上記した統計モデルに事前にぼけを学習させた画像を撮像した撮像装置である必要はない。
ステップS1の処理が実行されると、距離取得部35aは、当該ステップS1において取得された多視点画像から、当該多視点画像の各々に含まれる被写体までの距離(当該画像を撮像した際の撮像装置2から当該被写体までの距離)を取得する(ステップS2)。
なお、ステップS2における多視点画像からの距離の取得(奥行き推定)には、SfM(Structure from Motion)及び多視点ステレオと称される技術を用いることができる。
図14は、SfMの概要を示している。SfMにおいては、多視点画像(多視点から撮像された複数の画像)の各々から被写体の特徴点(被写体の形状を表す特徴点)が抽出される。図14においては、3つの画像から、被写体の特徴点としてP1~P7が抽出されていることが示されている。このように抽出された特徴点は、多視点画像間で対応づけられる。SfMによれば、このように対応づけられた特徴点に基づく3次元点群(の座標)と、当該対応づけられた特徴点間の変位に基づいて各画像が撮像された際の撮像装置2の位置及び姿勢(つまり、各視点における撮像装置2の位置及び姿勢)を計算することができる。SfMにおいては、多視点画像を用いることにより、3次元点群の座標のずれを最小化することができる。
なお、SfMでは粗い3次元点群の座標が計算されるため、本実施形態においては、上記した各視点における撮像装置2の位置及び姿勢を用いた多視点ステレオ技術により、より詳細な3次元点群(の座標)を計算するものとする。
この場合、上記したSfM及び多視点ステレオ技術における1つの視点(撮像装置2)の位置(並進成分)及び姿勢(回転成分)をそれぞれt及びRとし、多視点画像から計算された3次元点の座標を(X,Y,Z)とすると、多視点画像(各視点における画像)中の座標位置(x,y)と当該座標位置に存在する被写体までの距離(奥行き)zは、以下の式(1)及び式(2)の関係にある。
Figure 0007451465000001
なお、式(1)におけるKは、撮像装置2の内部パラメータであり、例えば撮像装置2に備えられるレンズ21とイメージセンサ22との距離を含む。
ステップS2においては、上記した式(1)及び式(2)を用いることによって、多視点画像の各々に含まれる被写体までの距離が上記した特徴点毎に計算される。
ただし、上記したステップS2において取得(計算)された距離は、スケールが不定の距離である。このスケールが不定の距離zと実スケールに基づく距離zとは以下の式(3)の関係にある。
Figure 0007451465000002
上記した式(3)のβは、スケールが不定の距離zを実スケールに基づく距離zに変換するためのスケールパラメータである。一般的には、画像に含まれている被写体のサイズに関する情報(事前情報)や他のセンサから得られる情報(値)等がない場合、撮像装置2(単眼カメラ)の情報だけではスケールパラメータβを求めることはできない。
一般的な統計モデルの学習時にはカメラパラメータを用いて実スケールに基づく距離(実測値)から変換されたぼけ値を正解値として用いるが、このようにスケールパラメータβが不定である場合には、図15に示すように例えば同一の距離に存在する被写体を撮像した場合であっても距離が異なるぼけ値に変換される場合があり、統計モデルを適切に学習させることができない(つまり、スケールが不定の距離zから変換されたぼけ値を正解値として用いることはできない)。
しかしながら、多視点画像の各々に含まれる被写体(特徴点)までのスケールが不定の距離zは、当該被写体までの距離の大小関係の判別には利用することができる。
次に、学習処理部35は、ステップS1において取得された多視点画像(複数の学習用画像)の中から、例えば任意の2つの画像をランダムに選択(取得)する(ステップS3)。以下の説明においては、ステップS3において選択された2つの画像を画像x及び画像xとする。
なお、ステップS3において選択される画像x及び画像xは、例えば多視点画像(のうちの任意の画像)から切り出された少なくとも一部の領域(例えば、n画素×m画素の画像パッチ)であるものとする。また、画像x及び画像xは、多視点画像のうちの同一の画像から切り出された画像パッチであってもよいし、異なる画像から切り出された画像パッチであってもよい。
次に、判別部35bは、ステップS2において取得された多視点画像の各々に含まれる被写体までのスケールが不定の距離に基づいて、ステップS3において選択された画像x及び画像x間の距離の大小関係(画像x及び画像xの各々に含まれる被写体までの距離の大小関係)を判別する(ステップS4)。
なお、ステップS2においては多視点画像の各々に含まれる特徴点毎に距離が計算されるため、ステップS3においては、特徴点を含む画像パッチが画像x及び画像xとして選択されているものとする。これにより、画像x及び画像x間の距離の大小関係は、当該画像x及び画像xの各々に含まれる特徴点について計算された距離に基づいて判別される。
具体的には、例えば図14の下部中央に示されている画像中の特徴点P2を含む画像パッチが画像xであり、当該画像中の特徴点P4を含む画像パッチが画像xであるような場合には、画像xに含まれる被写体(特徴点P2)までの距離よりも画像xに含まれる被写体(特徴点P4)までの距離の方が大きいという画像x及び画像x間の距離の大小関係が判別される。
ここでは、便宜的に、同一の画像から切り出された画像パッチが画像x及び画像xである場合について説明したが、上記したようにステップS2においては多視点画像の各々に含まれる特徴点毎に距離が計算されるため、画像x及び画像xが多視点画像のうちの異なる画像から切り出された画像パッチであっても、画像x及び画像x間の距離の大小関係を判別することは可能である。
ステップS4の処理が実行されると、計算部35cは、統計モデル格納部31に格納されている統計モデルを用いて、画像xに含まれている被写体までの距離応じて当該画像xに生じるぼけを示すぼけ値(予測値)及び画像xに含まれている被写体までの距離に応じて生じるぼけ値(予測値)を取得する(ステップS5)。
この場合、画像x(つまり、n画素×m画素の画像パッチ)を入力することによって統計モデルから出力されるぼけ値fθ(x)及び画像x(つまり、n画素×m画素の画像パッチ)を入力することによって統計モデルから出力されるぼけ値fθ(x)が取得される。
次に、計算部35cは、ステップS5において取得されたぼけ値(以下、画像xのぼけ値及び画像xのぼけ値と表記)に基づいて順位損失(画像x及び画像x間の距離の大小関係を考慮した損失)を計算する(ステップS6)。
ステップS6においては、画像xのぼけ値fθ(x)及び画像xのぼけ値fθ(x)の大小関係がステップS4において判別された画像x及び画像x間の距離の大小関係と等しいか否かが反映された損失(順位損失)が計算される。
ここで、例えば「Chris Burges, Tal Shaked, Erin Renshaw, Ari Lazier, Matt Deeds, Nicole Hamilton, and Greg Hullender. Learning to rank using gradient descent. In Proceedings of the 22nd international conference on Machinelearning, pages 89-96, 2005.」によれば、順位損失を表す関数(順位損失関数)は以下の式(4)によって定義される。
Figure 0007451465000003
この式(4)において、Lrank(x,x)は順位損失を表しており、yijは上記した画像xのぼけ値fθ(x)及び画像xのぼけ値fθ(x)の大小関係が画像x及び画像x間の距離の大小関係と等しい(つまり、統計モデルの予測値であるぼけ値がステップS4において判別された大小関係を満たす)か否かを表すラベルに相当する。なお、yijは、式(5)に示すように、rank(x)>rank(x)である(画像xに含まれる被写体までの距離が画像xに含まれる被写体までの距離よりも大きい)場合に1であり、rank(x)<rank(x)である(画像xに含まれる被写体までの距離が画像xに含まれる被写体までの距離よりも小さい)場合に0である。また、式(5)のotherwiseは、rank(x)=rank(x)(つまり、画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが等しい)場合を想定しており、この場合におけるyijは0.5とする。rank(x)>rank(x)、rank(x)<rank(x)及びotherwiseは、上記したステップS5における画像x及び画像x間の距離の大小関係の判別結果に相当する。
また、式(4)のsoftplusは、活性化関数として用いられるソフトプラスと称される関数であり、式(6)のように定義される。
このような順位損失関数によれば、画像x及び画像xの各々のぼけ値の大小関係(つまり、画像x及び画像x間のぼけ値の大小関係)が画像x及び画像x間の距離の大小関係と等しい場合には計算される順位損失(の値)が小さくなり、画像x及び画像x間のぼけ値の大小関係が画像x及び画像x間の距離の大小関係と等しくない場合には計算される順位損失(の値)が大きくなる。
次に、学習部35dは、ステップS6において計算された順位損失を用いて、統計モデルを学習させ、当該統計モデルを更新する(ステップS7)。統計モデルの学習は当該統計モデルのパラメータθを更新することによって行われるが、当該パラメータθの更新は、以下の式(7)のような最適化問題に従って行われる。
Figure 0007451465000004
ここで、式(7)におけるNは、上記した多視点画像(学習用画像集合)を表している。図13においては省略されているが、ステップS3~S7の処理は、多視点画像Nから選択される2つの画像x及び画像x(多視点画像Nから切り出される2つの画像パッチ)の組毎に実行されるものとする。
この場合、式(7)により、画像x及び画像xの組毎に計算される順位損失Lrank(x,x)の合計が最も小さくなるパラメータθ´(つまり、更新後のパラメータ)を求めることができる。
なお、本実施形態における統計モデルにニューラルネットワークまたは畳み込みニューラルネットワーク等が適用されている(つまり、統計モデルがニューラルネットワークまたは畳み込みニューラルネットワーク等で構成されている)場合、当該統計モデルの学習(パラメータθの更新)には、上記した式(7)を逆方向に計算する誤差逆伝播法が用いられる。この誤差逆伝播法によれば、順位損失の勾配が計算され、当該勾配に従ってパラメータθが更新される。
ステップS7においては、統計モデルのパラメータθを上記した式(7)を用いて求められたパラメータθ´に更新することによって、ステップS1において取得された多視点画像を統計モデルに学習させることができる。このようにパラメータが更新された統計モデルは、統計モデル格納部31に格納される(つまり、統計モデルが更新される)。
なお、本実施形態においては、例えば予め定められた数の画像x及び画像xの組を対象として図13に示す処理が実行されるが、当該図13に示す処理を繰り返すことによって、統計モデルを更に学習させてもよい。
また、上記した式(4)のような順位損失関数を用いた学習方法はRankNetと称されるが、本実施形態においては、他の学習方法により統計モデルを学習させてもよい。具体的には、本実施形態に係る統計モデルの学習方法としては、例えばFRank、RankBoost、Ranking SVMまたはIR SVM等が利用されてもよい。すなわち、本実施形態においては、上記したように画像x及び画像x間のぼけ値の大小関係が画像x及び画像x間の距離の大小関係と等しくなるように統計モデルを学習させる(つまり、学習用画像の各々の順位に関する制約の下で学習を行う)のであれば、様々な損失関数を利用することができる。
なお、図13に示すステップS3においては、多視点画像から切り出される画像パッチ(画像の一部の領域)が画像x及び画像xとして選択されるものとして説明したが、当該画像の全体を占める領域(つまり、画像全体)が画像x及び画像xとして選択されてもよい。この場合、例えばステップS4においては画像xに含まれる1つの特徴点及び画像xに含まれる1つの特徴点について計算された距離に基づいて大小関係が判別され、ステップS5においては画像x及び画像xを構成する画素毎に統計モデルから出力されたぼけ値のうちの当該特徴点に対応する画素について出力されたぼけ値が取得されればよい。
次に、図16のフローチャートを参照して、上記した図13に示す処理が実行されることによって多視点画像(学習用画像集合)を学習させた統計モデルを用いて撮像画像から距離情報を取得する際の画像処理装置3の処理手順の一例について説明する。
まず、撮像装置2(イメージセンサ22)は、撮像装置2からの距離を測定する被写体を撮像することによって当該被写体を含む撮像画像を生成する。この撮像画像は、上記したように撮像装置2の光学系(レンズ21)の収差の影響を受けた画像である。
画像処理装置3に含まれる画像取得部32は、撮像画像を撮像装置2から取得する(ステップS11)。
次に、距離取得部33は、ステップS11において取得された撮像画像(画像パッチの各々)に関する情報を、統計モデル格納部31に格納されている統計モデルに入力する(ステップS12)。なお、ステップS12において統計モデルに入力される撮像画像に関する情報は、当該撮像画像を構成する各画素の勾配データを含む。
ステップS12の処理が実行されると、統計モデルにおいて被写体までの距離に応じて生じるぼけを示すぼけ値が予測され、当該統計モデルは、当該予測されたぼけ値を出力する。これにより、距離取得部33は、統計モデルから出力されたぼけ値を取得する(ステップS13)。なお、ステップS13においては、ステップS11において取得された撮像画像を構成する画素毎のぼけ値が取得される。
ステップS13の処理が実行されると、距離取得部33は、ステップS13において取得されたぼけ値を、当該ぼけ値に対応する距離に変換する(ステップS14)。
ここで、ぼけ値をb(=fθ(x))、被写体までの距離(実スケールに基づく距離)をzとした場合、当該ぼけ値bと距離zとには以下の式(8)の関係があるため、距離取得部33は、当該式(8)を用いてステップS13において取得されたぼけ値から距離を計算することができる。
Figure 0007451465000005
なお、式(8)におけるfは焦点距離、vは撮像装置2に備えられるレンズ21とイメージセンサ22との距離、pは画素ピッチ、Fは絞り(値)である。
上記したようにステップS13においては撮像画像を構成する画素毎のぼけ値が取得されているため、ステップS14の処理は、当該画素毎のぼけ値に対して実行される。すなわち、ステップS14においては、撮像画像を構成する画素毎にぼけ値が距離に変換される。なお、ステップS14の処理が実行される場合において、ぼけ値を距離に変換するために必要なパラメータ(撮像装置2の焦点距離f、レンズ21とイメージセンサ22との距離v、画素ピッチp及び絞りF)は、予め求められているものとする。
ステップS14の処理が実行されると、出力部34は、当該ステップS14においてぼけ値から変換された距離を示す距離情報を、例えば撮像画像と位置的に対応づけて配置したマップ形式で出力する(ステップS15)。なお、本実施形態においては距離情報がマップ形式で出力されるものとして説明したが、当該距離情報は、他の形式で出力されても構わない。
ここで説明したように統計モデルから出力されるぼけ値を距離に変換する構成によれば、当該変換時に距離をキャリブレーションすることによって、様々な環境において撮像された撮像画像に対して適切に対応することができ、汎用性が向上する。
上記したように本実施形態においては、撮像装置によって被写体を多視点から撮像した多視点画像(複数の画像)を取得し、当該多視点画像のうちの画像x(第1画像)を入力として統計モデルから出力されるぼけ値(第1ぼけ値)及び当該多視点画像のうちの画像x(第2画像)を入力として統計モデルから出力されるぼけ値(第2ぼけ値)に基づいて統計モデルを学習させる。また、本実施形態においては、画像xを撮像した際の撮像装置2から当該画像xに含まれる被写体までの距離(第1距離)及び画像xを撮像した際の撮像装置2から当該xに含まれる被写体までの距離(第2距離)を多視点画像から取得し、画像x及び画像x間の距離の大小関係(第1距離と第2距離との大小関係)を判別し、画像x及び画像x間のぼけ値の大小関係(画像xのぼけ値と画像xのぼけ値との大小関係)が画像x及び画像x間の距離の大小関係と等しくなるように統計モデルを学習させる。
本実施形態においては、このような構成により、正解ラベル(教示ラベル)が付与されていない学習用画像であっても統計モデルを学習させることができるため、当該統計モデルにおける学習の容易性を向上させることが可能となる。
また、本実施形態においては画像x及び画像xを統計モデルに学習させる際に、当該画像xに含まれる被写体までの距離と当該画像xに含まれる被写体までの距離との大小関係(画像x及び画像x間の距離の大小関係)を把握しておく必要があるが、当該大小関係については、同一の被写体が異なる視点から撮像されることによって得られる多視点画像から計算される各画像に含まれる被写体までの距離に基づいて自動的に判別される。このような構成によれば、上記した画像x及び画像xの各々に含まれる被写体までの距離の大小関係を人手により確認するような作業も必要なく、ユーザは、多視点画像を用意するのみでオンラインで統計モデルを学習させることができる。
更に、本実施形態における多視点画像は同一の被写体を多視点から撮像した複数の画像であればよいため、本実施形態においては、当該多視点画像を撮像するために特別な環境を用意する必要はない。この場合、多視点画像は、例えばドローン等に搭載された撮像装置2(カメラ)によって自動的に撮像された複数の画像であってもよい。これによれば、学習用画像を用意する困難性を更に低下させることができる。
また、多視点画像は、例えば所定の形式に従って圧縮(符号化)された画像(つまり、所定の情報が欠如した画像)であってもよい。本実施形態においては、このような多視点画像を統計モデルに学習させることによって、より実用的なデータ形式に対応可能な統計モデルを得ることができる。
なお、本実施形態においては、撮像装置2のフォーカス(レンズ21とイメージセンサ22との距離)が固定された状態で多視点画像が撮像されるものとする。このような構成によれば、多視点画像から取得される距離と当該多視点画像に生じるぼけとの関係性を維持することによって適切に統計モデルを学習させることができるとともに、様々なぼけが生じている多視点画像を比較的容易に撮像することができる。この撮像装置2のフォーカスは、例えばユーザが撮像装置2で多視点画像を撮像する際に学習用画像モードとして自動的に設定されるようにしてもよい。
更に、本実施形態においては、多視点画像に生じている様々なぼけを学習することが好ましいため、例えば画像x及び画像xを入力として統計モデルから出力されたぼけ値に基づいて統計モデルを学習させた後に、当該画像x及び画像xとは異なる視点から撮像した画像の画像パッチ(第4及び第5画像)を選択し、当該画像パッチを入力として統計モデルから出力されたぼけ値(第4及び第5ぼけ値)に基づいて統計モデルを学習させるようにしてもよい。すなわち、本実施形態においては、例えば同じ被写体であっても視点によって異なるぼけ(の色、サイズ及び形状)を効率的に学習することが可能となる。
また、本実施形態においては上記したように多視点画像に生じている様々なぼけを学習する構成であるため、例えばユーザが撮像装置2を用いて多視点画像を撮影する場合には、手前から奥までの様々な位置(複数の位置)にフォーカスを合わせるように通知する(つまり、被写体のエッジのフォーカス具合に応じて撮影をガイドする)ようにしてもよい。この場合、例えばフォーカスが合っている位置がユーザに対して通知されることによって、当該ユーザは、様々な位置にフォーカスを合わせながら多視点画像を撮影することができる。
また、多視点画像は同一の被写体を多視点から撮像した複数の画像であるため、当該多視点画像(複数の画像)がユーザによって撮影されている間に、当該被写体を含む画像が撮像されるように通知する(つまり、同一の被写体を撮影するように誘導する)ようにしてもよい。この場合、例えばユーザが撮影する画像に被写体が含まれていない状態を、ユーザに対して警告するようなことが可能となる。
なお、上記した通知は、例えば撮像装置2を介してユーザに対して行うことができるが、他の手法で行われても構わない。
更に、光学系の収差により画像に生じるぼけは位置依存性を有する(画像上の位置によってぼけの色、サイズ及び形状等が異なる)が、本実施形態においては、SfMにおいて抽出された特徴点について計算された距離の大小関係を利用するため、当該特徴点に対応する画素について統計モデルから出力されたぼけ値に基づいて当該統計モデルを学習させる。このため、特徴点が含まれない領域に生じるぼけについては効率よく統計モデルを学習させることができない場合がある。この場合、統計モデルの学習に用いられた多視点画像を蓄積しておき、当該多視点画像から抽出された特徴点の分布に基づいて当該特徴点が少ない領域(例えば、当該特徴点の数が予め定められた値未満である領域等)を通知するような構成としてもよい。このような構成によれば、ユーザは通知された領域に被写体(特徴点)が含まれるような多視点画像を撮像することができ、効率的に統計モデルを学習させることが可能となる。また、上記したように通知された領域に特徴点を含む画像を自動的に選択し、当該選択された画像を用いて学習を行うようにしてもよい。
ところで、本実施形態においては単一のシーン(ドメイン)において撮像された多視点画像(つまり、1組の多視点画像)を用いて統計モデルを学習させる場合について説明したが、本実施形態に係る画像処理装置3(学習処理部35)は、複数のシーンにおいて撮像された多視点画像(つまり、複数の組の多視点画像)を用いて統計モデルを学習させるように構成されていてもよい。
なお、本実施形態におけるシーンとは、特定の被写体までの距離(スケールが不定の距離)を取得するために撮像装置2によって撮像される多視点画像の単位である。すなわち、本実施形態において「複数のシーンにおいて多視点画像が撮像される」とは、例えば複数の被写体の各々に対して多視点画像が撮像されるような場合が含まれる。
ここで、図17は、第1シーンで第1被写体を撮像した第1多視点画像601及び第2シーンで第2被写体を撮像した第2多視点画像602を示している。
この場合、例えば第1多視点画像601から画像x及び画像x(第1及び第2画像)が選択された場合、当該画像xに含まれる第1被写体(例えば、特徴点P2)までの距離と当該画像xに含まれる第1被写体(例えば、特徴点P4)までの距離との大小関係を判別することができる。同様に、第2多視点画像602から画像x及び画像x(第6及び第7画像)が選択された場合、当該画像xに含まれる第2被写体(例えば、特徴点P2´)までの距離と当該画像xに含まれる第2被写体(例えば、P4´)までの距離との大小関係を判別することができる。
しかしながら、上記したように多視点画像から計算される距離はスケールが不定の距離である(つまり、実スケールに基づく距離ではない)ため、例えば第1多視点画像601から画像xが選択され、第2多視点画像602から画像xが選択された場合、当該画像xに含まれる第1被写体(例えば、特徴点P2)までの距離と当該画像xに含まれる第2被写体(例えば、特徴点P4´)までの距離とを比較することができず、当該距離の大小関係(画像x及び画像x間の距離の大小関係)を判別することはできない。
すなわち、本実施形態においては上記したように複数の組の多視点画像(第1及び第2多視点画像)を用いて統計モデルを学習させることができるが、大小関係が判別される画像x及び画像xは、同一のシーンで撮像された多視点画像から選択される必要がある。換言すれば、本実施形態における統計モデルは、第1多視点画像のうちの画像を入力として当該統計モデルから出力されるぼけ値(第1または第2ぼけ値)及び第2多視点画像のうちの画像を入力として当該統計モデルから出力されるぼけ値(第6または第7ぼけ値)に基づいて学習しない(つまり、第1及び第2多視点画像間では学習しない)ものとする。
なお、複数のシーンで撮像された複数の組の多視点画像を用いて統計モデルを学習させる場合には、図13に示すステップS1において当該複数の組の多視点画像が取得され、ステップS2の処理は、当該多視点画像の組毎に実行される。また、この場合におけるステップS3においては、例えばランダムに1つのシーンが選択され、当該選択されたシーンで撮像された多視点画像から画像x及び画像xが選択されるものとする。
ここでは画像x及び画像xが同一のシーンで撮像された多視点画像から選択されるものとして説明したが、例えば第1シーンで撮像された第1多視点画像(のうちの少なくとも一部)及び第2シーンで撮像された第2多視点画像(のうちの少なくとも一部)に共通の既知の被写体(第3被写体)が含まれている場合、第1多視点画像から計算される距離と第2多視点画像から計算される距離との比較が可能となるため、第1多視点画像から画像xを選択し、第2多視点画像から画像xを選択する(つまり、第1多視点画像から選択された画像xのぼけ値及び第2多視点画像から選択された画像xのぼけ値に基づいて統計モデルを学習させる)構成とすることも可能である。
更に、本実施形態においては、統計モデルの学習時に、多視点画像(学習用画像集合)の中から任意の2つの画像が選択される(つまり、ランダムに画像が選択される)ものとして説明したが、当該2つの画像としては、例えば被写体までの距離(スケールが不定の距離)の差分が予め定められた値以上となる画像が優先的に選択されてもよい。これによれば、画像間の距離の大小関係が誤って判別されることを回避することができる。また、上記した2つの画像(画像パッチ)は、例えば多視点画像中の位置や画素値等に応じた所定の規則性に基づいて選択されてもよい。
また、本実施形態においては、統計モデルにおいて画像からぼけ値を予測する方式の一例としてパッチ方式を説明したが、画像から距離を予測する方式としては、例えば画像の全体領域が統計モデルに入力され、当該全体領域に対応する予測値(ぼけ値)が出力される画面一括方式等が採用されてもよい。
また、本実施形態においては、統計モデルが光学系の収差の影響を受けた多視点画像(当該画像に含まれる被写体までの距離に応じて非線形に変化するぼけ)を学習することによって生成されるものとして説明したが、当該統計モデルは、例えば撮像装置2の開口部に設けられたフィルタ(カラーフィルタ等)を透過した光に基づいて生成される多視点画像(つまり、当該フィルタによって意図的に画像に生じさせた、被写体までの距離に応じて非線形に変化するぼけ)を学習することによって生成されるものであってもよい。
なお、本実施形態においては、被写体を含む画像を入力した統計モデルが当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するものとして説明したが、当該統計モデルは、画像を入力として当該画像に含まれる被写体までの距離を出力するように生成されていてもよい。このような統計モデルの学習は、上記したぼけ値に代えて、当該統計モデルから出力される距離に基づいて行われる。
(第2実施形態)
次に、第2実施形態について説明する。本実施形態における測距システム(撮像装置及び画像処理装置)の構成等については前述した第1実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図1等を用いる。ここでは、前述した第1実施形態とは異なる点について主に述べる。
前述した第1実施形態においては統計モデルが画像に含まれる被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するものとして説明したが、本実施形態における統計モデルは、当該ぼけ値(予測値)に対する不確実性の度合い(以下、不確実度と表記)を当該ぼけ値とともに出力するものとする。本実施形態は、このように統計モデルから出力される不確実度を反映した順位損失(順位損失関数)を用いて統計モデルを学習させる点で、前述した第1実施形態とは異なる。なお、不確実度は例えば0以上の実数によって表され、値が大きいほど不確実性が高いことを表すものとする。不確実度の算出方法は、特定の方法に限定されず、既知の様々な方法を適用することができる。
以下、図18のフローチャートを参照して、本実施形態において統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。
まず、前述した図13に示すステップS1~S4の処理に相当するステップS21~S24の処理が実行される。
ステップS24の処理が実行されると、計算部35cは、統計モデル格納部31に格納されている統計モデルを用いて、画像xに含まれている被写体までの距離に応じて当該画像xに生じるぼけを示すぼけ値及び当該ぼけ値に対する不確実度と、画像xに含まれている被写体までの距離に応じて当該画像xに生じるぼけを示すぼけ値及び当該ぼけ値に対する不確実度とを取得する(ステップS25)。
ここで、上記した不確実度をσで表すものとすると、ステップS25においては、画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)及び不確実度σと、画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)及び不確実度σとが取得される。
次に、計算部35cは、ステップS25において取得されたぼけ値及び不確実度に基づいて、順位損失を計算する(ステップS26)。
前述した第1実施形態においては式(4)を用いて順位損失が計算されるものとして説明したが、本実施形態における順位損失を表す関数(順位損失関数)は以下の式(9)のように定義される。
Figure 0007451465000006
この式(9)において、Luncrt(x,x)は本実施形態において計算される順位損失を表しており、Lrank(x,x)は前述した第1実施形態における式(4)のLrank(x,x)と同様である。
ここで、例えばテクスチャのない領域や光が飽和している(つまり、白飛びしている)領域(画像パッチ)が画像xまたは画像xとして選択されている場合には、統計モデルを用いて精度の高いぼけ値が出力される(つまり、正しいぼけ値を予測し、精度の高い距離を取得する)ことが困難であるが、前述した第1実施形態においては、このようなぼけ値を予測するための手掛かりがないまたは少ない領域(以下、予測困難領域と表記)であっても画像x及び画像x間の距離の大小関係を満たすように学習しようとするため、過学習が発生する可能性がある。この場合、統計モデルが予測困難領域に最適化されてしまい、当該統計モデルの汎用性が低下する。
そこで、本実施形態においては、上記した式(9)に示すように不確実度σを損失関数に加えることで、上記した予測困難領域における予測困難性(予測不可能性)を考慮した順位損失を計算する。なお、式(9)のσは、式(10)に定義されるように、不確実度σ及び不確実度σのうちの値が大きい不確実度である。
式(9)のような順位損失関数(不確実性順位損失関数)によれば、予測困難領域においてLrank(x,x)を下げる(小さくする)ことができない場合には、不確実度σ及び不確実度σのうちの少なくとも一方(つまり、不確実度σ)を高くすることによって、本実施形態における順位損失であるLuncrt(x,x)を下げるように調整することができる。ただし、不確実度σを過度に高くすることによりLuncrt(x,x)が下がりすぎることを防止するため、ペナルティとして式(9)の右辺に第2項が加えられている。
なお、式(9)に示す順位損失関数は、例えば不均一分散の定義式を拡張することによって得ることができる。
ステップS26の処理が実行されると、前述した図13に示すステップS7の処理に相当するステップS27の処理が実行される。なお、このステップS27においては、前述した第1実施形態において説明した式(7)のLrank(x,x)をLuncrt(x,x)として統計モデルを学習させればよい。
上記したように本実施形態においては画像x及び画像xのぼけ値(第1及び第2ぼけ値)に基づいて計算される順位損失を最小化するように統計モデルを学習させる際に、画像x及び画像xが入力された統計モデルから出力される不確実度(第1及び第2不確実度)のうちの少なくとも一方に基づいて当該順位損失を調整する。
本実施形態においては、このような構成により、上記した予測困難領域が統計モデルの学習に対して与える影響を緩和することができるため、精度の高い統計モデルの学習を実現することが可能となる。
(第3実施形態)
次に、第3実施形態について説明する。本実施形態における測距システム(撮像装置及び画像処理装置)の構成等については前述した第1実施形態と同様であるため、本実施形態において測距システムの構成について説明する場合には、適宜、図1等を用いる。ここでは、前述した第1実施形態とは異なる点について主に述べる。
本実施形態は、前述した第1実施形態において説明したように異なる距離に位置する被写体を含む2つの画像(学習用画像)間の距離の大小関係を満たし、かつ、同程度の距離に位置する被写体を含む2つの画像(学習用画像)のぼけ値のばらつきが最小となるように統計モデルを学習させる点で、当該第1実施形態とは異なる。
以下、本実施形態において統計モデルを学習させる際の画像処理装置3の処理手順の一例について説明する。ここでは、便宜的に、図13のフローチャートを用いて説明する。
まず、前述した第1実施形態において説明したステップS1及びS2の処理が実行される。
ここで、前述した第1実施形態においては画像x及び画像xの2つの画像が選択されるものとして説明したが、本実施形態において、学習処理部35は、ステップS1において取得された多視点画像の中から3つの画像を選択する(ステップS3)。
ステップS3において選択された3つの画像を画像x、画像x及び画像xとすると、画像x、画像x及び画像xは、例えば画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが異なり、画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが略同一であるという関係を有する。すなわち、ステップS3において、学習処理部35は、例えばステップS2において取得されたスケールが不定の距離に基づいて、上記した関係を有する画像x、画像x及び画像xを選択する。
なお、本実施形態において「画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが略同一である」は、例えば当該2つの距離の差分が予め定められた値以下であることを含む。
また、本実施形態における画像x、画像x及び画像xは、前述した第1実施形態において説明した画像x及び画像xと同様に、多視点画像のうちの少なくとも1つの画像から切り出された画像パッチであるが、当該画像全体であってもよい。
ステップS3の処理が実行されると、前述した第1実施形態において説明したステップS4及びS5の処理が実行される。
なお、ステップS5においては、画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)、画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)及び画像xを入力することによって統計モデルfθから出力されるぼけ値fθ(x)が取得される。
次に、計算部35cは、ステップS5において取得されたぼけ値(つまり、画像xのぼけ値fθ(x)、画像xのぼけ値fθ(x)及び画像xのぼけ値fθ(x))に基づいて順位損失を計算する(ステップS6)。
ここで、画像x、画像x及び画像xにおいては、上記したように画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが異なり、画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが略同一である。本実施形態においては、この点に着目し、画像x及び画像x間の距離の大小関係を満たし、かつ、画像x及び画像xのぼけ値のばらつきが最小化するように統計モデルを学習させるものとする。
この場合、本実施形態における順位損失を表す関数(順位損失関数)は、以下の式(11)のように定義される。
Figure 0007451465000007
この式(11)において、Lintra(x,x,x)は本実施形態において計算される順位損失を表しており、Lrank(x,x)は前述した第1実施形態における式(4)のLrank(x,x)に相当する。
また、式(11)の右辺の第2項は画像xのぼけ値と画像xのぼけ値とのばらつき(差分)を表しており、当該第2項中のλは、当該右辺の第1項とのバランスを取るための任意の係数(λ>0)である。
なお、式(12)は、本実施形態において画像x、画像x及び画像xが満たしている関係(つまり、画像x、画像x及び画像xの各々に含まれる被写体までの距離の大小関係)を示している。
ステップS6の処理が実行されると、前述した第1実施形態において説明したステップS7の処理が実行される。このステップS7においては、前述した第1実施形態において説明した式(7)のLrank(x,x)をLintra(x,x,x)として統計モデルを学習させればよい。
上記したように本実施形態においては、略同一の距離(差分が予め定められた値以下である距離)に位置する被写体を含む2つの画像x及び画像x(第1及び第3画像)の各々を入力として統計モデルから出力されるぼけ値(第1及び第3ぼけ値)の差分が最小化されるように統計モデルを学習させる構成により、前述した第1実施形態と比較して、当該画像x及び画像xのぼけ値のばらつきを考慮したより精度の高い統計モデルの学習を実現することができる。
本実施形態においては、画像x及び画像xに含まれる被写体までの距離のばらつきを考慮して順位損失を計算するものとして説明したが、例えば以下の式(13)のように、画像xに含まれる被写体と同程度の距離に位置する被写体を含む画像xを更に選択し、当該画像x及び画像xのぼけ値のばらつきを更に考慮した順位損失を計算する順位損失関数を用いてもよい。
Figure 0007451465000008
なお、式(13)の順位損失関数を用いる場合、上記したステップS3においては、4つの画像(画像x、画像x、画像x及び画像x)が選択される。また、この画像x、画像x、画像x及び画像xは、画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが異なり、画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが略同一であり、画像xに含まれる被写体までの距離と画像xに含まれる被写体までの距離とが略同一であるという関係を有しているものとする。
式(13)の右辺の第3項は画像xのぼけ値と画像xのぼけ値とのばらつき(差分)を表しており、当該第3項中のλは、当該右辺の第1項とのバランスを取るための任意の係数(λ>0)である。
なお、本実施形態は、前述した第2実施形態と組み合わせた構成としてもよい。この場合には、以下の式(14)のような順位損失関数を用いることができる。
Figure 0007451465000009
以上述べた少なくとも1つの実施形態によれば、被写体までの距離を取得するための統計モデルにおける学習の容易性を向上させることが可能な学習方法、プログラム及び画像処理装置を提供することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1…測距システム、2…撮像装置、3…画像処理装置、21…レンズ、22…イメージセンサ、31…統計モデル格納部、32…画像取得部、33…距離取得部、34…出力部、35…学習処理部、35a…距離取得部、35b…判別部、35c…計算部、35d…学習部、221…第1センサ、222…第2センサ、223…第3センサ、301…CPU、302…不揮発性メモリ、303…RAM、303A…画像処理プログラム、304…通信デバイス、305…バス。

Claims (12)

  1. 被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる学習方法であって、
    撮像装置によって第1被写体を多視点から撮像した第1多視点画像を取得することと、
    前記第1多視点画像のうちの第1画像を入力として前記統計モデルから出力される第1ぼけ値及び前記第1多視点画像のうちの第2画像を入力として前記統計モデルから出力される第2ぼけ値に基づいて前記統計モデルを学習させることと
    を具備し、
    前記学習させることは、
    前記第1多視点画像から、前記第1画像を撮像した際の前記撮像装置から当該第1画像に含まれる第1被写体までの第1距離及び前記第2画像を撮像した際の前記撮像装置から当該第2画像に含まれる第1被写体までの第2距離を取得することと、
    前記第1距離と前記第2距離との大小関係を判別することと、
    前記第1ぼけ値と前記第2ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させること
    を含む
    学習方法。
  2. 前記統計モデルは、前記第1画像を入力として前記第1ぼけ値及び当該第1ぼけ値の第1不確実度を出力し、前記第2画像を入力として前記第2ぼけ値及び当該第2ぼけ値の第2不確実度を出力し、
    前記学習させることは、前記統計モデルから出力される第1ぼけ値及び第2ぼけ値に基づいて計算される順位損失を最小化するように統計モデルを学習させることを含み、
    前記順位損失は、前記第1不確実度及び前記第2不確実度とのうちの少なくとも一方に基づいて調整される
    請求項1記載の学習方法。
  3. 前記統計モデルは、前記第1多視点画像のうちの第3画像を入力として前記統計モデルから出力される第3ぼけ値を出力し、
    前記学習させることは、前記第1ぼけ値と前記第3ぼけ値との差分が最小化されるように前記統計モデルを学習させることを含み、
    前記第1画像を撮像した際の前記撮像装置から当該第1画像に含まれる第1被写体までの第1距離及び前記第3画像を撮像した際の前記撮像装置から当該第3画像に含まれる第1被写体までの第3距離の差分は、予め定められた値以下である
    請求項1または2記載の学習方法。
  4. 前記第1多視点画像は、前記撮像装置のフォーカスが固定された状態で撮像される請求項1~3のいずれか一項に記載の学習方法。
  5. 前記学習させることは、前記第1及び第2ぼけ値に基づいて前記統計モデルを学習させた後に、前記第1多視点画像のうちの前記第1画像とは異なる視点から撮像した第4画像を入力として前記統計モデルから出力される第4ぼけ値及び前記第1多視点画像のうちの前記第2画像とは異なる視点から撮像した第5画像を入力として前記統計モデルから出力される第5ぼけ値に基づいて前記統計モデルを学習させることを含む請求項1~4のいずれか一項に記載の学習方法。
  6. 前記撮像装置によって第2被写体を多視点から撮像した第2多視点画像を取得することを更に具備し、
    前記学習させることは、前記第2多視点画像のうちの第6画像を入力として前記統計モデルから出力される第6ぼけ値及び前記第2多視点画像に含まれる第7画像を入力として前記統計モデルから出力される第7ぼけ値に基づいて前記統計モデルを学習させることを更に含む
    請求項1~5のいずれか一項に記載の学習方法。
  7. 前記統計モデルは、前記第1または第2ぼけ値及び前記第6または第7ぼけ値に基づいて学習しない請求項6記載の学習方法。
  8. 前記学習させることは、前記第1多視点画像のうちの少なくとも一部と前記第2多視点画像のうちの少なくとも一部とに前記第1及び第2被写体とは異なる第3被写体が含まれている場合、前記第1ぼけ値及び前記第6ぼけ値に基づいて前記統計モデルを学習させることを含む請求項6または7記載の学習方法。
  9. 前記第1多視点画像が前記撮像装置によって撮像される場合に、手前から奥までの複数の位置にフォーカスを合わるように通知することを更に具備する請求項1~8のいずれか一項に記載の学習方法。
  10. 前記第1多視点画像が前記撮像装置によって撮像される場合に、前記第1被写体を含む画像が撮像されるように通知することを更に具備する請求項1~9のいずれか一項に記載の学習方法。
  11. 画像処理装置のコンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる学習方法であって、
    撮像装置によって被写体を多視点から撮像した多視点画像を取得することと、
    前記多視点画像のうちの第1画像を入力として前記統計モデルから出力される第1ぼけ値及び前記多視点画像のうちの第2画像を入力として前記統計モデルから出力される第2ぼけ値に基づいて前記統計モデルを学習させることと
    を実行させ、
    前記学習させることは、
    前記多視点画像から、前記第1画像を撮像した際の前記撮像装置から当該第1画像に含まれる被写体までの第1距離及び前記第2画像を撮像した際の前記撮像装置から当該第2画像に含まれる被写体までの第2距離を取得することと、
    前記第1距離と前記第2距離との大小関係を判別することと、
    前記第1ぼけ値と前記第2ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させること
    を含む
    プログラム。
  12. 被写体を含む画像を入力として当該被写体までの距離に応じて当該画像に生じるぼけを示すぼけ値を出力するための統計モデルを学習させる画像処理装置において、
    撮像装置によって被写体を多視点から撮像した多視点画像を取得する第1取得手段と、
    前記多視点画像のうちの第1画像を入力として前記統計モデルから出力される第1ぼけ値及び前記多視点画像のうちの第2画像を入力として前記統計モデルから出力される第2ぼけ値に基づいて前記統計モデルを学習させる学習手段と
    を具備し、
    前記学習手段は、
    前記多視点画像から、前記第1画像を撮像した際の前記撮像装置から当該第1画像に含まれる被写体までの第1距離及び前記第2画像を撮像した際の前記撮像装置から当該第2画像に含まれる被写体までの第2距離を取得する第2取得手段と、
    前記第1距離と前記第2距離との大小関係を判別する判別手段と
    を含み、
    前記第1ぼけ値と前記第2ぼけ値との大小関係が前記判別された大小関係と等しくなるように前記統計モデルを学習させる
    画像処理装置。
JP2021124296A 2021-07-29 2021-07-29 学習方法、プログラム及び画像処理装置 Active JP7451465B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021124296A JP7451465B2 (ja) 2021-07-29 2021-07-29 学習方法、プログラム及び画像処理装置
US17/682,696 US20230032387A1 (en) 2021-07-29 2022-02-28 Learning method, storage medium, and image processing device
CN202210185761.3A CN115700611A (zh) 2021-07-29 2022-02-28 学习方法、存储介质以及图像处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021124296A JP7451465B2 (ja) 2021-07-29 2021-07-29 学習方法、プログラム及び画像処理装置

Publications (2)

Publication Number Publication Date
JP2023019521A JP2023019521A (ja) 2023-02-09
JP7451465B2 true JP7451465B2 (ja) 2024-03-18

Family

ID=85039473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021124296A Active JP7451465B2 (ja) 2021-07-29 2021-07-29 学習方法、プログラム及び画像処理装置

Country Status (3)

Country Link
US (1) US20230032387A1 (ja)
JP (1) JP7451465B2 (ja)
CN (1) CN115700611A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7446985B2 (ja) * 2020-12-15 2024-03-11 株式会社東芝 学習方法、プログラム及び画像処理装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019220099A (ja) 2018-06-22 2019-12-26 凸版印刷株式会社 ステレオマッチング処理装置、ステレオマッチング処理方法、及びプログラム
JP2020148483A (ja) 2019-03-11 2020-09-17 株式会社東芝 画像処理装置、測距装置、方法及びプログラム
JP2021501946A (ja) 2017-11-03 2021-01-21 グーグル エルエルシーGoogle LLC 単視点深度予測のための絞りの監視
JP2021043115A (ja) 2019-09-12 2021-03-18 株式会社東芝 画像処理装置、測距装置、方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2585197B (en) * 2019-07-01 2023-12-20 Sony Interactive Entertainment Inc Method and system for obtaining depth data
JP7123884B2 (ja) * 2019-09-12 2022-08-23 株式会社東芝 撮像装置、方法及びプログラム
US11366983B2 (en) * 2020-09-09 2022-06-21 International Business Machines Corporation Study-level multi-view processing system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021501946A (ja) 2017-11-03 2021-01-21 グーグル エルエルシーGoogle LLC 単視点深度予測のための絞りの監視
JP2019220099A (ja) 2018-06-22 2019-12-26 凸版印刷株式会社 ステレオマッチング処理装置、ステレオマッチング処理方法、及びプログラム
JP2020148483A (ja) 2019-03-11 2020-09-17 株式会社東芝 画像処理装置、測距装置、方法及びプログラム
JP2021043115A (ja) 2019-09-12 2021-03-18 株式会社東芝 画像処理装置、測距装置、方法及びプログラム
US20210082146A1 (en) 2019-09-12 2021-03-18 Kabushiki Kaisha Toshiba Image processing device, ranging device, and method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ke Xian,Xian,Monocular Relative Depth Perception with Web Stereo Data Supervision,IEEE/CVF Conference on Computer Vision and Pattern Recognition,米国,IEEE,2018年,p.311-p.320,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8578138
三島 直 Nao MISHIMA,単眼カメラで撮影した1枚の画像から精度良く距離計測できるカラー開口撮像技術 Imaging Technology Accomplishing Simultaneous Acquisition of Color Image and High-Precision Depth Map from Single Image Taken by Monocular Camera,東芝レビュー VOL.73 NO.1 [online] TOSHIBA REVIEW,日本,東芝,2018年,第73巻,p.39-p.43

Also Published As

Publication number Publication date
JP2023019521A (ja) 2023-02-09
CN115700611A (zh) 2023-02-07
US20230032387A1 (en) 2023-02-02

Similar Documents

Publication Publication Date Title
US11074714B2 (en) Eye tracking method and system
US8928736B2 (en) Three-dimensional modeling apparatus, three-dimensional modeling method and computer-readable recording medium storing three-dimensional modeling program
JP6585006B2 (ja) 撮影装置および車両
US9251589B2 (en) Depth measurement apparatus, image pickup apparatus, and depth measurement program
US20130223759A1 (en) Image processing method and device, and program
JP7370922B2 (ja) 学習方法、プログラム及び画像処理装置
JP2011209815A (ja) 三次元モデリング装置、三次元モデリング方法、ならびに、プログラム
JP7378219B2 (ja) 撮像装置、画像処理装置、制御方法、及びプログラム
JP7379299B2 (ja) 位置姿勢推定装置、位置姿勢推定方法及びプログラム
JP7451465B2 (ja) 学習方法、プログラム及び画像処理装置
JP7204586B2 (ja) 学習方法、プログラム及び画像処理装置
JP5591090B2 (ja) 画像処理装置およびその方法
JP5900017B2 (ja) 奥行き推定装置、再構成画像生成装置、奥行き推定方法、再構成画像生成方法及びプログラム
JP7547297B2 (ja) 推定装置、方法及びプログラム
JP7446985B2 (ja) 学習方法、プログラム及び画像処理装置
JP2020030569A (ja) 画像処理方法、画像処理装置、撮像装置、レンズ装置、プログラム、および、記憶媒体
JP2018133064A (ja) 画像処理装置、撮像装置、画像処理方法および画像処理プログラム
JP7009219B2 (ja) 画像処理方法、画像処理装置、撮像装置、画像処理プログラム、および、記憶媒体
CN115086628B (zh) 学习方法及图像处理装置
JP6384961B2 (ja) カメラキャリブレーション装置、カメラキャリブレーション方法、カメラキャリブレーションプログラム及び記録媒体
JP6608238B2 (ja) 画像処理装置、撮像装置、画像処理方法、プログラム
JP5942428B2 (ja) 再構成画像生成装置、再構成画像生成方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240306

R151 Written notification of patent or utility model registration

Ref document number: 7451465

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151