JP2021531566A - 画像処理方法および装置、電子機器ならびに記憶媒体 - Google Patents

画像処理方法および装置、電子機器ならびに記憶媒体 Download PDF

Info

Publication number
JP2021531566A
JP2021531566A JP2021500554A JP2021500554A JP2021531566A JP 2021531566 A JP2021531566 A JP 2021531566A JP 2021500554 A JP2021500554 A JP 2021500554A JP 2021500554 A JP2021500554 A JP 2021500554A JP 2021531566 A JP2021531566 A JP 2021531566A
Authority
JP
Japan
Prior art keywords
optimization
images
original images
feature matrix
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021500554A
Other languages
English (en)
Other versions
JP7072119B2 (ja
Inventor
レン,スーチエ
チェン,イェン
チョン,シュアンイェー
スン,ウェンシウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Publication of JP2021531566A publication Critical patent/JP2021531566A/ja
Application granted granted Critical
Publication of JP7072119B2 publication Critical patent/JP7072119B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/22Measuring arrangements characterised by the use of optical techniques for measuring depth
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/497Means for monitoring or calibrating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/60Image enhancement or restoration using machine learning, e.g. neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/77Retouching; Inpainting; Scratch removal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/521Depth or shape recovery from laser ranging, e.g. using interferometry; from the projection of structured light
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/04Indexing scheme for image data processing or generation, in general involving 3D image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Electromagnetism (AREA)
  • Optics & Photonics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Studio Devices (AREA)

Abstract

本開示は画像処理方法および装置、電子機器ならびに記憶媒体に関し、前記方法は、飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得することと、ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得ることと、を含む。本開示の実施例は元画像から高品質の深度情報を効果的に復元することができる。

Description

本願は2018年12月14日に中国特許局に提出された、出願番号201811536144.3、発明名称「画像情報の最適化方法および装置、電子機器ならびに記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
本開示は画像処理分野に関し、特に画像処理方法および装置、電子機器ならびに記憶媒体に関する。
深度画像の取得または画像の最適化は多くの分野において重要な応用価値を有する。例えば、資源探査、三次元再構築、ロボットのナビゲーションなどの分野において、障害物の検出、自動運転、生体検出などはいずれもシーンの高精度の三次元データに依存している。関連技術では、信号対雑音比が低い場合、画像の正確な深度情報を得ることが困難であり、代表的には得られた深度画像に深度情報が欠落した大きなブラックホールが存在する。
本開示の実施例は画像最適化の技術的解決手段を提供する。
本開示の第一方面によれば、飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得することと、ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得ることと、を含む画像処理方法が提供される。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力することと、前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得ることと、を含む。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力することを含む。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得ることを含む。
いくつかの可能な実施形態では、前記方法は、前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得ることをさらに含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることを含む。
いくつかの可能な実施形態では、前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得ることと、第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行う(nは1よりも大きくかつQよりも小さい整数である)ことと、第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得ることと、を含む。
いくつかの可能な実施形態では、前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得ることと、前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得ることと、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることと、を含み、前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られる。
いくつかの可能な実施形態では、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることは、前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得ることを含む。
いくつかの可能な実施形態では、前記ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は前記第一サンプル画像よりも信号対雑音比が高い。前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、前記ニューラルネットワークのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られる。
本開示が提供する第二方面によれば、飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得することと、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、前記複数の元画像に対応する深度マップを得ることと、を含み、ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は対応する前記第一サンプル画像よりも信号対雑音比が高い画像処理方法が提供される。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力することと、前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得ることと、を含む。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力することを含む。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得ることを含む。
いくつかの可能な実施形態では、前記方法は、前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得ることをさらに含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることを含む。
いくつかの可能な実施形態では、前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得ることと、第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行う(nは1よりも大きくかつQよりも小さい整数である)ことと、第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得ることと、を含む。
いくつかの可能な実施形態では、前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得ることと、前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得ることと、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることと、を含み、前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られる。
いくつかの可能な実施形態では、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることは、前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得ることを含む。
いくつかの可能な実施形態では、前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、前記ニューラルネットワークのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られる。
本開示の第三方面によれば、飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得するための取得モジュールと、ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得るための最適化モジュールと、を含む画像処理装置が提供される。
本開示の第四方面によれば、飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得するための取得モジュールと、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、前記複数の元画像に対応する深度マップを得るための最適化モジュールと、を含み、ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は対応する前記第一サンプル画像よりも信号対雑音比が高い画像処理装置が提供される。
本開示の第五方面によれば、第一方面または第二方面のいずれか一項に記載の方法を実行するように構成されたプロセッサ、およびプロセッサにより実行可能な命令を記憶するためのメモリを含む電子機器が提供される。
本開示の第六方面によれば、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令はプロセッサに実行される時に第一方面または第二方面のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能記憶媒体が提供される。
本開示の第七方面によれば、コンピュータ読み取り可能コードを含み、前記コンピュータコードが電子機器において運用される時、前記電子機器内のプロセッサに第一方面または第二方面のいずれか一項に記載の方法を実行させるコンピュータプログラムが提供される。
本開示の実施例は、露光率が低く画像の信号対雑音比が低い場合において応用することができる。上記場合に、カメラセンサが受信する信号は非常に弱くかつ多くの雑音が存在するため、従来技術ではこれらの信号により高精度の深度値を得ることが困難であるが、本開示の実施例は収集した低信号対雑音比の元画像に最適化処理を行うことで、低信号対雑音比の画像から深度情報を効果的に復元し、従来技術の画像特徴情報を効果的に抽出できないという技術的問題を解決する。本開示の実施例は遠距離測定および高吸収率物体測定による低信号対雑音比により深度情報を復元できないという問題を解決可能であり、また、信号対雑音比の要求による撮像解像度不足の問題を解決可能である。即ち、本開示の実施例は低信号対雑音比の画像を最適化して画像の特徴情報(深度情報)を復元することができる。
なお、以上の概略的な説明および以下の詳細な説明は例示的および説明的なものに過ぎず、本開示を限定するものではないことを理解すべきである。
ここの図面は、明細書の一部として組み込まれて、本開示に適合する実施例を示したものであり、かつ明細書と共に本開示の技術的解決手段を説明するために用いられる。
本開示の実施例に係る画像処理方法のフローチャートを示す。 本開示の実施例に係る画像処理方法における最適化処理の例示的フローチャートを示す。 本開示の実施例に係る画像処理方法における最適化処理の別の例示的フローチャートを示す。 本開示の実施例に係る画像処理方法における第一の最適化プロセス群の例示的フローチャートを示す。 本開示の実施例に係る画像処理方法における第二の最適化プロセス群の例示的フローチャートを示す。 本開示の実施例に係る画像処理方法における第三の最適化プロセス群の例示的フローチャートを示す。 本開示の実施例に係る画像処理方法の別のフローチャートを示す。 本開示の実施例に係る画像処理方法の別のフローチャートを示す。 本開示の実施例に係る画像処理方法の別のフローチャートを示す。 本開示の実施例に係る画像処理装置のブロック図を示す。 本開示の実施例に係る画像処理装置の別のブロック図を示す。 本開示の実施例に係る電子機器のブロック図を示す。 本開示の実施例に係る別の電子機器のブロック図を示す。
以下に図面を参照しながら本開示の様々な例示的実施例、特徴および態様を詳細に説明する。図面における同じ符号は機能が同じであるまたは類似する要素を表す。図面に実施例の様々な方面を示したが、特に断らない限り、比例に従って図面を描く必要がない。
ここで特に使われる用語「例示的」とは、「例として用いられること、実施例または説明的なもの」を意味する。ここで「例示的」として説明したいかなる実施例も他の実施例より優先または優れるものと解釈すべきではない。
本明細書において、用語「および/または」は、関連対象の関連関係を説明するためのものに過ぎず、三つの関係が存在可能であることを表し、例えば、Aおよび/またはBは、Aのみが存在、AとBが同時に存在、Bのみが存在という三つの状況を表すことができる。また、本明細書において、用語「少なくとも一つ」は複数種のうちのいずれか一つまたは複数種のうちの少なくとも二つの任意の組み合わせを表し、例えば、A、B及びCの少なくとも一つを含むことは、A、BおよびCからなる集合から選ばれたいずれか一つまたは複数の元素を含むことを表すことができる。
また、本開示をより効率よく説明するために、以下の具体的な実施形態において多くの具体的な詳細を提供した。当業者であれば、多少の具体的な詳細がなくても、本開示は同様に実施可能であることを理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者に既知の方法、手段、要素および回路について、詳細な説明を行わない。
図1は本開示の実施例に係る画像処理方法のフローチャートを示す。本開示の実施例に係る画像処理方法は深度撮影機能を有する電子機器または画像処理を実行可能な電子機器、例えば携帯電話、カメラ、コンピュータ機器、スマートウォッチ、リストバンドなどの機器に応用することができるが、本開示はそれを限定しない。本開示の実施例は低露光率で得られた低信号対雑音比の画像を最適化処理し、最適化処理後の画像により豊富な深度情報を持たせることができる。
S100で、飛行時間TOFセンサによって1回の露光において収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得する。
S200で、ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得る。
上述したように、本開示の実施例が提供するニューラルネットワークは低信号対雑音比の画像に最適化処理を行い、より豊富な特徴情報を有する画像を得ること、即ち高品質の深度情報を有する深度マップを得ることができる。本開示の実施例の方法はToFカメラ(飛行時間カメラ)を備える機器に適用可能である。まず、本開示の実施例では、S100によって低信号対雑音比を有する複数の元画像を取得してもよく、ここで、元画像は飛行時間カメラによって収集した各画像、例えば、飛行時間センサによって一回の露光プロセスにおいて複数の低信号対雑音比の元画像を収集したものであってもよい。本開示の実施例では信号対雑音比が第一の値よりも低い画像を低信号対雑音比画像と呼んでもよく、そのうち、第一の値は状況に応じて異なる値を設定してもよく、本開示はそれを具体的に限定しない。別のいくつかの実施例では、他の電子機器から元画像を受信して低信号対雑音比の各元画像を取得し、例えば他の電子機器からToFセンサが収集した元画像を最適化処理の対象として受信して、してもよいし、機器自体に配置された撮影機器によって各元画像を撮影してもよい。本開示の実施例では得た各元画像は同一撮影対象に対して一回の露光で得られた複数の画像であり、各画像の信号対雑音比が異なり、各元画像について異なる特徴行列がある。例えば、複数の元画像の特徴行列において同じ画素点に対する位相パラメータ値が異なる。本開示の実施例では低信号対雑音比とは、画像の信号対雑音比が低いことをいう。ToFカメラによって撮影する場合、一回の露光による各元画像を得ると共に赤外画像を得てもよく、該赤外画像における画素値に対応する信頼度情報が所定値よりも低い画素点の数は所定比率を超えた場合、元画像が低信号対雑音比の画像であるとは言える該所定値はTOFカメラの使用シーンに応じて決定してもよく、いくつかの可能な実施例では100に設定してもよいが、本開示を具体的に限定するものではない。また、所定比率は必要に応じて設定してもよく、例えば30%または他の比率に設定してもよい。当業者は他の設定に基づいて元画像の低信号対雑音比状況を判定してもよい。また、低露光率で得られた画像も低信号対雑音比の画像であるため、低露光率で得られた画像も本開示の実施例の処理対象の元画像で、かつ各元画像における位相特徴が異なる。低露光率とは露光時間が400マイクロ秒以下の露光をいう。該条件で得られた画像の信号対雑音比が低いが、本開示の実施例によって画像の信号対雑音比を向上させ、画像からより豊富な深度情報を得ることで、最適化後の画像により多くの特徴情報を持たせ、高品質の深度画像を得ることができる。本開示の実施例では取得する元対象は2つまたは4つであってもよく、本開示の実施例はこれを限定せず、他の個数であってもよい。
低信号対雑音比の複数の元画像を得てから、ニューラルネットワークにより元画像の最適化処理を行い、元画像から深度情報を復元し、元画像に対応する深度マップを得ることができる。元画像をニューラルネットワークに入力し、ニューラルネットワークにより該複数の元画像に最適化処理を実行し、さらに最適化された深度マップを得ることができる。本開示の実施例では採用される最適化処理は少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含んでもよい。まず元画像に畳み込み処理を実行し、そして畳み込み処理の結果に非線形関数マッピング処理を行うようにしてもよいし、まず元画像に非線形マッピング処理を実行し、そして非線形マッピング処理の結果に畳み込み処理を行うようにしてもよいし、または畳み込み処理および非線形処理を交互に数回実行するようにしてもよい。例えば、畳み込み処理をJで表し、非線形関数マッピング処理をYで表すと、本開示の実施例の最適化処理プロセスは、例えばJY、JJY、JYJJY、YJ、YYJ、YJYYJなどとすることができ、つまり本開示の実施例では、元画像の最適化処理は少なくとも一回の畳み込み処理および少なくとも一回の非線形マッピング処理を含んでもよいが、各畳み込み処理および非線形マッピング処理の順序や回数について、当業者は必要に応じて設定することができ、本開示はこれを具体的に限定しない。
畳み込み処理によって特徴行列における特徴情報を融合し、入力情報からより多くより正確な深度情報を抽出することができ、非線形関数マッピング処理によって1層深い深度情報を得ること、即ちより豊富な特徴情報を取得することができる。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力することと、
前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得ることと、を含む。
つまり、本開示の実施例はニューラルネットワークによって複数の元画像に対応する複数の最適化画像を直接得ることができる。ニューラルネットワークの最適化処理によって入力された元画像の信号対雑音比を向上させ、対応する最適化画像を得ることができる。さらに、最適化画像に後処理を実行することで、より多くより正確な深度情報を有する深度マップを得ることができる。
複数の最適化画像によって深度マップを得る式は以下を含んでもよい。
Figure 2021531566

ここで、dは深度マップを表し、cは光速を表し、fはカメラの調整パラメータを表し、
Figure 2021531566


Figure 2021531566


Figure 2021531566

および
Figure 2021531566

はそれぞれ各元画像における第i行第j列の特徴値であり、iおよびjはそれぞれN以下の正整数であり、Nは元画像の次元(N*N)を表す。
別のいくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力することを含む。
つまり、本開示の実施例のニューラルネットワークは複数の元画像に最適化処理を行い、該複数の元画像に対応する深度マップを直接得ることができる。該構成はニューラルネットワークの訓練により実現することができる。
上記構成からわかるように、本開示の実施例ではニューラルネットワークの最適化処理によってより豊富かつより正確な深度情報を有する深度マップを直接得るようにしてもよいし、またはニューラルネットワークでの最適化によって入力された元画像に対応する最適化画像を得て、さらに最適化画像の後処理によってより豊富かつより正確な深度情報を有する深度マップを得るようにしてもよい。
また、いくつかの可能な実施形態では、ニューラルネットワークによって元画像に最適化処理を行う前に、元画像に前処理を実行し、前処理後の複数の元画像を得て、ニューラルネットワークに入力して最適化処理を実行し、複数の元画像に対応する深度マップを得るようにしてもよい。前処理は画像キャリブレーション、画像補正、および任意の二つの元画像間の線形処理や非線形処理の少なくとも一つを含んでもよい。元画像に画像キャリブレーションを実行することで、元画像を取得する画像収集機器の内部パラメータによる画像への影響を解消することができ、画像収集機器による雑音を解消することにより、元画像の精度をさらに向上させることができる。画像キャリブレーションは従来の技術的手段、例えば自己キャリブレーションアルゴリズムなどに基づいて実現してもよく、本開示はキャリブレーションアルゴリズムの具体的な処理プロセスを具体的に限定しない。画像補正とは画像に施す復元処理をいう。一般的には、画像歪みの発生原因は撮像システムの収差、歪曲、限られた帯域幅などによる画像歪み、結像デバイスの撮影姿勢および走査の非線形性による画像幾何学的歪み、およびモーションブラー、放射歪み、雑音導入などによる画像歪みを含む。画像補正では画像歪みの発生原因に応じて、対応する数学モデルを作成し、汚染されたまたは歪曲した画像信号から必要な情報を抽出し、画像歪みの逆プロセスに沿って画像を元に復元させることができる。画像補正のプロセスはフィルタによって元画像内の雑音を解消し、元画像の精度を向上させてもよい。
任意の二つの元画像間の線形処理とは二つの元画像に対して対応する画素点の特徴値の加算または減算を実行し、該線形処理の結果を得ることをいい、該結果は新たな画像の画像特徴として表すことができる。
任意の二つの元画像間の非線形処理とは予め設定された非線形関数により元画像の各画素点の非線形処理を行うことをいい、つまり各画素点の特徴値を非線形関数に入力し、新たな画素値を得るように、元画像の各画素点の非線形処理を完了し、新たな画像の画像特徴を得ることができる。
元画像に前処理を行ってから、前処理後の画像をニューラルネットワークに入力し、最適化処理を実行し、最適化された深度マップを得ることができる。前処理によって、元画像内の雑音、誤差による影響を軽減し、深度マップの精度を向上させることができる。以下に最適化プロセスを具体的に説明し、元画像の最適化処理プロセスを例にして説明し、前処理後の画像の最適化処理方法は元画像の最適化処理方法と同じであり、本開示は詳細な説明を繰り返さない。
本開示の実施例ではニューラルネットワークが実行する最適化処理は複数の最適化プロセス群、例えばQ個の最適化プロセス群を含んでもよく、ここでQは1よりも大きい整数であり、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含む。複数の最適化プロセスの組み合わせによって、元画像に異なる最適化処理を実行することができる。例えば、三つの最適化プロセス群A、BおよびCを含んでもよく、該三つの最適化プロセス群はいずれも少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含んでもよいが、最適化プロセス全体として少なくとも一回の畳み込み処理および少なくとも一回の非線形処理を含まなければならない。
図2は本開示の実施例に係る画像処理方法における最適化処理の例示的フローチャートを示し、Q個の最適化プロセス群を例にして説明する。
S201で、前記元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して該第一の最適化プロセス群に対する最適化特徴行列を得る。
S202で、第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行い、または第nの最適化プロセス群が出力した最適化特徴行列、および前のn−1個の最適化プロセス群の少なくとも一つが出力した最適化特徴行列を、第n+1の最適化プロセス群の入力情報として最適化処理を行い、最後の最適化プロセス群によって処理した最適化特徴行列に基づいて、出力結果を得る。ここで、nは1よりも大きくかつQよりも小さい整数であり、Qは最適化プロセス群の数である。
本開示の実施例では、ニューラルネットワークが実行する最適化処理に含まれる複数の最適化プロセス群は順に直前の最適化プロセス群で得られた処理結果(最適化特徴行列)にさらに最適化処理を行い、かつ最後の最適化プロセス群で得られた処理結果を深度マップまたは最適化画像に対応する特徴行列とすることができる。いくつかの可能な実施形態では、直前の最適化プロセス群で得られた処理結果を直接最適化してもよく、つまり単に直前の最適化処理プロセス群で得られた処理結果を次の最適化プロセス群の入力情報としてもよい。別のいくつかの可能な実施形態では、現在の最適化プロセスの直前の最適化プロセスで得られた処理結果、および該直前の最適化プロセス以外の前の最適化プロセスのうちの少なくとも一つで得られた結果を入力としてもよい(例えば前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報としてもよい)。例えばA、BおよびCという三つの最適化プロセスの場合、Bの入力はAの出力であってもよく、Cの入力はBの出力であってもよいし、AおよびBの出力であってもよい。つまり、本開示の実施例における第一最適化プロセスの入力は元画像であり、第一最適化プロセスによって元画像に最適化処理を行った最適化特徴行列を得て、最適化処理により得られた最適化特徴行列を二番目の最適化プロセスに入力して、二番目の最適化プロセスによって一番目の最適化プロセスで得られた最適化特徴行列にさらに最適化処理を実行し、二番目の最適化プロセスに対する最適化特徴行列を得て、該二番目の最適化プロセスで得られた最適化特徴行列が三番目の最適化特徴行列に入力されてもよい。可能な一実施形態では、三番目の最適化プロセスは二番目の最適化特徴行列の出力のみを入力情報としてもよいし、一番目の最適化プロセスで得られた最適化特徴行列と共に二番目の最適化プロセスで得られた最適化特徴行列を入力情報として最適化処理を行ってもよい。以降同様に、第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行い、または第nの最適化プロセス群が出力した最適化特徴行列、および前のn−1個の最適化プロセス群の少なくとも一つが出力した最適化特徴行列を、第n+1の最適化プロセス群の入力情報として最適化処理を行い、最後の最適化プロセスによって処理して最適化結果を得る。該最適化結果は最適化された深度マップであってもよいし、元画像に対応する最適化画像であってもよい。上記構成によって、当業者は必要に応じて異なる最適化プロセスを構築することができ、本開示の実施例はこれを限定しない。
また、各最適化プロセス群によって、入力情報内の特徴情報を絶えず融合してより多くの深度情報を復元することができ、つまり得られた最適化特徴行列が入力情報よりも多い特徴を有し、かつより多くの深度情報を有するようにすることができる。
各最適化プロセス群において畳み込み処理を実行する時に採用される畳み込みカーネルは同じであってもよく、異なってもよい。各最適化プロセス群において非線形マッピング処理を実行する時に採用される活性化関数も同じであっても良く、異なってもよい。また、毎回の畳み込み処理に採用される畳み込みカーネルの数も同じであってもよく、異なってもよく、当業者は必要に応じて構成することができる。
ToFカメラが取得した元画像には、各画素点の位相情報が含まれるため、本開示の実施例の最適化処理によって、位相情報から対応する深度情報を復元し、より多くより正確な深度情報を有する深度マップを得ることができる。
上記実施例に記載のように、S200の最適化処理プロセスは複数の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含んでもよい。本開示のいくつかの可能な実施形態では、各最適化プロセス群では異なる処理プロセスを採用してもよく、例えばダウンサンプリング、アップサンプリング、畳み込みまたは残差処理などを実行してもよい。当業者は異なる組み合わせおよび処理順序によって構成することができる。
図3は本開示の実施例に係る画像処理方法における最適化処理の別の例示的フローチャートを示す。前記元画像に最適化処理を実行することはさらに、
S203:複数の前記元画像に第一の最適化プロセス群を実行し、該複数の元画像の特徴情報を融合した第一特徴行列を得ることと、
S204:前記第一特徴行列に第二の最適化プロセス群を実行し、特徴情報が前記第一特徴行列の特徴情報よりも多い第二の特徴行列を得ることと、
S205:前記第二特徴行列に第三の最適化プロセス群を実行し、特徴情報が前記第二特徴行列の特徴情報よりも多い前記最適化特徴行列の出力結果を得ることと、を含んでもよい。
つまり、本開示の実施例のニューラルネットワークの最適化処理は順に実行される三つの最適化プロセス群を含んでもよく、即ちニューラルネットワークは上記第一の最適化プロセス群、第二の最適化プロセス群および第三の最適化プロセス群によって元画像の最適化を実現してもよい。いくつかの可能な実施形態では、第一の最適化プロセス群はダウンサンプリング処理プロセス、第二の最適化プロセス群は残差処理プロセス、第三の最適化プロセス群はアップサンプリング処理プロセスであってもよい。
まず、S203によって各元画像の第一の最適化プロセス群を実行し、各元画像の特徴情報を融合して深度情報を復元し、第一特徴行列を得るようにしてもよい。本開示の実施例は第一の最適化プロセス群の方法によって特徴行列のサイズ、例えば長さおよび幅の次元を変更することができ、また、特徴行列内の各画素点に対する特徴情報を増やし、より多くの特徴をさらに融合して一部の深度情報を復元することができる。
図4は本開示の実施例に係る画像処理方法における第一の最適化プロセス群の例示的フローチャートを示す。複数の前記元画像に第一の最適化プロセス群を実行し、該複数の元画像の特徴情報を融合した第一特徴行列を得ることは、
S2031:一番目の第一サブ最適化プロセスによって複数の元画像の第一畳み込み処理を実行し、第一畳み込み特徴を得て、該第一畳み込み特徴に第一非線形マッピング処理を実行することで第一最適化特徴行列を得ることと、
S2032:i番目の第一サブ最適化プロセスによってi−1番目の第一サブ最適化プロセスで得られた第一最適化特徴行列の第一畳み込み処理を実行し、該第一畳み込み処理によって得られた第一畳み込み特徴に第一非線形マッピング処理を実行することでi番目の第一サブ最適化プロセスに対する第一最適化特徴行列を得ることと、
S2033:N番目の第一サブ最適化プロセスで得られた第一最適化特徴行列によって前記第一特徴行列を特定することと、を含んでもよく、ここでiは1よりも大きくかつN以下の正整数であり、Nは第一サブ最適化プロセスの数を表す。
本開示の実施例はダウンサンプリングネットワークによってS203のプロセスを実行してもよく、即ち第一の最適化プロセス群はダウンサンプリングネットワークによって実行されるダウンサンプリング処理のプロセスであってもよく、ダウンサンプリングネットワークはニューラルネットワークにおける一部のネットワーク構造であってもよい。本開示の実施例におけるダウンサンプリングネットワークが実行する第一の最適化プロセス群は最適化処理の一つの最適化プロセスとして、複数の第一サブ最適化プロセスを含んでもよく、例えばダウンサンプリングネットワークは順に接続されている複数のダウンサンプリングモジュールを含んでもよく、各ダウンサンプリングモジュールは第一畳み込みユニット、および第一畳み込みユニットと接続されて第一畳み込みユニットが出力した特徴行列を処理する第一活性化ユニットを含んでもよい。それに対応して、S203での第一の最適化プロセス群はそれぞれ第一畳み込み処理および第一非線形マッピング処理を含む複数の第一サブ最適化プロセスを含んでもよく、つまり各ダウンサンプリングモジュールは一つの第一サブ最適化プロセスを実行し、ダウンサンプリングモジュール内の第一畳み込みユニットは上記第一畳み込み処理を実行し、第一活性化ユニットは上記第一非線形マッピング処理を実行してもよい。
一番目の第一サブ最適化プロセスによってS100で得られた各元画像の第一畳み込み処理を実行し、対応する第一畳み込み特徴を得て、第一活性化関数により該第一畳み込み特徴の第一非線形マッピング処理を実行してもよく、例えば、第一活性化関数と該第一畳み込み特徴を乗算し、最終的に該一番目のダウンサンプリングプロセスの第一最適化特徴行列を得るか、または第一畳み込み特徴を第一活性化関数の対応するパラメータに代入し、活性化関数処理結果(第一最適化特徴行列)を得る。それに対応して、該一番目の第一サブ最適化プロセスで得られた第一最適化特徴行列を二番目の第一サブ最適化プロセスの入力とし、二番目の第一サブ最適化プロセスによって一番目の第一サブ最適化プロセスによる第一最適化特徴行列に第一畳み込み処理を行い、対応する第一畳み込み特徴を得て、第一活性化関数により該第一畳み込み特徴の第一活性化処理を実行し、該二番目の第一サブ最適化プロセスの第一最適化特徴行列を得てもよい。
以降同様に、i番目の第一サブ最適化プロセスによってi−1番目の第一サブ最適化プロセスで得られた第一最適化特徴行列の第一畳み込み処理を実行し、該第一畳み込み処理によって得られた第一畳み込み特徴に第一非線形マッピング処理を実行することでi番目の第一サブ最適化プロセスに対する第一最適化特徴行列を得て、N番目の第一サブ最適化プロセスで得られた第一最適化特徴行列に基づいて前記第一特徴行列を特定してもよく、ここでiは1よりも大きくかつN以下の正整数であり、Nは第一サブ最適化プロセスの数を表す。
各前記第一サブ最適化プロセスの第一畳み込み処理を実行する時、各第一畳み込み処理に採用される第一畳み込みカーネルは同じであり、かつ少なくとも一つの第一サブ最適化プロセスの第一畳み込み処理に採用される第一畳み込みカーネルの数は他の第一サブ最適化プロセスの第一畳み込み処理に採用される第一畳み込みカーネルの数と異なる。即ち、本開示の実施例の第一サブ最適化プロセスに採用される畳み込みカーネルはいずれも第一畳み込みカーネルであるが、各第一サブ最適化プロセスに採用される第一畳み込みカーネルの数は異なってもよく、第一サブ最適化プロセスによって、適当な数の第一畳み込みカーネルを選択して第一畳み込み処理を実行することができる。第一畳み込みカーネルは4*4の畳み込みカーネルであってもよいし、または他のタイプの畳み込みカーネルであってもよく、本開示はこれを限定しない。また、各第一サブ最適化プロセスに採用される第一活性化関数は同じである。
言い換えれば、S100で取得した元画像をダウンサンプリングネットワークにおける一番目のダウンサンプリングモジュールに入力し、一番目のダウンサンプリングモジュールが出力した第一最適化特徴行列を二番目のダウンサンプリングモジュールに入力し、以降同様に処理して、最後の第一ダウンサンプリングモジュールによって処理して第一特徴行列を出力してもよい。
まずダウンサンプリングネットワークにおける一番目のダウンサンプリングモジュール内の第一畳み込みユニットを用いて第一畳み込みカーネルによって各前記元画像に対する第一サブ最適化プロセスを実行し、一番目のダウンサンプリングモジュールに対応する第一畳み込み特徴を得てもよい。例えば、本開示の実施例の第一畳み込みユニットに採用される第一畳み込みカーネルは4*4の畳み込みカーネルであってもよく、該畳み込みカーネルにより各元画像に対する第一畳み込み処理を実行し、各画素点の畳み込み結果を累積し、最終的な第一畳み込み特徴を得てもよい。同時に、本開示の実施例では、各第一畳み込みユニットに採用される第一畳み込みカーネルの数は複数としてもよく、該複数の第一畳み込みカーネルによって各元画像の第一畳み込み処理をそれぞれ実行し、さらに同じ画素点に対応する畳み込み結果を加算し、第一畳み込み特徴を得てもよい。該第一畳み込み特徴も実質的に行列形式である。第一畳み込み特徴を得てから、前記一番目のダウンサンプリングモジュールの第一活性化ユニットを用いて第一活性化関数によって該第一畳み込み特徴を処理し、一番目のダウンサンプリングモジュールに対する第一最適化特徴行列を得てもよい。即ち、本開示の実施例は第一畳み込みユニットが出力した第一畳み込み特徴を第一畳み込みユニットと接続される第一活性化ユニットに入力し、該第一活性化関数により第一畳み込み特徴を処理し、例えば第一活性化関数を第一畳み込み特徴で乗算し、一番目の第一ダウンサンプリングモジュールの第一最適化特徴行列を得てもよい。
さらに、一番目のダウンサンプリングモジュールの第一最適化特徴行列を得てから、二番目のダウンサンプリングモジュールを用いて第一最適化特徴行列を処理し、該二番目のダウンサンプリングモジュールに対応する第一最適化特徴行列を得て、以降同様に、各ダウンサンプリングモジュールに対応する第一最適化特徴行列をそれぞれ得て、最終的に第一特徴行列を得てもよい。各ダウンサンプリングモジュール内の第一畳み込みユニットに採用される第一畳み込みカーネルは同じ畳み込みカーネル、例えばいずれも4*4の畳み込みカーネルであってもよいが、各ダウンサンプリングモジュール内の第一畳み込みユニットに採用される第一畳み込みカーネルの数は異なってもよく、このように異なるサイズの第一畳み込み特徴を得て、異なる特徴を融合した第一特徴行列を得ることができる。
表1は本開示の実施例に係る画像処理方法のネットワーク構造の模式表を示す。そのうちダウンサンプリングネットワークは四つのダウンサンプリングモジュールD1〜D4を含んでもよい。各ダウンサンプリングモジュールは第一畳み込みユニットおよび第一活性化ユニットを含んでもよい。本開示の実施例の各第一畳み込みユニットは同じ第一畳み込みカーネルにより入力特徴行列に対する第一畳み込み処理を実行するが、各第一畳み込みユニットの第一畳み込み処理を実行する第一畳み込みカーネルの数は異なってもよい。例えば、表1から分かるように、一番目のダウンサンプリングモジュールD1は畳み込み層および活性化関数層を含んでもよく、第一畳み込みカーネルは4*4の畳み込みカーネルであり、所定のステップサイズ(例えば2)に従って第一畳み込み処理を実行し、ダウンサンプリングモジュールD1内の第一畳み込みユニットは64個の第一畳み込みカーネルによって入力された元画像の第一畳み込み処理を実行し、64個の画像の特徴情報を含む第一畳み込み特徴を得る。第一畳み込み特徴を得てから、第一活性化ユニットを用いて処理を実行し、例えば第一畳み込み特徴と第一活性化関数を乗算し、D1の最終的な第一最適化特徴行列を得る。第一活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
それに対応して、二番目のダウンサンプリングモジュールD2はD1から出力した第一最適化特徴行列を受信し、その内部の第一畳み込みユニットを用いて128個の4*4の畳み込みカーネルである第一畳み込みカーネルによって該第一最適化特徴行列に、所定のステップサイズ(例えば2)に従って第一畳み込み処理を実行してもよい。ダウンサンプリングモジュールD2内の第一畳み込みユニットは128個の第一畳み込みカーネルによって入力された第一最適化特徴行列の第一畳み込み処理を実行し、128個の画像の特徴情報を含む第一畳み込み特徴を得る。第一畳み込み特徴を得てから、第一活性化ユニットを用いて処理を実行し、例えば第一畳み込み特徴と第一活性化関数を乗算し、D2の最終的な第一最適化特徴行列を得る。第一活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
以降同様に、三番目のダウンサンプリングモジュールD3は、同様にステップサイズを2とし、256個の第一畳み込みカーネルによってD2が出力した第一最適化特徴行列に畳み込みを行い、さらに第一活性化ユニットを用いて出力された第一畳み込み特徴を処理し、D3の第一最適化特徴行列を得てもよい。そして、四番目のダウンサンプリングモジュールD4も、同様にステップサイズを2とし、256個の第一畳み込みカーネルによってD3が出力した第一最適化特徴行列に畳み込みを行い、さらに第一活性化ユニットを用いて出力された第一畳み込み特徴を処理し、D4の第一最適化特徴行列、即ち第一特徴行列を得てもよい。
Figure 2021531566
本開示の実施例では、各ダウンサンプリングモジュールに採用される第一畳み込みカーネルは同じであってもよく、同じステップサイズで畳み込みを実行してもよいが、各第一畳み込みユニットが畳み込みを実行するために採用される第一畳み込みカーネルの数は異なってもよい。各ダウンサンプリングモジュールによるダウンサンプリング動作は、いずれも画像の特徴情報をさらに豊富にし、画像の信号対雑音比を向上させることができる。
S203を実行して第一特徴行列を得てから、第一特徴行列にS204を実行し、第二特徴行列を得、例えば第一特徴行列を残差ネットワークに入力し、残差ネットワークによって特徴をスクリーニングし、続いて活性化関数により深度特徴情報を増やしてもよい。残差ネットワークは同様に単独のニューラルネットワークであってもよいし、一つのニューラルネットワーク内の一部のネットワークモジュールであってもよい。本開示の実施例のS204での畳み込みは二番目の最適化処理プロセスとして、それぞれが第二畳み込み処理および第二非線形マッピング処理を含む複数の畳み込み処理プロセスを含んでもよい。それに対応する残差ネットワークは対応する第二畳み込み処理および第二非線形マッピング処理を実行可能な複数の残差モジュールを含んでもよい。
図5は本開示の実施例に係る画像処理方法における第二の最適化プロセス群の例示的フローチャートを示す。前記第一特徴行列に第二の最適化プロセス群を実行し、第二特徴行列を得ることは、
S2041:一番目の第二サブ最適化プロセスによって前記第一特徴行列の第二畳み込み処理を実行し、第二畳み込み特徴を得て、該第二畳み込み特徴に第二非線形マッピング処理を実行することで一番目の第二サブ最適化プロセスに対する第二最適化特徴行列を得ることと、
S2042:j番目の第二サブ最適化プロセスによってj−1番目の第二サブ最適化プロセスで得られた第二最適化特徴行列の第二畳み込み処理を実行し、該第二畳み込み処理によって得られた第二畳み込み特徴に第二非線形マッピング処理を実行することでj番目の第二サブ最適化プロセスに対する第二最適化特徴行列を得ることと、
S2043:M番目の第二サブ最適化プロセスで得られた第二最適化特徴行列に基づいて前記第二特徴行列を特定することと、含んでもよく、ここでjは1よりも大きくかつM以下の正整数であり、Mは第二サブ最適化プロセスの数を表す。
本開示の実施例のS204の第二の最適化プロセス群は別の最適化処理プロセス群として、S203の最適化処理結果に基づいてさらなる最適化を実行してもよい。該第二の最適化プロセス群は順に実行される複数の第二サブ最適化プロセスを含み、直前の第二サブ最適化によって得られた第二最適化特徴行列を次の第二サブ最適化の入力として、複数の第二サブ最適化プロセスを順に実行し、最終的に最後の第二サブ最適化プロセスによって第二特徴行列を得てもよい。一番目の第二サブ最適化プロセスの入力はS203で得られた第一特徴行列である。
具体的には、本開示の実施例は一番目の第二の最適化プロセス群によってS203で得られた第一特徴行列の第二畳み込み処理を実行し、対応する第二畳み込み特徴を得て、該第二畳み込み特徴に第二非線形マッピング処理を実行することで第二最適化特徴行列を得て、
j番目の第二サブ最適化プロセスによってj−1番目の第二サブ最適化プロセスで得られた第二最適化特徴行列の第二畳み込み処理を実行し、該第二畳み込み処理によって得られた第二畳み込み特徴に第二非線形マッピング処理を実行することでj番目の第二サブ最適化プロセスの第二最適化特徴行列を得て、M番目の第二サブ最適化プロセスで得られた第二最適化特徴行列に基づいて前記第二特徴行列を得てもよく、ここでjは1よりも大きくかつM以下の正整数であり、Mは第二サブ最適化プロセスの数を表す。
上述したように、本開示の実施例では、残差ネットワークによって該第二の最適化プロセス群を実行してもよく、即ち第二の最適化プロセス群は残差ネットワークにより実行される最適化プロセスであってもよい残差ネットワークはニューラルネットワークにおける一部のネットワーク構造であってもよい。第二の最適化プロセス群は複数の第二サブ最適化プロセスを含んでもよく、残差ネットワークは順に接続される複数の残差モジュールを含み、各残差モジュールは、対応する第二サブ最適化プロセスを実行するために第二畳み込みユニットおよび前記第二畳み込みユニットと接続される第二活性化ユニットを含んでもよい。
一番目の第二サブ最適化プロセスによってS203で得られた第一特徴行列の第二畳み込み処理を実行し、対応する第二畳み込み特徴を得て、第一活性化関数により該第二畳み込み特徴の第二非線形マッピング処理を実行し、例えば、第二活性化関数と該第二畳み込み特徴を乗算し、最終的に該二番目の第二サブ最適化プロセスの第二最適化特徴行列を得るか、または第二畳み込み特徴を第二活性化関数の対応するパラメータに代入し、活性化関数処理結果(第二最適化特徴行列)を得てもよい。それに対応して、該一番目の第二サブ最適化プロセスで得られた第二最適化特徴行列を二番目の第二サブ最適化プロセスの入力とし、二番目の第二サブ最適化プロセスにより一番目の第二サブ最適化プロセスの第二最適化特徴行列に第二畳み込み処理を実行し、対応する第二畳み込み特徴を得て、第二活性化関数により該第二畳み込み特徴の第二活性化処理を実行し、該二番目の第二サブ最適化プロセスの第二最適化特徴行列を得てもよい。
以降同様に、j番目の第二サブ最適化プロセスによってj−1番目の第二サブ最適化プロセスで得られた第二最適化特徴行列の第二畳み込み処理を実行し、該第二畳み込み処理によって得られた第二畳み込み特徴に第二非線形マッピング処理を実行することでj番目の第二サブ最適化プロセスに対する第二最適化特徴行列を得て、M番目の第一サブ最適化プロセスで得られた第二最適化特徴行列に基づいて前記第二特徴行列を得てもよく、ここでjは1よりも大きくかつN以下の正整数であり、Mは第一サブ最適化プロセスの数を表す。
各前記第二サブ最適化プロセスの第二畳み込み処理を実行する時、各第二畳み込み処理に採用される第二畳み込みカーネルは同じであり、かつ少なくとも一つの第二サブ最適化プロセスの第二畳み込み処理に採用される第二畳み込みカーネルの数は他の第二サブ最適化プロセスの第二畳み込み処理に採用される第二畳み込みカーネルの数と異なる。即ち、本開示の実施例の第一サブ最適化プロセスに採用される畳み込みカーネルはいずれも第二畳み込みカーネルであるが、各第二サブ最適化プロセスに採用される第二畳み込みカーネルの数は異なってもよく、第二サブ最適化プロセスによって、適当な数の第二畳み込みカーネルを選択して第二畳み込み処理を実行してもよい。第二畳み込みカーネルは3*3の畳み込みカーネルであってもよいし、または他のタイプの畳み込みカーネルであってもよく、本開示はこれを限定しない。また、各第二サブ最適化プロセスに採用される第二活性化関数は同じである。
言い換えれば、S203で取得した第一特徴行列を残差ネットワークにおける一番目の残差モジュールに入力し、一番目の残差モジュールが出力した第二最適化特徴行列を二番目の残差モジュールに入力し、以降同様に処理して、最後の残差処理によって第二特徴行列を出力してもよい。
まず残差ネットワークにおける一番目の残差モジュール内の第二畳み込みユニットを用いて第二畳み込みカーネルによって第一特徴行列に対する畳み込みを実行し、一番目の残差モジュールに対応する第二畳み込み特徴を得てもよい。例えば本開示の実施例の第二畳み込みユニットに採用される第二畳み込みカーネルは3*3の畳み込みカーネルで、該畳み込みカーネルにより第一特徴行列に対する畳み込みを実行し、各画素点の畳み込み結果を累積し、最終的な第二畳み込み特徴を得てもよい。同時に、本開示の実施例では、各第二畳み込みユニットに採用される第二畳み込みカーネルの数は複数として、該複数の第一畳み込みカーネルによって第一特徴行列の畳み込みをそれぞれ実行し、さらに同じ画素点に対応する畳み込み結果を加算し、第二畳み込み特徴を得てもよい。該第二畳み込み特徴も実質的に行列形式である。第二畳み込み特徴を得てから、前記一番目の残差モジュールの第二活性化ユニットを用いて第二活性化関数によって該第二畳み込み特徴を処理し、一番目の残差モジュールに対する第二最適化特徴行列を得てもよい。即ち、本開示の実施例は第二畳み込みユニットが出力した第二畳み込み特徴を第二畳み込みユニットと接続される第二活性化ユニットに入力し、該第二活性化関数により第二畳み込み特徴を処理し、例えば第二活性化関数を第二畳み込み特徴で乗算し、一番目の残差モジュールの第二最適化特徴行列を得てもよい。
さらに、一番目の残差モジュールの第二最適化特徴行列を得てから、二番目の残差モジュールを用いて一番目の残差モジュールが出力した第二最適化特徴行列を処理し、該二番目の残差モジュールに対応する第二最適化特徴行列を得て、以降同様に、各残差モジュールに対応する第二最適化特徴行列をそれぞれ得て、最終的に第二特徴行列を得てもよい。各残差モジュール内の第二畳み込みユニットに採用される第二畳み込みカーネルは同じ畳み込みカーネル、例えばいずれも3*3の畳み込みカーネルであってもよく、本開示はこれを限定しないが、各ダウンサンプリングモジュール内の第一畳み込みユニットに採用される第二畳み込みカーネルの数は同じであってもよく、このように特徴行列のサイズを変更することなく画像の特徴情報の豊富さを保証することができる。
表1に示すように、残差ネットワークは九つの残差モジュールRes1〜Res9を含んでもよい。各残差モジュールは第二畳み込みユニットおよび第二活性化ユニットを含んでもよい。本開示の実施例の各第二畳み込みユニットは同じ第二畳み込みカーネルによって入力された特徴行列の畳み込みを実行してもよいが、各第二畳み込みユニットの畳み込みを実行する第二畳み込みカーネルの数は同じである。例えば、表1から分かるように、各残差モジュールres1からRes9は第二畳み込みユニットによる畳み込みおよび第二活性化ユニットによる処理が含まれる同じ処理を実行してもよい。第二畳み込みカーネルは3*3の畳み込みカーネルであってもよく、畳み込みのステップサイズは1としてもよいが、本開示はこれを具体的に限定しない。
具体的には、残差モジュールRes1内の第二畳み込みユニットは256個の第二畳み込みカーネルによって入力された第一特徴行列の畳み込みを実行し、256個の画像の特徴情報を含むものに相当する第二畳み込み特徴を得る。第二畳み込み特徴を得てから、第二活性化ユニットを用いて処理し、例えば第二畳み込み特徴と第二活性化関数を乗算し、Res1の最終的な第二最適化特徴行列を得る。第二活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
それに対応して、二番目の残差モジュールRes2はRes1から出力した第二最適化特徴行列を受信し、その内部の第二畳み込みユニットを用いて256個の3*3の畳み込みカーネルである第二畳み込みカーネルによって該第二最適化特徴行列に、所定のステップサイズ(例えば1)に従って畳み込みを実行してもよい。残差モジュールRes2内の第二畳み込みユニットは256個の第二畳み込みカーネルによって入力された第二最適化特徴行列の畳み込みを実行し、256個の画像の特徴情報を含む第二畳み込み特徴を得る。第二畳み込み特徴を得てから、第二活性化ユニットを用いて処理を実行し、例えば第二畳み込み特徴と第二活性化関数を乗算し、Res2の最終的な第二最適化特徴行列を得る。第二活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
以降同様に、後続の各残差モジュールRes3〜9は、同様にステップサイズを1とし、いずれも256個の第二畳み込みカーネルによって直前の残差モジュールRes2〜8が出力した第二最適化特徴行列の畳み込みを実行し、さらに第二活性化ユニットを用いて出力された第二畳み込み特徴を処理し、Res3〜9の第二最適化特徴行列を得してもよい。Res9が出力した第二最適化特徴行列は残差ネットワークが出力した第二特徴行列となる。D4の第一最適化特徴行列は、第一特徴行列となる。
本開示の実施例では、各残差モジュールに採用される第二畳み込みカーネルは同じであってもよく、同じステップサイズで畳み込みを実行してもよく、各第二畳み込みユニットの畳み込みを実行するために採用される第二畳み込みカーネルの数も同じである。各残差モジュールによる処理は、いずれも画像の特徴情報をさらに豊富し、画像の信号対雑音比を向上させることができる。
S204によって第二特徴行列を得てから、その次の最適化プロセスによって第二特徴行列をさらに最適化し、出力結果を得てもよい。例えば該第二特徴行列をアップサンプリングネットワークに入力してもよい。アップサンプリングネットワークは第二特徴行列の第三の最適化プロセス群を実行でき、深度特徴情報をさらに豊富することができる。アップサンプリング処理プロセスを実行する時、ダウンサンプリング処理プロセスで得られた特徴行列によって第二特徴行列にアップサンプリング処理を実行して最適化特徴行列を得てもよい。例えばダウンサンプリング処理時に得られた第一最適化特徴行列によって第二特徴行列に最適化処理を実行する。
図6は本開示の実施例に係る画像処理方法における第三の最適化プロセス群の例示的フローチャートを示す。前記第二特徴行列に第三の最適化プロセス群を実行し、出力結果を得ることは、
S2051:一番目の第三サブ最適化プロセスによって前記第二特徴行列の第三畳み込み処理を実行し、第三畳み込み特徴を得て、該第三畳み込み特徴に第三非線形マッピング処理を実行することで一番目の第三サブ最適化プロセスに対する第三最適化特徴行列を得ることと、
S2052:k−1番目の第三サブ最適化プロセスで得られた第三最適化特徴行列およびG−k+2番目の第一サブ最適化プロセスで得られた第一最適化特徴行列をk番目の第三サブ最適化プロセスの入力情報とし、k番目の第三サブ最適化プロセスによって該入力情報の第三畳み込み処理を実行し、該第三畳み込み処理によって得られた第三畳み込み特徴に第三非線形マッピング処理を実行することでk番目の第三サブ最適化プロセスに対する第三最適化特徴行列を得ることと、
S2053:G番目の第三サブ最適化プロセスが出力した第三最適化特徴行列に基づいて前記出力結果に対応する最適化特徴行列を特定することと、を含み、ここでkは1よりも大きくかつG以下の正整数であり、Gは第三サブ最適化プロセスの数を表す。
本開示の実施例はアップサンプリングネットワークによってS205のプロセスを実行してもよい。アップサンプリングネットワークは単独のニューラルネットワークであってもよいし、またはニューラルネットワークにおける一部のネットワーク構造であってもよく、本開示はこれを具体的に限定しない。本開示の実施例におけるアップサンプリングネットワークが実行する第三の最適化プロセス群は最適化処理の一つの最適化プロセスとして、例えば残差ネットワークに対応する最適化プロセスの後の最適化プロセスであってもよく、第二特徴行列をさらに最適化してもよい。該プロセスは、出力された第二特徴行列を処理するために、複数の第三サブ最適化プロセスを含んでもよく、例えばアップサンプリングネットワークは順に接続される複数のアップサンプリングモジュールを含み、各アップサンプリングモジュールは第三畳み込みユニットおよび第三畳み込みユニットと接続される第三活性化ユニットを含んでもよい。それに対応して、S205での第三の最適化プロセス群はそれぞれが第三畳み込み処理および第三非線形マッピング処理を含む複数の第三サブ最適化プロセスを含み、つまり各アップサンプリングモジュールは一つの第三サブ最適化プロセスを実行し、アップサンプリングモジュール内の第三畳み込みユニットは上記第三畳み込み処理を実行し、第三活性化ユニットは上記第三非線形マッピング処理を実行してもよい。
一番目の第三サブ最適化プロセスによってS204で得られた第二特徴行列の第一畳み込み処理を実行し、対応する第三畳み込み特徴を得て、第三活性化関数により該第三畳み込み特徴の第一非線形マッピング処理を実行し、例えば、第三活性化関数と該第三畳み込み特徴を乗算し、最終的に該一番目の第三サブ最適化プロセスの第三最適化特徴行列を得るか、または第三畳み込み特徴を第三活性化関数の対応するパラメータに代入し、活性化関数処理結果(第三最適化特徴行列)を得てもよい。それに対応して、該一番目の第三サブ最適化プロセスで得られた第三最適化特徴行列を二番目の第三サブ最適化プロセスの入力とし、二番目の第三サブ最適化プロセスによって一番目の第三サブ最適化プロセスの第三最適化特徴行列に第三畳み込み処理を行い、対応する第三畳み込み特徴を得て、第三活性化関数により該第三畳み込み特徴の第三活性化処理を実行し、該二番目の第三サブ最適化プロセスの第三最適化特徴行列を得てもよい。
以降同様に、k番目の第三サブ最適化プロセスによってk−1番目の第三サブ最適化プロセスで得られた第三最適化特徴行列の第三畳み込み処理を実行し、該第三畳み込み処理によって得られた第三畳み込み特徴に第三非線形マッピング処理を実行することでk番目の第三サブ最適化プロセスに対する第三最適化特徴行列を得て、G番目の第三サブ最適化プロセスで得られた第三最適化特徴行列に基づいて前記出力結果に対応する最適化特徴行列を特定してもよく、ここでkは1よりも大きくかつG以下の正整数であり、Gは第三サブ最適化プロセスの数を表す。
または、別のいくつかの可能な実施形態では、二番目の第三サブ最適化プロセスから、k−1番目の第三サブ最適化プロセスで得られた第三最適化特徴行列およびG−k+2番目の第一サブ最適化プロセスで得られた第一最適化特徴行列をk番目の第三サブ最適化プロセスの入力情報とし、k番目の第三サブ最適化プロセスによって該入力情報の第三畳み込み処理を実行し、該第三畳み込み処理によって得られた第三畳み込み特徴に第三非線形マッピング処理を実行することでk番目の第三サブ最適化プロセスに対する第三最適化特徴行列を得て、G番目の第三サブ最適化プロセスが出力した第三最適化特徴行列に基づいて前記出力結果に対応する最適化特徴行列を特定してもよく、ここでkは1よりも大きくかつG以下の正整数であり、Gは第三サブ最適化プロセスの数を表し、そのうち、前記第三サブ最適化プロセスの数は前記第一の最適化プロセス群に含まれる第一サブ最適化プロセスの数と同じである。
つまり、一番目の第三サブ最適化プロセスで得られた第三最適化特徴行列、およびG番目の第一サブ最適化プロセスで得られた第一特徴行列を、二番目の第三サブ最適化プロセスに入力し、二番目の第三サブ最適化プロセスによって入力情報に第三畳み込み処理を行い、第三畳み込み特徴を得て、第三活性化関数により該第三畳み込み特徴に非線形関数マッピング処理を行い、二番目の第三サブ最適化プロセスで得られた第三最適化特徴行列を得てもよい。さらに二番目の第三サブ最適化プロセスで得られた第三最適化特徴行列およびG−1番目の第一サブ最適化プロセスで得られた第一最適化特徴行列を三番目の第三サブ最適化プロセスに入力し、第三畳み込み処理および第三活性化関数処理を実行し、三番目の第三サブ最適化プロセスに対する第三最適化特徴行列を得て、以降同様に処理して、最後の第三サブ最適化プロセスに対応する第三最適化特徴行列、即ち出力結果に対応する最適化特徴行列を得る。
各前記アップサンプリングプロセスの第一畳み込み処理を実行する時、各第三畳み込み処理に採用される第三畳み込みカーネルは同じであり、かつ少なくとも一つの第三サブ最適化プロセスの第三畳み込み処理に採用される第三畳み込みカーネルの数は他の第三サブ最適化の第三畳み込み処理に採用される第三畳み込みカーネルの数と異なる。即ち、本開示の実施例の各アップサンプリングプロセスに採用される畳み込みカーネルはいずれも第三畳み込みカーネルであるが、各第三サブ最適化プロセスに採用される第三畳み込みカーネルの数は異なってもよく、第三サブ最適化プロセスによって、適当な数の第三畳み込みカーネルを選択して第三畳み込み処理を実行してもよい。第三畳み込みカーネルは4*4の畳み込みカーネルであってもよいし、または他のタイプの畳み込みカーネルであってもよく、本開示はこれを限定しない。また、各アップサンプリングプロセスに採用される第三活性化関数は同じである。
本開示の実施例はアップサンプリングネットワークによって前記第二特徴行列に第三の最適化プロセス群を実行し、出力結果に対応する特徴行列を得てもよい。本開示の実施例では、アップサンプリングネットワークは順に接続される複数のアップサンプリングモジュールを含み、各アップサンプリングモジュールは第三畳み込みユニットおよび前記第三畳み込みユニットと接続される第三活性化ユニットを含んでもよい。
S204で取得した第二特徴行列をアップサンプリングネットワークにおける一番目のアップサンプリングモジュールに入力し、一番目のアップサンプリングモジュールが出力した第三最適化特徴行列を二番目のアップサンプリングモジュールに入力し、かつ、対応するダウンサンプリングモジュールから出力された第一最適化特徴行列も対応するアップサンプリングモジュールに入力するため、アップサンプリングモジュールは二つの入力特徴行列の畳み込みを同時に実行し、対応する第三最適化特徴行列を得て、以降同様に処理して、最後のアップサンプリングモジュールによって処理して第三特徴行列を出力することができる。
まずアップサンプリングネットワークにおける一番目のアップサンプリングモジュール内の第三畳み込みユニットを用いて第三畳み込みカーネルによって第二特徴行列に対する畳み込みを実行し、一番目のアップサンプリングモジュールに対応する第三畳み込み特徴を得てもよい。例えば本開示の実施例の第三畳み込みユニットに採用される第三畳み込みカーネルは4*4の畳み込みカーネルであってもよく、該畳み込みカーネルによって第二特徴行列に対する畳み込みを実行し、各画素点の畳み込み結果を累積し、最終的な第二畳み込み特徴を得てもよい。同時に、本開示の実施例では、各第三畳み込みユニットに採用される第三畳み込みカーネルの数は複数として、該複数の第三畳み込みカーネルによって第二特徴行列の第二の最適化プロセス群をそれぞれ実行し、さらに同じ画素点に対応する畳み込み結果を加算し、第三畳み込み特徴を得てもよい。該第三畳み込み特徴も実質的に行列形式である。第三畳み込み特徴を得てから、前記一番目のアップサンプリングモジュールの第三活性化ユニットを用いて第三活性化関数によって該第三畳み込み特徴を処理し、一番目のアップサンプリングモジュールに対する第三最適化特徴行列を得てもよい。即ち、本開示の実施例は第三畳み込みユニットが出力した第三畳み込み特徴を第三畳み込みユニットと接続される第三活性化ユニットに入力し、該第三活性化関数により第三畳み込み特徴を処理し、例えば第三活性化関数を第三畳み込み特徴で乗算し、一番目のアップサンプリングモジュールの第三最適化特徴行列を得てもよい。
さらに、一番目のアップサンプリングモジュールの第三最適化特徴行列を得てから、二番目のアップサンプリングモジュールを用いて一番目のアップサンプリングモジュールが出力した第三最適化特徴行列および対応するダウンサンプリングモジュールが出力した第一最適化特徴行列の畳み込みを行い、該二番目のアップサンプリングモジュールに対応する第三最適化特徴行列を得て、以降同様に、各アップサンプリングモジュールに対応する第三最適化特徴行列をそれぞれ得て、最終的に第三特徴行列を得てもよい。各アップサンプリングモジュール内の第三畳み込みユニットに採用される第三畳み込みカーネルは同じ畳み込みカーネル、例えばいずれも4*4の畳み込みカーネルであってもよく、本開示はこれを限定しないが、各ダウンサンプリングモジュール内の第三畳み込みユニットに採用される第三畳み込みカーネルの数は異なってもよく、このようにアップサンプリングのプロセスによって画像行列を、入力された元画像のサイズと同じである画像行列に徐々に変換し、特徴情報をさらに増やすことができる。
可能な一実施例では、アップサンプリングネットワークにおけるアップサンプリングモジュールはダウンサンプリングネットワークにおけるダウンサンプリングモジュールと数が同じであってもよく、対応するアップサンプリングモジュールとダウンサンプリングモジュールとは、k番目のアップサンプリングモジュールとG−k+2番目のダウンサンプリングモジュールとが対応するような対応関係にあってもよく、ここでkは1よりも大きい整数であり、Gはアップサンプリングモジュールの数、即ちダウンサンプリングモジュールの数である。例えば2番目のアップサンプリングモジュールに対応するダウンサンプリングモジュールはG番目のダウンサンプリングモジュールであり、3番目のアップサンプリングモジュールに対応するダウンサンプリングモジュールはG−1番目のダウンサンプリングモジュールであり、k番目のアップサンプリングモジュールに対応するダウンサンプリングモジュールはG−k+2番目のダウンサンプリングモジュールである。
表1に示すように、本開示の実施例は四つのアップサンプリングモジュールU1〜U4を含んでもよい。各アップサンプリングモジュールは第三畳み込みユニットおよび第三活性化ユニットを含んでもよい。本開示の実施例の各第三畳み込みユニットは同じ第三畳み込みカーネルによって入力された特徴行列に対する畳み込みを実行してもよいが、各第二畳み込みユニットの畳み込みを実行する第一畳み込みカーネルの数は異なってもよい。例えば、表1から分かるように、各アップサンプリングモジュールU1からU4は異なるアップサンプリングモジュールをそれぞれ用いて、第三畳み込みユニットによる畳み込みおよび第三活性化ユニットによる処理が含まれる第三の最適化プロセス群の処理を実行してもよい。第三畳み込みカーネルは4*4の畳み込みカーネルであってもよく、畳み込みのステップサイズは2としてもいが、本開示はこれを具体的に限定しない。
具体的には、一番目のアップサンプリングモジュールU1内の第三畳み込みユニットは256個の第三畳み込みカーネルによって入力された第二特徴行列の畳み込みを実行し、512個の画像の特徴情報を含むものに相当する第三畳み込み特徴を得る。第三畳み込み特徴を得てから、第三活性化ユニットを用いて処理を実行し、例えば第三畳み込み特徴と第三活性化関数を乗算し、U1の最終的な第三最適化特徴行列を得る。第三活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
それに対応して、二番目のアップサンプリングモジュールU2はU1から出力した第三最適化特徴行列およびD4から出力された第一特徴行列を受信し、その内部の第三畳み込みユニットを用いて128個の4*4の畳み込みカーネルである第二畳み込みカーネルによって該U1が出力した第三最適化特徴行列およびD4が出力した第一特徴行列に、所定のステップサイズ(例えば2)に従って畳み込みを実行してもよい。アップサンプリングモジュールU2内の第三畳み込みユニットは128個の第三畳み込みカーネルによって上記畳み込みを実行し、256個の画像の特徴情報を含む第三畳み込み特徴を得る。第三畳み込み特徴を得てから、第三活性化ユニットを用いて処理を実行し、例えば第三畳み込み特徴と第三活性化関数を乗算し、U2の最終的な第三最適化特徴行列を得る。第三活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
さらに、三番目のアップサンプリングモジュールU3はU2から出力した第三最適化特徴行列およびD3から出力された第一最適化特徴行列を受信し、その内部の第三畳み込みユニットを用いて64個の4*4の畳み込みカーネルである第二畳み込みカーネルによって該U2が出力した第三最適化特徴行列およびD3が出力した第一最適化特徴行列に、所定のステップサイズ(例えば2)に従って畳み込みを実行してもよい。アップサンプリングモジュールU3内の第三畳み込みユニットは64個の第三畳み込みカーネルによって上記畳み込みを実行し、128個の画像の特徴情報を含む第三畳み込み特徴を得る。第三畳み込み特徴を得てから、第三活性化ユニットを用いて処理を実行し、例えば第三畳み込み特徴と第三活性化関数を乗算し、U3の最終的な第三最適化特徴行列を得る。第三活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
さらに、四番目のアップサンプリングモジュールU4はU3から出力した第三最適化特徴行列およびD2から出力された第一最適化特徴行列を受信し、その内部の第三畳み込みユニットを用いて3個の4*4の畳み込みカーネルである第二畳み込みカーネルによって該U3が出力した第三最適化特徴行列およびD2が出力した第一最適化特徴行列に、所定のステップサイズ(例えば2)に従って畳み込みを実行してもよい。アップサンプリングモジュールU4内の第三畳み込みユニットは3個の第三畳み込みカーネルによって上記畳み込みを実行し、第三畳み込み特徴を得る。第三畳み込み特徴を得てから、第三活性化ユニットを用いて処理を実行し、例えば第三畳み込み特徴と第三活性化関数を乗算し、U4の最終的な第三最適化特徴行列を得る。第三活性化ユニットによって処理することで、特徴情報をより豊富にすることができる。
本開示の実施例では、各アップサンプリングモジュールに採用される第三畳み込みカーネルは同じであってもよく、同じステップサイズで畳み込みを実行してもよく、かつ各第三畳み込みユニットの畳み込みを実行するために採用された第三畳み込みカーネルの数は異なっても良い。各アップサンプリングモジュールによる処理は、いずれも画像の特徴情報をさらに豊富にし、画像の信号対雑音比をさらに向上させることができる。
最後のアップサンプリングモジュールによって処理して第三特徴行列を得て、該第三特徴行列は複数の元画像に対応する深度マップであってもよく、元画像と同じサイズを有し、豊富な特徴情報(深度情報など)を含み、画像の信号対雑音比を向上させることができるため、該第三特徴行列を利用すれば最適化後の最適化画像を得ることができる。
また、ニューラルネットワークが出力した第三特徴行列は複数の元画像にそれぞれ対応する最適化後の画像の特徴行列であってもよく、該第三特徴行列によって対応する複数の最適化画像を得てもよい。最適化画像は元画像に比べ、より正確な特徴値を有するので、得られた元画像によって最適化された深度マップを得ることができる。
本開示の実施例では、ダウンサンプリングネットワーク、アップサンプリングネットワークおよび残差ネットワークによって画像最適化のプロセスを行う前に、さらに訓練データを利用して各ネットワークを訓練してもよい。本開示の実施例は上記ダウンサンプリングネットワーク、アップサンプリングネットワークおよび残差ネットワークに基づいて画像情報のニューラルネットワークを構築し、該ニューラルネットワークに第一訓練画像を入力してニューラルネットワークを訓練してもよい。本開示の実施例のニューラルネットワークは訓練して得られた敵対的生成ネットワークのうちの生成ネットワークである。
いくつかの可能な実施形態では、ニューラルネットワークによって元画像の深度マップを直接出力可能である場合、ニューラルネットワークを訓練する時、複数の訓練サンプルを含む訓練サンプルセットをニューラルネットワークに入力してもよく、そのうち各訓練サンプルは複数の第一サンプル画像、及び複数の第一サンプル画像に対応する実深度マップを含んでもよい。ニューラルネットワークによって入力された訓練サンプルを最適化処理し、各訓練サンプルに対応する予測深度マップを得る。実深度マップと予測深度マップとの差異によってネットワーク損失を得て、該ネットワーク損失に基づいてネットワークパラメータを、訓練要件を満たすまで調整してもよい。訓練要件は、実深度マップと予測深度マップとの差異によって特定されたネットワーク損失が損失閾値よりも小さいことであり、該損失閾値は予め設定された値、例えば0.1であってもよく、本開示はこれを具体的に限定しない。ネットワーク損失は下式で表されてもよい。
Figure 2021531566

ここで、
Figure 2021531566

はネットワーク損失(即ち深度損失)を表し、Nは元画像の次元(N*N次元)を表し、iおよびjはそれぞれ画素点の位置を表し、
Figure 2021531566

は実深度マップにおける第i行第j列の画素点の実深度値を表し、
Figure 2021531566

は予測深度マップにおける第i行第j列の画素点の予測深度値を表し、iおよびjはそれぞれ1以上N以下の整数である。
以上によって、ニューラルネットワークのネットワーク損失を得て、該ネットワーク損失に基づいてニューラルネットワークのパラメータを、ネットワーク損失が損失閾値よりも小さくなるまでフィードバックして調整した場合、訓練要件を満たし、得られたニューラルネットワークにより元画像に対応する深度マップを正確に得ることが特定できる。
また、ニューラルネットワークによって元画像に対応する最適化画像を得る場合、本開示の実施例は深度損失および画像損失に基づいてニューラルネットワークの訓練プロセスを監視してもよい。図7は本開示の実施例に係る画像処理方法の別のフローチャートを示す。図5に示すように、本開示の実施例の前記方法はさらにニューラルネットワークの訓練プロセスを含み、ニューラルネットワークの訓練プロセスは以下のステップを含んでもよい。
S401:訓練サンプルセットを取得する。前記訓練サンプルセットは複数の訓練サンプルを含み、各訓練サンプルは複数の第一サンプル画像、複数の第一サンプル画像に対応する複数の第二サンプル画像、および複数の第二サンプル画像に対応する深度マップを含んでもよく、第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は第一サンプル画像よりも信号対雑音比が高い。
S402:前記ニューラルネットワークによって前記訓練サンプルセットに前記最適化処理を実行し、前記訓練サンプルセット内の第一サンプル画像に対する最適化結果を得て、ひいては第一ネットワーク損失および第二ネットワーク損失を得る。前記第一ネットワーク損失は、前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、前記第二ネットワーク損失は、前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られる。
S403:前記第一ネットワーク損失および第二ネットワーク損失に基づいてニューラルネットワークのネットワーク損失を得て、前記ネットワーク損失に基づいて前記ニューラルネットワークのパラメータを、所定の要件を満たすまで調整する。
本開示の実施例はニューラルネットワークに複数の訓練サンプルを入力してもよく、各訓練サンプルは複数の低信号対雑音比の画像(第一サンプル画像)、例えば低露光率で取得した画像情報であってもよい。該第一サンプル画像はEPC660 ToFカメラおよびSonyのIMX316 Minikit開発キットによって、実験室、事務室、寝室、応接室、食堂などの異なるシーンにおいて収集されてもよく、本開示は収集機器および収集シーンを具体的に限定せず、低露光率での第一訓練画像を得ることができれば、本開示の実施例とすることができる。本開示の実施例における第一サンプル画像は200(または他の数)個のデータ群を含んでもよく、各データ群は露光時間がそれぞれ200us、400usなどの低露光時間および正常な露光時間または長露光時間でのToF元測定データ、深度マップ、振幅像を含み、そのうちToF元測定データは第一サンプル画像とすることができる。例えばダウンサンプリングネットワーク、残差ネットワークおよびアップサンプリングネットワークによって訓練サンプルにおける複数の第一サンプル画像の最適化プロセスを実行し、最終的に各第一サンプル画像にそれぞれ対応する最適化特徴行列、即ち予測最適化画像を得るように、ニューラルネットワークでの最適化処理によって対応する最適化特徴行列を得てもよい。本開示の実施例は第一サンプル画像に対応する最適化特徴行列を標準特徴行列と比較し、つまり予測最適化画像を対応する第二サンプル画像と比較して、両者の差異を特定してもよい。標準特徴行列は第一訓練画像における各画像に対応する第二サンプル画像の特徴行列、即ち正確な特徴情報(位相、振幅、画素値などの情報)を有する画像特徴行列である。予測した最適化特徴行列を標準特徴行列と比較することで、ニューラルネットワークの第一ネットワーク損失を特定することができる。
各訓練サンプルに4つの第一サンプル画像が含まれることを例にして説明する場合、第一ネットワーク損失は下式で表されてもよい。
Figure 2021531566

ここで、
Figure 2021531566

は第一ネットワーク損失を表し、Nは第一サンプル画像、第二サンプル画像、予測最適化画像の次元(N*N)を表し、
Figure 2021531566


Figure 2021531566


Figure 2021531566

および
Figure 2021531566

は訓練サンプルにおける4つの第一サンプル画像の第i行第j列の実特徴値をそれぞれ表し、
Figure 2021531566


Figure 2021531566


Figure 2021531566

および
Figure 2021531566

は4つの第一サンプル画像に対応する4つの予測最適化画像の第i行第j列の予測特徴値をそれぞれ表す。
上記方法によって第一ネットワーク損失を得ることができる。また、訓練サンプルにおける各第一サンプル画像に対応する予測最適化画像を得た場合、得られた予測最適化画像に基づいて該複数の第一サンプル画像に対応する予測深度マップをさらに特定し、即ち予測最適化画像に後処理を実行してもよく、具体的な方法は式1に特定されたものを参照すればよい。
それに対応して、予測深度マップを得てから、第二ネットワーク損失、即ち深度損失をさらに特定してもよく、具体的には上式2に基づいて第二ネットワーク損失を得ることができ、ここでは説明を省略する。
第一ネットワーク損失および第二ネットワーク損失を得てから、第一ネットワーク損失と第二ネットワーク損失との加重和によってニューラルネットワークのネットワーク損失を得てもよく、ニューラルネットワークのネットワーク損失は下式で表される。
Figure 2021531566

ここで、Lはニューラルネットワークのネットワーク損失を表し、
Figure 2021531566

および
Figure 2021531566

はそれぞれ第一ネットワーク損失および第二ネットワーク損失の重みであり、重み値は必要に応じて設定してもよく、例えば全て1に設定してもよいし、または
Figure 2021531566


Figure 2021531566

との和を1にするように設定してもよく、本開示はこれを具体的に限定しない。
可能な一実施形態では、得られたネットワークパラメータに基づいてニューラルネットワークに採用されるパラメータ、例えば畳み込みカーネルパラメータ、活性化関数パラメータなどをフィードバックして調整してもよい。例えば、ダウンサンプリングネットワーク、残差ネットワークおよびアップサンプリングネットワークのパラメータを調整してもよいか、または該差異を適合度関数に入力し、得られたパラメータ値に基づいて最適化処理プロセスのパラメータ、およびダウンサンプリングネットワーク、残差ネットワークおよびアップサンプリングネットワークのパラメータを調整してもよい。その後、パラメータ調整後のニューラルネットワークによって訓練サンプルを改めて最適化処理し、新たな最適化結果を得る。このように、得られたネットワーク損失が予め設定された訓練要件、例えばネットワーク損失が予め設定された損失閾値よりも小さくなることを満たすまで繰り返す。得られたネットワーク損失が予め設定された要件を満たす場合、ニューラルネットワークの訓練が完了し、該訓練が完了したニューラルネットワークによって低信号対雑音比の画像の最適化プロセスを実行することができ、高い最適化精度を得ることができる。
さらに、ニューラルネットワークの最適化精度をさらに保証するために、本開示の実施例は敵対的ネットワークによって訓練完了されたニューラルネットワークの最適化結果を検証し、該ネットワークをさらに最適化する必要がある判定結果であれば、ニューラルネットワークが高い最適化効果を達成したという敵対的ネットワークの判定結果になるまで、ニューラルネットワークのパラメータをさらに調整してもよい。
図8は本開示の実施例に係る画像処理方法の別のフローチャートを示す。本開示の実施例では、S502の後に、さらに以下のステップを含んでもよい。
S501:訓練サンプルセットを取得する。該訓練サンプルセットは複数の訓練サンプルを含み、各訓練サンプルは複数の第一サンプル画像および該複数の第一サンプル画像に対応する複数の第二サンプル画像、ならびに複数の第二サンプル画像に対応する深度マップを含んでもよい。
S502:前記ニューラルネットワークによって前記訓練サンプルに前記最適化処理を実行し、最適化結果を得る。
いくつかの可能な実施形態では、得られた最適化結果はニューラルネットワークによって得られた、第一サンプル画像に対応する予測最適化画像であってもよいし、または第一サンプル画像に対応する予測深度マップであってもよい。
S503:前記最適化結果および対応する監視サンプル(第二サンプル画像または深度マップ)を敵対的ネットワークに入力し、前記敵対的ネットワークによって該最適化結果と監視サンプルの真偽判定を行い、前記敵対的ネットワークにより生成される判定値が第一判定値である場合、前記敵対的ネットワークの前記第一最適化画像および前記標準画像に対する判定値が第二判定値になるまで、前記最適化処理プロセスに採用されるパラメータをフィードバックして調整する。
本開示の実施例では、S401〜S403によってニューラルネットワークを訓練してから、さらに敵対的ネットワークによって生成されたネットワーク(ニューラルネットワーク)をさらに最適化してもよく、S501での訓練サンプルセットはS401での訓練サンプルセットと同じであってもよく、異なってもよく、本開示はこれを限定しない。
ニューラルネットワークによって訓練サンプルセット内の訓練サンプルの最適化結果を得た場合、該最適化結果及び対応する監視サンプル(即ちリアルで明瞭な第二サンプル画像または深度マップ)を敵対的ネットワークに入力してもよい。敵対的ネットワークは最適化結果および監視サンプルの真偽判定を行い、つまり両者の差異が第三閾値よりも小さければ、第二判定値、例えば1を出力してもよい。この場合、最適化後のニューラルネットワークの最適化精度が高く、敵対的ネットワークが最適化結果と監視サンプルとの真偽を区別できず、ニューラルネットワークをさらに訓練する必要がないことを示す。
最適化結果と監視サンプルとの差異が第三閾値以上である場合、敵対的ネットワークは第一判定値、例えば0を出力してもよい。この場合、最適化後のニューラルネットワークの最適化精度があまり高くなく、敵対的ネットワークが最適化結果と監視サンプルとを区別でき、ニューラルネットワークをさらに訓練する必要があることを示す。つまり、最適化結果と監視サンプルとの差異に基づいて、前記敵対的ネットワークの前記最適化結果および監視サンプルに対する判定値が第二判定値になるまで、前記ニューラルネットワークのパラメータをフィードバックして調整する必要がある。上記構成によって、画像ニューラルネットワークの最適化精度をさらに向上させることができる。
まとめると、本開示の実施例は深度撮影機能を有する電子機器、例えばToFカメラにおいて応用することができる。本開示の実施例によって低信号対雑音比の元画像データから深度マップを復元し、最適化後の画像に高解像度、高フレームレートを持たせるなどの効果があり、精度を損なうことなく該効果を実現することができる。本開示の実施例が提供する方法は無人運転システムのToFカメラモジュールに応用し、より長い探測距離およびより高い探測精度を実現することができる。また、本開示の実施例はスマートフォンおよびスマートセキュリティ監視に応用することができる。測定精度に影響することなくモジュールの消費電力を低減し、ToFモジュールを、スマートフォンおよびセキュリティ監視の持続動作能力に影響しないようにすることができる。
また、本開示の実施例は画像処理方法をさらに提供し、図9は本開示の実施例に係る画像処理方法の別のフローチャートを示す。前記画像処理方法は以下のステップを含んでもよい。
S10:飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得する。
S20:ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、前記複数の元画像に対応する深度マップを得る。ここで、ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は対応する前記第一サンプル画像よりも信号対雑音比が高い。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力することと、前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得ることと、を含む。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力することを含む。
いくつかの可能な実施形態では、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得ることを含む。
いくつかの可能な実施形態では、前記方法はさらに、前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得ることを含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることを含む。
いくつかの可能な実施形態では、前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、
前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得ることと、
第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行う(nは1よりも大きくかつQよりも小さい整数である)ことと、
第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得ることと、を含む。
いくつかの可能な実施形態では、前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得ることと、前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得ることと、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることと、を含み、前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られる。いくつかの可能な実施形態では、前記方法は、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得る前に、さらに、
前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得ることを含む。
いくつかの可能な実施形態では、前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、そのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、お前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られる。
当業者であれば、具体的な実施形態の上記方法では、各ステップの記載順序は厳密にその順に従って実行することを限定するものではなく、実施プロセスを何ら限定するものではなく、各ステップの具体的な実行順序はその機能および可能な内部論理によって決定されるべきであることが理解可能である。
理解できるように、本開示で言及された上記各方法の実施例は、原理や論理を違反しない限り、互いに組み合わせて実施例を形成することができ、紙幅に限りがあるため、本開示はその説明を省略する。
また、本開示は画像処理装置、電子機器、コンピュータ読み取り可能記憶媒体、プログラムをさらに提供し、いずれも本開示が提供する任意の画像処理方法を実現するために用いることができ、対応する技術的解決手段および説明は方法の部分の対応する記載を参照すればよく、ここでは説明を省略する。
図10は本開示の実施例に係る画像処理装置のブロック図を示す。図10に示すように、前記画像処理装置は、
飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得するための取得モジュール10と、
ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得るための最適化モジュール20と、を含む。
いくつかの可能な実施形態では、前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力し、前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得るために用いられる。
いくつかの可能な実施形態では、前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力するために用いられる。
いくつかの可能な実施形態では、前記最適化モジュールはさらに、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得るために用いられる。
いくつかの可能な実施形態では、前記装置はさらに、前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得るための前処理モジュールを含み、前記最適化モジュールはさらに、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得るために用いられる。
いくつかの可能な実施形態では、前記最適化モジュールが実行する前記最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、前記最適化モジュールはさらに、前記元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して該第一の最適化プロセス群に対する最適化特徴行列を得るために、および第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行い、または前のn個の最適化プロセス群が出力した最適化特徴行列を、第n+1の最適化プロセス群の入力情報として最適化処理を行い、第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得るために用いられ、ここで、nは1よりも大きくかつQよりも小さい整数であり、Qは最適化プロセス群の数である。
いくつかの可能な実施形態では、前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、前記最適化モジュールは、前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得るための第一最適化ユニットと、前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得るための第二最適化ユニットと、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得るための第三最適化ユニットと、を含み、前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られる。
いくつかの可能な実施形態では、前記第三最適化ユニットはさらに、前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得るために用いられる。
いくつかの可能な実施形態では、前記ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は前記第一サンプル画像よりも信号対雑音比が高く、前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、そのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られる。
図11は本開示の実施例に係る画像処理装置の別のブロック図を示す。前記画像処理装置は、
飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得するための取得モジュール100と、
ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、前記複数の元画像に対応する深度マップを得るための最適化モジュール200と、を含んでもよい。ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は対応する前記第一サンプル画像よりも信号対雑音比が高い。
いくつかの可能な実施形態では、前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力し、前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得るために用いられる。
いくつかの可能な実施形態では、前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力するために用いられる。
いくつかの可能な実施形態では、前記最適化モジュールはさらに、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得るために用いられる。
いくつかの可能な実施形態では、前記装置はさらに、前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得るための前処理モジュールを含み、前記最適化モジュールはさらに、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得るために用いられる。
いくつかの可能な実施形態では、前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、前記最適化モジュールはさらに、前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得るために、第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行う(nは1よりも大きくかつQよりも小さい整数である)ために、及び第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得るために用いられる。
いくつかの可能な実施形態では、前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、前記最適化モジュールは、前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得るための第一最適化ユニットと、前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得るための第二最適化ユニットと、を含み、前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られる。
いくつかの可能な実施形態では、前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、そのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られる。
いくつかの実施例では、本開示の実施例が提供する装置が有する機能または含むモジュールは上記方法の実施例に記載の方法を実行するために用いることができ、その具体的な実現は上記方法の実施例の説明を参照すればよく、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。
本開示の実施例はさらに、コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令はプロセッサに実行される時に上記方法を実現するコンピュータ読み取り可能記憶媒体を提供する。コンピュータ読み取り可能記憶媒体は非揮発性コンピュータ読み取り可能記憶媒体または揮発性コンピュータ読み取り可能記憶媒体を含んでもよい。
本開示の実施例はさらに、上記方法を実行するように構成されたプロセッサおよびプロセッサにより実行可能な命令を記憶するためのメモリを含む電子機器を提供する。
本開示の実施例はさらに、コンピュータ読み取り可能コードを含み、前記コンピュータコードが電子機器において運用される時、前記電子機器内のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。
電子機器は端末、サーバまたは他の形態の機器として提供されてもよい。
図12は本開示の実施例に係る電子機器のブロック図を示す。例えば、電子機器800は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信装置、ゲームコンソール、タブレットデバイス、医療機器、フィットネス機器、パーソナルデジタル端末などの端末であってもよい。
図12を参照すると、電子機器800は、処理コンポーネント802、メモリ804、電源コンポーネント806、マルチメディアコンポーネント808、オーディオコンポーネント810、入力/出力(I/O)インタフェース812、センサコンポーネント814、および通信コンポーネント816のうちの一つ以上を含んでもよい。
処理コンポーネント802は通常、電子機器800の全体的な動作、例えば表示、電話呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント802は、命令を実行して上記方法の全てまたは一部のステップを実行するために、一つ以上のプロセッサ820を含んでもよい。また、処理コンポーネント802は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント802は、マルチメディアコンポーネント808とのインタラクションのために、マルチメディアモジュールを含んでもよい。
メモリ804は電子機器800での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器800において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ804は、例えば静的ランダムアクセスメモリ(SRAM)、電気的消去可能プログラマブル読み取り専用メモリ(EEPROM)、消去可能なプログラマブル読み取り専用メモリ(EPROM)、プログラマブル読み取り専用メモリ(PROM)、読み取り専用メモリ(ROM)、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどのあらゆるタイプの揮発性または非揮発性記憶機器またはそれらの組み合わせによって実現できる。
電源コンポーネント806は電子機器800の各コンポーネントに電力を供給する。電源コンポーネント806は電源管理システム、一つ以上の電源、および電子機器800のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。
マルチメディアコンポーネント808は前記電子機器800とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ(LCD)およびタッチパネル(TP)を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現されてもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを検知するために、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント808は一つの前面カメラおよび/または後面カメラを含む。電子機器800が動作モード、例えば写真モードまたは撮影モードになる場合、前面カメラおよび/または後面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび後面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。
オーディオコンポーネント810はオーディオ信号を出力および/または入力するように構成される。例えば、オーディオコンポーネント810は、マイク(MIC)を含み、マイク(MIC)は電子機器800が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ804に記憶されるか、または通信コンポーネント816によって送信されてもよい。いくつかの実施例では、オーディオコンポーネント810はさらに、オーディオ信号を出力するためのスピーカーを含む。
I/Oインタフェース812は処理コンポーネント802と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。
センサコンポーネント814は電子機器800の各面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント814は電子機器800のオン/オフ状態、例えば電子機器800の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント814はさらに、電子機器800または電子機器800のあるコンポーネントの位置の変化、ユーザと電子機器800との接触の有無、電子機器800の方位または加減速および電子機器800の温度変化を検出できる。センサコンポーネント814は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成された近接センサを含んでもよい。センサコンポーネント814はさらに、CMOSまたはCCD画像センサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント814はさらに、加速度センサ、ジャイロスコープセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。
通信コンポーネント816は電子機器800と他の機器との有線または無線通信を実現するように配置される。電子機器800は通信規格に基づく無線ネットワーク、例えばWiFi、2Gまたは3G、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント816は放送チャネルによって外部の放送管理システムの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント816はさらに、近距離通信を促進させるために、近距離無線通信(NFC)モジュールを含む。例えば、NFCモジュールは無線周波数識別(RFID)技術、赤外線データ協会(IrDA)技術、超広帯域(UWB)技術、ブルートゥース(登録商標)(BT)技術および他の技術によって実現できる。
例示的な実施例では、電子機器800は一つ以上の特定用途向け集積回路(ASIC)、デジタル信号プロセッサ(DSP)、デジタル信号処理デバイス(DSPD)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いることができる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ804が提供され、上記コンピュータプログラム命令は電子機器800のプロセッサ820によって実行される時上記方法を実行することができる。
図13は本開示の実施例に係る別の電子機器のブロック図を示す。例えば、電子機器1900はサーバとして提供されてもよい。図13を参照すると、電子機器1900は、一つ以上のプロセッサを含む処理コンポーネント1922、および、処理コンポーネント1922によって実行可能な命令、例えばアプリケーションプログラムを記憶するための、メモリ1932を代表とするメモリ資源を含む。メモリ1932に記憶されたアプリケーションプログラムはそれぞれが1つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント1922は命令を実行することによって上記方法を実行するように構成される。
電子機器1900はさらに、電子機器1900の電源管理を実行するように構成された電源コンポーネント1926、電子機器1900をネットワークに接続するように構成された有線または無線ネットワークインタフェース1950、および入出力(I/O)インタフェース1958を含んでもよい。電子機器1900はメモリ1932に記憶されたオペレーティングシステム、例えばWindows ServerTM、Mac OS XTM、UnixTM、Linux(登録商標)、FreeBSDTMまたは類似するものに基づいて動作できる。
例示的な実施例では、さらに、非揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ1932が提供され、上記コンピュータプログラム命令は電子機器1900の処理コンポーネント1922によって実行される時上記方法を実行することができる。
本開示はシステム、方法および/またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品はプロセッサに本開示の各態様を実現させるためのコンピュータ読み取り可能プログラム命令が有しているコンピュータ読み取り可能記憶媒体を含んでもよい。
コンピュータ読み取り可能記憶媒体は命令実行装置に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ読み取り可能記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ読み取り可能記憶媒体のさらに具体的な例(非網羅的リスト)としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROMまたはフラッシュ)、静的ランダムアクセスメモリ(SRAM)、携帯型コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ読み取り可能記憶媒体は瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波(例えば、光ファイバーケーブルを通過するパルス光)、または電線を経由して伝送される電気信号と解釈されるものではない。
ここで記述したコンピュータ読み取り可能プログラム命令はコンピュータ読み取り可能記憶媒体から各計算/処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび/または無線ネットワークによって外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび/またはエッジサーバを含んでもよい。各計算/処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ読み取り可能プログラム命令を受信し、該コンピュータ読み取り可能プログラム命令を転送し、各計算/処理機器内のコンピュータ読み取り可能記憶媒体に記憶させる。
本開示の動作を実行するためのコンピュータプログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk、C++などのオブジェクト指向プログラミング言語、および「C」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含む一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ読み取り可能プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、(例えばインターネットサービスプロバイダを利用してインターネットを経由して)外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ読み取り可能プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)またはプログラマブル論理アレイ(PLA)などの電子回路をパーソナライズし、該電子回路によりコンピュータ読み取り可能プログラム命令を実行するにより、本開示の各方面を実現するようにしてもよい。
なお、ここで本開示の実施例に係る方法、装置(システム)およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照しながら本開示の各方面を説明したが、フローチャートおよび/またはブロック図の各ブロックおよびフローチャートおよび/またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ読み取り可能プログラム命令によって実現できることを理解すべきである。
これらのコンピュータ読み取り可能プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供されて、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される時フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現ように装置を製造してもよい。また、これらのコンピュータ読み取り可能プログラム命令は、コンピュータ読み取り可能記憶媒体に記憶し、コンピュータ、プログラマブルデータ処理装置および/または他の機器を特定の方式で動作させるようにしてもよい。命令を記憶しているコンピュータ読み取り可能記憶媒体に、フローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作の各態様を実現するための命令を有する製品を含む。
コンピュータ読み取り可能プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードし、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成し、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令によりフローチャートおよび/またはブロック図の一つ以上のブロックにおいて指定された機能/動作を実現する。
図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は図面に付した順序と異なって実現してもよい。例えば、二つの連続的なブロックは実質的に同時に実行してもよく、また、係る機能によって、逆な順序で実行してもよい場合がある。なお、ブロック図および/またはフローチャートにおける各ブロック、およびブロック図および/またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。
以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または市場における技術への技術的改善を好適に解釈するか、または他の当業者に本明細書に披露された各実施例を理解させるためのものである。

Claims (38)

  1. 飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得することと、
    ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得ることと、を含むことを特徴とする画像処理方法。
  2. ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力することと、
    前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得ることと、を含むことを特徴とする請求項1に記載の方法。
  3. ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力することを含むことを特徴とする請求項1に記載の方法。
  4. ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得ることを含むことを特徴とする請求項1から3の少なくとも一項に記載の方法。
  5. 前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得ることをさらに、含み、
    ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることを含むことを特徴とする請求項1から3の少なくとも一項に記載の方法。
  6. 前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、
    ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、
    前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得ることと、
    第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行う(nは1よりも大きくかつQよりも小さい整数である)ことと、
    第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得ることと、を含むことを特徴とする請求項1から5のいずれか一項に記載の方法。
  7. 前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、
    前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得ることと、
    前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得ることと、
    前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることと、を含み、
    前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られることを特徴とする請求項6に記載の方法。
  8. 前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることは、
    前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得ることを含むことを特徴とする請求項7に記載の方法。
  9. 前記ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は前記第一サンプル画像よりも信号対雑音比が高く、
    前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、
    前記ニューラルネットワークのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、
    前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、
    前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られることを特徴とする請求項1から8のいずれか一項に記載の方法。
  10. 飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得することと、
    ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、前記複数の元画像に対応する深度マップを得ることと、を含み、
    ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は対応する前記第一サンプル画像よりも信号対雑音比が高いことを特徴とする画像処理方法。
  11. ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力することと、
    前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得ることと、を含むことを特徴とする請求項10に記載の方法。
  12. ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力することを含むことを特徴とする請求項10に記載の方法。
  13. ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得ることを含むことを特徴とする請求項10から12の少なくとも一項に記載の方法。
  14. 前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得ることをさらに、含み、
    ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることは、
    前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得ることを含むことを特徴とする請求項1から3の少なくとも一項に記載の方法。
  15. 前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、
    ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、
    前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得ることと、
    第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行う(nは1よりも大きくかつQよりも小さい整数である)ことと、
    第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得ることと、を含むことを特徴とする請求項10から14のいずれか一項に記載の方法。
  16. 前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、ニューラルネットワークによって前記複数の元画像に最適化処理を実行することは、
    前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得ることと、
    前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得ることと、
    前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることと、を含み、
    前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られることを特徴とする請求項15に記載の方法。
  17. 前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得ることは、
    前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得ることを含むことを特徴とする請求項16に記載の方法。
  18. 前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、
    前記ニューラルネットワークのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、
    前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、
    前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られることを特徴とする請求項10から17のいずれか一項に記載の方法。
  19. 飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得するための取得モジュールと、
    ニューラルネットワークによって前記複数の元画像に対して、少なくとも一回の畳み込み処理および少なくとも一回の非線形関数マッピング処理を含む最適化処理を実行し、前記複数の元画像に対応する深度マップを得るための最適化モジュールと、を含むことを特徴とする画像処理装置。
  20. 前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力し、
    前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得るために用いられることを特徴とする請求項19に記載の装置。
  21. 前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力するために用いられることを特徴とする請求項19に記載の装置。
  22. 前記最適化モジュールはさらに、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得るために用いられることを特徴とする請求項19から22のいずれか一項に記載の方法。
  23. 前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得るための前処理モジュールをさらに含み、
    前記最適化モジュールはさらに、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得るために用いられることを特徴とする請求項19から21のいずれか一項に記載の装置。
  24. 前記最適化モジュールが実行する前記最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、かつ
    前記最適化モジュールはさらに、前記元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して該第一の最適化プロセス群に対する最適化特徴行列を得るために、および
    第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行い、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行い、第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得るために用いられ、
    nは1よりも大きくかつQよりも小さい整数であり、Qは最適化プロセス群の数であることを特徴とする請求項19から23のいずれか一項に記載の装置。
  25. 前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、前記最適化モジュールは、
    前記複数の元画像に前記ダウンサンプリング処理を実行し、前記複数の元画像の特徴情報を融合した第一特徴行列を得るための第一最適化ユニットと、
    前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得るための第二最適化ユニットと、
    前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得るための第三最適化ユニットと、を含み、
    前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られることを特徴とする請求項13または14に記載の装置。
  26. 前記第三最適化ユニットはさらに、前記ダウンサンプリング処理プロセスで得られた特徴行列により前記第二特徴行列に前記アップサンプリング処理を実行し、前記最適化特徴行列を得るために用いられることを特徴とする請求項25に記載の装置。
  27. 前記ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は前記第一サンプル画像よりも信号対雑音比が高く、
    前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、
    前記ニューラルネットワークのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、
    前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、
    前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られることを特徴とする請求項19から26のいずれか一項に記載の装置。
  28. 飛行時間TOFセンサによって1回の露光プロセスにおいて収集した、信号対雑音比が第一の値よりも低くかつ画像における同じ画素点に対応する位相パラメータ値が異なる複数の元画像を取得するための取得モジュールと、
    ニューラルネットワークによって前記複数の元画像に最適化処理を実行し、前記複数の元画像に対応する深度マップを得るための最適化モジュールと、を含み、
    ニューラルネットワークは訓練サンプルセットによって訓練して得られ、前記訓練サンプルセットに含まれる複数の訓練サンプルのうちの各訓練サンプルは複数の第一サンプル画像、前記複数の第一サンプル画像に対応する複数の第二サンプル画像および前記複数の第二サンプル画像に対応する深度マップを含み、前記第二サンプル画像および対応する第一サンプル画像は同一対象に対する画像であり、かつ第二サンプル画像は対応する前記第一サンプル画像よりも信号対雑音比が高いことを特徴とする画像処理装置。
  29. 前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、信号対雑音比が前記元画像よりも高い前記複数の元画像に対する複数の最適化画像を出力し、
    前記複数の最適化画像に後処理を行い、前記複数の元画像に対応する深度マップを得るために用いられることを特徴とする請求項28に記載の装置。
  30. 前記最適化モジュールはさらに、ニューラルネットワークによって前記複数の元画像に最適化処理を行い、前記複数の元画像に対応する深度マップを出力するために用いられることを特徴とする請求項28に記載の装置。
  31. 前記最適化モジュールはさらに、前記複数の元画像をニューラルネットワークに入力して最適化処理を行い、前記複数の元画像に対応する深度マップを得るために用いられることを特徴とする請求項28から30のいずれか一項に記載の装置。
  32. 前記複数の元画像に対して、画像キャリブレーション、画像補正、任意の二つの元画像間の線形処理、及び任意の二つの元画像間の非線形処理の少なくとも一つを含む前処理を実行し、前処理された前記複数の元画像を得るための前処理モジュールをさらに、含み、
    前記最適化モジュールはさらに、前処理された前記複数の元画像を前記ニューラルネットワークに入力して最適化処理を実行し、複数の前記元画像に対応する深度マップを得るために用いられることを特徴とする請求項28から30のいずれか一項に記載の装置。
  33. 前記ニューラルネットワークが実行する最適化処理は順に実行されるQ個の最適化プロセス群を含み、各最適化プロセス群は少なくとも一回の畳み込み処理および/または少なくとも一回の非線形マッピング処理を含み、
    前記最適化モジュールはさらに、
    前記複数の元画像を第一の最適化プロセス群の入力情報とし、前記第一の最適化プロセス群によって処理して前記第一の最適化プロセス群に対する最適化特徴行列を得るために、
    第nの最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うか、または前のn個の最適化プロセス群が出力した最適化特徴行列を第n+1の最適化プロセス群の入力情報として最適化処理を行うために(nは1よりも大きくかつQよりも小さい整数である)、
    第Qの最適化プロセス群により処理された最適化特徴行列に基づき、出力結果を得るために用いられることを特徴とする請求項28から32のいずれか一項に記載の装置。
  34. 前記Q個の最適化プロセス群は順に実行されるダウンサンプリング処理、残差処理およびアップサンプリング処理を含み、前記最適化モジュールは、
    前記第一特徴行列に前記残差処理を実行し、第二特徴行列を得るための第一最適化ユニットと、
    前記第二特徴行列に前記アップサンプリング処理を実行し、最適化特徴行列を得るための第二最適化ユニットと、を含み、
    前記ニューラルネットワークの出力結果は前記最適化特徴行列に基づいて得られることを特徴とする請求項33に記載の装置。
  35. 前記ニューラルネットワークは訓練によって得られた敵対的生成ネットワークのうちの生成ネットワークであり、
    前記ニューラルネットワークのネットワーク損失値は第一ネットワーク損失と第二ネットワーク損失との加重和であり、
    前記第一ネットワーク損失は前記ニューラルネットワークが前記訓練サンプルに含まれる複数の第一サンプル画像を処理することによって得た複数の予測最適化画像と、前記訓練サンプルに含まれる複数の第二サンプル画像との差異に基づいて得られ、
    前記第二ネットワーク損失は前記複数の予測最適化画像に後処理を行うことによって得られた予測深度マップと、前記訓練サンプルに含まれる深度マップとの差異に基づいて得られることを特徴とする請求項28から34のいずれか一項に記載の装置。
  36. 請求項1から9のいずれか一項に記載の方法または請求項10から18のいずれか一項に記載の方法を実行するように構成されたプロセッサ、および
    プロセッサにより実行可能な命令を記憶するためのメモリを含むことを特徴とする電子機器。
  37. コンピュータプログラム命令が記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラム命令はプロセッサに実行される時に請求項1から9のいずれか一項に記載の方法または請求項10から18のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能記憶媒体。
  38. コンピュータ読み取り可能コードを含み、前記コンピュータ読み取り可能コードが電子機器において運用される時、前記電子機器内のプロセッサに請求項1から9のいずれか一項に記載の方法または10から18のいずれか一項に記載の方法を実行させることを特徴とするコンピュータプログラム。
JP2021500554A 2018-12-14 2019-05-20 画像処理方法および装置、電子機器ならびに記憶媒体 Active JP7072119B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811536144.3 2018-12-14
CN201811536144.3A CN109658352B (zh) 2018-12-14 2018-12-14 图像信息的优化方法及装置、电子设备和存储介质
PCT/CN2019/087637 WO2020119026A1 (zh) 2018-12-14 2019-05-20 图像处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
JP2021531566A true JP2021531566A (ja) 2021-11-18
JP7072119B2 JP7072119B2 (ja) 2022-05-19

Family

ID=66114280

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021500554A Active JP7072119B2 (ja) 2018-12-14 2019-05-20 画像処理方法および装置、電子機器ならびに記憶媒体

Country Status (7)

Country Link
US (1) US20210110522A1 (ja)
JP (1) JP7072119B2 (ja)
KR (1) KR102538164B1 (ja)
CN (1) CN109658352B (ja)
SG (1) SG11202012776VA (ja)
TW (1) TWI717865B (ja)
WO (1) WO2020119026A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658352B (zh) * 2018-12-14 2021-09-14 深圳市商汤科技有限公司 图像信息的优化方法及装置、电子设备和存储介质
CN110426560B (zh) * 2019-06-28 2020-08-25 北京大学 一种脉冲阵列信号时空上采样器生成方法
KR102652117B1 (ko) * 2019-07-10 2024-03-27 삼성전자주식회사 이미지 보정 방법 및 이미지 보정 시스템
CN112532858A (zh) * 2019-09-18 2021-03-19 华为技术有限公司 一种图像处理方法、图像采集方法及相关装置
US11763450B1 (en) * 2019-11-14 2023-09-19 University Of South Florida Mitigating adversarial attacks on medical imaging understanding systems
CN111358430B (zh) * 2020-02-24 2021-03-09 深圳先进技术研究院 一种磁共振成像模型的训练方法及装置
CN111127371B (zh) * 2020-03-30 2020-07-07 南京安科医疗科技有限公司 图像增强参数自动优化方法、存储介质和x射线扫描装置
CN111612689B (zh) * 2020-05-28 2024-04-05 上海联影医疗科技股份有限公司 医学图像处理方法、装置、计算机设备和可读存储介质
CN111539899A (zh) * 2020-05-29 2020-08-14 深圳市商汤科技有限公司 图像修复方法及相关产品
TWI775128B (zh) * 2020-08-13 2022-08-21 蔡明勳 手勢控制裝置及其控制方法
CN112318107A (zh) * 2020-10-23 2021-02-05 西北工业大学 一种基于深度相机的大型零部件孔轴自动装配对中测量方法
CN114821288A (zh) * 2021-01-29 2022-07-29 中强光电股份有限公司 图像辨识方法以及无人机系统
CN116260983A (zh) * 2021-12-03 2023-06-13 华为技术有限公司 图像编解码方法和装置
US20230177173A1 (en) * 2021-12-05 2023-06-08 PUFsecurity Corporation Electronic device and method for performing permission management of storage device
CN114723691B (zh) * 2022-03-28 2022-12-23 江苏新之阳新能源科技有限公司 基于人工智能的液压系统漏油故障程度检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226745A (ja) * 2011-04-19 2012-11-15 Mitsubishi Electric Research Laboratories Inc 奥行き画像内の物体を検出する方法およびシステム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631403B (zh) * 2015-12-17 2019-02-12 小米科技有限责任公司 人脸识别方法及装置
CN105657402B (zh) * 2016-01-18 2017-09-29 深圳市未来媒体技术研究院 一种深度图恢复方法
US9760837B1 (en) * 2016-03-13 2017-09-12 Microsoft Technology Licensing, Llc Depth from time-of-flight using machine learning
US10841491B2 (en) 2016-03-16 2020-11-17 Analog Devices, Inc. Reducing power consumption for time-of-flight depth imaging
CN106295707B (zh) * 2016-08-17 2019-07-02 北京小米移动软件有限公司 图像识别方法和装置
KR102618542B1 (ko) * 2016-09-07 2023-12-27 삼성전자주식회사 ToF (time of flight) 촬영 장치 및 ToF 촬영 장치에서 깊이 이미지의 블러 감소를 위하여 이미지를 처리하는 방법
TWI607412B (zh) * 2016-09-10 2017-12-01 財團法人工業技術研究院 多維度尺寸量測系統及其方法
JP2018067294A (ja) * 2016-10-14 2018-04-26 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 学習データ作成支援方法、学習データ作成支援装置、およびプログラム
CN108229673B (zh) * 2016-12-27 2021-02-26 北京市商汤科技开发有限公司 卷积神经网络的处理方法、装置和电子设备
US11113800B2 (en) * 2017-01-18 2021-09-07 Nvidia Corporation Filtering image data using a neural network
US20180227566A1 (en) * 2017-02-06 2018-08-09 Microsoft Technology Licensing, Llc Variable field of view and directional sensors for mobile machine vision applications
US10360732B2 (en) * 2017-03-23 2019-07-23 Intel Corporation Method and system of determining object positions for image processing using wireless network angle of transmission
US10489887B2 (en) * 2017-04-10 2019-11-26 Samsung Electronics Co., Ltd. System and method for deep learning image super resolution
US10325184B2 (en) * 2017-04-12 2019-06-18 Youspace, Inc. Depth-value classification using forests
CN107358576A (zh) * 2017-06-24 2017-11-17 天津大学 基于卷积神经网络的深度图超分辨率重建方法
CN107992848B (zh) * 2017-12-19 2020-09-25 北京小米移动软件有限公司 获取深度图像的方法、装置及计算机可读存储介质
CN108492248A (zh) * 2018-01-30 2018-09-04 天津大学 基于深度学习的深度图超分辨率方法
CN108765333B (zh) * 2018-05-24 2021-08-10 华南理工大学 一种基于深度卷积神经网络的深度图完善方法
CN108961184B (zh) * 2018-06-28 2021-04-20 北京邮电大学 一种深度图像的校正方法、装置及设备
CN108846842B (zh) * 2018-07-04 2021-04-27 武汉斗鱼网络科技有限公司 一种图像噪声检测方法、装置及电子设备
CN109658352B (zh) * 2018-12-14 2021-09-14 深圳市商汤科技有限公司 图像信息的优化方法及装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012226745A (ja) * 2011-04-19 2012-11-15 Mitsubishi Electric Research Laboratories Inc 奥行き画像内の物体を検出する方法およびシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KURC,MACIEJ,ET AL.: "Transformation of Depth Maps Produced by ToF Cameras", 2014 INTERNATIONAL CONFERENCE ON SIGNALS AND ELECTRONIC SYSTEMS (ICSES), JPN6022013491, 13 September 2014 (2014-09-13), US, ISSN: 0004749238 *

Also Published As

Publication number Publication date
KR20210013149A (ko) 2021-02-03
KR102538164B1 (ko) 2023-05-30
TW202027033A (zh) 2020-07-16
WO2020119026A1 (zh) 2020-06-18
CN109658352B (zh) 2021-09-14
TWI717865B (zh) 2021-02-01
US20210110522A1 (en) 2021-04-15
SG11202012776VA (en) 2021-02-25
JP7072119B2 (ja) 2022-05-19
CN109658352A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
JP7072119B2 (ja) 画像処理方法および装置、電子機器ならびに記憶媒体
US20210326587A1 (en) Human face and hand association detecting method and a device, and storage medium
US11532180B2 (en) Image processing method and device and storage medium
CN111462268B (zh) 图像重建方法及装置、电子设备和存储介质
JP7125541B2 (ja) ビデオ修復方法および装置、電子機器、ならびに記憶媒体
US20210019562A1 (en) Image processing method and apparatus and storage medium
TWI706379B (zh) 圖像處理方法及裝置、電子設備和儲存介質
JP7026257B2 (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN109922372B (zh) 视频数据处理方法及装置、电子设备和存储介质
US20220262012A1 (en) Image Processing Method and Apparatus, and Storage Medium
JP2021528742A (ja) 画像処理方法及び装置、電子機器、並びに記憶媒体
JP2021516838A (ja) キーポイント検出方法、装置、電子機器及び記憶媒体
KR20210090238A (ko) 비디오 처리 방법 및 장치, 전자 기기, 및 기억 매체
TWI778313B (zh) 圖像處理方法、電子設備和儲存介質
CN109145970B (zh) 基于图像的问答处理方法和装置、电子设备及存储介质
EP4203459A1 (en) Method, apparatus, and device for determining exposure parameter of head-mounted device
CN113506229B (zh) 神经网络训练和图像生成方法及装置
CN111523555A (zh) 图像处理方法及装置、电子设备和存储介质
CN113506324B (zh) 图像处理方法及装置、电子设备和存储介质
CN113506321B (zh) 图像处理方法及装置、电子设备和存储介质
CN112200745A (zh) 遥感影像的处理方法及装置、电子设备和存储介质
CN110796202A (zh) 一种网络集成的训练方法及装置、电子设备和存储介质
CN113658038B (zh) 基于空间误差自适应的网络训练方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210108

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220509

R150 Certificate of patent or registration of utility model

Ref document number: 7072119

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150