JP7106665B2 - MONOCULAR DEPTH ESTIMATION METHOD AND DEVICE, DEVICE AND STORAGE MEDIUM THEREOF - Google Patents
MONOCULAR DEPTH ESTIMATION METHOD AND DEVICE, DEVICE AND STORAGE MEDIUM THEREOF Download PDFInfo
- Publication number
- JP7106665B2 JP7106665B2 JP2020546428A JP2020546428A JP7106665B2 JP 7106665 B2 JP7106665 B2 JP 7106665B2 JP 2020546428 A JP2020546428 A JP 2020546428A JP 2020546428 A JP2020546428 A JP 2020546428A JP 7106665 B2 JP7106665 B2 JP 7106665B2
- Authority
- JP
- Japan
- Prior art keywords
- network model
- binocular
- image
- data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
(関連出願の相互参照)
本願は2018年05月22日に出願された、出願番号201810496541.6の中国特許出願に基づいて提出され、該中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
(Cross reference to related applications)
This application is filed based on and claims priority from Chinese Patent Application No. 201810496541.6, filed on May 22, 2018, the entire disclosure of which is incorporated herein by reference. .
本願の実施例は人工知能分野に関し、特に単眼深度推定方法およびその装置、機器ならびに記憶媒体に関する。 TECHNICAL FIELD Embodiments of the present application relate to the field of artificial intelligence, and more particularly to a monocular depth estimation method and its apparatus, apparatus and storage medium.
単眼深度推定はコンピュータビジョンにおける重要な課題であり、単眼深度推定の具体的なタスクは画像における画素点それぞれの深度を予測することである。そのうち、各画素点の深度値からなる画像は深度マップとも呼ばれる。単眼深度推定は自動運転における障害物検出、三次元シーン再構成、立体シーン解析に対して重要な意味を持っている。また、単眼深度推定は他のコンピュータビジョンタスク、例えば物体検出、ターゲット追跡およびターゲット識別の性能を間接的に向上させることができる。 Monocular depth estimation is an important problem in computer vision, and the specific task of monocular depth estimation is to predict the depth of each pixel point in an image. Among them, an image composed of depth values of each pixel point is also called a depth map. Monocular depth estimation has important implications for obstacle detection, 3D scene reconstruction, and 3D scene analysis in autonomous driving. Monocular depth estimation can also indirectly improve the performance of other computer vision tasks such as object detection, target tracking and target identification.
現時点での問題は単眼深度推定用のニューラルネットワークを訓練するために大量のラベル付きデータが必要であるが、ラベル付きデータを取得するコストが高い。室外環境ではレーザレーダによってラベル付きデータを取得できるが、取得したラベル付きデータは非常に疎であり、このようなラベル付きデータを用いて訓練した単眼深度推定ネットワークは明瞭なエッジを有さず小さな物体の正確な深度情報をキャプチャできない。 The current problem is that a large amount of labeled data is required to train a neural network for monocular depth estimation, but the cost of obtaining labeled data is high. Although labeled data can be obtained by laser radar in outdoor environments, the obtained labeled data is very sparse, and monocular depth estimation networks trained using such labeled data have small edges without clear edges. Inability to capture accurate depth information for objects.
本願の実施例は単眼深度推定方法およびその装置、機器ならびに記憶媒体を提供する。 Embodiments of the present application provide a monocular depth estimation method and its apparatus, apparatus and storage medium.
本願の実施例の技術的解決手段は以下のように実現する。 The technical solutions of the embodiments of the present application are implemented as follows.
本願の実施例は、処理対象の画像を取得するステップと、前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法を提供する。 An embodiment of the present application comprises the steps of obtaining an image to be processed, and inputting the image to be processed into a trained monocular depth estimation network model to obtain an analysis result of the image to be processed, wherein the the monocular depth estimation network model is obtained by supervised training with the disparity map output by the first binocular matching neural network model; outputting the analysis result of the image to be processed; To provide a monocular depth estimation method comprising:
本願の実施例は、処理対象の画像を取得するように構成された取得モジュールと、前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置を提供する。 Embodiments of the present application include an acquisition module configured to acquire an image to be processed, and inputting the image to be processed into a trained monocular depth estimation network model to obtain an analysis result of the image to be processed. wherein the monocular depth estimation network model is obtained by supervised training with a disparity map output by a first binocular matching neural network model; and an output module configured to output analysis results of an image to be processed.
本願の実施例は、プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に本願の実施例が提供する単眼深度推定方法におけるステップを実現する単眼深度推定機器を提供する。 An embodiment of the present application is a monocular depth estimation device comprising a processor and a memory storing a computer program operable in the processor, wherein the processor performs the monocular depth estimation method provided by the embodiment of the present application when executing the program. provides a monocular depth estimation device that implements the steps in
本願の実施例は、コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に本願の実施例が提供する単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体を提供する。 An embodiment of the present application is a computer readable storage medium storing a computer program, which when executed by a processor, implements the steps in the monocular depth estimation method provided by the embodiment of the present application. Provide storage media.
本願の実施例では、処理対象の画像を取得し、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得て、そして前記処理対象の画像の解析結果を出力することで、深度マップラベル付きのデータをより少なく使用するか、または使用しないで、単眼深度推定ネットワークを訓練することができ、またより効率的な、教師なしの、微調整可能な、両眼視差を利用したネットワークによる方法を提供し、それにより単眼深度推定の効果を間接的に向上させる。
例えば、本願は以下の項目を提供する。
(項目1)
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと、を含む単眼深度推定方法。
(項目2)
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと、を含む項目1に記載の方法。
(項目3)
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップを含む項目2に記載の方法。
(項目4)
前記取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する前記ステップは、
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目3に記載の方法。
(項目5)
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目2に記載の方法。
(項目6)
前記取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップはさらに、
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目2に記載の方法。
(項目7)
前記取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る前記ステップは、
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む項目6に記載の方法。
(項目8)
さらに、式
(化87)
を利用して前記損失関数を決定するステップを含み、
ここで、前記
(化88)
は損失関数を表し、前記
(化89)
は再構成誤差を表し、前記
(化90)
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
(化91)
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
(化92)
は強度係数を表す項目7に記載の方法。
(項目9)
さらに、式
(化93)
、または、
(化94)
を利用して前記再構成誤差を決定するステップを含み、
ここで、前記
(化95)
は画像における画素の数を表し、前記
(化96)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化97)
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
(化98)
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
(化99)
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
(化100)
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
(化101)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化102)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化103)
は画素点の画素座標を表す項目8に記載の方法。
(項目10)
さらに、式
(化104)
、または、
(化105)
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップを含み、
ここで、前記
(化106)
は画像における画素の数を表し、前記
(化107)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化108)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化109)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化110)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化111)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化112)
は画素点の画素座標を表し、前記
(化113)
は強度係数を表す項目8に記載の方法。
(項目11)
さらに、式
(化114)
、または、
(化115)
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップを含み、
ここで、前記
(化116)
は画像における画素の数を表し、前記
(化117)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化118)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化119)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化120)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化121)
は画素点の画素座標を表す項目8に記載の方法。
(項目12)
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと、を含む項目5に記載の方法。
(項目13)
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記単眼深度推定ネットワークモデルの訓練プロセスは、
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと、を含む項目6から11のいずれか一項に記載の方法。
(項目14)
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、
前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと、を含む項目12または13に記載の方法。
(項目15)
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと、を含む単眼深度推定装置。
(項目16)
さらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む項目15に記載の装置。
(項目17)
さらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む項目16に記載の装置。
(項目18)
前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する項目17に記載の装置。
(項目19)
前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む項目16に記載の装置。
(項目20)
前記第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される項目16に記載の装置。
(項目21)
前記第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む項目20に記載の装置。
(項目22)
さらに、式
(化122)
を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記
(化123)
は損失関数を表し、前記
(化124)
は再構成誤差を表し、前記
(化125)
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
(化126)
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
(化127)
は強度係数を表す項目21に記載の装置。
(項目23)
さらに、式
(化128)
、または、
(化129)
を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記
(化130)
は画像における画素の数を表し、前記
(化131)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化132)
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
(化133)
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
(化134)
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
(化135)
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
(化136)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化137)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化138)
は画素点の画素座標を表す項目22に記載の装置。
(項目24)
さらに、式
(化139)
、または、
(化140)
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記
(化141)
は画像における画素の数を表し、前記
(化142)
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
(化143)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化144)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化145)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化146)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
(化147)
は画素点の画素座標を表し、前記
(化148)
は強度係数を表す項目22に記載の装置。
(項目25)
さらに、式
(化149)
、または、
(化150)
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記
(化151)
は画像における画素の数を表し、前記
(化152)
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化153)
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化154)
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化155)
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
(化156)
は画素点の画素座標を表す項目22に記載の装置。
(項目26)
前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得し、そして前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目19に記載の装置。
(項目27)
前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、さらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得て、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定し、そして前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む項目20から25のいずれか一項に記載の装置。
(項目28)
前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、さらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む項目26または27に記載の装置。
(項目29)
プロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に項目1から14のいずれか一項に記載の単眼深度推定方法におけるステップを実現する単眼深度推定機器。
(項目30)
コンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に項目1から14のいずれか一項に記載の単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体。
In an embodiment of the present application, an image to be processed is acquired, and the image to be processed is input to a monocular depth estimation network model obtained by supervised training with a disparity map output by a first binocular matching neural network model. and obtaining an analysis result of the image to be processed, and outputting an analysis result of the image to be processed to perform monocular depth estimation using less or no depth map labeled data. The network can be trained and provides a more efficient, unsupervised, fine-tunable binocular parallax-based network method, thereby indirectly improving the effectiveness of monocular depth estimation.
For example, the present application provides the following items.
(Item 1)
obtaining an image to be processed;
inputting the image to be processed into a trained monocular depth estimation network model to obtain an analysis result of the image to be processed, wherein the monocular depth estimation network model is processed by a first binocular matching neural network model: a step obtained by supervised training with the output disparity map;
and outputting an analysis result of the image to be processed.
(Item 2)
The training process of the first binocular matching neural network model includes:
training a second binocular matching neural network model based on the obtained synthetic sample data to obtain a second binocular matching neural network model after training;
adjusting parameters of the second trained binocular matching neural network model based on the acquired real sample data to obtain a first binocular matching neural network model.
(Item 3)
3. The method of
(Item 4)
The step of training a second binocular matching neural network model based on the obtained synthetic sample data comprises:
training a second binocular matching neural network model based on the combined binocular image to obtain a trained second binocular matching neural network model whose output is a disparity map and an occlusion map, wherein , the parallax map expresses a parallax distance in pixels between each pixel point in the left image and the corresponding pixel point in the right image, and the occlusion map expresses a pixel point in the right image for each pixel point in the left image; 4. The method of item 3 of expressing whether the corresponding pixel point in is occluded by an object.
(Item 5)
The step of adjusting the parameters of the second binocular matching neural network model after training based on the acquired real sample data to obtain a first binocular matching neural network model, comprising:
supervised training a second post-trained binocular matching neural network model based on the acquired depth-labeled real binocular data, thereby adjusting the weights of the post-trained second binocular matching neural network model. , obtaining a first binocular matching neural network model.
(Item 6)
The step of adjusting parameters of a second binocular matching neural network model after training based on the acquired real sample data to obtain a first binocular matching neural network model, further comprising:
unsupervised training of a second post-trained binocular matching neural network model based on the acquired real binocular data without depth labels, thereby adjusting the weights of the post-trained second binocular matching neural network model. , obtaining a first binocular matching neural network model.
(Item 7)
unsupervised training of a post-trained second binocular matching neural network model based on the acquired real binocular data without depth labels, thereby adjusting the weights of the post-trained second binocular matching neural network model. and obtaining a first binocular matching neural network model comprising:
unsupervised training of a post-trained second binocular matching neural network model based on said unlabeled real binocular data using a loss function, thereby said post-trained second binocular matching neural network model A method according to item 6, comprising adjusting the weights of , to obtain a first binocular matching neural network model.
(Item 8)
Furthermore, the expression
(Chemical 87)
determining the loss function using
where
(Chem. 88)
represents the loss function, and
(Chemical 89)
represents the reconstruction error, and
(Chemical 90)
represents that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the second binocular matching network model after training, and
(Chemical 91)
represents that the output gradient constraining the first binocular matching network model matches the output gradient of the trained second binocular matching network model, and
(Chemical 92)
8. A method according to item 7, wherein is the strength factor.
(Item 9)
Furthermore, the expression
(Chemical 93)
,or,
(Chemical 94)
determining the reconstruction error using
where
(Chemical 95)
represents the number of pixels in the image, and
(Chemical 96)
represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
(Chemical 97)
represents the pixel value of the left image of the real binocular data without a depth label, and
(Chemical 98)
represents the pixel value of the right image of the real binocular data without a depth label, and
(Chemical 99)
represents the pixel value of the synthesized image after sampling the right image, and
(Chem. 100)
represents the pixel value of the synthesized image after sampling the left image, and
(Chem. 101)
represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
(Chem. 102)
represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
(Chem. 103)
9. A method according to item 8, wherein is the pixel coordinate of the pixel point.
(Item 10)
Furthermore, the expression
(Chem. 104)
,or,
(Chem. 105)
determining that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the trained second binocular matching network model using
where
(Chem. 106)
represents the number of pixels in the image, and
(Chem. 107)
represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
(Chem. 108)
represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
(Chem. 109)
represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
(Chem. 110)
represents the pixel values of the disparity map output by the second binocular matching network model after training of the left image, and
(Chem. 111)
represents the pixel values of the disparity map output by the second binocular matching network model after training for the right image, and
(Chem. 112)
represents the pixel coordinates of the pixel point, and
(Chem. 113)
9. A method according to item 8, wherein is the strength factor.
(Item 11)
Furthermore, the expression
(Chem. 114)
,or,
(Chem. 115)
determining that the output gradient of the first binocular matching network model matches the output gradient of the second binocular matching network model using
where
(Chem. 116)
represents the number of pixels in the image, and
(Chem. 117)
represents the gradient of the disparity map output by the first binocular matching network model of the left image of real binocular data without depth labels, and
(Chem. 118)
represents the gradient of the disparity map output by the first binocular matching network model of the right image of real binocular data without depth labels, and
(Chem. 119)
represents the gradient of the disparity map output by the second binocular matching network model after training of the left image, said
(Chem. 120)
represents the gradient of the disparity map output by the second binocular matching network model after training on the right image, said
(Chem. 121)
9. A method according to item 8, wherein is the pixel coordinate of the pixel point.
(Item 12)
Wherein the depth-labeled real binocular data includes left and right images, the monocular depth estimation network model training process comprises:
obtaining a left image or a right image of the depth-labeled real binocular data as a training sample;
training a monocular depth estimation network model based on left or right images of the depth-labeled real binocular data.
(Item 13)
Whereas the unlabeled real binocular data includes left and right images, the monocular depth estimation network model training process comprises:
inputting the real binocular data without depth labels into the first binocular matching neural network model to obtain a corresponding disparity map;
Based on the corresponding disparity map, the lens baseline length of the camera that captures the real binocular data without the depth label, and the lens focal length of the camera that captures the real binocular data without the depth label, the corresponding disparity map determining a depth map;
taking the left image or the right image of the real binocular data without depth labels as sample data, and teaching a monocular depth estimation network model based on the corresponding depth map of the disparity map, whereby the monocular depth
(Item 14)
The analysis result of the image to be processed includes a disparity map output by the monocular depth estimation network model, and further comprising:
A disparity map output by the monocular depth estimation network model, a lens baseline length of a camera that captures an image input to the monocular depth estimation network model, and a lens of a camera that captures an image input to the monocular depth estimation network model determining a corresponding depth map of the disparity map based on the focal length;
and outputting a corresponding depth map of the disparity map.
(Item 15)
an acquisition module configured to acquire an image to be processed;
an execution module configured to input the image to be processed into a trained monocular depth estimation network model to obtain an analysis result of the image to be processed, wherein the monocular depth estimation network model is configured to: an execution module obtained by supervised training with a disparity map output by an eye-matching neural network model;
an output module configured to output an analysis result of the image to be processed.
(Item 16)
Further, a first training module configured to train a second binocular matching neural network model based on the obtained synthetic sample data to obtain a trained second binocular matching neural network model; a second training module configured to adjust parameters of the second binocular matching neural network model after training based on the sample data to obtain the first binocular matching neural network model. Device.
(Item 17)
17. Apparatus according to
(Item 18)
The first training module trains a second binocular matching neural network model based on the synthesized binocular image, and trains a second binocular matching neural network model whose output is a disparity map and an occlusion map. a first training unit configured to obtain, wherein the disparity map represents a disparity distance in pixels between each pixel point in the left image and a corresponding pixel point in the right image; 18. Apparatus according to item 17, wherein the occlusion map represents whether the corresponding pixel point in the right image for each pixel point in the left image is occluded by an object.
(Item 19)
The second training module performs supervised training of a post-trained second binocular matching neural network model based on the acquired depth-labeled real binocular data, whereby the post-trained second binocular matching neural network model is 17. Apparatus according to
(Item 20)
The second training unit further performs unsupervised training of a post-training second binocular matching neural network model based on the acquired real binocular data without depth labels, whereby the post-training second binocular matching neural network model is 17. Apparatus according to
(Item 21)
The second training unit uses a loss function to perform unsupervised training of a post-trained second binocular matching neural network model based on the depth-unlabeled real binocular data, whereby the post-trained second 21. Apparatus according to item 20, comprising a second training component configured to adjust the weights of the binocular matching neural network model to obtain a first binocular matching neural network model.
(Item 22)
Furthermore, the expression
(Chem. 122)
a first determination module configured to determine said loss function utilizing
(Chem. 123)
represents the loss function, and
(Chem. 124)
represents the reconstruction error, and
(Chem. 125)
represents that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the second binocular matching network model after training, and
(Chem. 126)
represents that the output gradient constraining the first binocular matching network model matches the output gradient of the trained second binocular matching network model, and
(Chem. 127)
22. The device according to
(Item 23)
Furthermore, the expression
(Chem. 128)
,or,
(Chem. 129)
a second determination module configured to determine the reconstruction error using the
(Chem. 130)
represents the number of pixels in the image, and
(Chem. 131)
represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
(Chem. 132)
represents the pixel value of the left image of the real binocular data without a depth label, and
(Chem. 133)
represents the pixel value of the right image of the real binocular data without a depth label, and
(Chem. 134)
represents the pixel value of the synthesized image after sampling the right image, and
(Chem. 135)
represents the pixel value of the synthesized image after sampling the left image, and
(Chem. 136)
represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
(Chem. 137)
represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
(Chem. 138)
23. The apparatus of
(Item 24)
Furthermore, the expression
(Chem. 139)
,or,
(Chem. 140)
is configured to determine that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the trained second binocular matching network model using a third decision module, wherein said
(Chem. 141)
represents the number of pixels in the image, and
(Chem. 142)
represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
(Chem. 143)
represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
(Chem. 144)
represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
(Chem. 145)
represents the pixel values of the disparity map output by the second binocular matching network model after training of the left image, and
(Chem. 146)
represents the pixel values of the disparity map output by the second binocular matching network model after training for the right image, and
(Chem. 147)
represents the pixel coordinates of the pixel point, and
(Chem. 148)
23. A device according to
(Item 25)
Furthermore, the expression
(Chem. 149)
,or,
(Chem. 150)
a fourth determination module configured to determine that the output gradient of the first binocular matching network model matches the output gradient of the second binocular matching network model using
(Chem. 151)
represents the number of pixels in the image, and
(Chem. 152)
represents the gradient of the disparity map output by the first binocular matching network model of the left image of real binocular data without depth labels, and
(Chem. 153)
represents the gradient of the disparity map output by the first binocular matching network model of the right image of real binocular data without depth labels, and
(Chem. 154)
represents the gradient of the disparity map output by the second binocular matching network model after training of the left image, said
(Chem. 155)
represents the gradient of the disparity map output by the second binocular matching network model after training on the right image, said
(Chem. 156)
23. The apparatus of
(Item 26)
The depth-labeled real binocular data includes a left image and a right image, further obtaining a left image or a right image of the depth-labeled real binocular data as a training sample; 20. Apparatus according to item 19, comprising a third training module configured to train a monocular depth estimation network model based on left or right images of the depth-labeled real binocular data.
(Item 27)
The unlabeled real binocular data includes a left image and a right image, while further inputting the unlabeled real binocular data into the first binocular matching neural network model to obtain a corresponding disparity obtaining a map, based on the corresponding disparity map, the lens baseline length of the camera capturing the real binocular data without the depth label, and the lens focal length of the camera capturing the real binocular data without the depth label, Determining a corresponding depth map of the disparity map, and taking the left image or the right image of the unlabeled real binocular data as sample data, a monocular depth estimation network model based on the corresponding depth map of the
(Item 28)
The analysis result of the image to be processed includes the disparity map output by the monocular depth estimation network model, and further, the disparity map output by the monocular depth estimation network model, the monocular depth estimation network model: determining a corresponding depth map of the disparity map based on a lens baseline length of a camera capturing an input image and a lens focal length of a camera capturing an image input to the monocular depth estimation network model; and a first output module configured to output a corresponding depth map of said disparity map.
(Item 29)
15. A monocular depth estimation device comprising a processor and a memory storing a computer program operable in the processor, wherein the processor executes the program in the monocular depth estimation method according to any one of items 1 to 14. A monocular depth estimation device that realizes steps.
(Item 30)
A computer readable storage medium storing a computer program, which when executed by a processor implements the steps in the monocular depth estimation method according to any one of items 1 to 14. medium.
本願の実施例の目的、技術的解決手段および利点をより明確にするために、以下に本願の実施例における図面と関連付けて、出願の具体的な技術的解決手段をさらに詳細に説明する。以下の実施例は本願を説明するためのものであり、本願の範囲を限定するものではない。 In order to make the objectives, technical solutions and advantages of the embodiments of the present application clearer, the following describes the specific technical solutions of the application in more detail in conjunction with the drawings in the embodiments of the present application. The following examples are intended to illustrate the application and are not intended to limit the scope of the application.
後続の記載では、「モジュール」、「コンポーネント」または「ユニット」など要素を表すための接尾辞は本願の説明に役立つためにのみ使用され、それら自体は特定の意味を持っていない。従って、「モジュール」、「コンポーネント」または「ユニット」は混合して使用可能である。 In the description that follows, suffixes to denote elements such as "module", "component" or "unit" are used only to aid in the description of the application and do not themselves have a specific meaning. Thus, "modules", "components" or "units" may be used interchangeably.
一般的には、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。本願の実施例が提供する単眼深度推定方法はニューラルネットワークによって訓練して得られ、訓練データは両眼マッチングによって出力された視差マップデータに由来し、レーザレーダなどの高価な深度取得機器を必要としない。訓練データを提供する両眼マッチングアルゴリズムもニューラルネットワークによって実現され、該ネットワークはレンダリングエンジンによりレンダリングされる大量の仮想両眼画像対によって予備訓練するだけで良好な効果を達成でき、また、実データに基づいてさらに微調整による訓練を行ってより良好な効果を達成できる。 In general, using a depth neural network to predict the depth map of a single image, only one image can perform 3D modeling of the image's corresponding scene to obtain the depth of each pixel point. The monocular depth estimation method provided by the embodiments of the present application is obtained by training with a neural network, the training data is derived from the parallax map data output by binocular matching, and does not require expensive depth acquisition equipment such as laser radar. do not do. The binocular matching algorithm that provides the training data is also implemented by a neural network, and the network can achieve a good effect only by pre-training with a large number of virtual binocular image pairs rendered by the rendering engine, and can also be applied to real data. Based on this, further fine-tuning training can be performed to achieve a better effect.
以下に図面と実施例を関連付けて本願の技術的解決手段をさらに説明する。 The technical solutions of the present application are further described below in conjunction with drawings and embodiments.
本願の実施例は計算機器において用いられる単眼深度推定方法を提供し、該方法が実現する機能はサーバ内のプロセッサによってプログラムコードを呼び出して実現されてもよく、当然ながら、プログラムコードはコンピュータ記憶媒体内に記憶可能であり、よって、該サーバは少なくともプロセッサおよび記憶媒体を含む。図1Aは本願の実施例に係る単眼深度推定方法の実現フローチャート1であり、図1Aに示すように、該方法は以下を含む。 Embodiments of the present application provide a monocular depth estimation method for use in a computing device, and the functions implemented by the method may be implemented by a processor in a server by calling program code, which of course can be stored on a computer storage medium. The server thus includes at least a processor and a storage medium. FIG. 1A is an implementation flowchart 1 of a monocular depth estimation method according to an embodiment of the present application, as shown in FIG. 1A, the method includes:
ステップS101において、処理対象の画像を取得する。 In step S101, an image to be processed is acquired.
ここで、移動端末によって処理対象の画像を取得してもよく、前記処理対象の画像は、任意のシーンの画像を含んでもよい。一般的には、移動端末は実施プロセスにおいて、例えば携帯電話、携帯情報端末(Personal Digital Assistant:PDA)、ナビゲーター、デジタル電話機、テレビ電話機、スマートウォッチ、スマートブレスレット、ウエアラブル機器、タブレットなどを含むような、情報処理能力を有する様々なタイプの機器としてもよい。サーバは実現プロセスにおいて、例えば携帯電話、タブレット、ノートパソコンなどの移動端末、パーソナルコンピュータおよびサーバクラスタなどの固定端末のような情報処理能力を有する計算機器としてもよい。 Here, the image to be processed may be acquired by the mobile terminal, and the image to be processed may include an image of an arbitrary scene. In general, mobile terminals are used in the implementation process, such as mobile phones, personal digital assistants (PDAs), navigators, digital phones, video phones, smart watches, smart bracelets, wearable devices, tablets, etc. , may be any type of device capable of processing information. In the implementation process, the server may be a computing device with information processing capabilities, such as mobile terminals such as mobile phones, tablets and laptops, fixed terminals such as personal computers and server clusters.
ステップS102において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。 In step S102, the image to be processed is input to a monocular depth estimation network model obtained by supervised training using a parallax map output by the first binocular matching neural network model, and the analysis result of the image to be processed get
本願の実施例では、前記単眼深度推定ネットワークモデルは主に以下の三つのステップによって取得される。第一のステップではレンダリングエンジンによりレンダリングされる合成両眼データを使用して両眼マッチングニューラルネットワークを予備訓練する。第二のステップでは実シーンのデータを使用して第一のステップで得られた両眼マッチングニューラルネットワークの微調整による訓練を行う。第三のステップでは第二のステップで得られた両眼マッチングニューラルネットワークを使用して単眼深度推定ネットワークを教示し、それにより単眼深度推定ネットワークを訓練して得る。従来技術では、単眼深度推定は一般的に大量のラベル付きの実データを使用して訓練するか、または教師なしの方法を使用して単眼深度推定ネットワークを訓練する。しかし、大量のラベル付きの実データは取得コストが高く、またそのまま教師なしの方法によって単眼深度推定ネットワークを訓練すれば遮蔽領域の深度推定が処理できなくなり、得られた効果が悪い。それに対して、本願では前記単眼深度推定ネットワークモデルのサンプルデータが第一両眼マッチングニューラルネットワークモデルにより出力される視差マップに由来し、つまり、本願は両眼視差を利用した単眼深度予測を行う。従って、本願における方法は大量のラベル付きデータを必要とせず、かつ良好な訓練効果を得ることができる。 In the embodiments of the present application, the monocular depth estimation network model is mainly obtained by the following three steps. The first step pre-trains a binocular matching neural network using synthetic binocular data rendered by the rendering engine. The second step uses real scene data to train the binocular matching neural network obtained in the first step by fine-tuning. The third step uses the binocular matching neural network obtained in the second step to teach a monocular depth estimation network, thereby training and obtaining a monocular depth estimation network. In the prior art, monocular depth estimation is typically trained using large amounts of labeled real data, or unsupervised methods are used to train monocular depth estimation networks. However, the large amount of labeled real data is expensive to acquire, and if the monocular depth estimation network is trained by the unsupervised method as it is, the depth estimation of the occluded region cannot be processed, and the obtained effect is poor. In contrast, in the present application, the sample data of the monocular depth estimation network model is derived from the disparity map output by the first binocular matching neural network model, that is, the present application performs monocular depth prediction using binocular disparity. Therefore, the method in the present application does not require a large amount of labeled data and can obtain good training effect.
ステップS103において、前記処理対象の画像の解析結果を出力する。ここで、前記処理対象の画像の解析結果とは、前記処理対象の画像の対応する深度マップをいう。処理対象の画像を取得してから、前記処理対象の画像を訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記単眼深度推定ネットワークモデルは一般的に、深度マップではなく、前記処理対象の画像の対応する視差マップを出力するため、さらに前記単眼深度推定ネットワークモデルにより出力される視差マップ、処理対象の画像を撮影するカメラのレンズ基線長および処理対象の画像を撮影するカメラのレンズ焦点距離に基づき、前記処理対象の画像の対応する深度マップを決定する必要がある。 In step S103, the analysis result of the image to be processed is output. Here, the analysis result of the image to be processed refers to the corresponding depth map of the image to be processed. After obtaining an image to be processed, the image to be processed is input to a trained monocular depth estimation network model, the monocular depth estimation network model generally being a depth map of the object to be processed, rather than a depth map. To output the corresponding disparity map of the image, the disparity map output by the monocular depth estimation network model, the lens baseline length of the camera capturing the image to be processed, and the lens focal length of the camera capturing the image to be processed. , the corresponding depth map of the image to be processed should be determined.
図1Bは本願の実施例の単一画像の深度推定模式図であり、図1Bに示すように、番号が11の画像11は処理対象の画像であり、番号が12の画像12は番号が11の画像11の対応する深度マップである。
FIG. 1B is a schematic diagram of depth estimation of a single image according to an embodiment of the present application. As shown in FIG. is the corresponding depth map of
実際の適用では、前記レンズ基線長および前記レンズ焦点距離の積と、前記出力される処理対象の画像の対応する視差マップとの比を、前記処理対象の画像の対応する深度マップとして決定してもよい。 In practical application, the ratio of the product of the lens base length and the lens focal length and the corresponding disparity map of the output image to be processed is determined as the corresponding depth map of the image to be processed. good too.
上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、該方法は以下を含む。 Based on the above method embodiments, the embodiments of the present application further provide a monocular depth estimation method, which includes the following.
ステップS111において、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を合成サンプルデータとして取得する。 In step S111, a depth-labeled synthesized binocular image including a synthesized left image and a synthesized right image is obtained as synthesized sample data.
いくつかの実施例では、前記方法はさらに、レンダリングエンジンによって仮想3Dシーンを構築するステップS11と、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするステップS12と、前記仮想3Dシーンを構築する時の位置、前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するステップS13と、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るステップS14と、を含む。 In some embodiments, the method further comprises steps S11 of constructing a virtual 3D scene by a rendering engine; mapping S12 of the 3D scene as binocular images by two virtual cameras; constructing the virtual 3D scene; Step S13 of acquiring depth data of the synthesized binocular image based on the position when constructing the virtual 3D scene, the direction when constructing the virtual 3D scene, and the lens focal length of the virtual camera; and the binocular image based on the depth data a step S14 of labeling images to obtain said combined binocular image.
ステップS112において、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する。 In step S112, train a second binocular matching neural network model based on the obtained synthetic sample data.
ここで、実際の適用において、前記ステップS112は以下のステップによって実現してもよい。ステップS1121、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得る。ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する。 Here, in actual application, the step S112 may be realized by the following steps. Step S1121, training a second binocular matching neural network model based on the combined binocular image to obtain a trained second binocular matching neural network model whose output is a disparity map and an occlusion map. Here, the parallax map expresses the parallax distance in units of pixels between each pixel point in the left image and the corresponding pixel point in the right image, and the occlusion map expresses the above-mentioned distance of each pixel point in the left image. Represents whether the corresponding pixel point in the right image is occluded by an object.
図1Cは本願の実施例の第二両眼マッチングニューラルネットワークモデルの訓練模式図であり、図1Cに示すように、番号が11の画像11は合成された両眼画像の左画像であり、番号が12の画像12は合成された両眼画像の右画像であり、 FIG. 1C is a training schematic diagram of the second binocular matching neural network model of the embodiment of the present application, as shown in FIG. 12 is the right image of the combined binocular image,
は番号が11の左画像11に含まれる全ての画素点の画素値であり、
is the pixel value of all pixel points included in the
は番号が12の右画像12に含まれる全ての画素点の画素値であり、番号が13の画像13は第二両眼マッチングニューラルネットワークモデルが訓練されてから出力した遮蔽マップであり、番号が14の画像14は第二両眼マッチングニューラルネットワークモデルが訓練されてから出力した視差マップであり、番号が15の画像15は第二両眼マッチングニューラルネットワークモデルである。
is the pixel value of all pixel points contained in the
ステップS113において、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得る。 In step S113, the parameters of the trained second binocular matching neural network model are adjusted according to the acquired real sample data to obtain the first binocular matching neural network model.
ここで、前記ステップS113は二つの形態で実現できる。そのうち、第一の実現形態は以下のステップで実現する。ステップS1131a、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。ここで、取得したのは深度ラベル付きの実両眼データであり、このように、そのまま深度ラベル付きの実両眼データを用いて、ステップS112での訓練後の第二両眼マッチングニューラルネットワークの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、訓練後の第二両眼マッチングニューラルネットワークモデルの効果をさらに向上させ、第一両眼マッチングニューラルネットワークモデルを得ることができる。この部分では、両眼視差ネットワークは実データを適合させる必要がある。深度ラベル付きの実両眼データを使用し、教師ありの訓練によって両眼視差ネットワークを直接微調整して訓練してネットワークの重みを調整するようにしてもよい。第二の実現形態は以下のステップで実現する。ステップS1131b、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。本願の実施例では、また深度ラベルなしの実両眼データを使用して訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るようにしてもよい。ここの教師なし訓練とは深度データラベルなしで、両眼データのみで訓練することをいい、教師なしの微調整方法によって該プロセスを実現してもよい。 Here, the step S113 can be implemented in two forms. Among them, the first implementation mode is implemented by the following steps. Step S1131a, perform supervised training of the trained second binocular matching neural network model based on the obtained depth-labeled real binocular data, thereby weighting the trained second binocular matching neural network model to obtain the first binocular matching neural network model. Here, what is acquired is the depth-labeled real binocular data. In this way, using the depth-labeled real binocular data as it is, the second binocular matching neural network after training in step S112 supervised training, thereby adjusting the weight of the second binocular matching neural network model after training, further improving the effect of the second binocular matching neural network model after training, and the first binocular matching neural network model A network model can be obtained. In this part, the binocular disparity network needs to fit the real data. Using depth-labeled real binocular data, the binocular disparity network may be directly fine-tuned and trained by supervised training to adjust the weights of the network. The second implementation mode is implemented by the following steps. Step S1131b, perform unsupervised training of the trained second binocular matching neural network model based on the acquired real binocular data without depth labels, thereby weighting the trained second binocular matching neural network model to obtain the first binocular matching neural network model. Embodiments of the present application also use real binocular data without depth labels to perform unsupervised training of the post-trained second binocular matching neural network model, whereby the post-trained second binocular matching neural network model is The model weights may be adjusted to obtain a first binocular matching neural network model. Unsupervised training here refers to training with only binocular data without depth data labels, and the process may be realized by an unsupervised fine-tuning method.
ステップS114において、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。 In step S114, a monocular depth estimation network model is taught by the disparity map output by the first binocular matching neural network model, thereby training the monocular depth estimation network model.
ここで、前記ステップS114は二つの形態で実現してもよい。そのうち、第一の実現形態は以下のステップで実現する。ステップS1141a、左画像および右画像を含む前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得する。ステップS1142a、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練する。ここで、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。従って、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練してもよく、そのうち、前記深度ラベル付きの実両眼データはステップS1131aで使用された深度ラベル付きの実両眼データである。第二の実現形態は以下のステップで実現する。ステップS1141b、左画像および右画像を含む前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得る。ステップS1142b、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。ステップS1143b、前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。ここで、深度ニューラルネットワークを用いて単一画像の深度マップを予測すれば、一つの画像だけで画像の対応するシーンの三次元モデリングを行い、各画素点の深度を得ることができる。従って、ステップS1131bで使用された深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、またステップS1141bで使用された深度ラベルなしの実両眼データのうちの左画像または右画像をもサンプルデータとし、ステップS1141bで出力された視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練し、訓練後の単眼深度推定ネットワークモデルを得るようにしてもよい。 Here, step S114 may be implemented in two forms. Among them, the first implementation mode is implemented by the following steps. Step S1141a, of the depth-labeled real binocular data including left and right images, obtain a left image or a right image as a training sample. Step S1142a, training a monocular depth estimation network model based on the left image or the right image of the depth-labeled real binocular data. Here, if a depth neural network is used to predict the depth map of a single image, only one image can perform 3D modeling of the corresponding scene of the image to obtain the depth of each pixel point. Therefore, a monocular depth estimation network model may be trained based on the left image or right image of the depth-labeled real binocular data, wherein the depth-labeled real binocular data is used in step S1131a. This is real binocular data with depth labels. The second implementation mode is implemented by the following steps. Step S1141b, inputting the unlabeled real binocular data including left and right images into the first binocular matching neural network model to obtain a corresponding disparity map. Step S1142b, based on the corresponding disparity map, the lens baseline length of the camera capturing the real binocular data without the depth label and the lens focal length of the camera capturing the real binocular data without the depth label, the disparity map Determine the corresponding depth map of . Step S1143b, taking the left image or the right image of the real binocular data without depth label as sample data, and teaching a monocular depth estimation network model based on the corresponding depth map of the disparity map, whereby the monocular depth Train an estimation network model. Here, if a depth neural network is used to predict the depth map of a single image, only one image can perform 3D modeling of the corresponding scene of the image to obtain the depth of each pixel point. Therefore, the left image or right image of the real binocular data without depth labels used in step S1131b is used as sample data, and the left image or right image of the real binocular data without depth labels used in step S1141b is used as sample data. The right image is also taken as sample data, and a monocular depth estimation network model is taught based on the corresponding depth map of the disparity map output in step S1141b, thereby training the monocular depth estimation network model, and the monocular depth after training An estimated network model may be obtained.
図1Dは本願の実施例の単眼深度推定ネットワークモデルの訓練模式図であり、図1Dに示すように、図(a)は深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する番号が13の視差マップ13を得ることを示し、そのうち、前記深度ラベルなしの実両眼データは番号が11の左画像11および番号が12の右画像12を含み、番号が15の画像15は第一両眼マッチングニューラルネットワークモデルである。図1Dにおける図(b)は前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記番号が13の視差マップ13の対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練することを示し、そのうち、前記サンプルデータの前記単眼深度推定ネットワークモデルによる出力は番号が14の視差マップ14であり、番号が16の画像16は単眼深度推定ネットワークモデルである。
FIG. 1D is a training schematic diagram of the monocular depth estimation network model of the embodiment of the present application. As shown in FIG. 1D, FIG. to obtain the
ステップS115において、処理対象の画像を取得する。 In step S115, an image to be processed is acquired.
ここで、訓練後の単眼深度推定ネットワークモデルを得ると、この単眼深度推定ネットワークモデルを使用することが可能である。即ち、この単眼深度推定ネットワークモデルを用いて、処理対象の画像の対応する深度マップを取得することができる。 Now, once we have the trained monocular depth estimation network model, we can use this monocular depth estimation network model. That is, this monocular depth estimation network model can be used to obtain the corresponding depth map of the image to be processed.
ステップS116において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。 In step S116, the image to be processed is input to the monocular depth estimation network model obtained by supervised training using the parallax map output by the first binocular matching neural network model, and the analysis result of the image to be processed get
ステップS117において、前記単眼深度推定ネットワークモデルにより出力される視差マップを含む前記処理対象の画像の解析結果を出力する。 In step S117, an analysis result of the image to be processed including the parallax map output by the monocular depth estimation network model is output.
ステップS118において、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。 In step S118, the disparity map output by the monocular depth estimation network model, the lens baseline length of the camera that captures the image input to the monocular depth estimation network model, and the image input to the monocular depth estimation network model are captured. Determining a corresponding depth map of the parallax map based on the lens focal length of the corresponding camera.
ステップS119において、前記視差マップの対応する深度マップを出力する。 In step S119, a depth map corresponding to the disparity map is output.
上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、該方法は以下を含む。 Based on the above method embodiments, the embodiments of the present application further provide a monocular depth estimation method, which includes the following.
ステップS121において、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を合成サンプルデータとして取得する。 In step S121, a depth-labeled synthesized binocular image including a synthesized left image and a synthesized right image is acquired as synthesized sample data.
ステップS122において、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練する。 In step S122, train a second binocular matching neural network model based on the obtained synthetic sample data.
ここで、合成データを使用して第二両眼マッチングニューラルネットワークモデルを訓練すると、より高い汎化能力を発揮することができる。 Here, using the synthetic data to train the second binocular matching neural network model can exhibit higher generalization ability.
ステップS123において、式(1) In step S123, formula (1)
を利用して前記損失関数を決定する。ここで、前記 is used to determine the loss function. where
は本願の実施例が提供する損失関数を表し、前記 represents the loss function provided by the embodiments of the present application, and
は再構成誤差を表し、前記 represents the reconstruction error, and
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記 represents that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the second binocular matching network model after training, and
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記 represents that the output gradient constraining the first binocular matching network model matches the output gradient of the trained second binocular matching network model, and
は強度係数を表す。ここで、 represents the strength factor. here,
は正則項である。 is a regular term.
いくつかの実施例では、ステップS123での式(1)はさらに以下のステップでの式によって細分化されてもよい。即ち、前記方法はさらに以下を含む。ステップS1231において、式(2) In some embodiments, equation (1) in step S123 may be further subdivided by equations in the following steps. Thus, the method further includes: In step S1231, formula (2)
または式(3) or formula (3)
を利用して前記再構成誤差を決定する。ここで、前記 is used to determine the reconstruction error. where
は画像における画素の数を表し、前記 represents the number of pixels in the image, and
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記 represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記 represents the pixel value of the left image of the real binocular data without a depth label, and
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記 represents the pixel value of the right image of the real binocular data without a depth label, and
は右画像をサンプリングしてから合成した画像、即ち再構成された左画像の画素値を表し、前記 represents the pixel values of the reconstructed left image, that is, the synthesized image after sampling the right image, and
は左画像をサンプリングしてから合成した画像、即ち再構成された右画像の画素値を表し、前記 represents the pixel values of the reconstructed right image, that is, the synthesized image after sampling the left image, and
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
は画素点の画素座標を表し、前記 represents the pixel coordinates of the pixel point, and
は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記 represents the output of the second binocular matching network model after training, and
は右画像または右画像の関連データを表し、前記 represents the right image or the associated data of the right image, and
は左画像または左画像の関連データを表し、前記 represents the left image or the associated data of the left image, and
は画像画素点のRGB(Red Green Blue、赤、緑および青)値を表す。ステップS1232において、式(4) represents the RGB (Red, Green and Blue) values of an image pixel point. In step S1232, expression (4)
または式(5) or formula (5)
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定する。ここで、前記 is used to determine that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the trained second binocular matching network model. where
は画像における画素の数を表し、前記 represents the number of pixels in the image, and
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記 represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the second binocular matching network after training of the left image of the sample data, and
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the second binocular matching network after training of the right image of the sample data, said
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the first binocular matching network of the left image of the real binocular data without depth labels, and
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the first binocular matching network of the right image of the real binocular data without depth labels, and
は画素点の画素座標を表し、前記 represents the pixel coordinates of the pixel point, and
は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記 represents the output of the second binocular matching network model after training, and
は右画像または右画像の関連データを表し、前記 represents the right image or the associated data of the right image, and
は左画像または左画像の関連データを表し、前記 represents the left image or the associated data of the left image, and
は強度係数を表す。ステップS1233において、式(6) represents the strength factor. In step S1233, expression (6)
または式(7) or formula (7)
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定する。ここで、前記 is used to determine that the output gradient of the first binocular matching network model matches the output gradient of the second binocular matching network model. where
は画像における画素の数を表し、前記 represents the number of pixels in the image, and
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the first binocular matching network of the left image of real binocular data without depth labels, and
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the first binocular matching network for the right image of real binocular data without depth labels, and
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the second binocular matching network after training of the left image of the sample data, said
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the second binocular matching network after training on the right image of the sample data, said
は訓練後の第二両眼マッチングネットワークモデルの出力を表し、前記 represents the output of the second binocular matching network model after training, and
は右画像または右画像の関連データを表し、前記 represents the right image or the associated data of the right image, and
は左画像または左画像の関連データを表す。 represents the left image or the associated data of the left image.
ステップS124において、損失関数(Loss)を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得る。 In step S124, a loss function (Loss) is used to perform unsupervised training of a post-trained second binocular matching neural network model based on the real binocular data without depth labels, whereby the post-trained second binocular matching neural network model is Adjust the weights of the binocular matching neural network model to obtain the first binocular matching neural network model.
ここで、前記損失関数(Loss)はステップS122での訓練後の第二両眼マッチングニューラルネットワークの出力により微調整による訓練を正則化し、従来技術での教師なしの微調整に幅広く存在する予測が不明になるという問題を回避し、微調整によって得られた第一両眼マッチングネットワークの効果を向上させ、それにより第一両眼マッチングネットワークを教示して得られた単眼深度ネットワークの効果を間接的に向上させる。図1Eは本願の実施例の損失関数関連画像の模式図であり、図1Eに示すように、図(a)は深度ラベルなしの実両眼データの左画像であり、図1Eにおける図(b)は深度ラベルなしの実両眼データの右画像であり、図1Eにおける図(c)は図(a)と図(b)とを組み合わせた深度ラベルなしの実両眼画像を訓練後の第二両眼マッチングニューラルネットワークモデルに入力してから出力された視差マップであり、図1Eにおける図(d)は図(b)で表される右画像をサンプリングしてから、図(c)で表される視差マップと結合し、左画像を再構成した画像であり、図1Eにおける図(e)は図(a)で表される左画像における画素と図(d)で表される再構成後の左画像における対応する画素との差を求めて得られた画像、即ち左画像の再構成誤差マップであり、図1Eにおける図(f)は図(a)と図(b)とを組み合わせた深度ラベルなしの実両眼画像を訓練後の第二両眼マッチングニューラルネットワークモデルに入力してから出力された遮蔽マップである。ここで、図(d)における全ての赤枠11は前記再構成後の左画像の図(a)で表される実左画像との差異がある部分を表し、図(e)における全ての赤枠12は前記再構成誤差マップにおいて誤差がある部分、即ち遮蔽された部分を表す。ここで、ステップS124に記載の教師なしの微調整による両眼視差ネットワーク訓練を実現する時、右画像を使用して左画像を再構成する必要があるが、遮蔽が存在する領域が正確に再構成できないため、遮蔽マップを用いてこの部分の誤訓練信号を除去して教師なしの微調整による訓練の効果を向上させる。
Here, the loss function (Loss) regularizes the training by fine-tuning according to the output of the second binocular matching neural network after training in step S122, and the prediction widely present in unsupervised fine-tuning in the prior art is It avoids the problem of ambiguity and enhances the effect of the first binocular matching network obtained by fine-tuning, thereby indirectly improving the effect of the monocular depth network obtained by teaching the first binocular matching network. improve to FIG. 1E is a schematic diagram of a loss function-related image according to an embodiment of the present application. As shown in FIG. 1E, FIG. ) is the right image of real binocular data without depth label, and FIG. Fig. 1E is a disparity map output after inputting to a binocular matching neural network model; FIG. 1E is a reconstructed image of the left image combined with the parallax map, and FIG. 1E shows the pixels in the left image represented by FIG. Fig. 1E is a reconstruction error map of the image obtained by finding the difference between the corresponding pixels in the left image of the left image, that is, the reconstruction error map of the left image. FIG. 11 is an occlusion map output after inputting a real binocular image without depth label into a second trained binocular matching neural network model; FIG. Here, all the
ステップS125において、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する。 In step S125, the monocular depth estimation network model is taught by the disparity map output by the first binocular matching neural network model, thereby training the monocular depth estimation network model.
ここで、前記単眼深度推定ネットワークモデルのサンプル画像は、深度ラベルなしの実両眼データのうちの左画像であってもよいし、深度ラベルなしの実両眼データのうちの右画像であってもよい。そのうち、左画像をサンプル画像とする場合、式(1)、式(2)、式(4)および式(6)を利用して損失関数を決定し、右画像をサンプル画像とする場合、式(1)、式(3)、式(5)および式(7)を利用して損失関数を決定する。 Here, the sample image of the monocular depth estimation network model may be the left image of the real binocular data without the depth label, or the right image of the real binocular data without the depth label. good too. Among them, when the left image is the sample image, equations (1), (2), (4) and (6) are used to determine the loss function, and when the right image is the sample image, the equation (1), Eq. (3), Eq. (5) and Eq. (7) are used to determine the loss function.
本願の実施例では、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練する前記ステップとは、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップの対応する深度マップによって前記単眼深度推定ネットワークモデルを教示し、つまり教示情報を提供し、それにより前記単眼深度推定ネットワークモデルを訓練することをいう。 In an embodiment of the present application, the step of teaching the monocular depth estimation network model with a disparity map output by the first binocular matching neural network model, thereby training the monocular depth estimation network model, comprises: Teaching the monocular depth estimation network model by the corresponding depth map of the disparity map output by the monocular matching neural network model, that is, providing teaching information, thereby training the monocular depth estimation network model. .
ステップS126において、処理対象の画像を取得する。 In step S126, an image to be processed is acquired.
ステップS127において、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得る。 In step S127, the image to be processed is input to the monocular depth estimation network model obtained by supervised training using the parallax map output by the first binocular matching neural network model, and the analysis result of the image to be processed get
ステップS128において、前記単眼深度推定ネットワークモデルにより出力される視差マップを含む前記処理対象の画像の解析結果を出力する。 In step S128, an analysis result of the image to be processed including the parallax map output by the monocular depth estimation network model is output.
ステップS129において、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定する。 In step S129, the parallax map output by the monocular depth estimation network model, the lens baseline length of the camera that captures the image input to the monocular depth estimation network model, and the image input to the monocular depth estimation network model are captured. Determining a corresponding depth map of the parallax map based on the lens focal length of the corresponding camera.
ステップS130において、前記視差マップの対応する深度マップを出力する。 In step S130, output a corresponding depth map of the disparity map.
本願の実施例では、前記処理対象の画像が街並みの画像である場合、前記訓練後の単眼深度推定ネットワークモデルを使用して前記街並みの画像の深度を予測することができる。 In an embodiment of the present application, if the image to be processed is an image of a cityscape, the trained monocular depth estimation network model can be used to predict the depth of the image of the cityscape.
上記方法の実施例に基づき、本願の実施例はさらに単眼深度推定方法を提供し、図2Aは本願の実施例に係る単眼深度推定方法の実現フローチャート2であり、図2Aに示すように、該方法は以下を含む。
Based on the above method embodiments, an embodiment of the present application further provides a monocular depth estimation method, FIG. 2A is an
ステップS201において、レンダリングエンジンによりレンダリングされる合成データを使用して両眼マッチングネットワークを訓練し、両眼画像の視差マップを得る。 In step S201, the synthetic data rendered by the rendering engine is used to train a binocular matching network to obtain the binocular image disparity map.
ここで、前記両眼マッチングネットワークの入力は、一対の両眼画像(左画像および右画像を含む)であり、前記両眼マッチングネットワークの出力は、視差マップ、遮蔽マップであり、即ち、両眼マッチングネットワークは両眼画像を入力として使用し、視差マップおよび遮蔽マップを出力する。そのうち、視差マップは左画像における各画素点と右画像における対応する画素点との、画素を単位とする視差距離を表現するために用いられ、遮蔽マップは左画像の各画素の右画像における対応する画素点が他の物体に遮蔽されているかどうかを表現するために用いられる。視野角の変化により、左画像における何らかの領域が右画像において他の物体に遮蔽され、そこで遮蔽マップは左画像における画素が右画像において遮蔽されているかどうかをレベル付けするために用いられる。この部分では、両眼マッチングネットワークはコンピュータレンダリングエンジンにより生成される合成データを使用して訓練し、まずレンダリングエンジンによっていくつかの仮想3Dシーンを構築し、続いて二つの仮想カメラによって3Dシーンを両眼画像としてマッピングし、それにより合成データを得て、同時に正確な深度データおよびカメラ焦点距離などのデータもレンダリングエンジンから得られるため、両眼マッチングネットワークは直接これらのラベル付きデータによって教師あり訓練を行うことができる。 where the input of the binocular matching network is a pair of binocular images (including left and right images), and the output of the binocular matching network is a disparity map, an occlusion map, i.e., binocular The matching network uses binocular images as input and outputs a disparity map and an occlusion map. Among them, the parallax map is used to express the parallax distance in pixels between each pixel point in the left image and the corresponding pixel point in the right image, and the occlusion map is used to express the correspondence of each pixel in the left image in the right image. It is used to express whether the pixel point to be covered is occluded by another object. Due to changes in viewing angle, some areas in the left image are occluded by other objects in the right image, so the occlusion map is used to level whether pixels in the left image are occluded in the right image. In this part, the binocular matching network is trained using synthetic data generated by a computer rendering engine, firstly constructing some virtual 3D scenes by the rendering engine, and then by two virtual cameras. We map it as an eye image, thereby obtaining synthetic data, and at the same time accurate depth data and data such as camera focal length are also obtained from the rendering engine, so the binocular matching network can be supervised training directly with these labeled data. It can be carried out.
ステップS202において、損失関数を使用し、教師なしの微調整方法によって実両眼画像データに基づいてステップS201で得られた両眼マッチングネットワークを微調整する。 In step S202, the loss function is used to fine-tune the binocular matching network obtained in step S201 based on the real binocular image data by an unsupervised fine-tuning method.
この部分では、たとえ深度ラベルなしの実両眼データを用いて両眼視差ネットワークの教師なし訓練を行っても、両眼視差ネットワークは実データを適合させる必要がある。ここの教師なし訓練とは深度データラベルがない状況で、両眼データのみで訓練することをいう。本願の実施例は新たな教師なしの微調整方法、即ち上記実施例における損失関数を使用した教師なしの微調整を提供する。本願の実施例が提供する損失関数の主な目的は予備訓練効果を低下させることなく実両眼データに基づいて両眼視差ネットワークを微調整するのを図ることであり、微調整プロセスではステップS201で得られた、予備訓練された両眼視差ネットワークの予備的な出力により指導および正則化を行う。図2Bは本願の実施例の損失関数の効果模式図であり、図2Bに示すように、番号が21の画像21は従来技術での損失関数を使用した場合に得られた視差マップであり、番号が22の画像22は本願の実施例が提供する損失関数を使用した場合に得られた視差マップである。従来技術の損失関数は遮蔽領域を単独で考慮せず、遮蔽領域の画像再構成誤差をもゼロに最適化し、それにより遮蔽領域の予測視差誤りが発生し、視差マップのエッジもぼやけるのに対して、本願における損失関数は遮蔽マップを用いてこの部分の誤訓練信号を除去して教師なしの微調整による訓練の効果を向上させる。
In this part, even if we use real binocular data without depth labels to train the binocular disparity network unsupervised, the binocular disparity network needs to fit the real data. Unsupervised training here refers to training with only binocular data in the absence of depth data labels. The embodiments of the present application provide a new unsupervised fine-tuning method, namely unsupervised fine-tuning using the loss function in the above embodiments. The main purpose of the loss function provided by the embodiments of the present application is to fine-tune the binocular disparity network based on the real binocular data without reducing the pre-training effect, and the fine-tuning process includes step S201 The preliminary outputs of the pre-trained binocular disparity network obtained in , are used for guidance and regularization. FIG. 2B is a schematic diagram of the effect of the loss function of the embodiment of the present application, as shown in FIG. The
ステップS203において、ステップS202で得られた両眼マッチングネットワークを使用して実データに基づいて単眼深度推定を教示し、最終的に単眼深度推定ネットワークを得る。ここで、前記単眼深度推定ネットワークの入力は、単一単眼画像であり、前記単眼深度推定ネットワークの出力は、深度マップである。ステップS202で実データに基づいて微調整した両眼視差ネットワークが得られ、一対の両眼画像毎に、両眼視差ネットワークが視差マップを予測して得て、視差マップD、両眼レンズ基線長bおよびレンズ焦点距離fによって、視差マップの対応する深度マップを計算して得ることができる、即ち式(8) In step S203, the binocular matching network obtained in step S202 is used to teach monocular depth estimation based on real data, finally obtaining a monocular depth estimation network. where the input of said monocular depth estimation network is a single monocular image and the output of said monocular depth estimation network is a depth map. In step S202, a fine-tuned binocular disparity network is obtained based on the actual data. For each pair of binocular images, the binocular disparity network predicts and obtains a disparity map. With b and lens focal length f, the corresponding depth map of the disparity map can be calculated and obtained, namely equation (8)
によって視差マップの対応する深度マップdを計算して得ることができる。単眼深度ネットワークを訓練して深度マップを予測して得るために、両眼画像対のうちの左画像を単眼深度ネットワークの入力とし、続いて計算して得られた深度マップを両眼視差ネットワークによって出力して教示し、それにより単眼深度ネットワークを訓練し、最終的な結果を得るようにしてもよい。実際の適用では、本願の実施例における単眼深度推定方法によって訓練して無人運転のための深度推定モジュールを得て、それによりシーンの三次元再構成または障害物検出を行うことができる。かつ本願の実施例が提供する教師なしの微調整方法は両眼視差ネットワークの性能を向上させる。 can be obtained by computing the corresponding depth map d of the disparity map by In order to train a monocular depth network to predict and obtain a depth map, the left image of a pair of binocular images is taken as input for the monocular depth network, and then the resulting depth map is computed by the binocular disparity network. It may be output and taught to train a monocular depth network to obtain final results. In practical application, it can be trained by the monocular depth estimation method in the embodiments of the present application to obtain a depth estimation module for driverless driving, thereby performing three-dimensional scene reconstruction or obstacle detection. And the unsupervised fine-tuning method provided by the embodiments of the present application improves the performance of the binocular disparity network.
従来技術では、教師ありの単眼深度推定方法では、正確なラベル付きデータはかなり限られた数しか取得できず、かつその取得も非常に困難である。再構成誤差に基づく教師なしの方法は性能が通常画素マッチングの曖昧さにより制限される。これらの問題を解決するために、本願の実施例は新たな単眼深度推定方法を提供し、従来技術での教師ありおよび教師なしの深度推定方法の限界を打破する。本願の実施例における方法は両眼マッチングネットワークを使用してクロスモーダルな合成データに基づいて訓練し、かつそれで単眼深度推定ネットワークを教示する。前記両眼マッチングネットワークは、意味特徴から抽出するのではなく、左右画像の画素マッチング関係に基づいて視差を得るため、両眼マッチングネットワークは合成データから実データに効果的に汎化することができる。本願の実施例の方法は主に三つのステップを含む。第一に、合成データを用いて両眼マッチングネットワークを訓練し、両眼画像から遮蔽マップおよび視差マップを予測する。第二に、利用可能な実データを用いて、教師ありまたは教師なしで、訓練後の両眼マッチングネットワークを選択的に調整する。第三に、第二のステップで得られた、実データを用いて微調整して訓練した両眼マッチングネットワークによる教示下で、単眼深度推定ネットワークを訓練する。このように、両眼マッチングネットワークを間接的に利用することで単眼深度推定において合成データをより効果的に利用して性能を向上させることができる。 In the prior art, supervised monocular depth estimation methods can only obtain a fairly limited number of accurate labeled data, and they are very difficult to obtain. The performance of unsupervised methods based on reconstruction error is usually limited by the ambiguity of pixel matching. To solve these problems, the embodiments of the present application provide a new monocular depth estimation method to break through the limitations of the prior art supervised and unsupervised depth estimation methods. The method in the present embodiment uses a binocular matching network to train on cross-modal synthetic data and thereby teaches a monocular depth estimation network. Since the binocular matching network obtains disparity based on the pixel matching relationship between left and right images, rather than extracting from semantic features, the binocular matching network can effectively generalize from synthetic data to real data. . The method of the embodiment of the present application mainly includes three steps. First, we use synthetic data to train a binocular matching network to predict occlusion and disparity maps from binocular images. Second, we selectively tune the trained binocular matching network, supervised or unsupervised, using available real data. Third, train a monocular depth estimation network under the guidance of a binocular matching network fine-tuned and trained with real data obtained in the second step. In this way, by indirectly using the binocular matching network, it is possible to more effectively use the synthetic data in monocular depth estimation and improve the performance.
第一のステップでは、合成データを利用して両眼マッチングネットワークを訓練し、それは以下を含む。現時点では、グラフィックスレンダリングエンジンによって深度情報を含む多数の合成画像を生成できる。しかし、単眼深度推定はシーンに入力される意味情報に非常に敏感であるため、これらの合成画像データを実データと直接併合して単眼深度推定ネットワークを訓練すると、通常悪い性能が得られる。合成データと実データとの巨大なモダリティの差により、合成データを使用した補助訓練は全く役に立たなくなる。しかしながら、両眼マッチングネットワークはより強い汎化能力を有し、合成データを使用して訓練した両眼マッチングネットワークは実データに基づいても良好な視差マップを出力できる。そのため、本願の実施例は両眼マッチングネットワーク訓練を介して合成データと実データとを繋いで単眼深度訓練の性能を向上させる。まず大量の合成両眼データを利用して両眼マッチングネットワークを予備訓練する。従来の構造とは異なり、実施例における両眼マッチングネットワークは視差マップのもとに、さらにマルチスケールの遮蔽マップを推定する。ここで、遮蔽マップは正確な画像において、左側画像の画素の右画像における対応する画素点が他の物体に遮蔽されているかどうかを示す。次のステップでは、教師なしの微調整方法に前記遮蔽マップが使用され、それによって誤推定を回避する。そのうち、左右視差の整合性チェック方法を使用し、式(9) In the first step, synthetic data are utilized to train a binocular matching network, which includes: Currently, graphics rendering engines can generate a number of composite images that include depth information. However, training monocular depth estimation networks by directly merging these synthetic image data with real data usually results in poor performance, because monocular depth estimation is very sensitive to the semantic information input into the scene. The huge modality difference between synthetic and real data renders assisted training using synthetic data utterly useless. However, binocular matching networks have stronger generalization ability, and binocular matching networks trained using synthetic data can output good disparity maps even based on real data. Therefore, embodiments of the present application connect synthetic data and real data via binocular matching network training to improve the performance of monocular depth training. First, a large amount of synthetic binocular data is used to pre-train the binocular matching network. Unlike conventional structures, the binocular matching network in the example further estimates a multi-scale occlusion map under the disparity map. Here, the occlusion map indicates whether, in the correct image, the corresponding pixel point in the right image of the pixel in the left image is occluded by another object. In the next step, the occlusion map is used in an unsupervised fine-tuning method, thereby avoiding misestimation. Among them, using the left-right parallax consistency check method, equation (9)
を利用して正確にラベル付けされた視差マップから正確なラベルを有する遮蔽マップを得るようにしてもよい。ここで、下付き文字 may be used to obtain an occlusion map with correct labels from a correctly labeled disparity map. where subscript
は画像における is in the image
行目の値を表し、下付き文字 Represents row value, subscript
は画像における is in the image
列目の値を表す。 Represents the column value.
は左右画像の視差マップを表し、 represents the disparity map of the left and right images, and
は右画像で再構成した左画像の視差マップであり、非遮蔽領域について、左視差マップと右画像で再構成した左画像の視差マップとは一致するものである。整合性チェックの閾値は1とする。遮蔽マップは遮蔽領域において0とし、非遮蔽領域において1とする。従って、本実施例は式(10) is the parallax map of the left image reconstructed from the right image, and the left parallax map and the parallax map of the left image reconstructed from the right image coincide with each other in the unoccluded area. Assume that the consistency check threshold is 1. The occlusion map is set to 0 in occluded areas and 1 to non-occluded areas. Therefore, this embodiment uses the formula (10)
を使用して合成データによる両眼マッチングネットワーク訓練の損失(Loss)を計算し、この段階で、損失関数 is used to compute the loss of training the binocular matching network on synthetic data (Loss), and at this stage the loss function
は二つの部分、即ち視差マップ推定誤差 has two parts: the disparity map estimation error
および遮蔽マップ推定誤差 and occlusion map estimation error
からなる。両眼視差ネットワークのマルチスケール中間層にも視差および遮蔽予測が発生し、かつそのままマルチスケール予測の損失重み consists of Disparity and occlusion prediction also occur in the multiscale hidden layer of the binocular disparity network, and the loss weight of the multiscale prediction remains unchanged.
に用いられ、 used for
は各層の対応する視差マップ推定誤差を表し、 represents the corresponding disparity map estimation error for each layer, and
は各層の対応する遮蔽マップ推定誤差を表し、 represents the corresponding occlusion map estimation error for each layer, and
層目を表す。視差マップを訓練するために、L1損失関数を採用して異常値の影響を回避し、訓練プロセスのロバスト性を向上させる。遮蔽マップを訓練するために、式(11) represents strata. To train the disparity map, we adopt the L1 loss function to avoid the influence of outliers and improve the robustness of the training process. To train the occlusion map, equation (11)
で遮蔽マップ推定誤差 is the occlusion map estimation error
を表し、二値交差エントロピー損失を分類タスクとして遮蔽マップを訓練する。ここで、 and train an occlusion map with binary cross-entropy loss as the classification task. here,
は画像における画素の総数であり、 is the total number of pixels in the image, and
は正確なラベルを有する遮蔽マップを表し、 represents the occlusion map with correct labels, and
は訓練後の両眼マッチングネットワークによって出力された遮蔽マップを表す。 represents the occlusion map output by the trained binocular matching network.
第二のステップでは、教師ありまたは教師なしの微調整方法を使用して実データに基づいて第一のステップで得られた訓練後の両眼マッチングネットワークを訓練し、それは以下を含む。本願の実施例は二つの方式で訓練後の両眼マッチングネットワークを微調整する。そのうち、教師ありの微調整方法では、マルチスケールのL1回帰損失関数 In the second step, a supervised or unsupervised fine-tuning method is used to train the post-trained binocular matching network obtained in the first step based on real data, which includes: Embodiments of the present application fine-tune the trained binocular matching network in two ways. Among them, in the supervised fine-tuning method, the multi-scale L1 regression loss function
、即ち視差マップ推定誤差 , that is, the disparity map estimation error
のみを採用して先の画素マッチング予測の誤差を改善し、それについては式(12) is employed to improve the error of previous pixel matching prediction, for which equation (12)
を参照されたい。結果によると、数少ない監視データ、例えば100枚の画像を使用しても、両眼マッチングネットワークは合成モーダルデータから実モーダルデータに適合させることができる。教師なしの微調整方法では、教師なしのネットワークチューニングについて、図2Bにおける画像21に示すように、従来技術での教師なしの微調整方法によってはぼやけた視差マップが得られ、性能が悪い。その原因は教師なし損失の限界、およびRGB値のみが入った画素マッチングの曖昧性にある。そこで、本願の実施例は付加的な正則項を導入してその制約により性能を向上させる。実データにより、微調整されていない訓練後の両眼マッチングネットワークから対応する遮蔽マップおよび視差マップを得て、かつ、それをそれぞれ
See The results show that even with a small number of surveillance data, say 100 images, the binocular matching network can match the synthetic modal data to the real modal data. For the unsupervised fine-tuning method, for unsupervised network tuning, the prior art unsupervised fine-tuning method gives a blurred disparity map and poor performance, as shown in
でラベル付けする。この二つのデータは訓練プロセスの規範化に用いられる。さらに、本願の実施例が提供する教師なしの微調整損失関数、即ち損失関数 label with . These two data are used to normalize the training process. Furthermore, the unsupervised fine-tuning loss function provided by the embodiments of the present application, namely the loss function
の取得については前の実施例における記載を参照すればよい。 can be obtained by referring to the description in the previous example.
第三のステップでは、単眼深度推定ネットワークを訓練し、それは以下を含む。ここまで、発明者らは大量の合成データによって両眼マッチングネットワークのクロスモーダルな訓練を行い、実データを使用して微調整していた。最終的な単眼深度推定ネットワークを訓練するために、本願の実施例は訓練後の両眼マッチングネットワークにより予測される視差マップを採用して訓練データを提供する。単眼深度推定の損失 The third step trains a monocular depth estimation network, which includes: So far, we have cross-modally trained a binocular matching network with large amounts of synthetic data and fine-tuned using real data. To train the final monocular depth estimation network, embodiments of the present application employ the disparity map predicted by the trained binocular matching network to provide training data. Loss of monocular depth estimation
は式(13) is the formula (13)
に示す複数の部分から求められる。ここで、 is obtained from multiple parts shown in . here,
は画素点の総和であり、 is the sum of pixel points, and
は単眼深度推定ネットワークにより出力される視差マップを表し、 represents the disparity map output by the monocular depth estimation network, and
は訓練後の両眼マッチングネットワークにより出力される視差マップ、または、訓練後の両眼マッチングネットワークを微調整したネットワークにより出力される視差マップを表す。なお、式(9)から式(13)はいずれも単眼深度推定ネットワークによって実データのうちの左画像を訓練サンプルとして使用することを例にし、説明していることに注意すべきである。実験については、単眼深度推定ネットワークが視野角の変化に敏感であるため、訓練データには切り抜きおよびスケーリングを施さない。前記単眼深度推定ネットワークの入力、および単眼深度推定ネットワーク教示用の視差マップはいずれも訓練後の両眼マッチングネットワークから得られる。図2Cは本願の実施例の可視化深度推定の結果模式図であり、従来技術および本願の実施例における単眼深度推定方法を使用して取得した三つの異なる街並み画像の対応する深度マップを示し、そのうち、1行目は単眼深度推定ネットワークの入力、即ち三つの異なる街並み画像であり、2行目は最近傍法によって疎なレーザレーダ深度マップに補間して得られた深度データであり、3行目から5行目は従来技術における三つの異なる単眼深度推定方法によってそれぞれ得られた三つの入力画像の対応する深度マップである。本願の結果は最後の三行に示し、それは本願の実施例における第一のステップで得られた、合成データを使用して訓練した両眼マッチングネットワークをそのまま利用し、単眼深度推定ネットワークを教示することによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が21の画像21、番号が22の画像22、番号が23の画像23、本願の実施例が提供する教師なし損失関数により、訓練後の両眼マッチングネットワークを微調整し、微調整後のネットワークにより出力される視差マップを、単眼深度推定ネットワークの訓練データとすることによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が24の画像24、番号が25の画像25、番号が26の画像26、および訓練後の両眼マッチングネットワークの教師あり微調整を行い、微調整後のネットワークにより出力される視差マップを、単眼深度推定ネットワークの訓練データとすることによって得られた単眼深度ネットワークの三つの入力画像の対応する深度マップ、即ち番号が27の画像27、番号が28の画像28、番号が29の画像29である。番号が21の画像21から番号が29の画像29から見えるように、本願の実施例における単眼深度推定方法によって得られたモデルはより細かいシーン構造をキャプチャ可能である。
represents the disparity map output by a trained binocular matching network or by a fine-tuned trained binocular matching network. It should be noted that Equations (9) to (13) all describe using the left image of the real data as a training sample by the monocular depth estimation network. For experiments, the training data is not cropped and scaled because the monocular depth estimation network is sensitive to changes in viewing angle. Both the input for the monocular depth estimation network and the disparity map for teaching the monocular depth estimation network are obtained from the trained binocular matching network. FIG. 2C is a schematic diagram of the results of visualization depth estimation of an embodiment of the present application, showing the corresponding depth maps of three different cityscape images acquired using the monocular depth estimation method in the prior art and an embodiment of the present application, of which: , the first line is the input of the monocular depth estimation network, i.e., three different cityscape images, the second line is the depth data obtained by interpolating to the sparse laser radar depth map by the nearest neighbor method, and the third line is The fifth line from is the corresponding depth map of three input images respectively obtained by three different monocular depth estimation methods in the prior art. Our results are shown in the last three lines, which directly utilize the binocular matching network trained using synthetic data obtained in the first step in our example to teach a monocular depth estimation network. The corresponding depth maps of the three input images of the monocular depth network obtained by Three inputs of the monocular depth network obtained by fine-tuning the trained binocular matching network according to the loss function, and using the disparity map output by the fine-tuned network as training data for the monocular depth estimation network. Supervised fine-tuning of the corresponding depth maps of the images, namely
本願の実施例は単眼深度推定装置を提供し、図3は本願の実施例の単眼深度推定装置の構成模式図であり、図3に示すように、前記装置300は、処理対象の画像を取得するように構成された取得モジュール301と、前記処理対象の画像を、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られた単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュール302と、前記処理対象の画像の解析結果を出力するように構成された出力モジュール303と、を含む。
An embodiment of the present application provides a monocular depth estimation device, and FIG. 3 is a structural schematic diagram of the monocular depth estimation device of an embodiment of the present application, as shown in FIG. and inputting said image to be processed into a monocular depth estimation network model obtained by supervised training with a disparity map output by a first binocular matching neural network model, said It includes an
いくつかの実施例では、前記装置はさらに、前記第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによって前記単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第三訓練モジュールを含む。 In some embodiments, the apparatus further teaches the monocular depth estimation network model with a disparity map output by the first binocular matching neural network model, thereby training the monocular depth estimation network model. a third training module configured to
いくつかの実施例では、前記装置はさらに、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールと、を含む。 In some embodiments, the apparatus further comprises a first training module configured to train a second binocular matching neural network model based on the obtained synthetic sample data; a second training module configured to adjust parameters of the second binocular matching neural network model after training to obtain the first binocular matching neural network model.
いくつかの実施例では、前記装置はさらに、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールを含む。 In some embodiments, the apparatus is further configured to acquire a depth-labeled synthesized binocular image including a synthesized left image and a synthesized right image as the synthesized sample data. Contains an acquisition module.
いくつかの実施例では、前記第一訓練モジュールは、前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るように構成された第一訓練ユニットを含み、ここで、前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する。 In some embodiments, the first training module trains a second binocular matching neural network model based on the synthesized binocular images, and trains a second binocular matching neural network model whose output is a disparity map and an occlusion map. a first training unit configured to obtain a binocular matching neural network model, wherein the disparity map is pixel-by-pixel between each pixel point in the left image and a corresponding pixel point in the right image; The occlusion map expresses whether the corresponding pixel point in the right image of each pixel point in the left image is occluded by an object.
いくつかの実施例では、前記装置はさらに、レンダリングエンジンによって仮想3Dシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想3Dシーンを構築する時の位置、前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールと、を含む。 In some embodiments, the apparatus further comprises a construction module configured to construct a virtual 3D scene via a rendering engine; and a construction module configured to map the 3D scene as binocular images via two virtual cameras. a mapping module configured to obtain depth data of the synthesized binocular image based on a position when constructing the virtual 3D scene, a direction when constructing the virtual 3D scene and a lens focal length of the virtual camera; and a third acquisition module configured to label the binocular images based on the depth data to obtain the combined binocular image.
いくつかの実施例では、前記第二訓練モジュールは、取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練ユニットを含む。 In some embodiments, the second training module performs supervised training of a post-trained second binocular matching neural network model based on the acquired depth-labeled real binocular data, thereby supervising the post-training a second training unit configured to adjust the weights of the second binocular matching neural network model of to obtain the first binocular matching neural network model.
いくつかの実施例では、前記第二訓練モジュール内の第二訓練ユニットはさらに、取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成される。 In some embodiments, the second training unit in the second training module further performs unsupervised training of a post-trained second binocular matching neural network model based on the acquired unlabeled real binocular data. and thereby adjust the weights of the second binocular matching neural network model after training to obtain the first binocular matching neural network model.
いくつかの実施例では、前記第二訓練モジュール内の第二訓練ユニットは、損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練コンポーネントを含む。 In some embodiments, a second training unit in the second training module uses a loss function to train a second binocular matching neural network model based on the real binocular data without depth labels. a second training component configured to perform unsupervised training, thereby adjusting weights of the second binocular matching neural network model after training to obtain a first binocular matching neural network model;
いくつかの実施例では、前記装置はさらに、式(14) In some embodiments, the device further comprises formula (14)
を利用して前記損失関数を決定するように構成された第一決定モジュールを含み、ここで、前記 a first determination module configured to determine said loss function utilizing
は損失関数を表し、前記 represents the loss function, and
は再構成誤差を表し、前記 represents the reconstruction error, and
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記 represents that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the second binocular matching network model after training, and
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記 represents that the output gradient constraining the first binocular matching network model matches the output gradient of the trained second binocular matching network model, and
は強度係数を表す。 represents the strength factor.
いくつかの実施例では、前記装置はさらに、式(15) In some embodiments, the device further comprises formula (15)
または式(16) or formula (16)
を利用して前記再構成誤差を決定するように構成された第二決定モジュールを含み、ここで、前記 a second determination module configured to determine the reconstruction error using the
は画像における画素の数を表し、前記 represents the number of pixels in the image, and
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記 represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記 represents the pixel value of the left image of the real binocular data without a depth label, and
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記 represents the pixel value of the right image of the real binocular data without a depth label, and
は右画像をサンプリングしてから合成した画像の画素値を表し、前記 represents the pixel value of the synthesized image after sampling the right image, and
は左画像をサンプリングしてから合成した画像の画素値を表し、前記 represents the pixel value of the synthesized image after sampling the left image, and
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、 represents the pixel value of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels,
は画素点の画素座標を表す。 represents the pixel coordinates of a pixel point.
いくつかの実施例では、前記装置はさらに、式(17) In some embodiments, the device further comprises formula (17)
または式(18) or formula (18)
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップと比べて偏りが小さいことを決定するように構成された第三決定モジュールを含み、ここで、前記 is configured to determine that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the trained second binocular matching network model using a third decision module, wherein said
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the second binocular matching network model after training of the left image of the sample data, and
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記 represents the pixel values of the disparity map output by the second binocular matching network model after training of the right image of the sample data, and
は強度係数を表す。 represents the strength factor.
いくつかの実施例では、前記装置はさらに、式(19) In some embodiments, the device further comprises formula (19)
または式(20) or formula (20)
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するように構成された第四決定モジュールを含み、ここで、前記 a fourth determination module configured to determine that the output gradient of the first binocular matching network model matches the output gradient of the second binocular matching network model using
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the first binocular matching network model of the left image of real binocular data without depth labels, and
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the first binocular matching network model of the right image of real binocular data without depth labels, and
はサンプルデータのうちの左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記 represents the gradient of the disparity map output by the second binocular matching network model after training on the left image of the sample data, said
はサンプルデータのうちの右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表す。 represents the gradient of the disparity map output by the second binocular matching network model after training on the right image of the sample data.
いくつかの実施例では、前記深度ラベル付きの実両眼データは左画像および右画像を含み、それに対して、前記第三訓練モジュールは、前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するように構成された第一取得ユニットと、前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するように構成された第一訓練ユニットと、を含む。 In some embodiments, the depth-labeled real binocular data includes a left image and a right image, whereas the third training module comprises a left image of the depth-labeled real binocular data. or a first acquisition unit configured to acquire a right image as a training sample; and training a monocular depth estimation network model based on the left image or the right image of the depth-labeled real binocular data. and a configured first training unit.
いくつかの実施例では、前記深度ラベルなしの実両眼データは左画像および右画像を含み、それに対して、前記第三訓練モジュールはさらに、前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るように構成された第二取得ユニットと、前記対応する視差マップ、前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第一決定ユニットと、前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するように構成された第二訓練ユニットと、を含む。 In some embodiments, the unlabeled real binocular data includes a left image and a right image, whereas the third training module further converts the unlabeled real binocular data to the first a second acquisition unit configured to input a binocular matching neural network model to obtain a corresponding disparity map; and a first determination unit configured to determine a corresponding depth map of the disparity map based on a lens focal length of a camera that captures the real binocular data without depth labels; taking the left image or the right image of the eye data as sample data and teaching a monocular depth estimation network model based on the corresponding depth map of the disparity map, thereby training the monocular depth estimation network model. and a second training unit.
いくつかの実施例では、前記処理対象の画像の解析結果は前記単眼深度推定ネットワークモデルにより出力される視差マップを含み、それに対して、前記装置はさらに、前記単眼深度推定ネットワークモデルにより出力される視差マップ、前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するように構成された第五決定モジュールと、前記視差マップの対応する深度マップを出力するように構成された第一出力モジュールと、を含む。 In some embodiments, the analysis result of the image to be processed includes a disparity map output by the monocular depth estimation network model, whereas the apparatus further outputs a disparity map output by the monocular depth estimation network model. Correspondence of the disparity map based on the disparity map, the lens baseline length of the camera that captures the image input to the monocular depth estimation network model, and the lens focal length of the camera that captures the image input to the monocular depth estimation network model. and a first output module configured to output a corresponding depth map of the disparity map.
ここで説明すべきは、以上の装置の実施例はその説明が上記方法の実施例に対する説明に類似し、方法の実施例に類似する有益な効果を有するということである。本願の装置の実施例において開示されていない技術的詳細については、本願の方法の実施例に対する説明を参照されたい。本願の実施例において、ソフトウェア機能モジュールの形で上記単眼深度推定方法を実現し、かつ独立した製品として販売または使用する場合、コンピュータ読み取り可能記憶媒体に記憶してもよい。このような見解をもとに、本願の実施例の技術的解決手段は実質的にまたは従来技術に寄与する部分はソフトウェア製品の形で実施することができ、該コンピュータソフトウェア製品は記憶媒体に記憶され、コンピュータ機器に本願の各実施例に記載の方法の全てまたは一部を実行させる複数の命令を含む。前記記憶媒体は、USBフラッシュドライブ、モバイルハードディスク、ROM(Read Only Memory:読み取り専用メモリ)、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含む。従って、本願の実施例はハードウェアとソフトウェアのいかなる特定の組み合わせにも限定されない。それに対して、本願の実施例はプロセッサおよびプロセッサにおいて運用可能なコンピュータプログラムが記憶されたメモリを含む単眼深度推定機器であって、前記プロセッサは前記プログラムを実行する時に単眼深度推定方法におけるステップを実現する単眼深度推定機器を提供する。それに対して、本願の実施例はコンピュータプログラムが記憶されたコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時に単眼深度推定方法におけるステップを実現するコンピュータ読み取り可能記憶媒体を提供する。ここで指摘しておきたいのは、以上の記憶媒体および機器の実施例はその説明が上記方法の実施例に対する説明に類似し、方法の実施例に類似する有益な効果を有するということである。本願の記憶媒体および機器の実施例において開示されていない技術的詳細については、本願の方法の実施例に対する説明を参照されたい。 It should be noted here that the above apparatus embodiments are similar in their description to the above method embodiments and have similar beneficial effects to the method embodiments. For technical details not disclosed in the apparatus embodiments of the present application, please refer to the description for the method embodiments of the present application. In embodiments of the present application, the monocular depth estimation method described above is implemented in the form of software functional modules and may be stored on a computer readable storage medium when sold or used as an independent product. Based on this observation, the technical solutions in the embodiments of the present application can be implemented in the form of software products, which are substantially or contribute to the prior art, and the computer software products are stored in a storage medium. and comprises instructions that cause a computer device to perform all or part of the methods described in the embodiments herein. The storage medium includes various media capable of storing program code, such as a USB flash drive, a mobile hard disk, a ROM (Read Only Memory), a magnetic disk or an optical disk. Thus, embodiments of the present application are not limited to any specific combination of hardware and software. In contrast, an embodiment of the present application is a monocular depth estimation device comprising a processor and a memory having a computer program operable on the processor, the processor implementing steps in a monocular depth estimation method when executing the program. To provide a monocular depth estimation device that In contrast, an embodiment of the present application provides a computer readable storage medium having a computer program stored thereon, the computer program implementing steps in a monocular depth estimation method when executed by a processor. do. It should be pointed out here that the above storage medium and apparatus embodiments are similar in their description to the above method embodiments and have similar beneficial effects to the method embodiments. . For technical details not disclosed in the storage medium and device embodiments of the present application, please refer to the description of the method embodiments of the present application.
説明すべきは、図4は本願の実施例の単眼深度推定機器のハードウェア実体模式図であり、図4に示すように、該単眼深度推定機器400のハードウェア実体は、メモリ401、通信バス402およびプロセッサ403を含み、そのうち、メモリ401はプロセッサ403により実行可能な命令およびアプリケーションを記憶するように構成され、またプロセッサ403および単眼深度推定機器400内の各モジュールの処理対象のまたは処理したデータをキャッシュすることができ、それはFLASH(登録商標)(フラッシュメモリ)またはRAM(Random Access Memory:ランダムアクセスメモリ)によって実現可能である。通信バス402は単眼深度推定機器400をネットワークによって他の端末またはサーバと通信するようにすることができ、またプロセッサ403とメモリ401の間の接続や通信をも実現できる。プロセッサ403は通常、単眼深度推定機器400の全体的な動作を制御する。
It should be noted that FIG. 4 is a schematic diagram of the hardware entity of the monocular depth estimation device of the embodiment of the present application. As shown in FIG. 402 and processor 403, of which memory 401 is configured to store instructions and applications executable by processor 403, and data to be processed or processed by processor 403 and each module in monocular
説明すべきは、本明細書において、用語「含む」、「からなる」またはその他のあらゆる変形は非排他的包含を含むように意図され、それにより一連の要素を含むプロセス、方法、物品または装置は、それらの要素のみならず、明示されていない他の要素、またはこのようなプロセス、方法、物品または装置に固有の要素をも含むようになるということである。特に断らない限り、後句「一つの……を含む」により限定される要素は、該要素を含むプロセス、方法、物品または装置に別の同じ要素がさらに存在することを排除するものではない。 It should be noted that, as used herein, the terms “comprising,” “consisting of,” or any other variation are intended to include non-exclusive inclusion, whereby a process, method, article or apparatus comprising a series of elements is intended to include not only those elements, but also other elements not specified or inherent in such processes, methods, articles or devices. Unless specifically stated otherwise, an element limited by the following phrase "comprising a" does not exclude the presence of other identical elements in the process, method, article or apparatus containing that element.
以上の実施形態に対する説明によって、当業者であれば上記実施例の方法はソフトウェアと必要な共通ハードウェアプラットフォームとの組み合わせという形態で実現できることを明らかに理解可能であり、当然ながら、ハードウェアによって実現してもよいが、多くの場合において前者はより好ましい実施形態である。このような見解をもとに、本願の技術的解決手段は実質的にまたは従来技術に寄与する部分はソフトウェアの形で実施することができ、該コンピュータソフトウェア製品は記憶媒体(例えばROM/RAM、磁気ディスク、光ディスク)に記憶され、端末機器(携帯電話、コンピュータ、サーバ、エアコン、またはネットワーク機器などであってもよい)に本願の各実施例に記載の方法を実行させる複数の命令を含む。 From the description of the above embodiments, those skilled in the art can clearly understand that the methods of the above embodiments can be implemented in the form of a combination of software and the necessary common hardware platform. may be used, although the former is often the preferred embodiment. Based on this observation, the technical solution of the present application can be substantially implemented in the form of software or the part that contributes to the prior art, and the computer software product comprises a storage medium (such as ROM/RAM, magnetic disk, optical disk) and includes a plurality of instructions that cause a terminal device (which may be a mobile phone, computer, server, air conditioner, network device, etc.) to perform the method described in each embodiment of the present application.
本願は本願の実施例に係る方法、機器(装置)、およびコンピュータプログラム製品のフローチャートおよび/またはブロック図を参照して説明している。なお、フローチャートおよび/またはブロック図におけるそれぞれのフローおよび/またはブロック、ならびにフローチャートおよび/またはブロック図におけるフローおよび/またはブロックの組み合わせはコンピュータプログラム命令によって実現できることを理解すべきである。これらのコンピュータプログラム命令は、機械を製造するために、共通コンピュータ、専用コンピュータ、組み込みプロセッサまたは他のプログラマブルデータ処理装置のプロセッサへ提供されてもよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令は、フローチャートの一つ以上のフローおよび/またはブロック図の一つ以上のブロックにおいて指定された機能を実現する手段を創出する。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置を特定の方式で動作させるように指導可能なコンピュータ読み取り可能メモリに記憶されてもよく、それによって該コンピュータ読み取り可能メモリに記憶された命令は、フローチャートの一つ以上のフローおよび/またはブロック図の一つ以上のブロックにおいて指定された機能を実現する命令手段を含む製品を創出する。 This application is described with reference to flowchart illustrations and/or block diagrams of methods, apparatus (apparatus) and computer program products according to embodiments of the application. It is to be understood that each flow and/or block in the flowchart and/or block diagrams, and combinations of flows and/or blocks in the flowchart and/or block diagrams, can be implemented by computer program instructions. These computer program instructions may be provided to a processor of a common computer, special purpose computer, embedded processor or other programmable data processing apparatus to produce a machine, thereby rendering the computer or other programmable data processing apparatus The instructions executed by the processor create the means to perform the functions specified in one or more flows of the flowcharts and/or one or more blocks of the block diagrams. These computer program instructions may be stored in a computer readable memory capable of directing a computer or other programmable data processing apparatus to operate in a particular manner, whereby the instructions stored in the computer readable memory may be stored in the computer readable memory. creates an article of manufacture that includes instruction means that implement the functions specified in one or more of the flows in the flowcharts and/or one or more blocks in the block diagrams.
これらのコンピュータプログラム命令はコンピュータまたは他のプログラマブルデータ処理装置にロードすることにより、コンピュータ実行処理を生成するように、コンピュータまたは他のプログラマブルデータ処理装置において一連の動作ステップを実行させるようにしてもよく、それにより、コンピュータまたは他のプログラマブルデータ処理装置において実行される命令はフローチャートの一つ以上のフローおよび/またはブロック図の一つ以上のブロックにおいて指定された機能を実現するためのステップを提供する。 These computer program instructions may be loaded into a computer or other programmable data processing apparatus to cause the computer or other programmable data processing apparatus to perform a series of operational steps to produce a computer-implemented process. , whereby instructions executed in a computer or other programmable data processing apparatus provide steps for implementing the functions specified in one or more flows of the flowcharts and/or one or more blocks of the block diagrams. .
以上は本願の好適な実施例に過ぎず、本願の特許範囲を限定するものではなく、本願の明細書および図面の内容を利用してなした等価構成または等価フロー変換、あるいは他の関連技術分野へのその直接または間接の転用は、同様に、いずれも本願の特許保護範囲に含まれるものとする。 The above is only a preferred embodiment of the present application, and is not intended to limit the patent scope of the present application. Any direct or indirect diversion thereof to is likewise covered by the patent protection scope of the present application.
Claims (16)
処理対象の画像を取得するステップと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るステップであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、ステップと、
前記処理対象の画像の解析結果を出力するステップと
を含み、
前記第一両眼マッチングニューラルネットワークモデルの訓練プロセスは、
取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、訓練後の第二両眼マッチングニューラルネットワークモデルを取得するステップと、
取得した実サンプルデータに基づいて前記訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップと
を含み、
前記単眼深度推定方法は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するステップをさらに含み、
前記深度ラベル付きの合成された両眼画像を取得することは、レンダリングエンジンによって仮想3Dシーンを構築することと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングすることと、前記仮想3Dシーンを構築する時の位置および前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得することと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得ることとを含む、単眼深度推定方法。 A monocular depth estimation method performed by a computing device, the monocular depth estimation method comprising:
obtaining an image to be processed;
inputting the image to be processed into a trained monocular depth estimation network model to obtain an analysis result of the image to be processed, wherein the monocular depth estimation network model is processed by a first binocular matching neural network model: a step obtained by supervised training with the output disparity map;
a step of outputting an analysis result of the image to be processed;
including
The training process of the first binocular matching neural network model includes:
training a second binocular matching neural network model based on the obtained synthetic sample data to obtain a second binocular matching neural network model after training;
adjusting parameters of the trained second binocular matching neural network model according to the acquired real sample data to obtain a first binocular matching neural network model;
including
The monocular depth estimation method further comprises acquiring a depth-labeled synthesized binocular image including a synthesized left image and a synthesized right image as the synthesized sample data,
Obtaining the depth-labeled synthesized binocular image includes constructing a virtual 3D scene by a rendering engine, mapping the 3D scene as a binocular image by two virtual cameras, and obtaining depth data of the synthesized binocular image based on the position when constructing the scene, the direction when constructing the virtual 3D scene, and the lens focal length of the virtual camera; and based on the depth data, labeling binocular images and obtaining said combined binocular image .
前記合成された両眼画像に基づいて第二両眼マッチングニューラルネットワークモデルを訓練し、出力が視差マップおよび遮蔽マップである訓練後の第二両眼マッチングニューラルネットワークモデルを得るステップを含み、
前記視差マップは前記左画像における各画素点と前記右画像における対応する画素点との、画素を単位とする視差距離を表現し、前記遮蔽マップは前記左画像における各画素点の前記右画像における対応する画素点が物体により遮蔽されているかどうかを表現する、請求項1に記載の単眼深度推定方法。 training a second binocular matching neural network model based on the obtained synthetic sample data,
training a second binocular matching neural network model based on the combined binocular image to obtain a trained second binocular matching neural network model whose output is a disparity map and an occlusion map ;
The parallax map expresses the parallax distance in units of pixels between each pixel point in the left image and the corresponding pixel point in the right image, and the occlusion map expresses each pixel point in the right image in the left image. 2. The monocular depth estimation method of claim 1 , which expresses whether the corresponding pixel point is occluded by an object.
取得した深度ラベル付きの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師あり訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む、請求項1に記載の単眼深度推定方法。 adjusting parameters of the second binocular matching neural network model after training based on the acquired real sample data to obtain a first binocular matching neural network model,
supervised training a second post-trained binocular matching neural network model based on the acquired depth-labeled real binocular data, thereby adjusting the weights of the post-trained second binocular matching neural network model. , obtaining a first binocular matching neural network model.
取得した深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップをさらに含む、請求項1に記載の単眼深度推定方法。 adjusting parameters of the second binocular matching neural network model after training based on the acquired real sample data to obtain a first binocular matching neural network model ,
unsupervised training of a second post-trained binocular matching neural network model based on the acquired real binocular data without depth labels, thereby adjusting the weights of the post-trained second binocular matching neural network model. , further comprising obtaining a first binocular matching neural network model.
損失関数を使用し、前記深度ラベルなしの実両眼データに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルの教師なし訓練を行い、それによって前記訓練後の第二両眼マッチングニューラルネットワークモデルの重みを調整し、第一両眼マッチングニューラルネットワークモデルを得るステップを含む、請求項4に記載の単眼深度推定方法。 unsupervised training of a post-trained second binocular matching neural network model based on the acquired real binocular data without depth labels, thereby adjusting the weights of the post-trained second binocular matching neural network model. and obtaining a first binocular matching neural network model,
unsupervised training of a post-trained second binocular matching neural network model based on said unlabeled real binocular data using a loss function, thereby said post-trained second binocular matching neural network model 5. The monocular depth estimation method of claim 4 , comprising adjusting the weights of , to obtain a first binocular matching neural network model.
を利用して前記損失関数を決定するステップをさらに含み、
ここで、前記
は損失関数を表し、前記
は再構成誤差を表し、前記
は前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを表し、前記
は前記第一両眼マッチングネットワークモデルを制約する出力勾配が前記訓練後の第二両眼マッチングネットワークモデルの出力勾配に一致することを表し、前記
は強度係数を表す、請求項5に記載の単眼深度推定方法。 The monocular depth estimation method is based on the formula
further comprising determining the loss function using
where
represents the loss function, and
represents the reconstruction error, and
represents that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the second binocular matching network model after training, and
represents that the output gradient constraining the first binocular matching network model matches the output gradient of the trained second binocular matching network model, and
6. The monocular depth estimation method according to claim 5 , wherein ? represents an intensity factor.
、または、
を利用して前記再構成誤差を決定するステップをさらに含み、
ここで、前記
は画像における画素の数を表し、前記
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の画素値を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の画素値を表し、前記
は右画像をサンプリングしてから合成した画像の画素値を表し、前記
は左画像をサンプリングしてから合成した画像の画素値を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は画素点の画素座標を表す、請求項6に記載の単眼深度推定方法。 The monocular depth estimation method is based on the formula
,or,
further comprising determining the reconstruction error using
where
represents the number of pixels in the image, and
represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
represents the pixel value of the left image of the real binocular data without a depth label, and
represents the pixel value of the right image of the real binocular data without a depth label, and
represents the pixel value of the synthesized image after sampling the right image, and
represents the pixel value of the synthesized image after sampling the left image, and
represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
7. A monocular depth estimation method according to claim 6 , wherein represents the pixel coordinates of a pixel point.
、または、
を利用して前記第一両眼マッチングネットワークモデルにより出力される視差マップが前記訓練後の第二両眼マッチングネットワークモデルにより出力される視差マップに比べて偏りが小さいことを決定するステップをさらに含み、
ここで、前記
は画像における画素の数を表し、前記
は前記訓練後の第二両眼マッチングネットワークモデルにより出力される遮蔽マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの画素値を表し、前記
は画素点の画素座標を表し、前記
は強度係数を表す、請求項6に記載の単眼深度推定方法。 The monocular depth estimation method is based on the formula
,or,
determining that the disparity map output by the first binocular matching network model is less biased than the disparity map output by the trained second binocular matching network model using ,
where
represents the number of pixels in the image, and
represents the pixel values of the occlusion map output by the second binocular matching network model after training, and
represents the pixel values of the disparity map output by the first binocular matching network model of the left image of the real binocular data without depth labels, and
represents the pixel values of the disparity map output by the first binocular matching network model of the right image of the real binocular data without depth labels, and
represents the pixel values of the disparity map output by the second binocular matching network model after training of the left image, and
represents the pixel values of the disparity map output by the second binocular matching network model after training for the right image, and
represents the pixel coordinates of the pixel point, and
7. The method of monocular depth estimation according to claim 6 , wherein ? represents an intensity factor.
、または、
を利用して前記第一両眼マッチングネットワークモデルの出力勾配が前記第二両眼マッチングネットワークモデルの出力勾配に一致することを決定するステップをさらに含み、
ここで、前記
は画像における画素の数を表し、前記
は深度ラベルなしの実両眼データのうちの左画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は深度ラベルなしの実両眼データのうちの右画像の第一両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は左画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は右画像の訓練後の第二両眼マッチングネットワークモデルによって出力された視差マップの勾配を表し、前記
は画素点の画素座標を表す、請求項6に記載の単眼深度推定方法。 The monocular depth estimation method is based on the formula
,or,
determining that the output gradient of the first binocular matching network model matches the output gradient of the second binocular matching network model using
where
represents the number of pixels in the image, and
represents the gradient of the disparity map output by the first binocular matching network model of the left image of real binocular data without depth labels, and
represents the gradient of the disparity map output by the first binocular matching network model of the right image of real binocular data without depth labels, and
represents the gradient of the disparity map output by the second binocular matching network model after training of the left image, said
represents the gradient of the disparity map output by the second binocular matching network model after training on the right image, said
7. A monocular depth estimation method according to claim 6 , wherein represents the pixel coordinates of a pixel point.
前記深度ラベル付きの実両眼データのうちの左画像または右画像を訓練サンプルとして取得するステップと、
前記深度ラベル付きの実両眼データのうちの左画像または右画像に基づいて単眼深度推定ネットワークモデルを訓練するステップと
を含む、請求項3に記載の単眼深度推定方法。 The depth-labeled real binocular data includes left and right images, for which the training process of the monocular depth estimation network model comprises:
obtaining a left image or a right image of the depth-labeled real binocular data as a training sample;
training a monocular depth estimation network model based on left or right images of the depth-labeled real binocular data ;
A monocular depth estimation method according to claim 3 , comprising:
前記深度ラベルなしの実両眼データを前記第一両眼マッチングニューラルネットワークモデルに入力し、対応する視差マップを得るステップと、
前記対応する視差マップおよび前記深度ラベルなしの実両眼データを撮影するカメラのレンズ基線長および前記深度ラベルなしの実両眼データを撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記深度ラベルなしの実両眼データのうちの左画像または右画像をサンプルデータとし、前記視差マップの対応する深度マップに基づいて単眼深度推定ネットワークモデルを教示し、それにより前記単眼深度推定ネットワークモデルを訓練するステップと
を含む、請求項4~9のいずれか一項に記載の単眼深度推定方法。 Wherein the unlabeled real binocular data includes left and right images, the training process of the monocular depth estimation network model comprises:
inputting the real binocular data without depth labels into the first binocular matching neural network model to obtain a corresponding disparity map;
Based on the lens base length of the camera that captures the corresponding parallax map and the real binocular data without the depth label and the lens focal length of the camera that captures the real binocular data without the depth label, the corresponding determining a depth map;
taking the left image or the right image of the real binocular data without depth labels as sample data, and teaching a monocular depth estimation network model based on the corresponding depth map of the disparity map, whereby the monocular depth estimation network model and
The monocular depth estimation method according to any one of claims 4 to 9 , comprising
前記単眼深度推定ネットワークモデルにより出力される視差マップおよび前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ基線長および前記単眼深度推定ネットワークモデルに入力される画像を撮影するカメラのレンズ焦点距離に基づき、前記視差マップの対応する深度マップを決定するステップと、
前記視差マップの対応する深度マップを出力するステップと
を含む、請求項10または請求項11に記載の単眼深度推定方法。 The analysis result of the image to be processed includes a disparity map output by the monocular depth estimation network model, and further comprising:
A disparity map output by the monocular depth estimation network model, a lens baseline length of a camera that captures an image that is input to the monocular depth estimation network model, and a lens of a camera that captures an image that is input to the monocular depth estimation network model determining a corresponding depth map of the disparity map based on the focal length;
outputting a corresponding depth map of the disparity map ;
The monocular depth estimation method according to claim 10 or 11 , comprising:
処理対象の画像を取得するように構成された取得モジュールと、
前記処理対象の画像を訓練された単眼深度推定ネットワークモデルに入力し、前記処理対象の画像の解析結果を得るように構成された実行モジュールであって、前記単眼深度推定ネットワークモデルは、第一両眼マッチングニューラルネットワークモデルにより出力される視差マップによる教師あり訓練によって得られたものである、実行モジュールと、
前記処理対象の画像の解析結果を出力するように構成された出力モジュールと
を含み、
前記単眼深度推定装置は、取得した合成サンプルデータに基づいて第二両眼マッチングニューラルネットワークモデルを訓練するように構成された第一訓練モジュールと、取得した実サンプルデータに基づいて訓練後の第二両眼マッチングニューラルネットワークモデルのパラメータを調整し、第一両眼マッチングニューラルネットワークモデルを得るように構成された第二訓練モジュールとをさらに含み、
前記単眼深度推定装置は、合成された左画像および合成された右画像を含む深度ラベル付きの合成された両眼画像を前記合成サンプルデータとして取得するように構成された第一取得モジュールをさらに含み、
前記単眼深度推定装置は、レンダリングエンジンによって仮想3Dシーンを構築するように構成された構築モジュールと、二つの仮想カメラによって前記3Dシーンを両眼画像としてマッピングするように構成されたマッピングモジュールと、前記仮想3Dシーンを構築する時の位置および前記仮想3Dシーンを構築する時の方向および前記仮想カメラのレンズ焦点距離に基づいて前記合成両眼画像の深度データを取得するように構成された第二取得モジュールと、前記深度データに基づいて前記両眼画像をラベル付けし、前記合成された両眼画像を得るように構成された第三取得モジュールとをさらに含む、単眼深度推定装置。 A monocular depth estimation device, the monocular depth estimation device comprising:
an acquisition module configured to acquire an image to be processed;
an execution module configured to input the image to be processed into a trained monocular depth estimation network model to obtain an analysis result of the image to be processed, wherein the monocular depth estimation network model is configured to: an execution module obtained by supervised training with a disparity map output by an eye-matching neural network model;
an output module configured to output an analysis result of the image to be processed ;
including
The monocular depth estimator includes a first training module configured to train a second binocular matching neural network model based on the acquired synthetic sample data, and a trained second model based on the acquired real sample data. a second training module configured to adjust parameters of the binocular matching neural network model to obtain a first binocular matching neural network model;
The monocular depth estimation apparatus further includes a first acquisition module configured to acquire a depth-labeled synthesized binocular image including a synthesized left image and a synthesized right image as the synthesized sample data. ,
The monocular depth estimation device comprises: a building module configured to build a virtual 3D scene by a rendering engine; a mapping module configured to map the 3D scene as binocular images by two virtual cameras; a second acquisition configured to acquire depth data of the synthesized binocular image based on a position and orientation when constructing the virtual 3D scene and a lens focal length of the virtual camera; and a third acquisition module configured to label the binocular image based on the depth data to obtain the combined binocular image .
前記コンピュータプログラムを実行することにより、請求項1~12のいずれか一項に記載の単眼深度推定方法を実行するプロセッサと
を含む単眼深度推定機器。 a memory storing a computer program executable by a processor ;
A processor that executes the monocular depth estimation method according to any one of claims 1 to 12 by executing the computer program
monocular depth estimation equipment including ;
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810496541.6A CN108961327B (en) | 2018-05-22 | 2018-05-22 | Monocular depth estimation method and device, equipment and storage medium thereof |
CN201810496541.6 | 2018-05-22 | ||
PCT/CN2019/076247 WO2019223382A1 (en) | 2018-05-22 | 2019-02-27 | Method for estimating monocular depth, apparatus and device therefor, and storage medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021515939A JP2021515939A (en) | 2021-06-24 |
JP7106665B2 true JP7106665B2 (en) | 2022-07-26 |
Family
ID=64499439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020546428A Active JP7106665B2 (en) | 2018-05-22 | 2019-02-27 | MONOCULAR DEPTH ESTIMATION METHOD AND DEVICE, DEVICE AND STORAGE MEDIUM THEREOF |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7106665B2 (en) |
CN (1) | CN108961327B (en) |
SG (1) | SG11202008787UA (en) |
WO (1) | WO2019223382A1 (en) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108961327B (en) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | Monocular depth estimation method and device, equipment and storage medium thereof |
CN111354032B (en) * | 2018-12-24 | 2023-10-20 | 杭州海康威视数字技术股份有限公司 | Method and device for generating disparity map |
CN111444744A (en) * | 2018-12-29 | 2020-07-24 | 北京市商汤科技开发有限公司 | Living body detection method, living body detection device, and storage medium |
CN109741388B (en) * | 2019-01-29 | 2020-02-28 | 北京字节跳动网络技术有限公司 | Method and apparatus for generating a binocular depth estimation model |
CN111508010B (en) * | 2019-01-31 | 2023-08-08 | 北京地平线机器人技术研发有限公司 | Method and device for estimating depth of two-dimensional image and electronic equipment |
CN109887019B (en) * | 2019-02-19 | 2022-05-24 | 北京市商汤科技开发有限公司 | Binocular matching method and device, equipment and storage medium |
CN111723926B (en) * | 2019-03-22 | 2023-09-12 | 北京地平线机器人技术研发有限公司 | Training method and training device for neural network model for determining image parallax |
CN110009674B (en) * | 2019-04-01 | 2021-04-13 | 厦门大学 | Monocular image depth of field real-time calculation method based on unsupervised depth learning |
CN110163246B (en) * | 2019-04-08 | 2021-03-30 | 杭州电子科技大学 | Monocular light field image unsupervised depth estimation method based on convolutional neural network |
CN110148179A (en) * | 2019-04-19 | 2019-08-20 | 北京地平线机器人技术研发有限公司 | A kind of training is used to estimate the neural net model method, device and medium of image parallactic figure |
CN113808061A (en) * | 2019-04-28 | 2021-12-17 | 深圳市商汤科技有限公司 | Image processing method and device |
CN110335245A (en) * | 2019-05-21 | 2019-10-15 | 青岛科技大学 | Cage netting damage monitoring method and system based on monocular space and time continuous image |
CN112149458A (en) * | 2019-06-27 | 2020-12-29 | 商汤集团有限公司 | Obstacle detection method, intelligent driving control method, device, medium, and apparatus |
CN110310317A (en) * | 2019-06-28 | 2019-10-08 | 西北工业大学 | A method of the monocular vision scene depth estimation based on deep learning |
CN110782412B (en) * | 2019-10-28 | 2022-01-28 | 深圳市商汤科技有限公司 | Image processing method and device, processor, electronic device and storage medium |
CN111105451B (en) * | 2019-10-31 | 2022-08-05 | 武汉大学 | Driving scene binocular depth estimation method for overcoming occlusion effect |
CN111126478B (en) * | 2019-12-19 | 2023-07-07 | 北京迈格威科技有限公司 | Convolutional neural network training method, device and electronic system |
CN113014899B (en) * | 2019-12-20 | 2023-02-03 | 杭州海康威视数字技术股份有限公司 | Binocular image parallax determination method, device and system |
CN111105432B (en) * | 2019-12-24 | 2023-04-07 | 中国科学技术大学 | Unsupervised end-to-end driving environment perception method based on deep learning |
CN111325786B (en) * | 2020-02-18 | 2022-06-28 | 北京市商汤科技开发有限公司 | Image processing method and device, electronic equipment and storage medium |
CN111340864B (en) * | 2020-02-26 | 2023-12-12 | 浙江大华技术股份有限公司 | Three-dimensional scene fusion method and device based on monocular estimation |
CN111445476B (en) * | 2020-02-27 | 2023-05-26 | 上海交通大学 | Monocular depth estimation method based on multi-mode unsupervised image content decoupling |
CN111354030B (en) * | 2020-02-29 | 2023-08-04 | 同济大学 | Method for generating unsupervised monocular image depth map embedded into SENet unit |
CN111428859A (en) * | 2020-03-05 | 2020-07-17 | 北京三快在线科技有限公司 | Depth estimation network training method and device for automatic driving scene and autonomous vehicle |
CN111310859A (en) * | 2020-03-26 | 2020-06-19 | 上海景和国际展览有限公司 | Rapid artificial intelligence data training system used in multimedia display |
CN111833390B (en) * | 2020-06-23 | 2023-06-20 | 杭州电子科技大学 | Light field depth estimation method based on unsupervised deep learning |
CN111784757B (en) * | 2020-06-30 | 2024-01-23 | 北京百度网讯科技有限公司 | Training method of depth estimation model, depth estimation method, device and equipment |
CN111932584B (en) * | 2020-07-13 | 2023-11-07 | 浙江大华技术股份有限公司 | Method and device for determining moving object in image |
KR102664835B1 (en) * | 2020-09-03 | 2024-05-08 | 세메스 주식회사 | Article storage and control method of article storage |
CN112150531B (en) * | 2020-09-29 | 2022-12-09 | 西北工业大学 | Robust self-supervised learning single-frame image depth estimation method |
CN112465888A (en) * | 2020-11-16 | 2021-03-09 | 电子科技大学 | Monocular vision-based unsupervised depth estimation method |
CN112446328B (en) * | 2020-11-27 | 2023-11-17 | 汇纳科技股份有限公司 | Monocular depth estimation system, method, apparatus, and computer-readable storage medium |
CN112561947A (en) * | 2020-12-10 | 2021-03-26 | 中国科学院深圳先进技术研究院 | Image self-adaptive motion estimation method and application |
CN112712017A (en) * | 2020-12-29 | 2021-04-27 | 上海智蕙林医疗科技有限公司 | Robot, monocular depth estimation method and system and storage medium |
CN112819875B (en) * | 2021-02-03 | 2023-12-19 | 苏州挚途科技有限公司 | Monocular depth estimation method and device and electronic equipment |
CN113160298B (en) * | 2021-03-31 | 2024-03-08 | 奥比中光科技集团股份有限公司 | Depth truth value acquisition method, device and system and depth camera |
CN112862877B (en) * | 2021-04-09 | 2024-05-17 | 北京百度网讯科技有限公司 | Method and apparatus for training an image processing network and image processing |
CN112991416A (en) * | 2021-04-13 | 2021-06-18 | Oppo广东移动通信有限公司 | Depth estimation method, model training method, device, equipment and storage medium |
CN113140011B (en) * | 2021-05-18 | 2022-09-06 | 烟台艾睿光电科技有限公司 | Infrared thermal imaging monocular vision distance measurement method and related components |
CN113570658A (en) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | Monocular video depth estimation method based on depth convolutional network |
CN114119698B (en) * | 2021-06-18 | 2022-07-19 | 湖南大学 | Unsupervised monocular depth estimation method based on attention mechanism |
CN113705432A (en) * | 2021-08-26 | 2021-11-26 | 京东鲲鹏(江苏)科技有限公司 | Model training and three-dimensional target detection method, device, equipment and medium |
CN114051128B (en) * | 2021-11-11 | 2023-09-05 | 北京奇艺世纪科技有限公司 | Method, device, equipment and medium for converting 2D video into 3D video |
CN115294375B (en) * | 2022-10-10 | 2022-12-13 | 南昌虚拟现实研究院股份有限公司 | Speckle depth estimation method and system, electronic device and storage medium |
CN115909446B (en) * | 2022-11-14 | 2023-07-18 | 华南理工大学 | Binocular face living body discriminating method, device and storage medium |
CN116703813B (en) * | 2022-12-27 | 2024-04-26 | 荣耀终端有限公司 | Image processing method and apparatus |
CN116165646B (en) * | 2023-02-22 | 2023-08-11 | 哈尔滨工业大学 | False alarm controllable radar target detection method based on segmentation network |
CN117156113B (en) * | 2023-10-30 | 2024-02-23 | 南昌虚拟现实研究院股份有限公司 | Deep learning speckle camera-based image correction method and device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107204010A (en) | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | A kind of monocular image depth estimation method and system |
WO2018046964A1 (en) | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
CN107909150A (en) | 2017-11-29 | 2018-04-13 | 华中科技大学 | Method and system based on block-by-block stochastic gradient descent method on-line training CNN |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102903096B (en) * | 2012-07-04 | 2015-06-17 | 北京航空航天大学 | Monocular video based object depth extraction method |
US10298911B2 (en) * | 2014-03-31 | 2019-05-21 | Empire Technology Development Llc | Visualization of spatial and other relationships |
CN106157307B (en) * | 2016-06-27 | 2018-09-11 | 浙江工商大学 | A kind of monocular image depth estimation method based on multiple dimensioned CNN and continuous CRF |
EP3293705B1 (en) * | 2016-09-12 | 2022-11-16 | Dassault Systèmes | 3d reconstruction of a real object from a depth map |
CN106600650A (en) * | 2016-12-12 | 2017-04-26 | 杭州蓝芯科技有限公司 | Binocular visual sense depth information obtaining method based on deep learning |
CN108961327B (en) * | 2018-05-22 | 2021-03-30 | 深圳市商汤科技有限公司 | Monocular depth estimation method and device, equipment and storage medium thereof |
-
2018
- 2018-05-22 CN CN201810496541.6A patent/CN108961327B/en active Active
-
2019
- 2019-02-27 SG SG11202008787UA patent/SG11202008787UA/en unknown
- 2019-02-27 WO PCT/CN2019/076247 patent/WO2019223382A1/en active Application Filing
- 2019-02-27 JP JP2020546428A patent/JP7106665B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018046964A1 (en) | 2016-09-12 | 2018-03-15 | Ucl Business Plc | Predicting depth from image data using a statistical model |
CN107204010A (en) | 2017-04-28 | 2017-09-26 | 中国科学院计算技术研究所 | A kind of monocular image depth estimation method and system |
CN107909150A (en) | 2017-11-29 | 2018-04-13 | 华中科技大学 | Method and system based on block-by-block stochastic gradient descent method on-line training CNN |
Also Published As
Publication number | Publication date |
---|---|
JP2021515939A (en) | 2021-06-24 |
WO2019223382A1 (en) | 2019-11-28 |
CN108961327B (en) | 2021-03-30 |
CN108961327A (en) | 2018-12-07 |
SG11202008787UA (en) | 2020-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7106665B2 (en) | MONOCULAR DEPTH ESTIMATION METHOD AND DEVICE, DEVICE AND STORAGE MEDIUM THEREOF | |
Ming et al. | Deep learning for monocular depth estimation: A review | |
Zhan et al. | Visual odometry revisited: What should be learnt? | |
Lu et al. | Multi-scale adversarial network for underwater image restoration | |
Shivakumar et al. | Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion | |
Hambarde et al. | UW-GAN: Single-image depth estimation and image enhancement for underwater images | |
EP3698323B1 (en) | Depth from motion for augmented reality for handheld user devices | |
Valentin et al. | Depth from motion for smartphone AR | |
AU2017324923B2 (en) | Predicting depth from image data using a statistical model | |
Yin et al. | Scale recovery for monocular visual odometry using depth estimated with deep convolutional neural fields | |
US20190114832A1 (en) | Image processing method and apparatus using depth value estimation | |
Hu et al. | Deep depth completion from extremely sparse data: A survey | |
US11049270B2 (en) | Method and apparatus for calculating depth map based on reliability | |
Wang et al. | Monocular 3d object detection with depth from motion | |
Gurram et al. | Monocular depth estimation through virtual-world supervision and real-world sfm self-supervision | |
Chen et al. | 3D neighborhood convolution: Learning depth-aware features for RGB-D and RGB semantic segmentation | |
US11948310B2 (en) | Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator | |
Ramirez et al. | Open challenges in deep stereo: the booster dataset | |
EP3608874B1 (en) | Ego motion estimation method and apparatus | |
CN114677422A (en) | Depth information generation method, image blurring method and video blurring method | |
Mehl et al. | M-fuse: Multi-frame fusion for scene flow estimation | |
CN116012609A (en) | Multi-target tracking method, device, electronic equipment and medium for looking around fish eyes | |
Zhai et al. | Geometry understanding from autonomous driving scenarios based on feature refinement | |
Haji-Esmaeili et al. | Large-scale Monocular Depth Estimation in the Wild | |
US20210334592A1 (en) | Reinforcement learning model for labeling spatial relationships between images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200904 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200904 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220701 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220713 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7106665 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |