JP6963695B2

JP6963695B2 - 単眼画像深度推定方法及び装置、機器、プログラム及び記憶媒体

Info

Publication number: JP6963695B2
Application number: JP2020542490A
Authority: JP
Inventors: 甘宇康; ▲許▼翔宇; ▲孫▼文秀; 林▲りゃん▼
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2019-04-11
Publication date: 2021-11-10
Anticipated expiration: 2039-04-11
Also published as: TWI766175B; US20200226773A1; KR102292559B1; US11443445B2; CN109035319B; CN109035319A; SG11202003878TA; TW202008308A; WO2020019761A1; KR20200044108A; JP2021500689A

Description

（関連出願の相互参照）
本願は、出願番号が２０１８１０８４５０４０．４で、出願日が２０１８年７月２７日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本願は、コンピュータビジョン技術に関し、特に、単眼画像深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体に関する。

画像の深度推定は、コンピュータビジョン分野の重要な課題となっており、現在、主に単眼画像深度推定と両眼画像深度推定を含む。ここで、単眼画像深度推定は主に単眼画像に基づいて画像の深度情報を推定するが、それが非常に困難な課題であるため、従来の単眼画像深度推定方法により予測された単眼画像の深度情報の正確度がまだ悪い。

本願の実施例は、単眼画像深度推定の技術的手段を提供する。

本願の実施例の一態様によれば、
深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、を含む単眼画像深度推定方法を提供する。

選択可能に、本願の上記方法実施例では、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップの前に、
前記単眼画像に対して第１ニューラルネットワークにより特徴抽出を行って前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするステップと、
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するステップと、を更に含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得する前記ステップには、
前記単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するステップを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記単眼画像に対して第１ニューラルネットワークにより特徴抽出を行うステップの前に、
前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するステップを更に含み、前記単眼画像の次元が前記所定次元の倍数である。

選択可能に、本願の上記のいずれか１つの方法実施例では、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップには、
全結合層によって前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するステップを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップには、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、前記単眼画像の予測深度マップを取得するステップを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップの後に、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップを更に含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップと、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと、を含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップを含み、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するステップを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップの前に、
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するステップを更に含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得する前記ステップには、
縦方向プーリング層によって前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するステップを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化する前記ステップには、
前記予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するステップを含み、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする。

本願の実施例の別の態様によれば、
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するように構成される深度推定ニューラルネットワークを含む単眼画像深度推定装置を提供する。

選択可能に、本願の上記装置実施例では、
前記単眼画像に対して特徴抽出を行って、前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするように構成される第１ニューラルネットワークを更に含み、
前記深度推定ニューラルネットワークは、更に、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するために用いられる。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴に対してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、
前記単眼画像に対して特徴抽出を行う前に、前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含み、前記単眼画像の次元が前記所定次元の倍数である。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するように構成される全結合層を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記深度推定ニューラルネットワークは、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて深度推定を行って、前記単眼画像の予測深度マップを取得するように構成される深度推定器を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される第２ニューラルネットワークを更に含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記第２ニューラルネットワークは、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得し、前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記第２ニューラルネットワークは、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するように構成される残差推定ネットワークと、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するように構成される加算ユニットと、を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記第２ニューラルネットワークは、更に、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するために用いられる。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記第２ニューラルネットワークは、
前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、
前記予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、
毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含み、
前記第２ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成され、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする。

本願の実施例の更に別の態様によれば、上記のいずれか１つの実施例に記載の装置を含む電子機器を提供する。

本願の実施例のまた１つの態様によれば、
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して上記のいずれか１つの実施例に記載の方法を実行するように構成されるプロセッサと、を含む電子機器を提供する。

本願の実施例のまた１つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか１つの実施例に記載の方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。

本願の実施例のまた１つの態様によれば、コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に上記のいずれか１つの実施例に記載の方法が実現されるように構成されるコンピュータ記憶媒体を提供する。

本願の上記実施例で提供される単眼画像深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体によれば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めて、単眼画像深度推定の正確度を高めることができる。
例えば、本願は以下の項目を提供する。
（項目１）
深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、を含む単眼画像深度推定方法。
（項目２）
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップの前に、
前記単眼画像に対して第１ニューラルネットワークにより特徴抽出を行って前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするステップと、
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するステップと、を更に含む項目１に記載の方法。
（項目３）
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得する前記ステップには、
前記単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するステップを含む項目２に記載の方法。
（項目４）
前記単眼画像に対して第１ニューラルネットワークにより特徴抽出を行うステップの前に、
前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するステップを更に含み、前記単眼画像の次元が前記所定次元の倍数である項目２又は３に記載の方法。
（項目５）
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップには、
全結合層によって前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するステップを含む項目１〜４のいずれか一項に記載の方法。
（項目６）
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップには、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、前記単眼画像の予測深度マップを取得するステップを含む項目１〜５のいずれか一項に記載の方法。
（項目７）
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップの後に、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップを更に含む項目１〜６のいずれか一項に記載の方法。
（項目８）
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップと、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと、を含む項目７に記載の方法。
（項目９）
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得する前記ステップには、
前記単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップを含み、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップには、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するステップを含む項目８に記載の方法。
（項目１０）
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップの前に、
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するステップを更に含む項目７〜９のいずれか一項に記載の方法。
（項目１１）
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得する前記ステップには、
縦方向プーリング層によって前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するステップを含む項目１０に記載の方法。
（項目１２）
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化する前記ステップには、
前記予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するステップを含み、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである項目７に記載の方法。
（項目１３）
前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする項目１〜１２のいずれか一項に記載の方法。
（項目１４）
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するように構成される深度推定ニューラルネットワークを含む単眼画像深度推定装置。
（項目１５）
前記単眼画像に対して特徴抽出を行って、前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするように構成される第１ニューラルネットワークを更に含み、
前記深度推定ニューラルネットワークは、更に、前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するために用いられる項目１４に記載の装置。
（項目１６）
前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴に対してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層を含む項目１５に記載の装置。
（項目１７）
前記単眼画像に対して特徴抽出を行う前に、前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含み、前記単眼画像の次元が前記所定次元の倍数である項目１５又は１６に記載の装置。
（項目１８）
前記深度推定ニューラルネットワークは、
前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するように構成される全結合層を含む項目１４〜１７のいずれか一項に記載の装置。
（項目１９）
前記深度推定ニューラルネットワークは、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて深度推定を行って、前記単眼画像の予測深度マップを取得するように構成される深度推定器を含む項目１４〜１８のいずれか一項に記載の装置。
（項目２０）
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される第２ニューラルネットワークを更に含む項目１４〜１９のいずれか一項に記載の装置。
（項目２１）
前記第２ニューラルネットワークは、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得し、前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される項目２０に記載の装置。
（項目２２）
前記第２ニューラルネットワークは、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するように構成される残差推定ネットワークと、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するように構成される加算ユニットと、を含む項目２１に記載の装置。
（項目２３）
前記第２ニューラルネットワークは、更に、前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するために用いられる項目２０〜２２のいずれか一項に記載の装置。
（項目２４）
前記第２ニューラルネットワークは、
前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層を含む項目２３に記載の装置。
（項目２５）
前記予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、
毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含み、
前記第２ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成され、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである項目２０に記載の装置。
（項目２６）
前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする項目１４〜２５のいずれか一項に記載の装置。
（項目２７）
項目１４〜２６のいずれか一項に記載の装置を含む電子機器。
（項目２８）
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して項目１〜１３のいずれか一項に記載の方法を実行するように構成されるプロセッサと、を含む電子機器。
（項目２９）
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが項目１〜１３のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
（項目３０）
コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に項目１〜１３のいずれか一項に記載の方法が実現されるように構成されるコンピュータ記憶媒体。

以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。

本願のいくつかの実施例の単眼画像深度推定方法のフローチャートである。本願の別の実施例の単眼画像深度推定方法のフローチャートである。本願の実施例でマルチスケール学習により最適化する時の各スケール最適化のフローチャートである。本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。本願のいくつかの実施例の単眼画像深度推定装置の構造模式図である。本願の別の実施例の単眼画像深度推定装置の構造模式図である。本願の更に別の実施例の単眼画像深度推定装置の構造模式図である。本願のいくつかの実施例で提供される電子機器の構造模式図である。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。

明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。

ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は本願のいくつかの実施例の単眼画像深度推定方法のフローチャートである。

図１に示すように、該方法は、以下のステップを含む。

１０２において、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得する。

本実施例では、単眼画像は、写真機、ビデオカメラ、スキャナ等のような画像取得装置から取得された画像であってもよいし、ＵＳＢメモリ、光ディスク、ハードディスク等のような記憶装置から取得された画像であってもよく、本実施例では単眼画像の取得方式が限定されない。ここで、単眼画像内の各所定領域の絶対特徴は、例えば、模様特徴、幾何特徴等を含んでよい、単眼画像内の各所定領域の局所的外観を表すためのものであってよい。単眼画像内の各所定領域の間の相対特徴は、例えば、模様相違点、幾何相違点等を含んでよい、単眼画像内の各所定領域の局所的外観同士の相違点を表すためのものであってよい。単眼画像中の各所定領域は画像の特徴により設定可能である。本実施例の深度マップとは、画像内の各画素の画素値で画像内の各画素から画像取得装置までの距離を表現する画像を指す。

選択可能な一例では、全結合層によって単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、単眼画像のグローバル特徴を取得するようにしてよい。

１０４において、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得する。

選択可能な一例では、単眼画像のグローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、単眼画像の予測深度マップを取得するようにしてよい。例えば、深度推定器としては、主に畳み込み層と逆畳み込み層からなり、画像の幾何分布情報、即ち、画像のグローバル特徴、画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて画像内の各画素の深度値を回帰させて予測深度マップを取得することができる完全畳み込みネットワークを用いてよい。

本実施例で提供される単眼画像深度推定方法は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高め、単眼画像深度推定の正確度を高めることができる。

選択可能に、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得する前に、更に、単眼画像に対して第１ニューラルネットワークにより特徴抽出を行って、単眼画像内の各所定領域の特徴を取得し、各所定領域の特徴を単眼画像内の各所定領域の絶対特徴とし、次に単眼画像内の各所定領域の絶対特徴に基づいて単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。例えば、第１ニューラルネットワークとしては、畳み込み層とプーリング層からなるエンコーダネットワークを用いてよく、単眼画像に対してエンコーダネットワークにより特徴抽出を行って、画像の高次元特徴を取得することができる。

選択可能な一例では、単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。ここで、画像内の各所定領域の間の相対特徴は、画像内の各所定領域とその周りの特定範囲内の所定領域の間の相対特徴であってよく、例えば、単眼画像内の各所定領域とその周りの特定範囲内の所定領域の間の特徴ベクトルに対してドット積演算を行うことによって、単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。

選択可能に、単眼画像に対して第１ニューラルネットワークにより特徴抽出を行う前に、更に、単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得し、所定次元を有する単眼画像を、深度推定ニューラルネットワークにより深度推定を行われる単眼画像とするようにしてよく、それによって、計算量を減少して、データ処理の速度を高める。ここで、単眼画像の次元は、所定次元の倍数であり、例えば、所定次元の８倍である。

通常、画像の垂直方向での深度変化は水平方向での深度変化より大きく、例えば、運転シーンでは、画像中の道路は一般的に垂直方向に沿ってビデオカメラから離れるところへ延伸し、このことから、画像深度情報の縦方向変化法則が画像絶対距離の推定に有利であることを分かった。従って、単眼画像の深度情報の縦方向変化法則を単眼画像の深度推定に用いることができ、例えば、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化することができる。

いくつかの実施例では、図２に示すように、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得する操作２０４の後に、
２０６において、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するステップを更に含んでよい。

選択可能に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得し、次に残差マップに基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するようにしてよい。

選択可能な一例では、単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得し、次に残差マップと予測深度マップに対して画素ずつの重畳演算を行って、単眼画像の目標深度マップを取得するようにしてよい。

選択可能に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得する前に、更に予測深度マップに基づいて、単眼画像の深度情報の縦方向変化法則を取得するようにしてよい。

選択可能な一例では、縦方向プーリング層によって予測深度マップを処理して、単眼画像の深度情報の縦方向変化法則を取得するようにしてよい。ここで、縦方向プーリング層は、列ベクトルを用いてプーリングカーネルとして、予測深度マップに対してプーリング処理を行ってよく、例えば、大きさがＨ×１のプーリングカーネルを用いて予測深度マップに対して平均プーリング処理を行ってよく、ここでＨが１より大きい整数である。

本実施例で提供される単眼画像深度推定方法は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得し、また、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めると共に、画像深度情報の縦方向変化法則を用いて最適化して、深度推定での絶対距離予測の正確度を高め、それによって単眼画像深度推定の正確度を全面的に高めることができる。

いくつかの実施例では、単眼画像に対して第１ニューラルネットワークにより特徴抽出を行う前に、単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得し、所定次元を有する単眼画像を、深度推定ニューラルネットワークにより深度推定を行われる単眼画像とする時に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化するようになっており、単眼画像深度推定の正確度を高めるために、マルチスケール学習の方法を用いてよい。

選択可能に、予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するようにしてよい。ここで、最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを単眼画像の目標深度マップとし、該目標深度マップの次元が単眼画像の次元と同じである。

以下、図３を参照しながら、マルチスケール学習により最適化する時の各スケール最適化のフローを詳細に説明する。

図３に示すように、該方法は、以下のステップを含む。

３０２において、第１所定次元を有する予測深度マップに対してアップサンプリングを行って、第２所定次元を有する予測深度マップを取得する。

本実施例では、第１所定次元を有する予測深度マップは、深度推定ニューラルネットワークから取得された予測深度マップであってもよいし、前のスケール最適化フローから取得された最適化後の目標深度マップであってもよい。第２所定次元は第１所定次元の倍数であり、ここで、第１所定次元と第２所定次元がアップサンプリングの回数、周波数及び単眼画像のサイズ等に依存するものであってよい。

選択可能な一例では、アップサンプリング層によって第１所定次元を有する予測深度マップに対してアップサンプリングを行って、第２所定次元を有する予測深度マップを取得するようにしてよい。

３０４において、第２所定次元を有する予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得する。

選択可能な一例では、縦方向プーリング層によって第２所定次元を有する予測深度マップを処理して、対応する深度情報の縦方向変化法則を取得するようにしてよい。

３０６において、対応する深度情報の縦方向変化法則に基づいて、第２所定次元を有する予測深度マップに対して残差推定を行って、対応する残差マップを取得する。

選択可能な一例では、対応する深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって第２所定次元を有する予測深度マップに対して残差推定を行って、対応する残差マップを取得するようにしてよい。

３０８において、対応する残差マップに基づいて、第２所定次元を有する予測深度マップを最適化して、最適化後の第２所定次元を有する目標深度マップを取得する。

選択可能な一例では、対応する残差マップと第２所定次元を有する予測深度マップに対して画素ずつの重畳演算を行うことで、最適化後の第２所定次元を有する目標深度マップを取得するようにしてよい。

図４Ａ〜図４Ｃは本願のいくつかの実施例の単眼画像深度推定方法を実現するネットワーク構成の模式図である。

本実施例では、図４Ａに示すように、本願の実施例の単眼画像深度推定方法を実現するネットワークは、畳み込みニューラルネットワーク、深度推定ニューラルネットワーク及び深度最適化ニューラルネットワークを含む。ここで、畳み込みニューラルネットワークは、ダウンサンプリング層と第１ニューラルネットワークを含み、ダウンサンプリング層によって単眼画像に対して８倍ダウンサンプリングを行って、次元が単眼画像の１／８の単眼画像を取得し、次に第１ニューラルネットワークによって１／８次元の単眼画像に対して特徴抽出を行って、１／８次元の単眼画像内の各所定領域の絶対特徴を取得する。

図４Ｂに示すように、深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、ここで、関連度層は１／８次元の単眼画像内の各所定領域の絶対特徴に基づいて、１／８次元の単眼画像内の各所定領域の間の相対特徴を取得することができ、全結合層は１／８次元の単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、１／８次元の単眼画像のグローバル特徴を取得することができ、深度推定器は１／８次元の画像のグローバル特徴、１／８次元の単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、１／８次元の予測深度マップを取得することができる。

本実施例では、深度最適化ニューラルネットワークは、第１スケール最適化ネットワーク、第２スケール最適化ネットワーク及び第３スケール最適化ネットワークを含み、ここで、各スケール最適化ネットワークの構造は、図４Ｃに示すように、いずれもアップサンプリング層、縦方向プーリング層、残差推定ネットワーク及び加算ユニットを含む。

ここで、第１スケール最適化ネットワークのアップサンプリング層は１／８次元の予測深度マップに対して２倍アップサンプリングを行って、１／４次元の予測深度マップを取得することができ、第１スケール最適化ネットワークの縦方向プーリング層は１／４次元の予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得することができ、第１スケール最適化ネットワークの残差推定ネットワークは１／４次元の予測深度マップに対応する深度情報の縦方向変化法則に基づいて、１／４次元の予測深度マップに対して残差推定を行って、対応する残差マップを取得することができ、第１スケール最適化ネットワークの加算ユニットは対応する残差マップと１／４次元の予測深度マップに対して画素ずつの重畳演算を行って、最適化後の１／４次元の目標深度マップを取得することができ、該最適化後の１／４次元の目標深度マップを第２スケール最適化ネットワークの予測深度マップとしてよい。

第２スケール最適化ネットワークのアップサンプリング層は最適化後の１／４次元の目標深度マップに対して２倍アップサンプリングを行って、１／２次元の予測深度マップを取得することができ、第２スケール最適化ネットワークの縦方向プーリング層は１／２次元の予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得することができ、第２スケール最適化ネットワークの残差推定ネットワークは１／２次元の予測深度マップに対応する深度情報の縦方向変化法則に基づいて、１／２次元の予測深度マップに対して残差推定を行って、対応する残差マップを取得することができ、第２スケール最適化ネットワークの加算ユニットは対応する残差マップと１／２次元の予測深度マップに対して画素ずつの重畳演算を行って、最適化後の１／２次元の目標深度マップを取得することができ、該最適化後の１／２次元の目標深度マップを第３スケール最適化ネットワークの予測深度マップとしてよい。

第３スケール最適化ネットワークのアップサンプリング層は最適化後の１／２次元の目標深度マップに対して２倍アップサンプリングを行って、次元が単眼画像の次元と同じな予測深度マップを取得することができ、第３スケール最適化ネットワークの縦方向プーリング層は次元が単眼画像の次元と同じな予測深度マップに基づいて、対応する深度情報の縦方向変化法則を取得することができ、第３スケール最適化ネットワークの残差推定ネットワークは次元が単眼画像の次元と同じな予測深度マップに対応する深度情報の縦方向変化法則に基づいて、次元が単眼画像の次元と同じな予測深度マップに対して残差推定を行って、対応する残差マップを取得することができ、第３スケール最適化ネットワークの加算ユニットは対応する残差マップと次元が単眼画像の次元と同じな予測深度マップに対して画素ごとの重畳を行って、最適化後の次元が単眼画像の次元と同じな目標深度マップを取得することができ、該最適化後の深度マップを単眼画像の目標深度マップとしてよい。

選択可能な一例では、上記各実施例の深度推定ニューラルネットワークは、両眼画像の立体的なマッチングで取得された密な深度マップと疎な深度マップをアノテーションデータとして利用して、半教師ありトレーニングを行うことによって取得されてよい。

本実施例では、他の方法で取得されたトレーニングデータの「アノテーションデータ」が比較的疎なものであり、即ち、深度マップ中の有効画素値が比較的少なく、従って、両眼マッチングで取得された深度マップをトレーニングデータの「アノテーションデータ」とする。

本願の実施例で提供される単眼画像深度推定方法は、シーン幾何構成解析、自動運転、運転支援、目標追跡及びロボットの自律的障害物回避等の分野に利用可能である。例えば、運転シーンでは、本願の実施例で提供される単眼画像深度推定方法を用いて前方車両又は通行人までの距離を予測することができる。携帯電話で写真を撮る時に、本願の実施例で提供される単眼画像深度推定方法で予測された深度情報を用いて単眼ぼかし操作を行うことができ、本願の実施例で提供される単眼画像深度推定方法の予測結果を用いれば、物体追跡アルゴリズムの改善に寄与することが可能になる。

図５は本願のいくつかの実施例の単眼画像深度推定装置の構造模式図である。

図５に示すように、該装置は、深度推定ニューラルネットワーク５１０を含む。ここで、
深度推定ニューラルネットワーク５１０は、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するように構成される。

選択可能な一例では、図５に示すように、深度推定ニューラルネットワーク５１０は、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、単眼画像のグローバル特徴を取得するように構成される全結合層５１１を含んでよい。深度推定ニューラルネットワーク５１０は、単眼画像のグローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定を行って、単眼画像の予測深度マップを取得するように構成される深度推定器５１２を更に含んでよい。例えば、深度推定器としては、主に畳み込み層と逆畳み込み層からなり、画像の幾何分布情報、即ち、画像のグローバル特徴、画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて画像内の各画素の深度値を回帰させて予測深度マップを取得することができる完全畳み込みネットワークを用いてよい。

本実施例で提供される単眼画像深度推定装置は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高め、単眼画像深度推定の正確度を高めることができる。

図６は本願の別の実施例の単眼画像深度推定装置の構造模式図である。

図６に示すように、図５の実施例と比べて、該装置に第１ニューラルネットワーク６２０を更に含むことで異なっている。

第１ニューラルネットワーク６２０は、単眼画像に対して特徴抽出を行って、単眼画像内の各所定領域の特徴を取得し、各所定領域の特徴を単眼画像内の各所定領域の絶対特徴とするように構成される。例えば、第１ニューラルネットワークとしては、畳み込み層とプーリング層からなるエンコーダネットワークを用いてよく、単眼画像に対してエンコーダネットワークにより特徴抽出を行って、画像の高次元特徴を取得することができる。

深度推定ニューラルネットワーク６１０は、更に、単眼画像内の各所定領域の絶対特徴に基づいて、単眼画像内の各所定領域の間の相対特徴を取得するために用いられる。

選択可能な一例では、図６に示すように、深度推定ニューラルネットワーク６１０は、単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、単眼画像内の各所定領域の間の相対特徴を取得するように構成される関連度層６１３を更に含んでよい。ここで、画像内の各所定領域の間の相対特徴は、画像内の各所定領域とその周りの特定範囲内の所定領域の間の相対特徴であってよく、例えば、単眼画像内の各所定領域とその周りの特定範囲内の所定領域の間の特徴ベクトルに対してドット積演算を行うことによって、単眼画像内の各所定領域の間の相対特徴を取得するようにしてよい。

選択可能に、該装置は、単眼画像に対して特徴抽出を行う前に、単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得するように構成されるダウンサンプリング層を更に含んでよく、この時に深度推定ニューラルネットワーク６１０は、所定次元を有する単眼画像に対して深度推定を行って、計算量を減少して、データ処理の速度を高める。ここで、単眼画像の次元は、所定次元の倍数であり、例えば、所定次元の８倍である。

図７は本願の別の実施例の単眼画像深度推定装置の構造模式図である。

図７に示すように、図５の実施例と比べて、該装置に第２ニューラルネットワーク７３０を更に含むことで異なっている。

第２ニューラルネットワーク７３０は、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するように構成される。

選択可能に、第２ニューラルネットワーク７３０は、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得し、次に残差マップに基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するように構成される。

選択可能な一例では、図７に示すように、第２ニューラルネットワーク７３０は、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップに対して残差推定を行って、予測深度マップの残差マップを取得するように構成される残差推定ネットワーク７３１と、残差マップと予測深度マップに対して画素ずつの重畳演算を行って、単眼画像の目標深度マップを取得するように構成される加算ユニット７３２と、を含んでよい。

選択可能に、第２ニューラルネットワーク７３０は、更に、予測深度マップに基づいて、単眼画像の深度情報の縦方向変化法則を取得するために用いられる。

選択可能な一例では、図７に示すように、第２ニューラルネットワーク７３０は、縦方向プーリング層によって予測深度マップを処理して、単眼画像の深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層７３３を更に含んでよい。ここで、縦方向プーリング層は、列ベクトルを用いてプーリングカーネルとして、予測深度マップに対してプーリング処理を行ってよく、例えば、縦方向プーリング層は、大きさがＨ×１のプーリングカーネルを用いて予測深度マップに対して平均プーリング処理を行ってよく、ここでＨが１より大きい整数である。

本実施例で提供される単眼画像深度推定装置は、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像のグローバル特徴を取得し、また、グローバル特徴、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、単眼画像の予測深度マップを取得し、また、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化して、単眼画像の目標深度マップを取得するようになっており、単眼画像深度推定で画像内の各所定領域の相対特徴と絶対特徴を用いて相互に補充することによって、深度推定での相対距離予測の正確度を高めると共に、画像深度情報の縦方向変化法則を用いて最適化して、深度推定での絶対距離予測の正確度を高め、それによって単眼画像深度推定の正確度を全面的に高めることができる。

選択可能な一例では、単眼画像に対して第１ニューラルネットワークにより特徴抽出を行う前に、ダウンサンプリング層によって単眼画像に対してダウンサンプリングを行って、所定次元を有する単眼画像を取得し、所定次元を有する単眼画像を、深度推定ニューラルネットワークにより深度推定を行われる単眼画像とする時に、単眼画像の深度情報の縦方向変化法則に基づいて、予測深度マップを最適化するようになっており、単眼画像深度推定の正確度を高めるために、マルチスケール学習の方法を用いてよい。

選択可能に、該装置は、予測深度マップに対して所定回数のアップサンプリングを行うように構成されるアップサンプリング層と、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得するように構成される縦方向プーリング層と、を更に含んでよく、第２ニューラルネットワークは、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するように構成される。ここで、最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを単眼画像の目標深度マップとし、該目標深度マップの次元が単眼画像の次元と同じである。

選択可能な一例では、他の方法で取得されたトレーニングデータの「アノテーションデータ」が比較的疎なものであり、即ち、深度マップ中の有効画素値が比較的少なく、従って、両眼画像の立体的なマッチングで取得された深度マップをトレーニングデータの「アノテーションデータ」とする。本願の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器８００の構造模式図を示す図８を参照し、図８に示すように、電子機器８００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）８０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）８１３などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）８０２に記憶された実行可能コマンド又は記憶部８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部８１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されなく、プロセッサは読み取り専用メモリ８０２及び／又はランダムアクセスメモリ８０３と通信して実行可能コマンドを実行し、通信バス８０４を介して通信部８１２に接続され、通信部８１２を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する。

また、ＲＡＭ８０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ８０１、ＲＯＭ８０２及びＲＡＭ８０３は、通信バス８０４を介して相互に接続される。ＲＡＭ８０３を有する場合に、ＲＯＭ８０２は選択可能なモジュールである。ＲＡＭ８０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ８０２に書き込み、実行可能コマンドによって中央処理ユニット８０１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インターフェイス８０５も通信バス８０４に接続される。通信部８１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部８０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部８０７と、ハードディスクなどを含む記憶部８０８と、ＬＡＮカード、モデムなどのネットワークインターフェイスカードを含む通信部８０９とがＩ／Ｏインターフェイス８０５に接続されている。通信部８０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ８１０も必要に応じてＩ／Ｏインターフェイス８０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体８１１は、必要に応じてドライブ８１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部８０８にインストールする。

なお、図８に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図８の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵ８１３とＣＰＵ８０１は分離設置するかまたはＧＰＵ８１３をＣＰＵ８０１に統合するようにしてよく、通信部は分離設置するか、またはＣＰＵ８０１やＧＰＵ８１３に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願で開示された保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する。このような実施例では、該コンピュータプログラムは通信部８０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体８１１からインストールされ得る。中央処理ユニット（ＣＰＵ）８０１によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能を実行する。

１つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ可読コマンドを記憶し、該コマンドが実行される時にコンピュータが上記のいずれか１つの可能な実現形態における画像回復方法を実行するように構成されるコンピュータプログラム製品を更に提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、該コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、該コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として実現される。

１つ又は複数の選択可能な実施形態では、本願の実施例は、第１装置から第２装置へ単眼画像深度推定指示を送信し、該指示により第２装置に上記のいずれか１つの可能な実施例における単眼画像深度推定方法を実行させるステップと、第１装置により第２装置から送信される単眼画像深度推定の結果を受信するステップと、を含む単眼画像深度推定方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供する。

いくつかの実施例では、該単眼画像深度推定指示は具体的には呼び出しコマンドであってもよく、第１装置は呼び出すことで第２装置に単眼画像深度推定を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第２装置は上記単眼画像深度推定方法中の任意の実施例中のステップ及び／又はフローを実行することができる。

本願の実施例における「第１」、「第２」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。

更に、本願では、「複数の」は２つ又は２つ以上を指してよく、「少なくとも１つの」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。

本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

深度推定ニューラルネットワークにより、単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得するステップと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するステップと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップの後に、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと
を含む単眼画像深度推定方法。
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップの前に、
前記単眼画像に対して第１ニューラルネットワークにより特徴抽出を行って前記単眼画像内の各所定領域の特徴を取得し、前記各所定領域の特徴を前記単眼画像内の各所定領域の絶対特徴とするステップと、
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得するステップと
を更に含む、請求項１に記載の方法。
前記単眼画像内の各所定領域の絶対特徴に基づいて、前記単眼画像内の各所定領域の間の相対特徴を取得する前記ステップは、
前記単眼画像内の各所定領域の絶対特徴に対して、関連度層を介してベクトル演算を行って、前記単眼画像内の各所定領域の間の相対特徴を取得するステップを含む、請求項２に記載の方法。
前記単眼画像に対して第１ニューラルネットワークにより特徴抽出を行うステップの前に、
前記単眼画像に対してダウンサンプリングを行って所定次元を有する単眼画像を取得するステップを更に含み、前記単眼画像の次元が前記所定次元の倍数である、請求項２又は請求項３に記載の方法。
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得する前記ステップは、
全結合層によって前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴を組み合わせ、前記単眼画像のグローバル特徴を取得するステップを含む、請求項１〜４のいずれか一項に記載の方法。
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得する前記ステップは、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、深度推定器で深度推定を行って、前記単眼画像の予測深度マップを取得するステップを含む、請求項１〜５のいずれか一項に記載の方法。
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップは、
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップと、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するステップと
を含む、請求項１に記載の方法。
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得する前記ステップは、
前記単眼画像の深度情報の縦方向変化法則に基づいて、残差推定ネットワークによって前記予測深度マップに対して残差推定を行って、前記予測深度マップの残差マップを取得するステップを含み、
前記残差マップに基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップは、
前記残差マップと前記予測深度マップに対して画素ずつの重畳演算を行って、前記単眼画像の目標深度マップを取得するステップを含む、請求項７に記載の方法。
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得する前記ステップの前に、
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得するステップを更に含む、請求項１〜８のいずれか一項に記載の方法。
前記予測深度マップに基づいて、前記単眼画像の深度情報の縦方向変化法則を取得する前記ステップは、
縦方向プーリング層によって前記予測深度マップを処理して、前記単眼画像の深度情報の縦方向変化法則を取得するステップを含む、請求項９に記載の方法。
前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化する前記ステップは、
前記予測深度マップに対して所定回数のアップサンプリングを行い、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップに基づいて、深度情報の縦方向変化法則を取得し、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップの深度情報の縦方向変化法則に基づいて、毎回のアップサンプリングで取得された、次元が倍に順次増大する予測深度マップを最適化して、最適化後の目標深度マップを取得するステップを含み、
最終回のアップサンプリング以外の毎回のアップサンプリングで取得された最適化後の目標深度マップを次回のアップサンプリングの予測深度マップとし、最終回のアップサンプリングで取得された最適化後の目標深度マップを、前記単眼画像の目標深度マップとし、前記目標深度マップの次元が前記単眼画像の次元と同じである、請求項１に記載の方法。
前記深度推定ニューラルネットワークは、関連度層、全結合層及び深度推定器を含み、疎な深度マップと両眼画像の立体的なマッチングで取得された密な深度マップをアノテーションデータとして利用して、前記深度推定ニューラルネットワークをトレーニングする、請求項１〜１１のいずれか一項に記載の方法。
単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像のグローバル特徴を取得し、前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得するように構成される深度推定ニューラルネットワークと、
前記グローバル特徴、前記単眼画像内の各所定領域の絶対特徴及び各所定領域の間の相対特徴に基づいて、前記単眼画像の予測深度マップを取得した後に、前記単眼画像の深度情報の縦方向変化法則に基づいて、前記予測深度マップを最適化して、前記単眼画像の目標深度マップを取得するように構成される第２ニューラルネットワークと
を含む、単眼画像深度推定装置。
請求項１３に記載の装置を含む電子機器。
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して請求項１〜１２のいずれか一項に記載の方法を実行するように構成されるプロセッサと
を含む電子機器。
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが請求項１〜１２のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に請求項１〜１２のいずれか一項に記載の方法が実現されるように構成されるコンピュータ記憶媒体。