JP2021502626A

JP2021502626A - 両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体

Info

Publication number: JP2021502626A
Application number: JP2020522837A
Authority: JP
Inventors: ルイチャオシアオ; ウェンシウスン; チョンシーヤン
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2018-07-27
Filing date: 2019-04-12
Publication date: 2021-01-28
Anticipated expiration: 2039-04-12
Also published as: SG11202003899WA; TW202008310A; WO2020019765A1; CN109191512A; TWI721510B; US11295466B2; JP7123133B2; CN109191512B; US20200258250A1

Abstract

本願の実施例は、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法及び装置、機器、プログラム並びに媒体を開示する。本願の実施例は、視差画像を得ると同時に、対応する信頼度画像を得ることができ、信頼度画像を用いて視差画像を検出して、より精確な深度画像を取得する。

Description

（関連出願の相互参照）
本願は、出願番号が２０１８１０８４７２６８．７で、出願日が２０１８年７月２７日である中国特許出願に基づいて提出され、且つ該中国特許出願の優先権を主張し、該中国特許出願の全ての内容が参照によって本願に組み込まれる。

本願は、コンピュータビジョン技術に関し、特に、両眼画像の深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体に関する。

機械学習技術が進むに伴って、深度学習ネットワークは、自動運転等の多くの現実的シーンで適用されている。これらの適用では予測結果が非常に重要なものであり、特に、深度学習に基づく回帰タスク、例えば、両眼の立体的なマッチングで、通常、予測結果が正確であると仮定されている。しかしながら、このような仮定が合理的なものでなく、誤って予測された画素が非常に重要な領域、例えば、細かくて小さい障害物にある場合に、深度学習に基づく回避システムの故障を招くことがある。また、これらの深度学習ネットワークを他のシーンに配置する時にも、芳しくない結果、更に合理的でない結果を招くことがある。

本願の実施例は、両眼画像の深度推定手段を提供する。

本願の実施例の一態様によれば、
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法を提供する。

選択可能に、本願の上記方法実施例では、処理対象である両眼画像を所定ニューラルネットワークに入力して、信頼度画像を得る前記ステップは、
前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、２つの畳み込み層と１つの正規化層によって順に処理して前記信頼度画像を得るステップを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするステップを更に含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて前記損失関数を算出するステップは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得するステップと、
前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得するステップと、
前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するステップと、を含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記所定分布は、ラプラス分布又はガウス分布を含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、前記所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

選択可能に、本願の上記のいずれか１つの方法実施例では、所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

本願の実施例の別の態様によれば、
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るように構成される視差画像取得ユニットであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈する視差画像取得ユニットと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するように構成される深度画像取得ユニットと、を含む両眼画像の深度推定装置を提供する。

選択可能に、本願の上記装置実施例では、前記視差画像取得ユニットは、前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、２つの畳み込み層と１つの正規化層によって順に処理して前記信頼度画像を得るように構成される。

選択可能に、本願の上記のいずれか１つの装置実施例では、
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするように構成されるニューラルネットワークトレーニングユニットを更に含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記ニューラルネットワークトレーニングユニットは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得し、前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得し、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するように構成される損失関数取得モジュールを含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、前記所定分布は、ラプラス分布又はガウス分布を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

選択可能に、本願の上記のいずれか１つの装置実施例では、所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

本願の実施例の更に別の態様によれば、上記のいずれか１つの実施例に記載の装置を含む電子機器を提供する。

本願の実施例のまた１つの態様によれば、
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して上記のいずれか１つの実施例に記載の方法を完了するように構成されるプロセッサと、を含む電子機器を提供する。

本願の実施例のまた１つの態様によれば、コンピュータ可読コードを含むコンピュータプログラムをであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが上記のいずれか１つの実施例に記載の方法を実現するためのコマンドを実行するコンピュータプログラムを提供する。

本願の実施例のまた１つの態様によれば、コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に上記のいずれか１つの実施例に記載の方法が実現されるように構成されるコンピュータ記憶媒体を提供する。

本願の上記実施例で提供される両眼画像の深度推定方法及び装置、電子機器、コンピュータプログラム並びに記憶媒体によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。

以下、図面及び実施例を通じて本願の技術的手段をさらに詳しく説明する。

明細書の一部を構成する図面は、本願の実施例を説明し、その説明と共に本願の原理を解釈することに用いられる。

図面を参照し、以下の詳細な説明により本願をより明瞭に理解することができる。
本願のいくつかの実施例の両眼画像の深度推定方法のフローチャートである。本願のいくつかの実施例で信頼度を含む損失関数を取得するフローチャートである。本願のいくつかの実施例の両眼画像の深度推定装置の構造模式図である。本願のいくつかの実施例で提供される電子機器の構造模式図である。

ここで、図面を参照しながら本願の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本願の範囲を限定するものではないことに注意すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本願及びその適用または使用へのなんらの制限にもならない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。

なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本願の実施例はコンピュータシステム／サーバに適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。コンピュータシステム／サーバとの併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

コンピュータシステム／サーバはコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は本願のいくつかの実施例の両眼画像の深度推定方法のフローチャートである。

図１に示すように、該方法は、以下のステップを含む。

１０２において、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。

本実施例では、処理対象である両眼画像は、ビデオカメラ等のような画像取得装置で直接入手された画像であってもよく、ＵＳＢメモリ等のような記憶装置から入手された予め記憶された画像であってもよく、更にネットワークを経由してウェブサーバから入手された画像であってもよく、本実施例では処理対象である両眼画像の取得方式が限定されない。処理対象である両眼画像の左視界画像と右視界画像、又は処理対象である両眼画像の上視界画像と下視界画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得る。左視界画像と右視界画像、上視界画像と下視界画像は相対的な２つの画像であり、具体的に更に他の名称であってもよく、本実施例では具体的に限定されなく、後続の実施例で左視界画像、右視界画像をもって説明する。視差画像は左視界画像を基准として得られた左視界画像に対応する視差画像であってもよく、右視界画像を基准として得られた右視界画像に対応する視差画像であってもよく、本実施例では限定されない。信頼度画像は視差画像に基づいて取得された、視差画像内の各画素の信頼度を示す画像であってよく、ここで、視差画像内の各画素の所定分布における離散パラメータは該画素の信頼度と負の相関関係を呈し、離散パラメータは標準偏差パラメータを含むが、それに限定されない。

本実施例では、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予め決定されたニューラルネットワークであってよく、この時に所定ニューラルネットワークによって所望の視差画像を取得可能であり、所定ニューラルネットワークは、処理対象である両眼画像の左視界画像と右視界画像を処理する前に予めトレーニングされたニューラルネットワークであってもよく、この時に処理対象である両眼画像の左視界画像と右視界画像はトレーニングデータ集合から取得された画像であってよく、処理対象である両眼画像の左視界画像と右視界画像によって所定ニューラルネットワークをトレーニングすることができる。

選択可能な一例では、所定ニューラルネットワークは、両眼立体マッチングニューラルネットワーク、２つの畳み込み層及び１つの正規化（Ｓｉｇｍｏｉｄ）層を含んでよく、処理対象である両眼画像の左視界画像と右視界画像を両眼立体マッチングニューラルネットワークにより処理された後、２つの畳み込み層と１つの正規化層によって順に処理して頼度画像を取得するようにしてよい。本実施例は信頼度画像を得るネットワークの構成について限定するものではない。

１０４において、視差画像に基づいて、処理対象である両眼画像の深度画像を取得する。

選択可能に、処理対象である両眼画像の視差画像を取得した後、カメラ結像投影モデルにより、深度情報と視差情報の幾何演算関係に基づいて、処理対象である両眼画像の深度画像を取得するようにしてよく、本実施例は視差画像に基づいて、深度画像を取得する方法について限定するものではない。

本実施例で提供される両眼画像の深度推定方法によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。

いくつかの実施例では、損失関数を用いて所定ニューラルネットワークをトレーニングしてよく、ここで、損失関数は視差画像内の各画素の信頼度及び該画素の所定分布における離散パラメータに基づいて算出可能であり、即ち、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという信頼度の物理的な意義により、信頼度を含む損失関数を取得することができ、損失関数中の信頼度を用いて損失関数を最適化して、該損失関数を用いてトレーニングされた所定ニューラルネットワークにより好適なロバスト性を持たせることができる。

選択可能に、損失関数は、フォーカス損失項及び正則化項を含んでよく、ここで、フォーカス損失項は、信頼度によって視差画像内の各画素の損失関数での重みを自動的に調整して、視差画像内の信頼度が高い画素に大きい重みを持たせ、視差画像中の信頼度が低い画素に小さい重みを持たせることができ、それによって学習した信頼度を所定ニューラルネットワークのトレーニングプロセスに同期して適用して、入力データ中のノイズによる影響を低減することができ、例えば、入力データ中のノイズが処理対象である両眼画像内の遮蔽された領域等であり、所定ニューラルネットワークがより好ましい段階で縮約可能であり、より好適なロバスト性を有する。

選択可能に、損失関数中の正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含んでよく、ここで、信頼度に関連する正則化項は、視差画像内の信頼度が低い画素の損失重みが小さ過ぎないように、トレーニングの効率を確保することができ、所定ニューラルネットワークパラメータに関連する正則化項は重み正則化項にもなり、トレーニングプロセスでの所定ニューラルネットワークの過剰適合を防止することができる。

図２は本願のいくつかの実施例で信頼度を含む損失関数を取得するフローチャートである。

図２に示すように、該方法は以下のステップを含む。

２０２において、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、所定ニューラルネットワークパラメータに関する尤度関数を取得する。

選択可能に、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、ベイズ確率論により所定ニューラルネットワークパラメータに関する尤度関数を取得してよい。

２０４において、視差画像内の各画素の従う所定分布に基づいて、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得する。

選択可能に、視差画像中の各画素を異なる標準偏差の所定分布に従わせることによって、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得してよい。

２０６において、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係に基づいて、所定ニューラルネットワークパラメータが所定分布に従い、視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、尤度関数に対して負対数を取って、損失関数を取得する。

選択可能に、所定ニューラルネットワークパラメータは、平均値がゼロで、標準偏差が１である所定分布に従ってよい。

選択可能に、所定分布はラプラス分布又はガウス分布であってよい。

いくつかの実施例では、所定分布がラプラス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

ここで、ベイズ確率論により、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、以下のような所定ニューラルネットワークパラメータに関する尤度関数が取得される。

（式１）
ただし、ｘ＝｛ｘ_１、ｘ_２、…、ｘ_Ｔ｝は処理対象である両眼画像であり、ｙ＝｛ｙ_１、ｙ_２、…、ｙ_Ｎ｝は真実視差画像であり、ただし、ＴとＮはそれぞれ処理対象である両眼画像と真実視差画像中の画素数量であり、ｗは所定ニューラルネットワークのパラメータであり、ｃ＝｛ｃ_１、ｃ_２、…、ｃ_Ｎ｝は信頼度画像である。

視差画像内の各画素が異なる標準偏差のラプラス分布に従うことに基づいて、
（式２）

以下のような視差画像内の各画素の信頼度と該画素のラプラス分布での離散パラメータとの負の相関関係が取得される。
（式３）
ただし、ｂ＝｛ｂ_１、ｂ_２、…、ｂ_Ｎ｝は異なる標準偏差のラプラス分布であり、ｂ_ｉはラプラス分布の標準偏差パラメータ、即ち離散パラメータであり、ｃ_ｉ∈［０，１］はランダム変数とし、ｂ_ｉとｃ_ｉの線形逓減関数で負の相関関係を呈し、ｋ及びａは、ｂ_ｉ≧１を常に満たしているように、ａ≧ｋ＋１を満たす２つの正定数である。

所定ニューラルネットワークパラメータが、平均値がゼロで、標準偏差が１であるラプラス分布に従い、
（式４）
視差画像内の各画素の信頼度が非逓減分布に従い、γ≧０であることに基づいて、
（式５）

式２、式３、式４及び式５を式１に代入して、尤度関数に対して負対数を取って、損失関数を取得する。

（式６）

別の些実施例では、所定分布がガウス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

視差画像内の各画素が異なる標準偏差のガウス分布に従うことに基づいて、
（式７）

以下のような視差画像内の各画素の信頼度と該画素のガウス分布での離散パラメータとの負の相関関係が取得される。
（式３）
ただし、ｂ＝｛ｂ_１、ｂ_２、…、ｂ_Ｎ｝は異なる標準偏差のガウス分布であり、ｂ_ｉはガウス分布の標準偏差パラメータ、即ち離散パラメータであり、ｃ_ｉ∈［０，１］はランダム変数とし、ｂ_ｉとｃ_ｉの線形逓減関数で負の相関関係を呈し、ｋ及びａは、ｂ_ｉ≧１を常に満たしているように、ａ≧ｋ＋１を満たす２つの正定数である。

所定ニューラルネットワークパラメータが、平均値がゼロで、標準偏差が１であるガウス分布に従い、
（式８）
視差画像内の各画素の信頼度が非逓減分布に従い、γ≧０であることに基づいて、
（式５）

式７、式３、式８及び式５を式１に代入して、尤度関数に対して負対数を取って、損失関数を取得する。

（式９）

本願の上記各実施例の方法は、携帯電話、タブレットコンピュータ等のような携帯端末又は自動運転等の装置の画像処理に利用可能である。

図３は本願のいくつかの実施例の両眼画像の深度推定装置の構造模式図である。

図３に示すように、該装置は、視差画像取得ユニット３１０と深度画像取得ユニット３２０を含む。

視差画像取得ユニット３１０は、処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像及びその信頼度画像を得るように構成される。

選択可能な一例では、所定ニューラルネットワークは、両眼立体マッチングニューラルネットワーク、２つの畳み込み層及び１つの正規化（Ｓｉｇｍｏｉｄ）層を含んでよく、視差画像取得ユニット３１０は、処理対象である両眼画像の左視界画像と右視界画像を両眼立体マッチングニューラルネットワークにより処理された後、２つの畳み込み層と１つの正規化層によって順に処理して信頼度画像を得ることができる。本実施例は信頼度画像を得るネットワークの構成について限定するものではない。

深度画像取得ユニット３２０は、視差画像に基づいて、処理対象である両眼画像の深度画像を取得するように構成される。

本実施例で提供される両眼画像の深度推定装置によれば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、次に視差画像に基づいて、処理対象である両眼画像の深度画像を取得することによって、所定ニューラルネットワークで視差画像を得ると同時に、対応する信頼度画像を得、そのように、信頼度アノテーションを教師データとせずに、教師無しの学習方式で視差画像に対応する信頼度画像を得ることができ、信頼度は、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという物理的な意義を有するので、信頼度画像を用いて視差画像における誤りが発生可能な領域を検出して、視差画像の解析に寄与して、より精確な深度画像を取得することができる。

いくつかの実施例では、両眼画像の深度推定装置は、損失関数を用いて所定ニューラルネットワークをトレーニングするためのニューラルネットワークトレーニングユニットを更に含んでよく、ここで、損失関数は視差画像内の各画素の信頼度及び該画素の所定分布における離散パラメータに基づいて算出可能であり、即ち、視差画像内の各画素の所定分布における離散パラメータが該画素の信頼度と負の相関関係を呈するという信頼度の物理的な意義により、信頼度を含む損失関数を取得することができ、損失関数中の信頼度を用いて損失関数を最適化して、該損失関数を用いてトレーニングされた所定ニューラルネットワークにより好適なロバスト性を持たせることができる。

選択可能に、ニューラルネットワークトレーニングユニットは、信頼度を含む損失関数を取得するように構成される損失関数取得モジュールを含んでよい。

選択可能な一例では、損失関数取得モジュールは、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、所定ニューラルネットワークパラメータに関する尤度関数を取得し、視差画像内の各画素の従う所定分布に基づいて、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得し、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係に基づいて、所定ニューラルネットワークパラメータが所定分布に従い、視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、尤度関数に対して負対数を取って、損失関数を取得するようになってよい。

選択可能に、損失関数取得モジュールは、処理対象である両眼画像の視差画像とその信頼度画像、及び所定ニューラルネットワークパラメータと真実視差画像に基づいて、ベイズ確率論により所定ニューラルネットワークパラメータに関する尤度関数を取得するようになってよい。

選択可能に、損失関数取得モジュールは、視差画像中の各画素を異なる標準偏差の所定分布に従わせることによって、視差画像内の各画素の信頼度と該画素の所定分布における離散パラメータとの負の相関関係を取得するようになってよい。

別の実施例では、所定分布がガウス分布であることに応じて、損失関数は、処理対象である両眼画像の視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む。

本願の実施例は、例えば、携帯端末、パーソナルコンピュータ（ＰＣ）、タブレット型コンピュータ、サーバなどであってよい電子機器を更に提供する。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器４００の構造模式図を示す図４を参照し、図４に示すように、電子機器４００は１つ又は複数のプロセッサ、通信部などを含み、前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）４０１、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）４１３であり、プロセッサは、読み取り専用メモリ（ＲＯＭ）４０２に記憶された実行可能コマンド又は記憶部４０８からランダムアクセスメモリ（ＲＡＭ）４０３にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部４１２はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されなく、プロセッサは読み取り専用メモリ４０２及び／又はランダムアクセスメモリ４０３と通信して実行可能コマンドを実行し、通信バス４０４を介して通信部４１２に接続され、通信部４１２を介して他のターゲットデバイスと通信してよく、それにより本願の実施例で提供されるいずれか一項の方法に対応する操作を完成し、例えば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する。

また、ＲＡＭ４０３には、装置の動作に必要な各種のプログラムやデータが格納されていてもよい。ＣＰＵ４０１、ＲＯＭ４０２及びＲＡＭ４０３は、通信バス４０４を介して相互に接続される。ＲＡＭ４０３を有する場合に、ＲＯＭ４０２は選択可能なモジュールである。ＲＡＭ４０３は実行可能コマンドを格納するか、または動作時に実行可能コマンドをＲＯＭ４０２に書き込み、実行可能コマンドによって中央処理ユニット４０１に上記通信方法に対応する操作を実行させる。入力／出力（Ｉ／Ｏ）インターフェイス４０５も通信バス４０４に接続される。通信部４１２は、統合的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、通信バスのリンク上にあるように設置されてもよい。

キーボード、マウスなどを含む入力部４０６と、陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部４０７と、ハードディスクなどを含む記憶部４０８と、ＬＡＮカード、モデムなどのネットワークインターフェイスカードを含む通信部４０９とがＩ／Ｏインターフェイス４０５に接続されている。通信部４０９は例えばインターネットのようなネットワークを介して通信処理を行う。ドライブ４１０も必要に応じてＩ／Ｏインターフェイス４０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体４１１は、必要に応じてドライブ４１０上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部４０８にインストールする。

なお、図４に示す構造は選択可能な一実施形態に過ぎず、具体的な実践過程では、実際の必要に応じて上記図４の部品の数及び種類を選択、削除、追加、または置換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵ４１３とＣＰＵ４０１は分離設置するかまたはＧＰＵ４１３をＣＰＵ４０１に統合するようにしてよく、通信部は分離設置するか、またはＣＰＵ４０１やＧＰＵ４１３に統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本願の保護範囲に属する。

特に、本願の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本願の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本願の実施例により提供される方法のステップを対応して実行する対応のコマンドを含んでよく、例えば、処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得、視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈し、前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得する。このような実施例では、該コンピュータプログラムは通信部４０９によってネットワークからダウンロード及びインストールされ、及び／又はリムーバブル媒体４１１からインストールされ得る。中央処理ユニット（ＣＰＵ）４０１によって該コンピュータプログラムを実行する時に、本願の方法で限定された上記機能を実行する。

１つ又は複数の選択可能な実施形態では、本願の実施例は、コンピュータ可読コマンドを記憶し、該コマンドが実行される時にコンピュータに上記のいずれか１つの可能な実施形態における両眼画像の深度推定方法を実行させるように構成されるコンピュータプログラム製品を更に提供する。

該コンピュータプログラム製品は具体的にはハードウェア、ソフトウェア又はそれらの組合せにより実現可能である。選択可能な一例において、該コンピュータプログラム製品は具体的にはコンピュータ記憶媒体として実現され、別の選択可能な一例において、該コンピュータプログラム製品は具体的には、例えばソフトウェア開発キット（ＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｍｅｎｔＫｉｔ、ＳＤＫ）などのソフトウェア製品として実現される。

１つ又は複数の選択可能な実施形態では、本願の実施例は、両眼画像の深度推定方法及びそれに対応する装置、電子機器、コンピュータ記憶媒体、コンピュータプログラム並びにコンピュータプログラム製品を更に提供し、該方法は、第２装置に上記のいずれか１つの可能な実施例における両眼画像の深度推定方法を実行させる、両眼画像に基づく深度推定指示を第１装置から第２装置へ送信するステップと、第１装置により第２装置から送信される両眼画像の深度推定の結果を受信するステップと、を含む。

いくつかの実施例では、この両眼画像の深度推定指示は具体的には呼び出しコマンドであってもよく、第１の装置は呼び出すことで第２の装置に両眼画像の深度推定を実行させるように指示してもよく、それに対して、呼び出しコマンドを受信したことに応答して、第２の装置は上記両眼画像の深度推定方法中の任意の実施例中のステップ及び／又は流れを実行することができる。

本願の実施例における「第１の」、「第２の」などの用語は区別するためのものに過ぎず、本願の実施例に対する限定と理解してはならないことを理解すべきである。

更に、本願では、「複数の」は２つ又は２つ以上を指してよく、「少なくとも１つの」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

更に、本願で言及された任意の部材、データ又は構造は、明確に限定され又は明細書の前後で反対的に示唆された場合でなければ、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本願ではそれぞれの実施例についての説明はそれぞれの実施例の相違点を重点として強調し、その同一又は類似的な点について相互に参照してよく、簡単化するために、ここで一つずつに繰り返して説明しないことを理解すべきである。

本願の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本願の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本願の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本願は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本願の方法を実現するための機械可読コマンドを含む。従って、本願は本願の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本願を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本願の原理及び実際応用をより明瞭に説明するため、かつ当業者が本願を理解して特定用途に適した各種の修正を加えた各種の実施例を設計可能にするように選択され説明されたものである。

Claims

処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るステップであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈するステップと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するステップと、を含む両眼画像の深度推定方法。
処理対象である両眼画像の左視界画像と右視界画像を所定ニューラルネットワークに入力して、信頼度画像を得る前記ステップは、
前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、２つの畳み込み層と１つの正規化層によって順に処理して前記信頼度画像を得るステップを含む請求項１に記載の方法。
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするステップを更に含む請求項１又は２に記載の方法。
前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む請求項３に記載の方法。
前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む請求項４に記載の方法。
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて前記損失関数を算出するステップは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得するステップと、
前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得するステップと、
前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するステップと、を含む請求項３〜５のいずれか一項に記載の方法。
前記所定分布は、ラプラス分布又はガウス分布を含む請求項３〜６のいずれか一項に記載の方法。
前記所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項７に記載の方法。
所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項７に記載の方法。
処理対象である両眼画像を所定ニューラルネットワークに入力して、視差画像、及びその信頼度画像を得るように構成される視差画像取得ユニットであって、前記視差画像内の各画素の所定分布における離散パラメータが、該画素の信頼度と負の相関関係を呈する視差画像取得ユニットと、
前記視差画像に基づいて、前記処理対象である両眼画像の深度画像を取得するように構成される深度画像取得ユニットと、を含む両眼画像の深度推定装置。
前記視差画像取得ユニットは、前記処理対象である両眼画像を両眼立体マッチングニューラルネットワークにより処理した後、２つの畳み込み層と１つの正規化層によって順に処理して前記信頼度画像を得るように構成される請求項１０に記載の装置。
前記視差画像内の各画素の信頼度及び該画素の前記所定分布における離散パラメータに基づいて算出された損失関数を用いて、前記所定ニューラルネットワークをトレーニングするように構成されるニューラルネットワークトレーニングユニットを更に含む請求項１０又は１１に記載の装置。
前記損失関数は、正則化項と、前記視差画像内の各画素の前記損失関数における重みを調整するフォーカス損失項とを含む請求項１２に記載の装置。
前記正則化項は、信頼度に関連する正則化項、及び所定ニューラルネットワークパラメータに関連する正則化項を含む請求項１３に記載の装置。
前記ニューラルネットワークトレーニングユニットは、
前記視差画像とその前記信頼度画像、及び前記所定ニューラルネットワークパラメータと真実視差画像に基づいて、前記所定ニューラルネットワークパラメータに関する尤度関数を取得し、前記視差画像内の各画素の従う前記所定分布に基づいて、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係を取得し、前記視差画像内の各画素の信頼度と該画素の前記所定分布における離散パラメータとの負の相関関係に基づいて、前記所定ニューラルネットワークパラメータが前記所定分布に従い、前記視差画像内の各画素の信頼度が非逓減分布に従うことに基づいて、前記尤度関数に対して負対数を取って、前記損失関数を取得するように構成される損失関数取得モジュールを含む請求項１２〜１４のいずれか一項に記載の装置。
前記所定分布は、ラプラス分布又はガウス分布を含む請求項１２〜１５のいずれか一項に記載の装置。
所定分布がラプラス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の絶対値と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項１６に記載の装置。
所定分布がガウス分布であることに応じて、前記損失関数は、前記視差画像と真実視差画像内の各画素の視差値との差の平方と、該画素の信頼度との比の平均値に基づいて得られたフォーカス損失項、前記視差画像内の各画素の信頼度の平均値に基づいて得られた正則化項、及び前記所定ニューラルネットワークパラメータに基づいて得られた正則化項を含む請求項１６に記載の装置。
請求項１〜１８のいずれか一項に記載の装置を含む電子機器。
実行可能コマンドを記憶するように構成されるメモリと、
前記実行可能コマンドを実行して請求項１〜９のいずれか一項に記載の方法を完了するように構成されるプロセッサと、を含む電子機器。
コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードが機器上で作動する時に、前記機器におけるプロセッサが請求項１〜９のいずれか一項に記載の方法を実現するためのコマンドを実行するコンピュータプログラム。
コンピュータ可読コマンドを記憶し、前記コマンドが実行される時に請求項１〜９のいずれか一項に記載の方法が実現されるように構成されるコンピュータ記憶媒体。