JP7425169B2

JP7425169B2 - 画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP7425169B2
Application number: JP2022196549A
Authority: JP
Inventors: 慶月孟; 香偉王
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-11
Filing date: 2022-12-08
Publication date: 2024-01-30
Anticipated expiration: 2042-12-08
Also published as: CN114612544B; US20230162383A1; KR20230006628A; JP2023027227A; CN114612544A

Description

本開示は、人工知能の分野に関し、特にコンピュータ視覚、画像処理、３Ｄ視覚などの技術分野に関しており、自動運転及びインテリジェント交通などのシーンに適用できる。

深度情報は、自動運転システムの自身のポーズに対する感知及び推定にとって非常的に重要であり、ディープニューラルネットワークの急速な発展に伴い、ディープラーニングに基づく単眼深度推定は広く検討されている。現在の単眼深度推定の技術案は、主に、深度真値付けのデータに基づいて単眼深度推定ネットワークをトレーニングするか、または、監督なしの技術案に基づいて単眼深度推定ネットワークをトレーニングするものである。

本開示は、画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供している。

本開示の１つの局面によれば、
目標画像に対して深度推定を行い、目標画像の相対深度マップを得ることと、
相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることと、
画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得ることと、
相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得ることとを含む、画像処理方法を提供している。

本開示の別の局面によれば、
目標画像に対して深度推定を行い、目標画像の相対深度マップを得るための深度推定モジュールと、
相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュールと、
画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得るための相対スケール取得モジュールと、
相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得るための絶対深度マップ取得モジュールとを含む、画像処理装置を提供している。

本開示の別の局面によれば、
少なくとも１つのプロセッサと、
該少なくとも１つのプロセッサと通信接続されたメモリとを含む電子機器であって、
該メモリには、該少なくとも１つのプロセッサにより実行可能な命令が記憶されており、該命令は、該少なくとも１つのプロセッサが本開示の何れかの実施例における方法を実行することができるように、該少なくとも１つのプロセッサにより実行される、電子機器を提供している。

本開示の別の局面によれば、コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、該コンピュータ命令は、コンピュータに本開示の何れかの実施例における方法を実行させるために用いられる、記憶媒体を提供している。

本開示の別の局面によれば、プロセッサにより実行される場合に、本開示の何れかの実施例における方法を実現するコンピュータプログラムを提供している。

本開示の技術によれば、目標画像の相対深度マップのうち画像収集装置の相対高度及び実際の画像収集装置の絶対高度により目標画像の相対深度マップの相対スケールを取得し、さらに目標画像の絶対深度マップを取得することができ、すなわち、目標画像の単眼相対深度及び画像収集装置の高度を取得するだけで、少量の計算により比較的に正確な目標画像の絶対深度を得ることができ、大量のデータ真値でトレーニングして得られた単眼絶対深度推定ネットワークを使用する必要がなく、深度推定精度を向上させながら、効率を向上させてコストを低減させている。

理解されるべきこととして、本部分に記載されたコンテンツは、本開示の実施例のキーポイント又は重要な特徴を示すことを意図するものではなく、本開示の範囲を限定するものでもない。本開示の他の特徴は、以下の説明により容易に理解される。

図面は、本技術案をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の一実施例による画像処理方法のフロー模式図一である。図２は、本開示の一実施例による画像処理方法のフロー模式図二である。図３は、本開示の一実施例による画像処理方法のフロー模式図三である。図４は、本開示の一実施例による画像処理方法のフロー模式図四である。図５は、本開示の一実施例による画像処理装置の模式図一である。図６は、本開示の一実施例による画像処理装置の模式図二である。図７は、本開示の一実施例による画像処理装置の模式図三である。図８は、本開示の実施例の画像処理方法を実現するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明する。ここで、より理解しやすいために本開示の実施例の様々な詳細が含まれ、それらが例示的なものであると考えられるべきである。したがって、当業者であれば分かるように、ここで記載される実施例に対して様々な変更・修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡潔に説明するために、以下の記載において周知の機能や構成に対する説明を省略する。

本開示の実施例の技術案の理解を容易にするために、以下に本開示の実施例の関連技術を説明し、以下に、関連技術は選択可能な技術案として本開示の実施例の技術案と任意的に組み合わせることができ、それはいずれも本開示の実施例の保護範囲に属する。

現在、単眼深度推定のディープラーニングの技術案には、主に、以下のいくつかのものがある。

１）大量の深度真値付けのデータに基づいて単眼深度推定ネットワークをトレーニングするものと、
２）監督なしの技術案に基づいて、単眼絶対深度推定ネットワークをトレーニングするものと、
３）大量の公開データ／自収集データに基づいて、ネットワークをトレーニングして、相対深度を得るものとがある。

上記のディープラーニング技術案において、技術案１）では、すべてがデータ監督の技術案を採用して、取得された絶対深度が比較的に正確的なものであるが、大量のデータ真値に依存するので、コストが比較的に高い。

技術案２）では、監督なしのトレーニング技術案を採用して、データを比較的に取得しやすいが、取得された絶対深度の精度が比較的に低いので、その後の使用に不利となる。

技術案３）では、大量のデータが自収集データに由来するので、精度が比較的に高い深度を取得することができるが、絶対深度を取得することができない。

そこで、本開示は、画像処理方法を提出しており、図１は、本開示の一実施例による画像処理方法のフロー模式図であって、以下のことを含む：
Ｓ１１０：目標画像に対して深度推定を行い、目標画像の相対深度マップを得る；
Ｓ１２０：相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得る；
Ｓ１３０：画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得る；
Ｓ１４０：相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得る。

例示的に、ステップＳ１１０において、目標画像をトレーニング済みの相対深度推定ネットワークに入力して、目標画像の相対深度マップを得てもよい。該相対深度マップは、各画素点間の遠近関係を表すことができる。

理解できるように、相対深度マップから画像収集装置の相対深度マップにおける相対高度を取得した後で、画像収集装置の絶対高度及び相対高度に基づいて、相対深度マップの相対スケールが得られており、相対スケールは、相対深度マップにおける相対深度と現実の絶対深度との比例関係を示している。相対深度マップの相対スケールに基づいて相対深度マップのうち各画素点の相対深度を絶対深度に変換し、目標画像の絶対深度マップが得られる。画像収集装置の絶対高度が固定値であって、簡単な人工方式により取得することができるため、上記ステップが依存されるデータ取得方式は効率が比較的に高い。

上記実施例の方法によれば、目標画像の相対深度マップのうち画像収集装置の相対高度及び実際の画像収集装置の絶対高度により目標画像の相対深度マップの相対深度を取得し、さらに目標画像の絶対深度マップを取得することができ、大量のデータ真値でトレーニングして得られた単眼絶対深度推定ネットワークを使用する必要がなく、大量のデータ真値への依存から外れており、目標画像の単眼相対スケール及び画像収集装置の高度を取得するだけで、少量の計算により比較的に正確な目標画像の絶対深度を得ることができる。

選択できるように、図２に示すように、上記実施例における画像処理方法は、以下のことをさらに含む：
Ｓ２１０：目標画像に対して語義分割して、目標画像における地面部分の位置情報を得る；
Ｓ２２０：位置情報に基づいて、相対深度マップにおける地面部分を得る。

例示的に、目標画像に対して語義分割することにより、目標画像における地面部分の位置情報、すなわち相対深度マップにおける地面部分の位置情報を得ることができる。相対深度マップにおいて地面部分の位置情報に基づいて、相対深度マップにおける地面部分を取得することができる。

理解できるように、相対深度マップにおける地面部分を取得した後で、相対深度マップにおける地面部分の画素点と相対深度マップにおける原点との相対深度差を計算することにより、画像収集装置の相対深度マップにおける相対高度を得ることができ、ひいては、その後、画像収集装置の相対深度マップにおける相対高度と画像収集装置の絶対高度とを比較することにより、相対深度マップの相対スケールを取得することに有利となる。

選択できるように、目標画像はパノラマ画像を含んでおり、上記実施例における画像処理方法はパノラマ画像の処理にも適用され、図３に示すように、上記ステップＳ１１０は以下のことを含む：
Ｓ３１１：パノラマ画像に対して画像セグメンテーションを行い、パノラマ画像の複数の視角セグメンテーションマップを得る；
Ｓ３１２：複数の視角セグメンテーションマップに対して深度推定を行い、複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得る。

相対深度推定ネットワークがパノラマ画像を直接的に処理することができない場合に、本開示の実施例によれば、パノラマ画像の相対深度マップを取得する前に、パノラマ画像に対して画像セグメンテーションを行い、パノラマ画像の複数の視角セグメンテーションマップを得てもよく、相対深度推定ネットワークを利用して複数の視角セグメンテーションマップに対して深度推定を行なうことにより、複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得ることができる。いくつかの適用シーンで、複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップはパノラマ画像の相対深度マップと見なされる。

上記実施例の方法によれば、パノラマ画像に対して深度推定を行なうときに、先ず、パノラマ画像に対して画像セグメンテーションを行い、複数の異なる視角のセグメンテーションマップによってパノラマ画像の特徴を示し、さらに、相対深度推定ネットワークを利用して複数の視角セグメンテーションマップを処理することにより、相対深度推定ネットワークに対する複雑度のニーズを低下させ、相対深度推定ネットワークをトレーニングするために必要なコストを低減させている。

例示的に、上記実施例において、パノラマ画像に対して画像セグメンテーションを行った後で得られた複数の視角セグメンテーションマップは、パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があり、図３に示すように、上記ステップＳ１１０は以下のことをさらに含む：
Ｓ３１３：隣接方向の視角セグメンテーションマップの２つずつの間の重なり部分に基づいて、複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを得る。

理解できるように、パノラマ画像に対して画像セグメンテーションを行う過程は、実際に、異なる視角方向にパノラマ画像に対してセグメンテーションを行うことにより、複数の普通画像、すなわち複数の視角セグメンテーションマップを得るものである。複数の視角セグメンテーションマップがパノラマ画像における各画素点をカバーするので、複数の視角セグメンテーションマップに対応する複数の相対深度マップはパノラマ画像の相対深度の状況を完全的に表すことができ、さらに、その後に得られた複数の視角セグメンテーションマップに対応する絶対深度マップは、パノラマ画像の絶対深度をさらに表すことができる。

隣接方向の視角セグメンテーションマップに対応する第１の相対深度マップについては、２つの第１の相対深度マップをそれぞれ画像収集装置が位置する３次元座標系にマッピングし、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があるので、２つの第１の相対深度マップが画像収集装置が位置する３次元座標系にマッピングされた後で、必ず重なる画素点があり、したがって、重なる画素点の２つの第１の相対深度マップにおける相対深度に基づいて、２つの第１の相対深度マップにおける相対深度の比例関係を取得することができる。すべての第１の深度マップについては、それぞれ、隣接する第１の深度マップの相対深度との比例関係を取得し、最後に、比例関係に基づいてすべての第１の深度マップにおける相対深度を同一のスケールに区分してもよく、さらに、このスケールに基づいて取得された複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを取得することにより、複数の第２の相対深度マップにおける相対深度を同一のスケールに位置させる。いくつかの適用シーンで、複数の視角セグメンテーションマップと１対１で対応する複数の第２の相対深度マップはパノラマ画像の相対深度マップと見なされる。

上記実施例の方法によれば、パノラマ画像に対して画像セグメンテーションを行うときに、取得された複数の視角セグメンテーションマップはパノラマ画像における各画素点をカバーすることで、その後に画像処理を経った後で複数の視角セグメンテーションマップと１対１で対応する複数の絶対深度マップがパノラマ画像の絶対深度を完全に表すことができることを保証している。同時に、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があるので、重なり部分を利用して複数の視角セグメンテーションマップに対応する複数の第１の相対深度マップを同一のスケールに区分して、複数の第２の相対深度マップを取得することができ、これにより、後続の統一標準と画像収集装置の実際高度との比較に有利となる。

例示的に、上記実施例におけるパノラマ画像に対する画像処理方法によれば、図４に示すように、上記ステップＳ１２０は以下のことを含んでもよい：
Ｓ４２１：複数の第２の相対深度マップにおける少なくとも一部の第２の相対深度マップにおける地面部分に基づいて、地面方程式を得る；
Ｓ４２２：地面方程式に基づいて画像収集装置の相対高度を得る。

理解できるように、上記のパノラマ画像に対してセグメンテーションを行った後の複数の視角セグメンテーションマップには、個別の視角セグメンテーションマップに地面部分が含まれないものが存在するので、地面部分が含まれる視角セグメンテーションマップに対応する一部の第２の相対深度マップに基づいて他の地面部分の画素点及び原点をそれぞれ取得することができる。地面部分の画素点及び原点に対応する相対深度情報に基づいて、地面方程式を取得する。

地面方程式は以下の通りである。
ｘｃｏｓα＋ｙｃｏｓβ＋ｚｃｏｓγ＝ｐ

ただし、ｘ、ｙ、ｚは地面部分の画素点の相対深度情報であり、ｃｏｓα、ｃｏｓβ、ｃｏｓγは平面法線ベクトルの方向余弦であり、ｐは原点と平面との相対深度差であり、原点から平面までの距離、すなわち画像収集装置の第２の相対深度マップにおける相対高度を示している。

複数の第２の相対深度マップから取得された相対高度同士の間に誤差が存在することに鑑って、複数の相対高度の平均値を画像収集装置の相対高度としてもよい。

上記実施例の方法によれば、複数の第２の相対深度マップのうち地面部分が含まれる第２の相対深度マップを利用して、平面方程式により画像収集装置の相対高度を取得しており、平均値の計算により誤差による影響を低減させ、その後に取得されるパノラマ画像の絶対深度の正確度を向上させている。

以下、パノラマ画像に対する画像処理を例として、上記画像処理方法がパノラマ画像の処理に適用される具体的なフローを具体的に示している：
１）目標画像とするパノラマ画像に対して画像セグメンテーションを行い、複数の異なる視角の視角セグメンテーションマップを取得し、ただし、画像セグメンテーションの過程では、隣接する視角の視角セグメンテーションマップ間に一定の重なり部分があることを保証する必要があり、かつ、取得された複数の異なる視角の視角セグメンテーションマップが目標パノラマ画像のすべての画素点をカバーする必要がある；
２）複数の視角セグメンテーションマップに対して語義分割を行い、地面部分が含まれる視角セグメンテーションマップにおける地面部分の位置情報を得る；
３）トレーニング済みの相対深度推定ネットワークを利用して、複数の視角セグメンテーションマップに対応する複数の第１の相対深度マップを取得し、隣接する視角の視角セグメンテーションマップに対応する第１の相対深度マップを２つずつ画像収集装置の３次元座標系にマッピングし、その重なり部分の画素点の相対深度を比較し、最終的に、複数の第１の相対深度マップにおける相対深度を同一のスケールに区分し、調整して複数の第１の相対深度マップに対応する複数の第２の相対深度マップを得る；
４）地面部分が含まれる視角セグメンテーションマップにおける地面部分の位置情報に基づいて、複数の第２の相対深度マップのうち地面部分が含まれる視角セグメンテーションマップに対応する一部の第２の相対深度マップにおける地面部分を取得し、地面方程式に基づいて画像収集装置のこれらの第２の相対深度マップにおける複数の相対高度を取得し、複数の相対高度について平均値を求めて画像収集装置のパノラマ画像における相対高度とする；
５）画像収集装置の目標パノラマ画像における相対高度及び画像収集装置の実際高度に基づいて、複数の第２の相対深度マップにおける相対深度と絶対深度との相対スケールを取得し、さらに相対スケールに基づいて複数の第２の相対深度マップを調整することにより、複数の第２の絶対深度マップが得られており、複数の第２の絶対深度マップに対応する視角セグメンテーションマップは目標パノラマ画像のすべての画素点をカバーしているので、複数の第２の絶対深度マップに基づいて目標パノラマ画像の絶対深度マップを得ることができる。

さらに、上記実施例における画像収集装置は、自動運転車両の車載カメラ又は道路交通監視用の広角カメラなどであってもよく、ここで限定されない。処理しようとする目標パノラマ画像が無人車両又は自動運転車両の車載カメラで撮影されるパノラマ画像であるときに、自動運転システムの目標パノラマ画像に対する処理は、以下のようなものであってもよい：
１）パノラマ画像に対して上下左右前後の６方向に基づいて画像セグメンテーションを行い、ただし、前後左右の４方向の視角セグメンテーションマップは、時計回りまたは反時計回りに従って２つずつの間が３０°の視角重なりでセグメンテーションを行ってもよく、上下の２方向の視角セグメンテーションマップは、前後左右の４方向の視角セグメンテーションマップのいずれとの間にも３０°の視角重なりが保留される；
２）前後左右の４方向の視角セグメンテーションマップに対して語義分割を行い、地面部分のそれぞれの４つの視角セグメンテーションマップにおける位置情報を得る；
３）深度推定ネットワークを利用して６つの視角セグメンテーションマップを処理して、６方向の第１の相対深度マップを得ており、前後左右の４方向の第１の相対深度マップに対して２つずつの間の重なり部分に従って比例関係を取得し、上下の２方向の第１の相対深度マップについて、これらの２つの第１の相対深度マップは前後左右の４方向の第１の相対深度マップのいずれとも重なり部分があるので、前後左右の４方向の第１の相対深度マップにおける各々の方向との比例関係をそれぞれ取得し、平均値で上下の２方向の第１の相対深度マップと他の第１の相対深度マップとの最終的な比例関係を特定し、さらに比例関係により上下左右前後の６方向における第２の相対深度マップを調整し得られる；
４）前後左右の４方向の視角セグメンテーションマップにおける地面部分の位置情報に基づいて、前後左右の４方向の第２の相対深度マップにおける地面部分を取得し、地面方程式に基づいて車載カメラの４つの第２の相対深度マップにおける相対高度を取得し、４つの相対高度の平均値を車載カメラの４つの第２の相対深度マップにおける最終的な相対高度とする；
５）最終的な相対高度及び車載カメラの実際高度に基づいて、上下左右前後の６方向の第２の相対深度マップにおける相対深度及び絶対深度の相対スケールを取得し、さらに６方向の第２の相対深度マップを調整して上下左右前後の６方向の絶対深度マップを取得しており、上下左右前後の６方向の絶対深度マップにより、目標パノラマ画像における各画素点の絶対深度を反映しており、これは自動運転システムの自身ポーズに対する感知及び推定に有利となる。

以上、異なる局面から、本願の実施例の具体的な設置及び実現方式を説明した。上記実施例により提供される方法によれば、目標画像の単眼相対スケール及び画像収集装置の高度しか取得できない場合に、少量の計算により比較的に正確な目標画像の絶対深度を得ることができ、大量のデータ真値への依存から外れ、かつ、パノラマ画像の単眼絶対深度推定に用いられ、迅速かつ効率的に目標画像の絶対深度を取得することができる。

図５は、本願の一実施例による画像処理装置の模式図であって、該装置は、
目標画像に対して深度推定を行い、目標画像の相対深度マップを得るための深度推定モジュール５１０と、
相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュール５２０と、
画像収集装置の相対高度及び画像収集装置の絶対高度に基づいて、相対深度マップの相対スケールを得るための相対スケール取得モジュール５３０と、
相対スケール及び相対深度マップに基づいて、目標画像の絶対深度マップを得るための絶対深度マップ取得モジュール５４０とを含む。

例示的に、図６に示すように、上記装置は、
目標画像に対して語義分割を行い、目標画像における地面部分の位置情報を得るための分割モジュール６１０と、
位置情報に基づいて、相対深度マップにおける地面部分を得るための地面取得モジュール６２０とをさらに含む。

選択できるように、上記画像処理装置により処理される目標画像はパノラマ画像を含んでおり、図７に示すように、深度推定モジュール５１０は、
パノラマ画像に対して画像セグメンテーションして、パノラマ画像の複数の視角セグメンテーションマップを得るためのセグメンテーション手段７１１と、
複数の視角セグメンテーションマップに対して深度推定して、複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得るための第１の相対深度マップ取得手段７１２とを含む。

例示的に、上記画像処理装置により取得される複数の視角セグメンテーションマップは目標パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分がある。

図７に示すように、深度推定モジュール５１１は、
隣接方向の視角セグメンテーションマップの２つずつの間の重なり部分に基づいて、複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを得るための第２の相対深度マップ取得手段７１３をさらに含む。

選択できるように、上記相対高度取得モジュール５２０は、具体的に、
複数の第２の相対深度マップのうち少なくとも一部の第２の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
地面方程式に基づいて画像収集装置の相対高度を得ることとに用いられる。

本開示の実施例の各装置における各手段、モジュール又はサブモジュールの機能は、上記方法実施例における対応説明を参照することができ、該当する特別な効果を奏し、ここでは説明を繰り返さない。

本開示の技術案では、係られたユーザ個人情報の取得、記憶、及び応用などは、いずれも関連法律や法規の規定に合致しており、公序良俗に反していない。

本開示の実施例によれば、本開示は、電子機器、読取可能な記憶媒体及びコンピュータプログラムをさらに提供している。

図８は、本開示の実施例を実施するために用いられる例示的電子機器８００の模式的ブロック図を示している。電子機器は、様々な形式のデジタルコンピュータを示すことを目的とし、例えば、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ及び他の適切なコンピュータである。電子機器は、さらに様々な形式の移動装置を示してもよく、例えば、パーソナルデジタルアシスタント、携帯電話、スマートフォン、ウェアラブル機器及び他の類似的な演算装置である。本明細書に示された部品、それらの接続及び関係、並びにそれらの機能は、例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定しない。

図８に示すように、機器８００は、計算手段８０１を含み、計算手段８０１は、リードオンリーメモリ（ＲＯＭ）８０２に記憶されたコンピュータプログラム又は記憶手段８０８からランダムアクセスメモリ（ＲＡＭ）８０３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行してもよい。ＲＡＭ８０３には、さらに機器８００の操作に必要な様々なプログラム及びデータが記憶されてもよい。計算手段８０１、ＲＯＭ８０２、及びＲＡＭ８０３は、バス８０４を介して相互に接続される。入力／出力（Ｉ／Ｏ）インターフェース８０５も、バス８０４に接続される。

機器８００における複数の部品は、Ｉ／Ｏインターフェース８０５に接続され、例えばキーボード、マウス等の入力手段８０６と、例えば様々な種類のディスプレイ、スピーカ等の出力手段８０７と、例えば磁気ディスク、光ディスク等の記憶手段８０８と、例えばネットワークカード、モデム、無線通信トランシーバ等の通信手段８０９とを含む。通信手段８０９は、機器８００がインターネット等のコンピュータネットワーク及び／又は各種の電気ネットワークを介して他の機器と情報・データをやり取りすることを可能にする。

計算手段８０１は、処理及び演算能力を有する各種の汎用及び／又は専用の処理モジュールであってもよい。計算手段８０１の幾つかの例として、中央処理ユニット（ＣＰＵ）、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムをランニングする演算ユニット、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、並びに任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されない。計算手段８０１は、前文で記載された各方法及び処理、例えば画像処理方法を実行する。例えば、幾つかの実施例において、画像処理方法は、例えば記憶手段８０８のような機械可読媒体に有形的に含まれるコンピュータソフトウェアプログラムとして実現されてもよい。いくつかの実施例において、コンピュータプログラムの一部又は全部は、ＲＯＭ８０２及び／又は通信手段８０９を介して機器８００にロード及び／又はインストールされてもよい。コンピュータプログラムがＲＡＭ８０３にロードされて計算手段８０１により実行される場合、前文に記載の画像処理方法の１つ又は複数のステップを実行してもよい。代替的に、他の実施例において、計算手段８０１は、他の任意の適切な方式（例えば、ファームウェアを介する）により画像処理方法を実行するように構成されてもよい。

本明細書で以上に説明されたシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）、特定用途向け標準製品（ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、コンプレックスプログラマブルロジックデバイス（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現されてもよい。これらの様々な実施形態は、１つ又は複数のコンピュータプログラムにおいて実施され、該１つ又は複数のコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行され及び／又は解釈されることが可能であり、該プログラマブルプロセッサは、専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、かつデータ及び命令を該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に伝送することができることを含んでもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は機器に使用され、又は命令実行システム、装置又は機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、コンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供することができる。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力、又は触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されることが可能である。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続することができる。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、互いにクライアント－サーバの関係を有するコンピュータプログラムによって生成される。サーバはクラウドサーバであってもよく、分散型システムのサーバであってもよく、又はブロックチェーンを組み合わせたサーバであってもよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本発開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示に開示された技術案が所望する結果を実現することができれば、本明細書はここで限定されない。

以上説明した画像処理方法、装置、電子機器、記憶媒体及びコンピュータプログラムは、以下のように表現することができる。

第１態様の画像処理方法は、
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得ることと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得ることとを含む。

第２態様の画像処理方法は、
第１態様に記載の画像処理方法であって、
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得ることと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得ることとをさらに含む。

第３態様の画像処理方法は、
第１又は第２態様に記載の画像処理方法であって、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得ることと、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得ることとを含む。

第４態様の画像処理方法は、
第３態様に記載に画像処理方法であって、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があり、
前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記隣接方向の視角セグメンテーションマップの２つずつの間の重なり部分に基づいて、前記複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを得ることをさらに含む。

第５態様の画像処理方法は、
第４態様に記載の画像処理方法であって、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることは、
前記複数の第２の相対深度マップのうち少なくとも一部の第２の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとを含む。

第６態様の画像処理装置は、
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得るための深度推定モジュールと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュールと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得るための相対スケール取得モジュールと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得るための絶対深度マップ取得モジュールとを含む。

第７態様の画像処理装置は、
第６態様に記載の画像処理装置であって、
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得るための分割モジュールと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得るための地面取得モジュールとをさらに含む。

第８態様の画像処理装置は、
第６又は第７態様に記載の画像処理装置であって、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記深度推定モジュールは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得るためのセグメンテーション手段と、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得るための第１の相対深度マップ取得手段とを含む。

第９態様の画像処理装置は、
第８態様に記載の画像処理装置であって、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があり、
前記深度推定モジュールは、
前記隣接方向の視角セグメンテーションマップの２つずつの間の重なり部分に基づいて、前記複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを得るための第２の相対深度マップ取得手段をさらに含む。

第１０態様の画像処理装置は、
第９態様に記載の画像処理装置であって、
前記相対高度取得モジュールは、
前記複数の第２の相対深度マップのうち少なくとも一部の第２の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとに用いられる。

第１１態様の電子機器は、
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが第１～５態様のいずれか１項に記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される。

第１２態様の記憶媒体は、
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに第１～５態様のいずれか１つに記載の方法を実行させるために用いられる、
記憶媒体である。

第１３態様のコンピュータプログラムは、
プロセッサにより実行される場合に、第１～５態様のいずれか１つに記載の方法を実現する、
コンピュータプログラムである。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要求及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

Claims

プロセッサによって実行され、
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得ることと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得ることとを含み、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得ることと、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得ることとを含み、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があり、
前記目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得ることは、
前記隣接方向の視角セグメンテーションマップの２つずつの間の重なり部分に基づいて、前記複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを得ることをさらに含む、
画像処理方法。
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得ることと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得ることとをさらに含む、
請求項１に記載の方法。
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得ることは、
前記複数の第２の相対深度マップのうち少なくとも一部の第２の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとを含む、
請求項１に記載の方法。
目標画像に対して深度推定を行い、前記目標画像の相対深度マップを得るための深度推定モジュールと、
前記相対深度マップにおける地面部分に基づいて、画像収集装置の相対高度を得るための相対高度取得モジュールと、
前記画像収集装置の相対高度及び前記画像収集装置の絶対高度に基づいて、前記相対深度マップの相対スケールを得るための相対スケール取得モジュールと、
前記相対スケール及び前記相対深度マップに基づいて、前記目標画像の絶対深度マップを得るための絶対深度マップ取得モジュールとを含み、
前記目標画像はパノラマ画像を含んでおり、
ただし、前記深度推定モジュールは、
前記パノラマ画像に対して画像セグメンテーションを行い、前記パノラマ画像の複数の視角セグメンテーションマップを得るためのセグメンテーション手段と、
前記複数の視角セグメンテーションマップに対して深度推定を行い、前記複数の視角セグメンテーションマップと１対１で対応する複数の第１の相対深度マップを得るための第１の相対深度マップ取得手段とを含み、
前記複数の視角セグメンテーションマップは、前記パノラマ画像における各画素点をカバーするとともに、隣接方向の視角セグメンテーションマップの２つずつの間には重なり部分があり、
前記深度推定モジュールは、
前記隣接方向の視角セグメンテーションマップの２つずつの間の重なり部分に基づいて、前記複数の第１の相対深度マップに対してスケール調整を行い、複数の第２の相対深度マップを得るための第２の相対深度マップ取得手段をさらに含む、
画像処理装置。
前記目標画像に対して語義分割を行い、前記目標画像における地面部分の位置情報を得るための分割モジュールと、
前記位置情報に基づいて、前記相対深度マップにおける地面部分を得るための地面取得モジュールとをさらに含む、
請求項４に記載の装置。
前記相対高度取得モジュールは、
前記複数の第２の相対深度マップのうち少なくとも一部の第２の相対深度マップにおける地面部分に基づいて、地面方程式を得ることと、
前記地面方程式に基づいて、前記画像収集装置の相対高度を得ることとに用いられる、
請求項４に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサと通信接続されたメモリとを含む電子機器であって、
前記メモリには、前記少なくとも１つのプロセッサにより実行可能な命令が記憶されており、前記命令は、前記少なくとも１つのプロセッサが請求項１～３のいずれか一項に記載の方法を実行することができるように、前記少なくとも１つのプロセッサにより実行される、
電子機器。
コンピュータ命令が記憶された非一時的なコンピュータ読取可能な記憶媒体であって、
前記コンピュータ命令は、前記コンピュータに請求項１～３のいずれか一項に記載の方法を実行させるために用いられる、
記憶媒体。
プロセッサにより実行される場合に、請求項１～３のいずれか一項に記載の方法を実現する、
コンピュータプログラム。