JP2022538928A

JP2022538928A - 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体

Info

Publication number: JP2022538928A
Application number: JP2022500585A
Authority: JP
Inventors: ▲クェア▼文王; 光亮程
Original assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Lingang Intelligent Technology Co Ltd
Priority date: 2020-01-19
Filing date: 2021-01-13
Publication date: 2022-09-06
Also published as: KR20220028026A; US20220130141A1; CN111260666B; CN111260666A; WO2021143739A1

Abstract

本開示は、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体を提供し、ここで、本開示は、対象画像の異なるデフォルトのスケールに対応する画像特徴マップに基づいて、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定し、特定された第１の確率及び第２の確率を用いて、実際のセグメンテーションニーズに基づいて画像特徴マップ中の画素点に対して強化又は弱化処理を行うことで、対象画像の背景又は前景を強調し、対象画像における異なるオブジェクト及びオブジェクトと背景との精確なセグメンテーションをさらに実現し、即ちパノラマセグメンテーションの精度を向上させることに有利である。【選択図】図１

Description

＜関連出願の相互参照＞
本開示は、２０２０年０１月１９日に中国特許局に提出された、出願番号ＣＮ２０２０１００６２７７９．５、発明名称「画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体」の中国特許出願の優先権を主張し、その内容の全てが参照により本開示に組み込まれる。

本開示は、コンピュータ技術、画像処理分野に関し、具体的には、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体に関する。

自動運転は、新興の最先端技術として多くの科学研究単位及び機関により研究される。ここで、シーン知覚は、自動運転技術の基礎であり、正確なシーン知覚は、自動運転制御の精度及び安全性を向上させるために、自動運転のための正確な制御信号を提供することに有利である。

シーン知覚は、画像に対してパノラマセグメンテーションを行い、画像中の各オブジェクトのインスタンスカテゴリを予測し、各オブジェクトのバウンディングボックスを特定するために用いられ、その後、自動運転技術は、予測されたインスタンスカテゴリ及びバウンディングボックスに基づいて、自動運転部材の走行を制御する制御信号を生成する。現在のシーン知覚には、予測精度が低いという欠点が存在する。

これに鑑み、本開示は、少なくとも画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラムを提供する。

第１の態様において、本開示は、対象画像の異なるデフォルトのスケール（ｓｃａｌｅ）に対応する複数の画像特徴マップを特定するステップと、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するステップと、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うステップと、を含む画像処理方法を提供する。

第２の態様において、本開示は、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するための特徴マップ特定モジュールと、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するための前景・背景処理モジュールと、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うためのパノラマ分析モジュールと、を含む画像処理装置を提供する。

第３の態様において、本開示は、プロセッサと、メモリと、バスと、を含み、前記メモリは、前記プロセッサが実行可能な機械可読命令を記憶し、電子機器が動作する時に、前記プロセッサと前記メモリとの間はバスを介して通信し、前記機械可読命令は、前記プロセッサにより実行されると、上記の画像処理方法のステップを実行する電子機器を提供する。

第４の態様において、本開示は、コンピュータプログラムが記憶され、当該コンピュータプログラムはプロセッサにより実行されると、上記の画像処理方法のステップを実行するコンピュータ可読記憶媒体をさらに提供する。

第５の態様において、本開示は、記憶媒体に記憶され、前記コンピュータプログラムはプロセッサにより実行されると、上記の画像処理方法のステップを実行するコンピュータプログラムをさらに提供する。

本開示の上記の装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムは、少なくとも本開示の上記方法のいずれかの態様又はいずれかの態様のいずれかの実施形態の技術的特徴と実質的に同一又は類似する技術的特徴を含むため、上記の装置、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラムの効果説明については、下記の具体的な実施形態における効果説明を参照してもよく、ここでは詳細は再度説明しない。

本開示の実施例の技術的解決手段をより明確に説明するために、以下、実施例に使用が必要な図面を簡単に紹介するが、以下の図面は本開示の何らかの実施例のみを示すため、範囲を限定するものとみなされるべきではなく、当業者であれば、創造的な労力を課すことなく、他の関連図面をこれらの図面に基づいて得ることもできることが理解されるべきである。
本開示の実施例にて提供される画像処理方法のフローチャートである。本開示の実施例における画像特徴マップを生成するニューラルネットワークの概略図である。本開示の実施例にて提供される対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する概略フローチャートである。本開示の実施例にて提供される複数の画像特徴マップに基づいて、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定する概略フローチャートである。本開示の実施例にて提供される複数の画像特徴マップ、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行う概略フローチャートである。本開示の実施例にて提供される畳み込みニューラルネットワークがインスタンスセグメンテーションロジットを生成するプロセス概略図である。本開示の実施例にて提供される画像処理方法のフローチャートである。本開示の実施例にて提供される画像処理装置の構造概略図である。本開示の実施例にて提供される電子機器の構造概略図である。

本開示の実施例の目的、技術的解決手段及び利点をより明確にするために、以下、本開示の実施例における図面と結び付け、本開示の実施例における技術的解決手段を明確かつ完全に記述し、本開示における図面は、説明及び記述の目的のみを果たし、本開示の保護範囲を制限するために使用されないことが理解されるべきである。また、例示的な図面は、インスタンスの比例で描かれていないことが理解されるべきである。本開示で使用されるフローチャートは、本開示のいくつかの実施例により実現される操作を示す。フローチャートの操作は、順序通りに実現されなくてもよく、論理的な文脈関係を有しないステップは、順序を逆転させてもよく、又は同時に実施されてもよいことが理解されるべきである。さらに、当業者は、本開示の内容に従って、フローチャートに１つ又は複数の他の操作を追加してもよく、フローチャートから１つ又は複数の操作を削除してもよい。

また、記述された実施例は、本開示の実施例の一部にすぎず、全ての実施例ではない。通常、本明細書の図面に記述され、示される本開示の実施例のアセンブリは、様々な異なる構成で配置され、設計され得る。したがって、以下、図面に提供される本開示の実施例の詳細な記述は、保護が要求される本開示の範囲を限定することを意図するものではなく、本開示の選択された実施例のみを表す。本開示の実施例に基づいて、当業者が創造的な労力を課せず得た全ての他の実施例は、いずれも本開示の保護範囲に属する。

当業者が本開示の内容を使用することを可能にするために、特定の応用シーンである「自動運転技術で使用されるシーン知覚」と結び付けて以下の実施形態を示す。当業者であれば、本開示の精神及び範囲から逸脱することなく、本明細書に定義された一般的原理を、シーン知覚を行う必要がある他の実施例及び応用シーンに適用することができる。本開示は、自動運転技術で使用されるシーン知覚を中心として主に記述するが、これは単なる例示的な一実施例であることが理解されるべきである。

なお、本開示の実施例において、用語の「含む」は、その後に示される特徴の存在を指摘するために使用されるが、他の特徴の追加を排除するものではない。

本開示は、如何にシーン知覚におけるパノラマセグメンテーションの精度を向上させるかについて、画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体を提供する。本開示は、対象画像の異なるデフォルトのスケールに対応する画像特徴マップに基づいて、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定し、上記の第１の確率及び第２の確率を用いて、実際のセグメンテーションニーズに基づいて画像特徴マップ中の画素点に対して強化又は弱化処理を行うことで、対象画像の背景又は前景を強調し、対象画像における異なるオブジェクト及びオブジェクトと背景との精確なセグメンテーションをさらに実現し、即ちパノラマセグメンテーションの精度を向上させることに有利である。

以下、本開示の画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体について具体的な実施例を用いて説明する。

本開示の実施例は、シーン知覚を行い、即ち画像に対してパノラマセグメンテーションを行う端末機器に適用される画像処理方法を提供する。図１に示すように、本開示の実施例にて提供される画像処理方法は、以下のステップＳ１１０－Ｓ１３０を含む。

Ｓ１１０において、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する。

本開示の実施例において、対象画像は、自動運転機器が運転中にカメラヘッドで撮影した画像であってもよい。

本開示の実施例において、異なるデフォルトのスケールの画像特徴マップは、畳み込みニューラルネットワークが入力された画像又は特徴マップに対して処理を行った後に得られるものであってもよい。いくつかの実施例において、異なるデフォルトのスケールは、画像の１／３２スケール、１／１６スケール、１／８スケール、及び１／４スケールを含んでもよい。

Ｓ１２０において、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定する。

本開示の実施例において、まず、複数の画像特徴マップに対してアップサンプリング処理を行い、異なるデフォルトのスケールの画像特徴マップが同一のスケールを有するようにした後、アップサンプリング処理された各画像特徴マップをスティッチングし、また、スティッチングされた特徴マップに基づいて、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するとしてもよい。

Ｓ１３０において、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行う。

本開示の実施例において、対象画像に対してパノラマセグメンテーションを行うことで、対象画像の背景及び前景におけるオブジェクトのバウンディングボックスとインスタンスカテゴリを特定することができる。

本開示の実施例において、第１の確率及び第２の確率に基づいて、画像特徴マップにおける対象画像中の前景に対応する特徴画素点及び対象画像中の背景に対応する特徴画素点に対して強化処理を行うとしてもよく、それにより対象画像中の画素点の精確なセグメンテーションを実現することに有利であり、即ち対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。

いくつかの実施例において、図３に示すように、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する上記ステップは、以下のステップＳ３１０－Ｓ３３０により実現することができる。

Ｓ３１０において、対象画像に対して特徴抽出を行い、各デフォルトのスケールの第１の特徴マップを取得する。

本開示の実施例において、畳み込みニューラルネットワークを用いて入力された画像又は特徴マップに対して特徴抽出を行い、各デフォルトのスケールに対応する第１の特徴マップを取得するとしてもよい。例えば、図２に示すようなマルチスケールの対象検出アルゴリズムＦＰＮ（ｆｅａｔｕｒｅｐｙｒａｍｉｄｎｅｔｗｏｒｋｓ）の部分を利用して、各デフォルトのスケールに対応する第１の特徴マップ、即ち、畳み込みニューラルネットワークにより出力された特徴マップＰ_２、Ｐ_３、Ｐ_４、及びＰ_５を特定するとしてもよい。

図２において、Ｃ_２、Ｃ_３、Ｃ_４、Ｃ_５は、畳み込みニューラルネットワークのボトムアップ畳み込み結果にそれぞれ対応し、Ｐ_２、Ｐ_３、Ｐ_４、及びＰ_５は、これらの畳み込み結果にそれぞれ対応する特徴マップであり、ここで、Ｃ_２とＰ_２は同一のデフォルトのスケールを有し、Ｃ_３とＰ_３は同一のデフォルトのスケールを有し、Ｃ_４とＰ_４は同一のデフォルトのスケールを有し、Ｃ_５とＰ_５は同一のデフォルトのスケールを有する。特徴マップＰ_２は、畳み込みニューラルネットワークを用いて対象画像に対して特徴抽出を直接行って得られた特徴マップであり、他の特徴マップはいずれも畳み込みニューラルネットワークを用いて前の特徴マップに対して特徴抽出を行って得られた特徴マップである。

Ｓ３２０において、各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得して第１のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第２の特徴マップを取得する。

本開示の実施例において、異なるデフォルトのスケールの第１の特徴マップをスティッチングする前に、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールに対応する第１の特徴マップに対して、アップサンプリング処理をそれぞれ行う必要がある。全てのアップサンプリング処理された第１の特徴マップは、いずれも最大のデフォルトのスケールを有する特徴マップである。その後、全ての最大のデフォルトのスケールを有する第１の特徴マップをスティッチングする。

このステップＳ３２０において、最大のデフォルトのスケールよりも低い第１の特徴マップをアップサンプリング処理し、全てのアップサンプリング処理された第１の特徴マップが同一のスケールを有するようにしてから、スティッチングを行うことで、特徴マップスティッチングの正確性を保証することができ、それにより対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。

本開示の実施例において、畳み込みニューラルネットワークを用いて第１のスティッチング特徴マップに対して特徴抽出を行い、第２の特徴マップを取得するとしてもよい。例えば、図２における特徴量マップｌ_２のような、最大のデフォルトのスケールに対応する特徴マップを取得するとしてもよい。

Ｓ３３０において、各デフォルトのスケールの第１の特徴マップ及び最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する。

いくつかの実施例において、デフォルトのスケールの大きい順に従って、各デフォルトのスケールに対応する第１の特徴マップと結び付け、各デフォルトのスケールに第２の特徴マップを順次生成し、第１の特徴マップ及び第２の特徴マップとさらに結び付けて各デフォルトのスケールの最終的な画像特徴マップを特定するとしてもよい。このように、複数回の特徴抽出と複数方向の特徴融合により、対象画像における画像特徴情報をより十分に掘り起こし、より完全で正確な特徴マップを取得することができ、それにより対象画像に対してパノラマセグメンテーションを行う精度を向上させることができる。

具体的に実施する時に、ステップＳ３３０は、以下のサブステップ３３０１－３３０２により実現することができる。

サブステップ３３０１において、最大のデフォルトのスケール以外の各デフォルトのスケールについて、当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第１の特徴マップ及び最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、当該デフォルトのスケールに対応する第２の特徴マップを特定する。

いくつかの実施例において、デフォルトのスケールを昇順に並べ、第ｉのデフォルトのスケールに対して、第ｉのデフォルトのスケールに隣接する、第ｉのデフォルトのスケールよりも大きい第ｉ＋１のデフォルトのスケールに対応する第１の特徴マップ及び第ｉ＋１のデフォルトのスケールに対応する第２の特徴マップをスティッチングし、その後、畳み込みニューラルネットワークを用いて特徴を抽出し、第ｉのデフォルトのスケールに対応する第２の特徴マップ、例えば、図２における第２の特徴マップｌ_３、ｌ_４、ｌ_５を取得する。ここで、ｉは、デフォルトのスケールの数と１との差の以下である。

サブステップ３３０２において、各デフォルトのスケールについて、当該デフォルトのスケールに対応する第１の特徴マップ及び当該デフォルトのスケールに対応する第２の特徴マップに基づいて、対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定する。

本開示の実施例において、各デフォルトのスケールに対応する第１の特徴マップ及び第２の特徴マップをスティッチングし、その後、畳み込みニューラルネットワークを用いて特徴を抽出し、各デフォルトのスケールに対応する画像特徴マップを取得する。

上記の実施例において、デフォルトのスケールの大きい順に従って、１つ前のデフォルトのスケールの第１の特徴マップ及び第２の特徴マップと結び付けて現在のデフォルトのスケールの第２の特徴マップを特定し、また、現在のデフォルトのスケールの第２の特徴マップ及び第１の特徴マップに基づいて現在のデフォルトのスケールの画像特徴マップを最終的に特定し、各デフォルトのスケールに対応する画像特徴マップを特定する時に、他のデフォルトのスケールに対応する特徴マップの情報を十分に融合することを実現し、対象画像における画像特徴情報をより十分に掘り起こすことができ、それにより各デフォルトのスケールに対応する画像特徴マップの正確性及び完全性を向上させる。

いくつかの実施例において、図４に示すように、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定する上記ステップは、以下のステップＳ４１０－Ｓ４３０により実現することができる。

Ｓ４１０において、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された画像特徴マップを取得し、ただし、アップサンプリング処理された各画像特徴マップのスケールは、いずれも最大のデフォルトのスケールである。

本開示の実施例において、最大のデフォルトのスケールよりも低い各画像特徴マップに対してアップサンプリング処理を行い、アップサンプリング処理された後、全ての画像特徴マップはいずれも最大のデフォルトのスケールを有する。

Ｓ４２０において、最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第２のスティッチング特徴マップを取得する。

いくつかの実施例において、最大のデフォルトのスケールを有する全ての画像特徴マップをスティッチングし、第２のスティッチング特徴マップを取得する。

Ｓ４３０において、第２のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定する。

いくつかの実施例において、ニューラルネットワークレイヤを用いて第２のスティッチング特徴マップに対して処理を行い、第２のスティッチング特徴マップ中の特徴画素点に含まれる画像特徴情報に基づいて、対象画像中の特徴画素点に対応する画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するとしてもよい。

上記の実施例において、最大のデフォルトのスケールよりも低い画像特徴マップに対してアップサンプリング処理を行い、全ての画像特徴マップが同一のスケールを有するようにしてから、スティッチングを行うことで、特徴マップスティッチングの正確性を保証することができ、それにより対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。

いくつかの実施例において、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行う上記ステップは、以下のステップＳ５１０－Ｓ５５０により実現することができる。

Ｓ５１０において、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジット（ｓｅｍａｎｔｉｃｓｅｇｍｅｎｔａｔｉｏｎｌｏｇｉｔｓ）を特定し、ただし、前記対象画像中の画素点が背景に属する第２の確率が大きいほど、当該画素点に対応する第１のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第１のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比である。

本開示の実施例において、第２の確率を用いて第２のスティッチング特徴マップ中の背景に対応する特徴画素点に対して補強を行ってもよく、その後、補強された特徴マップを用いてセマンティクスセグメンテーションロジットを生成してもよい。

本開示の実施例において、第１の確率及び第２の確率は、上記の第２のスティッチング特徴マップに対して特徴抽出を行った後に特定され、第１の確率及び第２の確率は１つの前景・背景分類特徴マップに対応してもよく、即ち、前景・背景分類特徴マップには、上記の第１の確率及び第２の確率が含まれる。言い換えれば、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて当該前景・背景分類特徴マップを特定するとしてもよい。このステップにおいて、第２のスティッチング特徴マップ及び対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定することは、畳み込みニューラルネットワークにおける複数の畳み込みレイヤ及びシグモイドレイヤを用いて上記の前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、当該特徴マップにおける対象画像中の背景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の前景に対応する特徴画素点を弱めることで、第１の処理された特徴マップを取得することと、当該第１の処理された特徴マップを用いて第２のスティッチング特徴マップと融合し、融合された特徴マップを取得することと、融合された特徴マップに基づいて、セマンティクスセグメンテーションロジットを特定することと、を含んでもよい。当該特徴マップにおける対象画像中の背景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の前景に対応する特徴画素点を弱めることで、融合ステップにおいて、第２のスティッチング特徴マップにおける対象画像中の背景に対応する特徴画素点が補強され、対象画像中の前景に対応する特徴画素点が弱められるようにすることができる。したがって、当該第１の処理された特徴マップと第２のスティッチング特徴マップとの融合に基づいて得られるセマンティクスセグメンテーションロジットにおける対象画像中の背景に対応する特徴画素点が補強され、対象画像中の前景に対応する特徴画素点が弱められ、それによりセマンティクスセグメンテーションロジットに基づいて対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。

Ｓ５２０において、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジット（ｉｎｓｔａｎｃｅｓｅｇｍｅｎｔａｔｉｏｎｌｏｇｉｔｓ）を特定し、ただし、前記対象画像中の画素点が前景に属する第１の確率が大きいほど、当該画素点に対応する第２のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第２のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比である。

本開示の実施例において、第１の確率を用いて第２のスティッチング特徴マップにおける前景に対応する特徴画素点に対して補強を行うとしてもよく、その後、補強された特徴マップを用いてインスタンスセグメンテーションロジットを生成し、対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリを特定するとしてもよい。

本開示の実施例において、第１の確率及び第２の確率は、上記の第２のスティッチング特徴マップに対して特徴抽出を行った後に特定され、第１の確率及び第２の確率は１つの前景・背景分類特徴マップに対応してもよく、即ち、前景・背景分類特徴マップには、上記の第１の確率及び第２の確率が含まれる。言い換えれば、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて当該前景・背景分類特徴マップを特定するとしてもよい。このステップにおいて、第２のスティッチング特徴マップ及び対象画像中の各画素点が前景に属する第１の確率に基づいて前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットを特定することは、図６に示すように、畳み込みニューラルネットワークにおける複数の畳み込みレイヤｃｏｎｖｌａｙｅｒ及びシグモイドレイヤＳｉｇｍｏｉｄｌａｙｅｒを用いて上記の前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、当該特徴マップにおける対象画像中の前景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の背景に対応する特徴画素点を弱めることで、第２の処理された特徴マップを取得することと、当該第２の処理された特徴マップを用いて第２のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得することと、融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットを特定することと、を含んでもよい。当該特徴マップにおける対象画像中の前景に対応する特徴画素点を補強し、当該特徴マップにおける対象画像中の背景に対応する特徴画素点を弱めることで、融合ステップにおいて、第２のスティッチング特徴マップにおける対象画像中の前景に対応する特徴画素点が補強され、対象画像中の背景に対応する特徴画素点が弱められるようにすることができる。したがって、当該第２の処理された特徴マップと第２のスティッチング特徴マップにおける各オブジェクトに対応する関心領域との融合に基づいて特定された上記の各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットの精度が向上し、それにより上記の各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットに基づいて対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。

なお、第２のスティッチング特徴マップ及び対象画像中の各画素点が前景に属する第１の確率に基づいて上記の各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットを特定する時に、まず、各オブジェクトの第２のスティッチング特徴マップにおける特徴領域（即ち、関心領域）を特定し、その後、各オブジェクトの第２のスティッチング特徴マップにおける特徴領域及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ及び各オブジェクトのインスタンスセグメンテーションロジットをそれぞれ特定する。

Ｓ５３０において、各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定する。

本開示の実施例において、セマンティクスセグメンテーションロジットから、オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに対応する領域のセマンティクスセグメンテーションロジットを切り取る。

Ｓ５４０において、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定する。

本開示の実施例において、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、対象画像に対してパノラマセグメンテーションを行うパノラマセグメンテーションロジットを生成することができる。

Ｓ５５０において、前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像中の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定する。

いくつかの実施例において、上記の画像処理方法は、ニューラルネットワークにより実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる。マスク情報には、オブジェクトに対応する初期バウンディングボックスにおける各画素点が当該オブジェクトの画素点であるか否かの情報が含まれる。

本開示は、上記のニューラルネットワークに対してトレーニングを行うフローをさらに提供し、いくつかの実施例において、当該フローは、以下のステップ１乃至ステップ３を含んでもよい。

ステップ１において、サンプル画像の異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率を特定する。

本開示の実施例において、ニューラルネットワークは、上記の実施例と同様の方法を用いてサンプル画像の異なるデフォルトのスケールに対する特徴マップ、即ち、上記の複数のサンプル画像特徴マップを特定してもよい。上記の実施例と同様の方法を用いてサンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率を特定してもよい。

ステップ２において、前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力する。

ニューラルネットワークにより出力されたサンプル画像における１つのオブジェクトのマスク情報は、ニューラルネットワークにより予測された当該オブジェクトのマスク情報であり、ニューラルネットワークにより予測された当該オブジェクトのマスク情報は、ニューラルネットワークにより予測された当該オブジェクトのバウンディングボックスにおける画像により特定されてもよい。言い換えれば、ニューラルネットワークにより予測されたオブジェクトのマスク情報は、ニューラルネットワークにより予測された当該オブジェクトのバウンディングボックス及びサンプル画像により特定されてもよい。

ステップ３において、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定する。１つのオブジェクトのラベル付きのマスク情報は、ラベル付きの当該オブジェクトのバウンディングボックスにおける画像により特定されてもよく、即ち、１つのオブジェクトのラベル付きのマスク情報は、ラベル付きの当該オブジェクトのバウンディングボックス及びサンプル画像により特定されてもよい。

本開示の実施例において、以下のサブステップ１乃至４を用いてネットワーク損失関数を特定してもよい。

サブステップ１において、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得する。

サブステップ２において、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得する。

サブステップ３において、前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定する。

ラベル付きのマスク情報及びニューラルネットワークにより予測されたマスク情報を用いてマスク共通部分とマスク和集合を特定し、さらにマスク共通部分とマスク和集合に基づいてネットワーク損失関数、即ち、共通部分と和集合との比ｉｏｕ損失関数を特定する。ｉｏｕ損失関数を用いることで、トレーニングして得られたニューラルネットワークによるパノラマセグメンテーションの正確性を向上させることができる。

サブステップ４において、前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整する。

本実施例は、ラベル付きのマスク情報及びニューラルネットワークにより予測されたマスク情報を用いてネットワーク損失関数を特定して、ネットワーク損失関数を用いてニューラルネットワークのトレーニングを行うことで、トレーニングして得られたニューラルネットワークによるパノラマセグメンテーションの正確性を向上させることができる。

以下、本開示の画像処理方法をさらに１つの実施例により説明する。

図７に示すように、本実施例の画像処理方法は以下のステップ７００－７９０を含む。

ステップ７００において、対象画像を取得し、対象画像の異なるデフォルトのスケールに対応する第１の特徴マップｐ２、ｐ３、ｐ４、ｐ５を特定する。

ステップ７１０において、第１の特徴マップｐ２、ｐ３、ｐ４、ｐ５をスティッチングし、スティッチングして得られた第１のスティッチング特徴マップＫ１に基づいて、最大のデフォルトのスケールに対応する第２の特徴マップｌ２を特定する。

ステップ７２０において、最大のデフォルトのスケール以外の各デフォルトのスケールについて、当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールに対応する第１の特徴マップ及び第２の特徴マップに基づいて、当該デフォルトのスケールに対応する第２の特徴マップ、即ち、図８におけるｌ３、ｌ４、ｌ５を特定する。

ステップ７３０において、各デフォルトのスケールについて、当該デフォルトのスケールに対応する第１の特徴マップ及び当該デフォルトのスケールに対応する第２の特徴マップに基づいて、対象画像の当該デフォルトのスケールに対応する画像特徴マップｑ２、ｑ３、ｑ４、ｑ５を特定する。

ステップ７４０において、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップは、いずれも最大のデフォルトのスケールを有する。その後、最大のデフォルトのスケールに対応する全ての画像特徴マップをスティッチングし、第２のスティッチング特徴マップＫ２を取得する。

ステップ７５０において、第２のスティッチング特徴マップＫ２に基づいて、前景・背景分類特徴マップＫ３を生成し、前景・背景分類特徴マップＫ３には、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率が含まれる。

ステップ７６０において、前景・背景分類特徴マップＫ３中の各画素点が背景に属する第２の確率及び第２のスティッチング特徴マップＫ２に基づいて、セマンティクスセグメンテーションロジットＫ４を特定する。

ステップ７７０において、前景・背景分類特徴マップＫ３中の各画素点が前景に属する第１の確率及び前記複数の画像特徴マップに基づいて、前記対象画像における各オブジェクトの初期バウンダリボックスｂｏｘ、各オブジェクトのインスタンスカテゴリｃｌａｓｓ、及び各オブジェクトのインスタンスセグメンテーションロジットＫ６を特定する。

ステップ７８０において、各オブジェクトの初期バウンディングボックスｂｏｘ及びインスタンスクラスｃｌａｓｓに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定し、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットＫ６に基づいて、前記対象画像のパノラマセグメンテーションロジットＫ７を特定する。

ステップ７９０において、前記対象画像のパノラマセグメンテーションロジットに基づいて前記対象画像中の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定する。

上記の実施例は、複数回の特徴抽出と複数方向の特徴融合により、対象画像の異なるデフォルトのスケールに対応する画像特徴マップを取得し、対象画像の画像特徴の十分な掘り起こしを実現し、得られた画像特徴マップには、より完全で正確な画像特徴マップが含まれる。当該より完全で正確な画像特徴マップは、対象画像に対してパノラマセグメンテーションを行う精度を向上させることに有利である。上記の実施例は、対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて画像特徴マップにおける背景又は前景に対応する特徴画素点を補強処理することで、対象画像に対してパノラマセグメンテーションを行う精度を向上させることに同様に有利である。

上記の画像処理方法に対応して、本開示の実施例は、画像処理装置をさらに提供し、当該装置は、シーン知覚、即ち対象画像に対してパノラマセグメンテーションを行う端末機器に適用され、当該装置及びその各モジュールは、上記の画像処理方法と同様の方法のステップを実行することができ、同様又は類似する効果を達成することができるため、重複する部分については説明が省略される。

図８に示すように、本開示にて提供される画像処理装置は、特徴マップ特定モジュール８１０、前景・背景処理モジュール８２０、及びパノラマ分析モジュール８３０を含む。

特徴マップ特定モジュール８１０は、対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するために用いられる。

前景・背景処理モジュール８２０は、前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するために用いられる。

パノラマ分析モジュール８３０は、前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うために用いられる。

いくつかの実施例において、前記特徴マップ特定モジュール８１０は、前記対象画像に対して特徴抽出を行い、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップを取得し、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得し、前記第１のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第２の特徴マップを取得し、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するために用いられる。

いくつかの実施例において、前記特徴マップ特定モジュール８１０は、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する時に、前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールについて、前記異なるデフォルトのスケールのうち当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、当該デフォルトのスケールに対応する第２の特徴マップを特定し、当該デフォルトのスケールに対応する第１の特徴マップ及び当該デフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定するために用いられる。

いくつかの実施例において、前記特徴マップ特定モジュール８１０は、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得する時に、前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールの第１の特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された第１の特徴マップを取得し、ただし、アップサンプリング処理された各第１の特徴マップのスケールはいずれも前記最大のデフォルトのスケールであり、前記最大のデフォルトのスケールに対応する第１の特徴マップ及びアップサンプリング処理された各第１の特徴マップをスティッチングし、前記第１のスティッチング特徴マップを取得するために用いられる。

いくつかの実施例において、前記前景・背景処理モジュール８２０は、異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップを取得し、ただし、アップサンプリング処理された各画像特徴マップのスケールはいずれも最大のデフォルトのスケールであり、前記最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第２のスティッチング特徴マップを取得し、前記第２のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するために用いられる。

いくつかの実施例において、前記パノラマ分析モジュール８３０は、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定し、ただし、前記対象画像中の画素点が背景に属する第２の確率が大きいほど、当該画素点に対応する第１のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第１のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比であり、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定し、ただし、前記対象画像中の画素点が前景に属する第１の確率が大きいほど、当該画素点に対応する第２のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第２のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比であり、各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定し、各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定し、前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定するために用いられる。

前記パノラマ分析モジュール８３０は、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定する時に、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて前景・背景分類特徴マップを特定し、前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を弱め、第１の処理された特徴マップを取得し、前記第１の処理された特徴マップを用いて前記第２のスティッチング特徴マップと融合し、融合された特徴マップを取得し、前記融合された特徴マップに基づいて、前記セマンティクスセグメンテーションロジットを特定するために用いられる。

前記パノラマ分析モジュール８３０は、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定する時に、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて前景・背景分類特徴マップを特定し、前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を弱め、第２の処理された特徴マップを取得し、前記第２の処理された特徴マップを用いて前記第２のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得し、前記融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定するために用いられる。

いくつかの実施例において、前記画像処理装置は、ニューラルネットワークを用いて前記対象画像に対してパノラマセグメンテーションを行い、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる。

いくつかの実施例において、上記の装置は、ニューラルネットワークトレーニングモジュール８４０をさらに含み、前記ニューラルネットワークトレーニングモジュール８４０は、サンプル画像の異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率を特定するステップと、前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力するステップと、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップと、前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整するステップと、を用いて前記ニューラルネットワークをトレーニングする。

いくつかの実施例において、前記ニューラルネットワークトレーニングモジュール８４０は、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定する時に、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得し、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得し、前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定するために用いられる。

本開示の実施例は、図９に示すように、プロセッサ９０１と、メモリ９０２と、バス９０３と、を含み、前記メモリ９０２は、前記プロセッサ９０１が実行可能な機械可読命令を記憶し、電子機器が動作する時に、前記プロセッサ９０１と前記メモリ９０２との間はバス９０３を介して通信する電子機器を提供する。

前記機械可読命令は、前記プロセッサ９０１により実行されると、いずれかの上記の実施例にて提供される画像処理方法を実行する。

本開示の実施例は、上記の方法及び装置に対応するコンピュータプログラム製品をさらに提供し、前記コンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含み、プログラムコードに含まれる命令は、前述した方法の実施例における方法を実行するために用いられ、具体的な実現は、方法の実施例を参照してもよく、ここでは詳細は再度説明しない。

本開示の実施例は、記憶媒体に記憶された、前記コンピュータプログラムがプロセッサにより実行されると、いずれかの上記の実施例における画像処理方法を実行するコンピュータプログラムをさらに提供する。

以上、各実施例についての記述には、各実施例の間の相違を強調する傾向があり、それらの同様又は類似するものは、互いに参照してもよく、簡潔のために、本明細書では詳細は再度説明しない。

当業者は、記述の便宜及び簡潔のために、上記のシステム及び装置の具体的な動作過程が、方法の実施例における対応する過程を参照してもよく、本開示においては省略されることを明確に理解することができる。本開示により提供されるいくつかの実施例において、開示されるシステム、装置、及び方法は、他の形態で実現されてもよいことが理解されるべきである。上記の装置の実施例は、単なる例示的なものであり、例えば、前記モジュールの区画は、単に論理的機能の区画であり、実際に実現する時に、別の区画方式にしてもよく、また、例えば、複数のモジュール又はアセンブリは組み合わせてもよく、若しくは別のシステムに統合されてもよく、又はいくつかの特徴は省略されてもよく、若しくは実行されなくてもよい。別の点において、示され又は論じされた相互の間の結合又は直接結合又は通信接続は、いくつかの通信インタフェース、装置又はモジュールを介した間接的な結合又は通信接続であってもよく、電気的、機械的、又は他の形態であってもよい。

分離部材として説明された前記モジュールは、物理的に分離されても、又は分離されなくてもよく、モジュールとして表示される部材は、物理的なユニットであっても、又は物理的なユニットでなくてもよく、即ち、一箇所に位置しても、又は複数のネットワークユニットに分散されてもよい。なお、本実施例の手段の目的を達成するために、実際の要求に応じて、そのうちの一部又は全部のユニットを選択してもよい。

また、本開示の各実施例における各機能ユニットは、１つの処理ユニットに統合されていてもよく、各ユニットが物理的に別々に存在していてもよく、２つ以上のユニットが１つのユニットに統合されてもよい。

前記機能は、ソフトウェア機能ユニットの形態で実現されスタンドアロン製品として販売又は使用される場合、１つのプロセッサにより実行可能な不揮発性コンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づいて、本開示の技術的解決手段は、本質的に、又は、従来技術に寄与する部分、又は、当該技術的解決手段の一部がソフトウェア製品の形態で具体化されてもよく、当該コンピュータソフトウェア製品は１つの記憶媒体に記憶され、本開示の各実施例に記載の方法のステップの全て又は一部を、１台のコンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器などであってもよい）に実行させるための命令を含む。前述した記憶媒体は、Ｕディスク、ポータブルハードディスク、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、磁気ディスク又は光ディスクなど、プログラムコードを記憶可能な種々の媒体を含む。

以上は本開示の具体的な実施形態にすぎず、本開示の保護範囲はこれに限定されず、本開示に開示された技術的範囲内において当業者が容易に想到し得る変更又は置換は、いずれも本開示の保護範囲に含まれるべきである。したがって、本開示の保護範囲は、特許請求の範囲による保護範囲を基準とすべきである。

Claims

対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するステップと、
前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するステップと、
前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うステップと、を含む、
ことを特徴とする画像処理方法。
対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するステップは、
前記対象画像に対して特徴抽出を行い、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップを取得することと、
前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得することと、
前記第１のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第２の特徴マップを取得することと、
前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定することと、を含む、
ことを特徴とする請求項１に記載の方法。
前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定することは、
前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールについて、
前記異なるデフォルトのスケールのうち当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、当該デフォルトのスケールに対応する第２の特徴マップを特定することと、
当該デフォルトのスケールに対応する第１の特徴マップ及び当該デフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定することと、を含む、
ことを特徴とする請求項２に記載の方法。
前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得することは、
前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールの第１の特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された第１の特徴マップを取得し、アップサンプリング処理された各第１の特徴マップのスケールはいずれも前記最大のデフォルトのスケールであることと、
前記最大のデフォルトのスケールに対応する第１の特徴マップ及びアップサンプリング処理された各第１の特徴マップをスティッチングし、前記第１のスティッチング特徴マップを取得することと、を含む、
ことを特徴とする請求項２に記載の方法。
前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定することは、
前記異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップを取得し、アップサンプリング処理された各画像特徴マップのスケールはいずれも最大のデフォルトのスケールであることと、
前記最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第２のスティッチング特徴マップを取得することと、
前記第２のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定することと、を含む、
ことを特徴とする請求項１乃至４のいずれか１項に記載の方法。
前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うステップは、
前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定し、前記対象画像中の画素点が背景に属する第２の確率が大きいほど、当該画素点に対応する第１のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第１のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比であることと、
前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定し、前記対象画像中の画素点が前景に属する第１の確率が大きいほど、当該画素点に対応する第２のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第２のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比であることと、
各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定することと、
各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定することと、
前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像中の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定することと、を含む、
ことを特徴とする請求項５に記載の方法。
前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定することは、
前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて前景・背景分類特徴マップを特定することと、
前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、
前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を弱め、第１の処理された特徴マップを取得することと、
前記第１の処理された特徴マップを用いて前記第２のスティッチング特徴マップと融合し、融合された特徴マップを取得することと、
前記融合された特徴マップに基づいて、前記セマンティクスセグメンテーションロジットを特定することと、を含む、
ことを特徴とする請求項６に記載の方法。
前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定することは、
前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて前景・背景分類特徴マップを特定することと、
前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得することと、
前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を弱め、第２の処理された特徴マップを取得することと、
前記第２の処理された特徴マップを用いて前記第２のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得することと、
前記融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定することと、を含む、
ことを特徴とする請求項６に記載の方法。
前記画像処理方法はニューラルネットワークにより実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる、
ことを特徴とする１－８のいずれか１項に記載の方法。
前記ニューラルネットワークは、
サンプル画像の前記異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率を特定するステップと、
前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力するステップと、
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップと、
前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整するステップと、を用いてトレーニングして得られる、
ことを特徴とする請求項９に記載の方法。
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップは、
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得することと、
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得することと、
前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定することと、を含む、
ことを特徴とする請求項１０に記載の方法。
対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するための特徴マップ特定モジュールと、
前記複数の画像特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するための前景・背景処理モジュールと、
前記複数の画像特徴マップ、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率に基づいて、前記対象画像に対してパノラマセグメンテーションを行うためのパノラマ分析モジュールと、を含む、
ことを特徴とする画像処理装置。
前記特徴マップ特定モジュールは、
前記対象画像に対して特徴抽出を行い、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップを取得し、
前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得し、
前記第１のスティッチング特徴マップから画像特徴を抽出し、前記異なるデフォルトのスケールのうちの最大のデフォルトのスケールに対応する第２の特徴マップを取得し、
前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定するために用いられる、
ことを特徴とする請求項１２に記載の装置。
前記特徴マップ特定モジュールは、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の異なるデフォルトのスケールに対応する複数の画像特徴マップを特定する時に、
前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールについて、
前記異なるデフォルトのスケールのうち当該デフォルトのスケールに隣接する、当該デフォルトのスケールよりも大きいデフォルトのスケールの第１の特徴マップ及び前記最大のデフォルトのスケールに対応する第２の特徴マップに基づいて、当該デフォルトのスケールに対応する第２の特徴マップを特定し、
当該デフォルトのスケールに対応する第１の特徴マップ及び当該デフォルトのスケールに対応する第２の特徴マップに基づいて、前記対象画像の当該デフォルトのスケールに対応する画像特徴マップを特定するために用いられる、
ことを特徴とする請求項１３に記載の装置。
前記特徴マップ特定モジュールは、前記異なるデフォルトのスケールのうち各デフォルトのスケールの第１の特徴マップをスティッチングし、第１のスティッチング特徴マップを取得する時に、
前記異なるデフォルトのスケールのうちの前記最大のデフォルトのスケール以外の各デフォルトのスケールの第１の特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された第１の特徴マップを取得し、アップサンプリング処理された各第１の特徴マップのスケールはいずれも前記最大のデフォルトのスケールであり、
前記最大のデフォルトのスケールに対応する第１の特徴マップ及びアップサンプリング処理された各第１の特徴マップをスティッチングし、前記第１のスティッチング特徴マップを取得するために用いられる、
ことを特徴とする請求項１３に記載の装置。
前記前景・背景処理モジュールは、
前記異なるデフォルトのスケールのうちの最大のデフォルトのスケール以外の各デフォルトのスケールの画像特徴マップに対してアップサンプリング処理をそれぞれ行い、アップサンプリング処理された各画像特徴マップを取得し、アップサンプリング処理された各画像特徴マップのスケールはいずれも最大のデフォルトのスケールであり、
前記最大のデフォルトのスケールに対応する画像特徴マップ及びアップサンプリング処理された各画像特徴マップをスティッチングし、第２のスティッチング特徴マップを取得し、
前記第２のスティッチング特徴マップに基づいて、前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を特定するために用いられる、
ことを特徴とする請求項１２乃至１５のいずれか１項に記載の装置。
前記パノラマ分析モジュールは、
前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定し、前記対象画像中の画素点が背景に属する第２の確率が大きいほど、当該画素点に対応する第１のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第１のスケーリング比率は、前記セマンティクスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比であり、
前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定し、前記対象画像中の画素点が前景に属する第１の確率が大きいほど、当該画素点に対応する第２のスケーリング比率が大きく、前記対象画像中の１つの画素点に対応する第２のスケーリング比率は、前記インスタンスセグメンテーションロジットにおける当該画素点の対応する値と前記第２のスティッチング特徴マップにおける当該画素点の対応する値との比であり、
各オブジェクトの初期バウンディングボックス及びインスタンスカテゴリに基づいて、前記セマンティクスセグメンテーションロジットから、各オブジェクトに対応するセマンティクスセグメンテーションロジットを特定し、
各オブジェクトに対応するセマンティクスセグメンテーションロジット及び前記インスタンスセグメンテーションロジットに基づいて、前記対象画像のパノラマセグメンテーションロジットを特定し、
前記対象画像のパノラマセグメンテーションロジットに基づいて、前記対象画像の背景及び前景におけるオブジェクトのバウンディングボックス及びインスタンスカテゴリを特定するために用いられる、
ことを特徴とする請求項１６に記載の装置。
前記パノラマ分析モジュールは、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が背景に属する第２の確率に基づいて、セマンティクスセグメンテーションロジットを特定する時に、
前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて前景・背景分類特徴マップを特定し、
前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、
前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を弱め、第１の処理された特徴マップを取得し、
前記第１の処理された特徴マップを用いて前記第２のスティッチング特徴マップと融合し、融合された特徴マップを取得し、
前記融合された特徴マップに基づいて、前記セマンティクスセグメンテーションロジットを特定するために用いられる、
ことを特徴とする請求項１７に記載の装置。
前記パノラマ分析モジュールは、前記第２のスティッチング特徴マップ及び前記対象画像中の各画素点が前景に属する第１の確率に基づいて、前記対象画像における各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定する時に、
前記対象画像中の各画素点が前景に属する第１の確率及び背景に属する第２の確率を用いて前景・背景分類特徴マップを特定し、
前記前景・背景分類特徴マップにおける画像特徴を抽出し、特徴マップを取得し、
前記特徴マップにおける前記対象画像中の前景に対応する特徴画素点を補強し、前記特徴マップにおける前記対象画像中の背景に対応する特徴画素点を弱め、第２の処理された特徴マップを取得し、
前記第２の処理された特徴マップを用いて前記第２のスティッチング特徴マップにおける各オブジェクトに対応する関心領域と融合し、融合された特徴マップを取得し、
前記融合された特徴マップに基づいて、各オブジェクトの初期バウンディングボックス、各オブジェクトのインスタンスカテゴリ、及び各オブジェクトのインスタンスセグメンテーションロジットを特定するために用いられる、
ことを特徴とする請求項１７に記載の装置。
前記画像処理装置は、ニューラルネットワークを用いて前記対象画像に対してパノラマセグメンテーションを行い、前記ニューラルネットワークは、サンプル画像を用いてトレーニングして得られ、前記サンプル画像には、オブジェクトのラベル付きのインスタンスカテゴリ及びそのラベル付きのマスク情報が含まれる、
ことを特徴とする請求項１２－１９のいずれか１項に記載の装置。
ニューラルネットワークトレーニングモジュールをさらに含み、前記ニューラルネットワークトレーニングモジュールは、
サンプル画像の前記異なるデフォルトのスケールに対応する複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率を特定するステップと、
前記複数のサンプル画像特徴マップ、前記サンプル画像中の各画素点が前景に属する第１のサンプル確率及び背景に属する第２のサンプル確率に基づいて前記サンプル画像に対してパノラマセグメンテーションを行い、前記サンプル画像における各オブジェクトのインスタンスカテゴリ及びそのマスク情報を出力するステップと、
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定するステップと、
前記ネットワーク損失関数を用いて前記ニューラルネットワークにおけるネットワークパラメータを調整するステップと、を用いて前記ニューラルネットワークをトレーニングする、
ことを特徴とする請求項２０に記載の装置。
前記ニューラルネットワークトレーニングモジュールは、前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報及び各オブジェクトのラベル付きのマスク情報に基づいて、ネットワーク損失関数を特定する時に、
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報との間の同様の情報を特定し、マスク共通部分情報を取得し、
前記ニューラルネットワークにより出力された前記サンプル画像における各オブジェクトのマスク情報と各オブジェクトのラベル付きのマスク情報とを合わせた情報を特定し、マスク和集合情報を取得し、
前記マスク共通部分情報及び前記マスク和集合情報に基づいて、前記ネットワーク損失関数を特定するために用いられる、
ことを特徴とする請求項２１に記載の装置。
プロセッサと、記憶媒体と、バスと、を含み、前記記憶媒体は、前記プロセッサが実行可能な機械可読命令を記憶し、電子機器が動作する時に、前記プロセッサと前記記憶媒体との間はバスを介して通信し、前記プロセッサは前記機械可読命令を実行して、請求項１－１１のいずれか１項に記載の画像処理方法を実行する、
ことを特徴とする電子機器。
コンピュータプログラムが記憶され、前記コンピュータプログラムはプロセッサにより実行されると、請求項１－１１のいずれか１項に記載の画像処理方法を実行する、
ことを特徴とするコンピュータ可読記憶媒体。
コンピュータプログラムが記憶媒体に記憶され、前記コンピュータプログラムがプロセッサにより実行されると、請求項１－１１のいずれか１項に記載の画像処理方法を実行する、
ことを特徴とするコンピュータプログラム。