JP2021533430A

JP2021533430A - 画像処理方法、画像処理装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2021533430A
Application number: JP2020563999A
Authority: JP
Inventors: 昆霖楊; 鯤顔; 軍候; 暁聡蔡; 帥伊
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-07-18
Filing date: 2019-11-08
Publication date: 2021-12-02
Anticipated expiration: 2039-11-08
Also published as: KR20210012004A; KR102436593B1; US20210019562A1; TW202105321A; SG11202008188QA; JP7106679B2; CN110378976B; TW202145143A; WO2021008022A1; TWI740309B; CN110378976A; TWI773481B

Abstract

本開示は画像処理方法及び装置、電子機器並びに記憶媒体に関する。前記方法は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得することと、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含む。本開示の実施例によければ、予測結果の品質及びロバスト性を向上させることができる。【選択図】図１

Description

本開示はコンピュータテクノロジーの分野に関し、特に画像処理方法及び装置、電子機器並びに記憶媒体に関する。

人工知能は、技術の継続的な発展に伴い、コンピュータビジョン、音声認識等のいずれにおいても優れた効果を収めている。場面内の対象物（例えば、歩行者、車両など）を識別するタスクでは、場面内の対象物の数や分布状況などを予測することが必要となる場合がある。

本開示は画像処理の発明を提案する。

本開示の一側面では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得することと、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、ここで、Ｍ、Ｎは１より大きい整数である画像処理方法を提供する。

１つの可能な実施形態では、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得することと、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、第Ｍ段の符号化ネットワークによって第Ｍ−１段の符号化後のＭ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第Ｍ段の符号化後のＭ＋１個の特徴マップを取得することと、を含み、ここで、ｍは整数で１＜ｍ＜Ｍである。

１つの可能な実施形態では、第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第２特徴マップを取得することは、前記第１特徴マップをスケールダウンし、第２特徴マップを取得することと、前記第１特徴マップと前記第２特徴マップを融合させ、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得することと、を含む。

１つの可能な実施形態では、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、スケールが第ｍ−１段の符号化後のｍ個の特徴マップのスケールよりも小さいｍ＋１番目の特徴マップを取得することと、前記第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、を含む。

１つの可能な実施形態では、第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、ｍ＋１番目の特徴マップを取得することは、第ｍ段の符号化ネットワークの畳み込みサブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップをそれぞれスケールダウンし、スケールが前記ｍ＋１番目の特徴マップのスケールと同じであるスケールダウン後のｍ個の特徴マップを取得することと、前記スケールダウン後のｍ個の特徴マップに対して特徴融合を行い、前記ｍ＋１番目の特徴マップを取得することと、を含む。

１つの可能な実施形態では、第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、第ｍ段の符号化ネットワークの特徴最適化サブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得することと、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、を含む。

１つの可能な実施形態では、前記畳み込みサブネットワークは少なくとも１つの第１畳み込み層を含み、前記第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、前記特徴最適化サブネットワークは少なくとも２つの第２畳み込み層及び残差層を含み、前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１であり、前記ｍ＋１個の融合サブネットワークは最適化後のｍ＋１個の特徴マップに対応する。

１つの可能な実施形態では、ｍ＋１個の融合サブネットワーク内のｋ番目の融合サブネットワークの場合、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、少なくとも１つの第１畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも大きいｋ−１個の特徴マップをスケールダウンし、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールダウン後のｋ−１個の特徴マップを取得することと、及び／又はアップサンプリング層及び第３畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも小さいｍ＋１−ｋ個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールアップ後のｍ＋１−ｋ個の特徴マップを取得することと、を含み、ここで、ｋは整数で１≦ｋ≦ｍ＋１であり、前記第３畳み込み層の畳み込みカーネルサイズは１×１である。

１つの可能な実施形態では、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、前記スケールダウン後のｋ−１個の特徴マップ、前記特徴最適化後のｋ番目の特徴マップ及び前記スケールアップ後のｍ＋１−ｋ個の特徴マップのうちの少なくとも２項を融合させ、第ｍ段の符号化後のｋ番目の特徴マップを取得することをさらに含む。

１つの可能な実施形態では、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、第１段の復号化ネットワークによって第Ｍ段の符号化後のＭ＋１個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第１段の復号化後のＭ個の特徴マップを取得することと、第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、ここで、ｎは整数で１＜ｎ＜Ｎ≦Ｍである。

１つの可能な実施形態では、第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することは、第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することと、前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、を含む。

１つの可能な実施形態では、第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合を行い、第Ｎ段の復号化後の対象特徴マップを取得することと、前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含む。

１つの可能な実施形態では、第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することは、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第１融合サブネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得することと、第ｎ段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれスケールアップし、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することと、を含む。

１つの可能な実施形態では、前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することは、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第２融合サブネットワークによって前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得することと、第ｎ段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のＭ−ｎ＋１個の特徴マップをそれぞれ最適化し、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、を含む。

１つの可能な実施形態では、前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することは、前記第Ｎ段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含む。

１つの可能な実施形態では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得することは、前記特徴抽出ネットワークの少なくとも１つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、前記特徴抽出ネットワークの少なくとも１つの第２畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第１特徴マップを取得することと、を含む。

１つの可能な実施形態では、前記第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１である。

１つの可能な実施形態では、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記Ｍ段の符号化ネットワーク及び前記Ｎ段の復号化ネットワークをトレーニングすることをさらに含む。

本開示の別の側面では、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得するための特徴抽出モジュールと、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュールと、を含み、ここで、Ｍ、Ｎは１より大きい整数である画像処理装置を提供する。

１つの可能な実施形態では、前記符号化モジュールは、第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得するための第１符号化サブモジュールと、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するための第２符号化サブモジュールと、第Ｍ段の符号化ネットワークによって第Ｍ−１段の符号化後のＭ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第Ｍ段の符号化後のＭ＋１個の特徴マップを取得するための第３符号化サブモジュールと、を含み、ここで、ｍは整数で１＜ｍ＜Ｍである。

１つの可能な実施形態では、前記第１符号化サブモジュールは、前記第１特徴マップをスケールダウンし、第２特徴マップを取得するための第１縮小サブモジュールと、前記第１特徴マップと前記第２特徴マップを融合させ、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得するための第１融合サブモジュールと、を含む。

１つの可能な実施形態では、前記第２符号化サブモジュールは、第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、スケールが第ｍ−１段の符号化後のｍ個の特徴マップのスケールよりも小さいｍ＋１番目の特徴マップを取得するための第２縮小サブモジュールと、前記第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するための第２融合サブモジュールと、を含む。

１つの可能な実施形態では、前記第２縮小サブモジュールは、第ｍ段の符号化ネットワークの畳み込みサブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップをそれぞれスケールダウンし、スケールが前記ｍ＋１番目の特徴マップのスケールと同じであるスケールダウン後のｍ個の特徴マップを取得し、前記スケールダウン後のｍ個の特徴マップに対して特徴融合を行い、前記ｍ＋１番目の特徴マップを取得する。

１つの可能な実施形態では、前記第２融合サブモジュールは、第ｍ段の符号化ネットワークの特徴最適化サブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得し、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得する。

１つの可能な実施形態では、前記復号化モジュールは、第１段の復号化ネットワークによって第Ｍ段の符号化後のＭ＋１個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第１段の復号化後のＭ個の特徴マップを取得するための第１復号化サブモジュールと、第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するための第２復号化サブモジュールと、第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第３復号化サブモジュールと、を含み、ここで、ｎは整数で１＜ｎ＜Ｎ≦Ｍである。

１つの可能な実施形態では、前記第２復号化サブモジュールは、第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得するための拡大サブモジュールと、前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するための第３融合サブモジュールと、を含む。

１つの可能な実施形態では、前記第３復号化サブモジュールは、第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合を行い、第Ｎ段の復号化後の対象特徴マップを取得するための第４融合サブモジュールと、前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含む。

１つの可能な実施形態では、前記拡大サブモジュールは、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第１融合サブネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得し、第ｎ段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれスケールアップし、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得する。

１つの可能な実施形態では、前記第３融合サブモジュールは、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第２融合サブネットワークによって前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得し、第ｎ段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のＭ−ｎ＋１個の特徴マップをそれぞれ最適化し、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得する。

１つの可能な実施形態では、前記結果決定サブモジュールは、前記第Ｎ段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定する。

１つの可能な実施形態では、前記特徴抽出モジュールは、前記特徴抽出ネットワークの少なくとも１つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、前記特徴抽出ネットワークの少なくとも１つの第２畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第１特徴マップを取得するための最適化サブモジュールと、を含む。

１つの可能な実施形態では、前記装置は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記Ｍ段の符号化ネットワーク及び前記Ｎ段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含む。

本開示の別の側面では、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。

本開示の別の側面では、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。

本開示の別の側面では、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。

本開示の実施例において、Ｍ段の符号化ネットワークによって画像の特徴マップに対してスケールダウン及びマルチスケール融合を行い、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合を行うことにより、符号化及び復号化過程においてマルチスケールのグローバル情報とローカル情報を複数回融合させ、より有効なマルチスケール情報を保留し、予測結果の品質及びロバスト性を向上させることができる。

以上の一般的な説明及び後述の詳細な説明は例示的・解釈的なものにすぎず、本開示を制限するものではないことが理解すべきである。以下に図面を参照しながら例示的な実施例を詳しく説明することにより、本開示のその他の特徴及び側面がより明確になる。

ここで、本明細書の一部として組み込まれる図面は、本開示に適する実施例を示し、明細書と共に本開示の技術的解決手段の説明に用いられる。
本開示の実施例に係る画像処理方法のフローチャートを示す。本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。本開示の実施例に係る画像処理方法のネットワーク構造の模式図を示す。本開示の実施例に係る画像処理装置のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。本開示の実施例に係る電子機器のブロック図を示す。

以下に図面を参照しながら本開示の様々な例示的実施例、特徴及び側面を詳細に説明する。図面において、同じ符号は同じまたは類似の機能の要素を表す。図面において実施例の様々な側面を示すが、特に断りがない限り、比例に従って図面を描く必要がない。

ここでの用語「例示的」とは、「例、実施例として用いられることまたは説明的なもの」を意味する。ここで「例示的」に説明されるいかなる実施例は他の実施例より好ましいまたは優れるものであると理解すべきではない。

本明細書における用語「及び／又は」は、単に関連対象との関連関係を記述するものであり、３つの関係が存在可能であることを示し、例えば、Ａ及び／又はＢは、Ａのみが存在し、ＡとＢの両方が存在し、Ｂのみが存在するという３つの場合を示してもよい。また、本明細書における用語「少なくとも１つ」は複数のうちのいずれか１つ、又は複数のうちの少なくとも２つの任意の組み合わせを示し、例えば、Ａ、Ｂ、Ｃのうちの少なくとも１つを含むことは、Ａ、Ｂ及びＣからなる集合から選択されたいずれか１つ又は複数の要素を含むことを示してもよい。

また、本開示をより効果的に説明するために、以下の具体的な実施形態において様々な具体的な詳細を示す。当業者であれば、本開示は何らかの具体的な詳細がなくても同様に実施できると理解すべきである。いくつかの実施例では、本開示の趣旨を強調するために、当業者が熟知している方法、手段、要素および回路について詳細な説明を行わない。

図１は本開示の実施例に係る画像処理方法のフローチャートを示す。図１に示すように、前記画像処理方法は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得するステップＳ１１と、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するステップＳ１２と、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するステップＳ１３と、を含み、ここで、Ｍ、Ｎは１より大きい整数である。

１つの可能な実施形態では、前記画像処理方法は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、携帯機器、ユーザ端末、端末、セルラーホン、コードレス電話、パーソナル・デジタル・アシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ち装置、計算装置、車載装置、ウエアラブルデバイス等の端末装置、サーバなどの他の種類の電子機器により実行されてもよい。前記方法はプロセッサによってメモリに記憶されているコンピュータ読取可能な命令を呼び出して実現されてもよい。あるいは、サーバーによって前記方法を実行してもよい。

１つの可能な実施形態では、処理対象となる画像は、画像取得装置（例えば、カメラ）によって撮影された監視領域（例えば、交差点、ショッピングモールなどの領域）の画像であってもよいし、他の方法で取得された画像（例えば、ネットワークを介してダウンロードされた画像）であってもよい。処理対象となる画像には、一定数の対象物（例えば、歩行者、車両、顧客など）が含まれてもよい。本開示では、処理対象となる画像の種類、取得方法及び画像における対象物の種類については限定しない。

１つの可能な実施形態では、ニューラルネットワーク（例えば、特徴抽出ネットワーク、符号化ネットワーク及び復号化ネットワークを含む）によって処理対象となる画像を解析して処理対象となる画像における対象物の数、分布状況などの情報を予測してもよい。当該ニューラルネットワークは、例えば、畳み込みニューラルネットワークを含んでもよく、本開示では、ニューラルネットワークの具体的な種類については限定しない。

１つの可能な実施形態では、ステップＳ１１において、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、処理対象となる画像の第１特徴マップを取得するようにしてもよい。当該特徴抽出ネットワークは少なくとも畳み込み層を含み、ストライドを持つ畳み込み層（ストライド＞１）によって画像又は特徴マップのスケールを縮小し、ストライドを持たない畳み込み層（ストライド＝１）によって特徴マップを最適化するようにしてもよい。特徴抽出ネットワークによる処理後、第１特徴マップが取得される。本開示では、特徴抽出ネットワークのネットワーク構造については限定しない。

特徴マップのスケールが大きいほど、処理対象となる画像のローカル情報が多く含まれ、特徴マップのスケールが小さいほど、処理対象となる画像のグローバル情報が多く含まれるので、マルチスケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケールの特徴を抽出することができる。

１つの可能な実施形態では、ステップＳ１２において、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得する。これにより、各スケールにおいてグローバル情報とローカル情報を融合させ、抽出された特徴の有効性を向上させることができる。

１つの可能な実施形態では、Ｍ段の符号化ネットワークにおける各段の符号化ネットワークは畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。第１段の符号化ネットワークについて、第１段の符号化ネットワークの畳み込み層（ストライド＞１）によって第１特徴マップをスケールダウンし、スケールダウン後の特徴マップ（第２特徴マップ）を取得するようにしてもよい。第１段の符号化ネットワークの畳み込み層（ストライド＝１）及び／又は残差層によって第１特徴マップと第２特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第１特徴マップと第２特徴マップを取得する。さらに、第１段の符号化ネットワークのアップサンプリング層、畳み込み層（ストライド＞１）及び／又は融合層などによって特徴最適化後の第１特徴マップと第２特徴マップをそれぞれ融合させ、第１段の符号化後の第１特徴マップ及び第２特徴マップを取得する。

１つの可能な実施形態では、第１段の符号化ネットワークと類似しているように、Ｍ段の符号化ネットワークにおける各段の符号化ネットワークによって、順次、直前の１段の符号化後の複数の特徴マップに対してスケールダウン及びマルチスケール融合を行い、グローバル情報とローカル情報を複数回融合させることにより、抽出された特徴の有効性をさらに向上させることができる。

１つの可能な実施形態では、Ｍ段の符号化ネットワークによる処理後、Ｍ段の符号化後の複数の特徴マップが取得される。ステップＳ１３において、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、処理対象となる画像のＮ段の復号化後の特徴マップを取得して処理対象となる画像の予測結果を取得するようにしてもよい。

１つの可能な実施形態では、Ｎ段の復号化ネットワークにおける各段の復号化ネットワークは融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。第１段の復号化ネットワークについて、第１段の復号化ネットワークの融合層によって符号化後の複数の特徴マップを融合させ、融合後の複数の特徴マップを取得するようにしてもよい。さらに、逆畳み込み層によって融合後の複数の特徴マップをスケールアップし、スケールアップ後の複数の特徴マップを取得する。融合層、畳み込み層（ストライド＝１）及び／又は残差層などによって複数の特徴マップに対してそれぞれ融合及び最適化を行い、第１段の復号化後の複数の特徴マップを取得する。

１つの可能な実施形態では、第１段の復号化ネットワークと類似しているように、Ｎ段の復号化ネットワークにおける各段の復号化ネットワークによって、各段の復号化ネットワークによって取得された特徴マップの数が順次減少するように直前の１段の復号化後の特徴マップに対してスケールアップ及びマルチスケール融合を順次行い、第Ｎ段の復号化ネットワークにより処理対象となる画像のスケールと一致する密度マップ（例えば、対象物の分布密度マップ）を取得し、予測結果を決定する。このように、スケールアップ過程においてグローバル情報とローカル情報を複数回融合させることにより、予測結果の品質を向上させることができる。

１つの可能な実施形態では、ステップＳ１１は、前記特徴抽出ネットワークの少なくとも１つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、前記特徴抽出ネットワークの少なくとも１つの第２畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第１特徴マップを取得することと、を含んでもよい。

例えば、特徴抽出ネットワークは少なくとも１つの第１畳み込み層と少なくとも１つの第２畳み込み層を含んでもよい。第１畳み込み層は、ストライドを持ち（ストライド＞１）、画像又は特徴マップのスケールを縮小するための畳み込み層であり、第２畳み込み層は、ストライドを持たず（ストライド＝１）、特徴マップを最適化するための畳み込み層である。

１つの可能な実施形態では、特徴抽出ネットワークは、連続する２つの第１畳み込み層を含んでもよく、第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２である。連続する２つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行った後、畳み込み後の特徴マップが取得され、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の１／４となる。なお、当業者は実際の状況に応じて第１畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定することができ、本開示では限定しない。

１つの可能な実施形態では、特徴抽出ネットワークは連続する３つの第２畳み込み層を含んでもよく、第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１である。第１畳み込み層によって畳み込まれた後の特徴マップを連続する３つの第１畳み込み層によって最適化した後、処理対象となる画像の第１特徴マップが取得される。当該第１特徴マップにおいて、スケールは第１畳み込み層によって畳み込まれた後の特徴マップのスケールと同一であり、すなわち、第１特徴マップの幅と高さはそれぞれ処理対象となる画像の１／４となる。なお、当業者は実際の状況に応じて第２畳み込み層の数及び畳み込みカーネルサイズを設定することができ、本開示では限定しない。

このような方法によれば、処理対象となる画像のスケールダウン及び最適化を実現し、特徴情報を有効に抽出することができる。

１つの可能な実施形態では、ステップＳ１２は、第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得することと、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、第Ｍ段の符号化ネットワークによって第Ｍ−１段の符号化後のＭ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第Ｍ段の符号化後のＭ＋１個の特徴マップを取得することと、を含んでもよく、ここで、ｍは整数で１＜ｍ＜Ｍである。

例えば、Ｍ段の符号化ネットワークにおける各段の符号化ネットワークによって、順次、直前の１段の符号化後の特徴マップを処理してもよく、各段の符号化ネットワークは畳み込み層、残差層、アップサンプリング層、融合層などを含んでもよい。第１段の符号化ネットワークについて、第１段の符号化ネットワークによって第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第２特徴マップを取得するステップは、前記第１特徴マップをスケールダウンし、第２特徴マップを取得することと、前記第１特徴マップと前記第２特徴マップを融合させ、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得することと、を含んでもよい。

例えば、第１段の符号化ネットワークの第１畳み込み層（畳み込みカーネルサイズが３×３、ストライドが２）によって第１特徴マップに対してスケールダウンを行い、スケールが第１特徴マップのスケールよりも小さい第２特徴マップを取得するようにしてもよい。第２畳み込み層（畳み込みカーネルサイズが３×３、ストライドが１）及び／又は残差層によって第１特徴マップと第２特徴マップをそれぞれ最適化し、最適化後の第１特徴マップと第２特徴マップを取得する。融合層によって第１特徴マップと第２特徴マップに対してそれぞれマルチスケール融合を行い、第１段の符号化後の第１特徴マップ及び第２特徴マップを取得する。

１つの可能な実施形態では、第２畳み込み層によって特徴マップを直接最適化してもよく、第２畳み込み層及び残差層からなる基本ブロック（ｂａｓｉｃｂｌｏｃｋ）によって特徴マップを最適化してもよい。当該基本ブロックは、最適化を行う基本ユニットとして、連続する２つの第２畳み込み層と残差層を含み、残差層によって、入力された特徴マップと畳み込みによって取得された特徴マップとを加算して結果として出力するようにしてもよい。本開示では、最適化の具体的な方法については限定しない。

１つの可能な実施形態では、抽出されたマルチスケール特徴の有効性をさらに向上させるように、マルチスケール融合後の第１特徴マップ及び第２特徴マップに対して最適化及び融合を再度行い、再度最適化及び融合後の第１特徴マップ及び第２特徴マップを第１段の符号化後の第１特徴マップ及び第２特徴マップとする。本開示では、最適化及びマルチスケール融合の回数については限定しない。

１つの可能な実施形態では、Ｍ段の符号化ネットワークにおける任意の１段の符号化ネットワーク（第ｍ段の符号化ネットワークであり、ｍは整数で１＜ｍ＜Ｍである）について、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するステップは、第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、スケールが第ｍ−１段の符号化後のｍ個の特徴マップのスケールよりも小さいｍ＋１番目の特徴マップを取得することと、前記第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、を含んでもよい。

１つの可能な実施形態では、第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、ｍ＋１番目の特徴マップを取得するステップは、第ｍ段の符号化ネットワークの畳み込みサブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップをそれぞれスケールダウンし、スケールが前記ｍ＋１番目の特徴マップのスケールと同じであるスケールダウン後のｍ個の特徴マップを取得することと、前記スケールダウン後のｍ個の特徴マップに対して特徴融合を行い、前記ｍ＋１番目の特徴マップを取得することと、を含んでもよい。

例えば、第ｍ段の符号化ネットワークのｍ個の畳み込みサブネットワーク（各畳み込みサブネットワークは少なくとも１つの第１畳み込み層を含む）によって第ｍ−１段の符号化後のｍ個の特徴マップをそれぞれスケールダウンし、スケールダウン後のｍ個の特徴マップを取得するようにしてもよい。当該スケールダウン後のｍ個の特徴マップはスケールが同一であり、かつ第ｍ−１段の符号化後のｍ番目の特徴マップのスケールよりも小さい（ｍ＋１番目の特徴マップのスケールと同じである）。融合層によって当該スケールダウン後のｍ個の特徴マップに対して特徴融合を行い、ｍ＋１番目の特徴マップを取得する。

１つの可能な実施形態では、各畳み込みサブネットワークは、少なくとも１つの第１畳み込み層を含み、第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、特徴マップをスケールダウンするのに用いられる。畳み込みサブネットワークの第１畳み込み層の数は、対応する特徴マップのスケールに関連付けられており、例えば、第ｍ−１段の符号化後の１番目の特徴マップのスケールが４ｘ（幅と高さはそれぞれ処理対象となる画像の１／４）で、生成されるｍ個の特徴マップのスケールが１６ｘ（幅と高さはそれぞれ処理対象となる画像の１／１６）であるとされると、１番目の畳み込みサブネットワークは２つの第１畳み込み層を含む。なお、当業者は実際の状況に応じて畳み込みサブネットワークの第１畳み込み層の数、畳み込みカーネルサイズ及びストライドを設定することができ、本開示では限定しない。

１つの可能な実施形態では、第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するステップは、第ｍ段の符号化ネットワークの特徴最適化サブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得することと、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、を含んでもよい。

１つの可能な実施形態では、融合層によって第ｍ−１段の符号化後のｍ個の特徴マップに対してマルチスケール融合を行い、融合後のｍ個の特徴マップを取得するようにしてもよい。ｍ＋１個の特徴最適化サブネットワーク（各特徴最適化サブネットワークは第２畳み込み層及び／又は残差層を含む）によって融合後のｍ個の特徴マップとｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得する。その後、ｍ＋１個の融合サブネットワークによって特徴最適化後のｍ＋１個の特徴マップに対してそれぞれマルチスケール融合を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得する。

１つの可能な実施形態では、ｍ＋１個の特徴最適化サブネットワーク（各特徴最適化サブネットワークは第２畳み込み層及び／又は残差層を含む）によって第ｍ−１段の符号化後のｍ個の特徴マップを直接処理することもできる。すなわち、ｍ＋１個の特徴最適化サブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップとｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得する。その後、ｍ＋１個の融合サブネットワークによって特徴最適化後のｍ＋１個の特徴マップに対してそれぞれマルチスケール融合を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得する。

１つの可能な実施形態では、抽出されたマルチスケール特徴の有効性をさらに向上させるように、マルチスケール融合後のｍ＋１個の特徴マップに対して特徴最適化及びマルチスケール融合を再度行うようにしてもよい。本開示では、特徴最適化及びマルチスケール融合の回数については限定しない。

１つの可能な実施形態では、各特徴最適化サブネットワークは、少なくとも２つの第２畳み込み層及び残差層を含んでもよい。前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１である。例えば、各特徴最適化サブネットワークはいずれも、少なくとも１つの基本ブロック（連続する２つの第２畳み込み層及び残差層）を含んでもよい。各特徴最適化サブネットワークの基本ブロックによって第ｍ−１段の符号化後のｍ個の特徴マップとｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得するようにしてもよい。なお、当業者は実際の状況に応じて第２畳み込み層の数及び畳み込みカーネルサイズを設定することができ、本開示では限定しない。

このような方法によれば、抽出されたマルチスケール特徴の有効性をさらに向上させることができる。

１つの可能な実施形態では、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークはそれぞれ特徴最適化後のｍ＋１個の特徴マップを融合させるようにしてもよい。ｍ＋１個の融合サブネットワーク内のｋ番目の融合サブネットワーク（ｋは整数で１≦ｋ≦ｍ＋１）の場合、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、少なくとも１つの第１畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも大きいｋ−１個の特徴マップをスケールダウンし、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールダウン後のｋ−１個の特徴マップを取得すること、及び／又は、アップサンプリング層及び第３畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも小さいｍ＋１−ｋ個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールアップ後のｍ＋１−ｋ個の特徴マップを取得することと、を含んでもよく、前記第３畳み込み層の畳み込みカーネルサイズは１×１である。

例えば、まず、ｋ番目の融合サブネットワークは、ｍ＋１個の特徴マップのスケールを特徴最適化後のｋ番目の特徴マップのスケールに調整するようにしてもよい。１＜ｋ＜ｍ＋１の場合、特徴最適化後のｋ番目の特徴マップよりも前のｋ−１個の特徴マップのスケールはいずれも特徴最適化後のｋ番目の特徴マップよりも大きく、例えば、ｋ番目の特徴マップのスケールは１６ｘ（幅と高さはそれぞれ処理対象となる画像の１／１６）であり、ｋ番目の特徴マップよりも前の特徴マップのスケールは４ｘと８ｘである。この場合、少なくとも１つの第１畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも大きいｋ−１個の特徴マップをスケールダウンしてスケールダウン後のｋ−１個の特徴マップを取得するようにしてもよい。すなわち、スケールが４ｘと８ｘの特徴マップのそれぞれを１６ｘの特徴マップに縮小するために、２つの第１畳み込み層によって４ｘの特徴マップをスケールダウンし、１つの第１畳み込み層によって８ｘの特徴マップをスケールダウンするようにしてもよい。これにより、スケールダウン後のｋ−１個の特徴マップを取得することができる。

１つの可能な実施形態では、１＜ｋ＜ｍ＋１の場合、特徴最適化後のｋ番目の特徴マップよりも後のｍ＋１−ｋ個の特徴マップのスケールはいずれも特徴最適化後のｋ番目の特徴マップよりも小さく、例えば、ｋ番目の特徴マップのスケールは１６ｘ（幅と高さはそれぞれ処理対象となる画像の１／１６）であり、ｋ番目の特徴マップよりも後のｍ＋１−ｋ個の特徴マップは３２ｘである。この場合、アップサンプリング層によって３２ｘの特徴マップをスケールアップし、第３畳み込み層（畳み込みカーネルサイズが１×１）によってスケールアップ後の特徴マップに対してチャネル調整を行ってスケールアップ後の特徴マップのチャネル数とｋ番目の特徴マップのチャネル数とを同一にして、スケールが１６ｘの特徴マップを取得するようにしてもよい。これにより、スケールアップ後のｍ＋１−ｋ個の特徴マップを取得することができる。

１つの可能な実施形態では、ｋ＝１の場合、特徴最適化後の１番目の特徴マップよりも後のｍ個の特徴マップのスケールはいずれも特徴最適化後の１番目の特徴マップよりも小さく、後のｍ個の特徴マップのそれぞれに対してスケールアップ及びチャネル調整を行って後のｍ個のスケールアップ後の特徴マップを取得するようにしてもよい。ｋ＝ｍ＋１の場合、特徴最適化後のｍ＋１番目の特徴マップよりも前のｍ個の特徴マップのスケールはいずれも特徴最適化後のｍ＋１番目の特徴マップよりも大きく、前のｍ個の特徴マップのそれぞれをスケールダウンして前のｍ個のスケールダウン後の特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するステップは、前記スケールダウン後のｋ−１個の特徴マップ、前記特徴最適化後のｋ番目の特徴マップ及び前記スケールアップ後のｍ＋１−ｋ個の特徴マップのうちの少なくとも２項を融合させ、第ｍ段の符号化後のｋ番目の特徴マップを取得することをさらに含んでもよい。

例えば、ｋ番目の融合サブネットワークはスケール調整後のｍ＋１個の特徴マップを融合させるようにしてもよい。１＜ｋ＜ｍ＋１の場合、スケール調整後のｍ＋１個の特徴マップは、スケールダウン後のｋ−１個の特徴マップ、特徴最適化後のｋ番目の特徴マップ及び前記スケールアップ後のｍ＋１−ｋ個の特徴マップを含む。スケールダウン後のｋ−１個の特徴マップ、特徴最適化後のｋ番目の特徴マップ及び前記スケールアップ後のｍ＋１−ｋ個の特徴マップの三者を融合させ（加算し）て第ｍ段の符号化後のｋ番目の特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、ｋ＝１の場合、スケール調整後のｍ＋１個の特徴マップは、特徴最適化後の１番目の特徴マップとスケールアップ後のｍ個の特徴マップを含む。特徴最適化後の１番目の特徴マップとスケールアップ後のｍ個の特徴マップの両者を融合させ（加算し）て第ｍ段の符号化後の１番目の特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、ｋ＝ｍ＋１の場合、スケール調整後のｍ＋１個の特徴マップはスケールダウン後のｍ個の特徴マップと特徴最適化後のｍ＋１番目の特徴マップを含む。スケールダウン後のｍ個の特徴マップと特徴最適化後のｍ＋１番目の特徴マップの両者を融合させ（加算し）て第ｍ段の符号化後のｍ＋１番目の特徴マップを取得するようにしてもよい。

図２Ａ、図２Ｂ及び図２Ｃは本開示の実施例に係る画像処理方法のマルチスケール融合手順の模式図を示す。図２Ａ、図２Ｂ及び図２Ｃでは、融合対象となる特徴マップが３つの場合を例に説明する。

図２Ａに示すように、ｋ＝１の場合、２番目と３番目の特徴マップのそれぞれに対してスケールアップ（アップサンプリング）及びチャネル調整（１×１畳み込み）を行って１番目の特徴マップのスケール及びチャネル数と同一の２つの特徴マップを取得して、さらに、この３つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。

図２Ｂに示すように、ｋ＝２の場合、１番目の特徴マップをスケールダウンし（畳み込みカーネルサイズが３×３、ストライドが２の畳み込み）、３番目の特徴マップに対してスケールアップ（アップサンプリング）及びチャネル調整（１×１畳み込み）を行って、２番目の特徴マップのスケール及びチャネル数と同一の２つの特徴マップを取得して、さらに、この３つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。

図２Ｃに示すように、ｋ＝３の場合、１番目と２番目の特徴マップをスケールダウンするようにしてもよい（畳み込みカーネルサイズが３×３、ストライドが２の畳み込み）。１番目の特徴マップと３番目の特徴マップとのスケール差が４倍であるため、２回の畳み込み（畳み込みカーネルサイズが３×３、ストライドが２）を行うようにしてもよい。スケールダウンにより３番目の特徴マップのスケール及びチャネル数と同一の２つの特徴マップを取得して、さらに、この３つの特徴マップを加算して融合後の特徴マップを取得するようにしてもよい。

このような方法によれば、スケールの異なる複数の特徴マップ間のマルチスケール融合を実現し、各スケールにおいてグローバル情報とローカル情報を融合させ、より有効なマルチスケール特徴を抽出することができる。

１つの可能な実施形態では、Ｍ段の符号化ネットワークにおける最後の１段の（第Ｍ段の符号化ネットワーク）について、当該第Ｍ段の符号化ネットワークは第ｍ段の符号化ネットワークの構造と類似してもよい。第Ｍ段の符号化ネットワークによる第Ｍ−１段の符号化後のＭ個の特徴マップへの処理手順も第ｍ段の符号化ネットワークによる第ｍ−１段の符号化後のｍ個の特徴マップへの処理手順と類似しているので、ここで詳細な説明を省略する。第Ｍ段の符号化ネットワークによる処理後、第Ｍ段の符号化後のＭ＋１個の特徴マップが取得される。例えば、Ｍ＝３の場合、スケールが４ｘ、８ｘ、１６ｘ及び３２ｘの４つの特徴マップを取得することができる。本開示では、Ｍの具体的な数値については限定しない。

このような方法によれば、Ｍ段の符号化ネットワークの処理手順全体を実現し、スケールが異なる複数の特徴マップを取得し、処理対象となる画像のグローバル特徴情報とローカル特徴情報をより有効に抽出することができる。

１つの可能な実施形態では、ステップＳ１３は、第１段の復号化ネットワークによって第Ｍ段の符号化後のＭ＋１個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第１段の復号化後のＭ個の特徴マップを取得することと、第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含んでもよく、ここで、ｎは整数で１＜ｎ＜Ｎ≦Ｍである。

例えば、Ｍ段の符号化ネットワークによる処理後、第Ｍ段の符号化後のＭ＋１個の特徴マップが取得される。Ｎ段の復号化ネットワークにおける各段の復号化ネットワークによって、順次、直前の１段の復号化後の特徴マップを処理し、各段の復号化ネットワークは融合層、逆畳み込み層、畳み込み層、残差層、アップサンプリング層などを含んでもよい。第１段の復号化ネットワークについて、第１段の復号化ネットワークによって第Ｍ段の符号化後のＭ＋１個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第１段の復号化後のＭ個の特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、Ｎ段の復号化ネットワークにおける任意の１段の復号化ネットワーク（第ｎ段の復号化ネットワークであり、ｎは整数で１＜ｎ＜Ｎ≦Ｍ）について、第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するようにしてもよい。

１つの可能な実施形態では、第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するステップは、第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することと、前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、を含んでもよい。

１つの可能な実施形態では、第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得するステップは、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第１融合サブネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得することと、第ｎ段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれスケールアップし、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することと、を含んでもよい。

例えば、まず、第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップを融合させ、マルチスケール情報を融合させるとともに特徴マップの数を減らすようにしてもよい。Ｍ−ｎ＋２個の特徴マップのうちの前のＭ−ｎ＋１個の特徴マップに対応するＭ−ｎ＋１個の第１融合サブネットワークを設置してもよい。例えば、融合対象となる特徴マップは、スケールが４ｘ、８ｘ、１６ｘ及び３２ｘの４つの特徴マップを含む場合、融合によってスケールが４ｘ、８ｘ及び１６ｘの３つの特徴マップを取得するように、３つの第１融合サブネットワークを設置するようにしてもよい。

１つの可能な実施形態では、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第１融合サブネットワークのネットワーク構造は第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークのネットワーク構造と類似してもよい。例えば、ｑ番目の第１融合サブネットワーク（１≦ｑ≦Ｍ−ｎ＋１）について、ｑ番目の第１融合サブネットワークは、まず、Ｍ−ｎ＋２個の特徴マップのスケールを第ｎ−１段の復号化後のｑ番目の特徴マップのスケールに調整し、さらに、スケール調整後のＭ−ｎ＋２個の特徴マップを融合させ、融合後のｑ番目の特徴マップを取得する。これにより、融合後のＭ−ｎ＋１個の特徴マップを取得することができる。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。

１つの可能な実施形態では、第ｎ段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれスケールアップし、例えば、スケールが４ｘ、８ｘ及び１６ｘの３つの融合後の特徴マップを２ｘ、４ｘ及び８ｘの３つの特徴マップに拡大するようにしてもよい。拡大によりスケールアップ後のＭ−ｎ＋１個の特徴マップを取得する。

１つの可能な実施形態では、前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するステップは、第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第２融合サブネットワークによって前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得することと、第ｎ段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のＭ−ｎ＋１個の特徴マップをそれぞれ最適化し、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、を含んでもよい。

例えば、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得した後、Ｍ−ｎ＋１個の第２融合サブネットワークによって当該Ｍ−ｎ＋１個の特徴マップに対してそれぞれスケール調整及び融合を行い、融合後のＭ−ｎ＋１個の特徴マップを取得するようにしてもよい。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。

１つの可能な実施形態では、第ｎ段の復号化ネットワークの特徴最適化サブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれ最適化し、各特徴最適化サブネットワークはいずれも少なくとも１つの基本ブロックを含んでもよい。特徴最適化により第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することができる。特徴最適化の具体的な過程については、ここで詳細な説明を省略する。

１つの可能な実施形態では、スケールの異なるグローバル特徴とローカル特徴をさらに融合させるように、第ｎ段の復号化ネットワークのマルチスケール融合及び特徴最適化の過程を複数回繰り返してもよい。本開示では、マルチスケール融合及び特徴最適化の回数については限定しない。

このような方法によれば、複数のスケールの特徴マップを拡大し、かつ、同様に複数のスケールの特徴マップ情報を融合させることにより、特徴マップのマルチスケール情報を保留し、予測結果の品質を向上させることができる。

１つの可能な実施形態では、第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するステップは、第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合を行い、第Ｎ段の復号化後の対象特徴マップを取得することと、前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含んでもよい。

例えば、第Ｎ−１段の復号化ネットワークによる処理後、Ｍ−Ｎ＋２個の特徴マップが取得され、当該Ｍ−Ｎ＋２個の特徴マップにおいて、最大スケールの特徴マップのスケールが処理対象となる画像のスケールと同じである（スケールが１ｘの特徴マップ）。Ｎ段の復号化ネットワークの最後の１段の（第Ｎ段の復号化ネットワーク）について、第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行うようにしてもよい。Ｎ＝Ｍの場合、第Ｎ−１段の復号化後の特徴マップが２つあり（例えば、スケールが１ｘと２ｘの特徴マップ）、Ｎ＜Ｍの場合、第Ｎ−１段の復号化後の特徴マップが３つ以上ある（例えば、スケールが１ｘ、２ｘ及び４ｘの特徴マップ）。本開示では限定しない。

１つの可能な実施形態では、第Ｎ段の復号化ネットワークの融合サブネットワークによってＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合（スケール調整及び融合）を行い、第Ｎ段の復号化後の対象特徴マップを取得するようにしてもよい。当該対象特徴マップのスケールは処理対象となる画像のスケールと一致してもよい。スケール調整及び融合の具体的な過程については、ここで詳細な説明を省略する。

１つの可能な実施形態では、前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するステップは、前記第Ｎ段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含んでもよい。

例えば、第Ｎ段の復号化後の対象特徴マップを取得した後、対象特徴マップの最適化を継続し、複数の第２畳み込み層（畳み込みカーネルサイズが３×３、ストライドが１）、複数の基本ブロック（第２畳み込み層及び残差層を含む）、少なくとも１つの第３畳み込み層（畳み込みカーネルサイズが１×１）のうちの少なくとも１つによって対象特徴マップを最適化し、処理対象となる画像の予測密度マップを取得するようにしてもよい。本開示では、最適化の具体的な方法については限定しない。

１つの可能な実施形態では、予測密度マップに基づいて、処理対象となる画像の予測結果を決定するようにしてもよい。当該予測密度マップをそのまま処理対象となる画像の予測結果としてもよい。当該予測密度マップをさらに処理し（例えば、ｓｏｆｔｍａｘ層などによる処理）て処理対象となる画像の予測結果を取得してもよい。

このような方法によれば、Ｎ段の復号化ネットワークはスケールアップ過程においてグローバル情報とローカル情報を複数回融合させ、予測結果の品質を向上させる。

図３は本開示の実施例に係る画像処理方法のネットワーク構造の模式図を示す。図３に示すように、本開示の実施例に係る画像処理方法を実現するニューラルネットワークは、特徴抽出ネットワーク３１、３段の符号化ネットワーク３２（第１段の符号化ネットワーク３２１、第２段の符号化ネットワーク３２２及び第３段の符号化ネットワーク３２３を含む）及び３段の復号化ネットワーク３３（第１段の復号化ネットワーク３３１、第２段の復号化ネットワーク３３２及び第３段の復号化ネットワーク３３３を含む）を含んでもよい。

１つの可能な実施形態では、図３に示すように、処理対象となる画像３４（スケールが１ｘ）を特徴抽出ネットワーク３１に入力して処理を行い、連続する２つの第１畳み込み層（畳み込みカーネルサイズが３×３、ストライドが２）によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップ（スケールが４ｘであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の１／４である）を取得し、さらに、３つの第２畳み込み層（畳み込みカーネルサイズが３×３、ストライドが１）によって畳み込み後の特徴マップ（スケールが４ｘ）を最適化し、第１特徴マップ（スケールが４ｘ）を取得する。

１つの可能な実施形態では、第１特徴マップ（スケールが４ｘ）を第１段の符号化ネットワーク３２１に入力し、畳み込みサブネットワーク（第１畳み込み層を含む）によって第１特徴マップに対して畳み込みを行い（スケールダウンし）、第２特徴マップ（スケールが８ｘであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の１／８である）を取得するようにしてもよい。特徴最適化サブネットワーク（少なくとも１つの基本ブロックであり、第２畳み込み層及び残差層を含む）によって第１特徴マップと第２特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第１特徴マップと第２特徴マップを取得する。特徴最適化後の第１特徴マップと第２特徴マップに対してマルチスケール融合を行い、第１段の符号化後の第１特徴マップ及び第２特徴マップを取得する。

１つの可能な実施形態では、第１段の符号化後の第１特徴マップ（スケールが４ｘ）及び第２特徴マップ（スケールが８ｘ）を第２段の符号化ネットワーク３２２に入力し、畳み込みサブネットワーク（少なくとも１つの第１畳み込み層を含む）によって第１段の符号化後の第１特徴マップと第２特徴マップに対してそれぞれ畳み込み（スケールダウン）及び融合を行い、第３特徴マップ（スケールが１６ｘであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の１／１６である）を取得する。特徴最適化サブネットワーク（少なくとも１つの基本ブロックであり、第２畳み込み層及び残差層を含む）によって第１、第２及び第３特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第１、第２及び第３特徴マップを取得する。特徴最適化後の第１、第２及び第３特徴マップに対してマルチスケール融合を行い、融合後の第１、第２及び第３特徴マップを取得する。その後、融合後の第１、第２及び第３特徴マップに対して最適化及び融合を再度行い、第２段の符号化後の第１、第２及び第３特徴マップを取得する。

１つの可能な実施形態では、第２段の符号化後の第１、第２及び第３特徴マップ（４ｘ、８ｘ及び１６ｘ）を第３段の符号化ネットワーク３２３に入力し、畳み込みサブネットワーク（少なくとも１つの第１畳み込み層を含む）によって第２段の符号化後の第１、第２及び第３特徴マップに対してそれぞれ畳み込み（スケールダウン）及び融合を行い、第４特徴マップ（スケールが３２ｘであり、すなわち、当該特徴マップの幅と高さはそれぞれ処理対象となる画像の１／３２である）を取得する。特徴最適化サブネットワーク（少なくとも１つの基本ブロックであり、第２畳み込み層及び残差層を含む）によって第１、第２、第３及び第４特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後の第１、第２、第３及び第４特徴マップを取得する。特徴最適化後の第１、第２、第３及び第４特徴マップに対してマルチスケール融合を行い、融合後の第１、第２、第３及び第４特徴マップを取得する。その後、融合後の第１、第２及び第３特徴マップを再度最適化し、第３段の符号化後の第１、第２、第３及び第４特徴マップを取得する。

１つの可能な実施形態では、第３段の符号化後の第１、第２、第３及び第４特徴マップ（スケールが４ｘ、８ｘ、１６ｘ及び３２ｘ）を第１段の復号化ネットワーク３３１に入力し、３つの第１融合サブネットワークによって第３段の符号化後の第１、第２、第３及び第４特徴マップを融合させ、融合後の３つの特徴マップ（スケールが４ｘ、８ｘ及び１６ｘ）を取得する。さらに、融合後の３つの特徴マップに対して逆畳み込みを行い（スケールアップし）、スケールアップ後の３つの特徴マップ（スケールが２ｘ、４ｘ及び８ｘ）を取得する。スケールアップ後の３つの特徴マップに対してマルチスケール融合、特徴最適化、再度のマルチスケール融合及び再度の特徴最適化を行い、第１段の復号化後の３つの特徴マップ（スケールが２ｘ、４ｘ及び８ｘ）を取得する。

１つの可能な実施形態では、第１段の復号化後の３つの特徴マップ（スケールが２ｘ、４ｘ及び８ｘ）を第２段の復号化ネットワーク３３２に入力し、２つの第１融合サブネットワークによって第１段の復号化後の３つの特徴マップを融合させ、融合後の２つの特徴マップ（スケールが２ｘ及び４ｘ）を取得する。さらに、融合後の２つの特徴マップに対して逆畳み込みを行い（スケールアップし）、スケールアップ後の２つの特徴マップ（スケールが１ｘ及び２ｘ）を取得する。スケールアップ後の２つの特徴マップに対してマルチスケール融合、特徴最適化及び再度のマルチスケール融合を行い、第２段の復号化後の２つの特徴マップ（スケールが１ｘ及び２ｘ）を取得する。

１つの可能な実施形態では、第２段の復号化後の２つの特徴マップ（スケールが１ｘ及び２ｘ）、を第３段の復号化ネットワーク３３３に入力し、第１融合サブネットワークによって第２段の復号化後の２つの特徴マップを融合させ、融合後の特徴マップ（スケールが１ｘ）を取得する。さらに、融合後の特徴マップを第２畳み込み層及び第３畳み込み層（畳み込みカーネルサイズが１×１）によって最適化し、処理対象となる画像の予測密度マップ（スケールが１ｘ）を取得する。

１つの可能な実施形態では、各畳み込み層の後に正規化層を追加し、各段の畳み込み結果に対して正規化処理を行い、正規化された畳み込み結果を取得することにより、畳み込み結果の精度を向上させるようにしてもよい。

１つの可能な実施形態では、本開示のニューラルネットワークを適用する前に、当該ニューラルネットワークをトレーニングするようにしてもよい。本開示の実施例に係る画像処理方法は、複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記Ｍ段の符号化ネットワーク及び前記Ｎ段の復号化ネットワークをトレーニングすることをさらに含む。

例えば、複数のラベル付きのサンプル画像を予め設置してもよく、各サンプル画像は、例えば、サンプル画像における歩行者の位置、数などのラベル情報が付けられた。複数のラベル付きのサンプル画像をトレーニング群に構成して前記特徴抽出ネットワーク、前記Ｍ段の符号化ネットワーク及び前記Ｎ段の復号化ネットワークをトレーニングするようにしてもよい。

１つの可能な実施形態では、サンプル画像を特徴抽出ネットワークに入力し、特徴抽出ネットワーク、Ｍ段の符号化ネットワーク及びＮ段の復号化ネットワークの処理により、サンプル画像の予測結果を出力するようにしてもよい。サンプル画像の予測結果とラベル情報に基づいて特徴抽出ネットワーク、Ｍ段の符号化ネットワーク及びＮ段の復号化ネットワークのネットワーク損失を決定する。ネットワーク損失に応じて、特徴抽出ネットワーク、Ｍ段の符号化ネットワーク及びＮ段の復号化ネットワークのネットワークパラメータを調整する。予め設定されたトレーニング条件を満たしている場合、トレーニングされた特徴抽出ネットワーク、Ｍ段の符号化ネットワーク及びＮ段の復号化ネットワークを得るようにしてもよい。本開示では、具体的なトレーニング過程については限定しない。

このような方法によれば、高精度の特徴抽出ネットワーク、Ｍ段の符号化ネットワーク及びＮ段の復号化ネットワークが得られる。

本開示の実施例の画像処理方法によれば、ストライドを持つ畳み込み操作によりスケールが小さな特徴マップを取得し、ネットワーク構造において、グローバル情報とローカル情報との融合を継続的に行ってより有効なマルチスケール情報を抽出し、かつ他のスケールの情報により現在のスケール情報の抽出を促進し、ネットワークのマルチスケールの対象物（例えば、歩行者）への識別のロバスト性を向上させることができる。復号化ネットワークにおいて特徴マップを拡大するとともに、マルチスケール情報の融合を行って、マルチスケール情報を保留し、生成された密度マップの品質を向上させ、モデル予測の正確率を向上させることができる。

本開示の実施例の画像処理方法によれば、スマートビデオ解析や防犯監視などの応用場面に適用でき、場面内の対象物（例えば、歩行者、車両など）を識別し、場面内の対象物の数や分布状況などを予測して、現在の場面における人込みの動作を解析することができる。

本開示で言及される上記各方法の実施例は、原理と論理に違反しない限り、相互に組み合わせて実施例を形成することができることが理解すべきである。紙数に限りがあるので、本開示では詳細な説明を省略する。また、当業者であれば、具体的な実施形態に係る上記の方法では、各ステップの具体的な実行順序は、その機能と内部の可能な論理によって決定されることが理解される。

また、本開示はさらに、画像処理装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムを提供する。これらはいずれも、本開示のいずれかの画像処理方法の実施に用いられることができる。かかる発明及び説明は、方法に関する説明のかかる記載を参照すればよく、詳細な説明を省略する。

図４は本開示の実施例に係る画像処理装置のブロック図を示す。図４に示すように、前記画像処理装置は、特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得するための特徴抽出モジュール４１と、Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュール４２と、Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュール４３と、を含み、ここで、Ｍ、Ｎは１より大きい整数である。

１つの可能な実施形態では、前記符号化モジュールは、第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得するための第１符号化サブモジュールと、第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するための第２符号化サブモジュールと、第Ｍ段の符号化ネットワークによって第Ｍ−１段の符号化後のＭ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第Ｍ段の符号化後のＭ＋１個の特徴マップを取得するための第３符号化サブモジュールと、を含み、ｍは整数で１＜ｍ＜Ｍである。

１つの可能な実施形態では、ｍ＋１個の融合サブネットワーク内のｋ番目の融合サブネットワークの場合、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、少なくとも１つの第１畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも大きいｋ−１個の特徴マップをスケールダウンし、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールダウン後のｋ−１個の特徴マップを取得すること、及び／又はアップサンプリング層及び第３畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも小さいｍ＋１−ｋ個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールアップ後のｍ＋１−ｋ個の特徴マップを取得することと、を含み、ここで、ｋは整数で１≦ｋ≦ｍ＋１であり、前記第３畳み込み層の畳み込みカーネルサイズは１×１である。

１つの可能な実施形態では、前記特徴抽出モジュールは、前記特徴抽出ネットワークの少なくとも１つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、前記特徴抽出ネットワークの少なくとも１つの第２畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第１特徴マップを取得するための最適化サブモジュールとを含む。

いくつかの実施例において、本開示の実施例による装置の機能又は手段は、上記方法実施例に記載の方法を実行するために用いられる。具体的な実施は上記方法実施例の記載を参照すれば明らかになり、簡潔さのため、詳細な説明を省略する。

本開示の実施例はさらに、コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、コンピュータプログラム命令は、プロセッサにより実行されると、上記方法を実現させるコンピュータ読み取り可能な記憶媒体を提供する。コンピュータ読み取り可能な記憶媒体は、コンピュータ読み取り可能な不揮発性記憶媒体であってもよく、またはコンピュータ読み取り可能な揮発性記憶媒体であってもよい。

本開示の実施例はさらに、プロセッサと、プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、上記方法を実行するように構成される電子機器を提供する。

本開示の実施例はさらに、コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに上記方法を実行させるコンピュータプログラムを提供する。

電子機器は、端末、サーバー又はその他の形態の機器として提供できる。

図５は本開示の実施例に係る電子機器８００のブロック図を示す。電子機器８００は携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレット型機器、医療機器、フィットネス機器、パーソナル・デジタル・アシスタント等の端末であってもよい。

図５参照すると、電子機器８００は、処理コンポーネント８０２、メモリ８０４、電源コンポーネント８０６、マルチメディアコンポーネント８０８、オーディオコンポーネント８１０、入力／出力（Ｉ／Ｏ）のインタフェース８１２、センサコンポーネント８１４、および通信コンポーネント８１６のうちの一つ以上を含んでもよい。

処理コンポーネント８０２は通常、電子機器８００の全体的な動作、例えば表示、電話の呼び出し、データ通信、カメラ動作および記録動作に関連する動作を制御する。処理コンポーネント８０２は、上記方法の全てまたは一部のステップを実行するために、命令を実行する一つ以上のプロセッサ８２０を含んでもよい。また、処理コンポーネント８０２は、他のコンポーネントとのインタラクションのための一つ以上のモジュールを含んでもよい。例えば、処理コンポーネント８０２は、マルチメディアコンポーネント８０８とのインタラクションのために、マルチメディアモジュールを含んでもよい。

メモリ８０４は電子機器８００での動作をサポートするための様々なタイプのデータを記憶するように構成される。これらのデータは、例として、電子機器８００において操作するあらゆるアプリケーションプログラムまたは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャー、ビデオなどを含む。メモリ８０４は、例えば静的ランダムアクセスメモリ（ＳＲＡＭ）、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、プログラマブル読み取り専用メモリ（ＰＲＯＭ）、読み取り専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクなどの様々なタイプの揮発性または不揮発性記憶装置またはそれらの組み合わせによって実現できる。

電源コンポーネント８０６は電子機器８００の各コンポーネントに電力を供給する。電源コンポーネント８０６は電源管理システム、一つ以上の電源、および電子機器８００のための電力生成、管理および配分に関連する他のコンポーネントを含んでもよい。

マルチメディアコンポーネント８０８は前記電子機器８００とユーザとの間で出力インタフェースを提供するスクリーンを含む。いくつかの実施例では、スクリーンは液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンがタッチパネルを含む場合、ユーザからの入力信号を受信するタッチスクリーンとして実現してもよい。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャーを検知するように、一つ以上のタッチセンサを含む。前記タッチセンサはタッチまたはスライド動きの境界を検知するのみならず、前記タッチまたはスライド操作に関連する持続時間および圧力を検出するようにしてもよい。いくつかの実施例では、マルチメディアコンポーネント８０８は前面カメラおよび／または背面カメラを含む。電子機器８００が動作モード、例えば撮影モードまたは撮像モードになる場合、前面カメラおよび／または背面カメラは外部のマルチメディアデータを受信するようにしてもよい。各前面カメラおよび背面カメラは、固定された光学レンズ系、または焦点距離および光学ズーム能力を有するものであってもよい。

オーディオコンポーネント８１０はオーディオ信号を出力および／または入力するように構成される。例えば、オーディオコンポーネント８１０は、一つのマイク（ＭＩＣ）を含み、マイク（ＭＩＣ）は、電子機器８００が動作モード、例えば呼び出しモード、記録モードおよび音声認識モードになる場合、外部のオーディオ信号を受信するように構成される。受信されたオーディオ信号はさらにメモリ８０４に記憶されるか、または通信コンポーネント８１６を介して送信されてもよい。いくつかの実施例では、オーディオコンポーネント８１０はさらに、オーディオ信号を出力するためのスピーカーを含む。

Ｉ／Ｏインタフェース８１２は処理コンポーネント８０２と周辺インタフェースモジュールとの間でインタフェースを提供し、上記周辺インタフェースモジュールはキーボード、クリックホイール、ボタンなどであってもよい。これらのボタンはホームボタン、音量ボタン、スタートボタンおよびロックボタンを含んでもよいが、これらに限定されない。

センサコンポーネント８１４は電子機器８００の各方面の状態評価のために一つ以上のセンサを含む。例えば、センサコンポーネント８１４は電子機器８００のオン／オフ状態、例えば電子機器８００の表示装置およびキーパッドのようなコンポーネントの相対的位置決めを検出でき、センサコンポーネント８１４はさらに、電子機器８００または電子機器８００のあるコンポーネントの位置の変化、ユーザと電子機器８００との接触の有無、電子機器８００の方位または加減速および電子機器８００の温度変化を検出できる。センサコンポーネント８１４は、いかなる物理的接触もない場合に近傍の物体の存在を検出するように構成される近接センサを含んでもよい。センサコンポーネント８１４はさらに、ＣＭＯＳまたはＣＣＤイメージセンサのような、イメージングアプリケーションにおいて使用するための光センサを含んでもよい。いくつかの実施例では、該センサコンポーネント８１４はさらに、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサまたは温度センサを含んでもよい。

通信コンポーネント８１６は電子機器８００と他の機器との有線または無線通信を実現するように構成される。電子機器８００は通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇまたは３Ｇ、またはそれらの組み合わせにアクセスできる。一例示的実施例では、通信コンポーネント８１６は放送チャネルを介して外部の放送管理システムからの放送信号または放送関連情報を受信する。一例示的実施例では、前記通信コンポーネント８１６はさらに、近距離通信を促進させるために、近距離無線通信（ＮＦＣ）モジュールを含む。例えば、ＮＦＣモジュールは、無線周波数識別（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標／ＢＴ）技術および他の技術によって実現できる。

例示的な実施例では、電子機器８００は一つ以上の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタルシグナルプロセッサ（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子要素によって実現され、上記方法を実行するために用いられることができる。

例示的な実施例では、さらに、不揮発性コンピュータ読み取り可能記憶媒体、例えばコンピュータプログラム命令を含むメモリ８０４が提供され、上記コンピュータプログラム命令は、電子機器８００のプロセッサ８２０によって実行されと、上記方法を実行させることができる。

図６は本開示の実施例に係る電子機器１９００のブロック図を示す。例えば、電子機器１９００はサーバーとして提供されてもよい。図６を参照すると、電子機器１９００は、一つ以上のプロセッサを含む処理コンポーネント１９２２、および、処理コンポーネント１９２２によって実行可能な命令例えばアプリケーションプログラムを記憶するための、メモリ１９３２を代表とするメモリ資源を含む。メモリ１９３２に記憶されているアプリケーションプログラムは、それぞれが１つの命令群に対応する一つ以上のモジュールを含んでもよい。また、処理コンポーネント１９２２は命令を実行することによって上記方法を実行するように構成される。

電子機器１９００はさらに、電子機器１９００の電源管理を実行するように構成される電源コンポーネント１９２６、電子機器１９００をネットワークに接続するように構成される有線または無線ネットワークインタフェース１９５０、および入出力（Ｉ／Ｏ）インタフェース１９５８を含んでもよい。電子機器１９００はメモリ１９３２に記憶されているオペレーティングシステム、例えばＷｉｎｄｏｗｓ（登録商標）ＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭまたは類似するものに基づいて動作できる。

例示的な実施例では、さらに、不揮発性コンピュータ可読記憶媒体、例えばコンピュータプログラム命令を含むメモリ１９３２が提供され、上記コンピュータプログラム命令は、電子機器１９００の処理コンポーネント１９２２によって実行されと、上記方法を実行させることができる。

本開示はシステム、方法および／またはコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、プロセッサに本開示の各方面を実現させるためのコンピュータ可読プログラム命令が有しているコンピュータ可読記憶媒体を含んでもよい。

コンピュータ可読記憶媒体は、命令実行機器に使用される命令を保存および記憶可能な有形装置であってもよい。コンピュータ可読記憶媒体は例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置、または上記の任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例（非網羅的リスト）としては、携帯型コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、静的ランダムアクセスメモリ（ＳＲＡＭ）、携帯型コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、例えば命令が記憶されているせん孔カードまたはスロット内突起構造のような機械的符号化装置、および上記の任意の適当な組み合わせを含む。ここで使用されるコンピュータ可読記憶媒体は、瞬時信号自体、例えば無線電波または他の自由に伝播される電磁波、導波路または他の伝送媒体を経由して伝播される電磁波（例えば、光ファイバーケーブルを通過するパルス光）、または電線を経由して伝送される電気信号と解釈されるものではない。

ここで記述したコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各計算／処理機器にダウンロードされてもよいし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、広域ネットワークおよび／または無線ネットワークを介して外部のコンピュータまたは外部記憶装置にダウンロードされてもよい。ネットワークは銅伝送ケーブル、光ファイバー伝送、無線伝送、ルーター、ファイアウォール、交換機、ゲートウェイコンピュータおよび／またはエッジサーバを含んでもよい。各計算／処理機器内のネットワークアダプタカードまたはネットワークインタフェースはネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各計算／処理機器内のコンピュータ可読記憶媒体に記憶させる。

本開示の動作を実行するためのコンピュータプログラム命令はアセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」言語または類似するプログラミング言語などの一般的な手続き型プログラミング言語を含める一つ以上のプログラミング言語の任意の組み合わせで書かれたソースコードまたは目標コードであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータにおいて実行されてもよく、部分的にユーザのコンピュータにおいて実行されてもよく、スタンドアロンソフトウェアパッケージとして実行されてもよく、部分的にユーザのコンピュータにおいてかつ部分的にリモートコンピュータにおいて実行されてもよく、または完全にリモートコンピュータもしくはサーバにおいて実行されてもよい。リモートコンピュータに関与する場合、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）または広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを経由してユーザのコンピュータに接続されてもよく、または、（例えばインターネットサービスプロバイダを利用してインターネットを経由して）外部コンピュータに接続されてもよい。いくつかの実施例では、コンピュータ可読プログラム命令の状態情報を利用して、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはプログラマブル論理アレイ（ＰＬＡ）などの電子回路をパーソナライズし、該電子回路によりコンピュータ可読プログラム命令を実行することにより、本開示の各方面を実現するようにしてもよい。

ここで、本開示の実施例に係る方法、装置（システム）およびコンピュータプログラム製品のフローチャートおよび／またはブロック図を参照しながら本開示の各態様を説明したが、フローチャートおよび／またはブロック図の各ブロックおよびフローチャートおよび／またはブロック図の各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令によって実現できることを理解すべきである。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたは他のプログラマブルデータ処理装置のプロセッサへ提供され、これらの命令がコンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行されると、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現ように、装置を製造してもよい。これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶され、コンピュータ、プログラマブルデータ処理装置および／または他の機器を特定の方式で動作させるようにしてもよい。これにより、命令が記憶されているコンピュータ可読記憶媒体は、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作の各方面を実現する命令を有する製品を含む。

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブルデータ処理装置、または他の機器にロードされ、コンピュータ、他のプログラマブルデータ処理装置または他の機器に一連の動作ステップを実行させることにより、コンピュータにより実施なプロセスを生成するようにしてもよい。このようにして、コンピュータ、他のプログラマブルデータ処理装置、または他の機器において実行される命令により、フローチャートおよび／またはブロック図の一つ以上のブロックにおいて指定された機能／動作を実現する。

図面のうちフローチャートおよびブロック図は、本開示の複数の実施例に係るシステム、方法およびコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能および動作を示す。この点では、フローチャートまたはブロック図における各ブロックは一つのモジュール、プログラムセグメントまたは命令の一部分を代表することができ、前記モジュール、プログラムセグメントまたは命令の一部分は指定された論理機能を実現するための一つ以上の実行可能命令を含む。いくつかの代替としての実現形態では、ブロックに表記される機能は、図面に付した順序と異なって実現してもよい。例えば、連続的な二つのブロックは実質的に並列に実行してもよく、また、係る機能によって、逆な順序で実行してもよい。なお、ブロック図および／またはフローチャートにおける各ブロック、およびブロック図および／またはフローチャートにおけるブロックの組み合わせは、指定される機能または動作を実行するハードウェアに基づく専用システムによって実現してもよいし、または専用ハードウェアとコンピュータ命令との組み合わせによって実現してもよいことにも注意すべきである。

論理に反することなく、本開示の異なる実施例を互いに組み合わせることができ、異なる実施例には重点を置いて説明したが、重点を置いて説明しなかった部分については、他の実施例の記載を参照すれば明らかである。

以上、本開示の各実施例を記述したが、上記説明は例示的なものに過ぎず、網羅的なものではなく、かつ披露された各実施例に限定されるものでもない。当業者にとって、説明された各実施例の範囲および精神から逸脱することなく、様々な修正および変更が自明である。本明細書に選ばれた用語は、各実施例の原理、実際の適用または既存技術に対する改善を好適に解釈するか、または他の当業者に本文に披露された各実施例を理解させるためのものである。

本願は２０１９年７月１８日に中国特許庁に出願された、出願番号が２０１９１０６５２０２８．６で、発明の名称が「画像処理方法及び装置、電子機器並びに記憶媒体」である中国特許出願の優先権を主張し、その内容全体が援用により本開示に組み込まれる。

Claims

特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得することと、
Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得することと、
Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、
ここで、Ｍ、Ｎは１より大きい整数であることを特徴とする画像処理方法。
Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、符号化後の複数の特徴マップを取得することは、
第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得することと、
第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、
第Ｍ段の符号化ネットワークによって第Ｍ−１段の符号化後のＭ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第Ｍ段の符号化後のＭ＋１個の特徴マップを取得することと、を含み、
ここで、ｍは整数で１＜ｍ＜Ｍであることを特徴とする請求項１に記載の方法。
第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第２特徴マップを取得することは、
前記第１特徴マップをスケールダウンし、第２特徴マップを取得することと、
前記第１特徴マップと前記第２特徴マップを融合させ、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得することと、を含むことを特徴とする請求項２に記載の方法。
第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、
第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、スケールが第ｍ−１段の符号化後のｍ個の特徴マップのスケールよりも小さいｍ＋１番目の特徴マップを取得することと、
前記第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、を含むことを特徴とする請求項２又は３に記載の方法。
第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、ｍ＋１番目の特徴マップを取得することは、
第ｍ段の符号化ネットワークの畳み込みサブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップをそれぞれスケールダウンし、スケールが前記ｍ＋１番目の特徴マップのスケールと同じであるスケールダウン後のｍ個の特徴マップを取得することと、
前記スケールダウン後のｍ個の特徴マップに対して特徴融合を行い、前記ｍ＋１番目の特徴マップを取得することと、を含むことを特徴とする請求項４に記載の方法。
第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、
第ｍ段の符号化ネットワークの特徴最適化サブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得することと、
第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することと、を含むことを特徴とする請求項４又は５に記載の方法。
前記畳み込みサブネットワークは少なくとも１つの第１畳み込み層を含み、前記第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、
前記特徴最適化サブネットワークは少なくとも２つの第２畳み込み層及び残差層を含み、前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１であり、
前記ｍ＋１個の融合サブネットワークは最適化後のｍ＋１個の特徴マップに対応することを特徴とする請求項５又は６に記載の方法。
ｍ＋１個の融合サブネットワーク内のｋ番目の融合サブネットワークの場合、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、
少なくとも１つの第１畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも大きいｋ−１個の特徴マップをスケールダウンし、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールダウン後のｋ−１個の特徴マップを取得することと、及び／又は
アップサンプリング層及び第３畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも小さいｍ＋１−ｋ個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールアップ後のｍ＋１−ｋ個の特徴マップを取得することと、を含み、
ここで、ｋは整数で１≦ｋ≦ｍ＋１であり、前記第３畳み込み層の畳み込みカーネルサイズは１×１であることを特徴とする請求項７に記載の方法。
第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、
前記スケールダウン後のｋ−１個の特徴マップ、前記特徴最適化後のｋ番目の特徴マップ及び前記スケールアップ後のｍ＋１−ｋ個の特徴マップのうちの少なくとも２項を融合させ、第ｍ段の符号化後のｋ番目の特徴マップを取得することをさらに含むことを特徴とする請求項８に記載の方法。
Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、
第１段の復号化ネットワークによって第Ｍ段の符号化後のＭ＋１個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第１段の復号化後のＭ個の特徴マップを取得することと、
第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、
第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することと、を含み、
ここで、ｎは整数で１＜ｎ＜Ｎ≦Ｍであることを特徴とする請求項２〜９のいずれか１項に記載の方法。
第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することは、
第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することと、
前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、を含むことを特徴とする請求項１０に記載の方法。
第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得することは、
第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合を行い、第Ｎ段の復号化後の対象特徴マップを取得することと、
前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含むことを特徴とする請求項１０又は１１に記載の方法。
第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することは、
第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第１融合サブネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得することと、
第ｎ段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれスケールアップし、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することと、を含むことを特徴とする請求項１１に記載の方法。
前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することは、
第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第２融合サブネットワークによって前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得することと、
第ｎ段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のＭ−ｎ＋１個の特徴マップをそれぞれ最適化し、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することと、を含むことを特徴とする請求項１１又は１３に記載の方法。
前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定することは、
前記第Ｎ段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得することと、
前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することと、を含むことを特徴とする請求項１２に記載の方法。
特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得することは、
前記特徴抽出ネットワークの少なくとも１つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得することと、
前記特徴抽出ネットワークの少なくとも１つの第２畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第１特徴マップを取得することと、を含むことを特徴とする請求項１〜１５のいずれか１項に記載の方法。
前記第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１であることを特徴とする請求項１６に記載の方法。
複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記Ｍ段の符号化ネットワーク及び前記Ｎ段の復号化ネットワークをトレーニングすることをさらに含むことを特徴とする請求項１〜１７のいずれか１項に記載の方法。
特徴抽出ネットワークによって処理対象となる画像に対して特徴抽出を行い、前記処理対象となる画像の第１特徴マップを取得するための特徴抽出モジュールと、
Ｍ段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、各特徴マップのスケールが異なる符号化後の複数の特徴マップを取得するための符号化モジュールと、
Ｎ段の復号化ネットワークによって符号化後の複数の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための復号化モジュールと、を含み、
ここで、Ｍ、Ｎは１より大きい整数であることを特徴とする画像処理装置。
前記符号化モジュールは、
第１段の符号化ネットワークによって前記第１特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得するための第１符号化サブモジュールと、
第ｍ段の符号化ネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するための第２符号化サブモジュールと、
第Ｍ段の符号化ネットワークによって第Ｍ−１段の符号化後のＭ個の特徴マップに対してスケールダウン及びマルチスケール融合処理を行い、第Ｍ段の符号化後のＭ＋１個の特徴マップを取得するための第３符号化サブモジュールと、を含み、
ここで、ｍは整数で１＜ｍ＜Ｍであることを特徴とする請求項１９に記載の装置。
前記第１符号化サブモジュールは、
前記第１特徴マップをスケールダウンし、第２特徴マップを取得するための第１縮小サブモジュールと、
前記第１特徴マップと前記第２特徴マップを融合させ、第１段の符号化後の第１特徴マップ及び第１段の符号化後の第２特徴マップを取得するための第１融合サブモジュールと、を含むことを特徴とする請求項２０に記載の装置。
前記第２符号化サブモジュールは、
第ｍ−１段の符号化後のｍ個の特徴マップに対してスケールダウン及び融合を行い、スケールが第ｍ−１段の符号化後のｍ個の特徴マップのスケールよりも小さいｍ＋１番目の特徴マップを取得するための第２縮小サブモジュールと、
前記第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップを融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得するための第２融合サブモジュールと、を含むことを特徴とする請求項２０又は２１に記載の装置。
前記第２縮小サブモジュールは、
第ｍ段の符号化ネットワークの畳み込みサブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップをそれぞれスケールダウンし、スケールが前記ｍ＋１番目の特徴マップのスケールと同じであるスケールダウン後のｍ個の特徴マップを取得し、
前記スケールダウン後のｍ個の特徴マップに対して特徴融合を行い、前記ｍ＋１番目の特徴マップを取得することを特徴とする請求項２２に記載の装置。
前記第２融合サブモジュールは、
第ｍ段の符号化ネットワークの特徴最適化サブネットワークによって第ｍ−１段の符号化後のｍ個の特徴マップ及び前記ｍ＋１番目の特徴マップに対してそれぞれ特徴最適化を行い、特徴最適化後のｍ＋１個の特徴マップを取得し、
第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することを特徴とする請求項２２又は２３に記載の装置。
前記畳み込みサブネットワークは少なくとも１つの第１畳み込み層を含み、前記第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、
前記特徴最適化サブネットワークは少なくとも２つの第２畳み込み層及び残差層を含み、前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１であり、
前記ｍ＋１個の融合サブネットワークは最適化後のｍ＋１個の特徴マップに対応することを特徴とする請求項２３又は２４に記載の装置。
ｍ＋１個の融合サブネットワーク内のｋ番目の融合サブネットワークの場合、第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、
少なくとも１つの第１畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも大きいｋ−１個の特徴マップをスケールダウンし、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールダウン後のｋ−１個の特徴マップを取得することと、及び／又は
アップサンプリング層及び第３畳み込み層によってスケールが特徴最適化後のｋ番目の特徴マップよりも小さいｍ＋１−ｋ個の特徴マップに対してスケールアップ及びチャネル調整を行い、スケールが特徴最適化後のｋ番目の特徴マップのスケールと同じであるスケールアップ後のｍ＋１−ｋ個の特徴マップを取得することと、を含み、
ここで、ｋは整数で１≦ｋ≦ｍ＋１であり、前記第３畳み込み層の畳み込みカーネルサイズは１×１であることを特徴とする請求項２５に記載の装置。
第ｍ段の符号化ネットワークのｍ＋１個の融合サブネットワークによって前記特徴最適化後のｍ＋１個の特徴マップをそれぞれ融合させ、第ｍ段の符号化後のｍ＋１個の特徴マップを取得することは、
前記スケールダウン後のｋ−１個の特徴マップ、前記特徴最適化後のｋ番目の特徴マップ及び前記スケールアップ後のｍ＋１−ｋ個の特徴マップのうちの少なくとも２項を融合させ、第ｍ段の符号化後のｋ番目の特徴マップを取得することをさらに含むことを特徴とする請求項２６に記載の装置。
前記復号化モジュールは、
第１段の復号化ネットワークによって第Ｍ段の符号化後のＭ＋１個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第１段の復号化後のＭ個の特徴マップを取得するための第１復号化サブモジュールと、
第ｎ段の復号化ネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対してスケールアップ及びマルチスケール融合処理を行い、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するための第２復号化サブモジュールと、
第Ｎ段の復号化ネットワークによって第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合処理を行い、前記処理対象となる画像の予測結果を取得するための第３復号化サブモジュールと、を含み、
ここで、ｎは整数で１＜ｎ＜Ｎ≦Ｍであることを特徴とする請求項２０〜２７のいずれか１項に記載の装置。
前記第２復号化サブモジュールは、
第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップに対して融合及びスケールアップを行い、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得するための拡大サブモジュールと、
前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得するための第３融合サブモジュールと、を含むことを特徴とする請求項２８に記載の装置。
前記第３復号化サブモジュールは、
第Ｎ−１段の復号化後のＭ−Ｎ＋２個の特徴マップに対してマルチスケール融合を行い、第Ｎ段の復号化後の対象特徴マップを取得するための第４融合サブモジュールと、
前記第Ｎ段の復号化後の対象特徴マップに基づいて、前記処理対象となる画像の予測結果を決定するための結果決定サブモジュールと、を含むことを特徴とする請求項２８又は２９に記載の装置。
前記拡大サブモジュールは、
第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第１融合サブネットワークによって第ｎ−１段の復号化後のＭ−ｎ＋２個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得し、
第ｎ段の復号化ネットワークの逆畳み込みサブネットワークによって融合後のＭ−ｎ＋１個の特徴マップをそれぞれスケールアップし、スケールアップ後のＭ−ｎ＋１個の特徴マップを取得することを特徴とする請求項２９に記載の装置。
前記第３融合サブモジュールは、
第ｎ段の復号化ネットワークのＭ−ｎ＋１個の第２融合サブネットワークによって前記スケールアップ後のＭ−ｎ＋１個の特徴マップを融合させ、融合後のＭ−ｎ＋１個の特徴マップを取得し、
第ｎ段の復号化ネットワークの特徴最適化サブネットワークによって前記融合後のＭ−ｎ＋１個の特徴マップをそれぞれ最適化し、第ｎ段の復号化後のＭ−ｎ＋１個の特徴マップを取得することを特徴とする請求項２９又は３１に記載の装置。
前記結果決定サブモジュールは、
前記第Ｎ段の復号化後の対象特徴マップを最適化し、前記処理対象となる画像の予測密度マップを取得し、
前記予測密度マップに基づいて、前記処理対象となる画像の予測結果を決定することを特徴とする請求項３０に記載の装置。
前記特徴抽出モジュールは、
前記特徴抽出ネットワークの少なくとも１つの第１畳み込み層によって処理対象となる画像に対して畳み込みを行い、畳み込み後の特徴マップを取得するための畳み込みサブモジュールと、
前記特徴抽出ネットワークの少なくとも１つの第２畳み込み層によって畳み込み後の特徴マップを最適化し、前記処理対象となる画像の第１特徴マップを取得するための最適化サブモジュールと、を含むことを特徴とする請求項１９〜３３のいずれか１項に記載の装置。
前記第１畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが２であり、前記第２畳み込み層は畳み込みカーネルサイズが３×３であり、ストライドが１であることを特徴とする請求項３４に記載の装置。
複数のラベル付きのサンプル画像を含む予め設定されたトレーニング群に基づいて、前記特徴抽出ネットワーク、前記Ｍ段の符号化ネットワーク及び前記Ｎ段の復号化ネットワークをトレーニングするためのレーニングサブモジュールをさらに含むことを特徴とする請求項１９〜３５のいずれか１項に記載の装置。
プロセッサと、
プロセッサにより実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記メモリに記憶されている命令を呼び出すことにより、請求項１〜１８のいずれか１項に記載の方法を実行するように構成されることを特徴とする電子機器。
コンピュータプログラム命令を記憶しているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータプログラム命令は、プロセッサにより実行されると、請求項１〜１８のいずれか１項に記載の方法を実現させることを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能なコードを含み、前記コンピュータ読み取り可能なコードは、電子機器において実行されると、前記電子機器のプロセッサに請求項１〜１８のいずれか１項に記載の方法を実現するための命令を実行させることを特徴とするコンピュータプログラム。