JP7589752B2

JP7589752B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP7589752B2
Application number: JP2022569366A
Authority: JP
Inventors: 智規久保田; 旭穎雷; 鷹詔中尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-11-26
Anticipated expiration: 2040-12-15
Also published as: US20230252683A1; WO2022130496A1; JPWO2022130496A1

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。

深層学習モデルによる画像解析処理に用いられる画像データを圧縮して伝送する技術として、例えば、画像データを予め深層学習モデルに入力し、中間層より抽出した中間情報（特徴マップ）を圧縮して伝送する技術が知られている。当該圧縮技術によれば、画像データを直接圧縮して伝送する場合と比較して、高い圧縮率が実現できるとともに、画像データを直接圧縮して伝送する場合と同様に、伝送先の深層学習モデルの出力層において適切な処理結果を出力することができる。

特開２０１８－１９５２３１号公報特開２０１９－０３６８９９号公報特開２０１８－０９７６６２号公報特開２０１９－０２９９３８号公報

しかしながら、深層学習モデルの中間層より抽出される中間情報は、出力層において適切な処理結果を出力するのに必要な情報だけでなく、適切な処理結果を出力するのに必要でない情報も含まれる。

一つの側面では、深層学習モデルより抽出される中間情報を圧縮する際の圧縮率を向上させることを目的とする。

一態様によれば、画像処理装置は、
画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出する算出部と、
前記入力層に入力される前の前記画像データの各画素のうち、前記影響度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成する加工部と、
生成された前記削減後画像データが前記深層学習モデルの前記入力層に入力され、中間層から抽出された中間情報を圧縮する圧縮部とを有する。

深層学習モデルより抽出される中間情報を圧縮する際の圧縮率を向上させることができる。

図１は、画像処理システムのシステム構成の一例を示す図である。図２は、エッジデバイスのハードウェア構成の一例を示す図である。図３は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第１の図である。図４は、画像削減部及び重要箇所抽出部による処理の具体例を示す第１の図である。図５は、エッジデバイスによる圧縮処理の流れを示す第１のフローチャートである。図６は、エッジデバイスの画像削減部及び圧縮部の機能構成の一例を示す第２の図である。図７は、画像削減部及び重要箇所抽出部による処理の具体例を示す第２の図である。図８は、エッジデバイスによる圧縮処理の流れを示す第２のフローチャートである。図９は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第３の図である。図１０は、画像削減部及び重要箇所抽出部による処理の具体例を示す第３の図である。図１１は、エッジデバイスによる圧縮処理の流れを示す第３のフローチャートである。図１２は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第４の図である。図１３は、画像削減部及び重要箇所抽出部による処理の具体例を示す第４の図である。図１４は、エッジデバイスによる圧縮処理の流れを示す第４のフローチャートである。

以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。

［第１の実施形態］
＜画像処理システムのシステム構成＞
はじめに、第１の実施形態に係る画像処理装置の一例であるエッジデバイスを含む、画像処理システム全体のシステム構成について説明する。図１は、画像処理システムのシステム構成の一例を示す図である。

図１に示すように、画像処理システム１００は、撮像装置１１０と、エッジデバイス１２０と、サーバ装置１３０とを有する。

撮像装置１１０は、所定のフレーム周期で撮影を行い、画像データをエッジデバイス１２０に送信する。なお、画像データには、後述する深層学習モデルによる画像解析処理の対象となるオブジェクトが含まれている可能性があるものとする。画像データに後述する深層学習モデルによる画像解析処理の対象となるオブジェクトが含まれていない場合には、例えば、後述する画像加工によって、画像データ全体が無効化されることになる。

エッジデバイス１２０には、画像処理プログラムがインストールされており、当該プログラムが実行されることで、エッジデバイス１２０は、画像削減部１２１、重要箇所抽出部１２２、圧縮部１２３として機能する。

画像削減部１２１は削減部の一例であり、深層学習モデル１４０を有する。図１に示すように、本実施形態では、深層学習モデル１４０のうち、入力層から、中間情報（「特徴マップ」）が抽出される中間層（例えば、第２層）までの各層を、前段部と称す。また、深層学習モデル１４０のうち、特徴マップが抽出される中間層の次の層から、出力層までの各層を、後段部と称す。

画像削減部１２１は、前段部に入力する画像データの情報量を削減することにより、前段部内において最も後ろに位置する中間層（例えば、第２層）より抽出される特徴マップの情報量を削減する。これにより、画像削減部１２１は「削減後特徴マップ」を生成する。また、画像削減部１２１は、生成した削減後特徴マップを圧縮部１２３に通知する。

重要箇所抽出部１２２は算出部の一例であり、画像データのうち、深層学習モデル１４０による処理結果に影響を与える各画素の影響度を表す「重要特徴マップ」を生成する。生成した重要特徴マップは、画像削減部１２１に通知され、前段部に入力される画像データの情報量を削減する際に用いられる。

圧縮部１２３は、画像削減部１２１より通知された削減後特徴マップに対して、量子化及び／または符号化処理を行うことで圧縮し、「圧縮後特徴マップ」を生成する。また、圧縮部１２３は、圧縮後特徴マップをサーバ装置１３０に伝送する。

このように、第１の実施形態では、深層学習モデル１４０の中間層より抽出される特徴マップを圧縮する際、画像データの情報量を削減することで、特徴マップの情報量を削減し、削減後特徴マップを生成したうえで圧縮する。これにより、第１の実施形態によれば、特徴マップを圧縮する際の圧縮率を向上させることができる。

サーバ装置１３０には、画像解析処理プログラムがインストールされており、当該プログラムが実行されることで、サーバ装置１３０は、復号部１３１と画像解析部１３２として機能する。

復号部１３１は、エッジデバイス１２０より伝送された圧縮後特徴マップを受信し、受信した圧縮後特徴マップに対して、逆量子化及び／または復号処理を行うことで、削減後特徴マップを生成する。また、復号部１３１は、生成した削減後特徴マップを画像解析部１３２に通知する。

画像解析部１３２は、深層学習モデル１４０の後段部を有し、復号部１３１より通知された削減後特徴マップを入力することで、出力層から処理結果を出力する。

＜エッジデバイスのハードウェア構成＞
次に、エッジデバイス１２０のハードウェア構成について説明する。図２は、エッジデバイスのハードウェア構成の一例を示す図である。エッジデバイス１２０は、プロセッサ２０１、メモリ２０２、補助記憶装置２０３、Ｉ／Ｆ（Interface）装置２０４、通信装置２０５、ドライブ装置２０６を有する。なお、エッジデバイス１２０の各ハードウェアは、バス２０７を介して相互に接続されている。

プロセッサ２０１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の各種演算デバイスを有する。プロセッサ２０１は、各種プログラム（例えば、画像処理プログラム等）をメモリ２０２上に読み出して実行する。

メモリ２０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ２０１とメモリ２０２とは、いわゆるコンピュータを形成し、プロセッサ２０１が、メモリ２０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能（画像削減部１２１、重要箇所抽出部１２２及び圧縮部１２３）を実現する。なお、各種機能の機能構成の詳細は後述する。

補助記憶装置２０３は、各種プログラムや、各種プログラムがプロセッサ２０１によって実行される際に用いられる各種データを格納する。

Ｉ／Ｆ装置２０４は、外部装置の一例である操作装置２１０、表示装置２１１とエッジデバイス１２０とを接続する接続デバイスである。Ｉ／Ｆ装置２０４は、エッジデバイス１２０に対する操作を、操作装置２１０を介して受け付ける。また、Ｉ／Ｆ装置２０４は、エッジデバイス１２０による内部処理の結果を出力し、表示装置２１１を介して表示する。

通信装置２０５は、他の装置と通信するための通信デバイスである。画像処理システム１００の場合、エッジデバイス１２０は、通信装置２０５を介して撮像装置１１０及びサーバ装置１３０と通信する。

ドライブ装置２０６は記録媒体２１２をセットするためのデバイスである。ここでいう記録媒体２１２には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体２１２には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

なお、補助記憶装置２０３にインストールされる各種プログラムは、例えば、配布された記録媒体２１２がドライブ装置２０６にセットされ、該記録媒体２１２に記録された各種プログラムがドライブ装置２０６により読み出されることでインストールされる。あるいは、補助記憶装置２０３にインストールされる各種プログラムは、通信装置２０５を介してネットワークからダウンロードされることで、インストールされてもよい。

＜画像削減部、重要箇所抽出部及び圧縮部の機能構成＞
次に、エッジデバイス１２０において、画像処理プログラムが実行されることで実現される各種機能（画像削減部１２１、重要箇所抽出部１２２及び圧縮部１２３）の機能構成の詳細について説明する。図３は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第１の図である。

図３に示すように、画像削減部１２１は、前段部３０１、後段部３０２、誤差算出部３０３、画像加工部３０４を有する。

前段部３０１は、深層学習モデル１４０のうち、入力層から、特徴マップが抽出される中間層までの各層を有する。前段部３０１は、画像データが入力されることで、中間層から特徴マップを抽出し、後段部３０２に通知する。また、前段部３０１は、「削減後画像データ」が入力されることで、中間層から削減後特徴マップを抽出し、圧縮部１２３に通知する。なお、削減後画像データとは、重要特徴マップに基づいて画像データを加工することで生成される画像であり、画像加工部３０４によって生成される（詳細は後述）。

後段部３０２は、深層学習モデル１４０のうち、特徴マップが抽出される中間層の次の層から、出力層までの各層を有する。後段部３０２は特徴マップが入力されることで、出力層から処理結果が出力される。また、後段部３０２は、出力層から出力された処理結果を誤差算出部３０３に通知する。

誤差算出部３０３は、後段部３０２より通知された処理結果と、基準結果との誤差を算出する。基準結果とは、画像データに含まれるオブジェクト（正解データ）について予め定められた分類確率を指す。例えば、画像処理システム１００が、画像データ内に映る人間の行動解析を行うのに用いる処理結果を提供することを目的とするシステムであった場合、画像削減部１２１では、例えば、
・画像データの所定の領域（ｘ_１、ｙ_１、ｈ_１、ｗ_１）のオブジェクトを人間と認識する分類確率を０．８、
・画像データの所定の領域（ｘ_１、ｙ_１、ｈ_１、ｗ_１）のオブジェクトを人間以外のオブジェクトと認識する分類確率を０．１、
とするデータセット等が基準結果として規定される。

また、処理結果と基準結果との誤差とは、例えば、後段部３０２より通知される処理結果の各オブジェクトの分類確率と、基準結果の各オブジェクトの分類確率との差分を指す。なお、誤差には、分類確率の差分に加えて、後段部３０２より通知される処理結果に含まれる所定の領域と、基準結果に含まれる所定の領域とのずれ量を示す指標（例えば、ＩｏＵ（Intersection Over Union））が含まれていてもよい。

また、誤差算出部３０３では、算出した誤差を逆伝播させる。これにより、重要箇所抽出部１２２では、画像データのうち、深層学習モデル１４０による処理結果に影響を与える各画素の影響度を表す重要特徴マップを生成することができる。

なお、誤差算出部３０３が誤差を逆伝播させる方法には、"通常の逆誤差伝播"、"ＧｕｉｄｅｄＢａｃｋｐｒｏｐａｇａｔｉｏｎ"、"選択的逆誤差伝播"、"拡張選択的逆誤差伝播"等の複数の方法が含まれる。

通常の逆誤差伝播とは、後段部３０２より通知された処理結果すべての誤差を逆伝播させる方法である。また、ＧｕｉｄｅｄＢａｃｋｐｒｏｐａｇａｔｉｏｎとは、前段部３０１、後段部３０２における各層で計算する勾配のうち、正値の勾配のみを用いて誤差を逆伝播させる方法である。

また、選択的逆誤差伝播とは、後段部３０２より通知された処理結果のうち、正解の処理結果の誤差のみを、"通常の逆誤差伝播"または"ＧｕｉｄｅｄＢａｃｋｐｒｏｐａｇａｔｉｏｎ"により逆伝播させる方法である。

拡張選択的逆誤差伝播とは、後段部３０２より通知された処理結果に対して所定の操作をすることで得られる大小の誤差を、"通常の逆誤差伝播"または"ＧｕｉｄｅｄＢａｃｋｐｒｏｐａｇａｔｉｏｎ"により逆伝播させる方法である。

画像加工部３０４は、後述する重要箇所抽出部１２２より通知された重要特徴マップを用いて、画像データを加工することで画像データの情報量を削減し、削減後画像データを生成する。具体的には、画像加工部３０４は、重要箇所抽出部１２２より通知された重要特徴マップの各画素の影響度に基づいて画像データを加工することで、画像データの情報量を削減し、削減後画像データを生成する。

なお、画像加工部３０４による画像データの加工方法は任意であり、例えば、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素の画像データにおける画素値をゼロにしてもよい（特定した画素を無効化してもよい）。あるいは、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素を対象に画像データに対してローパスフィルタをかけてもよい。あるいは、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素を対象に画像データの色を削減してもよい。つまり、画像データの加工とは、不要な特徴を深層学習モデル１４０が特徴と捉えないように画像データを加工することであり、その目的を果たす加工方法であれば、任意の加工方法が許容される。

また、画像加工部３０４は、生成した削減後画像データを前段部３０１に通知する。なお、上述したように、削減後画像データが通知された前段部３０１では、中間層から削減後特徴マップを抽出し、圧縮部１２３に通知する。

重要箇所抽出部１２２は、逆伝播された誤差を用いて重要特徴マップを生成する。上述したように、重要特徴マップは、画像データの各画素が処理結果にどの程度影響を与えたかの影響度を表している。重要箇所抽出部１２２は、生成した重要特徴マップを画像加工部３０４に通知する。

また、図３に示すように、圧縮部１２３は、量子化部３１１、符号化部３１２を有する。

量子化部３１１は、画像削減部１２１の前段部３０１より通知された削減後特徴マップを量子化し、符号化部３１２に通知する。

符号化部３１２は、量子化部３１１より通知された、量子化された削減後特徴マップに対して、例えば、エントロピ符号化処理を行うことで、あるいは、他の任意の圧縮処理を行うことで、圧縮後特徴マップを生成する。また、符号化部３１２は、生成した圧縮後特徴マップを、サーバ装置１３０に伝送する。

＜画像削減部及び重要箇所抽出部の処理の具体例＞
次に、エッジデバイス１２０の画像削減部１２１及び重要箇所抽出部１２２による処理の具体例について説明する。図４は、画像削減部及び重要箇所抽出部による処理の具体例を示す第１の図である。図４に示すように、画像削減部１２１では、画像データ４１０が入力されると、前段部３０１及び後段部３０２が動作し、処理結果を出力する。続いて、画像削減部１２１では、誤差算出部３０３が動作し、処理結果と基準結果との誤差を算出した後、算出した誤差を逆伝播させる。

続いて、重要箇所抽出部１２２が動作し、逆伝播された誤差を用いて重要特徴マップ４２０を生成する。なお、図４に示す重要特徴マップ４２０の場合、処理結果に対して影響度の大きい画素を白色で、影響度の小さい画素を黒色で示している。

続いて、画像削減部１２１では、画像加工部３０４が動作し、画像データ４１０のうち、重要特徴マップ４２０において影響度が所定の閾値以下となる画素を無効化することで、削減後画像データ４３０を生成する。

続いて、画像削減部１２１では、削減後画像データ４３０を前段部３０１に入力することで、前段部３０１を再度動作させ、前段部３０１の中間層（図４の例では第２層）から、特徴マップを抽出する。更に、画像削減部１２１では、抽出した特徴マップを、削減後特徴マップとして、圧縮部１２３に通知する。

＜エッジデバイスによる圧縮処理の流れ＞
次に、エッジデバイス１２０による圧縮処理の流れについて説明する。図５は、エッジデバイスによる圧縮処理の流れを示す第１のフローチャートである。

ステップＳ５０１において、エッジデバイス１２０の画像削減部１２１の各部（ここでは、前段部３０１、後段部３０２）及び重要箇所抽出部１２２を初期化する。

ステップＳ５０２において、エッジデバイス１２０の画像削減部１２１は、前段部３０１を動作させる。前段部３０１は、画像データが入力されることで、特徴マップを抽出する。

ステップＳ５０３において、エッジデバイス１２０の画像削減部１２１は、後段部３０２を動作させる。後段部３０２は、特徴マップが入力されることで、処理結果を出力する。

ステップＳ５０４において、エッジデバイス１２０の画像削減部１２１は、誤差算出部３０３を動作させる。誤差算出部３０３は、処理結果と基準結果との誤差を算出することで、算出した誤差を逆伝播させる。

ステップＳ５０５において、エッジデバイス１２０の重要箇所抽出部１２２は、逆伝播された誤差を用いて重要特徴マップを生成する。

ステップＳ５０６において、エッジデバイス１２０の画像削減部１２１は、画像加工部３０４を動作させる。画像加工部３０４は、重要特徴マップに基づき画像データを加工することで画像データの情報量を削減し、削減後画像データを生成する。

ステップＳ５０７において、エッジデバイス１２０の画像削減部１２１は、前段部３０１を再度動作させる。前段部３０１は、削減後画像データが入力されることで、削減後特徴マップを抽出する。

ステップＳ５０８において、エッジデバイス１２０の圧縮部１２３は、量子化部３１１及び／または符号化部３１２を動作させる。量子化部３１１及び／または符号化部３１２は、削減後特徴マップに対して量子化及び／または符号化処理を行うことで、圧縮後特徴マップを生成する。

ステップＳ５０９において、エッジデバイス１２０の圧縮部１２３は、圧縮後特徴マップを、サーバ装置１３０に伝送する。

ステップＳ５１０において、エッジデバイス１２０の画像削減部１２１は、圧縮処理を終了するか否かを判定し、継続すると判定した場合には（ステップＳ５１０においてＮｏの場合には）、ステップＳ５０２に戻る。

一方、ステップＳ５１０において、圧縮処理を終了すると判定した場合には（ステップＳ５１０においてＹｅｓの場合には）、圧縮処理を終了する。

以上の説明から明らかなように、第１の実施形態に係る画像処理装置（エッジデバイス１２０）は、深層学習モデル１４０に画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出し、重要特徴マップを生成する。また、第１の実施形態に係る画像処理装置（エッジデバイス１２０）は、重要特徴マップに基づいて画像データを加工することで、画像データの情報量を削減する。また、第１の実施形態に係る画像処理装置（エッジデバイス１２０）は、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する。更に、第１の実施形態に係る画像処理装置（エッジデバイス１２０）は、情報量を削減した削減後特徴マップを圧縮する。

この結果、第１の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。

［第２の実施形態］
上記第１の実施形態では、重要特徴マップを生成する際、逆伝播された誤差を用いるものとして説明した。これに対して、第２の実施形態では、重要特徴マップを生成する際、前段部の各層より抽出される各特徴マップを用いる。以下、第２の実施形態について、上記第１の実施形態との相違点を中心に説明する。

＜画像削減部、重要箇所抽出部及び圧縮部の機能構成＞
はじめに、第２の実施形態に係る画像処理装置の一例であるエッジデバイス１２０の画像削減部、重要箇所抽出部及び圧縮部の機能構成の詳細について説明する。図６は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第２の図である。

図６に示すように、画像削減部６００は削減部の他の一例であり、前段部６０１、画像加工部３０４を有する。

前段部６０１は、深層学習モデル１４０のうち、入力層から中間層までの各層を有する。前段部６０１は画像データが入力されることで、各層から抽出される特徴マップ（例えば、第１層から抽出される特徴マップ１、第２層から抽出される特徴マップ２、・・・）を、重要箇所抽出部６１０に通知する。

また、前段部６０１は、削減後画像データが入力されることで、前段部６０１内において最も後ろに位置する中間層より抽出される削減後特徴マップを、圧縮部１２３に通知する。

画像加工部３０４は、重要箇所抽出部６１０より通知された重要特徴マップを用いて、画像データを加工することで、画像データの情報量を削減し、削減後画像データを生成する。具体的には、画像加工部３０４は、重要箇所抽出部６１０より通知された重要特徴マップの各画素の注目度に応じて画像データを加工することで、画像データの情報量を削減し、削減後画像データを生成する。

また、画像加工部３０４は、生成した削減後画像データを前段部６０１に通知する。なお、上述したように、削減後画像データが通知された前段部６０１では、中間層から削減後特徴マップを抽出し、圧縮部１２３に通知する。

重要箇所抽出部６１０は算出部の他の一例であり、前段部６０１より通知される各層の特徴マップを、重み付け加算することで、重要特徴マップを生成する。なお、第２の実施形態において、重要特徴マップは、前段部６０１の各層が画像データを処理する際、どの画素に注目したかの注目度を表している。重要箇所抽出部６１０は、生成した重要特徴マップを画像加工部３０４に通知する。

また、図６に示す圧縮部１２３は、図３に示す圧縮部１２３と同じであるため、ここでは説明を省略する。

＜画像削減部及び重要箇所抽出部の処理の具体例＞
次に、エッジデバイス１２０の画像削減部６００及び重要箇所抽出部６１０による処理の具体例について説明する。図７は、画像削減部及び重要箇所抽出部による処理の具体例を示す第２の図である。図７に示すように、画像削減部６００では、画像データ４１０が入力されると、前段部６０１が動作し、各層より特徴マップが抽出される。図７の例は、前段部６０１が入力層、第１層、第２層を有し、第１層より特徴マップ１が抽出され、第２層より特徴マップ２が抽出された様子を示している。

続いて、重要箇所抽出部６１０が動作し、前段部６０１から抽出された各特徴マップを重み付け加算することで、重要特徴マップ７１０を生成する。なお、図７の例では、重要特徴マップ７１０のうち、注目度の大きい画素を白色で、注目度の小さい画素を黒色で示している。

続いて、画像削減部１２１では、画像加工部３０４が動作し、画像データ４１０のうち、重要特徴マップ７１０において注目度が所定の閾値以下となる画素を無効化することで、削減後画像データ７２０を生成する。

続いて、画像削減部６００では、削減後画像データ７２０を前段部６０１に入力することで、前段部６０１を再度動作させ、前段部６０１内において最も後ろに位置する中間層（図７の例では第２層）から、特徴マップを抽出する。更に、画像削減部６００では、抽出した特徴マップを、削減後特徴マップとして、圧縮部１２３に通知する。

＜エッジデバイスによる圧縮処理の流れ＞
次に、エッジデバイス１２０による圧縮処理の流れについて説明する。図７は、エッジデバイスによる圧縮処理の流れを示す第２のフローチャートである。図５を用いて説明した第１のフローチャートとの相違点は、ステップＳ８０１、Ｓ８０２である。

ステップＳ８０１において、エッジデバイス１２０の画像削減部６００は、前段部６０１を動作させる。前段部６０１は、画像データが入力されることで、各層から特徴マップを抽出する。

ステップＳ８０２において、エッジデバイス１２０の重要箇所抽出部６１０は、前段部６０１の各層より抽出された各特徴マップを重み付け加算することで、重要特徴マップを生成する。

以上の説明から明らかなように、第２の実施形態に係る画像処理装置（エッジデバイス１２０）は、深層学習モデル１４０に画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出し、重要特徴マップを生成する。また、第２の実施形態に係る画像処理装置（エッジデバイス１２０）は、重要特徴マップに基づいて画像データを加工することで画像データの情報量を削減する。また、第２の実施形態に係る画像処理装置（エッジデバイス１２０）は、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する。更に、第２の実施形態に係る画像処理装置（エッジデバイス１２０）は、情報量を削減した削減後特徴マップを圧縮する。

この結果、第２の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。

［第３の実施形態］
上記第１の実施形態では、重要特徴マップに基づいて画像データを加工することで画像データの情報量を削減し、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する場合について説明した。

これに対して、第３の実施形態では、深層学習モデルの中間層より抽出される特徴マップの情報量を、重要特徴マップに基づいて直接削減する場合について説明する。以下、第３の実施形態について、上記第１の実施形態との相違点を中心に説明する。

＜画像削減部、重要箇所抽出部及び圧縮部の機能構成＞
はじめに、第３の実施形態に係る画像処理装置の一例であるエッジデバイス１２０の画像削減部、重要箇所抽出部及び圧縮部の機能構成の詳細について説明する。図９は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第３の図である。

図９に示すように、画像削減部９００は削減部の他の一例であり、前段部９０１、後段部３０２、誤差算出部３０３、特徴マップ加工部９０２を有する。

前段部９０１は、深層学習モデル１４０のうち、入力層から、特徴マップが抽出される中間層までの各層を有する。前段部９０１は画像データが入力されることで、中間層から特徴マップを抽出し、後段部３０２及び特徴マップ加工部９０２に通知する。

後段部３０２及び誤差算出部３０３は、上記第１の実施形態において、図３を用いて説明した後段部３０２及び誤差算出部３０３と同じであるため、ここでは説明を省略する。

特徴マップ加工部９０２は、重要箇所抽出部９１０より通知された重要特徴マップに基づいて特徴マップを加工することで特徴マップの情報量を削減し、削減後特徴マップを生成する。具体的には、特徴マップ加工部９０２は、重要箇所抽出部９１０より通知された重要特徴マップの各画素の影響度に基づいて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを生成する。

なお、特徴マップ加工部９０２による特徴マップの加工方法は任意である。例えば、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素の特徴マップにおける画素値をゼロにしてもよい（特定した画素を無効化してもよい）。あるいは、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素を対象に特徴マップに対してローパスフィルタをかけてもよい。

また、特徴マップ加工部９０２は、生成した削減後特徴マップを圧縮部１２３に通知する。

重要箇所抽出部９１０は算出部の他の一例であり、逆伝播された誤差を用いて重要特徴マップを生成する。上記第１の実施形態で説明したように、重要特徴マップは、画像データの各画素が処理結果にどの程度影響を与えたかの影響度を表している。重要箇所抽出部９１０は、生成した重要特徴マップを特徴マップ加工部９０２に通知する。

また、図９に示す圧縮部１２３は、図３に示す圧縮部１２３と同じであるため、ここでは説明を省略する。

＜画像削減部及び重要箇所抽出部の処理の具体例＞
次に、エッジデバイス１２０の画像削減部９００及び重要箇所抽出部９１０による処理の具体例について説明する。図９は、画像削減部及び重要箇所抽出部による処理の具体例を示す第３の図である。図１０に示すように、画像削減部９００では、画像データ４１０が入力されると、前段部３０１が動作し、特徴マップを抽出するとともに、後段部３０２が動作し、処理結果を出力する。

続いて、画像削減部９００では、誤差算出部３０３が動作し、処理結果と基準結果との誤差を算出した後、算出した誤差を逆伝播させる。

続いて、重要箇所抽出部９１０が動作し、逆伝播された誤差を用いて重要特徴マップ４２０を生成する。

続いて、画像削減部９００では、特徴マップ加工部９０２が動作し、前段部９０１より抽出された特徴マップについて、重要特徴マップ４２０において影響度が所定の閾値以下となる画素を無効化することで、削減後特徴マップを生成する。

＜エッジデバイスによる圧縮処理の流れ＞
次に、エッジデバイス１２０による圧縮処理の流れについて説明する。図１１は、エッジデバイスによる圧縮処理の流れを示す第３のフローチャートである。図５を用いて説明した第１のフローチャートとの相違点は、ステップＳ１１０１である。

ステップＳ１１０１において、エッジデバイス１２０の画像削減部９００は、特徴マップ加工部９０２を動作させる。特徴マップ加工部９０２は、重要特徴マップに基づいて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを生成する。

以上の説明から明らかなように、第３の実施形態に係る画像処理装置（エッジデバイス１２０）は、深層学習モデル１４０に画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出し、重要特徴マップを生成する。また、第３の実施形態に係る画像処理装置（エッジデバイス１２０）は、深層学習モデルの中間層より抽出される特徴マップを、重要特徴マップに基づいて加工することで、特徴マップの情報量を削減する。更に、第３の実施形態に係る画像処理装置（エッジデバイス１２０）は、情報量を削減した削減後特徴マップを圧縮する。

この結果、第３の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。

［第４の実施形態］
上記第２の実施形態では、重要特徴マップに基づいて画像データを加工することで画像データの情報量を削減し、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する場合について説明した。

これに対して、第４の実施形態では、深層学習モデルの中間層より抽出される特徴マップの情報量を重要特徴マップに基づいて直接削減する場合について説明する。以下、第４の実施形態について、上記第２の実施形態との相違点を中心に説明する。

＜画像削減部、重要箇所抽出部及び圧縮部の機能構成＞
はじめに、第４の実施形態に係る画像処理装置の一例であるエッジデバイス１２０の画像削減部、重要箇所抽出部及び圧縮部の機能構成の詳細について説明する。図１２は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第４の図である。

図１２に示すように、画像削減部１２００は削減部の他の一例であり、前段部６０１、特徴マップ加工部１２０１を有する。

前段部６０１は、上記第２の実施形態において図６を用いて説明した前段部６０１と同じであるため、ここでは説明を省略する。

特徴マップ加工部１２０１は、重要箇所抽出部１２１０より通知された重要特徴マップを用いて、特徴マップを加工することで特徴マップの情報量を削減し、削減後特徴マップを生成する。具体的には、特徴マップ加工部１２０１は、重要箇所抽出部１２１０より通知された重要特徴マップの各画素の注目度に応じて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを圧縮部１２３に通知する。

重要箇所抽出部１２１０は算出部の他の一例であり、前段部６０１より通知される各層の特徴マップを、重み付け加算することで、重要特徴マップを生成する。なお、上記第２の実施形態で説明したように、重要特徴マップは、前段部６０１の各層が画像データを処理する際、どの画素に注目したかの注目度を表している。重要箇所抽出部１２１０は、生成した重要特徴マップを特徴マップ加工部１２０１に通知する。

また、図１２に示す圧縮部１２３は、図３に示す圧縮部１２３と同じであるため、ここでは説明を省略する。

＜画像削減部及び重要箇所抽出部の処理の具体例＞
次に、エッジデバイス１２０の画像削減部１２００及び重要箇所抽出部１２１０による処理の具体例について説明する。図１３は、画像削減部及び重要箇所抽出部による処理の具体例を示す第４の図である。図１３に示すように、画像削減部１２００では、画像データ４１０が入力されると、前段部６０１が動作し、各層より特徴マップが抽出される。図１３の例は、前段部６０１が入力層、第１層、第２層を有し、第１層より特徴マップ１が抽出され、第２層より特徴マップ２が抽出された様子を示している。

続いて、重要箇所抽出部１２１０が動作し、前段部６０１から抽出された各特徴マップを重み付け加算することで、重要特徴マップ７１０を生成する。

続いて、画像削減部１２００では、特徴マップ加工部１２０１が動作する。特徴マップ加工部１２０１は、前段部６０１より抽出された特徴マップ（前段部６０１内において最も後ろに位置する中間層（図１３の例では、第２層）から抽出された特徴マップ）を取得する。また、特徴マップ加工部１２０１は、取得した特徴マップのうち、重要特徴マップ７１０において注目度が所定の閾値以下となる画素を無効化することで、削減後特徴マップを生成する。

＜エッジデバイスによる圧縮処理の流れ＞
次に、エッジデバイス１２０による圧縮処理の流れについて説明する。図１４は、エッジデバイスによる圧縮処理の流れを示す第４のフローチャートである。図８を用いて説明した第２のフローチャートとの相違点は、ステップＳ１４０１である。

ステップＳ１４０１において、エッジデバイス１２０の画像削減部１２００は、特徴マップ加工部１２０１を動作させる。特徴マップ加工部１２０１は、重要特徴マップに基づいて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを生成する。

以上の説明から明らかなように、第４の実施形態に係る画像処理装置（エッジデバイス１２０）は、深層学習モデル１４０に画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出し、重要特徴マップを生成する。また、第４の実施形態に係る画像処理装置（エッジデバイス１２０）は、深層学習モデルの中間層より抽出される特徴マップを、重要特徴マップに基づいて加工することで、特徴マップの情報量を削減する。更に、第４の実施形態に係る画像処理装置（エッジデバイス１２０）は、情報量を削減した削減後特徴マップを圧縮する。

この結果、第４の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。

［その他の実施形態］
上記第１及び第２の実施形態では、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される画像データとが同一の画像データであるとして説明した。しかしながら、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される画像データとは、異なるタイミングで撮影された画像データであってもよい。ただし、異なるタイミングで撮影された画像データの場合、両画像データの時間間隔に応じて重要特徴マップを変換し、変換後の重要特徴マップに基づいて画像データを加工するものとする。

同様に、上記第３及び第４の実施形態では、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される特徴マップが抽出された際の画像データとが同一の画像データであるとして説明した。しかしながら、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される特徴マップが抽出された際の画像データとは、異なるタイミングで撮影された画像データであってもよい。ただし、異なるタイミングで撮影された画像データの場合、両画像データの時間間隔に応じて重要特徴マップを変換し、変換後の重要特徴マップに基づいて特徴マップを加工するものとする。

また、上記第１乃至第４の実施形態では言及しなかったが、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される画像データとは、異なるタイミングで撮影されたものであってもよい。あるいは、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される特徴マップが抽出された際の画像データとは、異なるタイミングで撮影された画像データであってもよい。

また、上記第１乃至第４の実施形態において説明した画像削減部１２１、６００、９００、１２００内の各構成要素は、上記第１乃至第４の実施形態において例示した箇所に配置されていなくてもよい。同様に、上記第１乃至第４の実施形態において説明した重要箇所抽出部１２２、６１０、９１０、１２１０内の各構成要素は、上記第１乃至第４の実施形態において例示した箇所に配置されていなくてもよい。例えば、各構成要素はネットワークを介して接続された他の装置に配置されていてもよい。また、各構成要素は、複数の装置に配置されていてもよい。

なお、本開示の真意は、深層学習モデル１４０が画像解析処理する際に、
・対象となるオブジェクトを抽出するための各画素の重要度を、深層学習モデル１４０のいずれかの箇所の情報から抽出し、
・抽出した情報に基づき、画像データを含む深層学習モデル１４０の処理過程のいずれか（中間情報の情報量を削減する効果がある箇所）で情報量を削減すること、
にあり、その目的を満たす情報の抽出手法は、上記各実施形態で示した抽出手法以外の手法であってもよい。

また、情報の抽出は、上記各実施形態で例示したように、深層学習モデル１４０の前段部、後段部等の情報の抽出に必要な部分において行われてもよい。情報の抽出に必要な部分とは、上記各実施形態で例示した部分でもよいし、その一部でも、他の部分でもよい。つまり、上記情報の抽出手法の目的を満たしていればよい。

また、上記第１の実施形態で述べた拡張選択的逆誤差伝播を実施するにあたっては、深層学習モデル１４０の任意の箇所の誤差を用いてもよい。例えば、上記第１の実施形態において、拡張選択的逆誤差伝播により重要特徴マップを導出する際、後段部はなくてもよい。

また、上記各実施形態で示した圧縮部１２３は、画像削減部１２１より通知された削減後特徴マップに対して、量子化及び／または符号化処理を行うことで圧縮するが、単一の削減後特徴マップに対して量子化及び／または符号化処理を行うことで圧縮してもよい。あるいは、複数の削減後特徴マップの相関性を用いて量子化及び／または符号化処理を行うことで圧縮してもよい。複数の削減後特徴マップの相関性を用いる例としては、動画像などが挙げられる。

なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

１００：画像処理システム
１１０：撮像装置
１２０：エッジデバイス
１２１：画像削減部
１２２：重要箇所抽出部
１２３：圧縮部
１３０：サーバ装置
１３１：復号部
１３２：画像解析部
１４０：深層学習モデル
２０１：プロセッサ
２０２：メモリ
２０３：補助記憶装置
２０４：Ｉ／Ｆ装置
２０５：通信装置
２０６：ドライブ装置
２１０：操作装置
２１１：表示装置
２１２：記録媒体
３０１：前段部
３０２：後段部
３０３：誤差算出部
３０４：画像加工部
３１０：圧縮部
３１１：量子化部
３１２：符号化部
４１０：画像データ
４２０：重要特徴マップ
４３０：削減後画像データ
６００：画像削減部
６０１：前段部
６１０：重要箇所抽出部
７１０：重要特徴マップ
７２０：削減後画像データ
９００：画像削減部
９０１：前段部
９０２：特徴マップ加工部
９１０：重要箇所抽出部
１２００：画像削減部
１２０１：特徴マップ加工部
１２１０：重要箇所抽出部

Claims

画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出する算出部と、
前記入力層に入力される前の前記画像データの各画素のうち、前記影響度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成する加工部と、
生成された前記削減後画像データが前記深層学習モデルの前記入力層に入力され、中間層から抽出された中間情報を圧縮する圧縮部と
を有する画像処理装置。
画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出する算出部と、
前記画像データが前記深層学習モデルの入力層に入力され、中間層の所定の層から抽出された中間情報の各画素のうち、前記影響度が所定の閾値以下の前記中間情報の画素を加工する処理を行うことで、前記中間情報の情報量を削減する加工をした削減後中間情報を生成する削減部と、
生成された前記削減後中間情報を圧縮する圧縮部と
を有する画像処理装置。
画像データが深層学習モデルの入力層に入力された場合に、中間層の各層から抽出された中間情報それぞれに基づいて、前記各層が画像データの処理の際にどの画素に注目するかを示す注目度を、前記画像データの各画素について算出する算出部と、
前記入力層に入力される前の前記画像データの各画素のうち、前記注目度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成する加工部と、
生成された前記削減後画像データが前記深層学習モデルの前記入力層に入力され、前記中間層の所定の層から抽出された中間情報を圧縮する圧縮部と
を有する画像処理装置。
画像データが深層学習モデルの入力層に入力された場合に、中間層の各層から抽出された中間情報それぞれに基づいて、前記各層が画像データの処理の際にどの画素に注目するかを示す注目度を、前記画像データの各画素について算出する算出部と、
前記画像データが前記深層学習モデルの入力層に入力され、前記中間層の所定の層から抽出された中間情報の各画素のうち、前記注目度が所定の閾値以下の前記中間情報の画素を加工する処理を行うことで、前記中間情報の情報量を削減する加工をした削減後中間情報を生成する削減部と、
生成された前記削減後中間情報を圧縮する圧縮部と
を有する画像処理装置。
前記画素を加工する処理を行うことは、前記画素を無効化することである、請求項１乃至４のいずれか１項に記載の画像処理装置。
画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出し、
前記入力層に入力される前の前記画像データの各画素のうち、前記影響度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成し、
生成した前記削減後画像データが前記深層学習モデルの前記入力層に入力され、中間層から抽出された中間情報を圧縮する、
処理をコンピュータが実行する画像処理方法。
画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出し、
前記画像データが前記深層学習モデルの入力層に入力され、中間層の所定の層から抽出された中間情報の各画素のうち、前記影響度が所定の閾値以下の前記中間情報の画素を加工する処理を行うことで、前記中間情報の情報量を削減する加工をした削減後中間情報を生成し、
生成した前記削減後中間情報を圧縮する、
処理をコンピュータが実行する画像処理方法。
画像データが深層学習モデルの入力層に入力された場合に、中間層の各層から抽出された中間情報それぞれに基づいて、前記各層が画像データの処理の際にどの画素に注目するかを示す注目度を、前記画像データの各画素について算出し、
前記入力層に入力される前の前記画像データの各画素のうち、前記注目度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成し、
生成した前記削減後画像データが前記深層学習モデルの前記入力層に入力され、前記中間層の所定の層から抽出された中間情報を圧縮する、
処理をコンピュータが実行する画像処理方法。
画像データが深層学習モデルの入力層に入力された場合に、中間層の各層から抽出された中間情報それぞれに基づいて、前記各層が画像データの処理の際にどの画素に注目するかを示す注目度を、前記画像データの各画素について算出し、
前記画像データが前記深層学習モデルの入力層に入力され、前記中間層の所定の層から抽出された中間情報の各画素のうち、前記注目度が所定の閾値以下の前記中間情報の画素を加工する処理を行うことで、前記中間情報の情報量を削減する加工をした削減後中間情報を生成し、
生成した前記削減後中間情報を圧縮する、
処理をコンピュータが実行する画像処理方法。
画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出し、
前記入力層に入力される前の前記画像データの各画素のうち、前記影響度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成し、
生成した前記削減後画像データが前記深層学習モデルの前記入力層に入力され、中間層から抽出された中間情報を圧縮する、
処理をコンピュータに実行させるための画像処理プログラム。
画像データが深層学習モデルの入力層に入力され、出力層から出力された処理結果と基準結果とに基づく誤差が逆伝播されることで、前記画像データのうちの前記深層学習モデルによる処理結果に影響を与える、各画素の影響度を算出し、
前記画像データが前記深層学習モデルの入力層に入力され、中間層の所定の層から抽出された中間情報の各画素のうち、前記影響度が所定の閾値以下の前記中間情報の画素を加工する処理を行うことで、前記中間情報の情報量を削減する加工をした削減後中間情報を生成し、
生成した前記削減後中間情報を圧縮する、
処理をコンピュータに実行させるための画像処理プログラム。
画像データが深層学習モデルの入力層に入力された場合に、中間層の各層から抽出された中間情報それぞれに基づいて、前記各層が画像データの処理の際にどの画素に注目するかを示す注目度を、前記画像データの各画素について算出し、
前記入力層に入力される前の前記画像データの各画素のうち、前記注目度が所定の閾値以下である画素を加工する処理を行うことで、前記画像データの情報量を削減する加工をした削減後画像データを生成し、
生成した前記削減後画像データが前記深層学習モデルの前記入力層に入力され、前記中間層の所定の層から抽出された中間情報を圧縮する、
処理をコンピュータに実行させるための画像処理プログラム。
画像データが深層学習モデルの入力層に入力された場合に、中間層の各層から抽出された中間情報それぞれに基づいて、前記各層が画像データの処理の際にどの画素に注目するかを示す注目度を、前記画像データの各画素について算出し、
前記画像データが前記深層学習モデルの入力層に入力され、前記中間層の所定の層から抽出された中間情報の各画素のうち、前記注目度が所定の閾値以下の前記中間情報の画素を加工する処理を行うことで、前記中間情報の情報量を削減する加工をした削減後中間情報を生成し、
生成した前記削減後中間情報を圧縮する、
処理をコンピュータに実行させるための画像処理プログラム。