JP2022078735A

JP2022078735A - 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム

Info

Publication number: JP2022078735A
Application number: JP2020189618A
Authority: JP
Inventors: 旭穎雷; Xu Ying Lei; 雄一郎高良; Yuichiro Takara
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-11-13
Filing date: 2020-11-13
Publication date: 2022-05-25

Abstract

【課題】画像認識処理の処理効率を向上させる画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムを提供する。
【解決手段】学習部は、認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する。特徴量符号化部４０２は、学習処理済みの符号化器を用いて画像データの複数の特徴量を符号化する。Ｑ値決定部４０３は、要求されるデータ量を示す情報を基に量子化の精度を決定する。量子化部４０４は、決定された量子化の精度を基に複数の符号化特徴量に対して量子化を行う。
【選択図】図４

Description

本発明は、画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムに関する。

画像認識（Image recognition）は、静止画像や動画像等の画像データから顔や文字などの特徴を認識し、顔や文字を検出する、パターン認識技術の１つである。画像認識の分野において用いられるディープラーニングの代表的手法である、畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Networks）は、複数段の層を有するニューラルネットワークであり、当該分野において優れた認識精度を実現する。また、有する層が多層であるニューラルネットワークは、ＤＮＮ（Deep Neural Network）と呼ばれる。

さらに近年、自動車や工場などの実際に画像認識の対象となる画像が取得可能な場所に配置されたエッジ端末を用いて画像認識の結果を取得し、認識結果を用いて特定の処理を実行することで、タイムラグ無く適切な処理を行う技術が注目を集めている。

ただし、エッジデバイスに用いられる機器は、クラウドなどに配置されるサーバと比較して処理能力が低く複雑な処理に向いていないことが一般的である。一方で、エッジデバイスを用いた画像認識に用いられるＤＮＮは、層を増やすことで性能が向上するが、その分モデルのパラメータが増加するため、メモリ使用量が計算量も増加する。そのため、エッジデバイス単独で、ＤＮＮを用いた画像認識における学習や推論を行わせることは限界がある。

そこで、ＤＮＮの処理をエッジ端末とクラウドに配置されたサーバとに分散することが行われている。例えば、ＤＮＮに基づくＡＩ（Artificial Intelligence）アプリケーションを有効に連動させる方式として、ＤＮＮの一部をエッジ端末で処理し、残りをクラウドに配置されたサーバで処理させるＣＩ（Collaborative Intelligence）と呼ばれる技術がある。ＣＩでは、ＤＮＮの入力から中間までの処理をエッジ端末が行い、ＤＮＮの中間出力である深層特徴量がエッジ端末からクラウド側のサーバに対して伝送される。その後、クラウド側のサーバが、中間から出力までの処理を行う。ＣＩは、クラウド側のサーバで全てのＤＮＮの処理を行うアプローチと比較して、電力や低遅延性で優れた性能を示す。

ＣＩを用いる場合、エッジ端末からクラウド側のサーバへのデータの転送時間をなるべく短くすることが好ましい。また、エッジ端末とクラウド側のサーバとの間のネットワークの負荷もなるべく抑えることが求められる。ここで、画像認識に用いるデータは、一般の映像圧縮と異なり、入力画像の特徴量である。そのため、深層特徴量を圧縮して伝送して画像認識を行うことで、伝送するデータ量を削減できる。このような深層特徴量の圧縮技術として、ＶＣＭ（Video Coding for Machine）と呼ばれる技術がある。

一方、画像圧縮の分野において、ニューラルネットワークを使って画像データを圧縮する圧縮処理技術として、ＣＮＮベースのオートエンコーダ（ＡＥ：Auto Encoder）を用いた特徴量圧縮技術が知られている。オートエンコーダを用いることで、圧縮処理前の画像データと復号された画像データとの誤差を最小化しつつ、画像データのデータ量を削減することができる。

なお、ディープラーニングにおける特徴量に関する技術として、入力画像から抽出した特徴量の諧調数を削減し、機械学習によりネットワークを構築して前景領域推定及び境界補正を行う映像装置が提案されている。また、チャネルの除去やパラメータの最適化が行われた副層を含むニューラルネットワークで画像の特徴を抽出して出力する技術が提案されている。

特開２０１９－２０４３３３号公報米国特許出願公開第２０１９／０２９４９２８号明細書

Lucas Theis, Wenzhe Shi, Andrew Cunningham, and Ferenc Huszar. "Lossy image compression with compressive autoencoders" In ICLR 2017, 1 Mar 2017

しかしながら、従来のオートエンコーダを用いた符号化手法では、出力データ量、すなわち、出力されるビット量が固定である。そのため、出力サイズが異なる符号化を実現するには、出力サイズ毎にネットワークの構成変更やデータ量を制御するパラメータの変更を行って複数回の学習を行うことになる。これにより、学習フェーズにおける処理量が大きくなってしまうおそれがある。また、推論フェーズでは、特定の学習済みモデルを一度適用すると、処理の途中で出力するデータ量を変更することが困難である。すなわち、データ量と認識精度の制御が難しい。これらのことから、従来のオートエンコーダを用いた符号化手法では、エッジ端末からクラウド側のサーバへ符号化したデータを効率的に伝送することは難しく、画像認識システムの処理効率を向上させることは困難であった。

一つの側面では、画像認識処理の処理効率を向上させる画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムを提供することを目的とする。

本願の開示する画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムの一つの態様において、学習部は、認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する。符号化部は、前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化する。量子化精度決定部は、要求されるデータ量を示す情報を基に量子化の精度を決定する。量子化部は、前記精度決定部により決定された前記量子化の精度を基に前記符号化部による符号化で得られた複数の符号化特徴量に対して量子化を行う。

１つの側面では、本発明は、画像認識処理の処理効率を向上させることができる。

図１は、画像認識システムのシステム構成の一例を示す図である。図２は、画像処理装置のハードウェア構成の一例を示す図である。図３は、画像処理装置の学習部の機能構成の一例を示すブロック図である。図４は、圧縮及び認識フェーズにおける画像認識システムの機能構成の一例を示すブロック図である。図５は、特徴量符号化部による特徴量データの情報集中を説明するための図である。図６は、圧縮無しの場合の認識精度からの認識劣化とＱ値との関係の一例を示す図である。図７は、データ量とＱ値との関係の一例を示す図である。図８は、データ量の調整を伴う圧縮及び認識処理の概念図である。図９は、画像認識システムによる学習処理のフローチャートである。図１０は、第１の学習処理のフローチャートである。図１１は、第２の学習処理のフローチャートである。図１２は、画像認識システムによる圧縮及び認識処理のフローチャートである。図１３は、実施例２に係る特徴量の適応量子化を説明するための図である。図１４は、実施例３に係るデッドゾーン付の量子化処理を説明するための図である。

以下に、本願の開示する画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムが限定されるものではない。

＜画像認識システムのシステム構成＞
図１は、画像認識システムのシステム構成の一例を示す図である。本実施形態において画像認識システム１００が実行する処理は、学習フェーズと圧縮及び認識フェーズとに大別される。図１の紙面に向かって上段は、学習フェーズにおける画像認識システム１００のシステム構成を示し、下段は、圧縮及び認識フェーズにおける画像認識システム１００のシステム構成を示す。

図１の上段に示すように、学習フェーズにおける画像認識システム１００は、撮像装置１１０及び画像処理装置１２０を含む。撮像装置１１０は、所定のフレーム周期で撮影を行い、画像データを画像処理装置１２０に送信する。なお、画像データは、認識対象となるオブジェクトを含む。

画像処理装置１２０には、画像処理プログラムがインストールされており、学習フェーズにおいては、当該画像処理プログラムに含まれる学習プログラムが実行される。これにより、学習フェーズにおける画像処理装置１２０は、学習部１２１として機能する。この画像処理装置１２０により、エッジ端末の機能が実現できる。

学習部１２１は、画像データの認識処理に用いる特徴量データを画像データから抽出するための特徴量抽出モデル（ＣＮＮベースのモデル）を有する。また、学習部１２１は、抽出した特徴量データを用いて認識処理、例えばクラス分類処理を行う画像認識モデル（全結合ＮＮ（Neural Network）を有するＦＣ（Fully Connected）ベースのモデル）を有する。また、学習部１２１は、画像データの認識精度を維持しつつ、抽出した特徴量データのデータ量を削減するように、特徴量抽出モデル及び画像認識モデルの各モデルパラメータを更新して学習処理を実行する。

一方、図１の下段に示すように、圧縮及び認識フェーズにおける画像認識システム１００は、撮像装置１１０、画像処理装置１２０及び画像認識装置１３０を含む。画像処理装置１２０と画像認識装置１３０とは、ネットワーク１４０を介して通信可能に接続される。なお、圧縮及び認識フェーズにおける画像認識システム１００に含まれる各装置のうち、撮像装置１１０については、学習フェーズにおける撮像装置１１０と同様であり、ここでは説明を省略する。

画像処理装置１２０には、上述したように、画像処理プログラムがインストールされており、圧縮及び認識フェーズにおいては、当該画像処理プログラムに含まれる圧縮プログラムが実行される。これにより、圧縮及び認識フェーズにおける画像処理装置１２０は、圧縮部１２２として機能する。なお、圧縮部１２２には、学習済みの特徴量抽出モデルが含まれ、画像データが入力されることで、特徴量データを出力する。圧縮部１２２により出力される特徴量データは、画像データの認識精度を維持するための最小限の特徴量データである。

また、画像認識装置１３０には、認識プログラムがインストールされており、当該認識プログラムが実行されることで、画像認識装置１３０は、認識部１２３として機能する。なお、認識部１２３には、学習済みの画像認識モデルが含まれ、特徴量データが入力されることで認識処理を行い、認識結果を出力する。認識部１２３により出力される認識結果は、圧縮処理前の画像データに対して認識処理を行った場合の認識結果にほぼ等しい。つまり、認識部１２３によれば、圧縮処理前の画像データに対して認識処理を行った際の認識精度と同程度の認識精度を維持することができる。この画像認識装置１３０により、クラウド側のサーバの機能が実現できる。

＜画像処理装置のハードウェア構成＞
次に、画像処理装置１２０のハードウェア構成について説明する。図２は、画像処理装置のハードウェア構成の一例を示す図である。画像処理装置１２０は、プロセッサ２０１、メモリ２０２、補助記憶装置２０３、Ｉ／Ｆ（Interface）装置２０４、通信装置２０５、ドライブ装置２０６を有する。なお、画像処理装置１２０の各ハードウェアは、バス２０７を介して相互に接続される。

プロセッサ２０１は、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の各種演算デバイスを有する。プロセッサ２０１は、各種プログラム（例えば、画像処理プログラム等）をメモリ２０２上に読み出して実行する。

メモリ２０２は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等の主記憶デバイスを有する。プロセッサ２０１とメモリ２０２とは、いわゆるコンピュータを形成し、プロセッサ２０１が、メモリ２０２上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。

補助記憶装置２０３は、各種プログラムや、各種プログラムがプロセッサ２０１によって実行される際に用いられる各種データを格納する。

Ｉ／Ｆ装置２０４は、外部装置の一例である操作装置２１０、表示装置２２０と、画像処理装置１２０とを接続する接続デバイスである。Ｉ／Ｆ装置２０４は、画像処理装置１２０に対する操作を、操作装置２１０を介して受け付ける。また、Ｉ／Ｆ装置２０４は、画像処理装置１２０による処理の結果を出力し、表示装置２２０を介して表示する。

通信装置２０５は、他の装置と通信するための通信デバイスである。画像処理装置１２０の場合、通信装置２０５を介して他の装置である撮像装置１１０、画像認識装置１３０と通信する。

ドライブ装置２０６は記録媒体２３０をセットするためのデバイスである。ここでいう記録媒体２３０には、ＣＤ－ＲＯＭ、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体２３０には、ＲＯＭ、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。

なお、補助記憶装置２０３にインストールされる各種プログラムは、例えば、配布された記録媒体２３０がドライブ装置２０６にセットされ、該記録媒体２３０に記録された各種プログラムがドライブ装置２０６により読み出されることでインストールされる。あるいは、補助記憶装置２０３にインストールされる各種プログラムは、通信装置２０５を介してネットワークからダウンロードされることで、インストールされてもよい。

＜画像処理装置の学習部の機能構成＞
次に、画像処理装置１２０の学習部１２１の機能構成について説明する。図３は、画像処理装置の学習部の機能構成の一例を示すブロック図である。図３に示すように、学習部１２１は、入力部３１０、特徴量抽出部３２０、オートエンコーダ部３３０、第１の画像認識部３４０、第１の認識誤差算出部３５０、ノイズ加算部３６０、第２の画像認識部３７０、第２の認識誤差算出部３８０を有する。さらに、学習部１２１は、情報量算出部３９０及び最適化部４００を有する。

ここで、学習部１２１は、特徴量抽出部３２０、第１の画像認識部３４０及び第２の画像認識部３７０のモデルパラメータを更新する第１の学習と、オートエンコーダ部３３０の各部のモデルパラメータを更新する第２の学習とを分けて段階的に行う。以下の説明において、先に行われる第１の学習では、オートエンコーダ部３３０を通さずに、特徴量抽出部３２０と第１の画像認識部３４０とを直結して、特徴量抽出部３２０、第１の画像認識部３４０のモデルパラメータの更新が行われる。なお、第２の画像認識部３７０は、第１の画像認識部３４０と同様のものである。

ここで、既存の学習済みの特徴量抽出部３２０と第１の画像認識部３４０とを流用する際に、上述した特徴量抽出部３２０、第１の画像認識部３４０のモデルパラメータの更新の処理は不要になる。その場合、既存の学習済みの特徴量抽出部３２０及び第１の画像認識部３４０は、例えば、ＶＧＧ１６、ＶＧＧ１９などの、所定の画像データセットを用いて事前に学習された学習済みモデルの特徴量抽出部３２０及び第１の画像認識部３４０である。

そして、第２の学習で、第１の学習で学習済みの特徴量抽出部３２０、第１の画像認識部３４０及び第２の画像認識部３７０を用いて、オートエンコーダ部３３０のモデルパラメータの更新が行われる。

また、学習部１２１は、圧縮及び認識フェーズで説明するように、Ｑ（Quantizer）値の決定及び決定されたＱ値を用いた量子化を行う機能を有する。Ｑ値とは、量子化の精度を決める値である。Ｑ値が大きくなると、量子化処理を行う際に生じる元データに対する誤差が大きくなり、量子化の精度が低くなる。ただし、学習フェーズではＱ値＝１．０に固定して以下の処理を行う。以下に、学習部１２１の各部の機能の詳細について説明する。

入力部３１０は、画像データを撮像装置１１０から取得する。なお、学習フェーズにおいて、入力部３１０は、正解ラベルが対応付けられた画像データを取得する。そして、入力部３１０は、画像データを特徴量抽出部３２０へ出力する。また、入力部３１０は、正解ラベルを第１の認識誤差算出部３５０に通知する。

特徴量抽出部３２０は、ＣＮＮベースのモデルであり、例えば、畳み込み処理及びプーリング処理を行うことで入力部３１０から取得する画像データから特徴量データを抽出する。特徴量抽出部３２０における畳み込み処理の重み係数やバイアス値といったモデルパラメータは、最適化部４００により更新される。

オートエンコーダ部３３０は、符号化部３３１、第１の復号部３３２及び第２の復号部３３３を有する。オートエンコーダ部３３０は、圧縮及び認識フェーズにおいて、オートエンコーダとして画像処理装置１２０で行われる圧縮処理及び画像認識装置１３０とで行われる認識処理をまとめて行う。

符号化部３３１は、ＦＣベースのモデルであり、特徴量抽出部３２０により抽出された特徴量データを符号化し、符号化特徴量データを生成する。例えば、符号化部３３３１は、特徴量データに対して直交変換の役割を果たす符号化処理を施して次元圧縮を行う。次元圧縮された特徴量のエネルギーは、認識精度の維持にとって重要なチャンネルに集中して大きく値を持つ。符号化部３３１は、符号化特徴量データを第１の復号部３３２及びノイズ加算部３６０へ出力する。符号化部３３１のモデルパラメータは、第２の学習において最適化部４００により更新される。

第１の復号部３３２は、ＦＣベースのモデルであり、符号化部３３１により生成された符号化特徴量データを復号し特徴量データを生成する。第１の復号部３３２は、生成した特徴量データを第１の画像認識部３４０へ出力する。第１の復号部３３２のモデルパラメータは、第２の学習において最適化部４００により更新される。

第２の復号部３３３は、ＦＣベースのモデルであり、符号化部３３１により符号化され、後述するノイズ加算部３６０によりノイズが付加されたノイズ付き符号化特徴量データを復号してノイズ付きの符号化データを取得する。そして、第２の復号部３３３は、ノイズ付きの符号化データを復号してノイズ付き特徴量データを生成し、第２の画像認識部３７０へ出力する。第２の復号部３３３のモデルパラメータは、第２の学習において最適化部４００により更新される。

第１の画像認識部３４０は、例えば、ＦＣベースのモデルであり、第１の復号部３３２から取得した特徴量データを入力として、例えば正規化などにより認識処理を行う。第１の画像認識部３４０は、例えば、認識結果としてクラス＃１からクラス＃ｎまでのｎ個の各クラスの分類確率である分類データ群を取得する。そして、第１の画像認識部３４０は、認識結果を第１の認識誤差算出部３５０及び第２の認識誤差算出部３８０へ出力する。第１の画像認識部３４０のモデルパラメータは、第１の学習において最適化部４００により更新される。

第１の認識誤差算出部３５０は、第１の画像認識部３４０より出力された認識結果と、取得された画像データに対応付けられた正解ラベルとを比較することで、第１の認識誤差（Ｄ１）を求める。例えば、第１の認識誤差算出部３５０は、第１の画像認識部３４０より出力された認識結果と取得された画像データに対応付けられた正解ラベルとの二乗和誤差を第１の認識誤差（Ｄ１）として算出する。そして、第１の認識誤差算出部３５０は、求めた第１の認識誤差（Ｄ１）を最適化部４００へ出力する。

ノイズ加算部３６０は、オートエンコーダ部３３０の符号化部３３１により抽出された符号化特徴量データに、ノイズを付加し、ノイズ付き符号化特徴量データを生成する。ノイズ加算部３６０が付加するノイズは、無相関で且つ平均値がゼロのいわゆるホワイトノイズである。

第２の画像認識部３７０は、例えば、ＦＣベースのモデルであり、第２の復号部３３３から取得したノイズ付き特徴量データを入力として認識処理を行う。第２の画像認識部３７０は、例えば、認識結果としてクラス＃１からクラス＃ｎまでのｎ個の各クラスの分類確率である分類データ群を取得する。そして、第２の画像認識部３７０は、認識結果を第２の認識誤差算出部３８０へ出力する。第２の画像認識部３７０のモデルパラメータは、第１の学習において最適化部４００により更新される。

第２の認識誤差算出部３８０は、第２の画像認識部３７０より出力された認識結果と、第１の画像認識部３４０より出力された認識結果とを比較することで、第２の認識誤差（Ｄ２）を求める。例えば、第２の認識誤差算出部３８０は、第１の画像認識部３４０より出力された認識結果と、第２の画像認識部３７０より出力された認識結果との二乗和誤差を第２の認識誤差（Ｄ２）として算出する。そして、第２の認識誤差算出部３８０は、求めた第２の認識誤差（Ｄ２）を最適化部４００へ出力する。

ただし、第１の認識誤差算出部３５０及び第２の認識誤差算出部３８０による、第１の認識誤差（Ｄ１）及び第２の認識誤差（Ｄ２）の算出方法は二乗和誤差に限定されない。例えば、第１の認識誤差算出部３５０及び第２の認識誤差算出部３８０は、交差エントロピー算出部を配して、交差エントロピーを算出することで、第１の認識誤差（Ｄ１）及び第２の認識誤差（Ｄ２）を求めてもよい。

情報量算出部３９０は、符号化部３３１から取得した符号化特徴量データの確率分布から、確率分布の情報エントロピー（Ｒ）を算出する。例えば、情報量算出部３９０は、符号化特徴量データから特徴量データの確率分布を算出する。次に、情報量算出部３９０は、算出した特徴量データの確率分布の情報エントロピー（Ｒ）を算出する。情報エントロピーが大きい特徴量データは、分散が大きい特徴量データであり、認識処理において重要な特徴量データである。逆に、情報エントロピーが小さい特徴量データは、分散が小さい特徴量データであり、認識処理において重要でない特徴量データである。

最適化部４００は、第１の学習において、特徴量抽出部３２０と第１の画像認識部３４０を直結する場合、第１の認識誤差算出部３５０より出力された第１の認識誤差（Ｄ１）を最小化するように、特徴量抽出部３２０と第１の画像認識部３４０の各モデルパラメータを更新する。なお、第２の画像認識部３７０は第１の画像認識部３４０と同様のものである。

最適化部４００は、第２の学習において、第１の認識誤差算出部３５０より出力された第１の認識誤差（Ｄ１）と、第２の認識誤差算出部３８０より出力された第２の認識誤差（Ｄ２）と、情報量算出部３９０より出力された情報エントロピー（Ｒ）とに基づいてコストを算出する。そして、最適化部４００は、算出したコストを最小化するように、オートエンコーダ部３３０のモデルパラメータを更新しつつ学習処理を進める。

最適化部４００は、例えば、ＲＤ（Rate-Distortion）理論を適用することで、モデルパラメータを最適化する。具体的には、最適化部４００は、第１の認識誤差（Ｄ１）、第２の認識誤差（Ｄ２）、情報エントロピー（Ｒ）を基に、コスト（Ｌ）をＬ＝Ｒ＋λ１×Ｄ１＋λ２×Ｄ２として算出する。λ１、λ２は重み係数である。つまり、最適化部４００により算出されるコストＬは、特徴量データのデータ量に関する値である情報エントロピーと、第１の認識誤差と、第２の認識誤差とを重み付け加算した総和である。その後、最適化部４００は、コスト（Ｌ）を最小化するように、モデルパラメータを変更し、オートエンコーダ部３３０のモデルパラメータを更新する。

このように、コストを最小化するようにモデルパラメータを更新する学習処理を実行することで、第１の認識誤差（Ｄ１）が小さくなりゼロに近づき、認識結果が正解ラベルに近づく。また、第２の認識誤差（Ｄ２）を小さくしてゼロに近づかせることで、特徴量データをスケーリングすることができ、画像データを正しく認識するために重要な特徴量データを絞り込むことができる。また、情報エントロピー（Ｒ）を小さくすることで、特徴量データのデータ量を削減することができる。

ここで、本実施例では、画像処理装置１２０を用いて学習を行ったが、逆に画像認識装置１３０を用いて学習を行って学習結果を画像処理装置１２０と画像認識装置１３０とで共有してもよい。

＜圧縮及び認識フェーズにおける画像認識システムの具体例＞
次に、圧縮及び認識フェーズにおける画像認識システム１００のシステム構成の具体例について説明する。図４は、圧縮及び認識フェーズにおける画像認識システムの機能構成の一例を示すブロック図である。

圧縮及び認識フェーズにおいて、画像処理装置１２０の圧縮部１２２は、特徴量抽出部４０１、特徴量符号化部４０２、Ｑ値決定部４０３、量子化部４０４及びエントロピー符号化部４０５を有する。

特徴量抽出部４０１は、学習フェーズにおいて特徴量抽出部３２０として学習が行われた学習済みのＣＮＮベースの特徴量抽出モデルを有する。特徴量抽出部４０１は、畳み込み処理及びプーリング処理を行うことで撮像装置１１０から取得した画像データから特徴量データを抽出する。特徴量抽出部４０１は、抽出した特徴量データを特徴量符号化部４０２へ出力する。

特徴量符号化部４０２は、オートエンコーダにおけるエンコーダ側の処理を実行する。特徴量符号化部４０２は、学習フェーズにおいて符号化部３３１として学習が行われた学習済みの符号化器を有する。特徴量符号化部４０２は、特徴量抽出部４０１から取得した特徴量データを学習済みの符号化器を用いて符号化して次元削減を行う。なお、特徴量符号化部４０２により出力される符号化特徴量データは、画像データの認識精度が維持される最小限の特徴量データが符号化された符号化特徴量データである。この特徴量符号化部４０２が、「符号化部」の一例にあたる。

図５は、特徴量符号化部による特徴量データの情報集中を説明するための図である。グラフ５０１は、特徴量符号化部４０２による符号化前の特徴量データの分散値を降順で表示したグラフである。また、グラフ５０２は、特徴量符号化部４０２による符号化後の特徴量データの分散値を降順で表示したグラフである。

グラフ５０１に示されるように、符号化前の特徴量データは、全ての特徴量データに情報が分散されている。これに対して、符号化後の特徴量データは、グラフ５０２に示すように、領域５２１の特徴量に情報が集中され、領域５２２の特徴量はほぼ情報を有さない。すなわち、領域５２２の特徴量は、０にしても認識率に影響しない特徴量であり、領域５２１の特徴量に情報を集中させることで、特徴量符号化部４０２は、認識精度を維持しつつ特徴量データのデータ量を削減することができる。

Ｑ値決定部４０３は、符号化特徴量データの入力を特徴量符号化部４０２から受ける。さらに、Ｑ値決定部４０３は、Ｑ値の決定に用いるための要求されるデータ量を表すＱ値決定情報の入力を、図示しない操作者の端末装置から受ける。Ｑ値決定情報は、例えば、画像認識に用いるアプリケーションの認識精度やネットワーク１４０の帯域状況である。認識精度が高い場合、要求されるデータ量は多く、認識精度が低い場合、要求されるデータ量は少なくなる。また、使用可能な帯域が広い場合、使用可能限度として要求されるデータ量は多くなり、使用可能な帯域が狭い場合、使用可能限度として要求されるデータ量は少なくなる。

例えば、Ｑ値決定情報として認識精度を用いる場合のＱ値決定処理を説明する。Ｑ値決定部４０３は、取得した認識精度において高い認識精度が要求される場合、Ｑ値決定部４０３は低いＱ値を用いることを決定する。また、低い認識精度が要求される場合、Ｑ値決定部４０３は高いＱ値を用いることを決定する。

例えば、Ｑ値決定部４０３は、学習済みモデルを使用してＱ値と認識精度との関係を評価して、予めＱ値と認識精度の関係を表す情報を取得する。図６は、圧縮無しの場合の認識精度からの認識劣化とＱ値との関係の一例を示す図である。図６の縦軸は認識劣化を表し、横軸はＱ値を表す。

Ｑ値決定部４０３は、予め基準のＱ値の情報を有し、指定された認識精度と基準となる認識精度からの劣化値を求めて、その算出した劣化値に応じて基準のＱ値から値を増減させることで、指定された認識精度に対応するＱ値を決定する。基準のＱ値は、１．０などである。例えば、図６の認識精度とＱ値との関係を用いる場合で説明する。Ｑ値決定部４０３は、認識劣化を５％低減する場合であれば、Ｑ値を１．８から０．２小さくして１．６にする。

また、Ｑ値決定情報としてネットワーク１４０の帯域状況を用いる場合のＱ値決定処理について説明する。Ｑ値決定部４０３は、取得した帯域状況において広い帯域が使用可能な場合、Ｑ値決定部４０３は低いＱ値を用いることを決定する。また、狭い帯域が使用可能な場合、Ｑ値決定部４０３は高いＱ値を用いることを決定する。

例えば、Ｑ値決定部４０３は、学習済みモデルを使用してＱ値とデータ量との関係を評価して、予めＱ値とータ量の関係を表す情報を取得する。例えば、図７は、データ量とＱ値との関係の一例を示す図である。図７の縦軸はデータ量を表し、横軸はＱ値を表す。

Ｑ値決定部４０３は、予め基準のデータ量の情報を有し、指定されたデータ量と基準となるデータ量との差分値を求めて、その算出した差分値に応じて基準のＱ値から値を増減させることで、指定されたデータ量に対応するＱ値を決定する。例えば、図７のデータ量とＱ値との関係を用いる場合で説明する。Ｑ値決定部４０３は、データ量を５０％削減したい場合であれば、Ｑ値を１．８から０．７大きくして２．５にする。

Ｑ値決定部４０３は、決定したＱ値を量子化部４０４へ出力する。また、Ｑ値決定部４０３は、特徴量符号化部４０２から取得した符号化特徴量データを量子化部４０４へ出力する。Ｑ値決定部４０３が、「量子化精度決定部」の一例にあたる。また、Ｑ値が、「量子化の精度」の一例にあたる。

量子化部４０４は、Ｑ値決定部４０３により決定されたＱ値の情報及び符号化特徴量データを取得する。そして、量子化部４０４は、符号化特徴量データに対して次の数式（１）で表される量子化処理を行う。

ここで、ｙ_ｅｎｃは、量子化されたデータを表す。また、ｙは符号化特徴量を表す。また、ＱはＱ値を表す。

これにより、量子化部４０４は、符号化特徴量データを目標のデータ量に調整する。その後、量子化部４０４は、量子化した符号化特徴量データをエントロピー符号化部４０５へ出力する。

エントロピー符号化部４０５は、学習済みの確率モデルを有する。エントロピー符号化部４０５は、量子化された符号化特徴量データを量子化部４０４から取得する。そして、エントロピー符号化部４０５は、学習済みの確率モデルを用いて、量子化済みの符号化特徴量データのエントロピー符号化処理を実行する。

その後、画像処理装置１２０は、エントロピー符号化処理が施された符号化特徴量データをネットワーク１４０を介して画像認識装置１３０へ送信する。この際、画像処理装置１２０は、量子化の際に用いたＱ値を画像認識装置１３０に通知する。

次に、画像認識装置１３０について説明する。画像認識装置１３０は、サーバなどのコンピュータにより実現される。例えば、画像認識装置１３０は、以下の認識部１２３の機能を実現するプログラムを含む各種プログラムを記憶するハードディスクなどの記憶装置を有する。そして、画像認識装置１３０が有するプロセッサが記憶装置から各種プログラムを読み出してメモリに展開して実行することで、以下に説明する認識部１２３の機能を実現する。画像認識装置１３０の認識部１２３は、特徴量復号部４１１、画像認識部４１２、逆量子化部４１３及び逆エントロピー符号化部４１４を有する。

逆エントロピー符号化部４１４は、学習済みの確率モデルを有する。逆エントロピー符号化部４１４は、ネットワーク１４を介して画像処理装置１２０の圧縮部１２２から送信されたエントロピー符号化処理が施された符号化特徴量データを受信する。そして、逆エントロピー符号化部４１４は、学習済みの確率モデルを用いて量子化済みの符号化特徴量データの逆エントロピー符号化処理を行う。これにより、逆エントロピー符号化部４１４は、量子化された符号化特徴量データを生成する。その後、逆エントロピー符号化部４１４は、量子化済みの符号化特徴量データを逆量子化部４１３へ出力する。

逆量子化部４１３は、量子化済みの符号化特徴量データを逆エントロピー符号化部４１４から取得する。そして、逆量子化部４１３は、量子化済みの符号化特徴量データに対して次の数式（２）で表される逆量子化処理を行う。この際、逆量子化部４１３は、画像処理装置１２０における圧縮部１２２のＱ値決定部４０３により決定されたＱ値を用いて逆量子化を行う。ｙ_ｄｅｃは、逆量子化した符号化特徴量データを表す。

これにより、逆量子化部４１３は、逆量子化処理により符号化特徴量データを生成する。そして、逆量子化部４１３は、符号化特徴量データを特徴量復号部４１１へ出力する。

特徴量復号部４１１は、オートエンコーダのデコーダ側の処理を行う。特徴量復号部４１１は、学習フェーズにおいて第１の復号部３３２として学習が行われた学習済みの復号器を有する。特徴量復号部４１１は、逆量子化部４１３から取得した符号化特徴量データに対して復号を施して特徴量データを生成する。その後、特徴量復号部４１１は、生成した特徴量データを画像認識部４１２へ出力する。この特徴量復号部４１１が、「復号部」の一例にあたる。そして、特徴量復号部４１１により復号されたことで得られる特徴量データが、「認識用特徴量」の一例にあたる。

画像認識部４１２は、学習フェーズにおいて第１の画像認識部３４０として学習が行われた学習済みの認識モデルを有する。画像認識部４１２は、特徴量復号部４１１から取得した特徴量データを入力として学習済みの認識モデルを用いて認識処理を行い、認識結果を生成する。その後、画像認識部４１２は、認識結果を利用者の端末などに出力する。

ここで、図８を参照して、本実施例に係る画像認識システム１００におけるデータ量の調整を伴う圧縮及び認識処理について説明する。図８は、データ量の調整を伴う圧縮及び認識処理の概念図である。特徴量Ａ、特徴量Ｂ及び特徴量Ｃは、それぞれ異なる特徴量データを表す。例えば、特徴量Ａについて高い認識精度が要求され、特徴量Ｂについては中位の認識精度が要求され、特徴量Ｃについては低い認識精度が要求された場合で説明する。

特徴量Ａの場合、量子化部４０４は、特徴量符号化部４０２から特徴量Ａを符号化した符号化特徴量データを取得する。Ｑ値決定部４０３は、高い認識精度が指定されているので、低いＱ値の使用を決定する。そこで、量子化部４０４は、指定された低Ｑ値で量子化を行う。この場合、データ量が多い符号化特徴量データが、ネットワーク１４０を介して画像処理装置１２０から画像認識装置１３０へ伝送される。そして、逆量子化部４１３は、符号化特徴量データを低Ｑ値で逆量子化する。その後、特徴量復号部４１１は、符号化特徴量データを復号して認識用の特徴量Ａを取得する。この場合、特徴量Ａを用いた認識処理は、高い認識精度を有する。

特徴量Ｂの場合、量子化部４０４は、特徴量符号化部４０２から特徴量Ｂを符号化した符号化特徴量データを取得する。Ｑ値決定部４０３は、中位の認識精度が指定されているので、中位のＱ値の使用を決定する。そこで、量子化部４０４は、指定された中Ｑ値で量子化を行う。この場合、データ量が中位の符号化特徴量データが、ネットワーク１４０を介して画像処理装置１２０から画像認識装置１３０へ伝送される。そして、逆量子化部４１３は、符号化特徴量データを中Ｑ値で逆量子化する。その後、特徴量復号部４１１は、符号化特徴量データを復号して認識用の特徴量Ｂを取得する。この場合、特徴量Ｂを用いた認識処理は、中位の認識精度を有する。

特徴量Ｃの場合、量子化部４０４は、特徴量符号化部４０２から特徴量Ｃを符号化した符号化特徴量データを取得する。Ｑ値決定部４０３は、低い認識精度が指定されているので、高いＱ値の使用を決定する。そこで、量子化部４０４は、指定された高Ｑ値で量子化を行う。この場合、データ量が低い符号化特徴量データが、ネットワーク１４０を介して画像処理装置１２０から画像認識装置１３０へ伝送される。そして、逆量子化部４１３は、符号化特徴量データを高Ｑ値で逆量子化する。その後、特徴量復号部４１１は、符号化特徴量データを復号して認識用の特徴量Ｃを取得する。この場合、特徴量Ｃを用いた認識処理は、低い認識精度を有する。

次に、図９を参照して、画像認識システム１００による学習処理の流れについて説明する。図９は、画像認識システムによる学習処理のフローチャートである。

画像処理装置１２０における学習部１２１が有する入力部３１０は、正解ラベルが対応付けられた画像データを取得する（ステップＳ１）。

学習部１２１は、正解ラベルが対応付けられた画像データを用いて、特徴量抽出部３２０と第１の画像認識部３４０についての学習処理である第１の学習処理を実行する（ステップＳ２）。これにより、学習部１２１は、学習済みの特徴量抽出部３２０及び、学習済みの第１の画像認識部３４０及び学習済みの第２の画像認識部３７０を生成する。なお、特徴量抽出部３２０、第１の画像認識部３４０及び第２の画像認識部３７０についての学習処理である第１の学習処理は、後で詳細に説明する。

学習部１２１は、学習済みの特徴量抽出部３２０を用いて抽出された特徴量データを取得する（ステップＳ３）。

学習部１２１は、取得した特徴量データを用いて、オートエンコーダ部３３０についての学習処理である第２の学習処理を実行する（ステップＳ４）。これにより、学習部１２１は、学習済みのオートエンコーダ部３３０を生成する。なお、オートエンコーダ部３３０についての学習処理である第２の学習処理は、後で詳細に説明する。

次に、図１０を参照して、第１の学習処理の流れについて説明する。図１０は、第１学習処理のフローチャートである。図１０のフローチャートで示した処理は、図９のステップＳ２で実行される処理の一例にあたる。

特徴量抽出部３２０は、画像データから特徴量データを抽出する（ステップＳ１０１）。

第１の画像認識部３４０は、抽出された特徴量データを入力として認識処理を行い、認識結果を出力する。また、第１の認識誤差算出部３５０は、第１の画像認識部３４０より出力された認識結果と、画像データに対応付けられた正解ラベルとを比較することで、第１の認識誤差（Ｄ１）を算出して出力する（ステップＳ１０２）。

最適化部４００は、第１の認識誤差（Ｄ１）を最小化するように、特徴量抽出部３２０と第１の画像認識部３４０のモデルパラメータを更新する、学習処理を実行する（ステップＳ１０３）。

最適化部４００は、第１の学習が収束したか否かを判定する（ステップＳ１０４）。収束していない場合（ステップＳ１０４：否定）、処理は、ステップＳ１０１に戻る。

一方、第１の学習が収束した場合（ステップＳ１０４：肯定）、学習部１２１は、更新された第１の画像認識部３４０のモデルパラメータを、第１の画像認識部３４０及び第２の画像認識部３７０にそれぞれセットし（ステップＳ１０５）、特徴量抽出部３２０、第１の画像認識部３４０及び第２の画像認識部３８０の学習処理を終了する。これにより、学習済みの特徴量抽出部３２０及び、学習済みの第１の画像認識部３４０及び学習済みの第２の画像認識部３８０が生成される。このように、本実施形態では、学習済みの第１の画像認識部３４０と学習済みの第２の画像認識部３８０とは、同じものである。

次に、図１１を参照して、第２の学習処理の流れについて説明する。図１１は、第２学習処理のフローチャートである。図１１のフローチャートで示した処理は、図９のステップＳ４で実行される処理の一例にあたる。

オートエンコーダ部３３０の符号化部３３１は、学習済みの特徴量抽出部３２０により抽出された特徴量データを入力として符号化処理を行い、符号化特徴量データを出力する（ステップＳ１１１）。

オートエンコーダ部３３０の第１の復号部３３２は、符号化部３３１より出力された符号化特徴量データを復号する（ステップＳ１１２）。

学習済みの第１の画像認識部３４０は、オートエンコーダ部３３０の第１の復号部３３２により復号された特徴量データを入力として認識処理を行い、認識結果を出力する。次に、第１の認識誤差算出部３５０は、学習済みの第１の画像認識部３４０から出力された認識結果と、画像データに対応付けられた正解ラベルとを比較することで、第１の認識誤差（Ｄ１）を算出する（ステップＳ１１３）。

ノイズ加算部３６０は、オートエンコーダ部３３０の符号化部３３１から出力された符号化特徴量データにノイズを付加する（ステップＳ１１４）。そして、ノイズ加算部３６０は、ノイズ付き符号化特徴量データをオートエンコーダ部３３０の第２の復号部３３３へ出力する。

オートエンコーダ部３３０の第２の復号部３３３は、ノイズ加算部３６０から出力されたノイズ付き符号化特徴量データを復号する（ステップＳ１１５）。

学習済みの第２の画像認識部３７０は、オートエンコーダ部３３０の第２の復号部３３３により復号されたノイズ付き特徴量データを入力として認識処理を行い、認識結果を出力する。次に、第２の認識誤差算出部３８０は、学習済みの第２の画像認識部３７０から出力された認識結果と、学習済みの第１の画像認識部３４０から出力された認識結果とを比較することで、第２の認識誤差（Ｄ２）を算出する（ステップＳ１１６）。

情報量算出部３９０は、オートエンコーダ部３３０の符号化部３３１から出力された符号化特徴量データに基づいて、確率分布の情報エントロピー（Ｒ）を算出する（ステップＳ１１７）。

最適化部４００は、Ｌ＝Ｒ＋λ１×Ｄ１＋λ２×Ｄ２という数式に対して、情報エントロピーＲ）、第１の認識誤差（Ｄ１）、第２の認識誤差（Ｄ２）を用いてコスト（Ｌ）を算出する（ステップＳ１１８）。

次に、最適化部４００は、算出したコスト（Ｌ）を最小化するように、オートエンコーダ部３３０のモデルパラメータを更新する、学習処理を実行する（ステップＳ１１９）。

次に、最適化部４００は、第２の学習が収束したか否かを判定する（ステップＳ１２０）。第２の学習が収束していない場合（ステップＳ１２０：否定）、学習部１２１は、ステップＳ１１１へ戻る。

これに対して、第２の学習が収束した場合（ステップＳ１２０：肯定）、最適化部４００は、学習済みのモデルパラメータをオートエンコーダ部３３０にセットする。その後、学習部１２１は、第２の学習処理を終了する。具体的には、最適化部４００は、更新された符号化部３３１のモデルパラメータを符号化部３３１に、更新された第１の復号部３３２のモデルパラメータを第１の復号部３３２にそれぞれセットする。これにより、学習済みの符号化部３３１及び学習済みの第１の復号部３３２が生成される。

次に、図１２を参照して、画像認識システム１００による圧縮及び認識処理の流れを説明する。図１２は、画像認識システムによる圧縮及び認識処理のフローチャートである。

特徴量抽出部４０１は、入力画像を撮像装置１１０から取得する（ステップＳ２０１）。

次に、特徴量抽出部４０１は、入力画像の特徴量を抽出する（ステップＳ２０２）。そして、特徴量抽出部４０１は、特徴量データを特徴量符号化部４０２へ出力する。

特徴量符号化部４０２は、特徴量抽出部４０１から取得した特徴量データを学習済みの符号化器を用いて符号化する（ステップＳ２０３）。次に、特徴量符号化部４０２は、符号化特徴量データをＱ値決定部４０３へ出力する。

Ｑ値決定部４０３は、認識精度やネットワーク１４０の帯域状況などの指定されたＱ値決定情報からＱ値を決定する（ステップＳ２０４）。次に、Ｑ値決定部４０３は、決定したＱ値及び符号化特徴量データを量子化部４０４へ出力する。

量子化部４０４は、Ｑ値決定部４０３により決定されたＱ値を用いて符号化特徴量データの量子化処理を実行する（ステップＳ２０５）。次に、量子化部４０４は、量子化済みの符号化特徴量データをエントロピー符号化部４０５へ出力する。

エントロピー符号化部４０５は、学習済みの確率モデルを用いて、量子化部４０４から取得した量子化済み符号化特徴量データのエントロピー符号化処理を実行する（ステップＳ２０６）。

その後、画像処理装置１２０は、エントロピー符号化処理が施された量子化済み符号化特徴量データを画像認識装置１３０へネットワーク１４０を介して伝送する（ステップＳ２０７）。

逆エントロピー符号化部４１４は、学習済みの確率モデルを用いて、画像処理装置１２０から伝送されたエントロピー符号化処理が施された量子化済み符号化特徴量データに対して逆エントロピー符号化処理を実行する（ステップＳ２０８）。そして、逆エントロピー符号化部４１４は、量子化済み符号化特徴量データを逆量子化部４１３へ出力する。

逆量子化部４１３は、画像処理装置１２０のＱ値決定部４０３で決定されたＱ値を用いて量子化済みの符号化特徴量データに対して逆量子化処理を実行する（ステップＳ２０９）。そして、逆量子化部４１３は、符号化特徴量データを特徴量復号部４１１へ出力する。

特徴量復号部４１１は、逆量子化部４１３から取得した符号化特徴量データの復号を実行し、特徴量データを生成する（ステップＳ２１０）。そして、特徴量復号部４１１は、特徴量データを画像認識部４１２へ出力する。

画像認識部４１２は、特徴量復号部４１１により復号された特徴量データを用いて認識処理を行い、入力画像の分類を実行する（ステップＳ２１１）。

次に、画像認識部４１２は、分類結果を出力する（ステップＳ２１２）。その後、画像認識システム１００は、圧縮及び認識処理を終了する。

以上に説明したように、本実施例に係る画像認識システムは、学習フェーズにおいて、オートエンコーダで圧縮した際の認識精度と圧縮なしの際の認識精度との誤差とをゼロに近づけて１個のモデルを学習する。そして、画像認識システムは、圧縮フェーズにおいて、学習した１個のモデルを用いて特徴量の抽出及び符号化を行うとともに指定された認識精度やネットワーク１４０の帯域状況に応じたＱ値を使用して量子化を行う。その後、画像認識システムは、認識フェーズにおいて、量子化時のＱ値及び学習した１つのモデルを用いて特徴量を取得して認識処理を実行する。

これにより、１つの学習済みモデルで、入力された特徴量データに対して任意の出力サイズの符号化処理を実現することができる。したがって、少ない学習で、運用状態に応じた適切な圧縮性能を容易に達成することができ、画像認識システムの処理効率が向上し、利便性を向上させることができる。

例えば、学習時に指定された認識精度やネットワーク１４０の帯域状況に応じた異なる出力データ量のモデルを複数学習し、それぞれのモデルを用いて圧縮及び認識処理を行う技術との比較について説明する。この技術の場合、複数のモデルを生成するためモデル学習に膨大な時間がかかるとともに、圧縮及び認識フェーズにおいても指定された認識精度やネットワーク１４０の帯域状況に応じてモデルを異ならせる手間が発生する。これに対して、本実施例に係る画像認識システムは、１回のモデルを用いるため、学習の時間を短縮でき、且つ圧縮及び認識フェーズの手間も削減できる。さらに、本実施例に係る画像認識システムは、推論フェーズでＱ値の変更によってデータ量の制御が行え、このＱ値制御により複数の学習モデルを使用する技術と同等の圧縮性能が実現可能である。また、本実施例に係る画像認識システムは、特徴量のデータ量を削減しつつ認識精度を維持することが可能である。

次に、実施例２に係る画像認識システムについて説明する。本実施例に係る画像認識システムは、特徴量の適応量子化を行うことが実施例１と異なる。本実施例に係る画像認識システムも、図３及び図４のブロック図で表される。以下の説明では、実施例１と同様の各部の機能については説明を省略する。

Ｑ値決定部４０３は、符号化特徴量データを特徴量符号化部４０２から取得するとともに、認識精度やネットワーク１４０の帯域状況といったＱ値決定情報の入力を受ける。ここで、実施例１では次元削減後の特徴量に対して全て同じＱ値を用いた量子化が行われたが、本実施例に係るＱ値決定部４０３は、量子化部４０４に特徴量の適応量子化を実行させる。具体的には、Ｑ値決定部４０３は、認識精度への影響が大きい特徴量のＱ値を小さく設定し、認識精度への影響が小さい特徴量のＱ値を大きく設定して量子化を実行する。

図１３は、実施例２に係る特徴量の適応量子化を説明するための図である。図１３のグラフ６０１は情報量と特徴量との関係を表すグラフであり、縦軸で情報量を表し、横軸で特徴量を表す。例えば、グラフ６０１の領域６１１にあたる特徴量は、分散が大きく情報を多く有するため、認識精度への影響が大きい特徴量である。これに対して、領域６１２にあたる特徴量は、分散が小さく含まれる情報が少ないため、認識精度への影響が小さい特徴量である。そこで、量子化メトリックス６０２に示すように、Ｑ値決定部４０３は、領域６１１にあたる分散の大きい特徴量についてはＱ値を小さく設定し、領域６１２にあたる分散の小さい特徴量についてはＱ値を大きく設定する。量子化メトリックス６０２におけるインデックスは、特徴量を表すインデックスである。

そして、Ｑ値決定部４０３は、各特徴量に設定したＱ値の情報を量子化部４０４へ通知する。例えば、Ｑ値決定部４０３は、量子化メトリックス６０２を量子化部４０４へ送信する。

量子化部４０４は、特徴量毎のＱ値の情報をＱ値決定部４０３から取得する。そして、量子化部４０４は、特徴量毎に指定されたＱ値を用いて符号化特徴量データの適応量子化を実行する。

この場合、画像認識装置１３０における認識部１２３の逆量子化部４１３は、Ｑ値決定部４０３により設定された各特徴量のＱ値を用いて逆量子化を実行する。

以上に説明したように、本実施例に係る画像認識システムは、特徴量に対して適応量子化を実行する。これにより、認識精度を維持しつつ更なるデータ量の削減を実現することが可能となる。

次に、実施例３に係る画像認識システムについて説明する。本実施例に係る画像認識システムは、デッドゾーン付の量子化処理を特徴量に対して行うことが実施例１と異なる。本実施例に係る画像認識システムも、図３及び図４のブロック図で表される。以下の説明では、実施例１と同様の各部の機能については説明を省略する。図１４は、実施例３に係るデッドゾーン付の量子化処理を説明するための図である。

量子化部４０４は、符号化特徴量データとともに決定されたＱ値の情報をＱ値決定部４０３から取得する。そして、量子化部４０４は、図１４の量子化処理７００に示すように、ゼロに丸め込む範囲を広くするためのオフセットを設定する。ゼロに丸める範囲とは、量子化後の値が０となる端数処理の範囲にあたる。そして、量子化部４０４は、次の数式（３）を用いてデッドゾーン付の量子化処理を実行する。すなわち、量子化部４０４は、０に丸める範囲を他の値となる範囲よりも大きく設定して量子化処理を実行する。

この場合、画像認識装置１３０における認識部１２３の逆量子化部４１３は、次の数式（４）に対してＱ値決定部４０３により設定されたＱ値を用いて逆量子化を実行して、集約された数の特徴量を取得する。

以上に説明したように、本実施例に係る画像認識システムは、符号化特徴量データに対してデッドゾーン付の量子化処理を実行する。これにより、特徴量におけるゼロに丸められる範囲を広く設けることができ、ゼロ近くの小さな雑音を除去することができる。したがって、認識精度を維持しつつ更なるデータ量の削減を実現することが可能となる。

また、以上の各実施例では、画像識別を例に説明したが、各実施例に係る画像認識システムによる学習処理、並びに、圧縮及び認識処理は、物体検出やセグメンテーションなどの画像解析の作業に用いることも可能である。

１００画像認識システム
１２０画像処理装置
１２１学習部
１２２圧縮部
１２３認識部
１３０画像認識装置
１４０ネットワーク
３１０入力部
３２０特徴量抽出部
３３０オートエンコーダ部
３３１符号化部
３３２第１の復号部
３３３第２の復号部
３４０第１の画像認識部
３５０第１の認識誤差算出部
３６０ノイズ加算部
３７０第２の画像認識部
３８０第２の認識誤差算出部
３９０情報量算出部
４００最適化部
４０１特徴量抽出部
４０２特徴量符号化部
４０３Ｑ値決定部
４０４量子化部
４０５エントロピー符号化部
４１１特徴量復号部
４１２画像認識部
４１３逆量子化部
４１４逆エントロピー符号化部

Claims

認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する学習部と、
前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化する符号化部と、
要求されるデータ量を示す情報を基に量子化の精度を決定する量子化精度決定部と、
前記精度決定部により決定された前記量子化の精度を基に前記符号化部による符号化で得られた複数の符号化特徴量に対して量子化を行う量子化部と
を備えたことを特徴とする画像処理装置。
前記学習処理により得られた学習済みの特徴量の確率モデルを用いて、前記量子化された複数の前記符号化特徴量のエントロピー符号化処理を行うエントロピー符号化部をさらに備えたことを特徴とする請求項１に記載の画像処理装置。
前記量子化精度決定部は、前記要求されるデータ量が多い場合、量子化の精度を高くし、前記要求されるデータが少ない場合、量子化の精度を低くすることを特徴とする請求項１又は２に記載の画像処理装置。
前記量子化部は、同じ前記量子化の精度を用いて各前記符号化特徴量のそれぞれを量子化することを特徴とする請求項１～３のいずれか一つに記載の画像処理装置。
前記量子化部は、複数の前記符号化特徴量のうち分散値が大きい前記符号化特徴量は前記量子化の精度を高くし、分散値が小さい前記符号化特徴量は前記量子化の精度を低くして適応量子化を実行することを特徴とする請求項１～３のいずれか一つに記載の画像処理装置。
前記量子化部は、前記量子化された前記符号化特徴量の値が０となる端数処理の範囲を広くして前記量子化を行うことを特徴とする請求項１～３のいずれか一つに記載の画像処理装置。
前記学習部は、量子化の精度を固定して学習を行うことを特徴とする請求項１～６のいずれか一つに記載の画像処理装置。
前記学習部は、
学習用画像データの特徴量を入力することで第１の画像認識部より出力される認識結果と、正解データとの誤差である第１の認識誤差を算出する第１の認識誤差算出部と、
前記学習用画像データの特徴量にノイズを付加したノイズ付加後の特徴量を入力することで第２の画像認識部より出力される認識結果と、前記第１の画像認識部より出力される認識結果との誤差である第２の認識誤差を算出する第２の認識誤差算出部と、
前記特徴量のデータ量に関する値と、前記第１の認識誤差及び前記第２の認識誤差とを重み付け加算した総和を最小化するように、モデルパラメータを更新する学習処理を実行する実行部と
を有することを特徴とする請求項１～７のいずれか一つに記載の画像処理装置。
認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行し、
前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化し、
要求されるデータ量を示す情報を基に量子化の精度を決定し、
決定した前記量子化の精度を基に前記符号化で得られた複数の符号化特徴量に対して量子化を行う
処理をコンピュータに実行させることを特徴とする画像処理プログラム。
認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化し、要求されるデータ量を示す情報を基に決定された量子化の精度を基に前記符号化で得られた複数の符号化特徴量に対して量子化を行うことで得られた前記量子化された複数の前記符号化特徴量に対して、前記量子化の精度を基に逆量子化を行う逆量子化部と、
前記逆量子化部による前記逆量子化で得られた複数の前記符号化特徴量を、前記学習処理により前記モデルパラメータが更新された前記復号器を用いて復号して複数の認識用特徴量を取得する復号部と、
複数の前記認識用特徴量を用いて前記画像データの画像認識を実行する画像認識部と
を備えたことを特徴とする画像認識装置。
認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化し、要求されるデータ量を示す情報を基に決定された量子化の精度を基に前記符号化で得られた複数の符号化特徴量に対して量子化を行うことで得られた前記量子化された複数の前記符号化特徴量に対して、前記量子化の精度を基に逆量子化を行い、
前記逆量子化で得られた複数の前記符号化特徴量を、前記学習処理により前記モデルパラメータが更新された前記復号器を用いて復号して複数の認識用特徴量を取得し、
複数の前記認識用特徴量を用いて前記画像データの画像認識を実行する
処理をコンピュータに実行させることを特徴とする画像認識プログラム。
ネットワークで相互に接続される画像処理装置及び画像認識装置を有する画像認識システムであって、
前記画像処理装置は、
認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する学習部と、
前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化する符号化部と、
要求されるデータ量を示す情報を基に量子化の精度を決定する量子化精度決定部と、
前記精度決定部により決定された前記量子化の精度を基に前記符号化部による符号化で得られた複数の符号化特徴量に対して量子化を行う量子化部とを備え、
前記画像認識装置は、
前記ネットワークを介して取得した前記量子化された複数の前記符号化特徴量に対して、前記量子化の精度を基に逆量子化を行う逆量子化部と、
前記逆量子化部による前記逆量子化で得られた複数の前記符号化特徴量を、前記学習処理により前記モデルパラメータが更新された前記復号器を用いて復号して複数の認識用特徴量を取得する復号部と、
複数の前記認識用特徴量を用いて前記画像データの画像認識を時刻する画像認識部とを備えた
ことを特徴とする画像認識システム。