JP2022078735A - 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム - Google Patents

画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム Download PDF

Info

Publication number
JP2022078735A
JP2022078735A JP2020189618A JP2020189618A JP2022078735A JP 2022078735 A JP2022078735 A JP 2022078735A JP 2020189618 A JP2020189618 A JP 2020189618A JP 2020189618 A JP2020189618 A JP 2020189618A JP 2022078735 A JP2022078735 A JP 2022078735A
Authority
JP
Japan
Prior art keywords
unit
recognition
quantization
image
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2020189618A
Other languages
English (en)
Inventor
旭穎 雷
Xu Ying Lei
雄一郎 高良
Yuichiro Takara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2020189618A priority Critical patent/JP2022078735A/ja
Publication of JP2022078735A publication Critical patent/JP2022078735A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)

Abstract

Figure 2022078735000001
【課題】画像認識処理の処理効率を向上させる画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムを提供する。
【解決手段】学習部は、認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する。特徴量符号化部402は、学習処理済みの符号化器を用いて画像データの複数の特徴量を符号化する。Q値決定部403は、要求されるデータ量を示す情報を基に量子化の精度を決定する。量子化部404は、決定された量子化の精度を基に複数の符号化特徴量に対して量子化を行う。
【選択図】図4

Description

本発明は、画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムに関する。
画像認識(Image recognition)は、静止画像や動画像等の画像データから顔や文字などの特徴を認識し、顔や文字を検出する、パターン認識技術の1つである。画像認識の分野において用いられるディープラーニングの代表的手法である、畳み込みニューラルネットワーク(CNN:Convolutional Neural Networks)は、複数段の層を有するニューラルネットワークであり、当該分野において優れた認識精度を実現する。また、有する層が多層であるニューラルネットワークは、DNN(Deep Neural Network)と呼ばれる。
さらに近年、自動車や工場などの実際に画像認識の対象となる画像が取得可能な場所に配置されたエッジ端末を用いて画像認識の結果を取得し、認識結果を用いて特定の処理を実行することで、タイムラグ無く適切な処理を行う技術が注目を集めている。
ただし、エッジデバイスに用いられる機器は、クラウドなどに配置されるサーバと比較して処理能力が低く複雑な処理に向いていないことが一般的である。一方で、エッジデバイスを用いた画像認識に用いられるDNNは、層を増やすことで性能が向上するが、その分モデルのパラメータが増加するため、メモリ使用量が計算量も増加する。そのため、エッジデバイス単独で、DNNを用いた画像認識における学習や推論を行わせることは限界がある。
そこで、DNNの処理をエッジ端末とクラウドに配置されたサーバとに分散することが行われている。例えば、DNNに基づくAI(Artificial Intelligence)アプリケーションを有効に連動させる方式として、DNNの一部をエッジ端末で処理し、残りをクラウドに配置されたサーバで処理させるCI(Collaborative Intelligence)と呼ばれる技術がある。CIでは、DNNの入力から中間までの処理をエッジ端末が行い、DNNの中間出力である深層特徴量がエッジ端末からクラウド側のサーバに対して伝送される。その後、クラウド側のサーバが、中間から出力までの処理を行う。CIは、クラウド側のサーバで全てのDNNの処理を行うアプローチと比較して、電力や低遅延性で優れた性能を示す。
CIを用いる場合、エッジ端末からクラウド側のサーバへのデータの転送時間をなるべく短くすることが好ましい。また、エッジ端末とクラウド側のサーバとの間のネットワークの負荷もなるべく抑えることが求められる。ここで、画像認識に用いるデータは、一般の映像圧縮と異なり、入力画像の特徴量である。そのため、深層特徴量を圧縮して伝送して画像認識を行うことで、伝送するデータ量を削減できる。このような深層特徴量の圧縮技術として、VCM(Video Coding for Machine)と呼ばれる技術がある。
一方、画像圧縮の分野において、ニューラルネットワークを使って画像データを圧縮する圧縮処理技術として、CNNベースのオートエンコーダ(AE:Auto Encoder)を用いた特徴量圧縮技術が知られている。オートエンコーダを用いることで、圧縮処理前の画像データと復号された画像データとの誤差を最小化しつつ、画像データのデータ量を削減することができる。
なお、ディープラーニングにおける特徴量に関する技術として、入力画像から抽出した特徴量の諧調数を削減し、機械学習によりネットワークを構築して前景領域推定及び境界補正を行う映像装置が提案されている。また、チャネルの除去やパラメータの最適化が行われた副層を含むニューラルネットワークで画像の特徴を抽出して出力する技術が提案されている。
特開2019-204333号公報 米国特許出願公開第2019/0294928号明細書
Lucas Theis, Wenzhe Shi, Andrew Cunningham, and Ferenc Huszar. "Lossy image compression with compressive autoencoders" In ICLR 2017, 1 Mar 2017
しかしながら、従来のオートエンコーダを用いた符号化手法では、出力データ量、すなわち、出力されるビット量が固定である。そのため、出力サイズが異なる符号化を実現するには、出力サイズ毎にネットワークの構成変更やデータ量を制御するパラメータの変更を行って複数回の学習を行うことになる。これにより、学習フェーズにおける処理量が大きくなってしまうおそれがある。また、推論フェーズでは、特定の学習済みモデルを一度適用すると、処理の途中で出力するデータ量を変更することが困難である。すなわち、データ量と認識精度の制御が難しい。これらのことから、従来のオートエンコーダを用いた符号化手法では、エッジ端末からクラウド側のサーバへ符号化したデータを効率的に伝送することは難しく、画像認識システムの処理効率を向上させることは困難であった。
一つの側面では、画像認識処理の処理効率を向上させる画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムを提供することを目的とする。
本願の開示する画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムの一つの態様において、学習部は、認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する。符号化部は、前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化する。量子化精度決定部は、要求されるデータ量を示す情報を基に量子化の精度を決定する。量子化部は、前記精度決定部により決定された前記量子化の精度を基に前記符号化部による符号化で得られた複数の符号化特徴量に対して量子化を行う。
1つの側面では、本発明は、画像認識処理の処理効率を向上させることができる。
図1は、画像認識システムのシステム構成の一例を示す図である。 図2は、画像処理装置のハードウェア構成の一例を示す図である。 図3は、画像処理装置の学習部の機能構成の一例を示すブロック図である。 図4は、圧縮及び認識フェーズにおける画像認識システムの機能構成の一例を示すブロック図である。 図5は、特徴量符号化部による特徴量データの情報集中を説明するための図である。 図6は、圧縮無しの場合の認識精度からの認識劣化とQ値との関係の一例を示す図である。 図7は、データ量とQ値との関係の一例を示す図である。 図8は、データ量の調整を伴う圧縮及び認識処理の概念図である。 図9は、画像認識システムによる学習処理のフローチャートである。 図10は、第1の学習処理のフローチャートである。 図11は、第2の学習処理のフローチャートである。 図12は、画像認識システムによる圧縮及び認識処理のフローチャートである。 図13は、実施例2に係る特徴量の適応量子化を説明するための図である。 図14は、実施例3に係るデッドゾーン付の量子化処理を説明するための図である。
以下に、本願の開示する画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システムが限定されるものではない。
<画像認識システムのシステム構成>
図1は、画像認識システムのシステム構成の一例を示す図である。本実施形態において画像認識システム100が実行する処理は、学習フェーズと圧縮及び認識フェーズとに大別される。図1の紙面に向かって上段は、学習フェーズにおける画像認識システム100のシステム構成を示し、下段は、圧縮及び認識フェーズにおける画像認識システム100のシステム構成を示す。
図1の上段に示すように、学習フェーズにおける画像認識システム100は、撮像装置110及び画像処理装置120を含む。撮像装置110は、所定のフレーム周期で撮影を行い、画像データを画像処理装置120に送信する。なお、画像データは、認識対象となるオブジェクトを含む。
画像処理装置120には、画像処理プログラムがインストールされており、学習フェーズにおいては、当該画像処理プログラムに含まれる学習プログラムが実行される。これにより、学習フェーズにおける画像処理装置120は、学習部121として機能する。この画像処理装置120により、エッジ端末の機能が実現できる。
学習部121は、画像データの認識処理に用いる特徴量データを画像データから抽出するための特徴量抽出モデル(CNNベースのモデル)を有する。また、学習部121は、抽出した特徴量データを用いて認識処理、例えばクラス分類処理を行う画像認識モデル(全結合NN(Neural Network)を有するFC(Fully Connected)ベースのモデル)を有する。また、学習部121は、画像データの認識精度を維持しつつ、抽出した特徴量データのデータ量を削減するように、特徴量抽出モデル及び画像認識モデルの各モデルパラメータを更新して学習処理を実行する。
一方、図1の下段に示すように、圧縮及び認識フェーズにおける画像認識システム100は、撮像装置110、画像処理装置120及び画像認識装置130を含む。画像処理装置120と画像認識装置130とは、ネットワーク140を介して通信可能に接続される。なお、圧縮及び認識フェーズにおける画像認識システム100に含まれる各装置のうち、撮像装置110については、学習フェーズにおける撮像装置110と同様であり、ここでは説明を省略する。
画像処理装置120には、上述したように、画像処理プログラムがインストールされており、圧縮及び認識フェーズにおいては、当該画像処理プログラムに含まれる圧縮プログラムが実行される。これにより、圧縮及び認識フェーズにおける画像処理装置120は、圧縮部122として機能する。なお、圧縮部122には、学習済みの特徴量抽出モデルが含まれ、画像データが入力されることで、特徴量データを出力する。圧縮部122により出力される特徴量データは、画像データの認識精度を維持するための最小限の特徴量データである。
また、画像認識装置130には、認識プログラムがインストールされており、当該認識プログラムが実行されることで、画像認識装置130は、認識部123として機能する。なお、認識部123には、学習済みの画像認識モデルが含まれ、特徴量データが入力されることで認識処理を行い、認識結果を出力する。認識部123により出力される認識結果は、圧縮処理前の画像データに対して認識処理を行った場合の認識結果にほぼ等しい。つまり、認識部123によれば、圧縮処理前の画像データに対して認識処理を行った際の認識精度と同程度の認識精度を維持することができる。この画像認識装置130により、クラウド側のサーバの機能が実現できる。
<画像処理装置のハードウェア構成>
次に、画像処理装置120のハードウェア構成について説明する。図2は、画像処理装置のハードウェア構成の一例を示す図である。画像処理装置120は、プロセッサ201、メモリ202、補助記憶装置203、I/F(Interface)装置204、通信装置205、ドライブ装置206を有する。なお、画像処理装置120の各ハードウェアは、バス207を介して相互に接続される。
プロセッサ201は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の各種演算デバイスを有する。プロセッサ201は、各種プログラム(例えば、画像処理プログラム等)をメモリ202上に読み出して実行する。
メモリ202は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ201とメモリ202とは、いわゆるコンピュータを形成し、プロセッサ201が、メモリ202上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
補助記憶装置203は、各種プログラムや、各種プログラムがプロセッサ201によって実行される際に用いられる各種データを格納する。
I/F装置204は、外部装置の一例である操作装置210、表示装置220と、画像処理装置120とを接続する接続デバイスである。I/F装置204は、画像処理装置120に対する操作を、操作装置210を介して受け付ける。また、I/F装置204は、画像処理装置120による処理の結果を出力し、表示装置220を介して表示する。
通信装置205は、他の装置と通信するための通信デバイスである。画像処理装置120の場合、通信装置205を介して他の装置である撮像装置110、画像認識装置130と通信する。
ドライブ装置206は記録媒体230をセットするためのデバイスである。ここでいう記録媒体230には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体230には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
なお、補助記憶装置203にインストールされる各種プログラムは、例えば、配布された記録媒体230がドライブ装置206にセットされ、該記録媒体230に記録された各種プログラムがドライブ装置206により読み出されることでインストールされる。あるいは、補助記憶装置203にインストールされる各種プログラムは、通信装置205を介してネットワークからダウンロードされることで、インストールされてもよい。
<画像処理装置の学習部の機能構成>
次に、画像処理装置120の学習部121の機能構成について説明する。図3は、画像処理装置の学習部の機能構成の一例を示すブロック図である。図3に示すように、学習部121は、入力部310、特徴量抽出部320、オートエンコーダ部330、第1の画像認識部340、第1の認識誤差算出部350、ノイズ加算部360、第2の画像認識部370、第2の認識誤差算出部380を有する。さらに、学習部121は、情報量算出部390及び最適化部400を有する。
ここで、学習部121は、特徴量抽出部320、第1の画像認識部340及び第2の画像認識部370のモデルパラメータを更新する第1の学習と、オートエンコーダ部330の各部のモデルパラメータを更新する第2の学習とを分けて段階的に行う。以下の説明において、先に行われる第1の学習では、オートエンコーダ部330を通さずに、特徴量抽出部320と第1の画像認識部340とを直結して、特徴量抽出部320、第1の画像認識部340のモデルパラメータの更新が行われる。なお、第2の画像認識部370は、第1の画像認識部340と同様のものである。
ここで、既存の学習済みの特徴量抽出部320と第1の画像認識部340とを流用する際に、上述した特徴量抽出部320、第1の画像認識部340のモデルパラメータの更新の処理は不要になる。その場合、既存の学習済みの特徴量抽出部320及び第1の画像認識部340は、例えば、VGG16、VGG19などの、所定の画像データセットを用いて事前に学習された学習済みモデルの特徴量抽出部320及び第1の画像認識部340である。
そして、第2の学習で、第1の学習で学習済みの特徴量抽出部320、第1の画像認識部340及び第2の画像認識部370を用いて、オートエンコーダ部330のモデルパラメータの更新が行われる。
また、学習部121は、圧縮及び認識フェーズで説明するように、Q(Quantizer)値の決定及び決定されたQ値を用いた量子化を行う機能を有する。Q値とは、量子化の精度を決める値である。Q値が大きくなると、量子化処理を行う際に生じる元データに対する誤差が大きくなり、量子化の精度が低くなる。ただし、学習フェーズではQ値=1.0に固定して以下の処理を行う。以下に、学習部121の各部の機能の詳細について説明する。
入力部310は、画像データを撮像装置110から取得する。なお、学習フェーズにおいて、入力部310は、正解ラベルが対応付けられた画像データを取得する。そして、入力部310は、画像データを特徴量抽出部320へ出力する。また、入力部310は、正解ラベルを第1の認識誤差算出部350に通知する。
特徴量抽出部320は、CNNベースのモデルであり、例えば、畳み込み処理及びプーリング処理を行うことで入力部310から取得する画像データから特徴量データを抽出する。特徴量抽出部320における畳み込み処理の重み係数やバイアス値といったモデルパラメータは、最適化部400により更新される。
オートエンコーダ部330は、符号化部331、第1の復号部332及び第2の復号部333を有する。オートエンコーダ部330は、圧縮及び認識フェーズにおいて、オートエンコーダとして画像処理装置120で行われる圧縮処理及び画像認識装置130とで行われる認識処理をまとめて行う。
符号化部331は、FCベースのモデルであり、特徴量抽出部320により抽出された特徴量データを符号化し、符号化特徴量データを生成する。例えば、符号化部3331は、特徴量データに対して直交変換の役割を果たす符号化処理を施して次元圧縮を行う。次元圧縮された特徴量のエネルギーは、認識精度の維持にとって重要なチャンネルに集中して大きく値を持つ。符号化部331は、符号化特徴量データを第1の復号部332及びノイズ加算部360へ出力する。符号化部331のモデルパラメータは、第2の学習において最適化部400により更新される。
第1の復号部332は、FCベースのモデルであり、符号化部331により生成された符号化特徴量データを復号し特徴量データを生成する。第1の復号部332は、生成した特徴量データを第1の画像認識部340へ出力する。第1の復号部332のモデルパラメータは、第2の学習において最適化部400により更新される。
第2の復号部333は、FCベースのモデルであり、符号化部331により符号化され、後述するノイズ加算部360によりノイズが付加されたノイズ付き符号化特徴量データを復号してノイズ付きの符号化データを取得する。そして、第2の復号部333は、ノイズ付きの符号化データを復号してノイズ付き特徴量データを生成し、第2の画像認識部370へ出力する。第2の復号部333のモデルパラメータは、第2の学習において最適化部400により更新される。
第1の画像認識部340は、例えば、FCベースのモデルであり、第1の復号部332から取得した特徴量データを入力として、例えば正規化などにより認識処理を行う。第1の画像認識部340は、例えば、認識結果としてクラス#1からクラス#nまでのn個の各クラスの分類確率である分類データ群を取得する。そして、第1の画像認識部340は、認識結果を第1の認識誤差算出部350及び第2の認識誤差算出部380へ出力する。第1の画像認識部340のモデルパラメータは、第1の学習において最適化部400により更新される。
第1の認識誤差算出部350は、第1の画像認識部340より出力された認識結果と、取得された画像データに対応付けられた正解ラベルとを比較することで、第1の認識誤差(D1)を求める。例えば、第1の認識誤差算出部350は、第1の画像認識部340より出力された認識結果と取得された画像データに対応付けられた正解ラベルとの二乗和誤差を第1の認識誤差(D1)として算出する。そして、第1の認識誤差算出部350は、求めた第1の認識誤差(D1)を最適化部400へ出力する。
ノイズ加算部360は、オートエンコーダ部330の符号化部331により抽出された符号化特徴量データに、ノイズを付加し、ノイズ付き符号化特徴量データを生成する。ノイズ加算部360が付加するノイズは、無相関で且つ平均値がゼロのいわゆるホワイトノイズである。
第2の画像認識部370は、例えば、FCベースのモデルであり、第2の復号部333から取得したノイズ付き特徴量データを入力として認識処理を行う。第2の画像認識部370は、例えば、認識結果としてクラス#1からクラス#nまでのn個の各クラスの分類確率である分類データ群を取得する。そして、第2の画像認識部370は、認識結果を第2の認識誤差算出部380へ出力する。第2の画像認識部370のモデルパラメータは、第1の学習において最適化部400により更新される。
第2の認識誤差算出部380は、第2の画像認識部370より出力された認識結果と、第1の画像認識部340より出力された認識結果とを比較することで、第2の認識誤差(D2)を求める。例えば、第2の認識誤差算出部380は、第1の画像認識部340より出力された認識結果と、第2の画像認識部370より出力された認識結果との二乗和誤差を第2の認識誤差(D2)として算出する。そして、第2の認識誤差算出部380は、求めた第2の認識誤差(D2)を最適化部400へ出力する。
ただし、第1の認識誤差算出部350及び第2の認識誤差算出部380による、第1の認識誤差(D1)及び第2の認識誤差(D2)の算出方法は二乗和誤差に限定されない。例えば、第1の認識誤差算出部350及び第2の認識誤差算出部380は、交差エントロピー算出部を配して、交差エントロピーを算出することで、第1の認識誤差(D1)及び第2の認識誤差(D2)を求めてもよい。
情報量算出部390は、符号化部331から取得した符号化特徴量データの確率分布から、確率分布の情報エントロピー(R)を算出する。例えば、情報量算出部390は、符号化特徴量データから特徴量データの確率分布を算出する。次に、情報量算出部390は、算出した特徴量データの確率分布の情報エントロピー(R)を算出する。情報エントロピーが大きい特徴量データは、分散が大きい特徴量データであり、認識処理において重要な特徴量データである。逆に、情報エントロピーが小さい特徴量データは、分散が小さい特徴量データであり、認識処理において重要でない特徴量データである。
最適化部400は、第1の学習において、特徴量抽出部320と第1の画像認識部340を直結する場合、第1の認識誤差算出部350より出力された第1の認識誤差(D1)を最小化するように、特徴量抽出部320と第1の画像認識部340の各モデルパラメータを更新する。なお、第2の画像認識部370は第1の画像認識部340と同様のものである。
最適化部400は、第2の学習において、第1の認識誤差算出部350より出力された第1の認識誤差(D1)と、第2の認識誤差算出部380より出力された第2の認識誤差(D2)と、情報量算出部390より出力された情報エントロピー(R)とに基づいてコストを算出する。そして、最適化部400は、算出したコストを最小化するように、オートエンコーダ部330のモデルパラメータを更新しつつ学習処理を進める。
最適化部400は、例えば、RD(Rate-Distortion)理論を適用することで、モデルパラメータを最適化する。具体的には、最適化部400は、第1の認識誤差(D1)、第2の認識誤差(D2)、情報エントロピー(R)を基に、コスト(L)をL=R+λ1×D1+λ2×D2として算出する。λ1、λ2は重み係数である。つまり、最適化部400により算出されるコストLは、特徴量データのデータ量に関する値である情報エントロピーと、第1の認識誤差と、第2の認識誤差とを重み付け加算した総和である。その後、最適化部400は、コスト(L)を最小化するように、モデルパラメータを変更し、オートエンコーダ部330のモデルパラメータを更新する。
このように、コストを最小化するようにモデルパラメータを更新する学習処理を実行することで、第1の認識誤差(D1)が小さくなりゼロに近づき、認識結果が正解ラベルに近づく。また、第2の認識誤差(D2)を小さくしてゼロに近づかせることで、特徴量データをスケーリングすることができ、画像データを正しく認識するために重要な特徴量データを絞り込むことができる。また、情報エントロピー(R)を小さくすることで、特徴量データのデータ量を削減することができる。
ここで、本実施例では、画像処理装置120を用いて学習を行ったが、逆に画像認識装置130を用いて学習を行って学習結果を画像処理装置120と画像認識装置130とで共有してもよい。
<圧縮及び認識フェーズにおける画像認識システムの具体例>
次に、圧縮及び認識フェーズにおける画像認識システム100のシステム構成の具体例について説明する。図4は、圧縮及び認識フェーズにおける画像認識システムの機能構成の一例を示すブロック図である。
圧縮及び認識フェーズにおいて、画像処理装置120の圧縮部122は、特徴量抽出部401、特徴量符号化部402、Q値決定部403、量子化部404及びエントロピー符号化部405を有する。
特徴量抽出部401は、学習フェーズにおいて特徴量抽出部320として学習が行われた学習済みのCNNベースの特徴量抽出モデルを有する。特徴量抽出部401は、畳み込み処理及びプーリング処理を行うことで撮像装置110から取得した画像データから特徴量データを抽出する。特徴量抽出部401は、抽出した特徴量データを特徴量符号化部402へ出力する。
特徴量符号化部402は、オートエンコーダにおけるエンコーダ側の処理を実行する。特徴量符号化部402は、学習フェーズにおいて符号化部331として学習が行われた学習済みの符号化器を有する。特徴量符号化部402は、特徴量抽出部401から取得した特徴量データを学習済みの符号化器を用いて符号化して次元削減を行う。なお、特徴量符号化部402により出力される符号化特徴量データは、画像データの認識精度が維持される最小限の特徴量データが符号化された符号化特徴量データである。この特徴量符号化部402が、「符号化部」の一例にあたる。
図5は、特徴量符号化部による特徴量データの情報集中を説明するための図である。グラフ501は、特徴量符号化部402による符号化前の特徴量データの分散値を降順で表示したグラフである。また、グラフ502は、特徴量符号化部402による符号化後の特徴量データの分散値を降順で表示したグラフである。
グラフ501に示されるように、符号化前の特徴量データは、全ての特徴量データに情報が分散されている。これに対して、符号化後の特徴量データは、グラフ502に示すように、領域521の特徴量に情報が集中され、領域522の特徴量はほぼ情報を有さない。すなわち、領域522の特徴量は、0にしても認識率に影響しない特徴量であり、領域521の特徴量に情報を集中させることで、特徴量符号化部402は、認識精度を維持しつつ特徴量データのデータ量を削減することができる。
Q値決定部403は、符号化特徴量データの入力を特徴量符号化部402から受ける。さらに、Q値決定部403は、Q値の決定に用いるための要求されるデータ量を表すQ値決定情報の入力を、図示しない操作者の端末装置から受ける。Q値決定情報は、例えば、画像認識に用いるアプリケーションの認識精度やネットワーク140の帯域状況である。認識精度が高い場合、要求されるデータ量は多く、認識精度が低い場合、要求されるデータ量は少なくなる。また、使用可能な帯域が広い場合、使用可能限度として要求されるデータ量は多くなり、使用可能な帯域が狭い場合、使用可能限度として要求されるデータ量は少なくなる。
例えば、Q値決定情報として認識精度を用いる場合のQ値決定処理を説明する。Q値決定部403は、取得した認識精度において高い認識精度が要求される場合、Q値決定部403は低いQ値を用いることを決定する。また、低い認識精度が要求される場合、Q値決定部403は高いQ値を用いることを決定する。
例えば、Q値決定部403は、学習済みモデルを使用してQ値と認識精度との関係を評価して、予めQ値と認識精度の関係を表す情報を取得する。図6は、圧縮無しの場合の認識精度からの認識劣化とQ値との関係の一例を示す図である。図6の縦軸は認識劣化を表し、横軸はQ値を表す。
Q値決定部403は、予め基準のQ値の情報を有し、指定された認識精度と基準となる認識精度からの劣化値を求めて、その算出した劣化値に応じて基準のQ値から値を増減させることで、指定された認識精度に対応するQ値を決定する。基準のQ値は、1.0などである。例えば、図6の認識精度とQ値との関係を用いる場合で説明する。Q値決定部403は、認識劣化を5%低減する場合であれば、Q値を1.8から0.2小さくして1.6にする。
また、Q値決定情報としてネットワーク140の帯域状況を用いる場合のQ値決定処理について説明する。Q値決定部403は、取得した帯域状況において広い帯域が使用可能な場合、Q値決定部403は低いQ値を用いることを決定する。また、狭い帯域が使用可能な場合、Q値決定部403は高いQ値を用いることを決定する。
例えば、Q値決定部403は、学習済みモデルを使用してQ値とデータ量との関係を評価して、予めQ値とータ量の関係を表す情報を取得する。例えば、図7は、データ量とQ値との関係の一例を示す図である。図7の縦軸はデータ量を表し、横軸はQ値を表す。
Q値決定部403は、予め基準のデータ量の情報を有し、指定されたデータ量と基準となるデータ量との差分値を求めて、その算出した差分値に応じて基準のQ値から値を増減させることで、指定されたデータ量に対応するQ値を決定する。例えば、図7のデータ量とQ値との関係を用いる場合で説明する。Q値決定部403は、データ量を50%削減したい場合であれば、Q値を1.8から0.7大きくして2.5にする。
Q値決定部403は、決定したQ値を量子化部404へ出力する。また、Q値決定部403は、特徴量符号化部402から取得した符号化特徴量データを量子化部404へ出力する。Q値決定部403が、「量子化精度決定部」の一例にあたる。また、Q値が、「量子化の精度」の一例にあたる。
量子化部404は、Q値決定部403により決定されたQ値の情報及び符号化特徴量データを取得する。そして、量子化部404は、符号化特徴量データに対して次の数式(1)で表される量子化処理を行う。
Figure 2022078735000002
ここで、yencは、量子化されたデータを表す。また、yは符号化特徴量を表す。また、QはQ値を表す。
これにより、量子化部404は、符号化特徴量データを目標のデータ量に調整する。その後、量子化部404は、量子化した符号化特徴量データをエントロピー符号化部405へ出力する。
エントロピー符号化部405は、学習済みの確率モデルを有する。エントロピー符号化部405は、量子化された符号化特徴量データを量子化部404から取得する。そして、エントロピー符号化部405は、学習済みの確率モデルを用いて、量子化済みの符号化特徴量データのエントロピー符号化処理を実行する。
その後、画像処理装置120は、エントロピー符号化処理が施された符号化特徴量データをネットワーク140を介して画像認識装置130へ送信する。この際、画像処理装置120は、量子化の際に用いたQ値を画像認識装置130に通知する。
次に、画像認識装置130について説明する。画像認識装置130は、サーバなどのコンピュータにより実現される。例えば、画像認識装置130は、以下の認識部123の機能を実現するプログラムを含む各種プログラムを記憶するハードディスクなどの記憶装置を有する。そして、画像認識装置130が有するプロセッサが記憶装置から各種プログラムを読み出してメモリに展開して実行することで、以下に説明する認識部123の機能を実現する。画像認識装置130の認識部123は、特徴量復号部411、画像認識部412、逆量子化部413及び逆エントロピー符号化部414を有する。
逆エントロピー符号化部414は、学習済みの確率モデルを有する。逆エントロピー符号化部414は、ネットワーク14を介して画像処理装置120の圧縮部122から送信されたエントロピー符号化処理が施された符号化特徴量データを受信する。そして、逆エントロピー符号化部414は、学習済みの確率モデルを用いて量子化済みの符号化特徴量データの逆エントロピー符号化処理を行う。これにより、逆エントロピー符号化部414は、量子化された符号化特徴量データを生成する。その後、逆エントロピー符号化部414は、量子化済みの符号化特徴量データを逆量子化部413へ出力する。
逆量子化部413は、量子化済みの符号化特徴量データを逆エントロピー符号化部414から取得する。そして、逆量子化部413は、量子化済みの符号化特徴量データに対して次の数式(2)で表される逆量子化処理を行う。この際、逆量子化部413は、画像処理装置120における圧縮部122のQ値決定部403により決定されたQ値を用いて逆量子化を行う。ydecは、逆量子化した符号化特徴量データを表す。
Figure 2022078735000003
これにより、逆量子化部413は、逆量子化処理により符号化特徴量データを生成する。そして、逆量子化部413は、符号化特徴量データを特徴量復号部411へ出力する。
特徴量復号部411は、オートエンコーダのデコーダ側の処理を行う。特徴量復号部411は、学習フェーズにおいて第1の復号部332として学習が行われた学習済みの復号器を有する。特徴量復号部411は、逆量子化部413から取得した符号化特徴量データに対して復号を施して特徴量データを生成する。その後、特徴量復号部411は、生成した特徴量データを画像認識部412へ出力する。この特徴量復号部411が、「復号部」の一例にあたる。そして、特徴量復号部411により復号されたことで得られる特徴量データが、「認識用特徴量」の一例にあたる。
画像認識部412は、学習フェーズにおいて第1の画像認識部340として学習が行われた学習済みの認識モデルを有する。画像認識部412は、特徴量復号部411から取得した特徴量データを入力として学習済みの認識モデルを用いて認識処理を行い、認識結果を生成する。その後、画像認識部412は、認識結果を利用者の端末などに出力する。
ここで、図8を参照して、本実施例に係る画像認識システム100におけるデータ量の調整を伴う圧縮及び認識処理について説明する。図8は、データ量の調整を伴う圧縮及び認識処理の概念図である。特徴量A、特徴量B及び特徴量Cは、それぞれ異なる特徴量データを表す。例えば、特徴量Aについて高い認識精度が要求され、特徴量Bについては中位の認識精度が要求され、特徴量Cについては低い認識精度が要求された場合で説明する。
特徴量Aの場合、量子化部404は、特徴量符号化部402から特徴量Aを符号化した符号化特徴量データを取得する。Q値決定部403は、高い認識精度が指定されているので、低いQ値の使用を決定する。そこで、量子化部404は、指定された低Q値で量子化を行う。この場合、データ量が多い符号化特徴量データが、ネットワーク140を介して画像処理装置120から画像認識装置130へ伝送される。そして、逆量子化部413は、符号化特徴量データを低Q値で逆量子化する。その後、特徴量復号部411は、符号化特徴量データを復号して認識用の特徴量Aを取得する。この場合、特徴量Aを用いた認識処理は、高い認識精度を有する。
特徴量Bの場合、量子化部404は、特徴量符号化部402から特徴量Bを符号化した符号化特徴量データを取得する。Q値決定部403は、中位の認識精度が指定されているので、中位のQ値の使用を決定する。そこで、量子化部404は、指定された中Q値で量子化を行う。この場合、データ量が中位の符号化特徴量データが、ネットワーク140を介して画像処理装置120から画像認識装置130へ伝送される。そして、逆量子化部413は、符号化特徴量データを中Q値で逆量子化する。その後、特徴量復号部411は、符号化特徴量データを復号して認識用の特徴量Bを取得する。この場合、特徴量Bを用いた認識処理は、中位の認識精度を有する。
特徴量Cの場合、量子化部404は、特徴量符号化部402から特徴量Cを符号化した符号化特徴量データを取得する。Q値決定部403は、低い認識精度が指定されているので、高いQ値の使用を決定する。そこで、量子化部404は、指定された高Q値で量子化を行う。この場合、データ量が低い符号化特徴量データが、ネットワーク140を介して画像処理装置120から画像認識装置130へ伝送される。そして、逆量子化部413は、符号化特徴量データを高Q値で逆量子化する。その後、特徴量復号部411は、符号化特徴量データを復号して認識用の特徴量Cを取得する。この場合、特徴量Cを用いた認識処理は、低い認識精度を有する。
次に、図9を参照して、画像認識システム100による学習処理の流れについて説明する。図9は、画像認識システムによる学習処理のフローチャートである。
画像処理装置120における学習部121が有する入力部310は、正解ラベルが対応付けられた画像データを取得する(ステップS1)。
学習部121は、正解ラベルが対応付けられた画像データを用いて、特徴量抽出部320と第1の画像認識部340についての学習処理である第1の学習処理を実行する(ステップS2)。これにより、学習部121は、学習済みの特徴量抽出部320及び、学習済みの第1の画像認識部340及び学習済みの第2の画像認識部370を生成する。なお、特徴量抽出部320、第1の画像認識部340及び第2の画像認識部370についての学習処理である第1の学習処理は、後で詳細に説明する。
学習部121は、学習済みの特徴量抽出部320を用いて抽出された特徴量データを取得する(ステップS3)。
学習部121は、取得した特徴量データを用いて、オートエンコーダ部330についての学習処理である第2の学習処理を実行する(ステップS4)。これにより、学習部121は、学習済みのオートエンコーダ部330を生成する。なお、オートエンコーダ部330についての学習処理である第2の学習処理は、後で詳細に説明する。
次に、図10を参照して、第1の学習処理の流れについて説明する。図10は、第1学習処理のフローチャートである。図10のフローチャートで示した処理は、図9のステップS2で実行される処理の一例にあたる。
特徴量抽出部320は、画像データから特徴量データを抽出する(ステップS101)。
第1の画像認識部340は、抽出された特徴量データを入力として認識処理を行い、認識結果を出力する。また、第1の認識誤差算出部350は、第1の画像認識部340より出力された認識結果と、画像データに対応付けられた正解ラベルとを比較することで、第1の認識誤差(D1)を算出して出力する(ステップS102)。
最適化部400は、第1の認識誤差(D1)を最小化するように、特徴量抽出部320と第1の画像認識部340のモデルパラメータを更新する、学習処理を実行する(ステップS103)。
最適化部400は、第1の学習が収束したか否かを判定する(ステップS104)。収束していない場合(ステップS104:否定)、処理は、ステップS101に戻る。
一方、第1の学習が収束した場合(ステップS104:肯定)、学習部121は、更新された第1の画像認識部340のモデルパラメータを、第1の画像認識部340及び第2の画像認識部370にそれぞれセットし(ステップS105)、特徴量抽出部320、第1の画像認識部340及び第2の画像認識部380の学習処理を終了する。これにより、学習済みの特徴量抽出部320及び、学習済みの第1の画像認識部340及び学習済みの第2の画像認識部380が生成される。このように、本実施形態では、学習済みの第1の画像認識部340と学習済みの第2の画像認識部380とは、同じものである。
次に、図11を参照して、第2の学習処理の流れについて説明する。図11は、第2学習処理のフローチャートである。図11のフローチャートで示した処理は、図9のステップS4で実行される処理の一例にあたる。
オートエンコーダ部330の符号化部331は、学習済みの特徴量抽出部320により抽出された特徴量データを入力として符号化処理を行い、符号化特徴量データを出力する(ステップS111)。
オートエンコーダ部330の第1の復号部332は、符号化部331より出力された符号化特徴量データを復号する(ステップS112)。
学習済みの第1の画像認識部340は、オートエンコーダ部330の第1の復号部332により復号された特徴量データを入力として認識処理を行い、認識結果を出力する。次に、第1の認識誤差算出部350は、学習済みの第1の画像認識部340から出力された認識結果と、画像データに対応付けられた正解ラベルとを比較することで、第1の認識誤差(D1)を算出する(ステップS113)。
ノイズ加算部360は、オートエンコーダ部330の符号化部331から出力された符号化特徴量データにノイズを付加する(ステップS114)。そして、ノイズ加算部360は、ノイズ付き符号化特徴量データをオートエンコーダ部330の第2の復号部333へ出力する。
オートエンコーダ部330の第2の復号部333は、ノイズ加算部360から出力されたノイズ付き符号化特徴量データを復号する(ステップS115)。
学習済みの第2の画像認識部370は、オートエンコーダ部330の第2の復号部333により復号されたノイズ付き特徴量データを入力として認識処理を行い、認識結果を出力する。次に、第2の認識誤差算出部380は、学習済みの第2の画像認識部370から出力された認識結果と、学習済みの第1の画像認識部340から出力された認識結果とを比較することで、第2の認識誤差(D2)を算出する(ステップS116)。
情報量算出部390は、オートエンコーダ部330の符号化部331から出力された符号化特徴量データに基づいて、確率分布の情報エントロピー(R)を算出する(ステップS117)。
最適化部400は、L=R+λ1×D1+λ2×D2という数式に対して、情報エントロピーR)、第1の認識誤差(D1)、第2の認識誤差(D2)を用いてコスト(L)を算出する(ステップS118)。
次に、最適化部400は、算出したコスト(L)を最小化するように、オートエンコーダ部330のモデルパラメータを更新する、学習処理を実行する(ステップS119)。
次に、最適化部400は、第2の学習が収束したか否かを判定する(ステップS120)。第2の学習が収束していない場合(ステップS120:否定)、学習部121は、ステップS111へ戻る。
これに対して、第2の学習が収束した場合(ステップS120:肯定)、最適化部400は、学習済みのモデルパラメータをオートエンコーダ部330にセットする。その後、学習部121は、第2の学習処理を終了する。具体的には、最適化部400は、更新された符号化部331のモデルパラメータを符号化部331に、更新された第1の復号部332のモデルパラメータを第1の復号部332にそれぞれセットする。これにより、学習済みの符号化部331及び学習済みの第1の復号部332が生成される。
次に、図12を参照して、画像認識システム100による圧縮及び認識処理の流れを説明する。図12は、画像認識システムによる圧縮及び認識処理のフローチャートである。
特徴量抽出部401は、入力画像を撮像装置110から取得する(ステップS201)。
次に、特徴量抽出部401は、入力画像の特徴量を抽出する(ステップS202)。そして、特徴量抽出部401は、特徴量データを特徴量符号化部402へ出力する。
特徴量符号化部402は、特徴量抽出部401から取得した特徴量データを学習済みの符号化器を用いて符号化する(ステップS203)。次に、特徴量符号化部402は、符号化特徴量データをQ値決定部403へ出力する。
Q値決定部403は、認識精度やネットワーク140の帯域状況などの指定されたQ値決定情報からQ値を決定する(ステップS204)。次に、Q値決定部403は、決定したQ値及び符号化特徴量データを量子化部404へ出力する。
量子化部404は、Q値決定部403により決定されたQ値を用いて符号化特徴量データの量子化処理を実行する(ステップS205)。次に、量子化部404は、量子化済みの符号化特徴量データをエントロピー符号化部405へ出力する。
エントロピー符号化部405は、学習済みの確率モデルを用いて、量子化部404から取得した量子化済み符号化特徴量データのエントロピー符号化処理を実行する(ステップS206)。
その後、画像処理装置120は、エントロピー符号化処理が施された量子化済み符号化特徴量データを画像認識装置130へネットワーク140を介して伝送する(ステップS207)。
逆エントロピー符号化部414は、学習済みの確率モデルを用いて、画像処理装置120から伝送されたエントロピー符号化処理が施された量子化済み符号化特徴量データに対して逆エントロピー符号化処理を実行する(ステップS208)。そして、逆エントロピー符号化部414は、量子化済み符号化特徴量データを逆量子化部413へ出力する。
逆量子化部413は、画像処理装置120のQ値決定部403で決定されたQ値を用いて量子化済みの符号化特徴量データに対して逆量子化処理を実行する(ステップS209)。そして、逆量子化部413は、符号化特徴量データを特徴量復号部411へ出力する。
特徴量復号部411は、逆量子化部413から取得した符号化特徴量データの復号を実行し、特徴量データを生成する(ステップS210)。そして、特徴量復号部411は、特徴量データを画像認識部412へ出力する。
画像認識部412は、特徴量復号部411により復号された特徴量データを用いて認識処理を行い、入力画像の分類を実行する(ステップS211)。
次に、画像認識部412は、分類結果を出力する(ステップS212)。その後、画像認識システム100は、圧縮及び認識処理を終了する。
以上に説明したように、本実施例に係る画像認識システムは、学習フェーズにおいて、オートエンコーダで圧縮した際の認識精度と圧縮なしの際の認識精度との誤差とをゼロに近づけて1個のモデルを学習する。そして、画像認識システムは、圧縮フェーズにおいて、学習した1個のモデルを用いて特徴量の抽出及び符号化を行うとともに指定された認識精度やネットワーク140の帯域状況に応じたQ値を使用して量子化を行う。その後、画像認識システムは、認識フェーズにおいて、量子化時のQ値及び学習した1つのモデルを用いて特徴量を取得して認識処理を実行する。
これにより、1つの学習済みモデルで、入力された特徴量データに対して任意の出力サイズの符号化処理を実現することができる。したがって、少ない学習で、運用状態に応じた適切な圧縮性能を容易に達成することができ、画像認識システムの処理効率が向上し、利便性を向上させることができる。
例えば、学習時に指定された認識精度やネットワーク140の帯域状況に応じた異なる出力データ量のモデルを複数学習し、それぞれのモデルを用いて圧縮及び認識処理を行う技術との比較について説明する。この技術の場合、複数のモデルを生成するためモデル学習に膨大な時間がかかるとともに、圧縮及び認識フェーズにおいても指定された認識精度やネットワーク140の帯域状況に応じてモデルを異ならせる手間が発生する。これに対して、本実施例に係る画像認識システムは、1回のモデルを用いるため、学習の時間を短縮でき、且つ圧縮及び認識フェーズの手間も削減できる。さらに、本実施例に係る画像認識システムは、推論フェーズでQ値の変更によってデータ量の制御が行え、このQ値制御により複数の学習モデルを使用する技術と同等の圧縮性能が実現可能である。また、本実施例に係る画像認識システムは、特徴量のデータ量を削減しつつ認識精度を維持することが可能である。
次に、実施例2に係る画像認識システムについて説明する。本実施例に係る画像認識システムは、特徴量の適応量子化を行うことが実施例1と異なる。本実施例に係る画像認識システムも、図3及び図4のブロック図で表される。以下の説明では、実施例1と同様の各部の機能については説明を省略する。
Q値決定部403は、符号化特徴量データを特徴量符号化部402から取得するとともに、認識精度やネットワーク140の帯域状況といったQ値決定情報の入力を受ける。ここで、実施例1では次元削減後の特徴量に対して全て同じQ値を用いた量子化が行われたが、本実施例に係るQ値決定部403は、量子化部404に特徴量の適応量子化を実行させる。具体的には、Q値決定部403は、認識精度への影響が大きい特徴量のQ値を小さく設定し、認識精度への影響が小さい特徴量のQ値を大きく設定して量子化を実行する。
図13は、実施例2に係る特徴量の適応量子化を説明するための図である。図13のグラフ601は情報量と特徴量との関係を表すグラフであり、縦軸で情報量を表し、横軸で特徴量を表す。例えば、グラフ601の領域611にあたる特徴量は、分散が大きく情報を多く有するため、認識精度への影響が大きい特徴量である。これに対して、領域612にあたる特徴量は、分散が小さく含まれる情報が少ないため、認識精度への影響が小さい特徴量である。そこで、量子化メトリックス602に示すように、Q値決定部403は、領域611にあたる分散の大きい特徴量についてはQ値を小さく設定し、領域612にあたる分散の小さい特徴量についてはQ値を大きく設定する。量子化メトリックス602におけるインデックスは、特徴量を表すインデックスである。
そして、Q値決定部403は、各特徴量に設定したQ値の情報を量子化部404へ通知する。例えば、Q値決定部403は、量子化メトリックス602を量子化部404へ送信する。
量子化部404は、特徴量毎のQ値の情報をQ値決定部403から取得する。そして、量子化部404は、特徴量毎に指定されたQ値を用いて符号化特徴量データの適応量子化を実行する。
この場合、画像認識装置130における認識部123の逆量子化部413は、Q値決定部403により設定された各特徴量のQ値を用いて逆量子化を実行する。
以上に説明したように、本実施例に係る画像認識システムは、特徴量に対して適応量子化を実行する。これにより、認識精度を維持しつつ更なるデータ量の削減を実現することが可能となる。
次に、実施例3に係る画像認識システムについて説明する。本実施例に係る画像認識システムは、デッドゾーン付の量子化処理を特徴量に対して行うことが実施例1と異なる。本実施例に係る画像認識システムも、図3及び図4のブロック図で表される。以下の説明では、実施例1と同様の各部の機能については説明を省略する。図14は、実施例3に係るデッドゾーン付の量子化処理を説明するための図である。
量子化部404は、符号化特徴量データとともに決定されたQ値の情報をQ値決定部403から取得する。そして、量子化部404は、図14の量子化処理700に示すように、ゼロに丸め込む範囲を広くするためのオフセットを設定する。ゼロに丸める範囲とは、量子化後の値が0となる端数処理の範囲にあたる。そして、量子化部404は、次の数式(3)を用いてデッドゾーン付の量子化処理を実行する。すなわち、量子化部404は、0に丸める範囲を他の値となる範囲よりも大きく設定して量子化処理を実行する。
Figure 2022078735000004
この場合、画像認識装置130における認識部123の逆量子化部413は、次の数式(4)に対してQ値決定部403により設定されたQ値を用いて逆量子化を実行して、集約された数の特徴量を取得する。
Figure 2022078735000005
以上に説明したように、本実施例に係る画像認識システムは、符号化特徴量データに対してデッドゾーン付の量子化処理を実行する。これにより、特徴量におけるゼロに丸められる範囲を広く設けることができ、ゼロ近くの小さな雑音を除去することができる。したがって、認識精度を維持しつつ更なるデータ量の削減を実現することが可能となる。
また、以上の各実施例では、画像識別を例に説明したが、各実施例に係る画像認識システムによる学習処理、並びに、圧縮及び認識処理は、物体検出やセグメンテーションなどの画像解析の作業に用いることも可能である。
100 画像認識システム
120 画像処理装置
121 学習部
122 圧縮部
123 認識部
130 画像認識装置
140 ネットワーク
310 入力部
320 特徴量抽出部
330 オートエンコーダ部
331 符号化部
332 第1の復号部
333 第2の復号部
340 第1の画像認識部
350 第1の認識誤差算出部
360 ノイズ加算部
370 第2の画像認識部
380 第2の認識誤差算出部
390 情報量算出部
400 最適化部
401 特徴量抽出部
402 特徴量符号化部
403 Q値決定部
404 量子化部
405 エントロピー符号化部
411 特徴量復号部
412 画像認識部
413 逆量子化部
414 逆エントロピー符号化部

Claims (12)

  1. 認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する学習部と、
    前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化する符号化部と、
    要求されるデータ量を示す情報を基に量子化の精度を決定する量子化精度決定部と、
    前記精度決定部により決定された前記量子化の精度を基に前記符号化部による符号化で得られた複数の符号化特徴量に対して量子化を行う量子化部と
    を備えたことを特徴とする画像処理装置。
  2. 前記学習処理により得られた学習済みの特徴量の確率モデルを用いて、前記量子化された複数の前記符号化特徴量のエントロピー符号化処理を行うエントロピー符号化部をさらに備えたことを特徴とする請求項1に記載の画像処理装置。
  3. 前記量子化精度決定部は、前記要求されるデータ量が多い場合、量子化の精度を高くし、前記要求されるデータが少ない場合、量子化の精度を低くすることを特徴とする請求項1又は2に記載の画像処理装置。
  4. 前記量子化部は、同じ前記量子化の精度を用いて各前記符号化特徴量のそれぞれを量子化することを特徴とする請求項1~3のいずれか一つに記載の画像処理装置。
  5. 前記量子化部は、複数の前記符号化特徴量のうち分散値が大きい前記符号化特徴量は前記量子化の精度を高くし、分散値が小さい前記符号化特徴量は前記量子化の精度を低くして適応量子化を実行することを特徴とする請求項1~3のいずれか一つに記載の画像処理装置。
  6. 前記量子化部は、前記量子化された前記符号化特徴量の値が0となる端数処理の範囲を広くして前記量子化を行うことを特徴とする請求項1~3のいずれか一つに記載の画像処理装置。
  7. 前記学習部は、量子化の精度を固定して学習を行うことを特徴とする請求項1~6のいずれか一つに記載の画像処理装置。
  8. 前記学習部は、
    学習用画像データの特徴量を入力することで第1の画像認識部より出力される認識結果と、正解データとの誤差である第1の認識誤差を算出する第1の認識誤差算出部と、
    前記学習用画像データの特徴量にノイズを付加したノイズ付加後の特徴量を入力することで第2の画像認識部より出力される認識結果と、前記第1の画像認識部より出力される認識結果との誤差である第2の認識誤差を算出する第2の認識誤差算出部と、
    前記特徴量のデータ量に関する値と、前記第1の認識誤差及び前記第2の認識誤差とを重み付け加算した総和を最小化するように、モデルパラメータを更新する学習処理を実行する実行部と
    を有することを特徴とする請求項1~7のいずれか一つに記載の画像処理装置。
  9. 認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行し、
    前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化し、
    要求されるデータ量を示す情報を基に量子化の精度を決定し、
    決定した前記量子化の精度を基に前記符号化で得られた複数の符号化特徴量に対して量子化を行う
    処理をコンピュータに実行させることを特徴とする画像処理プログラム。
  10. 認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化し、要求されるデータ量を示す情報を基に決定された量子化の精度を基に前記符号化で得られた複数の符号化特徴量に対して量子化を行うことで得られた前記量子化された複数の前記符号化特徴量に対して、前記量子化の精度を基に逆量子化を行う逆量子化部と、
    前記逆量子化部による前記逆量子化で得られた複数の前記符号化特徴量を、前記学習処理により前記モデルパラメータが更新された前記復号器を用いて復号して複数の認識用特徴量を取得する復号部と、
    複数の前記認識用特徴量を用いて前記画像データの画像認識を実行する画像認識部と
    を備えたことを特徴とする画像認識装置。
  11. 認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化し、要求されるデータ量を示す情報を基に決定された量子化の精度を基に前記符号化で得られた複数の符号化特徴量に対して量子化を行うことで得られた前記量子化された複数の前記符号化特徴量に対して、前記量子化の精度を基に逆量子化を行い、
    前記逆量子化で得られた複数の前記符号化特徴量を、前記学習処理により前記モデルパラメータが更新された前記復号器を用いて復号して複数の認識用特徴量を取得し、
    複数の前記認識用特徴量を用いて前記画像データの画像認識を実行する
    処理をコンピュータに実行させることを特徴とする画像認識プログラム。
  12. ネットワークで相互に接続される画像処理装置及び画像認識装置を有する画像認識システムであって、
    前記画像処理装置は、
    認識誤差が小さくなるように符号化器及び復号器のモデルパラメータを更新する学習処理を実行する学習部と、
    前記学習処理により前記モデルパラメータが更新された前記符号化器を用いて画像データの複数の特徴量を符号化する符号化部と、
    要求されるデータ量を示す情報を基に量子化の精度を決定する量子化精度決定部と、
    前記精度決定部により決定された前記量子化の精度を基に前記符号化部による符号化で得られた複数の符号化特徴量に対して量子化を行う量子化部とを備え、
    前記画像認識装置は、
    前記ネットワークを介して取得した前記量子化された複数の前記符号化特徴量に対して、前記量子化の精度を基に逆量子化を行う逆量子化部と、
    前記逆量子化部による前記逆量子化で得られた複数の前記符号化特徴量を、前記学習処理により前記モデルパラメータが更新された前記復号器を用いて復号して複数の認識用特徴量を取得する復号部と、
    複数の前記認識用特徴量を用いて前記画像データの画像認識を時刻する画像認識部とを備えた
    ことを特徴とする画像認識システム。
JP2020189618A 2020-11-13 2020-11-13 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム Withdrawn JP2022078735A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020189618A JP2022078735A (ja) 2020-11-13 2020-11-13 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020189618A JP2022078735A (ja) 2020-11-13 2020-11-13 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム

Publications (1)

Publication Number Publication Date
JP2022078735A true JP2022078735A (ja) 2022-05-25

Family

ID=81707075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020189618A Withdrawn JP2022078735A (ja) 2020-11-13 2020-11-13 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム

Country Status (1)

Country Link
JP (1) JP2022078735A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023176256A (ja) * 2022-05-31 2023-12-13 楽天グループ株式会社 画像からデータを予測する方法、コンピュータシステム、及びコンピュータ可読媒体

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023176256A (ja) * 2022-05-31 2023-12-13 楽天グループ株式会社 画像からデータを予測する方法、コンピュータシステム、及びコンピュータ可読媒体

Similar Documents

Publication Publication Date Title
US11310509B2 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (VQA)
CN111641832B (zh) 编码方法、解码方法、装置、电子设备及存储介质
TWI454151B (zh) 像素預測值產生程序自動產生方法、裝置、程式,影像編碼方法、裝置、程式,影像解碼方法、裝置、程式,及記錄有此等程式之記錄媒體
KR102299958B1 (ko) 다수의 상이한 비트레이트로 영상 압축을 하기 위한 시스템들 및 방법들
TWI744827B (zh) 用以壓縮類神經網路參數之方法與裝置
US20230062752A1 (en) A method, an apparatus and a computer program product for video encoding and video decoding
TWI806199B (zh) 特徵圖資訊的指示方法,設備以及電腦程式
US20220277491A1 (en) Method and device for machine learning-based image compression using global context
WO2022028197A1 (zh) 一种图像处理方法及其设备
CN111046766A (zh) 一种行为识别方法、装置及计算机存储介质
CN114708343A (zh) 基于图字典学习的三维点云编解码方法、压缩方法及装置
JP2022078735A (ja) 画像処理装置、画像処理プログラム、画像認識装置、画像認識プログラム及び画像認識システム
US20230110503A1 (en) Method, an apparatus and a computer program product for video encoding and video decoding
WO2022021422A1 (zh) 视频编码方法、编码器、系统以及计算机存储介质
CN115668777A (zh) 用于改进的机器学习压缩的系统和方法
TW202348029A (zh) 使用限幅輸入數據操作神經網路
US20220392117A1 (en) Data compression and decompression system and method thereof
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置
WO2023177318A1 (en) Neural network with approximated activation function
Hajizadeh et al. Predictive compression of animated 3D models by optimized weighted blending of key‐frames
CN113177627A (zh) 优化系统、重新训练系统及其方法及处理器和可读介质
Zhang et al. Leveraging progressive model and overfitting for efficient learned image compression
WO2023169501A1 (en) Method, apparatus, and medium for visual data processing
US20230316588A1 (en) Online training-based encoder tuning with multi model selection in neural image compression
TW202345034A (zh) 使用條件權重操作神經網路

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230804

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20240129