JP6320649B1

JP6320649B1 - 機械学習装置及び画像認識装置

Info

Publication number: JP6320649B1
Application number: JP2017554102A
Authority: JP
Inventors: 雄心趙
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-03-31
Filing date: 2017-03-31
Publication date: 2018-05-09
Anticipated expiration: 2037-03-31
Also published as: WO2018179338A1; JPWO2018179338A1

Abstract

学習画像を二値画像に変換する二値画像変換部（３）と、学習画像を入力して、学習画像の特徴量を出力する第１のニューラルネットワークを有する特徴量抽出部（５）と、第１のニューラルネットワークから出力された特徴量を入力して、再構築画像を出力する第２のニューラルネットワークを有する画像再構築部（６）とを設け、パラメータ更新部（７）が、第２のニューラルネットワークから出力された再構築画像と、二値画像変換部（３）により変換された二値画像との差分に従って第１のニューラルネットワークのパラメータ及び第２のニューラルネットワークのパラメータのそれぞれを更新する。

Description

この発明は、学習画像を入力して、学習画像の特徴量を出力するニューラルネットワークのパラメータを更新する機械学習装置と、認識対象画像と類似している登録画像を検索する画像認識装置とに関するものである。

画像を分類する機械学習を実施することで、画像の特徴量を抽出するモデルのパラメータを更新する機械学習装置が以下の非特許文献１に開示されている。
この機械学習装置は、教師あり学習手法を利用する装置であるため、教師データを使用して、機械学習を実施する。

Han, Xufeng, et al. "Matchnet: Unifying feature and metric learning for patch-based matching." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.

従来の機械学習装置は以上のように構成されているので、機械学習を実施する際に、大量の教師データを収集する必要がある。このため、大量の教師データを収集することが困難である場合、画像の特徴量を抽出するモデルのパラメータを更新して最適化することができない。その結果、モデルにより抽出される特徴量の精度が劣化してしまうことがあるという課題があった。

この発明は上記のような課題を解決するためになされたもので、教師データを用いることなく、学習画像を入力して、学習画像の特徴量を出力するニューラルネットワークのパラメータを更新することができる機械学習装置を得ることを目的とする。
また、この発明は、機械学習装置によりパラメータが更新されたニューラルネットワークを用いて、認識対象画像と類似している登録画像を検索することができる画像認識装置を得ることを目的とする。

この発明に係る機械学習装置は、学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、外乱の影響を受けている学習画像を入力して、外乱の影響を受けている学習画像の特徴量を出力する第１のニューラルネットワークを有する特徴量抽出部と、第１のニューラルネットワークから出力された特徴量を入力して、外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第２のニューラルネットワークを有する画像再構築部とを設け、パラメータ更新部が、第２のニューラルネットワークから出力された再構築画像と、二値画像変換部により変換された二値画像との差分に従って第１のニューラルネットワークのパラメータ及び第２のニューラルネットワークのパラメータのそれぞれを更新するようにしたものである。

この発明によれば、教師データを用いることなく、学習画像を入力して、学習画像の特徴量を出力する第１のニューラルネットワークのパラメータを更新することができる効果がある。

この発明の実施の形態１による機械学習装置を示す構成図である。この発明の実施の形態１による機械学習装置を示すハードウェア構成図である。機械学習装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。この発明の実施の形態１による画像認識装置を示す構成図である。この発明の実施の形態１による画像認識装置を示すハードウェア構成図である。画像認識装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。この発明の実施の形態１による機械学習装置のサンプリング部２における処理内容を示すフローチャートである。この発明の実施の形態１による機械学習装置の画像生成部４における処理内容を示すフローチャートである。特徴量抽出部５が有している第１のニューラルネットワークの構成例を示す説明図である。畳み込み層における畳み込み処理を示す説明図である。プーリング層におけるプーリング処理を示す説明図である。画像再構築部６が有している第２のニューラルネットワークの構成例を示す説明図である。逆プーリング層における逆プーリング処理を示す説明図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。

実施の形態１．
図１は、この発明の実施の形態１による機械学習装置を示す構成図であり、図２は、この発明の実施の形態１による機械学習装置を示すハードウェア構成図である。
この実施の形態１の機械学習装置は、学習対象の画像である学習画像として、書類が映っている画像である書類画像を利用するものとする。
ただし、これは一例に過ぎず、例えば、帳票が映っている画像である帳票画像を利用するものであってもよい。
図１及び図２において、学習画像記憶部１は、例えば図２に示す学習画像記憶回路１１で実現されるものであり、事前に取得された複数の書類画像を記憶する。
学習画像記憶部１に記憶される書類画像は、例えば、グレースケールの画像であるものとする。このため、カラー画像の場合、学習画像記憶部１に記憶される前に、カラー画像がグレースケールの画像に変換されるものとする。

書類画像の取得方式は、特に限定するものではなく、例えば、スキャナーによって読み取られた書類画像でもよいし、カメラによって撮影された書類画像でもよい。
ただし、カメラによって撮影された画像を書類画像として用いる場合には、書類の真正面から見ているように撮影画像に補正を施し、補正後の撮影画像の中から、書類が映っている領域を書類画像として切り出すようにする。
この実施の形態１では、書類の用紙サイズを特定することができるものとし、学習画像記憶部１には、同じ用紙サイズの書類が映っている書類画像が記憶されるものとする。
書類の用紙サイズを特定することができない場合、学習画像記憶部１に記憶される書類画像は、全て同じ用紙サイズの書類が映っている書類画像であるものとする。

サンプリング部２は、例えば図２に示すサンプリング回路１２で実現される。
サンプリング部２は、学習画像記憶部１に記憶されている複数の書類画像の中から、いずれか１つの書類画像を順番に選択する処理を実施する。
また、サンプリング部２は、選択した書類画像の画像サイズを変更するとともに、選択した書類画像を回転させる画像処理を実施する。
さらに、サンプリング部２は、画像処理後の書類画像の中から、二値画像変換部３により変換される二値画像と同じサイズの領域を抽出し、抽出した領域を書類画像として、二値画像変換部３及び画像生成部４のそれぞれに出力する処理を実施する。

二値画像変換部３は、例えば図２に示す二値画像変換回路１３で実現される。
二値画像変換部３は、サンプリング部２から出力された書類画像を二値画像に変換し、変換した二値画像をパラメータ更新部７に出力する処理を実施する。
画像生成部４は、例えば図２に示す画像生成回路１４で実現される。
画像生成部４は、サンプリング部２から出力された書類画像の画素値を調整して、外乱の影響を受けている書類画像を生成し、生成した書類画像を特徴量抽出部５に出力する処理を実施する。
外乱としては、書類画像を撮影している環境の要因のほか、画像取得機材の要因も含まれる。
このため、書類画像の調整処理として、例えば、ガウシアンノイズ及びごま塩ノイズを書類画像に付加する処理、書類画像のガウシアンぼかしを行う処理、書類画像のシャープネス、コントラスト及び輝度値を調整する処理などが考えられる。

特徴量抽出部５は、例えば図２に示す特徴量抽出回路１５で実現される。
特徴量抽出部５は、画像生成部４から出力された書類画像を入力して、書類画像の特徴量を出力する第１のニューラルネットワークを有している。
この実施の形態１では、特徴量抽出部５が有している第１のニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ：ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔ）をあるものとする。

画像再構築部６は、例えば図２に示す画像再構築回路１６で実現される。
画像再構築部６は、特徴量抽出部５が有している第１のニューラルネットワークから出力された特徴量を入力して、書類画像を二値画像として再構築した画像である再構築画像を出力する第２のニューラルネットワークを有している。
この実施の形態１では、画像再構築部６が有している第２のニューラルネットワークは、ＣＮＮをあるものとする。

パラメータ更新部７は、例えば図２に示すパラメータ更新回路１７で実現される。
パラメータ更新部７は、画像再構築部６が有している第２のニューラルネットワークから出力された再構築画像と、二値画像変換部３から出力された二値画像との差分に従って特徴量抽出部５が有している第１のニューラルネットワークのパラメータ及び画像再構築部６が有している第２のニューラルネットワークのパラメータのそれぞれを更新する処理を実施する。
パラメータ記憶部８は、例えば図２に示すパラメータ記憶回路１８で実現されるものであり、パラメータ更新部７により更新された第１のニューラルネットワークのパラメータ及び第２のニューラルネットワークのパラメータのそれぞれを記憶する。

図１では、機械学習装置の構成要素である学習画像記憶部１、サンプリング部２、二値画像変換部３、画像生成部４、特徴量抽出部５、画像再構築部６、パラメータ更新部７及びパラメータ記憶部８のそれぞれが、図２に示すような専用のハードウェアで実現されるものを想定している。即ち、学習画像記憶回路１１、サンプリング回路１２、二値画像変換回路１３、画像生成回路１４、特徴量抽出回路１５、画像再構築回路１６、パラメータ更新回路１７及びパラメータ記憶回路１８で実現されるものを想定している。

ここで、学習画像記憶回路１１及びパラメータ記憶回路１８のそれぞれは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、フラッシュメモリ、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒy）などの不揮発性又は揮発性の半導体メモリや、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などが該当する。

また、サンプリング回路１２、二値画像変換回路１３、画像生成回路１４、特徴量抽出回路１５、画像再構築回路１６及びパラメータ更新回路１７は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ−ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、または、これらを組み合わせたものが該当する。

ただし、機械学習装置の構成要素は、専用のハードウェアで実現されるものに限るものではなく、機械学習装置がソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせで実現されるものであってもよい。
ソフトウェア又はファームウェアはプログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などが該当する。

図３は、機械学習装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
機械学習装置がソフトウェア又はファームウェアなどで実現される場合、学習画像記憶部１及びパラメータ記憶部８をコンピュータのメモリ２１又はストレージ２２上に構成するとともに、サンプリング部２、二値画像変換部３、画像生成部４、特徴量抽出部５、画像再構築部６及びパラメータ更新部７の処理手順をコンピュータに実行させるためのプログラムをメモリ２１又はストレージ２２に格納し、コンピュータのプロセッサ２３がメモリ２１又はストレージ２２に格納されているプログラムを実行するようにすればよい。
図３において、画像入力器２４は、書類画像を入力する入力インタフェース機器であり、結果出力器２５は、画像再構築部６が有している第２のニューラルネットワークから出力された再構築画像を出力する出力インタフェース機器である。

また、図２では、機械学習装置の構成要素のそれぞれが専用のハードウェアで実現される例を示し、図３では、機械学習装置がソフトウェアやファームウェアなどで実現される例を示しているが、機械学習装置における一部の構成要素が専用のハードウェアで実現され、残りの構成要素がソフトウェアやファームウェアなどで実現されるものであってもよい。

図４は、この発明の実施の形態１による画像認識装置を示す構成図であり、図５は、この発明の実施の形態１による画像認識装置を示すハードウェア構成図である。
図４及び図５において、登録画像記憶部３１は、例えば図５に示す登録画像記憶回路４１で実現されるものであり、１つ以上の書類画像（学習対象の画像）を登録画像として記憶する。
この登録画像は、図１の機械学習装置の学習画像記憶部１に記憶されている書類画像と同じ書類画像であってもよいし、図１の機械学習装置の学習画像記憶部１に記憶されている書類画像と異なる書類画像であってもよい。
認識対象画像記憶部３２は、例えば図５に示す認識対象画像記憶回路４２で実現されるものであり、認識対象の書類画像である認識対象画像を記憶する。

特徴量検出部３３は、例えば図５に示す特徴量検出回路４３で実現される。
特徴量検出部３３は、第１の特徴量検出部３４、画像再生成部３５及び第２の特徴量検出部３６を備えている。
特徴量検出部３３は、登録画像の特徴量を特徴量記憶部３７に登録する登録処理を実施する際には、実装しているニューラルネットワークを用いて、登録画像記憶部３１に記憶されている登録画像を入力する毎に、当該登録画像の特徴量を出力する。
特徴量検出部３３は、画像検索部３８が認識対象画像と類似している登録画像を検索する検索処理を開始する前処理として、実装しているニューラルネットワークを用いて、認識対象画像記憶部３２に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する。

第１の特徴量検出部３４は、登録処理を実施する際には、登録画像記憶部３１に記憶されている登録画像を入力して、登録画像の特徴量を出力するニューラルネットワークとして、図１の機械学習装置のパラメータ更新部７によりパラメータが更新された第１のニューラルネットワークを有している。
第１の特徴量検出部３４は、検索処理の前処理を実施する際には、実装している第１のニューラルネットワークが、認識対象画像記憶部３２に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する。
第１の特徴量検出部３４が有している第１のニューラルネットワークは、図１の機械学習装置の特徴量抽出部５が有している第１のニューラルネットワークと同じニューラルネットワークである。

画像再生成部３５は、登録処理を実施する際には、第１の特徴量検出部３４が有している第１のニューラルネットワークから出力された登録画像の特徴量を入力して、登録画像を再構築した画像である再構築登録画像を出力するニューラルネットワークとして、図１の機械学習装置のパラメータ更新部７によりパラメータが更新された第２のニューラルネットワークを有している。
画像再生成部３５は、検索処理の前処理を実施する際には、実装している第２のニューラルネットワークが、第１の特徴量検出部３４が有している第１のニューラルネットワークから出力された認識対象画像の特徴量を入力して、認識対象画像を再構築した画像である再構築認識画像を出力する。
画像再生成部３５が有している第２のニューラルネットワークは、図１の機械学習装置の画像再構築部６が有している第２のニューラルネットワークと同じニューラルネットワークである。

第２の特徴量検出部３６は、登録処理を実施する際には、画像再生成部３５が有している第２のニューラルネットワークから出力された再構築登録画像を入力して、再構築登録画像の特徴量を出力するニューラルネットワークとして、図１の機械学習装置のパラメータ更新部７によりパラメータが更新された第１のニューラルネットワークを有している。
第２の特徴量検出部３６は、検索処理の前処理を実施する際には、実装している第１のニューラルネットワークが、画像再生成部３５が有している第２のニューラルネットワークから出力された再構築認識画像を入力して、再構築認識画像の特徴量を出力する。
第２の特徴量検出部３６が有している第１のニューラルネットワークは、図１の機械学習装置の特徴量抽出部５が有している第１のニューラルネットワークと同じニューラルネットワークである。

特徴量記憶部３７は、例えば図５に示す特徴量記憶回路４４で実現される。
特徴量記憶部３７は、特徴量検出部３６が有しているニューラルネットワークから出力された登録画像の特徴量として、第１の特徴量検出部３４が有している第１のニューラルネットワークから出力された登録画像の特徴量及び第２の特徴量検出部３６が有している第１のニューラルネットワークから出力された再構築登録画像の特徴量のそれぞれを記憶する。

画像検索部３８は、例えば図５に示す画像検索回路４５で実現される。
画像検索部３８の画像記憶部３８ａは、画像再生成部３５から出力された再構築登録画像を記憶する。
この実施の形態１では、画像検索部３８の画像記憶部３８ａが、画像再生成部３５から出力された再構築登録画像を記憶するようにしているが、画像再生成部３５が、再構築登録画像を記憶する画像記憶部を備えるようにしてもよい。あるいは、図４の画像認識装置が、画像再生成部３５から出力された再構築登録画像を記憶する再構築登録画像記憶部を備えるようにしてもよい。
画像検索部３８は、特徴量記憶部３７により記憶されている１つ以上の登録画像の特徴量のうち、第１の特徴量検出部３４から出力された１つ以上の登録画像の特徴量と、第１の特徴量検出部３４から出力された認識対象画像の特徴量との類似度を算出する処理を実施する。
画像検索部３８は、登録画像記憶部３１により記憶されている１つ以上の登録画像の中で、算出した類似度が最も高い登録画像を特定し、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する処理を実施する。
また、画像検索部３８は、特徴量記憶部３７により記憶されている１つ以上の特徴量のうち、第２の特徴量検出部３６から出力された１つ以上の再構築登録画像の特徴量と、第２の特徴量検出部３６から出力された再構築認識画像の特徴量との類似度を算出する処理を実施する。
画像検索部３８は、画像記憶部３８ａにより記憶されている１つ以上の再構築登録画像の中で、算出した類似度が最も高い再構築登録画像を特定し、特定した再構築登録画像に対応する登録画像を、認識対象画像と類似している登録画像の検索結果として出力する処理を実施する。

図４では、画像認識装置の構成要素である登録画像記憶部３１、認識対象画像記憶部３２、特徴量検出部３３、特徴量記憶部３７及び画像検索部３８のそれぞれが、図５に示すような専用のハードウェアで実現されるものを想定している。即ち、登録画像記憶回路４１、認識対象画像記憶回路４２、特徴量検出回路４３、特徴量記憶回路４４及び画像検索回路４５で実現されるものを想定している。

ここで、登録画像記憶回路４１、認識対象画像記憶回路４２及び特徴量記憶回路４４のそれぞれは、例えば、ＲＡＭ、ＲＯＭ、フラッシュメモリ、ＥＰＲＯＭ、ＥＥＰＲＯＭなどの不揮発性又は揮発性の半導体メモリや、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤなどが該当する。
また、特徴量検出回路４３及び画像検索回路４５は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ、ＦＰＧＡ、または、これらを組み合わせたものが該当する。

ただし、画像認識装置の構成要素は、専用のハードウェアで実現されるものに限るものではなく、機械学習装置がソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせで実現されるものであってもよい。
図６は、画像認識装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
画像認識装置がソフトウェア又はファームウェアなどで実現される場合、登録画像記憶部３１、認識対象画像記憶部３２及び特徴量記憶部３７をコンピュータのメモリ５１又はストレージ５２上に構成するとともに、特徴量検出部３３及び画像検索部３８の処理手順をコンピュータに実行させるためのプログラムをメモリ５１又はストレージ５２に格納し、コンピュータのプロセッサ５３がメモリ５１又はストレージ５２に格納されているプログラムを実行するようにすればよい。
図６において、画像入力器５４は、登録画像又は認識対象画像を入力する入力インタフェース機器であり、結果出力器５５は、画像検索部３８による登録画像の検索結果を出力する出力インタフェース機器である。

また、図５では、画像認識装置の構成要素のそれぞれが専用のハードウェアで実現される例を示し、図６では、画像認識装置がソフトウェアやファームウェアなどで実現される例を示しているが、画像認識装置における一部の構成要素が専用のハードウェアで実現され、残りの構成要素がソフトウェアやファームウェアなどで実現されるものであってもよい。

次に動作について説明する。
最初に、図１の機械学習装置の動作について説明する。
学習画像記憶部１には、事前に取得された複数の書類画像が記憶される。
この実施の形態１では、学習画像記憶部１に記憶される書類画像は、例えば、グレースケールの画像であるものとする。このため、カラー画像の場合、学習画像記憶部１に記憶される前に、カラー画像がグレースケールの画像に変換されるものとする。

サンプリング部２は、学習画像記憶部１に記憶されている複数の書類画像の中から、いずれか１つの書類画像を選択して、選択した書類画像を二値画像変換部３及び画像生成部４のそれぞれに出力する。
図７は、この発明の実施の形態１による機械学習装置のサンプリング部２における処理内容を示すフローチャートである。
以下、図７を参照しながら、サンプリング部２の処理内容を具体的に説明する。

サンプリング部２は、学習画像記憶部１に記憶されている複数の書類画像の中から、いずれか１つの書類画像をランダムに選択する（図７のステップＳＴ１）。
次に、サンプリング部２は、選択した書類画像の画像サイズを事前に設定されている画像サイズ（Ｈ，Ｗ）に変更する（図７のステップＳＴ２）。Ｈは書類画像の高さ、Ｗは書類画像の幅である。

次に、サンプリング部２は、画像スケールＳを示すパラメータＰ_１を乱数によって求め、画像の回転角度θを示すパラメータＰ_２を乱数によって求める（図７のステップＳＴ３）。
サンプリング部２は、パラメータＰ_１が示す画像スケールＳに基づいて、選択した書類画像の画像サイズを変更する画像処理を実施する（図７のステップＳＴ４）。
また、サンプリング部２は、選択した書類画像の中心を回転軸として、パラメータＰ_２が示す回転角度θだけ、選択した書類画像を回転させる画像処理を実施する（図７のステップＳＴ５）。

次に、サンプリング部２は、画像処理後の書類画像から切り出す一部の領域の座標（Ｘ，Ｙ）を乱数によって決定する（図７のステップＳＴ６）。一部の領域の座標（Ｘ，Ｙ）は、例えば、一部の領域の左上の角点の座標である。
サンプリング部２は、画像処理後の書類画像の中から、例えば、左上の角点の座標が、決定した座標（Ｘ，Ｙ）である一部の領域を切り出す処理を実施する（図７のステップＳＴ７）。切り出し領域の画像サイズは、事前に設定されている画像サイズ（ｈ，ｗ）である。
サンプリング部２は、切り出した一部の領域を書類画像として、二値画像変換部３及び画像生成部４のそれぞれに出力する。

サンプリング部２は、学習画像記憶部１に記憶されている複数の書類画像の中に、未だ選択していない書類画像が残っているか否かを判定する（図７のステップＳＴ８）。
サンプリング部２は、未だ選択していない書類画像が残っていれば（図７のステップＳＴ８：ＹＥＳの場合）、ステップＳＴ１〜ＳＴ８の処理を繰り返し実施する。
サンプリング部２は、既に選択していない書類画像が残っていなければ（図７のステップＳＴ８：ＮＯの場合）、処理を終了する。
サンプリング部２の処理によって、有限の学習画像である書類画像から、近似的に無限の学習サンプルとして書類画像を生成することができる。このため、学習結果の汎化性能として、未知の対象の識別能力の向上が期待される。

二値画像変換部３は、サンプリング部２から出力された書類画像を二値画像に変換し、変換した二値画像をパラメータ更新部７に出力する。
書類画像を二値画像に変換するアルゴリズムとして、例えば、適応的閾値処理（ＡｄａｐｔｉｖｅＴｈｒｅｓｈｏｌｄ関数を用いる処理）を利用することができるが、書類画像を二値画像に変換することができればよく、どのようなアルゴリズムを利用してもよい。

画像生成部４は、サンプリング部２から書類画像が出力される毎に、当該書類画像の画素値を調整して、外乱の影響を受けている書類画像を生成し、生成した書類画像を特徴量抽出部５に出力する。
図８は、この発明の実施の形態１による機械学習装置の画像生成部４における処理内容を示すフローチャートである。
以下、図８を参照しながら、画像生成部４の調整処理を具体的に説明する。

この実施の形態１では、画像生成部４が以下の６つの調整処理を実施する例を説明するが、以下の６つの調整処理に限るものではなく、例えば、１つ以上５つ以下の調整処理、または、７つ以上の調整処理を実施するようにしてもよい。
また、以下の６つの調整処理の順序は、どのような順序でもよく、例えば、順序を乱数によって決定することができる。

画像生成部４は、サンプリング部２から出力された書類画像を受けると、書類画像を構成している各々の画素の輝度値に対して、例えば、乱数で決めた分散値をガウシアンノイズとして付加する調整処理を実施する（図８のステップＳＴ１１）。
次に、画像生成部４は、書類画像を構成している各々の画素の中から、ごま塩ノイズを付加する画素を、乱数で決めた確率に基づいて決定する。
そして、画像生成部４は、決定した画素の輝度値を、当該画素の周辺の画素の輝度値と大きく変えることで、当該画素にごま塩ノイズを付加する（図８のステップＳＴ１２）。
例えば、周辺の画素の輝度値が、二値画像変換部３における二値画像の閾値処理に用いる閾値よりも黒側の輝度値であれば、当該画素の輝度値を最も白い輝度値とする。
一方、周辺の画素の輝度値が、閾値よりも白側の輝度値であれば、当該画素の輝度値を最も黒い輝度値とする。

次に、画像生成部４は、例えば、ガウス関数を用いて、書類画像をぼかすガウシアンぼかし処理を実施する（図８のステップＳＴ１３）。
次に、画像生成部４は、シャープネスを示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像のシャープネスを調整する処理を実施する（図８のステップＳＴ１４）。

次に、画像生成部４は、コントラストを示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像のコントラストを調整する処理を実施する（図８のステップＳＴ１５）。
次に、画像生成部４は、輝度値を示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像の輝度値を調整する処理を実施する（図８のステップＳＴ１６）。
画像生成部４の調整処理によって、図４の画像認識装置に与えられる認識対象画像が、外乱の影響を受けている場合でも、認識対象画像に類似している画像の検索が可能になる。

特徴量抽出部５は、画像生成部４から出力された書類画像を入力して、書類画像の特徴量を出力する第１のニューラルネットワークを有している。
特徴量抽出部５が有している第１のニューラルネットワークはＣＮＮであり、第１のニューラルネットワークは、書類画像の特徴量の畳み込みを行う畳み込み層と、プーリング処理を実施するプーリング層とを含んでいる。

図９は、特徴量抽出部５が有している第１のニューラルネットワークの構成例を示す説明図である。
図９において、ＩＮＰＵＴは、画像の入力部であり、ＩＮＰＵＴから入力される画像は、画像生成部４から出力された外乱の影響を受けている書類画像である。
ＯＵＴＰＵＴは、特徴量の出力部であり、ＯＵＴＰＵＴから出力される特徴量は、書類画像の特徴量である。
ＣＯＮＶ（１）、ＣＯＮＶ（２）及びＣＯＮＶ（３）のそれぞれは、第１のニューラルネットワークに含まれている畳み込み層である。畳み込み層では、書類画像の特徴量の畳み込みを実施した後、活性化関数の演算が行われるが、図９では、活性化関数の演算の表記を省略している。
ＰＯＯＬ（１）及びＰＯＯＬ（２）のそれぞれは、第１のニューラルネットワークに含まれているプーリング層である。

図１０は、畳み込み層における畳み込み処理を示す説明図である。
図１０に示す入力特徴量は、畳み込み層に入力される書類画像における複数の領域の特徴量を含んでおり、複数の領域の特徴量は、２次元構造のデータである入力特徴量マップに相当する。
図１０では、書類画像が２５個の領域（図中、縦５×横５個の領域）を備えている例を示している。即ち、書類画像は、Ａ方向が５、Ｂ方向が５の領域を備えている例を示している。。
また、入力特徴量は、ｋ（ｋは１以上の整数）個の入力特徴量マップを備えており、入力特徴量が２つ以上の入力特徴量マップを備えていれば、２つ以上の入力特徴量マップは、３次元構造のデータとして表現される。図１０では、入力特徴量をｋマップで表記している。
例えば、書類画像が、Ｒ（赤色）、Ｇ（緑色）及びＢ（青色）の色成分を有するカラー画像が、色成分毎に、グレースケールの画像に変換されている画像である場合、入力特徴量は、Ｒ用の入力特徴量マップ、Ｇ用の入力特徴量マップ及びＲ用の入力特徴量マップとして、３個の入力特徴量マップを備える。

畳み込み層は、畳み込み対象である重みフィルタを備えており、重みフィルタは、カーネルと呼ばれる。
図１０の例では、カーネルの２次元サイズは、Ａ方向が３、Ｂ方向が３である。
また、カーネルは、３次元構造のデータであり、入力特徴量マップと同じ奥行サイズを持っている。したがって、入力特徴量がｋ個の入力特徴量マップを備えていれば、カーネルの奥行サイズはｋとなる。図１０では、カーネルをｋマップで表記している。

特徴量抽出部５は、入力特徴マップである平面上を、カーネルを移動させながら、以下の式（１）に示す畳み込み処理の計算を実施する。

式（１）において、ｘ（ｃ１−ｂ１＋ｐａｄ_Ａ，ｃ２−ｂ２＋ｐａｄ_Ｂ，ｂ３）における「ｃ１−ｂ１＋ｐａｄ_Ａ」は、入力特徴量ｘ（ａ１，ａ２，ａ３）における「ａ１」に対応し、「ｃ２−ｂ２＋ｐａｄ_Ｂ」は、入力特徴量ｘ（ａ１，ａ２，ａ３）における「ａ２」に対応する。また、「ｂ３」は、入力特徴量ｘ（ａ１，ａ２，ａ３）における「ａ３」に対応する。
ｗ（ｂ１，ｂ２，ｂ３）は、カーネルの重み値を示すパラメータであり、パラメータ更新部７によって更新される第１のニューラルネットワークのパラメータである。
ｙ（ｃ１，ｃ２）は、書類画像における各領域の出力特徴量である。

ｐａｄ_Ａ及びｐａｄ_Ｂのそれぞれは、事前に設定されるパッディングパラメータであり、畳み込み処理の計算時に、入力特徴マップの領域からカーネルがはみ出しても、計算可能な範囲を示すパラメータである。
例えば、ｐａｄ_Ａ＝１であれば、入力特徴マップの領域からカーネルがＡ方向に１マスはみ出しても、畳み込み処理の計算が可能であるが、カーネルがＡ方向に２マスはみ出していれば、畳み込み処理の計算が不可能であることを意味している。
また、ｐａｄ_Ｂ＝２であれば、入力特徴マップの領域からカーネルがＢ方向に２マスはみ出しても、畳み込み処理の計算が可能であるが、カーネルがＢ方向に３マスはみ出していれば、畳み込み処理の計算が不可能であることを意味している。

パッディングパラメータｐａｄ_Ａ，ｐａｄ_Ｂの値によって、畳み込み層から出力される複数の領域の特徴量である出力特徴量マップのサイズが変化する。図１０では、入力特徴量マップと出力特徴量マップが同じサイズのマップである例を示している。
例えば、入力特徴マップの領域から−Ａ方向にカーネルがはみ出しているとき、式（１）に示す畳み込み処理の計算では、一部の入力特徴量ｘ（ａ１，ａ２，ａ３）のインデックスがマイナスになる。このとき、特徴量抽出部５は、インデックスがマイナスである入力特徴量ｘ（ａ１，ａ２，ａ３）をゼロで埋めるゼロパッディングを実施するようにしてもよい。ただし、ゼロパッディングの実施は必須ではなく、ゼロパッディングを実施しないようにしてもよい。

畳み込み処理に関するパラメータは、カーネルの２次元サイズ及びパッディングパラメータｐａｄ_Ａ，ｐａｄ_Ｂのほかに、カーネルの移動量を示すストライドパラメータがある。
図１０では、ｐａｄ_Ａ＝１、ｐａｄ_Ｂ＝１、ストライドパラメータ＝１であり、カーネルを１つずつ移動させながら、式（１）に示す畳み込み処理の計算を実施している例を示している。
例えば、出力特徴量の中の１個の領域の特徴量ｙ（１，１）は、入力特徴量の中の９個の領域の特徴量ｘ（ａ１，ａ２，ａ３）、即ち、ｘ（０，０，０）、ｘ（０，１，０）、ｘ（０，２，０）、ｘ（１，０，０）、ｘ（１，１，０）、ｘ（１，２，０）、ｘ（２，０，０）、ｘ（２，１，０）及びｘ（２，２，０）についての計算結果を示している。

入力データの様々なパターンの特徴を抽出するためには、複数のカーネルと入力特徴量との畳み込み処理の計算を実施することが望ましい。
式（１）は、カーネルが１つである例を示しており、以下の式（２）は、カーネルが複数である場合の畳み込み処理の計算を示している。

式（２）において、ｋは、出力特徴量マップのインデックスである。出力特徴量マップの個数は、カーネルの個数と同じである。

図１１は、プーリング層におけるプーリング処理を示す説明図である。
この実施の形態１において、特徴量抽出部５が実施するプーリング層におけるプーリング処理は、一般的なプーリング処理と異なる。
即ち、特徴量抽出部５が実施するプーリング処理は、一般的なプーリング処理と同様に、出力特徴量マップの一部の領域である局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出して、抽出した特徴量を出力する。
特徴量抽出部５が実施するプーリング処理は、一般的なプーリング処理と異なり、抽出した特徴量が存在している書類画像内の位置を示す位置情報についても出力する。

プーリング層は、図１０に示す畳み込み層と同様に、カーネルの２次元サイズ、パッディングパラメータ及びストライドパラメータによって構造が変化する。
図１１では、Ａ方向が４、Ｂ方向が４及びＣ方向がＫである（４×４×Ｋ）の入力特徴量に対して、Ａ方向が２、Ｂ方向が２及びＣ方向がＫである（２×２×Ｋ）のカーネルを用いて、プーリング処理を実施した結果、Ａ方向が２、Ｂ方向が２及びＣ方向がＫである（２×２×Ｋ）の出力特徴量が得られている例を示している。図１１の例では、カーネルのストライド値は２、パッディング値はゼロである。

具体的には、プーリング処理によって、入力特徴量マップにおける（２×２×Ｋ）の局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出している。
例えば、出力特徴量の中の１個の領域の特徴量（０，０，０）は、入力特徴量の中の４個の領域の特徴量ｘ（ａ１，ａ２，ａ３）、即ち、ｘ（０，０，０）、ｘ（０，１，０）、ｘ（１，０，０）及びｘ（１，１，０）の中で、最大の特徴量ｘ（０，０，０）を抽出している。そして、抽出した最大の特徴量ｘ（０，０，０）を出力している。
また、抽出した最大の特徴量ｘ（０，０，０）が存在している書類画像内の位置を示す位置情報を出力している。

図１１では、最大の特徴量が存在している書類画像内の位置を示す位置情報として、局所最大値位置を示す位置マップを例示している。
位置マップは、入力特徴量と同じ３次元構造のデータとして表現されている。
位置マップにおいて、最大の特徴量に対応する書類画像内の位置には“１”が表記され、最大の特徴量以外の特徴量に対応する書類画像内の位置には“０”が表記されている。
ここでは、位置情報が、３次元構造の位置マップである例を示しているが、最大の特徴量が存在している書類画像内の位置が分かればよく、位置情報のデータ構造は、どのような構造であってもよい。

以下の式（３）は、プーリング処理の計算を示している。
式（３）は、演算子ｆ（．）を利用して、入力特徴量マップにおける４つの領域を含む局所領域から、１つの特徴量を出力する例を示している。

この実施の形態１では、演算子ｆ（．）が、最大値を演算する演算子である例を示しており、このような演算子ｆ（．）が用いられるプーリング処理は、最大プーリング（ＭａｘＰｏｏｌｉｎｇ）と呼ばれる。
プーリング層におけるプーリング処理が最大プーリングである場合、１つの特徴量として局所領域の最大値を計算すると同時に、最大値となる書類画像内の位置を示す位置情報も計算される。４つの領域を含む局所領域の中に、最大値となる書類画像内の位置が２つ以上存在する場合、２つ以上の位置を示す位置情報を出力するようにしてもよい。
プーリング層におけるプーリング処理は、最大プーリングに限るものではなく、例えば、平均プーリング（ＡｖｅｒａｇｅＰｏｏｌｉｎｇ）などの他のプーリング処理であってもよい。
プーリング層におけるプーリング処理が平均プーリングである場合、式（３）における演算子ｆ（．）は、平均値を演算する演算子となる。

なお、プーリング処理に関するパラメータの中には、パラメータ更新部７によって更新されるパラメータはない。
この実施の形態１では、特徴量抽出部５が有している第１のニューラルネットワークがＣＮＮである例を示しているが、ＣＮＮに限るものではなく、例えば、ディープニューラルネットなどの多層構造を持つニューラルネットであってもよい。

画像再構築部６は、特徴量抽出部５が有している第１のニューラルネットワークから出力された特徴量を入力して、書類画像を二値画像として再構築した画像である再構築画像を出力する第２のニューラルネットワークを有している。
画像再構築部６が有している第２のニューラルネットワークはＣＮＮであり、第２のニューラルネットワークは、逆プーリング処理を実施する逆プーリング層と、二値画像の特徴量の畳み込みを行う畳み込み層とを含んでいる。

図１２は、画像再構築部６が有している第２のニューラルネットワークの構成例を示す説明図である。
図１２において、ＩＮＰＵＴは、特徴量の入力部であり、ＩＮＰＵＴから入力される特徴量は、特徴量抽出部５が有している第１のニューラルネットワークから出力された特徴量である。
ＯＵＴＰＵＴは、特徴量の出力部であり、ＯＵＴＰＵＴから出力される複数の領域の特徴量である出力特徴量のサイズは、図１０に示す入力特徴量のサイズと同じサイズである。
ＵＮＰＯＯＬ（１）及びＵＮＰＯＯＬ（２）のそれぞれは、第２のニューラルネットワークに含まれている逆プーリング層である。
第２のニューラルネットワークに含まれているＵＮＰＯＯＬ（１）は、図９に示すＰＯＯＬ（２）と対応し、第２のニューラルネットワークに含まれているＵＮＰＯＯＬ（２）は、図９に示すＰＯＯＬ（１）と対応している。
ＣＯＮＶ（１）、ＣＯＮＶ（２）及びＣＯＮＶ（３）のそれぞれは、第２のニューラルネットワークに含まれている畳み込み層である。畳み込み層では、再構築画像の特徴量の畳み込みを実施した後、活性化関数の演算が行われるが、図１２では、活性化関数の演算の表記を省略している。

画像再構築部６が有している第２のニューラルネットワークに含まれている畳み込み層は、特徴量抽出部５が有している第１のニューラルネットワークに含まれている畳み込み層と同様に、入力特徴量マップのサイズと出力特徴量マップのサイズとが同じである。
画像再構築部６が、期待された機械学習効果を達成するためには、特徴量抽出部５が有している第１のニューラルネットワークから出力された複数の領域の特徴量である出力特徴量のサイズを、図１０に示す入力特徴量のサイズに戻す必要がある。
即ち、特徴量抽出部５が有している第１のニューラルネットワークに含まれているプーリング層のプーリング処理によって、サイズが小さくなっている出力特徴量である特徴量マップのサイズを、画像再構築部６が、当該プーリング処理が実施される前の入力特徴量のサイズに戻す必要がある。
このため、画像再構築部６が有している第２のニューラルネットワークは、特徴量抽出部５が有している第１のニューラルネットに含まれているプーリング層に対応する逆プーリング層を含んでいる。

具体的には、特徴量抽出部５が、図１１に示すように、プーリング層のプーリング処理を実施することで、入力特徴量のサイズを４分の１の大きさにしている場合、画像再構築部６が、図１３に示すように、逆プーリング層の逆プーリング処理を実施することで、入力特徴量のサイズを４倍にしている。
図１３は、逆プーリング層における逆プーリング処理を示す説明図である。

画像再構築部６が実施する逆プーリング層の逆プーリング処理において、逆プーリング層と対応するプーリング層から出力された位置情報を利用するに際し、逆プーリング層と対応するプーリング層の出力特徴量のサイズと、当該逆プーリング層の入力特徴量のサイズとが一致している。また、逆プーリング層と対応するプーリング層の入力特徴量のサイズと当該逆プーリング層の出力特徴量のサイズとが一致している。
図１３に示す逆プーリング処理では、（２×２×Ｋ）の入力特徴量を（４×４×Ｋ）の出力特徴量に変換する例を示している。
また、図１３に示す逆プーリング処理では、対応するプーリング層から取得した位置情報を入力し、（４×４×Ｋ）の出力特徴量のうち、位置情報が示す最大値の位置の特徴量に、入力特徴量の値を挿入し、位置情報が示す最大値の位置以外の位置の特徴量に、ゼロを挿入している。

例えば、入力特徴量ｘ（０，０，０）は、（４×４×Ｋ）の出力特徴量において、Ａ方向で左から２番目及びＢ方向で上から２番目の位置に挿入されている。
また、入力特徴量ｘ（０，１，０）は、（４×４×Ｋ）の出力特徴量において、Ａ方向で左から３番目及びＢ方向で上から１番目の位置に挿入されている。
また、入力特徴量ｘ（１，０，０）は、（４×４×Ｋ）の出力特徴量において、Ａ方向で左から２番目及びＢ方向で上から３番目の位置に挿入されている。
入力特徴量ｘ（１，１，０）は、（４×４×Ｋ）の出力特徴量において、Ａ方向で左から３番目及びＢ方向で上から４番目の位置に挿入されている。
（４×４×Ｋ）の出力特徴量の他の位置には、ゼロが挿入されている。

パラメータ更新部７は、画像再構築部６が有している第２のニューラルネットワークから出力された再構築画像と、二値画像変換部３から出力された二値画像との差分を算出する。
パラメータ更新部７は、算出した差分が最小になるように、特徴量抽出部５が有している第１のニューラルネットワークのパラメータ及び画像再構築部６が有している第２のニューラルネットワークのパラメータのそれぞれを更新する。
即ち、パラメータ更新部７は、算出した差分が最小になるように、第１のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）及び第２のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）のそれぞれを更新する。
パラメータ更新部７により算出される再構築画像と二値画像との差分としては、例えば、再構築画像と二値画像との平均２乗誤差（ＭＳＥ：ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）でもよいし、再構築画像と二値画像とのクロスエントロピーでもよい。
また、パラメータ更新部７が、差分が最小になるように、パラメータを更新する最適化アルゴリズムとして、例えば、確率的勾配降下法などを用いることができる。

パラメータ記憶部８は、パラメータ更新部７により更新された第１のニューラルネットワークのパラメータとして、パラメータ更新部７により更新された第１のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）を記憶する。
また、パラメータ記憶部８は、パラメータ更新部７により更新された第２のニューラルネットワークのパラメータとして、パラメータ更新部７により更新された第２のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）を記憶する。

次に、図４の画像認識装置の動作について説明する。
第１の特徴量検出部３４は、登録画像記憶部３１に記憶されている登録画像を入力して、登録画像の特徴量を出力するとともに、認識対象画像記憶部３２に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する第１のニューラルネットワークを有している。
第１の特徴量検出部３４が有している第１のニューラルネットワークは、図１の機械学習装置の特徴量抽出部５が有している第１のニューラルネットワークと同じニューラルネットワークである。
したがって、第１の特徴量検出部３４が有している第１のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）は、再構築画像と二値画像との差分が最小になるように、図１の機械学習装置のパラメータ更新部７によって最適化されている。

画像再生成部３５は、第１の特徴量検出部３４が有している第１のニューラルネットワークから出力された登録画像の特徴量を入力して、登録画像を再構築した画像である再構築登録画像を出力するとともに、第１の特徴量検出部３４が有している第１のニューラルネットワークから出力された認識対象画像の特徴量を入力して、認識対象画像を再構築した画像である再構築認識画像を出力する第２のニューラルネットワークを有している。
画像再生成部３５が有している第２のニューラルネットワークは、図１の機械学習装置の画像再構築部６が有している第２のニューラルネットワークと同じニューラルネットワークである。
したがって、画像再生成部３５が有している第２のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）は、再構築画像と二値画像との差分が最小になるように、図１の機械学習装置のパラメータ更新部７によって最適化されている。

第２の特徴量検出部３６は、画像再生成部３５が有している第２のニューラルネットワークから出力された再構築登録画像を入力して、再構築登録画像の特徴量を出力するとともに、画像再生成部３５が有している第２のニューラルネットワークから出力された再構築認識画像を入力して、再構築認識画像の特徴量を出力する第１のニューラルネットワークを有している。
第２の特徴量検出部３６が有している第１のニューラルネットワークは、図１の機械学習装置の特徴量抽出部５が有している第１のニューラルネットワークと同じニューラルネットワークである。
したがって、第２の特徴量検出部３６が有している第１のニューラルネットワークにおけるカーネルの重み値を示すパラメータｗ（ｂ１，ｂ２，ｂ３）は、再構築画像と二値画像との差分が最小になるように、図１の機械学習装置のパラメータ更新部７によって最適化されている。

なお、第２の特徴量検出部３６が有している第１のニューラルネットワークに含まれているプーリング層は、位置情報を出力する必要がない。
図１の機械学習装置の特徴量抽出部５が有している第１のニューラルネットワーク及び画像再構築部６が有している第２のニューラルネットワークのそれぞれがＣＮＮである場合、第１の特徴量検出部３４が有している第１のニューラルネットワーク及び第２の特徴量検出部３６が有している第１のニューラルネットワークは、自由パラメータとして、畳み込み層のカーネルだけを持っている。このため、カーネルのサイズが同じであれば、パラメータ更新部７により更新されたパラメータを学習済みのパラメータとして利用できるため、図１の機械学習装置における各々の畳み込み層の特徴量マップと、図４の画像認識装置における各々の畳み込み層の特徴量マップとのサイズが異なっていてもよい。

登録画像記憶部３１は、１つ以上の書類画像を登録画像として記憶している。
この登録画像は、図１の機械学習装置の学習画像記憶部１に記憶されている書類画像と同じ書類画像であってもよいし、図１の機械学習装置の学習画像記憶部１に記憶されている書類画像と異なる書類画像であってもよい。
認識対象画像記憶部３２は、認識対象の書類画像である認識対象画像を記憶している。
特徴量検出部３３は、登録画像記憶部３１に記憶されている登録画像の特徴量を特徴量記憶部３７に登録する登録処理と、認識対象画像記憶部３２に記憶されている認識対象画像と類似している登録画像を検索する検索処理を可能にするために、認識対象画像の特徴量を抽出する前処理とを実施する。

最初に、特徴量検出部３３の登録処理の動作について説明する。
特徴量検出部３３の第１の特徴量検出部３４は、登録画像記憶部３１に記憶されている１つ以上の登録画像の中から、１つの登録画像を順番に入力する。
第１の特徴量検出部３４が有している第１のニューラルネットワークは、１つの登録画像を入力すると、登録画像の特徴量を出力する。
第１の特徴量検出部３４は、登録画像の特徴量を特徴量記憶部３７に格納するとともに、登録画像の特徴量を画像再生成部３５に出力する。

特徴量検出部３３の画像再生成部３５は、第１の特徴量検出部３４から出力された登録画像の特徴量を入力する。
画像再生成部３５が有している第２のニューラルネットワークは、登録画像の特徴量を入力すると、登録画像を再構築した画像である再構築登録画像を出力する。
画像再生成部３５は、再構築登録画像を第２の特徴量検出部３６及び画像検索部３８に出力する。
画像検索部３８の画像記憶部３８ａは、画像再生成部３５から出力された再構築登録画像を記憶する。
なお、画像再生成部３５から出力される再構築登録画像は、登録画像の二値画像に相当する画像ではあるが、登録画像の特徴量から再構築した画像であるため、登録画像の二値画像と完全に一致しているとは限らない。

特徴量検出部３３の第２の特徴量検出部３６は、画像再生成部３５から出力された再構築登録画像を入力する。
第２の特徴量検出部３６が有している第１のニューラルネットワークは、再構築登録画像を入力すると、再構築登録画像の特徴量を出力する。
第２の特徴量検出部３６は、再構築登録画像の特徴量を特徴量記憶部３７に格納する。
登録画像記憶部３１に記憶されている登録画像の個数がＮ個であれば、特徴量記憶部３７には、第１の特徴量検出部３４から出力されたＮ個の登録画像の特徴量と、第２の特徴量検出部３６から出力されたＮ個の再構築登録画像の特徴量が記憶される。
第２の特徴量検出部３６から出力された再構築登録画像の特徴量は、画像再生成部３５により再構築された画像である再構築登録画像から抽出された特徴量であるため、第１の特徴量検出部３４が有している第１のニューラルネットワークから出力された登録画像の特徴量よりも、多くの外乱の影響が除去されている。

次に、特徴量検出部３３による検索処理の前処理について説明する。
特徴量検出部３３の第１の特徴量検出部３４は、認識対象画像記憶部３２に記憶されている認識対象の書類画像である認識対象画像を入力する。
第１の特徴量検出部３４が有している第１のニューラルネットワークは、認識対象画像を入力すると、認識対象画像の特徴量を出力する
第１の特徴量検出部３４は、認識対象画像の特徴量を画像再生成部３５及び画像検索部３８のそれぞれに出力する。

特徴量検出部３３が有している画像再生成部３５は、第１の特徴量検出部３４から出力された認識対象画像の特徴量を入力する。
画像再生成部３５の第２のニューラルネットワークは、認識対象画像の特徴量を入力すると、認識対象画像を再構築した画像である再構築認識画像を出力する。
画像再生成部３５は、再構築認識画像を第２の特徴量検出部３６に出力する。

特徴量検出部３３の第２の特徴量検出部３６は、画像再生成部３５から出力された再構築認識画像を入力する。
第２の特徴量検出部３６が有している第１のニューラルネットワークは、再構築認識画像を入力すると、再構築認識画像の特徴量を出力する。
第２の特徴量検出部３６は、再構築認識画像の特徴量を画像検索部３８に出力する。

登録画像記憶部３１に記憶されている１つ以上の登録画像と、認識対象画像記憶部３２に記憶されている認識対象画像とが、同じ環境下又は類似している環境下で取得された画像である場合、登録画像と認識対象画像とが受けている外乱の影響はほんとんど同じである。
このため、画像検索部３８が、認識対象画像と類似している登録画像を検索する際、第１の特徴量検出部３４から出力された登録画像の特徴量と、第１の特徴量検出部３４から出力された認識対象画像の特徴量とを比較すれば十分である。したがって、多くの外乱の影響が除去されている第２の特徴量検出部３６から出力された再構築登録画像の特徴量と、多くの外乱の影響が除去されている第２の特徴量検出部３６から出力された再構築認識画像の特徴量とを比較する必要性が低い。

登録画像記憶部３１に記憶されている１つ以上の登録画像と、認識対象画像記憶部３２に記憶されている認識対象画像とが、異なる環境下で取得された画像である場合、登録画像と認識対象画像とが受けている外乱の影響が異なる。
このため、画像検索部３８が、認識対象画像と類似している登録画像を検索する際、第１の特徴量検出部３４から出力された登録画像の特徴量と、第１の特徴量検出部３４から出力された認識対象画像の特徴量とを比較するだけでは不十分である。したがって、多くの外乱の影響が除去されている第２の特徴量検出部３６から出力された再構築登録画像の特徴量と、多くの外乱の影響が除去されている第２の特徴量検出部３６から出力された再構築認識画像の特徴量とを比較する必要性が高い。

この実施の形態１では、画像検索部３８による比較対象の特徴量が、第１の特徴量検出部３４から出力される登録画像の特徴量と認識対象画像の特徴量とにするのか、第２の特徴量検出部３６から出力される再構築登録画像の特徴量と再構築認識画像の特徴量とするのかは、事前にユーザによって設定されるものとする。
以下、画像検索部３８による比較対象の特徴量が、第１の特徴量検出部３４から出力される登録画像の特徴量と認識対象画像の特徴量とする設定を「設定Ａ」と称する。
画像検索部３８による比較対象の特徴量が、第２の特徴量検出部３６から出力される再構築登録画像の特徴量と再構築認識画像の特徴量とする設定を「設定Ｂ」と称する。

画像検索部３８は、設定Ａの場合、特徴量記憶部３７により記憶されている１つ以上の登録画像の特徴量のうち、第１の特徴量検出部３４から出力された１つ以上の登録画像の特徴量と、第１の特徴量検出部３４から出力された認識対象画像の特徴量との類似度を算出する。
特徴量の類似度を算出するアルゴリズムは、特に限定するものではないが、例えば、コサイン類似度（ＣｏｓｉｎｅＳｉｍｉｌａｒｉｔｙ）を使用することができる。
画像検索部３８は、第１の特徴量検出部３４から出力された１つ以上の登録画像の特徴量と、第１の特徴量検出部３４から出力された認識対象画像の特徴量との類似度を算出すると、登録画像記憶部３１により記憶されている１つ以上の登録画像の中で、算出した類似度が最も高い登録画像を特定する。
画像検索部３８は、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この場合、画像検索部３８が、認識対象画像と類似している登録画像を検索する際、画像再生成部３５及び第２の特徴量検出部３６が処理を実施する必要がないため、登録画像の検索結果が得られるまでの時間を短縮することができる。

画像検索部３８は、設定Ｂの場合、特徴量記憶部３７により記憶されている１つ以上の登録画像の特徴量のうち、第２の特徴量検出部３６から出力された１つ以上の再構築登録画像の特徴量と、第２の特徴量検出部３６から出力された再構築認識画像の特徴量との類似度を算出する。
画像検索部３８は、第２の特徴量検出部３６から出力された１つ以上の再構築登録画像の特徴量と、第２の特徴量検出部３６から出力された再構築認識画像の特徴量との類似度を算出すると、画像記憶部３８ａにより記憶されている１つ以上の再構築登録画像の中で、算出した類似度が最も高い再構築登録画像を特定する。
画像検索部３８は、特定した再構築登録画像に対応する登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この場合、画像検索部３８が、認識対象画像と類似している登録画像を検索する際、画像再生成部３５及び第２の特徴量検出部３６が前処理を実施する必要があるため、設定Ａの場合よりも、登録画像の検索結果が得られるまでの時間が長くなるが、登録画像と認識対象画像が取得された環境が異なる場合でも、認識対象画像と類似している登録画像の検索精度の劣化を抑えることができる。

ここでは、設定Ｂの場合、画像検索部３８が、第２の特徴量検出部３６から出力された１つ以上の再構築登録画像の特徴量と、第２の特徴量検出部３６から出力された再構築認識画像の特徴量との類似度を算出する例を示しているが、これに限るものではなく、例えば、以下のようにして、類似度を算出する方法が考えられる。
画像検索部３８は、第１の特徴量検出部３４から出力された１つ以上の登録画像の特徴量と、第１の特徴量検出部３４から出力された認識対象画像の特徴量との類似度（以下、類似度Ｒ１と称する）を算出する。
また、画像検索部３８は、第２の特徴量検出部３６から出力された１つ以上の再構築登録画像の特徴量と、第２の特徴量検出部３６から出力された再構築認識画像の特徴量との類似度（以下、類似度Ｒ２と称する）を算出する。
そして、画像検索部３８は、最終的な類似度Ｒとして、類似度Ｒ１と類似度Ｒ２の平均値、あるいは、類似度Ｒ１と類似度Ｒ２の重み付け加算値などを算出する。
画像検索部３８は、最終的な類似度Ｒを算出すると、１つ以上の登録画像の中で、算出した類似度Ｒが最も高い登録画像を特定する。
画像検索部３８は、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。

この実施の形態１では、画像検索部３８が、登録画像記憶部３１に記憶されている登録画像毎に、当該登録画像の特徴量と認識対象画像の特徴量との類似度を算出する例を示している。
同じ種類の登録画像（以下、同種登録画像と称する）が複数存在しており、複数の同種登録画像が登録画像記憶部３１に記憶されている場合、画像検索部３８が、特徴量記憶部３７により記憶されている複数の同種登録画像と、認識対象画像の特徴量との類似度をそれぞれ算出する。
そして、画像検索部３８が、同種登録画像の特徴量と認識対象画像の特徴量との類似度として、それぞれ算出した類似度の平均値を算出するようにしてもよい。
この場合、登録画像記憶部３１に記憶されている登録画像の個数がＮ個であっても、登録画像記憶部３１に記憶されている登録画像の種類がＭ（Ｎ≧Ｍ）であれば、画像検索部３８は、Ｍ種類の同種登録画像の中から、認識対象画像と類似している同種登録画像を検索するようになる。

以上で明らかなように、この実施の形態１によれば、学習画像を二値画像に変換する二値画像変換部３と、学習画像を入力して、学習画像の特徴量を出力する第１のニューラルネットワークを有する特徴量抽出部５と、第１のニューラルネットワークから出力された特徴量を入力して、再構築画像を出力する第２のニューラルネットワークを有する画像再構築部６とを設け、パラメータ更新部７が、第２のニューラルネットワークから出力された再構築画像と、二値画像変換部３により変換された二値画像との差分に従って第１のニューラルネットワークのパラメータ及び第２のニューラルネットワークのパラメータのそれぞれを更新するように構成したので、教師データを用いることなく、学習画像を入力して、学習画像の特徴量を出力する第１のニューラルネットワークのパラメータを更新することができる効果を奏する。

また、この実施の形態１によれば、登録画像が与えられると、登録画像の特徴量を出力し、認識対象画像が与えられると、認識対象画像の特徴量を出力するニューラルネットワークを有する特徴量検出部３３と、特徴量検出部３３が有しているニューラルネットワークから出力された登録画像の特徴量を記憶する特徴量記憶部３７と、特徴量記憶部３７により記憶されている１つ以上の登録画像の特徴量と、特徴量検出部３３が有しているニューラルネットワークから出力された認識対象画像の特徴量とを比較して、１つ以上の登録画像の中から、認識対象画像と類似している登録画像を検索する画像検索部３８とを備え、特徴量検出部３３が有しているニューラルネットワークのパラメータが機械学習装置によって更新されているように構成したので、機械学習装置によりパラメータが更新されたニューラルネットワークを用いて、認識対象画像と類似している登録画像を検索することができる効果を奏する。
これにより、例えば、ユーザは、画像認識装置により検索された登録画像の種類を確認することで、認識対象画像の種類を把握することができるようになる。

この実施の形態１では、図４の画像認識装置の登録画像記憶部３１に記憶される登録画像が、図１の機械学習装置の学習画像記憶部１に記憶されている書類画像と同じ画像であってもよいし、図１の機械学習装置の学習画像記憶部１に記憶されている書類画像と異なる画像であってもよい旨を上述している。
例えば、学習画像記憶部１に記憶される書類画像と、登録画像及び認識対象画像とを取得する環境が類似している場合、あるいは、書類のジャンルが、書類画像、登録画像及び認識対象画像の間で類似している場合、登録画像及び認識対象画像が、書類画像と異なる画像であっても、認識対象画像と類似している登録画像を検索することができる。
即ち、図１の機械学習装置が、事前に書類画像と同じ登録画像及び認識対象画像を学習していない場合でも、認識対象画像と類似している登録画像を検索することができる。
なお、取得する環境には、画像を撮影している環境のほか、画像取得機材の違いも含まれる。
書類のジャンルが類似する態様として、例えば、異なる銀行の申請書又は異なる行政機関の用紙などが考えられる。

実施の形態２．
上記実施の形態１では、特徴量抽出部５が有している第１のニューラルネットワーク及び画像再構築部６が有している第２のニューラルネットワークのパラメータの初期状態については、特に言及していない。
この実施の形態２では、特徴量抽出部５が有している第１のニューラルネットワークは、何らかの学習データに基づいて事前にパラメータが学習されているニューラルネットワークであるものとする。
また、画像再構築部６が有している第２のニューラルネットワークについても、何らかの学習データに基づいて事前にパラメータが学習されているニューラルネットワークであるものとする。

また、図１の機械学習装置の学習画像記憶部１には、書類画像として認識対象画像が記憶されており、認識対象画像に基づいて、上記実施の形態１と同様に、パラメータ更新部７によって、第１のニューラルネットワークのパラメータ及び第２のニューラルネットワークのパラメータのそれぞれが更新されているものとする。
この場合、上記実施の形態１よりも学習時間が増加してしまうが、認識対象画像と類似している登録画像を、上記実施の形態１よりも正確に検索することができるようになる。

なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明は、書類画像を入力して、書類画像の特徴量を出力するニューラルネットワークのパラメータを更新する機械学習装置に適している。
また、この発明は、認識対象画像と類似している登録画像を検索する画像認識装置に適している。

１学習画像記憶部、２サンプリング部、３二値画像変換部、４画像生成部、５特徴量抽出部、６画像再構築部、７パラメータ更新部、８パラメータ記憶部、１１学習画像記憶回路、１２サンプリング回路、１３二値画像変換回路、１４画像生成回路、１５特徴量抽出回路、１６画像再構築回路、１７パラメータ更新回路、１８パラメータ記憶回路、２１メモリ、２２ストレージ、２３プロセッサ、２４画像入力器、２５結果出力器、３１登録画像記憶部、３２認識対象画像記憶部、３３特徴量検出部、３４第１の特徴量検出部、３５画像再生成部、３６第２の特徴量検出部、３７特徴量記憶部、３８画像検索部、３８ａ画像記憶部、４１登録画像記憶回路、４２認識対象画像記憶回路、４３特徴量検出回路、４４特徴量記憶回路、４５画像検索回路、５１メモリ、５２ストレージ、５３プロセッサ、５４画像入力器、５５結果出力器。

Claims

学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、
外乱の影響を受けている学習画像を入力して、前記外乱の影響を受けている学習画像の特徴量を出力する第１のニューラルネットワークを有する特徴量抽出部と、
前記第１のニューラルネットワークから出力された特徴量を入力して、前記外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第２のニューラルネットワークを有する画像再構築部と、
前記第２のニューラルネットワークから出力された再構築画像と、前記二値画像変換部により変換された二値画像との差分に従って前記第１のニューラルネットワークのパラメータ及び前記第２のニューラルネットワークのパラメータのそれぞれを更新するパラメータ更新部と
を備えた機械学習装置。
複数の学習画像の中から、いずれか１つの学習画像を順番に選択し、前記選択した学習画像を前記二値画像変換部及び前記特徴量抽出部のそれぞれに出力するサンプリング部を備えたことを特徴とする請求項１記載の機械学習装置。
前記サンプリング部は、前記選択した学習画像の画像サイズを変更するとともに、前記選択した学習画像を回転させる画像処理を実施し、画像処理後の学習画像の中から、一部の領域を抽出し、前記抽出した一部の領域を学習画像として、前記二値画像変換部及び前記特徴量抽出部のそれぞれに出力することを特徴とする請求項２記載の機械学習装置。
学習対象の画像である学習画像の画素値を調整して、前記外乱の影響を受けている学習画像を生成し、生成した前記外乱の影響を受けている学習画像を前記特徴量抽出部に出力する画像生成部を備えたことを特徴とする請求項１記載の機械学習装置。
前記特徴量抽出部は、前記第１のニューラルネットワークとして、畳み込みニューラルネットワークであるＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔ）を有し、
前記画像再構築部は、前記第２のニューラルネットワークとして、畳み込みニューラルネットワークであるＣＮＮを有していることを特徴とする請求項１記載の機械学習装置。
前記第１のニューラルネットワークは、前記外乱の影響を受けている学習画像の特徴量の畳み込みを行う畳み込み層を含んでおり、
前記畳み込み層の入力特徴量マップと、前記畳み込み層の出力特徴量マップとが同じサイズであることを特徴とする請求項５記載の機械学習装置。
前記第１のニューラルネットワークは、前記入力特徴量マップの一部の領域である局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出して、前記抽出した特徴量を出力するとともに、前記抽出した特徴量が存在している学習画像内の位置を示す位置情報を出力するプーリング層を含んでいることを特徴とする請求項６記載の機械学習装置。
前記第２のニューラルネットワークは、前記プーリング層から出力された特徴量及び位置情報を入力して、前記再構築画像を再構築する逆プーリング層を含んでいることを特徴とする請求項７記載の機械学習装置。
学習対象の画像である登録画像が与えられると、前記登録画像の特徴量を出力し、認識対象の学習画像である認識対象画像が与えられると、前記認識対象画像の特徴量を出力するニューラルネットワークを有する特徴量検出部と、
前記ニューラルネットワークから出力された登録画像の特徴量を記憶する特徴量記憶部と、
前記特徴量記憶部により記憶されている１つ以上の登録画像の特徴量と、前記ニューラルネットワークから出力された認識対象画像の特徴量とを比較して、前記１つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索する画像検索部とを備え、
前記特徴量検出部が有しているニューラルネットワークのパラメータが機械学習装置によって更新され、
前記機械学習装置は、
学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、
外乱の影響を受けている学習画像を入力して、前記外乱の影響を受けている学習画像の特徴量を出力する第１のニューラルネットワークを有する特徴量抽出部と、
前記第１のニューラルネットワークから出力された特徴量を入力して、前記外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第２のニューラルネットワークを有する画像再構築部と、
前記第２のニューラルネットワークから出力された再構築画像と、前記二値画像変換部により変換された二値画像との差分に従って前記第１のニューラルネットワークのパラメータ及び前記第２のニューラルネットワークのパラメータのそれぞれを更新するパラメータ更新部とを備えており、
前記特徴量検出部が有しているニューラルネットワークは、前記パラメータ更新部によりパラメータが更新された前記第１及び第２のニューラルネットワークであることを特徴とする画像認識装置。
前記特徴量検出部は、
前記登録画像を入力して、前記登録画像の特徴量を出力するとともに、前記認識対象画像を入力して、前記認識対象画像の特徴量を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第１のニューラルネットワークを有する第１の特徴量検出部と、
前記第１の特徴量検出部が有している第１のニューラルネットワークから出力された登録画像の特徴量を入力して、前記登録画像を再構築した画像である再構築登録画像を出力するとともに、前記第１の特徴量検出部が有している第１のニューラルネットワークから出力された認識対象画像の特徴量を入力して、前記認識対象画像を再構築した画像である再構築認識画像を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第２のニューラルネットワークを有する画像再生成部と、
前記画像再生成部が有している第２のニューラルネットワークから出力された再構築登録画像を入力して、前記再構築登録画像の特徴量を出力するとともに、前記画像再生成部が有している第２のニューラルネットワークから出力された再構築認識画像を入力して、前記再構築認識画像の特徴量を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第１のニューラルネットワークを有する第２の特徴量検出部とを備えており、
前記特徴量記憶部は、前記特徴量検出部が有しているニューラルネットワークから出力された登録画像の特徴量として、前記第１の特徴量検出部が有している第１のニューラルネットワークから出力された登録画像の特徴量及び前記第２の特徴量検出部が有している第１のニューラルネットワークから出力された再構築登録画像の特徴量のそれぞれを記憶することを特徴とする請求項９記載の画像認識装置。
前記画像検索部は、前記特徴量記憶部により記憶されている１つ以上の登録画像の特徴量のうち、前記第１の特徴量検出部が有している第１のニューラルネットワークから出力された１つ以上の登録画像の特徴量と、前記第１の特徴量検出部が有している第１のニューラルネットワークから出力された認識対象画像の特徴量とを比較して、１つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索し、あるいは、前記特徴量記憶部により記憶されている１つ以上の登録画像の特徴量のうち、前記第２の特徴量検出部が有している第１のニューラルネットワークから出力された１つ以上の再構築登録画像の特徴量と、前記第２の特徴量検出部が有している第１のニューラルネットワークから出力された再構築認識画像の特徴量とを比較して、１つ以上の再構築登録画像の中から、前記再構築認識画像と類似している再構築登録画像を検索することを特徴とする請求項１０記載の画像認識装置。
前記画像検索部は、前記特徴量記憶部により記憶されている１つ以上の登録画像の特徴量と、前記ニューラルネットワークから出力された認識対象画像の特徴量との類似度をそれぞれ算出し、それぞれ算出した類似度に基づいて、前記１つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索することを特徴とする請求項９記載の画像認識装置。
前記特徴量記憶部には、同じ種類の登録画像である同種登録画像が複数記憶されており、
前記画像検索部は、前記特徴量記憶部により記憶されている複数の同種登録画像と、前記ニューラルネットワークから出力された認識対象画像の特徴量との類似度をそれぞれ算出し、前記複数の同種登録画像を１つの登録画像とみなし、前記１つの登録画像の特徴量と前記認識対象画像の特徴量との類似度として、それぞれ算出した類似度の平均値を算出することを特徴とする請求項１２記載の画像認識装置。
前記学習画像として、前記認識対象画像が、前記二値画像変換部及び前記特徴量抽出部に与えられることを特徴とする請求項９記載の画像認識装置。