JP6320649B1 - 機械学習装置及び画像認識装置 - Google Patents

機械学習装置及び画像認識装置 Download PDF

Info

Publication number
JP6320649B1
JP6320649B1 JP2017554102A JP2017554102A JP6320649B1 JP 6320649 B1 JP6320649 B1 JP 6320649B1 JP 2017554102 A JP2017554102 A JP 2017554102A JP 2017554102 A JP2017554102 A JP 2017554102A JP 6320649 B1 JP6320649 B1 JP 6320649B1
Authority
JP
Japan
Prior art keywords
image
neural network
unit
feature amount
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017554102A
Other languages
English (en)
Other versions
JPWO2018179338A1 (ja
Inventor
雄心 趙
雄心 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6320649B1 publication Critical patent/JP6320649B1/ja
Publication of JPWO2018179338A1 publication Critical patent/JPWO2018179338A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Abstract

学習画像を二値画像に変換する二値画像変換部(3)と、学習画像を入力して、学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部(5)と、第1のニューラルネットワークから出力された特徴量を入力して、再構築画像を出力する第2のニューラルネットワークを有する画像再構築部(6)とを設け、パラメータ更新部(7)が、第2のニューラルネットワークから出力された再構築画像と、二値画像変換部(3)により変換された二値画像との差分に従って第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータのそれぞれを更新する。

Description

この発明は、学習画像を入力して、学習画像の特徴量を出力するニューラルネットワークのパラメータを更新する機械学習装置と、認識対象画像と類似している登録画像を検索する画像認識装置とに関するものである。
画像を分類する機械学習を実施することで、画像の特徴量を抽出するモデルのパラメータを更新する機械学習装置が以下の非特許文献1に開示されている。
この機械学習装置は、教師あり学習手法を利用する装置であるため、教師データを使用して、機械学習を実施する。
Han, Xufeng, et al. "Matchnet: Unifying feature and metric learning for patch-based matching." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015.
従来の機械学習装置は以上のように構成されているので、機械学習を実施する際に、大量の教師データを収集する必要がある。このため、大量の教師データを収集することが困難である場合、画像の特徴量を抽出するモデルのパラメータを更新して最適化することができない。その結果、モデルにより抽出される特徴量の精度が劣化してしまうことがあるという課題があった。
この発明は上記のような課題を解決するためになされたもので、教師データを用いることなく、学習画像を入力して、学習画像の特徴量を出力するニューラルネットワークのパラメータを更新することができる機械学習装置を得ることを目的とする。
また、この発明は、機械学習装置によりパラメータが更新されたニューラルネットワークを用いて、認識対象画像と類似している登録画像を検索することができる画像認識装置を得ることを目的とする。
この発明に係る機械学習装置は、学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、外乱の影響を受けている学習画像を入力して、外乱の影響を受けている学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部と、第1のニューラルネットワークから出力された特徴量を入力して、外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有する画像再構築部とを設け、パラメータ更新部が、第2のニューラルネットワークから出力された再構築画像と、二値画像変換部により変換された二値画像との差分に従って第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータのそれぞれを更新するようにしたものである。
この発明によれば教師データを用いることなく、学習画像を入力して、学習画像の特徴量を出力する第1のニューラルネットワークのパラメータを更新することができる効果がある。
この発明の実施の形態1による機械学習装置を示す構成図である。 この発明の実施の形態1による機械学習装置を示すハードウェア構成図である。 機械学習装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。 この発明の実施の形態1による画像認識装置を示す構成図である。 この発明の実施の形態1による画像認識装置を示すハードウェア構成図である。 画像認識装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。 この発明の実施の形態1による機械学習装置のサンプリング部2における処理内容を示すフローチャートである。 この発明の実施の形態1による機械学習装置の画像生成部4における処理内容を示すフローチャートである。 特徴量抽出部5が有している第1のニューラルネットワークの構成例を示す説明図である。 畳み込み層における畳み込み処理を示す説明図である。 プーリング層におけるプーリング処理を示す説明図である。 画像再構築部6が有している第2のニューラルネットワークの構成例を示す説明図である。 逆プーリング層における逆プーリング処理を示す説明図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、この発明の実施の形態1による機械学習装置を示す構成図であり、図2は、この発明の実施の形態1による機械学習装置を示すハードウェア構成図である。
この実施の形態1の機械学習装置は、学習対象の画像である学習画像として、書類が映っている画像である書類画像を利用するものとする。
ただし、これは一例に過ぎず、例えば、帳票が映っている画像である帳票画像を利用するものであってもよい。
図1及び図2において、学習画像記憶部1は、例えば図2に示す学習画像記憶回路11で実現されるものであり、事前に取得された複数の書類画像を記憶する。
学習画像記憶部1に記憶される書類画像は、例えば、グレースケールの画像であるものとする。このため、カラー画像の場合、学習画像記憶部1に記憶される前に、カラー画像がグレースケールの画像に変換されるものとする。
書類画像の取得方式は、特に限定するものではなく、例えば、スキャナーによって読み取られた書類画像でもよいし、カメラによって撮影された書類画像でもよい。
ただし、カメラによって撮影された画像を書類画像として用いる場合には、書類の真正面から見ているように撮影画像に補正を施し、補正後の撮影画像の中から、書類が映っている領域を書類画像として切り出すようにする。
この実施の形態1では、書類の用紙サイズを特定することができるものとし、学習画像記憶部1には、同じ用紙サイズの書類が映っている書類画像が記憶されるものとする。
書類の用紙サイズを特定することができない場合、学習画像記憶部1に記憶される書類画像は、全て同じ用紙サイズの書類が映っている書類画像であるものとする。
サンプリング部2は、例えば図2に示すサンプリング回路12で実現される。
サンプリング部2は、学習画像記憶部1に記憶されている複数の書類画像の中から、いずれか1つの書類画像を順番に選択する処理を実施する。
また、サンプリング部2は、選択した書類画像の画像サイズを変更するとともに、選択した書類画像を回転させる画像処理を実施する。
さらに、サンプリング部2は、画像処理後の書類画像の中から、二値画像変換部3により変換される二値画像と同じサイズの領域を抽出し、抽出した領域を書類画像として、二値画像変換部3及び画像生成部4のそれぞれに出力する処理を実施する。
二値画像変換部3は、例えば図2に示す二値画像変換回路13で実現される。
二値画像変換部3は、サンプリング部2から出力された書類画像を二値画像に変換し、変換した二値画像をパラメータ更新部7に出力する処理を実施する。
画像生成部4は、例えば図2に示す画像生成回路14で実現される。
画像生成部4は、サンプリング部2から出力された書類画像の画素値を調整して、外乱の影響を受けている書類画像を生成し、生成した書類画像を特徴量抽出部5に出力する処理を実施する。
外乱としては、書類画像を撮影している環境の要因のほか、画像取得機材の要因も含まれる。
このため、書類画像の調整処理として、例えば、ガウシアンノイズ及びごま塩ノイズを書類画像に付加する処理、書類画像のガウシアンぼかしを行う処理、書類画像のシャープネス、コントラスト及び輝度値を調整する処理などが考えられる。
特徴量抽出部5は、例えば図2に示す特徴量抽出回路15で実現される。
特徴量抽出部5は、画像生成部4から出力された書類画像を入力して、書類画像の特徴量を出力する第1のニューラルネットワークを有している。
この実施の形態1では、特徴量抽出部5が有している第1のニューラルネットワークは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Net)をあるものとする。
画像再構築部6は、例えば図2に示す画像再構築回路16で実現される。
画像再構築部6は、特徴量抽出部5が有している第1のニューラルネットワークから出力された特徴量を入力して、書類画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有している。
この実施の形態1では、画像再構築部6が有している第2のニューラルネットワークは、CNNをあるものとする。
パラメータ更新部7は、例えば図2に示すパラメータ更新回路17で実現される。
パラメータ更新部7は、画像再構築部6が有している第2のニューラルネットワークから出力された再構築画像と、二値画像変換部3から出力された二値画像との差分に従って特徴量抽出部5が有している第1のニューラルネットワークのパラメータ及び画像再構築部6が有している第2のニューラルネットワークのパラメータのそれぞれを更新する処理を実施する。
パラメータ記憶部8は、例えば図2に示すパラメータ記憶回路18で実現されるものであり、パラメータ更新部7により更新された第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータのそれぞれを記憶する。
図1では、機械学習装置の構成要素である学習画像記憶部1、サンプリング部2、二値画像変換部3、画像生成部4、特徴量抽出部5、画像再構築部6、パラメータ更新部7及びパラメータ記憶部8のそれぞれが、図2に示すような専用のハードウェアで実現されるものを想定している。即ち、学習画像記憶回路11、サンプリング回路12、二値画像変換回路13、画像生成回路14、特徴量抽出回路15、画像再構築回路16、パラメータ更新回路17及びパラメータ記憶回路18で実現されるものを想定している。
ここで、学習画像記憶回路11及びパラメータ記憶回路18のそれぞれは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)などの不揮発性又は揮発性の半導体メモリや、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD(Digital Versatile Disc)などが該当する。
また、サンプリング回路12、二値画像変換回路13、画像生成回路14、特徴量抽出回路15、画像再構築回路16及びパラメータ更新回路17は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field−Programmable Gate Array)、または、これらを組み合わせたものが該当する。
ただし、機械学習装置の構成要素は、専用のハードウェアで実現されるものに限るものではなく、機械学習装置がソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせで実現されるものであってもよい。
ソフトウェア又はファームウェアはプログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、DSP(Digital Signal Processor)などが該当する。
図3は、機械学習装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
機械学習装置がソフトウェア又はファームウェアなどで実現される場合、学習画像記憶部1及びパラメータ記憶部8をコンピュータのメモリ21又はストレージ22上に構成するとともに、サンプリング部2、二値画像変換部3、画像生成部4、特徴量抽出部5、画像再構築部6及びパラメータ更新部7の処理手順をコンピュータに実行させるためのプログラムをメモリ21又はストレージ22に格納し、コンピュータのプロセッサ23がメモリ21又はストレージ22に格納されているプログラムを実行するようにすればよい。
図3において、画像入力器24は、書類画像を入力する入力インタフェース機器であり、結果出力器25は、画像再構築部6が有している第2のニューラルネットワークから出力された再構築画像を出力する出力インタフェース機器である。
また、図2では、機械学習装置の構成要素のそれぞれが専用のハードウェアで実現される例を示し、図3では、機械学習装置がソフトウェアやファームウェアなどで実現される例を示しているが、機械学習装置における一部の構成要素が専用のハードウェアで実現され、残りの構成要素がソフトウェアやファームウェアなどで実現されるものであってもよい。
図4は、この発明の実施の形態1による画像認識装置を示す構成図であり、図5は、この発明の実施の形態1による画像認識装置を示すハードウェア構成図である。
図4及び図5において、登録画像記憶部31は、例えば図5に示す登録画像記憶回路41で実現されるものであり、1つ以上の書類画像(学習対象の画像)を登録画像として記憶する。
この登録画像は、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と同じ書類画像であってもよいし、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と異なる書類画像であってもよい。
認識対象画像記憶部32は、例えば図5に示す認識対象画像記憶回路42で実現されるものであり、認識対象の書類画像である認識対象画像を記憶する。
特徴量検出部33は、例えば図5に示す特徴量検出回路43で実現される。
特徴量検出部33は、第1の特徴量検出部34、画像再生成部35及び第2の特徴量検出部36を備えている。
特徴量検出部33は、登録画像の特徴量を特徴量記憶部37に登録する登録処理を実施する際には、実装しているニューラルネットワークを用いて、登録画像記憶部31に記憶されている登録画像を入力する毎に、当該登録画像の特徴量を出力する。
特徴量検出部33は、画像検索部38が認識対象画像と類似している登録画像を検索する検索処理を開始する前処理として、実装しているニューラルネットワークを用いて、認識対象画像記憶部32に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する。
第1の特徴量検出部34は、登録処理を実施する際には、登録画像記憶部31に記憶されている登録画像を入力して、登録画像の特徴量を出力するニューラルネットワークとして、図1の機械学習装置のパラメータ更新部7によりパラメータが更新された第1のニューラルネットワークを有している。
第1の特徴量検出部34は、検索処理の前処理を実施する際には、実装している第1のニューラルネットワークが、認識対象画像記憶部32に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する。
第1の特徴量検出部34が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
画像再生成部35は、登録処理を実施する際には、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された登録画像の特徴量を入力して、登録画像を再構築した画像である再構築登録画像を出力するニューラルネットワークとして、図1の機械学習装置のパラメータ更新部7によりパラメータが更新された第2のニューラルネットワークを有している。
画像再生成部35は、検索処理の前処理を実施する際には、実装している第2のニューラルネットワークが、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された認識対象画像の特徴量を入力して、認識対象画像を再構築した画像である再構築認識画像を出力する。
画像再生成部35が有している第2のニューラルネットワークは、図1の機械学習装置の画像再構築部6が有している第2のニューラルネットワークと同じニューラルネットワークである。
第2の特徴量検出部36は、登録処理を実施する際には、画像再生成部35が有している第2のニューラルネットワークから出力された再構築登録画像を入力して、再構築登録画像の特徴量を出力するニューラルネットワークとして、図1の機械学習装置のパラメータ更新部7によりパラメータが更新された第1のニューラルネットワークを有している。
第2の特徴量検出部36は、検索処理の前処理を実施する際には、実装している第1のニューラルネットワークが、画像再生成部35が有している第2のニューラルネットワークから出力された再構築認識画像を入力して、再構築認識画像の特徴量を出力する。
第2の特徴量検出部36が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
特徴量記憶部37は、例えば図5に示す特徴量記憶回路44で実現される。
特徴量記憶部37は、特徴量検出部36が有しているニューラルネットワークから出力された登録画像の特徴量として、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された登録画像の特徴量及び第2の特徴量検出部36が有している第1のニューラルネットワークから出力された再構築登録画像の特徴量のそれぞれを記憶する。
画像検索部38は、例えば図5に示す画像検索回路45で実現される。
画像検索部38の画像記憶部38aは、画像再生成部35から出力された再構築登録画像を記憶する。
この実施の形態1では、画像検索部38の画像記憶部38aが、画像再生成部35から出力された再構築登録画像を記憶するようにしているが、画像再生成部35が、再構築登録画像を記憶する画像記憶部を備えるようにしてもよい。あるいは、図4の画像認識装置が、画像再生成部35から出力された再構築登録画像を記憶する再構築登録画像記憶部を備えるようにしてもよい。
画像検索部38は、特徴量記憶部37により記憶されている1つ以上の登録画像の特徴量のうち、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度を算出する処理を実施する。
画像検索部38は、登録画像記憶部31により記憶されている1つ以上の登録画像の中で、算出した類似度が最も高い登録画像を特定し、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する処理を実施する。
また、画像検索部38は、特徴量記憶部37により記憶されている1つ以上の特徴量のうち、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度を算出する処理を実施する。
画像検索部38は、画像記憶部38aにより記憶されている1つ以上の再構築登録画像の中で、算出した類似度が最も高い再構築登録画像を特定し、特定した再構築登録画像に対応する登録画像を、認識対象画像と類似している登録画像の検索結果として出力する処理を実施する。
図4では、画像認識装置の構成要素である登録画像記憶部31、認識対象画像記憶部32、特徴量検出部33、特徴量記憶部37及び画像検索部38のそれぞれが、図5に示すような専用のハードウェアで実現されるものを想定している。即ち、登録画像記憶回路41、認識対象画像記憶回路42、特徴量検出回路43、特徴量記憶回路44及び画像検索回路45で実現されるものを想定している。
ここで、登録画像記憶回路41、認識対象画像記憶回路42及び特徴量記憶回路44のそれぞれは、例えば、RAM、ROM、フラッシュメモリ、EPROM、EEPROMなどの不揮発性又は揮発性の半導体メモリや、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。
また、特徴量検出回路43及び画像検索回路45は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、または、これらを組み合わせたものが該当する。
ただし、画像認識装置の構成要素は、専用のハードウェアで実現されるものに限るものではなく、機械学習装置がソフトウェア、ファームウェア、または、ソフトウェアとファームウェアとの組み合わせで実現されるものであってもよい。
図6は、画像認識装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
画像認識装置がソフトウェア又はファームウェアなどで実現される場合、登録画像記憶部31、認識対象画像記憶部32及び特徴量記憶部37をコンピュータのメモリ51又はストレージ52上に構成するとともに、特徴量検出部33及び画像検索部38の処理手順をコンピュータに実行させるためのプログラムをメモリ51又はストレージ52に格納し、コンピュータのプロセッサ53がメモリ51又はストレージ52に格納されているプログラムを実行するようにすればよい。
図6において、画像入力器54は、登録画像又は認識対象画像を入力する入力インタフェース機器であり、結果出力器55は、画像検索部38による登録画像の検索結果を出力する出力インタフェース機器である。
また、図5では、画像認識装置の構成要素のそれぞれが専用のハードウェアで実現される例を示し、図6では、画像認識装置がソフトウェアやファームウェアなどで実現される例を示しているが、画像認識装置における一部の構成要素が専用のハードウェアで実現され、残りの構成要素がソフトウェアやファームウェアなどで実現されるものであってもよい。
次に動作について説明する。
最初に、図1の機械学習装置の動作について説明する。
学習画像記憶部1には、事前に取得された複数の書類画像が記憶される。
この実施の形態1では、学習画像記憶部1に記憶される書類画像は、例えば、グレースケールの画像であるものとする。このため、カラー画像の場合、学習画像記憶部1に記憶される前に、カラー画像がグレースケールの画像に変換されるものとする。
サンプリング部2は、学習画像記憶部1に記憶されている複数の書類画像の中から、いずれか1つの書類画像を選択して、選択した書類画像を二値画像変換部3及び画像生成部4のそれぞれに出力する。
図7は、この発明の実施の形態1による機械学習装置のサンプリング部2における処理内容を示すフローチャートである。
以下、図7を参照しながら、サンプリング部2の処理内容を具体的に説明する。
サンプリング部2は、学習画像記憶部1に記憶されている複数の書類画像の中から、いずれか1つの書類画像をランダムに選択する(図7のステップST1)。
次に、サンプリング部2は、選択した書類画像の画像サイズを事前に設定されている画像サイズ(H,W)に変更する(図7のステップST2)。Hは書類画像の高さ、Wは書類画像の幅である。
次に、サンプリング部2は、画像スケールSを示すパラメータPを乱数によって求め、画像の回転角度θを示すパラメータPを乱数によって求める(図7のステップST3)。
サンプリング部2は、パラメータPが示す画像スケールSに基づいて、選択した書類画像の画像サイズを変更する画像処理を実施する(図7のステップST4)。
また、サンプリング部2は、選択した書類画像の中心を回転軸として、パラメータPが示す回転角度θだけ、選択した書類画像を回転させる画像処理を実施する(図7のステップST5)。
次に、サンプリング部2は、画像処理後の書類画像から切り出す一部の領域の座標(X,Y)を乱数によって決定する(図7のステップST6)。一部の領域の座標(X,Y)は、例えば、一部の領域の左上の角点の座標である。
サンプリング部2は、画像処理後の書類画像の中から、例えば、左上の角点の座標が、決定した座標(X,Y)である一部の領域を切り出す処理を実施する(図7のステップST7)。切り出し領域の画像サイズは、事前に設定されている画像サイズ(h,w)である。
サンプリング部2は、切り出した一部の領域を書類画像として、二値画像変換部3及び画像生成部4のそれぞれに出力する。
サンプリング部2は、学習画像記憶部1に記憶されている複数の書類画像の中に、未だ選択していない書類画像が残っているか否かを判定する(図7のステップST8)。
サンプリング部2は、未だ選択していない書類画像が残っていれば(図7のステップST8:YESの場合)、ステップST1〜ST8の処理を繰り返し実施する。
サンプリング部2は、既に選択していない書類画像が残っていなければ(図7のステップST8:NOの場合)、処理を終了する。
サンプリング部2の処理によって、有限の学習画像である書類画像から、近似的に無限の学習サンプルとして書類画像を生成することができる。このため、学習結果の汎化性能として、未知の対象の識別能力の向上が期待される。
二値画像変換部3は、サンプリング部2から出力された書類画像を二値画像に変換し、変換した二値画像をパラメータ更新部7に出力する。
書類画像を二値画像に変換するアルゴリズムとして、例えば、適応的閾値処理(Adaptive Threshold関数を用いる処理)を利用することができるが、書類画像を二値画像に変換することができればよく、どのようなアルゴリズムを利用してもよい。
画像生成部4は、サンプリング部2から書類画像が出力される毎に、当該書類画像の画素値を調整して、外乱の影響を受けている書類画像を生成し、生成した書類画像を特徴量抽出部5に出力する。
図8は、この発明の実施の形態1による機械学習装置の画像生成部4における処理内容を示すフローチャートである。
以下、図8を参照しながら、画像生成部4の調整処理を具体的に説明する。
この実施の形態1では、画像生成部4が以下の6つの調整処理を実施する例を説明するが、以下の6つの調整処理に限るものではなく、例えば、1つ以上5つ以下の調整処理、または、7つ以上の調整処理を実施するようにしてもよい。
また、以下の6つの調整処理の順序は、どのような順序でもよく、例えば、順序を乱数によって決定することができる。
画像生成部4は、サンプリング部2から出力された書類画像を受けると、書類画像を構成している各々の画素の輝度値に対して、例えば、乱数で決めた分散値をガウシアンノイズとして付加する調整処理を実施する(図8のステップST11)。
次に、画像生成部4は、書類画像を構成している各々の画素の中から、ごま塩ノイズを付加する画素を、乱数で決めた確率に基づいて決定する。
そして、画像生成部4は、決定した画素の輝度値を、当該画素の周辺の画素の輝度値と大きく変えることで、当該画素にごま塩ノイズを付加する(図8のステップST12)。
例えば、周辺の画素の輝度値が、二値画像変換部3における二値画像の閾値処理に用いる閾値よりも黒側の輝度値であれば、当該画素の輝度値を最も白い輝度値とする。
一方、周辺の画素の輝度値が、閾値よりも白側の輝度値であれば、当該画素の輝度値を最も黒い輝度値とする。
次に、画像生成部4は、例えば、ガウス関数を用いて、書類画像をぼかすガウシアンぼかし処理を実施する(図8のステップST13)。
次に、画像生成部4は、シャープネスを示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像のシャープネスを調整する処理を実施する(図8のステップST14)。
次に、画像生成部4は、コントラストを示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像のコントラストを調整する処理を実施する(図8のステップST15)。
次に、画像生成部4は、輝度値を示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像の輝度値を調整する処理を実施する(図8のステップST16)。
画像生成部4の調整処理によって、図4の画像認識装置に与えられる認識対象画像が、外乱の影響を受けている場合でも、認識対象画像に類似している画像の検索が可能になる。
特徴量抽出部5は、画像生成部4から出力された書類画像を入力して、書類画像の特徴量を出力する第1のニューラルネットワークを有している。
特徴量抽出部5が有している第1のニューラルネットワークはCNNであり、第1のニューラルネットワークは、書類画像の特徴量の畳み込みを行う畳み込み層と、プーリング処理を実施するプーリング層とを含んでいる。
図9は、特徴量抽出部5が有している第1のニューラルネットワークの構成例を示す説明図である。
図9において、INPUTは、画像の入力部であり、INPUTから入力される画像は、画像生成部4から出力された外乱の影響を受けている書類画像である。
OUTPUTは、特徴量の出力部であり、OUTPUTから出力される特徴量は、書類画像の特徴量である。
CONV(1)、CONV(2)及びCONV(3)のそれぞれは、第1のニューラルネットワークに含まれている畳み込み層である。畳み込み層では、書類画像の特徴量の畳み込みを実施した後、活性化関数の演算が行われるが、図9では、活性化関数の演算の表記を省略している。
POOL(1)及びPOOL(2)のそれぞれは、第1のニューラルネットワークに含まれているプーリング層である。
図10は、畳み込み層における畳み込み処理を示す説明図である。
図10に示す入力特徴量は、畳み込み層に入力される書類画像における複数の領域の特徴量を含んでおり、複数の領域の特徴量は、2次元構造のデータである入力特徴量マップに相当する。
図10では、書類画像が25個の領域(図中、縦5×横5個の領域)を備えている例を示している。即ち、書類画像は、A方向が5、B方向が5の領域を備えている例を示している。。
また、入力特徴量は、k(kは1以上の整数)個の入力特徴量マップを備えており、入力特徴量が2つ以上の入力特徴量マップを備えていれば、2つ以上の入力特徴量マップは、3次元構造のデータとして表現される。図10では、入力特徴量をkマップで表記している。
例えば、書類画像が、R(赤色)、G(緑色)及びB(青色)の色成分を有するカラー画像が、色成分毎に、グレースケールの画像に変換されている画像である場合、入力特徴量は、R用の入力特徴量マップ、G用の入力特徴量マップ及びR用の入力特徴量マップとして、3個の入力特徴量マップを備える。
畳み込み層は、畳み込み対象である重みフィルタを備えており、重みフィルタは、カーネルと呼ばれる。
図10の例では、カーネルの2次元サイズは、A方向が3、B方向が3である。
また、カーネルは、3次元構造のデータであり、入力特徴量マップと同じ奥行サイズを持っている。したがって、入力特徴量がk個の入力特徴量マップを備えていれば、カーネルの奥行サイズはkとなる。図10では、カーネルをkマップで表記している。
特徴量抽出部5は、入力特徴マップである平面上を、カーネルを移動させながら、以下の式(1)に示す畳み込み処理の計算を実施する。
Figure 0006320649
式(1)において、x(c1−b1+pad,c2−b2+pad,b3)における「c1−b1+pad」は、入力特徴量x(a1,a2,a3)における「a1」に対応し、「c2−b2+pad」は、入力特徴量x(a1,a2,a3)における「a2」に対応する。また、「b3」は、入力特徴量x(a1,a2,a3)における「a3」に対応する。
w(b1,b2,b3)は、カーネルの重み値を示すパラメータであり、パラメータ更新部7によって更新される第1のニューラルネットワークのパラメータである。
y(c1,c2)は、書類画像における各領域の出力特徴量である。
pad及びpadのそれぞれは、事前に設定されるパッディングパラメータであり、畳み込み処理の計算時に、入力特徴マップの領域からカーネルがはみ出しても、計算可能な範囲を示すパラメータである。
例えば、pad=1であれば、入力特徴マップの領域からカーネルがA方向に1マスはみ出しても、畳み込み処理の計算が可能であるが、カーネルがA方向に2マスはみ出していれば、畳み込み処理の計算が不可能であることを意味している。
また、pad=2であれば、入力特徴マップの領域からカーネルがB方向に2マスはみ出しても、畳み込み処理の計算が可能であるが、カーネルがB方向に3マスはみ出していれば、畳み込み処理の計算が不可能であることを意味している。
パッディングパラメータpad,padの値によって、畳み込み層から出力される複数の領域の特徴量である出力特徴量マップのサイズが変化する。図10では、入力特徴量マップと出力特徴量マップが同じサイズのマップである例を示している。
例えば、入力特徴マップの領域から−A方向にカーネルがはみ出しているとき、式(1)に示す畳み込み処理の計算では、一部の入力特徴量x(a1,a2,a3)のインデックスがマイナスになる。このとき、特徴量抽出部5は、インデックスがマイナスである入力特徴量x(a1,a2,a3)をゼロで埋めるゼロパッディングを実施するようにしてもよい。ただし、ゼロパッディングの実施は必須ではなく、ゼロパッディングを実施しないようにしてもよい。
畳み込み処理に関するパラメータは、カーネルの2次元サイズ及びパッディングパラメータpad,padのほかに、カーネルの移動量を示すストライドパラメータがある。
図10では、pad=1、pad=1、ストライドパラメータ=1であり、カーネルを1つずつ移動させながら、式(1)に示す畳み込み処理の計算を実施している例を示している。
例えば、出力特徴量の中の1個の領域の特徴量y(1,1)は、入力特徴量の中の9個の領域の特徴量x(a1,a2,a3)、即ち、x(0,0,0)、x(0,1,0)、x(0,2,0)、x(1,0,0)、x(1,1,0)、x(1,2,0)、x(2,0,0)、x(2,1,0)及びx(2,2,0)についての計算結果を示している。
入力データの様々なパターンの特徴を抽出するためには、複数のカーネルと入力特徴量との畳み込み処理の計算を実施することが望ましい。
式(1)は、カーネルが1つである例を示しており、以下の式(2)は、カーネルが複数である場合の畳み込み処理の計算を示している。
Figure 0006320649
式(2)において、kは、出力特徴量マップのインデックスである。出力特徴量マップの個数は、カーネルの個数と同じである。
図11は、プーリング層におけるプーリング処理を示す説明図である。
この実施の形態1において、特徴量抽出部5が実施するプーリング層におけるプーリング処理は、一般的なプーリング処理と異なる。
即ち、特徴量抽出部5が実施するプーリング処理は、一般的なプーリング処理と同様に、出力特徴量マップの一部の領域である局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出して、抽出した特徴量を出力する。
特徴量抽出部5が実施するプーリング処理は、一般的なプーリング処理と異なり、抽出した特徴量が存在している書類画像内の位置を示す位置情報についても出力する。
プーリング層は、図10に示す畳み込み層と同様に、カーネルの2次元サイズ、パッディングパラメータ及びストライドパラメータによって構造が変化する。
図11では、A方向が4、B方向が4及びC方向がKである(4×4×K)の入力特徴量に対して、A方向が2、B方向が2及びC方向がKである(2×2×K)のカーネルを用いて、プーリング処理を実施した結果、A方向が2、B方向が2及びC方向がKである(2×2×K)の出力特徴量が得られている例を示している。図11の例では、カーネルのストライド値は2、パッディング値はゼロである。
具体的には、プーリング処理によって、入力特徴量マップにおける(2×2×K)の局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出している。
例えば、出力特徴量の中の1個の領域の特徴量(0,0,0)は、入力特徴量の中の4個の領域の特徴量x(a1,a2,a3)、即ち、x(0,0,0)、x(0,1,0)、x(1,0,0)及びx(1,1,0)の中で、最大の特徴量x(0,0,0)を抽出している。そして、抽出した最大の特徴量x(0,0,0)を出力している。
また、抽出した最大の特徴量x(0,0,0)が存在している書類画像内の位置を示す位置情報を出力している。
図11では、最大の特徴量が存在している書類画像内の位置を示す位置情報として、局所最大値位置を示す位置マップを例示している。
位置マップは、入力特徴量と同じ3次元構造のデータとして表現されている。
位置マップにおいて、最大の特徴量に対応する書類画像内の位置には“1”が表記され、最大の特徴量以外の特徴量に対応する書類画像内の位置には“0”が表記されている。
ここでは、位置情報が、3次元構造の位置マップである例を示しているが、最大の特徴量が存在している書類画像内の位置が分かればよく、位置情報のデータ構造は、どのような構造であってもよい。
以下の式(3)は、プーリング処理の計算を示している。
式(3)は、演算子f(.)を利用して、入力特徴量マップにおける4つの領域を含む局所領域から、1つの特徴量を出力する例を示している。
Figure 0006320649
この実施の形態1では、演算子f(.)が、最大値を演算する演算子である例を示しており、このような演算子f(.)が用いられるプーリング処理は、最大プーリング(Max Pooling)と呼ばれる。
プーリング層におけるプーリング処理が最大プーリングである場合、1つの特徴量として局所領域の最大値を計算すると同時に、最大値となる書類画像内の位置を示す位置情報も計算される。4つの領域を含む局所領域の中に、最大値となる書類画像内の位置が2つ以上存在する場合、2つ以上の位置を示す位置情報を出力するようにしてもよい。
プーリング層におけるプーリング処理は、最大プーリングに限るものではなく、例えば、平均プーリング(Average Pooling)などの他のプーリング処理であってもよい。
プーリング層におけるプーリング処理が平均プーリングである場合、式(3)における演算子f(.)は、平均値を演算する演算子となる。
なお、プーリング処理に関するパラメータの中には、パラメータ更新部7によって更新されるパラメータはない。
この実施の形態1では、特徴量抽出部5が有している第1のニューラルネットワークがCNNである例を示しているが、CNNに限るものではなく、例えば、ディープニューラルネットなどの多層構造を持つニューラルネットであってもよい。
画像再構築部6は、特徴量抽出部5が有している第1のニューラルネットワークから出力された特徴量を入力して、書類画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有している。
画像再構築部6が有している第2のニューラルネットワークはCNNであり、第2のニューラルネットワークは、逆プーリング処理を実施する逆プーリング層と、二値画像の特徴量の畳み込みを行う畳み込み層とを含んでいる。
図12は、画像再構築部6が有している第2のニューラルネットワークの構成例を示す説明図である。
図12において、INPUTは、特徴量の入力部であり、INPUTから入力される特徴量は、特徴量抽出部5が有している第1のニューラルネットワークから出力された特徴量である。
OUTPUTは、特徴量の出力部であり、OUTPUTから出力される複数の領域の特徴量である出力特徴量のサイズは、図10に示す入力特徴量のサイズと同じサイズである。
UNPOOL(1)及びUNPOOL(2)のそれぞれは、第2のニューラルネットワークに含まれている逆プーリング層である。
第2のニューラルネットワークに含まれているUNPOOL(1)は、図9に示すPOOL(2)と対応し、第2のニューラルネットワークに含まれているUNPOOL(2)は、図9に示すPOOL(1)と対応している。
CONV(1)、CONV(2)及びCONV(3)のそれぞれは、第2のニューラルネットワークに含まれている畳み込み層である。畳み込み層では、再構築画像の特徴量の畳み込みを実施した後、活性化関数の演算が行われるが、図12では、活性化関数の演算の表記を省略している。
画像再構築部6が有している第2のニューラルネットワークに含まれている畳み込み層は、特徴量抽出部5が有している第1のニューラルネットワークに含まれている畳み込み層と同様に、入力特徴量マップのサイズと出力特徴量マップのサイズとが同じである。
画像再構築部6が、期待された機械学習効果を達成するためには、特徴量抽出部5が有している第1のニューラルネットワークから出力された複数の領域の特徴量である出力特徴量のサイズを、図10に示す入力特徴量のサイズに戻す必要がある。
即ち、特徴量抽出部5が有している第1のニューラルネットワークに含まれているプーリング層のプーリング処理によって、サイズが小さくなっている出力特徴量である特徴量マップのサイズを、画像再構築部6が、当該プーリング処理が実施される前の入力特徴量のサイズに戻す必要がある。
このため、画像再構築部6が有している第2のニューラルネットワークは、特徴量抽出部5が有している第1のニューラルネットに含まれているプーリング層に対応する逆プーリング層を含んでいる。
具体的には、特徴量抽出部5が、図11に示すように、プーリング層のプーリング処理を実施することで、入力特徴量のサイズを4分の1の大きさにしている場合、画像再構築部6が、図13に示すように、逆プーリング層の逆プーリング処理を実施することで、入力特徴量のサイズを4倍にしている。
図13は、逆プーリング層における逆プーリング処理を示す説明図である。
画像再構築部6が実施する逆プーリング層の逆プーリング処理において、逆プーリング層と対応するプーリング層から出力された位置情報を利用するに際し、逆プーリング層と対応するプーリング層の出力特徴量のサイズと、当該逆プーリング層の入力特徴量のサイズとが一致している。また、逆プーリング層と対応するプーリング層の入力特徴量のサイズと当該逆プーリング層の出力特徴量のサイズとが一致している。
図13に示す逆プーリング処理では、(2×2×K)の入力特徴量を(4×4×K)の出力特徴量に変換する例を示している。
また、図13に示す逆プーリング処理では、対応するプーリング層から取得した位置情報を入力し、(4×4×K)の出力特徴量のうち、位置情報が示す最大値の位置の特徴量に、入力特徴量の値を挿入し、位置情報が示す最大値の位置以外の位置の特徴量に、ゼロを挿入している。
例えば、入力特徴量x(0,0,0)は、(4×4×K)の出力特徴量において、A方向で左から2番目及びB方向で上から2番目の位置に挿入されている。
また、入力特徴量x(0,1,0)は、(4×4×K)の出力特徴量において、A方向で左から3番目及びB方向で上から1番目の位置に挿入されている。
また、入力特徴量x(1,0,0)は、(4×4×K)の出力特徴量において、A方向で左から2番目及びB方向で上から3番目の位置に挿入されている。
入力特徴量x(1,1,0)は、(4×4×K)の出力特徴量において、A方向で左から3番目及びB方向で上から4番目の位置に挿入されている。
(4×4×K)の出力特徴量の他の位置には、ゼロが挿入されている。
パラメータ更新部7は、画像再構築部6が有している第2のニューラルネットワークから出力された再構築画像と、二値画像変換部3から出力された二値画像との差分を算出する。
パラメータ更新部7は、算出した差分が最小になるように、特徴量抽出部5が有している第1のニューラルネットワークのパラメータ及び画像再構築部6が有している第2のニューラルネットワークのパラメータのそれぞれを更新する。
即ち、パラメータ更新部7は、算出した差分が最小になるように、第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)及び第2のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)のそれぞれを更新する。
パラメータ更新部7により算出される再構築画像と二値画像との差分としては、例えば、再構築画像と二値画像との平均2乗誤差(MSE:Mean Square Error)でもよいし、再構築画像と二値画像とのクロスエントロピーでもよい。
また、パラメータ更新部7が、差分が最小になるように、パラメータを更新する最適化アルゴリズムとして、例えば、確率的勾配降下法などを用いることができる。
パラメータ記憶部8は、パラメータ更新部7により更新された第1のニューラルネットワークのパラメータとして、パラメータ更新部7により更新された第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)を記憶する。
また、パラメータ記憶部8は、パラメータ更新部7により更新された第2のニューラルネットワークのパラメータとして、パラメータ更新部7により更新された第2のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)を記憶する。
次に、図4の画像認識装置の動作について説明する。
第1の特徴量検出部34は、登録画像記憶部31に記憶されている登録画像を入力して、登録画像の特徴量を出力するとともに、認識対象画像記憶部32に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する第1のニューラルネットワークを有している。
第1の特徴量検出部34が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
したがって、第1の特徴量検出部34が有している第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)は、再構築画像と二値画像との差分が最小になるように、図1の機械学習装置のパラメータ更新部7によって最適化されている。
画像再生成部35は、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された登録画像の特徴量を入力して、登録画像を再構築した画像である再構築登録画像を出力するとともに、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された認識対象画像の特徴量を入力して、認識対象画像を再構築した画像である再構築認識画像を出力する第2のニューラルネットワークを有している。
画像再生成部35が有している第2のニューラルネットワークは、図1の機械学習装置の画像再構築部6が有している第2のニューラルネットワークと同じニューラルネットワークである。
したがって、画像再生成部35が有している第2のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)は、再構築画像と二値画像との差分が最小になるように、図1の機械学習装置のパラメータ更新部7によって最適化されている。
第2の特徴量検出部36は、画像再生成部35が有している第2のニューラルネットワークから出力された再構築登録画像を入力して、再構築登録画像の特徴量を出力するとともに、画像再生成部35が有している第2のニューラルネットワークから出力された再構築認識画像を入力して、再構築認識画像の特徴量を出力する第1のニューラルネットワークを有している。
第2の特徴量検出部36が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
したがって、第2の特徴量検出部36が有している第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)は、再構築画像と二値画像との差分が最小になるように、図1の機械学習装置のパラメータ更新部7によって最適化されている。
なお、第2の特徴量検出部36が有している第1のニューラルネットワークに含まれているプーリング層は、位置情報を出力する必要がない。
図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワーク及び画像再構築部6が有している第2のニューラルネットワークのそれぞれがCNNである場合、第1の特徴量検出部34が有している第1のニューラルネットワーク及び第2の特徴量検出部36が有している第1のニューラルネットワークは、自由パラメータとして、畳み込み層のカーネルだけを持っている。このため、カーネルのサイズが同じであれば、パラメータ更新部7により更新されたパラメータを学習済みのパラメータとして利用できるため、図1の機械学習装置における各々の畳み込み層の特徴量マップと、図4の画像認識装置における各々の畳み込み層の特徴量マップとのサイズが異なっていてもよい。
登録画像記憶部31は、1つ以上の書類画像を登録画像として記憶している。
この登録画像は、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と同じ書類画像であってもよいし、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と異なる書類画像であってもよい。
認識対象画像記憶部32は、認識対象の書類画像である認識対象画像を記憶している。
特徴量検出部33は、登録画像記憶部31に記憶されている登録画像の特徴量を特徴量記憶部37に登録する登録処理と、認識対象画像記憶部32に記憶されている認識対象画像と類似している登録画像を検索する検索処理を可能にするために、認識対象画像の特徴量を抽出する前処理とを実施する。
最初に、特徴量検出部33の登録処理の動作について説明する。
特徴量検出部33の第1の特徴量検出部34は、登録画像記憶部31に記憶されている1つ以上の登録画像の中から、1つの登録画像を順番に入力する。
第1の特徴量検出部34が有している第1のニューラルネットワークは、1つの登録画像を入力すると、登録画像の特徴量を出力する。
第1の特徴量検出部34は、登録画像の特徴量を特徴量記憶部37に格納するとともに、登録画像の特徴量を画像再生成部35に出力する。
特徴量検出部33の画像再生成部35は、第1の特徴量検出部34から出力された登録画像の特徴量を入力する。
画像再生成部35が有している第2のニューラルネットワークは、登録画像の特徴量を入力すると、登録画像を再構築した画像である再構築登録画像を出力する。
画像再生成部35は、再構築登録画像を第2の特徴量検出部36及び画像検索部38に出力する。
画像検索部38の画像記憶部38aは、画像再生成部35から出力された再構築登録画像を記憶する。
なお、画像再生成部35から出力される再構築登録画像は、登録画像の二値画像に相当する画像ではあるが、登録画像の特徴量から再構築した画像であるため、登録画像の二値画像と完全に一致しているとは限らない。
特徴量検出部33の第2の特徴量検出部36は、画像再生成部35から出力された再構築登録画像を入力する。
第2の特徴量検出部36が有している第1のニューラルネットワークは、再構築登録画像を入力すると、再構築登録画像の特徴量を出力する。
第2の特徴量検出部36は、再構築登録画像の特徴量を特徴量記憶部37に格納する。
登録画像記憶部31に記憶されている登録画像の個数がN個であれば、特徴量記憶部37には、第1の特徴量検出部34から出力されたN個の登録画像の特徴量と、第2の特徴量検出部36から出力されたN個の再構築登録画像の特徴量が記憶される。
第2の特徴量検出部36から出力された再構築登録画像の特徴量は、画像再生成部35により再構築された画像である再構築登録画像から抽出された特徴量であるため、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された登録画像の特徴量よりも、多くの外乱の影響が除去されている。
次に、特徴量検出部33による検索処理の前処理について説明する。
特徴量検出部33の第1の特徴量検出部34は、認識対象画像記憶部32に記憶されている認識対象の書類画像である認識対象画像を入力する。
第1の特徴量検出部34が有している第1のニューラルネットワークは、認識対象画像を入力すると、認識対象画像の特徴量を出力する
第1の特徴量検出部34は、認識対象画像の特徴量を画像再生成部35及び画像検索部38のそれぞれに出力する。
特徴量検出部33が有している画像再生成部35は、第1の特徴量検出部34から出力された認識対象画像の特徴量を入力する。
画像再生成部35の第2のニューラルネットワークは、認識対象画像の特徴量を入力すると、認識対象画像を再構築した画像である再構築認識画像を出力する。
画像再生成部35は、再構築認識画像を第2の特徴量検出部36に出力する。
特徴量検出部33の第2の特徴量検出部36は、画像再生成部35から出力された再構築認識画像を入力する。
第2の特徴量検出部36が有している第1のニューラルネットワークは、再構築認識画像を入力すると、再構築認識画像の特徴量を出力する。
第2の特徴量検出部36は、再構築認識画像の特徴量を画像検索部38に出力する。
登録画像記憶部31に記憶されている1つ以上の登録画像と、認識対象画像記憶部32に記憶されている認識対象画像とが、同じ環境下又は類似している環境下で取得された画像である場合、登録画像と認識対象画像とが受けている外乱の影響はほんとんど同じである。
このため、画像検索部38が、認識対象画像と類似している登録画像を検索する際、第1の特徴量検出部34から出力された登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量とを比較すれば十分である。したがって、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築登録画像の特徴量と、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築認識画像の特徴量とを比較する必要性が低い。
登録画像記憶部31に記憶されている1つ以上の登録画像と、認識対象画像記憶部32に記憶されている認識対象画像とが、異なる環境下で取得された画像である場合、登録画像と認識対象画像とが受けている外乱の影響が異なる。
このため、画像検索部38が、認識対象画像と類似している登録画像を検索する際、第1の特徴量検出部34から出力された登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量とを比較するだけでは不十分である。したがって、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築登録画像の特徴量と、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築認識画像の特徴量とを比較する必要性が高い。
この実施の形態1では、画像検索部38による比較対象の特徴量が、第1の特徴量検出部34から出力される登録画像の特徴量と認識対象画像の特徴量とにするのか、第2の特徴量検出部36から出力される再構築登録画像の特徴量と再構築認識画像の特徴量とするのかは、事前にユーザによって設定されるものとする。
以下、画像検索部38による比較対象の特徴量が、第1の特徴量検出部34から出力される登録画像の特徴量と認識対象画像の特徴量とする設定を「設定A」と称する。
画像検索部38による比較対象の特徴量が、第2の特徴量検出部36から出力される再構築登録画像の特徴量と再構築認識画像の特徴量とする設定を「設定B」と称する。
画像検索部38は、設定Aの場合、特徴量記憶部37により記憶されている1つ以上の登録画像の特徴量のうち、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度を算出する。
特徴量の類似度を算出するアルゴリズムは、特に限定するものではないが、例えば、コサイン類似度(Cosine Similarity)を使用することができる。
画像検索部38は、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度を算出すると、登録画像記憶部31により記憶されている1つ以上の登録画像の中で、算出した類似度が最も高い登録画像を特定する。
画像検索部38は、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この場合、画像検索部38が、認識対象画像と類似している登録画像を検索する際、画像再生成部35及び第2の特徴量検出部36が処理を実施する必要がないため、登録画像の検索結果が得られるまでの時間を短縮することができる。
画像検索部38は、設定Bの場合、特徴量記憶部37により記憶されている1つ以上の登録画像の特徴量のうち、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度を算出する。
画像検索部38は、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度を算出すると、画像記憶部38aにより記憶されている1つ以上の再構築登録画像の中で、算出した類似度が最も高い再構築登録画像を特定する。
画像検索部38は、特定した再構築登録画像に対応する登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この場合、画像検索部38が、認識対象画像と類似している登録画像を検索する際、画像再生成部35及び第2の特徴量検出部36が前処理を実施する必要があるため、設定Aの場合よりも、登録画像の検索結果が得られるまでの時間が長くなるが、登録画像と認識対象画像が取得された環境が異なる場合でも、認識対象画像と類似している登録画像の検索精度の劣化を抑えることができる。
ここでは、設定Bの場合、画像検索部38が、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度を算出する例を示しているが、これに限るものではなく、例えば、以下のようにして、類似度を算出する方法が考えられる。
画像検索部38は、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度(以下、類似度R1と称する)を算出する。
また、画像検索部38は、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度(以下、類似度R2と称する)を算出する。
そして、画像検索部38は、最終的な類似度Rとして、類似度R1と類似度R2の平均値、あるいは、類似度R1と類似度R2の重み付け加算値などを算出する。
画像検索部38は、最終的な類似度Rを算出すると、1つ以上の登録画像の中で、算出した類似度Rが最も高い登録画像を特定する。
画像検索部38は、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この実施の形態1では、画像検索部38が、登録画像記憶部31に記憶されている登録画像毎に、当該登録画像の特徴量と認識対象画像の特徴量との類似度を算出する例を示している。
同じ種類の登録画像(以下、同種登録画像と称する)が複数存在しており、複数の同種登録画像が登録画像記憶部31に記憶されている場合、画像検索部38が、特徴量記憶部37により記憶されている複数の同種登録画像と、認識対象画像の特徴量との類似度をそれぞれ算出する。
そして、画像検索部38が、同種登録画像の特徴量と認識対象画像の特徴量との類似度として、それぞれ算出した類似度の平均値を算出するようにしてもよい。
この場合、登録画像記憶部31に記憶されている登録画像の個数がN個であっても、登録画像記憶部31に記憶されている登録画像の種類がM(N≧M)であれば、画像検索部38は、M種類の同種登録画像の中から、認識対象画像と類似している同種登録画像を検索するようになる。
以上で明らかなように、この実施の形態1によれば、学習画像を二値画像に変換する二値画像変換部3と、学習画像を入力して、学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部5と、第1のニューラルネットワークから出力された特徴量を入力して、再構築画像を出力する第2のニューラルネットワークを有する画像再構築部6とを設け、パラメータ更新部7が、第2のニューラルネットワークから出力された再構築画像と、二値画像変換部3により変換された二値画像との差分に従って第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータのそれぞれを更新するように構成したので、教師データを用いることなく、学習画像を入力して、学習画像の特徴量を出力する第1のニューラルネットワークのパラメータを更新することができる効果を奏する。
また、この実施の形態1によれば、登録画像が与えられると、登録画像の特徴量を出力し、認識対象画像が与えられると、認識対象画像の特徴量を出力するニューラルネットワークを有する特徴量検出部33と、特徴量検出部33が有しているニューラルネットワークから出力された登録画像の特徴量を記憶する特徴量記憶部37と、特徴量記憶部37により記憶されている1つ以上の登録画像の特徴量と、特徴量検出部33が有しているニューラルネットワークから出力された認識対象画像の特徴量とを比較して、1つ以上の登録画像の中から、認識対象画像と類似している登録画像を検索する画像検索部38とを備え、特徴量検出部33が有しているニューラルネットワークのパラメータが機械学習装置によって更新されているように構成したので、機械学習装置によりパラメータが更新されたニューラルネットワークを用いて、認識対象画像と類似している登録画像を検索することができる効果を奏する。
これにより、例えば、ユーザは、画像認識装置により検索された登録画像の種類を確認することで、認識対象画像の種類を把握することができるようになる。
この実施の形態1では、図4の画像認識装置の登録画像記憶部31に記憶される登録画像が、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と同じ画像であってもよいし、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と異なる画像であってもよい旨を上述している。
例えば、学習画像記憶部1に記憶される書類画像と、登録画像及び認識対象画像とを取得する環境が類似している場合、あるいは、書類のジャンルが、書類画像、登録画像及び認識対象画像の間で類似している場合、登録画像及び認識対象画像が、書類画像と異なる画像であっても、認識対象画像と類似している登録画像を検索することができる。
即ち、図1の機械学習装置が、事前に書類画像と同じ登録画像及び認識対象画像を学習していない場合でも、認識対象画像と類似している登録画像を検索することができる。
なお、取得する環境には、画像を撮影している環境のほか、画像取得機材の違いも含まれる。
書類のジャンルが類似する態様として、例えば、異なる銀行の申請書又は異なる行政機関の用紙などが考えられる。
実施の形態2.
上記実施の形態1では、特徴量抽出部5が有している第1のニューラルネットワーク及び画像再構築部6が有している第2のニューラルネットワークのパラメータの初期状態については、特に言及していない。
この実施の形態2では、特徴量抽出部5が有している第1のニューラルネットワークは、何らかの学習データに基づいて事前にパラメータが学習されているニューラルネットワークであるものとする。
また、画像再構築部6が有している第2のニューラルネットワークについても、何らかの学習データに基づいて事前にパラメータが学習されているニューラルネットワークであるものとする。
また、図1の機械学習装置の学習画像記憶部1には、書類画像として認識対象画像が記憶されており、認識対象画像に基づいて、上記実施の形態1と同様に、パラメータ更新部7によって、第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータのそれぞれが更新されているものとする。
この場合、上記実施の形態1よりも学習時間が増加してしまうが、認識対象画像と類似している登録画像を、上記実施の形態1よりも正確に検索することができるようになる。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明は、書類画像を入力して、書類画像の特徴量を出力するニューラルネットワークのパラメータを更新する機械学習装置に適している。
また、この発明は、認識対象画像と類似している登録画像を検索する画像認識装置に適している。
1 学習画像記憶部、2 サンプリング部、3 二値画像変換部、4 画像生成部、5 特徴量抽出部、6 画像再構築部、7 パラメータ更新部、8 パラメータ記憶部、11 学習画像記憶回路、12 サンプリング回路、13 二値画像変換回路、14 画像生成回路、15 特徴量抽出回路、16 画像再構築回路、17 パラメータ更新回路、18 パラメータ記憶回路、21 メモリ、22 ストレージ、23 プロセッサ、24 画像入力器、25 結果出力器、31 登録画像記憶部、32 認識対象画像記憶部、33 特徴量検出部、34 第1の特徴量検出部、35 画像再生成部、36 第2の特徴量検出部、37 特徴量記憶部、38 画像検索部、38a 画像記憶部、41 登録画像記憶回路、42 認識対象画像記憶回路、43 特徴量検出回路、44 特徴量記憶回路、45 画像検索回路、51 メモリ、52 ストレージ、53 プロセッサ、54 画像入力器、55 結果出力器。

Claims (14)

  1. 学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、
    外乱の影響を受けている学習画像を入力して、前記外乱の影響を受けている学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部と、
    前記第1のニューラルネットワークから出力された特徴量を入力して、前記外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有する画像再構築部と、
    前記第2のニューラルネットワークから出力された再構築画像と、前記二値画像変換部により変換された二値画像との差分に従って前記第1のニューラルネットワークのパラメータ及び前記第2のニューラルネットワークのパラメータのそれぞれを更新するパラメータ更新部と
    を備えた機械学習装置。
  2. 複数の学習画像の中から、いずれか1つの学習画像を順番に選択し、前記選択した学習画像を前記二値画像変換部及び前記特徴量抽出部のそれぞれに出力するサンプリング部を備えたことを特徴とする請求項1記載の機械学習装置。
  3. 前記サンプリング部は、前記選択した学習画像の画像サイズを変更するとともに、前記選択した学習画像を回転させる画像処理を実施し、画像処理後の学習画像の中から、一部の領域を抽出し、前記抽出した一部の領域を学習画像として、前記二値画像変換部及び前記特徴量抽出部のそれぞれに出力することを特徴とする請求項2記載の機械学習装置。
  4. 学習対象の画像である学習画像の画素値を調整して、前記外乱の影響を受けている学習画像を生成し、生成した前記外乱の影響を受けている学習画像を前記特徴量抽出部に出力する画像生成部を備えたことを特徴とする請求項1記載の機械学習装置。
  5. 前記特徴量抽出部は、前記第1のニューラルネットワークとして、畳み込みニューラルネットワークであるCNN(Convolutional Neural Net)を有し、
    前記画像再構築部は、前記第2のニューラルネットワークとして、畳み込みニューラルネットワークであるCNNを有していることを特徴とする請求項1記載の機械学習装置。
  6. 前記第1のニューラルネットワークは、前記外乱の影響を受けている学習画像の特徴量の畳み込みを行う畳み込み層を含んでおり、
    前記畳み込み層の入力特徴量マップと、前記畳み込み層の出力特徴量マップとが同じサイズであることを特徴とする請求項5記載の機械学習装置。
  7. 前記第1のニューラルネットワークは、前記入力特徴量マップの一部の領域である局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出して、前記抽出した特徴量を出力するとともに、前記抽出した特徴量が存在している学習画像内の位置を示す位置情報を出力するプーリング層を含んでいることを特徴とする請求項6記載の機械学習装置。
  8. 前記第2のニューラルネットワークは、前記プーリング層から出力された特徴量及び位置情報を入力して、前記再構築画像を再構築する逆プーリング層を含んでいることを特徴とする請求項7記載の機械学習装置。
  9. 学習対象の画像である登録画像が与えられると、前記登録画像の特徴量を出力し、認識対象の学習画像である認識対象画像が与えられると、前記認識対象画像の特徴量を出力するニューラルネットワークを有する特徴量検出部と、
    前記ニューラルネットワークから出力された登録画像の特徴量を記憶する特徴量記憶部と、
    前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量と、前記ニューラルネットワークから出力された認識対象画像の特徴量とを比較して、前記1つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索する画像検索部とを備え、
    前記特徴量検出部が有しているニューラルネットワークのパラメータが機械学習装置によって更新され
    前記機械学習装置は、
    学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、
    外乱の影響を受けている学習画像を入力して、前記外乱の影響を受けている学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部と、
    前記第1のニューラルネットワークから出力された特徴量を入力して、前記外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有する画像再構築部と、
    前記第2のニューラルネットワークから出力された再構築画像と、前記二値画像変換部により変換された二値画像との差分に従って前記第1のニューラルネットワークのパラメータ及び前記第2のニューラルネットワークのパラメータのそれぞれを更新するパラメータ更新部とを備えており、
    前記特徴量検出部が有しているニューラルネットワークは、前記パラメータ更新部によりパラメータが更新された前記第1及び第2のニューラルネットワークであることを特徴とする画像認識装置。
  10. 前記特徴量検出部は、
    前記登録画像を入力して、前記登録画像の特徴量を出力するとともに、前記認識対象画像を入力して、前記認識対象画像の特徴量を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第1のニューラルネットワークを有する第1の特徴量検出部と、
    前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された登録画像の特徴量を入力して、前記登録画像を再構築した画像である再構築登録画像を出力するとともに、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された認識対象画像の特徴量を入力して、前記認識対象画像を再構築した画像である再構築認識画像を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第2のニューラルネットワークを有する画像再生成部と、
    前記画像再生成部が有している第2のニューラルネットワークから出力された再構築登録画像を入力して、前記再構築登録画像の特徴量を出力するとともに、前記画像再生成部が有している第2のニューラルネットワークから出力された再構築認識画像を入力して、前記再構築認識画像の特徴量を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第1のニューラルネットワークを有する第2の特徴量検出部とを備えており、
    前記特徴量記憶部は、前記特徴量検出部が有しているニューラルネットワークから出力された登録画像の特徴量として、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された登録画像の特徴量及び前記第2の特徴量検出部が有している第1のニューラルネットワークから出力された再構築登録画像の特徴量のそれぞれを記憶することを特徴とする請求項記載の画像認識装置。
  11. 前記画像検索部は、前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量のうち、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された1つ以上の登録画像の特徴量と、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された認識対象画像の特徴量とを比較して、1つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索し、あるいは、前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量のうち、前記第2の特徴量検出部が有している第1のニューラルネットワークから出力された1つ以上の再構築登録画像の特徴量と、前記第2の特徴量検出部が有している第1のニューラルネットワークから出力された再構築認識画像の特徴量とを比較して、1つ以上の再構築登録画像の中から、前記再構築認識画像と類似している再構築登録画像を検索することを特徴とする請求項10記載の画像認識装置。
  12. 前記画像検索部は、前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量と、前記ニューラルネットワークから出力された認識対象画像の特徴量との類似度をそれぞれ算出し、それぞれ算出した類似度に基づいて、前記1つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索することを特徴とする請求項9記載の画像認識装置。
  13. 前記特徴量記憶部には、同じ種類の登録画像である同種登録画像が複数記憶されており、
    前記画像検索部は、前記特徴量記憶部により記憶されている複数の同種登録画像と、前記ニューラルネットワークから出力された認識対象画像の特徴量との類似度をそれぞれ算出し、前記複数の同種登録画像を1つの登録画像とみなし、前記1つの登録画像の特徴量と前記認識対象画像の特徴量との類似度として、それぞれ算出した類似度の平均値を算出することを特徴とする請求項12記載の画像認識装置。
  14. 前記学習画像として、前記認識対象画像が、前記二値画像変換部及び前記特徴量抽出部に与えられることを特徴とする請求項記載の画像認識装置。
JP2017554102A 2017-03-31 2017-03-31 機械学習装置及び画像認識装置 Active JP6320649B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/013603 WO2018179338A1 (ja) 2017-03-31 2017-03-31 機械学習装置及び画像認識装置

Publications (2)

Publication Number Publication Date
JP6320649B1 true JP6320649B1 (ja) 2018-05-09
JPWO2018179338A1 JPWO2018179338A1 (ja) 2019-04-04

Family

ID=62105884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017554102A Active JP6320649B1 (ja) 2017-03-31 2017-03-31 機械学習装置及び画像認識装置

Country Status (2)

Country Link
JP (1) JP6320649B1 (ja)
WO (1) WO2018179338A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6559382B1 (ja) * 2018-12-21 2019-08-14 三菱電機株式会社 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
WO2019230665A1 (ja) * 2018-06-01 2019-12-05 日本電信電話株式会社 学習装置、検索装置、方法、及びプログラム
JP2020160582A (ja) * 2019-03-25 2020-10-01 三菱電機株式会社 特徴特定装置、特徴特定方法及び特徴特定プログラム
CN111789635A (zh) * 2019-04-04 2020-10-20 株式会社日立制作所 超声波摄像装置以及图像处理装置
WO2021152715A1 (ja) * 2020-01-29 2021-08-05 日本電信電話株式会社 学習装置、検索装置、学習方法、検索方法及びプログラム
CN113470831A (zh) * 2021-09-03 2021-10-01 武汉泰乐奇信息科技有限公司 一种基于数据简并的大数据转换方法与装置
JP7368995B2 (ja) 2019-09-30 2023-10-25 セコム株式会社 画像認識システム、撮像装置、認識装置及び画像認識方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7196058B2 (ja) * 2019-12-24 2022-12-26 株式会社日立製作所 物体検索装置及び物体検索方法
CN112541876B (zh) * 2020-12-15 2023-08-04 北京百度网讯科技有限公司 卫星图像处理方法、网络训练方法、相关装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212990A (ja) * 1998-01-26 1999-08-06 Toray Ind Inc 画像の検索装置および画像の検索表示方法ならびに物品の製造方法
JP2005092465A (ja) * 2003-09-16 2005-04-07 Fuji Xerox Co Ltd データ認識装置
US20150238148A1 (en) * 2013-10-17 2015-08-27 Siemens Aktiengesellschaft Method and system for anatomical object detection using marginal space deep neural networks
JP2016004549A (ja) * 2014-06-19 2016-01-12 ヤフー株式会社 特定装置、特定方法及び特定プログラム
US20170076438A1 (en) * 2015-08-31 2017-03-16 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11212990A (ja) * 1998-01-26 1999-08-06 Toray Ind Inc 画像の検索装置および画像の検索表示方法ならびに物品の製造方法
JP2005092465A (ja) * 2003-09-16 2005-04-07 Fuji Xerox Co Ltd データ認識装置
US20150238148A1 (en) * 2013-10-17 2015-08-27 Siemens Aktiengesellschaft Method and system for anatomical object detection using marginal space deep neural networks
JP2016004549A (ja) * 2014-06-19 2016-01-12 ヤフー株式会社 特定装置、特定方法及び特定プログラム
US20170076438A1 (en) * 2015-08-31 2017-03-16 Cape Analytics, Inc. Systems and methods for analyzing remote sensing imagery

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
久保直樹, 外1名: "擬似自己符号化器を用いたスケッチ画像検索", 電気学会研究会資料, JPN6017021181, 28 March 2016 (2016-03-28), JP, pages 101 - 106, ISSN: 0003716906 *
伊庭斉志, 進化計算と深層学習, JPN6017021179, 20 October 2015 (2015-10-20), pages 57 - 60, ISSN: 0003716907 *
進藤智則: "ディープラーニングは万能か 第3部:タスク別編", 日経エレクトロニクス, vol. 第1156号, JPN6017021180, 20 May 2015 (2015-05-20), JP, pages 44 - 52, ISSN: 0003716908 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019230665A1 (ja) * 2018-06-01 2019-12-05 日本電信電話株式会社 学習装置、検索装置、方法、及びプログラム
JP6559382B1 (ja) * 2018-12-21 2019-08-14 三菱電機株式会社 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム
JP2020160582A (ja) * 2019-03-25 2020-10-01 三菱電機株式会社 特徴特定装置、特徴特定方法及び特徴特定プログラム
US11755907B2 (en) 2019-03-25 2023-09-12 Mitsubishi Electric Corporation Feature identification device, feature identification method, and computer readable medium
JP7357454B2 (ja) 2019-03-25 2023-10-06 三菱電機株式会社 特徴特定装置、特徴特定方法及び特徴特定プログラム
CN111789635A (zh) * 2019-04-04 2020-10-20 株式会社日立制作所 超声波摄像装置以及图像处理装置
CN111789635B (zh) * 2019-04-04 2023-06-20 富士胶片医疗健康株式会社 超声波摄像装置以及图像处理装置
JP7368995B2 (ja) 2019-09-30 2023-10-25 セコム株式会社 画像認識システム、撮像装置、認識装置及び画像認識方法
WO2021152715A1 (ja) * 2020-01-29 2021-08-05 日本電信電話株式会社 学習装置、検索装置、学習方法、検索方法及びプログラム
JP7363929B2 (ja) 2020-01-29 2023-10-18 日本電信電話株式会社 学習装置、検索装置、学習方法、検索方法及びプログラム
CN113470831A (zh) * 2021-09-03 2021-10-01 武汉泰乐奇信息科技有限公司 一种基于数据简并的大数据转换方法与装置
CN113470831B (zh) * 2021-09-03 2021-11-16 武汉泰乐奇信息科技有限公司 一种基于数据简并的大数据转换方法与装置

Also Published As

Publication number Publication date
WO2018179338A1 (ja) 2018-10-04
JPWO2018179338A1 (ja) 2019-04-04

Similar Documents

Publication Publication Date Title
JP6320649B1 (ja) 機械学習装置及び画像認識装置
US11113781B2 (en) Image-based pose determination
CN111899163B (zh) 生成对抗网络中单图像超分辨率的有效结构保持
KR101183391B1 (ko) 메트릭 임베딩에 의한 이미지 비교
JP5602940B2 (ja) 事前計算されたスケール空間からのデイジー記述子生成
CN111780763A (zh) 一种基于视觉地图的视觉定位方法、装置
JP5261501B2 (ja) 不変の視覚場面及び物体の認識
CN108961180B (zh) 红外图像增强方法及系统
CN109919971B (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
EP2293243A2 (en) Image processing apparatus, image capture apparatus, image processing method, and program
CN105335952B (zh) 匹配代价计算方法和装置、以及视差值计算方法和设备
JP4772819B2 (ja) 画像検索装置および画像検索方法
JP2005196678A (ja) テンプレートマッチング方法および対象画像領域抽出装置
JP6075294B2 (ja) 画像処理システム及び画像処理方法
GB2587248A (en) Analysing objects in a set of frames
JP2019125204A (ja) 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク
CN114299358A (zh) 图像质量评估方法、装置、电子设备及机器可读存储介质
CN116664892A (zh) 基于交叉注意与可形变卷积的多时相遥感图像配准方法
JP7469391B2 (ja) マシンビジョン用の画像データを処理するための方法及び装置
CN106557772B (zh) 用于提取局部特征子的方法、装置及图像处理方法
CN116740399A (zh) 异源图像匹配模型的训练方法、匹配方法及介质
JP6056354B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
CN113283469A (zh) 基于视图的三维模型检索的图嵌入无监督特征学习方法
JP6361195B2 (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体
KR102495861B1 (ko) 가상 객체를 처리하는 장치, 방법 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171013

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171013

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171013

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180403

R150 Certificate of patent or registration of utility model

Ref document number: 6320649

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150