JP6320649B1 - 機械学習装置及び画像認識装置 - Google Patents
機械学習装置及び画像認識装置 Download PDFInfo
- Publication number
- JP6320649B1 JP6320649B1 JP2017554102A JP2017554102A JP6320649B1 JP 6320649 B1 JP6320649 B1 JP 6320649B1 JP 2017554102 A JP2017554102 A JP 2017554102A JP 2017554102 A JP2017554102 A JP 2017554102A JP 6320649 B1 JP6320649 B1 JP 6320649B1
- Authority
- JP
- Japan
- Prior art keywords
- image
- neural network
- unit
- feature amount
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T1/00—General purpose image data processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
Abstract
Description
この機械学習装置は、教師あり学習手法を利用する装置であるため、教師データを使用して、機械学習を実施する。
また、この発明は、機械学習装置によりパラメータが更新されたニューラルネットワークを用いて、認識対象画像と類似している登録画像を検索することができる画像認識装置を得ることを目的とする。
図1は、この発明の実施の形態1による機械学習装置を示す構成図であり、図2は、この発明の実施の形態1による機械学習装置を示すハードウェア構成図である。
この実施の形態1の機械学習装置は、学習対象の画像である学習画像として、書類が映っている画像である書類画像を利用するものとする。
ただし、これは一例に過ぎず、例えば、帳票が映っている画像である帳票画像を利用するものであってもよい。
図1及び図2において、学習画像記憶部1は、例えば図2に示す学習画像記憶回路11で実現されるものであり、事前に取得された複数の書類画像を記憶する。
学習画像記憶部1に記憶される書類画像は、例えば、グレースケールの画像であるものとする。このため、カラー画像の場合、学習画像記憶部1に記憶される前に、カラー画像がグレースケールの画像に変換されるものとする。
ただし、カメラによって撮影された画像を書類画像として用いる場合には、書類の真正面から見ているように撮影画像に補正を施し、補正後の撮影画像の中から、書類が映っている領域を書類画像として切り出すようにする。
この実施の形態1では、書類の用紙サイズを特定することができるものとし、学習画像記憶部1には、同じ用紙サイズの書類が映っている書類画像が記憶されるものとする。
書類の用紙サイズを特定することができない場合、学習画像記憶部1に記憶される書類画像は、全て同じ用紙サイズの書類が映っている書類画像であるものとする。
サンプリング部2は、学習画像記憶部1に記憶されている複数の書類画像の中から、いずれか1つの書類画像を順番に選択する処理を実施する。
また、サンプリング部2は、選択した書類画像の画像サイズを変更するとともに、選択した書類画像を回転させる画像処理を実施する。
さらに、サンプリング部2は、画像処理後の書類画像の中から、二値画像変換部3により変換される二値画像と同じサイズの領域を抽出し、抽出した領域を書類画像として、二値画像変換部3及び画像生成部4のそれぞれに出力する処理を実施する。
二値画像変換部3は、サンプリング部2から出力された書類画像を二値画像に変換し、変換した二値画像をパラメータ更新部7に出力する処理を実施する。
画像生成部4は、例えば図2に示す画像生成回路14で実現される。
画像生成部4は、サンプリング部2から出力された書類画像の画素値を調整して、外乱の影響を受けている書類画像を生成し、生成した書類画像を特徴量抽出部5に出力する処理を実施する。
外乱としては、書類画像を撮影している環境の要因のほか、画像取得機材の要因も含まれる。
このため、書類画像の調整処理として、例えば、ガウシアンノイズ及びごま塩ノイズを書類画像に付加する処理、書類画像のガウシアンぼかしを行う処理、書類画像のシャープネス、コントラスト及び輝度値を調整する処理などが考えられる。
特徴量抽出部5は、画像生成部4から出力された書類画像を入力して、書類画像の特徴量を出力する第1のニューラルネットワークを有している。
この実施の形態1では、特徴量抽出部5が有している第1のニューラルネットワークは、畳み込みニューラルネットワーク(CNN:Convolutional Neural Net)をあるものとする。
画像再構築部6は、特徴量抽出部5が有している第1のニューラルネットワークから出力された特徴量を入力して、書類画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有している。
この実施の形態1では、画像再構築部6が有している第2のニューラルネットワークは、CNNをあるものとする。
パラメータ更新部7は、画像再構築部6が有している第2のニューラルネットワークから出力された再構築画像と、二値画像変換部3から出力された二値画像との差分に従って特徴量抽出部5が有している第1のニューラルネットワークのパラメータ及び画像再構築部6が有している第2のニューラルネットワークのパラメータのそれぞれを更新する処理を実施する。
パラメータ記憶部8は、例えば図2に示すパラメータ記憶回路18で実現されるものであり、パラメータ更新部7により更新された第1のニューラルネットワークのパラメータ及び第2のニューラルネットワークのパラメータのそれぞれを記憶する。
ソフトウェア又はファームウェアはプログラムとして、コンピュータのメモリに格納される。コンピュータは、プログラムを実行するハードウェアを意味し、例えば、CPU(Central Processing Unit)、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサ、DSP(Digital Signal Processor)などが該当する。
機械学習装置がソフトウェア又はファームウェアなどで実現される場合、学習画像記憶部1及びパラメータ記憶部8をコンピュータのメモリ21又はストレージ22上に構成するとともに、サンプリング部2、二値画像変換部3、画像生成部4、特徴量抽出部5、画像再構築部6及びパラメータ更新部7の処理手順をコンピュータに実行させるためのプログラムをメモリ21又はストレージ22に格納し、コンピュータのプロセッサ23がメモリ21又はストレージ22に格納されているプログラムを実行するようにすればよい。
図3において、画像入力器24は、書類画像を入力する入力インタフェース機器であり、結果出力器25は、画像再構築部6が有している第2のニューラルネットワークから出力された再構築画像を出力する出力インタフェース機器である。
図4及び図5において、登録画像記憶部31は、例えば図5に示す登録画像記憶回路41で実現されるものであり、1つ以上の書類画像(学習対象の画像)を登録画像として記憶する。
この登録画像は、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と同じ書類画像であってもよいし、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と異なる書類画像であってもよい。
認識対象画像記憶部32は、例えば図5に示す認識対象画像記憶回路42で実現されるものであり、認識対象の書類画像である認識対象画像を記憶する。
特徴量検出部33は、第1の特徴量検出部34、画像再生成部35及び第2の特徴量検出部36を備えている。
特徴量検出部33は、登録画像の特徴量を特徴量記憶部37に登録する登録処理を実施する際には、実装しているニューラルネットワークを用いて、登録画像記憶部31に記憶されている登録画像を入力する毎に、当該登録画像の特徴量を出力する。
特徴量検出部33は、画像検索部38が認識対象画像と類似している登録画像を検索する検索処理を開始する前処理として、実装しているニューラルネットワークを用いて、認識対象画像記憶部32に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する。
第1の特徴量検出部34は、検索処理の前処理を実施する際には、実装している第1のニューラルネットワークが、認識対象画像記憶部32に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する。
第1の特徴量検出部34が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
画像再生成部35は、検索処理の前処理を実施する際には、実装している第2のニューラルネットワークが、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された認識対象画像の特徴量を入力して、認識対象画像を再構築した画像である再構築認識画像を出力する。
画像再生成部35が有している第2のニューラルネットワークは、図1の機械学習装置の画像再構築部6が有している第2のニューラルネットワークと同じニューラルネットワークである。
第2の特徴量検出部36は、検索処理の前処理を実施する際には、実装している第1のニューラルネットワークが、画像再生成部35が有している第2のニューラルネットワークから出力された再構築認識画像を入力して、再構築認識画像の特徴量を出力する。
第2の特徴量検出部36が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
特徴量記憶部37は、特徴量検出部36が有しているニューラルネットワークから出力された登録画像の特徴量として、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された登録画像の特徴量及び第2の特徴量検出部36が有している第1のニューラルネットワークから出力された再構築登録画像の特徴量のそれぞれを記憶する。
画像検索部38の画像記憶部38aは、画像再生成部35から出力された再構築登録画像を記憶する。
この実施の形態1では、画像検索部38の画像記憶部38aが、画像再生成部35から出力された再構築登録画像を記憶するようにしているが、画像再生成部35が、再構築登録画像を記憶する画像記憶部を備えるようにしてもよい。あるいは、図4の画像認識装置が、画像再生成部35から出力された再構築登録画像を記憶する再構築登録画像記憶部を備えるようにしてもよい。
画像検索部38は、特徴量記憶部37により記憶されている1つ以上の登録画像の特徴量のうち、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度を算出する処理を実施する。
画像検索部38は、登録画像記憶部31により記憶されている1つ以上の登録画像の中で、算出した類似度が最も高い登録画像を特定し、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する処理を実施する。
また、画像検索部38は、特徴量記憶部37により記憶されている1つ以上の特徴量のうち、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度を算出する処理を実施する。
画像検索部38は、画像記憶部38aにより記憶されている1つ以上の再構築登録画像の中で、算出した類似度が最も高い再構築登録画像を特定し、特定した再構築登録画像に対応する登録画像を、認識対象画像と類似している登録画像の検索結果として出力する処理を実施する。
また、特徴量検出回路43及び画像検索回路45は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGA、または、これらを組み合わせたものが該当する。
図6は、画像認識装置がソフトウェア又はファームウェアなどで実現される場合のコンピュータのハードウェア構成図である。
画像認識装置がソフトウェア又はファームウェアなどで実現される場合、登録画像記憶部31、認識対象画像記憶部32及び特徴量記憶部37をコンピュータのメモリ51又はストレージ52上に構成するとともに、特徴量検出部33及び画像検索部38の処理手順をコンピュータに実行させるためのプログラムをメモリ51又はストレージ52に格納し、コンピュータのプロセッサ53がメモリ51又はストレージ52に格納されているプログラムを実行するようにすればよい。
図6において、画像入力器54は、登録画像又は認識対象画像を入力する入力インタフェース機器であり、結果出力器55は、画像検索部38による登録画像の検索結果を出力する出力インタフェース機器である。
最初に、図1の機械学習装置の動作について説明する。
学習画像記憶部1には、事前に取得された複数の書類画像が記憶される。
この実施の形態1では、学習画像記憶部1に記憶される書類画像は、例えば、グレースケールの画像であるものとする。このため、カラー画像の場合、学習画像記憶部1に記憶される前に、カラー画像がグレースケールの画像に変換されるものとする。
図7は、この発明の実施の形態1による機械学習装置のサンプリング部2における処理内容を示すフローチャートである。
以下、図7を参照しながら、サンプリング部2の処理内容を具体的に説明する。
次に、サンプリング部2は、選択した書類画像の画像サイズを事前に設定されている画像サイズ(H,W)に変更する(図7のステップST2)。Hは書類画像の高さ、Wは書類画像の幅である。
サンプリング部2は、パラメータP1が示す画像スケールSに基づいて、選択した書類画像の画像サイズを変更する画像処理を実施する(図7のステップST4)。
また、サンプリング部2は、選択した書類画像の中心を回転軸として、パラメータP2が示す回転角度θだけ、選択した書類画像を回転させる画像処理を実施する(図7のステップST5)。
サンプリング部2は、画像処理後の書類画像の中から、例えば、左上の角点の座標が、決定した座標(X,Y)である一部の領域を切り出す処理を実施する(図7のステップST7)。切り出し領域の画像サイズは、事前に設定されている画像サイズ(h,w)である。
サンプリング部2は、切り出した一部の領域を書類画像として、二値画像変換部3及び画像生成部4のそれぞれに出力する。
サンプリング部2は、未だ選択していない書類画像が残っていれば(図7のステップST8:YESの場合)、ステップST1〜ST8の処理を繰り返し実施する。
サンプリング部2は、既に選択していない書類画像が残っていなければ(図7のステップST8:NOの場合)、処理を終了する。
サンプリング部2の処理によって、有限の学習画像である書類画像から、近似的に無限の学習サンプルとして書類画像を生成することができる。このため、学習結果の汎化性能として、未知の対象の識別能力の向上が期待される。
書類画像を二値画像に変換するアルゴリズムとして、例えば、適応的閾値処理(Adaptive Threshold関数を用いる処理)を利用することができるが、書類画像を二値画像に変換することができればよく、どのようなアルゴリズムを利用してもよい。
図8は、この発明の実施の形態1による機械学習装置の画像生成部4における処理内容を示すフローチャートである。
以下、図8を参照しながら、画像生成部4の調整処理を具体的に説明する。
また、以下の6つの調整処理の順序は、どのような順序でもよく、例えば、順序を乱数によって決定することができる。
次に、画像生成部4は、書類画像を構成している各々の画素の中から、ごま塩ノイズを付加する画素を、乱数で決めた確率に基づいて決定する。
そして、画像生成部4は、決定した画素の輝度値を、当該画素の周辺の画素の輝度値と大きく変えることで、当該画素にごま塩ノイズを付加する(図8のステップST12)。
例えば、周辺の画素の輝度値が、二値画像変換部3における二値画像の閾値処理に用いる閾値よりも黒側の輝度値であれば、当該画素の輝度値を最も白い輝度値とする。
一方、周辺の画素の輝度値が、閾値よりも白側の輝度値であれば、当該画素の輝度値を最も黒い輝度値とする。
次に、画像生成部4は、シャープネスを示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像のシャープネスを調整する処理を実施する(図8のステップST14)。
次に、画像生成部4は、輝度値を示すパラメータを乱数によって決定し、決定したパラメータに従って書類画像の輝度値を調整する処理を実施する(図8のステップST16)。
画像生成部4の調整処理によって、図4の画像認識装置に与えられる認識対象画像が、外乱の影響を受けている場合でも、認識対象画像に類似している画像の検索が可能になる。
特徴量抽出部5が有している第1のニューラルネットワークはCNNであり、第1のニューラルネットワークは、書類画像の特徴量の畳み込みを行う畳み込み層と、プーリング処理を実施するプーリング層とを含んでいる。
図9において、INPUTは、画像の入力部であり、INPUTから入力される画像は、画像生成部4から出力された外乱の影響を受けている書類画像である。
OUTPUTは、特徴量の出力部であり、OUTPUTから出力される特徴量は、書類画像の特徴量である。
CONV(1)、CONV(2)及びCONV(3)のそれぞれは、第1のニューラルネットワークに含まれている畳み込み層である。畳み込み層では、書類画像の特徴量の畳み込みを実施した後、活性化関数の演算が行われるが、図9では、活性化関数の演算の表記を省略している。
POOL(1)及びPOOL(2)のそれぞれは、第1のニューラルネットワークに含まれているプーリング層である。
図10に示す入力特徴量は、畳み込み層に入力される書類画像における複数の領域の特徴量を含んでおり、複数の領域の特徴量は、2次元構造のデータである入力特徴量マップに相当する。
図10では、書類画像が25個の領域(図中、縦5×横5個の領域)を備えている例を示している。即ち、書類画像は、A方向が5、B方向が5の領域を備えている例を示している。。
また、入力特徴量は、k(kは1以上の整数)個の入力特徴量マップを備えており、入力特徴量が2つ以上の入力特徴量マップを備えていれば、2つ以上の入力特徴量マップは、3次元構造のデータとして表現される。図10では、入力特徴量をkマップで表記している。
例えば、書類画像が、R(赤色)、G(緑色)及びB(青色)の色成分を有するカラー画像が、色成分毎に、グレースケールの画像に変換されている画像である場合、入力特徴量は、R用の入力特徴量マップ、G用の入力特徴量マップ及びR用の入力特徴量マップとして、3個の入力特徴量マップを備える。
図10の例では、カーネルの2次元サイズは、A方向が3、B方向が3である。
また、カーネルは、3次元構造のデータであり、入力特徴量マップと同じ奥行サイズを持っている。したがって、入力特徴量がk個の入力特徴量マップを備えていれば、カーネルの奥行サイズはkとなる。図10では、カーネルをkマップで表記している。
式(1)において、x(c1−b1+padA,c2−b2+padB,b3)における「c1−b1+padA」は、入力特徴量x(a1,a2,a3)における「a1」に対応し、「c2−b2+padB」は、入力特徴量x(a1,a2,a3)における「a2」に対応する。また、「b3」は、入力特徴量x(a1,a2,a3)における「a3」に対応する。
w(b1,b2,b3)は、カーネルの重み値を示すパラメータであり、パラメータ更新部7によって更新される第1のニューラルネットワークのパラメータである。
y(c1,c2)は、書類画像における各領域の出力特徴量である。
例えば、padA=1であれば、入力特徴マップの領域からカーネルがA方向に1マスはみ出しても、畳み込み処理の計算が可能であるが、カーネルがA方向に2マスはみ出していれば、畳み込み処理の計算が不可能であることを意味している。
また、padB=2であれば、入力特徴マップの領域からカーネルがB方向に2マスはみ出しても、畳み込み処理の計算が可能であるが、カーネルがB方向に3マスはみ出していれば、畳み込み処理の計算が不可能であることを意味している。
例えば、入力特徴マップの領域から−A方向にカーネルがはみ出しているとき、式(1)に示す畳み込み処理の計算では、一部の入力特徴量x(a1,a2,a3)のインデックスがマイナスになる。このとき、特徴量抽出部5は、インデックスがマイナスである入力特徴量x(a1,a2,a3)をゼロで埋めるゼロパッディングを実施するようにしてもよい。ただし、ゼロパッディングの実施は必須ではなく、ゼロパッディングを実施しないようにしてもよい。
図10では、padA=1、padB=1、ストライドパラメータ=1であり、カーネルを1つずつ移動させながら、式(1)に示す畳み込み処理の計算を実施している例を示している。
例えば、出力特徴量の中の1個の領域の特徴量y(1,1)は、入力特徴量の中の9個の領域の特徴量x(a1,a2,a3)、即ち、x(0,0,0)、x(0,1,0)、x(0,2,0)、x(1,0,0)、x(1,1,0)、x(1,2,0)、x(2,0,0)、x(2,1,0)及びx(2,2,0)についての計算結果を示している。
式(1)は、カーネルが1つである例を示しており、以下の式(2)は、カーネルが複数である場合の畳み込み処理の計算を示している。
式(2)において、kは、出力特徴量マップのインデックスである。出力特徴量マップの個数は、カーネルの個数と同じである。
この実施の形態1において、特徴量抽出部5が実施するプーリング層におけるプーリング処理は、一般的なプーリング処理と異なる。
即ち、特徴量抽出部5が実施するプーリング処理は、一般的なプーリング処理と同様に、出力特徴量マップの一部の領域である局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出して、抽出した特徴量を出力する。
特徴量抽出部5が実施するプーリング処理は、一般的なプーリング処理と異なり、抽出した特徴量が存在している書類画像内の位置を示す位置情報についても出力する。
図11では、A方向が4、B方向が4及びC方向がKである(4×4×K)の入力特徴量に対して、A方向が2、B方向が2及びC方向がKである(2×2×K)のカーネルを用いて、プーリング処理を実施した結果、A方向が2、B方向が2及びC方向がKである(2×2×K)の出力特徴量が得られている例を示している。図11の例では、カーネルのストライド値は2、パッディング値はゼロである。
例えば、出力特徴量の中の1個の領域の特徴量(0,0,0)は、入力特徴量の中の4個の領域の特徴量x(a1,a2,a3)、即ち、x(0,0,0)、x(0,1,0)、x(1,0,0)及びx(1,1,0)の中で、最大の特徴量x(0,0,0)を抽出している。そして、抽出した最大の特徴量x(0,0,0)を出力している。
また、抽出した最大の特徴量x(0,0,0)が存在している書類画像内の位置を示す位置情報を出力している。
位置マップは、入力特徴量と同じ3次元構造のデータとして表現されている。
位置マップにおいて、最大の特徴量に対応する書類画像内の位置には“1”が表記され、最大の特徴量以外の特徴量に対応する書類画像内の位置には“0”が表記されている。
ここでは、位置情報が、3次元構造の位置マップである例を示しているが、最大の特徴量が存在している書類画像内の位置が分かればよく、位置情報のデータ構造は、どのような構造であってもよい。
式(3)は、演算子f(.)を利用して、入力特徴量マップにおける4つの領域を含む局所領域から、1つの特徴量を出力する例を示している。
この実施の形態1では、演算子f(.)が、最大値を演算する演算子である例を示しており、このような演算子f(.)が用いられるプーリング処理は、最大プーリング(Max Pooling)と呼ばれる。
プーリング層におけるプーリング処理が最大プーリングである場合、1つの特徴量として局所領域の最大値を計算すると同時に、最大値となる書類画像内の位置を示す位置情報も計算される。4つの領域を含む局所領域の中に、最大値となる書類画像内の位置が2つ以上存在する場合、2つ以上の位置を示す位置情報を出力するようにしてもよい。
プーリング層におけるプーリング処理は、最大プーリングに限るものではなく、例えば、平均プーリング(Average Pooling)などの他のプーリング処理であってもよい。
プーリング層におけるプーリング処理が平均プーリングである場合、式(3)における演算子f(.)は、平均値を演算する演算子となる。
この実施の形態1では、特徴量抽出部5が有している第1のニューラルネットワークがCNNである例を示しているが、CNNに限るものではなく、例えば、ディープニューラルネットなどの多層構造を持つニューラルネットであってもよい。
画像再構築部6が有している第2のニューラルネットワークはCNNであり、第2のニューラルネットワークは、逆プーリング処理を実施する逆プーリング層と、二値画像の特徴量の畳み込みを行う畳み込み層とを含んでいる。
図12において、INPUTは、特徴量の入力部であり、INPUTから入力される特徴量は、特徴量抽出部5が有している第1のニューラルネットワークから出力された特徴量である。
OUTPUTは、特徴量の出力部であり、OUTPUTから出力される複数の領域の特徴量である出力特徴量のサイズは、図10に示す入力特徴量のサイズと同じサイズである。
UNPOOL(1)及びUNPOOL(2)のそれぞれは、第2のニューラルネットワークに含まれている逆プーリング層である。
第2のニューラルネットワークに含まれているUNPOOL(1)は、図9に示すPOOL(2)と対応し、第2のニューラルネットワークに含まれているUNPOOL(2)は、図9に示すPOOL(1)と対応している。
CONV(1)、CONV(2)及びCONV(3)のそれぞれは、第2のニューラルネットワークに含まれている畳み込み層である。畳み込み層では、再構築画像の特徴量の畳み込みを実施した後、活性化関数の演算が行われるが、図12では、活性化関数の演算の表記を省略している。
画像再構築部6が、期待された機械学習効果を達成するためには、特徴量抽出部5が有している第1のニューラルネットワークから出力された複数の領域の特徴量である出力特徴量のサイズを、図10に示す入力特徴量のサイズに戻す必要がある。
即ち、特徴量抽出部5が有している第1のニューラルネットワークに含まれているプーリング層のプーリング処理によって、サイズが小さくなっている出力特徴量である特徴量マップのサイズを、画像再構築部6が、当該プーリング処理が実施される前の入力特徴量のサイズに戻す必要がある。
このため、画像再構築部6が有している第2のニューラルネットワークは、特徴量抽出部5が有している第1のニューラルネットに含まれているプーリング層に対応する逆プーリング層を含んでいる。
図13は、逆プーリング層における逆プーリング処理を示す説明図である。
図13に示す逆プーリング処理では、(2×2×K)の入力特徴量を(4×4×K)の出力特徴量に変換する例を示している。
また、図13に示す逆プーリング処理では、対応するプーリング層から取得した位置情報を入力し、(4×4×K)の出力特徴量のうち、位置情報が示す最大値の位置の特徴量に、入力特徴量の値を挿入し、位置情報が示す最大値の位置以外の位置の特徴量に、ゼロを挿入している。
また、入力特徴量x(0,1,0)は、(4×4×K)の出力特徴量において、A方向で左から3番目及びB方向で上から1番目の位置に挿入されている。
また、入力特徴量x(1,0,0)は、(4×4×K)の出力特徴量において、A方向で左から2番目及びB方向で上から3番目の位置に挿入されている。
入力特徴量x(1,1,0)は、(4×4×K)の出力特徴量において、A方向で左から3番目及びB方向で上から4番目の位置に挿入されている。
(4×4×K)の出力特徴量の他の位置には、ゼロが挿入されている。
パラメータ更新部7は、算出した差分が最小になるように、特徴量抽出部5が有している第1のニューラルネットワークのパラメータ及び画像再構築部6が有している第2のニューラルネットワークのパラメータのそれぞれを更新する。
即ち、パラメータ更新部7は、算出した差分が最小になるように、第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)及び第2のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)のそれぞれを更新する。
パラメータ更新部7により算出される再構築画像と二値画像との差分としては、例えば、再構築画像と二値画像との平均2乗誤差(MSE:Mean Square Error)でもよいし、再構築画像と二値画像とのクロスエントロピーでもよい。
また、パラメータ更新部7が、差分が最小になるように、パラメータを更新する最適化アルゴリズムとして、例えば、確率的勾配降下法などを用いることができる。
また、パラメータ記憶部8は、パラメータ更新部7により更新された第2のニューラルネットワークのパラメータとして、パラメータ更新部7により更新された第2のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)を記憶する。
第1の特徴量検出部34は、登録画像記憶部31に記憶されている登録画像を入力して、登録画像の特徴量を出力するとともに、認識対象画像記憶部32に記憶されている認識対象画像を入力して、認識対象画像の特徴量を出力する第1のニューラルネットワークを有している。
第1の特徴量検出部34が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
したがって、第1の特徴量検出部34が有している第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)は、再構築画像と二値画像との差分が最小になるように、図1の機械学習装置のパラメータ更新部7によって最適化されている。
画像再生成部35が有している第2のニューラルネットワークは、図1の機械学習装置の画像再構築部6が有している第2のニューラルネットワークと同じニューラルネットワークである。
したがって、画像再生成部35が有している第2のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)は、再構築画像と二値画像との差分が最小になるように、図1の機械学習装置のパラメータ更新部7によって最適化されている。
第2の特徴量検出部36が有している第1のニューラルネットワークは、図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワークと同じニューラルネットワークである。
したがって、第2の特徴量検出部36が有している第1のニューラルネットワークにおけるカーネルの重み値を示すパラメータw(b1,b2,b3)は、再構築画像と二値画像との差分が最小になるように、図1の機械学習装置のパラメータ更新部7によって最適化されている。
図1の機械学習装置の特徴量抽出部5が有している第1のニューラルネットワーク及び画像再構築部6が有している第2のニューラルネットワークのそれぞれがCNNである場合、第1の特徴量検出部34が有している第1のニューラルネットワーク及び第2の特徴量検出部36が有している第1のニューラルネットワークは、自由パラメータとして、畳み込み層のカーネルだけを持っている。このため、カーネルのサイズが同じであれば、パラメータ更新部7により更新されたパラメータを学習済みのパラメータとして利用できるため、図1の機械学習装置における各々の畳み込み層の特徴量マップと、図4の画像認識装置における各々の畳み込み層の特徴量マップとのサイズが異なっていてもよい。
この登録画像は、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と同じ書類画像であってもよいし、図1の機械学習装置の学習画像記憶部1に記憶されている書類画像と異なる書類画像であってもよい。
認識対象画像記憶部32は、認識対象の書類画像である認識対象画像を記憶している。
特徴量検出部33は、登録画像記憶部31に記憶されている登録画像の特徴量を特徴量記憶部37に登録する登録処理と、認識対象画像記憶部32に記憶されている認識対象画像と類似している登録画像を検索する検索処理を可能にするために、認識対象画像の特徴量を抽出する前処理とを実施する。
特徴量検出部33の第1の特徴量検出部34は、登録画像記憶部31に記憶されている1つ以上の登録画像の中から、1つの登録画像を順番に入力する。
第1の特徴量検出部34が有している第1のニューラルネットワークは、1つの登録画像を入力すると、登録画像の特徴量を出力する。
第1の特徴量検出部34は、登録画像の特徴量を特徴量記憶部37に格納するとともに、登録画像の特徴量を画像再生成部35に出力する。
画像再生成部35が有している第2のニューラルネットワークは、登録画像の特徴量を入力すると、登録画像を再構築した画像である再構築登録画像を出力する。
画像再生成部35は、再構築登録画像を第2の特徴量検出部36及び画像検索部38に出力する。
画像検索部38の画像記憶部38aは、画像再生成部35から出力された再構築登録画像を記憶する。
なお、画像再生成部35から出力される再構築登録画像は、登録画像の二値画像に相当する画像ではあるが、登録画像の特徴量から再構築した画像であるため、登録画像の二値画像と完全に一致しているとは限らない。
第2の特徴量検出部36が有している第1のニューラルネットワークは、再構築登録画像を入力すると、再構築登録画像の特徴量を出力する。
第2の特徴量検出部36は、再構築登録画像の特徴量を特徴量記憶部37に格納する。
登録画像記憶部31に記憶されている登録画像の個数がN個であれば、特徴量記憶部37には、第1の特徴量検出部34から出力されたN個の登録画像の特徴量と、第2の特徴量検出部36から出力されたN個の再構築登録画像の特徴量が記憶される。
第2の特徴量検出部36から出力された再構築登録画像の特徴量は、画像再生成部35により再構築された画像である再構築登録画像から抽出された特徴量であるため、第1の特徴量検出部34が有している第1のニューラルネットワークから出力された登録画像の特徴量よりも、多くの外乱の影響が除去されている。
特徴量検出部33の第1の特徴量検出部34は、認識対象画像記憶部32に記憶されている認識対象の書類画像である認識対象画像を入力する。
第1の特徴量検出部34が有している第1のニューラルネットワークは、認識対象画像を入力すると、認識対象画像の特徴量を出力する
第1の特徴量検出部34は、認識対象画像の特徴量を画像再生成部35及び画像検索部38のそれぞれに出力する。
画像再生成部35の第2のニューラルネットワークは、認識対象画像の特徴量を入力すると、認識対象画像を再構築した画像である再構築認識画像を出力する。
画像再生成部35は、再構築認識画像を第2の特徴量検出部36に出力する。
第2の特徴量検出部36が有している第1のニューラルネットワークは、再構築認識画像を入力すると、再構築認識画像の特徴量を出力する。
第2の特徴量検出部36は、再構築認識画像の特徴量を画像検索部38に出力する。
このため、画像検索部38が、認識対象画像と類似している登録画像を検索する際、第1の特徴量検出部34から出力された登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量とを比較すれば十分である。したがって、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築登録画像の特徴量と、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築認識画像の特徴量とを比較する必要性が低い。
このため、画像検索部38が、認識対象画像と類似している登録画像を検索する際、第1の特徴量検出部34から出力された登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量とを比較するだけでは不十分である。したがって、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築登録画像の特徴量と、多くの外乱の影響が除去されている第2の特徴量検出部36から出力された再構築認識画像の特徴量とを比較する必要性が高い。
以下、画像検索部38による比較対象の特徴量が、第1の特徴量検出部34から出力される登録画像の特徴量と認識対象画像の特徴量とする設定を「設定A」と称する。
画像検索部38による比較対象の特徴量が、第2の特徴量検出部36から出力される再構築登録画像の特徴量と再構築認識画像の特徴量とする設定を「設定B」と称する。
特徴量の類似度を算出するアルゴリズムは、特に限定するものではないが、例えば、コサイン類似度(Cosine Similarity)を使用することができる。
画像検索部38は、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度を算出すると、登録画像記憶部31により記憶されている1つ以上の登録画像の中で、算出した類似度が最も高い登録画像を特定する。
画像検索部38は、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この場合、画像検索部38が、認識対象画像と類似している登録画像を検索する際、画像再生成部35及び第2の特徴量検出部36が処理を実施する必要がないため、登録画像の検索結果が得られるまでの時間を短縮することができる。
画像検索部38は、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度を算出すると、画像記憶部38aにより記憶されている1つ以上の再構築登録画像の中で、算出した類似度が最も高い再構築登録画像を特定する。
画像検索部38は、特定した再構築登録画像に対応する登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
この場合、画像検索部38が、認識対象画像と類似している登録画像を検索する際、画像再生成部35及び第2の特徴量検出部36が前処理を実施する必要があるため、設定Aの場合よりも、登録画像の検索結果が得られるまでの時間が長くなるが、登録画像と認識対象画像が取得された環境が異なる場合でも、認識対象画像と類似している登録画像の検索精度の劣化を抑えることができる。
画像検索部38は、第1の特徴量検出部34から出力された1つ以上の登録画像の特徴量と、第1の特徴量検出部34から出力された認識対象画像の特徴量との類似度(以下、類似度R1と称する)を算出する。
また、画像検索部38は、第2の特徴量検出部36から出力された1つ以上の再構築登録画像の特徴量と、第2の特徴量検出部36から出力された再構築認識画像の特徴量との類似度(以下、類似度R2と称する)を算出する。
そして、画像検索部38は、最終的な類似度Rとして、類似度R1と類似度R2の平均値、あるいは、類似度R1と類似度R2の重み付け加算値などを算出する。
画像検索部38は、最終的な類似度Rを算出すると、1つ以上の登録画像の中で、算出した類似度Rが最も高い登録画像を特定する。
画像検索部38は、特定した登録画像を、認識対象画像と類似している登録画像の検索結果として出力する。
同じ種類の登録画像(以下、同種登録画像と称する)が複数存在しており、複数の同種登録画像が登録画像記憶部31に記憶されている場合、画像検索部38が、特徴量記憶部37により記憶されている複数の同種登録画像と、認識対象画像の特徴量との類似度をそれぞれ算出する。
そして、画像検索部38が、同種登録画像の特徴量と認識対象画像の特徴量との類似度として、それぞれ算出した類似度の平均値を算出するようにしてもよい。
この場合、登録画像記憶部31に記憶されている登録画像の個数がN個であっても、登録画像記憶部31に記憶されている登録画像の種類がM(N≧M)であれば、画像検索部38は、M種類の同種登録画像の中から、認識対象画像と類似している同種登録画像を検索するようになる。
これにより、例えば、ユーザは、画像認識装置により検索された登録画像の種類を確認することで、認識対象画像の種類を把握することができるようになる。
例えば、学習画像記憶部1に記憶される書類画像と、登録画像及び認識対象画像とを取得する環境が類似している場合、あるいは、書類のジャンルが、書類画像、登録画像及び認識対象画像の間で類似している場合、登録画像及び認識対象画像が、書類画像と異なる画像であっても、認識対象画像と類似している登録画像を検索することができる。
即ち、図1の機械学習装置が、事前に書類画像と同じ登録画像及び認識対象画像を学習していない場合でも、認識対象画像と類似している登録画像を検索することができる。
なお、取得する環境には、画像を撮影している環境のほか、画像取得機材の違いも含まれる。
書類のジャンルが類似する態様として、例えば、異なる銀行の申請書又は異なる行政機関の用紙などが考えられる。
上記実施の形態1では、特徴量抽出部5が有している第1のニューラルネットワーク及び画像再構築部6が有している第2のニューラルネットワークのパラメータの初期状態については、特に言及していない。
この実施の形態2では、特徴量抽出部5が有している第1のニューラルネットワークは、何らかの学習データに基づいて事前にパラメータが学習されているニューラルネットワークであるものとする。
また、画像再構築部6が有している第2のニューラルネットワークについても、何らかの学習データに基づいて事前にパラメータが学習されているニューラルネットワークであるものとする。
この場合、上記実施の形態1よりも学習時間が増加してしまうが、認識対象画像と類似している登録画像を、上記実施の形態1よりも正確に検索することができるようになる。
また、この発明は、認識対象画像と類似している登録画像を検索する画像認識装置に適している。
Claims (14)
- 学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、
外乱の影響を受けている学習画像を入力して、前記外乱の影響を受けている学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部と、
前記第1のニューラルネットワークから出力された特徴量を入力して、前記外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有する画像再構築部と、
前記第2のニューラルネットワークから出力された再構築画像と、前記二値画像変換部により変換された二値画像との差分に従って前記第1のニューラルネットワークのパラメータ及び前記第2のニューラルネットワークのパラメータのそれぞれを更新するパラメータ更新部と
を備えた機械学習装置。 - 複数の学習画像の中から、いずれか1つの学習画像を順番に選択し、前記選択した学習画像を前記二値画像変換部及び前記特徴量抽出部のそれぞれに出力するサンプリング部を備えたことを特徴とする請求項1記載の機械学習装置。
- 前記サンプリング部は、前記選択した学習画像の画像サイズを変更するとともに、前記選択した学習画像を回転させる画像処理を実施し、画像処理後の学習画像の中から、一部の領域を抽出し、前記抽出した一部の領域を学習画像として、前記二値画像変換部及び前記特徴量抽出部のそれぞれに出力することを特徴とする請求項2記載の機械学習装置。
- 学習対象の画像である学習画像の画素値を調整して、前記外乱の影響を受けている学習画像を生成し、生成した前記外乱の影響を受けている学習画像を前記特徴量抽出部に出力する画像生成部を備えたことを特徴とする請求項1記載の機械学習装置。
- 前記特徴量抽出部は、前記第1のニューラルネットワークとして、畳み込みニューラルネットワークであるCNN(Convolutional Neural Net)を有し、
前記画像再構築部は、前記第2のニューラルネットワークとして、畳み込みニューラルネットワークであるCNNを有していることを特徴とする請求項1記載の機械学習装置。 - 前記第1のニューラルネットワークは、前記外乱の影響を受けている学習画像の特徴量の畳み込みを行う畳み込み層を含んでおり、
前記畳み込み層の入力特徴量マップと、前記畳み込み層の出力特徴量マップとが同じサイズであることを特徴とする請求項5記載の機械学習装置。 - 前記第1のニューラルネットワークは、前記入力特徴量マップの一部の領域である局所領域毎に、当該局所領域に含まれている特徴量の中で、最大の特徴量を抽出して、前記抽出した特徴量を出力するとともに、前記抽出した特徴量が存在している学習画像内の位置を示す位置情報を出力するプーリング層を含んでいることを特徴とする請求項6記載の機械学習装置。
- 前記第2のニューラルネットワークは、前記プーリング層から出力された特徴量及び位置情報を入力して、前記再構築画像を再構築する逆プーリング層を含んでいることを特徴とする請求項7記載の機械学習装置。
- 学習対象の画像である登録画像が与えられると、前記登録画像の特徴量を出力し、認識対象の学習画像である認識対象画像が与えられると、前記認識対象画像の特徴量を出力するニューラルネットワークを有する特徴量検出部と、
前記ニューラルネットワークから出力された登録画像の特徴量を記憶する特徴量記憶部と、
前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量と、前記ニューラルネットワークから出力された認識対象画像の特徴量とを比較して、前記1つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索する画像検索部とを備え、
前記特徴量検出部が有しているニューラルネットワークのパラメータが機械学習装置によって更新され、
前記機械学習装置は、
学習対象の画像である学習画像を二値画像に変換する二値画像変換部と、
外乱の影響を受けている学習画像を入力して、前記外乱の影響を受けている学習画像の特徴量を出力する第1のニューラルネットワークを有する特徴量抽出部と、
前記第1のニューラルネットワークから出力された特徴量を入力して、前記外乱の影響を受けている学習画像を二値画像として再構築した画像である再構築画像を出力する第2のニューラルネットワークを有する画像再構築部と、
前記第2のニューラルネットワークから出力された再構築画像と、前記二値画像変換部により変換された二値画像との差分に従って前記第1のニューラルネットワークのパラメータ及び前記第2のニューラルネットワークのパラメータのそれぞれを更新するパラメータ更新部とを備えており、
前記特徴量検出部が有しているニューラルネットワークは、前記パラメータ更新部によりパラメータが更新された前記第1及び第2のニューラルネットワークであることを特徴とする画像認識装置。 - 前記特徴量検出部は、
前記登録画像を入力して、前記登録画像の特徴量を出力するとともに、前記認識対象画像を入力して、前記認識対象画像の特徴量を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第1のニューラルネットワークを有する第1の特徴量検出部と、
前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された登録画像の特徴量を入力して、前記登録画像を再構築した画像である再構築登録画像を出力するとともに、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された認識対象画像の特徴量を入力して、前記認識対象画像を再構築した画像である再構築認識画像を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第2のニューラルネットワークを有する画像再生成部と、
前記画像再生成部が有している第2のニューラルネットワークから出力された再構築登録画像を入力して、前記再構築登録画像の特徴量を出力するとともに、前記画像再生成部が有している第2のニューラルネットワークから出力された再構築認識画像を入力して、前記再構築認識画像の特徴量を出力するニューラルネットワークとして、前記パラメータ更新部によりパラメータが更新された前記第1のニューラルネットワークを有する第2の特徴量検出部とを備えており、
前記特徴量記憶部は、前記特徴量検出部が有しているニューラルネットワークから出力された登録画像の特徴量として、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された登録画像の特徴量及び前記第2の特徴量検出部が有している第1のニューラルネットワークから出力された再構築登録画像の特徴量のそれぞれを記憶することを特徴とする請求項9記載の画像認識装置。 - 前記画像検索部は、前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量のうち、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された1つ以上の登録画像の特徴量と、前記第1の特徴量検出部が有している第1のニューラルネットワークから出力された認識対象画像の特徴量とを比較して、1つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索し、あるいは、前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量のうち、前記第2の特徴量検出部が有している第1のニューラルネットワークから出力された1つ以上の再構築登録画像の特徴量と、前記第2の特徴量検出部が有している第1のニューラルネットワークから出力された再構築認識画像の特徴量とを比較して、1つ以上の再構築登録画像の中から、前記再構築認識画像と類似している再構築登録画像を検索することを特徴とする請求項10記載の画像認識装置。
- 前記画像検索部は、前記特徴量記憶部により記憶されている1つ以上の登録画像の特徴量と、前記ニューラルネットワークから出力された認識対象画像の特徴量との類似度をそれぞれ算出し、それぞれ算出した類似度に基づいて、前記1つ以上の登録画像の中から、前記認識対象画像と類似している登録画像を検索することを特徴とする請求項9記載の画像認識装置。
- 前記特徴量記憶部には、同じ種類の登録画像である同種登録画像が複数記憶されており、
前記画像検索部は、前記特徴量記憶部により記憶されている複数の同種登録画像と、前記ニューラルネットワークから出力された認識対象画像の特徴量との類似度をそれぞれ算出し、前記複数の同種登録画像を1つの登録画像とみなし、前記1つの登録画像の特徴量と前記認識対象画像の特徴量との類似度として、それぞれ算出した類似度の平均値を算出することを特徴とする請求項12記載の画像認識装置。 - 前記学習画像として、前記認識対象画像が、前記二値画像変換部及び前記特徴量抽出部に与えられることを特徴とする請求項9記載の画像認識装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2017/013603 WO2018179338A1 (ja) | 2017-03-31 | 2017-03-31 | 機械学習装置及び画像認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6320649B1 true JP6320649B1 (ja) | 2018-05-09 |
JPWO2018179338A1 JPWO2018179338A1 (ja) | 2019-04-04 |
Family
ID=62105884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017554102A Active JP6320649B1 (ja) | 2017-03-31 | 2017-03-31 | 機械学習装置及び画像認識装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6320649B1 (ja) |
WO (1) | WO2018179338A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6559382B1 (ja) * | 2018-12-21 | 2019-08-14 | 三菱電機株式会社 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
WO2019230665A1 (ja) * | 2018-06-01 | 2019-12-05 | 日本電信電話株式会社 | 学習装置、検索装置、方法、及びプログラム |
JP2020160582A (ja) * | 2019-03-25 | 2020-10-01 | 三菱電機株式会社 | 特徴特定装置、特徴特定方法及び特徴特定プログラム |
CN111789635A (zh) * | 2019-04-04 | 2020-10-20 | 株式会社日立制作所 | 超声波摄像装置以及图像处理装置 |
WO2021152715A1 (ja) * | 2020-01-29 | 2021-08-05 | 日本電信電話株式会社 | 学習装置、検索装置、学習方法、検索方法及びプログラム |
CN113470831A (zh) * | 2021-09-03 | 2021-10-01 | 武汉泰乐奇信息科技有限公司 | 一种基于数据简并的大数据转换方法与装置 |
JP7368995B2 (ja) | 2019-09-30 | 2023-10-25 | セコム株式会社 | 画像認識システム、撮像装置、認識装置及び画像認識方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7196058B2 (ja) * | 2019-12-24 | 2022-12-26 | 株式会社日立製作所 | 物体検索装置及び物体検索方法 |
CN112541876B (zh) * | 2020-12-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 卫星图像处理方法、网络训练方法、相关装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212990A (ja) * | 1998-01-26 | 1999-08-06 | Toray Ind Inc | 画像の検索装置および画像の検索表示方法ならびに物品の製造方法 |
JP2005092465A (ja) * | 2003-09-16 | 2005-04-07 | Fuji Xerox Co Ltd | データ認識装置 |
US20150238148A1 (en) * | 2013-10-17 | 2015-08-27 | Siemens Aktiengesellschaft | Method and system for anatomical object detection using marginal space deep neural networks |
JP2016004549A (ja) * | 2014-06-19 | 2016-01-12 | ヤフー株式会社 | 特定装置、特定方法及び特定プログラム |
US20170076438A1 (en) * | 2015-08-31 | 2017-03-16 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
-
2017
- 2017-03-31 JP JP2017554102A patent/JP6320649B1/ja active Active
- 2017-03-31 WO PCT/JP2017/013603 patent/WO2018179338A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11212990A (ja) * | 1998-01-26 | 1999-08-06 | Toray Ind Inc | 画像の検索装置および画像の検索表示方法ならびに物品の製造方法 |
JP2005092465A (ja) * | 2003-09-16 | 2005-04-07 | Fuji Xerox Co Ltd | データ認識装置 |
US20150238148A1 (en) * | 2013-10-17 | 2015-08-27 | Siemens Aktiengesellschaft | Method and system for anatomical object detection using marginal space deep neural networks |
JP2016004549A (ja) * | 2014-06-19 | 2016-01-12 | ヤフー株式会社 | 特定装置、特定方法及び特定プログラム |
US20170076438A1 (en) * | 2015-08-31 | 2017-03-16 | Cape Analytics, Inc. | Systems and methods for analyzing remote sensing imagery |
Non-Patent Citations (3)
Title |
---|
久保直樹, 外1名: "擬似自己符号化器を用いたスケッチ画像検索", 電気学会研究会資料, JPN6017021181, 28 March 2016 (2016-03-28), JP, pages 101 - 106, ISSN: 0003716906 * |
伊庭斉志, 進化計算と深層学習, JPN6017021179, 20 October 2015 (2015-10-20), pages 57 - 60, ISSN: 0003716907 * |
進藤智則: "ディープラーニングは万能か 第3部:タスク別編", 日経エレクトロニクス, vol. 第1156号, JPN6017021180, 20 May 2015 (2015-05-20), JP, pages 44 - 52, ISSN: 0003716908 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019230665A1 (ja) * | 2018-06-01 | 2019-12-05 | 日本電信電話株式会社 | 学習装置、検索装置、方法、及びプログラム |
JP6559382B1 (ja) * | 2018-12-21 | 2019-08-14 | 三菱電機株式会社 | 音源方向推定装置、音源方向推定方法、及び音源方向推定プログラム |
JP2020160582A (ja) * | 2019-03-25 | 2020-10-01 | 三菱電機株式会社 | 特徴特定装置、特徴特定方法及び特徴特定プログラム |
US11755907B2 (en) | 2019-03-25 | 2023-09-12 | Mitsubishi Electric Corporation | Feature identification device, feature identification method, and computer readable medium |
JP7357454B2 (ja) | 2019-03-25 | 2023-10-06 | 三菱電機株式会社 | 特徴特定装置、特徴特定方法及び特徴特定プログラム |
CN111789635A (zh) * | 2019-04-04 | 2020-10-20 | 株式会社日立制作所 | 超声波摄像装置以及图像处理装置 |
CN111789635B (zh) * | 2019-04-04 | 2023-06-20 | 富士胶片医疗健康株式会社 | 超声波摄像装置以及图像处理装置 |
JP7368995B2 (ja) | 2019-09-30 | 2023-10-25 | セコム株式会社 | 画像認識システム、撮像装置、認識装置及び画像認識方法 |
WO2021152715A1 (ja) * | 2020-01-29 | 2021-08-05 | 日本電信電話株式会社 | 学習装置、検索装置、学習方法、検索方法及びプログラム |
JP7363929B2 (ja) | 2020-01-29 | 2023-10-18 | 日本電信電話株式会社 | 学習装置、検索装置、学習方法、検索方法及びプログラム |
CN113470831A (zh) * | 2021-09-03 | 2021-10-01 | 武汉泰乐奇信息科技有限公司 | 一种基于数据简并的大数据转换方法与装置 |
CN113470831B (zh) * | 2021-09-03 | 2021-11-16 | 武汉泰乐奇信息科技有限公司 | 一种基于数据简并的大数据转换方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2018179338A1 (ja) | 2018-10-04 |
JPWO2018179338A1 (ja) | 2019-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6320649B1 (ja) | 機械学習装置及び画像認識装置 | |
US11113781B2 (en) | Image-based pose determination | |
CN111899163B (zh) | 生成对抗网络中单图像超分辨率的有效结构保持 | |
KR101183391B1 (ko) | 메트릭 임베딩에 의한 이미지 비교 | |
JP5602940B2 (ja) | 事前計算されたスケール空間からのデイジー記述子生成 | |
CN111780763A (zh) | 一种基于视觉地图的视觉定位方法、装置 | |
JP5261501B2 (ja) | 不変の視覚場面及び物体の認識 | |
CN108961180B (zh) | 红外图像增强方法及系统 | |
CN109919971B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
EP2293243A2 (en) | Image processing apparatus, image capture apparatus, image processing method, and program | |
CN105335952B (zh) | 匹配代价计算方法和装置、以及视差值计算方法和设备 | |
JP4772819B2 (ja) | 画像検索装置および画像検索方法 | |
JP2005196678A (ja) | テンプレートマッチング方法および対象画像領域抽出装置 | |
JP6075294B2 (ja) | 画像処理システム及び画像処理方法 | |
GB2587248A (en) | Analysing objects in a set of frames | |
JP2019125204A (ja) | 目標認識装置、目標認識方法、プログラム及び畳み込みニューラルネットワーク | |
CN114299358A (zh) | 图像质量评估方法、装置、电子设备及机器可读存储介质 | |
CN116664892A (zh) | 基于交叉注意与可形变卷积的多时相遥感图像配准方法 | |
JP7469391B2 (ja) | マシンビジョン用の画像データを処理するための方法及び装置 | |
CN106557772B (zh) | 用于提取局部特征子的方法、装置及图像处理方法 | |
CN116740399A (zh) | 异源图像匹配模型的训练方法、匹配方法及介质 | |
JP6056354B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム | |
CN113283469A (zh) | 基于视图的三维模型检索的图嵌入无监督特征学习方法 | |
JP6361195B2 (ja) | 画像処理装置、画像処理方法、画像処理プログラム及び記録媒体 | |
KR102495861B1 (ko) | 가상 객체를 처리하는 장치, 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171013 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171013 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20171013 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20171030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180306 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6320649 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |