JP2011113125A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2011113125A JP2011113125A JP2009266364A JP2009266364A JP2011113125A JP 2011113125 A JP2011113125 A JP 2011113125A JP 2009266364 A JP2009266364 A JP 2009266364A JP 2009266364 A JP2009266364 A JP 2009266364A JP 2011113125 A JP2011113125 A JP 2011113125A
- Authority
- JP
- Japan
- Prior art keywords
- module
- linear sum
- layer module
- processing
- nonlinear function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【解決手段】情報処理装置の第1のフィルタリング処理手段は、対象とするデータをたたみ込み処理によってフィルタリング処理を行い、第1の非線形関数処理手段は、前記第1のフィルタリング処理手段による処理結果を非線形関数で処理し、第1の線形和算出手段は、前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出し、強調手段は、前記第1の線形和算出手段による算出結果を強調し、正規化手段は、前記強調手段による強調結果を正規化する。
【選択図】図1
Description
これに関連する技術として、例えば、特許文献1には、パターン認識を容易にするシステム及び方法を提供することを課題とし、特徴抽出層及び分類層を使用する、重畳型ニューラルネットワークを有するパターン認識システムであって、パターン認識システムは特徴抽出層は重畳層を含み、分類層は完全接続層を含み、パターン認識システムを、計算されたクロスエントロピ誤差を利用してトレーニングすることができ、計算されたクロスエントロピ誤差を利用して、パターン認識システムのトレーニング可能パラメータが更新されることが開示されている。
請求項1の発明は、対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、前記第1の線形和算出手段による算出結果を強調する強調手段と、前記強調手段による強調結果を正規化する正規化手段を具備することを特徴とする情報処理装置である。
まず、実施の形態の説明の準備として、一般的なパターン認識装置について説明する。例えば、特許文献1に開示されているパターン認識装置がある。このパターン認識装置は図1のような構成をとる。このパターン認識装置は、第1重畳層モジュール110、第2重畳層モジュール120、第1完全接続層モジュール130、第2完全接続層モジュール140を有している。
対象データ105は2次元の画像データである。この画像データが第1重畳層モジュール110で画像フィルタリングされる。さらにその結果が第2重畳層モジュール120で画像フィルタリングされる。その出力が第1完全接続層モジュール130に渡され、さらに第2完全接続層モジュール140に渡され、分類結果195が出力される。
このパターン認識装置は、M種類のクラスへの分類を行う。分類結果は、M次元ベクトルである。第2完全接続層モジュール140はM個のユニットから構成されている。各ユニットは、分類を行いたいクラスにそれぞれ対応している。ここで、第2完全接続層モジュール140のユニットに、ユニット1からユニットMの名称を付与する。ユニットiの出力(分類結果195の一部)は、「対象データがクラスiに属している確率」となる。
例えば、このパターン認識装置が0から9までの10個の数字を認識する装置であるとする。この場合M=10である。また、対象データ105は数字が描かれた画像である。この画像を受け付け、分類結果195として、10個の数値が出力される。10個の数値はそれぞれ、対象データ105が「0」である確率、対象データ105が「1」である確率、…、対象データ105が「9」である確率に対応している。
また、このパターン認識装置がローマ字の大文字を認識する装置であるとする。その場合、M=26となる。また、同様に、対象データ105はローマ字の大文字が描かれた画像である。この画像を受け付け、分類結果195として、26個の数値が出力される。26個の数値はそれぞれ、対象データ105が「A」である確率、対象データ105が「B」である確率、…、対象データ105が「Z」である確率に対応している。
以上のように、第2完全接続層モジュール140は分離を行いたいクラス数分のユニットを保持する。
特許文献1に開示されている技術では、第2完全接続層モジュール140において、あるユニットiと、他のユニットj(i≠j)は直接接続されてはいない。つまり、少なくとも、ユニットiの出力がユニットjに渡されることや、ユニットjの出力がユニットiに渡されることはない。このように、ユニット間の関係がない場合、あるユニットが出力する確率と、他のユニットが出力する確率との関係がなくなる。そうした場合、下記のような問題が発生する。
ここでは説明の簡単化のため、対象とするデータが1次元であり、クラス数が2であるとする。
図2の例では、太い線200がユニット0の出力値、細い点線201がユニット1の出力値を表している。図2に例示するように、領域231はクラス0に属する領域であり、領域233はクラス1に属する領域であることが明確である。しかし、どちらのクラスにも属していることから、どちらのクラスに属するのか不明である領域232が発生してしまう。
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図3は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
以下に示す実施の形態では、完全接続層モジュールの後段に、さらに最終接続層モジュールを設けるものである。
この認識装置はMクラスの分類装置であるとして、完全接続層モジュールは、M個のユニットを有し、最終接続層モジュールに対して、M次元ベクトルの出力を行うとする。同様に、最終接続層モジュールもM個のユニットを有し、M次元のベクトルを出力する。
第1重畳層モジュール310は、第1完全接続層モジュール320と接続されている。
図4は、第1重畳層モジュール310内の構成例についての概念的なモジュール構成図である。
第1重畳層モジュール310は、フィルタモジュール401、非線形関数モジュール410、縮小モジュール430、非線形関数モジュール450の組を複数(図4ではP組)有している。フィルタモジュール401は処理結果を非線形関数モジュール410へ渡し、非線形関数モジュール410は処理結果の画像420を縮小モジュール430に渡し、縮小モジュール430は処理結果の画像440を非線形関数モジュール450に渡し、非線形関数モジュール450は処理結果の画像490を第1完全接続層モジュール320に渡す。
非線形関数としては、ロジスティック関数やハイパーボリックタンジェント(双曲線正接)関数等のシグモイド関数が利用される。その他、微分可能で、かつ、S字型で、かつ、無限大と無限小時に特定の値に漸近するような関数であればどのような関数であってもよい。非線形関数モジュール410が受け取るデータに、バイアスと呼ばれる値を加算してもよい。
前述の非線形関数のことを活性化関数と呼ぶことがある。また、活性化関数によって処理し、その出力を得る処理を活性化と呼ぶことがある。
前述の説明では、画像420−i、画像440−i(i=1,2,…,P)が一旦保持されてから次の処理が行われるように説明している。この場合、画像420−i、画像440−iの全体を一旦保持するメモリが必要となるが、実際の動作はそれに限らない。画像の部分ごとに処理を行うことによって、画像420−i、画像440−iの全体を保持することなく、最終の画像490−i(i=1,2,…,P)を得るようにしてもよい。
第1完全接続層モジュール320は、第1重畳層モジュール310、最終接続層モジュール330と接続されている。
図5は、第1完全接続層モジュール320内の構成例についての概念的なモジュール構成図である。
ここでは、Q=Pとする。
第1完全接続層モジュール320は、受付モジュール510、複数のユニット530(図5ではS個)を有している。
第1完全接続層モジュール320内の受付モジュール510が受け付けるデータは、第1重畳層モジュール310の出力であるQ枚の画像500(画像500−1から画像500−Q)である。
ここで、第1重畳層モジュール310の出力画像1枚の画素数をRとする。つまり、第1重畳層モジュール310の出力である画像490−iの縦画素数×横画素数がRである。例えば、画像490−iの縦画素数が5、横画素数が5とする。このとき、R=25となる。
第1完全接続層モジュール320では、各画素位置を区別せずに扱う。すなわち、一枚あたりR個の画素がQ枚あるため、全部でQ×R個の画素値を受け付けるとする。
各ユニット530は、第1重畳層モジュール310からの複数の出力を受け付けて、その受け付けた出力の重み付け線形和を算出する。より具体的には、各ユニット530は、受付モジュール510からQR個の画素値を受け付ける。ここで、受け付ける画素値をX1−i(i=1,2,…,QR)とする。ユニット530−j(j=1,2,…,S)には、重みW1−j−k(k=1,2,…,QR)とバイアスb1−iが保持されている。具体例として、ユニット530−1の場合、重みとバイアスはそれぞれ×W1−1−1モジュール540−1−1−1から×W1−1−QRモジュール540−1−1−QR、b1−1モジュール545−1−1に保持されており、×W1−1−1モジュール540−1−1−1から×W1−1−QRモジュール540−1−1−QRによって受け付けた各画素の重み付けを行い(画素に重みを掛ける)、シグマモジュール550によってそれらの総和を算出し、さらに、b1−1モジュール545−1−1に保持されているバイアスを加える。そして、その結果に対して非線形関数モジュール560によって非線形関数による演算を行う。つまり、ユニット530は、次の(1)式の演算を行う。
非線形関数としては、線形なものを含んでもよい。したがって、係数1の場合はそのまま出力するので非線形関数モジュール560はなくてもよい場合がある(以下、同様)。
最終接続層モジュール330は、第1完全接続層モジュール320と接続されている。
図6は、最終接続層モジュール330内の構成例についての概念的なモジュール構成図である。
ここでは、S=Mとする。
最終接続層モジュール330は、複数の強調関数モジュール610(図6ではM個)、正規化モジュール630を有している。
最終接続層モジュール330が受け付けるデータは、第1完全接続層モジュール320の出力であるX2−i(i=1,2,…,M)(図6では、X2−1600−2−1からX2−M600−2−M)である。
最終接続層モジュール330の出力は、Yj(j=1,2,…,M)(図6では、出力Y1690−1から出力YM690−M)である。ここでMは最終的に分類したいクラス数と一致している。また、最終接続層モジュール330の出力は、本実施の形態である認識装置の出力となる。
これらは、同一の箇所で各ユニットの出力値がいずれも1となっていたことから発生するものである。今、これらのユニットの出力は、第1完全接続層モジュール320の出力であるとする。第1完全接続層モジュール320の出力はロジスティックシグモイド関数(あるいはそれに類似した関数)の出力値である(図7参照)。
本実施の形態における非線形関数は、図7に例示されるように、入力対象がマイナス無限大のときに0に漸近し、プラス無限大のときに1に漸近するような関数となっている(なお、マイナス無限大で−1に漸近し、プラス無限大で+1に漸近するような関数を用いてもよい)。そのため、ユニットの出力が0になる場合や、1になる場合が多く、前記のような「どちらのクラスに属するのか不明である領域232が発生してしまう」ことが発生する。
ただし、このような場合、出力が完全に0あるいは完全に1になるようなことはない。この性質を利用して、ユニットの出力を差別化しようとするものである。
すなわち、図2の例では、ユニットの出力がどちらも1であるから、区別がつかなかったのであるが、実際には、どちらも1ということはない。精度を高くしてみると、どちらも1に近いが少しだけ1よりは小さい数となっている。これらの数値は実数であるから、精密に比べればその大小は比較できるはずである。
そこで、各ユニットの微小な差を増大させるような出力を得ればよい。強調関数モジュール610は、第1完全接続層モジュール320内のユニット530による算出結果を強調する。つまり、強調関数モジュール610内の強調関数はそのような「微小な差を増大させるような」関数である。
強調関数g(x)としては、xの定義域内で、下記に示す性質を持つ必要がある。
・単調増加関数であること。すなわち「ほとんど至るところでg’(x)>0」である。
・強調を行うため、線形よりも増加率の大きな非線形関数であること。すなわち、「ほとんど至るところでg’’(x)>0」である。
ただし、前記でg’(x)は、g(x)の1次導関数、g’’(x)はg(x)の2次導関数を示している。
例えば、強調関数は、指数関数、2次以上の多項式関数等であってもよい。より具体的には、例えばこのような関数の例として、次のような関数を挙げることができる。ただし、ここでは、xの定義域を0≦x≦1とする。
g(x)=exp(x)
g(x)=x2
g(x)=x3
他にも様々に存在する。
図8は、第2の実施の形態の構成例についての概念的なモジュール構成図である。
第2の実施の形態は、図8の例に示すように、第1重畳層モジュール810、第2重畳層モジュール820、第1完全接続層モジュール830、最終接続層モジュール840を有している。第1の実施の形態に第2重畳層モジュール820を加えたものである。第1重畳層モジュール810、第1完全接続層モジュール830、最終接続層モジュール840の構成、動作は、第1の実施の形態の第1重畳層モジュール310、第1完全接続層モジュール320、最終接続層モジュール330と同等のものである。ただし、Q=Pの限定がない点が異なる。
以下、図9を用いて第2重畳層モジュール820の構成と動作を説明する。
第2重畳層モジュール820は、複数のユニット900(図9ではQ個)を有している。各ユニット900は、複数のフィルタモジュール910(図9ではP個)、加算モジュール930、非線形関数モジュール940、縮小モジュール960、非線形関数モジュール980を有している。
第2重畳層モジュール820は、P枚の画像を受け付ける。この受け付ける画像は、もちろんのことながら第1重畳層モジュール810(第1の実施の形態の第1重畳層モジュール310)の出力である画像490−1から画像490−Pである。図9に例示するように、各画像は、各ユニット900内の各フィルタモジュール910によって受け付けられる。例えば、画像490−1は、ユニット900−1内のフィルタモジュール910−2−1−1、ユニット900−2内のフィルタモジュール910−2−2−1、ユニット900−Q内のフィルタモジュール910−2−Q−1によって受け付けられる。各ユニット900は、P枚の画像を受け付けることになる。
加算モジュール930では、画像920−2c−i−j(j=1,2,…,P)を受け付けて、同じ位置の画素値を加算する。
さらに、この加算の結果に対して、非線形関数モジュール940によって非線形関数による処理が行われる。つまり、非線形関数モジュール940は、各加算モジュール930による処理結果を非線形関数で処理する。加算モジュール930による加算処理及び非線形関数モジュール940による非線形関数による処理結果を画像950−2a−iとする。ただし、i=1,2,…,Qである。
前述では、P枚の出力画像(第1重畳層モジュール810の出力、各ユニット900内のフィルタモジュール910の出力)を受け付けて、その全てのP枚の画像に対して処理を行っているように説明している。しかし、フィルタモジュール910又は加算モジュール930が対象とする画像に関しては、P枚の画像のうち一部の画像としてもよい。つまり、P枚よりも予め定められた数だけ少ない枚数の画像を対象としてもよい。
前述の説明では、一旦画像920−2c−i−jを作成してから、画像950−2a−iを生成するような説明、画像950−2a−iを作成してから画像970−2b−iを生成するような説明、あるいは、画像970−2b−iを作成してから画像990−2−iを生成するような説明を行った。この場合、画像920−2c−i−j、画像950−2a−i、あるいは画像970−2b−i等を保持するメモリが必要となるが、最終的にQ枚の画像出力が得られればよいので、演算の方法はこれに限らない。ある画素部分ごとに演算を行えば、画像920−2c−i−j、画像950−2a−i、あるいは画像970−2b−iを保持するメモリは不要となる。
重畳層モジュール(第1重畳層モジュール810、第2重畳層モジュール820)は、一種のマッチドフィルタである。フィルタのカーネルの形状に近い形状が対象画像内に存在すれば、大きな値を出力し、そうでなければ小さな値を出力する層である。この出力が対象画像の特徴量に対応する。
例えば、文字の特徴量としては、直線、曲線、あるいは、括弧の形状の『「』や『」』等のような折れ線、あるいは、『+』や『×』等のような交差形状がある。これらの形状を抽出するためには、その形状のフィルタカーネルを用意する必要がある。
第1の実施の形態では、重畳層(第1重畳層モジュール310)が1層のみであった。そのため、1層のみで、前述の形状を抽出するためには、形状の種類数分のフィルタが必要となる。形状種類数は膨大であるため、その分だけフィルタの枚数が多くなってしまう。
第2の実施の形態では、重畳層をもう1層増加させた形態(第1重畳層モジュール810、第2重畳層モジュール820)を採る。この形態を採ることによって、複数の単純な形状を組み合わせて、複雑な形状を形成することが可能となる。
例えば、第1の重畳層(第1重畳層モジュール810)では、直線や斜め線などの簡単な形状のみを抽出する。第2の重畳層(第2重畳層モジュール820)でそれらの組み合わせとして、『「』、『+』、『×』等のような、より複雑な形状を抽出できるようになる。このように重畳層を2層に分割することによって、第1の重畳層(第1重畳層モジュール810)では単純な形状のみを抽出すればよくなるので、フィルタの枚数を減少させることが可能となる。それらの単純な形状の組み合わせ枚数(すなわち第2の重畳層(第2重畳層モジュール820)の演算量)を考慮しても、トータルでの演算量を、第1の実施の形態よりも小さくできる場合がある。
逆に言えば、単純な形状のみを抽出したい場合には、第1の実施の形態が望ましい場合がある。
図10は、第3の実施の形態の構成例についての概念的なモジュール構成図である。
第3の実施の形態は、図10の例に示すように、第1重畳層モジュール1010、第2重畳層モジュール1020、第1完全接続層モジュール1030、第2完全接続層モジュール1040、最終接続層モジュール1050を有している。第2の実施の形態に第2完全接続層モジュール1040を加えたものである。第1重畳層モジュール1010、第2重畳層モジュール1020、第1完全接続層モジュール1030の構成、動作は、第2の実施の形態の第1重畳層モジュール810、第2重畳層モジュール820、第1完全接続層モジュール830と同等のものである。ただし、S=Mの限定がない点が異なる。以下に、第2完全接続層モジュール1040、最終接続層モジュール1050の構成、動作を説明する。
第2完全接続層モジュール1040は、第1完全接続層モジュール1030、最終接続層モジュール1050と接続されている。
図11は、第2完全接続層モジュール1040内の構成例についての概念的なモジュール構成図である。第2完全接続層モジュール1040は、受付モジュール1110、複数のユニット1130(図11ではM個)を有している。
第2完全接続層モジュール1040は、第1完全接続層モジュール1030の出力であるX2−i(i=1,2,…,S)(図5の出力X2−1590−2−1から出力X2−S590−2−S、図11のX2−11030−2−1からX2−S1030−2−S)を受け付ける。第2完全接続層モジュール1040の出力は、X3−j(j=1,2,…,M)(図11の出力X3−11190−3−1から出力X3−M1190−3−M)である。ここでMは最終的に分類したいクラス数と一致している。S個のデータはそれぞれユニット1130−j(j=1,2,…,M)で受け付けられる。ユニット1130−jの動作は、第1の実施の形態の第1完全接続層モジュール320のユニット530−jの動作と同等である。つまり、第1完全接続層モジュール1030からの複数の出力に対して、重み付け線形和を算出する。(3)式に出力値X3−jの算出式を示す。
最終接続層モジュール1050は、第2完全接続層モジュール1040と接続されている。
図12は、最終接続層モジュール1050内の構成例についての概念的なモジュール構成図である。最終接続層モジュール1050は、複数の強調関数モジュール1210(図12ではM個)、正規化モジュール1230を有している。
最終接続層モジュール1050は、第2完全接続層モジュール1040の出力X3−i(i=1,2,…,M)(図12のX3−11200−3−1からX3−M1200−3−M、図11の出力X3−11190−3−1から出力X3−M1190−3−M)を受け付ける。最終接続層モジュール1050の出力はYj(j=1,2,…,M)(図12の出力Y11290−1から出力YM1290−M)である。ここでMは最終的に分類したいクラス数と一致している。また、最終接続層モジュール1050の出力は、本実施の形態である認識装置の出力となる。
そして、強調関数モジュール1210、正規化モジュール1230の動作は、第1の実施の形態の強調関数モジュール610、正規化モジュール630と同等である。
なお、最終接続層モジュール1050の強調関数モジュール1210における強調関数をg()とすると、最終接続層モジュール1050での動作は、次の(4)式で表すことができる。
第3の実施の形態では、完全接続層を1層増加させた(第2完全接続層モジュール1040を付加した)ことにより、第2の実施の形態よりも、より複雑な形状を抽出可能となっている。
第1完全接続層モジュール1030において、抽出した形状をさらに複雑にすることができる。第2の実施の形態において、同等の複雑度を持つ形状を抽出するためには、第1完全接続層モジュール830内のユニット数を増大させる必要がある。よって、抽出したいパターンの複雑度によっては、第3の実施の形態のように完全接続層を2層(第1完全接続層モジュール1030、第2完全接続層モジュール1040)設けたほうが好ましい場合がある。
図13は、第4の実施の形態の構成例についての概念的なモジュール構成図である。
第4の実施の形態は、図13の例に示すように、第1重畳層モジュール1310、第1完全接続層モジュール1320、第2完全接続層モジュール1330、最終接続層モジュール1340を有している。第1の実施の形態に第2完全接続層モジュール1330を加えたものである。第1重畳層モジュール1310、第1完全接続層モジュール1320、最終接続層モジュール1340の構成、動作は、第1の実施の形態の第1重畳層モジュール310、第1完全接続層モジュール320、最終接続層モジュール330と同等のものである。また、第2完全接続層モジュール1330の構成、動作は、第3の実施の形態の第2完全接続層モジュール1040と同等のものである。
第5の実施の形態は、前述の第1の実施の形態から第4の実施の形態を生成するための学習装置である。つまり、第1の実施の形態から第4の実施の形態に学習モジュールを加えたものである。
前述の第1の実施の形態から第4の実施の形態の一部は、線形演算結果を非線形関数で変形し、さらに、次の線形演算を行う形態を採っている。これは多層パーセプトロンの形態と同等であり、微分可能な非線形関数を採用すれば、一般のバックプロバゲーション法を用いた機械学習方法を用いることが可能である。学習させうるパラメタは、重畳層の各フィルタ係数、及び、完全接続層の各重み係数(バイアスを含む)である。第1の実施の形態では、第1重畳層モジュール310のフィルタモジュール401でのフィルタの係数、第1完全接続層モジュール320の×Wモジュール540、bモジュール545の重み付け係数、バイアスである。第2の実施の形態では、さらに第2重畳層モジュール820内のフィルタモジュール910でのフィルタの係数が加わる。第3の実施の形態では、さらに第2完全接続層モジュール1040内の×Wモジュール1140、bモジュール1145の重み付け係数、バイアスが加わる。第4の実施の形態では、第1の実施の形態の場合に第2完全接続層モジュール1330内の×Wモジュール1140、bモジュール1145の重み付け係数、バイアスが加わる。
つまり、第5の実施の形態においては、前述の第1の実施の形態から第4の実施の形態に対して、一般のバックプロバゲーション法のやり方に則り、誤差関数を最小化するようにパラメタを設定すればよい。つまり、学習モジュールが誤差関数を最小化するようにパラメタを設定する。
誤差関数は、教師データと出力データとの「差」を示すようなものであればよい。このような指標として、
・教師データと出力データの差分電力(例えば、教師データと出力データとの2乗誤差)
あるいは、
・教師データと出力データ分布の差(例えば、教師データと出力データの交差エントロピ誤差)
等を用いるようにしてもよい。
ここで、教師データと対象データのペアがN通り用意されているとする。このペアに番号iを付与する。i=1,2,…,Nである。ここで、i番目、かつクラスjに対応する教師データをTijとする。ただし、i=1,2,…,Mである。また、i番目の対象データを本実施の形態の学習装置を受け付けて得られた、クラスjの出力データをYijとする。
このとき、教師データと出力データとの2乗誤差Eは(5)式となる。
又は、誤差関数としては、教師データと出力データとの「差」を示すようなものであれば基本的には何でもよい。
第6の実施の形態を説明する。
第5の実施の形態によって、第1の実施の形態から第4の実施の形態の認識装置のパラメタを学習させたとする。その結果として、図14に例示するようなクラス分類ができるようになる。図14では、どちらのクラスに属するか不明な領域は解消されている。つまり、図14の例では、太い線1400がユニット0の出力値、細い点線1401がユニット1の出力値を表している。図14に例示するように、領域1431はクラス0に属する領域であり、領域1433はクラス1に属する領域であることが明確であり、どちらのクラスにも属している領域は存在しない。
ここで、以下の前提を考える。
「前提」
・認識を行う認識装置を学習させる学習装置として、第5の実施の形態における第1の実施の形態又は第2の実施の形態の形態を採るとする。
・さらに、対象データに対して、その対象データが各クラスである確率を求める必要はなくて、対象データに対して、その対象データが属する可能性の一番高いクラスを求めるだけ、又は、その対象データが属する可能性高いクラスの順序を求めるだけの場合を考える。
なお、以下に第6の実施の形態の種々の形態を示すが、これは第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態の変形例である。
前述した「前提」の場合、図6に例示した「正規化」の必要はなくなる。正規化してもしなくても、各クラスの出力値の大きさの順番に変化はないためである。すなわち、第6の実施の形態(1)は、認識を行う装置であって、第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態から、図6に例示した正規化モジュール630を省いたものである。
前述した「前提」の場合、図6に例示した「正規化」に加えて、「強調関数」も不要とできる。なぜなら、「強調関数」として、単調増加関数を採用しているためである。単調増加関数は順序を変化させないため、順序を計測するためだけであれば、単調増加関数は不要である。すなわち、第6の実施の形態(2)は、認識を行う装置であって、第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態から、最終接続層モジュール330を除いたものである。
さらに、第5の実施の形態によって学習された後の第4の実施の形態の場合、第2完全接続層モジュール1040の非線形関数も不要とできる。又は、第2完全接続層モジュール1040がない第5の実施の形態によって学習された後の第1の実施の形態、第2の実施の形態の場合、第1完全接続層モジュール320、第1完全接続層モジュール830の非線形関数も不要とできる。なぜなら、これら「非線形関数」としても、単調増加関数を採用しているためである。単調増加関数は順序を変化させないため、順序を計測するためだけであれば、単調増加関数は不要である。すなわち、第6の実施の形態(3)は、第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態から、最終接続層の一段手前の完全接続層(第1完全接続層モジュール320、第1完全接続層モジュール830、第2完全接続層モジュール1040、第2完全接続層モジュール1330)の非線形関数(非線形関数モジュール560、非線形関数モジュール1160)を除いたものである。
その他の形態について説明する。
<2.7.1>
第1完全接続層と第2完全接続層(第1完全接続層モジュール1030、第2完全接続層モジュール1040等)では、「完全」にユニット間の接続がなされているように記載されているが、必ずしも全てのユニット間の接続がなされていなければならないわけではない。
学習の結果として、重みが0となる場合も存在する。
「完全」とは、「全てのユニット間の接続について可能性がある」という意味である。
第1完全接続層モジュール320のユニット数、第1完全接続層モジュール830のユニット数、第2完全接続層モジュール1040のユニット数、第2完全接続層モジュール1330のユニット数は、それぞれ最終接続層モジュール330、最終接続層モジュール840、最終接続層モジュール1050、最終接続層モジュール1340によって認識し得るクラス数に基づいて定められるようにしてもよい。
逆に、最終接続層モジュール330、最終接続層モジュール840、最終接続層モジュール1050、最終接続層モジュール1340によって認識し得るクラス数は、それぞれ第1完全接続層モジュール320のユニット数、第1完全接続層モジュール830のユニット数、第2完全接続層モジュール1040のユニット数、第2完全接続層モジュール1330のユニット数に基づいて定められるようにしてもよい。
例えば、最終接続層(最終接続層モジュール330、最終接続層モジュール840、最終接続層モジュール1050、最終接続層モジュール1340)の対象数(対象ベクトルの次元、つまり、第1完全接続層モジュール320のユニット数、第1完全接続層モジュール830のユニット数、第2完全接続層モジュール1040のユニット数、第2完全接続層モジュール1330のユニット数)と出力数(出力ベクトルの次元)は、クラス数Mに等しい場合を含む。さらに、各ユニット数はクラス数Mより予め定められた値だけ少なくするようにしてもよい。又は、クラス数Mより予め定められた数だけ多めにユニットを用意するようにしてもよい。
前述の実施の形態における縮小モジュールでの縮小処理は、平均値を求める処理ではなく、単なるサブサンプリング処理でもよい。また、メディアンや最頻値などの他の代表値を求める処理でもよい。
重畳層は前述の実施の形態のように1層(第1重畳層モジュール310等)や2層(第1重畳層モジュール810、第2重畳層モジュール820等)でもよいし、3層以上であってもよい。
前述の実施の形態の第1重畳層、第2重畳層(第1重畳層モジュール310、第1重畳層モジュール810、第2重畳層モジュール820等)では、縮小モジュールの前段と後段に非線形関数モジュールを設けた。これらの非線形関数モジュールの関数形態は、縮小モジュールの前段と後段で同じ関数を用いてもよいし、異なる関数を用いてもよい。さらに、縮小モジュールの前段と後段の非線形関数モジュールのうち、いずれかを省略してもよい。例えば、縮小モジュールの前段のみに、非線形関数モジュールを設ける。又は、縮小モジュールの後段のみに、非線形関数モジュールを設けようにしてもよい。
前述の実施の形態では、特に、パターン認識の対象を限定した説明は行っていない。例えば、教師用の画像とクラスのペアに対して、手書き文字画像と文字コードを与えれば、手書き文字認識となる。活字文字画像と文字コードを与えれば、活字文字認識となる。教師用の画像が顔画像の場合に出力値1、教師用の画像が非顔画像の場合に出力値0を与えれば、顔検知装置となる。特定の人物画像とその人物番号のペアを与えれば、顔認識装置となる。笑顔画像に1、非笑顔画像に0の教師用データペアを与えれば、笑顔検知装置となる。一般物体認識装置として、ある物体(例えば虎の画像)を検知したい場合に、虎であれば出力値1、非虎であれば出力値0の教師データ群を与えれば、虎認識装置として動作させることが可能である。このとき、「虎」を他の物体に変更することも可能である。
図15を参照して、本実施の形態の認識装置、学習装置のハードウェア構成例について説明する。図15に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1517と、プリンタなどのデータ出力部1518を備えたハードウェア構成例を示している。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…第2重畳層モジュール
130…第1完全接続層モジュール
140…第2完全接続層モジュール
310…第1重畳層モジュール
320…第1完全接続層モジュール
330…最終接続層モジュール
810…第1重畳層モジュール
820…第2重畳層モジュール
830…第1完全接続層モジュール
840…最終接続層モジュール
1010…第1重畳層モジュール
1020…第2重畳層モジュール
1030…第1完全接続層モジュール
1040…第2完全接続層モジュール
1050…最終接続層モジュール
1310…第1重畳層モジュール
1320…第1完全接続層モジュール
1330…第2完全接続層モジュール
1340…最終接続層モジュール
Claims (11)
- 対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、
前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、
前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、
前記第1の線形和算出手段による算出結果を強調する強調手段と、
前記強調手段による強調結果を正規化する正規化手段
を具備することを特徴とする情報処理装置。 - 前記第1の非線形関数処理手段からの複数の出力をコンボリューション動作でフィルタリング処理を行う第2のフィルタリング処理手段と、
前記第2のフィルタリング処理手段による処理結果を非線形関数で処理する第2の非線形関数処理手段
をさらに具備し、
前記第1の線形和算出手段は、前記第2の非線形関数処理手段からの複数の出力の重み付け線形和を算出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記第1の線形和算出手段からの複数の出力の重み付け線形和を算出する第2の線形和算出手段
をさらに具備し、
前記強調手段は、前記第2の線形和算出手段による算出結果を強調する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数を学習する学習手段
をさらに具備することを特徴とする請求項1に記載の情報処理装置。 - 前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第2のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数を学習する学習手段
をさらに具備することを特徴とする請求項2に記載の情報処理装置。 - 前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第2のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数、前記第2の線形和算出手段の重み付け係数を学習する学習手段
をさらに具備することを特徴とする請求項3に記載の情報処理装置。 - 前記第1の線形和算出手段内のユニット数、前記第2の線形和算出手段内のユニット数、若しくは前記強調手段内のユニット数は、前記正規化手段によって認識し得るクラス数に基づいて定められる、
又は、前記正規化手段によって認識し得るクラス数は、前記第1の線形和算出手段内のユニット数、前記第2の線形和算出手段内のユニット数、若しくは前記強調手段内のユニット数に基づいて定められる
ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。 - 前記強調手段は1次導関数がほとんど至るところ正であり、かつ、2次導関数がほとんど至るところ正の関数で実現される
ことを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。 - 前記学習手段は、フィルタ係数と重み付け係数の学習を教師データと出力データの2乗誤差を最小化するように行う
ことを特徴とする請求項4から8のいずれか一項に記載の情報処理装置。 - 前記学習手段は、フィルタ係数と重み付け係数の学習を教師データと出力データの交差エントロピ誤差を最小化するように行う
ことを特徴とする請求項4から8のいずれか一項に記載の情報処理装置。 - コンピュータを、
対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、
前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、
前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、
前記第1の線形和算出手段による算出結果を強調する強調手段と、
前記強調手段による強調結果を正規化する正規化手段
として機能させることを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009266364A JP5445062B2 (ja) | 2009-11-24 | 2009-11-24 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009266364A JP5445062B2 (ja) | 2009-11-24 | 2009-11-24 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011113125A true JP2011113125A (ja) | 2011-06-09 |
JP5445062B2 JP5445062B2 (ja) | 2014-03-19 |
Family
ID=44235440
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009266364A Expired - Fee Related JP5445062B2 (ja) | 2009-11-24 | 2009-11-24 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5445062B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017207947A (ja) * | 2016-05-19 | 2017-11-24 | 株式会社 ディー・エヌ・エー | 対象物の類似度判定のためのプログラム、システム、及び方法 |
JP2018506788A (ja) * | 2015-04-03 | 2018-03-08 | 三菱電機株式会社 | 物体の再同定の方法 |
US10796143B2 (en) | 2017-03-16 | 2020-10-06 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing system, and non-transitory computer readable medium |
US11755907B2 (en) | 2019-03-25 | 2023-09-12 | Mitsubishi Electric Corporation | Feature identification device, feature identification method, and computer readable medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197701A (ja) * | 1992-01-21 | 1993-08-06 | Fujitsu Ltd | ニューラルネットワークを用いた情報処理装置 |
JPH06149767A (ja) * | 1992-11-05 | 1994-05-31 | Nagoya Denki Kogyo Kk | ニューラルネットワーク |
JPH0765165A (ja) * | 1993-08-26 | 1995-03-10 | Ibm Japan Ltd | ニューラル・ネットワークによるパターン認識方法及び装置 |
JP2003296737A (ja) * | 2002-03-15 | 2003-10-17 | Microsoft Corp | パターン認識を容易にするシステムおよび方法 |
-
2009
- 2009-11-24 JP JP2009266364A patent/JP5445062B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197701A (ja) * | 1992-01-21 | 1993-08-06 | Fujitsu Ltd | ニューラルネットワークを用いた情報処理装置 |
JPH06149767A (ja) * | 1992-11-05 | 1994-05-31 | Nagoya Denki Kogyo Kk | ニューラルネットワーク |
JPH0765165A (ja) * | 1993-08-26 | 1995-03-10 | Ibm Japan Ltd | ニューラル・ネットワークによるパターン認識方法及び装置 |
JP2003296737A (ja) * | 2002-03-15 | 2003-10-17 | Microsoft Corp | パターン認識を容易にするシステムおよび方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018506788A (ja) * | 2015-04-03 | 2018-03-08 | 三菱電機株式会社 | 物体の再同定の方法 |
JP2017207947A (ja) * | 2016-05-19 | 2017-11-24 | 株式会社 ディー・エヌ・エー | 対象物の類似度判定のためのプログラム、システム、及び方法 |
US10796143B2 (en) | 2017-03-16 | 2020-10-06 | Fuji Xerox Co., Ltd. | Information processing apparatus, information processing system, and non-transitory computer readable medium |
US11755907B2 (en) | 2019-03-25 | 2023-09-12 | Mitsubishi Electric Corporation | Feature identification device, feature identification method, and computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP5445062B2 (ja) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gu et al. | Deep dual-channel neural network for image-based smoke detection | |
Rahmouni et al. | Distinguishing computer graphics from natural images using convolution neural networks | |
Bayar et al. | Design principles of convolutional neural networks for multimedia forensics | |
CN108345827B (zh) | 识别文档方向的方法、系统和神经网络 | |
JP5772442B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP4532915B2 (ja) | パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体 | |
US20100166318A1 (en) | Adaptive partial character recognition | |
JP2004054956A (ja) | 顔/類似顔映像で学習されたパターン分類器を利用した顔検出方法及びシステム | |
CN113272827A (zh) | 卷积神经网络中分类决策的验证 | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
JP6892606B2 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
JP2010157118A (ja) | パターン識別装置及びパターン識別装置の学習方法ならびにコンピュータプログラム | |
Ayyar et al. | Review of white box methods for explanations of convolutional neural networks in image classification tasks | |
JP5445062B2 (ja) | 情報処理装置及び情報処理プログラム | |
Hang | Thyroid nodule classification in ultrasound images by fusion of conventional features and res-GAN deep features | |
PirahanSiah et al. | Adaptive image segmentation based on peak signal-to-noise ratio for a license plate recognition system | |
Zheng et al. | MA-Net: Mutex attention network for COVID-19 diagnosis on CT images | |
Appari et al. | Soft computing and image processing techniques for COVID-19 prediction in lung CT scan images | |
CN114119970B (zh) | 目标跟踪方法及装置 | |
Hu et al. | Study on the interaction between the cover source mismatch and texture complexity in steganalysis | |
JP4834693B2 (ja) | パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法 | |
CN112613341A (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
Gupta et al. | Optimal reduction of noise in image processing using collaborative inpainting filtering with Pillar K-Mean clustering | |
Mandloi et al. | An explainable brain tumor detection and classification model using deep learning and layer-wise relevance propagation | |
Kordnoori et al. | An efficient deep multi‐task learning structure for covid‐19 disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121023 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130723 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131209 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |