JP2011113125A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2011113125A
JP2011113125A JP2009266364A JP2009266364A JP2011113125A JP 2011113125 A JP2011113125 A JP 2011113125A JP 2009266364 A JP2009266364 A JP 2009266364A JP 2009266364 A JP2009266364 A JP 2009266364A JP 2011113125 A JP2011113125 A JP 2011113125A
Authority
JP
Japan
Prior art keywords
module
linear sum
layer module
processing
nonlinear function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009266364A
Other languages
English (en)
Other versions
JP5445062B2 (ja
Inventor
Shunichi Kimura
俊一 木村
Masanori Sekino
雅則 関野
Yutaka Koshi
裕 越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2009266364A priority Critical patent/JP5445062B2/ja
Publication of JP2011113125A publication Critical patent/JP2011113125A/ja
Application granted granted Critical
Publication of JP5445062B2 publication Critical patent/JP5445062B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】対象とするデータの属する分類が不明となることを防止するようにした情報処理装置を提供する。
【解決手段】情報処理装置の第1のフィルタリング処理手段は、対象とするデータをたたみ込み処理によってフィルタリング処理を行い、第1の非線形関数処理手段は、前記第1のフィルタリング処理手段による処理結果を非線形関数で処理し、第1の線形和算出手段は、前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出し、強調手段は、前記第1の線形和算出手段による算出結果を強調し、正規化手段は、前記強調手段による強調結果を正規化する。
【選択図】図1

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
手書き文字等を対象とした認識装置がある。
これに関連する技術として、例えば、特許文献1には、パターン認識を容易にするシステム及び方法を提供することを課題とし、特徴抽出層及び分類層を使用する、重畳型ニューラルネットワークを有するパターン認識システムであって、パターン認識システムは特徴抽出層は重畳層を含み、分類層は完全接続層を含み、パターン認識システムを、計算されたクロスエントロピ誤差を利用してトレーニングすることができ、計算されたクロスエントロピ誤差を利用して、パターン認識システムのトレーニング可能パラメータが更新されることが開示されている。
また、例えば、特許文献2には、モジュール構造を有する階層型神経回路網において被写体認識に必要な特徴クラスを自動的かつ効率的に学習するための技術を提供することを課題とし、所定のパターンをデータ入力層に提示することにより、未学習の特徴クラスを学習すべき受容野構造が不定な複数ニューロンからなる未学習処理モジュールにおいて新規な特徴クラスの検出に必要な学習を行うことが開示されている。
特開2003−296737号公報 特開2005−352900号公報
本発明は、対象とするデータの属する分類が不明となることを防止するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、前記第1の線形和算出手段による算出結果を強調する強調手段と、前記強調手段による強調結果を正規化する正規化手段を具備することを特徴とする情報処理装置である。
請求項2の発明は、前記第1の非線形関数処理手段からの複数の出力をコンボリューション動作でフィルタリング処理を行う第2のフィルタリング処理手段と、前記第2のフィルタリング処理手段による処理結果を非線形関数で処理する第2の非線形関数処理手段をさらに具備し、前記第1の線形和算出手段は、前記第2の非線形関数処理手段からの複数の出力の重み付け線形和を算出することを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記第1の線形和算出手段からの複数の出力の重み付け線形和を算出する第2の線形和算出手段をさらに具備し、前記強調手段は、前記第2の線形和算出手段による算出結果を強調することを特徴とする請求項1又は2に記載の情報処理装置である。
請求項4の発明は、前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数を学習する学習手段をさらに具備することを特徴とする請求項1に記載の情報処理装置である。
請求項5の発明は、前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第2のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数を学習する学習手段をさらに具備することを特徴とする請求項2に記載の情報処理装置である。
請求項6の発明は、前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第2のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数、前記第2の線形和算出手段の重み付け係数を学習する学習手段をさらに具備することを特徴とする請求項3に記載の情報処理装置である。
請求項7の発明は、前記第1の線形和算出手段内のユニット数、前記第2の線形和算出手段内のユニット数、若しくは前記強調手段内のユニット数は、前記正規化手段によって認識し得るクラス数に基づいて定められる、又は、前記正規化手段によって認識し得るクラス数は、前記第1の線形和算出手段内のユニット数、前記第2の線形和算出手段内のユニット数、若しくは前記強調手段内のユニット数に基づいて定められることを特徴とする請求項1から6のいずれか一項に記載の情報処理装置である。
請求項8の発明は、前記強調手段は1次導関数がほとんど至るところ正であり、かつ、2次導関数がほとんど至るところ正の関数で実現されることを特徴とする請求項1から7のいずれか一項に記載の情報処理装置である。
請求項9の発明は、前記学習手段は、フィルタ係数と重み付け係数の学習を教師データと出力データの2乗誤差を最小化するように行うことを特徴とする請求項4から8のいずれか一項に記載の情報処理装置である。
請求項10の発明は、前記学習手段は、フィルタ係数と重み付け係数の学習を教師データと出力データの交差エントロピ誤差を最小化するように行うことを特徴とする請求項4から8のいずれか一項に記載の情報処理装置である。
請求項11の発明は、コンピュータを、対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、前記第1の線形和算出手段による算出結果を強調する強調手段と、前記強調手段による強調結果を正規化する正規化手段として機能させることを特徴とする情報処理プログラムである。
請求項1の情報処理装置によれば、対象とするデータの属する分類が不明となることを防止することができる。
請求項2、3の情報処理装置によれば、本構成を有していない場合に比較して、より複雑な分類に対象とするデータを分類することができる。
請求項4の情報処理装置によれば、本構成を有していない場合に比較して、第1のフィルタリング処理手段でのフィルタの係数、第1の線形和算出手段の重み付け係数を学習させる速度を向上させることができる。
請求項5の情報処理装置によれば、本構成を有していない場合に比較して、第1のフィルタリング処理手段でのフィルタの係数、第2のフィルタリング処理手段でのフィルタの係数、第1の線形和算出手段の重み付け係数を学習させる速度を向上させることができる。
請求項6の情報処理装置によれば、本構成を有していない場合に比較して、第1のフィルタリング処理手段でのフィルタの係数、第2のフィルタリング処理手段でのフィルタの係数、第1の線形和算出手段の重み付け係数、第2の線形和算出手段の重み付け係数させる速度を向上させることができる。
請求項7の情報処理装置によれば、用意するユニット数はクラス数に基づいて定める、又はクラス数は用意されているユニット数に基づいて定められる。
請求項8の情報処理装置によれば、対象とするデータの属する分類が不明となることを防止することができる。
請求項9の情報処理装置によれば、対象とするデータの属する分類が不明となることを防止するように学習することができる。
請求項10の情報処理装置によれば、対象とするデータの属する分類が不明となることを防止するように学習することができる。
請求項11の情報処理プログラムによれば、対象とするデータの属する分類が不明となることを防止することができる。
一般的なパターン認識装置の構成例についての概念的なモジュール構成図である。 クラス判別の例を示す説明図である。 第1の実施の形態の構成例についての概念的なモジュール構成図である。 第1重畳層モジュール内の構成例についての概念的なモジュール構成図である。 第1完全接続層モジュール内の構成例についての概念的なモジュール構成図である。 最終接続層モジュール内の構成例についての概念的なモジュール構成図である。 非線形関数の例を示す説明図である。 第2の実施の形態の構成例についての概念的なモジュール構成図である。 第2重畳層モジュール内の構成例についての概念的なモジュール構成図である。 第3の実施の形態の構成例についての概念的なモジュール構成図である。 第2完全接続層モジュール内の構成例についての概念的なモジュール構成図である。 最終接続層モジュール内の構成例についての概念的なモジュール構成図である。 第4の実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態におけるクラス判別の例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
<1.1>
まず、実施の形態の説明の準備として、一般的なパターン認識装置について説明する。例えば、特許文献1に開示されているパターン認識装置がある。このパターン認識装置は図1のような構成をとる。このパターン認識装置は、第1重畳層モジュール110、第2重畳層モジュール120、第1完全接続層モジュール130、第2完全接続層モジュール140を有している。
対象データ105は2次元の画像データである。この画像データが第1重畳層モジュール110で画像フィルタリングされる。さらにその結果が第2重畳層モジュール120で画像フィルタリングされる。その出力が第1完全接続層モジュール130に渡され、さらに第2完全接続層モジュール140に渡され、分類結果195が出力される。
このパターン認識装置は、M種類のクラスへの分類を行う。分類結果は、M次元ベクトルである。第2完全接続層モジュール140はM個のユニットから構成されている。各ユニットは、分類を行いたいクラスにそれぞれ対応している。ここで、第2完全接続層モジュール140のユニットに、ユニット1からユニットMの名称を付与する。ユニットiの出力(分類結果195の一部)は、「対象データがクラスiに属している確率」となる。
例えば、このパターン認識装置が0から9までの10個の数字を認識する装置であるとする。この場合M=10である。また、対象データ105は数字が描かれた画像である。この画像を受け付け、分類結果195として、10個の数値が出力される。10個の数値はそれぞれ、対象データ105が「0」である確率、対象データ105が「1」である確率、…、対象データ105が「9」である確率に対応している。
また、このパターン認識装置がローマ字の大文字を認識する装置であるとする。その場合、M=26となる。また、同様に、対象データ105はローマ字の大文字が描かれた画像である。この画像を受け付け、分類結果195として、26個の数値が出力される。26個の数値はそれぞれ、対象データ105が「A」である確率、対象データ105が「B」である確率、…、対象データ105が「Z」である確率に対応している。
以上のように、第2完全接続層モジュール140は分離を行いたいクラス数分のユニットを保持する。
<1.2>
特許文献1に開示されている技術では、第2完全接続層モジュール140において、あるユニットiと、他のユニットj(i≠j)は直接接続されてはいない。つまり、少なくとも、ユニットiの出力がユニットjに渡されることや、ユニットjの出力がユニットiに渡されることはない。このように、ユニット間の関係がない場合、あるユニットが出力する確率と、他のユニットが出力する確率との関係がなくなる。そうした場合、下記のような問題が発生する。
ここでは説明の簡単化のため、対象とするデータが1次元であり、クラス数が2であるとする。
図2の例では、太い線200がユニット0の出力値、細い点線201がユニット1の出力値を表している。図2に例示するように、領域231はクラス0に属する領域であり、領域233はクラス1に属する領域であることが明確である。しかし、どちらのクラスにも属していることから、どちらのクラスに属するのか不明である領域232が発生してしまう。
<2.1>
以下、図面に基づき本発明を実現するにあたっての好適な各種の実施の形態の例を説明する。
図3は、第1の実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
以下、対象とするデータとして、画像を主に例示して説明する。画像としては、例えば、手書き文字の画像等であってもよい。この場合、第1の実施の形態は、手書き文字の認識装置となる。
以下に示す実施の形態では、完全接続層モジュールの後段に、さらに最終接続層モジュールを設けるものである。
この認識装置はMクラスの分類装置であるとして、完全接続層モジュールは、M個のユニットを有し、最終接続層モジュールに対して、M次元ベクトルの出力を行うとする。同様に、最終接続層モジュールもM個のユニットを有し、M次元のベクトルを出力する。
本実施の形態である情報処理装置は、図3の例に示すように、第1重畳層モジュール310、第1完全接続層モジュール320、最終接続層モジュール330を有している。
<2.1.1>
第1重畳層モジュール310は、第1完全接続層モジュール320と接続されている。
図4は、第1重畳層モジュール310内の構成例についての概念的なモジュール構成図である。
第1重畳層モジュール310は、フィルタモジュール401、非線形関数モジュール410、縮小モジュール430、非線形関数モジュール450の組を複数(図4ではP組)有している。フィルタモジュール401は処理結果を非線形関数モジュール410へ渡し、非線形関数モジュール410は処理結果の画像420を縮小モジュール430に渡し、縮小モジュール430は処理結果の画像440を非線形関数モジュール450に渡し、非線形関数モジュール450は処理結果の画像490を第1完全接続層モジュール320に渡す。
第1重畳層モジュール310では、対象データ305に対して、P種類のフィルタリング処理(フィルタモジュール401−1からフィルタモジュール401−P)を行う。ここで、フィルタリング処理とは、一般の画像フィルタリング(2次元FIRフィルタ等)である。例えば、5×5の係数のフィルタカーネルをコンボリューション処理(たたみ込み処理)して出力する。ここで、フィルタモジュール401−1からフィルタモジュール401−Pのフィルタはそれぞれ異なる係数を持つ。フィルタリング処理の結果の各画素に対して、非線形関数モジュール410−1から非線形関数モジュール410−Pによって非線形関数で処理する。つまり、フィルタモジュール401によるフィルタリング処理及び非線形関数モジュール410による非線形関数処理の結果、P枚の画像(画像420−1から画像420−P)が出力される。
非線形関数としては、ロジスティック関数やハイパーボリックタンジェント(双曲線正接)関数等のシグモイド関数が利用される。その他、微分可能で、かつ、S字型で、かつ、無限大と無限小時に特定の値に漸近するような関数であればどのような関数であってもよい。非線形関数モジュール410が受け取るデータに、バイアスと呼ばれる値を加算してもよい。
P枚の各画像(画像420−1から画像420−P)は、それぞれ縮小モジュール430−1から縮小モジュール430−Pにおいて縮小される。縮小処理として、例えば、2×2にブロッキング(ブロック分割)し、ブロック内の画素値を平均化する。縮小結果は、それぞれ画像440−1から画像440−Pとなる。これらの画像440は、各画素値ごとに非線形関数モジュール450に渡される。非線形関数モジュール450における非線形関数としては、前述の非線形関数モジュール410と同等の性質をもつものであればよい。非線形関数モジュール450−1から非線形関数モジュール450−Pの出力結果がそれぞれ画像490−1から画像490−Pとなる。
前述の非線形関数のことを活性化関数と呼ぶことがある。また、活性化関数によって処理し、その出力を得る処理を活性化と呼ぶことがある。
結果として、第1重畳層モジュール310の出力は、P枚の画像(画像490−1から画像490−P)であり、各画像サイズは、対象データ305と比較すると縮小されているものとなる。
前述の説明では、画像420−i、画像440−i(i=1,2,…,P)が一旦保持されてから次の処理が行われるように説明している。この場合、画像420−i、画像440−iの全体を一旦保持するメモリが必要となるが、実際の動作はそれに限らない。画像の部分ごとに処理を行うことによって、画像420−i、画像440−iの全体を保持することなく、最終の画像490−i(i=1,2,…,P)を得るようにしてもよい。
<2.1.2>
第1完全接続層モジュール320は、第1重畳層モジュール310、最終接続層モジュール330と接続されている。
図5は、第1完全接続層モジュール320内の構成例についての概念的なモジュール構成図である。
ここでは、Q=Pとする。
第1完全接続層モジュール320は、受付モジュール510、複数のユニット530(図5ではS個)を有している。
第1完全接続層モジュール320内の受付モジュール510が受け付けるデータは、第1重畳層モジュール310の出力であるQ枚の画像500(画像500−1から画像500−Q)である。
ここで、第1重畳層モジュール310の出力画像1枚の画素数をRとする。つまり、第1重畳層モジュール310の出力である画像490−iの縦画素数×横画素数がRである。例えば、画像490−iの縦画素数が5、横画素数が5とする。このとき、R=25となる。
第1完全接続層モジュール320では、各画素位置を区別せずに扱う。すなわち、一枚あたりR個の画素がQ枚あるため、全部でQ×R個の画素値を受け付けるとする。
第1完全接続層モジュール320には、S個のユニット530(ユニット530−1からユニット530−S)がある。
各ユニット530は、第1重畳層モジュール310からの複数の出力を受け付けて、その受け付けた出力の重み付け線形和を算出する。より具体的には、各ユニット530は、受付モジュール510からQR個の画素値を受け付ける。ここで、受け付ける画素値をX1−i(i=1,2,…,QR)とする。ユニット530−j(j=1,2,…,S)には、重みW1−j−k(k=1,2,…,QR)とバイアスb1−iが保持されている。具体例として、ユニット530−1の場合、重みとバイアスはそれぞれ×W1−1−1モジュール540−1−1−1から×W1−1−QRモジュール540−1−1−QR、b1−1モジュール545−1−1に保持されており、×W1−1−1モジュール540−1−1−1から×W1−1−QRモジュール540−1−1−QRによって受け付けた各画素の重み付けを行い(画素に重みを掛ける)、シグマモジュール550によってそれらの総和を算出し、さらに、b1−1モジュール545−1−1に保持されているバイアスを加える。そして、その結果に対して非線形関数モジュール560によって非線形関数による演算を行う。つまり、ユニット530は、次の(1)式の演算を行う。
Figure 2011113125
ここで、左辺のX2−j(i=1,2,…,S)は、第1完全接続層モジュール320の出力(出力X2−1590−2−1から出力X2−S590−2−S)である。また、f()は、非線形関数を示す。非線形関数は、第1重畳層モジュール310の説明で前述したものと同等である。
非線形関数としては、線形なものを含んでもよい。したがって、係数1の場合はそのまま出力するので非線形関数モジュール560はなくてもよい場合がある(以下、同様)。
<2.1.3>
最終接続層モジュール330は、第1完全接続層モジュール320と接続されている。
図6は、最終接続層モジュール330内の構成例についての概念的なモジュール構成図である。
ここでは、S=Mとする。
最終接続層モジュール330は、複数の強調関数モジュール610(図6ではM個)、正規化モジュール630を有している。
最終接続層モジュール330が受け付けるデータは、第1完全接続層モジュール320の出力であるX2−i(i=1,2,…,M)(図6では、X2−1600−2−1からX2−M600−2−M)である。
最終接続層モジュール330の出力は、Y(j=1,2,…,M)(図6では、出力Y690−1から出力Y690−M)である。ここでMは最終的に分類したいクラス数と一致している。また、最終接続層モジュール330の出力は、本実施の形態である認識装置の出力となる。
ここで、図2を用いて説明した「どちらのクラスに属するのか不明である領域232が発生してしまう」ことに関して再考する。
これらは、同一の箇所で各ユニットの出力値がいずれも1となっていたことから発生するものである。今、これらのユニットの出力は、第1完全接続層モジュール320の出力であるとする。第1完全接続層モジュール320の出力はロジスティックシグモイド関数(あるいはそれに類似した関数)の出力値である(図7参照)。
本実施の形態における非線形関数は、図7に例示されるように、入力対象がマイナス無限大のときに0に漸近し、プラス無限大のときに1に漸近するような関数となっている(なお、マイナス無限大で−1に漸近し、プラス無限大で+1に漸近するような関数を用いてもよい)。そのため、ユニットの出力が0になる場合や、1になる場合が多く、前記のような「どちらのクラスに属するのか不明である領域232が発生してしまう」ことが発生する。
ただし、このような場合、出力が完全に0あるいは完全に1になるようなことはない。この性質を利用して、ユニットの出力を差別化しようとするものである。
すなわち、図2の例では、ユニットの出力がどちらも1であるから、区別がつかなかったのであるが、実際には、どちらも1ということはない。精度を高くしてみると、どちらも1に近いが少しだけ1よりは小さい数となっている。これらの数値は実数であるから、精密に比べればその大小は比較できるはずである。
そこで、各ユニットの微小な差を増大させるような出力を得ればよい。強調関数モジュール610は、第1完全接続層モジュール320内のユニット530による算出結果を強調する。つまり、強調関数モジュール610内の強調関数はそのような「微小な差を増大させるような」関数である。
さらに、最終接続層モジュール330の出力としては、最大値があまりに小さな値やあまりに大きな値となっていないほうが都合がよい。あるいは、最終接続層モジュール330の出力としては、各クラスの確率を出力できるようになっていると都合がよい。あるいは、教師データの値が{0, 1}である場合には、最終接続層モジュール330の出力も0と1の間にあったほうが、比較のために好都合である。そのため、最終接続層モジュール330内の正規化モジュール630で、強調関数モジュール610による強調結果の正規化を行う。
最終接続層モジュール330の強調関数モジュール610における強調関数をg()とすると、最終接続層モジュール330での動作は、次の(2)式で表すことができる。
Figure 2011113125
(2)式の右辺の分母は、正規化モジュール630における正規化係数である。
強調関数g(x)としては、xの定義域内で、下記に示す性質を持つ必要がある。
・単調増加関数であること。すなわち「ほとんど至るところでg’(x)>0」である。
・強調を行うため、線形よりも増加率の大きな非線形関数であること。すなわち、「ほとんど至るところでg’’(x)>0」である。
ただし、前記でg’(x)は、g(x)の1次導関数、g’’(x)はg(x)の2次導関数を示している。
例えば、強調関数は、指数関数、2次以上の多項式関数等であってもよい。より具体的には、例えばこのような関数の例として、次のような関数を挙げることができる。ただし、ここでは、xの定義域を0≦x≦1とする。
g(x)=exp(x)
g(x)=x
g(x)=x
他にも様々に存在する。
<2.2>
図8は、第2の実施の形態の構成例についての概念的なモジュール構成図である。
第2の実施の形態は、図8の例に示すように、第1重畳層モジュール810、第2重畳層モジュール820、第1完全接続層モジュール830、最終接続層モジュール840を有している。第1の実施の形態に第2重畳層モジュール820を加えたものである。第1重畳層モジュール810、第1完全接続層モジュール830、最終接続層モジュール840の構成、動作は、第1の実施の形態の第1重畳層モジュール310、第1完全接続層モジュール320、最終接続層モジュール330と同等のものである。ただし、Q=Pの限定がない点が異なる。
第2重畳層モジュール820は、第1重畳層モジュール810、第1完全接続層モジュール830と接続されている。
以下、図9を用いて第2重畳層モジュール820の構成と動作を説明する。
第2重畳層モジュール820は、複数のユニット900(図9ではQ個)を有している。各ユニット900は、複数のフィルタモジュール910(図9ではP個)、加算モジュール930、非線形関数モジュール940、縮小モジュール960、非線形関数モジュール980を有している。
第2重畳層モジュール820は、P枚の画像を受け付ける。この受け付ける画像は、もちろんのことながら第1重畳層モジュール810(第1の実施の形態の第1重畳層モジュール310)の出力である画像490−1から画像490−Pである。図9に例示するように、各画像は、各ユニット900内の各フィルタモジュール910によって受け付けられる。例えば、画像490−1は、ユニット900−1内のフィルタモジュール910−2−1−1、ユニット900−2内のフィルタモジュール910−2−2−1、ユニット900−Q内のフィルタモジュール910−2−Q−1によって受け付けられる。各ユニット900は、P枚の画像を受け付けることになる。
各フィルタモジュール910(フィルタモジュール910−2−i−j)は、第1重畳層モジュール810と同等のコンボリューション動作を行う。つまり、第1重畳層モジュール810からの複数の出力に対して、コンボリューション動作でフィルタリング処理を行う。フィルタモジュール910−2−i−jの出力を画像920−2c−i−jとする。
加算モジュール930では、画像920−2c−i−j(j=1,2,…,P)を受け付けて、同じ位置の画素値を加算する。
さらに、この加算の結果に対して、非線形関数モジュール940によって非線形関数による処理が行われる。つまり、非線形関数モジュール940は、各加算モジュール930による処理結果を非線形関数で処理する。加算モジュール930による加算処理及び非線形関数モジュール940による非線形関数による処理結果を画像950−2a−iとする。ただし、i=1,2,…,Qである。
前述では、P枚の出力画像(第1重畳層モジュール810の出力、各ユニット900内のフィルタモジュール910の出力)を受け付けて、その全てのP枚の画像に対して処理を行っているように説明している。しかし、フィルタモジュール910又は加算モジュール930が対象とする画像に関しては、P枚の画像のうち一部の画像としてもよい。つまり、P枚よりも予め定められた数だけ少ない枚数の画像を対象としてもよい。
縮小モジュール960と非線形関数モジュール980は、第1重畳層モジュール810内のもの(第1の実施の形態の縮小モジュール430、非線形関数モジュール450)と同等の動作を行う。縮小モジュール960による縮小の結果、画像970−2b−i(i=1,2,…,Q)が得られる。また、非線形関数処理結果として、Q枚の画像(画像2−1から画像2−Q)が得られる。ただし、第2重畳層モジュール820の出力画像(画像990−2−1から画像990−2−Q)は、第2重畳層モジュール820が受け付ける画像よりも縮小されており、小さなものとなる。第2重畳層モジュール820の出力画像は、第1完全接続層モジュール830によって受け付けられて、第1の実施の形態の第1完全接続層モジュール320と同等の処理を行う。
前述の説明では、一旦画像920−2c−i−jを作成してから、画像950−2a−iを生成するような説明、画像950−2a−iを作成してから画像970−2b−iを生成するような説明、あるいは、画像970−2b−iを作成してから画像990−2−iを生成するような説明を行った。この場合、画像920−2c−i−j、画像950−2a−i、あるいは画像970−2b−i等を保持するメモリが必要となるが、最終的にQ枚の画像出力が得られればよいので、演算の方法はこれに限らない。ある画素部分ごとに演算を行えば、画像920−2c−i−j、画像950−2a−i、あるいは画像970−2b−iを保持するメモリは不要となる。
<2.2.1> 第2の実施の形態に関する解説
重畳層モジュール(第1重畳層モジュール810、第2重畳層モジュール820)は、一種のマッチドフィルタである。フィルタのカーネルの形状に近い形状が対象画像内に存在すれば、大きな値を出力し、そうでなければ小さな値を出力する層である。この出力が対象画像の特徴量に対応する。
例えば、文字の特徴量としては、直線、曲線、あるいは、括弧の形状の『「』や『」』等のような折れ線、あるいは、『+』や『×』等のような交差形状がある。これらの形状を抽出するためには、その形状のフィルタカーネルを用意する必要がある。
第1の実施の形態では、重畳層(第1重畳層モジュール310)が1層のみであった。そのため、1層のみで、前述の形状を抽出するためには、形状の種類数分のフィルタが必要となる。形状種類数は膨大であるため、その分だけフィルタの枚数が多くなってしまう。
第2の実施の形態では、重畳層をもう1層増加させた形態(第1重畳層モジュール810、第2重畳層モジュール820)を採る。この形態を採ることによって、複数の単純な形状を組み合わせて、複雑な形状を形成することが可能となる。
例えば、第1の重畳層(第1重畳層モジュール810)では、直線や斜め線などの簡単な形状のみを抽出する。第2の重畳層(第2重畳層モジュール820)でそれらの組み合わせとして、『「』、『+』、『×』等のような、より複雑な形状を抽出できるようになる。このように重畳層を2層に分割することによって、第1の重畳層(第1重畳層モジュール810)では単純な形状のみを抽出すればよくなるので、フィルタの枚数を減少させることが可能となる。それらの単純な形状の組み合わせ枚数(すなわち第2の重畳層(第2重畳層モジュール820)の演算量)を考慮しても、トータルでの演算量を、第1の実施の形態よりも小さくできる場合がある。
逆に言えば、単純な形状のみを抽出したい場合には、第1の実施の形態が望ましい場合がある。
<2.3>
図10は、第3の実施の形態の構成例についての概念的なモジュール構成図である。
第3の実施の形態は、図10の例に示すように、第1重畳層モジュール1010、第2重畳層モジュール1020、第1完全接続層モジュール1030、第2完全接続層モジュール1040、最終接続層モジュール1050を有している。第2の実施の形態に第2完全接続層モジュール1040を加えたものである。第1重畳層モジュール1010、第2重畳層モジュール1020、第1完全接続層モジュール1030の構成、動作は、第2の実施の形態の第1重畳層モジュール810、第2重畳層モジュール820、第1完全接続層モジュール830と同等のものである。ただし、S=Mの限定がない点が異なる。以下に、第2完全接続層モジュール1040、最終接続層モジュール1050の構成、動作を説明する。
<2.3.1>
第2完全接続層モジュール1040は、第1完全接続層モジュール1030、最終接続層モジュール1050と接続されている。
図11は、第2完全接続層モジュール1040内の構成例についての概念的なモジュール構成図である。第2完全接続層モジュール1040は、受付モジュール1110、複数のユニット1130(図11ではM個)を有している。
第2完全接続層モジュール1040は、第1完全接続層モジュール1030の出力であるX2−i(i=1,2,…,S)(図5の出力X2−1590−2−1から出力X2−S590−2−S、図11のX2−11030−2−1からX2−S1030−2−S)を受け付ける。第2完全接続層モジュール1040の出力は、X3−j(j=1,2,…,M)(図11の出力X3−11190−3−1から出力X3−M1190−3−M)である。ここでMは最終的に分類したいクラス数と一致している。S個のデータはそれぞれユニット1130−j(j=1,2,…,M)で受け付けられる。ユニット1130−jの動作は、第1の実施の形態の第1完全接続層モジュール320のユニット530−jの動作と同等である。つまり、第1完全接続層モジュール1030からの複数の出力に対して、重み付け線形和を算出する。(3)式に出力値X3−jの算出式を示す。
Figure 2011113125
なお、非線形関数として線形なものを含んでもよい。
<2.3.2>
最終接続層モジュール1050は、第2完全接続層モジュール1040と接続されている。
図12は、最終接続層モジュール1050内の構成例についての概念的なモジュール構成図である。最終接続層モジュール1050は、複数の強調関数モジュール1210(図12ではM個)、正規化モジュール1230を有している。
最終接続層モジュール1050は、第2完全接続層モジュール1040の出力X3−i(i=1,2,…,M)(図12のX3−11200−3−1からX3−M1200−3−M、図11の出力X3−11190−3−1から出力X3−M1190−3−M)を受け付ける。最終接続層モジュール1050の出力はY(j=1,2,…,M)(図12の出力Y1290−1から出力Y1290−M)である。ここでMは最終的に分類したいクラス数と一致している。また、最終接続層モジュール1050の出力は、本実施の形態である認識装置の出力となる。
そして、強調関数モジュール1210、正規化モジュール1230の動作は、第1の実施の形態の強調関数モジュール610、正規化モジュール630と同等である。
なお、最終接続層モジュール1050の強調関数モジュール1210における強調関数をg()とすると、最終接続層モジュール1050での動作は、次の(4)式で表すことができる。
Figure 2011113125
なお、式(4)は前述の式(2)と同等の動作を示すものである。
<2.3.3> 第3の実施の形態に関する解説
第3の実施の形態では、完全接続層を1層増加させた(第2完全接続層モジュール1040を付加した)ことにより、第2の実施の形態よりも、より複雑な形状を抽出可能となっている。
第1完全接続層モジュール1030において、抽出した形状をさらに複雑にすることができる。第2の実施の形態において、同等の複雑度を持つ形状を抽出するためには、第1完全接続層モジュール830内のユニット数を増大させる必要がある。よって、抽出したいパターンの複雑度によっては、第3の実施の形態のように完全接続層を2層(第1完全接続層モジュール1030、第2完全接続層モジュール1040)設けたほうが好ましい場合がある。
<2.4>
図13は、第4の実施の形態の構成例についての概念的なモジュール構成図である。
第4の実施の形態は、図13の例に示すように、第1重畳層モジュール1310、第1完全接続層モジュール1320、第2完全接続層モジュール1330、最終接続層モジュール1340を有している。第1の実施の形態に第2完全接続層モジュール1330を加えたものである。第1重畳層モジュール1310、第1完全接続層モジュール1320、最終接続層モジュール1340の構成、動作は、第1の実施の形態の第1重畳層モジュール310、第1完全接続層モジュール320、最終接続層モジュール330と同等のものである。また、第2完全接続層モジュール1330の構成、動作は、第3の実施の形態の第2完全接続層モジュール1040と同等のものである。
<2.5> パラメタ学習
第5の実施の形態は、前述の第1の実施の形態から第4の実施の形態を生成するための学習装置である。つまり、第1の実施の形態から第4の実施の形態に学習モジュールを加えたものである。
前述の第1の実施の形態から第4の実施の形態の一部は、線形演算結果を非線形関数で変形し、さらに、次の線形演算を行う形態を採っている。これは多層パーセプトロンの形態と同等であり、微分可能な非線形関数を採用すれば、一般のバックプロバゲーション法を用いた機械学習方法を用いることが可能である。学習させうるパラメタは、重畳層の各フィルタ係数、及び、完全接続層の各重み係数(バイアスを含む)である。第1の実施の形態では、第1重畳層モジュール310のフィルタモジュール401でのフィルタの係数、第1完全接続層モジュール320の×Wモジュール540、bモジュール545の重み付け係数、バイアスである。第2の実施の形態では、さらに第2重畳層モジュール820内のフィルタモジュール910でのフィルタの係数が加わる。第3の実施の形態では、さらに第2完全接続層モジュール1040内の×Wモジュール1140、bモジュール1145の重み付け係数、バイアスが加わる。第4の実施の形態では、第1の実施の形態の場合に第2完全接続層モジュール1330内の×Wモジュール1140、bモジュール1145の重み付け係数、バイアスが加わる。
つまり、第5の実施の形態においては、前述の第1の実施の形態から第4の実施の形態に対して、一般のバックプロバゲーション法のやり方に則り、誤差関数を最小化するようにパラメタを設定すればよい。つまり、学習モジュールが誤差関数を最小化するようにパラメタを設定する。
ただし、本実施の形態においては、誤差関数は以下のようなものである。
誤差関数は、教師データと出力データとの「差」を示すようなものであればよい。このような指標として、
・教師データと出力データの差分電力(例えば、教師データと出力データとの2乗誤差)
あるいは、
・教師データと出力データ分布の差(例えば、教師データと出力データの交差エントロピ誤差)
等を用いるようにしてもよい。
ここで、教師データと対象データのペアがN通り用意されているとする。このペアに番号iを付与する。i=1,2,…,Nである。ここで、i番目、かつクラスjに対応する教師データをTijとする。ただし、i=1,2,…,Mである。また、i番目の対象データを本実施の形態の学習装置を受け付けて得られた、クラスjの出力データをYijとする。
このとき、教師データと出力データとの2乗誤差Eは(5)式となる。
Figure 2011113125
又は、教師データと出力データとの交差エントロピ誤差は(6)式となる。
Figure 2011113125
このような、誤差関数を用いればよい。
又は、誤差関数としては、教師データと出力データとの「差」を示すようなものであれば基本的には何でもよい。
<2.6>
第6の実施の形態を説明する。
第5の実施の形態によって、第1の実施の形態から第4の実施の形態の認識装置のパラメタを学習させたとする。その結果として、図14に例示するようなクラス分類ができるようになる。図14では、どちらのクラスに属するか不明な領域は解消されている。つまり、図14の例では、太い線1400がユニット0の出力値、細い点線1401がユニット1の出力値を表している。図14に例示するように、領域1431はクラス0に属する領域であり、領域1433はクラス1に属する領域であることが明確であり、どちらのクラスにも属している領域は存在しない。
ここで、以下の前提を考える。
「前提」
・認識を行う認識装置を学習させる学習装置として、第5の実施の形態における第1の実施の形態又は第2の実施の形態の形態を採るとする。
・さらに、対象データに対して、その対象データが各クラスである確率を求める必要はなくて、対象データに対して、その対象データが属する可能性の一番高いクラスを求めるだけ、又は、その対象データが属する可能性高いクラスの順序を求めるだけの場合を考える。
なお、以下に第6の実施の形態の種々の形態を示すが、これは第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態の変形例である。
<2.6.1>
前述した「前提」の場合、図6に例示した「正規化」の必要はなくなる。正規化してもしなくても、各クラスの出力値の大きさの順番に変化はないためである。すなわち、第6の実施の形態(1)は、認識を行う装置であって、第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態から、図6に例示した正規化モジュール630を省いたものである。
<2.6.2>
前述した「前提」の場合、図6に例示した「正規化」に加えて、「強調関数」も不要とできる。なぜなら、「強調関数」として、単調増加関数を採用しているためである。単調増加関数は順序を変化させないため、順序を計測するためだけであれば、単調増加関数は不要である。すなわち、第6の実施の形態(2)は、認識を行う装置であって、第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態から、最終接続層モジュール330を除いたものである。
<2.6.3>
さらに、第5の実施の形態によって学習された後の第4の実施の形態の場合、第2完全接続層モジュール1040の非線形関数も不要とできる。又は、第2完全接続層モジュール1040がない第5の実施の形態によって学習された後の第1の実施の形態、第2の実施の形態の場合、第1完全接続層モジュール320、第1完全接続層モジュール830の非線形関数も不要とできる。なぜなら、これら「非線形関数」としても、単調増加関数を採用しているためである。単調増加関数は順序を変化させないため、順序を計測するためだけであれば、単調増加関数は不要である。すなわち、第6の実施の形態(3)は、第5の実施の形態によって学習された後の第1の実施の形態から第4の実施の形態から、最終接続層の一段手前の完全接続層(第1完全接続層モジュール320、第1完全接続層モジュール830、第2完全接続層モジュール1040、第2完全接続層モジュール1330)の非線形関数(非線形関数モジュール560、非線形関数モジュール1160)を除いたものである。
<2.7>
その他の形態について説明する。
<2.7.1>
第1完全接続層と第2完全接続層(第1完全接続層モジュール1030、第2完全接続層モジュール1040等)では、「完全」にユニット間の接続がなされているように記載されているが、必ずしも全てのユニット間の接続がなされていなければならないわけではない。
学習の結果として、重みが0となる場合も存在する。
「完全」とは、「全てのユニット間の接続について可能性がある」という意味である。
<2.7.2>
第1完全接続層モジュール320のユニット数、第1完全接続層モジュール830のユニット数、第2完全接続層モジュール1040のユニット数、第2完全接続層モジュール1330のユニット数は、それぞれ最終接続層モジュール330、最終接続層モジュール840、最終接続層モジュール1050、最終接続層モジュール1340によって認識し得るクラス数に基づいて定められるようにしてもよい。
逆に、最終接続層モジュール330、最終接続層モジュール840、最終接続層モジュール1050、最終接続層モジュール1340によって認識し得るクラス数は、それぞれ第1完全接続層モジュール320のユニット数、第1完全接続層モジュール830のユニット数、第2完全接続層モジュール1040のユニット数、第2完全接続層モジュール1330のユニット数に基づいて定められるようにしてもよい。
例えば、最終接続層(最終接続層モジュール330、最終接続層モジュール840、最終接続層モジュール1050、最終接続層モジュール1340)の対象数(対象ベクトルの次元、つまり、第1完全接続層モジュール320のユニット数、第1完全接続層モジュール830のユニット数、第2完全接続層モジュール1040のユニット数、第2完全接続層モジュール1330のユニット数)と出力数(出力ベクトルの次元)は、クラス数Mに等しい場合を含む。さらに、各ユニット数はクラス数Mより予め定められた値だけ少なくするようにしてもよい。又は、クラス数Mより予め定められた数だけ多めにユニットを用意するようにしてもよい。
<2.7.3>
前述の実施の形態における縮小モジュールでの縮小処理は、平均値を求める処理ではなく、単なるサブサンプリング処理でもよい。また、メディアンや最頻値などの他の代表値を求める処理でもよい。
<2.7.4>
重畳層は前述の実施の形態のように1層(第1重畳層モジュール310等)や2層(第1重畳層モジュール810、第2重畳層モジュール820等)でもよいし、3層以上であってもよい。
<2.7.5>
前述の実施の形態の第1重畳層、第2重畳層(第1重畳層モジュール310、第1重畳層モジュール810、第2重畳層モジュール820等)では、縮小モジュールの前段と後段に非線形関数モジュールを設けた。これらの非線形関数モジュールの関数形態は、縮小モジュールの前段と後段で同じ関数を用いてもよいし、異なる関数を用いてもよい。さらに、縮小モジュールの前段と後段の非線形関数モジュールのうち、いずれかを省略してもよい。例えば、縮小モジュールの前段のみに、非線形関数モジュールを設ける。又は、縮小モジュールの後段のみに、非線形関数モジュールを設けようにしてもよい。
<2.7.6>
前述の実施の形態では、特に、パターン認識の対象を限定した説明は行っていない。例えば、教師用の画像とクラスのペアに対して、手書き文字画像と文字コードを与えれば、手書き文字認識となる。活字文字画像と文字コードを与えれば、活字文字認識となる。教師用の画像が顔画像の場合に出力値1、教師用の画像が非顔画像の場合に出力値0を与えれば、顔検知装置となる。特定の人物画像とその人物番号のペアを与えれば、顔認識装置となる。笑顔画像に1、非笑顔画像に0の教師用データペアを与えれば、笑顔検知装置となる。一般物体認識装置として、ある物体(例えば虎の画像)を検知したい場合に、虎であれば出力値1、非虎であれば出力値0の教師データ群を与えれば、虎認識装置として動作させることが可能である。このとき、「虎」を他の物体に変更することも可能である。
<2.8>
図15を参照して、本実施の形態の認識装置、学習装置のハードウェア構成例について説明する。図15に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1517と、プリンタなどのデータ出力部1518を備えたハードウェア構成例を示している。
CPU(Central Processing Unit)1501は、前述の実施の形態において説明した各種のモジュール、すなわち、第1重畳層モジュール310、第1完全接続層モジュール320、最終接続層モジュール330、第2重畳層モジュール820、第2完全接続層モジュール1040等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
ROM(Read Only Memory)1502は、CPU1501が使用するプログラムや演算パラメータ等を格納する。RAM(Random Access Memory)1503は、CPU1501の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を格納する。これらはCPUバスなどから構成されるホストバス1504により相互に接続されている。
ホストバス1504は、ブリッジ1505を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1506に接続されている。
キーボード1508、マウス等のポインティングデバイス1509は、操作者により操作される入力デバイスである。ディスプレイ1510は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)1511は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1501によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、受け付けた対象データ305、最終接続層モジュール330の出力データ395等が格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ1512は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1513に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1507、外部バス1506、ブリッジ1505、及びホストバス1504を介して接続されているRAM1503に供給する。リムーバブル記録媒体1513も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート1514は、外部接続機器1515を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1514は、インタフェース1507、及び外部バス1506、ブリッジ1505、ホストバス1504等を介してCPU1501等に接続されている。通信部1516は、ネットワークに接続され、外部とのデータ通信処理を実行する。データ読み取り部1517は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1518は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図15に示す認識装置、学習装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、前述の各種の実施の形態を組み合わせてもよく(例えば、ある実施の形態内のモジュールを他の実施の形態内に適用する、入れ替えする等も含む)、各モジュールの処理内容として背景技術、<1.1>等で説明した技術を採用してもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…第1重畳層モジュール
120…第2重畳層モジュール
130…第1完全接続層モジュール
140…第2完全接続層モジュール
310…第1重畳層モジュール
320…第1完全接続層モジュール
330…最終接続層モジュール
810…第1重畳層モジュール
820…第2重畳層モジュール
830…第1完全接続層モジュール
840…最終接続層モジュール
1010…第1重畳層モジュール
1020…第2重畳層モジュール
1030…第1完全接続層モジュール
1040…第2完全接続層モジュール
1050…最終接続層モジュール
1310…第1重畳層モジュール
1320…第1完全接続層モジュール
1330…第2完全接続層モジュール
1340…最終接続層モジュール

Claims (11)

  1. 対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、
    前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、
    前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、
    前記第1の線形和算出手段による算出結果を強調する強調手段と、
    前記強調手段による強調結果を正規化する正規化手段
    を具備することを特徴とする情報処理装置。
  2. 前記第1の非線形関数処理手段からの複数の出力をコンボリューション動作でフィルタリング処理を行う第2のフィルタリング処理手段と、
    前記第2のフィルタリング処理手段による処理結果を非線形関数で処理する第2の非線形関数処理手段
    をさらに具備し、
    前記第1の線形和算出手段は、前記第2の非線形関数処理手段からの複数の出力の重み付け線形和を算出する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記第1の線形和算出手段からの複数の出力の重み付け線形和を算出する第2の線形和算出手段
    をさらに具備し、
    前記強調手段は、前記第2の線形和算出手段による算出結果を強調する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数を学習する学習手段
    をさらに具備することを特徴とする請求項1に記載の情報処理装置。
  5. 前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第2のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数を学習する学習手段
    をさらに具備することを特徴とする請求項2に記載の情報処理装置。
  6. 前記正規化手段による処理結果を用いて、前記第1のフィルタリング処理手段でのフィルタの係数、前記第2のフィルタリング処理手段でのフィルタの係数、前記第1の線形和算出手段の重み付け係数、前記第2の線形和算出手段の重み付け係数を学習する学習手段
    をさらに具備することを特徴とする請求項3に記載の情報処理装置。
  7. 前記第1の線形和算出手段内のユニット数、前記第2の線形和算出手段内のユニット数、若しくは前記強調手段内のユニット数は、前記正規化手段によって認識し得るクラス数に基づいて定められる、
    又は、前記正規化手段によって認識し得るクラス数は、前記第1の線形和算出手段内のユニット数、前記第2の線形和算出手段内のユニット数、若しくは前記強調手段内のユニット数に基づいて定められる
    ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。
  8. 前記強調手段は1次導関数がほとんど至るところ正であり、かつ、2次導関数がほとんど至るところ正の関数で実現される
    ことを特徴とする請求項1から7のいずれか一項に記載の情報処理装置。
  9. 前記学習手段は、フィルタ係数と重み付け係数の学習を教師データと出力データの2乗誤差を最小化するように行う
    ことを特徴とする請求項4から8のいずれか一項に記載の情報処理装置。
  10. 前記学習手段は、フィルタ係数と重み付け係数の学習を教師データと出力データの交差エントロピ誤差を最小化するように行う
    ことを特徴とする請求項4から8のいずれか一項に記載の情報処理装置。
  11. コンピュータを、
    対象とするデータをたたみ込み処理によってフィルタリング処理を行う第1のフィルタリング処理手段と、
    前記第1のフィルタリング処理手段による処理結果を非線形関数で処理する第1の非線形関数処理手段と、
    前記第1の非線形関数処理手段からの複数の出力の重み付け線形和を算出する第1の線形和算出手段と、
    前記第1の線形和算出手段による算出結果を強調する強調手段と、
    前記強調手段による強調結果を正規化する正規化手段
    として機能させることを特徴とする情報処理プログラム。
JP2009266364A 2009-11-24 2009-11-24 情報処理装置及び情報処理プログラム Expired - Fee Related JP5445062B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009266364A JP5445062B2 (ja) 2009-11-24 2009-11-24 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009266364A JP5445062B2 (ja) 2009-11-24 2009-11-24 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2011113125A true JP2011113125A (ja) 2011-06-09
JP5445062B2 JP5445062B2 (ja) 2014-03-19

Family

ID=44235440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009266364A Expired - Fee Related JP5445062B2 (ja) 2009-11-24 2009-11-24 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5445062B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017207947A (ja) * 2016-05-19 2017-11-24 株式会社 ディー・エヌ・エー 対象物の類似度判定のためのプログラム、システム、及び方法
JP2018506788A (ja) * 2015-04-03 2018-03-08 三菱電機株式会社 物体の再同定の方法
US10796143B2 (en) 2017-03-16 2020-10-06 Fuji Xerox Co., Ltd. Information processing apparatus, information processing system, and non-transitory computer readable medium
US11755907B2 (en) 2019-03-25 2023-09-12 Mitsubishi Electric Corporation Feature identification device, feature identification method, and computer readable medium

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197701A (ja) * 1992-01-21 1993-08-06 Fujitsu Ltd ニューラルネットワークを用いた情報処理装置
JPH06149767A (ja) * 1992-11-05 1994-05-31 Nagoya Denki Kogyo Kk ニューラルネットワーク
JPH0765165A (ja) * 1993-08-26 1995-03-10 Ibm Japan Ltd ニューラル・ネットワークによるパターン認識方法及び装置
JP2003296737A (ja) * 2002-03-15 2003-10-17 Microsoft Corp パターン認識を容易にするシステムおよび方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05197701A (ja) * 1992-01-21 1993-08-06 Fujitsu Ltd ニューラルネットワークを用いた情報処理装置
JPH06149767A (ja) * 1992-11-05 1994-05-31 Nagoya Denki Kogyo Kk ニューラルネットワーク
JPH0765165A (ja) * 1993-08-26 1995-03-10 Ibm Japan Ltd ニューラル・ネットワークによるパターン認識方法及び装置
JP2003296737A (ja) * 2002-03-15 2003-10-17 Microsoft Corp パターン認識を容易にするシステムおよび方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506788A (ja) * 2015-04-03 2018-03-08 三菱電機株式会社 物体の再同定の方法
JP2017207947A (ja) * 2016-05-19 2017-11-24 株式会社 ディー・エヌ・エー 対象物の類似度判定のためのプログラム、システム、及び方法
US10796143B2 (en) 2017-03-16 2020-10-06 Fuji Xerox Co., Ltd. Information processing apparatus, information processing system, and non-transitory computer readable medium
US11755907B2 (en) 2019-03-25 2023-09-12 Mitsubishi Electric Corporation Feature identification device, feature identification method, and computer readable medium

Also Published As

Publication number Publication date
JP5445062B2 (ja) 2014-03-19

Similar Documents

Publication Publication Date Title
Gu et al. Deep dual-channel neural network for image-based smoke detection
Rahmouni et al. Distinguishing computer graphics from natural images using convolution neural networks
Bayar et al. Design principles of convolutional neural networks for multimedia forensics
CN108345827B (zh) 识别文档方向的方法、系统和神经网络
JP5772442B2 (ja) 画像処理装置及び画像処理プログラム
JP4532915B2 (ja) パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US20100166318A1 (en) Adaptive partial character recognition
JP2004054956A (ja) 顔/類似顔映像で学習されたパターン分類器を利用した顔検出方法及びシステム
CN113272827A (zh) 卷积神经网络中分类决策的验证
WO2020164278A1 (zh) 一种图像处理方法、装置、电子设备和可读存储介质
JP6892606B2 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
JP2010157118A (ja) パターン識別装置及びパターン識別装置の学習方法ならびにコンピュータプログラム
Ayyar et al. Review of white box methods for explanations of convolutional neural networks in image classification tasks
JP5445062B2 (ja) 情報処理装置及び情報処理プログラム
Hang Thyroid nodule classification in ultrasound images by fusion of conventional features and res-GAN deep features
PirahanSiah et al. Adaptive image segmentation based on peak signal-to-noise ratio for a license plate recognition system
Zheng et al. MA-Net: Mutex attention network for COVID-19 diagnosis on CT images
Appari et al. Soft computing and image processing techniques for COVID-19 prediction in lung CT scan images
CN114119970B (zh) 目标跟踪方法及装置
Hu et al. Study on the interaction between the cover source mismatch and texture complexity in steganalysis
JP4834693B2 (ja) パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
Gupta et al. Optimal reduction of noise in image processing using collaborative inpainting filtering with Pillar K-Mean clustering
Mandloi et al. An explainable brain tumor detection and classification model using deep learning and layer-wise relevance propagation
Kordnoori et al. An efficient deep multi‐task learning structure for covid‐19 disease

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130913

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees