JP2009516246A5

JP2009516246A5 -

Info

Publication number: JP2009516246A5
Application number: JP2008539194A
Authority: JP
Filing date: 2006-11-15
Publication date: 2012-11-15

Description

ニューラルネットワークのトレーニング方法

本発明は一般的に人工ニューラルネットワーク及びその操作に関し、特に、限定しないが、ニューラルネットワークのトレーニング法の改善及び／又は、トレーニング過程中の要求通りにネットワークにニューロンを追加できるシステムに関する。

過去１０数年にわたり生成データセットのサイズが増殖するに従い、厳密に理解されないデータセットにおいて、そのデータセット内の関係を見出すために用いうる開発ツールへの関心が高まっている。データ探索のツールは、毎回固定した時間量において、入力と出力の間の関係についての顕著な情報を容易に決定しうるデータセットを矛盾なく学習しうることが望ましい。

データ探索のツールの１つは、フィードフォワードニューラルネットワークである。フィードフォワードニューラルネットワークは、データセットを有する多くの多様で困難なタスクを実施するために用いられ、過去およそ４０年にわたって大いに注目されてきた。これらには、「一般化する」能力があるという理由で、パターン分類及び機能概算を含む。このように、ニューラルネットワーク（以後、簡便のために”ＮＮ”と略称）は、非線形システムモデリング及びイメージ圧縮・再構成等のアプリケーションに用いうる。

ＮＮが関心を持たれる分野には、科学、商業、医学及び産業が含まれ、これらにおいてはデータに内在する関係性が不明であり、ＮＮであればそうしたデータをうまく分類する方法を学習できるからである。

ある場合においては、データが先行する分類に提示されてはならず、こうした状況では、で他を分類するために自己組織化マップ等の教師なしトレーニングを用いることが通常である。別の場合においては、データは分類されたデータサンプルに前もって分解され、こうした状況では未分類のデータをさらに分類できるようＮＮをトレーニングすることが通常である。後者の場合においては、教師あり学習アルゴリズムが伝統的に用いられる。分類された入力データ例には関連付けられる出力があり、トレーニング期間中にＮＮは入力ベクトルに関連付けられる望ましい出力を再現することを学習する。フィードフォワードＮＮは、伝統的には教師ありトレーニング法を用いてトレーニングされる。

人工ＮＮは多くのニューロンで構成され、これらはユニット又はノードと呼ぶことがある。これは生物学的ニューロンからインスピレーションを得ている。ニューロンは相互に接続せいてネットワークを形成する。各ニューロンには多くの他のニューロンからの入力がある。ニューロンは入力に応答して、発火するかしないかにより出力を生成する。このようにして、ニューロンの出力は多くの他のニューロンへの入力になりうる。これがフィードフォワードＮＮの基本構造である。

典型的にはニューロンは層を形成する。フィードフォワードＮＮにおいては、入力層、中間層及び出力層の、３タイプの層がある。第１の層は入力層であり、１以上のニューロンを内蔵する。同様に１以上のニューロンを有する出力層もある。ＮＮは１以上の中間層を有する場合もある。入力層の全てのニューロンは次の層、すなわち出力層又は１以上の中間層がある場合には第１の中間層へ、出力を提示する。中間層が１つだけであると、中間層のニューロンは出力層に対して出力を報告する。中間層が１よりも多いと、ニューロンは次の中間層等の入力に向かって出力を送り、最後の中間層は出力層の入力に向かってその出力を送る。

他のネットワークアーキテクチャも可能であり、ＮＮは特定のデータセットを学習するよう特異的に設計しうる。これは特にＮＮの入力ベクトルのシーケンス学習に見られ、これは接続にフィードバックループを有することもある。これらのＮＮは回帰フィードフォワードニューラルネットワークと呼ばれ、一般的にはこのＮＮの出力はしばしばＮＮの入力にフィードバックしうる。

最初の生物学的ニューロンモデルは、ＭｃＣｕｌｌｏｃｈ及びＰｉｔｔにより１９４３年に開発された。これは、ＭｃＣｕｌｌｏｃｈ−Ｐｉｔｔニュートンとして知られた。ＭｃＣｕｌｌｏｃｈ−Ｐｉｔｔニューロンモデル又は直線閾値ゲート（以後、ＬＴＧと略称、ＬｉｎｅａｒＴｈｒｅｓｈｏｌｄＧａｔｅ）は、多くの入力接続及び各接続と関連付けられた重みを有するものとして定義される。入力は、数学的にベクトルｘ_ｉとして定義され、

式中、ｎはＬＴＧへの入力数を示す正の整数であり、ｉはｉ番目の入力ベクトルである。入力接続はｎ個あるので、接続の重みは数学的にベクトルｗと定義されうる。

ＬＴＧへの各入力ベクトルは関連付けられた重みがかけ合わされて数学的にｘ_ｉ・ｗと表され、この結果はＬＴＧの閾値Ｔと比較される。

ｘ_ｉ・ｗ≧Ｔならば出力は１であり、さもなければｘ_ｉ・ｗ＜Ｔとなって出力は０である。換言すれば、ＬＴＧはニューロンの活性化関数としての、このステップ関数又はＨｅａｖｉｓｉｄｅ関数を用いる。

ＬＴＧは次式の定義を用いて数学的に定義しうる。ｗ＝｛ｗ_１，ｗ_２，．．・ｗ_ｎ｝及びｘ_ｉ＝｛ｘ_１，ｘ_２，．．．ｘ_ｎ｝ここで、

とおくと、ＬＴＧの挙動は次式１．１のようにまとめられる。
ｘ_ｊ・ｗ＜Ｔ→０、及びｘ_ｊ・ｗ＜Ｔ→１（１．１）

このように、ＬＴＧ、Ｏの出力はバイナリ｛０，１｝である。ＬＴＧは活性化すると１を出力し、しなければ０を出力する。

１９６２年に、ＬＴＧは、永久的に１にセットされる追加バイアスで変更された。バイアス入力は閾値を吸収し、これをゼロにセットする。変更されたＬＴＧモデルはパーセプトロンと名称変更した。パーセプトロンモデルにおいては、閾値Ｔはｘ_ｉ・ｗから除去されうるので、等式はｘ_ｉ・ｗ＜Ｔ≡ｘ_ｉ・ｗ−Ｔ＜０、及びｘ_ｉ・ｗ＞Ｔ≡ｘ_ｉ・ｗ−Ｔ≧０となるすなわち、閾値は、重みｗ_０と共にニューロンへの別の入力になることが可能で、ニューロンへの入力を１に固定することにより常に存在することが確定し、Ｔ＝１・ｗ_０となる。重みｗ_０はバイアスウェイトと呼ばれる。従って、前式は次のようになる。
ｘ_ｉ・ｗ−Ｗ_０＜０、及びｘ_ｉ・ｗ−Ｗ_０≧０

１９６０年に、Ｒｏｓｅｎｂｌａｔｔはパーセプトロンモデルを用いて重みのための数値を見出すことに注目した。これ以降、ニューロン内の各重みに足して単一の数値を見出すことが、ニューロン及びＮＮをトレーニングする方法を確立してきた。ニューロンにより生成する関係は提案ロジックを用いて表現しうることが認識されていたが、重みと閾値との象徴的な関係を直接に見出すことは意図されてこなかった。ＮＮがトレーニング中に学習したデータセット内のルールは数値コード化され、これによりルールは非圧縮性となりうる。重み及び閾値により見出される数値から、ＮＮにより学習されたルールを見出すことが意図されてきた。このような方法は全てトレーニング後の追加プロセスであり、これらによってＮＮから直接にルールを読み出すことはできない。

１９６２年に、Ｒｏｓｅｎｂｌａｔｔはパーセプトロン学習アルゴリズムの収束を証明し、これは直線的に分離可能なデータセットを満足する数値を反復して見出すものであった。ニューロンは、特定の入力に与える所望の出力を生成するよう、接続の重みを加えることにより学習する。Ｒｏｓｅｎｂｌａｔｔのトレーニングルールは、式１．２に見られるように、入力ｘ_ｉに基づいて重みｗ_ｊが変更されるというものであり、式中、１≦ｊ≦ｎ、ｎはパーセプトロンへの入力の数、ｔは時間ステップ、ηは正のゲイン率で、η≦１である。Ｒｏｓｅｎｂｌａｔｔのルーツはバイナリ出力に対して動作する。特定の入力に対するパーセプトロンの出力が正しいならば、何も起こらない。
Ｗ_ｊ（ｔ＋１）＝Ｗ_ｊ（ｔ）（１．２）
さもなければ、出力が０であり、かつ１でなければならない場合は、次のようになる。
Ｗ_ｊ（ｔ＋１）＝Ｗ_ｊ（ｔ）＋ηＸ_ｉ（ｔ）（１．３）
あるいは、出力が１であり、かつ０でなければならない場合は、次のようになる。
Ｗ_ｊ（ｔ＋１）＝Ｗ_ｊ（ｔ）−ηｘ_ｉ（ｔ）（１．４）

反復して重みを調節するアイデアは、今やフィードフォワードＮＮをトレーニングする方法として確立した。

１９６９年に、より複雑なデータセットに対してＲｏｓｅｎｂｌａｔｔの学習アルゴリズムは動作しないことが見出された。Ｍｉｎｓｋｙ及びＰａｐｅｒｔは、単一層のパーセプトロンは有名な排他的論理和（ＸＯＲ）問題を解けないことを示した。これが動作しない理由は、反復が重み空間内の単一点を見出すために用いられたからである。

Ｂｏｏｌｅａｎ関数の全てが単一のＬＴＧにより学習されうるとは限らない。ｎ個の入力変数には２^ｎの組み合わせがあり、可能な出力と組み合わせると２^ｎのユニークなＢｏｏｌｅａｎ関数（あるいはスイッチング関数として公知）が存在することになる。２^ｎの関数のうち、あるもののみが単一のｎ−入力ＬＴＧにより表されうる。入力スペースが直線的に分離可能であるＢｏｏｌｅａｎ関数は単一のＬＴＧにより表すことができるが、直線的に分離可能ではないＢｏｏｌｅａｎ関数を学習するためには追加のＬＴＧが必要である。ＸＯＲは直線的に分離可能ではないＢｏｏｌｅａｎ関数の例であり、従って単一のＬＴＧでは学習できない。

ＬＴＧに追加の層を用いることで、直線的に分離可能ではない問題をＮＮに学習させることが可能になるが、しかしＬＴＧの複数の層を同時にトレーニングしうる実用でキナトレーニングルールはなかった。

結果として、ＬＴＧの複数の層をトレーニングしうる重み及び閾値のための数値を見出す反復方法がないという理由で、ニューロンのＭｃＣｕｌｌｏｃｈ−Ｐｉｔｔモデルは廃棄された。これは、バックプロパゲーションが開発されるまで続いた。

１９７４年に、Ｗｅｒｂｏｓはエラーバックプロパゲーション（又は「バックプロパゲーション」）のアイデアに至った。後に１９８６年に、Ｒｕｍｅｌｈａｒｔ及びＨｉｎｔｏｎ、さらに１９８６年にＷｉｌｌｉａｍｓ、及び１９８５年にＰａｒｋｅｒが到達したアルゴリズムも同様であり、これにより多層ＮＮモデルをトレーニングして反復的に重みのための数値を見出すことが可能になった。これにより、ＸＯＲ問題並びに単一層のパーセプトロンでは解けない他の多くの問題の解答が可能になった。ＭｃＣｕｌｌｏｃｈ−Ｐｉｔｔのニューロンモデルは活性化関数としてステップ関数に替えてシグモイド関数を用いるよう再び変更された。シグモイド関数の数学的定義は次式１．５で与えられる。
Ｏ＝１／（１＋ｅ^−ｋｗｘ）（１．５）

パーセプトロンは一般的にシグモイド関数をパーセプトロンの活性化関数として用いる。ｋ項は曲線の広がりを制御し、シグモイド関数は、

において出力が

となるようにステップ関数を近似する。しかしながら、ｔａｎｈ（ｋｗ・ｘ）等の他の活性化関数も用いうる。この活性化関数は−１から＋１の範囲であるため、ＮＮが負の数を出力可能である必要がある場合に用いられる。

バックプロパゲーションはＲｏｓｅｎｂｌａｔｔの学習アルゴリズムに基づいており、式１．２から式１．４に記載したものである。これは教師あり学習モデルであり、入力ベクトルをＮＮの入力層に加えることにより動作する。入力層はこの入力を第１の中間層に分配する。層内の各ニューロンの出力は式１．５にしたがって計算され、後続の層への入力となる。後続の層への入力となるニューロンの層の出力（又は活性化）を計算するプロセスは、ＮＮの出力が計算されるまでの間に繰り返される。実際の出力と所望の出力との間にはエラーが生じることもあり、エラーの量に従って重みが変更される。出力におけるエラーは、ＮＮ何のエラーを低減するために、今度は出力層への接続から中間層における接続に向かう接続の重みを調節することにより、ＮＮを通じて、フィードバックされるか、又は後方に伝播される。重みの量は、これらのユニット内のエラー量に比例して直接的に調節される。

バックプロパゲーションのデルタルールは式１．６で与えられ、式中、ｉは層、ｊはｉ−１層内に生起する接続元のパーセプトロン、ｋはｉ層内に向かう接続先のパーセプトロンである。

式中、

である。

は、ＮＮ内の重みに関する数値のエラー低減を意図して重みが変更される量である。重みが変更される量は、ニューロンの出力Ｏ_ｉｊｋ、ゲイン項η（これは学習速度及び出力エラーδ_ｉｊｋとも呼ばれる）に基づく。ＮＮにおけるエラーは、ＮＮの実際の出力と所望の出力との差である。

ＮＮが十分にトレーニングされると、ＮＮにおけるエラーとしてのエラー関数の大局的極小値を最小値と呼ぶ。エラー内には多くの局所的極小値が潜在しているので、エラーは面でありうる、すなわち関数でありうると見なされる。しかしながら、いかなるＮＮに対してもエラー関数は知られていない。エラー関数は、ＮＮに加えられた全ての入力ベクトルに対する所望の出力と実際の出力との差に基づくので、経験的にのみ計算されうる。δ_ｉｊｋ項はエラー関数の１次微分（出力におけるエラーの差に基づく微分）である。バックプロパゲーションがＮＮ内のエラーを最小化するときに、最小化されるのはエラー関数である。勾配（１次微分）を用いることで、ＮＮ内のエラーを最小化する重みを変化する方法の決定が可能になる。これは、勾配降下と呼ばれる。

バックプロパゲーションは、そのアルゴリズム内にＮＮへのニューロンの追加も除去も許容しないため、固定サイズのＮＮでの動作を要する。ＮＮがデータセットを学習するようトレーニングするときに、そのデータを学習するために何層の、各層にいくつのニューロンが必要であるかという推測がなされる。トレーニング後に、必要ではないニューロンを取り除くことにより、トレーニングしたＮＮの性能向上を試みてもよい。しかし、トレーニング中はニューロンの数は一定でなければならない。

伝統的なバックプロパゲーションアルゴリズムは以下のように要約される。（ａ）初期化：ＮＮ内の層数及び各層のニューロン数を定義し、ＮＮの重みをランダムな値で初期化する；（ｂ）トレーニングセットからＮＮに入力ベクトルを加える。式１．５を用い、入力層に続く第１層内の各ニューロンに対する出力を計算し、この出力を次の層への入力として用いる。このプロセスをＮＮの各層に対して、出力が計算されるまで繰り返す；（ｃ）式１．６を用い、ＮＮ内に存在するエラー量に従って重みを変更する；（ｄ）ステップ（ｂ）及び（ｃ）を、ＮＮがトレーニングされたと考えられるまで繰り返す。ＮＮは、トレーニングセット中のある数の入力ベクトルに対して、エラーが任意の数値以下に低下する時に、トレーニングされたと見なされる。

バックプロパゲーションを用いてＮＮがデータセットを学習するようトレーニングすることには多くの利点が伴う一方、バックプロパゲーションには限界がある。バックプロパゲーションでは、ＮＮはデータセットの学習に長時間が必要となりうるか、さらに悪い場合としては全くデータセットを学習しないかもしれない。いくつかの場合において、ＮＮがデータセットを学習しない理由の決定は不可能なことがあり、及び／又はトレーニング中にＮＮがデータセットを一体学ぶのかどうか、単に学習に時間がかかるのかを区別することは不可能である。

バックプロパゲーションでは、ＮＮはデータ学習に小さすぎる場合がある。伝統的には、ＮＮの設計者は各中間層に用いるニューロン数、及びデータセットの学習に要する中間層の数も推定しなければならない。ＮＮが大きすぎると、適切に一般化できない場合がある。従って、この問題の改善を意図して、ＮＮからニューロンが取り除かれることがある。ＮＮはエラー空間の局所的極小内に固定されることがある。ＮＮがデータセットの学習を完了すると、ＮＮはエラー空間の大局的極小内にある。エラー関数の形状は未知であり、関数は大きいエラー及び小さいエラーの領域を有する。バックプロパゲーションはエラー関数の１次微分を試行することによりエラーを最小化するよう動作するだけであり、これは局所領域のみの試行である。中間層におけるニューロンのトレーニングの目標はデータセット内の異なる特徴を学習することにある。しかしながら、バックプロパゲーションがＮＮ内にエラーを後方伝播するときは、全ての重みが幾分変更されるため、データセット内の特定の特徴に対する各ニューロンのユニークな関連付けが減少する可能性がある。これは、ニューロンは同一層にある他のニューロンが同一の特徴を学習しているか否かを決定できないために起こりうる。このために、特定のデータの特徴を学習し、その特徴を忘れてしまう重みが生じうる。

バックプロパゲーションでのＮＮのトレーニングにおける主要な問題は、ＮＮがデータセットを学習しない原因が上述の理由のいずれであるか決定できないことである。データセットを学習するかもしれないが単純に遅い、又はＮＮが小さすぎるために全くデータを学習しないかもしれない、又は局所的極小内に固定されるかもしれない。さらに顕著なバックプロパゲーションの問題は、ＮＮがデータセットを学習してしまうと、ＮＮが学習したものは不可解なことに数値としての重み及び閾値にコード化されるということである。

バックプロパゲーションでのＮＮのトレーニングが困難であるため、フィードフォワードＮＮをトレーニングするための代替アルゴリズム開発に多くの研究がなされてきた。

ィードフォワードＮＮをトレーニングするための代替アルゴリズム開発には多くの研究がある。代替アルゴリズムには２つの分類がある。（１）ニューロン又はＮＮの資源の数を固定することを要するアルゴリズム、及び（２）ＮＮに対して動的にニューロンを割り当てられるもの、である。

これらのアルゴリズムのほとんどは固定サイズのＮＮを有することに依存し、結果としてバックプロパゲーションと同一の問題を経験する。公知の方法の１つは、重みの数値を見出すために遺伝子アルゴリズムを用いる。遺伝子アルゴリズムは局所的極小点の問題を避けうるが、トレーニングの時間量は限りがなく、ＮＮが小さすぎるために適切なトレーニングではない場合がある。別の代替法は、動径基底関数（ＲＢＦ、ＲａｄｉａｌＢａｓｉｓＦｕｎｃｔｉｏｎ）を用いることであり、ＮＮの学習に単一層のみを用いるが、１つのデータセットを学習するために利用可能な入力ベクトルをバックプロパゲーションよりも多く必要とする。固定サイズのＮＮに伴う問題の結果として、データセット学習のためにＮＮの成長を許容することが有用である。

フィードフォワードＮＮトレーニングアルゴリズムは、動的にニューロンを追加するものであり、データ内の特徴が確実に学習されるよう、必要なときにのみニューロンを追加する柔軟性をもたらすので、予め定義された構造の問題に対する解答として導入されてきた。従って、他のニューロンがデータセット内の特定の特徴を学習できないときにニューロンが追加され、結果としてトレーニングされたＮＮを用いて、トレーニング中にＮＮにより学習されたルールが何であるかをより効率的に確認できる。予め定義されたネットワーク構造は、ＮＮのデータ学習能力を制限する。ＮＮは重みを加えることにより学習し、これは生物学的なＮＮにおけるシナプスの重みに対応する。前述のように、フィードフォワードＮＮは生物学的なＮＮからインスピレーションを得ている。しかしながら、生物学的なＮＮは、要求されると動的に接続を生成する。

構造的な動的アルゴリズムには２つのアプローチがある。（１）ＮＮからニューロンを除去するもの。ＮＮからニューロンを除去するアプローチは２つある。（ｉ）エラー最小化プロセスにペナルティを追加するＲｕｍｅｌｈａｒｔの重み減衰等、トレーニング中に動作するもの、及び（ｉｉ）より一般的なアプローチ、すなわちＮＮからの重み除去後に大局的エラーへのインパクトを計算するＯｐｔｉｍａｌＢｒａｉｎＳｕｒｇｅｏｎ等、トレーニング後にニューロンを除去するもの。（２）Ｃａｓｃａｄｅ−ＣｏｒｒｅｌａｔｉｏｎＮｅｔｗｏｒｋｓ（以後「ＣＣＮ」）、ＤｙｎａｍｉｃＮｏｄｅＣｒｅａｔｉｏｎ（以後「ＤＮＣ」）、減数分裂及び超球面分類、例えば制限クーロンエネルギー分類（以後「ＲＣＥＣ」）及び多項式時間トレーニング超球面分類（以後「ＰＴＴＨＣｓ」）等、ＮＮにニューロンを追加するもの。

トレーニング中にＮＮにニューロンを動的に割り当てることにより動作するＮＮトレーニングアルゴリズムを提供する試みは数多くあるが、種々の広範な状況においてデータの効率的及び／又は正確な分類に対して理想的なものは１つもないと考えられている。

ＮＮが科学及び／又は産業に関心をもたれる主な理由は、データ内の関係を見出す能力のためであり、これによりデータが分類でき、次いでＮＮがトレーニング中には直面しなかった入力ベクトル又はパターンをうまく分類できる。この強力な特性は、ＮＮの「一般化」能力とも呼ばれることがある。トレーニング中にＮＮが直面しなかった入力ベクトルは、一般的には未知パターン又は未知入力ベクトルと呼ばれる。ＮＮが一般化を行うにはトレーニングが必要である。

トレーニング中、ニューロンはトレーニングのためのデータセット内の突出した特徴を学習し、これにより未知入力ベクトルの出力を「予言」できる。ＮＮが何を分類できるかは、ＮＮが何でトレーニングされたによる。

ＮＮがデータ内のノイズを処理しうるのは、ＮＮの一般化能力である。

良好な一般化を確実にするためには、ＮＮ内でトレーニングされる重みの数よりも多くの入力ベクトルが利用可能でなければならないと考えられている。

ＮＮが学習した入力ベクトル及びテストセットも同様に高率でうまく分類すると、トレーニングされたと見なされる。しかしながら、トレーニング及びＮＮをテストするために利用可能な分類されたデータセットの数はわずかに限られるので、データセットを分割する方法を考えなければならない。ＮＮをうまくトレーニングし、これによりテストも可能であることを決定するためのデータセットの分割法には多くのアプローチがある。

ＮＮがトレーニングされたか否かを決定する一般的な方法は、バックプロパゲーションでトレーニングされたＮＮを用いるときに入力ベクトルのそれぞれにエラーがいくつあるかを計算することによる。当業者であればＮＮ内のエラー確認にこれまで用いられてきたアプローチを考慮するであろうから、本願明細書においては同様の詳細な議論は示さない。

しかしながら、トレーニングアルゴリズム間の比較の根拠に用いうる属性について記載しておく。

学習アルゴリズムの比較の際に考慮する要因は数多くあるため、性能の客観測定が行われる。

典型的には、次の４つの学習アルゴリズムの属性が考慮される。（１）正確さ：これはトレーニング中に学習されるルールの信頼性である。（２）速度：これは入力ベクトルの分類に要する時間測定である。（３）学習時間：これは入力ベクトルの学習に要する時間測定である。（４）理解度：これは学習されたルールが代替方法に適用可能であることを解釈しうる能力である。このようなストラテジは定量化が困難である。

これらの属性の２つ、すなわちデータセットの学習に要する学習アルゴリズムの時間及びＮＮが学習したものの理解度が、さらに試験される。

前述したように、バックプロパゲーションでＮＮをトレーニングしてデータセットを学習することには長時間のトレーニングが必要であり、ＮＮは全くデータセットを学習しない可能性もある。固定サイズのＮＮのトレーニングにかかる時間は指数関数的であると言われてきた。この理由から、ＮＮのトレーニングにかかる時間は代替トレーニングアルゴリズム間の比較の標準となっている。理想的なトレーニングアルゴリズムは、トレーニング入力ベクトルに対する露出が最短となるであろう。最適化した状況において入力ベクトルに対する露出が最短でありうるのは、ＮＮを各入力ベクトルに１回のみ露出して十分にトレーニングすることであろう。このようなトレーニングアルゴリズムは単一パストレーニングアルゴリズムと呼ばれる。

フィードフォワードＮＮをトレーニングするアルゴリズム間の比較の基盤として一般的に用いられる４つの属性のうち、理解度は、特に数値としてトレーニングされるフィードフォワードＮＮにおいては、最も定量化できないものであり、これはトレーニング中にＮＮに学習されるルールが不可解にも数値としてコード化されているからである。トレーニング中に学習されるルールを抽出可能な方法の１つは、感度分析を実施することによる。感度分析はエラーに対する頑強性の測定として参照されうる。

ルール抽出はシステムが生成する結果におけるユーザの信頼性を与えるものとして関心をもたれ、これはＮＮが外科手術、航空交通管制、及び原子力発電所の監視等の危険な問題の領域に用いられるとき、又は天文データ等、ＮＮのトレーニングにより収集されたデータから理論が推定されるときに特に重要である。

理解度の保証に望まれるルールは、入力の同化に関する命題論理学のルールの形態である。

感度分析は、ＮＮ内に蓄積された情報を見出す１つの道筋であり、しばしばＮＮに実施される。ルールは不可解にも数値としてコード化されているので、ＮＮにより学習されたルールが何かを見出すことが望ましいく、感度分析のこのような実施はＮＮにとって貴重である。

ＮＮへの感度分析の実施に取られるアプローチは２つある。（１）重みを変更する効果、及び（２）ＮＮに対してノイズの多い入力を適用する効果である。

入力スペースが十分に既知であると、必要数のデータポイントの一般化と、以下の３つの方法により選択される入力ベクトルに対するＮＮの出力を見出すことが可能である。（１）データ空間内の全ポイントに対する出力を見出すこと。ＮＮがバイナリ（２値）データでトレーニングされていると、データセットは有限である必要がある。（２）入力スペースからデータポイントをランダムに選択すること、又は（３）入力スペース内の全てのｎ番目のデータポイント（ただしｎ＞ｌ）を選択すること。これにより、入力スペース上の分布も可能になる。

データポイントは、望ましいＮＮの反応が何であるかが既知ではない入力スペースの領域からも選択されうる。この場合、既知でないデータが与えられるときにＮＮがいかに反応するかが示される。

ここまで入力スペースの探求方法を精査してきたが、次いでＮＮ内のニューロンの重み空間を吟味する。

システムには、指定の実施を要求され、あるいは要求された実施をシステムに許容する、多くの構成要素がある。個々の構成要素が指定の実施を行うとき、その構成要素は自己の最適範囲にあると言われる。

感度分析は、システム内の構成要素に対する最適な値又は範囲から外れる効果の試験でありこの場合、最適範囲はトレーニングされたＮＮにおいて重みのためのものである。この場合には、ＮＮの挙動を変更することなく重みが変化できる範囲（又はインターバル）を見出すように、上限及び下限が確立される。感度分析の実施には、システム内の各構成要素が、他の全ての構成要素を一定にしたまま、順番に試験される。試験される構成要素は、システムの動作を決定するための、あらゆる可能な数値に設定される。このプロセス中、システムを最適に動作しうる構成要素の上限及び／又は下限が確認され、構成要素がこれらの範囲を外れるときにシステムの挙動が観察されうる。このプロセスは範囲試験と呼ばれる。上限及び下限は、制約条件として表されうる。

既知の感度分析は、ＮＮが理解可能に学習したものとなるであろう入力変数の同化に関する命題論理学のルールを生成しないと考えられている。

感度分析の目的は、ボリュームの形状を決定しうることにあり、これは構成要素の挙動を正確に画定するからである。しかしながら、既知のＮＮトレーニング法の制約によってニューロンの活性化を生じるボリュームの面を見出すことはできない。この面の試験が可能であった唯一の方法は、統計的手法によりそれぞれの重みの範囲を決定することによる。ボリュームの実際の面の知識があれば、それは重みの間に存在する関係を画定し、このことから所望であれば重みの範囲が決定されるので、理想であろう。

トレーニング中にフィードフォワードＮＮが何を学習したかを決定できることが強く望まれ、結果としてデータ内に存在する関係及びＮＮに学習された関係が何かを確認する試行に多くの研究がなされてきた。これが理解度と呼ばれるものであり、トレーニングアルゴリズムの良好さの決定に寄与する属性の１つである。現在、ＮＮからルールを抽出するために用いられる方法は、トレーニングの完了後に実施される。

見出す必要のある望ましい関係のタイプは、命題論理学により与えられる。この必要性は次のようにまとめられる。（ａ）トレーニング条件を満たす全ての数値解を定義し、これによりＮＮにおいて感度分析が容易に実施可能になるもの。（ｂ）トレーニング中にＮＮにより学習されるルールが、ＮＮにより読み取られるデータセットを容易に分類できるようにするもの。

種々の動的アルゴリズムに関し、上述の公知のトレーニング方法のうちで、ＮＮからのルールの直接読み取りを許容することに近い唯一のものは超球面分類であり、これは領域間にＯＲの関係を形成する。従って、入力スペース内の領域はあるカテゴリーに属するか又はそうでないため、領域がＡＮＤで結合されることはない。関係が領域内に属さないならば、活性化すべきでないニューロンの活性化を抑制するために球面が追加されるので、入力スペースを表すにはＯＲが適切である。入力スペースが複雑化すると超球面を定義する半径は０になる傾向があり、究極的には各入力ベクトルに超球面が追加される。中間層内のニューロンにより定義される領域は入力スペース内の領域に近いものであるが、画定するものではなく、最悪の場合を除いてはデータポイントと同数の超球面が存在する。ＰＴＴＨＣｓは入力スペースの範囲の改良を意図したものであり、これにより計算の複雑化という代償を払っても一般化の性能を向上するもので、従って非常に低速である。

ＣＣＮ、減数分裂及びＤＮＣは全て数値として重みをトレーニングするもので、このためトレーニング中にデータ内にいかなる関係が見出されたかを決定することは簡単ではない。

これらのアルゴリズムは、一般化に関する性能の成功の程度は様々であるが、全て動的にニューロンをＮＮに対して割り当てるものである。アルゴリズムによっては、あるデータセットについて他のものよりも良好で、超球面分類を除く全ては重み空間の境界条件の情報を失うので、ルール抽出に対して有用ではない。

アルゴリズムによっては、アニーリングに基づき、バックプロパゲーションよりもさらに低速な傾向のある減数分裂アルゴリズムのように、あるデータセットは他のものより迅速に学習するものもある。

ＣＣＮ及びＤＮＣは特定のデータセットに対してトレーニング時間が早いという報告があるが、これらは単一パスのアルゴリズムではなく、両者ともＮＮにニューロンが追加される前にシステム内のエラー量を低減するための反復に依存する。

これまでに、単一パスで学習し、要求通りにＮＮにニューロンも追加し、ＮＮから直接のルールの読み取りを許容する、ＮＮトレーニングアルゴリズムは存在していない。

このため、本発明は、ニューロンが要求通りにＮＮに割り当てられてデータセットを学習しうる意味において、関係性があり動的であるＮＮトレーニング方法を提供することを目的とする。

また、本発明は、単一バスでデータセットを学習しうるＮＮトレーニング方法を提供することを目的とする。

さらに、本発明はルールがＮＮから直接に読み取られることを許容するＮＮトレーニング方法を提供することを目的とする。

本発明の一態様によれば、人工ＮＮをトレーニングする方法が提供され、当該方法は、（ｉ）トレーニングするＮＮの出力を選択し、ＮＮのニューロンの出力を選択した出力のためのＮＮの入力層に接続することによりＮＮを初期化するステップ；（ｉｉ）ＮＮに学習させるデータセットを用意するステップ；並びに、（ｉｉｉ）用意したデータセットの入力ベクトルをＮＮの第１の中間層に、又はＮＮに中間層がなければＮＮの出力層に加えることにより、用意したデータセットをＮＮに加えて学習させるステップ、及び、ＮＮの各層における選択された出力のための少なくとも１のニューロンが、入力ベクトルに対する関連付けられる出力の生成を学習しうるか否かを決定するステップを含んでなり、ここに：ＮＮの各層における選択された出力が入力ベクトルに対する関連付けられた出力の生成を学習できれば、及び学習するために用意したデータセットよりも多くの入力ベクトルが存在するならば、次の入力ベクトルに対してステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングすべき出力がまだあるならばＮＮの次の出力に対してステップ（ｉ）から（ｉｉｉ）を繰り返し；ＮＮの選択された出力に対する中間層のニューロンが入力ベクトルに対する関連付けられた出力の生成を学習できなければ、選択された出力に対してその層の全ての他のニューロンが学習できなかった関連付けられた出力を学習するためにその層に新規ニューロンが追加され、学習すべきデータセットの入力ベクトルがまだあるならばステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングすべき出力がまだあるならばＮＮの次の出力に対してステップ（ｉ）から（ｉｉｉ）を繰り返し；ＮＮの選択された出力に対する出力ニューロンが入力ベクトルに対する関連付けられた出力の生成を学習できなければ、その出力ニューロンはＮＮの中間層のニューロンとなり、出力ニューロンが学習できなかった関連付けられた出力を学習するために新規ニューロンがこの中間層に追加され、選択された出力に対してＮＮに新規ニューロンが追加され、学習すべきデータセットの入力ベクトルがまだあるならばステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングすべき出力がまだあるならばＮＮの次の出力に対してステップ（ｉ）から（ｉｉｉ）を繰り返す。

本発明のさらなる態様によれば、人工ＮＮをトレーニングするための方法が提供され、当該方法は、（ｉ）ＮＮにより学習されるデータセットを準備するステップ；（ｉｉ）トレーニングするＮＮの出力を選択することによりＮＮを初期化し、選択した出力に対してＮＮの出力ニューロンをＮＮの入力層の入力ニューロンに接続するステップ；（ｉｉｉ）準備したデータセットの入力ベクトルをＮＮの第１の中間層に、又はＮＮに中間層がなければＮＮの出力層に加えることにより準備したデータセットが学習されるようＮＮに加えるステップ、並びに、ＮＮの各層内に選択された出力に対する少なくとも１のニューロンが入力ベクトルに関連付けられた出力の生成を学習しうるか否かを決定するステップを含んでなり、ここに、ＮＮの各層内において選択された出力に対する少なくとも１のニューロンが入力ベクトルに関連付けられた出力の生成を学習しうるならば、及び準備された学習データセットの入力ベクトルがまだあるならば、次の入力ベクトルに対してステップ（ｉｉｉ）を繰り返し、さもなければトレーニングする出力がまだあるならばＮＮの次の出力に対してステップ（ｉｉ）及び（ｉｉｉ）を繰り返し；ＮＮの選択された出力に対する中間層内に入力ベクトルに関連付けられた出力の生成を学習しうるニューロンがなければ、選択された出力に対するその層のいずれのニューロンによっても学習され得ない関連付けられた出力を学習するためにその層に新しいニューロンが追加され、並びに、学習するデータセットがまだあるならば次の入力ベクトルに対してステップ（ｉｉｉ）を繰り返し、さもなければトレーニングする出力がまだあるならばＮＮの次の出力に対してステップ（ｉｉ）及び（ｉｉｉ）を繰り返し；ＮＮの選択された出力に対する出力ニューロンが入力ベクトルに関連付けられた出力の生成を学習できなければ、その出力ニューロンはＮＮの中間層のニューロンとなり、出力ニューロンによって学習されなかった関連付けられた出力を学習するためにこの中間層に新しいニューロンが追加され、選択された出力に対してＮＮに新しい出力ニューロンが追加され、並びに、学習すべきデータセットの入力ベクトルがまだあるならばステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングする出力がまだあるならばＮＮの次の出力に対してステップ（ｉｉ）及び（ｉｉｉ）を繰り返す。

上述にて定義のＮＮをトレーニングするための方法の具体的で好適な実施形態において、ＮＮのニューロンは線形閾値ゲート（ＬＴＧｓ）である。

好適には、準備したデータセットを学習すべきＮＮに加える前記ステップ（ｉｉｉ）において、ＬＴＧが入力ベクトルに対して関連付けられる出力の生成を学べるか否かを決定することは、重みとＬＴＧの閾値との関係が、ＬＴＧが以前に学んだものを解答とするか否かを決定することである。具体的で好適な実施形態において、前記関係は制約条件であり、入力ベクトル及びＬＴＧの重みベクトルは、ニューラルネットワークの選択された出力に基づくＬＴＧの閾値との関係を形成する。具体的で好適な実施形態において、制約条件の学習は、ＬＴＧの制約条件セットに制約条件を追加しうることである。ＬＴＧの制約条件セットに制約条件を追加しうるためには、全ての制約条件に解答が存在しなければならない。

好適には、ＮＮを初期化するステップは、さらに、出力ＬＴＧの制約条件セットが空となるように出力ＬＴＧの制約条件セットをクリアするステップを含む。

好適には、ＮＮにより学習されるデータセットを準備するステップは、少なくとも以下のステップを含み、それぞれは任意の順番で実施されうる。データセットがトレーニングのためにＮＮに提示される前に、データセットを所定のデータフォーマットに変換するステップ；データセットがトレーニングのためにＮＮに提示される前に、データセット内に何らかの不一致が存在するか否かを決定するステップ；データセットがトレーニングのためにＮＮに提示される前にデータセットを並び替えるステップ；ゼロ入力ベクトルがデータセット内に使用可能であるか否かを決定するステップであって、ゼロ入力ベクトルがデータセット内に使用可能であればゼロ入力ベクトルが最初にトレーニングされるためにＮＮに提示されるようデータセットを順序づけるステップ。データセットがトレーニングのためにＮＮに提示される前にデータセットを所定のデータフォーマットに変換する前記ステップの好適な実施形態において、当該所定のデータフォーマットはバイナリ又は浮動小数点データフォーマットである。好適には、ＮＮにデータセットが提示される前にデータセットに何らかの不一致があるか否かを決定する前記ステップは、異なる出力を生じる２以上の同一の入力ベクトルがあるか否かを決定することを含む。データセットに何らかの不一致があるか否かを決定する前記ステップの具体的で好適な実施形態において、異なる出力を生じる２以上の同一の入力ベクトルがあるか否かが決定されるならば、ただ１つの入力ベクトルが用いられる。好適には、データセットがトレーニングのためにＮＮに提示される前に並び替えられる前記ステップは、データセットの入力ベクトルを、１を出力するもの及び０を出力するものの２つのセットに並び替えるステップ、及び、２つのセットの一方を最初にトレーニングするために選択するステップ、自己組織化マップ（ＳＯＭ）によりデータを並び替えるステップ、及び／又は任意の他の適切な方法を用いてデータを並び替えるステップ、を含んでなる。ソートしたデータから、データがトレーニングのためにＮＮに提示される前に、各入力層に対して単一のリストが生成されることも好適である。

具体的で好適な実施形態において、ステップ（ｉｉｉ）に係る層内のいかなる他のＬＴＧによっても学習され得ない制約条件を学習するために新規なＬＴＧが当該層に追加されるときに、新規なＬＴＧはＮＮの選択された出力に寄与する次層内の全てのＬＴＧに接続され、新規なＬＴＧからの入力を受け取る次層内のＬＴＧの制約条件セットは新規なＬＴＧからの入力を受け付けのために更新され；新規なＬＴＧを有する層がＮＮの第１層でないならば、新規なＬＴＧはＮＮの選択された出力に寄与する先行層内の全てのＬＴＧからの入力に接続されてこれを受信し；新規なＬＴＧの制約条件セットはその層内の以前の最後のＬＴＧの改変された制約条件セットのコピー及びその層内のいかなる他のＬＴＧによっても学習され得なかった制約条件を含むように更新される。

具体的で好適な実施形態において、ステップ（ｉｉｉ）に係るＮＮに新規な出力ＬＴＧが追加されるときに、新規な出力ＬＴＧは中間層内のＬＴＧからの入力に接続されてこれを受信し；中間層がＮＮの第１層ではないならば、中間層内の新規な出力ＬＴＧはＮＮの選択された出力に寄与する先行層内の全てのＬＴＧに接続されてこれを受信し；中間層に追加された新規なＬＴＧの制約条件セットはその層内の以前の最後のＬＴＧの改変された制約条件セットのコピー及びその層内のいかなる他のＬＴＧによっても学習され得なかった制約条件を含むように更新され；新規な出力ＬＴＧは以前の出力ＬＴＧによって学習され得なかったものに従って所定の論理関係内にその入力を結合する。好適には、ステップ（ｉｉｉ）に従って新たな出力ＬＴＧがＮＮに追加されるときに、この新たな出力ＬＴＧへの入力間に生じる論理関係は、論理ＯＲ、論理ＡＮＤ又は任意の他の適切な論理関係である。この具体的で好適な実施形態においては、以前の出力ＬＴＧによって学び得なかった入力ベクトルが出力１を生成するならば論理ＯＲが用いられ、以前の出力ＬＴＧによって学び得なかった入力ベクトルが出力０を生成するならば論理ＡＮＤが用いられる。

さらにまた本発明の態様によれば、トレーニング中にＮＮの層内に新規なニューロンを追加するための方法が提供され、この新規なニューロンは、選択された出力に対するその層内の他のニューロンが学習されるデータセットの入力ベクトルに関連付けられた関係を学習しえないときにＮＮに追加され、当該方法は、その層内のニューラルネットワークの選択された出力に寄与する以前の最後のニューロンからの改変された全てのデータのコピー及びその層内のいかなる他のニューロンによっても学習され得なかった関係で前記新規なニューロンを更新するステップと、新規なニューロンからの入力を受け取るよう出力ニューロンを更新するステップとを含んでなる。

具体的で好適な実施形態において、ニューロンはＬＴＧｓである。

好適には当該関係は重みとＬＴＧの閾値との関係である。具体的で好適な実施形態において、当該関係は制約条件であり、ここにデータセットの入力ベクトル及びＬＴＧの重みベクトルはＮＮの出力に基づくＬＴＧの閾値との関係を形成する。

さらにまた本発明の態様によれば、バイナリフォーマットデータセット以外のデータセットをＮＮにより学習されるバイナリフォーマットデータセットに変換するための方法が提供され、当該方法は、（ｉ）データセットの各属性をバイナリで提示するためのビット数を別個に決定するステップ、（ｉｉ）計算式：範囲＝（最大−最小）＋１を用いてデータセットの属性の範囲を計算するステップ、並びにステップ（ｉ）で決定したビット数を用いて前記データセットの属性の範囲をコード化するステップを含んでなる。

好適には、データセットをバイナリフォーマットデータセットに変換するステップは、上述にて定義のＮＮをトレーニングするための方法のデータ準備ステップ（ステップ（ｉｉ）又は（ｉ））に従って用いられる。

さらにまた本発明の態様によれば、ＮＮによりトレーニングされるデータセットを並び替える方法が提供され、当該方法は、データセットの入力ベクトルを２の群にソートするステップ、１を出力するものを０を出力するものと分離するステップ、並びに、ニューラルネットワークにより最初に学ばれる、前記２の群の１を選択するステップを含んでなる。

さらなる本発明の態様によれば、入力ベクトルがニューロンによって既知であるか未知であるかを決定する方法が提供され、当該方法は、入力ベクトルから制約条件及びその補空間を構築するステップ；制約条件及び補空間を交互にニューロンの制約条件セットに追加するステップ；いずれかの場合に解があるか否かを決定するために制約条件セットを試験するステップであって、制約条件又はその補空間に解がなければ入力ベクトルはニューロンに既知であることが決定され、制約条件及びその補空間が交互に制約条件セットに追加されるときに解があるならば、入力ベクトルはニューロンによって既知ではないことが決定されるステップ、を含んでなる。

好適には、当該制約条件セットは、ＬＴＧニューロンから構築されるＮＮのニューロンの制約条件セットである。上述にて定義のＮＮをトレーニングするための方法に従って、当該方法がトレーニングされるＮＮの未知入力ベクトルの出力を決定するために用いられることも好適である。具体的で好適な実施形態において、当該方法は、本発明のＮＮをトレーニングするための方法に従って、トレーニングされるＮＮのＬＴＧの未知入力ベクトルを決定するために用いられ、未知入力ベクトルのデフォルト出力はデータセットに依存して１又は０である。

さらにまた本発明の態様によれば、制約条件セットの最小活性化体積（ＭＡＶ）を決定するための方法が提供され、当該方法は、（ｉ）制約条件セット内に残る制約条件を不変にしたまま制約条件セットからそれぞれの制約条件を一度に１つ除去するステップ；（ｉｉ）除去した制約条件セットの補空間を制約条件セットに追加するステップ；（ｉｉｉ）解があるか否かを調べるために新規な制約条件セットをテストするステップを含んでなり、ここに、解があるならば、ＭＡＶを定義する制約条件セットに最初の制約条件が追加され、制約条件セットに追加された補空間は除去され、最初の制約条件が制約条件セットに戻され、制約条件セット内にまだ制約条件があるならば、ステップ（ｉ）から（ｉｉｉ）を繰り返し、さもなければＭＡＶはＭＡＶを定義する制約条件セットの範囲内に保持される制約条件のセットとし；解がないならば、制約条件セットに追加された制約条件の補空間は除去され、最初の制約条件が制約条件セットに戻され、制約条件セットにテストする制約条件がまだあるならば、ステップ（ｉ）から（ｉｉｉ）を繰り返し、さもなければＭＡＶはＭＡＶを定義する制約条件セットの範囲内に保持される制約条件のセットとする。

好適には、当該制約条件セットは、ＬＴＧニューロンから構築されるＮＮのニューロンの制約条件セットである。具体的で好適な実施形態において、当該方法は上述にて定義のトレーニング法に従ってトレーニングされるＮＮにおいて、各ＬＴＧに対するＭＡＶを決定するために用いられる。

（本発明の利点）
一態様において、本発明はニューロンをトレーニングするための新規なアプローチを提供する。このアプローチは、ニューロンへの入力接続と出力との関係を定義し、これによりルール抽出のタスクを単純にする。本発明に係るニューロンをトレーニングする方法は、従来の方法でトレーニングされたニューロンに対して、一般化及び学習されるデータの再呼び出しを可能にし、さらにニューロンが入力ベクトルを学習できるかできないかを決定するための単純なテストを用いる。このテストは、１以上のニューロンをＮＮに追加してデータセット内の特徴を学習させるための自然な基準を形成する。ニューロンは中間層に割り当てられるか、又は、データセットの複雑さに従って新規な出力層が追加されうる。

従って、本発明のＮＮトレーニング方法はＤｙｎａｍｉｃａｌＲｅｌａｔｉｏｎａｌ（以後、「ＤＲ」）トレーニング法と呼びうる。

本発明のＤＲトレーニング法に従ってトレーニングされたＮＮは、入力ベクトルの学習が可能であるか否か、ニューロンが要求されたようにのみＮＮに動的に割り当てられうるか否かをテストし決定しうるので、データは単一パスでＮＮに提示されうる。

フィードフォワードＮＮをトレーニングすることに対する伝統的なアプローチでは固定サイズのＮＮを要し、ＮＮがデータセットを学習するために必要なニューロンの中間層の数、及び各中間層内のニューロン数を推定する必要がある。ＮＮのサイズを推定することは、小さすぎるとデータセットの学習ができず、大きすぎるとＮＮの性能を低下する場合があるため、大きな問題である。ＮＮのサイズ推定の問題への最良の解決は、要求された場合にのみ、要求通りにＮＮに動的にニューロンを割り当てるトレーニング方法を用いることである。すなわち、ＮＮへの動的なニューロンの割り当てにより、固定サイズのＮＮに係る問題は克服される。本発明のＤＲトレーニング方法によれば、ＮＮが入力ベクトルを学習できない場合にのみ、ＮＮにニューロンを割り当てうる。新規なニューロンは、ＮＮに割り当てられるとＮＮ内にすでにあるニューロンと命題論理学の関係を形成し、これにより本発明のトレーニング法は関係性を有する。

各入力ベクトルは、ＮＮに対して提示されると学習される。これは、本発明のＤＲトレーニング方法は単一パスにおいてデータを学習しうることを意味する。本発明に従ってニューロンをトレーニングする方法は、データセットについての情報が学習されることを可能にし、ＮＮへのニューロン追加を発生する入力ベクトルも同定し、どの入力ベクトルがデータセットの分類に対して本質的であるかを示す。

本発明の方法は、入力スペース内の鮮明な境界も提供する一方、フィードフォワードＮＮをトレーニングする他のアルゴリズムの利点の、全てではないならば、ほとんどをも提供する。

本発明のさらなる態様によれば、データがトレーニングのためにＮＮに提示される前に、適切なフォーマットにデータを変換する方法が提供される。トレーニング前のデータ変換には多くの利点が伴う。１つの利点は、データ変換は、データを正確にコード化する一方で、トレーニングのためにＮＮに提示される入力数を最小化することである。本発明のＤＲトレーニング方法においては、ＮＮに提示される入力数の最小化によりトレーニング時間はより早くなり、入力ベクトルが毎回ＮＮにより学習されると仮定すると、ＮＮにより学習が可能であるか否かを決定するために制約条件がテストされなければならない。

本発明のさらなる態様において、トレーニングのためにＮＮに提示される前にデータを並び替える方法が提供される。トレーニング前に予めデータを並び替えることは、データ分類の効率を改善する。予め並び替えることは、好適には、トレーニングしたＮＮが性能に乏しい状況に用いられる。予め並び替えることは、ＮＮにより学習されるデータセットが十分に複雑で、ＮＮにニューロンの追加が求められる時には常に勧められる。

トレーニング前に適切なフォーマットにデータを変換する方法、及びデータがトレーニングのためにＮＮに提示される前にデータを並び替える方法は、いずれも全てのＮＮトレーニング方法に有用であると考えられる。このため、本発明のこれらの態様は独立しており、本発明のＤＲトレーニング方法に限定するものではない。

テスト中、ＮＮに学習されるデータが１００％の正確さで再呼び出ししうることは顕著な利点である。本発明のさらなる態様においては、ＮＮが未知の入力ベクトルに対する出力が何であるかを知っているか否かを決定するために用いることが可能で、どの入力ベクトルが未知であるかを明確に同定することが可能な方法が提供される。従って、ＮＮはデータセットの特徴が既知ではない場合にこれを示すことが可能で、どの入力ベクトルに追加のトレーニングが必要であるかを同定することが可能である。

トレーニングされたＮＮに感度分析を実施する目的は、ニューロン及びこれによりＮＮが何を学習したかを決定するための重みの試行に取り入れうる数値範囲の決定を試みることであった。

本発明のＤＲトレーニング方法の顕著な利点は、ＮＮのトレーニング後には、重み空間における範囲の境界が決定しうることである。本発明のさらなる態様においては、単にそれぞれの重みが取り得る数値の範囲よりも、むしろ実際の重み空間の面を見出せる方法が提供される。この点から、ニューロン及びこれによりＮＮがいかなるルールを学習したが決定されうる。

本発明のＤＲトレーニング法は、従来のフィードフォワードＮＮトレーニング方法の利点及び有用性の、全てではないならばほとんどを保存し、さらにＮＮが固定サイズであることを要する制約の大部分を取り除き、単一パスでの学習において局所的最小点の問題も経験しない。本発明の他の全ての態様に係る本発明のＤＲトレーニング法じゃフィードフォワードＮＮを用いる全てのアプリケーションに対して極めて有用である。人工ＮＮの目標は、生物学的な学習の模倣であるが、公知のシステムはこのゴールに到達できていなかった。本発明のＤＲトレーニング法は、ニューロサイエンス、ニューロバイオロジ、ニューロンの生物学的モデリング、及びおそらくは細胞生物学に関連する、生物類似の学習ストラテジを提供するものと確信する。

ルール抽出方法は、実際の重み空間の面を決定する方法であり、入力ベクトルが既知であるか否かを決定する本発明の方法は、ＮＮに限定するものではない。これらの方法は、制約充足問題（以後、「ＣＳＰ」）、最適化又はオペレーショナルリサーチ型の問題、あるいはＤＮＡ等のデータストリングの分析のような、制約条件のシステムを用いる他分野においても有用であろう。そのため、本発明のこれらの態様は独立しており、本発明のＤＲトレーニング法に限定するものではない。最終的に、本発明のＤＲトレーニング法はＮＮからのルール抽出を可能にし、ＮＮが学習したもの及びＮＮにより生成した出力における信頼性が得られる。このようにして、本発明の方法はフィードフォワードＮＮを用いるシステムの信頼性を向上する。

以下、本発明の詳細な好適な構成を添付の図面を参照して説明する。以下の記載では、ＬＴＧニューロンモデルは、好適な実施形態としてのみ用いられる。利用可能なニューロンモデルは他にも多くあり、本発明のＤＲトレーニング方法又はアルゴリズムに係るＮＮの構成に用いうることは理解すべきである。従って、本発明は、添付の図面に示す特定のニューロンモデルに限定されるものではない。従って、以下の説明を通して「ＬＴＧ」又は「ＬＴＧｓ（複数）」という表記は、単に「任意の適切なニューロンモデル」を意味するものとして解されるべきである。

本発明のＤＲトレーニングアルゴリズムは、本発明のその他の様態と共に、以下に説明するように、任意の適切なコンピュータソフトウェア及び／又はハードウェアを用いて実装されてもよい。従って、本発明は、特定の実用上の実装に限定されるものではない。本発明のＤＲトレーニングアルゴリズムの性能評価の目的で、またアルゴリズム及び本発明のその他の様態が予想通りに動作することを証明する実験を行うために、アルゴリズムは、コードとしてプログラムされコンピュータ上のソフトウェアを用いて実装された。

ＮＮは、様々な形状で互いに接続されてネットワークを構成するニューロンの組み合わせである。２入力フィードフォワードＮＮ１０の基本構造を、例として模式的に図１に示す。ＮＮ１０は、第１又は入力層１６に設けられた２つの入力ニューロン１２、１４を備える。入力ニューロン１２、１４はそれぞれ、その出力を中間層２４に設けられた３つのニューロン１８、２０、２２へ送る。次に、中間層ニューロン１８、２０、２２はそれぞれ、その出力を出力層２８に設けられた１つのニューロン２６へ送る。

ＮＮはデータセット内の関係の判定に用いられる。ＮＮがトレーニングされる前に、利用可能なデータが、トレーニングに利用されるものとテストに利用されるものの２つのセットに分割される。トレーニングセットは、ＮＮのトレーニングに用いられる。テストデータセットは、ＮＮのトレーニング後まで保存する。テストデータセットは、トレーニング後、ＮＮが十分にデータを学習したかどうか、又はＮＮがデータのうちある様態を欠いていないかどうかを判定するためにＮＮに送られる。以下の説明を通じて、「ＮＮをトレーニングする」又は「トレーニング」という表記は全て、トレーニングデータセットでのＮＮのトレーニングについて述べるものとする。

ＮＮトレーニングアルゴリズムの多くは、トレーニング条件を満たそうとする１つの数値を見つけ、ＮＮの所望の出力と実際の出力との間の誤差に基づいて重みの値を繰り返し修正することにより学習する。

本発明のＤＲトレーニングアルゴリズムは、ニューロンのトレーニングに種々のアプローチをとる。このトレーニングアルゴリズムは、トレーニング条件を満足する重みについて単一の値を見つけることには基づいていない。その代わりに、本発明のＤＲトレーニングアルゴリズムは、トレーニング条件を満たすことになる重みを全て見つける。このため、入力ベクトルは、入力重みを閾値に関連付ける制約条件に変換されることが好ましい。各ニューロンは、互いに相互関係を形成する入力重みのセット及びトレーニング条件を満たす閾値を有している。ニューロンに制約条件を加えることにより、重み空間の領域にニューロンを活性化させる別の制約条件が置かれる。

本発明は制約条件に変換される入力ベクトルに関連して説明されるが、言うまでも無く、本発明は制約条件の使用にのみ限定されるものではない。制約条件は、入力重みと閾値との間の関係を表すにすぎない。同様の関係を他の方法で、例えば電子的又は磁気的に表すこともでき、そのため、本発明は与えられた具体例に限定されるものではない。

このニューロンのトレーニング方法を用いることにより、ＮＮにニューロンを動的に追加することによってＮＮを形成することができる。この方法は、ＮＮへのニューロン追加について厳密な基準を設けており、ニューロンを先に述べた標準的なフィードフォワードトポロジに追加することができる。

このニューロンのトレーニング方法により、データセットは単一のパスで学習することができる。また、制約条件は各ニューロンの重みと閾値との間の関係を定義し、ニューロンがＮＮに追加されるときは前置詞的論理に従って追加されるため、トレーニング中に学習された規則の抽出は簡単になる。

ＮＮが本発明のＤＲトレーニングアルゴリズムでデータセットを学習するには、一連のプロセスに取り組むことが望ましい。各データセットは固有であり、多数の出力を有し、これはデータセットに基づいている。このシーケンスを簡潔にまとめると以下のようになる。（１）ＮＮの初期化。（２）ＮＮにより学習されるデータの準備。（３）ＮＮにより学習されるデータを加える。（４）必要に応じてＮＮにニューロンの割当て。

すでに述べたように、本発明の好適な実施形態に従って用いられるニューロンは、ＬＴＧすなわちマカロック−ピッツニューロンであり、制約条件セットを含むよう修正されている。ＬＴＧの初期化フェーズ（１）は、入力ニューロンの出力ニューロンへの接続と、最初にトレーニングされることになる出力の選択とを伴う。

データ準備フェーズ（２）は、好ましくは、ＮＮにより学習されるデータを準備する多数のステップを含み、以下の点が指摘される。（ｉ）ＮＮに提示されるデータがトレーニングに適した適切なフォーマットでない場合、ＮＮに提示される前にデータセットが適切なフォーマットに変換されることが好ましい。本発明の好適な実施形態によれば、適切なデータフォーマットはバイナリデータである。従って、本発明のＤＲトレーニング方法でトレーニングされるデータセットは、ＮＮへの提示前にバイナリ形式に変換される。任意の適切なデータのデジタル化方法を用いることができる。本発明のさらなる様態によれば、適切なデータのデジタル化方法については後の実験結果を説明する部分で、本願明細書において説明する。バイナリデータは好適なトレーニングデータフォーマットとして提示されるが、本発明のＤＲトレーニングアルゴリズムは、例えば浮動小数点データ等のその他のデータフォーマットでも機能することは言うまでもなく、そのため、本発明は与えられた具体例に限定されると解釈するべきものではない。（ｉｉ）本発明のＤＲトレーニングアルゴリズムは単一パスアルゴリズムであるため、入力ベクトルの提示順にある程度の注意を払うことが好ましいが、これはＮＮが学習する規則とどれぐらいうまく動作するかに影響を与えることがあるためである。検討の価値があるとはいえ、本発明のＤＲトレーニングアルゴリズムはどの入力ベクトルがニューロンをＮＮに追加させるかを検知し報告することができるＮＮを構築するため、入力ベクトルの提示順は不可欠というわけではない。このステップは、トレーニングされたＮＮの動作がよくない場合に用いられることが好ましい。このステップは、データセットがＮＮへのＬＴＧ追加が必要とされるに十分複雑である場合には常に大いに推奨される。

次のフェーズ（３）では、ＮＮ入力にデータを加え、データが重みと学習されるＬＴＧの閾値との間の関係である制約条件に変換されることが好ましい。中間層がある場合には、ＬＴＧの出力は次の層のＬＴＧへの入力になり、今度は次の層のＬＴＧは、受信する入力ベクトルをうまくいくならば学習しうる制約条件へと変形する。このプロセスはＮＮが所望の出力を生成するまで繰り返される。これがＮＮにより学習可能な場合には、次の入力ベクトルでトレーニングが継続され、そうでなければプロセスは次のＮＮに１つ以上のＬＴＧを追加するフェーズ（４）に移る。

入力ベクトルの学習ができない場合の考えられるシナリオには、少なくとも２つある。これらは、以下の通りである。（ｉ）中間層が入力ベクトルを学習できなかった場合、新たなＬＴＧが中間層に追加される。（ｉｉ）出力層がその入力ベクトルを学習できなかった場合、新たな層がＮＮに追加され、古い出力が中間層のＬＴＧとなる。そして、別のＬＴＧがこの新たな中間層に追加されて古い出力ユニットが学習できなかったことを学習し、これらのＬＴＧはいずれも出力を組み合わせる新たな出力に接続される。

ＬＴＧがＮＮに割り当てられた後は、以下のことが重要である。（ａ）新たなＬＴＧがＮＮ内の既存のＬＴＧに接続される。（ｂ）新たに追加されたＬＴＧの制約条件セットが空に設定される、又は以前の最後のＬＴＧからの制約条件が新たなＬＴＧにコピーされる。（ｃ）新たなＬＴＧの追加によりＮＮが以前に学習したことを忘れることがないようにする。これは単一パストレーニングアルゴリズムであるので、新たに追加されたＬＴＧがＮＮが以前に学習したことを生成することができるようにすることが不可欠である。

本発明のＤＲトレーニングアルゴリズムは（１）〜（４）の一連のプロセスとの関連で提示されるが、これらのステップ又は少なくともこれらのステップそれぞれの様態が提示された以外の順序で行われてもよいことは言うまでもない。例えば、ステップ（１）及び（２）の場合、利用可能なデータセットは、トレーニングされるＮＮの出力が選択される前に適切なデータフォーマットに変換されてもよい（図２参照）。同様に、ステップ（４）の場合、新たな中間層ＬＴＧは、新たな出力ＬＴＧが追加される前にＮＮに追加されてもよいし、その逆でもよい。従って、本発明のＤＲトレーニングアルゴリズムは、提示されるステップ又はシーケンスの特定の順序に限定されるものではない。

以下、本発明のＤＲトレーニングアルゴリズムの好適な実施形態、及び本発明のその他の様態を、上記で概観したフェーズに従って提示する。（１）ＮＮの初期化。（２）データの準備。（３）学習されるデータのＮＮへの提示。（４）必要に応じて、最終的にＬＴＧの割当て。

（ＤＲトレーニングアルゴリズムの説明）
図２に、本発明の好適な実施形態に従って行われるＮＮトレーニング方法すなわちアルゴリズム３０のフロー図を示す。

トレーニングプロセスはＬＴＧの入力層で始まる。以下、ＮＮにＬＴＧを動的に追加するＤＲトレーニングアルゴリズム３０をまとめて、以下のステップで提示する。

（１）ＮＮの初期化
ＤＲトレーニングアルゴリズム３０によるＮＮの初期化は、一般に、図２のブロック３２により示される。ブロック３２において、ＮＮを初期化するプロセスは、以下のステップを含むことが好ましい。
ａ）出力ベクトルの各次元が個別にトレーニングされる。学習される次元Ｏ_ｊを選択する。
ｂ）出力ＬＴＧＯ_ｊの制約条件セットを空に設定する。
ｃ）出力ＬＴＧＯ_ｊを入力層に完全に接続する。

（２）ＮＮにより学習されるデータの準備
ＤＲトレーニングアルゴリズム３０によるＮＮにより学習されるデータの準備のプロセスは、一般に、図２のブロック３１及び３３より示される。ＮＮにより学習されるデータの準備プロセスは、少なくとも以下のステップを含むことが好ましい。
ａ）本発明のＤＲトレーニングアルゴリズム３０はバイナリデータで動作することが好ましいため、図２のブロック３１に示すようにデータセットをトレーニング前にバイナリに変換することが必要となることがある。本発明のさらなる様態による各種のデータセットをトレーニングのためにＮＮに提示する前にバイナリに変換するための適した技術についての考察は、後で述べる。言うまでも無く、本発明のＤＲトレーニングアルゴリズム３０に従ってその他のデータフォーマットを用いることもでき、そのため、ブロック３１は、単に利用可能なデータセットの任意の適切なデータフォーマットへの変換を言うものである。
ｂ）トレーニングセット内の矛盾したデータの有無を判定する。矛盾したデータは、異なる出力を生成する２つ以上の同一の入力ベクトルｘ_ｉが存在するときに生じる。矛盾したデータの例としては、ｘ_ｉ→０及びｘ_ｉ→１であって、データセット中に同じ入力ベクトルが複数回表れ、異なる出力を生成するというものである。矛盾がある場合には、入力ベクトルｘ_ｉの１つのみを用いるべきである。ＮＮはこのデータを学習することができるが、ＮＮはうまく動作しないことになる。ＮＮが矛盾したデータを学習する場合には、全ての入力について０を出力することになる。このような状況を回避するために、矛盾した出力の有無を判定するための入力ベクトルのチェックを行うことが好適である。このトレーニングセット内の矛盾したデータの有無を判定するプロセスは、図２には特に示されていないが、ブロック３１又は３３の一部として同様の動作を行うことができる。
ｃ）学習されるデータは、図２のブロック３３に示すように、任意の適切なソート技術を用いてソートされることが好ましい。ＤＲトレーニングアルゴリズム３０はデータをランダムに学習することができるが、結果として生じるＮＮは効率的にデータを分類するとは限らない。従って、好適なソート技術は以下を含む。
・入力ベクトルを２つのグループにソートし、１を出力するものをその出力について０を生成するものから分離する。入力ベクトルを１を出力するものと０を出力するものの２つのセットに分離する。これら２つのセットのいずれかを最初に学習することができる。又は、
・ＳＯＭ（自己組織化マップ）でデータをソートする。

すでに検討したように、本発明は特定のソート技法に限定されるものではない。
ｄ）入力ベクトルのセットから１つのリストが生成される。このステップは、ブロック３３により表されるソートステップの一部である。
ｅ）学習対象のデータセットに０入力ベクトルが利用可能か否かを判定する。この０ベクトルは全ての入力次元を０に設定する。この入力ベクトルが利用可能である場合、この入力ベクトルをその出力にかかわらず最初に学習するものとしてソートする。０ベクトルがトレーニングに利用可能であり、その出力にかかわらず最初に学習されることが好適であるが、利用可能でない場合には、重要ではない。ここでも、このステップはブロック３３により表されるソートステップの一部である。

（３）ＮＮにより学習されるデータを加える
ＤＲトレーニングアルゴリズム３０に従ってＮＮにより学習されるデータを加えるプロセスは、概ね、図２のブロック３４により表される。ブロック３４において、ＮＮの出力について各パターン（又は入力ベクトル及び関連付けられた出力の組み合わせ）が、これ以上学習するものがなくなるまで、学習されることがわかる。ＤＲトレーニングアルゴリズム３０に従って出力に対して単一のパターンを学習するプロセス４０の好適な実施形態を図３に示す。

プロセス４０は、ブロック４１においてＮＮの第１層で始まる。そして、トレーニングセット内の各入力ベクトルについて、以下が行われる。
ａ）ブロック４２で、入力層に加えられた入力ベクトルに基づく制約条件が次の層の各ＬＴＧについて構築される。制約条件を生成するために、（ＬＴＧを定義した箇所ですでに検討した）ＬＴＧの定義が用いられ、入力ベクトルＸ_ｉ及びＬＴＧの重みベクトルｗがＬＴＧの閾値ＴとＮＮの出力に基づいて関係を形成する。従って、ＬＴＧが１を生成するのであれば、構築される制約条件は以下のようになる。
ｘ_ｉ・ｗ＞Ｔ→１
又は、出力が０であれば、生成される制約条件は以下の通りとなる。
ｘ_ｉ・ｗ＜Ｔ→０
ｂ）またブロック４２において、入力ベクトルｘ_ｉから構築された制約条件がこの層内のどのＬＴＧでも学習することができるかどうかを判定するテストが行われる。制約条件を学習するということは、ＬＴＧの制約条件セットに制約条件を追加することができるということである。制約条件は、数的な解答を見つけることができれば、追加することができる。アルゴリズムにとって、どのような数的解答であるかは関心のないことであり、見出すことができることが必要なだけである。これは、制約条件間に共通部分がなければならないことと等価である。このテストは、ＬＴＧをＮＮに追加する基準を構成する。入力ベクトルから形成される制約条件を学習することができるＬＴＧがなければ、これが新たなＬＴＧをＮＮに割り当てる基準となる。
・ＬＴＧが入力ベクトルを学習することができる場合、ブロック４３でＬＴＧの制約条件セットに制約条件が追加される。新たな制約条件の追加により、ＬＴＧの有効化を可能とするＬＴＧの重み空間の領域が減少する。次いでこの層からの出力は、ブロック４５で次の層に加えられ、ＮＮが正しい出力を出力するまでプロセス４０が繰り返される（ブロック４２に戻る）。ブロック４４において、現在の層が出力層であるかどうかを判定し、そうである場合には、プロセス４０はブロック４６で完結し、さらに学習するパターンがある場合には次のパターンが学習される。ある時点において１つの層内で入力ベクトルを学習できなければ、これはＬＴＧの割当ての根拠となる（図３のブロック４７〜４９で示される。これに続くステップ４を参照）。各層は所望のＮＮ出力を出力することができるＬＴＧを有していなければならない。前の層からの入力を受信する層の目的は、所望のＮＮ出力を生成するために前の層の出力を組み合わせることにある。
・すでに述べたように、ブロック４４での確認後、ブロック４５において、ＮＮが正しい回答を出力しさらに学習すべき入力ベクトルが存在する場合には、プロセス４０はステップ３の最初（ブロック４２）に戻る。
・ブロック４４において、ＮＮが正しい回答を生成しさらに学習すべき入力ベクトルが存在しない場合には、このＮＮのトレーニング出力はトレーニングを終了し、プロセス４０はブロック４６で完結し、さらに学習するパターンがある場合には次のパターンが学習される。
・ブロック３５において、ＤＲトレーニングアルゴリズム３０によりさらにトレーニングするＮＮの出力があると判定された場合には、図２に示すようにＤＲトレーニングプロセスは初期化ステップ１（ブロック３２）に戻る。

（４）必要に応じたＮＮに新たなＬＴＧの割当て
新たなＬＴＧを必要に応じてＮＮに割り当てるプロセスは、概ね図３のブロック４７〜４９により表される。ブロック４７はＮＮの中間層への新たなＬＴＧの割当てを示し、ブロック４９はＮＮへの新たな出力ＬＴＧの割当てを示す。新たな中間層ＬＴＧをＮＮに割り当てるプロセス５０の好適な実施形態を、図４のフロー図に示す。同様に、新たな出力をＮＮに割り当てるプロセス６０の好適な実施形態を、図５のフロー図に示す。この新たなＬＴＧをＮＮに割り当てるプロセス５０、６０をよりよく理解するために、本発明のＤＲトレーニングアルゴリズム３０のプロセス５０、６０によるＮＮ７０の構築を模式的に示す図６ａ及び図６ｂを参照する。

図３に示す出力について単一のパターンを学習する好適なプロセス４０において、新たな出力ＬＴＧの割当て（ブロック４９）の前に行われるものとして新たな中間層ＬＴＧのＮＮへの割当て（ブロック４７）が示される。図３において、ブロック４２でＬＴＧが入力ベクトル（又はパターン）を学習できない場合には、ブロック４７で新たなＬＴＧが現在の（中間）層に追加されて入力ベクトルを学習することが示される。ブロック４７で新たなＬＴＧが現在の層に追加された後、ブロック４８でテストが行われて、現在の層がＮＮの出力層であるかどうかが判定される。ブロック４８で現在の層がＮＮの出力層ではないと判定された場合、プロセス４０はブロック４５に続き、この（現在の）層からの出力が次の層に加えられる。その後、ＮＮが先に検討したように正しい出力を出力するまで、プロセス４０は繰り返される（ブロック４２に戻る）。ブロック４８で現在の層がＮＮの出力層であると判定された場合、プロセス４０はブロック４９に続き、新たな出力ＬＴＧがＮＮに追加される。ブロック４９で新たな出力ＬＴＧがＮＮに割り当てられた後、プロセス４０はブロック４６で完結し、さらに学習するパターンがある場合には次のパターンが学習される。

図３のプロセス４０は新たな出力ＬＴＧがＮＮに割り当てられる（ブロック４９）前の新たなＬＴＧの中間層（ブロック４７）への割当てを示すが、言うまでもなく、新たな中間層ＬＴＧの割当て前に新たな出力ＬＴＧをＮＮに割り当てることができる。従って、本発明は特定の例に限定されるものではない。本発明のＤＲトレーニングアルゴリズム３０に従って、新たな出力ＬＴＧが新たな中間層ＬＴＧの割当て前にＮＮに割り当てることができることを説明するために、図６ａ及び図６ｂのＮＮ７０へのＬＴＧの割当てを、図３の好適なプロセス４０に示した順序とは逆の順序で示す。

以下、新たな出力ＬＴＧをＮＮ７０に割り当てるプロセス６０（図６ａ及び図６ｂ）を、図５を参照して説明する。
・ブロック４２で出力ＬＴＧが入力ベクトルに必要な出力を生成できない場合（図３）、図６ａ及び図３のブロック４９に示すように新たな出力ＬＴＧがＮＮ７０に割り当てられる。
Ｉ．現在の出力ＬＴＧであるＬＴＧ−Ａは、Ｎ層にある。図６ａ（ｉ）参照。別のＬＴＧであるＬＴＧ−Ｂが、Ｎ層に追加される。図６ａ（ｉｉ）参照。ＬＴＧ−Ｂの制約条件セットが、好ましくは空のセットに初期化される。新たなＬＴＧであるＬＴＧ−ＢのＮＮ７０のＮ層への割当ては、図５のフロー図には示さないが、以下に説明するブロック６１の一部であることは言うまでもない。同様に、新たなＬＴＧであるＬＴＧ−ＢのＮ層への割当ては、新たな出力ＬＴＧであるＬＴＧ−ＣのＮ＋ｌ層への割当ての後に起こってもよい。
ＩＩ．ブロック６１において、出力Ｏ_ｊについてのこの層の１つの新たなＬＴＧであるＬＴＧ−Ｃを有する新たな出力層であるＮ＋ｌ層が追加される。そして、ＬＴＧ−Ｃの制約条件セットが、好ましくはステップＶ及びＶＩに従って初期化される。
ＩＩＩ．ブロック６２でＮ層＞１である場合、ＬＴＧ−Ａに接続された前の層であるＮ−１層（図示せず）のＬＴＧから新たなＬＴＧであるＬＴＧ−Ｂに接続が追加される。
ＩＶ．またブロック６２において、Ｎ層のＬＴＧ−Ａ及びＬＴＧ−Ｂのそれぞれの出力がＮ＋１層の新たな出力ＬＴＧであるＬＴＧ−Ｃの入力に接続される。
Ｖ．学習される入力ベクトルが出力０を生成する場合、ブロック６３において以下を行う。
ａ）Ｎ層において新たなＬＴＧ−Ｂがこの層の制約条件に入力を学習するようトレーニングされる。これらのＬＴＧであるＬＴＧ−Ｂ及びＬＴＧ−Ｃは、ＬＴＧ−Ａがこのを学習できなかったために追加される。
ｂ）ＬＴＧ−Ａからの制約条件は、新たなＬＴＧであるＬＴＧ−Ｂの制約条件セットにコピーされ、ＬＴＧ−Ｂで全ての制約条件が≧閾値となるよう設定する。
ｃ）ＡＮＤを形成する制約条件が、Ｎ＋１層において、Ｎ層のＬＴＧ−ＡとＬＴＧ−Ｂの間の新たな出力ＬＴＧであるＬＴＧ−Ｃに追加される。
ＶＩ．学習される入力ベクトルが出力１を生成する場合、ブロック６４において以下を行う。
ａ）Ｎ層において新たなＬＴＧ−Ｂがこの入力の制約条件を学習するようトレーニングされる。
ｂ）ＬＴＧ−Ａからの制約条件は、新たなＬＴＧであるＬＴＧ−Ｂの制約条件セットにコピーされ、ＬＴＧ−Ｂで全ての制約条件を＜閾値に設定する。
ｃ）ＯＲを形成する制約条件が、Ｎ＋１層において、Ｎ層のＬＴＧ−ＡとＬＴＧ−Ｂの間の新たな出力ＬＴＧであるＬＴＧ−Ｃに追加される。
・ブロック４２（図３）でＮ層のＬＴＧが必要な出力を生成することを学習できない場合、新たなＬＴＧであるＬＴＧ−Ｄが図６ｂ及び図３のブロック４７に示すようにＮＮ７０のその層であるＮ層に割り当てられる。

以下、新たな中間層ＬＴＧをＮＮ７０に割り当てるプロセス５０（図６ａ及び図６ｂ）を、図４を参照して説明する。
Ｉ．ブロック５１で、どのＬＴＧもデータを学習することができないＮ層に追加ＬＴＧであるＬＴＧ−Ｄが追加される。次いで、制約条件セットが好ましくはステップＶ及びＶＩに従って初期化される。残りのステップであるステップＩＩ〜ＶＩは、概ね置き換え可能であり、従ってこれらの手続きステップの順序は図４に示すものから変化してもよい。
ＩＩ．ブロック５３で、このＮＮ出力Ｏ_ｊについて、ＬＴＧ−Ｄの出力からＮ層の出力層を形成するＮ＋１層内の全ＬＴＧへの接続が行われる。ブロック５４で、Ｎ層内のその他のＬＴＧであるＬＴＧ−Ａ及びＢにより学習されてはならないことに基づいて、Ｎ＋１層内のＬＴＧ（この場合はＬＴＧ−Ｃ）が新たなＬＴＧであるＬＴＧ−Ｄからの入力をどうすればよいかがわかるように、これらのＬＴＧが更新される。
ＩＩＩ．Ｎ層＞１のとき、ブロック５２で、このＮＮ出力Ｏ_ｊについて、前の層であるＮ−１層（図示せず）の入力を形成する全てのＬＴＧから、ＬＴＧ−Ｄに入力接続が追加される。
ＩＶ．ブロック５５で、新たなＬＴＧであるＬＴＧ−ＤがＮ層が学習できない入力ベクトルを学習するようトレーニングされる。新たなＬＴＧであるＬＴＧ−ＤがＮ層内の他のＬＴＧが学習できない入力ベクトルを学習するトレーニングプロセス（ブロック５５）をよりよく理解するために、関連する好適な手続きのより詳細な分析を含むさらなるブロックであるブロック５６が設けられる。
Ｖ．学習する入力ベクトルが出力０を生成する場合、ブロック５７及び５８において、以下が行われる。
ａ）この層であるＮ層内の以前の最後のＬＴＧであるＬＴＧ−Ｂの制約条件が、新たなＬＴＧであるＬＴＧ−Ｄ制約条件セットにコピーされて（ブロック５７）、全ての制約条件を≧新たな閾値に設定する（ブロック５８）。
ｂ）ＬＴＧ−Ｃは、Ｎ層内のＬＴＧ−Ｄ及びその他のＬＴＧからの入力についてその制約条件セット内でＡＮＤを形成する。ブロック５４を参照のこと。論理は（Ａ・・・Ｂ）かつＤである。
ＶＩ．学習する入力ベクトルが出力１を生成する場合、ブロック５７及び５９において、以下が行われる。
ａ）この層であるＮ層内の以前の最後のＬＴＧであるＬＴＧ−Ｂの制約条件が、新たなＬＴＧであるＬＴＧ−Ｄ制約条件セットにコピーされ（ブロック５７）、全ての制約条件を＜新たな閾値に設定する（ブロック５９）。
ｂ）ＬＴＧ−Ｃは、Ｎ層内のＬＴＧ−Ｄ及びその他のＬＴＧからの入力についてその制約条件セット内でＯＲを形成する。ブロック５４を参照のこと。論理は（Ａ・・・Ｂ）又はＤである。
・図３を参照すると、新たなＬＴＧであるＬＴＧ−Ｄの割当ての後、ブロック４７で、ＮＮ７０が正しい回答を出力しさらに学習すべき入力ベクトルが存在する（ブロック４８）場合には、プロセス４０はステップ３の最初（ブロック４５を経由してブロック４２）に戻る。
また図３を参照すると、新たなＬＴＧであるＬＴＧ−Ｄの割当ての後、ブロック４７で、ＮＮ７０が正しい回答を出力しさらに学習すべき入力ベクトルが存在しないがさらに学習すべき出力が存在する（ブロック４８）場合には、プロセス４０は初期化ステップ１（図２のブロック３２）に戻る。

言うまでもなく、制約条件をＮ層内で以前の最後のＬＴＧであるＬＴＧ−Ｂから新たなＬＴＧであるＬＴＧ−Ｄにコピーするときには、論理のその他の組み合わせも可能である。ここに示した具体例は、ＬＴＧをＮＮ７０に割り当てるいずれの場合（プロセス５０、６０）にも機能する単に好適な論理構成である。用いられる特定の学習論理は本発明に必須のものではないが、データはなんらかの形でコピーされる必要があり、そうでなければＮＮ７０はそれまでに学習したことを全て完全に忘れてしまうことになる。

ＤＲトレーニングアルゴリズム３０によるＮＮ７０へのＬＴＧの割当てはどのような順序でも行うことができることは言うまでもない。従って、図６ａ及び図６ｂによれば、ＬＴＧ−Ｄは、ＬＴＧ−Ｃが新たな出力層であるＮ層＋１に追加される前に、Ｎ層に追加することができたはずである。同様に、手続きステップであるステップＩ〜ＶＩは、ＬＴＧをＮＮ７０に割り当てるいずれの場合（プロセス５０、６０）にも、概ね置き換え可能であり、そのため、本発明は特定のステップの順序に限定されるものではないことも言うまでもない。

（ＤＲトレーニングアルゴリズムのフェーズの詳細な説明）ＤＲトレーニングアルゴリズム３０及び本発明のその他の様態をよりよく理解するために、以下にアルゴリズム３０の各フェーズ又はステップをより詳細に説明する。このトレーニングアルゴリズム３０は、フィードフォワードＮＮアーキテクチャに基づいており、これはトレーニング条件を満たす単一の数値を見つけることを試みるＬＴＧのＮＮをトレーニングする従来のアプローチとは異なっている。そのかわり、すでに述べたように、このアプローチは、重み空間内に各ＬＴＧについてトレーニング条件を満たす領域を見つけ、これはトレーニングデータセットの単一のパスで学習し、ＬＴＧを動的にＮＮに割り当てることを可能とし、入力ベクトルが分類可能であるか否かを判定することができ、トレーニング中に学習された規則がＮＮから容易に抽出できるようにする。

初期化：特に、図２のＤＲトレーニングアルゴリズム３０のブロック３２を参照。出力のトレーニング開始には、少なくとも２つのステップが含まれることが好ましい。トレーニング対象の出力の選択、及びその出力に対する出力ＬＴＧの追加である。

第１ステップ・学習対象出力の選択：ＮＮは、ＮＮの各出力の生成をデータセットごとに別々に学習する。各出力すなわち出力ベクトルの次元は、別の学習プロセスとして扱われる。これは、出力ベクトルの各次元が独立しているため、正当化される。

トレーニングアルゴリズムにかかわらず、各ＬＴＧは、共通入力を共有するにもかかわらず、中間層にしろＮＮの出力層にしろ、その層内の他のＬＴＧとは別個に機能する。これは、バックプロパゲーションで訓練されたＮＮで問題を引き起こす。すなわち、ＮＮの誤差がＮＮを通してフィードバックされるとき、どの重みを増減するべきなのかを判定することができない。Ｆａｈｌｍａｎらは、これを信用割り当て問題（ｃｒｅｄｉｔａｓｓｉｇｎｍｅｎｔｐｒｏｂｌｅｍ）と呼んだ。この新たなアルゴリズム３０は、各ＬＴＧの独立行動を利用し、各出力ＬＴＧを別々にトレーニングする。これがＮＮの構築方法の主原則となる。出力ベクトルの次元が選択されると、出力ＬＴＧがＮＮに追加される。

第２ステップ・出力ＬＴＧの追加：初めに、入力層のＬＴＧは完全に出力層ＬＴＧに接続される。また、出力ＬＴＧ内の制約条件セットは、空であることが好ましい。そして出力ＬＴＧにより学習されるデータを準備することができる。

データ準備：特に、図２のＤＲトレーニングアルゴリズム３０のブロック３１及び３３を参照。これは単一パスのトレーニングアルゴリズムであるため、データがＮＮに提示される順番が重要になる。データの準備には、少なくとも４つのステップが含まれることが好ましい。

第１ステップとして、ＮＮに提示されるデータがトレーニングに適した適切なフォーマットでない場合、図２のブロック３１に示すように、データセットはＮＮに提示される前に適切なフォーマットに変換されることが好ましい。

第２ステップにおいてはデータの矛盾をチェックする。矛盾したデータはＮＮのトレーニングの際に問題を引き起こす。相反する出力を生成する入力ベクトルＸ_ｉの例が２つ以上あるため、データの矛盾をチェックする必要がある。言い換えると、Ｘ_ｉが出力０を生成するときに、出力１も生成される。ＮＮはこのデータを学習することができるが、データは矛盾しており、この問題を回避するためにＮＮが固有の入力ベクトルでトレーニングされることが好適である。このステップは、図２のＤＲトレーニングアルゴリズム３０のブロック３１又はブロック３３で行うことができる。

第３ステップにおいては、トレーニングセット内のデータをＮＮのトレーニング前に順序付ける。０ベクトルの学習によりシステムの多くは不安定になり、これには否定の制約条件及びデータセット学習をバックプロパゲーションでトレーニングされたフィードフォワードＮＮを備えるシンプレックス法を含み、ここでは入力ベクトル０は出力が１であることを要求する。これがＮＮにとって問題である理由は、ニューロンの閾値が負数であることにある。本発明のＤＲトレーニングアルゴリズム３０は、トレーニングセット内のデータをＮＮのトレーニング前に順序付けることにより、このような状況を回避する。０ベクトルは、全ての入力次元が０である入力ベクトルと定義される。例えば、３入力のニューロン又はＮＮについての０ベクトルは、［０００］である。０ベクトルがトレーニングセット内に利用可能である場合、これが最初にＮＮにより学習されるが、これにより０ベクトルがＮＮに１を出力させる場合にＮＮに起こりうる不安定性を回避するからである。

第４ステップ：入力ベクトル０が既知である場合、利用可能であれば、これが最初に学習されるべきである。そして、特にトレーニング中にＬＴＧがＮＮに割り当てられる必要がある場合には、ブロック３３でＮＮのトレーニング前に入力ベクトルが何らかの順番にソートされることが好ましい。本発明のアルゴリズム３０は、データがＮＮに提示されたまま学習されるため、ビルトインのサーチメカニズムを有していない。これは、ＤＲ学習がＮＮを単一のパスでトレーニングするため、ＮＮが提示された全てのデータセットを学習できなければならないからである。

本発明のさらなる様態によれば、好適なソート方法（ブロック３３）は、データをそれぞれ１又は０を生成するセットにソートし、データセットによっては１又は０を生成するこれらのベクトルを最初に学習する。大まかなガイドラインとして、０→０ならば、０を出力するベクトルを最初に学習し、そうでなければ１を出力するベクトルを最初に学習する。

別の考えられるソート方法としては、生物学的な脳のソート技術の１つをシミュレートするＳＯＭすなわち自己組織化マップを使用する方法がある。生物学的な脳は、大脳皮質の表面上でＳＯＭに類似のメカニズムを用いる。ＳＯＭは、入力ベクトルをデータセットにおける特徴の２次元クラス表現に組織化又はソートすることにより機能する。特徴は入力ベクトルをその出力を参照することなく分類する。ＳＯＭで特定の特徴に属するものとして分類された入力ベクトルは、特徴に分離及びソート可能であり、トレーニングメカニズムに与えるために収集可能である。このようにして、ＤＲ学習はデータセットの特定の特徴を分類する方法を学習するＬＴＧをまとめてクラスター化することができる。

この構造は３次元的にも想像可能であり２次元ＳＯＭ及び３次元はＤＲにトレーニングされたＮＮである。おおよそドーム型の生物学的な脳を単純化して見ると、ＳＯＭが表面にありフィードフォワードＮＮが表面から発生している。１つの考えられるモデルとしては、大脳皮質がフィードフォワードニューロンと相互に接続されたＳＯＭの層からなるというものがある。

言うまでもなく、本発明のＤＲトレーニングアルゴリズム３０で用いることのできるソート技術としては数多く考えることができ、そのため、本発明は特定の例に限定されるものではない。

ＮＮへのデータを加える：特に、図２のＤＲトレーニングアルゴリズム３０のブロック３４及び３５、より詳細には図３のプロセス４０を参照。本発明のＤＲトレーニングアルゴリズム３０は、好ましくは先に述べたようなＬＴＧを用いる。さらに、ＤＲトレーニングアルゴリズム３０、好ましくは、移転機能としてヘヴィサイド、又はステップ機能を用いる。このタイプのゲートは、入力空間のクラス間にはっきりとした境界を設け、入力ベクトルのクラスを綺麗に分けるため、用いられることが好ましい。

本発明のＤＲトレーニングアルゴリズム３０は、重み及び閾値についてトレーニング条件を満たす単一の数値を見出すのではなく、ＬＴＧの重み空間を制約することにより学習するため、ＬＴＧでうまく機能する。そのため、重み空間内で重み及び閾値を満たす単一の値を見出すかわりに、空間の領域が見出される。制約条件は、教師ありトレーニングの概念に従って、入力ベクトル及び所望の出力から形成される。

ＬＴＧの閾値Ｔは、定数として扱われる。Ｋｏｈａｖｉが示すように、ＬＴＧの閾値はそのようなものとして扱うことができる。Ｋｏｈａｖｉは補空間重み（論理ＮＯＴを用いて）を用い、Ｔ＜＝０及びＴ＞０の両方の閾値を説明する。本発明のトレーニングアルゴリズム３０において、データは、トレーニング中に、Ｔ＜＝０であるかＴ＞０であるかを判定する。

もともとのＬＴＧに行われる修正は制約条件セットを含むことだけであり、これは初期化されてからにされる。これは、重みとニューロンの閾値との間の関係についてＬＴＧが学習したことを格納するために用いられるので、実装に必要なことである。すでに述べたように、本発明は制約条件の使用のみに限定されるものではない。制約条件は、入力重みのと閾値との間の関係を表すだけであり、単に本発明の好適な特徴である。

単一のＬＴＧをトレーニングする制約条件が構築される方法について、以下で検討する。

単一のＬＴＧについての制約の構築：特に、図３のＤＲトレーニングアルゴリズム３０に従って出力に対する単一のパターンを学習する好適なプロセス４０を参照。ＬＴＧに、ブロック４２で学習することになる入力ベクトル（又はパターン）が提示される。これらの入力ベクトルは、ＬＴＧの制約条件セットに記録される制約条件に変換される。学習に先立って、制約条件セットは空に初期化されることが好ましい。

トレーニングの開始のために、制約条件を構築する際に第１ステップ（ブロック４２）で、各入力ベクトルｘ_ｉがＬＴＧの入力重みベクトルｗに加えられｘ_ｉ・ｗを生成する。積ｘ_ｉ・ｗは、ＬＴＧの行動を定義する式１．１に基づいて、ＬＴＧの閾値Ｔとの考えられる関係を少なくとも２つ有する。これらの２つの考えられる関係は、それぞれ関連付けられた出力を生成する。Ｔに対する関係及び関連付けられた出力は、式２．１及び２．２で表される。
ｘ_ｉ・ｗ≧Ｔ→１（２．１）
又は
ｘ_ｉ・ｗ＜Ｔ→０（２．２）

教師あり学習については、本明細書ですでに述べている。教師あり学習の原則を用いて、必要とされる出力が１であれば、必要な制約条件はｘ_ｉ・ｗ≧Ｔである。同様に、生成される出力が０であれば、ｗはｘ_ｉ・ｗ＜Ｔであるように制約される。新たな制約条件が、この制約条件及びその他の以前に追加された制約条件が解答を有するならば、そのＬＴＧの制約条件セットに追加される。これについては、後でより詳細に検討する。入力ベクトル及びＬＴＧの重みから構築される制約条件のＬＴＧの制約条件セットへの追加プロセスは、トレーニングセット中のｎ個の入力ベクトル全てについて繰り返される。

図７に、２入力ＬＴＧのＮＮ８０の例を示す。この例では、重みベクトルを［ｗ_１ｗ_２］^Ｔ、入力ベクトルを［ｘ_１ｘ_２］、［Ｏ_ｊ］をＬＴＧの出力とする。入力［０１］について出力が１になるのであれば、ＬＴＧ８２に対する制約条件はｗ_２＞Ｔとなる。別の入力ベクトル［１１］が出力０を生成すると予測されるならば、制約条件ｗ_１＋ｗ_２＜Ｔも追加される。これらの２つの入力が、｛ｗ_２＞Ｔ，ｗ_１＋ｗ_２＜Ｔ｝というこのＬＴＧ８２についての制約条件セットとなる。制約条件セットを構築することにより、ＬＴＧ８２は入力／出力の分類を学習する。

以上、ＬＴＧをトレーニングする入力ベクトルから制約条件を構築する方法を説明してきた。新たな入力ベクトルが学習され、関連付けられた制約条件をＬＴＧについての制約条件セットに追加できるようになる前に、ＬＴＧが入力ベクトルを形成する制約条件を学習することができるのかどうかを確認しなければならない。以下、新たな入力ベクトルを学習することができるか否か、ひいては制約条件がＬＴＧの制約条件セットに追加されるか否かを判定する、入力ベクトルの学習の基準に関する検討を行う。

入力ベクトル学習の基準：特に、図３プロセス４０のブロック４２を参照。制約条件をＬＴＧの制約条件セットに追加する際の最も基本的な問題は、教えられたことを学習することができるかどうかを判定することである。これについては、本明細書においてすでにより詳細に述べている。

ＬＴＧが入力ベクトルを学習することができるかどうかについてのテストは、ＬＴＧのＮＮを構築する際の基本である。単一のＬＴＧが全てのデータを学習することができない場合、追加のＬＴＧが必要となる。

本発明のＤＲトレーニングアルゴリズム３０は入力ベクトルを関連付けられた出力から制約条件へと変換するため、新たな制約条件は重み空間内にＬＴＧがすでに学習した全ての制約条件に解答があるかどうかを判定するためにテストされてよい。これはシンプレックス法を用いて行われてもよい。重み及び閾値のそれぞれについて特定の数値を見出す必要はないが、このテストは、重み及び閾値について確実に数値を見出すことができるようにする。制約条件を満たす数的解答を見つけることができれば十分である。

以下、重み及び閾値のそれぞれについて特定の数的解答を見出す上で、学習問題への一般的な解答を見出すことが好ましい理由について検討する。

従来、一般的な解答を見出すことができなかったため、重みのそれぞれについて単一の数値が見出された。

バックプロパゲーション等の従来のトレーニング方法でトレーニングされたＮＮの重みについて解答を見出すことができるならば、重みが以下の数式から選択されるとき全重みについて無限の数の解答が存在することになる。

この無限の数の解答は、各ＬＴＧについての重み空間に領域を形成する。通常はバックプロパゲーションで選択される解答は、予め指定された許容誤差内のＮＮを生成する見出される数値の最初のセットであることが多い。各ＬＴＧについて見いだされるｗは、ＬＴＧの重み空間内のこの領域の単一の値である。

この重みの値の解答は、トレーニング中にＮＮに加えられた入力値に基づく平均のようなものであり、値の範囲が単一の解答を見出すために失われるため、両極端が失われている。

本発明に係るニューロンのトレーニング方法は、一般的な解答が見出されるため、トレーニング中に学習された全情報が保存されるようにする。一般的な解答は、重み空間内の領域を分析してＬＴＧを有効化する重みと有効化しない重みとの間の境界を見出せるようにする。一般的な解答は、全ては互いに相対的であるように見えるため相対的な関係を定義し、そのほかの全てに関してのみ理解可能である。一般的な解答を見出すことにより重み間の関係を分析することができ、その結果、入力間の関係を分析することがでる。最後に、絶対に必要であれば、データセット内の関係をはっきりと具現化する特定の数値を見出すことができる。

従って、本発明のＤＲトレーニングアルゴリズム３０で訓練されたＬＴＧにより新たな制約条件が学習可能であるかどうかを判定するテストが利用可能である。このテストは、またＬＴＧをＮＮに追加する基準である。入力ベクトルを学習することができなければ、ＬＴＧはＮＮに追加される。

ＬＴＧのＮＮへの割当て：特に、図３プロセス４０のブロック４７及び４９、並びに図４及び図５の本発明のＤＲトレーニングアルゴリズム３０に従ってＬＴＧをＮＮに割り当てる好適なプロセス５０、６０を参照。単一のＬＴＧのトレーニング方法についてはすでに述べた。単一のＬＴＧの行動は、ＬＴＧのＮＮを構築するための基礎を形成する。単一のＬＴＧのトレーニングは、以下の３ステップを含む。１）入力ベクトルを重みと閾値との間の関係に変換する。２）ＬＴＧが新たな入力ベクトルを学習可能かどうかを判定する。ＬＴＧが入力ベクトルを学習可能かどうかの基準は、制約条件がＬＴＧの制約条件セットに追加される際に数的解答が見出されるか否かによって判定される。３）ＬＴＧが入力ベクトルを学習可能であれば、入力ベクトルから構築される制約条件がＬＴＧの制約条件セットに追加される。

ＬＴＧがブロック４２で入力ベクトルを学習することができなければ、追加のＬＴＧが必要となる。従って、ステップ２はＬＴＧをＮＮに割り当てる基本的な基準を形成する。以下、ＮＮを構築するためにどのようにＬＴＧを追加するかを説明する。ＬＴＧは、入力ベクトルが必要な出力を生成できないときにのみ割り当てられる。

このプロセスは、以下のステップを含む。１）新たなＬＴＧとすでにＮＮ内にあるＬＴＧとの間の接続を形成する（図４のブロック５２及び５３、図５のブロック６２）。２）新たなＬＴＧによりＮＮがすでに学習したことを忘れないようにする。

以下、これらのプロセスのそれぞれをより詳細に説明する。まず、ＮＮアーキテクチャに対する一般的なアプローチについて述べる。その後、出力の選択及び出力を別の問題へ分離することの正当化について述べる。

ＮＮアーキテクチャ：初めに、入力ＬＴＧが完全に出力ＬＴＧに接続される。入力ＬＴＧ及び出力ＬＴＧの数は、ＮＮによって学習されるデータセットに依存する。各出力は、その他の出力の独立した学習タスクとみなされる（図２のブロック３２）。

ここでの説明のために、以下ではまず単一出力のＮＮについて考える。本発明のＤＲトレーニングアルゴリズム３０は、トポロジを成長させ、バックプロパゲーションを用いて形成される従来のＮＮに類似のＮＮを形成する。これはユニットを中間層に割当てることができ（図４のプロセス５０）、単一のＬＴＧを含む新たな出力層を追加することができる（図５のプロセス６０）。そして、以前の出力層が、ＮＮ内の中間層となる。この新たな中間層は、これに割り当てられた追加のＬＴＧを有し（図３のブロック４７）、その層内の他のＬＴＧが学習できなかったことを学習する。３つの出力Ｏ_１、Ｏ_２、Ｏ_３を有するＮＮ９０の例を図８に示す。ＮＮ９０は、Ｍｏｄｕｌｏ−８問題データセットを用いて本発明のＤＲトレーニングアルゴリズム３０でトレーニングされた。

図８に示すＮＮ９０において、Ｏ_３は中間層が完全なトレーニング後に必要とされる解答を生成することができることを必要としなかったことがわかる。しかしながら、Ｏ_１及びＯ_２は中間層を必要とした。トレーニングの始めは、閾値Ｔ_１１及びＴ_１３のＬＴＧがもともとの出力であった。しかしながら、これらはデータを学習することができずＴ_１２が中間層９２に追加され、Ｔ_２１がにＯ_１ついての出力となった。同様に、Ｔ_１３がＯ_２を生成できなかったときにはＴ_１４が追加された。

本明細書で用いるＬＴＧを指定する慣例は、ＬＴＧは閾値Ｔを有し、層Ｌに属するということである。どの機能も３層以内で学習することができるので、層の識別には１桁だけが割り当てられる。各層はＮ個のＬＴＧを有しており、これらはその層内を通してｋ＝１・・Ｎと数をつけられる。各ＬＴＧはＬＴＧ_ＬＫと呼ばれ、これに関連付けられたＴ_ＬＫと呼ばれる閾値を有する。各ＬＴＧは入力接続重みのセットを有する。重みベクトルの個々の要素はＷ_ＬＫｊと呼ばれ、ここでｊは受け付けられた入力が送られてきた前の層のＬＴＧである。

ＮＮの構築：ＬＴＧは、入力ベクトルがＮＮによって学習されることができないときのみＮＮに追加される（ブロック４２参照）。ＬＴＧをＮＮに追加する必要がある場合には、２つの場合がある。（１）まず、出力が必要とされる出力を生成できない場合である（ブロック４９）。（２）次に、中間層内のどのＬＴＧも入力ベクトルを学習することができない場合である（ブロック４７）。すでに述べたように、出力ＬＴＧと中間層ＬＴＧのＮＮへの割当てはどのような順序であってもよい。

ＬＴＧをＮＮに追加するときに考慮することが好ましいことは以下の通りである。
ａ）ＮＮ内の既存のＬＴＧから形成することが必要な全ての接続は、新たなＬＴＧへと形成される（図４のブロック５２及び５３、及び図５のブロック６２）。
ｂ）新たなＬＴＧをＮＮに追加した後、新たに追加されたＬＴＧがそれまでにＮＮが学習したことをすべて学習することが重要である（ブロック５５）。これにより、ＮＮがそれまでに学習することを忘れることを意味する健忘症と呼ばれる状態を避けることができる。どのようにしてこれが回避されるのかについては、本明細書の後ろで学習論理について述べるときに検討する。
ｃ）ＮＮ内にすでに存在し新たに割り当てられたＬＴＧからの入力を受け付けることになるＬＴＧは、入力を受け付けるように処理されなければならない（ブロック５４）。新たに割り当てられたＬＴＧからこの新たな入力を受け付けることになるＬＴＧの処理ができない場合、これらは新たなＬＴＧの出力を無視する。

ＬＴＧの中間層への追加：特に、図４の本発明のＤＲトレーニングアルゴリズム３０に従って新たなＬＴＧをＮＮの中間層に割り当てるプロセス５０を参照。ここでは、入力ベクトルが最初に出力を１つだけ有するＮＮに加えられる場合について考える。第１中間層の最初のＬＴＧで制約条件が形成される。層内の第１ＬＴＧが前述のテストで判定された制約条件を学習できない場合（図３のブロック４２）、この層内の次のＬＴＧは、層内のＬＴＧの１つがこれを学習するまで、その出力等で入力ベクトルから形成される制約条件を学習しようとする。しかしながら、この層内のいかなるＬＴＧも制約条件を学習することができない場合、さらにＬＴＧを層に追加してこれを学習しなければならない（ブロック４７）。これは図６ｂのＮＮ７０に示しており、ここでＬＴＧ−ＤがＮ層に追加される。

例えば、図６ｂにおいて、ＬＴＧ−Ａ又はＬＴＧ−Ｂが新たな入力ベクトルを学習することができない場合、図示されるようにＬＴＧ−ＤがＮ層に追加される。ＬＴＧ−Ｄは、この層すなわちＮ層への入力に基づいて新たな制約条件を学習する（ブロック５５又は５６）。この新たなＬＴＧであるＬＴＧ−Ｄの出力は、出力Ｏ_ｊを有するＮＮ７０の出力層であるＮ＋１層内の出力ＬＴＧであるＬＴＧ−Ｃへの入力にもなる（ブロック５３及び５４）。

次に、任意の中間層について考える。入力ベクトルがＮＮに加えられるとき、第１中間層の各ＬＴＧは、ＬＴＧのトレーニングに依存して有効化される又はされないことにより応答する。これらのＬＴＧの応答は、次の層への入力ベクトルとして機能し、これは次にそのトレーニング等を前提として応答する。入力ベクトルの結果、受け付ける入力の分類を学習することができない中間層がある場合（ブロック４２）、新たなＬＴＧがその層に追加される（図４参照）。このＬＴＧの中間層への追加プロセスは、全ての入力データが学習されるまで繰り返される。

ＬＴＧを確立した中間層に動的に割り当てる好適な形式化又はプロセス５０は、以下のアルゴリズムで行われる。
ａ）Ｎ−１層内の全てのＬＴＧへの接続を形成する（ブロック５２）。これらの接続は、新たに割り当てられたＬＴＧへの入力の役割を果たす。
ｂ）学習されている出力についてＮ＋１層内の全てのＬＴＧへの接続を形成する（ブロック５３）。これらの接続は、新たに割り当てられたＬＴＧからの出力の役割を果たす。
ｃ）Ｎ＋１層内のＬＴＧは、Ｎ層内の既存のＬＴＧと新たなＬＴＧとの間の論理関係を形成する（ブロック５４）。
ｄ）新たに割り当てられたＬＴＧは、Ｎ層内の他のＬＴＧが学習したことで処理される（ブロック５５又は５６）。

十分に複雑なデータでトレーニングされた後にＮＮ１００が構築された接続形態を図９に示す。

ＬＴＧ−ＨはＮ層のＮＮ１００に割り当てられる（ブロック５１）。ＬＴＧ−Ｈからの出力接続は、出力層ではなく次の中間層であるＮ層＋１内のＬＴＧＦ及びＧの入力へ形成される（ブロック５３）。これについては、個別の学習タスクとして各出力が解決されることについて検討した際に、すでに述べた。前の層であるＮ−１層内のＬＴＧであるＬＴＧ−Ａ、Ｂ及びＤからの入力接続が確立される（ブロック５２）。

まとめると、中間層ＬＴＧのいずれもその層への入力により形成された制約条件を学習することができない場合、すなわち解答がない場合、ＬＴＧが中間層に追加される。新たなＬＴＧは、その出力を次の層内のＯ_ｊに関連する全ＬＴＧに接続する。出力ＬＴＧが入力の制約条件を学習できない場合、現在の出力層ＬＴＧは中間層となり、図５のプロセス６０に従って新たな出力がＮＮへの出力として追加される。

ＬＴＧを中間層に追加する方法について説明したので、次に、新たな出力をＮＮに追加する方法を検討する。

新たな出力の追加：特に、図５のプロセス６０を参照。本発明のＤＲトレーニングアルゴリズム３０に従って新たな出力ＬＴＧをＮＮに割り当てる。トレーニングに出力Ｏ_ｊを選択した後（図２のブロック３２）、すでに述べたように、全ての入力ソースが単一の出力ＬＴＧに直接接続される。単一の出力ＬＴＧは、同じくすでに図３を参照して説明したように、入力ベクトルをＬＴＧに連続的に加えて制約条件を形成することによりトレーニングされる。図１０ａ（ｉ）において、現在トレーニング中の出力Ｏ_ｊを有する出力層１１２に配された単一のＬＴＧであるＬＴＧ−Ａを有するＮＮ１１０の模式図を示す。

ＬＴＧ−Ａの制約条件セットの制約条件が、入力ベクトルが形成する各制約条件でテストされる（ブロック４２）。用いられるテストについてはすでに述べた。

新たな制約条件が既存の制約条件セットで解答を持つ場合、制約条件セットに追加される。しかしながら、解答がない場合（ブロック４２）、図１０ａ（ｉｉ）に示すように、別の出力層１１４が追加され、新たなＬＴＧであるＬＴＧ−Ｃが追加される（ブロック６１）。ＬＴＧ−ＣがＮＮ１１０の新たな出力ＬＴＧＯ_ｊとなる。中間層１１２（元の出力層１１２）内に入力ベクトルを学習できなかったＬＴＧであるＬＴＧ−Ａがあったため、図１０ａ（ｉｉ）に示すように、新たなＬＴＧであるＬＴＧ−Ｂが中間層１１２に追加される（これもブロック６１）。ＬＴＧ−Ａが学習することができなかった入力ベクトルは、ＬＴＧ−Ｂによって学習できるようになる。ＬＴＧ−Ａ及びＬＴＧ−Ｂの出力は、出力層１１４のＬＴＧ−Ｃの入力に接続される（ブロック６２）。ＬＴＧ−Ａ及びＢは、ＮＮ１１０の中間層１１２を形成する。

また図１０ｂのＮＮ１１０のＬＴＧ−Ｃが学習できない入力があった場合、新たな中間層１１４（以前の出力層１１４）が追加されて、新たな出力層１１６がつくられる。このようにして、新たな中間層が作られて出力層が追加される。新たな中間層ＬＴＧであるＬＴＧＥが中間層１１４に追加され、新たな出力ＬＴＧであるＬＴＧＦが新たな出力層１１６に追加される図１０ｂを参照する。

まとめると、出力ＬＴＧが入力ベクトルを学習できない場合、現在の出力層としての同じ層に別のＬＴＧが追加されて、全ての入力が直接これに接続される。このＬＴＧは古い出力が学習できなかった入力を学習する。追加のＬＴＧは次の層に追加される。このＬＴＧへの入力は、ＮＮの古い出力であり、その層に新たに追加されたＬＴＧである。

ＮＮに動的に割り当てられたＬＴＧに接続を追加する方法を定めたので、次は、ＮＮがすでに学習したことを再生し続けるようにＬＴＧをトレーニングする方法を考慮することが重要である。以下、これについて検討する。

論理の学習：本発明のＤＲトレーニングアルゴリズム３０は単一パスアルゴリズムであるので、ＬＴＧがＮＮに追加されるときでも、ＮＮは以前に学習した入力ベクトルに対して正しい応答を返さなければならない。従って、ＬＴＧの追加によりＮＮがすでに学習したことを忘れることがないようにしなければならない。これは、以下のような場合に起こる。（ａ）ＬＴＧが中間層に割り当てられる。（ｂ）新たな出力層がＮＮに追加される。この場合、新たなＬＴＧは中間層に割り当てられる。

この問題を回避するために：（ａ）新たに中間層に割り当てられたＬＴＧは、特定の論理規則に従ってこの層の他のＬＴＧが学習したことで処理されなければならない（図４のブロック５５又は５６）。（ｂ）また、新たに割り当てられたＬＴＧが割り当てられている層から直接入力を受け付けるＬＴＧの層は、新たに割り当てられたＬＴＧの所望の行動に基づいて学習したことを更新する必要がある（ブロック５４）。この場合は新たな出力層の割当てをカバーする。

次に、新たに割り当てられたＬＴＧが学習することについて検討する。まず、図１０ａ（ｉ）に示すＮＮ等の、中間層のないＮＮを考える。

ＬＴＧが入力ベクトルを学習できない状況には少なくとも２つあり、これらは以下の通りである。（１）学習中の入力ベクトルが１を出力する必要があるが、ＬＴＧは以前に学習したことに基づいてこの入力ベクトルについて０しか出力できない場合。（２）学習中の入力ベクトルが０を出力する必要があるが、ＬＴＧは以前に学習したことに基づいてこの入力ベクトルについて１しか出力できない場合。

すでに述べたように、このような状況においては、図１０ａ（ｉｉ）に示すように、新たな出力がＮＮに割り当てられる。

続く層がＬＴＧが割り当てられた中間層からの入力を結合することができる考えられる少なくとも２つの方法は、以下の通りである。（１）出力ＬＴＧは中間層ＬＴＧからの入力ベクトルを論理ＯＲで結合する（ブロック６４）。（２）出力ＬＴＧは中間層ＬＴＧからの入力ベクトルを論理ＡＮＤで結合する（ブロック６３）。

ＯＲの学習：特に、図５のプロセス６０のブロック６４を参照。初めに、ＬＴＧが学習することができなかった入力ベクトルについて検討する。ベクトルがＮＮに１を出力させることになっており、ＬＴＧが以前に学習したことの結果としてＬＴＧが０しか出力できない場合、新たな出力はその入力間にＯＲを形成する必要がある。

再び図ｌ０ａ（ｉｉ）を参照すると、ＮＮ１１０の出力であるＬＴＧ−ＣはＬＴＧ−Ａが有効化されるとき有効化されることが必要であるが、この場合、ＬＴＧ−Ａは有効化される必要があるができないため、ＬＴＧ−Ｂが入力の特徴を学習する。ＬＴＧ−Ｂは、また、ＮＮ１１０により以前に学習された入力ベクトルを学習する必要がある。これにより、ＬＴＧ−Ｂは出力が有効化されるべきでないときに有効化されることがないようにする。このためには、ＬＴＧ−Ａの制約条件セット内の全ての制約条件がＬＴＧ−Ｂの制約条件セットにコピーされるが、全ての制約条件は＜Ｔとして学習される。ＬＴＧ−ＢはＬＴＧ−Ａが学習できなかった新たな制約条件を学習し、この入力ベクトルの検出により有効化されることになる。これにより、２つの入力をＯＲすることを学習するためＬＴＧ−Ｃが有効化されて、必要に応じて１を出力する。

ＡＮＤの学習：特に、図５のプロセス６０のブロック６３を参照。出力が０でなくてはならないがＬＴＧは１を出力する場合、新たな出力はＬＴＧ−Ａからの入力と新たに割り当てられたＬＴＧであるＬＴＧ−ＢとをＡＮＤすることを学習する。この場合、制約条件は、０＜ＴがＬＴＧ−Ａの制約条件セットにある場合を除いて、ＬＴＧ−Ａの制約条件セットから≧Ｔとしてコピーされる。この場合、制約条件はそのままコピーされる。

ＬＴＧがさらに既存の中間層に割り当てられる場合、すでに述べたように、制約条件はその層の以前のＬＴＧ（ＬＴＧ−Ｂ）からコピーされて適宜修正される。しかしながら、ＬＴＧがＮ層に追加される場合、Ｎ＋１層でＬＴＧが学習したことには修正が必要である。

次の層が学習する論理は、（．．．（ｘ_１Ｏｐ_１ｘ_２）Ｏｐ_２ｘ_３）Ｏｐ_３ｘ_４）．．．）であり、ここでＯｐ_１．．．Ｏｐ_Ｎは論理ＡＮＤ又はＯＲであり、ｘ_１．．．．ｘ_Ｎは新たなＬＴＧを割り当てた中間層から受け付けた入力である。新たに割り当てられたＬＴＧが既存の中間層に割り当てられる場合、この層からの入力を受け付けるＬＴＧは、その論理に基づく制約条件を更新する必要があってもよい。例えば、この層が既存の論理（ｘ_１ＡＮＤｘ_２）を有する場合、制約条件｛ｗ_ｎ１＋ｗ_ｎ２＞Ｔ_ｎ，ｗ_ｎ１＜Ｔ_ｎ，ｗ_ｎ２＜Ｔ_ｎ，０＜Ｔ_ｎ｝を有する。論理が（ｘ_１ＡＮＤｘ_２）ＡＮＤｘ_３となる場合、制約条件セットは｛ｗ_ｎ１＋ｗ_ｎ２＋ｗ_ｎ３≧Ｔ_ｎ，ｗ_ｎ１＋ｗ_ｎ３＜Ｔ_ｎ，ｗ_ｎ２＋ｗ_ｎ３＜Ｔ_ｎ，ｗ_ｎ３＜Ｔ_ｎ，ｗ_ｎ１＋ｗ_ｎ２＜Ｔ_ｎ，ｗ_ｎ１＜Ｔ_ｎ，ｗ_ｎ２＜Ｔ_ｎ，０＜Ｔ_ｎ｝となる。

入力ベクトルが学習されることができるときに層内のＬＴＧにより学習される論理は、これらがＮＮに追加される論理に従う。ＬＴＧがＡＮＤを形成するよう追加される場合、ＬＴＧは制約ｘ_ｉ・ｗ≧Ｔを学習し、ＬＴＧがＯＲを形成するよう追加される場合、ＬＴＧはｘ_ｉ・ｗ＜Ｔを学習する。

（完全な学習と一般化についての説明）
以下、ＮＮが完全にトレーニングされた状態、言い換えると、ＮＮが学習したことを再生することができ一般化することができることを説明する。まず、ＬＴＧが学習した入力を回復することができ、従って十分にトレーニングされていることを説明する。

ＬＴＧの完全なトレーニング：ＬＴＧがトレーニングされるとき、結果として生じる制約条件のセットをＬＴＧの出力の決定に用いることができる。これは、入力をトレーニングされたＬＴＧの制約条件セットに加え、マカロック−ピッツＬＴＧの行動を定義する式１．１を用いることによって行われる。これは、以下の例において説明される。

図７に示すように、制約条件セット（ｗ_１＋ｗ_２＜Ｔ、Ｗ_２≧Ｔ）を生成する２入力ＬＴＧ８２を考える。その後入力ベクトル［１１］を加えると、１．Ｗ_１＋１．Ｗ_２＝Ｗ_１＋Ｗ_２＜Ｔであるため、ＬＴＧは０出力を生成する。従って、十分にトレーニングされるＬＴＧには重みに対する数値は必要ではない。

この引数は、ＬＴＧが学習したことを重み及び閾値についての数値を見出すことなく生成することができることを説明する。また、トレーニングされたＮＮにより学習されたことが１００％の精度で思い出すことができることを説明する。

本発明は、主要には入力ベクトルに関連付けられた適切な出力を決定するためのＮＮのトレーニングに関するが、ＮＮのトレーニングに用いられるデータ及びトレーニング中に起こりうる２つの問題についての検討も行う。

一般化：本発明の好適な実施形態は、サンプルデータセットでトレーニング可能でありその後トレーニング中にはＮＮによって見ることのできなかったデータパターンをうまく分類することができるため、フィードフォワードＮＮを用いる。これを一般化と呼ぶ。

データ空間についてほとんどわからないブラックボックスＮＮ分類システムが望ましいこともあるが、データにはＮＮのトレーニングに極めて重大な少なくとも２つの様態があり、これは以下の通りである。（１）大きくノイズの多いデータセットの問題のひとつに、矛盾があるかもしれないことがあり、例えば、ある例ではＸ_ｉ→０であり別の例ではＸ_ｉ→１であるような入力ベクトルＸ_ｉがあるとＮＮはこのベクトルの学習に困難が生じる。この問題は全ての学習アルゴリズムに共通する。（２）ＮＮをトレーニングするために用いられるトレーニングサンプルが確実にデータセットを表す。以下、これについてより詳細に述べる。

各データセットはいくつかの特徴を有する。トレーニング中にＮＮがさらされるデータセットがＮＮを十分にトレーニングするために必要な全ての特徴を表すことが望まれる。しかしながら、データセットが大きくほとんどわからない場合、トレーニングセットが全データセットの全ての特徴を表していることを判断する方法はない。この場合、データセットは「未知」と呼ばれる。

トレーニングされたＮＮをテストすることにより、ＮＮがデータセット中の全ての特徴を学習したかどうかを判定することが可能となる。追加の分類入力ベクトルを有するＮＮのテストは、これを実現するための好適な方法である。フィードフォワードＮＮをトレーニングするためのデータセットの分割については、すでに検討した。しかしながら、データセットがよく理解されておらず大きい場合には、それでもまだデータセットのその他の特徴がわからないことがある。

以下、演繹法が常に機能するわけではない理由について検討する。演繹法は、トレーニングデータセットに欠けている特徴があると機能せず、この問題は「不十分なトレーニング」と呼ばれる。

ＬＴＧの不十分なトレーニング：ＬＴＧがトレーニングされる各データセットは、データの特徴をいくつ持っていてもよい。トレーニングデータセットは、これらの特徴のうち、その内部で表される特徴を有してもよい。しかしながら、トレーニングセット内に未知のデータセット内の全ての特徴が提示されるという保証はない。

従って、トレーニングデータセットに表れていない特徴があれば、ＬＴＧはトレーニング中にはデータセットの全ての特徴にさらされることがない。従って、ＬＴＧが見えない入力ベクトルでテストされるとき、間違った結果を出力することがある。従って、ＬＴＧが不十分にトレーニングされていると言うことができる。

例えば、図７に示す、２つの入力ベクトル［００］→０及び［０１］→１のみでトレーニングされる２入力ＬＴＧ８２を考える。

ＬＴＧ８２は入力ベクトルの最初のビットが設定されたどのベクトルにもまださらされていないため、［１０］と［１１］とを正確に分類することができないかもしれない。このＬＴＧ８２が上記トレーニングセットから学習する制約条件セットは｛０＜Ｔ、ｗ_２≧Ｔ｝であり、ｗ_２についての情報はいくらかあるものの、ｗ_１に対する関係は成立していない。例えば、Ｔに対する関係がｗ_１＋ｗ_２かｗ_１かは未知である。その結果、入力ベクトル［１１］及び［１０］についての出力を推定することができない。入力間で形成される論理関係については、これらはｘ_２、ｘ_１ＯＲｘ_２、又はＸ_１ＸＯＲｘ_２であってもよいが、さらに情報がなければどちらであるかを言うことはできない。

本発明のＤＲトレーニングアルゴリズム３０によれば、ＬＴＧが不十分にトレーニングされている場合、１を出力することが好ましいが、これはデータセットに依存し、かわりに０を出力してもよい。言い換えると、ＬＴＧはデータ入力に対する応答の仕方を学習するまで有効なままとなる。しかしながら、これはＮＮによって学習されているデータセットに応じて変化してもよい。

従って、トレーニングセット内に欠けている特徴がある場合にはＬＴＧは正しい応答を出力することが難しくなることは言うまでもない。バックプロパゲーション等のその他のトレーニング方法でトレーニングされるその他のニューロンが経験する問題もある。しかしながら、バックプロパゲーションでトレーニングされる知覚とは異なり、本発明のＤＲトレーニングアルゴリズム３０はＬＴＧがデータパターンの分類の仕方を学習していない場合を識別することができ、言い換えると、本発明のＤＲトレーニングアルゴリズム３０でトレーニングされるＬＴＧは、入力ベクトルを正しく分類する方法を知らない場合を示すことができる。

以下、ＬＴＧの最も有用な特性のひとつ、すなわちＬＴＧが十分にトレーニングされている場合に見えない入力ベクトの出力を推論することができるＬＴＧの能力について検討する。

見えない入力ベクトルを推論する：ＮＮがトレーニングされているとき、ＮＮは入力ベクトルのセットでトレーニングされ、その後、ＮＮがトレーニング中にはさらされなかった多数の入力ベクトルでテストされる。これらの入力ベクトルは、「見えない」と呼ばれ、ＮＮがその関連付けられた出力を正しく判断することができるかどうかを判定する。

ＮＮがトレーニング中に見られなかったデータパターンの分類を判断することができるためには、ＮＮが以前に学習したことから見えない入力ベクトルの分類を推論することができる必要がある。トレーニング中に全ての特徴を学習したことは保証されないため、ＬＴＧを考えられる全ての入力ベクトル及びその関連付けられた出力にさらさなければ、出力を正しく推論することはできないかもしれない。全てのデータパターン又は入力ベクトルが利用できるわけではないことが多く、入力データセットを十分に列挙して見出されたとしても分類の仕方がわからないこともある。入力データセットの比率にすぎないトレーニングセットがＮＮが学習のためにトレーニングされているそのデータセットを表すものかどうかを判定する方法があることはあまり考えられない。その結果、特定のデータセットでのトレーニングにより、見えないデータパターンの出力がＮＮによって正しく判定できることがあることを示すことができるだけである。

命題３．１：見えない入力ベクトルについてＬＴＧの閾値に対する関係が以前に学習した制約条件から推論可能であれば、見えない入力ベクトルについての出力を判定することができる。

図１１に示すＬＴＧ１２０を考えると、ＬＴＧは以下のような入力ベクトル及び出力ベクトルを用いてトレーニングされる。［０００］→０、［００１］→１、［０１０］→１、［１１１］→０。

そして、ＬＴＧ１２０は、以下のような制約条件セットを有することになる。｛０＜Ｔ、ｗ_３＞Ｔ、ｗ_２＞Ｔ、ｗ_１＋ｗ_２＋ｗ_３＜Ｔ｝。

入力ベクトル［１００］はトレーニング中にＬＴＧ１２０によって見られておらず、このベクトルに対する必要な出力は０である。ＬＴＧ１２０が閾値に対する関係を推論することができない場合、出力が０であることを判断することができない。

０＜Ｔ、ｗ_２≧Ｔ、及びｗ_３≧Ｔであるため、ｗ_２及びｗ_３＞ＴではＴ、ｗ_２、及びｗ_３は全て正の数である。従って、ｗ_２＋ｗ_３は＞Ｔでなければならない。しかしながら、ｗ_１が小さく負の数であることを意味するｗ_１＋ｗ_２＋ｗ_３＜Ｔであるため、＜Ｔである。従って、ＬＴＧ１２０に加えられＬＴＧの行動を定義する式１．１を用いるときの入力ベクトル［１００］では、１・ｗ_１＋０．Ｗ_２＋０・ｗ_３＝Ｗ_１＜Ｔが推論される。従って、ＬＴＧは０を出力する。

従って、ＬＴＧ１２０は正しい出力を推論することができる。ＬＴＧ１２０が正しい出力を導き出すことができたので、十分にトレーニングされれば出力を推論することができることがわかる。

本発明のＤＲトレーニングアルゴリズム３０はＮＮの構築にＬＴＧを用いることが好ましいため、演繹法の原則は、本発明によれば、ＮＮの見えない入力ベクトルの分類の推論に用いることができる。代替的に、本発明のさらなる様態に従って、トレーニング中に見えなかったデータパターンの分類を判定する異なる方法を用いることもできる。以下、この代替的なデータパターンの分類を判定する又は制約条件セットの入力ベクトルが既知か未知かを判定する方法を説明する。

以下、ベクトルが明示的に学習されたかどうかにかかわらず、入力ベクトルを分類する方法を学習したかどうかを判定するために、新規なテストを行う。以下のテストは、ＮＮ出力が入力ベクトルについて既知であるかどうかを示す。

ＬＴＧが入力ベクトルを知っているかどうかのテスト：トレーニングされたＬＴＧからパターンの分類又は入力ベクトルを見出すことができることが好適である。入力ベクトルがトレーニングされたＬＴＧに加えられるとき、以下のいずれかを行う。（１）有効化する。（２）有効化しない。（３）不十分なトレーニングの結果、入力ベクトルの分類方法を知らない。

従来のトレーニングアルゴリズムは、ＬＴＧが入力ベクトルの分類方法を知らない状況をＬＴＧに識別させない。本発明のＤＲトレーニングアルゴリズム３０は、ＬＴＧが分類方法を知らない入力ベクトルの識別を可能とする。

以下、本発明のさらなる様態に係る、制約条件セットの入力ベクトルが既知か未知かを判定する方法１３０の好適な実施形態を、図１２のフロー図を参照して説明する。制約条件セットが、本発明のＤＲトレーニングアルゴリズム３０に従ってトレーニングされたＮＮのニューロンの制約条件セットであることが好適である。言うまでもなく、入力ベクトルが既知か未知かを判定する方法１３０は、ＮＮに限定されるものではない。入力ベクトルを分類する方法１３０は、例えばＤＮＡといったデータストリングの分析等の制約条件のシステムを利用する他の分野においても有用であると考えられる。同様に、入力ベクトルを分類する方法１３０は、ＣＳＰやオペレーションリサーチの用途に利用することもできる。従って、本発明のこの様態は、独立しており、本発明のＤＲトレーニングアルゴリズム３０での使用に限定されるものではない。

以下の入力ベクトルを分類する方法１３０の説明は、本発明のＤＲトレーニングアルゴリズム３０に従ってトレーニングされたＬＴＧの出力の判定の点から説明される。この説明は、本発明の方法１３０の考えられる使用の一例に過ぎない。

ＬＴＧが不十分にトレーニングされたかどうか、言い換えると入力ベクトルＸ_ｉの分類の仕方を知らないかどうかを判定するためには、まず、ブロック１３１で、先に述べたように制約条件とその補空間が入力ベクトルから構築される。形成される制約条件は、ｘ_ｉ・ｗ＜Ｔとその補空間ｘ_ｉ・ｗ≧Ｔ、又はｘ_ｉ・ｗ≧Ｔとその補空間ｘ_ｉ・ｗ＜Ｔである。

この入力ベクトルに関連付けられた出力はまだ既知ではないとする。制約条件ｘ_ｉ・ｗ＜Ｔ又はｘ_ｉ・ｗ＞ＴはトレーニングされたＬＴＧ制約条件セットに追加され、その後、ブロック１３２で解答の有無を判定するために任意の適切な制約充足アルゴリズムを用いてテストされる（数的解答を見出すことができるが特定の解答を見出すには重要ではなく、又は同等に、図１２に示すように制約条件により定義された体積の共通部分を見出すことができる）。解答がない場合には、ＬＴＧはブロック１３３によって表される１又は０を出力しなければならず、ＬＴＧは十分にトレーニングされており入力ベクトルの分類の仕方を知っている。言い換えると、ｘ_ｉ・ｗ≧Ｔ又はｘ_ｉ・ｗ＜Ｔについての解答がなければならない。

しかしながら、ブロック１３２で、制約条件ｘ_ｉ・ｗ＜Ｔ又はｘ_ｉ・ｗ≧ＴがトレーニングされたＬＴＧの制約条件セットに追加されたときに、解答がある場合、ブロック１３４において制約条件ｘ_ｉ・ｗ＜Ｔ又はｘ_ｉ・ｗ≧Ｔは取り除かれ、その補空間が代わりに追加される。ブロック１３５でチェックが行われたときに解答がない場合、ＬＴＧは入力ベクトルの分類の仕方を知っており、ブロック１３６により表されるように０又は１を出力する。

しかしながら、ブロック１３５でチェックが行われたとき、制約条件及びその補空間が代替的にブロック１３４で追加されたときＬＴＧが解答を有していた場合、ブロック１３７により表されるように不十分にトレーニングされているため入力ベクトルをどのように分類するべきかは知られていない。言うまでもなく、これらのステップの順序は必須ではない。

任意の適切な制約充足方法又はアルゴリズムを用いて制約条件を学習することができるかどうかをテストすることができる。重み及び閾値の特定の数的解答を見出すことは重要ではないが、これを見出すことができるか否かを判定することは不可欠である。これは、制約条件により定義された体積の共通部分を見出すことと同等に提示することができる。

入力ベクトルが制約条件に変換されるとき、これはＬＴＧの重み空間内に面を形成する。入力ベクトルはＬＴＧにより学習されるたびに、重み空間を二分する面を形成し、トレーニング条件を満たす体積を減らしていく。これは図１３（ａ）で示され、囲まれたくぼみ領域がこれまでに学習したトレーニング条件を満足する重み空間である。領域を二分する面はＬＴＧに提示されている入力ベクトルから形成される。この状況では、ＬＴＧは、それぞれ図１３（ｂ）及び図１３（ｃ）に見られるように、ｘ_ｉ・ｗ＜Ｔ又はｘ_ｉ・ｗ≧Ｔを学習することができる。この場合、入力ベクトルの分類の仕方は知られていない。図１３（ｄ）において、ＬＴＧは面の上の領域を学習することができるだけであり、下は学習することができず、従って、出力はトレーニング条件を満たす重み空間の体積を交差する制約条件により決定されることになる。

図１３（ｅ）において、ｘ_ｉ・ｗ＝Ｔにより形成される面は凸部の体積を交差するが、図１３（ｆ）では、その面で形成された１つの制約条件のみがＬＴＧにより学習されることができる。出っ張り領域は、これらの制約条件の全ての共通部分により形成された領域にのみ交差が与えられるため、凹部領域を減らす。

たまたまトレーニングセットに入力ベクトルがある場合には、これがトレーニング中に構築された制約条件セットにより定義される体積の表面の１つを形成することになり、入力ベクトルが既知となる。

まとめると、制約条件及びその補空間はいずれも入力ベクトルから形成され（ブロック１３１及び１３４）、トレーニングされたＬＴＧの制約条件セットで共通部分の有無についてテストされる（ブロック１３２及び１３５）。制約条件のいずれかが解答を導くことができない場合（ブロック１３３及び１３６）、この入力ベクトル内の特徴はトレーニング中に学習済みであることを意味する。しかしながら、ＬＴＧがすでに学習した両方の制約条件について利用可能な解答がある場合には（ブロック１３７）、トレーニングセットから欠けている特徴がある。このような特性は、形式上、以下のように言うことができる。

定理：制約条件ｘ_ｉ・ｗ＜Ｔ又はｗ≧Ｔとその補空間をＬＴＧが学習した制約条件のリストに交互に追加し（ブロック１３１及び１３４）、共通部分をテストすることにより（ブロック１３２及び１３５）、ベクトルＸ_ｉが学習されているか否かを判定することができる。両方のケースに解答がある場合には（ブロック１３７）、制約条件は学習されていない。しかしながら、ｘ_ｉ・ｗ＜Ｔ又はその補空間のみが以前に学習した制約条件の解答を有する場合には、このベクトルはＬＴＧによって学習済みである（ブロック１３３及び１３６）。

証明：図１３において、与えられた重み空間の図に、ＬＴＧが学習したことにより定義される２つの体積の表現を示す。くぼみ領域が図１３（ａ）から図１３（ｄ）に示されており、出っ張り領域が図１３（ｅ）及び図１３（ｆ）に示されている。ベクトルによって形成された面は、重み空間、すなわちｘ_ｉ・ｗ＝Ｔに適用される。これは、図１３（ｄ）に示すように定義された体積に交差しないか、その他の全ての場合のように交差する。交差しない場合には、入力ベクトルは学習済みである。この場合、これは体積依存してＬＴＧを有効化する又は有効化しない、すなわちｘ_ｉ・ｗ＜Ｔ又はｘ_ｉ・ｗ≧Ｔは、ＬＴＧがすでに学習した制約条件により形成された体積に交差する。そうでない場合にはｘ_ｉ・ｗは学習されていない。

この場合、図１３（ｅ）及び図１３（ｆ）に示すように面は出っ張り領域に交差し、領域はＬＴＧが以前に学習した全ての制約条件に共通しなければならないため、これらのいずれか一方のみを学習することができる（関心は両方の共通領域にのみ与えられるため、図１３（ｅ）及び図１３（ｆ）の領域はくぼみ領域すなわちその共通部分に縮小されることに注意）。以下に、上記を示すための例を示す。

図１１に示す３入力ＬＴＧ１２０について考える。ＬＴＧ１２０が入力ベクトル［０１０］→１及び［０１ｌ］→０でトレーニングされる場合、ＬＴＧ１２０が学習する制約条件セットは｛ｗ_２＞Ｔ、Ｗ_２＋Ｗ_３＜Ｔ｝である。ベクトル［１００］及び［００１］の出力を判定する。

入力ベクトル［１００］について、面Ｗ_１＝Ｔが領域｛ｗ_２≧Ｔ、Ｗ_２＋Ｗ_３＜Ｔ｝に交差することが見いだされ、Ｗ_１＜Ｔ及びＷ_１≧Ｔの両方がＬＴＧ１２０により学習された領域と交差する。従って、ＬＴＧ１２０は出力が何であるべきかを知らない。すでに述べたように出力は１であるべきであるが、これは必要であれば学習されたデータセットに従って修正可能である。

入力ベクトル［００１］について、面ｗ_３＝Ｔが領域｛ｗ_２＞Ｔ、ｗ_２＋ｗ_３＜Ｔ｝に交差しないことが見いだされ、そのような領域はｗ_３＜Ｔのみとなる。従って、ベクトル［００１］の出力は０となることが知られている。

入力空間についてはあまりよく知られていないが、本発明に従ってＬＴＧをトレーニングするＤＲトレーニングアルゴリズム３０は重み空間について多くの情報を与えない。

制約条件セットへの各制約条件の追加により、このＬＴＧの全てのトレーニング条件を満たす重み空間の領域が減少する。

言うまでもなく、入力ベクトルの出力を決定することが２つの考えられる制約条件を比較することである好適な方法は、ＬＴＧが学習した制約条件の閾値で形成されてもよい。これはＬＴＧを有効化する、もしく有効化しない、又は正しい出力を知らない。

以上、ＮＮがどのようにトレーニングされ、テストされて見えない入力を推論するかを示したが、次に、本発明のＤＲトレーニングアルゴリズム３０及び一般化を説明するために十分に機能する例について述べる。

（Ｍｏｄｕｌｏ−８問題を所与されたＤＲトレーニングアルゴリズムの使用に係る実施例）
本発明に係るＤＲトレーニングアルゴリズム３０についての詳細を以下に続く解説において例示する。本実施例において、Ｍｏｄｕｌｏ−８問題を解決するＮＮ１４０に係る好ましい実施形態を用いる。データセットは２進数の３次元入力ベクトルを含み、出力は順番における次の２進数である。入力ベクトル［１０１］を任意に選択して、テスト用に予約しておく。ＮＮ１４０をトレーニングする制約条件セットを作成した後、［１１０］となる入力ベクトル［１０１］に対する出力をＮＮが推定することができることを証明する。

表１に記載したデータセットは、次に記載する入力と関連出力とを有する。

ｍｏｄｕｌｏ−８を定義する入力ベクトル及び出力ベクトル

「制約条件セット」の作成：入力ベクトルを［ｘ_１ｘ_２ｘ_３］として定義し、かつ出力ベクトルを［Ｏ_１Ｏ_２Ｏ_３］とする。出力ベクトル内にある第１の出力を選択してまずトレーニングする（図２のブロック３２）。ＬＴＧの閾値が有する添字によってＬＴＧを参照する。例えば、ＬＴＧ_１１は閾値Ｔ_１１を有する。まず、学習される０（この場合は［０００］）ベクトルが利用可能であるかを決定する。利用可能であれば、ベクトル｛０＜Ｔ_１１｝を制約条件セットに付加する。現在トレーニングしている、出力ベクトル内の位置にある出力１を最初に学習するように入力ベクトルを整理する（ブロック３３）。図１４ａを参照のこと。

図３のプロセス４０に従って、出力Ｏ_１のためのトレーニングの結果、ＬＴＧ_１１は｛０＜Ｔ_１１、ｗ_１１３＜Ｔ_１１、ｗ_１１２＜Ｔ_１１、ｗ_１１２＋ｗ_１１３＞Ｔ_１１、ｗ_１１１＞Ｔ_１１、ｗ_１１１＋ｗ_１１２≧Ｔ_１１｝と定義される。

これは、ブロック４２においてチェックすると解答を有する。なお、次に記載する制約条件を付加することは解答を有さない：ｗ_１１１＋ｗ_１１２＋ｗ_１１３＜Ｔ_１１。

従って、ＬＴＧ_１１は、入力ベクトル［１１１］に対して０の代わりに１を出力する。図４のプロセス５０に従って、新しいＬＴＧであるＬＴＧ_１２をＮＮ１４０内に付加して入力ベクトル［１１１］を学習する。ＮＮ１４０に係る新しいトポロジーについては図１４ｂを参照のこと。制約条件｛ｗ_１２１＋ｗ_１２２＋ｗ_１２３＜Ｔ_１２｝をＬＴＧ_１２の制約条件セットに付加する（ブロック５５）。ＬＴＧ_１１が学習した情報をコピーし、かつ修正すると、ＬＴＧ_１２の制約条件セットは｛ｗ_１２１＋ｗ_１２２＋ｗ_１２３＜Ｔ_１２、０≧Ｔ_１２、ｗ_１２３≧Ｔ_１２、ｗ_１２２≧Ｔ_１２、ｗ_１２２＋ｗ_１２３＞Ｔ_１２、ｗ_１２１≧Ｔ_１２、ｗ_１２１＋Ｗ_１２２＞Ｔ_１２）になる。

この時点でＬＴＧ_１１は出力であるため（ブロック４８参照）、新しい出力ＬＴＧであるＬＴＧ_２１を図５のプロセス６０に従ってＮＮ１４０に付加する。ＮＮ１４０に係る新しいトポロジーについては図１４ｃを参照のこと。出力が０の代わりに１になったので、このことは、新しい出力であるＬＴＧ_２１がＬＴＧ_１１とＬＴＧ_１２との間にＡＮＤを形成することを意味する。

ＬＴＧ_２１がその入力間にＡＮＤを形成することになっているので、その制約条件セットは｛０＜Ｔ_２１，ｗ_２１１＜Ｔ_２１，ｗ_２１１＋Ｗ_２１２≧Ｔ_２１，ｗ_２１２＜Ｔ_２１）になる。

第１の出力Ｏ_１を学習するのに必要とされる３個のＬＴＧに対する制約条件セットは、ＬＴＧ_１１：｛０＜Ｔ_１１，ｗ_１１３＜Ｔ_１１，ｗ_１１２＜Ｔ_１１，ｗ_１１２＋ｗ_１１３≧Ｔ_１１，ｗ_１１１≧Ｔ_１１，ｗ_１１１＋ｗ_１１２≧Ｔ_１１，ｗ_１１１＋ｗ_１１２＋ｗ_１１３≧Ｔ_１１），ＬＴＧ_１２：｛ｗ_１２１＋ｗ_１２２＋ｗ_１２３＜Ｔ_１２，０≧Ｔ_１２，ｗ_１２３≧Ｔ_１２，ｗ_１２２≧Ｔ_１２，ｗ_１２２＋ｗ_１２３≧Ｔ_１２，ｗ_１２１≧Ｔ_１２，ｗ_１２１＋ｗ_１２２≧Ｔ_１２）、及びＬＴＧ_２１：｛ｗ_２１１＜Ｔ_２１，ｗ_２１１＋ｗ_２１２≧Ｔ_２１，ｗ_２１２＜Ｔ_２１，０＜Ｔ_２１）である。

出力Ｏ_１の出力をトレーニングしたところで、プロセスは、出力Ｏ_２のトレーニングへと進む（ブロック３５におけるチェック後、ブロック３２に戻る）。表２に記載したようにデータが整理される（ブロック３３）。入力ベクトル［１０１］をテスト用に除外してあることに留意することが大切である。図１４ｄは、現在のＮＮ１４０について、Ｏ_２の最初の出力ＬＴＧであるＬＴＧ_１３を示す概略図を提供する。

Ｍｏｄｕｌｏ−８のデータセットの第２の出力

ＬＴＧ_１３は、制約条件｛０＜Ｔ_１３，Ｗ_１３３≧Ｔ_１３，Ｗ_１３２≧Ｔ_１３，ｗ_１３１＋Ｗ_１２３≧Ｔ_１３｝を学習する（ブロック３４）。

なお、入力ベクトル［０１１］に対する制約条件ｗ_１３３＋ｗ_１３２＜Ｔ_１３を制約条件セットに付加することは、図３のプロセス４０のブロック４２においてチェックすると解答を有さない。図４に示したプロセス５０に従って、新しいＬＴＧであるＬＴＧ_１４をＮＮ１４０に割り当てて、ＬＴＧ_１３を備えた中間層１４２を形成する。ＬＴＧ_１４は、入力ベクトル［０１１］に対する制約条件ｗ_１４３＋ｗ_１４２＜Ｔ_１４を学習する（ブロック５５）。ＮＮ１４０に係る新しいトポロジーについては１４ｅを参照のこと。

ＬＴＧ_１３が入力ベクトル［０１１］に対して求められる０の代わりに１を出力するので、このことは、出力ＬＴＧがその入力間にＡＮＤを形成しなければならないことを意味する（ブロック５４）。

従って、この条件を学習するために新しいＬＴＧ_１４を付加して、ＬＴＧ_１４が入力ベクトル［０１１］を学習する。ＬＴＧ_１４：｛０≧Ｔ_１４，ｗ_１４３＋ｗ_１４３＜Ｔ_１４，ｗ_１４３≧Ｔ_１４，ｗ_１４２≧Ｔ_１４｝

図５のプロセス６０に従って、出力Ｏ_２に対して、再び、新しい出力ＬＴＧであるＬＴＧ_２２（ＡＮＤを用いることによってその入力を統合するよう学習する）を付加し、その結果、制約条件セット：｛０＜Ｔ_２２，ｗ_２２３＜Ｔ_２２，ｗ_２２３＋ｗ_２２４≧Ｔ_２２，ｗ_２２４＜Ｔ_２２）を生成する。ＮＮ１４０に係る新しいトポロジーの概略図については図１４ｆを参照のこと。

ＬＴＧ_１３が次のベクトル［１０１］を学習して、ＬＴＧ_１３の制約条件セットがＬＴＧ−Ｂ：｛０＜Ｔ_１３，ｗ_１３３≧Ｔ_１３，ｗ_１３２≧Ｔ_１３，Ｗ_１３１＜Ｔ_１３，ｗ_１３１＋ｗ_１３２≧Ｔ_１３）になる。ＬＴＧ_１４に対する制約条件セットは、ＬＴＧ_１４：｛ｗ_１４３＋ｗ_１４３＜Ｔ_１４，Ｗ_１４３≧Ｔ_１４，ｗ_１４２≧Ｔ_１４，０≧Ｔ_１４，ｗ_１４１≧Ｔ_１４）になる。

最終ベクトル［１１１］が形成する制約条件は、ＬＴＧ_１３によって学習され得ないが、ＬＴＧ_１４によって学習され得る、それゆえ３個のＬＴＧ全てに対する最終制約条件セットをここに列記する：ＬＴＧ_１３｛０＜Ｔ_１３，ｗ_１３３≧Ｔ_１３，Ｗ_１３２≧Ｔ_１３，ｗ_１３１＜Ｔ_１３，ｗ_１３１＋ｗ_１３２＞Ｔ_１３，ｗ_１３１＋ｗ_１３２＋ｗ_１３３≧Ｔ_１３，ｗ_１３３＋ｗ_１３２≧Ｔ_１３），ＬＴＧ_１４：｛０≧Ｔ_１４，ｗ_１４３＋ｗ_１４２＜Ｔ_１４，ｗ_１４３＋ｗ_１４２＋ｗ_１４１＜Ｔ_１４，ｗ_１４３≧Ｔ_１４，ｗ_１４２≧Ｔ_１４，ｗ_１４１≧Ｔ_１４，ｗ_１４１＋ｗ_１４２＞Ｔ_１４）、及びＬＴＧ_２２：｛０＜Ｔ_２２，Ｗ_２２３＜Ｔ_２２，Ｗ_２２３＋Ｗ_２２４≧Ｔ_２２，Ｗ_２２４≧Ｔ_２２）。

第２の出力をトレーニングしたところで、最後の出力Ｏ_３をトレーニングしなければならない（ブロック３５におけるチェック後、ブロック３２に戻る）。ＬＴＧ_１５は、次に記載する制約条件セットを学習することが（図３のプロセス４０を用いて）ブロック３４においてまず最初に分かる：ＬＴＧ_１５：｛０≧Ｔ_１５，ｗ_１５３＜Ｔ_１５，ｗ_１５２≧Ｔ_１５，ｗ_１５３＋ｗ_１５２＜Ｔ_１５，ｗ_１５１≧Ｔ_１５，ｗ_１５１＋ｗ_１５２＋ｗ_１５３＜Ｔ_１５，ｗ_１５２＋ｗ_１５１≧Ｔ_１５）。図１４ｇは、現在のＮＮ１４０について、Ｏ_３に対する最初の出力ＬＴＧであるＬＴＧ_１５を示す概略図である。

ＬＴＧ_１５は、全トレーニングセットにさらされ、ブロック４２においてチェックすると解答を有する、従って新しいＬＴＧをＮＮ１４０に付加する必要はなく、それゆえ図１４ｇは、Ｍｏｄｕｌｏ−８のデータセットを学習した最終の全トレーニング済みＮＮ１４０を示す概略図になる。

次に、入力ベクトルが既知であるか又は未知であるかを決定する図１２に示した方法１３０に従って、見えない入力を推定する方法について考察する。

（テスト入力ベクトルに対する出力の推定）
次に、見えない入力ベクトルをＮＮ１４０がいかによく分類するかを評価するが、この場合、見えない入力ベクトルは［１０１］であり、その関連出力は［１１０］である。入力ベクトルが分かる場合、ＮＮ１４０は、トレーニングされたデータから一般化することができる。

まず、出力Ｏ_１を推定する。Ｔ_１１＞０、ｗ_１１３＜Ｔ_１１、ｗ_１１２＜Ｔ_１１かつｗ_１１２＋ｗ_１１３≧Ｔ_１１であるので、それゆえ０＜ｗ_１１３＜Ｔ_１１であり、ｗ_１１１＞Ｔ_１１とすると、その結果ｗ_１１１＋ｗ_１１３≧Ｔ_１１になる。従って、ＬＴＧ_１１の出力は１である。また、制約条件ｗ_１１１＋ｗ_１１３＜Ｔ_１１をＬＴＧ_１１の制約条件セットに付加する場合は、解答がない。

２個の制約条件ｗ_１２１＋ｗ_１２３＜Ｔ_１２及びｗ_１２１＋ｗ_１２３≧Ｔ_１２を付加することは解答を有し、このような制約条件の場合、デフォルトは１を出力する。

ＬＴＧ_２１は、１・ｗ_２１１＋１・ｗ_２１２を有し、かつｗ_２１１＋ｗ_２１２＞Ｔ_２１であるので、Ｏ_１は１になる。

次に、Ｏ_２の出力を推定する。ＬＴＧ_１３は、ｗ_１３１＋ｗ_１３３＞Ｔ_１３及びｗ_１３１＋ｗ_１３３＜Ｔ_１３のどちらも学習することができるので、ＬＴＧ_１３の出力は１である。

また、ＬＴＧ_１４は、ｗ_１４１＋ｗ_１４３≧Ｔ_１４及びｗ_１４１＋ｗ_１４３＜Ｔ_１４のどちらも学習することができるので、１を出力する。ＬＴＧ_２２は、１・Ｗ_２３１＋１・ｗ_２４２を有し、かつｗ_２３１＋ｗ_２３２≧Ｔ_２２であるので、Ｏ_３は１になる。

最後に、Ｏ_３の出力を推定する。ｗ_１５１＋ｗ_１５２＋ｗ_１５３＜Ｔ_１５かつ０＞Ｔ_１５かつｗ_１５１＋ｗ_１５２＞Ｔ_１５であるので、ｗ_１５３＜Ｔ_１５＜０になる。ｗ_１５１≧Ｔ_１５であるにも係わらず、ｗ_１５１＋ｗ_１５２＋ｗ_１５３＜Ｔ_１５である、従って出力は０になる。

従って、正しい出力を推定するか、又は［１１０］として一般化した。図１４ｇに、結果として生じたＮＮ１４０を示す。必要に応じて中間層と出力層との間にだけ結合が作られ、また中間層ＬＴＧは、Ｏ_３にあるように必要とされるときにだけ付加されることが分かる。

当該ＮＮ１４０において、ＮＮ内には重み及び閾値よりずっと少ないトレーニングサンプルがあり、またＮＮが完全にトレーニングされたものとして振る舞うことに気付かされる点が興味深い。ＮＮをトレーニングするには、ＮＮ内において重み及び閾値の数よりも多い入力ベクトルが必要とされると一般に考えられている。変数よりも多いトレーニングサンプルが必要とされるということが全てのケースにあてはまるわけではないと本実施例において分かった。これは、当該ＤＲトレーニング方法３０において各入力ベクトルがそれぞれの重みをトレーニングするからである。

（本実施例におけるＬＴＧの数）本発明に係るＤＲトレーニングアルゴリズム３０を用いる場合、本実施例においてデータセットを学習するのに７個のＬＴＧが必要だった。図１４ｇにおいて、出力層１４４内にあるＬＴＧは、単に、それらが入力を求める先となる中間層１４２内にあるＬＴＧから入力を受け取るだけであることが分かる。また、不要なＬＴＧがＮＮ１４０に割り当てられることはない。例えば、ＬＴＧ_１５は、あらゆる場合に、求められている出力を生成することができるので、Ｏ_３を生成するのにそれ以上のＬＴＧを付加しない。

本発明に係るＤＲトレーニングアルゴリズム３０がどのように動作するかを一実施例を用いて説明してきたところで、ＮＮによるトレーニング中に学習したルールを抽出する際に本アルゴリズムがいかに有用かを考察する。

（本発明に係るＤＲトレーニングアルゴリズムのルール抽出に対する適用可能性）
本発明に係るＤＲトレーニングアルゴリズム３０の重要な利点は、当該アルゴリズムが少なくとも次に記載する特性を示すことから、ルール抽出に用いることができるということである。ａ）ＮＮ内に一ＬＴＧを付加すると、その新しいＬＴＧとその層内にある他のＬＴＧとの間において命題理論のルールが決定される。ｂ）重み空間内の体積に関する制約条件（そのＬＴＧに活性化する領域を縮小するもの）を付加することによって重みを適合させる。これは、そのＬＴＧが制約条件（そのＬＴＧに対する重み空間内の活性化領域の範囲を定める平面である）を用いるためである。これは、重み空間を記号を用いて定義することを可能にし、かつｃ）好ましい制約条件がそのＬＴＧ内の重みと閾値の関係（トレーニング中にＮＮによって学習されたルールを符号化するもの）を定義する。

入力ベクトルと、ＬＴＧに活性化する重み空間内の体積を定める超平面との間にマッピングがあるので、ほとんどの情報を提供する正確な入力ベクトルを見い出すことが可能である。次に、本発明に係るＤＲトレーニングアルゴリズム３０の、ＬＴＧを活性化させる重み空間上に境界を設ける入力ベクトルを見つけ出す能力について解説する。

従来の方法を使ってフィードフォワードＮＮをトレーニングする目的は、ＮＮが学習したデータセットのトレーニング条件を満たす、考えられ得る限り最良の平均値を表す単一数値をＮＮ内のそれぞれの重みに対して見出すことである。ＮＮ内にある各ＬＴＧの重み（及び閾値）は全て単一の（望ましくは）平均的な数値として表されるとおり、データセット内にある情報の多くは学習時に失われる。その情報のうち幾らかは、重要ではあるがトレーニング中に失われてしまう、ＬＴＧに活性化させる領域についての面情報の全てである。ほとんどのＬＴＧが２個以上の入力を有するとおり、この領域は、ＬＴＧの重み空間内において（超）体積として定義される。従って、ＬＴＧに活性化する領域を「活性化体積」と呼ぶ。面情報から：（ａ）ＬＴＧへの入力間の関係とそれゆえＮＮとを決定することができ、かつ（ｂ）各重みが取ることのできる値の範囲（ＮＮが必要に応じて振る舞うことを可能にする）を推論することができる。

従来の方法を使ってトレーニングしたＮＮに対して感度分析を行なうことは、この失った面情報を回復する試みの一方法である。

感度分析は、重みとニューロンへの入力との関係を決定しない一方で、求められるとおりにシステムが動作することを可能にする、システムの構成要素の各一が取ることのできる値の範囲を決定するのに用いることができる。この場合、構成要素とはＮＮ内にあるニューロンの各一に対する重みのことである。各重みは、トレーニングされるとおりにＮＮが動作することを可能にする値の範囲を有する。この範囲を「最適範囲」と呼ぶことができる。

従来のトレーニング方法を使ってトレーニングしたＮＮに対して感度分析を行なうための通常の手法は、ＮＮの反応について一統計的分析を行なうことである。ニューロンの重み空間内にある各重み毎に範囲を決定する解析的方法がこれまでなかったため、統計的分析を行なってニューロンの実際の挙動ではなく一般的な挙動が調べられている。また、感度分析は、単に、従来の方法によってニューロンをトレーニングするときに、一度に１以上の重みを修正することの効果が調べられるのを可能にするだけである。従って、ニューロンが学習するよう求められている関係の平均値を、重みの単一数値がどれだけよく表しているかを決定することは可能ではない。

なお、ニューロンにおける重みの範囲について統計的推定値を得ることが、感度分析にできる最善である。感度分析は、活性化体積の面を規定することが可能な方法を全く有していない。これは、重みが一度に１つずつ検討されるためであり、感度分析が行なわれているときは他の重みの各一が幾分その平均値近傍にあることが望まれる。

本発明に係るＤＲトレーニングアルゴリズム３０を使うと、面情報の回収がかのうになり、システムは（ａ）重み間の関係と、これによりＬＴＧへの入力間の関係を決定でき、かつ（ｂ）各ＬＴＧ毎に重みの統計学的範囲よりも多くを見出すことができる。重みの正確な範囲が決定できるだけでなく、ＬＴＧを活性化する活性化体積の面も規定することができる。

本発明に係るＤＲトレーニングアルゴリズム３０は、ＬＴＧを、好ましくは一群の制約条件としてトレーニングするので、トレーニング中にトレーニングセットについての情報のうち失われるものはなにもなく、これらの制約条件を分析して重みの範囲を見つけ出すことができる。

次に、本発明のさらなる態様により、各ＬＴＧ毎に活性化体積の面が規定されるのを可能にする好ましい方法１５０について、図１５のフローチャートを参照して解説する。

（活性化体積）
入力ベクトルをＮＮに加えることによってＬＴＧをトレーニングする場合に、データセットを学習するようにＮＮをトレーニングする方法を先に示した。重み空間を二等分する（超）面を形成する式ｘ_ｉ・ｗを用いて、入力ベクトルを制約条件に変換した。ｘ_ｉ・ｗは、閾値Ｔを有する制約条件を形成するため、（超）体積は、次に記載するような制約条件によって定義される。ａ）ＬＴＧが制約条件ｘ_ｉ・ｗ＞Ｔを学習した場合、それは、ＬＴＧが学習した他の制約条件に応じてこの領域又はこの領域のサブセットがＬＴＧに活性化することを意味する。補空間の制約条件ｘ_ｉ・ｗ＜Ｔは、ＬＴＧを全く活性化しない領域を画定し、ｂ）ＬＴＧが制約条件ｘ_ｉ・ｗ＜Ｔを学習した場合、この領域はＬＴＧの活性化を生じない。しかしながら、補空間の制約条件ｘ_ｊ・ｗ＞Ｔを満足する点はＬＴＧの活性化を生じてもよい。

従って、（超）面ｘ_ｉ・ｗは、ＬＴＧを活性化する可能性のある領域の面を形成する。多くの入力ベクトルが学習されると、ＬＴＧに活性化する可能性のある体積が重み空間内において定義され、「活性化体積」と呼びうる。これをコンピュータに実装するため、各入力ベクトルの制約条件が、それが学習できる各ＬＴＧと併せて蓄積される。その結果、重み空間内におけるＬＴＧを活性化する最小体積の面を形成する制約条件だけが重要なので、制約条件の冗長が生じることになる。重み空間内における最小活性化体積（ＭｉｎｉｍｕｍＡｃｔｉｖａｔｉｏｎＶｏｌｕｍｅ、以下「ＭＡＶ」）の面を見つけるため、制約条件を分析することができる。この活性化体積の面は、制約条件セット内にある他の制約条件が提供する情報の全てを包含する。

ＬＴＧが受けたトレーニングのことを考えると、ＭＡＶは、ＬＴＧがそれまでに学習した制約条件によって制限される最小体積になる。トレーニング中には利用可能ではない、活性化体積をさらに減少させたであろう他のベクトルがあってもよいので、これは可能な限り最小な体積ではないと考えられる。

トレーニング中に学習した他の制約条件（ＭＡＶ内にはないもの）は、ＭＡＶに関する輪郭のようなものを形成する。

ＭＡＶの面が見つかると、ＭＡＶ及び重み間の関係を考察することにより、各重みの範囲を決定することができる。

要するに、トレーニング中に学習した制約条件を分析してＭＡＶを見つけるのである。そのＭＡＶを用いて、各ＬＴＧ毎の重みの範囲及び重み間の関係を確かめることができる。

フィードフォワードＮＮ内にあるＬＴＧをトレーニングするのに用いた従来のトレーニングアルゴリズムは、各入力結合重み毎に単一数値を見つけることに頼っていた。各ＬＴＧはｎ個の入力を有するので、入ってくる結合重みをベクトルとみなすことができる。トレーニング条件を満たす数値範囲があるので、これらの重みの単一数値が独自にトレーニング条件を解明することはない。

重みの単一数値を決定するときのトレーニングプロセスは、ＮＮがトレーニング中に学習することになっているデータ内に組み込まれたルールを象徴した重み間の関係を表す平均的な数値を配置するよう試みる。

なお、入力ベクトル内のどの特徴がデータセットの分類に対して顕著であるかを逆に明確にする重み間の関係を定義するのは、活性化体積の境界である。そのため、ルール抽出を行なうことができる場合は、ＬＴＧの活性化体積の境界を決定し得ることが必須になる。従来のトレーニング方法を用いる場合に、トレーニングアルゴリズムがトレーニング条件を解明する平均値を見つけることに焦点を合わせていると、入力ベクトルのどの次元がデータセットの分類に重要なのかについての情報を失う。ＮＮの挙動を説明するのに、これまで統計的方法及び確率が用いられてきた。しかしながら、統計及び確率のどちらも任意のデータセットを使ってトレーニングしたトレーニング済みＮＮの平均的な挙動を説明し、特定データセットを学習したＮＮに関する特定情報については説明しない。ＮＮからのルール抽出に関する要件は、特定データセットが分類されるのを可能にする特定ルールを決定することである。数値上トレーニングされたニューロンの活性化体積の境界を決定することはできないので、トレーニング中に重み値が提供した数値がいかによくトレーニングセット内に内在する関係の平均的な挙動に近づくかを決定することは可能ではない。

トレーニングした各ＬＴＧ毎に正確な活性化体積を確かめることはできるので、ＭＡＶがその体積から余分な面を取り除いて、ＬＴＧが何を学習したかを定義する可能な限り最小な体積を残すことが分かる。このことから、ＬＴＧが、それゆえＮＮがどのルールをトレーニング中に学習したか決定することができる、従って、このことはＭＡＶを見つけ出すことが正しいことを証明している。

（最小活性化体積（ＭＡＶ）の決定）
ＮＮのトレーニング中に多くの制約条件が学習される。活性化体積の形状は、ＬＴＧが学習しているデータセットによって異なる。１以上の次元において非有界であってもよい。

図１６ａは、活性化体積及びトレーニング中に学習した他の制約条件を一般化した図を示す。閾値を使って形成する制約条件は、活性化体積を交差しなければならない、そうでなければ、ＬＴＧが制約条件を学習することができない。

図１６ａにおいて、面（ａ）、（ｂ）、（ｃ）、（ｄ）及び（ｅ）は、異なった入力ベクトルＸ_ｊ及びｗによって形成される（超）平面である。ＭＡＶ１６０は、図１６ａにおいて、（ａ）、（ｂ）及び（ｃ）によって定義される面によって有界になる。面（ｄ）及び（ｅ）は、ＭＡＶ１６０を交差しておらず、それゆえ最小体積の面を形成していない。しかしながら、それらが形成する体積はＭＡＶ１６０を交差する。図１６ｂに見られるように、面（ｄ）によって形成された体積１６２（薄い灰色の陰が付けられた領域）は、ＭＡＶ１６０（濃い灰色の領域）を交差している。

図１６ｃにおいて、面（ｄ）によって形成された補空間領域１６４が（濃い灰色の）ＭＡＶ領域１６０を交差しておらず、従って補空間領域を学習することができないことが分かる。

ＬＴＧが学習した制約条件を分析すると、図１６ｃに見るように、制約条件（ａ）が存在するときは、最小体積を形成しない制約条件の補空間、すなわち図１６ｄにおける（ｄ）を学習することができない。そこで（ａ）を取り除くと、ＭＡＶ１６０を形成する制約条件と（ｄ）の補空間との間に共通部分１６６が存在するので、（ｄ）の補空間を学習することができる（図１６ｄを参照のこと）。図１６ｄにおいて、面（ａ）は、本来の場所を示すために図中に残してある。

しかしながら、（ｄ）及び（ｅ）が存在するときは、ＬＴＧは制約条件（ａ）の補空間を学習することができる（図１６ｅを参照のこと）。言い換えれば、（ａ）の補空間と、ＭＡＶ１６０を形成する他の制約条件と、ＬＴＧがすでに学習した他の制約条件との間に共通部分１６８が存在することになる。

原理：制約条件は、制約条件セットから取り除かれたときに、その補空間が学習されるならば、活性化体積の一面を形成する。

証明：ある制約条件が活性化体積上の一面を形成する場合、その制約条件と、ｘ_ｉ・ｗと閾値Ｔとの関係に制約を加えている活性化体積の面を形成する他の制約条件のうちのいずれとの間にも制約条件が全くないことを意味する。従って、制約条件（活性化体積の面を形成するもの）を取り除いたときに、ＬＴＧによって制約条件の補空間が学習されることが可能になる。

次に、このことを例として説明する。ＬＴＧがトレーニング中に次に記載する制約条件セットを学習した場合：｛ｗ_１＋ｗ_２＜Ｔ、ｗ_２≧Ｔ｝、制約条件ｗ_２≧Ｔを制約条件セットから取り除くと、ＬＴＧがその制約条件の補空間Ｗ_２＜Ｔを学習することができるようになるので、平面ｗ_２＝ＴがＭＡＶの一面を形成することが分かる。

しかしながら、トレーニング中にＬＴＧが次に記載する制約条件セットを学習した場合：｛ｗ_１＋ｗ_２≧Ｔ、ｗ_２≧Ｔ、０＜Ｔ、ｗ_１≧Ｔ｝、制約条件ｗ_１＋ｗ_２≧Ｔを制約条件セットから取り除くと、ＬＴＧはその代わりに補空間ｗ_１＋ｗ_２＜Ｔを学習することができないので、平面ｗ_１＋ｗ_２＝Ｔは、ＭＡＶの面上にはないことが分かる。

次に、ＭＡＶを見つける方法１５０の好ましい実施形態を図１５を参照して説明する。

ブロック１５１によって表されるとおり、当該ＬＴＧの制約条件セットにある各制約条件毎に、少なくとも次に記載する動作を実行する。ブロック１５２において、制約条件セットにある他の制約条件を変更しないで、各制約条件を一度に１つずつ制約条件セットから取り除く。取り除かれた制約条件は、群に付加されるそれの補空間を有し、続いてブロック１５３において解答があるかを判断するためにテストされる。解答がある場合は、ブロック１５４において、最初に制約条件セットから取り除いた制約条件をＭＡＶを定義する群に付加する。元の制約条件の補空間を制約条件セットから取り除き、元の制約条件を群に戻す。次に、ブロック１５５において解がない場合、ブロック１５６において制約条件セットにまだ制約条件があると判断されれば、方法１５０が次の制約条件へと続く。トレーニング中にＬＴＧが学習した制約条件セットにある各制約条件毎に本方法１５０を繰り返す（ブロック１５２に戻る）。ブロック１５６において、制約条件がもうないと判断されれば、方法１５０はブロック１５７で終了する。

当該ＬＴＧが受けたトレーニングのことを考えると、活性化のため最小群に付加された制約条件がＭＡＶを定義する。次に、これらの制約条件を用いて体積を分析して、ＬＴＧ内にある重み間の関係を見つけ、かつ望ましければ、いつ重みが範囲外になるかを正確に知ることができる感度分析をＬＴＧに対して行なうことができる。

ＭＡＶを見つける方法１５０は、ＮＮに限定されるものではないということを認識されたい。ＭＡＶを見つける方法１５０は、最適化のために用いられるＣＳＰ及びオペレーションリサーチ型の問題等、制約条件のシステムを用いる他の分野にも有用であると考えられる。従って、本発明に係る本態様は独立しており、本発明に係るＤＲトレーニングアルゴリズム３０を用いた利用に限定されるものではない。

（ＭＡＶを決定する方法に係る実施例）
ＬＴＧを次に記載する制約条件を用いてトレーニングすると仮定する：｛０＜Ｔ，ｗ_１＋ｗ_２＜Ｔ，ｗ_１＜Ｔ，ｗ_２＜Ｔ，ｗ_３＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３＞Ｔ｝。上記の制約条件に対して解答があるということが分かっている。方法１５０は、ブロック１５１において開始する。

まず最初にブロック１５２において、０＜Ｔを取り除いて制約条件０≧Ｔを付加する、その結果、検討中の制約条件セットが｛０≧Ｔ，ｗ_１＋ｗ_２＜Ｔ，ｗ_１＜Ｔ，ｗ_２＜Ｔ，ｗ_３＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝になる。

ブロック１５３において、これらの制約条件を、Ｓｉｃｓｔｕｓｐｒｏｌｏｇのルーチン又は任意の他の好適なルーチンを使ってテストすることができる。これらの制約条件に対する解答がブロック１５３では見つからない、それゆえ０＜ＴがＭＡＶ上の一面を形成する制約条件のうちの１つではないということが分かる。ブロック１５５において、他の制約条件がこの情報全てを包含する、言い換えれば、ＬＴＧによって何が学習されたのかについてこの制約条件は新しい情報を全く提供しないので、この制約条件を残っている群から取り除く。

ブロック１５６におけるチェックの後、続いてブロック１５２において次の制約条件であるｗ_１＋ｗ_２＜Ｔをテストする。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２≧Ｔ，ｗ_１≧Ｔ，ｗ_２＜Ｔ，ｗ_３＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝。この場合、ブロック１５３で解答が見つかるので、ＬＴＧが学習したことに対して元の制約条件は重要であり、制約条件セットに残しておかなければならない（ブロック１５４）。

ブロック１５２においてテストされる次の制約条件は、ｗ_１＜Ｔである。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２＜Ｔ，ｗ_１≧Ｔ，ｗ_２＜Ｔ，ｗ_３＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝。これらの制約条件をブロック１５３においてテストすると、解答がないということが分かる。従って、ブロック１５５において制約条件ｗ_１＜Ｔを取り除くことができる。

ブロック１５２においてテストされる次の制約条件は、ｗ_２＜Ｔである。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２＜Ｔ，ｗ_２≧Ｔ，ｗ_３＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝。ブロック１５３においてこれらの制約条件をテストすると、全く解答が見つからない。従って、ブロック１５５において制約条件ｗ_２＜Ｔを取り除くことができる。

ブロック１５２においてテストされる次の制約条件は、ｗ_３＜Ｔである。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２＜Ｔ，ｗ_３≧Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝。ブロック１５３においてこれらの制約条件をテストすると、全く解答が見つからない。従って、ブロック１５５において制約条件ｗ_３＜Ｔを取り除くことができる。

ブロック１５２においてテストされる次の制約条件は、ｗ_１＋ｗ_３＜Ｔである。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３≧Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝。この場合、ブロック１５３においてテストすると解答が見つかる、それゆえＬＴＧが学習したことに対して元の制約条件は重要であり、ブロック１５４によって表されるように制約条件セットに残しておかなければならない。

ブロック１５２においてテストされる次の制約条件は、ｗ_２＋ｗ_３＜Ｔである。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３≧Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝。この場合、ブロック１５３において解答が見つかる、それゆえＬＴＧが学習したことに対して元の制約条件は重要であり、制約条件セットに残しておかなければならない（ブロック１５４）。

ブロック１５２においてテストされる次の制約条件は、ｗ_１＋ｗ_２＋ｗ_３≧Ｔである。この制約条件を取り除いて、この制約条件の補空間を群に付加する：｛ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３＜Ｔ｝。この場合、ブロック１５３において解答が見つかるので、それゆえＬＴＧが学習したことに対して元の制約条件は重要であり、ブロック１５４によって表されるように、ここでも制約条件セットに残しておかなければならない。

従って、方法１５０によって最小制約条件セットは｛ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３≧Ｔ｝であると決定する。

制約条件をテストするための順番：本発明に係るＭＡＶを決定する方法１５０によって制約条件セットにおいて制約条件をテストする順番は重要ではない。制約条件は、テストされる群における任意の場所から選択してもよい。また、ＭＡＶを形成する制約条件を最初にテストするよう選択するか否かは無関係である。従って、本発明は、提供した特定の実施例に限定されるものではない。

ＭＡＶ内に包含される情報：ＭＡＶは、学習した制約条件に関する全情報を包含している。ＬＴＧが何を学習したかについての情報は全てＭＡＶの面内に包含されるので、ＭＡＶの面を形成しない制約条件を取り除くことは可能である。制約条件を回復する必要はないが、回復できることを証明する。

一実施例：最小活性化体積が｛ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３＞Ｔ｝からなるとすると、取り除かれる制約条件の群は｛０＜Ｔ，ｗ_１＜Ｔ，ｗ_２＜Ｔ，ｗ_３＜Ｔ｝になる。

ＬＴＧに対する制約条件及びその制約条件の補空間を付加することによって取り除かれた制約条件を回復することができることを証明するのは可能である。このことを示して、ＬＴＧとそれゆえにトレーニング中に学習したデータの損失ない圧縮に対してＭＡＶが見つからないときは、全く情報が失われていないことを証明する。

他の取り除かれた制約条件を使ってこの制約条件を予めテストしていたならば、その後もこの制約条件の補空間を学習することができたであろう。

ＭＡＶを使って０＜Ｔをテストする：０＜ＴをＭＡＶに付加することは解答を有する。しかしながら、０≧ＴをＭＡＶに付加することは解答を有さない。従って、ベクトル０＜Ｔを制約条件セットから取り除く前にはじめにトレーニングしたとおりに、ＬＴＧはその後も振る舞い続けるものである。

ＭＡＶを使ってｗ_１＜Ｔをテストする：ｗ_１＜ＴをＭＡＶに付加することは解答を有する。しかしながら、ｗ_１≧ＴをＭＡＶに付加することは解答を有さない。従って、ベクトルｗ_１＜Ｔを制約条件セットから取り除く前にはじめにトレーニングしたとおりに、ＬＴＧはその後も振る舞い続けるものである。

ＭＡＶを使ってｗ_２＜Ｔをテストする：ｗ_２＜ＴをＭＡＶに付加することは解答を有する。しかしながら、ｗ_２≧ＴをＭＡＶに付加することは解答を有さない。従って、ベクトルｗ_２＜Ｔを制約条件セットから取り除く前にはじめにトレーニングしたとおりに、ＬＴＧはその後も挙動し続けるものである。

ＭＡＶを使ってｗ_３＜Ｔをテストする：ｗ_３＜ＴをＭＡＶを付加することは解答を有する。しかしながら、ｗ_３≧ＴをＭＡＶに付加することは解答を有さない。従って、ベクトルｗ_３＜Ｔを制約条件セットから取り除く前にはじめにトレーニングしたとおりに、ＬＴＧはその後も挙動し続けるものである。

言い換えると、元の制約条件セット｛０＜Ｔ，ｗ_１＜Ｔ，ｗ_２＜Ｔ，ｗ_３＜Ｔ，ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３＞Ｔ｝及び最小制約条件セット（ｗ_１＋ｗ_２＜Ｔ，ｗ_１＋ｗ_３＜Ｔ，ｗ_２＋ｗ_３＜Ｔ，ｗ_１＋ｗ_２＋ｗ_３＞Ｔ｝は、ＬＴＧの挙動といった観点からすると等価である。

ＭＡＶを見つけることの利益は多い。これらの利益から幾つかを挙げると：（ａ）学習中及びＬＴＧ出力を決定するときにテストされる必要のある制約条件の数を潜在的に減らす。（ｂ）望ましければ、トレーニングしたＬＴＧに対して感度分析が行なわれるのを可能にする。（ｃ）重み間の関係が決定されるのを可能にする。

クワイン−マクラスキー法（Ｑｕｉｎｅ−ＭｃＣｌｕｓｋｅｙ）及び反復コンセンサス法（ｉｔｅｒａｔｅｄｃｏｎｓｅｎｓｕｓ）等の関数最小化技法は、独立した入力によって作成された入力ベクトルに対して、冗長な入力ベクトルを全て取り除いた（ＭＡＶが見つかるときに為されることである）後に用いることができる。

（ＤＲトレーニングアルゴリズムの性能評価）
次に、本発明に係るＤＲトレーニングアルゴリズム３０に対して行なった実験の結果を記載する。これらの実験は、本発明に係るＤＲトレーニングアルゴリズムの性能を評価するものである。

本発明に係るＤＲトレーニングアルゴリズム３０の主要な目的の１つは、ＮＮが入力ベクトルの関連出力を生成するのを可能にするデータセット内においてルールを見つけることである。従って、行なった実験の目的は、ＤＲアルゴリズム３０が種々のデータタイプを学習し、かつトレーニングしたＮＮからルールが抽出されるのを可能にするアルゴリズムであることを証明することであった。

これらの実験において従った標準的な手順は：（ａ）幾らかのデータ作成があった。（ｂ）そのデータを用いてＮＮをトレーニングした。（ｃ）ＮＮをテストして、ＮＮをトレーニングした入力ベクトルに関連した出力を生成した後、トレーニングプロセスの間は見えなかった入力ベクトルに対する出力を正確に生成することができるかを決定した。（ｄ）テストセットからの正確な入力ベクトルについてパーセンテージに換算して、バックプロパゲーションを用いてトレーニングしたＮＮと本発明に係るＤＲトレーニングアルゴリズム３０を使ってトレーニングしたＮＮとの間で比較した。ＮＮをトレーニングする前に、テストをするためのテストセットを用意した。続いて、このパーセンテージを他の学習アルゴリズムの利用可能な結果と比較した。（ｅ）ＮＮをトレーニングするのに必要とされるトレーニング入力ベクトルにさらす回数を記録した。

ＤＲによってデータセットに対する学習時間を定量化することの外に、扱った別の課題は、トレーニング中にＮＮによって学習されたルールの確定である。本発明のさらなる態様に従って、先に記載した好ましい方法を用いてトレーニングしたＮＮに対して感度分析を行なうことによってルールを抽出した。これがＮＮがトレーニングされるデータセットに関する情報を提供した。次に、本発明に係るＤＲトレーニングアルゴリズム３０の性能を評価するのに用いたデータセットの種類について解説する。

（テストドメイン）
フィードフォワードＮＮは、データを分類するため、又は関数近似を行なうためのいずれかに用いることができる。入力空間内においてデータを分類する境界をモデル化することは、関数近似に相当するので、これら２つの特性は、同じ挙動を示す態様である。フィードフォワードＮＮを用いることによって利益を得ることができる潜在的な適用は多くあるが、フィードフォワードＮＮを実際に用いた適用は、関数近似の特性又はデータ分類の特性のいずれかを活用している。

ＤＲトレーニングアルゴリズム３０の挙動を評価するため、（ａ）関数近似、及び（ｂ）データ分類を実行するデータセットを用いた。

関数近似を実行するＤＲトレーニングアルゴリズム３０の能力を評価するために選んだデータセットは、「２つの螺旋を使った問題（Ｔｗｏ−ＳｐｉｒａｌＰｒｏｂｌｅｍ）」及び分類については「ドイツの信用貸付問題（ＧｅｒｍａｎＣｒｅｄｉｔＰｒｏｂｌｅｍ）」である。どちらのデータセットもフィードフォワードＮＮをテストするための標準的な問題である。

関数近似のためによく用いられている一データセットが「２つの螺旋を使った問題」である。このデータセット（図１７参照）は、共通したスタート点だが互いに１８０度のオフセットを有する２つの螺旋を含むため、解決が極めて困難であると考えられている。従って、容易に線形分離可能ではない。一般に、線形分離可能性を用いて、一ニューロンがクラスを分割し、また複雑なデータセットの場合には、複数のニューロンがクラスを分割する。「２つの螺旋を使った問題」における螺旋を記述するのにデカルト座標を用いる場合は、データセットは、容易に線形分離可能ではない。

「ドイツの信用貸付問題」は、ドイツの金融機関の債務者１０００人の記録を有する。この記録は、債務者の年齢、居住状態、信用履歴、会社員の場合はローンの目的等、たくさんの特徴を包含し、記録の分類は、債務者が良好な信用リスクであるかを明示している。トレーニングしたＮＮの目的は、ローンを求めている顧客を承認してよいか否かを予測することにある。また、金融機関は、誤りが生じた場合の誤りに対する優先事項も明示している。ある人物を誤って良好な信用リスクとするよりむしろある人物を誤って悪い信用リスクとする方がよいと考える。

これらのデータセットについての正式な定義は以下のとおりである。
データセット１：２つの螺旋を使った問題−このデータセットを最初に提案したのは、ＭＩＴＲＥ社（ＭＩＴＲＥＣｏｒｐｏｒａｔｉｏｎ）のアレクシス・ウィーランド（ＡｌｅｘｉｓＷｉｅｌａｎｄ）である。このデータセットは、組み合わさった２つの螺旋に属する１９４個の入力ベクトルを有し、これらのデータ点の半分が出力−１を生成して、残りの半分が出力１を生成すると定義されている。各スパイラルは３つの段階を有し、各螺旋を１８０度に分ける。入力ベクトルは、各データ点の位置についての浮動小数点デカルト座標を表す２次元を有する。

データセット２：ドイツの信用貸付問題−ハンブルグ大学の教授であるハンス・ホフマン博士によってこのデータセットが提供された。貸付を申請した顧客１０００人のサンプルを有する。各サンプルは、貸付を申請した人の年齢、その人の信用履歴、及び貸付の申請に関係すると考えられた他の属性等の２４個の正の整数属性からなる入力ベクトルである。ＮＮの出力が顧客を良好な信用リスク又は悪い信用リスクとして分類する。

データセットの選択基準は、ＤＲ学習が（ａ）バックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）と同等によい、言い換えれば、バックプロパゲーションが学習することができるデータセットを学習することができること、及び（ｂ）トレーニングしたＮＮからルールが抽出させられるという点でバックプロパゲーションより優れていること、を証明することであった。

「ドイツの信用貸付問題」のデータセットは、バックプロパゲーションによって学習されるのによく適しているので選択され、また「２つの螺旋を使った問題」は、バックプロパゲーションでは解決が困難であると考えられたために選択された。

（データ準備）
はじめに、本発明のさらなる態様に従って、これらの実験においてＤＲトレーニングアルゴリズムを使ってＮＮをトレーニングするのに用いられるであろう形式へとデータを作成するのに用いる好ましい方法について解説する。データを作成するときの一目的は、依然としてそのデータを正確に符号化するのと同時に、ＮＮへの入力数を最小化することにある。ＮＮによって入力ベクトルが学習される度に、制約条件をテストしてＮＮによって入力ベクトルが学習されるかを決定しなければならないことを考えると、ＮＮへの入力数を最小化するということは、言い換えれば、より速いトレーニング時間になるということである。次に、解説するようなデータ変換方法は、本発明に係るＤＲトレーニングアルゴリズム３０を用いた利用に限定されるものではないことを認識されたい。これらのデータ変換方法は、他の既知のトレーニングアルゴリズムに有用であり、それ自体を本発明に係る独立した態様とみなす。

（バイナリデータ）
先に解説したように、本発明に係るＤＲトレーニングアルゴリズムは、好ましくは、｛０、１｝^ｎの形式（ｎは、ＮＮへの入力数である）である２進数の入力ベクトルによってトレーニングされて、２進数の出力を生成する。入力ベクトルは、求めた出力のバイナリ値に基づいて望ましい出力を生成する制約条件へと変換される。データがバイナリである場合は、学習されるようそのデータを修正する必要はない。しかしながら、たいていの場合にデータはバイナリ形式ではなく、従って、好ましくは、本発明に係るアルゴリズム３０によって学習される前にバイナリ形式に変換される。

（整数）
入力ベクトル内の各次元は、その入力についての何らかの属性を表す。属性の１つが整数である場合、その整数は、好ましくはＤＲトレーニングアルゴリズムによって学習されるバイナリに変換される。次に、本発明に係るＤＲトレーニングアルゴリズム３０がいかに整数を学習することができるかに係る好ましい実施形態について解説する。

初めに、バイナリでの属性表現に必要とされるビット数を決定することが必要である。そうするため、属性が取ることのできる整数値の範囲を、範囲＝（最大−最小）＋１として算出する。続いて、その範囲をバイナリで符号化するため、必要とされるビット数を決定する。

これが属性を符号化するために必要とされるビット数を決定する一簡便な手法であって、次の（ａ）又は（ｂ）かについて考慮していない。（ａ）属性が負の整数を有する。負の整数がある場合、２の補数を用いて数字を表すことが可能である。ただし、その属性の正の値を表すのに用いられるビット数に対して付加されたビットを使用しなければならない。別の方法として、負の整数を使用しないようにその範囲を調整することができ、（ｂ）属性は範囲外になってもよい。従って、個人の年齢を備えた属性があってもよい。入力ベクトルの母集団において、単に１８歳から８４歳の年齢があるだけでもよい。ただし、トレーニングしたＮＮに８５歳の属性を与えることが必要になる場合がある。この場合、４０〜５９歳、６０歳以上といったサブ範囲の見地からデータを符号化することが可能であってもよい。

ドイツの信用貸付データセットには、考慮すべき負の整数が全くない。なお、顧客の年齢属性は、１８〜７５歳の範囲に及ぶ。その範囲にある正確な年齢を符号化するには、６ビットを必要とする。なお、フィールドを符号化するのに２ビットだけが用いられるのを可能にする年齢の範囲、例えば、１８〜２５歳、２５〜４０歳、４０〜６０歳、及び６０歳＜が、顧客の年齢を符号化するためにさらに有用である場合があるということが考えられる。こうすることで、ＬＴＧへの入力数を最小化し、かつなおもデータフィールド内にある情報の大部分を保つことができる。例えば、ある人物が銀行のローンを支払う能力があるかを決定しようとしている場合、３７歳といった特定の年齢の人物の方が３８歳である場合よりもローンを支払う見込みがあるとは考えにくい。ただし、６０歳を超える人々の方が４０歳である人々よりも働いている可能性は低いことを考えれば、年齢の範囲が重要な役割を担なうことは可能であろう。

属性の値を符号化するために必要とされるビット数は、各属性毎に個別に検討する必要がある。属性が取ることのできるある範囲の整数値を符号化するのに必要とされるビット数が確定すると、各ビット位置は、ＮＮへの個別の入力とみなすことができる。従って、単一の属性がＮＮへの複数の入力になってもよい。

このプロセスは、入力及び出力のどちらにも用いられる。

（浮動小数点データ）
ＮＮがトレーニングされることになっているほとんどのデータが浮動小数点データであるため、ＮＮをトレーニングしてこの種のデータを学習することができることは有用である。従って、浮動少数点データをバイナリデータに変換できることは有用であり、かつ好ましい。

整数である属性と同様に、浮動小数点をバイナリで表すには多くのビットを割り当てなければならない。あらためて、属性が取ることのできる値の範囲、つまり属性が範囲外の値を取ることができるか、及び属性が負の値を取ることができるかについて検討する。なお、属性のデータ点及び属性を表すときに許容できる誤差の程度を表すのにどれだけの精度が必要とされるかも考慮しなければならない。

このプロセスは、入力及び出力のどちらにも用いられる。

次に、本発明に係るＤＲトレーニングアルゴリズム３０がいかに浮動小数点データを学習することができるかに係る好ましい実施形態を記載する。

「２つの螺旋を使った問題（Ｔｗｏ−ＳｐｉｒａｌＰｒｏｂｌｅｍ）」の場合、学習されるデータセットは、（ｘ，ｙ）形式（ｘ，ｙ∈Ｒ）のデカルト座標であり、ＮＮの出力は、データ点がどの螺旋に属するかを示す。

アルキメデスの螺旋の極座標方程式から２クラスのデータ、ｒ＝θ及びｒ＝−θを取り出す。各螺旋上には９７個のデータ点があり、かつ各螺旋は３段階を有する、これにより点がおよそ７．４度離れることになる。続いて、問題の明細によって求められるとおりにその点をデカルト座標に変換する。

データ点において充分な精度があることを保証するため、データ点は、好ましくは小数点以下第３位において四捨五入する。続いて、データ点に１００を掛けた後、バイナリに変換する。負の浮動小数点数の場合は、その数の２の補数を用いる。入力ベクトルを符号化できるように、データ点のデカルト座標（ｘ，ｙ）である属性の各一毎に１２個の２進数字を用いる。ＮＮへの２個の入力を有する代わりに、２４ビットある。座標を１２個のバイナリ位置に限定することが、入力空間が充分な精度をもってアクセス可能であることを保証する。

螺旋からのサンプルデータ点を考察すると、極座標におけるｒ＝−θは（−π／２、π／２）である。この点をデカルト座標に変換すると、点は（０，−１．５７０８）になる。これらの値に１００を掛けて最も近い整数に丸めると（０，−１５７）になる。続いて、これらの値を最終的に１２桁の２進数（００００００００００００，１１１１０１１０００１１）に変換する。ＮＮに加えられる入力ベクトルは、００００００００００００１１１１０１１０００１１になる。

バイナリデータ及び浮動小数点データが変換されたところで、記号データ（ｓｙｍｂｏｌｉｃｄａｔａ）について解説する。

（記号データ）
記号データ（ｓｙｍｂｏｌｉｃｄａｔａ）は非数値データであり、演算目的においてバイナリでも浮動小数点でもない。そのデータが有する幾つかの非定量的属性を指してもよい。次に、本発明に係るＤＲトレーニングアルゴリズム３０がどのようにして記号データを学習することができるかに係る好ましい実施形態を記載する。

性別等の属性の場合、属性は２つの可能な値を有するがゆえに、例えば、女性は１かつ男性は０と、単一のバイナリ入力を割り当ててデータを符号化することができる。また、他の記号属性をバイナリ値に与えてもよい。色という記号属性に係る若干より複雑な実施例は、緑、青及び黄色の３つの値を有する。この属性の値を符号化するのに２ビットを割り当てることが可能である。例えば、このフィールドを符号化するのに２ビットを割り当てて、０１−緑、１０−青、及び１１−黄色とバイナリ値を任意に割り当てることができる。０１−青、００−緑及び１０−黄色等、代わりに使用できたであろう組み合わせが他にも多く考えられるので、これは、多くの可能な符号技法のうちの１つにすぎないことを理解されたい。２ビットの代わりに３ビットといったように他の符号化戦略を代わりに用いてもよい。あるいは、この場合は色である属性に対して、何個の値がテストされているかに応じてビット数が異なってもよい。

データ符号化戦略を選択する際の主な検討事項は、分類されるデータ及びデータから求められる分類によって決まる。

例えば、ＮＮが学習することになっているデータ属性の１つが信用履歴であり、その値が「不充分」、「平均」、「良好」及び「優秀」である場合、トレーニングしたＮＮは、良好な信用リスクである顧客をそうでない顧客から分離することになる。良好な信用履歴を有する顧客とその顧客の潜在的なローン返済能力との間には相関関係があると仮定することができる。

その属性に割り当てることができる記号値は４個あるので、４個全ての値を符号化するのに２ビットを有することが必要になるだけである。データからどんな出力が求められるかについては、値を割り当てるときに注意を払わなければならない。例えば、「不充分」を０１、「平均」を１０、「良好」を１１、及び「優秀」を００として符号化する場合、「良好」及び「優秀」が他の「不充分」及び「平均」の値から分離されることになるなら、そのデータは、入力空間においてＸＯＲを形成し、それゆえ、線形分離可能ではなくなる。本発明に係るＤＲトレーニングアルゴリズム３０は、ＸＯＲに相当するため、これを学習することができるが、そのデータを学習するには付加的なＬＴＧが必要とされる。このことを「記号上の対立（ｓｙｍｂｏｌｉｃｃｏｎｆｌｉｃｔ）」を符号化すると呼ぶことができる。入力空間において値が線形分離可能であるように、異なって符号化することによって記号上の対立を回避することができる。例えば、「良好」を１１及び「優秀」を１０、及び「不充分」を００及び「平均」を０１として符号化することがこの問題を回避する。そうすると、「良好」／「優秀」は「不充分」／「平均」から線形分離可能になる。データを符号化する最良の方法は、符号化されるデータによって決まるので、結果として、各属性を個別に検討しなければならない。

なお、任意の顧客が良好な信用リスクであるかを予測することにも影響を与える信用履歴の外に付加的な属性の関係があると仮定されるので、これは簡単化である。

出力と属性値との間に明らかなつながりが全くなくてもよいのと同時に、記号上の対立を回避することが必ずしも可能でなくてもよい。本発明に係るＤＲトレーニングアルゴリズム３０は、ＮＮ内へ求められるとおりにＬＴＧを付加することができるので、記号上の対立（ｓｙｍｂｏｌｉｃｃｏｎｆｌｉｃｔｓ）を学習することができる。

非バイナリデータを作成する方法が本発明に係るＤＲトレーニングアルゴリズム３０によって学習されることを考察したところで、次に、実験手順について検討する。

（実験手順）
上述したドメインの各一毎に同じ実験を行なった。データセットを使ってＮＮをトレーニングして、そのデータセットにさらした回数を記録した。トレーニング後にＮＮが、見えないデータをいかによく一般化できるようになったかといった見地からＮＮの性能を評価して、その結果を同じデータを使ってトレーニングしたＮＮのすでに公開されている結果と比較した。

トレーニングが完了すると、ＮＮをテストして、ＮＮがトレーニングセットに対して正確な出力を再現し、かつテストセットのある部分を分類することができることを保証した。

それぞれのＮＮに対してテストしたデータセットの概要は、上述したとおりである。先に定義した方法と同じ又は類似した好ましい方法を用いてデータセットをバイナリに変換した。

（実験結果）
次に、２つのデータセットのテスト結果について検討する。トレーニングからの結果及びテスト段階からの結果と、重要な結果が２セットある。トレーニング段階においては、データセットを学習するのに何個のトレーニングパスが必要とされたかが重要である。テスト段階においては、何個の見えない入力ベクトルが上手く分類されたかが重要である。

（２つの螺旋を使った問題（Ｔｗｏ−ＳｐｉｒａｌＰｒｏｂｌｅｍ））
既知のアルゴリズムについて公開されている結果：Ｗｅｉｌａｎｄは、１５００００〜２０００００個のエポックにおいてバックプロパゲーションの修正版を用いてＮＮをトレーニングした。しかし、標準的なバックプロパゲーションでは解答が全く見つからなかった。しかしながら、Ｌａｎｇ及びＷｉｔｂｒｏｃｋは、２−５−５−５−１のアーキテクチャ、２個の入力、それぞれ５個の隠れユニットからなる３個の中間層、及び１個の出力ユニットを備えたＮＮをトレーニングした結果、そのＮＮは、標準的なバックプロパゲーションを用いて２００００個のエポックにおいてデータセットを学習した。なお、彼らのＮＮは、それぞれ「近道」結合を用いてそれより前にある全層内の各ユニットから直接入力を受け取る中間層ユニットを有した。

（本発明に係るＤＲトレーニングアルゴリズムの実験結果）
図１７に、ＮＮがトレーニングされるデータセット１７０を示す。各螺旋は９７個のデータ点を有する。実験の結果、トレーニングしたＮＮは２４個の入力と５個の隠れＬＴＧと１個の出力ＬＴＧを有する。あらゆる場合にＡＮＤを用いてＬＴＧを結合した。ＮＮが学習したのは、単一エポックにおいてであった。

（解説）
図１８に、生成されたＮＮ１８０の概略図を示す。本発明に係るＤＲトレーニングアルゴリズム３０を使って単一パスにおいてＮＮ１８０をトレーニングして、未知の入力ベクトルのデフォルトは１を出力することとした。ＤＲ学習の結果得られたＮＮ１８０は、バックプロパゲーションに必要とされるものより標準的で単純な構造を有する。図１８に見られるように、中間層１８２内にあるＬＴＧ（ＬＴＧ_１１，ＬＴＧ_１２，ＬＴＧ_１３，ＬＴＧ_１４，及びＬＴＧ_１５）は、出力層１８４内のＬＴＧＴ_２１によってあらゆる場合にＡＮＤを使って結合された。ＮＮ１８０がトレーニングされたデータセット１７０（図１７）は、それぞれ３つの段階からなる２つの螺旋を有する。各螺旋は、９７個のデータ点を有する。ＮＮ１８０は、正確に１００％のトレーニングベクトルをリコールすることができた。

各螺旋毎に８０個の入力ベクトルを使ってＮＮ１８０をテストしたところ、トレーニングセットからはデータ点が全くなかった。１を出力することになっていた螺旋からの入力ベクトルについては、２１／８０個の入力ベクトルが間違って分類された。これは２６％の誤り率となる。

０を出力するようにトレーニングされた螺旋からの８０個の入力ベクトルのうち、３５／８０個の入力ベクトルが間違って分類された。これは４３％の誤り率になる。この結果が非常に高くなった理由は、入力ベクトルの出力が不明であったＬＴＧについて、デフォルトの出力が１だったためである。

どちらの螺旋も平均誤り率は３４．５％である。トレーニングセットに対して訂正出力を９８％予測することができたであろう場合に、ＮＮ１８０は、トレーニングされたとみなされたので、２つの螺旋を使った問題について比較できる誤り率を見つ出すことは困難であった。また、１は＞．５であって、０は＜．５であるとしてもよいので、カスケード相関アーキテクチャ（Ｃａｓｃａｄｅ−ＣｏｒｒｅｌａｔｉｏｎＡｒｃｈｉｔｅｃｔｕｒｅ、ＣＡＳ）について、誤り率を見つけ出すことは困難であった。Ｔｅｎｇらは、ニューロンが＞．８であれば有効であるとし、そうでなければ活性化されていないとした。Ｆｕら、Ｔｅｎｇら、及びＦａｈｌｍａｎらにとっていっそう重要なことは、中間層内にあるユニットの数及びＮＮをトレーニングするのに必要とされたエポック数又は時間であった。あらゆる場合に、本発明に係るＤＲトレーニングアルゴリズム３０は、１００％の正確さをもってデータセットを学習するのに最も少ない隠れユニット数を必要とし、かつたった１エポックだけを必要とした。ＤＲトレーニングアルゴリズム３０は、５個の隠れニューロンを必要とし、ＣＡＳは、平均して１２個の隠れニューロン及び１７００個のエポック、２０８２＋４７８個のエポック２１．１＋２．３個のサブＮＮ（１個以上のニューロンである）、並びに１０個の隠れユニットを必要とし、最低１０７３．４５個のＣＰＵ内において学習した。本発明に係るＤＲトレーニングアルゴリズムが最後の入力ベクトルを学習するのにかかった時間及びそれゆえに「２つの螺旋の問題」に対して任意の他の入力ベクトルを学習するのにかかった最長時間は、１５分５４秒であった。これは、制約充足ライブラリの使用のためであり、１８２個の中間層内に最後の入力ベクトルを学習するＬＴＧが５個あった。入力ベクトルをテストする平均時間は約３０分であった。バックプロパゲーションを使ってトレーニングしたＮＮは、固定サイズのＮＮを必要とするため、データセットを学習する時間は、バックプロパゲーションを使うよりも著しく短くなる。

誤り率は、データセットの内側についてより小さかった。誤り率は、各螺旋毎に最初の１．５段階内において２３％及び３３％だった。誤差の増加は、データセットの内側にあるデータ点をトレーニングするより高い密度に起因するものと考えられる。

なお、ｒ＝θを有する螺旋を予測するのによりよい成功を有した。図１９に、テストデータの結果を示す。

「□」からなる曲線上の「＋」は、正確に識別された入力ベクトルであって、「○」からなる曲線上の「×」もまた正確に識別された入力ベクトルであることを示す。他では、それらは間違って識別される。ここで、ＮＮ１８０の一般化能力を高めるのに付加的なトレーニングを与えることを必要とするのは入力空間のどの部分であるかが分かる。フィードフォワードＮＮをトレーニングするには伝統的にとても困難なデータセットであることに留意されたい。

最後の入力ベクトルを除いて、どの入力ベクトルに対しても、ＮＮ１８０の場合、中間層１８２内にある１つ以上のＬＴＧについて不完全な学習があった。ほとんどの場合、ＬＴＧ_１５において不完全な学習があった。

生成されたＮＮ１８０は、バックプロパゲーションを用いたときに生成されるＮＮよりより複雑ではない。さらには、それは困難なデータセットである。入力ベクトル数を増やしてトレーニングすることによって結果を改善することができたと考えられる。

従って、本発明に係るＤＲトレーニングアルゴリズム３０は、その一般化能力に関して、フィードフォワードＮＮをトレーニングする他の手法と同様によく動作することができる。ＤＲトレーニングアルゴリズム３０は、類似した構造をトレーニングする異なったトレーニング方法である。

次に、ＮＮ１８０内にあるＬＴＧの各一についてＭＡＶを考察して、ＬＴＧの各一が何を学習したかを明らかにする。

（「２つの螺旋を使った問題」におけるＬＴＧのＭＡＶ決定）
ＬＴＧ_１１の場合（閾値Ｔ_１１を有する）図１５の方法１５０を用いてＭＡＶを見つけることで、制約条件数を１９４個から２９個に減らした。これは８５．１％の減少又は圧縮である。このＬＴＧによって学習された他の入力ベクトルは全て、先に解説したように、ＬＴＧのＭＡＶを形成する残された点から回復することができる。この重み空間は２４次元を有する。

制約条件のうち、１３個の入力ベクトルがｘ_ｉ・ｗ_１１＞−Ｔ_１１を形成し、残りの１６個の制約条件がｘ_ｉ・ｗ_１１＜Ｔ_１１を形成した。

ＬＴＧに活性化する重み空間内の領域の面を形成する平面を調べることによってＬＴＧが何を学習したかをグラフにすることができる。これらの平面をｘ_ｉ・ｗ_１１として表す。重み空間は入力空間の変形である。ＬＴＧが何を学習したかを明らかにすることができるように、ＭＡＶ内の制約条件をそれらの制約条件が形成された元の入力ベクトルに変換し直す。続いて、元の入力ベクトルがどうやって形成されたかに係るプロセスを１０進法から２進法へと逆にすることができる。これをどのようにはじめるかについての解説は、先の、浮動小数点数を作成する方法を解説したところに記載してある。次に、中間層１８２内にある各ＬＴＧが本発明に係る方法を用いて何を学習したかを説明する。

図２０ａにおいて、中間層１８２内にある最初のＬＴＧであるＬＴＧ_１１が何を学習したかが分かる。「○」及び「□」は、元の入力ベクトルであることを示す。「□」はｒ＝θの螺旋を表し、「○」はｒ＝−θの螺旋を表している。「＋」は、ＬＴＧ_１１のＭＡＶを見つけた後に残った入力ベクトルであることを示し、このデータセットを分類することに対して顕著な入力ベクトルを表している。「×」は、ｘ_ｉ・ｗ_１１＜Ｔ_１１を用いて学習された制約条件であることを示す。「＋」は、ｘ_ｉ・ｗ_１１＞Ｔ_１１を用いて学習された制約条件であることを示す。後続のＬＴＧについても、この凡例に従う。以上がこのＬＴＧ_１１が正確に学習したことである。また、入力空間ではなく重み空間内において規定した体積の面としてデータを符号化することによってデータセットが学習されることに留意する価値がある。

伝統的に、学習しているクラスを線形分離するには入力空間を分析する。重み空間は２４次元空間なので、重み空間を調べることは不可能である。このことは、中間層１８２内にある他のＬＴＧについても同じである。なお、当該ＬＴＧであるＬＴＧ_１１は、データセット全体を学習することはできない。次に、ＬＴＧ_１２が何を学習したかを検討する。

ＬＴＧ_１２の場合、ＭＡＶを見つけることで制約条件数を１９４個から３４個に減らした。これは８２．５％の減少又は圧縮である。ｘ_ｉ・ｗ_１２＜Ｔ_１２を形成する１６個を除いた全ての制約条件がｘ_ｉ・ｗ_１２≧Ｔ_１２を形成する制約条件を生成した。図２０ｂにおいて、中間層１８２内にある第２のＬＴＧであるＬＴＧ_１２が何を学習したかが分かる。

図２０ａの場合と同じ凡例を用いると、ＬＴＧ_１２が種々の入力ベクトルを学習したことが分かる。「□」の螺旋ｒ＝θ上において、学習した入力ベクトルの全てがそのクラス、すなわちｘ_ｉ・ｗ_１２≧Ｔ_１２であることが分かるなお、このクラスでもある多くの入力ベクトルが「○」の螺旋ｒ＝−θ上にある。その理由は、当該ＬＴＧであるＬＴＧ_１２がこのデータセット内にある全てを学習することができなかったためである。また、中間層１８２出力内にあるＬＴＧがＬＴＧ_２１である出力ＬＴＧによってＡＮＤを使って結合される。このことは、当該ＬＴＧであるＬＴＧ_１２がそれらの入力ベクトルに対して０の代わりに１という間違った結果を生成する場合に、当該層内にある別の１個のＬＴＧだけがそれらの入力ベクトルを学習することができ、かつ０を生成することを意味している。次に、ＬＴＧ_１３が何を学習したかを検討する。

ＬＴＧ_１３の場合、ＭＡＶを見つけることで制約条件数を１９４個から５１個に減らした。これは７３．７％の制約条件の減少である。ｘ_ｉ・ｗ_１３＜Ｔ_１３を形成する１０個を除いた全ての制約条件がｘ_ｉ・ｗ_１３＜Ｔ_１３の形式を生成した。図２０ｃにおいて、中間層１８２の第３のＬＴＧであるＬＴＧ_１３が何を学習したかが分かる。

ＬＴＧ_１４の場合、ＭＡＶを見つけることで制約条件数を１９４個から８１個に減らした。これは５８％の減少又は圧縮である。ｘ_ｉ・ｗ_１４＜Ｔ_１４を形成する６個の制約条件を除いた全ての制約条件がｘ_ｉ・ｗ_１４≧Ｔ_１４を形成する制約条件を生成した。図２０ｄにおいて、中間層１８２内にある第４のＬＴＧであるＬＴＧ_１４が何を学習したかが分かる。

次に、ＬＴＧ_１５が何を学習したかを検討する。ＬＴＧ_１５の場合、ＭＡＶを見つけることで制約条件数を１９４個から１５９個に減らした。これは１８％の減少又は圧縮である。ＬＴＧによって学習された制約条件全てが、１個の出力ベクトルを除いて、ｘ_ｉ・ｗ_１５＞Ｔ_１５を形成する制約条件を生成した。図２０ｅにおいて、中間層１８２内にあるＬＴＧのうち最後に残ったＬＴＧ_１５が何を学習したかが分かる。

当該ＬＴＧであるＬＴＧ_１５の主な目的は、「×」によって示された入力ベクトルを学習することである。また、当該ＬＴＧは、ｒ＝θ螺旋に「□」によって示されるほど多くの点を有する。

中間層１８２内にあるＬＴＧについては、２つの螺旋に対して異なった曲線部分を学習したことが分かる。ＮＮ１８０は１００％の正確さをもって教えられたことを再現することができたのを思い出すことが大切である。

ＬＴＧ_２１又はＮＮ１８０の出力ＬＴＧに対してもＭＡＶが配置された。それは、その入力結合全てとの間にＡＮＤを形成したため、３２個の制約条件があった。これでＭＡＶ内における制約条件が６個に減った。これは８１％の減少又は圧縮である。

ＭＡＶを定義するものと判明した入力ベクトルに関数最小化を適用することはできない。その理由は、データが依存しているためであり、言い換えると、入力ベクトルが単一数を定義し、それゆえ関数最小化が意味のない情報を与えることになるからである。

（ドイツの信用貸付問題（ＧｅｒｍａｎＣｒｅｄｉｔＰｒｏｂｌｅｍ））このデータセットは、それに関連したコストマトリックスを有する。コストマトリックスを表３に記載する。縦の行が予測したクラスを示し、横の列が実際のクラスを示す。顧客が良好であると予測されて、かつローン返済にあたり良好である場合、また同様に顧客が不適当な信用リスクであると予測されて、かつそうであると証明される場合には損失はない。ただし、ある人物が実施には良好であるときに不適当な信用リスクであると予測される場合には、貸付機関の利益を損なうことになる。しかし、顧客が実際には不適当な信用リスクであるときに良好な信用リスクであると予測されるケースの方がいっそう悪い。ＮＮのコストを算出するときに考慮する必要がある誤りのクラスが２つある。

ドイツの信用貸付問題データセットのコストマトリックス

既知のアルゴリズムについて公開されている結果：バックプロパゲーションの誤り率を表４に記載する。バックプロパゲーションがコストマトリックスに対して求められるとおりには誤りクラスを識別しないため、これらの数値にはコストマトリックスが含まれない。

バックプロパゲーションの誤り率

このデータセットと併せてバックプロパゲーションを用いてＮＮをトレーニングするのに必要とされる時間及びテストするのに必要とされる時間を表５に記載する。

バックプロパゲーションのトレーニング時間

（本発明に係るＤＲトレーニングアルゴリズムの実験結果）
このデータセットを使ってトレーニングすると、１個の出力と２個の中間層ＬＴＧを有するＮＮを生成した。中間層のＬＴＧは、ＯＲ結合によって結合された。データセット内には１０００個の入力ベクトルがある。１０００個のベクトルからなるデータセットから１００個の入力ベクトルからなるテストセットを任意に選択した。トレーニング後に生成されたＮＮ１９０の概略図を図２１に示す。

テストを行なうために取って置いた１００個の入力ベクトルの中から、出力に対して０を生成する８９個ある入力ベクトルのうち間違って識別された入力ベクトルは４個だった。従って、８５個の入力ベクトルが正しく識別された。テストセット内の出力に対して１を生成する１１個の入力ベクトルのうち、正しく識別された入力ベクトルは９個だった。従って、２個の入力ベクトルが間違って識別された。これらの結果を表６にまとめる。

ドイツ信用問題の結果まとめ

１を生成する入力ベクトルに対する誤り率が１８％と幾分高いことが分かった。０を生成する入力ベクトルに対する誤り率は４．４％である。誤りは全体で６％である。付加的なトレーニングは、どちらの種類の出力を備えた入力ベクトルに対しても誤り率を低くするものと考えられる。ＮＮ１９０は、学習したことを１００％の正確さをもって再現することができた。

誤りの結果は全てバックプロパゲーションよりも良好であり、バックプロパゲーションでは０．４４６のトレーニング誤り及び０．７７２のテスト誤りがあった。

この実験は、本発明に係るＤＲトレーニングアルゴリズムが提供する、バックプロパゲーション等の既知のトレーニングアルゴリズムに勝る重要な利点を明らかにしている。重みは、それらが学習しようとしているデータセットに固有のルールを符号化しようと試みる平均値を表すので、バックプロパゲーションの場合、誤りを０にすることはできない。バックプロパゲーションを用いるときの各知覚における単一重み値は、それが各入力ベクトル毎に正確な出力を生成するように学習するのを可能にするであろう各入力ベクトル毎に必要とされる重み値を正確に表すことができない。それは各入力ベクトル毎に正確な出力を可能にするので、これが、重み空間内においてその領域を見つけることの利益のうちの１つである。

ＮＮ１９０を合計２６８個の入力ベクトルを使ってトレーニングしたところ、これらの入力ベクトルのうち１６８個が１を生成し、残りの１００個の入力ベクトルが０を生成した。これらの入力ベクトルは、テストに用いられず、残っていた９００個の入力ベクトルから任意に選択したものであった。トレーニングするのに、もっと多い入力ベクトルを用いることもできたであろう。

トレーニングに利用可能なデータセットのうち＜１／３を使ってＮＮ１９０をトレーニングしたところ、バックプロパゲーションより良好な誤り率を生成した。

これらの実験の結果は、本発明に係るＤＲトレーニングアルゴリズムが実際のデータセットに用いられるものであるならば、より高速な制約条件テスト方法が好ましいことを示している。

また、実験の結果は、すでに学習した入力ベクトルの数に応じて、各入力ベクトルを学習するのに必要とされる時間量が増加したことも示した。このことを改善する方法は少なくとも２つあり、それらは、（１）平行プロセッサを用いること、又は（２）より効率のよい制約条件テストアルゴリズムを用いることである。多くのメモリを備えた最新式のプロセッサは、ＤＲトレーニングアルゴリズム３０の動作を向上させることができるとも考えられている。

テスト用に予約してあった１００個の入力ベクトルのうち、１１個の入力ベクトルが出力１を生成し、残りの８９個の入力ベクトルが出力として０を生成する。データセット全体において１を生成する入力ベクトルは相対的に少ない。なお、出力が何であるべきかが分からないときは０を出力する傾向があるので、ＮＮ１９０が上手く１を出力する方法を学習するように、１を出力する相対的により多くの入力ベクトルを使ってトレーニングすることが決まった。このように１よりむしろ０を出力する傾向が選択されていた訳は、偽陰性の偽陽性より優先される比は５：１であると指定されているためである。このことは、偽陰性対偽陽性５：１の分類誤りを優先させることを示すコストマトリックスに基づいている。言い換えれば、顧客が実際には不適当であるのに良好な信用リスクであるとして誤って識別するよりもむしろ、顧客が実際には良好な信用リスクであるときに不適当な信用リスクとして分類することを優先させることになる。

従って、表３におけるコストマトリックスを適用すると、コストは１４である。ＮＮをテストするとき平均誤りだけが回収されるので、従来のＮＮトレーニングアルゴリズムを使ってコストを決定することは可能ではない。

制約条件をテストするライブラリ関数の結果として、トレーニング時間がバックプロパゲーションの場合より長くなったが、本発明に係るＤＲトレーニングアルゴリズム３０は、入力ベクトルを学習するのにデータセットのうち１パスのみ、及びＮＮ１９０をトレーニングするのに利用可能なデータセットのうち１／３のみを必要とした。

（「ドイツの信用貸付問題」におけるＬＴＧのＭＡＶ決定）
図１５のＭＡＶを決定するための方法１５０を用いてＮＮ１９０内にあるＬＴＧに対してＭＡＶを配置した。層内にある最後のＬＴＧ又は現在の出力ＬＴＧの場合、トレーニング中にＬＴＧのＭＡＶを見つけることは、ＮＮ１９０が学習したことを忘れるであろうことを意味する可能性があるのが分かった。これは、先に、ＮＮ内にＬＴＧを付加するときのロジックを実装する方法を解説したところで記載したとおり、新しく付加したＬＴＧを層内にコピーするときに制約条件が修正されるためである。

トレーニング中に形成された２６８個の制約条件のうち、ＬＴＧ_１１のＭＡＶを見つけた後は４５個が残っていた。これは、ＬＴＧのために重み空間を定義する制約条件の８３％の減少である。これらの制約条件のうち、１８個がｘ_ｉ・ｗ_１１≧Ｔ_１１の形式になる制約条件を生成した。

トレーニング中に形成された制約条件を考察する際、ＬＴＧが何を学習したかは（ｘ_ｉ・ｗ_１１≧Ｔ_１１ＯＲｘ_ｉ＋１・ｗ_１１＞Ｔ_１１ＯＲ．．．ＯＲｘ_ｉ＋ｎ・ｗ_１１≧Ｔ_１１）ＡＮＤＮＯＴ（ｘ_ｊ・ｗ_１１＜Ｔ_１１）ＡＮＤＮＯＴ（ｘ_ｊ＋１・ｗ_１１＜Ｔ_１１）ＡＮＤＮＯＴ．．．の形式において読み取ることができる。

それ自体を論理分析に与えるのがこの形式においてであるので、このデータセットの分類にどの変数が無関係であるかを推論することができる。

一般によくあるように、入力は独立して存在することを考えると、クワイン−マクラスキー法（Ｑｕｉｎｅ−ＭｃＣｌｕｓｋｅｙ）又は反復コンセンサス法（ｉｔｅｒａｔｅｄｃｏｎｓｅｎｓｕｓ）等の関数最小化技法の利用は、特に重要である変数を見つける。ＭＡＶを見つけることによって余分な入力ベクトルの全てを取り除くことができるので、関数最小化技法を用いるというタスクをはるかに容易にし、起こり得る指数的な複雑さを抑えるのに役立つ。

なお、元のデータセット内にある幾つかの変数が複数のビット位置に変換されたので、それらの制約条件が何を表しているかを知ることはいっそう興味深い。

第２のＬＴＧであるＬＴＧ_１２を中間層１９２及び新しい出力ＬＴＧに付加させたのは、入力ベクトル［１０００１１１０１０１０１０００００１０００１１００１１０１０１０００１０１０００１］→ｌであった。ベクトルをフィールドに分割すると［１０００１１１０１０１０１０００００１０００１１００１１０１０１０００１０１０００１］．このベクトルを翻訳すると「この顧客は預金口座を有してない、ローンは＜１２ヶ月でなければならない、指定期間内に現在あるクレジットの全てを返済した、家具／設備にローンを希望、１０００〜５０００ＤＭの間で借り入れを希望、顧客の就労期間は＜１年、自由に使える所得のパーセンテージは＜１％、既婚女性／離婚、保証人なし、同一住所に４年以上居住している、この顧客は幾らかの貯金又は生命保険を有する、年齢が２５〜４０歳の間の女性である、家屋を所有している、当行において他にクレジットなし、熟練労働者である、扶養義務のある人物がいない、その女性名義の電話がない、及び外国人労働者である」となる。

トレーニング中に形成された２６８個の制約条件のうち、ＬＴＧ_１２のＭＡＶを見つけた後は１３９個が残った。これは、ＬＴＧのために重み空間を定義する制約条件の４８％の減少である。これらの制約条件のうち１４個がｘ_ｉ・ｗ_１１＞Ｔ_１２になるような制約条件を生成した。

出力ＬＴＧであるＬＴＧ_２１は、その入力結合間にＯＲを形成した。結果として４個の制約条件を形成した。ＭＡＶを決定した後、制約条件数は３個にまで減った。これは、制約条件数において２５％の減少である。

このようなデータセットの場合、４２次元を有するので、このプロセスを自動化することが非常に望ましい。中間層１９２内にある各ＬＴＧ毎にＭＡＶを見つけた後もなお４５個及び１３９個の検討すべき制約条件又はルールがあり、このプロセスを自動化しなければ扱いにくくなる恐れがある。なお、良好な信用リスクである顧客を決定するためＬＴＧが学習したことを基にした大まかなルールは、「自宅を貸していない又は借りていない、若しくは不動産／貯蓄又は（深刻な借金及び保証人）を有する」といったようなものであるということができる。

なお、ＮＮ１９０が入力ベクトルのうち２つをテストセットから正確に分類しなかったことを考えると、ＮＮ１９０がまだ学習していない付加的特徴がデータセット内に少なくとも１つあることになる。

（両データセットの実験結果まとめ）
どちらの場合にもＮＮ１８０、１９０が１００％の正確さをもってトレーニングセットを再現することができたことを考えると、比較の基準に基づき、どちらの場合にも学習されたルールの正確さは極めて高い。このことは、バックプロパゲーションがトレーニング中に確定する平均重み値と対照をなす。必然的に、バックプロパゲーションを用いる場合、ＮＮがトレーニングされたデータ上においてＮＮをテストすると、出力に幾らかの誤差がある。入力ベクトルが分類される速度は、実行するルーチンを処理する制約条件に必要とされる時間に基づく。アルゴリズムがライブラリを処理する制約条件を頼りにすることを考えると、データセットを学習する時間は相対的に遅い。なお、アルゴリズム３０を動作させるのに適当なコード及び／又はハードウェアを用いれば、入力ベクトルを１秒未満で学習したであろうことが考えられる。また、データセットは、そのデータセットの単一パス内において学習されることが可能である。このことは、ＮＮが絶えずデータセットを学習するものであるかが分からないバックプロパゲーションと対照をなす。

さらに、トレーニング中に学習されたルールは、非常にわかりやすいということが分かった。一方、数値アルゴリズムを使ってトレーニングしたＮＮ内において符号化されるルールは、ほぼ完全に理解不能である。

従って、本発明は、フィードフォワードＮＮの利用に関連した多くの利益を提供する。主な貢献を次のようにまとめることができる。（ａ）ニューロン、好ましくはＬＴＧをトレーニングする新規方法である。（ｂ）ＬＴＧをトレーニングする新規方法に基づいてフィードフォワードＮＮをトレーニングするアルゴリズム３０は、（ｉ）データセットを学習するのに必要とされるとおりにＬＴＧをダイナミックに配置し、（ｉｉ）単一パス内において学習し、かつ（ｉｉｉ）簡易方法１５０が、得られたＮＮから容易に読み取られるようにトレーニング中に学習するルールを決定するのを可能にし、かつ（ｃ）ＬＴＧが何を学習したかを分析する簡易方法１３０を可能にする。

ＬＴＧをトレーニングする新規方法は、重みと各ＬＴＧの閾値との関係を見つけ出すものである。これは、ＬＴＧが入力を正確に学習してリコールすることを可能にする。言い換えると、ニューロンをトレーニングする従来の方法が生成を希望する近似値の代わりに、入力が正確に再現されることが可能である。

本発明に従ってＬＴＧをトレーニングする方法は、ＬＴＧに活性化する各ＬＴＧの重み空間内における体積を見つ出して、ＬＴＧへの入力間の関係を体積の面へと符号化する。

この方法は、ＬＴＧが問い合わせられて、入力ベクトルを学習したか又は学習することができるかを、それゆえ入力ベクトルを分類する方法を知っているかを決定するのを可能にする。このテストは、ＬＴＧをＮＮ内に配置することがいつ必要とされるかを決定する容易な方法を提供する。

その方法は、先に学習した入力をリコールしかつ一般化する等、従来の方法を使ってトレーニングしたニューロンが実行する機能の全てをＬＴＧが実行するのを可能にする。

本発明に従って、ニューロン、好ましくはＬＴＧをトレーニングする新規トレーニング方法の主な適用は、データセットを学習するＮＮに対して求められるとおりにニューロンを配置するＤＲ学習アルゴリズム３０の開発である。これは、ＮＮの分野に対する重要な貢献である。

フィードフォワードＮＮをトレーニングするこの方法が固定サイズのＮＮ（ＮＮ内にあまりに多い又はあまりに少ないニューロンを有する場合がある）の問題を解決する。

本発明に係るＤＲトレーニングアルゴリズム３０の最も重要な特徴の１つが単一パスにおいてデータセットを学習する能力である。これは、潜在的に指数的なトレーニング時間になるという問題を解消するので、ＮＮの分野に対して大きな貢献である。トレーニング時間は、ＬＴＧに問い合わせて入力が学習されたか又は学習され得るかを決定するのに必要とされるソフトウェアを処理する制約条件の速度に依存する一方で、そのことは、決定論的な時間量のうちにＮＮは学習するものであることを意味する。

また、トレーニングに先行して、データを適当なフォーマットに変換するための有用な方法も提供するので、ＮＮのトレーニング時間を改善するのに活用することができる。同様に、ＮＮによってトレーニングされるデータを予め仕分けるための有用な方法もまた提供するので、データ分類の効率を上げるのに活用することができる。これらの方法は、あらゆるＮＮトレーニングアルゴリズムに対して有用であると考えられる。

本発明の別の利点は、フィードフォワードＮＮの挙動、特にトレーニングの進行中に学習したルールを見抜く能力である。トレーニング方法がリレーショナル（関係的）であるため、本発明の利点は、入力間の関係を見つけ出すことであることを意味しており、それら入力間の関係は、ＬＴＧに活性化する体積の重み空間内における領域の面として蓄積される。後で従来の感度分析を行なうのに用いることができるＭＡＶを見つけることによってこれらの関係が回復されるのを可能にする有用な方法１５０を提供する。ＬＴＧを層内に結合するのに用いる論理的関係をＮＮから直接読み取ることもできる。

フィードフォワードＮＮのための従来のトレーニング方法は、トレーニング中に学習したルールをデータセットに関する多くの情報が失われる単一数値へと圧縮する。従来のトレーニング方法からでは、数値が表そうとしている考えられ得る限り最良の平均値をどれだけ正確に表しているかを決定することは可能ではない。

本発明に係るＤＲトレーニングアルゴリズム３０は、好ましくは全ての入力ベクトルを制約条件に変換し、かつその制約条件内に包含される関係をＬＴＧを活性化する重み空間内における体積の面として蓄積する。このことは、全入力がリコールされるのを可能にし、本発明のさらなる態様によりＭＡＶを決定する方法１５０を用いることによって制約条件セットを最小数の制約条件にまで減らすことができる方法を提供する。ＬＴＧのＭＡＶを見つけることによって、ＬＴＧの制約条件セットから制約条件を取り除くときに情報は全く失われない。

ＭＡＶを見つけ出す方法１５０は、ＮＮに限定されるものではない。ＭＡＶを見つけ出す方法は、最適化及びオペレーションリサーチ型の問題に用いられるＣＳＰ等の制約条件のシステムを用いる他の分野にも有用である。

行なった実験は、ＮＮをトレーニングするのに、トレーニングされるＮＮ内にある重みよりも多くの入力ベクトルが必要とされるとは必ずしもいえないことを示した。これは、各入力ベクトルがＮＮ内にある各重みをトレーニングしているからである。ＤＲ学習は、どの入力ベクトルがＬＴＧをＮＮに付加せしめているのかを容易に識別する簡易テストを提供する。完全なデータセットを使ってトレーニングすることが必ずしも必要なわけではない。

ＮＮが一般化できない潜在的な原因は、先に、ＮＮが充分にトレーニングされず、その結果、見えない入力ベクトルの出力が分からないということを述べたところで解説している。本発明のさらなる態様に従えば、逆に、見えない入力ベクトルに対する出力が何かをＮＮが知っているか決定するのに用いることができ、かつどの入力ベクトルが未知であるかを明らかに識別することができる方法１３０を提供する。従って、ＮＮは、どの入力ベクトルについて付加的なトレーニングを必要としているのかを特定することができる。

入力ベクトルが既知であるか未知であるかを決定する方法１３０は、ＮＮに限定されるものではない。入力ベクトルを分類する方法は、サンプルＤＮＡに関して、データ列の分析等制約条件のシステムを用いる他の分野にも有用であると考えられる。同様に、入力ベクトルを分類する方法をＣＳＰ及びオペレーションリサーチの用途にも有用であり得る。

本明細書において本発明の一般的な性質及び例として幾つかの具体的な実施形態のみを規定しているため、本発明は、当業者にとって容易に明らかになるであろう多くのさらなる変更及び本発明の広い範囲及び領域内に存在するとみなされるであろう多くのさらなる変更をも含むものであると理解されるであろう。

本発明がより明確に理解され実用化されるために、以下に本発明に係るＮＮをトレーニングする方法及び／又はシステムの好適な構成を詳細に説明する。以下の説明は、非限定的な例としてのみ与えられ、添付の図面を参照する。
２入力１出力フィードフォワードＮＮの基本構造の例を示す模式図である。本発明の好適な実施形態に係るＮＮのトレーニング方法を示すフロー図である。図２のＮＮのトレーニング方法に従ってトレーニングされたＮＮの出力の単一のパターンを学習する好適な方法を示すフロー図である。図２のＮＮのトレーニング方法に従ってトレーニングされたＮＮの中間層に新たなニューロンを割り当てる好適な方法を示すフロー図である。図２のＮＮのトレーニング方法に従ってトレーニングされたＮＮに新たな出力ニューロンを割り当てる好適な方法を示すフロー図である。本発明のＮＮトレーニング方法の好適な実施形態に従ってＮＮに新たなニューロンを割り当てる様子を示す模式図である。２入力ＬＴＧ−ＮＮの基本構造の例を示す模式図である。本発明のＮＮトレーニング方法に従ってＭｏｄｕｌｏ−８問題を用いてトレーニングされた、３出力ＮＮの好適な実施形態を示す模式図である。本発明のＮＮトレーニング方法の好適な実施形態に従ってＮＮの中間層にニューロンを割り当てる様子を示す模式図である。本発明のＮＮトレーニング方法の好適な実施形態に従ってトレーニングされたＮＮに新たな出力層を追加する様子を示す模式図である。３入力ＬＴＧ−ＮＮの基本構造の例を示す模式図である。本発明の好適な実施形態に従って行われる、制約条件セットの入力ベクトルが既知か未知かを判定する方法を示すフロー図である。トレーニングされたＬＴＧの重み空間を一般化した図である。好適な実施形態に従って、本発明のＮＮトレーニング方法でトレーニングされたＭｏｄｕｌｏ−８問題を解決することができるＮＮを示す模式図である。本発明の好適な実施形態に従って行われる、制約条件セットの最小活性化体積（ＭＡＶ）を判定する方法を示すフロー図である。本発明の好適な実施形態に係るＮＮのトレーニング中に学習された活性化体積及びその他の制約条件を一般化した図である。ＮＮのトレーニングのテストに用いられる認められたデータセットである二重螺旋問題用のデータセットを示す図である。本発明のＮＮトレーニング方法の好適な実施形態に従って生成され、図１７のデータセット二重螺旋問題を解決するＮＮを示す模式図である。図１７の二重螺旋問題テストデータセットでトレーニングされた図１８のＮＮの結果を示す図である。図１７の二重螺旋問題テストデータセットでトレーニングされたときに図１８のＮＮの中間層の各ニューロンが本発明のＮＮトレーニング方法を用いて学習したことを示す図である。本発明のＮＮトレーニング方法の好適な実施形態に従って生成され、ドイツクレジットデータセット問題を解決するＮＮを示す模式図である。

Claims

人工ニューラルネットワークをトレーニングするための方法であって、前記方法は、
（ｉ）トレーニングするニューラルネットワークの出力を選択し、前記ニューラルネットワークの出力ニューロンを、前記選択した出力のためのニューラルネットワークの入力層の一又はそれ以上の入力ニューロンに接続するステップと、
（ｉｉ）前記ニューラルネットワークに学習させるデータセットを用意するステップと、
（ｉｉｉ）前記用意したデータセットの入力ベクトルを前記ニューラルネットワークの第１の中間層に、又は前記ニューラルネットワークが少なくとも１つの中間層を有さなければ前記ニューラルネットワークの出力層に加えることにより前記用意したデータセットを前記ニューラルネットワークに加えて学習させるステップと、前記ニューラルネットワークの各層における前記選択された出力のための少なくとも１つのニューロンが、入力ベクトルに対する関連付けられた出力の生成を学習しうるか否かを決定するステップと、を含み、
前記ニューラルネットワークの各層における前記選択された出力のための少なくとも１つのニューロンが前記入力ベクトルに対する前記関連付けられた出力の生成を学習でき、かつ学習するために前記用意したデータセットのさらなる入力ベクトルが存在する場合には、次の入力ベクトルに対してステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングすべき出力がまだある場合には、前記ニューラルネットワークの次の出力に対してステップ（ｉ）から（ｉｉｉ）を繰り返し、
前記ニューラルネットワークの前記選択された出力に対する中間層のニューロンが前記入力ベクトルに対する前記関連付けられた出力の生成を学習できない場合には、前記選択された出力に対して当該中間層の全ての他のニューロンが学習できなかった前記関連付けられた出力を学習するために当該中間層に新規なニューロンが追加され、当該新規なニューロンは、最後にトレーニングされたニューロンにより学習された入力−出力の関連付けをコピーすること、及び学習されなかった最後の関連付けに基づき前記入力−出力の関連付けを変更することにより形成される、変更されたデータセットにより更新され、学習すべき前記データセットの入力ベクトルがまだある場合には、ステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングすべき出力がまだあるならば前記ニューラルネットワークの次の出力に対してステップ（ｉ）から（ｉｉｉ）を繰り返し、
前記ニューラルネットワークの前記選択された出力に対する出力ニューロンが前記入力ベクトルに対する前記関連付けられた出力の生成を学習できなければ、当該出力ニューロンは前記ニューラルネットワークの中間層のニューロンとなり、出力ニューロンが学習できなかった前記関連付けられた出力を学習するために新規なニューロンが当該中間層に追加され、当該新規なニューロンは、最後にトレーニングされたニューロンにより学習された入力−出力の関連付けをコピーすること、及び学習されなかった最後の関連付けに基づき前記入力−出力の関連付けを変更することにより形成される、変更されたデータセットにより更新され、前記選択された出力に対して前記ニューラルネットワークに新規ニューロンが追加され、学習すべきデータセットの入力ベクトルがまだある場合には、ステップ（ｉｉｉ）を繰り返し、さもなければ、トレーニングすべき出力がまだある場合には、前記ニューラルネットワークの次の出力に対してステップ（ｉ）から（ｉｉｉ）を繰り返す、
方法。
（ｉｉ）前記データセットを用意するステップは、（ｉ）前記ニューラルネットワークを形成するステップの前に行われる、請求項１に記載の方法。
前記ニューラルネットワークの前記ニューロンは、線形閾値素子（ＬＴＧｓ）である、請求項１又は２に記載の方法。
前記ステップ（ｉｉｉ）において、ＬＴＧが入力ベクトルに対して関連付けられる出力の生成を学習するか否かを決定することは、ＬＴＧの重みとＬＴＧの閾値との関係を示すＬＴＧの入力−出力の関連付けが、ＬＴＧの前の学習に基づく解答を有するか否かを決定することを含む、請求項３に記載の方法。
前記関係は制約条件であり、入力ベクトル及びＬＴＧの重みベクトルは、ニューラルネットワークの選択された出力に基づくＬＴＧの閾値との関係を形成する、請求項４に記載の方法。
制約条件の学習は、ＬＴＧの制約条件セットに前記制約条件を追加することである、請求項５に記載の方法。
ＬＴＧの制約条件セットに制約条件を追加するためには、全ての制約条件に解答が存在しなければならない、請求項６に記載の方法。
（ｉ）トレーニングするニューラルネットワークの出力を選択し、前記ニューラルネットワークの出力ニューロンを、前記選択した出力のためのニューラルネットワークの入力層の一又はそれ以上の入力ニューロンに接続するステップは、さらに、出力ＬＴＧの制約条件セットが空となるように出力ＬＴＧの制約条件セットをクリアするステップを含む、請求項６又は７に記載の方法。
学習される前記データセットを用意する前記ステップは、前記データセットがトレーニングのために前記ニューラルネットワークに提示される前に、前記データセットを所定のデータフォーマットに変換するステップと、前記データセットがトレーニングのために前記ニューラルネットワークに提示される前に、前記データセット内に何らかの不一致が存在するか否かを決定するステップと、前記データセットがトレーニングのために前記ニューラルネットワークに提示される前に、前記データセットをソートするステップと、前記データセットがトレーニングのために前記ニューラルネットワークに提示される前に、前記データセット内で取得可能な全ての入力に対してゼロの値を有する入力ベクトルが存在するか否かを決定し、前記データセット内で取得可能な全ての入力に対してゼロの値を有する入力ベクトルが存在する場合には、前記データセットは、全ての入力に対してゼロの値を有する前記入力ベクトルが最初にトレーニングされる前記ニューラルネットワークに提示されるように順序付けされるステップと、を含む、請求項１から８のいずれか一項に記載の方法。
前記所定のデータフォーマットはバイナリ又は浮動小数点データフォーマットである、請求項９に記載の方法。
前記ニューラルネットワークにデータセットが提示される前にデータセットに何らかの不一致があるか否かを決定する前記ステップは、異なる出力を生じる２以上の同一の入力ベクトルがあるか否かを決定することを含む、請求項９又は１０に記載の方法。
異なる出力を生じる２以上の同一の入力ベクトルがあるか否かが決定された場合には、ただ１つの入力ベクトルが用いられる、請求項１１に記載の方法。
トレーニングのために前記ニューラルネットワークに提示される前に前記データセットをソートするステップは、前記データセットの入力ベクトルを２つのセットにソートするステップと、１を出力するものをその出力について０を生成するものから分離して、最初にトレーニングされる２つのセットの一方を選択するステップと、自己組織化マップ（ＳＯＭ）により前記データを並び替えるステップと、を含む、請求項９から１２のいずれか一項に記載の方法。
現在トレーニングされる入力層に対する単一のソートされたデータセットは、トレーニングのために前記ニューラルネットワークに提示される前に２つに分離された前記データセットから生成される、請求項１３に記載の方法。
ステップ（ｉｉｉ）に係る中間層内の他のＬＴＧによって学習され得ない制約条件を学習するために新規なＬＴＧが前記中間層に追加される場合には、前記新規なＬＴＧは、前記ニューラルネットワークの選択された前記出力に寄与する次層内の全てのＬＴＧに接続され、前記新規なＬＴＧからの入力を受け付ける前記次層内の前記ＬＴＧの制約条件セットは、前記新規なＬＴＧからの入力を受け付けるために更新され、前記新規なＬＴＧを有する層が前記ニューラルネットワークの第１の中間層でない場合には、前記新規なＬＴＧは、前記ニューラルネットワークの選択された出力に寄与する先行層内の全てのＬＴＧからの入力に接続され、かつ全てのＬＴＧからの入力を受け付け、前記新規なＬＴＧの制約条件セットは、前記中間層内の他のＬＴＧにより学習され得ない制約条件のコピー及び変更されたデータセットを含むように更新され、
前記変更されたデータセットは、制約条件間の関係を以下のように変更することにより、前記中間層内の最後にトレーニングされたＬＴＧの制約条件セットから形成される、変更された制約条件セットとして前記新規なＬＴＧに対して表され、
ｘ _ｉ．ｗ≧Ｔが学習され得ない場合には、最後にトレーニングされたＬＴＧの制約条件セットからｘ _ｉ．ｗ＜Ｔであるとして全ての制約条件を変更し、
ｘ _ｉ．ｗ＜Ｔが学習され得ない場合には、最後にトレーニングされたＬＴＧの制約条件セットからｘ _ｉ．ｗ≧Ｔであるとして全ての制約条件を変更し、
ここでＴは、前記ＬＴＧの閾値である、請求項５に記載の方法。
ステップ（ｉｉｉ）に係る前記ニューラルネットワークに新規な出力ＬＴＧが追加される場合には、前記新規な出力ＬＴＧは、前記中間層内のＬＴＧからの入力に接続され、かつ前記中間層内のＬＴＧからの入力を受け付けし、前記中間層が前記ニューラルネットワークの前記第１の中間層ではない場合には、前記中間層内の前記新規な出力ＬＴＧは、前記ニューラルネットワークの選択された前記出力に寄与する先行層内の全てのＬＴＧからの入力に接続され、かつ前記先行層内の全てのＬＴＧからの入力を受け付け、前記中間層に追加された前記新規なＬＴＧの制約条件セットは、前記先行層内の他のＬＴＧにより学習され得ない制約条件のコピー及び変更されたデータセットを含むように更新され、
前記変更されたデータセットは、制約条件間の関係を以下のように変更することにより、前記中間層内の先にトレーニングされたＬＴＧの制約条件セットから形成される、変更された制約条件セットとして前記新規なＬＴＧに対して表され、
ｘ _ｉ．ｗ≧Ｔが学習され得ない場合には、先にトレーニングされたＬＴＧの制約条件セットからｘ _ｉ．ｗ＜Ｔであるとして全ての制約条件を変更し、
ｘ _ｉ．ｗ＜Ｔが学習され得ない場合には、先にトレーニングされたＬＴＧの制約条件セットからｘ _ｉ．ｗ≧Ｔであるとして全ての制約条件を変更し、
ここでＴは、前記ＬＴＧの閾値であり、
前記新規な出力ＬＴＧは、前の出力ＬＴＧによって学習され得なかったものに従って所定の論理関係内に当該入力を結合する、請求項５又は請求項１５に記載の方法。
ステップ（ｉｉｉ）に従って新規な出力ＬＴＧがニューラルネットワークに追加されるときに、この新規な出力ＬＴＧへの入力間に生じる論理関係は、論理ＯＲ、論理ＡＮＤ又は任意の他の等価な論理関係である、請求項１６に記載の方法。
前の出力ＬＴＧによって学習し得なかった入力ベクトルが出力１を生成する場合には、前記新規な出力ＬＴＧへの前記入力間で論理ＯＲが用いられ、前の出力ＬＴＧによって学習し得なかった入力ベクトルが出力０を生成する場合には、前記新規な出力ＬＴＧへの前記入力間で論理ＡＮＤが用いられる、請求項１７に記載の方法。
トレーニング中にニューラルネットワークの層内に新規なニューロンを追加するための方法であって、前記新規なニューロンは、選択された出力に対する当該層内の他のニューロンが学習されるデータセットの入力ベクトルに関連付けられる関係を学習しえないときに前記ニューラルネットワークに追加され、前記方法は、
当該層内の他のニューロンにより学習され得ない関係、及び前記ニューラルネットワークの前記選択された出力に寄与する当該層内の最後にトレーニングされたニューロンからの変更されたデータセットの両方で前記新規なニューロンを更新するステップであって、前記最後にトレーニングされたニューロンから前記新規なニューロンへの全ての学習された関係をコピーし、かつ当該層内の他のニューロンにより学習され得ない関係に基づいて、コピーされた前記関係を変更することにより、前記変更されたデータセットが形成される、ステップと、
前記新規なニューロンからの入力を受け付けるように一又はそれ以上の出力ニューロンを更新するステップと、を含む、方法。
前記ニューラルネットワークのニューロンはＬＴＧである、請求項１９に記載の方法。
前記関係は、ＬＴＧの重みとＬＴＧの閾値との関係である、請求項２０に記載の方法。
前記関係は、制約条件であり、前記データセットの前記入力ベクトル及びＬＴＧの重みベクトルは、前記ニューラルネットワークの前記出力に基づく前記ＬＴＧの閾値との関係を形成する、請求項２０又は２１に記載の方法。