JP2008041085A

JP2008041085A - 環境に対して自律的に適応する自律適応型システム

Info

Publication number: JP2008041085A
Application number: JP2007185020A
Authority: JP
Inventors: Yasuo Kinouchi; 康夫木ノ内; Shoji Inabayashi; 昌二稲林; Katsumasa Masuda; 勝政増田
Original assignee: PACIFIC TECHNOS CORP
Current assignee: PACIFIC TECHNOS CORP
Priority date: 2006-07-14
Filing date: 2007-07-13
Publication date: 2008-02-21

Abstract

【課題】シンプルなニューラルネットワークを用いて実現が可能な、複雑な環境に自律的に適応する自律適応型システムを提供する。
【解決手段】実環境から得られた多数の微細特徴信号を複数の概念形成モジュールに入力すると共に、複数の概念形成モジュールがそれぞれ逆方向処理して形成した多数の微細特徴信号を一時的に記憶し複数の概念形成モジュールに再度入力する基本制御モジュールと、複数の概念形成モジュールの出力から相互投票によって概念又はイメージ信号の少なくとも１つを選択する統合モジュールと、基本制御モジュール及び統合モジュールの出力から行動を決定する行動モジュールとを備えており、統合モジュールによって選択された少なくとも１つの概念又はイメージ信号が該当する概念形成モジュールに入力されて逆方向処理が行われるように構成されている。
【選択図】図４

Description

本発明は、ニューラルネットワークを利用して構成可能であり、概念形成機能を有する、環境に対して自律的に適応する自律適応型システムに関する。

初歩的な形式で「考えている」ように振舞う情報処理システムを開発するために、概念形成を用いて複雑な環境に適応するニューラルネットワークで構成されたアーキテクチャを設計する必要がある。

このような機能の典型的なものとして、我々自身の脳の機能、特に意識を中心とする機能があり、意識に類似する機能を工学的に実現する方法が様々に試みられている。しかし、意識を工学的に実現するためには多くの障壁を乗り越えなくてはならない。Haikonenは内語（内的な発話）の重要性を強調し、ニューラルネットワークに基づく実現方法を開発したが、この方法は主たる連想ユニットが明確にされていないので、必ずしも明解なものではない（非特許文献１）。Taylor、 Crick、 Koch、 Edelmanは脳の働きの詳細な研究の上に立って脳内の意識を説明している（非特許文献２、非特許文献３、非特許文献４、非特許文献５）。

また、Baarsは、複数の専用処理系が特定の脳内のエリアを競合的に取り合い、その結果、エリアの獲得に成功した内容が意識として感じられるという、グローバルワークスペース理論を唱えている（非特許文献６）。この理論そのものは、脳科学に沿って概念的な考えを示したものであるが、Franklin、 Shanahan等が引き続きその理論の具体化を図っている。Franklinは、電子メールを入力として、ソフトウェアエージェントを構成要素とするシステムを提案しているが、環境への適応のためには、人間がシステムに対して指示する、又はプログラムを書き出す必要があり、自律適応機能は持たない（非特許文献７）。Shanahanは、専用処理系を単位とした選択にグローバルワークスペース理論を用いており、概念形成機能を持たず自律適応機能が限られている（非特許文献８）。

P. Haikonen著、「The cognitive approach to conscious machines」 Imprint Academic 出版、2003年発行 J.G. Taylor、 N.R. Taylor、 R. Bapi、 G. Bugmann、 and D. Levine著「The frontal lobes and executive function、" Proc. IEEE-INNS-ENNS International Joint Conference on Neural Networks (IJCNN'00)-Volume 1」、2000年発行 C. Koch著「The Quest for Consciousness」、Roberts & Company Publishers 出版、2004年発行 F. C. Crick and C. Koch著「A framework for consciousness、" in The cognitive neurosciences - Third edition」、MIT press出版、2004年発行、pp.1133-1143. G. M. Edelman著「Wider than the sky - the phenomenal gift of consciousness」、Yale University Press出版、2004年発行 B. Baars著「A cognitive theory of consciousness」、 Cambridge University Press、1988年発行 S.Franklin著「 Perceptual and Learning: Recognizing、 Categorizing、 and Relating」、 Symposium on developmental robotics (pp. 1-46)、 American Association for Artifical Intelligence (AAAI). 2005年発行 M. Shanahan著「A cognitive architecture that combines internal simulation with a global workspace」、Consciousness and Cognition Vol. 15 、2006年発行 pp.433-449

しかしながら、複雑な環境に自律的に適応するシステムでは概念又はイメージという形式で入力情報を束ねる概念の形成、概念の想起、これら概念の詳細な制御能力を持つべきであると考えられるが、上述した従来例においては、何れもそのような制御能力を考慮していなかった。そして、制御能力の機能を誤差逆伝播のような現在広く用いられているタイプのニューラルネットワークで実現することは困難であった。

本発明の目的は、シンプルなニューラルネットワークを用いて実現が可能な、複雑な環境に自律的に適応する自律適応型システムを提供することにある。

本発明によれば、入力された多数の微細特徴信号を束ねて相当する概念又はイメージ信号をそれぞれ形成する順方向処理を行うと共に、概念又はイメージ信号から相当する多数の微細特徴信号をそれぞれ形成する逆方向処理を行う複数の概念形成モジュールと、実環境から得られた多数の微細特徴信号を複数の概念形成モジュールに入力すると共に、複数の概念形成モジュールがそれぞれ逆方向処理して形成した多数の微細特徴信号を一時的に記憶し複数の概念形成モジュールに再度入力する基本制御モジュールと、複数の概念形成モジュールの出力から相互投票によって概念又はイメージ信号の少なくとも１つを選択する統合モジュールと、基本制御モジュール及び統合モジュールの出力から行動を決定する行動モジュールとを備えており、統合モジュールによって選択された少なくとも１つの概念又はイメージ信号が該当する概念形成モジュールに入力されて逆方向処理が行われるように構成されている環境に対する自律適応型システムが提供される。

複数の感覚系からの情報とその状況に関係する過去の経験の想起に基づいて、その時点で適切な概念の組合せを相互に投票する方法で選択可能としている。また、選択された結果を概念形成モジュールに逆方向に入力する逆方向処理を、順方向処理と併せて行うことにより、適切に抽象化された概念の形成を、システムの外部から指示することなく必要な概念を自律的に形成することが可能となる。また、選択された結果を概念形成モジュールに逆方向に入力し、概念レベルから微細特徴レベルへの逆変換を行うことにより、選択結果を感覚系入力と同レベルの微細特徴群の入力として基本制御モジュール内の一時記憶に想起内容として表現しているので、基本制御モジュールは、選択された結果を実環境からの入力と同じレベルで知ることが出来る（微細特徴群の入力として入力バッファに想起内容として表現されないと、基本制御モジュールは自律適応するために選択された結果の意味を知ることが出来ない）。また、基本制御モジュールは、その時点で実際に生起している事象（実事象）に基づく微細特徴群と想起内容に基づく微細特徴とをまとめて１つの状況（現実）として認め、対応、処理することが可能となる。

なお、基本制御モジュール内の一時記憶、概念形成モジュール及び統合モジュールにまたがるサイクリックな処理を行うことで、より広い範囲の連想、より適切な解の探索等が可能になる。

統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、選択された内容に類似の継続する内容を該時系列記憶から読出して統合モジュールに出力するログモジュールをさらに備えていることが好ましい。選択結果（概念の組合せ）を時系列で記憶したり、選択結果に関連する内容を想起したりすることができるため、各時点の概念の組合せを記憶すると共に選択された内容に関連して次に生じた内容を想起して投票による選択に使用することが可能となる。

ログモジュールが、フィードバック付のニューラルネットワークで構成されていることがより好ましい。

複数の概念形成モジュールの各々が基本制御モジュール側の第１の層と統合モジュール側の第２の層とを備えており、第１の層のノードが第２の層の各ノードと結合するように構成されており、第１の層のノードと第２の層のノードとのリンク上の重みの関数として出力を決定するように構成されていることも好ましい。

リンク上の重みが、そのノードの概念又はイメージに含まれるべき微細特徴のリンクでは１、含まれてはいけない微細特徴のリンクでは０、関係しない微細特徴のリンクでは１と０との間の値＃であることが好ましい。

第１の層及び第２の層が、ニューラルネットワークで構成されていることも好ましい。

統合モジュールが、複数の概念形成モジュールの第２の層の各ノードを双方向に接続して構成されていることも好ましい。

統合モジュールが、複数の概念形成モジュールの第２の層の各ノードからの出力を入力し、出力を第２の層の各ノードに入力するノードを有する層を備えていることも好ましい。

統合モジュールが、複数の概念形成モジュールの第２の層の各ノードにそれぞれ接続されたノードを有しており、統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、選択された内容に類似の継続する内容を時系列記憶から読出して統合モジュールに出力するサブモジュールを備えていることも好ましい。

統合モジュールの上述の層又はサブモジュールが、ニューラルネットワークで構成されていることがより好ましい。

本発明によれば、ノード間のリンク並びにノードの必要性に注目し、シンプルなニューラルネットワークで複雑な環境に自律的に適応するシステムを実現することが可能である。

本発明は、イメージ駆動型アーキテクチャと呼ばれる一つのアーキテクチャを提供するものである。このアーキテクチャは、ニューラルネットワークによる原始的な概念形成を用いて環境に適応する。本発明の一実施形態においては、３レベルの構成要素を持った複合的な多数のモジュールからなる自律適応型システムが構成される。ここで、３レベルは、微細特徴群、イメージ群と概念群、概念の組合せ又はシーンから構成される。自律的な適応を行うために中心となる、選択と統合のためのモジュールは、相互投票方法（互選）によってシステムにとって効率的かつ有用な概念を選び出す。イメージ駆動型アーキテクチャに基づいて、効率的な概念又はイメージの選択、連想、ぼんやりしたイメージの表示、システムの学習制御といった機能を有している。

図１は本発明の一実施形態における自律適応型システムを含む全体構成の一例を示すブロック図、図２は主要な要素の階層構成の一例を示す図、図３は自律的な適応を行うための内部状態制御の一例を示す図である。

図１において、１は実環境からの刺激を入力するセンサと前処理モジュールを示しており、２はセンサと前処理モジュール１から出力される微細特徴信号群、３はこれら微細特徴信号群２に基づいて行動を起こす自律適応型システムをそれぞれ示している。

本実施形態では、この自律適応型システム３は主にニューラルネットワークで構成されるが、ニューラルネットワーク内では、ノード間の重みがヘッブ則に類似の方法で変化される。学習後に、あるノード間のリンクが必要な場合、そのリンクの重みは微細特徴が必要か、又はあってはいけないかによって１又は０が与えられる。リンクが不必要な場合、重みは＃とされ、不必要なノードはゆっくりと消えるように構成されている。

自律適応型システム３への入力信号が、微細特徴信号群２の存在に応じて１又は０で表されると仮定すれば、重みの値の集合は、概念又はイメージを表す。重みの値を出力することで概念やイメージは微細特徴信号群２の組として想起できる。ニューラルネットワークの概念形成と想起機能を組み合わせることによって、詳細な制御の可能な連想記憶システムをつくることが可能になる。

このニューラルネットワークは、イメージ駆動型アーキテクチャと呼ぶ「微細特徴群」と「イメージ群と概念群」、「概念群の組合せ又はシーン」からなる３層構造の構成要素で構成された構造を有する。この構造には、概念形成や想起のモジュール、エピソード記憶モジュール、概念統合のモジュールといったような幾つかの機能モジュールがある。統合のためのモジュールは自律適応装置３の中で中心的な役割を果たし、相互投票（互選）の方法を用いて効率的でシステムにとって有用な概念を選び出す。このモジュールで選択された概念は概念を認識したモジュールに戻され、想起機能によってイメージを想起内容一時記憶に出力する。さらに、この間に複雑なシステムとして、環境に効率的かつ有益に適応するために、選ばれたモジュールのみが重みの修正を行なう、つまり、システムのどの部分が学習すべきかは選択された概念によって制御されるように構成されている。

以下の説明では、イメージ駆動型アーキテクチャに関連して、効率的な概念又はイメージの選択、連想、想起した情報の表示、システムの学習制御といった主要な機能が明らかにされる。

まず、設計思想とシステム設計のための仮定について説明する。微細特徴信号群２が入力されその行動が環境に対して出力される自律適応型システム３（図１）について検討する。なお、この自律適応型システム３に入力を供給するセンサと前処理モジュール１の機能については各種の実現手法があることから、ここでは説明を省略する。

自律適応型システム３は、一般的に用いられる誤差逆伝播法のニューラルネットワークと同様の構成を有するニューラルネットワークで基本的に構成される。即ち、このニューラルネットワークは修正されたHebb則に基づく学習方法を適用し、ノード間のコネクション又はノード自身が必要か不必要かを主に学習するように構成されている。各ニューラルネットワークは、素子レベルでアナログ値を処理する回路として構成することも可能であるが、ディジタル素子を用いて論理的に構成することや、ディジタルコンピュータ上でソフトウェアにより構成することも可能である。これらのニューラルネットワークによって前述したモジュールを構築して複合的な自律適応型システム３が構成される。このシステムの適応は主にニューラルネットワークレベルの学習として行われ、その状態はノード間の重みの値として維持又は記憶される。

自律適応型システム３は、図２に示すように、階層的な構成要素を持った処理系として表現される。構成要素は３つの階層に分類され、第１層に微細特徴群、第２層にイメージ群や概念群、概念又はイメージの組合せが第３層に属している。１つのイメージは微細特徴群の集合で定義され、概念は安定的で、広く用いられるイメージとして、イメージの部分集合として定義される。シーンはイメージと概念の組合せの部分集合であり、同時に生起すること等で特徴付けられたイメージ群や概念群で構成される。

この自律適応型システム３は、下位の階層にある沢山の構成要素を上位階層の少数の構成要素に変換する機能を持つ。この機能は認識と選択である。自律適応型システム３は、また、下位の階層の多数の構成要素を上位層の少数構成要素から再現する機能も持つ。この機能が「想起」にあたる。認識と想起がこのように可逆的に関係している。

自律適応型システム３全体の制御のための情報の流れは、ある種の順序論理回路に類似のものとしてモデル化される。論理回路は一般に内部状態を持たない組合せ論理回路か、内部状態（メモリ）をもつ順序論理回路のどちらかに分類される。順序論理回路の出力は、入力と内部状態の両方で決定される。本実施形態で述べている自律適応型システム３は明らかにこの観点でいう順序論理回路に類似のものである。

図３に示すように、自律適応型システム３を順序論理回路としてモデル化するときには内部状態は２つの状態Ａ及びＢに分類される。内部状態Ａ４の値は、一般的な内部状態であるが、その一部分である内部状態Ｂ５の値だけが戻されて、環境から取り入れられる微細特徴信号群２の値と並行して入力される。このことは実環境の情報が現実を表現するだけでなく、想起された情報も二次的な現実として、その時点で自律適応型システム３の制御に影響することを意味している。

内部状態Ｂを実環境からの情報と同様に制御に影響することができるようにすることはこのシステムにとって以下に述べる利点がある。
a. 情報が、１）実環境の現実（環境の状態、システム自身の状態を含む）と、２）その時点で有用な２次的現実との照合が容易な形式で示されているため、システム内部で選択された情報の意味を実環境の現実に対応付けて知ることができる。

ここで、一般に分散システム、並列システムが内部で決定したことの意味は、システム全体として知ることはない。しかし自律的に環境に適応するシステムにおいては、新しい認識や行動を試みたときに、その試みが実世界の現実の対応する形で把握できると、認識や行動の実世界やシステム自身との関連付け（意味付け）が容易になる。

また、システムにとって、目の前の現実をより深く理解するための、過去の状況や現実からの予測内容も、まず、２次的現実として表示されるため、多くの場合、行動の決定に当たっては、改めて過去の記憶を参照することや予測をしないでも、適切な行動決定ができる。

ここで、後に示すように、内部状態Ｂ５には、その時点でのシステムにとって重要な情報（過去の経験（からの連想）、予測等）が示される。これは、例えて言えば、その時点その時点での行動決定において、有能な秘書が経営判断等に関連する情報を社長に提示することに相当している。

b．内部状態Ｂがシステムに再度入力されることは情報が何度も繰り返し処理されることを可能にする。ディジタルコンピュータは大変複雑な課題を処理するが、コンピュータの主な演算部分は基本的にシンプルなものである。複雑な課題は繰り返し処理によって実行される。同じように、内部状態Ｂを持ったシステムは複雑な課題を処理することができる。

ここで、有用な２次的現実を、システムのメインの処理系で高いレベルで処理可能とするだけでなく、繰り返しを可能とすることで、ディジタルコンピュータと同様の複雑な課題の処理を可能にしている。

図４は図１に示す自律適応型システムを含む全体構成の具体例を示す図である。

同図に示すように、自律適応型システム３は、複数のセンサと前処理モジュール１に接続された基本制御モジュール１４、複数の概念形成モジュール１０、統合モジュール１２、ログモジュール１１、行動モジュール１３、及び情動サブシステム１５から主として構成されている。

同図から分かるように、概念形成モジュール１０で想起された内容が基本制御モジュール１４に一時的に記憶され、外部からの入力と共に、再び概念形成モジュール１０へ入力されるように構成されている。このことは、本自律適応型システムが、想起された内容を外部環境からの情報と同様にみなしていることを意味している。このプロセスを繰り返すことによってシステムは自律的に環境に適応することができるのである。

概念形成モジュール１０は、視覚サブモジュールＡと、聴覚サブモジュールＢと、体感覚サブモジュールＣとで構成されている。これらサブモジュール群は微細特徴信号群２からイメージ群や概念群を認識するための機能をゆっくりと生成する。これらの機能は多数の微細特徴信号群２を各々の概念又はイメージに相当する少数の信号に変換する(順方向処理)。概念又はイメージの想起は、ある種の認識機能の逆方向の機能としてとして反対方向に行われる。この逆方向機能は各々の概念又はイメージに対応した少数の信号を、多数の微細特徴信号群２に変換する(逆方向処理)。これらの想起信号が再び概念形成モジュール１０に入力される。

順方向処理として、多数の微細特徴信号群の入力を束ね概念又はイメージ信号を形成する。この概念又はイメージ信号はその概念又はイメージに含まれるべき微細特徴、含まれてはいけない微細特徴、その概念に関係しない微細特徴の集まりとして表現される。

具体的には、この概念形成モジュール１０は、順方向処理手段として、微細特徴信号群２を入力とし、入力と重みの関数として出力を決定するニューラルネットワークで構成する。このニューラルネットワークは、システムとしての“学習を通じて”入力リンク状の重みの値として、微細特徴に含まれるべきリンク上の重みは１に近く、微細特徴に含まれてはいけないリンク上の重みは０に近く、関係しない微細特徴のリンク上の重みは１と０との間の値をとるように構成する。その概念としての条件にマッチした微細特徴信号群が入力されると、その概念に対応したノードが興奮する。

また、逆方向処理手段として、概念又はイメージ信号を入力として、リンク上の重みの値を１、０、これらの間の値＃で出力する機能を有する。実現方法としては、順方向処理手段及び逆方向処理手段が、それぞれに専用のニューラルネットワークを用意している。逆方向処理手段からの出力信号は、基本制御モジュール内の一時記憶バッファに書き込まれる。

一般に対象とするシステムは多数の入力を想定しているが、この概念形成モジュール１０での順方向処理により概念化することで、後に続く統合モジュール１２及びログモジュール１１等の処理において、以下のメリットが得られる。ａ．概念化を通じて一種の一般化された形での微細特徴群が明らかになっており、さらにその組合せとして表現されるため、過去の経験・状況との照合、選択において、システムとしてある種の“汎化”が可能になる。微細特徴レベルで比較すると過去の経験と一致することは期待できないし、そのような全くの一致では意味がない。

ｂ．情報が大幅に圧縮され、処理量の削減、記憶容量の効率的使用が可能になる。投票を行うためには、投票に参加する信号群同士が完全群で接続されている必要がある。多数の微細特徴信号レベルでの完全群接続は物理的に困難である。また、投票の選択結果をログモジュールで逐次記憶する必要があり、記憶容量の圧縮が必須である。

ただし、個々のシステムにおいて、自律適応のために教師なしでどのように適切な概念化を行うかがポイントになる。このため、概念形成のための学習方法として次の３つの方法を提案している。
１）順方向処理において、興奮時にリンク上の重みを変更する。このためには、自己組織化マップ（ＳＯＭ）を修正して使用する。なお、従来より、概念の自律的な形成（教師なし学習による）方法として、ＳＯＭが知られているが、これをそのまま用いたのでは、形成される概念がマップの初期状態等で決定され、必ずしもシステムにとって有用な概念にならない。
２）逆方向処理においては、投票の結果として選択されたノードに関係する重みが再度変更される。
３）逆方向処理による結果は、基本制御モジュール１４内の一時記憶バッファに書き込まれ、その後、再度概念形成モジュール１０に入力される。この処理を通じて、システムにとって重要でかつ共通する微細特徴信号（含むべき微細特徴と含んではいけない微細特徴）を多く含むノードが残り、他のものは消えてゆく。
これらの方法により、システムにとって適切な概念化がシステム外部からの教師、又は教師信号なしに可能となる。

統合モジュール１２は、いくつかの効果的かつ有用なイメージ信号群や概念信号群を概念形成モジュール１０やログモジュール１１の出力から選び出し、選ばれた概念又はイメージ信号を概念形成モジュール１０、ログモジュール１１又は行動モジュール１３へ送る。

より具体的には、統合モジュール１２は、各時点において、システムにとって重要でそれまでの経験との整合に取れた概念とその組合せを形成する。この組みを形成するために、複数の概念形成モジュール１０の出力を完全群状に相互に接続し、投票する構成となっている。ただし、図８に示すように、相互投票の機能を向上させるため、統合モジュール１２内にＩ層２２を付加し、図９に示すように、過去の経験を査証するために順序記憶サブモジュール２３を設けている。

統合モジュール１２の機能を簡略化して述べると、複数の概念形成モジュール１０において出力が１となった信号から、統合モジュール１２内の結合を通じて信号を送り、その結果、当該の概念形成モジュール１０の支持だけでなく他のモジュールの支持を含めて総合的に支持の多い信号が選択される（勝ち残る）ように構成されている。その選択結果が、システムとしての過去の経験を踏まえたその時点での状況認識に相当する。

多数のモジュールの支持を確認するため、信号伝達における遅延の大小が問題になる。これを避けるために、想定範囲で最も大きな遅延の値を踏まえた同期制御（サイクルタイムによる同期制御）を行っている。

ログモジュール１１は、統合モジュール１２の中で新しいシーンとして選択されたイメージ信号群や概念信号群を、生起した順番に、逐次的に瞬時に記録して時系列記憶を形成する。これと並行して古いシーンとしてのイメージ信号群や概念信号群を入力すると、その次に生起したシーンや関連するいくつかの概念又はイメージを想起して対応する信号を出力する。即ち、選択された内容に応じてそれに類似の記憶に継続する内容（一種の連想）を読み出して統合モジュール１２に出力する（経験した内容を記憶するエピソード記憶に相当する）。

以上の機能を実現するため、ログモジュール１１では、フィードバック付きのニューラルネットワークを使用している。フィードバックを利用して時間的な経過をトレース可能としているのである。ただし、逐次的に記録するため、瞬間的に記憶可能なこと、記憶容量が大きいことが必要とされる。ニューラルネットワークで瞬間的に記憶可能とするため、学習係数の大きな学習を行っている。容量については、小容量のバッファを想定し、容量がいっぱいになった場合は上書きすることで解決している。また、記憶と連想的な読み出しを同時に行う必要があるため、一実施形態として、複数のノードが同時にグループとして動作する機構を提案している。

このように、ログモジュール１１自身は一時的な記憶を構成されているが、多数回の書き込みを必要とする大容量記憶（順序記憶サブモジュール２３）を統合モジュール１２内に設けているので、基本的にはログモジュール１１内で上書きされる以前に転写されている。また、この転写（夢見モード）同様に、Ｉ層２２関連の学習も行われている。

基本制御モジュール１４は、実環境表示と想起内容表示の２つのサブモジュールで構成される。実環境表示は、実環境からの入力であるセンサと前処理グループ１からの微細特徴信号群２に基づいて、実際に起こっている環境やシステム内部の状態を実時間で一時記憶に出力する。想起内容表示は概念形成モジュール１０から逆方向に出力され、選択された概念又はイメージに対応する微細特徴信号群２に基づいた内容を一時記憶に出力する。

基本制御モジュール１４に表示された内容は、想起された内容をも含め、概念形成モジュール１０を通じて統合モジュール１２に送られる。即ち、基本制御モジュール１３内の一時記憶バッファと統合モジュール１２との間で、概念形成モジュール１０を経由したサイクリックな処理が実現されている。この処理により、システム自身がより最適な解を探索したり、あれこれ連想したりすることが出来るのである。

基本制御モジュール１４は、また、一次記憶されている表示内容に基づいて、システムの行動を制御する機能を有している（この表示内容は、人間に例えれば、意識として感じているものに相当する）。この感じた内容に従って、基本制御モジュール１４は、一時的な行動決定を行い、行動モジュール１３に出力する。行動モジュール１３は、基本制御モジュール１４の出力と統合モジュール１２の出力とを併せて行動を決定する。この行動は動物で言えば本能的なものであり、簡単なニューラルネットワークで構成される。

以上述べた、概念形成モジュール１０、統合モジュール１２、ログモジュール１１及び基本制御モジュール１４の動作により、自律適応型システムとしては概略以下のように作動する。

多数の微細特徴信号群２が概念形成モジュール１０へ入力され、概念又はイメージを表現する少数の信号群に変換される。これらの変換は認識に対応しており、システム全体の学習によりゆっくりと形成される。そして、変換機能の詳細は微細特徴信号群２の平均的出現頻度としての重みによって記憶される。ログモジュール１１は１シーンとして同時に発生するイメージ群や概念群に対応する信号群をすばやく記憶する。

統合モジュール１２はシステム全体にとって効率的で有用な概念を選ぶ。選ばれた概念又はイメージはそれから概念形成モジュール１０に送り返される。戻された概念又はイメージをもともと出力した概念形成モジュールはそれらを再度微細特徴信号群２に変換し、概念又はイメージの形状を表現する。これらの微細特徴信号群２は選択された概念又はイメージのぼんやりした形状を表示するが、実環境からの微細特徴信号群２と一緒に再び概念形成モジュール１０の入力となる。

以上に述べたように、この処理系は循環的な方法で外部環境からの入力と想起された概念又はイメージを処理する。このシステムの構造がイメージ駆動型アーキテクチャとなる。

以下、各機能モジュールの構成と動作について詳細に説明する。全ての機能モジュールは、ディジタルコンピュータと同様にクロックで同期されている。このクロックは、相１から相４まで番号付けされた４相で構成される。このシステムでの時間は、クロック番号と相番号とのペアで表される。

概念形成モジュール１０
図５は概念形成モジュール１０の一例を示す図であり、図６は概念形成モジュール１０の機能例を示す図である。図５に示すように、微細特徴信号群２はこれらサブモジュールに入力される。これらサブモジュールは２層で構成される。ＡＣ層のノードは、ＢＣ層の全てのノードと結合するように構成されている。この概念形成モジュール１０は２つの動作モードを有している。１つは概念形成モードであり、信号はＡＣ層からＢＣ層へ伝わる。もう１つの動作モードは想起モードであり、信号はＢＣ層からＡＣ層へ伝わる。重みは２つの層の間に適用される。これらの重みは動作の方向によらない、動作方向に係わらず、同一の値として機能する。

a. 概念形成動作
時刻t、1においてセンサと前処理モジュール１から出力され、ＡＣ層に入力される微細特徴信号群２はX(t、1) = (x₁、x₂、...、x_i、...、x_m).で与えられる。ここで、x_iは３つの状態１、０、＃をもつ。i番目の特徴がイメージXに存在するとき、x_iは１となる。i番目の特徴がイメージＸに存在しないときx_iは０となる。＃はＸがi番目の特徴に影響されないことを示す。

基本的な動作モードにおいて、ＡＣ層は、R(t、1) = (r₁、r₂、...、r_i、...、r_m)、（これは入力と同じ R(t、1)= X(t、1)である）をＢＣ層に出力する。ＡＣ層とＢＣ層の間の重みは、
W^C _j(t、1) = (w^C _1j、w^C _2j、...、w^C _ij、...、w^C _mj).
で与えられる。ここで、

は、ＡＣ層のノードｉとＢＣ層のノードｊ間のリンクの重みである。ノードｊの興奮レベルは次の（１）式で与えられる。

ここで、v_jは活性化パラメータである。f(w^C _ij)はアナログ値のw^C _ijを、以下の式に従って離散値の1、 0、 and#に変換する階段関数である。

上式中、操作を示す演算子部分は表１に従って２つの入力を比較することを示す。d_#の値は通常小さい。

最も高いE^C _jの値をもったノードjのみが興奮し、y_j(t、1)=1を出力する。そして、次の（２）、（３）式に従って、w^C _ijとv_jを変更する。ここで定数k_C1は小さな値をもつ学習係数であり、k_vα、k_vβは小さな値をもつ正の定数である。
w^C _ij(t、2)= w^C _ij(t、1) + k_C1( x_i(t、1) - w^C _ij(t、1) ) (2)
v_j(t、2)= v_j(t、1) + k_vα(1- v_j(t、1)) (3)
他のノードはy_j(t、1) = 0 を出力し、w^C _ijは変更されない。しかしv_jは、次の（４）式に基づいて少しずつ減少する。
v_j(t、2)= v_j(t、1) + k_vβ(- v_j(t、1)) (4)
もし、v_j< T_hv、（ここでT_hvは正の閾値を示す。）となると、ノードｊの全ての重みはランダム値によって初期化される。これは、有効でなかったり、有用でなかったりするノードはゆっくりと消滅し、新しいノードとして再生されることを意味している。

このプロセスが繰り返されると、個々の重みw^C _ijは、ノードｊが興奮したという条件のもとで、x_i= 1の生起する頻度の平均値にゆっくりと近づく。ノードｊの f(w^C _ij) が１のとき、微細特徴x_iは、ノードｊによって表される概念又はイメージに属す。ノードｊの f(w^C _ij) が０のときは、微細特徴x_iは、ノードｊによって表される概念又はイメージに属してはいけない。そして、f(w^C _ij) が＃のときは、微細特徴x_iは、ノードｊによって表される概念又はイメージに影響しない。さらに、あるノードが興奮するという条件の下で、入力信号のパターンの生起確率が、相対的に高い場合、そのノードのf(w^C _ij)は、入力パターンそのものの値に近づいてゆく。例えば、もし、信号の同時生起の確率がx2=1、 x4=0、 x5=1とx7=1、 x8=0で相対的に高かった場合、f(w^C _ij)の値が “#1#01###”のノードと“######10”のノードが次第に現れてくる。d_#が小さいという条件の下で、“####1110”の重みを持つj₁と“######10”の重みを持つj₂があったとする。ノードj₁はまれにしか勝者にならず、活性化パラメータはコンスタントに減少して、ノードは消える。一方、j₂は頻繁に勝者になり、活性化パラメータはコンスタントに増加する。

加えて、f(w^C _ij)の値は、近似的に積で結合した論理関数を表現する。例えば、#1#01###”は、

を意味する。“1”は、肯定の論理変数に、“0”は否定の論理変数に、“#” は表現の不要な論理変数に対応する。全体として、多数の微細特徴を概念又はイメージを表現する少数のノードに変換する機能が、一種の教師無し学習に基づいて形成される。

ｂ．概念想起動作
概念想起は相３で、統合モジュール１２で選択されたＢＣ層のノードを刺激することで始められる。図６に示すように、この動作は逆方向に行われる。刺激されたノードは重みを通して信号を伝達し、重みf(w^C _ij)が生成される。この値は、基本制御モジュール１４に渡される。また、次のクロックの相１では概念形成モジュール１０に入力される。

この想起のプロセスでは、想起された重みのみが、次の（５）式によって変更される。
w^C _ij(t、4)= w^C _ij(t、2) + k_C2( x_i(t、1) - w^C _ij(t、2) ) (5)
ＢＣ層の刺激されたノードの活性化パラメータは増加し、刺激されなかったノードの活性化パラメータは減少する。

統合モジュール１２
統合モジュール１２は次の３種類の構成を有する。図７は統合モジュールの第１構成例(構成Ａ)を示す図、図８は統合モジュールの第２構成例(構成Ｂ)を示す図、図９は統合モジュールの第３構成例(構成Ｃ)を示す図である。

構成Ａ：図７に示すように、概念形成モジュール１０のＢＣ層上のノードを、双方向に全て接続する構成である。この構成Ａは、概念形成モジュール１０のＢＣ層上のノードのみで構成される。概念形成モジュール１０のＢＣ層上のノードは全て相互に結合され、双方向にリンクを持つ。ここで、ノードの識別を容易にするため、全ての概念形成モジュール１０のＢＣ層上のノードについて、１からｍ_１の通し番号をつける。ノードｉからノードｊのリンクは重み

を持ち、一般に

である。ただし、ノードｉがノードｉ自身への接続も持ち、その重みをw^Ia _iiで表す（この場合、１クロックの時間遅延が挿入される）。

構成Ｂ：図８に示すように、統合モジュール１２内に独自のＩ層２２を持つ。Ｉ層２２のノードは、概念形成モジュール１０のＢＣ層上のノードの出力全てを入力とする。Ｉ層２２のノードの出力は、概念形成モジュール１０のＢＣ層上のノードの全てに送出される。

Ｉ層２２のノードに１からｍ_２の通し番号を付ける。概念形成モジュール１０のＢＣ層上ノードｉからＩ層２２上のノードj_Iをリンクする重み

と、Ｉ層２２上のノードj_Iから、概念形成モジュール１０のＢＣ層上のノードｊのリンクの重み

をもつ。ここで、ノードの機能等の詳細はログモジュール１１の説明の部分に示す。

構成Ｃ：図９に示すように、概念形成モジュール１０のＢＣ層上のノードの全てが、ログモジュール１１のＡＬ層のノードに対して１対１で接続される。このリンクは、概念形成モジュール１０からログモジュール１１へのリンクとログモジュール１１から概念形成モジュール１０へのリンクが別々にある。それぞれｍ_１本のリンクをもつ。

また、構成Ｃはログモジュール１１と同様の構成をもつ順序記憶サブモジュール２３を、統合モジュール１２内部にもつ。概念形成モジュール１０のＢＣ層上のノードの全てと、順序記憶サブモジュール２３のＡ_ＩＣ層のノードの全ては、１対１に、ログモジュール１１と同様に接続される。

ａ．投票モード
（１）投票動作
クロックｔの相１とそれ以前の以下の動作で投票の信号が形成される。
１）相１では、概念形成モジュール１０のＢＣ層上のノードｉが、微細特徴信号の入力に基づいて信号y_i(t、1)を出力し、統合モジュール１２の構成Ａは、この出力結果に基づいて、概念形成モジュール１０のＢＣ層上のノードの依存関係を相２で出力する。
２）相１では、概念形成モジュール１０のＢＣ層上のノードｉが、微細特徴信号の入力に基づいて信号y_i(t、1)を出力し、統合モジュール１２の構成Ｂは、この出力結果に基づいて、概念形成モジュール１０のＢＣ層上のノードの支持度合いを相２で出力する。
３）時刻 t-1、2において、統合モジュール１２で選択されたＢＣ層上のノード（即ち、前のクロックで選択された結果）が、直接、時刻t、2の状態に、（相当程度に減衰するが）影響を与える。ここで、前のクロックで選択された結果は、逆変換されて概念形成モジュール１０から再入力されるという形でも次のクロックの選択に影響するが、ＢＣ層上のノードの状態そのものも直接影響可能としている。
４）ログモジュール１１及び統合モジュール１２の構成Ｃは、それに先立つ時刻 t-1、2において、統合モジュール１２で選択されたＢＣ層上のノード（即ち、前のクロックで選択された結果）に誘発された連想結果を、併せて出力する。

（２）投票集計動作
クロックtの相２では、統合モジュール１２内の個々のノードｊのゲインが次の（６）式で計算される（投票集計動作）。

投票動作の１）に対応して：
E^Ia _j(t、2) は、ノードjが他の個々の概念形成モジュール１０上のノード（クロックtの相１で興奮）から、どの程度興奮することが期待されているかを示す。 w^Ia _ijは、過去の選択結果を反映している（報酬の結果を含む）。

投票動作の２）に対応して：
E^Ib _j(t、2) は、概念形成モジュール１０のノードjが、Ｉ層２２上のノードから、どの程度興奮することが期待されているかを示す。Ｉ層２２上の全ノード分加算となる。
E^Ib _j(t、2)= Σ ( h_jI( Y(t、1))・w^Ib2 _ij) (jI=1、m₂). (8)
ここで、h_jI( Y(t、1))は、概念形成モジュール１０上のノード（クロックtの相１で興奮）の関数として、Ｉ層２２上のjIノードが、概念形成モジュール１０のノードｊの興奮をどの程度支持しているかを示す。より詳細には、以下のような w^Ib1 _ijの関数となる。
h_jI( Y(t、1)) = Σ y_j(t、1)・w^Ib1 _ij(j=1、m₁)
ここで、Y(t、1) = y₁(t、1)、 y_２(t、1)、 ...、 y_ｍ１(t、1)とする。
Ｉ層２２上のjIノードについて、全ての概念形成モジュール１０からの出力を重みを掛けて合計とする。

投票動作の１）は、個々のＢＣ層上のノードの支持の度合いが直接加算されるのに対して、投票動作の２）では、ＢＣ層上のノードのパターンに応じて支持の度合いをより一般的に変更できる。例えば、ノード１が相１で興奮しても、ノード２の相１での興奮状態に応じて、実際にノード３の興奮を支持するか否かが逆転する場合、投票動作１）だけでは、実現が困難であるが、投票動作の２）が加わることで容易になる。

投票動作の３）に対応して：

は、その前のクロック t-1 で選ばれたことによる影響を示す。 k^I _sは定数である。

投票動作の４）に対応して：
E^L _j(t、1)は、時刻 t-1、2で選ばれたシーン（即ち、前のクロックで選択された結果）から連想された出力である。
E^L _j(t、1) = z_Lj(t、1) ＋z_Ij(t、1)
z_Lj(t、1)はログモジュール１１の出力を、z_Ij(t、1)は統合モジュール１２の構成Ｃの出力を示す。それぞれ、ログモジュール１１や構成Ｃで連想した結果、クロックｔでのノードjの興奮をどの程度支持するかの度合いを示している。

最後に、E^C _j(t、1) は、式（１）に示す概念形成モジュール１０での得点である。これは、実際に入力した、概念形成モジュール１０での集計結果であり、現実に刺激として感じている信号に応じたＢＣ層上のノードの興奮の支持を示す。即ち、これは投票動作によるものではないが、当然、ゲインに加算されるべきものである。

（３）投票結果について
結果として、大きなG^I _j(t、2)をもつ、幾つかのノードだけが、修正された“winner takes all” ルールに基づいて興奮でき、出力信号y_j(t、2)が１になる。このy_j(t、2) = 1を出力するノードが時刻tでの、システムがその時点で統合により得た結果を示す。この選択されたノードは、そのノードが属している概念形成モジュール１０で認識されたか否かにかかわらず、同時に、興奮した他のモジュールのノードから支持されていることを示している。

逆に、概念形成モジュール１０では認識されていない、即ち、投票時には投票していないノードであっても、他の条件からの支持の度合いが強い場合、結果として興奮することがある。これは、簡単には、以前の経験や思いこみから、いわゆる勘違いするようなケースに対応している。

なお、修正された“winner takes all”ルールにおいて、厳密な“winner takes all”ルールでは、勝者一人勝ちということで、勝者（即ち興奮を許されるノード）は一個のみである。しかし、ここでは、概念形成サブモジュールの数等を考慮して、上位の複数を選択することを想定している。この場合、より詳細には、単に上位のノードを選択するだけでなく、ある閾値を超えていることや、選択されるノードとの差、又は比が一定以上等の条件も加えられることがある。

G^I _j(t、2) を求めることは一種の互選を行うことと考えられる。この投票方法を用いることによって、例え、多くの条件が同時に存在していたとしても、有用なノードが１クロックの動作でシーンとして選択できる。条件が増加した場合は、単に条件、又は条件を反映した投票者が投票に参加すればよい。

ここで、本実施形態の主な特徴点として、選択等の判断を自律的に適応させてゆくことがある。式に示すように、その時点での外部環境やシステム内部からの刺激だけでなく、連想に伴う以前の状況、又は連想に伴う予測された状況を加えて判断できる。また、後に示すように、投票に用いる重みを適宜修正することで、判断内容を、経験を踏まえて改善可能になる。

さらに、選択を有効にするために、いくつかのモジュールにわたって信号が転送される必要がある。このため、いろいろな時間的な遅延が存在するが、投票者のほとんどの投票を、ある範囲の時間内で集計できる必要がある。時間的な遅延の差による影響を避けるために、本実施形態では、クロックによる同期を取り入れている。信号転送にかかる様々な時間の差異が相２の時間内で全て収まれば、遅延時間の差異は、無視できるようにしている。

ここで、コンピュータにおいても、信号の流れる経路の違いに伴う、様々な遅延を簡単に制御するため、クロックを採用している。回路内の信号経路の違いに伴う、様々な遅延を吸収するため、クロックの採用は有効である。

投票の結果は、行動モジュールに送られる。そして、システムの行動が決定され、環境に対して実行される。概念形成モジュール１０では、選択されたＢＣ層上のノードは逆方向に働き、ＡＣ層を通じてノードjの重みw^C _ijを関数f( )で変換したf(w^C _ij) が基本制御モジュール１４に出力される。この結果、概念又はイメージの組は一時記憶に表示されて、システムはシーンを概念又はイメージの組として捉えられるようになる。加えて、この逆方向の信号伝播に際して、選択されたノードの重みw^C _ijが変更される。これらノードの重みは投票に際して、有用な情報を出力しているため、このときの学習は有用な情報を出力したノードのみ行わせることが可能である。また、この逆方向の信号伝播は一種のファイードバックでもあり、微細特徴レベルでの“注意”生成も可能とする。

ｂ．学習モード
基本的には、はじめに構成Ａの学習が行われ、次に、エピソード記憶に関係するログモジュール１１系の機能の学習が行われる。これが一段落した後に、構成Ｂ、構成Ｃの学習が行われる。

（１）第１段階（構成Ａの学習）：
統合モジュール１２の重みは、相２での選択結果と相４でのシステムの行動に対する報酬とにより変更される。選ばれたノードy_j(t) (i.e.、 y_j(t) = 1)について、w^I _ijはy_i(t) が1 又は 0 、変数 q が -1 又は 1 かに応じて修正される。変数 q は、簡単には報酬が良い(q = 1)か、悪い (q = -1)かどうかを示す。k_Iaは、小さな値の学習係数である。
w^Ia _ij(t+1、1) = w^Ia _ij(t、2) + k_Ia( q ・y_i(t、1) - w^Ia _ij(t、2) )
このプロセスが繰り返され、良い報酬が得られるときには、重みw^Ia _ijはゆっくりと y_i(t、1)=1の生起確率（←ノードjが選択されたときの生起確率）を示すP_yiに近づく。もし、悪い報酬の時には、w^Ia _ijはゆっくりと - P_yｉに近づく。
ある程度学習した後、必要に応じて、これらの重み変化はフリーズ（凍結）される。

（２）第２段階（構成Ｂの学習）：
構成Ａの学習をほぼ終了した後、思わしい報酬が得られないときなどに適用される。例えば、良い報酬が得られなかったケースについて、後に示すようにログモジュール１１の記憶を読み出し、相１から相４までシステムがすでに経験したことを繰り返して構成Ｂに入力することで学習する。

（３）第３段階（構成Ｃの学習）：
構成Ａの学習をほぼ終了した後、エピソード記憶（順序付けられたシーンの記憶）をログモジュール１１から構成Ｃに転写するときに適用される。

ログモジュール１１
図１０はログモジュールの一構成例を示す図である。同図に示すように、ログモジュール１１は、フィードバックを持つ３層のニューラルネットワークで構成され、２種類の機能を持つ。即ち、統合モジュール１２で興奮したノードの組を生起した順に記憶することと、過去に記憶されたシーンや概念の組み合わせを生起した順に想起して出力することの２点である。

ログモジュール１１は、統合モジュール１２に生起した状態を、概念形成モジュール１０で変換された概念又はイメージの単位で、生起した時間順にそのまま記憶したり、想起したりする。

ａ．ログモジュール１１の基本構成
ログモジュール１１のＡＬ層のノードとは、概念形成モジュール１０のＢＣ層上のノードと１対１に対応している。ログモジュール１１のＡＬ層のノードと、概念形成モジュール１０のＢＣ層ノードの数は同じである。ログモジュール１１のＢＬ層の各ノードには、ログモジュール１１のＡＬ層の全てのノードから入力がある。一般にログモジュール１１のＢＬ層ノードの数は、ログモジュール１１のＡＬ層ノードの数に較べて遙かに大きく設定される。以下の説明では、ログモジュール１１を略し、図１０に従って層の名称のみを示す。

ＦＬ層は、ＢＬ層と同数のノードをもち、ＢＬ層とＦＬ層は、ノード同士が、１対１に対応しており、ＢＬ層ノードの出力は、対応しているＦＬ層のノードに入力される。個々のＦＬ層の出力は全てのＢＬ層ノードに入力される。即ち、ＢＬ層のノードｊには、ＡＬ層とＦＬ層の全てのノードからリンクがあり、重みは w^L _ij(i=1、m_４(=m_１+m_３)、j= m_３)で定義される。ここで、ＢＬ層のノード数をm_３とした。

ｂ．ログモジュール１１の動作
（１）時系列記憶動作
ここで、以下の時系列記憶動作は覚醒モードでのみ実行されるものとする。
［覚醒モードで実行される想起動作］
重みw^L _ijの初期値はランダムに設定されており、相２でＡＬ層に信号y_j(t、1)が入力されると、次式で得点E^L _jを算出する。最も大きな得点E^L _jを獲得したノードj1、（又は大きな得点を獲得したノード群）が勝者ノードとなり、勝者ノードは興奮し、ＦＬ層に出力する。

つぎに学習係数 k_Lが１に近い大きな値で学習し、そのときの入力の値y_iを重みの値として記憶する。
w^L _{i j1}(t、2)= w^L _{i j1}(t、1) + k_L( y_i(t、1) - w^L _ij1(t、1) )
ここで k_L≒１の場合は w^L _ij1(t、2)≒ y_i(t、1) となる。
即ち、勝者となったＢＬ層ノードｊの重みの値は、その時点の入力（概念又はイメージの組（シーン））を記憶する。

ＢＬ層ノードの興奮信号はそのままＦＬ層に伝えられる。入力１を受け取ったＦＬ層は次の相３でＢＬ層のノードに向けて１を出力する。同時に相３で、ＡＬ層からy_j(t、2)が伝えられると、ＢＬ層には、ＡＬ層からのy_j(t、2)とＦＬ層の状態が同時に入力される。このとき、全く同じＡＬ層入力y_jが引き続いたとしても、その前に興奮していたＢＬ層ノードが一般に異なるため、ＦＬ層からの入力は異なる。結果としてＡＬ層とＦＬ層の出力を入力するＢＬ層への入力は、ＡＬ層入力y_jがおなじとしても、入力全体としては異なることとなる。

ここで、同様に次式でこの新しいＢＬ層への入力についてE^L _j2を算出する。

最も高い得点E^L _j2を得たノード、即ち、最もよく一致する重みを持ったＢ層ノードj2が興奮する。このノードは一般的に、その前に興奮したノードj1とは別のノードとなる。

つぎに、同様に学習係数 k_Lが１に近い大きな値で次式のように学習し、そのときの入力の値y_i(t、2)を重みの値として記憶する。
w^L _{i j2}(t、3)= w^L _{i j2}(t、2) + k_L( y_i(t、2) - w^L _ij2(t、2) )
ここで、 k_L≒１の場合は、w^L _ij1(t、3)≒ y_i(t、2)となる。

これにより、シーンが発生するたびに、次々と別のＢＬ層ノードに記憶することができる。同様の処理を、概念形成モジュール１０（体感覚サブモジュール）から相４で入力される状態に対しても行い、ログモジュール１１に記憶する。

ただし、これらの方法では、シーンが発生するたびに最低１個のＢＬ層ノードが必要とされる。基本的には、記憶が古くなる前に、統合モジュール１２にその内容を転写しておき、ある程度以上古くなったＢＬ層ノードには、重ね書き（オーバライト）されるとしている。このとき、古い記憶は消去され、新たに書かれた内容が保持される。

簡単には古くなったノードを使い回してゆく。このためにも夢見モードは必要である。

ｃ．時系列的な想起動作
［覚醒モードで実行される想起動作］
覚醒モードでの想起動作は、相３でy_j(t、2)（統合モジュール１２の選択結果）の瞬間値を大きな学習係数で記憶するのと並行して、既に記憶しているシーンのなかで、y_j(t、2)に類似しているシーンの次に生起したシーンを想起する形で行われる。以下の２つの実現方法があるが、ここでは２）について示す。
１）相３では、時間を２分割して、想起動作と記憶動作を順に行う方法、
２）一つのシーンに対して多数のノード（例えば数十個）が対応するようにしておき、相３では、並列に想起動作と記憶動作を行う方法。

相３で、y_j(t、2)がログモジュール１１に入力されると、ＢＬ層ノードの約半分がランダムに選択され、選択されたノードは、ＦＬ層からの入力を強制的にOFFとして、ＡＬ層からの入力に対してだけ得点を計算する。この結果、最も高得点になったＢＬ層ノードは、その状態をＦＬ層に伝える。次に、ＢＬ層ノードは、ＦＬ層からの入力を強制的にONにし、ＡＬ層からの入力をOFFにして得点を計算する。この得点の高いＢＬ層ノードを取り出すことで、過去にy_j(t、2)に類似したシーンによりあるＢＬ層ノードが興奮した後、その１クロック後に、引き続き生起したシーンにより興奮したＢＬ層ノードを求めることができる。このＢＬ層ノードは、ＡＬ層とＢＬ層ノード間の重みw^L _ijの値を、t+1、1のタイミングで、ＡＬ層を介して逆方向に統合モジュール１２に出力する。

簡単には、ＡＬ層からログモジュール１１への入力に対して、はじめに、類似性の高い重みを持つＢＬ層ノードが選択され、次にＦＬ層を介して、そのシーンの次に生起したシーンを記憶しているノードが特定されて、そのノードが記憶している重みw^L _ijの内容が、逆方向に（再びＡＬ層を介して）統合モジュール１２に出力される。このとき、残りの約半分のノードは、ＦＬ層の入力をONのままとして、y_j(t、2)の瞬間値を記憶している。言い替えれば、覚醒モードでのログモジュール１１の想起動作は、これまでの経験で次に何が起こったかを知らせている。

ここで改めて、ログモジュール１１の覚醒モードでの動作をまとめると以下のようになる。

覚醒モードでのログモジュール１１は相２で y_j(t、1)の、相３でy_j(t、2)（統合モジュール１２の選択結果）の瞬間値を大きな学習係数で記憶する。加えて、相４では、報酬qを記憶する。これと並行して相３では、既に記憶しているシーンのなかで、y_j(t、2)に類似しているものを想起する。これらの想起されたシーンは次のクロック t+1に、信号 z_j(t+1、1) として統合モジュール１２に出力される。

［夢見モードで実行される想起動作］
夢見モードで実行される想起動作において、このモードでは、システムは外部環境からの刺激を無視し、環境に対して行動しない。システム全体として、哺乳類に例えれば、ほとんど寝ている状態に対応する。覚醒モードで記憶された、相２、相３、相４と相毎のシーンの瞬間値としての記憶は、ログモジュール１１から自動的に順次に想起され、繰り返して統合モジュール１２（概念形成モジュール１０Ｂ層ノード上）に出力される。概念形成モジュール１０Ｂ層ノードを介して、統合モジュール１２の構成Ａ、構成Ｂ、及び構成Ｃはこれらの値を取り入れ、重みを小さな学習係数により少しずつ修正する。

ここで、統合モジュール１２の主な状態は、相２、相３、相４においてログモジュール１１に記憶（記録）されているため、この内容を順次、ログモジュール１１から読み出し、統合モジュール１２に入力することで、すでに経験したことを再度繰り返して経験し、学習に使用できる。

何を繰り返して、何を繰り返さないか等は、後に示す情動系からの制御による。基本的には、情動系からの制御により、システムにとって重要な経験とみとめられたシーケンスのみを夢見モードでは繰り返すとしている。

次に、各構成毎の動作内容について説明する。
ａ．構成Ａ：シーケンスを繰り返して入力して、すでに示したような報酬に基づいた学習を行うことにより、学習係数は小さくても（少しづつしか重みは修正されなくても）、システムにとって重要な経験を統合モジュール１２に定着できる。

ｂ．構成Ｂ：ログモジュール１１からの読み出し内容を用いて、Ｉ層２２を中心とする学習を行う。Ｉ層２２については、以下を仮定している。Ｉ層２２には、相当大きな個数のノードが存在する。統合モジュール１２のＢＣ層上のノードからＩ層２２のノードへ入力されるリンク上の重み、Ｉ層２２のノードから統合モジュール１２のＢＣ層上のノードへ入力されるリンク上の重みの初期値はランダムであるとする。

処理は次の手順で行う。
１）相２の記憶内容の読み出しを用いて、概念形成モジュール１０のＢＣ層上のノードを介して、構成ＢのＩ層２２に入力する。概念形成モジュール１０、ログモジュール１１と同様の得点計算をＩ層のノードが行い、得点の上位数十個のノードが興奮する。興奮したノードは概念形成モジュール１０のＢＣ層のノードからＩ層の２２ノードへ入力されるリンク上の重みを、概念形成モジュール１０の重みと同様に学習する。
２）相３の記憶内容の読み出しと相４の報酬を用いて概念形成モジュール１０のＢＣ層を興奮させる。このとき、Ｉ層２２のノードの出力を概念形成モジュール１０のＢＣ層に伝達するリンク上の重みを、構成Ａと同様に報酬に基づいて変化させる。

１）の操作で、システムにとって重要な経験とすべき状況について、概念又はイメージのレベルで、どのようなパターンであるかをＩ層２２ノードが学習する。個々のＩ層２２ノードは、それぞれの状態に対応した状況のみを学習してゆく。ただし、この学習には概念形成モジュール１０での学習と同様の方法を用いるため、ある状態であることに対して、共通して必要な概念又はイメージ、あってはいけない概念又はイメージ、影響を与えない概念又はイメージが自動的に抽出される。即ち、個々のＩ層２２のノードは、感覚刺激の状態を、概念又はイメージのレベルでパターン化して重みに記憶する。

２）の操作では、概念又はイメージのレベルでパターンを代表するＩ層の２２ノードが、どのような概念形成モジュール１０のＢＣ層上のノードを支持するかを示す。

このように、Ｉ層２２のノードを設けて投票を行うことにより、概念形成モジュール１０のＢＣ層上のパターンに対して自由度の高い関数としての投票を実現できる。

ｃ．構成Ｃ：ログモジュール１１と同様の構成をもつ構成Ｃに、ログモジュール１１の記憶内容を転写する。図に示すように、統合モジュール１２の構成Ｃはログモジュール１１と同様の構成をもち、同様の動作を行う。ただし、以下の点で異なる。
１）構成Ｃの学習係数は、極めて小さい。
２）構成Ｃ内のＦ_IＣ層、Ｂ_IＣ層のノード数は極めて大きい。

ログモジュール１１のＦＬ層では、容量が小さいために古い情報には重ね書きされることを想定したが、統合モジュール１２の構成Ｃ内のＦ_IＣ層、Ｂ_IＣ層のノード数は極めて大きく、記憶のたびにノードが使用されてゆくが、重ね書きを行うことはないとする。

これを踏まえて、ログモジュール１１が相２、相３、相４で記憶した内容を繰り返して読み出し、同時に構成Ｃはログモジュール１１の記憶時と同様の動作を行うことにより、同様構成の構成ＣにＢ_ＩＣ層のノードを介して、ゆっくりとコピーすることができる。

結果的には、瞬間値としての記憶が統合モジュール１２の構成Ａに定着できる。これにより、我々は、夢見モードが安定性と可塑性のトレードオフに対応する有効な方法であると考えている。

基本制御モジュール１４
実環境表示と想起内容表示とは、微細特徴の状態を短時間保持して、イメージ像を合成する。即ち、前述したように、基本制御モジュール１４は、実環境表示と想起内容表示の２つのサブモジュールで構成され、実環境表示は、実環境からの入力であるセンサと前処理グループ１からの微細特徴信号群２に基づいて、実際に起こっている環境やシステム内部の状態を実時間で出力する。想起内容表示は概念形成モジュール１０から逆方向に出力され、選択された概念又はイメージに対応する微細特徴信号群２に基づいた、統合モジュール１２で選択された概念又はイメージのぼんやりした形状を出力する。

つぎに、本自律適応型システムの３段階の成長について説明する。システム全体の機能は、以下に示すように、３つの段階の学習を経て成長する。

第１ステージ：
この段階は人間の赤ちゃんに似ている。このときは、概念形成モジュール１０だけが働く。概念又はイメージはゆっくりと教師無し学習に従って形成される。このステージでは、システムは行動決定能力やエピソード記憶の能力を全くもたない。

第２ステージ：
この時期は人間の幼児期に相当する。このステージの前に形成された概念又はイメージの同時生起の度合いに基づいて、統合モジュール１２がリンクを形成する。このステージでは、概念形成モジュール１０は教師あり学習を開始する。この時点では、他の概念形成モジュール１０の出力は、教師信号として使用される。システムは、低いレベルの行動決定能力しかもたず、エピソード記憶の能力は十分には働かない。

第３ステージ：
このステージは子供に対応する。概念形成モジュール１０のイメージと概念を結ぶ、統合モジュール１２リンクを用いて、高いレベルの意志決定が可能になる。これらのイメージと概念は能動的に教師信号に基づいて学習する。エピソード記憶は十分に機能する。この段階では、システムは、先に示した覚醒モードと夢見モードの２つの動作モードを持つ。

つぎに、イメージドリブンアーキテクチャにおける主な機能について説明する。

ａ．互選による選択
統合モジュール１２は概念形成モジュール１０、ログモジュール１１の全ての出力を統合して、有用で効果的な概念又はイメージを選択する。互選は膨大な数の条件を満足する解を短時間で選ぶことと解釈できる。これは、多様な値を同時に考慮して全体的に眺めた上で選択することを示している。この互選のメカニズムは思考についての最も原始的な形を示している。

ｂ．連想と注意
統合モジュール１２で選ばれたイメージと概念は、微細特徴の群に再変換される。この微細特徴の群は環境からの微細特徴の群と重ねられ次のサイクルでは概念形成モジュール１０に入力される。このことは、統合モジュール１２で選択された概念又はイメージは次に選択される概念又はイメージに影響を与えることを示している。微細特徴と概念の間の情報の循環は自由な連想と高いレベルの思考を可能にしている。加えて、概念形成モジュール１０に選択結果を戻すことはフィードバックの一形態である。このフィードバックを用いてシステムは次に何を監視すべきかを知る。

ｃ．意味を知ることと、システムの有効な制御
互選の結果が、実空間の表示と同様の具体性をもって、基本制御モジュール内の一時記憶に表示されることにより、システムは、統合モジュール１２で選択された情報の意味を知ることができる。

システムが環境に適応するときにフィードバック情報を用いて、統合モジュール１２で選ばれた概念又はイメージの部分のみ、重みは変更される。この結果、システムが非常に複雑な構成であっても、適応のために効果的な部分のみが、変更される。

以上説明したように、本実施形態においては、ニューラルネットワークによる原始的な概念形成を用いて環境に適応するアーキテクチャにおいて、微細特徴、概念又はイメージ、概念の組み合わせ又はシーンという３階層の要素をもつ、複合的なマルチモジュールシステムとして構成して、微細特徴の選択として機能する概念形成を設けることで、互選方式によってシステムにとって有効な概念を選ぶだけでなく、想起を通じて曖昧なイメージとして表示し、モジュール内の選択的な学習を制御することができる。とくに、多くの信号を概念又はイメージという形で束ねること、及び、環境、又はシステム自身の状態を入力信号により再構成することで、自律的に環境に適応するシステムを実現することが可能となる。

また、束ねられた概念又はイメージのレベルで、各時点において有効な組を選択することで、興奮する複数の概念又はイメージが、同時生起確率に基づいて重みを学習したリンクを通じて他の概念又はイメージに信号を送り、結果として、興奮する複数の概念又はイメージに応じた適切な概念又はイメージの組みが興奮する。

なお、非特許文献６〜８に記載されている技術は、複数の専用処理系を単位として特定のエリアを競合的に取り合うことを想定しているが、本実施形態においては、概念又はイメージの単位で重要なものを選んでいる。また、この選択に際して、実際にその時点で入力されている情報に加えて、システムの過去の個々の経験、又それからできる予測を同時に考慮可能とすることで、より適切な状況認識を行うことが可能となり、これに基づいた望ましい行動決定をすることができる。さらに、非特許文献６〜８に記載されているグローバルワークスペース理論は、概念形成機能を持たず自律適応機能が限られている点において、本実施形態のシステムの機能とは全く異なっている。即ち、グローバルワークスペース理論では勝ち残った内容を意識としているのに対し、本実施形態のシステムでは、概念形成モジュール１０を通じて逆変換され、基本制御モジュール１４内の一時記憶に記録される内容を意識に相当するものとしているのである。

また、個別の経験を、情動サブシステム等の指示により、重要度に応じて想起させることにより、自律的な適応において、経験した時間や回数に応じて学習・適応するのではなく、システムとしての重要な経験は時間や回数が少なくとも、きちんと適応することが可能になる。これは、経験時間を超えた自律的な適応となる。

選択結果については、概念又はイメージを構成する微細特徴（詳細な信号群）に逆変換して、実世界の状況と同レベルの情報としてシステムが把握、比較照合可能とすること、及び、逆変換された微細特徴（詳細な信号群）を用いて、システムが環境、システム自身の状態を、再構成することにより、明示的なスーパバイザ（監視装置、監視プログラム等）をもたないシステムにおいて、選択・判断の意味を知ることができる。明示的なスーパバイザとは、あらかじめ人間が事前に考えたりしたアルゴリズムの中に、選択・判断の意味が組み込まれているものを示している。

従来から、自律的に選択・判断機能を適応させるシステムにおいては、その時点時点の選択・判断の意味をシステム自身がどのように把握するかが問題であったが、本実施形態により、システム内の選択・判断する機構そのものは意味が分からないとしても、選択・判断結果の逆変換を通じて、システム全体としては、その意味を知ることができる。

さらに、システムが容易に意味を知るためには、外部環境を知るために構成されているモデルと同等のモデル化（再構成）が有効である。

逆変換（逆変換に用いる情報を使って）において、同時に、環境に適応するための学習を効率的に行うこと、及び、逆変換（逆変換に用いる情報を使って）において、同時に、環境に効率的に反応するための注意を喚起することが重要であり、統合モジュールで選択された情報を提供したモジュールを、より入力に合わせるべく学習させることで、複合的で複雑なシステムのどこが学習することが有効かを明示的に捉えることができる。

また、逆変換情報は、センサの出力レベルでもあるため、センサレベルで、その時点で注意すべき信号を明らかにできる。逆変換・表示された微細特徴（詳細な信号群）を、実環境からの入力と併せて入力可能として、システム内においてサイクリックな処理を可能とする。

基本制御モジュール、概念形成モジュール、統合モジュール、ログモジュールを併せて、サイクリックに動作させることができるため、ディジタルコンピュータと同様に、複雑な課題を処理することができる。基本的には、この循環系がイメージドリブンアーキテクチャの基本回路を構成する。

システムの行動に対する報酬に基づいて、学習の度合いや方法等を変更することで、より効率的にシステムが環境に自律的に適応可能とすることは、自律的なシステムとして重要である。情動系の支持に基づいて、上に示した動作において、学習の度合いや方法等を変更することで、より効率的にシステムが環境に自律的に適応可能となる。また、危険を感じたような場合はシステム全体として、強い形で記憶が残り、かつそのような状況が再現するのを避けるように判断することができる。

本発明の一実施形態における自律適応型システムを含む全体構成の一例を示すブロック図である。主要な要素の階層構成の一例を示す図である。自律的な適応を行うための内部状態の一例を示す図である。図１に示す自律適応型システムを含む全体構成の具体例を示す図である。概念形成モジュールの一例を示す図である。概念形成モジュールの機能例を示す図である。統合モジュールの第１構成例を示す図である。統合モジュールの第２構成例を示す図である。統合モジュールの第３構成例を示す図である。ログモジュールの一構成例を示す図である。

符号の説明

１センサと前処理モジュール
２微細特徴信号群
３自律適応型システム
１０概念形成モジュール
１１ログモジュール
１２統合モジュール
１３行動モジュール
１４基本制御モジュール
２３順序記憶サブモジュール

Claims

入力された多数の微細特徴信号を束ねて相当する概念又はイメージ信号をそれぞれ形成する順方向処理を行うと共に、概念又はイメージ信号から相当する多数の微細特徴信号をそれぞれ形成する逆方向処理を行う複数の概念形成モジュールと、
実環境から得られた多数の微細特徴信号を前記複数の概念形成モジュールに入力すると共に、該複数の概念形成モジュールがそれぞれ逆方向処理して形成した多数の微細特徴信号を一時的に記憶し該複数の概念形成モジュールに再度入力する基本制御モジュールと、
前記複数の概念形成モジュールの出力から相互投票によって前記概念又はイメージ信号の少なくとも１つを選択する統合モジュールと、
前記基本制御モジュール及び前記統合モジュールの出力から行動を決定する行動モジュールとを備えており、
前記統合モジュールによって選択された少なくとも１つの概念又はイメージ信号が該当する前記概念形成モジュールに入力されて前記逆方向処理が行われるように構成されていることを特徴とする、環境に対する自律適応型システム。
前記統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、該選択された内容に類似の継続する内容を該時系列記憶から読出して前記統合モジュールに出力するログモジュールをさらに備えていることを特徴とする請求項１に記載の自律適応型システム。
前記ログモジュールが、フィードバック付のニューラルネットワークで構成されていることを特徴とする請求項２に記載の自律適応型システム。
前記複数の概念形成モジュールの各々が前記基本制御モジュール側の第１の層と前記統合モジュール側の第２の層とを備えており、前記第１の層のノードが前記第２の層の各ノードと結合するように構成されており、前記第１の層のノードと前記第２の層のノードとのリンク上の重みの関数として出力を決定するように構成されていることを特徴とする請求項１から３のいずれか１項に記載の自律適応型システム。
前記リンク上の重みが、そのノードの概念又はイメージに含まれるべき微細特徴のリンクでは１、含まれてはいけない微細特徴のリンクでは０、関係しない微細特徴のリンクでは１と０との間の値＃であることを特徴とする請求項４に記載の自律適応型システム。
前記第１の層及び前記第２の層が、ニューラルネットワークで構成されていることを特徴とする請求項４又は５に記載の自律適応型システム。
前記統合モジュールが、前記複数の概念形成モジュールの前記第２の層の各ノードを双方向に接続して構成されていることを特徴とする請求項１から６のいずれか１項に記載の自律適応型システム。
前記統合モジュールが、前記複数の概念形成モジュールの前記第２の層の各ノードからの出力を入力し、出力を該第２の層の各ノードに入力するノードを有する層を備えていることを特徴とする請求項１から６のいずれか１項に記載の自律適応型システム。
前記統合モジュールが、前記複数の概念形成モジュールの前記第２の層の各ノードにそれぞれ接続されたノードを有しており、該統合モジュールにおいて選択された内容を逐次的に記憶して時系列記憶を作成すると共に、該選択された内容に類似の継続する内容を該時系列記憶から読出して前記統合モジュールに出力するするサブモジュールを備えていることを特徴とする請求項１から６のいずれか１項に記載の自律適応型システム。
前記統合モジュールの前記層又は前記サブモジュールが、ニューラルネットワークで構成されていることを特徴とする請求項８又は９に記載の自律適応型システム。