JP2007280054A

JP2007280054A - 学習装置および学習方法、並びにプログラム

Info

Publication number: JP2007280054A
Application number: JP2006105546A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Masato Ito; 真人伊藤; Kenta Kawamoto; 献太河本; Yukiko Yoshiike; 由紀子吉池; Hirotaka Suzuki; 洋貴鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-04-06
Filing date: 2006-04-06
Publication date: 2007-10-25
Also published as: US7953683B2; KR20070100160A; US20070239644A1; CN101051215A; CN100504675C

Abstract

【課題】ダイナミクスを効率的に学習する。
【解決手段】勝者ノード決定部７−２は、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する。学習重み決定部７−３は、勝者ノードからの距離に応じて、ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する。パラメータ更新部７−４は、学習の重みに対応する度合で、時系列データに基づき、ネットワークの各ダイナミクスを自己組織的に学習する。本発明は、例えば、ロボットなどに適用することができる。
【選択図】図４

Description

本発明は、学習装置および学習方法、並びにプログラムに関し、特に、ダイナミクスを効率的に学習することができるようにした学習装置および学習方法、並びにプログラムに関する。

ロボットの行動（運動）は、時間発展法則により定められる力学系（dynamical system
s）として記述することができ、様々な行動はその力学系がある特定のアトラクタダイナミクス（attractor dynamics）によって実現可能であることが知られている。

例えば、人間のような二足型ロボットの歩行運動は、系の運動状態が様々な初期状態からある特定の周期軌道に落ち着くことを特徴とするリミットサイクルダイナミクス（limit cycle dynamics）として記述することができる（例えば、非特許文献１，２参照）。また、アームロボットがある対象物に対して手先を伸ばすようなリーチング運動は、様々な初期状態からある特定の固定点に落ち着くことを特徴とする不動点ダイナミクス（fixed-point dynamics）として記述することができる。さらに、全ての運動は、不動点ダイナミクスで実現可能な離散運動（discrete movement）とリミットサイクルダイナミクスで実現可能な周期運動（cyclic movement）の組み合わせにより実現可能であるとも言われている。

このアトラクタダイナミクスによってロボットの行動（運動）を制御する場合の問題は、まず、タスクに応じたアトラクタダイナミクスをどのように構成するのか、次に、センサ入力を通じて得た情報に基づいて、アトラクタダイナミクスにしたがいながら、対応するモータ出力を生成することであり、これを実現するためには、アトラクタダイナミクスが環境と連続的に相互作用するかたちでロボットの行動出力を生成する必要がある。

こうしたアトラクタダイナミクスを人間が設計するのではなく、学習する方法が提案されている。その方法の１つに、リカレントニューラルネットワーク（recurrent neural network）（以下、RNNという）を利用する方法がある。RNNは、ネットワークに回帰ループで結合されるコンテキストユニットを持ち、そこに内部状態を保持することによって、理論的には、任意の力学系を近似可能であることが知られている。

しかしながら、密結合した１つのネットワークモジュールで構成される学習モデルでは、大規模な行動学習に必要な多数のダイナミクスの学習をする際に、記憶しようとするダイナミクス間の干渉が非常に大きく、学習が困難であるという問題がある。

そこで、複数のネットワークモジュールを組にして１つの学習モデルを構成するモジュラアーキテクチャ（modular architecture）を採用した学習モデルがいくつか提案されている。このモジュラアーキテクチャでは、原理的には、モジュールを増やすことによって記憶できるダイナミクスを容易に増やすことができるが、与えられた学習サンプルをどのモジュールで学習するかを決定するモジュール選択の問題が生じる。

このモジュール選択の方法によって、学習方法は、学習サンプル（学習データ）を、どのモジュールに割り当てるかを人間が決める教師あり学習（supervised learning）と、学習モデルが自律的に決める教師なし学習（unsupervised learning）の２つの方法に分けられるが、ロボットやシステムが自律的に学習を行うためには、教師なし学習によりモジュールを学習する必要がある。

教師なし学習によりモジュールを学習する方法の１つとして、Mixture of RNN Expertという学習モデルが提案されている（例えば、特許文献１参照）。この学習モデルでは、複数のRNNモジュールの出力をゲート機構により統合して最終的な出力を決定し、その最終的な出力の性能が最大化するように最尤推定法（maximum likelihood estimation）によりゲートを調整しながら、各RNNのモジュールを学習する。

しかしながら、このような全体最適化に基づく方法では、モジュールの数が大規模になった場合に、学習が困難になるという問題がある。

これに対して、ベクトルパターンのカテゴリ学習に用いられる自己組織化マップ（self-organization map）（以下、ＳＯＭという）（例えば、非特許文献３参照）やニューラルガス（neural-gas）（例えば、非特許文献４参照）などの方法では、全体最適化に基づく学習則は用いられず、最適性は保証されないが、適切なカテゴリ構造を自己組織化的に教師なし学習することが可能であることが知られている。これらの方法では、モジュールの数が大規模になった場合であっても、実用的に学習が可能である。

特開平１１−１２６１９８号公報 G.Taga,1998,"Self-organized control of bipedal locomotion by neural oscillators in unpredictable environment",Biological Cybernetics, 65, 147-159 多賀厳太郎著、「脳と身体の動的デザイン−運動・知覚の非線形力学系と発達」、金子書房 T.コホネン、「自己組織化マップ」、シュプリンガー・フェアラーク東京 T.M. Martinetz,S.G. Berkovich,K.J. Schulten, ""Neural-Gas" Network for Vector Quantization and its Application to Time-Series Prediction",IEEE Trans. Neural Networks,VOL.4,NO.4,p558-569,1999

本件出願人は、先に、ベクトルパターンのかわりに時系列パターンを学習するためのモデルを提案している（特願2004-353832号）。

しかしながら、ダイナミクスの学習を効率的に行う方法は提案されていない。

本発明は、このような状況に鑑みてなされたものであり、ダイナミクスを効率的に学習することができるようにするものである。

本発明の一側面の学習装置は、ダイナミクスを１つのノードに保持し、複数の前記ノードによって構成されるネットワークを記憶する記憶手段と、観測される時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する学習手段と、前記時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する勝者ノード決定手段と、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する重み決定手段とを備え、前記学習手段は、前記学習の重みに対応する度合で、前記ネットワークの各ダイナミクスを自己組織的に学習する。

前記ダイナミクスは、内部状態量を持つ力学系近似モデルによってモデル化されることができる。

前記ダイナミクスは、リカレントニューラルネットワークによってモデル化されることができる。

前記学習手段は、前記学習の重みに対応する勾配法の勾配の大きさ、または繰り返し計算の繰り返し回数で、前記繰り返し計算に基づく前記勾配法に基づいて、前記ネットワークの各ダイナミクスを学習することができる。

本発明の一側面の学習方法は、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習するステップを含む。

本発明の一側面のプログラムは、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習するステップを含む処理をコンピュータに実行させる。

本発明の一側面においては、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードが決定され、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みが決定され、前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスが自己組織的に学習される。

以上のように、本発明の一側面によれば、ダイナミクスを効率的に学習することができる。

以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。

本発明の一側面の学習装置は、
ダイナミクスを１つのノードに保持し、複数の前記ノードによって構成されるネットワーク(例えば、ダイナミクス記憶ネットワーク)を記憶する記憶手段(例えば、図１のネットワーク記憶部１５)と、
観測される時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する学習手段(例えば、図１の学習部１４)と、
前記時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する勝者ノード決定手段(例えば、図４の勝者ノード決定部７−２)と、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する重み決定手段(例えば、図４の学習重み決定部７−３)と
を備え、
前記学習手段は、前記学習の重みに対応する度合で、前記ネットワークの各ダイナミクスを自己組織的に学習する(例えば、図６のステップＳ８の処理)。

本発明の一側面の学習方法またはプログラムは、
ダイナミクスを保持するノードの複数によって構成されるネットワーク(例えば、ダイナミクス記憶ネットワーク)の複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し(例えば、図６のステップＳ５)、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し(例えば、図６のステップＳ６)、
前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する(例えば、図６のステップＳ８)
ステップを含む。

以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。

図１は、本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図で
ある。

図１のデータ処理装置は、力学系を近似するモデルである力学系近似モデルのうちの、内部状態量を持つ力学系近似モデルを１つのノードとするダイナミクス記憶ネットワークを記憶するネットワーク記憶部１−５と、そのダイナミクス記憶ネットワークのパラメータを自己組織的に更新する学習部１−４とを含む。

ダイナミクス記憶ネットワークの各ノードには、時系列データの力学的な特性がダイナミクスとして保持される。学習部１−４によって更新されたパラメータによって定義される、ダイナミクス記憶ネットワークのノードに保持されたダイナミクスは、時系列データの認識や生成のために利用される。

図１のデータ処理装置は、例えばロボットなどの制御信号の認識や生成に利用される。データ処理装置は、特に、自律システムや自律型ロボットなどにおいて、センサおよびモータの入出力信号の学習、認識、または生成に利用される。

図１のデータ処理装置では、データ処理装置に入力される信号と、データ処理装置が出力する信号の両方が、観測される信号である観測信号１−１として、信号入力部１−２に入力される。観測信号１−１は、例えば音声や画像の信号、LED(Light Emitting Diode)の明るさを表す信号、モータの回転角度や回転角速度を表す信号などである。

信号入力部１−２は、入力される観測信号１−１に対応する電気信号を、特徴抽出部１−３に出力する。具体的には、信号入力部１−２は、観測信号１−１が音声の信号である場合、例えばマイクロフォンに対応し、画像信号である場合、例えばカメラに対応する。また、観測信号１−１がモータの回転角度や回転速度を表す信号である場合、信号入力部１−２は、例えばモータの回転角度や回転速度を計測する計測装置に対応する。

なお、以下では、信号入力部１−２に入力される信号だけでなく、信号入力部１−２が出力する信号も、観測信号１−１という。また、観測信号１−１は、定常信号であっても、時間的に変化する非定常信号であってもよい。

さらに、以下では、主にロボットシステムにおけるセンサモータ信号を、観測信号１−１の例として説明する。このセンサモータ信号は、例えば、センサが出力する信号や、モータに入力されるモータを制御する制御信号をコンポーネントとするベクトルである。勿論、観測信号１−１は、センサモータ信号に限定されるものではない。

また、信号入力部１−２は、区間検出装置などを含み、センサモータ信号を所定の区間で区切って出力するものとする。なお、信号入力部１−２からは、適当な長さに区切られたセンサモータ信号が出力されればよく、その区切り方は、特に限定されない。従って、入力されるセンサモータ信号に応じて、最も良い方法で適当な長さに区切られたセンサモータ信号が、観測信号１−１として、信号入力部１−２から出力されればよい。

特徴抽出部１−３は、信号入力部１−２から出力された観測信号１−１から、特徴量を時系列に抽出する。例えば、特徴抽出部１−３は、センサ信号の１つである音声信号に対して、一定時間間隔で周波数分析などの処理を施し、メルケプストラムなどの特徴量を時系列に抽出する。ここで、メルケプストラムとは音声認識などで広く利用されている特徴量である。

特徴抽出部１−３は、観測信号１−１から特徴量を時系列に抽出することにより得た特徴量の時系列データ(以下、単に、時系列データという)を、学習部１−４、認識部１−６、および生成部１−９に供給する。

学習部１−４は、特徴抽出部１−３から供給される時系列データを用いて、所定の度合で、時系列データの時間変化の特徴をダイナミクスとして学習する。具体的には、学習部１−４は、所定の度合で、ダイナミクスを保持するダイナミクス記憶ネットワークのパラメータを更新する。

学習部１−４による学習の詳細は後述するが、学習部１−４は、基本的には、ラベルの付与されていない時系列データが繰り返し与えられると、その時系列データの中の特徴的なダイナミクスを自己組織的に獲得していく教師なし学習を実行する。その結果、ネットワーク記憶部１−５に記憶されるダイナミクス記憶ネットワークには、代表的なダイナミクスが効率的に保持される。その保持されたダイナミクスは、認識部１−６や生成部１−９が、必要に応じて、いつでも利用することができるようになされている。

ここで、ダイナミクスは、時間変化する力学系を表すものであり、例えば、具体的な関数によって表現することができる。ダイナミクス記憶ネットワークでは、時系列データの時間変化の特徴が、ダイナミクスとして保持される。

認識部１−６は、特徴抽出部１−３から供給される時系列データに対して、それまでの学習の結果得られたダイナミクス記憶ネットワークに保持されるダイナミクスを照らし合わせ、最も類似したダイナミクスを決定し、その決定の結果を認識結果１−７として出力する。

一方、ダイナミクス記憶ネットワークに保持されたダイナミクスからは、必要に応じて、時系列データを生成することができるようになされている。生成部１−９は、時系列データを生成する生成処理を行う。

具体的には、生成部１−９は、どのダイナミクスから時系列データを生成するかを指定する制御信号１−８を取得する。生成部１−９は、制御信号１−８、特徴抽出部１−３から供給される時系列データ、およびダイナミクス記憶ネットワークに基づき、指定されたダイナミクスから時系列データを生成する。そして、生成部１−９は、その時系列データを生成結果１−１０として出力する。

内部状態記憶部１−１１は、ダイナミクス記憶ネットワークの各ノードの内部状態量を保持する。内部状態記憶部１−１１に記憶された内部状態量は、例えば、認識部１−６によって更新され、生成部１−９によって生成処理に利用される。

図２は、図１のネットワーク記憶部１−５に記憶されるダイナミクス記憶ネットワーク５−１の例を示している。

図２は、すべてのノード５−２乃至５−１０を２次元的に配置し、縦方向および横方向に隣接するノード間にリンクを与えたダイナミクス記憶ネットワーク５−１を示している。

なお、以下では、ノード５−２乃至５−１０を区別する必要がない場合、それらをまとめてノード５という。

ここで、リンクは、空間上にノード５が配置される構造を与えるために利用される。即ち、図２のダイナミクス記憶ネットワーク５−１は、２次元的なノードの配置構造を与えたダイナミクス記憶ネットワークの例である。図２に示すように、リンクによって与えられる空間的なノード５の配置構造に基づき、ノード５どうしの空間上での距離関係が決定される。

例えば、図２では、あるノード５に着目したとき、その着目したノード５である着目ノードとリンクで直接結合された、着目ノードに隣接するノードは、着目ノードとの距離が最も近く、その隣接するノードである隣接ノードから先のリンクを順にたどっていくことで到達するノード５は、着目ノードとの距離が少しずつ遠くなっていく。

図２以外にも、リンクの構成の仕方によって、ノード５の空間上における配置構造を変化させることができ、その配置構造はリンクを使うことで任意に設定できる。

図３は、ノード５の詳細を示す図である。

ノード５は、内部状態量を持つ力学系近似モデル６−１と、その力学系近似モデル６−１のパラメータの学習の度合を表す情報(以下、度合情報という)を記憶する学習度合記憶部６−２により構成される。力学系近似モデル６−１としては、例えばRNNなどを用いることができ、この場合、内部状態としては、例えば、RNNの出力層から入力層にフィードバックされるコンテキストがある。なお、学習度合記憶部６−２は、ネットワーク記憶部１−５（図１）の記憶領域の一部である。

図３では、力学系近似モデル６−１として、三層型ニューラルネットワーク（ＮＮ）の出力層から入力層への回帰ループを持つRNNが用いられている。このRNNを用いて、時系列データにおける時刻Ｔの状態ベクトルＸ_Tを入力とし、その入力に対して、時刻Ｔ＋１の状態ベクトルＸ_T+1を予測して出力することを学習、即ち予測学習(prediction learning)することにより、時系列データの時間発展法則を学習することができる。

RNNのような内部状態量を持つ力学系近似モデルのパラメータの推定方法には、一般的に、BPTT(Back-Propagation Through Time)法が利用される。BPTT法については、例えば、D. E. Rumelhart, G. E. Hinton & R. E. Williams, 1986 ”Learning internal representations by error propagation”, In D. E. Rumelhart & J. McClelland, ”Parallel distributed processing”, pp. 318-364, Cambridge, MA: MIT Press,R.J.Williams and D.Zipser,”A learning algorithm for continually running fully recurrent neural networks”,Neural Computation,1:270-280,1989等に記載されている。

力学系近似モデル６−１は、学習度合記憶部６−２に記憶される度合情報が表す度合で、学習部１−４から供給される時系列データである学習データの時系列パターンをダイナミクスとして学習する。

なお、学習部１−４が行う学習は、オンライン学習である。即ち、観測信号１−１が入力されるたびに、学習部１−４は、その観測信号１−１を学習データとして、力学系近似モデル６−１のパラメータを少しずつ更新する。

学習度合記憶部６−２は、学習部１−４から供給される度合情報を記憶する。学習部１−４は、この度合情報に応じて学習の度合を調整し、これにより、力学系近似モデル６−１のパラメータが学習データの影響を受ける度合が、調整される。

以上のように、学習部１−４は、学習度合記憶部６−２に記憶されている度合情報に応じて学習の度合を調整しながら、学習データの時系列パターンを学習する。

次に、学習部１−４が行うパラメータの更新について説明する。

ここで、まず最初に、パラメータの推定方法であるBPTT(Back-Propagation Through Time)法の基となるBack-Propagation法（誤差伝播法）について簡単に説明する。

なお、力学系近似モデル６−１の入力層以外のユニットには、シグモイド関数f(x)が適用されるものとする。

いま、ユニットに入力されるデータＹを、ｙ₀,ｙ₁,・・・,ｙ_n-1とし、ユニットからの出力として期待される期待データＲを、ｒ₀,ｒ₁,・・・,ｒ_m-1とする。なお、ｎは、入力層のユニットの数であり、ｍは出力層のユニットの数である。

まず最初に、入力層から出力層に向けてのユニットｊの出力データｏ_jが、以下の式（１）にしたがって求められる。

なお、式（１）において、ｏ_iは、ユニットｉの出力データである。また、ｗ_ijは、力学系近似モデル６−１のパラメータである、ユニットｉからｊへの結線に付される重みである。

次に、式（１）により求められた出力データｏ_jに基づいて、以下の式（２）にしたがい、出力層から入力層に向けて、パラメータｗ_ijが更新される。

なお、式（２）において、ｗ_ij(ｎ)は、ｎ回目に更新されるパラメータｗ_ijであり、ηはパラメータｗ_ijの変化量を調整するゲイン項である。また、δ_jは、ユニットｊの誤差項である。この誤差項δ_jは、ユニットｊが出力層のユニットである場合、期待データｒ_k（ｋ=0,1,・・・,ｍ−１のいずれか）と出力データｏ_jとに基づいて計算され、ユニットｊが隠れ層のユニットである場合、上の層である出力層の誤差を伝播させて計算される。

パラメータｗ_ijは、出力ｏ_jが期待データｒ_kに十分近づくまで、式（２）にしたがって、繰り返し更新される。

なお、Back-Propagation法については、例えば、Ｒ．ビール，Ｔ．ジャクソン、「ニューラルコンピューティング入門」、海文堂等に記載されている。

上述したBack-Propagation法は、最急降下法に基づく学習手法であり、Back-Propagation法では、繰り返し計算に基づく勾配法によって学習が行われる。なお、Back-Propagation法が、リカレントニューラルネットワークに対して拡張されたものが、上述したBPTT法である。

BPTT法は、最急降下法に基づく学習手法である点、およびユニットからの出力が期待される出力に十分近づくまで、パラメータが繰り返し更新される点、即ち繰り返し計算に基づく勾配法によって学習が行われる点において、Back-Propagation法と同一である。

また、BPTT法においても、Back-Propagation法と同様に、パラメータの更新式において、パラメータの変化量を調整するゲイン項ηが用いられる。このゲイン項ηは、勾配法における変化のステップの幅、即ち勾配法の勾配の大きさを調整する働きを有している。

ところで、Back-Propagation法やBPTT法は、一般的に、学習結果がグローバルな最適解に収束することが保証されていない。このため、学習結果が、局所最適解に収束してしまうという問題が発生する危険性がある。

この問題を回避するために、上述したゲイン項ηを、最初大きな値に設定し、徐々に小さくしていく方法などが提案されている。即ち、ゲイン項ηは、パラメータの変化量を調整する役割だけでなく、最急降下法に基づく学習において、グローバルな最適解へ安定して収束させるための役割も有している。前者の役割を利用すれば、ゲイン項ηを、学習データの影響を受ける度合を調整する機能として利用することができる。

また、繰り返し計算における繰り返し回数Ｎに着目すると、繰り返し回数Ｎが大きいほど、学習データの影響を受ける度合は大きくなり、繰り返し回数Ｎが小さいほど、その度合は小さくなる。従って、繰り返し回数Ｎを用いて、学習データの影響を受ける度合を調整することができる。

以上のように、ゲイン項ηまたは繰り返し回数Ｎを用いて、学習データの影響を受ける度合、即ち学習の度合を調整することができる。従って、学習度合記憶部６−２に記憶される度合情報としては、ゲイン項ηまたは繰り返し回数Ｎが用いられる。

図４は、図１の学習部１−４の詳細構成例を示すブロック図である。

学習部１−４は、スコア計算部７−１、勝者ノード決定部７−２、学習重み決定部７−３、およびパラメータ更新部７−４により構成される。学習部１−４には、図１の特徴抽出部１−３から時系列データが入力され、その時系列データは、学習データとして、スコア計算部７−１とパラメータ更新部７−４に供給される。

スコア計算部７−１は、特徴抽出部１−３からの学習データに対する、ネットワーク記憶部１−５に記憶されているダイナミクス記憶ネットワーク５−１に含まれる各ノード５の力学系近似モデル６−１のスコア計算を、内部状態量を更新しながら行う。

具体的には、スコア計算部７−１は、学習データに対して得られるべき出力の真値と、その学習データに対して力学系近似モデル６−１が出力する出力値との平均二乗誤差を、ノード５ごとに予測誤差として計算する。スコア計算部７−１は、その予測誤差をスコアとして、各ノード５に付与する。

なお、スコア計算部７−１は、所定の値を基準として、その所定の値を更新していくことにより得られる値のうちの、スコアを最も小さくする値を、内部状態量としての力学系近似モデル６−１のコンテキストの初期値に決定し、コンテキストを初期値から更新しながら、スコア計算を行う。

コンテキストの初期値の決定に用いる所定の値としては、例えば、ランダムな値や、前回の力学系近似モデル６−１の学習時に求められた、コンテキストの最終的な更新値（以下、前回更新値という）などを採用することができる。

例えば、今回の学習時に用いられる学習データと、前回の学習時に用いられた学習データとが、何らの関係もないことが分かっている場合には、コンテキストの初期値の決定に用いる所定の値としては、ランダムな値を採用することができる。

また、例えば、今回の学習時に用いられる学習データと、前回の学習時に用いられた学習データとが、連続する時系列データなどのように、何らかの関係を有することが分かっている場合には、コンテキストの初期値の決定に用いる所定の値としては、前回更新値を採用することができる。なお、前回更新値を、コンテキストの初期値の決定に用いる所定の値として採用する場合には、前回更新値を、そのまま、コンテキストの初期値に決定することができる。

スコア計算部７−１は、スコア計算の結果、各ノード５に付与されたスコアを勝者ノード決定部７−２に供給する。勝者ノード決定部７−２は、スコア計算部７−１からの各ノード５のスコアを比較し、最もスコアの値が小さいノード５を、学習データに最も適合するノードである勝者ノードとして決定する。勝者ノード決定部７−２は、その勝者ノードを特定する情報を学習重み決定部７−３に供給する。

学習重み決定部７−３は、ネットワーク記憶部１−５に記憶されているダイナミクス記憶ネットワーク５−１を参照し、勝者ノード決定部７−２からの情報により特定される勝者ノードからの距離ｄを、ノード５ごとに計算する。そして、学習重み決定部７−３は、その距離ｄに基づいて、ノード５ごとに学習の重みα（０＜α≦１）を決定する。

また、学習重み決定部７−３は、学習の重みαに基づいて、各ノード５の度合情報を生成する。例えば、学習重み決定部７−３は、学習の重みαに基づいて、式（３）にしたがい、ゲイン項ηまたは繰り返し回数Ｎを度合情報として生成する。

η＝η₀×α
Ｎ＝Ｎ₀×α
・・・（３）

なお、式（３）において、η₀は、学習の重みαが１の場合のゲイン項ηであり、Ｎ₀は、学習の重みαが１の場合の繰り返し回数Ｎである。式（３）によれば、例えば、繰り返し回数Ｎ₀が１００である場合、αが１のとき、繰り返し回数Ｎは１００となり、学習の重みαが０．１のとき、繰り返し回数Ｎは１０となる。

学習重み決定部７−３は、生成した度合情報を各ノード５の学習度合記憶部６−２にそれぞれ供給し、記憶させる。これにより、学習の度合が調整される。

パラメータ更新部７−４は、ノード５ごとに、学習度合記憶部６−２に記憶されている度合情報を読み出し、その度合情報が表す度合で、特徴抽出部１−３から供給される学習データの時系列パターンをダイナミクスとして学習する。具体的には、パラメータ更新部７−４は、ノード５ごとに、学習データと度合情報に基づいて、BPTT法における繰り返し計算を行い、力学系近似モデル６−１のパラメータを更新する。

次に、図５を参照して、学習の重みαについて説明する。

図５の左において、ノード８−１乃至８−６は、ダイナミクス記憶ネットワークを構成するノードであるものとする。また、ノード８−１乃至８−６のうちのノード８−１は、勝者ノードであり、ノード８−２乃至８−６は、勝者ノード８−１からの距離が近い順に並べられている。

図５の右のグラフは、学習の重みαと勝者ノード８−１からの距離ｄの関係を示しており、横軸は学習の重みαを、縦軸は勝者ノード８−１からの距離ｄを、それぞれ示している。

図５の右のグラフによれば、勝者ノード８−１に対しては、学習の重みαを最も大きい「１」とし、他のノード８−２乃至８−６それぞれに対しては、勝者ノード８−１からの距離ｄが離れるにしたがって小さくなるように学習の重みαが決定される。

勝者ノードからの距離ｄは、ダイナミクス記憶ネットワークのリンクによって与えられる空間上のノードの配置構造に基づいて決定される。例えば、図２の２次元上にノード５−２乃至５−１０が配置されたダイナミクス記憶ネットワーク５−１において、勝者ノードが、例えばノード５−７であれば、その勝者ノード５−７に隣接するノード５−４，５−６，５−１０が最も近く、ノード５−３，５−５，５−９がその次に近く、ノード５−２と５−８が最も遠いものとなる。この場合、ノード５間をつなぐ最小のリンク数を距離として利用すると、近い順に距離ｄは１，２，３となる。

図５の右のグラフに示す勝者ノード８−１からの距離ｄと学習の重みαの関係は、以下の式（４）で表される。

なお、式（４）において、γ（０＜γ＜１）は、減衰係数であり、Δは、近傍に対する学習の重みαを調整するための変数である。

式（４）によれば、学習の重みαは、減衰係数γのd/△乗として求められる。また、式（４）において、減衰係数γは、１未満の正の値であるから、距離dが大になるほど、学習の重みαは小さくなる。

いま、距離ｄを、勝者ノード８−１からの距離が近い順に１，２，３・・・とし、勝者ノード８−１の距離ｄを０とすると、例えば、減衰係数γが０．５であり、変数Δが１である場合、学習の重みαは、勝者ノード８−１からの距離ｄが離れるにしたがって、１，０．５，０．２５，０．１２５・・・となる。

ここで、変数Δを少しずつ０に近づけていくと、学習の重みαは勝者ノード８−１から離れるにしたがってより小さい値となる。そして、変数Δが０に近くなると、勝者ノード８−１以外のノード５の学習の重みαはほとんど０となる。このように、変数Δを調整することで、勝者ノードの近傍に対する学習の重みαを調整することが可能となる。基本的には、変数Δは、学習の開始時は大きくし、時間の経過とともに小さくなるように調整される。

図４の学習重み決定部７−３は、式（４）にしたがって、ノード５ごとに学習の重みαを決定する。そして、学習重み決定部７−３は、各ノード５の学習の重みαに基づいて、式（３）にしたがって、ノード５ごとに度合情報を生成し、パラメータ更新部７−４は、その度合情報が表す度合に応じてノード５ごとに学習を行う。

これにより、学習部１−４は、学習の重みαに応じて、勝者ノード８−１を用いたダイナミクスの学習の度合を最も高くし、勝者ノード８−１から離れるにしたがって、その度合を低くすることができる。その結果、勝者ノード８−１のパラメータは、学習データの影響を最も強く受けるように更新され、勝者ノード８−１以外のノード８−２乃至８−６のパラメータは、そのノード８−２乃至８−６が勝者ノード８−１から離れるにしたがって、その影響が小さくなるように更新される。

以上のように、学習部１−４は、学習の重みαに応じて、効率的に学習を行うことができる。

ここで、学習の重みαを学習に反映させる方法として、学習に用いる学習データ内の、以前の学習に用いられた学習データと、観測された時系列データの混合比を調整することにより、学習の重みαを間接的に学習に反映させる方法が考えられるが、この場合、学習部は、混合比が調整されるごとに、調整後の学習データを用いて、膨大な繰り返し計算を行う必要があり、計算効率が悪い。

これに対して、学習部１−４は、学習の重みαに応じて、学習の度合を調整することにより、学習の重みαを直接的に学習に反映させるので、学習の重みαに応じて効率的に学習を行うことができ、これにより、繰り返し回数を削減し、計算効率を向上させることができる。即ち、学習部１−４により行われる学習では、自己組織的学習と、繰り返し計算に基づく勾配法による学習とが、適切な方法で融合されている。

次に、図６を参照して、図１のデータ処理装置がダイナミクス記憶ネットワーク５−１を学習する学習処理について説明する。この学習処理は、例えば、図１のデータ処理装置の電源がオンにされたとき、開始される。

まず最初に、ステップＳ１において、学習部１−４のパラメータ更新部７−４（図４）は、ネットワーク記憶部１−５に記憶されたダイナミクス記憶ネットワーク５−１のパラメータを初期化する。具体的には、ダイナミクス記憶ネットワーク５−１の各ノード５の力学系近似モデル６−１のパラメータに適当な値が初期値として付与される。

ステップＳ１の処理後は、ステップＳ２に進み、図１の信号入力部１−２は、観測信号１−１を取得して、特徴抽出部１−３に供給し、ステップＳ３に進む。ステップＳ３において、特徴抽出部１−３は、その観測信号１−１の特徴量を時系列に抽出し、その結果得られる時系列データを学習データとして、学習部１−４のスコア計算部７−１とパラメータ更新部７−４に供給する。

ステップＳ３の処理後は、ステップＳ４に進み、スコア計算部７−１は、特徴抽出部１−３からの学習データに対する、ネットワーク記憶部１−５に記憶されているダイナミクス記憶ネットワーク５−１に含まれる各ノード５の力学系近似モデル６−１のスコア計算を、内部状態量を更新しながら行う。スコア計算部７−１は、スコア計算の結果、各ノード５に付与したスコアを、勝者ノード決定部７−２に供給する。

ステップＳ４の処理後は、ステップＳ５に進み、勝者ノード決定部７−２は、勝者ノード決定部７−２から供給される各ノード５のスコアを比較することによって、最もスコアの値が小さいノードを勝者ノード８−１として決定し、その勝者ノード８−１を特定する情報を、学習重み決定部７−３に供給する。

ステップＳ５の処理後は、ステップＳ６に進み、学習重み決定部７−３は、ネットワーク記憶部１−５に記憶されているダイナミクス記憶ネットワーク５−１を参照し、上述した式（４）にしたがい、ノード５ごとに学習の重みαを決定する。

ステップＳ６の処理後は、ステップＳ７に進み、学習重み決定部７−３は、各ノード５の学習の重みαに基づいて、上述した式（３）にしたがい、各ノード５の度合情報を生成し、その度合情報を各ノード５の学習度合記憶部６−２にそれぞれ供給して記憶させる。

ステップＳ７の処理後は、ステップＳ８に進み、パラメータ更新部７−４は、ノード５ごとに、特徴抽出部１−３からの学習データと度合情報に基づいて、BPTT法における繰り返し計算を行い、力学系近似モデル６−１のパラメータを更新する。その後、処理は、ステップＳ２に戻り、以降の処理が繰り返される。以上のようにして、度合情報が表す度合で、ダイナミクスの学習が行われる。

次に、図７を参照して、図１のデータ処理装置による時系列データの認識生成の処理について説明する。

図７は、図１のデータ処理装置の認識部１−６と生成部１−９の詳細構成例を示している。

ここで、時系列データの認識生成とは、入力された時系列データを認識し、その認識結果に基づいて、新たな時系列データを生成することである。

認識生成によれば、例えば、人間がロボットに呼びかける音声を発した場合に、そのロボットにおいて、その呼びかけに応じた動きをとるためのモータ信号や、その呼びかけに応答する合成音を生成するためのパラメータ信号等が生成される。

図７に示すように、認識部１−６は、内部状態量更新部１２−１、スコア計算部１２−２、決定部１２−３、および出力部１２−４により構成される。

内部状態量更新部１２−１は、内部状態記憶部１−１１から、前回更新されて記憶されている内部状態量を、ダイナミクス記憶ネットワーク５−１の各ノード５の力学系近似モデル６−１へ読み込む。具体的には、内部状態量更新部１２−１は、内部状態記憶部１−１１から内部状態量を読み出し、その内部状態量を、各ノード５の力学系近似モデル６−１の内部状態量として、スコア計算部１２−２に供給する。

これにより、力学系近似モデル６−１において、入力となる時系列データに基づいて、内部状態量更新部１２が読み込んだ値を初期値として、内部状態量を更新することが可能となる。

また、内部状態量更新部１２−１は、スコア計算部１２−２から供給される、決定部１２−３により勝者ノードが決定されるときの各ノード５の内部状態量の更新値（更新された内部状態量）と、その勝者ノードが決定されるときの各ノード５の内部状態量の初期値とを、内部状態記憶部１−１１に記憶させる。

ここで、内部状態記憶部１−１１に記憶された内部状態量の更新値は、力学系近似モデル６−１へ読み込まれ、次回のスコア計算に利用される。また、内部状態記憶部１−１１に記憶された内部状態量の初期値は、生成部１−９において、時系列データの生成時に利用される。

スコア計算部１２−２は、スコア計算部７−１と同様に、特徴抽出部１−３からの時系列データに対する、ネットワーク記憶部１−５に記憶されているダイナミクス記憶ネットワーク５−１に含まれる各ノード５の力学系近似モデル６−１のスコア計算を、内部状態量を更新しながら行う。

また、スコア計算部１２−２は、スコア計算の結果、各ノード５に付与されたスコアを、決定部１２−３に供給するとともに、そのスコアが付与されたときの各ノード５の内部状態量の更新値と初期値を、勝者ノードが決定されるときの各ノード５の内部状態量の更新値と初期値として、内部状態量更新部１２−１に供給する。

決定部１２−３は、スコア計算部１２−２からのスコアに基づいて、最もスコアの値が小さいノードを、勝者ノードとして決定する。即ち、決定部１２−３は、勝者ノードに対応するダイナミクスを、特徴抽出部１−３から入力された時系列データに最も適合するダイナミクスとして選択する。決定部１２−３は、入力された時系列データに最も適合するダイナミクスに対応する勝者ノードを特定する信号を、出力部１２−４に供給する。

出力部１２−４は、決定部１２−３からの勝者ノードを特定する信号を、認識結果１−７として出力する。以上のようにして、認識部１−６において、入力された時系列データが認識される。そして、認識の結果得られた認識結果１−７は、認識生成における生成の処理において、どのダイナミクスに対応するノード５から時系列データを生成するかを指定する制御信号１−８として用いられる。

図７の生成部１−９は、生成ノード決定部１２−５、内部状態読み込み部１２−６、時系列データ生成部１２−７、および出力部１２−８により構成される。

生成ノード決定部１２−５には、出力部１２−４から出力される認識結果１−７が、制御信号１−８として入力される。生成ノード決定部１２−５は、制御信号１−８に基づいて、時系列データを生成すべきノード５である生成ノードを決定する。即ち、決定部１２−３により決定された勝者ノードが、生成ノードとして決定される。生成ノード決定部１２−５は、決定された生成ノードを特定する情報を、内部状態読み込み部１２−６に供給する。

内部状態読み込み部１２−６は、生成ノード決定部１２−５からの情報に基づいて、ネットワーク記憶部１−５に記憶されたダイナミクス記憶ネットワーク５−１に含まれるノード５のうちの生成ノードの力学系近似モデル６−１に、内部状態記憶部１−１１に記憶されている値を、内部状態量の初期値として読み込む。

即ち、内部状態読み込み部１２−６は、内部状態記憶部１−１１に記憶されている値のうちの、生成ノードが認識部１−６において勝者ノードに決定されたときの内部状態量の初期値を読み出し、その内部状態量の初期値を、生成ノードの力学系近似モデル６−１の内部状態量の初期値として、時系列データ生成部１２−７に供給する。

時系列データ生成部１２−７には、特徴抽出部１−３から供給される時系列データが供給される。時系列データ生成部１２−７は、その時系列データ、内部状態読み込み部１２−６から供給される内部状態量の初期値、および生成ノードの力学系近似モデル６−１に基づいて、その内部状態量を更新しながら、時系列データを生成する。時系列データ生成部１２−７は、その時系列データを出力部１２−８に供給する。

出力部１２−８は、時系列データ生成部１２−７からの時系列データを、生成結果１−１０として出力する。以上のようにして、生成部１−９は、認識部１−６による認識の処理において決定された勝者ノードから、時系列データを生成し、生成結果１−１０として出力する。

以上のように、図１のデータ処理装置では、勝者ノード決定部７−２が、ダイナミクスを保持するノード５の複数によって構成されるダイナミクス記憶ネットワーク５−１の複数のノード５のうち、観測される時系列データに最も適合するダイナミクスに対応するノード５である勝者ノードを決定し、学習重み決定部７−３が、勝者ノードからの距離に応じて、ノード５ごとに、そのノード５が保持するダイナミクスの学習の重みαを決定し、パラメータ更新部７−４が、学習の重みαに対応する度合情報が表す度合で、時系列データに基づき、ダイナミクス記憶ネットワーク５−１の各ダイナミクスを自己組織的に学習するようにしたので、ダイナミクスを効率的に学習することができる。

なお、上述した説明では、時系列データに対して得られるべき出力の真値と、その時系列データに対して力学系近似モデル６−１が出力する出力値との平均二乗誤差を、スコアとしたが、スコアは、これに限定されず、例えば距離、確率などであってもよい。スコアが距離である場合、平均二乗誤差である場合と同様に、スコアの値が小さいノードが勝者ノードとして決定されるが、スコアが確率である場合、スコアの値が大きいノードが勝者ノードとして決定される。

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図８は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。

あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。

また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。ダイナミクス記憶ネットワークの例を示す図である。ノードの例を示す図である。学習部の詳細構成例を示すブロック図である。勝者ノードからの距離と、学習の重みとの関係を示す図である。学習処理を説明するフローチャートである。認識部と生成部の詳細構成例を示すブロック図である。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

符号の説明

１−４学習部，１−５ネットワーク記憶部，７−１スコア計算部，７−２勝者ノード決定部，７−３学習重み決定部，７−４パラメータ更新部，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１１１リムーバブル記録媒体

Claims

ダイナミクスを１つのノードに保持し、複数の前記ノードによって構成されるネットワークを記憶する記憶手段と、
観測される時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する学習手段と、
前記時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する勝者ノード決定手段と、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する重み決定手段と
を備え、
前記学習手段は、前記学習の重みに対応する度合で、前記ネットワークの各ダイナミクスを自己組織的に学習する
学習装置。
前記ダイナミクスは、内部状態量を持つ力学系近似モデルによってモデル化される
請求項１に記載の学習装置。
前記ダイナミクスは、リカレントニューラルネットワークによってモデル化される
請求項１に記載の学習装置。
前記学習手段は、前記学習の重みに対応する勾配法の勾配の大きさ、または繰り返し計算の繰り返し回数で、前記繰り返し計算に基づく前記勾配法に基づいて、前記ネットワークの各ダイナミクスを学習する
請求項１に記載の学習装置。
ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、
前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する
ステップを含む学習方法。
ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、
前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する
ステップを含む処理をコンピュータに実行させるプログラム。