JP2007280054A - 学習装置および学習方法、並びにプログラム - Google Patents

学習装置および学習方法、並びにプログラム Download PDF

Info

Publication number
JP2007280054A
JP2007280054A JP2006105546A JP2006105546A JP2007280054A JP 2007280054 A JP2007280054 A JP 2007280054A JP 2006105546 A JP2006105546 A JP 2006105546A JP 2006105546 A JP2006105546 A JP 2006105546A JP 2007280054 A JP2007280054 A JP 2007280054A
Authority
JP
Japan
Prior art keywords
learning
node
dynamics
unit
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006105546A
Other languages
English (en)
Inventor
Katsuki Minamino
活樹 南野
Masato Ito
真人 伊藤
Kenta Kawamoto
献太 河本
Yukiko Yoshiike
由紀子 吉池
Hirotaka Suzuki
洋貴 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2006105546A priority Critical patent/JP2007280054A/ja
Priority to US11/732,773 priority patent/US7953683B2/en
Priority to KR1020070033807A priority patent/KR20070100160A/ko
Priority to CNB2007100904059A priority patent/CN100504675C/zh
Publication of JP2007280054A publication Critical patent/JP2007280054A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M3/00Counters with additional facilities
    • G06M3/08Counters with additional facilities for counting the input from several sources; for counting inputs of different amounts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06MCOUNTING MECHANISMS; COUNTING OF OBJECTS NOT OTHERWISE PROVIDED FOR
    • G06M3/00Counters with additional facilities
    • G06M3/06Counters with additional facilities for printing or separately displaying result of count
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Feedback Control In General (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】ダイナミクスを効率的に学習する。
【解決手段】勝者ノード決定部7−2は、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する。学習重み決定部7−3は、勝者ノードからの距離に応じて、ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する。パラメータ更新部7−4は、学習の重みに対応する度合で、時系列データに基づき、ネットワークの各ダイナミクスを自己組織的に学習する。本発明は、例えば、ロボットなどに適用することができる。
【選択図】図4

Description

本発明は、学習装置および学習方法、並びにプログラムに関し、特に、ダイナミクスを効率的に学習することができるようにした学習装置および学習方法、並びにプログラムに関する。
ロボットの行動(運動)は、時間発展法則により定められる力学系(dynamical system
s)として記述することができ、様々な行動はその力学系がある特定のアトラクタダイナミクス(attractor dynamics)によって実現可能であることが知られている。
例えば、人間のような二足型ロボットの歩行運動は、系の運動状態が様々な初期状態からある特定の周期軌道に落ち着くことを特徴とするリミットサイクルダイナミクス(limit cycle dynamics)として記述することができる(例えば、非特許文献1,2参照)。また、アームロボットがある対象物に対して手先を伸ばすようなリーチング運動は、様々な初期状態からある特定の固定点に落ち着くことを特徴とする不動点ダイナミクス(fixed-point dynamics)として記述することができる。さらに、全ての運動は、不動点ダイナミクスで実現可能な離散運動(discrete movement)とリミットサイクルダイナミクスで実現可能な周期運動(cyclic movement)の組み合わせにより実現可能であるとも言われている。
このアトラクタダイナミクスによってロボットの行動(運動)を制御する場合の問題は、まず、タスクに応じたアトラクタダイナミクスをどのように構成するのか、次に、センサ入力を通じて得た情報に基づいて、アトラクタダイナミクスにしたがいながら、対応するモータ出力を生成することであり、これを実現するためには、アトラクタダイナミクスが環境と連続的に相互作用するかたちでロボットの行動出力を生成する必要がある。
こうしたアトラクタダイナミクスを人間が設計するのではなく、学習する方法が提案されている。その方法の1つに、リカレントニューラルネットワーク(recurrent neural network)(以下、RNNという)を利用する方法がある。RNNは、ネットワークに回帰ループで結合されるコンテキストユニットを持ち、そこに内部状態を保持することによって、理論的には、任意の力学系を近似可能であることが知られている。
しかしながら、密結合した1つのネットワークモジュールで構成される学習モデルでは、大規模な行動学習に必要な多数のダイナミクスの学習をする際に、記憶しようとするダイナミクス間の干渉が非常に大きく、学習が困難であるという問題がある。
そこで、複数のネットワークモジュールを組にして1つの学習モデルを構成するモジュラアーキテクチャ(modular architecture)を採用した学習モデルがいくつか提案されている。このモジュラアーキテクチャでは、原理的には、モジュールを増やすことによって記憶できるダイナミクスを容易に増やすことができるが、与えられた学習サンプルをどのモジュールで学習するかを決定するモジュール選択の問題が生じる。
このモジュール選択の方法によって、学習方法は、学習サンプル(学習データ)を、どのモジュールに割り当てるかを人間が決める教師あり学習(supervised learning)と、学習モデルが自律的に決める教師なし学習(unsupervised learning)の2つの方法に分けられるが、ロボットやシステムが自律的に学習を行うためには、教師なし学習によりモジュールを学習する必要がある。
教師なし学習によりモジュールを学習する方法の1つとして、Mixture of RNN Expertという学習モデルが提案されている(例えば、特許文献1参照)。この学習モデルでは、複数のRNNモジュールの出力をゲート機構により統合して最終的な出力を決定し、その最終的な出力の性能が最大化するように最尤推定法(maximum likelihood estimation)によりゲートを調整しながら、各RNNのモジュールを学習する。
しかしながら、このような全体最適化に基づく方法では、モジュールの数が大規模になった場合に、学習が困難になるという問題がある。
これに対して、ベクトルパターンのカテゴリ学習に用いられる自己組織化マップ(self-organization map)(以下、SOMという)(例えば、非特許文献3参照)やニューラルガス(neural-gas)(例えば、非特許文献4参照)などの方法では、全体最適化に基づく学習則は用いられず、最適性は保証されないが、適切なカテゴリ構造を自己組織化的に教師なし学習することが可能であることが知られている。これらの方法では、モジュールの数が大規模になった場合であっても、実用的に学習が可能である。
特開平11−126198号公報 G.Taga,1998,"Self-organized control of bipedal locomotion by neural oscillators in unpredictable environment",Biological Cybernetics, 65, 147-159 多賀厳太郎著、「脳と身体の動的デザイン−運動・知覚の非線形力学系と発達」、金子書房 T.コホネン、「自己組織化マップ」、シュプリンガー・フェアラーク東京 T.M. Martinetz,S.G. Berkovich,K.J. Schulten, ""Neural-Gas" Network for Vector Quantization and its Application to Time-Series Prediction",IEEE Trans. Neural Networks,VOL.4,NO.4,p558-569,1999
本件出願人は、先に、ベクトルパターンのかわりに時系列パターンを学習するためのモデルを提案している(特願2004-353832号)。
しかしながら、ダイナミクスの学習を効率的に行う方法は提案されていない。
本発明は、このような状況に鑑みてなされたものであり、ダイナミクスを効率的に学習することができるようにするものである。
本発明の一側面の学習装置は、ダイナミクスを1つのノードに保持し、複数の前記ノードによって構成されるネットワークを記憶する記憶手段と、観測される時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する学習手段と、前記時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する勝者ノード決定手段と、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する重み決定手段とを備え、前記学習手段は、前記学習の重みに対応する度合で、前記ネットワークの各ダイナミクスを自己組織的に学習する。
前記ダイナミクスは、内部状態量を持つ力学系近似モデルによってモデル化されることができる。
前記ダイナミクスは、リカレントニューラルネットワークによってモデル化されることができる。
前記学習手段は、前記学習の重みに対応する勾配法の勾配の大きさ、または繰り返し計算の繰り返し回数で、前記繰り返し計算に基づく前記勾配法に基づいて、前記ネットワークの各ダイナミクスを学習することができる。
本発明の一側面の学習方法は、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習するステップを含む。
本発明の一側面のプログラムは、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習するステップを含む処理をコンピュータに実行させる。
本発明の一側面においては、ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードが決定され、前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みが決定され、前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスが自己組織的に学習される。
以上のように、本発明の一側面によれば、ダイナミクスを効率的に学習することができる。
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面の学習装置は、
ダイナミクスを1つのノードに保持し、複数の前記ノードによって構成されるネットワーク(例えば、ダイナミクス記憶ネットワーク)を記憶する記憶手段(例えば、図1のネットワーク記憶部15)と、
観測される時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する学習手段(例えば、図1の学習部14)と、
前記時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する勝者ノード決定手段(例えば、図4の勝者ノード決定部7−2)と、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する重み決定手段(例えば、図4の学習重み決定部7−3)と
を備え、
前記学習手段は、前記学習の重みに対応する度合で、前記ネットワークの各ダイナミクスを自己組織的に学習する(例えば、図6のステップS8の処理)。
本発明の一側面の学習方法またはプログラムは、
ダイナミクスを保持するノードの複数によって構成されるネットワーク(例えば、ダイナミクス記憶ネットワーク)の複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し(例えば、図6のステップS5)、
前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し(例えば、図6のステップS6)、
前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する(例えば、図6のステップS8)
ステップを含む。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
図1は、本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図で
ある。
図1のデータ処理装置は、力学系を近似するモデルである力学系近似モデルのうちの、内部状態量を持つ力学系近似モデルを1つのノードとするダイナミクス記憶ネットワークを記憶するネットワーク記憶部1−5と、そのダイナミクス記憶ネットワークのパラメータを自己組織的に更新する学習部1−4とを含む。
ダイナミクス記憶ネットワークの各ノードには、時系列データの力学的な特性がダイナミクスとして保持される。学習部1−4によって更新されたパラメータによって定義される、ダイナミクス記憶ネットワークのノードに保持されたダイナミクスは、時系列データの認識や生成のために利用される。
図1のデータ処理装置は、例えばロボットなどの制御信号の認識や生成に利用される。データ処理装置は、特に、自律システムや自律型ロボットなどにおいて、センサおよびモータの入出力信号の学習、認識、または生成に利用される。
図1のデータ処理装置では、データ処理装置に入力される信号と、データ処理装置が出力する信号の両方が、観測される信号である観測信号1−1として、信号入力部1−2に入力される。観測信号1−1は、例えば音声や画像の信号、LED(Light Emitting Diode)の明るさを表す信号、モータの回転角度や回転角速度を表す信号などである。
信号入力部1−2は、入力される観測信号1−1に対応する電気信号を、特徴抽出部1−3に出力する。具体的には、信号入力部1−2は、観測信号1−1が音声の信号である場合、例えばマイクロフォンに対応し、画像信号である場合、例えばカメラに対応する。また、観測信号1−1がモータの回転角度や回転速度を表す信号である場合、信号入力部1−2は、例えばモータの回転角度や回転速度を計測する計測装置に対応する。
なお、以下では、信号入力部1−2に入力される信号だけでなく、信号入力部1−2が出力する信号も、観測信号1−1という。また、観測信号1−1は、定常信号であっても、時間的に変化する非定常信号であってもよい。
さらに、以下では、主にロボットシステムにおけるセンサモータ信号を、観測信号1−1の例として説明する。このセンサモータ信号は、例えば、センサが出力する信号や、モータに入力されるモータを制御する制御信号をコンポーネントとするベクトルである。勿論、観測信号1−1は、センサモータ信号に限定されるものではない。
また、信号入力部1−2は、区間検出装置などを含み、センサモータ信号を所定の区間で区切って出力するものとする。なお、信号入力部1−2からは、適当な長さに区切られたセンサモータ信号が出力されればよく、その区切り方は、特に限定されない。従って、入力されるセンサモータ信号に応じて、最も良い方法で適当な長さに区切られたセンサモータ信号が、観測信号1−1として、信号入力部1−2から出力されればよい。
特徴抽出部1−3は、信号入力部1−2から出力された観測信号1−1から、特徴量を時系列に抽出する。例えば、特徴抽出部1−3は、センサ信号の1つである音声信号に対して、一定時間間隔で周波数分析などの処理を施し、メルケプストラムなどの特徴量を時系列に抽出する。ここで、メルケプストラムとは音声認識などで広く利用されている特徴量である。
特徴抽出部1−3は、観測信号1−1から特徴量を時系列に抽出することにより得た特徴量の時系列データ(以下、単に、時系列データという)を、学習部1−4、認識部1−6、および生成部1−9に供給する。
学習部1−4は、特徴抽出部1−3から供給される時系列データを用いて、所定の度合で、時系列データの時間変化の特徴をダイナミクスとして学習する。具体的には、学習部1−4は、所定の度合で、ダイナミクスを保持するダイナミクス記憶ネットワークのパラメータを更新する。
学習部1−4による学習の詳細は後述するが、学習部1−4は、基本的には、ラベルの付与されていない時系列データが繰り返し与えられると、その時系列データの中の特徴的なダイナミクスを自己組織的に獲得していく教師なし学習を実行する。その結果、ネットワーク記憶部1−5に記憶されるダイナミクス記憶ネットワークには、代表的なダイナミクスが効率的に保持される。その保持されたダイナミクスは、認識部1−6や生成部1−9が、必要に応じて、いつでも利用することができるようになされている。
ここで、ダイナミクスは、時間変化する力学系を表すものであり、例えば、具体的な関数によって表現することができる。ダイナミクス記憶ネットワークでは、時系列データの時間変化の特徴が、ダイナミクスとして保持される。
認識部1−6は、特徴抽出部1−3から供給される時系列データに対して、それまでの学習の結果得られたダイナミクス記憶ネットワークに保持されるダイナミクスを照らし合わせ、最も類似したダイナミクスを決定し、その決定の結果を認識結果1−7として出力する。
一方、ダイナミクス記憶ネットワークに保持されたダイナミクスからは、必要に応じて、時系列データを生成することができるようになされている。生成部1−9は、時系列データを生成する生成処理を行う。
具体的には、生成部1−9は、どのダイナミクスから時系列データを生成するかを指定する制御信号1−8を取得する。生成部1−9は、制御信号1−8、特徴抽出部1−3から供給される時系列データ、およびダイナミクス記憶ネットワークに基づき、指定されたダイナミクスから時系列データを生成する。そして、生成部1−9は、その時系列データを生成結果1−10として出力する。
内部状態記憶部1−11は、ダイナミクス記憶ネットワークの各ノードの内部状態量を保持する。内部状態記憶部1−11に記憶された内部状態量は、例えば、認識部1−6によって更新され、生成部1−9によって生成処理に利用される。
図2は、図1のネットワーク記憶部1−5に記憶されるダイナミクス記憶ネットワーク5−1の例を示している。
図2は、すべてのノード5−2乃至5−10を2次元的に配置し、縦方向および横方向に隣接するノード間にリンクを与えたダイナミクス記憶ネットワーク5−1を示している。
なお、以下では、ノード5−2乃至5−10を区別する必要がない場合、それらをまとめてノード5という。
ここで、リンクは、空間上にノード5が配置される構造を与えるために利用される。即ち、図2のダイナミクス記憶ネットワーク5−1は、2次元的なノードの配置構造を与えたダイナミクス記憶ネットワークの例である。図2に示すように、リンクによって与えられる空間的なノード5の配置構造に基づき、ノード5どうしの空間上での距離関係が決定される。
例えば、図2では、あるノード5に着目したとき、その着目したノード5である着目ノードとリンクで直接結合された、着目ノードに隣接するノードは、着目ノードとの距離が最も近く、その隣接するノードである隣接ノードから先のリンクを順にたどっていくことで到達するノード5は、着目ノードとの距離が少しずつ遠くなっていく。
図2以外にも、リンクの構成の仕方によって、ノード5の空間上における配置構造を変化させることができ、その配置構造はリンクを使うことで任意に設定できる。
図3は、ノード5の詳細を示す図である。
ノード5は、内部状態量を持つ力学系近似モデル6−1と、その力学系近似モデル6−1のパラメータの学習の度合を表す情報(以下、度合情報という)を記憶する学習度合記憶部6−2により構成される。力学系近似モデル6−1としては、例えばRNNなどを用いることができ、この場合、内部状態としては、例えば、RNNの出力層から入力層にフィードバックされるコンテキストがある。なお、学習度合記憶部6−2は、ネットワーク記憶部1−5(図1)の記憶領域の一部である。
図3では、力学系近似モデル6−1として、三層型ニューラルネットワーク(NN)の出力層から入力層への回帰ループを持つRNNが用いられている。このRNNを用いて、時系列データにおける時刻Tの状態ベクトルXTを入力とし、その入力に対して、時刻T+1の状態ベクトルXT+1を予測して出力することを学習、即ち予測学習(prediction learning)することにより、時系列データの時間発展法則を学習することができる。
RNNのような内部状態量を持つ力学系近似モデルのパラメータの推定方法には、一般的に、BPTT(Back-Propagation Through Time)法が利用される。BPTT法については、例えば、D. E. Rumelhart, G. E. Hinton & R. E. Williams, 1986 ”Learning internal representations by error propagation”, In D. E. Rumelhart & J. McClelland, ”Parallel distributed processing”, pp. 318-364, Cambridge, MA: MIT Press,R.J.Williams and D.Zipser,”A learning algorithm for continually running fully recurrent neural networks”,Neural Computation,1:270-280,1989等に記載されている。
力学系近似モデル6−1は、学習度合記憶部6−2に記憶される度合情報が表す度合で、学習部1−4から供給される時系列データである学習データの時系列パターンをダイナミクスとして学習する。
なお、学習部1−4が行う学習は、オンライン学習である。即ち、観測信号1−1が入力されるたびに、学習部1−4は、その観測信号1−1を学習データとして、力学系近似モデル6−1のパラメータを少しずつ更新する。
学習度合記憶部6−2は、学習部1−4から供給される度合情報を記憶する。学習部1−4は、この度合情報に応じて学習の度合を調整し、これにより、力学系近似モデル6−1のパラメータが学習データの影響を受ける度合が、調整される。
以上のように、学習部1−4は、学習度合記憶部6−2に記憶されている度合情報に応じて学習の度合を調整しながら、学習データの時系列パターンを学習する。
次に、学習部1−4が行うパラメータの更新について説明する。
ここで、まず最初に、パラメータの推定方法であるBPTT(Back-Propagation Through Time)法の基となるBack-Propagation法(誤差伝播法)について簡単に説明する。
なお、力学系近似モデル6−1の入力層以外のユニットには、シグモイド関数f(x)が適用されるものとする。
いま、ユニットに入力されるデータYを、y0,y1,・・・,yn-1とし、ユニットからの出力として期待される期待データRを、r0,r1,・・・,rm-1とする。なお、nは、入力層のユニットの数であり、mは出力層のユニットの数である。
まず最初に、入力層から出力層に向けてのユニットjの出力データojが、以下の式(1)にしたがって求められる。
Figure 2007280054
なお、式(1)において、oiは、ユニットiの出力データである。また、wijは、力学系近似モデル6−1のパラメータである、ユニットiからjへの結線に付される重みである。
次に、式(1)により求められた出力データojに基づいて、以下の式(2)にしたがい、出力層から入力層に向けて、パラメータwijが更新される。
Figure 2007280054
なお、式(2)において、wij(n)は、n回目に更新されるパラメータwijであり、ηはパラメータwijの変化量を調整するゲイン項である。また、δjは、ユニットjの誤差項である。この誤差項δjは、ユニットjが出力層のユニットである場合、期待データrk(k=0,1,・・・,m−1のいずれか)と出力データojとに基づいて計算され、ユニットjが隠れ層のユニットである場合、上の層である出力層の誤差を伝播させて計算される。
パラメータwijは、出力ojが期待データrkに十分近づくまで、式(2)にしたがって、繰り返し更新される。
なお、Back-Propagation法については、例えば、R.ビール,T.ジャクソン、「ニューラルコンピューティング入門」、海文堂等に記載されている。
上述したBack-Propagation法は、最急降下法に基づく学習手法であり、Back-Propagation法では、繰り返し計算に基づく勾配法によって学習が行われる。なお、Back-Propagation法が、リカレントニューラルネットワークに対して拡張されたものが、上述したBPTT法である。
BPTT法は、最急降下法に基づく学習手法である点、およびユニットからの出力が期待される出力に十分近づくまで、パラメータが繰り返し更新される点、即ち繰り返し計算に基づく勾配法によって学習が行われる点において、Back-Propagation法と同一である。
また、BPTT法においても、Back-Propagation法と同様に、パラメータの更新式において、パラメータの変化量を調整するゲイン項ηが用いられる。このゲイン項ηは、勾配法における変化のステップの幅、即ち勾配法の勾配の大きさを調整する働きを有している。
ところで、Back-Propagation法やBPTT法は、一般的に、学習結果がグローバルな最適解に収束することが保証されていない。このため、学習結果が、局所最適解に収束してしまうという問題が発生する危険性がある。
この問題を回避するために、上述したゲイン項ηを、最初大きな値に設定し、徐々に小さくしていく方法などが提案されている。即ち、ゲイン項ηは、パラメータの変化量を調整する役割だけでなく、最急降下法に基づく学習において、グローバルな最適解へ安定して収束させるための役割も有している。前者の役割を利用すれば、ゲイン項ηを、学習データの影響を受ける度合を調整する機能として利用することができる。
また、繰り返し計算における繰り返し回数Nに着目すると、繰り返し回数Nが大きいほど、学習データの影響を受ける度合は大きくなり、繰り返し回数Nが小さいほど、その度合は小さくなる。従って、繰り返し回数Nを用いて、学習データの影響を受ける度合を調整することができる。
以上のように、ゲイン項ηまたは繰り返し回数Nを用いて、学習データの影響を受ける度合、即ち学習の度合を調整することができる。従って、学習度合記憶部6−2に記憶される度合情報としては、ゲイン項ηまたは繰り返し回数Nが用いられる。
図4は、図1の学習部1−4の詳細構成例を示すブロック図である。
学習部1−4は、スコア計算部7−1、勝者ノード決定部7−2、学習重み決定部7−3、およびパラメータ更新部7−4により構成される。学習部1−4には、図1の特徴抽出部1−3から時系列データが入力され、その時系列データは、学習データとして、スコア計算部7−1とパラメータ更新部7−4に供給される。
スコア計算部7−1は、特徴抽出部1−3からの学習データに対する、ネットワーク記憶部1−5に記憶されているダイナミクス記憶ネットワーク5−1に含まれる各ノード5の力学系近似モデル6−1のスコア計算を、内部状態量を更新しながら行う。
具体的には、スコア計算部7−1は、学習データに対して得られるべき出力の真値と、その学習データに対して力学系近似モデル6−1が出力する出力値との平均二乗誤差を、ノード5ごとに予測誤差として計算する。スコア計算部7−1は、その予測誤差をスコアとして、各ノード5に付与する。
なお、スコア計算部7−1は、所定の値を基準として、その所定の値を更新していくことにより得られる値のうちの、スコアを最も小さくする値を、内部状態量としての力学系近似モデル6−1のコンテキストの初期値に決定し、コンテキストを初期値から更新しながら、スコア計算を行う。
コンテキストの初期値の決定に用いる所定の値としては、例えば、ランダムな値や、前回の力学系近似モデル6−1の学習時に求められた、コンテキストの最終的な更新値(以下、前回更新値という)などを採用することができる。
例えば、今回の学習時に用いられる学習データと、前回の学習時に用いられた学習データとが、何らの関係もないことが分かっている場合には、コンテキストの初期値の決定に用いる所定の値としては、ランダムな値を採用することができる。
また、例えば、今回の学習時に用いられる学習データと、前回の学習時に用いられた学習データとが、連続する時系列データなどのように、何らかの関係を有することが分かっている場合には、コンテキストの初期値の決定に用いる所定の値としては、前回更新値を採用することができる。なお、前回更新値を、コンテキストの初期値の決定に用いる所定の値として採用する場合には、前回更新値を、そのまま、コンテキストの初期値に決定することができる。
スコア計算部7−1は、スコア計算の結果、各ノード5に付与されたスコアを勝者ノード決定部7−2に供給する。勝者ノード決定部7−2は、スコア計算部7−1からの各ノード5のスコアを比較し、最もスコアの値が小さいノード5を、学習データに最も適合するノードである勝者ノードとして決定する。勝者ノード決定部7−2は、その勝者ノードを特定する情報を学習重み決定部7−3に供給する。
学習重み決定部7−3は、ネットワーク記憶部1−5に記憶されているダイナミクス記憶ネットワーク5−1を参照し、勝者ノード決定部7−2からの情報により特定される勝者ノードからの距離dを、ノード5ごとに計算する。そして、学習重み決定部7−3は、その距離dに基づいて、ノード5ごとに学習の重みα(0<α≦1)を決定する。
また、学習重み決定部7−3は、学習の重みαに基づいて、各ノード5の度合情報を生成する。例えば、学習重み決定部7−3は、学習の重みαに基づいて、式(3)にしたがい、ゲイン項ηまたは繰り返し回数Nを度合情報として生成する。
η=η0×α
N=N0×α
・・・(3)
なお、式(3)において、η0は、学習の重みαが1の場合のゲイン項ηであり、N0は、学習の重みαが1の場合の繰り返し回数Nである。式(3)によれば、例えば、繰り返し回数N0が100である場合、αが1のとき、繰り返し回数Nは100となり、学習の重みαが0.1のとき、繰り返し回数Nは10となる。
学習重み決定部7−3は、生成した度合情報を各ノード5の学習度合記憶部6−2にそれぞれ供給し、記憶させる。これにより、学習の度合が調整される。
パラメータ更新部7−4は、ノード5ごとに、学習度合記憶部6−2に記憶されている度合情報を読み出し、その度合情報が表す度合で、特徴抽出部1−3から供給される学習データの時系列パターンをダイナミクスとして学習する。具体的には、パラメータ更新部7−4は、ノード5ごとに、学習データと度合情報に基づいて、BPTT法における繰り返し計算を行い、力学系近似モデル6−1のパラメータを更新する。
次に、図5を参照して、学習の重みαについて説明する。
図5の左において、ノード8−1乃至8−6は、ダイナミクス記憶ネットワークを構成するノードであるものとする。また、ノード8−1乃至8−6のうちのノード8−1は、勝者ノードであり、ノード8−2乃至8−6は、勝者ノード8−1からの距離が近い順に並べられている。
図5の右のグラフは、学習の重みαと勝者ノード8−1からの距離dの関係を示しており、横軸は学習の重みαを、縦軸は勝者ノード8−1からの距離dを、それぞれ示している。
図5の右のグラフによれば、勝者ノード8−1に対しては、学習の重みαを最も大きい「1」とし、他のノード8−2乃至8−6それぞれに対しては、勝者ノード8−1からの距離dが離れるにしたがって小さくなるように学習の重みαが決定される。
勝者ノードからの距離dは、ダイナミクス記憶ネットワークのリンクによって与えられる空間上のノードの配置構造に基づいて決定される。例えば、図2の2次元上にノード5−2乃至5−10が配置されたダイナミクス記憶ネットワーク5−1において、勝者ノードが、例えばノード5−7であれば、その勝者ノード5−7に隣接するノード5−4,5−6,5−10が最も近く、ノード5−3,5−5,5−9がその次に近く、ノード5−2と5−8が最も遠いものとなる。この場合、ノード5間をつなぐ最小のリンク数を距離として利用すると、近い順に距離dは1,2,3となる。
図5の右のグラフに示す勝者ノード8−1からの距離dと学習の重みαの関係は、以下の式(4)で表される。
Figure 2007280054
なお、式(4)において、γ(0<γ<1)は、減衰係数であり、Δは、近傍に対する学習の重みαを調整するための変数である。
式(4)によれば、学習の重みαは、減衰係数γのd/△乗として求められる。また、式(4)において、減衰係数γは、1未満の正の値であるから、距離dが大になるほど、学習の重みαは小さくなる。
いま、距離dを、勝者ノード8−1からの距離が近い順に1,2,3・・・とし、勝者ノード8−1の距離dを0とすると、例えば、減衰係数γが0.5であり、変数Δが1である場合、学習の重みαは、勝者ノード8−1からの距離dが離れるにしたがって、1,0.5,0.25,0.125・・・となる。
ここで、変数Δを少しずつ0に近づけていくと、学習の重みαは勝者ノード8−1から離れるにしたがってより小さい値となる。そして、変数Δが0に近くなると、勝者ノード8−1以外のノード5の学習の重みαはほとんど0となる。このように、変数Δを調整することで、勝者ノードの近傍に対する学習の重みαを調整することが可能となる。基本的には、変数Δは、学習の開始時は大きくし、時間の経過とともに小さくなるように調整される。
図4の学習重み決定部7−3は、式(4)にしたがって、ノード5ごとに学習の重みαを決定する。そして、学習重み決定部7−3は、各ノード5の学習の重みαに基づいて、式(3)にしたがって、ノード5ごとに度合情報を生成し、パラメータ更新部7−4は、その度合情報が表す度合に応じてノード5ごとに学習を行う。
これにより、学習部1−4は、学習の重みαに応じて、勝者ノード8−1を用いたダイナミクスの学習の度合を最も高くし、勝者ノード8−1から離れるにしたがって、その度合を低くすることができる。その結果、勝者ノード8−1のパラメータは、学習データの影響を最も強く受けるように更新され、勝者ノード8−1以外のノード8−2乃至8−6のパラメータは、そのノード8−2乃至8−6が勝者ノード8−1から離れるにしたがって、その影響が小さくなるように更新される。
以上のように、学習部1−4は、学習の重みαに応じて、効率的に学習を行うことができる。
ここで、学習の重みαを学習に反映させる方法として、学習に用いる学習データ内の、以前の学習に用いられた学習データと、観測された時系列データの混合比を調整することにより、学習の重みαを間接的に学習に反映させる方法が考えられるが、この場合、学習部は、混合比が調整されるごとに、調整後の学習データを用いて、膨大な繰り返し計算を行う必要があり、計算効率が悪い。
これに対して、学習部1−4は、学習の重みαに応じて、学習の度合を調整することにより、学習の重みαを直接的に学習に反映させるので、学習の重みαに応じて効率的に学習を行うことができ、これにより、繰り返し回数を削減し、計算効率を向上させることができる。即ち、学習部1−4により行われる学習では、自己組織的学習と、繰り返し計算に基づく勾配法による学習とが、適切な方法で融合されている。
次に、図6を参照して、図1のデータ処理装置がダイナミクス記憶ネットワーク5−1を学習する学習処理について説明する。この学習処理は、例えば、図1のデータ処理装置の電源がオンにされたとき、開始される。
まず最初に、ステップS1において、学習部1−4のパラメータ更新部7−4(図4)は、ネットワーク記憶部1−5に記憶されたダイナミクス記憶ネットワーク5−1のパラメータを初期化する。具体的には、ダイナミクス記憶ネットワーク5−1の各ノード5の力学系近似モデル6−1のパラメータに適当な値が初期値として付与される。
ステップS1の処理後は、ステップS2に進み、図1の信号入力部1−2は、観測信号1−1を取得して、特徴抽出部1−3に供給し、ステップS3に進む。ステップS3において、特徴抽出部1−3は、その観測信号1−1の特徴量を時系列に抽出し、その結果得られる時系列データを学習データとして、学習部1−4のスコア計算部7−1とパラメータ更新部7−4に供給する。
ステップS3の処理後は、ステップS4に進み、スコア計算部7−1は、特徴抽出部1−3からの学習データに対する、ネットワーク記憶部1−5に記憶されているダイナミクス記憶ネットワーク5−1に含まれる各ノード5の力学系近似モデル6−1のスコア計算を、内部状態量を更新しながら行う。スコア計算部7−1は、スコア計算の結果、各ノード5に付与したスコアを、勝者ノード決定部7−2に供給する。
ステップS4の処理後は、ステップS5に進み、勝者ノード決定部7−2は、勝者ノード決定部7−2から供給される各ノード5のスコアを比較することによって、最もスコアの値が小さいノードを勝者ノード8−1として決定し、その勝者ノード8−1を特定する情報を、学習重み決定部7−3に供給する。
ステップS5の処理後は、ステップS6に進み、学習重み決定部7−3は、ネットワーク記憶部1−5に記憶されているダイナミクス記憶ネットワーク5−1を参照し、上述した式(4)にしたがい、ノード5ごとに学習の重みαを決定する。
ステップS6の処理後は、ステップS7に進み、学習重み決定部7−3は、各ノード5の学習の重みαに基づいて、上述した式(3)にしたがい、各ノード5の度合情報を生成し、その度合情報を各ノード5の学習度合記憶部6−2にそれぞれ供給して記憶させる。
ステップS7の処理後は、ステップS8に進み、パラメータ更新部7−4は、ノード5ごとに、特徴抽出部1−3からの学習データと度合情報に基づいて、BPTT法における繰り返し計算を行い、力学系近似モデル6−1のパラメータを更新する。その後、処理は、ステップS2に戻り、以降の処理が繰り返される。以上のようにして、度合情報が表す度合で、ダイナミクスの学習が行われる。
次に、図7を参照して、図1のデータ処理装置による時系列データの認識生成の処理について説明する。
図7は、図1のデータ処理装置の認識部1−6と生成部1−9の詳細構成例を示している。
ここで、時系列データの認識生成とは、入力された時系列データを認識し、その認識結果に基づいて、新たな時系列データを生成することである。
認識生成によれば、例えば、人間がロボットに呼びかける音声を発した場合に、そのロボットにおいて、その呼びかけに応じた動きをとるためのモータ信号や、その呼びかけに応答する合成音を生成するためのパラメータ信号等が生成される。
図7に示すように、認識部1−6は、内部状態量更新部12−1、スコア計算部12−2、決定部12−3、および出力部12−4により構成される。
内部状態量更新部12−1は、内部状態記憶部1−11から、前回更新されて記憶されている内部状態量を、ダイナミクス記憶ネットワーク5−1の各ノード5の力学系近似モデル6−1へ読み込む。具体的には、内部状態量更新部12−1は、内部状態記憶部1−11から内部状態量を読み出し、その内部状態量を、各ノード5の力学系近似モデル6−1の内部状態量として、スコア計算部12−2に供給する。
これにより、力学系近似モデル6−1において、入力となる時系列データに基づいて、内部状態量更新部12が読み込んだ値を初期値として、内部状態量を更新することが可能となる。
また、内部状態量更新部12−1は、スコア計算部12−2から供給される、決定部12−3により勝者ノードが決定されるときの各ノード5の内部状態量の更新値(更新された内部状態量)と、その勝者ノードが決定されるときの各ノード5の内部状態量の初期値とを、内部状態記憶部1−11に記憶させる。
ここで、内部状態記憶部1−11に記憶された内部状態量の更新値は、力学系近似モデル6−1へ読み込まれ、次回のスコア計算に利用される。また、内部状態記憶部1−11に記憶された内部状態量の初期値は、生成部1−9において、時系列データの生成時に利用される。
スコア計算部12−2は、スコア計算部7−1と同様に、特徴抽出部1−3からの時系列データに対する、ネットワーク記憶部1−5に記憶されているダイナミクス記憶ネットワーク5−1に含まれる各ノード5の力学系近似モデル6−1のスコア計算を、内部状態量を更新しながら行う。
また、スコア計算部12−2は、スコア計算の結果、各ノード5に付与されたスコアを、決定部12−3に供給するとともに、そのスコアが付与されたときの各ノード5の内部状態量の更新値と初期値を、勝者ノードが決定されるときの各ノード5の内部状態量の更新値と初期値として、内部状態量更新部12−1に供給する。
決定部12−3は、スコア計算部12−2からのスコアに基づいて、最もスコアの値が小さいノードを、勝者ノードとして決定する。即ち、決定部12−3は、勝者ノードに対応するダイナミクスを、特徴抽出部1−3から入力された時系列データに最も適合するダイナミクスとして選択する。決定部12−3は、入力された時系列データに最も適合するダイナミクスに対応する勝者ノードを特定する信号を、出力部12−4に供給する。
出力部12−4は、決定部12−3からの勝者ノードを特定する信号を、認識結果1−7として出力する。以上のようにして、認識部1−6において、入力された時系列データが認識される。そして、認識の結果得られた認識結果1−7は、認識生成における生成の処理において、どのダイナミクスに対応するノード5から時系列データを生成するかを指定する制御信号1−8として用いられる。
図7の生成部1−9は、生成ノード決定部12−5、内部状態読み込み部12−6、時系列データ生成部12−7、および出力部12−8により構成される。
生成ノード決定部12−5には、出力部12−4から出力される認識結果1−7が、制御信号1−8として入力される。生成ノード決定部12−5は、制御信号1−8に基づいて、時系列データを生成すべきノード5である生成ノードを決定する。即ち、決定部12−3により決定された勝者ノードが、生成ノードとして決定される。生成ノード決定部12−5は、決定された生成ノードを特定する情報を、内部状態読み込み部12−6に供給する。
内部状態読み込み部12−6は、生成ノード決定部12−5からの情報に基づいて、ネットワーク記憶部1−5に記憶されたダイナミクス記憶ネットワーク5−1に含まれるノード5のうちの生成ノードの力学系近似モデル6−1に、内部状態記憶部1−11に記憶されている値を、内部状態量の初期値として読み込む。
即ち、内部状態読み込み部12−6は、内部状態記憶部1−11に記憶されている値のうちの、生成ノードが認識部1−6において勝者ノードに決定されたときの内部状態量の初期値を読み出し、その内部状態量の初期値を、生成ノードの力学系近似モデル6−1の内部状態量の初期値として、時系列データ生成部12−7に供給する。
時系列データ生成部12−7には、特徴抽出部1−3から供給される時系列データが供給される。時系列データ生成部12−7は、その時系列データ、内部状態読み込み部12−6から供給される内部状態量の初期値、および生成ノードの力学系近似モデル6−1に基づいて、その内部状態量を更新しながら、時系列データを生成する。時系列データ生成部12−7は、その時系列データを出力部12−8に供給する。
出力部12−8は、時系列データ生成部12−7からの時系列データを、生成結果1−10として出力する。以上のようにして、生成部1−9は、認識部1−6による認識の処理において決定された勝者ノードから、時系列データを生成し、生成結果1−10として出力する。
以上のように、図1のデータ処理装置では、勝者ノード決定部7−2が、ダイナミクスを保持するノード5の複数によって構成されるダイナミクス記憶ネットワーク5−1の複数のノード5のうち、観測される時系列データに最も適合するダイナミクスに対応するノード5である勝者ノードを決定し、学習重み決定部7−3が、勝者ノードからの距離に応じて、ノード5ごとに、そのノード5が保持するダイナミクスの学習の重みαを決定し、パラメータ更新部7−4が、学習の重みαに対応する度合情報が表す度合で、時系列データに基づき、ダイナミクス記憶ネットワーク5−1の各ダイナミクスを自己組織的に学習するようにしたので、ダイナミクスを効率的に学習することができる。
なお、上述した説明では、時系列データに対して得られるべき出力の真値と、その時系列データに対して力学系近似モデル6−1が出力する出力値との平均二乗誤差を、スコアとしたが、スコアは、これに限定されず、例えば距離、確率などであってもよい。スコアが距離である場合、平均二乗誤差である場合と同様に、スコアの値が小さいノードが勝者ノードとして決定されるが、スコアが確率である場合、スコアの値が大きいノードが勝者ノードとして決定される。
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図8は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体111に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部108で受信し、内蔵するハードディスク105にインストールすることができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵している。CPU102には、バス101を介して、入出力インタフェース110が接続されており、CPU102は、入出力インタフェース110を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部107が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、また、CPU102は、ハードディスク105に格納されているプログラム、衛星若しくはネットワークから転送され、通信部108で受信されてハードディスク105にインストールされたプログラム、またはドライブ109に装着されたリムーバブル記録媒体111から読み出されてハードディスク105にインストールされたプログラムを、RAM(Random Access Memory)104にロードして実行する。これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、LCD(Liquid Crystal Display)やスピーカ等で構成される出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
本発明を適用したデータ処理装置の一実施の形態の構成例を示すブロック図である。 ダイナミクス記憶ネットワークの例を示す図である。 ノードの例を示す図である。 学習部の詳細構成例を示すブロック図である。 勝者ノードからの距離と、学習の重みとの関係を示す図である。 学習処理を説明するフローチャートである。 認識部と生成部の詳細構成例を示すブロック図である。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
符号の説明
1−4 学習部, 1−5 ネットワーク記憶部, 7−1 スコア計算部, 7−2 勝者ノード決定部, 7−3 学習重み決定部, 7−4 パラメータ更新部, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 111 リムーバブル記録媒体

Claims (6)

  1. ダイナミクスを1つのノードに保持し、複数の前記ノードによって構成されるネットワークを記憶する記憶手段と、
    観測される時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する学習手段と、
    前記時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定する勝者ノード決定手段と、
    前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定する重み決定手段と
    を備え、
    前記学習手段は、前記学習の重みに対応する度合で、前記ネットワークの各ダイナミクスを自己組織的に学習する
    学習装置。
  2. 前記ダイナミクスは、内部状態量を持つ力学系近似モデルによってモデル化される
    請求項1に記載の学習装置。
  3. 前記ダイナミクスは、リカレントニューラルネットワークによってモデル化される
    請求項1に記載の学習装置。
  4. 前記学習手段は、前記学習の重みに対応する勾配法の勾配の大きさ、または繰り返し計算の繰り返し回数で、前記繰り返し計算に基づく前記勾配法に基づいて、前記ネットワークの各ダイナミクスを学習する
    請求項1に記載の学習装置。
  5. ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、
    前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、
    前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する
    ステップを含む学習方法。
  6. ダイナミクスを保持するノードの複数によって構成されるネットワークの複数のノードのうち、観測される時系列データに最も適合するダイナミクスに対応するノードである勝者ノードを決定し、
    前記勝者ノードからの距離に応じて、前記ノードごとに、そのノードが保持するダイナミクスの学習の重みを決定し、
    前記学習の重みに対応する度合で、前記時系列データに基づき、前記ネットワークの各ダイナミクスを自己組織的に学習する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2006105546A 2006-04-06 2006-04-06 学習装置および学習方法、並びにプログラム Pending JP2007280054A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2006105546A JP2007280054A (ja) 2006-04-06 2006-04-06 学習装置および学習方法、並びにプログラム
US11/732,773 US7953683B2 (en) 2006-04-06 2007-04-04 Learning apparatus, learning method, and program for efficiently learning dynamics
KR1020070033807A KR20070100160A (ko) 2006-04-06 2007-04-05 학습 장치, 학습 방법, 및 프로그램
CNB2007100904059A CN100504675C (zh) 2006-04-06 2007-04-06 学习设备和学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006105546A JP2007280054A (ja) 2006-04-06 2006-04-06 学習装置および学習方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2007280054A true JP2007280054A (ja) 2007-10-25

Family

ID=38576686

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006105546A Pending JP2007280054A (ja) 2006-04-06 2006-04-06 学習装置および学習方法、並びにプログラム

Country Status (4)

Country Link
US (1) US7953683B2 (ja)
JP (1) JP2007280054A (ja)
KR (1) KR20070100160A (ja)
CN (1) CN100504675C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010005761A (ja) * 2008-06-27 2010-01-14 Honda Motor Co Ltd 行動制御システム
JP2010005762A (ja) * 2008-06-27 2010-01-14 Honda Motor Co Ltd 行動推定システム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725510B2 (en) * 2009-07-09 2014-05-13 Sony Corporation HMM learning device and method, program, and recording medium
JP5633734B2 (ja) * 2009-11-11 2014-12-03 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2011223287A (ja) * 2010-04-09 2011-11-04 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US9235800B2 (en) * 2010-04-14 2016-01-12 Siemens Aktiengesellschaft Method for the computer-aided learning of a recurrent neural network for modeling a dynamic system
CN102375412B (zh) * 2010-08-13 2013-05-01 同济大学 基于韵律模式的机器人未知环境下行走学习信息处理方法
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8738554B2 (en) 2011-09-16 2014-05-27 International Business Machines Corporation Event-driven universal neural network circuit
US8874498B2 (en) 2011-09-16 2014-10-28 International Business Machines Corporation Unsupervised, supervised, and reinforced learning via spiking computation
US8799199B2 (en) 2011-12-14 2014-08-05 International Business Machines Corporation Universal, online learning in multi-modal perception-action semilattices
US8626684B2 (en) 2011-12-14 2014-01-07 International Business Machines Corporation Multi-modal neural network for universal, online learning
EP2685403A3 (en) 2012-07-09 2017-03-01 Technion Research & Development Foundation Limited Natural machine interface system
KR102239714B1 (ko) 2014-07-24 2021-04-13 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
CN105376506A (zh) * 2014-08-27 2016-03-02 江南大学 图像模式噪声相关性预测器的设计
JP6628350B2 (ja) 2015-05-11 2020-01-08 国立研究開発法人情報通信研究機構 リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置
JP6240689B2 (ja) 2015-07-31 2017-11-29 ファナック株式会社 人の行動パターンを学習する機械学習装置、ロボット制御装置、ロボットシステム、および機械学習方法
DE102016009030B4 (de) 2015-07-31 2019-05-09 Fanuc Corporation Vorrichtung für maschinelles Lernen, Robotersystem und maschinelles Lernsystem zum Lernen eines Werkstückaufnahmevorgangs
JP6522488B2 (ja) * 2015-07-31 2019-05-29 ファナック株式会社 ワークの取り出し動作を学習する機械学習装置、ロボットシステムおよび機械学習方法
WO2017033367A1 (ja) * 2015-08-25 2017-03-02 川崎重工業株式会社 遠隔操作ロボットシステム
JP6457369B2 (ja) * 2015-09-30 2019-01-23 ファナック株式会社 パラメータを自動調整する機能を有する機械学習装置及び電動機制御装置
US10699186B2 (en) * 2015-12-02 2020-06-30 Google Llc Determining orders of execution of a neural network
JP6457421B2 (ja) * 2016-04-04 2019-01-23 ファナック株式会社 シミュレーション結果を利用して学習を行う機械学習装置,機械システム,製造システムおよび機械学習方法
JP6518982B2 (ja) * 2016-11-07 2019-05-29 Soinn株式会社 動作転移装置、動作転移方法及び動作転移プログラムが格納された非一時的なコンピュータ可読媒体
FR3065826B1 (fr) 2017-04-28 2024-03-15 Patrick Pirim Procede et dispositif associe automatises aptes a memoriser, rappeler et, de maniere non volatile des associations de messages versus labels et vice versa, avec un maximum de vraisemblance
US11475291B2 (en) * 2017-12-27 2022-10-18 X Development Llc Sharing learned information among robots
US11922314B1 (en) * 2018-11-30 2024-03-05 Ansys, Inc. Systems and methods for building dynamic reduced order physical models
CN112766511B (zh) * 2019-11-01 2024-08-02 伊姆西Ip控股有限责任公司 用于模型自适应的方法、设备以及程序产品
KR102546108B1 (ko) * 2020-12-30 2023-06-22 재단법인 아산사회복지재단 전자의무기록에서의 다변량 결측값 대체 방법

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404423A (en) * 1992-06-16 1995-04-04 Nippon Telegraph And Telephone Corporation Method and apparatus for indetification, forecast, and control of a non-linear flow on a physical system network using a neural network
JP3751982B2 (ja) 1993-02-18 2006-03-08 新日鉄ソリューションズ株式会社 ニューラルネットワークの学習方式
JP3922407B2 (ja) 1997-10-22 2007-05-30 ソニー株式会社 データ処理装置および方法
US6965885B2 (en) * 2002-01-22 2005-11-15 Koninklijke Philips Electronics N.V. Self-organizing feature map with improved performance by non-monotonic variation of the learning rate
JP2003256443A (ja) * 2002-03-05 2003-09-12 Fuji Xerox Co Ltd データ分類装置
DE10324045B3 (de) * 2003-05-27 2004-10-14 Siemens Ag Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Ermittlung eines zukünftigen Systemverhaltens eines dynamischen Systems
JP4639784B2 (ja) * 2004-12-06 2011-02-23 ソニー株式会社 学習装置および学習方法、並びにプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010005761A (ja) * 2008-06-27 2010-01-14 Honda Motor Co Ltd 行動制御システム
JP2010005762A (ja) * 2008-06-27 2010-01-14 Honda Motor Co Ltd 行動推定システム

Also Published As

Publication number Publication date
US7953683B2 (en) 2011-05-31
KR20070100160A (ko) 2007-10-10
US20070239644A1 (en) 2007-10-11
CN101051215A (zh) 2007-10-10
CN100504675C (zh) 2009-06-24

Similar Documents

Publication Publication Date Title
JP2007280054A (ja) 学習装置および学習方法、並びにプログラム
JP2007299366A (ja) 学習装置および学習方法、認識装置および認識方法、生成装置および生成方法、認識生成装置および認識生成方法、並びにプログラム
JP4803212B2 (ja) データ処理装置、データ処理方法、及びプログラム
JP4710931B2 (ja) 学習装置、学習方法、およびプログラム
JP4169063B2 (ja) データ処理装置、データ処理方法、及びプログラム
JP4710932B2 (ja) 学習装置、学習方法、およびプログラム
JP2010020446A (ja) 学習装置、学習方法、およびプログラム
US9367798B2 (en) Spiking neuron network adaptive control apparatus and methods
JP4169038B2 (ja) 情報処理装置および情報処理方法、並びにプログラム
KR20190104269A (ko) 발화 스타일 부여를 위한 인공지능 기반의 음성 샘플링 장치 및 방법
KR20190018278A (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
JP2007280053A (ja) データ処理装置、データ処理方法、およびプログラム
JP2005199403A (ja) 情動認識装置及び方法、ロボット装置の情動認識方法、ロボット装置の学習方法、並びにロボット装置
JP2007265345A (ja) 情報処理装置および方法、学習装置および方法、並びにプログラム
JP2024506025A (ja) 短期記憶ユニットを有する注意ニューラルネットワーク
JP2009288933A (ja) 学習装置、学習方法、及びプログラム
WO2019018533A1 (en) NEURO-BAYESIAN ARCHITECTURE FOR THE IMPLEMENTATION OF GENERAL ARTIFICIAL INTELLIGENCE
JP2024506580A (ja) 適応勾配クリッピングを用いるニューラルネットワーク
JP2010067033A (ja) データ処理装置、データ処理方法、及び、プログラム
JP2009140454A (ja) データ処理装置、データ処理方法、及びプログラム
JP2009053782A (ja) データ処理装置、データ処理方法、及びプログラム
US10812904B2 (en) Acoustic equalization method, robot and AI server implementing the same
JP2007280057A (ja) データ処理装置、データ処理方法、およびプログラム
JP2009116770A (ja) データ処理装置および方法、プログラム、並びに記録媒体
JP2010282556A (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080609

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090416