JP3827037B2 - Learning method and apparatus, robot, and recording medium - Google Patents

Learning method and apparatus, robot, and recording medium Download PDF

Info

Publication number
JP3827037B2
JP3827037B2 JP13338197A JP13338197A JP3827037B2 JP 3827037 B2 JP3827037 B2 JP 3827037B2 JP 13338197 A JP13338197 A JP 13338197A JP 13338197 A JP13338197 A JP 13338197A JP 3827037 B2 JP3827037 B2 JP 3827037B2
Authority
JP
Japan
Prior art keywords
learning
output
landmark
input
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP13338197A
Other languages
Japanese (ja)
Other versions
JPH10326265A (en
Inventor
淳 谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP13338197A priority Critical patent/JP3827037B2/en
Publication of JPH10326265A publication Critical patent/JPH10326265A/en
Application granted granted Critical
Publication of JP3827037B2 publication Critical patent/JP3827037B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、学習方法および装置、ロボット、並びに記録媒体に関し、特に、リカレント型ニューラルネットに対して、迅速に学習を行わせることができるようにした、学習方法および装置、ロボット、並びに記録媒体に関する。
【0002】
【従来の技術】
リカレント型ニューラルネットにより、予測を行うことができる。例えば、図10に示すように、ロボット11に、障害物10Aの周囲を反時計方向に移動させるルートと、障害物10Aと障害物10Bの周囲を反時計方向に移動させるルートを、ロボット11の有するリカレント型ニューラルネットに記憶させることができる。このような記憶をさせておくと、ロボット11は、例えば、障害物10Aの周囲を移動するとき、ランドマークが、ランドマーク1、ランドマーク2、ランドマーク5の順序で表れることを記憶しており、また、障害物10Aと障害物10Bの周囲を移動する場合には、ランドマークが、ランドマーク1、ランドマーク2、ランドマーク3、ランドマーク4、ランドマーク5の順序で表れることを記憶しているので、これらのランドマークを認識しながら、ロボット11は、障害物10Aの周囲、または障害物10Aと障害物10Bの周囲を移動することができる。
【0003】
ところで、例えば、このような学習が既に行われている状態において、ランドマーク1乃至ランドマーク5のうち、ランドマーク4を削除したような場合、ロボット11のリカレント型ニューラルネットに対して、再び学習を行わせる必要が生じる。
【0004】
図11は、このような場合における、従来の学習方法を表している。すなわち、最初にステップS31において、新たな学習データを入力し、これをリカレント型ニューラルネットに学習させる。ステップS32において、学習結果を評価し、充分な評価が得られたか否かを判定し、まだ充分な評価が得られない場合には、学習がまだできていないものと判定し、ステップS31に戻り、再び、新たな学習データを入力し、学習させる処理を実行する。
【0005】
以上のようにして、ステップS32で、新たな学習データが学習できたと判定されるまで、学習処理が繰り返し実行される。
【0006】
【発明が解決しようとする課題】
従来の学習方法は、このように、1つのランドマークを除去しただけの変化であるにも拘らず、学習処理を1からすべてやり直すようにしていた。その結果、ロボット11が、全く学習を行っていない状態から学習させる場合と同様となり、学習に長い時間がかかる課題があった。
【0007】
本発明はこのような状況に鑑みてなされたものであり、より迅速に、学習を完了することができるようにするものである。
【0008】
【課題を解決するための手段】
請求項1に記載の学習方法は、ランダムな初期値を入力層に入力し、入力された初期値に基づいて、出力値を生成して出力層から出力するとともに、出力層から出力された出力値を入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行う学習ステップを備えることを特徴とする。
請求項2に記載の学習装置は、ランダムな初期値を入力層に入力し、入力された初期値に基づいて、出力値を生成して出力層から出力するとともに、出力層から出力された出力値を入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行う学習手段を備えることを特徴とする。
【0009】
請求項3に記載の記録媒体は、ランダムな初期値を入力層に入力し、入力された初期値に基づいて、出力値を生成して出力層から出力するとともに、出力層から出力された出力値を入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行う学習ステップの処理をコンピュータに実行させるためのプログラムが記録されていることを特徴とする。
【0010】
請求項4に記載のロボットは、ランダムな初期値をリカレント型ニューラルネットの入力層に入力し、入力された初期値に基づいて、出力値を生成して出力層から出力するとともに、出力層から出力された出力値を入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行うことによって、移動経路を学習する学習手段と、学習の結果に基づいて出力される経路の方向にロボットを移動させる移動手段とを備えることを特徴とする。
【0011】
請求項1に記載の学習方法、請求項2に記載の学習装置、および請求項3に記載の記録媒体においては、ランダムな初期値が入力層に入力され、その入力された初期値に基づいて、出力値が生成されて出力層から出力される。また、出力層から出力された出力値を入力層に入力される処理を所定回数繰り返すことによって得られる所定個数の出力値からなる元の学習データによる学習と、新たな学習データによる学習が交互に行われる。
請求項4に記載のロボットにおいては、ランダムな初期値が入力層に入力され、その入力された初期値に基づいて、出力値が生成されて出力層から出力される。また、出力層から出力された出力値を入力層に入力される処理を所定回数繰り返すことによって得られる所定個数の出力値からなる元の学習データによる学習と、新たな学習データによる学習が交互に行われ、移動経路が学習される。また、学習の結果に基づいて出力される経路の方向にロボットが移動するようになされる。
【0012】
【発明の実施の形態】
以下に本発明の実施の形態を説明するが、特許請求の範囲に記載の発明の各手段と以下の実施の形態との対応関係を明らかにするために、各手段の後の括弧内に、対応する実施の形態(但し一例)を付加して本発明の特徴を記述すると、次のようになる。但し勿論この記載は、各手段を記載したものに限定することを意味するものではない。
【0014】
図1は、本発明の学習方法を応用したロボットの外観構成を示している。この実施の形態においては、ロボット11の上部にテレビカメラ12が取り付けられ、周囲の画像を撮像するようになされている。ロボット11の下側には、車輪13が取り付けられ、任意の位置に移動できるようになされている。また、ロボット11の側面には、ディスプレイ14が取り付けられ、所定の文字や画像が表示されるようになされている。
【0015】
図2は、ロボット11の内部の構成例を示している。テレビカメラ12は、周囲の映像をカラー画像として取り込み、取り込んだカラー画像データを制御回路24と量子化回路25に出力している。量子化回路25は入力されたカラー画像データを量子化し、ニューラルネット認識装置23に出力するようになされている。ニューラルネット認識装置23は、量子化回路25より入力されたカラー画像データから、後述するランドマークを認識し、認識結果を制御回路24に出力するようになされている。例えば、マイクロコンピュータなどよりなる制御回路24は、ニューラルネット認識装置23に対して、ロボットの移動方向を通知するとともに、ニューラルネット認識装置23より供給された、次のランドマークの予測結果をCRT,LCDなどよりなるディスプレイ14に出力し、表示させるようになされている。
【0016】
また、制御回路24は、モータ21を駆動し、テレビカメラ12を所定の方向に指向させるようになされている。さらに制御回路24は、モータ22を駆動し、車輪13を回転して、ロボット11を所定の位置に移動させるようになされている。
【0017】
図3は、ロボット11の移動空間を平面的に表している。この実施の形態においては、障害物10Aと障害物10Bの回りに、ランドマーク1乃至ランドマーク5が配置されている。この実施の形態の場合、ロボット11は、ランドマーク1、ランドマーク2、ランドマーク5の経路で、障害物10Aの周囲を反時計方向に移動するか、またはランドマーク1、ランドマーク2、ランドマーク3、ランドマーク4、ランドマーク5の経路で、障害物10Aと障害物10Bの周囲を反時計方向に移動するものとする。
【0018】
この場合、制御回路24は、図4に示す処理を実行する。最初にステップS1において、制御回路24は、ランドマークが発見されたか否かを判定する。すなわち、テレビカメラ12は、周囲の画像を撮像し、撮像した結果得られたカラー画像データを量子化回路25を介してニューラルネット認識装置23に出力している。ニューラルネット認識装置23は、後述するように、ランドマークを認識すると、その認識結果を制御回路24に出力する。制御回路24は、ニューラルネット認識装置23の出力をモニタし、ランドマークが発見されたか否かを判定し、まだ発見されていない場合においては、ステップS2に進み、モータ21を駆動して、テレビカメラ12を所定の方向に回動させたり、モータ22を駆動して、ロボット1が、図3において障害物10A,10Bの周囲を反時計方向に移動するように車輪13を回転させる。このステップS1,S2の処理は、ステップS1において、ランドマークが発見されたと判定されるまで繰り返し実行される。
【0019】
ステップS1において、ランドマークが発見されたと判定された場合、ステップS3に進み、制御回路24は、発見したランドマークの方向に障害物が存在するか否かを判定する。すなわち、制御回路24は、テレビカメラ12の出力から障害物の有無を判定し、障害物が存在すると判定した場合においては、ステップS4に進み、車輪13を右方向に回転する処理を実行する。すなわち、このとき制御回路24は、モータ22を駆動し、車輪13を右方向(時計方向)に回転させる。
【0020】
その後、ステップS3に戻り、ロボット11が新たに指向した方向に、障害物が存在するか否かを再び判定する。障害物が存在すると判定された場合、再びステップS4に進み、ロボット11をさらに時計方向に回転する処理が行われる。そして、ステップS3において、障害物が存在しないと判定された場合、ステップS5に進み、制御回路24は、ロボット11をステップS1で発見されたランドマークの方向に移動させる処理を実行する。すなわち、このとき制御回路24は、モータ22を駆動し、車輪13を回転させ、ロボット11をランドマークの方向に移動させる。
【0021】
次にステップS6に進み、制御回路24は、ランドマークに到達したか否かを、テレビカメラ12の出力とニューラルネット認識装置23の出力から判定する。すなわち、制御回路24は、ニューラルネット認識装置23よりランドマークが検出されていることを表す信号が入力されているとともに、テレビカメラ12が充分大きなランドマークの画像を出力しているとき、ランドマークに到達したものと判定する。ランドマークにまだ到達していない場合においては、ステップS3に戻り、それ以降の処理を繰り返し実行し、ランドマークに到達したと判定された場合、ステップS1に戻り、新たなランドマークを発見し、そのランドマークに向かって、上述した場合と同様の処理が実行される。
【0022】
以上のようにして、ロボット11は、障害物10Aに衝突しないように、ランドマーク1に向かって走行し、ランドマーク1に到達したら、ランドマーク1からランドマーク2に向かって走行する。ランドマーク2に到達したら、さらにランドマーク5に向かって走行し、ランドマーク5に到達したら、そこからランドマーク1に向かって走行する。
【0023】
あるいはまた、ロボット11は、ランドマーク2に到達したとき、ランドマーク5の方向でなく、ランドマーク3の方向に移動し、ランドマーク3に到達したら、そこからランドマーク4に進み、ランドマーク4に到達したら、ランドマーク5に進む。
【0024】
ロボット11が、2つのルートのうち、いずれのルートを移動するかは、制御回路24により予めプログラムすることが可能である。
【0025】
ここで、ニューラルネット認識装置23の構成について説明する。図5に示すように、ニューラルネット認識装置23は、ホップフィールド型ニューラルネットにより構成される相関記憶ネット41、ウィナーテイクオール(winner-take-all)型ニューラルネット42、およびリカレント型ニューラルネット43により基本的に構成されている。
【0026】
テレビカメラ12より出力されたカラー画像データは、相関記憶ネット41に入力される前に、量子化回路25に入力され、量子化される。すなわち、量子化回路25は、図6に示すように、色相と彩度からなる空間(テーブル)を有し、この所定の色相と彩度で規定されるカラー画像データのうち、領域A1の範囲に属するカラー画像データは、すべて例えば赤のデータとする。同様に、領域A2に属するカラー画像データは、すべて緑のデータとして量子化し、さらに、領域A3に属するカラー画像データは、すべて青のデータとして量子化する。
【0027】
なお、ここにおける赤、緑、および青の名称は、便宜的なものに過ぎず、それ以外の名称であってもよい。すなわち、これらの名称は、各領域の単なるコード(量子化データの名称)にすぎない。
【0028】
色相と彩度により規定される空間上に存在するカラー画像データは、無限に存在するのであるが、これをこの実施の形態の場合、3個の量子化データに量子化する。このように、多くの数のカラー画像データを、充分少ない数の量子化データに量子化することで、ニューラルネットによる物体の学習と認識が可能となる。このように、量子化回路25によりカラー画像データを量子化した量子化データが、ニューラルネット認識装置23に供給される。従って、ニューラルネット認識装置23に入力される量子化データは、図6に示した空間により規定される3つのデータのいずれかにより表されたデータとなる。
【0029】
図5に示すように、相関記憶ネット41は、図6に示した量子化ステップの数(この実施の形態の場合3個)に対応する数のフィールドを有している。フィールド41Rは、図6における領域A1の赤の量子化データに対応するフィールドであり、フィールド41Gは、図6の領域A2の緑の量子化データに対応するフィールドであり、そして、フィールド41Bは、図6の領域A3の青の量子化データに対応するフィールドである。量子化回路25より出力された3つの量子化データにより構成される入力パターンは、相関記憶ネット41の、それぞれ対応するフィールドのニューロンに入力される(想起される)。
【0030】
すなわち、各ニューロンの内部の状態をUとするとき、次式が成立する。
【0031】
【数1】

Figure 0003827037
【0032】
ここで、iはニューロンの番号を表し、tは所定の時刻を表している。従って、Ui t+1は、i番目のニューロンの時刻t+1におけるニューロンの内部の状態を表している。
【0033】
ここで、kは、ダンパを表す定数であり、αも所定の定数である。
【0034】
ijは、i番目のニューロンからj番目のニューロンに対する結合重み係数を表している。aj tは、j番目の時刻tにおけるニューロンの出力を表している。この出力は、次式により規定される。
【0035】
【数2】
Figure 0003827037
【0036】
ここで、logistic(A)は、Aに対してシグモイド関数を乗算することを表している。また、Tは定数を表している。すなわち、上記式は、ニューロンの内部状態を定数Tで割算した結果にシグモイド関数を乗算した結果が、ニューロンの出力となることを意味している。
【0037】
以上のようにして、想起のダイナミクスが行われるのに対し、学習のダイナミクスは、次の式により表される。
【0038】
【数3】
Figure 0003827037
【0039】
上記式における0.5は、閾値として機能する。すなわち、各ニューロンの出力は0乃至1の間の値となるが、0.5より小さい値であるとき、結合重み係数を負にし、0.5より大きい場合、結合重み係数を正にする機能を有している。
【0040】
ニューラルネットにランドマーク1乃至ランドマーク5を認識の基準となる物体として学習させると、その学習の結果は、この結合重み係数Wijとして記憶されることになる。
【0041】
ウィナーテイクオール型ニューラルネット42は、少なくとも認識すべきランドマークの数に対応する数のニューロン(この実施の形態の場合、5個のニューロン)を有し、相関記憶ネット41の各フィールドから所定の入力が行われたとき、5個のニューロンのうち、最も大きな値を出力する1個のニューロンの出力を1.0とし、他の4個のニューロンの出力を0.0とする学習を行わせる。これにより、相関記憶ネット41の3つのフィールドで規定されるパターンから1つのランドマークが判定され、そのランドマークに対応するニューロンが発火することになる。
【0042】
このように、ウィナーテイクオール型ニューラルネット42においては、発火するニューロンが1つだけとなるので、その出力を処理する後段のリカレント型ニューラルネット43の構成を簡単にすることができる。
【0043】
リカレント型ニューラルネット43は、入力層51、中間層52、および出力層53により、基本的に構成されている。入力層51は、ウィナーテイクオール型ニューラルネット42に対応する5個のニューロンを有するパターンノード51A、リカレント型ニューラルネット43の内部状態を保持するニューロンを有するコンテックスノード51B、並びに制御回路24より次に移動する方向が指令されるニューロンを有する方向ノード51Cとにより構成されている。
【0044】
出力層53は、5個のランドマークに対応するニューロンを有するパターンノード53Aと、入力層51におけるコンテックスノード51Bに対応するコンテックスノード53Bを有している。中間層52の各ニューロンは、入力層51と出力層53の各ノードを結合している。また、出力層53のコンテックスノード53Bのニューロンの出力は、入力層51のコンテックスノード51Bのニューロンに帰還されている。
【0045】
リカレント型ニューラルネット43は、ウィナーテイクオール型ニューラルネット42から、入力層51のパターンノード51Aに、1つのランドマークに対応する入力がなされると、次に現れるランドマークを予測し、出力層53から出力する。
【0046】
ニューラルネット認識装置23は、量子化回路25よりカラー画像データが入力されると、図7のフローチャートに示す処理を実行する。
【0047】
最初にステップS11において、ランドマークが探索されるまで待機する。この実施の形態の場合、ランドマーク1乃至ランドマーク5は、いずれも所定の色で着色されており、ニューラルネット認識装置23は、カラー画像データが入力されたとき、ステップS11でYESの判定を行い、ステップS12に進む。
【0048】
ステップS12においては、ニューラルネット認識装置23は、いま探索されたランドマーク(現ランドマーク)の認識処理を実行する。この認識処理は、ニューラルネット認識装置23の相関記憶ネット41において実行される。
【0049】
ステップS12の現ランドマークの認識処理が終了したとき、次にステップS13に進み、ウィナーテイクオール型ニューラルネット42において、ステップS12で得られた認識結果の絞り込み処理を行う。すなわち、5つのランドマークのうちのいずれが認識されたのかを明確にする。そして、ステップS14に進み、現在のランドマークの次に現れるランドマークをリカレント型ニューラルネット43において予測する処理を行う。予測した結果は、ディスプレイ14に表示される。以上の処理は、ランドマークが探索されるごとに繰り返し実行される。
【0050】
いま、ランドマーク1乃至ランドマーク5の認識すべき基準の物体としての画像が、相関記憶ネット41における結合重み係数として記憶(学習)されたものとする。この状態で、例えば、相関記憶ネット41に、テレビカメラ12で撮影され、量子化回路25で量子化されたランドマーク2のパターンが入力されると、フィールド41R,41G,41Bには、それぞれランドマーク2の量子化された赤のデータ、緑のデータ、および青のデータが、それぞれ所定の位置に発火する。ウィナーテイクオール型ニューラルネット42は、各フィールドの発火状態から対応するランドマークを判定し、判定結果に基づいて1つのランドマークに対応するニューロンを発火させる。いまの場合、ランドマーク2に対応するニューロンが発火する。
【0051】
そこで、リカレント型ニューラルネット43の入力層51のパターンノード51Aには、ウィナーテイクオール型ニューラルネット42のニューロンに対応して、ランドマーク2に対応するニューロンが発火する。また、このとき、制御回路24は、次に進むべき方向は左であるのか右であるのかを判定し、その方向に対応する信号を入力層51の方向ノード51Cに入力する。図5の実施の形態においては、左方向に対応するニューロンが発火されている。このため、リカレント型ニューラルネット43は、ランドマーク2の次に到来するランドマークを予測し、その予測結果を出力層53のパターンノード53Aに出力する。図3に示すように、ランドマーク2が検出された状態において、次に移動する方向が左方向である場合においては、次に現れるランドマークは、ランドマーク5となる。従って、この場合、図5に示すように、出力層53では、ランドマーク5に対応する番号5のニューロンが発火する。
【0052】
制御回路24は、ニューラルネット認識装置23より、次のランドマークを予測するデータの入力を受けたとき、これに対応する番号をディスプレイ14に出力し、表示させる。いまの場合、例えば、番号5がディスプレイ14に表示される。これにより、使用者は、次に現れるランドマークがランドマーク5であることを知ることができる。
【0053】
リカレント型ニューラルネット43の入力層51のパターンノード51Aにおけるランドマーク2に対応するニューロンが発火した状態において、方向ノード51Cで右方向に対応するニューロンを発火させた場合においては、図3に示すように、ランドマーク2から右方向に移動したとき、次に現れるランドマークはランドマーク3であるので、出力層53のパターンノード53Aにおいては、ランドマーク3に対応する番号3のニューロンが発火することになる。
【0054】
また、例えばランドマーク4が、ランドマーク1と近似した色彩のランドマークであったとすると、ランドマーク1とランドマーク4のいずれが認識されたのかが不明瞭となる。しかしながら、この実施の形態の場合、リカレント型ニューラルネット43にコンテックスノードが設けられているため、これにより、状態の遷移も識別される。
【0055】
すなわち、図3に示すように、ランドマーク4はランドマーク3の次に表れるものであり、ランドマーク1はランドマーク5の次に表れるものである。リカレント型ニューラルネット43においては、そのコンテックスノード51B,53Bにより、現在の状態がどの状態であるのかを識別できるため、直前に認識されたランドマークがランドマーク3である場合においては、次に入力されるランドマークは、ランドマーク1ではなくランドマーク4であることが認識される。同様に、直前に認識されていたランドマークが、ランドマーク5である場合においては、次に予測されるランドマークは、ランドマーク4ではなくランドマーク1であることを認識することができる。
【0056】
以上のようにして、ロボット11のリカレント型ニューラルネット43に、ランドマーク1、ランドマーク2、ランドマーク5の順序でランドマークを検索することで、障害物10Aの周囲を反時計方向に移動する経路と、ランドマーク1、ランドマーク2、ランドマーク3、ランドマーク4、ランドマーク5の順序でランドマークを検索することで、障害物10Aと障害物10Bの周囲を反時計方向に移動する経路が既に学習されているものとする。このような状態で、例えば、図8に示すように、ランドマーク4が削除されたものとする。従って、このとき、ロボット11が移動するワークスペースに存在するランドマークは、ランドマーク1、ランドマーク2、ランドマーク3、およびランドマーク5の4個のランドマークとなる。このような、わずかな変更を加えたような場合、リカレント型ニューラルネット43に対して、図9のフローチャートに示すような学習を行わせる。
【0057】
すなわち、最初にステップS21において、リカレント型ニューラルネット43に対して、所定の初期値を入力する。この初期値は、ランダムなものであってよい。初期値が入力されたリカレント型ニューラルネット43には、各ニューロンに元の学習データに対応する係数が学習されているので、何らかの出力がなされる。
【0058】
ステップS22においては、リカレント型ニューラルネット43に、リハーサルにより、元の学習データを想起させる。すなわち、リカレント型ニューラルネット43において、初期値に基づいて生成された出力を入力に帰還し、帰還された出力に基づいて、新たな出力を想起させる動作を繰り返させる。このようなリハーサル処理を何回か行うと、上述したように、リカレント型ニューラルネット43のニューロンには、元の学習データの係数が学習されているため、リカレント型ニューラルネット43に、元の学習データを想起させ、出力させることができる。
【0059】
次に、ステップS23に進み、リカレント型ニューラルネット43に対して、新たな学習データを入力し、学習させる。すなわち、ランドマーク1、ランドマーク2、ランドマーク5の順番による移動経路と、ランドマーク1、ランドマーク2、ランドマーク3、ランドマーク5の順番による移動経路を学習させる。
【0060】
次に、ステップS24において、元の学習データを入力し、学習させる。すなわち、ランドマーク1、ランドマーク2、ランドマーク5の順番による移動経路と、ランドマーク1、ランドマーク2、ランドマーク3、ランドマーク4、ランドマーク5の順番による移動経路を学習させる。この元の学習データは、ステップS22のリハーサル処理により、リカレント型ニューラルネット43に、自ら想起させたものを用いる。
【0061】
次に、ステップS25に進み、充分な学習ができたか否かを判定する。まだ、充分な学習ができていないと判定された場合には、ステップS23に戻り、それ以降の処理を繰り返し実行する。
【0062】
以上のようにして、新たな学習データによる学習と、元の学習データによる学習を加算して(この実施の形態の場合、交互に配置して)、学習させるようにすると、新たな学習データだけで学習させる場合に較べて、短い時間で学習を完了させることができる。
【0063】
元の学習データは、ロボット11にメモリを具備させ、そこに記憶させておくことも可能である。しかしながら、そのようにすると、それだけ余分な構成を必要とし、装置が大型化するだけでなく、コスト高となる。従って、そのような方法は、あまり実用的ではない。
【0064】
なお、図9の処理例において、新たな学習データによる学習と元の学習データによる学習を、1回ずつ交互に行うようにしたが、例えば、2回ずつ、あるいは3回ずつ交互に行わせるようにすることも可能である。但し、例えば、合計で3000回の学習を行わせるときに、最初に1500回、新たな学習データで学習させた後、次の1500回、元の学習データで学習させるようにすると、新たな学習データによる学習結果と、元の学習データによる学習結果の中間の学習結果が得られるようになり、あまり好ましくない。従って、比較的頻繁に、新たな学習データによる学習と、元の学習データによる学習を交替させることが望ましい。比較的頻繁に交替されるので、新たな学習データによる学習と、元の学習データによる学習のいずれを先に行ったとしても、結果にそれほどの差異はない。
【0065】
但し、例えば、新たな学習データによる学習と、元の学習データによる学習を交互に繰り返した後、次第に元の学習データによる学習より、新たな学習データによる学習の回数を増加させるようにしてもよい。
【0066】
なお、この学習方法は、リカレント型ニューラルネットをロボットに適用した場合に限らず、さまざまな装置に応用した場合にも適用が可能である。ただし、既に学習されている状態と、新たに学習する状態とが、比較的近似した状態である場合に適用すると、より効果を挙げることができる。
【0067】
【発明の効果】
以上の如く、請求項1に記載の学習方法、請求項2に記載の学習装置、請求項3に記載の記録媒体、および請求項4に記載のロボットによれば最初から新たな学習データだけで学習させる場合に較べて、より短い時間で学習を完了することが可能となる。
【図面の簡単な説明】
【図1】本発明の学習方法を応用したロボットの外観構成を示す図である。
【図2】図1の実施の形態の内部の構成を示すブロック図である。
【図3】図1の実施の形態の移動する空間を説明する図である。
【図4】図2の制御回路の動作を説明するフローチャートである。
【図5】図2のニューラルネット認識装置23の詳細な構成例を示す図である。
【図6】図2の量子化回路25の動作を説明する図である。
【図7】図2のニューラルネット認識装置23の動作を説明するフローチャートである。
【図8】図1の実施の形態の移動する他の空間を説明する図である。
【図9】学習方法を説明するフローチャートである。
【図10】従来のロボットの移動する空間を説明する図である。
【図11】従来の学習を方法を説明するフローチャートである。
【符号の説明】
11 ロボット, 12 テレビカメラ, 13 車輪, 14 ディスプレイ, 23 ニューラルネット認識装置, 24 制御回路, 25 量子化回路, 41 相関記憶ネット, 42 ウィナーテイクオール型ニューラルネット, 43 リカレント型ニューラルネット[0001]
BACKGROUND OF THE INVENTION
  The present invention relates to a learning method and apparatus,robot,And a learning method and apparatus, particularly for a recurrent neural network, capable of performing learning quickly, with respect to a recording medium,robot,And a recording medium.
[0002]
[Prior art]
Prediction can be performed by a recurrent neural network. For example, as shown in FIG. 10, a route for moving the periphery of the obstacle 10A in the counterclockwise direction to the robot 11 and a route for moving the periphery of the obstacle 10A and the obstacle 10B in the counterclockwise direction are It can be stored in a recurrent neural network. For example, when the robot 11 moves around the obstacle 10 </ b> A, the landmark 11 appears in the order of the landmark 1, the landmark 2, and the landmark 5. In addition, when moving around the obstacle 10A and the obstacle 10B, it is stored that the landmarks appear in the order of the landmark 1, the landmark 2, the landmark 3, the landmark 4, and the landmark 5. Therefore, the robot 11 can move around the obstacle 10A or around the obstacle 10A and the obstacle 10B while recognizing these landmarks.
[0003]
By the way, for example, when the landmark 4 is deleted from the landmarks 1 to 5 in a state where such learning has already been performed, the learning is performed again on the recurrent neural network of the robot 11. Need to be performed.
[0004]
FIG. 11 shows a conventional learning method in such a case. That is, first, in step S31, new learning data is input, and this is learned by the recurrent neural network. In step S32, the learning result is evaluated to determine whether or not sufficient evaluation has been obtained. If sufficient evaluation has not been obtained yet, it is determined that learning has not yet been performed, and the process returns to step S31. Again, new learning data is input and a process of learning is executed.
[0005]
As described above, the learning process is repeatedly executed until it is determined in step S32 that new learning data has been learned.
[0006]
[Problems to be solved by the invention]
In the conventional learning method, the learning process is restarted from 1 even though it is a change in which only one landmark is removed. As a result, it is the same as when the robot 11 learns from a state in which no learning is performed, and there is a problem that it takes a long time to learn.
[0007]
The present invention has been made in view of such a situation, and makes it possible to complete learning more quickly.
[0008]
[Means for Solving the Problems]
  The learning method according to claim 1 comprises:Random initial values are input to the input layer, output values are generated based on the input initial values and output from the output layer, and processing for inputting the output values output from the output layer to the input layer is predetermined. A learning step of alternately performing learning using original learning data consisting of a predetermined number of output values obtained by repeating the number of times and learning using new learning dataIt is characterized by providing.
The learning device according to claim 2 inputs a random initial value to the input layer, generates an output value based on the input initial value, outputs the output value from the output layer, and outputs output from the output layer It is characterized by comprising learning means for alternately performing learning using original learning data consisting of a predetermined number of output values obtained by repeating a process of inputting a value to the input layer a predetermined number of times and learning using new learning data. .
[0009]
  The recording medium according to claim 3 is:Random initial values are input to the input layer, output values are generated based on the input initial values and output from the output layer, and processing for inputting the output values output from the output layer to the input layer is predetermined. For causing a computer to execute a learning step process that alternately performs learning using original learning data consisting of a predetermined number of output values obtained by repeating the number of times and learning using new learning data.The program is recorded.
[0010]
  Claim 4robotIsRandom initial values are input to the input layer of the recurrent neural network, output values are generated based on the input initial values and output from the output layer, and output values output from the output layer are input to the input layer. Learning means for learning a movement route by alternately performing learning with original learning data consisting of a predetermined number of output values obtained by repeating input processing a predetermined number of times and learning with new learning data; Moving means for moving the robot in the direction of the route to be output based on the result;It is characterized by providing.
[0011]
  The learning method according to claim 1,In the learning device according to claim 2 and the recording medium according to claim 3, a random initial value is input to the input layer, and an output value is generated based on the input initial value to generate an output layer. Is output from. In addition, learning with the original learning data consisting of a predetermined number of output values obtained by repeating the process of inputting the output value output from the output layer into the input layer a predetermined number of times and learning with new learning data are alternately performed.Done.
According to a fourth aspect of the present invention, a random initial value is input to the input layer, and an output value is generated and output from the output layer based on the input initial value. In addition, learning with the original learning data consisting of a predetermined number of output values obtained by repeating the process of inputting the output value output from the output layer into the input layer a predetermined number of times and learning with new learning data are alternately performed. And the travel route is learned. Further, the robot moves in the direction of the route that is output based on the learning result.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below, but in order to clarify the correspondence between each means of the invention described in the claims and the following embodiments, in parentheses after each means, The features of the present invention will be described with the corresponding embodiment (however, an example) added. However, of course, this description does not mean that each means is limited to the description.
[0014]
FIG. 1 shows an external configuration of a robot to which the learning method of the present invention is applied. In this embodiment, a television camera 12 is attached to the upper part of the robot 11 so as to capture surrounding images. A wheel 13 is attached to the lower side of the robot 11 so that it can move to an arbitrary position. A display 14 is attached to the side surface of the robot 11 so that predetermined characters and images are displayed.
[0015]
FIG. 2 shows an internal configuration example of the robot 11. The television camera 12 captures surrounding video as a color image and outputs the captured color image data to the control circuit 24 and the quantization circuit 25. The quantization circuit 25 quantizes the input color image data and outputs it to the neural network recognition device 23. The neural network recognizing device 23 recognizes a landmark described later from the color image data input from the quantization circuit 25 and outputs the recognition result to the control circuit 24. For example, the control circuit 24 composed of a microcomputer or the like notifies the neural network recognition device 23 of the moving direction of the robot, and displays the prediction result of the next landmark supplied from the neural network recognition device 23 as CRT, The information is output and displayed on a display 14 such as an LCD.
[0016]
The control circuit 24 drives the motor 21 and directs the television camera 12 in a predetermined direction. Further, the control circuit 24 drives the motor 22 and rotates the wheels 13 to move the robot 11 to a predetermined position.
[0017]
FIG. 3 shows the movement space of the robot 11 in a plan view. In this embodiment, landmarks 1 to 5 are arranged around the obstacle 10A and the obstacle 10B. In this embodiment, the robot 11 moves in the counterclockwise direction around the obstacle 10A along the path of the landmark 1, the landmark 2, and the landmark 5, or the landmark 11, the landmark 2, the land It is assumed that the path around the obstacle 10A and the obstacle 10B moves counterclockwise along the path of the mark 3, the landmark 4, and the landmark 5.
[0018]
In this case, the control circuit 24 executes the process shown in FIG. First, in step S1, the control circuit 24 determines whether or not a landmark has been found. That is, the television camera 12 captures surrounding images and outputs color image data obtained as a result of the capturing to the neural network recognition device 23 via the quantization circuit 25. As will be described later, when the neural network recognition device 23 recognizes a landmark, it outputs the recognition result to the control circuit 24. The control circuit 24 monitors the output of the neural network recognizing device 23 and determines whether or not a landmark has been found. If the landmark has not been found, the control circuit 24 proceeds to step S2 to drive the motor 21 to The camera 12 is rotated in a predetermined direction or the motor 22 is driven to rotate the wheel 13 so that the robot 1 moves counterclockwise around the obstacles 10A and 10B in FIG. The processes in steps S1 and S2 are repeatedly executed until it is determined in step S1 that a landmark has been found.
[0019]
If it is determined in step S1 that a landmark has been found, the process proceeds to step S3, and the control circuit 24 determines whether an obstacle exists in the direction of the found landmark. That is, the control circuit 24 determines the presence / absence of an obstacle from the output of the television camera 12, and if it is determined that an obstacle exists, the control circuit 24 proceeds to step S4 and executes a process of rotating the wheel 13 in the right direction. That is, at this time, the control circuit 24 drives the motor 22 to rotate the wheel 13 in the right direction (clockwise).
[0020]
Then, it returns to step S3 and it is determined again whether an obstacle exists in the direction where the robot 11 newly pointed. If it is determined that there is an obstacle, the process proceeds to step S4 again, and processing for further rotating the robot 11 in the clockwise direction is performed. If it is determined in step S3 that there is no obstacle, the process proceeds to step S5, and the control circuit 24 executes a process of moving the robot 11 in the direction of the landmark found in step S1. That is, at this time, the control circuit 24 drives the motor 22, rotates the wheel 13, and moves the robot 11 in the direction of the landmark.
[0021]
In step S6, the control circuit 24 determines whether or not the landmark has been reached from the output of the television camera 12 and the output of the neural network recognition device 23. That is, when the signal indicating that the landmark is detected is input from the neural network recognition device 23 and the TV camera 12 outputs a sufficiently large landmark image, the control circuit 24 receives the landmark. It is determined that has been reached. If the landmark has not yet been reached, the process returns to step S3 and the subsequent processing is repeatedly executed. If it is determined that the landmark has been reached, the process returns to step S1 to find a new landmark, Processing similar to that described above is executed toward the landmark.
[0022]
As described above, the robot 11 travels toward the landmark 1 so as not to collide with the obstacle 10A. When the robot 11 reaches the landmark 1, the robot 11 travels from the landmark 1 toward the landmark 2. When the landmark 2 is reached, the vehicle further travels toward the landmark 5. When the landmark 5 is reached, the vehicle travels toward the landmark 1.
[0023]
Alternatively, when the robot 11 reaches the landmark 2, the robot 11 moves in the direction of the landmark 3, not in the direction of the landmark 5. When the robot 11 reaches the landmark 3, the robot 11 proceeds to the landmark 4 and proceeds to the landmark 4. When you reach, go to landmark 5.
[0024]
It is possible to program in advance by the control circuit 24 which of the two routes the robot 11 moves.
[0025]
Here, the configuration of the neural network recognition device 23 will be described. As shown in FIG. 5, the neural network recognition device 23 includes a correlation storage network 41 configured by a hop field type neural network, a winner-take-all type neural network 42, and a recurrent type neural network 43. Basically composed.
[0026]
The color image data output from the television camera 12 is input to the quantization circuit 25 and quantized before being input to the correlation storage net 41. That is, as shown in FIG. 6, the quantization circuit 25 has a space (table) composed of hue and saturation, and the range of the area A1 in the color image data defined by the predetermined hue and saturation. For example, all the color image data belonging to is red data. Similarly, all color image data belonging to the area A2 is quantized as green data, and further, all color image data belonging to the area A3 is quantized as blue data.
[0027]
Note that the names of red, green, and blue here are merely for convenience, and other names may be used. That is, these names are merely codes (names of quantized data) of each area.
[0028]
The color image data existing in the space defined by the hue and saturation exists infinitely. In the case of this embodiment, this is quantized into three quantized data. As described above, by quantizing a large number of color image data into a sufficiently small number of quantized data, an object can be learned and recognized by a neural network. Thus, the quantized data obtained by quantizing the color image data by the quantizing circuit 25 is supplied to the neural network recognition device 23. Therefore, the quantized data input to the neural network recognizing device 23 is data represented by one of the three data defined by the space shown in FIG.
[0029]
As shown in FIG. 5, the correlation storage net 41 has a number of fields corresponding to the number of quantization steps shown in FIG. 6 (three in this embodiment). The field 41R is a field corresponding to the red quantized data in the area A1 in FIG. 6, the field 41G is a field corresponding to the green quantized data in the area A2 in FIG. 6, and the field 41B is This is a field corresponding to the blue quantized data in the area A3 in FIG. The input pattern constituted by the three quantized data output from the quantizing circuit 25 is input (recollected) to the neurons in the corresponding fields of the correlation storage net 41.
[0030]
That is, when U is the internal state of each neuron, the following equation is established.
[0031]
[Expression 1]
Figure 0003827037
[0032]
Here, i represents a neuron number, and t represents a predetermined time. Therefore, Ui t + 1Represents the internal state of the i-th neuron at time t + 1.
[0033]
Here, k is a constant representing a damper, and α is also a predetermined constant.
[0034]
WijRepresents a connection weight coefficient from the i-th neuron to the j-th neuron. aj tRepresents the output of the neuron at the j-th time t. This output is defined by the following equation.
[0035]
[Expression 2]
Figure 0003827037
[0036]
Here, logistic (A) represents multiplying A by a sigmoid function. T represents a constant. That is, the above expression means that the result of dividing the internal state of the neuron by the constant T and multiplying the result by the sigmoid function is the output of the neuron.
[0037]
As described above, recall dynamics are performed, whereas learning dynamics are expressed by the following equations.
[0038]
[Equation 3]
Figure 0003827037
[0039]
0.5 in the above formula functions as a threshold value. That is, the output of each neuron is a value between 0 and 1, but when the value is less than 0.5, the connection weight coefficient is negative, and when it is greater than 0.5, the connection weight coefficient is positive. have.
[0040]
When the neural network is made to learn landmarks 1 to 5 as objects for recognition, the result of the learning is the connection weight coefficient WijWill be stored as
[0041]
The winner take-all neural network 42 has a number of neurons (five neurons in this embodiment) corresponding to at least the number of landmarks to be recognized. When input is performed, learning is performed such that the output of one neuron that outputs the largest value among the five neurons is set to 1.0 and the output of the other four neurons is set to 0.0. . As a result, one landmark is determined from the pattern defined by the three fields of the correlation storage net 41, and the neuron corresponding to the landmark is fired.
[0042]
Thus, in the winner-take-all type neural network 42, only one neuron fires, so the configuration of the recurrent neural network 43 in the subsequent stage that processes the output can be simplified.
[0043]
The recurrent neural network 43 basically includes an input layer 51, an intermediate layer 52, and an output layer 53. The input layer 51 includes a pattern node 51A having five neurons corresponding to the winner take-all neural network 42, a context node 51B having neurons holding the internal state of the recurrent neural network 43, and the control circuit 24. And a direction node 51C having a neuron to which the direction of movement is commanded.
[0044]
The output layer 53 includes a pattern node 53A having neurons corresponding to five landmarks and a context node 53B corresponding to the context node 51B in the input layer 51. Each neuron in the intermediate layer 52 connects each node of the input layer 51 and the output layer 53. Further, the output of the neuron of the context node 53B of the output layer 53 is fed back to the neuron of the context node 51B of the input layer 51.
[0045]
When an input corresponding to one landmark is input from the winner take-all type neural network 42 to the pattern node 51A of the input layer 51, the recurrent type neural network 43 predicts the next appearing landmark and outputs the output layer 53. Output from.
[0046]
When the color image data is input from the quantization circuit 25, the neural network recognition device 23 executes the process shown in the flowchart of FIG.
[0047]
First, in step S11, the process waits until a landmark is searched. In the case of this embodiment, the landmarks 1 to 5 are all colored with a predetermined color, and the neural network recognition device 23 determines YES in step S11 when color image data is input. And proceed to step S12.
[0048]
In step S12, the neural network recognizing device 23 executes a recognition process for the landmark (current landmark) searched now. This recognition process is executed in the correlation storage net 41 of the neural network recognition device 23.
[0049]
When the current landmark recognition process in step S12 is completed, the process proceeds to step S13, and the winner take-all type neural network 42 performs a process for narrowing the recognition result obtained in step S12. That is, it is clarified which of the five landmarks has been recognized. Then, the process proceeds to step S14, in which the landmark that appears next to the current landmark is predicted in the recurrent neural network 43. The predicted result is displayed on the display 14. The above processing is repeatedly executed every time a landmark is searched.
[0050]
Now, it is assumed that images as reference objects to be recognized by the landmarks 1 to 5 are stored (learned) as coupling weight coefficients in the correlation storage net 41. In this state, for example, when the pattern of the landmark 2 photographed by the television camera 12 and quantized by the quantization circuit 25 is input to the correlation storage net 41, each of the fields 41R, 41G, and 41B has a land land. The quantized red data, green data, and blue data of the mark 2 ignite at predetermined positions. The winner take-all type neural network 42 determines a corresponding landmark from the firing state of each field, and fires a neuron corresponding to one landmark based on the determination result. In this case, the neuron corresponding to the landmark 2 fires.
[0051]
Therefore, at the pattern node 51A of the input layer 51 of the recurrent neural network 43, a neuron corresponding to the landmark 2 is fired corresponding to the neuron of the winner take-all neural network 42. At this time, the control circuit 24 determines whether the next direction is left or right, and inputs a signal corresponding to the direction to the direction node 51C of the input layer 51. In the embodiment of FIG. 5, the neuron corresponding to the left direction is fired. For this reason, the recurrent neural network 43 predicts a landmark that comes next to the landmark 2 and outputs the prediction result to the pattern node 53 A of the output layer 53. As shown in FIG. 3, when the landmark 2 is detected and the next moving direction is the left direction, the next appearing landmark is the landmark 5. Therefore, in this case, as shown in FIG. 5, in the output layer 53, the neuron of number 5 corresponding to the landmark 5 is fired.
[0052]
When the control circuit 24 receives input of data for predicting the next landmark from the neural network recognizing device 23, the control circuit 24 outputs a number corresponding thereto to the display 14 for display. In this case, for example, the number 5 is displayed on the display 14. Thereby, the user can know that the next appearing landmark is the landmark 5.
[0053]
When a neuron corresponding to the landmark 2 in the pattern node 51A of the input layer 51 of the recurrent neural network 43 is fired, and a neuron corresponding to the right direction is fired in the direction node 51C, as shown in FIG. On the other hand, since the next appearing landmark is the landmark 3 when moving to the right from the landmark 2, the neuron of number 3 corresponding to the landmark 3 is fired in the pattern node 53A of the output layer 53. become.
[0054]
For example, if the landmark 4 is a landmark having a color similar to that of the landmark 1, it is unclear which of the landmark 1 and the landmark 4 is recognized. However, in the case of this embodiment, since the recurrent type neural network 43 is provided with the context node, this also identifies the state transition.
[0055]
That is, as shown in FIG. 3, the landmark 4 appears next to the landmark 3, and the landmark 1 appears next to the landmark 5. In the recurrent neural network 43, the current state can be identified by the context nodes 51B and 53B. Therefore, when the landmark recognized immediately before is the landmark 3, It is recognized that the input landmark is not the landmark 1 but the landmark 4. Similarly, when the landmark recognized immediately before is the landmark 5, it can be recognized that the landmark predicted next is the landmark 1, not the landmark 4.
[0056]
As described above, by searching the landmarks in the order of the landmark 1, the landmark 2, and the landmark 5 in the recurrent neural network 43 of the robot 11, the periphery of the obstacle 10A is moved counterclockwise. A route that moves around the obstacle 10A and the obstacle 10B in a counterclockwise direction by searching for the landmark in the order of the landmark 1, the landmark 2, the landmark 3, the landmark 4, and the landmark 5. Is already learned. In this state, for example, it is assumed that the landmark 4 has been deleted as shown in FIG. Accordingly, at this time, the landmarks present in the work space in which the robot 11 moves are the four landmarks of the landmark 1, the landmark 2, the landmark 3, and the landmark 5. When such a slight change is made, the recurrent neural network 43 is caused to perform learning as shown in the flowchart of FIG.
[0057]
That is, first, in step S21, a predetermined initial value is input to the recurrent neural network 43. This initial value may be random. In the recurrent neural network 43 to which the initial value is input, a coefficient corresponding to the original learning data is learned for each neuron, and thus some output is made.
[0058]
In step S22, the recurrent neural network 43 is caused to recall the original learning data by rehearsal. That is, in the recurrent neural network 43, the output generated based on the initial value is fed back to the input, and the operation of recalling a new output is repeated based on the fed back output. When such rehearsal processing is performed several times, as described above, since the coefficients of the original learning data are learned in the neurons of the recurrent neural network 43, the original learning data is transferred to the recurrent neural network 43. Data can be recalled and output.
[0059]
In step S23, new learning data is input to the recurrent neural network 43 to be learned. That is, the movement path in the order of the landmark 1, the landmark 2, and the landmark 5 and the movement path in the order of the landmark 1, the landmark 2, the landmark 3, and the landmark 5 are learned.
[0060]
Next, in step S24, the original learning data is input and learned. That is, the movement path in the order of the landmark 1, the landmark 2, and the landmark 5 and the movement path in the order of the landmark 1, the landmark 2, the landmark 3, the landmark 4, and the landmark 5 are learned. As this original learning data, data recollected by the recurrent neural network 43 by the rehearsal processing in step S22 is used.
[0061]
Next, it progresses to step S25 and it is determined whether sufficient learning was completed. If it is determined that sufficient learning has not been performed yet, the process returns to step S23 and the subsequent processing is repeatedly executed.
[0062]
As described above, when learning is performed by adding learning based on new learning data and learning based on the original learning data (alternatively arranged in this embodiment), only new learning data is obtained. Learning can be completed in a shorter time compared to the case of learning with.
[0063]
The original learning data can be stored in the robot 11 having a memory. However, in such a case, an extra configuration is required, which not only increases the size of the apparatus but also increases the cost. Therefore, such a method is not very practical.
[0064]
In the processing example of FIG. 9, learning with new learning data and learning with original learning data are alternately performed once, but for example, it is alternately performed twice or three times. It is also possible to make it. However, for example, when learning is performed 3000 times in total, if learning is first performed with new learning data 1500 times and then learning is performed with the original learning data 1500 times, new learning is performed. An intermediate learning result between the learning result by the data and the learning result by the original learning data can be obtained, which is not preferable. Therefore, it is desirable to alternate learning with new learning data and learning with original learning data relatively frequently. Since it is changed relatively frequently, there is not much difference in the result regardless of which learning is performed with new learning data and learning with the original learning data.
[0065]
However, for example, after learning with new learning data and learning with original learning data are alternately repeated, the number of learning with new learning data may be gradually increased from learning with original learning data. .
[0066]
This learning method can be applied not only when the recurrent type neural network is applied to the robot but also when applied to various devices. However, the present invention can be more effective when applied when the already learned state and the newly learned state are relatively approximate states.
[0067]
【The invention's effect】
  As described above, the learning method according to claim 1,The learning device according to claim 2,The recording medium according to claim 3, and the recording medium according to claim 4.robotAccording to,Learning can be completed in a shorter period of time than when learning is performed only from new learning data from the beginning.
[Brief description of the drawings]
FIG. 1 is a diagram showing an external configuration of a robot to which a learning method of the present invention is applied.
FIG. 2 is a block diagram showing an internal configuration of the embodiment of FIG.
FIG. 3 is a diagram for explaining a moving space according to the embodiment of FIG. 1;
4 is a flowchart for explaining the operation of the control circuit of FIG. 2;
FIG. 5 is a diagram showing a detailed configuration example of the neural network recognition device 23 in FIG. 2;
6 is a diagram for explaining the operation of the quantization circuit 25 of FIG. 2;
7 is a flowchart for explaining the operation of the neural network recognition device 23 of FIG.
FIG. 8 is a diagram illustrating another space in which the embodiment of FIG. 1 moves;
FIG. 9 is a flowchart illustrating a learning method.
FIG. 10 is a diagram illustrating a space in which a conventional robot moves.
FIG. 11 is a flowchart illustrating a conventional learning method.
[Explanation of symbols]
11 robot, 12 TV camera, 13 wheel, 14 display, 23 neural network recognition device, 24 control circuit, 25 quantization circuit, 41 correlation memory network, 42 winner take-all type neural network, 43 recurrent type neural network

Claims (4)

リカレント型ニューラルネットの学習方法において、
ランダムな初期値を入力層に入力し入力された前記初期値に基づいて、出力値を生成して出力層から出力するとともに、前記出力層から出力された前記出力値を前記入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の前記出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行う学習ステップ
を備えることを特徴とする学習方法。
In the learning method of the recurrent type neural network,
A random initial value is input to the input layer, and based on the input initial value, an output value is generated and output from the output layer, and the output value output from the output layer is input to the input layer. A learning method comprising: a learning step of alternately performing learning using original learning data composed of a predetermined number of the output values obtained by repeating the processing to be performed a predetermined number of times and learning using new learning data.
リカレント型ニューラルネットの学習装置において、
ランダムな初期値を入力層に入力し入力された前記初期値に基づいて、出力値を生成して出力層から出力するとともに、前記出力層から出力された前記出力値を前記入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の前記出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行う学習手段
を備えることを特徴とする学習装置。
In the learning device of the recurrent type neural network,
A random initial value is input to the input layer, and based on the input initial value, an output value is generated and output from the output layer, and the output value output from the output layer is input to the input layer. A learning apparatus comprising learning means for alternately performing learning using original learning data composed of a predetermined number of the output values obtained by repeating the processing to be performed a predetermined number of times and learning using new learning data.
リカレント型ニューラルネットをコンピュータに学習させるプログラムが記録された記録媒体において、
ランダムな初期値を入力層に入力し入力された前記初期値に基づいて、出力値を生成して出力層から出力するとともに、前記出力層から出力された前記出力値を前記入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の前記出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行う学習ステップ
の処理をコンピュータに実行させるためのプログラムが記録されていることを特徴とする記録媒体。
In a recording medium on which a program for causing a computer to learn a recurrent neural network is recorded,
A random initial value is input to the input layer, and based on the input initial value, an output value is generated and output from the output layer, and the output value output from the output layer is input to the input layer. A learning step of alternately performing learning using original learning data composed of a predetermined number of output values obtained by repeating the processing to be performed a predetermined number of times and learning using new learning data
A recording medium on which a program for causing a computer to execute the process is recorded.
リカレント型ニューラルネットの学習に基づく移動を行うロボットにおいて、In a robot that moves based on learning of a recurrent neural network,
ランダムな初期値を前記リカレント型ニューラルネットの入力層に入力し、入力された前記初期値に基づいて、出力値を生成して出力層から出力するとともに、前記出力層から出力された前記出力値を前記入力層に入力する処理を所定回数繰り返すことによって得られる所定個数の前記出力値からなる元の学習データによる学習と、新たな学習データによる学習を交互に行うことによって、移動経路を学習する学習手段と、  A random initial value is input to the input layer of the recurrent neural network, and based on the input initial value, an output value is generated and output from the output layer, and the output value output from the output layer Is learned by alternating the learning with the original learning data consisting of a predetermined number of the output values and the learning with the new learning data, which are obtained by repeating the process of inputting to the input layer a predetermined number of times. Learning means,
前記学習の結果に基づいて出力される経路の方向に前記ロボットを移動させる移動手段と  Moving means for moving the robot in the direction of a route output based on the learning result;
を備えることを特徴とするロボット。  A robot characterized by comprising:
JP13338197A 1997-05-23 1997-05-23 Learning method and apparatus, robot, and recording medium Expired - Lifetime JP3827037B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP13338197A JP3827037B2 (en) 1997-05-23 1997-05-23 Learning method and apparatus, robot, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP13338197A JP3827037B2 (en) 1997-05-23 1997-05-23 Learning method and apparatus, robot, and recording medium

Publications (2)

Publication Number Publication Date
JPH10326265A JPH10326265A (en) 1998-12-08
JP3827037B2 true JP3827037B2 (en) 2006-09-27

Family

ID=15103409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP13338197A Expired - Lifetime JP3827037B2 (en) 1997-05-23 1997-05-23 Learning method and apparatus, robot, and recording medium

Country Status (1)

Country Link
JP (1) JP3827037B2 (en)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4169038B2 (en) 2006-04-06 2008-10-22 ソニー株式会社 Information processing apparatus, information processing method, and program
JP2011085527A (en) * 2009-10-16 2011-04-28 Kyushu Institute Of Technology Time series learning system, method thereof, and program
KR102399535B1 (en) * 2017-03-23 2022-05-19 삼성전자주식회사 Learning method and apparatus for speech recognition
US11551080B2 (en) 2017-05-30 2023-01-10 Hitachi Kokusai Electric Inc. Learning dataset generation method, new learning dataset generation device and learning method using generated learning dataset

Also Published As

Publication number Publication date
JPH10326265A (en) 1998-12-08

Similar Documents

Publication Publication Date Title
US5963663A (en) Land mark recognition method for mobile robot navigation
CN111587408B (en) Robot navigation and object tracking
US7082421B2 (en) Information processing apparatus and method, and recording medium
CN111079561A (en) Robot intelligent grabbing method based on virtual training
Karnan et al. Voila: Visual-observation-only imitation learning for autonomous navigation
Dima et al. Classifier fusion for outdoor obstacle detection
US11679496B2 (en) Robot controller that controls robot, learned model, method of controlling robot, and storage medium
JP3827037B2 (en) Learning method and apparatus, robot, and recording medium
JPH08237535A (en) Tracking area setting device, motion vector detecting circuit and object tracking device using the same
KR100819563B1 (en) System for tracking car objects using mosaic video image and a method thereof
CN112712556A (en) Method for training a neural convolutional network, method, apparatus, and storage medium for determining a positioning pose
JPH1083455A (en) Object recognizing device and method
CN111242176A (en) Computer vision task processing method and device and electronic system
CN115752473A (en) Distributed multi-robot navigation method, system, storage medium and equipment
Jokić et al. Mobile robot decision-making system based on deep machine learning
CN112784958B (en) Household service type robot based on continuous learning method
Wang et al. Learning latent object-centric representations for visual-based robot manipulation
Fan et al. Flar: A unified prototype framework for few-sample lifelong active recognition
Zhu et al. Vision-based reinforcement learning for robot navigation
Krodel et al. Reinforcement learning to drive a car by pattern matching
Dima et al. Sensor and classifier fusion for outdoor obstacle detection: an application of data fusion to autonomous off-road navigation
Banerjee et al. Do Deep Reinforcement Learning Algorithms really Learn to Navigate?
JP3187861B2 (en) Autofocus device
Krodel et al. Pattern matching as the nucleus for either autonomous driving or driver assistance systems
Jeni et al. Hierarchical reinforcement learning for robot navigation using the intelligent space concept

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060330

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060628

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090714

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100714

Year of fee payment: 4