JP2007041723A - Sensor designing device, sensor designing method, sensor designing program and robot - Google Patents
Sensor designing device, sensor designing method, sensor designing program and robot Download PDFInfo
- Publication number
- JP2007041723A JP2007041723A JP2005223343A JP2005223343A JP2007041723A JP 2007041723 A JP2007041723 A JP 2007041723A JP 2005223343 A JP2005223343 A JP 2005223343A JP 2005223343 A JP2005223343 A JP 2005223343A JP 2007041723 A JP2007041723 A JP 2007041723A
- Authority
- JP
- Japan
- Prior art keywords
- sensor
- learning
- robot
- robots
- genotype
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、ロボットの行動学習に使用されるセンサの形態を設計するセンサ設計装置、センサ設計方法及びセンサ設計プログラム、並びに前記センサ設計装置により設計されたセンサを有するロボットに関するものである。 The present invention relates to a sensor design device, a sensor design method and a sensor design program for designing the form of a sensor used for robot behavior learning, and a robot having a sensor designed by the sensor design device.
環境の変化に適応的なロボットを構築するためには、ロボットの形態、制御系及び環境のバランスを考慮しなければならない。近年、形態と制御系とをうまく組み合わせてロボットに適応的な振る舞いを獲得させる研究が注目されている。例えば、非特許文献1では、エージェントの形態と制御系とをソフトウエア上で進化させる手法と迅速成形技術とを組み合わせることによって、ソフトウエア上で得られた形態をハードウエアとして実現している。
しかしながら、上記のような手法では、個体発生的なスパンにおける適応、すなわち学習にとって有利なセンサの形態を自動的に設計することはできない。 However, with the above-described method, it is not possible to automatically design a sensor configuration that is advantageous for adaptation in ontogenic spans, that is, for learning.
本発明の目的は、ロボットの行動学習に有利なセンサの形態を自動的に設計することができるセンサ設計装置、センサ設計方法、センサ設計プログラム及びロボットを提供することである。 An object of the present invention is to provide a sensor design device, a sensor design method, a sensor design program, and a robot capable of automatically designing a sensor form advantageous for robot behavior learning.
本発明に係るセンサ設計装置は、ロボットの行動学習に使用されるセンサの形態を設計するセンサ設計装置であって、センサの形態を特定するための複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する初期世代作成手段と、初期世代作成手段により作成された複数のロボットに仮想的に学習を行わせ、学習結果を基に各ロボットの適応度を算出する学習手段と、学習手段により算出された各ロボットの適応度を基に親個体となる複数のロボットを選択し、選択した複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する次世代作成手段とを備え、学習手段は、次世代作成手段により作成されたロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出し、次世代作成手段及び学習手段による処理を所定数繰り返すことによりセンサの形態を決定するものである。 The sensor design device according to the present invention is a sensor design device for designing the form of a sensor used for robot behavior learning, and creates a plurality of genotypes for specifying the form of the sensor. An initial generation creation means for virtually creating a plurality of robots having a specified sensor form, and a plurality of robots created by the initial generation creation means are virtually trained, and each robot based on the learning result The learning means for calculating the fitness of each robot, and a plurality of parent robots are selected based on the fitness of each robot calculated by the learning means. Next-generation creation means to create a genotype of the next generation and virtually create a plurality of robots having a sensor form specified by each next-generation genotype, and learning The stage allows the robot created by the next generation creation means to virtually perform learning again, calculates the fitness of each robot based on the learning result, and repeats the processing by the next generation creation means and the learning means a predetermined number of times. This determines the form of the sensor.
本発明に係るセンサ設計装置では、センサの形態を特定するための複数の遺伝子型が作成され、各遺伝子型により特定されるセンサの形態を有する複数のロボットが仮想的に作成され、作成された複数のロボットに学習を行わせ、学習した各ロボットの学習結果を基に各ロボットの適応度が算出される。 In the sensor design device according to the present invention, a plurality of genotypes for specifying the sensor form are created, and a plurality of robots having the sensor form specified by each genotype are virtually created and created. Learning is performed by a plurality of robots, and the fitness of each robot is calculated based on the learning result of each learned robot.
次に、算出された各ロボットの適応度を基に親個体となる複数のロボットが選択され、選択された複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型が作成され、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットが仮想的に作成され、作成された複数のロボットに再度学習を行わせ、学習結果を基に各ロボットの適応度が算出され、これらの次世代作成処理及びその学習処理が所定数繰り返されることによりセンサの形態が決定される。 Next, based on the calculated fitness of each robot, a plurality of parent robots are selected, and a next generation genotype is created based on the genetic algorithm from the selected genotypes of the plurality of robots. A plurality of robots having the form of sensors specified by the next-generation genotype are virtually created, and the created robots are made to learn again, and the fitness of each robot is calculated based on the learning results. The form of the sensor is determined by repeating the next generation creation process and the learning process thereof a predetermined number of times.
したがって、学習結果に基づいて、適応度の高いロボットすなわち学習性能が高いロボットが、死滅することなく、親個体のロボットとして選択され、センサの形態を特定する遺伝子型を進化させることができるので、ロボットの行動学習に有利なセンサの形態を自動的に設計することができる。 Therefore, based on the learning result, a robot with high fitness, that is, a robot with high learning performance, is selected as a parent individual robot without dying, and the genotype that identifies the form of the sensor can be evolved, It is possible to automatically design a sensor form that is advantageous for robot behavior learning.
学習手段は、Q学習により複数のロボットに学習を行わせることが好ましい。この場合、種々の遺伝子型すなわち種々のセンサの形態を有するロボットを効率的に学習させることができ、好適な形態のセンサを高速に設計することができる。 The learning means preferably causes a plurality of robots to perform learning by Q learning. In this case, a robot having various genotypes, that is, various sensor forms can be efficiently learned, and a sensor having a suitable form can be designed at high speed.
次世代作成手段は、学習手段により算出された各ロボットの適応度を基に、複数のロボットの中から学習性能の高い所定数のロボットを親個体として選択するとともに、残りのロボットからトーナメント選択により同数のロボットを親個体として選択する選択手段と、選択手段により選択された親個体の遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを次世代ロボットとして仮想的に作成する作成手段とを備え、学習手段は、作成手段により作成された次世代ロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出することが好ましい。 Based on the fitness of each robot calculated by the learning means, the next generation creation means selects a predetermined number of robots with high learning performance as a parent individual from a plurality of robots, and selects tournaments from the remaining robots. A selection unit that selects the same number of robots as a parent individual, and a next generation genotype based on the genetic algorithm from the genotype of the parent individual selected by the selection unit, and a sensor that is identified by each next generation genotype Creating means for virtually creating a plurality of robots having the following forms as next-generation robots, and the learning means virtually causes the next-generation robot created by the creating means to perform learning again, and based on the learning results. It is preferable to calculate the fitness of each robot.
この場合、エリート戦略により適応度の高いロボットがそのまま親個体として選択されるので、学習性能が高いロボットが偶然選択されずに死滅することを防止することができるとともに、トーナメント選択により選択された適応度の高いロボットからも次世代ロボットを作成することができるので、学習性能が高いロボットが多産となるようにすることができる。この結果、学習性能が高いロボットを死滅させることなく、順次学習させることができるので、学習結果に基づいて最適なセンサの形態を設計することができる。 In this case, the robot with high fitness is selected as the parent individual as it is by the elite strategy, so that it is possible to prevent the robot with high learning performance from being killed without being selected by chance, and the adaptation selected by the tournament selection Since a next-generation robot can be created from a highly skilled robot, a robot with high learning performance can be prolific. As a result, robots with high learning performance can be sequentially learned without being killed, so that an optimal sensor configuration can be designed based on the learning results.
遺伝子型は、センサの位置、個数、分解能、センシング間隔の少なくとも一つを特定することが好ましい。この場合、センサの位置、個数、分解能、センシング間隔等の形態を自動的に設計することができる。 The genotype preferably specifies at least one of the position, number, resolution, and sensing interval of the sensor. In this case, forms such as the position, number, resolution, and sensing interval of the sensors can be automatically designed.
次世代作成手段は、親個体となるロボットの遺伝子型から交叉及び突然変異の少なくとも一方を用いて次世代の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成することが好ましい。この場合、広範な探索空間から最適な遺伝子型を探索することができ、最適な形態のセンサを効率的に設計することができる。 The next-generation creation means creates a next-generation genotype using at least one of crossover and mutation from the genotype of a robot that becomes a parent individual, and includes a plurality of robots having a sensor form specified by each genotype. It is preferable to create it virtually. In this case, an optimal genotype can be searched from a wide search space, and an optimal sensor can be efficiently designed.
本発明に係るセンサ設計方法は、初期世代作成手段、学習手段及び次世代作成手段を備えるセンサ設計装置を用いて、ロボットの行動学習に使用されるセンサの形態を設計するセンサ設計方法であって、初期世代作成手段が、センサの形態を特定するための複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する第1のステップと、学習手段が、初期世代作成手段により作成された複数のロボットに仮想的に学習を行わせ、学習結果を基に各ロボットの適応度を算出する第2のステップと、次世代作成手段が、学習手段により算出された各ロボットの適応度を基に親個体となる複数のロボットを選択し、選択した複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する第3のステップと、学習手段が、第3のステップにおいて作成されたロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出する第4のステップとを含み、第3及び第4のステップによる処理を所定数繰り返すことによりセンサの形態を決定するものである。 A sensor design method according to the present invention is a sensor design method for designing a form of a sensor used for robot behavior learning using a sensor design device including an initial generation creation means, a learning means, and a next generation creation means. A first step in which the initial generation creating means creates a plurality of genotypes for specifying a sensor form and virtually creates a plurality of robots having a sensor form specified by each genotype; The learning means causes the plurality of robots created by the initial generation creating means to virtually perform learning, and the next generation creating means performs learning by calculating the fitness of each robot based on the learning result. Based on the fitness of each robot calculated by the means, a plurality of robots as parent individuals are selected, and the next generation remains based on the genetic algorithm from the genotypes of the selected robots. A third step of creating a sub-type and virtually creating a plurality of robots having a sensor form specified by each next-generation genotype; and a learning means for the robot created in the third step. A fourth step of virtually re-learning and calculating the fitness of each robot based on the learning result, and determining the form of the sensor by repeating the processes in the third and fourth steps a predetermined number of times To do.
本発明に係るセンサ設計プログラムは、ロボットの行動学習に使用されるセンサの形態を設計するためのセンサ設計プログラムであって、センサの形態を特定するための複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する初期世代作成手段と、初期世代作成手段により作成された複数のロボットに仮想的に学習を行わせ、学習結果を基に各ロボットの適応度を算出する学習手段と、学習手段により算出された各ロボットの適応度を基に親個体となる複数のロボットを選択し、選択した複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する次世代作成手段としてコンピュータを機能させ、学習手段は、次世代作成手段により作成されたロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出し、次世代作成手段及び学習手段による処理を所定数繰り返すことによりセンサの形態を決定するものである。 A sensor design program according to the present invention is a sensor design program for designing a sensor form used for robot behavior learning, and creates a plurality of genotypes for specifying a sensor form, An initial generation creation unit that virtually creates a plurality of robots having a sensor form specified by a mold, and a plurality of robots created by the initial generation creation unit virtually perform learning, and based on the learning result A learning means for calculating the fitness of each robot, and a plurality of robots that become parent individuals are selected based on the fitness of each robot calculated by the learning means, and the genetic algorithm is selected from the genotypes of the selected robots. Next generation creation that creates next generation genotypes and virtually creates multiple robots with sensor forms identified by each next generation genotype The computer functions as a stage, and the learning means virtually re-learns the robot created by the next generation creating means, calculates the fitness of each robot based on the learning result, and the next generation creating means and learning The form of the sensor is determined by repeating the processing by the means a predetermined number of times.
本発明に係るロボットは、上記いずれかに記載のセンサ設計装置により設計されたセンサを有するものである。 The robot according to the present invention has a sensor designed by any one of the sensor design apparatuses described above.
本発明によれば、学習結果に基づいて、適応度の高いロボットすなわち学習性能が高いロボットが、死滅することなく、親個体のロボットとして選択され、センサの形態を特定する遺伝子型を進化させることができるので、ロボットの行動学習に有利なセンサの形態を自動的に設計することができる。 According to the present invention, based on the learning result, a robot with high fitness, that is, a robot with high learning performance, is selected as a parent individual robot without dying, and evolves a genotype that identifies the form of the sensor. Therefore, it is possible to automatically design a sensor form that is advantageous for learning behavior of the robot.
以下、本発明の一実施の形態によるセンサ設計装置について図面を参照しながら説明する。図1は、本発明の一実施の形態によるセンサ設計装置の構成を示すブロック図である。 Hereinafter, a sensor design device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration of a sensor design apparatus according to an embodiment of the present invention.
図1に示すセンサ設計装置は、入力部1、初期世代作成部2、行動学習部3、選択部4、次世代作成部5及び出力部6を備える。センサ設計装置は、ROM(リードオンリメモリ)、CPU(中央演算処理装置)、RAM(ランダムアクセスメモリ)、外部記憶装置、記録媒体駆動装置、入力装置及び表示装置等を備える通常のコンピュータを用いて、後述するセンサ設計処理を実行するためのセンサ設計プログラムをCPU等で実行することにより上記の各機能を実現することができる。
The sensor design apparatus shown in FIG. 1 includes an
本実施の形態では、上記コンピュータと、シミュレータとして、Cyberbotics社製Webotsとを用い、センサやアクチュエータの特性を定義して後述するロボットを仮想的に作成してセンサの形態をシミュレーションしている。なお、センサ設計装置の構成は、上記の例に特に限定されず、上記各機能の一部又は全てを専用のハードウエア回路により実現する等の種々の変更が可能である。 In the present embodiment, the computer and Webbots manufactured by Cyberbotics are used as a simulator, the characteristics of sensors and actuators are defined, and a robot described later is virtually created to simulate the sensor configuration. The configuration of the sensor design apparatus is not particularly limited to the above example, and various modifications such as realizing a part or all of the above functions by a dedicated hardware circuit are possible.
入力部1は、ロボットを構成するセンサ、アクチュエータ及びコントローラ(エージェント)等を定義するためのモデルデータ等をユーザが入力するために使用される。
The
初期世代作成部2は、入力部1から入力されたモデルデータ等を用いて、センサの形態を特定するための遺伝子型がランダムになるように複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数の初期世代ロボットを仮想的に作成し、作成した初期世代ロボットのデータを行動学習部3へ出力する。なお、初期世代ロボットのセンサ以外の構成要素であるアクチュエータ及びコントローラ等は、すべてのロボットについて共通であり、後述する次世代ロボットも同様である。
The initial
ここで、センサの形態は、物理的な形態のみではなく、センサの特性及び使用状態等をも含み、本実施の形態に用いられる遺伝子型は、センサの位置、個数、分解能、センシング間隔、及びセンサ値の制御系に対する重みを表す結合強度等のパラメータを特定するコード等を特定する情報であり、「1」又は「0」を用いて表現される。例えば、1のパラメータが4bitでデコードされ、4種類のパラメータから遺伝子型が表される場合、遺伝子型の長さは、256bitとなる。 Here, the form of the sensor includes not only the physical form but also the characteristics and use state of the sensor, and the genotype used in the present embodiment includes the position, number, resolution, sensing interval, and sensing interval of the sensor. This is information that specifies a code or the like that specifies a parameter such as a coupling strength that represents the weight of the sensor value for the control system, and is expressed using “1” or “0”. For example, when one parameter is decoded in 4 bits and a genotype is expressed from 4 types of parameters, the length of the genotype is 256 bits.
行動学習部3は、初期世代ロボットのデータを用いて、初期世代ロボットに仮想的に強化学習を行わせ、その学習結果に基づく適応度を算出して各ロボットのデータとともに選択部4へ出力する。例えば、行動学習部3は、Q学習を用いてロボットに学習を行わせ、ロボットのコントローラに以下の処理を仮想的に実行させる。
1.センサを用いて環境の状態stを観測する。
2.行動選択戦略に従って行動atを実行する。
3.状態に応じて報酬rtを受け取る。
4.センサを用いて状態遷移後の状態st+1を観測する。
5.下記式(1)に従ってQ値を更新する。
The
1. An environmental state st is observed using a sensor.
2. To perform the action a t in accordance with the action selection strategy.
3. It receives a reward r t depending on the state.
4). The state s t + 1 after the state transition is observed using the sensor.
5. The Q value is updated according to the following formula (1).
Q(st,at)←Q(st,at)+α〔rt+γmaxat+1Q(st+1,at+1)−Q(st,at)〕…(1)
ここで、αは学習率(0<α<1)、γは割引率(0<γ<1)である。
6.時間ステップtをt+1に進めて手順1に戻る。
Q (s t , a t ) <-Q (s t , a t ) + α [r t + γmax at + 1 Q (s t + 1 , a t + 1 ) −Q (s t , a t )] (1)
Here, α is a learning rate (0 <α <1), and γ is a discount rate (0 <γ <1).
6). Advance time step t to t + 1 and return to
選択部4は、エリート戦略に従い、適応度を基に上位のロボットを親個体として所定数選択するともに、トーナメント選択に従い、選択しなかった残りのロボットから同数のロボットを親個体としてさらに選択してそれらのデータを次世代作成部5へ出力する。
The
次世代作成部5は、選択部4により選択された親個体の遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数の次世代ロボットを仮想的に作成し、作成した次世代ロボットのデータを行動学習部3へ出力する。例えば、次世代作成部5は、選択部4により選択された親個体の遺伝子型から交叉及び突然変異により次世代の遺伝子型を作成する。
The next
なお、選択部4及び次世代作成部5による選択操作及び遺伝子操作は、上記の例に特に限定されず、適応度を基に下位(例えば、10%)のロボットを取り除き、残ったものからトーナメント選択、ルーレット選択、期待値選択、又はランキング選択等により同数の親を選択して遺伝子操作を加える等の種々の変更が可能である。また、交叉についても、1点交叉、多点交叉、又は一様交叉等の種々のものを用いることができる。
The selection operation and the gene operation by the
次世代作成部5から出力される次世代ロボットのデータを受け取った行動学習部3は、そのデータを用いて、次世代ロボットに仮想的に強化学習、例えば、Q学習を行わせ、その学習結果に基づく適応度を各ロボットのデータとともに選択部4へ出力する。
The
上記の選択部4、次世代作成部5及び行動学習部3による処理を所定世代繰り返すことにより最終世代のロボットが仮想的に作成され、選択部4は、最終世代ロボットの中から適応度の最も高いロボットを選択し、最良個体としてそのデータを出力部6へ出力する。
By repeating the processes by the
出力部6は、最良個体のデータを表示又は印刷等して最終的に決定されたセンサの形態をユーザに知らせる。なお、出力部6が出力するセンサの形態としては、遺伝子型、表示型等のいずれを用いてもよい。
The
本実施の形態では、初期世代作成部2が初期世代作成手段の一例に相当し、行動学習部3が学習手段の一例に相当し、選択部4及び次世代作成部5が次世代作成手段の一例に相当し、選択部4が選択手段の一例に相当し、次世代作成部5が作成手段の一例に相当する。
In the present embodiment, the initial
次に、上記のように構成されたセンサ設計装置によるセンサ設計処理について説明する。図2は、図1に示すセンサ設計装置によるセンサ設計処理を説明するためのフローチャートである。 Next, sensor design processing by the sensor design apparatus configured as described above will be described. FIG. 2 is a flowchart for explaining sensor design processing by the sensor design apparatus shown in FIG.
まず、ユーザが、入力部1を用いて、ロボットを構成するセンサ、アクチュエータ及びコントローラ等を定義するためのモデルデータ等を入力すると、ステップS1において、初期世代作成部2は、入力されたモデルデータ等を用いて、センサの形態を特定するための遺伝子型がランダムになるように複数の遺伝子型を作成する。
First, when a user inputs model data or the like for defining sensors, actuators, controllers, and the like constituting the robot using the
ここで、本センサ設計装置によりセンサの形態が設計されるロボットの一例について説明する。図3は、図1に示すセンサ設計装置の設計対象となるロボットの一例を示す底面模式図であり、図4は、図3に示すロボットのタスク環境を示す模式図であり、図5は、図4に示すコース上のロボットの状態を示す模式図である。 Here, an example of a robot whose sensor form is designed by the sensor design apparatus will be described. 3 is a schematic bottom view showing an example of a robot to be designed by the sensor design apparatus shown in FIG. 1, FIG. 4 is a schematic diagram showing a task environment of the robot shown in FIG. 3, and FIG. It is a schematic diagram which shows the state of the robot on the course shown in FIG.
図3に示すロボット10は、赤外発光LED及び受光素子から構成されるセンサ11、センサ11が固定される固定台12、固定台12を保持する本体部13、及び本体部13に回転可能に支持される2個の車輪14を備える。ロボット10は、床に引かれたラインに沿って移動してゴールを目指すロボットであり、ライントレーサと呼ばれる。
The
図4に示すコースは、2m×5mの長方形であり、4分の1ずつの地点にチェックポイントP1〜P4が設けられ、図5に示すように、ロボット10は、ラインLIに沿って移動してゴールを目指す。ここで、ロボット10のセンサ11は、コース上に設けられたラインLIを検出するために床面の色に応じた値を本体部13内のコントローラ(図示省略)へ出力し、コントローラは、本体部13内のモータ及び駆動回路(図示省略)を制御することにより、センサ11の出力に応じてラインLI上をトレースするように車輪14を駆動させる。
The course shown in FIG. 4 is a rectangle of 2 m × 5 m, and check points P1 to P4 are provided at each quarter point. As shown in FIG. 5, the
センサ11は、予め規定された8×4のマトリックス状の32個の配置可能位置の中から任意の個数及び位置を選択して配置されることができ、本センサ設計装置は、ロボットの行動学習に有利なセンサ11の位置及び個数を自動的に設計する。この場合、ステップS1において、上記のライントレーサ及びコースをモデル化するためのモデルデータ等が入力され、初期世代作成部2は、入力されたモデルデータ等を用いて、センサ11の位置及び個数を特定するための32bitの遺伝子型がコード化され、50個の遺伝子型をランダムに作成する。
The
次に、ステップS2において、初期世代作成部2は、作成した各遺伝子型により特定されるセンサの形態を有する複数の初期世代ロボットを仮想的に作成し、作成した初期世代ロボットのデータを行動学習部3へ出力する。このとき、行動学習部3は、時間ステップt等を初期化する。
Next, in step S2, the initial
例えば、上記のライントレーサの場合、ステップS2において、初期世代作成部2は、50個の遺伝子型の各々により特定されるセンサの位置及び配置を有する50個の初期世代ロボットを仮想的に作成し、初期世代ロボットの個体数(集団数)は50となる。
For example, in the case of the above-described line tracer, in step S2, the initial
次に、ステップS3において、行動学習部3は、初期世代ロボットのデータを用いてモデル化した仮想ロボットのコントローラにセンサを用いて環境の状態stを観測させる。例えば、環境の状態stは、各センサの出力から構成され、センサの出力が2値で、4つのセンサを有するロボットの場合、状態数は2×2×2×2=16になる。なお、センサの出力値は、上記の例に特に限定されず、多値を用いてもよい。
Next, in step S3,
次に、ステップS4において、行動学習部3は、行動選択戦略としてεグリーディ戦略に従った行動atをコントローラに実行させる。ここで、εグリーディ戦略とは、εの確率でランダムな行動を選択し、それ以外の場合はQ値が最大の行動を取る戦略である。
Next, in step S4,
例えば、上記のライントレーサの場合、コントローラが取り得る行動atは、直進at0、左に曲がるat1、右に曲がるat2、大きく左に曲がるat3、大きく右に曲がるat4の5種類あり、ロボットの左右の車輪の角速度(rad/s)をωL,ωRとすると、at0の場合は(ωL,ωR)=(15,15)、at1の場合は(ωL,ωR)=(13,6)、at2の場合は(ωL,ωR)=(6,13)、at3の場合は(ωL,ωR)=(8,2)、at4の場合は(ωL,ωR)=(2,8)になるように車輪の角速度が制御され、ε=0.01を用いることができる。 For example, if the line tracer, the action a t the controller can take, straight a t0, a t1 to turn left, a t2 to turn right, a t3 to Sharp left, five a t4 to Sharp right There, when the wheel angular velocity (rad / s) to omega L of the right and left of the robot, when the omega R, in the case of a t0 of (ω L, ω R) = (15,15), a t1 (ω L , Ω R ) = (13, 6), (ω L , ω R ) = (6, 13) for a t2 , and (ω L , ω R ) = (8, 2) for a t3 , a In the case of t4 , the angular velocity of the wheel is controlled so that (ω L , ω R ) = (2, 8), and ε = 0.01 can be used.
次に、ステップS5において、行動学習部3は、状態に応じて報酬rtをコントローラに与える。例えば、上記のライントレーサの場合、ロボットの中心がラインから外れるほど罰を大きくした報酬を用いることができ、図3に示す8列のセンサをロボットの下から見て左側から第0列、第1列、…、第7列とすると、観測した状態が、(1)第0列のセンサ又は第7列のセンサがライン上にある場合はrt=−20.0、(2)第1列のセンサ又は第6列のセンサがライン上にある場合はrt=−10.0、(3)第2列のセンサ又は第5列のセンサがライン上にある場合はrt=0.0、(4)第3列のセンサ又は第4列のセンサがライン上にある場合はrt=1.0、(5)全てのセンサがライン外にある場合はrt=−100.0となる報酬rtを用いることができる。なお、上記の条件(1)〜(4)は、(4)、(3)、(2)、(1)の順に優先して使用される。
Next, in step S5,
次に、ステップS6において、行動学習部3は、上記式(1)に従ってQ値をコントローラに更新させる。上記式(1)により、ロボットが採った行動atにより報酬rtを得てQ(st,at)が更新され、その報酬が正であったならば、Q(st,at)が増加するため、次回同じ状態になった場合、その行動を採る可能性が高くなる。例えば、上記のライントレーサの場合、上記式(1)において、学習率α=0.8、割引率γ=0.999を用いることができる。
Next, in step S6, the
次に、ステップS7において、行動学習部3は、時間ステップtが最大ステップ数に達して1試行が終了したか否かを判断し、最大ステップ数に達していない場合は、時間ステップtをt+1に進め、ステップS3に戻って以降の処理を継続し、最大ステップ数に達した場合はステップS8へ処理を移行する。例えば、上記のライントレーサの場合、最大ステップ数=2000を用いることができ、また、ライントレーサが最大ステップ数以内にゴールに到達した場合も1試行が終了するため、ステップS8へ処理を移行する。
Next, in step S7, the
次に、ステップS8において、行動学習部3は、試行回数がエピソード数に達して学習が終了したか否かを判断し、学習が終了していない場合は、学習条件等を初期化してステップS3に戻って次の試行を継続し、学習が終了した場合はステップS9へ処理を移行する。例えば、上記のライントレーサの場合、エピソード数=100を用いることができ、また、試行機会(エピソード)毎にロボットの位置及び向きを初期化して次の試行を継続する。
Next, in step S8, the
学習が終了した場合、ステップS9において、行動学習部3は、学習結果に基づく適応度を算出し、学習を行った各ロボットのデータとともに対応する応答度を選択部4へ出力する。例えば、上記のライントレーサの場合、1個体に付き100回の試行を行い、下記の式(2)により適応度φを算出する。
When learning is completed, in step S9, the
ここで、Nはエピソード数(100回)、Hiはi回目の試行の達成度、tiは図4に示すチェックポイントPiへの到達時間(sec)、Tmaxは最大試行時間(128sec)である。上式より、学習が進んだ個体(ロボット)ほど各試行における達成度が高くなり、適応度も高くなる。すなわち、適応度の高い個体は、学習しやすいセンサの形態を有しているということができる。なお、適応度の計算方法は、上記の例に特に限定されず,種々の変更が可能である。 Here, N is the number of episodes (100 times), H i is the degree of achievement of the i-th trial, t i is the arrival time (sec) to the check point P i shown in FIG. 4, and T max is the maximum trial time (128 sec). ). From the above equation, the individual (robot) with advanced learning has higher achievement in each trial and higher fitness. That is, it can be said that an individual with high fitness has a form of a sensor that is easy to learn. Note that the fitness calculation method is not particularly limited to the above example, and various modifications are possible.
次に、ステップS10において、選択部4は、行動学習部3から出力されるロボットのデータを基に学習が終了したロボットが最終世代ロボットであるか否かを判断する。最終世代ロボットである場合、選択部4は、適応度の最も高いロボットを選択し、最良個体としてそのデータを出力部6へ出力し、出力部6は、最良個体のセンサの遺伝子型を表示する。例えば、上記のライントレーサの場合、最終世代数として50が用いられ、第50世代目のロボットの学習が終了した後、適応度の最も高いロボットのセンサの位置及び個数を表す遺伝子型が表示される。
Next, in step S <b> 10, the
一方、最終世代ロボットでない場合は、ステップS11において、選択部4は、エリート戦略に従い、適応度が上位のロボットを所定数選択し、親個体としてそのデータを次世代作成部5へ出力する。例えば、上記のライントレーサの場合、エリート数が5に設定され、50個のロボットのうち適応度が上位5位以内の5個のロボットが親個体として選択され、無条件で次世代に残される。
On the other hand, if it is not the final generation robot, in step S11, the
次に、ステップS12において、選択部4は、トーナメント選択に従い、選択しなかった残りのロボットから所定数の個体をランダムに選択し、その中で適応度の最も高い個体を選択し、この過程を集団数が得られるまで繰り返すことにより、親個体を選択してそのデータを次世代作成部5へ出力する。例えば、上記のライントレーサの場合、選択されなかった45個のロボットからトーナメント選択により45個のロボットが親個体として選択される。
Next, in step S12, the
次に、ステップS13において、次世代作成部5は、選択部4により選択された親個体の遺伝子型から交叉及び突然変異により次世代の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数の次世代ロボットを仮想的に作成し、作成した次世代ロボットのデータを行動学習部3へ出力する。例えば、上記のライントレーサの場合、親個体として選択された50個のロボットから、突然変異率=0.03及び交叉率=1.0で遺伝子操作が行われ、50個の次世代ロボットが作成される。
Next, in step S13, the next
上記ステップS13の処理後、ステップS3に戻って次世代のロボットが学習を行い、遺伝的アルゴリズムによりさらに次世代のロボットが順次作成され、最終世代のロボットの学習が終了するまでステップS3〜S13の処理が繰り返される。 After the process of step S13, the process returns to step S3, the next generation robot learns, and further next generation robots are sequentially created by the genetic algorithm, and the learning of the last generation robot is completed until steps S3 to S13 are completed. The process is repeated.
上記の処理により、本実施の形態では、センサの形態を特定するための複数の遺伝子型が作成され、各遺伝子型により特定されるセンサの形態を有する複数の初期世代ロボットが仮想的に作成され、複数の初期世代ロボットにQ学習を行わせ、学習した各ロボットの学習結果を基に各ロボットの適応度が算出される。 Through the above processing, in this embodiment, a plurality of genotypes for specifying the sensor form are created, and a plurality of initial generation robots having the sensor form specified by each genotype are virtually created. Then, Q learning is performed on a plurality of initial generation robots, and the fitness of each robot is calculated based on the learning result of each learned robot.
次に、算出された各ロボットの適応度を基に、複数のロボットの中から学習性能の高い所定数のロボットがそのまま親個体として選択されるとともに、残りのロボットからトーナメント選択により同数のロボットが親個体として選択され、選択された親個体の遺伝子型から交叉及び突然変異により次世代の遺伝子型が作成され、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットが次世代ロボットとして仮想的に作成され、複数の次世代ロボットに再度Q学習を行わせ、学習結果を基に各ロボットの適応度が算出され、これらの次世代作成処理及びその学習処理が最終世代まで繰り返されることによりセンサの形態が決定される。 Next, based on the calculated fitness of each robot, a predetermined number of robots with high learning performance are selected as a parent individual from a plurality of robots, and the same number of robots are selected from the remaining robots by tournament selection. The next generation genotype is created by crossover and mutation from the selected parent individual's genotype, and multiple robots with the form of sensors specified by each next generation genotype are next generation Virtually created as a robot, let multiple next-generation robots perform Q-learning again, the fitness of each robot is calculated based on the learning results, and these next-generation creation processing and learning processing are repeated until the final generation As a result, the form of the sensor is determined.
したがって、学習結果に基づいて、適応度の高いロボットすなわち学習性能が高いロボットが、死滅することなく、親個体のロボットとして選択され、センサの形態を特定する遺伝子型を進化させることができるので、ロボットの行動学習に有利なセンサの形態を自動的に設計することができ、ロボットの学習能力に適した状態空間を構築するために学習結果に基づいてセンサの形態を自律的に設計することができる。 Therefore, based on the learning result, a robot with high fitness, that is, a robot with high learning performance, is selected as a parent individual robot without dying, and the genotype that identifies the form of the sensor can be evolved, It is possible to automatically design sensor forms that are advantageous for robot behavior learning, and to design sensor forms autonomously based on learning results in order to construct a state space suitable for the robot's learning ability it can.
また、設計時に仮想的に行われる学習により自動設計されたセンサの形態に最適な学習アルゴリズムをも獲得することができる。さらに、ロボットの形態のうちセンサに特化してその形態を自動設計しているので、物理世界と情報世界のインタフェースであるセンサをボトムアップ的に構築することができるとともに、アクチュエータが固定されるため、ハードウエア上で実現しやすいという利点もある。 It is also possible to acquire a learning algorithm that is optimal for the form of a sensor that is automatically designed by learning that is virtually performed at the time of design. Furthermore, since the robot is specially designed for the robot, it is possible to construct a sensor that is the interface between the physical world and the information world from the bottom up, and the actuator is fixed. There is also an advantage that it is easy to realize on hardware.
次に、上記センサ設定装置によるセンサの設計結果について、図3に示すラインレーサを例に具体的に説明する。図6は、図1に示すセンサ設定装置により設計されたライントレーサの各世代における適応度と、各世代における最良個体のセンサ個数との変化を示す図である。図中、実線は最大適応度を、破線は最良個体のセンサ個数を、一点鎖線は実験を10回行ったときの平均適応度をそれぞれ示している。 Next, a sensor design result by the sensor setting device will be specifically described taking the line racer shown in FIG. 3 as an example. FIG. 6 is a diagram showing changes in the fitness of each generation of the line tracer designed by the sensor setting device shown in FIG. 1 and the number of sensors of the best individual in each generation. In the figure, the solid line indicates the maximum fitness, the broken line indicates the number of sensors of the best individual, and the alternate long and short dash line indicates the average fitness when the experiment is performed 10 times.
図6から、最良個体においては、センサ個数が減少するに従って適応度が増加していることがわかる。例えば、第5世代(センサ数7前後)の適応度が約0.2であるのに対し、第50世代(センサ数5前後)の適応度は約0.4に上昇している。この結果、図4に示すライントレース環境の場合、5個前後のセンサが学習に有利であり、学習器を用いることにより、マイコンカーラリーで標準的に用いられているセンサ個数(8個)を削減することができることがわかった。 It can be seen from FIG. 6 that the fitness of the best individual increases as the number of sensors decreases. For example, the fitness of the fifth generation (around 7 sensors) is about 0.2, whereas the fitness of the 50th generation (around 5 sensors) is increased to about 0.4. As a result, in the case of the line trace environment shown in FIG. 4, about 5 sensors are advantageous for learning, and by using a learning device, the number of sensors (8) that are normally used in the microcomputer car rally can be reduced. It was found that it can be reduced.
図7は、図1に示すセンサ設計装置により設計されたセンサ形態の代表例を示す図であり、図中の黒丸がセンサを表している。例えば、センサが4個の場合、図7の(a)に示すセンサ配置が設計され、センサが5個の場合、図7の(b)に示すセンサ配置が設計され、センサが6個の場合、図7の(c)に示すセンサ配置が設計された。 FIG. 7 is a diagram showing a representative example of the sensor form designed by the sensor design apparatus shown in FIG. 1, and the black circles in the figure represent the sensor. For example, when there are four sensors, the sensor arrangement shown in FIG. 7A is designed, and when there are five sensors, the sensor arrangement shown in FIG. 7B is designed and there are six sensors. The sensor arrangement shown in FIG. 7C was designed.
次に、図1に示すセンサ設計装置により設計されたセンサ形態と、人手により設計したセンサ形態とを用いて学習結果の比較を行った。図8は、図1に示すセンサ設計装置により設計されたセンサ形態及び人手により設計されたセンサ形態の例を示す図であり、図中の黒丸がセンサを表している。 Next, the learning results were compared using the sensor form designed by the sensor design apparatus shown in FIG. 1 and the sensor form designed by hand. FIG. 8 is a diagram showing an example of a sensor form designed by the sensor design apparatus shown in FIG. 1 and a sensor form designed by hand, and a black circle in the figure represents a sensor.
図8の(c)に示すセンサ形態は、図1に示すセンサ設計装置により設計されたセンサ形態であり、5個のセンサが平面的に所定間隔で配置されている。図8の(a)に示すセンサ形態は、マイコンカーラリーにおいて標準的に用いられているセンサ形態であり、8個のセンサが一直線上に等間隔で配置されている。図8の(b)に示すセンサ形態は、図8の(c)に示すセンサ形態と状態空間の次元が等しいマイコンカーのセンサ形態であり、5個のセンサが一直線上に所定間隔で配置されている。 The sensor form shown in FIG. 8C is a sensor form designed by the sensor design apparatus shown in FIG. 1, and five sensors are arranged at predetermined intervals in a plane. The sensor form shown in (a) of FIG. 8 is a sensor form used as standard in the microcomputer car rally, and eight sensors are arranged at equal intervals on a straight line. The sensor configuration shown in (b) of FIG. 8 is a sensor configuration of a microcomputer car having the same dimension of the state space as the sensor configuration shown in (c) of FIG. 8, and five sensors are arranged on a straight line at predetermined intervals. ing.
図9は、図8に示す各センサ形態のエピソード数に対する適応度の変化を示す図である。図9に示すエピソード数に対する適応度の変化は、ゴールに到達する早さの変化を表しており、実線は図8の(c)に示すセンサ形態の変化を、一点鎖線は図8の(a)に示すセンサ形態の変化を、破線は図8の(b)に示すセンサ形態の変化をそれぞれ示している。 FIG. 9 is a diagram showing a change in fitness with respect to the number of episodes of each sensor form shown in FIG. The change in the fitness with respect to the number of episodes shown in FIG. 9 represents the change in the speed of reaching the goal, the solid line shows the change in the sensor form shown in (c) of FIG. 8, and the alternate long and short dash line in FIG. ), And the broken lines indicate changes in the sensor form shown in FIG.
図9から、図1に示すセンサ設計装置により設計されたセンサ形態、すなわち図8の(c)に示すセンサ形態は、図8の(a)及び(b)に示す人手によるセンサ形態より全てのエピソードにおいて高い適応度を示していることがわかる。なお、エピソード数を増やしても、この傾向は同様であった。また、図8の(c)に示すセンサ形態は、状態空間が大きい図8の(a)に示すセンサ形態に対しても、収束速度とパフォーマンスとの面で勝っており、本実施の形態のように物理世界を適切に観測することで、より効果的な学習を行えることがわかった。 From FIG. 9, the sensor form designed by the sensor design apparatus shown in FIG. 1, that is, the sensor form shown in FIG. 8 (c) is more complete than the manual sensor form shown in FIG. 8 (a) and (b). It can be seen that the episode shows high fitness. This trend was the same even when the number of episodes was increased. Further, the sensor configuration shown in FIG. 8C is superior to the sensor configuration shown in FIG. 8A with a large state space in terms of convergence speed and performance. Thus, it was found that more effective learning can be achieved by appropriately observing the physical world.
次に、図1に示すセンサ設計装置により設計された図8の(c)に示すセンサ形態の配置及び個数について考察する。まず、図8の(c)に示すセンサ形態は、センサの配置に関して以下の特徴を有する。 Next, the arrangement and the number of sensor forms shown in FIG. 8C designed by the sensor design apparatus shown in FIG. 1 will be considered. First, the sensor configuration shown in FIG. 8C has the following characteristics with respect to the sensor arrangement.
(1)センサの配置が左右非対称である。これは、今回のタスクは、コースを半時計回りに回るように設定しているため、S字カーブを除けば、左カーブが多く、左カーブを得意とするセンサ形態の適応度が高くなったためと考えられる。 (1) The sensor arrangement is asymmetrical. This is because the current task is set to turn the course counterclockwise, so there are many left curves except for the S-curve, and the fitness of the sensor form that is good at the left curve has increased. it is conceivable that.
(2)センサが前後に分散して配置されている。これは、横一列に並んだ配置では、ラインの前後関係を読み取ることができず、ライントレーサがカーブ上にいるのか、又は直線上にいるのかを判断することができないが、センサが前後に分散されることにより、ラインの前後関係から直線やカーブといったラインの形状を読み取ることができるためであると考えられる。 (2) Sensors are distributed in the front-rear direction. This is because in a horizontal arrangement, the line context cannot be read, and it cannot be determined whether the line tracer is on a curve or on a straight line, but the sensors are scattered back and forth. This is considered to be because the shape of a line such as a straight line or a curve can be read from the context of the line.
次に、センサの個数について、自動設計されたセンサ形態は、5個前後のセンサを持つものが多く、センサの個数は状態空間の次元を決定するため、学習速度と取得できる情報量に影響を与える。一般的に、次元が少ない方が学習の収束が早いが、学習収束後のパフォーマンスは、次元が多い場合よりも低くなると考えられる。しかしながら、上記の結果では、学習が収束した後であっても、センサ数が少ない方が、高いパフォーマンスを示した。この結果、少ない状態空間を効果的に用いることができれば、収束速度だけでなく、学習効果も改善できることがわかった。 Next, with regard to the number of sensors, automatically designed sensor forms often have around five sensors, and the number of sensors determines the dimension of the state space, which affects the learning speed and the amount of information that can be acquired. give. Generally, learning converges faster with fewer dimensions, but the performance after learning convergence is considered to be lower than when there are many dimensions. However, in the above results, even after learning has converged, a smaller number of sensors showed higher performance. As a result, it was found that if a small state space can be used effectively, not only the convergence speed but also the learning effect can be improved.
このように、本センサ設計装置を用いることにより、タスク環境とロボットの学習能力とに適した状態空間を構成させることができ、ロボットにより適応的な行動を実行させることができる。 Thus, by using this sensor design apparatus, a state space suitable for the task environment and the learning ability of the robot can be configured, and adaptive behavior can be executed by the robot.
次に、上記のように設計されたセンサの形態を有するライントレーサ(図8の(c)に示すライントレーサ)を実際に作成してライントレースを行い、人手で設計されたライントレーサ(図8の(a)及び(b)に示すライントレーサ)と比較した。なお、コントローラとして、図8の(a)に示すライントレーサは付属のサンプルプログラムを改良したハンドコーディングによるものを用い、図8の(b)及び(c)に示すライントレーサは設計時のシミュレーションの学習結果を用い、設計時に得られたQ値に基づいて行動を決定し、センサが観測した状態に対して最大のQ値を持つ行動を選択するものを用いた。 Next, a line tracer having the form of the sensor designed as described above (the line tracer shown in FIG. 8C) is actually created to perform line tracing, and the line tracer designed manually (FIG. 8). (A line tracer shown in (a) and (b)). As the controller, the line tracer shown in (a) of FIG. 8 uses a hand-coded version of the attached sample program, and the line tracer shown in (b) and (c) of FIG. A learning result is used to determine an action based on the Q value obtained at the time of design, and an action having the maximum Q value with respect to the state observed by the sensor is selected.
上記の各ライントレーサに5回試行させ、1回の試行はコースを10周するか、又はコースアウトした場合に終了させ、走行性能を比較するために平均ラップタイム(秒)を測定し、ロバスト性を比較するために平均滞在ラップ数を測定した。図8の(c)に示すライントレーサの平均ラップタイムは13.5秒、平均滞在ラップ数は8.4であり、図8の(a)に示すライントレーサの平均ラップタイムは15.6秒、平均滞在ラップ数は4.4であり、図8の(b)に示すライントレーサの平均ラップタイムは16.0秒、平均滞在ラップ数は3.0であり、図1に示すセンサ設計装置により設計されたセンサ形態を有するライントレーサは、走行性能及びロバスト性ともに優れていた。 Each line tracer mentioned above is tried 5 times, and one trial is ended when the course goes 10 laps or out of the course, and the average lap time (seconds) is measured to compare the running performance, and the robustness is improved. The average stay lap number was measured for comparison. The average lap time of the line tracer shown in (c) of FIG. 8 is 13.5 seconds, the average stay lap number is 8.4, and the average lap time of the line tracer shown in (a) of FIG. The number of stay laps is 4.4, the average lap time of the line tracer shown in FIG. 8B is 16.0 seconds, the average stay lap number is 3.0, and is designed by the sensor design apparatus shown in FIG. Further, the line tracer having the sensor form was excellent in both running performance and robustness.
次に、ライントレースにおいて難易度が高いとされる直角コーナーの攻略を例に、上記の各ライントレーサがどのようにセンサ配置を利用しているかについて説明する。 Next, how the above-described line tracers use the sensor arrangement will be described by taking as an example the capture of a right-angled corner that is considered to be difficult in line tracing.
まず、図8の(a)に示すライントレーサは、直角コーナーの直前に存在するクロスラインを合図に用いる方法を採用しており、直角コーナーの直前のクロスラインを読み取ると、直角コーナー突破用のモードに移行し、直角コーナーを専用の制御則を用いて直角コーナーをクリアする。このように、人手によるコントローラでは、クロスラインの後には直角コーナーが存在するというコースに関する設計者の知識を利用することができるため、通常のカーブとは異なる制御則を用いて直角コーナーを突破することができる。 First, the line tracer shown in FIG. 8A employs a method in which a cross line existing immediately before a right corner is used as a signal, and when the cross line immediately before the right corner is read, Go to mode and clear the right corner using a special control law. In this way, the manual controller can use the designer's knowledge of the course that there is a right-angle corner after the cross line, so it breaks through the right-angle corner using a control law different from the normal curve. be able to.
図10は、図8の(c)に示すライントレーサの直角コーナーにおけるセンサ形態の利用方法を説明するための模式図である。図8の(c)に示すライントレーサは、コースに関する設計者の知識を利用できないため、直角コーナーを通常のカーブと同じ制御則を用いてクリアしなければならない。このため、直角コーナーにさしかかると、図10の(a)に示すようにセンサが反応する。これは、左カーブと同じセンサ状態であるため、ライントレーサは、少し左に曲がる。しかしながら、実際にはコースは直角であるため、図10の(b)に示すように、コースから外れそうになる。このとき、4番目のセンサがセンタラインを検出し、ライントレーサは、大きく左折するため、直角コーナーをクリアすることができる。 FIG. 10 is a schematic diagram for explaining how to use the sensor form at the right-angled corner of the line tracer shown in FIG. Since the line tracer shown in FIG. 8C cannot use the designer's knowledge about the course, the right-angled corner must be cleared using the same control law as that of a normal curve. For this reason, when approaching a right-angled corner, the sensor reacts as shown in FIG. Since this is the same sensor state as the left curve, the line tracer turns slightly to the left. However, since the course is actually a right angle, the course is likely to deviate from the course as shown in FIG. At this time, since the fourth sensor detects the center line and the line tracer makes a large left turn, the right-angled corner can be cleared.
一方、図8の(b)に示すライントレーサは、横一列に並んだセンサを有するため、直角コーナーでコースアウトすることが多い。これは、センサが前後に分散していないため、コース上の前後関係を学習できなかったことによると考えられる。 On the other hand, since the line tracer shown in FIG. 8B has sensors arranged in a horizontal row, the line tracer often goes out of course at a right angle corner. This is presumably because the sensors were not distributed back and forth, so that the context on the course could not be learned.
上記のように、図1に示すセンサ設計装置により設計されたライントレーサは、物理世界を適切に観測することにより、人手による設計に比べて、走行性能及びロバスト性に優れるとともに、学習性能にも優れることがわかった。 As described above, the line tracer designed by the sensor design apparatus shown in FIG. 1 is superior in running performance and robustness as compared to manual design by appropriately observing the physical world, and also in learning performance. I found it excellent.
なお、上記の説明では、ライントレーサを一例に説明したが、本発明が適用されるロボットは、この例に特に限定されず、センサを用いるロボットであれば、種々のロボットに適用可能である。 In the above description, the line tracer has been described as an example, but the robot to which the present invention is applied is not particularly limited to this example, and can be applied to various robots as long as the robot uses a sensor.
1 入力部
2 初期世代作成部
3 行動学習部
4 選択部
5 次世代作成部
6 出力部
DESCRIPTION OF
Claims (8)
前記センサの形態を特定するための複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する初期世代作成手段と、
前記初期世代作成手段により作成された複数のロボットに仮想的に学習を行わせ、学習結果を基に各ロボットの適応度を算出する学習手段と、
前記学習手段により算出された各ロボットの適応度を基に親個体となる複数のロボットを選択し、選択した複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する次世代作成手段とを備え、
前記学習手段は、前記次世代作成手段により作成されたロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出し、
前記次世代作成手段及び前記学習手段による処理を所定数繰り返すことによりセンサの形態を決定することを特徴とするセンサ設計装置。 A sensor design device for designing the form of a sensor used for robot behavior learning,
An initial generation creating means for creating a plurality of genotypes for specifying the form of the sensor and virtually creating a plurality of robots having the form of the sensor specified by each genotype;
Learning means for virtually learning a plurality of robots created by the initial generation creating means, and calculating fitness of each robot based on a learning result;
Based on the fitness of each robot calculated by the learning means, select a plurality of robots that are parent individuals, create a next-generation genotype based on a genetic algorithm from the genotypes of the selected plurality of robots, A next generation creation means for virtually creating a plurality of robots having a sensor form specified by the next generation genotype,
The learning means causes the robot created by the next generation creating means to virtually perform learning again, calculates the fitness of each robot based on the learning result,
A sensor design apparatus for determining a sensor form by repeating a predetermined number of processes by the next generation creating means and the learning means.
前記学習手段により算出された各ロボットの適応度を基に、前記複数のロボットの中から学習性能の高い所定数のロボットを親個体として選択するとともに、残りのロボットからトーナメント選択により同数のロボットを親個体として選択する選択手段と、
前記選択手段により選択された親個体の遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを次世代ロボットとして仮想的に作成する作成手段とを備え、
前記学習手段は、前記作成手段により作成された次世代ロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出することを特徴とする請求項1又は2記載のセンサ設計装置。 The next generation creation means is:
Based on the fitness of each robot calculated by the learning means, a predetermined number of robots with high learning performance are selected as parent individuals from the plurality of robots, and the same number of robots are selected by tournament selection from the remaining robots. A selection means for selecting as a parent individual;
A next generation genotype is created from a genotype of a parent individual selected by the selection means based on a genetic algorithm, and a plurality of robots having a sensor form specified by each next generation genotype are used as next generation robots. A creation means for creating virtually,
3. The learning unit according to claim 1, wherein the learning unit virtually causes the next generation robot created by the creating unit to perform learning again, and calculates the fitness of each robot based on the learning result. Sensor design device.
前記初期世代作成手段が、前記センサの形態を特定するための複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する第1のステップと、
前記学習手段が、前記初期世代作成手段により作成された複数のロボットに仮想的に学習を行わせ、学習結果を基に各ロボットの適応度を算出する第2のステップと、
前記次世代作成手段が、前記学習手段により算出された各ロボットの適応度を基に親個体となる複数のロボットを選択し、選択した複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する第3のステップと、
前記学習手段が、前記第3のステップにおいて作成されたロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出する第4のステップとを含み、
前記第3及び第4のステップによる処理を所定数繰り返すことによりセンサの形態を決定することを特徴とするセンサ設計方法。 A sensor design method for designing a form of a sensor used for behavioral learning of a robot using a sensor design apparatus including an initial generation creation means, a learning means, and a next generation creation means,
A first step in which the initial generation creating means creates a plurality of genotypes for specifying the form of the sensor and virtually creates a plurality of robots having the form of the sensor specified by each genotype; ,
A second step in which the learning means virtually causes the plurality of robots created by the initial generation creation means to perform learning, and calculates the fitness of each robot based on the learning results;
The next generation creation means selects a plurality of robots as parent individuals based on the fitness of each robot calculated by the learning means, and generates a next generation based on a genetic algorithm from a genotype of the selected plurality of robots. A third step of creating a genotype and virtually creating a plurality of robots having the form of a sensor specified by each next generation genotype;
The learning means includes a fourth step of causing the robot created in the third step to virtually re-learn and calculating the fitness of each robot based on the learning result;
A sensor design method characterized by determining a sensor form by repeating a predetermined number of processes in the third and fourth steps.
前記センサの形態を特定するための複数の遺伝子型を作成し、各遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する初期世代作成手段と、
前記初期世代作成手段により作成された複数のロボットに仮想的に学習を行わせ、学習結果を基に各ロボットの適応度を算出する学習手段と、
前記学習手段により算出された各ロボットの適応度を基に親個体となる複数のロボットを選択し、選択した複数のロボットの遺伝子型から遺伝的アルゴリズムに基づき次世代の遺伝子型を作成し、各次世代の遺伝子型により特定されるセンサの形態を有する複数のロボットを仮想的に作成する次世代作成手段としてコンピュータを機能させ、
前記学習手段は、前記次世代作成手段により作成されたロボットに仮想的に再度学習を行わせ、学習結果を基に各ロボットの適応度を算出し、
前記次世代作成手段及び前記学習手段による処理を所定数繰り返すことによりセンサの形態を決定することを特徴とするセンサ設計プログラム。 A sensor design program for designing the form of a sensor used for robot behavior learning,
An initial generation creating means for creating a plurality of genotypes for specifying the form of the sensor and virtually creating a plurality of robots having the form of the sensor specified by each genotype;
Learning means for virtually learning a plurality of robots created by the initial generation creating means, and calculating fitness of each robot based on a learning result;
Based on the fitness of each robot calculated by the learning means, select a plurality of robots that are parent individuals, create a next-generation genotype based on a genetic algorithm from the genotypes of the selected plurality of robots, The computer functions as a next generation creation means for virtually creating a plurality of robots having the form of a sensor specified by the next generation genotype,
The learning means causes the robot created by the next generation creating means to virtually perform learning again, calculates the fitness of each robot based on the learning result,
A sensor design program for determining a sensor form by repeating a predetermined number of processes by the next generation creating means and the learning means.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005223343A JP4670007B2 (en) | 2005-08-01 | 2005-08-01 | Sensor design apparatus, sensor design method, sensor design program, and robot |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005223343A JP4670007B2 (en) | 2005-08-01 | 2005-08-01 | Sensor design apparatus, sensor design method, sensor design program, and robot |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007041723A true JP2007041723A (en) | 2007-02-15 |
JP4670007B2 JP4670007B2 (en) | 2011-04-13 |
Family
ID=37799662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005223343A Expired - Fee Related JP4670007B2 (en) | 2005-08-01 | 2005-08-01 | Sensor design apparatus, sensor design method, sensor design program, and robot |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4670007B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022550122A (en) * | 2019-10-24 | 2022-11-30 | ネイバー コーポレーション | Autonomous Driving Optimization Method and System Based on Reinforcement Learning Based on User Preference |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003531425A (en) * | 2000-04-13 | 2003-10-21 | ハネウェル・インターナショナル・インコーポレーテッド | Sensor position and control design for distributed parameter systems |
JP2003326482A (en) * | 2002-04-30 | 2003-11-18 | Japan Science & Technology Corp | Method of designing bipedal robot and bipedal robot |
-
2005
- 2005-08-01 JP JP2005223343A patent/JP4670007B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003531425A (en) * | 2000-04-13 | 2003-10-21 | ハネウェル・インターナショナル・インコーポレーテッド | Sensor position and control design for distributed parameter systems |
JP2003326482A (en) * | 2002-04-30 | 2003-11-18 | Japan Science & Technology Corp | Method of designing bipedal robot and bipedal robot |
Non-Patent Citations (1)
Title |
---|
CSNG200501273013, 亀井 圭史, "遺伝的アルゴリズムによる移動ロボットの強化学習パラメータ最適化", 電子情報通信学会技術研究報告, 20050322, Vol.104 No.759, 119〜124頁, JP * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022550122A (en) * | 2019-10-24 | 2022-11-30 | ネイバー コーポレーション | Autonomous Driving Optimization Method and System Based on Reinforcement Learning Based on User Preference |
JP7459238B2 (en) | 2019-10-24 | 2024-04-01 | ネイバー コーポレーション | Autonomous driving optimization method and system based on reinforcement learning based on user preferences |
Also Published As
Publication number | Publication date |
---|---|
JP4670007B2 (en) | 2011-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silva et al. | Open issues in evolutionary robotics | |
Wang et al. | Learning to navigate through complex dynamic environment with modular deep reinforcement learning | |
US11429854B2 (en) | Method and device for a computerized mechanical device | |
JP6744208B2 (en) | Control device and control method | |
Doncieux et al. | Beyond black-box optimization: a review of selective pressures for evolutionary robotics | |
JP3211186B2 (en) | Robot, robot system, robot learning method, robot system learning method, and recording medium | |
JP2007504576A (en) | System and method for developing artificial intelligence | |
CN109492763A (en) | A kind of automatic parking method based on intensified learning network training | |
KR20200072592A (en) | Learning framework setting method for robot and digital control device | |
JP2021107970A (en) | Training data selection device, robot system and training data selection method | |
CN107213629B (en) | Behavior modeling using construction toy | |
Gu et al. | GA-based learning in behaviour based robotics | |
JP4670007B2 (en) | Sensor design apparatus, sensor design method, sensor design program, and robot | |
Bayindir et al. | Modeling self-organized aggregation in swarm robotic systems | |
Hilleli et al. | Toward deep reinforcement learning without a simulator: An autonomous steering example | |
JP3905413B2 (en) | Robot equipment | |
JP2008090606A (en) | Agent controller and computer program | |
Stulp et al. | Combining declarative, procedural, and predictive knowledge to generate, execute, and optimize robot plans | |
Nelson et al. | Using direct competition to select for competent controllers in evolutionary robotics | |
Hossain | Autonomous Driving with Deep Reinforcement Learning in CARLA Simulation | |
CN113341945A (en) | Method and apparatus for controlling robot | |
WO2022190304A1 (en) | Control device, learning device, inference device, control system, control method, learning method, inference method, control program, learning program, and inference program | |
Sugiura et al. | Exploiting interaction between sensory morphology and learning | |
WO2019055567A1 (en) | Detecting and correcting anomalies in computer-based reasoning systems | |
Hao et al. | Masked imitation learning: Discovering environment-invariant modalities in multimodal demonstrations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080327 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100810 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100929 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101207 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101222 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4670007 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |