JP7237891B2 - LEARNING EXECUTION DEVICE, PROGRAM, AND LEARNING EXECUTION METHOD - Google Patents

LEARNING EXECUTION DEVICE, PROGRAM, AND LEARNING EXECUTION METHOD Download PDF

Info

Publication number
JP7237891B2
JP7237891B2 JP2020121597A JP2020121597A JP7237891B2 JP 7237891 B2 JP7237891 B2 JP 7237891B2 JP 2020121597 A JP2020121597 A JP 2020121597A JP 2020121597 A JP2020121597 A JP 2020121597A JP 7237891 B2 JP7237891 B2 JP 7237891B2
Authority
JP
Japan
Prior art keywords
muscle
learning
learning execution
firing
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020121597A
Other languages
Japanese (ja)
Other versions
JP2022018477A (en
Inventor
裕子 石若
智博 吉田
忠輝 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SoftBank Corp
Original Assignee
SoftBank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Corp filed Critical SoftBank Corp
Priority to JP2020121597A priority Critical patent/JP7237891B2/en
Publication of JP2022018477A publication Critical patent/JP2022018477A/en
Priority to JP2023031277A priority patent/JP7379742B2/en
Application granted granted Critical
Publication of JP7237891B2 publication Critical patent/JP7237891B2/en
Priority to JP2023098585A priority patent/JP7379750B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Manipulator (AREA)
  • Processing Or Creating Images (AREA)

Description

本発明は、学習実行装置、プログラム、及び学習実行方法に関する。 The present invention relates to a learning execution device, program, and learning execution method.

CG(Computer Graphics)の分野において、筋収縮に基づくシミュレーション手法が知られていた(例えば、非特許文献1~非特許文献6、参照)。従来のシミュレーション手法では、いわゆるヒルタイプモデル及びいわゆるCPG(Central Pattern Generator)等が用いられていた。
[先行技術文献]
[非特許文献]
[非特許文献1]Thomas Geitenbeek, Michiel van de Panne, A. F. v. d. s. Flexible muscle-based locomotion for bipedal creatures. ACM Transactions on Graphics, (206), 2013.
[非特許文献2]Jack M.Wang, Samuel R.Hmner, S. L. V. K. Optimizing locomotion controllers using biologically-based actuators and objectives. ACM Trans. Graph, 31(4), 2012.
[非特許文献3]Yoonsang Lee, Moon Seok Park, T. K. J. L. Locomotion control for many-muscle humanoids. ACM Transactions on Graphics, 33(6), 2014.
[非特許文献4]Sehee Min, Jungdam Won, S. L. J. P. J. L. Softcon: simulation and control of soft-bodied animals with biomimetic actuators. ACM Transactions on Graphics, 38(6):208:1-208:12, 2019.
[非特許文献5]Cecila Laschi, Matteo Cianchetti, B. M. L. m. M. F. P. D. Soft robot arm inspired by the octopus. Advanced Robotics, 26(7):709-727, 2012.
[非特許文献6]Jungdam Won, Jongho Park, K. K. J. L. How to train your dragon: Example-guided control of flapping flight. ACM Transactions on Graphics, 36(4):1:1-1:12, 2017.
In the field of CG (Computer Graphics), simulation techniques based on muscle contraction have been known (see, for example, Non-Patent Documents 1 to 6). In conventional simulation methods, a so-called Hill-type model, a so-called CPG (Central Pattern Generator), and the like have been used.
[Prior art documents]
[Non-Patent Literature]
[Non-Patent Document 1] Thomas Geitenbeek, Michiel van de Panne, AF vds Flexible muscle-based locomotion for bipedal creatures. ACM Transactions on Graphics, (206), 2013.
[Non-Patent Document 2] Jack M. Wang, Samuel R. Hmner, SLVK Optimizing locomotion controllers using biologically-based actuators and objectives. ACM Trans. Graph, 31(4), 2012.
[Non-Patent Document 3] Yoonsang Lee, Moon Seok Park, TKJL Locomotion control for many-muscle humanoids. ACM Transactions on Graphics, 33(6), 2014.
[Non-Patent Document 4] Sehee Min, Jungdam Won, SLJPJL Softcon: simulation and control of soft-bodied animals with biomimetic actuators. ACM Transactions on Graphics, 38(6):208:1-208:12, 2019.
[Non-Patent Document 5] Cecila Laschi, Matteo Cianchetti, BML m. MFPD Soft robot arm inspired by the octopus. Advanced Robotics, 26(7):709-727, 2012.
[Non-Patent Document 6] Jungdam Won, Jongho Park, KKJL How to train your dragon: Example-guided control of flapping flight. ACM Transactions on Graphics, 36(4):1:1-1:12, 2017.

本発明の第1の態様によれば、学習実行装置が提供される。学習実行装置は、それぞれに運動単位が接続された複数の介在ニューロンの発火パターンに従って、運動単位に含まれる運動ニューロンに接続された筋繊維を収縮させることによって筋肉を動作させる筋肉モデルを格納する格納部を備えてよい。学習実行装置は、筋肉モデルの目標動作を設定する動作設定部を備えてよい。学習実行装置は、発火パターンを学習する学習実行部であって、複数の発火パターンのうち、筋肉モデルの動作が目標動作により近い発火パターンに報酬を与える学習を実行することによって、目標動作を実現する発火パターンを学習する学習実行部を備えてよい。 According to a first aspect of the present invention, a learning execution device is provided. The learning execution device stores a muscle model that operates the muscle by contracting muscle fibers connected to the motor neurons included in the motor units according to the firing pattern of a plurality of interneurons to which the motor units are connected respectively. You may have a department. The learning execution device may include a motion setting unit that sets a target motion of the muscle model. The learning execution device is a learning execution unit that learns firing patterns, and implements a target motion by executing learning that rewards firing patterns in which the motion of the muscle model is closer to the target motion, among a plurality of firing patterns. A learning execution unit that learns the firing pattern to be used may be provided.

上記学習実行部は、上記複数の発火パターンのそれぞれに従って上記筋肉モデルを動作させ、上記筋肉モデルの動作が上記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させ、当該複数の発火パターンのそれぞれに従って上記筋肉モデルを動作させ、上記筋肉モデルの動作が上記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させることを繰り返すことによって、上記目標動作を実現する発火パターンを学習してよい。上記学習実行部は、ランダムに発生させた上記複数の発火パターンのそれぞれに従って上記筋肉モデルを動作させ、上記筋肉モデルの動作が上記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させ、当該複数の発火パターンのそれぞれに従って上記筋肉モデルを動作させ、上記筋肉モデルの動作が上記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させることを繰り返すことによって、上記目標動作を実現する発火パターンを学習してよい。上記学習実行部は、学習済みの発火パターンに基づいて発生させた上記複数の発火パターンのそれぞれに従って上記筋肉モデルを動作させ、上記筋肉モデルの動作が上記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させ、当該複数の発火パターンのそれぞれに従って上記筋肉モデルを動作させ、上記筋肉モデルの動作が上記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させることを繰り返すことによって、上記目標動作を実現する発火パターンを学習してよい。上記学習実行部は、上記発火パターンに基づいて上記筋肉モデルを動作させた場合に、上記筋繊維を収縮させた上記運動単位を成長させてよい。上記筋肉モデルは、速筋の運動単位と、遅筋の運動単位とを含んでよく、上記学習実行部は、上記発火パターンに基づいて上記筋肉モデルを動作させた場合に、上記速筋の運動単位と上記遅筋の運動単位とを異なる基準に従って成長させてよい。上記情報格納部は、上記運動単位に対して、速筋であるか遅筋であるかを示す第1パラメータと、収縮可能なエネルギーを示す第2パラメータと、上記第2パラメータの最大値と、自己回復力を示す第3パラメータと、上記第3パラメータの最大値とを格納してよく、上記学習実行部は、上記第1パラメータ、上記第2パラメータ、上記第2パラメータの最大値、上記第3パラメータ、及び上記第3パラメータの最大値を用いた学習を実行してよい。上記学習実行部は、上記運動単位が収縮する毎に上記第2パラメータから予め定められた値を減算し、上記第3パラメータが0でない間は、時間経過に伴って上記第2パラメータを回復させてよい。上記情報格納部は、上記運動単位が速筋である場合に、上記運動単位が収縮する毎に消費されるエネルギー量を示す第4パラメータを格納し、上記学習実行部は、上記第1パラメータ、上記第2パラメータ、上記第2パラメータの最大値、上記第3パラメータ、上記第3パラメータの最大値、及び上記第4パラメータを用いた学習を実行してよい。上記学習実行部は、上記運動単位が速筋である場合には、上記運動単位が収縮する毎に上記第2パラメータから上記第4パラメータの値を減算し、上記運動単位が遅筋である場合には、上記運動単位が収縮する毎に上記第2パラメータから上記第4パラメータの値以外の値を減算してよい。上記学習実行部は、上記筋繊維が損傷したと判定した後、上記筋繊維が回復したと判定した場合に、上記運動単位が速筋である場合には、上記第2パラメータの最大値及び上記第4パラメータの値を増加させ、上記運動単位が遅筋である場合には、上記第3パラメータの最大値を増加させてよい。上記学習実行部は、上記筋繊維が損傷したと判定した後、上記筋繊維が回復したと判定した場合において、上記運動単位が速筋である場合、上記第3パラメータの最大値は増大させなくてよい。上記学習実行部は、上記筋繊維が損傷したと判定した後、上記筋繊維が回復したと判定した場合において、上記運動単位が遅筋である場合、上記第2パラメータの最大値は増大させなくてよい。上記学習実行部は、上記第2パラメータが0になった場合に、上記筋繊維が損傷したと判定してよい。上記情報格納部は、上記運動単位に対して、上記運動単位の使用に関連する第5パラメータを格納してよく、上記学習実行部は、上記第5パラメータの増加に伴って上記運動単位のレベルを向上させ、上記運動単位のレベルが高いほど、上記運動単位が速筋である場合の上記第2パラメータの最大値及び上記第4パラメータの値を増加しにくくし、上記運動単位が遅筋である場合の上記第3パラメータの最大値を増加しにくくしてよい。上記学習実行部は、一の運動単位を収縮させた後、予め定められた不応期を経過するまで、当該一の運動単位が収縮できないようにして、上記発火パターンを学習してよい。上記学習実行部は、上記運動単位の温度が高いほど上記不応期を短くして、上記発火パターンを学習してよい。上記学習実行部は、時系列の上記複数の発火パターンに従って動作させた上記筋肉モデルの動作が上記目標動作を達成した場合に、上記目標動作を達成した状態の発火パターンから予め定められた時間遡った状態の発火パターンを更新することによって、上記学習を実行してよい。 The learning execution unit operates the muscle model according to each of the plurality of firing patterns, generates a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, and generates the plurality of firing patterns. and repeatedly generating a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, thereby learning the firing pattern that realizes the target motion. you can The learning execution unit operates the muscle model according to each of the plurality of randomly generated firing patterns, generates a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, The target motion is realized by operating the muscle model according to each of the plurality of firing patterns and repeatedly generating a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion. Firing patterns may be learned. The learning execution unit operates the muscle model according to each of the plurality of firing patterns generated based on the learned firing pattern, and operates the muscle model based on the firing pattern closer to the target motion. Generating a firing pattern, operating the muscle model according to each of the plurality of firing patterns, and repeatedly generating a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, A firing pattern that achieves the above target operation may be learned. The learning execution unit may cause the motor unit that contracted the muscle fiber to grow when the muscle model is operated based on the firing pattern. The muscle model may include a fast-twitch motor unit and a slow-twitch motor unit. When the muscle model is operated based on the firing pattern, the learning execution unit performs the fast-twitch motor unit. Units and motor units of the slow twitch muscle may be grown according to different criteria. The information storage unit stores a first parameter indicating whether the motor unit is fast-twitch or slow-twitch, a second parameter indicating contractile energy, a maximum value of the second parameter, and A third parameter indicating self-resilience and the maximum value of the third parameter may be stored, and the learning execution unit stores the first parameter, the second parameter, the maximum value of the second parameter, the Learning using three parameters and the maximum value of the third parameter may be performed. The learning execution unit subtracts a predetermined value from the second parameter each time the motor unit contracts, and recovers the second parameter over time while the third parameter is not 0. you can The information storage unit stores a fourth parameter indicating an amount of energy consumed each time the motor unit contracts when the motor unit is a fast-twitch muscle, and the learning execution unit stores the first parameter, Learning may be performed using the second parameter, the maximum value of the second parameter, the third parameter, the maximum value of the third parameter, and the fourth parameter. The learning execution unit subtracts the value of the fourth parameter from the second parameter each time the motor unit contracts if the motor unit is a fast-twitch muscle, and if the motor unit is a slow-twitch muscle, , a value other than the value of the fourth parameter may be subtracted from the second parameter each time the motor unit contracts. When the learning execution unit determines that the muscle fiber has recovered after determining that the muscle fiber has been damaged, if the motor unit is a fast-twitch muscle, the maximum value of the second parameter and the The value of the fourth parameter may be increased, and the maximum value of the third parameter may be increased if the motor unit is a slow twitch muscle. After determining that the muscle fiber is damaged, the learning execution unit determines that the muscle fiber has recovered, and if the motor unit is a fast-twitch muscle, the maximum value of the third parameter is not increased. you can After determining that the muscle fiber has been damaged, the learning execution unit determines that the muscle fiber has recovered, and if the motor unit is a slow twitch muscle, the maximum value of the second parameter is not increased. you can The learning execution unit may determine that the muscle fiber is damaged when the second parameter becomes zero. The information storage unit may store, for the motor unit, a fifth parameter related to the use of the motor unit, and the learning execution unit controls the level of the motor unit as the fifth parameter increases. is improved, the higher the level of the motor unit, the more difficult it is to increase the maximum value of the second parameter and the value of the fourth parameter when the motor unit is fast-twitch, and the motor unit is slow-twitch. It may be difficult to increase the maximum value of the third parameter in some cases. After contracting one motor unit, the learning execution unit may learn the firing pattern by preventing the one motor unit from contracting until a predetermined refractory period elapses. The learning execution unit may learn the firing pattern by shortening the refractory period as the temperature of the motor unit increases. When the motion of the muscle model that is operated according to the plurality of time-series firing patterns achieves the target motion, the learning execution unit traces back a predetermined time from the firing pattern in which the target motion was achieved. The learning may be performed by updating the firing patterns in the state of

本発明の第2の態様によれば、学習実行装置が提供される。学習実行装置は、筋肉に含まれる複数の筋繊維のそれぞれに対して、筋繊維が速筋であるか遅筋であるかを示す第1パラメータと、収縮可能なエネルギーを示す第2パラメータと、第2パラメータの最大値と、自己回復力を示す第3パラメータと、第3パラメータの最大値とを格納する情報格納部を備えてよい。学習実行装置は、上記第1パラメータ、上記第2パラメータ、上記第2パラメータの最大値、上記第3パラメータ、及び上記第3パラメータの最大値を用いた学習を実行することによって、筋肉のモデルを学習する学習実行部を備えてよい。 According to a second aspect of the present invention, a learning execution device is provided. The learning execution device provides, for each of a plurality of muscle fibers included in a muscle, a first parameter indicating whether the muscle fiber is fast-twitch or slow-twitch, a second parameter indicating contractile energy, and You may provide the information storage part which stores the maximum value of a 2nd parameter, the 3rd parameter which shows self-healing power, and the maximum value of a 3rd parameter. The learning execution device executes learning using the first parameter, the second parameter, the maximum value of the second parameter, the third parameter, and the maximum value of the third parameter, thereby forming a muscle model. A learning execution unit for learning may be provided.

上記情報格納部は、上記筋繊維が速筋である場合に、上記筋繊維が収縮する毎に消費されるエネルギー量を示す第4パラメータを格納してよく、上記学習実行部は、上記第1パラメータ、上記第2パラメータ、上記第2パラメータの最大値、上記第3パラメータ、上記第3パラメータの最大値、及び上記第4パラメータを用いた学習を実行してよい。上記学習実行部は、上記筋繊維が収縮する毎に上記第2パラメータから予め定められた値を減算し、上記第3パラメータが0でない間は、時間経過に伴って上記第2パラメータを回復させ、上記筋繊維が損傷したと判定した後、上記筋繊維が回復したと判定した場合に、上記筋繊維が速筋である場合には、上記第2パラメータの最大値及び上記第4パラメータの値を増加させ、上記筋繊維が遅筋である場合には、上記第3パラメータの最大値を増加させることによって、上記筋肉のモデルを学習してよい。上記学習実行部は、上記筋繊維が速筋である場合には、上記筋繊維が収縮する毎に上記第2パラメータから上記第4パラメータの値を減算し、上記筋繊維が遅筋である場合には、上記筋繊維が収縮する毎に上記第2パラメータから上記第4パラメータの値以外の値を減算してよい。上記学習実行部は、上記筋繊維が損傷したと判定した後、上記筋繊維が回復したと判定した場合において、上記筋繊維が速筋である場合、上記第3パラメータの最大値は増大させなくてよい。上記学習実行部は、上記筋繊維が損傷したと判定した後、上記筋繊維が回復したと判定した場合において、上記筋繊維が遅筋である場合、上記第2パラメータの最大値は増大させなくてよい。 The information storage unit may store a fourth parameter indicating an amount of energy consumed each time the muscle fiber contracts when the muscle fiber is a fast-twitch muscle fiber, and the learning execution unit stores the first Learning using the parameter, the second parameter, the maximum value of the second parameter, the third parameter, the maximum value of the third parameter, and the fourth parameter may be performed. The learning execution unit subtracts a predetermined value from the second parameter each time the muscle fiber contracts, and restores the second parameter over time while the third parameter is not 0. , when it is determined that the muscle fiber has recovered after determining that the muscle fiber is damaged, and if the muscle fiber is a fast-twitch, the maximum value of the second parameter and the value of the fourth parameter and if the muscle fiber is slow twitch, the muscle model may be learned by increasing the maximum value of the third parameter. The learning execution unit subtracts the value of the fourth parameter from the second parameter each time the muscle fiber contracts when the muscle fiber is a fast-twitch muscle fiber, and subtracts the value of the fourth parameter from the second parameter each time the muscle fiber contracts. , a value other than the value of the fourth parameter may be subtracted from the second parameter each time the muscle fiber contracts. After determining that the muscle fiber is damaged, the learning execution unit determines that the muscle fiber has recovered, and if the muscle fiber is a fast-twitch muscle fiber, does not increase the maximum value of the third parameter. you can After determining that the muscle fiber has been damaged, the learning execution unit determines that the muscle fiber has recovered, and if the muscle fiber is slow twitch, the maximum value of the second parameter is not increased. you can

本発明の第3の態様によれば、コンピュータを、上記学習実行装置として機能させるためのプログラムが提供される。 According to a third aspect of the present invention, there is provided a program for causing a computer to function as the learning execution device.

本発明の第4の態様によれば、コンピュータによって実行される学習実行方法が提供される。学習実行方法は、それぞれに運動単位が接続された複数の介在ニューロンの発火パターンに従って、運動単位に含まれる運動ニューロンに接続された筋繊維を収縮させることによって筋肉を動作させる筋肉モデルの目標動作を設定する動作設定ステップを備えてよい。学習実行方法は、複数の発火パターンのうち、筋肉モデルの動作が目標動作により近い発火パターンに報酬を与える学習を実行することによって、目標動作を実現する発火パターンを学習する学習実行ステップを備えてよい。 According to a fourth aspect of the present invention, there is provided a computer-implemented learning execution method. In the learning execution method, according to the firing pattern of multiple interneurons, each of which is connected to a motor unit, the muscle fibers connected to the motor neurons included in the motor unit are contracted to move the muscle, thereby achieving the target motion of the muscle model. An operation setting step for setting may be provided. The learning execution method includes a learning execution step of learning a firing pattern that realizes a target motion by performing learning that rewards a firing pattern, among a plurality of firing patterns, in which the motion of the muscle model is closer to the target motion. good.

本発明の第5の態様によれば、コンピュータによって実行される学習実行方法が提供される。学習実行方法は、筋肉に含まれる複数の筋繊維のそれぞれに対して、筋繊維が速筋であるか遅筋であるかを示す第1パラメータと、収縮可能なエネルギーを示す第2パラメータと、第2パラメータの最大値と、自己回復力を示す第3パラメータと、第3パラメータの最大値とを格納する格納ステップを備えてよい。学習実行方法は、第1パラメータ、第2パラメータ、第2パラメータの最大値、第3パラメータ、及び第3パラメータの最大値を用いた学習を実行することによって、筋肉のモデルを学習する学習実行ステップを備えてよい。 According to a fifth aspect of the present invention, there is provided a computer-implemented learning execution method. In the learning execution method, for each of a plurality of muscle fibers included in a muscle, a first parameter indicating whether the muscle fiber is fast-twitch or slow-twitch, a second parameter indicating energy that can be contracted, A storage step may be provided for storing a maximum value of the second parameter, a third parameter indicative of self-healing power, and the maximum value of the third parameter. The learning execution method includes a learning execution step of learning a muscle model by executing learning using a first parameter, a second parameter, a maximum value of the second parameter, a third parameter, and a maximum value of the third parameter. may be provided.

なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではない。また、これらの特徴群のサブコンビネーションもまた、発明となりうる。 It should be noted that the above summary of the invention does not list all the necessary features of the invention. Subcombinations of these feature groups can also be inventions.

学習実行装置100の一例を概略的に示す。An example of the learning execution device 100 is shown schematically. 筋肉モデル300の一例を概略的に示す。An example of a muscle model 300 is shown schematically. 発火パターン400の一例を概略的に示す。An example firing pattern 400 is schematically shown. 学習実行装置100の機能構成の一例を概略的に示す。An example of the functional configuration of the learning execution device 100 is shown schematically. 筋肉モデル300の具体例を概略的に示す。A specific example of a muscle model 300 is shown schematically. 学習実行装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。1 schematically shows an example of a hardware configuration of a computer 1200 functioning as a learning execution device 100. FIG.

以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではない。また、実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。 Hereinafter, the present invention will be described through embodiments of the invention, but the following embodiments do not limit the invention according to the claims. Also, not all combinations of features described in the embodiments are essential for the solution of the invention.

図1は、学習実行装置100の一例を概略的に示す。学習実行装置100は、筋肉の動きをモデル化した筋肉モデルに目標動作を実行させるための学習を実行する。 FIG. 1 schematically shows an example of a learning execution device 100. As shown in FIG. The learning execution device 100 performs learning for causing a muscle model, which is a model of muscle motion, to perform a target motion.

筋肉モデルは、例えば、人の一部の筋肉に対応する。筋肉モデルは、人の全部の筋肉に対応してもよい。筋肉モデルは、人に限らず、筋肉を有する任意の生物に対応してもよい。また、筋肉モデルは、CGのキャラクタ等に対応してもよい。 A muscle model corresponds, for example, to some muscles of a person. A muscle model may correspond to all muscles of a person. The muscle model is not limited to humans, and may correspond to any organism having muscles. Also, the muscle model may correspond to a CG character or the like.

本実施形態に係る学習実行装置100は、例えば、それぞれに運動単位が接続された複数の介在ニューロンの発火パターンに従って、運動単位に含まれる運動ニューロンに接続された筋繊維を収縮させることによって筋肉を動作させる筋肉モデルを格納する。介在ニューロンは、インターニューロンと呼ばれる場合もある。運動ニューロンは、モーターニューロンと呼ばれる場合もある。運動単位は、モーターユニットと呼ばれる場合もある。 For example, the learning execution device 100 according to the present embodiment contracts muscle fibers connected to motor neurons included in motor units according to firing patterns of a plurality of interneurons each connected to a motor unit, thereby contracting muscles. Stores the muscle model to operate. Interneurons are sometimes called interneurons. Motor neurons are sometimes called motor neurons. Motor units are sometimes called motor units.

学習実行装置100は、筋肉モデルが目標動作を実現する発火パターンを学習する。学習実行装置100は、例えば、ランダムに発生させた複数の発火パターンのうち、筋肉モデルの動作が目標動作に近い発火パターンに報酬を与える学習を実行することによって、発火パターンを学習する。 The learning execution device 100 learns a firing pattern that allows a muscle model to achieve a target motion. The learning execution device 100 learns firing patterns by, for example, performing learning that rewards firing patterns in which the motion of the muscle model is close to the target motion among a plurality of randomly generated firing patterns.

従来の筋収縮に基づくシミュレーション手法として、ヒルタイプモデル及びCPG等が知られている。従来手法では、パラメータを人手で設定して運動をシミュレーションしていた。従来手法では、筋肉モデルに異なる動作を実行させようとした場合に、すべて人手でパラメータを設定する必要があった。それに対して、本実施形態に係る学習実行装置100によれば、目標動作を実現可能な発火パターンを自動的に学習できるので、動作の種類毎に個別にパラメータを設定する必要をなくすことができる。 Hill-type models, CPG, and the like are known as simulation methods based on conventional muscle contraction. In the conventional method, the parameters were set manually to simulate motion. In the conventional method, it was necessary to manually set the parameters when trying to make the muscle model perform different motions. On the other hand, according to the learning execution device 100 according to the present embodiment, it is possible to automatically learn a firing pattern that can realize a target motion, so it is possible to eliminate the need to set parameters individually for each type of motion. .

学習実行装置100は、学習を進める中で、発火パターンに基づいて筋肉モデルを動作させた場合に、筋肉モデルの筋肉を成長させてもよい。学習実行装置100は、例えば、発火パターンに基づいて筋肉モデルを動作させた場合に、筋繊維を収縮させた運動単位を成長させる。従来手法においては、パラメータの設定次第では、実際の筋肉の動きとは異なる動きを実現してしまう場合があった。それに対して、本実施形態に係る学習実行装置100は、筋肉の成長をも考慮することによって、よりリアルな動きを実現可能にできる。 The learning execution device 100 may cause the muscles of the muscle model to grow when the muscle model is operated based on the firing pattern while learning is progressing. For example, when the muscle model is operated based on the firing pattern, the learning execution device 100 grows motor units that contract muscle fibers. In the conventional method, depending on the parameter settings, there were cases where movements different from the actual movements of the muscles were realized. On the other hand, the learning execution device 100 according to the present embodiment can realize more realistic movements by also considering muscle growth.

学習実行装置100は、様々な分野に適用されてよい。学習実行装置100は、例えば、CGのキャラクタに任意の動作を実現させる発火パターンを学習し、任意の動作を実行するキャラクタのCGアニメーションを生成する。 The learning execution device 100 may be applied to various fields. The learning execution device 100, for example, learns a firing pattern that causes a CG character to perform an arbitrary action, and generates a CG animation of the character performing the arbitrary action.

従来は、キャラクタに任意の動作を実行させるためにアニメーションを作り込む必要があったが、本実施形態に係る学習実行装置100によれば、例えば、筋肉モデルの筋肉を成長させつつ、目標動作を実行するように介在ニューロンの発火パターンを学習することによって、自動的に任意の動作を実行するキャラクタのCGアニメーションを生成することができる。例えば、目標動作としてダンスの動作を設定すると、キャラクタが当該ダンスを実行するCGアニメーションを自動的に生成することができる。本実施形態に係る学習実行装置100によれば、介在ニューロンからの発火パターンを学習し、実際の生物と同じ制御系統の動きを実現することによって、リアルな動きを実現することができる。 Conventionally, it was necessary to create an animation for a character to perform an arbitrary motion. By learning the firing patterns of interneurons to perform, it is possible to generate CG animation of characters that automatically perform arbitrary actions. For example, if a dance motion is set as a target motion, a CG animation of a character performing the dance can be automatically generated. According to the learning execution device 100 according to the present embodiment, it is possible to realize realistic movements by learning firing patterns from interneurons and realizing the same control system movements as those of actual living things.

また、従来技術では、例えば、8頭身の人間のダンスの動きを、3頭身のキャラクタに実行させるような場合に、動きの対応がとれずに不自然な動きになってしまう場合があった。それに対して、本実施形態に係る学習実行装置100によれば、3頭身のキャラクタの筋肉の構造及び成長を考慮した学習を実行することによって、3頭身のキャラクタに、自然な動きを実現させることができる。 Further, in the conventional technique, for example, when a character with a three-headed body is to perform a dance movement of an eight-headed human, there are cases where the movements do not correspond to each other, resulting in an unnatural movement. rice field. On the other hand, according to the learning execution device 100 according to the present embodiment, by executing learning in consideration of the muscle structure and growth of the three-headed character, natural movements are realized for the three-headed character. can be made

学習実行装置100は、例えば、生成したCGアニメーションを、学習実行装置100が備えるディスプレイに表示させる。また、学習実行装置100は、例えば、生成したCGアニメーションを、ネットワーク20を介して通信端末200に送信することによって、通信端末200に表示させてもよい。 The learning execution device 100 displays, for example, the generated CG animation on a display provided in the learning execution device 100. FIG. Further, the learning execution device 100 may cause the communication terminal 200 to display the generated CG animation by transmitting it to the communication terminal 200 via the network 20, for example.

通信端末200は、PC(Personal Computer)、タブレット端末、及びスマートフォン等であってよい。学習実行装置100と通信端末200とは、ネットワーク20を介して通信してよい。ネットワーク20は、インターネットを含んでよい。ネットワーク20は、LAN(Local Area Network)を含んでよい。ネットワーク20は、移動体通信ネットワークを含んでよい。移動体通信ネットワークは、3G(3rd Generation)通信方式、LTE(Long Term Evolution)通信方式、5G(5th Generation)通信方式、及び6G(6th Generation)通信方式以降の通信方式のいずれに準拠していてもよい。 The communication terminal 200 may be a PC (Personal Computer), a tablet terminal, a smart phone, or the like. Learning execution device 100 and communication terminal 200 may communicate via network 20 . Network 20 may include the Internet. The network 20 may include a LAN (Local Area Network). Network 20 may include a mobile communication network. The mobile communication network complies with any of the 3G (3rd Generation) communication method, the LTE (Long Term Evolution) communication method, the 5G (5th Generation) communication method, and the communication method after the 6G (6th Generation) communication method. good too.

また、学習実行装置100は、例えば、リハビリテーションの分野に適用されてもよい。学習実行装置100は、例えば、歩行のリハビリを実施する実施者の筋肉モデルを登録するとともに、目標動作として歩行を登録する。そして、介在ニューロンの発火パターンのン学習を進め、歩行ができるようになるまでの動作及び筋肉の成長を記録する。これにより、歩行ができるようになるまでの適切な動作を模索することができる。 Also, the learning execution device 100 may be applied to, for example, the field of rehabilitation. The learning execution device 100 registers, for example, a muscle model of a person who performs walking rehabilitation, and also registers walking as a target motion. Then, the learning of the interneuron firing pattern is advanced, and the movements and muscle growth until the animal is able to walk are recorded. As a result, it is possible to search for an appropriate motion until walking becomes possible.

また、学習実行装置100は、例えば、スポーツ科学の分野に適用されてもよい。学習実行装置100は、例えば、スポーツ選手の筋肉モデルを登録するとともに、目標動作として、理想的なフォーム等を登録する。そして、介在ニューロンの発火パターンのン学習を進め、理想的なフォームが身に着くまでの動作及び筋肉の成長を記録する。これにより、トレーニングの方法を模索することができる。 Also, the learning execution device 100 may be applied to, for example, the field of sports science. The learning execution device 100 registers, for example, a muscle model of an athlete, and also registers an ideal form or the like as a target motion. Then, the learning of the interneuron firing pattern is advanced, and the movement and muscle growth until the ideal form is acquired are recorded. This allows you to explore training methods.

なお、学習実行装置100は、介在ニューロンの発火パターンに従って筋肉を動作させる筋肉モデル以外の筋肉モデルに対して、筋肉の成長を適用してもよい。例えば、学習実行装置100は、ヒルタイプモデルに基づく筋肉モデルに対して、筋肉の成長を適用する。また、例えば、学習実行装置100は、CPGを用いた筋肉モデルに対して、筋肉の成長を適用する。また、例えば、学習実行装置100は、DQNを用いた筋肉モデルに対して、筋肉の成長を適用する。学習実行装置100は、その他、任意の既存のモデルに対して、筋肉の成長を適用してもよい。 Note that learning execution device 100 may apply muscle growth to a muscle model other than a muscle model that operates muscles according to the firing pattern of interneurons. For example, the learning execution device 100 applies muscle growth to a muscle model based on a Hill-type model. Also, for example, the learning execution device 100 applies muscle growth to a muscle model using CPG. Also, for example, the learning execution device 100 applies muscle growth to a muscle model using DQN. The learning execution device 100 may also apply muscle growth to any existing model.

図2は、筋肉モデル300の一例を概略的に示す。筋肉モデル300は、脊髄310内の複数の介在ニューロン320と、複数の介在ニューロン320のそれぞれに接続された複数の運動単位330とを含む。1つの運動単位330には、運動ニューロン340と、運動ニューロン340に接続された筋繊維350とが含まれる。1つの運動ニューロン340には、複数の筋繊維350が接続される。 FIG. 2 schematically shows an example of muscle model 300 . Muscle model 300 includes a plurality of interneurons 320 within spinal cord 310 and a plurality of motor units 330 connected to each of the plurality of interneurons 320 . A single motor unit 330 includes a motor neuron 340 and a muscle fiber 350 connected to the motor neuron 340 . A plurality of muscle fibers 350 are connected to one motor neuron 340 .

図3は、発火パターン400の一例を概略的に示す。発火パターン400は、複数の介在ニューロン320の時系列のオン402及びオフ404を示す。筋肉モデル300に対して、発火パターン400を適用することによって、介在ニューロン320から各運動単位330に対して時系列で信号が入力され、オン402に従って、運動単位330の筋繊維350が収縮する。これにより、様々な筋肉の動きが実現される。 FIG. 3 schematically shows an example firing pattern 400 . Firing pattern 400 shows a time series of on 402 and off 404 of a plurality of interneurons 320 . By applying firing pattern 400 to muscle model 300 , signals are input to each motor unit 330 in time series from interneuron 320 , and muscle fibers 350 of motor unit 330 contract according to ON 402 . As a result, various muscle movements are realized.

図4は、学習実行装置100の機能構成の一例を概略的に示す。学習実行装置100は、情報格納部102、入力受付部104、データ受信部106、動作設定部108、学習実行部110、及び表示制御部112を備える。 FIG. 4 schematically shows an example of the functional configuration of the learning execution device 100. As shown in FIG. The learning execution device 100 includes an information storage unit 102 , an input reception unit 104 , a data reception unit 106 , an operation setting unit 108 , a learning execution unit 110 and a display control unit 112 .

情報格納部102は、各種情報を格納する。情報格納部102は、筋肉モデルを格納してよい。情報格納部102は、それぞれに運動単位330が接続された複数の介在ニューロン320の発火パターンに従って、運動単位330に含まれる運動ニューロン340に接続された筋繊維350を収縮させることによって筋肉を動作させる筋肉モデルを格納してよい。 The information storage unit 102 stores various information. The information storage unit 102 may store muscle models. The information storage unit 102 operates muscles by contracting muscle fibers 350 connected to motor neurons 340 included in the motor units 330 according to firing patterns of a plurality of interneurons 320 each connected to the motor units 330. A muscle model may be stored.

情報格納部102は、筋肉モデル300に含まれる複数の運動単位330のそれぞれについて、関連するパラメータを格納してよい。情報格納部102は、運動単位330が、速筋であるか遅筋であるかを示すタイプパラメータを格納してよい。タイプパラメータは、第1パラメータの一例であってよい。 The information storage unit 102 may store relevant parameters for each of the plurality of motor units 330 included in the muscle model 300 . The information storage unit 102 may store a type parameter indicating whether the motor unit 330 is fast-twitch or slow-twitch. A type parameter may be an example of a first parameter.

情報格納部102は、収縮可能なエネルギーを示すパラメータであるHPを格納してよい。HPは、第2パラメータの一例であってよい。情報格納部102は、HPの最大値を示すMAXHPを格納してよい。 The information storage unit 102 may store HP, which is a parameter indicating contractile energy. HP may be an example of the second parameter. The information storage unit 102 may store MAXHP indicating the maximum value of HP.

情報格納部102は、自己回復力を示すパラメータであるMPを格納してよい。MPは、第3パラメータの一例であってよい。情報格納部102は、MPの最大値を示すMAXMPを格納してよい。 The information storage unit 102 may store MP, which is a parameter indicating self-resilience. MP may be an example of the third parameter. The information storage unit 102 may store MAXMP indicating the maximum value of MP.

情報格納部102は、筋繊維350が速筋である場合に、筋繊維350が収縮する毎に消費されるエネルギー量を示す第4パラメータを格納してよい。本例では、情報格納部102は、第4パラメータの一例である筋繊維350の直径を示すDIAMを格納する。情報格納部102は、運動単位330の使用に関連するパラメータであるEXPを格納してよい。EXPは、例えば、運動単位330が使用されるたびに増加するパラメータであってよい。EXPは、例えば、運動単位330が使用された回数に関連するパラメータであってよい。EXPは、運動単位330が使用された回数そのものであってもよい。EXPは、第5パラメータの一例であってよい。 The information storage unit 102 may store a fourth parameter indicating the amount of energy consumed each time the muscle fiber 350 contracts when the muscle fiber 350 is fast-twitch. In this example, the information storage unit 102 stores DIAM indicating the diameter of the muscle fiber 350, which is an example of the fourth parameter. Information store 102 may store EXP, a parameter associated with the use of motor unit 330 . EXP, for example, may be a parameter that increases each time motor unit 330 is used. EXP, for example, may be a parameter related to the number of times motor unit 330 has been used. EXP may simply be the number of times motor unit 330 is used. EXP may be an example of a fifth parameter.

入力受付部104は、各種入力を受け付ける。入力受付部104は、学習実行装置100が備える入力デバイスを介した入力を受け付けてよい。 The input reception unit 104 receives various inputs. The input reception unit 104 may receive input via an input device included in the learning execution device 100 .

データ受信部106は、ネットワーク20を介して各種データを受信する。データ受信部106は、例えば、通信端末200から、筋肉モデル300を受信して情報格納部102に格納する。また、データ受信部106は、例えば、通信端末200から、運動単位330のパラメータを受信して、情報格納部102に格納する。 A data receiving unit 106 receives various data via the network 20 . The data receiving unit 106 receives, for example, the muscle model 300 from the communication terminal 200 and stores it in the information storage unit 102 . The data receiving unit 106 also receives parameters of the motor unit 330 from the communication terminal 200 and stores them in the information storage unit 102, for example.

動作設定部108は、筋肉モデルの目標動作を設定する。動作設定部108は、例えば、入力受付部104が受け付けた入力に従って、筋肉モデル300の目標動作を設定してよい。動作設定部108は、データ受信部106が通信端末200から受信した設定指示に従って、筋肉モデル300の目標動作を設定してよい。 A motion setting unit 108 sets a target motion of the muscle model. The motion setting unit 108 may set the target motion of the muscle model 300 according to the input received by the input receiving unit 104, for example. The motion setting section 108 may set the target motion of the muscle model 300 according to the setting instruction received by the data receiving section 106 from the communication terminal 200 .

学習実行部110は、学習を実行する。学習実行部110は、発火パターンを学習してよい。学習実行部110は、複数の発火パターンのうち、筋肉モデル300の動作が目標動作により近い発火パターンに報酬を与える学習によって、目標動作を実現する発火パターンを学習してよい。学習実行部110は、例えば、強化学習を用いる。学習実行部110は、DQN(Deep Q-Network)を用いてもよい。学習実行部110は、GA(Genetic Algorithm)を用いてもよい。学習実行部110は、その他任意の学習手法を用いてもよい。 The learning executing unit 110 executes learning. The learning execution unit 110 may learn firing patterns. The learning execution unit 110 may learn the firing pattern that realizes the target motion by learning that rewards the firing pattern in which the motion of the muscle model 300 is closer to the target motion among the multiple firing patterns. The learning execution unit 110 uses, for example, reinforcement learning. The learning execution unit 110 may use DQN (Deep Q-Network). The learning execution unit 110 may use GA (Genetic Algorithm). The learning execution unit 110 may use any other learning method.

学習実行部110は、例えば、ある目標動作を実現する発火パターンを学習する場合に、まず、ランダムに複数の発火パターンを発生させる。学習実行部110は、ランダムに発生させた複数の発火パターンのそれぞれに従って筋肉モデル300を動作させ、筋肉モデル300の動作が目標動作により近い発火パターンに基づいて複数の発火パターンを発生させる。学習実行部110は、発生させた複数の発火パターンのそれぞれに従って筋肉モデル300を動作させ、筋肉モデル300の動作が目標動作により近い発火パターンに基づいて複数の発火パターンを発生させる。学習実行部110は、これらを繰り返すことによって、目標動作を実現する発火パターンを学習してよい。 For example, when learning an firing pattern for realizing a certain target action, the learning execution unit 110 first randomly generates a plurality of firing patterns. The learning execution unit 110 operates the muscle model 300 according to each of a plurality of randomly generated firing patterns, and generates a plurality of firing patterns based on the firing pattern in which the motion of the muscle model 300 is closer to the target motion. The learning execution unit 110 operates the muscle model 300 according to each of the generated firing patterns, and generates the firing patterns based on the firing pattern in which the motion of the muscle model 300 is closer to the target motion. The learning execution unit 110 may learn the firing pattern that realizes the target motion by repeating these steps.

学習実行部110は、学習済みの発火パターンに基づいて複数の発火パターンを発生させてもよい。例えば、学習実行部110は、膝を20度に曲げて維持するという目標動作に対して学習した発火パターンと、膝を60度に曲げて維持するという目標動作に対して学習した発火パターンと、膝を90度に曲げて維持するという目標動作に対して学習した発火パターンに基づいて、複数の発火パターンを発生させる。これにより、例えば、膝を任意の角度に曲げて維持するという目標動作のための複数の発火パターンを容易に準備することができ、発火パターンをランダムに発生させる場合と比較して、全体に要する時間を短くすることができる。 The learning executing unit 110 may generate a plurality of firing patterns based on learned firing patterns. For example, the learning execution unit 110 learns the firing pattern for the target motion of keeping the knee bent at 20 degrees, the firing pattern learned for the target motion of keeping the knee bent at 60 degrees, A plurality of firing patterns are generated based on the firing patterns learned for the target motion of keeping the knee bent at 90 degrees. As a result, for example, it is possible to easily prepare a plurality of firing patterns for the target motion of keeping the knee bent at an arbitrary angle, and compared with the case of randomly generating the firing patterns, the total cost is reduced. time can be shortened.

学習実行部110は、学習を進める間、発火パターンに基づいて筋肉モデル300を動作させた場合に、筋繊維350を収縮させた運動単位330を成長させてよい。 During learning, the learning execution unit 110 may cause the motor unit 330 that contracts the muscle fiber 350 to grow when the muscle model 300 is operated based on the firing pattern.

筋肉モデル300は、速筋の運動単位330と、遅筋の運動単位330とを含んでよい。学習実行部110は、発火パターンに基づいて筋肉モデル300を動作させた場合に、速筋の運動単位330と遅筋の運動単位330とを異なる基準に従って成長させてよい。 The muscle model 300 may include a fast-twitch motor unit 330 and a slow-twitch motor unit 330 . The learning execution unit 110 may cause the fast-twitch motor unit 330 and the slow-twitch motor unit 330 to grow according to different criteria when the muscle model 300 is operated based on the firing pattern.

学習実行部110は、運動単位330が収縮する毎にHPから予め定められた値を減算してよく、MPが0でない間は、時間経過に伴ってHPを回復させてよい。学習実行部110は、運動単位330が速筋である場合には、運動単位330が収縮する毎にHPからDIAMを減算してよい。学習実行部110は、運動単位330が遅筋である場合には、運動単位330が収縮する毎にHPから1を減算してよい。なお、これに限らず、学習実行部110は、運動単位330が速筋である場合に、運動単位330が収縮する毎にHPからDIAM以外の値を減算してもよい。また、学習実行部110は、運動単位330が遅筋である場合に、運動単位330が収縮する毎にHPから、例えばDIAMの値等の、1以外の値を減算してもよい。学習実行部110は、MPが0でない間は、時間経過に伴ってHPを回復させてよい。学習実行部110は、MPが0になった場合、HPの回復を行わなくてよい。学習実行部110は、時間経過に伴って、MPを回復させてよい。 The learning execution unit 110 may subtract a predetermined value from the HP each time the motor unit 330 contracts, and may restore the HP over time while the MP is not 0. If the motor unit 330 is a fast-twitch muscle, the learning execution unit 110 may subtract DIAM from HP each time the motor unit 330 contracts. If the motor unit 330 is a slow-twitch muscle, the learning execution unit 110 may subtract 1 from HP each time the motor unit 330 contracts. Note that the learning execution unit 110 may also subtract a value other than DIAM from HP each time the motor unit 330 contracts when the motor unit 330 is a fast-twitch muscle. Further, when the motor unit 330 is a slow-twitch muscle, the learning execution unit 110 may subtract a value other than 1, such as the value of DIAM, from HP each time the motor unit 330 contracts. The learning execution unit 110 may restore HP over time while the MP is not 0. The learning execution unit 110 does not need to recover HP when MP becomes 0. The learning execution unit 110 may recover MP over time.

学習実行部110は、筋繊維350が損傷したと判定した後、筋繊維350が回復したと判定した場合に、運動単位330が速筋である場合には、MAXHP及びDIAMを増加させ、運動単位330が遅筋である場合には、MAXMPを増加させてよい。 When the learning execution unit 110 determines that the muscle fiber 350 has recovered after determining that the muscle fiber 350 has been damaged, if the motor unit 330 is a fast-twitch muscle, the learning execution unit 110 increases MAXHP and DIAM to restore the motor unit. MAXMP may be increased if 330 is slow twitch.

学習実行部110は、筋繊維350が損傷したと判定した後、筋繊維350が回復したと判定した場合において、運動単位330が速筋である場合、MAXMPは増大させなくてよい。学習実行部110は、筋繊維350が損傷したと判定した後、筋繊維350が回復したと判定した場合において、運動単位330が遅筋である場合、MAXHPは増大させなくてよい。学習実行部110は、例えば、HPが0になった場合に、筋繊維350が損傷したと判定してよく、HPがMAXHPになったり、HPが予め定められた閾値より高くなった場合に、筋繊維350が回復したと判定してよい。 When the learning execution unit 110 determines that the muscle fiber 350 has recovered after determining that the muscle fiber 350 has been damaged, and if the motor unit 330 is a fast-twitch muscle, MAXMP does not need to be increased. When the learning execution unit 110 determines that the muscle fiber 350 has recovered after determining that the muscle fiber 350 has been damaged and the motor unit 330 is a slow twitch muscle, MAXHP does not need to be increased. For example, the learning execution unit 110 may determine that the muscle fiber 350 is damaged when the HP becomes 0, and when the HP becomes MAXHP or when the HP becomes higher than a predetermined threshold, It may be determined that the muscle fiber 350 has recovered.

学習実行部110は、EXPの増加に伴って、運動単位330のレベルを向上させてよい。学習実行部110は、例えば、レベル毎に定められたEXPの値を登録しておき、EXPの値がレベルに対応するEXPの値を超えた場合に、運動単位330のレベルを向上させる。より高いレベルに対して、より多いEXPの値が登録されてよい。 The learning execution unit 110 may improve the level of the motor unit 330 as the EXP increases. For example, the learning execution unit 110 registers an EXP value determined for each level, and improves the level of the motor unit 330 when the EXP value exceeds the EXP value corresponding to the level. More EXP values may be registered for higher levels.

学習実行部110は、運動単位330のレベルが高いほど、運動単位330が速筋である場合のMAXHP及びDIAMを増加しにくくし、運動単位330が遅筋である場合のMAXMPを増加しにくくしてよい。 The higher the level of the motor unit 330, the learning execution unit 110 makes it more difficult to increase MAXHP and DIAM when the motor unit 330 is fast-twitch, and makes it more difficult to increase MAXMP when the motor unit 330 is slow-twitch. you can

学習実行部110は、運動単位330の筋繊維350を収縮させた後、予め定められた不応期を経過するまで、当該筋繊維350が収縮できないようにしてよい。情報格納部102は、複数の運動単位330のそれぞれの温度を格納してもよい。学習実行部110は、運動単位330が使用されるほど、運動単位330の温度を高くしてよく、運動単位330が使用されなければ、時間経過に伴って、運動単位330の温度を低くしてよい。学習実行部110は、運動単位330の温度が高いほど不応期を短くしてよい。 After contracting the muscle fiber 350 of the motor unit 330, the learning execution unit 110 may prevent the muscle fiber 350 from contracting until a predetermined refractory period elapses. The information storage unit 102 may store the temperature of each of the plurality of motor units 330 . The learning execution unit 110 may increase the temperature of the motor unit 330 as the motor unit 330 is used, and may decrease the temperature of the motor unit 330 over time if the motor unit 330 is not used. good. The learning execution unit 110 may shorten the refractory period as the temperature of the motor unit 330 is higher.

学習実行部110は、時系列の複数の発火パターンに従って動作させた筋肉モデルの動作が目標動作を達成した場合に、目標動作を達成した状態の発火パターンから予め定められた時間遡った状態の発火パターンを更新することによって学習を実行してもよい。発火パターンが生成されてから、筋肉が実際に動くまで、不応期及び慣性の法則等の、様々なタイムディレイが存在するので、報酬を得た瞬間の発火パターンを更新するのは好ましくない場合がある。それに対して、学習実行部110によれば、目標動作を達成した状態の発火パターンから予め定められた時間遡った状態の発火パターンが更新されるので、学習精度を向上させることができる。 When the motion of the muscle model that is operated according to a plurality of time-series firing patterns achieves the target motion, the learning execution unit 110 performs firing in a state that is a predetermined time before the firing pattern in the state in which the target motion was achieved. Learning may be performed by updating the pattern. Since there are various time delays, such as refractory periods and the law of inertia, from the time the firing pattern is generated until the muscle actually moves, it may not be desirable to update the firing pattern at the instant of reward. be. On the other hand, according to the learning execution unit 110, since the firing pattern in the state that is a predetermined time before the firing pattern in the state in which the target motion is achieved is updated, the learning accuracy can be improved.

当該予め定められた時間は、任意に設定可能であってよく、変更可能であってよい。学習実行部110は、速筋と遅筋とで、異なる時間を用いてもよい。例えば、学習実行部110は、運動単位330が速筋である場合、目標動作を達成した状態の発火パターンから20ms前の状態の発火パターンを更新し、運動単位330が遅筋である場合、目標動作を達成した状態の発火パターンから40ms前の状態の発火パターンを更新してよい。 The predetermined time may be arbitrarily set or changeable. The learning execution unit 110 may use different times for fast-twitch and slow-twitch. For example, if the motor unit 330 is a fast-twitch muscle, the learning execution unit 110 updates the firing pattern in the state 20 ms before the target motion was achieved. The firing pattern in the state 40 ms before the firing pattern in the state of achieving the action may be updated.

学習実行部110は、学習した発火パターンを用いて、表示データを生成してよい。学習実行部110は、例えば、発火パターンによって任意のキャラクタを動作させたCGアニメーションを生成する。学習実行部110は、筋肉モデル300の学習を開始してから、目標動作を実現できるまでの間の、筋肉モデル300の動作及び筋肉の成長に関するデータを表示する表示データを生成してもよい。学習実行部110は、筋肉モデル300の学習を開始してから、理想的なフォームを実現できるまでの間の、筋肉モデル300の動作及び筋肉の成長に関するデータを表示する表示データを生成してもよい。 The learning execution unit 110 may generate display data using the learned firing pattern. The learning execution unit 110, for example, generates a CG animation in which an arbitrary character is moved according to the firing pattern. The learning execution unit 110 may generate display data that displays data related to the movement of the muscle model 300 and muscle growth from the start of learning of the muscle model 300 until the target movement is achieved. The learning execution unit 110 may generate display data that displays data related to the movement of the muscle model 300 and muscle growth from the start of learning of the muscle model 300 until the ideal form is achieved. good.

表示制御部112は、学習実行部110による学習結果に関連する各種表示を制御する。表示制御部112は、例えば、学習実行部110によって生成された表示データを、学習実行装置100が備えるディスプレイに表示させる。表示制御部112は、学習実行部110によって生成された表示データを、ネットワーク20を介して通信端末200に送信し、通信端末200が備えるディスプレイに表示させてもよい。 The display control unit 112 controls various displays related to learning results by the learning execution unit 110 . The display control unit 112 causes, for example, the display data generated by the learning execution unit 110 to be displayed on the display provided in the learning execution device 100 . The display control unit 112 may transmit the display data generated by the learning execution unit 110 to the communication terminal 200 via the network 20 and display it on the display provided in the communication terminal 200 .

情報格納部102は、既知のモデルに従った筋肉モデルを格納してもよい。情報格納部102は、例えば、ヒルタイプモデルに基づく筋肉モデルを格納する。情報格納部102は、CPGを用いた筋肉モデルを格納してもよい。情報格納部102は、DQNを用いた筋肉モデルを格納してもよい。 The information storage unit 102 may store muscle models according to known models. The information storage unit 102 stores, for example, a muscle model based on a Hill type model. The information storage unit 102 may store a muscle model using CPG. The information storage unit 102 may store a muscle model using DQN.

情報格納部102は、既知のモデルに従った筋肉モデルの筋肉に含まれる複数の筋繊維のそれぞれに対して、タイプパラメータと、HPと、MAXHPと、MPと、MAXMPと、DIAMとを格納してよい。 The information storage unit 102 stores a type parameter, HP, MAXHP, MP, MAXMP, and DIAM for each of a plurality of muscle fibers included in a muscle of a muscle model according to a known model. you can

学習実行部110は、筋繊維が収縮する毎に、筋繊維が速筋である場合にHPからDIAMを減算し、筋繊維が遅筋である場合にHPから1を減算し、MPが0でない間は、時間経過に伴ってHPを回復させ、筋繊維が損傷したと判定した後、筋繊維が回復したと判定した場合に、筋繊維が速筋である場合には、MAXHP及びDIAMを増加させ、筋繊維が遅筋である場合には、MAXMPを増加させてよい。 Each time the muscle fiber contracts, the learning execution unit 110 subtracts DIAM from HP if the muscle fiber is fast-twitch, subtracts 1 from HP if the muscle fiber is slow-twitch, and MP is not 0. During the period, HP is recovered over time, and after determining that the muscle fiber is damaged, when the muscle fiber is determined to have recovered, MAXHP and DIAM are increased if the muscle fiber is fast-twitch. and if the muscle fiber is slow twitch, MAXMP may be increased.

学習実行部110は、MPが0になった場合、HPの回復を行わなくてよい。学習実行部110は、時間経過に伴って、MPを回復させてよい。学習実行部110は、筋繊維が損傷したと判定した後、HPが回復した場合において、筋繊維が速筋である場合、MAXMPは増大させなくてよい。学習実行部110は、筋繊維が損傷したと判定した後、HPが回復した場合において、筋繊維が遅筋である場合、MAXHPは増大させなくてよい。 The learning execution unit 110 does not need to recover HP when MP becomes 0. The learning execution unit 110 may recover MP over time. Learning execution unit 110 does not need to increase MAXMP if the muscle fiber is a fast-twitch muscle fiber when HP has recovered after determining that the muscle fiber is damaged. When the learning execution unit 110 recovers HP after determining that the muscle fiber is damaged, if the muscle fiber is slow twitch, MAXHP does not need to be increased.

学習実行部110は、EXPの増加に伴って、筋繊維のレベルを向上させてよい。学習実行部110は、例えば、レベル毎に定められたEXPの値を登録しておき、EXPの値がレベルに対応するEXPの値を超えた場合に、筋繊維のレベルを向上させる。より高いレベルに対して、より多いEXPの値が登録されてよい。学習実行部110は、筋繊維のレベルが高いほど、筋繊維が速筋である場合のMAXHP及びDIAMの値を増加しにくくし、筋繊維が遅筋である場合のMAXMPを増加しにくくしてよい。 The learning execution unit 110 may improve the level of muscle fibers as the EXP increases. For example, the learning execution unit 110 registers an EXP value determined for each level, and improves the muscle fiber level when the EXP value exceeds the EXP value corresponding to the level. More EXP values may be registered for higher levels. The higher the muscle fiber level, the more difficult the learning execution unit 110 increases the values of MAXHP and DIAM when the muscle fiber is fast-twitch, and the more difficult it is to increase MAXMP when the muscle fiber is slow-twitch. good.

学習実行部110は、筋繊維を収縮させた後、予め定められた不応期を経過するまで、当該筋繊維が収縮できないようにしてよい。情報格納部102は、複数の筋繊維のそれぞれの温度を格納してもよい。学習実行部110は、筋繊維が使用されるほど、筋繊維の温度を高くしてよく、筋繊維が使用されなければ、時間経過に伴って、筋繊維の温度を低くしてよい。学習実行部110は、筋繊維の温度が高いほど不応期を短くしてよい。 After contracting the muscle fiber, the learning execution unit 110 may prevent the muscle fiber from contracting until a predetermined refractory period elapses. The information storage unit 102 may store the temperature of each of a plurality of muscle fibers. The learning execution unit 110 may increase the temperature of the muscle fiber as the muscle fiber is used, and may decrease the temperature of the muscle fiber over time if the muscle fiber is not used. The learning execution unit 110 may shorten the refractory period as the temperature of the muscle fibers increases.

図5は、筋肉モデル300の具体例を概略的に示す。図5では、人間の腱372、膝374、及び骨376に対応する筋肉360の筋肉モデル300を例示する。上述の通り、脊髄310内には複数の介在ニューロン320が存在する。脊髄310は、学習器とみなすことも可能である。複数の介在ニューロン320のそれぞれは、発火と非発火の2つの状態をとり得る。運動単位330には、運動ニューロン340と、運動ニューロン340に接続された筋繊維350とが含まれる。1つの運動ニューロン340には、複数の筋繊維350が接続される。運動ニューロン340には、速筋と遅筋との2つの種類があってよい。運動ニューロン340は、サイズが大きい場合、速筋であってよく、サイズが小さい場合、遅筋であってよい。運動ニューロン340は、例えば、サイズが閾値より大きい場合、速筋であり、サイズが閾値より小さいばあい、遅筋である。筋繊維350は、速筋繊維と遅筋繊維との2つの種類があってよい。筋肉360は、筋繊維350の集合体である。本例において、学習実行部110は、1つのモデルとして、2つの筋肉(伸筋と屈筋)が接続された膝関節に対して、単純な動きを発火パターンで制御する。運動単位330には、速筋及び遅筋の2つの種類があってよく、学習実行部110は、速筋と遅筋とでそれぞれ異なる成長を行わせてよい。 FIG. 5 schematically shows a concrete example of muscle model 300 . FIG. 5 illustrates a muscle model 300 of muscles 360 corresponding to tendons 372, knees 374, and bones 376 of a human. As noted above, within spinal cord 310 are a plurality of interneurons 320 . The spinal cord 310 can also be viewed as a learner. Each of the plurality of interneurons 320 can have two states: firing and non-firing. Motor unit 330 includes motor neurons 340 and muscle fibers 350 connected to motor neurons 340 . A plurality of muscle fibers 350 are connected to one motor neuron 340 . Motor neurons 340 may be of two types: fast-twitch and slow-twitch. Motor neurons 340 may be fast-twitch if large in size and slow-twitch if small in size. A motor neuron 340 is, for example, fast-twitch if its size is greater than a threshold and slow-twitch if its size is less than the threshold. Muscle fibers 350 may be of two types, fast-twitch fibers and slow-twitch fibers. A muscle 360 is a collection of muscle fibers 350 . In this example, the learning execution unit 110 controls a simple motion with a firing pattern for a knee joint to which two muscles (extensor and flexor) are connected as one model. There may be two types of motor units 330, fast-twitch and slow-twitch, and the learning execution unit 110 may cause the fast-twitch and slow-twitch to grow differently.

発火パターンを使用して筋肉を制御するためには、ニューロンの活動電位を計算する必要がある。学習実行部110は、介在ニューロン320を発火する場合に、例えば、Hodgkin-Huxleyモデル(A.L. Hodgkin, A. A quantitative description of membrane current and its application to conduction and excitation in nerve, from the physiological laboratory. University of Cambridge, pp. 500-544, 1952.)に従って、活動電位を計算してよい。計算された活動電位は、キルヒホッフの法則に従って、接続された運動ニューロン340に分配される。 In order to use firing patterns to control muscles, it is necessary to calculate neuronal action potentials. When the learning execution unit 110 fires the interneuron 320, for example, the Hodgkin-Huxley model (A.L. Hodgkin, A. A quantitative description of membrane current and its application to conduction and excitation in nerve, from the physiological laboratory. University of Cambridge, pp. 500-544, 1952.) Action potentials may be calculated. The calculated action potentials are distributed to the connected motor neurons 340 according to Kirchhoff's laws.

学習実行部110は、拡張したヒルタイプモデルを用いてよく、発火している運動ニューロン340の活動電位の合算を筋肉モデルの入力信号としてよい。筋肉モデルにおいて、筋肉の収縮力が計算され、物理法則に従って、筋肉の収縮力から膝関節のトルクに変換し、膝を動かして、関節角度が変化する。学習実行部110は、運動結果を関節角度として出力してよい。関節角度が目標角度を達成した場合、学習実行部110は、発火パターンに報酬を与えてよい。 The learning execution unit 110 may use an extended Hill-type model, and may use the sum of the action potentials of the firing motor neurons 340 as the input signal for the muscle model. In the muscle model, the contractile force of the muscle is calculated, and according to the laws of physics, the contractile force of the muscle is converted into the torque of the knee joint, and the knee is moved to change the joint angle. The learning execution unit 110 may output the exercise result as a joint angle. The learning executor 110 may reward the firing pattern when the joint angle achieves the target angle.

上述したように、学習実行部110は、拡張したヒルタイプモデルを用いてよい。従来のヒルタイプモデルは、筋肉の収縮要素(CE)、CEに対して並列に配置される並列弾性要素(PEE)及び直列に配置される直列弾性要素(SEE)で構成されている。拡張モデルでは、ばね定数に起因する筋痙攣を軽減するために、従来のヒルタイプモデルにおける腱力計算に減衰係数を追加する。ヒルタイプモデルでは、筋繊維が運動ニューロンから電流を取得し、PEE、SEE、及びCEを使用して力に変換する。 As noted above, the learning executor 110 may use an extended Hill-type model. A conventional Hill-type model consists of a muscle contractile element (CE), a parallel elastic element (PEE) arranged parallel to the CE, and a series elastic element (SEE) arranged in series. The extended model adds a damping factor to the tendon force calculation in the traditional Hill-type model to mitigate muscle spasm due to spring constant. In the Hill-type model, muscle fibers acquire current from motor neurons and convert it to force using PEE, SEE, and CE.

Figure 0007237891000001
Figure 0007237891000001

Figure 0007237891000002
Figure 0007237891000002

loptは、CEの最大の力を得るために最適化された長さであり、Aは、筋肉活動比であり、lceは、CEの長さである。この関数を近似するためにいくつかの方程式が提案されている。例えば、Rosen and Kuoモデル(Deshpande, P.-H. K. . A. D. Contribution of passive properties of muscle-tendon units to the metacarpophalangeal joint torque of the index finger. IEEE, pp. 288-294, 2010.)を適用してよい。 lopt is the length optimized for maximal force of the CE, A is the muscle activity ratio, and lce is the length of the CE. Several equations have been proposed to approximate this function. For example, the Rosen and Kuo model (Deshpande, P.-H. K. A. D. Contribution of passive properties of muscle-tendon units to the metacarpophalangeal joint torque of the index finger. IEEE, pp. 288-294, 2010.) may be applied. .

Figure 0007237891000003
Figure 0007237891000003

Vceは、CEの収縮速度であり、Vmaxは、CEの最大収縮速度である。PEが発生する力であるFpeの式は次のとおりである。 Vce is the contraction velocity of CE and Vmax is the maximum contraction velocity of CE. The formula for Fpe, which is the force generated by PE, is as follows.

Figure 0007237891000004
Figure 0007237891000004

Kpeは、PEのばね定数であり、lpeは、PEの長さであり、lpe_restはPEの平衡長であり、dpeは、PEの減衰係数であり、Vpeは、PEの終端速度である。SEEの力であるFseの式は次の通りである。 Kpe is the spring constant of the PE, lpe is the length of the PE, lpe_rest is the equilibrium length of the PE, dpe is the damping coefficient of the PE, and Vpe is the terminal velocity of the PE. The formula for Fse, the force of SEE, is:

Figure 0007237891000005
Figure 0007237891000005

kseは、SEEのばね定数であり、lseは、SEEの長さであり、lse_restはSEEの平衡長であり、dseは、SEEの減衰係数であり、Vseは、SEEの終端速度である。 kse is the spring constant of the SEE, lse is the length of the SEE, lse_rest is the equilibrium length of the SEE, dse is the damping coefficient of the SEE, and Vse is the terminal velocity of the SEE.

運動単位330が活動電位を受けると、筋肉の収縮が引き起こされる。収縮が力のピークに達するまでの時間を収縮時間と呼ぶ。遅筋の運動単位330は、収縮時間が長く、最大収縮力が小さくなる。速筋の運動単位330は、収縮時間が短く、最大収縮力が高くなる。1つの筋肉は、複数の速筋の運動単位330と複数の遅筋及び運動単位330で構成されている。そこで、これらの運動単位330からなるヒルタイプモデルを採用する。 When a motor unit 330 receives an action potential, it causes muscle contraction. The time it takes for the contraction to reach the peak force is called the contraction time. The slow-twitch motor unit 330 has a longer contraction time and a smaller maximum contraction force. A fast-twitch motor unit 330 has a short contraction time and a high peak contraction force. A single muscle is composed of multiple fast-twitch motor units 330 and multiple slow-twitch and motor units 330 . Therefore, a Hill-type model consisting of these motor units 330 is adopted.

Figure 0007237891000006
Figure 0007237891000006

Nは速筋の運動単位330の数であり、Mは遅筋の運動単位330の数であり、Fce_f_iは、i番目の速筋の収縮力であり、Fce_s_j、j番目の遅筋の収縮力である。 N is the number of fast-twitch motor units 330, M is the number of slow-twitch motor units 330, Fce_f_i is the contractile force of the i-th fast-twitch muscle, and Fce_s_j is the contractile force of the j-th slow-twitch muscle. is.

遅筋の運動単位330及び速筋の運動単位330の生物学的特性が、本実施形態に係る筋肉モデルによってモデル化される。運動ニューロン340と筋繊維350で構成される運動単位330の成長モデルでは、すべての筋繊維350に、筋収縮に使用できるエネルギー値(HP)がある。収縮の度に、速筋のHPの値を、筋繊維350の直径に等しい値だけ減少させてよい。また、収縮の度に、遅筋のHPの値を、1だけ減少させてよい。継続的な筋肉の収縮によりHPが減少し、HPが0になると、筋断裂が発生する。筋断裂が発生すると、回復しなければ、介在ニューロン320から電気信号を受信した場合でも、筋繊維350を再び収縮させることはできない。一方、介在ニューロン320からの信号の間隔が十分に大きければ、筋繊維350は自然に回復することができる。本モデルにおいて、自己回復力を示すMPが0でない限り、筋繊維350は、時間の経過とともに回復する。これらによって、学習実行部110は、様々な発火パターンを学習することができる。 The biological properties of the slow-twitch motor unit 330 and the fast-twitch motor unit 330 are modeled by the muscle model according to this embodiment. In the growth model of a motor unit 330 composed of motor neurons 340 and muscle fibers 350, every muscle fiber 350 has an energy value (HP) available for muscle contraction. With each contraction, the value of fast-twitch HP may be decreased by a value equal to the diameter of muscle fiber 350 . Also, the value of the slow twitch HP may be decreased by one with each contraction. Continuous muscle contraction reduces HP, and when HP reaches 0, muscle tear occurs. Once a muscle rupture occurs, the muscle fiber 350 cannot contract again, even if an electrical signal is received from the interneuron 320 without recovery. On the other hand, if the interval between signals from interneurons 320 is large enough, muscle fibers 350 can heal spontaneously. In this model, the muscle fibers 350 recover over time as long as the MP indicating the self-healing power is not 0. With these, the learning execution unit 110 can learn various firing patterns.

運動単位330は、使用されるたびにEXPを取得し、成長を促進する。本モデルにおいては、成長のレベルを表すためにLVを定義している。遅筋の運動単位と速筋の運動単位には、異なる成長規則がある。速筋の運動単位330の場合、MAXHP及び筋繊維350の直径のパラメータが増加する。当該ルールは、生物学的な成長ルールに基づいている。 A motor unit 330 gains EXP each time it is used and promotes growth. In this model, we define LV to represent the level of growth. Slow-twitch motor units and fast-twitch motor units have different growth rules. For fast-twitch motor units 330, the MAXHP and muscle fiber 350 diameter parameters are increased. The rules are based on biological growth rules.

速筋の運動単位330には、筋繊維の周囲に衛星細胞が存在する。筋断裂が発生すると、衛星細胞が分裂し、速筋の筋繊維350のサイズが増加する。太い筋繊維350ほど強度は高くなるが、より多くのHPを必要とする。 Fast-twitch motor units 330 have satellite cells surrounding the muscle fibers. When a muscle tear occurs, the satellite cells divide and the size of the fast-twitch muscle fiber 350 increases. Thicker muscle fibers 350 are stronger, but require more HP.

遅筋の筋繊維350は、サイズが増加しないが、自己回復力が増加する。生物学的な成長ルールによれば、遅筋の筋繊維350の周囲の毛細血管の数が増加するため、遅筋の筋繊維350に輸送される酸素の量が増加する。 Slow-twitch muscle fibers 350 do not increase in size, but increase in self-healing power. According to the biological growth rule, the number of capillaries surrounding the slow-twitch muscle fibers 350 increases, thus increasing the amount of oxygen transported to the slow-twitch muscle fibers 350 .

本モデルでは、筋繊維350の疲労を示すパラメータであるSPをさらに含んでもよい。遅筋の筋繊維350のみにおいて、成長に伴ってSPの値が減少する。すなわち、遅筋の筋繊維は、より長く使用されることができる。 This model may further include SP, which is a parameter indicating fatigue of the muscle fibers 350 . Only in slow-twitch muscle fibers 350, the SP value decreases with growth. That is, slow-twitch muscle fibers can be used longer.

表1は、各パラメータの説明を示し、表2は、アルゴリズムの一例を示す。 Table 1 shows a description of each parameter and Table 2 shows an example of the algorithm.

Figure 0007237891000007
Figure 0007237891000007

Figure 0007237891000008
Figure 0007237891000008

学習実行部110は、介在ニューロン320の発火パターンを学習するために、Qラーニングを使用してよい。学習プロセスは、各介在ニューロン320をエージェントとするマルチエージェントシステム学習に基づいてよい。各エージェントは、その環境を監視する。環境とは、介在ニューロン320と運動ニューロン340との接続性、及び運動単位330のパラメータとして定義されてよい。学習中、初期接続設定は変更されないが、運動単位のパラメータは変更可能であってよい。 Learning executor 110 may use Q-learning to learn firing patterns of interneurons 320 . The learning process may be based on multi-agent system learning with each interneuron 320 as an agent. Each agent monitors its environment. The environment may be defined as the connectivity of interneurons 320 and motor neurons 340 and the parameters of motor units 330 . During learning, initial connection settings are not changed, but motor unit parameters may be changeable.

各介在ニューロン320は、複数の運動ニューロン340に接続されており、速筋又は遅筋のいずれかに接続される。なお、運動単位330の筋繊維350が速筋であるか遅筋であるかは、接続している運動ニューロンのサイズによって決まる。この原理は生物学に由来する。エージェントは、エージェント間で状態情報を共有できる。これは、ミエリン接続による情報共有と同等である。 Each interneuron 320 is connected to a plurality of motor neurons 340 and connects to either fast or slow twitch muscles. Whether the muscle fiber 350 of the motor unit 330 is fast-twitch or slow-twitch depends on the size of the connected motor neuron. This principle comes from biology. Agents can share state information among themselves. This is equivalent to information sharing through myelin connections.

Qラーニングにおける状態と行動の組み合わせでは、Qi=(si:ai)であり、Siは各エージェントの状態を示す。 The combination of state and action in Q-learning is Qi=(si:ai), where Si indicates the state of each agent.

Figure 0007237891000009
Figure 0007237891000009

Figure 0007237891000010
Figure 0007237891000010

Figure 0007237891000011
Figure 0007237891000011

Mは、介在ニューロン320に接続されている運動ニューロン340の合計であり、Oは、他の介在ニューロン320に接続されている運動ニューロン340の合計である。 各エージェントは、発火(1)又は発火しない(0)のような行動aiを実行する。 M is the sum of motor neurons 340 connected to an interneuron 320 and O is the sum of motor neurons 340 connected to other interneurons 320 . Each agent performs an action ai such as fire (1) or not fire (0).

各介在ニューロン320は、接続されている各運動単位のすべてのパラメータと、情報を共有している他の介在ニューロン320が保持している運動単位のエネルギーの合計を監視し、発火するかどうかを決定する。介在ニューロン320の発火に基づいて、Hodgkin Huxleyモデルを用いて、接続された運動単位の電気信号が計算され、入力信号の計算に利用される。次に、拡張されたヒルタイプモデルを使用して、筋肉の収縮から計算された角度がエージェントにフィードバックされる。 Each interneuron 320 monitors all the parameters of each motor unit to which it is connected, as well as the sum of the motor unit energies held by other interneurons 320 with which it shares information, and determines whether to fire. decide. Based on the firing of interneurons 320, using the Hodgkin Huxley model, the electrical signals of the connected motor units are computed and used to compute the input signal. The angles calculated from muscle contraction are then fed back to the agent using an extended Hill-type model.

報酬には、即時と遅延の2種類があってよい。即時の報酬として、膝関節が目標の角度を達成する度に、rgoalを受信する。膝関節が目標角度を達成し続ける限り、エージェントは報酬を受け取り続ける。 Rewards may be of two types: immediate and delayed. As an immediate reward, receive an rgoal each time the knee joint achieves the target angle. As long as the knee joint continues to achieve the target angle, the agent continues to receive the reward.

遅延報酬として、すべてのエージェントの残りのHPの合計が、エピソードの終わりに、報酬としてすべてのエージェントに均等に分配される。これは、効率的な動きを生み出す協調行動に寄与する。 As a delayed reward, the total remaining HP of all agents is distributed equally to all agents as a reward at the end of the episode. This contributes to coordinated behavior that produces efficient movement.

図6は、学習実行装置100として機能するコンピュータ1200のハードウェア構成の一例を概略的に示す。コンピュータ1200にインストールされたプログラムは、コンピュータ1200を、本実施形態に係る装置の1又は複数の「部」として機能させ、又はコンピュータ1200に、本実施形態に係る装置に関連付けられるオペレーション又は当該1又は複数の「部」を実行させることができ、及び/又はコンピュータ1200に、本実施形態に係るプロセス又は当該プロセスの段階を実行させることができる。そのようなプログラムは、コンピュータ1200に、本明細書に記載のフローチャート及びブロック図のブロックのうちのいくつか又はすべてに関連付けられた特定のオペレーションを実行させるべく、CPU1212によって実行されてよい。 FIG. 6 schematically shows an example of a hardware configuration of a computer 1200 functioning as the learning execution device 100. As shown in FIG. Programs installed on the computer 1200 cause the computer 1200 to function as one or more "parts" of the apparatus of the present embodiments, or cause the computer 1200 to operate or perform operations associated with the apparatus of the present invention. Multiple "units" can be executed and/or the computer 1200 can be caused to execute the process or steps of the process according to the present invention. Such programs may be executed by CPU 1212 to cause computer 1200 to perform certain operations associated with some or all of the blocks in the flowcharts and block diagrams described herein.

本実施形態によるコンピュータ1200は、CPU1212、RAM1214、及びグラフィックコントローラ1216を含み、それらはホストコントローラ1210によって相互に接続されている。コンピュータ1200はまた、通信インタフェース1222、記憶装置1224、DVDドライブ、及びICカードドライブのような入出力ユニットを含み、それらは入出力コントローラ1220を介してホストコントローラ1210に接続されている。DVDドライブは、DVD-ROMドライブ及びDVD-RAMドライブ等であってよい。記憶装置1224は、ハードディスクドライブ及びソリッドステートドライブ等であってよい。コンピュータ1200はまた、ROM1230及びキーボードのようなレガシの入出力ユニットを含み、それらは入出力チップ1240を介して入出力コントローラ1220に接続されている。 Computer 1200 according to this embodiment includes CPU 1212 , RAM 1214 , and graphics controller 1216 , which are interconnected by host controller 1210 . Computer 1200 also includes input/output units such as communication interface 1222 , storage device 1224 , DVD drive, and IC card drive, which are connected to host controller 1210 via input/output controller 1220 . The DVD drive may be a DVD-ROM drive, a DVD-RAM drive, and the like. Storage devices 1224 may be hard disk drives, solid state drives, and the like. Computer 1200 also includes legacy input/output units, such as ROM 1230 and keyboard, which are connected to input/output controller 1220 via input/output chip 1240 .

CPU1212は、ROM1230及びRAM1214内に格納されたプログラムに従い動作し、それにより各ユニットを制御する。グラフィックコントローラ1216は、RAM1214内に提供されるフレームバッファ等又はそれ自体の中に、CPU1212によって生成されるイメージデータを取得し、イメージデータがディスプレイデバイス1218上に表示されるようにする。 The CPU 1212 operates according to programs stored in the ROM 1230 and RAM 1214, thereby controlling each unit. Graphics controller 1216 retrieves image data generated by CPU 1212 into a frame buffer or the like provided in RAM 1214 or itself, and causes the image data to be displayed on display device 1218 .

通信インタフェース1222は、ネットワークを介して他の電子デバイスと通信する。記憶装置1224は、コンピュータ1200内のCPU1212によって使用されるプログラム及びデータを格納する。DVDドライブは、プログラム又はデータをDVD-ROM等から読み取り、記憶装置1224に提供する。ICカードドライブは、プログラム及びデータをICカードから読み取り、及び/又はプログラム及びデータをICカードに書き込む。 Communication interface 1222 communicates with other electronic devices over a network. Storage device 1224 stores programs and data used by CPU 1212 within computer 1200 . The DVD drive reads programs or data from a DVD-ROM or the like and provides them to the storage device 1224 . The IC card drive reads programs and data from IC cards and/or writes programs and data to IC cards.

ROM1230はその中に、アクティブ化時にコンピュータ1200によって実行されるブートプログラム等、及び/又はコンピュータ1200のハードウェアに依存するプログラムを格納する。入出力チップ1240はまた、様々な入出力ユニットをUSBポート、パラレルポート、シリアルポート、キーボードポート、マウスポート等を介して、入出力コントローラ1220に接続してよい。 ROM 1230 stores therein programs that are dependent on the hardware of computer 1200, such as a boot program that is executed by computer 1200 upon activation. Input/output chip 1240 may also connect various input/output units to input/output controller 1220 via USB ports, parallel ports, serial ports, keyboard ports, mouse ports, and the like.

プログラムは、DVD-ROM又はICカードのようなコンピュータ可読記憶媒体によって提供される。プログラムは、コンピュータ可読記憶媒体から読み取られ、コンピュータ可読記憶媒体の例でもある記憶装置1224、RAM1214、又はROM1230にインストールされ、CPU1212によって実行される。これらのプログラム内に記述される情報処理は、コンピュータ1200に読み取られ、プログラムと、上記様々なタイプのハードウェアリソースとの間の連携をもたらす。装置又は方法が、コンピュータ1200の使用に従い情報のオペレーション又は処理を実現することによって構成されてよい。 The program is provided by a computer-readable storage medium such as DVD-ROM or IC card. The program is read from a computer-readable storage medium, installed in storage device 1224 , RAM 1214 , or ROM 1230 , which are also examples of computer-readable storage media, and executed by CPU 1212 . The information processing described within these programs is read by computer 1200 to provide coordination between the programs and the various types of hardware resources described above. An apparatus or method may be configured by implementing information operations or processing according to the use of computer 1200 .

例えば、通信がコンピュータ1200及び外部デバイス間で実行される場合、CPU1212は、RAM1214にロードされた通信プログラムを実行し、通信プログラムに記述された処理に基づいて、通信インタフェース1222に対し、通信処理を命令してよい。通信インタフェース1222は、CPU1212の制御の下、RAM1214、記憶装置1224、DVD-ROM、又はICカードのような記録媒体内に提供される送信バッファ領域に格納された送信データを読み取り、読み取られた送信データをネットワークに送信し、又はネットワークから受信した受信データを記録媒体上に提供される受信バッファ領域等に書き込む。 For example, when communication is performed between the computer 1200 and an external device, the CPU 1212 executes a communication program loaded into the RAM 1214 and sends communication processing to the communication interface 1222 based on the processing described in the communication program. you can command. The communication interface 1222 reads transmission data stored in a transmission buffer area provided in a recording medium such as a RAM 1214, a storage device 1224, a DVD-ROM, or an IC card under the control of the CPU 1212, and transmits the read transmission data. Data is transmitted to the network, or received data received from the network is written in a receive buffer area or the like provided on the recording medium.

また、CPU1212は、記憶装置1224、DVDドライブ(DVD-ROM)、ICカード等のような外部記録媒体に格納されたファイル又はデータベースの全部又は必要な部分がRAM1214に読み取られるようにし、RAM1214上のデータに対し様々なタイプの処理を実行してよい。CPU1212は次に、処理されたデータを外部記録媒体にライトバックしてよい。 In addition, the CPU 1212 causes the RAM 1214 to read all or necessary portions of files or databases stored in an external recording medium such as a storage device 1224, a DVD drive (DVD-ROM), an IC card, etc. Various types of processing may be performed on the data. CPU 1212 may then write back the processed data to an external recording medium.

様々なタイプのプログラム、データ、テーブル、及びデータベースのような様々なタイプの情報が記録媒体に格納され、情報処理を受けてよい。CPU1212は、RAM1214から読み取られたデータに対し、本開示の随所に記載され、プログラムの命令シーケンスによって指定される様々なタイプのオペレーション、情報処理、条件判断、条件分岐、無条件分岐、情報の検索/置換等を含む、様々なタイプの処理を実行してよく、結果をRAM1214に対しライトバックする。また、CPU1212は、記録媒体内のファイル、データベース等における情報を検索してよい。例えば、各々が第2の属性の属性値に関連付けられた第1の属性の属性値を有する複数のエントリが記録媒体内に格納される場合、CPU1212は、当該複数のエントリの中から、第1の属性の属性値が指定されている条件に一致するエントリを検索し、当該エントリ内に格納された第2の属性の属性値を読み取り、それにより予め定められた条件を満たす第1の属性に関連付けられた第2の属性の属性値を取得してよい。 Various types of information, such as various types of programs, data, tables, and databases, may be stored on recording media and subjected to information processing. CPU 1212 performs various types of operations on data read from RAM 1214, information processing, conditional decisions, conditional branching, unconditional branching, and information retrieval, which are described throughout this disclosure and are specified by instruction sequences of programs. Various types of processing may be performed, including /replace, etc., and the results written back to RAM 1214 . In addition, the CPU 1212 may search for information in a file in a recording medium, a database, or the like. For example, when a plurality of entries each having an attribute value of a first attribute associated with an attribute value of a second attribute are stored in the recording medium, the CPU 1212 selects the first attribute from among the plurality of entries. search for an entry that matches the specified condition of the attribute value of the attribute, read the attribute value of the second attribute stored in the entry, and thereby determine the first attribute that satisfies the predetermined condition An attribute value of the associated second attribute may be obtained.

上で説明したプログラム又はソフトウエアモジュールは、コンピュータ1200上又はコンピュータ1200近傍のコンピュータ可読記憶媒体に格納されてよい。また、専用通信ネットワーク又はインターネットに接続されたサーバシステム内に提供されるハードディスク又はRAMのような記録媒体が、コンピュータ可読記憶媒体として使用可能であり、それによりプログラムを、ネットワークを介してコンピュータ1200に提供する。 The programs or software modules described above may be stored in a computer-readable storage medium on or near computer 1200 . Also, a recording medium such as a hard disk or RAM provided in a server system connected to a dedicated communication network or the Internet can be used as a computer-readable storage medium, whereby the program can be transferred to the computer 1200 via the network. offer.

本実施形態におけるフローチャート及びブロック図におけるブロックは、オペレーションが実行されるプロセスの段階又はオペレーションを実行する役割を持つ装置の「部」を表わしてよい。特定の段階及び「部」が、専用回路、コンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプログラマブル回路、及び/又はコンピュータ可読記憶媒体上に格納されるコンピュータ可読命令と共に供給されるプロセッサによって実装されてよい。専用回路は、デジタル及び/又はアナログハードウェア回路を含んでよく、集積回路(IC)及び/又はディスクリート回路を含んでよい。プログラマブル回路は、例えば、フィールドプログラマブルゲートアレイ(FPGA)、及びプログラマブルロジックアレイ(PLA)等のような、論理積、論理和、排他的論理和、否定論理積、否定論理和、及び他の論理演算、フリップフロップ、レジスタ、並びにメモリエレメントを含む、再構成可能なハードウェア回路を含んでよい。 The blocks in the flowcharts and block diagrams in this embodiment may represent steps in the process in which the operations are performed or "parts" of the apparatus responsible for performing the operations. Certain steps and "sections" may be provided with dedicated circuitry, programmable circuitry provided with computer readable instructions stored on a computer readable storage medium, and/or computer readable instructions provided with computer readable instructions stored on a computer readable storage medium. It may be implemented by a processor. Dedicated circuitry may include digital and/or analog hardware circuitry, and may include integrated circuits (ICs) and/or discrete circuitry. Programmable circuits, such as Field Programmable Gate Arrays (FPGAs), Programmable Logic Arrays (PLAs), etc., perform AND, OR, EXCLUSIVE OR, NOT AND, NOT OR, and other logical operations. , flip-flops, registers, and memory elements.

コンピュータ可読記憶媒体は、適切なデバイスによって実行される命令を格納可能な任意の有形なデバイスを含んでよく、その結果、そこに格納される命令を有するコンピュータ可読記憶媒体は、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を作成すべく実行され得る命令を含む、製品を備えることになる。コンピュータ可読記憶媒体の例としては、電子記憶媒体、磁気記憶媒体、光記憶媒体、電磁記憶媒体、半導体記憶媒体等が含まれてよい。コンピュータ可読記憶媒体のより具体的な例としては、フロッピー(登録商標)ディスク、ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、電気的消去可能プログラマブルリードオンリメモリ(EEPROM)、静的ランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、ブルーレイ(登録商標)ディスク、メモリスティック、集積回路カード等が含まれてよい。 A computer-readable storage medium may comprise any tangible device capable of storing instructions to be executed by a suitable device, such that a computer-readable storage medium having instructions stored thereon may be illustrated in flowchart or block diagram form. It will comprise an article of manufacture containing instructions that can be executed to create means for performing specified operations. Examples of computer-readable storage media may include electronic storage media, magnetic storage media, optical storage media, electromagnetic storage media, semiconductor storage media, and the like. More specific examples of computer readable storage media include floppy disks, diskettes, hard disks, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash memory) , electrically erasable programmable read only memory (EEPROM), static random access memory (SRAM), compact disc read only memory (CD-ROM), digital versatile disc (DVD), Blu-ray disc, memory stick , integrated circuit cards, and the like.

コンピュータ可読命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又はSmalltalk、JAVA(登録商標)、C++等のようなオブジェクト指向プログラミング言語、及び「C」プログラミング言語又は同様のプログラミング言語のような従来の手続型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかを含んでよい。 The computer readable instructions may be assembler instructions, Instruction Set Architecture (ISA) instructions, machine instructions, machine dependent instructions, microcode, firmware instructions, state setting data, or object oriented programming such as Smalltalk, JAVA, C++, etc. language, and any combination of one or more programming languages, including conventional procedural programming languages, such as the "C" programming language or similar programming languages. good.

コンピュータ可読命令は、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路が、フローチャート又はブロック図で指定されたオペレーションを実行するための手段を生成するために当該コンピュータ可読命令を実行すべく、ローカルに又はローカルエリアネットワーク(LAN)、インターネット等のようなワイドエリアネットワーク(WAN)を介して、汎用コンピュータ、特殊目的のコンピュータ、若しくは他のプログラム可能なデータ処理装置のプロセッサ、又はプログラマブル回路に提供されてよい。プロセッサの例としては、コンピュータプロセッサ、処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、コントローラ、マイクロコントローラ等を含む。 Computer readable instructions are used to produce means for a processor of a general purpose computer, special purpose computer, or other programmable data processing apparatus, or programmable circuits to perform the operations specified in the flowchart or block diagrams. A general purpose computer, special purpose computer, or other programmable data processor, locally or over a wide area network (WAN) such as the Internet, etc., to execute such computer readable instructions. It may be provided in the processor of the device or in a programmable circuit. Examples of processors include computer processors, processing units, microprocessors, digital signal processors, controllers, microcontrollers, and the like.

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments. It is obvious to those skilled in the art that various modifications or improvements can be made to the above embodiments. It is clear from the description of the scope of the claims that forms with such modifications or improvements can also be included in the technical scope of the present invention.

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。 The execution order of each process such as actions, procedures, steps, and stages in the devices, systems, programs, and methods shown in the claims, the specification, and the drawings is etc., and it should be noted that they can be implemented in any order unless the output of the previous process is used in the subsequent process. Regarding the operation flow in the claims, the specification, and the drawings, even if the description is made using "first," "next," etc. for convenience, it means that it is essential to carry out in this order. not a thing

以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更又は改良を加えることが可能であることが当業者に明らかである。その様な変更又は改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。 Although the present invention has been described above using the embodiments, the technical scope of the present invention is not limited to the scope described in the above embodiments. It is obvious to those skilled in the art that various modifications or improvements can be made to the above embodiments. It is clear from the description of the scope of the claims that forms with such modifications or improvements can also be included in the technical scope of the present invention.

特許請求の範囲、明細書、及び図面中において示した装置、システム、プログラム、及び方法における動作、手順、ステップ、及び段階などの各処理の実行順序は、特段「より前に」、「先立って」などと明示しておらず、また、前の処理の出力を後の処理で用いるのでない限り、任意の順序で実現しうることに留意すべきである。特許請求の範囲、明細書、及び図面中の動作フローに関して、便宜上「まず、」、「次に、」などを用いて説明したとしても、この順で実施することが必須であることを意味するものではない。 The execution order of each process such as actions, procedures, steps, and stages in the devices, systems, programs, and methods shown in the claims, the specification, and the drawings is etc., and it should be noted that they can be implemented in any order unless the output of the previous process is used in the subsequent process. Regarding the operation flow in the claims, the specification, and the drawings, even if the description is made using "first," "next," etc. for convenience, it means that it is essential to carry out in this order. not a thing

20 ネットワーク、100 学習実行装置、102 情報格納部、104 入力受付部、106 データ受信部、108 動作設定部、110 学習実行部、112 表示制御部、200 通信端末、300 筋肉モデル、310 脊髄、320 介在ニューロン、330 運動単位、340 運動ニューロン、350 筋繊維、360 筋肉、372 腱、374 膝、376 骨、400 発火パターン、402 オン、404 オフ、1200 コンピュータ、1210 ホストコントローラ、1212 CPU、1214 RAM、1216 グラフィックコントローラ、1218 ディスプレイデバイス、1220 入出力コントローラ、1222 通信インタフェース、1224 記憶装置、1230 ROM、1240 入出力チップ 20 network, 100 learning execution device, 102 information storage unit, 104 input reception unit, 106 data reception unit, 108 operation setting unit, 110 learning execution unit, 112 display control unit, 200 communication terminal, 300 muscle model, 310 spinal cord, 320 interneurons, 330 motor units, 340 motor neurons, 350 muscle fibers, 360 muscles, 372 tendons, 374 knees, 376 bones, 400 firing patterns, 402 on, 404 off, 1200 computer, 1210 host controller, 1212 CPU, 1214 RAM, 1216 graphic controller, 1218 display device, 1220 input/output controller, 1222 communication interface, 1224 storage device, 1230 ROM, 1240 input/output chip

Claims (7)

それぞれに運動単位が接続された複数の介在ニューロンの発火パターンに従って、前記運動単位に含まれる運動ニューロンに接続された筋繊維を収縮させることによって筋肉を動作させる筋肉モデルを格納する情報格納部と、
前記筋肉モデルの目標動作を設定する動作設定部と、
前記発火パターンを学習する学習実行部であって、複数の発火パターンのうち、前記筋肉モデルの動作が前記目標動作により近い発火パターンに報酬を与える学習を実行することによって、前記目標動作を実現する発火パターンを学習する学習実行部と
を備え、
前記学習実行部は、前記複数の介在ニューロンをエージェントとするマルチエージェントシステム学習を実行する、
学習実行装置。
an information storage unit that stores a muscle model that operates a muscle by contracting muscle fibers connected to motor neurons included in the motor unit according to the firing pattern of a plurality of interneurons, each of which is connected to a motor unit;
a motion setting unit that sets a target motion of the muscle model;
A learning execution unit that learns the firing pattern, and realizes the target motion by executing learning that rewards the firing pattern, among a plurality of firing patterns, in which the motion of the muscle model is closer to the target motion. a learning execution unit that learns firing patterns;
The learning execution unit executes multi-agent system learning using the plurality of interneurons as agents,
Learning execution device.
前記学習実行部は、前記複数の介在ニューロンのそれぞれが、接続されている各運動単位のすべてのパラメータと、情報を共有している他の介在ニューロンが保持している運動単位のエネルギーの合計を監視し、発火するかどうかを決定するように、前記マルチエージェントシステム学習を実行する、請求項1に記載の学習実行装置。 In the learning execution unit, each of the plurality of interneurons calculates the sum of all parameters of each connected motor unit and the energy of motor units held by other interneurons sharing information. 2. The learning execution device of claim 1, which executes the multi-agent system learning to monitor and determine whether to fire. 前記学習実行部は、前記複数の発火パターンのそれぞれに従って前記筋肉モデルを動作させ、前記筋肉モデルの動作が前記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させ、当該複数の発火パターンのそれぞれに従って前記筋肉モデルを動作させ、前記筋肉モデルの動作が前記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させることを繰り返すことによって、前記目標動作を実現する発火パターンを学習する、請求項1又は2に記載の学習実行装置。 The learning execution unit operates the muscle model according to each of the plurality of firing patterns, generates a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, and generates a plurality of firing patterns. and learning a firing pattern that realizes the target motion by repeatedly generating a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion. 3. The learning execution device according to claim 1 or 2 . 前記学習実行部は、ランダムに発生させた前記複数の発火パターンのそれぞれに従って前記筋肉モデルを動作させ、前記筋肉モデルの動作が前記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させ、当該複数の発火パターンのそれぞれに従って前記筋肉モデルを動作させ、前記筋肉モデルの動作が前記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させることを繰り返すことによって、前記目標動作を実現する発火パターンを学習する、請求項に記載の学習実行装置。 The learning execution unit operates the muscle model according to each of the plurality of randomly generated firing patterns, generates a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, The target motion is realized by operating the muscle model according to each of the plurality of firing patterns and repeatedly generating a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion. 4. The learning execution device according to claim 3 , which learns firing patterns. 前記学習実行部は、学習済みの発火パターンに基づいて発生させた前記複数の発火パターンのそれぞれに従って前記筋肉モデルを動作させ、前記筋肉モデルの動作が前記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させ、当該複数の発火パターンのそれぞれに従って前記筋肉モデルを動作させ、前記筋肉モデルの動作が前記目標動作により近い発火パターンに基づいて複数の発火パターンを発生させることを繰り返すことによって、前記目標動作を実現する発火パターンを学習する、請求項に記載の学習実行装置。 The learning execution unit operates the muscle model according to each of the plurality of firing patterns generated based on the learned firing pattern, and operates the muscle model to perform a plurality of firing patterns based on the firing pattern closer to the target motion. Generating a firing pattern, operating the muscle model according to each of the plurality of firing patterns, and repeatedly generating a plurality of firing patterns based on the firing pattern in which the motion of the muscle model is closer to the target motion, 4. The learning execution device according to claim 3 , which learns firing patterns for realizing said target motion. コンピュータを、請求項1からのいずれか一項に記載の学習実行装置として機能させるためのプログラム。 A program for causing a computer to function as the learning execution device according to any one of claims 1 to 5 . コンピュータによって実行される学習方法であって、
それぞれに運動単位が接続された複数の介在ニューロンの発火パターンに従って、前記運動単位に含まれる運動ニューロンに接続された筋繊維を収縮させることによって筋肉を動作させる筋肉モデルの目標動作を設定する動作設定ステップと、
複数の発火パターンのうち、前記筋肉モデルの動作が前記目標動作により近い発火パターンに報酬を与える学習を実行することによって、前記目標動作を実現する発火パターンを学習する学習実行ステップと
を備え、
前記学習実行ステップは、前記複数の介在ニューロンをエージェントとするマルチエージェントシステム学習を実行する、
学習実行方法。
A computer implemented learning method comprising:
Motion setting for setting a target motion of a muscle model to move a muscle by contracting a muscle fiber connected to a motor neuron included in the motor unit according to the firing pattern of a plurality of interneurons each connected to the motor unit. a step;
a learning execution step of learning a firing pattern that realizes the target motion by executing learning that rewards a firing pattern, from among a plurality of firing patterns, in which the motion of the muscle model is closer to the target motion;
The learning execution step executes multi-agent system learning using the plurality of interneurons as agents.
learning execution method.
JP2020121597A 2020-07-15 2020-07-15 LEARNING EXECUTION DEVICE, PROGRAM, AND LEARNING EXECUTION METHOD Active JP7237891B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020121597A JP7237891B2 (en) 2020-07-15 2020-07-15 LEARNING EXECUTION DEVICE, PROGRAM, AND LEARNING EXECUTION METHOD
JP2023031277A JP7379742B2 (en) 2020-07-15 2023-03-01 Learning execution device, program, and learning execution method
JP2023098585A JP7379750B2 (en) 2020-07-15 2023-06-15 Learning execution device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020121597A JP7237891B2 (en) 2020-07-15 2020-07-15 LEARNING EXECUTION DEVICE, PROGRAM, AND LEARNING EXECUTION METHOD

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023031277A Division JP7379742B2 (en) 2020-07-15 2023-03-01 Learning execution device, program, and learning execution method

Publications (2)

Publication Number Publication Date
JP2022018477A JP2022018477A (en) 2022-01-27
JP7237891B2 true JP7237891B2 (en) 2023-03-13

Family

ID=80203298

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2020121597A Active JP7237891B2 (en) 2020-07-15 2020-07-15 LEARNING EXECUTION DEVICE, PROGRAM, AND LEARNING EXECUTION METHOD
JP2023031277A Active JP7379742B2 (en) 2020-07-15 2023-03-01 Learning execution device, program, and learning execution method
JP2023098585A Active JP7379750B2 (en) 2020-07-15 2023-06-15 Learning execution device and program

Family Applications After (2)

Application Number Title Priority Date Filing Date
JP2023031277A Active JP7379742B2 (en) 2020-07-15 2023-03-01 Learning execution device, program, and learning execution method
JP2023098585A Active JP7379750B2 (en) 2020-07-15 2023-06-15 Learning execution device and program

Country Status (1)

Country Link
JP (3) JP7237891B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023170795A1 (en) * 2022-03-08 2023-09-14 ソフトバンク株式会社 Information processing device, information processing method, and program

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504756A (en) 2010-12-30 2014-02-24 インターナショナル・ビジネス・マシーンズ・コーポレーション Systems, devices, and computer programs that include electronic synapses (electronic synapses for reinforcement learning)
US20200111260A1 (en) 2018-10-05 2020-04-09 Ctrl-Labs Corporation Use of neuromuscular signals to provide enhanced interactions with physical objects in an augmented reality environment

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012516780A (en) 2009-01-30 2012-07-26 マサチューセッツ インスティテュート オブ テクノロジー A model-based neuromechanical controller for robotic legs

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014504756A (en) 2010-12-30 2014-02-24 インターナショナル・ビジネス・マシーンズ・コーポレーション Systems, devices, and computer programs that include electronic synapses (electronic synapses for reinforcement learning)
US20200111260A1 (en) 2018-10-05 2020-04-09 Ctrl-Labs Corporation Use of neuromuscular signals to provide enhanced interactions with physical objects in an augmented reality environment

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"遅筋と速筋どう違う? 健康維持に役立つ筋肉のキホン",ヘルスUP日経Gooday 30+,日本,日経,2018年09月15日,[online] [Retrieved on 22 March 2022] Retrieved from the Internet: <https://style.nikkei.com/article/DGXMZO34623820X20C18A8000000?page=2>
國吉 康夫, 寒川 新司, 塚原祐樹, 鈴木 真介, 森 裕紀,"人間的身体性に基づく知能の発生原理解明への構成論的アプローチ",日本ロボット学会誌,28 巻 4 号,日本,日本ロボット学会,2010年09月,p.415-p.434,[online] [Retrieved on 22 March 2022]. Retrieved from the Internet: <https://www.jstage.jst.go.jp/article/jrsj/28/4/28_4_415/_pdf/-char/ja>

Also Published As

Publication number Publication date
JP2023085258A (en) 2023-06-20
JP2022018477A (en) 2022-01-27
JP2023130362A (en) 2023-09-20
JP7379742B2 (en) 2023-11-14
JP7379750B2 (en) 2023-11-14

Similar Documents

Publication Publication Date Title
US20230029460A1 (en) Method, apparatus, and device for scheduling virtual objects in virtual environment
Rostro-Gonzalez et al. A CPG system based on spiking neurons for hexapod robot locomotion
Kidziński et al. Artificial intelligence for prosthetics: Challenge solutions
Abreu et al. Learning low level skills from scratch for humanoid robot soccer using deep reinforcement learning
Caggiano et al. MyoSuite--A contact-rich simulation suite for musculoskeletal motor control
JP7379750B2 (en) Learning execution device and program
Niu et al. Neuromorphic meets neuromechanics, part I: the methodology and implementation
CN110516389A (en) Learning method, device, equipment and the storage medium of behaviour control strategy
Joos et al. Reinforcement learning of musculoskeletal control from functional simulations
Di Nuovo et al. Mental practice and verbal instructions execution: A cognitive robotics study
JP7226497B2 (en) Information processing device, method for causing information processing device to simulate intellectual behavior, computer program, and storage medium storing it
Lee What can deep neural networks teach us about embodied bounded rationality
LLedo et al. Auto-adaptative robot-aided therapy based in 3d virtual tasks controlled by a supervised and dynamic neuro-fuzzy system
Hussein et al. Deep imitation learning with memory for robocup soccer simulation
Özel Toward a postarchitecture
Fu et al. Deep reinforcement learning based upper limb neuromusculoskeletal simulator for modelling human motor control
WO2023178317A1 (en) Systems and methods for simulating brain-computer interfaces
Kanervisto Advances in deep learning for playing video games
Feldotto et al. Hebbian learning for online prediction, neural recall and classical conditioning of anthropomimetic robot arm motions
Uglev et al. Automated education: tendency for scientific approaches convergence
Antonova et al. Robots Teaching Humans: A New Communication Paradigm via Reverse Teleoperation
Hirata et al. Reinforcement learning method with internal world model training
Jha et al. Artificial evolution using neuroevolution of augmenting topologies (NEAT) for kinetics study in diverse viscous mediums
Luh et al. Muscle-gesture robot hand control based on SEMG signals utilizing deep neural networks
Thompson et al. Deep Q-Learning for Humanoid Walking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221021

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230301

R150 Certificate of patent or registration of utility model

Ref document number: 7237891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150