JPH11315556A

JPH11315556A - 土工機械の自律制御を最適化する学習システムおよび方法

Info

Publication number: JPH11315556A
Application number: JP10363158A
Authority: JP
Inventors: Patrick Rowe; ローウェパトリック
Original assignee: Carnegie Mellon University
Current assignee: Carnegie Mellon University
Priority date: 1997-12-19
Filing date: 1998-12-21
Publication date: 1999-11-16
Also published as: DE19859169A1

Abstract

(57)【要約】（修正有）【課題】機械が広範囲の掘削や積載条件に関して効率
的に実行するように、自律的に作業の進度を監視し作業
中にプログラムを修正できるシステムを提供する。【解決手段】自律的機械を制御するための動き計画３
２のアルゴリズムは、動き全体の傾向を捕捉するスクリ
プトから成り、スクリプトのパラメータは特定の機械及
び一連の動きに関する運動学的詳細が与えられる。学習
アルゴリズム３０は、現在のパラメータ集合によって以
前のサイクルにおいて機械がどのように実行したかに関
するフィードバックを使用して、スクリプト・パラメー
タを計算し、次の作業サイクルでの機械の性能を改善す
る。新しいパラメータは、各種の性能基準を試験するた
めに、予測的関数近似部３６を用いる学習アルゴリズム
によって評価される。性能基準は、局所加重一次回帰ア
ルゴリズムを使用して最適化重みづけ３８される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般にロボット機
械の動きを制御するシステムおよび方法、より詳細に
は、土工作業におけるロボット機械の制御パラメータを
修正する学習アルゴリズムに関する。

【０００２】

【従来の技術】ある種の機械は、例えば、土工作業にお
いて掘削および積載のような反復的動きを行う油圧掘削
機は、作業中に反復的動きを実行する。現在、オペレー
タの必要を低減し、可能な限り迅速かつ正確に作業を遂
行するために、土工および他の種類の機械の制御を自動
化するシステムの開発が進められている。本明細書で使
用される場合、「土工機械」という語句およびその各種
類似語は、（１）作業現場における移動性、および
（２）工事現場の地形地勢をバケット、ショベル、ブレ
ード、リッパ、突き固めホイールなどといった機械の工
具または作業部分によって変更できる機能の両方を発揮
する、掘削機、ホイール・ローダ、トラック型トラク
タ、突き固め機、モータ・グレーダ、農業用機械、舗装
機械、アスファルト舗装機械などをいう。

【０００３】動作中に「学習する」ロボット機械用のシ
ステムが現在開発されている。この「学習」は、一般
に、掘削やダンプといった機能を実行するための一連の
工程を記憶し、それらの工程を命令された回数だけ繰り
返すということを含む。現在の学習機能は、オペレータ
が同一の作業を何度も実行する必要を軽減するために、
反復的作業を繰り返すように設計されている。しかし、
作業現場の条件は頻繁に変わることがあるため、条件の
変化に伴い、プログラムされた一連の工程があまり効率
的でなくなる場合がある。例えば、掘削現場では、掘削
面の地面の形状は絶えず変わり、トラック荷台の積載物
の量および配分は積載物が加わるにつれ変化する。さら
に、掘削物の特性も、例えば、巨礫、岩石、砂礫、砂、
粘土といったように、表土の新しい層が出てくるにつれ
て変化することもある。作業の開始時に十分に効率的で
あるようにプログラムされた一連の工程が、作業の進行
につれて効率が悪くなることもある。

【０００４】Ｂ．ＳｏｎｇおよびＡ．Ｋｏｉｖｏ著の、
“ＮｅｕｒａｌＡｄａｐｔｉｖｅＣｏｎｔｒｏｌｏ
ｆＥｘｃａｖａｔｏｒｓ" （Ｐｒｏｃｅｅｄｉｎｇｓ
ｏｆＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅ
ｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓ
ａｎｄＳｙｓｔｅｍｓ，第１巻，１６２〜１６７
頁）と題する技術文献は、掘削物の肌理の変化に応答し
て掘削計画を調整するフィードフォワード・トルク項を
有する制御システムを開示している。トルク項は、掘削
機の逆動力学を計算するように訓練されたニューラル・
ネットワークによって計算される。フィードフォワード
・トルク項の付加により、全体のトラッキングおよび安
定性は改善されたが、ニューラル・ネットワークの訓練
には相当の計算時間を要する。しかし、一度訓練される
と、予測は極めて迅速に計算される。ニューラル・ネッ
トワークの付随的な欠点は、新しいデータにもとづく情
報を組み込むためには再訓練しなければならないこと、
すなわち、環境の変化に対し自律的に容易に適応できな
いことである。

【０００５】掘削現場での作業を制御するための規則ベ
ースシステムも、例えば、“ＬＵＣＩＥ − Ｔｈｅ
ＡｕｔｏｎｏｍｏｕｓＲｏｂｏｔＥｘｃａｖａｔｏ
ｒ"（ＩｎｄｕｓｔｒｉａｌＲｏｂｏｔＩｎｔｅｒ
ｎａｔｉｏｎａｌＱｕａｒｔｅｒｌｙ，第１９巻，第
１号，１４〜１８頁）におけるＤ．Ｓｅｗａｒｄの開示
に従って使用されている。これらのシステムは、一般
に、掘削中の可変条件に対処するために極めて多数の規
則を必要とし、その規則は作業の開始前に履行されてい
なければならない。システムには、不測の状況に対処す
る、または過去の経験にもとづいて動きを最適化するよ
うに規則を調整する能力はない。また、規則におけるパ
ラメータやしきい値がどのように生成されるのかも不明
確である。

【０００６】本出願と同一出願人の米国特許出願第０８
／７９６，８２４号には、パラメータ化スクリプトを用
いて機械の動きを制御する自動化システムおよびその方
法が開示されている。異なるスクリプト・パラメータの
集合が、作業モードに応じてまたは様々な事象の生起に
際して選択され得る。例えば油圧掘削機の場合の動きの
パラメータは、逆運動学、ジョイント速度の情報および
各種ヒューリスティックスを用いて計算される。いくつ
かのヒューリスティックスは、表土の状態を扱うパラメ
ータを計算するために使用される。可動構成要素間の角
度は、例えば乾燥した砂と水分の多い泥といった掘削物
の性質によって大きく異なるはずであり、間違った角度
は不正確な表土の配置を生じることにもなる。それらの
パラメータを計算する式は、システムで再プログラムさ
れない限り変わらない。従って、掘削機が間違った仮定
またはヒューリスティックスのために不適切に実行した
場合、機械の作業を中断せずに性能を修正する方法は、
現在のところまったくない。

【０００７】

【発明が解決しようとする課題】それゆえ、機械が広範
囲の掘削や積載条件に関して効率的に実行できるよう
に、自律的に作業の進度を監視し作業中にプログラムを
修正できるシステムが望まれる。

【０００８】従って本発明は、上述の課題の１つ以上を
克服することを目的としている。

【０００９】

【課題を解決するための手段】本発明の１つの実施態様
では、自律的機械を制御するために動き計画アルゴリズ
ムが使用される。動き計画アルゴリズムは、動きの全体
的傾向を捕捉するテンプレートまたはスクリプトから成
り、スクリプトのパラメータは特定の機械および一連の
動きに関する運動学的詳細が与えられる。学習アルゴリ
ズムは、現在のパラメータ集合によって以前のサイクル
において機械がどのように実行したかに関するフィード
バックを使用することによりスクリプト・パラメータを
計算し、次の作業サイクルにおいて機械の性能を改善す
るためにパラメータを調整する。新しいパラメータは、
作業を実行するのに必要な時間や作業が実行された正確
さといった、各種の性能基準を試験するために予測的関
数近似部を用いる学習アルゴリズムによって評価され
る。性能基準は、代替的な動きの結果の予測が、最も重
要とみなされる性能基準を重視するように、重みづけら
れる。反復的動きにもとづくデータが蓄積されるにつ
れ、アルゴリズムは各種動きの結果の履歴を使用して性
能を改善するためにパラメータを再計算する。

【００１０】

【発明の実施の形態】図面について説明すると、図１
は、例えば土工環境における掘削といった、機械の環境
に関する知覚情報を提供する１つ以上のセンサ・システ
ム２０を含む、本発明の好ましい実施態様におけるいく
つかの構成要素を示す。センサ・システム２０によって
提供される情報は、環境に関するある種の情報を抽出す
るように、または、機械の動作について所望の結果をも
たらすように設計されている知覚システム３３の１つ以
上のソフトウェア・モジュールによって処理される。例
えば、土工環境において、知覚システム３３は、積載容
器の認識ならびにその位置および向きの判断（２３）、
掘削する所定の区域の判断（２４）、掘削物を荷降ろし
する所定の区域の判断（２６）、および、障害物の検出
（２８）といった機能を実行できる。学習アルゴリズム
３０は、以下に述べる通り、処理された情報とともに過
去の動作結果を用いてスクリプト・パラメータを計算す
る。それらのパラメータは、ある作業を一連の工程とし
てどのように実行するかを記述するテンプレートであ
る、スクリプト３２において使用される。スクリプト３
２は、要求された作業を遂行するために機械の可動構成
要素を位置決めするための命令をコントローラ２２に発
する。

【００１１】学習アルゴリズム３０は、知覚システム３
３によって提供された、現在の初期条件３１および所望
の結果に関する情報を、次の機械の動作を計算するため
に使用する。初期条件３１は、例えば、掘削現場の地面
の形状や位置、掘削物を積載するダンプトラックの高さ
や位置、または、機械自体の初期機器構成といった、作
業を遂行するのに必要な環境に関するいずれかの必要な
情報を含むであろう。所望の結果は、積載当たりに確保
された表土の比容積、最小可能時間での表土の最大掘削
量および／または積載物の塊の位置といった、何らかの
作業性能の側面に関係するであろう。学習アルゴリズム
３０は、機械がとり得る、与えられた現在の初期条件に
おいて所望の結果を最善に実現すると確信する提案動作
を返す。

【００１２】学習アルゴリズム３０は、知覚システム３
３に対して、環境に関する初期条件３１およびどのよう
な結果が望ましいかについて問い合わせを開始する。知
覚システム３３が応答した後、学習アルゴリズム３０は
機械がとり得る提案動作を返す。問い合わせは、一部は
環境の初期状態および、掘削などのある動作の所望の結
果、別の部分は積載手順などの別の動作の所望の結果に
関する、といったように個別の部分に分けることができ
る。このようにして、知覚システム３３は、第１の動作
が実行されている間に、第２の問い合わせの応答を定式
化できる。初期条件３１は、例えば、掘削現場の地面の
形状や位置、または、掘削物を積載するダンプトラック
の高さや位置といった、作業を遂行するのに必要な環境
に関するいずれかの必要な情報を含んでいてもよい。動
作の結果３５は、積載当たりに確保された表土の比容
積、最小可能時間での表土の最大掘削量および／または
積載物の塊の位置といった、何らかの作業性能の側面に
関係するものとしてよい。この環境情報および所望の結
果は、動作の結果３５のデータによって、センサ・シス
テム２０および知覚システム３３から入手できる。

【００１３】学習アルゴリズム３０の最適化ルーチン３
８は、初期条件３１、所望の結果、および、過去の動作
および結果からの経験を用いて掘削機の提案動作を生成
する。関数近似部３６は、実際の機械で試行される前
に、候補動作の結果を予測するために最適化ルーチン３
８によって使用される。予測された結果は、次に、予測
結果が所望の結果にどれほど近いかに関係する、その候
補動作のコストを計算するために使用される。関数近似
は複数の方法で行うことができるが、好ましい実施態様
では記憶にもとづく学習モデルを利用しており、この場
合、以前の機械の動作全てがロボット機械の存在期間の
全過程にわたり明白に想起される。このような記憶にも
とづく学習モデルの１つは、局所加重回帰である。局所
加重回帰では、データベースにおける各点は、候補動作
からその点までの距離に比例する重みが割り当てられ
る。複素非線形関数の切片または局所性は、一次式また
は二次式といった比較的単純な代数モデルによって近似
させることができる。指数の加重項が一般に使用され、
データの局所モデルの係数は重みづけられたデータによ
って計算される。データの重みづけは、候補動作から遠
いデータ点よりも候補動作に近いデータ点に対しより大
きな効果を与える。従って、複素非線形関数の切片は、
ある切片の局所点の重みづけが非線形関数の異なる区域
に異なる係数を可能にするので、近似させることができ
る。

【００１４】候補となるロボット動作であるデータベー
ス入力および、ロボット動作の結果である出力は、作業
自体に依存する。パラメータ化スクリプトを用いる自律
掘削機の場合、入力すなわち候補動作は、スクリプト・
パラメータの１集合である。出力は、作業実行時間、機
械効率および／または作業完了の正確さなどを最適化ま
たは改善するための所望の変数である。出力変数は、好
ましくは、適切なセンサ・システムを用いて各作業サイ
クルごとに計測される。

【００１５】例えば、土工機械、すなわち図２に示した
掘削機５０の学習アルゴリズム３０の単純化した実施例
では、作業中の性能を監視するために限定数の入力変数
および出力変数を選択することを含む。この例では、学
習アルゴリズム３０が掘削作業サイクルについて決定す
る最も関係するスクリプト・パラメータとして、以下を
含むように選択された。 −トラック５７への旋回をトリガするブーム５５と水平
面５６との間の角度。 −ダンプ操作スティック５４の動きをトリガする旋回軸
６０の回りの回転角度。 −バケット５８の開きを開始することをトリガする旋回
軸６０の回りの回転角度。 −バケット５８の開きを開始することをトリガするステ
ィック５４とブーム５５との間の角度。 −ダンプの前半に関するスティック５４とブーム５５と
の間の角度。 −ダンプの後半に関するスティック５４とブーム５５と
の間の角度。 −スティック５４がダンプの前半位置から後半位置へ移
動すべきことをトリガするバケット５８の角度。この実施例では、各作業サイクルについて記録された出
力変数は、掘削が終了した直後に始まり、掘削機が土砂
をダンプし掘削現場に旋回させ戻したときに終わる、掘
削運動を完了する時間（ｔ）、および、掘削機に関する
極座標（ｒ，θ）における土砂の山５２の位置を含む。
従って、出力空間は三次元で、入力空間は七次元であ
り、各作業サイクルについてデータベースに記憶される
合計１０個の数が与えられる。

【００１６】最適化ルーチン３８は、候補のスクリプト
・パラメータの初期集合を生成する。これらの候補パラ
メータはその後、動作の予測結果を返す関数近似部によ
って評価される。この予測結果を使用して、所定の候補
動作を実行するためのコストまたはスコアが計算され
る。コスト情報はその後、より低いコストすなわち良い
スコアを有する候補スクリプト・パラメータの次の集合
を選択するために最適化ルーチン３８によって使用され
る。このプロセスは、最適化ルーチン３８がスクリプト
・パラメータの最終的な１集合を決定するまで継続す
る。

【００１７】関数近似部３６によって使用されるスクリ
プト・パラメータの候補集合は、最適化コンポーネント
３８を用いて選択される。候補動作を選択するために図
１の学習アルゴリズム３０の最適化コンポーネント３８
で使用できる複数の最適化ルーチンが存在する。動作空
間の次元が十分に小さい場合、ある程度の有限分解で全
部の動作について力任せ的探索が受け入れられよう。他
の場合には、例えば４を超える大きい次元の場合、動作
の無作為の選択、または、たぶん以前の最善の動作の無
作為の変更が、ある程度可能かもしれない。データベー
ス中の以前の動作の一次結合から新しい候補動作を生成
する補間法も使用できる。別の方法には、無作為に動作
を生成し、それらの動作の優先順位をつける方法として
予測精度の確実性の概念を利用するというものがある。
所望の結果が、最小化または最大化されるコスト関数と
して表現できる場合、当業者にとって公知のような、勾
配降下といったアルゴリズムを用いて動作を選択するこ
とができる。

【００１８】本発明の好ましい実施態様は、行われる各
関数評価に局所加重一次回帰による関数近似部３６を使
用する、当業者にとって公知のダウンヒルシンプレック
ス法を利用する。初期シンプレックスは、開始点におけ
る勾配に関する何らかのインテリジェンスを用いて計算
される。入力空間の各次元とともに小さな値を加算する
のではなく、勾配（または、最小化が望ましい場合は負
の勾配）の各項に比例する値が開始点に加算される。こ
のようにして、入力空間の一次元に極めて急激な傾斜が
ある場合、対応するシンプレックス頂点は、山をさらに
下り始め、より早く最小にたどり着くであろう。最適化
ルーチンは、極小による潜在的な問題がある場合、複数
の異なる地点で開始することができる。開始点は、例え
ば、最低コスト、最短時間または最小半径誤差といっ
た、最善の性能を有するデータベース内の以前の機械の
動作から選択される。

【００１９】最適化コンポーネント３８は最小コスト値
に到達するまで実行する。大量の掘削作業の荷降ろし段
階に適切とされるコスト関数の一例は、以下の通りであ
る。ｃ＝ｗ₁ｔ＋ｗ₂（ｌｏｃ_des−ｌｏｃ_act）² ただし、ｗ１およびｗ２は異なる項の重みづけの値、ｌ
ＯＣｄｅｓ−ｌＯＣａｃｔは荷降ろし動作段階におけ
る、表土の山の所望の位置と実際の位置との間の誤差で
ある。図２および３に示した状況の場合、このコスト関
数は以下のように記述できる。ｃ＝ｗ_tｔ＋ｗ_r（ｒ_des−ｒ_act）²＋ｗ⁰ （θ_des
−θ_act）² ただし、ｔは実行時間、ｒａｃｔおよびθａｃｔは図３
に示した表土の山の中心への掘削の際の基準位置に関す
る表土の山５２の実際の半径および角度、ｒｄｅｓおよ
びθｄｅｓは表土の山５２の所望の座標である。正接誤
差の項の前のｗθは、式ｓ＝ｒθ（ここで、ｓは半径ｒ
での接線方向の弧の長さである）を使用して、半径誤差
に関する正接誤差を次元化および／または何らかの方法
でスケール化するために使用される加重項である。この
特定のコスト関数は、実行時間および、半径位置の誤差
や正接位置の誤差といった作業の正確さの成分といっ
た、複数の出力変数の一次結合である。これらの項は、
より重要とみなされるものにもとづく調整可能な重みに
よって重みづけることができる。例えば、重みは、１秒
の時間が距離の単位でどれほどの大きさであるかを求め
ることによって選択することができる。すなわち、ｗｔ
＝２でｗｒ＝４００の場合、０．５秒の時間は５ｃｍの
空間誤差に相当することになるであろう。これらの重み
を調整できることにより、監督者は、作業の性質に応じ
て、ある基準を他の基準より優先させることができるよ
うになる。

【００２０】コスト関数に含まれ得る他の基準の例に
は、掘削中にバケットで確保される表土の所望の量と実
際の量との誤差、使用可能出力対使用出力に関する機械
効率、特に機械に知覚センサが設置されている場合の動
きの滑らかさの尺度などがある。この技法により、ロボ
ットで試行する動作を選択することは、最適化問題と言
い換えられる。従来技術で見られる、関数の最適化のた
めの多くの技法が存在する。この方法では、学習システ
ムは、例えば無作為動作などと異なり、それまでの知識
にもとづき、とり得る最善の動作であると確信するもの
を選択する。

【００２１】最適化ルーチン３８は、関数近似部３６を
使用して候補の機械動作の結果を予測し、それがその動
作のスコアを計算するために使用される。この実施例に
おける関数近似部３６は、予測結果を計算するために局
所加重一次回帰アルゴリズムを使用する。好ましい実施
態様では、以前に記憶されたより候補パラメータに近い
パラメータをより重視する重みづけ方式が使用される。
以下の重みづけ関数は、多数の使用可能なもののうちの
１つである。ｗ_i＝ｅ^-D(x _i ^,input)/k ただし、ｗｉはデータベースの第ｉ集合のパラメータに
割り当てられた重み、指標ｉは１からｎまで変化する数
（ここでｎはデータが記録されたサイクル数である）、
ｘｉは第ｉデータ点（すなわち、そのデータ点が記録さ
れた時に使用されたパラメータの集合）、ｉｎｐｕｔは
その出力が予測されている、関数近似部３６に入力され
る１つ以上の候補パラメータの集合、ｋは指数項をスケ
ール化する開核幅、Ｄはｉｎｐｕｔと第ｉデータ点との
間の平方距離を返すユークリッド距離関数である。入力
に極く近い点は、遠い点よりも大きな重みを受けるであ
ろうし、開核幅は適合度の局所性に影響する。大きな開
核幅はデータ点に対し大域的により等しい重みづけをも
たらし、小さな開核幅は極めて近接したデータ点だけを
重みづけることになる。全部の入力は、重みが計算され
る前に、各入力パラメータの範囲の所定の限界値にもと
づき０から１の間で正規化される。これにより、大きく
異なるスケールを有する１つのデータ点に距離計算を支
配させることが避けられる。大量のデータを含むデータ
ベースの場合、計算に含まれるサイクル数は、選択され
た数に制限することができる。さらに、データ検索およ
び加重計算を著しく高速化するために、ｋ−ｄツリーの
ような知的なデータ構造を使用することができる。

【００２２】各データ点の入力項および出力項の両者に
は重みが掛けられる。これを行列形式で表す１つの方法
は、以下の通りである。Ｚ＝ＷＸｖ＝Ｗｙデータベースにおけるデータ点をｎ、各データ点の入力
の項をｍとすれば、Ｗは重みのｎ×ｎの対角行列であ
り、Ｘは各データ点の入力項またはパラメータのｎ×ｍ
の行列であり、さらに、ｙは各データ点に関係する出力
のｎ×１のベクトルである。時間および空間精度といっ
た複数出力の場合には、複数の異なるｙおよびｖベクト
ルとなるが、それらは入力項間の距離の関数であるの
で、同一の重みが使用されるはずである。原点を通る線
形モデルを要求しないという問題を解決するためには、
１の追加の列が行列Ｘに加算され、ｎ×ｍ＋１の行列に
なる。

【００２３】行列Ｚおよびｖが計算された後、線形モデ
ルのｍ＋１の係数βが次式を解くことによって決定され
る。Ｚβ＝ｖ

【００２４】特異な、またはほぼ特異な行列の面におい
て数値的に安定したアルゴリズムを付与するために、特
異値分解アルゴリズムが、上記の行列式をβについて解
くために使用される。出力の各々に関する各予測につい
て異なるベクトルβが計算される。βが計算されると、
予測出力は次式のようになる。ｙ′＝β^Tｉｎｐｕｔ

【００２５】局所加重一次回帰法において選択すべきさ
らに重要な変数の１つは、開核幅Ｋである。これは、ク
ロス確認によって自動的に行うことができる。クロス確
認では、１つまたは複数のデータ点が既存のデータベー
スから取り出され、抽出されたこれらのデータ点により
「サブデータベース」が照会される。予測された答えと
実際の答えの間の誤差が計算される。このようにして、
最小のクロス確認誤差を与える開核幅Ｋを選択すること
ができる。

【００２６】局所加重一次回帰は、容易に得られる勾配
情報、ノイズのあるデータを扱う能力、さらに、答えが
分析的に計算されるので（ニューラル・ネットワークの
場合のように）局所的な極小問題が存在しないなどの好
ましい特徴を有する。ベイズ回帰のようなより洗練され
た回帰アルゴリズムも、予測出力およびノイズ統計で信
頼区間を返すことができる。関数が、一次ではなく、局
所的に二次である場合は、二次回帰アルゴリズムも使用
できる。

【００２７】次の機械の動作が学習アルゴリズム３０に
よって決定されると、スクリプト３２にスクリプト・パ
ラメータが書き込まれ、動作が実行され、結果が測定さ
れ記録される。より多くのデータを収集するこのプロセ
スが継続するにつれ、スクリプト・パラメータは更新さ
れて機械の性能が改善される。一部のロボット学習シス
テムは、最終的により効率的な作業をもたらす環境区域
を探索するために、実験または「練習」の期間を必要と
する。本発明によれば、作業の開始前に、ある程度の初
期校正練習を実行することもある。例えば、掘削機の場
合、掘削運動パラメータで実験して、その練習が終わっ
た後に表土を適所にダンプすることが可能である。その
実験段階からも、動作結果が作業中に完全に測定できな
い場合に使用されるようなデータが得られる。センサ・
システムの視準線が対象区域から遮られ、その結果、デ
ータがノイズを受けたり失われたりした場合にこうした
ことが生じる。こうした状況では、校正中に得られたデ
ータを用いて、失われたデータを埋めることができる。

【００２８】機械が初めて新しい現場に入った時のよう
に、作業を開始または改善するために信頼すべき履歴や
データベースがまったくない場合、過去の作業および／
または機械からのデータを使用して、環境条件を同様と
仮定することが１つの解決法である。別の方法は、オペ
レータに最初に何回かの作業サイクルを行わせ、システ
ムに関連するパラメータおよび測定結果をデータベース
に記録させることである。さらに別の方法は、機械モデ
ルおよびヒューリスティックによって計算されたパラメ
ータの初期集合で開始することである。初期パラメータ
はその後、学習アルゴリズムが引き継ぐと、改善するこ
とができる。

【００２９】本発明の学習アルゴリズムは、規則ベース
・システムのような他の動き制御技法と組み合わせても
よい。こうした複合的方法は、所定の作業の不変部分に
適用される知識を十分に規則化させることができ、その
後、学習が作業効率を改善できる作業部分についてパラ
メータを計算するようにできる。

【００３０】本発明は、各種の建設および農業機械に適
用可能である。以下に、油圧掘削機のスクリプトの例を
示すが、これは、（１）環境において検出された障害物
を避けて動き、（２）スティック５４、ブーム５５およ
びバケット５８の間のジョイントの動きを結合すること
により各バケットの積載時間および、図２に示す掘削機
５０の旋回軸６０の回りの運動を最小にし、（３）ダン
プの際にトラック周辺への積載物のこぼれを最小にする
ように設計されている。このスクリプトでは、全部のパ
ラメータはジョイントの角度である。下線部の数字は、
各バケットの積載ごとに再計算されるパラメータであ
る。命令に従って規定されるパラメータは、掘削機のジ
オメトリにもとづいて計算される。各スクリプト工程の
規則部分に現れるパラメータは、動的情報またはヒュー
リスティクスを用いて計算されるトリガ・パラメータで
ある。

【表１】

【００３１】スクリプトの読み方の例として、旋回サブ
スクリプトの最初の２工程を検討しよう。スクリプト
は、掘削が完了した時である工程１に始まり、工程１に
関係する旋回命令は５°であり、これが現在の旋回角度
である。この間、ブーム角度は、ブーム５５が持ち上げ
られるとともに監視される。ブーム５５がある角度（こ
の場合１４°）を超えると、スクリプト工程は工程１か
ら工程２に切り換わり、旋回ジョイント命令は５°から
１０１°に換わり、これにより掘削機５０は指定された
ダンプ位置へ向けて旋回する。このスクリプトは、工程
３へ切り換わり、旋回命令を再び変更するように条件が
満たされるまで、この旋回命令を送り続ける。

【００３２】この学習アルゴリズムは、上述の通り、変
更によって作業効率が改善されると判断した場合、パラ
メータを修正する。このスクリプトをロボットシステム
における様々なタイプの複雑な動き制御に適用して複雑
な作業を一連の単純な工程に分解することができる。一
般命令に可変パラメータを使用することは、作業を洗練
化するための効果的な方法である。他のジョイントの動
きの結果としての事象の生起などの外部条件および、パ
ワーの限界といった内部要因を表す値を有するパラメー
タによって各ジョイントの動きを結合することにより、
命令またはサブスクリプトの生成が単純化され、作業の
自在性が得られる。

【００３３】本発明の他の態様、目的および利点は、図
面、説明および特許請求の範囲の検討によって明らかと
なるであろう。

【図面の簡単な説明】

【図１】本発明の学習アルゴリズムを利用した動き計画
方式の流れ図。

【図２】トラックに積載を行う掘削機の斜視図。

【図３】掘削現場における掘削機、掘削面および掘削物
の山の、極座標系による位置の上面図。

【符号の説明】

５０掘削機５４スティック５５ブーム５８バケット６０旋回軸 θ

Claims

【特許請求の範囲】

【請求項１】少なくとも１つのスクリプトを用いて生
成された命令にもとづき同時に動くように動作可能なジ
ョイントで結合された複数のリンクを有する土工機械の
自律的動きを制御する方法であって、各スクリプトは機
械の動きを規定する少なくとも１つの可変パラメータを
含むものであり、少なくとも１つの所望の結果を決定する工程と、各所望の結果に関係する機械の環境の条件を測定する工
程と、可変パラメータを使用するスクリプトを実行する前に、
学習アルゴリズムを用いて少なくとも１つの可変パラメ
ータについて候補値を決定する工程とを含むことを特徴
とする方法。
【請求項２】各可変パラメータの候補値が少なくとも
１つのスクリプトの初期実行時に使用される所定値であ
り、少なくとも１つの実行サイクルにおいて測定された条件
を記憶する工程と、少なくとも１つの実行サイクルにおいて各可変パラメー
タに使用される候補値を記憶する工程とをさらに含むこ
とを特徴とする請求項１記載の方法。
【請求項３】学習アルゴリズムが、少なくとも１つの
実行サイクルにおける各可変パラメータの少なくとも１
つの記憶値および記憶された少なくとも１つの測定条件
を用いて結果を予測することにより、各候補値を評価す
るために関数近似部を実行する工程を含むことを特徴と
する請求項２記載の方法。
【請求項４】学習アルゴリズムが、所望の結果を表わ
す少なくとも１つの変数および実際に測定された条件か
らの少なくとも１つの対応するデータ値に依存するコス
ト関数を最適化する工程をさらに含むことを特徴とする
請求項３記載の方法。
【請求項５】関数近似部を実行する工程が、加重回帰
アルゴリズムを用いて機械の動作の結果を予測する工程
を含み、その重みは記憶された少なくとも１つの可変パ
ラメータと候補値との間の差に依存する指数関数によっ
て計算されることを特徴とする請求項４記載の方法。
【請求項６】関数近似部を実行する工程が、応答の切
片を近似させるために局所一次関数を使用することを含
むことを特徴とする請求項５記載の方法。
【請求項７】関数近似部を実行する工程が、応答の切
片を近似させるために局所二次関数を使用することを含
むことを特徴とする請求項５記載の方法。
【請求項８】機械の自動的動きを制御するシステムで
あって、命令にもとづき同時に動くように動作可能なジョイント
で結合された複数のリンクを有する機械と、それぞれが機械の動きを規定する少なくとも１つの可変
パラメータを含む少なくとも１つのスクリプトを実行す
る処理システムと、機械の動作の所望の結果および機械の環境において測定
されたその所望の結果に関係する条件にもとづき、少な
くとも１つの可変パラメータの値を修正するように動作
可能な学習アルゴリズムとを含むことを特徴とするシス
テム。
【請求項９】各可変パラメータに対する候補値の少な
くとも１つが、少なくとも１つのスクリプトの初期実行
において使用される所定値であり、少なくとも１つの実行サイクルにおける測定条件を記憶
し、かつ、少なくとも１つの実行サイクルにおける各可
変パラメータに使用される値を記憶するためのデータ記
憶装置をさらに含むことを特徴とする請求項８記載のシ
ステム。
【請求項１０】学習アルゴリズムが、少なくとも１
つの実行サイクルにおける各可変パラメータの少なくと
も１つの記憶値および少なくとも１つの記憶された測定
条件を用いて結果を予測することにより、少なくとも１
つの可変パラメータを修正するために少なくとも１つの
候補値を評価するための関数近似部を含むことを特徴と
する請求項９記載のシステム。
【請求項１１】学習アルゴリズムが、所望の結果を表
わす少なくとも１つの変数および実際の測定条件からの
少なくとも１つの対応データ値に依存するコスト関数を
さらに含むことを特徴とする請求項１０記載のシステ
ム。
【請求項１２】関数近似部が、機械の動作の結果を予
測する加重回帰アルゴリズムをさらに含み、その重みは
少なくとも１つの記憶された可変パラメータと候補値と
の間の差に依存する指数関数によって計算されるもので
あることを特徴とする請求項１１記載のシステム。
【請求項１３】関数近似部が、機械の応答の切片を近
似させるために局所一次関数を使用することをさらに含
むことを特徴とする請求項１２記載のシステム。
【請求項１４】関数近似部が、機械の応答の切片を近
似させるために局所二次関数を使用することをさらに含
むことを特徴とする請求項１２記載のシステム。
【請求項１５】機械の動きを制御するための少なくと
も１つの一定の命令をさらに含むことを特徴とする請求
項８記載のシステム。