JP2022044980A

JP2022044980A - モデルパラメータ学習方法及び移動態様決定方法

Info

Publication number: JP2022044980A
Application number: JP2020150405A
Authority: JP
Inventors: 雄二長谷川; Yuji Hasegawa
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-09-08
Filing date: 2020-09-08
Publication date: 2022-03-18
Also published as: US20220076163A1; DE102021121945A1

Abstract

【課題】移動装置が複数の移動体が周辺に存在する環境下で移動する際に使用する移動態様モデルのモデルパラメータを効率よく適切に学習することができるモデルパラメータ学習方法などを提供する。【解決手段】学習装置３０は、基準歩行者Ｍ１及び近傍歩行者Ｍ２の移動軌道を互いにリンク付けしたリンク付けデータから条件充足データを抽出し、条件充足データから特徴量ベクトルを抽出し、特徴量ベクトルを条件充足データにリンク付けし、クラスタ数を決定し、クラスタ数の全クラスタの特徴量ベクトルをクラスタリングし、クラスタ数の全クラスタの特徴量ベクトルのクラスタリングが収束したときに、特徴量ベクトルがリンク付けされている条件充足データを学習用データとして取得し、学習用データを用いて、移動態様モデルのモデルパラメータを所定の機械学習アルゴリズムにより学習する。【選択図】図１１

Description

本発明は、移動装置における移動態様モデルのモデルパラメータ学習方法などに関する。

従来、モデルパラメータ学習方法として、特許文献１に記載されたものが本出願人によって既に提案されている。このモデルパラメータ学習方法は、ＣＮＮのモデルパラメータを学習するものであり、このＣＮＮは、ロボットがショッピングモールや空港などにおいて人混みの中を移動する際、ロボットの移動方向を決定するためのものである。

このモデルパラメータ学習方法では、基準となる歩行者（以下「基準歩行者」という）が人混みの中を実際に歩行した際の移動軌道と、基準歩行者の周辺の歩行者（以下「周辺歩行者」という）の移動軌道とがＬＩＤＡＲを用いて取得される。そして、基準歩行者の移動軌道及び周辺歩行者の移動軌道の取得結果を学習用データとして用いて、ＣＮＮのモデルパラメータが学習される。

国際公開第２０２０／１３６９７８号

上記特許文献１のモデルパラメータ学習方法のように、基準歩行者の移動軌道及び周辺歩行者の移動軌道の取得結果を学習用データとして用いた場合、基準歩行者の移動軌道及び周辺歩行者の移動軌道の取得結果は、取得した状況及び環境によって偏りが大きくなりやすい。そのように偏りが大きい学習用データを用いて、ＣＮＮのモデルパラメータの学習を実行した場合、モデルパラメータを適切に学習できなくなる可能性がある。このような偏りの発生は学習用データを多数取得することによって解消することが可能であるが、その場合には、学習用データを必要以上に取得してしまうことになり、効率が悪くなってしまう。この問題は、ロボット以外の移動装置を用いた場合、ＣＮＮ以外の移動態様モデルを用いた場合、又は、歩行者以外の移動体の移動軌道を取得した場合にも発生する。

本発明は、上記課題を解決するためになされたもので、移動装置が複数の移動体が周辺に存在する環境下で移動する際に使用する移動態様モデルのモデルパラメータを効率よく適切に学習することができるモデルパラメータ学習方法などを提供することを目的とする。

上記目的を達成するために、請求項１に係る発明は、移動装置（ロボット２）の周辺に複数の移動体が存在する条件下で、移動装置（ロボット２）が目的地まで移動する際の移動態様（移動方向）を決定するための移動態様モデル（ＣＮＮ３３ａ）のモデルパラメータを学習装置３０によって学習するモデルパラメータ学習方法であって、学習装置３０は、第１移動体の周辺に複数の第２移動体が存在する条件下で第１移動体が複数の第２移動体の各々との干渉を回避しながら目的地まで移動した場合において、各回の移動期間における第１移動体の移動態様を表す第１移動態様パラメータの時系列と、第１移動態様パラメータの時系列と同期の複数の第２移動体の移動態様をそれぞれ表す複数の第２移動態様パラメータの時系列とを互いにリンク付けしたデータであるリンク付けデータを取得する第１ステップ（移動軌道取得部３２ａ）と、第１ステップで取得されたリンク付けデータから所定条件を満たすリンク付けデータである条件充足データを抽出し、条件充足データから特徴量ベクトルを抽出するとともに、特徴量ベクトルを条件充足データにリンク付けする第２ステップ（データ抽出記憶部３２ｂ）と、第２ステップで条件充足データにリンク付けされた特徴量ベクトルをクラスタリングする際のクラスタ数を所定手法により決定する第３ステップ（クラスタリング部３２ｃ、ＳＴＥＰ２）と、第３ステップで決定されたクラスタ数の全クラスタの特徴量ベクトルを所定のクラスタリング手法によってクラスタリングする第４ステップ（クラスタリング部３２ｃ、ＳＴＥＰ３）と、クラスタ数の全クラスタの特徴量ベクトルのクラスタリングが終了した場合、特徴量ベクトルがリンク付けされている条件充足データを学習用データとして取得する第５ステップ（クラスタリング部３２ｃ、ＳＴＥＰ４～８）と、学習用データを用いて、移動態様モデルのモデルパラメータを所定の機械学習アルゴリズムにより学習する第６ステップ（学習用データ作成部３２）と、を実行することを特徴とする。

このモデルパラメータ学習方法によれば、第１ステップで、第１移動体の周辺に複数の第２移動体が存在する条件下で複数の第２移動体の各々との干渉を回避しながら目的地まで移動した場合において、第１移動体の移動態様を表す第１移動態様パラメータの時系列と、第１移動態様パラメータの時系列と同期の複数の第２移動体の移動態様をそれぞれ表す複数の第２移動態様パラメータの時系列とを互いにリンク付けしたデータとして、リンク付けデータが取得される。そして、第２ステップで、リンク付けデータから所定条件を満たすリンク付けデータである条件充足データが抽出され、条件充足データから特徴量ベクトルが抽出されるとともに、特徴量ベクトルが条件充足データにリンク付けされる。さらに、第３～第５ステップが実行されることで、特徴量ベクトルのクラスタリングが実行され、学習用データが取得される。さらに、第６ステップで、この学習用データを用いて、移動態様モデルのモデルパラメータが所定の機械学習アルゴリズムにより学習される。

この場合、学習用データは、第５ステップで、クラスタ数の全クラスタの特徴量ベクトルのクラスタリングが終了した場合、特徴量ベクトルがリンク付けされている条件充足データが学習用データとして取得されるので、学習用データを、偏りのないように特徴量ベクトルがクラスタリングされたリンク付けデータとして取得することができる。それにより、そのような学習用データを用いて、移動態様モデルのモデルパラメータを所定の機械学習アルゴリズムにより学習することによって、移動態様モデルのモデルパラメータを効率よく適切に学習することができる。

請求項２に係る発明は、請求項１に記載のモデルパラメータ学習方法において、第２ステップでは、特徴量ベクトルをリンク付けした条件充足データを、第１移動体が所定領域（着目領域Ａ）内を移動した際に所定領域内に存在する第２移動体の数ｎ（ｎは１以上の整数）に対応して選別することにより、ｎ個のデータセットが設定され、第３～第４ステップは、ｎ個のデータセットの各々に対して個別に実行され、第５ステップでは、ｎ個のデータセットの全てにおける特徴量ベクトルのクラスタリングが終了した場合、ｎ個のデータセット間における条件充足データの数が互いに均等になるように調整したデータが学習用データとして取得されることを特徴とする。

この場合、第１移動体の周辺に複数の第２移動体が存在する条件下で第１移動体が複数の第２移動体の各々との干渉を回避しながら目的地まで移動した場合、第１移動体の周辺に存在する第２移動体の数は、多数の場合よりも少数の方が多くなりやすい。これに対して、このモデルパラメータ学習方法によれば、第２ステップでは、条件充足データを、第１移動体が所定領域内を移動した際に所定領域内に存在する第２移動体の数ｎに対応して選別することにより、ｎ個のデータセットが設定される。そして、第３～第４ステップがｎ個のデータセットの各々に対して個別に実行される。さらに、第５ステップでは、ｎ個のデータセットの全てにおける特徴量ベクトルのクラスタリングが終了した場合、ｎ個のデータセット間における条件充足データの数が互いに均等になるように調整したデータが学習用データとして取得されるので、第２移動体の数に起因するデータの偏りの影響を回避しながら、学習用データを取得することができる。それにより、移動態様モデルのモデルパラメータをより適切に学習することができる。なお、本明細書における「条件充足データの数が互いに均等になるように調整」することは、条件充足データの数が互いに均等になるように調整することに限らず、条件充足データの数が若干（例えば、１～３個程度）、異なっているように調整することを含む。

請求項３に係る発明は、請求項１又は２に記載のモデルパラメータ学習方法において、第２ステップでは、第１移動体の移動距離が所定距離以上であること、及び、第１移動体の移動軌道において曲率半径が所定半径以下の部分が存在しないことの少なくとも一方が１次条件［（ｆ１）～（ｆ２）の条件］として設定されており、１次条件を満たすことが所定条件を満たすことに相当するように構成されていることを特徴とする。

このモデルパラメータ学習方法によれば、リンク付けデータから、第１移動体の移動距離が所定距離以上であること、及び、第１移動体の移動軌道において曲率半径が所定半径以下の部分が存在しないことの少なくとも一方を満たすリンク付けデータが、条件充足データとして抽出されることになる。したがって、第１移動体の移動態様が学習に適した状態にあるデータを用いて、学習用データを取得することができ、それにより、モデルパラメータの学習効果を向上させることができる。

請求項４に係る発明は、請求項３に記載のモデルパラメータ学習方法において、第２ステップでは、第１移動体が所定領域（着目領域Ａ）内を移動した際に所定領域に進入してから所定領域を脱出していること、第１移動体が所定領域内を移動している際に１つ以上の第２移動体が所定領域内に存在すること、第１移動体の所定領域内での平均移動速度が所定の上限値と所定の下限値との間にあること、及び、第２移動体の所定領域内での平均移動速度が所定の上限値と所定の下限値との間にあることの少なくとも１つが２次条件として設定されており、１次条件に加えて２次条件をさらに満たすことが所定条件を満たすことに相当するように構成されていることを特徴とする。

このモデルパラメータ学習方法によれば、リンク付けデータから、第１条件を満たすデータに加えて、第１移動体が所定領域内を移動した際に所定領域に進入してから所定領域を脱出していること、第１移動体が所定領域内を移動している際に１つ以上の第２移動体が所定領域内に存在すること、第１移動体の所定領域内での平均移動速度が所定の上限値と所定の下限値との間にあること、及び、第２移動体の所定領域内での平均移動速度が所定の上限値と所定の下限値との間にあることの少なくとも１つを満たすリンク付けデータが、条件充足データとして抽出されることになる。したがって、第１移動体及び第２移動体の移動態様が学習に適した状態にあるデータを用いて、学習用データを取得することができ、それにより、モデルパラメータの学習効果をさらに向上させることができる。

請求項５に係る移動態様決定方法は、請求項１ないし４のいずれかに記載のモデルパラメータ学習方法によってモデルパラメータが学習された移動態様モデルを用いて、移動態様決定装置（軌道決定装置１）により、移動装置（ロボット２）の移動態様が決定されることを特徴とする。

この移動態様決定方法によれば、前述したようにモデルパラメータが学習された移動態様モデルを用いて、移動装置の移動態様が決定されるので、移動装置がその周辺に複数の移動体が存在する条件下で目的地まで移動する場合でも、移動装置の周辺に存在する移動体との干渉を回避できるように、移動装置の移動態様を決定することができる。

本発明の一実施形態に係るモデルパラメータ学習方法を適用したロボットの外観を示す図である。ロボットによる案内システムの構成を示す図である。ロボットの電気的な構成を示すブロック図である。学習装置の機能的な構成を示すブロック図である。移動軌道の取得前の歩行者の位置関係を示す平面図である。図５の位置から歩行者が歩行したときの移動軌道を示す平面図である。基準歩行者の移動距離の算出原理の説明図である。着目領域内での基準歩行者の移動軌道の一例を示す図である。着目領域内での基準歩行者及び近傍歩行者の移動軌道の抽出例を示す図である。特徴量ベクトルの要素の算出原理の説明図である。クラスタリング処理を示すフローチャートである。マスク画像作成部で作成したマスク画像を示す図である。ＣＮＮ学習部の機能的な構成を示すブロック図である。軌道決定装置の機能的な構成を示すブロック図である。

以下、本発明の一実施形態に係るモデルパラメータ学習方法について説明する。本実施形態のモデルパラメータ学習方法は、移動態様モデルとしての後述するＣＮＮのモデルパラメータを学習するものであり、このＣＮＮ（Convolutional Neural Network）は、ロボット２（図１参照）の移動軌道を決定する際に用いられる。

まず、図１に示す軌道決定装置１について説明する。この軌道決定装置１は、倒立振子型のロボット２に適用されたものであり、後述する手法によって、交通参加者の存在確率が高い条件下で、ロボット２の移動軌道を決定するものである。なお、本実施形態では、軌道決定装置１が移動態様決定装置に相当する。

このロボット２は、自律移動型のものであり、図２に示す案内システム３で用いられる。この案内システム３は、ショッピングモールや空港などにおいて、ロボット２が利用者を先導しながらその目的地（例えば店舗や搭乗ゲート）まで案内する形式のものである。

図２に示すように、案内システム３は、所定の領域内を自律移動する複数のロボット２と、複数のロボット２とは別体に設けられ、利用者の目的地が入力される入力装置４と、ロボット２及び入力装置４と相互に無線通信可能なサーバ５とを備えている。

この入力装置４は、パソコンタイプのものであり、利用者（又は操作者）のマウス及びキーボードの操作によって、利用者の目的地が入力されたときに、それを表す無線信号をサーバ５に送信する。サーバ５は、入力装置４からの無線信号を受信すると、内部の地図データに基づき、利用者の目的地自体又は目的地までの中継地点を目的地Ｐｏに設定し、それを表す目的地信号をロボット２に送信する。

後述するように、ロボット２内の制御装置１０は、サーバ５からの目的地信号を無線通信装置１４を介して受信したときには、その目的地信号に含まれる目的地Ｐｏを読み込み、この目的地Ｐｏまでの移動軌道を決定する。また、制御装置１０は、サーバ５と無線通信により、ロボット２の位置を取得する。

次に、ロボット２の機械的な構成について説明する。図１に示すように、ロボット２は、本体２０と、本体２０の下部に設けられた移動機構２１などを備えており、この移動機構２１によって路面上を全方位に移動可能に構成されている。

この移動機構２１は、具体的には、例えば特開２０１７－５６７６３号のものと同様に構成されているので、その詳細な説明はここでは省略するが、円環状の芯体２２、複数のローラ２３、第１アクチュエータ２４（図３参照）及び第２アクチュエータ２５（図３参照）などを備えている。

複数のローラ２３は、芯体２２の円周方向（軸心周り方向）に等角度間隔で並ぶように、芯体２２に外挿されており、複数のローラ２３の各々は、芯体２２の軸心周りに、芯体２２と一体に回転可能になっている。また、各ローラ２３は、各ローラ２３の配置位置における芯体２２の横断面の中心軸（芯体２２の軸心を中心とする円周の接線方向の軸）周りに回転可能になっている。

さらに、第１アクチュエータ２４は、電動機で構成されており、後述する制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、芯体２２をその軸心周りに回転駆動する。

一方、第２アクチュエータ２５も、第１アクチュエータ２４と同様に、電動機で構成されており、制御入力信号が制御装置１０から入力されたときに、図示しない駆動機構を介して、ローラ２３をその軸心周りに回転駆動する。それにより、本体２０は、路面上を全方位に移動するように、第１アクチュエータ２４及び第２アクチュエータ２５によって駆動される。以上の構成により、ロボット２は、路面上を全方位に移動可能になっている。

次に、ロボット２の電気的な構成について説明する。図３に示すように、ロボット２は、制御装置１０、カメラ１１、ＬＩＤＡＲ１２、加速度センサ１３及び無線通信装置１４をさらに備えている。

この制御装置１０は、ＣＰＵ、ＲＡＭ、ＲＯＭ、Ｅ２ＰＲＯＭ、Ｉ／Ｏインターフェース及び各種の電気回路（いずれも図示せず）などからなるマイクロコンピュータで構成されている。このＥ２ＰＲＯＭ内には、ロボット２が案内する場所の地図データ及びＣＮＮが記憶されている。この場合、ＣＮＮとしては、後述する学習装置３０によって、ＣＮＮのモデルパラメータすなわち結合層の重み及びバイアス項が十分に学習されたものが記憶されている。

カメラ１１は、ロボット２の周辺環境を撮像し、それを表す画像信号を制御装置１０に出力する。また、ＬＩＤＡＲ１２は、レーザ光を用いて、周辺環境内の対象物までの距離などを計測し、それを表す計測信号を制御装置１０に出力する。さらに、加速度センサ１３は、ロボット２の加速度を検出して、それを表す検出信号を制御装置１０に出力する。

制御装置１０は、以上のカメラ１１の画像信号及びＬＩＤＡＲ１２の計測信号を用いて、amlc（adaptive Monte Carlo localization）手法により、ロボット２の自己位置を推定する。また、制御装置１０は、ＬＩＤＡＲ１２の計測信号及び加速度センサ１３の検出信号に基づいて、ロボット２の後述するｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙを算出する。

さらに、制御装置１０には、無線通信装置１４が電気的に接続されており、制御装置１０は、この無線通信装置１４を介してサーバ５との間で無線通信を実行する。

次に、本実施形態の軌道決定装置１の構成及び軌道決定方法の原理について説明する。まず、図４に示す学習装置３０について説明する。この学習装置３０は、後述するＣＮＮのモデルパラメータ（結合層の重み及びバイアス項）を学習するためのものであり、ＬＩＤＡＲ３１、学習用データ作成部３２及びＣＮＮ学習部３３を備えている。これらの要素３２～３３は、具体的には、図示しないコンピュータなどによって構成されている。

この学習用データ作成部３２は、ＬＩＤＡＲ３１の計測結果に基づき、学習用データを作成するものであり、図４に示すように、移動軌道取得部３２ａ、データ抽出記憶部３２ｂ、クラスタリング部３２ｃ、移動方向取得部３２ｄ及びマスク画像作成部３２ｅを備えている。この移動軌道取得部３２ａでは、歩行者の移動軌道を学習するために、ＬＩＤＡＲ３１の計測結果に基づき、歩行者の移動軌道の時系列が以下に述べるように取得される。

例えば、ＬＩＤＡＲ３１によって、図５に示すように、基準歩行者Ｍ１を基準となる歩行者として設定し、平面的に見て、その進行方向に複数（図中では３人）の歩行者（以下「近傍歩行者」という）Ｍ２が不規則な配置で存在する人混みの交通環境下において、この基準歩行者Ｍ１が図６に示す位置まで実際に歩行したときの位置の変化と、複数の近傍歩行者Ｍ２の位置の変化とを計測する。

この計測は、基準歩行者Ｍ１が、近傍歩行者Ｍ２の数が異なる環境下で目的地まで多数回、歩行した際に実施され、それらの計測結果がＬＩＤＡＲ３１から移動軌道取得部３２ａに入力される。そして、移動軌道取得部３２ａでは、ＬＩＤＡＲ３１の計測結果に基づき、基準歩行者Ｍ１の移動軌道（以下「第１移動軌道」という）Ｒｗ１及び近傍歩行者Ｍ２の移動軌道（以下「第２移動軌道」という）Ｒｗ２を、例えば図６に示すように逐次、サンプリングして記憶する。

この場合、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２は、基準歩行者Ｍ１の進行方向に延びる軸をｘ軸と規定し、基準歩行者Ｍ１の進行方向に直交する軸をｙ軸と規定したときの、２次元のｘ－ｙ座標値の時系列として取得される。

このように、移動軌道取得部３２ａでは、基準歩行者Ｍ１が目的地まで多数回、歩行した際、その回数分、第１移動軌道Ｒｗ１が近傍歩行者Ｍ２の移動軌道Ｒｗ２（図参照）とリンク付けした状態で取得される。すなわち、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータが、基準歩行者Ｍ１の歩行回数分、取得される。

この場合、基準歩行者Ｍ１は、同一人物である必要がなく、例えば、複数の異なる歩行者が所定経路に沿って１回以上歩行するように構成してもよい。その場合には、ＬＩＤＡＲ３１によって、これらの歩行者の位置の変化と、複数の近傍歩行者Ｍ２の位置の変化とを計測し、これらの計測結果を移動軌道取得部３２ａに入力するように構成すればよい。

また、データ抽出記憶部３２ｂでは、移動軌道取得部３２ａで取得された第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータから、クラスタリング用のデータが以下に述べるように抽出して記憶される。

まず、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータから、基準歩行者Ｍ１が下記の条件（ｆ１）～（ｆ２）をいずれも満たしているデータが基準データとして抽出される。
（ｆ１）基準歩行者Ｍ１の移動距離が所定距離以上であること。
（ｆ２）基準歩行者Ｍ１の第１移動軌道Ｒｗ１において曲率半径が所定半径以下の部分が存在しないこと。

上記の条件（ｆ１）は、基準歩行者Ｍ１がある程度以上歩行していないと学習に適していないデータになってしまうので、そのようなデータを除外するための条件である。この場合、基準歩行者Ｍ１の移動距離は、図７に示すように算出される。すなわち、第１移動軌道Ｒｗ１におけるｘ座標値の最大値及び最小値と、ｙ座標値の最大値及び最小値とによって決まる四角形の対角線の長さが、基準歩行者Ｍ１の移動距離として算出される。なお、基準歩行者Ｍ１の移動距離を基準歩行者Ｍ１の移動軌道に沿う距離として算出してもよい。

また、上記の条件（ｆ２）は、基準歩行者Ｍ１の第１移動軌道Ｒｗ１において曲率半径が所定曲率以下の部分がある場合、基準歩行者Ｍ１が通常よりも大きく向きを変えており、急回避行動を取っていることで、学習に適していないデータとなるので、そのようなデータを除外するための条件である。

次いで、以上のように抽出した基準データから、以下に述べる手法により、条件充足データが抽出される。まず、図８に示す領域を着目領域Ａとして規定する。この着目領域Ａは、矩形の所定領域であり、基準歩行者Ｍ１の着目時刻（回避行動を開始する時刻）の位置を原点として、基準歩行者Ｍ１が着目領域Ａへの侵入時の位置をｙ＝０となるように設定したものである。なお、図８においては、理解の容易化のために、第１移動軌道Ｒｗ１のみが示されている。

次いで、着目領域Ａ内での基準歩行者Ｍ１及び近傍歩行者Ｍ２のデータにおいて、下記の条件（ｆ３）～（ｆ６）をいずれも満たす基準歩行者Ｍ１及び近傍歩行者Ｍ２のデータが、条件充足データとして基準データから抽出される。
（ｆ３）基準歩行者Ｍ１が着目領域Ａに進入する時刻と着目領域Ａから脱出する時刻が存在すること。
（ｆ４）基準歩行者Ｍ１が着目領域Ａ内を移動している際に１人以上の近傍歩行者Ｍ２が着目領域Ａ内に存在すること。
（ｆ５）基準歩行者Ｍ１の着目領域Ａ内での平均移動速度が所定の上限値と所定の下限値との間にあること。
（ｆ６）近傍歩行者Ｍ２の着目領域Ａ内での平均移動速度が上記所定の上限値と上記所定の下限値との間にあること。

以上の条件（ｆ３）～（ｆ６）は、前述した条件（ｆ１）～（ｆ２）と同様に、学習に適したデータのみを抽出するための条件である。例えば、条件（ｆ３）は、着目領域Ａ内での基準歩行者Ｍ１の移動距離が少ない場合のデータを排除するための条件であり、条件（ｆ４）は、近傍歩行者Ｍ２が着目領域Ａ内にいない場合のデータを排除するための条件である。さらに、条件（ｆ５）は、基準歩行者Ｍ１が学習に適した歩行速度域にあるデータを抽出するための条件であり、条件（ｆ６）は、近傍歩行者Ｍ２が学習に適した歩行速度域にあるデータを抽出するための条件である。

以上の条件（ｆ３）～（ｆ６）で条件充足データを基準データから抽出した場合、例えば、図９に示すようなデータが得られる。この図９は、近傍歩行者Ｍ２の数が５人の場合の例であり、基準歩行者Ｍ１の○で示す位置は、着目時刻の位置であり、近傍歩行者Ｍ２の○で示す位置は、基準歩行者Ｍ１が着目時刻の位置にあるときの、近傍歩行者Ｍ２の位置である。

次に、以上のように抽出した条件充足データから、以下に述べるように、特徴量ベクトルが算出される。具体的には、特徴量ベクトルは、以下の手順（ｃ１）～（ｃ６）を実行することによって算出（設定）される。なお、以下の説明では、着目領域Ａにおいて、基準歩行者Ｍ１に加えて、１人の近傍歩行者Ｍ２が存在する場合の例について説明する。

（ｃ１）基準歩行者Ｍ１の着目領域Ａ内での平均移動速度が、特徴量ベクトルの１つの要素に設定される。

（ｃ２）基準歩行者Ｍ１の着目領域Ａを脱出する位置Ｐ１（ｘ座標値、ｙ座標値）が抽出され、これが角度に変換される。具体的には、図１０に示すように、ｙ軸を通る直線Ｌ１と、原点から基準歩行者Ｍ１の着目領域Ａを脱出する位置を通って延びる直線Ｌ２との間の角度θが算出され、これが特徴量ベクトルの１つの要素に設定される。

（ｃ３）近傍歩行者Ｍ２の着目領域Ａ内での平均移動速度が、特徴量ベクトルの１つの要素に設定される。

（ｃ４）近傍歩行者Ｍ２の着目領域Ａ内での最初の位置Ｐ２と原点との距離、近傍歩行者Ｍ２の着目時刻の位置Ｐ３と原点との距離、及び、近傍歩行者Ｍ２の着目領域Ａ内での最後の位置Ｐ４と原点との距離が算出され、これら３つの距離が特徴量ベクトルの３つの要素に設定される。

（ｃ５）図１０に示すように、前述した直線Ｌ２と、原点から基準歩行者Ｍ１の着目領域Ａを脱出する位置を通って延びる直線Ｌ３との間の角度θ’が算出される。この場合、角度θ’は、図中の反時計回りの方向を正値として算出される。次いで、ｓｉｎθ’及びｃｏｓθ’が算出され、これらの値が特徴量ベクトルの３つの要素に設定される。この場合、角度θ’に代えて、ｓｉｎθ’及びｃｏｓθ’を用いる理由は、θ’＝１８０゜の場合とθ’＝－１８０゜の場合とで、上述した３つの距離が互いに異なることによる。

（ｃ６）以上のように（ｃ１）～（ｃ５）の手順による特徴量ベクトルの各要素の算出を繰り返し実施し、多数の特徴量ベクトルを全て算出した後、多数の特徴量ベクトルの各要素の正規化が実行される。すなわち、各要素の平均値及び標準偏差を算出し、これらに基づき、各要素が正規化される。以下、各要素を正規化した特徴量ベクトルを単に「特徴量ベクトル」という。

データ抽出記憶部３２ｂでは、以上のように、多数の特徴量ベクトルを算出した後、多数の特徴量ベクトルの各々を、抽出元の条件充足データ（着目領域Ａ内での基準歩行者Ｍ１及び近傍歩行者Ｍ２のリンク付けデータ）に紐付けすることにより、クラスタリング用のデータが作成され、これが記憶される。

この場合、クラスタリング用のデータは、着目領域Ａ内での近傍歩行者Ｍ２の人数１～ｎ（ｎは十数）に対応して、ｎセットのデータに選別して記憶される。以下、クラスタリング用のデータについて、着目領域Ａ内での近傍歩行者Ｍ２の人数が１人である場合のデータセットを「１人データセット」と呼び、着目領域Ａ内での近傍歩行者Ｍ２の人数が２人である場合のデータセットを「２人データセット」と呼ぶ。この点は、着目領域Ａ内での近傍歩行者Ｍ２の人数が３人以上のデータセットにおいても同様である。

次に、クラスタリング部３２ｃについて説明する。このクラスタリング部３２ｃでは、データ抽出記憶部３２ｂに記憶されているクラスタリング用のデータを、特徴量ベクトルに基づき、以下に述べるｋ－ｍｅａｎｓ法によってクラスタリングすることにより、学習用の軌道データ（第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータ）が決定される。

具体的には、クラスタリング部３２ｃでは、学習用の軌道データを決定するために、図１１に示すクラスタリング処理が実行される。同図に示すように、このクラスタリング処理では、まず、データ読込処理が実行される（図１１／ＳＴＥＰ１）。このデータ読込処理では、１回目の実行時において、前述したデータ抽出記憶部３２ｂに記憶されているクラスタリング用のデータセットの中から、１人データセットが読み出される。

そして、１回目以降の実行時においては、データの読込を実行済みでないクラスタリング用のデータセットの中から、近傍歩行者Ｍ２の数が最も少ないデータセットが読み出される。すなわち、２回目の実行時には、クラスタリング用のデータセットの中から２人データセットが読み出され、３回目の実行時には、クラスタリング用のデータセットの中から３人データセットが読み出される。

このデータ読込処理に続けて、クラスタ数決定処理が実行される（図１１／ＳＴＥＰ２）。このクラスタ数決定処理では、以下に述べる（ｄ１）～（ｄ３）の算出処理を実行することにより、ｋ－ｍｅａｎｓ法におけるクラスタ数が決定される。なお、本実施形態では、（ｄ１）～（ｄ３）の算出処理が所定手法に相当する。

（ｄ１）読み込んだクラスタリング用のデータにおける特徴量ベクトルを、クラスタ数２からクラスタ数ｍ（ｍは数百の整数）までクラスタリングし、各クラスタ数に対するクラス内誤差平均平方和ＳＳＥｉ（ｉ＝２～ｍ）が算出される。
（ｄ２）ΔＳＳＥｉ（＝ＳＳＥｉ－ＳＳＥｉ＋１）の平均値ΔＳＳＥａｖｅが算出される。
（ｄ３）平均値ΔＳＳＥａｖｅよりも小さいΔＳＳＥｉにおいて、添え字ｉの最も小さい値を整数化した値がクラスタ数として決定される。

次いで、クラスタリングが実行される（図１１／ＳＴＥＰ３）。具体的には、ｋ－ｍｅａｎｓ法により、前述した特徴量ベクトルのクラスタリングが実行される。

次に、判定値算出処理が実行される（図１１／ＳＴＥＰ４）。この判定値算出処理では、以下に述べる（ｄ４）～（ｄ６）の処理を実行することにより、クラスタリングの収束性を判定するための判定値ＪＵＤが算出される。

（ｄ４）上記のクラスタリングに用いた特徴量ベクトルのデータからランダムにデータを除外し、残ったデータをｋ－ｍｅａｎｓ法によりクラスタリングした後、セントロイド（重心点）同士の距離の総和Ｄｅｒ（ｅｒは除外率）が算出される。
（ｄ５）総和Ｄｅｒを数式ｙ＝ａ＋ｃ・ｅｘｐ（ｂ・ｘ）にフィッティングすることにより、３つの値ａ～ｃが算出される。具体的には、総和Ｄｅｒをｙに代入し、除外率ｅｒをｘに代入して、３つの値ａ～ｃが算出される。
（ｄ６）上記で算出した値ｂ，ｃを下式（１）に代入することにより、判定値ＪＵＤが算出される。
ＪＵＤ＝［１－ｌｎ（ｃ）］／ｂ・・・（１）

次いで、ＪＵＤ＞０が成立しているか否かが判定される（図１１／ＳＴＥＰ５）。この判定が肯定（図１１／ＳＴＥＰ５…ＹＥＳ）で、クラスタリングが収束しているときには、クラスタリング済みのデータが前述したデータ抽出記憶部３２ｂ内に記憶される。なお、本実施形態では、ＪＵＤ＞０が成立している場合が、クラスタリングが終了した場合に相当する。

次に、全セットデータのクラスタリングが終了したか否かが判定される（図１１／ＳＴＥＰ７）。すなわち、１人データセットからｎ人データセットまでのすべてのデータセットのクラスタリングが終了したか否かが判定される。

この判定が否定（図１１／ＳＴＥＰ７…ＮＯ）で、全セットデータのクラスタリングが終了していないときには、前述したＳＴＥＰ１以降の各処理を再度実行する。

一方、この判定が肯定（図１１／ＳＴＥＰ７…ＹＥＳ）で、全セットデータのクラスタリングが終了したときには、学習用の軌道データ決定処理が実行される（図１１／ＳＴＥＰ８）。

この学習用の軌道データ決定処理では、以下に述べるように、学習用の軌道データが決定される。まず、データ抽出記憶部３２ｂ内に記憶されているクラスタリングが終了した１人データセットからｎ人データセットまでのデータセットにおいて、データ数が最も少ないデータセットを選択し、全データセットにおいて、各々のデータ数が、このデータ数が最も少ないデータセットのデータ数と同じになるように、データをランダムに選択する。そして、以上のように、全データセットにおけるデータ数を揃えたデータが学習用の軌道データとして決定される。学習用の軌道データ決定処理を以上のように実行した後、本処理が終了する。

一方、前述した判定が否定（図１１／ＳＴＥＰ５…ＮＯ）で、クラスタリングが収束していないときには、クラスタリング処理が終了する。この場合には、前述した移動軌道取得部３２ａ及びデータ抽出記憶部３２ｂにおいて、クラスタリングが収束しなかったデータセットに関して、前述したように、クラスタリング用のデータセットが作成される。そして、前述したように、クラスタリング部３２ｃにおいて、クラスタリング処理が再度実行される。

また、前述した移動方向取得部３２ｄでは、クラスタリング部３２ｃで作成された学習用の軌道データ及びＬＩＤＡＲ３１の計測結果に基づき、基準歩行者Ｍ１の移動方向指令の時系列が、「左方向」、「中央方向」及び「右方向」の３つの方向を要素とするベクトル値として設定される。この移動方向指令の場合、例えば、基準歩行者Ｍ１が直進しているときには、「中央方向」が値１に設定され、それ以外の「左方向」及び「右方向」が値０に設定される。

また、基準歩行者Ｍ１が右方向に移動しているときには、「右方向」が値１に設定され、それ以外の方向が値０に設定される。この場合、「右方向」は基準歩行者Ｍ１が直進方向に対して所定角度θ以上、右に移動するときに値１に設定される。さらに、基準歩行者Ｍ１が左方向に移動しているときには、「左方向」が値１に設定され、それ以外の方向が値０に設定される。この場合、「左方向」は基準歩行者Ｍ１が直進方向に対して所定角度θ以上、左に移動するときに値１に設定される。

さらに、前述したマスク画像作成部３２ｅでは、クラスタリング部３２ｃで作成された学習用の軌道データ及びＬＩＤＡＲ３１の計測結果に基づき、マスク画像（図１２参照）の時系列が作成される。このマスク画像は、基準歩行者Ｍ１の視界に存在する近傍歩行者Ｍ２の配置を示すものであり、例えば、図１２に示すように、３人の近傍歩行者Ｍ２が存在する場合、これらの近傍歩行者Ｍ２の位置が３つの矩形のボックスＢとして表示される。同図において、３つのボックスＢの破線で示す領域は実際には赤色で表示され、それ以外の点描で示す領域は実際には黒色で表示される。

これと同時に、マスク画像の上端部には、計測時の目的地Ｐｏの位置が矩形の白色ボックスとして表示される。この目的地Ｐｏは、基準歩行者Ｍ１の現時点の自己位置を基準としたときの前方の中央位置を０ｄｅｇとして、－９０ｄｅｇ～９０ｄｅｇの範囲内の値として設定される。

さらに、このマスク画像の下端には、基準歩行者Ｍ１のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙが、２つの矩形の白色ボックスとして表示される。これらのｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙはそれぞれ、基準歩行者Ｍ１のｘ軸方向及びｙ軸方向の速度成分であり、基準歩行者Ｍ１の最小移動速度ｖ＿ｍｉｎ（例えば値０）と最大移動速度ｖ＿ｍａｘの範囲内の値として設定される。

そして、学習用データ作成部３２では、以上のように取得された基準歩行者Ｍ１の移動方向指令の時系列及びマスク画像の時系列において、互いに同期の時系列がリンク付けされることにより、多数の学習用データが作成される。これらの学習用データは、学習用データ作成部３２からＣＮＮ学習部３３に入力される。

図１３に示すように、ＣＮＮ学習部３３は、ＣＮＮ３３ａを備えており、このＣＮＮ３３ａは、畳み込み層（図ではＣｏｎｖと表記）３３ｂ及びプーリング層（図ではｐｏｏｌと表記）３３ｃと、全結合層（図ではＦＣと表記）３３ｄとを備えている。ＣＮＮ３３ａでは、複数組（１組のみ図示）の畳み込み層３３ｂ及びプーリング層３３ｃが互いに交互に配置されており、全結合層３３ｄは、図示しないが、複数の結合層で構成されている。なお、本実施形態では、ＣＮＮ３３ａが移動態様モデルに相当する。

ＣＮＮ３３ａでは、学習用データ作成部３２から学習用データが入力された場合、学習用データのうちのマスク画像は、ＣＮＮ３３ａの最上層の畳み込み層３３ｂに入力され、その後、最下層のプーリング層３３ｃの出力が全結合層３３ｄに入力される。また、移動方向指令も全結合層３３ｄに入力される。

そして、最下層のプーリング層３３ｃの出力及び移動方向指令が全結合層３３ｄで結合されることにより、出力指令が全結合層３３ｄから出力される。この出力指令は、移動方向指令と同じ３つのラベル（「左方向」、「中央方向」及び「右方向」）を有し、これらのラベルの確率を表す値として出力される。

ＣＮＮ学習部３３では、移動方向指令と出力指令の損失関数（例えば平均２乗和誤差）を用い、誤差逆伝播法により、ＣＮＮ３３ａの全結合層３３ｄの重み及びバイアス項が演算される。すなわち、ＣＮＮ３３ａのモデルパラメータの学習演算が実行される。そして、以上の学習演算を多数回、実行することにより、ＣＮＮ学習部３３におけるＣＮＮ３３ａのモデルパラメータの学習演算が終了する。この学習装置３０では、以上のように、ＣＮＮ３３ａのモデルパラメータの学習が実行される。

次に、図１４を参照しながら、本実施形態の軌道決定装置１の構成について説明する。軌道決定装置１は、以下に述べる手法によって、ロボット２の軌道としての移動速度指令ｖを決定（算出）するものであり、この移動速度指令ｖは、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙの目標となる目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とするものである。

同図に示すように、軌道決定装置１は、マスク画像作成部５０、移動方向決定部５１、暫定移動速度決定部５２及び移動速度決定部５３を備えており、これらの要素５０～５３は、具体的には、制御装置１０によって構成されている。

まず、マスク画像作成部５０について説明する。このマスク画像作成部５０では、カメラ１１からの画像信号及びＬＩＤＡＲ１２からの計測信号が入力されると、ＳＳＤ（Single Shot MultiBox Detector）手法により、マスク画像が作成される。

このマスク画像内には、前述した図１２のマスク画像のボックスＢと同様に、前方の歩行者を含む交通参加者のボックス（図示せず）が表示され、ロボット２のｘ軸速度ｖ＿ｘ、ｙ軸速度ｖ＿ｙ及び目的地Ｐｏ（いずれも図示せず）が表示される。

この場合、交通参加者の位置及びサイズは、カメラ１１の画像信号及びＬＩＤＡＲ１２の計測信号に基づいて決定される。また、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙは、ＬＩＤＡＲ１２の計測信号及び加速度センサ１３の検出信号に基づいて決定される。さらに、目的地Ｐｏは、サーバ５からの目的地信号（図示せず）によって決定される。以上のように作成されたマスク画像は、マスク画像作成部５０から移動方向決定部５１に出力される。

一方、移動方向決定部５１は、前述したＣＮＮ学習部３３でモデルパラメータが学習されたＣＮＮ（図示せず）を備えており、このＣＮＮを用いて、ロボット２の移動方向を以下のように決定する。

まず、移動方向決定部５１では、マスク画像作成部５０からのマスク画像がＣＮＮに入力されると、前述した出力指令がＣＮＮから出力される。次いで、出力指令の３つの要素（「左方向」、「中央方向」及び「右方向」）のうち、最大値の要素の方向がロボット２の移動方向として決定される。そして、以上のように決定されたロボット２の移動方向は、移動方向決定部５１から暫定移動速度決定部５２に出力される。

この暫定移動速度決定部５２では、移動方向決定部５１からのロボット２の移動方向と、ロボット２のｘ軸速度ｖ＿ｘ及びｙ軸速度ｖ＿ｙとに基づき、暫定移動速度指令ｖ＿ｃｎｎを算出する。この暫定移動速度指令ｖ＿ｃｎｎは、ロボット２のｘ軸速度の暫定値ｖ＿ｘ＿ｃｎｎ及びｙ軸速度の暫定値ｖ＿ｙ＿ｃｎｎを要素とするものである。次いで、以上のように決定されたロボット２の暫定移動速度指令ｖ＿ｃｎｎは、暫定移動速度決定部５２から移動速度決定部５３に出力される。

この移動速度決定部５３では、暫定移動速度指令ｖ＿ｃｎｎに基づき、ＤＷＡ（Dynamic Window Approach）を適用したアルゴリズムにより、移動速度指令ｖが決定される。この移動速度指令ｖは、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とするものである。

本実施形態の軌道決定装置１では、以上のように、目標ｘ軸速度ｖ＿ｘ＿ｃｍｄ及び目標ｙ軸速度ｖ＿ｙ＿ｃｍｄを要素とする移動速度指令ｖが決定される。そして、ロボット２が移動速度指令ｖで移動するように、第１及び第２アクチュエータ２４，２５が制御される。

以上のように、本実施形態のモデルパラメータ学習方法によれば、移動軌道取得部３２ａにおいて、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータが取得され、データ抽出記憶部３２ｂにおいて、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータから、前述した条件（ｆ１）～（ｆ６）をいずれも満たすデータが条件充足データとして取得され、特徴量ベクトルが手順（ｃ１）～（ｃ６）によって条件充足データから算出されるとともに、クラスタリング用のデータが、特徴量ベクトルを条件充足データにリンク付けしたデータとして取得され、記憶される。その際、クラスタリング用のデータは、着目領域Ａ内での近傍歩行者Ｍ２の人数ｎに対応して、ｎ個のデータセットに選別して記憶される。

また、クラスタリング部３２ｃでは、データ抽出記憶部３２ｂに記憶されているｎ個のデータセットの各々に対して、近傍歩行者Ｍ２の人数ｎの少ないデータセットから順に図１１のクラスタリング処理を実行することにより、学習用の軌道データが取得される。このクラスタリング処理では、クラスタ数が決定され、特徴量ベクトルのクラスタリングが実行される。そして、ｎ個の全データセットのクラスタリングが終了した際、全データセット間のデータ数を均等に揃えたデータが、学習用の軌道データとして取得される。

このように特徴量ベクトルがクラスタリングされるので、特徴量ベクトルがリンク付けされた学習用の軌道データを、偏りのないようにクラスタリングされたデータとして取得することができる。これに加えて、全クラスタの各々のリンク付けデータの数が均等になるように、学習用の軌道データが取得されるので、学習用の軌道データの均一性を確保することができる。

さらに、移動方向取得部３２ｄでは、クラスタリング部３２ｃで作成された学習用の軌道データ及びＬＩＤＡＲ３１の計測結果に基づき、サンプリング時の基準歩行者Ｍ１の移動方向指令の時系列が取得（算出）され、マスク画像作成部３２ｅでは、クラスタリング部３２ｃで作成された学習用の軌道データ及びＬＩＤＡＲ３１の計測結果に基づき、マスク画像の時系列が作成されるとともに、これらの移動方向指令の時系列及びマスク画像の時系列を学習用データとして用いて、ＣＮＮ３３ａのモデルパラメータの学習が実行される。

このように、マスク画像が、偏りのないようにクラスタリングされた学習用の軌道データを用いて作成され、そのようなマスク画像を学習用データとして用いることにより、ＣＮＮ３３ａのモデルパラメータが学習されるので、このモデルパラメータを効率よく適切に学習することができる。

さらに、前述した条件（ｆ１）～（ｆ６）は、基準歩行者Ｍ１及び近傍歩行者Ｍ２の移動態様が学習に適した状態にあることを判定するためのものであるので、準歩行者Ｍ１及び近傍歩行者Ｍ２の移動態様が学習に適した状態にあるデータを用いて、学習用データを取得することができる。それにより、モデルパラメータの学習効果を向上させることができる。

これに加えて、軌道決定装置１の移動方向決定部５１では、ＣＮＮ学習部３３でモデルパラメータが学習されたＣＮＮを用いて、ロボット２の移動方向が決定されるので、ロボット２が人混みが存在する環境下で移動する場合でも、ロボット２の周辺に存在する歩行者との干渉を回避できるように、ロボット２の移動方向を適切に決定することができる。

なお、実施形態は、第１移動体として、基準歩行者Ｍ１を用いた例であるが、本発明の第１移動体は、これに限らず、複数の第２移動体の各々との干渉を回避しながら移動できるものであればよい。例えば、第１移動体として、自律移動型のロボットを用いてもよく、自動運転可能な車両を用いてもよい。

また、実施形態は、第２移動体として、近傍歩行者Ｍ２を用いた例であるが、これに代えて、第２移動体として、自律移動型のロボット、自動運転可能な車両又は動物などを用いてもよい。

さらに、本発明の移動体は、歩行者、自律移動型のロボット、自動運転可能な車両又は動物などであってもよい。

また、実施形態は、移動装置として、ロボット２を用いた例であるが、本発明の移動装置は、これに限らず、移動装置の周辺に複数の移動体が存在する条件下で目的地まで移動するものであればよい。例えば、移動装置として、車両型のロボット又は２足歩行型のロボットを用いてもよい。

さらに、実施形態は、移動装置の移動態様として、ロボットの移動方向を用いた例であるが、本発明の移動態様は、これに限らず、移動装置が目的地まで移動する際の移動態様を表すものであればよい。例えば、移動態様として、ロボットの移動速度（ｖｘ，ｖｙ）を用いてもよく、その場合には、ＣＮＮ学習部３３において、移動速度を出力とするＣＮＮ３３ａのモデルパラメータを学習するように構成すればよい。

一方、実施形態は、移動態様モデルとしてＣＮＮを用いた例であるが、本発明の移動態様モデルは、これに限らず、移動装置が目的地まで移動する際の移動態様を決定するためのものであればよい。例えば、移動態様モデルとして、ＲＮＮ（Recurrent Neural Network）及びＤＱＮ（deep Q-network）などを用いてもよい。

また、実施形態は、所定のクラスタリング手法として、ｋ－ｍｅａｎｓ法を用いた例であるが、本発明の所定のクラスタリング手法は、これに限らず、特徴量ベクトルのクラスタリングを実行するものであればよい。例えば、所定のクラスタリング手法として、超体積法などを用いてもよい。また、実施形態は、クラスタリングが収束したか否かを判定した例であるが、これに代えて、クラスタリングが終了したか否かを判定してもよい。

さらに、実施形態は、所定の機械学習アルゴリズムとして、誤差逆伝播法を用いた例であるが、本発明の所定の機械学習アルゴリズムは、これに限らず、移動態様モデルのモデルパラメータを学習するものであればよい。例えば、サポートベクターマシンなどを用いてもよい。

一方、実施形態は、所定領域として、着目領域Ａを用いた例であるが、本発明の所定領域は、これに限らず、第１移動体及び第２移動体が移動する領域であればよい。例えば、所定領域を５角以上の多角形領域としてもよく、楕円形又は円形の領域としてもよい。

また、実施形態は、データ抽出記憶部３２ｂにおいて、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータから、前述した条件（ｆ１）～（ｆ６）がいずれも満たされているデータを条件充足データとして抽出した例であるが、データ抽出記憶部３２ｂにおいて、下記のように条件充足データを抽出するように構成してもよい。

例えば、前述した（ｆ１）～（ｆ２）の少なくとも一方を１次条件とし、この１次条件が満たされているデータを、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータから、条件充足データとして抽出するように構成してもよい。さらに、前述した２次条件（ｆ３）～（ｆ６）の少なくとも１つを２次条件とし、１次条件に加えて２次条件が満たされているデータを、第１移動軌道Ｒｗ１及び第２移動軌道Ｒｗ２のリンク付けデータから、条件充足データとして抽出するように構成してもよい。

１軌道決定装置（移動態様決定装置）
２ロボット（移動装置）
３０学習装置
３２学習用データ作成部（第６ステップ）
３２ａ移動軌道取得部（第１ステップ）
３２ｂデータ抽出記憶部（第２ステップ）
３２ｃクラスタリング部（第３～第５ステップ）
３３ａＣＮＮ（移動態様モデル）
３５環境情報画像（環境情報）
Ｍ１基準歩行者（第１移動体）
Ｍ２近傍歩行者（第２移動体）
Ａ着目領域（所定領域）

Claims

移動装置の周辺に複数の移動体が存在する条件下で、当該移動装置が目的地まで移動する際の移動態様を決定するための移動態様モデルのモデルパラメータを学習装置によって学習するモデルパラメータ学習方法であって、
前記学習装置は、
第１移動体の周辺に複数の第２移動体が存在する条件下で当該第１移動体が当該複数の第２移動体の各々との干渉を回避しながら前記目的地まで移動した場合において、各回の移動期間における前記第１移動体の前記移動態様を表す第１移動態様パラメータの時系列と、当該第１移動態様パラメータの時系列と同期の前記複数の第２移動体の移動態様をそれぞれ表す複数の第２移動態様パラメータの時系列とを互いにリンク付けしたデータであるリンク付けデータを取得する第１ステップと、
当該第１ステップで取得されたリンク付けデータから所定条件を満たすリンク付けデータである条件充足データを抽出し、当該条件充足データから特徴量ベクトルを抽出するとともに、当該特徴量ベクトルを当該条件充足データにリンク付けする第２ステップと、
当該第２ステップで前記条件充足データにリンク付けされた前記特徴量ベクトルをクラスタリングする際のクラスタ数を所定手法により決定する第３ステップと、
当該第３ステップで決定された前記クラスタ数の全クラスタの前記特徴量ベクトルを所定のクラスタリング手法によってクラスタリングする第４ステップと、
前記全クラスタの前記特徴量ベクトルのクラスタリングが終了した場合、当該特徴量ベクトルがリンク付けされている前記条件充足データを学習用データとして取得する第５ステップと、
前記学習用データを用いて、前記移動態様モデルのモデルパラメータを所定の機械学習アルゴリズムにより学習する第６ステップと、
を実行することを特徴とするモデルパラメータ学習方法。
請求項１に記載のモデルパラメータ学習方法において、
前記第２ステップでは、前記特徴量ベクトルをリンク付けした条件充足データを、前記第１移動体が所定領域内を移動した際に当該所定領域内に存在する前記第２移動体の数ｎ（ｎは１以上の整数）に対応して選別することにより、ｎ個のデータセットが設定され、
前記第３～第４ステップは、当該ｎ個のデータセットの各々に対して個別に実行され、
前記第５ステップでは、前記ｎ個のデータセットの全てにおける前記特徴量ベクトルのクラスタリングが終了した場合、当該ｎ個のデータセット間における前記条件充足データの数が互いに均等になるように調整したデータが前記学習用データとして取得されることを特徴とするモデルパラメータ学習方法。
請求項１又は２に記載のモデルパラメータ学習方法において、
前記第２ステップでは、前記第１移動体の移動距離が所定距離以上であること、及び、前記第１移動体の移動軌道において曲率半径が所定半径以下の部分が存在しないことの少なくとも一方が１次条件として設定されており、当該１次条件を満たすことが前記所定条件を満たすことに相当するように構成されていることを特徴とするモデルパラメータ学習方法。
請求項３に記載のモデルパラメータ学習方法において、
前記第２ステップでは、
前記第１移動体が所定領域内を移動した際に当該所定領域に進入してから当該所定領域を脱出していること、
前記第１移動体が前記所定領域内を移動している際に１つ以上の前記第２移動体が当該所定領域内に存在すること、
前記第１移動体の前記所定領域内での平均移動速度が所定の上限値と所定の下限値との間にあること、
及び、前記第２移動体の前記所定領域内での平均移動速度が前記所定の上限値と前記所定の下限値との間にあることの少なくとも１つが２次条件として設定されており、
前記１次条件に加えて当該２次条件をさらに満たすことが前記所定条件を満たすことに相当するように構成されていることを特徴とするモデルパラメータ学習方法。
請求項１ないし４のいずれかに記載のモデルパラメータ学習方法によって前記モデルパラメータが学習された前記移動態様モデルを用いて、移動態様決定装置により、前記移動装置の前記移動態様が決定されることを特徴とする移動態様決定方法。