JP2018084972A

JP2018084972A - 車両軌道用グラフ生成装置

Info

Publication number: JP2018084972A
Application number: JP2016227976A
Authority: JP
Inventors: 謙太郎人見; Kentaro Hitomi; 一仁竹中; Kazuhito Takenaka; 正倫下坂; Masamichi Shimosaka; 佐藤　潤一; Junichi Sato; 潤一佐藤
Original assignee: Denso Corp; Tokyo Institute of Technology NUC
Current assignee: Denso Corp; Tokyo Institute of Technology NUC
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2018-05-31
Anticipated expiration: 2036-11-24
Also published as: JP6708535B2

Abstract

【課題】車両の軌道の基となる軌道生成用グラフを生成するグラフ生成装置において、より精度の高い軌道を生成するための軌道生成用グラフを生成できるようにする。【解決手段】運転支援装置１において、グラフ生成部３３は、軌道を求める対象となる対象車両の走行状態を取得し、走行状態に応じて、基準となるノードを表す基準ノードから対象車両が到達可能な１または複数のノードを表す到達可能ノードを探索し、基準ノードから到達可能ノードのそれぞれにリンクを設定する。そして、最適パス探索部３８は、到達可能ノードのそれぞれにリスク量を対応付ける。【選択図】図２

Description

本開示は、複数のノードとノード間を接続するリンクとを有し車両の軌道の基となる軌道生成用グラフを生成する技術に関する。

以下に示す特許文献１では、上記の軌道生成用グラフを生成するグラフ生成装置であって、道路上の予め設定された位置に多数のノードを設定するとともにノード間を接続するリンクを設定し、各ノードに危険度を対応付けたグラフを生成する技術が開示されている。

特開２００６−１５４９６７号公報

上記技術では、どのような状況においても車両の走行状態を適切に考慮することなく同様の軌道生成用グラフを用いて軌道を生成することなるため、車両の状態によっては、制御上の制約を含む動力学的制約のために、走行不可能な軌道を生成する可能性が大きい。すなわちグラフ上での軌道生成の精度が低く、グラフ上で生成した離散的な軌道と実際に車両が取りうる連続的な軌道のずれが大きい、という問題がある。これに因り、生成したグラフ上の軌道を制御や予測に用いる場合は、連続的な軌道への変換における計算量が大きくなったり、不適切な軌道に変換される可能性がある。また後で述べるような車両の軌道データの集合にもとづくリスク関数の学習にグラフを用いる場合、連続値の軌道データ集合からグラフ上での軌道集合に変換し、それを学習データとしてリスク関数の形状を最適化するため、実際の連続値の軌道データからの乖離が大きいグラフ上での軌道データを学習して得たリスク関数は元の連続の軌道データを十分反映したものにはならない。従ってそれを用いて制御ための軌道を生成すると、急な加減速を行ったり他車両と接近しすぎる等、車両制御としては不適切なものになる危険性が大きい。また予測のための軌道を生成すると、実際に車両が取る軌道とはかけ離れたものになる、すなわち予測精度が低いといった不都合が生じる。

従って、車両の軌道の基となる軌道生成用グラフを生成するグラフ生成装置においては、より精度の高い軌道を生成するための軌道生成用グラフを生成できるようにすることが望ましい。これに対して本開示では、軌道生成用のグラフを生成する過程において、グラフ上のすべてのリンクに対応するノード間の遷移が必要な制約を満たしたものになるように保証する方法を提供し、実際に車両がとりうる連続的な軌道に対する近似精度が高い離散的な軌道をグラフ上で表現できるようにする。

本開示のグラフ生成装置（１）は、状態取得部（３３、Ｓ１００）、ノード探索部（３３、Ｓ２２０、Ｓ２３０、Ｓ２４０、Ｓ２５０）、リンク設定部（３３、Ｓ２７０）、およびリスク対応部（３７）を備える。

状態取得部は、軌道を求める対象となる対象車両の走行状態を取得するように構成される。また、ノード探索部は、走行状態に応じて、基準となるノードを表す基準ノードから対象車両が動力学的制約の範囲で一定時間で到達可能な１または複数のノードを表す到達可能ノードを探索するように構成される。また、リンク設定部は、基準ノードから到達可能ノードのそれぞれにリンクを設定するように構成され、リスク対応部は、到達可能ノードのそれぞれにリスク量を対応付けるように構成される。

すなわち、グラフ生成装置では、対象車両が到達可能なノードを表す到達可能ノードを探索し、このノードを含むグラフを生成して到達可能ノードのそれぞれにリスク量を対応付けておく。

したがって、このようなグラフ生成装置によれば、軌道を生成する際には、リスク量に応じて最適なリンクを選択してグラフ上の軌道を構成すれば、グラフ上の離散的な軌道と実際の車両が走行可能な連続的な軌道との誤差を小さく抑えることができる。すなわち、軌道を生成する際の精度を向上させることができる。

またノードそれぞれのリスク量の算定に用いられるリスク関数を、後述するように車両の軌道データから学習する場合、連続的な軌道データをグラフ上の離散軌道に置換えてから学習するのが一般的である。ここで本開示のグラフを用いることで連続軌道に対する近似精度の高い離散軌道にもとづいて学習することができ、したがってより高精度なリスク関数を得ることができる。

なお、この欄および特許請求の範囲に記載した括弧内の符号は、一つの態様として後述する実施形態に記載の具体的手段との対応関係を示すものであって、本開示の技術的範囲を限定するものではない。

運転支援装置の構成を示すブロック図である。軌道生成の構成を示すブロック図である。グラフ生成処理を示すフローチャートである。グラフ生成処理を示すプログラム例である。リンク追加処理を示すフローチャートである。リンク追加処理を示すプログラム例である。リンク追加処理の手順その１を示す説明図である。リンク追加処理の手順その２を示す説明図である。リンク追加処理の手順その３を示す説明図である。ノード追加処理を示すフローチャートである。ノード追加処理を示すプログラム例である。ノード追加処理の手順その１を示す説明図である。ノード追加処理の手順その２を示す説明図である。ノード追加処理の手順その３を示す説明図である。リスク関数学習の構成を示すブロック図である。支援処理を示すフローチャートである。

以下、図面を参照しながら、本開示の実施形態を説明する。
［１．実施形態］
［１−１．構成］
運転支援装置１は、例えば乗用車等の車両に搭載されている。運転支援装置１は、軌道を生成する対象となる車両を表す対象車両の走行状態に応じて、複数のノードとこれらのノードを接続するリンクとを有する軌道生成用グラフを生成し、この軌道生成用グラフを用いて運転支援を実施する。

なお、対象車両とは、任意の車両を表し、対象車両のうちの、運転支援装置１の構成の少なくとも一部が搭載された車両を自車両ともいう。運転支援装置１は、図１に示すように、制御部１０を備える。運転支援装置１は、各種センサ２１と、報知部２６と、支援実施部２７とを備えてもよい。

各種センサ２１としては、自車両の車速を検知する車速センサ、自車両の加速度を検知する加速度センサ、自車両のアクセル開度を検知する開度センサ、自車両の操舵角を検知する操舵角センサ、自車両のブレーキ操作量を検知するブレーキセンサ、自車両の現在地を検出する位置センサ、交通オブジェクト情報Ｏｊを検知するレーダやカメラ等、周知のセンサを備える。各種センサ２１は、各値の検知結果を制御部１０に送る。

なお、交通オブジェクトとは、交通に関する物体を意味し、交通オブジェクト情報Ｏｊには交通に関する物体の位置や移動速度等の情報が含まれる。交通オブジェクトには、例えば、他車両、白線、道路の縁、障害物等が含まれる。

報知部２６は、制御部１０にて生成された表示画像を表示させるディスプレイや、制御部１０にて生成された音声を出力するスピーカ等、何らかの注意を促す情報をドライバに報知するための構成とされる。なお、報知部２６の構成は周知の構成を採用することができる。

支援実施部２７は、制御部１０による指令に従って自車両のアクセル開度、ブレーキ操作量、ハンドル舵角等の自車両の移動ベクトルを制御することで自車両の運転支援を行う。

制御部１０は、ＣＰＵ１１と、ＲＡＭ、ＲＯＭ、フラッシュメモリ等の半導体メモリ（以下、メモリ１２）と、を有する周知のマイクロコンピュータを中心に構成される。制御部１０の各種機能は、ＣＰＵ１１が非遷移的実体的記録媒体に格納されたプログラムを実行することにより実現される。

この例では、メモリ１２が、プログラムを格納した非遷移的実体的記録媒体に該当する。また、このプログラムが実行されることで、プログラムに対応する方法が実行される。なお、非遷移的実体的記録媒体とは、記録媒体のうちの電磁波を除く意味である。また、制御部１０を構成するマイクロコンピュータの数は１つでも複数でもよい。

制御部１０は、ＣＰＵ１１がプログラムを実行することで実現される機能の構成のうち、軌道を生成するための構成として、図２に示すように、情報収集部３１、グラフ生成部３３、リスク場生成部３７、最適パス探索部３８を備える。また、リスク関数を求めるための構成として、図１５に示すように、軌道データ離散化部３４、逆強化学習部３５と、既出の情報収集部３１、グラフ生成部３３とを備える。また、軌道を生成するための構成として、図２に示すように、リスク場生成部３７、最適パス探索部３８と、既出の情報収集部３１、グラフ生成部３３とを備える。

なお、前述のメモリ１２の一部として、車両軌道ＤＢ３２、リスク関数ＤＢ３６を備える。データベースはＤＢと表記する。
制御部１０を構成するこれらの要素を実現する手法はソフトウェアに限るものではなく、その一部または全部の要素について、一つあるいは複数のハードウェアを用いて実現してもよい。例えば、上記機能がハードウェアである電子回路によって実現される場合、その電子回路は多数の論理回路を含むデジタル回路、またはアナログ回路、あるいはこれらの組合せによって実現してもよい。

［１−２．処理］
制御部１０が有する機能の構成は、情報処理によって実現される。
軌道を生成する際の処理については図２を用いて説明する。図２に示すように、軌道を生成する際において、情報収集部３１の機能は、自車両の現在の走行環境に応じた交通オブジェクト情報Ｏｊを取得する。

そして、リスク場生成部３７の機能では、情報収集部３１にて得られた交通オブジェクト情報Ｏｊと、後述するリスク関数で求められる各座標でのリスク量とに応じて、座標値毎にリスク量を対応付けたリスク場を得る。このリスク場では、例えば他車両や障害物等、他の物体が存在する位置に近づくにつれてリスク量が高くなるよう設定される。

グラフ生成部３３としての機能では、グラフ生成処理を実行することによってグラフ情報Ｇｒを生成する。なお、グラフ生成処理については後述する。なお、グラフ生成処理で生成されたグラフでは、各ノードにリスク量が対応付けられていない。そこで、以下に示す処理にて各ノードにリスク量を対応付ける。

最適パス探索部３８の機能では、グラフ情報Ｇｒから得られる複数のノードのうちから始点ノードおよび終点ノードを設定し、始点ノードから終点ノードまでをリンクに沿って移動するものとして、通過するノードに対応付けられたリスク量の総和が最小となるパスを探索し、リスク量の総和が最小となるパスを対象車両の軌道Ｗｇとして設定する。

この際、各ノードにおけるリスク場の値、すなわちリスク関数に到達可能ノードの状態量を入力することによって得られた値の総和を各ノードのリスク量として対応付ける。なお、到達可能ノードとは、走行状態を考慮したときに対象車両が基準ノードから所定の一定時間で到達可能な１または複数のノードを表す。言い換えれば、到達可能ノードとは、基準ノードでの車両走行状態と動力学的制約に従って所定の時間で到達可能な１または複数のノードとも言える。

次に、グラフ生成処理について図３を用いて説明する。グラフ生成処理は、制御部１０のうちのグラフ生成部３３としての機能が実行する処理であり、グラフを生成する旨の指令が入力されると開始される。なお、図４はグラフ生成処理の一例を示す疑似コードである。参考のために提示するものである。

グラフ生成処理では、図３に示すように、まず、Ｓ１００にて、車両情報を取得する。ここでの車両状態には、対象車両の走行状態が含まれる。なお、走行状態とは、車両の走行に関する値を示し、例えば、対象車両の速度、加速度、ヨーレート等が該当する。

続いて、Ｓ１１０にて、グラフを構成するノード集合Vの初期化を行う。初期ノードの集合Ｖ_initialは、例えば、現在の自車の走行状態に対応する始点ノード、終端状態に対応する終点ノード、および始点ノードと終点ノードを対角の頂点とする、または内部に包含する矩形内にランダムに配置したノードから構成すればよい。生成した初期ノード集合は、その時点でのノード集合Vとみなす。続いて、基準ノードｘ_τを選択する。基準ノードとは、複数のノードのうちの基準となるノードを表す。例えば、対象車両の現在値を示すノード等、任意のノードが最初に選択される基準ノードとなり得る。本処理では、対象車両の現在値を示すノードを起点として、基準ノードを逐次変更しながら処理を進める。

続いて、Ｓ１２０にて、リンク追加処理を実施する。リンク追加処理は、基準ノードから到達可能ノードにリンクを追加して設定する処理である。なお、リンク追加処理の詳細については後述する。

続いて、Ｓ１３０にて、ノード追加処理を実施する。ノード追加処理は、基準ノードに設定されたリンクの数が基準数となるようにリンクの数を追加する処理である。なお、ノード追加処理の詳細については後述する。

続いて、Ｓ１４０にて、軌道生成領域として予め設定された道路の領域を外れて設定されたノードを削除する。つまり、自車両の走行状態に基づいて走行可能な位置であっても、実際の道路の状態等の走行環境に基づいて走行不可能と判断される領域に位置するノードについては削除する。

続いて、Ｓ１５０にて、新規に追加されたノードに対するリンク追加処理およびノード追加処理が終了したか否かを判定する。新規に追加されたノードに対するリンク追加処理およびノード追加処理が終了していなければ、Ｓ１２０の処理に戻る。また、新規に追加されたノードに対するリンク追加処理およびノード追加処理が終了していれば、新たに追加されたノードをノードの集合Ｖに追加する。

続いて、Ｓ１８０にて、未選択の基準ノードｘ_τの有無を判定する。未選択の基準ノードｘ_τがあれば、Ｓ１９０にて、未選択の基準ノードｘ_τの何れかを選択し、Ｓ１２０に戻る。また、未選択の基準ノードｘ_τがなければ、グラフ生成処理を終了する。

次に、リンク追加処理の詳細について説明する。
リンク追加処理では、図５に示すように、基準ノードから到達可能ノードにリンクを追加して設定する。なお、図６はリンク追加処理の一例を示す疑似コードである。参考のために提示するものである。

リンク追加処理では、図５に示すように、まず、Ｓ２１０にて、ステップ数κを入力するとともに、制御入力ｕ_{τ＋１：τ＋κ}を任意の初期値に設定する。ステップ数κとは、繰り返し実施される任意の処理が実行される回数を表す。したがって、例えば、ｕが加減速と操舵角を表す場合、加減速と操舵角を決定・実行する周期が５０ｍｓであれば、ステップ数κは５０ｍｓ＊κの時間を表すともいえる。

続いて、Ｓ２２０にて、複数のノードのうちＳ１１０にて指定された基準ノードｘ_τ以外のあるノードｘをリンク追加可否の判定対象として選択する。続いて、Ｓ２３０にて、基準ノードｘ_τ、制御入力ｕ_{τ＋１：τ＋κ}、状態方程式ｆに従って、κステップ後の自車両の状態ｘ_τ+κを演算する。

状態方程式ｆは制御入力を受けた車両の一時刻の動きを表す車両運動モデルで、すなわち制御の時間ステップtに対して車両の走行状態x_t-1と制御入力u_tを入力としてx_tを出力する関数である。

続いて、Ｓ２４０にて、自車両の状態ｘ_τ+κと基準ノード以外のノードｘの位置との誤差δｘ、および拡張ヤコビ行列Ｊとに基づいて誤差δｘが小さくなるように制御入力ｕ_{τ＋１：τ＋κ}を修正する。ただし、制御入力ｕ_{τ＋１：τ＋κ}には、現在の車両の走行状態に応じて採りうる範囲が予め設定される。例えば、車両の運動特性・制御特性と現在の速度等をもとに決まる、加速度の上限値および下限値、加速度の変化量の上限値および下限値等の制限値が設定される。

また、拡張ヤコビ行列Ｊについては下記のように設定される。
例えば、自車両の状態が、連続な状態

および入力

に対して、状態方程式が

で表わされる系とする。
拡張ヤコビ行列Ｊについては下記のように表すことができる。

なお、

とする。これにもとづき

と求めることができ、制御入力uを、所定の学習係数ηを用いてu+ηδu_{τ＋１：τ＋κ}と更新する。ただし更新の結果uの制限を超える次元があれば、制限値までの更新とする。更新されたuにもとづいてx_τ＋κ、δuの計算とuの更新を繰り返すことで、uの制限の範囲内でx_τ＋κをxに近づける。

すなわち、Ｓ２４０では、誤差δｘが小さくなるよう制御入力ｕ_{τ＋１：τ＋κ}を変更する。
続いて、Ｓ２５０にて、制御入力ｕ_{τ＋１：τ＋κ}が収束したか否かを判定する。制御入力ｕ_{τ＋１：τ＋κ}が収束する場合とは、制御入力ｕ_{τ＋１：τ＋κ}の値の変化がごく小さくなったことを表す。制御入力ｕ_{τ＋１：τ＋κ}が収束する場合には、誤差δｘが充分小さくなった場合と、制御入力ｕ_{τ＋１：τ＋κ}が上限値または下限値と一致した場合とがある。

制御入力ｕ_{τ＋１：τ＋κ}が収束していなければ、Ｓ２３０に戻る。また、制御入力ｕ_{τ＋１：τ＋κ}が収束していれば、Ｓ２６０にて、誤差δｘと予め設定された閾値εとを比較する。

誤差δｘが閾値ε以上であれば、後述するＳ２８０に移行する。また、誤差δｘが閾値ε未満であれば、Ｓ２７０にて、基準ノードｘ_τからノードｘへのリンクを新たに設定する。つまり、誤差δｘが充分小さくなっていれば、このノードｘへ到達可能であるものとしてリンクを張る。

続いて、Ｓ２８０にて、全てのノードｘがｘ_τを起点とするリンクの追加可否の判定対象のノードとして選択されたか否かを判定する。何れかのノードｘが選択されていなければ、Ｓ２９０にて未選択の他のノードｘを選択し、Ｓ２３０の処理に戻る。

また、全てのノードｘが選択されていれば、リンク追加処理を終了する。
このようなリンク追加処理では、例えば、図７に示すように、ノードｘ_１を基準ノードとすると、基準ノードｘ_１からステップ数κで到達可能な自車両の位置ｘ_τ+κの範囲が図８の破線にて示すような領域として求められる。つまり、制御入力ｕ_{τ＋１：τ＋κ}を変更しつつ誤差δｘを演算することによって、自車両の位置ｘ_τ+κが領域として求められる。

ただし、本処理ではこの領域を直接的に求める必要はない。つまり、誤差δx＜閾値εにできれば対象のノードが領域内にあることが判るということから、各ノードに対して誤差δx＜閾値εであるか否かを判定する処理を行い、対象ノードが領域内にあるか否かを判定している。そして、図９に示すように、この領域内のノードにリンクを設定することになる。このようなノードおよびリンクは、軌道生成用グラフを構成する。

次に、ノード追加処理の詳細について説明する。ノード追加処理では、図１０に示すように、基準ノードに設定されたリンクの数が基準数となるようにリンクの数を追加する。なお、図１１はノード追加処理の一例を示す疑似コードである。参考のために提示するものである。

ノード追加処理では、図１０に示すように、まずＳ３１０にて、制限値の範囲内で制御入力ｕ_{τ＋１：τ＋κ}を算出する。そして、Ｓ３２０にて、制御入力ｕ_{τ＋１：τ＋κ}に従うノードｘ_τ＋κを状態方程式ｆにより算出し、基準ノードｘ_τからノードｘ_τ＋κまでの新たなリンクを、ｘ_τから出るリンクの集合Ｅ（ｘ_τ）に追加する。

続いて、Ｓ３３０にて、基準ノードｘ_τからのリンク数｜Ｅ（ｘ_τ）｜と予め設定されたリンク設定数｜Ａ｜とを比較する。リンク数｜Ｅ（ｘ_τ）｜がリンク設定数｜Ａ｜未満であれば、Ｓ３１０に戻る。また、リンク数｜Ｅ（ｘ_τ）｜がリンク設定数｜Ａ｜以上であれば、ノード追加処理を終了する。

このようなノード追加処理では、例えば、図１２に示すように、基準ノードｘ_１からステップ数κで到達可能な自車両の位置ｘ_τ+κの範囲内にノードがリンク設定数｜Ａ｜未満しか存在しない場合であっても、図１３に示すように、新たなノードＮが追加される。例えば、現在のリンク数が３であり、リンク設定数｜Ａ｜が４である場合、１つのノードＮが追加される。そして、図１４に示すように、基準ノードｘ_１からノードＮまでの新たなリンクＥ（ｘ_τ）が追加される。

上記のように説明したグラフ生成処理では、リンクを設定した到達可能ノードのそれぞれを基準ノードとして、新たな到達可能ノードを探索し、新たな到達可能ノードが探索される度に、それぞれの基準ノードからそれぞれの到達可能ノードにリンクを設定する。ただし、リンクの設定後、軌道生成をしても自車両が走行できない領域に生成されたノードは削除する。

このような処理を繰り返すことで、自車両が走行可能な領域内で、かつ軌道生成可能な領域内で、グラフを生成することになる。
次に、リスク関数を求めるための構成については図１５を用いて説明する。

情報収集部３１としての機能では、任意の車両が走行した経路である軌道Ｗｒ、および交通オブジェクトの種別や位置に関するオブジェクト情報Ｏｊを取得する。
情報収集部３１の機能が、軌道Ｗｒとして、自車両の軌道を取得する際には、例えば、各種センサ２１による検知結果を用いて軌道を推定し、この軌道を自車両の軌道とする。軌道Ｗｒとして、他車両の軌道を取得する際には、例えば、周知の通信技術を用いて、他車両やサーバ等において蓄積された他車両の軌道を取得する。取得した軌道は、車両軌道ＤＢ３２に記録される。

グラフ生成部３３としての機能では、グラフ生成処理を実行することによってグラフ情報Ｇｒを生成する。なお、グラフ生成処理については後述する。
軌道データ離散化部３４としての機能では、グラフ情報Ｇｒとを用いて、車両軌道ＤＢ３２から得られる軌道Ｗｒを離散化する。すなわち、グラフ情報Ｇｒに基づいて、走行履歴として車両軌道ＤＢ３２に記録されている軌道のそれぞれを、グラフ上で形状が最も類似している離散軌道に変換し、離散軌道上のノードの座標値の系列Wdとして得る。例えば、連続値で測定された軌道{s₁,...,s_T}に対し、次式で定義するコストを最小化するグラフ上のノードx_n∈Vを逐次的に求めることで、離散的な状態系列Wdとする。

この際、郊外の道路や統制された特殊な作業場等の、自車両以外に移動体が存在しない特定領域のみを対象とする場合、軌道Wdとして走行された軌道はグラフ上の経路としてありえる他の軌道より安全な軌道であるものとして、Wd上のノードを、リスク量を他のノードよりも低減させるべきノードとして分類し、各ノードのリスク量を調整する。なお、リスク量とは、車両が走行するにあたり、事故が発生する可能性の高さ等、車両にとっての危険性を数値化した値を示す。

自車両以外の移動体が存在する領域で軌道を取得したり、複数の領域における軌道が混在している場合、ノードに直接リスク量を付与せず、逆強化学習を用いてオブジェクト依存のリスク関数を調節することで、その都度の状況に合わせたリスク量を算出できるリスク関数を得ればよい。逆強化学習部３５としての機能では、軌道データ離散化部３４による出力として得られる離散軌道Wdのセットを用いて、逆強化学習を行う。逆強化学習は、離散軌道のデータセットからリスク関数を得るためのアルゴリズムであり、ここでは、軌道上のノードに対応した状態量を入力として、ノードのリスク量を求めるための関数を表すリスク関数を得る。

なお、逆強化学習は、周知の技術であり、例えば、下記の文献にて詳細が開示されている。
文献１：“Algorithms for inverse reinforcement learning”, Ng, A. and Russel, S., ICML, 2000、
文献２：“Maximum Entropy Inverse Reinforcement Learning”, Ziebart B., et al., AAAI, 2008。

なお、本開示におけるリスク関数は文献によっては報酬関数、コスト関数、ポテンシャル関数等、異なる名称を用いられることがある。
逆強化学習部３５の機能で得られたリスク関数は、リスク関数ＤＢ３６に記録される。逆強化学習によって得られたリスク関数を用いると、実際に走行された軌道Ｗｒはより安全な軌道であるものとして、よりリスク量が低く設定される。

リスク関数は走行状態を入力として、リスク量を返す関数であり、例えば下記の文献３におけるfeature descriptor f(s) にて示すように、指数関数を用いてリスクが一般的に高いと考えられる走行状態において値が高くなるよう設計すればよい。

文献３：“Modeling Risk Anticipation and Defensive Driving on Residential Roads with Inverse Reinforcement Learning”, Simosaka, M., et al., 2014 IEEE 17th International Conference on Intelligent Transportation Systems (ITSC)）。

上記の文献３ではリスク関数を下記のように設定する。

この式では、s とΣの値を変えたものを複数用意することで、過大・過小な速度の走行状態や、信号のない交差点付近での高速走行状態、直線部での低速走行状態等における値が小さくなるようなリスク関数を用意している。ただし、この表記でのsは走行状態を示す。

また、上記の特許文献１では、他車両等の障害物ｉに因るリスク関数を、「危険度場を構成する諸要素のうち、障害物ｉの存在に因る直接寄与項」として次のように設計している。

ただし、Ｏ＿ｉは障害物ｉによって専有されている領域として設計されており、ａ＿ｉ、ｂ＿ｉは設計者が設計するパラメータ、ｘ＿ｉ（ｔ）、ｙ＿ｉ（ｔ）は障害物ｉの時刻ｔにおける予測位置である。各障害物に対して、

を用意し、その総和をノードの危険度としている。
これらのリスク関数は走行状態として自車速度や自車・障害物の位置を入力としているが、例えば加速度や、相対速度にもとづいたものを設計してもよい。得られたリスク関数は、リスク関数ＤＢ３６に記録される。

なお、グラフ中の各ノードのリスク量は、ノードに対応した走行状態をリスク関数に入力して得られる。ただし、特許文献１では”危険度の総和”がリスク量に該当する。グラフ上の経路のリスク量は、経路に含まれるノードのリスク量の総和として得られる。

このようにして得られたグラフ情報Ｇｒや軌道Ｗｇは、任意の処理で利用することができる。例えば、軌道Ｗｇを用いる場合、図１６に示すような支援処理を実施することができる。

なお、グラフ情報Ｇｒを他の装置に提供するような場合には、各ノードにリスク量を対応付ける処理は他の装置にて実施してもよい。つまり、各ノードにリスク量を対応付ける構成は、運転支援装置１において必須の構成ではない。

支援処理では、図１６に示すように、まず、Ｓ４１０にて、自車両の現在地を取得する。続いて、Ｓ４２０にて、自車両についての車両情報を取得する。車両情報を取得する処理は前述のＳ１００の処理と同様の処理を採用できる。

続いて、Ｓ４３０にて、軌道生成処理を実施する。軌道生成処理は、図２を用いて説明した軌道を生成する際の処理に相当する処理である。
続いて、Ｓ４４０にて、例えば軌道Ｗｇに沿って自車両を走行させるための制御量を演算する。ここでの制御量には、アクセル開度、ブレーキ量、操舵量等、自車両の走行に影響を与えうるパラメータが含まれうる。また、例えば、軌道Ｗｇと実際の自車両の軌道との逸脱程度に応じて報知部２６から出力する警報についての制御量を演算してもよい。

続いて、Ｓ４５０にて、求めた制御量を報知部２６や支援実施部２７に対して出力する。この処理により、軌道Ｗｇに応じた支援を実現する。
このような処理が終了すると、支援処理を終了する。

［１−３．効果］
以上詳述した第１実施形態によれば、以下の効果を奏する。
（１ａ）上記の運転支援装置１において、グラフ生成部３３は、軌道を求める対象となる対象車両の走行状態を取得する。また、グラフ生成部３３は、走行状態に応じて、複数のノードのうちの基準となるノードを表す基準ノードから対象車両が到達可能な１または複数のノードを表す到達可能ノードを探索する。また、グラフ生成部３３は、基準ノードから到達可能ノードのそれぞれにリンクを設定し、最適パス探索部３８は、到達可能ノードのそれぞれにリスク量を対応付ける。

すなわち、運転支援装置１では、対象車両が到達可能なノードを表す到達可能ノードを探索し、このノードを含むグラフを生成して到達可能ノードのそれぞれにリスク量を対応付けておく。

したがって、このような運転支援装置１によれば、軌道を生成する際には、リスク量に応じて最適なリンクを選択すれば走行可能な軌道を生成できる可能性が高い。よって、軌道を生成する際の精度を向上させることができる。

（１ｂ）上記の運転支援装置１において、情報収集部３１は、任意の車両が走行した経路である軌道Ｗｒを取得し、軌道データ離散化部３４、逆強化学習部３５は、経路上に位置する到達可能ノードのリスク量を低減させる。

このような運転支援装置１によれば、任意の車両が走行した経路上に位置する到達可能ノードのリスク量を低減させるので、実際に車両が走行した経路がより安全であるものとして軌道を生成することができる。

（１ｃ）上記の運転支援装置１において、最適パス探索部３８は、リスク量を求めるために予め準備されたリスク関数に前記到達可能ノードの座標を入力することによって得られた値をリスク量として対応付けるように構成され、逆強化学習部３５は、経路に応じてリスク関数を補正する。

このような運転支援装置１によれば、任意の車両が走行した経路に応じてリスク関数を補正することでリスク関数を最適化できるので、適切なリスク関数を得ることができる。
（１ｄ）上記の運転支援装置１において、最適パス探索部３８は、リスク量を求めるために予め準備されたリスク関数に到達可能ノードの座標を入力することによって得られた値をリスク量として対応付ける。

このような運転支援装置１によれば、リスク関数に到達可能ノードの座標を入力するだけでリスク量を求めることができるので、リスク量を簡素な処理で求めることができる。
（１ｅ）上記の運転支援装置１において、逆強化学習部３５は、運転支援装置１が生成した軌道生成用グラフを用いて任意の車両が走行した経路上に位置する到達可能ノードを探索し、該探索結果に応じてリスク関数を補正する。

このような運転支援装置１によれば、運転支援装置１が生成した軌道生成用グラフを利用して学習したリスク関数に従って、軌道生成用グラフを用いて軌道生成するので、より精度のよい軌道を生成することができる。

（１ｆ）上記の運転支援装置１において、逆強化学習部３５は、逆強化学習によって経路上に位置する到達可能ノードのリスク量を低減させる。
このような運転支援装置１によれば、逆強化学習によって到達可能ノードのリスク量を最適化することができる。

（１ｇ）上記の運転支援装置１において、グラフ生成部３３は、リンクを設定した到達可能ノードのそれぞれを基準ノードとして、新たな到達可能ノードを探索し、新たな到達可能ノードが探索される度に、それぞれの基準ノードからそれぞれの到達可能ノードにリンクを設定する。

このような運転支援装置１によれば、多数のノードのそれぞれにリンクを設定したグラフを生成することができる。
（１ｈ）上記の運転支援装置１において、グラフ生成部３３は、基準ノードに設定されたリンクの数と予め設定された基準数とを比較し、リンクの数が基準数未満である場合に、リンクの数が基準数となるように、対象車両が到達可能な領域を表す可能領域内に、ノードを追加するとともに、基準ノードから追加したノードに対してリンクを追加して設定する。

このような運転支援装置１によれば、基準ノードに設定されたリンクの数が基準数未満である場合に到達可能な領域である可能領域内にノードを追加し、リンクも追加するので、リンク数が過剰となることを抑制するだけでなく、可能領域内のリンク数が過少になることも抑制することができる。よって、軌道を生成するためのより適切なグラフを生成することができる。

なお、上記の基準ノードから追加したノードに対してリンクを追加して設定する処理と、基準ノードから到達可能ノードにリンクを設定する処理との両方を実施する際に、これらの処理の順序は問わない。

（１ｉ）上記の運転支援装置１において、最適パス探索部３８は、複数のノードのうちから始点ノードおよび終点ノードを設定し、始点ノードから終点ノードまでをリンクに沿って移動するものとして、通過する到達可能ノードに対応付けられたリスク量の総和が最小となるパスを探索し、リスク量の総和が最小となるパスを対象車両の軌道として設定するように構成される。

このような運転支援装置１によれば、リスク量の総和が最小となるパスを探索し、このパスを対象車両の軌道として設定するので、走行可能な軌道であり最も安全な軌道を設定することができる。

［２．他の実施形態］
以上、本開示の実施形態について説明したが、本開示は上述の実施形態に限定されることなく、種々変形して実施することができる。

（２ａ）上記実施形態において、リスク関数は、軌道を示す座標値やリスク量等を入力として、走行状態に応じて道路上の座標値毎にリスク量を求めるための関数として説明したが、時刻等の他のパラメータを含んでもよい。

（２ｂ）上記実施形態においては、リンクの数が基準数未満である場合に、リンクの数が基準数となるように、自車両が到達可能な領域を表す可能領域内にノードを追加するよう構成したが、この構成は省略してもよい。

（２ｃ）上記実施形態においては、自車両が将来走行すべき軌道を生成するためにグラフ情報Ｇｒを用いたが、他車両の軌道を予測する際にグラフ情報Ｇｒを用いてもよい。グラフ情報Ｇｒを用いる際には、リスク量が対応付けられたものを利用してもよいし、リスク量が対応付けられていないものを利用してもよい。

（２ｄ）上記実施形態における１つの構成要素が有する複数の機能を、複数の構成要素によって実現したり、１つの構成要素が有する１つの機能を、複数の構成要素によって実現したりしてもよい。また、複数の構成要素が有する複数の機能を、１つの構成要素によって実現したり、複数の構成要素によって実現される１つの機能を、１つの構成要素によって実現したりしてもよい。また、上記実施形態の構成の一部を省略してもよい。また、上記実施形態の構成の少なくとも一部を、他の上記実施形態の構成に対して付加または置換してもよい。なお、特許請求の範囲に記載した文言から特定される技術思想に含まれるあらゆる態様が本開示の実施形態である。

（２ｅ）上述した運転支援装置１の他、当該運転支援装置１を構成要素とするシステム、当該運転支援装置１としてコンピュータを機能させるためのプログラム、このプログラムを記録した半導体メモリ等の非遷移的実態的記録媒体、運転支援方法など、種々の形態で本開示を実現することもできる。

［３．実施形態の構成と本開示の構成との対応関係］
実施形態において運転支援装置１は本開示でいうグラフ生成装置に相当し、実施形態において情報収集部３１は本開示でいう経路取得部に相当する。また、実施形態において軌道データ離散化部３４、逆強化学習部３５は本開示でいうリスク低減部および関数補正部に相当し、実施形態において最適パス探索部３８は本開示でいう軌道設定部およびリスク対応部に相当する。

また、実施形態において制御部１０が実行する処理のうちのＳ１００の処理は本開示でいう状態取得部に相当し、実施形態においてＳ２２０、Ｓ２３０、Ｓ２４０、Ｓ２５０の処理は本開示でいうノード探索部に相当する。また、実施形態においてグラフ生成部３３、Ｓ２７０の処理は本開示でいうリンク設定部に相当し、実施形態においてＳ３２０，Ｓ３３０の処理は本開示でいう追加設定部に相当する。

１…運転支援装置、１０…制御部、１１…ＣＰＵ、１２…メモリ、２１…各種センサ、２６…報知部、２７…支援実施部、３１…情報収集部、３２…車両軌道ＤＢ、３３…グラフ生成部、３４…軌道データ離散化部、３５…逆強化学習部、３６…リスク関数ＤＢ、３７…リスク場生成部、３８…最適パス探索部。

Claims

複数のノードとノード間を接続するリンクとを有し車両の軌道の基となる軌道生成用グラフ、を生成するように構成されたグラフ生成装置（１）であって、
軌道を求める対象となる対象車両の走行状態を取得するように構成された状態取得部（Ｓ１００）と、
前記走行状態に応じて、基準となるノードを表す基準ノードから前記対象車両が到達可能な１または複数のノードを表す到達可能ノードを探索するように構成されたノード探索部（Ｓ２２０、Ｓ２３０、Ｓ２４０、Ｓ２５０）と、
前記基準ノードから前記到達可能ノードのそれぞれにリンクを設定するように構成されたリンク設定部（Ｓ２７０）と、
前記到達可能ノードのそれぞれにリスク量を対応付けるように構成されたリスク対応部（３８）と、
を備えたグラフ生成装置。
請求項１に記載のグラフ生成装置であって、
任意の車両が走行した経路を取得するように構成された経路取得部（３１）と、
前記経路上に位置する到達可能ノードのリスク量を低減させるように構成されたリスク低減部（３４、３５）と、
を更に備えるグラフ生成装置。
請求項１または請求項２に記載のグラフ生成装置であって、
前記リスク対応部は、リスク量を求めるために予め準備されたリスク関数に前記到達可能ノードの座標を入力することによって得られた値を前記リスク量として対応付けるように構成され、
前記経路に応じてリスク関数を補正するように構成された関数補正部（３５）、
をさらに備えたグラフ生成装置。
請求項３に記載のグラフ生成装置であって、
前記関数補正部は、当該グラフ生成装置が生成した軌道生成用グラフを用いて前記経路上に位置する到達可能ノードを探索し、該探索結果に応じてリスク関数を補正する
ように構成されたグラフ生成装置。
請求項２から請求項４までの何れか１項に記載のグラフ生成装置であって、
前記リスク低減部は、逆強化学習によって前記経路上に位置する到達可能ノードのリスク量を低減させる
ように構成されたグラフ生成装置。
請求項１または請求項２に記載のグラフ生成装置であって、
前記リスク対応部は、リスク量を求めるために予め準備されたリスク関数に前記到達可能ノードの座標を入力することによって得られた値を前記リスク量として対応付ける
ように構成されたグラフ生成装置。
請求項１から請求項６までのいずれか１項に記載のグラフ生成装置であって、
前記ノード探索部は、前記リンク設定部がリンクを設定した到達可能ノードのそれぞれを前記基準ノードとして、新たな到達可能ノードを探索するように構成され、
前記リンク設定部は、前記新たな到達可能ノードが探索される度に、それぞれの基準ノードからそれぞれの到達可能ノードにリンクを設定する
ように構成されたグラフ生成装置。
請求項１から請求項７までのいずれか１項に記載のグラフ生成装置であって、
前記基準ノードに設定されたリンクの数と予め設定された基準数とを比較し、前記リンクの数が前記基準数未満である場合に、前記リンクの数が前記基準数となるように、前記対象車両が到達可能な領域を表す可能領域内に、ノードを追加するとともに、前記基準ノードから追加したノードに対してリンクを追加して設定するように構成された追加設定部（Ｓ３２０，Ｓ３３０）、
を更に備えるグラフ生成装置。
請求項１から請求項８までのいずれか１項に記載のグラフ生成装置であって、
前記複数のノードのうちから始点ノードおよび終点ノードを設定し、前記始点ノードから前記終点ノードまでを前記リンクに沿って移動するものとして、通過する到達可能ノードに対応付けられたリスク量の総和が最小となるパスを探索し、前記リスク量の総和が最小となるパスを前記対象車両の軌道として設定するように構成された軌道設定部（３８）、
を更に備えるグラフ生成装置。