JP2024514078A

JP2024514078A - マップを改良するために新しい道路を探索するためのルートプランナ及び意思決定

Info

Publication number: JP2024514078A
Application number: JP2023559777A
Authority: JP
Inventors: カイルホリンズレイ、; デビッドイルストラップ、; 惇英小橋
Original assignee: ニッサンノースアメリカ，インク
Priority date: 2021-03-29
Filing date: 2022-02-23
Publication date: 2024-03-28
Also published as: US20220306156A1; WO2022211932A1; CN117242315A; EP4314713A1

Abstract

自律走行車の自動運転におけるルートプランニングは、ルートを取得するための高精細マップに加えて、標準精細マップを使用することの指示を取得することと、車両を目的地まで自動運転するために前記ルートを取得することであって、ルートは、標準精細マップの道路を含むことと、安全性決定コンポーネントからポリシーを取得することであって、ポリシーは道路の状態に対するアクションを提供し、アクションは道路に沿って自律走行車の軌道を制約することと、安全性決定コンポーネントから前記アクションを受信することと、アクションに従って道路を自律的に通行することとを含む。

Description

本開示は、一般にルートプランニングに関するものであり、より詳細には、自律走行車の車線レベルルートプランニングに関する。

ルートプランニングアプリケーション及びシステム（集合的に、ルートプランナ）は、車載車両システム又はハンドヘルドデバイスであり得る。ユーザ（例えば、運転者）は、目的地を提供し、ルーティングアプリケーションはユーザの現在位置から目的地へのルートを計算する。

ルートはマップ上にオーバレイされる場合があり、ユーザが目的地に到着するために従うことができる道路及び曲がり角を含む（例えば、示す）場合がある。つまり、ルートは、目的地への進路変更ごとの示を含み得る。通常、ルートは道路及び曲がり角を含んでおり、運転者が特定の道路のどの車線を走行するか、及び出口又は交差点での曲がり角等、いつ車線を切り替えるかを決定するのはユーザ（例えば、運転者）次第である。

従来のルートプランナは、所定の距離（例えば、２マイル）以内に曲がり角（例えば、出口）が近づいていることをユーザに警告又は通知する場合があり、現在の車線からどのように操縦して曲がるかを決定するのはユーザ次第である。このようなルートプランナは、ホスト車両がどの車線にいるかを知らず、単に所定の距離内でユーザに通知するだけで、ユーザは現在の車線から曲がり角の場所に移動するための安全でない操縦を余儀なくされる可能性がある。

このようなルートプランニングアプリケーションは、道路レベルで確定的に計画する場合があり、車線レベル情報／プランニングを考慮しない。ルートプランニングは、ルート時間を最小化しようとする古典的プランニング問題としてモデル化される場合がある。

少なくともこれらの理由から、このようなルートプランニングアプリケーションにおけるプランニングマップは、運転者がまったく関与しないか、せいぜい関与が最小限であり得る自律走行に必要なものを超えた抽象レベルにあり得るため、車線レベルではなく道路レベルルートプランニングは、自律走行には適切ではない（例えば、十分ではない）場合がある。

第１の態様は、自律走行車の自動運転におけるルートプランニングのための方法である。この方法は、ルートを取得するために高精細マップに加えて標準精細マップが使用されるべきことの指示を取得することと、車両を目的地まで自動運転するために前記ルートを取得することであって、前記ルートは、前記標準精細マップの道路を含むことと、安全性決定コンポーネントからポリシーを取得することであって、前記ポリシーは前記道路の状態に対するアクションを提供し、前記アクションは前記道路に沿って前記自律走行車の軌道を制約することと、前記安全性決定コンポーネントから前記アクションを受信することと、前記アクションに従って前記道路を自律的に通行することとを含む。

第２の態様は、自律走行車の自動運転におけるルートプランニングのための装置である。この装置は、ルートを取得するために高精細マップに加えて標準精細マップが使用されるべきことの指示を取得することと、車両を目的地まで自動運転するために前記ルートを取得することであって、前記ルートは、前記標準精細マップの道路を含むことと、安全性決定コンポーネントからポリシーを取得することであって、前記ポリシーは前記道路の状態に対するアクションを提供し、前記アクションは前記道路に沿って前記自律走行車の軌道を制約することと、前記安全性決定コンポーネントから前記アクションを受信することと、前記アクションに従って前記道路を自律的に通行するように前記自律走行車を制御することとを行うように構成されるプロセッサを含む。

第３の態様は、プロセッサによって実行されると、自律走行車の自動運転におけるルートプランニングのための動作の実行を容易にする実行可能命令を含む非一時的なコンピュータ可読記憶媒体である。この動作は、ルートを取得するために高精細地図に加えて標準精細地図を使用することの指示を取得することと、車両を目的地まで自動運転するために前記ルートを取得することであって、前記ルートは、前記標準精細マップの道路を含むことと、安全性決定コンポーネントからポリシーを取得することであって、前記ポリシーは前記道路の状態に対するアクションを提供し、前記アクションは前記道路に沿った前記自律走行車の軌道を制約することと、前記安全性決定コンポーネントから前記アクションを受信することと、前記アクションに従って前記道路を自律的に通行することとを含む。

以下では、本明細書に開示された方法、装置、プロシージャ及びアルゴリズムのこうした及び他の態様、特徴、要素、実装及び実施形態の変形がさらに詳細に記載される。

本明細書に開示された方法及び装置の様々な態様は、以下の記載及び図面において提供される例示を参照することでより明らかになるであろう。ここで同じ参照番号は同じ要素を指している。

本明細書に開示の態様、特徴及び要素が実装され得る車両の例を示す図である。

本明細書に開示の態様、特徴及び要素が実装され得る車両交通及び通信システムの一部の例示の図である。

本開示の実施形態によるルートプランニングのための技術の一例を示すフローチャート図である。

本開示の実装によるマップの一例を示す図である。

本開示の実装による目的の選好順位付けグラフの一例を示す図である。

本開示の実装によるナビゲーションマップの学習及び使用の概要を示す図である。

本開示の実施形態によるルートプランニングのためのナビゲーションマップを学習する技術の一例を示すフローチャート図である。

本開示の実装によるルートプランニングの説明を提供する技術の一例を示すフローチャート図である。

本開示の実装による複数の目的に基づく説明を提供する例を示す図である。

本開示の実装による車線レベルルートプランナの複数目的設定のためのユーザインターフェースの一例を示す図である。

本開示の実装による車線レベルルートプランナの複数目的設定のためのユーザインターフェースの別の例を示す図である。

本開示の実装による自律走行におけるルートプランニングのための標準精細（ＳＤ）マップの使用を示すマップの一例を示す図である。

本開示の実装によるマップを改善するための新しい道路を探索するシステムの図である。

本開示の実装によるＳＤマップの道路のマッピングの一例を示す図である。

本開示の実装による自律走行車の自動運転のルートプランニングのための技術の一例を示すフローチャート図である。

前述のように、ルートプランナは、通常、車線情報なしでルートを提供する。このようなルートは、全地球測位システム（ＧＰＳ）座標の連結グラフに基づいて計画される場合があり、あまりにも抽象的であるため、自律走行には使用できない。自律走行は、車線変更及び意思決定を行い、ルートに従うことができない障害が何らかの理由で発生した場合の偶発事象に備えて計画するために、車線固有の情報を必要とする。従来のルートプランナのマップでは、トポロジー、接続性、及び車線情報は通常利用できない。本明細書で使用される場合、自律走行は、文脈がそうでないことを示す場合を除き、人間の運転者又はテレオペレータ等による手動制御と比較すると、ホスト車両を自動的に実行するための車両走行制御を実行することを含む。

さらに、そのようなルートプランナは、典型的には、１つの目的のみについて解決し得る。それは、時間である。つまり、目的地に到達するまでにかかる時間を最小限に抑えることで、古典的なルートプランニングを実行する。一部のルートプランナでは、ユーザが道路タイプの選好（例えば、地方道路の代わりに高速道路、有料道路の代わりに無料道路）を指定できる場合がある。しかしながら、自律走行では、異なる（例えば、より多くの）基準、制約、及び／又は目的を使用してルートプランニングを行う必要がある。

単純な例を使用して説明すると、従来のルートプランナの場合、運転者が予期した曲がり角で曲がらず、出口を出ない場合、ルートプランナは、通常、代替ルートを識別するために、完了までに少なくとも数秒かかる「再ルーティング」動作を実行する。自律走行の場合、混雑のために自律走行車（ＡＶ）が出口を出られなかったと仮定すると、ルーティングアプリケーションが代替ルートを識別する（すなわち、再ルーティングする）までＡＶがその場で停止し、再ルーティング動作を実行している間に偶発事象ルートを通行したりすることは受け入れられない。

むしろ、本開示に従ったルートプランナは、全ての偶発事象に対して事前に計画することができる。偶発事象は、後述するようにポリシーに組み込まれ得る。一例では、偶発事象は、以前の確率を考慮して計画され得る。確率は、車線セグメント横断の履歴データに基づき得る。確率は、車線変更に成功する確率、交通に基づいて車線変更に失敗する確率、交通履歴の確率、又はその他の確率を含み得る。車線レベルルートプランナは、異なる道路又は道路セグメントでの自律走行の能力レベルに基づいてルートを計画することもできる。能力については、以下にさらに説明する。ルートプランナは、自動運転、ドライバー、および／またはテレオペレータ間の制御の移行を決定（例えば、プランニング）することもできる。車線レベルルートプランナは、確率を組み込んだナビゲーションマップを使用する。

繰り返しになるが、本開示によるルートプランナは、ＡＶが車線変更を行うために制御されるルートに沿った場所を含む目的地への車線レベルルートを決定する。つまり、ルートプランナによって、車線変更、及び、場合によってはルートに沿った障害が計画され得る。追加的に、ルートプランナは、成功及び失敗を想定し、コスト（例えば、目的地までの時間）を最小限に抑える決定論的な計画を取得するだけではなく、ゴール（例えば、目的地）までの全ての可能なルートの偶発事象プランを有し得る。

自律走行車の現実世界での展開には、複数の目的を同時に両立させる必要があり得る。いくつかの目的は、目的地への時間、所望のユーザの快適性（例えば、でこぼこした道路対平坦な道路）、所望のユーザの道路速度、道路ナビゲーション能力（例えば、車両が道路又は車線を通行する能力を有するかどうか）、ジオフェンスエリア間の移行ポイント、及び／又は他の目的を含んでもよい。電気又はハイブリッド電気自動車の場合、追加の目的は、バッテリ効率及び／又は再充電のための停止ポイントに関連し得る。本開示による車線レベルルートプランニングは、このような多目的プランニングを実行することができる。

本開示の態様では、車線レベル情報を含むナビゲーションマップが学習され得る。その後、ナビゲーションマップを使用して車線レベルルートが生成され得る。

従来の自律走行車ルートプランナは、複数の状態特徴又は目的に関して学習しない場合がある。対照的に、本開示の実装に従った車線レベルルートプランニングにおいて、ナビゲーションマップは、道路の車線の複数の車線セグメントに関して、及び学習を介して、本明細書にさらに記載されるように、少なくともいくつかの環境情報、車両情報、人的情報、より少ない、より多い若しくは他の情報、又はそれらの組み合わせを組み込むことができる。

本明細書に記載のリスク認識多目的車線レベルルートプランニングは、自律した接続された車両の多目的空間における考慮として、各車線の確率性及び特定の明確な目的報酬値に合わせて調整されたカスタマイズされた学習が必要であり、それらが本明細書に記載されている。

多目的での学習は、少なくとも、単一目的プランナよりも自動運転をより適応させることができる車線レベルルートプランナによってより多くの懸念を考慮することができるため、単一目的学習よりも有利であり得る。複数の目的が可能な場合、車線レベルルートプランナは、良好な（例えば、所望の、快適な）ルート、交通パターン、ユーザ選好、能力等について学習することができる（又はユーザによって教えられ得る）。例えば、ユーザは、正確に対応する目的で選好を直接エンコードすることができる。

一部のルートプランナは、出口の車線数、出口が近いこと等のルートに関する一般的な情報しかユーザに通知できない。一部の他のルートプランナは、所定のルートが現在のルートよりも長いか短いかを、所定の分数又は何らかの他の測定単位で示す場合がある。しかしながら、このようなルートプランナは、通常、以下を説明することができない。すなわち、所定のルートが別のルートよりも選択された理由についての説明を提供しない。自律走行の文脈では、このようなルートプランナは、アクション（例えば、左に曲がる、右に曲がる、直進する、隣の車線セグメントに移動する等）が実行されるか、又は実行された理由を説明できない場合がある。

一部のルートプランナは、ニューラルネットワーク（例えば、深層学習ニューラルネットワーク等）として実装される場合がある。このようなルートプランナは、人間が理解できる説明を提供できない場合がある。このようなルートプランナの推論モデルは、セマンティックな意味を持たない重み及び活性化値（例えば、数百万の実数）になる。このようなルートプランナの決定（例えば、選択されたアクション）は、重み値を使用してモデルのどのノードが活性化されたかを意味する。このようなルートプランナから説明を抽出することは、たとえ可能であっても、単純ではなく、ルートプランナ自体を説明しようとする追加のシステム（例えば、入力に基づく活性化値の意味）が必要になる場合がある。そのため、ルートプランナは説明不可能なブラックボックスになる。ニューラルネットワークの特定のアクションをもたらす活性化値が出力され得るが、そのような活性化値は解釈が容易ではなく、セマンティックな意味を持たない。別の例では、アクションがルートプランナによって推奨された理由を理解するために、ソースコード及びソースコードへの入力を分析して説明を提供する必要がある場合がある。

対照的に、本開示の実装による車線レベルルートプランナは、本質的に説明可能であり得る。車線レベルルートプランナは、アクション（同等に、ルート、車線、又は車線セグメント）が選択される理由について、人間が理解できる説明を提供することができる。説明は人間が解釈できるものであり、意味論的にも意味がある。説明（例えば、文）は、自律走行の決定が行われた理由を記述し得る。例えば、「なぜ交差点を右に行かなかったか？」、「なぜ私に手動制御を要求しているのか？」等のユーザの質問に答えることができる。ルートプランニングでアクション、道路、又は車線セグメントの選択に関する説明を提供することにより、従来のルートプランナ、特に、自律走行のためのルートプランニングを改善することができる。説明を提供することは、自律走行選択の意思決定においてユーザに快適性を与えることができる。追加的に、所定の選択が行われる理由を理解することにより、ユーザは、例えば、異なる目的及びそれらの目的に対する制約を提供することによって、ルートプランニングの決定基準に影響を与え、ユーザの選好に合うように改良することができる。

さらに、本明細書に記載の車線レベルルートプランナは、セマンティックな意味を有する複数の目的に従って（例えば、使用して、基づいて）ルートを計画することができるので、車線レベルルートプランナは、所定のルートが所定の目的（交通量、選好、人間の運転能力、自動運転等）に対してどのように良いか（又は悪いか）を定量化又は説明することができる。

本開示のさらなる態様では、標準精細マップデータ（又は、単純にＳＤマップ）を使用してルートを計画することができ、ＳＤマップの道路をマッピングしてＨＤマップ情報を取得することができる。

ルートプランナは、通常、マップデータを使用してルートを取得する（例えば、計算する）。従来のルートプランナでは、マップデータはＳＤマップデータであり得る。ＳＤマップは、通常、道路、交差点等を含むが、自律走行（例えば、自律走行における意思決定）及び自動運転のためのルートプランニング（例えば、車線レベルルートプランニング）に必要な十分な詳細又は精度を含んでいない。ＳＤマップは、（例えば、自動運転の意思決定とは対照的に）ナビゲーション用の粗いＧＰＳ座標を含む場合がある。自律走行は、高精細（ＨＤ）マップを必要とする場合がある。

ＨＤマップデータは、数センチメートル以内の車両交通ネットワークに関する正確な情報を含んでもよい。ＨＤマップデータは、縁石、車線境界、横断歩道、交通信号灯、道路分割器、交通信号機、交通標識、制限速度、ランドマーク等に関する詳細を含んでもよい。

ＨＤマップは高価な場合があり、所定の道路（又は道路の車線）に関する情報を含まない場合がある。道路又はエリアはマッピングされていないと言われる場合がある。ＨＤマップは、マッピングされていない道路及びエリアの情報を含まない。

ＡＶは、意思決定目的又は軌道プランニングのためにＨＤ情報を検出することができるセンサを含むが、ＡＶは、ナビゲーション目的のためにＳＤマップのみを含む場合がある。ＳＤマップは、自律走行における意思決定にも使用できるように、デフォルトでは、ＡＶのセンサによって観測されるＨＤ情報にローカライズされ且つ一致させることはできない。したがって、問題は、ＡＶ（すなわち、その中のモジュール）が自動運転のためのＨＤ情報を依然として知っている必要があるということである。本開示によれば、その後のルートプランニングのためのＨＤ情報を取得するために、ＳＤマップの道路上で自律走行を実行することができる。

本開示の態様において、自律走行のために本明細書に記載の車線レベルルートプランニングにＳＤマップを使用することができるように、１つ以上の車両からのセンサデータを使用して、ＳＤマップを情報（例えば、ＨＤ情報）で補足することができる。このように、センサデータを使用してＨＤマップを補足することにより、車線レベルルートプランナは、ＳＤマップ又はＨＤマップ及びＳＤマップの組み合わせを使用してルートを取得することが可能になる。ＨＤマップは、マッピングされた道路及び車線に使用されてもよく、ＳＤマップは、ＨＤマップにマッピングされていないが、本明細書に記載されているようにＨＤ情報が取得されている道路及び車線に使用することができる。参照を容易にするために、本明細書で使用される場合、拡張ＨＤマップは、ＳＤマップの道路に関して１つ以上のＡＶのセンサを使用して取得されたデータによって補足されたＨＤマップを指す。追加的に、又は同等に、ナビゲーションマップは、これらの道路を通行するときに、ＨＤマップの道路の情報で拡張することができる。

拡張ＨＤマップには、ルートプランニング又は意思決定にＨＤマップが不要になることを含む多くの利点がある。例えば、ＡＶ又はＡＶの車両群は、ＳＤマップの道路を通行するときに独自のＨＤマップを生成することができる。後述するように、ＨＤマップの生成は、プランニング信念ベースのルートプランナを介して行われ得る。利点には、ＨＤマップが適応可能であることも含まれる。例えば、ＳＤマップで道路車線が再構成されている場合（工事による車線閉鎖又は新しい車線の追加等）、ＨＤマップを変更に適応させることができる。

車線レベルルートプランニングの詳細は、本明細書では、それが実装可能な環境を最初に参照して説明する。

図１は、本明細書に開示の態様、特徴及び要素が実装され得る車両の例を示す図である。図示の実施形態では、車両１００は様々な車両システムを含む。車両システムは、シャーシ１１０、パワートレイン１２０、コントローラ１３０、及び車輪１４０を含む。車両システムの追加の又は異なる組み合わせが使用されてもよい。簡潔のため、車両１００は４つの車輪１４０を含むように示されているが、プロペラ又はトレッド等の１つ以上の任意の他の推進装置が使用されてもよい。図１において、パワートレイン１２０、コントローラ１３０及び車輪１４０等の要素を相互接続する線は、データ又は制御信号等の情報、電力又はトルク等の力、又は情報及び電力の両方が各要素間で伝達され得ることを示している。例えば、コントローラ１３０は、パワートレイン１２０から電力を受信して、パワートレイン１２０、車輪１４０、又はその両方と通信して、車両１００を制御してもよく、これは、車両１００を加速、減速、操縦又は他のやり方で制御することを含み得る。

図１の例で示されるパワートレイン１２０は、電源１２１、トランスミッション１２２、ステアリング装置１２３、及びアクチュエータ１２４を含む。サスペンション、駆動シャフト、車軸、又は排気システム等のパワートレインの任意の他の要素又は要素の組み合わせが含まれてもよい。別々に示されているが、車輪１４０は、パワートレイン１２０に含まれてもよい。

電源１２１は、エンジン、バッテリ、又はこれらの組み合わせを含む。電源１２１は、電気エネルギー、熱エネルギー又は運動エネルギー等のエネルギーを提供するように動作する任意のデバイス又はデバイスの組み合わせであってもよい。一例では、電源１２１は、内燃エンジン、電気モータ又は内燃エンジン及び電気モータの組み合わせ等のエンジンを含み、車輪１４０の１つ以上に原動力としての運動エネルギーを提供するように動作する。代替的に又は追加的に、電源１２１は、ニッケルカドミウム（ＮｉＣｄ）、ニッケル亜鉛（ＮｉＺｎ）、ニッケル水素（ＮｉＭＨ）、リチウムイオン（Ｌｉ－ｉｏｎ）等の１つ以上の乾電池、太陽電池、燃料電池、又はエネルギーを提供することが可能な任意の他のデバイス等のポテンシャルエネルギー装置を含んでもよい。

トランスミッション１２２は、電源１２１から運動エネルギー等のエネルギーを受信し、原動力を提供するために車輪１４０にエネルギーを送る。トランスミッション１２２は、コントローラ１３０、アクチュエータ１２４又はその両方によって制御されてもよい。ステアリング装置１２３は、コントローラ１３０、アクチュエータ１２４又は両方によって制御され、車両を操縦するために車輪１４０を制御してもよい。アクチュエータ１２４は、コントローラ１３０から信号を受信してもよく、車両１００を動作させるために電源１２１、トランスミッション１２２、ステアリング装置１２３又はこれらの任意の組み合わせを作動又は制御してもよい。

例示の実施形態では、コントローラ１３０は、位置決め装置１３１、電子通信装置１３２、プロセッサ１３３、メモリ１３４、ユーザインターフェース１３５、センサ１３６、及び電子通信インターフェース１３７を含む。これらの要素のうち少数が、コントローラ１３０の一部として存在し得る。単一の装置として示されているが、コントローラ１３０の任意の１つ以上の要素が任意の数の分離した物理装置に組み込まれてもよい。例えば、ユーザインターフェース１３５及びプロセッサ１３３は、第１の物理装置に組み込まれてもよく、メモリ１３４は、第２の物理装置に組み込まれてもよい。図１には示されていないが、コントローラ１３０は、バッテリ等の電源１２１０を含んでもよい。個別の要素として示されているが、位置決め装置１３１、電子通信装置１３２、プロセッサ１３３、メモリ１３４、ユーザインターフェース１３５、センサ１３６、電子通信インターフェース１３７、又はこれらの任意の組み合わせは、１つ以上の電子装置、回路又はチップに組み込まれてもよい。

プロセッサ１３３は、光プロセッサ、量子プロセッサ、分子プロセッサ又はこれらの組み合わせを含む現存する又は今後開発される信号又は他の情報を操作又は処理することが可能な任意のデバイス又はデバイスの組み合わせを含んでもよい。例えば、プロセッサ１３３は、１つ以上の専用プロセッサ、１つ以上のデジタル信号プロセッサ、１つ以上のマイクロプロセッサ、１つ以上のコントローラ、１つ以上のマイクロコントローラ、１つ以上の集積回路、１つ以上の特定用途向け集積回路、１つ以上のフィールドプログラマブルゲートアレイ、１つ以上のプログラマブルロジックアレイ、１つ以上のプログラマブルロジックコントローラ、１つ以上の状態機械、又はこれらの任意の組み合わせを含んでもよい。プロセッサ１３３は、位置決め装置１３１、メモリ１３４、電子通信インターフェース１３７、電子通信装置１３２、ユーザインターフェース１３５、センサ１３６０、及びパワートレイン１３６の１つ以上と動作可能に結合されてもよい。例えば、プロセッサは、通信バス１３８を介してメモリ１３４と動作可能に結合されてもよい。

メモリ１３４は、プロセッサ１３３によって使用される又はそれと接続される、機械可読命令又はそれに関連付けられる任意の情報を、例えば、保持、記憶、伝達又は搬送することが可能な任意の有形の非一時的なコンピュータ使用可能又はコンピュータ可読記憶媒体を含む。メモリ１３４は、例えば、１つ以上の半導体ドライブ、１つ以上のメモリカード、１つ以上のリムーバブル媒体、１つ以上の読み取り専用メモリ、１つ以上のランダムアクセスメモリ、ハードディスク、フロッピーディスク、光学ディスクを含む１つ以上のディスク、磁気若しくは光学カード、又は電子情報を記憶するのに適した任意のタイプの非一時的な媒体、又はこれらの任意の組み合わせであってもよい。例えば、メモリは、１つ以上の読み取り専用メモリ（ＲＯＭ）、１つ以上のランダムアクセスメモリ（ＲＡＭ）、１つ以上のレジスタ、低電力ＤＤＲ（ＬＰＤＤＲ）メモリ、１つ以上のキャッシュメモリ、１つ以上の半導体メモリデバイス、１つ以上の磁気媒体、１つ以上の光学媒体、１つ以上の磁気光学媒体、又はこれらの任意の組み合わせであってもよい。

通信インターフェース１３７は、図示のような無線アンテナ、有線通信ポート、光学通信ポート、又は有線若しくは無線電子通信媒体１５０とインターフェース接続することが可能な任意の他の有線若しくは無線装置であってもよい。図１は単一の通信リンクを介して通信を行う通信インターフェース１３７が示されているが、通信インターフェースは、複数の通信リンクを介して通信を行うように構成されてもよい。図１は単一の通信インターフェース１３７を示しているが、車両は、任意の数の通信インターフェースを含んでもよい。

通信装置１３２は、通信インターフェース１３７等を介して、有線又は無線電子通信媒体１５０を介して信号を送信又は受信するように構成される。図１に明示されていないが、通信装置１３２は、無線周波数（ＲＦ）、紫外線（ＵＶ）、可視光、光ファイバ、有線回線、又はこれらの組み合わせ等の任意の有線又は無線通信媒体を介して送信、受信又は両方を行うように構成されてもよい。図１は、単一の通信装置１３２及び単一の通信インターフェース１３７を示しているが、任意の数の通信装置及び任意の数の通信インターフェースが使用されてもよい。いくつかの実施形態では、通信装置１３２は、狭域通信（ＤＳＲＣ）装置、車載装置（ＯＢＵ）、又はこれらの組み合わせを含む。

位置決め装置１３１は、車両１００の経度、緯度、高度、進行方向又は速さ等の地理情報を決定してもよい。一例では、ＧＰＳは、広域補強システム（ＷｉｄｅＡｒｅａＡｕｇｍｅｎｔａｔｉｏｎＳｙｓｔｅｍ；ＷＡＡＳ）対応米国海洋電子機器協会（ＮａｔｉｏｎａｌＭａｒｉｎｅＥｌｅｃｔｒｏｎｉｃｓＡｓｓｏｃｉａｔｉｏｎ；ＮＭＥＡ）装置、無線三角測量装置、又はこれらの組み合わせ等の全地球測位システム（ＧＰＳ）装置を含む。位置決め装置１３１は、例えば、車両１００の現在の向き、２次元又は３次元での車両１００の現在地、車両１００の現在の角度方向、又はこれらの組み合わせを表す情報を取得するために使用され得る。

ユーザインターフェース１３５は、仮想又は物理キーパッド、接触パッド、ディスプレイ、接触ディスプレイ、ヘッドアップディスプレイ、仮想ディスプレイ、拡張現実ディスプレイ、触覚ディスプレイ、視線追跡装置等の特徴追跡デバイス、スピーカ、マイクロホン、ビデオカメラ、センサ、プリンタ、又はこれらの任意の組み合わせ等、人物とインターフェース接続することが可能な任意の装置を含む。ユーザインターフェース１３５は、図示のようにプロセッサ１３３と、又はコントローラ１３０の任意の他の要素と動作可能に結合されてもよい。単一の装置として示されているが、ユーザインターフェース１３５は、１つ以上の物理装置を含んでもよい。例えば、ユーザインターフェース１３５は、人物との音声通信を行うためのオーディオインターフェース、及び人物との視覚及びタッチに基づく通信を行うためのタッチディスプレイの両方を含んでもよい。ユーザインターフェース１３５は、複数の物理的に分離した装置、単一の物理装置の中の複数の定義部分、又はこれらの組み合わせ等の複数のディスプレイを含んでもよい。

センサ１３６は、車両を制御するために使用され得る情報を提供するように動作可能である。センサ１３６は、センサのアレイであってもよい。センサ１３６は、車両動作情報を含む車両１００の現在の動作特徴に関する情報を提供してもよい。センサ１３６は、例えば、速度センサ、加速度センサ、ステアリング角センサ、トラクション関連センサ、ブレーキ関連センサ、ハンドル位置センサ、視線追跡センサ、着座位置センサ、又は任意のセンサ若しくはセンサの組み合わせを含んでもよく、これらは車両１００の現在の動的状況の何らかの態様に関する情報を報告するように動作可能である。

センサ１３６は、動作環境情報等の車両１００を取り囲む物理環境に関する情報を取得するように動作可能な１つ以上のセンサを含んでもよい。例えば、１つ以上のセンサが、車線等の道路の形状、及び固定障害物、車両及び歩行者等の障害物を検出してもよい。センサ１３６は、既知の又は後に開発される、１つ以上のビデオカメラ、レーザ感知システム、赤外線感知システム、音響感知システム、又は任意の他の適切なタイプの車載環境感知デバイス、又はデバイスの組み合わせであるか、又はこれらを含み得る。いくつかの実施形態では、センサ１３６及び位置決め装置１３１が結合される。

別に示されてはいないが、車両１００は、軌道コントローラを含んでもよい。例えば、コントローラ１３０が、軌道コントローラを含んでもよい。軌道コントローラは、車両１００の現在の状態及び車両１００に対して計画されたルートを記述する情報を取得し、この情報に基づいて、車両１００に対する軌道を決定及び最適化するように動作可能であってもよい。いくつかの実施形態では、軌道コントローラは、車両１００が軌道コントローラによって決定される軌道に従うように、車両１００を制御するように動作可能な信号を出力してもよい。例えば、軌道コントローラの出力は、パワートレイン１２０、車輪１４０又はその両方に供給され得る最適化された軌道であり得る。いくつかの実施形態において、最適化された軌道は、一組のステアリング角等の制御入力であってもよく、各ステアリング角は１つの時点又は位置に対応する。いくつかの実施形態において、最適化された軌道は、１つ以上の経路、線、曲線、又はこれらの組み合わせであり得る。

１つ以上の車輪１４０は、ステアリング装置１２３の制御下でステアリング角に枢動される操縦車輪、トランスミッション１２２の制御下で車両１００を推進するためのトルクを与えられる推進車輪、又は車両１００を操縦及び推進し得る操縦及び推進車輪であってもよい。

図１には示されていないが、車両は、エンクロージャ、ブルートゥース（登録商標）モジュール、周波数変調（ＦＭ）ラジオ装置、近距離無線通信（ＮＦＣ）モジュール、液晶表示（ＬＣＤ）ディスプレイ装置、有機発光ダイオード（ＯＬＥＤ）ディスプレイ装置、スピーカ、又はこれらの任意の組み合わせ等の図１に示されていない追加の装置又は要素を含んでもよい。

車両１００は、交通網の一部を移動するように、直接的な人間の介入なしで、自律的に制御される自律走行車であってもよい。図１に別に示されていないが、自律走行車は、自律走行車のルーティング、ナビゲーション及び制御を行う自律走行車制御装置を含んでもよい。自律走行車制御装置は、車両の別の装置と一体化されてもよい。例えば、コントローラ１３０は、自律走行車制御装置を含んでもよい。

存在する場合、自律走行車制御装置は、現在の車両動作パラメータに従って車両交通網の一部を移動するように車両１００を制御し又は動作させてもよい。自律走行車制御装置は、車両の駐車等の定義された動作又は操縦を行うように車両１００を制御し又は動作させてもよい。自律走行車制御装置は、車両情報、環境情報、車両交通ネットワークを表す車両交通ネットワーク情報、又はこれらの組み合わせに基づいて車両１００の現在地等の出発地から目的地への移動ルートを生成してもよく、ルートに従って車両交通ネットワークを移動するように車両１００を制御し又は動作させてもよい。例えば、自律走行車制御装置は、軌道コントローラに移動ルートを出力して、生成されたルートを使用して出発点から目的地に移動するように車両１００を動作させてもよい。

図２は、本明細書に開示の態様、特徴及び要素が実装され得る車両交通及び通信システムの一部の例示の図である。車両交通及び通信システム２００は、図１に示される車両１００等の１つ以上の車両２１０／２１１を含んでもよく、これは車両交通ネットワーク２２０の１つ以上の部分を介して移動してもよく、１つ以上の電子通信ネットワーク２３０を介して通信を行う。図２には明示されていないが、車両はオフロードエリアを通行してもよい。

電子通信ネットワーク２３０は、例えば、車両２１０／２１１と１つ以上の通信デバイス２４０との間の音声通信、データ通信、映像通信、メッセージング通信、又はこれらの組み合わせ等の通信を提供する多重アクセスシステムであってもよい。例えば、車両２１０／２１１は、ネットワーク２３０を介して通信デバイス２４０から車両交通ネットワーク２２０を表す情報等の情報を受信してもよい。

いくつかの実施形態では、車両２１０／２１１は、有線通信リンク（図示せず）、無線通信リンク２３１／２３２／２３７、又は任意の数の有線若しくは無線通信リンクの組み合わせを介して通信してもよい。図示のように、車両２１１／２１１は、陸上無線通信リンク２３１を介して、非陸上無線通信リンク２３２を介して、又はこれらの組み合わせを介して通信する。陸上無線通信リンク２３１は、イーサネット（登録商標）リンク、シリアルリンク、ブルートゥース（登録商標）リンク、赤外線（ＩＲ）リンク、紫外線（ＵＶ）リンク、又は電子通信を提供可能な任意のリンクを含んでもよい。

車両２１０／２１１は、別の車両２１０／２１１と通信してもよい。例えば、ホスト又は対象の車両２１０が、直接通信リンク２３７を介して又はネットワーク２３０を介して、遠隔又はターゲット車両（ＲＶ）２１１から基本安全メッセージ（ｂａｓｉｃｓａｆｅｔｙｍｅｓｓａｇｅ；ＢＳＭ）等の１つ以上の自律走行車間メッセージを受信してもよい。リモート車両２１１は、３００メートル等の定義されたブロードキャスト範囲内のホスト車両にメッセージをブロードキャストしてもよい。いくつかの実施形態では、ホスト車両２１０は、信号リピータ（図示せず）又は別のリモート車両（図示せず）等のサードパーティを介してメッセージを受信してもよい。車両２１０／２１１は、例えば、１００ミリ秒等の定義された間隔に基づいて周期的に１つ以上の自動車両間メッセージを送信してもよい。

自動車両間メッセージは、車両識別情報、経度、緯度若しくは高度情報等の地理空間状態情報、地理空間位置精度情報、車両加速度情報、ヨーレート情報、速度情報、車両方位情報、制動システム状態情報、スロットル情報、ハンドル角度情報若しくは車両ルーティング情報等の運動状態情報、又は送信車両状態に関連する車両サイズ情報、ヘッドライト状態情報、方向指示器情報、ワイパー状態情報、トランスミッション情報若しくは任意の他の情報若しくは情報の組み合わせ等の車両動作状態情報を含んでもよい。例えば、トランスミッション状態情報は、送信車両のトランスミッションがニュートラル状態、駐車状態、前進状態又は後退状態に有るかどうかを示してもよい。

車両２１０は、アクセスポイント２３３を介して通信ネットワーク２３０と通信してもよい。コンピュータ装置を含み得るアクセスポイント２３３は、無線又は有線通信リンク２３１／２３４を介して、車両２１０と、通信ネットワーク２３０と、１つ以上の通信デバイス２４０と、又はこれらの組み合わせと通信するように構成される。例えば、アクセスポイント２３３は、基地局、ＢＴＳ（ｂａｓｅｔｒａｎｓｃｅｉｖｅｒｓｔａｔｉｏｎ）、Ｎｏｄｅ－Ｂ、ｅＮｏｄｅ－Ｂ（ｅｎｈａｎｃｅｄＮｏｄｅ－Ｂ）、ＨＮｏｄｅ－Ｂ（ＨｏｍｅＮｏｄｅ－Ｂ）、無線ルータ、有線ルータ、ハブ、リレー、スイッチ、又は任意の類似の有線若しくは無線デバイスであってもよい。ここでは単一の装置として示されているが、アクセスポイントは、任意の数の相互接続要素を含んでもよい。

車両２１０は、衛星２３５又は他の非陸上通信デバイスを介して通信ネットワーク２３０と通信してもよい。コンピュータデバイスを含み得る衛星２３５は、１つ以上の通信リンク２３２／２３６を介して、車両２１０と、通信ネットワーク２３０と、１つ以上の通信デバイス２４０と、又はこれらの組み合わせと通信するように構成される。ここでは単一の装置として示されているが、衛星は、任意の数の相互接続要素を含んでもよい。

電子通信ネットワーク２３０は、音声、データ、又は任意の他のタイプの電子通信を提供するように構成される任意のタイプのネットワークである。例えば、電子通信ネットワーク２３０は、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、仮想プライベートネットワーク（ＶＰＮ）、モバイル若しくはセルラ電話ネットワーク、インターネット、又は任意の他の電子通信システムを含んでもよい。電子通信ネットワーク２３０は、トランスミッションコントロールプロトコル（ＴＣＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、インターネットプロトコル（ＩＰ）、リアルタイムトランスポートプロトコル（ＲＴＰ）、ハイパーテキストトランスポートプロトコル（ＨＴＴＰ）、又はこれらの組み合わせ等の通信プロトコルを使用する。ここでは単一の装置として示されているが、電子通信ネットワークは、任意の数の相互接続要素を含んでもよい。

車両２１０は、車両交通網２２０の一部又は状態を識別してもよい。例えば、車両は、速度センサ、車輪速度センサ、カメラ、ジャイロスコープ、光学センサ、レーザセンサ、レーダセンサ、音響センサ、又は車両交通ネットワーク２２０の一部若しくは状態を決定若しくは識別することが可能な任意の他のセンサ若しくは装置又はこれらの組み合わせであってもよく又はそれを含み得る図１に示されたセンサ１３６等の少なくとも１つの車載センサ２０９を含む。

車両２１０は、交通ネットワーク２２０を表す情報、１つ以上の車載センサ２０９、又はこれらの組み合わせ等のネットワーク２３０を介して伝達される情報を使用して、車両交通ネットワーク２２０の一部又は複数の部分を通行してもよい。

簡潔のため、図２には１つの１つの車両交通ネットワーク２２０、１つの電子通信ネットワーク２３０及び１つの通信デバイス２４０が示されているが、任意の数のネットワーク又は通信デバイスが使用されてもよい。車両交通及び通信システム２００は、図２に示されていないデバイス、装置又は要素を含んでもよい。車両２１０は単一の装置として示されているが、車両は、任意の数の相互接続要素を含んでもよい。

ネットワーク２３０を介して通信デバイス２４０と通信する車両２１０が示されているが、車両２１０は、任意の数の直接又は間接通信リンクを介して通信デバイス２４０と通信してもよい。例えば、車両２１０は、ブルートゥース（登録商標）通信リンク等の直接通信リンクを介して通信デバイス２４０と通信してもよい。

図３は、本開示の実施形態によるルートプランニングのための技術の一例を示すフローチャート図である。技術３００は、図１に示された車両１００、図２に示された車両２１０／２１１のうちの１つ、半自律走行車、運転支援機能を含み得る任意の他の車両、又は運転者等によって手動で制御される車両であり得るホスト車両において部分的又は完全に実装され得る。技術３００は、図１のメモリ１３４等のメモリに記憶される命令（例えば、動作）として実装され得る。命令は、図１のプロセッサ１３３等のプロセッサによって実行され得る。技術３００は、専用のハードウェア又はファームウェアを使用して実装され得る。複数のプロセッサ、メモリ、又はその両方が使用されてもよい。

技術３００は、車線レベルルートプランナによって部分的又は完全に実装され得る。車線レベルプランナは、図１等に関して説明されたＣＰＵ（中央処理装置）、メモリ、及び入出力装置を含むプロセッサを使用して実装され得る。プロセッサを車線レベルルートプランナとして機能させるコンピュータプログラムは、プロセッサにインストールされ且つ実行され得る。これにより、プロセッサを車線レベルルートプランナとして機能させることが可能になる。なお、ここではソフトウェアによって車線レベルルートプランナが実装される例を説明するが、当然のことながら、ここで説明する各情報処理を実行するために用意された専用のハードウェアによっても車線レベルルートプランナは実装され得る。

ステップ３０２において、技術３００は目的地を受信する。一例では、ユーザ（例えば、運転者）は、ルーティングアプリケーションのユーザインターフェースを介して目的地を提供することができる。一例では、ユーザは、ユーザのポータブルデバイス上で実行され得るルーティングアプリケーションに目的地を提供することができる。別の例では、車両は、サービス（例えば、ロボタクシーサービス）を実行しており、目的地は、配車プロセスを介して技術３００に提供されてもよく、これにより、車両は、顧客又は荷物のピックアップ場所又は顧客又は荷物のドロップオフ場所であり得る目的地に移動する。技術３００に目的地を提供する他のやり方も可能である。目的地は、住所、ランドマーク、会場、又は他の目的地タイプであってもよい。技術３００は、受信した目的地をＧＰＳ座標の集合に変換することができる。

ステップ３０４において、技術３００は、マップ（すなわち、ナビゲーションマップ又は車線レベルナビゲーションマップ）を使用して目的地への車線レベルルートを取得する。車線レベルルートは、道路の第１の車線の第１のセグメントから道路の第２の車線の第２のセグメントへの遷移（すなわち、遷移のためのアクション）を含む。一例では、目的地は、車線レベルルートを計算する図２の通信デバイス２４０等のサーバ（例えば、クラウド型のサーバ）に（無線で）送信されて提供されてもよい。図４に関して、マップ及び車線レベルルートの一例を説明する。

図４は、本開示の実装によるマップの一例を示す図である。マップ４００は、目的地が車線セグメント４０１にあることを示す。マップ４００は、３つの車線、車線４０４Ａ～４０４Ｃを含む道路４０２を含む。マップ４００の車線は、車線セグメントに分割される。車線セグメントは、マップ４００の番号付きセグメントによって示される。例えば、車線４０４Ａは、車線セグメント４０６Ａ～４０６Ｃを含む。車両４０３は、現在、車線セグメント４０６Ａにあり、車線セグメント４０１の目的地に向かっている。車線セグメント４０６Ａは、車両４０３の出発点（図示せず）と目的地との間の中間車線セグメントであってもよい。

一例では、全ての道路セグメントは、同じ長さ（例えば、１００メートル、２００メートル、又はその他のセグメント長）を有し得る。一例では、車線セグメントの長さの少なくとも一部は、車線セグメントの道路に沿った速度に依存し得る。例えば、高速では、車線セグメントは、５００メートル等のより長い長さを有してもよい。一例では、一部の車線セグメントの長さは調整され得る。つまり、例えば、第１の車線レベルルートを生成する場合、第１の車線レベルルートは、第１の長さを有する車線セグメントの一部により生成されてもよく、第２の車線レベルルートを生成する場合、第２の車線レベルルートは、第２の長さを有する車線セグメントの一部により生成されてもよい。車線セグメントの長さは、道路における速度、時刻（例えば、ラッシュアワー対週末）、社会地理的領域（例えば、スクールゾーン、住宅街）、天候（例えば、晴れ対雪）、道路タイプ（例えば、高速道路対市街地道路）、より多い、より少ない、その他の基準、又はそれらの組み合わせに基づいて変更され得る。例えば、視覚的に示されているように、車線セグメント４０６Ｅは、車線セグメント４０６Ｃよりも短い。しかし、車線セグメント４０６Ｄは、車線セグメント４０６Ｃよりも長い。

マップ４００において、車線セグメントは、識別番号（ＩＤ）を有し得る。例えば、車線セグメント４０６Ａ～４０６Ｅは、それぞれＩＤ１、２、３、７、１３を有する。車線セグメントの少なくとも一部は、メタデータに関連付けられ得る。一例では、メタデータには、１つ以上の分類（例えば、指定）が含まれ得る。例えば、マップ４００は、（異なる陰影を使用して）ＩＤが１、２、及び３の車線セグメントが高速セグメントであることを示し、ＩＤが４、５、６、７、及び１１の車線セグメントが標準速度（例えば、速度制限）セグメントであることを示し、ＩＤが８、９、及び１０の車線セグメントが快適（例えば、低速）セグメントであることを示し、ＩＤが１２、１３、及び１５の車線セグメントが市街地車線セグメントであることを示し、ＩＤが１４、１６、及び１７の車線セグメントが手動運転の車線セグメントであることを示している。これらの分類は、必ずしも相互に排他的ではない。例えば、市街地車線セグメントは手動運転車線セグメントであり得る。

快適性車線セグメントとは、車線セグメントの道路上の制限速度の－１０マイル／時間（又はその他の閾値速度）以内の速度で交通が移動し得る車線セグメントであってもよい。手動運転車線セグメントとは、自律的に通行できない、又は十分な信頼度で自律的に通行できない車線セグメントである。このような車線セグメントは、運転者又はテレオペレータ等の手動運転制御の下で通行する必要がある。そのため、車線レベルルートプランナは、車線セグメントの一定時間前に、ユーザが車両の手動運転制御を引き継ぐ必要があることをユーザ（例えば、運転者）に通知するアクションを含んでもよい。

一例では、車線レベルルートを取得することは、起点位置から目的地まで車線セグメントを通行するためのポリシーを取得することを含んでもよい。ポリシーには、車線遷移が含まれる。より正確には、後述するように、ポリシーは、車両が現在の車線セグメント内にあることを考慮したアクションを提供する。一例では、ポリシーは確定的なポリシーであり得る。別の例では、ポリシーは確率モデルに基づき得る。

ルートプランニングでは、目的地への時間を最小化することがルートプランナの通常の目的であるが、本開示に従った車線レベルルートプランナは、以下にさらに説明するように、いくつかの目的のために最適化することによって車線レベルルートを取得することができる。

車線レベルルートは、マルコフ決定過程（ＭＤＰ）モデルのタイプを使用して取得され得る。車線レベルルートプランニングは、トポロジカル部分観測マルコフ決定過程（ＴＰＯＭＤＰ）又はその完全に観測可能なサブクラスのトポロジカルマルコフ決定過程（ＴＭＤＰ）としてモデル化され得る。ＴＰＯＭＤＰ及びＴＭＤＰは、安全性、円滑性、及び／又は他の人の選好を最大化する等の追加的な目的尺度を、移動時間又は移動距離の最小化等、典型的な部分観測マルコフ決定過程モデル（ＰＯＭＤＰ）又はマルコフ決定過程（ＭＤＰ）の目的に組み込むことを可能にする。ＴＰＯＭＤＰモデルを解くことは、ＴＭＤＰモデルを解くことに似ている場合があるが、ＴＰＯＭＤＰが信念状態（すなわち、確率）に基づいており、それぞれの状態の確率を表し、それぞれの状態の観測値の生成に対応する観測確率に従うという点が異なる。他のモデルタイプも可能である。例えば、モデルはスカラー化された多目的マルコフ決定過程（ＭＯＭＤＰ）、スカラー化された部分観測多目的マルコフ決定過程（ＭＯＰＯＭＤＰ）、制約付きマルコフ決定過程（ＣＭＤＰ）、又は制約付き部分観測マルコフ決定過程（ＣＰＯＭＤＰ）のいずれかであり得る。

一般性を失わずに説明するために、ユーザは低速車線の選好を示してもよい。そのため、ルートプランナはどのように目的地に到達するかの計算に「快適性」の目的を組み込むことができる。別の例では、ユーザは、追加的に又は代替的に、エネルギー消費を最小限に抑える車線の選好を示し得る。例えば、一部の車線セグメントにおける交通がノロノロ運転であり、より多くのエネルギー消費を必要とする傾向がある場合、ルートプランナは他の道路セグメントを優先してもよい。別の例として、上り坂下り坂の多い道路はエネルギー消費が多くなる傾向があるため、ルートプランナによってそのような道路よりも円滑な道路が優先される。別の例として、充電ステーションが少ない別の道路よりも、充電ステーションが多い道路が優先されてもよい。

一般性を失わずに、モデル（例えば、ＴＭＤＰ又はＴＰＯＭＤＰ）を確率的最短経路（ＳＳＰ）構造用語（例えば、報酬の代わりにコスト、及び到着時に自己ループするターゲット状態としての目標）で記述され得る。

連結グラフ（Ｖ、Ｅ、Ｒ）は、タプル<S，A，T，C，Ｅ，δ，s_０，ｓ_ｇ>で表されるモデルに変換され得る。各頂点ｖ∈Ｖは、ルーティング決定が行われ得る点のＧＰＳ座標であり得る。そのため、頂点は、交差点、（例えば、ＩＤ９の車線セグメントからＩＤ１１の車線セグメントへの）車線変更位置、合流点等のＧＰＳ座標であり得る。説明するために、マップ４００では、頂点ｖは、車線セグメントの特定の点の座標であり得る。例えば、特定の点は、車線セグメントの中点であり得る。連結グラフの各エッジｅ∈Ｅは、長さ又は通行時間Ｒ（ｅ）の頂点の有向グラフを記述し得る。例えば、マップ４００の下にある連結グラフでは、ＩＤ９の車線セグメントに対応する頂点は、ＩＤ１０及び１１の車線セグメントに接続される。

次に、形式モデルＴＭＤＰの概要を示す。前述のように、このモデルは形式的にタプル<S，A，T，C，Ｅ，δ，s_０，ｓ_ｇ>として記述され得る。Sは、状態又は頂点ｖ∈Ｖの有限集合であり得る。Aは、後続車線セグメント（言い換えれば、後続の頂点）を選択するための各頂点におけるアクション空間である。一般性を損なわずに説明するために、アクション空間Aには、「左に移動する」、「右に移動する」、「真っすぐ移動する」、又は「斜めに移動する」というアクションを含み得る。しかしながら、より多い、より少ない、他のアクション、又はそれらの組み合わせも可能である。例えば、アクション空間Aは、手動制御を引き継ぐようにユーザに通知するアクション、手動制御に切り替えるアクション、制御が自動制御に切り替わることをユーザに通知するアクション、自動制御に切り替えるアクション等を含み得る。

s_０は初期状態であり、これはルートプランナが車線レベルルートを計算するときの車両の現在位置であり得る。ｓ_ｇは目標状態であり、これは目的地であり得る。目標状態s_gに達すると、どのアクションが実行されても目標状態が維持され、目標状態s_gで実行される全てのアクションは０のコストを有する。

T（つまり、T：S×A×S→[０，１]）は、状態s∈Sでアクションa∈Aを実行した後に後続の状態s’∈Sが発生する確率を表す状態遷移関数であり得る。したがって、Tは、各アクションの確率的な成功／失敗を記述する状態遷移関数である。状態遷移関数T(s，a，s’)＝Ｐｒ（s’｜s，a）は、アクションaが状態sで実行されたことを考慮した後続（車線セグメント又は頂点）の確率s’である。一例では、状態遷移関数は、頂点（例えば、車線セグメント）の隣接する頂点（例えば、車線セグメント）の少なくともいくつか（例えば、それぞれ）の各確率を含んでもよい。説明のため、ＩＤ１（すなわち、車線セグメント４０６Ａ）の車線セグメントに関して、状態遷移関数Tは、ＩＤ１の車線セグメントからＩＤ４の車線セグメントへの遷移、ＩＤ１の車線セグメントからＩＤ２の車線セグメントへの遷移、及び／又はＩＤ１の車線セグメントからＩＤ５の車線セグメントへの遷移のいくつかについて各遷移確率を含んでもよい。いくつかの例では、状態遷移関数は、より離れた近隣へ（例えば、ＩＤ１の車線セグメントからＩＤ３の車線セグメントへ）の遷移確率を含んでもよい。

そのため、マップを使用して目的地への車線レベルルートを取得することは、ＡＶがマップの第１の車線セグメント上にある場合に、第１の車線セグメントに隣接する第２の車線セグメントに移動するようにＡＶを制御するアクションを提供するポリシーを取得することを含んでもよい。

確率は、速度制限、エッジeの車線長、ＡＶの仕様、時刻及び場所、交通渋滞情報、より多くの基準、より少ない基準、他の基準、又はそれらの組み合わせを含む基準に基づいて導出され得る。一例では、これらの確率（及び／又は遷移確率を取得するために使用される基準）は、以下でさらに説明するように学習され得る。

は、状態s∈Sでアクションa∈Aを実行するために期待される即時コストを表すマルチコスト関数を表し得る。そのため、車線レベルルートは１つ以上の目的を使用して計算され得る。コストCは、１つ以上の期待される目的に対する最適化のコストベクトルとしてモデル化され得る。１つ以上の期待される目的は、時間目的C_T（すなわち、目的地への移動時間を最小化する時間に関する第１の目的）、快適性目的C_C（すなわち、快適性車線セグメントの選好を示す快適性に関する第２の目的）、自律目的C_A（すなわち、車両が手動で制御されるのとは対照的に自律的に制御され得る車線セグメントの選好を示す自律性に関する第３の目的）、市街地目的C_U（すなわち、例えば、地方車線セグメントとは対照的な市街地車線セグメントの選好に関する第４の目的）、より少ない目的、より多い目的、他の目的、又はそれらの組み合わせを含んでもよい。一例では、コスト目的は発電に関連し得る。したがって、一例では、コストベクトルCは、

によって与えられてもよく、ここで、各C_i(s，a)が状態sにあり、アクションaを実行するためのコスト目的ｉを示す。一例では、１つ以上の目的は、時間に関連する第１の目的、快適性に関連する第２の目的、自律性に関連する第３の目的、又は市街地車線セグメントに関連する第４の目的のうちの少なくとも２つを含んでもよい。

目的は、有向非巡回グラフ（ＤＡＧ）Ｅに続く選好順位付けで配置され得る。図５を用いて選好順位付けグラフの例を説明する。各目的は非負のスラックδを有し得る。δ :e → R+は、ユーザが他の目的の価値を向上させるために、ある目的の価値にどれだけ「費やす」意思があるかを記述する。このように、１つ以上の目的は、スラック変数を含む選好順位付けで関連付けられる。

モデルに対する解は、ポリシーπ：S→Aであってもよい。ポリシーπの下では、アクションa（すなわち、π(s)）が状態sに対して選択される。つまり、ポリシーπは、状態sでアクションπ(s)∈Aを実行する必要があることを示し得る。ポリシーπは、ポリシーπに従って状態sから目的地（すなわち、目標状態s_g）に到達するために期待される累積コストV^π(s)を表し得る価値関数V^π：S→Cを含んでもよい。つまり、価値関数は、開始状態から目標状態に達するまでの各中間状態s_i，の期待されるコスト（すなわち、価値）を提供し得る。

最適なポリシーπ^*は、期待される累積コストを最小化する。形式的には、初期状態s_０に対して、期待値は式（１）で与えられ得る。

式（１）において、S_t及びA_tは、時間ステップｔにおける状態及びアクションのランダム変数をそれぞれ表す。一般に、モデルを解くには、適切なポリシーが存在する必要がある。適切なポリシーπは、次の特性を有する。（１）確率１で目標に到達するポリシーが存在し、（２）確率１で目標に到達しない全ての状態は無限のコストをもたらす。

図３のステップ３０６において、技術３００は、車線レベルルートを通行するようにＡＶを制御する。図４に戻り、図４の矢印は、決定されたポリシーπの下でのアクションを示す。矢印４０８Ａは、「状態がＩＤ１の車線セグメントと等しい場合に、右のアクションを実行し、その結果、車両はＩＤ４の車線セグメントと等しい状態で終了する」というアクションを示す。この場合の「アクションを実行する」とは、アクセルペダルの動作量、ブレーキペダルの動作量、ハンドルのステアリング角等の変更により、「車両が制御される」ことを意味する。

決定されたポリシーπには、偶発事象に備えたルートが組み込まれている（例えば、含まれる）。したがって、得られた車線レベルルートには偶発事象に備えたルートが含まれる。説明のため、車両がＩＤ９の車線セグメント内にある場合、ポリシーは車両がＩＤ１１の車線セグメントに移動するように制御されることを示す。しかしながら、車両がＩＤ１１の車線セグメントを取ることができず、ＩＤ１０の車線セグメントに入ってしまった場合、ポリシーは車両をＩＤ６の車線セグメントに移動させ、且つＩＤ７の車線セグメントに移動させる「左のアクションを実行する」を示す。したがって、車線レベルルートを通行するようにＡＶを制御することは、第１のセグメントから第２のセグメントに遷移できないことに応答して、偶発事象ルートに従ってＡＶを制御することを含んでもよい。

図５は、本開示の実装に従った目的の選好順位付けグラフの例５００を示す。上述したように、モデルの目的はトポロジカルに順序付けすることであってもよい。トポロジカルに順序付けされた制約は、先行目的に対して最初の信念又は全ての信念のスラックを満たさせ得る。車線レベルルートプランナは、トポロジカルに順序付けされた制約グラフで順序付けされたポリシーを計算するために、目的について推論することができる。３つの異なる選好順位が記述されているが、本開示はそれに限定されず、他の構成（すなわち、選好順位）も可能である。

例５００に示される目的は、速度の最適化（すなわち、目的５１２，５３８及び５５６等のＨとラベルされたバブル）、快適性の最適化（すなわち、目的５１４，５３４及び５５４等のＣとラベルされたバブル）、市街地運転の最適化（すなわち、目的５１６，５３２及び５５２等のＵとラベルされたバブル）、及び手動運転の最適化（すなわち、目的５１８，５３６及び５５８等のＭとラベルされたバブル）に関連する。例示された目的は例であり、他の目的も可能である。さらに、例示された選好順位付けグラフは非限定的な例であり、同じ又は異なる目的及びトポロジーを含む他の選好順位付けグラフも可能である。これらの目的のそれぞれは、人間にとって有意であり得るそれぞれの意味ラベルに関連付けられる。本明細書でさらに説明するように、ユーザは、意味ラベルを使用して、車線レベルルートプランナのためのルート選好を示すことができる。

例５１０は、連鎖選好順位付けグラフの例である。例５１０の選好順位付けグラフを使用する場合（すなわち、目的が連鎖的に関連している場合）、第１の高速目的が最大化され（すなわち、目的５１２）、次に、快適性目的（すなわち、目的５１４）は、それが高速目的のスラック５１３（例えば、３のスラック）内であれば最大化され、次に、市街地目的（すなわち、目的５１６）は、快適性目的のスラック５１５（例えば、１のスラック）内であれば最大化され、これはそれが最初の目的のスラック５１３内であることを保証するためにすでに制約されており、最後に、手動走行目的（すなわち、目的５１８）は、すでに制約されている市街地目的のスラック５１７（例えば、７のスラック）以内であれば最大化される。

例５１０は、車線レベルルートプランナが高速道路（すなわち、目的５１２）を好むが、ルートプランナがより快適な別の代替ルート（すなわち、目的５１４）を選択するために、３分の余分な時間（すなわち、スラック５１３）を許容すると解釈されてもよく（例えば、理解され得る）、この代替ルートも快適性目的を最大化する。そのため、ユーザは、「可能な限り最速の道路を与えてもらうが、より快適な車線を運転するために、最速よりも３分長いルートを許可する」を本質的に示す入力を提供（例えば、コマンドを発行）してもよい。また、例５１０の他の目的についても同様である。スラック変数の測定単位は、それが制約する目的の測定単位と同じであることに注意すべきである。

以下でさらに説明するように、ユーザは、ルートプランナがグラフィカルユーザインタフェース（例えば、ドラッグアンドドロップインターフェース、リスト等）を介して、又はユーザが選好を提供するための他のやり方を介して、選好順位付けグラフに変換し得る口頭コマンドを使用して、目的の選好を指定することができる。

例５３０は、扇形の選好順位付けグラフの一例である。例５３０の選好順位付けグラフが使用される場合（つまり、目的がこのような扇形のような関係を持っている場合）、最適ポリシーは、市街地目的（すなわち、目的５３２）、快適性目的（すなわち、目的５３４）、及び手動運転目的（すなわち、目的５３６）に対して同時に計算される。次に、３つの最初の目的のスラック５３３，５３５及び５３７（すなわち、それぞれスラック値５、９、及び２）を条件として、高速目的（すなわち、目的５３８）を最大化する最終ポリシーが決定される。これは、最初の３つの目的のポリシー集合の交点を取得し、最後の目的のためにその空間を検索することと等価である。

例５５０は、例５１０及び５３０を混合した有向グラフの一例である。

各目的（例えば、例５００のバブル）に対して、車線レベルルートプランナは、その目的を満たすルートの集合を取得する。例えば、目的５５２に関して、車線レベルルートプランナは、最適ルート（例えば、できるだけ多くの市街地車線で目的地に到達するための最小ルート）を識別する。目標に到達するために、１分間のスラック（すなわち、スラック５５３）が許容される。そのため、ルートプランナは、目標到達の周囲で可能性のエンベロープを提供すると考えることができる。つまり、ルートプランナは、最も最適な時間の１分以内にある全てのルート、及びそれらが市街地道路上にあるかどうかを識別することができる。したがって、スラック５５３内で目的５５２を満たすルートの最初の集合が返される。

ルートの第２の集合は、目的５５４（すなわち、快適とマークされた車線を走行すること）を満たし、最も快適なルートの６分（すなわち、スラック５５５）以内である。同様に、９分（すなわち、スラック５５７）以内に手動運転目的を満たす第３のルートの集合も得られ、以下同様である。取得されたルートの全ての集合は目的５５６に渡され、このシンク目的から取得されたルートは、取得されたルートの全ての集合に入っている必要がる。状況によっては、全ての制約及びスラックを満たすルートは不可能な場合がある。

例５００のバブルへの入力矢印は、その目的が与えられたルートの集合（又は、選好順位付けグラフの構成に応じて、複数の集合）内にあるようにその目的を制約すると考えることができることに留意されたい。したがって、親矢印がない（つまり、入力矢印がない）場合、任意のスラック（存在する場合）内で目的を満たす任意のルートがルートプランナによって選択され得る。一方、選択された（複数の）ルートは、親の目的によって提供されたルート内に入っている必要がある。そのため、下流の目的は、提供された（例えば、入力の）ルートの（複数の）集合のプルーニングと考えることができる。

一例では、選好順位付けグラフの代わりに、スカラー化関数を使用して、全ての報酬（例えば、コスト）を単一の値にマッピング（例えば、結合等）することができる。スカラー化関数を使用して、モデル／問題を最短経路最適化問題（ＳＳＰ）ＭＤＰ又はＰＯＭＤＰに変換することができる。スカラー化関数を使用して、次の即時アクションの長期的な有用性を示す単一の値が取得されてもよく、これは単一の値を取得するために期待されるコストを結合する。形式的には、スカラー化関数f：C→Rは、単一の値に関してf(V(s))＝V_f(s)であり、コスト関数に関してf(C(s))＝C_f(s)であるようなものであってもよい。一例では、スカラー化関数は、目的の加重和又は目的の非線形関数であってもよい。所望の最適化に応じて、異なる重みが使用されてもよい。一例では、車線レベルルートプランニングは、確率を除去することによって、古典的プランニング（ＣＰ）問題としてモデル化され得る。

使用するモデルに関係なく、車線レベルルートプランニングは階層的であってもよい。理解できるように、可能な車線の数が多いほど、仮にあった場合に、ポリシーの計算に時間がかかる可能性がある。車線レベルルートプランナが推論する車線セグメントの数を制限するために、車線レベルルートプランニングは階層的なやり方で実行され得る。例えば、フロリダ州マイアミの出発地及びアラスカ州フェアバンクスの目的地の場合、車線レベルルートプランナは、米国の道路をクラスタにグループ化し、クラスタ間の車線レベルルートを計画してから、ルートの各クラスタ内でルートレベルプランニングを実行してもよい。

一例では、前述のように、車線レベルルートプランニングは、トポロジカル部分観測ＭＤＰ（ＴＰＯＭＤＰ）としてモデル化され、例えば、（１）各州の交通レベル、（２）運転者及び／又は車両のうちの少なくとも１つの能力、及び／又は（３）様々な目的コストに対する信念を可能にしてもよい。

より形式的には、ＴＰＯＭＤＰはタプル<S，A，Ω，T，O，R，Ｅ，δ>として記述され得る。

Sは有限の状態集合である。Aは有限のアクション集合である。Ωは有限の観測集合である。Tは状態遷移関数であり、T(s，a，s’)＝Ｐｒ（s’｜s，a）は、アクションaが状態sで実行されたことを考慮した後続状態s’の確率である。Oは観測関数であり、O(a，s’，ω)＝Ｐｒ（w｜a，s’）は、アクションaが実行された結果、後続状態s'になったことを考慮した観測確率ωである。

Rは報酬関数のベクトルであり、これは前述のコストベクトルCと等価であり得る。前述のように、Ｅはｋ個の報酬（例えば、コスト）に対するエッジの集合であり、一般性を失うことなく、報酬頂点ｋである１つのリーフ（すなわち、シンク）の報酬頂点を有する有向非巡回グラフを形成する。δは、エッジe＝<i，j>∈Eを非負のスラック制約δ（ｅ）≧０又は同等にδ（ｉ，ｊ）≧０にマッピングする関数である。

ＴＰＯＭＤＰは、世界の信念b∈B⊆Δ^｜S｜に対して動作し、ここで、Δ^｜S｜は状態Ｓに対する確率分布であり、且つ標準｜Ｓ｜－ｓｉｍｐｌｅｘとしてである。信念bは、状態に対する確率分布である。信念は、全ての時間ステップ、及び全ての前方、後方、後続、先行等の車線セグメントに存在し得る。信念bの場合、アクションaを実行して観察ωを行った後で、状態s’に対する次の信念b_baωは、

であり、ここで、∝は比例を意味する。

前述のように、ＴＭＤＰはΩ＝Ｓ及びO(a，s，s’)＝１であるＴＰＯＭＤＰのサブクラスであり、到達可能な信念b∈Bは全てのs∈Sに対してb(s)＝１である。

無限区間ＴＰＯＭＤＰの目的は、割引係数γ∈［０，１）の初期信念ｂ_０から期待される割引報酬を最大化しようとすることである。ポリシーπの場合、期待される割引報酬は、

によって与えられてもよく、b^tは、遷移関数Ｔ及び観測関数Ｏに続いて生成された時間ｔの信念に対する確率変数を表し、これはアクションaが実行された結果として後続状態s’となったことを考慮した特定の観測の確率である。

値V^π：B→Rは、信念bにおける期待される報酬であり、以下によって与えられ得る。

式（３）において、R(b，a)＝Σ_sb(s)R（s，a）及びb_bπ(b)ω’は式（２）の信念の更新に従う。

ここで述べたように、車線レベルルートプランナは、ナビゲーションマップを使用してポリシーを取得する。一例では、ナビゲーションマップは学習され得る。ここで使用される場合、学習されるとは、ナビゲーションマップが進化され得ることを含む。ナビゲーションマップは、事前に設定された車線情報を含んでもよく、車線レベル情報が１つ以上の車両から取得されると、事前に設定された車線情報は、取得された車線レベル情報を反映する（例えば、組み込む）ように進化させることができる。ナビゲーションマップは、最初に車線レベル情報を含まなくてもよく、車線レベル情報は、１つ以上の車両から受信した車線レベル情報に基づいて構築（例えば、投入）され得る。

車線レベル情報は、継続的に受信されてもよく、新たに受信した車線レベル情報を使用してナビゲーションマップが定期的に更新されてもよい。ナビゲーションマップは、（例えば、特定の車両に配備される）特定の車両のナビゲーションマップであってもよく、ナビゲーションマップは、車両自身からの車線レベル情報に基づいて更新され得る。

追加的に又は代替的に、ナビゲーションマップは、多くの車両から（サーバ等において）受信した車線レベル情報に基づいて学習され得る。車線レベル情報はサーバと共にあってもよく、これはクラウド型のサーバであり得る。そのため、複数の車両は、その後、（実際に道路を走行する前に）時間に関する正確な初期推定、（新しいエリアの）人気のあるルートに関する選好、及び（同じコード／ハードウェアを共有する車両の）車両軍が通行するルートを計画しているべき場所に関する能力情報を受信し得る。

車線レベル情報は、多くの車両から取得されてもよい。特定の顧客が所有する車両は、車線レベル情報を生成し得る。（タクシーサービス、デリバリーサービス、その他のサービス等を提供する）展開された車両群は、車線レベル情報を生成し得る。車両からの車線レベル情報は、車両のセンサから受信したデータを使用して生成され得る。一例では、生センサデータがサーバに送信され、サーバは、生センサデータを使用して車線レベル情報を生成し得る。

このように、ナビゲーションマップは、異なる車線及び異なる道路の異なる車線セグメントについて学習された過去の走行パターン及び特性を含み得る。過去の走行パターンは、特定の車両、特定の車両の特定の運転者、又は複数の車両の集約された学習された履歴走行パターンのいずれかであり得る。

１人以上の運転者の走行パターンが学習され、車線レベルルートプランニングに使用され得る。ナビゲーションマップは、道路状態に関する情報を含んでもよい。したがって、学習されたナビゲーションマップは、運転者の運転挙動の履歴及び／又は車線（より具体的には車線セグメント）の特性を活用／組み込むことができるものであり、車線レベルルートプランニングを可能にする。

（例えば、クラウド型のサーバに接続されている）複数の接続された車両からの車線レベル情報は、共有ナビゲーションマップに結合されてもよい。接続された各車両は、１つ以上の通信デバイス２４０等のサーバに車線レベル情報を送信してもよく、これは、取得した車線レベル情報の全てを集約してナビゲーションマップを取得することができる。多車両多目的学習（すなわち、複数の接続車両からの車線レベル情報）は、単一の車両の学習を大幅に高速化することができ、車両が道路自体を走行する前にルートの値（例えば、車線レベル情報）を学習することを可能にする。

経時的に、サーバは、特定の車両が走行した道路だけでなく、多くの運転者がエリア内で走行した多くの車線セグメントに関する情報を受信し得る。また、車線レベル情報は、車両プラットフォーム（例えば、日産リーフ、日産セントラ、日産ローグ等）の識別情報を含んでもよい。いくつかの例では、車線レベル情報は、車線レベル情報が生成された特定の運転者の情報（例えば、選好等）も含み得る。受信した車線レベル情報トレースを使用して、サーバは、その情報を車両（すなわち、車両仕様）、運転スタイル、道路（例えば、車線及び車線セグメント状態を含む）、及び／又はその他の基準に依存するものに分離して、それぞれが特定の車両、特定の車両プラットフォーム、特定の運転者、特定の運転スタイル等に固有の一意のナビゲーションマップを作成することができる。

上述したように、道路の車線の車線セグメントに関して、及び学習を介して、少なくともいくつかの環境情報、車両情報、人的情報、より少ない、より多い、その他の情報、又はそれらの組み合わせが学習され得る。学習された情報は、確率に変換され得る。確率は、本明細書に記載されるように、状態遷移関数に組み込まれてもよく、又は状態遷移関数によって使用され得る。確率は、計算されるルート（例えば、ポリシー）に関して目的を設定する際にも使用され得る。

環境情報は、交通パターン、歩行者パターン、車両（例えば、他のＡＶ）による車線セグメントの通行困難情報、気象情報、負担情報、より多い、より少ない、その他の環境情報の１つ以上、又はこれらの組み合わせを含み得る。車両情報は、車線セグメントごとの平均速度情報、エネルギー使用（例えば、電気自動車のバッテリ使用、ハイブリッド自動車のガソリン及びバッテリ使用、又は内燃機関自動車のガソリン使用）、より多い、より少ない、その他の車両情報のうちの１つ以上、又はこれらの組み合わせを含み得る。

人的情報は、好ましいルート、好ましい車線、制御移行の要求（自動運転から手動運転へ、又は手動運転から自動運転へ等）、運転者のオーバライドによる能力モデルの更新、より多い、より少ない、その他の人的情報、又はそれらの組み合わせのうちの１つ以上を含んでもよい。制御移行の要求は、制御の移行が要求された車線セグメントを含んでもよい。制御移行の要求は、計画された後続車線セグメント、及びどの後続車線セグメントを人間の運転者が取ったかを含んでもよい。

車両がルートを通行しているときに（ナビゲーションマップの現在の状態に基づいているか、又は車線レベルプランナを介してルートを設定していないかにかかわらず）、車両のセンサを使用して、車線レベル情報に変換される情報を収集することができる。つまり、車両はシャドウモードにあり、センサを介して環境を監視していると考えられ得る。

センサからのデータは、例えば、限定されないが、道路（したがって、車線及び車線セグメント）が市街地か高速道路か、車線セグメントが通行困難であるかどうか、交通が密集しているかどうか、密度のレベル等を識別するために使用されてもよい。通行の困難さは、運転者のオーバライド量に基づいて識別されてもよい。つまり、自動運転の決定が人間によってオーバライド又は修正された回数、又は人間が自動制御によって提案されたのとは異なるやり方で車両を制御するように自動制御に指示した回数である。

負荷情報は、選択された車線変更の決定を与えられたユーザ（例えば、車両の乗員）が受け得るストレスのレベルを示し得る。説明するために、特定のルートは、混雑した又は高速の交通エリアで、比較的短い時間又は短い距離内で、車両が３つの車線セグメントを左に移動することを必要とする場合がある。このような状況は、ユーザにストレスを与え得る。このような負荷情報は、混雑エリアよりも前のはるかに早い車線セグメント遷移点を選択し、又はストレスのかかる状況を完全に回避するルートを選択するために使用されてもよい。

車線レベル情報を使用して、カウントが確率に変換され得るように、カウントを実行し得る。例えば、一般性を失うことなく、交通密度のカウントは、道路の１つの車線セグメントを通行して次の車線セグメントに移動するのにかかる時間等、１つの車線セグメントから別の車線セグメントに移動する確率に変換されてもよく、車線セグメント上の交通量が少なかった場合と交通が密集していた場合の履歴の回数のカウントを使用して、交通密度の確率を決定してもよく、車線セグメント上の速度が速い回数のカウントを使用して、車線セグメントを高速であると分類してもよく、車線セグメント上の速度が制限速度の－１０マイル以内であった回数のカウントを使用して、車線セグメントが快適性車線セグメントである確率を決定してもよく、以下同様である。

ナビゲーションマップは確率から構築され得る。つまり、ナビゲーションマップに確率を組み込み得る。ナビゲーションマップは、図４に関して説明したような遷移グラフである。ポリシーを取得する際には、車線レベル情報（例えば、確率）に基づいて、次のアクション（例えば、次の車線セグメントに真っすぐ移動する、左隣の車線セグメントに移動する等）が決定され得る。一般性を失わずに説明するために、次のアクションは、例えば、現在の車線セグメントが渋滞しているかどうかに基づいて隣接する車線セグメントが渋滞している確率を含む、本明細書に記載されている隣接する車線セグメントの確率に基づいて確率的に（又は確定的に）決定され得る。

ナビゲーションマップの車線レベル情報の少なくとも一部は、車線レベルルートプランナの目的を設定するために使用され得る。説明のため、限定されないが、前述のように、環境は通行困難を含んでもよく、（例えば、ユーザによって設定された）目的が自動運転を最大化する場合、ルートプランナは通行困難のある車線（又は車線セグメント）を回避するであろう。つまり、ルートプランナポリシーは、通行困難のある車線セグメントを回避するように計算される。

目的地への時間（これには、制限速度、道路の長さ、停止信号、交通密度、車線セグメントが高速車線であるかどうか等が含まれるか又は組み込まれ得る）、選好（これには、快適性、高速道路とは対照的な市街地道路、エネルギー消費等の少なくともいくつかのユーザ選好が含まれ得る）、及び能力（これには、車線セグメントが有能に自動的に通行できるか、又は有能に手動で通行できるかが含まれ得る）についての目的を検討する。

説明のため、限定されないが、時間、優先度、及び能力目的の少なくとも一部を使用してルートを計画することができるように、車両がルートを走行するときはいつでも、特定の車線セグメントを自動的に通行するための時間は完全停止の有無にかかわらず記録され得る。同様に、特定の車線セグメントを手動で通行する時間（つまり、人間が運転しているとき）も記録され得る。したがって、４つの平均持続時間が記録され得る。平均時間を使用して、自己ループ（停止）のＴＭＤＰ状態遷移を定義し得る。平均時間を使用して、例えば、自動運転（例えば、制御）対手動運転の状態に基づいて、通行時間の報酬／コストを定義し得る。

追加的に、人間が車線セグメントを運転するときはいつでも、後続の車線セグメントが記録され得る。後続の車線セグメントを使用して、選好に関する報酬／コストを［０、１］の範囲で定義してもよく、これは、人間が道路又は車線セグメントを運転した時間の比率であり得る。

さらに、人間が自動制御をオーバライドするか、又は自動制御の下で車両が立ち往生する（すなわち、１分又はその他の時間の閾値等の第１の閾値を超えて前進しない）ときはいつでも、第１の値として－１が記録されてもよく、そうでなければ（例えば、自動制御がオーバライドされず、車両が立ち往生しない場合）、第２の値として０が記録され得る。記録された第１の値及び第２の値の平均は、能力の尺度として使用され得る。その逆は、人間の運転者の能力を学習するために使用され得る。例えば、手動制御の下では、車両が第２の時間の閾値（例えば、１分又はその他の時間閾値）を超えて移動しない場合、第３の値として－１が記録され得る。例えば、運転者車線レベルルートプランナによって識別された禁止された次のアクションに従わない場合、第４の値として－１が記録され得る。例えば、運転者がシームレスに隣接する車線セグメントに進む場合、第５の値として０が記録され得る。第３、第４、及び第５の値の平均は、車両が現在の車線セグメントにあるときに次のアクションを実行する人間の能力の尺度として記録され得る。

すでに述べたように、意味ラベルを使用して、車線レベルルートプランナによって計算されるルートの目的を定義し得る。意味ラベルの例は、「快適性」（及び／又は関連する意味概念）、「市街地」（及び／又は「高速道路」等の関連する意味概念）、「高速」（及び／また関連する意味概念）、「手動運転」（及び／又は「自動運転」等の関連する意味概念）等、図５に関して説明されたものを含む。より少ない、より多い、他の意味ラベル、又はそれらの組み合わせも可能である。説明するために、ユーザが快適な道路の選好を示す場合、車線レベルルートプランナは、「快適」とラベル付けされた車線セグメントを考慮してポリシーを計算する。

ここで、目的から意味ラベルへのマッピングは、１対１のマッピングである必要はないことに留意されたい。そのため、意味ラベルはいくつかの目的を組み合わせてもよく、又は１つの目的を使用して１つ以上の意味ラベルが定義されてもよい。

開示された実装の一態様において、多目的深層強化学習（ＭＯＤＲＬ）が使用され得る。強化学習又は深層強化学習において、深層ニューラルネットワーク（ＤＮＮ）を使用してポリシーを学習することができる。ＤＮＮは、代替的に又は追加的に、価値関数を学習するために使用され得る。そのため、強化学習技術がプランニング技術の代わりに使用され得る。強化学習では、目的はフィードバックからＤＮＮを介して学習され得る。フィードバックは、車線セグメントを通行する時間、能力に対する人間のオーバライド、又はその他のフィードバックの１つ以上を含み得る。強化学習では、確率を学習する代わりに、確率及びコストを組み合わせて、目標（すなわち、目的地）に到達するための期待値にする。

ある態様では、本明細書に記載のように、ＴＭＤＰはナビゲーションマップを使用してポリシーを取得し得る。別の態様では、ＴＰＯＭＤＰを使用してポリシーを取得し得る。ＴＰＯＭＤＰを使用すると、例えば、限定されないが、道路、車線、又は車線セグメント上の交通のレベル；新しい道路、車線、又は車線セグメントの能力の量；又は、本明細書に記載のその他の車線レベル情報に対する信念が有効になる。

図６は、本開示の実装によるナビゲーションマップの学習及び使用の概要６００を示す。車線レベルルートプランナは、車線レベル情報を取得する学習モジュールを含んでもよい。車線レベルルートプランナは車両で実行されてもよく、車線レベル情報は車両のナビゲーションマップに組み込まれ得る。車線レベル情報はサーバに送信されてもよく、サーバは複数の車両から車線レベル情報を受信してもよい。サーバは受信した車線レベル情報をナビゲーションマップに組み込み得る。その後、ナビゲーションマップは車線レベルルートプランナを使用してポリシー（例えば、ルート）を取得し得る。

概要６００は、起点６０８から目的地６１０まで（図示しない同一又は複数の車両によって）３つの異なるルート６０２，６０４及び６０６が取られたことを示す。走行中、車線セグメント６１２等の車線セグメントについて車線レベル情報が収集される。履歴６１４は学習された車線遷移を示し、履歴６１４における車線セグメントの陰影は車線セグメントの学習された特性を示す。履歴６１４は、本明細書に記載されるように学習された他の車線セグメント情報を含む。

ルートの少なくともいくつか（例えば、全て）に沿った車線セグメントの少なくともいくつか（例えば、全て）の履歴は、本明細書に記載されるように、ナビゲーションマップに結合（例えば、カウント）され得る。本明細書に記載されるように、複数の目的及び他の意味ラベルが、ボックス６１８によって示されるように、各車線セグメント履歴に記録され得る。

学習に基づいて、遷移グラフ６２０によって示される状態遷移グラフ構造（すなわち、上述の状態遷移関数T）が生成され得る。状態遷移グラフは、本明細書に記載されるように、ＳＳＰＭＤＰ又はＰＯＭＤＰモデルによって使用され得る。次に、車線レベル多目的車線レベルルートプランナのナビゲーションマップが出力される（例えば、生成される）。ナビゲーションマップの車線レベル情報は、車線セグメントの車両の全通行の平均を含む。例えば、車線レベル情報は、速度、停止、認識された交通の密度、バッテリ使用、車線変更成功率等の１つ以上の平均を含む。

学習に基づいて、ＳＳＰＭＤＰ又はＰＯＭＤＰモデルで使用されるコスト（報酬）関数も生成され得る。異なる目的の平均が、上記のように時間、制御の移行点、バッテリ使用、速度等を観察して報酬として記録され得る。報酬関数から、目的間においてスラックが可能かどうかを知ることができる。例えば、ルートの期待値が最適値より１０分長い場合、少なくとも１０のスラックが可能である。このような報酬関数及びスラックは、図５に関して説明され、選好順位付け６２２で示されるように、選好順位付けを設定するために使用され得る。

図７は、本開示の実施形態によるルートプランニングのためのナビゲーションマップを学習する技術７００の一例を示すフローチャート図である。ナビゲーションマップは、車線レベルルートプランナによって使用される。技術３００は、図１に示された車両１００等のホスト車両、図２に示された車両２１０／２１１のうちの１つ、半自律走行車、運転支援機能を含み得る他の車両、又は運転者等によって手動で制御される車両であり得る装置において部分的又は完全に実装され得る。装置は、図２の通信デバイス２４０であり得るサーバであり得る。

技術７００は、メモリに記憶される指示（例えば、命令）として実装され得る。メモリは、図１のメモリ１３４であり得る。メモリは、サーバのメモリであり得る。命令は、図１のプロセッサ１３３等のプロセッサによって実行され得る。技術７００は、専用のハードウェア又はファームウェアを使用して実装され得る。複数のプロセッサ、メモリ、又はその両方が使用されてもよい。

ステップ７０２において、技術７００は、道路の車線レベル情報を取得する。車線レベル情報は、道路の異なる車線の異なるセグメントの情報を含む。例えば、道路は第１の車線及び第２の車線を含み得る。車線レベル情報は、第１の車線に関連する第１の車線情報、及び第２の車線に関連する第２の車線情報を含む。

車線レベル情報は、ホスト車両で取得されてもよく、車線レベル情報を使用して、ホスト車両の（例えば、ホスト車両の中で使用される、ホスト車両が使用する、ホスト車両で利用可能な）ナビゲーションマップを進化させることができる。車線レベル情報は、複数の車両から車線レベル情報を取得するサーバで取得（例えば、受信）され得る。サーバは、それぞれの車線レベルルートプランナによって使用される進化したナビゲーションマップを車両に送信し得る。サーバは、進化したナビゲーションマップを使用してルート（例えば、ポリシー）を計算し得る。

上述したように、車線レベル情報は、環境情報、車両情報、又は人的情報の少なくとも１つを含んでもよい。環境情報は、車線セグメントの交通パターン、歩行者パターン、又は通行困難情報の少なくとも１つを含んでもよい。車両情報は、ユーザの選好のルート及びユーザによる制御の移行要求を含んでもよい。

一例では、道路の車線レベル情報を取得することは、道路上で停止している道路の自動通行の第１の時間を記録すること、道路上での停止を伴わない道路の自動通行の第２の時間を記録すること、道路上での停止を伴う道路の手動通行の第３の時間を記録すること、及び道路上で停止していない道路の手動通行の第４の時間を記録することを含んでもよい。一例では、道路の車線レベル情報を取得することは、手動通行中に後続車線セグメントを記録することを含んでもよい。一例では、道路の車線レベル情報を取得することは、自動走行制御の人間によるオーバライドを記録すること含んでもよい。道路の自動通行とは、車両が道路を通行するように自動的に制御されることを意味する。道路の手動通行とは、車両が道路を通行するように（人等によって）手動で制御されることを意味する。

ステップ７０４において、技術７００は、車線レベル情報を、目的地へのルートを取得するために使用され得る状態遷移関数に変換する。上述したように、状態遷移関数は、ＴＭＤＰ又はＴＰＯＭＤＰモデルのものであってもよい。目的地へのルートは、上述したように、ポリシーであってもよく、又はそれにカプセル化されてもよい。一例では、ポリシー、つまりルートは確率的である。

ステップ７０６において、技術７００は目的地を受信する。例えば、サーバ（より具体的には、サーバで実行される車線レベルルートプランナ）は、現在位置及び目的地を（例えば、ユーザ装置、車両のマッピングアプリケーション等から）受信して、ルートを取得し得る。例えば、装置で実行される車線レベルルートプランナは、ユーザ（運転者又は乗員等）から目的地を受信してもよく、車線レベルルートプランナはルートを取得し得る。例えば、車線レベルルートプランナは、装置の現在位置等に基づいて、ルートの起点位置を推測し得る。

ステップ７０８において、技術７００は、状態遷移関数を使用するモデルの解としてポリシーを取得する。

図８は、本開示の実装によるルートプランニングの説明を提供する技術８００の一例を示すフローチャート図である。技術８００は、本明細書に記載の車線レベルルートプランナ等のルートプランナによって部分的又は完全に実装され得る。技術８００は、説明モジュール等のルートプランナのモジュールによって実装され得る。車線レベルルートプランナは、ルートに自動的に従うように車両を制御するために使用され得るアクションを提供することができる。技術８００は、ルートプランナによって所定の道路、車線又は車線セグメントが選択される理由に関する説明を提供するために使用され得る。

技術８００は、メモリに記憶される指示（例えば、命令）として実装され得る。メモリは、図１のメモリ１３４であり得る。メモリは、サーバのメモリであり得る。命令は、図１のプロセッサ１３３等のプロセッサによって実行され得る。技術７００は、専用のハードウェア又はファームウェアを使用して実装され得る。複数のプロセッサ、メモリ、又はその両方が使用されてもよい。

技術８００は、図９を参照してさらに説明される。図９は、本開示の実装に従って、複数の目的に基づく説明を提供する例９００を示す図である。

ステップ８０２において、技術８００は、ユーザから受け取った少なくとも２つの目的に基づいてルートを決定（例えば、計算、取得等）することができる。少なくとも２つの目的のうち第２の目的は、少なくとも２つの目的のうち第１の目的の余裕値内に制限され得る。上述したように、余裕値は、第２の目的を改善するために第１の目的からどの程度のずれが許容されるかを示す。

一例では、ルートを決定することは、起点（例えば、現在）位置から目的地までルートをナビゲートするためのポリシーを取得することを意味する。ルートは、本明細書に記載のように、マルコフ決定過程を使用して決定され得る。車線レベルプランナは、本明細書に記載のように、ルートを決定することができる。車線レベルルートプランナは、本明細書に記載のように、ナビゲーションマップを使用して、ルートを決定することができる。ルートプランナは、多目的ルートプランナであってもよい。

少なくとも２つの目的は、任意の数の目的であってもよい。少なくとも２つの目的は、本明細書に記載のように、任意のやり方で関連させる（制約される）ことができる。少なくとも２つの目的は、有向非巡回グラフを使用して関連させ得る。一例では、少なくとも２つの目的は、時間目的、快適目的、自律性目的、又は都市目的の少なくとも２つを含んでもよい。

図９の有向グラフ９１０は、２つの目的を示している。すなわち、時間目的９１２及び自律性目的９１４である。自律性目的９１４は、時間目的９１２の３分の余裕値９１６内に（例えば、余裕値となるように）制約される。一例では、少なくとも２つの目的は、ルートプランナのデフォルト設定であってもよい。一例では、技術８００は、ユーザから、第１の目的、第２の目的、及び余裕値を受け取ることができる。

一例では、第１の目的、第２の目的、及び余裕値は、口頭コマンドでユーザから受け取ることができる。例えば、口頭コマンドは、「自律性を高めるために、３分間の余裕を可能にする最速ルートを見つける」であってもよい。口頭コマンドは、ルートプランナのセマンティック処理モジュールを介して、有向グラフ９１０であるか、又はそれに類似し得る内部表現に変換され得る。セマンティックプロセッサは、目的、目的間の関係、及び口頭コマンドにおける任意の余裕値を識別することができる。例えば、セマンティックプロセッサは、「最速ルート」、「自律性を高める」、及び「３分間の余裕を可能にする」という言葉を、それぞれ時間目的９１２、自律性目的９１４、及び余裕値９１６に変換してもよい。

一例では、ユーザは、オブジェクト及び余裕値を指定できるグラフィカルユーザインタフェースを提供され得る。グラフィカルユーザインタフェースの例は、図１０及び図１１に関して説明される。グラフィカルユーザインタフェースは、車両のディスプレイ又はユーザのデバイスのディスプレイ等のディスプレイ上に提供され得る。グラフィカルユーザインタフェースは、ユーザが利用可能な制約を表すアイコン（例えば、バブル、ボックス、言葉等）をドラッグし、アイコンを接続して図５に関して説明したようなＤＡＧを形成するようにドラッグアンドドロップのインターフェースを提供することができる。２つの制約間の接続をクリックすることにより、ユーザは余裕値を提供することができる。一例では、ルートプランナのセマンティックプロセッサは、ＤＡＧをディスプレイに表示され得る記述に変換することができる。一例では、ユーザはリスト（例えば、一連の目的）であるＤＡＧの形成に制限され得る。

一例では、ユーザの口頭コマンドはディスプレイにテキストで表示され得る。一例では、ユーザの口頭コマンドを表すＤＡＧがディスプレイに表示され得る。

ステップ８０４において、技術８００は、ユーザから、ルートに沿ったアクションに関する説明の要求を受け取る。この要求は、まだ実行されていないアクション又はすでに実行されたアクションに関する説明に対してであってもよい。

決定されたルートは、ディスプレイに表示され得る。図９のマップ９２０等に示すように、ルートをマップ上にオーバレイされてもよい。マップ９２０は、起点９２３から目的地９２４へのルート９２２を含む。起点９２３は、車両の現在位置であってもよく、車両がルート９２２を通行するときに更新され得る。

マップ９２０は、次に取られるべきセグメントが車線セグメント９２９であることを示す。マップは、ユーザが情報を取得し又は説明を取得するために使用（例えば、押す）ことができるコントロールも含み得る。例えば、マップ９２０は、ルートプランナが選択することができた代替車線セグメントセレクタ９２６を含む。ユーザが説明コントロール９２５を押すことに応答して、技術８００は説明を提供する。情報コントロール９２７は、ユーザによって、情報コントロール９２７がその隣に表示されている車線セグメント、車線、又は道路に関する情報を要求するために使用され得る。情報コントロール９２７が押されることに応答して、技術８００は、上述のように、ナビゲーションマップで利用可能な車線セグメントに関する情報を提供することができる。説明コントロール９２５、代替車線セグメントセレクタ９２６及び情報コントロール９２７の他の配置又は視覚的描写も可能である。

一例では、技術８００は、ユーザからの口頭要求を介して説明の要求を受信し得る。

説明の要求は、現在の状態における特定の可能なアクションに関する要求であってもよい。例えば、ユーザは、「なぜ右に行かないのか？」と質問して、ルートプランナによって選択された次の即時アクションに関する説明を受け取ってもよい。このような要求では、ルートプランナは、ルートプランナの現在の状態において選択されたアクションを特定の可能なアクションと比較することによって回答を提供する。

説明の要求は、現在の状態における全ての可能なアクションを含む要求であってもよい。例えば、ユーザは、「なぜ直進しているのか？」と質問して、ルートプランナによって選択された次の即時アクションに関する説明を受け取ってもよい。このような要求では、ルートプランナは、ルートプランナの現在の状態において選択されたアクションを、現在の状態における他の可能なアクションと比較することによって回答を提供する。例では、ユーザは、ルートプランナが様々な可能なアクションから選択し得るポイント９２８等、マップ上の特定のポイントを選択（例えば、クリック）し得る。

ユーザは、ルートプランナによって既に実行された、又は実行されるように選択されたアクションに関する説明を要求してもよい。例えば、ユーザは「なぜ右に行かなかったのか？」と質問してもよい。別の例では、ユーザは「どうして直進したのか？」と質問してもよい。

一例では、ユーザは手動でアクションをオーバライドしてもよい。ユーザは、代替車線セグメントセレクタ９２６を選択（例えば、押す等）するか、又は「次に右へ行く」等の口頭コマンドを発行することによって、手動でアクションをオーバライドすることができる。ユーザは、車両を手動で制御することによって、手動でアクションをオーバライドすることができる。ユーザは、説明を受け取る前又は後にアクションをオーバライドすることができる。

ユーザがマップ９２０上のポイントを選択して説明を要求すると、マップ上の位置が状態に変換される。状態ｓは、任意のルートプランニングモデルに関して上述したものであってもよい。

ステップ８０６において、技術８００は、ユーザに説明を提供する。説明は、余裕値に違反する程度を記述する（例えば、含む）ことができる。

ルート（例えば、ポリシー）を計算するとき、及び少なくともいくつかの目的について、ルートプランナは、上記のように、少なくともいくつかの状態（例えば、車線セグメント）及び可能なアクションについて、それぞれの期待割引報酬Q_o(s，a）を維持（例えば、記憶）してもよく、ここで、oは目的であり、sは状態であり、aはアクションである。Q（s，a）＝［Q_１(s，a），…，Q_k(s，a）］は、特定の状態s及びアクションaについての１，．．，ｋの目的の期待割引報酬のベクトルである。期待割引報酬の取得は、ポリシーに依存する。Q_o(s，a）は、状態sで一度アクションaを実行し、その後ポリシーに従った場合の目的oの期待割引報酬である。

一例では、ルートプランナは、複数の状態の間で、及び各目的に対して、どの程度の変化が発生するかによる利得値を記憶し得る。値の差が最も大きい上位状態（例えば、ルートに沿った車線又は車線セグメント）が説明として選択され得る。

例示すると、期待割引報酬値Ｑは、期待割引報酬値のアクションに対して状態sで並べ替えされ得る。一例では、値は目的ごとに個別に記憶され得る。目的ｉの場合、アクションに対する順序付けが、Q_i(s，a_２）＞Q_i(s，a_４）＞Q_i(s，a_３）＞Q_i(s，a_１）であるように計算されてもよく、ここで、a_１、a_２、a_３及びa_４はs状態における可能なアクションである。したがって、アクションa_２は目的ｉの最適なアクションと見なされ得る。しかし、別の目的ｊに関して、順序付けはQ_j(s，a_４）＞Q_j(s，a_１）＞Q_j(s，a_２）＞Q_j(s，a_３）であってもよい。したがって、アクションa_４は、目的ｊの最適なアクションと見なされ得る。さらに、アクションa_４が状態ｓに対して最終的に選択されたアクションであると仮定する。そのため、目的ｉに対する期待割引報酬はQ_i(s，a_２）-Q_i(s，a_４）だけ減少する。

アクションa_１、a_２、a_３、及びa_４並びに状態のセマンティックな意味を使用して説明を提供することができる。状態ｓは、マップ位置として意味を有し得る。例えば、状態ｓはマップ内のＧＰＳポイントであってもよい。例えば、状態ｓはマップ内の交差点におけるＧＰＳポイントであってもよい。アクションaは、左に曲がる、右に曲がる、直進する、交差点でＵターンする等の意味も有し得る。そのため、プレースホルダ（又は変数）を持つ説明文が構築され得る。例えば、文は、「＜状態＞において＜アクションa＞が選択されたのは、期待時間が＜Q_i(s，a_optimal）-Q_i(s，a）＞分だけ長いからであり、それには＜余裕＞の余裕が割り当てられる」というテンプレートから構築され得る。このような文の例は以下であってもよい。ＢａｒｒｏｗｓとＷａｔｓｏｎとの交差点においてＵターンが選択されたのは、期待時間が１．２分しか長くならなかったからであり、それには３．０の余裕が割り当てられる。

例示すると、ユーザは、「なぜ右に行かなかったのか？」と質問してもよい。すなわち、ユーザは、ルートプランナによってマップ９４０のルート９４２が選択されなかった理由を質問している。技術８００は、状態sがポイント９２８におけるＧＰＳ位置であることを決定する。技術８００は、ユーザが比較（例えば、説明）することを求めている各目的及び各アクションの期待割引報酬値を決定（例えば、計算、メモリ又はストレージから回収、取得、検索）する。このように、技術８００は、時間及び自律性の各目的及び直進（ｇｏ＿ｓｔｒａｉｇｈｔ）及び右折（ｔｕｒｎ＿ｒｉｇｈｔ）の各アクションについての利得値を決定する。したがって、技術８００は、ルート９２２に対応するQ_time(s，a＝go＿straight）及びQ_autonomy(s，a＝go＿straight）を決定し、ルート９４２に対応するQ_time(s，a＝go＿right）及びQ_autonomy(s，a＝go＿right）を決定し、ここで、s＝ポイント９２８におけるGPS位置である。

例示のために、以下の値が決定されたと仮定する。

つまり、ルート９２２が通行するのに２分かかると決定され、ルート９２２に沿って１分、車両は自律走行することができ、ルート９４２は６分かかると決定され、車両はルート９４２に沿って４分自律走行する。

ルート９４２が自律性目的９１４を満足させるより自律的な走行をもたらすとしても、技術８００はルート９４２が余裕値９１６内にないと決定する。ルート９４２と９２２との間の時間差は、Q_time(s，a＝go_right )-Q_time(s，a＝go_straight )＝６-２＝４ｍｉｎｕｔｅｓである。この時間差（４分）は余裕値（３分）内にない。

代替ルートに沿った状態に対して、期待割引報酬が計算される。そのため、ユーザは、ルート又は代替ルートに沿った状態に関する説明を要求し得る。ルートを計画すると、確率的に多数の偶発計画が考慮されることになる。そのため、他の所定のルートが選択されない理由についての説明が提供され得る。例えば、ユーザが代替ルートを選択したことに応答して、説明モジュールは、選択されたルートと代替ルートとの間の差の車線／道路のみを除いて、上記の並べ替えアルゴリズムを使用することができる。したがって、それは、ルート間の目的間のコスト差が最も大きい原因を特定することができる。

次に、技術８００は、説明を構築することができる。一例では、ルートプランナの説明モジュールは、説明を構築することができる。説明は、第１のアクション、第２のアクション、第１の目的、第２の目的、及び第２のアクションが余裕値に違反する程度のそれぞれの記述子を含んでもよい。

一例では、説明を構築することは、テンプレート内のプレースホルダを記述子で置き換える（例えば、挿入する）ことを意味し得る。一例では、テンプレートは、“＜取られたアクション＞に行った理由は、＜代替アクション＞によって、＜被違反目的＞が＜違反目的＞を改善するために＜余裕量＞の割り当て余裕外にあるからです。”というフォーマットを有してもよく、ここで、＜取られたアクション＞、＜代替アクション＞、＜被違反目的＞、＜余裕量＞、及び＜違反量＞の各々は、それぞれのセマンティック記述子のプレースホルダである。

＜取られたアクション＞のプレースホルダは、ルートプランナによって選択されたアクションのプレースホルダであってもよく、＜代替アクション＞のプレースホルダは、１つ以上の代替アクションのプレースホルダであってもよく、＜被違反目的＞のプレースホルダは、代替アクションの１つによるその値が最適値の余裕値内にない目的であってもよく、＜余裕値＞は余裕値であってもよく、＜違反目的＞は、その値によって、違反している目的の値が余裕値内にない原因となる目的であってもよい。したがって、上記の例を使用すると、説明は、「直進した理由は、右折が自律性を改善させるために、３分間の割り当てられた余裕外の時間を引き起こすからです」であってもよい。

一例では、複数のテンプレートが利用可能であってもよく、説明モジュールはテンプレートの１つを選択し得る。一例では、テンプレートは、上記のプレースホルダの１つ以上を含まなくてもよい。テンプレートは、“＜取られたアクション＞に行った理由は＜車線セグメントに関する状態＞だからです”又は“＜取られなかったアクション＞を行わなかった理由は＜車線セグメントに関する状態＞だからです”であってもよい。例示すると、ユーザが自律性を最大化するという主要な目的を提供し、ルートプランナがマップ９４０のルート９４２を選択する場合、ユーザは「どうして直進しないのか？」と質問するかもしれない。ルートプランナがルート９４２を選択するのは、車線セグメント９４４が通常は交通渋滞を含み、そのため車両が自律的に車線セグメントを通行する能力がないことを示す情報がナビゲーションマップに含まれるからである。説明は、“直進しなかった理由は自律的に車線を通行する能力がないからです”であってもよい。一例では、車線セグメントは、説明が関係する車線セグメントをユーザに示すために、マップ９４０上で同時に強調表示されてもよい。上述したように、一例では、ナビゲーションマップ内の能力情報を学習することができる。一例では、能力情報は、ナビゲーションマップ内に事前ロード（例えば、事前に設定）されてもよい。

一例では、説明は、１つ以上の様式で提供（例えば、ユーザに出力）されてもよい。説明は、視覚、触覚、又は聴覚様式の少なくとも１つで提供されてもよい。視覚様式では、説明は、車両のディスプレイ等で、ユーザに表示されてもよい。聴覚様式では、説明は、ユーザに音読されてもよい。

触覚フィードバックは、例えば、聴覚及び／又は視覚障害ユーザに有用であってもよい。触覚説明は、車両の１つ以上の物理的コンポーネント（例えば、ハンドル、シート、ペダル等）を振動させることによって提供されてもよい。

異なる振動パターン及び位置（例えば、ハンドルの左側、ハンドルの右側、シートクッションの左側、シートクッションの右側、ハンドルの両側、シートの両側等）を使用して、説明の異なる側面を伝えることができる。一例では、ハンドルは、人がハンドルを保持していることをハンドルのセンサが検出するような状況で使用されてもよい。

異なる振動パターンを使用して、テンプレートプレースホルダの異なる値を伝えることができる。触覚説明は、「＜取られたアクション振動パターン＞－－－＜代替アクション振動パターン＞－－－＜被違反目的振動パターン＞－－－＜違反目的振動パターン＞」という形式になってもよい。振動パターンは、ここでは「Ｒ」及び「－」を使用して表され、ここで、「Ｒ」は振動又は振動音を表し、「－」は一時停止を表してもよく、代替的に、「Ｒ」は高強度の振動又は振動音を表し、「－」は低強度の振動又は振動音を表してもよい。

実行されるアクションごとに、識別可能な振動が利用可能であってもよい。例えば、「右に移動する」、「左に移動する」、「直進する」、「斜めに移動する」というアクションは、それぞれ振動パターン「ＲＲ」、「Ｒ－」、「－Ｒ」、「－－」で表されてもよい。他のプレースホルダの値にも同様のパターンを利用可能であってもよい。説明は、振動及び一時停止のシーケンスとして構築されてもよく、振動及び一時停止の各サブセットがプレースホルダの値を表している。振動及び一時停止のシーケンスは、説明の開始を通知する（例えば、表示する）シーケンスが前に置かれてもよい。

図１０は、本開示の実装による車線レベルルートプランナのための多目的設定のためのユーザインターフェース１０００の一例を示す図である。ユーザインターフェース１０００は、ユーザインターフェース１３５等の車両のユーザインターフェースを含む。ユーザインターフェース１０００は、第１の目的を表す第１のオブジェクト１０１０と、第２の目的を表す第２のオブジェクト１０２０とを含む。ここで、第３の目的は、多目的ポリシーに含まれるので、表現は、第３の目的を表す第３のオブジェクト１０３０を含む。ユーザインターフェース１０００上の表現内の第１のオブジェクト１０１０及び第２のオブジェクト１０２０の配置は、第２の目的に対する第１の目的の優先度（例えば、関係等）を示す。同様に、第３の目的の包含により、ユーザインターフェース１０００上の表現内の第３のオブジェクト１０３０の配置は、第１の目的又は第２の目的の少なくとも一方に対する第３の目的の優先度をさらに示す。

より具体的には、図１０の配置では、第１のオブジェクト１０１０、第２のオブジェクト１０２０、及び第３のオブジェクト１０３０がリスト内で並べられており、第１のオブジェクト１０１０がリストの下部に位置し、第２のオブジェクト１０２０がリスト内の第１のオブジェクト１０１０の上部に位置し、第３のオブジェクト１０３０がリスト内の第２のオブジェクトの上部に位置する。この配置は、第１の目的が第２の目的によって制約され、第２の目的が第３の目的によって制約されることを示す。各オブジェクト１０１０、１０２０、１０３０は、それぞれの目的の記述子を含んでもよい。この例では、第１の目的は、速度又は目標を完了するまでの時間に関連し、「時間」の記述子を有し、第２の目的は、快適な車線に対するユーザの選好に関連し、「快適性」の記述子を有し、第３の目的は、自律走行を最大化するためのユーザの選好に関連し、「自律性」の記述子を有する。別の例では、図９に関して上述したように、目的の順序は、制約されていない目的がリストの先頭に来るようにすることができる。

また、優先度は、余裕値を含んでもよい。コントロール１０２２及びコントロール１０３４を介して、ユーザは、それぞれ余裕値１０２４及び余裕値１０３２を設定することができる。この例では、コントロール１０２２及び１０３４はスライダとして示されている。しかしながら、他のタイプのコントロールも可能である。

この例では、第１のオブジェクト１０１０、第２のオブジェクト１０２０、及び第３のオブジェクト１０３０は、それぞれドラッグアンドドロップのオブジェクトであってもよい。グラフィカルユーザインタフェース内のオブジェクトのいずれかを移動させる形式のフィードバックは、多目的ポリシーの変更を構成する。例えば、第２のオブジェクト１０２０及び第３のオブジェクト１０３０の位置を入れ替えると、第２のオブジェクト及び第３のオブジェクトが入れ替わる。また、オブジェクト１０１０、１０２０、１０３０のうちの１つ以上が、それぞれのオブジェクトに関連付けるために、候補目的のグループから１つの目的を選択するプルダウンメニューを含んでもよい。プルダウンメニューにより、車線レベルルートプランナの多目的ポリシーの変更は、第１の目的をグループの別の候補目的に変更すること、第２の目的をグループの別の候補目的に変更すること、存在する場合には第３の目的をグループの別の候補目的に変更すること、別の目的に対する新しい目的の優先度を持つグループからの新しい目的を追加すること、目的を削除すること、又はこれらの変更のいくつかの組み合わせを含むことが可能になり得る。

図１１は、本開示の実装による車線レベルルートプランナの多目的を設定するためのユーザインターフェース１１００の別の例を示す図である。ユーザインターフェース１１００の多目的は、有向非巡回グラフに配置される。ユーザインターフェース１１００は、ユーザインターフェース１３５等の車両のユーザインターフェースを含む。この表現は、第１の目的（すなわち、「時間」）を表す第１のオブジェクト１１２０と、第２の目的（「快適性」）を表す第２のオブジェクト１１３０と、第３の目的（「自律性」）を表す第３の目的１１１０とを含む。ユーザインターフェース１１００上の表現内の第１のオブジェクト１１１０、第２のオブジェクト１１２０、及び第３のオブジェクト１１３０の配置は、目的の関係（例えば、優先度）を示す。

ユーザインターフェース１１００では、第２のオブジェクト１１２０及び第３のオブジェクト１１３０は、グラフィカルユーザインタフェースの上部と平行に一列に互いに隣接して配置され、第１のオブジェクト１１１０は、第２のオブジェクト１１２０及び第３のオブジェクト１１３０の下に位置する。これは、第２の目的に対する第１の目的の優先度及び第１の目的に対する第３の目的の優先度をグラフィカルに表す。第１のオブジェクト１１１０、第２のオブジェクト１１２０、及び第３のオブジェクト１１３０は、それぞれ図示されているようにドラッグアンドドロップのオブジェクトであってもよいが、多目的ポリシーを変更するためにフィードバックを介して操作してことができるそれ以外のオブジェクトであってもよい。例えば、オブジェクト１１１０、１１２０、１１３０のうちの１つ以上は、プルダウンメニューを含んでもよい。オブジェクト１１１０、１１２０、１１３０は、異なる実装における他の目的を表してもよい。

図１１の表現は、図１０のものと同様に形成された目的を表すオブジェクト、すなわち、多目的優先度の２つの目的間の相対優先度を調整するために使用され得る埋め込みオブジェクトを含むオブジェクトを使用することができる。しかしながら、図１１は、相対的な優先度を調整するために各目的のオブジェクト１１１０、１１２０、１１３０を使用しない異なる配置を示している。その代わりに、この表現は、余裕値を識別し、且つ接触に応答して第１の余裕値を変更する第４のオブジェクト１１４０を含む。第４のオブジェクト１１４０は、ユーザインターフェース１１００内の第１のオブジェクト１１１０と第２のオブジェクト１１２０との間に配置される。また、この表現は、第２の余裕値を識別し、且つ接触に応答して第２の余裕値を変更する第５のオブジェクト１１５０を含む。第５のオブジェクト１１５０は、ユーザインターフェース１１００内の第１のオブジェクト１１１０と第３のオブジェクト１１３０との間に配置される。

この例における第４のオブジェクト１１４０及び第５のオブジェクト１１５０は、それぞれプルダウンメニューであってもよい。すなわち、接触時に、可能な新しい第１の余裕値又は第２の余裕値を適宜含むメニューが表示されてもよい。オブジェクト１１４０、１１５０のうちの１つ以上は、それに関連付けられた値を変更し、更新された多目的ポリシーに含めるためにその値をプロセッサに提供するために、ユーザインターフェース１１００上で操作可能なスライダ又は他のオブジェクトであってもよい。

目的間の関係の他の指標も、多目的ポリシーの表現において使用されてもよい。例えば、図１１の表現は、第２の目的１１２０から第１の目的１１１０に向けられた矢印と、第３の目的１１３０から第１の目的１１１０に向けられた矢印とを含み、これはそれぞれの関連目的間の制約関係を示す。

図１２は、本開示の実装による自律走行におけるルートプランニングのための標準精細（ＳＤ）マップの使用を示すマップの一例を示す図である。マップ１２００において、ルート１２０２は、ＨＤマップを使用して車線レベルルートプランナによって計画される。本明細書に記載されるような車線レベルルートプランナ等のプランナは、例えば、ナビゲーションマップ情報によれば、ＡＶがルート１２０２の車線セグメントを自律走行する能力があると判断されるので、ルート１２０２を選択したのであってもよい。車線セグメント上の能力は、確率、閾値、許容範囲等で示され得る。

部分１２０４は、マッピングされていない道路をＡＶが自律走行する能力がないことをプランナが考慮し得るため、プランナが考慮しなかったマッピングされていない側道を示す。追加的に、このような側道は、ＨＤマップでは利用できない（例えば、含まれていない）可能性がある。しかしながら、ＡＶが部分１２０４を走行する能力がある場合、部分１２０４を使用することは、より短いルート（例えば、１分短縮）につながり得る。したがって、マッピングされていない部分１２０４を探索及びマッピングすることは有益であり得る。

したがって、本開示の態様において、プランナは、マッピングされていない道路のＨＤ情報を追加するために、マッピングされていない道路を探索するように構成されてもよい。この文脈で使用される「探索」は、ルートプランナが、ルートプランニングのためにＨＤマップにないＳＤマップの道路を使用することが可能であり、車両がこれらのマッピングされていないルートを通行するように制御され得ることを意味し得る。別の例では、ＡＶは、ＳＤマップの道路を通行するように案内され得る。例えば、ユーザ（例えば、テレオペレータ等）は、ＳＤマップの道路を通行するように車両に指示を送ることができる。ＡＶがマッピングされていない道路を通行している間、センサデータを使用してＨＤ情報を収集することができる。ＨＤ情報は、ＡＶのＨＤマップを構築し、又はＨＤマップを拡張するために使用され得る。探索によって、新しい道路及び車線セグメントの情報がナビゲーションマップに追加され得る。少なくとも部分的なＨＤマップが探索によって構築され得る。車線、縁石、速度バンプ、停止線、（３次元空間における）交通信号機位置等に関する情報がＨＤマップに追加され、又はＨＤマップを構成し得る。場合によっては、この情報は、市販の（例えば、購入した）ＨＤマップによって提供され得るものと同一であってもよい。取得された情報の質は、車両のセンサ及び検出及び識別アルゴリズムに依存してもよい。しかしながら、これらの種類のＨＤ特徴のノイズの多い情報であっても、ＳＤマップの探索された道路の将来の通行に関する意思決定及び軌道計画に有用であり得る。ＳＤマップの道路の１回の通行は、自律走行及び通行のための後の車線レベルルートプランニングに十分であり得る。より多くの通行は、意思決定及び軌道計画によって使用されるＨＤマップの品質を向上させ得る。

図１３は、本開示の実装に従ってマップを改善するために新しい道路を探索するためのシステム１３００の図である。システム１３００は、プランナ１３０２、マッパ１３０４、及び安全性決定コンポーネント（ＤＣ）１３０６を含んでもよい。システム１３００の他の実装も利用可能である。いくつかの実装形態では、システム１３００の追加コンポーネント（例えば、要素、モジュール等）が追加されてもよく、所定の要素が組み合わされてもよく、及び／又は所定の要素が除去されてもよい。

システム１３００又はその中のコンポーネントは、図１の車両１００等の車両に実装され得る。車両は、自律又は半自律車両であり得る。システム１３００又はその中のコンポーネントは、図１のメモリ１３４等のメモリに記憶され、且つ図１のプロセッサ１３３等のプロセッサによって実行され得る実行可能命令として実装可能である。システム１３００のコンポーネントの１つ以上は、後述する各情報処理を実行するために準備された専用ハードウェアによって実装され得る。

プランナ１３０２は、車線レベルのルートプランナであってもよく、又はその一部であってもよい。プランナ１３０２は、ＳＤマップ道路の探索コストと（例えば、そのコストと比較して）ＨＤマップ道路のみを使用した計画を比較検討することができる。プランナ１３０２はＳＳＰＭＤＰルートプランナであってもよく、この比較検討はルートプランナのコスト関数に組み込まれてもよく又は含まれてもよい。プランナ１３０２はＰＯＭＤＰルートプランナであってもよく、コストは明示的信念であってもよい。ＰＯＭＤＰモデルの状態空間は、S＝S_r×S_tで与えられてもよく、ここで、S_rは道路の集合であり、S_tは道路がどの程度通行可能かを示す。アクション空間Aは、後続道路を選択するためのアクションの集合である。後続道路は、ＨＤマップの道路（例えば、車線セグメント）又はＳＤマップの道路であり得る。

ＳＤマップは、状態空間S_rの少なくともいくつかの状態（例えば、可能な車線又は道路）を提供する。最初は、ＳＤマップのいずれかの道路が少なくとも１回通行される前に、そのような道路のいずれの車線もまだ知られていない。通行可能性（例えば、S_t）に関しては、ＳＤ道路は最初は不確実であり得る。例えば、任意の所与のＳＤ道路の通行可能性が小さな値に設定されてもよい。車両がＳＤマップの道路上で自動的に制御されるように、プランナはＰＯＭＤＰ計画によって探索と利用とのトレードオフのバランスを取ることができる。

所定の周波数（例えば、１Ｈｚ又は他の周波数）でルートを更新し得るオンライン車線レベルルートプランナにおいて、道路の通行可能性S_tは継続的に更新されてもよい。通行可能性は、ルートと同じ周波数で更新され得る。車線レベルのルートプランナは、事前に定義された秒数（例えば、１秒）ごとに、ＧＰＳ情報に基づいてマップ内の現在の道路（すなわち、状態）を考慮し、事前に定義された量の計画時間（これは正確に事前に定義された秒数であり得る）の計画を実行してもよい。事前に定義された量の計画時間の後で、車線レベルのルートプランナは、（計算されたポリシーに基づいて）車線レベルのルートプランナが取得した最適なルートを提供してもよい。車両が増分的に移動するように制御される場合、車線レベルのルートプランナは新しい道路（これは以前の道路と同じであり得る）を取得してもよく、以前のルートプランを更新する。

オフラインの車線レベルのルートプランナの場合、ルートを再計画する間に通行可能性S_tが更新され得る。オフラインの車線レベルのルートプランナは、ルートプランニングを提供するクラウド型のサービスであってもよい。

一例では、プランナは、ユーザによって提供された目的に基づいて、マッピングされていない道路を探索するように構成されてもよい。プランナは、ルートを取得するために高精細マップに加えて標準精細マップが使用されることを示す目的を取得し得る。この目的は暗黙的又は明示的であり得る。ルートプランナは、新しい道路を探索することを選択し、顧客の目標に到達することと、ＡＶが走行するように制御され得るとルートプランナが判断した道路を試すこととの間のトレードオフを比較検討するように構成され得る。

例えば、ユーザは最速ルートから２分以内のルートに対して優先度を示してもよい。最速ルートは、最初にＨＤマップに基づいて計算される。プランナは、マッピングされていない道路を考慮するための暗黙的な目的として、２分の余裕値を使用し得る。一例では、ユーザはマッピングされていない道路に関連する明示的な目的を提供し得る。例えば、ユーザが設定できる利用可能な目的は、「探索目的」であってもよい。ユーザは、本明細書に記載の探索目的を提供し得る。例えば、ユーザは、自律性目的９１４が探索目的に置き換えられ得る図９の有向グラフ９１０に類似した目的の有向グラフを提供（例えば、構築）し得る。一例では、ユーザは、図１０及び図１１に関して説明したようなユーザインターフェースを使用して目的を提供し得る。余裕値が０に設定されている場合、プランナはＨＤルートのみを使用してルートを取得する。

マッパ１３０４は、図１のセンサ１３６等の車両のＨＤセンサからデータを記録する。ＨＤセンサデータは、道路がマッピングされてナビゲーションマップに追加される前に、車両がＳＤ道路の道路を通行するように記録されてもよい。例えば、ＨＤセンサデータは、点群、画像、ＧＰＳ座標、追跡対象オブジェクト等を含んでもよい。一例では、中央サーバ等で、ＳＤマップの道路を通行する他の車両のセンサからのデータが取得されてもよい。他の車両のセンサからのデータを使用して、ＨＤマップデータを取得することもできる。したがって、より一般的には、センサデータのソースに関係なく、ＨＤマップ情報は、センサデータに基づいてＳＤマップの道路に関して取得され得る。サーバで取得したＨＤマップ情報が車両に送信され得る。

したがって、マッパ１３０４は、ＳＤ車線又はＳＤルートセグメントを通行中に収集されたＨＤセンサのデータを使用することができる。ＨＤセンサデータは、そのＳＤ車線又はＳＤルートセグメントに対するＨＤマップになると言える。一例では、ＳＤ車線又はＳＤルートセグメントは、ＳＤ車線又はＳＤルートセグメントに対するＨＤマップを取得するためにＨＤセンサを装備した１つ以上の車両を人間が制御することによって通行（例えば、走行）することができる。取得されたＨＤマップは、ＳＤ車線又はＳＤルートセグメントを再訪問（すなわち、再通行）することによって改善され得る。

センサデータは、道路の特徴を識別するために使用され得る。例えば、オブジェクトの検出、出現、又は消失をセンサデータから検出することができる。例えば、データは、ＳＤ道路の道路（例えば、１メートル、２メートル、又は何らかの他の検出セグメント）の検出セグメントごとに、オブジェクトの有無、（画像処理又はデータ分析等を使用して認識された場合）オブジェクトの識別（例えば、タイプ）、障害物の有無、オブジェクト又は障害物の位置（例えば、道路の左、右、中央、何らかの他の位置）、オブジェクトが消失する前のオブジェクトの存在した期間等を示す。

ＳＤマップの道路の複数回の通行（車両の通行又は複数の通行等）から収集されたデータを集約して、ＳＤ道路での自律走行のためのルートを取得するために使用できる状態確率を取得することができる。確率の例示は、オブジェクトが０．８２３の確率で第１の場所に出現し、オブジェクトが０．１の確率で第２の場所に出現し、第３の場所にあるオブジェクトが平均時速３．５マイルで移動し、第３の場所にあるオブジェクトが０．９の確率で子として分類されること等を含んでもよい。このような確率は、軌道計画に使用され得る。道路を通行するための軌道を計算するために、道路又は道路のセグメントの長さにわたって確率を合成し得る。

確率は、不確実性（すなわち、知識の欠如）を示す値に初期化されてもよい。確率は、ＳＤマップの道路の通行中に収集されたセンサデータに基づいて更新され得る。

ＳＤマップの道路上で遭遇し得る意思決定コンポーネント（ＤＣ）のタイプに関する情報は、センサデータを使用して識別されてもよく、記録されてもよい。意思決定コンポーネント（ＤＣ）タイプに関する情報は、道路を通行するために必要とされてもよい（例えば、インスタンス化される）。ＤＣコンポーネントの例は、横断歩道、交差点、駐車場等に関するＤＣコンポーネントを含んでもよい。決定コンポーネントは、２０１９年１１月２６日に出願された米国特許出願第１６／６９６，２３５号及び２０２０年１月３１日に出願された米国特許出願第１６／７７８，８９０号に記載されており、その全開示は参照により本明細書に組み込まれている。

決定コンポーネントは、自律走行におけるシナリオの特定の態様（例えば、動作シナリオ）を解決するように指示され得る（又は解決することができる）。ＤＣは、ＡＶを制御するためのアクションを提供し得る。

決定コンポーネントは、決定問題のインスタンスであってもよい。決定問題は、シーン内の潜在的な対相互作用問題を記述する。決定問題は、環境の現在の状態を考慮して自律走行のアクション（例えば、停止、少しずつ進む、発進、右側から追い越す、左側から追い越す等）を提供するために、事前に知られており、且つオフラインで解決される自律走行の特定の抽象的な問題であり得る。決定コンポーネントは、決定問題が解決する動作シナリオに遭遇したときに、走行中にオンラインで作成され得る（すなわち、解決された決定問題からインスタンス化される）。一例では、決定問題及び対応する決定コンポーネントは、シナリオ固有の動作制御評価モジュール及びそのインスタンスに関して以下に説明するようになり得る。動作シナリオの例は、歩行者シナリオ、交差点シナリオ、車線変更シナリオ、又は外部オブジェクトに対応する他の車両動作シナリオ又は車両動作シナリオの組み合わせを含む。一例では、決定コンポーネントは、マルコフ決定過程又は部分観測マルコフ決定過程であってもよい。

シナリオ固有の動作制御評価モジュールは、それぞれの動作シナリオの部分観測マルコフ決定過程（ＰＯＭＤＰ）モデル等のモデルであってもよい。つまり、各モデルが、特定のシナリオを処理するように構成され得る。自律走行車の動作管理コントローラは、対応する動作シナリオの検出に応答して、シナリオ固有の動作制御評価モジュールの各インスタンスを作成してもよい。

言い換えると、特定の動作シナリオのＰＯＭＤＰを事前に（例えば、オフラインで）解決して、ポリシーを生成してもよい。ポリシーは、現在観測されている状態及び／又は予測されている状態を考慮してＡＶを制御するための１つ以上のアクションを含んでもよい。自律走行中に（例えば、オンラインで）特定の動作シナリオに遭遇すると、ＰＯＭＤＰがインスタンス化されてもよく、そのポリシーをインスタンスによって使用して、各タイムステップで、そのタイムステップにおいて観測された状態及び／又は予測された状態に基づいてＡＶを制御するためのそれぞれのアクションを提供し得る。

自律走行車動作管理コントローラは、インスタンス化されたそれぞれのシナリオ固有の動作管理評価モジュール（ＳＳＯＣＥＭ）インスタンスから候補車両制御アクションを受信し、候補車両制御アクションから車両制御アクションを識別し、識別された車両制御アクションに従って車両交通ネットワークの一部を通行するように自律走行車を制御してもよい。

ＨＤセンサ及びＳＤマップの道路の新たに生成されたＨＰマップに基づいて決定されたＤＣ情報は、車両が道路上で遭遇し得るＤＣに基づいて通行時間を予測するために、上述のように、車線レベルルートプランナによる後続の計画に使用され得る。したがって、車両は、例えば、車両のメモリ内に、メモリに記憶された実行可能命令として、又は専用ハードウェアとしてＤＣを含んでもよい（図示せず）。

安全性ＤＣ１３０６は、リスクを認識した決定を行うことができる。安全性ＤＣ１３０６は、ＨＤマップ道路に向かってＳＤマップ道路上での注意深いナビゲーションを監視することによって、リスクを認識した決定を取得することができる。安全性ＤＣ１３０６の全体的な目的は、障害物が存在し、経路を閉塞し、車両と相互作用するように移動する可能性がある場合に、信念に基づく相互作用を考慮することによって安全な通行を確保するために、ＳＤマップの道路上の車両の軌道を制約するアクションを提供することである。安全性ＤＣ１３０６によって提供（例えば、選択）されるアクションは、ＳＤマップの道路を通行するために車両のアクチュエータを制御するために、図１のコントローラ１３０等のコントローラに提供され得る。ＳＤマップの道路は、ＨＤマップの詳細の欠如のために自律的に通行することが危険であり得るので、安全性ＤＣ１３０６は、道路を自律的に通行することを継続すべきか停止すべきかを決定するために使用され得る。安全性ＤＣ１３０６が道路を自律的に通行することを停止すべきであると決定した場合、テレオペレータ要求が開始され、それによりテレオペレータが道路の残りの部分を通行するように車両を遠隔制御し得る。一例では、安全性ＤＣ１３０６は、車両のユーザ（例えば、運転者）に車両を手動制御するように指示し得る。

車両が道路を通行しているとき、安全性ＤＣ１３０６は、各タイムステップで、道路を通行し続けることが安全かどうかを決定し得る。安全性ＤＣ１３０６は、ＭＤＰ又はＰＯＭＤＰ等のマルコフ決定過程であり得る。

安全性ＤＣ１３０６は、次の時間ステップに対する速度を決定してもよく、アクション（例えば、左に行く、右に行く、直進する、停止する等）を選択し得る。安全性ＤＣ１３０６は、最も近いＨＤマップ車線の方向に基づいて速度又は方向を選択し得る。

一例では、安全性ＤＣ１３０６は、道路の走行可能領域を通行するためのアクションを決定し得る。道路の走行可能領域は、ＡＶを安全に動作させることができる道路の領域である。走行可能領域の決定は、２０１８年５月３１日に出願されたＰＣＴ特許出願第ＰＣＴ／ＵＳ２０１８／０３５４４１号に記載されている通りであってもよく、その全体の開示は、本明細書に組み込まれている。したがって、走行可能領域の取得は、以下の通りであってもよい。最初に、走行可能領域は、車両が安全に走行することが予測できない領域（例えば、先読みウインドウ内の道路全体）を含んでもよい。車両のセンサデータに基づいて、静的及び動的（例えば、移動）オブジェクトが検出（例えば、感知、観測等）され得る。車両が安全に走行すると予測できない領域は、道路から切り取られ得る（例えば、除外される、区分けされる）。静的オブジェクトが位置している（例えば、観測された、検出された）道路の部分が、最初に走行可能領域から削除される。走行可能領域は、動的オブジェクトに対してさらに調整され得る。各動的オブジェクトのそれぞれの予測軌道に基づいて、走行可能領域の一部がさらに切り取られ得る。車両の将来の位置は、動的な（すなわち、識別された移動）オブジェクトの将来の予測（例えば、期待）位置に対して評価され得る。次に、車両の走行可能領域は、動的オブジェクトの（例えば、重複）位置に対応する走行可能領域の中の領域を削除するように調整され得る。

走行可能領域は、車両が道路を通行するように制御されるトンネルを車両の周りに形成することによってさらに調整され得る。トンネルは、走行可能領域をさらに制限するものと見なされ得る。左境界及び右境界は、車両の左右の側に沿って横方向に延長され得る。左境界及び右境界は、車両の左右の側から定義された距離であってもよい。定義された距離は、可能性のある外部オブジェクトからの車両の所望のクリアランスに基づいてもよい。例えば、駐車している車両のドアが開くことがある。車のドアの最大サイズは約１メートルであるため、車両と左右の境界のそれぞれとの間の定義された距離は１メートルであってもよい。定義された距離は、事前に定義された間隔の許容値に基づいてもよい。定義された距離は、例えば、外部オブジェクトの存在を考慮するように変化してもよい。例えば、定義された距離は、車両によって外部オブジェクトが検出されない場合の第１の値であってもよく、外部オブジェクトが検出された場合の第１の値より小さい第２の値であってもよい。左境界及び右境界は、車両から、つまり異なる距離だけ車両から離れていてもよい（例えば、車両の一方の側には外部オブジェクトがあるが、他方の側にはない場合、又は車両の反対側に２つの異なる外部オブジェクトがあり、それにより２つの異なる定義された距離が生じる場合）。

安全性ＤＣ１３０６は、（センサからＨＤマップを学習しながら）ＳＤマップの道路をナビゲートするために使用され得る。安全性ＤＣ１３０６は、道路に沿った軌道の時間ステップ間（例えば、秒から秒）の制約を提供し得る。

安全性ＤＣ１３０６の状態空間は、S＝S_l×S_m×S_bによって与えられてもよく、ここで、S_lは、ＳＤマップの道路に沿った位置のセットであり、S_mは、それらの位置でモーション（例えば、他の車両、歩行者、自転車等の動的オブジェクトのモーション）が検出されるかどうかを示し、S_bは、それらの位置で障害物（例えば、静的オブジェクト）が検出されるかどうかを示す。別の言い方をすると、状態空間Sは、位置S_mにモーションがある場合、及びその位置S_bに障害物がある場合に、ＳＤマップS_lの道路に沿った位置を考慮する。道路の車線はまだ知られていない（例えば、マッピングされていない）ことに留意されたい。

安全性ＤＣ１３０６のアクション空間は、A＝A_m×A_oによって与えられてもよく、これは、アクション及び方向を考慮する。A_mは、「停止」、「少しずつ進む」、「進む」等の動作を記述する。A_oは、「車線の左」、「車線の中央」、「車線の右」等の方向調整アクションを記述する。

モデルの遷移関数に関して、状態係数S_lは距離又は速度制限に比例する確率で前方に遷移し得る。例えば、マップ内で通行する及び少しずつ進む最大通行時間がt_max（例えば、４２．２３）秒である場合、最大通行時間遷移の確率が１になるように、この最大通行時間を正規化スケールとして使用し得る。ｔの通行時間を有する他の全ての遷移は、確率t／t_maxで前進し得る。制限速度又は道路の距離等の他の変数を使用して同様の計算が実行され得る。代替的に、遷移確率は、（プラニング段階中に）常に進むことを示す定数１．０に設定されてもよい。

モーション検出状態係数S_m、及び障害物検出状態係数S_bは、到着又は他の形態の道路ユーザの量の履歴データから導出され得る。例示すると、探索中の道路で自転車車線が検出された場合（又はＳＤマップで自転車車線がすでに認識されている場合）であって、自転車車線のある道路には毎分０．１２３の確率で自転車が到着することが、過去に走行したルートから認識されている場合、このような履歴情報を使用して、自転車がない状態から自転車がある状態に遷移S_mし得る。すなわち、（１－０．１２３＝０．８７７）は、自転車なしの残りの確率であり得る。状態係数S_bは状態係数S_mに似ているが、あるタイプのオブジェクトの静的バージョンに使用される。車両、歩行者、及び検出され得る他のオブジェクトに同じ原理が適用され得る。

状態係数S_m及びS_bは、移動及び閉塞するオブジェクトに対して、それぞれ０及び１のバイナリ値を有し得る。状態係数値S_m及びS_bのバイナリ値は、安全性及び通行可能性を推定するのに十分であり得る。別の例では、追加的な又は代替的な状態変数が使用され得る。例えば、所定のタイプの期待されるオブジェクトの数（例えば、濃度）を示す状態変数も使用され得る。このような状態変数は、整数値（例えば、０，１，２，．．．）を有してもよく、ポアソン／指数又は出生死滅過程に従うようにモデル化され得る。例えば、状態変数S_ve、S_pe及びS_biは、シーンで予想される車両、自転車、及び歩行者の数をそれぞれ示し得る。

報酬関数は、アクションが実行された後の車両の観測に基づき得る。例えば、報酬は、オブジェクトが検出されたか否か、オブジェクトが右側に検出されたか否か、オブジェクトが左側に検出されたか否か、経路が妨害されているか否か、検出されたオブジェクトが分類（例えば、認識）されるか否か、検出されたオブジェクトが危険であるとみなされるか否か、より少ない基準、より多い基準、又はそれらの組み合わせに基づいてもよい。

言い換えると、知覚された特徴（移動オブジェクト、道路の閉塞、障害物、その他のオブジェクト等）があるかどうかに関わらず、状態はＳＤマップに沿った位置を示す。例えば、道路の右側に建物があり、道路の左側に高いフェンスがあり得る。これらの特徴は、さもなければＨＤマップでは利用可能であり得るが、ＳＤマップでは利用可能でない場合がある。したがって、車両のセンサデータは、これらの特徴（障害物等）を認識するために使用されてもよい。安全性ＤＣ１３０６は、アクションの方向（例えば、左、右、中央）と共に、ＳＤマップ上の各ポイントにおいて（例えば、１０、２０，１００メートル又は何らかの他の距離ごとに）アクション（例えば、停止、少しずつ進む、又は進行を決定し得る。

一例では、安全性ＤＣ１３０６は、ＰＯＭＤＰの代わりに、目標不確定確率最短経路（ｇｏａｌｕｎｃｅｒｔａｉｎＳｔｏｃｈａｓｔｉｃＳｈｏｒｔｅｓｔＰａｔｈ；ＧＵ－ＳＳＰ）を使用し得る。ＧＵ－ＳＳＰは、目標不確定性のある確率的環境におけるルートプランニング及び意思決定のモデル化に使用され得る。ＧＵ－ＳＳＰは、Ｓ．Ｓａｉｓｕｂｒａｍａｎｉａｎ，Ｋ．Ｈ．Ｗｒａｙ，Ｌ．Ｐｉｎｅｄａ及びＳ．Ｚｉｌｂｅｒｓｔｅｉｎによる，“ＰｌａｎｎｉｎｇｉｎＳｔｏｃｈａｓｔｉｃＥｎｖｉｒｏｎｍｅｎｔｓｗｉｔｈＧｏａｌＵｎｃｅｒｔａｉｎｔｙ，”２０１９ＩＥＥＥ／ＲＳＪＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｌｌｉｇｅｎｔＲｏｂｏｔｓａｎｄＳｙｓｔｅｍｓ（ＩＲＯＳ），Ｍａｃａｕ，Ｃｈｉｎａ，２０１９，ｐｐ．１６４９－１６５４，ｄｏｉ：１０．１３０９／ＩＲＯＳ４０８９７．２０１９．８９６７７１８．に記載されている。

図１４は、本開示の実装によるＳＤマップの道路のマッピングの例１４００に関する説明図である。例１４００は、ＡＶ１４０２がＡＶ１４０２のセンサを使用してＳＤマップの道路をどのようにマッピングするかを示す。ＡＶのセンサからのデータは、ＳＤマップの道路のＨＤ情報を検出するために使用され得る。

例１４００は、車両のＨＤマップに含まれていない道路１４０４を含むマップを示している。つまり、道路１４０４はマッピングされていない。しかしながら、道路１４０４は車両のＳＤマップに含まれている。道路１４０４の初期の幅又は車線は、ＳＤマップから推定され得る。幅及び車線は、任意の車線認識技術を使用して推定され得る。円１４０６等の円は、図１３の安全性ＤＣ１３０６の決定がＡＶ１４０２の軌道プランナにアクションを提供する道路に沿った位置を示す。

図１３のマッパ１３０４によって、オブジェクト１４０８が検出される。オブジェクト１４０８に関連する特定の動作シナリオが識別されてもよく、オブジェクト１４０８を処理（例えば、対処、回避、迂回等）するために対応するＤＣがインスタンス化される。例えば、オブジェクト１４０８は、動作シナリオが「通過車両シナリオ」であることを示す駐車車両であると判断してもよく、対応するＤＣはオブジェクト１４０８を迂回するためにインスタンス化される。領域１４１０Ａ、１４１０Ｂは、走行不可能領域として認識されてもよく、車両１４０２のＨＤセンサから計算される。

軌道１４１２は、車両１４０２が道路１４０４上で辿った軌道を示す。軌道１４１２は、車両の意思決定過程によって決定されてもよく、これは、少なくとも図１３のプランナ１３０２及び安全性ＤＣ１３０６であり得るか又はそれを含んでもよい。意思決定過程は、車両１４０２を制御するためのアクションを選択する。アクションは、右に行く、左に行く、直進する、停止する、少しずつ進む等の上述したものであってもよい。

図１５は、本開示の実装に従った自律走行車の自動運転におけるルートプランニングの技術１５００の一例を示すフローチャートである。技術１５００は、自律走行車によって、又は自律走行車内で実装され得る。自律走行車は、半自律走行車であってもよい。技術１５００は、図１のメモリ１３４等のメモリに記憶される命令（例えば、動作）として実装され得る。命令は、図１のプロセッサ１３３等のプロセッサによって実行され得る。技術３００は、専用のハードウェア又はファームウェアを使用して実装され得る。複数のプロセッサ、メモリ、又はその両方が使用されてもよい。

ステップ１５０２において、この技術１５００は、ルートを取得するために高精細マップに加えて標準精細マップが使用されるべきことの指示を取得する。この指示は、ＡＶのユーザ（例えば、運転者、乗員）から取得され得る。一例では、指示は、テレオペレータから取得され得る。一例では、指示は、ルートを取得するルートプランナに目的として提供され得る。ルートプランナは、本明細書に記載の多目的ルートプランナであり得る。目的は、例えば、図１０及び図１１に関して本明細書に記載されているようなユーザインターフェースを使用して提供され得る。一例では、指示は、「マッピングされていない道路を探索する」というコマンドを本質的に伝えることができる口頭コマンドを介して提供され得る。

ステップ１５０４において、技術１５００は、車両を目的地まで自動運転するためのルートを取得する。ルートは、標準精細マップの道路を含む。ルートは、マルコフ決定過程（ＭＤＰ）を使用して取得され得る。マルコフ決定過程はＰＯＭＤＰであってもよい。マルコフ決定過程は、道路の通行可能性S_tに関して上述したように、道路の通行可能性を示す状態空間を含んでもよい。

ステップ１５０６において、技術１５００は、安全性決定コンポーネントからポリシーを取得する。安全性決定コンポーネントは、図１３の安全性ＤＣ１３０６に関して上述したようなものであってもよい。そのため、ポリシーは道路の状態に対するアクションを提供し、アクションは道路に沿った自律走行車の軌道を制約する。上述のように、安全性決定コンポーネントの状態空間は、道路の位置に対して、その位置でモーションが検出されるかどうか、及びその位置で障害物が検出されるかどうかを含む。安全性決定コンポーネントは、アクション空間を含む。道路の位置で取るべきアクション空間のアクションは、移動及び移動の方向を示す。

ステップ１５０８において、技術１５００は、安全性決定コンポーネントからアクションを受信する。安全性決定コンポーネントは、それぞれのタイムステップでアクションを提供し得る。アクションは、ポリシーを使用して取得される。ステップ１５１０において、技術１５００は、アクションに従って自律的に道路を通行する。すなわち、アクションは車両の軌道プランナに提供されてもよく、車両は、道路を通行するアクションに従って制御され得る。アクションに従って道路を自律的に通行することは、ルートに沿って動作シナリオを識別すること、及び動作シナリオに対して決定コンポーネントをインスタンス化することを含んでもよい。例示すると、車両が道路を通行しているときに、車両のセンサデータを使用して交差点が識別されてもよい。その後、交差点を通行するためのＤＣがインスタンス化されて、交差点を通行するアクションを提供し得る。

一例では、技術１５００は、道路の車線セグメントを識別すること、及び車線セグメントの車線セグメント情報をナビゲーションマップに記憶することをさらに含み、これは上述のようにすることができる。

本明細書で使用される場合、「命令」という用語は、本明細書に開示の任意の方法を実行するための指示若しくは表現、又はその任意の部分若しくは複数の部分を含んでもよく、ハードウェア、ソフトウェア又はこれらの任意の組み合わせで実現されてもよい。例えば、命令は、本明細書に記載の各方法、アルゴリズム、態様又はこれらの組み合わせのいずれかを行うためにプロセッサによって実行され得るメモリに記憶されたコンピュータプログラム等の情報として実装されてもよい。命令又はその一部は、本明細書に記載の任意の方法、アルゴリズム、態様又はその組み合わせを行うための専用ハードウェアを含み得る専用プロセッサ又は回路として実装されてもよい。いくつかの実装では、命令の部分は、直接的に又はローカルエリアネットワーク、ワイドエリアネットワーク、インターネット又はこれらの組み合わせ等のネットワークを介して通信し得る複数の装置又は単一の装置上の複数のプロセッサに分散されてもよい。

本明細書で使用される場合、「例示」、「実施形態」、「実装」、「態様」、「特徴」又は「要素」という用語は、用例、例示又は実例としての役割を果たすことを示している。明示されない限り、任意の例示、実施形態、実装、態様、特徴又は要素が、互いの例示、実施形態、実装、態様、特徴又は要素から独立しており、任意の他の例示、実施形態、実装、態様、特徴又は要素と組み合わせて使用されてもよい。

本明細書で使用される場合、「決定」及び「識別」又はこれらの任意の変形の用語は、図示の及び本明細書に記載の１つ以上の装置を使用するいかなるやり方で選択、確認、計算、検索、受信、決定、確立、取得、又は他のやり方で識別又は決定することを含んでいる。

本明細書で使用される場合、「又は」という用語は、特に明記されていない限り、又は文脈から明らかな場合を除き、排他的な「又は」ではなく包含的な「又は」を意味することが意図されている。さらに、本願及び添付の請求項の中で使用される“ａ”及び“ａｎ”という冠詞は、一般に、単数形を指していることが文脈から明確であるか又は他に特段の定めがない限り、「１つ以上の」を意味すると解釈されるべきである。

さらに、説明の簡潔のため、本明細書の図面及び説明は一連のステップ又は段階又はシーケンスを含み得るが、本明細書に開示の方法の要素は、様々な順番で又は同時に起こってもよい。さらに、本明細書に開示の方法の要素は、本明細書に明示的に提示及び開示されていない他の要素と共に起こってもよい。さらに、本明細書に記載の方法の全ての要素が、本開示による方法を実装することを要求されるとは限らない。態様、特徴及び要素は特定の組み合わせで本明細書に記載されているが、各態様、特徴又は要素は、他の態様、特徴及び要素と共に又はそれらなしで独立して又は様々な組み合わせで使用されてもよい。

上記の態様、例示及び実装は、本開示の理解を容易にするために記載されており、限定するものではない。対照的に、本開示は、添付の特許請求の範囲内に含まれる様々な修正及び等価な構成を包含しており、特許請求の範囲は、法的に認められている全てのこのような修正及び均等構造を包含するように最も広く解釈されるべきである。

Claims

自律走行車の自動運転におけるルートプランニングのための方法において、
ルートを取得するために高精細マップに加えて標準精細マップが使用されるべきことの指示を取得することと、
車両を目的地まで自動運転するために前記ルートを取得することであって、前記ルートは、前記標準精細マップの道路を含むことと、
安全性決定コンポーネントからポリシーを取得することであって、前記ポリシーは、前記道路の状態に対するアクションを提供し、前記アクションは、前記道路に沿って前記自律走行車の軌道を制約することと、
前記安全性決定コンポーネントから前記アクションを受信することと、
前記アクションに従って前記道路を自律的に通行することと
を含む、方法。
前記車両を前記目的地まで自動運転するために前記ルートを取得することは、
前記ルートを取得するためにマルコフ決定過程を使用することを含み、前記マルコフ決定過程は、前記道路の通行可能性を示す状態空間を含む、請求項１に記載の方法。
前記指示は、多目的の中の１つの目的である、請求項２に記載の方法。
前記安全性決定コンポーネントは、状態空間を含み、前記状態空間は、前記道路の位置について、モーションが前記位置で検出されるかどうか、及び障害物が前記位置で検出されるかどうかを含む、請求項１に記載の方法。
前記安全性決定コンポーネントは、アクション空間を含み、
前記道路の前記位置で取るべき前記アクション空間のアクションは、移動及び前記移動の方向を示す、請求項４に記載の方法。
前記アクションに従って前記道路を自律的に通行することは、
前記ルートに沿った動作シナリオを識別することと、
前記動作シナリオに対して決定コンポーネントをインスタンス化することと
を含む、請求項１に記載の方法。
前記道路の車線セグメントを識別することと、
ナビゲーションマップ内の前記車線セグメントの車線セグメント情報を記憶することと
をさらに含む、請求項１に記載の方法。
自律走行車の自動運転におけるルートプランニングのための装置において、
ルートを取得するために高精細マップに加えて標準精細マップが使用されるべきことの指示を取得することと、
車両を目的地まで自動運転するために前記ルートを取得することであって、前記ルートは、前記標準精細マップの道路を含むことと、
安全性決定コンポーネントからポリシーを取得することであって、前記ポリシーは、前記道路の状態に対するアクションを提供し、前記アクションは、前記道路に沿って前記自律走行車の軌道を制約することと、
前記安全性決定コンポーネントから前記アクションを受信することと、
前記アクションに従って前記道路を自律的に通行するように前記自律走行車を制御することと
を行うように構成されるプロセッサを備える、装置。
前記車両を前記目的地まで自動運転するために前記ルートを取得することは、
前記ルートを取得するためにマルコフ決定過程を使用することを含み、前記マルコフ決定過程は、前記道路の通行可能性を示す状態空間を含む、請求項８に記載の装置。
前記指示は、多目的の中の１つの目的である、請求項９に記載の装置。
前記安全性決定コンポーネントは、状態空間を含み、前記状態空間は、前記道路の位置について、モーションが前記位置で検出されるかどうか、及び障害物が前記位置で検出されるかどうかを含む、請求項８に記載の装置。
前記安全性決定コンポーネントは、アクション空間を含み、
前記道路の前記位置で取るべき前記アクション空間のアクションは、移動及び前記移動の方向を示す、請求項１１に記載の装置。
前記プロセッサは、
前記ルートに沿った動作シナリオを識別することと、
前記動作シナリオに対して決定コンポーネントをインスタンス化することと
を行うようにさらに構成される、請求項８に記載の装置。
前記プロセッサは、
前記道路の車線セグメントを識別することと、
ナビゲーションマップ内の前記車線セグメントの車線セグメント情報を記憶することと
を行うようにさらに構成される、請求項８に記載の装置。
プロセッサによって実行されると、自律走行車の自動運転におけるルートプランニングのための動作の実行を容易にする実行可能命令を含む非一時的なコンピュータ可読記憶媒体において、前記動作は、
ルートを取得するために高精細マップに加えて標準精細マップが使用されるべきことの指示を取得することと、
車両を目的地まで自動運転するために前記ルートを取得することであって、前記ルートは、前記標準精細マップの道路を含むことと、
安全性決定コンポーネントからポリシーを取得することであって、前記ポリシーは、前記道路の状態に対するアクションを提供し、前記アクションは、前記道路に沿って前記自律走行車の軌道を制約することと、
前記安全性決定コンポーネントから前記アクションを受信することと、
前記アクションに従って前記道路を自律的に通行することと
を含む、非一時的なコンピュータ可読記憶媒体。
前記車両を前記目的地まで自動運転するために前記ルートを取得することは、
前記ルートを取得するためにマルコフ決定過程を使用することを含み、前記マルコフ決定過程は、前記道路の通行可能性を示す状態空間を含む、請求項１５に記載の非一時的なコンピュータ可読記憶媒体。
前記指示は、多目的の中の１つの目的である、請求項１６に記載の非一時的なコンピュータ可読記憶媒体。
前記安全性決定コンポーネントは、状態空間を含み、前記状態空間は、前記道路の位置について、モーションが前記位置で検出されるかどうか、及び障害物が前記位置で検出されるかどうかを含む、請求項１５に記載の非一時的なコンピュータ可読記憶媒体。
前記安全性決定コンポーネントは、アクション空間を含み、
前記道路の前記位置で取るべき前記アクション空間のアクションは、移動及び前記移動の方向を示す、請求項１８に記載の非一時的なコンピュータ可読記憶媒体。
前記アクションに従って前記道路を自律的に通行することは、
前記ルートに沿った動作シナリオを識別することと、
前記動作シナリオに対して決定コンポーネントをインスタンス化することと
を含む、請求項１５に記載の非一時的なコンピュータ可読記憶媒体。