JP2009096365A

JP2009096365A - リスク認識システム

Info

Publication number: JP2009096365A
Application number: JP2007270560A
Authority: JP
Inventors: Motoya Ogawa; 原也小川
Original assignee: Fuji Heavy Industries Ltd
Current assignee: Subaru Corp
Priority date: 2007-10-17
Filing date: 2007-10-17
Publication date: 2009-05-07

Abstract

【課題】移動体の外界環境に含まれる危険度を認識するためのルールをドライバの運転行動との関係からより直接的に求め、ドライバの状態による差や個人差を許容するルールを抽出して、高精度な危険認識を可能とする。
【解決手段】ルール生成システム１ｂにおいて、運転操作データ収集部１０で走行時の運転操作データを収集すると共に、基準リスク収集部１１でドライバ或いは同乗者が意識したリスクを実運転時或いは事後に基準リスクとして収集する。そして、ルール抽出部１２で、運転操作データの特徴量と基準リスクとの相関関係を解析し、ドライバが認識する危険度と運転操作行動との相関関係を表現するルールを抽出・生成する。このルールがオンライン認識システム１ａに搭載され、搭載したルールを用いて外界環境に含まれるリスクが適応的に認識され、認識されたリスクがモニタや音声等により出力される。
【選択図】図１

Description

本発明は、自動車等の移動体の外部環境に含まれるリスクを認識するリスク認識システムに関する。

近年、自動車等の移動体における予防安全技術として、カメラを搭載して外界環境を撮像し、撮像した画像を処理して外界環境に含まれる危険度（リスク）の情報を認識し、ドライバに警告する、又は運転をアシストするといった技術が開発されている。このような危険情報の認識技術は、例えば、特許文献１や特許文献２に開示されている。

特許文献１の技術は、道路環境の検出と、運転者の意志推定とを行うことにより、規定された危険物が存在する可能性のある領域を予測し、この予測された領域に障害物があるか否かを確認することにより、運転者の意志と走行状況に応じた的確な警報発令を可能とするものである。

また、特許文献２の技術は、車両に搭載された車載機器とセンタとをネットワーク接続し、車載機器側で、運転者による車両の運転操作から安全運転度を算出して累積・記録すると共に安全運転度を表示し、センタ側では、車載機器から送出された安全運転度を累積して記録することで、各運転者の安全運転度やその傾向を分析して安全運転の啓発等の資料に活用したり、運転者に対し安全運転を行なったことに報いるメリットを与える材料とするものである。
特開平６−２１５３００号公報特開２００７−１７２４８７号公報

特許文献１，２に開示されているような従来の技術では、歩行者、対向車、障害物、白線等といった危険に結びつく要因を設定し、それらに基づいてリスクの認識を行っており、システムとしては、開発者が想定したリスク要因や認識を予めシステム内に組み込んでおくという形で実現されている。

しかしながら、自動車の走行環境のような実際の環境は、天候の変化、歩行者、車、路上の構造物等の存在といったように多様であり、更には、運転する人間も多様であるため、予め想定したモデルでは限界がある。すなわち、予め設定したルールは、「急ブレーキをかけた時は危険である」等の一般的な知識を反映したものとならざるを得ず、実際の運転操作情報と充分な対応を取ることは困難である。特に、中程度（ヒヤリとするレベル）以下のリスクにおいては、ドライバのそのときの状態による差、及びドライバ間の差（個人差）の影響が大きく、そのズレが無視できない大きさとなる。

本発明は上記事情に鑑みてなされたもので、移動体の外界環境に含まれる危険度を認識するためのルールをドライバの運転行動との関係からより直接的に求め、ドライバの状態による差や個人差を許容するルールを抽出して、高精度な危険認識を可能とすることのできるリスク認識システムを提供することを目的としている。

上記目的を達成するため、本発明によるリスク認識システムは、移動体の外界環境に含まれる危険度を認識するリスク認識システムであって、上記移動体のドライバ或いは同乗者を被験者として、該被験者が意識した危険度を基準リスクとして運転操作データに対応して収集する基準リスク収集部と、上記移動体の運転操作データから算出した特徴量と上記基準リスクとの相関関係を解析し、ドライバが認識する危険度と運転操作行動との相関関係を表現するルールを抽出するルール抽出部とを備えたことを特徴とする。

本発明によるリスク認識システムは、移動体の外界環境に含まれる危険度を認識するためのルールを、ドライバの状態による差や個人差を許容するルールとすることができ、高精度な危険認識を可能とすることができる。

以下、図面を参照して本発明の実施の形態を説明する。図１〜図１９は本発明の実施の一形態に係り、図１はリスク認識システムの基本構成図、図２はルール抽出の流れを示す説明図、図３はシグモイド関数の説明図、図４は領域分割とリスク強度確率分布との関係を示す説明図、図５は領域分割の説明図、図６は確率分布のエントロピーを示す説明図、図７は決定木によるルール抽出を示す説明図、図８は特徴量抽出の画像領域を示す説明図、図９は状態認識の概念図、図１０は１次元自己組織化マップによる学習の概念図、図１１は事前学習とオンライン学習の説明図、図１２は自己組織化マップの学習後の分布を示す説明図、図１３はリスクレベルとリスク確率との関係を示す説明図、図１４はリスク伝播の説明図、図１５は情報伝播の説明図、図１６はリスク情報の拡張を示す説明図、図１７は認識結果の出力例を示す説明図、図１８はリスク確率の学習結果を示す説明図、図１９は事前学習によるリスク認識結果を示す説明図である。

本実施の形態で説明するリスク認識システムは、自動車等の移動体の外界環境の検出結果からその環境内に含まれる危険度（リスク）に係る情報を適応的に認識するシステムであり、事前には想定していなかった環境に対しても、適応的にリスク認識が行えるようにオンラインでの成長を可能とするものである。

外界環境のセンシングは、システムの入力系として備える各種センサデバイス、例えば、外界を単眼視やステレオ視で撮像するカメラ、レーザやミリ波等のレーダ装置からのセンシング情報を用いることが可能である。つまり、本システムは、基本的に外界環境を検出するセンサデバイスに依存するものではなく、広義にはセンサデバイスより得られる外界環境情報とリスク情報との相関関係を学習するシステムに適用される。

本形態においては、リスク認識システムを自動車等の車両に適用し、車載カメラによって外界を撮像した画像情報と、車内ネットワークを介して入力される車両情報とを用いてリスク情報をオンラインで抽出するシステムへの適用例について説明する。すなわち、本形態のリスク認識システムは、画像から得られた情報とリスクとの関連性を、内部に搭載したルールを用いて認識すること共に、その関連付けを実際の走行で遭遇した環境から学習し、適応的にリスク認識を行う。

具体的には、ドライバを認識器の学習においての教師とし、ドライバの運転操作からリスク情報を抽出し、その運転操作に基づくリスク情報と、カメラから得られる画像情報との関連を人工知能技術を用いて学習させる。例えば、ドライバが歩行者を回避するような操作行動を行ったとき、本システムは、その状況が危険であると判断し、そのときに得られた画像は危険であるということを教える。

これにより、次の機会に同じような状況（画像）がシステムに入ってきた場合に危険であるという出力を行い、ドライバに警告を与えることができる。また、本システムでは、リスクを確率的に取り扱っている。このことにより、似たような状況でもリスクが異なる場合や、得られている画像情報だけでは判断が出来ない本質的に確率的なリスクも取り扱うことが可能になる。

以下、図１を参照して本実施の形態のリスク認識システムについて説明する。図１に示すように、本実施の形態におけるリスク認識システム１は、単一のコンピュータシステム或いはネットワーク等を介して接続された複数のコンピュータシステムで構成され、走行時の外界環境に含まれるリスクを、所定のルールに従って適応的にオンラインで認識するオンラインリスク認識システム１ａと、このオンラインリスク認識システム１ａに搭載するルールを抽出・生成するルール生成システム１ｂとを含んでいる。

尚、本実施の形態では、ルール生成システム１ｂはオフラインで予めルールを生成するものとして説明するが、オンラインリスク認識システム１ａと一体化して実走行時のオンラインでルールを生成させることも可能である。

オンライン認識システム１ａは、画像入力部２、車両データ入力部３、リスク情報抽出部４、画像特徴量抽出部５、状態認識部６、リスク認識部７、リスク情報出力部８を基本構成として備え、ルール生成システム１ｂは、運転操作データ収集部１０、基準リスク収集部１１、ルール抽出部１２を基本構成として備えている。

各部の機能は、以下の通りである。尚、図１においては、外界環境を検出するセンサとしての車載カメラは、図示を省略している。

画像入力部２は、車載カメラからの撮像画像を入力する。ＣＣＤやＣＭＯＳ等の撮像素子を有する車載カメラからの撮像画像に対して、ノイズ除去、ゲイン調整、γ補正等のビデオプロセス処理を行い、このビデオプロセス処理されたアナログ撮像画像を所定の階調のデジタル画像に変換する。画像入力部２で処理された画像は、一旦、メモリにストアされて収集され、画像特徴量抽出部５に送られる。

車両データ入力部３は、車内ネットワーク５０から所定の周期で車両データを入力する。車両データとしては、車速、ハンドル角、アクセル開度、ブレーキ圧力等であり、これらのデータを所定の周期（例えば、３０Ｈｚ）でサンプリングする。

尚、以降の認識処理に必要であれば、車内ネットワーク５０上を流れる他の情報、例えば、前後横加速度やヨーレートといった車両運動情報、ヘッドライト、ウインカーといったシステム操作情報、外気温等も入力するようにしても良い。

リスク情報抽出部４は、入力された車両情報（ドライバの操作情報）からリスク情報を抽出し、教師情報（リスクの大きさや種類）を作成する。本システムでは、このリスク情報抽出についての学習は行わず、ルール生成システム１ｂで予め生成したルールを搭載し、このルールを用いてオンラインでのリスク情報を適応的に認識する。

尚、リスク情報抽出部４に搭載するルールを生成するルール生成システム１ｂについては後述するが、概略的には、運転操作データ収集部１０で走行時の運転操作データを収集すると共に、基準リスク収集部１１でドライバ或いは同乗者を被験者として、この被験者が意識したリスクを実運転時或いは事後に基準リスクとして収集する。そして、ルール抽出部１２で、運転操作データの特徴量と基準リスクとの相関関係を解析し、ドライバが認識する危険度と運転操作行動との相関関係を表現するルールを抽出・生成する。

画像特徴量抽出部５は、画像入力部２からの画像データを受け取り、得られた画像の特徴量を抽出する。すなわち、得られた画像から、エッジ情報、動き情報、色情報等の特徴量を抽出し、それらの情報をＮ次元ベクトルとして保持する。このＮ次元ベクトルには、図１に破線で示すように、画像特徴量以外の車両情報、例えば、車速やヨー角の変化といった情報も含めることができる。

尚、本形態で扱う画像データは、単眼のカラーカメラで撮像した画像とするが、赤外カメラから得られる画像やステレオカメラから得られる距離画像であっても良い。また、前述したように、レーザやミリ波等からの情報を用いることも可能であり、その場合、画像特徴量は、より一般的には、外界環境特徴量とも呼ぶべきものである。

状態認識部６は、得られたＮ次元の特徴量ベクトルを１次元の状態という量に変換する。詳細は後述するが、状態とは、入力された画像を走行している場所や、天候、走行状態などによりシーン分けしているイメージになる。実際には、オンライン学習時、今はどのシーンであるかを明示的に教師することはできないため、入力データを状態数Ｍのクラスにクラスタリングしている。

リスク認識部７は、状態認識部６で得られた状態と、リスク情報抽出部４で作成された教師との相関関係を求め、状態のリスクを学習・認識する。

リスク情報出力部８は、認識したリスクをモニタや音声等により出力する。このリスク情報の出力については、認識したリスクそのものを出力する以外にも、操作データから得られたリスク情報との差を出力するようにしても良い。例えば、リスク認識部７がリスクが高いと判断した場合でも、操作データの認識により、ドライバが充分注意している状態であれば、リスクは高くないという出力を行うようにして良い。

以上のリスク認識システム１においては、現在のリスクの認識・出力と学習とを並行に実行している。すなわち、リスクの認識は、入力画像に対し、それより前までに学習された認識結果によって行い、リスクの学習は、入力された教師情報を用いてリスク認識部７を更新（学習）し、次の時刻は、更新されたリスク認識部７でリスクを認識するという処理を繰り返すことにより、リスク認識と学習とを同時に行う。

学習は、以下の（ａ），（ｂ），（ｃ），（ｄ）に示すように、４つの部分でそれぞれに可能であるが、（ａ），（ｂ）は学習に大規模な計算を要して時間がかかるため、オンラインでは学習は行わず、予め事前にオフラインで生成したルールを用いている。
（ａ）ドライバ操作データからのリスク情報の抽出（リスク情報抽出部４）
（ｂ）画像データからの画像特徴量の決定・選択（画像特徴量抽出部５）
（ｃ）画像特徴量から状態への変換（状態認識部６）
（ｄ）状態とリスクとの相関認識（リスク認識部７）

次に、リスク認識システム１における各処理の詳細について説明する。以下では、先ず、ルール生成システム１ｂによるルールの生成処理と、このルールを搭載したオンラインリスク認識システム１ａのリスク情報抽出部４において、車内ネットワーク５０を介して入力される車両操作情報からリスクを抽出する処理（教師情報の作成）とについて説明し、その後、オンラインリスク認識システム１ａの各部の詳細を説明する。

［ルール生成処理］
前述したように、本形態では、車両操作情報からのリスク抽出に際して、リスク情報抽出部４では学習を行わず、予め生成したルールを用いてドライバの操作情報からリスク情報を抽出するようにしている。このルールに従ったリスク情報の抽出においては、リスク情報をレベル付きの１次元データとして扱う。

具体的には、リスクのレベルを０〜１０（整数値）の１１段階とし、値が大きいほどリスクが高いことを表現する。但し、ここでのリスク情報は、３０Ｈｚの各フレーム毎といったように、一定時間毎にリスクを認識しようとするものに限定されるものではない。これは、実際のドライバの操作は、リスクだけにより行われているわけではなく、リスクに伴う操作を行う割合は、全走行中の例えば１０％にも満たない一部であろうと考えられるからである。

すなわち、ドライバ操作データからのリスク情報の認識は、ドライバの操作行動に影響を与えるような、ある程度大きなリスクがあったときにのみ、それがわかることを第一の目標とする。そのため、リスク０に関しては、出力はリスクがないということだけでなく、教師情報がないということも表している。

また、リスク認識のルールは、できるだけ現実に合うように任意に設定するという立場を取ることで、並列に存在する複数のルールによってリスクを推定する。これにより、ルールの追加、削減が他のルールに影響することなく行うことが可能となり、より現実に合うように調整することができる。

本実施の形態では、ルールの生成は、図２に示すように、（１）実走行による運転操作データ収集、（２）実走行と平行若しくは事後にドライバの感じたリスクの収集、（３）操作行動とリスクとの相関関係の抽出という３つのステップを経て、より実走行時の認識に合わせてルールを抽出する。そして、これらのルールを、リスク情報抽出部４に搭載することで、オンライン状態でのリスク情報の認識を可能とする。

（１）実走行データ収集
実走行データは、車内ネットワーク５０を介して入力されるハンドル角、アクセル開度、ブレーキ圧等の運転操作データを収集・保存する。また、保存するデータは、これらのデータの他、ウィンカ、ワイパー、ライト等、ドライバが運転中に補助的に操作する機器の情報、また、車速、前後加速度、ヨーレート等の車両情報、ＧＰＳ等の別系統より収集される位置情報等を合わせて補助的に用いることもできる。また、同時に、これらのデータと同期を取り、車両前方を写したビデオデータも記録する。

得られた運転操作データから実際にルール抽出時に用いるデータとしては、以下の（１−Ａ），（１−Ｂ）に示す特徴量を基本特徴量として用い、適宜、（１−Ｃ），（１−Ｄ）に示す特徴量を加える。

（１−Ａ）アクセルとブレーキを統合して非線形変換した特徴量（及びその時間微分）
アクセル開度ＡＣＣ（％）、ブレーキ圧ＢＲＫ（ｂａｒ）とすると、以下の（１）式により、統合量Ｋｔを算出する。この統合は、ドライバの加減速の意図を一つの量で表すことを目的としている。
Ｋｔ＝ＡＣＣ−Ｃ１×ＢＲＫ …（１）
但し、Ｃ１：定数（例えば、Ｃ１＝０．８）

次に得られた統合量Ｋｔを関数Ｆによって非線形変換し、使用する特徴量Ｘ、その時間微分ｄＸ／ｄｔを求める。非線形変換の関数Ｆとしては、代表的には、シグモイド関数を用いることができ、以下の（２）式に示すように、シグモイド関数Ｆを用いて特徴量Ｘを算出する。ここで、（２）式中のσは、統合量Ｋｔの分散であり、大量の実走行データより事前に算出した定数である。
Ｘ＝Ｆ(Kt)＝１／（１＋ｅｘｐ(-Kt／σ)） …（２）

シグモイド関数は、図３に示すように、所定範囲の入力に対しては出力が大きく変化し、入力が所定範囲より上或いは下になると、出力があまり変化しないという特性を有する関数であり、このシグモイド関数による非線形変換は、ドライバがアクセルやブレーキを踏むとき、小さい量である場合は敏感に操作し、大きく踏み込む場合は、それに比べて敏感ではないという特性を考慮するために行っている。

（１−Ｂ）ハンドル角を非線形変換した特徴量（及びその時間微分）
ハンドル角を中心位置から外側（右、若しくは左）を正として変換し、さらに非線形変換を行った値、及びその時間微分を特徴量とする。外側を正としているのは、特に時間微分が正であれば、外側に向かって切っている、ということを表すためであり、リスクの回避における操作と相関が高いことが予想されるためである。また、非線形変換については、（１−Ａ）と同様の理由から、シグモイド関数を用いる。

（１−Ｃ）時系列要素に基づく特徴量
以下の(1-C-1)〜(1-C-4)に示すような時系列要素に基づく特徴量を算出し、適宜、上述の基本特徴量に加える。
(1-C-1) 基本特徴量における直前数秒の周波数情報
(1-C-2) 基本特徴量における時間２階微分情報
(1-C-3) 時間幅ＴＳの差分情報：時間幅ＴＳを変化させ、複数用いることで、時間スケールを変化させた長期的な操作量の変動を表現する。
(1-C-4) 特徴的な操作パターンとの類似度：右左折、車線変更、障害物回避、信号での停止等の代表的な運転操作に対応して、複数個に分類された典型的な運転操作パターンを用意しておき、テンプレートマッチング、ＤＰ(Dynamic Programming)マッチング等によって求めた類似度の高い典型的運転操作パターンの遷移状態で特徴量を算出する。

（１−Ｄ）補助的な運転操作行動に基づく特徴量
例えば、ウィンカー、ワイパー、ライト等の補助的な運転操作行動に基づく特徴量を、適宜、基本特徴量に加える。

（２）基準リスク収集
次に、基準リスクを抽出するステップでは、運転時に、その瞬間にドライバが意識した（認識した）リスクを収集する。このリスクの収集方法は、以下の（２−Ａ）〜（２−Ｅ）に示すような複数の方式を用いることができ、状況により、その他の手法を用いることもできる。

（２−Ａ）シミュレータ方式
実際の走行で得られたデータをシミュレータを用いて再現し、リスクを収集する方式であり、運転操作データ収集時に同時に撮影したビデオデータを見ながら、運転したドライバ自身により、その瞬間のリスクを入力してもらう。入力はカメラのサンプリング周期である３０Ｈｚ毎にアナログ量を収集できるものが望ましく、例えばゲーム用のコントローラ等を用いてアナログ量を収集することができる。このシミュレータ方式のメリットは、その場ではないが、実際運転した本人が感じたリスクを、３０Ｈｚ全てのフレームで収集できる点である。

（２−Ｂ）画像確認方式
シミュレーション方式と同様、実走行後の評価であり、撮影したビデオから一枚一枚の画像を運転したドライバが評価する。シミュレータ方式に比べて各画像をゆっくり振り返れることから、より確実なリスクが得られるが、撮影した全てのフレームで行うことは難しいことが難点である（３０Ｈｚで１時間の場合、１０８０００フレームとなる）。

（２−Ｃ）実走行時申告方式
ビデオデータでなく、実走行時に同乗した計測員がドライバへの聞き取りによりリスクを収集する。シミュレータ方式や画像確認方式に比べて、その場の状況を反映したリスクが収集できるが、画像確認方式と同様、全フレームでの収集は難しく、また、運転時にドライバへタスクを負荷していることから、運転に与える影響が問題となる。

（２−Ｄ）同乗者計測方式
ビデオデータではなく、実走行時に同乗者がシミュレータ方式で用いるようなアナログデータ収集装置にてリスクを収集する。操作を行った本人の感じるリスクではないが、客観的なデータを連続的に収集できることが利点である。

（２−Ｅ）生体データ計測方式
発汗や心拍数、脳波、視線等の生体データからドライバの感じているリスクを収集する。但し、間接的な収集法であり、解決すべき課題も多い。

（３）相関解析及びルール抽出
ドライバの感じたリスクを収集した後は、操作行動とリスクとの相関関係を抽出する。この場合の相関解析では、実走行データから得られた特徴量（Ｎ次元）と抽出されたリスク（１次元）との相関関係を解析し、その解析結果に基づいてルールを抽出する。

具体的には、先ず、特徴量空間を領域分割した後、各領域でリスク強度の確率分布を算出する。そして、各領域の確率分布を解析し、教師情報として有効となる領域を決定する。この教師情報として有効となる領域を決定することがルール抽出となる。次に、各処理の詳細について説明する。

（３−１）特徴量空間の分割
運転操作データのＮ次元特徴量空間を、高リスクと相関が高い領域、低リスクと相関が高い領域、ランダムに発生する領域というように、リスクとの関係を考慮した形に分割する。図４は、アクセル・ブレーキの操作特徴量を横軸、その微分値を縦軸として２次元の領域（実際にはＮ次元）で分割した例を示しており、同図に分けられた領域により、「領域ＲＡではリスクが高い」「領域ＲＣでは高リスクと低リスクとが混在している」等の操作量とリスクの相関関係が表現できる。

特徴量空間の領域分割は、一定の基準に従って行う。本実施の形態においては、領域分割の基準として、カルバック情報量に基づく基準を用いており、この基準に基づいて分割若しくは統合された各領域毎に、リスク強度の確率分布を算出する。

先ず、領域分割基準について説明する。領域分割若しくは統合の基準としては、対象とする２つの領域の確率分布同士の距離Ｋｄを用い、この距離Ｋｄをカルバック擬距離で表現する。カルバック擬距離は、２つの領域の確率分布を、それぞれｐ１(x)、ｐ２(x)とすると、以下の（３）式で定義される。
Ｋｄ(p1||p2)＝∫ｐ１(x)・ｌｏｇ(p1(x)／p2(x))ｄｘ …（３）

実際には、データ数が有限であることから起因する低確率の出現を考慮し、（３）式によるカルバック擬距離Ｋｄ(p1||p2)を、以下の（3-1-a）,(3-1-b),（3-1-c）の点で修正した修正形を用いる。

(3-1-a) 積分に関しては、リスク（（３）式ではｘにあたる）は和（Σ）の形に変更する。

(3-1-b) 確率分布ｐ１，ｐ２が０となる点では、（３）式は発散する。このため、以下の修正を行う。
・Ｋｄ＝０に初期設定
・リスク強度ｘにおいて、確率分布ｐ１若しくはｐ２が一定値以下程度になる領域Ｒ１と、それ以外の領域Ｒ２とに分ける。
・領域Ｒ２については、各リスク強度において、ｐ１・ｌｏｇ(p1／p2)をＫｄに累積する。
・領域Ｒ１については、領域の大きさ、領域全体を累積した確率分布ｐ１，ｐ２を用いてｐ１・ｌｏｇ(p1/p2)を計算し、Ｋｄに累積する。但し、領域の大きさが一定以上であるときは、強制的にＫｄの値を充分大きな定数とする。また、確率分布ｐ１，ｐ２が０のときは、ｐ１・ｌｏｇ(p1/p2)を０としてＫｄに累積しない。

(3-1-c) 上述の（３）式による距離は、対称性がなく厳密には距離ではない。すなわち、カルバック擬距離は、一般に距離の公理を満たさない（K(p1||p1)とK(p2||p1)とは一致しない）ことから、両方の値を計算し、小さいほうを採用する。

ここで、算出した距離Ｋｄは、確率分布同士の類似度の指標となるものであり、「高リスクの確率が高い」、「高リスクと低リスクが混在している」等の領域毎の性質を分けるものとなる。統合においては、２つの領域間の距離が一定値以下であれば統合を行う。分割においては、領域を任意の境界で分割した２領域間の距離が一定値以上であれば、分割するという操作の指標となる。

次に、距離Ｋｄを用いた領域分割の手法について説明する。この領域分割手法としては、分割と統合とを繰り返して境界を適応的に決定する手法（以下、「タイプＴＡの分割手法」と記載）と、データマイニング等で用いられる決定木を用いた手法（以下、「タイプＴＢの分割手法」と記載）とがある。

＜タイプＴＡの領域分割手法＞
ここでは、各次元それぞれに領域の境界を決定する。境界は、以下の(TA-1)〜(TA-6)のステップを経て決定される。
(TA-1) 注目する特徴量について等間隔でＭ等分した境界を設定する。
(TA-2) それぞれ隣の領域との距離Ｋｄを算出し、一定値以下の領域同士は統合する（境界を削除する）。
(TA-3) それぞれの領域でランダムに境界を設定し、分割された領域同士の距離Ｋｄを算出し、一定値以上であれば分割する。
(TA-4) 各領域について、入力データがその領域に存在する確率が一定値以下であれば距離Ｋｄの近い隣の領域と統合する。
(TA-5) 以上の(TA-2)〜(TA-4)のステップを複数回繰り返す。
(TA-6) 各次元で(TA-1)〜(TA-5)の作業を行い、境界を決定する。その結果、図５（ａ）に例示するように、タイプＴＡの領域分割では、一つの次元Ｄ１で決定された境界が他の次元Ｄ２の空間軸に対して平行な格子状の境界となる。

＜タイプＴＢの領域分割手法＞
データマイニング等で用いられる決定木は、木構造状に表される分類手法である。木の各ノードに条件分岐があり、ルートノードから条件分岐に沿って１つの終端ノードが選択され、分類、予測等に使われる。この決定木は、以下の(TB-1)〜(TB-4)のステップを経て作成される。
(TB-1) ノード数１のルートノードだけの木を作成する。
(TB-2) 作成されたノードが全入力データにおいて選択される確率が一定値以下である場合、そのノードを終端ノードとする。また、木が大きくなりすぎないために、ノードの深さが一定値以上の場合は、強制的に終端ノードとする。
(TB-3) 作成されたノードにおいて、Ｎ次元それぞれでＱ個のランダムに作成された境界候補（Ｎ×Ｑ）に対して、それぞれの分割で、分割された領域間の距離Ｋｄが最大になるものを分割境界とする。
(TB-4) 以上の(TB-2)，(TB-3)の処理を、作成された各ノードについて繰り返し、全ての葉ノードが終端ノードになったときに終了する。

この決定木の作成は、分割条件に距離Ｋｄを用いている点以外は、一般の決定木の作り方とほぼ同様であり、図５（ｂ）に示すように、入力データ空間をより自由に分割できることから、基本的に、タイプＴＢの分割手法を用いることが望ましい。

（３−２）リスク強度確率分布の算出
領域が分割された後は、収集データより各領域毎の統計を取る。具体的には、その領域でのリスク強度の確率分布を算出する。前述の図４の例では、横軸をリスク強度、縦軸に確率密度をとったリスク強度確率分布の例を示している。確率分布として扱っているのは、同じ運転操作でも必ずしも同じリスクとは限らないこと、また、個人内での差や個人間の差を考慮しているためである。

（３−３）ルール抽出
分割された領域情報を元にルールを抽出する。分割された各領域は、図４に示したように、リスク強度の確率分布をそれぞれ持っている。ルール抽出は、この確率分布を解析し、教師情報として有効となる領域を決定することである。

具体的には、図４を例にとると、領域ＲＡは高リスクを出力する確率が大きいのに対し、領域ＲＣはどのリスクも均等に近い確率で出力する。教師情報としての使用に際しては、領域ＲＡの入力データであれば、高い信頼度で「リスクが高い」ということができるが、領域ＲＣについては、どのリスクであるかということに関する信頼度は低い。そのため、教師情報（抽出するルール）としては信頼度が高いもののみを採用する必要がある。そこで、リスク強度の確率分布が「どれくらい曖昧でない」かがその採用の指標となり、ルール抽出の指標として、以下の(3-3-a),(3-3-b)に示す条件を用いる。

（3-3-a）リスク強度確率分布ｐ(x)のエントロピーＥＴＰ
エントロピーは、以下の（４）式により算出され、エントロピーが低い程、曖昧さが少ないことを表す。エントロピーが最小になるのは、リスクが一意に決まるとき（或るリスクレベルでｐ＝１、それ以外でｐ＝０）であり、最大となるのは、各リスクが等確率であるときである。
ＥＴＰ＝Σ−Ｐ(x)ｌｏｇＰ(x) …（４）

（3-3-b）リスク強度確率分布ｐ(x)の分散ＶＡＲ
分散ＶＡＲを用いるのは、エントロピーＥＴＰだけでは曖昧さの情報としては不十分であるためである。例えば、図６（ａ），（ｂ）に示すような２つの確率分布のエントロピーは同じになるが、実際には、図６（ａ）の方が信頼度高く「どのリスクである」ということができるため、分散ＶＡＲを用いて補正する。

具体的には、以下の（５）式若しくは（５’）式に示すように、エントロピーＥＴＰと分散ＶＡＲとに基づいて、ルール抽出の指標となる評価値を算出する。この評価値が一定値以上であれば、ルールとして採用する。
ＥＴＰ＋Ａｋ×ＶＡＲ（Ａｋは定数） …（５）
ＥＴＰ／ＶＡＲ …（５’）
尚、この指標は、教師情報の信頼度の情報でもあるので、オンライン学習システムでの教師情報の利用の際に、この指標を教師情報の信頼度として用いることで、より柔軟な学習が期待できる。

ここで、ルール抽出を決定木により行った例を図７（ａ），（ｂ）に示す。図７（ａ），（ｂ）は、同じ決定木を示しており、その中で抽出された９のルールのうち、２つを例として示している。図７（ａ），（ｂ）においては、白丸で示す各ノードに対して終端ノードがハッチングと黒丸とで示されており、黒丸のノードがルールとして抽出された点、ハッチングされたノードが曖昧さを多分に含むことからルールとして抽出されなかった点である。また、破線は、ルールとして抽出されたノードの経路例を示している。

このルール抽出においては、オンライン学習システムへ搭載するためには、多くのドライバに共通するルールであることが必要になる。そのため、上述のルール抽出の工程を、多くの被験者を対象に行うことが前提となる。多くの被験者間データからルールを求める際には、以下の２つの方法がある。
(3-3-1) データの入力時点で各被験者のデータを統合し、ルール抽出を行う。
(3-3-2) 各被験者間でのルール抽出後、それぞれ抽出されたルールの共通部分を抽出することで、全体に共通する基本ルールとする。

オンライン学習システムに搭載するためのルール抽出は、基本的には(3-3-1)の方法を用いるが、ルールの使用法を拡大する際には、(3-3-2)によるルール抽出も使用する。すなわち、オンライン認識システム１ａに搭載するルールは、基本的にはドライバ全般に共通する運転行動とリスクの関係を表現するが、基本ルールと重複しないルールを複数のパターンに分類し、個々のドライバのタイプに特化したルールを用いることで、さらに適応的な学習・認識が可能になる。

タイプについては、被験者毎にそれぞれルールを抽出し、そのルールからいくつかのタイプへのクラスタリングを行うことで識別することができ、識別したタイプに特化したルールに基づいて、例えば、安全運転度の評価を定めて各人の運転行動改善の支援情報に用いる等、各種の運転支援情報に用いることができる。

尚、本実施の形態で、カルバック擬距離、エントロピーを用いたのは、「高リスクルール」のほかにも、「低リスクルール」、「中リスクルール」等も合わせて抽出するためである。ルール抽出には、例えばデータマイニングにおける確信度を用いた抽出法も適用可能であるが、これは「高リスクであるかないか」に注目したルール抽出になるため、リスクのレベル全般に対するルール抽出にならないという問題がある。

（３−４）抽出されたルールの使用
前述したように、抽出したルールは、オンライン学習システム１ａのリスク情報抽出部４に搭載されて教師情報の生成に用いられる。このルールの特徴は、以下の(3-4-1)〜(3-4-3)に示す点である。

(3-4-1) 複数のルールが並列で並べられていること
これにより、ルールの追加、削除が他のルールに影響せずに可能である。そのため、オンライン学習システムでの使用の際に、ドライバに合わせたルールの追加・削除、今後さらに大量の走行データが集まり新たなルールが得られた時の追加などに柔軟に対応可能である。

(3-4-2) 信頼度が付加されていること
これにより、教師情報としてより確からしいものをより強く学習するといった効率的な学習が可能になる。

(3-4-3) 半教師であること
ルールに当てはまらなかった運転操作行動については、教師としては採用しない。そのため、オンラインでの学習時は半教師あり学習となる。これは、同じ操作パターンであっても、そのときのリスクは一意には決まらないため、常時、教師情報を作成することはできないという実世界の走行を考慮したものである。

次に、以上のルールが搭載されたオンライン認識システム１ａの実走行におけるオンライン処理について、画像特徴量抽出部５における画像特徴量の抽出処理、状態認識部６における状態認識処理、リスク認識部７におけるリスク認識処理の順に説明する。

［画像特徴量の抽出処理］
画像特徴量抽出処理では、以降のリスク認識のためのデータを抽出するが、一般に、リスク認識に相関がないデータは認識に悪影響を与える。つまり、この特徴量抽出処理においては、むやみに特徴量を増やすということは得策でなく、逆に、必要な特徴量を用いないことも精度を悪化させる。

そのため、どの特徴量を用いるべきかという特徴量選択が課題として発生するが、前述したように、特徴量選択については、それを学習的に得る場合は、以下に説明するリスク認識の上位の学習が必要になり、計算量・メモリ容量的にオンラインでの学習には不利である。

従って、本形態では、ここでの特徴量抽出部分は固定として扱う例について説明する。学習する場合には、システムの認識率を基準として評価し、各特徴量の組み合わせを最適化すれば良く、これには、組み合わせの全探索、遺伝的アルゴリズム（GA;Genetic Algorithm）等の発見的な探索法等、既存の最適化手法を用いることができる。

本形態においては、画像特徴量抽出部５で予め設定した種類の特徴量を抽出している。ここでは、処理を３つの要素に分け、各要素毎に設定した特徴量を抽出する。３つの要素は、前処理、特徴量計算、領域設定である。具体的には、以下に示すように、前処理で６種類、特徴量計算で１０種類、領域設定で４種類のデータを抽出し、それらの組み合わせで計２４０（６×１０×４）次元のデータを抽出する。

＜前処理＞
入力画像に対して、ソベル、縦方向ソベル、横方向ソベル、フレーム間差分、輝度、彩度の６種類のフィルタ処理を行い、６次元の特徴量データを抽出する。

＜特徴量＞
フィルタ処理された画像の画素値に対して、平均、分散、最大値、最小値、横方向重心、縦方向重心、コントラスト、均一性、エントロピー、フラクタル次元の１０種類の計算処理を行い、１０次元の特徴量データを抽出する。

＜領域＞
図８に示すように、画像内に領域Ａ０を設定し、この設定領域Ａ０の全体、設定領域Ａ０内の左側の領域Ａ１、右側の領域Ａ２、中央の領域Ａ３の４種類の領域について、４次元の特徴量データを抽出する。

尚、以上の２４０次元の特徴量は、オンラインシステムの演算性能に応じて、使用する次元を絞るようにしても良い。例えば、画像以外にも車両データも用いて、画面全体のソベルの平均、分散、画面全体のフレーム間差分の平均、分散、車速、ハンドル角の６次元の特徴量を抽出するようにしても良い。

また、以上の特徴量抽出処理においては、各特徴量は正規化しているが、理論上の範囲は非効率であるため、事前に各特徴量の分布を評価しておき、その評価結果を元に最大値及び最小値を設定し、０〜１の数値に正規化している。その場合、最大値・最小値を動的に変化させるようしても良く、例えば、最大値を超える値もしくは最小値を下回る値が入力された場合には、それぞれ範囲を拡大するように最大値・最小値を変更する。逆に、しばらく最小値、最大値付近のデータが入ってこなかった場合は、範囲を狭めるように変更する。

また、ここでは基本的な特徴量を用いたが、過去のフレーム情報を用いて動き情報を算出する等、特徴量の時系列的な変動を計算し、その情報を特徴量として用いることもできる。更に、全体としてのリスク認識の精度向上のためには、この特徴量抽出処理に高精度の画像処理を入れることもでき、例えば、歩行者認識結果、道路の白線認識結果、障害物認識結果等を含めて、ここでの抽出データに組み込むようにしても良い。このような意味では、本システムは、個々の外界認識結果を統合し、リスクを認識するシステムと捉えることもできる。

［状態認識処理］
状態認識部６では、画像特徴量抽出部５で得られたＮ次元の特徴量データを１次元の状態という量に圧縮変換する。つまり、状態認識部６は、入力された画像特徴量データから状態という量を出力する識別器として機能する（但し、この識別器の出力は、１状態を確定せずに確率的に扱うこともできる）。本処理における学習は、この識別器の内部構造を入力データ、教師データを用いて実環境に適応させることになるが、ここでの学習における教師は、この入力データがどの状態であるかを直接教えるのではなく、出力された状態から認識されるリスクを、できるだけ効率的に、且つ精度良く認識できるようにするものである。

以下、入力された画像特徴量から状態を出力する認識処理、その認識処理自体を学習する学習処理に分けて説明を行う。

＜認識処理＞
識別器としての認識処理は、入力データに対してプロトタイプ型の識別処理を行う。ここで、状態番号をＳとすると、各状態は代表値を持ち、これをｐｒｏｔ_s(i)とする。状態代表値ｐｒｏｔ_s(i)は、Ｎ次元のベクトルであり、ｉ＝０，１，…，Ｎ−１となる。

入力データ（特徴量ベクトル）をＩｎ(i)とすると、入力ベクトルは、以下の（６）式に示すように、状態代表値ｐｒｏｔ_s(i)との距離Ｌ(s)により求められ、どの状態に属するかが認識される。
Ｌ(s)＝(Σ_i(ｐｒｏｔ_s(i)−Ｉｎ(i))²)^1/2 …（６）

入力データの属する状態（状態番号）Ｋは、以下の（７）式に示すように、距離Ｌ(s)の最小値で求められ、入力ベクトルが一番近い状態代表値の状態であると認識される。
Ｋ＝ｍｉｎ_s(Ｌ(s)) …（７）

図９は、Ｎ次元中の３次元に注目した場合を示しており、入力データは、状態Ｓ６より状態Ｓ１に近いため、Ｓ１の状態であると認識される。以上が基本的な状態認識となるが、これは入力データがどの状態であるかを確定させていることになる。

この場合、図９では、状態Ｓ１と状態Ｓ６とでは、距離はそれほど違いはないが、若干、状態Ｓ１との距離が近いことで、入力データは状態Ｓ１であると認識される。つまり、状態Ｓ１と状態Ｓ６との距離がほぼ同じ領域においては、認識が不安定になる可能性がある。

従って、ここでは、更に拡張し、状態が確率的であるとして扱うことで、認識の不安定さを解消する。すなわち、入力データが状態ｓである確率をＰ(s)とすると、状態の確率は、距離Ｌ(s)を用いて、以下の（８），（９）式で求める。ここで、σはパラメータであり、小さくするほど状態を確定的にする効果がある。
Ｐ(s)＝(ｅｘｐ(−Ｌ(s)／σ))／ｚ …（８）
ｚ＝Σ_sｅｘｐ(−Ｌ(s)／σ) …（９）

このように、状態を入力データとの距離に応じた尺度で確率的に決定した場合、以後の計算で全ての状態について計算する必要がある。従って、計算量を削減するため、一定値以下の確率は０とし、計算として扱わないようにしても良い。

尚、Ｐ(s)の定義において、ｓ＝Ｋのときだけ１、それ以外を０とすれば、状態を確定したときと同じになる。

＜学習処理＞
次に、状態認識部６の学習処理では、入力データ及び教師情報から、各状態の代表値の学習（更新）を行う。学習は、階層型ニューラルネットワークの一種である自己組織化マップ（SOM;Self-Organization Maps）の学習をベースとする。

ＳＯＭは、Ｍ次元（通常は２次元）に並べられたユニットが、それぞれベクトル値（通常入力との結線の重みと呼ばれる）を持ち、認識処理において入力の属する状態Ｋを求めたように、入力に対して勝者ユニットをベクトルの距離を基準として決定する。そして、勝者ユニット及びその周辺のユニットの参照ベクトル値を、入力ベクトルに近づくように更新する。これを繰り返し、全体が入力データの分布を最適に表現できるように教師無しで学習してゆく。１次元ＳＯＭによる学習のイメージを、図１０に示す。

本システムにおいては、ＳＯＭによる学習は、以下のようになる。但し、本システムにおいては、ユニット（状態）は１次元につながっているものとする。勝者ユニットの状態番号を、前述の状態番号Ｋとすると、代表ベクトルｐｒｏｔ_sは、以下の（１０）式に従って更新（学習）される。
ｐｒｏｔ_s(i)→ｐｒｏｔ_s(i)＋α(Ｉｎ(i)−ｐｒｏｔ_s(i) …（１０）

ここで、（１０）式におけるαは、更新の重みを示す学習率係数であり、以下の（１１）式で表される。
α＝ａ・ｂ(t)・ｃ(Ｄ(s,K),ｔ)・ｅ(t) …（１１）
但し、ａ：学習係数
ｂ：時間減衰係数
ｃ：領域減衰係数
Ｄ(s,K)：更新対象のユニットと勝者ベクトル間のつながりにおける距離
ｅ：教師情報係数

（１１）式における各パラメータａ，ｂ，ｃは、通常のＳＯＭでも用いられるパラメータであり、時間減衰係数ｂは、学習経過時間ｔ（通常何回目の更新かを表す）の関数であり、一般には時間ｔの増加につれ減衰する。また、距離Ｄ(s,K)は、特徴量空間上での距離ではなく、例えば、図１０においては、勝者ユニットの隣のユニットは距離１、その隣は距離２となる。

一方、領域減衰係数ｃは、その距離Ｄ(s,K)の関数であり、距離Ｄ(s,K)が大きくなる程、値が小さく、ある一定以上の距離Ｄ(s,k）については更新されないように設定される。また、領域減衰係数ｃは、時間ｔの関数でもあり、時間ｔが大きくなる程、値が小さくなる。更に、本システムでは、教師情報を示す教師情報係数ｅ(t)を導入するが、これについては後述する。

このように、ＳＯＭの学習アルゴリズムでは、学習初期は、広範囲のユニットが入力データに近づくように更新され、学習が進むにつれ、更新されるユニット数、更新量とも少なくなり、最終的には、学習率係数α（更新の重み）が０になり、学習が終了する。尚、初期状態では、通常、ユニットはベクトル空間上の中心付近にランダムに配置される。

ここで、本システムでは、オンライン学習システムであることから、以上の学習アルゴリズムを若干変更し、学習を事前学習フェーズとオンライン学習フェーズとに分け、各学習フェーズで学習のパラメータを変更している。すなわち、学習の終了時刻は設けずに、事前学習フェーズとオンライン学習フェーズとでそれぞれの時刻で一定とし、また、更新範囲の減衰も設けず、事前学習時とオンライン学習時の範囲は異なるものとする。

これは、オンライン学習である本システムにおいては、学習に終了時刻はないこと、また、事前学習を導入しているのは、一義的に一定値とすると、更新量が大きい場合、ＳＯＭの分布が入力データの平均付近の狭い範囲に集中してしまうためであり、逆に小さい場合には、ＳＯＭの分布が特徴量空間上にばらつき過ぎてしまい、入力データの分布をうまく表現できないためである。

そのため、図１１に示すように、事前学習として、時間減衰係数ｂ，領域減衰係数ｃの値を大きくとることで、先ず、ＳＯＭを入力データ分布の中心付近に寄せておき、その後、時間減衰係数ｂ，領域減衰係数ｃを小さくすることで、適切な分布を表現できるようにしている。尚、ここでの事前学習は、市場で実走行に使う前のオフラインでの学習を想定している。

図１２に、学習後のＳＯＭの分布例を示す。実際の特徴量空間は２４０次元であるが、図１２では、そのうちの３次元のみを表しており、グラフの各点が入力データを示している。実際には、各点は色つきの点として表現され、色によってリスクの大きさを表している。黒い点が各状態の代表ベクトルで、それらを結ぶ黒線がＳＯＭのつながりである。

以上では、入力データの分布を最適に表現できる学習法について述べてきたが、実際に求められるのは、リスクを認識する上で入力データの分布を最適に表現できることである。ＳＯＭは、本来、教師なしの学習法（入ってきたデータを均等に扱い学習していく）であるが、本システムにおいては、リスクを認識する上での効率的な学習として、前述の教師情報係数ｅ(t)によるリスク情報を与えた学習を行う。

詳細は後述するが、リスクの認識は、認識した状態のリスク確率という形で出力する。これは、その状態が、リスクをどの程度の確率で持つかということを表したものである。具体的な学習法としては、時刻ｔでの入力データがドライバ情報から得られたリスクレベルＲという教師情報を持つ場合、認識された状態が持つリスク確率においてリスクレベルＲの確率が高ければ教師情報係数ｅ(t)を大きくし、小さければ、教師情報係数ｅ(t)を小さくする。また、教師情報が得られない場合には、教師情報係数ｅ(t)を小さくするという処理にする。

これにより、学習を進めるうちに、認識された状態は、そのときのリスクを高確率で持つようになり、つまりはリスクの認識精度が上がっているということになる。具体的な教師情報係数ｅ(t)の設定は、次のリスク認識処理において説明する。

また、状態を確率的に求めた場合の学習については、勝者ユニットを確率に応じた重みで表現し、その重みに応じた更新量により更新を行う。但し、計算量が増大するという問題があるので、本システムでは、学習時については、勝者ユニットを入力データに一番近い状態に確定させて学習を行っており、一定値以下の確率の状態については、自身を勝者とする更新は行わない。

［リスク認識処理］
リスク認識部７では、状態認識部６で求めた状態により、リスクを出力する。前述したように、各状態はそれぞれリスク確率分布を持つため、状態ｓでのリスクの確率分布をｐ(Ｒ│ｓ)と表すことにする。尚、ここでのリスクは、リスク情報抽出部４でのリスクと対応しており、１１段階のレベルに分けているので、リスクレベルＲとリスク確率（分布）ｐ(Ｒ│ｓ)とは、例えば図１３に示すような関係で表される。

リスク出力は、基本的にこのリスク確率ｐ(Ｒ│ｓ)を出力することになるが、出力結果を例えば警報や表示などに使う場合には、確率分布のままでは使いにくいため、リスク出力としては、以下の（１２）式で示される期待値Ｅを出力する。
Ｅ＝Σ_RＲ・ｐ(Ｒ│ｓ) …（１２）

また、状態を確率的に取り扱った場合、期待値Ｅは以下の（１３）式のようになる。
Ｅ＝Σ_sΣ_RＰ(s)・Ｒ・ｐ(Ｒ│ｓ) …（１３）

＜リスク確率の学習処理＞
リスク確率の学習は毎フレームに行われ、リスク確率は逐次更新される。リスク確率は、基本的に、過去に経験したリスクレベルの頻度分布を用いて算出する。しかし、本システムは、オンライン学習なので無限遠過去のデータまで持つことは難しく、また遠い過去の経験に現在と同じ重要度を持たせることは好ましくないと考えられる。従って、ここでは、以下の方法でリスク確率を更新する。

時刻ｔでの状態ｓ_tのリスク確率をｐ_t(Ｒ│ｓ_t)としたとき、以下の（１４）式に従って、リスク確率を更新する。
ｐ_t+1(Ｒ│ｓ_t)＝ｐ_t(Ｒ│ｓ_t)＋β…（１４）

更に、リスク確率ｐ_t+1(Ｒ│ｓ_t)は、以下の（１５）式に従って正規化する。
ｐ_t+1(Ｒ│ｓ_t)←ｐ_t+1(Ｒ│ｓ_t)／Σ_Rｐ_t+1(Ｒ│ｓ_t) …（１５）

尚、状態の更新は、その時刻の状態のみである。また、状態を確率的に扱う場合は、各状態においてβをｐ(ｓ_t)・βとして計算する。ここで、βは定数であり、この値が大きいほどより現在の情報を重要視することになる。

ここで、与えられる教師リスクについては、リスク情報抽出部４の説明で述べたように、各フレーム毎に得られるとは限らない。リスクレベルが高い場合には、ドライバデータからリスク情報が得られる場合が多いが、リスクレベルが低い場合には、特に教師情報が得られる可能性が小さくなってしまうという問題がある。

この問題に対して、本システムでは、教師リスク情報を時間軸方向で伝播させることで対処するようにしている。これは、ある時刻に教師リスク情報が得られた場合は、その前の時刻もその時刻と同じではないまでも危険であるという因果関係に基づくものであり、この因果関係を用いて教師リスク情報を伝播させる。

この場合、過去に情報を伝播させるには、伝播させる分のすべての過去の状態遷移を記憶している必要があるが、リアルタイムでの学習を前提としたとき、記憶容量と計算量がネックとなる。そこで、本システムでは、強化学習の際に用いられるＴＤ(Temporal Difference)誤差を考慮した伝播により、リスク確率を更新している。

強化学習は、その時々の状態に対しての明示的な行動の指示ではなく、行った行動に対しての報酬によって学習を行い、この先得られるであろう報酬の総和が最大となる行動をその時々で選択する学習法であり、時刻ｔにおける実際の報酬と報酬の予測値の差をＴＤ誤差(TD-ERROR)と呼び、これを０とするように学習が行われる。本システムのリスク情報は、この強化学習の報酬に相当し、図１４に示すように、或るシーンでの状態遷移を考えると、状態Ｓ１に至る状態Ｓ２，Ｓ７，…にもリスクがあるはずであると考えられ、リスク情報の伝播を行う。

この場合、伝播は、現在の状態から一つ前のフレームへ伝播させるだけで良く（つまり計算も記憶も１フレーム前との関係だけ扱えば良い）、一回の経験では、リスク情報は充分な過去まで伝播しないものの、同じような経験を繰り返すことで、徐々にリスク情報が伝播し、その因果関係を学習することができる。また、リスク情報の伝播は、図１５に示すように、同じリスクレベルの時刻ｔの状態Ｓtから時刻ｔ−１の状態Ｓt-1への伝播のみではなく、異なるリスクレベルの状態間においても伝播させるようにする。但し、リスクレベル０は、リスクがないという他に、リスク情報がないという場合も含むため、伝播はさせない。

伝播によるリスク確率ｐ(ｒ│ｓ_t-1)の更新は、以下の（１６）式によって行われる。
ｐ(ｒ│ｓ_t-1)＝ｐ(ｒ│ｓ_t-1)＋η・(ＲＩ(ｒ)＋γ・ｐ(ｒ│ｓ_t)−ｐ(ｒ│ｓ_t-1))
＋ｈ・η・(γ・ｐ(ｒ−１│ｓ_t)−ｐ(ｒ−１│ｓ_t-1))
＋ｈ・η・(γ・ｐ(ｒ＋１│ｓ_t)−ｐ(ｒ＋１│ｓ_t-1)) …（１６）
但し、ｈ：リスクレベル方向の伝播の大きさを表すパラメータ
γ：時系列の伝播の大きさを表すパラメータ
η：一回の学習での更新の大きさを表すパラメータ

ここで、時刻ｔで得たリスク情報を、リスクレベルｒを用いてＲＩ(ｒ)と表している。前述したように、リスク情報抽出部４で扱うリスク情報は、０〜１０の１１段階の中の或る一つのリスクレベルに対して得られるものとしている。すなわち、時刻ｔで得られたリスク情報がリスクレベルＱとすると、（１７），（１８）式のように表される。
ＲＩ(ｒ)＝１（ｒ＝Ｑ） …（１７）
ＲＩ(ｒ)＝０（ｒ≠Ｑ） …（１８）

一方、このリスク学習におけるリスク情報ＲＩ(ｒ)は、図１６に示すように、実際はそのリスクレベル付近のリスクも存在すると考えて拡張を行っている。この拡張は、具体的には、隣のリスクレベルをパラメータｇ（ｇ＜１）を用いてｇ倍、そのまた隣のリスクレベルをｇ＊ｇ倍するという操作を行っており、この操作には、限られた教師データをさらに有効に使えるという効果がある。また、リスクレベル方向の伝播の大きさを表すｈは通常、リスク情報の拡張に用いたｇと同じ値としている。

リスク確率の更新後は、状態認識部６における学習処理で用いた教師情報係数係数ｅ(t)を設定する。この教師情報係数ｅ(t)は、以下の（１９），（２０）式に従って設定される。時刻ｔでリスク情報抽出部４から得られるリスク情報をＲを用いて、
Ｒ≠０のとき、
ｅ(t)＝１０・Ｒ・ｐ(Ｒ│ｓ_t) …（１９）
Ｒ＝０のとき、
ｅ(t)＝ｃｏｎｓｔ …（２０）

Ｒ＝０のときは、教師情報が入らなかったときに相当するが、その場合は、教師情報係数ｅ(t)は、定数ｃｏｎｓｔすなわち固定値のゲインになる。この値は、教師リスクが得られる確率により決定され、教師ありの学習データ数と教師なしの学習データ数との比率に基づいて設定される。本システムにおいては、経験則として、教師ありの学習データ数＝教師なしの学習データ数となるように定数ｃｏｎｓｔを設定し、ｃｏｎｓｔ＝０．０１としている。

教師情報が入った場合は、その確率が高い程、またリスクレベルが大きい程、強く学習される。これにより、実際に起こった事象に対して、認識する確率が小さい場合は、その状態の認識が間違っている可能性が高いことを示し、学習が弱くされる。その状態の代表ベクトルは、同じ状態を認識し、リスクの確率が高かったデータに近づくような学習が行われる。そして、そのような学習が続くことで、その入力データは他の状態と認識されやすくなり、間違っている可能性の高い状態を認識しにくくなる。このようにして全体としての状態認識、リスク認識が最適化される。

以上の処理による認識結果の出力例を図１７に示す。図１７（ａ）〜（ｄ）は、車載カメラから得られた画像に、認識結果を表示したシステムの出力画像であり、認識したリスクの大きさを、各画面の下部のバーグラフＢ１〜Ｂ４で表している。このバーグラフＢ１〜Ｂ４で表される認識リスクは、前述したリスク確率の期待値を示しており、その上に表示される数字は、認識した状態番号である。

図１７（ａ），（ｂ）に示す２枚の画像は、歩行者や対向車等が近くにおらず、リスクが低いと思われるシーンであり、また、図１７（ｃ），（ｄ）に示す２枚の画像は、それぞれ、道幅の狭い片側一車線道路で対向車が存在し、道幅が更に小さくなっているシーン、交差点での左折シーンであり、リスクとしては、図１７（ａ），（ｂ）のシーンよりリスクが高いと思われるシーンである。

ここで、「リスクが低い（高い）と思われる」と記載したのは、それぞれの画像がいくつのリスク値であるという絶対的な値は存在しないためである。本システムの認識結果を見ると、図１７（ａ），（ｂ）のシーンよりも、図１７（ｃ），（ｄ）のシーンの方がリスクが高いと認識できていることがわかる。図１８は、このときのリスク確率ｐ_t(Ｒ│ｓ_t）の学習結果を示している。

以上のように、本システムの仕様は、初めにオフラインである程度事前学習を行った後、オンラインで学習を行うという形態を想定しており、オンライン認識システム１ａにおける学習の流れでは、ドライバデータから時間的に部分的な教師情報を抽出し、学習を行っている。このため、ルール生成システム１ｂにおいて、事前にドライバの運転行動とリスクとの関係をより直接的に求めることで、実際の走行において適応的なリスクルールを抽出するようにしている。

すなわち、実際の走行データを用いることで、より現実に即した運転行動とリスクの相関関係を抽出することを実現し、また、大量のデータから、データマイニング的な手法を用いることで、ドライバ内の差、個人差を許容するルールを抽出することが可能になる。このルールを用いたリスク認識結果の例は、図１９に示され、認識されたリスクが実リスクを忠実に再現していることがわかる。この場合、教師情報が認識システムの目標値となるので、認識器の学習の評価も可能になり、最終的な認識器の認識精度の向上にも貢献することができる。

リスク認識システムの基本構成図ルール抽出の流れを示す説明図シグモイド関数の説明図領域分割とリスク強度確率分布との関係を示す説明図領域分割の説明図確率分布のエントロピーを示す説明図決定木によるルール抽出を示す説明図特徴量抽出の画像領域を示す説明図状態認識の概念図１次元自己組織化マップによる学習の概念図事前学習とオンライン学習の説明図自己組織化マップの学習後の分布を示す説明図リスクレベルとリスク確率との関係を示す説明図リスク伝播の説明図情報伝播の説明図リスク情報の拡張を示す説明図認識結果の出力例を示す説明図リスク確率の学習結果を示す説明図事前学習によるリスク認識結果を示す説明図

符号の説明

１リスク認識システム
１ａオンラインリスク認識システム
１ｂルール生成システム
２画像入力部
３画像特徴量抽出部
４リスク情報抽出部
５画像特徴量抽出部
６状態認識部
７リスク認識部
８リスク情報出力部
１０運転操作データ収集部
１１基準リスク収集部
１２ルール抽出部

Claims

移動体の外界環境に含まれる危険度を認識するリスク認識システムであって、
上記移動体のドライバ或いは同乗者を被験者として、該被験者が意識した危険度を基準リスクとして運転操作データに対応して収集する基準リスク収集部と、
上記移動体の運転操作データから算出した特徴量と上記基準リスクとの相関関係を解析し、ドライバが認識する危険度と運転操作行動との相関関係を表現するルールを抽出するルール抽出部と
を備えたことを特徴とするリスク認識システム。
上記ルールを搭載し、上記移動体の運転時の外界環境に含まれる危険度を、上記ルールを用いてオンラインで適応的に認識するオンライリスク認識システムを更に備えたことを特徴とする請求項１記載のリスク認識システム。
上記移動体の外界環境を撮像したビデオデータを記録し、記録したビデオデータの所定フレーム毎に危険度の大きさを記録して上記基準リスクを収集することを特徴とする請求項１記載のリスク認識システム。
上記運転操作データとして、アクセルとブレーキとを統合した１次元特徴量を用いことを特徴とする請求項１記載のリスク認識システム。
上記運転操作データとして、更に、操舵角を用いることを特徴とする請求項４記載のリスク認識システム。
上記特徴量を、上記運転操作データの分散に基づく非線形変換によって算出することを特徴とする請求項１記載のリスク認識システム。
上記特徴量を、上記運転操作データの微分値或いは時間スケールを変化させた差分値を用いた時系列データによって算出することを特徴とする請求項１記載のリスク認識システム。
上記特徴量を、上記運転操作データと類似する典型的運転操作パターンの遷移情報から算出することを特徴とする請求項１記載のリスク認識システム。
上記特徴量の入力空間を危険度の確率分布に基づいて分割し、分割した各領域毎に上記基準リスクとの相関関係を解析することを特徴とする請求項１記載のリスク認識システム。
上記入力空間の分割を、低確率の出現を考慮して修正したカルバック擬距離を用いて行うことを特徴とする請求項９記載のリスク認識システム。
上記入力空間の各次元毎に、上記カルバック擬距離を評価基準として分割と統合とを繰り返し、適応的に分割を行うことを特徴とする請求項１０記載のリスク認識システム。
上記入力空間の分割を決定木を用いて行い、上記カルバック擬距離を評価基準として領域境界を決定することを特徴とする請求項１０記載のリスク認識システム。
分割した各領域における危険度の確率分布のエントロピーと分散とに基づいて評価値を算出し、該評価値に基づいて上記ルールを抽出することを特徴とする請求項９記載のリスク認識システム。
上記評価値を、上記ルールの信頼度として用いることを特徴とする請求項１３記載のリスク認識システム。
複数の被験者から得られた複数のルールで重複する部分を共通化し、ドライバの個人差を排除した共通の基本ルールを作成することを特徴とする請求項１記載のリスク認識システム。
上記基本ルールと重複しないルールを複数のパターンに分類して個々のドライバのタイプを識別し、識別したタイプに特化したルールを運転行動の改善支援情報として用いることを特徴とする請求項１５記載のリスク認識システム。