JP2011008613A - オンラインリスク学習システム - Google Patents

オンラインリスク学習システム Download PDF

Info

Publication number
JP2011008613A
JP2011008613A JP2009152715A JP2009152715A JP2011008613A JP 2011008613 A JP2011008613 A JP 2011008613A JP 2009152715 A JP2009152715 A JP 2009152715A JP 2009152715 A JP2009152715 A JP 2009152715A JP 2011008613 A JP2011008613 A JP 2011008613A
Authority
JP
Japan
Prior art keywords
learning
risk
unit
online
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009152715A
Other languages
English (en)
Other versions
JP5547913B2 (ja
Inventor
Taichi Kishida
太一 岸田
Motoya Ogawa
原也 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Subaru Corp
Original Assignee
Fuji Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Heavy Industries Ltd filed Critical Fuji Heavy Industries Ltd
Priority to JP2009152715A priority Critical patent/JP5547913B2/ja
Publication of JP2011008613A publication Critical patent/JP2011008613A/ja
Application granted granted Critical
Publication of JP5547913B2 publication Critical patent/JP5547913B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Traffic Control Systems (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

【課題】偏学習によるオンラインリスク認識の性能低下を防止する。
【解決手段】事前知識を保持するベースユニット3の機能と、ユーザの使用環境に応じた学習の進行によって認識性能が変化する学習ユニット4の機能とを融合ユニット5で融合し、最終的に融合ユニット5でリスク認識を行う。これにより、学習ユニット4で偏学習が生じた場合であっても、製品出荷時の初期の性能を維持するベースユニット3の認識性能をシステムに反映してリスク認識性能の低下を排除することができ、ユーザの使用環境に合わせて特化しつつ基本性能を維持することが可能となる。
【選択図】図1

Description

本発明は、自動車等の移動体の外部環境に含まれるリスクを適応的に学習して認識するオンラインリスク学習システムに関する。
近年、自動車等の移動体における予防安全技術として、カメラを搭載して外界環境を撮像し、撮像した画像を処理して外界環境に含まれる危険度(リスク)の情報を認識し、ドライバに警告する、又は運転をアシストするといった技術が開発されている。
このような危険情報の認識技術は、例えば、特許文献1に開示されている。特許文献1の技術は、車両周囲の環境の対象物に対して、その種類や属性毎に危険度パラメータを設定し、この危険度パラメータに基づいて危険度を演算するものである。
特許文献1に開示されているような従来の技術では、歩行者、対向車、障害物、白線等といった危険に結びつく要因を設定し、それらに基づいてリスクの認識を行っており、実際のシステムとしては、開発者が想定したリスク要因や認識を予めシステム内に組み込んでおくという形で実現されている。
しかしながら、自動車の走行環境のような実際の環境は、天候の変化、歩行者、車、路上の構造物等の存在といったように多様であり、更には、運転する人間も多様であるため、従来の予め設定した一つの認識モデルでは限界があり、危険に結びつく要因についての認識が高精度で行われなければ、全体としてのリスクを認識できないばかりでなく、予め想定していた以外の危険な場面では認識できないという問題がある。
このため、本出願人は、特許文献2において、実際の環境下での経験をシステムが自律的に学習し、多様な外界環境に対応して危険度の認識を可能とすることのできるオンライン学習システムを提案している。
特開2003−81039号公報 特開2008−238831号公報
特許文献2の技術は、実際の環境下での経験をシステムが自律的に学習するため、ユーザの使用環境に合わせてシステムを特化させることが可能である反面、ユーザが特定の環境に偏った運転を行うと、偏学習が生じ、製品出荷段階で設定されていた事前学習結果が失われる(忘却される)虞がある。このため、ユーザの普段の使用環境と異なる環境に遭遇した場合、必ずしも十分な認識性能を得られない可能性がある。
本発明は上記事情に鑑みてなされたもので、偏学習によるオンラインリスク認識の性能低下を防止することのできるオンラインリスク学習システムを提供することを目的としている。
上記目的を達成するため、本発明によるオンラインリスク学習システムは、移動体の外界環境を検出し、この外界環境に含まれるリスクを学習的に認識するオンラインリスク学習システムであって、上記リスクの事前学習結果を保持するベースユニットと、上記リスクのオンラインでの学習結果を保持する学習ユニットとを備え、上記ベースユニットによるリスクレベルと上記学習ユニットによるリスクレベルとを所定の融合率で融合し、オンラインでの唯一のリスクレベルとして出力することを特徴とする。
本発明によれば、偏学習が生じた場合であってもオンラインリスク認識性能の低下を防止することができ、ユーザの使用環境に合わせて特化しつつ基本性能を維持することが可能となる。
本発明の実施の第1形態に係り、オンラインリスク学習システムの構成図 同上、特徴量抽出の画像領域を示す説明図 同上、状態認識の概念図 同上、1次元自己組織化マップによる学習の概念図 同上、自己組織化マップの学習後の分布を示す説明図 同上、リスクレベルとリスク確率との関係を示す説明図 同上、リスク伝播の説明図 同上、情報伝播の説明図 同上、リスク情報の拡張を示す説明図 同上、融合率及び融合パラメータ計算処理のフローチャート 同上、各ニューロンの学習回数を示すヒストグラム 同上、融合率テーブルの説明図 同上、認識結果の出力例を示す説明図 本発明の実施の第2形態に係り、オンラインリスク学習システムの構成図
以下、図面を参照して本発明の実施の形態を説明する。
本発明のオンラインリスク学習システムは、自動車等の移動体に搭載され、外界環境の検出結果からその環境内に含まれる危険度(リスク)に係る情報を適応的に認識するシステムであり、事前には想定していなかった環境に対しても、適応的にリスク認識が行えるようにオンラインで成長していく。
外界環境のセンシングは、システムの入力系として備える各種センサデバイス、例えば、外界を単眼視やステレオ視で撮像するカメラ、レーザやミリ波等のレーダ装置からのセンシング情報を用いることが可能である。つまり、本システムは、基本的に外界環境を検出するセンサデバイスに依存するものではなく、広義にはセンサデバイスより得られる外界環境情報とリスク情報との相関関係を学習する学習システムである。
本形態においては、オンラインリスク学習システムを自動車等の車両に適用し、車載カメラによって外界を撮像した画像情報と、ドライバの運転操作や車両の運転状態等の車両情報とを用いてリスク情報を抽出する例について説明する。すなわち、本形態のオンラインリスク学習システムは、画像から得られた情報から直接リスクとの関連付けを行うことでリスクを認識すると共に、その関連付けを実際の走行で遭遇した環境から学習し、適応的にリスク認識を行う。
具体的には、ドライバを認識器の学習においての教師とし、ドライバの運転操作からリスク情報を抽出し、その運転操作に基づくリスク情報と、カメラから得られる画像情報との関連を人工知能技術を用いて学習させる。例えば、ドライバが歩行者を回避するような操作行動を行ったとき、本システムは、その状況が危険であると判断し、そのときに得られた画像は危険であるということを教える。
これにより、次の機会に同じような状況(画像)がシステムに入ってきた場合に危険であるという出力を行い、ドライバに警告を与えることができる。また、本システムでは、リスクを確率的に取り扱っている。このことにより、似たような状況でもリスクが異なる場合や、得られている画像情報だけでは判断が出来ない本質的に確率的なリスクも取り扱うことが可能になる。
以下、図1を参照して本形態のオンラインリスク学習システムについて説明する。本形態におけるオンラインリスク学習システム1は、単一のコンピュータシステム或いはネットワーク等を介して接続された複数のコンピュータシステムで構成されている。車両100の外界環境を検出するセンサとしては、CCDやCMOS等の撮像素子を有するカメラ2を用いている。
このオンラインリスク学習システム1は、オフラインでの事前学習によるリスク認識機能を保持するベースユニット3、オンラインで学習したリスク認識機能を保持する学習ユニット4、ベースユニット3のリスク認識機能と学習ユニット4のリスク認識機能とを融合し、融合した認識機能でリスク認識を行う融合ユニット5を主要構成として備えている。ベースユニット3及び学習ユニット4は、それぞれのユニットの機能としてリスクレベルを算出するリスクレベル算出部33,43が備えられている。
また、オンラインリスク学習システム1は、各ユニット3,4,5に対するデータ計算用として、車両100の操作量からリスク学習における教師情報を作成し、学習ユニット4に送出する教師作成部6、車載カメラ2で撮像した画像の特徴量を抽出する画像特徴量抽出部7、画像特徴量を状態量に変換し、この状態量からリスク学習情報を融合ユニット5の認識結果に基づいて計算し、ベースユニット3及び学習ユニット4に送出する融合ユニット計算部8、画像特徴量からリスク学習の学習量を計算し、学習ユニット4に送出する学習量計算部9、ベースユニット3と学習ユニット4とを融合させるための融合計算を行う融合計算部10を備えている。
ベースユニット3と学習ユニット4は、基本的に同じ枠組みのリスク認識機能を有している。詳細は後述するが、本システムは、車載カメラ2で撮像した外界画像を主として抽出した特徴量を状態という量に変換してクラスタリングを行い、車両操作情報を教師として各状態に対するリスクの確率密度分布を学習したリスク分布テーブルを用いてリスクを認識する。本実施の形態においては、階層型ニューラルネットワークの一種である自己組織化マップ(SOM;Self-Organization Maps)を用いて、SOMの各ニューロンを状態として認識する。
すなわち、ベースユニット3及び学習ユニット4は、製品出荷時の初期状態では、それぞれ、事前学習で形成したSOMとリスク分布テーブルとを保有しており、一般的なユーザを想定した同じ認識性能、或いは個人の運転傾向に合わせる等して意図的に異なる認識性能を有するように設定されている。以下では、適宜、ベースユニット3が保有するSOM及びリスク分布テーブルをベースSOM31及びベースリスク分布テーブル32と記載し、学習ユニット4が保有するSOM及びリスク分布テーブルを学習SOM41及び学習リスク分布テーブル42と記載する。
市場におけるオンライン動作では、車両走行に伴うシステム稼働時間の経過と共に、学習ユニット4のみが学習を行い、学習SOM41及び学習リスク分布テーブル42がユーザの使用環境に合わせて適応的に更新される。一方、ベースユニット3は、一般的に想定される様々な状況に対して、所定の認識性能を確保するように事前学習されており、市場におけるオンライン動作に対して、あくまで事前学習で得た知識(ベースSOM31及びベースリスク分布テーブル32)を保持する。
この場合、ユーザが市街地走行に偏った運転をする、郊外での交通量の少ない環境での走行を主とする運転をするといったように、特定の走行環境に偏った運転を行うと、学習ユニット4で偏学習が生じる虞がある。この偏学習が生じると、ユーザの普段の使用環境と異なる走行環境に遭遇した場合、十分な認識性能を得られない可能性がある。
従って、本システムでは、事前知識を保持するベースユニット3の機能と、ユーザの使用環境に応じた学習の進行によって認識性能が変化する学習ユニット4の機能とを融合ユニット5で融合し、最終的に融合ユニット5でリスク認識を行うようにしている。すなわち、融合ユニット5に、ベースSOM31と学習SOM41とを融合した融合SOM51を持たせ、この融合SOM51の各ニューロンに対応するリスクレベルとの関係を保持する融合リスクレベルテーブル52から唯一のリスクレベルを算出する。
これにより、学習ユニット4で偏学習が生じた場合であっても、製品出荷時の初期の性能を維持するベースユニット3の認識性能をシステムに反映してリスク認識性能の低下を排除することができ、ユーザの使用環境に合わせて特化しつつ基本性能を維持することが可能となる。
以下、オンラインリスク学習システム1における各処理の詳細について、(A)車両操作情報から教師情報を生成する教師情報作成処理、(B)画像から特徴量を抽出する画像特徴量抽出処理、(C)画像特徴量を状態量に変換し、SOMの勝者ニューロンを決定する融合ユニット計算処理、(D)画像特徴量からSOMの学習量を計算するSOM学習量計算処理、(E)ベースユニット3のリスクレベル及び学習ユニット4のリスクレベルを計算するリスクレベル計算処理、(F)ベースユニット3と学習ユニット4とを融合させてリスクを認識する融合リスク認識処理の項目に分けて説明する。
(A)教師情報作成処理
教師作成部6は、学習ユニット4の学習リスク分布テーブルに対する教師情報を、車両操作情報に基づいて作成する。本形態では、車両操作情報からのリスク抽出に際しては学習を行わず、教師作成部6は、予め設定したルールを用いてドライバの操作情報からリスク情報を抽出するようにしている。このルールに従ったリスク情報の抽出処理においては、リスク情報をレベル付きの1次元データとして扱う。
具体的には、リスクのレベルを、例えば0〜10(整数値)の11段階とし、値が大きいほどリスクが高いことを表現する。但し、ここでのリスク情報は、30Hzの各フレーム毎といったように、一定時間毎にリスクを認識しようとするものではない。これは、実際のドライバの操作は、リスクだけにより行われているわけではなく、リスクに伴う操作を行う割合は、全走行中の例えば10%にも満たない一部であろうと考えられるからである。
すなわち、ドライバ操作データからのリスク情報の認識は、ドライバの操作行動に影響を与えるような、ある程度大きなリスクがあったときにのみ、それがわかることを第一の目標とする。そのため、リスク0に関しては、出力はリスクがないということだけでなく、教師情報がないということも表している。
また、リスク認識のルールは、できるだけ現実に合うように任意に設定するという立場を取り、以下の(1)〜(5)に示すルールを並列化して各条件の中で最も大きな値のリスクを教師リスクとする。
(1)急ブレーキを踏んだか
フレーム間のブレーキ圧力の差分に応じてリスクレベルを設定する。例えば、ブレーキ圧力の差分が1×102kPa以上ならリスク有り、1×102kPaでリスク5、1×103kPaでリスク10とし、リスク5とリスク10との間は、ブレーキ圧力の差分に応じて線形に設定する。
(2)ブレーキを強く踏んだか
所定の車速以上で、ブレーキ圧力に応じてリスクレベルを設定する。例えば、車速10km/h以上で、ブレーキ圧力が20×102kPa以上の場合はリスク10、ブレーキ圧力が10×102kPa以上の場合はリスク6、ブレーキ圧力が5×102kPa以上の場合はリスク2とする。
(3)急ハンドルを切ったか
ウインカーが出ていない状態で、フレーム間のハンドル角の差分の絶対値が設定値(例えば10deg)以上の場合、リスク5とする。
(4)アクセルを急に離したか
所定の車速以上で、フレーム間のアクセル開度の差分に応じてリスクレベルを設定する。例えば、車速5km/h以上でアクセル開度の差分が−1%以下の場合、リスク4とする。
(5)アクセルを踏んでいるか
加速中のアクセル開度に応じてリスクレベルを設定する。加速中であるか否かは、車速の微分値で判断し、車速の微分値0以上(加速中)でアクセル開度1%以下の場合、リスク2とする。
以上のルールは、当然ながら、追加・削除が可能であり、より現実に合うように調整することができる。また、以上のルールを自動生成するアルゴリズム、以上のルールに更にファジィ要素を取り入れる等して、「ドライバデータからのリスク認識の学習的獲得」を行うことも可能である。
(B)特徴量抽出処理
画像特徴量抽出部7は、車載カメラ2からの撮像画像を入力し、ノイズ除去、ゲイン調整、γ補正等のビデオプロセス処理を経て所定の階調のデジタル画像に変換し、この画像の特徴量を抽出する。すなわち、得られた画像から、エッジ情報、動き情報、色情報等の特徴量を抽出し、それらの情報をN次元ベクトルとして保持する。
尚、このN次元ベクトルには、画像特徴量以外の車両情報、例えば、車速やヨー角の変化といった情報も含めるようにしても良い。また、本形態で扱う画像データは、単眼のカラーカメラで撮像した画像とするが、赤外カメラから得られる画像やステレオカメラから得られる距離画像であっても良い。また、前述したように、レーザやミリ波等からの情報を用いることも可能であり、その場合、画像特徴量は、より一般的には、外界環境特徴量とも呼ぶべきものである。
この画像特徴量の抽出は、以降のリスク認識のためのデータ抽出であるが、一般に、リスク認識に相関がないデータは認識に悪影響を与える。つまり、この特徴量抽出処理においては、むやみに特徴量を増やすということは得策でなく、逆に、必要な特徴量を用いないことも精度を悪化させる。
そのため、どの特徴量を用いるべきかという特徴量選択が課題として発生するが、前述したように、特徴量選択については、それを学習的に得る場合は、以下に説明するリスク認識の上位の学習が必要になり、計算量・メモリ容量的にオンラインでの学習には不利である。
従って、本形態では、ここでの特徴量抽出部分は固定として扱う例について説明する。学習する場合には、システムの認識率を基準として評価し、各特徴量の組み合わせを最適化すれば良く、これには、組み合わせの全探索、遺伝的アルゴリズム(GA;Genetic Algorithm)等の発見的な探索法等、既存の最適化手法を用いることができる。
本形態においては、画像特徴量抽出部7で予め設定した種類の特徴量を抽出している。ここでは、処理を3つの要素に分け、各要素毎に設定した特徴量を抽出する。3つの要素は、前処理、特徴量計算、領域設定である。具体的には、以下に示すように、前処理で6種類、特徴量計算で10種類、領域設定で4種類のデータを抽出し、それらの組み合わせで計240(6×10×4)次元のデータを抽出する。
<前処理>
入力画像に対して、ソベル、縦方向ソベル、横方向ソベル、フレーム間差分、輝度、彩度の6種類のフィルタ処理を行い、6次元の特徴量データを抽出する。
<特徴量>
フィルタ処理された画像の画素値に対して、平均、分散、最大値、最小値、横方向重心、縦方向重心、コントラスト、均一性、エントロピー、フラクタル次元の10種類の計算処理を行い、10次元の特徴量データを抽出する。
<領域>
図2に示すように、画像内に領域A0を設定し、この設定領域A0の全体、設定領域A0内の左側の領域A1、右側の領域A2、中央の領域A3の4種類の領域について、4次元の特徴量データを抽出する。
尚、以上の240次元の特徴量は、オンラインシステムの演算性能に応じて、使用する次元を絞るようにしても良い。例えば、画像以外にも車両データも用いて、画面全体のソベルの平均、分散、画面全体のフレーム間差分の平均、分散、車速、ハンドル角の6次元の特徴量を抽出するようにしても良い。
また、以上の特徴量抽出処理においては、各特徴量は正規化しているが、理論上の範囲は非効率であるため、事前に各特徴量の分布を評価しておき、その評価結果を元に最大値及び最小値を設定し、0〜1の数値に正規化している。その場合、最大値・最小値を動的に変化させるようしても良く、例えば、最大値を超える値もしくは最小値を下回る値が入力された場合には、それぞれ範囲を拡大するように最大値・最小値を変更する。逆に、しばらく最小値、最大値付近のデータが入ってこなかった場合は、範囲を狭めるように変更する。
また、ここでは基本的な特徴量を用いたが、過去のフレーム情報を用いて動き情報を算出する等、特徴量の時系列的な変動を計算し、その情報を特徴量として用いることもできる。更に、全体としてのリスク認識の精度向上のためには、この特徴量抽出処理に高精度の画像処理を入れることもでき、例えば、歩行者認識結果、道路の白線認識結果、障害物認識結果等を含めて、ここでの抽出データに組み込むようにしても良い。このような意味では、本システムは、個々の外界認識結果を統合し、リスクを認識するシステムと捉えることもできる。
(C)融合ユニット計算処理
融合ユニット計算部8は、得られたN次元の特徴量ベクトルを1次元の状態という量に変換する。状態とは、入力された画像を走行している場所や、天候、走行状態などによりシーン分けしているイメージになる。実際には、オンライン学習時、今はどのシーンであるかを明示的に教師することはできないため、入力データを状態数Mのクラスにクラスタリングしている。つまり、状態の認識は、入力された画像特徴量データから状態という量を出力する識別器の機能によって処理される(但し、この識別器の出力は、1状態を確定せずに確率的に扱うこともできる)。
本処理における学習は、この識別器の内部構造を入力データ、教師データを用いて実環境に適応させることになるが、ここでの学習における教師は、この入力データがどの状態であるかを直接教えるのではなく、出力された状態から認識されるリスクを、できるだけ効率的に、且つ精度良く認識できるようにするものである。
識別器としての認識処理は、入力データに対してプロトタイプ型の識別処理を行う。ここで、状態番号をSとすると、各状態は代表値を持ち、これをprots(i)とする。状態代表値prots(i)は、N次元のベクトルであり、i=0,1,…,N−1となる。
入力データ(特徴量ベクトル)をIn(i)とすると、入力ベクトルは、以下の(1)式に示すように、状態代表値prots(i)との距離L(s)により求められ、どの状態に属するかが認識される。
L(s)=(Σi(prots(i)−In(i))2)1/2 …(1)
入力データの属する状態(状態番号)Kは、以下の(2)式に示すように、距離L(s)の最小値で求められ、入力ベクトルが一番近い状態代表値の状態であると認識される。
K=mins(L(s)) …(2)
図3は、N次元中の3次元に注目した場合を示しており、入力データは、状態S6より状態S1に近いため、S1の状態であると認識される。以上が基本的な状態認識となるが、これは入力データがどの状態であるかを確定させていることになる。
この場合、図3では、状態S1と状態S6とでは、距離はそれほど違いはないが、若干、状態S1との距離が近いことで、入力データは状態S1であると認識される。つまり、状態S1と状態S6との距離がほぼ同じ領域においては、認識が不安定になる可能性がある。
従って、更に拡張し、状態が確率的であるとして扱うことで、認識の不安定さを解消することができる。すなわち、入力データが状態sである確率をP(s)とすると、状態の確率は、距離L(s)を用いて、以下の(3),(4)式で求める。ここで、σはパラメータであり、小さくするほど状態を確定的にする効果がある。
P(s)=(exp(−L(s)/σ))/z …(3)
z=Σsexp(−L(s)/σ) …(4)
このように、状態を入力データとの距離に応じた尺度で確率的に決定した場合、以後の計算で全ての状態について計算する必要がある。従って、計算量を削減するため、一定値以下の確率は0とし、計算として扱わないようにしても良い。
尚、P(s)の定義において、s=Kのときだけ1、それ以外を0とすれば、状態を確定したときと同じになる。
各状態は、SOMの学習をベースとして代表値が更新され、学習ユニット4の学習SOM41が更新される。SOMは、M次元(通常は2次元)に並べられたニューロンが、それぞれベクトル値(通常入力との結線の重みと呼ばれる)を持ち、入力に対して勝者ニューロンがベクトルの距離を基準として決定され、ベースユニット3及び学習ユニット4に出力される。本実施の形態においては、融合ユニット5の融合SOM51を基準として勝者ニューロンが決定される。
(D)SOM学習量計算処理
学習量計算部9は、学習ユニット4が保持する学習SOM41に対して、融合SOM51の勝者ニューロンと同じ番号の勝者ニューロン及びその周辺のニューロンの参照ベクトル値が入力ベクトルに近づくよう、更新量を計算する。この計算を繰り返して、学習SOM41が入力データの分布を最適に表現できるように教師無しで学習してゆく。1次元SOMによる学習のイメージを、図4に示す。
本システムにおいては、SOMによる学習は、以下のようになる。但し、本システムにおいては、ニューロン(状態)は1次元につながっているものとする。勝者ニューロンの状態番号をKとすると、代表ベクトルprotsは、以下の(5)式に従って更新(学習)される。
prots(i)→prots(i)+α(In(i)−prots(i) …(5)
ここで、(5)式におけるαは、更新の重みを示す学習率係数であり、以下の(6)式で表される。
α=a・b(t)・c(D(s,K),t)・e(t) …(6)
但し、a :学習係数
b :時間減衰係数
c :領域減衰係数
D(s,K):更新対象のニューロンと勝者ベクトル間のつながりにおける距離
e :教師情報係数
(6)式における各パラメータa,b,cは、通常のSOMでも用いられるパラメータであり、時間減衰係数bは、学習経過時間t(通常何回目の更新かを表す)の関数であり、一般には時間tの増加につれ減衰する。また、距離D(s,K)は、特徴量空間上での距離ではなく、例えば、図4においては、勝者ニューロンの隣のニューロンは距離1、その隣は距離2となる。
一方、領域減衰係数cは、その距離D(s,K)の関数であり、距離D(s,K)が大きくなる程、値が小さく、ある一定以上の距離D(s,k)については更新されないように設定される。また、領域減衰係数cは、時間tの関数でもあり、時間tが大きくなる程、値が小さくなる。更に、本システムでは、教師情報を示す教師情報係数e(t)を導入するが、これについては後述する。
このように、SOMの学習アルゴリズムでは、学習初期は、広範囲のニューロンが入力データに近づくように更新され、学習が進むにつれ、更新されるニューロン数、更新量とも少なくなり、最終的には、学習率係数α(更新の重み)が0になり、学習が終了する。尚、初期状態では、通常、ニューロンはベクトル空間上の中心付近にランダムに配置される。
図5に、学習後のSOMの分布例を示す。実際の特徴量空間は240次元であるが、図5では、そのうちの3次元のみを表しており、グラフの各点が入力データを示している。実際には、各点は色つきの点として表現され、色によってリスクの大きさを表している。黒い点が各状態の代表ベクトルで、それらを結ぶ黒線がSOMのつながりである。
以上では、入力データの分布を最適に表現できる学習法について述べてきたが、実際に求められるのは、リスクを認識する上で入力データの分布を最適に表現できることである。SOMは、本来、教師なしの学習法(入ってきたデータを均等に扱い学習していく)であるが、本システムにおいては、リスクを認識する上での効率的な学習として、前述の教師情報係数e(t)によるリスク情報を与えた学習を行う。
詳細は後述するが、リスクは、認識した状態のリスク確率という形で認識される。これは、その状態が、リスクをどの程度の確率で持つかということを表したものである。具体的な学習法としては、時刻tでの入力データがドライバ情報から得られたリスクレベルRという教師情報を持つ場合、認識された状態が持つリスク確率においてリスクレベルRの確率が高ければ教師情報係数e(t)を大きくし、小さければ、教師情報係数e(t)を小さくする。また、教師情報が得られない場合には、教師情報係数e(t)を小さくするという処理にする。
これにより、学習を進めるうちに、認識された状態は、そのときのリスクを高確率で持つようになり、つまりはリスクの認識精度が上がっているということになる。具体的な教師情報係数e(t)の設定は、次のリスク認識処理において説明する。
また、状態を確率的に求めた場合の学習については、勝者ニューロンを確率に応じた重みで表現し、その重みに応じた更新量により更新を行う。但し、計算量が増大するという問題があるので、本システムでは、学習時については、勝者ニューロンを入力データに一番近い状態に確定させて学習を行っており、一定値以下の確率の状態については、自身を勝者とする更新は行わない。
(E)リスクレベル計算処理
ベースユニット3及び学習ユニット4は、各リスクレベル算出部33,43において、状態量に応じたリスクレベルを、それぞれのリスク分布テーブル32,42を参照して計算する。前述したように、各状態はそれぞれリスク確率分布を持つため、状態sでのリスクの確率分布をp(R│s)と表すことにする。尚、ここでのリスクは、教師作成部6でのリスクと対応しており、11段階のレベルに分けているので、リスクレベルRとリスク確率(分布)p(R│s)とは、例えば図6に示すような関係で表される。
リスク出力は、基本的にこのリスク確率p(R│s)を出力することになるが、出力結果を例えば警報や表示などに使う場合には、確率分布のままでは使いにくいため、リスクレベルとしては、以下の(7)式で示される期待値Eを計算する。
E=ΣRR・p(R│s) …(7)
また、状態を確率的に取り扱った場合、期待値Eは、以下の(8)式のようになる。
E=ΣsΣRP(s)・R・p(R│s) …(8)
リスク確率は、学習ユニット4にて学習され、逐次更新される。基本的には、リスク確率は過去に経験したリスクレベルの頻度分布を用いて算出するが、本システムは、オンライン学習なので無限遠過去のデータまで持つことは難しく、また遠い過去の経験に現在と同じ重要度を持たせることは好ましくないと考えられる。従って、ここでは、以下の方法でリスク確率を更新する。
時刻tでの状態stのリスク確率をpt(R│st)としたとき、以下の(9)式に従って、リスク確率を更新する。
t+1(R│st)=pt(R│st)+β…(9)
更に、リスク確率pt+1(R│st)は、以下の(10)式に従って正規化する。
t+1(R│st)←pt+1(R│st)/ΣRt+1(R│st) …(10)
尚、状態の更新は、その時刻の状態のみである。また、状態を確率的に扱う場合は、各状態においてβをp(st)・βとして計算する。ここで、βは定数であり、この値が大きいほどより現在の情報を重要視することになる。
ここで、与えられる教師リスクについては、教師作成部6の説明で述べたように、各フレーム毎に得られるとは限らない。リスクレベルが高い場合には、ドライバデータからリスク情報が得られる場合が多いが、リスクレベルが低い場合には、特に教師情報が得られる可能性が小さくなってしまうという問題がある。
この問題に対して、本システムでは、教師リスク情報を時間軸方向で伝播させることで対処するようにしている。これは、ある時刻に教師リスク情報が得られた場合は、その前の時刻もその時刻と同じではないまでも危険であるという因果関係に基づくものであり、この因果関係を用いて教師リスク情報を伝播させる。
この場合、過去に情報を伝播させるには、伝播させる分のすべての過去の状態遷移を記憶している必要があるが、リアルタイムでの学習を前提としたとき、記憶容量と計算量がネックとなる。そこで、本システムでは、強化学習の際に用いられるTD(Temporal Difference)誤差を考慮した伝播により、リスク確率を更新している。
強化学習は、その時々の状態に対しての明示的な行動の指示ではなく、行った行動に対しての報酬によって学習を行い、この先得られるであろう報酬の総和が最大となる行動をその時々で選択する学習法であり、時刻tにおける実際の報酬と報酬の予測値の差をTD誤差(TD-ERROR)と呼び、これを0とするように学習が行われる。本システムのリスク情報は、この強化学習の報酬に相当し、図7に示すように、或るシーンでの状態遷移を考えると、状態S1に至る状態S2,S7,…にもリスクがあるはずであると考えられ、リスク情報の伝播を行う。
この場合、伝播は、現在の状態から一つ前のフレームへ伝播させるだけで良く(つまり計算も記憶も1フレーム前との関係だけ扱えば良い)、一回の経験では、リスク情報は充分な過去まで伝播しないものの、同じような経験を繰り返すことで、徐々にリスク情報が伝播し、その因果関係を学習することができる。また、リスク情報の伝播は、図8に示すように、同じリスクレベルの時刻tの状態Stから時刻t−1の状態St-1への伝播のみではなく、異なるリスクレベルの状態間においても伝播させるようにする。但し、リスクレベル0は、リスクがないという他に、リスク情報がないという場合も含むため、伝播はさせない。
伝播によるリスク確率p(r│st-1)の更新は、以下の(11)式によって行われる。
p(r│st-1)=p(r│st-1)+η・(RI(r)+γ・p(r│st)−p(r│st-1))
+h・η・(γ・p(r−1│st)−p(r−1│st-1))
+h・η・(γ・p(r+1│st)−p(r+1│st-1)) …(11)
但し、h:リスクレベル方向の伝播の大きさを表すパラメータ
γ:時系列の伝播の大きさを表すパラメータ
η:一回の学習での更新の大きさを表すパラメータ
ここで、時刻tで得たリスク情報を、リスクレベルrを用いてRI(r)と表している。前述したように、教師作成部6で扱うリスク情報は、0〜10の11段階の中の或る一つのリスクレベルに対して得られるものとしている。すなわち、時刻tで得られたリスク情報がリスクレベルQとすると、(12),(13)式のように表される。
RI(r)=1 (r=Q) …(12)
RI(r)=0 (r≠Q) …(13)
一方、このリスク学習におけるリスク情報RI(r)は、図9に示すように、実際はそのリスクレベル付近のリスクも存在すると考えて拡張を行っている。この拡張は、具体的には、隣のリスクレベルをパラメータg(g<1)を用いてg倍、そのまた隣のリスクレベルをg*g倍するという操作を行っており、この操作には、限られた教師データをさらに有効に使えるという効果がある。また、リスクレベル方向の伝播の大きさを表すhは通常、リスク情報の拡張に用いたgと同じ値としている。
リスク確率の更新後は、融合ユニット計算部8における学習処理で用いた教師情報係数係数e(t)を設定する。この教師情報係数e(t)は、以下の(14),(15)式に従って設定される。時刻tで教師作成部6から得られるリスク情報をRを用いて、
R≠0のとき、
e(t)=10・R・p(R│st) …(14)
R=0のとき、
e(t)=const …(15)
R=0のときは、教師情報が入らなかったときに相当するが、その場合は、教師情報係数e(t)は、定数constすなわち固定値のゲインになる。この値は、教師リスクが得られる確率により決定され、教師ありの学習データ数と教師なしの学習データ数との比率に基づいて設定される。本システムにおいては、経験則として、教師ありの学習データ数=教師なしの学習データ数となるように定数constを設定し、const=0.01としている。
教師情報が入った場合は、その確率が高い程、またリスクレベルが大きい程、強く学習される。これにより、実際に起こった事象に対して、認識する確率が小さい場合は、その状態の認識が間違っている可能性が高いことを示し、学習が弱くされる。その状態の代表ベクトルは、同じ状態を認識し、リスクの確率が高かったデータに近づくような学習が行われる。そして、そのような学習が続くことで、その入力データは他の状態と認識されやすくなり、間違っている可能性の高い状態を認識しにくくなる。このようにして全体としての状態認識、リスク認識が最適化される。
(F)融合リスク認識処理
ベースユニット3によるリスクレベル(以下、「ベースリスクレベル」と記載)と学習ユニット4によるリスクレベル(以下、「学習リスクレベル」と記載)は、融合計算部10において所定の比率(融合率)αfで融合され、融合ユニット5に送出される。具体的には、融合ユニット5へ出力されるリスクレベルは、ベースリスクレベルと学習リスクレベルとを融合率αfで加重平均する等して算出される。
また、融合計算部10は、学習ユニット4の学習SOM41が更新される毎に、ベースユニット3のベースSOM31と学習ユニット4の学習SOM41との2つのSOMを融合し、融合ユニット5の融合SOM51を更新する。この2つのSOMの融合は、ベースSOM31と学習SOM41との対応する勝者ニューロンを融合率αfで融合させ、この融合された勝者ニューロンに従って各ニューロンを更新することで行われる。
その際の融合率αfは、学習SOM41の勝者ニューロンの学習回数、ベースSOM31のパラメータと学習SOM41のパラメータとの類似度、更には、学習回数と類似度との組み合わせに応じて制御される。以下では、図10に示す融合率及び融合パラメータ計算処理のフローチャートを用いて、学習回数に応じて融合率を算出し、その融合率に基づいてSOMの融合パラメータを算出する例について説明する。
この処理では、先ず、ステップS1において、学習SOM41の勝者ニューロン番号を入力し、図11に示すように、n個のニューロンの学習回数のヒストグラムを更新する。次に、ステップS2へ進み、更新したヒストグラムを用いて、勝者ニューロンの学習回数に応じて各ニューロン毎の融合率αfi(i=1,2,…,n:0≦αfi≦1)を算出する。
例えば、図12に示すように、融合率αfは、学習回数と融合率αfとの関係を示すテーブルを予め作成しておき、このテーブルを参照して算出する。図12のテーブルでは、徐々に融合率を高めることでオンライン学習を安定的に動作させるよう、学習回数が所定の設定回数NLに達するまで融合率αfを直線的に大きくし、学習回数が設定回数NLに達した後は、融合率αfを一定値αfL(例えば、αfL=0.5)とする特性に設定されている。
ステップS2で融合率αfを算出した後はステップS3へ進み、融合SOM51のパラメータCiを計算する。この融合SOM51のパラメータCiは、以下の(16)式に示すように、ベースSOM31が持つニューロンのパラメータBiと学習SOM41が持つニューロンのパラメータLiとを、融合率αfiで重み付けして算出する。
Ci=(1−αfi)・Bi+αfi・Li …(16)
これにより、融合ユニット5内では、事前学習結果を維持するベースSOM31とオンラインの学習結果を反映した学習SOM41とが融合され、この融合SOM51と融合リスクレベルとの関係に基づいて唯一のリスクレベルが決定され、車両1の表示装置等に出力される。
以上の処理によるリスク認識結果の出力例を図13に示す。図13(a)〜(d)は、車載カメラから得られた画像に、認識結果を表示したシステムの出力画像であり、認識したリスクの大きさを、各画面の下部のバーグラフB1〜B4で表している。このバーグラフB1〜B4で表される認識リスクは、前述したリスク確率の期待値を示しており、その上に表示される数字は、認識した状態番号である。
図13(a),(b)に示す2枚の画像は、歩行者や対向車等が近くにおらず、リスクが低いと思われるシーンであり、また、図13(c),(d)に示す2枚の画像は、それぞれ、道幅の狭い片側一車線道路で対向車が存在し、道幅が更に小さくなっているシーン、交差点での左折シーンであり、リスクとしては、図13(a),(b)のシーンよりリスクが高いと思われるシーンである。
ここで、「リスクが低い(高い)と思われる」と記載したのは、それぞれの画像がいくつのリスク値であるという絶対的な値は存在しないためである。本システムの認識結果を見ると、図13(a),(b)のシーンよりも、図13(c),(d)のシーンの方がリスクが高いと認識できていることがわかる。
このように本実施の形態においては、ベースユニット3で保持される事前学習結果と、学習ユニット4で保持されるオンライン学習結果とを融合し、融合結果を融合ユニット5で保持して最終的なリスク認識を行う。これにより、事前知識の忘却を回避して偏学習による認識性能劣化を防止することができ、オンライン学習を安定的に動作させてリスク認識処理の信頼性と性能を向上させることができるばかりでなく、ユーザの使用環境に合わせて特化しつつ基本性能を確保することができる。
しかも、リスク認識における学習を、融合ユニット5にて決定されたSOMのニューロンと同じ番号の学習ユニット4内のニューロンについて行ない、勝者ニューロンの決定を学習ユニット4にて並列に行なわないため、計算コストを削減することができる。また、勝者ニューロンの番号に食い違いが生じることがなく、偏学習による認識性能劣化を回避することができる。
次に、本発明の実施の第2形態について説明する。第2形態は、第1形態の融合ユニット5を省略し、ベースユニット3’と学習ユニット4’を並列動作させるものである。
すなわち、図14に示すように、第2形態においては、ベースユニット3’は、第1形態と同様のベースSOM31とベースリスク分布テーブル32とリスクレベル算出部33とを備え、更に、ベースリスクレベルテーブル34を備えている。また、学習ユニット4’は、第1形態と同様の学習SOM41と学習リスク分布テーブル42とリスクレベル算出部43とを備え、更に、学習リスクレベルテーブル44を備えている。
また、第2形態では、第1形態の融合ユニット計算部8を、ベースユニット3’と学習ユニット4’のそれぞれに対する専用のデータ計算用として、ベースユニット計算部11と学習ユニット計算部12とに分離し、更に、ベースユニット3から出力されるベースリスクレベルと学習ユニット4’から出力される学習リスクレベルとを融合する融合計算部13を備えている。その他、教師作成部6、画像特徴量抽出部7、学習量計算部9は、第1形態と同様である。
第2形態においては、ベースユニット3’と学習ユニット4’とが並列に動作し、それぞれから、ベースリスクレベル、学習リスクレベルが出力される。各ユニットの動作は、第1形態と同様であるが、学習処理は、学習ユニット4’にて決定された勝者ニューロンを用いて行なうこととなる。各ユニット3’,4’から出力されるベースリスクレベルと学習リスクレベルは、第1形態と同様、融合率αfで融合され、唯一のリスクレベルとして出力される。
第2形態においても、第1形態と同様、事前知識の忘却を回避して偏学習による認識性能劣化を防止することができる。更に、第2形態では、ベースユニット3’と学習ユニット4’とが並列に計算を行うため、第1形態に比較して計算が冗長になる傾向があるものの、システム構成を単純化することができる。
1 オンラインリスク学習システム
3 ベースユニット
4 学習ユニット
5 融合ユニット
8 融合ユニット計算部
10 融合計算部
αf 融合率

Claims (6)

  1. 移動体の外界環境を検出し、この外界環境に含まれるリスクを学習的に認識するオンラインリスク学習システムであって、
    上記リスクの事前学習結果を保持するベースユニットと、上記リスクのオンラインでの学習結果を保持する学習ユニットとを備え、
    上記ベースユニットによるリスクレベルと上記学習ユニットによるリスクレベルとを所定の融合率で融合し、オンラインでの唯一のリスクレベルとして出力することを特徴とするオンラインリスク学習システム。
  2. 上記融合率を、上記学習ユニットの学習回数に応じて制御することを特徴とする請求項1記載のオンラインリスク学習システム。
  3. 上記融合率を、上記ベースユニットの学習パラメータと上記学習ユニットの学習パラメータとの類似度に応じて制御することを特徴とする請求項1記載のオンラインリスク学習システム。
  4. 上記融合率を、上記学習ユニットの学習回数と、上記ベースユニットの学習パラメータと上記学習ユニットの学習パラメータとの類似度とを組み合わせて制御することを特徴とする請求項1記載のオンラインリスク学習システム。
  5. 上記ベースユニットの事前学習結果と上記学習ユニットのオンライン学習結果とを融合して保持する融合ユニットを設け、該融合ユニットから上記唯一のリスクレベルを出力することを特徴とする請求項1〜4の何れか一に記載のオンラインリスク学習システム。
  6. 上記ベースユニットと上記学習ユニットとを並列動作させ、各ユニットから出力されるリスクレベルを上記融合率で融合して上記唯一のリスクレベルとして出力することを特徴とする請求項1〜4の何れか一に記載のオンラインリスク学習システム。
JP2009152715A 2009-06-26 2009-06-26 オンラインリスク学習システム Expired - Fee Related JP5547913B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009152715A JP5547913B2 (ja) 2009-06-26 2009-06-26 オンラインリスク学習システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009152715A JP5547913B2 (ja) 2009-06-26 2009-06-26 オンラインリスク学習システム

Publications (2)

Publication Number Publication Date
JP2011008613A true JP2011008613A (ja) 2011-01-13
JP5547913B2 JP5547913B2 (ja) 2014-07-16

Family

ID=43565170

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009152715A Expired - Fee Related JP5547913B2 (ja) 2009-06-26 2009-06-26 オンラインリスク学習システム

Country Status (1)

Country Link
JP (1) JP5547913B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242517A (ja) * 1998-02-24 1999-09-07 Kooda Denshi Kk 診断装置
JP2005078516A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 並列学習装置、並列学習方法及び並列学習プログラム
JP2008537707A (ja) * 2005-03-17 2008-09-25 コンティネンタル・テーベス・アクチエンゲゼルシヤフト・ウント・コンパニー・オッフェネ・ハンデルスゲゼルシヤフト 車両の姿勢安定制御方法及びその装置
JP2008238831A (ja) * 2007-03-23 2008-10-09 Fuji Heavy Ind Ltd オンラインリスク学習システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11242517A (ja) * 1998-02-24 1999-09-07 Kooda Denshi Kk 診断装置
JP2005078516A (ja) * 2003-09-02 2005-03-24 Advanced Telecommunication Research Institute International 並列学習装置、並列学習方法及び並列学習プログラム
JP2008537707A (ja) * 2005-03-17 2008-09-25 コンティネンタル・テーベス・アクチエンゲゼルシヤフト・ウント・コンパニー・オッフェネ・ハンデルスゲゼルシヤフト 車両の姿勢安定制御方法及びその装置
JP2008238831A (ja) * 2007-03-23 2008-10-09 Fuji Heavy Ind Ltd オンラインリスク学習システム

Also Published As

Publication number Publication date
JP5547913B2 (ja) 2014-07-16

Similar Documents

Publication Publication Date Title
CN108725440B (zh) 前向碰撞控制方法和装置、电子设备、程序和介质
CN111133447B (zh) 适于自主驾驶的对象检测和检测置信度的方法和系统
JP2011014037A (ja) リスク予測システム
JP7140922B2 (ja) マルチセンサデータ融合方法、及び装置
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
KR102313773B1 (ko) 신경망 학습에 기반한 입력 처리 방법 및 이를 위한 장치
JP5185554B2 (ja) オンラインリスク学習システム
JP5572339B2 (ja) オンラインリスク認識システム
Kumar et al. Learning-based approach for online lane change intention prediction
EP4152204A1 (en) Lane line detection method, and related apparatus
US11364899B2 (en) Driving assistance method and system
JP2022516288A (ja) 階層型機械学習ネットワークアーキテクチャ
US11242050B2 (en) Reinforcement learning with scene decomposition for navigating complex environments
JP2009096365A (ja) リスク認識システム
JP2011003076A (ja) リスク認識システム
CN114266889A (zh) 图像识别方法及其装置、可读介质和电子设备
CN113435356B (zh) 一种克服观察噪声与感知不确定性的轨迹预测方法
JP7350188B2 (ja) 運転支援装置、学習装置、運転支援方法、運転支援プログラム、学習済モデルの生成方法、学習済モデル生成プログラム
JP5547913B2 (ja) オンラインリスク学習システム
US20220383510A1 (en) Method For Training A Neural Network For Semantic Image Segmentation
JP6905433B2 (ja) 車両行動予測装置、車両行動予測方法および車両行動予測用のニューラルネットワークの学習方法
Aboah et al. Ai-based framework for understanding car following behaviors of drivers in a naturalistic driving environment
JP2010267134A (ja) リスク認識システム
EP4002270A1 (en) Image recognition evaluation program, image recognition evaluation method, evaluation device, and evaluation system
Seiya et al. Point grid map-based mid-to-mid driving without object detection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120330

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130718

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140217

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140422

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140516

R150 Certificate of patent or registration of utility model

Ref document number: 5547913

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees