JP6453025B2 - ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識 - Google Patents

ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識 Download PDF

Info

Publication number
JP6453025B2
JP6453025B2 JP2014207702A JP2014207702A JP6453025B2 JP 6453025 B2 JP6453025 B2 JP 6453025B2 JP 2014207702 A JP2014207702 A JP 2014207702A JP 2014207702 A JP2014207702 A JP 2014207702A JP 6453025 B2 JP6453025 B2 JP 6453025B2
Authority
JP
Japan
Prior art keywords
image
driver
test
group
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014207702A
Other languages
English (en)
Other versions
JP2015076104A (ja
Inventor
サラット、トレヴァー
フジムラ、キクオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2015076104A publication Critical patent/JP2015076104A/ja
Application granted granted Critical
Publication of JP6453025B2 publication Critical patent/JP6453025B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

本開示は、一般的には動作認識、具体的には車両内の運転者の動作を認識することに関するものである。
運転者が利用でき制御も可能な、車両機能や特徴が近年進化している。多くの車両は、それを利用して関連情報を読み出し中継することによって運転者を支援する統合コンピュータシステムを備えている。しかし、現行の車両システムは、任意の時点での運転者の動きについてほとんど、あるいはまったく理解していないため、運転者に最も安全で最も都合の良い時間に通知を出せないことがある。例えば、統合コンピュータシステムからの通知が、運転者がバックミラーの調整をしたり小物入れに手を伸ばすなどの動作を実行中に出された場合、運転者はその通知に気付かない可能性がある。
持続型コンピュータ可読記憶媒体と方法を用いて、車両内運転者の画像に対し動作認識が行なわれる。コンピュータシステムが、車両内運転者の画像を受信する。複数の決定木を含むランダムフォレストモデルがアクセスされる。ランダムフォレストモデルを用いて、複数の予測が生成される。各予測は、複数の決定木のうちの一つによって生成され、各予測は、予測される運転者動作と信頼度スコアを含む。複数の予測は、複数のグループにグループ化され、その複数のグループの各々が運転者動作のうちの一つと関連付けられている。信頼度スコアは各グループ内で合算されて、各グループに関連付けられた合計スコアを決定する。最も高い合計スコアと関連付けられた運転者動作が選択される。
別の実施形態では、本方法は、動作認識のためにランダムフォレストモデルを学習し、この場合にランダムフォレストモデルは複数の決定木を含む。コンピュータシステムは、複数の学習用画像を受信する。各学習用画像は、車両内部で行なわれる運転者動作を示し、行なわれている運転者動作を識別する名前を有している。複数の決定木のうちの一つである親ノードに対応するテストが生成され、この場合にテストは、一つ以上のテストパラメータを含む。このテストは、各学習用画像に対して適用されて、各学習用画像を少なくとも第一画像グループと第二画像グループを含む複数の画像グループに分類する。コンピュータシステムは、第一画像グループのエントロピー値が閾値未満であるかどうか判定する。エントロピー値が閾値未満であると判定することに応答して、コンピュータシステムは、第一画像グループに基づいて予測を生成し、当該親ノードの一つの子ノードとして、この予測と関連付けられた葉ノードが生成される。この予測は、運転者動作と信頼度スコアを含む。第一画像グループのエントロピー値が閾値未満でないと判定することに応答して、当該親ノードの一つの子ノードとして、第一画像グループと関連付けられた枝ノードが生成される。
本明細書に記載の特徴および優位点は、全てを含むものではなく、具体的には、図面、明細書および特許請求の範囲に鑑みて、当業者には、多くの追加的な特徴および優位点が明らかであろう。また、明細書で使用される言葉遣いは、主として、読みやすさと教育目的のために選択されたものであり、本発明の主題を詳説したり限定したりするために選択されたものではないことに留意すべきである。
本開示の教示は、添付の図面と併せて以下の詳細な説明を熟慮することによって容易に理解することができる。
一つの実施形態に係る、例示的な学習環境を示している。 一つの実施形態に係る、動作認識モジュールのさまざまな実施形態のための例示的な車載コンピュータ環境を示している。 一つの実施形態に係る、動作認識モジュールの構成要素を示すブロック図である。 一つの実施形態に係るランダムフォレストモデルを示している。 一つの実施形態に係る、ランダムフォレストモデルを学習するための学習処理を示すフローチャートである。 一つの実施形態に係る、運転者がある動作を行なっているのを捉えた3D画像を示している。 一つの実施形態に係る、3D画像例で選択された二つの領域を示している。 一つの実施形態に係る、ランダムフォレストモデルを用いて、車両環境内の画像に映った個人によって行なわれる動作を予測する処理のフローチャートを示している。 一つの実施形態に係る、ランダムフォレストモデルを用いて、車両環境内の画像に映った個人によって行なわれる動作を予測する処理例を示している。 一つの実施形態に係る、車両環境内の画像に映った個人によって行なわれる動作の予測を複数生成するためのプロセスを示すフローチャートである。
それでは、添付の図面を参照しながら実施形態を説明する。同じ参照番号は同一または機能的に類似の要素を示している。また、図面において、各参照番号の最も左の桁は、その参照番号が最初に用いられる図に対応している。
<概説>
動作認識システムは、ランダムフォレストモデルを用いて運転者の動作を認識し、運転者の三次元(3D)画像を、その3D画像が取り込まれたときに運転者が行なっていた動作に基づいて分類する。動作として含まれるのは、例えば、通常の運転動作、中央部小物入れに手を伸ばす動作、小物入れに手を伸ばす動作、頭上小物入れに手を伸ばす動作、ラジオの調整をする動作、電話で話す動作、食事する動作、飲み物を飲む動作、文字入力動作、地図を読む動作、化粧品を塗る動作、手を振る動作、後部座席に手を伸ばす動作、ミラーを調整する動作、および運転者が行なう他の一般的な動作である。
学習段階では、ランダムフォレストモデルは、名前の付いた一連の学習用画像から得られる。ランダムフォレストモデルは、複数の決定木を含む。作動中、3Dカメラが運転者の3D画像を取り込み、動作認識システムが、学習段階で得た各決定木を3D画像に適用し、各決定木は、3D画像によって取り込まれた動作の個別予測を生成する。各決定木からの予測には、その予測と関連付けられる信頼度を示す信頼度スコアも含まれる。ランダムフォレストモデルの各決定木に対して予測を生成した後、動作認識システムは、各運転者動作に係る信頼度スコアを合算し、最高の総合スコアを有する運転者動作を選択する。
<システムおよび学習環境>
図1Aは、さまざまな実施形態のための例示的な学習環境100を示している。例示的な学習環境100には、学習システム102が含まれる。学習システム102は、一連の学習用画像108を入力として受信する。学習用画像108には、学習システム102が学習することになる、運転者が車両環境でさまざまな動作を行なっている画像が含まれる。開示された処理は、車両の乗客または他の被験体にも適用することができる
各学習用画像には、画像が取り込まれたときに行なわれていた動作を示す運転者動作の名前が付いている。学習用画像108に基づいて、学習システム102は、学習用画像を動作とマッピングするランダムフォレストモデル110を生成する。
学習システム102には、メモリ104およびプロセッサ106が含まれる。メモリ104には、学習システム102に起因する機能を実行するためのコンピュータ実行可能命令を格納する持続性コンピュータ可読記憶媒体が含まれる。メモリ104は、さらに、学習用画像108、ランダムフォレストモデル110、または、学習処理の間に生成された他の中間データを格納してもよい。プロセッサ106は、データ信号を処理し、複合命令セットコンピュータ(CISC)アーキテクチャ、縮小命令セットコンピュータ(RISC)アーキテクチャ、または複数の命令セットを組み合わせたものを実現するアーキテクチャを含むさまざまなコンピュータアーキテクチャを含んでいてもよい。図1Aには一台のプロセッサしか示されていないが、複数のプロセッサが含まれていてもよい。これらのプロセッサには、演算論理ユニット、マイクロプロセッサ、汎用コンピュータ、または、メモリ104および、本願の図に示されているものも示されていないものも含めた他のデバイスから電子データ信号を送信し、受信し、処理するように装備された他の情報機器を含めることができる。
作動中、プロセッサ106は、メモリ104に格納された命令を読み込んで実行し、本明細書に記載の学習処理を実行する。学習システム102によって実行されるプロセスの実施形態については、図4に関連して以下でさらに詳細に説明する。
図1Bは、さまざまな実施形態のための例示的な作動環境120を示している。例示的な作動環境120には、車載コンピュータシステム122が含まれる。一つの実施形態では、車載コンピュータシステム122は、動作を行なっている運転者の三次元(3D)画像112およびランダムフォレストモデル110に基づいて、運転者の動作の最終予測114を生成する。例えば、車載コンピュータシステム122は、運転者の画像を捉えて、運転者が、文字入力しているのか、小物入れに手を伸ばしているのか、ミラーを調整しているのかどうかなどを予測する。
車載コンピュータシステム122には、メモリ124およびプロセッサ128が含まれる。メモリ124には、車載コンピュータシステム122に起因する機能を実行するためのコンピュータ実行可能命令を格納する持続性コンピュータ可読記憶媒体が含まれる。プロセッサ128は、データ信号を処理し、複合命令セットコンピュータ(CISC)アーキテクチャ、縮小命令セットコンピュータ(RISC)アーキテクチャ、または複数の命令セットを組み合わせたものを実現するアーキテクチャを含むさまざまなコンピュータアーキテクチャを含んでいてもよい。図1Bには一台のプロセッサしか示されていないが、複数のプロセッサが含まれていてもよい。これらのプロセッサには、演算論理ユニット、マイクロプロセッサ、汎用コンピュータ、または、メモリ124および、本願の図に示されているものも示されていないものも含めた他のデバイスから電子データ信号を送信し、受信し、処理するように装備された他の情報機器を含めることができる。作動中、プロセッサ128は、メモリ124に格納された命令を読み込んで実行し、本明細書に記載の認識処理を実行する。
例示的な作動環境120には、カメラシステム130およびマイクロフォン132のような入力装置も含まれる。一つの実施形態では、カメラシステム130には、車両内から物理的信号を取り込むセンサ(例えば、飛行時間型カメラ、赤外線センサ、伝統的なカメラ、等)が含まれる。カメラシステム130は、車両内に配置されて、運転者の姿態を取り込む。カメラシステム130は、一つの取り込み領域(例えば、運転席)に焦点を当てたものであって、広い視野を持ち車両の複数の乗員からの信号を受信することができる、または、その視野を変えて別の乗員位置から信号を受信することができる、単一のカメラであるものとする。一つの実施形態においては、カメラ130は、深度データを含む3D画像を取り込む。
物理的信号を取り込んだ後、カメラシステム130は、物理的信号を表すデータ信号を出力する。データ信号のフォーマットは、物理的信号を取り込むために使用されたセンサーの種類に基づいて変化し得る。例えば、従来のカメラセンサを使用して物理的信号の視覚的表現を取り込んだ場合、データ信号は、画像または一連の画像(例えば、ビデオ)であるものとする。異なるタイプのセンサが使用される実施形態においては、データ信号は、物理的信号のより抽象的なまたはより高いレベルの表現である。一つの実施形態では、カメラシステム130は、三角測量と立体視または飛行時間型のような技術を使って深度データを提供する、二台以上のカメラを含む。
マイクロフォン132は、車両内から音声信号を取り込むものとする。一つの実施形態では、マイクロフォン132は、特定の位置(例えば、運転者の位置)から発せられる音には他の位置(例えば、他の乗員)よりも敏感であるように、配置することができる。例えば、マイクロホン132は、運転席内に配置してもよいし、運転席に向けて、天井、ヘッドレスト、ダッシュボードまたは他の車両内・車両上の場所に取り付けることもできる。
動作認識モジュール138は、メモリ124内のコンピュータ命令を表し、ここで、命令とは、ランダムフォレストモデル110を生じさせて車両内の運転者によって行なわれる動作の予測を決定するためのものである。プロセッサ128は、メモリ124内にある動作認識モジュール138のコンピュータ命令にアクセスし、取り込まれた3D映像を使用してランダムフォレストモデル110を生じさせて、運転者が行なっている動作の予測を生成する。予測に関連するフィードバックは、以下の段落においてより詳細に説明される一つ以上の出力装置を使って出力されるものとする。別の実施形態では、車両コンピュータシステム122は、動作認識モジュール138からのフィードバックを使用して、他のシステム機能を修正する。例えば、車載コンピュータシステム122は、運転者に通知を見過ごさせてしまうおそれのある動作を運転者が行なっている場合、または運転者がすでに気を取られているため通知すると危険になる場合(例えば、運転者が小物入れに手を伸ばしているとき)、コマンドを送信して通知を遅らせる。
作動環境120には、ディスプレイ134およびスピーカ136のような出力装置も含まれる。ディスプレイ134は、映像信号を受信して表示する。ディスプレイ134は、車両内に組み込まれるものとする(例えば、中央コンソールに液晶画面、フロントガラス上にHUD)。一つの実施形態では、ディスプレイ134は、ユーザが車両内のさまざまな構成要素の設定を変更することができるユーザインタフェースを提示する。スピーカ136は、音声信号を受信して再生する。ディスプレイ134と同様に、スピーカ136は車両に組み込まれるものとする。
さまざまな実施形態において、車載コンピュータシステム122は、異なるまたは追加の構成要素を含んでもよいし、または、各種機能が構成要素間で異なって分配されてもよい。さらに、一つの実施形態では、学習システム102は、車載コンピュータシステム122の一部であって、統合システムとして作動してもよい。
図2は、一つの実施形態に係る、図1Bの車載コンピュータシステム122の動作認識モジュール138の構成要素を示すブロック図である。動作認識モジュール138には、画像検索モジュール202と、モデルアクセスモジュール204と、モデル誘導モジュール206と、最終予測生成モジュール208と、が含まれる。別の実施形態では、動作認識モジュール138には、追加の構成要素、より少ない構成要素、または異なる構成要素が含まれ、本明細書中に記載された構成要素202、204、206、208の機能は、異なる状態で動作認識モジュール138の構成要素間に分散されていてもよい。一つの実施形態で動作認識モジュール138によって実行される処理は、図6Aに示す方法でさらに詳細に説明する。
画像検索モジュール202は、カメラシステム130に取り込まれるデータ信号または3D画像112にアクセスする。カメラシステム130を参照して上述したように、データ信号は、運転者が車両内で動作を行なうことの電子的表現である。
モデルアクセスモジュール204は、車載コンピュータシステム122によって格納されたランダムフォレストモデル110にアクセスする。一つの実施形態では、ランダムフォレストモデル110は学習システム102の出力である。他の実施形態では、ランダムフォレストモデル110は、車載コンピュータシステム122の出力である。
モデル誘導モジュール206は、3D画像112にランダムフォレストモデル110を適用する。ランダムフォレストモデル110の各決定木からは、予測される運転者の動作と信頼度スコアを含む予測が出力され、結果的に、その3D画像に対して複数の予測が出力される。
最終予測生成モジュール208は、これらの複数の予測を運転者動作ごとにグループ化する。各グループごとに、グループ内の各予測の信頼度スコアが総合される。例えば、一つの実施形態では、各信頼度スコアは、特定の動作の加重表決を表し、それらが合計されて合計スコアとなる。なお、この実施形態の合計スコアは、100%を超える可能性があるので、ランダムフォレストモデル110全体に対する、その動作の信頼度を表すものではない。最終予測生成モジュール208は、最高の合計スコアを持つグループをランダムフォレストモデル110の最終予測出力として選択する。処理例としては次のようになる、すなわち、第一グループは信頼度スコアが25%、50%、および5%である三つの予測を有し、第二グループは信頼度スコアが91%と1%である二つの予測を有するものとする。第一グループに対する合計スコアは80%で、第二グループに対しては92%であり、これらは各動作ごとに重み付けされた表決の和を表し、ここで信頼度スコアが重み付けとして使用されている。ランダムフォレストモデル110の最終予測114は、92%の合計スコアを有する第二グループということになる。
図3は、ランダムフォレストモデル110の実施形態の一例である。ランダムフォレストモデル110には、一つ以上の決定木302が含まれる。各決定木302には、一つ以上の枝ノード304と一つ以上の葉ノード306が含まれる。各枝ノード304は、そのノードに入力される画像に適用されるテストと関連付けられている。そのテストは、画像を分類し、画像が左の子ノードに渡されるのか右の子ノードに渡されるのかを決定する。各枝ノードは、葉ノード306に到達するまで、同様に画像を処理する。運転者動作108の予測とともに信頼度スコアが、各葉ノード306と関連付けられている。このように、決定木は、画像がどの葉ノードに到達するのかに応じて、各画像に対して予測と信頼度スコアを生成する。ランダムフォレストモデル110には、各画像に適用される複数の決定木が含まれる。このように、ランダムフォレストモデル110は、与えられた画像に対し、各決定木302内で到達した葉ノード306に対応して、複数の予測を生成する。
図4は、学習システム102が学習用画像108に基づいてランダムフォレストモデル110を生成するために行なう処理の一つの実施形態である。学習システム102は、ステップ402で、学習用画像108を受信する。一つの実施形態では、学習用画像108は、運転者を描写しているもので、運転者が映像内で特定の動作を行なっている最中に取り込まれたものである。動作ごとに、学習用画像108には、動作を行なっている間の異なる時点で取り込まれた画像が含まれるものとする。さらに、学習用画像108には、異なる被験者が異なる外見および運動特性で行なっている動作の画像を含むものとする。各学習用画像108は、画像が取り込まれたときに行なわれていた動作について名前が付けられている。動作の例として含まれるのは、例えば、通常の運転動作、中央部小物入れに手を伸ばす動作、小物入れに手を伸ばす動作、頭上小物入れに手を伸ばす動作、ラジオの調整をする動作、電話で話す動作、食事をする動作、飲み物を飲む動作、文字入力動作、地図を読む動作、化粧品を塗る動作、手を振る動作、後部座席に手を伸ばす動作、ミラーを調整する動作、および運転者が車両内で行なう他の一般的な動作である。学習用画像108の一例が、図5Aに示されている。この例では、深度データは画素の強度によって表される(例えば、カメラにより近い物体はより暗く、カメラからより離れた物体はより明るく見える)。
学習システム102は、ステップ404で、学習用画像の小集団を選択する。一つの実施形態では、学習システム102は、画像の小集団をランダムに選択する。別の実施形態では、学習用画像の小集団は、動作を実行する異なる個体の多様な、さまざまな異なる動作に対応する画像が含まれるように、および/または、さまざまな異なる人物が動作を行なっているのを描写するように選択される。
学習システム102は、ステップ406で、停止条件が満たされるかどうかを決定する。一つの実施形態では、学習用画像の選択された小集団のエントロピーがエントロピーの閾値を下回ったときに停止条件が満たされるものとする。エントロピー値の計算については、以下にステップ414を参照してさらに詳細に記載する。さらに、決定木の最大深度に達したときに停止条件が満たされるとしてもよい。
そして、学習システム102は、ステップ410で、学習用画像108の小集団内の各画像をテストする。各画像ごとのテスト結果に基づいて、ステップ412で、この小集団は二つのグループに分割され、こうして二つの子ノードを作成する。例えば、テストを適用する際に、閾値よりも小さい結果が出る画像は左の子ノードに振り分けられ、閾値よりも大きい結果が出る画像は右の子ノード(またはその逆)に振り分けられる。
(選択されたパラメータによって表される)IGおよびテストは、ステップ416で、待ち行列に格納される。一つの実施形態では、この待ち行列には、現在のノードに対して以前に格納されたテストよりも高いIGを有する場合だけそのテストが格納される。例えば、反復プロセスにおいて、新たなテストが生成されると、新たなIGは、待ち行列に格納されているIGと比較される。新たなテストが高いIGを有する場合、新たなテストは待ち行列に置かれ、以前に格納されたテストは除去される。
学習システム102は、その後、ステップ418で、反復処理が必要回数だけ実行されたかどうかを判定する。この判定は、例えば、現在のノードに対するテストが所定回数に達したか、何らかの所定閾値以上のIGを有するテストが見つかったことに基づくものとする。学習システムが、さらなる反復処理を実行する必要があると判断した場合、ステップ408に戻って処理を繰り返し、現在のノードに対して(例えば、異なる領域、特徴、および/または閾値を選択することによって)別のテストを生成する。逆に、学習システムがもう反復処理は必要ないと判断した場合、学習システム102は、ステップ420で、最も高いIGを持つテストを選択する。最も高いIGを持つテストは、ステップ422で、学習中の現在のノードに対するテストとして(例えば、選択されたパラメータ値を格納することによって)格納される。
学習システム102は、その後、ステップ424で、結果としてできる、子ノードと関連付けられた画像グループを小集団として格納する。処理は、その後、ステップ406まで戻ってループし、それ以降のステップが子ノードと関連付けられた小集団の各々ごとに個別に実行される。
停止条件のステップ406に戻って、ステップ406で停止条件のいずれかが満たされる場合は、学習システム102は、ステップ426で、小集団内で最も高い信頼度スコアを有する運転者動作を選択する。一つの実施形態では、信頼度は、停止条件が満たされるノードに対して、予測された運転者動作の名前が付いた画像数のその小集団内の画像の総数に対する割合に基づいて、つまり、予測される運転動作を有する画像数の百分率として算出される。例えば、文字入力運転者動作の信頼度は、その葉ノードに於いて学習用画像内で文字入力と名前の付いた画像の当該ノードに到達する画像総数に対する比率である。他の実施形態では、信頼度は、異なる運転者動作に対する重み付けのような追加要因に依存する。
学習システム102は、このノードを葉ノードであるとし、ステップ428で、当該予測を当該ノードと関連付けて格納する。ランダムフォレストモデル内で完成した決定木の数が、ステップ430で、決定木の最大数と等しい場合、学習システム102は、ステップ432で、学習用画像108の学習を停止する。一つの実施形態では、ランダムフォレストモデル内の決定木の最大数は六であるが、速度、格納、健全さ、または他の因子との間の所望するトレードオフに応じて他の任意の数を使用することもできる。等しくない場合、学習システム102は、ステップ404で、学習用画像108の別の小集団を選択し、後続のステップを繰り返す。
<ランダムフォレストモデルを用いた運転者動作認識>
図6Aは、動作認識モジュール138によって実行される処理の実施形態を示している。動作認識モジュールモジュール138は、ステップ602で、運転者が車両内で動作を行なう3D画像を受信する。モジュール138は、ステップ604で、ランダムフォレストモデル110をアクセスする。車載コンピュータシステム122は、ランダムフォレストモデル110を誘導し、ステップ606で、複数の予測を生成する。この処理では、決定木の最初の分岐ノードから始まって、学習したテストを適用し、決定木の左の子ノードに移動するか右の子ノードにするかを決定するテストの結果を得る。葉ノードに到達すると、動作認識モジュール138は、その葉ノードと関連付けられた予測および対応する信頼度値を格納する。この処理は、各決定木ごとに行なわれ、各決定木で一つの予測と対応する信頼度値が出る。
車載コンピュータシステム122は、ステップ608で、すべての決定木にわたる運転者動作に基づいて、予測をグループ化する。例えば、文字入力運転者動作を有すると予測されるすべての画像は、一緒にグループ化され、食事をする運転者動作を有すると予測されるすべての画像は、一緒にグループ化される。その後、指定されたグループ内の各予測の信頼度スコアは、ステップ610で、加重表決の総和を表す合計スコアとして合算され、ここで、重みとして個別の信頼度スコアが使用される。例えば、ランダムフォレストモデルでの決定木の三本が、運転者動作として、それぞれ信頼度スコア22%、78%、および50%で「文字入力動作」と予測する場合、合計スコアは22%+78%+50%であり、合算されて150%という合計スコアになる。別の実施形態では、例えば、加重合計、平均値、中央値等を計算するなど、スコアを合計するための別の方法が使用されてもよい。最も高い合計スコアを有する運転者動作が、ステップ612で、その画像に対する最終予測114として選択される。
図6Bは、動作を認識する処理の実施形態が画像の一例に適用される様子を示す図である。ランダムフォレストモデル110の各決定木がこの画像に適用されて、各決定木が、一つの予測とその予測の信頼度値を生成する。この画像に対する予測は、運転者動作に基づいてグループ化される。図6Bの例では、第一決定木が43%の信頼度値で「文字入力動作」という予測を出し、第二決定木が57%の信頼度値で「食べる動作」という予測を出し、第三決定木が38%の信頼度値で「文字入力動作」という予測を出す。これらの予測は、次に予測される動作ごとにグループ化される。各グループの信頼度スコアは合算される。例えば、「文字入力動作」に対する運転者動作グループの43%と38%という信頼度スコアは、合算され、「文字入力動作」に対して81%という合計スコアを出す。「食べる動作」に対する運転者動作グループは、この例では一つの予測を含むだけであり、信頼度スコアは57%である。この例では、「文字入力動作」の予測が81%という最も高い合計スコアを有し、最終予測114として選択される。
図7は、ステップ606で、複数の予測を生成する処理の一つの実施形態を示している。車載コンピュータシステム122は、ステップ702で、現在検討中である決定木のうちの現在のノードが枝ノード304であるのか葉ノード306であるのかを判定する。現在のノードが枝ノード304である場合、ステップ704で、現在のノードと関連付けられたテストが、3D画像に対して適用される。車載コンピュータシステム122は、ステップ706で、適用されたテストの出力に基づいて、左の子ノードに分岐するか右の子ノードに分岐するかを判定する。次いで、処理は、ステップ702に戻り、次のノードに対して繰り返される。ステップ702において現在のノードが葉ノード306である場合、ステップ708で、現在のノードと関連付けられた予測が、決定木の予測として出力される。ステップ710で、決定木がランダムフォレストモデル110の最後の決定木である場合、車載コンピュータシステム122は、712で、さらに予測を生成することを止める。そうでない場合、処理はステップ702に戻り、ランダムフォレストモデルにおける次の決定木に対して繰り返される。
別の実施形態では、フレーム単位で各予測を決定する代わりに、予測は、複数の画像フレームと学習した状態遷移確率に基づいて行なうものとする。この実施形態では、予測を行なうに際して、ビデオ映像の連続する画像が評価される。ここで、上述した学習段階には、ビデオの連続する画像で一つの動作が別の動作に変わる可能性を示す、動作間の状態遷移確率を学習することが含まれる。次いで、これらの状態遷移確率は、予測を生成するときに、例えば、異なる予測と関連付けられる重みとして使用される。例えば、現在の画像iに動作名Aが与えられた場合、画像i+1に対する動作名Bと関連付けられるスコアは、(i)画像i+1のみに基づく、画像i+1の動作名(例、名前B)の確率、および(ii)状態Aから状態Bに遷移する可能性、に基づいて決定されるものとする。一つの実施形態では、加重スコアを使用して予測を決定する。別の実施形態では、予測は、重み付けされた信頼度が閾値を超える場合のみ行われ、この閾値は学習時に学習するものとする。
最初の例では、ビデオ映像の各画像フレームが、ランダムフォレストモデル110の決定木を通して最終予測114を誘導する場合、第一画像フレームが「文字入力」動作を予測する。第一画像フレーム直後の第二画像フレームには、異なる決定木からの予測として、各々異なる信頼度スコアを持った、「食べる動作」(例、80%のスコア)と「文字入力動作」(例、55%のスコア)の両方が含まれる。動作対遷移確率の状態遷移図を使用し、遷移確率を重みとして用いて最終予測を決定することができる。例えば、「食べる動作」から「文字入力動作」への状態遷移確率は比較的低く(例、10%)、「文字入力動作」から「文字入力動作」は比較的高い(例、75%)ものとする。より高い状態遷移確率なので、システムは、第二画像フレームだけに基づけば「食べる動作」がより高いスコアを有していても、最終予測として「文字入力動作」を選択するものとする。
<付加的考察>
本明細書で「ある実施形態」または「一実施形態」への参照は、複数の実施形態に関連して説明された特定の特徴、構造、または特性が、少なくとも一つの実施形態に含まれているということである。本明細書の様々な箇所で「ある実施形態では」または 「一実施形態」という語句が現れるが、必ずしも全て同じ実施形態を指しているわけではない。
後述する詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに関する操作のアルゴリズムおよび記号表現という観点で提示されている。これらのアルゴリズムの説明および表現は、データ処理技術の当業者によって使用され、他の当業者に彼らの仕事の本質をもっとも効果的に伝える手段である。ここで、また一般的にもそうであるが、アルゴリズムとは、所望の結果に導く、首尾一貫した一連のステップ(命令)であると考えられる。ステップとは、物理量の物理的操作を必要とするものである。必須ではないが、通常、これらの量は、格納され、転送され、結合され、比較され、もしくは操作されることが可能な、電気的、磁気的、または光学的信号の形態をとる。時には、主に共通使用という理由で、これらの信号を、ビット、値、要素、記号、文字、用語、数などとして参照すれば便利である。また、時には、一般性を失うことなく、物理量の物理的操作または変換や、物理量の表現を要する、特定の一連のステップをモジュールまたはコード装置として参照しても便利である。
しかしながら、これらのすべておよび同様の用語は、しかるべき物理量と関連付けられるべきであり、単にこれらの量に付けられる便利なラベルであるに過ぎない。特に別の説明がない限り、以下の説明から明らかなように、本明細書を通して、「処理する」または「コンピュータで計算する」または「計算する」または「判断する」または「表示する」または「判断する」等の用語を用いた説明は、コンピュータシステムメモリまたはレジスタまたは他のそのような情報記憶装置内の物理的な(電子的な)量として表されるデータを操作して変換する、コンピュータシステム、または(例えば、特定目的用計算機のような)同様の電子計算装置、もしくは伝送装置または表示装置の、作用と処理を参照している。
実施形態のいくつかの態様は、本明細書にアルゴリズムの形で記載されたステップや指示を含む。なお、実施形態の処理ステップおよび命令は、ソフトウェア、ファームウェア、またはハードウェアで具現化することができ、ソフトウェアで具現化されるときは、様々なオペレーティングシステムによって使用される異なるプラットフォームにダウンロードして常駐させ、そこから操作することができる。また、実施形態は、コンピュータシステム上で実行されるコンピュータプログラム製品であってもよい。
実施形態はまた、本明細書における動作を実行する装置にも関与している。この装置は、例えば、特定目的コンピュータのように、目的に応じて特別に構成されたものであってもよいし、コンピュータに格納されたコンピュータプログラムによって選択的に起動されまたは再構成される汎用コンピュータを備えてもよい。そのようなコンピュータプログラムは、フロッピー(登録商標)ディスク、光ディスク、CD‐ROM、光磁気ディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードまたは光カード、特定用途向け集積回路(ASIC)、または電子命令を格納するのに適した任意の種類の媒体、を含む、任意の種類のディスクのような、しかしこれらに限定されない、コンピュータ可読記憶媒体に格納でき、そして各々がコンピュータシステムバスに結合されている。メモリ/記憶装置は、一時的であっても非一時的であってもよい。メモリは、上記のいずれを備えてもよく、および/または情報/データ/プログラムを格納できる他の装置を備えてもよい。さらに、本明細書でいうコンピュータは、単一プロセッサを備えてもよいし、コンピュータ能力を増すために、複数のプロセッサ設計を採用するアーキテクチャであってもよい。
本明細書で提示されるアルゴリズムおよび表示は、本質的に、特定のコンピュータまたは他の装置に関連するものではない。様々な汎用システムを使用して本明細書の教示によるプログラムを実行してもよいし、または、より専用の装置を構築して上記方法のステップを実行した方が、便利であるかもしれない。これらの様々なシステムの構成は、以下の記述から明らかであろう。また、本明細書に記述したように、実施形態の教示内容は、何らかの特定プログラミング言語を参照して記載されてはいない。様々なプログラミング言語を使用して、本明細書に記載されたように実施形態の教示内容を実施してもよく、実現方法とベストモードを開示するにあたって、以下で特定言語を参照する場合はその旨記載されている。
また、本明細書で使用される言葉遣いは、主として、読みやすさと教育目的のために選択されたものであり、本発明の主題を詳説したり制限したりするために選択されたものではない。したがって、実施形態の開示は、特許請求の範囲に記載されている、実施形態の範囲の説明に役立つことを意図しているが、それを限定するものではない。
この開示を読めば、当業者は、身振りを基にした対象物検索を実行するさらに別の方法およびシステムがあると理解するであろう。従って、本明細書の特定の実施形態および応用を図示し、説明してきたが、本開示は、本明細書に開示された構成およびコンポーネントと全く同じものに限定されるものではなく、添付の特許請求の範囲に規定されるような本発明の精神および範囲から逸脱することなく、本明細書に開示された本実施形態の方法および装置の配置、動作、および詳細について、同業者にとって明らかな種々の修正、変更、および変形ができることが理解されるべきである。

Claims (20)

  1. 車両内の運転者の画像を用いて動作認識を行なう方法であって、
    コンピュータシステムによって、前記車両内の前記運転者の画像を受信するステップと、
    複数の決定木を含むランダムフォレストモデルをアクセスするステップと、
    前記ランダムフォレストモデルを用いて前記画像内で前記運転者が行なう動作について複数の予測を生成するステップであって、前記複数の予測の各々は、前記複数の決定木のうちの一つによって生成され、予測される運転者動作と、比率つまり百分率を含む信頼度スコアから成る当該ステップと、
    前記複数の生成された予測を前記予測される運転者動作に従って複数のグループにグループ化することによって、前記複数のグループの各々が予測される単一の運転者動作と関連付けられるステップと、
    前記生成された予測の前記信頼度スコアを各グループごとに合算して、各グループと関連付けられた前記予測される運転者動作に関するグループごとに合信頼度スコアを計算するステップと、
    一つの運転者動作が別の運転者動作に変わる可能性を示す状態遷移確率を用いて、重み付けした合計信頼度スコアを、前記予測される運転者動作に関するグループごとに計算するステップと、
    最も高い、前記重み付けした合計信頼度スコアと関連付けられた前記運転者動作を選択するステップと、を含む
    ことを特徴とする方法。
  2. 前記信頼度スコアを合算するステップは、前記信頼度スコアを加算するステップを含む
    ことを特徴とする、請求項1に記載の方法。
  3. 前記ランダムフォレストモデルを用いて前記複数の予測を生成するステップは、
    前記複数の決定木の第一決定木に対して、前記ランダムフォレストモデルの前記第一決定木の、複数の子ノードを有する、親である枝ノードの第一テストパラメータに基づいて前記画像に第一テストを適用するステップと、
    前記テストの結果に基づいて、前記親である枝ノードの前記子ノードうちの一つを選択するステップと、
    前記選択された前記子ノードのうちの一つが枝ノードであると、前記選択された前記子ノードのうちの一つと関連付けられた第二テストパラメータに基づいて前記画像に第二テストを適用するステップと、
    前記選択された前記子ノードのうちの一つが葉ノードであると、前記予測を生成し、前記生成された予測は前記葉ノードと関連付けられた前記運転者動作と前記信頼度スコアを含むステップと、を含む
    ことを特徴とする、請求項1に記載の方法。
  4. 前記第一テストパラメータに基づいて前記第一テストを適用するステップは、
    前記画像の複数の空間領域を選択するステップと、
    前記画像の特徴を表す特徴媒体を選択するステップと、
    閾値を選択するステップと、を含む
    ことを特徴とする、請求項3に記載の方法。
  5. 前記画像は三次元画像を含み、前記選択された特徴媒体は三次元深度データを含む
    ことを特徴とする、請求項4に記載の方法。
  6. 前記第一テストを適用するステップは、
    前記選択された複数の空間領域のうち少なくとも二つの前記選択された特徴媒体の平均値の差を決定するステップと、
    前記差を前記閾値と比較するステップと、を含む
    ことを特徴とする、請求項4に記載の方法。
  7. 前記予測される運転者動作に基づいて車載システムから提供される通知を遅らせるステップを含む
    ことを特徴とする、請求項1に記載の方法。
  8. 前記予測される運転者動作は、通常の運転動作、中央部小物入れに手を伸ばす動作、小物入れに手を伸ばす動作、頭上小物入れに手を伸ばす動作、ラジオの調整をする動作、電話で話す動作、およびミラーを調整する動作のうち少なくとも一つを含む
    ことを特徴とする、請求項1に記載の方法。
  9. 前記ランダムフォレストモデルは、一連の名前の付いた学習用画像に基づいて学習される
    ことを特徴とする、請求項1に記載の方法。
  10. 車両内の運転者の画像を用いて動作認識を行なう命令を格納する持続性コンピュータ可読記憶媒体であって、前記命令がプロセッサによって実行されることで、前記プロセッサが、
    コンピュータシステムによって、前記車両内の前記運転者の画像を受信するステップと、
    複数の決定木を含むランダムフォレストモデルをアクセスするステップと、
    前記ランダムフォレストモデルを用いて前記画像内で前記運転者が行なう動作について複数の予測を生成するステップであって、前記複数の予測の各々は、前記複数の決定木のうちの一つによって生成され、予測される運転者動作と、比率つまり百分率を含む信頼度スコアから成る当該ステップと、
    前記複数の生成された予測を前記予測される運転者動作に従って複数のグループにグループ化することによって、前記複数のグループの各々が予測される単一の運転者動作と関連付けられるステップと、
    前記生成された予測の前記信頼度スコアを各グループごとに合算し、各グループと関連付けられた前記予測される運転者動作に関するグループごとに合信頼度スコアを計算するステップと、
    一つの運転者動作が別の運転者動作に変わる可能性を示す状態遷移確率を用いて、重み付けした合計信頼度スコアを、前記予測される運転者動作に関するグループごとに計算するステップと、
    最も高い、前記重み付けした合計信頼度スコアと関連付けられた前記運転者動作を選択するステップと、を行なう
    ようになっている
    ことを特徴とする持続性コンピュータ可読記憶媒体。
  11. 前記信頼度スコアを合算するステップは、前記信頼度スコアを加算するステップを含む
    ことを特徴とする、請求項10に記載の持続性コンピュータ可読記憶媒体。
  12. 前記ランダムフォレストモデルを用いて前記複数の予測を生成するステップは、
    前記複数の決定木の第一決定木に対して、前記ランダムフォレストモデルの前記第一決定木の、複数の子ノードを有する、親である枝ノードの第一テストパラメータに基づいて前記画像に第一テストを適用するステップと、
    前記テストの結果に基づいて、前記親である枝ノードの前記子ノードうちの一つを選択するステップと、
    前記選択された前記子ノードのうちの一つが枝ノードであると、前記選択された前記子ノードのうちの一つと関連付けられた第二テストパラメータに基づいて前記画像に第二テストを適用するステップと、
    前記選択された前記子ノードのうちの一つが葉ノードであると、前記予測を生成し、前記生成された予測は前記葉ノードと関連付けられた前記運転者動作と前記信頼度スコアを含むステップと、を含む
    ことを特徴とする、請求項10に記載の持続性コンピュータ可読記憶媒体。
  13. 前記第一テストパラメータに基づいて前記第一テストを適用するステップは、
    前記画像の複数の空間領域を選択するステップと、
    前記画像の特徴を表す特徴媒体を選択するステップと、
    閾値を選択するステップと、を含む
    ことを特徴とする、請求項12に記載の持続性コンピュータ可読記憶媒体。
  14. 前記画像は三次元画像を含み、前記選択された特徴媒体は三次元深度データを含む
    とを特徴とする、請求項13に記載の持続性コンピュータ可読記憶媒体。
  15. 前記第一テストを適用するステップは、
    前記選択された複数の空間領域のうち少なくとも二つの前記選択された特徴媒体の平均値の差を決定するステップと、
    前記差を前記閾値と比較するステップと、を含む
    ことを特徴とする、請求項13に記載の持続性コンピュータ可読記憶媒体。
  16. 動作認識のために、複数の決定木を含むランダムフォレストモデルを学習する方法であって、
    コンピュータシステムによって、複数の学習用画像を受信するステップであって、各学習用画像が、車両内部で行なわれる運転者動作を示し、行なわれている運転者動作を識別する名前を有している当該ステップと、
    前記複数の決定木のうちの一つである親ノードに対応するテストを生成するステップであって、前記テストは、一つ以上のテストパラメータを含む当該ステップと、
    前記テストを各学習用画像に対して適用し、各学習用画像を少なくとも第一画像グループと第二画像グループを含む複数の画像グループに分類するステップと、
    前記第一画像グループのエントロピー値が閾値未満であるかどうか判定するステップと、 前記第一画像グループの前記エントロピー値が前記閾値未満であるという判定すると、前記第一画像グループと関連付けられた名前に基づいて、運転者動作と、比率つまり百分率を含む信頼度スコアから成る予測を生成するとともに、前記親ノードの一つの子ノードとして、前記予測と関連付けられた葉ノードを生成するステップと、
    前記第一画像グループの前記エントロピー値が前記閾値未満でないと判定すると、前記親ノードの一つの子ノードとして、前記第一画像グループと関連付けられた枝ノードを生成するステップと、を含み、
    前記生成された予測は、前記予測ごとに複数のグループにグループ化されて、前記複数のグループの各々が単一の予測と関連付けられ、
    全ての前記運転者動作について、一つの運転者動作が別の運転者動作に変わる可能性を示す状態遷移確率が学習される
    ことを特徴とする方法。
  17. 前記テストを生成するステップは、
    複数の空間領域を選択するステップと、
    特徴媒体を選択するステップと、
    閾値を選択するステップと、を含む
    ことを特徴とする、請求項16に記載の方法。
  18. 前記テストを適用するステップは、
    所定の学習用画像に対して、前記複数の空間領域の各々の前記特徴媒体に対する平均値を決定するステップと、
    前記複数の空間領域の第一空間領域と第二空間領域の前記平均値の差を決定するステップと、
    前記差を前記閾値と比較して比較結果を生成するステップと、
    前記所定の学習用画像を前記比較結果に基づいて前記複数の画像グループの一つに分類するステップと、を含む
    ことを特徴とする、請求項17に記載の方法。
  19. 前記葉ノードを生成するステップは、
    前記第一画像グループ内の最大数の画像と関連付けられた運転者動作を決定するステップと、
    前記第一画像グループのうち前記運転者動作と関連付けられた前記画像の百分率として前記信頼度スコアを計算するステップと、を含む
    ことを特徴とする、請求項18に記載の方法。
  20. 前記テストを生成するステップは、
    第一サンプルテストを適用するステップと、
    前記第一サンプルテストに対して、前記複数の学習用画像のエントロピー値と前記第一画像グループおよび前記第二画像グループの合計エントロピー値の差を表す第一情報利得値を決定するステップと、
    第二サンプルテストを適用するステップと、
    前記第二サンプルテストに対して第二情報利得値を決定するステップと、
    最も高い情報利得値を有する前記テストを特定するステップと、を含む
    ことを特徴とする、請求項16に記載の方法。
JP2014207702A 2013-10-09 2014-10-09 ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識 Expired - Fee Related JP6453025B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/050,259 US9501693B2 (en) 2013-10-09 2013-10-09 Real-time multiclass driver action recognition using random forests
US14/050,259 2013-10-09

Publications (2)

Publication Number Publication Date
JP2015076104A JP2015076104A (ja) 2015-04-20
JP6453025B2 true JP6453025B2 (ja) 2019-01-16

Family

ID=52693467

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014207702A Expired - Fee Related JP6453025B2 (ja) 2013-10-09 2014-10-09 ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識

Country Status (3)

Country Link
US (1) US9501693B2 (ja)
JP (1) JP6453025B2 (ja)
DE (1) DE102014220302B4 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972184B2 (en) * 2014-07-24 2018-05-15 State Farm Mutual Automobile Insurance Company Systems and methods for monitoring a vehicle operator and for monitoring an operating environment within the vehicle
US10140533B1 (en) * 2015-01-13 2018-11-27 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for generating data representative of vehicle occupant postures
DE102015223974A1 (de) * 2015-12-02 2017-06-08 Robert Bosch Gmbh Verfahren und Vorrichtung zur Beeinflussung eines Fahrzeugverhaltens
WO2017111931A1 (en) * 2015-12-22 2017-06-29 Intel Corporation Rfid location detection
JP6609808B2 (ja) * 2016-01-08 2019-11-27 株式会社Ye Digital 決定木学習アルゴリズムを用いた予測プログラム、装置及び方法
US11068730B1 (en) * 2016-06-14 2021-07-20 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for determining vehicle operator distractions at particular geographic locations
US9928433B1 (en) * 2016-06-14 2018-03-27 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for determining when a vehicle operator is texting while driving
US11423671B1 (en) * 2016-06-14 2022-08-23 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for detecting vehicle occupant actions
US9928434B1 (en) * 2016-06-14 2018-03-27 State Farm Mutual Automobile Insurance Company Appartuses, systems, and methods for determining when a vehicle occupant is using a mobile telephone
US20190213446A1 (en) * 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
JP6765911B2 (ja) * 2016-09-15 2020-10-07 三菱重工業株式会社 分類装置、分類方法およびプログラム
US11321951B1 (en) * 2017-01-19 2022-05-03 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for integrating vehicle operator gesture detection within geographic maps
US10504003B1 (en) * 2017-05-16 2019-12-10 State Farm Mutual Automobile Insurance Company Systems and methods for 3D image distification
US10289938B1 (en) 2017-05-16 2019-05-14 State Farm Mutual Automobile Insurance Company Systems and methods regarding image distification and prediction models
US10296785B1 (en) * 2017-07-24 2019-05-21 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for vehicle operator gesture recognition and transmission of related gesture data
US10628667B2 (en) 2018-01-11 2020-04-21 Futurewei Technologies, Inc. Activity recognition method using videotubes
CN108464839A (zh) * 2018-03-22 2018-08-31 东华大学 一种基于机器学习的车载疲劳驾驶监测预警系统
CN108985332A (zh) * 2018-06-15 2018-12-11 清华大学 基于动作电位发放间隔的自然图像随机森林成像方法
WO2020008919A1 (ja) * 2018-07-04 2020-01-09 株式会社エイシング 機械学習装置及び方法
US10850746B2 (en) * 2018-07-24 2020-12-01 Harman International Industries, Incorporated Coordinating delivery of notifications to the driver of a vehicle to reduce distractions
US11107242B2 (en) * 2019-01-11 2021-08-31 Microsoft Technology Licensing, Llc Detecting pose using floating keypoint(s)
CN110705774A (zh) * 2019-09-26 2020-01-17 汉纳森(厦门)数据股份有限公司 一种车辆能耗分析的预测方法和系统
CN111126153B (zh) * 2019-11-25 2023-07-21 北京锐安科技有限公司 基于深度学习的安全监测方法、系统、服务器及存储介质
CN111310840B (zh) * 2020-02-24 2023-10-17 北京百度网讯科技有限公司 数据融合处理方法、装置、设备和存储介质
CN111599170B (zh) * 2020-04-13 2021-12-17 浙江工业大学 一种基于时序交通网络图的交通运行状态分类方法
CN113837211B (zh) * 2020-06-23 2024-06-14 华为技术有限公司 一种驾驶决策方法及装置
CN113094930B (zh) * 2021-05-06 2022-05-20 吉林大学 一种驾驶人行为状态数据采集装置和检测方法
CN113288148B (zh) * 2021-06-02 2023-03-07 华南师范大学 一种驾驶心理品质分类方法
CN114169426A (zh) * 2021-12-02 2022-03-11 安徽庐峰交通科技有限公司 一种基于北斗位置数据的公路交通安全隐患排查方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660437B2 (en) * 1992-05-05 2010-02-09 Automotive Technologies International, Inc. Neural network systems for vehicles
US5805747A (en) * 1994-10-04 1998-09-08 Science Applications International Corporation Apparatus and method for OCR character and confidence determination using multiple OCR devices
WO2003070093A1 (en) * 2002-02-19 2003-08-28 Volvo Technology Corporation System and method for monitoring and managing driver attention loads
JP4579577B2 (ja) * 2003-05-19 2010-11-10 キヤノン株式会社 情報処理装置および情報処理方法ならびに記憶媒体、プログラム
US7372977B2 (en) 2003-05-29 2008-05-13 Honda Motor Co., Ltd. Visual tracking using depth data
GB0313002D0 (en) * 2003-06-06 2003-07-09 Ncr Int Inc Currency validation
US7643665B2 (en) * 2004-08-31 2010-01-05 Semiconductor Insights Inc. Method of design analysis of existing integrated circuits
US7317836B2 (en) 2005-03-17 2008-01-08 Honda Motor Co., Ltd. Pose estimation based on critical point analysis
US8447031B2 (en) * 2008-01-11 2013-05-21 Personics Holdings Inc. Method and earpiece for visual operational status indication
US8213689B2 (en) * 2008-07-14 2012-07-03 Google Inc. Method and system for automated annotation of persons in video content
US8638985B2 (en) 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US8396252B2 (en) * 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
US8463721B2 (en) * 2010-08-05 2013-06-11 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for recognizing events
US9619035B2 (en) 2011-03-04 2017-04-11 Microsoft Technology Licensing, Llc Gesture detection and recognition
US9007198B2 (en) * 2012-11-02 2015-04-14 Toyota Motor Engineering & Manufacturing North America, Inc. Adaptive Actuator interface for active driver warning
US9047703B2 (en) 2013-03-13 2015-06-02 Honda Motor Co., Ltd. Augmented reality heads up display (HUD) for left turn safety cues

Also Published As

Publication number Publication date
US9501693B2 (en) 2016-11-22
US20150098609A1 (en) 2015-04-09
JP2015076104A (ja) 2015-04-20
DE102014220302B4 (de) 2024-02-08
DE102014220302A1 (de) 2015-04-09

Similar Documents

Publication Publication Date Title
JP6453025B2 (ja) ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識
US10803323B2 (en) Electronic device and method of detecting driving event of vehicle
US11055544B2 (en) Electronic device and control method thereof
US20180079427A1 (en) Gesture based control of autonomous vehicles
EP3652715A1 (en) Integrated system for detection of driver condition
US20200050842A1 (en) Artificial intelligence apparatus for recognizing user from image data and method for the same
JP2021526698A (ja) 画像生成方法および装置、電子機器、並びに記憶媒体
US20240031644A1 (en) Video playback device and control method thereof
KR20190111278A (ko) 인공지능 모델을 이용하여 사용자 음성을 변조하기 위한 전자 장치 및 이의 제어 방법
KR102318027B1 (ko) 자율 주행을 위한 비전-기반 샘플-효율적 강화 학습 프레임워크
CN110880034B (zh) 使用卷积神经网络的计算装置及其操作方法
CN114303177A (zh) 通过迁移学习生成具有不同疲劳程度的视频数据集的系统和方法
US11769047B2 (en) Artificial intelligence apparatus using a plurality of output layers and method for same
EP4047561A1 (en) Method for recognizing an emotion of a driver, apparatus, device, medium and vehicle
JP2019057247A (ja) 画像処理装置及びプログラム
CN112420033A (zh) 车载装置以及处理话语的方法
CN112487844A (zh) 手势识别方法、电子设备、计算机可读存储介质和芯片
CN112784978A (zh) 训练神经网络的方法、装置和系统及存储指令的存储介质
CN114760417B (zh) 一种图像拍摄方法和装置、电子设备和存储介质
CN114429641A (zh) 一种时序动作检测方法、装置、存储介质及终端
CN111639591A (zh) 轨迹预测模型生成方法、装置、可读存储介质及电子设备
CN116631060A (zh) 基于单帧图像的手势识别方法及装置
US20210137311A1 (en) Artificial intelligence device and operating method thereof
CN112434629B (zh) 一种在线时序动作检测方法及设备
US20210350704A1 (en) Alarm device, alarm system including the same, and method of operating the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170816

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180914

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181212

R150 Certificate of patent or registration of utility model

Ref document number: 6453025

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees