JP2015076104A

JP2015076104A - ランダムフォレストモデルを用いた、リアルタイムの多クラス運転者動作認識

Info

Publication number: JP2015076104A
Application number: JP2014207702A
Authority: JP
Inventors: サラット、トレヴァー; Sarratt Trevor; フジムラ、キクオ; Kikuo Fujimura
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-10-09
Filing date: 2014-10-09
Publication date: 2015-04-20
Anticipated expiration: 2034-10-09
Also published as: US9501693B2; US20150098609A1; DE102014220302B4; JP6453025B2; DE102014220302A1

Abstract

【課題】ランダムフォレストモデルを用いて運転者の画像を分類することによって、運転者の動作を認識する動作認識システムを提供する。
【解決手段】ランダムフォレストモデルを用いて、複数の予測を生成する。各予測は、複数の決定木のうちの一つによって生成され、予測される運転者動作及び信頼度スコアを含む。複数の予測は、複数のグループに再編成し、複数のグループは各々が運転者動作のうちの一つと関連付けられる。信頼度スコアは、各グループ内で合計して、各グループと関連付けられた合計スコアを決定する。最も高い合計スコアと関連付けられた運転者動作を選択する。
【選択図】図６Ｂ

Description

本開示は、一般的には動作認識、具体的には車両内の運転者の動作を認識することに関するものである。

運転者が利用でき制御も可能な、車両機能や特徴が近年進化している。多くの車両は、それを利用して関連情報を読み出し中継することによって運転者を支援する統合コンピュータシステムを備えている。しかし、現行の車両システムは、任意の時点での運転者の動きについてほとんど、あるいはまったく理解していないため、運転者に最も安全で最も都合の良い時間に通知を出せないことがある。例えば、統合コンピュータシステムからの通知が、運転者がバックミラーの調整をしたり小物入れに手を伸ばすなどの動作を実行中に出された場合、運転者はその通知に気付かない可能性がある。

持続型コンピュータ可読記憶媒体と方法を用いて、車両内運転者の画像に対し動作認識が行なわれる。コンピュータシステムが、車両内運転者の画像を受信する。複数の決定木を含むランダムフォレストモデルがアクセスされる。ランダムフォレストモデルを用いて、複数の予測が生成される。各予測は、複数の決定木のうちの一つによって生成され、各予測は、予測される運転者動作と信頼度スコアを含む。複数の予測は、複数のグループにグループ化され、その複数のグループの各々が運転者動作のうちの一つと関連付けられている。信頼度スコアは各グループ内で合算されて、各グループに関連付けられた合計スコアを決定する。最も高い合計スコアと関連付けられた運転者動作が選択される。

別の実施形態では、本方法は、動作認識のためにランダムフォレストモデルを学習し、この場合にランダムフォレストモデルは複数の決定木を含む。コンピュータシステムは、複数の学習用画像を受信する。各学習用画像は、車両内部で行なわれる運転者動作を示し、行なわれている運転者動作を識別する名前を有している。複数の決定木のうちの一つである親ノードに対応するテストが生成され、この場合にテストは、一つ以上のテストパラメータを含む。このテストは、各学習用画像に対して適用されて、各学習用画像を少なくとも第一画像グループと第二画像グループを含む複数の画像グループに分類する。コンピュータシステムは、第一画像グループのエントロピー値が閾値未満であるかどうか判定する。エントロピー値が閾値未満であると判定することに応答して、コンピュータシステムは、第一画像グループに基づいて予測を生成し、当該親ノードの一つの子ノードとして、この予測と関連付けられた葉ノードが生成される。この予測は、運転者動作と信頼度スコアを含む。第一画像グループのエントロピー値が閾値未満でないと判定することに応答して、当該親ノードの一つの子ノードとして、第一画像グループと関連付けられた枝ノードが生成される。

本明細書に記載の特徴および優位点は、全てを含むものではなく、具体的には、図面、明細書および特許請求の範囲に鑑みて、当業者には、多くの追加的な特徴および優位点が明らかであろう。また、明細書で使用される言葉遣いは、主として、読みやすさと教育目的のために選択されたものであり、本発明の主題を詳説したり限定したりするために選択されたものではないことに留意すべきである。

本開示の教示は、添付の図面と併せて以下の詳細な説明を熟慮することによって容易に理解することができる。
一つの実施形態に係る、例示的な学習環境を示している。一つの実施形態に係る、動作認識モジュールのさまざまな実施形態のための例示的な車載コンピュータ環境を示している。一つの実施形態に係る、動作認識モジュールの構成要素を示すブロック図である。一つの実施形態に係るランダムフォレストモデルを示している。一つの実施形態に係る、ランダムフォレストモデルを学習するための学習処理を示すフローチャートである。一つの実施形態に係る、運転者がある動作を行なっているのを捉えた３Ｄ画像を示している。一つの実施形態に係る、３Ｄ画像例で選択された二つの領域を示している。一つの実施形態に係る、ランダムフォレストモデルを用いて、車両環境内の画像に映った個人によって行なわれる動作を予測する処理のフローチャートを示している。一つの実施形態に係る、ランダムフォレストモデルを用いて、車両環境内の画像に映った個人によって行なわれる動作を予測する処理例を示している。一つの実施形態に係る、車両環境内の画像に映った個人によって行なわれる動作の予測を複数生成するためのプロセスを示すフローチャートである。

それでは、添付の図面を参照しながら実施形態を説明する。同じ参照番号は同一または機能的に類似の要素を示している。また、図面において、各参照番号の最も左の桁は、その参照番号が最初に用いられる図に対応している。

＜概説＞
動作認識システムは、ランダムフォレストモデルを用いて運転者の動作を認識し、運転者の三次元（３Ｄ）画像を、その３Ｄ画像が取り込まれたときに運転者が行なっていた動作に基づいて分類する。動作として含まれるのは、例えば、通常の運転動作、中央部小物入れに手を伸ばす動作、小物入れに手を伸ばす動作、頭上小物入れに手を伸ばす動作、ラジオの調整をする動作、電話で話す動作、食事する動作、飲み物を飲む動作、文字入力動作、地図を読む動作、化粧品を塗る動作、手を振る動作、後部座席に手を伸ばす動作、ミラーを調整する動作、および運転者が行なう他の一般的な動作である。

学習段階では、ランダムフォレストモデルは、名前の付いた一連の学習用画像から得られる。ランダムフォレストモデルは、複数の決定木を含む。作動中、３Ｄカメラが運転者の３Ｄ画像を取り込み、動作認識システムが、学習段階で得た各決定木を３Ｄ画像に適用し、各決定木は、３Ｄ画像によって取り込まれた動作の個別予測を生成する。各決定木からの予測には、その予測と関連付けられる信頼度を示す信頼度スコアも含まれる。ランダムフォレストモデルの各決定木に対して予測を生成した後、動作認識システムは、各運転者動作に係る信頼度スコアを合算し、最高の総合スコアを有する運転者動作を選択する。

＜システムおよび学習環境＞
図１Ａは、さまざまな実施形態のための例示的な学習環境１００を示している。例示的な学習環境１００には、学習システム１０２が含まれる。学習システム１０２は、一連の学習用画像１０８を入力として受信する。学習用画像１０８には、学習システム１０２が学習することになる、運転者が車両環境でさまざまな動作を行なっている画像が含まれる。開示された処理は、車両の乗客または他の被験体にも適用することができる

各学習用画像には、画像が取り込まれたときに行なわれていた動作を示す運転者動作の名前が付いている。学習用画像１０８に基づいて、学習システム１０２は、学習用画像を動作とマッピングするランダムフォレストモデル１１０を生成する。

学習システム１０２には、メモリ１０４およびプロセッサ１０６が含まれる。メモリ１０４には、学習システム１０２に起因する機能を実行するためのコンピュータ実行可能命令を格納する持続性コンピュータ可読記憶媒体が含まれる。メモリ１０４は、さらに、学習用画像１０８、ランダムフォレストモデル１１０、または、学習処理の間に生成された他の中間データを格納してもよい。プロセッサ１０６は、データ信号を処理し、複合命令セットコンピュータ（ＣＩＳＣ）アーキテクチャ、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャ、または複数の命令セットを組み合わせたものを実現するアーキテクチャを含むさまざまなコンピュータアーキテクチャを含んでいてもよい。図１Ａには一台のプロセッサしか示されていないが、複数のプロセッサが含まれていてもよい。これらのプロセッサには、演算論理ユニット、マイクロプロセッサ、汎用コンピュータ、または、メモリ１０４および、本願の図に示されているものも示されていないものも含めた他のデバイスから電子データ信号を送信し、受信し、処理するように装備された他の情報機器を含めることができる。

作動中、プロセッサ１０６は、メモリ１０４に格納された命令を読み込んで実行し、本明細書に記載の学習処理を実行する。学習システム１０２によって実行されるプロセスの実施形態については、図４に関連して以下でさらに詳細に説明する。

図１Ｂは、さまざまな実施形態のための例示的な作動環境１２０を示している。例示的な作動環境１２０には、車載コンピュータシステム１２２が含まれる。一つの実施形態では、車載コンピュータシステム１２２は、動作を行なっている運転者の三次元（３Ｄ）画像１１２およびランダムフォレストモデル１１０に基づいて、運転者の動作の最終予測１１４を生成する。例えば、車載コンピュータシステム１２２は、運転者の画像を捉えて、運転者が、文字入力しているのか、小物入れに手を伸ばしているのか、ミラーを調整しているのかどうかなどを予測する。

車載コンピュータシステム１２２には、メモリ１２４およびプロセッサ１２８が含まれる。メモリ１２４には、車載コンピュータシステム１２２に起因する機能を実行するためのコンピュータ実行可能命令を格納する持続性コンピュータ可読記憶媒体が含まれる。プロセッサ１２８は、データ信号を処理し、複合命令セットコンピュータ（ＣＩＳＣ）アーキテクチャ、縮小命令セットコンピュータ（ＲＩＳＣ）アーキテクチャ、または複数の命令セットを組み合わせたものを実現するアーキテクチャを含むさまざまなコンピュータアーキテクチャを含んでいてもよい。図１Ｂには一台のプロセッサしか示されていないが、複数のプロセッサが含まれていてもよい。これらのプロセッサには、演算論理ユニット、マイクロプロセッサ、汎用コンピュータ、または、メモリ１２４および、本願の図に示されているものも示されていないものも含めた他のデバイスから電子データ信号を送信し、受信し、処理するように装備された他の情報機器を含めることができる。作動中、プロセッサ１２８は、メモリ１２４に格納された命令を読み込んで実行し、本明細書に記載の認識処理を実行する。

例示的な作動環境１２０には、カメラシステム１３０およびマイクロフォン１３２のような入力装置も含まれる。一つの実施形態では、カメラシステム１３０には、車両内から物理的信号を取り込むセンサ（例えば、飛行時間型カメラ、赤外線センサ、伝統的なカメラ、等）が含まれる。カメラシステム１３０は、車両内に配置されて、運転者の姿態を取り込む。カメラシステム１３０は、一つの取り込み領域（例えば、運転席）に焦点を当てたものであって、広い視野を持ち車両の複数の乗員からの信号を受信することができる、または、その視野を変えて別の乗員位置から信号を受信することができる、単一のカメラであるものとする。一つの実施形態においては、カメラ１３０は、深度データを含む３Ｄ画像を取り込む。

物理的信号を取り込んだ後、カメラシステム１３０は、物理的信号を表すデータ信号を出力する。データ信号のフォーマットは、物理的信号を取り込むために使用されたセンサーの種類に基づいて変化し得る。例えば、従来のカメラセンサを使用して物理的信号の視覚的表現を取り込んだ場合、データ信号は、画像または一連の画像（例えば、ビデオ）であるものとする。異なるタイプのセンサが使用される実施形態においては、データ信号は、物理的信号のより抽象的なまたはより高いレベルの表現である。一つの実施形態では、カメラシステム１３０は、三角測量と立体視または飛行時間型のような技術を使って深度データを提供する、二台以上のカメラを含む。

マイクロフォン１３２は、車両内から音声信号を取り込むものとする。一つの実施形態では、マイクロフォン１３２は、特定の位置（例えば、運転者の位置）から発せられる音には他の位置（例えば、他の乗員）よりも敏感であるように、配置することができる。例えば、マイクロホン１３２は、運転席内に配置してもよいし、運転席に向けて、天井、ヘッドレスト、ダッシュボードまたは他の車両内・車両上の場所に取り付けることもできる。

動作認識モジュール１３８は、メモリ１２４内のコンピュータ命令を表し、ここで、命令とは、ランダムフォレストモデル１１０を生じさせて車両内の運転者によって行なわれる動作の予測を決定するためのものである。プロセッサ１２８は、メモリ１２４内にある動作認識モジュール１３８のコンピュータ命令にアクセスし、取り込まれた３Ｄ映像を使用してランダムフォレストモデル１１０を生じさせて、運転者が行なっている動作の予測を生成する。予測に関連するフィードバックは、以下の段落においてより詳細に説明される一つ以上の出力装置を使って出力されるものとする。別の実施形態では、車両コンピュータシステム１２２は、動作認識モジュール１３８からのフィードバックを使用して、他のシステム機能を修正する。例えば、車載コンピュータシステム１２２は、運転者に通知を見過ごさせてしまうおそれのある動作を運転者が行なっている場合、または運転者がすでに気を取られているため通知すると危険になる場合（例えば、運転者が小物入れに手を伸ばしているとき）、コマンドを送信して通知を遅らせる。

作動環境１２０には、ディスプレイ１３４およびスピーカ１３６のような出力装置も含まれる。ディスプレイ１３４は、映像信号を受信して表示する。ディスプレイ１３４は、車両内に組み込まれるものとする（例えば、中央コンソールに液晶画面、フロントガラス上にＨＵＤ）。一つの実施形態では、ディスプレイ１３４は、ユーザが車両内のさまざまな構成要素の設定を変更することができるユーザインタフェースを提示する。スピーカ１３６は、音声信号を受信して再生する。ディスプレイ１３４と同様に、スピーカ１３６は車両に組み込まれるものとする。

さまざまな実施形態において、車載コンピュータシステム１２２は、異なるまたは追加の構成要素を含んでもよいし、または、各種機能が構成要素間で異なって分配されてもよい。さらに、一つの実施形態では、学習システム１０２は、車載コンピュータシステム１２２の一部であって、統合システムとして作動してもよい。

図２は、一つの実施形態に係る、図１Ｂの車載コンピュータシステム１２２の動作認識モジュール１３８の構成要素を示すブロック図である。動作認識モジュール１３８には、画像検索モジュール２０２と、モデルアクセスモジュール２０４と、モデル誘導モジュール２０６と、最終予測生成モジュール２０８と、が含まれる。別の実施形態では、動作認識モジュール１３８には、追加の構成要素、より少ない構成要素、または異なる構成要素が含まれ、本明細書中に記載された構成要素２０２、２０４、２０６、２０８の機能は、異なる状態で動作認識モジュール１３８の構成要素間に分散されていてもよい。一つの実施形態で動作認識モジュール１３８によって実行される処理は、図６Ａに示す方法でさらに詳細に説明する。

画像検索モジュール２０２は、カメラシステム１３０に取り込まれるデータ信号または３Ｄ画像１１２にアクセスする。カメラシステム１３０を参照して上述したように、データ信号は、運転者が車両内で動作を行なうことの電子的表現である。

モデルアクセスモジュール２０４は、車載コンピュータシステム１２２によって格納されたランダムフォレストモデル１１０にアクセスする。一つの実施形態では、ランダムフォレストモデル１１０は学習システム１０２の出力である。他の実施形態では、ランダムフォレストモデル１１０は、車載コンピュータシステム１２２の出力である。

モデル誘導モジュール２０６は、３Ｄ画像１１２にランダムフォレストモデル１１０を適用する。ランダムフォレストモデル１１０の各決定木からは、予測される運転者の動作と信頼度スコアを含む予測が出力され、結果的に、その３Ｄ画像に対して複数の予測が出力される。

最終予測生成モジュール２０８は、これらの複数の予測を運転者動作ごとにグループ化する。各グループごとに、グループ内の各予測の信頼度スコアが総合される。例えば、一つの実施形態では、各信頼度スコアは、特定の動作の加重表決を表し、それらが合計されて合計スコアとなる。なお、この実施形態の合計スコアは、１００％を超える可能性があるので、ランダムフォレストモデル１１０全体に対する、その動作の信頼度を表すものではない。最終予測生成モジュール２０８は、最高の合計スコアを持つグループをランダムフォレストモデル１１０の最終予測出力として選択する。処理例としては次のようになる、すなわち、第一グループは信頼度スコアが２５％、５０％、および５％である三つの予測を有し、第二グループは信頼度スコアが９１％と１％である二つの予測を有するものとする。第一グループに対する合計スコアは８０％で、第二グループに対しては９２％であり、これらは各動作ごとに重み付けされた表決の和を表し、ここで信頼度スコアが重み付けとして使用されている。ランダムフォレストモデル１１０の最終予測１１４は、９２％の合計スコアを有する第二グループということになる。

図３は、ランダムフォレストモデル１１０の実施形態の一例である。ランダムフォレストモデル１１０には、一つ以上の決定木３０２が含まれる。各決定木３０２には、一つ以上の枝ノード３０４と一つ以上の葉ノード３０６が含まれる。各枝ノード３０４は、そのノードに入力される画像に適用されるテストと関連付けられている。そのテストは、画像を分類し、画像が左の子ノードに渡されるのか右の子ノードに渡されるのかを決定する。各枝ノードは、葉ノード３０６に到達するまで、同様に画像を処理する。運転者動作１０８の予測とともに信頼度スコアが、各葉ノード３０６と関連付けられている。このように、決定木は、画像がどの葉ノードに到達するのかに応じて、各画像に対して予測と信頼度スコアを生成する。ランダムフォレストモデル１１０には、各画像に適用される複数の決定木が含まれる。このように、ランダムフォレストモデル１１０は、与えられた画像に対し、各決定木３０２内で到達した葉ノード３０６に対応して、複数の予測を生成する。

図４は、学習システム１０２が学習用画像１０８に基づいてランダムフォレストモデル１１０を生成するために行なう処理の一つの実施形態である。学習システム１０２は、ステップ４０２で、学習用画像１０８を受信する。一つの実施形態では、学習用画像１０８は、運転者を描写しているもので、運転者が映像内で特定の動作を行なっている最中に取り込まれたものである。動作ごとに、学習用画像１０８には、動作を行なっている間の異なる時点で取り込まれた画像が含まれるものとする。さらに、学習用画像１０８には、異なる被験者が異なる外見および運動特性で行なっている動作の画像を含むものとする。各学習用画像１０８は、画像が取り込まれたときに行なわれていた動作について名前が付けられている。動作の例として含まれるのは、例えば、通常の運転動作、中央部小物入れに手を伸ばす動作、小物入れに手を伸ばす動作、頭上小物入れに手を伸ばす動作、ラジオの調整をする動作、電話で話す動作、食事をする動作、飲み物を飲む動作、文字入力動作、地図を読む動作、化粧品を塗る動作、手を振る動作、後部座席に手を伸ばす動作、ミラーを調整する動作、および運転者が車両内で行なう他の一般的な動作である。学習用画像１０８の一例が、図５Ａに示されている。この例では、深度データは画素の強度によって表される（例えば、カメラにより近い物体はより暗く、カメラからより離れた物体はより明るく見える）。

学習システム１０２は、ステップ４０４で、学習用画像の小集団を選択する。一つの実施形態では、学習システム１０２は、画像の小集団をランダムに選択する。別の実施形態では、学習用画像の小集団は、動作を実行する異なる個体の多様な、さまざまな異なる動作に対応する画像が含まれるように、および／または、さまざまな異なる人物が動作を行なっているのを描写するように選択される。

学習システム１０２は、ステップ４０６で、停止条件が満たされるかどうかを決定する。一つの実施形態では、学習用画像の選択された小集団のエントロピーがエントロピーの閾値を下回ったときに停止条件が満たされるものとする。エントロピー値の計算については、以下にステップ４１４を参照してさらに詳細に記載する。さらに、決定木の最大深度に達したときに停止条件が満たされるとしてもよい。

そして、学習システム１０２は、ステップ４１０で、学習用画像１０８の小集団内の各画像をテストする。各画像ごとのテスト結果に基づいて、ステップ４１２で、この小集団は二つのグループに分割され、こうして二つの子ノードを作成する。例えば、テストを適用する際に、閾値よりも小さい結果が出る画像は左の子ノードに振り分けられ、閾値よりも大きい結果が出る画像は右の子ノード（またはその逆）に振り分けられる。

（選択されたパラメータによって表される）ＩＧおよびテストは、ステップ４１６で、待ち行列に格納される。一つの実施形態では、この待ち行列には、現在のノードに対して以前に格納されたテストよりも高いＩＧを有する場合だけそのテストが格納される。例えば、反復プロセスにおいて、新たなテストが生成されると、新たなＩＧは、待ち行列に格納されているＩＧと比較される。新たなテストが高いＩＧを有する場合、新たなテストは待ち行列に置かれ、以前に格納されたテストは除去される。

学習システム１０２は、その後、ステップ４１８で、反復処理が必要回数だけ実行されたかどうかを判定する。この判定は、例えば、現在のノードに対するテストが所定回数に達したか、何らかの所定閾値以上のＩＧを有するテストが見つかったことに基づくものとする。学習システムが、さらなる反復処理を実行する必要があると判断した場合、ステップ４０８に戻って処理を繰り返し、現在のノードに対して（例えば、異なる領域、特徴、および／または閾値を選択することによって）別のテストを生成する。逆に、学習システムがもう反復処理は必要ないと判断した場合、学習システム１０２は、ステップ４２０で、最も高いＩＧを持つテストを選択する。最も高いＩＧを持つテストは、ステップ４２２で、学習中の現在のノードに対するテストとして（例えば、選択されたパラメータ値を格納することによって）格納される。

学習システム１０２は、その後、ステップ４２４で、結果としてできる、子ノードと関連付けられた画像グループを小集団として格納する。処理は、その後、ステップ４０６まで戻ってループし、それ以降のステップが子ノードと関連付けられた小集団の各々ごとに個別に実行される。

停止条件のステップ４０６に戻って、ステップ４０６で停止条件のいずれかが満たされる場合は、学習システム１０２は、ステップ４２６で、小集団内で最も高い信頼度スコアを有する運転者動作を選択する。一つの実施形態では、信頼度は、停止条件が満たされるノードに対して、予測された運転者動作の名前が付いた画像数のその小集団内の画像の総数に対する割合に基づいて、つまり、予測される運転動作を有する画像数の百分率として算出される。例えば、文字入力運転者動作の信頼度は、その葉ノードに於いて学習用画像内で文字入力と名前の付いた画像の当該ノードに到達する画像総数に対する比率である。他の実施形態では、信頼度は、異なる運転者動作に対する重み付けのような追加要因に依存する。

学習システム１０２は、このノードを葉ノードであるとし、ステップ４２８で、当該予測を当該ノードと関連付けて格納する。ランダムフォレストモデル内で完成した決定木の数が、ステップ４３０で、決定木の最大数と等しい場合、学習システム１０２は、ステップ４３２で、学習用画像１０８の学習を停止する。一つの実施形態では、ランダムフォレストモデル内の決定木の最大数は六であるが、速度、格納、健全さ、または他の因子との間の所望するトレードオフに応じて他の任意の数を使用することもできる。等しくない場合、学習システム１０２は、ステップ４０４で、学習用画像１０８の別の小集団を選択し、後続のステップを繰り返す。

＜ランダムフォレストモデルを用いた運転者動作認識＞
図６Ａは、動作認識モジュール１３８によって実行される処理の実施形態を示している。動作認識モジュールモジュール１３８は、ステップ６０２で、運転者が車両内で動作を行なう３Ｄ画像を受信する。モジュール１３８は、ステップ６０４で、ランダムフォレストモデル１１０をアクセスする。車載コンピュータシステム１２２は、ランダムフォレストモデル１１０を誘導し、ステップ６０６で、複数の予測を生成する。この処理では、決定木の最初の分岐ノードから始まって、学習したテストを適用し、決定木の左の子ノードに移動するか右の子ノードにするかを決定するテストの結果を得る。葉ノードに到達すると、動作認識モジュール１３８は、その葉ノードと関連付けられた予測および対応する信頼度値を格納する。この処理は、各決定木ごとに行なわれ、各決定木で一つの予測と対応する信頼度値が出る。

車載コンピュータシステム１２２は、ステップ６０８で、すべての決定木にわたる運転者動作に基づいて、予測をグループ化する。例えば、文字入力運転者動作を有すると予測されるすべての画像は、一緒にグループ化され、食事をする運転者動作を有すると予測されるすべての画像は、一緒にグループ化される。その後、指定されたグループ内の各予測の信頼度スコアは、ステップ６１０で、加重表決の総和を表す合計スコアとして合算され、ここで、重みとして個別の信頼度スコアが使用される。例えば、ランダムフォレストモデルでの決定木の三本が、運転者動作として、それぞれ信頼度スコア２２％、７８％、および５０％で「文字入力動作」と予測する場合、合計スコアは２２％＋７８％＋５０％であり、合算されて１５０％という合計スコアになる。別の実施形態では、例えば、加重合計、平均値、中央値等を計算するなど、スコアを合計するための別の方法が使用されてもよい。最も高い合計スコアを有する運転者動作が、ステップ６１２で、その画像に対する最終予測１１４として選択される。

図６Ｂは、動作を認識する処理の実施形態が画像の一例に適用される様子を示す図である。ランダムフォレストモデル１１０の各決定木がこの画像に適用されて、各決定木が、一つの予測とその予測の信頼度値を生成する。この画像に対する予測は、運転者動作に基づいてグループ化される。図６Ｂの例では、第一決定木が４３％の信頼度値で「文字入力動作」という予測を出し、第二決定木が５７％の信頼度値で「食べる動作」という予測を出し、第三決定木が３８％の信頼度値で「文字入力動作」という予測を出す。これらの予測は、次に予測される動作ごとにグループ化される。各グループの信頼度スコアは合算される。例えば、「文字入力動作」に対する運転者動作グループの４３％と３８％という信頼度スコアは、合算され、「文字入力動作」に対して８１％という合計スコアを出す。「食べる動作」に対する運転者動作グループは、この例では一つの予測を含むだけであり、信頼度スコアは５７％である。この例では、「文字入力動作」の予測が８１％という最も高い合計スコアを有し、最終予測１１４として選択される。

図７は、ステップ６０６で、複数の予測を生成する処理の一つの実施形態を示している。車載コンピュータシステム１２２は、ステップ７０２で、現在検討中である決定木のうちの現在のノードが枝ノード３０４であるのか葉ノード３０６であるのかを判定する。現在のノードが枝ノード３０４である場合、ステップ７０４で、現在のノードと関連付けられたテストが、３Ｄ画像に対して適用される。車載コンピュータシステム１２２は、ステップ７０６で、適用されたテストの出力に基づいて、左の子ノードに分岐するか右の子ノードに分岐するかを判定する。次いで、処理は、ステップ７０２に戻り、次のノードに対して繰り返される。ステップ７０２において現在のノードが葉ノード３０６である場合、ステップ７０８で、現在のノードと関連付けられた予測が、決定木の予測として出力される。ステップ７１０で、決定木がランダムフォレストモデル１１０の最後の決定木である場合、車載コンピュータシステム１２２は、７１２で、さらに予測を生成することを止める。そうでない場合、処理はステップ７０２に戻り、ランダムフォレストモデルにおける次の決定木に対して繰り返される。

別の実施形態では、フレーム単位で各予測を決定する代わりに、予測は、複数の画像フレームと学習した状態遷移確率に基づいて行なうものとする。この実施形態では、予測を行なうに際して、ビデオ映像の連続する画像が評価される。ここで、上述した学習段階には、ビデオの連続する画像で一つの動作が別の動作に変わる可能性を示す、動作間の状態遷移確率を学習することが含まれる。次いで、これらの状態遷移確率は、予測を生成するときに、例えば、異なる予測と関連付けられる重みとして使用される。例えば、現在の画像ｉに動作名Ａが与えられた場合、画像ｉ＋１に対する動作名Ｂと関連付けられるスコアは、（ｉ）画像ｉ＋１のみに基づく、画像ｉ＋１の動作名（例、名前Ｂ）の確率、および（ｉｉ）状態Ａから状態Ｂに遷移する可能性、に基づいて決定されるものとする。一つの実施形態では、加重スコアを使用して予測を決定する。別の実施形態では、予測は、重み付けされた信頼度が閾値を超える場合のみ行われ、この閾値は学習時に学習するものとする。

最初の例では、ビデオ映像の各画像フレームが、ランダムフォレストモデル１１０の決定木を通して最終予測１１４を誘導する場合、第一画像フレームが「文字入力」動作を予測する。第一画像フレーム直後の第二画像フレームには、異なる決定木からの予測として、各々異なる信頼度スコアを持った、「食べる動作」（例、８０％のスコア）と「文字入力動作」（例、５５％のスコア）の両方が含まれる。動作対遷移確率の状態遷移図を使用し、遷移確率を重みとして用いて最終予測を決定することができる。例えば、「食べる動作」から「文字入力動作」への状態遷移確率は比較的低く（例、１０％）、「文字入力動作」から「文字入力動作」は比較的高い（例、７５％）ものとする。より高い状態遷移確率なので、システムは、第二画像フレームだけに基づけば「食べる動作」がより高いスコアを有していても、最終予測として「文字入力動作」を選択するものとする。

＜付加的考察＞
本明細書で「ある実施形態」または「一実施形態」への参照は、複数の実施形態に関連して説明された特定の特徴、構造、または特性が、少なくとも一つの実施形態に含まれているということである。本明細書の様々な箇所で「ある実施形態では」または「一実施形態」という語句が現れるが、必ずしも全て同じ実施形態を指しているわけではない。

後述する詳細な説明のいくつかの部分は、コンピュータメモリ内のデータビットに関する操作のアルゴリズムおよび記号表現という観点で提示されている。これらのアルゴリズムの説明および表現は、データ処理技術の当業者によって使用され、他の当業者に彼らの仕事の本質をもっとも効果的に伝える手段である。ここで、また一般的にもそうであるが、アルゴリズムとは、所望の結果に導く、首尾一貫した一連のステップ（命令）であると考えられる。ステップとは、物理量の物理的操作を必要とするものである。必須ではないが、通常、これらの量は、格納され、転送され、結合され、比較され、もしくは操作されることが可能な、電気的、磁気的、または光学的信号の形態をとる。時には、主に共通使用という理由で、これらの信号を、ビット、値、要素、記号、文字、用語、数などとして参照すれば便利である。また、時には、一般性を失うことなく、物理量の物理的操作または変換や、物理量の表現を要する、特定の一連のステップをモジュールまたはコード装置として参照しても便利である。

しかしながら、これらのすべておよび同様の用語は、しかるべき物理量と関連付けられるべきであり、単にこれらの量に付けられる便利なラベルであるに過ぎない。特に別の説明がない限り、以下の説明から明らかなように、本明細書を通して、「処理する」または「コンピュータで計算する」または「計算する」または「判断する」または「表示する」または「判断する」等の用語を用いた説明は、コンピュータシステムメモリまたはレジスタまたは他のそのような情報記憶装置内の物理的な（電子的な）量として表されるデータを操作して変換する、コンピュータシステム、または（例えば、特定目的用計算機のような）同様の電子計算装置、もしくは伝送装置または表示装置の、作用と処理を参照している。

実施形態のいくつかの態様は、本明細書にアルゴリズムの形で記載されたステップや指示を含む。なお、実施形態の処理ステップおよび命令は、ソフトウェア、ファームウェア、またはハードウェアで具現化することができ、ソフトウェアで具現化されるときは、様々なオペレーティングシステムによって使用される異なるプラットフォームにダウンロードして常駐させ、そこから操作することができる。また、実施形態は、コンピュータシステム上で実行されるコンピュータプログラム製品であってもよい。

実施形態はまた、本明細書における動作を実行する装置にも関与している。この装置は、例えば、特定目的コンピュータのように、目的に応じて特別に構成されたものであってもよいし、コンピュータに格納されたコンピュータプログラムによって選択的に起動されまたは再構成される汎用コンピュータを備えてもよい。そのようなコンピュータプログラムは、フロッピー（登録商標）ディスク、光ディスク、ＣＤ‐ＲＯＭ、光磁気ディスク、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カードまたは光カード、特定用途向け集積回路（ＡＳＩＣ）、または電子命令を格納するのに適した任意の種類の媒体、を含む、任意の種類のディスクのような、しかしこれらに限定されない、コンピュータ可読記憶媒体に格納でき、そして各々がコンピュータシステムバスに結合されている。メモリ／記憶装置は、一時的であっても非一時的であってもよい。メモリは、上記のいずれを備えてもよく、および／または情報／データ／プログラムを格納できる他の装置を備えてもよい。さらに、本明細書でいうコンピュータは、単一プロセッサを備えてもよいし、コンピュータ能力を増すために、複数のプロセッサ設計を採用するアーキテクチャであってもよい。

本明細書で提示されるアルゴリズムおよび表示は、本質的に、特定のコンピュータまたは他の装置に関連するものではない。様々な汎用システムを使用して本明細書の教示によるプログラムを実行してもよいし、または、より専用の装置を構築して上記方法のステップを実行した方が、便利であるかもしれない。これらの様々なシステムの構成は、以下の記述から明らかであろう。また、本明細書に記述したように、実施形態の教示内容は、何らかの特定プログラミング言語を参照して記載されてはいない。様々なプログラミング言語を使用して、本明細書に記載されたように実施形態の教示内容を実施してもよく、実現方法とベストモードを開示するにあたって、以下で特定言語を参照する場合はその旨記載されている。

また、本明細書で使用される言葉遣いは、主として、読みやすさと教育目的のために選択されたものであり、本発明の主題を詳説したり制限したりするために選択されたものではない。したがって、実施形態の開示は、特許請求の範囲に記載されている、実施形態の範囲の説明に役立つことを意図しているが、それを限定するものではない。

この開示を読めば、当業者は、身振りを基にした対象物検索を実行するさらに別の方法およびシステムがあると理解するであろう。従って、本明細書の特定の実施形態および応用を図示し、説明してきたが、本開示は、本明細書に開示された構成およびコンポーネントと全く同じものに限定されるものではなく、添付の特許請求の範囲に規定されるような本発明の精神および範囲から逸脱することなく、本明細書に開示された本実施形態の方法および装置の配置、動作、および詳細について、同業者にとって明らかな種々の修正、変更、および変形ができることが理解されるべきである。

Claims

車両内の運転者の画像に関して動作認識を行なう方法であって、
コンピュータシステムによって、前記車両内の前記運転者の画像を受信するステップと、
複数の決定木を含むランダムフォレストモデルをアクセスするステップと、
前記ランダムフォレストモデルを用いて前記画像内で前記運転者が行なう動作について複数の予測を生成するステップであって、各予測は前記複数の決定木のうちの一つによって生成され、前記複数の予測は、各々予測される運転者動作と信頼度スコアから成る当該ステップと、
前記複数の予測を複数のグループにグループ化するステップであって、前記複数のグループの各々が前記ランダムフォレストモデルによって予測される前記運転者動作のうちの一つと関連付けられている当該ステップと、
前記予測の前記信頼度スコアを各グループ内で合算して、各グループと関連付けられた前記運転者動作に対する合計スコアを決定するステップと、
最も高い合計スコアと関連付けられた前記運転者動作を選択するステップと、を含む
ことを特徴とする方法。
前記信頼度スコアを合算するステップは、前記信頼度スコアを加算するステップを含む
ことを特徴とする、請求項１に記載の方法。
前記ランダムフォレストモデルを用いて前記複数の予測を生成するステップは、
前記複数の決定木の第一決定木に対して、前記ランダムフォレストモデルの前記第一決定木の、複数の子ノードを有する、親である枝ノードの第一テストパラメータに基づいて前記画像に第一テストを適用するステップと、
前記テストの結果に基づいて、前記親である枝ノードの前記子ノードうちの一つを選択するステップと、
前記選択された前記子ノードのうちの一つが枝ノードであることに応答して、前記選択された前記子ノードのうちの一つと関連付けられた第二テストパラメータに基づいて前記画像に第二テストを適用するステップと、
前記選択された前記子ノードのうちの一つが葉ノードであることに応答して、前記予測を生成し、前記生成された予測は前記葉ノードと関連付けられた前記運転者動作と前記信頼度スコアを含むステップと、を含む
ことを特徴とする、請求項１に記載の方法。
前記第一テストパラメータに基づいて前記第一テストを適用するステップは、
前記画像の複数の空間領域を選択するステップと、
前記画像の特徴を表す特徴媒体を選択するステップと、
閾値を選択するステップと、を含む
ことを特徴とする、請求項３に記載の方法。
前記画像は三次元画像を含み、前記選択された特徴媒体は三次元深度データを含む
ことを特徴とする、請求項４に記載の方法。
前記第一テストを適用するステップは、
前記選択された複数の空間領域のうち少なくとも二つの前記選択された特徴媒体の平均値の差を決定するステップと、
前記差を前記閾値と比較するステップと、を含む
ことを特徴とする、請求項４に記載の方法。
前記予測される運転者動作に基づいて車載システムから提供される通知を遅らせるステップを含む
ことを特徴とする、請求項１に記載の方法。
前記予測される運転者動作は、通常の運転動作、中央部小物入れに手を伸ばす動作、小物入れに手を伸ばす動作、頭上小物入れに手を伸ばす動作、ラジオの調整をする動作、電話で話す動作、およびミラーを調整する動作のうち少なくとも一つを含む
ことを特徴とする、請求項１に記載の方法。
前記ランダムフォレストモデルは、一連の名前の付いた学習用画像に基づいて学習される
ことを特徴とする、請求項１に記載の方法。
車両内の運転者の画像に関して動作認識を行なう命令を格納する持続性コンピュータ可読記憶媒体であって、前記命令がプロセッサによって実行されることで、前記プロセッサが、
コンピュータシステムによって、前記車両内の前記運転者の画像を受信するステップと、
複数の決定木を含むランダムフォレストモデルをアクセスするステップと、
前記ランダムフォレストモデルを用いて前記画像内で前記運転者が行なう動作について複数の予測を生成するステップであって、各予測は前記複数の決定木のうちの一つによって生成され、前記複数の予測は、各々予測される運転者動作と信頼度スコアから成る当該ステップと、
前記複数の予測を複数のグループにグループ化するステップであって、前記複数のグループの各々が前記ランダムフォレストモデルによって予測される前記運転者動作のうちの一つと関連付けられている当該ステップと、
前記予測の前記信頼度スコアを各グループ内で合算し、各グループと関連付けられた前記運転者動作に対する合計スコアを決定するステップと、
最も高い合計スコアと関連付けられた前記運転者動作を選択するステップと、を行なう
ようになっている
ことを特徴とする持続性コンピュータ可読記憶媒体。
前記信頼度スコアを合算するステップは、前記信頼度スコアを加算するステップを含む
ことを特徴とする、請求項１０に記載の持続性コンピュータ可読記憶媒体。
前記ランダムフォレストモデルを用いて前記複数の予測を生成するステップは、
前記複数の決定木の第一決定木に対して、前記ランダムフォレストモデルの前記第一決定木の、複数の子ノードを有する、親である枝ノードの第一テストパラメータに基づいて前記画像に第一テストを適用するステップと、
前記テストの結果に基づいて、前記親である枝ノードの前記子ノードうちの一つを選択するステップと、
前記選択された前記子ノードのうちの一つが枝ノードであることに応答して、前記選択された前記子ノードのうちの一つと関連付けられた第二テストパラメータに基づいて前記画像に第二テストを適用するステップと、
前記選択された前記子ノードのうちの一つが葉ノードであることに応答して、前記予測を生成し、前記生成された予測は前記葉ノードと関連付けられた前記運転者動作と前記信頼度スコアを含むステップと、を含む
ことを特徴とする、請求項１０に記載の持続性コンピュータ可読記憶媒体。
前記第一テストパラメータに基づいて前記第一テストを適用するステップは、
前記画像の複数の空間領域を選択するステップと、
前記画像の特徴を表す特徴媒体を選択するステップと、
閾値を選択するステップと、を含む
ことを特徴とする、請求項１２に記載の持続性コンピュータ可読記憶媒体。
前記第一テストを適用するステップは、
前記選択された複数の空間領域のうち少なくとも二つの前記選択された特徴媒体の平均値の差を決定するステップと、
前記差を前記閾値と比較するステップと、を含む
ことを特徴とする、請求項１３に記載の持続性コンピュータ可読記憶媒体。
前記第一テストを適用するステップは、
前記選択された複数の空間領域のうち少なくとも二つの前記選択された特徴媒体の平均値の差を決定するステップと、
前記差を前記閾値と比較するステップと、を含む
ことを特徴とする、請求項１３に記載の一過性コンピュータ可読記憶媒体。
動作認識のために、複数の決定木を含むランダムフォレストモデルを学習する方法であって、
コンピュータシステムによって、複数の学習用画像を受信するステップであって、各学習用画像が、車両内部で行なわれる運転者動作を示し、行なわれている運転者動作を識別する名前を有している当該ステップと、
前記複数の決定木のうちの一つである親ノードに対応するテストを生成するステップであって、前記テストは、一つ以上のテストパラメータを含む当該ステップと、
前記テストを各学習用画像に対して適用し、各学習用画像を少なくとも第一画像グループと第二画像グループを含む複数の画像グループに分類するステップと、
前記第一画像グループのエントロピー値が閾値未満であるかどうか判定するステップと、前記第一画像グループの前記エントロピー値が前記閾値未満であるという判定に応答して、前記第一画像グループと関連付けられた名前に基づいて、運転者動作と信頼度スコアを含む予測を生成するとともに、前記親ノードの一つの子ノードとして、前記予測と関連付けられた葉ノードを生成するステップと、
前記第一画像グループの前記エントロピー値が前記閾値未満でないと判定することに応答して、前記親ノードの一つの子ノードとして、前記第一画像グループと関連付けられた枝ノードを生成するステップと、を含む
ことを特徴とする方法。
前記テストを生成するステップは、
複数の空間領域を選択するステップと、
特徴媒体を選択するステップと、
閾値を選択するステップと、を含む
ことを特徴とする、請求項１６に記載の方法。
前記テストを適用するステップは、
所定の学習用画像に対して、前記複数の空間領域の各々の前記特徴媒体に対する平均値を決定するステップと、
前記複数の空間領域の第一空間領域と第二空間領域の前記平均値の差を決定するステップと、
前記差を前記閾値と比較して比較結果を生成するステップと、
前記所定の学習用画像を前記比較結果に基づいて前記複数の画像グループの一つに分類するステップと、を含む
ことを特徴とする、請求項１７に記載の方法。
前記葉ノードを生成するステップは、
前記第一画像グループ内の最大数の画像と関連付けられた運転者動作を決定するステップと、
前記第一画像グループのうち前記運転者動作と関連付けられた前記画像の百分率として前記信頼度スコアを計算するステップと、を含む
ことを特徴とする、請求項１８に記載の方法。
前記テストを生成するステップは、
第一サンプルテストを適用するステップと、
前記第一サンプルテストに対して、前記複数の学習用画像のエントロピー値と前記第一画像グループおよび前記第二画像グループの合計エントロピー値の差を表す第一情報利得値を決定するステップと、
第二サンプルテストを適用するステップと、
前記第二サンプルテストに対して第二情報利得値を決定するステップと、
最も高い情報利得値を有する前記テストを特定するステップと、を含む
ことを特徴とする、請求項１６に記載の方法。