JP2022519895A

JP2022519895A - ユーザの注目方向および外観を相関させるシステムおよび方法

Info

Publication number: JP2022519895A
Application number: JP2021547205A
Authority: JP
Inventors: ジョンピーコーデル，
Original assignee: Xevo Inc
Current assignee: Xevo Inc
Priority date: 2019-02-13
Filing date: 2020-02-12
Publication date: 2022-03-25
Also published as: EP3924207A1; US20200254876A1; US10882398B2; CA3127247A1; WO2020167974A1; AU2020221243A1; US20210078408A1; EP3924207A4

Abstract

実施形態は、自動車のユーザが見ているものに基づいて、カスタマイズされたコンテンツを自動車のユーザに提示するシステムを提供することを対象とする。第１のカメラは、自動車の車内のユーザの画像をキャプチャし、第２のカメラは、ユーザが見ているシーンの画像をキャプチャする。画像は、ユーザがシーン内の物体を見ているかどうかを判定するために分析される。ユーザがそのような物体を見ている場合、その物体に関連するコンテンツが選択され、ユーザに提示される。【選択図】図１

Description

本開示は、一般に、自動車に乗っている人が見ているものに基づいて、その人に動的でリアルタイムにコンテンツを選択および提示することに関する。

関連技術の説明
自動車は、ますますユーザフレンドリーでインタラクティブになっている。現在、多くの新たな車は、自動車の様々な態様を制御して様々なコンテンツやアプリケーションにアクセスするためにユーザが使用することができるヘッドユニットと呼ばれるユーザインターフェースを備えて製造されている。例えば、ユーザは、ヘッドユニットを使用して、ラジオ局を変更したり、車内の温度を変更したり、地図や全地球測位システムにアクセスしたり、インターネットにアクセスしたり、他のヘッドユニットアプリケーションにアクセスしたり、または自動車の他のアクセサリにアクセスもしくは制御したりすることができる。ヘッドユニットはまた、例をいくつか挙げると、自動車のオイル交換時期やタイヤローテーションが行われるべき時期など、様々な情報やコンテンツをユーザに提供することができる。しかしながら、この情報のほとんどは、自動車の操作のコンテキストに基づく根拠なしにユーザに提供される。

簡単に言えば、実施形態は、自動車のユーザが見ているものに基づいて、カスタマイズされたコンテンツを自動車のユーザに提示するシステムおよび方法を対象とする。第１のカメラは、自動車のユーザの画像をキャプチャし、第２のカメラは、ユーザが見ているシーンの画像をキャプチャする。画像は、分析されて、ユーザがシーン内の物体を見ているかどうかを判定する。ユーザが関心物体を見ている場合、その物体に関連付けられたコンテンツが選択され、ユーザに提示される。例えば、関心物体がレストランの看板である場合、ヘッドユニットは、自動車の現在位置からレストランへの道順を提示することができる。

また、危険物体や情報標識など、ユーザが注目を払う必要がある物体についてユーザに警告することもできる。例えば、第１および第２のカメラによってキャプチャされた画像は、道路に停止した動物または車などの危険物体が存在するかどうか、また存在する場合、ユーザが危険物体を見ているかどうかを判定するために分析されることができる。同様に、第１および第２のカメラによってキャプチャされた画像は、交通方向、迂回、または速度制限標識などの情報標識が存在するかどうか、また存在する場合、ユーザが情報標識を見ているかどうかを判定するために分析されることができる。ユーザが運転者であり、危険物体や情報標識を見ていない場合は、警報または警告が運転者に提示されて、運転者の注目を危険物体や情報標識に向けることができる。

したがって、コンテンツは、ユーザがそのようなコンテンツを要求するために追加のコマンドを実行したりまたは入力したりする必要なく、ユーザが見ているもの、または見るべきであるが見ていないアイテムに基づいて、ユーザ向けに特別にカスタマイズされることができる。

非限定的且つ非網羅的な実施形態が以下の図面を参照して説明される。図面において、特に明記しない限り、同様の参照符号は、様々な図を通して同様の部品を指す。

よりよく理解するために、以下の詳細な説明が参照されるが、これは、添付の図面と併せて読まれるべきである。

図１は、本明細書に記載の実施形態にかかる、複数のカメラを利用してユーザの注目と、そのユーザにコンテンツを提供するために何を見ているかと、を監視する自動車環境のコンテキスト図を示している。図２Ａは、本明細書に記載の実施形態にかかる、自動車の内部および外部の様々なビューの使用事例を示している。図２Ｂは、本明細書に記載の実施形態にかかる、自動車の内部および外部の様々なビューの使用事例を示している。図２Ｃは、本明細書に記載の実施形態にかかる、自動車の内部および外部の様々なビューの使用事例を示している。図３は、本明細書に記載の実施形態にかかる、自動車ユーザおよび自動車の前方のシーンを監視して、コンテンツを選択してユーザに提供するための概要プロセスの一実施形態を一般に示す論理フロー図を示している。図４は、本明細書に記載の実施形態にかかる、自動車内の既知の点に対してユーザの注目を較正するプロセスの一実施形態を一般に示す論理フロー図を示している。図５は、本明細書に記載の実施形態を実装するためのコンピューティングシステムの一実装形態を説明するシステム図を示している。

以下の説明は、添付の図面とともに、開示された様々な実施形態の完全な理解を提供するために、特定の詳細を説明する。しかしながら、当業者は、開示された実施形態が、これらの特定の詳細の１つ以上なしで、または他の方法、構成要素、デバイス、材料などを用いて、様々な組み合わせで実施されることができることを認識するであろう。他の例では、実施形態の説明が不必要に不明瞭になるのを避けるために、通信システムおよびネットワークおよび自動車環境を含むがこれらに限定されない、本開示の環境に関連する周知の構造または構成要素は、図示または説明されていない。さらに、様々な実施形態は、方法、システム、媒体、またはデバイスとすることができる。したがって、様々な実施形態は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態、またはソフトウェアとハードウェアとの態様を組み合わせた実施形態とすることができる。

明細書、特許請求の範囲、および図面全体を通じて、以下の用語は、文脈上明確に別段の指示がない限り、本明細書に明示的に関連付けられた意味をとる。「本明細書に」という用語は、本出願に関連する明細書、特許請求の範囲、および図面を指す。「一実施形態では」、「別の実施形態では」、「様々な実施形態では」、「いくつかの実施形態では」、「他の実施形態では」という句、およびそれらの他の変形は、本開示の１つ以上の特徴、構造、機能、制限、または特徴を指し、文脈上明らかに別段の指示がない限り、同一または異なる実施形態に限定されない。本明細書で使用される場合、「または」という用語は、包括的な「または」演算子であり、「ＡもしくはＢ、または双方」または「ＡもしくはＢもしくはＣ、またはそれらの任意の組み合わせ」という句と同等であり、追加の要素を有するリストは同様に扱われる。「に基づく」という用語は、排他的なものではなく、文脈上明らかに別段の定めがない限り、説明されていない追加の特徴、機能、態様、または制限に基づくことを可能にする。さらに、本明細書全体を通じて、「ａ」、「ａｎ」、および「ｔｈｅ」の意味は、単数および複数の言及を含む。

「ユーザ」という用語は、車両に乗っている、または車両によって輸送されている、または車両を制御している人物または乗員として定義される。ユーザは、自動車の運転者または乗員である。「物体」は、ユーザが知覚することができ、１つ以上のデジタル画像にキャプチャまたは記録されることができる現実世界のものとして定義される。「画像」は、カメラによって生成または提供されるデジタルデータの集合セットとして定義される。「カメラ」は、光に敏感で、画像を形成するための信号を生成するセンサとして定義される。カメラは、可視光または非可視光（またはその双方）に敏感とすることができる。

「コンテンツ」という用語は、車両のユーザに提示可能な物体に関する情報である。コンテンツは、視覚的コンテンツ、音声コンテンツ、触覚的コンテンツ、またはそれらの組み合わせを含むことができる。ビジュアルコンテンツは、テキスト、グラフィック、シンボル、ビデオ、またはディスプレイデバイスでユーザに表示されるその他の情報を含むことができる。オーディオコンテンツは、歌、ボーカル、音楽、チャイム、またはスピーカを介してユーザに提供されるその他の種類のサウンドを含むことができる。触覚的コンテンツは、触覚インターフェースを介してユーザに提供される振動、パルス、またはその他のタイプのタッチベースの感覚を含むことができる。一般的なタイプのコンテンツは、これらに限定されるものではないが、広告、スポーツの試合結果や情報、道順、レストランのメニュー、クーポン、説明情報、緊急時の指示などを含むことができる。

「車両」という用語は、人や物（またはその双方）を輸送するために使用されるデバイスとして定義され、例としては、自動車、バス、航空機、ボート、電車を含む。以下の文章の大部分は自動車に焦点を当てているが、本明細書で説明する概念の適用は、そのような自動車に限定されるものではない。「プロセッサ」は、少なくとも何らかの回路または命令を実行することができる他のハードウェアを備えた構成要素として定義される。「ヘッドユニット」は、単一のユニットの一部またはユニットの集合の一部であるかどうかにかかわらず、その少なくとも一部が画像処理または画像処理から生じる現在のコンテンツ（またはその双方）に関連する計算を実行するように構成された回路を含む１つ以上の構成要素として定義される。「基準システム」は、ポイント、角度、位置、物体、または車両、車両のユーザ、もしくは車両に関連するいくつかの構成要素に対する物体の位置を判定するために使用される他のマーカーのシステムとして定義される。

「注目方向」という用語は、特定の瞬間におけるユーザの視線、または焦点または注目の主な点（または領域）として定義される。「注目位置」という用語は、ユーザの視線、ユーザの１つ以上の身体部分（またはその双方）の位置など、ユーザの注目方向を判定するために使用されるユーザに関連するデータとして定義される。「関心物体」または「対象物体」は、ユーザの注目方向と一致するか、さもなければ対象となる物体として定義される。「危険物体」は、車両やユーザに損傷（潜在的な損傷を含む）を与える物体として定義される。「情報標識」という用語は、車両の操作または道路もしくはその他の経路の使用に関連する情報を提示する物理的な媒体として定義される。

本明細書に記載の実施形態は、一般に、ユーザが物体を見ているか否か、物体に向かっているかを判定するものとして説明される。しかしながら、これらの実施形態は、ユーザが物体を見ている方法の複数の分類を利用または採用することができる。これらの分類は、ユーザが物体に向けている焦点の量または注目の量に基づくことができる。いくつかの実施形態では、分類は、注目レベルと呼ばれることがある。注目レベルは、いくつかの要因によって測定されることができる。１つの要因は、ユーザが物体を見ている時間量である。別の要因は、ユーザが物体を見ている回数である。さらに別の要因は、ビューの回数のタイミングと各ビューの異なる時間シーケンスである。１つの非限定的な第１の例では、ユーザが物体を見ている時間量に基づいて、以下の４つの注目レベルが存在することができる：垣間見る、一瞥する、注視する、凝視する。連続する各レベルは、ユーザの注目の増加に関連付けられる。ユーザが見ている方向は、ユーザの注目方向と呼ばれることがあり、注目方向を生じさせる、またはそうでなければ注目方向に寄与する態様は、注目位置と呼ばれることがある。

垣間見ることは、ユーザが一時停止せずに物体全体に目を向けたときである。一実施形態では、垣間見ることは、第１の閾値よりも短い時間、物体を見るように配置されるユーザの眼によって識別されることができる。逆に、一瞥すること、注視すること、および凝視することのそれぞれの場合、ユーザは、第１の閾値以上の時間、物体に対する自己の視認位置を維持する。したがって、一瞥することは、第１の閾値以上且つ第２の閾値未満の時間、物体を見るように配置されたユーザの眼によって識別されることができる。注視することは、第２の閾値以上且つ第３の閾値未満の時間、物体を見るように配置されたユーザの眼によって識別されることができる。そして、凝視することは、第３の閾値以上の時間、物体を見るように配置されたユーザの眼によって識別されることができる。様々な実施形態では、第１の閾値は、一瞥閾値と呼ばれ、第２の閾値は、注視閾値と呼ばれ、第３の閾値は、凝視閾値と呼ばれる。

別の実施形態では、注目レベルは、主に異なるビューまたは個別ビューの回数に基づく。運転者が物体を一瞥した後、異なる場所を見て、それらの長さに関係なく、物体においてより多くのビューを有する場合、このアクションのシーケンスは、物体における関心レベルが高いことを示すことができる。ユーザが物体を垣間見て、その最初の行動に続いて、道路や別の物体を一瞥することでその注視が互いに離れている場合、これらのイベントは、その物体に関してより高い注目レベルを示すことができる。ユーザが道路を見るために２回の一瞥を挟んで物体を３回注視する場合、このシーケンスは、ユーザが２回の一瞥と、一瞥間に別の方向の注視で物体を垣間見る場合よりも、物体に対してより高い注目レベルを示すことができる。したがって、ユーザによる物体の繰り返しビュー、および繰り返しビューのシーケンスを検出することは、物体におけるユーザによる関心レベルの指標とすることができる。

いくつかの実施形態では、ユーザが物体を見ている時間は、選択された期間中に物体を見ている複数回にわたって加算されてもよい。そして、所定の期間にわたるこれらの視認時間の累積合計は、閾値（または他の分類）のスペクトルと比較されることができ、合計が閾値を超える場合、合計は、対応する注目レベルの検出をもたらすことができる。例えば、ユーザが選択期間（例えば、２秒）内に物体を複数回一瞥し、全ての一瞥の合計時間が注視閾値を超えている場合、ユーザは、物体を注視していると判定される。同様に、全ての一瞥からの合計時間が所定の期間、凝視閾値を超えている場合、ユーザは、物体を凝視していると判定される。同様の時間の集合はまた、垣間見ると注視、および垣間見る、一瞥、および注視の異なる組み合わせに使用されることができる。例えば、ユーザが最初に物体を垣間見てから物体を注視した場合、および一瞥および注視からの合計時間が凝視閾値を超えている場合、ユーザは、物体を凝視していると判定される。しかしながら、合計時間がまだ凝視閾値を下回っている場合、ユーザは、物体を注視していると判定される。

前述は、ユーザが物体を見ている時間の観点からユーザの注目を説明しているが、時間の代わりに、またはそれに加えて、追加の要因も使用されてユーザの注目レベルを判定することもできる。いくつかの実施形態では、視認の異なる回数および組み合わせは、物体に対するより高い量のユーザの注目を示すことができる。例えば、ユーザが、一瞥閾値よりも長く且つ注視閾値未満の時間によって定義されるように、物体を一瞥した後、第２の一瞥を行った場合、２回の一瞥は、合計の視認時間に関係なく、ユーザが物体に高いレベルの関心を有していることを示すことができ、注視としてまとめて定義されることができる。同様に、垣間見た後に２回一瞥することは、凝視と同等とすることができる。したがって、垣間見ること、一瞥すること、および注視することの合計回数が異なると、物体を見ているユーザの注目レベルが増加することができる。様々な実施形態では、見ること、視認時間、および結果として生じる注目レベルの異なる組み合わせのデータベースが記憶されることができる。

追加の実施形態は、ユーザの注目レベルまたはユーザの視認方向を判定するために、ユーザによるジェスチャの分析を含むことができる。例えば、ユーザが物体を指差した場合、そのユーザの注目レベルは、ユーザが物体を見た時間に起因する注目レベルよりも高くなることができる。システムはまた、ポインティングジェスチャのみを通じてユーザの視認方向を判定することもでき、または、この情報を使用して、ユーザの焦点の最初の発見を確認または補足することもできる。別の例として、第１のユーザが物体を見て、第２のユーザと話し始め（これは、口の動きについて顔を分析する顔認識技術、または音声キャプチャおよび分析を通じて判定されることができる）、その後に第２のユーザが物体を見た場合、第１のユーザの注目レベルは、第１のユーザが物体を見た時間のみに起因する注目レベルよりも高くなることができる。したがって、ユーザが１つ以上の検出された動作を通じて物体に注目を集中させるほど、ユーザが物体に与えている注目が高くなる。

上記の例では、一般に、自動車内の各ユーザの注目レベルの判定について説明している。しかしながら、いくつかの実施形態では、自動車内の全てのユーザについて、集約された注目レベルが判定されてもよい。少なくとも１つのそのような例では、自動車内の各ユーザが同じ物体を見た合計時間が組み合わされて、一瞥閾値、注視閾値、または凝視閾値を超えているかどうかを判定する。別の例では、第１のユーザが物体を見て他のユーザと話し始め、他のユーザが応答せずに物体を見た場合、その物体の集約された注目レベルは、第１のユーザがかなり長い間（例えば、凝視閾値を超えて）物体を見ていたとしても、集合単位としてのユーザについて比較的低くなることができる（例えば、一瞥として識別される）。

物体は、車両の１つ以上のカメラによってキャプチャされた１つ以上の画像内の物理的なものとして定義される。物体は、人、動物、人工建造物、および自然の物品を含むことができる。一部の物体は、ユーザに情報を提示する物体、またはユーザが関心を持つ可能性のある情報に関連する物体である、関心物体と見なされることができる。関心物体の例は、これらに限定されるものではないが、看板、店舗看板、広告、ポスター、他のタイプのコンテンツ提示物体、またはランドマークを含む。一部の物体は、危険物体と見なされることができ、これは、現在、自動車またはその運転者または乗員の安全に脅威を与える、または脅威を与える可能性のある物体である。危険物体の例は、これらに限定されるものではないが、歩行者、道路内またはその隣の動物、道路で停止している車、くぼみ、または自動車またはその乗員の安全を脅かすその他の物体を含む。車道または運転者の指示もしくは要求に関する情報をユーザに提示する情報標識も物体とすることができる。情報標識の例は、これらに限定されるものではないが、制限速度、道路標識、迂回路標識、ナビゲーション標識、もしくは一時停止標識、または交通信号灯、信号機、またはその他の運転関連のエンブレムを含む。

図１は、本明細書に記載の実施形態にかかる、複数のカメラ（または他の撮像デバイス）を利用してユーザを監視し、コンテンツを提供するためにユーザが何を見ているかを判定するのに役立つ自動車環境のコンテキスト図を示している。

システム１００は、ヘッドユニット１０４、内部カメラ１１０、外部カメラ１１２、および出力インターフェース１１６を有する自動車１０２を含む。様々な実施形態では、自動車１０２はまた、１つ以上のアクセサリ１０８ａ～１０８ｃも含み、出力インターフェース１１６は、自動車１０２のユーザにコンテンツを提供する。本明細書に記載される例示的な例では、自動車１０２のコンピューティングデバイスは、ヘッドユニット１０４であるが、他のタイプのコンピューティングデバイスが使用されてもよい。さらに、この説明は、主に自動車に言及しているが、同様の実施形態はまた、航空機、船舶、鉄道車両、および他の輸送手段にも採用されることができる。

ヘッドユニット１０４は、自動車１０２のユーザにコンテンツ、インタラクティブコントロール、ユーザインターフェース、または他の情報を提供するコンピューティングデバイスである。実例として、ヘッドユニット１０４は、ナビゲーションインターフェース、オーディオおよびラジオコントロール、環境コントロール、自動車の性能または保守情報、または他のタイプのコンテンツを提供することができる。

内部カメラ１１０は、自動車１０２に搭載または埋め込まれたカメラであり、自動車１０２のユーザの顔をキャプチャするために、自動車１０２の正面からなど自動車１０２の内部の画像をキャプチャするように構成される。このように、内部カメラ１１０は、自動車１０２内の１人以上のユーザの眼および頭の画像をキャプチャして、ユーザの注目および彼らがどこを見ているかを判定するように配置および配向される。前述のように、ユーザは、自動車１０２の運転者または自動車１０２の運転者以外の乗員とすることができる。したがって、内部カメラ１１０は、運転者、特定の乗員もしくはシート、またはそれらの組み合わせの画像をキャプチャするように配置されることができる。例えば、図２Ｂは、内部カメラ１１０からキャプチャされた画像の使用例を示している。一構成では、自動車１０２は、複数の内部カメラ１１０を装備することができる。

外部カメラ１１２は、自動車１０２に搭載または組み込まれたカメラであり、自動車の外の風景または領域の画像をキャプチャするように構成される。シーンまたは領域の全てまたは一部は、自動車１０２の１人以上のユーザが見ることができるが、それらのいくつかは、ユーザに見えない場合がある。このようにして、外部カメラ１１２は、各ユーザが見ているもの、見ている可能性があるもの、または見るべきものをキャプチャするような方法で配置および配向される。内部カメラ１１０のように、自動車は、複数の外部カメラ１１２を装備することができる。

一例として、外部カメラ１１２は、道路および道路上または道路脇に位置するあらゆる物体を含む自動車１０２の前方のシーンをキャプチャするように構成されることができる。本明細書に記載され、図２Ａに示されるように、そのような物体は、看板２１０（または他の関心物体）、鹿２１８（または他の危険物体）、または速度標識２１７（または他の情報標識）を含むことができる。これらの物体は、画像認識および画像処理技術によって、外部カメラ１１２によってキャプチャされた画像内で識別されることができる。

内部カメラ１１０は、自動車１０２のユーザの対応する画像をキャプチャして、外部カメラ１１２によってキャプチャされた画像において識別された物体を見ているユーザが１人以上いるかどうかを判定する。ユーザが物体を見ている、または見るべきであるとシステムが判定した場合、システムは、その物体に関連付けられたコンテンツをユーザに提供する。このプロセスに関する追加情報は、以下に提供される。

看板（すなわち、関心物体）を見ているユーザに応答してユーザに提供されることができるコンテンツの一例は、看板に記載されたレストランへの道順またはそれに関する広告とすることができる。このように、ユーザは、看板にメッセージや情報を書き留めたり、記憶したりする必要がない。代わりに、看板メッセージの詳細は、分析され、テキストメッセージまたは電子メールなどを介して、出力インターフェース１１６、ヘッドユニット１０４、またはユーザのモバイルデバイス１１４を介して運転者に提供される。ユーザが鹿２１８を見ないことに応答してユーザに提供されることができるコンテンツの別の例は、物体が道路にあるという可聴警告とすることができる。ユーザが速度標識を見ていないことに応答してユーザに提供されることができるコンテンツのさらに別の例は、制限速度に変更があるという光または視覚的警告とすることができる。ユーザが危険物体または情報標識を見ている場合、システムは、ユーザに警報または警告を提供する必要がない場合がある。警報または警告は、聴覚的、視覚的、または触覚的な性質のもの、またはこれら３つのタイプの任意の組み合わせとすることができる。

別の構成では、ユーザが応答しない場合、自動車１０２の任意の数の安全機能が作動されることができる。例えば、自動車１０２の安全システム（図示せず）は、物体への衝突を防止するために、自動車１０２のブレーキを自動的にかけたり、ステアリングを指令したりすることができる。

したがって、本明細書に記載の実施形態は、外部カメラ１１２および内部カメラ１１０からキャプチャされた画像を分析して、ユーザが関心物体、危険物体、または情報標識を含む物体を見ているかどうかを判定するために利用されることができる。

様々な実施形態では、ヘッドユニット１０４は、モバイルデバイス１１４またはリモートサーバ１２４などの他のコンピューティングデバイスと通信するように構成されることができる。例えば、ヘッドユニット１０４は、通信ネットワーク１２２を介してリモートサーバ１２４から、ヘッドユニット１０４が出力インターフェース１１６を介して出力することができるコンテンツを受信することができる。そのようなコンテンツは、本明細書で説明するように、ユーザが見ていると特定される物体に関連付けられることができる。

様々な実施形態では、ヘッドユニット１０４または他の何らかのコンピュータなどの車載コンピュータは、内部カメラ１１０および外部カメラ１１２を介してキャプチャされた画像の処理を実行する。少なくとも１つの実施形態では、画像処理は、自動車１０２上の別のコンピューティングデバイスによって、またはモバイルデバイス１１４またはリモートサーバ１２４などの自動車１０２から分離されたリモートコンピューティングデバイスによって実行されることができる。同様に、いくつかの実施形態では、ヘッドユニット１０４などの車載コンピュータは、本明細書に記載のコンテンツ選択を実行する。他の実施形態では、モバイルデバイス１１４、リモートサーバ１２４、またはいくつかの他のコンピューティングデバイスは、コンテンツ選択を実行することができる。したがって、画像処理およびコンテンツ選択に関して本明細書で説明する機能は、ヘッドユニット１０４、リモートサーバ１２４、モバイルデバイス１１４、または他のコンピューティングデバイスまたはそれらの何らかの組み合わせによって実行されることができる。

例えば、ヘッドユニット１０４などの車載コンピュータは、画像を分析し、ユーザがどの物体を見ているかを判定し、その物体に関連するコンテンツの要求をリモートサーバ１２４に送信することができる。それに応じて、リモートサーバ１２４は、コンテンツをヘッドユニット１０４に返すことができる。次に、ヘッドユニット１０４は、本明細書で説明するように、出力インターフェース１１６を介してコンテンツを出力することができる。デジタル画像処理の効率を最大化するために、車載コンピュータ（ヘッドユニット１０４など）は、１つ以上のグラフィック処理ユニット（「ＧＰＵ」）を含むことができる。

別の例として、ヘッドユニット１０４などの車載コンピュータは、コンテンツの要求とともに画像をモバイルデバイス１１４またはリモートサーバ１２４に送信することができる。それに応じて、モバイルデバイス１１４またはリモートサーバ１２４は、画像を分析し、ユーザが見ている物体に基づいてコンテンツを選択することができる。次に、モバイルデバイス１１４またはリモートサーバ１２４は、出力インターフェース１１６を介して出力するために、選択されたコンテンツをヘッドユニット１０４に送信することができる。自動車１０２の一部であるか遠隔であるかにかかわらず、他のデバイスまたはシステムは、画像を処理し、画像内の物体を識別し、識別された物体に関連するコンテンツを検索または生成するように構成されることができる。

一構成では、このアクティビティに関与するデバイスまたはシステムは、物体の識別を支援するために、１つ以上の機械学習（「ＭＬ」）モデル（深層学習モデルを含むことができる）によってプログラムされることができる。例えば、ヘッドユニット１０４またはヘッドユニット１０４と通信可能に結合された自動車１０２の別の車載コンピュータに、これらのＭＬモデルの１つ以上がロードされることができる。さらに、クラウドベースのソリューションの一部であるリモートサーバ１２４または他のシステムには、自動車１０２および他の車両からの画像も処理することができる１つ以上のＭＬモデルがロードされることができる。リモートサーバ１２４（または他のシステム）のＭＬモデルの改善は、自動車１０２のヘッドユニット１０４または車載コンピュータ上の任意のＭＬモデルに供給され、これらのローカルモデルがそのようなリモート処理の恩恵を受けることを可能にする。ＭＬモデルのこれらの機能強化は、他の車両にローカルに記憶されたＭＬモデルにも提供されることができる。

出力インターフェース１１６は、自動車１０２のユーザにコンテンツを出力するように構成されたインターフェースである。出力インターフェース１１６は、ディスプレイデバイスなどの視覚インターフェース、スピーカなどの音声出力インターフェース、または触覚出力デバイスなどの触覚インターフェース、またはそれらの組み合わせを含むことができる。したがって、出力インターフェース１１６は、視覚、音声、または触覚的コンテンツ、またはそれらの何らかの組み合わせを出力するように構成される。いくつかの実施形態では、出力インターフェース１１６またはその一部は、ヘッドユニット１０４から分離されるか、またはその一部であってもよい。例えば、ヘッドユニット１０４は、出力インターフェース１１６の１つの構成要素として内蔵ディスプレイデバイスを含み、出力インターフェース１１６の別の構成要素としてヘッドユニット１０４の外部にある別個のスピーカを含むことができる。

少なくとも１つの実施形態では、モバイルデバイス１１４は、ヘッドユニット１０４とリモートサーバ１２４との間の中間デバイスとして機能する。このようにして、モバイルデバイス１１４は、画像またはコンテンツ要求をヘッドユニット１０４からリモートサーバ１２４（または他のシステム）に転送して処理するか、または選択されたコンテンツをリモートサーバ１２４からヘッドユニット１０４に転送することができる。いくつかの他の実施形態では、モバイルデバイス１１４は、選択されたコンテンツをモバイルデバイス１１４のディスプレイデバイス上でユーザに表示するか、またはヘッドユニット１０４を通して提示するためにヘッドユニット１０４にそれを投影することができる。別のオプションとして、ヘッドユニット１０４は、長距離通信を交換するためのデータ通信モジュール（「ＤＣＭ」）を含むことができる。この場合、リモートサーバ１２４（または他のシステム）は、モバイルデバイス１１４のような中間デバイスの支援なしに、関連コンテンツをヘッドユニット１０４に送信することができる。

いくつかの実施形態では、リモートサーバ１２４、ヘッドユニット１０４、およびモバイルデバイス１１４は、通信ネットワーク１２２を介して互いに通信する。通信ネットワーク１２２は、１つ以上のデバイスから１つ以上の他のデバイスにデータを送信するために、様々なコンピューティングデバイスを結合するように構成される。通信ネットワーク１２２は、セルラーネットワーク、メッシュネットワークなどの様々な形態の通信技術およびトポロジーを使用して採用されることができる様々な無線ネットワークを含む。モバイルデバイス通信ネットワーク１２０、通信ネットワーク１２２、およびアクセサリ通信ネットワーク１０６は、図示されるように、別個の通信ネットワークとすることができるか、またはそれらのいくつかは、同じ通信ネットワークの一部であるか、またはネットワークコンポーネントを共有することができる。

様々な実施形態では、ヘッドユニット１０４は、モバイルデバイス通信ネットワーク１２０を介してモバイルデバイス１１４と通信する。モバイルデバイス通信ネットワーク１２０は、モバイルデバイス１１４をヘッドユニット１０４と結合して、モバイルデバイス１１４とヘッドユニット１０４との間でコンテンツ／データを送信するように構成される。デバイス間で通信される情報は、現在のアクセサリのステータスまたはデータ、アクセサリデータへのアクセス要求、アクセサリの制御または変更の要求、ビデオデータ、音声データ、画像データ、テキストデータ、または他のタイプのコンテンツ、データ、または情報を含むことができる。通信ネットワーク１２０は、モバイルデバイス１１４とヘッドユニット１０４との間の通信を可能にするために、古典的なブルートゥース（登録商標）またはブルートゥース低エネルギープロトコルを利用するパーソナルエリアネットワーク、またはＩＲ光ネットワークなどの様々な短距離無線通信ネットワークを含むことができる。

リモートサーバ１２４は、１つ以上のサーバまたは他のクラウドリソースなどのコンピューティングデバイスの任意の組み合わせであり、自動車１０２から離れており、コンテンツまたは他の情報をヘッドユニット１０４またはモバイルデバイス１１４に提供することができる。リモートサーバ１２４は、単一のデバイスとして示されているが、実施形態はそれに限定されるものではない。むしろ、リモートサーバ１２４は、１つ以上の機能を実行する１つ以上のコンピュータデバイスとすることができる。

モバイルデバイス１１４は、自動車１０２またはリモートサーバ１２４のヘッドユニット１０４と通信可能な任意のデバイスを含む。モバイルデバイス１１４は、ヘッドユニット１０４またはリモートサーバ１２４との間で情報、コンテンツ、またはコントロールを送受信するように構成および構造化される。モバイルデバイス１１４の例は、ラップトップコンピュータ、スマートフォン、タブレットコンピュータ、ウェアラブルコンピューティングデバイス、他のスマートデバイス、または他のハンドヘルドコンピューティングデバイスを含む。

いくつかの実施形態では、ヘッドユニット１０４は、１つ以上のアクセサリ１０８ａ～１０８ｃの情報にアクセスまたは受信するか、またはその使用を制御するように構成されることができる。アクセサリ１０８ａ～１０８ｃは、ユーザが制御可能な任意の自動車ユーティリティまたはデバイスを含むことができる。これらのアクセサリの例は、調整可能なシート、サンルーフ、サイドミラー、バックミラー、エアコン、パワーウィンドウ、または自動車１０２の他の制御可能な機能を含む。アクセサリ１０８ａ～１０８ｃはまた、情報またはデータをユーザに提供する事実上あらゆる自動車ユーティリティまたはデバイスを含むことができる。これらのアクセサリの例は、これらに限定されるものではないが、速度計、走行距離計、油圧計、温度計、または自動車のユーザに情報を提供する他の自動車センサを含む。アクセサリ１０８ａ～１０８ｃは、さらに、ユーザと双方向の対話を行うヘッドユニット１０４上で実行されるアプリケーションを含むことができる。これらのアクセサリの例は、これらに限定されるものではないが、ナビゲーション、オーディオおよびラジオコントロール、テレビまたは音楽アプリケーション、環境コントロールアプリケーション、自動車の性能または保守アプリケーション、またはその他のアプリケーションを含む。一部のアクセサリは、データのみを出力することができ、一部のアクセサリは、アクセサリを操作するためのコントロールのみを受信することができ、一部のアクセサリは、データの入出力を行うことができることに留意されたい。例えば、速度計は、自動車の現在の速度のみを出力することができる。パワーウィンドウは、ウィンドウを上下に移動するためのコントロールのみを受信することができるが、ヘッドユニットに情報を返すことはできない。ナビゲーションシステムは、目的地に関するコントロールを受信し、目的地までの提案された旅行ルートを返すこともできる。これらの例は、網羅的ではなく、他のタイプのアクセサリも使用されることができることにさらに留意されたい。

ヘッドユニット１０４は、アクセサリ通信ネットワーク１０６を介してアクセサリ１０８ａ～１０８ｃと通信することができる。アクセサリ通信ネットワーク１０６は、アクセサリ１０８ａ～１０８ｃをヘッドユニット１０４と結合して、アクセサリ１０８ａ～１０８ｃとヘッドユニット１０４との間でコンテンツ／データを送信するように構成される。デバイス間で通信される情報は、現在のアクセサリの状態またはデータ、アクセサリ制御データ、ビデオデータ、音声データ、画像データ、テキストデータ、または他のタイプのコンテンツ、データ、または情報を含むことができる。アクセサリ通信ネットワーク１０６は、１つ以上の物理ネットワーク、１つ以上の無線通信ネットワーク、１つ以上のアプリケーションプログラムインターフェース、または、１つのアクセサリから別のアクセサリへ、アクセサリからヘッドユニット１０４へ、またはヘッドユニットからアクセサリへデータを送信することができる１つ以上の他のネットワーク、または、ヘッドユニット１０４と通信するアクセサリのタイプに応じてそれらのいくつかの組み合わせを含むことができる。例えば、アクセサリ通信ネットワーク１０６は、有線コントローラエリアネットワーク、ブルートゥース低エネルギープロトコルを利用するパーソナルエリアネットワークなどの短距離無線通信ネットワーク、または任意の他のタイプのネットワークなどの車体通信ネットワークを含むことができる。

いくつかの実施形態では、アクセサリデータは、ユーザが注意散漫であるか、または危険物体などの物体の存在に気付いていないかどうかを判定するのに役立つことができる。例えば、外部カメラ１１２は、多くの場合、道路上の他の自動車の画像をキャプチャすることができる。別の自動車が自動車１０２と同じ方向および速度で走行している場合、それは自動車１０２に脅威を与えず、危険物体として識別されなくてもよい。しかしながら、他の自動車が自動車１０２の前方で急ブレーキをかけた場合、その自動車は、自動車１０２にとって危険物体になることができる。また、運転者がブレーキをかけている自動車を見ていなかったり、その後にブレーキをかけていなかったりする場合、ユーザに警告が提供されることができる。これらの例では、自動車１０２の速度計およびブレーキ状態（アクセサリ１０８ａ～１０８ｃに含まれる）が利用されて、自動車１０２の運転者が自動車のブレーキに反応したかどうかを判定する。このアクセサリデータは、単独で、またはユーザの画像分析と組み合わせて、ＭＬモデルによって分析されたデータの一部を形成するなど、システムの精度をさらに向上させるために使用されることができる。

いくつかの他の実施形態では、ヘッドユニット１０４は、モバイルデバイス通信ネットワーク１２０を介してモバイルデバイス１１４と通信し、モバイルデバイス１１４とアクセサリ１０８ａ～１０８ｃとの間の通信を容易にする中間デバイスとして機能することができる。ヘッドユニット１０４は、モバイルデバイス１１４とアクセサリ１０８ａ～１０８ｃとの間のゲートウェイとして機能し、アクセサリ１０８ａ～１０８ｃの制御およびアクセサリデータの転送を許可または制限するための認証および許可を提供することができる。このようにして、ユーザは、モバイルデバイス１１４を介してアクセサリ１０８ａ～１０８ｃからの情報にアクセスしたり、制御したりすることができる。

図２Ａ～図２Ｃは、本明細書に記載の実施形態にかかる、自動車の内部および外部の様々なビューの使用事例を示している。図２Ａは、自動車１０２の運転者の視点からなど、自動車１０２のほぼ前方のシーン２０４を見ている自動車１０２の内部からの例２００Ａを示している。自動車１０２は、フロントガラス２０６、バックミラー２０８、サイドミラー２１２ａおよび２１２ｂ、ダッシュボード２１４、ヘッドユニット１０４、内部カメラ１１０、および外部カメラ１１２を含む。

この例では、内部カメラ１１０は、自動車１０２の客室の画像をキャプチャするために自動車１０２上に配置されている。したがって、自動車１０２のユーザは、通常、これらの画像の一部を形成する。また、この例では、外部カメラ１１２が自動車１０２に配置され、外部環境の画像をキャプチャする。ここで、外部環境は、自動車１０２のユーザに少なくとも部分的に見えるシーン２０４を含むことができるが、ユーザの視覚的範囲を超えた他の領域は、画像の主題とすることができる。一構成では、内部カメラ１１０は、自動車１０２のダッシュボード２１４に組み込まれ、外部カメラ１１２は、フロントガラス２０６に取り付けられる。実施形態は、内部カメラ１１０および外部カメラ１１２のこれらの位置に限定されるものではない。むしろ、内部カメラ１１０および外部カメラ１１２は、自動車１０２の他の態様に配置または搭載されるか、またはその中に組み込まれることができる。例えば、内部カメラ１１０は、バックミラー２０８やヘッドユニット１０４に内蔵され、外部カメラ１１２は、自動車１０２のバックミラー２０８やフロントバンパー（図示せず）に内蔵されることができる。

図示されていないが、いくつかの実施形態では、自動車１０２は、異なる角度から、または他のユーザを含むユーザの画像をキャプチャするために、複数の内部カメラを含むことができる。同様に、いくつかの実施形態では、自動車１０２は、自動車の外部の異なる領域の画像をキャプチャするために複数の外部カメラを含むことができる。１つの内部カメラおよび１つの外部カメラからの画像を較正および処理するための本明細書で説明する機能は、複数の内部または外部カメラに対して同様に実行されることができる。

図示の例では、外部カメラ１１２によってキャプチャされたシーン２０４は、３つの視認可能領域シーン２０４ａ～２０４ｃを含み、２０４ａは、フロントガラス２０６を通して視認可能な領域であり、シーン２０４ｂおよび２０４ｃは、それぞれ、サイドミラー２１２ａおよび２１２ｂに隣接するサイドウィンドウを通して視認可能な領域である。外部カメラ１１２は、自動車１０２の実質的に前方のシーン２０４をキャプチャするように配置および構成されているが、外部カメラ１１２は、自動車１０２の左または右、または上、下、または後方までユーザが視認可能な領域をキャプチャするように配置および構成されることができる。

自動車１０２が運転されているとき、内部カメラ１１０は、自動車１０２内のユーザの画像をキャプチャする一方で、外部カメラ１１２は、シーン２０４の対応する画像をキャプチャしている。内部カメラ１１０および外部カメラ１１２の動作は同期していてもよく、すなわち、カメラは、同じフレームレートで動作し、カメラによって生成された画像は、時間的に一致または整列される。このステップを通じて、外部カメラ１１２からの写真に対する内部カメラ１１０によって生成された写真の比較分析の精度を高めることができる。オプションとして、内部カメラ１１０および外部カメラ１１２の双方によって生成された画像は、下流処理中または下流処理のために同期性を維持するように、タイムスタンプを付けられるか、または時系列に配列されてもよい。

一実施形態では、内部カメラ１１０および外部カメラ１１２のフレームレートは、毎秒３０フレームなどの標準速度に設定されることができる。あるいは、カメラのフレームレートは、調整可能とすることができる。フレームレートは、状況やイベントによって変更されることができる。例えば、フレームレートは、自動車が遅い速度で運転されている場合はレートを下げるなど、自動車１０２の速度に基づいて調整されてもよい。自動車１０２がスピードアップすると、それに応じてフレームレートを上げることができる。別の例として、自動車１０２の近くの交通量または自動車が動作している設定の密度を考慮して、フレームレートが調整されてもよい。具体的には、自動車１０２が遠く離れた、往来が少ないエリアで運転されている場合、物体に遭遇する可能性が低下するため、フレームレートは低減されてもよい。逆に、都市部では、フレームレートを上げることができる。フレームレートを下げることは、物体を識別するために分析される画像の数を減らすことができる。

一構成では、内部カメラ１１０および外部カメラ１１２は、双方とも、人間の眼に見える電磁スペクトルの部分である可視スペクトルで動作するように構成されることができる。さらに、カメラの一方または双方は、人間には見えない電磁スペクトルの残りの範囲である非可視スペクトルで動作するように構成されることができる。この特徴は、いずれかのカメラが夜間または暗い場所で動作することを可能にすることができる。カメラはまた、赤緑青（「ＲＧＢ」）カメラとすることができ、必要に応じて、近赤外線などの他のスペクトルバンドからの光がイメージセンサ回路に到達することができるように、１つ以上のバンドパスフィルタを装備することができる。

内部カメラ１１０および外部カメラ１１２は、かなりの量のデータを生成することができるため、それを制御するために１つ以上の特徴が実装されることができる。例えば、画像内の物体の一部は、画像が分析される前にフィルタリングされることができ、このプロセスは、背景のクラッタを低減し、送信および処理されるデータの量を削減することができる。この前処理ステップは、物体を識別する必要なく行うことができる。具体例として、カメラによって生成された現在のフレームが参照フレームとして設定されることができ、以前に生成されたフレームが参照フレームから差し引かれて、重要でない物体に関連付けられたデータを削除することができる。重要でない物体は、背景が雑然としていて、ユーザまたは自動車１０２に危険、懸念、または関心を示さない物体である。

以下の例を考える。自動車１０２の内部は、いくつかの重要でない物体を含むことがある。これらの物体は、通常、インテリアに関して静止しており、例としては、シート、ダッシュボード、ハンドル、ギアシフタ、および客室内の他の固定構造を含む。そのような物体に関連するデータを画像から削除すると、それらの分析に必要な時間が短縮されるが、物体は、ユーザの視線の判定に寄与しないため、プロセスの全体的な有効性を損なうことはない。場合によっては、同じ原理が外部カメラ１１２に適用されることができる。例えば、一部の外部物体は、カメラ１１２の視野内にある場合があるが、ボンネット（またはエンジンカバー）、サイドミラー２１２ａおよび２１２ｂ、またはバンパーのような自動車１０２の一部であるため、重要な物体ではない。

前述のように、自動車１０２は、複数の内部カメラ１１０および外部カメラ１１２を含むことができる。内部カメラ１１０または外部カメラ１１２の１つ以上によって生成された画像が、一定期間など、重要でない物体のみを明らかにする場合、これらの内部カメラ１１０または外部カメラ１１２は、オフにされることができる（または、それらのフレームレートは実質的にスロットルされることができる）か、またはそれらの画像は、それらの処理（または前処理）が行われる前にダンプされることができる。一例として、この手順は、自動車１０２の空いている助手席に焦点を合わせた内部カメラ１１０、または自動車１０２が停止している、または駐車ギアに置かれているときの外部カメラ１１２に適用されることができる。カメラの非アクティブ化または画像の破棄は、重要でない物体（ユーザなど）が出現したかどうかを判定するために周期的に行われることができる。それらが有する場合、非アクティブ化または画像ダンプは、停止されてもよく、そうでなければ、影響を受けるカメラは、次のサイクルまでこれらの状態に戻る場合がある。上記の例と同様に、この技術はまた、分析されるデータのレベルを下げることができる。

さらに、特定の条件またはイベントに基づいて内部カメラ１１０または外部カメラ１１２の解像度を選択的に調整することは、画像を分析するプロセス全体の効率を向上させることができる。例えば、フレームレートのように、自動車１０２の速度または自動車が動作する設定の特性が変化する場合、内部カメラ１１０または外部カメラ１１２の解像度は、それに応じて変更されることができる。特に、カメラの解像度は、低速または田舎の設定では低減され、高速または人口密度の高い場所では増加されることができる。さらに、カメラが助手席の空席など、重要でない物体のみを含む画像をキャプチャしている場合は、解像度が低減されることができる。

外部カメラ１１２からの画像は、道路２１６の側面にある看板２１０などのユーザにとっての関心物体、道路２１６に立っている鹿２１８などの危険物体、または速度制限標識２１７などの情報標識を含む物体について分析される。内部カメラ１１０からの画像は、ユーザがこれらの物体のいずれかを見ているかどうかを判定するために分析される。内部カメラ１１０からキャプチャされる室内画像の例が図２Ｂに示されている。ヘッドユニット１０４、車載コンピュータ、リモートサーバ１２４、または別のシステム、またはそれらの任意の組み合わせは、画像の分析を担当することができる。

以下により詳細に説明するように、ユーザの注目位置が使用されて、内部カメラ１１０によってキャプチャされたユーザの注目方向を判定することができる。判定されると、注目方向は、外部カメラ１１２によってキャプチャされたシーン２０４と比較されることができる。このプロセスの一部として、ユーザの注目は、前述の注目レベルの１つに分類されることができ、これは、ユーザの注目方向がシーン２０４内の物体に焦点を合わされていることを示すことができる。

例として、比較は、ユーザが看板２１０を見ていることを示すことができる。それに応じて、ヘッドユニット１０４（またはいくつかの他の構成要素）は、広告、道順、クーポン、営業時間など、看板２１０に関連するコンテンツを表示することができる。ヘッドユニット１０４は、それ自体にこのコンテンツを生成することができるか、またはそのための要求をサーバ１２４（または他のシステム）に送信することができる。他のいくつかの実施形態では、内部カメラ１１０および外部カメラ１１２によってキャプチャされた画像が分析されて、ユーザが自動車１０２に対する危険を見逃す可能性のある方向に注目を払っているか、見ているかを判定することができる。例えば、ユーザが看板２１０を見ているが、道路２１６に鹿２１８が立っている場合、ヘッドユニット１０４は、音声トーン、ハンドルの振動、またはダッシュボード２１４上の可視光など、鹿２１８に関する警告をユーザに提示することができる。自動車１０２は、自動的にブレーキをかける、または自動車１０２を鹿２１８から遠ざけるように操縦するなどのさらなる行動をとることができる。同様に、内部カメラ１１０および外部カメラ１１２によってキャプチャされた画像が分析されて、ユーザが注目を払っているか、または情報標識を見落とす可能性のある方向に沿って見ているかを判定することができる。例えば、ユーザが看板２１０を見ているが、速度制限標識２１７を見ていない場合、ヘッドユニット１０４は、速度制限標識２１７に関して、速度制限標識２１７についての速度の可聴音声または視覚的表示などの警告をユーザに提示することができる。

図２Ｂは、自動車１０２の実質的に前方のシーン２０４を見ている自動車１０２の内部のユーザ２２０をキャプチャした画像の例２００Ｂを示している。本明細書で説明するように、ユーザ２２０の頭２２２と眼２２４の位置は、ユーザが図２Ａに示すバックミラー２０８、看板２１０、鹿２１８、または速度制限標識２１７を見ているかどうかを判定するために画像内で分析される。以下に説明するように、ユーザ２２０の注目位置を判定するための分析の一部として、様々な技術を採用することができる。

図２Ｃは、図２Ａおよび図２Ｂに示される自動車１０２の上方から見た図の例２００Ｃを示している。図２Ｃは、図２Ａおよび図２Ｂと組み合わせて説明される。上述したように、外部カメラ１１２は、ユーザ２２０に視認可能な領域を含むシーン２０４をキャプチャし、内部カメラ１１２は、ユーザ２２０の画像をキャプチャして、ユーザ２２０がどこを見ているかを判定する。ユーザ２２０の注目位置を判定するための分析の一部として、１つ以上の技術を採用することができる。これらの技術のいくつかは、頭２２２の位置を判定し、ユーザ２２０の眼２２４を追跡するためのプロセスを含むことができる。

例えば、内部カメラ１１０からの画像は、瞳孔の中心と角膜からの反射との間のベクトルを判定するために使用されることができる、眼２２４の瞳孔およびそれらの角膜からの光の反射に関連するデータを含むことができる。これらのベクトルが使用されて、ユーザ２２０の視線を計算することができる。プロセスを支援するために、内部カメラ１１０または他の光源は、ユーザ２２０の眼２２４に向かって不可視光を投影することができる。眼２２４を追跡するための他の技術が使用されてもよい。

さらに、内部カメラ１１０からの画像のデータに基づいて、ユーザ２２０の頭２２２の位置または姿勢が推定されることができる。例えば、ユーザ２２０の頭２２２を表す身体の部分検出は、人間の皮膚または形態学的推定（または双方）に関連するピクセルの識別などを通じて、データから生成されることができる。頭２２２が検出されると、顔のランドマークを識別し、人間の顔の幾何学的対称性に依存する幾何学的方法など、様々な方法が使用されてその向きを判定することができる。このプロセスは、首や胴体など、他の体の部分にも拡張することができる。これらの位置判定のいずれかに、精度の指標として信頼係数が割り当てられることもできる。さらに、頭２２２を検出し、その向きを推定するための他の多くの技術がここに適用されることができる。

一構成では、眼２２４の位置および頭２２２の姿勢を判定することによって生成された情報がマージされることができ、これは、ユーザ２２０の注目位置のより正確な推定を生成することができる。しかしながら、この推定にはいずれか一方しかその判定に使用されることができないため、双方の技術は必要ない。注目位置から、特定の点や領域に基づいて、ユーザの注目方向が推定されることができる。例えば、システムは、ユーザの視線または焦点領域の方向を推定することができ、この推定値を外部環境に関連する画像データと関連付けて、ユーザが関心物体またはユーザが気付いていない物体を識別することができる。注目方向を計算するために、ユーザの注目位置に関連する多くのタイプのデータが考慮されることができる。しかしながら、オプションとして、このデータの一部には、注目方向を判定する一環として、より多くの（またはより少ない）重みが与えられてもよい。一例として、ユーザの胴体のような別の身体部分の向きと比較して、より重い重みを眼２２４の位置に適用することができる。別の例として、ユーザの注目位置を形成する推定値に付随された信頼係数は、信頼係数が低い要素をあまり重視しないなど、注目方向の分析に影響を与えることができる。

いくつかの実施形態では、頭２２２および眼２２４の位置の判定を支援するために、１つ以上の基準ポイントまたは角度を含むことができる基準システムが確立されることができる。例えば、較正中に、ユーザ２２０の顔の中心に頂点を確立し、様々な光線を定義して、ユーザ２２０に関連付けられた位置を判定するためのベースとして使用されることができる参照角度を設定することができる。場合によっては、サイドミラー２１２ａおよびサイドミラー２１２ｂに対してそれぞれ光線２３０および光線２３２が定義されることができる。別の例として、内部カメラ１１０および外部カメラ１１２にそれぞれ光線２３４および光線２３６が設定されることができる。自動車１０２の形状は既知であるため、この目的のために他の多くの基準ポイントまたは角度が使用されることができる。

物体の位置を判定するために、自動車１０２の外部に対して基準システムが定義されることもできる。具体的には、自動車１０２の正面外部に対して、任意の数の基準ポイントまたは角度が設定されることができる。一例として、外部カメラ１１２または自動車１０２の他の構成要素に頂点が設定されることができ、外部カメラ１１２に基づく角度が定義されることができる。この角度は、ユーザ２２０が例えば運転席の視点から物体を見ることができる可能性に基づいて測定される反射角度とすることができる。この測定は、この座席に座ったときにユーザ２２０が自分の頭２２２を左または右に回転させる能力も考慮に入れることができる。もちろん、他の有利な点が考慮されてもよい。（このソリューションは、自動車１０２の外部の他の部分についても繰り返される。）この基準システムが確立されると、それは、ユーザ２２０の頭２２２、眼２２４、または他の部品の位置を判定するために形成された基準システムにマッピングされることができ、その結果は、将来の検索のためにテーブルまたはデータベースの一部とすることができる。したがって、内部カメラ１１０および外部カメラ１１２からの画像データを比較するとき、このマッピングが使用されて、ユーザ２２０の注目方向をシーン２０４の識別された物体と相関させることができる。

上記の例は、主に自動車１０２の運転席に座っているユーザに焦点を当てている。しかしながら、特に、１つ以上の乗員用シートを含む、自動車１０２の他のセクションに対して基準システムが確立されることができる。例えば、ユーザは、助手席に座っている可能性があり、頭と眼の向きの正確な推定を保証するために、この座席に対して基準システムが定義されることができる。必要に応じて、自動車１０２の外部に関する新たな基準システムが形成されるか、既存のシステムに調整を加えることができる。

別の構成では、ユーザの注目位置および注目方向のそれぞれ、および外部の一部である物体の相対位置を判定するために、単一の基準システムが生成されることができる。このシステムを形成する基準ポイントまたは角度は、内部カメラ１１０、外部カメラ１１２、サイドミラー２１２ａおよび２１２ｂ、またはユーザなど、前述の１つ以上のものに関連付けられることができる。

上に示したように、形態学的検出および分析に依存する技術は、自動車１０２の車内の分析に値する物体が人間に限定される可能性があるため、内部カメラ１１０によって生成された画像を分析するために有用とすることができる。対照的に、シーン２０４内の物体の数とタイプの固有の予測不可能性を考えると、より包括的なソリューションが必要になる場合がある。一実施形態では、ヘッドユニット１０４または車載コンピュータは、自動車１０２の外部にある１つ以上の物体を識別するために物体認識アルゴリズムによってプログラムされることができる。これらのアルゴリズムの例は、深層学習モデルを含む１つ以上のＭＬモデルを含む。

画像内の物体が識別されると、それらにラベルを付け、特定の精度の確率を示す信頼係数を物体に割り当てることができる。少なくともその特定の画像については、特定の閾値未満の信頼係数でタグ付けされた物体は破棄されることができる。他の場合では、信頼係数が閾値を下回る物体、または識別できない物体は、ユーザの注目方向との相関の一部と見なされることができる。例えば、システムは、道路の真ん中にある物体を正確に識別できない場合があり、危険な状態を示す場合がある。そのため、システムは、ユーザがそれを認識していることを確認するために、未確認の物体を破棄することを避けることができる。（信頼係数が閾値を下回る場合、物体は、未確認物体としてラベル付けされる。）関連する基準システムが使用されて、１つ以上の物体（識別済みまたは未確認）の相対位置を推定することができる。

前述のように、物体認識はまた、リモートサーバ１２４のような自動車１０２から離れたシステムによって実行されることもできる。経時的に、これらのモデルの精度が向上し、それらの更新がリモートシステムから受信されることができる。さらに、画像において識別された物体は、ヘッドユニット１０４または別の車載コンピュータなどによってローカルでラベル付けされ、それらのトレーニングを支援するために、このデータが１つ以上のクラウドベースのＭＬモデル（ディープラーニングモデルを含む）に提供される。同様に構成された他の車両も同じ手順を実行し、モデルの大量のデータを確保することができる。

物体を特定するプロセスの一部として、物体認識モデルは、物体のコンテキスト、または物体を他の類似の物体から区別するいくつかの他の特徴を判定することができる。例えば、モデルは、物体が看板であると判定し、看板によって提示される広告に関連するエンティティをさらに識別することができる。エンティティは、小売店、レストランチェーン、またはその他の商業施設とすることができる。このステップを支援するために、モデルは、様々な文字または記号を認識し、それらをそれらに関連付けられた施設と照合するように構成されることができる。これらの文字または記号の例は、ブランド名または商標記号の文字を含む。この粒度での認識により、車載コンピュータは、特定のビジネスまたは組織に関連するコンテンツを生成または要求することができる。このデータは、建物や他の車両、その他の商業看板の表面にある広告やその他のビジネス関連情報など、他のソースから収集されることができる。

当該技術分野で知られているように、一部の自動車１０２には、自動運転システムが装備されている。これらのシステムは、単に警告を発して車の運転に一時的に介入するものから、人間の制御をまったく必要としないものまで様々とすることができる。自動運転システムは、通常、様々な技術に依拠して、歩行者、一時停止標識、その他の車など、車両の制御に関連する路面やその他のものを検出するためのセンサデータを分析する。この検出は、自動車の進路内に直接ある物体、または交通管制に関連する物体に限定されているが、ここで提示されるシステムは、このデータにアクセスすることにより、計算要件を削減することができる。例えば、現在の配置は、前方の道路、交通管制の標識または信号、および道路内または近くの物体を検出するために自動運転システムに依拠することができ、必要に応じてそのような物体を具体的に識別し、さらに分析するためにそれらの相対位置を判定することによってこの検出を補足することができる。

一構成では、画像を比較するステップは、時間Ｔ_１で内部カメラ１１０によってキャプチャされた画像からのユーザの注目方向に関するデータを、同じく外部カメラ１１２によって時間Ｔ_１でキャプチャされた画像からの識別された物体に関するデータに対してマッピングすることを含むことができる。同時に生成された画像を使用すると、ＧＰＵによって生成される結果の精度を向上させることができるが、ある程度の時間的オフセットが許容される場合があるため、そのような同期性は必須ではない。互いに比較される内部カメラ１１０および外部カメラ１１２からの画像は、対応する画像と呼ばれることがある。この手順はまた、前述のように、内部および外部基準システム（または単一の基準システム）を相関させた結果を含むテーブルまたはデータベースの参照も含むことができる。

例として、ＧＰＵは、対応するＴ_１画像の物体のマッチングスコアを生成することができる。マッチングスコアは、ユーザの注目方向が物体と一致する確率の指標として機能することができる。一実施形態では、マッチングスコアが最も高い物体が、対応するＴ_１画像に対するユーザの焦点として選択されることができる。別のオプションとして、マッチングスコアが最も高い２つ以上の物体が、対応するＴ_１画像に対するユーザの注目のターゲット（または潜在的なターゲット）として識別されることができる。ユーザの注目の焦点であると判定された物体は、関心物体と呼ばれることがある。

別の例では、マッチングスコアに閾値が設定されることができ、対応するＴ_１画像に関連する物体に対して生成されたマッチングスコアがこの閾値を下回る場合、物体のいずれもユーザの焦点として選択されなくてもよい。そのようなイベントは、ユーザが単に前方の道路を見ていて、そのエリアに物体がないか、少なくともユーザの注目の対象ではないことを示すことができる。

この手順は、特定の時間またはいくつかの対応する画像にわたって繰り返されることができる。例えば、ＧＰＵは、内部カメラ１１０および外部カメラ１１２からの対応する画像のいくつかのセットについてマッチングスコアを生成し、この間隔にわたって検出された物体の全て（または少なくともいくつか）の平均マッチングスコアを生成することができる。（この間隔は、時間または対応する画像のいくつかのセットに基づくことができる。）これらの物体は、物体が間隔の後半にカメラ１１２の視界から外れた場合など、この間隔の外部カメラ１１２からの画像の一部にのみ存在する物体を含むことができる。

このように、前述の分類が適用されることができる。例えば、間隔は、最大の注目レベルの閾値である凝視閾値に実質的に（または正確に）一致するように設定されることができる。この構成は、ＧＰＵが注目レベル（垣間見ること、一瞥すること、注視すること、凝視すること）の存在を識別し、平均マッチングスコアの判定の一部としてそれらを適用することを可能にすることができる。例えば、ある間隔にわたって１つ以上の注視の焦点である物体の平均マッチングスコアは、ユーザ側のこの高い関心を反映するために増加されることができる。

上記のように、自動車１０２は、１つ以上の関心物体に関連するコンテンツを検索することができる。特に、最も高いマッチングスコアまたは平均マッチングスコアを有する１つ以上の識別された物体に関連するコンテンツが、ユーザに提示されることができる。一例として、分析は、ユーザがレストランの看板広告に注目しており、広告されたビジネスのブランド名または商標が認識されていることを判定することができる。これに応答して、ヘッドユニット１０４は、レストランのメニューを選択するためのオプション、そのレストランの連絡先情報、またはレストランへのナビゲーションルートを開始するための選択を提示することができる。

別の例として、物体が同一またはほぼ同一の平均マッチングスコアを有する場合など、複数の物体のどの物体がユーザの関心を引いているかをシステムが確信することができない場合、ヘッドユニット１０４は、双方に関連するコンテンツを検索し、ユーザがそれらの１つ以上に関連するコンテンツを選択するためのオプションを提示することができる。別の実施形態では、１つ以上の識別された物体に関連するコンテンツは、平均マッチングスコアに関係なく、ユーザに提示されることができる。

前にも述べたように、一部の物体は、自動車１０２の前方の道路の近くまたは道路にある物体など、ユーザまたは自動車１０２に何らかの危険（潜在的な危険を含む）をもたらす可能性があるため、危険物体と見なされることができる。これらの検出された物体は、識別された物体または未確認の物体である場合がある。一実施形態では、システムは、速度、自動車１０２への物体の近接性、照明または気象条件、および運転者の運転能力などの要因に基づいて、衝突または他の危険の可能性を判定することができる。（このデータの少なくとも一部は、自動車１０２の１つ以上のアクセサリ１０８ａ、１０８ｂ、１０８ｃによって提供されることができる。）物体が識別された場合、特に高い信頼度で識別された場合、この情報はまた、そのような確率を判定する際に考慮されることができる。例えば、問題の物体が子供や高齢の歩行者であると識別された場合、大人は子供や高齢者よりも潜在的な危険に迅速に反応することができるため、衝突の確率は、大人の歩行者の場合よりも高くなる。

危険物体の平均マッチングスコアは、影響または危険の確率を判定する一部と見なされることができる。例えば、平均マッチングスコアが、ユーザが危険物体を認識していないことを明らかにする場合、警告の形態でコンテンツがユーザに提示されることができる。これらの警告の例は、上述および後述されている。このシナリオでは、ユーザにコンテンツを提示するかどうかを判定する際に、平均マッチングスコアが低いほど重要とすることができる。ユーザが危険物体を認識しているとシステムが判定した場合、警告は生成されない。それにもかかわらず、他の要因（過度の速度や雨天など）が、危険物体に関連付けられた平均マッチングスコアの増加を上回り、警告が発せられる場合がある。

情報標識はまた、特にそれらに関連付けられた平均マッチングスコアが低い場合に、コンテンツの提示をもたらすこともできる。例えば、システムは、一時停止標識を識別し、ユーザがその標識を認識していないと判定することができる。この物体は、必ずしも衝突の可能性を高めるとは限らないが、危険の可能性を高める場合がある。ここで、一時停止標識が近付いていることをユーザに知らせる警告が提示されてもよい。情報標識が識別された場合、警告は、速度制限標識に掲示されている制限速度を通知または表示するなど、それらに関連する情報を組み込むことができる。これらの警告はまた、ユーザが情報標識に気付いている場合であっても、そのようなイベントを正当化する可能性のある他の状況（速度の上昇や気象条件など）が与えられた場合にも発せられることができる。

ここで、本開示の特定の態様の動作が図３および図４に関して説明される。様々な実施形態の少なくとも１つでは、図３および図４に関連してそれぞれ説明されたプロセス３００および４００は、ヘッドユニット１０４、モバイルデバイス１１４、リモートサーバ１２４などの１つ以上のコンピューティングデバイス、または他の車載またはクラウドベースのシステムによって実装または実行されることができる。

図３は、本明細書に記載の実施形態にかかる、自動車ユーザおよび自動車の前方のシーンを監視して、コンテンツを選択してユーザに提供するための概要プロセスの一実施形態を一般に示す論理フロー図を示している。このプロセスは、必ずしもここに示されている時系列に限定されるものではなく、ここで説明されている全てのステップに固執せずに、またはこの図に示されているもの以外のステップによって実行されることができる。明確にするために、プロセス３００は、上記の原理に適用可能または採用されることができるフローの一例に過ぎない。

プロセス３００は、開始ブロックの後、ブロック３０２で始まり、自動車内のユーザの位置が自動車の内部に対して較正される。そのような較正のプロセスの一例が、図４に関して以下により詳細に説明される。

プロセス３００は、ブロック３０４に進み、第１の画像および第２の画像がキャプチャされる。第１の画像は、図１の内部カメラ１１０などの車内向きカメラによってキャプチャされ、自動車のユーザのものである。第２の画像は、図１の外部カメラ１１２などの車外向きカメラによってキャプチャされ、ユーザが視認可能なシーンのものである。一例として、第２の画像にキャプチャされたシーンは、自動車のユーザが見ることができる自動車の前方の領域である。シーンは、自動車の前方の領域として説明されることが多いが、実施形態は、これに限定されるものではない。むしろ、いくつかの実施形態では、シーンは、自動車の左側または右側の領域、または自動車の後方の領域であってもよい。これらの例では、内部カメラおよび外部カメラが取り付けられ、望ましい方向に対してユーザおよびシーンの画像をそれぞれキャプチャするように配置される。

プロセス３００は、ブロック３０６に続き、ここで第１の画像が分析されて、ユーザの注目位置を判定する。様々な実施形態では、この分析は、ユーザの頭と眼の位置を判定することを含む。ユーザの頭と眼の位置がわかると、ユーザの注目位置が判定され、そこからユーザの注目方向が、双方とも基準システムに関連して判定される。

プロセス３００は、次にブロック３０８に進み、第２の画像が分析されて、自動車の前方のシーン内のもう１つの物体を識別する。これらの識別された物体は、看板、道路標識、店舗標識、広告、ポスター、その他の自動車、歩行者、動物、またはその他の物体を含むことができる。

プロセス３００は、ブロック３１０に続き、シーン内の各物体の相対位置が判定される。このステップの例は、上に示されている。プロセス３００は、判定ブロック３１２に進み、ユーザの注目方向がシーン内の物体の相対位置に対応するかどうかの判定が行われる。いくつかの実施形態では、この判定は、上でより詳細に説明された、内部および外部カメラによってキャプチャされた複数の第１および第２の画像の分析に対して行われる。

ユーザの注目方向が物体の相対位置に対応する場合、ユーザはその物体を見ていると判定され、プロセス３００は、ブロック３１４に流れる。そうでない場合、プロセス３００は、判定ブロック３１８に流れる。

判定ブロック３１８では、ユーザによって見られていない物体が危険物体または情報標識であるかどうかの判定が行われる。例えば、ユーザがサイドミラーを見ているが、自動車の真正面に歩行者がいる場合、その物体（すなわち、歩行者）は、自動車にとって脅威であり、したがって危険物体であると判定されることができる。自動車が速度制限標識に近付いているときに、ユーザが自動車の後部座席で何かを見ている場合、その物体（すなわち、速度制限標識）は、危険物体であってもなくてもよい情報標識であると判定されることができる。

いくつかの実施形態では、この判定は、上でより詳細に説明された、内部および外部カメラによってキャプチャされた複数の第１および第２の画像の分析に対して行われる。他の実施形態では、この分析は、自動車に関連する他の情報に基づいてもよい。例えば、ヘッドユニットはまた、自動車の他のアクセサリと通信して、自動車の速度および制動状態を取得することもできる。このようにして、ヘッドユニットは、自動車に対する物体の相対位置、自動車の速度、ユーザが現在ブレーキをかけているかどうかなどに基づいて、物体が実際に危険物体であるかどうかを判定することができる。

物体が危険物体または情報標識である場合、プロセス３００は、ブロック３１４に流れる。そうでない場合、プロセス３００は、ブロック３０４に戻って、内部カメラおよび外部カメラからそれぞれ追加の第１および第２の画像をキャプチャすることができる。

ブロック３１４では、物体に関連するコンテンツが選択される。選択されたコンテンツのタイプは、判定ブロック３１２において判定されたように、ユーザが物体を見ていたかどうかに基づいて、または判定ブロック３１８において判定されたように、ユーザが物体を見ていないが、物体が危険物体または情報標識であるかどうかに基づいて、部分的に判定されることができる。例えば、ユーザが物体を見ているため、その物体がユーザにとって関心物体である場合、その物体に関連付けられたポジティブなコンテンツが選択されることができる。しかしながら、ユーザが物体を見ていない場合、物体に関連付けられた警報コンテンツまたは警告が選択されることができる。

上記の例に加えて、他の実施形態では、識別された物体の位置が特定のコンテンツにマッピングされることができる。第２の画像のシーンにおいて物体が識別されると、自動車の現在のＧＰＳ座標が使用されて、物体が既知の住所、ランドマーク、またはいくつかの他の区別可能な特性であるかどうかにかかわらず、物体の位置に関連するコンテンツを検索することができる。そのようなコンテンツのいくつかの例は、レストランの広告またはクーポン、レストランの場所または電話番号、レストランへの地図、対応するメニュー、または営業時間を含むことができる。

別の例として、物体は、歩行者または他の危険物体とすることができる。関連するコンテンツは、歩行者が自動車に近付きすぎているか、自動車が歩行者との衝突コース上にあるという警告とすることができる。さらに別の例では、物体が情報標識である場合、関連するコンテンツは、標識に関する情報の可聴音声などの警告とすることができる。

プロセス３００は、ブロック３１６に進み、選択されたコンテンツがユーザに提示されるか、または提供される。本明細書に記載されるように、コンテンツは、視覚的コンテンツ、音声コンテンツ、触覚的コンテンツ、またはそれらの何らかの組み合わせとすることができる。例えば、ユーザが物体を見ていて、その物体がレストランの看板である場合、選択されたコンテンツは、レストランへの住所またはルートとすることができる。その結果、ヘッドユニットは、現在表示されているコンテンツを削除または変更し、自動車の現在地からレストランまでの経路のグラフィック画像を備えたナビゲーションインターフェースを表示することができる。いくつかの実施形態では、ヘッドユニットは、レストランがどれくらい離れているか、またはレストランの営業時間を示す音声トーンまたはメッセージを出力することもできる。

別の例として、ユーザが自動車にとって脅威となる物体を見ていない場合、ヘッドユニットは、ハンドルの触覚インターフェースに信号を送信して振動させ、ユーザの注目を引くことができる。同様に、危険の可能性がある物体を示すために、警告灯または音声トーンまたはメッセージがユーザに提供されてもよい。ブロック３１６の後、プロセス３００は、ブロック３０４に戻って、内部カメラおよび外部カメラからそれぞれ追加の第１および第２の画像をキャプチャすることができる。

プロセス３００は、自動車の単一のユーザがどこを見ているかを判定することに関して説明されているが、プロセス３００は、自動車の複数のユーザに対して同様の機能を実行するように拡張されることができる。例えば、このシステムは、自動車の運転者が安全のために物体を見ているかどうか、また乗員が広告目的で関心物体を見ているかどうかを判定するために使用されることができる。

さらに、プロセス３００は、内部カメラおよび外部カメラの双方からの単一の画像を分析するものとして説明されているが、実施形態は、それに限定されるものではない。例えば、プロセス３００の機能が拡張されて、複数の画像フレームを分析して、ユーザの注目方向またはシーン内の物体の相対位置を判定することができる。

少なくとも１つの実施形態では、ユーザが選択された時間量の間、特定の物体を見ている場合、ユーザは物体を見ていると見なされることができる。例えば、プロセス３００のブロック３０４、３０６、３０８、３１０、および３１２は、内部カメラからの複数の第１の画像および外部カメラからの複数の第２の画像に対して実行されることができる。これらのブロックのプロセス３００の機能は、特にユーザがシーン内の同じ物体を見ている場合、第２の画像での相対位置と第１の画像での注目方向を考慮して、個別の画像ごとに実行され、時間とともに変化する場合がある。このようにして、ユーザの注目方向は、シーン内の物体の追跡位置に関して経時的に追跡され、ユーザが同じ物体を一定時間または選択した数の画像フレームにわたって見ている場合、ユーザはその物体を見ているか、他の方法でその物体に焦点を合わせている。次に、ブロック３１４において、その物体に基づいてコンテンツが選択されることができる。このように、ユーザが単に物体を見たり、サイドミラーで確認するなどして、周囲を見ながらユーザの眼が物体を一瞥したりする場合、システムは、ユーザのコンテンツを選択することはない。むしろ、コンテンツは、ユーザが物体を長時間見ることによって関心を示す物体に対して選択される。

同様に、複数の画像が分析されて、ユーザが選択した時間、物体を見逃しているか、または見ていないかどうかを判定することができる。繰り返すが、ユーザの注目方向は、シーン内の物体の追跡位置に関して経時的に追跡され、ユーザが所定の時間または選択した数の画像フレームにわたって危険物体または情報標識を見ていない場合、ユーザは、危険物体または情報標識を見逃していると判定される。その後、その物体に基づいてコンテンツが選択されることができる。このように、サイドミラーや死角を確認するなど、ユーザが危険物体や情報標識から単に目をそらして何か他のものを見る場合、システムは、ユーザのコンテンツを選択することはない。むしろ、コンテンツは、ユーザが長期間見逃しており、警告する必要がある危険物体または情報標識のために選択される。

上で説明したように、複数の注目レベルが利用されて、ユーザが物体に注目を向けているかどうか、およびどれだけ注目を向けているかを判定することができる。いくつかの実施形態では、ユーザまたは管理者は、対応するコンテンツが選択されてユーザに提示されるように、ユーザが物体を見ているか、または見逃しているという指標を引き起こす注目レベルを選択する。そのようなユーザまたは管理者の選択は、ヘッドユニットの初期化段階で、またはヘッドユニット設定の変更を介して動的に実行されることができる。

いくつかの実施形態では、ユーザまたは管理者は、異なるタイプの物体に対して異なる閾値を選択することができる。例えば、ユーザが物体を凝視した場合には、識別された関心物体に関連付けられたコンテンツが選択されるが、垣間見たり、一瞥したり、または注視したりした場合には選択されないように、ユーザは、関心物体に利用される凝視閾値を選択することができる。逆に、ユーザが物体を垣間見たり一瞥した場合には危険物体に関連付けられたコンテンツが選択されるが、物体を注視したり凝視したりした場合には選択されないように、管理者は、ユーザが危険物体を見ているかどうかを判定するために利用される注視閾値を選択することができる。

他の実施形態では、ユーザまたは管理者は、特定のタイプの物体に対して１つ以上の異なる閾値を選択することができ、これは、ユーザに提示されるコンテンツの量またはタイプを示すことができる。例えば、凝視閾値は、ヘッドユニットが物体によって宣伝されている店舗への地図を表示するようにマッピングコンテンツを選択するために利用されることができる。対照的に、一瞥閾値が利用されて、店舗の名称とともにテキストメッセージをユーザのモバイルデバイスに送信することができる。したがって、異なる注目レベルが使用されて、コンテンツの異なるレベルまたはタイプ、およびそれらをユーザに提示する方法を選択することができる。

さらにまた、プロセス３００は、コンテンツをユーザに提示するものとして説明されているが、プロセス３００を通じて収集、分析、および判定された情報は、追加の目的に利用されることができる。例えば、本明細書に記載の実施形態は、運転者がサイドミラーをチェックする回数、ラジオを見ている時間、または運転者が携帯電話／スマートフォンを見ているかどうかを追跡することができるように拡張されることができる。したがって、運転者が自動車の周囲の物体にどの程度注目を払っているかを示す通知表が生成されることができ、これは、車隊または十代の運転者の運転の監視を提供することができる。

いくつかの実施形態では、ブロック３０６において判定されたユーザの注目方向は、自動車内の物体（例えば、サイドミラーまたはラジオ）の既知の位置と比較されて、ユーザが既知の物体を見ているかどうか、およびどれくらいの時間見ているかを判定することができる。他の実施形態では、他の内部カメラからの第１の画像または他の画像は、禁止された物体または注意散漫な運転者について分析されることができる（例えば、スマートフォンと一致するユーザの注目方向である）。この追加情報は、運転者通知表にさらに追加されたり、保険会社、レンタカー会社、警察当局などの第三者機関に提供されたりすることができる。

ユーザが道路を見ているのか、電話を見ているのか、または安全物体（例えば、自動車のバックミラー、自動車の速度計、自動車のフロントガラス）を見ているのかを判定することにより、運転者の行動指紋が経時的に生成されることができる。第三者エンティティは、運転者の行動指紋に基づいて、カバレッジまたはサービスを提供または調整することができる。ユーザがスマートフォンを見ずに日常的にミラーを見ている場合、保険会社やレンタカー会社は、運転者の安全評価を上げ、保険料を下げたり、運転者に良いインセンティブを提供したりすることができる。逆に、運転者がサイドミラーを見ていないか、運転以外のことに集中している場合、保険会社やレンタカー会社は、運転者の安全評価を下げ、保険料を引き上げることができる。このようにして、選択された時間間隔で自動車の安全物体を見る人々にインセンティブが生成されて提供されることができ、これにより、自動車の運転者の全体的な動作を改善することができる。

同様の実施形態が利用されて、特定の運転イベントに対する運転者の反応を検出することができる。例えば、別の自動車がその自動車の行く手を遮る様子を示す複数の外部画像がキャプチャされることができる。運転者が怒っている様子、または武器を掴んでいる様子を示す複数の車内画像が同時にキャプチャされることができる。このシナリオ例では、運転者を落ち着かせるために、あおり運転警告が運転者に提供されるか、または警察に交通事故の可能性を通知することができる。

図４は、本明細書に記載の実施形態にかかる、自動車内の既知の点に対してユーザの注目を較正するプロセスの一実施形態を一般に示す論理フロー図を示している。このプロセスの下で提示される説明は、注目位置または注目方向を判定するための基準システムの設定を支援するか、または上で既に提供された例の代替として機能することができる。このプロセスは、必ずしもここに示されている時系列に限定されるものではなく、ここで説明されている全てのステップに固執せずに、またはこの図に示されているもの以外のステップによって実行されることができる。明確にするために、プロセス４００は、上記の原理に適用可能または採用されることができるフローの一例に過ぎない。

プロセス４００は、開始ブロックの後、自動車の形状が取得されるブロック４０２で始まる。いくつかの実施形態では、自動車の形状は、リモートサーバなどを介して自動車メーカーから取得される。他の実施形態では、自動車の形状は、ヘッドユニットに事前にプログラムされることができる。自動車の形状は、様々な寸法、角度、または自動車上の固定位置または恒久的な位置を有する物体の配置を含む。例としては、サイドミラー間の距離、サイドミラーに対するヘッドユニットの位置、運転者とサイドミラーの間の推定距離および角度、運転者とヘッドユニットとの間の推定距離および角度などを含む。

プロセス４００は、ブロック４０４に進み、そこで、内部カメラ１１０などの内部カメラの位置および向きが取得される。自動車の形状と同様に、内部カメラの位置および向きは、リモートサーバを介して自動車メーカーから取得されるか、ヘッドユニットに事前にプログラムされることができる。いくつかの他の実施形態では、システムが自動車へのアフターマーケット設備である場合のように、ユーザは、内部カメラの位置および向きをヘッドユニットに入力することができる。さらに他の実施形態では、内部カメラは、チルトセンサおよび１つ以上の距離センサなど、自動車内のその位置および向きを検出する１つ以上のセンサを含むことができる。他のいくつかの実施形態では、内部カメラからの画像がキャプチャされ、分析されて、運転席のヘッドレストの側面や位置など、自動車内の既知の物体の位置および向きを識別することができる。そのような情報は、自動車の形状とともに、内部カメラの相対位置を計算するために使用されることができる。

プロセス４００は、ブロック４０６に続き、ここで、自動車の１つ以上の既知の点までのユーザからの相対角度が判定される。自動車の形状に対する内部カメラの位置に基づいて、ユーザから自動車内の対応する既知のポイントまでの各相対角度を判定するために、様々な既知の形状および数学的アルゴリズムが使用されることができる。いくつかの実施形態では、内部カメラに対するユーザのおおよその位置を判定するために、内部カメラを介してユーザの初期ユーザ位置画像がキャプチャされることができる。

プロセス４００は、次にブロック４０８に進み、ユーザは、自動車内の既知のポイントを見るように指示される。様々な実施形態では、ヘッドユニットは、「右サイドミラーを見てください」など、ユーザが従うべき視覚的または音声指示を出力することができる。

プロセス４００は、次にブロック４１０に続き、ユーザの画像が内部カメラによってキャプチャされる。様々な実施形態では、ユーザの画像は、既知のポイントを見るという指示がユーザに提示された後、選択された時間量だけキャプチャされることができる。このようにして、ユーザは、指示に反応し、画像がキャプチャされる前に既知のポイントを見る時間を有する。

プロセス４００は、ブロック４１２に進み、キャプチャされた画像におけるユーザの眼と頭の位置に基づいて、ユーザの注目角度が判定される。様々な実施形態では、ブロック４１２は、ブロック３０６の実施形態を使用して、ユーザの注目角度を判定することができる。

プロセス４００は、ブロック４１４に進み、ユーザが見ている既知のポイント間の相対角度が、ユーザの注目角度に基づいて更新される。例えば、自動車の形状に基づくユーザと既知のポイントとの間の相対角度が右１４度、下５度である場合、ユーザの注目角度は、右１３度、下７度であり、次に、相対角度が更新されて、注目角度と同じかまたは平均などのそれらのいくつかの組み合わせとすることができる。このようにして、システムは、内部カメラに対するユーザの頭と眼の動きを較正する。ブロック４１４の後、プロセス４００は、終了するか、さもなければ呼び出しプロセスに戻って他のアクションを実行する。

図示されていないが、いくつかの実施形態では、システムは、内部カメラと外部カメラとの間で追加の較正を実行することができる。少なくとも１つの実施形態では、内部カメラの位置および向きは、外部カメラの既知の位置を有する内部カメラの既知の位置に基づくなど、外部カメラの位置および向きに相関させることができる。このようにして、ブロック４１４において判定された相対角度は、さらに精密化され、外部カメラの方向点に合わせて較正されることができ、これは、ユーザの注目方向およびユーザに対する視認可能領域のキャプチャされたシーンとの位置合わせを助ける。

図５は、本明細書に記載の実施形態を実装するためのコンピューティングシステムの一実装形態を説明するシステム図を示している。システム５００は、ヘッドユニット１０４、および必要に応じて１つ以上の他のコンピューティングデバイス５５０を含む。

本明細書に記載されるように、ヘッドユニット１０４は、ユーザがどこを見ているかを判定し、ユーザに提示する関連コンテンツを選択するための本明細書に記載の機能を実行することができるコンピューティングデバイスである。１つ以上の専用コンピューティングシステムが使用されてヘッドユニット１０４を実装することができる。したがって、本明細書に記載の様々な実施形態は、ソフトウェア、ハードウェア、ファームウェア、またはそれらのいくつかの組み合わせで実装されることができる。ヘッドユニット１０４は、メモリ５０４、１つ以上のプロセッサ５２２、ディスプレイ５２４、入力／出力（Ｉ／Ｏ）インターフェース５２６、他のコンピュータ可読媒体５２８、ネットワークインターフェース５３０、および他の構成要素５３２を含む。ヘッドユニット１０４はまた、ヘッドユニット１０４とは別個であっても外部であってもよい、内部カメラ１１０、外部カメラ１１２、および出力インターフェース１１６とも通信する。いくつかの実施形態では、内部カメラ１１０、外部カメラ１１２、出力インターフェース１１６、またはそれらのいくつかの組み合わせは、他の構成要素５３２などのヘッドユニット１０４に埋め込まれるか、または他の方法で組み込まれてもよい。

プロセッサ５２２は、本明細書に記載の少なくともいくつかの実施形態を含む、アクションを実行するためのコンピュータ命令を実行する１つ以上の処理デバイスを含む。様々な実施形態では、プロセッサ５２２は、１つ以上の中央処理装置（「ＣＰＵ」）、プログラマブルロジック、または他の処理回路を含むことができる。

メモリ５０４は、１つ以上の様々なタイプの不揮発性および／または揮発性記憶技術を含むことができる。メモリ５０４の例は、これらに限定されるものではないが、フラッシュメモリ、ハードディスクドライブ、光学ドライブ、ソリッドステートドライブ、様々なタイプのランダムアクセスメモリ（「ＲＡＭ」）、様々なタイプの読み取り専用メモリ（「ＲＯＭ」）、他のコンピュータ可読記憶媒体（プロセッサ可読記憶媒体とも呼ばれる）、または他のメモリ技術、またはそれらの任意の組み合わせを含むことができる。メモリ５０４は、本明細書に記載される少なくともいくつかの実施形態を含む、アクションを実行するためにプロセッサ５２２によって利用されるコンピュータ可読命令を含む情報を記憶するために利用されることができる。

メモリ５０４は、較正モジュール５０８およびコンテンツ提示モジュール５１０などの様々なモジュールを記憶することができる。較正モジュール５０８は、自動車のユーザ、内部カメラ１１０、および外部カメラ１１２の間の位置および角度を較正する機能を提供する。コンテンツ提示モジュール５１０は、ユーザの注目位置および注目方向、ならびにユーザの視認可能領域におけるシーン内の物体の位置を検出する機能を提供する。いくつかの実施形態では、コンテンツ提示モジュール５１０は、図１のリモートサーバ１２４を含むことができる他のコンピューティングデバイス５５０などの別のコンピューティングデバイスに関連するコンテンツを要求する。他の実施形態では、コンテンツ提示モジュール５１０自体が関連コンテンツを選択する。選択または受信されると、コンテンツ提示モジュール５１０は、ディスプレイ５２４、他の構成要素５３２、または出力インターフェース１１６などを介して、コンテンツをユーザに提供する。

メモリ５０４は、他のプログラム５１８および他のコンテンツ５２０も記憶することができる。他のプログラム５１８は、オペレーティングシステム、ユーザアプリケーション、または他のコンピュータプログラムを含むことができる。コンテンツ５２０は、本明細書で説明するように、ユーザに提供する視覚的、音声、または触覚的コンテンツを含むことができる。

ディスプレイ５２４は、コンテンツをユーザにレンダリングすることができるディスプレイデバイスである。様々な実施形態では、コンテンツ提示モジュール５１０によって選択されたコンテンツは、ディスプレイ５２４を介してユーザに提示される。ディスプレイ５２４は、液晶ディスプレイ、発光ダイオード、または他のタイプのディスプレイデバイスとすることができ、ユーザの手、スタイラス、または他の物体からの入力を受信することができるタッチセンシティブスクリーンを含むことができる。

Ｉ／Ｏインターフェース５２６は、オーディオインターフェース、他のビデオインターフェース、ＵＳＢインターフェース、物理ボタン、キーボードなどの様々な他の入力または出力デバイス用のインターフェースを含むことができる。いくつかの実施形態では、Ｉ／Ｏインターフェース５２６は、ヘッドユニット１０４が内部カメラ１１０、外部カメラ１１２、または出力インターフェース１１６と通信する機能を提供する。

内部カメラ１１０は、ヘッドユニット１０４に関連付けられた自動車の車内の画像を撮像するように配置および構成されたカメラである。外部カメラ１１２は、ユーザの視認可能領域が画像内にキャプチャされるように、ヘッドユニット１０４に関連付けられた自動車の外部の画像をキャプチャするように配置および構成されたカメラである。出力インターフェース１１６は、自動車のユーザに視覚的、聴覚的、または触覚的コンテンツをそれぞれ提供するためのディスプレイデバイス、音声出力デバイス、または触覚インターフェースデバイスを含むことができる。

他のコンピュータ可読媒体５２８は、リムーバブルフラッシュドライブ、外部ハードドライブなどの他のタイプの固定またはリムーバブルコンピュータ可読媒体を含むことができる。

ネットワークインターフェース５３０は、通信ネットワーク５３４を介して、他のコンピューティングデバイス５５０などの他のコンピューティングデバイスと通信するように構成される。ネットワークインターフェース５３０は、本明細書で説明するようにデータを送受信する送信機および受信機（図示せず）を含む。通信ネットワーク５３４は、図１の通信ネットワーク１２２またはモバイルデバイス通信ネットワーク１２０を含むことができる。

他のコンピューティングデバイス５５０は、ヘッドユニット１０４から離れたコンピューティングデバイスであり、いくつかの実施形態では、ユーザがどこを見ているかを判定し、ユーザに提示する関連コンテンツを選択するための本明細書に記載の機能を実行することができる。他のコンピューティングデバイス５５０は、図１のリモートサーバ１２４またはモバイルデバイス１１４を含むことができる。

１つ以上の専用コンピューティングシステムが使用されて他のコンピューティングデバイス５５０を実装することができる。したがって、本明細書に記載の様々な実施形態は、ソフトウェア、ハードウェア、ファームウェア、またはそれらのいくつかの組み合わせで実装されることができる。

他のコンピューティングデバイス５５０は、メモリ５５４、１つ以上のプロセッサ５６２、ディスプレイ５６４、Ｉ／Ｏインターフェース５６６、およびネットワークインターフェース５７０を含み、これらは、それぞれ、ヘッドユニット１０４のメモリ５０４、プロセッサ５２２、ディスプレイ５６４、Ｉ／Ｏインターフェース５２６およびネットワークインターフェース５７０の実施形態に類似するか、またはそれらを組み込んでもよい。したがって、プロセッサ５６２は、本明細書に記載される少なくともいくつかの実施形態を含む、アクションを実行するためのコンピュータ命令を実行する１つ以上の処理デバイスを含む。様々な実施形態では、プロセッサ５２２は、１つ以上のＣＰＵ、プログラマブルロジック、または他の処理回路を含むことができる。メモリ５５４は、１つ以上の様々なタイプの不揮発性および／または揮発性記憶技術を含むことができる。メモリ５５４は、本明細書に記載の少なくともいくつかの実施形態を含む、アクションを実行するためにプロセッサ５６２によって利用されるコンピュータ可読命令を含む情報を記憶するために利用されることができる。メモリ５５４はまた、プログラム５５６およびコンテンツ５５８も記憶することができる。プログラム５５６は、ヘッドユニット１０４から受信した情報に基づいてコンテンツを選択してヘッドユニット１０４に提供するコンテンツ提示モジュール５１０と同様のコンテンツ選択モジュール（図示せず）を含むことができる。

上記の様々な実施形態を組み合わせて、さらなる実施形態を提供することができる。上記の詳細な説明に照らして、これらおよび他の変更を実施形態に加えることができる。一般に、以下の特許請求の範囲において使用される用語は、特許請求の範囲を明細書および特許請求の範囲に開示された特定の実施形態に限定すると解釈されるべきではなく、全ての可能な実施形態と、そのような権利がある特許請求の範囲と同等の完全な範囲を含むと解釈されるべきである。したがって、特許請求の範囲は、本開示によって限定されない。

本出願は、２０１９年２月１３日に出願された非仮特許出願第１６／２７５，２９４号に対する優先権の利益を主張し、その出願は参照によりその全体が本明細書に組み込まれる。

Claims

システムであって、
コンピュータ命令を記憶するように構成されたメモリと、
自動車の運転者に感覚的コンテンツを提示するように構成された出力インターフェースと、
前記自動車の一部であり、前記自動車の前記運転者の画像をキャプチャするように構成された第１のカメラと、
前記自動車の一部であり、前記運転者が前記自動車の前方を見ているシーンの画像をキャプチャするように構成された第２のカメラと、
前記コンピュータ命令を実行するように構成されたプロセッサであって、
前記第１のカメラによってキャプチャされた前記運転者の第１の画像を取得し、
前記第１の画像における前記運転者の眼または頭の少なくとも一方の位置に基づいて、前記運転者の注目方向を判定し、
前記第１の画像と同じ期間中に前記第２のカメラによってキャプチャされた前記自動車の前方の前記シーンの第２の画像を取得し、
前記第２の画像の分析に基づいて、前記シーン内の少なくとも１つの物体を識別し、
前記シーン内の前記少なくとも１つの物体の相対位置を判定し、
前記運転者の前記注目方向と前記シーン内の関心物体の相対位置との間の相関関係に基づいて、前記運転者が見ている前記少なくとも１つの物体から前記関心物体を識別し、
前記運転者が見ている前記関心物体に基づいて、前記運転者に提供するコンテンツのアイテムを選択し、
前記出力インターフェースを介して、前記選択されたコンテンツのアイテムを前記運転者に提示する、プロセッサと、
を備える、システム。
前記出力インターフェースが、視覚的コンテンツを前記運転者に表示するように構成されたディスプレイデバイス、音声コンテンツを出力するように構成されたスピーカ、または触覚的コンテンツを前記運転者に提供するように構成された触覚インターフェースである、請求項１に記載のシステム。
自動車のヘッドユニットを介して前記自動車内の人にコンテンツを提供する方法であって、
前記人の第１の画像と、前記人が第１の時間に視認可能な領域の第２の画像とを有する第１の画像対をキャプチャすることと、
前記第１の画像対の前記第１および第２の画像を分析して、前記人の第１の注目方向および前記視認可能な領域内の１つ以上の第１の物体の相対位置を判定することと、
前記人の前記第１の注目方向と前記第１の物体の前記相対位置との比較に基づいて、前記人が前記１つ以上の第１の物体のうちの第１の対象物体を見ていることを判定することと、
前記人の第１の画像と、前記人が第２の時間に視認可能な領域の第２の画像とを有する第２の画像対をキャプチャすることであって、前記第２の時間が第１の時間よりも後である、キャプチャすることと、
前記第２の画像対の前記第１および第２の画像を分析して、前記人の第２の注目方向および前記視認可能な領域内の１つ以上の第２の物体の相対位置を判定することと、
前記人の前記第２の注目方向と前記第２の物体の前記相対位置との比較に基づいて、前記人が前記１つ以上の第２の物体のうちの第２の対象物体を見ていることを判定することと、
前記第１の対象物体および前記第２の対象物体が同じ物体であるという判定に応答して、前記人に提供する前記第１の対象物体に関連付けられたコンテンツを選択することと、
前記人に前記コンテンツを提供することと、
を含む、方法。
前記第１の対象物体および前記第２の対象物体に対する前記人の注目レベルを、前記第１の画像対の前記キャプチャと前記第２の画像対の前記キャプチャとの間の時間量に基づいて判定することと、
選択された閾値レベルを超える前記注目レベルに応答して、前記第１の対象物体に関連する前記コンテンツを選択することと、
をさらに含む、請求項３に記載の方法。
前記人の前記注目レベルを判定することが、垣間見ること、一瞥すること、注視すること、および凝視することから前記注目レベルを選択することを含み、前記コンテンツを選択することが、前記選択された注目レベルに基づいて前記コンテンツを選択することを含む、請求項４に記載の方法。
前記人の前記注目方向と既知の前記自動車の安全物体の位置とに基づいて、前記人が前記自動車の安全物体を見ていることを判定することと、
前記人が前記安全物体を見ているという前記判定に基づいて、前記人にインセンティブを生成することと、
をさらに含む、請求項３に記載の方法。
前記安全物体が、前記自動車のサイドミラー、前記自動車のバックミラー、前記自動車の速度計、または前記自動車のフロントガラスである、請求項６に記載の方法。
前記コンテンツを前記人に提供することが、前記コンテンツを前記人のモバイルコンピューティングデバイスに送信することを含む、請求項３に記載の方法。
自動車のヘッドユニットであって、
視覚的コンテンツを表示するように構成されたディスプレイデバイスと、
コンピュータ命令を記憶するように構成されたメモリと、
前記コンピュータ命令を実行するように構成されたプロセッサであって、
前記自動車の車内向きカメラから第１の画像を受信し、
前記自動車の車外向きカメラから第２の画像を受信し、
前記第１の画像から検出された前記ユーザの注目方向に基づいて、前記自動車内のユーザの焦点領域を判定し、
前記第２の画像の分析に基づいて、前記ユーザの注目に関連する物体を識別し、
前記識別された物体に基づいて、前記ディスプレイデバイスに表示する視覚的コンテンツを選択し、
前記選択された視覚的コンテンツを前記ディスプレイデバイスに提供して、前記ユーザに表示する、プロセッサと、
を備える、ヘッドユニット。
前記プロセッサが、さらなるコンピュータ命令を実行するように構成され、
前記第１の画像における前記ユーザの眼と頭の位置に基づいて前記ユーザの注目方向を判定するための前記第１の画像の分析を含む前記ユーザの前記焦点領域を判定し、
前記第２の画像内の前記物体の位置に基づいて、前記ユーザに対する前記物体の位置を判定するために、前記第２の画像の分析を通じて、前記ユーザの注目に関連する前記物体を識別する、請求項９に記載のヘッドユニット。