JP2020509466A - 完全な畳み込みアーキテクチャを使用する運転者の視覚的注意のための計算フレームワークのシステム及び方法 - Google Patents

完全な畳み込みアーキテクチャを使用する運転者の視覚的注意のための計算フレームワークのシステム及び方法 Download PDF

Info

Publication number
JP2020509466A
JP2020509466A JP2019541277A JP2019541277A JP2020509466A JP 2020509466 A JP2020509466 A JP 2020509466A JP 2019541277 A JP2019541277 A JP 2019541277A JP 2019541277 A JP2019541277 A JP 2019541277A JP 2020509466 A JP2020509466 A JP 2020509466A
Authority
JP
Japan
Prior art keywords
saliency
objects
driver
visual
driving scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019541277A
Other languages
English (en)
Inventor
アシシュ・タワリ
ビョンクン・カン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2020509466A publication Critical patent/JP2020509466A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/193Preprocessing; Feature extraction
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Ophthalmology & Optometry (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

運転シーンの1つ以上の対象の顕著性を推定するためのシステム及び方法が提供される。一部の態様では、システムは、運転シーンの1つ以上の対象の顕著性を推定するためのプロセスを実行するための命令を記憶するメモリを含む。システムは、命令を実行するように構成されたプロセッサを更に含む。様々な態様では、プロセスは、運転者の視覚的注意をモデル化するために、ベイズフレームワークを生成することを含み、ベイズフレームワークは、ボトムアップ顕著性要素及びトップダウン顕著性要素を含む。様々な態様では、プロセスはまた、運転シーン内の1つ以上の対象の視覚的顕著性モデルを生成するために、ベイズフレームワークに基づいて、完全な畳み込みニューラルネットワークを生成することを含む。更なる態様では、プロセスは、運転者の注意を引き付ける特徴を示すために、視覚的顕著性モデルを出力することを含む。【選択図】図1

Description

(関連出願への相互参照)
本開示は、2017年2月6日に出願された仮出願第62/455,328号に対する優先権を主張する、2017年5月30日に出願された米国特許出願第15/608,523号に対する優先権を主張するものであり、各出願の内容の全体が、本明細書に組み込まれる。
(発明の分野)
本明細書における主題は、運転シーンにおける顕著性を推定するための方法及びシステムに関する。
複雑な運転環境内で交通参加者と相互作用することは、困難かつ重要なタスクである。人間の視覚システムは、このタスクを達成する役割を果たすことができる。具体的には、視覚的注意機構により、人間の運転者が、シーンの顕著な及び関連する領域に注目して、運転の決定を行うことを可能にし得る。調査的な人間の視覚システムは、支援及び自律的車両技術を改善することができる。
人間の運転者の最も複雑な能力の中でも、複雑な運転環境において交通参加者をシームレスに知覚して、交通参加者と相互作用する運転者の能力であり得る。人間の視覚は、シーンの理解及び最終的には好適な車両制御挙動につながる環境を知覚する役割を果たし得る。運転者は、最も重要かつ顕著な領域又は物体に注意を向けることができる。しかしながら、今日まで、複雑な交通運転環境において、運転者の注視挙動を正確に模倣し、顕著性を推定することができる計算フレームワークは存在しない。それにもかかわらず、特定の運転環境において顕著な及び関連する領域又は対象を計算する交通顕著性検出は、インテリジェントな車両システムの重要な構成要素であり得、自律運転、交通標識検出、運転トレーニング、衝突警告及び他のタスクをサポートするのに有用であり得る。
視覚的注意は、一般に、視野の重要な及び関連する領域を選択して、後続の複雑な処理(例えば、物体認識)をリアルタイムで可能にする機構を指す。視覚的注意のモデル化は研究されているけれども、既存の理論モデル及び計算モデルは、眼球の動き(例えば、固定/サッカード)を説明することを試みているが、それらは、ボトムアップ機構及びトップダウン機構のいくつかの組み合わせによって複雑に従来誘導される人間の注視挙動を依然として確実に模倣することはできない。ボトムアップキューは、外部刺激によって影響され得、主に、画像ベースの誘目性などの視覚的シーンの特性に基づくものであり、一方で、トップダウンキューは、他の因子の中でも、タスク、知識、メモリ、及び予想が、関連する/情報的なシーン領域に向かう注視を誘導するという目標指向的である。
ボトムアップアプローチは、それらの隣接する背景から目立つ視野内のいくつかの部分又はイベントを直感的に特徴付けることができる。例えば、運転場面では、自動車の点滅するインジケータなどの再帰反射性の交通標識又はイベント、テールブレーキ光の開始などの、高い相対コントラストに起因して背景に飛び出してしまう物体は、顕著なものであり得る。一方で、トップダウンアプローチは、タスク主導又は目標指向的である。例えば、対象は、異なるタスクの下で同じシーンを観察すること(例えば、同じシーンの異なる態様を分析すること)を求められ得、眼球の動き及び固定の相当な差が、実行される特定のタスクに基づいて見出され得る。これにより、異なるタスクが異なるアルゴリズムを必要とし得る故に、トップダウン注意のモデル化を概念的に困難にさせる。
運転は、一般に、経時的に発生する異なるトップダウン因子が注視挙動を支配する際に非常に能動的な役割を果たす複雑な動的環境において、行われる。操縦(例えば、左/右へ曲がること、次の出口から退出することなど)の計画、交通法の知識、所与の位置における他の道路参加者の発見の予想などの因子は、ボトムアップイベントと競合し得、注視挙動に大きく影響を及ぼし得る。
本概要は、発明を実施するための形態において以下に更に記載される簡略化された形態で概念の選択を導入するために提供される。本概要は、特許請求される主題の重要な特徴を特定することを意図するものでもなく、特許請求される主題の範囲を決定する際の補助として使用されることを意図するものでもない。
本開示は、視覚的注意を理解するために、運転者の注視挙動を対象とする。本開示の態様によれば、人間の運転者の視覚的注意をモデル化するためのベイズフレームワークが提示される。更に、ベイズフレームワークに基づいて、完全な畳み込みニューラルネットワークを開発して、新規な運転シーンにおける顕著な領域を推定することができる。本開示の更なる態様によれば、運転者の注意を引き付けるシーン内の領域を調査することができ、ここでは、運転者の注視は、注意の領域を提供し、不注意に目が見えないこと、見ていたが見えていなかった等の心理的影響を残す。このようにして、現実世界の運転シーンにおける運転者の眼球固定が予測され得る。この目的のために、ベイズフレームワークを使用して、運転者の視覚的注意をモデル化することができ、完全な畳み込みニューラルネットワークを開発して、注視固定を予測し、路上運転データを使用してシステムの性能を評価することができる。
様々な態様では、本開示は、ベイズフレームワークを使用して、運転者の視覚的注意をモデル化する際に、タスク依存のトップダウン及びボトムアップ因子を組み込むことができる。例えば、視覚的顕著性は、完全な畳み込みニューラルネットワークを使用してモデル化されて、運転者の注視固定を予測することができ、徹底的な評価及び比較試験が、路上運転データを使用して実行され得、車両状態から推測されるように異なる「タスク」のトップダウン影響を評価することができる。
本開示の態様に特徴的であると考えられる新規な特徴は、添付の特許請求の範囲に規定される。以下の説明において、同様の部分は、それぞれ同一の数字を用いて、明細書及び図面全体を通して記される。図面は必ずしも縮尺どおりに描画されておらず、明確性及び簡潔さのために、特定の図面は、誇張された又は一般化された形態で示され得る。しかしながら、本開示自体、並びに好ましい使用形態、その更なる目的及び進歩は、添付図面と併せて読むと、本開示の例示的な態様の以下の発明を実施するための形態を参照することによって、最も良く理解されるであろう。
本開示の態様によるデータ取得システムの例示的な動作環境の概略図を示す。 データ取得システムを管理するための例示的なネットワークを示す。 本開示の態様による視覚システムを示す。 本開示の態様による、学習された事前位置の画像を示す。 本開示の態様による、注視分布の画像を示す。 本開示の態様による、注視分布の画像を示す。 本開示の態様による、注視分布の画像を示す。 本開示の態様による、顕著性スコア対速度を実証するグラフを示す。 本開示の態様による、ヨーレートに基づく試験シーケンスの事前位置の影響の結果を実証するグラフを示す。 本開示の態様による、他の方法と共に本開示のシステム及び方法の定性的結果を示す。 本開示の態様と共に使用するための例示的なコンピュータシステムの様々な特徴を示す。 本開示の態様による、顕著性モデルを生成するフローチャート方法を示す。
以下は、本明細書で用いられる選択された用語の定義を含む。定義は、用語の範囲内に含まれかつ実装に使用され得る構成要素の様々な実施例及び/又は形態を含む。実施例は、限定することを意図するものではない。
本明細書で使用するとき、「プロセッサ」は、信号を処理し、一般的な演算及び算術機能を実行する。プロセッサによって処理される信号は、デジタル信号、データ信号、コンピュータ命令、プロセッサ命令、メッセージ、ビット、ビットストリーム又は受信、送信、及び/又は検出され得る他の演算を含んでもよい。
本明細書で使用するとき、「バス」は、単一又は複数のシステム内のコンピュータ構成要素間でデータを転送するように動作可能に接続された相互接続されたアーキテクチャを指す。バスは、とりわけ、メモリバス、メモリコントローラ、周辺バス、外部バス、クロスバースイッチ、及び/又はローカルバスとすることができる。バスはまた、とりわけ、コントローラエリアネットワーク(CAN)、ローカル相互接続ネットワーク(LIN)などのプロトコルを使用して車両内部の構成要素を相互接続する車両バスであってもよい。
本明細書で使用するとき、「メモリ」は、揮発性メモリ及び/又は不揮発性メモリを含んでもよい。不揮発性メモリとしては、例えば、ROM(読み取り専用メモリ)、PROM(プログラム可能な読み取り専用メモリ)、EPROM(消去可能なPROM)、及びEEPROM(電気的に消去可能なPROM)を挙げることができる。揮発性メモリとしては、例えば、RAM(ランダムアクセスメモリ)、シンクロナスRAM(SRAM)、ダイナミックRAM(DRAM)、シンクロナスDRAM(SDRAM)、ダブルデータレートSDRAM(DDR SDRAM)、及び/又はダイレクトRAMバスRAM(DRRAM)を挙げることができる。
本明細書で使用するとき、「動作可能な接続」としては、その接続によって実体が「動作可能に接続されている」接続を挙げることができ、信号、物理通信、及び/又は論理通信が送信及び/又は受信され得るものである。動作可能な接続としては、物理的インターフェース、データインターフェース、及び/又は電気インターフェースを挙げることができる。
本明細書で使用するとき、「車両」は、任意の形態のエネルギーによって電力供給される任意の移動車両を指す。車両は、人間の乗員又は積荷を運ぶことができる。「車両」という用語には、限定するものではないが、自動車、トラック、バン、ミニバン、SUV、オートバイ、スクータ、ボート、水上バイク、及び航空機が含まれる。場合によっては、モータ車両は、1つ以上のエンジンを含む。
一般的に記載すると、本開示は、運転シーンにおける顕著性を推定するためのシステム及び方法を提供する。図1を参照すると、本開示の一態様による車両データ取得システム110の例示的な動作環境100の概略図が提供される。車両データ取得システム110は、車両102内に存在してもよい。車両データ取得システム110の構成要素、並びに本明細書で考察される他のシステム、ハードウェアアーキテクチャ、及びソフトウェアアーキテクチャの構成要素は、様々な実装に組み合わされるか、省略されるか、又は編成されてもよい。
車両102は、一般的に、複数の車両システムを動作可能に制御する電子制御ユニット(ECU)112を含むことができる。車両システムとしては、限定するものではないが、とりわけ、車両HVACシステム、車両オーディオシステム、車両ビデオシステム、車両インフォテインメントシステム、車両電話システムなどを含む、車両データ取得システム110が挙げられる。データ取得システム110は、前方カメラ又は他の画像捕捉デバイス(例えば、スキャナ)120、ルーフカメラ又は他の画像捕捉デバイス(例えば、スキャナ)121及び後方カメラ又は他の画像捕捉デバイス(例えば、スキャナ)122を含んでもよく、これはまた、ECU112に接続されて、車両102の周囲の環境の画像を提供することができる。データ取得システム110はまた、前方カメラ120、ルーフカメラ121、後方カメラ122、ヘッドライト124、テールライト126、通信デバイス130、及び自動運転システム132と通信する、プロセッサ114及びメモリ116を含んでもよい。
ECU112は、データを転送し、コマンドを送信し、車両システムと通信するための内部処理メモリ、インターフェース回路、及びバスラインを含んでもよい。ECU112は、図示されていない内部プロセッサ及びメモリを含み得る。車両102はまた、車両データ取得システム110の様々な構成要素間でデータを内部的に送信するためのバスを含んでもよい。
車両102は、様々なプロトコルを利用して有線又は無線コンピュータ通信を提供するための通信デバイス130(例えば、無線モデム)を更に含んで、車両102内の特徴及びシステムに対して内部的に、更に外部デバイスに対して電子信号を送受信することができる。これらのプロトコルは、無線周波数(RF)通信(例えば、IEEE802.11(Wi−Fi)、IEEE802.15.1(Bluetooth(登録商標)))、近距離通信システム(NFC)(例えば、ISO13157)、ローカルエリアネットワーク(LAN)、無線ワイドエリアネットワーク(WWAN)(例えば、セルラ)及び/又はポイントツーポイントシステムを利用する無線システムを含んでもよい。更に、車両102の通信デバイス130は、バス(例えば、CAN又はLINプロトコルバス)を介して内部コンピュータ通信用に動作可能に接続されて、電子制御ユニット112と車両特徴及びシステムとの間のデータ入出力を容易にすることができる。一態様では、通信デバイス130は、車両間(V2V)通信用に構成されてもよい。例えば、V2V通信は、予約された周波数スペクトルでの無線通信を含み得る。別の実施例として、V2V通信は、Wi−Fi又はBluetooth(登録商標)を使用して設定された車両間のアドホックネットワークを含んでもよい。
車両102は、前方カメラ120、ルーフカメラ121、及び後方カメラ122を含んでもよい。前方カメラ120、ルーフカメラ121及び後方カメラ122の各々は、1つ以上の画像又は画像ストリームを捕捉することができるデジタルカメラであってもよく、又はスキャナなどの別の画像捕捉デバイスであってもよい。前方カメラ120は、車両102の真正面の環境の画像を捕捉するように構成されたダッシュボードカメラであってもよい。ルーフカメラ121は、車両102の正面の環境をより広く見るように構成されたカメラであってもよい。前方カメラ120、ルーフカメラ121及び/又は後方カメラ122はまた、他のシステムの中でも、車線保持支援システム、衝突警告システム又は完全自律運転システムを含み得る、自動運転システム132に画像を提供してもよい。
車両102は、車両上で使用される任意の従来のライトを含むことができる、ヘッドライト124及びテールライト126を含んでもよい。ヘッドライト124及びテールライト126は、様々な通知を提供するために、車両データ取得システム110及び/又はECU112によって制御されてもよい。例えば、ヘッドライト124及びテールライト126は、車両102と並行して駐車された車両から識別子をスキャンするのを支援し得る。例えば、ヘッドライト124及び/又はテールライト126は、車両102の環境をスキャンする際に望ましい照明を提供するように作動又は制御されてもよい。ヘッドライト124及びテールライト126はまた、点滅によってリモートコマンド(例えば、移動要求)の確認応答などの情報を提供してもよい。
図2は、データ取得システム110を管理するための例示的なネットワーク200を示す。ネットワーク200は、複数のシステム間の通信を容易にする通信ネットワークであってもよい。例えば、ネットワーク200は、インターネット又は別のインターネットプロトコル(IP)ベースのネットワークを含んでもよい。ネットワーク200は、データ取得システム110がモバイルデバイス210、モバイルサービスプロバイダ220又は製造業者システム230と通信することを可能にし得る。
車両102内のデータ取得システム110は、通信デバイス130を介してネットワーク200と通信することができる。データ取得110は、例えば、前方カメラ120、ルーフカメラ121、及び/又は後方カメラ122によって捕捉された画像を製造業者システム230に送信してもよい。データ取得システム110はまた、別の車両から又は製造業者システム230からの通知を受信してもよい。
製造業者システム230は、1つ以上の車両製造業者又はディーラに関連付けられた、下記の図9に関して示されるようなコンピュータシステムを含んでもよい。製造業者システム230は、前方カメラ120、ルーフカメラ121、及び/又は後方カメラ122によって収集されたデータを記憶する1つ以上のデータベースを含んでもよい。製造業者システム230はまた、車両102の運転シーンの1つ以上の対象の顕著性を推定するためのプロセスを実行するための命令を記憶するメモリと、その命令を実行するように構成されたプロセッサと、を含んでもよい。
本開示の態様によれば、製造業者システム230は、運転シーンの顕著性を判定するように構成され得る。一部の態様では、顕著性は、s=p(O=1|F=f,L=l)として表すことができ、式中、zは、運転者の視野内の点とすることができる。点は、シーンカメラフレーム内の画素であってもよく、f及びlは、点zの視覚的特徴及び位置(x,y)を表すことができ、Oは、2値変数とすることができ、この場合、O=1は、運転に関連する物体/領域(対象とも称される)の存在を表すことができる。したがって、様々な態様では、点zにおける関連する対象の確率が高いほど、点zがより顕著になり得る。
運転は、一般に、異なる時点での異なるタスク、例えば、自動車追従、車線維持、曲がること、車線変更などを含む、高度に動的な環境で行われる。異なるタスクを念頭においた同じ運転シーンは、運転者の注視挙動に影響を及ぼす場合がある。異なるタスクに起因するそのような影響は、本開示の様々な態様に従ってモデル化され得る。例えば、一部の態様では、これらの影響は、以下の式(1)を使用して、製造業者システム230によってモデル化されてもよく、式中、Tは、全てのタスク、
Figure 2020509466
の空間から描かれる離散ランダム変数とすることができる。
Figure 2020509466
ベイズルールを使用して、式(1)の右辺の第1の成分(空間的な制約に起因してS(T)と略される)をより詳しく見る。
Figure 2020509466
一部の態様では、特徴及び点zの位置が条件的に独立していると考えられるとき、式(2)は簡略化されてもよい。換言すれば、特徴の分布は、任意の所与のタスク中に対象上に出現するか否かにかかわらず、シーンにわたる位置で変化しない場合がある。したがって、式(2)は、以下の式(3)に示されるように、有意成分に分解されてもよく、簡略化のために、O=1は、Oと略すことができる。
Figure 2020509466
様々な態様では、式(3)の第1の成分は、対象に依存しないため、ボトムアップ顕著性と称され得る。一部の態様では、点zの特徴の確率が低くなるにつれて、より顕著な点zが生じ得る。換言すれば、希少な特徴は、顕著性であり得る。様々な態様では、式(3)の第2の成分は、対象及び関連する知識に依存し得、したがって、トップダウン顕著性と称され得る。したがって、一部の態様では、第2の成分の第1の部分は、対象において見出される特徴を促し得る。すなわち、重要な特徴は、顕著性であり得る。本開示の更なる態様では、第2の成分の第2の部分は、対象の予想位置の知識を符号化することができ、事前位置と称され得る。運転の観点からすれば、これは、運転者が、車線を変更しながら側方ミラーをチェックすること又は肩越しに見ることなどの、特定のタスクを実行している間に、シーンの特定の位置における関連する対象の事前予想を展開することを伴い得る。
様々な態様では、p(f|T)及びp(f|O,T)におけるような高次元特徴分布を正確に学習することは困難であり得、したがって、式(3)における最初の2つの項は、以下のようにベイズルールを使用して再構成されてもよい。
Figure 2020509466
本開示の態様では、式(4)の最後の項、p(O|T)は、特定のタスクを与えられた対象クラスの事前確率とすることができ、均一である(例えば、一定値)と考えられ得る。
図3は、本開示の態様による製造業者システム230のアーキテクチャ300を示す。様々な態様では、複数の第1の六面体305、複数の第2の六面体310、及び複数の第3の六面体315は、それぞれ、畳み込み層、プーリング層、及び逆畳み込み層を表すことができる。図3に示されるように、複数の第1の六面体305の各々に関連する数字は、複数の第1の六面体305の各々のカーネルサイズを順に示す。一部の態様では、複数の第2の六面体310の各々のカーネルサイズは、2×2であってもよい。更に、一部の態様では、複数の第1の六面体305及び複数の第2の六面体310、例えば、それぞれ、畳み込み層及びプーリング層の各々のストライドは、それぞれ、1及び2であってもよい。他の態様では、複数の第3の六面体315のうちの前方2つは、4×4×1のカーネルサイズ及び2のストライドであってもよく、複数の第3の六面体315のうちの最後の1つは、16×16×1のカーネルサイズ及び8のストライドであってもよい。したがって、本開示の様々な態様では、式(1)からの全体的な顕著性は、以下とすることができる。
Figure 2020509466
式中、Zは、正規化因子とすることができる。様々な態様では、因子p(O|f,T)及びp(O|l,T)は、運転データから学習され得る。例えば、p(O|f,T)は、完全な畳み込みニューラルネットワークを使用してモデル化されてもよく、p(O|l,T)は、各タスクの事前位置から学習され得る。
本開示の態様では、顕著な領域は、学習された事前分布に基づいて推定された重みを用いて、例えば、製造業者システム230によって、調整され得る。様々な態様では、モデル化p(O|f,T)は、所与の「タスク」Tにおける特徴ベクトルの重みに基づくことができ、対象クラス、すなわち、顕著性対象対非顕著性対象を区別することができる。一部の態様では、運転データについて、ある点におけるより長い固定が、運転者によってその点がより注意を受けるものとして解釈され得、したがって、より顕著とすることができる。したがって、顕著性は、画素ごとの回帰問題としてモデル化することができる。
更なる態様では、顕著性の局所的な誘目性特徴は、周囲の背景の分析を必要とする場合がある。換言すれば、局所的な特徴は、独立して分析されるのではなくて、周囲の特徴と関連して分析される。一部の態様では、これは、スキップ接続320.1、320.2(集合的にスキップ接続320)によって達成され得る。例えば、スキップ接続320.1は、複数の第2の六面体310のうちの第1のものを複数の第1の六面体305のうちの第1のものに接続することができ、スキップ接続320.2は、複数の第2の六面体310のうちの第2のものを複数の第1の六面体305のうちの第2のものに接続することができる。スキップ接続320は、早期の特徴応答が後期の特徴応答と直接相互作用することを可能にし得、これは、多くの場合、(例えば、中間最大プール層に起因する)より早期のマップのダウンサンプリングバージョンと連動し、したがって、同じ受容野サイズについて、元の入力フレーム内の画素の周囲のより大きな領域をカバーすることができる。
様々な態様では、顕著性データセットは、例えば、画像フレームの中央を中心とするガウスブロブを顕著性マップとして使用して、自由視野画像及びビデオフレームのための人間の眼球固定の強い中心バイアスを明らかにすることができる。運転データの観点から、運転者は、ほとんどの時間の前に注意を払うことができ、したがって、本開示の製造業者システム230は、些細な中心バイアス解の学習を回避するように構成されてもよい。
上記の基準に基づいて、一部の態様では、製造業者システム230は、畳み込みニューラルネットワーク(CNN)、例えば、完全な畳み込みニューラルネットワーク(FCN)を含んでもよい。一部の態様では、完全な畳み込みニューラルネットワークは、任意のサイズの入力を得ることができ、対応するサイズの出力を生成することができる。更に、(完全に接続されていない層を有する)完全な畳み込みネットワークは、その位置に関係なく同様に画像画素を処理することができる。すなわち、一部の態様では、完全な畳み込み層の受容野が、エッジ効果を引き起こすほど大きくない限り(例えば、受容野のサイズが入力層のサイズと同じ場合)、製造業者システム230の完全な畳み込みネットワークは、位置情報を利用する手法を持たない。
図4は、ヨーレートから推測されるように、異なる「タスク」について学習された事前位置を示す。すなわち、図4に示すように、上部及び下部列は、それぞれ、負のヨーレート(左へ曲がること)及び正のヨーレート(右へ曲がること)の影響を示す。加えて、図4は、ヨーレートの大きさが増加するにつれて、中心からシフトする事前位置を示す。本開示の様々な態様では、顕著性推定タスクは、画素ごとの回帰問題として考えられ得るので、製造業者システム230の完全な畳み込みネットワークは、そのような回帰問題に適合され得る。例えば、一部の態様では、例えば、スコア層を変更して、回帰のための単一チャネル顕著性スコア及び損失層を反映するなどの、わずかな修正を伴う、複数のスキップ接続を有するFCN−8(完全な畳み込みネットワーク)アーキテクチャが配備されてもよい。いくつかの予想において、損失関数に関して、L2損失Lは、以下のように定義することができる。
Figure 2020509466
式中、Nは、データの総数とすることができ、
Figure 2020509466
は、推定された顕著性とすることができ、yは、対象とされた顕著性とすることができる。
様々な態様では、バイリニアのアップサンプリングされたフィルタ重みを有する固定された逆畳み込み層を、歪みストラテジの1つとして使用することができる。更なる態様では、本開示は、セグメンテーションデータセットを使用してトレーニングされ得る完全な畳み込みネットワーク(例えば、FCN−8)を使用して初期化されてもよく、製造業者システム230のDR(eye)VEトレーニングデータセットを使用して、顕著性推定タスクについてトレーニングされてもよい。例えば、DR(eye)VEデータセットは、それぞれ5分間の74シーケンスを含んでもよく、前方カメラ120、ルーフカメラ121、後方カメラ122、頭部搭載カメラからのビデオ、装着型視標追跡デバイスから捕捉された注視位置及び/又は車両状態(例えば、速度、コース、緯度、経度など)に関連する全地球測位システム(GPS)からの他の情報を提供することができる。捕捉された注視画素位置は、σ=200画素及びσ=k/2を用いる、時空間ガウスモデルG(σ,σ)を使用して更に処理することができ、ここで、k=25フレームであり、平滑化されたグランドトゥルース顕著性マップが取得される。一部の態様では、DR(eye)VEデータセットは、異なる領域(例えば、繁華街、田舎、及びハイウェイ)において、異なる気象条件(例えば、晴れ、曇り、及び雨)の下、並びにその日の異なる時間(例えば、朝、夕方、及び夜)に、複数の運転者から収集されてもよい。様々な態様では、DR(eye)VEデータセットは、トレーニング及び試験(例えば、トレーニングのための最初の37シーケンス及び試験のための最後の37シーケンス)のために分離されてもよい。一部の態様では、エラーを伴うフレームが、除外されてもよい。更なる態様では、トレーニングについて、一般に、車両が移動していないときには、運転者は、運転に関連するイベントに注意を払うことが予想されないので、車両が静止しているときのフレームもまた、除外されてもよい。
本明細書で考察されるように、運転中における、車線変更、左/右へ曲がること、ハイウェイからの退出などのようなタスクは、トップダウン注意に影響を及ぼし得る。したがって、確率分布p(O|f,T)及びp(O|l,T)は、これらのタスクが条件付けられ得、本開示の一部の態様では、これらの分布は、運転者がそのようなタスクに従事しているときにDR(eye)VEデータセットの一部から学習され得る。一部の態様では、DR(eye)VEデータセットは、そのようなタスク情報を目下欠いており、したがって、これらの「タスク」は、車両動力学に基づいて定義され得る。例えば、DR(eye)VEデータセットは、ヨーレートに基づいて分割されてもよい。一部の態様では、ヨーレートは、イベント、例えば、(右/左)へ曲がること、退出、カーブ追従などを示すことができ、タスク場面を推測するための合理的かつ自動的な手法を提供することができる。様々な態様では、データセットにおいて、ヨーレートは、GPSによって提供されるコース測定から計算され得る。
一部の態様では、DR(eye)VEデータセットは、5°/秒のビンサイズを有するヨーレートの離散間隔に分割されることができる。次いで、事前位置、p(O|l,T)は、ビン内の全てのトレーニングセット注意マップの平均として計算されることができる。本明細書で考察されるように、図4は、事前位置の推定へのヨーレートの影響を示す。例えば、ヨーレートの大きさが増加するにつれて、事前位置は、エッジに向かって(例えば、中心から離れて)段々曲げられることになる。また、一部の態様では、正のヨーレート(右へ曲がるイベント)は、中心の右に向かって事前位置をシフトさせ、負のヨーレート(左へ曲がるイベント)は、反対側にシフトさせる。
更なる態様では、学習p(O|f,T)は、ニューラルネットワークをトレーニングすることによって達成され得る。しかしながら、ヨーレートの大きさが増加するにつれて、ビン内のトレーニングのためのデータセットサイズは、劇的に減少し得る。これを解決するために、p(O|f,T)〜p(O|f)は、この成分について全てのデータを取ることによって近似されてもよい。例えば、定量分析のために、推定された顕著性マップとグランドトゥルース顕著性マップとの間の線形相関係数(CC)(ピアソンの線形係数としても知られる)を計算することができる。一部の態様では、各顕著性マップsは、以下のように正規化されてもよい。
Figure 2020509466
式中、
Figure 2020509466
は、顕著性マップsの平均を表すことができ、σ(s)は、sの標準偏差とすることができ、zは、シーンカメラフレーム内の画素とすることができる。次いで、CCは、以下のように計算することができる。
Figure 2020509466
式中、s’は、正規化されたグランドトゥルース顕著性マップを表すことができ、
Figure 2020509466
は、正規化された推定された顕著性マップとすることができる。
図5A〜図5Cは、注視分布の画像を示す。一部の態様では、図5A〜5Cは、平均グランドトゥルース眼球固定から学習された中心バイアスフィルタを示す。一部の態様では、図5Aに示すように水平軸にわたる注視分布及び図5Bに示すように垂直軸にわたる注視分布が、学習されることができる。更に、図5Cは、全体的な注視分布を示す。一部の態様では、ベースラインについて、中心バイアスフィルタを伴う性能を計算することができる。このベースラインは、本明細書で考察されるシステム及び方法の性能の比較として使用することができる。表Iは、提案された方法の性能を示す。すなわち、表Iは、ベースライン、従来のボトムアップ顕著性方法及び本開示のアプローチによって得られた試験結果を示しており、ここで、括弧内の結果は、学習された事前位置を組み込むことによって得られた。
Figure 2020509466
全体として、本開示のシステム及び方法は、約0.55のスコアを達成する。一方、従来の方法は、相関関係を示さず(CC<0.3)、単純なトップダウンキューに対応するベースライン結果は、より良いパフォーマンスを収める。したがって、本開示のシステム及び方法は、ベースライン並びに従来のアプローチよりも性能が優れている。一部の態様では、本開示のシステム及び方法は、フレームのシーケンスとは対照的に、固定領域を予測するために単一フレームを使用して最新の結果を達成し、したがって、計算的により一層効率的であり得る。
図6は、顕著性スコア対速度を比較するグラフを示す。図6に示すように、各点は、所与の速度を超える速度を有するフレームの平均相関係数を提示することができる。図6に更に示すように、速度が増加するにつれて、本開示のシステム及び方法の性能は、100km/時を超える速度に対して約0.70である相関係数で改善される。これは、運転者が、高速で運転している間に自然により集中して、他の無関係なイベントによって気を取られなくすることができるからであり、本開示の態様により、学習されたネットワークによって非常に良好に捕捉される車線マーキングのような道路特徴に常に追従する傾向があるからである。なお更なる態様では、車両が静止しているときのフレームを除外することにより、約5%性能を更に改善することができる。これは、車両が動いていないときに、運転者が非運転イベントを自由に見回し得るという事実に起因し得る。
図7は、ヨーレートが>15°/秒の試験シーケンスへの事前位置の影響の試験結果を示す。例えば、図7は、10km/時未満の速度についての試験結果、10km/時〜30km/時の速度及び30km/時を超える速度についての試験結果を示す。特に、図7に示すように、ヨーレートが15°/秒を超え、かつ速度が30km/時を超える場合、視覚的特徴のみを使用して10%の改善を達成することができる。これらは、運転者が、(左/右へ)曲がること及び退出などのような操縦に能動的に関与し得るという事実関係にある。
ネットワークの出力を詳しく見ると、図8に示すように、本開示のシステム及び方法が、運転者の注意を引き付ける道路特徴によく応答し得ることが示され、図8は、異なる「タスク」中の運転者の眼球固定予測のためのGBVS、ITTI及び画像サインに基づく方法と共に、本開示の態様による定性的結果を示す。加えて、図8の「GT」の縦列は、グランドトゥルース固定マップ(GT)を示す。図8に示されるように、車線マーキングの消滅点は、運転者の注視挙動に影響を及ぼし、本開示のシステム及び方法は、それらの有意な表れを学習することができる。注視データから、運転中の現在の「タスク」が重要な因子であり得ることは明らかである。例えば、運転者が間近に迫った出口を退出するよう計画しているか否かは、自身の注視挙動に影響を及ぼすであろう(図8の上からの5つ目の列)。視覚的特徴のみから、このような因子は、注視挙動を模倣するように組み込むことができず、したがって、本開示のシステム及び方法は、事前位置を使用してこのようなタスク指向の予想をモデル化することができる。一般に、視覚的特徴とは独立した任意の情報が、事前情報として組み込まれ、データから学習されてもよい。
本発明の態様は、ハードウェア、ソフトウェア又はそれらの組み合わせを使用して実装されてもよく、1つ以上のコンピュータシステム又は他の処理システムに実装されてもよい。本発明の一態様では、特徴は、本明細書に記載される機能を実行することができる1つ以上のコンピュータシステムを対象とする。このようなコンピュータシステム900の実施例を図9に示す。
コンピュータシステム900は、プロセッサ904などの1つ以上のプロセッサを含む。プロセッサ904は、通信基盤906(例えば、通信バス、クロスオーバーバー又はネットワーク)に接続されている。様々なソフトウェア態様が、この例示的なコンピュータシステムに関して説明される。この説明を読んだ後、他のコンピュータシステム及び/又はアーキテクチャを使用して本発明の態様を実施する手法が当業者(複数可)には明らかとなるであろう。
コンピュータシステム900は、表示ユニット930上に表示するために、通信基盤906から(又は図示されないフレームバッファから)グラフィック、テキスト及び他のデータを転送する表示インターフェース902を含んでもよい。コンピュータシステム900はまた、メインメモリ908、好ましくはランダムアクセスメモリ(RAM)を含み、また、二次メモリ910を含んでもよい。二次メモリ910は、例えば、フロッピーディスクドライブ、磁気テープドライブ、光ディスクドライブ、ユニバーサルシリアルバス(USB)フラッシュドライブなどを表すハードディスクドライブ912及び/又は取り外し可能な記憶ドライブ914を含んでもよい。取り外し可能な記憶ドライブ914は、周知の手法で取り外し可能な記憶ユニット918から読み取り、及び/又は取り外し可能な記憶ユニット918に書き込む。取り外し可能な記憶ユニット918は、フロッピーディスク、磁気テープ、光ディスク、USBフラッシュドライブなどを表し、これは、取り外し可能な記憶ドライブ914によって読み取られ、かつ取り外し可能な記憶ドライブ914に書き込まれる。理解されるように、取り外し可能な記憶ユニット918は、コンピュータソフトウェア及び/又はデータを中に記憶したコンピュータ使用可能な記憶媒体を含む。
本発明の代替的な態様は、二次メモリ910を含んでもよく、コンピュータプログラム又は他の命令がコンピュータシステム900にロードされることを可能にするために他の同様のデバイスを含んでもよい。このようなデバイスは、例えば、取り外し可能な記憶ユニット922及びインターフェース920を含んでもよい。このような実施例としては、プログラムカートリッジ及びカートリッジインターフェース(ビデオゲームデバイスに見られるものなど)、取り外し可能なメモリチップ(消去可能でプログラム可能な読み取り専用メモリ(EPROM)など)、又はプログラム可能な読み取り専用メモリ(PROM)及び関連するソケット、並びに、ソフトウェア及びデータが取り外し可能な記憶ユニット922からコンピュータシステム900に転送されることを可能にする他の取り外し可能な記憶ユニット922及びインターフェース920を挙げることができる。
コンピュータシステム900はまた、通信インターフェース924を含んでもよい。通信インターフェース924は、ソフトウェア及びデータがコンピュータシステム900と外部デバイスとの間で転送されることを可能にする。通信インターフェース924の実施例としては、モデム、ネットワークインターフェース(例えばイーサネット(登録商標)カードなど)、通信ポート、パーソナルコンピュータメモリカード国際協会(PCMCIA)スロット及びカードなどを挙げることができる。通信インターフェース924を介して転送されるソフトウェア及びデータは、通信インターフェース924によって受信することができる電子信号、電磁信号、光信号又は他の信号であり得る信号928の形態にある。これらの信号928は、通信経路(例えば、チャネル)926を介して通信インターフェース924に提供される。この経路926は、信号928を運び、ワイヤ若しくはケーブル、光ファイバー、電話回線、セルラリンク、無線周波数(RF)リンク及び/又は他の通信チャネルを使用して実装されてもよい。本文書では、「コンピュータプログラム媒体」及び「コンピュータ使用可能な媒体」という用語は、一般に、取り外し可能な記憶媒体918、ハードディスクドライブ912にインストールされたハードディスク及び信号928などの媒体を指すために使用される。これらのコンピュータプログラム製品は、コンピュータシステム900にソフトウェアを提供する。本発明の態様は、このようなコンピュータプログラム製品を対象とする。
コンピュータプログラム(コンピュータ制御論理とも称される)は、メインメモリ908及び/又は二次メモリ910に記憶されている。コンピュータプログラムはまた、通信インターフェース924を介して受信されてもよい。このようなコンピュータプログラムは、実行されると、本明細書で考察されるように、コンピュータシステム900が、本発明の態様に従う特徴を果たすことを可能にする。特に、コンピュータプログラムは、実行されると、プロセッサ904が本発明の態様に従う特徴を果たすことを可能にする。したがって、このようなコンピュータプログラムは、コンピュータシステム900のコントローラを表す。
発明がソフトウェアを使用して実施される本発明の一態様では、ソフトウェアは、コンピュータプログラム製品に記憶され、取り外し可能な記憶ドライブ914、ハードドライブ912、又は通信インターフェース920を使用してコンピュータシステム900にロードされてもよい。制御ロジック(ソフトウェア)は、プロセッサ904によって実行されると、プロセッサ904に本明細書に記載される機能を行わせる。本発明の別の態様では、システムは、例えば、特定用途向け集積回路(ASIC)などのハードウェア構成要素を使用して、主にハードウェアに実装される。本明細書に記載される機能を行うようなハードウェア状態マシンの実装は、当業者(複数可)に明らかであろう。
図10は、本開示の態様による、顕著性モデルを生成するフローチャート方法を示す。顕著性モデルを生成する方法1000は、運転者1010の視覚的注意をモデル化するためにベイズフレームワークを生成することと、ベイズフレームワークに基づいて、完全な畳み込みニューラルネットワークを生成して、運転シーン1020内の1つ以上の対象の視覚的顕著性モデルを生成することと、運転者1030の注意を引き付ける特徴を示すために視覚的顕著性モデルを出力することとを含む。
上記に開示された及び他の特徴並びに機能又はこれらの代替物若しくは変形の様々な実装が、望ましくは多くの他の異なるシステム又はアプリケーションに組み合わされ得ることが理解されるであろう。また、その中に様々な現在予知されない若しくは予期されない代替物、修正、変形又は改善が、当業者によって後に行われてもよく、これらはまた、以下の特許請求の範囲によって包含されることが意図される。

Claims (20)

  1. 運転シーンの1つ以上の対象の顕著性を推定するための自動運転(AD)システムであって、
    前記運転シーンの前記1つ以上の対象の前記顕著性を推定するためのプロセスを実行するための命令を記憶するメモリと、
    前記命令を実行するように構成されたプロセッサであって、前記プロセスが、
    運転者の視覚的注意をモデル化するために、ベイズフレームワークを生成することであって、前記ベイズフレームワークが、ボトムアップ顕著性要素及びトップダウン顕著性要素を含む、生成することと、
    前記運転シーン内の前記1つ以上の対象の視覚的顕著性モデルを生成するために、前記ベイズフレームワークに基づいて、完全な畳み込みニューラルネットワークを生成することと、
    前記運転者の注意を引き付ける特徴を示すために、前記視覚的顕著性モデルを出力することと、を含む、プロセッサと、を備える、ADシステム。
  2. 前記ボトムアップ顕著性要素が、対象非依存性であり、
    前記トップダウン顕著性要素が、対象依存性である、請求項1に記載のADシステム。
  3. 前記トップダウン顕著性要素が、重要な対象が顕著であることを示す第1の構成要素と、対象の予想された位置の知識を示す第2の構成要素と、を含む、請求項2に記載のADシステム。
  4. 前記対象の前記予想された位置が、ヨーレートに基づいており、前記ヨーレートの大きさが増加するにつれて、前記対象の前記予想された位置が、中心視野から離れてシフトする、請求項3に記載のADシステム。
  5. 前記プロセスが、学習された事前分布に基づいて推定された重みを用いて、前記運転シーンの1つ以上の顕著な領域を調整することを更に含む、請求項1に記載のADシステム。
  6. 前記重みが、前記1つ以上の対象のタスクに基づく、請求項5に記載のADシステム。
  7. 前記完全な畳み込みニューラルネットワークが、前記1つ以上の対象の周囲の特徴に関連して前記1つ以上の対象を分析することを可能にするように構成された1つ以上のスキップ接続を含む、請求項1に記載のADシステム。
  8. 運転シーンの1つ以上の対象の顕著性を推定するための方法であって、
    運転者の視覚的注意をモデル化するために、ベイズフレームワークを生成することであって、前記ベイズフレームワークが、ボトムアップ顕著性要素及びトップダウン顕著性要素を含む、生成することと、
    前記運転シーン内の前記1つ以上の対象の視覚的顕著性モデルを生成ために、前記ベイズフレームワークに基づいて、完全な畳み込みニューラルネットワークを生成することと、
    前記運転者の注意を引き付ける特徴を示すために、前記視覚的顕著性モデルを出力することと、を含む、方法。
  9. 前記ボトムアップ顕著性要素が、対象非依存性であり、
    前記トップダウン顕著性要素が、対象依存性である、請求項8に記載の方法。
  10. 前記トップダウン顕著性要素が、重要な対象が顕著であることを示す第1の構成要素と、対象の予想された位置を示す第2の構成要素と、を含み、前記予想された位置が、以前の運転者体験に基づく、請求項9に記載の方法。
  11. 前記対象の前記予想された位置が、ヨーレートに基づく、請求項10に記載の方法。
  12. 学習された事前分布に基づいて推定された重みを用いて、前記運転シーンの1つ以上の顕著な領域を調整することを更に含む、請求項8に記載の方法。
  13. 前記重みが、前記1つ以上の対象のタスクに基づく、請求項12に記載の方法。
  14. 前記完全な畳み込みニューラルネットワークの1つ以上のスキップ接続に基づいて、前記1つ以上の対象の周囲の特徴に関連して前記1つ以上の対象を分析することを更に含む、請求項8に記載の方法。
  15. 実行可能なコンピュータプログラムコードを含む非一時的コンピュータ可読記憶媒体であって、前記コードが、
    運転者の視覚的注意をモデル化するために、ベイズフレームワークを生成することであって、前記ベイズフレームワークが、ボトムアップ顕著性要素及びトップダウン顕著性要素を含む、生成することと、
    前記運転シーン内の前記1つ以上の対象の視覚的顕著性モデルを生成するために、前記ベイズフレームワークに基づいて、完全な畳み込みニューラルネットワークを生成することと、
    前記運転者の注意を引き付ける特徴を示すために、前記視覚的顕著性モデルを出力することと、を行うように構成された命令を含む、非一時的コンピュータ可読記憶媒体。
  16. 前記ボトムアップ顕著性要素が、対象非依存性であり、
    前記トップダウン顕著性要素が、対象依存性である、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  17. 前記トップダウン顕著性要素が、重要な対象が顕著であることを示す第1の構成要素と、対象の予想された位置を示す第2の構成要素と、を含み、前記予想された位置が、以前の運転者体験に基づく、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  18. 前記対象の前記予想された位置が、ヨーレートに基づく、請求項17に記載の非一時的コンピュータ可読記憶媒体。
  19. 前記コードが、学習された事前分布に基づいて推定された重みを用いて、前記運転シーンの1つ以上の顕著な領域を調整するように更に構成された命令を含む、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  20. 前記重みが、前記1つ以上の対象のタスクに基づく、請求項12に記載の非一時的コンピュータ可読記憶媒体。
JP2019541277A 2017-02-06 2018-02-05 完全な畳み込みアーキテクチャを使用する運転者の視覚的注意のための計算フレームワークのシステム及び方法 Pending JP2020509466A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762455328P 2017-02-06 2017-02-06
US62/455,328 2017-02-06
US15/608,523 2017-05-30
US15/608,523 US20180225554A1 (en) 2017-02-06 2017-05-30 Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture
PCT/US2018/016903 WO2018145028A1 (en) 2017-02-06 2018-02-05 Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture

Publications (1)

Publication Number Publication Date
JP2020509466A true JP2020509466A (ja) 2020-03-26

Family

ID=63037815

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019541277A Pending JP2020509466A (ja) 2017-02-06 2018-02-05 完全な畳み込みアーキテクチャを使用する運転者の視覚的注意のための計算フレームワークのシステム及び方法

Country Status (5)

Country Link
US (1) US20180225554A1 (ja)
JP (1) JP2020509466A (ja)
CN (1) CN110291499A (ja)
DE (1) DE112018000335T5 (ja)
WO (1) WO2018145028A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7149692B2 (ja) * 2017-08-09 2022-10-07 キヤノン株式会社 画像処理装置、画像処理方法
US11042994B2 (en) * 2017-11-15 2021-06-22 Toyota Research Institute, Inc. Systems and methods for gaze tracking from arbitrary viewpoints
US10282864B1 (en) * 2018-09-17 2019-05-07 StradVision, Inc. Method and device for encoding image and testing method and testing device using the same
JP7263734B2 (ja) * 2018-10-29 2023-04-25 株式会社アイシン 視認対象判定装置
GB2580671B (en) * 2019-01-22 2022-05-04 Toshiba Kk A computer vision system and method
CN109886269A (zh) * 2019-02-27 2019-06-14 南京中设航空科技发展有限公司 一种基于注意力机制的交通广告牌识别方法
US11574494B2 (en) 2020-01-27 2023-02-07 Ford Global Technologies, Llc Training a neural network to determine pedestrians
JP7331728B2 (ja) 2020-02-19 2023-08-23 マツダ株式会社 運転者状態推定装置
JP7331729B2 (ja) 2020-02-19 2023-08-23 マツダ株式会社 運転者状態推定装置
US11458987B2 (en) * 2020-02-26 2022-10-04 Honda Motor Co., Ltd. Driver-centric risk assessment: risk object identification via causal inference with intent-aware driving models
WO2021181861A1 (ja) * 2020-03-10 2021-09-16 パイオニア株式会社 地図データ生成装置
US11604946B2 (en) 2020-05-06 2023-03-14 Ford Global Technologies, Llc Visual behavior guided object detection
US11546427B2 (en) 2020-08-21 2023-01-03 Geotab Inc. Method and system for collecting manufacturer-specific controller-area network data
US11212135B1 (en) * 2020-08-21 2021-12-28 Geotab Inc. System for identifying manufacturer-specific controller-area network data
US11582060B2 (en) 2020-08-21 2023-02-14 Geotab Inc. Telematics system for identifying manufacturer-specific controller-area network data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2256667A1 (en) * 2009-05-28 2010-12-01 Honda Research Institute Europe GmbH Driver assistance system or robot with dynamic attention module
JP2012079117A (ja) * 2010-10-01 2012-04-19 Toyota Motor Corp 車両の物体認識システム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444383B2 (en) * 2000-06-17 2008-10-28 Microsoft Corporation Bounded-deferral policies for guiding the timing of alerting, interaction and communications using local sensory information
JP4396430B2 (ja) * 2003-11-25 2010-01-13 セイコーエプソン株式会社 視線誘導情報生成システムおよび視線誘導情報生成プログラム、並びに視線誘導情報生成方法
JP4277081B2 (ja) * 2004-03-17 2009-06-10 株式会社デンソー 運転支援装置
US8363939B1 (en) * 2006-10-06 2013-01-29 Hrl Laboratories, Llc Visual attention and segmentation system
WO2011152893A1 (en) * 2010-02-10 2011-12-08 California Institute Of Technology Methods and systems for generating saliency models through linear and/or nonlinear integration
CN101980248B (zh) * 2010-11-09 2012-12-05 西安电子科技大学 基于改进视觉注意力模型的自然场景目标检测方法
US20140254922A1 (en) * 2013-03-11 2014-09-11 Microsoft Corporation Salient Object Detection in Images via Saliency
US9499197B2 (en) * 2014-10-15 2016-11-22 Hua-Chuang Automobile Information Technical Center Co., Ltd. System and method for vehicle steering control
US9747812B2 (en) * 2014-10-22 2017-08-29 Honda Motor Co., Ltd. Saliency based awareness modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2256667A1 (en) * 2009-05-28 2010-12-01 Honda Research Institute Europe GmbH Driver assistance system or robot with dynamic attention module
JP2011008772A (ja) * 2009-05-28 2011-01-13 Honda Research Inst Europe Gmbh 動的注意モジュールを備えた運転者支援システムまたはロボット
JP2012079117A (ja) * 2010-10-01 2012-04-19 Toyota Motor Corp 車両の物体認識システム
US20130194086A1 (en) * 2010-10-01 2013-08-01 Toyota Jidosha Kabushiki Kaisha Obstacle recognition system and method for a vehicle

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
DENG, T., ET AL.: "Where does the driver look? Top-down-based saliency detection in a traffic driving environment.", IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS, vol. Volume 17 Number 7, JPN6020036783, July 2016 (2016-07-01), pages 2051 - 2062, ISSN: 0004483008 *
DOSHI, A.,ET AL.: "Attention estimation by simultaneous observation of viewer and view.", IN 2010 IEEE COMPUTER SOCIETY CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION-WORKSHOPS, JPN6020036788, June 2010 (2010-06-01), pages 21 - 27, XP031728459, ISSN: 0004483010 *
JETLEY, S.,ET AL.: "End-to-end saliency mapping via probability distribution prediction.", IN PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6020036786, 2016, pages 5753 - 5761, XP033021773, ISSN: 0004483009, DOI: 10.1109/CVPR.2016.620 *
LONG, J., ET AL.: "Fully convolutional networks for semantic segmentation.", IN PROCEEDINGS OF THE IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION, JPN6020036792, 2015, pages 3431 - 3440, XP032793793, ISSN: 0004483011, DOI: 10.1109/CVPR.2015.7298965 *
MICHAEL, D., ET AL., THE IMPORTANCE OF SKIP CONNECTIONS IN BIOMEDICAL IMAGE SEGMENTATION [ONLINE], vol. Version 2, JPN6020036794, 22 September 2016 (2016-09-22), ISSN: 0004483012 *
ZHANG, L.,ET AL.: "SUN: A Bayesian framework for saliency using natural statistics.", JOURNAL OF VISION, vol. Volume 8 Number 7, JPN6020036780, 16 December 2008 (2008-12-16), ISSN: 0004483007 *

Also Published As

Publication number Publication date
DE112018000335T5 (de) 2019-09-19
WO2018145028A1 (en) 2018-08-09
US20180225554A1 (en) 2018-08-09
CN110291499A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
JP2020509466A (ja) 完全な畳み込みアーキテクチャを使用する運転者の視覚的注意のための計算フレームワークのシステム及び方法
US11676364B2 (en) Real-time detection of lanes and boundaries by autonomous vehicles
CN111133447B (zh) 适于自主驾驶的对象检测和检测置信度的方法和系统
JP7399164B2 (ja) 駐車スペース検出に適したスキューされたポリゴンを使用した物体検出
US10877485B1 (en) Handling intersection navigation without traffic lights using computer vision
US11508049B2 (en) Deep neural network processing for sensor blindness detection in autonomous machine applications
US11080590B2 (en) Stereo depth estimation using deep neural networks
CN111565978B (zh) 主预览区域和基于视线的驾驶员分心检测
US20190250622A1 (en) Controlling autonomous vehicles using safe arrival times
DE102020115479A1 (de) Erweiterte bildgebung mit hohem dynamikumfang und tone -mapping
DE102021100065A1 (de) Verwendung neuronaler netze zur fehlererkennung bei anwendungen für autonomes fahren
US11908104B2 (en) Weighted normalized automatic white balancing
JP7027737B2 (ja) 画像処理装置、および画像処理方法、並びにプログラム
US10764536B2 (en) System and method for a dynamic human machine interface for video conferencing in a vehicle
KR20200043391A (ko) 화상 블러 보정을 위한 화상 처리, 화상 처리 방법 및 프로그램
JPWO2019077999A1 (ja) 撮像装置、画像処理装置、及び、画像処理方法
US20230215196A1 (en) Information processing apparatus, information processing method, and program
CN117015792A (zh) 有凹图像放大用于自动驾驶生成物体检测标签的系统和方法
CN111862226B (zh) 用于车辆中的摄像机校准和图像预处理的硬件设计
CN113752940B (zh) 进出隧道车灯控制方法、设备、存储介质及装置
CN114103982A (zh) 车辆用显示控制装置、方法、计算机可读存储介质以及车辆用显示系统
KR20210102212A (ko) 화상 처리 장치, 화상 처리 방법 및 화상 처리 시스템
CN116542346A (zh) 在车辆的边缘训练感知模型
JPWO2020170835A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190820

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190820

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191008

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210413