JP2019153277A - エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け - Google Patents

エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け Download PDF

Info

Publication number
JP2019153277A
JP2019153277A JP2018228967A JP2018228967A JP2019153277A JP 2019153277 A JP2019153277 A JP 2019153277A JP 2018228967 A JP2018228967 A JP 2018228967A JP 2018228967 A JP2018228967 A JP 2018228967A JP 2019153277 A JP2019153277 A JP 2019153277A
Authority
JP
Japan
Prior art keywords
deep neural
image
neural network
dnn
danger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018228967A
Other languages
English (en)
Other versions
JP7217138B2 (ja
Inventor
ティシュコフ,ディミトリ
Tsishkou Dzmitry
ベンダハン,レミー
Bendahan Remy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMRA Europe SAS
Original Assignee
IMRA Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMRA Europe SAS filed Critical IMRA Europe SAS
Publication of JP2019153277A publication Critical patent/JP2019153277A/ja
Application granted granted Critical
Publication of JP7217138B2 publication Critical patent/JP7217138B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0231Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means
    • G05D1/0246Control of position or course in two dimensions specially adapted to land vehicles using optical position detecting means using a video camera in combination with image processing means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3667Display of a road map

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Electromagnetism (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】任意の特定アプリケーションに関連する画像または画像シーケンス内の危険を検出する。【解決手段】汎用画像内の汎用物体認識のための第1の深層ニューラルネットワークを訓練し、画像内の特定物体認識のための第2の深層ニューラルネットワークを訓練し、画像シーケンス内の特定シーンフロー予測のための第3の深層ニューラルネットワークを訓練し、人間により訓練された危険タグ付け方法を使用して、画像または画像シーケンス内の潜在的な危険領域の位置特定のための第4の深層ニューラルネットワークを訓練し、画像または画像シーケンス内の不可視および/または可視の特定の物体予測のための第5の深層ニューラルネットワークを訓練し、5つの深層ニューラルネットワークの転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワークを使用する特定アプリケーションに関連する画像または画像シーケンス内の危険ピクセルを特定する。【選択図】図1

Description

本発明は、一般に機械学習技法に関し、より詳細には、空間情報の処理のための深層畳み込みニューラルネットワーク(CNN)および時間情報の処理のための再帰型ニューラル
ネットワーク(RNN)/長短期記憶(LSTM)などの深層ニューラルネットワーク(DNN)に関する。特に、本発明は、訓練画像または訓練画像シーケンス内の危険をどのように検出するかを学習する危険ランク付け訓練方法、ならびにリアルタイム画像またはリアルタイム画像シーケンス内の危険を検出する訓練された危険ランク付け方法に関する。
そのような方法は、障害物の検出および回避のためのセンサを使用してその環境の中を安全にナビゲートする、人間支援型または自律型車両の分野において特に有用である。
「Atomic Scenes for Scalable Traffic Scene Recognition in Monocular Videos」と題するChenらの発表は、4つの主要構成要素:物体認識、交通場面認識、(たとえば、先行車両の急停止などの)特定の物体に関連する運転状況の予測、および安全な経路を提案する運動計画から構成されるシステムを開示している(http://www.nec-labs.com/uploads/images/Department-Images/MediaAnalytics/papers/wacv16_atomicscenes.pdf)。
そのようなシステムは、原子レベルおよび高次レベルに分解された、本質的にルールベースのシステムであるという欠点を呈示する。それは、ルールまたはルールの組合せの観点から説明できない、これまで見たことがない実世界の運転状況に対処することができない。そのようなシステムは、潜在的な衝突に主として関与する特定の物体に対してあらかじめ定義された危険レベルを属性付けるが、特に、関係者のいずれにとっても重大な危険が起こらないシーンでは、運転シーン内のすべての物体に対して異なる危険レベルを属性付けることができない。原子シーンのそのような手法は、毎日の運転シナリオの90%で危険予測の十分な正確さを提供することができるが、人間による主要な障害原因である、まれでこれまで見たことがない状況に対処することができなかった。
「End to End Learning for Self-Driving Cars」と題するBojarskiらの発表(https://arxiv.org/pdf/1604.07316.pdf)は、単一の前向きカメラからの生ピクセルをステアリ
ング命令に直接マッピングするように訓練された畳み込みニューラルネットワーク(CNN
)を開示している。
そのようなシステムは、人間のステアリング角度のみを訓練信号として用いて有用な道路特徴を検出することなどの必要な処理ステップの内部表現を自動的に学習するという欠点を呈示し、アクティベーションマップは、車両制御の判断を行うための特徴およびその位置がどれほど重要であるかを示すことができる。しかしながら、危険関連ラベルを設けることなく、そのようなシステムは、人間の監督なしにそれ自体で危険関連特徴の汎用セットを学習することができなかった。
「Probabilistic Grid-based Collision Risk Prediction for Driving Application」と題するRummelhardらの発表(https://hal.inria.fr/hal-01011808/document)は、衝突リスク予測のための新しいグリッドベースの手法を開示している。
そのようなシステムは、シーン内で見えない物体に関連する将来の状態の推定に対処することも、見える静的物体に関連する危険レベルを効率的に推定することもできない。
「Agent-Centric Risk Assessment:Accident Anticipation and Risky Region Localization」と題するZengらの発表(https://arxiv.org/pdf/1705.06560.pdf)は、事故予知
および危険領域位置特定作業を研究するエージェント中心手法を開示している。
そのようなシステムは、危険なイベントが発生していない場合、疎なラベルに対処することができず、危険レベルを推定することができない。それは、単一物体の注釈付けを必要とし、複数の潜在的に危険な物体に対する異なるリスクレベルの評価を同時にサポートすることができない。
「Visual Forecasting by Imitating Dynamics in Natural Sequences」と題するZeng
らの発表は、さらなる監督なしに視覚シーケンスを直接模倣する視覚予想のための一般的なフレームワークを紹介する(http://ai.stanford.edu/~dahuang/papers/iccv17-vfid.pdf)。
そのような方法は、予測結果として意味的キーワードしか与えることができないという欠点を呈示し、それは、細かい危険ランク付け作業に必要とされる高密度ピクセルレベルマップを生成することができない。
「DESIRE:Distant Future Prediction in Dynamic Scenes with Interacting Agents」と題するLeeらの発表は、動的なシーンにおける複数の相互作用エージェントの将来予測の作業用の深層確率IOC1 RNNエンコーダ/デコーダフレームワークDESIREを紹介している(http://www.nec-labs.com/uploads/images/Department-Images/MediaAnalytics/papers/cvpr17_futureprediction.pdf)。
そのようなシステムは、将来予測を生成するために利用可能なかなりの継続時間の過去の軌跡を有する目に見える移動物体でのみ作業するという欠点を呈示する。それは、物体の将来の状態がシーン内で静的であるか、または目に見えないかを予測するために使用することができないので、一次入力としてそのような予測を使用する場合の危険レベルマップは不完全なはずである。
「Generating the Future with Adversarial Transformers」と題するVondrickらの発
表(http://carlvondrick.com/transformer.pdf)は、ビデオの中で近い将来を生成する
学習モデルを開示している。
この論文は、将来のビデオを生成し、そのビデオ内の物体を分類して危険マップを取得する可能性に言及していない。記述された手法は、異なる物体に異なる危険レベルを属性付けるという問題、および認識できない物体上のピクセルを含むすべてのピクセルに危険レベルをどのように属性付けるかを解決することができなかった。
「Predicting Motivations of Actions by Leveraging Text」と題するVondrickらの発表(http://carlvondrick.com/intention.pdf)は、コンピュータビジョンにおける重要
な問題として人間の行動を理解することを開示している。
この論文は、物体の誘因を予測して危険マップを取得する可能性に言及していない。そのようなモデルは、とにかく認識される可能性がある物体だけに限定されるはずである。さらに、ラベルは境界ボックスレベルで物体を考慮するので、道路などの複雑な物体の位置は高精度に特定されない。
「Predicting Actions from Static Scenes」と題するVuらの発表は、多数のシーン
カテゴリについての行動シーン相関関係を発見し、そのような相関関係を行動予測に使用することを目的としている(http://www.di.ens.fr/willow/research/actionsfromscenes
/paper/eccv14_actionsfromscenes.pdf)。
この論文は、行動を予測して危険マップを取得する可能性に言及していない。このモデルは予測結果として意味的キーワードのみを与えるので、それは、細かいレベルの軌跡制御に必要な高密度ピクセルレベルマップを生成するために使用することができない。
「CAD2RL:Real Single-Image Flight Without a Single Real Image」と題するSadeghiらの発表(https://arxiv.org/pdf/1611.04201.pdf)は、3D CADモデル上で完全に訓練されながら、現実世界で衝突のない室内飛行を実行するために使用することができる、学習方法CAD2RLを提案している。
そのようなシステムは、目に見える物体検出にのみ基づいており、物体の将来の状態に関連する危険に対処することができない自由空間確率マップを出力するという欠点を呈示する。
「Knowledge Transfer for Scene-specific Motion Prediction」と題するBallanらの
発表(https://arxiv.org/pdf/1603.06987v2.pdf)は、軌跡予測のためのシーン特定知識を活用する動的ベイジアンネットワークを紹介している。
そのような方法は、移動する物体を有するシーンの長期間のデータ収集に依存するという欠点を呈示する。それは、訓練データの収集用の疎なラベルや動的なカメラの動きに対処することができない。それは、様々な状況で訓練データを取得するのにひどく時間がかかり、静的な物体またはまれなイベントに対処することができない。
本発明は、従来技術の上述された欠点に対処することを目的とし、より詳細には、任意の特定アプリケーションに関連する画像または画像シーケンス内の危険を検出することができる危険ランク付け訓練方法を最初に提案することを目的とする。本発明はまた、訓練された方法を使用して、特定アプリケーションに関連するリアルタイムの画像または画像シーケンス内の危険を検出し、危険レベル、すなわち、各危険が局在し、アプリケーションごとに一様/均一なレベルを有することを評価する、危険ランク付け訓練方法を提案することを目的とする。
本発明の第1の態様は、
−汎用画像内の汎用物体認識のための第1の深層ニューラルネットワーク(DNN-A)を
訓練するステップと、
−特定アプリケーションに関連する画像内の特定物体認識のための第2の深層ニューラルネットワーク(DNN-B)を訓練するステップと、
−特定アプリケーションに関連する画像シーケンス内の特定シーンフロー予測のための第3の深層ニューラルネットワーク(DNN-C)を訓練するステップと、
−人間が環境にどのように反応し、かつ/または環境を分析するかを捕捉するために1つの人間により訓練された少なくともタグ付け方法を使用して、特定アプリケーションに関連する画像または画像シーケンス内の潜在的な危険領域の位置特定のための第4の深層ニューラルネットワーク(DNN-E)を訓練するステップと、
−人間により訓練された危険タグ付け方法を使用して、少なくとも1つのエンドツーエンド特定レイヤ、好ましくは少なくとも1つの最上位レイヤ(E2E TL)がその後に続く、4つの深層ニューラルネットワークの転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワーク(E2E DNN-4)を使用する特定アプリケーションに関連する画
像または画像シーケンス内の少なくとも1つの危険ピクセルを特定するステップと
を備える、特定アプリケーションに関連する画像または画像シーケンス内の危険ランク
付け訓練方法に関する。
そのような危険ランク付け訓練方法により、特定アプリケーションに関連する画像または画像シーケンス内の少なくとも1つの危険ピクセル、好ましくは画像または画像シーケンス内の最も危険なピクセルを特定するための、エンドツーエンド深層ニューラルネットワークを訓練することが可能になる。そのような実現は、汎用画像認識および特定画像認識、特定シーンフロー予測、および潜在的な危険領域の位置特定を含む、様々な訓練ステップのおかげで可能である。実際、画像認識ステップにより、訓練方法は、任意の物体、より詳細には特定アプリケーションに関連する任意の物体をどのように分類するかを学習することが可能になる。シーンフロー予測ステップにより、物体が環境内でどのように動くかを学習することが保証される。潜在的な危険領域の位置特定ステップは、(たとえば、自動車アプリケーション用の運転シナリオにおいて)人間がどのように反応し、かつ/または環境を分析するかを学習するための方法を訓練する。ここで、これらのシナリオのうちのいくつかは、潜在的な危険を含む可能性があり、人間の反応はそれに特有のはずである。したがって、人間の反応をタグとして使用することにより、潜在的に危険な運転シーンをどのように区別するかを学習する。最後に、エンドツーエンド深層ニューラルネットワーク(E2E DNN-4)は、これまでの知識ごとに訓練された特徴を受け取る1つまたはいくつかのエンドツーエンド最上位レイヤをさらに含む。これらの最上位レイヤはまた、危険ランク付けの独自のステップのための特有の特徴を学習し、かつ、前のステップから学習された特徴を再利用する。そのようなエンドツーエンド深層ニューラルネットワークは、画像または画像シーケンスによって表される状況において人間が危険領域を検出する方法を模倣することによって危険ランク付けを学習するための方法を訓練する。エンドツーエンド深層ニューラルネットワークは危険レベルを評価する。この評価は、危険レベルの人間ベースのラベルが、すべての画像または画像シーケンスに対して危険プロトコルの同じレベル定義に従って危険をタグ付けするように人間に要求することによる系統的な方法で収集されるという事実に基づく。
本アプローチ、すなわち、複数の知識転移を導入することにより、まれなイベントが考慮され、まれなイベントの確率が大幅に減少する。各知識レベルで、その知識レベルではまれなイベントが別の知識レベルでは一般的である可能性があるので、まれなイベントは、あらゆる知識レベルの組合せにおいてまれである非常に少ない数のケースに限定される。
さらに、そのような訓練方法では、互いに特徴を転移させることにより、同じDNNアー
キテクチャを使用して別々に各深層ニューラルネットワーク(DNN)を訓練することが可
能である。
特定するステップにとって有利なことに、訓練方法は、少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、第1、第2、第3、および第4の深層ニューラルネットワークの転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-E)を使用する。
実際、訓練サンプル/ラベルの数は第1のDNNにとって非常に重要であり構造化された
知識を表し、その数は、第2、第3、および第4のDNNの各々について著しく減少し、非
構造化知識を表す。したがって、個々のDNNのそのような訓練順序は、先行するより構造
化された知識から恩恵を受ける。
有利なことに、危険ランク付け訓練方法は、特定アプリケーションに関連する画像または画像シーケンス内の不可視の特定の物体もしくは領域の予知および/または可視の特定の物体もしくは領域の予測のための第5の深層ニューラルネットワーク(DNN-D)を訓練
するステップをさらに備え、特定するステップにおいて、5つの深層ニューラルネットワークの転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-5)が使用される。好ましくは、特定するステップにおいて、訓練方法は、少なく
とも1つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、第1、第2、第3
、第5、および第4の深層ニューラルネットワークの転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D-E)を使用する。
可視物体/領域の訓練は、ある特定の位置で特定の継続時間内に物体/領域がその状態を変化させることを予測/予知するか、または将来のその出現を予知するのに有用であり、これは、物体レベルでラベルが欠落しているが、ピクセルまたは領域のレベルでラベルを有する場合に、特に有用である。より一般的には、予測/予知は、少なくとも位置、出現の継続時間、動き方向、形状変形のタイプ、現在の物体/領域が移動する可能性が高い目標物体の選択、ならびに状態およびそれらの組合せの他の可能な変化を予測/予知することに関係する。特定物体が(対象のアプリケーションに特有の)訓練データセットによって制限される特定のケースにおいて、予測および予知のステップで使用される物体、およびその現在から将来状態への軌跡や潜在的な状態変化の種類は、それにもかかわらず、非監督的な方法で自動的に発見される可能性がある。
DNN-Dの訓練は、画像または画像シーケンス内の位置、状態などを予測/予知するため
に、不可視の物体/領域および/または可視の特定の物体もしくは領域についての興味深い特徴をさらにもたらす。
第3と第4との間のこの第5の個別ネットワークを訓練することは、先行するより構造化された知識から恩恵を受けるために、シーケンス内で完全に適合する。
有利なことに、危険ランク付け訓練方法は、前記5つの深層ニューラルネットワークの転移学習のシーケンスを使用し1つの知識ブロックを表す前記エンドツーエンド深層ニューラルネットワーク(E2E DNN-5)と、少なくとも他の知識ブロックを表す、(i)第1、第2、第3、第4、または第5の深層ニューラルネットワークの中の任意の深層ニューラルネットワーク(DNN-1)、(ii)第1、第2、第3、第4、または第5の深層ニューラルネ
ットワークの中の2つの深層ニューラルネットワークの転移学習のシーケンスとしての任意のエンドツーエンド深層ニューラルネットワーク(E2E DNN-2)、(iii)第1、第2、第3、第4、または第5の深層ニューラルネットワークの中の3つの深層ニューラルネットワークの転移学習のシーケンスとしての任意のエンドツーエンド深層ニューラルネットワーク(E2E DNN-3)、および(iv)第1、第2、第3、第4、または第5の深層ニューラル
ネットワークの中の4つの深層ニューラルネットワークの転移学習のシーケンスとしての任意のエンドツーエンド深層ニューラルネットワーク(E2E DNN-4)の中の少なくとも1
つの深層ニューラルネットワークと、の結合知識を備えるエンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-1)を訓練するステップをさらに備え、
特定するステップでは、少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、エンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-1)の結合知識が使用される。
より好ましくは、危険ランク付け訓練方法は、第1、第2、第3、第4、および第5の深層ニューラルネットワークを使用し1つの知識ブロックを表すエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D-E)と、少なくとも他の知識ブロックを表す、(i)第1の深層ニューラルネットワーク(DNN-A)、(ii)第1および第2の深層ニューラル
ネットワークの転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B)、(iii)第1、第2、および第3の深層ニューラルネットワークの転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-
B-C)、ならびに(iv)第1、第2、第3、および第4の深層ニューラルネットワークの転
移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D)の中の少なくとも1つの深層ニューラルネットワークの転移学習のシーケンスと
、の結合知識を備えるエンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-2)を訓練するステップをさらに備え、特定するステップは、少なくとも1
つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、エンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-2)の結合知識が使用される。
そのような訓練方法は、互いに特徴を転移させ、すべての知識ブロックを単一のエンドツーエンドマルチタスクDNNの中に結合することにより、同じDNNアーキテクチャを使用して別々に各知識ブロックを訓練するという利点を呈示し、複数の知識の組合せとしてピクセルレベルでの危険ランク付けを学習するために、高レベルの特徴へのアクセスを共有する。
有利なことに、汎用物体および特定物体内のすべてのピクセルがラベル付けされ、特定シーンフロー内のすべての物体がラベル付けされ、すべての潜在的な危険領域がラベル付けされる。
別の目的によれば、本発明の第2の態様は、画像または画像シーケンスを提供するステップと、第1の態様に従って訓練された危険ランク付け訓練方法を使用して危険ランク付けマップを描くステップであって、危険ランク付けマップが、画像または画像シーケンス内の任意のレベルの危険を示す、ステップとを備える、特定アプリケーションに関連する画像または画像シーケンス内の危険ランク付け方法に関する。
そのような方法は、複数の人間の個体からの疎/密なラベルを結合し、その結果、最終的に訓練されたエンドツーエンド深層ニューラルネットワークは、そのような個々の人間の経験のすべてを、単一の人間に比べてより強くする単一の複数の専門家の経験に再結合した。たとえば、常に雪の中で運転する人からいくつかの危険ラベルが来ており、乾燥した状態で運転している人から他のラベルが来ている場合、訓練された結合エンドツーエンドネットワークは、少なくとも一度に両方の状態で両方の運転手と同じく良好なはずだが、人間は重要な経験を有する場所でのみ良好である。このようにして、エンドツーエンドネットワークは、すべての運転状況についてのすべての運転者の経験を再結合し統合した。したがって、そのような方法は、単一の画像または時系列の画像を入力として取り込み、すべての状況における人間の危険認知を考慮し、無制限のシナリオで危険ランクを推定することを可能にする危険ランク付け画像マップを出力として生成する、結合エンドツーエンド深層ニューラルネットワークを提供する。結果として、それは訓練された方法に高レベルの自律性を与える。
有利なことに、危険ランク付けマップは、画像または画像シーケンス内のピクセルごとの危険レベルを表す危険ランク付けピクセルレベルマップである。
同様にして、そのような方法は、単一の画像または時系列の画像を入力として取り込み、ピクセルレベル危険ランク付け画像マップを出力として生成する、エンドツーエンド深層ニューラルネットワークを提供する。さらに、ピクセルレベル危険マップは、画像または画像シーケンスを分割するセンサの品質によって制限されない。その上、危険ランク付けピクセルレベルマップは、画像ピクセルごとに、(同様のシーンについて一様な)現在の状況に関するその危険レベル(危険ランク付け)を提供する。ラベルの数量を増やし、ラベルの密度を高めると、訓練の精度が向上するが、データ処理およびラベリングの時間ならびに訓練時間も長くなる。結合エンドツーエンド深層ニューラルネットワークは、疎ラベルのみを使用して訓練され、リアルタイムの運転シナリオにおいて高密度の危険ラン
ク付けマップを生成する容量を受け継いでいるので、提案された手法は、疎ラベルのみを使用することによって危険レベルを推定する際に非常に効率的であることが証明されている。
有利なことに、特定アプリケーションは、支援型または自律型車両運転システムであり、危険ランク付け方法は、車両に搭載された画像センサユニットを用いて車両周囲の画像または画像シーケンスを取り込むステップをさらに備える。
そのようなアプリケーションの場合、危険ランク付けピクセルレベルマップは、画像ピクセルごとに、(同様の運転シーンについて均一な)現在の運転状況に関するその危険レベルを提供する。そのようなマップは、特にまれ/ユニークな運転シナリオの場合に、軌跡制御の安全かつ効率的な経路計画を実現する必要がある、高度支援型/自律型運転車両制御システムの重要な要素である。
あるいは、特定アプリケーションは機密領域の制御システムであり、危険ランク付け方法は、機密領域内またはその周辺に設置された少なくとも1つのビデオ監視デバイスを用いて画像または画像シーケンスを取り込むステップをさらに備える。
そのような機密領域は、たとえば、病院内の集中治療室、刑務所内の高セキュリティ区域、または原子力発電所内の高セキュリティ領域などである。
別の目的によれば、本発明はさらに、車両周囲の画像または画像シーケンスを取り込むように構成された少なくとも1つの画像センサユニットと、第2の態様の方法に従って危険ランク付けマップを算出する処理ユニットと、危険ランク付けマップに基づいて車両運転システムを制御する制御ユニットとを備える、支援型または自律型車両運転システムに関する。
有利なことに、処理ユニットは、所定の危険しきい値と比較して危険ランク付けマップの危険レベルを評価するようにさらに構成され、車両運転システムは、危険警報を表示するように構成された表示ユニット、および危険レベルを低減するように計画された安全な車両経路を計画するように構成された運転ユニットのうちの少なくとも1つをさらに備え、制御ユニットは、危険レベルが所定の危険しきい値を上回るときに、表示ユニットおよび/または運転ユニットを制御するように構成される。
支援型または自律型車両運転システムに対するそのような適用は、たとえば、近づいてくる可視物体を含む危険領域を人間が認知するように、潜在的な危険領域を示す危険ランク付けマップの形で、環境内の任意の潜在的な危険を考慮に入れることにより、運転システムの安全性を向上させる。
他の目的によれば、本発明はさらに、請求項12または13に記載の支援型または自律型車両運転システムを備えた複数の車両を備える車両ネットワークに関し、各車両の運転システムは、適応型ナビゲーション高精細マップで実装されたナビゲーションユニットをさらに備え、前記適応型ナビゲーション高精細マップは、車両ネットワークの少なくとも2つの車両の危険ランク付けマップに基づく危険レイヤを含む。
そのような車両ネットワークは、車両運転システムごとの安全性を高め、ネットワークの他の車両の危険ランク付けマップから恩恵を受ける。
本発明の他の特徴および利点は、添付の図面によって例示される、本発明の特定の非限
定的な例の以下の詳細説明からより明らかになる。
図1は、本発明の2つの好ましい実施形態による、危険ランク付け訓練方法を表す。 図2は、転移知識学習の汎用フローチャートを表す。 図3は、本発明の好ましい実施形態による、危険ランク付け方法を表す。 図4は、知識結合の汎用フローチャートを表す。 図5は、本発明による方法を実施するために必要なユニットを備えた車両を表す。
本発明の様々な実施形態をより詳細に記載する前に、主に自律型自動車への適用を記載する残りの説明の理解に有用になるであろういくつかの一般的な記述がここにある。しかしながら、本発明は、たとえば、病院内の集中治療室、刑務所内の高セキュリティ区域、または原子力発電所内の高セキュリティ領域などの機密領域の制御システムを有する他の特定アプリケーションに完全に置換可能であることを理解されよう。
本発明の一態様は、画像ピクセルごとに、(同様の運転シーンについて一様な)現在の運転状況に関するその危険レベル(すなわちランク)を提供する、危険ランク付けピクセルレベルマップを導入することを目的とする。そのようなマップは、特にまれ/ユニークな運転シナリオの場合に、軌跡制御の安全かつ効率的な経路計画を実現する必要がある、高度支援型/自律型運転車両制御システムの重要な要素である。
図1は、本発明の2つの好ましい実施形態による、危険ランク付け訓練方法を表す。
そのような危険ランク付け方法を車両運転システムの中に実装する前に、そのようなアルゴリズムを訓練することが重要である。簡略化のために、図1に表される訓練方法は、支援型または自律型自動車への適用に関する。
第1の態様によれば、危険ランク付け訓練方法は、
S1:汎用画像内の汎用物体認識のための第1の深層ニューラルネットワーク(DNN-A
)を訓練するステップと、
S2:特定アプリケーションに関連する画像内の特定物体認識のための第2の深層ニューラルネットワーク(DNN-B)を訓練するステップと、
S3a:特定アプリケーションに関連する画像シーケンス内の特定シーンフロー予測のための第3の深層ニューラルネットワーク(DNN-C)を訓練するステップと、
S4:運転シナリオをオフラインで再生するか、またはシミュレートする、運転シナリオまたは運転状況において人間がどのように反応し、かつ/または環境を分析するかを捕捉するための少なくとも1つのタグ付け方法を使用して、特定アプリケーションに関連する画像または画像シーケンス内の潜在的な危険領域の位置特定のための第4の深層ニューラルネットワーク(DNN-E)を訓練するステップと、
S5:1つの人間により訓練された少なくとも危険タグ付け方法を使用して、第1、第2、第3、および第4の深層ニューラルネットワークの後に1つまたはいくつかのエンドツーエンド最上位レイヤ(E2E TL)が続く転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-E-)を使用する特定アプリケーションに関連する画像または画像シーケンス内の少なくとも1つの危険ピクセルを特定するステップと
を備える。
第2の態様によれば、危険ランク付け訓練方法は、ステップS3aとステップS4との
間にステップS3bをさらに備える:
S3b:特定アプリケーションに関連する画像または画像シーケンス内の不可視の特定の物体もしくは領域の予知および/または可視の特定の物体もしくは領域の予測のための第5の深層ニューラルネットワーク(DNN-D)を訓練するステップ。
その結果、ステップS5は以下のように適合される:
S5:1つの人間により訓練された少なくとも危険タグ付け方法を使用して、第1、第2、第3、第5、および第4の深層ニューラルネットワークの後に1つまたはいくつかのエンドツーエンド最上位レイヤ(E2E TL)が続く転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D-E)を使用する特定アプリケー
ションに関連する画像または画像シーケンス内の少なくとも1つの危険ピクセルを特定するステップ。
より詳細には、各ニューラルネットワークの訓練は、データセットおよびそれらのデータセットに対応するラベルを供給することによって行われる。
汎用物体認識のための第1の深層ニューラルネットワーク(DNN-A)の訓練は、
−汎用物体(Dataset-A)および汎用物体ラベル(Label-A)を含む汎用画像を供給すること、ならびに
−汎用画像の汎用物体を分類するために使用される少なくとも1つのクラス汎用特徴空間(Conv-A)および少なくとも1つのクラス汎用決定空間(FC-A)を汎用物体ラベルの中に出力すること
によって行われる。
この第1のネットワークDNN-Aの目標は、何がある物体を他の物体と異なるものにする
かを学習することである。そのような訓練は、堅牢な低レベルおよび高レベルの視覚的特徴を与える。転移学習は、物体カテゴリごとに堅牢でユニークな応答を生成することができる。
特定物体認識のための第2の深層ニューラルネットワーク(DNN-B)の訓練は、
−少なくとも1つの特定物体(Dataset-B)および特定物体ラベル(Label-B)を含む特定画像を供給すること、ならびに
−特定画像の特定物体を分類するために使用される少なくとも1つのクラス特定特徴空間(Conv-B)および少なくとも1つのクラス特定決定空間(FC-B)を特定物体ラベルの中に出力すること
によって行われる。
この第2のネットワークDNN-Bの目標は、ピクセルレベルで画像をカテゴリに区分する
ことを学習することである。そのような訓練は、運転シーンにおける特定物体のカテゴリおよび位置の知識を与える。転移学習は、画像の区分を意味的カテゴリの反復可能な領域および運転コンテキストの前歴(prior)に転移させる。
特定シーンフロー予測のための第3の深層ニューラルネットワーク(DNN-C)の訓練は

−少なくとも1つの特定物体および特定動作を含む特定画像シーケンス(Dataset-C)
またはシーンフローラベル(Label-C)を供給すること、ならびに
−特定画像シーケンスの特定シーンフローを予測するために使用される少なくとも1つのクラス特定特徴空間(Conv-C)および少なくとも1つのクラス特定決定空間(FC-C)を特定シーンフローラベルの中に出力すること
によって行われる。
この第3のネットワークDNN-Cの目標は、高密度のオプティカルフローと深度マップを
どのように推定するかを学習することである。そのような訓練は、物体への移動方向、移動速度、および移動距離の知識を与える。転移学習の場合、それは観測可能な運転シーンのセンサ位置に依存しない理解を転移させる。
不可視の特定の物体/動作もしくは領域の予測、または可視の特定の物体/動作もしくは領域の予測のための第4の深層ニューラルネットワーク(DNN-D)の訓練は、
−少なくとも1つの特定物体を含む特定画像または特定画像シーケンス(Dataset-D)
、および特定の不可視物体ラベル(Label-D)を供給すること、ならびに
−特定画像または特定画像シーケンスのいずれかで不可視または可視の特定の物体/動作または領域の出現を予知/予測するために使用される、少なくとも1つのクラス特定特徴空間(Conv-D)および少なくとも1つのクラス特定決定空間(FC-D)を出力すること
によって行われる。
この第4のネットワークDNN-Dの目標は、物体のカテゴリ、それらの動作、および主に
コンテキストに依存する位置をどのように予測するかを学習することである。そのような訓練は、運転シーンにおける物体の潜在的なカテゴリおよび位置の知識を与える。転移学習の場合、それは運転シーンを予測するセンサ位置に依存しない理解を転移させる。特定物体の将来の状態の物体/動作予測は、現在の運転シーン内の物体を見ることなく、潜在的に危険な画像領域に集中するために必要とされる分類および位置特定につながる。
潜在的な危険領域の特定の視線追跡位置特定のための第5の深層ニューラルネットワーク(DNN-E)の訓練は、
−少なくとも1つの可視または不可視の特定物体を含む特定画像シーケンス(Dataset-E)、および人間の専門家によってタグ付けされた特定危険タグ付けラベル(Label-E)を供給すること、ならびに
−人間の専門家によって教示された特定画像シーケンス内の潜在的な危険領域を位置特定するために使用される、少なくとも1つのクラス特定特徴空間(Conv-E)および少なくとも1つのクラス特定決定空間(FC-E)を出力すること
によって行われる。
この第5のネットワークDNN-Eの目標は、運転者の経験を模倣して、わずかな画像領域
にのみ焦点を当てることである。そのような訓練は、運転シーンごとの重要/顕著な物体または領域を識別する能力を与える。転移学習は、運転シーンの物体または領域ごとに顕著性のレベルの推定値を転移させる。特に、人にとって顕著な画像領域をフィルタリングするために、視線追跡位置特定が必要とされる。特に、運転のために潜在的に重要な画像領域をさらにフィルタリングするために、自動車の視線追跡位置特定が重要である。
エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D-E)の訓練は、1つ
またはいくつかのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、第1、第2、第3、第5、および第4の深層ニューラルネットワークの転移学習のシーケンスによって行われ、
−少なくとも1つの可視または不可視の特定物体を含む特定画像シーケンス(Dataset-E2E)、および人間の専門家によってタグ付けされた特定危険タグ付けラベル(Label-E2E)を供給すること、ならびに
−少なくとも1つの危険ピクセルを特定すること
によって行われる。
このエンドツーエンドネットワークの目標は、運転シーン内の各物体または領域との衝
突リスクのレベルを推定することである。そのような訓練は、危険ランク付けマップの知識を与える。転移学習は、たとえば、他の時系列深層ニューラルネットワーク(LSTM, RNNなど)への入力として使用されるように、単一の画像ベースのピクセルレベル危険ラン
ク付けマップを転移させる。危険レベルランク付けおよび位置特定の具体的な知識は、運転に重要な領域の中にある、危険推定に重要な画像領域をフィルタリングするために重要である。
図2は、DNN A-Eに適用される、転移知識学習の汎用フローチャートを表す。グラフか
ら容易に理解することができるように、ネットワークAは最も構造化された知識を有し、ネットワークBよりも多い数の訓練サンプルおよびラベルを取得し、ネットワークBはネットワークCよりも多い数の訓練サンプルおよびラベルを取得し、ネットワークCはネットワークDよりも多い数の訓練サンプルおよびラベルを取得し、ネットワークDはネットワークEよりも多い数の訓練サンプルおよびラベルを取得し、ネットワークEは最も構造化されていない知識を有する。
個々のモデルまたはネットワークA〜Eを訓練することは、先行するより構造化された知識から恩恵を受ける。
自動車アプリケーションの場合、訓練目的のために選択されたデータセットは、たとえば、
Dataset-A: ImageNet
Dataset-B: Cytiscapes
Dataset-C: KITTI
Dataset-D: KITTI
Dataset-E: CAT2000またはDriveEye
E2Eのデータセット: Cytiscapes
であり得る。
訓練の後、その目的は、自動車アプリケーションのための支援型/自律型自動車の運転システムにそのような方法を直接組み込むことである。
図3は、本発明の好ましい実施形態による、危険ランク付け方法を表す。
深層ニューラルネットワークA-EおよびE2Eは、それらが訓練されるという事実だけで訓練方法と異なる。その結果、知識転移は、運転状況の入力画像を受信し、ピクセルレベルの危険マップを出力する、訓練されたエンドツーエンドDNN-A-B-C-D-E-TLによって行われ、各ピクセルの値は危険のランクに対応する。
画像当たり1つのピクセルしかラベル付けされていない訓練データに対してエンドツーエンド深層ニューラルネットワークを訓練し、一連の転移を行うことにより、(転移ステップで学習された)物体認識の知識を危険の知識(現在のステップで学習され、非常にまばらにラベル付けされたデータ)と成功裏に結合することを学習することができ、一連の転移学習ステップが使用されれば、非常にまばらな(画像当たり1ピクセル)訓練データについて訓練することによって高密度危険ランク付けマップは、取得することができることが確認された。すべてのピクセルを危険とラベル付けする必要はなく、ラベリング時間の大幅な高速化が図れる。
エンドツーエンド深層ニューラルネットワークは、複数の経験(同一人物によるが、数週間の期間内に異なる画像にタグ付けされた注釈)を単一の解決策に統合することが可能であること、1画像当たり1つの物体のみしか注釈付けされていないにもかかわらず、シ
ーン内の複数の物体に対するに高いレベルの危険を示すこと、および、複数の専門家からのデータの組合せも実現可能であろうことが確認された。
図4は、本発明の好ましい実施形態による、知識結合の汎用フローチャートを表す。
この図から容易に理解できるように、DNNのマルチタスク訓練を使用することにより、
ネットワークのエンドツーエンド畳み込み部分によって抽出された特徴にアクセスするだけでなく、デコンボリューション部分、すなわちA, A-B, A-B-C, A-B-C-DおよびA-B-C-D-E内の転移学習ブロックの各々によって抽出された特徴にもアクセスすることによって、
危険ランク付けマップを訓練することができる。これにより、危険ランク付け用の転移ブロックの各々を1つずつ削除し、マルチタスク危険ランク付けの精度を比較することにより、それらがどれだけ重要であるかをベンチマークすることが可能になる。また、それにより、マルチタスク危険ランク付けと個々の転移学習マップとの間の接続の位置および強度を示す、アクティベーションマップを視覚化することも可能になるに違いない。接続が強くなればなるほど、多くの危険ランク付けが特定の画像ピクセルごとの転移学習マップに依存する。これにより、危険ランク付けが意思決定を行うために情報を取る場所から、転移学習ブロックのどの組合せがどの状況で最も強いかを画像領域ごとに理解することが可能になる。そのような情報は、危険ランク付け訓練方法および危険ランク付け方法を常に向上させるために非常に重要である。
さらに、このようにして、訓練プロセスは、特定知識または汎用知識を使用して訓練された1つの個々の深層ニューラルネットワーク、および画像または画像シーケンスのためのピクセルの危険レベルをランク付けするように訓練された1つのエンドツーエンド深層ニューラルネットワークまで削減することができ、同様に、訓練プロセスは、少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、エンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-1)の結合知識がその後に続く
、知識転移の任意の妥当な数のシーケンスに拡張することができる。
図5は、ビデオまたは連続する一連の画像(画像シーケンス)を撮るために車両の前方の道路または環境を指す少なくとも1つのカメラ200を備えた車両を表す。車両100はまた、処理ユニットおよび電子制御ユニット(300)と、表示ユニットおよび自動運転ユニット(400、410)とを備える。
処理ユニットは、所定の危険しきい値と比較して危険ランク付けマップの危険レベルを評価するように構成され、制御ユニットは、危険レベルが所定の危険しきい値を上回るときに表示ユニットおよび/または運転ユニットを制御するように構成され、その結果、表示ユニットは危険警報を表示することができ、かつ/または運転ユニットは危険レベルを低減するように計画された安全な車両経路を計画することができる。
添付の特許請求の範囲によって規定される本発明の範囲から逸脱することなく、本明細書に記載された本発明の様々な実施形態に、当業者にとって明らかな様々な修正および/または改善をもたらすことができることが理解されよう。

Claims (14)

  1. 特定アプリケーションに関連する画像または画像シーケンス内の危険ランク付け訓練方法であって、
    汎用画像内の汎用物体認識のための第1の深層ニューラルネットワーク(DNN-A)を訓
    練するステップと、
    前記特定アプリケーションに関連する画像内の特定物体認識のための第2の深層ニューラルネットワーク(DNN-B)を訓練するステップと、
    前記特定アプリケーションに関連する画像シーケンス内の特定シーンフロー予測のための第3の深層ニューラルネットワーク(DNN-C)を訓練するステップと、
    画像または画像シーケンス内で人間がどのように反応し、かつ/または環境を分析するかを捕捉するために少なくとも1つのタグ付け方法を使用して、前記特定アプリケーションに関連する前記画像または前記画像シーケンス内の潜在的な危険領域の位置特定のための第4の深層ニューラルネットワーク(DNN-E)を訓練するステップと、
    人間により訓練された少なくとも1つの危険タグ付け方法を使用して、前記4つの深層ニューラルネットワークの後に少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL
    )が続く転移学習のシーケンスとして、エンドツーエンド深層ニューラルネットワーク(E2E DNN-4)を使用する前記特定アプリケーションに関連する画像または画像シーケンス
    内の少なくとも1つの危険ピクセルを特定するステップと
    を備える、危険ランク付け訓練方法。
  2. 前記特定するステップでは、前記第1、第2、第3、および第4の深層ニューラルネットワークの後に前記少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)が続く転移学習のシーケンスとしての前記エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-E-)が使用される、請求項1に記載の危険ランク付け訓練方法。
  3. 前記特定アプリケーションに関連する画像または画像シーケンス内の不可視の特定の物体/動作もしくは領域の予知および/または可視の特定の物体もしくは領域の予測のための第5の深層ニューラルネットワーク(DNN-D)を訓練するステップをさらに備え、
    前記特定するステップは、前記5つの深層ニューラルネットワークの後に前記少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)が続く転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-5)が使用される、
    請求項1に記載の危険ランク付け訓練方法。
  4. 前記特定するステップは、前記第1、第2、第3、第5、および第4の深層ニューラルネットワークの後に前記少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)が続く転移学習のシーケンスとしての前記エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D-E)が使用される、請求項3に記載の危険ランク付け訓練方法。
  5. 前記5つの深層ニューラルネットワークの転移学習のシーケンスを使用する前記エンドツーエンド深層ニューラルネットワーク(E2E DNN-5)と、
    前記第1、第2、第3、第4、または第5の深層ニューラルネットワークの中の任意の深層ニューラルネットワーク(DNN-1)、
    前記第1、第2、第3、第4、または第5の深層ニューラルネットワークの中の2つの深層ニューラルネットワークの転移学習のシーケンスとしての任意のエンドツーエンド深層ニューラルネットワーク(E2E DNN-2)、
    前記第1、第2、第3、第4、または第5の深層ニューラルネットワークの中の3つの深層ニューラルネットワークの転移学習のシーケンスとしての任意のエンドツーエンド深層ニューラルネットワーク(E2E DNN-3)、および
    前記第1、第2、第3、第4、または第5の深層ニューラルネットワークの中の4つの
    深層ニューラルネットワークの転移学習のシーケンスとしての任意のエンドツーエンド深層ニューラルネットワーク(E2E DNN-4)
    の中の少なくとも1つの深層ニューラルネットワークと、の結合知識を備えるエンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-1)を訓練するス
    テップをさらに備え、
    前記特定するステップは、前記少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、前記エンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-1)の前記結合知識が使用される、
    請求項3に記載の危険ランク付け訓練方法。
  6. 前記第1、第2、第3、第4、および第5の深層ニューラルネットワークの転移学習のシーケンスを使用する前記エンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D-E)と、
    前記第1の深層ニューラルネットワーク(DNN-A)、
    前記第1および第2の深層ニューラルネットワークの転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B)、
    前記第1、第2、および第3の深層ニューラルネットワークの転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C)、および
    前記第1、第2、第3、および第4の深層ニューラルネットワークの転移学習のシーケンスとしてのエンドツーエンド深層ニューラルネットワーク(E2E DNN-A-B-C-D)
    の中の少なくとも1つの深層ニューラルネットワークと、の結合知識を備えるエンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-2)を訓練するス
    テップをさらに備え、
    前記特定するステップは、前記少なくとも1つのエンドツーエンド最上位レイヤ(E2E TL)がその後に続く、前記エンドツーエンドマルチタスク学習深層ニューラルネットワーク(E2E MTL DNN-2)ネットワークの前記結合知識が使用される、
    請求項4に記載の危険ランク付け訓練方法。
  7. 前記汎用物体および特定物体内のピクセルがラベル付けされ、
    前記特定シーンフロー内の物体がラベル付けされ、
    潜在的な危険領域がラベル付けされる、
    請求項1から6のいずれか一項に記載の危険ランク付け訓練方法。
  8. 特定アプリケーションに関連する画像または画像シーケンス内の危険ランク付け方法であって、
    画像または画像シーケンスを提供するステップと、
    請求項1から7のいずれか一項に従って訓練された危険ランク付け訓練方法を使用して危険ランク付けマップを描くステップであって、前記危険ランク付けマップが、前記画像または画像シーケンス内の任意のレベルの危険を示す、ステップと
    を備える、危険ランク付け方法。
  9. 前記危険ランク付けマップが、前記画像または画像シーケンス内のピクセルごとの危険レベルを表す危険ランク付けピクセルレベルマップである、請求項8に記載の危険ランク付け方法。
  10. 前記特定アプリケーションが支援型または自律型車両運転システムであり、
    前記車両に搭載された画像センサユニットを用いて前記車両周囲の画像または画像シーケンスを取り込むステップ
    をさらに備える、請求項8または9に記載の危険ランク付け方法。
  11. 前記特定アプリケーションが機密領域の制御システムであり、
    前記機密領域内またはその周辺に設置された少なくとも1つのビデオ監視デバイスを用いて画像または画像シーケンスを取り込むステップ
    をさらに備える、請求項8または9に記載の危険ランク付け方法。
  12. 前記車両周囲の画像または画像シーケンスを取り込むように構成された少なくとも1つの画像センサユニットと、
    請求項8または9に記載の方法に従って危険ランク付けマップを算出する処理ユニットと、
    前記危険ランク付けマップに基づいて前記車両運転システムを制御する制御ユニットと
    を備える、支援型または自律型車両運転システム。
  13. 前記処理ユニットが、所定の危険しきい値と比較して前記危険ランク付けマップの前記危険レベルを評価するようにさらに構成され、前記車両運転システムが、
    危険警報を表示するように構成された表示ユニット、および
    前記危険レベルを低減するように計画された安全な車両経路を計画するように構成された運転ユニット
    のうちの少なくとも1つをさらに備え、
    前記制御ユニットが、前記危険レベルが所定の危険しきい値を上回るときに、前記表示ユニットおよび/または前記運転ユニットを制御するように構成される、
    請求項12に記載の支援型または自律型車両運転システム。
  14. 請求項12または13に記載の支援型または自律型車両運転システムを備えた複数の車両を備える車両ネットワークであって、各車両の前記運転システムが、適応型ナビゲーション高精細マップで実装されたナビゲーションユニットをさらに備え、前記適応型ナビゲーション高精細マップが、前記車両ネットワークの少なくとも2つの車両の前記危険ランク付けマップに基づく危険レイヤを含む、車両ネットワーク。
JP2018228967A 2017-12-07 2018-12-06 エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け Active JP7217138B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17206055.0 2017-12-07
EP17206055.0A EP3495992A1 (en) 2017-12-07 2017-12-07 Danger ranking using end to end deep neural network

Publications (2)

Publication Number Publication Date
JP2019153277A true JP2019153277A (ja) 2019-09-12
JP7217138B2 JP7217138B2 (ja) 2023-02-02

Family

ID=60673464

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018228967A Active JP7217138B2 (ja) 2017-12-07 2018-12-06 エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け

Country Status (4)

Country Link
US (1) US11281941B2 (ja)
EP (1) EP3495992A1 (ja)
JP (1) JP7217138B2 (ja)
CN (1) CN110008978A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102490011B1 (ko) * 2022-07-19 2023-01-19 주식회사 라이드플럭스 로드 유저 예측 기반 자율주행 차량의 주행 계획 결정방법, 장치 및 컴퓨터프로그램
JP7492490B2 (ja) 2020-06-25 2024-05-29 アクシス アーベー オブジェクト認識ニューラルネットワークの訓練

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7221203B2 (ja) * 2017-01-23 2023-02-13 オックスフォード ユニヴァーシティ イノヴェーション リミテッド モバイル装置の位置特定方法
WO2020100408A1 (ja) * 2018-11-13 2020-05-22 日本電気株式会社 危険シーン予測装置、危険シーン予測方法および危険シーン予測プログラム
US10901502B2 (en) * 2019-06-27 2021-01-26 Facebook, Inc. Reducing head mounted display power consumption and heat generation through predictive rendering of content
CN110855467B (zh) * 2019-08-19 2022-02-08 中国电子科技集团公司第三十研究所 一种基于计算机视觉技术的网络综合态势预测方法
WO2021040060A1 (ko) * 2019-08-23 2021-03-04 엘지전자 주식회사 차량용 전자 장치 및 그의 동작 방법
CN110991607B (zh) * 2019-11-15 2022-08-02 佳都科技集团股份有限公司 一种地铁客流预测方法、装置、电子设备及存储介质
CN110837818A (zh) * 2019-11-18 2020-02-25 汕头大学 一种基于卷积神经网路的中华白海豚背鳍识别方法
CN111028210B (zh) * 2019-11-25 2023-07-18 北京航天控制仪器研究所 一种基于深度神经网络的玻璃管端面缺陷检测方法
US20210241094A1 (en) * 2019-11-26 2021-08-05 Baidu Usa Llc Rank selection in tensor decomposition based on reinforcement learning for deep neural networks
JP7403340B2 (ja) * 2020-02-17 2023-12-22 株式会社日立製作所 物体認識モデルの流用可否を判定するシステム。
CN111401414B (zh) * 2020-02-29 2023-02-10 同济大学 一种基于自然驾驶数据的危险场景提取及分类方法
US11514318B2 (en) * 2020-04-08 2022-11-29 International Business Machines Corporation Multi-source transfer learning from pre-trained networks
CN111598169B (zh) * 2020-05-18 2023-04-07 腾讯科技(深圳)有限公司 一种模型训练方法、游戏测试方法、模拟操作方法及装置
CN111898663B (zh) * 2020-07-20 2022-05-13 武汉大学 一种基于迁移学习的跨模态遥感图像的匹配方法
CN112287754A (zh) * 2020-09-23 2021-01-29 济南浪潮高新科技投资发展有限公司 一种基于神经网络的暴力检测方法、装置、设备及介质
CN112396235B (zh) * 2020-11-23 2022-05-03 浙江天行健智能科技有限公司 基于眼球动作追踪的交通事故发生时间预测建模方法
CN112765812B (zh) * 2021-01-19 2021-09-07 中国科学院软件研究所 一种无人系统决策策略的自主能力快速测评方法及系统
US11861315B2 (en) * 2021-04-21 2024-01-02 Meta Platforms, Inc. Continuous learning for natural-language understanding models for assistant systems
CN114926753B (zh) * 2022-06-16 2023-10-13 无锡慧眼人工智能科技有限公司 一种海量图像条件下的快速目标场景信息提取方法
CN116310943B (zh) * 2023-01-04 2023-09-19 三峡高科信息技术有限责任公司 一种感知工人安全状况的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012026982A (ja) * 2010-07-27 2012-02-09 Panasonic Electric Works Sunx Co Ltd 検査装置
WO2016155564A1 (zh) * 2015-04-02 2016-10-06 腾讯科技(深圳)有限公司 卷积神经网络模型的训练方法及装置
JP2017091525A (ja) * 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
WO2017155691A1 (en) * 2016-03-11 2017-09-14 Nec Laboratories America, Inc. Deep deformation network for object landmark localization
JP2017162438A (ja) * 2016-03-11 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 危険予測方法
JP2017162456A (ja) * 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
JP2017182129A (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置。

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7804980B2 (en) * 2005-08-24 2010-09-28 Denso Corporation Environment recognition device
EP3032454B1 (en) * 2014-12-10 2018-09-26 Honda Research Institute Europe GmbH Method and system for adaptive ray based scene analysis of semantic traffic spaces and vehicle equipped with such system
US20170206426A1 (en) * 2016-01-15 2017-07-20 Ford Global Technologies, Llc Pedestrian Detection With Saliency Maps
CN107180220B (zh) * 2016-03-11 2023-10-31 松下电器(美国)知识产权公司 危险预测方法
US20170293837A1 (en) * 2016-04-06 2017-10-12 Nec Laboratories America, Inc. Multi-Modal Driving Danger Prediction System for Automobiles
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
AU2017283549A1 (en) * 2016-06-13 2019-01-24 Xevo Inc. Method and system for providing behavior of vehicle operator using virtuous cycle
CN110832474B (zh) * 2016-12-30 2023-09-15 辉达公司 更新高清地图的方法
CN106611169B (zh) * 2016-12-31 2018-10-23 中国科学技术大学 一种基于深度学习的危险驾驶行为实时检测方法
US10558864B2 (en) * 2017-05-18 2020-02-11 TuSimple System and method for image localization based on semantic segmentation
CN107226087B (zh) * 2017-05-26 2019-03-26 西安电子科技大学 一种结构化道路自动驾驶运输车及控制方法
US20180370502A1 (en) * 2017-06-27 2018-12-27 Dura Operating, Llc Method and system for autonomous emergency self-learning braking for a vehicle

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012026982A (ja) * 2010-07-27 2012-02-09 Panasonic Electric Works Sunx Co Ltd 検査装置
WO2016155564A1 (zh) * 2015-04-02 2016-10-06 腾讯科技(深圳)有限公司 卷积神经网络模型的训练方法及装置
JP2017091525A (ja) * 2015-11-03 2017-05-25 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法
WO2017155691A1 (en) * 2016-03-11 2017-09-14 Nec Laboratories America, Inc. Deep deformation network for object landmark localization
JP2017162438A (ja) * 2016-03-11 2017-09-14 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 危険予測方法
JP2017162456A (ja) * 2016-03-11 2017-09-14 株式会社東芝 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング
WO2017158058A1 (en) * 2016-03-15 2017-09-21 Imra Europe Sas Method for classification of unique/rare cases by reinforcement learning in neural networks
JP2017182129A (ja) * 2016-03-28 2017-10-05 ソニー株式会社 情報処理装置。

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7492490B2 (ja) 2020-06-25 2024-05-29 アクシス アーベー オブジェクト認識ニューラルネットワークの訓練
KR102490011B1 (ko) * 2022-07-19 2023-01-19 주식회사 라이드플럭스 로드 유저 예측 기반 자율주행 차량의 주행 계획 결정방법, 장치 및 컴퓨터프로그램

Also Published As

Publication number Publication date
US11281941B2 (en) 2022-03-22
JP7217138B2 (ja) 2023-02-02
US20190180144A1 (en) 2019-06-13
EP3495992A1 (en) 2019-06-12
CN110008978A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
JP7217138B2 (ja) エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け
Guo et al. Is it safe to drive? An overview of factors, metrics, and datasets for driveability assessment in autonomous driving
Quan et al. Holistic LSTM for pedestrian trajectory prediction
Roy et al. Detection of collision-prone vehicle behavior at intersections using siamese interaction lstm
Yang et al. Crossing or not? Context-based recognition of pedestrian crossing intention in the urban environment
Rasouli et al. Bifold and semantic reasoning for pedestrian behavior prediction
WO2021097229A1 (en) Parametric top-view representation of complex road scenes
Saleh et al. Contextual recurrent predictive model for long-term intent prediction of vulnerable road users
Sharma et al. Pedestrian intention prediction for autonomous vehicles: A comprehensive survey
Shreyas et al. Self-driving cars: An overview of various autonomous driving systems
Kolekar et al. Behavior prediction of traffic actors for intelligent vehicle using artificial intelligence techniques: A review
Sachdeva et al. Rank2tell: A multimodal driving dataset for joint importance ranking and reasoning
Chen et al. Psi: A pedestrian behavior dataset for socially intelligent autonomous car
Gite et al. Early anticipation of driver’s maneuver in semiautonomous vehicles using deep learning
Zhang et al. St crossingpose: A spatial-temporal graph convolutional network for skeleton-based pedestrian crossing intention prediction
Zhang et al. Pedestrian Behavior Prediction Using Deep Learning Methods for Urban Scenarios: A Review
Baluja et al. Dynamic relevance: Vision-based focus of attention using artificial neural networks
Benrachou et al. Use of social interaction and intention to improve motion prediction within automated vehicle framework: A review
Kastner et al. Task-based environment interpretation and system architecture for next generation ADAS
Salzmann et al. Robots that can see: Leveraging human pose for trajectory prediction
Iqbal et al. Modeling perception in autonomous vehicles via 3d convolutional representations on lidar
Olier et al. Dynamic representations for autonomous driving
US20230169313A1 (en) Method for Determining Agent Trajectories in a Multi-Agent Scenario
Khosroshahi Learning, classification and prediction of maneuvers of surround vehicles at intersections using lstms
Dianov et al. Generating compact models for traffic scenarios to estimate driver behavior using semantic reasoning

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20201027

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20201102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20201027

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20210422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230123

R150 Certificate of patent or registration of utility model

Ref document number: 7217138

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150