JP2020123335A - 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置 - Google Patents

強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置 Download PDF

Info

Publication number
JP2020123335A
JP2020123335A JP2020007152A JP2020007152A JP2020123335A JP 2020123335 A JP2020123335 A JP 2020123335A JP 2020007152 A JP2020007152 A JP 2020007152A JP 2020007152 A JP2020007152 A JP 2020007152A JP 2020123335 A JP2020123335 A JP 2020123335A
Authority
JP
Japan
Prior art keywords
learning
test
sensor
traveling
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020007152A
Other languages
English (en)
Other versions
JP6913969B2 (ja
Inventor
ゲヒョン キム
Kye-Hyeon Kim
ゲヒョン キム
ヨンジュン キム
Yong-Jun Kim
ヨンジュン キム
ハクギョン キム
Hak Kyoung Kim
ハクギョン キム
ウンヒョン ナム
Woonhyun Nam
ウンヒョン ナム
ソクフン ブ
Sukhoon Boo
ソクフン ブ
ミョンチョル ソン
Myungchul Sung
ミョンチョル ソン
ドンス シン
Dongsoo Shin
ドンス シン
ドンフン ヨ
Donghun Yeo
ドンフン ヨ
ウジュ リュ
Wooju Ryu
ウジュ リュ
ミョンチユン イ
Myeong-Chun Lee
ミョンチユン イ
ヒョンス イ
Hyungsoo Lee
ヒョンス イ
テウン ジャン
Taewoong Jang
テウン ジャン
ギョンジュン ジョン
Kyungjoong Jeong
ギョンジュン ジョン
ホンモ ジェ
Hongmo Je
ホンモ ジェ
ホジン ジョ
Hojin Cho
ホジン ジョ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020123335A publication Critical patent/JP2020123335A/ja
Application granted granted Critical
Publication of JP6913969B2 publication Critical patent/JP6913969B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/46Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for vehicle-to-vehicle communication [V2V]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/043Distributed expert systems; Blackboards
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/091Traffic information broadcasting
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/20Monitoring the location of vehicles belonging to a group, e.g. fleet of vehicles, countable or determined number of vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Traffic Control Systems (AREA)
  • Image Analysis (AREA)

Abstract

【課題】協同走行を遂行する自律走行車両のセンサフュージョンのためのセンサフュージョンネットワークを学習する方法および装置を提供する。【解決手段】学習装置100は、自律走行車両と、m個の協同走行車両と、第2バーチャル車両とを含む走行イメージ及びm個の協同走行車両のn個のセンサに対するセンサ状態情報を前記センサフュージョンネットワークに入力して、n個のセンサのセンサ値を伝送する確率値であるセンサフュージョン確率値を生成させる段階と、道路走行映像を検出ネットワークに入力して、第2バーチャル車両と、歩行者と、車線とを検出して周辺物体情報を出力させ、センサ値と周辺物体情報とを走行ネットワークに入力して移動方向確率値を生成し、自律走行車両を運行させる段階と、交通状況情報を取得し、リワードを生成して前記センサフュージョンネットワークを学習する段階と、を含む。【選択図】図3

Description

本発明は、自律走行車両と、バーチャル走行等に利用するための方法と、装置とに関し、より詳細には、自律走行において強化学習に基づいて多重エージェントセンサフュージョンを遂行する方法及び装置に関する。
自動車産業は最近、IT技術がつなぎ合わされた環境親和的な先端自動車の時代へと変貌を遂げつつあり、自動車技術の発展と共に事故の予防、事故の回避、衝突への安全、利便性の向上、車両の情報化、そして自律走行技術などを適用した知能型自動車が商用化されている。
このような知能型自動車は、運転者の不注意や未熟な操作へのサポート技術、音声認識などを介した利便性機能をサポートする車両であって、運転者の過失による事故を減らすことができるだけでなく、時間の節減、燃料の浪費、排気ガスの低減などの利点が期待できる特徴がある。
自律走行車両は、知能型自動車技術の集合体であって、運転者が自動車に乗車して所望の目的地を指定すれば、以後、特別な操作をしなくても現在の位置や目的地までの最適な経路を生成して走行することができる。
また、道路の交通信号や標識を認知し、交通の流れに合わせて適切な速度を維持し、危険状況を認知して事故の予防に能動的に対処することができ、自ら車線を維持して、必要な場合には車線変更や追い越し、障害物などを回避するために適切な操縦を行い、所望の目的地まで走行することができる。
一方、自律走行車両は、走行環境を検出するための様々なセンサを利用しており、このような各センサは、走行環境に関わらず常に作動するように設定されている。
したがって、走行環境に応じて必要のないセンサが継続的に作動することによって、自律走行車両の電力が大量に消費される問題点がある。
このような問題点を解決するために、従来からセンサフュージョンを通じて、走行環境に対応する最適なセンサのみを利用して走行環境を検出することができるようにしている。
また、最近では、V2V(vehicle−to−vehicle)通信を介して各自律走行車両が相互の情報を共有し得るようにしているが、大量のセンサデータを送受信することから通信リソース(resource)の消耗が大きく、送受信されたすべてのセンサデータを演算しなければならないため、多くのコンピューティングソースを使用しなければならない問題点がある。
本発明は、上述した問題点を全て解決することをその目的とする。
本発明は、V2V(vehicle to vehicle)通信を介して必要なセンサ情報のみを送受信し得るようにすることを他の目的とする。
本発明は、V2V通信を介して必要とする正確なセンサ情報を取得し得るようにすることをまた他の目的とする。
本発明は、協同走行状況で最適なセンサ情報を取得し得るようにすることをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は、以下の通りである。
本発明の一態様によると、協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークを学習する方法において、(a)(i)(i−1)対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、学習装置が、前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(a−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(a−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数(integer)である)に関する学習用フュージョンセンサ情報を生成させる段階;(b)前記学習装置が、前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、及び前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記対象自律走行車両を運行させる段階;及び(c)前記学習装置が、前記走行ネットワークにより運行される前記対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習する段階;を含む方法が開示される。
一実施例において、前記(a)段階で、前記学習装置は、前記学習用走行イメージと前記多数の学習用センサ状態情報とを前記センサフュージョンネットワークに入力して、前記センサフュージョンネットワークをもって、(i)CNN(convolutional neural network)を介したコンボリューション演算を前記学習用走行イメージに適用して学習用特徴マップを生成し、前記学習用特徴マップにFC(fully−connected)演算を適用して学習用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTM(Long short−term memory)を介した循環(recurrent)ニューラルネットワーク演算を前記多数の学習用センサ状態情報に適用して学習用センサ状態特徴ベクトルを生成させ、(iii)前記学習用イメージ特徴ベクトル及び前記学習用センサ状態特徴ベクトルをコンカチネート(concatenating)して学習用コンカチネート済み特徴ベクトルを生成し、前記学習用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記学習用センサフュージョン確率値を生成させることを特徴とする。
一実施例において、前記学習装置は、前記リワードを利用して、前記センサフュージョンネットワークに含まれている、前記CNNと、前記少なくとも一つのLSTMと、前記少なくとも一つのFCレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする。
一実施例において、前記学習装置は、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記学習用特徴マップにマックスプーリング(max−pooling)演算を適用し、その結果値にFC演算を適用することによって、前記学習用イメージ特徴ベクトルを生成させることを特徴とする。
一実施例において、前記学習装置は、ソフトマックス(softmax)アルゴリズムを通じて前記学習用センサフュージョン確率値それぞれを正規化して出力することを特徴とする。
一実施例において、前記リワードは、前記m個の学習用協同走行車両それぞれの前記n個の学習用センサの個数の合計から前記s個の学習用センサの個数を減算して生成されたものであり、前記学習装置は、前記学習用交通状況情報を参照して前記リワードを増加又は減少させることを特徴とする。
一実施例において、前記学習用走行イメージは、前記m個の学習用協同走行車両が前記協同走行中である全体道路に対する全体道路イメージであって、前記全体道路イメージがグリッド(grid)形態に分割されて生成された一定サイズのブロックそれぞれが前記m個の学習用協同走行車両それぞれにより占有されているか、前記第2バーチャル車両全体により占有されているのかを表す(m+1)個のチャンネルのイメージであり、前記(m+1)個のチャンネルのうちm個のチャンネルそれぞれは、前記m個の学習用協同走行車両それぞれに対応し、残りの一つのチャンネルは、前記第2バーチャル車両に対応するものであることを特徴とする。
本発明の他の態様によると、協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークをテストする方法において、(a)(i)(i−1)学習用対象自律走行車両と、(i−2)前記学習用対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、学習装置が、(1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(1−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(1−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数である)に関する学習用フュージョンセンサ情報を生成させるプロセス、(2)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記学習用対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、(3)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記学習用対象自律走行車両を運行させるプロセス、及び(4)前記走行ネットワークにより運行される前記学習用対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行した状態で、(i)(i−1)テスト用対象自律走行車両と、(i−2)前記テスト用対象自律走行車両と前記協同走行を遂行する第1車両を含むk個のテスト用協同走行車両と、(i−3)前記非協同走行を遂行する第2車両と、を含むテスト用走行イメージ、(ii)前記k個のテスト用協同走行車両それぞれのi個のテスト用センサに関する多数のテスト用センサ状態情報が取得されると、前記k個のテスト用協同走行車両のうち少なくとも一つの協同走行車両のテスティング装置が、前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(a−1)前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報に前記ニューラルネットワーク演算を適用させて、前記k個のテスト用協同走行車両それぞれが前記協同走行のために前記V2V通信を介して前記i個のテスト用センサそれぞれの各センサ値を伝送する確率値であるテスト用センサフュージョン確率値を生成させ、(a−2)前記テスト用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個のテスト用センサに関するテスト用フュージョンセンサ情報を生成させ、(a−3)前記s個のテスト用センサに関する前記テスト用フュージョンセンサ情報を、前記V2V通信を介して前記k個のテスト用協同走行車両のうち少なくとも一部に伝送させる段階;及び(b)前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置が、前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されるテスト用道路走行映像を前記検出ネットワークに入力して、前記検出ネットワークをもって、前記テスト用対象自律走行車両の走行道路上の前記第2車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出してテスト用周辺物体情報を出力させるプロセス、及び前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されたテスト用センサ値と前記テスト用周辺物体情報とを前記走行ネットワークに入力して、前記走行ネットワークをもって、前記テスト用センサ値と前記テスト用周辺物体情報とを参照して前記k個のテスト用協同走行車両それぞれのテスト用移動方向確率値を生成させることによって、前記テスト用移動方向確率値を参照して前記テスト用対象自律走行車両を運行させるプロセスを遂行する段階;を含む方法が開示される。
一実施例において、前記(a)段階で、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置が、前記テスト用走行イメージと前記多数のテスト用センサ状態情報とを前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(i)CNNを通じたコンボリューション演算を前記テスト用走行イメージに適用してテスト用特徴マップを生成し、前記テスト用特徴マップにFC演算を適用してテスト用イメージベクトルを生成させ、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成させ、(iii)前記テスト用イメージ特徴ベクトル及び前記テスト用センサ状態特徴ベクトルをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記テスト用センサフュージョン確率値を生成させることを特徴とする。
一実施例において、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置は、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記テスト用特徴マップにマックスプーリング演算を適用し、その結果値にFC演算を適用することによって、前記テスト用イメージ特徴ベクトルを生成させることを特徴とする。
一実施例において、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置は、ソフトマックスアルゴリズムを通じて前記テスト用センサフュージョン確率値それぞれを正規化して出力することを特徴とする。
一実施例において、前記(a)段階で、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置が、(i)前記テスト用k個の協同走行車両のうち特定の協同走行車両から取得された前記テスト用走行イメージに、特定のCNNを通じた多重コンボリューション演算を適用してテスト用特徴マップを生成するプロセス、及び前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルが生成されると、前記特定の協同走行車両から前記V2V通信を介して前記テスト用イメージ特徴ベクトルを取得するプロセス、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成するプロセス、及び(iii)前記V2V通信を介して取得された、前記テスト用イメージ特徴ベクトルと前記テスト用センサ状態特徴ベクトルとをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成するプロセス、及び前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤを介したFC演算を適用して前記テスト用センサフュージョン確率値を生成するプロセスを遂行することを特徴とする。
一実施例において、前記特定の車両は、特定のCNNをもって、前記テスト用走行イメージにコンボリューション演算を適用させてテスト用特徴マップを生成させ、前記テスト用特徴マップにFC演算を適用して前記テスト用イメージ特徴ベクトルを生成させ、前記特定の車両は、ラウンドロビンスケジューリング(Round Robin Scheduling)によって順次に一定時間の間隔で指定される前記k個のテスト用協同走行車両のうち一つの協同走行車両であることを特徴とする。
本発明の他の態様によると、協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークを学習するための学習装置において、各インストラクションを格納する一つ以上のメモリと、(I)(i)(i−1)対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(I−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(I−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数である)に関する学習用フュージョンセンサ情報を生成させるプロセス、(II)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、及び前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記対象自律走行車両を運行させるプロセス、及び(III)前記走行ネットワークにより運行される前記対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含む学習装置が開示される。
一実施例において、前記(I)プロセスで、前記プロセッサが、前記学習用走行イメージと前記多数の学習用センサ状態情報とを前記センサフュージョンネットワークに入力して、前記センサフュージョンネットワークを通じて、(i)CNN(convolutional neural network)を介したコンボリューション演算を前記学習用走行イメージに適用して学習用特徴マップを生成し、前記学習用特徴マップにFC(fully−connected)演算を適用して学習用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTM(Long short−term memory)を介した循環(recurrent)ニューラルネットワーク演算を前記多数の学習用センサ状態情報に適用して学習用センサ状態特徴ベクトルを生成させ、(iii)前記学習用イメージ特徴ベクトル及び前記学習用センサ状態特徴ベクトルをコンカチネート(concatenating)して学習用コンカチネート済み特徴ベクトルを生成し、前記学習用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記学習用センサフュージョン確率値を生成させることを特徴とする。
一実施例において、前記プロセッサは、前記リワードを利用して、前記センサフュージョンネットワークに含まれている、前記CNNと、前記少なくとも一つのLSTMと、前記少なくとも一つのFCレイヤとのうち少なくとも一つのパラメータをアップデートすることを特徴とする。
一実施例において、前記プロセッサは、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記学習用特徴マップにマックスプーリング(max−pooling)演算を適用し、その結果値にFC演算を適用することによって、前記学習用イメージ特徴ベクトルを生成させることを特徴とする。
一実施例において、前記プロセッサは、ソフトマックス(softmax)アルゴリズムを通じて前記学習用センサフュージョン確率値それぞれを正規化して出力することを特徴とする。
一実施例において、前記リワードは、前記m個の学習用協同走行車両それぞれの前記n個の学習用センサの個数の合計から前記s個の学習用センサの個数を減算して生成されたものであり、前記プロセッサは、前記学習用交通状況情報を参照して前記リワードを増加又は減少させることを特徴とする。
一実施例において、前記学習用走行イメージは、前記m個の学習用協同走行車両が前記協同走行中である全体道路に対する全体道路イメージであって、前記全体道路イメージがグリッド(grid)形態に分割されて生成された一定サイズのブロックそれぞれが前記m個の学習用協同走行車両それぞれにより占有されているか、前記第2バーチャル車両全体により占有されているのかを表す(m+1)個のチャンネルのイメージであり、前記(m+1)個のチャンネルのうちm個のチャンネルそれぞれは、前記m個の学習用協同走行車両それぞれに対応し、残りの一つのチャンネルは、前記第2バーチャル車両に対応するものであることを特徴とする。
本発明の他の態様によると、協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークをテストするための、k個のテスト用協同走行車両のうち少なくとも一つの協同走行車両のテスティング装置において、各インストラクションを格納する一つ以上のメモリと、(I)(i)(i−1)学習用対象自律走行車両と、(i−2)前記学習用対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、学習装置が、(1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(1−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(1−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数である)に関する学習用フュージョンセンサ情報を生成させるプロセス、(2)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記学習用対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、(3)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記学習用対象自律走行車両を運行させるプロセス、及び(4)前記走行ネットワークにより運行される前記学習用対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行した状態で、(i)(i−1)テスト用対象自律走行車両と、(i−2)前記テスト用対象自律走行車両と前記協同走行を遂行する第1車両を含むk個のテスト用協同走行車両と、(i−3)前記非協同走行を遂行する第2車両と、を含むテスト用走行イメージ、(ii)前記k個のテスト用協同走行車両それぞれのi個のテスト用センサに関する多数のテスト用センサ状態情報が取得されると、前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(I−1)前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報に前記ニューラルネットワーク演算を適用させて、前記k個のテスト用協同走行車両それぞれが前記協同走行のために前記V2V通信を介して前記i個のテスト用センサそれぞれの各センサ値を伝送する確率値であるテスト用センサフュージョン確率値を生成させ、(I−2)前記テスト用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個のテスト用センサに関するテスト用フュージョンセンサ情報を生成させ、(I−3)前記s個のテスト用センサに関する前記テスト用フュージョンセンサ情報を、前記V2V通信を介して前記k個のテスト用協同走行車両のうち少なくとも一部に伝送させるプロセス、及び(II)前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されるテスト用道路走行映像を前記検出ネットワークに入力して、前記検出ネットワークをもって、前記テスト用対象自律走行車両の走行道路上の前記第2車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出してテスト用周辺物体情報を出力させるプロセス、及び前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されたテスト用センサ値と前記テスト用周辺物体情報とを前記走行ネットワークに入力して、前記走行ネットワークをもって、前記テスト用センサ値と前記テスト用周辺物体情報とを参照して、前記k個のテスト用協同走行車両それぞれのテスト用移動方向確率値を生成させることによって、前記テスト用移動方向確率値を参照して前記テスト用対象自律走行車両を運行させるプロセスを遂行するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むテスティング装置が開示される。
一実施例において、前記(I)プロセスで、前記プロセッサが、前記テスト用走行イメージと前記多数のテスト用センサ状態情報とを前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(i)CNNを通じたコンボリューション演算を前記テスト用走行イメージに適用してテスト用特徴マップを生成し、前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成させ、(iii)前記テスト用イメージ特徴ベクトル及び前記テスト用センサ状態特徴ベクトルをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記テスト用センサフュージョン確率値を生成させることを特徴とする。
一実施例において、前記プロセッサは、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記テスト用特徴マップにマックスプーリング演算を適用し、その結果値にFC演算を適用することによって、前記テスト用イメージ特徴ベクトルを生成させることを特徴とする。
一実施例において、前記プロセッサは、ソフトマックスアルゴリズムを通じて前記テスト用センサフュージョン確率値それぞれを正規化して出力することを特徴とする。
一実施例において、前記(I)プロセスで、前記プロセッサが、(i)前記テスト用k個の協同走行車両のうち特定の協同走行車両から取得された前記テスト用走行イメージに、特定のCNNを通じた多重コンボリューション演算を適用してテスト用特徴マップを生成するプロセス、及び前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルが生成されると、前記特定の協同走行車両から前記V2V通信を介して前記テスト用イメージ特徴ベクトルを取得するプロセスと、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成するプロセスと、(iii)前記V2V通信を介して取得された、前記テスト用イメージ特徴ベクトルと前記テスト用センサ状態特徴ベクトルとをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成するプロセス、及び前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤを介したFC演算を適用して前記テスト用センサフュージョン確率値を生成するプロセスとを遂行することを特徴とする。
一実施例において、前記特定の車両は、特定のCNNをもって、前記テスト用走行イメージにコンボリューション演算を適用させてテスト用特徴マップを生成させ、前記テスト用特徴マップにFC演算を適用して前記テスト用イメージ特徴ベクトルを生成させ、前記特定の車両は、ラウンドロビンスケジューリング(Round Robin Scheduling)によって順次に一定時間の間隔で指定される前記k個のテスト用協同走行車両のうち一つの協同走行車両であることを特徴とする。
その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。
本発明は、自律走行車両の一部のセンサが故障した場合でも、協同走行中である他の自律走行車両のセンサ情報を通じて代替が可能であるため、自律走行車両の信頼度を向上させる効果がある。
本発明は、V2V通信を介して必要なセンサ情報のみを送受信するため、データ送受信のためのデータ量を最少化する他の効果がある。
本発明は、協同走行のための自律走行車両の適正走行位置に応じて必要かつ正確なセンサ情報を取得する、また他の効果がある。
本発明は、協同走行を通じて共通のセンサ情報を、それぞれの自律走行車両が分散演算して共有するため、自律走行車両の演算量を減らす、また他の効果がある。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、本発明の一実施例にしたがって、強化学習に基づいて協同走行で対象自律走行車両のセンサフュージョンのためのセンサフュージョンネットワークを学習する学習装置を簡略に示した図面である。 図2は、本発明の一実施例にしたがって、対象自律走行車両の協同走行の状態を簡略に示した図面である。 図3は、本発明の一実施例にしたがって、強化学習に基づいて協同走行で対象自律走行車両のセンサフュージョンのためのセンサフュージョンネットワークを学習する学習方法を簡略に示した図面である。 図4は、本発明の一実施例にしたがって、強化学習に基づいて協同走行で対象自律走行車両のセンサフュージョンのためのセンサフュージョンネットワークを簡略に示した図面である。 図5は、本発明の一実施例にしたがって、強化学習に基づいて協同走行で対象自律走行車両のセンサフュージョンのためのセンサフュージョンネットワークをテストするテスティング装置を簡略に示した図面である。
後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図1は、本発明の一実施例にしたがって、強化学習に基づいて協同走行で多重エージェントセンサフュージョン(multiple agent sensor fusion)のためのセンサフュージョンネットワークを学習する学習装置を簡略に示した図面である。図1を参照すると、前記学習装置100は、前記強化学習に基づいて対象自律走行車両の協同走行で多重エージェントセンサフュージョンのための前記センサフュージョンネットワークを学習する各インストラクションを格納するメモリ120と、前記メモリ120に格納された前記各インストラクションに対応するプロセスを遂行するプロセッサ130とを含むことができる。
具体的に、前記学習装置100は、 典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の各構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(すなわち、コンピューティング装置をもって特定の方式で機能させるインストラクション)との組み合わせを利用して所望のシステム性能を達成するものであり得る。
また、前記コンピューティング装置のプロセッサは、MPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。
しかし、このような前記コンピューティング装置についての説明が、本発明を実施するためのプロセッサ、メモリ、媒体又はその他のコンピューティング構成要素が統合された形態である統合プロセッサである場合を排除するわけではない。
一方、前記対象自律走行車両は、一つ以上の周辺車両とのV2V(vehicle to vehicle)通信のための通信部110と、前記協同走行における前記多重エージェントセンサフュージョンのための前記センサフュージョンネットワーク140と、前記対象自律走行車両の走行道路上の前記周辺車両、一人以上の歩行者、及び一つ以上の車線のうち少なくとも一部を検出して周辺物体情報を出力する検出ネットワーク150と、フュージョンセンサ情報に応答して前記V2V通信を介して取得したセンサ値及び前記周辺物体情報を参照して前記対象自律走行車両が運行されるようにする走行ネットワーク160とを含むことができる。
このように構成された本発明の一実施例による前記学習装置100を利用して、前記強化学習に基づいて前記協同走行で前記多重エージェントセンサフュージョンのための前記センサフュージョンネットワークを学習する方法を、図1ないし図4を参照して説明すると以下のとおりである。
まず、図2を参照すると、前記学習装置100は、(i)(i−1)前記対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報を取得することができる。
この場合、前記協同走行を遂行する前記対象自律走行車両の場合、物体検出のためのCNN(convolutional neural network)のバーチャル学習過程のように、単に準備されたトレーニングイメージを挿入することによって仮想的に行われるのではなく、実際に道路を走行しながら行われなければならない。すなわち、学習が完全に行われていない場合には、実際の道路上の前記対象自律走行車両が衝突する確率が非常に高いことがある。したがって、本発明においては、これを解決するための方案としてバーチャル空間(Virtual world)で前記学習を遂行し、前記対象自律走行車両及び前記対象自律走行車両から特定距離内の少なくとも一つの周辺バーチャル車両が前記バーチャル空間に存在するようにプログラムされ得る。この場合、前記対象自律走行車両と協同走行を遂行する前記第1バーチャル車両を含む学習用m個の学習用協同走行車両及び前記対象自律走行車両であるすべてのエージェント(agent)は、同一のネットワークで動作(action)を決定することができる。
そして、図2では、3台の車両が前記協同走行モードで走行するものとして例示したが、3台以上の車両が前記協同走行モードで運行している場合、これらの連結関係を、三角形メッシュ(triangular mesh)の形態で表現することができるが、前記三角形メッシュを構成する最も簡単な形態は、3台の車両からなる三角形である。したがって、図2では3台の車両についてのみ示したが、複数台の車両による前記協同走行モードにおいて簡単に拡張することが可能であろう。
一方、前記学習用走行イメージは、前記m個の学習用協同走行車両が前記協同走行中である全体道路に対する全体道路イメージであって、前記全体道路イメージがグリッド(grid)形態に分割されて生成された一定サイズのブロックそれぞれが前記m個の学習用協同走行車両それぞれにより占有されているか、前記第2バーチャル車両全体により占有されているのかを表す(m+1)個のチャンネルのイメージであり、前記(m+1)個のチャンネルのうちm個のチャンネルそれぞれは、前記m個の学習用協同走行車両それぞれに対応し、残りの一つのチャンネルは前記第2バーチャル車両に対応し得る。この場合、前記学習用走行イメージは、前記m個の学習用協同走行車両の位置情報と前記第2バーチャル車両の位置情報とを利用して生成することができ、前記m個の学習用バーチャル車両の位置情報は、それ自体のGPS情報を前記V2V通信を介して互いに共有して確認することができ、前記第2バーチャル車両の位置情報は、以前の動作、すなわち、以前のフレームから前記m個の学習用協同走行車両それぞれにおいて検出された前記第2バーチャル車両の位置情報を利用して確認することができる。
そして、前記多数の学習用センサ状態情報は、前記m個の学習用協同走行車両それぞれに設置されている前記n個のセンサに関する状態情報、すなわち、前記センサが作動可能であるのかを示す情報であり得る。一例として、前記多数の学習用センサ状態情報のうち少なくとも一部は、センサが使用可能であれば、ベクトル要素が1として、欠陥の発生などによって使用不可能であれば0として表現されたm×n個のセンサの状態を表すベクトルであり得る。また、前記多数の学習用センサ状態情報は、前記m個の学習用協同走行車両それぞれの速度それぞれをさらに含むことができる。この場合、前記多数の学習用センサ状態情報は、前記センサがバーチャル走行環境で正常状態と非正常状態とを行き来させて取得することができる。本明細書において、「速度」はスカラー(scalar)であり得るが、場合によってはベクトルでもあり得る。
次に、図3を参照すると、前記学習装置100は、前記学習用走行イメージと前記多数の学習用センサ状態情報とを前記対象自律走行車両のセンサフュージョンネットワーク140に入力して、前記センサフュージョンネットワーク140をもって、前記協同走行を遂行する前記m個の学習用協同走行車両の前記センサ状態に関する情報及び前記協同走行を遂行する前記対象自律走行車両の前記走行道路状況に関する情報を分析して、前記V2V通信を介して、どのセンサから得られたどのような情報を前記協同走行を遂行する協同走行車両に伝送するのかに関する情報を出力させることができる。
つまり、前記学習装置100は、前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワーク140に入力することによって、前記センサフュージョンネットワーク140をもって、(i)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行を行うために前記V2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの前記センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(ii)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサに関する学習用フュージョンセンサ情報を生成させることができる。この場合、sは1以上でありm×n以下である整数(integer)であり得る。
一例として、図4を参照すると、前記学習装置100は入力1としての学習用走行イメージに前記CNN(convolutional neural network)を利用した演算を適用することができる。つまり、前記学習装置100は、前記学習用走行イメージを少なくとも一つのコンボリューションレイヤに入力した後、前記コンボリューションレイヤをもって、少なくとも一つのコンボリューション演算を前記学習用走行イメージに適用して、少なくとも一つの学習用特徴マップを生成させる。この場合、前記コンボリューションレイヤは多数のレイヤで構成され得、前記学習用走行イメージに多重コンボリューション演算を適用することができる。
そして、前記学習装置100は、前記学習用特徴マップを少なくとも一つのFCレイヤに入力して、前記FCレイヤをもって、FC演算を前記学習用特徴マップに適用することによって、学習用イメージ特徴ベクトルを生成させることができる。
この際、前記FCレイヤは、多数のレイヤで構成され得る。また、前記学習装置100は、少なくとも一つのプーリングレイヤを通じて、前記学習用特徴マップにマックスプーリング(max−pooling)演算を適用し、場合によって前記学習用マックスプーリング特徴マップを前記FCレイヤに入力することができる。
また、前記学習装置100は、入力2としての前記多数の学習用センサ状態情報を少なくとも一つのLSTM(long short−term memory)に入力して、前記LSTM(Long short−term memory)をもって循環(recurrent)ニューラルネットワーク演算を前記多数の学習用センサ状態情報に適用して、前記学習用センサ状態特徴ベクトルを生成させることができる。この際、前記LSTMは複数個で形成され得、前記LSTMは一回以上繰り返すことができる。
以後、前記学習装置100は、前記学習用イメージ特徴ベクトル及び前記学習用センサ状態特徴ベクトルをコンカチネート(concatenating)して学習用コンカチネート済み特徴ベクトルを生成し、前記学習用コンカチネート済み特徴ベクトルを前記FCレイヤに入力して、前記FCレイヤをもって、前記学習用コンカチネート済み特徴ベクトルにFC演算を適用して学習用前記学習用センサフュージョン確率値を生成させる。この場合、前記学習装置100は、前記センサフュージョンネットワーク140を介してソフトマックス(softmax)アルゴリズムを通じて前記学習用センサフュージョン確率値それぞれを正規化して出力することができる。
すなわち、前記学習装置100は、前記センサフュージョンネットワーク140を介して前記CNNと前記LSTMとの結果をコンカチネートし、前記コンカチネートされた結果を前記FCレイヤに入力した後、前記ソフトマックス演算を前記FC演算からの結果に適用して、最終結果、すなわち、前記多重エージェントセンサフュージョンに対する結果を出力することができる。
一例として、前記協同走行モード上の前記3台の車両それぞれにn個のセンサがついている場合、それぞれの前記センサから得られたそれぞれの前記センサ情報を前記V2V通信で伝送する確率値を表す3×n個の値を出力することができる。この場合、それぞれの3台の車両に対するn個の確率値は、各車両ごとに事前に正規化され得、前記協同走行を遂行する前記車両の前記n個のセンサそれぞれから取得された前記センサ情報を前記V2V通信を通じて伝送する場合には確率値が大きい順序の通りs個を選択することができる。
再び図3を参照すると、前記学習装置100は、前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得された学習用走行道路映像を前記検出ネットワーク150に入力して、前記検出ネットワーク150をもって、前記対象自律走行車両の前記走行道路上の前記第2バーチャル車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出して前記学習用周辺物体情報を出力させることができる。この場合、前記検出ネットワーク150は、入力イメージ上で物体を検出するように学習された状態であり得る。
次に、前記学習装置100は、前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得した前記学習用センサ値と前記学習用周辺物体情報とを前記走行ネットワーク160に入力して、前記走行ネットワーク160をもって、前記学習用センサ値と前記学習用周辺物体情報とを参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記対象自律走行車両を運行させることができる。この場合、前記走行ネットワーク160は、前記センサ値と前記周辺物体情報とを参照して前記協同走行を遂行する前記対象自律走行車両の前記移動方向確率値を生成するように学習された状態であり得る。
すなわち、前記学習装置100は、前記走行ネットワーク160をもって、前記学習用センサ値と前記学習用周辺物体情報とを利用して協同走行形態をどのように変更するのかを判断させることができる。一例として、それぞれの前記協同走行車両がそれぞれ左側、右側に移動しなければならないか、移動してはならない場合の確率値を示す3×m個の値を出力することができる。この際、それぞれの協同走行車両ごとに3つの確率値の和は事前に正規化されており、それぞれの前記協同走行車両は、確率値が最も大きい動作を遂行することができる。
次に、前記学習装置100は、前記走行ネットワーク160により運行される前記対象自律走行車両に関する学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行することができる。
すなわち、前記学習装置100は、前記リワードを利用して、前記センサフュージョンネットワーク140に含まれている、前記CNN、前記LSTM、及び前記FCレイヤのうち少なくとも一つのパラメータをアップデートすることができる。
この場合、前記リワードは、前記m個の学習用協同走行車両それぞれの前記n個の学習用センサの個数の合計から前記s個の学習用センサの個数を減算して生成されたものであり、前記学習装置100は、前記学習用交通状況情報を参照して前記リワードを増加または減少させることができる。
これに関して、もう少し詳細に説明すると次のとおりである。
前記対象自律走行車両は、運行しつつ、その周辺状況の少なくとも一つの変化を示す前記交通状況情報、すなわち状況データを取得することができる。前記状況データは、(i)前記対象自律走行車両から特定距離内にある少なくとも一つの周辺車両における少なくとも一つの車両警笛の作動可否に関する情報、(ii)前記少なくとも一つの周辺車両の速度変化情報、及び(iii)前記対象自律走行車両と前記少なくとも一つの周辺車両との間の少なくとも一つの事故情報のうち少なくとも一部を含むことができる。前記学習装置100または前記走行ネットワーク160は、前記交通状況情報を参照して前記リワードを生成し、これは前記ニューラルネットワーク演算に使用される一つ以上のパラメータを調整するのに関与するので、上記のような情報を参照して前記プロセスを調整するということを意味する。
前記警笛作動の可否に関する情報と、前記速度変化情報と、前記事故情報とは、前記対象自律走行車両が安全に運行しているのかを判断するための基準である。前記対象自律走行車両が安全に走行しているのであれば、前記周辺車両が警笛を作動せず、速度を落とさないであろうし、周辺車両と事故が起こらないはずだからである。警笛の作動、速度の低下、事故など、少なくとも一つの事件が発生すると、前記学習装置100または前記走行ネットワーク160は、前記リワードを下げることによって前記対象自律走行車両をより安全に走行させるはずである。また、前記多重エージェントセンターフュージョンにおいて、センサが少ない数で選択され得るように予め設定した閾値以上の確率値を有するセンサの個数をsとする場合、前記学習装置100または前記走行ネットワーク160は、sを利用して前記リワードを生成することができる。一例として、前記m個の学習用協同走行車両それぞれの前記n個の学習用センサ個数の合計から前記s個の学習用センサの個数を減算した値をリワードとして生成することができる。
この場合、前記学習装置100は、前記リワードが低ければ、前記センサフュージョンネットワーク140を学習して前記学習用フュージョンセンサ情報にさらに多くのセンサが含まれるようにし、前記リワードが高ければ、前記学習用フュージョンセンサ情報にさらに少ないセンサが含まれるようにすることによって、前記対象自律走行車両がより安全な走行をするようにできる。
そして、前記交通状況情報が取得されるためには、前記周辺バーチャル車両が警笛を鳴らし、速度を落とすロジック(logic)が事前にプログラムされていなければならない。具体的に、(i)前記バーチャル空間で前記対象自律走行車両から特定の距離内にある少なくとも一つの周辺車両は、第1臨界時間内の前記対象自律走行車両と衝突する確率が検出されると警笛を鳴らすようにプログラムされ、(ii)前記周辺車両は、第2臨界時間内の前記対象自律走行車両と衝突する確率が検出されると速度を落とすようにプログラムされ得る。この場合、前記第1臨界時間は、前記第2臨界時間より長いか同じである。運転者が自ら運転する車両の速度を落としたくないために警笛を鳴らす場合が多いからである。もちろん、これは一つの実施例であるだけであり、前記第1臨界時間と前記第2臨界時間とは任意に設定され得る。
このように、前記周辺バーチャル車両の前記ロジックが具現されている場合、前記交通状況情報も実際とほぼ同様に取得され得るはずである。前記対象自律走行車両は、このように前記バーチャル空間に具現されて、前記バーチャル空間の前記対象自律走行車両が運行される過程を通じて、前記ニューラルネットワーク演算に使用されるパラメータが調整されることによって学習され得る。このように前記学習過程を具現すると、実際とほぼ同様の空間を前記バーチャル空間に具現することができるので、バーチャル空間上での様々な状況、すなわち、車両が多い渋滞状況、カーブの多い道を走行する状況、坂が屈曲した道を走行する状況等について事故なしに安全に学習することができる長所がある。
図5は、本発明の一実施例にしたがって、強化学習に基づいて協同走行で対象自律走行車両のセンサフュージョンのためのセンサフュージョンネットワークをテストするテスティング装置を簡略に示した図面である。前記テスティング装置200は、前記強化学習に基づいて、前記自律走行車両の協同走行で多重エージェントセンサ(multiple agent sensor)のための前記センサフュージョンネットワークをテストする各インストラクションを格納するメモリ220と、前記メモリ220に格納された前記各インストラクションに対応するプロセスを遂行するプロセッサ230とを含むことができる。
具体的に、前記テスティング装置200は、 典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の各構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(すなわち、コンピューティング装置をもって特定の方式で機能させるインストラクション)との組み合わせを利用して所望のシステム性能を達成するものであり得る。
また、前記コンピューティング装置のプロセッサは、 MPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。
しかし、このような前記コンピューティング装置に関する説明が、本発明を実施するためのプロセッサ、メモリ、媒体又はその他のコンピューティング構成要素が統合された形態である統合プロセッサである場合を排除するわけではない。
このように構成された本発明の一実施例による前記テスティング装置200を利用して、前記強化学習に基づいて前記協同走行で前記多重エージェントセンサフュージョンのための前記センサフュージョンネットワークをテストする方法を説明すると、以下のとおりである。以下の説明では、図2ないし図4から容易に理解が可能な部分については詳細な説明を省略することにする。
まず、前記対象自律走行車両の前記センサフュージョンのための前記センサフュージョンネットワークは、前記説明のような前記強化学習に基づいて学習された状態であり得る。
すなわち、前記学習装置により、(a)(i)(i−1)前記対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含む前記m個の学習用協同走行車両と、(i−3)前記バーチャル走行環境で前記非協同走行を遂行する前記第2バーチャル車両とを含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに対する前記多数の学習用センサ状態情報が取得されると、(1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワーク140に入力することによって、前記センサフュージョンネットワーク140をもって、(1−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のために前記V2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(1−2)前記学習用センサフュージョン確率値のうち、前記予め設定された閾値以上の確率値を有する前記s個の学習用センサに関する前記学習用フュージョンセンサ情報を生成させるプロセス、(2)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される前記学習用道路走行映像を前記検出ネットワークに入力して、前記検出ネットワークをもって、前記対象自律走行車両の走行道路上の前記第2バーチャル車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出させて前記学習用周辺物体情報を出力させるプロセス、(3)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される前記学習用センサ値と前記学習用周辺物体情報とを前記走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記対象自律走行車両を運行させるプロセス、及び(4)前記走行ネットワークにより運行される前記対象自律走行車両の前記学習用交通状況情報を取得し、前記学習用交通状況情報を参照して前記リワードを生成し、前記リワードを利用して前記センサフュージョンネットワークを学習させた状態であり得る。
この場合、(i)(i−1)テスト用対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1車両を含むk個のテスト用協同走行車両と、(i−3)前記非協同走行を遂行する第2車両と、を含むテスト用走行イメージ及び(ii)前記k個のテスト用協同走行車両それぞれのi個のテスト用センサに関する多数のテスト用センサ状態情報が取得されると、前記k個のテスト用協同走行車両のうち少なくとも一つの協同走行車両のテスティング装置200が、前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(a−1)前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報に前記ニューラルネットワーク演算を適用させて、前記k個のテスト用協同走行車両それぞれが前記協同走行のために前記V2V通信を介して前記i個のテスト用センサそれぞれの各センサ値を伝送する確率値であるテスト用センサフュージョン確率値を生成させ、(a−2)前記テスト用センサフュージョン確率値のうち、前記予め設定された閾値以上の確率値を有するs個のテスト用センサに関するテスト用フュージョンセンサ情報を生成させ、(a−3)前記s個のテスト用センサに関する前記テスト用フュージョンセンサ情報を、前記V2V通信を介して前記k個のテスト用協同走行車両のうち少なくとも一部に伝送させることができる。
すなわち、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置200が、前記テスト用走行イメージと前記多数のテスト用センサ状態情報とを前記センサフュージョンネットワーク140に入力することによって、前記センサフュージョンネットワーク140をもって、(i)前記CNNを通じたコンボリューション演算を前記テスト用走行イメージに適用してテスト用特徴マップを生成し、前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成させ、(iii)前記テスト用イメージ特徴ベクトル及び前記テスト用センサ状態特徴ベクトルをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記テスト用センサフュージョン確率値を生成させることができる。
一例として、前記テスティング装置200は、入力1として、前記テスト用走行イメージに前記CNN(convolutional neural network)を適用することができる。すなわち、前記テスティング装置100は前記テスト用走行イメージを前記コンボリューションレイヤに入力した後、前記コンボリューションレイヤをもって、前記テスト用走行イメージにこのコンボリューション演算を適用して前記テスト用特徴マップを生成させることができる。
そして、前記テスティング装置200は、前記テスト用特徴マップを前記FCレイヤに入力して、前記FCレイヤをもって、前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルを生成させることができる。
また、前記テスティング装置200は、入力2として、前記多数のテスト用センサ状態情報を前記LSTM(long short−term memory)に入力して、前記LSTMをもって、循環(recurrent)ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用して前記テスト用センサ状態特徴ベクトルを生成させることができる。
以後、前記テスティング装置200は、前記テスト用イメージ特徴ベクトルと前記テスト用センサ状態特徴ベクトルとをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルを前記FCレイヤに入力して、前記FCレイヤをもって、前記テスト用コンカチネート済み特徴ベクトルにFC演算を適用して前記テスト用センサフュージョン確率値を生成させることができる。
次に、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置200は、前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されるテスト用道路走行映像を前記検出ネットワーク150に入力して、前記検出ネットワーク150をもって、前記テスト用対象自律走行車両の実際の走行道路上における前記第2車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出してテスト用周辺物体情報を出力させることができる。
以後、前記テスティング装置200は、前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されたテスト用センサ値及び前記テスト用周辺物体情報を前記走行ネットワーク160に入力して、前記走行ネットワーク160をもって、前記テスト用センサ値と前記テスト用周辺物体情報とを参照して、前記k個のテスト用協同走行車両それぞれのテスト用移動方向確率値を生成させることによって、前記テスト用移動方向確率値を参照して前記対象自律走行車両を運行させることができる。
一方、前記テスティング装置200が、ネットワーク演算を集中した形態で遂行する場合、すべてのエージェント、すなわち、前記k個のテスト用協同走行車両から前記テスト用走行イメージと前記テスト用センサ状態情報とを一つのエージェントが前記V2V通信を介して集まる形態(all−to−one)で受信し、前記一つのエージェントはネットワーク演算を遂行して、その結果をV2V放送(one−to−all)として伝送することができる。
また、前記ネットワーク演算の少なくとも一部を別途に遂行する場合、すべてのエージェントは演算量が少ないLSTM部分のネットワーク演算を遂行し、前記すべてのエージェントのうち特定のエージェントは、演算量の多いCNN部分の前記ネットワーク演算を遂行し、前記V2V通信を介して中間結果を放送することができ、前記すべてのエージェントは、前記LSTMと前記CNNの中間結果を足し合わせて、最終結果を演算する部分を遂行させることができる。従って、演算量の多いCNN部分を前記特定のエージェントが担って遂行し、ラウンドロビン方式で前記すべてのエージェントが担うため、平均演算量を減らすことが可能になる。
すなわち、前記k個のテスト用協同走行車両のうち特定の車両が、特定のCNNをもって、前記テスト用走行イメージに多重コンボリューション演算を適用して前記テスト用特徴マップを生成し、これを前記テスト用特徴マップにFC演算を適用することによって、前記テスト用イメージ特徴ベクトルを生成すれば、前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両のテスティング装置200は、前記V2V通信を介して前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両から前記テスト用イメージ特徴ベクトルを取得することができる。また、前記テスティング装置200は、少なくとも一つのLSTMをもって、前記多数のテスト用センサ状態情報に循環ニューラルネットワーク演算を適用して前記テスト用センサ状態特徴ベクトルを生成させることができる。以後、テスト装置200は、前記V2V通信を介して取得された、前記テスト用イメージ特徴ベクトルと前記テスト用センサ状態特徴ベクトルとをコンカチネートして前記テスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルにFC演算を適用して、少なくとも一つのFCレイヤを通じて、前記センサフュージョン確率値を生成することができる。
この場合、前記特定のCNNをもって、前記テスト用走行イメージにコンボリューション演算を適用させてテスト用特徴マップを生成させ、前記テスト用特徴マップにFC演算を適用して前記テスト用イメージ特徴ベクトルを生成させる前記特定の車両は、ラウンドロビンスケジューリング(Round Robin Scheduling)によって順次に一定時間の間隔で指定される前記k個のテスト用協同走行車両のうち一つの協同走行車両であり得る。
本発明によると、前記走行道路状況及び前記自律走行車両のうち一つ以上のセンサ状態に応じて、前記協同走行モードで走行する、前記多重エージェント強化学習基盤の自律走行車両は、前記V2V通信を介して前記センサ情報のうちどの情報を相互に伝送するのかを選択し、前記協同走行モードで、前記すべての自律車両のうち少なくとも一部の自律車両の協同走行形態をどのように変更するのかを決定することができ、V2V情報フュージョンと前記多重エージェントセンサフュージョンとのうち一つを通じてセンサ情報を利用して自律走行を遂行することができ、前記協同走行のために最適の位置にそれ自体の位置を再配置することができ、それ自体のセンサの一部が故障した場合、前記協同走行モード上の他の自律走行車両からの前記センサ情報を活用して機能的安全性を図ることができる。また、前記自律走行車両の信頼度は、バーチャル走行訓練を通じてアップデートされ得る。
以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (26)

  1. 協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークを学習する方法において、
    (a)(i)(i−1)対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、学習装置が、前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(a−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(a−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数(integer)である)に関する学習用フュージョンセンサ情報を生成させる段階;
    (b)前記学習装置が、前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、及び前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記対象自律走行車両を運行させる段階;及び
    (c)前記学習装置が、前記走行ネットワークにより運行される前記対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習する段階;
    を含む方法。
  2. 前記(a)段階で、
    前記学習装置は、前記学習用走行イメージと前記多数の学習用センサ状態情報とを前記センサフュージョンネットワークに入力して、前記センサフュージョンネットワークをもって、(i)CNN(convolutional neural network)を介したコンボリューション演算を前記学習用走行イメージに適用して学習用特徴マップを生成し、前記学習用特徴マップにFC(fully−connected)演算を適用して学習用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTM(Long short−term memory)を介した循環(recurrent)ニューラルネットワーク演算を前記多数の学習用センサ状態情報に適用して学習用センサ状態特徴ベクトルを生成させ、(iii)前記学習用イメージ特徴ベクトル及び前記学習用センサ状態特徴ベクトルをコンカチネート(concatenating)して学習用コンカチネート済み特徴ベクトルを生成し、前記学習用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記学習用センサフュージョン確率値を生成させる請求項1に記載の方法。
  3. 前記学習装置は、前記リワードを利用して、前記センサフュージョンネットワークに含まれている、前記CNNと、前記少なくとも一つのLSTMと、前記少なくとも一つのFCレイヤとのうち少なくとも一つのパラメータをアップデートする請求項2に記載の方法。
  4. 前記学習装置は、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記学習用特徴マップにマックスプーリング(max−pooling)演算を適用し、その結果値にFC演算を適用することによって、前記学習用イメージ特徴ベクトルを生成させる請求項2に記載の方法。
  5. 前記学習装置は、ソフトマックス(softmax)アルゴリズムを通じて前記学習用センサフュージョン確率値それぞれを正規化して出力する請求項2に記載の方法。
  6. 前記リワードは、前記m個の学習用協同走行車両それぞれの前記n個の学習用センサの個数の合計から前記s個の学習用センサの個数を減算して生成されたものであり、
    前記学習装置は、前記学習用交通状況情報を参照して前記リワードを増加又は減少させる請求項1に記載の方法。
  7. 前記学習用走行イメージは、前記m個の学習用協同走行車両が前記協同走行中である全体道路に対する全体道路イメージであって、前記全体道路イメージがグリッド(grid)形態に分割されて生成された一定サイズのブロックそれぞれが前記m個の学習用協同走行車両それぞれにより占有されているか、前記第2バーチャル車両全体により占有されているのかを表す(m+1)個のチャンネルのイメージであり、前記(m+1)個のチャンネルのうちm個のチャンネルそれぞれは、前記m個の学習用協同走行車両それぞれに対応し、残りの一つのチャンネルは、前記第2バーチャル車両に対応するものである請求項1に記載の方法。
  8. 協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークをテストする方法において、
    (a)(i)(i−1)学習用対象自律走行車両と、(i−2)前記学習用対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、学習装置が、(1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(1−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(1−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数である)に関する学習用フュージョンセンサ情報を生成させるプロセス、(2)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記学習用対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、(3)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記学習用対象自律走行車両を運行させるプロセス、及び(4)前記走行ネットワークにより運行される前記学習用対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行した状態で、(i)(i−1)テスト用対象自律走行車両と、(i−2)前記テスト用対象自律走行車両と前記協同走行を遂行する第1車両を含むk個のテスト用協同走行車両と、(i−3)前記非協同走行を遂行する第2車両と、を含むテスト用走行イメージ、及び(ii)前記k個のテスト用協同走行車両それぞれのi個のテスト用センサに関する多数のテスト用センサ状態情報が取得されると、前記k個のテスト用協同走行車両のうち少なくとも一つの協同走行車両のテスティング装置が、前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(a−1)前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報に前記ニューラルネットワーク演算を適用させて、前記k個のテスト用協同走行車両それぞれが前記協同走行のために前記V2V通信を介して前記i個のテスト用センサそれぞれの各センサ値を伝送する確率値であるテスト用センサフュージョン確率値を生成させ、(a−2)前記テスト用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個のテスト用センサに関するテスト用フュージョンセンサ情報を生成させ、(a−3)前記s個のテスト用センサに関する前記テスト用フュージョンセンサ情報を、前記V2V通信を介して前記k個のテスト用協同走行車両のうち少なくとも一部に伝送させる段階;及び
    (b)前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置が、前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されるテスト用道路走行映像を前記検出ネットワークに入力して、前記検出ネットワークをもって、前記テスト用対象自律走行車両の走行道路上の前記第2車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出してテスト用周辺物体情報を出力させるプロセス、及び前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されたテスト用センサ値と前記テスト用周辺物体情報とを前記走行ネットワークに入力して、前記走行ネットワークをもって、前記テスト用センサ値と前記テスト用周辺物体情報とを参照して前記k個のテスト用協同走行車両それぞれのテスト用移動方向確率値を生成させることによって、前記テスト用移動方向確率値を参照して前記テスト用対象自律走行車両を運行させるプロセスを遂行する段階;
    を含む方法。
  9. 前記(a)段階で、
    前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置が、前記テスト用走行イメージと前記多数のテスト用センサ状態情報とを前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(i)CNNを通じたコンボリューション演算を前記テスト用走行イメージに適用してテスト用特徴マップを生成し、前記テスト用特徴マップにFC演算を適用してテスト用イメージベクトルを生成させ、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成させ、(iii)前記テスト用イメージ特徴ベクトル及び前記テスト用センサ状態特徴ベクトルをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記テスト用センサフュージョン確率値を生成させる請求項8に記載の方法。
  10. 前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置は、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記テスト用特徴マップにマックスプーリング演算を適用し、その結果値にFC演算を適用することによって、前記テスト用イメージ特徴ベクトルを生成させる請求項9に記載の方法。
  11. 前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置は、ソフトマックスアルゴリズムを通じて前記テスト用センサフュージョン確率値それぞれを正規化して出力する請求項9に記載の方法。
  12. 前記(a)段階で、
    前記k個のテスト用協同走行車両のうち前記少なくとも一つの協同走行車両の前記テスティング装置が、(i)前記テスト用k個の協同走行車両のうち特定の協同走行車両から取得された前記テスト用走行イメージに、特定のCNNを通じた多重コンボリューション演算を適用してテスト用特徴マップを生成するプロセス、及び前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルが生成されると、前記特定の協同走行車両から前記V2V通信を介して前記テスト用イメージ特徴ベクトルを取得するプロセス、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成するプロセス、及び(iii)前記V2V通信を介して取得された、前記テスト用イメージ特徴ベクトルと前記テスト用センサ状態特徴ベクトルとをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成するプロセス、及び前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤを介したFC演算を適用して前記テスト用センサフュージョン確率値を生成するプロセスを遂行する請求項8に記載の方法。
  13. 前記特定の車両は、特定のCNNをもって、前記テスト用走行イメージにコンボリューション演算を適用させてテスト用特徴マップを生成させ、前記テスト用特徴マップにFC演算を適用して前記テスト用イメージ特徴ベクトルを生成させ、前記特定の車両は、ラウンドロビンスケジューリング(Round Robin Scheduling)によって順次に一定時間の間隔で指定される前記k個のテスト用協同走行車両のうち一つの協同走行車両である請求項12に記載の方法。
  14. 協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークを学習するための学習装置において、
    各インストラクションを格納する一つ以上のメモリと、
    (I)(i)(i−1)対象自律走行車両と、(i−2)前記対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(I−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(I−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数である)に関する学習用フュージョンセンサ情報を生成させるプロセス、(II)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、及び前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記対象自律走行車両を運行させるプロセス、及び(III)前記走行ネットワークにより運行される前記対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含む学習装置。
  15. 前記(I)プロセスで、
    前記プロセッサが、前記学習用走行イメージと前記多数の学習用センサ状態情報とを前記センサフュージョンネットワークに入力して、前記センサフュージョンネットワークを通じて、(i)CNN(convolutional neural network)を介したコンボリューション演算を前記学習用走行イメージに適用して学習用特徴マップを生成し、前記学習用特徴マップにFC(fully−connected)演算を適用して学習用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTM(Long short−term memory)を介した循環(recurrent)ニューラルネットワーク演算を前記多数の学習用センサ状態情報に適用して学習用センサ状態特徴ベクトルを生成させ、(iii)前記学習用イメージ特徴ベクトル及び前記学習用センサ状態特徴ベクトルをコンカチネート(concatenating)して学習用コンカチネート済み特徴ベクトルを生成し、前記学習用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記学習用センサフュージョン確率値を生成させる請求項14に記載の学習装置。
  16. 前記プロセッサは、前記リワードを利用して、前記センサフュージョンネットワークに含まれている、前記CNNと、前記少なくとも一つのLSTMと、前記少なくとも一つのFCレイヤとのうち少なくとも一つのパラメータをアップデートする請求項15に記載の学習装置。
  17. 前記プロセッサは、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記学習用特徴マップにマックスプーリング(max−pooling)演算を適用し、その結果値にFC演算を適用することによって、前記学習用イメージ特徴ベクトルを生成させる請求項15に記載の学習装置。
  18. 前記プロセッサは、ソフトマックス(softmax)アルゴリズムを通じて前記学習用センサフュージョン確率値それぞれを正規化して出力する請求項15に記載の学習装置。
  19. 前記リワードは、前記m個の学習用協同走行車両それぞれの前記n個の学習用センサの個数の合計から前記s個の学習用センサの個数を減算して生成されたものであり、
    前記プロセッサは、前記学習用交通状況情報を参照して前記リワードを増加又は減少させる請求項14に記載の学習装置。
  20. 前記学習用走行イメージは、前記m個の学習用協同走行車両が前記協同走行中である全体道路に対する全体道路イメージであって、前記全体道路イメージがグリッド(grid)形態に分割されて生成された一定サイズのブロックそれぞれが前記m個の学習用協同走行車両それぞれにより占有されているか、前記第2バーチャル車両全体により占有されているのかを表す(m+1)個のチャンネルのイメージであり、前記(m+1)個のチャンネルのうちm個のチャンネルそれぞれは、前記m個の学習用協同走行車両それぞれに対応し、残りの一つのチャンネルは、前記第2バーチャル車両に対応するものである請求項14に記載の学習装置。
  21. 協同走行を遂行する自律走行車両のセンサフュージョン(Sensor Fusion)に使用されるセンサフュージョンネットワークをテストするための、k個のテスト用協同走行車両のうち少なくとも一つの協同走行車両のテスティング装置において、
    各インストラクションを格納する一つ以上のメモリと、
    (I)(i)(i−1)学習用対象自律走行車両と、(i−2)前記学習用対象自律走行車両と前記協同走行を遂行する第1バーチャル車両を含むm個の学習用協同走行車両と、(i−3)非協同走行を遂行する第2バーチャル車両と、を含む学習用走行イメージ、及び(ii)前記m個の学習用協同走行車両それぞれのn個の学習用センサに関する多数の学習用センサ状態情報が取得されると、学習装置が、(1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(1−1)前記学習用走行イメージ及び前記多数の学習用センサ状態情報にニューラルネットワーク演算を適用させて、前記m個の学習用協同走行車両それぞれが前記協同走行のためにV2V(vehicle−to−vehicle)通信を介して前記n個の学習用センサそれぞれの各センサ値を伝送する確率値である学習用センサフュージョン確率値を生成させ、(1−2)前記学習用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個の学習用センサ(前記sは1以上m×n以下の整数である)に関する学習用フュージョンセンサ情報を生成させるプロセス、(2)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用道路走行映像を検出ネットワークに入力して、前記検出ネットワークをもって、前記学習用対象自律走行車両の走行道路上の前記第2バーチャル車両と、一人以上の歩行者と、一つ以上の車線とのうち少なくとも一部を検出させて学習用周辺物体情報を出力させるプロセス、(3)前記学習用フュージョンセンサ情報に応答して前記V2V通信を介して取得される学習用センサ値と前記学習用周辺物体情報とを走行ネットワークに入力して、前記走行ネットワークをもって、前記学習用センサ値及び前記学習用周辺物体情報を参照して前記m個の学習用協同走行車両それぞれの学習用移動方向確率値を生成させて、前記学習用移動方向確率値を参照して前記学習用対象自律走行車両を運行させるプロセス、及び(4)前記走行ネットワークにより運行される前記学習用対象自律走行車両の学習用交通状況情報を取得し、前記学習用交通状況情報を参照してリワード(reward)を生成し、前記リワードを利用して前記センサフュージョンネットワークを学習するプロセスを遂行した状態で、(i)(i−1)テスト用対象自律走行車両と、(i−2)前記テスト用対象自律走行車両と前記協同走行を遂行する第1車両を含むk個のテスト用協同走行車両と、(i−3)前記非協同走行を遂行する第2車両と、を含むテスト用走行イメージ、(ii)前記k個のテスト用協同走行車両それぞれのi個のテスト用センサに関する多数のテスト用センサ状態情報が取得されると、前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報を前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(I−1)前記テスト用走行イメージ及び前記多数のテスト用センサ状態情報に前記ニューラルネットワーク演算を適用させて、前記k個のテスト用協同走行車両それぞれが前記協同走行のために前記V2V通信を介して前記i個のテスト用センサそれぞれの各センサ値を伝送する確率値であるテスト用センサフュージョン確率値を生成させ、(I−2)前記テスト用センサフュージョン確率値のうち、予め設定された閾値以上の確率値を有するs個のテスト用センサに関するテスト用フュージョンセンサ情報を生成させ、(I−3)前記s個のテスト用センサに関する前記テスト用フュージョンセンサ情報を、前記V2V通信を介して前記k個のテスト用協同走行車両のうち少なくとも一部に伝送させるプロセス、及び(II)前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されるテスト用道路走行映像を前記検出ネットワークに入力して、前記検出ネットワークをもって、前記テスト用対象自律走行車両の走行道路上の前記第2車両と、前記歩行者と、前記車線とのうち少なくとも一部を検出してテスト用周辺物体情報を出力させるプロセス、及び前記テスト用フュージョンセンサ情報に応答して前記V2V通信を介して取得されたテスト用センサ値と前記テスト用周辺物体情報とを前記走行ネットワークに入力して、前記走行ネットワークをもって、前記テスト用センサ値と前記テスト用周辺物体情報とを参照して、前記k個のテスト用協同走行車両それぞれのテスト用移動方向確率値を生成させることによって、前記テスト用移動方向確率値を参照して前記テスト用対象自律走行車両を運行させるプロセスを遂行するプロセスを遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むテスティング装置。
  22. 前記(I)プロセスで、
    前記プロセッサが、前記テスト用走行イメージと前記多数のテスト用センサ状態情報とを前記センサフュージョンネットワークに入力することによって、前記センサフュージョンネットワークをもって、(i)CNNを通じたコンボリューション演算を前記テスト用走行イメージに適用してテスト用特徴マップを生成し、前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルを生成させ、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成させ、(iii)前記テスト用イメージ特徴ベクトル及び前記テスト用センサ状態特徴ベクトルをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成し、前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤのFC演算を適用して前記テスト用センサフュージョン確率値を生成させる請求項21に記載のテスティング装置。
  23. 前記プロセッサは、前記センサフュージョンネットワークをもって、プーリングレイヤを通じて前記テスト用特徴マップにマックスプーリング演算を適用し、その結果値にFC演算を適用することによって、前記テスト用イメージ特徴ベクトルを生成させる請求項22に記載のテスティング装置。
  24. 前記プロセッサは、ソフトマックスアルゴリズムを通じて前記テスト用センサフュージョン確率値それぞれを正規化して出力する請求項22に記載のテスティング装置。
  25. 前記(I)プロセスで、
    前記プロセッサが、(i)前記テスト用k個の協同走行車両のうち特定の協同走行車両から取得された前記テスト用走行イメージに、特定のCNNを通じた多重コンボリューション演算を適用してテスト用特徴マップを生成するプロセス、及び前記テスト用特徴マップにFC演算を適用してテスト用イメージ特徴ベクトルが生成されると、前記特定の協同走行車両から前記V2V通信を介して前記テスト用イメージ特徴ベクトルを取得するプロセスと、(ii)少なくとも一つのLSTMを通じた循環ニューラルネットワーク演算を前記多数のテスト用センサ状態情報に適用してテスト用センサ状態特徴ベクトルを生成するプロセスと、(iii)前記V2V通信を介して取得された、前記テスト用イメージ特徴ベクトルと前記テスト用センサ状態特徴ベクトルとをコンカチネートしてテスト用コンカチネート済み特徴ベクトルを生成するプロセス、及び前記テスト用コンカチネート済み特徴ベクトルに少なくとも一つのFCレイヤを介したFC演算を適用して前記テスト用センサフュージョン確率値を生成するプロセスとを遂行する請求項21に記載のテスティング装置。
  26. 前記特定の車両は、特定のCNNをもって、前記テスト用走行イメージにコンボリューション演算を適用させてテスト用特徴マップを生成させ、前記テスト用特徴マップにFC演算を適用して前記テスト用イメージ特徴ベクトルを生成させ、前記特定の車両は、ラウンドロビンスケジューリング(Round Robin Scheduling)によって順次に一定時間の間隔で指定される前記k個のテスト用協同走行車両のうち一つの協同走行車両である請求項25に記載のテスティング装置。
JP2020007152A 2019-01-30 2020-01-20 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置 Active JP6913969B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962798967P 2019-01-30 2019-01-30
US62/798,967 2019-01-30
US16/723,820 US10627823B1 (en) 2019-01-30 2019-12-20 Method and device for performing multiple agent sensor fusion in cooperative driving based on reinforcement learning
US16/723,820 2019-12-20

Publications (2)

Publication Number Publication Date
JP2020123335A true JP2020123335A (ja) 2020-08-13
JP6913969B2 JP6913969B2 (ja) 2021-08-04

Family

ID=70285087

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020007152A Active JP6913969B2 (ja) 2019-01-30 2020-01-20 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置

Country Status (5)

Country Link
US (1) US10627823B1 (ja)
EP (1) EP3690711A1 (ja)
JP (1) JP6913969B2 (ja)
KR (1) KR102325028B1 (ja)
CN (1) CN111507372B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102561345B1 (ko) * 2023-02-02 2023-07-27 홍익대학교 산학협력단 Drqn 기반 hvac 제어 방법 및 장치

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977793B (zh) * 2019-03-04 2022-03-04 东南大学 基于变尺度多特征融合卷积网络的路侧图像行人分割方法
US11095741B2 (en) * 2019-07-11 2021-08-17 Ghost Locomotion Inc. Value-based transmission in an autonomous vehicle
US11221897B2 (en) * 2019-09-11 2022-01-11 International Business Machines Corporation Managing device maintenance via artificial intelligence
CN111625942B (zh) * 2020-05-12 2023-09-01 招商局检测车辆技术研究院有限公司 基于综测仪的车路协同应用测评系统及方法
DE102020121150A1 (de) * 2020-08-11 2022-02-17 Bayerische Motoren Werke Aktiengesellschaft Trainieren eines Reinforcement Learning Agenten zur Steuerung eines autonomen Systems
DE102020210376A1 (de) * 2020-08-14 2022-02-17 Robert Bosch Gesellschaft mit beschränkter Haftung Vorrichtung und Verfahren zum Steuern eines Hardware-Agenten in einer Steuersituation mit mehreren Hardware-Agenten
CN112085165A (zh) * 2020-09-02 2020-12-15 中国第一汽车股份有限公司 一种决策信息生成方法、装置、设备及存储介质
WO2022059808A1 (ko) * 2020-09-15 2022-03-24 엘지전자 주식회사 자율 주행 시스템에서 v2x 통신 장치의 강화 학습 수행 방법
US20220114433A1 (en) * 2020-10-08 2022-04-14 Toyota Motor Engineering & Manufacturing North America, Inc. Methods and systems for enhanced scene perception using vehicle platoon
KR20220098503A (ko) * 2021-01-04 2022-07-12 오드컨셉 주식회사 중복 이미지 검출 방법 및 장치
CN113053122B (zh) * 2021-03-23 2022-02-18 成都信息工程大学 基于wmgirl算法的可变交通管控方案中区域流量分布预测方法
US11809190B2 (en) * 2021-04-30 2023-11-07 Zoox, Inc. Methods and systems to assess vehicle capabilities
KR20220150096A (ko) 2021-05-03 2022-11-10 현대모비스 주식회사 딥러닝 머신 및 그 운용방법
CN114205053B (zh) * 2021-11-15 2023-04-07 北京邮电大学 卫星通信系统强化学习自适应编码调制方法、系统及装置
WO2023204319A1 (ko) * 2022-04-18 2023-10-26 ㈜와토시스 차량 영상 데이터의 처리 장치 및 방법과 이 장치를 포함하는 시스템
CN117094377A (zh) * 2022-05-10 2023-11-21 华为技术有限公司 测量方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084367A (ja) * 2015-10-26 2017-05-18 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh 自動車の制御
US10061322B1 (en) * 2017-04-06 2018-08-28 GM Global Technology Operations LLC Systems and methods for determining the lighting state of a vehicle
JP2020504860A (ja) * 2016-12-23 2020-02-13 モービルアイ ビジョン テクノロジーズ リミテッド 課せられる責任の制約を伴うナビゲーションシステム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19855400A1 (de) * 1998-12-01 2000-06-15 Bosch Gmbh Robert Verfahren und Vorrichtung zur Bestimmung eines zukünftigen Kursbereichs eines Fahrzeugs
US7729857B2 (en) * 2005-08-18 2010-06-01 Gm Global Technology Operations, Inc. System for and method of detecting a collision and predicting a vehicle path
DE102009006113B4 (de) * 2008-03-03 2019-03-28 Volkswagen Ag Vorrichtung und Verfahren zur Sensorfusion mit dynamischen Objekten
EP2491344B1 (en) * 2009-10-22 2016-11-30 TomTom Global Content B.V. System and method for vehicle navigation using lateral offsets
US8976040B2 (en) * 2012-02-16 2015-03-10 Bianca RAY AVALANI Intelligent driver assist system based on multimodal sensor fusion
US8473144B1 (en) * 2012-10-30 2013-06-25 Google Inc. Controlling vehicle lateral lane positioning
JP5991332B2 (ja) * 2014-02-05 2016-09-14 トヨタ自動車株式会社 衝突回避制御装置
US9139204B1 (en) * 2014-06-12 2015-09-22 GM Global Technology Operations LLC Road surface condition detection with recursive adaptive learning and validation
US10486707B2 (en) * 2016-01-06 2019-11-26 GM Global Technology Operations LLC Prediction of driver intent at intersection
DE102016000185A1 (de) * 2016-01-11 2017-07-13 Trw Automotive Gmbh Steuerungs-System und Verfahren zum Ermitteln einer Fahrspur eines nachfolgenden Kraftfahrzeugs
DE102016000201A1 (de) * 2016-01-11 2017-07-13 Trw Automotive Gmbh Steuerungs-System und Verfahren zum Ermitteln einer Fahrspurbelegung durch Kraftfahrzeuge
CN106218638B (zh) * 2016-08-17 2018-08-03 北方工业大学 一种智能网联汽车协同换道控制方法
US10394237B2 (en) * 2016-09-08 2019-08-27 Ford Global Technologies, Llc Perceiving roadway conditions from fused sensor data
US10073456B2 (en) * 2016-11-17 2018-09-11 GM Global Technology Operations LLC Automated co-pilot control for autonomous vehicles
US10118628B2 (en) * 2017-02-21 2018-11-06 Allstate Insurance Company Data processing system for guidance, control, and testing autonomous vehicle features and driver response
US10395144B2 (en) * 2017-07-24 2019-08-27 GM Global Technology Operations LLC Deeply integrated fusion architecture for automated driving systems
CN108196535B (zh) * 2017-12-12 2021-09-07 清华大学苏州汽车研究院(吴江) 基于增强学习和多传感器融合的自动驾驶系统
US10553117B1 (en) * 2018-11-06 2020-02-04 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for determining lane occupancy of surrounding vehicles

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017084367A (ja) * 2015-10-26 2017-05-18 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツングRobert Bosch Gmbh 自動車の制御
JP2020504860A (ja) * 2016-12-23 2020-02-13 モービルアイ ビジョン テクノロジーズ リミテッド 課せられる責任の制約を伴うナビゲーションシステム
US10061322B1 (en) * 2017-04-06 2018-08-28 GM Global Technology Operations LLC Systems and methods for determining the lighting state of a vehicle

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102561345B1 (ko) * 2023-02-02 2023-07-27 홍익대학교 산학협력단 Drqn 기반 hvac 제어 방법 및 장치

Also Published As

Publication number Publication date
JP6913969B2 (ja) 2021-08-04
EP3690711A1 (en) 2020-08-05
KR20200094641A (ko) 2020-08-07
US10627823B1 (en) 2020-04-21
CN111507372B (zh) 2023-10-20
KR102325028B1 (ko) 2021-11-12
CN111507372A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
JP2020123335A (ja) 強化学習に基づいて協同走行で多重エージェントセンサフュージョンを遂行する方法及び装置
JP6857371B2 (ja) 安全な自律走行を支援する学習方法、そしてこれを利用した学習装置、テスト方法、及びテスト装置
US10296004B2 (en) Autonomous operation for an autonomous vehicle objective in a multi-vehicle environment
EP3359436B1 (en) Method and system for operating autonomous driving vehicles based on motion plans
US20210339741A1 (en) Constraining vehicle operation based on uncertainty in perception and/or prediction
US10514697B2 (en) Vehicle remote assistance mode
US10816973B2 (en) Utilizing rule-based and model-based decision systems for autonomous driving control
US11260852B2 (en) Collision behavior recognition and avoidance
JP2020123341A (ja) 自律走行モードと手動走行モードとの間の走行モードを変更するリモートコントロール自律走行自動車のための方法及び装置
US11860634B2 (en) Lane-attention: predicting vehicles' moving trajectories by learning their attention over lanes
CN112180912A (zh) 用于为自动驾驶车辆规划路径的分级路径决策系统
CN111746557A (zh) 用于车辆的路径规划融合
CN116917827A (zh) 驾驶仿真中的代理转换
US20220266859A1 (en) Simulated agents based on driving log data
JP2022539557A (ja) テレオペレータに連絡するための技法
US11745747B2 (en) System and method of adaptive distribution of autonomous driving computations
CN116674593A (zh) 用于自主车辆的具有异常检测的安全增强规划系统
US20230256999A1 (en) Simulation of imminent crash to minimize damage involving an autonomous vehicle
US11018974B1 (en) Context based bandwidth switching
US11858507B2 (en) Methods for cognitive situation awareness using an attention-based event structure
TWI838994B (zh) 針對緊急車輛的自駕車路徑預測系統及自駕車路徑預測方法
CN114217601B (zh) 自驾车的混合决策方法及其系统
JP2024509086A (ja) 運転シミュレーションにおけるエージェント変換
CN117261936A (zh) 用于测试自主车辆意图的原型车道

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200120

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210706

R150 Certificate of patent or registration of utility model

Ref document number: 6913969

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150