JP6810415B2 - 自律走行自動車のレベル4を満たすために領域のクラスに応じてモードを切り換えてグリッドセルごとに重み付けコンボリューションフィルタを利用した監視用イメージセグメンテーション方法及び装置、並びにそれを利用したテスト方法及びテスト装置 - Google Patents

自律走行自動車のレベル4を満たすために領域のクラスに応じてモードを切り換えてグリッドセルごとに重み付けコンボリューションフィルタを利用した監視用イメージセグメンテーション方法及び装置、並びにそれを利用したテスト方法及びテスト装置 Download PDF

Info

Publication number
JP6810415B2
JP6810415B2 JP2019239382A JP2019239382A JP6810415B2 JP 6810415 B2 JP6810415 B2 JP 6810415B2 JP 2019239382 A JP2019239382 A JP 2019239382A JP 2019239382 A JP2019239382 A JP 2019239382A JP 6810415 B2 JP6810415 B2 JP 6810415B2
Authority
JP
Japan
Prior art keywords
feature map
layer
weighted
test
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019239382A
Other languages
English (en)
Other versions
JP2020119521A (ja
Inventor
− ヒョン キム、ケイ
− ヒョン キム、ケイ
キム、ヨンジュン
キム、インスー
− キョン キム、ハク
− キョン キム、ハク
ナム、ウヒョン
ブー、ソッフン
ソン、ミュンチュル
ヨー、ドンフン
リュー、ウジュ
チャン、テウン
ジョン、キュンチョン
チェ、ホンモ
チョウ、ホジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020119521A publication Critical patent/JP2020119521A/ja
Application granted granted Critical
Publication of JP6810415B2 publication Critical patent/JP6810415B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20024Filtering details
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30256Lane; Road marking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • G06T2207/30261Obstacle

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Neurology (AREA)
  • Automation & Control Theory (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Business, Economics & Management (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Description

本発明は自律走行自動車のレベル4を満たすために、領域のクラスに応じてモードを切り換えてグリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用してイメージをセグメンテーションする方法に関し、より詳細には、前記グリッドセルごとに複数個の前記重み付けコンボリューションフィルタそれぞれを利用した前記イメージセグメンテーション方法において、(a)少なくとも一つの入力イメージが取得されると、学習装置が、(i)CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのエンコード済み特徴マップを生成させ、(ii)前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのデコード済み特徴マップを生成させる段階;(b)前記デコードレイヤから出力された特定のデコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることでセグメンテーション結果を出力させる段階;及び(c)前記学習装置が、前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスをバックプロパゲーション(Backpropagation)して、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習させる段階;を含む方法及び装置、並びにこれを利用したテスト方法及びテスト装置に関する。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;Deep CNN)は、ディープラーニング分野で起きた驚くべき発展の核心である。CNNは、文字の認識問題を解決するために90年代にもすでに使用されていたが、現在のように広く使用されるようになったのは、最近の研究結果の賜物である。このようなディープCNNは、2012年のイメージ分類コンテストで他の競争相手に勝って優勝を収めた。その後、コンボリューションニューラルネットワークは機械学習(Machine Learning)分野で非常に有用なツールになった。
一方、イメージセグメンテーション(Image Segmentation)は、イメージ(トレーニングイメージまたはテストイメージ)を利用してラベル(Label)イメージを生成する方法である。最近、ディープランニング(Deep Learning)技術が脚光を浴びるに伴い、イメージセグメンテーションにもディープラーニング技術が多く使用される傾向にある。
ディープラーニング基盤のイメージセグメンテーションは、入力イメージをエンコーダ/デコーダに入力し、前記デコーダから出力された最終結果に対してコンボリューション演算を適用することにより取得される。この際、デコーダから出力された最終結果に対してコンボリューション演算を適用する場合、一般的に最終結果の全ての領域に対して同じ重み付け値のコンボリューションフィルタを適用するようになる。
一方、ADAS(Advanced Driver Assistance System)に利用されるFSD(Free Space Detection)のようにカメラが固定され、複数の入力イメージに含まれている物体と道路の構造的形態が互いに類似した状況(例えば、イメージの中央部分には道路、イメージの左側と右側部分には歩道、イメージの上側には建物や空などが位置する状況)でイメージセグメンテーションを行う場合を想定する場合、イメージのうち一つにおいて全体領域に対して同一の重み付け値のコンボリューションフィルタを適用するとすれば、互いに類似した構造という特性を活用しないまま、非効率的に演算を数多く遂行するようになり、入力イメージを利用してイメージセグメンテーションプロセスを遂行して取得した出力結果も好ましくない問題点が存在する。
本発明は、上述した問題点を解決することを目的とする。
本発明は、入力イメージに対応するデコード済み特徴マップ内にグリッドセルごとに複数の重み付けコンボリューションフィルタそれぞれを利用してイメージセグメンテーションを遂行することを他の目的とする。
本発明は、特定のデコード済み特徴マップで大きな比重を占める特定のグリッドセルに対応する特定のコンボリューションフィルタを参照フィルタ(Reference Filter)として使用して、参照フィルタ値を線形変換することにより、グリッドセルの残りの部分のフィルタ値を算出させることを他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。
本発明の一態様によると、グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用したイメージセグメンテーション方法において、(a)少なくとも一つの入力イメージが取得されると、学習装置が、(i)CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのエンコード済み特徴マップを生成させ、(ii)前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのデコード済み特徴マップを生成させる段階;(b)前記デコードレイヤから出力された特定のデコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることでセグメンテーション結果を出力させる段階;及び(c)前記学習装置が、前記セグメンテーション結果と、それに対応する原本正解とを参照して取得されたセグメンテーションロスをバックプロパゲーション(Backpropagation)して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習させる段階;を含むことを特徴とする。
一実施例おいて、前記(b)段階は、前記学習装置が、前記特定のデコード済み特徴マップ上の少なくとも一つの特徴値を参照して、少なくとも一つの特定基準に従ってそれぞれグルーピングされた少なくとも一つの領域のうち最も広い領域を参照領域として設定する段階を含み、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれは、次の数式で表現され、
W_C_Filter=α*B+β
ここで、W_C_Filterは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれの値それぞれを意味し、Bは前記参照領域に対応する参照フィルタ値を意味し、α及びβそれぞれは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれに対応する線形変換パラメータ(Linear Transformation Parameter)それぞれを意味し、前記(c)段階で、前記学習装置は、前記α、β及びBを学習することにより、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習することを特徴とする。
一実施例において、前記(b)段階で、前記特定のデコード済み特徴マップ上の前記特徴値を参照して、前記特徴値の範囲に応じてそれぞれグルーピングされた少なくとも一つの領域のうち前記最も広い領域を前記参照領域として設定することを特徴とする。
一実施例において、前記入力イメージは、複数個のトレーニングイメージを含み、前記複数個のトレーニングイメージそれぞれに第1分割領域ないし第k分割領域に対応する第1位置情報ないし第k位置情報がある状態で、前記入力イメージは、前記第1位置情報の相対的な偏差ないし前記第k位置情報の相対的な偏差のうち少なくとも一部それぞれが少なくとも一つの予め設定された閾値以下である特定のトレーニングイメージを含むように選択されることを特徴とする。
一実施例において、前記(b)段階で、前記グリッドセルそれぞれの形と大きさは、いずれも同一であることを特徴とする。
一実施例において、前記入力イメージは、道路走行状況を示したイメージであり、前記学習装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする。
本発明の他の態様によると、グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用してイメージをセグメンテーションするテスト方法において、(a)(1)(i)学習装置が、CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用エンコード済み特徴マップを生成させ、(ii)前記学習装置が、前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定の学習用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用デコード済み特徴マップを生成させ;(2)前記デコードレイヤから出力された特定の学習用デコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定の学習用デコード済み特徴マップに対して前記重み付けコンボリューションレイヤの重み付けコンボリューション演算を少なくとも一回適用させることで学習用セグメンテーション結果を出力させ;(3)前記学習装置が、前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスを利用してバックプロパゲーション(Backpropagation)を遂行して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置は、(i)前記CNNモジュールの前記エンコードレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用エンコード済み特徴マップを生成させ、(ii)前記CNNモジュールの前記デコードレイヤをもって、前記エンコードレイヤから出力された特定のテスト用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用デコード済み特徴マップを生成させる段階;及び(b)前記デコードレイヤから出力された特定のテスト用デコード済み特徴マップが少なくとも一つの前記予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記テスト装置が、前記CNNモジュールの前記重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定のテスト用デコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることにより、テスト用セグメンテーション結果を出力させる段階;を含むことを特徴とする。
一実施例において、前記テストイメージは道路走行状況を示したイメージであり、前記テスト装置は道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする。
本発明のまた他の態様によると、グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用したイメージセグメンテーションする学習装置において、インストラクションを格納する少なくとも一つのメモリと、(I)(i)CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、少なくとも一つの入力イメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのエンコード済み特徴マップを生成させ、(ii)前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのデコード済み特徴マップを生成させるプロセス、(II)前記デコードレイヤから出力された特定のデコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることでセグメンテーション結果を出力させるプロセス、及び(III)前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスを利用してバックプロパゲーション(Backpropagation)を遂行して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習させるプロセス;を遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
一実施例において、前記(II)プロセスは、前記特定のデコード済み特徴マップ上の少なくとも一つの特徴値を参照して、少なくとも一つの特定基準に従ってそれぞれグルーピングされた少なくとも一つの領域のうち最も広い領域を参照領域として設定するプロセスを含み、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれは、次の数式で表現され、
W_C_Filter=α*B+β
ここで、W_C_Filterは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれの値それぞれを意味し、Bは前記参照領域に対応する参照フィルタ値を意味し、α及びβそれぞれは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれに対応する線形変換パラメータ(Linear Transformation Parameter)それぞれを意味し、前記(III)プロセスで、前記プロセッサは、前記α、β及びBを学習することにより、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習することを特徴とする。
一実施例において、前記(II)プロセスで、前記特定のデコード済み特徴マップの前記特徴値を参照して、前記特徴値の範囲に応じてそれぞれグルーピングされた少なくとも一つの領域のうち前記最も広い領域を前記参照領域として設定することを特徴とする。
一実施例において、前記入力イメージは複数個のトレーニングイメージを含み、前記複数個のトレーニングイメージそれぞれに第1分割領域ないし第k分割領域に対応する第1位置情報ないし第k位置情報がある状態で、前記入力イメージは、前記第1位置情報の相対的な偏差ないし前記第k位置情報の相対的な偏差のうち少なくとも一部それぞれが少なくとも一つの予め設定された閾値以下である特定のトレーニングイメージを含むように選択されることを特徴とする。
一実施例において、前記(II)プロセスは、前記グリッドセルのそれぞれの形と大きさは、いずれも同一であることを特徴とする。
一実施例において、前記入力イメージは道路走行状況を示したイメージであり、前記学習装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする。
本発明のまた他の態様によると、グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用してイメージをセグメンテーションするテスト装置において、インストラクションを格納する少なくとも一つのメモリと、(1)(i)学習装置が、CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用エンコード済み特徴マップを生成させ、(ii)前記学習装置が、前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定の学習用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用デコード済み特徴マップを生成させ、(2)前記デコードレイヤから出力された特定の学習用デコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定の学習用デコード済み特徴マップに対して前記重み付けコンボリューションレイヤの重み付けコンボリューション演算を少なくとも一回適用させることで学習用セグメンテーション結果を出力させ、(3)前記学習装置が、前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスを利用して、バックプロパゲーション(Backpropagation)を遂行して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習した状態で、(I)(i)前記CNNモジュールの前記エンコードレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用エンコード済み特徴マップを生成させ、(ii)前記CNNモジュールの前記デコードレイヤをもって、前記エンコードレイヤから出力された特定のテスト用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用デコード済み特徴マップを生成させるプロセス、(II)前記デコードレイヤから出力された特定のテスト用デコード済み特徴マップが少なくとも一つの前記予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記CNNモジュールの前記重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定のテスト用デコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることで、テスト用セグメンテーション結果を出力させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。
一実施例において、前記テストイメージは道路走行状況を示したイメージであり、前記テスト装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする。
本発明は、入力イメージに含まれた物体及び道路の構造的形態が互いに類似している場合にグリッドセルごとの複数個の重み付けコンボリューションフィルタそれぞれを利用して最適化されたイメージセグメンテーション結果を得ることができる効果がある。
本発明の実施例の説明に利用されるために添付された以下の図面は、本発明の実施例のうち単に一部であるにすぎず、本発明の属する技術分野において通常の知識を有する者(以下「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、本発明による学習装置の構成を示した図面である。 図2は、本発明によるグリッドセルごとの複数の重み付けコンボリューションフィルタそれぞれを使用してイメージセグメンテーションを遂行するプロセスを示した図面である。 図3は、本発明によるイメージセグメンテーションを遂行するCNNモジュールの少なくとも一つのパラメータを学習するプロセスを示した図面である。 図4は、本発明によるCNNモジュール内の重み付けコンボリューションレイヤのプロセスを示した図面である。 図5aは、本発明による参照領域を設定する例示を示した図面である。 図5bは、本発明による参照領域を設定する例示を示した図面である。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるわけではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるわけではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施させるために、本発明の好ましい実施例に対して、添付された図面を参照して詳細に説明することとする。
図1は、本発明による学習装置の構成を示した図面である。
図1を参照すると、学習装置100は、プロセッサ110と通信部120とを含むことができる。また、学習装置100は、CNNモジュール200を含むか、場合によってCNNモジュールを含まずCNNモジュール200と相互作用することができる。CNNモジュール200の少なくとも一つのパラメータを学習する少なくとも一つのプロセスは、プロセッサ110によって行われ得る。また、学習装置100は、次のプロセスを遂行するためのコンピュータ読取り可能なインストラクション(Instruction)を格納することができるメモリ115をさらに含むことができる。一実施例によると、プロセッサ、メモリ、媒体等は、統合プロセッサ(Integrated Processor)に統合され得る。
図2は、本発明によるCNNモジュール200が入力イメージを演算するプロセスを示した図面である。
図2を参照すると、CNNモジュール200は、エンコードレイヤ210と、デコードレイヤ220と、重み付けコンボリューションレイヤ230とを含むことができる。
具体的に、エンコードレイヤ210は、入力イメージに対してコンボリューション演算を少なくとも一回適用して少なくとも一つのエンコード済み特徴マップを生成するプロセスを遂行し、デコードレイヤ220は、エンコードレイヤ210で出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用して少なくとも一つのデコード済み特徴マップを生成するプロセスを遂行することができる。ここで、エンコードレイヤ210で出力された特定のエンコード済み特徴マップは、エンコードレイヤ210で最終的に出力された特徴マップであり得るが、これに限定されるわけではない。
次に、重み付けコンボリューションレイヤ230は、デコードレイヤ220から出力された特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用してセグメンテーション結果を出力させるプロセスを遂行することができるが、これについては、追って図4を参照して詳しく説明するようにする。ここで、特定のデコード済み特徴マップは、デコードレイヤ220で最終的に出力された特徴マップであり得るが、これに限定されるわけではない。
図3は、CNNモジュール200がエンコードレイヤ210、デコードレイヤ220及び重み付けコンボリューションレイヤ230の少なくとも一つのパラメータを学習するプロセスを示した図面である。
図3を説明するにおいて、図2ですでに説明された構成については説明を省略することとする。
図3を参照すると、重み付けコンボリューションレイヤ230は、セグメンテーション結果を出力する。この際、セグメンテーション結果はセグメンテーションの予測結果に該当し得、学習装置はこのようなセグメンテーション結果とそれに対応する原本正解(Ground Truth)とを参照して取得されるセグメンテーションロスを利用してバックプロパゲーションを遂行してCNNモジュールの少なくとも一つのパラメータを学習する。
具体的に、学習装置100は、重み付けコンボリューションレイヤ230、デコードレイヤ220、エンコードレイヤ210の順にバックプロパゲーションを遂行することによってパラメータを学習させる。このような学習プロセスは、ロスが特定の閾値より小さくなる場合、完了したものと見ることができるが、これに限定されるわけではない。
図4は、本発明による重み付けコンボリューションレイヤ230の演算過程を詳しく示した図面である。
デコードレイヤ220から出力された特定のデコード済み特徴マップを少なくとも一つの予め設定された基準に従って複数個のグリッドセルに区画すると、学習装置100は、CNNモジュール200の重み付けコンボリューションレイヤ230をもってグリッドセルそれぞれに対応するように重み付けコンボリューションフィルタそれぞれを設定させ、特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させてセグメンテーション結果を出力させる。その際、全てのグリッドの形と大きさを同じにする方式、すなわち正方形にする方式が設定され得るが、これに限定されるわけではない。
図4に提示されたコンボリューションフィルタ値、すなわち、{a、b、c、d、e、f、g、h、i}及び{j、k、l、m、n、o、p、q、r}などを見ると、各グリッドセルごとにコンボリューションフィルタ値が互いに異なって設定されていることを確認することができる。このような方式によって、より詳しく表現されるべき部分と、詳しく表現される必要性の少ない部分に重み付け値を異なるように適用してイメージセグメンテーションを行うことができるであろう。
例えば、自動車のADAS(Advanced Driving Assistance System)に含まれた学習装置100がフリースペース(Free Space)検出のために使用されると、セグメンテーション結果には少なくとも一つの道路または道路上の自動車などの障害物となり得る少なくとも一つの物体が詳しく表現されなければならず、空などの背景は詳しく表現される必要が少ないであろう。したがって、これに対応する原本正解においても道路部分が詳しく表現され、残りの部分は詳しく表現されないであろう。このような場合、道路に対応するグリッドセルごとの重み付けコンボリューションフィルタそれぞれの値それぞれは大きくなり、それ以外の背景に対応するグリッドセルごとの重み付けコンボリューションフィルタそれぞれの値それぞれは小さくなるであろう。このようなプロセスを経ると、道路上の物体がより正確にセグメンテーションされるはずである。
このようにグリッドセルごとに重み付けコンボリューションフィルタそれぞれが異なって設定されるため、ADAS(Advanced Driver Assistance System)に利用されるFSD(Free Space Detection)のようにカメラが固定され、複数の入力イメージに含まれている物体と道路の構造的形態が互いに類似した状況(例えば、イメージの中央部分には道路、イメージの左側と右側部分には歩道、イメージの上側には建物や空などが位置する状況)において、イメージセグメンテーションがさらに効果的に遂行される。
詳しく説明すると、複数個のトレーニングイメージそれぞれに第1分割領域ないし第k分割領域に対応する第1位置情報ないし第k位置情報があると想定する場合、特定のトレーニングイメージそれぞれにおける第1位置情報の相対的な偏差ないし前記第k位置情報の相対的な偏差のうち少なくとも一部それぞれが少なくとも一つの予め設定された閾値以下である特定のトレーニングイメージを含むように入力イメージが選択された。
例えば、空、道路及び歩道をそれぞれ第1分割領域、第2分割領域及び第3分割領域と見るとすると、第1位置情報は空がイメージの上段に位置するという事実、第2位置情報は道路がイメージの中央に位置するという事実、第3の位置情報はイメージの左側と右側に歩道が位置するという事実によって決定されるであろう。この場合、それぞれの入力イメージの第1、第2及び第3分割領域のそれぞれの中心座標を参照して、第1、第2及び第3位置情報を取得することができるはずである。
グリッドセルごとの重み付けコンボリューションフィルタそれぞれの値それぞれを決定する方法は、それぞれのフィルタ値を学習プロセスを通じて直接決定する方式以外にも多様であり得る。例えば、参照領域に対応する特定のグリッドセルに対応する特定のコンボリューションフィルタの値(即ち、参照フィルタの値)を求めた後、参照フィルタ値を線形変換することにより周辺部のフィルタ値を求める方式が適用され得る。
この際、参照領域とは、特定のデコード済み特徴マップ上の少なくとも一つの特徴値を参照して、少なくとも一つの特定基準に従ってそれぞれグルーピングされた少なくとも一つの領域のうち最も広い領域をいう。簡単に言えば、入力イメージがそれぞれの領域の特性によっていくつかの領域に分かれた場合、その全ての領域のうち代表領域が参照領域として決定される。
図5a及び図5bは、本発明による参照領域を設定する例を示す図面である。
図5bにおいて、参照領域は黒色で表示されていることが分かる。その際、参照領域は、イメージにおいて最も広い領域を占める道路に対応する領域であることを確認することができる。ただし、実際にこのようなイメージ上の参照領域を設定するのではなく、実際には特定のデコード特徴マップ上の特徴値を参照して特定のデコード済み特徴マップ上で参照領域を決定する。図5a及び図5bにおいてデコード済み特徴マップの代わりにイメージで表示したのは、単に説明の便宜のためであることを明らかにしておく。
参照領域は前記のように設定されるのであり、以後(i)参照フィルタはどのように決定されるか、(ii)参照領域周辺の領域に対応する一部グリッドに対するコンボリューションフィルタ値はどのような線形変換を通じて演算されるのか、(iii)前記線形変換の数式及び線形変換のパラメータ決定方法はどうであるかなどを検討することにする。
グリッドセルごとの重み付けコンボリューションフィルタそれぞれは、次の数式で表現される。
W_C_Filter=α*B+β
ここで、W_C_Filterはグリッドセルごとの重み付けコンボリューションフィルタそれぞれの値それぞれを意味し、Bは参照領域に対応する参照フィルタ値を意味し、α及びβそれぞれは、グリッドセルごとの重み付けコンボリューションフィルタそれぞれに対応する線形変換パラメータ(Linear Transformation Parameter)それぞれを意味する。
この場合、α、β及びBは、図3に示されたバックプロパゲーションを通じて学習される。
以後、CNNモジュール200の学習が完了した場合、CNNモジュール200がテスト装置として機能する方式を検討するために、図2を再度参照する。
図2を参照すると、CNNモジュール200が入力イメージを受信する場合、入力イメージに対して順次にエンコードレイヤ210、デコードレイヤ220及び重み付けコンボリューションレイヤ230の演算を適用することにより、セグメンテーション結果を出力させる。テストプロセスの前に、それぞれのレイヤのパラメータは既に学習された状態であるため、原本正解を利用してロスを算出するプロセスは除外される。つまり、テスト装置の構成は、ロスをバックプロパゲーションするプロセスを含まない点で学習装置の構成と異なる。
前記の方法を通じて、道路走行イメージとしてイメージセグメンテーション結果が生成されると、イメージセグメンテーション結果はフリースペース検出のために使用され得る。
本発明の技術分野における通常の技術者に理解され得るところとして、上記にて説明されたイメージ、例えば原本イメージ、原本ラベル及び追加ラベルのようなイメージデータの送受信が学習装置及びテスト装置の各通信部によって行われ得、特徴マップと演算とを行うためのデータが学習装置及びテスト装置のプロセッサ(及び/またはメモリ)により保有/維持され得、コンボリューション演算、デコンボリューション演算、ロス値演算の過程が主に学習装置及びテスト装置のプロセスによって遂行され得るが、本発明がこれに限定されはしないであろう。
以上にて説明された本発明による実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカル・ディスク(floptical disk)のような磁気−光メディア(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行される高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは、本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、係る記載から多様な修正及び変形が行われ得る。
従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (16)

  1. グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用したイメージセグメンテーション方法において、
    (a)少なくとも一つの入力イメージが取得されると、学習装置が、(i)CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、前記入力イメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのエンコード済み特徴マップを生成させ、(ii)前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのデコード済み特徴マップを生成させる段階;
    (b)前記デコードレイヤから出力された特定のデコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることでセグメンテーション結果を出力させる段階;及び
    (c)前記学習装置が、前記セグメンテーション結果と、それに対応する原本正解とを参照して取得されたセグメンテーションロスをバックプロパゲーション(Backpropagation)して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習させる段階;
    を含むことを特徴とする方法。
  2. 前記(b)段階は、
    前記学習装置が、前記特定のデコード済み特徴マップ上の少なくとも一つの特徴値を参照して、少なくとも一つの特定基準に従ってそれぞれグルーピングされた少なくとも一つの領域のうち最も広い領域を参照領域として設定する段階を含み、
    前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれは、次の数式で表現され、
    W_C_Filter=α*B+β
    ここで、W_C_Filterは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれの値それぞれを意味し、Bは前記参照領域に対応する参照フィルタ値を意味し、α及びβそれぞれは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれに対応する線形変換パラメータ(Linear Transformation Parameter)それぞれを意味し、
    前記(c)段階で、
    前記学習装置は、前記α、β及びBを学習することにより、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習することを特徴とする請求項1に記載の方法。
  3. 前記(b)段階で、
    前記特定のデコード済み特徴マップ上の前記特徴値を参照して、前記特徴値の範囲に応じてそれぞれグルーピングされた少なくとも一つの領域のうち前記最も広い領域を前記参照領域として設定することを特徴とする請求項2に記載の方法。
  4. 前記入力イメージは、複数個のトレーニングイメージを含み、
    前記複数個のトレーニングイメージそれぞれに第1分割領域ないし第k分割領域に対応する第1位置情報ないし第k位置情報がある状態で、前記入力イメージは、前記第1位置情報の相対的な偏差ないし前記第k位置情報の相対的な偏差のうち少なくとも一部それぞれが少なくとも一つの予め設定された閾値以下である特定のトレーニングイメージを含むように選択されることを特徴とする請求項1に記載の方法。
  5. 前記(b)段階で、
    前記グリッドセルそれぞれの形と大きさは、いずれも同一であることを特徴とする請求項1に記載の方法。
  6. 前記入力イメージは、道路走行状況を示したイメージであり、前記学習装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする請求項1に記載の方法。
  7. グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用してイメージをセグメンテーションするテスト方法において、
    (a)(1)(i)学習装置が、CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用エンコード済み特徴マップを生成させ、(ii)前記学習装置が、前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定の学習用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用デコード済み特徴マップを生成させ;(2)前記デコードレイヤから出力された特定の学習用デコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定の学習用デコード済み特徴マップに対して前記重み付けコンボリューションレイヤの重み付けコンボリューション演算を少なくとも一回適用させることで学習用セグメンテーション結果を出力させ;(3)前記学習装置が、前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスを利用してバックプロパゲーション(Backpropagation)を遂行して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習した状態で、少なくとも一つのテストイメージが取得されると、テスト装置は、(i)前記CNNモジュールの前記エンコードレイヤをもって、前記テストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用エンコード済み特徴マップを生成させ、(ii)前記CNNモジュールの前記デコードレイヤをもって、前記エンコードレイヤから出力された特定のテスト用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用デコード済み特徴マップを生成させる段階;及び
    (b)前記デコードレイヤから出力された特定のテスト用デコード済み特徴マップが少なくとも一つの前記予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記テスト装置が、前記CNNモジュールの前記重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定のテスト用デコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることにより、テスト用セグメンテーション結果を出力させる段階;
    を含むことを特徴とする方法。
  8. 前記テストイメージは道路走行状況を示したイメージであり、前記テスト装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする請求項7に記載の方法。
  9. グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用したイメージセグメンテーションする学習装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    (I)(i)CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、少なくとも一つの入力イメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのエンコード済み特徴マップを生成させ、(ii)前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定のエンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのデコード済み特徴マップを生成させるプロセス、(II)前記デコードレイヤから出力された特定のデコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記特定のデコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることでセグメンテーション結果を出力させるプロセス、及び(III)前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスを利用してバックプロパゲーション(Backpropagation)を遂行して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習させるプロセス;を遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とする学習装置。
  10. 前記(II)プロセスは、
    前記特定のデコード済み特徴マップ上の少なくとも一つの特徴値を参照して、少なくとも一つの特定基準に従ってそれぞれグルーピングされた少なくとも一つの領域のうち最も広い領域を参照領域として設定するプロセスを含み、
    前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれは、次の数式で表現され、
    W_C_Filter=α*B+β
    ここで、W_C_Filterは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれの値それぞれを意味し、Bは前記参照領域に対応する参照フィルタ値を意味し、α及びβそれぞれは、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれに対応する線形変換パラメータ(Linear Transformation Parameter)それぞれを意味し、
    前記(III)プロセスで、
    前記プロセッサは、前記α、β及びBを学習することにより、前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習することを特徴とする請求項9に記載の学習装置。
  11. 前記(II)プロセスで、
    前記特定のデコード済み特徴マップの前記特徴値を参照して、前記特徴値の範囲に応じてそれぞれグルーピングされた少なくとも一つの領域のうち前記最も広い領域を前記参照領域として設定することを特徴とする請求項10に記載の学習装置。
  12. 前記入力イメージは複数個のトレーニングイメージを含み、
    前記複数個のトレーニングイメージそれぞれに第1分割領域ないし第k分割領域に対応する第1位置情報ないし第k位置情報がある状態で、前記入力イメージは、前記第1位置情報の相対的な偏差ないし前記第k位置情報の相対的な偏差のうち少なくとも一部それぞれが少なくとも一つの予め設定された閾値以下である特定のトレーニングイメージを含むように選択されることを特徴とする請求項9に記載の学習装置。
  13. 前記(II)プロセスは、
    前記グリッドセルのそれぞれの形と大きさはいずれも同一であることを特徴とする請求項9に記載の学習装置。
  14. 前記入力イメージは道路走行状況を示したイメージであり、前記学習装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする請求項9に記載の学習装置。
  15. グリッドセル(Grid Cell)ごとに複数個の重み付けコンボリューションフィルタ(Weighted Convolution Filter)それぞれを利用してイメージをセグメンテーションするテスト装置において、
    インストラクションを格納する少なくとも一つのメモリと、
    (1)(i)学習装置が、CNN(Convolutional Neural Network)モジュールのエンコードレイヤをもって、少なくとも一つのトレーニングイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用エンコード済み特徴マップを生成させ、(ii)前記学習装置が、前記CNNモジュールのデコードレイヤをもって、前記エンコードレイヤから出力された特定の学習用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つの学習用デコード済み特徴マップを生成させ、(2)前記デコードレイヤから出力された特定の学習用デコード済み特徴マップが少なくとも一つの予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記学習装置が、前記CNNモジュールの重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定の学習用デコード済み特徴マップに対して前記重み付けコンボリューションレイヤの重み付けコンボリューション演算を少なくとも一回適用させることで学習用セグメンテーション結果を出力させ、(3)前記学習装置が、前記セグメンテーション結果とそれに対応する原本正解とを参照して取得されたセグメンテーションロスを利用して、バックプロパゲーション(Backpropagation)を遂行して前記グリッドセルごとの前記重み付けコンボリューションフィルタそれぞれを学習した状態で、(I)(i)前記CNNモジュールの前記エンコードレイヤをもって、少なくとも一つのテストイメージに対してコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用エンコード済み特徴マップを生成させ、(ii)前記CNNモジュールの前記デコードレイヤをもって、前記エンコードレイヤから出力された特定のテスト用エンコード済み特徴マップに対してデコンボリューション演算を少なくとも一回適用させて少なくとも一つのテスト用デコード済み特徴マップを生成させるプロセス、(II)前記デコードレイヤから出力された特定のテスト用デコード済み特徴マップが少なくとも一つの前記予め設定された基準に従って複数個の前記グリッドセルに区画されると、前記CNNモジュールの前記重み付けコンボリューションレイヤをもって、前記重み付けコンボリューションフィルタそれぞれを前記グリッドセルそれぞれに対応するように設定させ、前記デコードレイヤから出力された前記特定のテスト用デコード済み特徴マップに対して重み付けコンボリューション演算を少なくとも一回適用させることで、テスト用セグメンテーション結果を出力させるプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
    を含むことを特徴とするテスト装置。
  16. 前記テストイメージは道路走行状況を示したイメージであり、前記テスト装置は、道路走行の際にフリースペース(Free Space)検出のために使用されることを特徴とする請求項15に記載のテスト装置。
JP2019239382A 2019-01-22 2019-12-27 自律走行自動車のレベル4を満たすために領域のクラスに応じてモードを切り換えてグリッドセルごとに重み付けコンボリューションフィルタを利用した監視用イメージセグメンテーション方法及び装置、並びにそれを利用したテスト方法及びテスト装置 Active JP6810415B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/254,448 US10325371B1 (en) 2019-01-22 2019-01-22 Method and device for segmenting image to be used for surveillance using weighted convolution filters for respective grid cells by converting modes according to classes of areas to satisfy level 4 of autonomous vehicle, and testing method and testing device using the same
US16/254,448 2019-01-22

Publications (2)

Publication Number Publication Date
JP2020119521A JP2020119521A (ja) 2020-08-06
JP6810415B2 true JP6810415B2 (ja) 2021-01-06

Family

ID=66826060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019239382A Active JP6810415B2 (ja) 2019-01-22 2019-12-27 自律走行自動車のレベル4を満たすために領域のクラスに応じてモードを切り換えてグリッドセルごとに重み付けコンボリューションフィルタを利用した監視用イメージセグメンテーション方法及び装置、並びにそれを利用したテスト方法及びテスト装置

Country Status (5)

Country Link
US (1) US10325371B1 (ja)
EP (1) EP3686792A1 (ja)
JP (1) JP6810415B2 (ja)
KR (1) KR102296509B1 (ja)
CN (1) CN111462129B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10387740B2 (en) * 2016-10-10 2019-08-20 Gyrfalcon Technology Inc. Object detection and recognition apparatus based on CNN based integrated circuits
US11328430B2 (en) * 2019-05-28 2022-05-10 Arizona Board Of Regents On Behalf Of Arizona State University Methods, systems, and media for segmenting images
CN110633706B (zh) * 2019-08-02 2022-03-29 杭州电子科技大学 一种基于金字塔网络的语义分割方法
CN110807463B (zh) * 2019-09-17 2022-10-11 珠海格力电器股份有限公司 图像分割方法、装置、计算机设备和存储介质
CN110726813B (zh) * 2019-10-12 2021-04-27 浙江大学 基于双层集成神经网络的电子鼻预测方法
CN111160230B (zh) * 2019-12-27 2023-06-06 清华大学苏州汽车研究院(吴江) 一种基于深度学习的道路不规则区域检测网络
CN111860155B (zh) * 2020-06-12 2022-04-29 华为技术有限公司 一种车道线的检测方法及相关设备
TWI755214B (zh) * 2020-12-22 2022-02-11 鴻海精密工業股份有限公司 區分物件的方法、電腦裝置及儲存介質
CN112651407B (zh) * 2020-12-31 2023-10-20 中国人民解放军战略支援部队信息工程大学 一种基于区分性反卷积的cnn可视化方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3881946B2 (ja) * 2002-09-12 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
JP5506274B2 (ja) * 2009-07-31 2014-05-28 富士フイルム株式会社 画像処理装置及び方法、データ処理装置及び方法、並びにプログラム
JP6393058B2 (ja) * 2014-03-31 2018-09-19 キヤノン株式会社 情報処理装置、情報処理方法
US10373019B2 (en) * 2016-01-13 2019-08-06 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
US20170206434A1 (en) * 2016-01-14 2017-07-20 Ford Global Technologies, Llc Low- and high-fidelity classifiers applied to road-scene images
US10706348B2 (en) * 2016-07-13 2020-07-07 Google Llc Superpixel methods for convolutional neural networks
WO2018033156A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 视频图像的处理方法、装置和电子设备
GB201616095D0 (en) * 2016-09-21 2016-11-02 Univ Oxford Innovation Ltd A neural network and method of using a neural network to detect objects in an environment
US10424064B2 (en) * 2016-10-18 2019-09-24 Adobe Inc. Instance-level semantic segmentation system
US10157441B2 (en) * 2016-12-27 2018-12-18 Automotive Research & Testing Center Hierarchical system for detecting object with parallel architecture and hierarchical method thereof
WO2018138603A1 (en) * 2017-01-26 2018-08-02 Semiconductor Energy Laboratory Co., Ltd. Semiconductor device and electronic device including the semiconductor device
US10325166B2 (en) * 2017-04-13 2019-06-18 Here Global B.V. Method, apparatus, and system for a parametric representation of signs
US10824938B2 (en) * 2017-04-24 2020-11-03 Intel Corporation Specialized fixed function hardware for efficient convolution
US10402995B2 (en) * 2017-07-27 2019-09-03 Here Global B.V. Method, apparatus, and system for real-time object detection using a cursor recurrent neural network
CN108022238B (zh) * 2017-08-09 2020-07-03 深圳科亚医疗科技有限公司 对3d图像中对象进行检测的方法、计算机存储介质和系统
US10753997B2 (en) * 2017-08-10 2020-08-25 Siemens Healthcare Gmbh Image standardization using generative adversarial networks
US11227108B2 (en) * 2017-09-11 2022-01-18 Nec Corporation Convolutional neural network architecture with adaptive filters
CN110838124B (zh) * 2017-09-12 2021-06-18 深圳科亚医疗科技有限公司 用于分割具有稀疏分布的对象的图像的方法、系统和介质
US10095977B1 (en) * 2017-10-04 2018-10-09 StradVision, Inc. Learning method and learning device for improving image segmentation and testing method and testing device using the same
CN108734713A (zh) * 2018-05-18 2018-11-02 大连理工大学 一种基于多特征图的交通图像语义分割方法

Also Published As

Publication number Publication date
JP2020119521A (ja) 2020-08-06
KR102296509B1 (ko) 2021-09-02
CN111462129A (zh) 2020-07-28
US10325371B1 (en) 2019-06-18
EP3686792A1 (en) 2020-07-29
KR20200091317A (ko) 2020-07-30
CN111462129B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
JP6810415B2 (ja) 自律走行自動車のレベル4を満たすために領域のクラスに応じてモードを切り換えてグリッドセルごとに重み付けコンボリューションフィルタを利用した監視用イメージセグメンテーション方法及び装置、並びにそれを利用したテスト方法及びテスト装置
JP6923960B2 (ja) 自動駐車システムを提供するために決定地点間の関係及び決定地点に対するリグレッション結果を利用して駐車スペースを検出する学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置
JP6886202B2 (ja) 仮想走行の環境で使用されるドメイン適応に適用され得るganを利用して、リアル特徴マップと同一または類似する特性を有するバーチャル特徴マップを生成する学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
KR102313119B1 (ko) 자율주행 자동차의 레벨 4를 충족시키기 위해 요구되는 hd 맵 업데이트에 이용될 적어도 하나의 어댑티브 로스 가중치 맵을 이용한 어텐션 드리븐 이미지 세그먼테이션 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
JP6895693B2 (ja) レーンマスク(Lane Mask)を使用して後処理なしに入力イメージに含まれた一つ以上の車線を検出する方法及び装置、並びにそれを利用したテスト方法及びテスト装置{METHOD AND DEVICE FOR LANE DETECTION WITHOUT POST−PROCESSING BY USING LANE MASK, AND TESTING METHOD, AND TESTING DEVICE USING THE SAME}
JP2020126607A (ja) カメラから取得されたイメージと、それに対応するレーダまたはライダを通じて取得されたポイントクラウドマップをニューラルネットワークのそれぞれのコンボリューションステージごとに統合する学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
JP7092383B2 (ja) 各領域において最適化された自律走行を遂行できるように位置基盤アルゴリズムの選択によってシームレスパラメータ変更を遂行する方法及び装置
JP6850037B2 (ja) 自律走行状況で、障害物検出のためのcnn学習用イメージデータセットの生成方法及びコンピューティング装置
CN111461325B (zh) 一种用于稀疏奖励环境问题的多目标分层强化学习算法
JP6916548B2 (ja) 自律走行自動車のレベル4を満たすために必要なhdマップとのコラボレーションを支援するエンベディングロス及びソフトマックスロスを利用して少なくとも一つの車線を有するイメージをセグメンテーションする学習方法及び学習装置、並びにそれを利用したテスト方法及びテスト装置
US10872297B2 (en) Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same
JP6856904B2 (ja) 物体のスケールに応じてモード転換が可能なcnn基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
JP2020038666A (ja) 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置
JP6856906B2 (ja) 自律走行車両レベル4を満たすために領域のクラスに応じてモードを切り換えるためにグリッド生成器を利用するニューラルネットワーク演算方法及びこれを利用した装置
JP6856852B2 (ja) 横フィルタマスクを利用して自律走行車の走行経路を計画するために車線要素を検出する方法及び装置
JP6864891B2 (ja) 自律走行車両レベル4を満たすために領域のクラスに応じてモードを切り換えるためにグリッド生成器を利用するニューラルネットワーク演算方法及びこれを利用した装置
US10339424B1 (en) Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles
CN116704461A (zh) 基于激光点云的地面检测方法、系统及计算机可读介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201202

R150 Certificate of patent or registration of utility model

Ref document number: 6810415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250