JP6752855B2 - 映像イメージをセグメンテーションする方法及びこれを利用した装置 - Google Patents

映像イメージをセグメンテーションする方法及びこれを利用した装置 Download PDF

Info

Publication number
JP6752855B2
JP6752855B2 JP2018189175A JP2018189175A JP6752855B2 JP 6752855 B2 JP6752855 B2 JP 6752855B2 JP 2018189175 A JP2018189175 A JP 2018189175A JP 2018189175 A JP2018189175 A JP 2018189175A JP 6752855 B2 JP6752855 B2 JP 6752855B2
Authority
JP
Japan
Prior art keywords
frame
image
segmentation
cnn
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018189175A
Other languages
English (en)
Other versions
JP2019071056A (ja
Inventor
キム、ヨンジョン
ナム、ウンユン
ボ、シュクフン
シュン、ミュンチュル
エオ、ドンフン
リュウ、ウージュ
ジャン、タエウォン
ジョン、キュンジョン
ジェ、ホンモ
チョ、ホジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2019071056A publication Critical patent/JP2019071056A/ja
Application granted granted Critical
Publication of JP6752855B2 publication Critical patent/JP6752855B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は映像イメージをセグメンテーションする方法及びこれを利用したセグメンテーション装置に関し、より詳細には、(a)(i)t−(i+1)フレームで学習された少なくとも一つの第1重み付け値を有するCNNであるCNN_PREVIOUSを利用してtフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第1セグメンテーションイメージを獲得するプロセス、前記第1セグメンテーションイメージの各々のピクセルからt−1フレームに対するセグメンテーションイメージないしt−iフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むt−1フレームでt−iフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、前記オプティカルフローイメージを参照して、前記tフレームに対する第1セグメンテーションイメージの少なくとも一部のピクセルを含む第1ピクセルを前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第2ピクセルに置換して前記tフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行するか遂行するように支援する段階;及び(b)前記第1セグメンテーションイメージと前記ワーピングイメージ各々とを参照してロス値を獲得するプロセス、前記獲得されたロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSの前記第1重み付け値を調整することで獲得される少なくとも一つの第2重み付け値を有するCNNであるCNN_CURRENTを獲得するプロセス、前記CNN_CURRENTを利用して、前記tフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行するか遂行するように支援する段階;を含むことを特徴とする方法及びこれを利用するセグメンテーション装置に関する。
ディープコンボリューションニューラルネットワーク(Deep Convolution Neural Networks;DeepCNN)はディープラーニング分野で起きた驚くべき発展の核心である。CNNsは文字認識問題を解くために90年代に既に使用されていたが、現在のように広く使用されるようになったのは最近の研究結果のおかげである。このようなディープCNNは2012年ImageNetイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そうして、コンボリューションニューラルネットワークはMachine Learning分野で非常に有用なツールとなった。
イメージセグメンテーションは入力されるイメージ内に位置する関心物体、一例として、自動車、人、道路、空、建物などを分割してラベルイメージを作り上げる方法である。最近ディープラーニング技術が脚光を浴びながら、イメージセグメンテーションもディープラーニングを多く使用する趨勢である。
かかるディープラーニングを利用した従来のイメージセグメンテーションは、トレーニングイメージにCNNの多重コンボリューションレイヤを利用して複数回のコンボリューション演算を加えることで特徴マップを生成し、特徴マップにCNNの多重デコンボリューションレイヤを利用して複数回のデコンボリューション演算を遂行することでラベルイメージを生成して、獲得された前記ラベルイメージと前記トレーニングイメージのGT(GroundTruth)を比較分析してロス値を獲得し、獲得されたロス値を利用してデコンボリューションレイヤとコンボリューションレイヤを学習する過程である。そして、学習されたコンボリューションレイヤと学習されたデコンボリューションレイヤを利用して入力されるテストイメージ内に位置する関心物体に対するラベルイメージを獲得するようになる。
しかし、かかる従来のイメージセグメンテーション方法はトレーニングイメージを通じて学習されたパラメータを有するCNNを利用して入力されるテストイメージをセグメンテーションするものである。従って、学習に用いられたトレーニングイメージと環境の差が多く出るテストイメージをセグメンテーションする時にはセグメンテーション結果が不正確であるという問題点があった。一例として、イメージ上に位置する道路をセグメンテーションしようとする場合、国別に道路の形態が異なる可能性があり、かかる特定状況に対する学習がなされないと道路を正確にセグメンテーションするのに失敗する場合がある。
前述のように、従来のイメージセグメンテーション方法はセグメンテーションをするためのテストイメージが獲得される環境に関係なく予め学習されたCNNを利用してテストイメージをセグメンテーションした。そのため、従来の方法はセグメンテーションのためのテストイメージが獲得される環境の変化に適応できない問題点があった。
本発明は前記のようなすべての問題点を解決することを目的とする。
本発明はイメージが獲得される環境に関係なく正確にセグメンテーションを遂行できるようにする映像イメージセグメンテーション方法及びこれを利用したセグメンテーション装置を提供することを他の目的とする。
本発明はイメージが獲得される多様な環境に対応したリアルタイム学習を通じて正確にセグメンテーションを遂行できるようにする映像イメージセグメンテーション方法及びこれを利用したセグメンテーション装置を提供することをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。
本発明の一態様によれば、CNN(Convolutional neural network)を利用して映像イメージをセグメンテーションする方法において、(a)セグメンテーション装置が、(i)t−(i+1)フレームで学習された少なくとも一つの第1重み付け値を有するCNNであるCNN_PREVIOUSを利用してtフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第1セグメンテーションイメージを獲得するプロセス、(ii)前記第1セグメンテーションイメージの各々のピクセルからt−1フレームに対するセグメンテーションイメージないしt−iフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むt−1フレームでt−iフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、(iii)前記オプティカルフローイメージを参照して、前記tフレームに対する第1セグメンテーションイメージの少なくとも一部のピクセルを含む第1ピクセルを前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第2ピクセルに置換して前記tフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行するか遂行するように支援する段階;及び(b)前記セグメンテーション装置が、(i)前記第1セグメンテーションイメージと前記ワーピングイメージ各々を参照してロス値を獲得するプロセス、(ii)前記獲得されたロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSの前記第1重み付け値を調整することで獲得される少なくとも一つの第2重み付け値を有するCNNであるCNN_CURRENTを獲得するプロセス、(iii)前記CNN_CURRENTを利用して、前記tフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行するか遂行するように支援する段階;を含むことを特徴とする方法が提供される。
一例として、前記(b)段階で、前記セグメンテーション装置は、(i)前記CNN_CURRENTを利用して前記tフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第2セグメンテーションイメージを獲得するか、(ii)少なくとも一つのワーピングイメージを前記tフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とする。
一例として、前記一実施例によれば、前記セグメンテーション装置は、i+1フレーム周期で前記(a)段階及び前記(b)段階を遂行するか遂行するように支援することを特徴とする。
一例として、前記一実施例によれば、前記(b)段階で、前記セグメンテーション装置は、前記ロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をする時に、前記ロス値に対する重み付け値を互いに異なるように割り当てるか割り当てるように支援することを特徴とする。
一例として、前記一実施例によれば、前記セグメンテーション装置は、ワーピングイメージのうち前記t−1フレームを利用して獲得した特定ワーピングイメージに対応する前記ロス値のうち特定ロス値に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とする方法が提供される。
一例として、前記一実施例によれば、前記(b)段階で、前記セグメンテーション装置は、前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をして前記CNN_CURRENTを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記CNN_PREVIOUSの調整値を前記第1重み付け値に適用して前記第2重み付け値を獲得するか獲得するように支援し、前記第1重み付け値に適用される前記調整値の各々の量はその対応する比率を参照して決定することを特徴とする方法が提供される。
一例として、前記一実施例によれば、前記(a)段階で、前記セグメンテーション装置は、前記オプティカルフローイメージを各々獲得する時に、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第1セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とする方法が提供される。
本発明のまた他の態様によれば、CNN(Convolutional neural network)を利用して入力される映像イメージをセグメンテーションするセグメンテーション装置において、入力される映像のフレームでの映像イメージを獲得するか獲得するように支援する通信部;及び(i)t−(i+1)フレームで学習された少なくとも一つの第1重み付け値を有するCNNであるCNN_PREVIOUSを利用してtフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第1セグメンテーションイメージを獲得するプロセス、(ii)前記第1セグメンテーションイメージの各々のピクセルからt−1フレームに対するセグメンテーションイメージないしt−iフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むt−1フレームでt−iフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、(iii)前記オプティカルフローイメージを参照して、前記tフレームに対する第1セグメンテーションイメージの少なくとも一部のピクセルを含む第1ピクセルを前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第2ピクセルに置換して前記tフレームに対する少なくとも一つのワーピングイメージを獲得するプロセス、(iv)前記第1セグメンテーションイメージと前記ワーピングイメージ各々を参照してロス値を獲得するプロセス、(v)前記獲得されたロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSの前記第1重み付け値を調整することで獲得される少なくとも一つの第2重み付け値を有するCNNであるCNN_CURRENTを獲得するプロセス、(vi)前記CNN_CURRENTを利用して、前記tフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセス;を遂行するか遂行するように支援するプロセッサ;を含むセグメンテーション装置が提供される。
一例として、前記(iv)と(v)プロセスで、(i)前記CNN_CURRENTを利用して前記tフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第2セグメンテーションイメージを獲得するか、(ii)少なくとも一つのワーピングイメージを前記tフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とするセグメンテーション装置が提供される。
一例として、前記一実施例によれば、前記プロセッサは、i+1フレーム周期で前記(i)プロセスないし前記(vi)プロセスを遂行するか遂行するように支援することを特徴とするセグメンテーション装置が提供される。
一例として、前記一実施例によれば、前記(v)プロセスで、前記ロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をする時に、前記ロス値に対する重み付け値を互いに異なるように割り当てるか割り当てるように支援することを特徴とするセグメンテーション装置が提供される。
一例として、前記一実施例によれば、前記プロセッサはワーピングイメージのうち前記t−1フレームを利用して獲得した特定ワーピングイメージに対応する前記ロス値のうち特定ロス値に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とするセグメンテーション装置が提供される。
一例として、前記一実施例によれば、前記(v)プロセスで、前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をして前記CNN_CURRENTを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記CNN_PREVIOUSの調整値を前記第1重み付け値に適用して前記第2重み付け値を獲得するか獲得するように支援し、前記第1重み付け値に適用される前記調整値の各々の量はその対応する比率を参照して決定することを特徴とするセグメンテーション装置が提供される。
一例として、前記一実施例によれば、前記プロセッサは、前記(ii)プロセスで、前記オプティカルフローイメージを各々獲得する時に、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第1セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とするセグメンテーション装置が提供される。
この他にも、本発明の方法を実行するためのコンピュータプログラムを記録するためのコンピュータで判読可能な記録媒体がさらに提供される。
本発明によれば、次のような効果がある。
本発明はCNNをリアルタイム学習をすることでセグメンテーションのためのイメージが獲得される環境に関係なくさらに正確にイメージをセグメンテーションすることができるようになる。
本発明の実施例の説明に利用されるために添付された下記図面は本発明の実施例のうち単に一部に過ぎず、本発明が属する技術分野で通常の知識を有する者(以下”通常の技術者”)においては発明的作業がなされることなく本図面に基づいて他の図面が得られることがある。
図1は、本発明の一実施例によって映像イメージをセグメンテーションするシステムを概略的に示したものである。 図2は、本発明の一実施例によって映像イメージをセグメンテーションする方法を概略的に示したものである。 図3は、本発明の一実施例によって映像イメージをセグメンテーションするCNN(Convolutional neural network)を概略的に示したものである。 図4は、本発明の一実施例によって映像イメージをセグメンテーションする方法でオプティカルフローイメージを獲得する過程を概略的を示したものである。 図5は、本発明の一実施例によって映像イメージをセグメンテーションする方法でワーピングイメージを獲得する状態を概略的に示したものである。 図6は、本発明の一実施例によって映像イメージをセグメンテーションする方法でCNNをリアルタイム学習をする状態を概略的に示したものである。
後述する本発明に対する詳細な説明は、本発明の目的、技術的解法及び長点を明らかにさせるために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は通常の技術者が本発明を実施することができるように充分詳細に説明される。
また、本発明の詳細な説明及び請求項にかけて、’含む’という単語及びその変形は他の技術的特徴、付加物、構成要素または段階を除くものとして意図されたものではない。通常の技術者に本発明の他の目的、長点及び特性が一部は本説明書から、そして一部は本発明の実施から明らかになる。下記の例示及び図面は実例として提供され、本発明を限定するものとして意図されたものではない。
さらに、本発明は本明細書に表示された実施例のすべての可能な組み合わせを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一実施例にかかる本発明の精神及び範囲を逸脱せずに他の実施例で具現され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されると、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号は様々な側面にかけて同一か類似する機能を指称する。
以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面を参照して詳細に説明することとする。
まず、図1は本発明の一実施例によって映像イメージをセグメンテーションするシステムを概略的に示したものである。
図1を参照すれば、前記システムはビジョンセンサ10とセグメンテーション装置1000が含まれ得る。
前記ビジョンセンサ10は周辺映像を撮影するものであり、CCD(charge coupled device)、CMOS(complementary metal oxide semiconductor)、またはイメージキャプチャ装置などが含まれ得る。
この時、図1では前記ビジョンセンサ10、例えばカメラは、前記セグメンテーション装置1000と通信するものとして示した。しかし、前記ビジョンセンサ10は場合によって前記セグメンテーション装置1000に含まれている場合もある。
そして、前記セグメンテーション装置1000は前記ビジョンセンサ10から獲得された入力イメージをCNNを利用してセグメンテーションし、セグメンテーションの結果を参照して前記CNNをリアルタイム学習をして、リアルタイム学習されたCNNを利用して新たなイメージをセグメンテーションするプロセスを遂行し得る。
また、前記セグメンテーション装置1000は前記ビジョンセンサ10から入力される各々のフレームでの映像イメージを獲得する通信部100と、前記通信部100から受けた前記映像イメージをセグメンテーションし、前記セグメンテーション結果を参照して前記CNNを学習して、学習されたCNNを利用して入力される前記新たな映像イメージをセグメンテーションするプロセッサ200が含まれ得る。
この時、前記プロセッサ200の動作状態をもう少し具体的に説明すれば、(i)t−(i+1)フレームで学習された少なくとも一つの第1重み付け値を有するCNNであるCNN_PREVIOUSを利用してtフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第1セグメンテーションイメージを獲得するプロセス、(ii)前記第1セグメンテーションイメージの各々のピクセルからt−1フレームに対するセグメンテーションイメージないしt−iフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むt−1フレームでt−iフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、(iii)前記オプティカルフローイメージを参照して、前記tフレームに対する第1セグメンテーションイメージの少なくとも一部のピクセルを含む第1ピクセルを前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第2ピクセルに置換して前記tフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行し得る。ここで、そして以後に使用される’ピクセル’という用語は’ピクセル値’を意味し得る。
即ち、前記プロセッサ200は(1)前記tフレームから前記t−1フレームへの前記オプティカルフローイメージの少なくとも一部ピクセルを前記t−1フレームに対する前記セグメンテーションイメージの少なくとも一部ピクセルに置換することで前記t−1フレームに対するセグメンテーションイメージに対応する前記tフレームに対するワーピングイメージを獲得し得て、(2)前記tフレームから前記t−iフレームへの前記オプティカルフローイメージの少なくとも一部ピクセルを前記t−iフレームに対する前記セグメンテーションイメージの少なくとも一部ピクセルに置換することで前記t−iフレームに対するセグメンテーションイメージに対応する前記tフレームに対するワーピングイメージを獲得し得る。参考までに、前記t−1フレームと前記t−iフレーム間の残りのフレームに対する説明は省略する。
以後、前記プロセッサ200は(i)前記第1セグメンテーションイメージと前記ワーピングイメージ各々を比較してロス値を獲得するプロセス、(ii)前記獲得されたロス値を利用して前記CNN_PREVIOUSの前記第1重み付け値を調整、一例として、前記CNN_previousを現在フレームである前記tフレームでリアルタイム学習をしてパラメータを調整することで獲得される少なくとも一つの第2重み付け値を有するCNNであるCNN_CURRENTを獲得するプロセス、(iii)前記CNN_CURRENTを利用して、前記tフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行し得る。
このように構成された本発明の一実施例によって前記映像イメージをセグメンテーションする方法を図2を参照してより詳細に説明すれば次のとおりである。
前記ビジョンセンサ10によって撮影される映像が伝送されると、前記セグメンテーション装置1000の前記通信部100は前記映像データの各々のフレームでの各々の映像イメージを獲得し得る。この時、前記ビジョンセンサ10は自動車に設置されて移動されるか他の運送手段によって移動され得て、移動中に周辺環境の映像イメージを伝送し得る。
前記通信部100を通じて前記映像データが獲得されると(S210)、前記セグメンテーション装置1000の前記プロセッサ200は前記t−(i+1)フレームで学習された前記第1重み付け値を有するCNNである前記CNN_PREVIOUSを利用して前記tフレームの前記映像イメージをセグメンテーションし(S220)前記tフレームに対する前記第1セグメンテーションイメージを獲得し得る(S230)。
そして、前記映像イメージを前記CNNを利用してセグメンテーションする一例を図3を参照してもう少し具体的に説明すれば、CNNの複数個のコンボリューションレイヤであるCONV.1、CONV.2、CONV.Nをもって前記映像イメージに順次複数回のコンボリューション演算を遂行するようにして少なくとも一つの特徴マップが生成される。この時、前記複数個のコンボリューションレイヤの数は所望する分だけ大きくなり得る。
それから、CNNの複数個のデコンボリューションレイヤであるDECONV.N、DECONV.2、DECONV.1をもって最終的に生成された特徴マップに複数回のデコンボリューション演算を順次遂行するようにして各々の関心物体に対する各々のラベルイメージが獲得される。この時、前記複数個のデコンボリューションレイヤの数は所望する分だけ大きくなり得る。
この時、コンボリューション演算でイメージをエンコーディングして特徴マップを生成し、生成された特徴マップをデコーディングしてラベルイメージを獲得する構造をエンコーディング−デコーディングネットワーク、またはU−Netと言う。前記エンコーディング過程で各コンボリューション演算を遂行するたびに演算量を減らすために前記イメージのサイズが1/2に減り、増えたチャネルを通じて複雑なパターンを得るためにイメージのチャネル数は2倍に増加し得る。その結果、前記サイズが減った特徴マップは高周波領域が多く除去されて低周波領域寄りで含まれ得る。かかる低周波領域はイメージの意味のある(meaningful)部分、即ち、空、道路、建物、自動車などを示し、かかる意味のある部分にデコンボリューション演算、即ち、デコーディング演算を加えて各々のラベルイメージとして類推するようになる。前記関心物体に対応する各々の前記ラベルイメージを前記入力イメージ上の対応領域に配置することでセグメンテーションイメージを獲得し得る。場合によって特定関心物体に対応されるラベルイメージのみを含むセグメンテーションイメージを獲得する場合もある。
前記図3を参照して説明した過程は前記CNNを利用してセグメンテーションする過程を例示的に説明するためのものに過ぎず、本発明での前記CNNを利用してセグメンテーションする過程がこれに限定されるものではない。
再び、図2を参照すれば、前記プロセッサ200は各々の前記t−1ないしt−iフレームに対応する各々のオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得し得るが、前記オプティカルフローイメージには前記CNN_PREVIOUSを利用して獲得された前記第1セグメンテーションイメージの各々のピクセルから前記t−1フレームないし前記t−iフレームに対するセグメンテーションイメージのうち一部の対応する各ピクセルへのオプティカルフロー情報が含まれている(S240)。
即ち、図4のように、前記プロセッサ200は前記tフレームないし前記t−1フレームでの客体の動きを確認するために、tフレームからt−1フレームへのオプティカルフローイメージを獲得し得る。また、前記プロセッサ200はt−2フレームないしt−iフレーム各々に対応する各々のオプティカルフローイメージを獲得し得るが、前記オプティカルフローイメージには前記第1セグメンテーションイメージのピクセルからt−2フレームないしt−iフレームに対する各セグメンテーションイメージの対応されるピクセルへのオプティカルフロー情報が含まれ得る。
この時、iは1以上の整数であり、本発明の一実施例によって前記CNNをリアルタイム学習をするための周期はi+1フレーム周期に設定し得る。また、オプティカルフローイメージはリアルタイム学習を遂行するために所望の個数分獲得され得る。一例として、各々の前記オプティカルフローイメージを(i)前記t−1フレームないし前記t−iフレームに対するセグメンテーションイメージすべてに対応して各々獲得するか、(ii)前記t−1フレームないし前記t−iフレームのうち少なくとも一つの特定フレームに対する各々のセグメンテーションイメージに対応して獲得し得る。また、他の例として、CNNをi+1フレーム周期で前記CNNをリアルタイム学習をし、前記tフレームのイメージが獲得された環境と最も類似する前記t−1フレームに対してのみセグメンテーションイメージに対応するオプティカルフローイメージが獲得され得る。これは前記t−1フレームの物体が前記tフレームと比較して最も少ない動きを示したことを意味する。
また、前記オプティカルフローイメージを各々獲得する時に、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第1セグメンテーションイメージに現われると、前記プロセッサ200は前記新たな物体を背景として処理するか、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在する特定物体に決定し得る。一例として、前記第1セグメンテーションイメージ内に遠距離の第1建物が現われたら、前記プロセッサ200は前記第1建物が前記t−iフレームに対する前記セグメンテーションイメージ内に遠距離の第2建物となるオプティカルフローに対する情報を生成し得る。
次に、前記プロセッサ200は前記オプティカルフローイメージを参照して前記第1ピクセルを前記第2ピクセルに置換することで前記tフレームに対するワーピングイメージを獲得し得る(S250)。
即ち、前記プロセッサ200は前記オプティカルフローイメージを参照して前記tフレームに対するセグメンテーションイメージのどのピクセルがt−1フレームないしt−iフレームに対する各々のセグメンテーションイメージのどのピクセルと対応するか分かり得る。そのため、図5のように、オプティカルフローイメージに含まれたオプティカルフロー情報を利用して前記tフレームに対するセグメンテーションイメージの各々のピクセル値を前記t−1フレームないし前記t−iフレームに対する各々のセグメンテーションイメージのうち少なくとも一部の対応されるピクセル値に設定するために、前記プロセッサ200は前記tフレームに対する前記第1セグメンテーションイメージの少なくとも一部のピクセルをt−1フレームないしt−iフレームの少なくとも一部のセグメンテーションイメージのうち少なくとも一部のピクセルに置換して前記tフレームに対するワーピングイメージを獲得し得る(S250)。この時、前記ワーピングイメージはtフレームでのイメージに対するGTイメージとしての機能をし得る。
これをもう少し具体的に説明すれば次のとおりである。
一般的にCNNを学習する時に、トレーニングイメージをCNNのFCレイヤに入力して出力される結果値と前記トレーニングイメージから獲得したGTイメージを比較してロス値を獲得し、獲得されたロス値を参照してCNNのパラメータを学習するようになる。
しかし、映像イメージ、即ち動く車両から見た場面を、リアルタイムで前記学習されたCNNに入力すると、前記イメージに対するGTイメージを獲得することができないので、いわゆるリアルタイム学習は不可能になる。勿論、ユーザがリアルタイムで前記映像イメージに対するGTを設定するとリアルタイム学習が可能になる。しかし、ユーザが各々のフレームに対するGT情報を入力するにおいて所定の時間が所要されるので、各々のフレームに対するGT情報をリアルタイムで入力するには限界がある。従来のCNNと異なり、本発明の一実施例にかかる前記CNNはCNN学習に必要なGTイメージを前記ワーピングイメージを利用して獲得するので、前記ワーピングイメージを利用してリアルタイムで学習することができるようになる。
従って、現在フレームである前記tフレームでのリアルタイム学習のために、前記プロセッサ200は前記tフレームに対する前記第1セグメンテーションイメージとこれに対応するワーピングイメージ各々を比較してロス値を獲得し得る(S260)。
そして、前記プロセッサ200は前記ロス値のうち少なくとも一つを利用するリアルタイム学習を通じて前記第2重み付け値を有する前記CNN_CURRENTを獲得し得て(S270)、前記CNN_CURRENTを利用してtフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションし得る。
この時、前記CNN_PREVIOUSを現在フレームでリアルタイム学習をして前記CNN_CURRENTを獲得する時に、前記プロセッサ200は前記ロス値のうち少なくとも一つを利用して学習した前記CNN_PREVIOUSの調整値(下の数式1で
Figure 0006752855

)を前記第1重み付け値(下の数式1でw(x1)1)に適用して前記CNN_CURRENTの前記第2重み付け値(下の数式1でw’(x1)1)を獲得し得るが、前記第1重み付け値に適用される前記調整値の各々の量は対応する比率を参照して決定する。
即ち、図6のように、多数のneuralレイヤから構成された前記CNNで、δ1のロス値を利用して前記CNNのf1(e)neuralレイヤの重み付け値であるw(x1)1、w(x2)1を各々w’(x1)1、w’(x2)1にアップデートさせ得る。
この時、w’(x1)1、w’(x2)1は次の数式1のように表され得る。
Figure 0006752855
前記数式1で、ηは重み付け値をどれくらい変化させるかを決定する少なくとも一つのパラメータである。本発明の一実施例では前記ηの値を非常に小さな値、例えば0.001ないし0.01に設定することで、前記第2重み付け値が前記第1重み付け値に対する若干の調整で決定されるようにして、これを通じて現在状況にリアルタイムで適応する重み付け値を有する前記CNNを具現し得る。この時、前記重み付け値の微細な変化は前記適応に役立つ。前記重み付け値が大きく変化するように設定されると、即ち調整値の適用の比率が増加すると、トレーニングイメージを利用した学習を通じて最適化されたCNNのパラメータがリアルタイム学習によって大きく変化するようになり、これはCNNの安定性を低下させ得る。
また、前記tフレームに対する前記第1セグメンテーションイメージとこれに対応するワーピングイメージ各々を比較して獲得した前記ロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSをリアルタイム学習をする場合、前記プロセッサ200は前記tフレームに対するワーピングイメージに対応する前記ロス値に対する重み付け値を互いに異なるように適用し得る。一例として、前記t−1フレームのセグメンテーションイメージに対応する重み付け値には最大の調整値が割り当てられ得る。前記重み付け値は前記t−iフレームにいくほどより小さくなる場合もあり、その反対の場合もある。他の例として、前記プロセッサ200は前記t−1フレームに対するセグメンテーションイメージに対応する前記tフレームのワーピングイメージを利用して計算したロス値の重み付け値を最大に設定し、他の重み付け値を互いに同一に設定し得る。即ち、前記プロセッサ200は前記t−1フレームに対するセグメンテーションイメージに対応される特定ロス値に重み付け値を最も大きく割り当てることで前記tフレームの映像イメージが獲得される場面の環境と類似する場面を利用してリアルタイム学習をするようにし得る。
このように前記ロス値に互いに異なる重み付け値を適用することと類似して、前記プロセッサ200は前記調整値に各々異なる重み付け値を適用し得る。即ち、前記プロセッサ200は前記数式1でのηをフレーム別に獲得された各々のロス値を利用してリアルタイム学習をする過程で互いに異なるように適用し得る。
以後、前記プロセッサ200はリアルタイム学習された前記第2重み付け値を有する前記CNN_CURRENTを利用して前記tフレームでの前記映像イメージをセグメンテーションすることで前記tフレームに対する第2セグメンテーションイメージを獲得するか、前記tフレームに対するワーピングイメージのうち少なくとも一つを前記tフレームでの映像イメージに対するセグメンテーションイメージに決定し得る。
即ち、前記tフレームに対するワーピングイメージは前記CNN_PREVIOUSを利用してセグメンテーションする場合、前記tフレームの映像イメージから出力されると期待されるGTイメージに対応されるイメージなので、前記tフレームに対するワーピングイメージを前記tフレームに対するセグメンテーションイメージと考えられ得るが、前記tフレームで新たに出現する物体に対するセグメンテーション情報は前記t−iフレームに対するセグメンテーションイメージに存在しないため、多少誤差があり得る。従って、前記tフレームで新たに出現する物体に対するセグメンテーション情報まで必要とする場合に、前記tフレームの映像イメージは前記第2セグメンテーションイメージを獲得するためにリアルタイム学習された前記CNN_CURRENTを利用して再びセグメンテーションされ得る。
前記の説明では前記セグメンテーション装置1000内に位置する前記プロセッサ200によって動作がなされるものとして説明したが、前記CNNを構成する各々のneuralレイヤが少なくとも一つの他のプロセッサで動作するように構成され得て、互いに異なるプロセッサは単一の装置内に位置するか互いに異なる装置に位置し得る。
また、以上で説明された本発明にかかる実施例は多様なコンピュータ構成要素を通じて遂行され得るプログラム命令語の形態で具現されてコンピュータで判読可能な記録媒体に記録され得る。前記コンピュータで判読可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独または組み合わせて含まれ得る。前記コンピュータで判読可能な記録媒体に記録されるプログラム命令語は本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto−optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は本発明にかかる処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成されることがあり、その逆も同様である。
以上、本発明が具体的な構成要素などのような特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野において通常の知識を有する者であればかかる記載から多様な修正及び変形が行なわれ得る。
従って、本発明の思想は前記説明された実施例に極限されて定められてはならず、後述する特許請求の範囲だけではなく、本特許請求の範囲と均等または等価的に変形されたすべてのものは本発明の思想の範疇に属するといえる。
10…ビジョンセンサ、100…通信部、200…プロセッサ、1000…セグメンテーション装置。

Claims (12)

  1. CNN(Convolutionalneuralnetwork)を利用して入力される映像イメージをセグメンテーションする方法において、
    (a)セグメンテーション装置が、(i)t−(i+1)フレーム、iは1以上の整数で学習された少なくとも一つの第1重み付け値を有するCNNであるCNN_PREVIOUSを利用してtフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第1セグメンテーションイメージを獲得するプロセス、(ii)前記第1セグメンテーションイメージの各々のピクセルからt−1フレームに対するセグメンテーションイメージないしt−iフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むt−1フレームないしt−iフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、(iii)前記オプティカルフローイメージを参照して、前記tフレームに対する第1セグメンテーションイメージの少なくとも一部のピクセルを含む第1ピクセルを前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第2ピクセルに置換して前記tフレームに対する少なくとも一つのワーピングイメージを獲得するプロセスを遂行するか遂行するように支援する段階;及び
    (b)前記セグメンテーション装置が、(i)前記第1セグメンテーションイメージと前記ワーピングイメージ各々とを参照してロス値を獲得するプロセス、(ii)前記獲得されたロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSの前記第1重み付け値を調整することで獲得される少なくとも一つの第2重み付け値を有するCNNであるCNN_CURRENTを獲得するプロセス、(iii)前記CNN_CURRENTを利用して、前記tフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセスを遂行するか遂行するように支援する段階;
    を含み、
    前記(b)段階で、
    前記セグメンテーション装置は、
    前記ロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をする時に、前記ロス値それぞれに対するそれぞれの重み付け値を割り当てるか割り当てるように支援することを特徴とする方法。
  2. 前記(b)段階で、
    前記セグメンテーション装置は、
    (i)前記CNN_CURRENTを利用して前記tフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第2セグメンテーションイメージを獲得するか、(ii)少なくとも一つのワーピングイメージを前記tフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とする請求項1に記載の方法。
  3. 前記セグメンテーション装置は、i+1フレーム周期で前記(a)段階及び前記(b)段階を遂行するか遂行するように支援することを特徴とする請求項1に記載の方法。
  4. 前記セグメンテーション装置は、
    前記ロス値のうち、ワーピングイメージのうち前記t−1フレームを利用して獲得した特定ワーピングイメージに対応する特定ロス値、に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とする請求項に記載の方法。
  5. 前記(b)段階で、
    前記セグメンテーション装置は、
    前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をして前記CNN_CURRENTを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記CNN_PREVIOUSの調整値を前記第1重み付け値に適用して前記第2重み付け値を獲得するか獲得するように支援し、前記第1重み付け値に適用される前記調整値の各々の量は前記第1重み付け値をどれくらい変化するかを決定するパラメータを用いて決定することを特徴とする請求項1に記載の方法。
  6. 前記(a)段階で、
    前記セグメンテーション装置は、
    前記オプティカルフローイメージを各々獲得する時に、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第1セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とする請求項1に記載の方法。
  7. CNN(Convolutionalneuralnetwork)を利用して入力される映像イメージをセグメンテーションするセグメンテーション装置において、
    入力される映像のフレームでの映像イメージを獲得するか獲得するように支援する通信部;及び
    (i)t−(i+1)フレーム、iは1以上の整数で学習された少なくとも一つの第1重み付け値を有するCNNであるCNN_PREVIOUSを利用してtフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第1セグメンテーションイメージを獲得するプロセス、(ii)前記第1セグメンテーションイメージの各々のピクセルからt−1フレームに対するセグメンテーションイメージないしt−iフレームに対するセグメンテーションイメージ各々に対応されるピクセルへのオプティカルフロー情報を含むt−1フレームないしt−iフレーム各々に対応されるオプティカルフローイメージのうち少なくとも一部のオプティカルフローイメージを獲得するプロセス、(iii)前記オプティカルフローイメージを参照して、前記tフレームに対する第1セグメンテーションイメージの少なくとも一部のピクセルを含む第1ピクセルを前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージのうち少なくとも一部のフレームの少なくとも一部ピクセルを含んだ第2ピクセルに置換して前記tフレームに対する少なくとも一つのワーピングイメージを獲得するプロセス、(iv)前記第1セグメンテーションイメージと前記ワーピングイメージ各々とを参照してロス値を獲得するプロセス、(v)前記獲得されたロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSの前記第1重み付け値を調整することで獲得される少なくとも一つの第2重み付け値を有するCNNであるCNN_CURRENTを獲得するプロセス、(vi)前記CNN_CURRENTを利用して、前記tフレームに後行するフレーム及び前記tフレームのうち少なくとも一つに対応する映像イメージをセグメンテーションするプロセス;を遂行するか遂行するように支援するプロセッサ;
    を含み、
    前記(v)プロセスで、
    前記ロス値のうち少なくとも一つを利用して前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をする時に、前記ロス値それぞれに対するそれぞれの重み付け値を割り当てるか割り当てるように支援することを特徴とするセグメンテーション装置。
  8. 前記プロセッサは、
    前記(iv)と(v)プロセスで、
    (i)前記CNN_CURRENTを利用して前記tフレームでの映像イメージをセグメンテーションすることで前記tフレームに対する第2セグメンテーションイメージを獲得するか、(ii)少なくとも一つのワーピングイメージを前記tフレームに対する修正されたセグメンテーションイメージとして獲得するか獲得するように支援することを特徴とする請求項に記載のセグメンテーション装置。
  9. 前記プロセッサは、i+1フレーム周期で前記(i)プロセスないし前記(vi)プロセスを遂行するか遂行するように支援することを特徴とする請求項に記載のセグメンテーション装置。
  10. 前記プロセッサは、
    前記ロス値のうち、ワーピングイメージのうち前記t−1フレームを利用して獲得した特定ワーピングイメージに対応する特定ロス値、に最大の重み付け値を割り当てるか割り当てるように支援することを特徴とする請求項に記載のセグメンテーション装置。
  11. 前記プロセッサは、
    前記(v)プロセスで、
    前記CNN_PREVIOUSを前記tフレームでリアルタイム学習をして前記CNN_CURRENTを獲得する時に、前記ロス値のうち少なくとも一つを利用して学習した前記CNN_PREVIOUSの調整値を前記第1重み付け値に適用して前記第2重み付け値を獲得するか獲得するように支援し、前記第1重み付け値に適用される前記調整値の各々の量は前記第1重み付け値をどれくらい変化するかを決定するパラメータを用いて決定することを特徴とする請求項に記載のセグメンテーション装置。
  12. 前記プロセッサは、
    前記(ii)プロセスで、
    前記オプティカルフローイメージを各々獲得する時に、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在していない新たな物体が前記第1セグメンテーションイメージに現われると、前記新たな物体を背景として処理するか、前記t−1フレームに対するセグメンテーションイメージないし前記t−iフレームに対するセグメンテーションイメージに存在する物体に決定するか決定するように支援することを特徴とする請求項に記載のセグメンテーション装置。
JP2018189175A 2017-10-05 2018-10-04 映像イメージをセグメンテーションする方法及びこれを利用した装置 Active JP6752855B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/725,374 US10089743B1 (en) 2017-10-05 2017-10-05 Method for segmenting an image and device using the same
US15/725,374 2017-10-05

Publications (2)

Publication Number Publication Date
JP2019071056A JP2019071056A (ja) 2019-05-09
JP6752855B2 true JP6752855B2 (ja) 2020-09-09

Family

ID=63517808

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018189175A Active JP6752855B2 (ja) 2017-10-05 2018-10-04 映像イメージをセグメンテーションする方法及びこれを利用した装置

Country Status (5)

Country Link
US (1) US10089743B1 (ja)
EP (1) EP3467772A1 (ja)
JP (1) JP6752855B2 (ja)
KR (1) KR102144346B1 (ja)
CN (1) CN109636803B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11551059B1 (en) * 2017-11-15 2023-01-10 Snap Inc. Modulated image segmentation
US10977802B2 (en) * 2018-08-29 2021-04-13 Qualcomm Incorporated Motion assisted image segmentation
US10300851B1 (en) * 2018-10-04 2019-05-28 StradVision, Inc. Method for warning vehicle of risk of lane change and alarm device using the same
US10311321B1 (en) * 2018-10-26 2019-06-04 StradVision, Inc. Learning method, learning device using regression loss and testing method, testing device using the same
US10373317B1 (en) * 2019-01-22 2019-08-06 StradVision, Inc. Learning method and learning device for attention-driven image segmentation by using at least one adaptive loss weight map to be used for updating HD maps required to satisfy level 4 of autonomous vehicles and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10890916B2 (en) * 2019-01-30 2021-01-12 StradVision, Inc. Location-specific algorithm selection for optimized autonomous driving
US10482584B1 (en) * 2019-01-31 2019-11-19 StradVision, Inc. Learning method and learning device for removing jittering on video acquired through shaking camera by using a plurality of neural networks for fault tolerance and fluctuation robustness in extreme situations, and testing method and testing device using the same
US11080861B2 (en) 2019-05-14 2021-08-03 Matterport, Inc. Scene segmentation using model subtraction
CN110263666B (zh) * 2019-05-29 2021-01-19 西安交通大学 一种基于非对称多流的动作检测方法
KR102285745B1 (ko) * 2019-10-30 2021-08-04 아주대학교산학협력단 전자 장치 및 이의 이상 상황 탐지 방법
KR102294687B1 (ko) * 2019-12-30 2021-08-31 주식회사 써로마인드 자동차의 주변 상황이 위험상황인지를 판단하고 주행가이드를 생성하여 경보하여 주는 방법 및 이를 이용한 장치
CN111210446B (zh) * 2020-01-08 2022-07-29 中国科学技术大学 一种视频目标分割方法、装置和设备
CN112949401B (zh) * 2021-02-01 2024-03-26 浙江大华技术股份有限公司 图像分析方法、装置、设备及计算机存储介质
CN117274885B (zh) * 2023-11-23 2024-02-09 湖北微模式科技发展有限公司 一种人脸伪造视频检测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1738426A (zh) * 2005-09-09 2006-02-22 南京大学 一种视频运动目标分割与跟踪方法
US20140002441A1 (en) * 2012-06-29 2014-01-02 Hong Kong Applied Science and Technology Research Institute Company Limited Temporally consistent depth estimation from binocular videos
US9959468B2 (en) * 2015-11-06 2018-05-01 The Boeing Company Systems and methods for object tracking and classification
US10049279B2 (en) * 2016-03-11 2018-08-14 Qualcomm Incorporated Recurrent networks with motion-based attention for video understanding
WO2017165538A1 (en) * 2016-03-22 2017-09-28 Uru, Inc. Apparatus, systems, and methods for integrating digital media content into other digital media content
GB2549074B (en) * 2016-03-24 2019-07-17 Imagination Tech Ltd Learned feature motion detection
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos

Also Published As

Publication number Publication date
US10089743B1 (en) 2018-10-02
KR20190039647A (ko) 2019-04-15
CN109636803B (zh) 2023-07-25
CN109636803A (zh) 2019-04-16
KR102144346B1 (ko) 2020-08-13
JP2019071056A (ja) 2019-05-09
EP3467772A1 (en) 2019-04-10

Similar Documents

Publication Publication Date Title
JP6752855B2 (ja) 映像イメージをセグメンテーションする方法及びこれを利用した装置
KR102144358B1 (ko) 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
US11809975B2 (en) System and method for end-to-end-differentiable joint image refinement and perception
CN108537746B (zh) 一种基于深度卷积网络的模糊可变图像盲复原方法
US9947077B2 (en) Video object tracking in traffic monitoring
KR102144381B1 (ko) 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치
CN109583340B (zh) 一种基于深度学习的视频目标检测方法
US8280165B2 (en) System and method for segmenting foreground and background in a video
US20220036523A1 (en) Image processor
WO2015184208A1 (en) Constant bracketing for high dynamic range operations (chdr)
CN110163887B (zh) 基于运动插值估计与前景分割相结合的视频目标跟踪方法
JP7353803B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6901803B2 (ja) フォールトトレランス及びフラクチュエーションロバスト性のための複数のニューラルネットワークを使用して揺れるカメラにより生成されたビデオからジッタリングを取り除くための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置
CN112862728B (zh) 伪影去除方法、装置、电子设备和存储介质
US20160203587A1 (en) Method and apparatus for color correction in an alpha matting process
CN114372932A (zh) 一种图像处理的方法及计算机程序产品
JP6600288B2 (ja) 統合装置及びプログラム
CN117593275A (zh) 一种医学图像分割系统
CN110097604B (zh) 图像颜色风格转移方法
CN110555414B (zh) 目标检测方法、装置、设备及存储介质
CN112070686A (zh) 一种基于深度学习的逆光图像协同增强方法
US20220224934A1 (en) Machine-learned in-loop predictor for video compression
CN117561540A (zh) 使用帧序列执行计算机视觉任务的系统和方法
CN115393491A (zh) 一种基于实例分割和参考帧的水墨视频生成方法及装置
EP3588439A1 (en) Method and device for processing a sequence of original frames

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191108

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200819

R150 Certificate of patent or registration of utility model

Ref document number: 6752855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250