JP2020038669A - 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 - Google Patents
複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020038669A JP2020038669A JP2019160651A JP2019160651A JP2020038669A JP 2020038669 A JP2020038669 A JP 2020038669A JP 2019160651 A JP2019160651 A JP 2019160651A JP 2019160651 A JP2019160651 A JP 2019160651A JP 2020038669 A JP2020038669 A JP 2020038669A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- cnn
- loss
- feature
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012360 testing method Methods 0.000 title claims abstract description 47
- 238000010998 test method Methods 0.000 title claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 202
- 230000003287 optical effect Effects 0.000 claims description 53
- 238000001514 detection method Methods 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 26
- 230000010354 integration Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 241000282472 Canis lupus familiaris Species 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
Description
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j) は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とする方法が提供される。
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とするCNNテスト方法が提供される。
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とするCNN学習装置が提供される。
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とするCNNテスト装置が提供される。
[数式1]
ここで、ft−k(i)は、第t−k特徴マップのi番目の特徴であり、ft(j)は、第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値になる。この時、前記第1ロス重み付け値(wi,j)は、wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップのi番目の特徴と、前記第t特徴マップのj番目の特徴に対応する前記実際の入力イメージの二つレセプティブフィールド内のピクセルの数)と定義され得る。
[数式2]
統合ロス=ld(t−k)+ld(t)+λc×lc、
ここでld(t−k)は、第2−1ロス、ld(t)は、第2−2ロス、lcは、第1ロス、λcは、定数である。
Claims (30)
- 複数のビデオフレームを利用してCNN(ConvolutionalNeural Network)のパラメータを学習する方法において、
(a)CNN学習装置が、トレーニングイメージとして第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得する段階;
(b)前記CNN学習装置が、前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第1ロスを算出する段階;及び
(c)前記CNN学習装置が、前記第1ロスをバックプロパゲーション(backpropagation)することにより、前記CNNの少なくとも一つのパラメータを最適化する段階;
を含むことを特徴とするCNN学習方法。 - 前記(b)段階で、
前記CNN学習装置は、(i)前記第t−k特徴マップを参照して生成された第t−k出力値と第t−k原本正解(Ground Truth)値の差異をもとに第2−1ロスを算出して、(ii)前記第t特徴マップを参照して生成された第t出力値と第t原本正解値の差異をもとに、第2−2ロスを算出し、
前記(c)段階で、
前記CNN学習装置は、前記第2−1ロス及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項1に記載のCNN学習方法。 - 前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールド(receptivefield)が共通領域をどれだけ含んでいるかを示すことを特徴とする請求項1に記載の方法。
- 前記第1ロス(lC )は以下の数式で表現され、
ここでft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とする請求項3に記載の方法。 - 前記第1ロス重み付け値(wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項4に記載の方法。 - 前記オプティカルフローが、o_forward及びo_backwardを含んでいる状態で、(I)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(II)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は、前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出され、(III)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項5に記載の方法。
- 前記CNN学習装置は、(i)前記第t−k入力イメージを利用して前記第t−k特徴マップ及び前記第t−k出力値を獲得するための第1CNN及び(ii)前記第t入力イメージを利用して前記第t特徴マップ及び前記第t出力値を獲得するための第2CNNを含み、
前記第2CNNは、前記第1CNNと同一パラメータを有するように構成され、
前記(b)段階で、
前記CNN学習装置は、前記第1CNNで算出された前記第2−1ロスと、前記第2CNNで算出された前記第2−2ロスとを合わせた第2ロスを算出して、
前記(c)段階で、
前記CNN学習装置は、前記第1ロス及び前記第2ロスを前記第1CNNでバックプロパゲーションすることにより、前記第1CNNの前記パラメータを最適化して、前記第1CNNの前記最適化されたパラメータを前記第2CNNの前記パラメータに反映することを特徴とする請求項2に記載のCNN学習方法。 - 前記(c)段階で、
次の数式により統合ロスが算出され、
統合ロス=ld(t−k)+ld(t)+λc×lc、
ここでld(t−k)は、前記第2−1ロス、ld(t)は、前記第2−2ロス、lcは、前記第1ロス、λcは、定数を表し、
前記統合ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項2に記載の方法。 - 前記第t−k出力値と前記第t出力値は、それぞれ前記第t−k特徴マップと前記第t特徴マップに対してデコンボリューション演算を少なくとも一回遂行して生成され、
前記第t−k出力及び前記第t出力は物体検出及びセグメンテーションの一つであることを特徴とする請求項2に記載の方法。 - 入力イメージとしてのテストイメージに対するCNNのテスト方法において、
(a)CNN学習装置を利用して、(i)トレーニングイメージとして第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得するプロセス;(ii)前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第1ロスを算出するプロセス;及び(iii)前記第1ロスをバックプロパゲーションすることにより、前記CNNの少なくとも一つのパラメータを最適化するプロセス;を経て学習された前記CNNのパラメータが獲得された状態で、テスト装置が、前記のテストイメージを獲得する段階;及び
(b)前記テスト装置が、前記学習されたCNNの前記パラメータを利用して前記獲得されたテストイメージに対して所定の演算を行ってテスト用結果値を出力する段階;
を含むことを特徴とするCNNテスト方法。 - 前記(ii)プロセスで、
前記CNN学習装置は、前記第t−k特徴マップを参照にして生成された第t−k出力値と第t−k原本正解値の差異をもとに第2−1ロスを算出して、前記第t特徴マップを参照にして生成された第t出力値と第t原本正解値の差異をもとに第2−2ロスを算出し、
前記(iii)プロセスで、
前記CNN学習装置は、前記第2−1ロス及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項10に記載のCNNテスト方法。 - 前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とする請求項10に記載のCNNテスト方法。
- 前記第1ロス(lC )は以下の数式で表現され、
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とする請求項12に記載のCNNテスト方法。 - 前記第1ロス重み付け値(wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項13に記載のCNNテスト方法。 - 前記オプティカルフローがo_forward及びo_backwardを含んでいる状態で、(I)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(II)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出され、(III)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項14に記載のCNNテスト方法。
- 複数のビデオフレームを利用してCNN(ConvolutionalNeural Network)のパラメータを学習する装置において、
トレーニングイメージとして第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージを獲得する通信部;
(I)前記第t−k入力イメージと、前記第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得するプロセス;(II)前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第1ロスを算出するプロセス;及び(III)前記第1ロスをバックプロパゲーションすることにより、前記CNNの少なくとも一つのパラメータを最適化するプロセス;を遂行するプロセッサ;
を含むものを特徴とするCNN学習装置。 - 前記(II)プロセスで、
前記プロセッサは、(i)前記第t−k特徴マップを参照して生成された第t−k出力値と第t−k原本正解値の差異をもとに、第2−1ロスを算出して、(ii)前記第t特徴マップを参照して生成された第t出力値と第t原本正解値の差異をもとに第2−2ロスを算出し、
前記(III)プロセスで、
前記のプロセッサは、前記第2−1及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項16に記載のCNN学習装置。 - 前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とする請求項16に記載のCNN学習装置。
- 前記第1ロス(lC )は以下の数式で表現され、
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とする請求項18に記載のCNN学習装置。 - 前記第1ロス重み付け値(wi,j)は 、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項19に記載のCNN学習装置。 - 前記オプティカルフローがo_forward及びo_backwardを含んでいる状態で、(1)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(2)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は、前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出されて、(3)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項20に記載のCNN学習装置。
- 前記CNN学習装置は、(i)前記第t−k入力イメージを利用して前記第t−k特徴マップ及び前記第t−k出力値を獲得するための第1CNN及び(ii)前記第t入力イメージを利用して前記第t特徴マップ及び前記第t出力値を獲得するための第2CNNを含み、
前記第2CNNは、前記第1CNNと同一パラメータを有するように構成され、
前記(II)プロセスで、
前記のプロセッサは、前記第1CNNで算出された前記第2−1ロスと、前記第2CNNで算出された前記第2−2ロスとを合わせた第2のロスを算出して、
前記(III)プロセッサで、
前記プロセスは、前記第1ロス及び前記第2ロスを前記第1CNNでバックプロパゲーションすることにより、前記第1CNNの前記パラメータを最適化して、前記第1CNNの前記最適化されたパラメータを前記第2CNNの前記パラメータに反映することを特徴とする請求項17に記載のCNN学習装置。 - 前記(III)プロセスは、下記の数式により統合ロスが算出され、
統合ロス=ld(t−k)+ld(t)+λc×lc、
ここでld(t−k)は、前記第2−1ロス、ld(t)は、前記第2−2ロス、lcは、前記第1ロス、λcは、定数を表し、
前記統合ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項17に記載のCNN学習装置。 - 前記第t−k出力値と前記第t出力値は、それぞれ前記第t−k特徴マップと前記第t特徴マップに対してデコンボリューション演算を少なくとも一回遂行して生成され、
前記第t−k出力及び前記第t出力は、物体検出及びセグメンテーションの一つであるものを特徴とする請求項17に記載のCNN学習装置。 - 入力イメージとしてのテストイメージに対するCNNテストを遂行するCNNテスト装置において、
CNN学習装置を利用して(i)トレーニングイメージとして、第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得するプロセス;(ii)前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照にして、第1ロスを算出するプロセス;及び(iii)前記第1ロスをバックプロパゲーションすることにより、前記CNN学習装置の少なくとも一つのパラメータを最適化するプロセス;を経て学習された前記CNNのパラメータが獲得された状態で、テスト装置が、前記テストイメージを獲得する通信部;及び
前記学習されたCNNの前記パラメータを利用して前記獲得されたテストイメージに対して所定の演算を行ってテスト用結果値を出力するプロセスを実行するプロセッサ;
を含むものを特徴とするCNNテスト装置。 - 前記(ii)プロセスで、
前記CNN学習装置は、前記第t−k特徴マップを参照にして生成された第t−k出力値と第t−k原本正解値の差異をもとに、第2−1ロスを算出して、前記第t特徴マップを参照にして生成された第t出力値と第t原本正解値の差異をもとに、第2−2ロスを算出し、
前記(iii)プロセスで、
前記CNN学習装置は、前記第2−1ロス及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項25に記載のCNNテスト装置。 - 前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とする請求項25に記載のCNNテスト装置。
- 前記第1ロス(lC )は以下の数式で表現され、
ここでft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とする請求項27に記載のCNNテスト装置。 - 前記第1ロス重み付け値 (wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項28に記載のCNNテスト装置。 - 前記オプティカルフローがo_forward及びo_backwardを含んでいる状態で、(I)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(II)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は、前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数、は前記o_backwardを利用して算出され、(III)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項29に記載のCNNテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/121,667 | 2018-09-05 | ||
US16/121,667 US10318842B1 (en) | 2018-09-05 | 2018-09-05 | Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038669A true JP2020038669A (ja) | 2020-03-12 |
JP6856952B2 JP6856952B2 (ja) | 2021-04-14 |
Family
ID=66286263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019160651A Active JP6856952B2 (ja) | 2018-09-05 | 2019-09-03 | 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10318842B1 (ja) |
EP (1) | EP3620985B1 (ja) |
JP (1) | JP6856952B2 (ja) |
KR (1) | KR102279399B1 (ja) |
CN (1) | CN110879962B (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6899986B1 (ja) * | 2020-04-28 | 2021-07-07 | 楽天グループ株式会社 | オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム |
JP2021174530A (ja) * | 2020-04-22 | 2021-11-01 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | ビデオフレームの処理方法及び処理装置、電子機器、記憶媒体並びにコンピュータプログラム |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862828B (zh) * | 2019-11-26 | 2022-11-18 | 华为技术有限公司 | 一种语义分割方法、模型训练方法及装置 |
CN114730372A (zh) * | 2019-11-27 | 2022-07-08 | Oppo广东移动通信有限公司 | 用于风格化视频的方法和设备以及存储介质 |
US11157813B1 (en) * | 2020-04-24 | 2021-10-26 | StradVision, Inc. | Method and device for on-vehicle active learning to be used for training perception network of autonomous vehicle |
CN111476314B (zh) * | 2020-04-27 | 2023-03-07 | 中国科学院合肥物质科学研究院 | 一种融合光流算法与深度学习的模糊视频检测方法 |
KR102401800B1 (ko) * | 2021-10-28 | 2022-05-26 | 주식회사 오비고 | 오브젝트 실감 기술을 구현하기 위한 학습 방법과 체험 방법 및 이를 이용한 학습 장치와 체험 장치 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124711A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Universal correspondence network |
US20170161919A1 (en) * | 2015-12-04 | 2017-06-08 | Magic Leap, Inc. | Relocalization systems and methods |
CN108304755A (zh) * | 2017-03-08 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10074041B2 (en) * | 2015-04-17 | 2018-09-11 | Nec Corporation | Fine-grained image classification by exploring bipartite-graph labels |
US10019629B2 (en) * | 2016-05-31 | 2018-07-10 | Microsoft Technology Licensing, Llc | Skeleton-based action detection using recurrent neural network |
RU2665273C2 (ru) * | 2016-06-03 | 2018-08-28 | Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" | Обучаемые визуальные маркеры и способ их продуцирования |
KR101908680B1 (ko) * | 2016-08-30 | 2018-10-17 | 주식회사 루닛 | 약한 지도 학습 기반의 기계 학습 방법 및 그 장치 |
CN106529570B (zh) * | 2016-10-14 | 2019-06-18 | 西安电子科技大学 | 基于深度脊波神经网络的图像分类方法 |
CN107220616B (zh) * | 2017-05-25 | 2021-01-19 | 北京大学 | 一种基于自适应权重的双路协同学习的视频分类方法 |
CN107968962B (zh) * | 2017-12-12 | 2019-08-09 | 华中科技大学 | 一种基于深度学习的两帧不相邻图像的视频生成方法 |
CN110490896B (zh) * | 2018-01-25 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
CN108268870B (zh) * | 2018-01-29 | 2020-10-09 | 重庆师范大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
-
2018
- 2018-09-05 US US16/121,667 patent/US10318842B1/en active Active
-
2019
- 2019-04-25 EP EP19171167.0A patent/EP3620985B1/en active Active
- 2019-08-27 KR KR1020190105468A patent/KR102279399B1/ko active IP Right Grant
- 2019-08-30 CN CN201910813388.XA patent/CN110879962B/zh active Active
- 2019-09-03 JP JP2019160651A patent/JP6856952B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170124711A1 (en) * | 2015-11-04 | 2017-05-04 | Nec Laboratories America, Inc. | Universal correspondence network |
US20170161919A1 (en) * | 2015-12-04 | 2017-06-08 | Magic Leap, Inc. | Relocalization systems and methods |
CN108304755A (zh) * | 2017-03-08 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
Non-Patent Citations (2)
Title |
---|
LEV V. UTKIN, 外4名: ""A Siamese Autoencoder Preserving Distances for Anomaly Detection in Multi-Robot Systems"", 2017 INTERNATIONAL CONFERENCE ON CONTROL, ARTIFICIAL INTELLIGENCE, ROBOTICS & OPTIMIZATION (ICCAIRO), JPN6020043993, 22 May 2017 (2017-05-22), US, pages 39 - 44, XP033296479, ISSN: 0004388933, DOI: 10.1109/ICCAIRO.2017.17 * |
相澤宏旭, 外2名: ""多重解像度性を取り入れたEncoder−Decoder CNNによるパーツセグメンテーション"", 第23回画像センシングシンポジウム, JPN6020043994, 31 December 2017 (2017-12-31), JP, pages 3 - 3, ISSN: 0004388934 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021174530A (ja) * | 2020-04-22 | 2021-11-01 | ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド | ビデオフレームの処理方法及び処理装置、電子機器、記憶媒体並びにコンピュータプログラム |
KR20210131225A (ko) * | 2020-04-22 | 2021-11-02 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 영상 프레임 처리 방법, 장치, 전자 기기, 저장 매체 및 프로그램 |
JP7228608B2 (ja) | 2020-04-22 | 2023-02-24 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | ビデオフレームの処理方法及び処理装置、電子機器、記憶媒体並びにコンピュータプログラム |
US11748895B2 (en) | 2020-04-22 | 2023-09-05 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for processing video frame |
KR102607137B1 (ko) | 2020-04-22 | 2023-11-29 | 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. | 영상 프레임 처리 방법, 장치, 전자 기기, 저장 매체 및 프로그램 |
JP6899986B1 (ja) * | 2020-04-28 | 2021-07-07 | 楽天グループ株式会社 | オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム |
WO2021220398A1 (ja) * | 2020-04-28 | 2021-11-04 | 楽天株式会社 | オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3620985A1 (en) | 2020-03-11 |
KR102279399B1 (ko) | 2021-07-21 |
CN110879962B (zh) | 2023-09-22 |
CN110879962A (zh) | 2020-03-13 |
KR20200027887A (ko) | 2020-03-13 |
EP3620985B1 (en) | 2024-06-26 |
JP6856952B2 (ja) | 2021-04-14 |
US10318842B1 (en) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6856952B2 (ja) | 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP6847464B2 (ja) | 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same} | |
JP6847463B2 (ja) | CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME} | |
US10504027B1 (en) | CNN-based learning method, learning device for selecting useful training data and test method, test device using the same | |
KR102313133B1 (ko) | 컨벌루션 뉴럴 네트워크로부터 복수의 출력들의 앙상블을 이용하여 통합된 특징 맵을 제공하기 위한 방법 및 장치 | |
JP6980289B2 (ja) | 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same} | |
JP2020119496A (ja) | 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same} | |
KR102320999B1 (ko) | 폴트 톨러런스 및 플럭츄에이션 로버스트를 위한 복수의 뉴럴 네트워크를 사용하여 흔들리는 카메라로 인해 생성된 비디오에서 지터링을 제거하기 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
JP2020126623A (ja) | V2v通信によって取得された、他の自律走行車両の空間探知結果を自身の自律走行車両の空間探知結果と統合する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for integrating object detection information acquired through v2v communication from other autonomous vehicle with object detection information generated by present autonomous vehicle, and testing method and testing device using the same} | |
US10402686B1 (en) | Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same | |
KR102372687B1 (ko) | 비최대값 억제를 학습하는 병합 네트워크를 이용한 이종 센서 융합을 위한 학습 방법 및 학습 장치 | |
JP6865342B2 (ja) | Cnn基盤車線検出のための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP2020068015A (ja) | リグレッションロス(Regression loss)を利用した学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE USING REGRESSION LOSS AND TESTING METHOD, TESTING DEVICE USING THE SAME} |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6856952 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |