JP6856952B2 - 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 - Google Patents
複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP6856952B2 JP6856952B2 JP2019160651A JP2019160651A JP6856952B2 JP 6856952 B2 JP6856952 B2 JP 6856952B2 JP 2019160651 A JP2019160651 A JP 2019160651A JP 2019160651 A JP2019160651 A JP 2019160651A JP 6856952 B2 JP6856952 B2 JP 6856952B2
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- cnn
- loss
- feature
- input image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 91
- 238000012360 testing method Methods 0.000 title claims description 54
- 238000010998 test method Methods 0.000 title claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 220
- 230000003287 optical effect Effects 0.000 claims description 52
- 238000001514 detection method Methods 0.000 claims description 39
- 230000011218 segmentation Effects 0.000 claims description 27
- 238000012549 training Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 241000282472 Canis lupus familiaris Species 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/48—Matching video sequences
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Description
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j) は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とする方法が提供される。
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とするCNNテスト方法が提供される。
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とするCNN学習装置が提供される。
ここで、ft−k(i)は、前記第t−k特徴マップのi番目の特徴であり、ft(j)は、前記第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、前記二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値であることを特徴とするCNNテスト装置が提供される。
[数式1]
ここで、ft−k(i)は、第t−k特徴マップのi番目の特徴であり、ft(j)は、第t特徴マップのj番目の特徴であり、φ(ft−k(i),ft(j))は、二つの特徴間の距離であり、wi,jは、これに対応する前記第1ロス重み付け値になる。この時、前記第1ロス重み付け値(wi,j)は、wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップのi番目の特徴と、前記第t特徴マップのj番目の特徴に対応する前記実際の入力イメージの二つレセプティブフィールド内のピクセルの数)と定義され得る。
[数式2]
統合ロス=ld(t−k)+ld(t)+λc×lc、
ここでld(t−k)は、第2−1ロス、ld(t)は、第2−2ロス、lcは、第1ロス、λcは、定数である。
Claims (26)
- 複数のビデオフレームを利用してCNN(Convolutional Neural Network)のパラメータを学習する方法において、
(a)CNN学習装置が、トレーニングイメージとして第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得する段階;
(b)前記CNN学習装置が、前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第1ロスを算出する段階;及び (c)前記CNN学習装置が、前記第1ロスをバックプロパゲーション(backpropagation)することにより、前記CNNの少なくとも一つのパラメータを最適化する段階;
を含み、
前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールド(receptivefield)が共通領域をどれだけ含んでいるかを示すことを特徴とするCNN学習方法。 - 前記(b)段階で、
前記CNN学習装置は、(i)前記第t−k特徴マップを参照して生成された第t−k出力値と第t−k原本正解(Ground Truth)値の差異をもとに第2−1ロスを算出して、(ii)前記第t特徴マップを参照して生成された第t出力値と第t原本正解値の差異をもとに、第2−2ロスを算出し、
前記(c)段階で、
前記CNN学習装置は、前記第2−1ロス及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項1に記載のCNN学習方法。 - 前記第1ロス重み付け値(wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項3に記載の方法。 - 前記オプティカルフローが、o_forward及びo_backwardを含んでいる状態で、(I)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(II)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は、前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出され、(III)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項4に記載の方法。
- 前記CNN学習装置は、(i)前記第t−k入力イメージを利用して前記第t−k特徴マップ及び前記第t−k出力値を獲得するための第1CNN及び(ii)前記第t入力イメージを利用して前記第t特徴マップ及び前記第t出力値を獲得するための第2CNNを含み、
前記第2CNNは、前記第1CNNと同一パラメータを有するように構成され、
前記(b)段階で、
前記CNN学習装置は、前記第1CNNで算出された前記第2−1ロスと、前記第2CNNで算出された前記第2−2ロスとを合わせた第2ロスを算出して、
前記(c)段階で、
前記CNN学習装置は、前記第1ロス及び前記第2ロスを前記第1CNNでバックプロパゲーションすることにより、前記第1CNNの前記パラメータを最適化して、前記第1CNNの前記最適化されたパラメータを前記第2CNNの前記パラメータに反映することを特徴とする請求項2に記載のCNN学習方法。 - 前記(c)段階で、
次の数式により統合ロスが算出され、
統合ロス=ld(t−k)+ld(t)+λc×lc、
ここでld(t−k)は、前記第2−1ロス、ld(t)は、前記第2−2ロス、lcは、前記第1ロス、λcは、定数を表し、
前記統合ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項2に記載の方法。 - 前記第t−k出力値と前記第t出力値は、それぞれ前記第t−k特徴マップと前記第t特徴マップに対してデコンボリューション演算を少なくとも一回遂行して生成され、
前記第t−k出力及び前記第t出力は物体検出及びセグメンテーションの一つであることを特徴とする請求項2に記載の方法。 - 入力イメージとしてのテストイメージに対するCNNのテスト方法において、
(a)CNN学習装置を利用して、(i)トレーニングイメージとして第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得するプロセス;(ii)前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第1ロスを算出するプロセス;及び(iii)前記第1ロスをバックプロパゲーションすることにより、前記CNNの少なくとも一つのパラメータを最適化するプロセス;を経て学習された前記CNNのパラメータが獲得された状態で、テスト装置が、前記のテストイメージを獲得する段階;及び
(b)前記テスト装置が、前記学習されたCNNの前記パラメータを利用して前記獲得されたテストイメージに対して所定の演算を行ってテスト用結果値を出力する段階;
を含み、
前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするCNNテスト方法。 - 前記(ii)プロセスで、
前記CNN学習装置は、前記第t−k特徴マップを参照にして生成された第t−k出力値と第t−k原本正解値の差異をもとに第2−1ロスを算出して、前記第t特徴マップを参照にして生成された第t出力値と第t原本正解値の差異をもとに第2−2ロスを算出し、
前記(iii)プロセスで、
前記CNN学習装置は、前記第2−1ロス及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項9に記載のCNNテスト方法。 - 前記第1ロス重み付け値(wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項11に記載のCNNテスト方法。 - 前記オプティカルフローがo_forward及びo_backwardを含んでいる状態で、(I)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(II)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出され、(III)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項12に記載のCNNテスト方法。
- 複数のビデオフレームを利用してCNN(Convolutional Neural Network)のパラメータを学習する装置において、
トレーニングイメージとして第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージを獲得する通信部;
(I)前記第t−k入力イメージと、前記第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得するプロセス;(II)前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照して第1ロスを算出するプロセス;及び(III)前記第1ロスをバックプロパゲーションすることにより、前記CNNの少なくとも一つのパラメータを最適化するプロセス;を遂行するプロセッサ;
を含み、
前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするCNN学習装置。 - 前記(II)プロセスで、
前記プロセッサは、(i)前記第t−k特徴マップを参照して生成された第t−k出力値と第t−k原本正解値の差異をもとに、第2−1ロスを算出して、(ii)前記第t特徴マップを参照して生成された第t出力値と第t原本正解値の差異をもとに第2−2ロスを算出し、
前記(III)プロセスで、
前記のプロセッサは、前記第2−1及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項14に記載のCNN学習装置。 - 前記第1ロス重み付け値(wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項16に記載のCNN学習装置。 - 前記オプティカルフローがo_forward及びo_backwardを含んでいる状態で、(1)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(2)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は、前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出されて、(3)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項17に記載のCNN学習装置。
- 前記CNN学習装置は、(i)前記第t−k入力イメージを利用して前記第t−k特徴マップ及び前記第t−k出力値を獲得するための第1CNN及び(ii)前記第t入力イメージを利用して前記第t特徴マップ及び前記第t出力値を獲得するための第2CNNを含み、
前記第2CNNは、前記第1CNNと同一パラメータを有するように構成され、
前記(II)プロセスで、
前記のプロセッサは、前記第1CNNで算出された前記第2−1ロスと、前記第2CNNで算出された前記第2−2ロスとを合わせた第2のロスを算出して、
前記(III)プロセスで、
前記プロセッサは、前記第1ロス及び前記第2ロスを前記第1CNNでバックプロパゲーションすることにより、前記第1CNNの前記パラメータを最適化して、前記第1CNNの前記最適化されたパラメータを前記第2CNNの前記パラメータに反映することを特徴とする請求項15に記載のCNN学習装置。 - 前記(III)プロセスは、下記の数式により統合ロスが算出され、
統合ロス=ld(t−k)+ld(t)+λc×lc、
ここでld(t−k)は、前記第2−1ロス、ld(t)は、前記第2−2ロス、lcは、前記第1ロス、λcは、定数を表し、
前記統合ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項15に記載のCNN学習装置。 - 前記第t−k出力値と前記第t出力値は、それぞれ前記第t−k特徴マップと前記第t特徴マップに対してデコンボリューション演算を少なくとも一回遂行して生成され、
前記第t−k出力及び前記第t出力は、物体検出及びセグメンテーションの一つであるものを特徴とする請求項15に記載のCNN学習装置。 - 入力イメージとしてのテストイメージに対するCNNテストを遂行するCNNテスト装置において、
CNN学習装置を利用して(i)トレーニングイメージとして、第t−kフレームに対応する第t−k入力イメージと、前記第t−kフレームに後行するフレームである第tフレームに対応する第t入力イメージに対して、各々コンボリューション演算を少なくとも一回遂行し、前記第t−kフレームに対応する第t−k特徴マップと前記第tフレームに対応する第t特徴マップを獲得するプロセス;(ii)前記第t−k特徴マップと前記第t特徴マップの各ピクセルの間の少なくとも一つの距離の値の各々を参照にして、第1ロスを算出するプロセス;及び(iii)前記第1ロスをバックプロパゲーションすることにより、前記CNN学習装置の少なくとも一つのパラメータを最適化するプロセス;を経て学習された前記CNNのパラメータが獲得された状態で、テスト装置が、前記テストイメージを獲得する通信部;及び
前記学習されたCNNの前記パラメータを利用して前記獲得されたテストイメージに対して所定の演算を行ってテスト用結果値を出力するプロセスを実行するプロセッサ;
を含み、
前記第1ロスは、(i)前記第t−k特徴マップと前記第t特徴マップの各特徴の間の少なくとも一つの距離の値の各々に(ii)これに対応する第1ロス重み付け値を掛けて算出するものの、前記第1ロス重み付け値は、前記第t−k特徴マップと前記第t特徴マップの間のレセプティブフィールドが共通領域をどれだけ含んでいるかを示すことを特徴とするCNNテスト装置。 - 前記(ii)プロセスで、
前記CNN学習装置は、前記第t−k特徴マップを参照にして生成された第t−k出力値と第t−k原本正解値の差異をもとに、第2−1ロスを算出して、前記第t特徴マップを参照にして生成された第t出力値と第t原本正解値の差異をもとに、第2−2ロスを算出し、
前記(iii)プロセスで、
前記CNN学習装置は、前記第2−1ロス及び前記第2−2ロスをバックプロパゲーションすることにより、前記CNNの前記パラメータを最適化することを特徴とする請求項22に記載のCNNテスト装置。 - 前記第1ロス重み付け値 (wi,j)は、
wi,j=(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する実際の入力イメージの二つのレセプティブフィールド内でオプティカルフローによって連結されたピクセルの数)/(前記第t−k特徴マップの前記i番目の特徴と、前記第t特徴マップの前記j番目の特徴に対応する前記実際の入力イメージの二つのレセプティブフィールド内のピクセルの数)
で表されることを特徴とする請求項24に記載のCNNテスト装置。 - 前記オプティカルフローがo_forward及びo_backwardを含んでいる状態で、(I)前記第t−k特徴マップから前記第t特徴マップへのオプティカルフローを示す前記o_forward及び前記第t特徴マップから前記第t−k特徴マップへのオプティカルフローを示す前記o_backwardが算出され、(II)(i)前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールドのピクセルの中で前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールド内に入ってくる第1ピクセル数は、前記o_forwardを利用して算出され、(ii)前記第t特徴マップの前記j番目の特徴に対応する前記第t入力イメージのレセプティブフィールドのピクセルの中で前記第t−k特徴マップの前記i番目の特徴に対応する前記第t−k入力イメージのレセプティブフィールド内に入ってくる第2ピクセル数は、前記o_backwardを利用して算出され、(III)前記第1ピクセル数及び前記第2ピクセル数を合計して、前記オプティカルフローによって連結されたピクセルの数が算出されることを特徴とする請求項25に記載のCNNテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/121,667 US10318842B1 (en) | 2018-09-05 | 2018-09-05 | Learning method, learning device for optimizing parameters of CNN by using multiple video frames and testing method, testing device using the same |
US16/121,667 | 2018-09-05 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020038669A JP2020038669A (ja) | 2020-03-12 |
JP6856952B2 true JP6856952B2 (ja) | 2021-04-14 |
Family
ID=66286263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019160651A Active JP6856952B2 (ja) | 2018-09-05 | 2019-09-03 | 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10318842B1 (ja) |
EP (1) | EP3620985B1 (ja) |
JP (1) | JP6856952B2 (ja) |
KR (1) | KR102279399B1 (ja) |
CN (1) | CN110879962B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112862828B (zh) * | 2019-11-26 | 2022-11-18 | 华为技术有限公司 | 一种语义分割方法、模型训练方法及装置 |
WO2021104381A1 (en) * | 2019-11-27 | 2021-06-03 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method and device for stylizing video and storage medium |
CN111524166B (zh) | 2020-04-22 | 2023-06-30 | 北京百度网讯科技有限公司 | 视频帧的处理方法和装置 |
US11157813B1 (en) * | 2020-04-24 | 2021-10-26 | StradVision, Inc. | Method and device for on-vehicle active learning to be used for training perception network of autonomous vehicle |
CN111476314B (zh) * | 2020-04-27 | 2023-03-07 | 中国科学院合肥物质科学研究院 | 一种融合光流算法与深度学习的模糊视频检测方法 |
WO2021220398A1 (ja) * | 2020-04-28 | 2021-11-04 | 楽天株式会社 | オブジェクト領域特定装置、オブジェクト領域特定方法、及びオブジェクト領域特定プログラム |
KR102401800B1 (ko) * | 2021-10-28 | 2022-05-26 | 주식회사 오비고 | 오브젝트 실감 기술을 구현하기 위한 학습 방법과 체험 방법 및 이를 이용한 학습 장치와 체험 장치 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10074041B2 (en) * | 2015-04-17 | 2018-09-11 | Nec Corporation | Fine-grained image classification by exploring bipartite-graph labels |
US10115032B2 (en) * | 2015-11-04 | 2018-10-30 | Nec Corporation | Universal correspondence network |
KR20180090355A (ko) * | 2015-12-04 | 2018-08-10 | 매직 립, 인코포레이티드 | 리로컬리제이션 시스템들 및 방법들 |
US10019629B2 (en) * | 2016-05-31 | 2018-07-10 | Microsoft Technology Licensing, Llc | Skeleton-based action detection using recurrent neural network |
RU2665273C2 (ru) * | 2016-06-03 | 2018-08-28 | Автономная некоммерческая образовательная организация высшего образования "Сколковский институт науки и технологий" | Обучаемые визуальные маркеры и способ их продуцирования |
KR101908680B1 (ko) * | 2016-08-30 | 2018-10-17 | 주식회사 루닛 | 약한 지도 학습 기반의 기계 학습 방법 및 그 장치 |
CN106529570B (zh) * | 2016-10-14 | 2019-06-18 | 西安电子科技大学 | 基于深度脊波神经网络的图像分类方法 |
CN108304755B (zh) * | 2017-03-08 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 用于图像处理的神经网络模型的训练方法和装置 |
CN107220616B (zh) * | 2017-05-25 | 2021-01-19 | 北京大学 | 一种基于自适应权重的双路协同学习的视频分类方法 |
CN107968962B (zh) * | 2017-12-12 | 2019-08-09 | 华中科技大学 | 一种基于深度学习的两帧不相邻图像的视频生成方法 |
CN110490896B (zh) * | 2018-01-25 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 一种视频帧图像处理方法和装置 |
CN108268870B (zh) * | 2018-01-29 | 2020-10-09 | 重庆师范大学 | 基于对抗学习的多尺度特征融合超声图像语义分割方法 |
-
2018
- 2018-09-05 US US16/121,667 patent/US10318842B1/en active Active
-
2019
- 2019-04-25 EP EP19171167.0A patent/EP3620985B1/en active Active
- 2019-08-27 KR KR1020190105468A patent/KR102279399B1/ko active IP Right Grant
- 2019-08-30 CN CN201910813388.XA patent/CN110879962B/zh active Active
- 2019-09-03 JP JP2019160651A patent/JP6856952B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
EP3620985B1 (en) | 2024-06-26 |
KR20200027887A (ko) | 2020-03-13 |
EP3620985A1 (en) | 2020-03-11 |
CN110879962A (zh) | 2020-03-13 |
KR102279399B1 (ko) | 2021-07-21 |
CN110879962B (zh) | 2023-09-22 |
JP2020038669A (ja) | 2020-03-12 |
US10318842B1 (en) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6856952B2 (ja) | 複数のビデオフレームを利用してcnnのパラメータを最適化するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP6847464B2 (ja) | 車線候補ピクセルを分類して車線を検出する学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane through classifying lane candidate pixels and test method, test device using the same} | |
JP6847463B2 (ja) | CNN(Convolutional Neural Network)を利用して車線を検出するための学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE FOR DETECTING LANE USING CNN AND TEST METHOD, TEST DEVICE USING THE SAME} | |
JP6875021B2 (ja) | 有用な学習データを取捨選別するためのcnn基盤の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP6865363B2 (ja) | ラプラシアンピラミッドネットワークを利用して自律走行自動車レベル4及びレベル5を満足させるために要求される道路障害物検出におけるセグメンテーション性能向上のための学習方法及び学習装置、並びにこれを利用したテスト方法及びテスト装置 | |
JP6980289B2 (ja) | 車線モデルを利用して車線を検出し得る学習方法及び学習装置そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting lane using lane model and test method, test device using the same} | |
JP6863619B2 (ja) | コンボリューションニューラルネットワークから複数の出力のアンサンブルを利用して統合された特徴マップを提供するための方法及び装置{method and device for providing integrated feature map using ensemble of multiple outputs from convolutional neural network} | |
EP3686795B1 (en) | Learning method and learning device for improving segmentation performance to be used for detecting events including pedestrian event, vehicle event, falling event and fallen event using edge loss and test method and test device using the same | |
JP6869565B2 (ja) | 危険要素検出に利用される学習用イメージデータセットの生成方法及びコンピューティング装置、そしてこれを利用した学習方法及び学習装置{method and computing device for generating image data set to be used for hazard detection and learning method and learning device using the same} | |
JP6867054B2 (ja) | マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same} | |
JP6957050B2 (ja) | モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same} | |
JP6846062B2 (ja) | 近接障害物の下段ライン及び上段ラインを検出し、物体存在性を検出する学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置{learning method, learning device for detecting objectness by detecting bottom line and top line of nearest obstacles and testing method, testing device using the same} | |
JP6935939B2 (ja) | マルチフィーディングを適用した学習方法及び学習装置並びにそれを利用したテスト方法及びテスト装置 | |
US10402686B1 (en) | Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same | |
JP6865342B2 (ja) | Cnn基盤車線検出のための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置 | |
JP6979707B2 (ja) | リグレッションロス(Regression loss)を利用した学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置{LEARNING METHOD, LEARNING DEVICE USING REGRESSION LOSS AND TESTING METHOD, TESTING DEVICE USING THE SAME} | |
US10373004B1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210302 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210312 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6856952 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |