JP2020047271A - イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 - Google Patents
イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020047271A JP2020047271A JP2019163898A JP2019163898A JP2020047271A JP 2020047271 A JP2020047271 A JP 2020047271A JP 2019163898 A JP2019163898 A JP 2019163898A JP 2019163898 A JP2019163898 A JP 2019163898A JP 2020047271 A JP2020047271 A JP 2020047271A
- Authority
- JP
- Japan
- Prior art keywords
- feature map
- test
- convolution
- group
- inception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012360 testing method Methods 0.000 title claims description 253
- 238000010998 test method Methods 0.000 title description 2
- 238000011176 pooling Methods 0.000 claims description 29
- 230000017105 transposition Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013527 convolutional neural network Methods 0.000 description 25
- 238000007792 addition Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 241000282472 Canis lupus familiaris Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/90—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
Description
前記(I)プロセスは、(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;及び(I−3)前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成するプロセス;を含むことを特徴とする。
Claims (28)
- CNN基盤イメージエンコーディング方法において、
(a)第1ないし第nコンボリューションレイヤを含む学習装置が、少なくとも一つの入力イメージを獲得する段階;
(b)前記学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成する段階;及び
(c)前記学習装置が、前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成する段階;
を含むことを特徴とする方法。 - 前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項1に記載の方法。
- 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;
(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;
を含むことを特徴とする請求項1に記載の方法。 - 前記(b)段階で、
前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、
前記(c)段階で、
前記学習装置は、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項1に記載の方法。 - 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記学習装置が、前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成する段階;
(b−2)前記学習装置が、(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記第1ないし前記第m転置特徴マップに対し、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成する段階;及び
(b−3)前記学習装置が、前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成する段階;
を含むことを特徴とする請求項4に記載の方法。 - 前記(b)段階で、
前記学習装置は、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成し、
前記(c)段階で、
前記学習装置は、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項4に記載の方法。 - 前記(b)段階で、
前記学習装置は、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応される各々の転置特徴マップに少なくとも一度適用し、少なくとも一つのインセプション特徴マップを前記第1グループとして生成することを特徴とする請求項1に記載の方法。 - 前記方法は、
(d)前記学習装置が、前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行する段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - CNN基盤イメージエンコーディング方法において、
(a)(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、前記学習用転置特徴マップに対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップを学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、テスト装置が、少なくとも一つのテストイメージを獲得する段階;
(b)前記テスト装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得されたテスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップをテスト用第1グループとして生成する段階;及び
(c)前記テスト装置が、前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成する段階;
を含むことを特徴とする方法。 - 前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項9に記載の方法。
- 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成する段階;
(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの比率を各々参照にして第1ないし第mストライドのサイズを決定して、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用し、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;
を含むことを特徴とする請求項9に記載の方法。 - 前記(b)段階で、
前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップをテスト用第2グループとして生成し、
前記(c)段階で、
前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項9に記載の方法。 - 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(b)段階は、
(b−1)前記テスト装置が、前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成する段階;
(b−2)前記テスト装置が、(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成する段階;及び
(b−3)前記テスト装置が、前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成する段階;
を含むことを特徴とする請求項12に記載の方法。 - 前記(b)段階で、
前記テスト装置は、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成し、
前記(c)段階で、
前記テスト装置は、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項12に記載の方法。 - 第1ないし第nコンボリューションレイヤを含む、CNN基盤イメージエンコーディングのための学習装置において、
少なくとも一つのトレーニングイメージを入力イメージとして獲得するための通信部;及び
(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)入力イメージまたは以前コンボリューションレイヤから獲得された入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する各々の転置特徴マップに少なくとも一度適用して、少なくとも一つのインセプション特徴マップを第1グループとして生成するプロセス、及び、(II)前記第1グループに含まれた前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する出力特徴マップを生成するプロセスを遂行するプロセッサ;
を含むことを特徴とする装置。 - 前記第1グループに含まれた前記インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項15に記載の装置。
- 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、
(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤで獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;
(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;
を含むことを特徴とする請求項15に記載の装置。 - 前記(I)プロセスで、
前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのインセプション特徴マップを第2グループとして生成し、
前記(II)プロセスで、
前記プロセッサは、前記第1グループの前記インセプション特徴マップ及び前記第2グループの前記インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項15に記載の装置。 - 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、
(I−1)前記第kコンボリューションレイヤをもって、前記入力イメージまたは第k−1コンボリューションレイヤから獲得した第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有する第1ないし第m転置特徴マップを生成するプロセス;
(I−2)(i)前記第k−1特徴マップのサイズと前記第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記第1ないし前記第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、第1ないし第mインセプション特徴マップを前記第1グループとして生成するプロセス;及び
(I−3)前記入力イメージまたは前記第k−1コンボリューションレイヤから獲得した前記第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、第m+1ないし第m+nインセプション特徴マップを前記第2グループとして生成するプロセス;
を含むことを特徴とする請求項18に記載の装置。 - 前記(I)プロセスで、
前記プロセッサは、前記入力イメージまたは以前コンボリューションレイヤから獲得した前記入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのマックスプーリング特徴マップを第3グループとして生成して、
前記(II)プロセスで、
前記プロセッサは、前記第1グループの前記インセプション特徴マップ、前記第2グループの前記インセプション特徴マップ及び前記第3グループの前記マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記出力特徴マップを生成することを特徴とする請求項18に記載の装置。 - 前記(I)プロセスで、
前記プロセッサは、前記第1コンボリューションレイヤをもって(i)前記入力イメージに対して転置コンボリューション演算を少なくとも一度適用し、各々異なるサイズを有する少なくとも一つの転置特徴マップを生成し、(ii)前記転置特徴マップに対し、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとも一つのインセプション特徴マップを前記第1グループとして生成することを特徴とする請求項15に記載の装置。 - 前記プロセッサは、
(III)前記第nコンボリューションレイヤから出力された前記出力特徴マップを基にCNN出力を獲得し、前記CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセス;
をさらに遂行することを特徴とする請求項15に記載の装置。 - CNN基盤イメージエンコーディングのためのテスト装置において、
(i)第1ないし第nコンボリューションレイヤを含む学習装置が、前記コンボリューションレイヤの少なくとも一部各々をもって、入力イメージまたは以前コンボリューションレイヤから獲得された学習用入力特徴マップに対して、転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つの学習用転置特徴マップを生成するプロセス、(ii)前記学習装置が、異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を、これに対応する前記学習用転置特徴マップに対して少なくとも一度適用して、少なくとも一つの学習用インセプション特徴マップ(Inception Feature Maps For Training)を学習用第1グループとして生成するプロセス、(iii)前記学習装置が、前記学習用第1グループに含まれた前記学習用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応する学習用出力特徴マップを生成するプロセス及び(iv)前記学習装置が、前記学習用出力特徴マップを基に学習用CNN出力を獲得し、前記学習用CNN出力とこれに対応する原本正解を参照に獲得したセグメンテーションロスのバックプロパゲーションを遂行するプロセスを遂行した状態で、少なくとも一つのテストイメージを獲得する通信部;及び
(I)前記コンボリューションレイヤの少なくとも一部各々をもって、(i)前記テストイメージまたは以前コンボリューションレイヤから獲得された前記テスト用入力特徴マップに対して、前記転置コンボリューション演算を少なくとも一度適用して各々異なるサイズを有する少なくとも一つのテスト用転置特徴マップを生成し、(ii)前記テスト用転置特徴マップ対し、これに対応して異なるストライドと異なるカーネルサイズとを有するコンボリューション演算を少なくとも一度適用して、少なくとの一つのテスト用インセプション特徴マップ(Inception Feature Maps)をテスト用第1グループとして生成するプロセス;及び(II)前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、これに対応するテスト用出力特徴マップを生成するプロセス;を遂行するプロセッサ;
を含むことを特徴とする装置。 - 前記テスト用第1グループに含まれた前記テスト用インセプション特徴マップはサイズが同一だが、各々互いに異なる特性を有することを特徴とする請求項23に記載の方法。
- 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(I)プロセスは、
(I−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤで獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは、2以上の自然数)を適用するようにし、第1ないし第mサイズを有するテスト用第1ないし第m転置特徴マップを生成するプロセス;
(I−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;
を含むことを特徴とする請求項23に記載の方法。 - 前記(I)プロセスで、
前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、前記コンボリューション演算を適用して少なくとも一つのテスト用インセプション特徴マップを第2グループとして生成し、
前記(II)プロセスで、
前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ及び前記テスト用第2グループの前記テスト用インセプション特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項23に記載の方法。 - 少なくとも一つの前記コンボリューションレイヤが第kコンボリューションレイヤである場合、
前記(II)プロセスは、
(II−1)前記第kコンボリューションレイヤをもって、前記テストイメージまたは第k−1コンボリューションレイヤから獲得したテスト用第k−1特徴マップに対して、第1ないし第m転置コンボリューション演算(mは2以上の自然数)を適用するようにして、第1ないし第mサイズを有するテスト用第1ないしテスト用第m転置特徴マップを生成するプロセス;
(II−2)(i)前記テスト用第k−1特徴マップのサイズと前記テスト用第1ないし前記テスト用第m転置特徴マップ各々のサイズの割合を各々参照にして第1ないし第mストライドのサイズを決定し、(ii)前記テスト用第1ないし前記テスト用第m転置特徴マップに対して、前記第1ないし前記第mストライドサイズ及び第1ないし第mカーネルサイズを有する第1ないし第mコンボリューションフィルタを各々適用して、テスト用第1ないしテスト用第mインセプション特徴マップを前記テスト用第1グループとして生成するプロセス;及び
(II−3)前記テストイメージまたは前記第k−1コンボリューションレイヤから獲得した前記テスト用第k−1特徴マップに対して、第m+1ないし第m+nカーネルサイズを有する第m+1ないし第m+nコンボリューションフィルタを適用して、テスト用第m+1ないしテスト用第m+nインセプション特徴マップを前記テスト用第2グループとして生成するプロセス;
を含むことを特徴とする請求項26に記載の方法。 - 前記(I)プロセスで、
前記プロセッサは、前記テストイメージまたは以前コンボリューションレイヤから獲得した前記テスト用入力特徴マップに対して、互いに異なるサイズのマックスプーリング(Max Pooling)演算を少なくとも一度適用し、少なくとも一つのテスト用マックスプーリング特徴マップをテスト用第3グループとして生成して、
前記(II)プロセスで、
前記プロセッサは、前記テスト用第1グループの前記テスト用インセプション特徴マップ、前記テスト用第2グループの前記テスト用インセプション特徴マップ及び前記テスト用第3グループの前記テスト用マックスプーリング特徴マップをコンカチネートするか、要素ごとの加算をして、前記テスト用出力特徴マップを生成することを特徴とする請求項26に記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/132,475 US10282864B1 (en) | 2018-09-17 | 2018-09-17 | Method and device for encoding image and testing method and testing device using the same |
US16/132,475 | 2018-09-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020047271A true JP2020047271A (ja) | 2020-03-26 |
JP6856851B2 JP6856851B2 (ja) | 2021-04-14 |
Family
ID=66333963
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019163898A Active JP6856851B2 (ja) | 2018-09-17 | 2019-09-09 | イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10282864B1 (ja) |
EP (1) | EP3624016A1 (ja) |
JP (1) | JP6856851B2 (ja) |
KR (1) | KR102309702B1 (ja) |
CN (1) | CN110910395B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7491041B2 (ja) | 2019-05-22 | 2024-05-28 | 富士通株式会社 | 画像コーディング装置、確率モデル生成装置及び画像デコーディング装置 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200053886A (ko) | 2018-11-09 | 2020-05-19 | 삼성전자주식회사 | 뉴럴 프로세싱 유닛, 뉴럴 프로세싱 시스템, 및 어플리케이션 시스템 |
US11556778B2 (en) * | 2018-12-07 | 2023-01-17 | Microsoft Technology Licensing, Llc | Automated generation of machine learning models |
US10733511B1 (en) * | 2019-01-30 | 2020-08-04 | StradVision, Inc. | Learning method and learning device for updating HD map by reconstructing 3D space by using depth estimation information and class information on each object, which have been acquired through V2X information integration technique, and testing method and testing device using the same |
KR102420104B1 (ko) * | 2019-05-16 | 2022-07-12 | 삼성전자주식회사 | 영상 처리 장치 및 그 동작방법 |
JP7160201B2 (ja) * | 2019-06-17 | 2022-10-25 | 日本電信電話株式会社 | 識別結果説明装置、識別結果説明方法、及び識別結果説明プログラム |
CN110415171B (zh) * | 2019-07-08 | 2021-06-25 | 北京三快在线科技有限公司 | 图像处理方法、装置及存储介质、电子设备 |
CN111179283A (zh) * | 2019-12-30 | 2020-05-19 | 深圳市商汤科技有限公司 | 图像语义分割方法及装置、存储介质 |
US20220226994A1 (en) * | 2020-07-20 | 2022-07-21 | Georgia Tech Research Corporation | Heterogeneous graph attention networks for scalable multi-robot scheduling |
KR20220030084A (ko) * | 2020-09-02 | 2022-03-10 | 삼성전자주식회사 | 영상 처리 방법 및 장치 |
KR20230070492A (ko) | 2020-12-24 | 2023-05-23 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 피처 맵 데이터의 시그널링으로 디코딩 |
US11823490B2 (en) * | 2021-06-08 | 2023-11-21 | Adobe, Inc. | Non-linear latent to latent model for multi-attribute face editing |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060109286A1 (en) * | 2004-11-23 | 2006-05-25 | Niranjan Damera-Venkata | System and method for correcting defective pixels of a display device |
US20170169400A1 (en) * | 2015-12-10 | 2017-06-15 | General Electric Company | Automatic Classification of Aircraft Component Distress |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
JP2018084982A (ja) * | 2016-11-24 | 2018-05-31 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9633282B2 (en) * | 2015-07-30 | 2017-04-25 | Xerox Corporation | Cross-trained convolutional neural networks using multimodal images |
WO2017222970A1 (en) * | 2016-06-20 | 2017-12-28 | Butterfly Network, Inc. | Automated image acquisition for assisting a user to operate an ultrasound device |
AU2017338783B2 (en) * | 2016-10-04 | 2022-02-10 | Magic Leap, Inc. | Efficient data layouts for convolutional neural networks |
KR101879207B1 (ko) * | 2016-11-22 | 2018-07-17 | 주식회사 루닛 | 약한 지도 학습 방식의 객체 인식 방법 및 장치 |
US20180225554A1 (en) * | 2017-02-06 | 2018-08-09 | Honda Motor Co., Ltd. | Systems and methods of a computational framework for a driver's visual attention using a fully convolutional architecture |
US10019788B1 (en) * | 2017-02-14 | 2018-07-10 | Cogniac, Corp. | Machine-learning measurements of quantitative feature attributes |
US10685429B2 (en) * | 2017-02-22 | 2020-06-16 | Siemens Healthcare Gmbh | Denoising medical images by learning sparse image representations with a deep unfolding approach |
US10580131B2 (en) * | 2017-02-23 | 2020-03-03 | Zebra Medical Vision Ltd. | Convolutional neural network for segmentation of medical anatomical images |
US10713540B2 (en) * | 2017-03-07 | 2020-07-14 | Board Of Trustees Of Michigan State University | Deep learning system for recognizing pills in images |
-
2018
- 2018-09-17 US US16/132,475 patent/US10282864B1/en active Active
-
2019
- 2019-05-06 EP EP19172863.3A patent/EP3624016A1/en active Pending
- 2019-08-27 KR KR1020190105479A patent/KR102309702B1/ko active IP Right Grant
- 2019-08-29 CN CN201910808347.1A patent/CN110910395B/zh active Active
- 2019-09-09 JP JP2019163898A patent/JP6856851B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060109286A1 (en) * | 2004-11-23 | 2006-05-25 | Niranjan Damera-Venkata | System and method for correcting defective pixels of a display device |
US20170169400A1 (en) * | 2015-12-10 | 2017-06-15 | General Electric Company | Automatic Classification of Aircraft Component Distress |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
JP2018084982A (ja) * | 2016-11-24 | 2018-05-31 | キヤノン株式会社 | 画像処理装置、情報処理方法及びプログラム |
CN108509978A (zh) * | 2018-02-28 | 2018-09-07 | 中南大学 | 基于cnn的多级特征融合的多类目标检测方法及模型 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7491041B2 (ja) | 2019-05-22 | 2024-05-28 | 富士通株式会社 | 画像コーディング装置、確率モデル生成装置及び画像デコーディング装置 |
Also Published As
Publication number | Publication date |
---|---|
US10282864B1 (en) | 2019-05-07 |
KR102309702B1 (ko) | 2021-10-08 |
JP6856851B2 (ja) | 2021-04-14 |
CN110910395A (zh) | 2020-03-24 |
CN110910395B (zh) | 2023-07-28 |
EP3624016A1 (en) | 2020-03-18 |
KR20200031993A (ko) | 2020-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020047271A (ja) | イメージエンコーディングのための方法及び装置そしてこれを利用したテスト方法及びテスト装置 | |
KR102362744B1 (ko) | 딥 뉴럴 네트워크(deep neural network) 기반의 다중 패치 조합(multiple patch combination)을 이용하여 얼굴을 인식하고, 극도의 상황에서 결함 허용 능력 및 흔들림에 강인한 성질을 향상시키는 방법 | |
KR102337383B1 (ko) | 하드웨어 최적화에 사용되는 1xK 또는 Kx1 컨벌루션 연산을 이용한 CNN을 학습하는 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
KR102313133B1 (ko) | 컨벌루션 뉴럴 네트워크로부터 복수의 출력들의 앙상블을 이용하여 통합된 특징 맵을 제공하기 위한 방법 및 장치 | |
KR102246326B1 (ko) | 라플라시안 피라미드 네트워크를 이용하여 자율 주행 자동차 레벨 4 및 레벨 5를 만족시키기 위해 요구되는 도로 장애물 검출에 있어서의 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 및 이를 이용한 테스팅 방법 및 테스팅 장치 | |
US10496899B1 (en) | Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same | |
KR102313604B1 (ko) | 멀티 피딩을 적용한 학습 방법 및 학습 장치 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
KR102337358B1 (ko) | 모바일 장치 또는 소형 네트워크에 적용 가능한 하드웨어를 최적화하는데 사용될 수 있는 roi를 풀링하기 위하여, 마스킹 파라미터를 이용하는 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
US11100369B2 (en) | Training method for tag identification network, tag identification apparatus/method and device | |
US10387753B1 (en) | Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same | |
JP6857368B2 (ja) | Cnn学習方法及び学習装置、これを利用したテスト方法及びテスト装置 | |
KR102338750B1 (ko) | 하드웨어 최적화에 사용되는 1xH 컨벌루션을 이용한 CNN 기반의 객체 검출기를 학습하는 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
CN111476341A (zh) | 转换cnn的卷积层的方法及装置 | |
KR20200092840A (ko) | 에지 로스를 이용하여 보행자 이벤트, 자동차 이벤트, 폴링 이벤트, 폴른 이벤트를 포함한 이벤트를 검출하는데 있어 이용되는 세그먼테이션 성능 향상을 위한 학습 방법 및 학습 장치 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 | |
EP3690726A1 (en) | Learning method and learning device for generating training data from virtual data on virtual world by using generative adversarial network, to thereby reduce annotation cost required in training processes of neural network for autonomous driving, and a testing method and a testing device using the same | |
KR20200092847A (ko) | 핵심 성능 지수를 만족시킬 수 있는 하드웨어 최적화가 이루어지도록, cnn에서 복수의 블록 내의 입력 이미지로부터 특징을 추출하는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
US10325185B1 (en) | Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same | |
JP2020038666A (ja) | 自律走行状況で障害物検出のための学習用データセットの生成方法及びこれを利用したコンピューティング装置、学習方法及び学習装置 | |
KR20200093427A (ko) | 스마트폰, 드론, 선박 혹은 군사적 목적에 이용하기 위한, 입력 데이터를 분석하는 뉴럴 네트워크를 온디바이스 연속 학습하는 방법 및 장치, 그리고, 이에 의해 학습된 뉴럴 네트워크를 테스트하는 방법 및 장치 | |
Patil | Image recognition using machine learning | |
KR20200094076A (ko) | 스마트폰, 드론, 선박 혹은 군사적 목적을 위한, 트레이닝 이미지의 최적화 샘플링에 의해 입력 데이터를 분석하는 뉴럴 네트워크의 온디바이스 연속 학습 방법 및 장치, 그리고, 이를 이용한 테스트 방법 및 장치 | |
Ma et al. | Yes-net: an effective detector based on global information | |
Graham | Unsupervised learning with sparse space-and-time autoencoders | |
KR20220134428A (ko) | 서로 다른 스펙을 가지는 영상 장치들로부터 획득된 이미지들을 이용하여 퍼셉션 네트워크를 학습 및 테스트하는 방법 및 이를 이용한 학습 및 테스트 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190909 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200929 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6856851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |