JP2020126606A - Non−RGBフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルGANを使用してRGBトレーニングイメージセットをNon−RGBトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 - Google Patents
Non−RGBフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルGANを使用してRGBトレーニングイメージセットをNon−RGBトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 Download PDFInfo
- Publication number
- JP2020126606A JP2020126606A JP2020004204A JP2020004204A JP2020126606A JP 2020126606 A JP2020126606 A JP 2020126606A JP 2020004204 A JP2020004204 A JP 2020004204A JP 2020004204 A JP2020004204 A JP 2020004204A JP 2020126606 A JP2020126606 A JP 2020126606A
- Authority
- JP
- Japan
- Prior art keywords
- image
- rgb format
- rgb
- transformer
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000010998 test method Methods 0.000 title claims description 6
- 238000012360 testing method Methods 0.000 claims description 44
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000013527 convolutional neural network Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/001—Texturing; Colouring; Generation of texture or colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
Description
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数(constant)であることを特徴とする学習方法が提供される。
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、前記学習装置が、予め学習されたRGB物体検出器をもって、前記第3イメージから一つ以上の物体を検出させ、前記第3イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第1イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする学習方法が提供される。
前記ロスに含まれた前記第1ディスクリミネータ用FDロスは前記数式によって定義され、NRは前記Non−RGBフォーマットを有する任意のイメージ、DG(NR)は前記第1ディスクリミネータから出力された前記Non−RGBフォーマットを有する前記任意のイメージを決定する第1_2の結果、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果を意味することを特徴とする学習方法が提供される。
前記ロスに含まれた前記第2ディスクリミネータ用SDロスは前記数式によって定義され、Rは前記RGBフォーマットを有する任意のイメージ、DF(R)は前記第2ディスクリミネータから出力された前記RGBフォーマットを有する前記任意のイメージを決定する第2_2の結果、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果を意味することを特徴とする学習方法が提供される。
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であることを特徴とする学習装置が提供される。
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、前記プロセッサが、予め学習されたRGB物体検出器をもって、前記第3イメージから一つ以上の物体を検出させ、前記第3イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第1イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする学習装置が提供される。
前記ロスに含まれた前記第1ディスクリミネータ用FDロスは前記数式によって定義され、NRは前記Non−RGBフォーマットを有する任意のイメージ、DG(NR)は前記第1ディスクリミネータから出力された前記Non−RGBフォーマットを有する前記任意のイメージを決定する第1_2の結果、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果を意味することを特徴とする学習装置が提供される。
前記ロスに含まれた前記第2ディスクリミネータ用SDロスは前記数式によって定義され、Rは前記RGBフォーマットを有する任意のイメージ、DF(R)は前記第2ディスクリミネータから出力された前記RGBフォーマットを有する前記任意のイメージを決定する第2_2の結果、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果を意味することを特徴とする学習装置が提供される。
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数(constant)であり得る。
ODは物体検出ロスを意味し得、λは物体検出ロスの重み付け値を調整するための定数を意味し得る。
第1ディスクリミネータ140用ロスであるFDロスは前記数式によって定義され得る。この場合、NRは前記Non−RGBフォーマットを有する任意のイメージ、DG(NR)は前記第1ディスクリミネータから出力された前記Non−RGBフォーマットを有する前記任意のイメージを決定する第1_2の結果、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果を意味し得る。argmaxは前記式の値が大きくなるように誘導するところ、DG(NR)が1と出力されるようにし、DG(G(I))が0と出力されるようにする。したがって、第1ディスクリミネータ140は、入力イメージのフォーマットが以前に変換されたか否かを正確に判断することができるようになるのである。図4では第2イメージだけが入力されることのみ示されているが、第2イメージのような、フォーマットが変換されたイメージのみ取得するのではなく、Non−RGBフォーマットを有する任意のイメージも取得して、フォーマットが変換されたイメージと変換されていないイメージとを区分しながら学習することができる。
第2ディスクリミネータ160用ロスであるSDロスは、前記数式によって定義され得る。この場合、Rは前記RGBフォーマットを有する任意のイメージ、DF(R)は前記第2ディスクリミネータから出力された前記任意のイメージを決定する第2_2の結果、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果を意味し得る。第1ディスクリミネータ用FDロスと同様に、第2ディスクリミネータ160は、入力されたフォーマットが以前に変換されたか否かを前記公式によって正確に判断することが可能になるのである。第2ディスクリミネータ160もやはり図4に示されていないが、RGBフォーマットを有する任意のイメージを取得して学習に使用することができる。
本発明は、Non−RGBフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルGANを使用してRGBトレーニングイメージセットをNon−RGBトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR STRATEGIC TRANSFORMING RGB TRAINING IMAGE SETS INTO NON−RGB TRAINING IMAGE SETS, TO BE USED FOR LEARNING OBJECT DETECTION ON OBJECTS OF IMAGES IN NON−RGB FORMAT, BY USING CYCLE GAN, RESULTING IN SIGNIFICANTLY REDUCING COMPUTATIONAL LOAD AND REUSING DATA}に関する。
Claims (16)
- サイクルGAN(Cycle Generative Adversarial Network)を利用して少なくとも一つの正答情報がタグ付けされたRGBイメージを少なくとも一つの正答情報がタグ付けされたNon−RGBイメージに変換するための学習方法において、
(a)学習装置が、RGBフォーマットを有する少なくとも一つの第1イメージを取得すると、第1トランスフォーマ(transformer)をもって、前記第1イメージをNon−RGBフォーマットを有する少なくとも一つの第2イメージに変換させ、第1ディスクリミネータ(discriminator)をもって、前記第2イメージがプライマリ(primary)Non−RGBフォーマットを有するイメージであるのか、又はセカンダリ(secondary)Non−RGBフォーマットを有するイメージであるのかを確認することで第1_1の結果を生成させ、前記プライマリNon−RGBフォーマットは前記RGBフォーマットから変換を経ていないNon−RGBフォーマットであり、前記セカンダリNon−RGBフォーマットは前記RGBフォーマットから変換を経たNon−RGBフォーマットであることを特徴とし、第2トランスフォーマをもって、前記第2イメージを前記RGBフォーマットを有する少なくとも一つの第3イメージに変換させる段階;
(b)前記学習装置が、前記Non−RGBフォーマットを有する少なくとも一つの第4イメージを取得すると、前記第2トランスフォーマをもって、前記第4イメージを前記RGBフォーマットを有する少なくとも一つの第5イメージに変換させ、第2ディスクリミネータをもって、前記第5イメージがプライマリーRGBフォーマットを有するイメージであるのか、又はセカンダリーRGBフォーマットを有するイメージであるのかを確認することで第2_1の結果を生成させ、前記プライマリーRGBフォーマットは前記Non−RGBフォーマットから変換を経ていないRGBフォーマットであり、前記セカンダリーRGBフォーマットは前記Non−RGBフォーマットから変換を経たRGBフォーマットであることを特徴とし、前記第1トランスフォーマをもって、前記第5イメージを前記Non−RGBフォーマットを有する少なくとも一つの第6イメージに変換させる段階;及び
(c)前記学習装置が、前記第1イメージと、前記第2イメージと、前記第3イメージと、前記第4イメージと、前記第5イメージと、前記第6イメージと、前記第1_1の結果と、前記第2_1の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第1トランスフォーマと、前記第2トランスフォーマと、前記第1ディスクリミネータと、前記第2ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階;
を含むことを特徴とする学習方法。 - 前記(c)段階は、
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数(constant)であることを特徴とする請求項1に記載の学習方法。 - 前記(c)段階は、
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、
前記学習装置が、予め学習されたRGB物体検出器をもって、前記第3イメージから一つ以上の物体を検出させ、前記第3イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第1イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする請求項1に記載の学習方法。 - 前記(c)段階は、
前記ロスに含まれた前記第1ディスクリミネータ用FDロスは前記数式によって定義され、NRは前記Non−RGBフォーマットを有する任意のイメージ、DG(NR)は前記第1ディスクリミネータから出力された前記Non−RGBフォーマットを有する前記任意のイメージを決定する第1_2の結果、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果を意味することを特徴とする請求項1に記載の学習方法。 - 前記(c)段階は、
前記ロスに含まれた前記第2ディスクリミネータ用SDロスは前記数式によって定義され、Rは前記RGBフォーマットを有する任意のイメージ、DF(R)は前記第2ディスクリミネータから出力された前記RGBフォーマットを有する前記任意のイメージを決定する第2_2の結果、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果を意味することを特徴とする請求項1に記載の学習方法。 - 前記第1トランスフォーマ及び前記第2トランスフォーマそれぞれは、エンコードレイヤ及びデコードレイヤの少なくとも一部を含むことを特徴とする請求項1に記載の学習方法。
- サイクルGAN(Cycle Generative Adversarial Network)を利用して少なくとも一つの正答情報がタグ付けされたRGBイメージを少なくとも一つの正答情報がタグ付けされたNon−RGBイメージに変換するためのテスト方法において、
(a)(1)学習装置が、RGBフォーマットを有する少なくとも一つの第1イメージを取得すると、第1トランスフォーマをもって、前記第1イメージをNon−RGBフォーマットを有する少なくとも一つの第2イメージに変換させ、第1ディスクリミネータをもって、前記第2イメージがプライマリ(primary)Non−RGBフォーマットを有するイメージであるのか、又はセカンダリ(secondary)Non−RGBフォーマットを有するイメージであるのかを確認することでトレーニング用第1_1の結果を生成させ、前記プライマリNon−RGBフォーマットは、前記RGBフォーマットから変換を経ていないNon−RGBフォーマットであり、前記セカンダリNon−RGBフォーマットは前記RGBフォーマットから変換を経たNon−RGBフォーマットであることを特徴とし、第2トランスフォーマをもって、前記第2イメージを前記RGBフォーマットを有する少なくとも一つの第3イメージに変換させる段階;(2)前記学習装置が、前記Non−RGBフォーマットを有する少なくとも一つの第4イメージを取得すると、前記第2トランスフォーマをもって、前記第4イメージを前記RGBフォーマットを有する少なくとも一つの第5イメージに変換させ、第2ディスクリミネータをもって、前記第5イメージがプライマリRGBフォーマットを有するイメージであるのか又はセカンダリRGBフォーマットを有するイメージであるのかを確認することでトレーニング用第2_1の結果を生成させ、前記プライマリRGBフォーマットは前記Non−RGBフォーマットから変換を経ていないRGBフォーマットであり、前記セカンダリRGBフォーマットは前記Non−RGBフォーマットから変換を経たRGBフォーマットであることを特徴とし、前記第1トランスフォーマをもって、前記第5イメージを前記Non−RGBフォーマットを有する少なくとも一つの第6イメージに変換させる段階;及び(3)前記学習装置が、前記第1イメージと、前記第2イメージと、前記第3イメージと、前記第4イメージと、前記第5イメージと、前記第6イメージと、前記トレーニング用第1_1の結果と、前記トレーニング用第2_1の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第1トランスフォーマと、前記第2トランスフォーマと、前記第1ディスクリミネータと、前記第2ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階;を経て学習が完了した状態で、テスト装置が、前記RGBフォーマットを有する少なくとも一つのテストイメージを取得する段階;及び
(b)前記テスト装置が、前記第1トランスフォーマをもって、前記テストイメージをNon−RGBフォーマットを有する少なくとも一つの結果イメージに変換させる段階;
を含むことを特徴とするテスト方法。 - 前記結果イメージは、Non−RGBフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのNon−RGB物体検出器の学習に使用されることを特徴とする請求項7に記載のテスト方法。
- サイクルGAN(Cycle Generative Adversarial Network)を利用して少なくとも一つの正答情報がタグ付けされたRGBイメージを少なくとも一つの正答情報がタグ付けされたNon−RGBイメージに変換するための学習装置において、
各インストラクションを格納する少なくとも一つのメモリと、
(I)第1トランスフォーマをもって、RGBフォーマットを有する少なくとも一つの第1イメージをNon−RGBフォーマットを有する少なくとも一つの第2イメージに変換させ、第1ディスクリミネータをもって、前記第2イメージがプライマリ(primary)Non−RGBフォーマットを有するイメージであるのか、又はセカンダリ(secondary)Non−RGBフォーマットを有するイメージであるのかを確認することで第1_1の結果を生成させ、前記プライマリNon−RGBフォーマットは前記RGBフォーマットから変換を経ていないNon−RGBフォーマットであり、前記セカンダリNon−RGBフォーマットは前記RGBフォーマットから変換を経たNon−RGBフォーマットであることを特徴とし、第2トランスフォーマをもって、前記第2イメージを前記RGBフォーマットを有する少なくとも一つの第3イメージに変換させるプロセス;(II)前記第2トランスフォーマをもって、前記Non−RGBフォーマットを有する少なくとも一つの第4イメージを前記RGBフォーマットを有する少なくとも一つの第5イメージに変換させ、第2ディスクリミネータをもって、前記第5イメージがプライマリRGBフォーマットを有するイメージであるのか又はセカンダリRGBフォーマットを有するイメージであるのかを確認することで第2_1の結果を生成させ、前記プライマリRGBフォーマットは前記Non−RGBフォーマットから変換を経ていないRGBフォーマットであり、前記セカンダリRGBフォーマットは前記Non−RGBフォーマットから変換を経たRGBフォーマットであることを特徴とし、前記第1トランスフォーマをもって、前記第5イメージを前記Non−RGBフォーマットを有する少なくとも一つの第6イメージに変換させるプロセス;及び(III)前記第1イメージと、前記第2イメージと、前記第3イメージと、前記第4イメージと、前記第5イメージと、前記第6イメージと、前記第1_1の結果と、前記第2_1の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第1トランスフォーマと、前記第2トランスフォーマと、前記第1ディスクリミネータと、前記第2ディスクリミネータとのパラメータのうち少なくとも一部を学習するプロセス;を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。 - 前記(III)プロセスは、
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であることを特徴とする請求項9に記載の学習装置。 - 前記(III)プロセスは、
一つ以上の前記ロスに含まれたトランスフォーマ用第1ロスは前記数式によって定義され、Iは前記第1イメージ、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果、F(G(I))は前記第3イメージ、Xは前記第4イメージ、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果、G(F(X))は前記第6イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、
前記プロセッサが、予め学習されたRGB物体検出器をもって、前記第3イメージから一つ以上の物体を検出させ、前記第3イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第1イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする請求項9に記載の学習装置。 - 前記(III)プロセスは、
前記ロスに含まれた前記第1ディスクリミネータ用FDロスは前記数式によって定義され、NRは前記Non−RGBフォーマットを有する任意のイメージ、DG(NR)は前記第1ディスクリミネータから出力された前記Non−RGBフォーマットを有する前記任意のイメージを決定する第1_2の結果、G(I)は前記第2イメージ、DG(G(I))は前記第1_1の結果を意味することを特徴とする請求項9に記載の学習装置。 - 前記(III)プロセスは、
前記ロスに含まれた前記第2ディスクリミネータ用SDロスは前記数式によって定義され、Rは前記RGBフォーマットを有する任意のイメージ、DF(R)は前記第2ディスクリミネータから出力された前記RGBフォーマットを有する前記任意のイメージを決定する第2_2の結果、F(X)は前記第5イメージ、DF(F(X))は前記第2_1の結果を意味することを特徴とする請求項9に記載の学習装置。 - 前記第1トランスフォーマ及び前記第2トランスフォーマそれぞれは、エンコードレイヤ及びデコードレイヤの少なくとも一部を含むことを特徴とする請求項9に記載の学習装置。
- サイクルGAN(Cycle Generative Adversarial Network)を利用して少なくとも一つの正答情報がタグ付けされたRGBイメージを少なくとも一つの正答情報がタグ付けされたNon−RGBイメージに変換するためのテスト装置において、
各インストラクションを格納する少なくとも一つのメモリと、
(1)第1トランスフォーマをもって、RGBフォーマットを有する少なくとも一つの第1トレーニングイメージをNon−RGBフォーマットを有する少なくとも一つの第2トレーニングイメージに変換させ、第1ディスクリミネータをもって、前記第2トレーニングイメージがプライマリ(primary)Non−RGBフォーマットを有するイメージであるのか、又はセカンダリ(secondary)Non−RGBフォーマットを有するイメージであるのかを確認することでトレーニング用第1_1の結果を生成させ、前記プライマリNon−RGBフォーマットは前記RGBフォーマットから変換を経ていないNon−RGBフォーマットであり、前記セカンダリNon−RGBフォーマットは前記RGBフォーマットから変換を経たNon−RGBフォーマットであることを特徴とし、第2トランスフォーマをもって、前記第2トレーニングイメージを前記RGBフォーマットを有する少なくとも一つの第3トレーニングイメージに変換させ、(2)前記第2トランスフォーマをもって、前記Non−RGBフォーマットを有する少なくとも一つの前記第4トレーニングイメージを前記RGBフォーマットを有する少なくとも一つの第5トレーニングイメージに変換させ、第2ディスクリミネータをもって、前記第5トレーニングイメージがプライマリRGBフォーマットを有するイメージであるのか又はセカンダリRGBフォーマットを有するイメージであるのかを確認することでトレーニング用第2_1の結果を生成させ、前記プライマリRGBフォーマットは前記Non−RGBフォーマットから変換を経ていないRGBフォーマットであり、前記セカンダリRGBフォーマットは前記Non−RGBフォーマットから変換を経たRGBフォーマットであることを特徴とし、前記第1トランスフォーマをもって、前記第5トレーニングイメージを前記Non−RGBフォーマットを有する少なくとも一つの第6トレーニングイメージに変換させ、(3)前記第1トレーニングイメージと、前記第2トレーニングイメージと、前記第3トレーニングイメージと、前記第4トレーニングイメージと、前記第5トレーニングイメージと、前記第6トレーニングイメージと、前記トレーニング用第1_1の結果と、前記トレーニング用第2_1の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第1トランスフォーマと、前記第2トランスフォーマと、前記第1ディスクリミネータと、前記第2ディスクリミネータとのパラメータのうち少なくとも一部を学習した状態で、前記第1トランスフォーマをもって、RGBフォーマットを有する少なくとも一つのテストイメージをNon−RGBフォーマットを有する少なくとも一つの結果イメージに変換させるプロセス;を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。 - 前記結果イメージは、Non−RGBフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのNon−RGB物体検出器の学習に使用されることを特徴とする請求項15に記載のテスト装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/263,275 US10395392B1 (en) | 2019-01-31 | 2019-01-31 | Learning method and learning device for strategic transforming RGB training image sets into non-RGB training image sets, to be used for learning object detection on objects of images in non-RGB format, by using cycle GAN, resulting in significantly reducing computational load and reusing data |
US16/263275 | 2019-01-31 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126606A true JP2020126606A (ja) | 2020-08-20 |
JP6870868B2 JP6870868B2 (ja) | 2021-05-12 |
Family
ID=67700537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020004204A Active JP6870868B2 (ja) | 2019-01-31 | 2020-01-15 | Non−RGBフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルGANを使用してRGBトレーニングイメージセットをNon−RGBトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10395392B1 (ja) |
EP (1) | EP3690737B1 (ja) |
JP (1) | JP6870868B2 (ja) |
KR (1) | KR102372685B1 (ja) |
CN (1) | CN111507887B (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102403494B1 (ko) * | 2017-04-27 | 2022-05-27 | 에스케이텔레콤 주식회사 | 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법 |
CN111476866B (zh) * | 2020-04-09 | 2024-03-12 | 咪咕文化科技有限公司 | 视频优化与播放方法、系统、电子设备及存储介质 |
US20210374947A1 (en) * | 2020-05-26 | 2021-12-02 | Nvidia Corporation | Contextual image translation using neural networks |
US20220151567A1 (en) * | 2020-11-17 | 2022-05-19 | Siemens Healthcare Gmbh | Joint assessment of myocardial strain and intracardiac blood flow |
CN112381898B (zh) * | 2020-12-07 | 2024-03-01 | 苏州律点信息科技有限公司 | 一种影像特征的提取方法、装置、存储介质及电子设备 |
CN112396547B (zh) * | 2021-01-21 | 2021-04-20 | 平安科技(深圳)有限公司 | 基于无监督学习的课程推荐方法、装置、设备及介质 |
CN114332793B (zh) * | 2021-12-10 | 2024-09-10 | 重庆长安汽车股份有限公司 | 多平台图像数据的数据标注自动流转处理方法及处理系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU714354B2 (en) * | 1995-05-22 | 1999-12-23 | Canon Kabushiki Kaisha | Image detection system |
US6865291B1 (en) * | 1996-06-24 | 2005-03-08 | Andrew Michael Zador | Method apparatus and system for compressing data that wavelet decomposes by color plane and then divides by magnitude range non-dc terms between a scalar quantizer and a vector quantizer |
US10614287B2 (en) * | 2014-06-16 | 2020-04-07 | Siemens Healthcare Diagnostics Inc. | Virtual staining of cells in digital holographic microscopy images using general adversarial networks |
US9471836B1 (en) * | 2016-04-01 | 2016-10-18 | Stradvision Korea, Inc. | Method for learning rejector by forming classification tree in use of training images and detecting object in test images, and rejector using the same |
WO2019019199A1 (en) * | 2017-07-28 | 2019-01-31 | Shenzhen United Imaging Healthcare Co., Ltd. | SYSTEM AND METHOD FOR IMAGE CONVERSION |
US10726304B2 (en) * | 2017-09-08 | 2020-07-28 | Ford Global Technologies, Llc | Refining synthetic data with a generative adversarial network using auxiliary inputs |
-
2019
- 2019-01-31 US US16/263,275 patent/US10395392B1/en active Active
- 2019-11-15 KR KR1020190147095A patent/KR102372685B1/ko active IP Right Grant
-
2020
- 2020-01-13 EP EP20151442.9A patent/EP3690737B1/en active Active
- 2020-01-15 JP JP2020004204A patent/JP6870868B2/ja active Active
- 2020-01-19 CN CN202010059550.6A patent/CN111507887B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111507887A (zh) | 2020-08-07 |
JP6870868B2 (ja) | 2021-05-12 |
US10395392B1 (en) | 2019-08-27 |
CN111507887B (zh) | 2023-08-22 |
KR20200095332A (ko) | 2020-08-10 |
KR102372685B1 (ko) | 2022-03-10 |
EP3690737B1 (en) | 2022-08-17 |
EP3690737A1 (en) | 2020-08-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020126606A (ja) | Non−RGBフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルGANを使用してRGBトレーニングイメージセットをNon−RGBトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
JP6886201B2 (ja) | ドメイン適応に適用され得るサイクルganを利用してリアルイメージ上の物体検出に使用される、リアル世界におけるリアルイメージをバーチャル世界におけるバーチャルイメージに変換するランタイム入力変換のための学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
KR102349910B1 (ko) | 가상 주행 환경에서 사용되는 도메인 적응에 적용될 수 있는 gan을 이용하여, 실제 특징 맵과 동일하거나 유사한 특성을 가지는 가상 특징 맵을 생성하는 학습 방법 및 학습 장치 | |
US20200250442A1 (en) | Method and device for attention-driven resource allocation by using avm and reinforcement learning to thereby achieve safety of autonomous driving | |
US20200250468A1 (en) | Learning method and learning device for sensor fusion to integrate information acquired by radar capable of distance estimation and information acquired by camera to thereby improve neural network for supporting autonomous driving, and testing method and testing device using the same | |
US10410120B1 (en) | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same | |
JP2020126607A (ja) | カメラから取得されたイメージと、それに対応するレーダまたはライダを通じて取得されたポイントクラウドマップをニューラルネットワークのそれぞれのコンボリューションステージごとに統合する学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置 | |
JP2020038667A (ja) | 自律走行状況での障害物検出のためのcnn学習用イメージデータセットの生成方法及び装置、そしてこれを利用したテスト方法及びテスト装置 | |
US10325179B1 (en) | Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same | |
KR102375286B1 (ko) | Gan을 이용해 가상 세계에 대한 가상 데이터로부터 나온 트레이닝 데이터를 생성하여, 자율 주행용 뉴럴 네트워크의 학습 프로세스에 필요한 어노테이션 비용을 줄이는 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
KR20200092845A (ko) | 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
KR102320995B1 (ko) | 객체의 스케일에 따라 모드 전환이 가능한 cnn 기반의 감시용 객체 검출기의 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치 | |
EP3686783A1 (en) | Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles | |
KR102309712B1 (ko) | 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
US10325185B1 (en) | Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same | |
CN114943757A (zh) | 基于单目景深预测和深度增强学习的无人机森林探索系统 | |
US20200252550A1 (en) | Method for correcting misalignment of camera by selectively using information generated by itself and information generated by other entities and device using the same | |
CN116740344A (zh) | 一种基于知识蒸馏的轻量化遥感影像语义分割方法及装置 | |
JP2020126622A (ja) | 非最大値抑制を学習する併合ネットワークを利用した異種センサ融合のための学習方法及び学習装置{learning method and learning device for heterogeneous sensor fusion by using merging network which learns non−maximum suppression} | |
KR20200091781A (ko) | 자율주행 자동차의 레벨 4를 충족시키기 위해 필요한 hd 지도와의 콜라보레이션을 지원하는 임베딩 로스 및 소프트맥스 로스를 이용하여 적어도 하나의 차선을 가지는 이미지를 세그멘테이션하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
US10635938B1 (en) | Learning method and learning device for allowing CNN having trained in virtual world to be used in real world by runtime input transformation using photo style transformation, and testing method and testing device using the same | |
EP3686809B1 (en) | Method and device for transforming cnn layers to optimize cnn parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization | |
CN115496991A (zh) | 基于多尺度跨模态特征融合的指代表达理解方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200115 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20200706 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20200709 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20201022 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6870868 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |