JP6870868B2

JP6870868B2 - Ｎｏｎ−ＲＧＢフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルＧＡＮを使用してＲＧＢトレーニングイメージセットをＮｏｎ−ＲＧＢトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置

Info

Publication number: JP6870868B2
Application number: JP2020004204A
Authority: JP
Inventors: 金桂賢; 金鎔重; 金寅洙; 金鶴京; 南雲鉉; 夫碩▲くん▼; 成明哲; 呂東勳; 柳宇宙; 張泰雄; 鄭景中; 諸泓模; 趙浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-15
Publication date: 2021-05-12
Anticipated expiration: 2040-01-15
Also published as: US10395392B1; CN111507887A; CN111507887B; JP2020126606A; KR102372685B1; EP3690737A1; EP3690737B1; KR20200095332A

Description

本発明は、自律走行車両に使用するための学習方法及び学習装置に関し、具体的に、Ｎｏｎ−ＲＧＢフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルＧＡＮを使用してＲＧＢトレーニングイメージセットをＮｏｎ−ＲＧＢトレーニングイメージセットに変換するための学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置に関する。

ディープコンボリューションニューラルネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｏｒＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解決するために９０年代にも使用されていたが、近年になって機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野で広く使用されるようになった。例えば、ＣＮＮは、２０１２年にイメージ認識コンテスト（ＩｍａｇｅＮｅｔＬａｒｇｅＳｃａｌｅＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎＣｈａｌｌｅｎｇｅ）で他の競争相手に勝って優勝を収めた。その後、ＣＮＮは、機械学習分野で非常に有用なツールとして使用されるようになった。

最近ＣＮＮは、自律走行自動車の分野で極めて広く使用されている。自律走行自動車の分野で使用される場合、ＣＮＮは自動車に取り付けられたカメラからイメージを取得し、これを利用して車線を探索するなどの役割を遂行する。このために、ＣＮＮはトレーニングイメージを利用して学習を遂行するが、トレーニングイメージは主にＲＧＢフォーマットである。

しかし、場合によってＣＮＮは、Ｎｏｎ−ＲＧＢフォーマットを有するテストイメージを処理するように要求される。事前に準備されたＲＧＢフォーマットを有するイメージを単に投入する学習プロセスとは異なり、テストプロセスでは、Ｎｏｎ−ＲＧＢフォーマットを有するイメージは運行中である実際の自動車のカメラまたはセンサーから取得され得る。ところが、ＣＮＮがＲＧＢフォーマットを有するイメージを使用して学習したため、Ｎｏｎ−ＲＧＢフォーマットを有するテストイメージを適切に処理することができなくなる。学習されたＣＮＮのパラメータは、ＲＧＢフォーマットを基準とするためである。

したがって、従来の技術は、このような問題点を解決するためにテスト時に取得されるイメージのフォーマットをリアルタイムに変換することにより、テストイメージのフォーマットが学習イメージのフォーマットと同一であるようにした。しかし、このような場合、リアルタイムに全てのピクセルの値を数学的に変換しなければならないため、オーバーヘッド（ｏｖｅｒｈｅａｄ）が生じるようになるが、このようなオーバーヘッドは、リアルタイム性が最も重要な自律走行分野において大きな短所となる。ＹＵＶフォーマットをＲＧＢフォーマットに変更する場合のように、その変換式が簡単な場合にはこのようなオーバーヘッドが些細なものであり得もするが、変換式が非常に複雑であるか変換式が存在しない場合には、このような方法は使用することができない短所がある。

結局、このようなフォーマットの問題をテスト時に解決しようとすることは容易でないので、テストイメージと同一のフォーマットを有する新たなトレーニングイメージを利用してＣＮＮのパラメータを再度学習させる方が簡便である。

しかし、このような解決策にも問題があるが、ＣＮＮが一定の水準以上の性能を示すようにするためには、学習の過程で数万枚以上の、非常に多くのトレーニングイメージが必要であるという点である。ＣＮＮは、トレーニングイメージそのものの他にも、これに対応する原本正解を必要とするが、原本正解は人が直接作らなければならないので、数万枚以上のトレーニングイメージを必要とするということは、極めて多くの金と時間を必要とするということと同じであって、これは大きな短所となる。

本発明は、前述した問題点を解決することを目的とする。

本発明は、サイクルＧＡＮを使用してＲＧＢフォーマットを有するトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットを有するトレーニングイメージセットに変換することにより、Ｎｏｎ−ＲＧＢフォーマットを有するトレーニングイメージセットを別途に確保する困難がないようにすることを目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下の通りである。

本発明の一態様によると、サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するための学習方法において、（ａ）学習装置が、ＲＧＢフォーマットを有する少なくとも一つの第１イメージを取得すると、第１トランスフォーマをもって、前記第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータ（ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することで第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させる段階；（ｂ）前記学習装置が、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを取得すると、前記第２トランスフォーマをもって、前記第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリーＲＧＢフォーマットを有するイメージであるのか、又はセカンダリーＲＧＢフォーマットを有するイメージであるのかを確認することで第２＿１の結果を生成させ、前記プライマリーＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリーＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させる段階；及び（ｃ）前記学習装置が、前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記第１＿１の結果と、前記第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階；を含むことを特徴とする学習方法が提供される。

一実施例において、前記（ｃ）段階は、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数（ｃｏｎｓｔａｎｔ）であることを特徴とする学習方法が提供される。

一実施例において、前記（ｃ）段階は、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、前記学習装置が、予め学習されたＲＧＢ物体検出器をもって、前記第３イメージから一つ以上の物体を検出させ、前記第３イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第１イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする学習方法が提供される。

一実施例において、前記（ｃ）段階は、

前記ロスに含まれた前記第１ディスクリミネータ用ＦＤロスは前記数式によって定義され、NRは前記Ｎｏｎ−ＲＧＢフォーマットを有する任意のイメージ、D_G(NR)は前記第１ディスクリミネータから出力された前記Ｎｏｎ−ＲＧＢフォーマットを有する前記任意のイメージを決定する第１＿２の結果、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果を意味することを特徴とする学習方法が提供される。

一実施例において、前記（ｃ）段階は、

前記ロスに含まれた前記第２ディスクリミネータ用ＳＤロスは前記数式によって定義され、Rは前記ＲＧＢフォーマットを有する任意のイメージ、D_F(R)は前記第２ディスクリミネータから出力された前記ＲＧＢフォーマットを有する前記任意のイメージを決定する第２＿２の結果、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果を意味することを特徴とする学習方法が提供される。

一実施例において、前記第１トランスフォーマ及び前記第２トランスフォーマそれぞれは、エンコードレイヤ及びデコードレイヤの少なくとも一部を含むことを特徴とする学習方法が提供される。

本発明の他の態様によると、サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するためのテスト方法において、（ａ）（１）学習装置が、ＲＧＢフォーマットを有する少なくとも一つの第１イメージを取得すると、第１トランスフォーマをもって、前記第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータをもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは、前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させる段階；（２）前記学習装置が、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを取得すると、前記第２トランスフォーマをもって、前記第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させる段階；及び（３）前記学習装置が、前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記トレーニング用第１＿１の結果と、前記トレーニング用第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階；を経て学習が完了した状態で、テスト装置が、前記ＲＧＢフォーマットを有する少なくとも一つのテストイメージを取得する段階；及び（ｂ）前記テスト装置が、前記第１トランスフォーマをもって、前記テストイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの結果イメージに変換させる段階；を含むことを特徴とするテスト方法が提供される。

一実施例において、前記結果イメージは、Ｎｏｎ−ＲＧＢフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのＮｏｎ−ＲＧＢ物体検出器の学習に使用されることを特徴とするテスト方法が提供される。

本発明のまた他の態様によると、サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するための学習装置において、各インストラクションを格納する少なくとも一つのメモリと、（Ｉ）第１トランスフォーマをもって、ＲＧＢフォーマットを有する少なくとも一つの第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータをもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することで第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させるプロセス；（ＩＩ）前記第２トランスフォーマをもって、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することで第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させるプロセス；及び（ＩＩＩ）前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記第１＿１の結果と、前記第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習するプロセス；を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする学習装置が提供される。

一実施例において、前記（ＩＩＩ）プロセスは、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であることを特徴とする学習装置が提供される。

一実施例において、前記（ＩＩＩ）プロセスは、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、前記プロセッサが、予め学習されたＲＧＢ物体検出器をもって、前記第３イメージから一つ以上の物体を検出させ、前記第３イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第１イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする学習装置が提供される。

一実施例において、前記（ＩＩＩ）プロセスは、

前記ロスに含まれた前記第１ディスクリミネータ用ＦＤロスは前記数式によって定義され、NRは前記Ｎｏｎ−ＲＧＢフォーマットを有する任意のイメージ、D_G(NR)は前記第１ディスクリミネータから出力された前記Ｎｏｎ−ＲＧＢフォーマットを有する前記任意のイメージを決定する第１＿２の結果、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果を意味することを特徴とする学習装置が提供される。

一実施例において、前記（ＩＩＩ）プロセスは、

前記ロスに含まれた前記第２ディスクリミネータ用ＳＤロスは前記数式によって定義され、Rは前記ＲＧＢフォーマットを有する任意のイメージ、D_F(R)は前記第２ディスクリミネータから出力された前記ＲＧＢフォーマットを有する前記任意のイメージを決定する第２＿２の結果、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果を意味することを特徴とする学習装置が提供される。

一実施例において、前記第１トランスフォーマ及び前記第２トランスフォーマそれぞれは、エンコードレイヤ及びデコードレイヤの少なくとも一部を含むことを特徴とする学習装置が提供される。

本発明のまた他の態様によると、サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するためのテスト装置において、各インストラクションを格納する少なくとも一つのメモリと、（１）第１トランスフォーマをもって、ＲＧＢフォーマットを有する少なくとも一つの第１トレーニングイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２トレーニングイメージに変換させ、第１ディスクリミネータをもって、前記第２トレーニングイメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２トレーニングイメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３トレーニングイメージに変換させ、（２）前記第２トランスフォーマをもって、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの前記第４トレーニングイメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５トレーニングイメージに変換させ、第２ディスクリミネータをもって、前記第５トレーニングイメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５トレーニングイメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６トレーニングイメージに変換させ、（３）前記第１トレーニングイメージと、前記第２トレーニングイメージと、前記第３トレーニングイメージと、前記第４トレーニングイメージと、前記第５トレーニングイメージと、前記第６トレーニングイメージと、前記トレーニング用第１＿１の結果と、前記トレーニング用第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習した状態で、前記第１トランスフォーマをもって、ＲＧＢフォーマットを有する少なくとも一つのテストイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの結果イメージに変換させるプロセス；を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とするテスト装置が提供される。

一実施例において、前記結果イメージは、Ｎｏｎ−ＲＧＢフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのＮｏｎ−ＲＧＢ物体検出器の学習に使用されることを特徴とするテスト装置が提供される。

本発明は、サイクルＧＡＮを使用してＲＧＢフォーマットを有するトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットを有するトレーニングイメージセットに変換することにより、Ｎｏｎ−ＲＧＢフォーマットを有するトレーニングイメージセットを別途に確保する困難のないようにする効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの各図面に基づいて他の各図面が得られ得る。

本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための学習方法を遂行する学習装置の構成を示した図面である。本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための第１トランスフォーマ及び第２トランスフォーマを簡略に示した図面である。本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための学習装置を簡略に示した図面である。本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための物体検出ロスを計算する過程を示した図面である。

後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための学習方法を遂行する学習装置の構成を示した図面である。

図１を参照すると、学習装置１００は、追って詳しく説明する各構成要素である第１トランスフォーマ（ｔｒａｎｓｆｏｒｍｅｒ）１３０、第１ディスクリミネータ（ｄｉｓｃｒｉｍｉｎａｔｏｒ）１４０、第２トランスフォーマ１５０、第２ディスクリミネータ１６０、ＲＧＢ物体検出器１７０及びＮｏｎ−ＲＧＢ物体検出器１８０を含むことができる。第１トランスフォーマ１３０、第１ディスクリミネータ１４０、第２トランスフォーマ１５０、第２ディスクリミネータ１６０、ＲＧＢ物体検出器１７０、及びＮｏｎ−ＲＧＢ物体検出器１８０の入出力及び演算の過程は、それぞれ通信部１１０及びプロセッサ１２０によって行われ得る。ただし、図１では通信部１１０及びプロセッサ１２０の具体的な連結関係を省略した。この場合、少なくとも一つのメモリ１１５は、後述する様々なインストラクションを予め格納した状態であり得、プロセッサ１２０は、メモリ１１５に格納された各インストラクションを遂行するように設定され、プロセッサ１２０は追って説明する各プロセスを遂行することにより、本発明を遂行することができる。このように学習装置１００が描写されたからといって、学習装置１００が本発明を実施するためのミディアム、プロセッサ及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。

ここで、第１トランスフォーマ１３０及び第２トランスフォーマ１５０は、それぞれに入力されるイメージのフォーマットを変換することができる。具体的には、第１トランスフォーマ１３０はＲＧＢフォーマットの少なくとも一つの入力イメージをＮｏｎ−ＲＧＢフォーマットのイメージに変換することができ、第２トランスフォーマ１５０はＮｏｎ−ＲＧＢフォーマットの入力イメージをＲＧＢフォーマットのイメージに変換することができる。Ｎｏｎ−ＲＧＢフォーマットとは、ＲＧＢフォーマットではなく、イメージを表すために使用されるすべてのフォーマットを意味し得る。例示として、ＹＵＶ、ＩＲ、ＩＲ−ＲＧＢ、グレースケール（Ｇｒａｙｓｃａｌｅ）に該当し得るが、これに限定されるわけではない。また、第１トランスフォーマ１３０及び第２トランスフォーマ１５０は、一つ以上のＣＮＮで構成され得るが、これに限定されるわけではない。

図２は、本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための第１トランスフォーマ及び第２トランスフォーマを簡略に示した図面である。

第１トランスフォーマ１３０及び第２トランスフォーマ１５０は、エンコードレイヤ及びデコードレイヤのうち少なくとも一部を含むことができる。エンコードレイヤは、入力されたイメージに少なくとも一つのコンボリューション演算を適用することにより少なくとも一つの特徴マップを生成することができ、デコーディングレイヤは、特徴マップに少なくとも一つのデコンボレーション演算を適用することによりフォーマットが変換されたイメージを生成することができる。したがって、トランスフォーマは、ＲＧＢフォーマットのイメージをＮｏｎ−ＲＧＢフォーマットに、またはＮｏｎ−ＲＧＢフォーマットのイメージをＲＧＢフォーマットのイメージに変換することができる。

第１ディスクリミネータ１４０及び第２ディスクリミネータ１６０は、それぞれに入力されるイメージが、そのフォーマットが変換されたフォーマットのイメージであるのか変換されていないフォーマットのイメージであるのかを判断することができる。具体的に、第１ディスクリミネータ１４０は、入力されたイメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを決定することができ、前記プライマリＮｏｎ−ＲＧＢフォーマットは、前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは、前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、前者の場合１を出力し、後者の場合０を出力することができる。また、第２ディスクリミネータ１６０は、入力されたイメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを決定することができ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前者の場合１を出力し、後者の場合０を出力することができる。第１ディスクリミネータ１４０及び第２ディスクリミネータ１６０もやはりＣＮＮで構成され得るが、これに限定されるわけではない。

また、ＲＧＢ物体検出器１７０は、一つ以上のＣＮＮで構成され得るが、具体的に、コンボリューションレイヤ及びＦＣレイヤを含むことができる。コンボリューションレイヤは、入力されたイメージに少なくとも一つのコンボリューション演算を適用することにより特徴マップを生成することができ、ＦＣレイヤは、特徴マップにバウンディングボックスリグレッションを適用することにより一つ以上の物体を検出することができる。もちろん、ＲＧＢ物体検出器１７０は、このような構成に限定されないであろう。一実施例において、ＲＧＢ物体検出器１７０は、ＲＧＢフォーマットを有するトレーニングイメージセットを使用して学習がすでに完了された状態であり得る。

Ｎｏｎ−ＲＧＢ物体検出器１８０の場合、ＲＧＢ物体検出器１７０と同一または類似した構成を含むことができるので、具体的な説明は省略することにする。ただし、一実施例において、ＲＧＢ物体検出器１７０と異なり、Ｎｏｎ−ＲＧＢ物体検出器１８０は学習されていない状態であり得る。

以上、本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための学習方法を遂行する学習装置１００の構成を見てみたところ、本発明の学習方法について図３を参照して具体的に検討することにする。

図３は、本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための学習装置を簡略に示した図面である。

図３を参照すると、第１トランスフォーマ１３０、第１ディスクリミネータ１４０、第２トランスフォーマ１５０、第２ディスクリミネータ１６０、及びＲＧＢ物体検出器１７０が動作する概括的な方式を確認することができる。大きく二つのプロセスが存在しているが、これを正方向プロセス１０１及び逆方向プロセス１０２と定義することにする。

正方向プロセス１０１は、ＲＧＢフォーマットを有する少なくとも一つの第１イメージを、第１トランスフォーマ１３０によってＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第２イメージを取得した第１ディスクリミネータ１４０によって第２イメージに対する判断結果である第１＿１の判断結果が生成されるようにし、第２イメージが第２トランスフォーマ１５０によってＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換するプロセスである。第１＿１の判断結果を生成する部分と第２イメージを第３イメージに変換する部分とは並列に遂行されるか、いずれか一つがより先に遂行されても構わない。

逆方向プロセス１０２は、Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを、第２トランスフォーマ１５０によってＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第５イメージを取得した第２ディスクリミネータ１６０によって第５イメージに対する判断結果である第２＿１の判断結果が生成されるようにし、第５イメージが第１トランスフォーマ１３０によってＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換するプロセスである。第２＿１の判断結果を生成する部分と第５イメージを第６イメージに変換する部分とは並列的に遂行されるか、いずれか一つがより先に遂行されても構わない。これ以外にも、正方向プロセス１０１及び逆方向プロセス１０２のうちいずれか一つがより先に遂行されてもよく、並列して遂行されてもよい。

このようなプロセスを経るのは、第１トランスフォーマ１３０、第１ディスクリミネータ１４０、第２トランスフォーマ１５０、及び第２ディスクリミネータ１６０をより十分に学習するための一つ以上のロスを計算するためであるが、これを具体的に説明するために学習装置１００のそれぞれの構成要素を学習するためのロスを計算する過程を検討する。

まず、第１トランスフォーマ１３０及び第２トランスフォーマ１５０に適用される、少なくとも一つのトランスフォーマ用第１ロスについて検討する。

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数（ｃｏｎｓｔａｎｔ）であり得る。

前記トランスフォーマ用第１ロスにおいてａｒｇｍｉｎ関数の因数として使用される項（ｔｅｒｍ）のうちで、log(1-D_G(G(I)))は、第１ディスクリミネータ１４０を欺く方向に第１トランスフォーマ１３０を学習させるための項である。すなわち、ａｒｇｍｉｎ関数は全体の値が小さくなるように誘導するので、log(1-D_G(G(I)))項もやはり小さくなるが、ｌｏｇ関数は増加関数であるのでｌｏｇ内部の1-D_G(G(I))が小さくなるように誘導し、結局D_G(G(I))が大きくなる。第１ディスクリミネータ１４０は、フォーマットが変換されていないイメージに対して１を出力するので、本項は第１トランスフォーマ１３０が第１ディスクリミネータ１４０を欺く方向に学習させるためのものである。

２番目の項である、γ|I-F(G(I))|の場合、変換されたイメージが元来のイメージと類似するように、すなわち、第２イメージを第１イメージと類似させることができる。第１トランスフォーマ１３０が単に第１ディスクリミネータ１４０を欺く方向にのみ学習すれば、イメージに含まれた各特徴が格納されないことがあるので、原本との差が少ないようにする項を設けたのである。つまり、I-F(G(I))、すなわち第１イメージと第３イメージとの差が少なくなるようにするのであるが、ここで差とは、第１イメージ内のそれぞれの値と第３イメージ内の対応するそれぞれの値との間の不一致を意味し得る。２番目の項によって、正方向プロセス１０１で第２イメージを第３イメージに変換する部分が存在するのである。

３番目の項と４番目の項は、それぞれ最初の項と２番目の項が存在する理由と同じであるが、異なる点は、３番目の項と４番目の項は第２トランスフォーマ１５０のために使用される点である。第２トランスフォーマ１５０が十分に学習される場合にのみ２番目の項によって第１トランスフォーマ１３０が十分に学習され得る。３番目の項と４番目の項で使用される各値は、逆方向プロセス１０２によって取得され得る。それ以外の３番目の項と４番目の項の具体的な事項は、最初の項及び２番目の項と大同小異であるため、前記文段に示されている内容を通じて通常の技術者が容易に類推することができるものであるところ、省略することにする。

トランスフォーマ用第１ロスは、物体検出ロスをさらに含むことができる。これを数式で表現すると次の通りである。

ODは物体検出ロスを意味し得、λは物体検出ロスの重み付け値を調整するための定数を意味し得る。

図４は、本発明の一実施例にしたがって、ＲＧＢフォーマットのトレーニングイメージセットをＮｏｎ−ＲＧＢフォーマットのトレーニングイメージセットに変換するための物体検出ロスを計算する過程を示した図面である。

図４を参照すると、物体検出ロスは、前述したＲＧＢ物体検出器１７０によって計算され得る。具体的に、学習装置１００が、予め学習されたＲＧＢ物体検出器１７０をもって、前記第３イメージから一つ以上の物体を検出させ、前記第３イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第１イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することができる。このような物体検出ロスは、イメージのフォーマットが変換された後にもこれに含まれた物体のディテールがそのまま維持されるようにするためにロスに含まれ得る。前述した２番目の項もほぼ同じ役割を遂行するが、これはイメージが概括的に類似するようにするだけであって、物体検出ロスのようにそれぞれの物体のディテールを選択的かつ優先的に格納することができるようにする役割はできない。したがって、このような物体検出ロスを追加することにより、第１トランスフォーマ１３０の性能が極めて向上し得る。物体検出ロスの重み付け値を調整するための定数であるλが存在するが、これもやはりプログラマーがフォーマットが変換された結果イメージを参照して適切に調節することができる。

以上、トランスフォーマ用第１ロスについて検討したところ、ディスクリミネータ用ロスを計算する方式について検討することにする。

第１ディスクリミネータ１４０用ロスであるＦＤロスは前記数式によって定義され得る。この場合、NRは前記Ｎｏｎ−ＲＧＢフォーマットを有する任意のイメージ、D_G(NR)は前記第１ディスクリミネータから出力された前記Ｎｏｎ−ＲＧＢフォーマットを有する前記任意のイメージを決定する第１＿２の結果、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果を意味し得る。ａｒｇｍａｘは前記式の値が大きくなるように誘導するところ、D_G(NR)が１と出力されるようにし、D_G(G(I))が０と出力されるようにする。したがって、第１ディスクリミネータ１４０は、入力イメージのフォーマットが以前に変換されたか否かを正確に判断することができるようになるのである。図４では第２イメージだけが入力されることのみ示されているが、第２イメージのような、フォーマットが変換されたイメージのみ取得するのではなく、Ｎｏｎ−ＲＧＢフォーマットを有する任意のイメージも取得して、フォーマットが変換されたイメージと変換されていないイメージとを区分しながら学習することができる。

第２ディスクリミネータ１６０用ロスであるＳＤロスは、前記数式によって定義され得る。この場合、Rは前記ＲＧＢフォーマットを有する任意のイメージ、D_F(R)は前記第２ディスクリミネータから出力された前記任意のイメージを決定する第２＿２の結果、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果を意味し得る。第１ディスクリミネータ用ＦＤロスと同様に、第２ディスクリミネータ１６０は、入力されたフォーマットが以前に変換されたか否かを前記公式によって正確に判断することが可能になるのである。第２ディスクリミネータ１６０もやはり図４に示されていないが、ＲＧＢフォーマットを有する任意のイメージを取得して学習に使用することができる。

前記にて説明したトランスフォーマ用第１ロス、第１ディスクリミネータ用ＦＤロス、及び第２ディスクリミネータ用ＳＤロスを含む一つ以上のロスが計算されると、学習装置１００は、第１トランスフォーマ１３０、第１ディスクリミネータ１４０、第２トランスフォーマ１５０、第２ディスクリミネータ１６０のパラメータの少なくとも一部を学習することができる。

このように学習することにより、第１トランスフォーマ１３０は、イメージのフォーマットを変えながらも、その内部のコンテンツは原本と同一または類似するように維持し得るのである。

学習過程は前記の通りであり、学習が完了した後のテスト過程について検討することにする。

参考までに、後述する説明で混同を防止するために、トレーニングプロセスに関する用語には「トレーニング用」という文句が追加され、テストプロセスに関する用語には「テスト用」という文句が追加された。

（１）学習装置１００が、第１トランスフォーマ１３０をもって、ＲＧＢフォーマットを有する少なくとも一つの第１トレーニングイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２トレーニングイメージに変換させ、第１ディスクリミネータ１４０をもって、前記第２トレーニングイメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマ１５０をもって、前記第２トレーニングイメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３トレーニングイメージに変換させ、（２）学習装置１００が、前記第２トランスフォーマ１５０をもって、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの前記第４トレーニングイメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５トレーニングイメージに変換させ、第２ディスクリミネータ１６０をもって、前記第５トレーニングイメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することによりトレーニング用第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマ１３０をもって、前記第５トレーニングイメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６トレーニングイメージに変換させ、（３）学習装置１００が、前記第１トレーニングイメージと、前記第２トレーニングイメージと、前記第３トレーニングイメージと、前記第４トレーニングイメージと、前記第５トレーニングイメージと、前記第６トレーニングイメージと、前記トレーニング用第１＿１の結果と、前記トレーニング用第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマ１３０、前記第２トランスフォーマ１５０、前記第１ディスクリミネータ１４０及び前記第２ディスクリミネータ１６０のパラメータの少なくとも一部を学習した状態で、テスト装置はＲＧＢフォーマットを有する少なくとも一つのテストイメージを取得することができる。

その後、テスト装置は第１トランスフォーマ１３０をもって、Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの結果イメージに変換させることができる。

このようにテスト過程を経てテスト用イメージがＮｏｎ−ＲＧＢフォーマットを有する結果イメージに変換されると、前記結果イメージは、Ｎｏｎ−ＲＧＢフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのＮｏｎ−ＲＧＢ物体検出器の学習に使用され得る。

本発明の技術分野における通常の技術者に理解され得るところとして、上記で説明されたイメージ、例えば、原本イメージ、原本ラベル及び追加ラベルのようなイメージデータの送受信が学習装置及びテスト装置の各通信部により行われ得、特徴マップと演算を遂行するためのデータが学習装置及びテスト装置のプロセッサ（及び／又はメモリ）によって保有／維持され得、コンボリューション演算、デコンボリューション演算、ロス値演算の過程が主に学習装置及びテスト装置のプロセッサによって遂行され得るが、本発明がこれに限定されはしないであろう。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

（付記）
本発明は、Ｎｏｎ−ＲＧＢフォーマットを有するイメージの物体に対する物体検出学習に使用され得るように、サイクルＧＡＮを使用してＲＧＢトレーニングイメージセットをＮｏｎ−ＲＧＢトレーニングイメージセットに変換して、コンピューティング負荷及びリサイクルデータを顕著に減少させ得る学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置｛ＬＥＡＲＮＩＮＧＭＥＴＨＯＤＡＮＤＬＥＡＲＮＩＮＧＤＥＶＩＣＥＦＯＲＳＴＲＡＴＥＧＩＣＴＲＡＮＳＦＯＲＭＩＮＧＲＧＢＴＲＡＩＮＩＮＧＩＭＡＧＥＳＥＴＳＩＮＴＯＮＯＮ−ＲＧＢＴＲＡＩＮＩＮＧＩＭＡＧＥＳＥＴＳ，ＴＯＢＥＵＳＥＤＦＯＲＬＥＡＲＮＩＮＧＯＢＪＥＣＴＤＥＴＥＣＴＩＯＮＯＮＯＢＪＥＣＴＳＯＦＩＭＡＧＥＳＩＮＮＯＮ−ＲＧＢＦＯＲＭＡＴ，ＢＹＵＳＩＮＧＣＹＣＬＥＧＡＮ，ＲＥＳＵＬＴＩＮＧＩＮＳＩＧＮＩＦＩＣＡＮＴＬＹＲＥＤＵＣＩＮＧＣＯＭＰＵＴＡＴＩＯＮＡＬＬＯＡＤＡＮＤＲＥＵＳＩＮＧＤＡＴＡ｝に関する。

より詳細には、サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して、少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するための学習方法において、（ａ）学習装置が、ＲＧＢフォーマットを有する少なくとも一つの第１イメージを取得すると、第１トランスフォーマをもって、前記第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータをもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することで第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させる段階；（ｂ）前記学習装置が、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを取得すると、前記第２トランスフォーマをもって、前記第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することで第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させる段階；及び（ｃ）前記学習装置が、前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記第１＿１の結果と、前記第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階；を含むことを特徴とする学習方法及び学習装置、そしてそれを利用したテスト方法及びテスト装置に関する。

Claims

サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するための学習方法において、
（ａ）学習装置が、ＲＧＢフォーマットを有する少なくとも一つの第１イメージを取得すると、第１トランスフォーマ（ｔｒａｎｓｆｏｒｍｅｒ）をもって、前記第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータ（ｄｉｓｃｒｉｍｉｎａｔｏｒ）をもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することで第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させる段階；
（ｂ）前記学習装置が、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを取得すると、前記第２トランスフォーマをもって、前記第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリーＲＧＢフォーマットを有するイメージであるのか、又はセカンダリーＲＧＢフォーマットを有するイメージであるのかを確認することで第２＿１の結果を生成させ、前記プライマリーＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリーＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させる段階；及び
（ｃ）前記学習装置が、前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記第１＿１の結果と、前記第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階；
を含むことを特徴とする学習方法。
前記（ｃ）段階は、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数（ｃｏｎｓｔａｎｔ）であることを特徴とする請求項１に記載の学習方法。
前記（ｃ）段階は、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、
前記学習装置が、予め学習されたＲＧＢ物体検出器をもって、前記第３イメージから一つ以上の物体を検出させ、前記第３イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第１イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする請求項１に記載の学習方法。
前記（ｃ）段階は、

前記ロスに含まれた前記第１ディスクリミネータ用ＦＤロスは前記数式によって定義され、NRは前記Ｎｏｎ−ＲＧＢフォーマットを有する任意のイメージ、D_G(NR)は前記第１ディスクリミネータから出力された前記Ｎｏｎ−ＲＧＢフォーマットを有する前記任意のイメージを決定する第１＿２の結果、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果を意味することを特徴とする請求項１に記載の学習方法。
前記（ｃ）段階は、

前記ロスに含まれた前記第２ディスクリミネータ用ＳＤロスは前記数式によって定義され、Rは前記ＲＧＢフォーマットを有する任意のイメージ、D_F(R)は前記第２ディスクリミネータから出力された前記ＲＧＢフォーマットを有する前記任意のイメージを決定する第２＿２の結果、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果を意味することを特徴とする請求項１に記載の学習方法。
前記第１トランスフォーマ及び前記第２トランスフォーマそれぞれは、エンコードレイヤ及びデコードレイヤの少なくとも一部を含むことを特徴とする請求項１に記載の学習方法。
サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するためのテスト方法において、
（ａ）（１）学習装置が、ＲＧＢフォーマットを有する少なくとも一つの第１イメージを取得すると、第１トランスフォーマをもって、前記第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータをもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは、前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させる段階；（２）前記学習装置が、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを取得すると、前記第２トランスフォーマをもって、前記第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させる段階；及び（３）前記学習装置が、前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記トレーニング用第１＿１の結果と、前記トレーニング用第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習する段階；を経て学習が完了した状態で、テスト装置が、前記ＲＧＢフォーマットを有する少なくとも一つのテストイメージを取得する段階；及び
（ｂ）前記テスト装置が、前記第１トランスフォーマをもって、前記テストイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの結果イメージに変換させる段階；
を含むことを特徴とするテスト方法。
前記結果イメージは、Ｎｏｎ−ＲＧＢフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのＮｏｎ−ＲＧＢ物体検出器の学習に使用されることを特徴とする請求項７に記載のテスト方法。
サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するための学習装置において、
各インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）第１トランスフォーマをもって、ＲＧＢフォーマットを有する少なくとも一つの第１イメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２イメージに変換させ、第１ディスクリミネータをもって、前記第２イメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することで第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３イメージに変換させるプロセス；（ＩＩ）前記第２トランスフォーマをもって、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４イメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５イメージに変換させ、第２ディスクリミネータをもって、前記第５イメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することで第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５イメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６イメージに変換させるプロセス；及び（ＩＩＩ）前記第１イメージと、前記第２イメージと、前記第３イメージと、前記第４イメージと、前記第５イメージと、前記第６イメージと、前記第１＿１の結果と、前記第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習するプロセス；を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする学習装置。
前記（ＩＩＩ）プロセスは、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であることを特徴とする請求項９に記載の学習装置。
前記（ＩＩＩ）プロセスは、

一つ以上の前記ロスに含まれたトランスフォーマ用第１ロスは前記数式によって定義され、Iは前記第１イメージ、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果、F(G(I))は前記第３イメージ、Xは前記第４イメージ、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果、G(F(X))は前記第６イメージを意味し、γ及びβは各|I-F(G(I))|及び|X-G(F(X))|の重み付け値それぞれを調整するための定数であり、ODは物体検出ロスを意味し、λは前記物体検出ロスの重み付け値それぞれを調整するための定数であり、
前記プロセッサが、予め学習されたＲＧＢ物体検出器をもって、前記第３イメージから一つ以上の物体を検出させ、前記第３イメージから検出された前記物体の予測された位置、サイズ、クラスに関する情報の少なくとも一部と、前記第１イメージに対応する少なくとも一つの原本正解に含まれた前記物体の実際の位置、サイズ、クラスに関する情報の少なくとも一部とを比較することにより、前記物体検出ロスを計算することを特徴とする請求項９に記載の学習装置。
前記（ＩＩＩ）プロセスは、

前記ロスに含まれた前記第１ディスクリミネータ用ＦＤロスは前記数式によって定義され、NRは前記Ｎｏｎ−ＲＧＢフォーマットを有する任意のイメージ、D_G(NR)は前記第１ディスクリミネータから出力された前記Ｎｏｎ−ＲＧＢフォーマットを有する前記任意のイメージを決定する第１＿２の結果、G(I)は前記第２イメージ、D_G(G(I))は前記第１＿１の結果を意味することを特徴とする請求項９に記載の学習装置。
前記（ＩＩＩ）プロセスは、

前記ロスに含まれた前記第２ディスクリミネータ用ＳＤロスは前記数式によって定義され、Rは前記ＲＧＢフォーマットを有する任意のイメージ、D_F(R)は前記第２ディスクリミネータから出力された前記ＲＧＢフォーマットを有する前記任意のイメージを決定する第２＿２の結果、F(X)は前記第５イメージ、D_F(F(X))は前記第２＿１の結果を意味することを特徴とする請求項９に記載の学習装置。
前記第１トランスフォーマ及び前記第２トランスフォーマそれぞれは、エンコードレイヤ及びデコードレイヤの少なくとも一部を含むことを特徴とする請求項９に記載の学習装置。
サイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を利用して少なくとも一つの正答情報がタグ付けされたＲＧＢイメージを少なくとも一つの正答情報がタグ付けされたＮｏｎ−ＲＧＢイメージに変換するためのテスト装置において、
各インストラクションを格納する少なくとも一つのメモリと、
（１）第１トランスフォーマをもって、ＲＧＢフォーマットを有する少なくとも一つの第１トレーニングイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第２トレーニングイメージに変換させ、第１ディスクリミネータをもって、前記第２トレーニングイメージがプライマリ（ｐｒｉｍａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのか、又はセカンダリ（ｓｅｃｏｎｄａｒｙ）Ｎｏｎ−ＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第１＿１の結果を生成させ、前記プライマリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経ていないＮｏｎ−ＲＧＢフォーマットであり、前記セカンダリＮｏｎ−ＲＧＢフォーマットは前記ＲＧＢフォーマットから変換を経たＮｏｎ−ＲＧＢフォーマットであることを特徴とし、第２トランスフォーマをもって、前記第２トレーニングイメージを前記ＲＧＢフォーマットを有する少なくとも一つの第３トレーニングイメージに変換させ、（２）前記第２トランスフォーマをもって、前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第４トレーニングイメージを前記ＲＧＢフォーマットを有する少なくとも一つの第５トレーニングイメージに変換させ、第２ディスクリミネータをもって、前記第５トレーニングイメージがプライマリＲＧＢフォーマットを有するイメージであるのか又はセカンダリＲＧＢフォーマットを有するイメージであるのかを確認することでトレーニング用第２＿１の結果を生成させ、前記プライマリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経ていないＲＧＢフォーマットであり、前記セカンダリＲＧＢフォーマットは前記Ｎｏｎ−ＲＧＢフォーマットから変換を経たＲＧＢフォーマットであることを特徴とし、前記第１トランスフォーマをもって、前記第５トレーニングイメージを前記Ｎｏｎ−ＲＧＢフォーマットを有する少なくとも一つの第６トレーニングイメージに変換させ、（３）前記第１トレーニングイメージと、前記第２トレーニングイメージと、前記第３トレーニングイメージと、前記第４トレーニングイメージと、前記第５トレーニングイメージと、前記第６トレーニングイメージと、前記トレーニング用第１＿１の結果と、前記トレーニング用第２＿１の結果とのうち少なくとも一部を参照して一つ以上のロスを計算し、前記第１トランスフォーマと、前記第２トランスフォーマと、前記第１ディスクリミネータと、前記第２ディスクリミネータとのパラメータのうち少なくとも一部を学習した状態で、前記第１トランスフォーマをもって、ＲＧＢフォーマットを有する少なくとも一つのテストイメージをＮｏｎ−ＲＧＢフォーマットを有する少なくとも一つの結果イメージに変換させるプロセス；を遂行するための前記各インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とするテスト装置。
前記結果イメージは、Ｎｏｎ−ＲＧＢフォーマットを有する前記テストイメージにある一つ以上の物体を検出するためのＮｏｎ−ＲＧＢ物体検出器の学習に使用されることを特徴とする請求項１５に記載のテスト装置。