JP6849898B2

JP6849898B2 - 生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、合成可否判断不可の合成イメージを生成する方法、及び装置

Info

Publication number: JP6849898B2
Application number: JP2020004546A
Authority: JP
Inventors: − ヒョンキム、ケイ; キム、ヨンジュン; キム、インスー; − キョンキム、ハク; ナム、ウヒョン; ブー、ソッフン; ソン、ミュンチュル; ヨー、ドンフン; リュー、ウジュ; チャン、テウン; ジョン、キュンチョン; チェ、ホンモ; チョウ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-15
Publication date: 2021-03-31
Anticipated expiration: 2040-01-15
Also published as: JP2020126608A; EP3690705B1; US10325201B1; CN111507888A; KR102337362B1; KR20200095337A; CN111507888B; EP3690705C0; EP3690705A1

Description

監視システムがより正確に周辺状況を識別し、レアイベントを検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、合成可否判断不可の合成イメージを生成する方法、及び装置｛ＭＥＴＨＯＤＡＮＤＤＥＶＩＣＥＦＯＲＧＥＮＥＲＡＴＩＮＧＤＥＣＥＩＶＡＢＬＥＣＯＭＰＯＳＩＴＥＩＭＡＧＥＢＹＵＳＩＮＧＧＡＮＩＮＣＬＵＤＩＮＧＧＥＮＥＲＡＴＩＮＧＮＥＵＲＡＬＮＥＴＷＯＲＫＡＮＤＤＩＳＣＲＩＭＩＮＡＴＩＮＧＮＥＵＲＡＬＮＥＴＷＯＲＫＴＯＡＬＬＯＷＳＵＲＶＥＩＬＬＡＮＣＥＳＹＳＴＥＭＴＯＲＥＣＯＧＮＩＺＥＳＵＲＲＯＵＮＤＩＮＧＳＡＮＤＤＥＴＥＣＴＲＡＲＥＥＶＥＮＴＭＯＲＥＡＣＣＵＲＡＴＥＬＹ｝を提供する。

本発明は、自律走行車両に利用するための方法及び装置に関し；より詳細には、敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ、ＧＡＮ）を利用して、合成可否判断不可の合成イメージを生成して、レアイベントをより正確に検出する方法、及び装置、並びにこれを利用したテスティング方法、及びテスティング装置に関する。

ディープ・コンボリューション・ニューラル・ネットワーク（ＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓ；ＤｅｅｐＣＮＮ）は、ディープラーニング分野で起きた驚くべき発展の核心である。ＣＮＮは、文字の認識問題を解くために９０年代にすでに使われたが、現在のように広く使われるようになったのは最近の研究結果のおかげだ。このようなＣＮＮは、２０１２年ＩｍａｇｅＮｅｔイメージ分類コンテストで他の競争相手に勝って優勝を収めた。そして、コンボリューションニューラルネットワークは機械学習（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ）分野で非常に有用なツールとなった。

このように、ＣＮＮは銀行や軍事基地など、セキュリティが非常に重要な施設の監視システムにおいても利用され得る。すなわち、ＣＮＮがＣＣＴＶ映像データを適切に処理することでリアルタイムにレアイベント（例えば、銀行の場合は強盗の侵入、軍隊の場合は敵軍の侵入等があり得る）を感知し、従来のように人がＣＣＴＶ映像データをいちいち監視することに比べてより迅速かつ効率的に監視システムを運営・管理できるということである。

だが、こうした監視システムの具現化が難しい理由は、ＣＮＮを学習するためのトレーニングイメージが足りないからである。ＣＮＮの学習には、一万単位以上のトレーニングのイメージが必要だが、前記のようなレアイベントと関連されたトレーニングイメージは、当然その数が少ない。これにより、ＣＮＮの学習が難しくなり、こうした監視システムは商用化されずにいる。

本発明は、前述した問題点を解決することを目的とする。

本発明は、監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して、少なくとも一つの自然に合成されたイメージを生成する方法を提供することを目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は次の通りである。

本発明の一態様によれば、監視システム（ｓｕｒｖｅｉｌｌａｎｃｅｓｙｓｔｅｍ）が少なくとも一つのレアイベント（ｒａｒｅｅｖｅｎｔ）をより正確に検出できるようにするために、生成ニューラルネットワークと判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ，ＧＡＮ）を利用して、少なくとも一つの合成可否判断不可の合成イメージを生成する方法において、（ａ）コンピューティング装置が、前記合成可否判断不可の合成イメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景イメージと、前記レアイベントに対応する少なくとも一つのレア物体の少なくとも一つのレア物体イメージとが取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体イメージが挿入される前記背景イメージ上での前記レア物体の一つ以上の位置の候補群を生成するようにし、少なくとも一つの第１判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）によって計算された、それぞれの前記位置候補群に対応する候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記候補群点数を参考にして、前記レア物体の前記位置候補群の中の特定場所候補群を前記レア物体の最適位置に選択するようにする段階；（ｂ）前記コンピューティング装置が、前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体イメージを前記最適位置に挿入することにより少なくとも一つの初期合成イメージを生成するようにする段階；及び（ｃ）前記コンピューティング装置が、前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成イメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させる段階；を含むことを特徴とする方法が開示される。

一例として、前記（ｃ）段階は、前記コンピューティング装置が、前記調整レイヤをもって、前記レア物体イメージが挿入された前記初期合成イメージ上の少なくとも一部に対応する、少なくとも一つの特定領域に少なくとも一つのコンボリューション演算と、少なくとも一つのデコンボレーション演算とを適用させることにより、前記合成可否判断不可の合成イメージを生成させる段階；を含むことを特徴とする。

一例として、（ｄ）前記コンピューティング装置が、少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成イメージに対する少なくとも一つの自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成イメージ上の前記レア物体に対する少なくとも一つの存在点数との中の少なくとも一部が取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習するようにする段階；をさらに含むことを特徴とする。

一例として、前記第２判別器は、その入力イメージが前記合成可否判断不可の合成イメージであるか、それとも非合成イメージであるかを区別することにより、前記自然性点数を計算することを特徴とする。

一例として、前記物体検出ネットワークは、前記合成可否判断不可の合成イメージ上に前記レア物体が存在する確率を判断することにより、前記存在点数を計算することを特徴とする。

一例として、前記第２判別器は、（ｉ）前記合成可否判断不可の合成イメージ、（ｉｉ）非合成イメージ、及び（ｉｉｉ）前記第２判別器の入力イメージが前記合成可否判断不可の合成イメージであるか、それとも前記非合成イメージであるかを示す、前記非合成イメージと、前記合成可否判断不可の合成イメージに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）を参照にして、前記入力イメージが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする。

一例として、前記物体検出ネットワークは、（ｉ）前記レア物体含む第１群トレーニングイメージ、（ｉｉ）前記レア物体を含んでいない第２群トレーニングイメージ、及び（ｉｉｉ）前記物体検出ネットワークの入力イメージが前記レア物体を含んでいるか否かを示す、前記第１群と前記第２群とに対応する少なくとも一つのＧＴを参照にして、前記入力イメージに前記レア物体が含まれている確率を計算できるように学習されていることを特徴とする。

一例として、前記（ａ）段階で、前記位置指定レイヤが、（ｉ）前記背景イメージ上の背景物体を含む一つ以上の背景物体バウンディングボックスを生成し、（ｉｉ）それぞれの前記位置候補群上の前記レア物体に対応するレア物体バウンディングボックスそれぞれを追加的に生成することにより、前記背景イメージ上にそれぞれの合成レイアウトを生成し、前記第１判別器が、前記合成レイアウトのうち、少なくとも一部を参照にして、前記候補群点数それぞれを計算することを特徴とする。

一例として、前記第１判別器は、前記合成レイアウトそれぞれが非合成または合成であると判断される確率を計算することにより、前記候補群点数それぞれを計算することを特徴とする。

一例として、前記第１判別器は、（ｉ）それぞれの前記合成レイアウト、（ｉｉ）それぞれの非合成レイアウト及び（ｉｉｉ）前記第１判別器の入力レイアウトそれぞれが、前記非合成レイアウトであるか、それとも前記合成レイアウトであるかを示す、それぞれの前記合成レイアウトとそれぞれの非合成レイアウトとに対応する少なくとも一つのＧＴを参照にして、前記入力レイアウトが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする。

一例として、前記合成レイアウトのうち、特定合成レイアウトに含まれた、特定背景物体バウンディングボックスと、特定レア物体バウンディングボックスとは、特定背景物体及び特定レア物体に関するクラス情報を参照して生成された特定識別情報を含み、前記第１判別器は（ｉ）前記識別情報及び（ｉｉ）前記特定背景物体バウンディングボックスと、前記特定レア物体バウンディングボックスの位置に関する関係情報とを参照して、特定候補群点数を計算することを特徴とする。

本発明の他の態様によれば、監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して少なくとも一つの合成可否判断不可の合成テストイメージを生成するテスティング方法において、（ａ）学習装置が、（１）合成可否判断不可の合成トレーニングイメージ上で、レアイベントの背景に利用される少なくとも一つの背景トレーニングイメージと、前記レアイベントに対応する少なくとも一つの学習用レア物体の少なくとも一つのレア物体トレーニングイメージとを取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体トレーニングイメージが挿入される前記背景トレーニングイメージ上での前記学習用レア物体の一つ以上の学習用位置候補群を生成させ、少なくとも一つの第１判別器によって計算された、それぞれの前記学習用位置候補群に対応する学習用候補群点数それぞれが取得された後、前記位置指定レイヤをもって、前記学習用候補群点数を参考にして、前記学習用レア物体の前記学習用位置候補群の中の学習用特定位置候補群を前記学習用レア物体の学習用最適位置に選択するようにして、（２）前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体トレーニングイメージを前記学習用最適位置に挿入することにより少なくとも一つの初期合成トレーニングイメージを生成するようにし、（３）前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成トレーニングイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する学習用色値を調整させることにより、前記合成可否判断不可の合成トレーニングイメージを生成させ、（４）少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成トレーニングイメージに対する少なくとも一つの学習用自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成トレーニングイメージ上の前記学習用レア物体に対する少なくとも一つの学習用存在点数との中の少なくとも一部を取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記学習用自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習した状態で、テスティング装置が、前記合成可否判断不可の合成テストイメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景テストイメージと、前記レアイベントに対応する少なくとも一つのテスト用レア物体の少なくとも一つのレア物体テストイメージとが取得されると、前記生成ニューラルネットワークに含まれた前記位置指定レイヤをもって、前記レア物体テストイメージが挿入される前記背景テストイメージ上での前記テスト用レア物体の一つ以上のテスト用位置候補群を生成させ、前記第１判別器によって計算された、それぞれの前記テスト用位置候補群に対応するテスト用候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記テスト用候補群点数を参考にして、前記テスト用レア物体の前記テスト用位置候補群の中のテスト用特定位置候補群を前記テスト用レア物体のテスト用最適位置に選択するようにする段階；（ｂ）前記テスティング装置が、前記生成ニューラルネットワークに含まれた前記合成レイヤをもって、前記レア物体テストイメージを前記テスト用最適位置に挿入することにより少なくとも一つの初期合成テスト用イメージを生成するようにする段階；及び（ｃ）前記テスティング装置が、前記生成ニューラルネットワークに含まれた調整レイヤをもって、前記初期合成テストイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応するテスト用色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させる段階；を含むことを特徴とする方法が開示される。

本発明のまた他の態様によれば、監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して、少なくとも一つの合成可否判断不可の合成テストイメージを生成するコンピューティング装置において、各インストラクションを格納する少なくとも一つのメモリ；及び（Ｉ）前記合成可否判断不可の合成イメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景イメージと、前記レアイベントに対応する少なくとも一つのレア物体の少なくとも一つのレア物体イメージとが取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体イメージが挿入される前記背景イメージ上での前記レア物体の一つ以上の位置候補群を生成するようにし、少なくとも一つの第１判別器によって計算された、それぞれの前記位置候補群に対応する候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記候補群点数を参照にして、前記レア物体の前記位置候補群の中の特定位置候補群を前記レア物体の最適位置に選択させるプロセス、（ＩＩ）前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体イメージを前記最適位置に挿入することにより少なくとも一つの初期合成イメージを生成するようにするプロセス、（ＩＩＩ）前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成イメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させるプロセスを遂行するための、前記各インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするコンピューティング装置。
一例として、前記（ＩＩＩ）プロセスで、前記プロセッサが、前記調整レイヤをもって、前記レア物体イメージが挿入された前記初期合成イメージ上の少なくとも一部に対応する、少なくとも一つの特定領域に少なくとも一つのコンボリューション演算と、少なくとも一つのデコンボレーション演算とを適用させることにより、前記合成可否判断不可の合成イメージを生成させることを特徴とする。

一例として、前記プロセッサは、（ＩＶ）少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成イメージに対する少なくとも一つの自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成イメージ上の前記レア物体に対する少なくとも一つの存在点数との中の少なくとも一部が取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習するようにするプロセス；をさらに遂行することを特徴とする。

一例として、前記第２判別器は、（ｉ）前記合成可否判断不可の合成イメージ、（ｉｉ）前記非合成イメージ、及び（ｉｉｉ）前記第２判別器の入力イメージが前記合成可否判断不可の合成イメージであるか、それとも前記非合成イメージであるかを示す、前記非合成イメージと、前記合成可否判断不可の合成イメージに対応する少なくとも一つのＧＴを参照にして、前記入力イメージが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする。

一例として、前記（Ｉ）プロセスで、前記位置指定レイヤが、（ｉ）前記背景イメージ上の背景物体を含む一つ以上の背景物体バウンディングボックスを生成し、（ｉｉ）それぞれの前記位置候補群上の前記レア物体に対応するレア物体バウンディングボックスそれぞれを追加的に生成することにより、前記背景イメージ上にそれぞれの合成レイアウトを生成し、前記第１判別器が、前記合成レイアウトのうち、少なくとも一部を参照にして、前記候補群点数それぞれを計算することを特徴とする。

本発明のまた他の態様によれば、監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して少なくとも一つの合成可否判断不可の合成テストイメージ生成をテストするためのテスティング方法において、各インストラクションを格納する少なくとも一つのメモリ；及び学習装置が、（１）合成可否判断不可の合成トレーニングイメージ上で、レアイベントの背景に利用される少なくとも一つの背景トレーニングイメージと、前記レアイベントに対応する少なくとも一つの学習用レア物体の少なくとも一つのレア物体トレーニングイメージとを取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体トレーニングイメージが挿入される前記背景イメージ上での前記学習用レア物体の一つ以上の学習用位置候補群を生成するようにし、少なくとも一つの第１判別器によって計算された、それぞれの前記学習用位置候補群に対応する学習用候補群点数それぞれが取得された後、前記位置指定レイヤをもって、前記学習用候補群点数を参照にして、前記学習用レア物体の前記学習用位置候補群の中の学習用特定位置候補群を前記学習用レア物体の学習用最適位置に選択させ、（２）前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体トレーニングイメージを前記学習用最適位置に挿入することにより少なくとも一つの初期合成トレーニングイメージを生成するようにし、（３）前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成トレーニングイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する学習用色値を調整させることにより、前記合成可否判断不可の合成トレーニングイメージを生成させ、（４）少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成トレーニングイメージに対する少なくとも一つの学習用自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成トレーニングイメージ上の前記学習用レア物体に対する少なくとも一つの学習用存在点数との中の少なくとも一部を取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記学習用自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習した状態で、（Ｉ）前記合成可否判断不可の合成テストイメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景テストイメージと、前記レアイベントに対応する少なくとも一つのテスト用レア物体の少なくとも一つのレア物体テストイメージとが取得されると、前記生成ニューラルネットワークに含まれた前記位置指定レイヤをもって、前記レア物体テストイメージが挿入される前記背景テストイメージ上での前記テスト用レア物体の一つ以上のテスト用位置候補群を生成するようにし、前記第１判別器によって計算された、それぞれの前記テスト用位置候補群に対応するテスト用候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記テスト用候補群点数を参照にして、前記テスト用レア物体の前記テスト用位置候補群の中のテスト用特定位置候補群を前記テスト用レア物体のテスト用最適位置に選択させるプロセス、（ＩＩ）前記生成ニューラルネットワークに含まれた前記合成レイヤをもって、前記レア物体テストイメージを前記テスト用最適位置に挿入することにより少なくとも一つの初期合成テスト用イメージを生成するようにするプロセス、（ＩＩＩ）前記生成ニューラルネットワークに含まれた前記調整レイヤをもって、前記初期合成テストイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応するテスト用色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させるプロセスを遂行するための、前記各インストラクションを実行するように構成された少なくとも一つのプロセッサ；を含むことを特徴とするテスティング装置が開示される。

本発明は、監視システムがより正確に周辺事項を識別し、危険状況のようなレアイベントを検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ，ＧＡＮ）、より正確には、異種センサ融合（ｈｅｔｅｒｏｇｅｎｅｏｕｓｓｅｎｓｏｒｆｕｓｉｏｎ）を利用して、合成可否判断不可の合成イメージを生成する方法を提供できる効果ある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうちの一部に過ぎず、本発明が属する技術分野でおいて、通常の知識を有する者（以下「通常の技術者」）は、発明的作業が行われることなくこの図面に基づいて他の図面が得られ得る。

図１は、監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して、少なくとも一つの合成可否判断不可の合成テストイメージを生成するコンピューティング装置を概略的に示した図面である。図２は、監前記視システムが、前記レアイベントをより正確に検出できるようにするために、前記生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、前記合成可否判断不可の合成イメージを生成するために利用される前記生成ニューラルネットワークの構成を概略的に示した図面である。図３は、監前記視システムが、前記レアイベントをより正確に検出できるようにするために、前記生成ニューラルネットワークと、判別ニューラルネットワークとを含む前記敵対的生成ネットワークを利用して、前記合成可否判断不可の合成イメージを生成する方法を概略的に示した図面である。

後述する本発明に対する詳細な説明は、本発明の各目的、技術的解決方法及び長所を明確にするために、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように充分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のあらゆる可能な組合せを網羅する。本発明の多様な実施例は相互異なるが、相互排他的である必要はないことを理解されたい。例えば、ここに記載されている特定の形状、構造及び特性は一例と関連して、本発明の精神及び範囲を逸脱せず、かつ他の実施例で実装され得る。また、各々の開示された実施例内の個別構成要素の位置または配置は本発明の精神及び範囲を逸脱せずに変更され得ることを理解されたい。従って、後述する詳細な説明は限定的な意味で捉えようとするものではなく、本発明の範囲は、適切に説明されれば、その請求項が主張することと均等なすべての範囲と、併せて添付された請求項によってのみ限定される。図面で類似する参照符号はいくつかの側面にかけて同一か類似する機能を指称する。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施することができるようにするために、本発明の好ましい実施例について添付の図面に基づいて詳細に説明する。

図１は、監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、少なくとも一つの合成可否判断不可の合成テストイメージを生成するコンピューティング装置を概略的に示した図面である。

図１を参照すれば、前記コンピューティング装置１００は、後から詳しく説明される要素である前記生成ニューラルネットワーク２００と、少なくとも一つの第１判別器３００と、少なくとも一つの第２判別器４００と、少なくとも一つの物体検出ネットワーク５００とを含み得る。前記生成ニューラルネットワーク２００と、前記第１判別器３００と、前記第２判別器４００とを含む判別ニューラルネットワーク及び前記物体検出ネットワーク５００の入出力及び演算過程は、それぞれ通信部１１０やプロセッサ１２０によって行われ得る。ただし、図１では、前記通信部１１０と、前記プロセッサ１２０との間の具体的な連結関係を省略した。この際、メモリ１１５は、後述されるいくつかのインストラクションを格納した状態でもあり得、前記プロセッサ１２０は、前記メモリ１１５に格納された前記インストラクションを実行することができ、前記プロセッサ１２０は、後から説明されるプロセスを実行することにより本発明を行うことができる。このように前記コンピューティング装置１００が描写されたところで、前記コンピューティング装置１００が本発明を実施するためのプロセッサ、メモリ、ミディアム、または他のコンピューティング構成要素が統合された形態である統合プロセッサを含む場合を排除するものではない。

前記コンピューティング装置１００の全体的な構成について説明したところ、前記コンピューティング装置１００の構成要素の核心的な役割を遂行する前記生成ニューラルネットワーク２００の構造を説明するため、図２を参照する。

図２は、監前記視システムが、前記レアイベントをより正確に検出できるようにするために、前記生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワークを利用して、前記合成可否判断不可の合成イメージを生成するために利用される前記生成ニューラルネットワークの構成を概略的に示した図面である。

図２を参照すれば、前記生成ニューラルネットワーク２００は、少なくとも一つの位置指定レイヤ２１０と、少なくとも一つの合成レイヤ２２０と、少なくとも一つの調整レイヤ２３０と、少なくとも一つのロスレイヤ２４０とを含み得る。それぞれの前記レイヤがどのような役割をするかについては、後から図３を参照にして詳しく説明される。こちらも追って説明するが、前記コンピューティング装置１００が試験装置として機能する際には、前記ロスレイヤ２４０は除外され得る。

前記生成ニューラルネットワーク２００の構成は前記のようで、本発明に係る前記合成可否判断不可の合成イメージを生成する方法について具体的に説明し、これと同時に前記第１判別器３００と、前記第２判別器４００と、前記物体検出ネットワーク５００とについても説明する。このために、図３を参考する。

図３は、監前記視システムが、前記レアイベントをより正確に検出できるようにするために、前記生成ニューラルネットワークと、判別ニューラルネットワークとを含む前記敵対的生成ネットワークを利用して、前記合成可否判断不可の合成イメージを生成する方法を概略的に示した図面である。

図３を参照にすれば、本発明に係る前記合成可否判断不可の合成イメージを生成する方法は、前記生成ニューラルネットワーク２００に含まれた前記レイヤと、前記第１判別器３００と、前記第２判別器４００と、前記物体検出ネットワーク５００との間の相互作用を通じて遂行されることが分かる。

まず、前記コンピューティング装置１００が、前記監視システムを学習するのに利用される前記合成可否判断不可の合成イメージを生成するため、前記合成可否判断不可の合成イメージ上で前記レアイベントが起こる背景にしようとする少なくとも一つの背景イメージ２０１及び前記珍しいイベントに対応する少なくとも一つのレア物体の少なくとも一つのレア物体イメージ２０２を取得できる。以降、前記コンピューティング装置１００が、前記位置指定レイヤ２１０をもって、前記レア物体のイメージ２０２が挿入される前記背景イメージ２０１上での前記レア物体の位置候補群を生成するようにし得る。前記位置候補群は、第１位置候補群を選定した後、これをスライディングウィンドゥ方式で特定距離分だけ周辺に反復的に移動させることで生成され得る。その後、前記第１判別器３００は、それぞれの前記位置候補群に対応する一つ以上の候補群点数それぞれを評価する。

前記第１判別器３００が効率的に前記候補群点数を生成できるようにするため、前記位置指定レイヤ２１０は、前記第１判別器３００に入力されるそれぞれの合成レイアウトを生成することができる。具体的に、前記位置指定レイヤ２１０が、前記背景イメージ２０１に含まれた一つ以上の背景物体を認識して、前記背景イメージ２０１上で、前記背景物体を含む一つ以上の背景物体バウンディングボックスを生成することができる。また、前記レア物体に対応する一つ以上のレア物体バウンディングボックスは、それぞれの前記位置候補群上にそれぞれ生成され得る。このように、前記背景イメージ２０１上に前記背景物体バウンディングボックス及びそれぞれの前記レア物体バウンディングボックスが追加されることにより、それぞれの前記合成レイアウトが生成され得る。言い換えれば、それぞれの前記合成レイアウトは、それに対応するそれぞれの前記レア物体バウンディングボックスと、前記背景物体バウンディングボックスとを含み得る。後から説明されるが、前記背景物体バウンディングボックスと、前記レア物体バウンディングボックスとは、前記背景物体及び前記レア物体に対するクラス情報を参照にして生成される特定識別情報を含み得る。図３に示された特定合成レイアウト２０３は、前記合成レイアウトの一つの例示と見ることができる。

前記合成レイアウトが作成された後、前記第１判別器３００は、前記合成レイアウトそれぞれが非合成であるか、それとも合成であるかに関するそれぞれの確率を計算することにより、それぞれの前記候補群点数を計算するようになる。前記特定合成レイアウト２０３に対する特定候補群点数を計算する過程を例に挙げれば、前記第１判別器３００は、（ｉ）前記特定合成レイアウト２０３に含まれた特定背景物体バウンディングボックスと、特定レア物体に対する特定識別情報及び（ｉｉ）前記特定背景物体バウンディングボックスと、前記特定レア物体バウンディングボックスの位置に関する関係情報とを参照して、特定候補群点数を計算することができる。すなわち、前記特定合成レイアウトが実際のように（つまり、非合成のように）見えるか否か、すなわち、前記背景物体と、前記レア物体との位置関係が自然に見えるか否かを判断するということである。たとえば、前記特定背景物体バウンディングボックスの前記特定識別情報を分析した結果、前記特定背景物体バウンディングボックスの位置が「床」であると判断され、前記特定レア物体バウンディングボックスが前記特定背景物体バウンディングボックスと同じ高さに位置していると判断されれば、図３で示された前記レア物体イメージ２０２は、銃を持った強盗であり、前記銃を持った強盗が天井ではなく床に位置していることは自然であるので、前記特定候補群点数は高く設定され得るであろう。前記第１判別器３００は、前記生成ニューラルネットワーク２００と並列的に学習して、前記特定候補群点数に対してこのような判断をし得る。

具体的には、前記第１判別器３００は、前記生成ニューラルネットワーク２００によって生成されたそれぞれの前記合成レイアウトだけでなく、それぞれの非合成レイアウト（つまり、実際のレイアウト）を取得し得、前記第１判別器の入力レイアウトそれぞれがそれぞれの前記非合成レイアウトであるか、それともそれぞれの前記合成レイアウトであるかを示す、それぞれの前記非合成レイアウトと、それぞれの前記合成レイアウトとに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）を取得し得る。以降、前記取得された合成レイアウトと、前記取得された非合成レイアウトと、これに対応するＧＴとを参照にして、一つ以上のロスが計算され、前記第１判別器３００が前記ロスを利用したバックプロパゲーションによって前記入力レイアウトそれぞれが非合成であるか、それとも合成であるかを判断できるように学習され得る。

前記第１判別器３００は、前記合成レイアウトのうち、前記特定背景物体バウンディングボックスと、前記特定レア物体バウンディングボックスとの間の位置関係が、前記非合成レイアウトの対応要素の位置関係と類似しているものと判断される合成レイアウトに対して候補群点数を高くつけることができる。したがって、候補群点数が最も高い特定位置候補群は、前記レア物体の最適位置に決定され得る。前記最適位置を決定することは、前記合成可否判断不可の合成イメージに対応する合成レイアウトの要素の位置関係が前記非合成レイアウトの対応要素の位置関係と類似しているならば、前記合成可否判断不可の合成イメージが自然に見えるために遂行されるのである。

例示的に、前記特定合成レイアウト２０３に対応する特定候補群点数が最も高かったと仮定すれば、前記特定合成レイアウト２０３に対応する前記特定位置候補群が前記最適位置に選定され、前記レア物体イメージ２０２が前記最適位置に挿入されるであろう。

つまり、前記コンピューティング装置１００が、前記生成ニューラルネットワーク２００に含まれた前記合成レイヤ２２０をもって、前記レア物体イメージ２０２を前記最適位置に挿入することにより、初期合成イメージ２０４を生成するようにし得る。このように生成された前記初期合成イメージ２０４だけでも後の過程を遂行するにおいて問題はないが、やや不自然であり得るため、追加的な調整過程が必要なこともある。

これによって、前記コンピューティング装置が１００、前記生成ニューラルネットワーク２００に含まれた前記調整レイヤを２３０もって、前記初期合成イメージ２０４に含まれたそれぞれのピクセルのうち少なくとも一部に対応する色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させ得る。前記色値を調整する方式には色々あり得るが、例示的な方式としてコンボリューション演算及びデコンボリューション演算を適用して調整する方式があり得る。

具体的には、前記コンピューティング装置１００が、前記調整レイヤ２３０をもって、前記レア物体イメージ２０２が挿入された前記初期合成イメージ２０４上の少なくとも一部に対応する、少なくとも一つの特定領域に少なくとも一つのコンボリューション演算と、少なくとも一つのデコンボレーション演算とを適用させることにより、前記合成可否判断不可の合成イメージ２０５を生成させ得る。前記コンボリューション演算及び前記デコンボリューション演算が適用されることにより、前記合成可否判断不可の合成イメージ２０５上で前記レア物体イメージ２０２が、周りと自然に見えることができる。

前記合成可否判断不可の合成イメージ２０５をさらに自然に合成するために、前記第２判別器４００及び前記物体検出ネットワーク５００を利用した学習過程が要求される。以下、前記第２判別器４００及び前記物体検出ネットワーク５００について説明する。

まず、前記第２判別器４００は、その入力イメージが前記合成可否判断不可の合成イメージ２０５であるか、それとも非合成イメージであるかを区別することにより、少なくとも一つの自然性点数を計算し得る。つまり、前記合成可否判断不可の合成イメージ２０５が前記非合成イメージのように自然であるか否かを判断するのである。このような機能を遂行するために、前記第２判別器４００は、前記生成ニューラルネットワーク２００と並列的に学習し得る。

具体的に、前記第２判別器４００は、前記生成ニューラルネットワーク２００によって生成された前記合成可否判断不可の合成イメージ２０５だけでなく、前記非合成イメージを取得し得、前記第２判別器４００の前記入力イメージが、前記合成可否判断不可の合成イメージ２０５であるか、それとも前記非合成イメージであるかを示す、前記非合成イメージと、前記合成可否判断不可の合成イメージ２０５とに対応する少なくとも一つのＧＴを取得し得る。以降、前記取得された合成可否判断不可の合成イメージと、前記取得された非合成レイアウトと、これに対応するＧＴとを参照にして、一つ以上のロスが計算され、前記第２判別器４００が前記ロスを利用したバックプロパゲーションによって前記入力イメージが非合成であるか、それとも合成であるかを判断できるように学習され得る。この際、ユーザが望む合成イメージの用途に対応する前記非合成のイメージを入力することにより、前記合成可否判断不可の合成イメージの類型をある程度判断することができる。例えば、敵軍の探知のために利用される軍事用監視システムの場合、草むらに潜伏している敵軍を感知することが重要であるため、前記合成可否判断不可の合成イメージにおいても敵軍がよく見える場所に立っている姿ではなく、草むらに潜伏した姿を表すことが望ましい。その際、前記非合成イメージが草むらに隠れている動物を示したものと定める場合、前記合成可否判断不可の合成イメージは、前記のように前記草むらに潜伏している敵軍を示すことができるであろう。この場合、入力された前記非合成イメージに前記レア物体が含まれる必要はない。すなわち、前記例では、前記草むらに潜伏している敵軍を示す非合成トレーニングイメージが必ずしも必要なわけではなく、前記草むらに隠れている動物を示す非合成トレーニングイメージで十分であろう。

次に、前記物体検出ネットワーク５００は、前記合成可否判断不可の合成イメージ上に前記レア物体が存在する確率を判断することにより、少なくとも一つの存在点数を計算し得る。追って詳しく説明するが、これは前記学習過程で利用されることにより、前記合成可否判断不可の合成イメージ２０５が前記レア物体イメージ２０２を常に含むようにする。このような機能を遂行するために、前記物体検出ネットワーク５００は、前記生成ニューラルネットワーク２００が前記学習過程を遂行する前に学習された可能性もある。

具体的に、前記物体検出ネットワーク５００は、（ｉ）前記レア物体含む第１群トレーニングイメージ、（ｉｉ）前記レア物体を含んでいない第２群トレーニングイメージ、及び（ｉｉｉ）前記入力イメージが前記レア物体を含んでいるか否かを示す、前記第１群と前記第２群とに対応する少なくとも一つのＧＴを取得し得る。以降、前記取得された第１群と、前記学習された第２群と、これに対応するＧＴとを参照にして一つ以上のロスが計算され、前記物体検出ネットワーク５００は、前記ロスを利用したバックプロパゲーションによって前記物体検出ネットワーク５００の入力イメージに前記レア物体が含まれる確率を計算できるように学習されていることもある。

このような前記第２判別器４００及び前記物体検出ネットワーク５００が提供された状態で、前記コンピューティング装置１００は、（ｉ）前記第２判別器４００によって計算された、前記合成可否判断不可の合成イメージ２０５に対する前記自然性点数及び（ｉｉ）前記物体検出ネットワーク５００によって計算された、前記合成可否判断不可の合成イメージ２０５上の前記物体に対する前記存在点数の中の少なくとも一部を取得し得る。その後、前記コンピューティング装置１００は、前記生成ニューラルネットワーク２００に含まれた前記ロスレイヤ２４０をもって、前記自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワーク２００の前記パラメータを学習するようにし得る。この際、前記第１判別器３００と、前記第２判別器４００と、前記物体検出ネットワーク５００と、または前記判別ニューラルネットワーク内の他の構成要素のパラメータは、場合によって前記ロスレイヤ２４０または他のロスレイヤ（未図示）によって学習され得る。

前記ロスは、前記自然性の点数と、前記存在点数とが上昇する方向で前記合成可否判断不可の合成イメージ２０５を生成するように、前記生成ニューラルネットワーク２００に含まれたレイヤのパラメータを調整する役割を遂行する。

前記自然性点数が向上すれば、前記合成可否判断不可の合成イメージ２０５の様々な特性が前記非合成イメージと類似して前記合成可否判断不可の合成イメージ２０５が自然に見え、前記合成可否判断不可の合成イメージ２０５が自然に見えるなら、前記監視システムに入力された際に良い結果が出るものと予想される。

また、前記存在点数が向上すれば、前記生成ニューラルネットワーク２００が誤った方向に学習される可能性が減少するであろう。もし、前記第１判別器３００及び第２判別器４００のみを利用して、前記生成ニューラルネットワーク２００を学習する場合、単に前記合成可否判断不可の合成イメージ２０５の自然さだけが追求されたため、前記レア物体イメージ２０２を挿入しない方向に学習され得る。つまり、前記合成可否判断不可のイメージ２０５を自然に見えるように生成する最も簡単な方法は、前記合成可否判断不可のイメージ２０５が前記レア物体イメージ２０２なしに前記背景イメージ２０１だけを有するようにすることであるため、このような状況が発生しうるが、前記物体検出ネットワーク５００を共に利用することでこのような状況を防止し得る。前記存在点数が上昇する方向で学習することにより、前記合成可否判断不可のイメージ２０５は、前記レア物体イメージ２０２を常に含み得る。

前記生成ニューラルネットワーク２００は、多数の合成可否判断不可のイメージを生成して前述のような前記過程を複数回経て、これによって前記生成ニューラルネットワーク２００と、前記第１判別器３００と、前記第２判別器４００とが並列的に学習され得り、このように前記要素が、並列的・競争的に学習する前記ＧＡＮを採択することにより最適化されたテスト用合成可否判断不可のイメージが生成され得る。以下のテスティング過程について説明する。

参考までに、以下の説明において混乱を避けるために、前記学習過程に関連する用語には「学習用」または「トレーニング」という単語が追加され、前記テスティング過程に関連する用語には「テスト用」または「テスティング」という単語が追加された。

前記コンピューティング装置１００が、（１）前記合成可否判断不可の合成トレーニングイメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景トレーニングイメージと、前記レアイベントに対応する少なくとも一つの学習用レア物体の少なくとも一つのレア物体トレーニングイメージとを取得した後、前記生成ニューラルネットワーク２００に含まれた前記位置指定レイヤ２１０をもって、前記レア物体イメージが挿入される前記背景イメージ上での前記学習用レア物体の一つ以上の学習用位置の候補群を生成するようにし、前記第１判別器３００によって計算された、それぞれの前記学習用位置候補群に対応する候補群点数それぞれが取得されると、前記位置指定レイヤ２１０をもって、前記学習用候補群点数を参考にして、前記学習用レア物体の前記学習用位置候補群の中の学習用特定場所候補群を前記学習用レア物体の最適位置に選択するようにし、（２）前記生成ニューラルネットワーク２００に含まれた前記合成レイヤ２２０をもって、前記レア物体トレーニングイメージを前記学習用最適位置に挿入することにより少なくとも一つの初期合成トレーニングイメージを生成するようにし、（３）前記生成ニューラルネットワーク２００に含まれた前記調整レイヤ２３０をもって、前記初期合成トレーニングイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する学習用色値を調整させることにより、前記合成可否判断不可の合成トレーニングイメージを生成させ、（４）前記第２判別器４００によって計算された前記合成可否判断不可の合成トレーニングイメージに対する少なくとも一つの学習用自然性点数と、物体検出ネットワーク５００によって計算された前記合成可否判断不可の合成トレーニングイメージ上の前記学習用レア物体の学習用存在点数との中の少なくとも一部を取得した後、前記生成ニューラルネットワーク２００に含まれた少なくとも一つのロスレイヤをもって、前記学習用自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習した状態で、前記合成可否判断不可の合成テストイメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景テストイメージと、前記レアイベントに対応する少なくとも一つのテスト用レア物体の少なくとも一つのレア物体テストイメージとが取得されると、テスティング（未図示）が、前記生成ニューラルネットワーク２００に含まれた前記位置指定レイヤ２１０をもって、前記レア物体テストイメージが挿入される前記背景テストイメージ上での前記テスト用レア物体の一つ以上のテスト用位置候補群を生成するようにし、前記第１判別器３００によって計算された、それぞれの前記テスト用位置候補群に対応するテスト用候補群点数それぞれが取得されると、前記位置指定レイヤ２１０をもって、前記テスト用候補群点数を参照にして、前記テスト用レア物体の前記テスト用位置候補群の中のテスト用特定位置候補群を前記テスト用レア物体のテスト用最適位置に選択させることができる。

次に、前記テスティング装置は、前記生成ニューラルネットワーク２００に含まれた前記合成レイヤ２２０をもって、前記レア物体テストイメージを前記テスト用最適位置に挿入することにより少なくとも一つの初期合成テスト用イメージを生成するようにし得る。

その後、前記テスティング装置が、前記生成ニューラルネットワーク２００に含まれた調整レイヤ２３０をもって、前記初期合成テストイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応するテスト用色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させることができる。

このようなテスティング過程は、前述したように、図２に示された前記生成ニューラルネットワーク２００で前記ロスレイヤ２４０が除外された前記テスティング装置によって遂行され得る。

本発明技術分野の通常の技術者に理解され、前記で説明されたイメージ、例えば原本イメージ及び原本レーブル及び追加レーブルといったイメージデータの送受信がコンピューティング装置及びテスト装置の各通信部によって行われ得、特徴マップと演算を遂行するためのデータがコンピューティング装置及びテスト装置のプロセッサ（及び／またはメモリ）によって保有／維持され得、コンボリューション演算、デコンボリューション演算、ロス値の演算過程が主にコンピューティング装置及びテスティング装置のプロセッサにより遂行され得るが、本発明はこれに限定されるものではない。

また、本方法に係る前記方法は、３Ｄマップ、ＧＰＳ、スマートフォン、Ｖ２Ｘ通信などを利用して歩行者補助システム及び経路の設定にも適用され得る。

また、以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて遂行できるプログラム命令語の形態で実装されてコンピュータ読取り可能な記録媒体に記録され得る。前記コンピュータで読取り可能な記録媒体はプログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含まれ得る。前記コンピュータ判読可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知となって使用可能なものでもよい。コンピュータで判読可能な記録媒体の例には、ハードディスク、フロッピィディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気光媒体（ｍａｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどといったプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その逆も同様である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば係る記載から多様な修正及び変形が行われ得る。

従って、本発明の思想は前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

監視システム（ｓｕｒｖｅｉｌｌａｎｃｅｓｙｓｔｅｍ）が少なくとも一つのレアイベント（ｒａｒｅｅｖｅｎｔ）をより正確に検出できるようにするために、生成ニューラルネットワークと判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ，ＧＡＮ）を利用して、少なくとも一つの合成可否判断不可の合成イメージを生成する方法において、
（ａ）コンピューティング装置が、前記合成可否判断不可の合成イメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景イメージと、前記レアイベントに対応する少なくとも一つのレア物体の少なくとも一つのレア物体イメージとが取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体イメージが挿入される前記背景イメージ上での前記レア物体の一つ以上の位置の候補群を生成するようにし、少なくとも一つの第１判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）によって計算された、それぞれの前記位置候補群に対応する候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記候補群点数を参考にして、前記レア物体の前記位置候補群の中の特定場所候補群を前記レア物体の最適位置に選択するようにする段階；
（ｂ）前記コンピューティング装置が、前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体イメージを前記最適位置に挿入することにより少なくとも一つの初期合成イメージを生成するようにする段階；及び
（ｃ）前記コンピューティング装置が、前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成イメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させる段階；
を含むことを特徴とする方法。
前記（ｃ）段階は、
前記コンピューティング装置が、前記調整レイヤをもって、前記レア物体イメージが挿入された前記初期合成イメージ上の少なくとも一部に対応する、少なくとも一つの特定領域に少なくとも一つのコンボリューション演算と、少なくとも一つのデコンボレーション演算とを適用させることにより、前記合成可否判断不可の合成イメージを生成させる段階；
を含むことを特徴とする請求項１に記載の方法。
（ｄ）前記コンピューティング装置が、少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成イメージに対する少なくとも一つの自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成イメージ上の前記レア物体に対する少なくとも一つの存在点数との中の少なくとも一部が取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習するようにする段階；
をさらに含むことを特徴とする請求項１に記載の方法。
前記第２判別器は、その入力イメージが前記合成可否判断不可の合成イメージであるか、それとも非合成イメージであるかを区別することにより、前記自然性点数を計算することを特徴とする請求項３に記載の方法。
前記物体検出ネットワークは、前記合成可否判断不可の合成イメージ上に前記レア物体が存在する確率を判断することにより、前記存在点数を計算することを特徴とする請求項３に記載の方法。
前記第２判別器は、（ｉ）前記合成可否判断不可の合成イメージ、（ｉｉ）非合成イメージ、及び（ｉｉｉ）前記第２判別器の入力イメージが前記合成可否判断不可の合成イメージであるか、それとも前記非合成イメージであるかを示す、前記非合成イメージと、前記合成可否判断不可の合成イメージに対応する少なくとも一つのＧＴ（ＧｒｏｕｎｄＴｒｕｔｈ）を参照にして、前記入力イメージが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする請求項３に記載の方法。
前記物体検出ネットワークは、（ｉ）前記レア物体含む第１群トレーニングイメージ、（ｉｉ）前記レア物体を含んでいない第２群トレーニングイメージ、及び（ｉｉｉ）前記物体検出ネットワークの入力イメージが前記レア物体を含んでいるか否かを示す、前記第１群と前記第２群とに対応する少なくとも一つのＧＴを参照にして、前記入力イメージに前記レア物体が含まれている確率を計算できるように学習されていることを特徴とする請求項３に記載の方法。
前記（ａ）段階で、
前記位置指定レイヤが、（ｉ）前記背景イメージ上の背景物体を含む一つ以上の背景物体バウンディングボックスを生成し、（ｉｉ）それぞれの前記位置候補群上の前記レア物体に対応するレア物体バウンディングボックスそれぞれを追加的に生成することにより、前記背景イメージ上にそれぞれの合成レイアウトを生成し、
前記第１判別器が、前記合成レイアウトのうち、少なくとも一部を参照にして、前記候補群点数それぞれを計算することを特徴とする請求項１に記載の方法。
前記第１判別器は、前記合成レイアウトそれぞれが非合成または合成であると判断される確率を計算することにより、前記候補群点数それぞれを計算することを特徴とする請求項８に記載の方法。
前記第１判別器は、（ｉ）それぞれの前記合成レイアウト、（ｉｉ）それぞれの非合成レイアウト及び（ｉｉｉ）前記第１判別器の入力レイアウトそれぞれが、前記非合成レイアウトであるか、それとも前記合成レイアウトであるかを示す、それぞれの前記合成レイアウトとそれぞれの非合成レイアウトとに対応する少なくとも一つのＧＴを参照にして、前記入力レイアウトが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする請求項８に記載の方法。
前記合成レイアウトのうち、特定合成レイアウトに含まれた、特定背景物体バウンディングボックスと、特定レア物体バウンディングボックスとは、特定背景物体及び特定レア物体に関するクラス情報を参照して生成された特定識別情報を含み、
前記第１判別器は（ｉ）前記識別情報及び（ｉｉ）前記特定背景物体バウンディングボックスと、前記特定レア物体バウンディングボックスの位置に関する関係情報とを参照して、特定候補群点数を計算することを特徴とする請求項８に記載の方法。
監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して少なくとも一つの合成可否判断不可の合成テストイメージを生成するテスティング方法において、
（ａ）学習装置が、（１）合成可否判断不可の合成トレーニングイメージ上で、レアイベントの背景に利用される少なくとも一つの背景トレーニングイメージと、前記レアイベントに対応する少なくとも一つの学習用レア物体の少なくとも一つのレア物体トレーニングイメージとを取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体トレーニングイメージが挿入される前記背景トレーニングイメージ上での前記学習用レア物体の一つ以上の学習用位置候補群を生成させ、少なくとも一つの第１判別器によって計算された、それぞれの前記学習用位置候補群に対応する学習用候補群点数それぞれが取得された後、前記位置指定レイヤをもって、前記学習用候補群点数を参考にして、前記学習用レア物体の前記学習用位置候補群の中の学習用特定位置候補群を前記学習用レア物体の学習用最適位置に選択するようにして、（２）前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体トレーニングイメージを前記学習用最適位置に挿入することにより少なくとも一つの初期合成トレーニングイメージを生成するようにし、（３）前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成トレーニングイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する学習用色値を調整させることにより、前記合成可否判断不可の合成トレーニングイメージを生成させ、（４）少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成トレーニングイメージに対する少なくとも一つの学習用自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成トレーニングイメージ上の前記学習用レア物体に対する少なくとも一つの学習用存在点数との中の少なくとも一部を取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記学習用自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習した状態で、テスティング装置が、前記合成可否判断不可の合成テストイメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景テストイメージと、前記レアイベントに対応する少なくとも一つのテスト用レア物体の少なくとも一つのレア物体テストイメージとが取得されると、前記生成ニューラルネットワークに含まれた前記位置指定レイヤをもって、前記レア物体テストイメージが挿入される前記背景テストイメージ上での前記テスト用レア物体の一つ以上のテスト用位置候補群を生成させ、前記第１判別器によって計算された、それぞれの前記テスト用位置候補群に対応するテスト用候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記テスト用候補群点数を参考にして、前記テスト用レア物体の前記テスト用位置候補群の中のテスト用特定位置候補群を前記テスト用レア物体のテスト用最適位置に選択するようにする段階；
（ｂ）前記テスティング装置が、前記生成ニューラルネットワークに含まれた前記合成レイヤをもって、前記レア物体テストイメージを前記テスト用最適位置に挿入することにより少なくとも一つの初期合成テスト用イメージを生成するようにする段階；及び
（ｃ）前記テスティング装置が、前記生成ニューラルネットワークに含まれた調整レイヤをもって、前記初期合成テストイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応するテスト用色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させる段階；
を含むことを特徴とする方法。
監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して、少なくとも一つの合成可否判断不可の合成テストイメージを生成するコンピューティング装置において、
各インストラクションを格納する少なくとも一つのメモリ；及び
（Ｉ）前記合成可否判断不可の合成イメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景イメージと、前記レアイベントに対応する少なくとも一つのレア物体の少なくとも一つのレア物体イメージとが取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体イメージが挿入される前記背景イメージ上での前記レア物体の一つ以上の位置候補群を生成するようにし、少なくとも一つの第１判別器によって計算された、それぞれの前記位置候補群に対応する候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記候補群点数を参照にして、前記レア物体の前記位置候補群の中の特定位置候補群を前記レア物体の最適位置に選択させるプロセス、（ＩＩ）前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体イメージを前記最適位置に挿入することにより少なくとも一つの初期合成イメージを生成するようにするプロセス、（ＩＩＩ）前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成イメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させるプロセスを遂行するための、前記各インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするコンピューティング装置。
前記（ＩＩＩ）プロセスで、
前記プロセッサが、前記調整レイヤをもって、前記レア物体イメージが挿入された前記初期合成イメージ上の少なくとも一部に対応する、少なくとも一つの特定領域に少なくとも一つのコンボリューション演算と、少なくとも一つのデコンボレーション演算とを適用させることにより、前記合成可否判断不可の合成イメージを生成させることを特徴とする請求項１３に記載のコンピューティング装置。
前記プロセッサは、
（ＩＶ）少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成イメージに対する少なくとも一つの自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成イメージ上の前記レア物体に対する少なくとも一つの存在点数との中の少なくとも一部が取得されると、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習するようにするプロセス；
をさらに遂行することを特徴とする請求項１３に記載のコンピューティング装置。
前記第２判別器は、その入力イメージが前記合成可否判断不可の合成イメージであるか、それとも非合成イメージであるかを区別することにより、前記自然性点数を計算することを特徴とする請求項１５に記載のコンピューティング装置。
前記物体検出ネットワークは、前記合成可否判断不可の合成イメージ上に前記レア物体が存在する確率を判断することにより、前記存在点数を計算することを特徴とする請求項１５に記載のコンピューティング装置。
前記第２判別器は、（ｉ）前記合成可否判断不可の合成イメージ、（ｉｉ）前記非合成イメージ、及び（ｉｉｉ）前記第２判別器の入力イメージが前記合成可否判断不可の合成イメージであるか、それとも前記非合成イメージであるかを示す、前記非合成イメージと、前記合成可否判断不可の合成イメージに対応する少なくとも一つのＧＴを参照にして、前記入力イメージが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする請求項１５に記載のコンピューティング装置。
前記物体検出ネットワークは、（ｉ）前記レア物体含む第１群トレーニングイメージ、（ｉｉ）前記レア物体を含んでいない第２群トレーニングイメージ、及び（ｉｉｉ）前記物体検出ネットワークの入力イメージが前記レア物体を含んでいるか否かを示す、前記第１群と前記第２群とに対応する少なくとも一つのＧＴを参照にして、前記入力イメージに前記レア物体が含まれている確率を計算できるように学習されていることを特徴とする請求項１５に記載のコンピューティング装置。
前記（Ｉ）プロセスで、
前記位置指定レイヤが、（ｉ）前記背景イメージ上の背景物体を含む一つ以上の背景物体バウンディングボックスを生成し、（ｉｉ）それぞれの前記位置候補群上の前記レア物体に対応するレア物体バウンディングボックスそれぞれを追加的に生成することにより、前記背景イメージ上にそれぞれの合成レイアウトを生成し、
前記第１判別器が、前記合成レイアウトのうち、少なくとも一部を参照にして、前記候補群点数それぞれを計算することを特徴とする請求項１３に記載のコンピューティング装置。
前記第１判別器は、前記合成レイアウトそれぞれが非合成または合成であると判断される確率を計算することにより、前記候補群点数それぞれを計算することを特徴とする請求項２０に記載のコンピューティング装置。
前記第１判別器は、（ｉ）それぞれの前記合成レイアウト、（ｉｉ）それぞれの非合成レイアウト及び（ｉｉｉ）前記第１判別器の入力レイアウトそれぞれが、前記非合成レイアウトであるか、それとも前記合成レイアウトであるかを示す、それぞれの前記合成レイアウトとそれぞれの非合成レイアウトとに対応する少なくとも一つのＧＴを参照にして、前記入力レイアウトが非合成であるか、それとも合成であるかを判断できるように学習されることを特徴とする請求項２０に記載のコンピューティング装置。
前記合成レイアウトのうち、特定合成レイアウトに含まれた、特定背景物体バウンディングボックスと、特定レア物体バウンディングボックスとは、特定背景物体及び特定レア物体に関するクラス情報を参照して生成された特定識別情報を含み、
前記第１判別器は（ｉ）前記識別情報及び（ｉｉ）前記特定背景物体バウンディングボックスと、前記特定レア物体バウンディングボックスの位置に関する関係情報とを参照して、特定候補群点数を計算することを特徴とする請求項２０に記載のコンピューティング装置。
監視システムが、少なくとも一つのレアイベントをより正確に検出できるようにするために、生成ニューラルネットワークと、判別ニューラルネットワークとを含む敵対的生成ネットワーク（ＧＡＮ）を利用して少なくとも一つの合成可否判断不可の合成テストイメージ生成をテストするためのテスティング方法において、
各インストラクションを格納する少なくとも一つのメモリ；及び
学習装置が、（１）合成可否判断不可の合成トレーニングイメージ上で、レアイベントの背景に利用される少なくとも一つの背景トレーニングイメージと、前記レアイベントに対応する少なくとも一つの学習用レア物体の少なくとも一つのレア物体トレーニングイメージとを取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つの位置指定レイヤをもって、前記レア物体トレーニングイメージが挿入される前記背景イメージ上での前記学習用レア物体の一つ以上の学習用位置候補群を生成するようにし、少なくとも一つの第１判別器によって計算された、それぞれの前記学習用位置候補群に対応する学習用候補群点数それぞれが取得された後、前記位置指定レイヤをもって、前記学習用候補群点数を参照にして、前記学習用レア物体の前記学習用位置候補群の中の学習用特定位置候補群を前記学習用レア物体の学習用最適位置に選択させ、（２）前記生成ニューラルネットワークに含まれた少なくとも一つの合成レイヤをもって、前記レア物体トレーニングイメージを前記学習用最適位置に挿入することにより少なくとも一つの初期合成トレーニングイメージを生成するようにし、（３）前記生成ニューラルネットワークに含まれた少なくとも一つの調整レイヤをもって、前記初期合成トレーニングイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応する学習用色値を調整させることにより、前記合成可否判断不可の合成トレーニングイメージを生成させ、（４）少なくとも一つの第２判別器によって計算された前記合成可否判断不可の合成トレーニングイメージに対する少なくとも一つの学習用自然性点数と、物体検出ネットワークによって計算された前記合成可否判断不可の合成トレーニングイメージ上の前記学習用レア物体に対する少なくとも一つの学習用存在点数との中の少なくとも一部を取得した後、前記生成ニューラルネットワークに含まれた少なくとも一つのロスレイヤをもって、前記学習用自然性点数と、前記存在点数との中の少なくとも一部を参照にして一つ以上のロスを計算し、前記ロスをバックプロパゲーションすることで前記生成ニューラルネットワークの一つ以上のパラメータの中の少なくとも一部を学習した状態で、（Ｉ）前記合成可否判断不可の合成テストイメージ上で、前記レアイベントの背景に利用される少なくとも一つの背景テストイメージと、前記レアイベントに対応する少なくとも一つのテスト用レア物体の少なくとも一つのレア物体テストイメージとが取得されると、前記生成ニューラルネットワークに含まれた前記位置指定レイヤをもって、前記レア物体テストイメージが挿入される前記背景テストイメージ上での前記テスト用レア物体の一つ以上のテスト用位置候補群を生成するようにし、前記第１判別器によって計算された、それぞれの前記テスト用位置候補群に対応するテスト用候補群点数それぞれが取得されると、前記位置指定レイヤをもって、前記テスト用候補群点数を参照にして、前記テスト用レア物体の前記テスト用位置候補群の中のテスト用特定位置候補群を前記テスト用レア物体のテスト用最適位置に選択させるプロセス、（ＩＩ）前記生成ニューラルネットワークに含まれた前記合成レイヤをもって、前記レア物体テストイメージを前記テスト用最適位置に挿入することにより少なくとも一つの初期合成テスト用イメージを生成するようにするプロセス、（ＩＩＩ）前記生成ニューラルネットワークに含まれた前記調整レイヤをもって、前記初期合成テストイメージに含まれたそれぞれのピクセルのうち少なくとも一部に対応するテスト用色値を調整させることにより、前記合成可否判断不可の合成イメージを生成させるプロセスを遂行するための、前記各インストラクションを実行するように構成された少なくとも一つのプロセッサ；
を含むことを特徴とするテスティング装置。