JP2020125576A

JP2020125576A - バイクライダー用安全衣服パターンを生成する方法及び装置｛ｍｅｔｈｏｄａｎｄｄｅｖｉｃｅｆｏｒｇｅｎｅｒａｔｉｎｇｓａｆｅｃｌｏｔｈｉｎｇｐａｔｔｅｒｎｓｆｏｒｒｉｄｅｒｏｆｂｉｋｅ｝

Info

Publication number: JP2020125576A
Application number: JP2020008884A
Authority: JP
Inventors: 金桂賢; Kye-Hyeon Kim; 金鎔重; Yongjoong Kim; 金鶴京; Hak-Kyoung Kim; 南雲鉉; Woonhyun Nam; 夫碩▲くん▼; Sukhoon Boo; 成明哲; Myungchul Sung; 申東洙; Dongsoo Shin; 呂東勳; Donghun Yeo; 柳宇宙; Wooju Ryu; 李明春; Myeong-Chun Lee
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-23
Publication date: 2020-08-20
Anticipated expiration: 2040-01-23
Also published as: US10657584B1; EP3690809C0; CN111508042B; EP3690809A1; KR102265016B1; KR20200095377A; EP3690809B1; JP7071751B2; CN111508042A

Abstract

【課題】人の形体（Ｈｕｍａｎ−ｌｉｋｅＦｉｇｕｒｅ）に使用される安全衣服パターンを生成する方法を提供する。【解決手段】安全衣服パターン生成方法は、人の形体のイメージが取得されると、特定の衣服パターンと人の形体のイメージとを衣服合成ネットワークに入力し、人の形体の衣服と特定の衣服パターンとを合成して合成イメージを生成させる段階と、合成イメージをイメージ変換ネットワークに入力して、合成イメージ上の周辺環境を変換して変換イメージを生成し、変換イメージを物体検出器に入力して人の形体に関する検出情報を出力させる段階及び第１ロスレイヤをもって、検出情報と人の形体のイメージに対応する原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照してロスを算出させ、ロスを利用して初期値をアップデートする段階と、を含む。【選択図】図２

Description

本発明は、バイクライダー用安全衣服パターンを生成する方法及び装置に関し、より詳細には、ディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤の物体検出器がバイクライダーを容易に検出し得るようにするライダーのための安全衣服パターンを生成する方法及び装置に関する。

一般的に、道路上で勤務する人々、例えば交通警察官、環境美化員及び軍人などは通常夜間に勤務しているため、このような夜間労働者には車両による交通事故が頻繁に発生する。

これは、夜間労働者が周辺の環境から視覚的に分離して認識されないために発生する。よって、このような交通事故を防止し、夜間労働者を保護するために、視覚的認知度を向上させ得る、光が反射される物質が付着した安全ベストを夜間労働者が着用して、夜間作業を遂行するようにしている。

その他にも、明け方や夜間にジョギングをしたりハイキングを楽しんだりする人々が安全ベストを着用することによって、周辺の危険要素からより安全に運動し得るようにした。すなわち、夜間や明け方に安全ベストを着用することによって着用者の位置や存在を確認することができる。

しかし、このような反射型安全ベストは、カメラを利用したディープラーニング（ＤｅｅｐＬｅａｒｎｉｎｇ）基盤の物体検出器やこれを利用する自律走行車両においては十分に検出されない問題点がある。すなわち、実際に反射型安全ベストを着用した物体を含むトレーニングデータを使用して物体検出器を学習しておかなければ物体検出器が反射型安全ベストを検出するのが難しく、反射型安全ベストを着用した物体を含むトレーニングデータを十分に取得することも難しいのが実情である。

したがって、本発明では、ディープラーニング基盤の物体検出器において検出が容易な安全ベストの衣服パターンを生成する方法を提案することにする。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、自転車やオートバイなどのようなバイクライダーが物体検出器により容易に検出されるようにする安全ベストを提供することを他の目的とする。

本発明は、バイクライダーが物体検出器により容易に検出されるようにする安全ベストの衣服パターンを生成させることをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための本発明の特徴的な構成は以下のとおりである。

本発明の一態様によると、人の形体（Ｈｕｍａｎ−ｌｉｋｅＦｉｇｕｒｅ）に使用される少なくとも一つの安全衣服パターンを生成する方法において、（ａ）前記人の形体の少なくとも一つのイメージが取得されると、安全衣服パターン生成装置が、初期値を有する少なくとも一つの特定の衣服パターンを生成するプロセス、及び前記特定の衣服パターンと前記人の形体の前記イメージとを衣服合成ネットワーク（ＣｌｏｔｈｉｎｇＣｏｍｐｏｓｉｔｉｏｎＮｅｔｗｏｒｋ）に入力するプロセスを遂行することによって、前記衣服合成ネットワークが前記人の形体の前記イメージ上における前記人の形体の衣服と前記特定の衣服パターンとを合成して、前記人の形体の前記イメージに対応する少なくとも一つの合成イメージ（ＣｏｍｐｏｓｉｔｅＩｍａｇｅ）を生成させる段階；（ｂ）前記安全衣服パターン生成装置が、前記合成イメージをイメージ変換ネットワーク（ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎＮｅｔｗｏｒｋ）に入力して、前記イメージ変換ネットワークをもって、前記合成イメージ上の周辺環境を変換して少なくとも一つの変換イメージ（ＴｒａｎｓｌａｔｅｄＩｍａｇｅ）を生成させるプロセス、及び前記変換イメージを物体検出器（ＯｂｊｅｃｔＤｅｔｅｃｔｏｒ）に入力して、前記物体検出器をもって、前記変換イメージ上で検出された前記人の形体を表す前記人の形体に関する検出情報を出力させるプロセスを遂行する段階；及び（ｃ）前記安全衣服パターン生成装置が、第１ロスレイヤをもって、前記人の形体に関する前記検出情報と前記人の形体の前記イメージに対応する少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つのロスを算出させるプロセス、及び前記ロスを利用して前記ロスが最小化されるように前記特定の衣服パターンの前記初期値をアップデートするプロセスを遂行する段階；を含むことを特徴とする。

一実施例において、前記（ａ）段階で、前記安全衣服パターン生成装置は、前記特定の衣服パターンと前記人の形体の前記イメージとを前記衣服合成ネットワークに入力するプロセスを遂行することによって、前記衣服合成ネットワークをもって、（ｉ）セグメンテーションネットワーク（ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記衣服をセグメンテーションさせるプロセスと、姿勢推定ネットワーク（ＰｏｓｔｕｒｅＥｓｔｉｍａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記人の形体の少なくとも一つの関節部位を取得させるプロセス、（ｉｉ）マスキングレイヤ（ＭａｓｋｉｎｇＬａｙｅｒ）を通じて前記関節部位を参照して、前記特定の衣服パターンで前記衣服をマスキングして生成された少なくとも一つのマスキング済みイメージ（ＭａｓｋｅｄＩｍａｇｅ）を取得するプロセス、（ｉｉｉ）前記マスキング済みイメージと前記人の形体の前記イメージとをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して少なくとも一つのコンカチネート済みイメージ（ＣｏｎｃａｔｅｎａｔｅｄＩｍａｇｅ）を生成するプロセス、及び（ｉｖ）エンコーダ（Ｅｎｃｏｄｅｒ）を通じて前記コンカチネート済みイメージに対してコンボリューション演算を少なくとも一回適用するプロセス、及びデコーダ（Ｄｅｃｏｄｅｒ）を通じて前記エンコーダの出力に対してデコンボリューション演算を少なくとも一回適用するプロセスを遂行することによって、前記合成イメージを生成させることを特徴とする。

一実施例において、前記衣服合成ネットワークは、学習装置により前記特定の衣服パターンと前記人の形体の前記イメージとを利用して前記合成イメージを生成するように学習された状態であり、前記学習装置が、（ｉ）前記人の形体の少なくとも一つの取得されたトレーニングイメージを前記セグメンテーションネットワークに入力して、前記セグメンテーションネットワークをもって、前記人の形体の前記トレーニングイメージ上における少なくとも一つの学習用衣服をセグメンテーションさせるプロセスと、前記人の形体の前記トレーニングイメージを前記姿勢推定ネットワークに入力して、前記姿勢推定ネットワークをもって、前記人の形体の前記トレーニングイメージ上における少なくとも一つの学習用人の形体の少なくとも一つの学習用関節部位を取得させるプロセス、（ｉｉ）前記学習用関節部位、前記学習用衣服、及び少なくとも一つの取得された学習用衣服パターンを前記マスキングレイヤに入力して、前記マスキングレイヤをもって、前記学習用関節部位を参照して前記学習用衣服パターンで前記学習用衣服をマスキングして少なくとも一つの学習用マスキング済みイメージを生成させるプロセス、（ｉｉｉ）前記学習用マスキング済みイメージと前記人の形体の前記トレーニングイメージとをコンカチネートして、少なくとも一つの学習用コンカチネート済みイメージを生成するプロセス、（ｉｖ）前記学習用コンカチネート済みイメージを前記エンコーダに入力して、前記エンコーダをもって、前記学習用コンカチネート済みイメージに対して前記コンボリューション演算を少なくとも一回適用させるプロセス、及び前記エンコーダの前記出力を前記デコーダに入力して、前記デコーダをもって、前記エンコーダの前記出力に対して前記デコンボリューション演算を少なくとも一回適用させて前記学習用合成イメージを生成させるプロセス、及び（ｖ）第２ロスレイヤをもって、（ｖ−１）前記学習用合成イメージと（ｖ−２）少なくとも一つの原本正解イメージ（前記少なくとも一つの原本正解イメージは、前記人の形体の前記トレーニングイメージ及び前記学習用衣服パターンに対応するように生成されたものである）を参照して少なくとも一つの知覚ロス（ＰｅｒｃｅｐｔｕａｌＬｏｓｓ）を算出させるプロセス、及び前記知覚ロスを参照したバックプロパゲーションを通じて前記知覚ロスが最小化されるように前記デコーダ、前記エンコーダ、及び前記マスキングレイヤのうち少なくとも一つのパラメータを調整するプロセスを繰り返して、前記衣服合成ネットワークを学習することを特徴とする。

一実施例において、前記原本正解イメージは、前記人の形体の前記トレーニングイメージ上の前記学習用衣服を前記学習用衣服パターンでマスキングして生成されることを特徴とする。

一実施例において、前記原本正解は、（ｉ）前記人の形体の前記イメージをラベリングして生成された前記人の形体に対応する情報、及び（ｉｉ）前記物体検出器または他の物体検出器に入力された前記人の形体の前記イメージから検出された前記人の形体に対応する情報のうち一つであることを特徴とする。

一実施例において、前記（ｂ）段階で、前記安全衣服パターン生成装置は、前記イメージ変換ネットワークをもって、前記人の形体を検出する従来の物体検出器の性能が予め設定された閾値より低くなるように前記合成イメージ上の前記周辺環境を他の周辺環境に変換させるプロセスを遂行することを特徴とする。

一実施例において、前記イメージ変換ネットワークは、相互にペアにならず（Ｕｎｐａｉｒｅｄ）相互に異なるドメイン（Ｄｏｍａｉｎ）にそれぞれ属する原本イメージと変換イメージとに対してイメージ対イメージ変換（Ｉｍａｇｅ−Ｔｏ−ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎ）を行うサイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を含むことを特徴とする。

本発明の他の態様によると、人の形体（Ｈｕｍａｎ−ｌｉｋｅＦｉｇｕｒｅ）に使用される少なくとも一つの安全衣服パターンを生成する安全衣服パターン生成装置において、インストラクションを格納する少なくとも一つのメモリと、（Ｉ）前記人の形体の少なくとも１つのイメージが取得されると、初期値を有する少なくとも１つの特定の衣服パターンを生成するプロセス、及び前記特定の衣服パターンと前記人の形体の前記イメージとを衣服合成ネットワーク（ＣｌｏｔｈｉｎｇＣｏｍｐｏｓｉｔｉｏｎＮｅｔｗｏｒｋ）に入力するプロセスを遂行することによって、前記衣服合成ネットワークが前記人の形体の前記イメージ上における前記人の形体の衣服と前記特定の衣服パターンとを合成して、前記人の形体の前記イメージに対応する少なくとも一つの合成イメージ（ＣｏｍｐｏｓｉｔｅＩｍａｇｅ）を生成させるプロセス、（ＩＩ）前記合成イメージをイメージ変換ネットワーク（ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎＮｅｔｗｏｒｋ）に入力して、前記イメージ変換ネットワークをもって、前記合成イメージ上の周辺環境を変換して少なくとも一つの変換イメージ（ＴｒａｎｓｌａｔｅｄＩｍａｇｅ）を生成させるプロセス、及び前記変換イメージを物体検出器（ＯｂｊｅｃｔＤｅｔｅｃｔｏｒ）に入力して、前記物体検出器をもって、前記変換イメージ上で検出された前記人の形体を表す前記人の形体に関する検出情報を出力させるプロセス、及び（ＩＩＩ）第１ロスレイヤをもって、前記人の形体に関する前記検出情報と前記人の形体の前記イメージに対応する少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つのロスを算出させるプロセス、及び前記ロスを利用して前記ロスが最小化されるように前記特定の衣服パターンの前記初期値をアップデートするプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、を含むことを特徴とする。

一実施例において、前記（Ｉ）プロセスで、前記プロセッサは、前記特定の衣服パターンと前記人の形体の前記イメージとを前記衣服合成ネットワークに入力するプロセスを遂行することによって、前記衣服合成ネットワークをもって、（ｉ）セグメンテーションネットワーク（ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記衣服をセグメンテーションさせるプロセスと、姿勢推定ネットワーク（ＰｏｓｔｕｒｅＥｓｔｉｍａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記人の形体の少なくとも一つの関節部位を取得させるプロセス、（ｉｉ）マスキングレイヤ（ＭａｓｋｉｎｇＬａｙｅｒ）を通じて前記関節部位を参照して、前記特定の衣服パターンで前記衣服をマスキングして生成された少なくとも一つのマスキング済みイメージ（ＭａｓｋｅｄＩｍａｇｅ）を取得するプロセス、（ｉｉｉ）前記マスキング済みイメージと前記人の形体の前記イメージとをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して少なくとも一つのコンカチネート済みイメージ（ＣｏｎｃａｔｅｎａｔｅｄＩｍａｇｅ）を生成するプロセス、及び（ｉｖ）エンコーダ（Ｅｎｃｏｄｅｒ）を通じて前記コンカチネート済みイメージに対してコンボリューション演算を少なくとも一回適用するプロセス、及びデコーダ（Ｄｅｃｏｄｅｒ）を通じて前記エンコーダの出力に対してデコンボリューション演算を少なくとも一回適用するプロセスを遂行することによって、前記合成イメージを生成させることを特徴とする。

一実施例において、前記（ＩＩ）プロセスで、前記プロセッサは、前記イメージ変換ネットワークをもって、前記人の形体を検出する従来の物体検出器の性能が予め設定された閾値より低くなるように前記合成イメージ上の前記周辺環境を他の周辺環境に変換させるプロセスを遂行することを特徴とする。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、ライダーが物体検出器により容易に検出されるようにする安全ベストを提供することによって、事故の危険性を減少させる効果がある。

本発明は、ライダーが物体検出器により容易に検出されるようにする安全ベストの衣服パターンを生成することによって、物体検出器が周辺環境にかかわらずライダーを容易に検出するようにさせる効果がある。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

図１は、本発明の一実施例によるバイクライダーのための安全衣服パターンを生成する安全衣服パターン生成装置を簡略に示したものである。図２は、本発明の一実施例によるバイクライダーのための安全衣服パターンを生成する方法を簡略に示したものである。図３は、本発明の一実施例によるバイクライダーのための安全衣服パターンを生成する方法において、衣服合成ネットワーク（ＣｌｏｔｈｉｎｇＣｏｍｐｏｓｉｔｉｏｎＮｅｔｗｏｒｋ）が特定の衣服パターンをライダーイメージと合成するプロセスとを簡略に示したものである。図４は、本発明の一実施例によるバイクライダーのための安全衣服パターンを生成する方法において、衣服合成ネットワークを学習するプロセスを簡略に示したものである。図５は、本発明の一実施例によるバイクライダーのための安全衣服パターンを生成する方法において、物体検出器が合成イメージ（ＣｏｍｐｏｓｉｔｅＩｍａｇｅ）上のライダーを検出するプロセスを簡略に示したものである。

後述する本発明に関する詳細な説明は、本発明の各目的、各技術的解法、及び各長所を明らかにするために本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、通常の技術者が本発明を実施することができるように十分詳細に説明される。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は、本説明書から、また一部は、本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

さらに、本発明は、本明細書に示された実施例のすべての可能な組合せを網羅する。本発明の多様な実施例は相互に異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例に関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素の位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、類似する機能を指す。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

ここに提供される本発明の名称や要約は単に便宜のために提供されるものであって、これらの実施例の範囲を限定したり実施例の意味を解釈するものではない。

本明細書及び添付された請求項に使用されているように、単数の形態は、内容と文脈が明らかに異なると指示しない限り、複数の指示対象を含む。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図１は、本発明の一実施例によるバイクライダーのための安全衣服パターンを生成する安全衣服パターン生成装置を簡略に示したものである。図１を参照すると、安全衣服パターン生成装置１００は、バイクライダーのための安全衣服パターンを生成するインストラクションを格納するメモリ１０１と、メモリ１０１に格納されたインストラクションに対応してバイクライダーのための安全衣服パターンを生成するプロセスを遂行するプロセッサ１０２とを含むことができる。本発明全体にわたって、バイクは一輪自転車、一般の自転車、三輪自転車、二輪車、一輪または三輪オートバイ等を含み得るが、それに限定されるわけではない。

具体的に、安全衣服パターン生成装置１００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の各構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、コンピューティング装置をもって特定の方式で機能させるインストラクション）との組み合わせを利用して所望のシステム性能を達成するものであり得る。

また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。

しかし、コンピューティング装置が、本発明を実施するためのプロセッサ、メモリ、ミディアム又は他のコンピューティング構成要素の何らかの組み合わせを含む統合プロセッサ（ＩｎｔｅｇｒａｔｅｄＰｒｏｃｅｓｓｏｒ）を排除するものではない。

このように構成された本発明の一実施例による安全衣服パターン生成装置１００を利用してバイクライダーのための安全衣服パターンを生成する方法を、図２を参照して説明すると以下のとおりである。

まず、バイクに搭乗しようとするライダーまたは搭乗した状態のバイクライダーに対応する少なくとも一つのライダーイメージ１（例えば、人の形体イメージ）が入力されると、安全衣服パターン生成装置１００は、初期値を有する少なくとも一つの特定の衣服パターン２を生成することができる。ここで、初期値は、初期段階で衣服パターン内のピクセル値を含むが、本発明の範囲がそれに制限されるわけではない。この場合、安全衣服パターン生成装置１００は、ランダムサンプリングにより特定の衣服パターン２を生成するか多様な衣服パターンが格納されたデータベースから特定の衣服パターン２を検索することができる。ここで、人の形体イメージというのは、実際の人に対するイメージであり得るが、これに限定されるわけではなく、道路に立っている人の形のマネキンでもあり得る。また、ここでは「ライダーイメージ」として、人がオートバイ等に乗っている場合のイメージを想定して説明するが、これは説明の便宜上このように仮定したに過ぎず、道路上の清掃夫やマネキンのように何かに乗っていなくても人の形体のイメージに該当するのであれば、本発明が適用されるといえる。

次に、安全衣服パターン生成装置１００は、ライダーイメージ１と特定の衣服パターン２とを衣服合成ネットワーク１１０に入力して、衣服合成ネットワーク１１０をもって、ライダーイメージ１上のライダーの衣服に特定の衣服パターン２を合成して、ライダーイメージ１に対応する少なくとも一つの合成イメージ（ＣｏｍｐｏｓｉｔｅＩｍａｇｅ）３を生成させるプロセスを遂行することができる。この場合、合成イメージ３は、ライダーが特定の衣服パターンを有する衣服を着用したものと見えるように生成されるか、ライダーが衣服上に特定の衣服パターンを有する特定の衣服を追加して着用したものと見えるように生成され得る。

一方、図３を参照して、衣服合成ネットワーク１１０がライダーイメージ１と特定の衣服パターン２とを合成して合成イメージ３を生成するプロセスをさらに詳細に説明すると以下のとおりである。

衣服合成ネットワーク１１０が、ライダーイメージ１をセグメンテーションネットワーク（ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋ）１１１に入力してセグメンテーションネットワーク１１１をもってライダーイメージ上のライダー衣服をセグメンテーションさせるプロセスと、ライダーイメージ１を姿勢推定ネットワーク（ＰｏｓｔｕｒｅＥｓｔｉｍａｔｉｏｎＮｅｔｗｏｒｋ）１１２に入力して、姿勢推定ネットワーク１１２をもってライダーイメージ上のライダーの少なくとも一つの関節部位を取得させるプロセスとを遂行することができる。

この際、セグメンテーションネットワーク１１１は、少なくとも一つのコンボリューションレイヤ（ＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）とこれに対応する少なくとも一つのデコンボリューションレイヤとを含むことができ、少なくとも一つのコンボリューションレイヤをもって、ライダーイメージ１に対してコンボリューション演算を少なくとも一回適用させ、少なくとも一つのデコンボリューションレイヤをもって、コンボリューションレイヤの最後の出力に対してデコンボリューション演算をコンボリューション演算と同一の回数で適用させて、ライダーイメージ１をセグメンテーションすることによって、ライダーイメージ１からライダー衣服を抽出することができる。

また、姿勢推定ネットワーク１１２は、少なくとも一つのコンボリューションレイヤと少なくとも一つのフルコンボリューションレイヤ（ＦｕｌｌｙＣｏｎｖｏｌｕｔｉｏｎａｌＬａｙｅｒ）とを含むことができ、少なくとも一つのコンボリューションレイヤをもって、ライダーイメージ１に対してコンボリューション演算を少なくとも一回適用させて少なくとも一つの特徴マップを生成させ、少なくとも一つのフルコンボリューションレイヤをもって、コンボリューションレイヤから出力された最後の特徴マップに対して１ｘ１コンボリューション演算を少なくとも一回適用させて、それぞれの関節部位（例えば、ライダーの肩、肘、手首、骨盤など）の少なくとも一つの推定姿勢イメージ（ＥｓｔｉｍａｔｅｄＰｏｓｔｕｒｅＩｍａｇｅ）を生成させることができる。この場合、推定姿勢イメージ上でライダーの関節があるものと推定される位置は１、関節がないものと推定される位置は０として表現され得、推定姿勢イメージのそれぞれのチャンネルをそれぞれの関節部位に対応させることができる。

以後、衣服合成ネットワーク１１０は、マスキングレイヤ１１３を通じて関節部位を参照してライダー衣服を特定の衣服パターンでマスキングして少なくとも一つのマスキング済みイメージ（ＭａｓｋｅｄＩｍａｇｅ）を取得することができる。すなわち、衣服合成ネットワーク１１０は、セグメンテーションされたライダー衣服イメージ、関節部位が表示された推定姿勢イメージ、及び特定の衣服パターン２をマスキングレイヤ１１３に入力して、マスキングレイヤ１１３をもって関節部位を参照して、特定の衣服パターン２でライダー衣服をマスキングさせることができる。この場合、特定の衣服パターン２の形態は関節部位によって変わり得、ライダーの現在の姿勢（Ｐｏｓｅ）にマッチングする衣服パターンは、関節部位を参照して特定の衣服パターン２でライダー衣服をマスキングして生成され得る。

そして、衣服合成ネットワーク１１０は、（ｉ）マスキング済みイメージとライダーイメージ１とをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して、少なくとも一つのコンカチネート済みイメージ（ＣｏｎｃａｔｅｎａｔｅｄＩｍａｇｅ）を生成するプロセス、（ｉｉ）少なくとも一つのコンボリューションレイヤを含むエンコーダ１１４を通じてコンカチネート済みイメージに対してコンボリューション演算を少なくとも一回適用するプロセス、及び（ｉｉｉ）少なくとも一つのデコンボリューションレイヤを含むデコーダ１１５を通じて前記エンコーダ１１４の出力に対してデコンボリューション演算を少なくとも一回適用するプロセスを遂行して合成イメージ３を生成させることができる。

この場合、衣服合成ネットワーク１１０は、学習装置によりライダーイメージと特定の衣服パターンとを利用して合成イメージを生成するように学習された状態であり得る。

一例として、図４を参照すると、学習装置２００は、衣服合成ネットワークを学習するのに使用されるトレーニングデータを取得することができる。この際、トレーニングデータは、ライダーに対応する少なくとも一つの学習用ライダーイメージ２０１と、少なくとも一つの学習用衣服パターン２０２と、学習用衣服パターン２０２が合成された衣服を着用しているライダーに対応する少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）イメージ２０５とを含むことができる。そして、原本正解イメージ２０５は、学習用ライダーイメージ２０１上の学習用ライダー衣服を学習用衣服パターン２０２でマスキングして生成され得る。

そして、学習装置２００は、学習用ライダーイメージ２０１をセグメンテーションネットワーク１１１に入力して、セグメンテーションネットワーク１１１をもって学習用ライダーイメージ２０１上の学習用ライダー衣服をセグメンテーションさせるプロセスと、学習用ライダーイメージ２０１を姿勢推定ネットワーク１１２に入力して、姿勢推定ネットワーク１１２をもって学習用ライダーイメージ２０１上の学習用ライダーの少なくとも一つの学習用関節部位を取得させるプロセスとを遂行することができる。

以後、学習装置２００は、学習用関節部位と、学習用ライダー衣服と、学習用衣服パターン２０２とをマスキングレイヤ１１３に入力して、マスキングレイヤ１１３をもって、学習用関節部位を参照して学習用ライダー衣服を学習用衣服パターン２０２でマスキングさせることができる。

そして、学習装置２００は、（ｉ）少なくとも一つの学習用マスキング済みイメージと学習用ライダーイメージ２０１とをコンカチネートして少なくとも一つの学習用コンカチネート済みイメージを生成するプロセス、（ｉｉ）学習用コンカチネート済みイメージをエンコーダ１１４に入力して、エンコーダ１１４をもって、学習用コンカチネート済みイメージに対してコンボリューション演算を少なくとも一回適用させるプロセス、及び（ｉｉｉ）エンコーダ１１４の少なくとも一つの出力をデコーダ１１５に入力して、デコーダ１１５をもって、エンコーダ１１４の出力に対してデコンボリューション演算を少なくとも一回適用させるプロセスを遂行して、学習用合成イメージ２０４を生成させることができる。

以後、学習装置２００は、（ｉ）第２ロスレイヤ１１６をもって、（ｉ−１）学習用合成イメージと（ｉ−２）原本正解イメージとを参照して少なくとも一つの知覚ロス（ＰｅｒｃｅｐｔｕａｌＬｏｓｓ）を算出するプロセス、及び（ｉｉ）知覚ロスを参照したバックプロパゲーションを通じて知覚ロスを最小化するようにデコーダ、エンコーダ、及びマスキングレイヤのうち少なくとも一つのパラメータを調整するプロセスを繰り返して、衣服合成ネットワーク１１０を学習することができる。第１ロスレイヤ１４０は、後に説明することにする。

この場合、論文「ＰｅｒｃｅｐｔｕａｌＬｏｓｓｅｓｆｏｒＲｅａｌ−ＴｉｍｅＳｔｙｌｅＴｒａｎｓｆｅｒａｎｄＳｕｐｅｒ−Ｒｅｓｏｌｕｔｉｏｎ」，ＣｏｍｐｕｔｅｒＶｉｓｉｏｎ − ＥＣＣＶ２０１６，１４ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅ，Ａｍｓｔｅｒｄａｍ，ＴｈｅＮｅｔｈｅｒｌａｎｄｓ，Ｏｃｔｏｂｅｒ１１−１４，２０１６，Ｐｒｏｃｅｅｄｉｎｇｓ，ＰａｒｔＩＩのｐｐ６９４−７１１、及び「Ｐｈｏｔｏ−ＲｅａｌｉｓｔｉｃＳｉｎｇｌｅＩｍａｇｅＳｕｐｅｒ−ＲｅｓｏｌｕｔｉｏｎＵｓｉｎｇａＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ」，ＣＶＰＲ．Ｖｏｌ．２．Ｎｏ．３．２０１７．などから分かるように、知覚ロスは、ピクセルごとのロス（ＭＳＥ：ＭｅａｎＳｑｕａｒｅｄＥｒｒｏｒ）の代わりに認知類似度（ＰｅｒｃｅｐｔｕａｌＳｉｍｉｌａｒｉｔｙ）を利用したロスであり得る。

次に、再び図２を参照すると、安全衣服パターン生成装置１００は、合成イメージ３をイメージ変換ネットワーク１２０に入力して、イメージ変換ネットワーク１２０をもって、合成イメージ３上の周辺環境を変換して少なくとも一つの変換イメージ（ＴｒａｎｓｌａｔｅｄＩｍａｇｅ）を生成させることができる。

この際、変換イメージは、合成イメージ３上の周辺環境を夜間、雪、雨などのような他の周辺環境に変換して生成されたイメージであり得、前記他の周辺環境は、物体検出器をもって、特定の衣服パターンを有する衣服を着ていないライダーに比べて特定の衣服パターンを有する衣服を着たライダーをさらに容易に検出させる環境であり得る。すなわち、変換イメージは、合成イメージ３上の周辺環境を他の周辺環境に変換して、従来の物体検出器がライダーイメージ１上の元来のライダーを検出する性能が予め設定された閾値より低くなるように生成されたイメージであり得る。

そして、イメージ変換ネットワーク１２０は、相互にペアにならず（Ｕｎｐａｉｒｅｄ）相互に異なるドメイン（Ｄｏｍａｉｎ）にそれぞれ属する原本イメージと変換イメージとに対してイメージ対イメージ変換（Ｉｍａｇｅ−Ｔｏ−ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎ）を行うサイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を含むことができる。

この場合、サイクルＧＡＮは、「ＵｎｐａｉｒｅｄＩｍａｇｅ−Ｔｏ−ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎｕｓｉｎｇＣｙｃｌｅ−ＣｏｎｓｉｓｔｅｎｔＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ」ＩＣＣＶ２０１７から分かるように、敵対的ロス（ＡｄｖｅｒｓａｒｉａｌＬｏｓｓ）とサイクル保持ロス（Ｃｙｃｌｅ−ＣｏｎｓｉｓｔｅｎｃｙＬｏｓｓ）とを利用して、原本イメージをもって、異なるドメインに変換された後、再び原本イメージに復元されるようにすることができる。

一方、本発明では、サイクルＧＡＮの敵対的攻撃（ＡｄｖｅｒｓａｒｉａｌＡｔｔａｃｋ）を使用して、ロスが増加するようにポジティブグラディエント（ＰｏｓｉｔｉｖｅＧｒａｄｉｅｎｔ）を合成イメージまでバックプロパゲーション（Ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）して、合成イメージをデグレード（Ｄｅｇｒａｄｅ）することによって、変換イメージを生成することができる。

次に、安全衣服パターン生成装置１００は、変換イメージを物体検出器１３０に入力して、物体検出器１３０をもって、変換イメージから検出されたライダーを表すライダー検出情報を出力させるプロセスを遂行することができる。

一例として、図５を参照すると、物体検出器１３０は、合成イメージを少なくとも一つのコンボリューションレイヤ１３１に入力して、コンボリューションレイヤ１３１をもって、合成イメージに対してコンボリューション演算を少なくとも一回適用して、少なくとも一つの特徴マップ（ＦｅａｔｕｒｅＭａｐ）を生成させることができる。そして、物体検出器１３０は、特徴マップをＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）１３２に入力して、ＲＰＮ１３２をもって、特徴マップ上の少なくとも一つの物体に対応する少なくとも一つのプロポーザルボックス（ＰｒｏｐｏｓａｌＢｏｘ）を出力させることができる。以後、物体検出器１３０は、特徴マップをプーリングレイヤ（ＰｏｏｌｉｎｇＬａｙｅｒ）１３３に入力して、プーリングレイヤ１３３をもって、特徴マップ上のプロポーザルボックスに対応する少なくとも一つの領域に対してプーリング演算を適用して、少なくとも一つの特徴ベクトル（ＦｅａｔｕｒｅＶｅｃｔｏｒ）を出力させることができる。そして、物体検出器１３０は、特徴ベクトルをＦＣレイヤ（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ）１３４に入力して、ＦＣレイヤ１３４をもって特徴ベクトルに対してＦＣ演算を適用させ、ＦＣレイヤ１３４の少なくとも一つの出力を分類レイヤ１３５とリグレッションレイヤ１３６とにそれぞれ入力して、分類レイヤ１３５とリグレッションレイヤ１３６とをもって、プロポーザルボックスそれぞれに対応する物体それぞれに対するクラス情報とリグレッション情報とをそれぞれ生成させて、合成イメージ上の物体、すなわち、合成イメージ上のライダーを検出することによって、ライダーに対応する物体情報を出力させることができる。この際、物体情報は、クラス情報とバウンディングボックス情報とを含むことができる。

次に、安全衣服パターン生成装置１００は、第１ロスレイヤ１４０をもって、検出されたライダー、すなわち、特定の衣服パターンが合成された衣服を着用したライダーに対応する物体情報と、これに対応する原本正解とを参照して少なくとも一つのロスを算出させることによって、算出されたロスをバックプロパゲーションしてロスが最小化されるように特定の衣服パターンの初期値、例えば、特定の衣服パターンのグラディエントを調整させることができる。この際、ライダーイメージ１に対応する原本正解を参照して算出されたロスは特徴ロス（ＦｅａｔｕｒｅＬｏｓｓ）であり得、前記図４で説明された原本正解イメージを参照して算出された知覚ロスとは異なるロスであり得る。

また、衣服パターン生成装置１００は、バックプロパゲーションを通じてロスが減る方向にネガティブグラディエント（ＮｅｇａｔｉｖｅＧｒａｄｉｅｎｔ）方法を遂行することができる。

一方、前記説明では、ライダーイメージ１に対応する原本正解、すなわち、ライダーイメージ１をラベリングして生成されたライダーに対応するクラス情報及びリグレッション情報を含む原本正解が使用されたが、ライダーイメージ１をラベリングして生成された原本正解を使用することができない場合には、原本正解を生成するための別途のプロセスを進行させることができる。

すなわち、安全衣服パターン生成装置１００は、物体検出器１５０をもってライダーイメージ１上に位置するライダーを検出させて、ライダーに対応する物体情報を出力させ、物体検出器１５０から出力される物体検出情報、すなわち、ライダーに対応する情報を原本正解として設定することができる。

この際、物体検出器１５０は、物体検出器１３０と同一であるか物体検出器１３０とは異なる他の物体検出器であり得る。

前記プロセスを繰り返して、夜間、雪、雨などの周辺環境において、物体検出器が物体を容易に検出することができるようにする衣服パターンを生成することが可能になり、それによってイメージまたは特徴の夜間、雪、雨などのようなデグレードを誘発する要因と関係なしに物体が検出され得る。上記のように特定の衣服パターンが生成されてライダーの元来のイメージに適用され、パターンが適用されたイメージにＧＡＮを通じてデグレードを誘発する周辺環境が追加された状態において、本発明は物体検出ネットワークによるライダーの検出スコア（ＤｅｔｅｃｔｉｏｎＳｃｏｒｅ）を増加させることによって、夜間、雪、雨などのようにイメージあるいは特徴のデグレードを誘発させる敵対的攻撃に強靭な衣服パターン（ＣｌｏｔｈｉｎｇＰａｔｔｅｒｎｓ）を提供する。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ（ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気（光メディア（Ｍａｇｎｅｔｏ（ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて、本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

１００：安全衣服パターン生成装置
１０１：メモリ
１０２：プロセッサ

Claims

人の形体（Ｈｕｍａｎ−ｌｉｋｅＦｉｇｕｒｅ）に使用される少なくとも一つの安全衣服パターンを生成する方法において、
（ａ）前記人の形体の少なくとも一つのイメージが取得されると、安全衣服パターン生成装置が、初期値を有する少なくとも一つの特定の衣服パターンを生成するプロセス、及び前記特定の衣服パターンと前記人の形体の前記イメージとを衣服合成ネットワーク（ＣｌｏｔｈｉｎｇＣｏｍｐｏｓｉｔｉｏｎＮｅｔｗｏｒｋ）に入力するプロセスを遂行することによって、前記衣服合成ネットワークが前記人の形体の前記イメージ上における前記人の形体の衣服と前記特定の衣服パターンとを合成して、前記人の形体の前記イメージに対応する少なくとも一つの合成イメージ（ＣｏｍｐｏｓｉｔｅＩｍａｇｅ）を生成させる段階；
（ｂ）前記安全衣服パターン生成装置が、前記合成イメージをイメージ変換ネットワーク（ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎＮｅｔｗｏｒｋ）に入力して、前記イメージ変換ネットワークをもって、前記合成イメージ上の周辺環境を変換して少なくとも一つの変換イメージ（ＴｒａｎｓｌａｔｅｄＩｍａｇｅ）を生成させるプロセス、及び前記変換イメージを物体検出器（ＯｂｊｅｃｔＤｅｔｅｃｔｏｒ）に入力して、前記物体検出器をもって、前記変換イメージ上で検出された前記人の形体を表す前記人の形体に関する検出情報を出力させるプロセスを遂行する段階；及び
（ｃ）前記安全衣服パターン生成装置が、第１ロスレイヤをもって、前記人の形体に関する前記検出情報と前記人の形体の前記イメージに対応する少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つのロスを算出させるプロセス、及び前記ロスを利用して前記ロスが最小化されるように前記特定の衣服パターンの前記初期値をアップデートするプロセスを遂行する段階；
を含むことを特徴とする方法。
前記（ａ）段階で、
前記安全衣服パターン生成装置は、前記特定の衣服パターンと前記人の形体の前記イメージとを前記衣服合成ネットワークに入力するプロセスを遂行することによって、前記衣服合成ネットワークをもって、（ｉ）セグメンテーションネットワーク（ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記衣服をセグメンテーションさせるプロセスと、姿勢推定ネットワーク（ＰｏｓｔｕｒｅＥｓｔｉｍａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記人の形体の少なくとも一つの関節部位を取得させるプロセス、（ｉｉ）マスキングレイヤ（ＭａｓｋｉｎｇＬａｙｅｒ）を通じて前記関節部位を参照して、前記特定の衣服パターンで前記衣服をマスキングして生成された少なくとも一つのマスキング済みイメージ（ＭａｓｋｅｄＩｍａｇｅ）を取得するプロセス、（ｉｉｉ）前記マスキング済みイメージと前記人の形体の前記イメージとをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して少なくとも一つのコンカチネート済みイメージ（ＣｏｎｃａｔｅｎａｔｅｄＩｍａｇｅ）を生成するプロセス、及び（ｉｖ）エンコーダ（Ｅｎｃｏｄｅｒ）を通じて前記コンカチネート済みイメージに対してコンボリューション演算を少なくとも一回適用するプロセス、及びデコーダ（Ｄｅｃｏｄｅｒ）を通じて前記エンコーダの出力に対してデコンボリューション演算を少なくとも一回適用するプロセスを遂行することによって、前記合成イメージを生成させることを特徴とする請求項１に記載の方法。
前記衣服合成ネットワークは、学習装置により前記特定の衣服パターンと前記人の形体の前記イメージとを利用して前記合成イメージを生成するように学習された状態であり、
前記学習装置が、（ｉ）前記人の形体の少なくとも一つの取得されたトレーニングイメージを前記セグメンテーションネットワークに入力して、前記セグメンテーションネットワークをもって、前記人の形体の前記トレーニングイメージ上における少なくとも一つの学習用衣服をセグメンテーションさせるプロセスと、前記人の形体の前記トレーニングイメージを前記姿勢推定ネットワークに入力して、前記姿勢推定ネットワークをもって、前記人の形体の前記トレーニングイメージ上における少なくとも一つの学習用人の形体の少なくとも一つの学習用関節部位を取得させるプロセス、（ｉｉ）前記学習用関節部位、前記学習用衣服、及び少なくとも一つの取得された学習用衣服パターンを前記マスキングレイヤに入力して、前記マスキングレイヤをもって、前記学習用関節部位を参照して前記学習用衣服パターンで前記学習用衣服をマスキングして少なくとも一つの学習用マスキング済みイメージを生成させるプロセス、（ｉｉｉ）前記学習用マスキング済みイメージと前記人の形体の前記トレーニングイメージとをコンカチネートして、少なくとも一つの学習用コンカチネート済みイメージを生成するプロセス、（ｉｖ）前記学習用コンカチネート済みイメージを前記エンコーダに入力して、前記エンコーダをもって、前記学習用コンカチネート済みイメージに対して前記コンボリューション演算を少なくとも一回適用させるプロセス、及び前記エンコーダの前記出力を前記デコーダに入力して、前記デコーダをもって、前記エンコーダの前記出力に対して前記デコンボリューション演算を少なくとも一回適用させて前記学習用合成イメージを生成させるプロセス、及び（ｖ）第２ロスレイヤをもって、（ｖ−１）前記学習用合成イメージと（ｖ−２）少なくとも一つの原本正解イメージ（前記少なくとも一つの原本正解イメージは、前記人の形体の前記トレーニングイメージ及び前記学習用衣服パターンに対応するように生成されたものである）を参照して少なくとも一つの知覚ロス（ＰｅｒｃｅｐｔｕａｌＬｏｓｓ）を算出させるプロセス、及び前記知覚ロスを参照したバックプロパゲーションを通じて前記知覚ロスが最小化されるように前記デコーダ、前記エンコーダ、及び前記マスキングレイヤのうち少なくとも一つのパラメータを調整するプロセスを繰り返して、前記衣服合成ネットワークを学習することを特徴とする請求項２に記載の方法。
前記原本正解イメージは、前記人の形体の前記トレーニングイメージ上の前記学習用衣服を前記学習用衣服パターンでマスキングして生成されることを特徴とする請求項３に記載の方法。
前記原本正解は、（ｉ）前記人の形体の前記イメージをラベリングして生成された前記人の形体に対応する情報、及び（ｉｉ）前記物体検出器または他の物体検出器に入力された前記人の形体の前記イメージから検出された前記人の形体に対応する情報のうち一つであることを特徴とする請求項１に記載の方法。
前記（ｂ）段階で、
前記安全衣服パターン生成装置は、前記イメージ変換ネットワークをもって、前記人の形体を検出する従来の物体検出器の性能が予め設定された閾値より低くなるように前記合成イメージ上の前記周辺環境を他の周辺環境に変換させるプロセスを遂行することを特徴とする請求項１に記載の方法。
前記イメージ変換ネットワークは、相互にペアにならず（Ｕｎｐａｉｒｅｄ）相互に異なるドメイン（Ｄｏｍａｉｎ）にそれぞれ属する原本イメージと変換イメージとに対してイメージ対イメージ変換（Ｉｍａｇｅ−Ｔｏ−ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎ）を行うサイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を含むことを特徴とする請求項６に記載の方法。
人の形体（Ｈｕｍａｎ−ｌｉｋｅＦｉｇｕｒｅ）に使用される少なくとも一つの安全衣服パターンを生成する安全衣服パターン生成装置において、
インストラクションを格納する少なくとも一つのメモリと、
（Ｉ）前記人の形体の少なくとも１つのイメージが取得されると、初期値を有する少なくとも１つの特定の衣服パターンを生成するプロセス、及び前記特定の衣服パターンと前記人の形体の前記イメージとを衣服合成ネットワーク（ＣｌｏｔｈｉｎｇＣｏｍｐｏｓｉｔｉｏｎＮｅｔｗｏｒｋ）に入力するプロセスを遂行することによって、前記衣服合成ネットワークが前記人の形体の前記イメージ上における前記人の形体の衣服と前記特定の衣服パターンとを合成して、前記人の形体の前記イメージに対応する少なくとも一つの合成イメージ（ＣｏｍｐｏｓｉｔｅＩｍａｇｅ）を生成させるプロセス、（ＩＩ）前記合成イメージをイメージ変換ネットワーク（ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎＮｅｔｗｏｒｋ）に入力して、前記イメージ変換ネットワークをもって、前記合成イメージ上の周辺環境を変換して少なくとも一つの変換イメージ（ＴｒａｎｓｌａｔｅｄＩｍａｇｅ）を生成させるプロセス、及び前記変換イメージを物体検出器（ＯｂｊｅｃｔＤｅｔｅｃｔｏｒ）に入力して、前記物体検出器をもって、前記変換イメージ上で検出された前記人の形体を表す前記人の形体に関する検出情報を出力させるプロセス、及び（ＩＩＩ）第１ロスレイヤをもって、前記人の形体に関する前記検出情報と前記人の形体の前記イメージに対応する少なくとも一つの原本正解（ＧｒｏｕｎｄＴｒｕｔｈ）とを参照して少なくとも一つのロスを算出させるプロセス、及び前記ロスを利用して前記ロスが最小化されるように前記特定の衣服パターンの前記初期値をアップデートするプロセスを遂行するための前記インストラクションを実行するように構成された少なくとも一つのプロセッサと、
を含むことを特徴とする装置。
前記（Ｉ）プロセスで、
前記プロセッサは、前記特定の衣服パターンと前記人の形体の前記イメージとを前記衣服合成ネットワークに入力するプロセスを遂行することによって、前記衣服合成ネットワークをもって、（ｉ）セグメンテーションネットワーク（ＳｅｇｍｅｎｔａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記衣服をセグメンテーションさせるプロセスと、姿勢推定ネットワーク（ＰｏｓｔｕｒｅＥｓｔｉｍａｔｉｏｎＮｅｔｗｏｒｋ）を通じて前記人の形体の前記イメージ上における前記人の形体の少なくとも一つの関節部位を取得させるプロセス、（ｉｉ）マスキングレイヤ（ＭａｓｋｉｎｇＬａｙｅｒ）を通じて前記関節部位を参照して、前記特定の衣服パターンで前記衣服をマスキングして生成された少なくとも一つのマスキング済みイメージ（ＭａｓｋｅｄＩｍａｇｅ）を取得するプロセス、（ｉｉｉ）前記マスキング済みイメージと前記人の形体の前記イメージとをコンカチネート（Ｃｏｎｃａｔｅｎａｔｉｎｇ）して少なくとも一つのコンカチネート済みイメージ（ＣｏｎｃａｔｅｎａｔｅｄＩｍａｇｅ）を生成するプロセス、及び（ｉｖ）エンコーダ（Ｅｎｃｏｄｅｒ）を通じて前記コンカチネート済みイメージに対してコンボリューション演算を少なくとも一回適用するプロセス、及びデコーダ（Ｄｅｃｏｄｅｒ）を通じて前記エンコーダの出力に対してデコンボリューション演算を少なくとも一回適用するプロセスを遂行することによって、前記合成イメージを生成させることを特徴とする請求項８に記載の装置。
前記衣服合成ネットワークは、学習装置により前記特定の衣服パターンと前記人の形体の前記イメージとを利用して前記合成イメージを生成するように学習された状態であり、
前記学習装置が、（ｉ）前記人の形体の少なくとも一つの取得されたトレーニングイメージを前記セグメンテーションネットワークに入力して、前記セグメンテーションネットワークをもって、前記人の形体の前記トレーニングイメージ上における少なくとも一つの学習用衣服をセグメンテーションさせるプロセスと、前記人の形体の前記トレーニングイメージを前記姿勢推定ネットワークに入力して、前記姿勢推定ネットワークをもって、前記人の形体の前記トレーニングイメージ上における少なくとも一つの学習用人の形体の少なくとも一つの学習用関節部位を取得させるプロセス、（ｉｉ）前記学習用関節部位、前記学習用衣服、及び少なくとも一つの取得された学習用衣服パターンを前記マスキングレイヤに入力して、前記マスキングレイヤをもって、前記学習用関節部位を参照して前記学習用衣服パターンで前記学習用衣服をマスキングして少なくとも一つの学習用マスキング済みイメージを生成させるプロセス、（ｉｉｉ）前記学習用マスキング済みイメージと前記人の形体の前記トレーニングイメージとをコンカチネートして、少なくとも一つの学習用コンカチネート済みイメージを生成するプロセス、（ｉｖ）前記学習用コンカチネート済みイメージを前記エンコーダに入力して、前記エンコーダをもって、前記学習用コンカチネート済みイメージに対して前記コンボリューション演算を少なくとも一回適用させるプロセス、及び前記エンコーダの前記出力を前記デコーダに入力して、前記デコーダをもって、前記エンコーダの前記出力に対して前記デコンボリューション演算を少なくとも一回適用させて前記学習用合成イメージを生成させるプロセス、及び（ｖ）第２ロスレイヤをもって、（ｖ−１）前記学習用合成イメージと（ｖ−２）少なくとも一つの原本正解イメージ（前記少なくとも一つの原本正解イメージは、前記人の形体の前記トレーニングイメージ及び前記学習用衣服パターンに対応するように生成されたものである）を参照して少なくとも一つの知覚ロス（ＰｅｒｃｅｐｔｕａｌＬｏｓｓ）を算出させるプロセス、及び前記知覚ロスを参照したバックプロパゲーションを通じて前記知覚ロスが最小化されるように前記デコーダ、前記エンコーダ、及び前記マスキングレイヤのうち少なくとも一つのパラメータを調整するプロセスを繰り返して、前記衣服合成ネットワークを学習することを特徴とする請求項９に記載の装置。
前記原本正解イメージは、前記人の形体の前記トレーニングイメージ上の前記学習用衣服を前記学習用衣服パターンでマスキングして生成されることを特徴とする請求項１０に記載の装置。
前記原本正解は、（ｉ）前記人の形体の前記イメージをラベリングして生成された前記人の形体に対応する情報、及び（ｉｉ）前記物体検出器または他の物体検出器に入力された前記人の形体の前記イメージから検出された前記人の形体に対応する情報のうち一つであることを特徴とする請求項８に記載の装置。
前記（ＩＩ）プロセスで、
前記プロセッサは、前記イメージ変換ネットワークをもって、前記人の形体を検出する従来の物体検出器の性能が予め設定された閾値より低くなるように前記合成イメージ上の前記周辺環境を他の周辺環境に変換させるプロセスを遂行することを特徴とする請求項８に記載の装置。
前記イメージ変換ネットワークは、相互にペアにならず（Ｕｎｐａｉｒｅｄ）相互に異なるドメイン（Ｄｏｍａｉｎ）にそれぞれ属する原本イメージと変換イメージとに対してイメージ対イメージ変換（Ｉｍａｇｅ−Ｔｏ−ＩｍａｇｅＴｒａｎｓｌａｔｉｏｎ）を行うサイクルＧＡＮ（ＣｙｃｌｅＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋ）を含むことを特徴とする請求項１３に記載の装置。