JP6924517B2

JP6924517B2 - ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法

Info

Publication number: JP6924517B2
Application number: JP2020006170A
Authority: JP
Inventors: − ヒョンキム、ケイ; キム、ヨンジュン; − キョンキム、ハク; ナム、ウヒョン; ブー、ソッフン; ソン、ミュンチュル; シン、ドンス; ヨー、ドンフン; リュー、ウジュ; − チュンイ、ミョン; イ、ヒョンス; チャン、テウン; ジョン、キュンチョン; チェ、ホンモ; チョウ、ホジン
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-17
Publication date: 2021-08-25
Anticipated expiration: 2040-01-17
Also published as: US10740593B1; KR20200095356A; CN111507150B; EP3690721A1; CN111507150A; KR102362744B1; JP2020126624A; US20200250402A1

Description

本発明は顔認識装置に関し、より具体的に顔イメージに対応する多数の特徴を使用して顔を認識するためのシステムに関する。

ディープラーニング（Ｄｅｅｐｌｅａｒｎｉｎｇ）は、多数のプロセッシングレイヤが含まれたディープグラフを使用して高水準のデータ抽出をモデリングするために試みるアルゴリズムセットを基盤とするマシンラーニング（ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ）及び人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）の一種である。一般的なディープラーニングアーキテクチャには、多くのニューロンレイヤと数百万個のパラメータとが含まれ得る。このようなパラメータは、高速ＣＰＵが取り付けられたコンピュータにおいて大量のデータにより学習され得、ＲｅＬＵ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔｓ）、ドロップアウト（ｄｒｏｐｏｕｔ）、データ増強（ｄａｔａａｕｇｍｅｎｔａｔｉｏｎ）、ＳＧＤ（ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）などのような多くのレイヤで作動し得る新たな学習技術によりガイドされる。

既存のディープラーニングアーキテクチャの中でＣＮＮ（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）は、最も広く使用されるディープラーニングアーキテクチャのうちの一つである。ＣＮＮの基本概念は知られるようになってから２０年以上になるが、ＣＮＮの真の力は、最近、ディープラーニング理論が開発された以後に認められた。現在までにＣＮＮは、顔認識、イメージ分類、イメージキャプションの生成、視覚的質疑応答及び自律走行車両のような人工知能及び機械学習のアプリケーションにおいて大きな成功を成し遂げた。

顔認識は、多くの顔認識アプリケーションにおいて重要なプロセスである。顔感知技術の大部分は、顔の正面を容易に感知することができる。

このような顔認識は、顔イメージが入力されると、特徴抽出ネットワークにより顔イメージから特徴を抽出し、抽出された特徴を使用して顔を認識するようになる。

特に、従来の顔認識装置では顔認識性能を向上させるために入力増強（ｉｎｐｕｔａｕｇｍｅｎｔａｔｉｏｎ）を利用している。

すなわち、図１を参照すると、顔イメージが入力されると、パッチ生成部１１は顔イメージに対応する複数のパッチを生成するために変換（ｔｒａｎｓｌａｔｉｏｎ）またはフリップ（ｆｌｉｐ）などのような方法を使用して顔イメージを処理することができ、特徴抽出ネットワーク１２は、生成されたそれぞれのパッチから特徴を抽出し、抽出された特徴を平均化して顔イメージに対応する特徴を出力して顔イメージに対する顔認識を遂行するようになる。

しかし、このような従来の顔認識装置では、生成されたパッチに対応する回数だけ特徴抽出ネットワークにおいてフォワードコンピューティング（ｆｏｒｗａｒｄｃｏｍｐｕｔｉｎｇ）を遂行しなければならないため、かなりの時間が所要され、多くのコンピューティングリソースを使用する短所がある。

また、従来の顔認識装置では、平均化された特徴が顔イメージに対応する最も適した特徴であるという保障がないため、顔認識の結果に対する信頼性が保障されにくい問題点がある。

本発明は、上述した問題点を全て解決することをその目的とする。

本発明は、パッチを生成する過程なしに多数の特徴を取得し得るようにすることを他の目的とする。

本発明は、パッチを生成する過程なしに、一回のフォワードコンピューティング（ｆｏｒｗａｒｄｃｏｍｐｕｔｉｎｇ）を利用して多数の特徴を取得し得るようにすることをまた他の目的とする。

本発明は、顔認識に所要される時間を最小化し、コンピューティングリソースの使用を最小化し得るようにすることをまた他の目的とする。

本発明は、顔認識の結果に対する信頼性を保障し得るようにすることをまた他の目的とする。

前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。

本発明の一態様によると、ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の多重パッチ組み合わせ（ｍｕｌｔｉｐｌｅｐａｔｃｈｃｏｍｂｉｎａｔｉｏｎ）を利用した顔認識方法において、（ａ）第１サイズを有する顔イメージが取得されると、顔認識装置が、前記顔イメージを特徴抽出ネットワーク（前記特徴抽出ネットワークは、第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習されていることを特徴とし、前記第２サイズは前記第１サイズより小さい）に入力して、前記特徴抽出ネットワークをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、前記特徴マップにスライディングプーリング演算を適用して多数の特徴を生成させる段階；及び（ｂ）前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階；を含むことを特徴とする方法が提供される。

一実施例において、前記（ａ）段階で、前記顔認識装置は、前記第１サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第１＿１サイズの特徴マップを生成させ、前記第１＿１サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第１＿１サイズの特徴マップにスライディングプーリング演算を適用することによって第２＿１サイズの多数の特徴を生成させ、前記第２＿１サイズは、前記第２サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とする方法が提供される。

一実施例において、前記特徴抽出ネットワークは、第１学習装置により、（ｉ）前記第２サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第２サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第２＿１サイズの前記学習用特徴マップが生成され、（ｉｉ）前記第２＿１サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第１ロスレイヤにより生成された一つ以上の第１ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法が提供される。

一実施例において、前記顔認識装置は、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第１＿１サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする方法が提供される。

一実施例において、前記（ｂ）段階において、前記顔認識装置は、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも２つのアテンションブロックに入力して、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とする方法が提供される。

一実施例において、前記顔認識装置は、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算（ｗｅｉｇｈｔｅｄｓｕｍｍａｔｉｏｎ）して前記最適な特徴を出力させることを特徴とする方法が提供される。

一実施例において、前記ニューラルアグリゲーションネットワークは、第２学習装置により、（ｉ）一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも２つのアテンションブロックに入力されて、前記少なくとも２つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記各学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、（ｉｉ）前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、（ｉｉｉ）前記学習用最適な特徴及びこれに対応する原本正解を参照して第２ロスレイヤにより生成された一つ以上の第２のロスを最小化するように前記少なくとも２つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法が提供される。

一実施例において、（ｃ）前記顔認識装置は、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識する段階；をさらに含むことを特徴とする方法が提供される。

本発明の他の態様によると、ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の多重パッチ組み合わせ（ｍｕｌｔｉｐｌｅｐａｔｃｈｃｏｍｂｉｎａｔｉｏｎ）を利用した顔認識装置において、少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、（Ｉ）第１サイズを有する顔イメージが取得されると、前記顔イメージを特徴抽出ネットワーク（前記特徴抽出ネットワークは、第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習されていることを特徴とし、前記第２サイズは、前記第１サイズより小さい）に入力して、前記特徴抽出ネットワークをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、前記特徴マップにスライディングプーリング演算を適用して多数の特徴を生成させるプロセス；及び（ＩＩ）前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセス；を遂行することを特徴とする装置が提供される。

一実施例において、前記（Ｉ）プロセスは、前記プロセッサが、前記第１サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第１＿１サイズの特徴マップを生成させ、前記第１＿１サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第１＿１サイズの特徴マップにスライディングプーリング演算を適用することによって第２＿１サイズの多数の特徴を生成させ、前記第２＿１サイズは前記第２サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とする装置が提供される。

一実施例において、前記特徴抽出ネットワークは、第１学習装置により、（ｉ）前記第２サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第２サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第２＿１サイズの前記学習用特徴マップが生成され、（ｉｉ）前記第２＿１サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第１ロスレイヤにより生成された一つ以上の第１ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置が提供される。

一実施例において、前記プロセッサが、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第１＿１サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする装置が提供される。

一実施例において、前記（ＩＩ）プロセスは、前記プロセッサが、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも２つのアテンションブロックに入力して、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とする装置が提供される。

一実施例において、前記プロセッサが、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算（ｗｅｉｇｈｔｅｄｓｕｍｍａｔｉｏｎ）して前記最適な特徴を出力させることを特徴とする装置が提供される。

一実施例において、前記ニューラルアグリゲーションネットワークは、第２学習装置により、（ｉ）一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも２つのアテンションブロックに入力されて、前記少なくとも２つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、（ｉｉ）前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、（ｉｉｉ）前記学習用最適な特徴及びこれに対応する原本正解を参照して第２ロスレイヤにより生成された一つ以上の第２のロスを最小化するように前記少なくとも２つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置が提供される。

一実施例において、前記プロセッサが、（ＩＩＩ）前記最適な特徴を参照して、顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識するプロセス；をさらに遂行することを特徴とする装置が提供される。

その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。

本発明は、学習されたイメージより大きいイメージを入力して、パッチを生成する過程なしに多数の特徴を取得することが可能になる。

本発明は、学習されたイメージより大きいイメージを入力して、特徴抽出の間に一回のフォワードコンピューティングのみで多数の特徴を取得するため、特徴抽出のためのコンピューティング時間及びコンピューティングリソースの消耗を節減することが可能になる。

本発明は、クオリティスコアを利用して多数の特徴を加重合算することで最適な特徴を出力するため、顔認識の結果に対する信頼性を保障することが可能になる。

本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者（以下、「通常の技術者」）にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。

図１は、従来の顔認識装置を簡略に示す図面である。図２は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する顔認識装置を簡略に示す図面である。図３は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法を簡略に示す図面である。図４は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法における特徴抽出ネットワークを簡略に示す図面である。図５は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法において生成された例示的な多重パッチを簡略に示す図面である。図６は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法におけるニューラルアグリゲーションネットワークを簡略に示す図面である。

後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例と関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素である位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その各請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。

また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。

本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ（例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ）でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体（例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物）を想定し得るが、必ずしもこれに限定されるものではない。

以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。

図２は、本発明の一実施例にしたがって、ニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する顔認識装置を簡略に示す図面である。図２を参照すると、顔認識装置１００は、ニューラルネットワーク基盤の多重パッチ組み合わせを利用して、少なくとも一つの顔イメージの顔認識を行うための各インストラクションを格納するメモリ１１０と、メモリ１１０に格納された各インストラクションに対応してニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔イメージから顔を認識するプロセッサ１２０とを含むことができる。ここで、ニューラルネットワークは、ディープラーニングネットワーク又はディープニューラルネットワークを含むことができるが、本発明の範囲はこれに限定されるわけではない。

具体的に、顔認識装置１００は、典型的に少なくとも一つのコンピューティング装置（例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の各構成要素を含むことができる装置；ルータ、スイッチなどのような電子通信装置；ネットワーク接続ストレージ（ＮＡＳ）及びストレージ領域ネットワーク（ＳＡＮ）のような電子情報ストレージシステム）と少なくとも一つのコンピュータソフトウェア（すなわち、コンピューティング装置をもって特定の方式で機能させる各インストラクション）との組み合わせを利用して所望のシステム性能を達成するものであり得る。

また、コンピューティング装置のプロセッサは、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）またはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、キャッシュメモリ（ＣａｃｈｅＭｅｍｏｒｙ）、データバス（ＤａｔａＢｕｓ）などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。

しかし、このように前記コンピューティング装置が描写されたからといって、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ、及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。

本発明の一実施例にしたがって、顔認識装置１００を利用して、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法を、図３を参照して説明すると以下のとおりである。

まず、第１サイズを有する顔イメージが取得されると、顔認識装置１００が、前記顔イメージを特徴抽出ネットワーク１３０に入力して、前記特徴抽出ネットワーク１３０をもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、前記特徴マップにスライディングプーリング演算を適用して多数の特徴を生成させる。前記特徴抽出ネットワーク１３０は、第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習されていることを特徴とし、前記第２サイズは前記第１サイズより小さい。

一例として、図４を参照すると、第１サイズを有する顔イメージが取得されると、特徴抽出ネットワーク１３０は、第１コンボリューションレイヤ１３１＿１ないし第ｎコンボリューションレイヤ１３１＿ｎを利用して第１サイズを有する顔イメージに複数のコンボリューション演算を適用することによって、第１＿１サイズの特徴マップを生成させる。ここで、第１コンボリューションレイヤ１３１＿１ないし第ｎコンボリューションレイヤ１３１＿ｎは、第１サイズを有する学習用顔イメージに対して複数のコンボリューション演算を適用して第２＿１サイズの学習用特徴マップを生成するように学習されている状態であり得、第２＿１サイズは第１＿１サイズより小さい。

そして、図５を参照すると、特徴抽出ネットワーク１３０はプーリングレイヤ１３２をもって、第２＿１サイズのプーリングサイズを使用して第１＿１サイズの特徴マップにスライディングプーリング演算を適用して第２＿１サイズの多数の特徴を生成させる。ここで、スライディングプーリング演算は、予め設定されたストライドを利用して遂行することができる。また、図５では、実際の特徴マップを示したのではなく、説明の便宜のために特徴マップに対応する顔イメージを示したものである。

これをもう少し詳細に説明すると、以下のとおりである。

学習装置は、特徴抽出ネットワーク１３０をもって、１９２ｘ１９２サイズの学習用顔イメージに複数のコンボリューション演算を適用して６ｘ６サイズの特徴マップを生成させ、プーリングレイヤをもって、６ｘ６サイズの特徴マップに一つ以上の６ｘ６プーリング演算を適用して特徴ベクトルを出力するように学習された状態であり得る。

ここで、特徴抽出ネットワーク１３０のそれぞれのコンボリューションレイヤ１３１＿１ないし１３１＿ｎは、それ自体に対応する入力イメージまたは入力特徴マップにコンボリューション演算を適用して、これに対応する入力イメージまたは入力特徴マップのサイズの１／２サイズでそれぞれの特徴マップを出力し、１９２ｘ１９２サイズの学習用顔イメージは、６回のコンボリューション演算により６ｘ６サイズの特徴マップに変換され得る。

そして、このように学習された特徴抽出ネットワーク１３０に３２０ｘ３２０サイズの顔イメージが入力されると、特徴抽出ネットワーク１３０は、学習過程と類似した過程により６回のコンボリューション演算を遂行して１０ｘ１０サイズの特徴マップを出力することができる。

その後、特徴抽出ネットワーク１３０は、プーリングレイヤ１３２をもって、スライディングウィンドウを使用して１０ｘ１０サイズの特徴マップに６ｘ６プーリング演算を適用して、６ｘ６サイズに対応する少なくとも一つの領域に対する２５個の特徴を生成させることができる。すなわち、プーリングレイヤは、６ｘ６サイズのウィンドウを１ストライドに移動させることができ、１０ｘ１０サイズの特徴マップにプーリング演算を適用して２５個の特徴を生成することができる。ここで、プーリングレイヤ１３２は、多数の特徴をベクトル化して生成された特徴ベクトルを出力することができる。

結果として、本発明においては従来とは異なり、一回のフォワードコンピューティング過程のみを利用して、一つの顔イメージに対する多数の特徴を取得することができる。

一方、特徴抽出ネットワーク１３０は、第１学習装置により、（ｉ）前記第２サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第２サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して、前記第２＿１サイズの前記学習用特徴マップが生成され、（ｉｉ）前記第２＿１サイズの前記学習用特徴マップに対応する学習用特性情報（ｃｈａｒａｃｔｅｒｉｓｔｉｃｉｎｆｏｒｍａｔｉｏｎ）とこれに対応する原本正解とを参照して第１ロスレイヤにより生成された一つ以上の第１ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であり得る。

すなわち、（ｉ）（ｉ−１）第２＿１サイズの学習用特徴マップにプーリング演算を適用してプーリングレイヤにより第２＿１サイズにプーリングした学習用特徴と（ｉ−２）学習用顔イメージの予め設定された特徴との差、及び（ｉｉ）（ｉｉ−１）学習用特徴を利用して認識された顔情報と（ｉｉ−２）学習用顔イメージに対応する予め設定された顔情報との差のうち少なくとも一つを参照して、バックプロパゲーションにより少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータをアップデートする過程を繰り返すことによって入力された顔イメージに対応する正確な顔の特徴を出力するように少なくとも一つのコンボリューションレイヤが学習された状態であり得る。

次に、顔認識装置１００は、取得された多数の特徴をニューラルアグリゲーションネットワーク１４０に入力して、ニューラルアグリゲーションネットワーク１４０をもって、多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させることができる。

一例として、図６を参照すると、顔認識装置１００は、多数の特徴をニューラルアグリゲーションネットワーク１４０の少なくとも２つのアテンションブロックに入力して、少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることができる。

すなわち、顔認識装置１００は、ニューラルアグリゲーションネットワーク１４０の少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算（ｗｅｉｇｈｔｅｄｓｕｍｍａｔｉｏｎ）して前記最適な特徴を出力させることができる。

ここで、ニューラルアグリゲーションネットワーク１４０は、ビデオ映像で顔認識を遂行するためのニューラルアグリゲーションネットワークにおけるアグリゲーションモジュールのみを利用することができる。また、クオリティスコアは、ニューラルアグリゲーションネットワーク１４０が最も高い顔認識性能を有するように学習された値であり得る。

一方、ビデオ映像において顔認識を遂行するニューラルアグリゲーションネットワークについては、２０１７ＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（ＣＶＰＲ）で発表された「ＮｅｕｒａｌＡｇｇｒｅｇａｔｉｏｎＮｅｔｗｏｒｋｆｏｒＶｉｄｅｏＦａｃｅＲｅｃｏｇｎｉｔｉｏｎ」に記載されている。

一方、ニューラルアグリゲーションネットワーク１４０は、第２学習装置により、（ｉ）一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも２つのアテンションブロックに入力されて、前記少なくとも２つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、（ｉｉ）前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算合することによって学習用最適な特徴が出力され、（ｉｉｉ）前記学習用最適な特徴及びこれに対応する原本正解を参照して第２ロスレイヤにより生成された一つ以上の第２ロスを最小化するように前記少なくとも２つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であり得る。

次に、顔認識装置１００は、クオリティスコアを使用して複数の特徴の加重合算により生成された顔認識に使用される最適な特徴を利用することによって、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識することができる。

すなわち、本発明は、パッチを生成する過程なしに、一回のフォワードコンピューティングのみで多数の変換された特徴を取得し、ニューラルアグリゲーションネットワークにより、複数個の変換された特徴のうち顔認識において重要に使用される特徴に対してさらに高い重み付け値を与える加重合算の特徴を取得することによって、顔認識性能を極大化することが可能になる。

このような本発明によると、特徴抽出ネットワークは、学習プロセスが遂行されるイメージよりも大きなイメージを使用して効率的な多数視点の特徴を生成することができ、ニューラルアグリゲーションネットワークは最適な特徴を出力することができる。結果として、モバイル装置、監視、ドローン等における揺れに対して強靭であり、ポーズ変化に強靭な顔認識が可能である。

また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスク（ＦｌｏｐｔｉｃａｌＤｉｓｋ）のような磁気−光メディア（Ｍａｇｎｅｔｏ−ＯｐｔｉｃａｌＭｅｄｉａ）、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。

以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。

したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims

ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の多重パッチ組み合わせ（ｍｕｌｔｉｐｌｅｐａｔｃｈｃｏｍｂｉｎａｔｉｏｎ）を利用した顔認識方法において、
（ａ）第１サイズを有する顔イメージが取得されると、顔認識装置が、前記第１サイズより小さい第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させる段階；及び
（ｂ）前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階；
を含み、
前記（ａ）段階で、
前記顔認識装置は、前記第１サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第１＿１サイズの特徴マップを生成させ、前記第１＿１サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第１＿１サイズの特徴マップにスライディングプーリング演算を適用することによって第２＿１サイズの多数の特徴を生成させ、前記第２＿１サイズは、前記第２サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とし、
前記特徴抽出ネットワークは、第１学習装置により、（ｉ）前記第２サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第２サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第２＿１サイズの前記学習用特徴マップが生成され、（ｉｉ）前記第２＿１サイズの前記学習用特徴マップに対応する学習用特性情報（ｃｈａｒａｃｔｅｒｉｓｔｉｃｉｎｆｏｒｍａｔｉｏｎ）とこれに対応する原本正解とを参照して第１ロスレイヤにより生成された一つ以上の第１ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法。
前記顔認識装置は、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第１＿１サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする請求項１に記載の方法。
ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の多重パッチ組み合わせ（ｍｕｌｔｉｐｌｅｐａｔｃｈｃｏｍｂｉｎａｔｉｏｎ）を利用した顔認識方法において、
（ａ）第１サイズを有する顔イメージが取得されると、顔認識装置が、前記第１サイズより小さい第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させる段階；及び
（ｂ）前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階；
を含み、
前記（ｂ）段階において、
前記顔認識装置は、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも２つのアテンションブロックに入力して、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とし、
前記ニューラルアグリゲーションネットワークは、第２学習装置により、（ｉ）一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも２つのアテンションブロックに入力されて、前記少なくとも２つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記各学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、（ｉｉ）前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、（ｉｉｉ）前記学習用最適な特徴及びこれに対応する原本正解を参照して第２ロスレイヤにより生成された一つ以上の第２のロスを最小化するように前記少なくとも２つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法。
前記顔認識装置は、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算（ｗｅｉｇｈｔｅｄｓｕｍｍａｔｉｏｎ）して前記最適な特徴を出力させることを特徴とする請求項３に記載の方法。
（ｃ）前記顔認識装置は、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識する段階；
をさらに含むことを特徴とする請求項１に記載の方法。
ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の多重パッチ組み合わせ（ｍｕｌｔｉｐｌｅｐａｔｃｈｃｏｍｂｉｎａｔｉｏｎ）を利用した顔認識装置において、
少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、
前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、（Ｉ）第１サイズを有する顔イメージが取得されると、前記第１サイズより小さい第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させるプロセス；及び（ＩＩ）前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセスを遂行し、
前記（Ｉ）プロセスは、
前記プロセッサが、前記第１サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第１＿１サイズの特徴マップを生成させ、前記第１＿１サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第１＿１サイズの特徴マップにスライディングプーリング演算を適用することによって第２＿１サイズの多数の特徴を生成させ、前記第２＿１サイズは前記第２サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とし、
前記特徴抽出ネットワークは、第１学習装置により、（ｉ）前記第２サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第２サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第２＿１サイズの前記学習用特徴マップが生成され、（ｉｉ）前記第２＿１サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第１ロスレイヤにより生成された一つ以上の第１ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置。
前記プロセッサが、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第１＿１サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする請求項６に記載の装置。
ディープニューラルネットワーク（ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）基盤の多重パッチ組み合わせ（ｍｕｌｔｉｐｌｅｐａｔｃｈｃｏｍｂｉｎａｔｉｏｎ）を利用した顔認識装置において、
少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、
前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、（Ｉ）第１サイズを有する顔イメージが取得されると、前記第１サイズより小さい第２サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第１サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させるプロセス；及び（ＩＩ）前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセスを遂行し、
前記（ＩＩ）プロセスは、
前記プロセッサが、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも２つのアテンションブロックに入力して、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とし、
前記ニューラルアグリゲーションネットワークは、第２学習装置により、（ｉ）一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも２つのアテンションブロックに入力されて、前記少なくとも２つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、（ｉｉ）前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、（ｉｉｉ）前記学習用最適な特徴及びこれに対応する原本正解を参照して第２ロスレイヤにより生成された一つ以上の第２のロスを最小化するように前記少なくとも２つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置。
前記プロセッサが、前記少なくとも２つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算（ｗｅｉｇｈｔｅｄｓｕｍｍａｔｉｏｎ）して前記最適な特徴を出力させることを特徴とする請求項８に記載の装置。
前記プロセッサが、
（ＩＩＩ）前記最適な特徴を参照して、顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識するプロセス；
をさらに遂行することを特徴とする請求項６に記載の装置。