JP6924517B2 - ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 - Google Patents

ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 Download PDF

Info

Publication number
JP6924517B2
JP6924517B2 JP2020006170A JP2020006170A JP6924517B2 JP 6924517 B2 JP6924517 B2 JP 6924517B2 JP 2020006170 A JP2020006170 A JP 2020006170A JP 2020006170 A JP2020006170 A JP 2020006170A JP 6924517 B2 JP6924517 B2 JP 6924517B2
Authority
JP
Japan
Prior art keywords
learning
size
features
face
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020006170A
Other languages
English (en)
Other versions
JP2020126624A (ja
Inventor
− ヒョン キム、ケイ
− ヒョン キム、ケイ
キム、ヨンジュン
− キョン キム、ハク
− キョン キム、ハク
ナム、ウヒョン
ブー、ソッフン
ソン、ミュンチュル
シン、ドンス
ヨー、ドンフン
リュー、ウジュ
− チュン イ、ミョン
− チュン イ、ミョン
イ、ヒョンス
チャン、テウン
ジョン、キュンチョン
チェ、ホンモ
チョウ、ホジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2020126624A publication Critical patent/JP2020126624A/ja
Application granted granted Critical
Publication of JP6924517B2 publication Critical patent/JP6924517B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は顔認識装置に関し、より具体的に顔イメージに対応する多数の特徴を使用して顔を認識するためのシステムに関する。
ディープラーニング(Deep learning)は、多数のプロセッシングレイヤが含まれたディープグラフを使用して高水準のデータ抽出をモデリングするために試みるアルゴリズムセットを基盤とするマシンラーニング(machine learning)及び人工ニューラルネットワーク(artificial neural network)の一種である。一般的なディープラーニングアーキテクチャには、多くのニューロンレイヤと数百万個のパラメータとが含まれ得る。このようなパラメータは、高速CPUが取り付けられたコンピュータにおいて大量のデータにより学習され得、ReLU(rectified linear units)、ドロップアウト(dropout)、データ増強(data augmentation)、SGD(stochastic gradient descent)などのような多くのレイヤで作動し得る新たな学習技術によりガイドされる。
既存のディープラーニングアーキテクチャの中でCNN(convolutional neural network)は、最も広く使用されるディープラーニングアーキテクチャのうちの一つである。CNNの基本概念は知られるようになってから20年以上になるが、CNNの真の力は、最近、ディープラーニング理論が開発された以後に認められた。現在までにCNNは、顔認識、イメージ分類、イメージキャプションの生成、視覚的質疑応答及び自律走行車両のような人工知能及び機械学習のアプリケーションにおいて大きな成功を成し遂げた。
顔認識は、多くの顔認識アプリケーションにおいて重要なプロセスである。顔感知技術の大部分は、顔の正面を容易に感知することができる。
このような顔認識は、顔イメージが入力されると、特徴抽出ネットワークにより顔イメージから特徴を抽出し、抽出された特徴を使用して顔を認識するようになる。
特に、従来の顔認識装置では顔認識性能を向上させるために入力増強(input augmentation)を利用している。
すなわち、図1を参照すると、顔イメージが入力されると、パッチ生成部11は顔イメージに対応する複数のパッチを生成するために変換(translation)またはフリップ(flip)などのような方法を使用して顔イメージを処理することができ、特徴抽出ネットワーク12は、生成されたそれぞれのパッチから特徴を抽出し、抽出された特徴を平均化して顔イメージに対応する特徴を出力して顔イメージに対する顔認識を遂行するようになる。
しかし、このような従来の顔認識装置では、生成されたパッチに対応する回数だけ特徴抽出ネットワークにおいてフォワードコンピューティング(forward computing)を遂行しなければならないため、かなりの時間が所要され、多くのコンピューティングリソースを使用する短所がある。
また、従来の顔認識装置では、平均化された特徴が顔イメージに対応する最も適した特徴であるという保障がないため、顔認識の結果に対する信頼性が保障されにくい問題点がある。
本発明は、上述した問題点を全て解決することをその目的とする。
本発明は、パッチを生成する過程なしに多数の特徴を取得し得るようにすることを他の目的とする。
本発明は、パッチを生成する過程なしに、一回のフォワードコンピューティング(forward computing)を利用して多数の特徴を取得し得るようにすることをまた他の目的とする。
本発明は、顔認識に所要される時間を最小化し、コンピューティングリソースの使用を最小化し得るようにすることをまた他の目的とする。
本発明は、顔認識の結果に対する信頼性を保障し得るようにすることをまた他の目的とする。
前記のような本発明の目的を達成し、後述する本発明の特徴的な効果を実現するための、本発明の特徴的な構成は下記のとおりである。
本発明の一態様によると、ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識方法において、(a)第1サイズを有する顔イメージが取得されると、顔認識装置が、前記顔イメージを特徴抽出ネットワーク(前記特徴抽出ネットワークは、第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習されていることを特徴とし、前記第2サイズは前記第1サイズより小さい)に入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、前記特徴マップにスライディングプーリング演算を適用して多数の特徴を生成させる段階;及び(b)前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階;を含むことを特徴とする方法が提供される。
一実施例において、前記(a)段階で、前記顔認識装置は、前記第1サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させ、前記第1_1サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第1_1サイズの特徴マップにスライディングプーリング演算を適用することによって第2_1サイズの多数の特徴を生成させ、前記第2_1サイズは、前記第2サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とする方法が提供される。
一実施例において、前記特徴抽出ネットワークは、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法が提供される。
一実施例において、前記顔認識装置は、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第1_1サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする方法が提供される。
一実施例において、前記(b)段階において、前記顔認識装置は、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも2つのアテンションブロックに入力して、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とする方法が提供される。
一実施例において、前記顔認識装置は、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることを特徴とする方法が提供される。
一実施例において、前記ニューラルアグリゲーションネットワークは、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記各学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2のロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法が提供される。
一実施例において、(c)前記顔認識装置は、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識する段階;をさらに含むことを特徴とする方法が提供される。
本発明の他の態様によると、ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識装置において、少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、(I)第1サイズを有する顔イメージが取得されると、前記顔イメージを特徴抽出ネットワーク(前記特徴抽出ネットワークは、第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習されていることを特徴とし、前記第2サイズは、前記第1サイズより小さい)に入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、前記特徴マップにスライディングプーリング演算を適用して多数の特徴を生成させるプロセス;及び(II)前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセス;を遂行することを特徴とする装置が提供される。
一実施例において、前記(I)プロセスは、前記プロセッサが、前記第1サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させ、前記第1_1サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第1_1サイズの特徴マップにスライディングプーリング演算を適用することによって第2_1サイズの多数の特徴を生成させ、前記第2_1サイズは前記第2サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とする装置が提供される。
一実施例において、前記特徴抽出ネットワークは、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置が提供される。
一実施例において、前記プロセッサが、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第1_1サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする装置が提供される。
一実施例において、前記(II)プロセスは、前記プロセッサが、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも2つのアテンションブロックに入力して、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とする装置が提供される。
一実施例において、前記プロセッサが、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることを特徴とする装置が提供される。
一実施例において、前記ニューラルアグリゲーションネットワークは、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2のロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置が提供される。
一実施例において、前記プロセッサが、(III)前記最適な特徴を参照して、顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識するプロセス;をさらに遂行することを特徴とする装置が提供される。
その他にも、本発明の方法を実行するためのコンピュータプログラムを格納するためのコンピュータ読取り可能な記録媒体がさらに提供される。
本発明は、学習されたイメージより大きいイメージを入力して、パッチを生成する過程なしに多数の特徴を取得することが可能になる。
本発明は、学習されたイメージより大きいイメージを入力して、特徴抽出の間に一回のフォワードコンピューティングのみで多数の特徴を取得するため、特徴抽出のためのコンピューティング時間及びコンピューティングリソースの消耗を節減することが可能になる。
本発明は、クオリティスコアを利用して多数の特徴を加重合算することで最適な特徴を出力するため、顔認識の結果に対する信頼性を保障することが可能になる。
本発明の実施例の説明に利用されるために添付された以下の各図面は、本発明の実施例のうち単に一部であるに過ぎず、本発明の属する技術分野において通常の知識を有する者(以下、「通常の技術者」)にとっては、発明的作業が行われずにこれらの図面に基づいて他の各図面が得られ得る。
図1は、従来の顔認識装置を簡略に示す図面である。 図2は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する顔認識装置を簡略に示す図面である。 図3は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法を簡略に示す図面である。 図4は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法における特徴抽出ネットワークを簡略に示す図面である。 図5は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法において生成された例示的な多重パッチを簡略に示す図面である。 図6は、本発明の一実施例にしたがって、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法におけるニューラルアグリゲーションネットワークを簡略に示す図面である。
後述する本発明に関する詳細な説明は、本発明が実施され得る特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができるように十分詳細に説明される。本発明の多様な実施例は互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造及び特性は、一実施例と関連して本発明の精神及び範囲を逸脱せず、かつ他の実施例で具現され得る。また、それぞれの開示された実施例内の個別の構成要素である位置又は配置は、本発明の精神及び範囲を逸脱せず、かつ変更され得ることが理解されるべきである。したがって、後述の詳細な説明は、限定的な意味として受け取ろうとするものではなく、本発明の範囲は適切に説明されるのであれば、その各請求項が主張することと均等な全ての範囲とともに添付された請求項によってのみ限定される。図面において類似の参照符号は、様々な側面にわたって同一であるか、又は類似の機能を指す。
また、本発明の詳細な説明及び各請求項にわたって、「含む」という単語及びそれらの変形は、他の技術的各特徴、各付加物、構成要素又は段階を除外することを意図したものではない。通常の技術者にとって本発明の他の各目的、長所及び各特性が、一部は本説明書から、また一部は本発明の実施から明らかになるであろう。以下の例示及び図面は実例として提供され、本発明を限定することを意図したものではない。
本発明で言及している各種イメージは、舗装または非舗装道路関連のイメージを含み得、この場合、道路環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではなく、本発明で言及している各種イメージは、道路と関係のないイメージ(例えば、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内と関連したイメージ)でもあり得、この場合、非舗装道路、路地、空き地、海、湖、川、山、森、砂漠、空、室内環境で登場し得る物体(例えば、自動車、人、動物、植物、物、建物、飛行機やドローンのような飛行体、その他の障害物)を想定し得るが、必ずしもこれに限定されるものではない。
以下、本発明の属する技術分野において通常の知識を有する者が本発明を容易に実施し得るようにするために、本発明の好ましい実施例について、添付された図面を参照して詳細に説明することにする。
図2は、本発明の一実施例にしたがって、ニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する顔認識装置を簡略に示す図面である。図2を参照すると、顔認識装置100は、ニューラルネットワーク基盤の多重パッチ組み合わせを利用して、少なくとも一つの顔イメージの顔認識を行うための各インストラクションを格納するメモリ110と、メモリ110に格納された各インストラクションに対応してニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔イメージから顔を認識するプロセッサ120とを含むことができる。ここで、ニューラルネットワークは、ディープラーニングネットワーク又はディープニューラルネットワークを含むことができるが、本発明の範囲はこれに限定されるわけではない。
具体的に、顔認識装置100は、典型的に少なくとも一つのコンピューティング装置(例えば、コンピュータプロセッサ、メモリ、ストレージ、入力装置及び出力装置、その他既存のコンピューティング装置の各構成要素を含むことができる装置;ルータ、スイッチなどのような電子通信装置;ネットワーク接続ストレージ(NAS)及びストレージ領域ネットワーク(SAN)のような電子情報ストレージシステム)と少なくとも一つのコンピュータソフトウェア(すなわち、コンピューティング装置をもって特定の方式で機能させる各インストラクション)との組み合わせを利用して所望のシステム性能を達成するものであり得る。
また、コンピューティング装置のプロセッサは、MPU(Micro Processing Unit)またはCPU(Central Processing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、コンピューティング装置は、オペレーティングシステム、特定の目的を遂行するアプリケーションのソフトウェア構成をさらに含むこともできる。
しかし、このように前記コンピューティング装置が描写されたからといって、コンピューティング装置が本発明を実施するためのミディアム、プロセッサ、及びメモリが統合された形態である統合プロセッサを含む場合を排除するわけではない。
本発明の一実施例にしたがって、顔認識装置100を利用して、ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識する方法を、図3を参照して説明すると以下のとおりである。
まず、第1サイズを有する顔イメージが取得されると、顔認識装置100が、前記顔イメージを特徴抽出ネットワーク130に入力して、前記特徴抽出ネットワーク130をもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、前記特徴マップにスライディングプーリング演算を適用して多数の特徴を生成させる。前記特徴抽出ネットワーク130は、第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習されていることを特徴とし、前記第2サイズは前記第1サイズより小さい。
一例として、図4を参照すると、第1サイズを有する顔イメージが取得されると、特徴抽出ネットワーク130は、第1コンボリューションレイヤ131_1ないし第nコンボリューションレイヤ131_nを利用して第1サイズを有する顔イメージに複数のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させる。ここで、第1コンボリューションレイヤ131_1ないし第nコンボリューションレイヤ131_nは、第1サイズを有する学習用顔イメージに対して複数のコンボリューション演算を適用して第2_1サイズの学習用特徴マップを生成するように学習されている状態であり得、第2_1サイズは第1_1サイズより小さい。
そして、図5を参照すると、特徴抽出ネットワーク130はプーリングレイヤ132をもって、第2_1サイズのプーリングサイズを使用して第1_1サイズの特徴マップにスライディングプーリング演算を適用して第2_1サイズの多数の特徴を生成させる。ここで、スライディングプーリング演算は、予め設定されたストライドを利用して遂行することができる。また、図5では、実際の特徴マップを示したのではなく、説明の便宜のために特徴マップに対応する顔イメージを示したものである。
これをもう少し詳細に説明すると、以下のとおりである。
学習装置は、特徴抽出ネットワーク130をもって、192x192サイズの学習用顔イメージに複数のコンボリューション演算を適用して6x6サイズの特徴マップを生成させ、プーリングレイヤをもって、6x6サイズの特徴マップに一つ以上の6x6プーリング演算を適用して特徴ベクトルを出力するように学習された状態であり得る。
ここで、特徴抽出ネットワーク130のそれぞれのコンボリューションレイヤ131_1ないし131_nは、それ自体に対応する入力イメージまたは入力特徴マップにコンボリューション演算を適用して、これに対応する入力イメージまたは入力特徴マップのサイズの1/2サイズでそれぞれの特徴マップを出力し、192x192サイズの学習用顔イメージは、6回のコンボリューション演算により6x6サイズの特徴マップに変換され得る。
そして、このように学習された特徴抽出ネットワーク130に320x320サイズの顔イメージが入力されると、特徴抽出ネットワーク130は、学習過程と類似した過程により6回のコンボリューション演算を遂行して10x10サイズの特徴マップを出力することができる。
その後、特徴抽出ネットワーク130は、プーリングレイヤ132をもって、スライディングウィンドウを使用して10x10サイズの特徴マップに6x6プーリング演算を適用して、6x6サイズに対応する少なくとも一つの領域に対する25個の特徴を生成させることができる。すなわち、プーリングレイヤは、6x6サイズのウィンドウを1ストライドに移動させることができ、10x10サイズの特徴マップにプーリング演算を適用して25個の特徴を生成することができる。ここで、プーリングレイヤ132は、多数の特徴をベクトル化して生成された特徴ベクトルを出力することができる。
結果として、本発明においては従来とは異なり、一回のフォワードコンピューティング過程のみを利用して、一つの顔イメージに対する多数の特徴を取得することができる。
一方、特徴抽出ネットワーク130は、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して、前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報(characteristic information)とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であり得る。
すなわち、(i)(i−1)第2_1サイズの学習用特徴マップにプーリング演算を適用してプーリングレイヤにより第2_1サイズにプーリングした学習用特徴と(i−2)学習用顔イメージの予め設定された特徴との差、及び(ii)(ii−1)学習用特徴を利用して認識された顔情報と(ii−2)学習用顔イメージに対応する予め設定された顔情報との差のうち少なくとも一つを参照して、バックプロパゲーションにより少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータをアップデートする過程を繰り返すことによって入力された顔イメージに対応する正確な顔の特徴を出力するように少なくとも一つのコンボリューションレイヤが学習された状態であり得る。
次に、顔認識装置100は、取得された多数の特徴をニューラルアグリゲーションネットワーク140に入力して、ニューラルアグリゲーションネットワーク140をもって、多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させることができる。
一例として、図6を参照すると、顔認識装置100は、多数の特徴をニューラルアグリゲーションネットワーク140の少なくとも2つのアテンションブロックに入力して、少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることができる。
すなわち、顔認識装置100は、ニューラルアグリゲーションネットワーク140の少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることができる。
ここで、ニューラルアグリゲーションネットワーク140は、ビデオ映像で顔認識を遂行するためのニューラルアグリゲーションネットワークにおけるアグリゲーションモジュールのみを利用することができる。また、クオリティスコアは、ニューラルアグリゲーションネットワーク140が最も高い顔認識性能を有するように学習された値であり得る。
一方、ビデオ映像において顔認識を遂行するニューラルアグリゲーションネットワークについては、2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR)で発表された「Neural Aggregation Network for Video Face Recognition」に記載されている。
一方、ニューラルアグリゲーションネットワーク140は、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算合することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2ロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であり得る。
次に、顔認識装置100は、クオリティスコアを使用して複数の特徴の加重合算により生成された顔認識に使用される最適な特徴を利用することによって、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識することができる。
すなわち、本発明は、パッチを生成する過程なしに、一回のフォワードコンピューティングのみで多数の変換された特徴を取得し、ニューラルアグリゲーションネットワークにより、複数個の変換された特徴のうち顔認識において重要に使用される特徴に対してさらに高い重み付け値を与える加重合算の特徴を取得することによって、顔認識性能を極大化することが可能になる。
このような本発明によると、特徴抽出ネットワークは、学習プロセスが遂行されるイメージよりも大きなイメージを使用して効率的な多数視点の特徴を生成することができ、ニューラルアグリゲーションネットワークは最適な特徴を出力することができる。結果として、モバイル装置、監視、ドローン等における揺れに対して強靭であり、ポーズ変化に強靭な顔認識が可能である。
また、以上にて説明された本発明による各実施例は、多様なコンピュータの構成要素を通じて遂行することができるプログラム命令語の形態で具現されて、コンピュータ読取り可能な記録媒体に格納され得る。前記コンピュータ読取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独で又は組み合わせて含むことができる。前記コンピュータ読取り可能な記録媒体に格納されるプログラム命令語は、本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェア分野の当業者に公知にされて使用可能なものであり得る。コンピュータ読取り可能な記録媒体の例には、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスク(Floptical Disk)のような磁気−光メディア(Magneto−Optical Media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令語を格納して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるもののような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行され得る高級言語コードも含まれる。前記ハードウェア装置は、本発明による処理を実行するために一つ以上のソフトウェアモジュールとして作動するように構成され得、その反対も同様である。
以上にて本発明が具体的な構成要素などのような特定事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解の一助とするために提供されたものであるに過ぎず、本発明が前記実施例に限られるものではなく、本発明が属する技術分野において通常の知識を有する者であれば、かかる記載から多様な修正及び変形が行われ得る。
したがって、本発明の思想は、前記説明された実施例に局限されて定められてはならず、後述する特許請求の範囲だけでなく、本特許請求の範囲と均等または等価的に変形されたものすべては、本発明の思想の範囲に属するといえる。

Claims (10)

  1. ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識方法において、
    (a)第1サイズを有する顔イメージが取得されると、顔認識装置が、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させる段階;及び
    (b)前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階;
    を含み、
    前記(a)段階で、
    前記顔認識装置は、前記第1サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させ、前記第1_1サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第1_1サイズの特徴マップにスライディングプーリング演算を適用することによって第2_1サイズの多数の特徴を生成させ、前記第2_1サイズは、前記第2サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とし、
    前記特徴抽出ネットワークは、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報(characteristic information)とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法。
  2. 前記顔認識装置は、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第1_1サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする請求項に記載の方法。
  3. ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識方法において、
    (a)第1サイズを有する顔イメージが取得されると、顔認識装置が、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させる段階;及び
    (b)前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階;
    を含み、
    前記(b)段階において、
    前記顔認識装置は、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも2つのアテンションブロックに入力して、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とし、
    前記ニューラルアグリゲーションネットワークは、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記各学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2のロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法。
  4. 前記顔認識装置は、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることを特徴とする請求項3に記載の方法。
  5. (c)前記顔認識装置は、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識する段階;
    をさらに含むことを特徴とする請求項1に記載の方法。
  6. ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識装置において、
    少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、
    前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、(I)第1サイズを有する顔イメージが取得されると、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させるプロセス;及び(II)前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセスを遂行し、
    前記(I)プロセスは、
    前記プロセッサが、前記第1サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させ、前記第1_1サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第1_1サイズの特徴マップにスライディングプーリング演算を適用することによって第2_1サイズの多数の特徴を生成させ、前記第2_1サイズは前記第2サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とし、
    前記特徴抽出ネットワークは、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置。
  7. 前記プロセッサが、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第1_1サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする請求項に記載の装置。
  8. ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識装置において、
    少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、
    前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、(I)第1サイズを有する顔イメージが取得されると、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させるプロセス;及び(II)前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセスを遂行し、
    前記(II)プロセスは、
    前記プロセッサが、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも2つのアテンションブロックに入力して、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とし、
    前記ニューラルアグリゲーションネットワークは、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2のロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置。
  9. 前記プロセッサが、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることを特徴とする請求項に記載の装置。
  10. 前記プロセッサが、
    (III)前記最適な特徴を参照して、顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識するプロセス;
    をさらに遂行することを特徴とする請求項に記載の装置。
JP2020006170A 2019-01-31 2020-01-17 ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 Active JP6924517B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962799076P 2019-01-31 2019-01-31
US62/799,076 2019-01-31
US16/721,961 US10740593B1 (en) 2019-01-31 2019-12-20 Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation
US16/721,961 2019-12-20

Publications (2)

Publication Number Publication Date
JP2020126624A JP2020126624A (ja) 2020-08-20
JP6924517B2 true JP6924517B2 (ja) 2021-08-25

Family

ID=69185483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020006170A Active JP6924517B2 (ja) 2019-01-31 2020-01-17 ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法

Country Status (5)

Country Link
US (1) US10740593B1 (ja)
EP (1) EP3690721A1 (ja)
JP (1) JP6924517B2 (ja)
KR (1) KR102362744B1 (ja)
CN (1) CN111507150B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11308598B2 (en) * 2019-02-14 2022-04-19 Sharif University Of Technology Quality assessment of an image
US11514713B2 (en) * 2019-05-31 2022-11-29 Apple Inc. Face quality of captured images
JP7396159B2 (ja) * 2020-03-26 2023-12-12 富士通株式会社 画像処理装置、画像認識システム及び画像処理プログラム
KR102497805B1 (ko) 2020-07-31 2023-02-10 주식회사 펫타버스 인공지능 기반 반려동물 신원확인 시스템 및 방법
CN112494935B (zh) * 2020-12-14 2023-10-17 咪咕互动娱乐有限公司 一种云游戏平台池化方法、电子设备及存储介质
CN112598045A (zh) * 2020-12-17 2021-04-02 中国工商银行股份有限公司 训练神经网络的方法、图像识别方法及图像识别装置
CN112686178B (zh) * 2020-12-30 2024-04-16 中国电子科技集团公司信息科学研究院 一种多视角目标轨迹生成方法、装置和电子设备
CN112860810B (zh) * 2021-02-05 2023-07-14 中国互联网络信息中心 域名多重图嵌入表示方法、装置、电子设备及介质
CN113282721B (zh) * 2021-04-28 2023-07-21 南京大学 基于网络结构搜索的视觉问答方法
KR102611480B1 (ko) * 2022-02-08 2023-12-08 주식회사 트윔 뉴럴 네트워크를 이용한 제품 검사 방법 및 장치
CN114529785B (zh) * 2022-02-22 2024-06-28 平安科技(深圳)有限公司 模型的训练方法、视频生成方法和装置、设备、介质
CN114821736A (zh) * 2022-05-13 2022-07-29 中国人民解放军国防科技大学 基于对比学习的多模态人脸识别方法、装置、设备及介质
CN115620083B (zh) * 2022-09-29 2023-08-29 合肥的卢深视科技有限公司 模型训练方法、人脸图像质量评价方法、设备及介质
CN115661911B (zh) * 2022-12-23 2023-03-17 四川轻化工大学 一种人脸特征提取方法、设备及存储介质
CN117746209A (zh) * 2023-12-13 2024-03-22 山东浪潮超高清智能科技有限公司 一种基于高效多类型卷积聚合卷积的图像识别方法和装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100442835B1 (ko) * 2002-08-13 2004-08-02 삼성전자주식회사 인공 신경망을 이용한 얼굴 인식 방법 및 장치
TW200842733A (en) * 2007-04-17 2008-11-01 Univ Nat Chiao Tung Object image detection method
US9767385B2 (en) * 2014-08-12 2017-09-19 Siemens Healthcare Gmbh Multi-layer aggregation for object detection
CN106462940A (zh) * 2014-10-09 2017-02-22 微软技术许可有限责任公司 图像中通用对象检测
US9996768B2 (en) * 2014-11-19 2018-06-12 Adobe Systems Incorporated Neural network patch aggregation and statistics
WO2016119076A1 (en) * 2015-01-27 2016-08-04 Xiaoou Tang A method and a system for face recognition
CN105335714B (zh) * 2015-10-28 2019-06-14 小米科技有限责任公司 照片处理方法、装置和设备
US10303977B2 (en) * 2016-06-28 2019-05-28 Conduent Business Services, Llc System and method for expanding and training convolutional neural networks for large size input images
JP2018005520A (ja) * 2016-06-30 2018-01-11 クラリオン株式会社 物体検出装置及び物体検出方法
US10223612B2 (en) * 2016-09-01 2019-03-05 Microsoft Technology Licensing, Llc Frame aggregation network for scalable video face recognition
KR102036963B1 (ko) * 2017-01-03 2019-11-29 한국과학기술원 Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템
CN108073898B (zh) * 2017-12-08 2022-11-18 腾讯科技(深圳)有限公司 人头区域识别方法、装置及设备
US11295140B2 (en) * 2018-03-14 2022-04-05 Comcast Cable Communications, Llc Methods and systems for determining object activity within a region of interest
CN110633604B (zh) * 2018-06-25 2023-04-25 富士通株式会社 信息处理方法和信息处理装置

Also Published As

Publication number Publication date
US10740593B1 (en) 2020-08-11
JP2020126624A (ja) 2020-08-20
CN111507150B (zh) 2023-08-18
KR102362744B1 (ko) 2022-02-15
KR20200095356A (ko) 2020-08-10
EP3690721A1 (en) 2020-08-05
CN111507150A (zh) 2020-08-07
US20200250402A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
JP6924517B2 (ja) ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法
JP7252120B2 (ja) 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置
JP6957050B2 (ja) モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same}
US10387753B1 (en) Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
CN111488979B (zh) 设备上持续学习用于分析输入数据的神经网络的方法及装置
US10402695B1 (en) Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US11461653B2 (en) Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same
JP6888849B2 (ja) 連続学習を基盤とする顔認識のためのスマートデータベースを管理する方法及び装置
CN116071701A (zh) 基于注意力机制和GSConv的YOLOv5行人检测方法
CN116486489B (zh) 基于语义感知图卷积的三维手物姿态估计方法及系统
CN111241924A (zh) 基于尺度估计的人脸检测及对齐方法、装置、存储介质
CN112785626A (zh) 一种基于多尺度特征融合的孪生网络小目标跟踪方法
CN118072196A (zh) 一种基于YOLOv5改进的远距离岸滩障碍物目标识别方法及系统
JP6970461B2 (ja) スマートフォン、ドローン、船舶または軍事的目的のための、トレーニングイメージの最適化サンプリングにより入力データを分析するニューラルネットワークのオンデバイス継続学習方法及び装置、そして、これを利用したテスト方法及び装置
JP6853592B2 (ja) ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
CN117115911A (zh) 一种基于注意力机制的超图学习动作识别系统
CN115620238A (zh) 一种基于多元信息融合的园区行人属性识别方法
CN113033430B (zh) 基于双线性的多模态信息处理的人工智能方法、系统及介质
CN113610015A (zh) 基于端到端快速阶梯网络的姿态估计方法、装置及介质
CN114155602B (zh) 一种人体姿态估计模型稀疏化剪枝方法
CN118135240A (zh) 一种面向边缘环境的深度学习模型压缩方法
CN117456176A (zh) 一种实现视频图像时域一致性语义分割的方法
Li Segment Any Building For Remote Sensing
Ramani et al. Automatic Feature Extraction from High-Resolution Satellite Imagery using Deep Learning techniques
CN116246098A (zh) 一种基于特征块折叠的非局部性卷积建模方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210127

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210715

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R150 Certificate of patent or registration of utility model

Ref document number: 6924517

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250