JP6924517B2 - ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 - Google Patents
ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 Download PDFInfo
- Publication number
- JP6924517B2 JP6924517B2 JP2020006170A JP2020006170A JP6924517B2 JP 6924517 B2 JP6924517 B2 JP 6924517B2 JP 2020006170 A JP2020006170 A JP 2020006170A JP 2020006170 A JP2020006170 A JP 2020006170A JP 6924517 B2 JP6924517 B2 JP 6924517B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- size
- features
- face
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims description 20
- 238000000034 method Methods 0.000 claims description 57
- 238000000605 extraction Methods 0.000 claims description 44
- 238000011176 pooling Methods 0.000 claims description 39
- 230000002776 aggregation Effects 0.000 claims description 32
- 238000004220 aggregation Methods 0.000 claims description 32
- 230000001537 neural effect Effects 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 30
- 230000001815 facial effect Effects 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/771—Feature selection, e.g. selecting representative features from a multi-dimensional feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7747—Organisation of the process, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Description
Claims (10)
- ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識方法において、
(a)第1サイズを有する顔イメージが取得されると、顔認識装置が、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させる段階;及び
(b)前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階;
を含み、
前記(a)段階で、
前記顔認識装置は、前記第1サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させ、前記第1_1サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第1_1サイズの特徴マップにスライディングプーリング演算を適用することによって第2_1サイズの多数の特徴を生成させ、前記第2_1サイズは、前記第2サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とし、
前記特徴抽出ネットワークは、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報(characteristic information)とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法。 - 前記顔認識装置は、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第1_1サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする請求項1に記載の方法。
- ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識方法において、
(a)第1サイズを有する顔イメージが取得されると、顔認識装置が、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させる段階;及び
(b)前記顔認識装置が、前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させる段階;
を含み、
前記(b)段階において、
前記顔認識装置は、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも2つのアテンションブロックに入力して、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とし、
前記ニューラルアグリゲーションネットワークは、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記各学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2のロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする方法。 - 前記顔認識装置は、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることを特徴とする請求項3に記載の方法。
- (c)前記顔認識装置は、前記最適な特徴を参照して顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識する段階;
をさらに含むことを特徴とする請求項1に記載の方法。 - ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識装置において、
少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、
前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、(I)第1サイズを有する顔イメージが取得されると、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させるプロセス;及び(II)前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセスを遂行し、
前記(I)プロセスは、
前記プロセッサが、前記第1サイズを有する前記顔イメージを前記特徴抽出ネットワークの少なくとも一つのコンボリューションレイヤに入力して、前記少なくとも一つのコンボリューションレイヤをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって、第1_1サイズの特徴マップを生成させ、前記第1_1サイズの特徴マップをプーリングレイヤに入力して、前記プーリングレイヤをもって、第1_1サイズの特徴マップにスライディングプーリング演算を適用することによって第2_1サイズの多数の特徴を生成させ、前記第2_1サイズは前記第2サイズを有する学習用顔イメージに対応する学習用特徴マップのサイズであり、特徴抽出ネットワークにより生成されたことを特徴とし、
前記特徴抽出ネットワークは、第1学習装置により、(i)前記第2サイズを有する前記学習用顔イメージが前記少なくとも一つのコンボリューションレイヤに入力されて、前記少なくとも一つのコンボリューションレイヤをもって、前記第2サイズを有する前記学習用顔イメージに少なくとも一つのコンボリューションレイヤの少なくとも一つの以前の学習済みコンボリューションパラメータを使用した少なくとも一つのコンボリューション演算を適用して前記第2_1サイズの前記学習用特徴マップが生成され、(ii)前記第2_1サイズの前記学習用特徴マップに対応する学習用特性情報とこれに対応する原本正解とを参照して第1ロスレイヤにより生成された一つ以上の第1ロスを最小化するように、前記少なくとも一つのコンボリューションレイヤの前記少なくとも一つの以前の学習済みコンボリューションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置。 - 前記プロセッサが、前記プーリングレイヤをもって、予め設定されたストライドを利用して前記第1_1サイズの特徴マップにスライディングプーリング演算を適用させることを特徴とする請求項6に記載の装置。
- ディープニューラルネットワーク(deep neural network)基盤の多重パッチ組み合わせ(multiple patch combination)を利用した顔認識装置において、
少なくとも一つのインストラクションを格納する少なくとも一つのメモリと、
前記各インストラクションを遂行するように設定された少なくとも一つのプロセッサと、を含み、前記プロセッサは、(I)第1サイズを有する顔イメージが取得されると、前記第1サイズより小さい第2サイズを有する学習用顔イメージを使用して少なくとも一つの特徴が抽出されるように学習された特徴抽出ネットワークに前記顔イメージを入力して、前記特徴抽出ネットワークをもって、前記第1サイズを有する前記顔イメージに少なくとも一回のコンボリューション演算を適用することによって特徴マップを生成させ、スライディングウィンドウ技法によりウィンドウが位置するそれぞれの特徴マップの各領域をプーリングするスライディングプーリング演算を前記特徴マップに適用して多数の特徴を生成させるプロセス;及び(II)前記多数の特徴を学習済みニューラルアグリゲーションネットワークに入力して、前記ニューラルアグリゲーションネットワークをもって、前記多数の特徴をアグリゲートして顔認識のための少なくとも一つの最適な特徴を出力させるプロセスを遂行し、
前記(II)プロセスは、
前記プロセッサが、前記多数の特徴を前記ニューラルアグリゲーションネットワークの少なくとも2つのアテンションブロックに入力して、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記最適な特徴を出力させることを特徴とし、
前記ニューラルアグリゲーションネットワークは、第2学習装置により、(i)一つの顔に対するビデオまたは前記一つの顔に対するイメージセットに対応する複数の学習用顔の特徴が前記少なくとも2つのアテンションブロックに入力されて、前記少なくとも2つのアテンションブロックの以前の各学習済みアテンションパラメータを利用して前記各学習用顔の特徴をアグリゲートすることによって、前記学習用顔の特徴それぞれに対応する学習用クオリティスコアそれぞれが生成されるようにし、(ii)前記各学習用クオリティスコアを利用して前記各学習用顔の特徴を加重合算することによって学習用最適な特徴が出力され、(iii)前記学習用最適な特徴及びこれに対応する原本正解を参照して第2ロスレイヤにより生成された一つ以上の第2のロスを最小化するように前記少なくとも2つのアテンションブロックの前記以前の各学習済みアテンションパラメータがアップデートされる過程を複数回経て学習が完了した状態であることを特徴とする装置。 - 前記プロセッサが、前記少なくとも2つのアテンションブロックをもって、前記多数の特徴をアグリゲートして前記多数の特徴それぞれに対応するクオリティスコアそれぞれを生成させ、前記クオリティスコアを利用して前記多数の特徴を加重合算(weighted summation)して前記最適な特徴を出力させることを特徴とする請求項8に記載の装置。
- 前記プロセッサが、
(III)前記最適な特徴を参照して、顔情報データベースからリファレンス特徴を検索して前記顔イメージ上の顔を認識するプロセス;
をさらに遂行することを特徴とする請求項6に記載の装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962799076P | 2019-01-31 | 2019-01-31 | |
US62/799,076 | 2019-01-31 | ||
US16/721,961 US10740593B1 (en) | 2019-01-31 | 2019-12-20 | Method for recognizing face using multiple patch combination based on deep neural network with fault tolerance and fluctuation robustness in extreme situation |
US16/721,961 | 2019-12-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126624A JP2020126624A (ja) | 2020-08-20 |
JP6924517B2 true JP6924517B2 (ja) | 2021-08-25 |
Family
ID=69185483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020006170A Active JP6924517B2 (ja) | 2019-01-31 | 2020-01-17 | ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10740593B1 (ja) |
EP (1) | EP3690721A1 (ja) |
JP (1) | JP6924517B2 (ja) |
KR (1) | KR102362744B1 (ja) |
CN (1) | CN111507150B (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11308598B2 (en) * | 2019-02-14 | 2022-04-19 | Sharif University Of Technology | Quality assessment of an image |
US11514713B2 (en) * | 2019-05-31 | 2022-11-29 | Apple Inc. | Face quality of captured images |
JP7396159B2 (ja) * | 2020-03-26 | 2023-12-12 | 富士通株式会社 | 画像処理装置、画像認識システム及び画像処理プログラム |
KR102497805B1 (ko) | 2020-07-31 | 2023-02-10 | 주식회사 펫타버스 | 인공지능 기반 반려동물 신원확인 시스템 및 방법 |
CN112494935B (zh) * | 2020-12-14 | 2023-10-17 | 咪咕互动娱乐有限公司 | 一种云游戏平台池化方法、电子设备及存储介质 |
CN112598045A (zh) * | 2020-12-17 | 2021-04-02 | 中国工商银行股份有限公司 | 训练神经网络的方法、图像识别方法及图像识别装置 |
CN112686178B (zh) * | 2020-12-30 | 2024-04-16 | 中国电子科技集团公司信息科学研究院 | 一种多视角目标轨迹生成方法、装置和电子设备 |
CN112860810B (zh) * | 2021-02-05 | 2023-07-14 | 中国互联网络信息中心 | 域名多重图嵌入表示方法、装置、电子设备及介质 |
CN113282721B (zh) * | 2021-04-28 | 2023-07-21 | 南京大学 | 基于网络结构搜索的视觉问答方法 |
KR102611480B1 (ko) * | 2022-02-08 | 2023-12-08 | 주식회사 트윔 | 뉴럴 네트워크를 이용한 제품 검사 방법 및 장치 |
CN114529785B (zh) * | 2022-02-22 | 2024-06-28 | 平安科技(深圳)有限公司 | 模型的训练方法、视频生成方法和装置、设备、介质 |
CN114821736A (zh) * | 2022-05-13 | 2022-07-29 | 中国人民解放军国防科技大学 | 基于对比学习的多模态人脸识别方法、装置、设备及介质 |
CN115620083B (zh) * | 2022-09-29 | 2023-08-29 | 合肥的卢深视科技有限公司 | 模型训练方法、人脸图像质量评价方法、设备及介质 |
CN115661911B (zh) * | 2022-12-23 | 2023-03-17 | 四川轻化工大学 | 一种人脸特征提取方法、设备及存储介质 |
CN117746209A (zh) * | 2023-12-13 | 2024-03-22 | 山东浪潮超高清智能科技有限公司 | 一种基于高效多类型卷积聚合卷积的图像识别方法和装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100442835B1 (ko) * | 2002-08-13 | 2004-08-02 | 삼성전자주식회사 | 인공 신경망을 이용한 얼굴 인식 방법 및 장치 |
TW200842733A (en) * | 2007-04-17 | 2008-11-01 | Univ Nat Chiao Tung | Object image detection method |
US9767385B2 (en) * | 2014-08-12 | 2017-09-19 | Siemens Healthcare Gmbh | Multi-layer aggregation for object detection |
CN106462940A (zh) * | 2014-10-09 | 2017-02-22 | 微软技术许可有限责任公司 | 图像中通用对象检测 |
US9996768B2 (en) * | 2014-11-19 | 2018-06-12 | Adobe Systems Incorporated | Neural network patch aggregation and statistics |
WO2016119076A1 (en) * | 2015-01-27 | 2016-08-04 | Xiaoou Tang | A method and a system for face recognition |
CN105335714B (zh) * | 2015-10-28 | 2019-06-14 | 小米科技有限责任公司 | 照片处理方法、装置和设备 |
US10303977B2 (en) * | 2016-06-28 | 2019-05-28 | Conduent Business Services, Llc | System and method for expanding and training convolutional neural networks for large size input images |
JP2018005520A (ja) * | 2016-06-30 | 2018-01-11 | クラリオン株式会社 | 物体検出装置及び物体検出方法 |
US10223612B2 (en) * | 2016-09-01 | 2019-03-05 | Microsoft Technology Licensing, Llc | Frame aggregation network for scalable video face recognition |
KR102036963B1 (ko) * | 2017-01-03 | 2019-11-29 | 한국과학기술원 | Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 |
CN108073898B (zh) * | 2017-12-08 | 2022-11-18 | 腾讯科技(深圳)有限公司 | 人头区域识别方法、装置及设备 |
US11295140B2 (en) * | 2018-03-14 | 2022-04-05 | Comcast Cable Communications, Llc | Methods and systems for determining object activity within a region of interest |
CN110633604B (zh) * | 2018-06-25 | 2023-04-25 | 富士通株式会社 | 信息处理方法和信息处理装置 |
-
2019
- 2019-12-20 US US16/721,961 patent/US10740593B1/en active Active
-
2020
- 2020-01-06 KR KR1020200001718A patent/KR102362744B1/ko active IP Right Grant
- 2020-01-06 CN CN202010010850.5A patent/CN111507150B/zh active Active
- 2020-01-17 JP JP2020006170A patent/JP6924517B2/ja active Active
- 2020-01-21 EP EP20152842.9A patent/EP3690721A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US10740593B1 (en) | 2020-08-11 |
JP2020126624A (ja) | 2020-08-20 |
CN111507150B (zh) | 2023-08-18 |
KR102362744B1 (ko) | 2022-02-15 |
KR20200095356A (ko) | 2020-08-10 |
EP3690721A1 (en) | 2020-08-05 |
CN111507150A (zh) | 2020-08-07 |
US20200250402A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6924517B2 (ja) | ディープニューラルネットワーク基盤の多重パッチ組み合わせを利用して顔を認識し、極度の状況でフォールトトレランス及びフラクチュエーションロバスト性を向上させる方法 | |
JP7252120B2 (ja) | 核心性能指数を満たすことができるハードウェア最適化が行われるように、cnnで複数のブロック内の入力イメージから特徴を抽出する学習方法及び学習装置、それを利用したテスト方法及びテスト装置 | |
JP6957050B2 (ja) | モバイルデバイスまたは小型ネットワークに適用可能なハードウェアを最適化するのに利用可能なroiをプーリングするために、マスキングパラメータを利用する方法及び装置、そしてこれを利用したテスト方法及びテスト装置{learning method and learning device for pooling roi by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same} | |
US10387753B1 (en) | Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same | |
CN111488979B (zh) | 设备上持续学习用于分析输入数据的神经网络的方法及装置 | |
US10402695B1 (en) | Learning method and learning device for convolutional neural network using 1×H convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same | |
US11461653B2 (en) | Learning method and learning device for CNN using 1xK or Kx1 convolution to be used for hardware optimization, and testing method and testing device using the same | |
JP6888849B2 (ja) | 連続学習を基盤とする顔認識のためのスマートデータベースを管理する方法及び装置 | |
CN116071701A (zh) | 基于注意力机制和GSConv的YOLOv5行人检测方法 | |
CN116486489B (zh) | 基于语义感知图卷积的三维手物姿态估计方法及系统 | |
CN111241924A (zh) | 基于尺度估计的人脸检测及对齐方法、装置、存储介质 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN118072196A (zh) | 一种基于YOLOv5改进的远距离岸滩障碍物目标识别方法及系统 | |
JP6970461B2 (ja) | スマートフォン、ドローン、船舶または軍事的目的のための、トレーニングイメージの最適化サンプリングにより入力データを分析するニューラルネットワークのオンデバイス継続学習方法及び装置、そして、これを利用したテスト方法及び装置 | |
JP6853592B2 (ja) | ハードウェア最適化に使用される1x1コンボリューションを利用したCNN基盤の物体検出器を学習する方法及び学習装置、これを利用したテスト方法及びテスト装置{LEARNING METHOD AND LEARNING DEVICE FOR OBJECT DETECTOR BASED ON CNN USING 1×1 CONVOLUTION TO BE USED FOR HARDWARE OPTIMIZATION, AND TESTING METHOD AND TESTING DEVICE USING THE SAME} | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN115620238A (zh) | 一种基于多元信息融合的园区行人属性识别方法 | |
CN113033430B (zh) | 基于双线性的多模态信息处理的人工智能方法、系统及介质 | |
CN113610015A (zh) | 基于端到端快速阶梯网络的姿态估计方法、装置及介质 | |
CN114155602B (zh) | 一种人体姿态估计模型稀疏化剪枝方法 | |
CN118135240A (zh) | 一种面向边缘环境的深度学习模型压缩方法 | |
CN117456176A (zh) | 一种实现视频图像时域一致性语义分割的方法 | |
Li | Segment Any Building For Remote Sensing | |
Ramani et al. | Automatic Feature Extraction from High-Resolution Satellite Imagery using Deep Learning techniques | |
CN116246098A (zh) | 一种基于特征块折叠的非局部性卷积建模方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210127 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20210427 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210628 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210715 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210726 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6924517 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |