JP2021093144A - センサ特化イメージ認識装置及び方法 - Google Patents
センサ特化イメージ認識装置及び方法 Download PDFInfo
- Publication number
- JP2021093144A JP2021093144A JP2020184118A JP2020184118A JP2021093144A JP 2021093144 A JP2021093144 A JP 2021093144A JP 2020184118 A JP2020184118 A JP 2020184118A JP 2020184118 A JP2020184118 A JP 2020184118A JP 2021093144 A JP2021093144 A JP 2021093144A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- data
- image
- sensor
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000000605 extraction Methods 0.000 claims abstract description 45
- 238000012549 training Methods 0.000 claims description 92
- 230000003287 optical effect Effects 0.000 claims description 23
- 230000004044 response Effects 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 13
- 238000001914 filtration Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 description 29
- 238000013528 artificial neural network Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012567 pattern recognition method Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/12—Details of acquisition arrangements; Constructional details thereof
- G06V10/14—Optical characteristics of the device performing the acquisition or on the illumination arrangements
- G06V10/147—Details of sensors, e.g. sensor lenses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/80—Recognising image objects characterised by unique random patterns
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Vascular Medicine (AREA)
- Image Analysis (AREA)
Abstract
【課題】特徴データにより可変されるマスクを固定マスクと共に用いてオブジェクトに対する認識結果を出力することにある。【解決手段】イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出するステップと、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するステップとを含み、前記可変マスクは、前記抽出された特徴データに応答して調整されるイメージ認識方法を提供する。【選択図】図3
Description
以下、イメージを認識する技術が提供される。
近年、入力パターンを特定のグループに分類する問題を解決するため、ヒトが有している効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が盛んに行われている。このような研究の1つとして、ヒトの生物学的な神経細胞の特性を数学的表現によりモデリングした人工ニューラルネットワーク(artificial neural network)に対する研究がなされている。入力パターンを特定のグループに分類する問題を解決するために、人工ニューラルネットワークは、ヒトが有している学習という能力を模倣したアルゴリズムを用いる。このアルゴリズムを用いて、人工ニューラルネットワークは入力パターンと出力パターンとの間のマッピングを生成することができ、このようなマッピングを生成する能力は、人工ニューラルネットワークの学習能力のように表現される。また、人工ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して、比較的に正しい出力を生成することのできる一般化能力を有する。
一実施形態に係るイメージ認識装置は、特徴データにより可変されるマスクを固定マスクと共に用いてオブジェクトに対する認識結果を出力することにある。
一実施形態に係るイメージ認識方法は、イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出するステップと、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するステップとを含み、前記可変マスクは、前記抽出された特徴データに応答して調整される。
前記認識結果を出力するステップは、前記抽出された特徴データに前記固定マスクを適用することで、第1認識データを算出するステップと、前記抽出された特徴データに前記可変マスクを適用することで、第2認識データを算出するステップと、前記第1認識データ及び前記第2認識データに基づいて前記認識結果を決定するステップとを含むことができる。
前記第1認識データを算出するステップは、前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成するステップと、前記汎用特徴マップから前記第1認識データを算出するステップとを含むことができる。
前記第2認識データを算出するステップは、前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成するステップと、前記センサ特化特徴マップから前記第2認識データを算出するステップとを含むことができる。
前記センサ特化特徴マップを生成するステップは、前記対象特徴マップの個別値に対して前記可変マスクにおいて対応する値を適用するステップを含むことができる。
イメージ認識方法は、前記抽出された特徴データから完全接続レイヤ及びソフトマックス関数を用いて第3認識データを算出するステップをさらに含み、前記認識結果を決定するステップは、前記第1認識データ及び前記第2認識データと共に、前記第3認識データにさらに基づいて前記認識結果を決定するステップを含むことができる。
前記認識結果を出力するステップは、前記可変マスクを含むセンサ特化レイヤの少なくとも一部のレイヤを用いて、前記特徴データにより前記可変マスクの1つ以上の値を調整するステップを含むことができる。
前記可変マスクの1つ以上の値を調整するステップは、前記特徴データに対して畳み込みフィルタリングが適用された結果であるキー特徴マップ及び転置されたクエリ特徴マップ間の積結果から、ソフトマックス関数を用いて前記可変マスクの値を決定するステップを含むことができる。
前記認識結果を出力するステップは、前記固定マスクに基づいた第1認識データ及び前記可変マスクに基づいた第2認識データの加重和を前記認識結果として決定するステップを含むことができる。
前記加重和を前記認識結果として決定するステップは、前記第1認識データに適用される加重値よりも大きい加重値を前記第2認識データに適用するステップを含むことができる。
イメージ認識方法は、アップデート命令に応答して、外部サーバから前記可変マスクを含むセンサ特化レイヤのパラメータを受信するステップと、前記の受信されたパラメータをセンサ特化レイヤにアップデートするステップとをさらに含むことができる。
イメージ認識方法は、前記外部サーバに対して、前記イメージセンサの光学特性と同一又は類似の光学特性に対応するセンサ特化パラメータを要求するステップをさらに含むことができる。
イメージ認識方法は、前記センサ特化レイヤのパラメータをアップデートする間に、前記固定マスクの値を保持するステップをさらに含むことができる。
前記認識結果を出力するステップは、前記固定マスク及び複数の可変マスクに基づいて前記認識結果を算出するステップを含むことができる。
前記複数の可変マスクのうち、1つの可変マスクを含むセンサ特化レイヤのパラメータ及び他方の可変マスクを含む他のセンサ特化レイヤのパラメータは互いに異なり得る。
前記認識結果を出力するステップは、前記オブジェクトがリアルオブジェクトであるか、又は、偽造オブジェクトであるかを指示する真偽情報を前記認識結果として生成するステップを含むことができる。
イメージ認識方法は、前記認識結果に基づいて権限を付与するステップと、前記権限により電子端末の動作及び前記電子端末のデータのうち少なくとも1つに対するアクセスを許容するステップとをさらに含むことができる。
前記認識結果を出力するステップは、前記認識結果が生成された後、前記認識結果をディスプレイを介して可視化するステップを含むことができる。
一実施形態に係るイメージ認識装置は、入力イメージを受信するイメージセンサと、前記入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するプロセッサとを含み、前記可変マスクは、前記抽出された特徴データに応答して調整される。
前記プロセッサは、前記抽出された特徴データに前記固定マスクを適用することで、前記抽出された特徴データから第1認識データを算出し、前記抽出された特徴データに前記可変マスクを適用することで、前記抽出された特徴データから第2認識データを算出し、前記第1認識データ及び前記第2認識データの和に基づいて前記認識結果を決定することができる。
前記和は、前記第1認識データに適用される加重値よりも大きい加重値を前記第2認識データに適用することで決定されることができる。
前記プロセッサは、前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成し、前記汎用特徴マップから前記第1認識データを算出し、前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成し、前記センサ特化特徴マップから前記第2認識データを算出することができる。
一実施形態に係るイメージ認識システムは、受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、可変マスク及び固定マスクを前記抽出された特徴データに適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するイメージ認識装置と、認識モデルのセンサ特化レイヤに対する追加トレーニング完了及びアップデート要求のうち少なくとも1つに応答して、前記イメージ認識装置に追加的にトレーニングされたセンサ特化レイヤのパラメータを配布するサーバを含み、前記可変マスクは、前記イメージ認識装置の前記センサ特化レイヤに含まれて前記抽出された特徴データに応答して調整され、前記イメージ認識装置は、前記の配布されたパラメータに基づいて前記イメージ認識装置の前記センサ特化レイヤをアップデートすることができる。
前記サーバは、前記イメージ認識装置のイメージセンサに類似していると判断されたイメージセンサを含む他のイメージ認識装置に前記追加的にトレーニングされたセンサ特化レイヤの前記パラメータを配布することができる。
一実施形態に係るイメージ認識装置は可変マスクを介してセンサの光学特性に最適化された認識結果を生成することで、誤認識率を最小化することができる。
下記で説明する実施形態は様々な変更が加えられ得る。特許出願の範囲はこのような実施形態によって制限も限定もされない。各図面に提示した同じ参照符号は同じ部材を示す。
本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。
本明細書で用いる用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、一つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
また、図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。
図1は、一実施形態に係る認識モデルを説明する図である。
一実施形態に係るイメージ認識装置は、入力イメージから抽出された特徴データを用いてユーザを認識することができる。例えば、イメージ認識装置は、認識モデルの少なくとも一部のレイヤ(例えば、特徴抽出レイヤ)に基づいて、入力イメージから特徴データを抽出する。特徴データは、イメージが抽象化されたデータであって、例えば、ベクトルの形態に示すことができる。2次元以上のベクトル形態を有する特徴データは、特徴マップとも示すことができる。本明細書において特徴マップは、主に2次元ベクトル又は2次元の行列形態の特徴データを示すことができる。
認識モデルは、イメージから特徴データを抽出し、抽出された特徴データからイメージに示されるオブジェクトを認識した結果を出力するように設計されたモデルであって、例えば、機械学習構造であってもよく、ニューラルネットワーク100を含んでもよい。
ニューラルネットワーク(neural network)100は、ディープニューラルネットワーク(DNN:deep neural network)の例示に該当する。DNNは、完全接続ネットワーク(fully connected network)、ディープ畳み込みネットワーク(deep convolutional network)、及びリカレントニューラルネットワーク(recurrent neural network)などを含む。ニューラルネットワーク100は、ディープランニングに基づいて非線形の関係にある入力データ及び出力データを互いにマッピングすることで、オブジェクト分類、オブジェクト認識、音声認識、及びイメージ認識などを行うことができる。ディープランニングは、ビッグデータセットからイメージ又は音声認識のような問題を解決するための機械学習の方式で指導式(supervised)又は非指導式(unsupervised)学習を介して入力データ及び出力データを互いにマッピングする。
本明細書において、認識(recognition)は、データの検証(verification)又は/及びデータの識別(identification)を含む。検証は、入力データが真であるか又は偽りであるかを判断する動作を示す。例えば、検証は、任意の入力イメージによって指示されるオブジェクト(例えば、人の顔)が基準イメージにより指示されるオブジェクトと同一であるか否かを判断する判別動作を示す。異なる例として、ライブネス検証は、任意の入力イメージによって指示されるオブジェクトがリアルオブジェクト(real object)であるか、又は偽造オブジェクト(fake object)であるかの可否を判断する判別動作を示す。
また、イメージ認識装置は、入力イメージから抽出されて取得されたデータが装置内に予め登録された登録データと同一であるかを検証し、2つのデータが同一なものと検証された場合に応答して、入力イメージに対応するユーザに対する検証が成功したものと決定する。また、イメージ認識装置内に複数の登録データが格納されている場合、イメージ認識装置は、入力イメージから抽出されて取得されたデータを複数の登録データのそれぞれに対して順次検証してもよい。
識別は、複数のレーベルのうち、入力データが指示するレーベル(label)を判断する分類動作を示し、例えば、各レーベルは、クラス(例えば、登録されたユーザの身元(ID、identity))を指示してもよい。例えば、識別動作により入力データに含まれているユーザが男性であるか女性であるかが指示される。
図1を参照すると、ニューラルネットワーク100は、入力層110、隠れ層120、及び出力層130を含む。入力層110、隠れ層120、及び出力層130は、それぞれ複数の人工ノードを含む。
図1には説明の便宜のために隠れ層120が3個であるレイヤを含むものと示したか、隠れ層120は、様々な数のレイヤを含んでもよい。また、図1において、ニューラルネットワーク100は、入力データを受信するための別途の入力層を含むものと示したが、入力データが隠れ層120に直接入力されてもよい。ニューラルネットワーク100から出力層130を除いたレイヤの人工ノードは、出力信号を送信するためのリンクを介して次のレイヤの人工ノードと接続されてもよい。リンクの数は、次のレイヤに含まれている人工ノードの数に対応する。
隠れ層120に含まれている各人工ノードには、以前レイヤに含まれている人工ノードの加重された入力(weighted inputs)に関する活性関数の出力が入力される。加重された入力は、以前レイヤに含まれている人工ノードの入力に加重値が乗算されたものである。加重値は、ニューラルネットワーク100のパラメータのように称されてもよい。活性関数は、シグモイド(sigmoid)、双曲線関数(hyperbolic tangent;tanh)及びReLU(rectified linear unit)を含んでもよく、活性関数によってニューラルネットワーク100に非線型性が形成される。出力層130に含まれたそれぞれの人工ノードには、以前レイヤに含まれている人工ノードの加重された入力が入力されてもよい。
一実施形態によれば、ニューラルネットワーク100は、入力データが与えられれば、隠れ層120を経て出力層130で識別しようとするクラスの数に応じて関数値を算出し、これらのうち、最も大きい値を有するクラスで入力データを識別することができる。ニューラルネットワーク100は、入力データを識別できるが、これに限定されることなく、ニューラルネットワーク100は、入力データを基準データ(例えば、登録データ)に対して検証してもよい。以下の認識過程に関する説明は主に検証過程により説明されるが、性格に反しない限り識別過程にも適用されてもよい。
ニューラルネットワーク100の幅と深さが十分に大きければ、任意の関数を具現できる程の容量を有することができる。ニューラルネットワーク100が適切なトレーニング過程を介して十分に多くのトレーニングデータを学習すると、最適な認識性能を達成することができる。
上記では認識モデルの例示として、ニューラルネットワーク100について説明したが、認識モデルをニューラルネットワーク100に限定されることはない。次には、認識モデルの特徴抽出レイヤを用いて抽出された特徴データを用いた検証動作を主に説明する。
図2は、一実施形態に係るイメージ認識方法を説明するフローチャートである。
まず、イメージ認識装置は、イメージセンサを介して入力イメージを受信する。入力イメージはオブジェクトに関するイメージとして、オブジェクトの少なくとも一部が撮影されたイメージであってもよい。オブジェクトの一部は、オブジェクトの固有の生体特徴(biometric feature)に関する身体部位であってもよい。例えば、オブジェクトが人であれば、オブジェクトの一部は人の顔、指紋、紅彩、及び静脈などであってもよい。本明細書では主に入力イメージが人の顔を含んでいる場合を例にして説明するが、これに限定されることはない。入力イメージは、カラーイメージであってもよく、色空間を構成するチャネルごとに複数のチャネルイメージを含んでもよい。例えば、RGB色空間において、入力イメージは赤色チャネルイメージ、緑色チャネルイメージ、及び青色チャネルイメージを含んでもよい。色空間がこれに限定されることなく、YCbCrなどのように色空間が構成されてもよい。但し、入力イメージがこれに限定されることなく、深度イメージ、赤外線イメージ、超音波イメージ、及びレーダースキャンイメージなどを含んでもよい。
そして、ステップS210において、イメージ認識装置は、イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出する。例えば、特徴抽出レイヤは、図1を参照して説明した隠れ層120であって、1つ以上の畳み込みレイヤを含んでもよい。各畳み込みレイヤの出力は、該当畳み込みレイヤに入力されたデータに対して、カーネルフィルタ(kernel filter)のスイープ(sweep)による畳み込み演算が適用された結果である。入力イメージが複数のチャネルイメージに構成される場合、イメージ認識装置は、認識モデルの特徴抽出レイヤを用いてチャネルイメージのそれぞれに対して特徴データを抽出し、チャネルごとの特徴データを認識モデルの次のレイヤに伝播することができる。
そして、ステップS220において、イメージ認識装置は、ステップS210で抽出された特徴データから、固定されたマスク及び抽出された特徴データに応答して調整される可変マスクに基づいて、入力イメージに示されるオブジェクトに関する認識結果を出力する。固定マスクは、互いに異なる入力イメージに対しても同じ値を有するマスクであってもよい。可変マスクは、互いに異なる入力イメージに対しては異なる値を有するマスクであってもよい。
マスクは、任意のデータに含まれた値を排除、格納、及び変更するためのマスク加重値(mask weight)を含む。マスクは、複数の値を含むデータに対して要素ごとの演算(element−wise operation)を介して適用される。例えば、データで任意の値に対して、マスクにおいて該当の値に対応するマスク加重値が乗算されてもよい。後述するが、マスクは、データで関心領域に該当する値を強調及び/又は格納し、残りの領域に該当する値を弱化及び/又は排除するマスク加重値を含む。例えば、マスク加重値は、0以上1以下の実数値を有するが、マスク加重値の値範囲がこれに限定されることはない。マスクが適用されたデータをマスキングされたデータ(masked data)のように示してもよい。
参考として、以下では、マスクの大きさ及び次元がマスクが適用されるデータと同じ大きさ及び次元のものを主に説明する。例えば、マスクが適用されるデータが32×32の大きさを有する2次元ベクトルである場合、マスクも32×32の大きさの2次元ベクトルであってもよい。但し、これは例示であって、これに限定されることなく、マスクの大きさ及び次元はデータの大きさ及び次元と異なってもよい。
一実施形態によれば、イメージ認識装置は、抽出された特徴データ及び特徴データから再び抽出された対象データに対してマスクを適用し、複数のマスキングされたデータを算出する。イメージ認識装置は、複数のマスキングされたデータを用いて認識結果を算出することができる。
図3及び図4は、一実施形態に係る認識モデルの例示的な構造を説明する図である。
図3は、例示的な認識モデル310の概略的な構造を示す。一実施形態によれば、イメージ認識装置は認識モデル310を用いて、入力イメージ301から認識結果309を出力する。例えば、イメージ認識装置はイメージの対がなくとも、単一のイメージから認識モデル310を用いて認識結果309を出力することができる。
認識モデル310は、特徴抽出レイヤ311、固定レイヤ312、及びセンサ特化レイヤ313(sensor−specific layer)を含む。特徴抽出レイヤ311は、入力イメージ301から特徴データを抽出するように設計されたレイヤを示してもよい。固定レイヤ312は、特徴抽出レイヤ311から伝播(propagate)されるデータ(例えば、特徴データ)に固定マスク321を適用し、固定マスク321が適用されたデータから第1認識データを出力するように設計されたレイヤを示す。センサ特化レイヤ313は、特徴抽出レイヤ311から伝播するデータ(例えば、特徴データから1つ以上の畳み込みレイヤを介して抽出された対象特徴マップ)に可変マスク322を適用し、可変マスク322が適用されたデータから第2認識データを出力するように設計されたレイヤを示す。
また、認識モデル310は、該当認識モデル310が装着される電子端末のイメージセンサのタイプに応じてカスタマイズ(customize)されてもよい。例えば、認識モデル310の固定レイヤ312のパラメータは、イメージセンサのタイプに関係がなく不変であり、センサ特化レイヤ313のパラメータ(例えば、人工ノード間の接続加重値など)は、イメージセンサのタイプに対応して変わり得る。イメージセンサのタイプは、例えば、イメージセンサの光学特性ごとに分類されてもよい。任意の様々なイメージセンサのモデル番号などが異なっても光学特性が同一及び類似すれば、該当イメージセンサは同一のタイプに分類される。
一実施形態に係るイメージ認識装置は、特徴抽出レイヤ311を介して入力イメージ301から特徴データを抽出する。特徴データは上述したように、イメージの特徴が抽象化されたデータとして、ベクトル形態のデータ(例えば、特徴ベクトル)であってもよいが、これに限定されることはない。
イメージ認識装置は、同じ特徴データからマスクを個別的に用いて複数の認識データを算出する。例えば、イメージ認識装置は、抽出された特徴データから固定マスクに基づいて第1認識データを算出してもよい。第1認識データは、固定マスクが適用されたデータから算出された結果を示し、汎用認識データ(generic recognition data)のように示してもよい。異なる例として、イメージ認識装置は、抽出された特徴データから可変マスク322に基づいて第2認識データを算出してもよい。第2認識データは、可変マスク322が適用されたデータから算出された結果を示し、センサ特化結果(sensor−specific data)のように示してもよい。
イメージ認識装置は、第1認識データ及び第2認識データに基づいて認識結果309を決定する。第1認識データ及び第2認識データは、それぞれ入力イメージ301に示されるオブジェクトがリアルオブジェクトである確率及び偽造オブジェクトである確率の少なくとも1つを指示する。後述するが、リアルオブジェクトである確率は0から1の間の実数値を有し、該当の確率が0に近いほど、入力イメージに示されたオブジェクトが偽造オブジェクトである可能性の高いことを示し、該当の確率が1に近いほど、入力イメージに示されたオブジェクトがリアルオブジェクトである可能性が高いことを示す。イメージ認識装置は、第1認識データ及び第2認識データを統合して認識結果309を決定する。例えば、イメージ認識装置は、第1認識データ及び第2認識データの加重和(weighted sum)を認識結果309に算出することができる。
図4は、図3に示された認識モデルのより詳細な構造を示す。
イメージ認識装置は、図3を参照して上述したように、入力イメージ401から認識モデル400の特徴抽出レイヤ405を用いて特徴データ492を抽出することができる。以下では、特徴データ492に対して固定レイヤ410を用いて第1認識データ494を算出する例示、及びセンサ特化レイヤ420を用いて第2認識データ498を算出する例示について説明する。
まず、イメージ認識装置は、特徴データ492に固定マスク411を適用することで、オブジェクト関心領域に関する汎用特徴マップ493を生成する。例えば、イメージ認識装置は、特徴データ492の各値に対して固定マスク411で該当値に対応するマスク加重値を要素ごとの演算に適用することができる。オブジェクト関心領域は、データでオブジェクトの一部に関する関心領域であって、例えば、人の顔に関連する成分を含む領域であってもよい。固定マスク411でオブジェクト関心領域内のマスク加重値は、残りの領域のマスク加重値よりも高くてもよい。従って、汎用特徴マップ493は、特徴データ492で人の顔に関連する成分が強調され、残りの成分は少なく強調(例えば、弱化)されたり、排除された特徴マップであってもよい。
イメージ認識装置は、汎用特徴マップ493から第1認識データ494を算出する。例えば、イメージ認識装置は、固定レイヤ410の認識器412を用いて第1認識データ494を算出する。固定レイヤ410の認識器412は、汎用特徴マップ493から認識データを出力するように設計される。例えば、認識器は、分類器(classifier)として入力イメージ401に示されたオブジェクトが、リアルオブジェクトである確率及び偽造オブジェクトである確率を指示する第1検証スコアベクトル(first verification score vector)(例えば、第1検証スコアベクトル=[リアルオブジェクトである確率、偽造オブジェクトである確率])を出力する。分類器は、完全接続レイヤ(FC layer、fully connected layer)及びソフトマックス演算(softmax operation)を含む。
参考として、本明細書において、認識データの例示として主に検証スコアを説明するが、これに限定されることはない。認識データは、入力イメージに示されるオブジェクトがk個のクラスそれぞれに属する確率を指示する情報を含んでもよい。ここで、kは2以上の整数である。また、認識データを算出する演算として、代表的にソフトマックス演算について主に説明するが、これに限定されることなく、他の非線型マッピング関数(non−linear mapping function)が使用されてもよい。
参考として、本明細書において、認識データの例示として主に検証スコアを説明するが、これに限定されることはない。認識データは、入力イメージに示されるオブジェクトがk個のクラスそれぞれに属する確率を指示する情報を含んでもよい。ここで、kは2以上の整数である。また、認識データを算出する演算として、代表的にソフトマックス演算について主に説明するが、これに限定されることなく、他の非線型マッピング関数(non−linear mapping function)が使用されてもよい。
そして、イメージ認識装置は、可変マスク495を対象特徴マップ496に適用する前に、特徴データ492の伝播に応答して可変マスク495を調整することができる。例えば、イメージ認識装置は、可変マスク495を含むセンサ特化レイヤ420の少なくとも一部のレイヤ(例えば、マスク調整レイヤ421)を用いて、特徴データ492により可変マスク495の1つ以上の値を調整する。従って、可変マスク495のマスク加重値は、入力イメージ401の入力ごとにアップデートされることができる。マスク調整レイヤ421は、例えば、アテンションレイヤの一部に具現することができ、以下の図7を参照して説明する。
イメージ認識装置は、特徴データ492に対応する対象特徴マップ496に対し、上述したように調整された可変マスク495を適用することで、イメージセンサの関心領域に関するセンサ特化特徴マップを生成する。例えば、イメージ認識装置は、特徴データ492から対象抽出レイヤ422を用いて対象特徴マップ496を抽出してもよい。対象抽出レイヤ422は1つ以上の畳み込みレイヤを含んでもよく、対象特徴マップ496は特徴データ492に対して1つ以上の畳み込み演算が適用された特徴マップであってもよい。イメージ認識装置は、対象特徴マップ496の個別値に対して可変マスク495で対応する値を適用することで、センサ特化特徴マップ497を生成することができる。例えば、イメージ認識装置は、対象特徴マップ496の各値に対して可変マスク495で該当の値に対応するマスク加重値を要素ごとの演算に適用することができる。
本明細書において、イメージセンサの関心領域は、データでオブジェクトの一部及びイメージセンサの光学特性に関する関心領域を示す。例えば、イメージセンサの関心領域は、データでイメージセンサの光学的特性(例えば、レンズシェーディング及びイメージセンサの敏感度など)を考慮して、オブジェクト認識で主要な成分を含む領域である。上述したように、可変マスク495のマスク加重値は入力ごとに調整されているため、イメージセンサの関心領域も入力ごとに変わり得る。センサ特化特徴マップは、対象特徴マップでオブジェクト及びイメージセンサの光学特性に関する関心領域が強調された特徴マップであってもよい。参考として、イメージセンサの光学特性は、図9及び図10を参照して後述するトレーニングを介して決定されたセンサ特化レイヤ420のパラメータに反映される。
イメージ認識装置は、センサ特化特徴マップ497から第2認識データ498を算出する。例えば、イメージ認識装置は、センサ特化レイヤ420の認識器423を介して第2認識データ498を算出する。センサ特化レイヤ420の認識器423は、センサ特化特徴マップ497から認識データを出力するように設計されている。例えば、認識器423は、分類器として入力イメージ401に示されたオブジェクトが、リアルオブジェクトである確率及び偽造オブジェクトである確率を指示する第2検証スコアベクトル(例えば、第2検証スコアベクトル=[リアルオブジェクトである確率、偽造オブジェクトである確率])を出力する。参考として、固定レイヤ410の認識器412とセンサ特化レイヤ420の認識器423とが同じ構造(例えば、完全接続レイヤ及びソフトマックス演算で構成された構造)であっても、パラメータはそれぞれ異なってもよい。
イメージ認識装置は、第1認識データ494及び第2認識データ498に対して統合演算430を適用し、認識結果409を生成する。例えば、イメージ認識装置は、固定されているマスクに基づいた第1認識データ494及び可変マスク495に基づいた第2認識データ498の加重和(weighted sum)を認識結果409として決定することができる。例えば、イメージ認識装置は、下記の数式(1)のように認識結果を決定する。
上述した数式(1)において、認識結果409は、ライブネス検証スコアであってもよい。score1は第1認識データ494の検証スコア、score2は第2認識データ498の検証スコアを示す。αは、第1認識データ494に対する加重値、βは、第2認識データ498に対する加重値を示す。一実施形態によれば、イメージ認識装置は、第1認識データ494に対する加重値よりも大きい加重値を第2認識データ498に適用することができる。例えば、上述した数式(1)において、β>αであってもよい。参考として、数式(1)は、単なる例示であり、イメージ認識装置は、認識モデルの構造によりn個の認識データを算出し、n個の認識データのそれぞれに対してn個の加重値を適用して加重和を算出することができる。ここで、n個の加重値のうち、可変マスクに基づいた認識データに適用される加重値は、残りの認識データに適用される加重値よりも高くてもよい。ここで、nは2以上の整数である。
図5及び図6は、他の一実施形態に係る認識モデルの例示的な構造を説明する図である。
図5に示すように、イメージ認識装置は、図3及び図4を参照して上述した固定マスク511及び可変マスク(Attention mask)521に基づいた認識データに加え、検証レイヤ530に基づいた認識データをさらに算出することができる。検証レイヤ530は、認識装置を含む。固定マスク511を含んでいる固定レイヤ510に基づいた第1認識データ581をハードマスクスコア(hard mask score)、可変マスク521を含んでいるセンサ特化レイヤ520に基づいた第2認識データ582はソフトマスクスコア(soft mask score)、基本ライブネス検証モデルに基づいた第3認識データ583は2次元ライブネススコア(2D liveness score)のように示す。イメージ認識装置は、1つの入力イメージ501から特徴抽出レイヤ505を介して共通に抽出される特徴データxから、個別的に第1認識データ581、第2認識データ582、及び第3認識データ583を算出することができる。
イメージ認識装置は、第1認識データ581及び第2認識データ582と共に、第3認識データ583にさらに基づいて認識結果590を決定することができる。例えば、イメージ認識装置は、オブジェクトがリアルオブジェクトであるか、又は偽造オブジェクトであるかを指示する真偽情報(authenticity information)を認識結果590として生成する。認識結果590は、ライブネススコアとしてリアルオブジェクトである確率を指示する値を含む。
図6は、図5に示された構造をより詳細に図示する。
認識モデルは固定レイヤ610、センサ特化レイヤ620、及びライブネス検証モデル630を含む。イメージ認識装置は入力イメージ601を用いて認識モデルを施行するとき、ライブネス検証モデル630のうち、特徴抽出レイヤ605によって抽出された特徴データxを固定レイヤ610及びセンサ特化レイヤ620に伝播する。
固定レイヤ610は、例示的に固定マスク611、完全接続レイヤ613、及びソフトマックス演算614を含む。例えば、イメージ認識装置は特徴データxに固定マスク611を適用し、下記の数式(1)のように汎用特徴マップ612を算出する。
上述した数式(2)において、Featgenericは汎用特徴マップ612を示し、Mhardは固定マスク611を示し、xは特徴データ、
は要素ごとの演算(例えば、要素ごとの積)を示す。イメージ認識装置は、汎用特徴マップ612Featgenericを完全接続レイヤ613に伝播して出力された値にソフトマックス演算614を適用して第1認識データ681を算出する。例示的に、特徴データx、汎用特徴マップ612Featgeneric、及び完全接続レイヤ613から出力されるデータの大きさ(例えば、32×32)は互いに同一であってもよい。
は要素ごとの演算(例えば、要素ごとの積)を示す。イメージ認識装置は、汎用特徴マップ612Featgenericを完全接続レイヤ613に伝播して出力された値にソフトマックス演算614を適用して第1認識データ681を算出する。例示的に、特徴データx、汎用特徴マップ612Featgeneric、及び完全接続レイヤ613から出力されるデータの大きさ(例えば、32×32)は互いに同一であってもよい。
センサ特化レイヤ620は、例示的にアテンションレイヤ621、完全接続レイヤ623、及びソフトマックス演算624を含む。アテンションレイヤ621の詳細については下記の図7を参照して説明する。例えば、イメージ認識装置は、特徴データxからアテンションレイヤ621を用いて、センサ特化特徴マップ622Featspecificとしてアテンション特徴マップを算出することができる。
上述した数式(3)において、Featspecificはセンサ特化特徴マップ622を示し、Msoftは可変マスク、h(x)は特徴データxに対応する対象特徴マップを示す。対象特徴マップh(x)の算出は、下記の図7を参照して説明する。イメージ認識装置は、センサ特化特徴マップ622Featspecificを完全接続レイヤ623に伝播して出力された値にソフトマックス演算624を適用し、第2認識データ682を算出する。例示的に特徴データx、センサ特化特徴マップ622Featspecific、及び完全接続レイヤ623から出力されるデータの大きさ(例えば、32×32)は互いに同一であってもよい。
ライブネス検証モデル630は、特徴抽出レイヤ605及び認識装置を含む。一実施形態によれば、イメージ認識装置は抽出された特徴データxから完全接続レイヤ631及びソフトマックス演算632を用いて第3認識データ683を算出する。例示的に、完全接続レイヤ613,623,631から出力されるデータの大きさ(例えば、32×32)は互いに同一であってもよい。
イメージ認識装置は、第1認識データ681、第2認識データ682、及び第3認識データ683に加重和演算689を介してライブネススコア690を算出する。
一実施形態によれば、イメージ認識装置は、ライブネス検証モデル630、固定レイヤ610、及びセンサ特化レイヤ620を並列的に施行する。例えば、イメージ認識装置は、特徴抽出レイヤ605によって抽出された特徴データxを固定レイヤ610、センサ特化レイヤ620、及び検証モデル630に同時又は隣接する時間内に伝播することができる。但し、これに限定されることなく、イメージ認識装置は、順次特徴データxをライブネス検証モデル630、固定レイヤ610、及びセンサ特化レイヤ620に伝播してもよい。第1認識データ681、第2認識データ682、及び第3認識データ683は同時に算出されてもよいが、これに限定されることなく、固定レイヤ610、センサ特化レイヤ620、及びライブネス検証モデル630のそれぞれに必要とされる演算時間に応じて異なる時間に算出されてもよい。
図7は、一実施形態に係るアテンションレイヤを説明する図である。
一実施形態によれば、イメージ認識装置は、アテンションレイヤ700を用いて可変マスク706の1つ以上の値を調整することができる。例えば、アテンションレイヤ700は、例えば、マスク調整レイヤ710、対象抽出レイヤ720、及びマスキング演算を含む。マスク調整レイヤ710は、クエリ抽出レイヤ711及びキー抽出レイヤ712を含む。クエリ抽出レイヤ711、キー抽出レイヤ712、及び対象抽出レイヤ720は、それぞれ1つ以上の畳み込みレイヤを含んでもよいが、これに限定されることはない。
イメージ認識装置は、クエリ抽出レイヤ711を用いて特徴データ705からクエリ特徴マップf(x)を抽出する。イメージ認識装置は、キー抽出レイヤ712を用いて特徴データ705からキー特徴マップg(x)を抽出する。イメージ認識装置は、対象抽出レイヤ720を用いて対象特徴マップh(x)を抽出する。図2を参照して上述したように、入力イメージがカラーイメージとして複数のチャネルイメージ(例えば、3つのチャネルのイメージ)を含んでいる場合、チャネルごとに特徴データ705が抽出されてもよい。クエリ抽出レイヤ711、キー抽出レイヤ712、及び対象抽出レイヤ720は、各チャネルごとに特徴を抽出するように構成される。
例えば、イメージ認識装置は、特徴データ705に対して畳み込みフィルタリングが適用された結果であるキー特徴マップg(x)と転置されたクエリ特徴マップf(x)と間の積結果から、ソフトマックス関数を用いて可変マスク706の値を決定することができる。キー特徴マップg(x)と転置されたクエリ特徴マップf(x)と間の積結果は、与えられたクエリに対する全てのキーとの類似度(similarity level)を示す。可変マスク706は、下記の数式(4)のように決定される。
上述した数式(4)において、Msoftは可変マスク706、f(x)はクエリ特徴マップ、g(x)はキー特徴マップを示す。イメージ認識装置は、上述した数式(4)により決定された可変マスク706Msoftを上述した数式(3)により対象特徴マップh(x)に適用する。センサ特化特徴マップ709は、対象特徴マップh(x)が可変マスク706Msoftによってマスキングされた結果を示す。センサ特化特徴マップ709は、チャネルごとにチャネルの個数だけ生成される。
図7を参照して説明されたアテンションレイヤ700は、デコーダで時点ごとにエンコーダの全体イメージをもう一回参照することで、勾配消失(vanishing gradient)問題を防止することができる。アテンションレイヤ700は全体イメージを同じ値でない、認識との関連性の高い部分をフォーカシングして参照することができる。参考として、図7において、アテンションレイヤは、クエリ、キー、値であって、同じ特徴データが入力されるセルフアテンション構造として示されているが、これに限定されることはない。
図8は、更なる一実施形態に係る認識モデルの例示的な構造を説明する図である。
一実施形態によれば、認識モデル800は、特徴抽出レイヤ810、固定レイヤ820、及び第1センサ特化レイヤ831〜第nセンサ特化レイヤ832を含む。ここで、nは2以上の整数であってもよい。第1センサ特化レイヤ831〜第nセンサ特化レイヤ832は、それぞれ可変マスクを含んでもよく、入力イメージ801から特徴抽出レイヤ810によって抽出される特徴データに応答して各可変マスクの値が調整されることができる。イメージ認識装置は、固定レイヤ820の固定マスク及び複数のセンサ特化レイヤの複数の可変マスクに基づいて認識結果809を算出する。イメージ認識装置は、固定レイヤ820及び第1センサ特化レイヤ831〜第nセンサ特化レイヤ832のそれぞれから算出される認識データを統合し、認識結果809を決定する。例えば、イメージ認識装置は、複数の認識データの加重和を認識結果809として決定する。
上述した複数の可変マスクのうち、1つの可変マスクを含むセンサ特化レイヤのパラメータ、及び他方の可変マスクを含む他のセンサ特化レイヤのパラメータはそれぞれ異なってもよい。また、第1センサ特化レイヤ831〜第nセンサ特化レイヤ832は互いに異なる構造のレイヤであってもよい。例えば、第1センサ特化レイヤ831〜第nセンサ特化レイヤ832のうち、1つのセンサ特化レイヤはアテンションレイヤとして具現され、第1センサ特化レイヤ831〜第nセンサ特化レイヤ832のうち残りのレイヤは、アテンション以外の構造として具現されてもよい。
図9は、一実施形態に係る認識モデルのトレーニングを説明する図である。
一実施形態によれば、トレーニング装置は、トレーニングデータを用いて認識モデルをトレーニングさせることができる。トレーニングデータは、トレーニング入力及びトレーニング出力の対を含む。トレーニング入力はイメージであってもよく、トレーニング出力は、該当イメージに示されたオブジェクトの認識の真の値(ground truth)であってもよい。例えば、トレーニング出力は、トレーニング入力イメージに示されたオブジェクトがリアルオブジェクトと指示する値(例えば、1)、又は、偽造オブジェクトと指示する値(例えば、0)を有する。今後トレーニングが完了した認識モデルは、認識データとして0から1の間の実数値を出力し、該当値は、入力イメージに示されたオブジェクトがリアルオブジェクトである確率を示す。但し、これに限定されることはない。
トレーニング装置は、臨時認識モデルにトレーニング入力を伝播して臨時出力を算出する。トレーニングが完了する前の認識モデルを臨時認識モデルのように示すことができる。トレーニング装置は、臨時認識モデルの特徴抽出レイヤ910を用いて特徴データを算出し、固定レイヤ920、センサ特化レイヤ930、及び検証レイヤ940にそれぞれ伝播する。伝播過程において、臨時汎用特徴マップ922及び臨時アテンション特徴マップ932が算出される。トレーニング装置は、固定レイヤ920から第1臨時出力、センサ特化レイヤ930から第2臨時出力、検証レイヤ940から第3臨時出力を算出する。トレーニング装置は、各臨時出力及びトレーニング出力から損失関数に基づいた損失を算出する。例えば、トレーニング装置は、第1臨時出力及びトレーニング出力に基づいて第1損失、第2臨時出力及びトレーニング出力に基づいて第2損失、第3臨時出力及びトレーニング出力に基づいて第3損失を算出する。
トレーニング装置は、上述した数式(5)のように算出された損失の加重損失を算術する。上述した数式(5)において、Liveness lossは全体損失909、Loss1は第1損失、Loss2は第2損失、Loss3は第3損失を示す。αは第1損失に対する加重値、βは第2損失に対する加重値、γは第3損失に対する加重値を示す。トレーニング装置は、全体損失909が閾値損失に達するまで、臨時認識モデルのパラメータをアップデートする。損失関数の設計に応じて、トレーニング装置は全体損失909を増加させたり減少させることができる。例えば、トレーニング装置は、逆伝播(back propagation)を介して臨時認識モデルのパラメータをアップデートすることができる。
一実施形態によれば、トレーニング装置は、トレーニングされない初期認識モデルに対しては、トレーニングの間特徴抽出レイヤ910、固定レイヤ920、センサ特化レイヤ930、及び検証レイヤ940の全てのパラメータをアップデートする。ここで、トレーニング装置は、汎用トレーニングデータ901を用いて初期認識モデルをトレーニングさせることができる。汎用トレーニングデータ901は、任意のイメージセンサによって取得されたイメージをトレーニング入力として含むことができる。汎用トレーニングデータ901のトレーニングイメージは、いずれかタイプのイメージセンサにより取得されるが、これに限定されることなく、様々なタイプのイメージセンサによって取得されることができる。汎用トレーニングデータ901を用いてトレーニングされた認識モデルは、汎用認識モデルと示すことができる。汎用認識モデルは、例えば、ハイエンド性能(high−end performance)を有するフラッグシップレベルの電子端末に搭載されるモデルであり得る。フラッグシップレベルの電子端末のイメージセンサは、光学性能に優れる。汎用認識モデルは、特定タイプのイメージセンサに対してはFR(False Rejection)結果及びFA(False Acceptance)結果を出力する場合がある。該当タイプのイメージセンサの光学特性が汎用認識モデルに反映されていないためである。FR結果は真を偽りに誤認した結果を示し、FA結果は偽りを真に誤認した結果を示す。
トレーニング装置は、汎用認識モデルから特定タイプのイメージセンサに対する認識モデルを生成する。例えば、トレーニング装置は、汎用認識モデルで固定レイヤ920に含まれている固定マスク921の値及び検証レイヤ940のパラメータをトレーニングの間に固定する。トレーニング装置は、臨時認識モデルでセンサ特化レイヤ930のパラメータをトレーニングする間アップデートする。トレーニング装置は、上述したように全体損失909を算出し、全体損失909が閾値損失に達するまで繰り返しセンサ特化レイヤ930のパラメータを調整する。例えば、トレーニング装置は、センサ特化レイヤ930からアテンションレイヤ931のパラメータ(例えば、接続加重値)及び完全接続レイヤのパラメータをアップデートすることができる。
ここで、トレーニング装置は、認識モデルのセンサ特化レイヤ930をトレーニングさせるために汎用トレーニングデータ901及びセンサ特化トレーニングデータ902を共に利用することができる。センサ特化トレーニングデータ902は、特定タイプのイメージセンサによって取得されたトレーニングイメージにのみ構成されたデータであってもよい。イメージセンサのタイプは、上述したようにイメージセンサの光学特性に応じて分類されてもよい。トレーニング装置は、センサ特化トレーニングデータ902を用いて、上述したように、算出された損失に基づいてセンサ特化レイヤ930のパラメータをアップデートすることができる。
新製品の発売初期には、センサ特化トレーニングデータ902の量が充分でないこともあるが、トレーニングデータの不足による過剰適合(over fitting)を防止するために、トレーニング装置は、汎用トレーニングデータ901もトレーニングに利用する。汎用トレーニングデータ901の量は、センサ特化トレーニングデータ902の量に比べて大きい。言い換えれば、トレーニング装置は、少ない量(例えば、数万量)のセンサ特化トレーニングデータ902と共に、従来における汎用トレーニングデータ901(例えば、数百万枚の既存イメージデータベース)を介して個別の光学特性に特化されたセンサ特化レイヤ930を有する認識モデルを生成することができる。従って、トレーニング装置は、比較的に短時間内に汎用認識モデルから特定タイプのイメージセンサに特化した認識モデルを生成し得る。以前には発見されていないスプーフィング攻撃(spoofing attack)が発生しても、トレーニング装置はより迅速に新規スプーフィング攻撃を防御するよう、センサ特化レイヤのパラメータを学習し、トレーニングされたセンサ特化レイヤのパラメータを各イメージ認識装置(例えば、次の図10に示す電子端末)に緊急に配布する。センサ特化トレーニングデータ902は、新たに報告されたFR結果及びFA結果に対応するイメージを含んでいる。
図10は、一実施形態に係る認識モデルでセンサ特化レイヤのパラメータアップデートを説明する図である。
イメージ認識システムは、トレーニング装置1010、サーバ1050、及び電子端末1060,1070,1080を含む。
トレーニング装置1010のプロセッサ1011は、図9を参照して上述したように認識モデルをトレーニングさせることができる。トレーニング装置1010は、初期認識モデル1040に対する最初トレーニングが完了した後にも、認識モデル1040のセンサ特化レイヤ1043に対する追加トレーニングを行ってもよい。例えば、トレーニング装置1010は、新規スプーフィング攻撃が発生する場合に応答して、新規スプーフィング攻撃に関するトレーニングデータに基づいて、認識モデル1040のセンサ特化レイヤ1043を再びトレーニングさせることができる。
トレーニング装置1010のメモリ1012は、トレーニングが完了する前及び後の認識モデル1040を格納する。また、メモリ1012は、汎用トレーニングデータ1020、センサ特化トレーニングデータ1030、認識モデル1040で特徴抽出レイヤ1041、センサ特化レイヤ1043、及び固定レイヤ1042のパラメータを格納する。トレーニング装置1010は、図9を参照して上述したトレーニングが完了すれば、サーバ1050との通信(例えば、有線通信又は無線通信)を介してトレーニングが完了した認識モデル1040を配布することができる。
また、サーバ1050は、認識モデル1040の全てのパラメータを配布する代わりに、一部のパラメータのみを各電子端末に配布してもよい。例えば、トレーニング装置1010は、認識モデル1040のセンサ特化レイヤ1043に対する追加トレーニングが完了した場合に応答して、再トレーニングされたセンサ特化レイヤ1043のパラメータをサーバ1050にアップロードすることができる。サーバ1050は、特定タイプのイメージセンサを有する電子端末グループ1091の電子端末1060,1070,1080にセンサ特化レイヤ1043のパラメータのみを提供してもよい。電子端末グループ1091に属する電子端末1060,1070,1080は、互いに同一又は類似の光学特性を有するイメージセンサが装着される。サーバ1050は、認識モデル1050のセンサ特化レイヤ1043に対する追加トレーニング完了及び電子端末から受信されるアップデート要求のうち少なくとも1つに応答して、該当の電子端末に追加的にトレーニングされたセンサ特化レイヤ1043を配布することができる。アップデート要求は、任意の端末がサーバに対して認識モデルのアップデートを要求する信号であってもよい。
また、図10では、トレーニング装置1010がいずれかのタイプの認識モデル1040のみを格納するものとして図示したが、これに限定されることはない。トレーニング装置は、他のタイプの認識モデルを格納し、他の端末グループ1092に対してもアップデートされたパラメータを提供してもよい。
上述した電子端末グループ1091に属する電子端末1060,1070,1080のそれぞれは、アップデート命令に応答して外部サーバ1050から可変マスクを含むセンサ特化レイヤ1043のパラメータを受信する。アップデート命令は、ユーザ入力によるものであってもよいが、これに限定されることなく、サーバから電子端末が受信する命令であってもよい。電子端末のそれぞれは、受信されたパラメータをセンサ特化レイヤ1062,1072,1082にアップデートすることができる。ここで、電子端末1060,1070,1080のそれぞれは、残りの特徴抽出レイヤ1061,1071,1081及び固定レイヤ1063,1073,1083のパラメータを固定する。例えば、電子端末1060,1070,1080のそれぞれは、センサ特化レイヤ1062,1072,1082のパラメータをアップデートする前、アップデートしている間、及びアップデートした後にも、固定マスクの値を保持できる。参考として、個別イメージセンサの固有な光学特性に依存的なFR結果及びFA結果が報告される場合、トレーニング装置が上述したFR結果及びFA結果をセンサ特化レイヤ1043にトレーニングさせた結果としてのパラメータを配布することができる。
異なる例として、電子端末は、外部サーバ1050に対して、現在の装着されているイメージセンサと同一又は類似の光学特性に対応するセンサ特化パラメータ1043を要求してもよい。サーバ1050は電子端末から要求された光学特性に対応するセンサ特化パラメータ1043を検索し、検索されたセンサ特化パラメータ1043を該当の電子端末に対して提供することができる。
図10において、サーバ1050がセンサ特化レイヤ1043のパラメータを配布する例示について説明したが、これに限定されることはない。サーバ1050は、固定レイヤ1042の固定マスク値に変更が発生する場合、電子端末1060,1070,1080に配布する。電子端末1060,1070,1080は、必要に応じて固定レイヤ1063,1073,1083をアップデートしてもよい。例えば、個別イメージセンサの固有な光学特性と関係のない一般的なFR結果及びFA結果が報告される場合、トレーニング装置は、固定レイヤ1042の固定マスク値を調整することができる。参考として、固定マスクのアップデートは、汎用的に様々なタイプのイメージセンサを有する様々な電子端末における認識性能を改善することができる。個別光学特性に対応する可変マスクのアップデートは、該当光学特性のイメージセンサを有する電子端末における認識性能を改善することができる。
特定の機器のみを用いて取得されたデータをニューラルネットワークに学習させれば、該当機器の認識率は高い。但し、同じニューラルネットワークを他の機器に搭載する場合、その認識率が低下した。一実施形態に係る認識モデルは、図9及び図10を参照して上述したように、既存ネットワーク全体を再びトレーニングさせる代わりに、わずかな追加トレーニングを介してイメージセンサごとに特化したセンサ特化レイヤを有することができる。従って、認識モデルに対する緊急パッチが可能であるため、電子端末1060,1070,1080のプライバシー及びセキュリティーをより安全に保護することができる。
図11及び図12は、一実施形態に係るイメージ認識装置の構成を示すブロック図である。
図11に示されたイメージ認識装置1100は、イメージセンサ1110、プロセッサ1120、及びメモリ1130を含む。
イメージセンサ1110は入力イメージを受信する。例えば、イメージセンサ1110は、カラーイメージを撮影するカメラセンサであってもよい。また、イメージセンサ1110は、2PDセンサ(dual phase detection sensor)として、左右の位相差を用いていずれかのピクセルに対するディスパリティイメージを取得することができる。上述した2位相検出センサによって、ディスパリティイメージが直ちに生成されるため、ステレオセンサ及び従来における深度抽出方式を利用しなくても、該当のディスパリティイメージから深度イメージを算出することもできる。
2PDセンサは、MToF(time−of−flight)方式、構造光(structured light)方式の深度センサとは異なって、追加的なフォーム因子(form factor)及びセンサコストなしに装置1100に装着される。例えば、2PDセンサは、CIS(Contact Image Sensor)センサとは異なり、それぞれ2つのフォトダイオード(例えば、第1フォトダイオード及び第2フォトダイオード)から構成される検出要素を含む。従って、2PDセンサによる撮影を介して2つのイメージが生成される。2つのイメージは、第1フォトダイオード(例えば、左側フォトダイオード)によって検知されたイメージ及び第2フォトダイオード(例えば、右側フォトダイオード)により検知されたイメージを含んでもよい。この2つのイメージは、フォトダイオードの物理的な距離の差によって互いに少しずつ(slightly)異なる。イメージ認識装置1100は、この2つのイメージを有して三角測量法などを用いて距離の差によるディスパリティを算出し、算出されたディスパリティからピクセルごとの深度を推定する。2PDセンサの出力は、3つのチャネルを出力するCISセンサとは異なって、2つのフォトダイオードごとにそれぞれ1つチャネルイメージを出力するため、用いられるメモリ及び演算量が節減される。CISセンサによって取得されたイメージからディスパリティを推定するためには、3つのチャネルイメージの対(例えば、合わせて6個のチャネル)が要求されるが、2PDセンサによって取得されたイメージからディスパリティを推定するためには、1つチャネルイメージの対(例えば、合わせて2個のチャネル)のみが要求されるためである。
但し、これに限定されることなく、イメージセンサ1110は、赤外線センサ、レーダーセンサ、超音波センサ、及び深度センサなどを含んでもよい。
プロセッサ1120は、入力イメージから特徴抽出レイヤを用いて特徴データを抽出する。プロセッサ1120は、抽出された特徴データから固定マスク及び抽出された特徴データに応答して、調整される可変マスクに基づいて入力イメージに示されるオブジェクトに関する認識結果を出力する。プロセッサ1120は、サーバから通信を介してセンサ特化レイヤのパラメータを受信する場合、メモリ1130に格納されたセンサ特化レイヤのパラメータをアップデートする。
メモリ1130は、認識モデル及び認識モデルの施行過程で生成されるデータを臨時的又は永久的に格納する。メモリ1130は、サーバからセンサ特化レイヤの新しいパラメータが受信される場合、新しく受信されたパラメータに既存のパラメータを代替することができる。
図12を参照すると、コンピューティング装置1200は、上記で説明したイメージ認識方法を用いてイメージを認識する装置である。一実施形態では、コンピューティング装置1200は、図10を参照して説明された電子端末及び/又は、図11を参照して説明された装置1100に対応する。コンピューティング装置1200は、例えば、イメージ処理装置、スマートフォン、ウェアラブル機器、タブレットコンピュータ、ネットブック、ラップトップ、デスクトップ、PDA(personal digital assistant)、HMD(head mounted display)であってもよい。
図12を参照すると、コンピューティング装置1200は、プロセッサ1210、格納装置1220、カメラ1230、入力装置1240、出力装置1250及びネットワークインターフェース1260を含む。プロセッサ1210、格納装置1220、カメラ1230、入力装置1240、出力装置1250、及びネットワークインターフェース1260は通信バス1270を介して通信する。
プロセッサ1210は、コンピューティング装置1200内で実行するための機能及び命令を実行する。例えば、プロセッサ1210は、格納装置1220に格納された命令を処理する。プロセッサ1210は、図1〜図11を参照して前述した1つ以上の動作を行ってもよい。
格納装置1220は、プロセッサ1210の実行に必要な情報ないしデータを格納する。格納装置1220は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含む。格納装置1220は、プロセッサ1210によって実行するための命令を格納し、コンピューティング装置1200によってソフトウェア又はアプリケーションが実行される間に関連情報を格納する。
カメラ1230は、イメージ認識のための入力イメージを撮影する。カメラ1230は、複数のイメージ(例えば、複数のフレームイメージ)を撮影する。プロセッサ1210は、上述した認識モデルを用いて単一イメージに対する認識結果を出力する。
入力装置1240は、触覚、ビデオ、オーディオ又はタッチ入力によってユーザから入力を受信する。入力装置1240は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を伝達できる任意の他の装置を含んでもよい。
出力装置1250は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザにコンピューティング装置1200の出力を提供する。出力装置1250は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含んでもよい。ネットワークインターフェース1260は、有線又は無線ネットワークを介して外部装置と通信する。出力装置1250は、入力データを認識した結果(例えば、アクセス許容及び/又はアクセス拒絶)を視覚情報、聴覚情報、及び触覚情報の少なくとも1つを用いてユーザに提供することができる。
一実施形態によれば、コンピューティング装置1200は、認識結果に基づいて権限を付与する。コンピューティング装置1200は、権限によりコンピューティング装置1200の動作及びデータのうち少なくとも1つに対するアクセスを許容することができる。例えば、コンピューティング装置1200は、認識結果からユーザがコンピューティング装置1200に登録されたユーザであり、リアルオブジェクトであると検証された場合に応答して権限を付与する。コンピューティング装置1200は、ロック状態である場合、権限によりロック状態をアンロック(unlock)することができる。異なる例として、コンピューティング装置1200は、認識結果からユーザがコンピューティング装置1200に登録されているユーザであり、リアルオブジェクトであると検証された場合に応答して、金融決済の機能に対するアクセスを許容することができる。更なる例として、コンピューティング装置1200は、認識結果が生成された後、認識結果を出力装置1250(例えば、ディスプレイ)を介して可視化することができる。
以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。また、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び/又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。
本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び/又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。
したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。
100 ニューラルネットワーク
301 入力イメージ
309 認識結果
310 認識モデル
311 特徴抽出レイヤ
312 固定レイヤ
313 センサ特化レイヤ
321 固定マスク
322 可変マスク
1010 トレーニング装置
1100 イメージ認識装置
1200 コンピューティング装置
301 入力イメージ
309 認識結果
310 認識モデル
311 特徴抽出レイヤ
312 固定レイヤ
313 センサ特化レイヤ
321 固定マスク
322 可変マスク
1010 トレーニング装置
1100 イメージ認識装置
1200 コンピューティング装置
Claims (25)
- イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出するステップと、
前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するステップと、
を含み、
前記可変マスクは、前記抽出された特徴データに応答して調整される、イメージ認識方法。 - 前記認識結果を出力するステップは、
前記抽出された特徴データに前記固定マスクを適用することで、第1認識データを算出するステップと、
前記抽出された特徴データに前記可変マスクを適用することで、第2認識データを算出するステップと、
前記第1認識データ及び前記第2認識データに基づいて前記認識結果を決定するステップと、
を含む、請求項1に記載のイメージ認識方法。 - 前記第1認識データを算出するステップは、
前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成するステップと、
前記汎用特徴マップから前記第1認識データを算出するステップと、
を含む、請求項2に記載のイメージ認識方法。 - 前記第2認識データを算出するステップは、
前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成するステップと、
前記センサ特化特徴マップから前記第2認識データを算出するステップと、
を含む、請求項2に記載のイメージ認識方法。 - 前記センサ特化特徴マップを生成するステップは、前記対象特徴マップの個別値に対して前記可変マスクにおいて対応する値を適用するステップを含む、請求項4に記載のイメージ認識方法。
- 前記抽出された特徴データから完全接続レイヤ及びソフトマックス関数を用いて第3認識データを算出するステップをさらに含み、
前記認識結果を決定するステップは、前記第1認識データ及び前記第2認識データと共に、前記第3認識データにさらに基づいて前記認識結果を決定するステップを含む、請求項2に記載のイメージ認識方法。 - 前記認識結果を出力するステップは、前記可変マスクを含むセンサ特化レイヤの少なくとも一部のレイヤを用いて、前記特徴データにより前記可変マスクの1つ以上の値を調整するステップを含む、請求項1に記載のイメージ認識方法。
- 前記可変マスクの1つ以上の値を調整するステップは、前記特徴データに対して畳み込みフィルタリングが適用された結果であるキー特徴マップ及び転置されたクエリ特徴マップ間の積結果から、ソフトマックス関数を用いて前記可変マスクの値を決定するステップを含む、請求項7に記載のイメージ認識方法。
- 前記認識結果を出力するステップは、前記固定されたマスクに基づいた第1認識データ及び前記可変マスクに基づいた第2認識データの加重和を前記認識結果として決定するステップを含む、請求項1に記載のイメージ認識方法。
- 前記加重和を前記認識結果として決定するステップは、前記第1認識データに適用される加重値よりも大きい加重値を前記第2認識データに適用するステップを含む、請求項9に記載のイメージ認識方法。
- アップデート命令に応答して、外部サーバから前記可変マスクを含むセンサ特化レイヤのパラメータを受信するステップと、
受信された前記パラメータをセンサ特化レイヤにアップデートするステップと、
をさらに含む、請求項1に記載のイメージ認識方法。 - 前記外部サーバに対して、前記イメージセンサの光学特性と同一又は類似の光学特性に対応するセンサ特化パラメータを要求するステップをさらに含む、請求項11に記載のイメージ認識方法。
- 前記センサ特化レイヤのパラメータをアップデートする間に、前記固定マスクの値を保持するステップをさらに含む、請求項11に記載のイメージ認識方法。
- 前記認識結果を出力するステップは、前記固定マスク及び複数の可変マスクに基づいて前記認識結果を算出するステップを含む、請求項1に記載のイメージ認識方法。
- 前記複数の可変マスクのうち、1つの可変マスクを含むセンサ特化レイヤのパラメータ及び他方の可変マスクを含む他のセンサ特化レイヤのパラメータは互いに異なる、請求項14に記載のイメージ認識方法。
- 前記認識結果を出力するステップは、前記オブジェクトがリアルオブジェクトであるか、又は、偽造オブジェクトであるかを指示する真偽情報を前記認識結果として生成するステップを含む、請求項1に記載のイメージ認識方法。
- 前記認識結果に基づいて権限を付与するステップと、
前記権限により電子端末の動作及び前記電子端末のデータのうち少なくとも1つに対するアクセスを許容するステップと、
をさらに含む、請求項1に記載のイメージ認識方法。 - 前記認識結果を出力するステップは、前記認識結果が生成された後、前記認識結果をディスプレイを介して可視化するステップを含む、請求項1に記載のイメージ認識方法。
- 請求項1〜請求項18のいずれか一項に記載の方法を実行するための命令語を含む1つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。
- 入力イメージを受信するイメージセンサと、
前記入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するプロセッサと、
を含み、
前記可変マスクは、前記抽出された特徴データに応答して調整される、イメージ認識装置。 - 前記プロセッサは、
前記抽出された特徴データに前記固定マスクを適用することで、前記抽出された特徴データから第1認識データを算出し、
前記抽出された特徴データに前記可変マスクを適用することで、前記抽出された特徴データから第2認識データを算出し、
前記第1認識データ及び前記第2認識データの和に基づいて前記認識結果を決定する、請求項20に記載のイメージ認識装置。 - 前記和は、前記第1認識データに適用される加重値よりも大きい加重値を前記第2認識データに適用することで決定される、請求項21に記載のイメージ認識装置。
- 前記プロセッサは、
前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成し、
前記汎用特徴マップから前記第1認識データを算出し、
前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成し、
前記センサ特化特徴マップから前記第2認識データを算出する、請求項21に記載のイメージ認識装置。 - 受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、可変マスク及び固定されたマスクを前記抽出された特徴データに適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するイメージ認識装置と、
認識モデルのセンサ特化レイヤに対する追加トレーニング完了及びアップデート要求のうち少なくとも1つに応答して、前記イメージ認識装置に追加的にトレーニングされたセンサ特化レイヤのパラメータを配布するサーバを含み、
前記可変マスクは、前記イメージ認識装置の前記センサ特化レイヤに含まれて前記抽出された特徴データに応答して調整され、
前記イメージ認識装置は、配布された前記パラメータに基づいて前記イメージ認識装置の前記センサ特化レイヤをアップデートする、イメージ認識システム。 - 前記サーバは、前記イメージ認識装置のイメージセンサに類似していると判断されたイメージセンサを含む他のイメージ認識装置に前記追加的にトレーニングされたセンサ特化レイヤの前記パラメータを配布する、請求項24に記載のイメージ認識システム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2019-0161553 | 2019-12-06 | ||
KR1020190161553A KR20210071410A (ko) | 2019-12-06 | 2019-12-06 | 센서 특화 이미지 인식 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021093144A true JP2021093144A (ja) | 2021-06-17 |
Family
ID=72521502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020184118A Pending JP2021093144A (ja) | 2019-12-06 | 2020-11-04 | センサ特化イメージ認識装置及び方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11354535B2 (ja) |
EP (1) | EP3832542A1 (ja) |
JP (1) | JP2021093144A (ja) |
KR (1) | KR20210071410A (ja) |
CN (1) | CN112926574A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023188790A1 (ja) * | 2022-03-29 | 2023-10-05 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230134362A (ko) * | 2022-03-14 | 2023-09-21 | 삼성전자주식회사 | 부호화 이미지(coded image)로부터 깊이 맵(depth map)을 획득하는 전자 장치 및 그 동작 방법 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3679512B2 (ja) * | 1996-07-05 | 2005-08-03 | キヤノン株式会社 | 画像抽出装置および方法 |
US8675060B2 (en) * | 2009-08-28 | 2014-03-18 | Indian Institute Of Science | Machine vision based obstacle avoidance system |
KR101960844B1 (ko) | 2011-11-01 | 2019-03-22 | 삼성전자주식회사 | 영상 처리 장치 및 방법 |
RU2691195C1 (ru) | 2015-09-11 | 2019-06-11 | Айверифай Инк. | Качество изображения и признака, улучшение изображения и выделение признаков для распознавания по сосудам глаза и лицам, и объединение информации о сосудах глаза с информацией о лицах и/или частях лиц для биометрических систем |
US9547908B1 (en) * | 2015-09-28 | 2017-01-17 | Google Inc. | Feature mask determination for images |
EP3414705A1 (en) | 2016-02-09 | 2018-12-19 | Aware, Inc. | Face liveness detection using background/foreground motion analysis |
KR102036963B1 (ko) | 2017-01-03 | 2019-11-29 | 한국과학기술원 | Cnn 기반의 와일드 환경에 강인한 얼굴 검출 방법 및 시스템 |
KR102387571B1 (ko) | 2017-03-27 | 2022-04-18 | 삼성전자주식회사 | 라이브니스 검사 방법 및 장치 |
FR3065560B1 (fr) * | 2017-04-25 | 2019-04-19 | Continental Automotive France | Procede de traitement d'images pour la suppression de zones lumineuses |
KR102455633B1 (ko) | 2017-12-21 | 2022-10-17 | 삼성전자주식회사 | 라이브니스 검사 방법 및 장치 |
KR102016082B1 (ko) | 2018-02-01 | 2019-08-29 | 고려대학교 산학협력단 | 딥러닝 기반의 포즈 변화에 강인한 얼굴 인식 방법 및 장치 |
JP7270058B2 (ja) * | 2019-03-12 | 2023-05-09 | エフ・ホフマン-ラ・ロシュ・アクチェンゲゼルシャフト | 予測的組織パターン特定のためのマルチプルインスタンスラーナ |
-
2019
- 2019-12-06 KR KR1020190161553A patent/KR20210071410A/ko active Search and Examination
-
2020
- 2020-04-23 US US16/856,221 patent/US11354535B2/en active Active
- 2020-09-16 EP EP20196392.3A patent/EP3832542A1/en active Pending
- 2020-10-14 CN CN202011095975.9A patent/CN112926574A/zh active Pending
- 2020-11-04 JP JP2020184118A patent/JP2021093144A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023188790A1 (ja) * | 2022-03-29 | 2023-10-05 | ソニーグループ株式会社 | 情報処理装置及び情報処理方法、コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20210071410A (ko) | 2021-06-16 |
CN112926574A (zh) | 2021-06-08 |
EP3832542A1 (en) | 2021-06-09 |
US20210174138A1 (en) | 2021-06-10 |
US11354535B2 (en) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102692671B1 (ko) | 이미지 생성 장치 및 방법과 생성 모델을 트레이닝시키는 장치 및 방법 | |
CN107529650B (zh) | 闭环检测方法、装置及计算机设备 | |
JP6754619B2 (ja) | 顔認識方法及び装置 | |
CN111274916B (zh) | 人脸识别方法和人脸识别装置 | |
KR20230021043A (ko) | 객체 인식 방법 및 장치, 및 인식기 학습 방법 및 장치 | |
CN106415594B (zh) | 用于面部验证的方法和系统 | |
US11423702B2 (en) | Object recognition method and apparatus | |
US20180157892A1 (en) | Eye detection method and apparatus | |
KR20180048058A (ko) | 객체의 속성에 기반하여 객체를 인식 및 트레이닝하는 방법 및 장치 | |
CN111382666B (zh) | 具有用户验证的设备和方法 | |
Soni et al. | Hybrid meta-heuristic algorithm based deep neural network for face recognition | |
CN113254927B (zh) | 一种基于网络防御的模型处理方法、装置及存储介质 | |
KR102570070B1 (ko) | 일반화된 사용자 모델을 이용한 사용자 인증 방법 및 장치 | |
WO2023072175A1 (zh) | 点云数据的处理方法、神经网络的训练方法以及相关设备 | |
KR20200083119A (ko) | 사용자 인증 장치 및 방법 | |
JP2021093144A (ja) | センサ特化イメージ認識装置及び方法 | |
CN111898561A (zh) | 一种人脸认证方法、装置、设备及介质 | |
KR20170057118A (ko) | 오브젝트 인식 방법 및 장치, 인식 모델 학습 방법 및 장치 | |
Thakare et al. | Classification of bioinformatics EEG data signals to identify depressed brain state using CNN Model | |
Alghamdi et al. | Artificial intelligence Techniques based learner authentication in cybersecurity higher education institutions | |
CN116433955A (zh) | 对抗攻击的检测方法及系统 | |
Jaswanth et al. | Deep learning based intelligent system for robust face spoofing detection using texture feature measurement | |
CN114154587A (zh) | 一种基于互补内容感知的多模态事件检测方法 | |
KR20220136017A (ko) | 스푸핑 방지 방법 및 장치 | |
CN113283520A (zh) | 面向成员推理攻击的基于特征增强的深度模型隐私保护方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231101 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240821 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20241001 |