JP2021093144A

JP2021093144A - センサ特化イメージ認識装置及び方法

Info

Publication number: JP2021093144A
Application number: JP2020184118A
Authority: JP
Inventors: 智鎬崔; Jiho Choi; 率愛李; Solae Lee; 韓娥李; Hana Lee; 榮竣郭; Youngjun Kwak; 炳仁兪; Byungin Yoo; 容日李; Yong-Ill Lee
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-12-06
Filing date: 2020-11-04
Publication date: 2021-06-17
Anticipated expiration: 2040-11-04
Also published as: US20210174138A1; EP3832542A1; CN112926574A; KR20210071410A; US11354535B2

Abstract

【課題】特徴データにより可変されるマスクを固定マスクと共に用いてオブジェクトに対する認識結果を出力することにある。【解決手段】イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出するステップと、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するステップとを含み、前記可変マスクは、前記抽出された特徴データに応答して調整されるイメージ認識方法を提供する。【選択図】図３

Description

以下、イメージを認識する技術が提供される。

近年、入力パターンを特定のグループに分類する問題を解決するため、ヒトが有している効率的なパターン認識方法を実際のコンピュータに適用させようとする研究が盛んに行われている。このような研究の１つとして、ヒトの生物学的な神経細胞の特性を数学的表現によりモデリングした人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）に対する研究がなされている。入力パターンを特定のグループに分類する問題を解決するために、人工ニューラルネットワークは、ヒトが有している学習という能力を模倣したアルゴリズムを用いる。このアルゴリズムを用いて、人工ニューラルネットワークは入力パターンと出力パターンとの間のマッピングを生成することができ、このようなマッピングを生成する能力は、人工ニューラルネットワークの学習能力のように表現される。また、人工ニューラルネットワークは、学習された結果に基づいて学習に利用されていない入力パターンに対して、比較的に正しい出力を生成することのできる一般化能力を有する。

一実施形態に係るイメージ認識装置は、特徴データにより可変されるマスクを固定マスクと共に用いてオブジェクトに対する認識結果を出力することにある。

一実施形態に係るイメージ認識方法は、イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出するステップと、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するステップとを含み、前記可変マスクは、前記抽出された特徴データに応答して調整される。

前記認識結果を出力するステップは、前記抽出された特徴データに前記固定マスクを適用することで、第１認識データを算出するステップと、前記抽出された特徴データに前記可変マスクを適用することで、第２認識データを算出するステップと、前記第１認識データ及び前記第２認識データに基づいて前記認識結果を決定するステップとを含むことができる。

前記第１認識データを算出するステップは、前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成するステップと、前記汎用特徴マップから前記第１認識データを算出するステップとを含むことができる。

前記第２認識データを算出するステップは、前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成するステップと、前記センサ特化特徴マップから前記第２認識データを算出するステップとを含むことができる。

前記センサ特化特徴マップを生成するステップは、前記対象特徴マップの個別値に対して前記可変マスクにおいて対応する値を適用するステップを含むことができる。

イメージ認識方法は、前記抽出された特徴データから完全接続レイヤ及びソフトマックス関数を用いて第３認識データを算出するステップをさらに含み、前記認識結果を決定するステップは、前記第１認識データ及び前記第２認識データと共に、前記第３認識データにさらに基づいて前記認識結果を決定するステップを含むことができる。

前記認識結果を出力するステップは、前記可変マスクを含むセンサ特化レイヤの少なくとも一部のレイヤを用いて、前記特徴データにより前記可変マスクの１つ以上の値を調整するステップを含むことができる。

前記可変マスクの１つ以上の値を調整するステップは、前記特徴データに対して畳み込みフィルタリングが適用された結果であるキー特徴マップ及び転置されたクエリ特徴マップ間の積結果から、ソフトマックス関数を用いて前記可変マスクの値を決定するステップを含むことができる。

前記認識結果を出力するステップは、前記固定マスクに基づいた第１認識データ及び前記可変マスクに基づいた第２認識データの加重和を前記認識結果として決定するステップを含むことができる。

前記加重和を前記認識結果として決定するステップは、前記第１認識データに適用される加重値よりも大きい加重値を前記第２認識データに適用するステップを含むことができる。

イメージ認識方法は、アップデート命令に応答して、外部サーバから前記可変マスクを含むセンサ特化レイヤのパラメータを受信するステップと、前記の受信されたパラメータをセンサ特化レイヤにアップデートするステップとをさらに含むことができる。

イメージ認識方法は、前記外部サーバに対して、前記イメージセンサの光学特性と同一又は類似の光学特性に対応するセンサ特化パラメータを要求するステップをさらに含むことができる。

イメージ認識方法は、前記センサ特化レイヤのパラメータをアップデートする間に、前記固定マスクの値を保持するステップをさらに含むことができる。

前記認識結果を出力するステップは、前記固定マスク及び複数の可変マスクに基づいて前記認識結果を算出するステップを含むことができる。

前記複数の可変マスクのうち、１つの可変マスクを含むセンサ特化レイヤのパラメータ及び他方の可変マスクを含む他のセンサ特化レイヤのパラメータは互いに異なり得る。

前記認識結果を出力するステップは、前記オブジェクトがリアルオブジェクトであるか、又は、偽造オブジェクトであるかを指示する真偽情報を前記認識結果として生成するステップを含むことができる。

イメージ認識方法は、前記認識結果に基づいて権限を付与するステップと、前記権限により電子端末の動作及び前記電子端末のデータのうち少なくとも１つに対するアクセスを許容するステップとをさらに含むことができる。

前記認識結果を出力するステップは、前記認識結果が生成された後、前記認識結果をディスプレイを介して可視化するステップを含むことができる。

一実施形態に係るイメージ認識装置は、入力イメージを受信するイメージセンサと、前記入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するプロセッサとを含み、前記可変マスクは、前記抽出された特徴データに応答して調整される。

前記プロセッサは、前記抽出された特徴データに前記固定マスクを適用することで、前記抽出された特徴データから第１認識データを算出し、前記抽出された特徴データに前記可変マスクを適用することで、前記抽出された特徴データから第２認識データを算出し、前記第１認識データ及び前記第２認識データの和に基づいて前記認識結果を決定することができる。

前記和は、前記第１認識データに適用される加重値よりも大きい加重値を前記第２認識データに適用することで決定されることができる。

前記プロセッサは、前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成し、前記汎用特徴マップから前記第１認識データを算出し、前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成し、前記センサ特化特徴マップから前記第２認識データを算出することができる。

一実施形態に係るイメージ認識システムは、受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、可変マスク及び固定マスクを前記抽出された特徴データに適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するイメージ認識装置と、認識モデルのセンサ特化レイヤに対する追加トレーニング完了及びアップデート要求のうち少なくとも１つに応答して、前記イメージ認識装置に追加的にトレーニングされたセンサ特化レイヤのパラメータを配布するサーバを含み、前記可変マスクは、前記イメージ認識装置の前記センサ特化レイヤに含まれて前記抽出された特徴データに応答して調整され、前記イメージ認識装置は、前記の配布されたパラメータに基づいて前記イメージ認識装置の前記センサ特化レイヤをアップデートすることができる。

前記サーバは、前記イメージ認識装置のイメージセンサに類似していると判断されたイメージセンサを含む他のイメージ認識装置に前記追加的にトレーニングされたセンサ特化レイヤの前記パラメータを配布することができる。

一実施形態に係るイメージ認識装置は可変マスクを介してセンサの光学特性に最適化された認識結果を生成することで、誤認識率を最小化することができる。

一実施形態に係る認識モデルを説明する図である。一実施形態に係るイメージ認識方法を説明するフローチャートである。一実施形態に係る認識モデルの例示的な構造を説明する図である。一実施形態に係る認識モデルの例示的な構造を説明する図である。他の一実施形態に係る認識モデルの例示的な構造を説明する図である。他の一実施形態に係る認識モデルの例示的な構造を説明する図である。一実施形態に係るアテンションレイヤを説明する図である。更なる一実施形態に係る認識モデルの例示的な構造を説明する図である。一実施形態に係る認識モデルのトレーニングを説明する図である。一実施形態に係る認識モデルでセンサ特化レイヤのパラメータアップデートを説明する図である。一実施形態に係るイメージ認識装置の構成を示すブロック図である。一実施形態に係るイメージ認識装置の構成を示すブロック図である。

下記で説明する実施形態は様々な変更が加えられ得る。特許出願の範囲はこのような実施形態によって制限も限定もされない。各図面に提示した同じ参照符号は同じ部材を示す。

本明細書で開示する特定の構造的又は機能的な説明は単に実施形態を説明するための目的として例示したものであり、実施形態は様々な異なる形態で実施され、本発明は本明細書で説明した実施形態に限定されるものではない。

本明細書で用いる用語は、単に特定の実施形態を説明するために用いられるものであって、本発明を限定しようとする意図はない。単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものが存在することを示すものであって、一つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれらを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なる定義がされない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本発明が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

また、図面を参照して説明する際に、図面符号に拘わらず同じ構成要素は同じ参照符号を付与し、これに対する重複する説明は省略する。実施形態の説明において関連する公知技術に対する具体的な説明が本発明の要旨を不要に曖昧にすると判断される場合、その詳細な説明は省略する。

図１は、一実施形態に係る認識モデルを説明する図である。

一実施形態に係るイメージ認識装置は、入力イメージから抽出された特徴データを用いてユーザを認識することができる。例えば、イメージ認識装置は、認識モデルの少なくとも一部のレイヤ（例えば、特徴抽出レイヤ）に基づいて、入力イメージから特徴データを抽出する。特徴データは、イメージが抽象化されたデータであって、例えば、ベクトルの形態に示すことができる。２次元以上のベクトル形態を有する特徴データは、特徴マップとも示すことができる。本明細書において特徴マップは、主に２次元ベクトル又は２次元の行列形態の特徴データを示すことができる。

認識モデルは、イメージから特徴データを抽出し、抽出された特徴データからイメージに示されるオブジェクトを認識した結果を出力するように設計されたモデルであって、例えば、機械学習構造であってもよく、ニューラルネットワーク１００を含んでもよい。

ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）１００は、ディープニューラルネットワーク（ＤＮＮ：ｄｅｅｐｎｅｕｒａｌｎｅｔｗｏｒｋ）の例示に該当する。ＤＮＮは、完全接続ネットワーク（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｎｅｔｗｏｒｋ）、ディープ畳み込みネットワーク（ｄｅｅｐｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋ）、及びリカレントニューラルネットワーク（ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）などを含む。ニューラルネットワーク１００は、ディープランニングに基づいて非線形の関係にある入力データ及び出力データを互いにマッピングすることで、オブジェクト分類、オブジェクト認識、音声認識、及びイメージ認識などを行うことができる。ディープランニングは、ビッグデータセットからイメージ又は音声認識のような問題を解決するための機械学習の方式で指導式（ｓｕｐｅｒｖｉｓｅｄ）又は非指導式（ｕｎｓｕｐｅｒｖｉｓｅｄ）学習を介して入力データ及び出力データを互いにマッピングする。

本明細書において、認識（ｒｅｃｏｇｎｉｔｉｏｎ）は、データの検証（ｖｅｒｉｆｉｃａｔｉｏｎ）又は／及びデータの識別（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ）を含む。検証は、入力データが真であるか又は偽りであるかを判断する動作を示す。例えば、検証は、任意の入力イメージによって指示されるオブジェクト（例えば、人の顔）が基準イメージにより指示されるオブジェクトと同一であるか否かを判断する判別動作を示す。異なる例として、ライブネス検証は、任意の入力イメージによって指示されるオブジェクトがリアルオブジェクト（ｒｅａｌｏｂｊｅｃｔ）であるか、又は偽造オブジェクト（ｆａｋｅｏｂｊｅｃｔ）であるかの可否を判断する判別動作を示す。

また、イメージ認識装置は、入力イメージから抽出されて取得されたデータが装置内に予め登録された登録データと同一であるかを検証し、２つのデータが同一なものと検証された場合に応答して、入力イメージに対応するユーザに対する検証が成功したものと決定する。また、イメージ認識装置内に複数の登録データが格納されている場合、イメージ認識装置は、入力イメージから抽出されて取得されたデータを複数の登録データのそれぞれに対して順次検証してもよい。

識別は、複数のレーベルのうち、入力データが指示するレーベル（ｌａｂｅｌ）を判断する分類動作を示し、例えば、各レーベルは、クラス（例えば、登録されたユーザの身元（ＩＤ、ｉｄｅｎｔｉｔｙ））を指示してもよい。例えば、識別動作により入力データに含まれているユーザが男性であるか女性であるかが指示される。

図１を参照すると、ニューラルネットワーク１００は、入力層１１０、隠れ層１２０、及び出力層１３０を含む。入力層１１０、隠れ層１２０、及び出力層１３０は、それぞれ複数の人工ノードを含む。

図１には説明の便宜のために隠れ層１２０が３個であるレイヤを含むものと示したか、隠れ層１２０は、様々な数のレイヤを含んでもよい。また、図１において、ニューラルネットワーク１００は、入力データを受信するための別途の入力層を含むものと示したが、入力データが隠れ層１２０に直接入力されてもよい。ニューラルネットワーク１００から出力層１３０を除いたレイヤの人工ノードは、出力信号を送信するためのリンクを介して次のレイヤの人工ノードと接続されてもよい。リンクの数は、次のレイヤに含まれている人工ノードの数に対応する。

隠れ層１２０に含まれている各人工ノードには、以前レイヤに含まれている人工ノードの加重された入力（ｗｅｉｇｈｔｅｄｉｎｐｕｔｓ）に関する活性関数の出力が入力される。加重された入力は、以前レイヤに含まれている人工ノードの入力に加重値が乗算されたものである。加重値は、ニューラルネットワーク１００のパラメータのように称されてもよい。活性関数は、シグモイド（ｓｉｇｍｏｉｄ）、双曲線関数（ｈｙｐｅｒｂｏｌｉｃｔａｎｇｅｎｔ；ｔａｎｈ）及びＲｅＬＵ（ｒｅｃｔｉｆｉｅｄｌｉｎｅａｒｕｎｉｔ）を含んでもよく、活性関数によってニューラルネットワーク１００に非線型性が形成される。出力層１３０に含まれたそれぞれの人工ノードには、以前レイヤに含まれている人工ノードの加重された入力が入力されてもよい。

一実施形態によれば、ニューラルネットワーク１００は、入力データが与えられれば、隠れ層１２０を経て出力層１３０で識別しようとするクラスの数に応じて関数値を算出し、これらのうち、最も大きい値を有するクラスで入力データを識別することができる。ニューラルネットワーク１００は、入力データを識別できるが、これに限定されることなく、ニューラルネットワーク１００は、入力データを基準データ（例えば、登録データ）に対して検証してもよい。以下の認識過程に関する説明は主に検証過程により説明されるが、性格に反しない限り識別過程にも適用されてもよい。

ニューラルネットワーク１００の幅と深さが十分に大きければ、任意の関数を具現できる程の容量を有することができる。ニューラルネットワーク１００が適切なトレーニング過程を介して十分に多くのトレーニングデータを学習すると、最適な認識性能を達成することができる。

上記では認識モデルの例示として、ニューラルネットワーク１００について説明したが、認識モデルをニューラルネットワーク１００に限定されることはない。次には、認識モデルの特徴抽出レイヤを用いて抽出された特徴データを用いた検証動作を主に説明する。

図２は、一実施形態に係るイメージ認識方法を説明するフローチャートである。

まず、イメージ認識装置は、イメージセンサを介して入力イメージを受信する。入力イメージはオブジェクトに関するイメージとして、オブジェクトの少なくとも一部が撮影されたイメージであってもよい。オブジェクトの一部は、オブジェクトの固有の生体特徴（ｂｉｏｍｅｔｒｉｃｆｅａｔｕｒｅ）に関する身体部位であってもよい。例えば、オブジェクトが人であれば、オブジェクトの一部は人の顔、指紋、紅彩、及び静脈などであってもよい。本明細書では主に入力イメージが人の顔を含んでいる場合を例にして説明するが、これに限定されることはない。入力イメージは、カラーイメージであってもよく、色空間を構成するチャネルごとに複数のチャネルイメージを含んでもよい。例えば、ＲＧＢ色空間において、入力イメージは赤色チャネルイメージ、緑色チャネルイメージ、及び青色チャネルイメージを含んでもよい。色空間がこれに限定されることなく、ＹＣｂＣｒなどのように色空間が構成されてもよい。但し、入力イメージがこれに限定されることなく、深度イメージ、赤外線イメージ、超音波イメージ、及びレーダースキャンイメージなどを含んでもよい。

そして、ステップＳ２１０において、イメージ認識装置は、イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出する。例えば、特徴抽出レイヤは、図１を参照して説明した隠れ層１２０であって、１つ以上の畳み込みレイヤを含んでもよい。各畳み込みレイヤの出力は、該当畳み込みレイヤに入力されたデータに対して、カーネルフィルタ（ｋｅｒｎｅｌｆｉｌｔｅｒ）のスイープ（ｓｗｅｅｐ）による畳み込み演算が適用された結果である。入力イメージが複数のチャネルイメージに構成される場合、イメージ認識装置は、認識モデルの特徴抽出レイヤを用いてチャネルイメージのそれぞれに対して特徴データを抽出し、チャネルごとの特徴データを認識モデルの次のレイヤに伝播することができる。

そして、ステップＳ２２０において、イメージ認識装置は、ステップＳ２１０で抽出された特徴データから、固定されたマスク及び抽出された特徴データに応答して調整される可変マスクに基づいて、入力イメージに示されるオブジェクトに関する認識結果を出力する。固定マスクは、互いに異なる入力イメージに対しても同じ値を有するマスクであってもよい。可変マスクは、互いに異なる入力イメージに対しては異なる値を有するマスクであってもよい。

マスクは、任意のデータに含まれた値を排除、格納、及び変更するためのマスク加重値（ｍａｓｋｗｅｉｇｈｔ）を含む。マスクは、複数の値を含むデータに対して要素ごとの演算（ｅｌｅｍｅｎｔ−ｗｉｓｅｏｐｅｒａｔｉｏｎ）を介して適用される。例えば、データで任意の値に対して、マスクにおいて該当の値に対応するマスク加重値が乗算されてもよい。後述するが、マスクは、データで関心領域に該当する値を強調及び／又は格納し、残りの領域に該当する値を弱化及び／又は排除するマスク加重値を含む。例えば、マスク加重値は、０以上１以下の実数値を有するが、マスク加重値の値範囲がこれに限定されることはない。マスクが適用されたデータをマスキングされたデータ（ｍａｓｋｅｄｄａｔａ）のように示してもよい。

参考として、以下では、マスクの大きさ及び次元がマスクが適用されるデータと同じ大きさ及び次元のものを主に説明する。例えば、マスクが適用されるデータが３２×３２の大きさを有する２次元ベクトルである場合、マスクも３２×３２の大きさの２次元ベクトルであってもよい。但し、これは例示であって、これに限定されることなく、マスクの大きさ及び次元はデータの大きさ及び次元と異なってもよい。

一実施形態によれば、イメージ認識装置は、抽出された特徴データ及び特徴データから再び抽出された対象データに対してマスクを適用し、複数のマスキングされたデータを算出する。イメージ認識装置は、複数のマスキングされたデータを用いて認識結果を算出することができる。

図３及び図４は、一実施形態に係る認識モデルの例示的な構造を説明する図である。

図３は、例示的な認識モデル３１０の概略的な構造を示す。一実施形態によれば、イメージ認識装置は認識モデル３１０を用いて、入力イメージ３０１から認識結果３０９を出力する。例えば、イメージ認識装置はイメージの対がなくとも、単一のイメージから認識モデル３１０を用いて認識結果３０９を出力することができる。

認識モデル３１０は、特徴抽出レイヤ３１１、固定レイヤ３１２、及びセンサ特化レイヤ３１３（ｓｅｎｓｏｒ−ｓｐｅｃｉｆｉｃｌａｙｅｒ）を含む。特徴抽出レイヤ３１１は、入力イメージ３０１から特徴データを抽出するように設計されたレイヤを示してもよい。固定レイヤ３１２は、特徴抽出レイヤ３１１から伝播（ｐｒｏｐａｇａｔｅ）されるデータ（例えば、特徴データ）に固定マスク３２１を適用し、固定マスク３２１が適用されたデータから第１認識データを出力するように設計されたレイヤを示す。センサ特化レイヤ３１３は、特徴抽出レイヤ３１１から伝播するデータ（例えば、特徴データから１つ以上の畳み込みレイヤを介して抽出された対象特徴マップ）に可変マスク３２２を適用し、可変マスク３２２が適用されたデータから第２認識データを出力するように設計されたレイヤを示す。

また、認識モデル３１０は、該当認識モデル３１０が装着される電子端末のイメージセンサのタイプに応じてカスタマイズ（ｃｕｓｔｏｍｉｚｅ）されてもよい。例えば、認識モデル３１０の固定レイヤ３１２のパラメータは、イメージセンサのタイプに関係がなく不変であり、センサ特化レイヤ３１３のパラメータ（例えば、人工ノード間の接続加重値など）は、イメージセンサのタイプに対応して変わり得る。イメージセンサのタイプは、例えば、イメージセンサの光学特性ごとに分類されてもよい。任意の様々なイメージセンサのモデル番号などが異なっても光学特性が同一及び類似すれば、該当イメージセンサは同一のタイプに分類される。

一実施形態に係るイメージ認識装置は、特徴抽出レイヤ３１１を介して入力イメージ３０１から特徴データを抽出する。特徴データは上述したように、イメージの特徴が抽象化されたデータとして、ベクトル形態のデータ（例えば、特徴ベクトル）であってもよいが、これに限定されることはない。

イメージ認識装置は、同じ特徴データからマスクを個別的に用いて複数の認識データを算出する。例えば、イメージ認識装置は、抽出された特徴データから固定マスクに基づいて第１認識データを算出してもよい。第１認識データは、固定マスクが適用されたデータから算出された結果を示し、汎用認識データ（ｇｅｎｅｒｉｃｒｅｃｏｇｎｉｔｉｏｎｄａｔａ）のように示してもよい。異なる例として、イメージ認識装置は、抽出された特徴データから可変マスク３２２に基づいて第２認識データを算出してもよい。第２認識データは、可変マスク３２２が適用されたデータから算出された結果を示し、センサ特化結果（ｓｅｎｓｏｒ−ｓｐｅｃｉｆｉｃｄａｔａ）のように示してもよい。

イメージ認識装置は、第１認識データ及び第２認識データに基づいて認識結果３０９を決定する。第１認識データ及び第２認識データは、それぞれ入力イメージ３０１に示されるオブジェクトがリアルオブジェクトである確率及び偽造オブジェクトである確率の少なくとも１つを指示する。後述するが、リアルオブジェクトである確率は０から１の間の実数値を有し、該当の確率が０に近いほど、入力イメージに示されたオブジェクトが偽造オブジェクトである可能性の高いことを示し、該当の確率が１に近いほど、入力イメージに示されたオブジェクトがリアルオブジェクトである可能性が高いことを示す。イメージ認識装置は、第１認識データ及び第２認識データを統合して認識結果３０９を決定する。例えば、イメージ認識装置は、第１認識データ及び第２認識データの加重和（ｗｅｉｇｈｔｅｄｓｕｍ）を認識結果３０９に算出することができる。

図４は、図３に示された認識モデルのより詳細な構造を示す。

イメージ認識装置は、図３を参照して上述したように、入力イメージ４０１から認識モデル４００の特徴抽出レイヤ４０５を用いて特徴データ４９２を抽出することができる。以下では、特徴データ４９２に対して固定レイヤ４１０を用いて第１認識データ４９４を算出する例示、及びセンサ特化レイヤ４２０を用いて第２認識データ４９８を算出する例示について説明する。

まず、イメージ認識装置は、特徴データ４９２に固定マスク４１１を適用することで、オブジェクト関心領域に関する汎用特徴マップ４９３を生成する。例えば、イメージ認識装置は、特徴データ４９２の各値に対して固定マスク４１１で該当値に対応するマスク加重値を要素ごとの演算に適用することができる。オブジェクト関心領域は、データでオブジェクトの一部に関する関心領域であって、例えば、人の顔に関連する成分を含む領域であってもよい。固定マスク４１１でオブジェクト関心領域内のマスク加重値は、残りの領域のマスク加重値よりも高くてもよい。従って、汎用特徴マップ４９３は、特徴データ４９２で人の顔に関連する成分が強調され、残りの成分は少なく強調（例えば、弱化）されたり、排除された特徴マップであってもよい。

イメージ認識装置は、汎用特徴マップ４９３から第１認識データ４９４を算出する。例えば、イメージ認識装置は、固定レイヤ４１０の認識器４１２を用いて第１認識データ４９４を算出する。固定レイヤ４１０の認識器４１２は、汎用特徴マップ４９３から認識データを出力するように設計される。例えば、認識器は、分類器（ｃｌａｓｓｉｆｉｅｒ）として入力イメージ４０１に示されたオブジェクトが、リアルオブジェクトである確率及び偽造オブジェクトである確率を指示する第１検証スコアベクトル（ｆｉｒｓｔｖｅｒｉｆｉｃａｔｉｏｎｓｃｏｒｅｖｅｃｔｏｒ）（例えば、第１検証スコアベクトル＝［リアルオブジェクトである確率、偽造オブジェクトである確率］）を出力する。分類器は、完全接続レイヤ（ＦＣｌａｙｅｒ、ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）及びソフトマックス演算（ｓｏｆｔｍａｘｏｐｅｒａｔｉｏｎ）を含む。
参考として、本明細書において、認識データの例示として主に検証スコアを説明するが、これに限定されることはない。認識データは、入力イメージに示されるオブジェクトがｋ個のクラスそれぞれに属する確率を指示する情報を含んでもよい。ここで、ｋは２以上の整数である。また、認識データを算出する演算として、代表的にソフトマックス演算について主に説明するが、これに限定されることなく、他の非線型マッピング関数（ｎｏｎ−ｌｉｎｅａｒｍａｐｐｉｎｇｆｕｎｃｔｉｏｎ）が使用されてもよい。

そして、イメージ認識装置は、可変マスク４９５を対象特徴マップ４９６に適用する前に、特徴データ４９２の伝播に応答して可変マスク４９５を調整することができる。例えば、イメージ認識装置は、可変マスク４９５を含むセンサ特化レイヤ４２０の少なくとも一部のレイヤ（例えば、マスク調整レイヤ４２１）を用いて、特徴データ４９２により可変マスク４９５の１つ以上の値を調整する。従って、可変マスク４９５のマスク加重値は、入力イメージ４０１の入力ごとにアップデートされることができる。マスク調整レイヤ４２１は、例えば、アテンションレイヤの一部に具現することができ、以下の図７を参照して説明する。

イメージ認識装置は、特徴データ４９２に対応する対象特徴マップ４９６に対し、上述したように調整された可変マスク４９５を適用することで、イメージセンサの関心領域に関するセンサ特化特徴マップを生成する。例えば、イメージ認識装置は、特徴データ４９２から対象抽出レイヤ４２２を用いて対象特徴マップ４９６を抽出してもよい。対象抽出レイヤ４２２は１つ以上の畳み込みレイヤを含んでもよく、対象特徴マップ４９６は特徴データ４９２に対して１つ以上の畳み込み演算が適用された特徴マップであってもよい。イメージ認識装置は、対象特徴マップ４９６の個別値に対して可変マスク４９５で対応する値を適用することで、センサ特化特徴マップ４９７を生成することができる。例えば、イメージ認識装置は、対象特徴マップ４９６の各値に対して可変マスク４９５で該当の値に対応するマスク加重値を要素ごとの演算に適用することができる。

本明細書において、イメージセンサの関心領域は、データでオブジェクトの一部及びイメージセンサの光学特性に関する関心領域を示す。例えば、イメージセンサの関心領域は、データでイメージセンサの光学的特性（例えば、レンズシェーディング及びイメージセンサの敏感度など）を考慮して、オブジェクト認識で主要な成分を含む領域である。上述したように、可変マスク４９５のマスク加重値は入力ごとに調整されているため、イメージセンサの関心領域も入力ごとに変わり得る。センサ特化特徴マップは、対象特徴マップでオブジェクト及びイメージセンサの光学特性に関する関心領域が強調された特徴マップであってもよい。参考として、イメージセンサの光学特性は、図９及び図１０を参照して後述するトレーニングを介して決定されたセンサ特化レイヤ４２０のパラメータに反映される。

イメージ認識装置は、センサ特化特徴マップ４９７から第２認識データ４９８を算出する。例えば、イメージ認識装置は、センサ特化レイヤ４２０の認識器４２３を介して第２認識データ４９８を算出する。センサ特化レイヤ４２０の認識器４２３は、センサ特化特徴マップ４９７から認識データを出力するように設計されている。例えば、認識器４２３は、分類器として入力イメージ４０１に示されたオブジェクトが、リアルオブジェクトである確率及び偽造オブジェクトである確率を指示する第２検証スコアベクトル（例えば、第２検証スコアベクトル＝［リアルオブジェクトである確率、偽造オブジェクトである確率］）を出力する。参考として、固定レイヤ４１０の認識器４１２とセンサ特化レイヤ４２０の認識器４２３とが同じ構造（例えば、完全接続レイヤ及びソフトマックス演算で構成された構造）であっても、パラメータはそれぞれ異なってもよい。

イメージ認識装置は、第１認識データ４９４及び第２認識データ４９８に対して統合演算４３０を適用し、認識結果４０９を生成する。例えば、イメージ認識装置は、固定されているマスクに基づいた第１認識データ４９４及び可変マスク４９５に基づいた第２認識データ４９８の加重和（ｗｅｉｇｈｔｅｄｓｕｍ）を認識結果４０９として決定することができる。例えば、イメージ認識装置は、下記の数式（１）のように認識結果を決定する。

上述した数式（１）において、認識結果４０９は、ライブネス検証スコアであってもよい。ｓｃｏｒｅ_１は第１認識データ４９４の検証スコア、ｓｃｏｒｅ_２は第２認識データ４９８の検証スコアを示す。αは、第１認識データ４９４に対する加重値、βは、第２認識データ４９８に対する加重値を示す。一実施形態によれば、イメージ認識装置は、第１認識データ４９４に対する加重値よりも大きい加重値を第２認識データ４９８に適用することができる。例えば、上述した数式（１）において、β＞αであってもよい。参考として、数式（１）は、単なる例示であり、イメージ認識装置は、認識モデルの構造によりｎ個の認識データを算出し、ｎ個の認識データのそれぞれに対してｎ個の加重値を適用して加重和を算出することができる。ここで、ｎ個の加重値のうち、可変マスクに基づいた認識データに適用される加重値は、残りの認識データに適用される加重値よりも高くてもよい。ここで、ｎは２以上の整数である。

図５及び図６は、他の一実施形態に係る認識モデルの例示的な構造を説明する図である。

図５に示すように、イメージ認識装置は、図３及び図４を参照して上述した固定マスク５１１及び可変マスク（Ａｔｔｅｎｔｉｏｎｍａｓｋ）５２１に基づいた認識データに加え、検証レイヤ５３０に基づいた認識データをさらに算出することができる。検証レイヤ５３０は、認識装置を含む。固定マスク５１１を含んでいる固定レイヤ５１０に基づいた第１認識データ５８１をハードマスクスコア（ｈａｒｄｍａｓｋｓｃｏｒｅ）、可変マスク５２１を含んでいるセンサ特化レイヤ５２０に基づいた第２認識データ５８２はソフトマスクスコア（ｓｏｆｔｍａｓｋｓｃｏｒｅ）、基本ライブネス検証モデルに基づいた第３認識データ５８３は２次元ライブネススコア（２Ｄｌｉｖｅｎｅｓｓｓｃｏｒｅ）のように示す。イメージ認識装置は、１つの入力イメージ５０１から特徴抽出レイヤ５０５を介して共通に抽出される特徴データｘから、個別的に第１認識データ５８１、第２認識データ５８２、及び第３認識データ５８３を算出することができる。

イメージ認識装置は、第１認識データ５８１及び第２認識データ５８２と共に、第３認識データ５８３にさらに基づいて認識結果５９０を決定することができる。例えば、イメージ認識装置は、オブジェクトがリアルオブジェクトであるか、又は偽造オブジェクトであるかを指示する真偽情報（ａｕｔｈｅｎｔｉｃｉｔｙｉｎｆｏｒｍａｔｉｏｎ）を認識結果５９０として生成する。認識結果５９０は、ライブネススコアとしてリアルオブジェクトである確率を指示する値を含む。

図６は、図５に示された構造をより詳細に図示する。

認識モデルは固定レイヤ６１０、センサ特化レイヤ６２０、及びライブネス検証モデル６３０を含む。イメージ認識装置は入力イメージ６０１を用いて認識モデルを施行するとき、ライブネス検証モデル６３０のうち、特徴抽出レイヤ６０５によって抽出された特徴データｘを固定レイヤ６１０及びセンサ特化レイヤ６２０に伝播する。

固定レイヤ６１０は、例示的に固定マスク６１１、完全接続レイヤ６１３、及びソフトマックス演算６１４を含む。例えば、イメージ認識装置は特徴データｘに固定マスク６１１を適用し、下記の数式（１）のように汎用特徴マップ６１２を算出する。

上述した数式（２）において、Ｆｅａｔ_{ｇｅｎｅｒｉｃ}は汎用特徴マップ６１２を示し、Ｍ_ｈａｒｄは固定マスク６１１を示し、ｘは特徴データ、

は要素ごとの演算（例えば、要素ごとの積）を示す。イメージ認識装置は、汎用特徴マップ６１２Ｆｅａｔ_{ｇｅｎｅｒｉｃ}を完全接続レイヤ６１３に伝播して出力された値にソフトマックス演算６１４を適用して第１認識データ６８１を算出する。例示的に、特徴データｘ、汎用特徴マップ６１２Ｆｅａｔ_{ｇｅｎｅｒｉｃ}、及び完全接続レイヤ６１３から出力されるデータの大きさ（例えば、３２×３２）は互いに同一であってもよい。

センサ特化レイヤ６２０は、例示的にアテンションレイヤ６２１、完全接続レイヤ６２３、及びソフトマックス演算６２４を含む。アテンションレイヤ６２１の詳細については下記の図７を参照して説明する。例えば、イメージ認識装置は、特徴データｘからアテンションレイヤ６２１を用いて、センサ特化特徴マップ６２２Ｆｅａｔ_{ｓｐｅｃｉｆｉｃ}としてアテンション特徴マップを算出することができる。

上述した数式（３）において、Ｆｅａｔ_{ｓｐｅｃｉｆｉｃ}はセンサ特化特徴マップ６２２を示し、Ｍ_ｓｏｆｔは可変マスク、ｈ（ｘ）は特徴データｘに対応する対象特徴マップを示す。対象特徴マップｈ（ｘ）の算出は、下記の図７を参照して説明する。イメージ認識装置は、センサ特化特徴マップ６２２Ｆｅａｔ_{ｓｐｅｃｉｆｉｃ}を完全接続レイヤ６２３に伝播して出力された値にソフトマックス演算６２４を適用し、第２認識データ６８２を算出する。例示的に特徴データｘ、センサ特化特徴マップ６２２Ｆｅａｔ_{ｓｐｅｃｉｆｉｃ}、及び完全接続レイヤ６２３から出力されるデータの大きさ（例えば、３２×３２）は互いに同一であってもよい。

ライブネス検証モデル６３０は、特徴抽出レイヤ６０５及び認識装置を含む。一実施形態によれば、イメージ認識装置は抽出された特徴データｘから完全接続レイヤ６３１及びソフトマックス演算６３２を用いて第３認識データ６８３を算出する。例示的に、完全接続レイヤ６１３，６２３，６３１から出力されるデータの大きさ（例えば、３２×３２）は互いに同一であってもよい。

イメージ認識装置は、第１認識データ６８１、第２認識データ６８２、及び第３認識データ６８３に加重和演算６８９を介してライブネススコア６９０を算出する。

一実施形態によれば、イメージ認識装置は、ライブネス検証モデル６３０、固定レイヤ６１０、及びセンサ特化レイヤ６２０を並列的に施行する。例えば、イメージ認識装置は、特徴抽出レイヤ６０５によって抽出された特徴データｘを固定レイヤ６１０、センサ特化レイヤ６２０、及び検証モデル６３０に同時又は隣接する時間内に伝播することができる。但し、これに限定されることなく、イメージ認識装置は、順次特徴データｘをライブネス検証モデル６３０、固定レイヤ６１０、及びセンサ特化レイヤ６２０に伝播してもよい。第１認識データ６８１、第２認識データ６８２、及び第３認識データ６８３は同時に算出されてもよいが、これに限定されることなく、固定レイヤ６１０、センサ特化レイヤ６２０、及びライブネス検証モデル６３０のそれぞれに必要とされる演算時間に応じて異なる時間に算出されてもよい。

図７は、一実施形態に係るアテンションレイヤを説明する図である。

一実施形態によれば、イメージ認識装置は、アテンションレイヤ７００を用いて可変マスク７０６の１つ以上の値を調整することができる。例えば、アテンションレイヤ７００は、例えば、マスク調整レイヤ７１０、対象抽出レイヤ７２０、及びマスキング演算を含む。マスク調整レイヤ７１０は、クエリ抽出レイヤ７１１及びキー抽出レイヤ７１２を含む。クエリ抽出レイヤ７１１、キー抽出レイヤ７１２、及び対象抽出レイヤ７２０は、それぞれ１つ以上の畳み込みレイヤを含んでもよいが、これに限定されることはない。

イメージ認識装置は、クエリ抽出レイヤ７１１を用いて特徴データ７０５からクエリ特徴マップｆ（ｘ）を抽出する。イメージ認識装置は、キー抽出レイヤ７１２を用いて特徴データ７０５からキー特徴マップｇ（ｘ）を抽出する。イメージ認識装置は、対象抽出レイヤ７２０を用いて対象特徴マップｈ（ｘ）を抽出する。図２を参照して上述したように、入力イメージがカラーイメージとして複数のチャネルイメージ（例えば、３つのチャネルのイメージ）を含んでいる場合、チャネルごとに特徴データ７０５が抽出されてもよい。クエリ抽出レイヤ７１１、キー抽出レイヤ７１２、及び対象抽出レイヤ７２０は、各チャネルごとに特徴を抽出するように構成される。

例えば、イメージ認識装置は、特徴データ７０５に対して畳み込みフィルタリングが適用された結果であるキー特徴マップｇ（ｘ）と転置されたクエリ特徴マップｆ（ｘ）と間の積結果から、ソフトマックス関数を用いて可変マスク７０６の値を決定することができる。キー特徴マップｇ（ｘ）と転置されたクエリ特徴マップｆ（ｘ）と間の積結果は、与えられたクエリに対する全てのキーとの類似度（ｓｉｍｉｌａｒｉｔｙｌｅｖｅｌ）を示す。可変マスク７０６は、下記の数式（４）のように決定される。

上述した数式（４）において、Ｍ_ｓｏｆｔは可変マスク７０６、ｆ（ｘ）はクエリ特徴マップ、ｇ（ｘ）はキー特徴マップを示す。イメージ認識装置は、上述した数式（４）により決定された可変マスク７０６Ｍ_ｓｏｆｔを上述した数式（３）により対象特徴マップｈ（ｘ）に適用する。センサ特化特徴マップ７０９は、対象特徴マップｈ（ｘ）が可変マスク７０６Ｍ_ｓｏｆｔによってマスキングされた結果を示す。センサ特化特徴マップ７０９は、チャネルごとにチャネルの個数だけ生成される。

図７を参照して説明されたアテンションレイヤ７００は、デコーダで時点ごとにエンコーダの全体イメージをもう一回参照することで、勾配消失（ｖａｎｉｓｈｉｎｇｇｒａｄｉｅｎｔ）問題を防止することができる。アテンションレイヤ７００は全体イメージを同じ値でない、認識との関連性の高い部分をフォーカシングして参照することができる。参考として、図７において、アテンションレイヤは、クエリ、キー、値であって、同じ特徴データが入力されるセルフアテンション構造として示されているが、これに限定されることはない。

図８は、更なる一実施形態に係る認識モデルの例示的な構造を説明する図である。

一実施形態によれば、認識モデル８００は、特徴抽出レイヤ８１０、固定レイヤ８２０、及び第１センサ特化レイヤ８３１〜第ｎセンサ特化レイヤ８３２を含む。ここで、ｎは２以上の整数であってもよい。第１センサ特化レイヤ８３１〜第ｎセンサ特化レイヤ８３２は、それぞれ可変マスクを含んでもよく、入力イメージ８０１から特徴抽出レイヤ８１０によって抽出される特徴データに応答して各可変マスクの値が調整されることができる。イメージ認識装置は、固定レイヤ８２０の固定マスク及び複数のセンサ特化レイヤの複数の可変マスクに基づいて認識結果８０９を算出する。イメージ認識装置は、固定レイヤ８２０及び第１センサ特化レイヤ８３１〜第ｎセンサ特化レイヤ８３２のそれぞれから算出される認識データを統合し、認識結果８０９を決定する。例えば、イメージ認識装置は、複数の認識データの加重和を認識結果８０９として決定する。

上述した複数の可変マスクのうち、１つの可変マスクを含むセンサ特化レイヤのパラメータ、及び他方の可変マスクを含む他のセンサ特化レイヤのパラメータはそれぞれ異なってもよい。また、第１センサ特化レイヤ８３１〜第ｎセンサ特化レイヤ８３２は互いに異なる構造のレイヤであってもよい。例えば、第１センサ特化レイヤ８３１〜第ｎセンサ特化レイヤ８３２のうち、１つのセンサ特化レイヤはアテンションレイヤとして具現され、第１センサ特化レイヤ８３１〜第ｎセンサ特化レイヤ８３２のうち残りのレイヤは、アテンション以外の構造として具現されてもよい。

図９は、一実施形態に係る認識モデルのトレーニングを説明する図である。

一実施形態によれば、トレーニング装置は、トレーニングデータを用いて認識モデルをトレーニングさせることができる。トレーニングデータは、トレーニング入力及びトレーニング出力の対を含む。トレーニング入力はイメージであってもよく、トレーニング出力は、該当イメージに示されたオブジェクトの認識の真の値（ｇｒｏｕｎｄｔｒｕｔｈ）であってもよい。例えば、トレーニング出力は、トレーニング入力イメージに示されたオブジェクトがリアルオブジェクトと指示する値（例えば、１）、又は、偽造オブジェクトと指示する値（例えば、０）を有する。今後トレーニングが完了した認識モデルは、認識データとして０から１の間の実数値を出力し、該当値は、入力イメージに示されたオブジェクトがリアルオブジェクトである確率を示す。但し、これに限定されることはない。

トレーニング装置は、臨時認識モデルにトレーニング入力を伝播して臨時出力を算出する。トレーニングが完了する前の認識モデルを臨時認識モデルのように示すことができる。トレーニング装置は、臨時認識モデルの特徴抽出レイヤ９１０を用いて特徴データを算出し、固定レイヤ９２０、センサ特化レイヤ９３０、及び検証レイヤ９４０にそれぞれ伝播する。伝播過程において、臨時汎用特徴マップ９２２及び臨時アテンション特徴マップ９３２が算出される。トレーニング装置は、固定レイヤ９２０から第１臨時出力、センサ特化レイヤ９３０から第２臨時出力、検証レイヤ９４０から第３臨時出力を算出する。トレーニング装置は、各臨時出力及びトレーニング出力から損失関数に基づいた損失を算出する。例えば、トレーニング装置は、第１臨時出力及びトレーニング出力に基づいて第１損失、第２臨時出力及びトレーニング出力に基づいて第２損失、第３臨時出力及びトレーニング出力に基づいて第３損失を算出する。

トレーニング装置は、上述した数式（５）のように算出された損失の加重損失を算術する。上述した数式（５）において、Ｌｉｖｅｎｅｓｓｌｏｓｓは全体損失９０９、Ｌｏｓｓ_１は第１損失、Ｌｏｓｓ_２は第２損失、Ｌｏｓｓ_３は第３損失を示す。αは第１損失に対する加重値、βは第２損失に対する加重値、γは第３損失に対する加重値を示す。トレーニング装置は、全体損失９０９が閾値損失に達するまで、臨時認識モデルのパラメータをアップデートする。損失関数の設計に応じて、トレーニング装置は全体損失９０９を増加させたり減少させることができる。例えば、トレーニング装置は、逆伝播（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）を介して臨時認識モデルのパラメータをアップデートすることができる。

一実施形態によれば、トレーニング装置は、トレーニングされない初期認識モデルに対しては、トレーニングの間特徴抽出レイヤ９１０、固定レイヤ９２０、センサ特化レイヤ９３０、及び検証レイヤ９４０の全てのパラメータをアップデートする。ここで、トレーニング装置は、汎用トレーニングデータ９０１を用いて初期認識モデルをトレーニングさせることができる。汎用トレーニングデータ９０１は、任意のイメージセンサによって取得されたイメージをトレーニング入力として含むことができる。汎用トレーニングデータ９０１のトレーニングイメージは、いずれかタイプのイメージセンサにより取得されるが、これに限定されることなく、様々なタイプのイメージセンサによって取得されることができる。汎用トレーニングデータ９０１を用いてトレーニングされた認識モデルは、汎用認識モデルと示すことができる。汎用認識モデルは、例えば、ハイエンド性能（ｈｉｇｈ−ｅｎｄｐｅｒｆｏｒｍａｎｃｅ）を有するフラッグシップレベルの電子端末に搭載されるモデルであり得る。フラッグシップレベルの電子端末のイメージセンサは、光学性能に優れる。汎用認識モデルは、特定タイプのイメージセンサに対してはＦＲ（ＦａｌｓｅＲｅｊｅｃｔｉｏｎ）結果及びＦＡ（ＦａｌｓｅＡｃｃｅｐｔａｎｃｅ）結果を出力する場合がある。該当タイプのイメージセンサの光学特性が汎用認識モデルに反映されていないためである。ＦＲ結果は真を偽りに誤認した結果を示し、ＦＡ結果は偽りを真に誤認した結果を示す。

トレーニング装置は、汎用認識モデルから特定タイプのイメージセンサに対する認識モデルを生成する。例えば、トレーニング装置は、汎用認識モデルで固定レイヤ９２０に含まれている固定マスク９２１の値及び検証レイヤ９４０のパラメータをトレーニングの間に固定する。トレーニング装置は、臨時認識モデルでセンサ特化レイヤ９３０のパラメータをトレーニングする間アップデートする。トレーニング装置は、上述したように全体損失９０９を算出し、全体損失９０９が閾値損失に達するまで繰り返しセンサ特化レイヤ９３０のパラメータを調整する。例えば、トレーニング装置は、センサ特化レイヤ９３０からアテンションレイヤ９３１のパラメータ（例えば、接続加重値）及び完全接続レイヤのパラメータをアップデートすることができる。

ここで、トレーニング装置は、認識モデルのセンサ特化レイヤ９３０をトレーニングさせるために汎用トレーニングデータ９０１及びセンサ特化トレーニングデータ９０２を共に利用することができる。センサ特化トレーニングデータ９０２は、特定タイプのイメージセンサによって取得されたトレーニングイメージにのみ構成されたデータであってもよい。イメージセンサのタイプは、上述したようにイメージセンサの光学特性に応じて分類されてもよい。トレーニング装置は、センサ特化トレーニングデータ９０２を用いて、上述したように、算出された損失に基づいてセンサ特化レイヤ９３０のパラメータをアップデートすることができる。

新製品の発売初期には、センサ特化トレーニングデータ９０２の量が充分でないこともあるが、トレーニングデータの不足による過剰適合（ｏｖｅｒｆｉｔｔｉｎｇ）を防止するために、トレーニング装置は、汎用トレーニングデータ９０１もトレーニングに利用する。汎用トレーニングデータ９０１の量は、センサ特化トレーニングデータ９０２の量に比べて大きい。言い換えれば、トレーニング装置は、少ない量（例えば、数万量）のセンサ特化トレーニングデータ９０２と共に、従来における汎用トレーニングデータ９０１（例えば、数百万枚の既存イメージデータベース）を介して個別の光学特性に特化されたセンサ特化レイヤ９３０を有する認識モデルを生成することができる。従って、トレーニング装置は、比較的に短時間内に汎用認識モデルから特定タイプのイメージセンサに特化した認識モデルを生成し得る。以前には発見されていないスプーフィング攻撃（ｓｐｏｏｆｉｎｇａｔｔａｃｋ）が発生しても、トレーニング装置はより迅速に新規スプーフィング攻撃を防御するよう、センサ特化レイヤのパラメータを学習し、トレーニングされたセンサ特化レイヤのパラメータを各イメージ認識装置（例えば、次の図１０に示す電子端末）に緊急に配布する。センサ特化トレーニングデータ９０２は、新たに報告されたＦＲ結果及びＦＡ結果に対応するイメージを含んでいる。

図１０は、一実施形態に係る認識モデルでセンサ特化レイヤのパラメータアップデートを説明する図である。

イメージ認識システムは、トレーニング装置１０１０、サーバ１０５０、及び電子端末１０６０，１０７０，１０８０を含む。

トレーニング装置１０１０のプロセッサ１０１１は、図９を参照して上述したように認識モデルをトレーニングさせることができる。トレーニング装置１０１０は、初期認識モデル１０４０に対する最初トレーニングが完了した後にも、認識モデル１０４０のセンサ特化レイヤ１０４３に対する追加トレーニングを行ってもよい。例えば、トレーニング装置１０１０は、新規スプーフィング攻撃が発生する場合に応答して、新規スプーフィング攻撃に関するトレーニングデータに基づいて、認識モデル１０４０のセンサ特化レイヤ１０４３を再びトレーニングさせることができる。

トレーニング装置１０１０のメモリ１０１２は、トレーニングが完了する前及び後の認識モデル１０４０を格納する。また、メモリ１０１２は、汎用トレーニングデータ１０２０、センサ特化トレーニングデータ１０３０、認識モデル１０４０で特徴抽出レイヤ１０４１、センサ特化レイヤ１０４３、及び固定レイヤ１０４２のパラメータを格納する。トレーニング装置１０１０は、図９を参照して上述したトレーニングが完了すれば、サーバ１０５０との通信（例えば、有線通信又は無線通信）を介してトレーニングが完了した認識モデル１０４０を配布することができる。

また、サーバ１０５０は、認識モデル１０４０の全てのパラメータを配布する代わりに、一部のパラメータのみを各電子端末に配布してもよい。例えば、トレーニング装置１０１０は、認識モデル１０４０のセンサ特化レイヤ１０４３に対する追加トレーニングが完了した場合に応答して、再トレーニングされたセンサ特化レイヤ１０４３のパラメータをサーバ１０５０にアップロードすることができる。サーバ１０５０は、特定タイプのイメージセンサを有する電子端末グループ１０９１の電子端末１０６０，１０７０，１０８０にセンサ特化レイヤ１０４３のパラメータのみを提供してもよい。電子端末グループ１０９１に属する電子端末１０６０，１０７０，１０８０は、互いに同一又は類似の光学特性を有するイメージセンサが装着される。サーバ１０５０は、認識モデル１０５０のセンサ特化レイヤ１０４３に対する追加トレーニング完了及び電子端末から受信されるアップデート要求のうち少なくとも１つに応答して、該当の電子端末に追加的にトレーニングされたセンサ特化レイヤ１０４３を配布することができる。アップデート要求は、任意の端末がサーバに対して認識モデルのアップデートを要求する信号であってもよい。

また、図１０では、トレーニング装置１０１０がいずれかのタイプの認識モデル１０４０のみを格納するものとして図示したが、これに限定されることはない。トレーニング装置は、他のタイプの認識モデルを格納し、他の端末グループ１０９２に対してもアップデートされたパラメータを提供してもよい。

上述した電子端末グループ１０９１に属する電子端末１０６０，１０７０，１０８０のそれぞれは、アップデート命令に応答して外部サーバ１０５０から可変マスクを含むセンサ特化レイヤ１０４３のパラメータを受信する。アップデート命令は、ユーザ入力によるものであってもよいが、これに限定されることなく、サーバから電子端末が受信する命令であってもよい。電子端末のそれぞれは、受信されたパラメータをセンサ特化レイヤ１０６２，１０７２，１０８２にアップデートすることができる。ここで、電子端末１０６０，１０７０，１０８０のそれぞれは、残りの特徴抽出レイヤ１０６１，１０７１，１０８１及び固定レイヤ１０６３，１０７３，１０８３のパラメータを固定する。例えば、電子端末１０６０，１０７０，１０８０のそれぞれは、センサ特化レイヤ１０６２，１０７２，１０８２のパラメータをアップデートする前、アップデートしている間、及びアップデートした後にも、固定マスクの値を保持できる。参考として、個別イメージセンサの固有な光学特性に依存的なＦＲ結果及びＦＡ結果が報告される場合、トレーニング装置が上述したＦＲ結果及びＦＡ結果をセンサ特化レイヤ１０４３にトレーニングさせた結果としてのパラメータを配布することができる。

異なる例として、電子端末は、外部サーバ１０５０に対して、現在の装着されているイメージセンサと同一又は類似の光学特性に対応するセンサ特化パラメータ１０４３を要求してもよい。サーバ１０５０は電子端末から要求された光学特性に対応するセンサ特化パラメータ１０４３を検索し、検索されたセンサ特化パラメータ１０４３を該当の電子端末に対して提供することができる。

図１０において、サーバ１０５０がセンサ特化レイヤ１０４３のパラメータを配布する例示について説明したが、これに限定されることはない。サーバ１０５０は、固定レイヤ１０４２の固定マスク値に変更が発生する場合、電子端末１０６０，１０７０，１０８０に配布する。電子端末１０６０，１０７０，１０８０は、必要に応じて固定レイヤ１０６３，１０７３，１０８３をアップデートしてもよい。例えば、個別イメージセンサの固有な光学特性と関係のない一般的なＦＲ結果及びＦＡ結果が報告される場合、トレーニング装置は、固定レイヤ１０４２の固定マスク値を調整することができる。参考として、固定マスクのアップデートは、汎用的に様々なタイプのイメージセンサを有する様々な電子端末における認識性能を改善することができる。個別光学特性に対応する可変マスクのアップデートは、該当光学特性のイメージセンサを有する電子端末における認識性能を改善することができる。

特定の機器のみを用いて取得されたデータをニューラルネットワークに学習させれば、該当機器の認識率は高い。但し、同じニューラルネットワークを他の機器に搭載する場合、その認識率が低下した。一実施形態に係る認識モデルは、図９及び図１０を参照して上述したように、既存ネットワーク全体を再びトレーニングさせる代わりに、わずかな追加トレーニングを介してイメージセンサごとに特化したセンサ特化レイヤを有することができる。従って、認識モデルに対する緊急パッチが可能であるため、電子端末１０６０，１０７０，１０８０のプライバシー及びセキュリティーをより安全に保護することができる。

図１１及び図１２は、一実施形態に係るイメージ認識装置の構成を示すブロック図である。

図１１に示されたイメージ認識装置１１００は、イメージセンサ１１１０、プロセッサ１１２０、及びメモリ１１３０を含む。

イメージセンサ１１１０は入力イメージを受信する。例えば、イメージセンサ１１１０は、カラーイメージを撮影するカメラセンサであってもよい。また、イメージセンサ１１１０は、２ＰＤセンサ（ｄｕａｌｐｈａｓｅｄｅｔｅｃｔｉｏｎｓｅｎｓｏｒ）として、左右の位相差を用いていずれかのピクセルに対するディスパリティイメージを取得することができる。上述した２位相検出センサによって、ディスパリティイメージが直ちに生成されるため、ステレオセンサ及び従来における深度抽出方式を利用しなくても、該当のディスパリティイメージから深度イメージを算出することもできる。

２ＰＤセンサは、ＭＴｏＦ（ｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔ）方式、構造光（ｓｔｒｕｃｔｕｒｅｄｌｉｇｈｔ）方式の深度センサとは異なって、追加的なフォーム因子（ｆｏｒｍｆａｃｔｏｒ）及びセンサコストなしに装置１１００に装着される。例えば、２ＰＤセンサは、ＣＩＳ（ＣｏｎｔａｃｔＩｍａｇｅＳｅｎｓｏｒ）センサとは異なり、それぞれ２つのフォトダイオード（例えば、第１フォトダイオード及び第２フォトダイオード）から構成される検出要素を含む。従って、２ＰＤセンサによる撮影を介して２つのイメージが生成される。２つのイメージは、第１フォトダイオード（例えば、左側フォトダイオード）によって検知されたイメージ及び第２フォトダイオード（例えば、右側フォトダイオード）により検知されたイメージを含んでもよい。この２つのイメージは、フォトダイオードの物理的な距離の差によって互いに少しずつ（ｓｌｉｇｈｔｌｙ）異なる。イメージ認識装置１１００は、この２つのイメージを有して三角測量法などを用いて距離の差によるディスパリティを算出し、算出されたディスパリティからピクセルごとの深度を推定する。２ＰＤセンサの出力は、３つのチャネルを出力するＣＩＳセンサとは異なって、２つのフォトダイオードごとにそれぞれ１つチャネルイメージを出力するため、用いられるメモリ及び演算量が節減される。ＣＩＳセンサによって取得されたイメージからディスパリティを推定するためには、３つのチャネルイメージの対（例えば、合わせて６個のチャネル）が要求されるが、２ＰＤセンサによって取得されたイメージからディスパリティを推定するためには、１つチャネルイメージの対（例えば、合わせて２個のチャネル）のみが要求されるためである。

但し、これに限定されることなく、イメージセンサ１１１０は、赤外線センサ、レーダーセンサ、超音波センサ、及び深度センサなどを含んでもよい。

プロセッサ１１２０は、入力イメージから特徴抽出レイヤを用いて特徴データを抽出する。プロセッサ１１２０は、抽出された特徴データから固定マスク及び抽出された特徴データに応答して、調整される可変マスクに基づいて入力イメージに示されるオブジェクトに関する認識結果を出力する。プロセッサ１１２０は、サーバから通信を介してセンサ特化レイヤのパラメータを受信する場合、メモリ１１３０に格納されたセンサ特化レイヤのパラメータをアップデートする。

メモリ１１３０は、認識モデル及び認識モデルの施行過程で生成されるデータを臨時的又は永久的に格納する。メモリ１１３０は、サーバからセンサ特化レイヤの新しいパラメータが受信される場合、新しく受信されたパラメータに既存のパラメータを代替することができる。

図１２を参照すると、コンピューティング装置１２００は、上記で説明したイメージ認識方法を用いてイメージを認識する装置である。一実施形態では、コンピューティング装置１２００は、図１０を参照して説明された電子端末及び／又は、図１１を参照して説明された装置１１００に対応する。コンピューティング装置１２００は、例えば、イメージ処理装置、スマートフォン、ウェアラブル機器、タブレットコンピュータ、ネットブック、ラップトップ、デスクトップ、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、ＨＭＤ（ｈｅａｄｍｏｕｎｔｅｄｄｉｓｐｌａｙ）であってもよい。

図１２を参照すると、コンピューティング装置１２００は、プロセッサ１２１０、格納装置１２２０、カメラ１２３０、入力装置１２４０、出力装置１２５０及びネットワークインターフェース１２６０を含む。プロセッサ１２１０、格納装置１２２０、カメラ１２３０、入力装置１２４０、出力装置１２５０、及びネットワークインターフェース１２６０は通信バス１２７０を介して通信する。

プロセッサ１２１０は、コンピューティング装置１２００内で実行するための機能及び命令を実行する。例えば、プロセッサ１２１０は、格納装置１２２０に格納された命令を処理する。プロセッサ１２１０は、図１〜図１１を参照して前述した１つ以上の動作を行ってもよい。

格納装置１２２０は、プロセッサ１２１０の実行に必要な情報ないしデータを格納する。格納装置１２２０は、コンピュータで読み出し可能な格納媒体又はコンピュータで読み出し可能な格納装置を含む。格納装置１２２０は、プロセッサ１２１０によって実行するための命令を格納し、コンピューティング装置１２００によってソフトウェア又はアプリケーションが実行される間に関連情報を格納する。

カメラ１２３０は、イメージ認識のための入力イメージを撮影する。カメラ１２３０は、複数のイメージ（例えば、複数のフレームイメージ）を撮影する。プロセッサ１２１０は、上述した認識モデルを用いて単一イメージに対する認識結果を出力する。

入力装置１２４０は、触覚、ビデオ、オーディオ又はタッチ入力によってユーザから入力を受信する。入力装置１２４０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力を伝達できる任意の他の装置を含んでもよい。

出力装置１２５０は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザにコンピューティング装置１２００の出力を提供する。出力装置１２５０は、例えば、ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含んでもよい。ネットワークインターフェース１２６０は、有線又は無線ネットワークを介して外部装置と通信する。出力装置１２５０は、入力データを認識した結果（例えば、アクセス許容及び／又はアクセス拒絶）を視覚情報、聴覚情報、及び触覚情報の少なくとも１つを用いてユーザに提供することができる。

一実施形態によれば、コンピューティング装置１２００は、認識結果に基づいて権限を付与する。コンピューティング装置１２００は、権限によりコンピューティング装置１２００の動作及びデータのうち少なくとも１つに対するアクセスを許容することができる。例えば、コンピューティング装置１２００は、認識結果からユーザがコンピューティング装置１２００に登録されたユーザであり、リアルオブジェクトであると検証された場合に応答して権限を付与する。コンピューティング装置１２００は、ロック状態である場合、権限によりロック状態をアンロック（ｕｎｌｏｃｋ）することができる。異なる例として、コンピューティング装置１２００は、認識結果からユーザがコンピューティング装置１２００に登録されているユーザであり、リアルオブジェクトであると検証された場合に応答して、金融決済の機能に対するアクセスを許容することができる。更なる例として、コンピューティング装置１２００は、認識結果が生成された後、認識結果を出力装置１２５０（例えば、ディスプレイ）を介して可視化することができる。

以上述した装置は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが把握する。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はそのうちの一つ以上の組合せを含み、希望の通りに動作するよう処理装置を構成したり、独立的又は結合的に処理装置を命令することができる。ソフトウェア及び／又はデータは、処理装置によって解釈されたり処理装置に命令又はデータを提供するために、いずれかの類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、又は送信される信号波に永久的又は一時的に具体化することができる。ソフトウェアはネットワークに連結されたコンピュータシステム上に分散され、分散した方法で格納されたり実行され得る。ソフトウェア及びデータは一つ以上のコンピュータで読出し可能な記録媒体に格納され得る。

本実施形態による方法は、様々なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例として、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気−光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明に示す動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当技術分野で通常の知識を有する者であれば、上記の説明に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順で実行されるし、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられてもよいし、他の構成要素又は均等物によって置き換え又は置換されたとしても適切な結果を達成することができる。

したがって、本発明の範囲は、開示された実施形態に限定されて定められるものではなく、特許請求の範囲及び特許請求の範囲と均等なものなどによって定められるものである。

１００ニューラルネットワーク
３０１入力イメージ
３０９認識結果
３１０認識モデル
３１１特徴抽出レイヤ
３１２固定レイヤ
３１３センサ特化レイヤ
３２１固定マスク
３２２可変マスク
１０１０トレーニング装置
１１００イメージ認識装置
１２００コンピューティング装置

Claims

イメージセンサによって受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出するステップと、
前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するステップと、
を含み、
前記可変マスクは、前記抽出された特徴データに応答して調整される、イメージ認識方法。
前記認識結果を出力するステップは、
前記抽出された特徴データに前記固定マスクを適用することで、第１認識データを算出するステップと、
前記抽出された特徴データに前記可変マスクを適用することで、第２認識データを算出するステップと、
前記第１認識データ及び前記第２認識データに基づいて前記認識結果を決定するステップと、
を含む、請求項１に記載のイメージ認識方法。
前記第１認識データを算出するステップは、
前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成するステップと、
前記汎用特徴マップから前記第１認識データを算出するステップと、
を含む、請求項２に記載のイメージ認識方法。
前記第２認識データを算出するステップは、
前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成するステップと、
前記センサ特化特徴マップから前記第２認識データを算出するステップと、
を含む、請求項２に記載のイメージ認識方法。
前記センサ特化特徴マップを生成するステップは、前記対象特徴マップの個別値に対して前記可変マスクにおいて対応する値を適用するステップを含む、請求項４に記載のイメージ認識方法。
前記抽出された特徴データから完全接続レイヤ及びソフトマックス関数を用いて第３認識データを算出するステップをさらに含み、
前記認識結果を決定するステップは、前記第１認識データ及び前記第２認識データと共に、前記第３認識データにさらに基づいて前記認識結果を決定するステップを含む、請求項２に記載のイメージ認識方法。
前記認識結果を出力するステップは、前記可変マスクを含むセンサ特化レイヤの少なくとも一部のレイヤを用いて、前記特徴データにより前記可変マスクの１つ以上の値を調整するステップを含む、請求項１に記載のイメージ認識方法。
前記可変マスクの１つ以上の値を調整するステップは、前記特徴データに対して畳み込みフィルタリングが適用された結果であるキー特徴マップ及び転置されたクエリ特徴マップ間の積結果から、ソフトマックス関数を用いて前記可変マスクの値を決定するステップを含む、請求項７に記載のイメージ認識方法。
前記認識結果を出力するステップは、前記固定されたマスクに基づいた第１認識データ及び前記可変マスクに基づいた第２認識データの加重和を前記認識結果として決定するステップを含む、請求項１に記載のイメージ認識方法。
前記加重和を前記認識結果として決定するステップは、前記第１認識データに適用される加重値よりも大きい加重値を前記第２認識データに適用するステップを含む、請求項９に記載のイメージ認識方法。
アップデート命令に応答して、外部サーバから前記可変マスクを含むセンサ特化レイヤのパラメータを受信するステップと、
受信された前記パラメータをセンサ特化レイヤにアップデートするステップと、
をさらに含む、請求項１に記載のイメージ認識方法。
前記外部サーバに対して、前記イメージセンサの光学特性と同一又は類似の光学特性に対応するセンサ特化パラメータを要求するステップをさらに含む、請求項１１に記載のイメージ認識方法。
前記センサ特化レイヤのパラメータをアップデートする間に、前記固定マスクの値を保持するステップをさらに含む、請求項１１に記載のイメージ認識方法。
前記認識結果を出力するステップは、前記固定マスク及び複数の可変マスクに基づいて前記認識結果を算出するステップを含む、請求項１に記載のイメージ認識方法。
前記複数の可変マスクのうち、１つの可変マスクを含むセンサ特化レイヤのパラメータ及び他方の可変マスクを含む他のセンサ特化レイヤのパラメータは互いに異なる、請求項１４に記載のイメージ認識方法。
前記認識結果を出力するステップは、前記オブジェクトがリアルオブジェクトであるか、又は、偽造オブジェクトであるかを指示する真偽情報を前記認識結果として生成するステップを含む、請求項１に記載のイメージ認識方法。
前記認識結果に基づいて権限を付与するステップと、
前記権限により電子端末の動作及び前記電子端末のデータのうち少なくとも１つに対するアクセスを許容するステップと、
をさらに含む、請求項１に記載のイメージ認識方法。
前記認識結果を出力するステップは、前記認識結果が生成された後、前記認識結果をディスプレイを介して可視化するステップを含む、請求項１に記載のイメージ認識方法。
請求項１〜請求項１８のいずれか一項に記載の方法を実行するための命令語を含む１つ以上のコンピュータプログラムを格納したコンピュータで読み出し可能な記録媒体。
入力イメージを受信するイメージセンサと、
前記入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、前記抽出された特徴データに固定マスク及び可変マスクを適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するプロセッサと、
を含み、
前記可変マスクは、前記抽出された特徴データに応答して調整される、イメージ認識装置。
前記プロセッサは、
前記抽出された特徴データに前記固定マスクを適用することで、前記抽出された特徴データから第１認識データを算出し、
前記抽出された特徴データに前記可変マスクを適用することで、前記抽出された特徴データから第２認識データを算出し、
前記第１認識データ及び前記第２認識データの和に基づいて前記認識結果を決定する、請求項２０に記載のイメージ認識装置。
前記和は、前記第１認識データに適用される加重値よりも大きい加重値を前記第２認識データに適用することで決定される、請求項２１に記載のイメージ認識装置。
前記プロセッサは、
前記抽出された特徴データに前記固定マスクを適用することで、オブジェクト関心領域に関する汎用特徴マップを生成し、
前記汎用特徴マップから前記第１認識データを算出し、
前記抽出された特徴データに対応する対象特徴マップに対して前記可変マスクを適用することで、前記イメージセンサの関心領域に関するセンサ特化特徴マップを生成し、
前記センサ特化特徴マップから前記第２認識データを算出する、請求項２１に記載のイメージ認識装置。
受信された入力イメージから特徴抽出レイヤを用いて特徴データを抽出し、可変マスク及び固定されたマスクを前記抽出された特徴データに適用することで、前記入力イメージに示されるオブジェクトに関する認識結果を出力するイメージ認識装置と、
認識モデルのセンサ特化レイヤに対する追加トレーニング完了及びアップデート要求のうち少なくとも１つに応答して、前記イメージ認識装置に追加的にトレーニングされたセンサ特化レイヤのパラメータを配布するサーバを含み、
前記可変マスクは、前記イメージ認識装置の前記センサ特化レイヤに含まれて前記抽出された特徴データに応答して調整され、
前記イメージ認識装置は、配布された前記パラメータに基づいて前記イメージ認識装置の前記センサ特化レイヤをアップデートする、イメージ認識システム。
前記サーバは、前記イメージ認識装置のイメージセンサに類似していると判断されたイメージセンサを含む他のイメージ認識装置に前記追加的にトレーニングされたセンサ特化レイヤの前記パラメータを配布する、請求項２４に記載のイメージ認識システム。