JP7040952B2

JP7040952B2 - 顔認証方法及び装置

Info

Publication number: JP7040952B2
Application number: JP2018016589A
Authority: JP
Inventors: 承周韓; 民守高; 徳相金; 在濬韓
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-03-23
Filing date: 2018-02-01
Publication date: 2022-03-23
Anticipated expiration: 2038-02-01
Also published as: US11915515B2; EP3379458B1; US11010595B2; US20190251335A1; EP3379458A2; JP2018160237A; CN108629168A; CN108629168B; CN117992939A; JP2022071195A; US20240161539A1; EP3379458A3; JP7365445B2; US20210271860A1; US20180276454A1; US11861937B2

Description

以下の説明は顔認証技術に関する。

生体認証技術のうちの１つである顔認証技術は、静画又は動画に示された顔に基づいてユーザが正当なユーザであるか否かを決定する認証技術である。顔認証技術は、認証対象者を非接触に確認できるという利点がある。最近では、顔認証技術の利便性及び効率性のためにセキュリティーシステム、モバイル認証、及びマルチメディアデータ検索などの様々な応用分野で顔認証技術が幅広く活用されている。

本発明の目的は、部分顔に基づいて顔認証が実行されても顔認証をより正確に行うことのできる顔認証技術を提供することにある。

一実施形態に係る顔認証方法は、入力映像から顔領域を検出するステップと、前記顔領域に示された入力顔が部分顔であるか否かを決定するステップと、前記入力顔が部分顔であるという決定に応答して、基準映像と前記顔領域の顔映像を合成して合成映像を生成するステップと、前記合成映像に基づいて認証の成否を決定するステップとを含む。

一実施形態に係る顔認証方法において、前記入力顔が部分顔であるか否かを決定するステップは、前記入力映像から検出された前記顔領域の位置に基づいて前記入力顔が部分顔であるか否かを決定し得る。

一実施形態に係る顔認証方法において、前記入力顔が部分顔であるか否かを決定するステップは、前記検出された顔領域が前記入力映像の境界のうち一部分を含む場合、前記入力顔が部分顔であると決定し得る。

一実施形態に係る顔認証方法において、前記合成映像を生成するステップは、前記検出された顔領域に基づいて前記基準映像の映像情報と前記顔映像の映像情報を合成することで前記合成映像を生成し、前記基準映像の映像情報は、全体顔に対応する顔領域から前記検出された顔領域を除いた残りの顔領域に対応する領域の映像情報であり得る。

一実施形態に係る顔認証方法において、前記入力顔が部分顔であるか否かを決定するステップは、前記顔領域から顔のランドマークを検出するステップと、前記検出された顔領域から、予め定義された顔部位領域のうち少なくとも１つに対応するランドマークが検出されない場合、前記入力顔が部分顔であると決定するステップとを含み得る。

一実施形態に係る顔認証方法において、前記合成映像を生成するステップは、前記ランドマークが検出されない顔領域に対応する前記基準映像の対応領域の映像情報と前記顔映像の映像情報を合成することで前記合成映像を生成し得る。

一実施形態に係る顔認証方法において、前記認証の成否を決定するステップは、特徴抽出器を用いて前記入力顔に対する特徴を抽出するステップと、登録特徴のうち前記部分顔のタイプに対応する登録特徴と前記抽出された特徴との間の比較結果に基づいて認証の成否を決定するステップとを含み得る。

一実施形態に係る顔認証方法は、前記顔映像に示された入力顔に閉塞領域が存在するか否かを決定するステップと、前記閉塞領域が存在するという決定に応答して、前記基準映像で前記閉塞領域に対応する対応領域の映像情報と前記顔映像の映像情報を合成することで合成映像を生成するステップとをさらに含み得る。

一実施形態に係る顔認証装置は、プロセッサを含み、前記プロセッサは、入力映像から顔領域を検出し、前記顔領域に示された入力顔が部分顔であるか否かを決定し、前記入力顔が部分顔であるという決定に応答して、基準映像と前記顔領域の顔映像を合成して合成映像を生成し、前記合成映像に基づいて認証の成否を決定する。

一実施形態に係るニューラルネットワークモデルが含まれた装置は、顔映像が入力されて中間特徴を出力する共通特徴抽出器と、前記共通特徴抽出器に接続され、前記顔映像がユーザの全体顔情報を含む場合に前記中間特徴が入力されて顔認証に用いられる特徴を抽出する第１特徴抽出器と、前記共通特徴抽出器に接続され、前記顔映像がユーザの部分顔情報を含む場合に前記中間特徴が入力されて顔認証に用いられる特徴を抽出する第２特徴抽出器とを含む。

一実施形態に係るコンピューティング装置は、ユーザの顔映像を取得するカメラと、前記取得された顔映像と登録された顔映像とを比較して顔認証を行うプロセッサとを含み、前記コンピューティング装置は、前記顔認証が実行される間に前記ユーザが見ることのできる前記コンピューティング装置の表示画面に前記取得された顔映像を表示しなくてもよい。

一実施形態によると、部分顔に基づいて顔認証が実行されても顔認証をより正確に行うことができる。

一実施形態によると、顔に閉塞領域が存在しても顔認証をより正確に行うことができる。

一実施形態によると、顔撮影のためのプレビュー映像が提供されなくても顔認証を行うことができる。

一実施形態に係る顔認証を説明するための図である。一実施形態に係る顔認証を説明するための図である。部分顔が撮影された映像の一例を示す図である。部分顔が撮影された映像の一例を示す図である。部分顔が撮影された映像の一例を示す図である。部分顔が撮影された映像の一例を示す図である。一実施形態に係る顔認証方法を説明するためのフローチャートである。一実施形態に係る顔認証方法を説明するためのフローチャートである。一実施形態に係る顔認証方法を説明するためのフローチャートである。一実施形態に係る顔登録の過程と顔認証過程の一例を説明するための図である。一実施形態に係る顔登録の過程で登録特徴を抽出する一例を説明するための図である。一実施形態に係る顔登録の過程で登録特徴を抽出する一例を説明するための図である。一実施形態に係る顔登録の過程で登録特徴を抽出する一例を説明するための図である。一実施形態に係る顔登録の過程で登録特徴を抽出する一例を説明するための図である。一実施形態に係る顔認証過程で合成映像を生成する一例を説明するための図である。一実施形態に係る顔認証過程で合成映像を生成する一例を説明するための図である。一実施形態に係る部分顔のタイプに応じる合成映像の一例を示す図である。他の実施形態に係る顔認証方法を説明するためのフローチャートである。一実施形態に係る入力映像に閉塞領域が存在する場合に合成映像を生成する一例を説明するための図である。一実施形態に係る顔認証装置の構成を示す図である。一実施形態に係るコンピューティング装置の構成を示す図である。一実施形態に係る学習装置の構成を示す図である。

本明細書に開示されている本発明の概念による実施形態に対して特定の構造的又は機能的な説明は、単に本発明の概念による実施形態を説明するための目的として例示されたものであり、本発明の概念による実施形態は様々な形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることができるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素にも命名することができる。また、いずれかの構成要素が他の構成要素に「連結されて」いると言及された場合、その次の構成要素に直接的に連結されてもよく、又は中間に他の構成要素が存在することもあり得ると理解されなければならない。一方いずれかの構成要素が他の構成要素に「直接連結されて」いるか「直接連結されて」いと言及される場合には、中間に他の構成要素が存在しないものとして理解されなければならない。構成要素間の関係を説明する表現、例えば「～間に」と「すぐ～の間に」、又は「～に隣接する」と「～に直接に隣接する」などのように解釈されなければならない。

単数の表現は、文脈上、明白に異なる意味をもたない限り複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は明細書上に記載した特徴、数字、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義さがれない限り、技術的であるか又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものと解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。

図１Ａは、一実施形態に係る顔認証を説明するための図である。

顔認証は、認証を試みたユーザの顔情報に基づいて当該のユーザが有効なユーザであるか否かを判断する認証方法として、ユーザログイン、決済サービス、又は出入り規制などで有効なユーザを認証するために用いられている。図１Ａを参照すると、顔認証を行う装置である顔認証装置は、コンピューティング装置１２０に含まれて動作する。コンピューティング装置１２０は、例えば、スマートフォン、ウェアラブル機器、タブレットコンピュータ、ネットブック、ラップトップ、デスクトップ、ＰＤＡ（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ）、セットトップボックス、家電機器、生体ドアロック、セキュリティー装置、又は車両始動装置であり得る。

コンピューティング装置１２０は、顔認証によってコンピューティング装置１２０にアクセスしようとするユーザ１１０に対して認証過程を行う。例えば、ユーザ１１０がコンピューティング装置１２０のロック状態を解除しようとコンピューティング装置１２０にユーザ認証を試みる場合、コンピューティング装置１２０は、カメラ１３０のような映像取得装置を用いてユーザ１１０の顔映像を取得し、取得された顔映像を分析してコンピューティング装置１００のロック状態を解除するか否かを決定する。一実施形態では、ユーザ１１０が顔認証のためにカメラ１３０を用いて撮影する顔映像は、コンピューティング装置１２０のスクリーンを介して提供される。当該の顔映像は、プレビュー映像として機能する。ユーザ１１０は、プレビュー映像を参考にして顔認証のために入力しようとする顔の形態を調整し得る。

一実施形態に係るコンピューティング装置１２０は、取得した顔映像から顔領域１４０を検出し、特徴抽出器を用いて顔領域１４０から特徴を抽出する。コンピューティング装置１２０は、抽出された特徴と有効なユーザに対する登録特徴との間の比較結果に基づいてユーザ認証の成功の有無を決定する。特徴抽出器は、入力された情報に基づいて特徴情報を出力するモデルであって、一例として、学習データによって予め学習されたニューラルネットワークモデルであってもよい。ニューラルネットワークモデルは、人の生物学的な神経細胞の特性を数学的な表現によってモデリングしたモデルである。ユーザ認証が成功したと決定された場合、ユーザ１１０は、コンピューティング装置１２０のロックモードを成功的に解除させることができる。反対に、ユーザ認証が失敗したと決定された場合、コンピューティング装置１２０は継続的にロックモードで動作する。有効なユーザは、顔登録の過程によって自分の顔をコンピューティング装置１２０に予め登録し、コンピューティング装置１２０は、格納装置又はクラウド格納媒体に当該の有効なユーザを識別するための情報を格納する。例えば、有効なユーザの顔映像又は当該の顔映像から抽出された特徴が有効なユーザの登録情報として格納される。

顔認証を試みるために、ユーザ１１０は、カメラ１３０を用いて自分の顔を撮影する。ここで、カメラ１３０の視野（ｆｉｅｌｄｏｆｖｉｅｗ：ＦｏＶ）からズレて顔が撮影される場合、全体顔（ｆｕｌｌｆａｃｅ）でない部分顔（ｐａｒｔｉａｌｆａｃｅ）が撮影される。図１Ｂに示すように、ユーザ１１０は、コンピューティング装置１２０を斜めに把持した状態で顔認証を試みる場合、カメラ１３０の視野に全体顔が含まれず部分顔が撮影される。図１Ａとは相違して、顔認証過程でカメラ１３０によって撮影されたプレビュー映像がユーザが見ることのできるスクリーン１５０に示されない場合、顔認証過程で部分顔が撮影される場合が相対的に多い。ユーザ１１０は、顔認証のために部分顔よりも全体顔を撮影しようとする傾向があるものの、プレビュー映像がユーザ１１０に提供されない場合は、ユーザ１１０が全体顔を撮影したか、部分顔を撮影しかが確認されず、そのため、ユーザ１１０が全体顔を撮影するように調整することが困難になる。

図２Ａないし図２Ｄは、部分顔が撮影された映像の一例を示す。図２Ａないし図２Ｄの各映像には、一部の顔部位が脱落した部分顔が撮影されている。部分顔には、全体顔よりもユーザを識別するための特徴が部分的にしか含まれていないため、一般的に部分顔に基づいて顔認証が実行されれば、全体顔に基づいて顔認証が実行される場合よりも顔認証の正確度が低くなる。しかし、顔認証のために常に全体顔が入力されることを期待することができないため、部分顔が入力されても顔認証の正確度を高めることが求められる。特に、図１Ｂに示す実施形態のように、顔認証過程でプレビュー映像が提供されない場合、顔認証のために部分顔が撮影される場合が多いが、このように撮影された部分顔に対する顔認証の可能性及び顔認証の正確度を高めることが求められている。以下で説明する実施形態は、顔撮影のためのプレビュー映像が提供されなくても顔認証を可能にし、また、部分顔に基づいて顔認証が実行されても顔認証をより正確に実行できる解決策を提示する。

図３ないし図５は、一実施形態に係る顔認証方法を説明するためのフローチャートである。いずれかの実施形態が相違する形態で実現できる場合、特定ステップの機能又は動作がフローチャートとは異なって実行されてもよい。例えば、図３ないし図５において、連続する２つのステップは実際に実質的に同時に実行されてもよく、関連する機能又は動作によって当該のステップの順序が変えて実行されてもよい。

図３を参照すると、ステップＳ３１０において、顔認証装置は入力映像を受信する。入力映像は顔認証装置に入力される映像であって、顔認証の対象となる映像である。入力映像は、例えば、デジタルスチールカメラ、ビデオカメラのような映像取得装置によって取得される。図面には示されていないが、実施形態によって顔認証装置は、受信した入力映像に対する前処理を行ってもよい。前処理過程は、入力映像を顔認証により適切な形態に処理する１つ以上の過程を含む。例えば、前処理過程は、入力映像に含まれたノイズを除去する過程、入力映像のコントラストを増加させる過程、入力映像に含まれたブラーを除去するぼけ除去（ｄｅｂｌｕｒｒｉｎｇ）過程、背景領域を除去する過程、入力映像に含まれた歪みを補正するワーピング過程、及び入力映像を２進化する過程などを含む。

ステップＳ３２０において、顔認証装置は入力映像から顔領域を検出する。例えば、顔認証装置は、入力映像でＨａａｒ基盤のカスケードエイダブースト分流器（Ｈａａｒ－ｂａｓｅｄｃａｓｃａｄｅａｄａｂｏｏｓｔｃｌａｓｓｉｆｉｅｒ）を用いて顔領域を検出する。ただし、実施形態の範囲がこれに限定されることなく、顔認証装置は、様々な顔領域検出方式を用いて入力映像から顔領域を検出し得る。一例として、入力映像から抽出された顔領域の顔映像は、パッチ（ｐａｔｃｈ）映像の形態を有し得る。

ステップＳ３３０において、顔認証装置は、顔領域の顔映像を選択的に正規化する。一実施形態に係る顔認証装置は、検出された顔領域から顔のランドマーク（ｆａｃｉａｌｌａｎｄｍａｒｋｓ）を検出し、検出されたランドマークに基づいて入力映像を正規化する。正規化は、例えば、入力映像から顔映像を抽出する映像クロッピング（ｉｍａｇｅｃｒｏｐｐｉｎｇ）過程、顔映像に示されたランドマークの位置を予め定義された基準位置にマッチングさせる過程、及び顔映像の大きさを調整する過程などを含む。

顔認証装置は、例えば、ＡＣＭ（ＡｃｔｉｖｅＣｏｎｔｏｕｒＭｏｄｅｌ）、ＡＳＭ（ＡｃｔｉｖｅＳｈａｐｅＭｏｄｅｌ）、ＡＡＭ（ＡｃｔｉｖｅＡｐｐｅａｒａｎｃｅｍｏｄｅｌ）、ＳＤＭ（ＳｕｐｅｒｖｉｓｅｄＤｅｓｃｅｎｔＭｅｔｈｏｄ）、又は、ニューラルネットワークモデルなどに基づいたランドマーク検出方式を用いて顔領域から顔のランドマークを検出する。顔のランドマークは主な顔部位に対する特徴点として、例えば、眉毛、目、鼻、唇、あご、耳、又は顔の輪郭などを識別するための特徴点である。顔認証装置は、検出されたランドマークの位置に基づいて顔領域に対してアフィン変換（ａｆｆｉｎｅｔｒａｎｓｆｏｒｍａｔｉｏｎ）を行うことで、ランドマークの位置を基準位置にマッチングさせることができる。ここで、アフィン変換は、ランドマークの位置が示すベクトル空間を他のベクトル空間に対応させる役割を果たす。

ステップＳ３３０の正規化過程が実行される場合、以下のステップＳ３４０ないしステップＳ３７０における顔映像は、正規化過程が実行された顔映像に代替される。

ステップＳ３４０において、顔認証装置は、顔映像に示された入力顔が部分顔であるか否かを決定する。一実施形態に係る顔認証装置は、顔領域の検出結果（例えば、検出された顔領域の位置）に基づいて入力顔が部分顔であるか否かを決定する。顔認証装置は、例えば、検出された顔領域が入力映像の境界のうち一部分を含む場合、又は、検出された顔領域が入力映像からズレる場合、入力顔が部分顔であると決定する。顔認証装置は、検出された顔領域が入力映像の境界を含んでいないか、又は検出された顔領域が入力映像をズレることなく入力映像の内部に含まれる場合には入力顔が全体顔であると決定する。

一実施形態に係る顔認証装置は、検出された顔領域が入力映像の境界のうちいずれかの境界を含んでいるか否か、又は検出された顔領域が入力映像からズレている部分がどの部分であるか否かに基づいて部分顔のタイプを決定する。例えば、顔認証装置は、入力映像からズレている部分が上側である場合には部分顔のタイプを第１タイプとして決定し、入力映像からズレている部分が下側である場合には部分顔のタイプを第１タイプと区別される第２タイプとして決定する。部分顔のタイプに応じて、以下で説明される合成映像の合成形態が変わり得る。

他の実施形態において、部分顔であるか否かに対する判断はランドマークの検出結果に基づく。例えば、顔認証装置は、検出された顔領域から顔のランドマークを検出し、予め定義された顔部位領域のうちの１つ以上に対応するランドマークが検出されない場合、顔映像に示された入力顔が部分顔であると決定する。反対に、顔映像に示された顔領域で予め定義された顔部位領域に対するランドマークが全て検出された場合、顔認証装置は、入力顔が部分顔ではなく全体顔であると決定する。入力顔が部分顔であると決定された場合、顔認証装置は検出されたランドマークに基づいて部分顔のタイプも決定する。例えば、顔認証装置は、眉毛及び目に対応するランドマークが検出されない場合には部分顔のタイプを第１タイプと決定し、あご及び唇に対応するランドマークが検出されない場合には部分顔のタイプを第２タイプと決定する。

上記の実施形態で、部分顔に対して定義されたタイプを第１タイプ及び第２タイプに仮定して説明したが、実施形態により部分顔のタイプは１つのみが存在するか、又は３つ以上に存在してもよい。

ステップＳ３４０において、入力顔が部分顔であると決定された場合、顔認証装置はステップＳ３５０において上記の決定に応答して基準映像と顔映像を合成して合成映像を生成する。一実施形態に係る顔認証装置は、検出された顔領域に基づいて基準映像の映像情報と顔映像の映像情報を合成することで合成映像を生成する。ここで、合成映像の生成に用いられる基準映像の映像情報は、部分顔が含まない情報である。言い換えれば、顔認証装置は全体顔に対応する顔領域として、ステップＳ３２０で検出された顔領域を除いた残りの顔領域に対応する映像情報を基準映像からもってくる。他の実施形態において、顔認証装置は、基準映像から複数のランドマークが検出されない顔領域に対応する対応領域の映像情報と顔映像の映像情報を合成することで合成映像を生成する。合成映像は、顔映像と基準映像それぞれの映像情報を含み、カメラの視野からズレて撮影されて入力映像に示されていない顔領域に対する映像情報は、基準映像の映像情報によって満たされる。上記の実施形態に係る映像情報は、映像に含まれたピクセルのピクセル値を示す。

一実施形態において、入力顔に示されていない顔領域に応じて合成に用いられる基準映像の領域が決定される。顔認証装置は、ランドマークの検出結果に基づいて部分顔のタイプを決定し、決定されたタイプに応じて合成に用いられる基準映像の領域を決定する。例えば、部分顔のタイプが第１タイプとして決定された場合、顔認証装置は、基準映像で第１タイプの決定に対応する第１対応領域の映像情報と顔映像の映像情報を合成して合成映像を生成する。異なる例として、部分顔のタイプが第２タイプとして決定された場合、顔認証装置は、基準映像で第２タイプの決定に対応する第２対応領域の映像情報と顔映像の映像情報を合成して合成映像を生成する。ここで、第１対応領域と第２対応領域はそれぞれ異なってもよい。

基準映像は、合成映像を生成するために用いられる予め定義された映像である。顔登録の過程でも同じ基準映像が合成映像を生成するために用いられる。一実施形態に係る基準映像は、特徴抽出器を学習させるために用いられる学習映像に基づいて決定され得る。例えば、基準映像は、学習映像の平均映像又は平均値映像であり得る。平均映像は、学習映像の間で互いに対応する位置で有するピクセル値を平均することによって生成される。平均値映像は、学習映像に含まれた全体ピクセルのピクセル値を平均し、平均ピクセル値を全体ピクセルに割り当てることで生成される。平均映像では、各ピクセルの位置に応じてピクセル値が変わり得るためその形態が示されるが、平均値映像では、全体ピクセルが全て同じピクセル値を有することからその形態が示されない。ただし、基準映像の例が上記の実施形態に限定されることなく、基準映像の形態は様々である。例えば、基準映像は学習映像に関係なく単色のカラー映像であってもよい。

ステップＳ３６０において、顔認証装置は、合成映像に基づいて認証成功の有無を決定する。ステップＳ３６０は、図４を参照して以下で説明する。図４を参照すると、ステップＳ４１０において、顔認証装置は、合成映像と基準映像との間の差分映像を生成する。差分映像は、合成映像と基準映像との間で互いに対応する位置におけるピクセル値差情報を含む。例えば、顔認証装置は、合成映像の各ピクセル値から基準映像の対応する位置のピクセル値を差し引くことによって差分映像を生成し得る。

ステップＳ４２０において、顔認証装置は、特徴抽出器を用いて入力顔に対する特徴を抽出する。特徴抽出器には差分映像の映像情報が入力され、特徴抽出器は、差分映像の映像情報に対応する特徴ベクトルを出力する。一例として、特徴抽出器は、部分顔のタイプそれぞれに対応する出力レイヤを含むニューラルネットワークモデルであってもよい。一例として、特徴抽出器の最上端レイヤである出力レイヤから出力された特徴ベクトル又は特徴抽出器の隠しレイヤから抽出された値と出力レイヤから抽出された値に基づいて決定された特徴ベクトルが、入力顔に対する特徴として抽出されてもよい。特徴抽出器は学習過程によって学習されるが、これについては図１４を参照して詳細に説明する。

ステップＳ４３０において、顔認証装置は、特徴抽出器によって抽出された特徴と登録特徴との間の比較結果に基づいて認証成功の有無を決定する。登録特徴は、顔登録の過程で登録された有効なユーザに対する特徴を示す。顔登録の過程で全体顔に対応する登録特徴及び予め定義された部分顔の各タイプに対応する登録特徴が登録される。一実施形態に係る顔認証装置は、予め登録された様々な登録特徴のうち部分顔のタイプに対応する登録特徴と抽出された特徴とを比較し、その比較結果に基づいて入力顔に対する認証成功の有無を決定する。

一例として、顔認証装置は、抽出された特徴と登録特徴との間の類似度を決定し、類似度に基づいて入力顔に示されたユーザが有効なユーザであるか否かを決定する。抽出された特徴と登録特徴との間の差が大きいほど類似度は小さくなり、当該の差が小さいほど類似度は大きくなる。顔認証装置は類似度が閾値より大きい場合に認証が成功したものと決定し、類似度が閾値以下である場合には認証が失敗したものと決定する。

再び図３を参照すると、ステップＳ３４０で入力顔が部分顔ではないと決定された場合、ステップＳ３７０において、顔認証装置は、顔映像に基づいて認証成功の有無を決定する。部分顔ではないという意味は、入力顔が全体顔であることを意味する。ステップＳ３７０は、図５を参照して以下で説明する。図５を参照すると、ステップＳ５１０において、顔認証装置は、顔映像と基準映像との間の差分映像を生成する。差分映像は、顔映像と基準映像との間で互いに対応する位置におけるピクセル値差情報を含む。

ステップＳ５２０において、顔認証装置は、特徴抽出器を用いて入力顔に対する特徴を抽出する。特徴抽出器には、ステップＳ５１０で生成された差分映像の映像情報が入力されてもよく、特徴抽出器は差分映像の映像情報に対応する特徴ベクトルを出力してもよい。図４に示すステップＳ４２０と類似の方式で差分映像から入力顔に対する特徴が抽出される。

ステップＳ５３０において、顔認証装置は、抽出された特徴と登録特徴との間の比較結果に基づいて認証成功の有無を決定する。顔認証装置は、登録特徴のうち全体顔に対応する登録特徴と抽出された特徴とを比較し、その比較結果に基づいて入力顔に対する認証成功の有無を決定する。図４に示すステップＳ４３０と類似の方式で、上記で抽出された特徴と登録特徴との間の類似度が決定され、類似度に基づいて認証成功の有無が決定される。

図６は、一実施形態に係る顔登録の過程と顔認証過程の一例を説明するための図である。

図６を参照すると、顔登録の過程６１０では、登録映像６１５から特徴が抽出され、抽出された特徴が登録特徴として格納される。一実施形態では、ユーザが顔登録のためにカメラを用いて自分の顔を撮影することで登録映像６１５が取得される。顔登録の過程６１０では、全体顔が撮影された登録映像６１５を用いてもよい。

図３に示すステップＳ３１０ないしステップＳ３３０と類似の過程により、登録映像６１５から全体顔に対応する正規化された登録映像６２５が取得される。ステップＳ３１０ないしステップＳ３３０の過程で「入力映像」が「登録映像６１５」に変わることを除いては、ステップＳ３１０ないしステップＳ３３０の処理過程がそのまま適用される。

また、正規化された登録映像６２５と基準映像６２０に基づいて１つ以上の合成映像６３０が生成される。実施形態により、合成映像６３０は１つのみが生成されてもよく、各部分顔のタイプに対応する合成映像６３０が生成されてもよい。合成映像６３０は、部分顔の各タイプに応じて登録映像６２５で一部領域が基準映像の映像情報に代替された合成映像であり得る。一例として、基準映像６２０は、特徴抽出器を学習するために用いられた学習映像の平均映像又は平均値であってもよい。特徴抽出器を用いて正規化された登録映像６２５及び合成映像６３０（合成映像が複数である場合、各合成映像）に対応する特徴が抽出６３５され、抽出された各特徴は登録特徴として格納６４０される。ここで、登録映像６２５に対応する特徴及び合成映像６３０に対応する特徴が互いに区別されて格納される。

顔認証過程６５０では、入力映像６６０から抽出された特徴と顔登録の過程６１０で登録された特徴との間の比較結果に基づいて顔認証が実行される。一実施形態では、顔認証装置が顔認証の対象である入力映像６６０を受信すると、顔認証装置は入力映像６６０から顔領域を検出し、顔領域に示された入力顔が部分顔であるか否かを決定する。図６では、入力映像に示された顔領域で口領域が除外されているため、入力顔が部分顔であると決定される。この場合、顔認証装置は、検出された顔領域の顔映像と顔登録の過程６１０で用いられた基準映像６２０に基づいて合成映像６７０を生成する。入力映像６６０から合成映像６７０が生成される過程については、図３に示すステップＳ３１０ないしステップＳ３５０の過程を参照する。

顔認証装置は、顔登録の過程６１０で用いられた特徴抽出器を用いて合成映像６７０から入力顔に対する特徴を抽出６８０する。その後、顔認証装置は、抽出された特徴と登録特徴とを比較し、その比較結果に基づいて認証成功の有無を判断６８５する。一実施形態では、抽出された特徴と比較される登録特徴は、入力映像６６０に示された入力顔の形態に基づいて決定される。例えば、入力映像６６０のように口領域が除外した場合には、顔登録の過程６１０で合成映像６３０のうち最初の合成映像（口領域が基準映像６２０の映像情報に代替された合成映像）に基づいて抽出された登録特徴が入力映像６６０から抽出された特徴と比較される。

他の実施形態において、顔登録の過程６１０で１つの合成映像６３０のみが生成され、当該の合成映像６３０から抽出された特徴が部分顔に対応する特徴として登録された場合、入力映像６６０に示された入力顔が部分顔であると決定されれば、上記の合成映像６３０と同じ合成形態に顔認証のための合成映像６７０が生成される。例えば、顔登録の過程６１０の合成映像６３０が顔の下側の部分（例えば、口領域を含む部分）を基準映像６２０の映像情報に代替されることによって生成されたものであれば、顔認証過程６５０で生成される合成映像６７０も顔の下側の部分が基準映像６２０の映像情報に代替される合成形態を有する。

図７Ａないし図７Ｄは、一実施形態に係る顔登録の過程で登録特徴を抽出する一例を説明するための図である。

図７Ａを参照すると、顔登録の過程で登録映像６１５に示された顔を登録するために特徴抽出器７４０を用いて登録映像６１５から登録特徴が抽出される。ここで、登録映像６１５から全体顔に対応する正規化された映像７０５、及び登録映像６１５（又は映像７０５）と基準映像６２０に基づいて合成映像７１０、７１５、７２０、７２５、７３０が生成される。合成映像７１０、７１５、７２０、７２５、７３０のそれぞれは部分顔の各タイプに対応する。

特徴抽出器７４０には、映像７０５と基準映像６２０との間の差分映像が入力され、特徴抽出器７４０は映像７０５に対応する第１特徴を出力する。また、特徴抽出器７４０には各合成映像７１０、７１５、７２０、７２５、７３０と基準映像６２０との間の差分映像が個別的又は同時に入力され、特徴抽出器７４０は各合成映像７１０、７１５、７２０、７２５、７３０に対応する特徴を出力する。例えば、合成映像７１０と基準映像６２０との間の差分映像が特徴抽出器７４０に入力されれば、特徴抽出器７４０から合成映像７１０の部分顔のタイプに対応する第２特徴が出力される。第１特徴は全体顔に対応する特徴であり、第２特徴ないし第６特徴は部分顔の各タイプに対応する特徴である。

合成映像７２０、７２５、７３０の場合、顔の左側領域が基準映像６２０の映像情報として合成されている。本実施形態では、上記の合成映像７２０、７２５、７３０の合成形態と左右対称的な合成形態を有する合成映像から特徴を抽出しない。例えば、合成映像７２０は、顔の左側領域が基準映像６２０の映像情報に合成されるが、顔の右側領域が基準映像６２０の映像情報に合成される合成映像を生成して当該の合成映像から特徴を抽出しない。顔認証の対象である入力顔が顔の右側領域が示されない部分顔であっても、映像処理によって入力顔を顔の左側領域が示されない部分顔に変形させ得るためである。例えば、入力顔を左右反転させることで上記のような変形された部分顔が取得され得る。これは顔の形態が略左右対称であることに起因する。左右反転した部分顔の映像から特徴が抽出され、抽出された特徴を合成映像７２０から抽出された登録特徴と比較することで、同一タイプの部分顔に対する特徴比較が可能になる。もちろん、実施形態によって合成映像７２０、７２５、７３０の合成形態と左右対称的な合成形態を有する追加的な合成映像をさらに生成し、生成された合成映像から顔登録のための特徴を抽出することも可能である。

他の実施形態によると、特徴抽出器は、図７Ｂに示すように全体顔と部分顔の各タイプに応じて互いに個別的に存在し得る。例えば、映像７０５に基づいて全体顔に対応する特徴を抽出する第１特徴抽出器７５０と、合成映像７１０、７１５、７２０、７２５、７３０に基づいて部分顔の各タイプに対応する特徴を抽出する特徴抽出器７５２、７５４、７５６、７５８、７６０が個別的に存在してもよい。

更なる実施形態によると、特徴抽出器は図７Ｃに示すように、共通特徴抽出器７６２と個別的な特徴抽出器７６４、７６６、７６８、７７０、７７２、７７４から構成されてもよい。共通特徴抽出器７６２と特徴抽出器７６４、７６６、７６８、７７０、７７２、７７４は互いに接続されている。共通特徴抽出器７６２から出力された中間特徴が特徴抽出器７６４、７６６、７６８、７７０、７７２、７７４に伝達され、各特徴抽出器７６４、７６６、７６８、７７０、７７２、７７４からは全体顔又は部分顔の各タイプに対応する特徴が出力される。例えば、映像７０５と基準映像６２０との間の差分映像が共通特徴抽出器７６２に入力されれば、共通特徴抽出器７６２から当該の差分映像に対応する中間特徴が出力され、出力された中間特徴は第１特徴抽出器７６４に伝達される。第１特徴抽出器７６４は、共通特徴抽出器７６２から伝達された中間特徴に基づいて映像７０５に対応する第１特徴を出力する。

異なる例として、合成映像７１０と基準映像６２０との間の差分映像が共通特徴抽出器７６２に入力されれば、共通特徴抽出器７６２から当該の差分映像に対応する中間特徴が出力され、出力された中間特徴は第２特徴抽出器７６６に伝達される。第２特徴抽出器７６６は、共通特徴抽出器７６２から伝達された中間特徴に基づいて合成映像７１０に対応する第２特徴を出力する。一実施形態では、共通特徴抽出器７６２と個別的な特徴抽出器７６４、７６６、７６８、７７０、７７２、７７４は１つのニューラルネットワークモデルに実現され得る。ここで、共通特徴抽出器７６２は、畳み込みレイヤ及び完全接続レイヤ（ｆｕｌｌｙｃｏｎｎｅｃｔｅｄｌａｙｅｒ）のうちの１つ以上を含み、特徴抽出器７６４、７６６、７６８、７７０、７７２、７７４のそれぞれは完全接続レイヤを含む。

図７Ａないし図７Ｃで、部分顔のタイプの個数は図示したものに限定されることなく、実施形態によって部分顔のタイプは１つ以上であってもよい。部分顔のタイプが１つの実施形態が図７Ｄに図示されている。

図７Ｄを参照すると、顔登録の過程で登録映像６１５に示された顔を登録するための特徴が抽出される。登録映像６１５から全体顔に対応する正規化された映像７０５と登録映像６１５（又は、映像７０５）と基準映像６２０に基づいて合成映像７１０が生成される。本実施形態では、合成映像７１０で顔の下側の部分が基準映像６２０の映像情報に合成されている。映像７０５と基準映像６２０との間の差分映像が共通特徴抽出器７８０に入力され、共通特徴抽出器７８０から映像７０５に対応する中間特徴が出力される。出力された中間特徴は第１特徴抽出器７８２に入力され、第１特徴抽出器７８２は、入力された中間特徴に基づいて全体顔に対応する第１特徴を出力する。また、合成映像７１０と基準映像６２０との間の差分映像が共通特徴抽出器７８０に入力され、共通特徴抽出器７８０から合成映像７１０に対応する中間特徴が出力される。出力された中間特徴は第２特徴抽出器７８４に入力され、第２特徴抽出器７８４は、入力された中間特徴に基づいて部分顔に対応する第２特徴を出力する。図７Ｃに示す実施形態と同様に、共通特徴抽出器７８０と個別的な特徴抽出器７８２、７８４は１つのニューラルネットワークモデルに実現され得る。

図７Ａないし図７Ｄを参照して説明された特徴抽出器の構造は、顔認証過程で用いてもよい。ここで、特徴抽出器の構造は、１つ以上のニューラルネットワークモデルに実現されてもよく、特徴抽出器は、顔認証を行うためのコンピューティング装置に含まれてもよい。

もし、顔登録の過程で登録特徴を抽出するために図７Ａに示された特徴抽出器７４０が利用されれば、当該の特徴抽出器７４０に基づいて顔認証過程が実行される。又は、顔登録の過程で図７Ｂに示された特徴抽出器７５０、７５２、７５４、７５６、７５８、７６０が利用されれば、顔認証過程でも当該の特徴抽出器７５０、７５２、７５４、７５６、７５８、７６０が同一に用られる。顔映像に示された入力顔が全体顔情報を含む場合、顔映像に対する映像情報は第１特徴抽出器７５０に入力され、第１特徴抽出器７５０から抽出された特徴に基づいて顔認証が実行される。顔映像に示された入力顔が部分顔情報を含む場合、部分顔のタイプに応じて第２ないし第６特徴抽出器７５２、７５４、７５６、７５８、７６０のうち用いられる特徴抽出器が選択され得る。その後、選択された特徴抽出器に顔映像の映像情報が伝達され、当該の特徴抽出器から抽出された特徴に基づいて顔認証が実行される。

登録特徴を抽出するために、図７Ｄに示された共通特徴抽出器７８０と第１及び第２特徴抽出器７８２、７８４が利用されれば、当該の共通特徴抽出器７８０と第１及び第２特徴抽出器７８２、７８４に基づいて顔認証過程が実行される。共通特徴抽出器７８０は顔映像が入力されて中間特徴を出力し、第１及び第２特徴抽出器７８２、７８４に接続される。第１特徴抽出器７８２は全体顔に対応する特徴を抽出し、第２特徴抽出器７８４は部分顔に対応する特徴を抽出する。第１特徴抽出器７８２は顔映像がユーザの全体顔情報を含む場合、共通特徴抽出器７８０から中間特徴が入力されて顔認証に用いられる特徴を抽出する。第２特徴抽出器７８４は顔映像がユーザの部分顔情報を含む場合、共通特徴抽出器７８０から中間特徴が入力されて顔認証に用いられる特徴を抽出する。共通特徴抽出器７８０は、例えば、畳み込みレイヤ及び完全接続レイヤのうちの１つ以上を含み、第１及び第２特徴抽出器７８２、７８４のそれぞれは完全接続レイヤを含んでもよい。部分顔に対応する特徴を抽出する第２特徴抽出器７８４は、図７Ｃに示された一例のように、複数の特徴抽出器７６６、７６８、７７０、７７２、７７４から構成されてもよい。ここで、特徴抽出器７６６、７６８、７７０、７７２、７７４のそれぞれは、互いに異なるタイプの部分顔映像に対して顔認証に用いられる特徴を抽出し得る。

図８Ａ及び図８Ｂは、一実施形態に係る顔認証過程で合成映像を生成する一例を説明するための図である。

図８Ａを参照すると、入力映像８１０が顔認証装置に入力されれば、顔認証装置は入力映像８１０から顔領域８１５を検出する。

一実施形態に係る顔認証装置は、顔領域８１５が入力映像８１０の境界のうち一部分を含むか否か、又は顔領域８１５が入力映像８１０からズレているか否かに基づいて入力映像８１０に示された入力顔が部分顔であるか否かを決定する。本実施形態では、顔領域８１５が入力映像８１０の境界を含み、また、検出された顔領域８１５を定義するための位置値のうち一部の位置値が入力映像８１０からズレて存在するため、入力顔が部分顔として決定される。他の実施形態において、顔認証装置は、顔領域８１５内から顔のランドマーク８２０を検出し、ランドマーク８２０の検出結果に基づいて入力顔が部分顔であるか否かを決定してもよい。本実施形態に係る顔認証装置は、顔領域８１５内で口領域に対応するランドマークが検出されないため、入力顔が部分顔であると決定する。

顔認証装置は、検出されたランドマーク８２０の位置に基づいて入力映像８１０を正規化する。正規化過程は入力映像８１０から顔領域を抽出し、ランドマーク８２０の位置を予め定義された基準位置にマッチングさせる過程を含む。

顔映像８４０に示された入力顔が部分顔であると判断された場合、顔認証装置は、基準映像８５０を用いて合成映像８６０を生成する過程８３０を行う。ここで、基準映像８５０は、特徴抽出器を学習するために用いられた学習映像の平均映像であってもよい。一実施形態に係る顔認証装置は、検出された顔領域８１５の位置又はランドマーク８２０の検出結果に基づいて、検出された顔領域を示す顔映像８４０に示された部分顔のタイプを決定する。決定された部分顔のタイプに応じて、基準映像８５０で顔映像８４０と合成される領域が決定される。顔認証装置は、基準映像８５０で顔映像８４０に示されていない顔領域８４５に対応する対応領域８５５の映像情報と顔映像８４０の映像情報を合成することで合成映像８６０を生成する。ここで、合成が行われる境界は必ず直線である必要はなく、実施形態に応じて当該の境界形態は曲線又は多角形であってもよい。合成映像８６０は、顔映像８４０の映像情報を示す領域８６５と基準映像８５０の映像情報を示す領域８７０を含む。

合成映像８６０が生成された後、合成映像８６０と基準映像８５０との間の差分映像が特徴抽出のための特徴抽出器に入力される。合成映像８６０ではない、部分顔が示された顔映像８４０と基準映像８５０との間の差分映像が特徴抽出に用いられる場合、当該の差分映像で顔領域８４５に対応する領域は基準映像８５０の映像情報によってノイズとして作用し、これは顔認証の正確度を低下させる要因となる。しかし、本実施形態のように、合成映像８６０と基準映像８５０との間の差分映像を用いる場合、差分映像で顔領域８４５に対応する領域の映像情報が合成映像８６０と基準映像８５０との間の差分過程によって相殺されてノイズが発生しない。したがって、顔認証装置は、部分顔が入力されても顔認証の正確度を高く保持することができる。

一実施形態に係る基準映像８５０は、図８Ａに示すように学習映像の平均映像、又は図８Ｂに示すように学習映像の平均値映像又は全体ピクセルが同一のピクセル値を有する映像であり得る。図８Ｂを参照すると、平均値映像である基準映像８８０に基づいて合成映像８９０が生成される一例が示されている。基準映像８８０は、学習映像の全体ピクセルが有しているピクセル値を平均した平均値を全体ピクセルに割り当てることで生成された映像である。顔認証装置は、基準映像８８０で顔映像８４０に示されない顔領域８４５に対応する対応領域８８５の映像情報と顔映像８４０の映像情報を合成することで合成映像８９０を生成する。

図９は、一実施形態に係る部分顔のタイプに応じる合成映像の一例を示す図である。

図９を参照すると、入力映像に示された部分顔のタイプに応じて互いに異なる形態に合成映像が生成される。入力映像９１２、９１４、９１６、９１８、９２０のように、部分顔の形態は様々である。例えば、入力映像９１２のよう入力顔に口領域が示されないか、又は入力映像９１４のよう入力顔に眉毛上の顔領域が示されないことがある。顔認証装置はこのような部分顔のタイプを区別し、部分顔のタイプに基づいて基準映像９１０と各入力映像９１２、９１４、９１６、９１８、９２０を合成して合成映像９２２、９２４、９２６、９２８、９３０を生成する。部分顔のタイプに応じて各合成映像９２２、９２４、９２６、９２８、９３０に反映される基準映像９１０の領域が決定される。

ただし、顔認証で部分顔に対応する合成映像の合成形態は図９に示す実施形態に限定されることなく、合成映像の合成形態は１つであってもよく、複数であってもよい。例えば、合成映像の合成形態が合成映像９２２のように顔の下側の部分を基準映像の映像情報に合成するのみであると仮定すれば、入力映像に示された入力顔が部分顔であると決定される場合、顔認証装置は部分顔の形態に関係なく、入力映像に示された入力顔の下側の部分を基準映像の映像情報に合成する合成形態に合成映像を生成する。

図１０は、他の実施形態に係る顔認証方法を説明するためのフローチャートである。

いずれかの実施形態が相違する形態実現可能な場合に特定ステップの機能又は動作がフローチャートと相違して実行されてもよい。例えば、図１０で連続する２つのステップが実際には実質的に同時に実行されてもよく、関連する機能又は動作に応じて当該のステップの順が変えて実行されてもよい。

一実施形態によると、顔認証装置は、顔認証過程で入力映像に示された閉塞領域をさらに考慮する。閉塞領域は、遮蔽領域又は被覆領域などと言及されても良い。閉塞領域は、例えば、メガネ、サングラス、マスク、又はヘアーバンドなどによって入力顔が遮られた領域である。このような閉塞領域は、入力映像に示された入力顔からユーザの固有な特徴を抽出することを妨害し、顔認証の正確度を低下させる要因となる。顔認証装置は、入力映像に閉塞領域が存在するか否かを判断し、閉塞領域が存在する場合には当該の閉塞領域の映像情報を基準映像の映像情報に代替して顔認証を行う。本実施形態のための顔認証方法について以下で説明する。

図１０を参照すると、ステップＳ３４０で顔認証装置は、顔映像に示された入力顔が部分顔であるか否かを決定する。図３のステップＳ３１０からステップＳ３４０までの内容はそのまま含まれる。入力顔が部分顔であると決定された場合、ステップＳ１０１０において、顔認証装置は顔映像に示された入力顔に閉塞領域が存在するか否かを決定する。

閉塞領域が存在すると決定された場合、ステップＳ１０２０において、顔認証装置は、基準映像で部分顔のタイプに対応する第１対応領域の映像情報、閉塞領域に対応する第２対応領域の映像情報、及び顔映像の映像情報を合成することで合成映像を生成する。一例として、顔認証装置は、顔映像に基準映像の第１対応領域の映像情報を結合させ、顔映像から検出された閉塞領域の映像情報を基準映像の第２対応領域の映像情報に代替することで合成映像を生成する。実施形態により第１対応領域と第２対応領域は互いに重なってもよい。

ステップＳ１０１０において、閉塞領域が存在しないと決定された場合、ステップＳ１０３０において、顔認証装置は基準映像で部分顔のタイプに対応する第１対応領域の映像情報と顔映像の映像情報を合成することで合成映像を生成する。この過程は、図３のステップＳ３５０、図８Ａ、図８Ｂ、及び図９などの実施形態で説明した合成映像を生成する過程と同一である。

ステップＳ３４０で入力顔が部分顔ではないと決定された場合、ステップＳ１０４０において、顔認証装置は、顔映像に示された入力顔に閉塞領域が存在するか否かを決定する。閉塞領域が存在すると決定された場合、ステップＳ１０５０において、顔認証装置は、基準映像で閉塞領域に対応する第２対応領域の映像情報と顔映像の映像情報を合成することで合成映像を生成する。顔認証装置は、顔映像で閉塞領域の映像情報を基準映像の第２対応領域の映像情報に代替することによって合成映像を生成する。

上記のステップＳ１０２０、ステップＳ１０３０、又はステップＳ１０５０で合成映像が生成されれば、ステップＳ１０６０において、顔認証装置は、合成映像に基づいて認証成功の有無を決定する。この過程は、図３に示すステップＳ３６０の過程と同一である。

ステップＳ１０４０で閉塞領域が存在しないと決定された場合、ステップＳ１０７０において、顔認証装置は顔映像に基づいて認証成功の有無を決定する。この場合、入力映像に閉塞領域が存在することなく全体顔が示されたものとして、ステップＳ１０７０は図３に示すステップＳ３７０の過程と同一である。

上記のように顔認証方法を実施する場合、閉塞領域の有無による認識率の低下を防止することができる。本実施形態の場合、顔登録の過程でも登録映像から閉塞領域を検出し、閉塞領域が存在する場合には閉塞領域を基準映像の映像情報に代替して合成映像を生成した後、当該の合成映像から登録特徴が抽出される。実施形態により、登録映像に実際に閉塞領域が存在しなくても、登録映像に様々な形態の閉塞領域が存在するものと仮定して、各閉塞領域のタイプに対応する合成映像を生成した後、当該の合成映像から登録特徴を抽出してもよい。

図１１は、一実施形態に係る入力映像に閉塞領域が存在する場合に合成映像を生成する一例を説明するための図である。

図１１を参照すると、顔認証装置は、顔映像１１１０に示された入力顔が部分顔である場合、顔映像１１１０に示されていない顔領域１１１４に対応する基準映像１１２０の第１対応領域１１２４の映像情報を顔映像１１１０に付加する。一方、顔映像１１１０にメガネ１１１２の閉塞領域が存在している。顔認証装置は、顔映像１１１０からメガネ１１１２を検出した場合、メガネ１１１２が示された領域に対応する基準映像１１２０の第２対応領域１１２２の映像情報に代替する。このような過程により生成された合成映像１１３０は、顔映像１１１０の映像情報１１３５、基準映像１１２０の第１対応領域の映像情報１１４５、及び基準映像１１２０の第２対応領域の映像情報１１４０から構成される。

図１２は、一実施形態に係る顔認証装置の構成を示す図である。

図１２を参照すると、顔認証装置１２００は、顔認証のための入力映像を受信する。顔認証装置１２００は、入力映像から抽出された特徴とデータベース１２３０に予め格納された登録特徴間の比較結果に基づいて認証成功の有無を決定する。有効なユーザは、顔登録の過程によって自分の顔に対する特徴又は映像を予め登録し、このように登録された情報はデータベース１２３０に格納され得る。

顔認証装置１２００は、顔認証方法に関して本明細書に記述されたり又は示された１つ以上の動作を実行し、顔認証の結果をユーザに提供する。顔認証装置１２００は、顔認証の結果を音声、振動、字、絵又は動画などの形態に出力するが、実施への範囲がこれに限定されることなく、顔認証装置１２００は様々な形態で認証結果を出力することができる。

顔認証装置１２００は、１つ以上のプロセッサ１２１０及びメモリ１２２０を含む。メモリ１２２０はプロセッサ１２１０に接続され、プロセッサ１２１０によって実行可能な命令、プロセッサ１２１０が演算するデータ又はプロセッサ１２１０によって処理されたデータを格納する。メモリ１２２０は、非一時的なコンピュータで読み出し可能な記録媒体、例えば、高速ランダムアクセスメモリ及び／又は不揮発性コンピュータ読み出し可能な格納媒体（例えば、１つ以上のディスク格納装置、フラッシュメモリ装置、又はその他の不揮発性固体メモリ装置）を含む。

プロセッサ１２１０は、図１ないし図１１を参照して説明された１つ以上の動作を実行するための命令を実行する。例えば、プロセッサ１２１０は、入力映像から顔領域を検出し、検出された顔領域に示された入力顔が部分顔であるか、そうでなければ全体顔であるか否かを決定する。例えば、プロセッサ１２１０は、検出された顔領域が入力映像の境界のうち一部分を含む場合、又は検出された顔領域が入力映像からズレる場合、入力顔が部分顔であると決定する。プロセッサ１２１０は、検出された顔領域が入力映像の境界を含んでいないか、又は検出された顔領域が入力映像からズレることなく入力映像の内部に含まれる場合には、入力顔が全体顔であると決定する。異なる例として、プロセッサ１２１０は、予め定義された顔部位領域のうちの１つ以上に対応するランドマークが検出されない場合、入力顔が部分顔であると決定する。反対に、プロセッサ１２１０は、予め定義された顔部位領域の全てに対応するランドマークが検出された場合、入力顔が全体顔であると決定する。

入力顔が部分顔であると決定された場合、プロセッサ１２１０は、基準映像と顔映像を合成して合成映像を生成する。一例として、プロセッサ１２１０は、上記のランドマークが検出されない顔領域に対応する基準映像の対応領域の映像情報と顔映像の映像情報を合成することで合成映像を生成する。他の実施形態に係るプロセッサ１２１０は、顔映像に示された入力顔に閉塞領域が存在するか否かを決定し、閉塞領域が存在すると決定された場合、基準映像で当該の閉塞領域に対応する対応領域の映像情報と顔映像の映像情報を合成することで合成映像を生成する。プロセッサ１２１０は、特徴抽出器を用いて合成映像から入力顔に対する特徴を抽出し、抽出された特徴と登録特徴とを比較し、その比較の結果に基づいて認証成功の有無を決定する。プロセッサ１２１０は、入力顔が部分顔でないという決定（すなわち、入力顔が全体顔という決定）に応答して、特徴抽出器を用いて顔映像から入力顔に対する特徴を抽出し、抽出された特徴と登録特徴とを比較してその比較の結果に基づいて認証成功の有無を決定することができる。

図１３は、一実施形態に係るコンピューティング装置の構成を示す図である。

図１３を参照すると、コンピューティング装置１３００は、ユーザの顔が示された映像を取得し、取得された映像から抽出した特徴を予め格納された登録特徴と比較する過程により顔認証過程を行う。コンピューティング装置１３００は、図１に示すコンピューティング装置１２０に対応し、機能的に図１２に示す顔認証装置１２００の機能を含む。

コンピューティング装置１３００は、プロセッサ１３１０、メモリ１３２０、カメラ１３３０、格納装置１３４０、入力装置１３５０、出力装置１３６０、及びネットワークインターフェース１３７０を含む。プロセッサ１３１０、メモリ１３２０、カメラ１３３０、格納装置１３４０、入力装置１３５０、出力装置１３６０、及びネットワークインターフェース１３７０は、通信バス１３８０を介して通信する。

カメラ１３３０は、静画、ビデオ映像、又はその全てをキャプチャーする。カメラ１３３０は、ユーザが顔認証を試みるために入力する顔領域をキャプチャーしてユーザの顔映像を取得する。

プロセッサ１３１０は、コンピューティング装置１３００内で実行するための機能及び命令を実行する。例えば、プロセッサ１３１０は、メモリ１３２０又は格納装置１３４０に格納された命令を処理する。プロセッサ１３１０は、図１ないし図１２を参照して前述した１つ以上の動作を行ってもよい。例えば、プロセッサ１３１０は、カメラ１３３０によって取得された顔映像と登録された顔映像とを比較して顔認証を行ってもよい。プロセッサ１３１０は、取得された顔映像がユーザの全体顔情報を含まなくても顔認証を行うことができる。プロセッサ１３１０は、取得された顔映像がユーザの部分顔情報を含む場合、部分顔情報のタイプに基づいて顔映像と予め定義された基準映像との間の合成映像を生成し、生成された合成映像に基づいて顔認証を行う。

メモリ１３２０は、顔認証過程のための情報を格納する。メモリ１３２０は、コンピュータ読み出し可能な格納媒体又はコンピュータ読み出し可能な格納装置を含む。例えば、メモリ１３２０は、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｉｅｓ）、ＤＲＡＭ（ｄｙｎａｍｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｉｅｓ）、ＳＲＡＭ（ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｉｅｓ）、又はこの技術分野で知られた異なる形態の不揮発性メモリを含んでもよい。メモリ１３２０は、プロセッサ１３１０によって実行するための命令を格納し、コンピューティング装置１３００によってソフトウェア又はアプリケーションが実行される間に関連情報を格納する。

格納装置１３４０は、コンピュータで読み出し可能な格納媒体又はコンピュータ読み出し可能な格納装置を含む。格納装置１３４０は、登録特徴又は登録映像を含むデータベースを格納する。一実施形態によると、格納装置１３４０は、メモリ１３２０よりも多くの量の情報を格納し、情報を長期間格納し得る。例えば、格納装置１３４０は、磁気ハードディスク、光ディスク、フラッシュメモリ、電気的にプログラミング可能なメモリ（ＥＰＲＯＭ）、フロッピーディスク、又はこの技術分野で知られた他の形態の不揮発性メモリを含んでもよい。

入力装置１３５０は、触覚、ビデオ、オーディオ、又はタッチ入力によってユーザから入力を受信する。例えば、入力装置１３５０は、キーボード、マウス、タッチスクリーン、マイクロホン、又は、ユーザから入力を検出し、検出された入力をコンピューティング装置１３００に伝達できる任意の他の装置を含む。

出力装置１３６０は、視覚的、聴覚的、又は触覚的なチャネルを介してユーザにコンピューティング装置１３００の出力を提供する。例えば、出力装置１３６０は、顔認証に関する情報を視角化してユーザに提供する。出力装置１３６０は、例えば、液晶ディスプレイ、ＬＥＤ（ｌｉｇｈｔｅｍｉｔｔｉｎｇｄｉｏｄｅ）ディスプレイ、タッチスクリーン、スピーカ、振動発生装置又はユーザに出力を提供できる任意の他の装置を含む。一実施形態に係るコンピューティング装置１３００は、顔認証が実行される間にユーザが見る表示画面にカメラ１３３０によって取得された顔映像（プレビュー映像）を表示してもよく、当該の顔映像を表示しなくてもよい。

ネットワークインターフェース１３７０は、有線又は無線ネットワークを介して外部装置と通信する。例えば、ネットワークインターフェース１３７０は、イーサネット（登録商標）カード、光学トランシーバー、無線周波数トランシーバー又は情報を送受信する任意の他のネットワークインターフェースカードを含んでもよい。ネットワークインターフェース１３７０は、ブルートゥース（登録商標（Ｂｌｕｅｔｏｏｔｈ））、ワイファイ（ＷｉＦｉ）、３Ｇ又は４Ｇなどの通信方式を用いて外部装置と無線で通信する。

図１４は、一実施形態に係る学習装置の構成を示す図である。

図１４を参照すると、学習装置１４００は、顔認証で用いられる特徴抽出器１４３０を学習させる装置である。一例として、特徴抽出器１４３０は、入力値に対応する結果値を出力するニューラルネットワークモデルであって、学習映像と基準映像に基づいて学習される。ここで、基準映像は、上記の顔登録の過程及び顔認証過程で説明された基準映像と同一である。

学習装置１４００は、１つ以上のプロセッサ１４１０及びメモリ１４２０を含む。メモリ１４２０はプロセッサ１４１０に接続され、プロセッサ１４１０によって実行可能な命令、プロセッサ１４１０が演算するデータ又はプロセッサ１４１０によって処理されたデータを格納する。

学習映像が学習装置１４００に入力されれば、プロセッサ１４１０は学習映像から顔領域を検出し、検出された顔領域に示された顔が部分顔又は全体顔であるか否かを判断する。学習映像に示された顔が部分顔と判断された場合、プロセッサ１４１０は、部分顔にタイプに基づいて学習映像の映像情報に基準映像の映像情報を合成して合成映像を生成し、特徴抽出器１４３０を用いて合成映像から特徴を抽出する。この過程には、本明細書で説明された顔認証過程に説明された内容がそのまま適用される。一例として、プロセッサ１４１０は、特徴抽出器１４３０によって抽出された特徴と意図した特徴との間の差による損失）を算出し、算出された損失が減少するように特徴抽出器１４３０を構成しているパラメータを調整することによって特徴抽出器１４３０を学習させ得る。

学習装置１４００は、複数の学習映像それぞれに対して上記の過程を繰り返し行って特徴抽出器１４３０のパラメータを次第に好ましい方向に調整することができる。

以上述した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組合せで具現される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は特殊目的コンピュータを用いて具現される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者は、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。また、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組合せを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組合せて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述したように実施形態をたとえ限定された図面によって説明したが、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び／又は説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。

１２００：顔認証装置
１２１０、１３１０、１４１０：プロセッサ
１２２０、１３２０、１４２０：メモリ
１２３０：データベース
１２０、１３００：コンピューティング装置
１３０、１３３０：カメラ
１３４０：格納装置
１３５０：入力装置
１３６０：出力装置
１３７０：ネットワークインターフェース
１３８０：通信バス
１４００：学習装置
１４３０：特徴抽出器

Claims

顔認証装置が実行する顔認証方法であって、
入力映像から顔領域を検出するステップと、
前記顔領域に示された入力顔が部分顔であるか否かを決定するステップと、
前記入力顔が部分顔であるという決定に応答して、基準映像と前記顔領域の顔映像を合成して合成映像を生成するステップと、
前記合成映像に基づいて認証の成否を決定するステップと、
を含み、前記認証の成否を決定するステップは、
特徴抽出器を用いて前記入力顔に対する特徴を抽出するステップと、
予め登録された登録特徴のうち前記部分顔のタイプに対応する登録特徴と前記抽出された特徴との間の比較結果に基づいて認証の成否を決定するステップと、
を含み、前記部分顔のタイプは、顔のうち欠けている部位に応じて予め定義されている複数のタイプの中から決定される、顔認証方法。
前記入力顔が部分顔であるか否かを決定するステップは、前記入力映像から検出された前記顔領域の位置に基づいて前記入力顔が部分顔であるか否かを決定する、請求項１に記載の顔認証方法。
前記入力顔が部分顔であるか否かを決定するステップは、前記検出された顔領域が前記入力映像の境界のうち一部分を含む場合、前記入力顔が部分顔であると決定する、請求項２に記載の顔認証方法。
前記合成映像を生成するステップは、
前記検出された顔領域に基づいて前記基準映像の映像情報と前記顔映像の映像情報を合成することで前記合成映像を生成し、
前記基準映像の映像情報は、全体顔に対応する顔領域から前記検出された顔領域を除いた残りの顔領域に対応する領域の映像情報である、請求項２に記載の顔認証方法。
前記入力顔が部分顔であるか否かを決定するステップは、
前記顔領域から顔のランドマークを検出するステップと、
前記検出された顔領域から、予め定義された顔部位領域のうち少なくとも１つに対応するランドマークが検出されない場合、前記入力顔が部分顔であると決定するステップと、
を含む、請求項１に記載の顔認証方法。
前記合成映像を生成するステップは、前記ランドマークが検出されない顔領域に対応する前記基準映像の対応領域の映像情報と前記顔映像の映像情報を合成することで前記合成映像を生成する、請求項５に記載の顔認証方法。
前記ランドマークが検出されない顔部位領域に基づいて前記対応領域の位置及び形態が決定される、請求項６に記載の顔認証方法。
前記基準映像は、前記特徴抽出器の学習に使用された学習映像の平均映像である、請求項１ないし７のうちの何れか一項に記載の顔認証方法。
前記部分顔のタイプは、予め定義された顔部位領域のうち少なくとも１つに対応するランドマークの検出結果に基づいて決定される、請求項１に記載の顔認証方法。
前記特徴抽出器には、前記合成映像と前記基準映像との間の差分映像の映像情報が入力される、請求項１に記載の顔認証方法。
前記特徴抽出器は、前記部分顔のタイプそれぞれに対応する出力レイヤを含むニューラルネットワークモデルである、請求項１に記載の顔認証方法。
前記登録特徴は、予め定義された部分顔のタイプそれぞれに対応する登録特徴を含む、請求項１に記載の顔認証方法。
前記基準映像は、前記合成映像から特徴を抽出するために用いられる特徴抽出器をトレーニングするために用いられた学習映像に基づいて決定された映像である、請求項１ないし１２のうちの何れか一項に記載の顔認証方法。
前記入力顔が部分顔でないという決定に応答して、前記顔映像に基づいて認証の成否を決定するステップをさらに含む、請求項１ないし１３のうちの何れか一項に記載の顔認証方法。
前記顔映像に基づいて認証の成否を決定するステップは、
前記顔映像と前記基準映像との間の差分映像に基づいて前記入力顔に対する特徴を抽出するステップと、
前記抽出された特徴と登録特徴のうち全体顔に対応する登録特徴との間の比較結果に基づいて認証の成否を決定するステップと、
含む、請求項１４に記載の顔認証方法。
前記顔映像に示された入力顔に閉塞領域が存在するか否かを決定するステップと、
前記閉塞領域が存在するという決定に応答して、前記基準映像で前記閉塞領域に対応する対応領域の映像情報と前記顔映像の映像情報を合成することで合成映像を生成するステップと、
をさらに含む、請求項１ないし１５のうちの何れか一項に記載の顔認証方法。
前記顔領域から顔のランドマークを検出するステップと、
前記検出されたランドマークの位置に基づいて前記入力映像に示された顔領域を調整するステップと、
をさらに含む、請求項１に記載の顔認証方法。
請求項１～請求項１７のうちいずれか一項に記載の顔認証方法を前記顔認証装置のコンピュータに実行させるコンピュータプログラム。
プロセッサを含む顔認証装置であって、
前記プロセッサは、
入力映像から顔領域を検出し、
前記顔領域に示された入力顔が部分顔であるか否かを決定し、
前記入力顔が部分顔であるという決定に応答して、基準映像と前記顔領域の顔映像を合成して合成映像を生成し、
前記合成映像に基づいて認証の成否を決定するように構成され、
前記プロセッサは、
特徴抽出器を用いて前記入力顔に対する特徴を抽出し、
予め登録された登録特徴のうち前記部分顔のタイプに対応する登録特徴と前記抽出された特徴との間の比較結果に基づいて認証の成否を決定する
ように更に構成され、前記部分顔のタイプは、顔のうち欠けている部位に応じて予め定義されている複数のタイプの中から決定される、顔認証装置。
前記プロセッサは、前記検出された顔領域が前記入力映像の境界のうち一部分を含む場合、前記入力顔が部分顔であると決定する、請求項１９に記載の顔認証装置。
前記プロセッサは、
前記検出された顔領域に基づいて前記基準映像の映像情報と前記顔映像の映像情報を合成することで前記合成映像を生成し、
前記基準映像の映像情報は、全体顔に対応する顔領域から前記検出された顔領域を除いた残りの顔領域に対応する領域の映像情報である、請求項１９又は２０に記載の顔認証装置。
前記プロセッサは、
前記顔領域から顔のランドマークを検出し、
前記検出された顔領域から、予め定義された顔部位領域のうち少なくとも１つに対応するランドマークが検出されない場合、前記入力顔が部分顔であると決定する、請求項１９に記載の顔認証装置。
前記プロセッサは、前記ランドマークが検出されない顔領域に対応する前記基準映像の対応領域の映像情報と前記顔映像の映像情報を合成することで前記合成映像を生成する、請求項２２に記載の顔認証装置。
前記基準映像は、前記特徴抽出器の学習に使用された学習映像の平均映像である、請求項１９ないし２３のうち何れか一項に記載の顔認証装置。
前記プロセッサは、
前記顔映像に示された入力顔に閉塞領域が存在するか否かを決定し、
前記閉塞領域が存在するという決定に応答して、前記基準映像で前記閉塞領域に対応する対応領域の映像情報と前記顔映像の映像情報を合成することで合成映像を生成する、請求項１９ないし２３のうち何れか一項に記載の顔認証装置。