JP2021508870A

JP2021508870A - 生体認証によるユーザー認証のためのシステム及び方法

Info

Publication number: JP2021508870A
Application number: JP2020534233A
Authority: JP
Inventors: ジェラードダークスミッツ，
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-12-21
Filing date: 2018-12-21
Publication date: 2021-03-11
Also published as: KR20200091389A; US11210376B2; US20190197224A1; EP3729309A1; WO2019125084A1; CN111492357A; EP3729309A4

Abstract

ユーザーのマイクロ表情の検出のような生体認識の特徴を用いたユーザー認証に関する開示が提供される。本発明の電子装置でユーザーを認証する方法は、予め決定された情緒的な刺激をユーザーに提供する段階と、３次元ビデオカメラで、予め決定された情緒的な刺激が提供される時間の少なくとも一部の間にユーザーの顔のモーション検出をキャプチャーする段階と、ユーザーの情緒的な反応を識別するために、キャプチャーされたモーション検出を処理する段階と、ユーザーを認証するか否かを決定するために、識別された情緒的な反応を格納されたデータと比較する段階と、を有する。
【選択図】図２

Description

本発明は、ユーザー認証に関し、より詳しくは、生体認証によるユーザー認証のためのシステム及び方法に関する。

本発明は、ユーザー認証に関するものであり、より詳しくは、生体認証によるユーザー認証に関するものである。現在、ユーザーを認証するための多様な努力があるが、このような方法は、ユーザーを確実に識別できないことがある。

一般的且つ伝統的な方法の多様な限界及び欠点は、図面を参照して本明細書の残りの部分に開示された本発明のいくつかの実施形態と、このようなシステムとの比較を通して、本発明の属する技術分野における通常の技術者には明らかに理解されるだろう。

米国特許第９３８４４８６号明細書米国特許出願公開第２の０１８／０２３２５０８号明細書米国特許出願公開第２の０１８／０２３２５１１号明細書米国特許出願公開第２の０１８／０２８６４０４号明細書米国特許出願公開第２の０１８／０１２９７９５号明細書米国特許出願公開第２の０１８／０２８５８６８号明細書

本発明は、上記従来技術に鑑みてなされたものであって、本発明の目的は、識別された情緒的な反応を格納されたデータと比較してユーザーを認証するか否かを決定する生体認証によるユーザー認証のためのシステム及び方法を提供することにある。

生体認証によるユーザー認証のためのシステム及び／又は方法は、少なくとも１つの図面に関連付けられて実質的に図示及び／又は記述される。

本発明の多様な利点、態様、及び新しい特徴だけではなく、それらの例としての実施形態の詳細は、以下の説明及び図面からより完全に理解されるはずである。

本発明によると、識別された情緒的な反応を格納されたデータと比較してユーザーを認証するか否かを決定することによって、ユーザー認証の信頼性が向上した生体認証によるユーザー認証のためのシステム及び方法が提供される。

本発明の上述した目的及び他の目的の特徴並びに利点は、図面と共に後述する詳細な説明からより明確に理解されるはずである。

本発明の一実施形態によるユーザー認証を含む電子装置の一例を示すブロック図である。本発明の一実施形態によるユーザー認証を含む電子装置の他の例を示すブロック図である。本発明の一実施形態によるユーザー認証を含む電子装置の一例を示すハイレベル（ｈｉｇｈ−ｌｅｖｅｌ）のブロック図である。本発明の一実施形態による通信ネットワークにおける電子装置の一例を示す図である。本発明の一実施形態による電子装置がユーザーを認識するトレーニングの一例を示すフローチャートである。本発明の一実施形態によるユーザーを認識する電子装置の一例を示すフローチャートである。本発明の一実施形態による電子装置がユーザーを認識するトレーニングの他の例を示すフローチャートである。本発明の一実施形態によるユーザーを認識する電子装置他の例を示すフローチャートである。

本発明の実施形態は、本明細書で記載された説明に限定されるものとして解釈してはならない。むしろ、このような実施形態が例として提供されることで、本発明が徹底且つ完全なものとなるはずであり、本発明は、本実施形態の概念を本発明が属する技術分野における通常の技術者に完全に伝えるはずである。後述する請求項は、本発明のいくつかの実施形態を例証する。

明細書全体に亘って、類似の参照符号は類似のエレメントを指す。本明細書で使用される説明的又は技術的用語を含む全ての用語は、本発明が属する技術分野における通常の技術者（当業者）に明らかな意味を有するものと解釈されるべきである。言語の進化、以前の事例、又は新しい技術の存在により用語が曖昧な意味を有する場合には、本発明で使用される用語の意味は、優先的に、本発明におけるその使用及び／又は定義によって明確に解釈されなければならない。本発明が属する技術分野における通常の技術者が本発明の用語を理解するにつれて、本発明の用語が明確になるだろう。

ある部分がエレメントを「含む」という場合には、これに反対する特別な説明がない限り、このような部分は、他のエレメントを更に含み得る。本発明の実施形態における用語「ユニット」は、特定の機能を遂行するソフトウェアのコンポーネント又はハードウェアのコンポーネントを意味する。ハードウェアのコンポーネントは、例えばフィールドプログラマブルゲートアレイ（ＦＰＧＡ：ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）を含む。

ソフトウェア又はソフトウェアのコンポーネントは、アドレス指定可能なストレージ（ｓｔｏｒａｇｅ）媒体で実行可能なコード及び／又は実行可能なコードによって使用されるデータを指す。即ち、ソフトウェアは、例えばオブジェクト指向ソフトウェアのコンポーネント、クラスコンポーネント、及びタスク（ｔａｓｋ）コンポーネントであり、プロセス、機能、属性、手順、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、アプリケーションプログラム、マイクロコード／回路、データ、データベース、データ構造、テーブル、行列、又は変数を含む。

「ユニット」によって提供される機能は、追加のコンポーネント及び「ユニット」で分けられる。

以下、本発明を実施するための形態の具体例を、図面を参照しながら詳細に参説明する。これに関連して、本実施形態は、異なる形態を有することができ、本明細書の説明に限定されるものと解釈してはならない。

以下の説明では、不必要な説明により実施形態が不明瞭にならないように、公知の機能又は構成は詳しく説明しない。

図１Ａ及び図１Ｂは、本発明の多様な実施形態によるユーザー認証を含む電子装置の例を示すブロック図である。図１Ａ及び図１Ｂは、ユーザー認証のための本発明の実施形態による電子装置１００の２つの非限定的な例を示している。図示したように、電子装置１００は、例えばディスプレイ１０２、制御モジュール１１０、センサーモジュール１２０、及びバッテリ１３０を含む図１Ａのスマートフォン１００Ａである。電子装置１００は、また、例えばディスプレイ１０２、制御モジュール１１０、センサーモジュール１２０（第１のセンサー１２２、第２のセンサー１２４、及びプロセッサ１１２を含む）、及びバッテリ１３０を同様に含む図１Ｂのスマートウォッチ１００Ｂである。

電子装置１００は、電子装置の該当するタイプに特定される他の特徴を有し得るという点に留意すべきであり、電子装置は、センサーモジュール１２０の一部として、具体的に開示していない多様なセンサーを含む。図１Ａ及び図１Ｂの電子装置１００の図面は、簡潔性のために単純化した。

一般的に、電子装置１００は、他の電子装置と通信することができる。例えば、電子装置１００は、スマートフォン、スマートウォッチ、ラップトップ／ＰＣ、サーバなどと通信することができる。これは、図３に関連してより詳しく説明する。

ディスプレイ１０２は、例えばユーザーが識別されて電子装置１００の機能に対するアクセス（ａｃｃｅｓｓ）が付与されているか否かを出力する。電子装置１００は、第１のセンサー１２２としてのカメラと第２のセンサー１２４としてのマイクを含む。従って、第１のセンサー（カメラ）１２２が、ユーザーが音声（ｓｏｕｎｄ）を作成するときのユーザーの顔をキャプチャー（ｃａｐｔｕｒｅ）する間に、ユーザーは、第２のセンサー（マイク）１２４によってキャプチャーされる特定の音声を作成することができる。その後、音声及びビデオは、例えばプロセッサ１１２及び／又は電子装置１００内に存在する他のプロセッサによって処理され（ｐｒｏｃｅｓｓｅｄ）且つ相関される（ｃｏｒｒｅｌａｔｅｄ）。次に、音声及びビデオは、プロセッサ１１２及び／又は他のプロセッサによって音声を顔写真／ビデオと相関させる格納された情報と比較される。センサー１２２は、３次元（３−Ｄ：３−ｄｉｍｅｎｓｉｏｎａｌ）カメラ、及び／又は２次元（２−Ｄ）カメラを含み得る。従って、本明細書で記述するビデオは、モーション（ｍｏｔｉｏｎ）ビデオ及び／又はスチール（ｓｔｉｌｌ）写真で構成される。成功的なマッチ（ｍａｔｃｈ）に基づいて、電子装置１００は、ユーザーに対してロック解除される。このようなプロセスは、図４及び図５に関連してより詳しく説明する。

本発明の多様な実施形態は、用語である「カメラ」に対する広い用法を使用する。即ち、カメラは、表面（ｓｕｒｆａｃｅ）をマッピング（ｍａｐｐｉｎｇ）することができる任意の種類のモーションセンサーシステムを指すために使用される。例えば、モーションセンサーシステムは、超音波、ソナー（ｓｏｎａｒ）、光学スペックル（ｓｐｅｃｋｌｅ）／干渉、レーダー（ｒａｄａｒ）、ライダー（ｌｉｄａｒ）、ＴＯＦ（ｔｉｍｅｏｆｆｌｉｇｈｔ）装置、スキャンシステムなどである。

他の実施形態において、電子装置１００は、刺激（ｓｔｉｍｕｌｕｓ）がユーザーに提供されるときにユーザーのビデオをキャプチャーする第１のセンサー１２２としてカメラを含む。刺激は、愛する人の音声（ｖｏｉｃｅ）及び／又は愛する人の写真／ビデオであり得る。この場合に、刺激は、ユーザーに関連する情緒的な刺激（ｅｍｏｔｉｏｎａｌｓｔｉｍｕｌｕｓ）と称され、それによって、ユーザーは、情緒的な応答（ｅｍｏｔｉｏｎａｌｒｅｓｐｏｎｓｅ）で反応する。情緒的な刺激は予め決定された（ｐｒｅ−ｄｅｔｅｒｍｉｎｅｄ）情緒的な刺激であり、予め決定された情緒的な刺激は、例えば認証プロセスの設定中にユーザーによって選択される。他の場合に、予め決定された情緒的な刺激は、例えばユーザーの格納されたビデオ及び／又は音声の記録から認証アプリケーションによって選択される。

従って、第１のセンサー（カメラ）１２２は、情緒的な刺激が提供されるときに、ユーザーの顔でモーション検出をキャプチャーするために使用される。いくつかの実施形態で、モーション検出は情緒的な刺激に対するユーザーの情緒的反応と称される。モーション検出は、例えばマイクロ表情（ｍｉｃｒｏ−ｅｘｐｒｅｓｓｉｏｎ、微細な表情）を含み、マイクロ表情はユーザーの顔での随意的及び／又は不随意的な筋肉の動き（モーション）を含む。このようなマイクロ表情は、例えば肉眼で観測者に識別されない筋肉の動きを含む。識別されない理由は、動きが速すぎ且つ／又は小さすぎるからである。しかし、キャプチャーされたモーション検出は、このようなマイクロ表情を識別することができるように処理される。

写真／ビデオは、例えばプロセッサ１１２及び／又は電子装置１００内に存在する他のプロセッサにより処理される。次に、写真／ビデオは、プロセッサ１１２及び／又は他のプロセッサによって格納された情報（データ）と比較される。格納された情報（データ）は、多様な実施形態で予想される顔モーション又は予想される情緒的反応と称される。成功的なマッチに基づいて、電子装置１００はユーザーに対してロック解除されるか、又はアプリケーションはユーザーが取引（ｔｒａｎｓａｃｔｉｏｎ）を完了するように許容される。例えば、認証は、現金自動預け払い機（ＡＴＭ：ａｕｔｏｍａｔｉｃｔｅｌｌｅｒｍａｃｈｉｎｅ）からお金を引き出すことを許容するか、又はある口座から他の口座などにお金を振り込むことを許容する。これは図６及び図７に関連してより詳しく説明する。

制御モジュール１１０は、またユーザーの識別の可否を決定するために、記録された音声及び写真／ビデオを処理するために使用可能なプロセッサ２００（図２参照）を含む。センサーモジュール１２０は、例えば加速度計、磁力計、光センサー、近接センサーなどのような他のセンサーを含む。バッテリ１３０は、電子装置１００に電力を提供するように構成される。バッテリ１３０は、有線充電システム又は無線充電システムを使用して充電される。

なお、２つの特定の電子装置（１００Ａ、１００Ｂ）を説明したが、本発明の多様な実施形態は、これらに限定されるものではない。多様な他の電子装置は、本発明の実施形態にもまた使用される。非限定的なリストは、例えばＰＣ、ラップトップ、タブレット、ＡＴＭ、ユーザーを認証するために使用される認証モジュール、スマート眼鏡を含む。スマート眼鏡は、刺激を提供することができ、ユーザーの目及び／又は他の顔領域のビデオ／映像だけでなく、ユーザーによって作成された音声などをキャプチャーすることができる。従って、本発明の多様な実施形態は、人が識別される必要がある度に、そしてユーザー認証のための説明した機能を遂行する任意の装置（ウェアラブルか否かに拘らず）によって遂行される認証に適用可能である。認証システムは、ユーザーを識別することに使用されるが、一部の場合において、認証システムは、ユーザーの身元を知ることなく装置へのアクセスを付与するためにのみ使用される。例えば、携帯電話は、その携帯電話の認証ユーザーの識別の詳細（ｄｅｔａｉｌ）を与えないが、認証システムは、それが認識するようにトレーニング（ｔｒａｉｎｉｎｇ）された所有者にアクセス権を付与するために使用され続けることができる。

図２は、本発明の一実施形態による電子装置の一例を示すハイレベル（ｈｉｇｈｌｅｖｅｌ）のブロック図である。図２を参照すると、電子装置１００は、制御モジュール１１０、センサーモジュール１２０、バッテリ１３０、通信インターフェース２３０、及びＩＯ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）モジュール２４０を含む。制御モジュール１１０は、プロセッサ２００、メモリ２１０、及びＰＭＵ（ＰｏｗｅｒＭａｎａｇｅｍｅｎｔＵｎｉｔ）２２０を含む。ＩＯモジュール２４０は、ディスプレイ１０２、入力装置２４２、及び出力装置２４４を含む。

プロセッサ２００は、一般的に電子装置１００を制御する。プロセッサ２００は、センサーモジュール１２０からのモニタリングされた信号を処理すること、ＩＯモジュール２４０と通信すること、及び通信インターフェース２３０を介して他の電子装置と通信することを含む。メモリ２１０は、不揮発性メモリ２１６及び揮発性メモリ２１８を含む。オペレーティングシステム２１２及びアプリケーション２１４は、不揮発性メモリ２１６に格納される。本発明の多様な実施形態は、設計及び／又は実装に依存する他のメモリアーキテクチャを使用することができる。

ＰＭＵ２２０は、外部ソースから電力を受信してバッテリ１３０を充電するだけでなく、電子装置１００の他の部分への電力の割り当てを制御する。通信インターフェース２３０は、電子装置１００が、例えばＵＳＢ、イーサネット（登録商標）（Ｅｔｈｅｒｎｅｔ（登録商標））、ファイヤーワイヤー（ｆｉｒｅｗｉｒｅ）などのような有線プロトコル、又はブルートゥース（登録商標）（Ｂｌｕｅｔｏｏｔｈ（登録商標））、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）、ＷｉＦｉなどのような無線プロトコルを通じて他の装置と通信することができるようにする。

プロセッサ２００は、ＩＯモジュール２４０と通信して入力装置２４２を介して入力情報を受信し、ディスプレイ１０２及び他の出力装置２４４に表示される情報を出力する。入力装置２４２は、例えばボタン２４２ａ、ディスプレイ１０２の一部であるタッチスクリーン２４２ｂ、マイク２４２ｃなどを含む。出力装置２４４は、例えばディスプレイ１０２、スピーカー２４４ａ、ＬＥＤ２４４ｂなどを含む。

プロセッサ１１２は、他の実施形態で、他のアーキテクチャを使用して動作する。例えば、プロセッサ１１２はメモリ２１０を使用して実行する命令語を格納するか、又はプロセッサ１１２は、その命令語のための独自のメモリ（図示せず）を含む。一部の実施形態は別のプロセッサ（２００、１１２）を含むが、多様な実施形態は、これらに限定されるものではない。電子装置１００の機能を制御する１つのプロセッサ２００が有るか、又は電子装置１００のためのマルチプロセッサが有る。

多様な実施形態は、異なる機能が異なるようにグループ化された他のアーキテクチャを使用することができる。例えば、グループ化は、異なる集積回路チップ上に有る。また、グループ化は、ＩＯモジュール２４０及び通信インターフェース２３０のような異なる装置を共に結合することができ、又はマイク２４２Ｃは、センサーモジュール１２０などの一部としてグループ化される。

図３は、本発明の一実施形態による通信ネットワークにおける電子装置の一例を示す図である。図３を参照すると、スマートフォン１００Ａ及び電子装置３００が示される。スマートフォン１００Ａは、通信インターフェース２３０を使用して電子装置３００と通信する。通信は、電子装置３００とスマートフォン１００Ａとの間の通信信号３０２通じて行われる。通信信号３０２は、有線通信プロトコル又は無線通信プロトコルを通じて伝送される。図示していないが、通信信号３０２は、電子装置３００とスマートフォン１００Ａとの間の１つ以上の通信ユニットを介して伝送される。例えば、電子装置３００及びスマートフォン１００Ａは、同一のネットワーク又は異なるネットワークに属する。

図４は、本発明の一実施形態による電子装置がユーザーを認識するトレーニングの一例を示すフローチャートである。図４を参照すると、例えばスマートフォン１００Ａのような電子装置１００をトレーニングするための一例のフローチャート４００が示される。ブロック４０２において、トレーニングプロセスを開始するためにユーザーから入力が受信される。入力は、例えばトレーニングプロセスを開始するための、ユーザーによるスマートフォン１００Ａに表示された適切なキーのタップ（ｔａｐ）、適切な言語による（ｖｅｒｂａｌ）指示などである。ブロック４０４において、スマートフォン１００Ａは、音声入力のためのプロンプト（ｐｒｏｍｐｔ）を提供する。これは、ユーザーが特定の音声を作成するようにプロンプトする。特定の音声は、単語及び／又は音声を含むパスフレーズ（ｐａｓｓｐｈｒａｓｅ）又は他の繰り返し可能な音声である。用語である「パスフレーズ」は、一般的に認証のためにユーザーによって提供される１つ以上の単語及び／又は音声を示すために使用される。パスフレーズは、例えば任意的（ａｒｂｉｔｒａｒｙ）である。プロンプトは、例えばユーザーによって繰り返さなければならないパスフレーズを示すか又はユーザーにパスフレーズを提供するように要請する。

いくつかの場合において、特定の音声は必要でないが、代わりにプロンプトは、一定時間の間、ユーザーが継続的に話すように指示する。その時間は、ユーザーの認証を許容するために十分なデータが収集されるように設定された期間であり、又はユーザーが認証されないことを示す時点からタイムアウトが発生するまでである。ブロック４０６において、スマートフォン１００Ａは、その後、第２のセンサー（マイク）１２４を介してユーザーが作成した音声をキャプチャーし、第１のセンサー（カメラ）１２２を介して音声を作成するユーザーの顔をキャプチャーする準備をする。

ブロック４０８において、例えばプロセッサ２００及び／又はプロセッサ１１２のようなプロセッサは、キャプチャーされたオーディオ及びビデオを処理する。カメラシステムの異なるタイプは、ユーザーの顔のモーション（顔の動き）をキャプチャーするために使用される。例えば、３次元カメラが使用されるか又は高速フレームレートでモーションキャプチャーを提供可能な高速カメラが使用される。上述したように、例えば超音波、ソナー（ｓｏｎａｒ）、光学スペックル（ｓｐｅｃｋｌｅ）／干渉、レーダー（ｒａｄａｒ）、ライダー（ｌｉｄａｒ）、ＴＯＦ（ｔｉｍｅｏｆｆｌｉｇｈｔ）装置、スキャンシステムなどのようなカメラの他のタイプも使用される。多くの場合に、３次元モーションデータを使用するとき、より高いレベルのセキュリティ（ｓｅｃｕｒｉｔｙ）が得られる。しかし、一実施形態では、顔の２次元モーションキャプチャーだけでも、比較的に低レベルのセキュリティでユーザーを認証するのに十分である。プロセスは、ビデオストリーム（ｓｔｒｅａｍ）を使用してユーザーの顔の動的モデル（ｄｙｎａｍｉｃｍｏｄｅｌ）を構築（ｂｕｉｌｄｕｐ）することを含む。一般的に、動的モデルは、顔の表面の３次元表現を記録することを含むが、全体的に且つ詳細に両方に対して顔がどのように動くかに対する細部事項も含む。個別の筋肉及び／又は筋肉グループのモーションだけでなく、皮膚の関連する動きは、ユーザーの特定の生理（ｐｈｙｓｉｏｌｏｇｙ）に固有（ｕｎｉｑｕｅ）なものである。一部の場合において、２次元モーションキャプチャーと３次元モーションキャプチャーは同時に使用される。ここで、２次元のビデオは、３次元カメラが示せていないテクスチャ又は他の表面の細部事項をピックアップ（ｐｉｃｋｕｐ）して認証レベルを向上させることができる。

処理（プロセッシング）は、例えば音声を作成するときにユーザーによって作成された顔のモーション（顔の表情）を、ユーザーによって作成された音声と時間とで相関させることを含む。処理は、例えば位置、期間などのユーザー毎に異なる特定の筋肉の動きをマッチし、筋肉は、ユーザーの口又は口の周りに位置する。なお、キャプチャーされたオーディオの特徴と多様な周波数に対する顔の他の領域での動きとの相関（ｃｏｒｒｅｌａｔｉｏｎ）が取られる。話している間、筋肉の動きは随意的及び／又は不随意的であり、両タイプの全てがキャプチャーされて顔と相関される。音声とビデオとの間の相関が必要であるが、セキュリティの一部のレベルにおいて完全に十分ではないことが有り得る。例えば、音声とビデオとの間の相関は、セキュリティの最も高いレベルで必要であるが、これは十分ではない可能性がある。音声とビデオとが互いによく相関するが、認証されていないユーザーが装置をロック解除することを試みると、認証されていないユーザーの顔の形状及び顔のモーションは認証されたユーザーの顔の動的モデルとマッチしない可能性があり、そして／又は音声は認証されたユーザーとマッチしない可能性がある。このような筋肉の動きの中の１つ以上は、また不随意的であり、また持続期間が非常に短い可能性がある。このような動きの中の一部は、ユーザーを眺める人に簡単には見えないことがあり得るが、ビデオストリームからキャプチャーされて認証されたユーザーと更に相関するために使用される。

ブロック４１０において、処理されたデータは将来の使用のために格納される。一実施形態で、認証システムは、ユーザーによって話された多様な音声に対するユーザーの典型的な顔のモーション（顔の動き）のライブラリを含む。多様な実施形態は、パスフレーズのための言語を装置に設定された言語として特定するが、他の実施形態は、パスフレーズのための特定の言語を特定しないことが有る。ライブラリは、動き及び音声をユーザーによって話された言葉と相関させるために使われ、単語／音声は任意的である。しかし、特定の音声やパスフレーズが認証の一部として選択されると、認知（ｋｎｏｗｌｅｄｇｅ）、言語、又は関連する顔のモーションは不要である。この場合、特定の音声に関連する顔のモーションは、共にキャプチャーされて相関される。相関は、単に一般的なモーションを音声の音量変化とマッチするだけではなく、もっと精巧である。例えば、母音及び子音の声は空気の流れを能動的に調節（ｍｏｄｕｌａｔｅ）する音声システムの多様な部分によって作られる。このような調節は反復可能であるが、細部事項は特定の人に対して固有である。各調節は、各音声が生成されるときに顔での測定可能な変化を引き起こす。

いくつかの調節は本質（ｎａｔｕｒｅ）的に受動的である。副鼻腔（ｓｉｎｕｓ）及び他の空洞（ｃａｖｉｔｙ）は、言葉を話すときだけでなく、音色（ｔｉｍｂｒｅ）、トーン（ｔｏｎｅ）、及び／又は他の特性を調節するときに生成される音声の性質を変化させる。こような特性は、ユーザーの音声のオーディオ識別に役立つ可能性がある。顔の他の部分は、また音声及び動きに受動的に反応する。特に、空気のモーションや音声のピッチ（ｐｉｔｃｈ）は、口（ｍｏｕｔｈ）の中及び周辺で多様な振動を生成する。皮膚、筋肉、脂肪、及び／又は表面近くの骨の厚さに応じて、より高い周波数の振動が見えるか又は減衰（ｄａｍｐｅｎ）する。より高い周波数の振動は歯でも検出される。３次元ビデオが顔の動きを高速で撮影すると、顔の周りの多様な領域の深さの動きの測定は、ユーザーの生理に固有な高周波及び低周波の動きの組み合わせを示す。

同一の刺激で生成されて処理されたデータの連続した繰り返しのために格納されたデータは、最後の繰り返しの処理結果を考慮するために、必要に応じてアップデートされる。

ブロック４１２において、ユーザーが同一の音声の他の繰り返しを作成するか否かに対する決定が行われる。同一の音声が再び作成された場合、その次のブロック４０４で、その音声に対するプロンプトが提供される。反復的な分析は、より一貫して発生する特定の筋肉の動きを識別することができ、これらは優先的に使用されるか又は少なくともより大きな重みを受けられる。将来の認証に使用する特定の筋肉の動きを決定することは、例えばこのような筋肉の動きがどのように安定的に発生するかに依存する。特定のフレーズ又は音声を発する方式には自然な変化があるため、音声の入力の繰り返しも意図的である。同一の入力の音声に対する複数の繰り返しを比較して対照することにより、予想される入力が認証された所有者から来るものと認識される程度の正確な精度で話される必要がないエンベロープ（ｅｎｖｅｌｏｐｅ）が生成されても、やはりセキュリティの非常に高いレベルを提供する。

認証プロセスは、また、例えばローカル領域（ｌｏｃａｌａｒｅａ）に関連付けられる任意のマイクロ表情を全く有しないローカル領域を見つけられる。このようなローカル領域の一部又は全部は、また認証の目的のために特定（ｓｐｅｃｉｆｙ）される。

ユーザーが識別されるか否かの決定は、多くの異なるアルゴリズムのいずれか１つを使用することができ、アルゴリズムは、例えばカテゴリーの第１の特徴の少なくとも第１のパーセントをマッチすることを含む。他の実施形態は、またカテゴリーの第２の特徴などの少なくとも第２のパーセントをマッチすることを要求する。カテゴリーの第１の特徴は、常に確実に検出されるこのような筋肉の動き又は小さな動的表情である。カテゴリーの第２の特徴は、殆どの時間で検出されるこのような筋肉の動き又は小さな動的表情である。第１のパーセント及び第２のパーセントは同一であるが、これらはまた異なることがある。なお、特定のアプリケーションは、独自のマッチ率（ｒａｔｅ）を要求する。例えば、銀行サーバは、特定の取引においてユーザーを認証するためにマッチ率のパーセントを提供する。

同一の音声がユーザーによってこれ以上作成される必要がない場合、その後のブロック４１４において、ユーザーによって異なる音声が作成されなければならないか否かに対する決定が行われる。多数の異なる音声を使用することで、ユーザーはより正確に識別される。ユーザーが他の音声を作成した場合、その後のブロック４０４で、その音声のためのプロンプトが提供される。ユーザーが他の音声を作成する必要がない場合、その後、トレーニングは終了し、スマートフォン１００Ａは、ブロック４１６でトレーニングセッション（ｓｅｓｓｉｏｎ）が完了したこと示すメッセージを出力する。

顔の動的モデルは、顔の多数の領域での高周波及び低周波の両方の音声と直接に相関されるが、別の実施形態では、このような相関は、アルゴリズムで明示的に配置（ｌａｙｏｕｔ）されない。多数の繰り返しに亘る音声及びビデオの両方の特徴セット（ｓｅｔ）の全体は、ニューラルネットワーク（ｎｅｕｒａｌｎｅｔｗｏｒｋ）又は他の種類のマシンラーニングに提供され、ユーザーの顔、顔の動き、音声、並びに顔の動きと音声との間の相関に対して学習することができる。即ち、トレーニングプロセスのうち、携帯電話は、その特定の組み合わせにのみ反応することができるように、ユーザーと「結合」したものと見ることができる。即ち、携帯電話とユーザーとは、互いにペアリング（ｐａｉｒｉｎｇ）したり、固有に固定（ｌｏｃｋ）されたりする。十分な相関があると、認証セキュリティは、やはり非常に高いレベルに維持される。マシンラーニングは、顔のモーション及び形状、ユーザーの音声、並びに同時に２つの両方の間の動的な相関である３つの全てに対して同時にトレーニングされる。これに関連し、マシンラーニングの部分自体は、明示的な他のモデルなしにユーザーの動的モデルとして作用する。

本発明の多様な実施形態は、ユーザーが認証プロセスを更に改善する（ｒｅｆｉｎｅ）ために話している１つ以上の機会を使用する。これは、例えばユーザーが話し、そしてユーザーの顔がスマートフォン１００Ａの適切なカメラに見えるときにユーザーが識別されるような場合を含む。これは、トレーニングセッションのうち、同一の音声又は音声のセットを繰り返し作成する追加の繰り返しとして意図される。

スマートフォン１００Ａがユーザーを識別するようにトレーニングした後、スマートフォン１００Ａは、トレーニングセッション中にユーザーが作成した音声を含む１つ以上の単語をユーザーに話させることができる。これは、ユーザーが話すのにより自然な形態であり、従って、ユーザーにはより容易になる。スマートフォン１００Ａは、ユーザーに音声を含む多数の他のフレーズから選択させ、ユーザーの認証で追加の個別化（ｉｎｄｉｖｉｄｕａｌｉｚａｔｉｏｎ）を許容する。従って、ユーザーが正しいフレーズを使用しない場合、スマートフォン１００Ａは、認証の失敗を示す。認証に特定のフレーズを必要としない場合にも、十分に長い時間の間ユーザーが携帯電話に話し続けることによって、やはりセキュリティの高いレベルが達成され、認証システムはユーザーを認証するのに十分に高い信頼レベルに到達する。

従って、ユーザーは、ユーザーが選択した特定のフレーズを話すか、スマートフォン１００Ａのような電子装置によって示されたパスフレーズを話すか、電子装置によって示されたパスフレーズを繰り返すか、又は単に特定の時間の間話すことにより、ユーザーが識別される。

多様な実施形態は、キャプチャーされたオーディオ及びビデオを処理する異なるアーキテクチャを含む。例えば、１つのアーキテクチャは、キャプチャーされた音声及び／又はビデオを処理する特定のソフトウェアを実行する一般的なプロセッサを含む。他のアーキテクチャは、ビデオを処理する専用プロセッサを含むが、他のアーキテクチャは、やはりビデオを処理する専用のデジタル信号プロセッサ及びオーディオを処理する他の専用デジタル信号プロセッサを含む。従って、本発明の実装によって使用されるプロセッサのタイプ及び／又はプロセッサの数に対する限定はない。

なお、スマートフォン１００Ａは、１つ以上のユーザーを認識するようにトレーニングされる。従って、このような場合、ユーザーはユーザーの名前を選択し、ブロック４０８での処理は、特定のユーザーとのマッチを試みるために音声及びビデオ入力の処理を要求する。他の場合、ユーザーは、ユーザーの名前を選択しなくてもよく、処理はマッチが行われるか又はマッチがなくなるまで異なるユーザー毎に対してマッチを試みる。一実施形態で、スマートフォン１００Ａは、セキュリティの多様なレベルにおけるログイン及びアクセスを許容する。例えば、認証されたメインユーザーは、スマートフォンの全ての機能への完全なアクセスが許容されるが、セカンダリ（ｓｅｃｏｎｄａｒｙ）ユーザーは、装置の機能の限られたサブセット（ｓｕｂｓｅｔ）のみが許容される。装置が１つの認証されたユーザーのみを有する場合にも、段階的なセキュリティのレベルは、他の利点を有する。ユーザーは顔の動きを使用してログインを試みるが、ユーザーが大きく話せない場所に有り得る。パスフレーズを静かに話すことで、認証システムは、顔のモーション（顔の動き）のマッチを決定し、低い信頼レベルでユーザーを認証することができ、少なくとも機能の限られたサブセットへのアクセスを許容することができる。

なお、スマートフォン１００Ａをトレーニングさせることを説明したが、多様な実施形態は、他の電子装置１００がユーザーを認識するための情報をダウンロードするように許容する。電子装置１００は、既にユーザーを認識するようにトレーニングされている可能性があるため、音声及びビデオキャプチャーのユーザー入力と比較する必要がある情報を含む。これは、例えば認証情報をダウンロードする前にログイン／パスワード方式を使用して、スマートフォン１００Ａだけでなく電子装置１００でもユーザーを認証することを要求する。他の実施形態は、リモート認証モジュール（図示せず）を制御するサーバ（図示せず）を含み、従って、必要に応じてユーザーの情報をダウンロードする。例えば、リモート認証モジュールは、ダウンロードされたユーザーの情報を使用してユーザーを識別するための機能を有する。リモート認証モジュールでユーザーが識別されないと、リモート認証モジュールは、ユーザーを識別することができるサーバに接続する。その場合、該当する情報は、将来の使用のためにリモート認証モジュールにダウンロードされる。

音声入力（又はパスフレーズ）は、音声入力のトーン又はイントネーションに関係ない単語及び／又は音声を含むことに留意しなければならない。例えば、音声入力は、歌、ヨーデル（ｙｏｄｅｌ）、ささやきなどである。多様な実施形態は、またパスフレーズの静かな口の模様（ｍｏｕｔｈｉｎｇ）を収容し、パスプレーズの静かな口のモーションは音声入力を大きく話すことに非常に類似する。

図５は、本発明の一実施形態によるユーザーを認識する電子装置の一例を示すフローチャートである。図５を参照すると、スマートフォン１００Ａを有するユーザーの一例のフローチャート５００が示される。ブロック５０２において、ユーザーを識別するための指示が受信される。これは、例えば休憩後にピークアップされた携帯電話のモーションの検出、ボタンの押し又はスイッチトグリング（ｔｏｇｇｌｉｎｇ）／移動のような触覚動作の使用、ユーザーによる音声入力などによって、認証プロセスを開始するオプションに対するユーザーの選択に起因するものである。

アプリケーションは認証の必要を示す。例えば、ユーザーがお金を振り込んだり製品を購入したりする場合、使用中のアプリケーションは認証を開始する。また、銀行のサーバや販売（ｍｅｒｃｈａｎｔ）サーバは、アプリケーションにユーザーを認証させるように命令する。

ブロック５０４において、スマートフォン１００Ａは、ユーザーがマイク２４２ｃを介して複数の音声を入力するようにプロンプトを提供する。利用可能なオプションに応じて、ユーザーは、特定の音声を作成するようにプロンプトが提供されたり、ユーザーに知られているパスフレーズを話したり、一定時間の間に話すようにプロンプトが提供されたりする。パスフレーズは、ユーザーに秘密であるが、第２の人がそれを盗み聞きしても、スマートフォンは、認証されたユーザーの動的モデルにマッチすることができない場合、第２の人を認証しない。

ブロック５０６において、スマートフォン１００Ａは、ユーザーが音声を作成する間に、ユーザーによって作成された音声を受信してユーザーの顔のビデオをキャプチャーする。ブロック５０８において、音声及びビデオは、ユーザーを認証するために処理されたデータが格納されたデータと比較される必要があるか否かを決定するように処理される。音声は、モーションを検出するための適切な比較が行われるように識別される。処理されたデータは、例えばユーザーのマイクロ表情を含むキャプチャーされた顔のモーションや顔の検出のためのものである。処理は、例えば顔や他のモデルの他の細部事項と共にローカル領域の数及びローカル領域のサイズのような、格納されたデータからの情報を使用する。

ブロック５１０において、処理されたデータは、格納されたデータと比較される。ブロック５１２でマッチされた場合、その後の成功は、ブロック５１８で示される。ブロック５１２でマッチされない場合、ブロック５１４で、許容された試行回数が満たされているか否かに対する決定が行われる。許容された試行回数は、例えばユーザーの認証を要請する銀行のサーバのような外部装置及び／又はユーザーによって設定される。

試行回数が満たされると、その後のブロック５１６は、認証を要請した外部装置及び／又はユーザーに失敗を示す。試行回数が満たされない場合、その後のブロック５０４で、ユーザーが再び試みるようにプロンプトを提供する。一部の実施形態はユーザーが他のパスフレーズを話すように許容する反面、他の実施形態はユーザーが以前に話したパスフレーズを繰り返すことだけを許容する。

時間が経過すると、小さな生理的変化は顔及び／又はユーザーの動的モデルの変化をもたらし、これは認証の困難をもたらす。これを避けるために、時々、認証システムは、ユーザーが図４に示したプロセスを繰り返すことで、ユーザーのデータをリフレッシュ（ｒｅｆｒｅｓｈ）するようにプロンプトする。代替的に又は追加的に、ユーザーが図５のプロセスを使用して装置に認証させると、認証システムは、小さな変化が許容されたしきい値よりも小さい場合、ユーザーの小さな変化を考慮するためにユーザーの動的モデルをアップデートする。

なお、処理は、顔のマイクロ表情だけを検査するものではなく、顔の形状、部分の関係／相対的なサイズ（顔の鼻、目、口などのような特徴）、並びに顔のモーションを動的モデルと比較する。従って、多様な実施形態は、顔のモーション（マイクロ表情）と、またユーザーの生体認証（ｂｉｏｍｅｔｒｉｃ）による顔の特徴とをマッチして、認証のセキュリティで非常に高い信頼レベルを得ることができる。

図６は、本発明の一実施形態による電子装置がユーザーを認識するトレーニングの他の例を示すフローチャートである。図６を参照すると、例えばスマートフォン１００Ａのような電子装置１００をトレーニングするための他の例のフローチャート６００が示される。

ブロック６０２において、トレーニングプロセスを開始するためにユーザーから入力が受信される。入力は、例えばトレーニングプロセスを開始するための、ユーザーによるスマートフォン１００Ａに表示された適切なキーのタップ（ｔａｐ）、適切な言語的（ｖｅｒｂａｌ）反応などである。ブロック６０４において、スマートフォン１００Ａは、ユーザーに刺激を提供する。刺激は、愛する人の写真や愛する人によって作られた音声であり、情緒的な刺激と称される。ユーザーは、認証プロセスに利用可能な複数の情緒的な刺激の中から選択することができる。情緒的な刺激は、スマートフォン１００Ａから又はスマートフォン１００Ａで利用可能なビデオ、写真、及び／又は音声の記録からのものである。

ブロック６０６において、スマートフォン１００Ａは、刺激の期間中に第１のセンサー（カメラ）１２２でユーザーの顔をキャプチャーする。これは、ユーザーの顔のモーション検出をキャプチャーすることと称される。キャプチャー時間は短い可能性があり、刺激の全期間で必須ではないことがある。キャプチャー時間は、ユーザーのビデオを分析することにより決定され、望みの筋肉の動き又はマイクロ表情が特定の時間区間でキャプチャーされたものとして決定される。

ブロック６０８において、例えばプロセッサ２００及び／又はプロセッサ１１２のようなプロセッサは、キャプチャーされたビデオを処理する。処理は、例えば不随意的であり、ユーザーを眺める人に一般的に見えない顔での特定のマイクロ表情を決定することを含む。用語である「マイクロ表情」は、スナップショット（ｓｎａｐｓｈｏｔ）を撮る時間で顔の構成として発生する瞬時の（ｆｌｅｅｔｉｎｇ）表情を表すのに使用されるが、本明細書では、この用語は、スナップショットだけでなく、表情が発生する前に、発生する間に、及び発生した後に、顔の全体的な力学関係（ｄｙｎａｍｉｃｓ）を含む。即ち、情緒的な反応は、情緒的な刺激が提供されるときの顔モーションの動力学（ｋｉｎｅｔｉｃｓ）を含む。マイクロ表情は、随意的及び不随意的な筋肉の動きを含む。このようなマイクロ表情は、愛する人を眺める時及び／又は愛する人の音声を聞くときに発生する。この情緒的な反応は、装置によって与えられる同一の情緒的な刺激に対して異なるユーザーでは十分に同様に発生しないはずであり、従って「情緒的なパスフレーズ」として作用する。

カメラシステムの異なるタイプは、ユーザーの顔の動き（モーション検出）をキャプチャーするために使用される。例えば、３次元ビデオカメラを使用するか、又は高速のフレームレートでモーションキャプチャーを提供する高速の２次元カメラを使用する。しかし、２次元カメラは、３次元カメラにより提供されるデータよりも認証の低い信頼レベルを提供する。処理は、例えば位置、期間などで、ユーザー毎に異なるパスフレーズを話すことと相関付けられた特定のマイクロ表情をマッチし、ここで、筋肉は、例えばユーザーの口及び／又は目の中や周辺に位置する。従って、ユーザーは、情緒的な刺激に対する情緒的な反応の特定のマイクロ表情と相関することによって識別される。ユーザーの情緒的な反応は、完全な認証のために不可欠であるが、十分ではない可能性のあることに留意しなければならない。ビデオの処理は、また図４で使用されたプロセスと同様に、認証されたユーザーの顔と顔のモーションの動的モデルを構築することを含む。

ブロック６１０において、パスフレーズと相関されたマイクロ表情は、データとして格納され、予想される情緒的な反応と称される。マイクロ表情を識別することの簡単な例は、例えば口の領域を識別した後に口の領域をより小さな領域にマッピングすることである。例えば、口の領域はローカル領域に形成され、ローカル領域は口の幅（ｗｉｄｔｈ）のパーセントに関連付けられる。これにより、ユーザーの口の絶対的な長さ（ｌｅｎｇｔｈ）を決定する必要なく、ユーザーの口に関連してローカル領域が形成される。その後、このようなローカル領域は、異なる時間でマイクロ表情にマッピングされる。例えば、ボクセル（ｖｏｘｅｌ）は、マイクロ表情の期間だけでなく、３次元でマイクロ表情に関連付けられた情報を提供するためにローカル領域の３次元マッピングを提供する。３次元マッピングが使用されない場合、高速カメラは、マイクロ表情をキャプチャーし、持続期間及び位置に関連してマイクロ表情をマッピングする。従って、処理は、他のマイクロ表情に関連して、特定のローカル領域でマイクロ表情の量及び持続期間を示すことを含む。

多様な実施形態は、一定のセットであるローカル領域を含み、ローカル領域の数は予め決定され、ローカル領域のサイズは同一である。他の実施形態は、必要に応じてローカル領域の数及び各ローカル領域のサイズを変更する。一部の実施形態は、初期に一定のサイズのデフォルト（ｄｅｆａｕｌｔ）数のローカル領域が存在し、その後のトレーニングが進むにつれて、各ローカル領域のサイズだけでなく、ローカル領域の数が変更される２つの方法を全て使用する。

例えば、ビデオは、関心（ｉｎｔｅｒｅｓｔ）のあるマイクロ表情を決定するために処理・分析される。このようなマイクロ表情は、口の中及び／又は周辺のサイズが異なる特定の部分で発生する。スマートフォン１００Ａがユーザーに対してトレーニングされると、決定された情報の一部はローカル領域の数及びローカル領域のサイズである。その後、ユーザーが認証されるときに、認証プロセスは、特定のローカル領域（各ローカル領域の数とサイズで）を使用して特定のマイクロ表情を見つける。

口の領域がユーザーのマイクロ表情を検出する例として使用されたが、多様な実施形態は、これに限定されない。例えば、顔の他の領域、例えばマイクロ表情を提供するのに有用できる目の周辺や顔のより広い領域や顔の全体が有る。

同一の刺激で生成されて処理されたデータの連続的な繰り返しのために、格納されたデータは、最後の繰り返しの処理結果を考慮するために、必要に応じてアップデートされる。

ブロック６１２において、ユーザーに同一の情緒的な刺激が再び提供されなければならないか否かに対する決定が行われる。同一の情緒的な刺激が再び提供される場合、その次のブロック６０４で情緒的な刺激が提供される。反復的な分析は、より一貫して発生する特定のマイクロ表情を提供し、これらは、認証のために使用されたり、少なくともより大きな重みを受けるために使用されたりする。将来の認証に使用する特定のマイクロ表情を決定するのは、例えばこのようなマイクロ表情がどのように信頼できるように発生するかに依存する。

認証プロセスは、また、例えばローカル領域に関連付けられた任意のマイクロ表情を全く持たないローカル領域を見つけることができる。このようなローカル領域の一部又は全部は、また認証の目的のために指定される。

ユーザーが識別されるか否かの決定は、多くの異なるアルゴリズムのいずれか１つを使用することができ、アルゴリズムは、例えばカテゴリーの第１の特徴の少なくとも第１のパーセントをマッチすることを含む。他の実施形態は、またカテゴリーの第２の特徴などの少なくとも第２のパーセントをマッチすることを要求する。カテゴリーの第１の特徴は、常に確実に検出されるこれらのマイクロ表情である。カテゴリーの第２の特徴は、殆どの時間で検出されるこのようなマイクロ表情である。第１のパーセント及び第２のパーセントは同一であるが、これらはまた異なることがある。なお、特定のアプリケーションは、独自のマッチ率を求める。例えば、銀行サーバは、特定の取引においてユーザーを認証するために必要なマッチ率のパーセントを提供する。

同一の刺激がユーザーに提供される必要がない場合、その後のブロック６１４において、異なる刺激がユーザーに提供されなければならないか否かに対する決定が行われる。多数の異なる刺激を使用することで、ユーザーはより正確に識別される。ユーザーに他の刺激が提供されなければならない場合、その後のブロック６０４で、他の刺激が提供される。ユーザーに他の刺激が提供される必要がない場合、その後のトレーニングは終了し、スマートフォン１００Ａは、ブロック６１６でトレーニングセッションが完了したことを示すメッセージを出力する。

多様な実施形態は、キャプチャーされたビデオを処理する異なるアーキテクチャを含む。例えば、１つのアーキテクチャはキャプチャーされたビデオを処理する特定のソフトウェアを実行する一般的なプロセッサを含み、他のアーキテクチャはビデオを処理する専用プロセッサを含む。従って、本発明の実装によって使用されるプロセッサのタイプ及び／又はプロセッサの数に対する限定はない。

なお、スマートフォン１００Ａは、１名以上のユーザーを認識するようにトレーニングされる。従って、このような場合、ユーザーはユーザーの名前を選択し、ブロック６０８での処理は、特定のユーザーとのマッチを試みるためにビデオ入力の処理を要求する。他の場合、ユーザーはユーザーの名前を選択しなくてもよく、処理は、マッチが行われるか又はマッチがなくなるまで異なるユーザーの各々に対してマッチを試みる。

なお、スマートフォン１００Ａをトレーニングさせることを説明したが、多様な実施形態は、他の電子装置１００がユーザーを認識するための情報をダウンロードするように許容する。電子装置１００は、既にユーザーを認識するようにトレーニングされている可能性があるため、ユーザーのキャプチャーされたビデオと比較する必要がある情報を含む。これは、例えば認証情報をダウンロードする前にログイン／パスワード方式を使用して、スマートフォン１００Ａだけでなく電子装置１００でもユーザーの認証を行うことを要求する。従って、電子装置１００は、情緒的な刺激及び対応して予想される情緒的な反応をスマートフォン１００Ａにダウンロードする。

なお、一部の実施形態は、例えば顔の形状や部分の相対的なサイズ／関係（顔の鼻、目、口などのような特徴）などのような生体特性も比較する。従って、認証されたユーザーの生体認証の顔の特徴及びマイクロ表情を更にマッチすることは、認証のセキュリティで非常に高い信頼レベルを付与する。

図７は、本発明の一実施形態によるユーザーを認識する電子装置の他の例を示すフローチャートである。図７を参照すると、スマートフォン１００Ａを有するユーザーの他の例のフローチャート７００が示される。ブロック７０２において、ユーザーを識別するための指示が受信される。これは、例えば休憩後にピークアップされた携帯電話のモーションの検出、ボタンの押しやスイッチトグリングのようなユーザーの触覚入力の検出、ユーザーによる音声入力などによって、認証プロセスを開始するオプションに対するユーザーの選択に起因するものである。この指示は、また、例えば外部装置との取引を開始又は完了するためにユーザーを識別しようとするアプリケーションによる要請である。例えば、ユーザーがオンラインの銀行口座にログインする場合、ユーザーのスマートフォン１００Ａの銀行アプリケーションは銀行にアクセスする前に認証を要請するか、又は銀行サーバは大規模な取引などを完了する前にユーザーの識別を要請する。

ブロック７０４において、スマートフォン１００Ａは、ユーザーに情緒的な刺激を提供する。ブロック７０６において、スマートフォン１００Ａは、情緒的な刺激が提供されている間に、又は図６に関して説明したトレーニング中に決定されたキャプチャー時間の間に、ユーザーの顔のビデオをキャプチャーする。ブロック７０８において、キャプチャーされたモーション検出は、ユーザーを認証するために予想される情緒的な反応の格納されたデータと比較するために必要な処理されたデータを決定するように処理される。処理は、例えばローカル領域の数及びローカル領域のサイズのような格納されたデータからの情報を使用する。なお、処理は、顔のマイクロ表情だけを検査するものではなく、顔の形状、部分の相対的なサイズ／関係（顔の鼻、目、口などのような特徴）、及び顔のモーションを動的モデルと比較する。認証されていないユーザーが、提供された刺激に対して非常によく類似した不随意的な反応を示すことがまれにあるが、認証されたユーザーの生体認証の顔の特徴及び顔のモーションを更にマッチさせることは、認証のセキュリティで非常に高い信頼レベルを付与する。

ブロック７１０において、処理されたデータは、格納されたデータと比較される。ブロック７１２で、予想される情緒的な反応とマッチされた場合、その後の成功は、ブロック７１８で示される。ブロック７１２で、マッチされない場合、ブロック７１４で、許容された試行回数が満たされているか否かの決定が行われる。許容された試行回数は、例えばユーザーの認証を要請する銀行のサーバなどのような外部装置及び／又はユーザーによって設定される。

試行回数が満たされると、その後のブロック７１６は、認証を要請した実体（ユーザ又は外部装置）に失敗を示す。要請した実態が外部装置である場合、ユーザーは、また失敗に対する通知を受け取る。試行回数が満たされない場合、その後のブロック７０４で、ユーザーに情緒的な刺激を提供し、情緒的な刺激は、以前に提供されたものと同一であるか又は異なる情緒的な刺激である。

本発明の多様な実施形態を開示したが、１つの特定の実施形態に関連して説明した特定のタスクは、適用可能な他の実施形態にも使用されることに留意しなければならない。即ち、本発明の範囲は、説明した実施形態だけに限定されるものではない。

従って、本発明の多様な実施形態は、ユーザー認証のための方法及びシステムに関するものであり、これらは、例えば金融取引を含む多様な取引を遂行するための及び／又は多様な装置にアクセスするためのユーザーを認証するために使用される。

本発明の実施形態によると、電子装置でユーザーを認証する方法を開示し、その方法は、予め決定された情緒的な刺激をユーザーに提供する段階と、３次元ビデオカメラで、予め決定された情緒的な刺激が提供される時間の少なくとも一部の間にユーザーの顔のモーション検出をキャプチャーする段階と、キャプチャーされたモーション検出を処理してユーザーの情緒的な反応を識別する段階と、識別された情緒的な反応を格納されたデータと比較してユーザーを認証するか否かを決定する段階と、を有する。

識別された情緒的な反応は、ユーザーのマイクロ表情を含み、マイクロ表情は、随意的及び不随意的な筋肉の動きを含み得る。このようなマイクロ表情は、時々肉眼で区別されない可能性がある。

ユーザーの認証は、ユーザーの認証を開始するための入力を受信する段階を含み得る。入力は、ユーザーの開始入力又はアプリケーションの起動入力のいずれか１つであり得る。入力は、ユーザーが選択した命令、電子装置の検出されたモーション、ユーザーからの音声入力、電子装置のアプリケーションからの要請、他の電子装置からの要請などのうちのいずれか１つであり得る。

比較に基づいてユーザーを認証しないと決定した場合、同一の予め決定された情緒的な刺激又は他の（異なる）予め決定された情緒的な刺激を提供することによってユーザーの認証を再び試みることができる。

ユーザーに提供される予め決定された情緒的な刺激は、予め記録された音声及び予め記録されたビデオのいずれか１つ又は両方であり得る。情緒的な刺激は、例えば認証プロセスのための以前の設定中にユーザーによって選択されていた可能性がある。その当時の情緒的な刺激に対するユーザーの情緒的な反応は、その情緒的な刺激に対して予想される情緒的な反応として格納され得る。ユーザーによって選択されたいくつかの情緒的な刺激が有り得、従って、いくつかの予想される情緒的な反応がメモリ／ストレージに格納される。従って、格納されたデータは１つ以上の予め決定された情緒的な刺激に対応するユーザーからの１つ以上の予想される情緒的な反応を含み、１つ以上の予想される情緒的な反応は１つ以上の予め決定された情緒的な刺激から示されるユーザーの以前の情緒的な反応から処理される。一部の場合において、格納されて予想される情緒的な反応は、認証プロセスが設定されていた可能性がある他の電子装置からダウンロードされ得る。

本発明の他の実施形態は、ユーザーを認証するように構成された電子装置を含む。電子装置は、予め決定された情緒的な刺激をユーザーに提供するように構成された１つ以上の出力装置と、予め決定された情緒的な刺激が提供される時間の少なくとも一部の間にユーザーの顔のモーション検出をキャプチャーするように構成された３次元ビデオカメラと、キャプチャーされたモーション検出を処理してユーザーの情緒的な反応を識別し、識別された情緒的な反応をメモリに格納されたデータと比較してユーザーを認証するか否かを決定するように構成されたプロセッサと、を備える。

キャプチャーされたモーション検出を処理するように構成されたプロセッサは、ユーザーのマイクロ表情を識別するように構成される。プロセッサは、随意的及び不随意的な筋肉の動きを検出することによってユーザーのマイクロ表情を識別するように構成される。電子装置は、ユーザーの認証を開始するための入力を受信するように構成され、入力は、ユーザーの開始入力又はアプリケーションの起動入力であり得る。

入力は、ユーザーによって（タッチ検出スクリーン、ボタンなどのタッチによって、又はスイッチ、ボタンを押すことなどの操作によって）活性化された触覚入力装置、電子装置のモーションを検出するように構成されたモーションセンサー、ユーザーからの音声入力を受信するように構成されたマイク、電子装置のアプリケーションからの要請、他の電子装置からの要請を受信するように構成されたトランシーバのうちのいずれか１つから受信される。

プロセッサは、プロセッサが比較に基づいてユーザーを認証しないと決定した場合、同一の予め決定された情緒的な刺激又は異なる予め決定された情緒的な刺激を提供することによってユーザーの認証を再び試みるように構成される。予め決定された情緒的な刺激は、予め記録された音声及び予め記録されたビデオのいずれか１つ又は両方であり得る。

格納されたデータは、１つ以上の予め決定された情緒的な刺激に対応するユーザーからの１つ以上の予想される情緒的な反応を含み、１つ以上の予想される情緒的な反応は、１つ以上の予め決定された情緒的な刺激から示されるユーザーの以前の情緒的な反応から処理される。

本発明の他の実施形態は、電子装置でユーザーを認証する方法であって、その方法は、ユーザーから言われた音声入力を受信する段階と、３次元ビデオカメラを介して、ユーザーが音声入力を言うときのユーザーの顔のモーションのビデオ入力を受信する段階と、顔のモーションを受信された音声入力と相関させる段階と、相関された顔のモーションを格納されたデータと比較してユーザーを認証するか否かを決定する段階と、を有する。

格納されたデータは、予想される顔のモーションを含み、予想される顔のモーションは、ユーザーが以前に音声入力を言ったとき、例えば認証方法が設定されたときにキャプチャーされる。

認証は、ユーザーが予め決定された音声入力を言うようにプロンプトする段階を含み得る。顔のモーションは、マイクロ表情を含み、マイクロ表情は随意的及び不随意的な筋肉の動きを含む。

認証は、ユーザーの認証を開始するための入力が受信されると開始されきる。入力は、例えばユーザーの開始入力又はアプリケーションの起動入力であり得る。入力は、例えばユーザーが選択した命令、電子装置のモーションを検出する電子装置内のセンサー、ユーザーからの口頭入力、電子装置のアプリケーションからの要請、他の電子装置からの要請などである。

比較に基づいてユーザーを認証しないと決定した場合、ユーザーが同一の音声入力又は他の（異なる）音声入力を言うようにプロンプトすることによってユーザーの認証を再び試みることができる。

本発明の他の実施形態は、ユーザーを認証するように構成された電子装置を含む。電子装置は、ユーザーから音声入力を受信するように構成されたマイクと、ユーザーの顔のモーションをキャプチャーするように構成された３次元カメラシステムと、顔のモーションを受信された音声入力と相関させ、相関された顔のモーションを格納されたデータと比較してユーザーを認証するか否かを決定するように構成されたプロセッサと、を備える。

格納されたデータは、音声入力と相関された以前にキャプチャーされた予想される顔のモーションを含み得る。予想される顔のモーションは、例えばユーザーが以前に音声入力を言ったときにキャプチャーされた顔のモーションである。これは、認証プロセスのための設定の間に遂行される。顔のモーションは随意的及び不随意的な筋肉の動きを有するマイクロ表情を含み得る。

電子装置は、例えばユーザーが予め決定された音声入力を言うようにプロンプトを出力するように構成された出力装置を含み得る。出力装置は、例えばスピーカー及び／又は視覚的なディスプレイであり得る。

プロセッサは、受信された音声入力を処理して音声入力が予め決定された音声入力であるか否かを決定するように構成され、音声入力は１つ以上の単語を含み得る。音声入力は、また音を含み得る。

電子装置は、ユーザーの認証を開始するための入力を受信するように構成され、入力は、ユーザーの開始入力又はアプリケーションの起動入力であり得る。入力は、例えばユーザーによって（例えば、タッチ検出スクリーン／ボタン／など又はトグルスイッチ、押されるボタンなどを含む）活性化された触覚入力装置、電子装置のモーションを検出するように構成されたモーションセンサー、ユーザーからの音声入力を受信するように構成されたマイク、電子装置のアプリケーションからの要請、又は他の電子装置からの要請を受信するように構成されたトランシーバから受信される。

プロセッサは、比較に基づいてユーザーを認証しないと決定した場合、ユーザーが音声入力を言うようにプロンプトすることによってユーザーの認証を再び試みるように構成され得る。音声入力は、同一の音声入力又は異なる音声入力である。

従って、顔のマイクロ表情及び／又は顔の形状並びに顔の部分の相対的なサイズ／関係のような他の生体認識の特徴を処理することにより、認証のセキュリティで非常に高い信頼レベルを付与することができる。

従って、本発明の多様な実施形態は、信頼度、速度、並びにセキュリティと共に多くの目的のためにユーザーを認証することにより、多くのアプリケーションにおいて使用される。

本発明の多様な実施形態の多様な部分は、コンピュータプログラムとして記録され、非一時的（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）マシン読み取り可能な記録媒体を使用してプログラムを遂行するプロセッサで実装される。非一時的マシン読み取り可能な記録媒体は、例えば磁気（ｍａｇｎｅｔｉｃ）ストレージ媒体（例えばＲＯＭ、フロッピー（登録商標）ディスク、ハードディスクなど）、光学ストレージ媒体（例えば、ＣＤ−ＲＯＭ、ＤＶＤ）、フラッシュドライバーなどを含む。

本発明の多様な実施形態について図面を参照しながら説明したが、本発明が属する技術分野における通常の技術者は、特許請求の範囲によって定義された本発明の技術的思想を逸脱しない範囲で形態や細部事項の多様な変形が行われることを理解するだろう。従って、上述した実施形態及び本明細書の多様な態様は、限定的なものではなく例としてのものと理解されるべきである。

１００、３００電子装置
１００Ａ電子装置（スマートフォン）
１００Ｂ電子装置（スマートウォッチ）
１０２ディスプレイ
１１０制御モジュール
１１２、２００プロセッサ
１２０センサーモジュール
１２２第１のセンサー（カメラ）
１２４第２のセンサー（マイク）
１３０バッテリ
２１０メモリ
２１２オペレーティングシステム
２１４アプリケーション
２１６不揮発性メモリ
２１８揮発性メモリ
２２０ＰＭＵ（ＰｏｗｅｒＭａｎａｇｅｍｅｎｔＵｎｉｔ）
２３０通信インターフェース
２４０ＩＯモジュール
２４２入力装置
２４２ａボタン
２４２ｂタッチスクリーン
２４２ｃマイク
２４４出力装置
２４４ａスピーカー
２４４ｂＬＥＤ
３０２通信信号

Claims

電子装置でユーザーを認証する方法であって、
予め決定された情緒的な刺激（ｅｍｏｔｉｏｎａｌｓｔｉｍｕｌｕｓ）を前記ユーザーに提供する段階と、
３次元ビデオカメラで、前記予め決定された情緒的な刺激が提供される時間の少なくとも一部の間に前記ユーザーの顔のモーション（ｍｏｔｉｏｎ）検出をキャプチャーする段階と、
前記キャプチャーされたモーション検出を処理して前記ユーザーの情緒的な反応（ｅｍｏｔｉｏｎａｌｒｅｓｐｏｎｓｅ）を識別する段階と、
前記識別された情緒的な反応を格納されたデータと比較して前記ユーザーを認証するか否かを決定する段階と、を有することを特徴とする方法。
前記識別された情緒的な反応は、前記ユーザーのマイクロ表情（ｍｉｃｒｏ−ｅｘｐｒｅｓｓｉｏｎ）を含むことを特徴とする請求項１に記載の方法。
前記マイクロ表情は、随意的及び不随意的な筋肉の動きを含むことを特徴とする請求項２に記載の方法。
前記ユーザーの認証を開始するための入力を受信する段階を含むことを特徴とする請求項１に記載の方法。
前記入力は、ユーザーの開始入力又はアプリケーションの起動入力のいずれか１つであることを特徴とする請求項４に記載の方法。
前記入力は、ユーザーが選択した命令、前記電子装置の検出されたモーション、ユーザーからの音声入力、前記電子装置のアプリケーションからの要請、又は他の電子装置からの要請のいずれか１つであることを特徴とする請求項４に記載の方法。
前記比較に基づいて前記ユーザーを認証しないと決定した場合、前記予め決定された情緒的な刺激又は他の予め決定された情緒的な刺激を提供することによって前記ユーザーの認証を再び試みる段階を含むことを特徴とする請求項１に記載の方法。
前記予め決定された情緒的な刺激は、予め記録された音声及び予め記録されたビデオのいずれか１つ又は両方であることを特徴とする請求項１に記載の方法。
前記格納されたデータは、１つ以上の予め決定された情緒的な刺激に対応する前記ユーザーからの１つ以上の予想される情緒的な反応を含み、
前記１つ以上の予想される情緒的な反応は、前記１つ以上の予め決定された情緒的な刺激から示される前記ユーザーの以前の情緒的な反応から処理されることを特徴とする請求項１に記載の方法。
ユーザーを認証するように構成された電子装置であって、
予め決定された情緒的な刺激（ｅｍｏｔｉｏｎａｌｓｔｉｍｕｌｕｓ）を前記ユーザーに提供するように構成された１つ以上の出力装置と、
前記予め決定された情緒的な刺激が提供される時間の少なくとも一部の間に前記ユーザーの顔のモーション（ｍｏｔｉｏｎ）検出をキャプチャーするように構成された３次元ビデオカメラと、
プロセッサと、を備え、
前記プロセッサは、
前記キャプチャーされたモーション検出を処理して前記ユーザーの情緒的な反応（ｅｍｏｔｉｏｎａｌｒｅｓｐｏｎｓｅ）を識別し、
前記識別された情緒的な反応をメモリに格納されたデータと比較して前記ユーザーを認証するか否かを決定するように構成されることを特徴とする電子装置。
前記キャプチャーされたモーション検出を処理するように構成されたプロセッサは、前記ユーザーのマイクロ表情（ｍｉｃｒｏ−ｅｘｐｒｅｓｓｉｏｎ）を識別するように構成されることを特徴とする請求項１０に記載の電子装置。
前記プロセッサは、随意的及び不随意的な筋肉の動きを検出することによって前記ユーザーのマイクロ表情を識別するように構成されることを特徴とする請求項１１に記載の電子装置。
前記電子装置は、前記ユーザーの認証を開始するための入力を受信するように構成されることを特徴とする請求項１０に記載の電子装置。
前記入力は、ユーザーの開始入力又はアプリケーションの起動入力のいずれか１つであることを特徴とする請求項１３に記載の電子装置。
前記入力は、前記ユーザーによって活性化された触覚入力装置、前記電子装置のモーションを検出するように構成されたモーションセンサー、前記ユーザーからの音声入力を受信するように構成されたマイク、前記電子装置のアプリケーションからの要請、又は他の電子装置からの要請を受信するように構成されたトランシーバのいずれか１つから受信されることを特徴とする請求項１３に記載の電子装置。
前記プロセッサは、前記比較に基づいて前記ユーザーを認証しないと決定した場合、前記予め決定された情緒的な刺激又は他の予め決定された情緒的な刺激を提供することによって前記ユーザーの認証を再び試みるように構成されることを特徴とする請求項１０に記載の電子装置。
前記予め決定された情緒的な刺激は、予め記録された音声及び予め記録されたビデオのいずれか１つ又は両方であることを特徴とする請求項１０に記載の電子装置。
前記格納されたデータは、１つ以上の予め決定された情緒的な刺激に対応する前記ユーザーからの１つ以上の予想される情緒的な反応を含み、
前記１つ以上の予想される情緒的な反応は、前記１つ以上の予め決定された情緒的な刺激から示される前記ユーザーの以前の情緒的な反応から処理されることを特徴とする請求項１０に記載の電子装置。
電子装置でユーザーを認証する方法であって、
前記ユーザーから音声入力を受信する段階と、
３次元ビデオカメラを介して、前記ユーザーが前記音声入力を言う（ｓａｙ）ときの前記ユーザーの顔のモーション（ｍｏｔｉｏｎ）のビデオ入力を受信する段階と、
前記顔のモーションを前記受信された音声入力と相関させる段階と、
前記相関された顔のモーションを格納されたデータと比較して前記ユーザーを認証するか否かを決定する段階と、を有することを特徴とする方法。
前記格納されたデータは、予想される顔のモーションを含み、
前記予想される顔のモーションは、以前に前記音声入力を言った前記ユーザーからキャプチャーされることを特徴とする請求項１９に記載の方法。
前記ユーザーが予め決定された音声入力を言うようにプロンプト（ｐｒｏｍｐｔ）する段階を含むことを特徴とする請求項１９に記載の方法。
前記顔のモーションは、マイクロ表情（ｍｉｃｒｏ−ｅｘｐｒｅｓｓｉｏｎ）を含むことを特徴とする請求項１９に記載の方法。
前記受信された音声入力を処理して前記音声入力が予め決定された音声入力であるか否かを決定する段階を含むことを特徴とする請求項１９に記載の方法。
前記予め決定された音声入力は、１つ以上の単語を含むことを特徴とする請求項２３に記載の方法。
前記ユーザーの認証を開始するための入力を受信する段階を含むことを特徴とする請求項２３に記載の方法。
前記入力は、ユーザーの開始入力又はアプリケーションの起動入力のいずれか１つであることを特徴とする請求項２５に記載の方法。
前記入力は、ユーザーが選択した命令、前記電子装置の検出されたモーション、前記ユーザーからの口頭入力、前記電子装置のアプリケーションからの要請、又は他の電子装置からの要請のいずれか１つであることを特徴とする請求項２５に記載の方法。
前記比較に基づいて前記ユーザーを認証しないと決定した場合、前記ユーザーが前記音声入力又は他の音声入力を言うようにプロンプトすることによって前記ユーザーの認証を再び試みる段階を含むことを特徴とする請求項１９に記載の方法。
ユーザーを認証するように構成された電子装置であって、
前記ユーザーから音声入力を受信するように構成されたマイクと、
前記ユーザーの顔のモーション（ｍｏｔｉｏｎ）をキャプチャーするように構成された３次元カメラシステムと、
プロセッサと、を備え、
前記プロセッサは、
前記顔のモーションを前記受信された音声入力と相関させ、
前記相関された顔のモーションを格納されたデータと比較して前記ユーザーを認証するか否かを決定するように構成されることを特徴とする電子装置。
前記格納されたデータは、前記音声入力と相関された以前にキャプチャーされた予想される顔のモーションを含むことを特徴とする請求項２９に記載の電子装置。
前記ユーザーが予め決定された音声入力を言うようにプロンプト（ｐｒｏｍｐｔ）を出力するように構成された出力装置を含むことを特徴とする請求項２９に記載の電子装置。
前記顔のモーションは、マイクロ表情（ｍｉｃｒｏ−ｅｘｐｒｅｓｓｉｏｎ）を含むことを特徴とする請求項２９に記載の電子装置。
前記プロセッサは、前記受信された音声入力を処理して前記音声入力が予め決定された音声入力であるか否かを決定するように構成されることを特徴とする請求項２９に記載の電子装置。
前記予め決定された音声入力は、１つ以上の単語を含むことを特徴とする請求項３３に記載の電子装置。
前記電子装置は、前記ユーザーの認証を開始するための入力を受信するように構成されることを特徴とする請求項３３に記載の電子装置。
前記入力は、ユーザーの開始入力又はアプリケーションの起動入力のいずれか１つであることを特徴とする請求項３５に記載の電子装置。
前記入力は、前記ユーザーによって活性化された触覚入力装置、前記電子装置のモーションを検出するように構成されたモーションセンサー、前記ユーザーからの音声入力を受信するように構成されたマイク、前記電子装置のアプリケーションからの要請、又は他の電子装置からの要請を受信するように構成されたトランシーバのいずれか１つから受信されることを特徴とする請求項３５に記載の電子装置。
前記プロセッサは、前記比較に基づいて前記ユーザーを認証しないと決定した場合、前記ユーザーが前記音声入力又は他の音声入力を言うようにプロンプトすることによって前記ユーザーの認証を再び試みるように構成されることを特徴とする請求項２９に記載の電子装置。