JP2021099802A

JP2021099802A - ユーザーを認証する方法およびシステム

Info

Publication number: JP2021099802A
Application number: JP2020209356A
Authority: JP
Inventors: ジュンシクペク; Joonsick Baick
Original assignee: Line Plus Corp
Current assignee: Line Plus Corp
Priority date: 2019-12-20
Filing date: 2020-12-17
Publication date: 2021-07-01
Also published as: US20210192189A1; KR102464984B1; US11527108B2; CN113014863A; KR20210134540A; KR102320723B1; KR20210080064A

Abstract

【課題】本開示は、ユーザーを認証する方法を提供するものである。【解決手段】本開示のユーザーを認証する方法は、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップと、ユーザー端末から複数の命令に対応して撮影された動画を受信するステップと、動画内にユーザーが存在するか否かを決定するステップと、ユーザーが存在すると決定された場合、動画から抽出されたユーザーの顔に基づいてユーザーを認証するステップを含む。【選択図】図５

Description

本開示は、ユーザー認証方法およびシステムに関するものであって、具体的には、ユーザー端末によって撮影された動画を受信し、受信された動画を分析して動画内にユーザーが存在するか否かを決定し、ユーザーの認証を処理できる方法およびシステムに関するものである。

スマートフォンのようなモバイル機器の拡散およびインターネットの発達により、モバイル機器を利用した金融サービスおよび決済サービスなどが広く利用されている。このような金融および決済サービスを利用するために、ユーザーの実名認証が要求され得る。ただし、このようなサービスを利用する数が急激に増加し、認証サービスを提供する機関のリソースが制限的であるため、対面実名認証を介した実名認証サービスの提供に限界があり得る。これにより、非対面実名認証を通じたユーザーを認証するサービスが最近の画像処理/認識の分野において活発に研究されている。例えば、カメラを用いて撮影された画像から抽出されたユーザーの顔情報が、ユーザーを認証するのに利用されることができる。

ただし、このような非対面実名認証は、対面実名認証よりも実際本人であるかを確認するのが困難であるため、本人ではない者が本人と詐称する副作用が発生する可能性がある。例えば、他人の身分証と同一の人物が印刷された写真や紙を利用して、同一人物と判断される問題があり得る。また、非対面実名認証がクライアントデバイスで行われる場合、クライアントデバイスが処理された実名認証結果を、実名認証を要求するシステムに送信するとき、クラッキングを通じて異なる実名結果が送信される弊害があり得る。さらに、非対面実名認証のための画像認識および処理がサーバーデバイスにおいて行われる場合にも、送受信情報の傍受およびハッキングを通じて非対面実名認証のためにクライアントから送信される画像が変更され得るという問題がある。

韓国登録特許第１０−０５９７７５３号公報

本開示は、前記のような問題点を解決するためのユーザー認証方法、記録媒体に格納されたコンピュータプログラムおよびシステムを提供する。

ユーザーに複数の行動を誘導する複数の命令（ｉｎｓｔｒｕｃｔｉｏｎｓ）に応答させて、ユーザー端末から複数の命令に対応して撮影された動画を受信し、動画内にユーザーが存在するか否かを決定し、ユーザーが存在と決定された場合、動画から抽出されたユーザーの顔に基づいてユーザーを認証するユーザー認証方法およびシステムが提供される。

ユーザー認証プロセスにおいて、カメラを介して撮影された動画は、ユーザー端末からリアルタイムで、そして連続的に受信されるユーザー認証方法およびシステムが提供される。

本開示は、方法、システムまたはコマンドを格納するコンピュータ読み取り可能な格納媒体を含む多様な方式で実装されることができる。

本開示の一実施例によるユーザー認証方法は、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップと、ユーザー端末から複数の命令に対応して撮影された動画を受信するステップと、動画内にユーザーが存在するか否かを決定するステップと、ユーザーが存在すると決定された場合、動画から抽出されたユーザーの顔に基づいてユーザーを認証するステップとを含む。

一実施例によると、ユーザー端末から複数の命令に対応して撮影された動画を受信するステップは、ユーザー端末からユーザー端末との通信のためのチャネルを介して動画をリアルタイムで受信するステップを含む。

一実施例によると、動画は、ユーザー端末との通信のためのチャネルを介して連続的に受信される。

一実施例によると、動画内にユーザーが存在するか否かを決定するステップは、動画を分析して、動画内でユーザーが複数の命令に対応する複数の行動を遂行するか否かを決定するステップと、ユーザーが複数の命令に対応する複数の行動を遂行すると決定された場合、撮影された動画内にユーザーが存在すると決定するステップとを含む。

一実施例によると、ユーザー端末から複数の命令に対応して撮影された動画を受信するステップは、ユーザー端末からユーザーの顔が撮影されるように誘導する命令に対応して撮影された顔関連動画を受信するステップと、ユーザー端末からユーザーの身分証が撮影されるように誘導する命令に対応して撮影された身分証関連動画を受信するステップとを含み、ユーザーを認証するステップは、顔関連動画からユーザーの顔に対する第１の情報を抽出するステップと、身分証関連動画からユーザーの顔に対する第２の情報を抽出するステップと、抽出された第１の情報および抽出された第２の情報を比較するステップと、抽出された第１の情報および抽出された第２の情報が類似する場合、ユーザーを認証するステップとを含む。

一実施例によると、複数の命令は、ユーザーの正面顔が撮影されるように誘導する命令を含む。

一実施例によると、複数の命令は、ユーザーの身分証を動かすように誘導する命令を含み、身分証関連動画を受信するステップは、ユーザー端末から命令に基づいてユーザーの身分証が撮影された動画を受信するステップを含み、ユーザーを認証するステップは、動画を分析して取得したユーザーの身分証の動きに基づいて、動画内にユーザーの身分証が存在するか否かを決定するステップを含む。

一実施例によると、身分証関連動画は、ユーザーの少なくとも一部およびユーザーの身分証が一緒に撮影された動画を含み、身分証関連動画を受信するステップは、ユーザー端末からユーザーの少なくとも一部を含む領域を第１のチャネルで受信するステップと、ユーザー端末からユーザーの身分証を含む領域を第２のチャネルで受信するステップとを含む。

一実施例によると、ユーザーの複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、予め決められた複数の命令の候補の中から、複数の命令をランダムに選択するステップと、ランダムに選択された複数の命令をユーザー端末に送信するステップとを含む。

一実施例によると、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、ユーザーに第１の行動を誘導する第１の命令をユーザー端末に送信するステップを含み、ユーザー端末から複数の命令に対応して撮影された動画を受信するステップは、ユーザー端末から第１の命令に対応して撮影された動画を受信するステップを含み、動画内にユーザーが存在するか否かを決定するステップは、第１の命令に対応して撮影された動画を分析し、ユーザーが第１の命令に応答して、第１の行動を遂行するか否かを決定するステップを含む。

一実施例によると、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、ユーザーが第１の行動を遂行すると決定された場合、ユーザーに第２の行動を誘導する第２の命令をユーザー端末に送信するステップをさらに含み、ユーザー端末から複数の命令に対応して撮影された動画を受信するステップは、ユーザー端末から第２の命令に対応して撮影された動画を受信するステップを含み、動画内にユーザーが存在するか否かを決定するステップは、第２の命令に対応して撮影された動画を分析し、ユーザーが第２の命令に応答して、第２の行動を遂行するか否かを決定するステップを含む。

一実施例によると、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、ユーザーが第１の行動を遂行しないと決定された場合、ユーザーに第３の行動を誘導する第３の命令をユーザー端末に送信するステップを含み、第３の命令は、第１の命令に対応して撮影された動画の分析から取得されたユーザーの行動と第１の行動との相違点に基づいて選択されたものである。

一実施例によると、ユーザーが第１の行動を遂行しないと決定された場合、ユーザー端末との通信のために使用されたチャネルと異なるチャネルを利用してユーザー端末と通信するステップをさらに含む。

一実施例によると、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、複数の命令に対応する複数の解像度に対する情報を複数の命令と一緒にユーザー端末に送信するステップを含む。

一実施例によると、複数の命令に対応する複数の解像度は、複数の命令に対応して撮影される動画が表示される画面での複数の領域のそれぞれに対する解像度を含む。

一実施例によると、複数の命令は、ユーザーの少なくとも一部およびユーザーの身分証が一緒に撮影されるように誘導する命令を含み、ユーザーの身分証が撮影されるように誘導された領域の解像度は、ユーザーの少なくとも一部が撮影されるように誘導された領域の解像度よりも高く設定される。

一実施例によると、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、複数の命令のそれぞれに対応する転送速度に対する情報を複数の命令と一緒にユーザー端末に送信するステップを含む。

本開示の一実施例による上述したユーザー認証方法をコンピュータで実行するためにコンピュータ読み取り可能な記録媒体に格納されたコンピュータプログラムが提供される。

本開示の一実施例によるユーザー認証システムは、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信し、ユーザー端末から複数の命令に対応して撮影された動画を受信するように構成された通信モジュールと、メモリと、メモリと連結され、メモリに含まれたコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサとを含み、少なくとも１つのプロセッサは、動画内にユーザーが存在するか否かを決定し、ユーザーが存在すると決定された場合、動画から抽出されたユーザーの顔に基づいてユーザーを認証するようにさらに構成される。

一実施例によると、通信モジュールは、ユーザー端末からユーザー端末との通信のためのチャネルを介して動画をリアルタイムで受信するようにさらに構成される。

本開示の一実施例によると、ユーザー端末から受信された動画を分析してユーザーが存在するか否かを決定し、ユーザーが存在すると決定された場合にユーザー認証を行うため、ユーザーの印刷された写真や紙を利用してユーザー認証が行われることを防止することができる。

本開示の一実施例によると、リアルタイムで受信された動画を分析してユーザー認証サービスが提供されるため、ユーザーを認証するプロセスにおいて使用される画像や動画が捏造される問題点を解決することができる。

本開示の一実施例によると、ユーザー認証システムがユーザー端末からリアルタイムで受信された動画を分析してユーザー認証を遂行するため、ユーザー認証サービスを提供するアプリケーションだけでなく、ウェブブラウザを通じてもユーザー認証サービスを提供することができる。

本開示の効果は、以上で言及した効果に制限されず、言及されていない他の効果は、請求の範囲の記載から本開示に属する技術分野における通常の知識を有する者（以下、「通常の技術者」という。）に明確に理解できるものである。

本開示の実施例は、以下で説明する添付図面を参照して説明され、ここで類似の参照番号は類似の要素を示すが、これに限定されない。
本開示の一実施例に係るユーザーを認証するプロセスにおいて、ユーザー端末に表示された命令によってユーザーの行動が撮像される動画を示す例示図である。本開示の他の実施例に係るユーザーを認証するプロセスにおいて、ユーザー端末に表示された命令によってユーザーの行動が撮像される動画を示す例示図である。本開示の一実施例に係るユーザー認証サービスを提供するために、ユーザー認証システムが複数のユーザー端末と通信可能に連結された構成を示す概要図である。本開示の一実施例に係るユーザー端末およびユーザー認証システムの内部構成を示すブロック図である。本開示の一実施例に係るユーザー認証システムの構成を示すブロック図である。本開示の一実施例に係るユーザー認証方法を示すフローチャートである。本開示の一実施例に係る入力画像に基づいてオブジェクトの存在結果を推論、または出力するように構成された画像分析モデルを示す図面である。本開示の一実施例に係る複数の命令によるユーザーの行動が撮影された動画に基づいてユーザーを認証する例示を示す図面である。本開示の一実施例に係る例示的な命令情報ＤＢを示す図面である。本開示の一実施例に係るユーザー認証システムによりユーザーの行動が遂行されるか否かに応じて異なる命令が選択される例示を示す図面である。本開示の一実施例に係る命令に対応してユーザーの行動が撮影された画面の例示を示す図面である。本開示の他の実施例に係る命令に対応してユーザーの行動が撮影された画面の例示を示す図面である。本開示のさらに他の実施例に係る命令に対応してユーザーの行動が撮影された画面の例示を示す図面である。本開示の一実施例に係る命令に対応してユーザーおよびユーザーの身分証が一緒に撮影される例示を示す図面である。本開示の一実施例に係るユーザーの身分証が存在するか否かを決定するために命令に対応して身分証の動きが撮影される例示を示す図面である。

以下では、本開示の実施のための具体的な内容を添付された図面を参照して詳細に説明する。ただし、以下の説明において、本開示の要旨を不必要に曖昧にする恐れがある場合には、広く知られた機能や構成に関する具体的な説明は省略することにする。

添付された図面において、同一または対応する構成要素には同一の参照符号が付与されている。また、以下の実施例の説明において、同一または対応する構成要素を重複して記述することが省略されることができる。しかし、構成要素に関する記述が省略されても、そのような構成要素がある実施例に含まれないものと意図されるのではない。

開示された実施例の利点および特徴、そしてそれらを達成する方法は、添付される図面と共に後述されている実施例を参照すると明確になるだろう。しかし、本開示は、以下で開示される実施例に限定されるものではなく、互いに異なる多様な形態で実装されることができ、単に本実施例は本開示が完全であるようにし、本開示が属する技術分野における通常の知識を有する者に発明の範疇を完全に知らせるために提供されるだけのものである。

本明細書において使用される用語について簡単に説明し、開示された実施例について具体的に説明する。本明細書において使用される用語は、本開示における機能を考慮しながら可能な限り現在広く使用される一般的な用語を選択したが、これは関連分野に携わる技術者の意図または判例、新しい技術の出現などによって変わることができる。また、特定の場合は出願人が任意に選定した用語もあり、この場合、該当する発明の説明部分で詳細にその意味を記載する。したがって、本開示において使用される用語は、単純な用語の名称ではなく、その用語が有する意味と本開示の全般にわたる内容に基づいて定義されるべきである。

本明細書での単数の表現は、文脈上明らかに単数のものであると特定しない限り、複数の表現を含む。また、複数の表現は、文脈上明らかに複数のものであると特定しない限り、単数の表現を含む。明細書全体においてある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するのではなく、他の構成要素をさらに含むことが可能であることを意味する。

また、明細書において使用される「モジュール」または「部」という用語は、ソフトウェアまたはハードウェア構成要素を意味し、「モジュール」または「部」は、ある役割を遂行する。しかしながら、「モジュール」または「部」は、ソフトウェアまたはハードウェアに限定される意味ではない。「モジュール」または「部」は、アドレッシングできる格納媒体にあるように構成されることもでき、１つまたはそれ以上のプロセッサを再生させるように構成されることもできる。したがって、一例として、「モジュール」または「部」は、ソフトウェア構成要素、オブジェクト指向ソフトウェア構成要素、クラス構成要素およびタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバ、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイまたは変数のうち少なくとも１つを含むことができる。構成要素と「モジュール」または「部」は、もっと小さい数の構成要素および「モジュール」または「部」で結合されたり、追加の構成要素と「モジュール」または「部」にさらに分離されたりすることができる。

本開示の一実施例によると、「モジュール」または「部」は、プロセッサおよびメモリで実装されることができる。「プロセッサ」は、汎用プロセッサ、中央処理装置（ＣＰＵ）、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、コントローラ、マイクロコントローラ、状態マシンなどを含むように広く解釈されるべきである。いくつかの環境において、「プロセッサ」は、注文型半導体（ＡＳＩＣ）、プログラム可能な論理デバイス（ＰＬＤ）、フィールドプログラム可能ゲートアレイ（ＦＰＧＡ）などを指すこともできる。「プロセッサ」は、例えば、ＤＳＰとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサの組み合わせ、ＤＳＰコアと結合した１つ以上のマイクロプロセッサの組み合わせ、または任意の他のそのような構成の組み合わせのような処理デバイスの組み合わせを指すこともできる。また、「メモリ」は、電子情報を格納可能な任意の電子コンポーネントを含むように広く解釈されるべきである。「メモリ」は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、プログラム可能な読み出し専用メモリ（ＰＲＯＭ）、消去可能プログラム可能な読み出し専用メモリ（ＥＰＲＯＭ）、電気的に消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、磁気または光学データ格納装置、レジスタなどのプロセッサ読み出し可能媒体などの多様なタイプを指すこともできる。プロセッサがメモリから情報を読み出し/またはメモリに情報を記録することができれば、メモリは、プロセッサと電子通信状態にあると呼ばれる。プロセッサに集積されたメモリは、プロセッサと電子通信状態にある。

本開示において、「システム」は、サーバーデバイスとクラウドデバイスのうちの少なくとも１つのデバイスを含むことができるが、これに限定されるものではない。例えば、システムは、１つ以上のサーバーデバイスで構成されることができる。他の例として、システムは、１つ以上のクラウドデバイスで構成されることができる。さらに他の例として、システムは、サーバーデバイスとクラウドデバイスが一緒に構成されて動作されることができる。

本開示において、「画像」は、１つ以上の画像を含むことができ、複数の画像を含む動画を指すこともできる。

本開示において、「動画」は、カメラで撮影された複数の画像を含み、画像内の１つ以上のオブジェクトが動く映像を指すことができる。例えば、動画は、ユーザー端末で撮影されたすべての画像を含むことができる。他の例として、動画は、ユーザー端末で撮影された画像の中から抽出されたフレーム（ｆｒａｍｅ）に対応する画像および/または一部の画像を含むことができる。ここで、ユーザー端末で撮影された動画から抽出されるフレームまたは画像の数は調節されることができる。

本開示において、「ユーザーの行動が撮影された動画」は、ユーザーが自分の身体および/または物を利用して遂行された行動が撮影された動画を含む。例えば、自分の身体は、顔、手、腕、足などを含むことができる。また、物は、ユーザーが手で持って任意の行動を取ることができるオブジェクトを意味することができ、例えば、身分証などを含むことができるが、これに限定されない。

本開示において、「ユーザーが存在するか否かを決定」することは、ユーザーが現実に実際にいるか否かを決定することを含むことができる。例えば、複数の命令に対応して撮影された動画内にユーザーが存在するか否かは、動画内に撮影されたユーザーが現実に実際にいるか否かを指すことができる。ここで、実際のユーザーではなく、ユーザーが撮像または撮影された画像、紙、動画などがユーザー端末によって撮影される場合、ユーザーが存在しないものと判定されることができる。

本開示において、「リアルタイムで受信」は、データの発生と同一に受信することを指すことができる。一実施例によると、撮影された動画をリアルタイムで受信することは、イメージセンサによって動画が撮影されてすぐに撮影された動画が受信されることを指すことができる。例えば、ユーザー認証システムがユーザー端末から撮影された動画をリアルタイムで受信することは、ユーザー端末によって動画が撮影されてすぐにユーザー認証システムに送信し、ユーザー認証システムがユーザー端末から撮影された動画を受信することを指すことができる。ここで、ユーザー端末がユーザー認証システムに送信するとき、ユーザー端末の動画撮影/処理時間および/またはユーザー端末からユーザー認証システムに提供される通信遅延が発生する可能性があるが、このような動画撮影/処理時間および/または任意の通信遅延時間以降に受信された動画もリアルタイムで受信されたものであると判断することができる。

本開示において、「身分証」は、個人またはユーザーの身上または身元情報を証明する文書またはカードを指すことができる。例えば、身分証は、住民登録証、社会保障カード（ｓｏｃｉａｌｓｅｃｕｒｉｔｙｃａｒｄ）、運転免許証、パスポート、学生証、障害者手帳などを含むことができるが、これに限定されない。

本開示において、「類似」は、同一または類似するとの意味をすべて含むことができる。例えば、両情報が類似するということは、両情報が互いに同一または類似することを指すことができる。

本開示において、「チャネル」は、２つのデバイス間の任意の情報および/またはデータを相互に通信する通路を指すことができる。例えば、ユーザー認証システムとユーザー端末との通信のために使用されたチャネルは、ユーザー認証システムとユーザー端末の間の任意の情報および/またはデータを互いに通信する通路を指すことができる。

本開示において、「ユーザー」と「ユーザー端末」は、区別して使用されているが、ユーザーがユーザー端末を指すことができ、逆に、ユーザー端末がユーザーを指すこともできる。

図１は、本開示の一実施例に係るユーザー（１２０）を認証するプロセスにおいて、受信された命令によってユーザーの行動が撮像される動画を示す例示図である。ユーザー（１２０）は、ユーザー端末（１００）を通じて自分が利用しているサービスのためにユーザー（１２０）の本人認証または実名認証をするように要請を受けることができる。ここで、サービスは、ユーザー端末（１００）がウェブブラウザおよび/またはアプリケーションを介して遂行できる任意のサービスを含むことができ、例えば、ペイサービス、クレジットカードサービス、銀行サービス、仮想通貨サービスなどを含むことができるが、これに限定されない。

一実施例によると、ユーザー（１２０）は、自分が利用しているサービスを提供するシステムに加入するとき、または自分のＩＤおよび/またはパスワードを紛失したときに、ユーザー認証システムからこのようなユーザー認証を要請されることができる。例えば、このようなユーザー認証システムは、サービスを提供するシステムと一緒に提供されることができる。他の例として、ユーザー認証システムは、サービスを提供するシステムと別途に提供されることができる。

ユーザー認証システムは、ユーザー端末（１００）からユーザーの少なくとも一部が撮影された動画を受信するように構成されることができる。このような動画は、ユーザー端末（１００）に付着、または有線/無線で連結されているカメラを介して撮像または撮影されることができる。一実施例によると、図示されたように、カメラ（１１０）は、ユーザー端末（１００）の前面部に付着されて提供されることができる。この場合、カメラ（１１０）は、ユーザー端末（１００）の前面部を見ているユーザーが実行する行動を撮影することができ、撮影された動画はユーザー認証システムに送信されることができる。例えば、ユーザー認証システムは、ユーザー端末（１００）からユーザーの行動が撮影された動画をリアルタイムで受信することができる。

ユーザー認証システムは、ユーザー端末（１００）からユーザーの少なくとも一部が撮影された動画を受信し、受信された動画内にユーザーが存在するか否かを決定するように構成されることができる。一実施例によると、ユーザー認証システムは、ユーザー端末（１００）に１つ以上の命令を送信することができ、送信された１つ以上の命令は、ユーザー端末（１００）に出力されることができる。例えば、図示されたように、ユーザー端末（１００）は、ユーザー認証システム（３００）から「Ｖを描いてください」という命令を受信し、ユーザー端末（１００）のディスプレイにそのような命令を表示することができる。ここで、受信された命令は、撮影された動画が表示された領域と区分される領域に表示されることができる。

ユーザー端末（１００）が受信した命令に応答して、ユーザーは、このような命令が誘導する行動を遂行することができ、このようなユーザーの行動は、カメラ（１１０）によって撮影されてユーザー認証システムに送信されることができる。例えば、図示されたように、ユーザー（１２０）は、「Ｖを描いてください」という命令に応じて、自分の右手を利用してＶを描くように行動することができ、このような行動は、カメラ（１１０）によって撮影されることができる。ユーザー端末（１００）において撮影された動画は、リアルタイムでユーザー認証システムに送信されることができる。ユーザー認証システムは、ユーザー端末（１００）からリアルタイムで受信された動画内にユーザーが存在するか否かを決定することができる。

図２は、本開示の他の実施例に係るユーザー（１２０）を認証するプロセスにおいて、ユーザー端末（１００）に表示された命令によってユーザーの行動が撮像される動画を示す例示図である。ユーザー（１２０）が存在すると決定された場合、ユーザー認証システムは、ユーザー端末（１００）にユーザー（１２０）の身分証をカメラ（１１０）によって撮影できるように見せてほしいという命令を送付することができる。他の実施例によると、ユーザー端末（１００）は、ユーザー認証システム（３００）からユーザーが存在するか否かを決定するプロセス中にこのようなユーザーの身分証を見せてほしいという命令を受信することができる。このような命令は、ユーザー端末（１００）に出力されることができ、例えば、図示されたように、ユーザー端末（１００）のディスプレイに「自分の身分証（表面）を提示してください」という命令として表示されることができる。ここで、受信された命令は、撮影された動画が表示された領域と区分される領域に表示されることができる。

このような命令に応答して、ユーザー（１２０）は、自分の身分証がカメラ（１１０）によって撮影されるようにユーザー（１２０）の手で身分証を持って見せることができる。ユーザー（１２０）の身分証が撮影された動画は、ユーザー認証システム（３００）に送信されることができる。例えば、図示されたように、ユーザー（１２０）の少なくとも一部を撮影するプロセスにおいて、ユーザーの身分証が一緒に撮影されることができる。このような映像は、カメラによって撮影されてすぐに、すなわち、リアルタイムでユーザー認証システム（３００）に送信されることができる。本実施例において、ユーザー（１２０）の顔および身分証が一緒に撮影されるように図示されているが、これに限定されず、ユーザー（１２０）の身分証のみカメラ（１１０）によって撮影されてユーザー認証システム（３００）に提供されることができる。ユーザー認証システムは、このように身分証が撮影された動画をユーザー（１２０）の認証に使用することができる。

図３は、本開示の一実施例に係るユーザー認証サービスを提供するために、ユーザー認証システム（３００）が複数のユーザー端末（１００_１、１００_２、１００_３）と通信可能に連結された構成を示す概要図である。ユーザー認証システム（３００）は、ネットワーク（３１０）を介して複数のユーザー端末（１００_１、１００_２、１００_３）に複数のユーザー端末のユーザーを認証することが可能なシステムを含むことができる。一実施例によると、ユーザー認証システム（３００）は、ユーザー認証サービスに関連したコンピュータ実行可能なプログラム（例えば、ダウンロード可能なアプリケーション）およびデータを格納、提供、および実行可能な１つ以上のサーバーデバイスおよび/またはデータベース、またはクラウドコンピューティングサービス基盤の１つ以上の分散コンピューティングデバイスおよび/または分散データベースを含むことができる。ユーザー認証システム（３００）によって提供されるユーザー認証サービスは、複数のユーザー端末（１００_１、１００_２、１００_３）にインストールされたユーザー認証サービスが要求されるアプリケーションまたはウェブブラウザなどを介してユーザーに提供されることができる。ここで、このようなアプリケーションを管理するサーバーは、複数のユーザー端末（１００_１、１００_２、１００_３）からユーザー認証要請を受信する場合、ユーザー認証システム（３００）にユーザー認証を要請することができる。この場合、ユーザー認証システム（３００）と複数のユーザー端末（１００_１、１００_２、１００_３）は、相互通信可能に連結されることができる。

複数のユーザー端末（１００_１、１００_２、１００_３）は、ユーザー認証のためにネットワーク（３１０）を介してユーザー認証システム（３００）と通信することができる。一実施例によると、複数のユーザー端末（１００_１、１００_２、１００_３）は、ユーザー端末（１００_１、１００_２、１００_３）と関連されたイメージセンサを介して撮影された動画をユーザー認証システム（３００）に送信することができる。ここで、撮影された動画は、ユーザーの認証のために要求される任意の情報および/またはデータを含むことができる。例えば、撮影された動画は、ユーザーの少なくとも一部（例えば、ユーザーの顔）に対する情報を含むことができる。さらに他の例として、撮影された動画は、ユーザーの身分証に対する情報を含むことができる。

複数のユーザー端末（１００_１、１００_２、１００_３）は、ユーザーを認証するために、イメージセンサによって撮影された動画を任意の双方向通信が可能なチャネルを介してユーザー認証システム（３００）にリアルタイムで送出することができる。一実施例によると、ユーザー認証システム（３００）は、複数のユーザー端末（１００_１、１００_２、１００_３）によって撮影された動画を、ユーザー端末（１００）とのＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）チャネルを介して受信することができる。他の実施例によると、このように撮影された動画は、ユーザー端末（１００）から放送チャネルを介してリアルタイムで受信されることができる。ここで、放送チャネルは、双方向通信が可能な任意の方式を通じて生成されることができ、例えば、ＷｅｂＲＴＣ（ＷｅｂＲｅａｌ-ＴｉｍｅＣｏｍｍｕｎｉｃａｔｉｏｎ）などを利用して生成されることができるが、これに限定されない。

ネットワーク（３１０）は、複数のユーザー端末（１００_１、１００_２、１００_３）とユーザー認証システム（３００）の間の通信が可能であるように構成されることができる。ネットワーク（３１０）は、設置環境によって、例えば、イーサネット（登録商標）（Ｅｔｈｅｒｎｅｔ（登録商標））、有線ホームネットワーク（ＰｏｗｅｒＬｉｎｅＣｏｍｍｕｎｉｃａｔｉｏｎ）、電話線通信装置およびＲＳ-ｓｅｒｉａｌ通信などの有線ネットワーク、移動通信網、ＷＬＡＮ（ＷｉｒｅｌｅｓｓＬＡＮ）、Ｗｉ-Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）およびＺｉｇＢｅｅ（登録商標）などのような無線ネットワークまたはその組み合わせで構成されることができる。つまり、通信方式は制限されず、ネットワーク（３１０）が含むことのできる通信網（例えば、移動通信網、有線インターネット、無線インターネット、放送網、衛星網など）を活用する通信方式だけでなく、ユーザー端末間の近距離無線通信も含まれることができる。例えば、ネットワーク（３１０）は、ＰＡＮ（ｐｅｒｓｏｎａｌａｒｅａｎｅｔｗｏｒｋ）、ＬＡＮ、（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、ＣＡＮ（ｃａｍｐｕｓａｒｅａｎｅｔｗｏｒｋ）、ＭＡＮ（ｍｅｔｒｏｐｏｌｉｔａｎａｒｅａｎｅｔｗｏｒｋ）、ＷＡＮ（ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）、ＢＢＮ（ｂｒｏａｄｂａｎｄｎｅｔｗｏｒｋ）、インターネットなどのネットワークのうち１つ以上の任意のネットワークを含むことができる。また、ネットワーク（３１０）は、バスネットワーク、スターネットワーク、リングネットワーク、メッシュネットワーク、スター-バスネットワーク、ツリーまたは階層（ｈｉｅｒａｒｃｈｉｃａｌ）ネットワークなどを含むネットワークトポロジのうち任意の１つ以上を含むことができるが、これに制限されない。

図３において、携帯電話端末（１００_１）、タブレット端末（１００_２）およびＰＣ端末（１００_３）がユーザー端末の例として図示されたが、これに限定されず、ユーザー端末は、有線および/または無線通信が可能で、ユーザーからユーザー認証に対する情報を受信できるユーザーインターフェースを具備した任意のコンピューティングデバイスであることができる。例えば、ユーザー端末は、スマートフォン（ｓｍａｒｔｐｈｏｎｅ）、携帯電話、ナビゲーション、コンピュータ、ラップトップ、デジタル放送用端末、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔｓ）、ＰＭＰ（ＰｏｒｔａｂｌｅＭｕｌｔｉｍｅｄｉａＰｌａｙｅｒ）、タブレットＰＣ、ゲームコンソール（ｇａｍｅｃｏｎｓｏｌｅ）、ウェアラブルデバイス（ｗｅａｒａｂｌｅｄｅｖｉｃｅ）、ＩｏＴ（ｉｎｔｅｒｎｅｔｏｆｔｈｉｎｇｓ）デバイス、ＶＲ（ｖｉｒｔｕａｌｒｅａｌｉｔｙ）デバイス、ＡＲ（ａｕｇｍｅｎｔｅｄｒｅａｌｉｔｙ）デバイスなどを含むことができる。また、図３には、３つのユーザー端末（１００_１、１００_２、１００_３）がネットワーク（３１０）を介してユーザー認証システム（３００）と通信するものとして図示されているが、これに限定されず、異なる数のユーザー端末がネットワーク（３１０）を介してユーザー認証システム（３００）と通信するように構成されることもできる。

ユーザー認証システム（３００）は、ネットワーク（３１０）を介して複数のユーザー端末（１００_１、１００_２、１００_３）からユーザー認証要請を受信することができる。受信されたユーザー認証要請は、ユーザー認証情報として、ユーザー認証システム（３００）に関連した格納媒体に格納されることができる。ユーザー認証要請は、ユーザー認証要請を生成したユーザー情報、ユーザーの少なくとも一部が撮影された動画、ユーザーの身分証が撮影された動画などを含むことができ、ユーザーが特定のサービスまたは商品に対する自分の認証が必要な場合に要請することができる。

ユーザー認証システム（３００）は、ネットワーク（３１０）を介して複数のユーザー端末（１００_１、１００_２、１００_３）のユーザーが複数の行動をするように誘導する複数の命令をユーザー端末（１００_１、１００_２、１００_３）に送信することができる。一実施例によると、このような複数の命令は、複数のユーザー端末（１００_１、１００_２、１００_３）にリアルタイムで送信されることができる。このような複数の命令のそれぞれに応答して、複数のユーザー端末（１００_１、１００_２、１００_３）のユーザーは、該当の命令が示す行動を遂行し、遂行された行動が撮影された動画がユーザー認証システム（３００）にリアルタイムで送信されることができる。このように受信された動画は、複数のユーザー端末（１００_１、１００_２、１００_３）のユーザーを認証するのに使用されることができる。

図４は、本開示の一実施例に係るユーザー端末（１００）およびユーザー認証システム（３００）の内部構成を示すブロック図である。ユーザー端末（１００）は、通信モジュール（４１２）、プロセッサ（４１４）、メモリ（４１６）および入出力インターフェース（４１８）を含むことができる。これに類似して、ユーザー認証システム（３００）は、入出力インターフェース（４３２）、プロセッサ（４３４）、メモリ（４３６）、通信モジュール（４３８）を含むことができる。図４に図示されたように、ユーザー端末（１００）およびユーザー認証システム（３００）は、それぞれの通信モジュール（４１２、４３８）を利用して、ネットワーク（３１０）を介して情報および/またはデータを通信するように構成されることができる。また、入出力デバイス（４２０）は、入出力インターフェース（４１８）を介してユーザー端末（１００）に情報および/またはデータを入力したり、ユーザー端末（１００）から生成された情報および/またはデータを出力したりするように構成されることができる。図４では、通信モジュール（４１２）、プロセッサ（４１４）、メモリ（４１６）および入出力インターフェース（４１８）がユーザー端末（１００）の内部構成として図示されているが、他のユーザーの端末（例えば、図３のユーザー端末（１００_１、１００_２、１００_３））もユーザー端末（１００）の内部構成と同一または類似の内部構成を含むことができる。

通信モジュール（４１２、４３８）は、ネットワーク（３１０）を介してユーザー端末（１００）とユーザー認証システム（３００）が互いに通信するための構成または機能を提供することができ、ユーザー端末（１００）および/またはユーザー認証システム（３００）が他のユーザーの端末または他のシステム（例えば、別途のクラウドシステム、別途の動画受信システム）と通信するための構成または機能を提供することができる。一例として、ユーザー端末（１００）のプロセッサ（４１４）がメモリ（４１６）のような記録デバイスに格納されたプログラムコードに基づいて生成した要請（例えば、ユーザーの認証要請）は、通信モジュール（４１２）の制御によってネットワーク（３１０）を介してユーザー認証システム（３００）に伝達されることができる。逆に、ユーザー認証システム（３００）のプロセッサ（４３４）の制御に基づいて提供される制御信号や命令（例えば、ユーザーの行動を誘導する命令）などが、通信モジュール（４３８）とネットワーク（３１０）を経てユーザー端末（１００）の通信モジュール（４１２）を通じてユーザー端末（１００）に受信されることができる。例えば、ユーザー端末（１００）は、通信モジュール（４１２）を通じてユーザー認証システム（３００）からユーザーの行動を誘導する命令、またはこのような命令を例示的に示す画像に対する情報のうち少なくとも１つを受信することができる。

メモリ（４１６、４３６）は、非一時的な任意のコンピュータ読み取り可能な記録媒体を含むことができる。一実施例によると、メモリ（４１６、４３６）は、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ディスクドライブ、ＳＳＤ（ｓｏｌｉｄｓｔａｔｅｄｒｉｖｅ）、フラッシュメモリ（ｆｌａｓｈｍｅｍｏｒｙ）などのような不揮発性大容量格納装置（ｐｅｒｍａｎｅｎｔｍａｓｓｓｔｏｒａｇｅｄｅｖｉｃｅ）を含むことができる。他の例として、ＲＯＭ、ＳＳＤ、フラッシュメモリ、ディスクドライブなどのような不揮発性大容量格納装置は、メモリ（４１６、４３６）とは区分される別途の永久格納装置としてユーザー端末（１００）またはユーザー認証システム（３００）に含まれることができる。また、メモリ（４１６、４３６）には、オペレーティングシステムと少なくとも１つのプログラムコード（例えば、ユーザー端末（１００）にインストールされて駆動されるブラウザやユーザー認証サービスの提供のためにユーザー端末（１００）にインストールされるユーザー認証専用アプリケーションまたはユーザー認証サービスを提供するアプリケーションなどのためのコード）が格納されることができる。これとは異なり、メモリ（４１６、４３６）には、ウェブブラウザを介して提供されたユーザー認証のために要求されるプログラムコードが格納されることができる。

このようなソフトウェアコンポーネントは、メモリ（４１６、４３６）とは別途のコンピュータ読み取り可能な記録媒体からロードされることができる。このような別途のコンピュータ読み取り可能な記録媒体は、このようなユーザー端末（１００）およびユーザー認証システム（３００）に直接連結可能な記録媒体を含むことができるが、例えば、フロッピードライブ、ディスク、テープ、ＤＶＤ/ＣＤ-ＲＯＭドライブ、メモリーカードなどのコンピュータ読み取り可能な記録媒体を含むことができる。他の例として、ソフトウェアコンポーネントは、コンピュータ読み取り可能な記録媒体ではなく、通信モジュール（４１２、４３８）を介してメモリ（４１６、４３６）にロードされることもできる。例えば、少なくとも１つのプログラムは、開発者またはアプリケーションのインストールファイルを配布するファイル配布システムがネットワーク（３１０）を介して提供するファイルによってインストールされるコンピュータプログラム（例えば、上述されたユーザー認証専用アプリケーションまたはユーザー認証サービスを提供するアプリケーション）に基づいて、メモリ（４１６、４３６）にロードされることができる。これとは異なり、少なくとも１つのプログラムは、ウェブブラウザを介してメモリ（４１６、４３６）にロードされることができる。

プロセッサ（４１４、４３４）は、基本的な算術、ロジックおよび入出力演算を遂行することによって、コンピュータプログラムの命令を処理するように構成されることができる。命令は、メモリ（４１６、４３６）または通信モジュール（４１２、４３８）によってプロセッサ（４１４、４３４）に提供されることができる。例えば、プロセッサ（４１４、４３４）は、メモリ（４１６、４３６）のような記録装置に格納されたプログラムコードに基づいて受信された命令を実行するように構成されることができる。

入出力インターフェース（４１８）は、入出力デバイス（４２０）とのインターフェースのための手段であることができる。一例として、入力デバイスは、イメージセンサを含むカメラ、キーボード、マイクロフォン、マウスなどの装置を、そして出力デバイスは、ディスプレイ、スピーカー、触覚フィードバックデバイス（ｈａｐｔｉｃｆｅｅｄｂａｃｋｄｅｖｉｃｅ）などのようなデバイスを含むことができる。他の例として、入出力インターフェース（４１８）は、タッチスクリーンなどのように入力と出力を遂行するための構成または機能が一つに統合されたデバイスとのインターフェースのための手段であることができる。例えば、ユーザー端末（１００）のプロセッサ（４１４）がメモリ（４１６）にロードされたコンピュータプログラムの命令を処理するにおいて、ユーザー認証システム（３００）や他のユーザー端末が提供する情報および/またはデータを利用して構成されるサービス画面やコンテンツが入出力インターフェース（４１８）を介してディスプレイに表示されることができる。図４では、入出力デバイス（４２０）がユーザー端末（１００）に含まれないように図示されているが、これに限定されず、入出力デバイス（４２０）は、ユーザー端末（１００）と１つのデバイスで構成されることができる。また、ユーザー認証システム（３００）の入出力インターフェース（４３２）は、ユーザー認証システム（３００）と連結されたり、ユーザー認証システム（３００）が含んだりすることができる入力または出力のためのデバイス（図示せず）とのインターフェースのための手段であることができる。図４では、入出力インターフェース（４１８、４３２）がプロセッサ（４１４、４３４）と別途に構成された要素として図示されたが、これに限定されず、入出力インターフェース（４１８、４３２）がプロセッサ（４１４、４３４）に含まれるように構成されることができる。

ユーザー端末（１００）およびユーザー認証システム（３００）は、図４の構成要素よりも多くの構成要素を含むことができる。しかし、ほとんどの従来技術の構成要素を明確に図示する必要はない。一実施例によると、ユーザー端末（１００）は、上述された入出力デバイスのうち少なくとも一部を含むように実装されることができる。また、ユーザー端末（１００）は、トランシーバ（ｔｒａｎｓｃｅｉｖｅｒ）、ＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）モジュール、イメージセンサを含む１つ以上のカメラ、各種センサ、データベースなどのような他の構成要素をさらに含むことができる。例えば、ユーザー端末（１００）がスマートフォンである場合、一般的にスマートフォンが含む構成要素を含むことができ、例えば、加速度センサやジャイロセンサ、カメラモジュール、各種の物理的なボタン、タッチパネルを利用したボタン、入出力ポート、振動のためのバイブレーターなどの多様な構成要素がユーザー端末（１００）にさらに含まれるように実装されることができる。

一実施例によると、ユーザー端末（１００）のプロセッサ（４１４）は、ユーザー認証サービスを提供するアプリケーションまたはウェブブラウザを動作するように構成されることができる。このとき、該当のアプリケーションまたはウェブブラウザに関連されたプログラムコードがユーザー端末（１００）のメモリ（４１６）にロードされることができる。アプリケーションまたはウェブブラウザが動作される間に、ユーザー端末（１００）のプロセッサ（４１４）は、入出力デバイス（４２０）から提供された情報および/またはデータを、入出力インターフェース（４１８）を介して受信したり、通信モジュール（４１２）を通じてユーザー認証システム（３００）から情報および/またはデータを受信したりすることができ、受信された情報および/またはデータを処理してメモリ（４１６）に格納することができる。また、このような情報および/またはデータは、通信モジュール（４１２）を通じてユーザー認証システム（３００）に提供することができる。

一実施例によると、ユーザー認証サービスを提供するアプリケーションまたはウェブブラウザが動作される間に、プロセッサ（４１４）は、入出力インターフェースと連結されたカメラ、タッチスクリーン、キーボードなどの入力デバイスを介してテキスト、画像などの情報を受信することができる。これに加えて、プロセッサ（４１４）は、受信された画像、動画および/またはテキストをメモリ（４１６）に格納したり、通信モジュール（４１２）およびネットワーク（３１０）を介してユーザー認証システム（３００）に提供したりすることができる。例えば、プロセッサ（４１４）は、タッチスクリーン、キーボードなどの入力デバイスを介してユーザー認証要請を生成するための情報を受信することができる。また、プロセッサ（４１４）は、カメラなどの入力デバイスを介してユーザーの行動が撮影された動画に対する情報を受信することができる。受信された情報は、通信モジュール（４１２）およびネットワーク（３１０）を介してユーザー認証システム（３００）に提供されることができる。

プロセッサ（４１４）は、ユーザー端末（１００）のディスプレイ出力可能デバイス（例えば、タッチスクリーン、ディスプレイなど）、音声出力可能デバイス（例えば、スピーカー）などの出力デバイスを介して処理された情報および/またはデータを出力するように構成されることができる。一実施例によると、ユーザー認証サービスを提供するアプリケーションまたはウェブブラウザが提供する情報および/またはデータ（例えば、ユーザーの行動を誘導する命令、このような行動を示す例示画像など）は、ディスプレイ出力可能デバイスなどを介して表示されることができる。他の実施例によると、ユーザー認証サービスを提供するアプリケーションまたはウェブブラウザが提供する情報および/またはデータは、音声出力可能デバイスなどを介して出力されることができる。例えば、ユーザーの行動を誘導する命令は、スピーカーを介してユーザー端末を通じて出力され、ユーザーに提供されることができる。

ユーザー認証システム（３００）のプロセッサ（４３４）は、ユーザー認証のために要求される任意の情報および/またはデータを生成するように構成されることができる。一実施例によると、プロセッサ（４３４）は、ユーザー認証を要請したユーザー端末との通信のために要求される情報および/またはデータ（例えば、ユーザー端末とのチャネルに対する情報）を生成することができる。他の実施例によると、プロセッサ（４３４）は、ユーザーに特定の行動を誘導する複数の命令に対する情報および/またはデータを生成するように構成されることができる。このように生成された情報および/またはデータは、メモリ（４３６）に格納されることができ、さらに、通信モジュール（４３８）およびネットワーク（３１０）を介してユーザー端末（１００）に提供されることができる。

プロセッサ（４３４）は、ユーザー端末（１００）を含む複数のユーザー端末および/または複数の外部システムから受信された情報および/またはデータを管理、処理および/または格納するように構成されることができる。プロセッサ（４３４）は、複数のユーザー端末からイメージセンサを介して撮影された動画をリアルタイムで受信するように構成されることができる。リアルタイムで受信された動画は、途切れることなく、すなわち連続的に受信されることができる。ここで、動画は、少なくともユーザーの行動が撮影された動画を指すことができる。例えば、ユーザー端末との通信が中断されて撮影された動画のリアルタイム受信が中止されると、プロセッサ（４３４）は、ユーザー認証を終了したり、通信が再開された後に新たなユーザー認証を開始したりすることができる。

プロセッサ（４３４）は、リアルタイムで受信された動画を分析して、受信された動画内にユーザーが存在するか否かを決定するように構成されることができる。ユーザーが存在する場合、プロセッサ（４３４）は、動画内で抽出されたユーザーの顔を分析することができ、分析された結果に基づいてユーザーを認証することができる。例えば、プロセッサ（４３４）は、ユーザーの顔が撮影されるように誘導する命令に対応して撮影された顔関連動画からユーザーの顔に対する情報を抽出し、ユーザーの身分証が撮影されるように誘導する命令に対応して撮影された身分証関連動画からユーザーの顔に対する情報を抽出することができる。抽出された両方のユーザーの顔に対する情報が比較されて、類似する場合、ユーザーが認証されることができる。ユーザーに対する認証結果は、通信モジュール（４３８）およびネットワーク（３１０）を介してユーザー端末（１００）に提供されることができる。以下では、ユーザー認証システム（３００）のプロセッサ（４３４）が受信された動画に基づいてユーザーを認証するサービスを提供する具体的な方式について詳細に説明する。

図５は、本開示の一実施例に係るユーザー認証システム（３００）の構成を示すブロック図である。ユーザー認証システム（３００）のプロセッサ（４３４）は、命令処理モジュール（５１０）、画像抽出モジュール（５２０）、画像分析モジュール（５３０）、認証モジュール（５４０）を含むように構成されることができる。また、プロセッサ（４３４）は、通信モジュール（４３８）を通じて情報および/またはデータを外部システムと送受信することができる。これに加えて、プロセッサ（４３４）は、情報および/またはデータをメモリ（４３６）に格納したり、メモリ（４３６）からの情報および/またはデータを取得したりすることができる。

命令処理モジュール（５１０）は、ユーザー認証のための複数の命令を生成するように構成されることができる。ここで、複数の命令のそれぞれは、ユーザーの行動を誘導する命令を含むことができる。また、複数の命令のそれぞれは、そのような行動を示す例示的な画像を含むことができる。例えば、複数の命令は、ユーザーが存在するか否かを決定するのに使用される任意の命令を含むことができる。さらに他の例として、複数の命令は、ユーザーの身分証を提示するように誘導する命令を含むことができる。このように生成された命令は、プロセッサ（４３４）によってアクセス可能な格納媒体（例えば、メモリ（４１６））に格納されることができる。

命令処理モジュール（５１０）は、予め格納された複数の命令の中から１つ以上の命令を選択することができる。一実施例によると、命令処理モジュール（５１０）は、予め格納された複数の命令の候補の中から複数の命令をランダムに選択するように構成されることができる。例えば、選択された複数の命令は、ユーザーの正面顔を撮影するように誘導する命令を含むことができる。他の例として、選択された複数の命令は、ユーザーの身分証が撮影されるように誘導する命令を含むことができる。

命令処理モジュール（５１０）は、選択された複数の命令を、通信モジュール（４３８）を通じてユーザー端末（１００）に送信することができる。一実施例によると、命令処理モジュール（５１０）は、選択された複数の命令を決められた順序でユーザー端末（１００）に送信することができる。例えば、複数の命令は、第１の命令、第２の命令および第３の命令を含む場合、第１の命令がユーザー端末（１００）に先に送信されることができる。そして、第１の命令に対する分析が画像分析モジュール（５３０）によって完了される場合、第２の命令がユーザー端末（１００）に送信されることができる。第２の命令に対応して受信された動画の分析が完了される場合、命令処理モジュール（５１０）が第３の命令をユーザー端末（１００）に送信することができる。他の実施例によると、特定の命令の場合、命令処理モジュール（５１０）は、ユーザー端末の画面での複数の領域のそれぞれにおいて撮影された動画が送信される複数のチャネルに対する情報をユーザー端末（１００）に提供することができる。例えば、ユーザーが撮影される領域と身分証が撮影される領域が分離された場合、２つの領域で撮影された動画は、異なるチャネルで送信されることができる。

命令処理モジュール（５１０）は、ユーザー認証が完了されるまでに複数の命令をユーザー端末（１００）に送信することができる。一実施例によると、複数の命令は、撮影された動画内にユーザーが存在するか否かを決定するのに使用される命令を含むことができる。例えば、このような命令は、ユーザーに自分の身体（例えば、顔など）および/または物（例えば、身分証など）を利用して特定の行動をするように誘導する命令を含むことができる。他の実施例によると、複数の命令は、撮影された動画内にユーザーを認証するのに使用される命令を含むことができる。例えば、このような命令は、ユーザーの顔が適切に認識されるように誘導する命令（例えば、ユーザーの正面顔が撮影されるように誘導する命令）およびユーザーの身分証が撮影されるように誘導する命令を含むことができる。

画像抽出モジュール（５２０）は、ユーザー端末（１００）から通信モジュール（４３８）を通じて動画をリアルタイムで受信することができる。ユーザー端末（１００）が命令処理モジュール（５１０）から特定の行動を誘導する命令を受信すると、ユーザー端末（１００）のユーザーは、そのような行動を遂行することができる。そのような行動が遂行される間、ユーザー端末（１００）に関連したカメラは、ユーザーの行動を撮影することができ、ユーザー端末（１００）は、受信された命令に対応して撮影された動画を、通信モジュール（４３８）を通じて画像抽出モジュール（５２０）に送信することができる。動画が撮影されてすぐに、ユーザー端末（１００）は、撮影された動画を画像抽出モジュール（５２０）にリアルタイムで送信することができ、画像抽出モジュール（５２０）は、撮影された動画をリアルタイムで受信することができる。一実施例によると、画像抽出モジュール（５２０）は、ネットワーク（３１０）を経て通信モジュール（４３８）を通じて直接動画を受信することができる。他の実施例によると、ユーザー端末（１００）からリアルタイムで送信された動画は、ユーザー認証システム（３００）とユーザー端末（１００）の間のチャネルを管理する別途のサーバー（例えば、ＶｏＩＰ管理サーバー、放送チャネル管理サーバーなど）に受信され、別のサーバーを介して画像抽出モジュール（５２０）に提供されることができる。さらに他の実施例によると、画像抽出モジュール（５２０）は、ユーザー端末の画面での複数の領域で撮影された動画を複数のチャネルで受信することができる。

画像抽出モジュール（５２０）は、リアルタイムで受信された動画からユーザー認証のために１つ以上の画像を抽出することができる。一実施例によると、画像抽出モジュール（５２０）は、予め決められたルールに基づいて、受信された動画に含まれた１つ以上の画像を抽出するように構成されることができる。例えば、画像抽出モジュール（５２０）は、一定の時間間隔（例えば、１秒ごとに抽出）に合わせて受信された動画に含まれた複数の画像を抽出するように構成されることができる。他の実施例によると、画像抽出モジュール（５２０）は、命令処理モジュール（５１０）からユーザーに送信された命令に対する情報を受信し、受信された命令に基づいて、受信された動画から画像を抽出する速度を調整することができる。例えば、ユーザーの静的な状態に対応する行動を誘導する命令（例えば、顔を正面から見る動作、身分証を映す動作など）である場合、命令処理モジュール（５１０）は、受信された動画から低い画像抽出速度で画像を抽出することができる。さらに他の例として、ユーザーの動的な状態に対応する行動を誘導する命令（例えば、顔を動かす動作、身分証を動かす動作）である場合、命令処理モジュール（５１０）は、受信された動画から高い画像抽出速度で画像を抽出することができる。このように抽出された画像は、画像分析モジュール（５３０）に提供されることができる。

画像抽出モジュール（５２０）は、複数の命令に対応する複数の解像度を決定することができる。ここで、解像度は、命令に対応してユーザー端末（１００）がカメラを利用して撮影するときに適用される解像度を指すことができる。一実施例によると、解像度は、撮影される動画内の領域ごとに異なるように決定されることができる。例えば、撮影される動画内でユーザーの身分証が位置される領域は、高解像度で撮影されるように設定されることができる。このように決定された解像度は、メモリ（４３６）に該当の命令と関連して格納されることができる。

画像抽出モジュール（５２０）は、複数の命令のそれぞれに対応する転送速度を決定することができる。ここで、転送速度は、ユーザー端末（１００）がカメラを利用して撮影した動画をユーザー認証システム（３００）に送信するときに適用される転送速度を指すことができる。例えば、転送速度は、秒当たり送信されるフレーム数（ｆｐｓ）で示すことができる。このように決定された転送速度は、該当の命令とメモリ（４３６）に関連して格納されることができる。一実施例によると、転送速度は、ユーザー端末（１００）のカメラによって撮影される動画の再生速度を示すことができる。ユーザー端末（１００）は、転送速度に対応する再生速度に応じて撮影された動画を画像抽出モジュール（５２０）に送信することができる。

命令処理モジュール（５１０）は、ユーザー端末（１００）に命令を送信するときに命令に関連した解像度および/または転送速度に対する情報を一緒に送信することができる。これにより、受信された命令に応答して、ユーザー端末（１００）は、受信された解像度でカメラを利用して撮影し、撮影された動画は、受信された転送速度でユーザー認証システム（３００）に提供することができる。例えば、撮影される動画の画面に表示される複数の領域に対して異なる解像度を受信することができ、ユーザー端末（１００）は、動画の撮影時に複数の領域に対する設定された解像度をカメラに適用することができる。

画像分析モジュール（５３０）は、画像抽出モジュール（５２０）から抽出された１つ以上の画像を受信し、抽出された画像を分析するように構成されることができる。一実施例によると、ユーザーが複数の命令のそれぞれが誘導する行動を遂行するか否かを分析するのに使用されるライブラリがメモリ（４１６）に格納されることができる。このような環境の下で、画像分析モジュール（５３０）は、メモリ（４１６）にアクセスし、予め格納されたライブラリを利用して受信された画像を分析することができる。他の実施例によると、ユーザーが複数の命令が誘導する行動を遂行するか否かを決定するのに使用される分析モデルが生成されることができ、生成された分析モデルは、格納媒体（例えば、メモリ（４３６））に格納されることができる。画像分析モジュール（５３０）は、このような分析モデルを利用して抽出された画像を分析することができる。このような分析モデルは、図７を参照して、詳細に説明される。

画像分析モジュール（５３０）は、受信された１つ以上の画像を分析して、画像内のユーザーが複数の命令に対応する行動を遂行するか否かを決定することができる。

一実施例によると、ユーザー端末（１００）に送信された命令がユーザーの身体の一部および/または物を動かすように誘導する命令である場合、画像分析モジュール（５３０）は、送信された命令に応じてユーザーが動くか否かを決定することができる。他の実施例によると、ユーザー端末（１００）に送信された命令がユーザーの身分証を動かすように誘導する命令である場合、画像分析モジュール（５３０）は、このような命令に対応して受信された動画から抽出された画像を分析して、身分証が動くか否かを決定することができる。ユーザーが複数の命令に対応する行動を遂行するか否かに対する情報は、認証モジュール（５４０）に提供されることができる。

一実施例によると、画像分析モジュール（５３０）は、受信された画像からユーザーの顔に対する情報を抽出することができる。例えば、受信された画像は、ユーザーの顔（例えば、ユーザーの正面顔）に対する画像を含むことができ、画像分析モジュール（５３０）は、このような画像からユーザーの顔に対する第１の情報を抽出することができる。他の例として、受信された画像は、ユーザーの身分証が撮像された画像を含むことができ、画像分析モジュール（５３０）は、ユーザーの身分証が撮像された画像からユーザーの顔に対する第２の情報を抽出することができる。このように抽出されたユーザーに対する第１の情報および第２の情報は、認証モジュール（５４０）に提供されることができる。

一実施例によると、１つ以上の命令が予め決められた順序でユーザー端末（１００）に送信された後、画像分析モジュール（５３０）は、ユーザー端末（１００）から送信された１つ以上の命令のそれぞれに対応して受信された動画から抽出された画像を分析することができる。例えば、画像分析モジュール（５３０）は、抽出された画像を分析してユーザーが該当の命令に応答して命令が誘導する行動をするか否かを決定することができる。このような構成の下で、１つの命令に対応した分析結果が生成されるたびに、生成された分析結果が認証モジュール（５４０）に提供されることができる。

認証モジュール（５４０）は、画像分析モジュール（５３０）から抽出された画像に対する分析結果に基づいて、リアルタイムで受信された動画内にユーザーが存在するか否かを決定することができる。例えば、このような分析結果は、ユーザー端末に送信された命令の順序に基づいて受信されることができる。一実施例によると、ユーザー端末（１００）に送信された１つ以上の命令（例えば、３つの命令）に対応する行動をユーザーがすべて遂行したと判定される場合、認証モジュール（５４０）は、受信された動画内にユーザーが存在すると決定することができる。これとは異なり、ユーザー端末に送信された１つ以上の命令に対応する行動をユーザーが遂行しなかったと判定される場合、認証モジュール（５４０）は、受信された動画内にユーザーが存在しないと決定することができる。

他の実施例によると、認証モジュール（５４０）は、ユーザーがユーザー端末（１００）に送信された複数の命令のうち第１の命令に対応する行動を遂行しなかったと判定する場合、命令処理モジュール（５１０）に、異なる第２の命令をユーザー端末（１００）に送信するように要請することができる。ここで、第２の命令は、第１の命令に対応して受信された動画から分析された動画の分析から取得されたユーザーの行動と第１の命令に対応する行動との相違点に基づいて、命令処理モジュール（５１０）によって選択されることができる。認証モジュール（５４０）は、第２の命令に対応して撮影された動画から抽出された画像を分析した結果が、第２の命令に対応する行動をユーザーが遂行したと示す場合、受信された動画内にユーザーが存在すると決定することができる。さらに他の実施例において、認証モジュール（５４０）は、ユーザーが複数の命令のうち予め決められた数の命令に対応する行動を実行したという分析結果を受信した場合、受信された動画内にユーザーが存在すると決定することができる。

さらに他の実施例において、認証モジュール（５４０）は、ユーザー端末（１００）から受信された動画が連続的でないと判断される場合、受信された動画内にユーザーが存在しないと決定することができる。例えば、動画に含まれた１つ以上の連続したフレーム間の時間差が命令処理モジュール（５１０）によって指示された転送速度と対応しないと判断される場合、受信された動画内にユーザーが存在しないと決定されることができる。

さらに他の実施例において、認証モジュール（５４０）は、ユーザーがユーザー端末（１００）に送信された複数の命令のうち第１の命令に対応する行動を遂行しなかったと判定する場合、通信モジュール（４３８）にユーザー端末との通信のために使用されたチャネルを変更するように指示することができる。一実施例によると、認証モジュール（５４０）は、ユーザー端末（１００）との通信のために現在使用しているチャネルを異なる通信チャネルに変更することができる。これにより、通信チャネルの問題によってユーザー認証が適切に行われないのを防止することができる。他の実施例によると、認証モジュール（５４０）は、ユーザー端末（１００）との通信において現在使用されているチャネルをカウンセラーと連結可能な通信チャネルに変更するように通信モジュール（４３８）に指示することができる。これにより、ユーザーの行動が送信された命令が示す行動に対応されない場合、カウンセラーがユーザー認証を直接行い、ユーザーに対する正確な認証が提供されることができる。

認証モジュール（５４０）は、抽出された画像に対する分析結果に基づいてユーザーを認証することができる。一実施例によると、認証モジュール（５４０）は、受信された画像からユーザーが存在すると判定された場合、ユーザーを認証するように構成されることができる。他の実施例において、認証モジュール（５４０）は、画像分析モジュール（５３０）から身分証が動くと判定されるとの動画分析結果を受信した場合、身分証が存在すると判断することができる。これにより、身分証が存在すると判定された場合にユーザーが認証されるように構成されることができる。

認証モジュール（５４０）は、ユーザーの顔が撮影されるように誘導する命令に対応して撮影された顔関連動画から抽出されたユーザーの顔に対する第１の情報を受信することができ、ユーザーの身分証が撮影されるように誘導する命令に対応して撮影された身分証関連動画から抽出されたユーザーの顔に対する第２の情報を受信することができる。そして、抽出されたユーザーの顔に対する第１の情報および抽出されたユーザーの顔に対する第２の情報は、互いに比較されることができる。ここで、認証モジュール（５４０）は、抽出された第１の情報と抽出された第２の情報が類似する場合、ユーザーを認証することができる。例えば、抽出された第１の情報と抽出された第２の情報間の類似度が予め決定された類似度以上である場合、抽出された第１の情報と抽出された第２の情報が類似すると判定することができる。さらに他の例として、認証モジュール（５４０）は、抽出された第１の情報と抽出された第２の情報間の類似度およびこれに関連した信頼度を決定することができ、決定された類似度および信頼度に基づいて抽出された第１の情報と抽出された第２の情報が類似するか否かを決定することができる。このような類似度および/または信頼度は、画像処理分野で知られた任意の技法を利用して決定されることができ、例えば、複数の画像から抽出された情報に基づいて類似度および/または信頼度を推論/出力するように構成されたルールベース（Ｒｕｌｅ-ｂａｓｅｄ）技法、マシンラーニング技法、人工ニューラルネットワークモデルなどが利用されることができるが、これに限定されない。認証モジュール（５４０）によって決定されたユーザー認証結果は、ユーザー端末（１００）に提供されたり、ユーザー認証要請に関連したシステムに提供されたりすることができる。

図５においては、プロセッサ（４３４）が命令処理モジュール（５１０）、画像抽出モジュール（５２０）、画像分析モジュール（５３０）、認証モジュール（５４０）をそれぞれのモジュールとして含んでいるもので図示されているが、これに限定されず、２以上のモジュールは、１つのモジュールで実装されることができる。

図６は、本開示の一実施例に係るユーザー認証方法（６００）を示すフローチャートである。ユーザー認証方法（６００）は、ユーザー認証システム（３００）によって遂行されることができる。図示されたように、ユーザー認証方法（６００）は、ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップ（Ｓ６１０）で開始されることができる。例えば、複数の行動は、ユーザーが存在するか否かを決定するのに要求される行動、ユーザーの顔を抽出するのに要求される行動、ユーザーの身分証が撮影されるのに要求される行動などを含むことができる。

そして、ステップ（Ｓ６２０）において、ユーザー端末から複数の命令に対応して撮影された動画を受信することができる。一実施例によると、ユーザー認証システム（３００）は、ユーザー端末から複数の命令に対応して撮影された動画をユーザー端末との通信のためのチャネルを介してリアルタイムで受信することができる。このために、ユーザー端末は、複数の命令に応答して、ユーザーが命令が示す行動をイメージセンサを含むカメラを利用して撮影し、撮影された動画をユーザー認証システム（３００）にリアルタイムで送信することができる。

次に、ステップ（Ｓ６３０）において、ユーザー認証システム（Ｓ６３０）は、動画内にユーザーが存在するか否かを決定することができる。動画には、複数の命令のそれぞれに対応して遂行されたユーザーの行動が撮影されることができる。例えば、このような行動は、ユーザーの身体の一部（例えば、顔、手、腕など）および/または物（例えば、ユーザーが手で持てるものなど）が動くようにする行動を指すことができる。

最後に、ステップ（Ｓ６４０）において、ユーザー認証システム（３００）は、ユーザーが存在すると決定された場合、動画から抽出されたユーザーの顔に基づいてユーザーを認証することができる。一実施例によると、ユーザー認証システム（３００）は、動画から複数のユーザーの顔を抽出するように構成されることができる。例えば、動画から撮影されたユーザーの顔に対する第１の情報が抽出されることができる。これに加えて、動画からユーザーの身分証に含まれたユーザーの顔に対する第２の情報が抽出されることができる。そして、ユーザー認証システム（３００）は、抽出されたユーザーの顔に対する第１の情報と第２の情報間の類似度を比較して、第１の情報および第２の情報が類似する場合、ユーザーを認証することができる。

図７は、本開示の一実施例に係る画像（７１０）に基づいて行動遂行結果（７３０）を推論、または出力するように構成された画像分析モデル（７２０）を示す図面である。画像分析モデル（７２０）は、ユーザー認証システム（３００）のプロセッサ（４３４）を通じて生成されることができ、生成されたモデル（７２０）は、プロセッサ（４３４）がアクセス可能な格納媒体（例えば、メモリ（４３６））に格納されることができる。画像（７１０）は、ユーザー認証システム（３００）によって受信された動画内で抽出された１つ以上の画像を含むことができる。例えば、画像抽出モジュール（５２０）は、ユーザー端末から撮影された動画をリアルタイムで受信し、予め決定されたルールに基づいて、受信された動画から画像（７１０）を抽出することができる。抽出された画像（７１０）は、画像分析モジュール（５３０）に提供され、画像分析モジュール（５３０）は、抽出された画像（７１０）を画像分析モデル（７２０）に入力して、ユーザーによる行動遂行結果（７３０）を推論、または出力するように構成されることができる。例えば、行動遂行結果は、ユーザーが複数の命令のそれぞれに対応する行動を遂行するか否かに対する情報を含むことができる。ここで、画像分析モデル（７２０）は、複数の命令が示す複数の行動を分析するための複数のモデルを含むことができる。

一実施例によると、画像分析モジュール（５３０）は、複数のユーザーの行動が撮像された複数の学習画像を画像分析モデル（７２０）の入力画像として提供して、画像内に、ユーザーが特定の行動を遂行するか否かに対する結果を推論、または出力するように構成されることができる。例えば、画像分析モデル（７２０）は、ルールベース（Ｒｕｌｅ-ｂａｓｅｄ）学習および予測を通じてユーザーが特定の行動を遂行するか否かに対する結果を推論するように構成されることができる。他の例として、画像分析モデル（７２０）は、すでに知られたマシンラーニング技法を通じて学習され、入力された画像を通じて行動遂行結果（７３０）を出力するように構成されることができる。例えば、マシンラーニング技法は、Ｆｉｎｄ-Ｓアルゴリズム、ＶｅｒｓｉｏｎＳｐａｃｅアルゴリズム、候補消去（ＣａｎｄｉｄａｔｅＥｌｉｍｉｎａｔｉｏｎ）アルゴリズムを含むことができる。さらに他の例として、画像分析モデル（７２０）は、任意のニューラルネットワークなどを利用して生成された人工ニューラルネットワークモデルを含むことができる。

図８は、本開示の一実施例に係る複数の命令によるユーザーの行動が撮影された動画に基づいてユーザーを認証する例示を示す図面である。ユーザー端末（１００）は、ユーザー認証システム（３００）を介してユーザー認証を要請することができる。これに対応して、ユーザー認証システム（３００）は、ユーザー端末との通信のためのチャネルを生成することができる。例えば、ｗｅｂＲＴＣを利用してユーザー認証システム（３００）とユーザー端末が通信する場合、ユーザー認証システム（３００）は、リンクを含む情報（例えば、「ユーザー要請開始」ボタン）をユーザー端末に送信することができる。これに応答して、ユーザー端末がこのようなボタンをクリックすることにより、ユーザーとの通信のためのチャネルが生成されることができる。ユーザー端末（１００）は、ユーザー端末と連結されたカメラによって撮影された動画を、生成されたチャネルを介してユーザー認証システム（３００）にリアルタイムで送信することができる。

ユーザー端末（１００）は、カメラを介して撮影された動画のリアルタイム送信を開始することができ、送信終了まで撮影された動画をユーザー認証システム（３００）にリアルタイムで送信することができる（Ｓ８１０）。撮影された動画は、ユーザー認証システム（３００）とユーザー端末（１００）の間のチャネルを介してリアルタイムで送信されることができる。これにより、ユーザー認証システム（３００）は、ユーザー端末（１００）によって撮影された動画のリアルタイム受信を開始することができ、受信完了まで撮影された動画を生成されたチャネルを介してリアルタイムで受信することができる（Ｓ８１２）。つまり、ユーザー認証システム（３００）は、ユーザー認証を遂行する間に、ユーザー端末（１００）によって撮影された動画をリアルタイムで、そして連続的に受信することができる。

ユーザー端末（１００）によって撮影された動画の受信が開始された後に、ユーザー認証システム（３００）は、予め決められた順序で複数の命令をユーザー端末（１００）に送信することができる。例えば、このような複数の命令は、ランダムに選択されることができる。これに応答して、ユーザーが複数の命令に対応する行動を遂行し、ユーザー端末（１００）は、遂行された行動が撮影された動画をユーザー認証システム（３００）にリアルタイムで送信することができる。ユーザー認証システム（３００）は、リアルタイムで送信された動画を分析し、分析された結果を格納することができる。これに加えて、ユーザー認証システム（３００）は、リアルタイムで格納された動画に基づいてユーザーを認証し、認証結果をユーザー端末（１００）に通知することができる。

まず、ユーザー認証システム（３００）は、「顔を正面から見る」という命令を送信することができる（Ｓ８１４）。これに応答して、ユーザー（１２０）は、カメラを介して撮影されている画面に自分の顔が正面から見えるように行動することができる（Ｓ８１６）。このような行動は、カメラを介して撮影され、ユーザー端末（１００）は、撮影された動画をユーザー認証システム（３００）にリアルタイムで送信することができる。ユーザー認証システム（３００）は、リアルタイムで受信された動画を分析して、ユーザーが送信された命令が示す行動、つまり、顔を正面から見る行動を遂行したか否かを決定することができ、分析結果を格納することができる（Ｓ８１８）。

次に、ユーザー認証システム（３００）は、「首を左右に振る」という命令をユーザー端末（１００）に送信することができる（Ｓ８２０）。これに応答して、ユーザー（１２０）は、カメラを介して撮影されている画面に首を左右に振る行動が見えるように遂行することができる（Ｓ８２２）。ユーザー端末（１００）は、このような行動をカメラを介して撮影することができ、撮影された動画をユーザー認証システム（３００）にリアルタイムで送信することができる。ユーザー認証システム（３００）は、リアルタイムで受信された動画を分析して、ユーザーが送信された命令が示す行動、つまり、首を左右に振る行動をしたか否かを決定することができ、分析結果を格納することができる（Ｓ８２４）。本開示において、ユーザー（１２０）は、複数の命令に対応して複数の命令が誘導する行動を遂行したため、ユーザー認証システム（３００）は、ユーザー認証の間に、カメラの前にユーザーが存在すると決定することができる。

ユーザーが存在すると決定された後に、ユーザー認証システム（３００）は、特定の領域に身分証が配置されて撮影されることを誘導する命令をユーザー端末（１００）に要請または送信することができる（Ｓ８２６）。例えば、特定の領域は、撮影された動画を構成する各画像またはフレーム内の一部の領域に該当されることができ、ユーザー端末のディスプレイを介して表示されることができる。これに応答して、ユーザーは、特定の領域にユーザーの身分証を提示することができる（Ｓ８２８）。このような身分証は、ユーザー端末（１００）に関連したカメラを介して撮影されることができ、撮影された動画は、リアルタイムでユーザー認証システム（３００）に送信されることができる。ユーザー認証システム（３００）は、特定の領域に身分証の提示を要求する命令に対応して撮影された身分証関連動画を分析してユーザーの顔画像を抽出し、顔の正面を見ることを要求する命令に対応して撮影された顔関連動画からユーザーの顔画像を抽出することができる（Ｓ８３０）。ユーザー認証システム（３００）は、抽出された両ユーザーの顔画像を比較して互いに類似する場合、ユーザーの認証が完了されたことを通知することができる（Ｓ８３２）。このような通知に応答して、ユーザー端末（１００）は、撮影された動画のリアルタイム送信を中止することができる。これにより、撮影された動画の受信もユーザー認証システム（３００）において中止されることができる。

図９は、本開示の一実施例に係る例示的な命令情報ＤＢ（９００）を示す図面である。命令情報ＤＢ（９００）は、複数の命令、解像度、転送速度などが相互に関連して格納される任意のデータ構造として構築されることができる。ここで、命令に応じて解像度は領域別に異なるように設定されることができる。

複数の命令に対応する解像度および転送速度は、プロセッサ（４３４）によって決定されることができ、決定された解像度および転送速度は、命令情報ＤＢ（９００）として格納媒体（例えば、メモリ（４３６））に格納されることができる。一実施例によると、ユーザーを認証するのに使用される顔に対する画像が抽出されるように誘導する命令に対して高解像度が決定されて格納されることができる。例えば、図示されたように、命令１に対応して顔の正面が撮影された動画が受信されることができるため、命令１に関連した解像度（例えば、７２０ｐ）は、他の命令に関連した解像度よりも高く設定されることができる。さらに他の例として、命令５に対応して顔と身分証（表面）が撮影された動画が受信されることができ、ユーザーの身分証内の顔の画像は、ユーザーを認証するのに使用されることができる。これにより、ユーザーの身分証が撮影されるように誘導される領域２の解像度（例えば、１０２４ｐ）は、他の命令に関連した解像度よりも高く設定されることができる。このとき、領域１および/または領域２に対する情報は、命令情報ＤＢ（９００）または領域情報ＤＢの格納媒体（例えば、メモリ（４３６））に格納されることができる。

他の実施例によると、ユーザーが存在するか否かを決定するのに使用される複数の命令の中で、ユーザーの動きを分析するのに使用される画像が抽出されるように誘導する命令に対して比較的高い解像度が設定されることができる。例えば、命令２に対応して顔を左に動かす行動が撮影された動画が受信されることができるため、命令２に関連した解像度（例えば、４８０ｐ）は、ユーザーの静的な動きを示す命令に関連した解像度よりも高く設定されることができる。また、命令４の場合も同様に設定されることができる。これとは異なり、ユーザーの静的な動きを示す命令は、例えば、命令３（「Ｖを描いてください」）を含むことができ、命令３に関連した解像度は、比較的低い２４０ｐに設定されることができる。

プロセッサ（４３４）は、複数の命令に応じて、転送速度を互いに異なるように決定することができる。一実施例によると、ユーザーの動きを分析するのに使用される画像が抽出されるように誘導する命令に対して転送速度が高く設定されることができる。例えば、命令２と命令４は、ユーザーの動きに対する行動が撮影された動画が受信されることができるため、他の命令よりも高い転送速度（例えば、５ｆｐｓ）が設定されることができる。他の実施例によると、ユーザーの静的な動きに関連した命令に対して比較的低い転送速度が設定されることができる。例えば、命令１、命令３および命令５は、ユーザーの静的な動きに関連されることができ、図示されたように、転送速度が１ｆｐｓに設定されることができる。

プロセッサ（４３４）は、格納媒体に格納された命令情報ＤＢ（９００）を参照して、各命令をユーザー端末に送信するとき、各命令に関連した解像度および/または転送速度に対する情報を一緒に送信することができる。これに応答して、ユーザー端末は、受信された命令に対応してカメラを介して動画を撮影するときに受信された解像度がカメラに適用されることができ、受信された転送速度で撮影された動画のフレームまたは画像をユーザー認証システム（３００）に送信することができる。ユーザー端末は、撮影された動画を命令に基づいて互いに異なる転送速度でユーザー認証システム（３００）に送信するため、ユーザー認証のためのユーザー端末でのデータ使用量が最小化されることができる。

図１０は、本開示の一実施例に係るユーザー認証システム（３００）によりユーザーの行動が遂行されるか否かに応じて異なる命令が選択される例示を示す図面である。図示されたように、ユーザー認証システム（３００）は、命令１（「顔を右に回してください」）を選択することができる（Ｓ１０１０）。例えば、このような命令１は、予め決定されたルールによって選択されることができる。ユーザーを認証するプロセスにおいて、選択された命令１は、ユーザー端末に送信されることができる。

受信された命令１に応答して、ユーザー端末は、カメラを利用してユーザーの行動を撮影し、撮影されたユーザーの行動をユーザー認証システム（３００）に送信することができる。ユーザー認証システム（３００）は、受信された動画を分析して、ユーザーが命令１を遂行するか否かを決定することができる（Ｓ１０２０）。もし、ユーザーが命令１を遂行すると決定されると、命令２（「瞬きしてください」）が選択されることができる（Ｓ１０３０）。ここで、命令２が示す行動は、命令１が示す行動と関連されないことができる。

ユーザーが命令１を遂行しないと判断されると、命令３（「顔を左に回してください」）が生成されたり、選択されたりすることができる（Ｓ１０４０）。ここで、命令３は、受信された動画の分析から取得されたユーザーの行動と命令１に対応する行動との相違点に基づいて選択されることができる。例えば、命令３に関連した行動は、命令１に関連した行動と類似する行動を示すことができる。これにより、命令１に対応して撮影された動画内のユーザーの行動が検証されていない場合、類似する行動を示す命令３に対応して撮影された動画内のユーザーの行動が分析されて、命令１に対応して分析された結果が補完、または再検証されることができる。

図１０には図示されていないが、ユーザーが命令１を遂行しないと決定されると、検証プロセスが終了されたり、命令１の遂行を再要請したりすることも可能である。このとき、ユーザー認証システム（３００）は、命令１が遂行されなかったと決定したことに対する情報をユーザー端末に送信することができる。

一方、ユーザー端末は、ユーザー認証サービスを提供するアプリケーションやウェブブラウザを利用してユーザー認証要請を遂行することができる。これに応答して、ユーザー端末とユーザー認証サービスを提供するユーザー認証システム間のチャネルが生成されることができる。ユーザー端末は、生成されたチャネルを利用してユーザー認証システムと相互通信することができる。以下の図１１〜図１５は、ユーザー認証サービスを利用するプロセスにおいて、命令に対応してユーザーが行動する様子を撮影する例示的な画面を示す。

図１１は、本開示の一実施例に係る命令に対応してユーザーの行動が撮影された画面の例示を示す図面である。一実施例によると、ユーザー端末は、ユーザー認証システム（３００）から「顔を正面から見てください」という命令を受信することができる。このような命令に応答して、ユーザーは、カメラを利用して撮影された動画を表示する画面に表示された領域（１１１０）に、自分の顔が位置するように行動することができる。このような行動が遂行された場合、ユーザーの正面顔が撮影された動画がユーザー認証システム（３００）にリアルタイムで送信されることができる。これに応答して、ユーザー認証システム（３００）は、ユーザー認証を行うプロセスにおいて動画内の一部領域（１１１０）で撮影された動画を分析することができる。

図示されたように、受信された命令に対応して、受信された命令に関連した情報がカメラを利用して撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。一実施例によると、受信された命令を示すテキスト（１１３０）、すなわち、「顔を正面から見てください」が撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。これに加えて、受信された命令を示すキャラクター画像（１１２０）もユーザー端末の画面に一緒に表示されることができる。このようなテキスト（１１３０）および/またはキャラクター画像（１１２０）を参照して、ユーザーは受信された命令に対応する行動を遂行することができる。このような行動を撮影した動画をリアルタイムで受信したユーザー認証システム（３００）は、動画内にユーザーが存在するか否かを決定することができる。また、ユーザー認証システム（３００）は、受信された動画内でユーザーの顔に対する情報を抽出することができる。

図１２は、本開示の他の実施例に係る命令に対応してユーザーの行動が撮影された画面の例示を示す図面である。本実施例によると、ユーザー端末は、ユーザー認証システム（３００）から「顔を右に回してください」という命令を受信することができる。このような命令に応答して、ユーザーは、カメラを利用して撮影された画面に表示された特定の領域（１２１０）に自分の顔を位置させ、右に回す行動をすることができる。このような顔を右に回す行動が遂行された場合、ユーザーの顔を右に回す行動が撮影された動画がユーザー認証システム（３００）にリアルタイムで送信されることができる。これに応答して、ユーザー認証システム（３００）は、ユーザー認証を行うプロセスにおいて動画内の一部領域（１２１０）で撮影された動画を分析することができる。

図示されたように、受信された命令に対応して、受信された命令に関連した情報がカメラを利用して撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。一実施例によると、受信された命令を示すテキスト（１２３０）、すなわち、「顔を右に回してください」が撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。これに加えて、受信された命令を示すキャラクター画像（１２２０）もユーザー端末の画面に一緒に表示されることができる。このようなテキスト（１２３０）および/またはキャラクター画像（１２２０）を参照して、ユーザーは、受信された命令に対応する行動を遂行することができ、このような行動を撮影した動画をリアルタイムで受信したユーザー認証システム（３００）は、動画内にユーザーが存在するか否かを決定することができる。

図１３は、本開示のさらに他の実施例に係る命令に対応してユーザーの行動が撮影された画面の例示を示す図面である。本実施例によると、ユーザー端末は、ユーザー認証システム（３００）から「目を閉じてください」という命令を受信することができる。このような命令に応答して、ユーザーは、カメラを利用して撮影される画面に表示される領域（１３１０）に自分の顔を位置させ、目を閉じる行動をすることができる。このような行動が遂行された場合、ユーザーの目を閉じた行動が撮影された動画がユーザー認証システムにリアルタイムで送信されることができる。これに応答して、ユーザー認証システム（３００）は、ユーザー認証を行うプロセスにおいて動画内の一部領域（１３１０）で撮影された動画を分析することができる。

図１３において、受信された命令に対応して、受信された命令に関連した情報がカメラを利用して撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。例えば、受信された命令を示すテキスト（１３３０）、すなわち、「目を閉じてください」が撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。これに加えて、受信された命令を示すキャラクター画像（１３２０）もユーザー端末の画面に一緒に表示されることができる。このようなテキスト（１３３０）および/またはキャラクター画像（１３２０）を参照して、ユーザーは、受信される命令に対応する行動を遂行することができ、このような行動を撮影した動画をリアルタイムで受信したユーザー認証システム（３００）は、動画内にユーザーが存在するか否かを決定することができる。

図１４は、本開示の一実施例に係る命令に対応してユーザーおよびユーザーの身分証が一緒に撮影される例示を示す図面である。本実施例によると、ユーザー端末は、ユーザー認証システム（３００）から「顔と一緒に身分証（表面）を見せてください」という命令を受信することができる。このような命令に応答して、図示されたように、ユーザーは、カメラを利用して撮影される画面に表示された領域（１４１０）に自分の顔が位置するように行動することができる。これと同時に、ユーザーは、画面に表示された領域（１４４０）に身分証が位置するように行動することができる。このような行動が遂行された場合、ユーザーの顔および身分証が撮影された動画がユーザー認証システム（３００）にリアルタイムで送信されることができる。これに応答して、ユーザー認証システム（３００）は、ユーザー認証を行うプロセスにおいて動画内の領域（１４１０）および/または領域（１４４０）で撮影された動画を分析することができる。

図示されたように、受信した命令に対応して、受信された命令に関連した情報がカメラを利用して撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。一実施例によると、受信された命令を示すテキスト（１４２０）、すなわち、「顔と一緒に身分証（表面）を見せてください」が撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。これに加えて、受信された命令を示す身分証の画像（１４３０）もユーザー端末の画面に一緒に表示されることができる。このように画面に表示された情報を参照して、ユーザーは、受信される命令に対応する行動を遂行することができ、このような行動を撮影した動画を受信したユーザー認証システム（３００）は、身分証の画像からユーザーの顔を抽出することができる。図１１の正面顔が撮影された動画から抽出された顔の画像と身分証が撮影された動画から抽出された顔の画像は、互いに比較され、ユーザーを認証するために利用されることができる。

一実施例によると、ユーザーの少なくとも一部（ここで、ユーザーの顔を含むユーザーの少なくとも一部）が撮影される領域（１４１０）と身分証が撮影される領域（１４４０）に異なる設定が適用されることができる。例えば、２つの領域は、互いに異なるチャネルが適用され、２つの領域で撮影された動画は、それぞれ設定されたチャネルでユーザー認証システム（３００）に送信されることができる。他の例として、２つの領域は、互いに異なる解像度が適用され、２つの領域で撮影された動画は、異なる解像度で撮影された動画であることができる。ここで、身分証が撮影されるように誘導された領域（１４４０）で撮影された動画の解像度が、ユーザーの少なくとも一部が撮影されるように誘導された領域（１４１０）の解像度よりも高くなり得る。

図１５は、本開示の一実施例に係るユーザーの身分証が存在するか否かを決定するために命令に対応して身分証の動きを撮影する例示を示す図面である。一実施例によると、ユーザー端末は、ユーザー認証システム（３００）から「顔と身分証（表面）を見せて身分証を動かしてください」という命令を受信することができる。このような命令に応答して、ユーザーは、カメラを利用して撮影される画面に表示された領域（１５１０）に自分の顔が位置するように行動することができる。これと同時に、ユーザーは、カメラを利用して撮影される画面の他の領域（１５４０）に身分証を位置させ、身分証を動かす行動を遂行することができる。このような行動が遂行された場合、ユーザーの顔および身分証が動く行動が撮影された動画が、ユーザー認証システム（３００）にリアルタイムで送信されることができる。これに応答して、ユーザー認証システム（３００）は、ユーザー認証を行うプロセスにおいて動画内の領域（１５１０）および/または領域（１５４０）で撮影された動画を分析することができる。

図１５において、受信された命令に対応して、受信された命令に関連した情報がカメラを利用して撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。例えば、受信された命令を示すテキスト（１５２０）、すなわち、顔と身分証（表面）を見せて身分証を動かしてください」が撮影されている動画を表示するユーザー端末の画面に一緒に表示されることができる。これに加えて、受信された命令を示す身分証の画像（１５３０）と身分証の領域（１５４０）もユーザー端末の画面に一緒に表示されることができる。ユーザーは、画面に表示されたこのような情報を利用して、受信された命令に対応する行動を遂行することができ、このような行動を撮影した動画をリアルタイムで受信したユーザー認証システム（３００）は、身分証が存在するか否かを決定することができる。例えば、ユーザー認証システム（３００）は、動画を分析して取得したユーザーの身分証の動きに基づいて動画内にユーザーの身分証が存在するか否かを決定することができる。ユーザー認証システム（３００）は、身分証が存在する場合にユーザーを認証するように構成されることができる。

上述されたユーザー認証方法は、コンピュータ読み取り可能な記録媒体にコンピュータ読み取り可能なコードで実装されることもできる。コンピュータ読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが格納されるすべての種類の記録装置を含む。コンピュータ読み取り可能な記録媒体の例としては、ＲＯＭ、ＲＡＭ、ＣＤ-ＲＯＭ、磁気テープ、フロッピーディスク、光学データ格納装置などがある。また、コンピュータ読み取り可能な記録媒体は、ネットワークで連結されたコンピュータシステムに分散され、分散方式でコンピュータ読み取り可能なコードが格納されて実行されることができる。そして、前記実施例を実装するための機能的な（ｆｕｎｃｔｉｏｎａｌ）プログラム、コードおよびコードセグメントは、本発明が属する技術分野のプログラマーによって容易に推論されることができる。

本開示の方法、動作または技法は、多様な手段によって実装されることもできる。例えば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせによって実装されることもできる。本願の開示と連携して説明された多様な例示的論理ブロック、モジュール、回路およびアルゴリズムのステップは、電子ハードウェア、コンピュータソフトウェア、または両者の組み合わせで実装され得るということを通常の技術者は理解できるであろう。ハードウェアおよびソフトウェアのこのような相互代替を明確に説明するために、多様な例示的構成要素、ブロック、モジュール、回路およびステップがそれらの機能的観点から一般的に上述されている。そのような機能がハードウェアとして実装されるか否か、またはソフトウェアとして実装されるか否かは、特定のアプリケーションおよび全体システムに課される設計要求事項によって異なることになる。通常の技術者は、それぞれの特定のアプリケーションのために多様な方式で説明された機能を実装することもできるが、そのような実装は本開示の範囲を逸脱するものと解釈されてはならない。

ハードウェアの実装において、技法を遂行するのに利用されるプロセッシングユニットは、１つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号プロセッシングデバイス（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇｄｅｖｉｃｅｓ; ＤＳＰＤ）、プログラム可能な論理デバイス（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｄｅｖｉｃｅｓ; ＰＬＤ）、フィールドプログラマブルゲートアレイ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ; ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本開示で説明された機能を遂行するように設計された他の電子ユニット、コンピュータ、またはこれらの組み合わせの中から実装されることもできる。

したがって、本開示と連携して説明された多様な例示的論理ブロック、モジュール、および回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡや他のプログラム可能な論理デバイス、ディスクリートゲートやトランジスタロジック、ディスクリートハードウェアコンポーネント、または本願において説明された機能を遂行するように設計されたものの任意の組み合わせで実装されたり、遂行されたりすることもできる。汎用プロセッサは、マイクロプロセッサであることもできるが、代案として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態マシンであることもできる。プロセッサは、また、コンピューティングデバイスの組み合わせ、例えば、ＤＳＰとマイクロプロセッサ、複数のマイクロプロセッサ、ＤＳＰコアと連携した１つ以上のマイクロプロセッサ、または任意の他の構成の組み合わせで実装されることもできる。

ファームウェアおよび/またはソフトウェアの実装において、技法は、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ; ＲＡＭ）、読み出し専用メモリ（ｒｅａｄ-ｏｎｌｙｍｅｍｏｒｙ; ＲＯＭ）、不揮発性ＲＡＭ（ｎｏｎ-ｖｏｌａｔｉｌｅｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ; ＮＶＲＡＭ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ-ｏｎｌｙｍｅｍｏｒｙ）、ＥＰＲＯＭ（ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ-ｏｎｌｙｍｅｍｏｒｙ）、ＥＥＰＲＯＭ（ｅｌｅｃｔｒｉｃａｌｌｙｅｒａｓａｂｌｅＰＲＯＭ）、フラッシュメモリ、コンパクトディスク（ｃｏｍｐａｃｔｄｉｓｃ; ＣＤ）、磁気または光学データストレージデバイスなどのようなコンピュータ読み取り可能な媒体上に格納されたコマンドで実装されることもできる。コマンドは、１つ以上のプロセッサによって実行することもでき、プロセッサが本開示において説明された機能の特定の態様を遂行するようにすることもできる。

ソフトウェアで実装される場合、前記の技法は、１つ以上のコマンドまたはコードとしてコンピュータ読み取り可能な媒体上に格納されたり、またはコンピュータ読み取り可能な媒体を通じて送信されたりすることもできる。コンピュータ読み取り可能な媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含めて、コンピュータ格納媒体および通信媒体の両方を含む。格納媒体は、コンピュータによってアクセス可能な任意の利用可能な媒体であることもできる。非限定的な例として、これらのコンピュータ読み取り可能な媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ-ＲＯＭまたは他の光ディスクストレージ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または所望のプログラムコードをコマンドまたはデータ構造の形態に移送または格納するために使用されることができ、コンピュータによってアクセス可能な任意の他の媒体を含むことができる。また、任意の接続がコンピュータ読み取り可能な媒体に適切に称される。

例えば、ソフトウェアが同軸ケーブル、光ファイバーケーブル、撚線、デジタル加入者回線（ＤＳＬ）、または赤外線、無線およびマイクロ波などのワイヤレス技術を使用して、ウェブサイト、サーバー、または他のリモートソースから送信されると、同軸ケーブル、光ファイバーケーブル、撚線、デジタル加入者回線、または赤外線、無線およびマイクロ波などのワイヤレス技術は、媒体の定義内に含まれる。本願において使用されるディスク（ｄｉｓｋ）とディスク（ｄｉｓｃ）は、ＣＤ、レーザーディスク、光ディスク、ＤＶＤ（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ）、フロッピーディスクおよびブルーレイディスクを含み、ここでディスク（ｄｉｓｋｓ）は、通常、磁気的にデータを再生し、一方ディスク（ｄｉｓｃｓ）は、レーザーを利用して光学的にデータを再生する。前記の組み合わせもコンピュータ読み取り可能な媒体の範囲内に含まれるべきである。

ソフトウェアモジュールは、ＲＡＭメモリ、フラッシュメモリ、ＲＯＭメモリ、ＥＰＲＯＭメモリ、ＥＥＰＲＯＭメモリ、レジスタ、ハードディスク、移動式ディスク、ＣＤ-ＲＯＭ、または公知された任意の他の形態の格納媒体内に常駐することもできる。例示的な格納媒体は、プロセッサが格納媒体から情報を読み出したり、格納媒体に情報を記録したりすることができるように、プロセッサに連結されることができる。代案として、格納媒体は、プロセッサに統合されることもできる。プロセッサと格納媒体は、ＡＳＩＣ内に存在することもできる。ＡＳＩＣは、ユーザー端末内に存在することもできる。代案として、プロセッサと格納媒体は、ユーザー端末において個別のコンポーネントとして存在することもできる。

以上で説明された実施例が１つ以上のスタンドアロンコンピュータシステムで現在開示された主題の態様を活用するものとして記述されたが、本開示はこれに限定されず、ネットワークや分散コンピューティング環境のような任意のコンピューティング環境と連携して実装されることもできる。さらに、本開示における主題の様相は、複数のプロセッシングチップやデバイスで実装されることもでき、ストレージは、複数のデバイスにわたって同様に影響を受けることもできる。これらのデバイスは、ＰＣ、ネットワークサーバーおよびハンドヘルドデバイスを含むこともできる。

本明細書においては、本開示が一部の実施例に関連して説明されたが、本開示の発明の属する技術分野の通常の技術者が理解できる本開示の範囲を逸脱しない範囲で多様な変形および変更が行われることができる。また、そのような変形および変更は、本明細書に添付された特許請求の範囲内に属するものとして考えられなければならない。

１００、１００_１、１００_２、１００_３：ユーザー端末
１１０：カメラ
１２０：ユーザー
３００：ユーザー認証システム
３１０：ネットワーク
４１２、４３８：通信モジュール
４１４、４３４：プロセッサ
４１６、４３６：メモリ
４１８、４３２：入出力インターフェース
４２０：入出力デバイス
５１０：命令処理モジュール
５２０：画像抽出モジュール
５３０：画像分析モジュール
５４０：認証モジュール

Claims

ユーザー認証方法であって、
ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップと、
前記ユーザー端末から前記複数の命令に対応して撮影された動画を受信するステップと、
前記動画内に前記ユーザーが存在するか否かを決定するステップと、
前記ユーザーが存在すると決定された場合、前記動画から抽出された前記ユーザーの顔に基づいて前記ユーザーを認証するステップとを含む、ユーザー認証方法。
前記ユーザー端末から前記複数の命令に対応して撮影された動画を受信するステップは、前記ユーザー端末から前記ユーザー端末との通信のためのチャネルを介して前記動画をリアルタイムで受信するステップを含む、請求項１に記載のユーザー認証方法。
前記動画は、前記ユーザー端末との通信のためのチャネルを介して連続的に受信される、請求項２に記載のユーザー認証方法。
前記動画内に前記ユーザーが存在するか否かを決定するステップは、
前記動画を分析して、前記動画内で前記ユーザーが前記複数の命令に対応する複数の行動を遂行するか否かを決定するステップと、
前記ユーザーが前記複数の命令に対応する前記複数の行動を遂行すると決定された場合、前記撮影された動画内に前記ユーザーが存在すると決定するステップとを含む、請求項１〜３のいずれか１項に記載のユーザー認証方法。
前記ユーザー端末から前記複数の命令に対応して撮影された動画を受信するステップは、
前記ユーザー端末からユーザーの顔が撮影されるように誘導する命令に対応して撮影された顔関連動画を受信するステップと、
前記ユーザー端末からユーザーの身分証が撮影されるように誘導する命令に対応して撮影された身分証関連動画を受信するステップとを含み、
前記ユーザーを認証するステップは、
前記顔関連動画から前記ユーザーの顔に対する第１の情報を抽出するステップと、
前記身分証関連動画から前記ユーザーの顔に対する第２の情報を抽出するステップと、
前記抽出された第１の情報および前記抽出された第２の情報を比較するステップと、
前記抽出された第１の情報および前記抽出された第２の情報が類似する場合、前記ユーザーを認証するステップとを含む、請求項１〜４のいずれか１項に記載のユーザー認証方法。
前記複数の命令は、ユーザーの正面顔が撮影されるように誘導する命令を含む、請求項５に記載のユーザー認証方法。
前記複数の命令は、前記ユーザーの身分証を動かすように誘導する命令を含み、
前記身分証関連動画を受信するステップは、前記ユーザー端末から前記命令に基づいて前記ユーザーの身分証が撮影された動画を受信するステップを含み、
前記ユーザーを認証するステップは、前記動画を分析して取得したユーザーの身分証の動きに基づいて、前記動画内に前記ユーザーの身分証が存在するか否かを決定するステップを含む、請求項５に記載のユーザー認証方法。
前記身分証関連動画は、前記ユーザーの少なくとも一部および前記ユーザーの身分証が一緒に撮影された動画を含み、
前記身分証関連動画を受信するステップは、
前記ユーザー端末から前記ユーザーの少なくとも一部を含む領域を第１のチャネルで受信するステップと、
前記ユーザー端末から前記ユーザーの身分証を含む領域を第２のチャネルで受信するステップとを含む、請求項５または６に記載のユーザー認証方法。
前記ユーザーの複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、
予め決められた複数の命令の候補の中から、前記複数の命令をランダムに選択するステップと、
前記ランダムに選択された複数の命令を前記ユーザー端末に送信するステップとを含む、請求項１〜８のいずれか１項に記載のユーザー認証方法。
前記ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、
前記ユーザーに第１の行動を誘導する第１の命令を前記ユーザー端末に送信するステップを含み、
前記ユーザー端末から前記複数の命令に対応して撮影された動画を受信するステップは、
前記ユーザー端末から前記第１の命令に対応して撮影された動画を受信するステップを含み、
前記動画内に前記ユーザーが存在するか否かを決定するステップは、前記第１の命令に対応して撮影された動画を分析し、前記ユーザーが前記第１の命令に応答して前記第１の行動を遂行するか否かを決定するステップを含む、請求項１に記載のユーザー認証方法。
前記ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、
前記ユーザーが前記第１の行動を遂行すると決定された場合、前記ユーザーに第２の行動を誘導する第２の命令を前記ユーザー端末に送信するステップをさらに含み、
前記ユーザー端末から前記複数の命令に対応して撮影された動画を受信するステップは、
前記ユーザー端末から前記第２の命令に対応して撮影された動画を受信するステップをさらに含み、
前記動画内に前記ユーザーが存在するか否かを決定するステップは、前記第２の命令に対応して撮影された動画を分析し、前記ユーザーが前記第２の命令に応答して前記第２の行動を遂行するか否かを決定するステップをさらに含む、請求項１０に記載のユーザー認証方法。
前記ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、
前記ユーザーが前記第１の行動を遂行しないと決定された場合、前記ユーザーに第３の行動を誘導する第３の命令を前記ユーザー端末に送信するステップをさらに含み、
前記第３の命令は、前記第１の命令に対応して撮影された動画の分析から取得されたユーザーの行動と前記第１の行動との相違点に基づいて選択されたものである、請求項１０または１１に記載のユーザー認証方法。
前記ユーザーが前記第１の行動を遂行しないと決定された場合、前記ユーザー端末との通信のために使用されたチャネルと異なるチャネルを利用して前記ユーザー端末と通信するステップをさらに含む、請求項１０に記載のユーザー認証方法。
前記ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、
前記複数の命令に対応する複数の解像度に対する情報を前記複数の命令と一緒に前記ユーザー端末に送信するステップを含む、請求項１〜８のいずれか１項に記載のユーザー認証方法。
前記複数の命令に対応する複数の解像度は、前記複数の命令に対応して撮影される動画が表示される画面での複数の領域のそれぞれに対する解像度を含む、請求項１４に記載のユーザー認証方法。
前記複数の命令は、前記ユーザーの少なくとも一部および前記ユーザーの身分証が一緒に撮影されるように誘導する命令を含み、
前記ユーザーの身分証が撮影されるように誘導された領域の解像度は、前記ユーザーの少なくとも一部が撮影されるように誘導された領域の解像度よりも高く設定される、請求項１４または１５に記載のユーザー認証方法。
前記ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信するステップは、
前記複数の命令のそれぞれに対応する転送速度に対する情報を前記複数の命令と一緒に前記ユーザー端末に送信するステップを含む、請求項１〜８のいずれか１項に記載のユーザー認証方法。
請求項１〜１７のいずれか１項によるユーザー認証方法をコンピュータで実行するためにコンピュータ読み取り可能な記録媒体に格納されたコンピュータプログラム。
ユーザー認証システムであって、
ユーザーに複数の行動を誘導する複数の命令をユーザー端末に送信し、前記ユーザー端末から前記複数の命令に対応して撮影された動画を受信するように構成された通信モジュールと、
メモリと、
前記メモリと連結され、前記メモリに含まれたコンピュータ読み取り可能な命令を実行するように構成された少なくとも１つのプロセッサとを含み、
前記少なくとも１つのプロセッサは、
前記動画内に前記ユーザーが存在するか否かを決定し、
前記ユーザーが存在すると決定された場合、前記動画から抽出された前記ユーザーの顔に基づいて前記ユーザーを認証するようにさらに構成された、ユーザー認証システム。
前記通信モジュールは、前記ユーザー端末から前記ユーザー端末との通信のためのチャネルを介して前記動画をリアルタイムで受信するようにさらに構成される、請求項１９に記載のユーザー認証システム。