JP2019082990A

JP2019082990A - 身元認証方法、端末装置、およびコンピュータ可読記憶媒体｛ｉｄｅｎｔｉｔｙａｕｔｈｅｎｔｉｃａｔｉｏｎｍｅｔｈｏｄ，ｔｅｒｍｉｎａｌｅｑｕｉｐｍｅｎｔａｎｄｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｓｔｏｒａｇｅｍｅｄｉｕｍ｝

Info

Publication number: JP2019082990A
Application number: JP2018110286A
Authority: JP
Inventors: ゾン，ゼンユー; Zhenyu Zhong; ウェイ，タオ; Tao Wei; チウ，ジェービン; Zhebin Qiu
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2017-10-31
Filing date: 2018-06-08
Publication date: 2019-05-30
Anticipated expiration: 2038-06-08
Also published as: US10635893B2; CN109726624A; EP3477519B1; US20190130172A1; KR102063037B1; KR20190049401A; JP6619847B2; CN109726624B; EP3477519A1

Abstract

【課題】身元認証方法、端末装置、及びコンピュータ可読記憶媒体を提供する。【解決手段】身元認証方法は、ユーザの唇の形の変化過程が表示されている映像データを取得２０１し、取得した映像データを解析して、映像データを構成する連続的なイメージ中の各イメージに表示されている顔領域の注釈情報と連続的なイメージの中の各イメージに対応する顔の特徴情報とを生成２０２する。次に、生成された注釈情報及び連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成２０３する。そして、生成された顔の特徴情報、唇の特徴情報シーケンス及び顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信２０４する。【選択図】図２

Description

本願は、コンピュータ技術分野に関するものであり、具体的には、インターネット技術分野に関するものであり、特には身元認証方法、端末装置、およびコンピュータ可読記憶媒体に関するものである。

世界経済及び情報技術が発展し、グローバルインターネット時代が到来することに伴って、より多くの分野で信頼性の高い身元認証が必要となっている。情報化の背景の下で、一人の身元を正確に識別し、情報の安全性を確保することは、情報化時代の一つの重要な課題である。

従来の方法は、一般的に、パスワード、暗証番号や顔認識技術などを利用して、身元認証を行うが、パスワードや暗証番号は、ユーザが忘れてしまうやすく、顔識別技術が依存している顔の特徴は、写真や映像などで偽造されやすい。

本願は、身元認証方法、端末装置、およびコンピュータ可読記憶媒体を提供する。

第１の態様において、本願の実施形態は、ユーザの唇の形の変化過程が表示されている映像データを取得するステップと、映像データを解析して、映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、連続的なイメージの中の各イメージに対応する顔の特徴情報と、を生成するステップと、生成された注釈情報および連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成するステップと、生成された顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信するステップとを含む身元認証方法を提供する。

一部の実施形態において、ユーザの唇の形の変化過程が表示されている映像データを取得するステップは、身元認証を行うようにユーザに提示するための第１の提示情報を表示するステップと、ユーザの顔を撮像して、ユーザの唇の形の変化過程が表示されている映像データを取得するステップと、ユーザの音声データを取得するステップとを含む。

一部の実施形態において、第１の提示情報は、発音のオプションを含み、身元認証方法は、ユーザが発音のオプションに対してクリック操作を実行したことの確定に応じて、音声データを解析して声紋の特徴情報を生成するステップと、声紋の特徴情報をサーバに送信するステップとをさらに含む。

一部の実施形態において、注釈情報は、顔領域のポイントの位置と顔領域の位置とを含み、生成された注釈情報および連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成するステップは、生成された注釈情報と連続的なイメージとを、予めトレーニングされたニューラルネットワークにそれぞれ入力して、連続的なイメージに対応する唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを取得するステップであって、ニューラルネットワークは、順に複数のイメージから唇の特徴情報を抽出して唇の特徴情報シーケンスを生成し、順に複数のイメージから顔の局部の特徴情報を抽出して顔の局部の特徴情報シーケンスを生成するのに用いられる、ステップを含む。

一部の実施形態において、顔の局部の特徴情報シーケンスは、顔面の特徴情報シーケンス、目の特徴情報シーケンス、鼻の特徴情報シーケンス、眉毛の特徴情報シーケンス、あごの特徴情報シーケンス、口腔の特徴情報シーケンスおよび舌の特徴情報シーケンスの中の少なくとも一つを含む。

一部の実施形態において、唇の特徴情報シーケンスにおける唇の特徴情報は、唇の中心座標、唇の方向、内側唇の幅、外側唇の幅、外側唇の上縁の高さ、内側唇の上縁の高さ、内側唇の下縁の高さ、外側唇の下縁の高さ、４次曲線の中心の座標原点からのオフセット、上唇の４次曲線が放物線から外れた距離および下唇の４次曲線が放物線から外れた距離を含む。

一部の実施形態において、ユーザの唇の形の変化過程が表示されている映像データを取得するステップの前に、暗号設定を行うようにユーザに提示するための第２の提示情報を表示し、ユーザの唇の形の変化過程が表示されている対象の映像データを取得するステップと、対象の映像データを解析して、対象の映像データを構成する対象の連続的なイメージの中の各イメージに表示されている顔領域の対象の注釈情報と、対象の連続的なイメージの中の各イメージに対応する対象の顔の特徴情報と、を生成するステップと、生成された対象の注釈情報および対象の連続的なイメージに基づいて、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとを生成するステップと、生成された対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスをサーバに送信するステップとをさらに含む。

一部の実施形態において、暗号設定を行うようにユーザに提示するための第２の提示情報を表示し、ユーザの唇の形の変化過程が表示されている対象の映像データを取得するステップは、暗号設定を行うようにユーザに提示するための第２の提示情報を表示するステップと、ユーザの顔を撮像して、ユーザの唇の形の変化過程が表示されている対象の映像データを取得するステップと、ユーザの対象の音声データを取得するステップとを含む。

一部の実施形態において、第２の提示情報は、発音のオプションを含み、身元認証方法は、ユーザが第２の提示情報における発音のオプションに対してクリック操作を実行したことの確定に応じて、対象の音声データを解析して対象の声紋の特徴情報を生成するステップと、対象の声紋の特徴情報をサーバに送信するステップをさらに含む。

一部の実施形態において、対象の注釈情報は、顔領域のポイントの位置と顔領域の位置とを含み、生成された対象の注釈情報および対象の連続的なイメージに基づいて、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとを生成するステップは、生成された対象の注釈情報と対象の連続的なイメージを、予めトレーニングされたニューラルネットワークにそれぞれ入力して、対象の連続的なイメージに対応する対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとを取得するステップを含む。

第２の態様において、本願の実施形態は、ユーザの顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスを含む、クライアントから送信された身元認証請求を受信するステップであって、顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスは、ユーザの唇の形の変化過程が表示されている映像データの解釈に基づいてクライアントにより生成されたものである、ステップと、予め設定されたユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを抽出するステップと、顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスと、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成するステップと、クライアントに身元認証の結果を送信するステップとを含む身元認証方法を提供する。

一部の実施形態において、顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスと、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成するステップは、顔の特徴情報と対象の顔の特徴情報とがマッチングされ、唇の特徴情報シーケンスと対象の唇の特徴情報シーケンスとがマッチングされ、顔の局部の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとがマッチングされる３つの条件を同時に満たす場合、ユーザが身元認証に合格したことを示すための身元認証の結果を生成するステップを含む。

一部の実施形態において、身元認証請求は、ユーザの声紋の特徴情報をさらに含み、顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスと、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成するステップは、予め設定されたユーザの対象の声紋の特徴情報を抽出するステップと、顔の特徴情報と対象の顔の特徴情報とがマッチングされ、唇の特徴情報シーケンスと対象の唇の特徴情報シーケンスとがマッチングされ、顔の局部の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとがマッチングされ、声紋の特徴情報と対象の声紋の特徴情報がマッチングされる４つの条件を同時に満たす場合、ユーザが身元認証に合格したことを示すための身元認証の結果を生成するステップを含む。

一部の実施形態において、クライアントから送信された身元認証請求を受信するステップの前に、ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを含む、クライアントから送信された身元設定請求を受信するステップであって、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスは、ユーザの唇の形の変化過程が表示されている対象の映像データの解析に基づいてクライアントにより生成されたものである、ステップと、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを記憶するステップとを含む。

一部の実施形態において、身元設定請求は、ユーザの対象の声紋の特徴情報をさらに含み、対象の声紋の特徴情報は、ユーザの音声データの解釈に基づいてクライアントにより生成されたものであり、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを記憶するステップは、対象の声紋の特徴情報、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを記憶するステップを含む。

第３の態様において、本願の実施態様は、１つまたは複数のプロセッサと、１つまたは複数のプログラムを記憶するための記憶装置とを含み、１つまたは複数のプログラムが１つまたは複数のプロセッサによって実行される場合、１つまたは複数のプロセッサに第１の態様に記載の方法を実現させる端末装置を提供する。

第４の態様において、本願の実施態様は、コンピュータプログラムが記憶されており、プログラムがプロセッサによって実行される場合、第１の態様に記載の方法を実現させることを特徴とするコンピュータ可読記憶媒体。

本願の実施態様で提供される身元認証方法は、取得されたユーザの唇の形の変化過程が表示されている映像データを解析して、映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、連続的なイメージの中の各イメージに対応する顔の特徴情報と、を生成し、次いで、生成された注釈情報および連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成し、最後に、生成された顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信することにより、顔を認識し、ユーザが口話（ｌｉｐｌａｎｇｕａｇｅ）を利用する際の口の形の動作と、ユーザが口話を利用する際の顔面の局部の動作と、の認識を組み合わせ、ユーザの身元認証を行うことができ、ユーザが口話を利用する際の口の形の動作と顔面の動作は、ユーザ自身が特有している生物的特徴なので、攻撃者が模倣しにくく、身元認証の安全性を向上させることができる。

以下の添付された図面を参照して行った非限定的な実施形態に対する詳細な説明を閲覧することにより、本発明の他の特徴、目的および利点がより明確になる。

本願が適用可能な例示的システム構造図である。本願による身元認証方法の一実施形態のフローチャートである。本願による身元認証方法の一応用情景の例示図である。本願による身元認証方法の他の一実施形態のフローチャートである。本願による身元認証方法の別の一実施形態のフローチャートである。本願による身元認証装置の一実施形態の例示的構成図である。本願による身元認証装置の他の一実施形態の例示的構成図である。本願の実施例を実現する端末装置またはサーバに適用されるコンピュータシステムの例示的な構成図である。

以下、添付された図面及び実施例を組み合わせて、本発明をより詳細に説明する。ここで説明した具体的な実施例は、関連発明を解釈するためのものであり、当該発明を限定するためのものではないことが理解できる。なお、説明の便宜上、添付された図面には、関連発明に関する部分のみが表示される。

なお、本発明の実施例及び実施例における特徴は、矛盾しない限り、互いに組み合わせることができる。以下、添付された図面を参照し、実施例を組み合わせて、本発明を詳細に説明する。

図１は、本願の身元認証方法が適用可能な例示的システムの構造１００を示す。

図１に示すように、システムの構造１００は、端末装置１０１、１０２、１０３、ネットワーク１０４とサーバ１０５を含むことができる。ネットワーク１０４は、端末装置１０１、１０２、１０３とサーバ１０５との間で通信リンクを提供する媒体として使用される。ネットワーク１０４は、例えば、有線通信リンク、無線通信リンク、または光ファイバケーブルなどの各種の接続タイプを含むことができる。

ユーザは、端末装置１０１、１０２、１０３を利用して、ネットワーク１０４を介してサーバ１０５とインタラクションし、メッセージなどを送受信することができる。端末装置１０１、１０２、１０３には、例えば、Ｗｅｂブラウザアプリケーション、ショッピング種類のアプリケーション、検索の種類のアプリケーション、インスタントメッセンジャー、メールクライアント、ソーシャルプラットフォームソフトウェアなどの各種の通信クライアントアプリケーションがインストールされることができる。

端末装置１０１、１０２、１０３は、撮像装置と表示画面を備え、ネットワーク転送をサポートする各種の電子機器であってもよく、スマートフォン、タブレットＰＣ、電子書籍リーダー、ＭＰ３プレーヤー（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＩＩ、動画専門家グループオーディオレイヤ３）、ＭＰ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐＡｕｄｉｏＬａｙｅｒＩＶ、動画専門家グループオーディオレイヤ４）プレーヤー、ラップトップ型ポータブルコンピュータおよびデスクトップ型コンピュータなどを含むが、これに限定されない。

サーバ１０５は、各種のサービスを提供するサーバであることができ、例えば、端末装置１０１、１０２、１０３を利用するユーザに対して身元認証を行うためのバックエンドサーバであることができる。バックエンドサーバは、受信した情報（例えば、顔の特徴情報、前記唇の特徴情報シーケンス、前記顔の局部の特徴情報シーケンスなど）についての分析、マッチング等の処理を行い、処理結果（例えば、身元認証結果）を端末装置にフィードバックすることができる。ここで、サーバ１０５は、物理サーバに限定されず、クラウドサーバであることもできる。

なお、本願の実施例で提供される身元認証方法は、一般的にサーバ１０５によって実行される。

理解すべきなのは、図１における端末装置、ネットワーク、サーバの数は、単に例示的なものであり、実現の需要に応じて、任意の数の端末装置、ネットワーク、およびサーバが備えられていることができる。

続いて図２を参照すると、図２は、本願による身元認証方法の一実施形態のフロー２００を示す。この身元認証方法は、以下のようなステップを含む。

ステップ２０１において、ユーザの唇の形の変化過程が表示されている映像データを取得する。

本実施例において、身元認証方法が運行されている電子機器（例えば、図１に示された端末装置１０１、１０２、１０３）には、カメラのような撮像装置が設置されることができる。前記電子機器は、ユーザの唇の形の変化過程が表示されている映像データを取得するように、撮像装置を作動させて映像を収集することができる。ここで、前記映像データは、連続的なイメージシーケンスを指し、これは実質的に、一連の連続的なイメージで構成されている。

実践中において、前記電子機器は、映像収集の過程で収集された各フレームの画像をリアルタイムで表示することができる。ユーザは、前記電子機器に収集された画像にユーザの顔領域が表示されるように、前記電子機器に表示された映像に基づいて頭や前記電子機器の位置を調整することができる。また、映像収集の過程において、前記電子機器に収集された映像データに前記ユーザの唇の形の変化過程が表示されるように、前記ユーザは発音したり、発音しない（口話）方式で予め設定された暗号（例えば、１つのフレーズ、任意の一言、またはいずれかの発音など）を言うことができる。

ステップ２０２において、映像データを解析して、映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、連続的なイメージの中の各イメージに対応する顔の特徴情報と、を生成する。

本実施例において、前記電子機器は、前記映像データを解析して、前記映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、前記連続的なイメージの中の各イメージに対応する顔の特徴情報を生成することができる。ここで、注釈情報は、画像中の顔領域中の各器官（例えば、目、眉、鼻、口、あごなど）が顔領域に位置する位置（座標値で表示することができる）、顔領域が画像に位置する位置などの情報を含むことができる。前記顔の特徴情報は、画像中の顔の特徴を示すための情報であることができ、ここで、前記顔の特徴は、顔に関する各種の基本的な要素であることができる。例えば、前記基本的な要素は、顔中の各器官が画像の顔領域に位置する位置、顔の中の各器官との間の構造的関係および多数の点の間のユークリッド距離、曲率や角度などを含むことができるが、これに限定されない。実践中において、前記顔の特徴情報は、ベクトルまたは行列で表示することができる。

なお、前記電子機器は、各種の顔検出方法を用いて前記連続的なイメージを検出し、顔領域の注釈情報と顔の特徴情報を生成することができる。例示的に、前記電子機器は、前記連続的なイメージを予めトレーニングされた顔の検出を行うための畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＣＮＮ）に入力して、前記畳み込みニューラルネットワークから出力した前記連続的なイメージ中の各イメージに表示される顔領域の注釈情報とそのイメージに対応する顔の特徴情報とを取得することができる。なお、前記コンボリューションニューラルネットワークは、前記電子機器により深層学習方法とトレーニングサンプルを用いて、従来のディープコンボリューションニューラルネットワーク（例えば、ＤｅｎｓｅＢｏｘ、ＶＧＧＮｅｔ、ＲｅｓＮｅｔ、ＳｅｇＮｅｔなど）に対して監視とトレーニングを行って得られたものである。ここで、前記トレーニングサンプルは、大量の画像と各画像の注釈を含むことができ、例えば、顔領域であるか否かを提示するための注釈、顔領域の位置を提示するための注釈（例えば、座標値等）、顔中の各器官であるか否かを提示するための注釈及び各器官が顔領域に位置する位置を提示するための注釈などを含むことができる。ここで、注釈情報と顔の特徴情報は、ベクトルまたは行列で表示することができる。

実践中において、畳み込みニューラルネットワークは、フィードフォワードニューラルネットワークであり、その人工神経は、いくつかのカバレッジ範囲内の周辺ユニットに応答して、画像処理のための優れた性能を備えるので、コンボリューションニューラルネットワークを利用して、顔の特徴の抽出と顔の検出を行うことができる。コンボリューションニューラルネットワークは、少なくとも一つのコンボリューション層と少なくとも一つのプール層を含むことができ、ここで、畳み込み層は、画像の特徴を抽出するのに使用されることができ、プール層は、入力された情報についてのダウンサンプリング（ｄｏｗｎｓａｍｐｌｅ）を行うように使用することができる。なお、コンボリューションニューラルネットワークを利用して、顔の検出と特徴の抽出を行うことは、現在広く研究されて適用される公知技術なので、詳細な説明は省略することにする。

ステップ２０３において、生成された注釈情報および連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成する。

本実施例において、前記電子機器は、生成された注釈情報と前記連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成することができる。具体的には、まず、前記連続的なイメージの各イメージに対応する注釈情報に対して抽出、出力、総合などの処理を行い、次いで、処理された注釈情報を、その画像の唇の特徴情報と顔の局部の特徴情報として確定し、最終的には、各画像に対応する確定された唇の特徴情報を唇の特徴情報のシーケンスとして順に総合し、各画像に対応する確定された顔の局部の特徴情報を顔の局部の特徴情報シーケンスに順に総合することができる。例示的に、生成された注釈情報には、画像中の顔領域中の各器官が顔領域に位置する位置と顔領域が画像に位置する位置などの情報が含まれることができるので、前記電子機器は、前記連続的なイメージの中の各イメージの注釈情報の唇に関連する注釈情報（例えば、口元、唇峰などの位置の座標）を抽出し、抽出された注釈情報を唇の特徴情報として算出、総合（例えば、唇の幅、高さなどの算出）を行って、唇の特徴情報シーケンスを生成することができる。併せて、前記電子機器は、前記連続的なイメージの中の各イメージの注釈情報のうち、顔の局部の部位（例えば、目、鼻、顔、眉、顎、口腔、舌の一つまたは複数）に関連する注釈情報を抽出し、抽出された注釈情報に対して算出、総合を行い、顔の局部の特徴情報シーケンスを生成することができる。実践中において、顔の局部の特徴情報シーケンスは、１つまたは複数が存在することができ、多数が存在する場合には、各顔の局部の特徴情報シーケンスは、一つの顔の局部の部位に対応することができる。

なお、前記唇の特徴情報は、唇の特徴を示すための情報であることができ、ここで、唇の特徴は顔領域中の唇の領域に関連した各種の基本的な要素であることできる。例えば、ユーザの唇の多数の位置（例えば、口元、唇ピークなど）の座標値、唇のサイズ（例えば、唇の幅、高さ、厚さなど）などの情報を含むことができますが、これに限定されない。唇の特徴情報シーケンスは、前記連続的なイメージの中の各イメージから対応する唇の特徴情報として順次構成されたシーケンスであることができる。実践中において、唇の特徴情報は、ベクトルまたは行列で表示することができる。

なお、前記顔の局部の特徴情報は、顔面の局部の特徴を示すための情報であり、ここで、前記顔の局部の特徴は、顔中の局部の部位（例えば、目、鼻、顎、眉毛、口腔、舌、顔など）に関連する各種の基本的な要素であることができる。例えば、顔中のどのような局部的部位が画像の顔領域に位置する位置、顔の中の任意の局部の部分のポイントのユークリッド距離、曲率や角度などを含むことができるが、これに限定されない。前記顔の局部の特徴情報シーケンスは、前記連続的なイメージの中の各イメージから対応する顔の局部の特徴情報として順次構成されたシーケンスであることができる。実践中において、前記顔の局部の特徴情報は、ベクトルまたは行列で表示することができる。

ステップ２０４において、生成された顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信する。

本実施例において、前記電子機器は、生成された顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスをサーバ（例えば、図１に示されたサーバ１０５）に送信し、サーバから返された身元認証結果を受信することができる。

実践中において、前記サーバは、予め設定された前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスが記憶されることができる。前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスは、ユーザの唇の形の変化過程が表示されている対象の映像データの解析に基づいて前記電子機器により生成されたことができ、ここで、前記対象の映像データは、ユーザが暗号設定を行う過程で、前記電子機器で取得したユーザの唇の形の変化過程が表示されている映像データであることができる。ここで、暗号設定は、身元認証方法前に完成される。前記サーバは、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、前記ユーザが身元認証に通過（合格）したか否かを示すための身元認証結果を生成し、前記電子機器に前記身元認証結果を送信することができる。具体的には、前記サーバは、前記顔の特徴情報と前記対象の顔の特徴情報がマッチングされ、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスがマッチングされ、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスがマッチングされる３つの条件を同時に満たす場合には、前記ユーザが身元認証に合格したことを示すための身元認証結果を生成することができる。

前記サーバは、前記電子機器から送信された識別情報の設定請求を予め受信して記憶することができ、ここで、前記識別設定請求は前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを含むことができ、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスは、前記ユーザの唇の形の変化過程が表示されている対象の映像データの解析に基づいて前記電子機器ににより生成された可能性があります。

前記サーバは、各種のマッチング方式を用いて前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチングを行うことができる。例示的に、前記サーバには顔の認識、唇動作の認識と顔の局部の動作の認識をそれぞれ行うための３つのニューラルネットワークが記憶されることができる。前記サーバは、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスをそれぞれ対応したニューラルネットワークに入力し、前記３つのニューラルネットワークでは、それぞれ出力された顔認識結果、唇動作認識結果、顔の局部の動作認識結果を取得することができる。なお、前記３つのニューラルネットワークは、機械学習の方法を利用して、大量のトレーニングサンプルに基づいて監視およびトレーニングを行って得られたものである。顔認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の顔の特徴情報が含まれることができ、唇の動作認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の唇の特徴情報シーケンスが含まれることができ、顔の局部の動作認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の顔の局部の特徴情報シーケンスが含まれることができる。なお、顔認識、唇動作認識と顔の局部の動作認識を行うニューラルネットワークの数は３個に限定されず、１つであるか、２つまたは複数存在することもある。

続いて図３を参照すると、図３は、本実施形態による身元認証方法の応用情景の例示図である。図３の応用情景において、端末装置３０１は、まず、ユーザの唇の形の変化過程が表示されている映像データを取得し、続いて、端末装置３０１は、前記映像データを解析して、前記映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、前記連続的なイメージの中の各イメージに対応する顔の特徴情報３０２とを生成し、次いで、端末装置３０１は、生成された注釈情報および前記連続的なイメージに基づいて、唇の特徴情報シーケンス３０３と顔の局部の特徴情報シーケンス３０４とを生成し、次いで、端末装置３０１は、生成された顔の特徴情報３０２、前記唇の特徴情報シーケンス３０３及び前記顔の局部の特徴情報シーケンス３０４をサーバ３０５に送信し、最終的には、端末装置３０１は、前記サーバ３０５から返された身元認証結果３０６を受信する。

本願の実施例で提供される方法は、取得されたユーザの唇の形の変化過程が表示されている映像データを解析して、映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と連続的なイメージの中の各イメージに対応する顔の特徴情報とを生成し、次いで、生成された注釈情報と連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成し、最終的に、生成された顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信することにより、人の顔を認識し、ユーザが口話を利用する際の口の形の動作と、ユーザが口話を利用する際の顔の局部の動作の認識を結びつけ、すなわち、ユーザが所有している（つまり、顔の特徴情報）、知っている（つまり、予め設定された暗号）とユーザの動作特徴（つまり、ユーザが暗号叙述を行う時の唇の特徴情報シーケンスと顔の局部の特徴情報シーケンス）などの多方面の要素を効率的に結びつけて、ユーザの身元認証を行うことができる。ユーザが予め設定した暗号が攻撃者によって模倣されたとしても、ユーザが口話を利用する際の口の形と顔の動作は、ユーザ自身が特有している生物てき特徴なので、攻撃者が模倣しにくく、したがって身元認証の安全性を向上させる。

さらに図４を参照すると、図４は、身元認証方法の他の一実施形態のフロー４００を示す。この身元認証方法のフロー４００は、以下のようなステップを含む。

ステップ４０１において、身元認証を行うようにユーザに提示するための第１の提示情報を表示し、ユーザの顔を撮像して、ユーザの唇の形の変化過程が表示されている映像データを取得し、ユーザの音声データを取得する。

本実施例において、身元認証方法が運行されている電子機器（例えば、図１に示された端末装置１０１、１０２、１０３）は、身元認証を行うようにユーザに提示するための第１提示を表示画面に表示することができる。ここで、前記第１の提示情報は、ユーザが予め設定された暗号について述べる方式を使用して身元認証を行うように提示することができる。前記電子機器には、撮像装置が設置されることができ、マイクなどの装置が設置されることもできる。前記電子機器は、撮像装置とマイクを作動して映像データの収集と音声データの収集を行うことができる。このようなプロセスでは、前記電子機器にユーザの顔領域に対して撮像を行い、ユーザの唇の形の変化過程が表示されている映像データを取得するように、ユーザは、頭や前記電子機器の位置、方向などについて調整を行わせることができる。

ステップ４０２において、ユーザが発音のオプションに対してクリック操作を実行したことの確定に応じて、音声データを解析して声紋の特徴情報を生成する。

本実施例において、前記第１の提示情報は、発音のオプションを含むことができ、前記発音のオプションは、ユーザに音を出すように予め設定された暗号を記述する提示することができる。前記ユーザが前記発音のオプションについてクリック操作を実行したことが確定されたことに応じて、前記電子機器は、各種の声紋特徴抽出方法を用いて前記音声データを解析して、声紋の特徴情報を生成することができる。例示的に、前記電子機器は、前記音声データを予めトレーニングされた声紋特徴抽出を行うためのニューラルネットワークモデル（例えば、既存の声紋特徴抽出を行うためのＤＮＮ−ｉｖｅｃｔｏｒモデルまたは既存の声紋特徴抽出を進めるための段の段深層ニューラルネットワークモデル）に入力し、前記ニューラルネットワークモデルから出力された声紋特徴情報を取得することができる。前記声紋特徴情報は、声紋の特徴を示すための情報であることができ、ここで、前記声紋特徴は、声紋に関連した各種の基本的な要素であることができる。例えば、ピッチ、音の大きさ、周波数、音色などを含むことができる。実践中において、前記声紋特徴情報は、ベクトルまたは行列で表示することができる。ここで、ニューラルネットワークモデルを用いて声紋特徴情報を抽出する方法は、現在の広く研究されて適用される公知技術なので、詳細な説明は省略することにする。

実践中において、ユーザは暗号叙述を進行する前または後に、前記発音のオプションをクリックすることができる。電子機器が前記発音のオプションをクリックすることが確定された場合には、前記電子機器は、前記音声データを解析して、声紋特徴情報を生成することができ、ユーザが前記発音のオプションをクリックしないことが確定された場合には、前記電子機器は、音声データを解析をするステップを実行していない。

本実施例の一部の選択可能な実現方式において、前記第１の提示情報は発音しないオプションを含むこともでき、前記発音していないオプションは、ユーザに発音していない方法で暗号を叙述（つまり、口話を利用して叙述）することを提示することができる。ユーザが前記発音していないオプションをクリックするが確定された場合には、前記電子機器は、音声データを解析するステップを実行していない。

本実施例の一部の選択可能な実装方式において、電子機器が暗号叙述を進行する前に、前記発音していないオプションをクリックすると、前記電子機器は、音声データの取得を進めず、直接前記ユーザの顔を撮像して、前記ユーザの唇の形の変化過程が表示されている映像データを取得することができる。

ステップ４０３において、映像データを解析して、映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と連続的なイメージの中の各イメージに対応する顔の特徴情報とを生成する。

本実施例において、前記電子機器は、前記映像データに対して解析を行い、前記映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と前記連続的なイメージの中の各イメージに対応する顔の特徴情報を生成することができる。ここで、注釈情報は、顔領域のポイントの位置と顔領域の位置を含むことができる。前記ポイントは、顔では比較的強力な語の情報を備える、予め指定された点（例えば、Ｖ型、口元、小鼻、眉毛の端、眉毛ピーク、輪郭の中点など）であることができる。実践中において、顔面ポイントの数は７２個が存在することができ、他の既定の数値であることもあるので、ここでこれに対して限定されない。なお、注釈情報はポイントのタイプ（例えば、Ｖ型、口元、小鼻、眉毛の端、眉毛ピーク、輪郭など）、ポイントである確率などの情報を含むことができるが、これに限定されない。

本実施例において、前記電子機器は、前記畳み込みニューラルネットワークが、前記連続的なイメージの中の各イメージに表示されている顔領域の注釈情報とその画像に対応する顔の特徴情報を出力するように、前記連続的なイメージを予めトレーニングされた顔の検出を行うためのコンボリューションニューラルネットワークに入力することができる。なお、前記ステップ４０３は、前記ステップ２０２の操作と基本的に同じなので、これに対する説明は省略することにする。

ステップ４０４において、生成された注釈情報と連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成する。

本実施例において、前記電子機器は、生成された注釈情報と連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成することができる。なお、前記唇の特徴情報シーケンスの中の唇の特徴情報は、唇の中心座標、唇の方向、内側唇の幅、外側唇の幅、外側唇の上縁の高さ、内側唇の上縁の高さ、内側唇の下縁の高さ、外側唇の下縁の高さ、４次曲線の中心が座標原点からのオフセット、上唇の４次曲線が放物線から外れた距離、下唇の４次曲線が放物線から外れた距離を含むことができるが、これに限定されない。なお、前記顔の局部の特徴情報シーケンスは、顔の特徴情報シーケンス、目の特徴情報シーケンス、鼻の特徴情報シーケンス、眉毛の特徴情報シーケンス、あごの特徴情報シーケンス、口腔の特徴情報シーケンス、舌の特徴情報シーケンスの中の少なくとも一つを含むことができる。ここで、各部位の特徴情報シーケンスは、部位の特徴を示すための情報であることができる。例示的に、眉毛の特徴シーケンスは、眉毛の特徴を示すための情報であることができ、眉毛の特徴は眉に関連した各種の基本的な要素、例えば、眉毛のピーク位置、眉間位置、眉の長さ、眉毛の幅、眉毛高などであることができる。

本実施例において、前記電子機器には、予めトレーニングされたニューラルネットワークが記憶されることができる。ここで、前記ニューラルネットワークは、順次、複数の画像から唇の特徴情報を抽出して唇の特徴情報のシーケンスを生成し、順次、複数の画像から顔の局部の特徴情報を抽出して顔の局部の特徴情報シーケンスを生成するのに使用することができる。前記電子機器は、生成された注釈情報と前記連続的なイメージを、前記ニューラルネットワークにそれぞれ入力して、前記連続的なイメージに対応する唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを取得することができる。実践中において、前記ニューラルネットワークは、タイミングの特徴シーケンス抽出を進行可能な各種の既存のネットワーク構造やモデルを利用して、制御されたトレーニングを行って得られたものであることができる。例示的に、前記ネットワーク構造やモデルは、深層ニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ、ＤＮＮ）と隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ、ＨＭＭ）が相互に結合されたネットワーク構造は、畳み込みニューラルネットワークと長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）が相互に結合されたネットワーク構造は、循環ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔｎｅｕｒａｌＮｅｔｗｏｒｋ、ＲＮＮ）とＣＴＣ（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ）モデルが相互に結合されたネットワーク構造は、循環ニューラルネットワークと注意モデル（ＡｔｔｅｎｔｉｏｎＭｏｄｅｌ、ＡＭ）が相互に結合されたネットワーク構造であることができ、畳み込みニューラルネットワーク、短期および長期記憶ネットワークと深層ニューラルネットワークが三者の相互結合されたネットワーク構造であることができる。

なお、前記予めトレーニングされたニューラルネットワークの数は、１つまたは複数であることができる。例示的に、前記予めトレーニングされたニューラルネットワークの数は一つであることができ、そのニューラルネットワークは、唇の特徴情報と顔の局部の特徴情報を同時に抽出して、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成することができる。別の例示として、前記予めトレーニングされたニューラルネットワークの数は２個が存在することができ、それぞれ予めトレーニングされた第１ニューラルネットワークと第２のニューラルネットワークであることができる。ここで、前記第１ニューラルネットワークは、順次、複数の画像から唇の特徴情報を抽出して唇の特徴情報シーケンスを生成するのに使用されることができ、前記第２のニューラルネットワークは、順次、複数の画像から顔の局部特徴情報を抽出して顔の局部の特徴情報シーケンスを生成するのに使用することができる。前記電子機器は、生成された注釈情報と前記連続的なイメージを予めトレーニングされた第１ニューラルネットワークと第２ニューラルネットワークに入力して、前記連続的なイメージに対応する唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスをそれぞれ取得することができる。ここで、前記第１ニューラルネットワークと前記第２のニューラルネットワークは、同一または異なるタイミング特徴シーケンス抽出を進行可能なネットワーク構造またはモデルを利用して、監視およびトレーニングを行って得られたものであることができる。また、別の例示として、前記予めトレーニングされたニューラルネットワークの数は３個以上であることができ、ここでは、１つのニューラルネットワークが、唇の特徴情報を抽出するのに使用されることができ、残りの各ニューラルネットワークが、異なる顔の局部の特徴情報（例えば、目の特徴情報、顎の特徴情報等）を抽出するのに使用することができる。

ステップ４０５で、声紋の特徴情報をサーバに送信し、生成された顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信する。

本実施例において、前記電子機器は、生成された声紋の特徴情報、顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスをサーバ（例えば、図１に示されたサーバ１０５）に送信し、サーバから返された身元認証結果を受信することができる。

実践中において、前記サーバは、前記ユーザの対象の声紋特徴情報、対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスが予め記憶されることができる。前記電子機器は、前記顔の特徴情報と前記対象の顔の特徴情報がマッチングされ、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスがマッチングされ、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスがマッチングされ、前記声紋特徴情報と前記対象の声紋特徴情報がマッチングされる４つの条件を同時に満たす場合には、前記ユーザが身元認証に合格したことを示すための身元認証の結果を生成することができる。

本実施例の一部の選択可能な実現方式において、ユーザの唇の形の変化過程が表示されている映像データを取得する前に、前記電子機器は、以下のようなステップをさらに実行することができる。

まず、暗号設定を行うようにユーザに提示するための第２の提示情報を表示し、前記ユーザの唇の形の変化過程が表示されている対象の映像データを取得する。選択可能に、前記電子機器は、前記第２の提示情報が表示され後に、前記ユーザの顔面を撮像して、前記ユーザの唇の形の変化過程が表示されている対象の映像データを取得することができ、映像の録画プロセスで生成された前記ユーザの対象の音声データを取得することもできる。ここで、前記第２の提示情報は、発音のオプションをさらに含むことができる。前記電子機器は、前記ユーザが前記発音のオプションについてクリック操作を実行することが確定した後に、前記対象の音声データを解析して対象の声紋特徴情報を生成することができる。なお、対象の声紋の特徴情報は、ステップ４０２中の声紋特徴情報の生成方法と基本的に同じなので、これに対する説明は省略することにする。

次に、前記対象の映像データに対して解析を行い、前記対象の映像データを構成する対象の連続的なイメージの中の各イメージに表示されている顔領域の対象の注釈情報と、前記対象の連続的なイメージの中の各イメージに対応する対象の顔の特徴情報と、を生成する。ここで、対象の注釈情報と対象の顔の特徴情報の生成方法と、前記ステップ４０３中の注釈情報、顔の特徴情報の生成方法と基本的に同じなので、これに対する説明は省略することにする。

続いて、生成された対象の注釈情報と前記対象の連続的なイメージに基づいて、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを生成する。ここで、前記対象の注釈情報は、顔領域のポイントの位置と顔領域の位置を含むことができる。前記電子機器は、生成された対象の注釈情報と前記対象の連続的なイメージを、予めトレーニングされたニューラルネットワークにそれぞれ入力して、前記対象の連続的なイメージに対応する対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを取得することができている。ここで、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスの生成方法は、ステップ４０４中の唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスの生成方法と基本的に同じなので、これに対する説明は省略する。

最終的には、生成された対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔面局部の特徴情報シーケンスをサーバに送信する。対象の声紋特徴情報が既に生成された場合には、同時に前記対象の声紋特徴情報を前記サーバに送信することができる。

なお、前記サーバは、各種のマッチング方式を用いて前記声紋特徴情報、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の声紋特徴情報、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチングを行うことができる。例示的に、前記サーバは、声紋の認識、顔認識、唇動作認識と顔の局部の動作認識を行うための４つのニューラルネットワークがそれぞ記憶されることができる。前記サーバは、前記声紋特徴情報、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスをそれぞれ対応したニューラルネットワークに入力し、前記４つのニューラルネットワークでは、それぞれ出力される声紋認識結果、顔認識結果、唇動作認識結果、顔面局部動作認識結果を取得することができる。前記４つのニューラルネットワークは、機械学習の方法を利用して、大量のトレーニングサンプルに基づいて監視およびトレーニングを行って得られたものであることができる。声紋認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の声紋情報が含まれており、顔認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の顔の特徴情報が含まれており、唇動作認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の唇の特徴情報シーケンスが含まれており、顔の局部の動作認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の顔の局部の特徴情報シーケンスが含まれることができる。なお、声紋認識、顔認識、唇動作認識と顔の局部の動作認識を行うニューラルネットワークの数は４つに限定されず、１つであるか、２つまたは複数が存在することができる。

なお、ユーザが暗号設定を行う過程で、発音のオプションを選択しない場合、身元認証の過程で通常に発音のオプションのクリック操作を行わないない。

図４からわかるように、図２に対応する実施例と比較し、本実施例中の身元認証方法のフロー４００は、声紋の特徴情報の抽出ステップと、声紋特徴情報を結びつけて身元認証を進行するステップを強調した。これにより、本実施例で説明した方法は、より多くの生物の特徴を結びつけて身元認識を行い、声紋特徴情報が模倣されにくいので、身元認証の安全性を更に向上させる。

続いて図５を参照すると、図５は、本願による身元認証方法の一実施形態のフロー５００を示す。その身元認証方法は、以下のようなステップを含む。

ステップ５０１において、クライアントから送信された識別情報の認証請求を受信する。

本実施例において、身元認証方法が運行されている電子機器（例えば、図１に示されたサーバ１０５）は、有線接続方式または無線接続方式を介してクライアント（例えば、図１に示された端末装置１０１、１０２、１０３）から送信された身元認証請求を受信することができる。ここで、前記身元認証請求は、ユーザの顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを含み、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスは、クライアントにユーザの唇の形の変化過程が表示されている映像データの解釈に基づいて生成されたものである。なお、前記無線接続方式は３Ｇ／４Ｇ接続、ＷｉＦｉ接続、Ｂｌｕｅｔｏｏｔｈ接続、ＷｉＭＡＸ接続、Ｚｉｇｂｅｅリンク、ＵＷＢ（ｕｌｔｒａｗｉｄｅｂａｎｄ）接続、およびその他の現在知られている、または将来的に開発されるワイヤレス接続方式を含むことができる。

ステップ５０２において、予め設定されたユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを抽出する。

本実施例において、前記電子機器は、予め設定された前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを抽出することができる。実践中において、前記電子機器には、大量のユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスが予め記憶されることができる。前記電子機器は、身元認証請求が受信された後に、直接記憶された情報から検索を行うことができる。

ステップ５０３において、顔面の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスと、対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、ユーザが身元認証に通過したか否かを示すための身元認証結果を生成する。

本実施例において、前記電子機器は、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチングの結果に基づいて、ユーザが身元認証に合格したか否かを示すための身元認証結果を生成することができる。

ここで、前記電子機器は、各種のマッチング方式を用いて前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスのマッチングを行うことができる。例示的に、前記電子機器には、顔認識、唇動作認識と顔の局部の動作認識を行うための３つのニューラルネットワークがそれぞれ記憶されることができる。前記電子機器は、前記顔の特徴情報、前記唇の特徴情報シーケンスで、前記顔の局部の特徴情報シーケンスをそれぞれ対応したニューラルネットワークに入力し、前記３つのニューラルネットワークでは、それぞれ出力された顔認識結果、唇動作認識結果、顔面局部動作認識結果を取得することができる。なお、前記顔認識結果、唇の動作認識結果と顔の局部の動作認識結果は、３つの数値である。前記顔認識結果が、当業者が大量のデータの統計に基づいて予め設定した第１の閾値よりも大きい場合には、前記顔の特徴情報と前記対象の顔の特徴情報がマッチングされることを確定することができる。前記唇の動作認識結果が、当業者が大量のデータの統計に基づいて予め設定した第２の閾値よりも大きい場合には、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスがマッチングされることを確定することができる。前記顔の局部の動作認識結果が、当業者が大量のデータの統計に基づいて予め設定した第３の閾値よりも大きい場合には、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスがマッチングされることを確定することができる。

なお、前記３つのニューラルネットワークは、機械学習の方法を利用して、大量のトレーニングサンプルに基づいて制御されたトレーニングを行って得られたものである。顔認識を行うためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の顔の特徴情報が含まれ、唇の動作認識を進めるためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の唇の特徴情報シーケンスが含まれ、顔面局部動作認識を進めるためのニューラルネットワークに用いられるトレーニングサンプルには、前記対象の顔の局部の特徴情報シーケンスが含まれることができる。なお、顔認識、唇動作認識と顔の局部の動作認識を行うニューラルネットワークの数は３個に限定されず、１つであるか、２つまたは複数が存在することもできる。

本実施例の一部の選択可能な実現方式において、前記電子機器は、前記顔の特徴情報と前記対象の顔の特徴情報がマッチングされ、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスがマッチングされ、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスがマッチングされる３つの条件を同時に満たす場合には、前記ユーザが身元認証に合格したことを示すための身元認証の結果を生成することができる。

本実施例の一部の選択可能な実現方式において、前記身元認証請求は、前記ユーザの声紋特徴情報をさらに含むことができる。前記電子機器は、予め設定された前記ユーザの対象の声紋特徴情報を抽出し、前記顔の特徴情報と前記対象の顔の特徴情報がマッチングされ、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスがマッチングされ、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスがマッチングされ、前記声紋特徴情報と前記対象の声紋特徴情報がマッチングされる４つの条件を同時に満たす場合には、前記ユーザが身元認証に合格したことを示すため身元認証結果を生成することもできる。

本実施例の一部の選択可能な実現方式において、クライアントから送信された身元認証請求を受信する前に、前記電子機器は、クライアントから送信された識別情報の設定請求を受信することもでき、ここで、前記識別設定請求は前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを含むことができ、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスは、前記クライアントに前記ユーザの唇の形の変化過程が表示される対象の映像データの解析に基づいて生成されたものである。続いて、前記電子機器は、前記対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを記憶することができる。

本実施例の一部の選択可能な実現方式において、前記識別設定請求は前記ユーザの対象の声紋の特徴情報をさらに含み、前記対象の声紋特徴情報は、前記クライアントに前記ユーザの声のデータの解釈に基づいて生成されたものである。前記電子機器は、前記対象の声紋特徴情報、前記対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを記憶することができる。

ステップ５０４において、クライアントに身元認証結果を送信する。

本実施例において、前記電子機器は、前記クライアントに前記身元認証結果を送信することができる。

本願の実施例で提供される方法は、クライアントから送信された識別情報の認証請求中の顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスと、予め設定された前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスと、のマッチングを行い、続いて、マッチング結果に基づいて、前記ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成し、最終的に、前記クライアントに前記身元認証結果を送信することにより、顔を認識し、ユーザが口話を利用する際の口の形動作と、ユーザが口話を利用する際の顔面局部動作の認識を結びつけ、ユーザ識別情報の認証を行うことができ、ユーザが口話を利用する際の口の形動作と顔面動作は、ユーザ自身が特有する生物的特徴なので、攻撃者が模倣しにくく、したがって身元認証の安全性を向上させることができる。

さらに図６を参照すると、前記図２に示された方法の実装として、本願は、身元認証装置の一実施例を提供し、そのデバイスの実施例は、図２に示された方法の実施例に対応し、対応する装置は、具体的には、各種の電子機器に適用することができる。

図６に示すように、本実施例で提供される身元認証装置６００は、ユーザの唇の形の変化過程が表示されている映像データを取得するように構成された取得ユニット６０１と、前記映像データを解析して、前記映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、前記連続的なイメージの中の各イメージに対応する顔の特徴情報と、を生成するように構成された解析ユニット６０２と、生成された注釈情報と前記連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成するように構成された生成ユニット６０３と、生成された顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスをサーバに送信し、前記サーバから返された身元認証結果を受信するように構成された送信有ユニット６０４を含む。

本願の実施例で提供される装置は、解析ユニット６０２に取得ユニット６０１で取得されたユーザの唇の形の変化過程が表示されている映像データを解析して、注釈情報と顔の特徴情報を生成し、次いで、生成ユニット６０３で生成された注釈情報と連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを生成し、最終的に、送信ユニット６０４で生成された顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスをサーバに送信し、サーバから返された身元認証結果を受信することにより、顔を認識し、ユーザが口話を利用する際の口の形の動作とユーザが口話を利用する際の顔面局部動作の認識を結びつけ、ユーザ識別情報の認証を行うことができ、ユーザが口話を使用時の口の形動作と顔面の動作は、ユーザ自身が特有する生物的特徴なので、攻撃者が模倣しにくく、したがって身元認証の安全性を向上させることができる。

さらに図７を参照すると、前記図５に図示された方法の実装として、本願は、身元認証装置の一実施例を提供し、そのデバイスの実施例は、図５に示された方法の実施例に対応し、対応する装置は、具体的には、各種の電子機器に適用することができる。

図７に示すように、本実施例で提供される身元認証装置７００は、ユーザの顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスを含む、クライアントから送信された身元認証請求を受信するように構成された受信ユニット７０１と、予め設定された前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスを抽出するように構成された抽出ユニット７０２と、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、前記ユーザが身元認証に合格したか否かを示すのための身元認証結果を生成するように構成されたマッチングユニット７０３と、前記クライアントに前記身元認証結果を送信するように構成された送信ユニット７０４を含み、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスは、前記クライアントにより前記ユーザの唇の形の変化過程が表示されている映像データの解析に基づいて生成されたものである。

本願の実施例で提供される装置は、マッチングユニット７０３に受信ユニット７０１で受信された顔の特徴情報、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスと、抽出ユニット７０２で抽出された対象の顔の特徴情報、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスと、のマッチングを行い、マッチング結果に基づいて、前記ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成し、続いて、送信ユニット７０４に、前記クライアントに前記身元認証結果を送信することにより、人の顔を認識し、ユーザが口話を利用する際の口の形動作と、ユーザが口話を利用する際の顔面局部動作の認識を結びつけさせ、ユーザの身元の認証を行うことができ、ユーザが口話を利用する際の口の形と顔面の動作は、ユーザ自身が特有する生物的特徴なので、攻撃者が模倣しにくく、したがって身元認証の安全性を向上させることができる。

以下、図８を参照すると、図８は、本願の実施例を実現する端末装置／サーバに適するコンピュータシステム８００の例示的な構成図である。図８に図示された端末装置／サーバは例示であるだけで、本発明の実施例の機能と使用範囲について何ら限定されない。

図８に示すように、コンピュータシステム８００は、中央処理ユニット８０１（ＣＰＵ）を含み、ＣＰＵ８０１は、読み出し専用メモリ８０２（ＲＯＭ）に記憶されたプログラムまたは記憶部８０８からランダムアクセスメモリ８０３（ＲＡＭ）にロードされたプログラムにより各種の適切な動作と処理を実行することができる。ＲＡＭ８０３には、システム８００を動作させるために必要な各種プログラムやデータが記憶されている。ＣＰＵ８０１、ＲＯＭ８０２とＲＡＭ８０３は、バス８０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インタフェース８０５もバス８０４に接続される。

Ｉ／Ｏインタフェース８０５に接続されている部材として、カメラなどを含む入力部８０６と、例えば液晶表示装置（ＬＣＤ）などとスピーカーなどを含む出力部８０７と、ハードドライブなどを含む記憶部８０８と、例えばＬＡＮカード、モデムなどのネットワークインタフェースカードを含む通信部８０９が含まれる。通信部８０９は、インターネットなどのネットワークを介して通信処理を実行する。駆動部８１０も需要に応じて、Ｉ／Ｏインタフェース８０５に接続される。磁気ディスク、光ディスク、光磁気ディスク、半導体メモリデバイスなどの着脱可能な媒体８１１は、このような媒体から読み取ったコンピュータプログラムを必要に応じて記憶部８０８に設置するように、必要に応じて駆動部８１０に設置される。

特に、本開示の実施例によれば、フローチャートを参照して、説明した前述した過程は、コンピュータソフトウェアプログラムとして実現されることができる。例えば、本開示の実施例は、コンピュータプログラム製品を含み、前記コンピュータプログラム製品は、機械可読媒体に搭載されたコンピュータプログラムを含み、そのコンピュータプログラムは、フローチャートに示された方法を実行するためのコンピュータコードを含んむ。これらの実施例において、当該コンピュータプログラムは、通信部８０９を経由してネットワークからダウンロードされ、インストールされることができ、および／または着脱可能な媒体８１１からインストールすることができる。このコンピュータプログラムが、中央処理ユニット８０１（ＣＰＵ）によって実行される場合には、本願の方法に限定された前記機能を実行する。なお、本願のコンピュータ可読媒体は、コンピュータ可読信号媒体、コンピュータ可読記憶媒体または前記両者の任意の組み合わせであることができる。コンピュータ可読記憶媒体は、電気、磁気、光学、電磁、赤外線、または半導体のシステム、装置、素子、またはこれらの任意の組み合わせであることができるが、これに限定されない。コンピュータ可読記憶媒体のより具体的な例は、１つまたは複数の導線を備える電気接続されたポータブルコンピュータ、磁気ディスク、ハードディスク、ランダムアクセスメモリデバイス（ＲＡＭ）、読み取り専用メモリデバイス（ＲＯＭ）、消去およびプログラム可能な読み取り専用メモリデバイス（ＥＰＲＯＭまたはフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスク読み取り専用メモリデバイス（ＣＤ−ＲＯＭ）、光メモリ装置、磁気メモリデバイスまたは前記任意の適切な組み合わせを含むことができるが、これに限定されない。本願において、コンピュータ可読記憶媒体は、プログラムを含むとか、または記憶する任意のタイプの媒体であることができ、そのプログラムは、命令の実行システム、装置または素子によって使用され、またはこの組み合わせてで使用されることができる。本願において、コンピュータ読み取り可能な信号媒体は、ベースバンドまたはキャリアの一部で伝達されるデータ信号を含むことができ、ここで、データ信号は、コンピュータ読み取り可能なプログラムコードが搭載される。このように伝播されるデータ信号は、様々な形式を利用することができ、電磁信号、光信号または上記任意の適切な組み合わせを含むが、これに限定されない。コンピュータ読み取り可能な信号媒体は、コンピュータ読み取り可能な記憶媒体を除く任意のコンピュータ読み取り可能な媒体であってもいく、このコンピュータ読み取り可能な媒体は、コマンド実行システム、装置または素子によって使用されるとか、これを組み合わせて使用されるように、プログラムを送信、伝送または転送することができる。コンピュータ読み取り可能な媒体に含まれているプログラムコードは、任意の適切な媒体を利用して送信することができ、無線、有線、ケーブル、ＲＦなど、または上記任意の適切な組み合わせを含んでもよいが、これに限定されない。

図面におけるフローチャートおよびブロック図は、本発明の各実施例に係るシステム、方法およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能及び操作を示す。ここで、フローチャートまたはブロック図における各枠は、１つのモジュール、プログラムセグメント、またはコードの一部を代表してもよく、前記モジュール、プログラムセグメント、またはコードの一部は、規定された論理機能を実現するための１つ以上の実行可能なコマンドを含む。なお、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された２つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および／またはフローチャートにおける各枠と、ブロック図および／またはフローチャートにおける枠の組合せは、規定された機能または操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータのコマンドとの組合せで実行されてもよい。

本願の実施例で説明した関連ユニットは、ソフトウェアの方法で実装されることができ、またはハードウェアの方法で実装することもできる。説明されたユニットは、プロセッサにインストールされることもでき、例えば、プロセッサが取得ユニット、解析ユニット、生成ユニットと送信ユニットを含むと説明されることができる。ここで、これらのユニットの名称は、いくつかの場合に該当するユニット自体の限定を構成しない、例えば、取得ユニットは、「ユーザの唇の形の変化過程が表示されている映像データを取得するユニット」と説明されることもできる。

他の一態様として、本願は、コンピュータ可読媒体をさらに提供し、そのコンピュータ可読媒体は、前記実施例で説明されたデバイスに含まれることができ、または、デバイスにインストールされず、独立して存在していることもできる。前記コンピュータ可読媒体は、１つまたは複数のプログラムが搭載され、前記１つまたは複数のプログラムがデバイスによって実行される場合、そのデバイスにユーザの唇の形の変化過程が表示されている映像データを取得して、当該映像データを解析して、その映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報とその連続的なイメージの中の各イメージに対応する顔の特徴情報とを生成し、生成された注釈情報とその連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成し、生成された顔の特徴情報、当該唇の特徴情報シーケンスとその顔の局部の特徴情報シーケンスをサーバに送信し、そのサーバから返された身元認証結果を受信するようにする。

以上の説明は、単に本願の比較的好ましい実施例及び運用技術的原理の説明である。本願に係る発明の範囲が前記技術的特徴の特定の組み合わせで構成され、技術的解決法に限定されるものではなく、本発明の主旨を逸脱しなければ、前記技術的特徴またはその均等な特徴の任意の組み合わせからなる他の技術的解決法も含まれることを当該技術分野の当業者は理解しなければならない。例えば、前記特徴と本願に開示されているが、これに限定されない同様の機能を備えた技術的特徴を互いに交換してなされた技術的解決法も含まれる。

Claims

ユーザの唇の形の変化過程が表示されている映像データを取得するステップと、
前記映像データを解析して、前記映像データを構成する連続的なイメージの中の各イメージに表示されている顔領域の注釈情報と、前記連続的なイメージの中の各イメージに対応する顔の特徴情報と、を生成するステップと、
生成された注釈情報および前記連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成するステップと、
生成された顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスをサーバに送信し、前記サーバから返された身元認証結果を受信するステップとを含むことを特徴とする身元認証方法。
前記ユーザの唇の形の変化過程が表示されている映像データを取得するステップは、
身元認証を行うようにユーザに提示するための第１の提示情報を表示するステップと、
前記ユーザの顔を撮像して、前記ユーザの唇の形の変化過程が表示されている映像データを取得するステップと、
前記ユーザの音声データを取得するステップと、
を含むことを特徴とする請求項１に記載の身元認証方法。
前記第１の提示情報は、発音のオプションを含み、
前記身元認証方法は、
前記ユーザが前記発音のオプションに対してクリック操作を実行したことの確認に応じて、前記音声データを解析して声紋の特徴情報を生成するステップと、
前記声紋の特徴情報を前記サーバに送信するステップと、
をさらに含むことを特徴とする請求項２に記載の身元認証方法。
前記注釈情報は、顔領域のポイントの位置と顔領域の位置とを含み、
前記生成された注釈情報および前記連続的なイメージに基づいて、唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを生成するステップは、
生成された注釈情報と前記連続的なイメージとを、予めトレーニングされたニューラルネットワークにそれぞれ入力して、前記連続的なイメージに対応する唇の特徴情報シーケンスと顔の局部の特徴情報シーケンスとを取得するステップであって、前記ニューラルネットワークは、順に複数のイメージから唇の特徴情報を抽出して唇の特徴情報シーケンスを生成し、順に複数のイメージから顔の局部の特徴情報を抽出して顔の局部の特徴情報シーケンスを生成するのに用いられる、ステップを含むことを特徴とする請求項１に記載の身元認証方法。
前記顔の局部の特徴情報シーケンスは、
顔面の特徴情報シーケンス、目の特徴情報シーケンス、鼻の特徴情報シーケンス、眉毛の特徴情報シーケンス、あごの特徴情報シーケンス、口腔の特徴情報シーケンスおよび舌の特徴情報シーケンスの中の少なくとも一つを含むことを特徴とする請求項１に記載の身元認証方法。
前記唇の特徴情報シーケンスにおける唇の特徴情報は、
唇の中心座標、唇の方向、内側唇の幅、外側唇の幅、外側唇の上縁の高さ、内側唇の上縁の高さ、内側唇の下縁の高さ、外側唇の下縁の高さ、４次曲線の中心の座標原点からのオフセット、上唇の４次曲線が放物線から外れた距離、および下唇の４次曲線が放物線から外れた距離を含むことを特徴とする請求項１に記載の身元認証方法。
前記ユーザの唇の形の変化過程が表示されている映像データを取得するステップの前に、
暗号設定を行うようにユーザに提示するための第２の提示情報を表示し、前記ユーザの唇の形の変化過程が表示されている対象の映像データを取得するステップと、
前記対象の映像データを解析して、前記対象の映像データを構成する対象の連続的なイメージの中の各イメージに表示されている顔領域の対象の注釈情報と、前記対象の連続的なイメージの中の各イメージに対応する対象の顔の特徴情報と、を生成するステップと、
生成された対象の注釈情報および前記対象の連続的なイメージに基づいて、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとを生成するステップと、
生成された対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスをサーバに送信するステップと、
をさらに含むことを特徴とする請求項１に記載の身元認証方法。
前記暗号設定を行うようにユーザに提示するための第２の提示情報を表示し、前記ユーザの唇の形の変化過程が表示されている対象の映像データを取得するステップは、
暗号設定を行うようにユーザに提示するための第２の提示情報を表示するステップと、
前記ユーザの顔を撮像して、前記ユーザの唇の形の変化過程が表示されている対象の映像データを取得するステップと、
前記ユーザの対象の音声データを取得するステップとを含むことを特徴とする請求項７に記載の身元認証方法。
前記第２の提示情報は、発音のオプションを含み、
前記身元認証方法は、
前記ユーザが前記第２の提示情報における発音のオプションに対してクリック操作を実行したことの確定に応じて、前記対象の音声データを解析して対象の声紋の特徴情報を生成するステップと、
前記対象の声紋の特徴情報を前記サーバに送信するステップとをさらに含むことを特徴とする請求項８に記載の身元認証方法。
前記対象の注釈情報は、顔領域のポイントの位置と顔領域の位置とを含み、
前記生成された対象の注釈情報および前記対象の連続的なイメージに基づいて、対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとを生成するステップは、
生成された対象の注釈情報と前記対象の連続的なイメージを、予めトレーニングされたニューラルネットワークにそれぞれ入力して、前記対象の連続的なイメージに対応する対象の唇の特徴情報シーケンスと対象の顔の局部の特徴情報シーケンスとを取得するステップを含むことを特徴とする請求項７に記載の身元認証方法。
ユーザの顔の特徴情報、唇の特徴情報シーケンスおよび顔の局部の特徴情報シーケンスを含む、クライアントから送信された身元認証請求を受信するステップであって、前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスは、前記ユーザの唇の形の変化過程が表示されている映像データの解釈に基づいて前記クライアントにより生成されたものである、ステップと、
予め設定された前記ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを抽出するステップと、
前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、前記ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成するステップと、
前記クライアントに前記身元認証の結果を送信するステップとを含むことを特徴とする身元認証方法。
前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、前記ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成するステップは、
前記顔の特徴情報と前記対象の顔の特徴情報とがマッチングされ、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスとがマッチングされ、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスとがマッチングされる３つの条件を同時に満たす場合、前記ユーザが身元認証に合格したことを示すための身元認証の結果を生成するステップを含むことを特徴とする請求項１１に記載の身元認証方法。
前記身元認証請求は、前記ユーザの声紋の特徴情報をさらに含み、
前記顔の特徴情報、前記唇の特徴情報シーケンスおよび前記顔の局部の特徴情報シーケンスと、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスと、のマッチング結果に基づいて、前記ユーザが身元認証に合格したか否かを示すための身元認証の結果を生成するステップは、
予め設定された前記ユーザの対象の声紋の特徴情報を抽出するステップと、
前記顔の特徴情報と前記対象の顔の特徴情報とがマッチングされ、前記唇の特徴情報シーケンスと前記対象の唇の特徴情報シーケンスとがマッチングされ、前記顔の局部の特徴情報シーケンスと前記対象の顔の局部の特徴情報シーケンスとがマッチングされ、前記声紋の特徴情報と前記対象の声紋の特徴情報がマッチングされる４つの条件を同時に満たす場合、前記ユーザが身元認証に合格したことを示すための身元認証の結果を生成するステップとを含むことを特徴とする請求項１１に記載の身元認証方法。
前記クライアントから送信された身元認証請求を受信するステップの前に、
ユーザの対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを含む、クライアントから送信された身元設定請求を受信するステップであって、前記対象の顔の特徴情報、前記対象の唇の特徴情報シーケンスおよび前記対象の顔の局部の特徴情報シーケンスは、前記ユーザの唇の形の変化過程が表示されている対象の映像データの解析に基づいて前記クライアントにより生成されたものである、ステップと、
前記対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを記憶するステップとを含むことを特徴とする請求項１１に記載の身元認証方法。
前記身元設定請求は、前記ユーザの対象の声紋の特徴情報をさらに含み、前記対象の声紋の特徴情報は、前記ユーザの音声データの解釈に基づいて前記クライアントにより生成されたものであり、
前記対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを記憶するステップは、
前記対象の声紋の特徴情報、前記対象の顔の特徴情報、対象の唇の特徴情報シーケンスおよび対象の顔の局部の特徴情報シーケンスを記憶するステップを含むことを特徴とする請求項１４に記載の身元認証方法。
１つまたは複数のプロセッサと、
１つまたは複数のプログラムを記憶するための記憶装置とを含み、
前記１つまたは複数のプログラムが前記１つまたは複数のプロセッサによって実行される場合、前記１つまたは複数のプロセッサに請求項１に記載の方法を実現させることを特徴とする端末装置。
コンピュータプログラムが記憶されており、
前記プログラムがプロセッサによって実行される場合、請求項１に記載の方法を実現させることを特徴とするコンピュータ可読記憶媒体。