JP7148737B2

JP7148737B2 - 生体（ｌｉｖｅｎｅｓｓ）検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法

Info

Publication number: JP7148737B2
Application number: JP2021546318A
Authority: JP
Inventors: パンカジワスニック; ヨンナムチェ
Original assignee: Rakuten Group Inc
Current assignee: Rakuten Group Inc
Priority date: 2020-03-24
Filing date: 2020-03-24
Publication date: 2022-10-05
Anticipated expiration: 2040-03-24
Also published as: JP2022177229A; WO2021191659A1; EP3912063A4; CN114616565A; JP2022523921A; JP7412496B2; EP3912063A1; US20220318349A1

Description

本発明は、ユーザ本人認証に関し、より具体的には、ユーザの同一性を認証するために音声と視覚の整合性のチェックを用いる生体検出に関する。

電子による顧客確認（ｅＫＹＣ）手続きは、顧客の身元を識別及び検証するために、銀行、保険、ホテル、金融サービス、サービスへの支払等、様々な業界で使用される。ｅＫＹＣの関連技術スキームは、典型的には、生体認証システムを採用している。図１に示すように、生体認証システムは、２つの段階を含む。ユーザの生体特徴がデータベース内のユーザにマッピングされる登録段階と、ユーザを認証するために、センサによってユーザの生体特徴を抽出し、予めデータベースに登録された特徴と比較する認証段階である。

しかしながら、生体システムの関連技術は、生体システムの動作を欺くか又は他の妨害することを目的とした様々なタイプのなりすまし攻撃、すなわち、生体取得サブシステム（例えば、生体センサ）への不正ななりすまし等に対して、脆弱である。例えば、生体特性のコピーを人工的に表す人工物を生体システムに提示して、登録ユーザをスプーフィングし、攻撃者を認証させることができる。

なりすまし攻撃には、二次元（２Ｄ）攻撃、三次元（３Ｄ）攻撃、及び音声攻撃が含まれる。２Ｄ攻撃には、登録ユーザの印刷写真（例えば、顔画像）、又は登録ユーザの生体特徴の人工物（例えば、偽の指紋）を提示する印刷攻撃、携帯電話などの表示装置を介して登録ユーザの画像を提示する表示攻撃、登録ユーザの動画を提示する動画攻撃が含まれる。一方、３Ｄ攻撃には、ウェアラブルの印刷された又はシリコンの３Ｄマスクが攻撃者によって着用される、又はユーザの生体特徴の３Ｄ人工物（例えば、偽の虹彩）が着用される、あるいは他の方法で、登録ユーザスプールするために偽装する攻撃者により提示される、マスク攻撃が含まれる。

ｅＫＹＣ関連技術スキームは、様々ななりすまし攻撃検出メカニズムを使用して、なりすまし攻撃を自動的に認定し防止する。このようなメカニズムには、ユーザを検証するための３Ｄ顔深度マップを作成する深度マップ分析による顔検出、心拍数又は心臓モニタリングに基づいてユーザを検証する遠隔フォトプレチスモグラフィー（ｒＰＰＧ）法、及びリアルタイムの熱画像に基づいてユーザを検証する熱画像に基づく顔の生体検出が含まれる。しかしながら、これらのメカニズムにはさまざまな欠点がある。例えば、３Ｄ顔深度分析と熱画像に基づく顔の生体検出は、双方とも、追加のセンサ（例えば、サーマルカメラ）が必要であり、これにより、コストも高くなり、メカニズムも複雑になる。さらに、ｒＰＰＧ法は、膨大な時間がかかり、精度が比較的低い。

本発明は、ランダムフレーズチャレンジを基に、ユーザの音声と視覚の類似性のチェックを検証するための生体検出検証方法及びシステムを提供することを目的とする。

本発明は、ランダムフレーズチャレンジを基に、音声と視覚の類似性の検出する機械学習モデルの検出結果を検証するための音声認識機械学習モデルを備える生体検出検証方法及びシステムを提供することを目的とする。

本発明は、ｅＫＹＣアプリケーションにおいて、ユーザを認証するために使用される、音声と視覚の類似性を検出する機械学習モデルと音声認識機械学習モデルを、訓練する方法とシステムを提供することを目的とする。

本発明の第１の観点に係る生体検出検証方法は、
少なくとも１つの処理装置により生体検出を検証する方法であって、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、前記動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するために、取得された前記動画データと取得された前記音声データを、第１の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第２の決定を取得するため、前記音声データに対応する第１の入力と前記所定のフレーズに対応する第２の入力を、第２の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、を備える。

予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成するステップを更に備え、
前記動画を取得するステップは、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画を取得することを備え、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された１つの用語の組み合わせを備えてもよい。

前記動画を取得するステップは、
前記質問と前記ランダムに生成されたフレーズのうちの１つを、ユーザデバイスに送信するステップと、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの１つに応答して、前記フレーズを話している前記ユーザの動画を受信するステップを備えてもよい。

前記動画を処理するステップは、
前記動画から、音声ストリームと動画ストリームを取得するステップと、
第２の所定数の前記動画データのフレームの、第１の所定数のバッチを取得するステップであって、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含むステップと、
前記第２の所定数の前記音声データのフレームの、前記第１の所定数のバッチを取得するステップであって、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含むステップと、を備えてもよい。

前記取得された動画データと前記取得された音声データを、前記第１の決定モデルに入力するステップは、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力するステップと、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス（contrastive loss）値を取得するステップを備えてもよい。

前記第２の決定モデルへ入力するステップは、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力するステップと、
前記第２の決定として、ＣＴＣ（connectionist temporal classification）損失値を取得するステップ、を備え、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第２の入力は、前記所定のフレーズの文字列又は単語列であってもよい。

前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否かを判断するステップは、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記ＣＴＣ損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断するステップと、を備えてもよい。

本発明の第２の観点に係る生体検出検証システムは、
命令を保存するメモリと、
前記命令を実行する少なくとも１つのプロセッサと、を備え、
前記命令は、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得すること、
前記ユーザの動画データと音声データを取得するため、前記動画を処理すること、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するために、取得された前記動画データと取得された前記音声データを、第１の決定モデルに入力すること、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第２の決定を取得するため、前記音声データに対応する第１の入力と前記所定のフレーズに対応する第２の入力を、第２の決定モデルに入力すること、
前記ユーザの生体検出を検証するため、前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザによって話されたことを示すか否か、を判断すること、である。

前記少なくとも１つのプロセッサは、更に、
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令を実行するように構成され、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された１つの用語の組み合わせを備えてもよい。

通信インターフェイスを更に備え、
前記少なくとも１つのプロセッサは、更に、
前記質問と前記ランダムに生成されたフレーズの１つを、ユーザデバイスに送信するように前記通信インターフェイスを制御し、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの１つに応答して、前記フレーズを話している前記ユーザの動画を受信する、
という命令を実行してもよい。

前記少なくとも１つのプロセッサは、更に、
前記動画から、音声ストリームと動画ストリームを取得し、
第２の所定数の前記動画データのフレームの、第１の所定数のバッチを取得する、
という命令を実行し、
前記動画データのフレームは、前記動画ストリームから生成されたトリミングされた口の領域を含み、
前記第２の所定数の前記音声データのフレームの、前記第１の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含んでもよい。

前記少なくとも１つのプロセッサは、更に、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力する命令、及び、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する命令、
を実行してもよい。

前記少なくとも１つのプロセッサは、更に、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力し、
前記第２の決定として、ＣＴＣ損失値を取得する、
という命令を実行し、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、
前記第２の入力は、前記所定のフレーズの文字列又は単語列であってもよい。

前記少なくとも１つのプロセッサは、更に、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記ＣＴＣ損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断する、
という命令を実行してもよい。

本発明の第３の観点に係る記録媒体は、
１以上のプロセッサにより実行される命令を保存した非一時的な記録媒体であって、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するために、取得された前記動画データと取得された前記音声データを、第１の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第２の決定を取得するため、前記音声データに対応する第１の入力と前記所定のフレーズに対応する第２の入力を、第２の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、
を実行させる。

前記１以上のプロセッサにより実行される命令は、
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令であり、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された１つの用語の組み合わせを備えてもよい。

前記１以上のプロセッサにより実行される命令は、
前記動画から、音声ストリームと動画ストリームを取得し、
第２の所定数の前記動画データのフレームの、第１の所定数のバッチを取得し、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含み、
前記第２の所定数の前記音声データのフレームの、前記第１の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含む、命令であってもよい。

前記１以上のプロセッサにより実行される命令は、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力する、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する、命令であってもよい。

前記１以上のプロセッサにより実行される命令は、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力し、
前記第２の決定として、ＣＴＣ損失値を取得する、という命令であり、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第２の入力は、前記所定のフレーズの文字列又は単語列であってもよい。

前記１以上のプロセッサにより実行される命令は、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記ＣＴＣ損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、生体検出が検証されていないことを判断する、という命令であってもよい。

本発明の第４の観点に係る生体検出検証システムの訓練方法は、
フレーズを話すユーザの動画を取得するステップと、
前記ユーザの動画データ及び音声データを取得するために動画を処理するステップと、
音声と視覚の類似性を検出するための第１の機械学習モデルと、音声認識のための第２の機械学習モデルを訓練するステップと、を備え、
前記第1の機械学習モデルは、前記動画データと前記音声データに基づいて訓練され、前記第２の機械学習モデルは、前記音声データに対応する所定のフレーズと第１の入力により訓練され、前記所定のフレーズは、ランダムに生成されたフレーズと所定の質問に対する回答のうちの１つに対応する。

前記訓練は、前記第１の機械学習モデルと前記第２の機械学習モデルを同時に訓練することを備えてもよい。

前記音声データに対応する前記第１の入力は、前記第１の機械学習モデルの全結合層から抽出された特徴を備えてもよい。

前記訓練は、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するため、前記動画データと前記音声データを前記第１の機械学習モデルに入力するステップと、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第２の決定を取得するため、前記音声データに対応する前記第１の入力と前記所定のフレーズに対応する第２の入力を、前記第２の機械学習モデルに入力するステップと、を備えてもよい。

取得された前記動画データと取得された前記音声データを、前記第１の機械学習モデルに入力するステップは、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力し、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から特徴間の距離に対応するコントラスティブ・ロス値を取得してもよい。

前記第１の入力及び前記第２の入力を前記第２の機械学習モデルに入力するステップは、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力し、
前記第２の決定として、ＣＴＣ損失値を取得し、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第２の入力は、所定のフレーズの文字列又は単語列であってもよい。

前記訓練は、
前記動画データと前記音声データを前記第１の機械学習モデルに入力して、前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得し、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第２の決定を取得するため、前記音声データに対応する前記第１の入力と前記所定のフレーズに対応する前記第２の入力を、前記第２の機械学習モデルに入力し、
前記第１の決定と前記第２の決定を合算し、
前記合算された決定に基づいて、前記第１の機械学習モデルと前記第２の機械学習モデルを訓練してもよい。

追加の態様は、以下の説明において、少なくとも部分的に明らかであるか、又は説明され、又は提示された実施形態の実施によって理解され得る。

これら及び／又は他の態様は、以下の説明から、以下の添付の図面と併せて明らかになり、より容易に理解されるであろう。

生体認証システムのフロー図である。本発明の実施形態における第１の機械学習モデルと第２の機械学習モデルを訓練する訓練方法のフローチャートである。本実施形態における訓練方法を実行する例を示すフローチャートである。本実施形態における生体検出検証方法のフローチャートである。本実施形態における生体検出検証方法を実行する例を示すフローチャートである。本実施形態における生体検出検証方法を実行する例を示すフロー図である。本実施形態における生体検出検証システムのデータ処理方法を示すフローチャートである。本実施形態における生体検出検証システムのブロック図である。本実施形態における生体検出検証システムのデータ処理方法を示すブロック図である。一以上の実施の形態におけるシステム及び／又は方法を実行する環境例のブロック図である。

以下、本開示の例示的な実施形態を、全体を通して同じ参照番号が同じ要素を示す添付の図面を参照して、詳細に説明する。しかしながら、本開示は、本明細書に記載の実施形態に限定されず、一実施形態の特徴及び構成要素は、別の実施形態に含まれるか、又は省略できることが理解される。

さらに、本明細書で使用される場合、「少なくとも１つ」などの表現は、要素の列挙の前に使用する場合、要素の全体の列挙を変更するものであり、列挙された個々の要素を変更するものではないと理解される。例えば、「［Ａ］，［Ｂ］，及び［Ｃ］の少なくとも１つ」又は「［Ａ］，［Ｂ］，又は［Ｃ］の少なくとも１つ」という表現は、Ａのみ、Ｂのみ、Ｃのみ、Ａ及びＢ、Ｂ及びＣ、Ａ及びＣ、又は、Ａ，Ｂ，及びＣ、を意味する。

本明細書では、様々な要素を説明するために、「第１」、「第２」等の用語が使用される可能性があるが、これらの要素はこれらの用語によって限定されるべきではない（例えば、相対的な順序又は重要性を特定して解釈されるべきではない）ことも理解される。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。

さらに、本明細書で使用される場合、単数形を示す「ａ」、「ａｎ」及び「ｔｈｅ」は、他に明示的に又は周囲の文脈によって明示されない限り、複数形も含むことを意図している。

本開示の１つ又は複数の実施形態は、生体認証をより確実かつ効果的に保護し、なりすまし攻撃を防止できるｅＫＹＣアプリケーションのための生体検出検証システム及び方法を提供する。特に、１つ又は複数の実施形態による生体検出検証方法は、口の動きと音声との整合性を決定するために（すなわち、音声と視覚の類似性検出）、ユーザの音声及び視覚情報を取得及び比較する第１の決定を含む。なりすまし攻撃（例えば、動画攻撃）をさらに防止するために、生体検出検証方法は、ランダムフレーズを利用（例えば、認証時にランダムフレーズを生成する）するとともに、ランダムなフレーズが話され、それによる生体検出の検証を確認するための追加の整合性チェック（第２の決定）を含む。ランダムなフレーズを使用し、音声認識を組み込んで、フレーズが話されていることを確認するので、ユーザはリアルタイムで話す必要があり、それにより以前に記録又は改ざんされた動画の使用は排除される。

１つ又は複数の実施形態において、第１の決定、すなわち音声と視覚の類似性検出は、口の動きが音声と同期している第１の確率（例えば、口の動きと音声の第１の程度の一致確率）を決定するために、第１の機械学習モデル（例えば、ニューラルネットワーク、深層学習モデル、畳み込みニューラルネットワーク（ＣＮＮ））を利用することができる。さらに、第２の決定、すなわち音声認識は、ランダムフレーズがユーザによって話される第２の確率（例えば、音声とランダムフレーズの間の第２の程度の一致確率）を決定するために、第２の機械学習モデル（例えば、ニューラルネットワーク、深層学習モデル、人工リカレントニューラルネットワーク、長短期メモリ（ＬＳＴＭ）ネットワークなど）を利用することができる。したがって、第１の確率と第２の確率の双方が閾値を超える場合（例えば、組み合わされた損失が所定の値を下回るか、１つ又は複数の所定の条件を満たす場合）、ユーザの生体検出が検証される。

１つ又は複数の実施形態による生体検出検証システム及び方法を組み込んだｅＫＹＣアプリケーション（例えば、オンライン認証システム）は、顔認識などのユーザを認証するための追加の手段をさらに含み得る。ここで、顔認識は、例えば、生体検出が検証される前又は後に追加の画像を取得することにより別個に実行され得る、又は生体検出のために取得された動画から取得された画像を使用して実行され得る。顔認識は、生体認証の一例に過ぎず、１つ又は複数の他の実施形態では、指紋検出、虹彩スキャンなどの他の生体認証スキームを利用してユーザを認証できると理解される。

図２は、一実施形態における、第１の機械学習モデルと第２の機械学習モデルを訓練するための訓練方法のフローチャートであり、図３は、一実施形態における訓練方法を実行した例のフローチャートである。

図２に示すように、データ前処理は、動作２１０において、ランダムに生成されたフレーズを話すユーザを撮影した動画に対して実行される。データ前処理は、第１の機械学習モデルへの入力用に、ランダムに生成されたフレーズに対応して、動画データ（例えば、動画フレーム）と音声データ（例えば、音声フレーム）を取得するために実行される。例えば、第１の機械学習モデルは、図３の例に示すように、動画データのための３ＤＣＮＮと音声データのための３ＤＣＮＮを含み得る。データ前処理の詳細な説明は、図７を参照して以下に示す。

本実施形態は、ランダムに生成されたフレーズを参照して説明するが、１つ又は複数の他の実施形態はそれに限定されないと理解される。例えば、別の実施形態によれば、データ前処理は、所定の質問への回答に対応するフレーズを話すユーザを撮影した動画に対して実行される。

動作２２０において、ランダムに生成されたフレーズは、第２の機械学習モデル（例えば、リカレントニューラルネットワーク）を含む音声認識部（例えば、音声認識エンジン、音声認識プロセッサ）に入力される。例えば、ランダムに生成されたフレーズの文字又は単語列は、損失（例えば、ＣＴＣ（connectionist temporal classification）損失）を決定するためのラベルとして音声認識部に入力され得る。動作２１０及び２２０は、同時に、実質的に同時に、又は順次に実行され得る（例えば、少なくとも部分的又は完全に動作２２０に先行する動作２１０又は動作２２０を処理する動作２１０）。

上記のように、本実施形態は、ランダムに生成されたフレーズを参照して説明するが、１つ又は複数の他の実施形態は、それに限定されないと理解される。例えば、別の実施形態によれば、所定の質問に対する回答に対応する所定のフレーズが、音声認識部に入力される。この場合、所定のフレーズの文字又は単語列は、損失（例えば、ＣＴＣ損失）を決定するためのラベルとして、音声認識部に入力され得る。

動作２３０において、第１の機械学習モデルは、動画データと音声データを処理して、口の動きが音声と同期している第１の確率（例えば、口の動きと音声との間の第１の程度の一致確率）を取得する。例えば、第１の確率は、動画データの３ＤＣＮＮの全結合層と音声データの３ＤＣＮＮの全結合層からの特徴の間の測定距離に基づく、コントラスティブ・ロス値である。一実施形態によるコントラスティブ・ロス関数（Ｌ_１（Ｙ，Ｘ））は、以下の数１に従う。

ここで、

ここで、Ｌ_１はコントラスティブ・ロスに対応し、Ｘ_ｖｉｄは、ネットワーク１（動画ネットワーク）に対応し、動画フレームデータと（ｎｘＷｘＨ）は入力データの形状であり、Ｘ_ａｕｄは、ネットワーク２（音声ネットワーク）に対応し、音声フレームデータと（ｎｘＷｘＨ）は入力データの形状である。（Ｘ_ｖｉｄ，Ｘ_ａｕｄ）_ｉは、ｉ番目の入力ペアに対応し、Ｙ_ｉは、ラベル（１－本物のペア、つまりフレーム（Ｘ_ｖｉｄ，Ｘ_ａｕｄ）が同じＩＤからのものであり、０－偽のペア、つまりフレーム（Ｘ_ｖｉｄ，Ｘ_ａｕｄ）が異なるＩＤからのものである場合）に対応する。Ｎは、訓練サンプルの数であり、Ｄ_Ｃは、入力Ｘ_ｖｉｄ，Ｘ_ａｕｄを持つ両方のネットワークのＦＣ層の出力間のユークリッド距離である。λは、正則化パラメーターであり、Ｍは、事前定義されたマージンであり、ｎは、フレーム数に対応し、Ｗは、フレームの幅に対応し、Ｈは、フレームの高さに対応する。

動作２４０において、第２の機械学習モデルは、音声データを処理して、動作２２０においてランダムに生成されたフレーズの入力に基づいて音声認識を実行し、ユーザにより話されたランダムフレーズの第２の確率を取得する。第２の確率は、ＣＴＣ損失値であってもよい。一実施形態において、第２の機械学習モデルは、音声認識を実行するために、第１の機械学習モデルから音声データ出力を受信することができる。例えば、第２の機械学習モデルは、ランダムに生成されたフレーズの文字又は単語列のラベルと同様に、第１の機械学習モデルの音声データの３ＤＣＮＮから、全結合層（又はその特徴）を受信できる。これらの入力に基づいて、第２の機械学習モデルは、音声認識を実行してＣＴＣ損失値を取得できる。

上記のように、本実施形態は、ランダムに生成されたフレーズを参照して説明するが、１つ又は複数の他の実施形態は、それに限定されないと理解される。例えば、別の実施形態によれば、ユーザによって話されたフレーズ（すなわち、音声データ）が所定のフレーズに対応するかどうかを決定するために、所定の質問への回答に対応する所定のフレーズが、音声認識部に入力される。すなわち、別の実施形態によれば、第２の機械学習モデルは、所定のフレーズの文字又は単語列のためのラベルと同様に、第１の機械学習モデルの音声データのための３ＤＣＮＮから、全結合層（又はその特徴）を、受け取ることができる。これらの入力に基づいて、第２の機械学習モデルは、音声認識を実行してＣＴＣ損失値を取得できる。

動作２５０において、第１の確率（例えば、コントラスティブ・ロス値）と第２の確率（例えば、ＣＴＣ損失値）が合算される。

動作２６０において、合算された確率（例えば、合算された損失）は、誤差逆伝播アルゴリズムを介して伝達され、第１及び第２の機械学習モデル（例えば、動画データの３ＤＣＮＮ、音声データの３ＤＣＮＮ、及びリカレントニューラルネットワーク）の重み付けが更新される。次に、訓練方法は、例えば、図３に示す停止基準に到達するまで、繰り返し実行され得る。

一実施形態によれば、第１の機械学習モデルと第２の機械学習モデルは双方とも、上記のように互いに関連して、同じ訓練データセットから訓練される。したがって、第１の機械学習モデルと第２の機械学習モデルを同時に訓練することができ、それにより、機械学習モデルが別々に訓練される場合と比較して、訓練時間を短縮及び合理化できる。訓練されたモデルは、次に、以下に示す図４－６を参照して説明するように、生体検出検証方法を実行するために使用できる。

図４は、一実施形態による生体検出検証方法のフローチャートであり、図５は、一実施形態による生体検出検証方法の実施例のフローチャートであり、図６は、一実施形態による生体検出検証方法の実施例の流れを示す図である。生体検出検証方法は、ｅＫＹＣアプリケーションに関連して、例えば、ユーザ又は顧客のオンライン認証を実行するためのサーバによって、実行され得る。

図４に示すように、データ前処理は、動作４１０において実行され、音声視覚類似性検出部の第１の機械学習モデル（例えば、音声視覚類似性検出エンジン、音声視覚類似性検出プロセッサなど）に入力するため、ランダムに生成されたフレーズに対応する動画データ（例えば、動画フレーム）及び音声データ（例えば、図６に示す、音声フレーム又は音声スペクトログラム）を取得する。上記のように、そして、図５及び図６の例に示すように、第１の機械学習モデルは、動画データ用の動画ネットワーク（例えば、３ＤＣＮＮ）と音声ネットワーク（例えば、音声データ用の３ＤＣＮＮ）を含み得る。さらに、動作４１０におけるデータ前処理は、機械学習モデルを訓練する、例えば図２の動作２１０、ために実行されるものと同じであるか、又は実質的に類似している。

データ前処理では、ランダムに生成されたフレーズが、ユーザにより読み取られるために提供される。例えば、第１のサーバは、フレーズを生成するか、さもなければ取得し、それをユーザデバイスのディスプレイ上に表示（例えば、ウェブページ、アプリケーション、ユーザインターフェイスを介して）するために、ユーザデバイス（例えば、携帯電話、パーソナルコンピュータなど）に送信し得る。続いて、ランダムに生成されたフレーズを読むユーザの動画データと音声データを取得し得る。例えば、第１のサーバ又は第２のサーバは、ユーザデバイスから、ランダムに生成されたフレーズを読むユーザの動画（動画データと音声データを含む）を受信することができる。動画は、カメラ又はイメージセンサ、及びユーザデバイスのマイクによって取得され得る。次に、受信された動画は、前処理され、動画データ（例えば、動画フレーム）と音声データ（例えば、図６に示されるような音声フレーム又はスペクトログラム）が取得される。データ前処理の詳細な説明は、図７を参照して以下に示す。

本実施形態は、ランダムに生成されたフレーズを参照して説明するが、１つ又は複数の他の実施形態はそれに限定されず、他の任意の所定のフレーズが適用され得ると理解される。例えば、別の実施形態によれば、所定の質問をユーザに表示するために提示される。続いて、質問に対する回答を提供するユーザの動画データと音声データを取得し得る。したがって、第１のサーバ又は第２のサーバは、ユーザデバイスから、提示された質問に対する回答を話すユーザの動画（動画データと音声データを含む。）を受信することができる。次に、受信された動画は、動画データ（例えば、動画フレーム）と音声データ（例えば、図６に示す音声フレーム又はスペクトログラム）を取得するために、前処理される。

動作４２０において、ランダムに生成されたフレーズは、第２の機械学習モデル（例えば、リカレントニューラルネットワーク）を含む音声認識部（例えば、音声認識エンジン、音声認識プロセッサなど）に入力される。例えば、ランダムに生成されたフレーズの文字又は単語列は、損失（例えば、ＣＴＣ損失）を決定するためのラベルとして音声認識部に入力され得る。動作４１０及び４２０は、同時に、実質的に同時に、又は順次に実行され得る（例えば、少なくとも部分的又は完全に動作２２０に先行する動作４１０又は動作２２０を処理する動作４１０）ことが理解される。

上記のように、本実施形態は、ランダムに生成されたフレーズを参照して説明するが、１つ又は複数の他の実施形態は、それに限定されないと理解される。例えば、別の実施形態によれば、所定の質問への回答に対応する所定のフレーズは、ユーザにより話されたフレーズ（すなわち、音声データ）が所定のフレーズに対応するかどうかを決定するために、音声認識部に入力される。この場合、所定のフレーズの文字又は単語列は、損失（例えば、ＣＴＣ損失）を決定するためのラベルとして音声認識部に入力され得る。

動作４３０において、第１の機械学習モデルは、動画データと音声データを処理して、口の動きが音声と同期する第１の確率（例えば、口の動きと音声の間の第１の程度の一致確率）を取得する。例えば、第１の確率は、図５に示すように、動画データ用の３ＤＣＮＮの全結合層と、音声データ用の３ＤＣＮＮの全結合層と、からの特徴間の測定距離に基づくコントラスティブ・ロス値であり得る。一実施形態によるコントラスティブ・ロス関数は、図２を参照して上記の式１に従うことができる。

動作４４０において、音声認識部は、音声データを処理して、動作４２０でランダムに生成されたフレーズ入力に基づいて音声認識を実行し、ランダムフレーズがユーザにより話される第２の確率を取得する。第２の確率は、ＣＴＣ損失値であってもよい。一実施形態によれば、第２の機械学習モデルは、音声認識を実行するために、第１の機械学習モデルからの音声データ出力を受信することができる。例えば、第２の機械学習モデルは、ランダムに生成されたフレーズの文字又は単語列のラベルと共に、第１の機械学習モデルの音声データ用の３ＤＣＮＮの全結合層（又はそこから抽出された特徴）を受信する。これらの入力に基づいて、第２の機械学習モデルは、図５及び図６に示すように、音声認識を実行して、ＣＴＣ損失値を取得することができる。

上記のように、本実施形態は、ランダムに生成されたフレーズを参照して説明するが、１つ又は複数の他の実施形態は、それに限定されないと理解される。例えば、別の実施形態によれば、ユーザにより話されたフレーズ（すなわち、音声データ）が所定のフレーズに対応するかどうかを決定するために、所定の質問への回答に対応する所定のフレーズが、音声認識部に入力される。すなわち、別の実施形態によれば、第２の機械学習モデルは、所定のフレーズの文字又は単語列のためのラベルと同様に、第１の機械学習モデルの音声データのための３ＤＣＮＮの全結合層（又はその特徴）を受け取ることができる。これらの入力に基づいて、第２の機械学習モデルは、音声認識を実行してＣＴＣ損失値を取得できる。

動作４５０において、第１の予測値と第２の予測値が１つ又は複数の条件を満たすかどうかに基づいて、生体検出は、検証される。図６に示すように、第１の予測値（例えば、コントラスティブ・ロス値）と第２の予測値（例えば、ＣＴＣ損失値）に基づいて、組み合わされた損失の決定を実行して、生体検出を検証できる。

組み合わされた損失の決定の例を、図５に示す。具体的には、第１の機械学習モデルから得られたコントラスティブ・ロス値（Ｌ１）が、閾値（例えば、所定のマージン値（Ｍ））と比較される。コントラスティブ・ロスが閾値よりも小さい場合、生体検出は検証されていないと判断される。さらに、第２の機械学習モデルから取得したＣＴＣ損失値（Ｌ２）を使用して、認識された音声のラベルを予測する。予測されたラベルが、ランダムに生成されたフレーズに対応しない場合、生体検出は検証されないと判断される。一方、コントラスティブ・ロス値が閾値より大きい（又は以上か等しい）く、且つ予測されたラベルがランダムに生成されたフレーズに対応する場合、生体検出が検証されたと判断される。

図４の方法は、動作４１０のデータ前処理から得られた動画及び音声データの各バッチに対して繰り返される。例えば、図５、６に示すように、取得された動画の１秒に対応する２５フレームのそれぞれの動画及び音声データの３つのバッチが、第１の機械学習モデルに連続的に入力される。

上記の一実施形態による生体検出検証方法は、ランダムに生成されたフレーズ（又は複数の所定の（又は頻繁に／定期的に更新される）質問の中でランダムに選択された質問）に基づいて、音声視覚類似性検出を検証するための音声認識を実装することにより、生体認証をより確実に保護し、なりすまし攻撃を防止できる。例えば、フレーズ（又は質問への回答）が話されていることを確認するために、ランダムなフレーズ（又は質問）を利用し、音声認識を組み込んでいるので、ユーザはリアルタイムで話す必要があり、それにより、以前に録音された使用又は改ざんされた動画は排除される。

図７は、一実施形態による生体検出検証システムのデータ前処理方法のフローチャートである。図７のデータ前処理方法は、第１の機械学習モデル及び／又は第２の機械学習モデルを訓練するため（すなわち、図２の動作２１０）、又は以前訓練された第１及び第２の機械学習モデルを使用して生体検出検証を実行するために（すなわち、図４の４１０動作）、実行することができる。

図７を参照すると、動作７１０において、ランダムフレーズチャレンジが生成され、ユーザに提供される。例えば、フレーズは、事前に保存された辞書、語彙セット、又はデータベースからランダムに生成され、ディスプレイを介してユーザに表示され得る。１つの例示的な実行形態では、語彙セットは、所定数のカテゴリのそれぞれについて、所定数の入力又は候補用語（例えば、単語、文字、数字など）を含み得る。このような語彙セットの例を、以下の表１に示す。表１には、コマンド、色、前置詞、文字、数字、副詞の６つのカテゴリが含まれる。

例として上記の語彙セットを使用して、「今すぐＦ９に青を配置する」又は「Ｗ３に再び緑を置く」などのフレーズが生成され（例えば、ユーザデバイス又は顧客端末に）、画面に表示され、提供され得る。しかしながら、これは単なる一例であり、１つ又は複数の他の実施形態は、上記で提供される語彙セット及び／又は候補用語の６つのカテゴリに限定されず、任意の数の候補用語及びカテゴリを実行できると理解される。最終的に、多数の可能な出力を伴うランダムフレーズチャレンジを使用することにより、攻撃者が、以前に記録又は改ざんされた動画を介して登録ユーザをスプーフィングすることを防ぐ。

本実施形態は、ランダムフレーズを参照して説明するが、１つ又は複数の他の実施形態はそれに限定されず、別の所定のフレーズを使用できると理解される。例えば、質問への回答に対応する所定のフレーズを適用することができる。この点に関して、質問は、保護を強化するために（事前に記録された回答が、攻撃者によって首尾よく使用される機会を減少させることにより）随時更新又は変更できる複数の所定の質問の中にあり得る。別の実施形態によれば、質問（又は対応する所定のフレーズ／回答）は、回答を話すユーザの動画を取得するために、そのユーザに提示され得る。

次に、動作７２０において、提示されたランダムフレーズチャレンジ（又は所定の質問への回答）を話すユーザの動画が取得される。例えば、所定の長さ（例えば、３秒）の動画は、ランダムフレーズチャレンジが一度提示される、すなわち、ユーザがランダムワードチャレンジを話している間に、カメラ又はイメージセンサ、及びマイクによって取得される。

動作７３０において、得られた動画は、動画ストリームと音声ストリームに分割される。例えば、デマルチプレクサ又は画像プロセッサは、取得された動画を基本的な動画ストリームと音声ストリームに逆多重化する。

動作７４０において、動画ストリームは、第１の機械学習モデルへの入力のために処理される。動画ストリームは、モデルを訓練するための入力（すなわち、図２の方法）及び／又は音声との口の動きの整合性を決定するための入力（すなわち、図４の方法）をするために、処理され得る。ここで、この処理は、動画ストリームフレームレートを所定のフレームレート（例えば、２５フレーム／秒（ｆｐｓ））に変換すること、及び各フレームが所定の時間の長さ（例えば、４０ミリ秒の動画）に対応するように、所定数の動画フレーム（例えば、３秒に対応する７５の動画フレーム）を抽出すること、の少なくとも１つを含み得る。この処理は、各動画フレームの口座標の検出、検出された座標（又は境界ボックス）毎の口領域のトリミング、トリミングされた口領域のグレースケール又は単一チャネル画像へ変換して所定のサイズ（例：６０×１００ピクセル）に変更、の少なくとも１つをさらに含み得る。

動作７５０において、動作７３０で取得された音声ストリームは、口の動きと音声との整合性を決定するために使用される第１の機械学習モデルへの入力のため処理される。ここで、この処理は、音声を単一チャネルストリームに変換すること、サンプル周波数を所定の周波数（例えば、２２．０５ＫＨｚ）に変更すること、及び各フレームが所定の時間（例えば、４０ミリ秒の音声）に対応するように、所定数の重複しないフレーム（例えば、３秒に対応する７５個の非重複フレーム）を抽出すること、の少なくとも１つを含み得る。さらに、図７のデータ前処理が生体検出モデルを訓練する程度において、動作７５０の処理は、訓練データセットの負のクラスとして入力するため音声フレームの改ざんをさらに含み得る（又は正のクラスとして入力するため改ざんを含まない）。改ざんには、音声フレームのテンポとピッチの少なくとも１つを変更することが含まれる場合がある。もちろん、図７のデータ前処理が、生体検出モデルの訓練用でなければ、改ざんは省略される。

動作７５０の処理は、また、各音声フレームについてメル尺度のスペクトログラムを抽出することを含み得る。動画フレームと同様に、メル尺度のスペクトログラムもグレースケール又は単一チャネル画像に変換できる。

動作７４０及び７５０は、同時に、実質的に同時に、又は連続して（動作７５０の少なくとも部分的又は完全に先行する動作７４０、又は７５０を処理する動作７４０）実行され得ることが理解される。

動作７６０において、所定数のフレームのバッチ（例えば、１秒のデータに対応する２５フレームのバッチ）は、処理された動画フレームと処理された音声フレームの各々について作成され得る。例えば、２５フレームの動画及び音声の３つのバッチが、動作７６０で生成され、第１の機械学習モデルに入力され得る。

動作７６０で取得された動画及び音声データ（例えば、図３、５、及び６に示される動画フレームと音声スペクトログラム）は、第１の機械学習モデルに入力され、図２及び図３を参照して上記したように、モデルを訓練する、又は、図４から図６を参照して上記したように、音声視覚の類似性の検出及び検証を実行する。

図８は、一実施形態による生体検出検証システム８００のブロック図である。生体検出検証システム８００は、１つ又は複数のサーバ（例えば、オンライン認証システム用）、ユーザ端末（例えば、顧客端末）に実装され得るか、又はユーザ端末及び１つ又は複数のサーバに分散され得る。

図８に示すように、生体検出検証システム８００は、データプリプロセッサ８１０、音声視覚類似性検出部８２０、音声認識部８３０、及び生体検出検証部８４０を含む。

データプリプロセッサ８１０は、ランダムに生成されたフレーズに対応する動画データ（例えば、動画フレーム）と音声データ（例えば、図６に示す、音声フレーム又は音声スペクトログラム）を取得する。一実施形態におけるデータプリプロセッサの詳細なブロック図を、図９に示す。

図９に示すように、データプリプロセッサ８１０は、記憶部９１０、ランダムフレーズ生成部９２０、通信ユニット９３０、デマルチプレクサ９４０、動画ストリームプロセッサ９５０、及び音声ストリームプロセッサ９６０を含む。

記憶部９１０は、図７を参照して上記したように、語彙セットを記憶する。例えば、語彙セットは、上記の表１に例示されるように、所定数のカテゴリの各々について、所定数の入力又は候補用語（例えば、単語、文字、数字など）を含み得る。記憶部９１０は、ハードディスク（例えば、磁気ディスク、光ディスク、磁気光学ディスク、及び／又はソリッドステートディスク）、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、フロッピーディスク、カートリッジ、磁気テープ、及び／又は、別のタイプの非一時的なコンピュータ読み取り可能な媒体、及び対応するドライブを含む。さらに、記憶部９１０は、別の又は分離したデバイス又はサーバで提供され得ることが理解される。

ランダムフレーズ生成部９２０は、語彙セットからフレーズをランダムに生成する。例えば、ランダムフレーズ生成部９２０は、語彙セットの各カテゴリからの１つの用語をランダムに組み合わせて、フレーズを生成することができる。

通信ユニット９３０（例えば、コミュニケータ、通信インターフェイスなど）は、ランダムに生成されたフレーズを、有線又は無線の少なくとも１つのネットワーク（携帯ネットワーク、インターネットネットワーク、光ファイバーネットワーク、Ｗｉ－Ｆｉネットワークなど）を介して、ユーザ端末（例えば、携帯電話、パーソナルコンピュータなど）に送信する。さらに、通信ユニット９３０は、ユーザ端末から、ランダムに生成されたフレーズを話すユーザの動画を受信する。ここで、動画は、所定の長さ（例えば、３秒）であり得、ランダムフレーズチャレンジが提示されると、すなわち、ユーザがランダムな単語チャレンジを話している間に、ユーザ端末のカメラ又はイメージセンサ、及びマイクロフォンによって取得され得る。

通信ユニット９３０は、ランダムに生成されたフレーズをユーザに提供し、及び／又はオンライン認証サービス又は消費者ポータルのウェブサイト（例えば、金融機関のためのウェブサイト）をホストするウェブサーバを介して、取得された動画を受信できることが理解される。さらに、データプリプロセッサ８１０が第１及び第２の機械学習モデルを訓練するために使用される場合、及び／又はデータプリプロセッサ８１０がランダムに生成されたフレーズをローカルで読み取るユーザの動画を取得する場合（例えば、生体検出検証システム８００がユーザ又は顧客端末に含まれる場合）、通信ユニット９３０は省略できると理解される。

デマルチプレクサ９４０は、取得された動画を基本的な動画ストリームと音声ストリームに逆多重化する。

動画ストリームプロセッサ９５０は、音声視覚類似性検出部８２０への入力のため、動画ストリームを処理して、モデルを訓練し、及び／又はモデルから決定を取得する。ここで、動画処理は、動画ストリームフレームレートを所定のフレームレート（例えば、２５フレーム／秒（ｆｐｓ））に変換すること、各フレームが所定の時間（例えば、４０ミリ秒の動画）に対応するように、所定数の動画フレーム（例えば、３秒に対応する７５動画フレーム）を抽出すること、各動画フレームの口の座標を検出すること、検出された座標（又は境界ボックス）毎の口の領域をトリミングすること、トリミングされた口の領域をグレースケール又は単一チャネル画像に変換すること、及びグレースケール又は単一チャネル画像を所定のサイズ（例えば、６０×１００ピクセル）に変更すること、の少なくとも１つを含み得る。

さらに、動画ストリームプロセッサ９５０は、グレースケール又は単一チャネル画像の所定数のフレームの所定数のバッチ（例えば、１秒のデータに対応する２５フレームのバッチ）を取得し出力する。例えば、２５フレームの動画の３つのバッチは、動画ストリームプロセッサ９５０によって出力され得る。

音声ストリームプロセッサ９６０は、音声視覚類似性検出部８２０への入力のために、音声ストリームを処理して、モデルを訓練し、及び／又はモデルから決定を取得する。ここで、音声処理は、音声を単一チャネルストリームに変換すること、サンプル周波数を所定の周波数（例えば、２２．０５ＫＨｚ）に変更すること、及び、各フレームが所定の時間長（例えば、４０ミリ秒の音声）に対応するように、所定数の重複しないフレーム（例えば、３秒に対応する７５の非重複フレーム）を抽出すること、の何れか１つを含む。さらに、音声処理が生体検出モデルを訓練する限り、処理は、訓練データセットの負のクラスとして入力するため音声フレームを改ざんすること（又は、正のクラスとして入力するため改ざんしないこと）をさらに含み得る。改ざんには、音声フレームのテンポとピッチの少なくとも１つを変更することが含まれ得る。

音声処理はまた、各音声フレームについてメル尺度のスペクトログラムを抽出し、スペクトログラムをグレースケール又は単一チャネルスペクトログラムに変換することの少なくとも１つを含み得る。

さらに、音声ストリームプロセッサ９６０は、グレースケール又は単一チャネルスペクトログラムの所定数のフレームの所定数のバッチ（例えば、１秒のデータに対応する２５フレームのバッチ）を取得及び出力する。例えば、２５フレームの３つのバッチは、音声ストリームプロセッサ９６０によって出力され得る。

データプリプロセッサ８１０の上記構成要素のうちの１つ又は複数は、回路、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせとして実装できることが理解される。さらに、データプリプロセッサ８１０の上記構成要素のうちの１つ又は複数は、少なくとも１つのプロセッサによって実行可能なソフトウェアとして実装できることが理解される。さらに、データプリプロセッサ８１０の上記構成要素のうちの１つ又は複数は、複数のデバイスに分散できることが理解される。

図８に戻り、音声視覚類似性検出部８２０は、データプリプロセッサ８１０、すなわち、動画ストリームプロセッサ９５０と音声ストリームプロセッサ９６０によって出力された動画データ（例えば、動画フレームのバッチ）と音声データ（例えば、音声フレームのバッチ）を取得し、動画データ（例えば、動画データ内の口の動き）が音声と同期しているかどうかを示す第１の決定値を出力する。具体的には、音声視覚類似性検出部８２０は、動画と音声データの各々に対応するバッチのための、口の動きが音声と同期している第１の確率（例えば、口の動きと音声との間の第１の程度の一致の確率）を取得するための第１の機械学習モデルを含む。

第１の機械学習モデルは、動画データのための第１のニューラルネットワーク（例えば、３ＤＣＮＮ）、音声データのための第２のニューラルネットワーク（例えば、３ＤＣＮＮ）、及びコントラスティブ・ロス・カリキュレータを含み得る。ここで、第１のニューラルネットワークは、動画データに対応する全結合層をコントラスティブ・ロス・カリキュレータに出力し得、第２のニューラルネットワークは、音声データに対応する全結合層をコントラスティブ・ロス・カリキュレータに出力し得る。コントラスティブ・ロス・カリキュレータは、（図５に示すように）第１のニューラルネットワークと第２のニューラルネットワークの全結合層から抽出された特徴間の距離を測定することができる。一実施形態によるコントラスティブ・ロス関数は、図２を参照して上記で説明した式１に従うことができる。

さらに、音声視覚類似性検出部８２０は、音声データを音声認識部８３０に出力することができる。例えば、音声視覚類似性検出部８２０は、音声データの全結合層（又はその特徴）を音声認識部８３０に出力することができる。

音声認識部８３０は、データプリプロセッサ８１０から、ランダムに生成されたフレーズを受け取り、音声視覚類似性検出部８２０から、音声データを受け取り、それに基づいて音声認識を実行して、第２の決定値を出力する。具体的には、音声認識部８３０は、音声データを処理して音声認識を実行し、ランダムフレーズがユーザによって話されているかどうかを決定する（例えば、ランダムフレーズがユーザによって話されている第２の確率を第２の決定値として取得する）。

この目的のために、音声認識部８３０は、第２の機械学習モデル（例えば、リカレントニューラルネットワーク、ＬＳＴＭネットワークなど）を含み得る。例えば、第２の機械学習モデルは、入力として、ランダムに生成されたフレーズの文字又は単語列のためのラベルと同様に、第１の機械学習モデルの音声データ用の３ＤＣＮＮの全結合層（又はそこから抽出された特徴）を受け取ることができる。ここで、ランダムに生成されたフレーズの文字又は単語列のためのラベルは、損失（例えば、ＣＴＣ損失）を決定するために音声認識部８３０により取得され得る。音声認識部８３０は、文字又は単語列のためのラベルを生成、又はデータプリプロセッサ８１０からラベルを取得することができる。これらの入力に基づいて、第２の機械学習モデルは、音声認識を実行して、第２の決定値（例えば、図５及び６に示すＣＴＣ損失値）を取得することができる。

第１の機械学習モデルと第２の機械学習モデルは、図２及び図３を参照して上記のように訓練され得ることが理解される。

生体検出検証部８４０は、第１の決定値（例えば、第１の確率）と第２の決定値（例えば、第２の確率）に基づいて生体検出を検証する。例えば、生体検出検証部８４０は、第１の予測値と第２の予測値が１つ又は複数の条件を満たすかどうかに基づいて、生体検出を検証する。図６に示すように、生体検出検証部８４０は、第１の予測値（例えば、コントラスティブ・ロス値）と第２の予測値（例えば、ＣＴＣ損失値）に基づいて組み合わされた損失決定を実行して、生体検出を検証することができる。

上記のように、組み合わされた損失決定の例を、図５に示す。具体的には、第１の機械学習モデルから得られたコントラスティブ・ロス値（Ｌ１）が、閾値（例えば、所定のマージン値（Ｍ））と比較される。コントラスティブ・ロスが閾値よりも小さい場合、生体検出検証部８４０は、生体検出が検証されていないと判断する。さらに、第２の機械学習モデルから取得したＣＴＣ損失値（Ｌ２）を使用して、認識された音声のラベルを予測する。予測されたラベルがランダムに生成されたフレーズに対応しない場合、生体検出検証部８４０は、生体検出が検証されていないと判断する。一方、コントラスティブ・ロス値が閾値よりも大きい（大きい又はそれ以上）場合、及び予測されたラベルがランダムに生成されたフレーズに対応する場合、生体検出検証部８４０は、生体検出が検証されたと判断する。

音声視覚類似性検出部８２０、音声認識部８３０、及び生体検出検証部８４０の動作は、データプリプロセッサ８１０から取得された動画と音声データの各バッチに対して繰り返される。

生体検出検証システム８００の上記構成要素のうちの１つ又は複数は、回路、ハードウェア、ソフトウェア、又はハードウェアとソフトウェアの組み合わせとして実装され得ることが理解される。さらに、生体検出検証システム８００の上記構成要素のうちの１つ又は複数は、少なくとも１つのプロセッサによって実行可能なソフトウェアとして実装され得ることが理解される。さらに、生体検出検証システム８００の上記構成要素のうちの１つ又は複数は、複数のデバイスに分散され得ることが理解される。

図１０は、１つ又は複数の実施形態によるシステム及び／又は方法が実施され得る例示的な環境１０００のブロック図である。図１０に示すように、環境１０００は、ユーザデバイス１１００、プラットフォーム１２００、及びネットワーク１３００を含み得る。環境１０００のデバイスは、有線接続、無線接続、又は有線接続と無線接続の組み合わせを介して相互接続することができる。

ユーザデバイス１１００は、プラットフォーム１２００に関連する情報を、受信、生成、格納、処理、及び／又は提供できるデバイスである。例えば、ユーザデバイス１１００は、コンピュータデバイス（例えば、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、ハンドヘルドコンピュータ、スマートスピーカー、サーバなど）、携帯電話（例えば、スマートフォン、ラジオ電話など）、ポータブルデバイス（例えば、ポータブルマルチメディアプレーヤー、ナビゲーションデバイスなど）、ウェアラブルデバイス（例えば、スマート眼鏡又はスマートウォッチ）、端末デバイス（例えば、顧客端末、自動テラーマシン、セルフチェックアウト端末又はマシンなど）又は同様のデバイス、を含む。ユーザデバイス１１００は、プラットフォーム１２００から情報を受信し、及び／又はプラットフォーム１２００に情報を送信することができる。

さらに詳細には、ユーザデバイス１１００は、メモリ１１１０と、命令（例えば、メモリ１１１０の非一時的なコンピュータ読み取り可能な媒体に格納された命令）を実行して、本明細書に記載されている様々な動作を実行するように構成された少なくとも１つのプロセッサ１１２０と、を含み得る。メモリ１１１０は、単一の物理的記憶装置内の記憶空間、又は複数の物理的記憶装置にまたがる記憶空間を含む。ソフトウェア命令は、別のコンピュータ読み取り可能な記録媒体から、又は通信ユニット１１６０を介して別のデバイスから、メモリ１１１０に読み込むことができる。実行されると、メモリ１１１０に格納されたソフトウェア命令は、少なくとも１つのプロセッサ１１２０に、上述した１つ又は複数のプロセスを実行させることができる。さらに、又は代わりに、ハードワイヤード回路を、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて使用して、本明細書に記載の１つ又は複数のプロセスを実行することができる。したがって、本明細書で説明される実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。

ユーザデバイス１１００は、画像取得部１１３０（例えば、カメラ）、マイクロフォン１１４０、表示部１１５０、及び通信ユニット１１６０（例えば、コミュニケータ、通信インターフェイス、通信回路など）をさらに含み得る。

少なくとも１つのプロセッサ１１２０は、表示部１１５０を制御して、通信ユニット１１６０を介してプラットフォーム１２００から受信したランダムフレーズを出力することができる。別の実施形態によれば、少なくとも１つのプロセッサ１１２０は、図９を参照して上記で説明したように、データプリプロセッサ８１０の少なくとも一部を実装することができる。例えば、少なくとも１つのプロセッサ１１２０は、ランダムフレーズ生成部９２０を実装し、上記のように、語彙セット（例えば、メモリ１１１０に格納された、又は外部に格納された語彙セット）からランダムフレーズを生成することができる。

少なくとも１つのプロセッサ１１２０は、動画（組み合わされた、又は対応する動画と音声データ）を取得するために、画像取得部１１３０とマイクロフォン１１４０を制御することができる。例えば、表示部１１５０に出力されるランダムフレーズに基づいて、少なくとも１つのプロセッサ１１２０は、画像取得部１１３０とマイクロフォン１１４０を制御して、所定の長さ（例えば、３秒）の動画を取得することができる。ここで、画像取得部１１３０とマイクロフォン１１４０は、ランダムフレーズが最初に表示部１１５０に出力されるのと同時に、又はランダムフレーズが最初に表示部１１５０に出力された後の所定の時間後（例えば、ランダムフレーズが表示部１１５０に出力され始めてから１秒後）に、生成されるランダムフレーズに応答して、動画を取得するように制御され得る。

さらに、少なくとも１つのプロセッサ１１２０は、表示部１１５０を制御して、動画がいつ取得されているかをユーザに通知するために、指標を出力できる（例えば、動画がいつ取得され始めるかのカウントダウン、動画の取得がいつ停止するかのカウントダウン、動画が取得されていることを示すシンボル、アイコン、又はグラフィカルユーザーインターフェイス（ＧＵＩ）アイテムなど）。さらに、表示部１１５０は、動画の取得に基づいて、例えば、一旦動画取得が停止する、又は動画取得が停止した後の所定の時間の長さで、ランダムフレーズの表示を停止することができる。

通信ユニット１１６０は、ネットワーク１３００を介してプラットフォーム１２００と通信する。一実施形態によれば、通信ユニット１１６０は、取得された動画（すなわち、組み合わされた又は対応する音声と動画データ）をプラットフォーム１２００に送信する。別の実施形態によれば、少なくとも１つのプロセッサ１１２０は、データプリプロセッサ８１０のデマルチプレクサ９４０、動画ストリームプロセッサ９５０、及び音声ストリームプロセッサ９６０のうちの少なくとも１つを実装することができる。この場合、通信ユニット１１６０は、処理された動画ストリーム及び処理された音声ストリームのうちの少なくとも１つ、又は、上記のように、動画フレームのバッチ及び音声フレーム又はスペクトログラムのバッチのうちの少なくとも１つを、プラットフォーム１２００に送信することができる。

さらに、通信ユニット１１６０は、ランダムに生成されたフレーズを、プラットフォーム１２００に送信することができる（例えば、ランダムフレーズがユーザデバイス１１００によって生成される場合）。もちろん、ランダムに生成されたフレーズがプラットフォーム１２００によって生成され、通信ユニット１１６０を介してユーザデバイス１１００によって受信される場合、通信ユニット１１６０は、ランダムに生成されたフレーズをプラットフォーム１２００に送り返すことはできない。別の実施形態によれば、プラットフォーム１２００が、複数のデバイス（例えば、サーバ）を含み、ランダムに生成されたフレーズが、複数のデバイスのうちの第１のデバイスからユーザデバイス１１００によって受信された場合、通信ユニット１１６０は、ランダムに生成されたフレーズ（取得された動画と同様に）を、複数のデバイスのうちの第２のデバイスへ送信する。

プラットフォーム１２００は、上記のように、生体検出検証システム８００の全部又は少なくとも一部を実装する１つ又は複数のデバイスを含む。いくつかの実装形態では、プラットフォーム１２００は、サーバ（例えば、クラウドサーバ、ウェブサーバ、認証サーバなど）又はサーバのグループを含み得る。いくつかの実装形態では、プラットフォーム１２００は、特定の必要性に応じて特定のソフトウェアコンポーネントを交換できるモジュール式に設計することができる。

図１０に示すように、プラットフォーム１２００は、メモリ１２１０、少なくとも１つのプロセッサ１２２０、及び通信ユニット１２３０（例えば、コミュニケータ、通信インターフェイス、通信回路など）を含む。メモリ１２１０は、単一の物理的記憶装置内の記憶空間、又は複数の物理的記憶装置又はサーバにまたがる記憶空間を含む。ソフトウェア命令は、別のコンピュータ読み取り可能な記録媒体から、又は通信ユニット１２３０を介して別のデバイスからメモリ１２１０に読み込むことができる。実行されると、メモリ１２１０に格納されたソフトウェア命令は、少なくとも１つのプロセッサ１２２０に、上述した１つ又は複数のプロセスを実行させることができる。さらに、又は代わりに、ハードワイヤード回路を、ソフトウェア命令の代わりに、又はソフトウェア命令と組み合わせて使用して、本明細書に記載の１つ又は複数のプロセスを実行することができる。したがって、本明細書で説明される実装は、ハードウェア回路とソフトウェアの特定の組み合わせに限定されない。

一実施形態によれば、少なくとも１つのプロセッサ１２２０は、上記の生体検出検証システム８００の全部又は少なくとも一部を実行するように制御することができる。例えば、少なくとも１つのプロセッサ１２２０は、データプリプロセッサ８１０の少なくとも一部を実行するように制御することができる。この目的のために、メモリ１２１０は、語彙セットを格納することができ、少なくとも１つのプロセッサ１２２０は、そこからフレーズをランダムに生成することができる。さらに、少なくとも１つのプロセッサ１２２０は、通信ユニット１２３０を制御して、ランダムに生成されたフレーズを、ネットワーク１３００を介してユーザデバイス１１００に送信し、ランダムに生成されたフレーズを話すユーザを撮影した動画を、ネットワーク１３００を介して、ユーザデバイス１１００から受信することができる。

少なくとも１つのプロセッサ１２２０は、動画を、基本的な動画ストリームと音声ストリームに逆多重化することができる。さらに、少なくとも１つのプロセッサ１２２０は、動画ストリームフレームレートを所定のフレームレート（例えば、２５フレーム／秒（ｆｐｓ））に変換すること、所定数の動画フレーム（例えば、３秒に対応する７５動画フレーム）を抽出し、各フレームが所定の時間（例えば、４０ミリ秒の動画）に対応するようにすること、各動画フレームの口座標を検出すること、検出された座標（又は境界ボックス）毎に口領域をトリミングすること、トリミングされた口の領域をグレースケール又は単一チャネル画像に変換すること、グレースケール又は単一チャネル画像を所定のサイズ（例えば、６０Ｘ１００ピクセル）にサイズ変更すること、のうち少なくとも１つを実行するように制御することができる。

さらに、少なくとも１つのプロセッサ１２２０は、グレースケール又は単一チャネル画像の所定数のフレームの所定数のバッチ（例えば、１秒のデータに対応する２５フレームのバッチ）を取得することができる。例えば、２５フレームの動画の３つのバッチは、動画ストリームプロセッサ９５０によって出力され得る。

少なくとも１つのプロセッサ１２２０はまた、音声ストリームを処理することができる。ここで、音声処理は、音声を単一チャネルストリームに変換すること、サンプル周波数を所定の周波数（例えば、２２．０５ＫＨｚ）に変更すること、及び、所定数の重複しないフレーム（例えば、３秒に対応する７５の非重複フレーム）を抽出し、所定の時間（例えば、４０ミリ秒の音声）に各フレームを対応させること、の何れか１つを含む。さらに、音声処理が機械学習モデルを訓練する限り、処理は、訓練データセットの負のクラスとして入力するため音声フレームを改ざんすること（又は正のクラスとして入力するため改ざんしないこと）をさらに含み得る。改ざんには、音声フレームのテンポとピッチの少なくとも１つを変更することが含まれる場合がある。

音声処理はまた、各音声フレームについてメル尺度のスペクトログラムを抽出すること、スペクトログラムをグレースケール又は単一チャネルスペクトログラムに変換すること、の少なくとも１つを含み得る。

さらに、少なくとも１つのプロセッサ１２２０は、グレースケール又は単一チャネルスペクトログラムの所定数のフレームの所定数のバッチ（例えば、１秒のデータに対応する２５フレームのバッチ）を取得及び出力することができる。例えば、２５フレームの３つのバッチは、音声ストリームプロセッサ９６０によって出力され得る。

少なくとも１つのプロセッサ１２２０はまた、上記のように、音声視覚類似性検出部８２０と音声認識部８３０を実装することができる。この目的のために、少なくとも１つのプロセッサ１２２０は、動画データ（例えば、動画フレームのバッチ）と音声データ（例えば、音声フレームのバッチ）を処理し、動画データ（例えば、動画データの口の動き）が音声と同期しているかを示す第１の決定値を出力することができる。具体的には、少なくとも１つのプロセッサ１２２０は、動画データと音声データを第１の機械学習モデルに入力して、動画データと音声データの対応するバッチごとに、口の動きが音声と同期している第１の確率（例えば、口の動きと音声との間の第１の程度の一致の確率）を取得することができる。

さらに、少なくとも１つのプロセッサは、音声データに関して音声認識を実行し、ランダムフレーズがユーザによって話されているかどうかを決定することができ（例えば、第２の決定値として、ユーザにより話されるランダムなフレーズの第２の確率）、音声データの音声認識部８３０への全結合層（又はその特徴）を取得する。

この目的のために、少なくとも１つのプロセッサ１２２０は、第１の機械学習モデルの音声データのための３ＤＣＮＮの全結合層（又はそこから抽出された特徴）を第２の機械学習モデル（例えば、リカレントニューラルネットワーク、ＬＳＴＭネットワークなど）に入力することができる。少なくとも１つのプロセッサ１２２０はまた、ランダムに生成されたフレーズの文字又は単語列のためのラベルを、第２の機械学習モデルへ入力するように制御することができる。ここで、ランダムに生成されたフレーズの文字又は単語列のラベルは、損失（例えば、ＣＴＣ損失）を決定するために、少なくとも１つのプロセッサ１２２０によって取得され得る。少なくとも１つのプロセッサ１２２０は、文字又は単語列のためのラベルを生成する、又は別のデバイスのラベルを取得することができる。これらの入力に基づいて、第２の機械学習モデルは、音声認識を実行して、第２の決定値（例えば、図５及び６に示されるようなＣＴＣ損失値）を取得することができる。

さらに、少なくとも１つのプロセッサ１２２０は、図２及び図３を参照して上記したように、第１の機械学習モデル及び／又は第２の機械学習モデルを訓練するように制御することができる。

少なくとも１つのプロセッサ１２２０はまた、第１の決定値（例えば、第１の確率）と第２の決定値（例えば、第２の確率）に基づいて生体検出を検証するために、上記のように生体検出検証部８４０を実装することができる。例えば、少なくとも１つのプロセッサ１２２０は、第１の予測値と第２の予測値が１つ又は複数の条件を満たすかどうかに基づいて、生体検出を検証するように制御できる。この場合、少なくとも１つのプロセッサ１２２０は、第１の予測値（例えば、コントラスティブ・ロス値）と第２の予測値（例えば、ＣＴＣ損失値）に基づいて、組み合わされた損失決定を実行して、生体検出を検証することができる。

ネットワーク１３００は、１つ又は複数の有線及び／又は無線ネットワークを含む。例えば、ネットワーク１３００は、セルラーネットワーク（例えば、第５世代（５Ｇ）ネットワーク、長期進化（ＬＴＥ）ネットワーク、第４世代（４Ｇ）ネットワーク、第３世代（３Ｇ）ネットワーク、符号分割多元接続（ＣＤＭＡ）ネットワークなど）、地上波公共移動通信ネットワーク（ＰＬＭＮ）、地域ネットワーク（ＬＡＮ）、広域ネットワーク（ＷＡＮ）、都市域ネットワーク（ＭＡＮ）、電話ネットワーク（例えば、公衆交換電話ネットワーク（ＰＳＴＮ））、プライベートネットワーク、アドホックネットワーク、イントラネット、インターネット、光ファイバーベースのネットワークなど、及び／又は、これら又は他のタイプのネットワークの組合せ、のうちの少なくとも１つを含み得る。

デバイス及びネットワークの数及び配置を図１０に、一例として示す。実際には、追加のデバイス及び／又はネットワーク、より少ないデバイス及び／又はネットワーク、異なるデバイス及び／又はネットワーク、又は異なる配置のデバイス及び／又はネットワークが、図１０に示されるもの以外にもあり得る。さらに、図１０に示される２つ以上のデバイスが単一のデバイスに実装、又は、図１０に示される単一のデバイスが、複数の分散したデバイスに実装されてもよい。図１０は、複数の分散デバイスとして実装することができる。さらに、又は代わりに、環境１０００のデバイスのセット（例えば、１つ又は複数のデバイス）は、環境１０００の別のデバイスのセットによって実行されると説明された１つ又は複数の機能を実行することができる。

上記のように、実施形態による生体検出検証システム及び方法は、ランダムフレーズと第２の整合性チェック（音声認識）を利用して音声視覚の生体を検証することにより、生体認証をより確実かつ効果的に保護し、なりすまし攻撃を防止することができる。例えば、ランダムなフレーズを使用し、フレーズが話されていることを確認するため音声認識を組み込むことにより、ユーザはリアルタイムで話す必要があり、それによって以前に記録又は改ざんされた動画の使用が排除される。

それに限定されないが、例示的な実施形態は、コンピュータ読み取り可能な記録媒体上のコンピュータ可読コードとして具体化することができる。コンピュータ読み取り可能な記録媒体は、その後コンピュータシステムによって読み取ることができるデータを記憶することができる任意のデータ記憶装置である。コンピュータで読み取り可能な記録媒体の例には、読み取り専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＣＤ－ＲＯＭ、磁気テープ、フロッピーディスク、及び光データストレージデバイスが含まれる。コンピュータ読み取り可能な記録媒体はまた、コンピュータ可読コードが分散された方法で格納及び実行されるように、ネットワーク結合されたコンピュータシステム上に分散され得る。また、例示的な実施形態は、コンピュータ可読伝送媒体上で、例えば、搬送波として送信されるプログラムとして記載され得、プログラムを実行する汎用又は特殊用途のデジタルコンピュータにおいて、受信及び実装され得る。

図２－７は、それを参照して説明された方法の例示的なブロックを示し、いくつかの実装形態では、それぞれの方法は、図示された以外の追加のブロック、より少ないブロック、異なるブロック、又は異なる配置のブロックを含み得る。さらに、又は代わりに、それぞれの方法の２つ以上のブロックを並行して実施することができる。

図８－１０に示す構成要素の数及び配置は、一例である。実際には、生体検出検証システム８００、データプリプロセッサ９００、環境１０００、ユーザデバイス１１００、及びプラットフォーム１２００は、図に示す以外の追加のコンポーネント、より少ないコンポーネント、異なるコンポーネント、又は異なる配置のコンポーネントを含み得る。さらに、又は代わりに、様々なデバイスのコンポーネントのセット（例えば、１つ又は複数のコンポーネント）は、別のコンポーネントのセットによって実行されると説明される１つ又は複数の機能を実行することができる。

前述の開示は、例示及び説明を提供するが、限定的であること、又は開示された正確な形式に実装を限定すること、を意図するものではない。修正及び変形は、上記の開示に照らして可能であり、又は実装の実施から取得することができる。

本明細書で使用される場合、「コンポーネント」という用語は、ハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせとして広く解釈することを意図している。

上記の実施形態はフレーズに関するものであるが、１つ又は複数の他の実施形態は、例えば、単語を話すユーザの動画を取得し、ユーザにより話された単語が、所定の単語に対応するか否かを決定するなど、単語にも適用可能であることが理解される。

本明細書に記載のシステム及び／又は方法は、異なる形態のハードウェア、ファームウェア、又はハードウェアとソフトウェアの組み合わせで実装され得ることが明らかである。これらのシステム及び／又は方法を実装するために使用される実際の特殊な制御ハードウェア又はソフトウェアコードは、実装を制限するものではない。したがって、特定のソフトウェアコードを参照せずに、本明細書では、システム及び／又は方法の動作及び行為を説明した。ソフトウェア及びハードウェアは、本明細書の説明に基づいてシステム及び／又は方法を実装するように設計され得ることが理解される。

特徴の特定の組み合わせがクレームに記載され、及び／又は明細書に開示されているとしても、これらの組み合わせは、可能な実施の開示を制限することを意図するものではない。実際、これらの特徴の多くは、特許請求の範囲に具体的に記載されていない、及び／又は明細書に開示されていない方法で組み合わせることができる。以下に列挙される各従属クレームは、１つのクレームのみに直接従属する場合があるが、可能な実装の開示には、クレームセット内の他のすべてのクレームと組み合わせた各従属クレームが含まれる。

１つ又は複数の例示的な実施形態を、図を参照して上で説明したが、以下のクレームにより少なくとも部分的に定義される精神及び範囲から逸脱することなく、形態及び詳細の様々な変更を行うことができることが、当業者により理解される。

Claims

少なくとも１つの処理装置により生体（ｌｉｖｅｎｅｓｓ）検出を検証する方法であって、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、前記動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するために、取得された前記動画データと取得された前記音声データを、第１の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第２の決定を取得するため、前記音声データに対応する第１の入力と前記所定のフレーズに対応する第２の入力を、第２の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、を備える、
生体検出検証方法。
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成するステップを更に備え、
前記動画を取得するステップは、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画を取得することを備え、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された１つの用語の組み合わせを備える、
請求項１に記載の生体検出検証方法。
前記動画を取得するステップは、
前記質問と前記ランダムに生成されたフレーズのうちの１つを、ユーザデバイスに送信するステップと、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの１つに応答して、前記フレーズを話している前記ユーザの動画を受信するステップを備える、
請求項１に記載の生体検出検証方法。
前記動画を処理するステップは、
前記動画から、音声ストリームと動画ストリームを取得するステップと、
第２の所定数の前記動画データのフレームの、第１の所定数のバッチを取得するステップであって、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含むステップと、
前記第２の所定数の前記音声データのフレームの、前記第１の所定数のバッチを取得するステップであって、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含むステップと、を備える、
請求項１に記載の生体検出検証方法。
前記取得された動画データと前記取得された音声データを、前記第１の決定モデルに入力するステップは、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力するステップと、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス（contrastive loss）値を取得するステップを備える、
請求項１に記載の生体検出検証方法。
前記第２の決定モデルへ入力するステップは、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力するステップと、
前記第２の決定として、ＣＴＣ（connectionist temporal classification）損失値を取得するステップ、を備え、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第２の入力は、前記所定のフレーズの文字列又は単語列である、
請求項５に記載の生体検出検証方法。
前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否かを判断するステップは、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記ＣＴＣ損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断するステップと、を備える、
請求項６に記載の生体検出検証方法。
命令を保存するメモリと、
前記命令を実行する少なくとも１つのプロセッサと、を備え、
前記命令は、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得すること、
前記ユーザの動画データと音声データを取得するため、前記動画を処理すること、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するために、取得された前記動画データと取得された前記音声データを、第１の決定モデルに入力すること、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第２の決定を取得するため、前記音声データに対応する第１の入力と前記所定のフレーズに対応する第２の入力を、第２の決定モデルに入力すること、
前記ユーザの生体検出を検証するため、前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザによって話されたことを示すか否か、を判断すること、である、
生体検出検証システム。
前記少なくとも１つのプロセッサは、更に、
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令を実行するように構成され、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された１つの用語の組み合わせを備える、
請求項８に記載の生体検出検証システム。
通信インターフェイスを更に備え、
前記少なくとも１つのプロセッサは、更に、
前記質問と前記ランダムに生成されたフレーズの１つを、ユーザデバイスに送信するように前記通信インターフェイスを制御し、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの１つに応答して、前記フレーズを話している前記ユーザの動画を受信する、
という命令を実行する、
請求項８に記載の生体検出検証システム。
前記少なくとも１つのプロセッサは、更に、
前記動画から、音声ストリームと動画ストリームを取得し、
第２の所定数の前記動画データのフレームの、第１の所定数のバッチを取得する、
という命令を実行し、
前記動画データのフレームは、前記動画ストリームから生成されたトリミングされた口の領域を含み、
前記第２の所定数の前記音声データのフレームの、前記第１の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含む、
請求項８に記載の生体検出検証システム。
前記少なくとも１つのプロセッサは、更に、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力する命令、及び、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する命令、
を実行する、
請求項８に記載の生体検出検証システム。
前記少なくとも１つのプロセッサは、更に、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力し、
前記第２の決定として、ＣＴＣ損失値を取得する、
という命令を実行し、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、
前記第２の入力は、前記所定のフレーズの文字列又は単語列である、
請求項１２に記載の生体検出検証システム。
前記少なくとも１つのプロセッサは、更に、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記ＣＴＣ損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断する、
という命令を実行する、
請求項１３に記載の生体検出検証システム。
１以上のプロセッサに、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するために、取得された前記動画データと取得された前記音声データを、第１の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第２の決定を取得するため、前記音声データに対応する第１の入力と前記所定のフレーズに対応する第２の入力を、第２の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第１の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第２の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、
を実行させるためのプログラム。
前記１以上のプロセッサにより実行される命令は、
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令であり、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された１つの用語の組み合わせを備える、
請求項１５に記載のプログラム。
前記１以上のプロセッサにより実行される命令は、
前記動画から、音声ストリームと動画ストリームを取得し、
第２の所定数の前記動画データのフレームの、第１の所定数のバッチを取得し、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含み、
前記第２の所定数の前記音声データのフレームの、前記第１の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含む、命令である、
請求項１５に記載のプログラム。
前記１以上のプロセッサにより実行される命令は、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力する、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する、命令である、
請求項１５に記載のプログラム。
前記１以上のプロセッサにより実行される命令は、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力し、
前記第２の決定として、ＣＴＣ損失値を取得する、という命令であり、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第２の入力は、前記所定のフレーズの文字列又は単語列である、
請求項１８に記載のプログラム。
前記１以上のプロセッサにより実行される命令は、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記ＣＴＣ損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、生体検出が検証されていないことを判断する、という命令である、
請求項１９に記載のプログラム。
フレーズを話すユーザの動画を取得するステップと、
前記ユーザの動画データ及び音声データを取得するために動画を処理するステップと、
前記動画データと前記音声データを処理して、口の動きが音声と同期している確率を決定するための第１の機械学習モデルと、前記音声データを処理して、所定のフレーズに基づいて音声認識を実行し、前記所定のフレーズが前記ユーザによって話された確率を決定するための第２の機械学習モデルを訓練するステップと、を備え、
前記第1の機械学習モデルは、前記動画データと前記音声データに基づいて訓練され、前記第２の機械学習モデルは、前記音声データに対応する第１の入力と、前記所定のフレーズに対応する第２の入力により訓練され、前記所定のフレーズは、ランダムに生成されたフレーズと所定の質問に対する回答のうちの１つに対応する、
生体検出検証システムの訓練方法。
前記訓練は、前記第１の機械学習モデルと前記第２の機械学習モデルを同時に訓練することを備える、
請求項２１に記載の生体検出検証システムの訓練方法。
前記音声データに対応する前記第１の入力は、前記第１の機械学習モデルの全結合層から抽出された特徴を備える、
請求項２１に記載の生体検出検証システムの訓練方法。
前記訓練は、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得するため、前記動画データと前記音声データを前記第１の機械学習モデルに入力するステップと、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第２の決定を取得するため、前記音声データに対応する前記第１の入力と前記所定のフレーズに対応する前記第２の入力を、前記第２の機械学習モデルに入力するステップと、を備える、
請求項２３に記載の生体検出検証システムの訓練方法。
取得された前記動画データと取得された前記音声データを、前記第１の機械学習モデルに入力するステップは、
前記取得された動画データを第１の機械学習ニューラルネットワークに入力し、前記取得された音声データを第２の機械学習ニューラルネットワークに入力し、
前記第１の決定として、前記第１の機械学習ニューラルネットワークの出力と前記第２の機械学習ニューラルネットワークの出力から特徴間の距離に対応するコントラスティブ・ロス値を取得する、
請求項２４に記載の生体検出検証システムの訓練方法。
前記第１の入力及び前記第２の入力を前記第２の機械学習モデルに入力するステップは、
第３の機械学習ニューラルネットワークに、前記第１の入力と前記第２の入力を入力し、
前記第２の決定として、ＣＴＣ損失値を取得し、
前記第１の入力は、前記第２の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第２の入力は、所定のフレーズの文字列又は単語列である、
請求項２５に記載の生体検出検証システムの訓練方法。
前記訓練は、
前記動画データと前記音声データを前記第１の機械学習モデルに入力して、前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第１の決定を取得し、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第２の決定を取得するため、前記音声データに対応する前記第１の入力と前記所定のフレーズに対応する前記第２の入力を、前記第２の機械学習モデルに入力し、
前記第１の決定と前記第２の決定を合算し、
前記合算された決定に基づいて、前記第１の機械学習モデルと前記第２の機械学習モデルを訓練する、
請求項２１に記載の生体検出検証システムの訓練方法。