JP7148737B2 - 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 - Google Patents
生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 Download PDFInfo
- Publication number
- JP7148737B2 JP7148737B2 JP2021546318A JP2021546318A JP7148737B2 JP 7148737 B2 JP7148737 B2 JP 7148737B2 JP 2021546318 A JP2021546318 A JP 2021546318A JP 2021546318 A JP2021546318 A JP 2021546318A JP 7148737 B2 JP7148737 B2 JP 7148737B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- user
- video
- machine learning
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 121
- 238000000034 method Methods 0.000 title claims description 81
- 238000012795 verification Methods 0.000 title claims description 61
- 238000012549 training Methods 0.000 title claims description 37
- 238000010801 machine learning Methods 0.000 claims description 148
- 238000013528 artificial neural network Methods 0.000 claims description 62
- 238000004891 communication Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 25
- 230000001360 synchronised effect Effects 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 15
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 21
- 238000013527 convolutional neural network Methods 0.000 description 19
- 238000007781 pre-processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000001815 facial effect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013186 photoplethysmography Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2103—Challenge-response
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Collating Specific Patterns (AREA)
Description
少なくとも1つの処理装置により生体検出を検証する方法であって、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、前記動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するために、取得された前記動画データと取得された前記音声データを、第1の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第2の決定を取得するため、前記音声データに対応する第1の入力と前記所定のフレーズに対応する第2の入力を、第2の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、を備える。
前記動画を取得するステップは、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画を取得することを備え、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された1つの用語の組み合わせを備えてもよい。
前記質問と前記ランダムに生成されたフレーズのうちの1つを、ユーザデバイスに送信するステップと、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの1つに応答して、前記フレーズを話している前記ユーザの動画を受信するステップを備えてもよい。
前記動画から、音声ストリームと動画ストリームを取得するステップと、
第2の所定数の前記動画データのフレームの、第1の所定数のバッチを取得するステップであって、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含むステップと、
前記第2の所定数の前記音声データのフレームの、前記第1の所定数のバッチを取得するステップであって、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含むステップと、を備えてもよい。
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力するステップと、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス(contrastive loss)値を取得するステップを備えてもよい。
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力するステップと、
前記第2の決定として、CTC(connectionist temporal classification)損失値を取得するステップ、を備え、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第2の入力は、前記所定のフレーズの文字列又は単語列であってもよい。
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記CTC損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断するステップと、を備えてもよい。
命令を保存するメモリと、
前記命令を実行する少なくとも1つのプロセッサと、を備え、
前記命令は、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得すること、
前記ユーザの動画データと音声データを取得するため、前記動画を処理すること、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するために、取得された前記動画データと取得された前記音声データを、第1の決定モデルに入力すること、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第2の決定を取得するため、前記音声データに対応する第1の入力と前記所定のフレーズに対応する第2の入力を、第2の決定モデルに入力すること、
前記ユーザの生体検出を検証するため、前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザによって話されたことを示すか否か、を判断すること、である。
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令を実行するように構成され、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された1つの用語の組み合わせを備えてもよい。
前記少なくとも1つのプロセッサは、更に、
前記質問と前記ランダムに生成されたフレーズの1つを、ユーザデバイスに送信するように前記通信インターフェイスを制御し、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの1つに応答して、前記フレーズを話している前記ユーザの動画を受信する、
という命令を実行してもよい。
前記動画から、音声ストリームと動画ストリームを取得し、
第2の所定数の前記動画データのフレームの、第1の所定数のバッチを取得する、
という命令を実行し、
前記動画データのフレームは、前記動画ストリームから生成されたトリミングされた口の領域を含み、
前記第2の所定数の前記音声データのフレームの、前記第1の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含んでもよい。
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力する命令、及び、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する命令、
を実行してもよい。
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力し、
前記第2の決定として、CTC損失値を取得する、
という命令を実行し、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、
前記第2の入力は、前記所定のフレーズの文字列又は単語列であってもよい。
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記CTC損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断する、
という命令を実行してもよい。
1以上のプロセッサにより実行される命令を保存した非一時的な記録媒体であって、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するために、取得された前記動画データと取得された前記音声データを、第1の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第2の決定を取得するため、前記音声データに対応する第1の入力と前記所定のフレーズに対応する第2の入力を、第2の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、
を実行させる。
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令であり、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された1つの用語の組み合わせを備えてもよい。
前記動画から、音声ストリームと動画ストリームを取得し、
第2の所定数の前記動画データのフレームの、第1の所定数のバッチを取得し、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含み、
前記第2の所定数の前記音声データのフレームの、前記第1の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含む、命令であってもよい。
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力する、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する、命令であってもよい。
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力し、
前記第2の決定として、CTC損失値を取得する、という命令であり、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第2の入力は、前記所定のフレーズの文字列又は単語列であってもよい。
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記CTC損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、生体検出が検証されていないことを判断する、という命令であってもよい。
フレーズを話すユーザの動画を取得するステップと、
前記ユーザの動画データ及び音声データを取得するために動画を処理するステップと、
音声と視覚の類似性を検出するための第1の機械学習モデルと、音声認識のための第2の機械学習モデルを訓練するステップと、を備え、
前記第1の機械学習モデルは、前記動画データと前記音声データに基づいて訓練され、前記第2の機械学習モデルは、前記音声データに対応する所定のフレーズと第1の入力により訓練され、前記所定のフレーズは、ランダムに生成されたフレーズと所定の質問に対する回答のうちの1つに対応する。
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するため、前記動画データと前記音声データを前記第1の機械学習モデルに入力するステップと、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第2の決定を取得するため、前記音声データに対応する前記第1の入力と前記所定のフレーズに対応する第2の入力を、前記第2の機械学習モデルに入力するステップと、を備えてもよい。
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力し、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から特徴間の距離に対応するコントラスティブ・ロス値を取得してもよい。
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力し、
前記第2の決定として、CTC損失値を取得し、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第2の入力は、所定のフレーズの文字列又は単語列であってもよい。
前記動画データと前記音声データを前記第1の機械学習モデルに入力して、前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得し、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第2の決定を取得するため、前記音声データに対応する前記第1の入力と前記所定のフレーズに対応する前記第2の入力を、前記第2の機械学習モデルに入力し、
前記第1の決定と前記第2の決定を合算し、
前記合算された決定に基づいて、前記第1の機械学習モデルと前記第2の機械学習モデルを訓練してもよい。
ここで、L1はコントラスティブ・ロスに対応し、Xvidは、ネットワーク1(動画ネットワーク)に対応し、動画フレームデータと(nxWxH)は入力データの形状であり、Xaudは、ネットワーク2(音声ネットワーク)に対応し、音声フレームデータと(nxWxH)は入力データの形状である。(Xvid,Xaud)iは、i番目の入力ペアに対応し、Yiは、ラベル(1-本物のペア、つまりフレーム(Xvid,Xaud)が同じIDからのものであり、0-偽のペア、つまりフレーム(Xvid,Xaud)が異なるIDからのものである場合)に対応する。Nは、訓練サンプルの数であり、DCは、入力Xvid,Xaudを持つ両方のネットワークのFC層の出力間のユークリッド距離である。λは、正則化パラメーターであり、Mは、事前定義されたマージンであり、nは、フレーム数に対応し、Wは、フレームの幅に対応し、Hは、フレームの高さに対応する。
Claims (27)
- 少なくとも1つの処理装置により生体(liveness)検出を検証する方法であって、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、前記動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するために、取得された前記動画データと取得された前記音声データを、第1の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第2の決定を取得するため、前記音声データに対応する第1の入力と前記所定のフレーズに対応する第2の入力を、第2の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、を備える、
生体検出検証方法。 - 予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成するステップを更に備え、
前記動画を取得するステップは、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画を取得することを備え、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された1つの用語の組み合わせを備える、
請求項1に記載の生体検出検証方法。 - 前記動画を取得するステップは、
前記質問と前記ランダムに生成されたフレーズのうちの1つを、ユーザデバイスに送信するステップと、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの1つに応答して、前記フレーズを話している前記ユーザの動画を受信するステップを備える、
請求項1に記載の生体検出検証方法。 - 前記動画を処理するステップは、
前記動画から、音声ストリームと動画ストリームを取得するステップと、
第2の所定数の前記動画データのフレームの、第1の所定数のバッチを取得するステップであって、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含むステップと、
前記第2の所定数の前記音声データのフレームの、前記第1の所定数のバッチを取得するステップであって、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含むステップと、を備える、
請求項1に記載の生体検出検証方法。 - 前記取得された動画データと前記取得された音声データを、前記第1の決定モデルに入力するステップは、
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力するステップと、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス(contrastive loss)値を取得するステップを備える、
請求項1に記載の生体検出検証方法。 - 前記第2の決定モデルへ入力するステップは、
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力するステップと、
前記第2の決定として、CTC(connectionist temporal classification)損失値を取得するステップ、を備え、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第2の入力は、前記所定のフレーズの文字列又は単語列である、
請求項5に記載の生体検出検証方法。 - 前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否かを判断するステップは、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記CTC損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、前記ユーザが前記所定のフレーズを正しく話していないと判断するステップと、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断するステップと、を備える、
請求項6に記載の生体検出検証方法。 - 命令を保存するメモリと、
前記命令を実行する少なくとも1つのプロセッサと、を備え、
前記命令は、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得すること、
前記ユーザの動画データと音声データを取得するため、前記動画を処理すること、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するために、取得された前記動画データと取得された前記音声データを、第1の決定モデルに入力すること、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第2の決定を取得するため、前記音声データに対応する第1の入力と前記所定のフレーズに対応する第2の入力を、第2の決定モデルに入力すること、
前記ユーザの生体検出を検証するため、前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザによって話されたことを示すか否か、を判断すること、である、
生体検出検証システム。 - 前記少なくとも1つのプロセッサは、更に、
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令を実行するように構成され、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された1つの用語の組み合わせを備える、
請求項8に記載の生体検出検証システム。 - 通信インターフェイスを更に備え、
前記少なくとも1つのプロセッサは、更に、
前記質問と前記ランダムに生成されたフレーズの1つを、ユーザデバイスに送信するように前記通信インターフェイスを制御し、
前記ユーザデバイスを介して前記ユーザに提示されている、前記質問と前記ランダムに生成されたフレーズの1つに応答して、前記フレーズを話している前記ユーザの動画を受信する、
という命令を実行する、
請求項8に記載の生体検出検証システム。 - 前記少なくとも1つのプロセッサは、更に、
前記動画から、音声ストリームと動画ストリームを取得し、
第2の所定数の前記動画データのフレームの、第1の所定数のバッチを取得する、
という命令を実行し、
前記動画データのフレームは、前記動画ストリームから生成されたトリミングされた口の領域を含み、
前記第2の所定数の前記音声データのフレームの、前記第1の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含む、
請求項8に記載の生体検出検証システム。 - 前記少なくとも1つのプロセッサは、更に、
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力する命令、及び、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する命令、
を実行する、
請求項8に記載の生体検出検証システム。 - 前記少なくとも1つのプロセッサは、更に、
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力し、
前記第2の決定として、CTC損失値を取得する、
という命令を実行し、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、
前記第2の入力は、前記所定のフレーズの文字列又は単語列である、
請求項12に記載の生体検出検証システム。 - 前記少なくとも1つのプロセッサは、更に、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記CTC損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、前記ユーザが前記所定のフレーズを正しく話したと判断する、
という命令を実行する、
請求項13に記載の生体検出検証システム。 - 1以上のプロセッサに、
ユーザに提示された質問又はランダムに生成されたフレーズに応答して、前記フレーズを話す前記ユーザの動画を取得するステップと、
前記ユーザの動画データと音声データを取得するため、動画を処理するステップと、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するために、取得された前記動画データと取得された前記音声データを、第1の決定モデルに入力するステップと、
前記ユーザによって話された前記フレーズが所定のフレーズに対応するかどうかを示す第2の決定を取得するため、前記音声データに対応する第1の入力と前記所定のフレーズに対応する第2の入力を、第2の決定モデルに入力するステップと、
前記ユーザの生体検出を検証するため、前記第1の決定が、前記口の動きと前記音声データとが同期することを示すか否か、及び前記第2の決定が、前記所定のフレーズが前記ユーザにより話されたことを示すか否か、を判断するステップと、
を実行させるためのプログラム。 - 前記1以上のプロセッサにより実行される命令は、
予め保存された語彙セットから、前記ユーザに提示するために、前記ランダムに生成されたフレーズを、ランダムに生成する命令であり、
前記取得された動画は、提示されている前記ランダムに生成されたフレーズに応答して、前記フレーズを話している前記ユーザの動画であり、
前記所定のフレーズは、前記ランダムに生成されたフレーズであり、
前記予め保存された語彙セットは、所定数のカテゴリのそれぞれについて所定の用語を含み、
前記ランダムに生成されたフレーズは、前記所定数のカテゴリのそれぞれからランダムに選択された1つの用語の組み合わせを備える、
請求項15に記載のプログラム。 - 前記1以上のプロセッサにより実行される命令は、
前記動画から、音声ストリームと動画ストリームを取得し、
第2の所定数の前記動画データのフレームの、第1の所定数のバッチを取得し、前記動画データのフレームは、前記動画ストリームから生成されトリミングされた口の領域を含み、
前記第2の所定数の前記音声データのフレームの、前記第1の所定数のバッチを取得し、前記音声データのフレームは、前記音声ストリームから生成されたメル尺度のスペクトログラムを含む、命令である、
請求項15に記載のプログラム。 - 前記1以上のプロセッサにより実行される命令は、
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力する、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から、特徴間の距離に対応するコントラスティブ・ロス値を取得する、命令である、
請求項15に記載のプログラム。 - 前記1以上のプロセッサにより実行される命令は、
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力し、
前記第2の決定として、CTC損失値を取得する、という命令であり、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第2の入力は、前記所定のフレーズの文字列又は単語列である、
請求項18に記載のプログラム。 - 前記1以上のプロセッサにより実行される命令は、
前記コントラスティブ・ロス値が所定の閾値未満であることに基づいて、生体検出が検証されていないことを判断する、
前記CTC損失値から得られた予測ラベルに対応しない前記所定のフレーズに基づいて、生体検出が検証されていないことを判断する、
前記コントラスティブ・ロス値が前記所定の閾値よりも大きいこと、及び前記所定のフレーズに対応する前記予測ラベルと、の双方に基づいて、生体検出が検証されていないことを判断する、という命令である、
請求項19に記載のプログラム。 - フレーズを話すユーザの動画を取得するステップと、
前記ユーザの動画データ及び音声データを取得するために動画を処理するステップと、
前記動画データと前記音声データを処理して、口の動きが音声と同期している確率を決定するための第1の機械学習モデルと、前記音声データを処理して、所定のフレーズに基づいて音声認識を実行し、前記所定のフレーズが前記ユーザによって話された確率を決定するための第2の機械学習モデルを訓練するステップと、を備え、
前記第1の機械学習モデルは、前記動画データと前記音声データに基づいて訓練され、前記第2の機械学習モデルは、前記音声データに対応する第1の入力と、前記所定のフレーズに対応する第2の入力により訓練され、前記所定のフレーズは、ランダムに生成されたフレーズと所定の質問に対する回答のうちの1つに対応する、
生体検出検証システムの訓練方法。 - 前記訓練は、前記第1の機械学習モデルと前記第2の機械学習モデルを同時に訓練することを備える、
請求項21に記載の生体検出検証システムの訓練方法。 - 前記音声データに対応する前記第1の入力は、前記第1の機械学習モデルの全結合層から抽出された特徴を備える、
請求項21に記載の生体検出検証システムの訓練方法。 - 前記訓練は、
前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得するため、前記動画データと前記音声データを前記第1の機械学習モデルに入力するステップと、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第2の決定を取得するため、前記音声データに対応する前記第1の入力と前記所定のフレーズに対応する前記第2の入力を、前記第2の機械学習モデルに入力するステップと、を備える、
請求項23に記載の生体検出検証システムの訓練方法。 - 取得された前記動画データと取得された前記音声データを、前記第1の機械学習モデルに入力するステップは、
前記取得された動画データを第1の機械学習ニューラルネットワークに入力し、前記取得された音声データを第2の機械学習ニューラルネットワークに入力し、
前記第1の決定として、前記第1の機械学習ニューラルネットワークの出力と前記第2の機械学習ニューラルネットワークの出力から特徴間の距離に対応するコントラスティブ・ロス値を取得する、
請求項24に記載の生体検出検証システムの訓練方法。 - 前記第1の入力及び前記第2の入力を前記第2の機械学習モデルに入力するステップは、
第3の機械学習ニューラルネットワークに、前記第1の入力と前記第2の入力を入力し、
前記第2の決定として、CTC損失値を取得し、
前記第1の入力は、前記第2の機械学習ニューラルネットワークの出力から抽出された特徴であり、前記第2の入力は、所定のフレーズの文字列又は単語列である、
請求項25に記載の生体検出検証システムの訓練方法。 - 前記訓練は、
前記動画データと前記音声データを前記第1の機械学習モデルに入力して、前記ユーザの口の動きが前記音声データと同期しているかどうかを示す第1の決定を取得し、
前記ユーザによって話されたフレーズが前記所定のフレーズであるかどうかを示す第2の決定を取得するため、前記音声データに対応する前記第1の入力と前記所定のフレーズに対応する前記第2の入力を、前記第2の機械学習モデルに入力し、
前記第1の決定と前記第2の決定を合算し、
前記合算された決定に基づいて、前記第1の機械学習モデルと前記第2の機械学習モデルを訓練する、
請求項21に記載の生体検出検証システムの訓練方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022151833A JP7412496B2 (ja) | 2020-03-24 | 2022-09-22 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2020/052781 WO2021191659A1 (en) | 2020-03-24 | 2020-03-24 | Liveness detection using audio-visual inconsistencies |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022151833A Division JP7412496B2 (ja) | 2020-03-24 | 2022-09-22 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022523921A JP2022523921A (ja) | 2022-04-27 |
JP7148737B2 true JP7148737B2 (ja) | 2022-10-05 |
Family
ID=77889937
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021546318A Active JP7148737B2 (ja) | 2020-03-24 | 2020-03-24 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
JP2022151833A Active JP7412496B2 (ja) | 2020-03-24 | 2022-09-22 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022151833A Active JP7412496B2 (ja) | 2020-03-24 | 2022-09-22 | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP3912063A1 (ja) |
JP (2) | JP7148737B2 (ja) |
CN (1) | CN114616565A (ja) |
WO (1) | WO2021191659A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968652B (zh) * | 2020-07-14 | 2022-08-26 | 重庆邮电大学 | 一种基于3dcnn-lstm的说话人识别方法及存储介质 |
CN114399005B (zh) * | 2022-03-10 | 2022-07-12 | 深圳市声扬科技有限公司 | 一种活体检测模型的训练方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130227678A1 (en) | 2012-02-24 | 2013-08-29 | Samsung Electronics Co., Ltd. | Method and system for authenticating user of a mobile device via hybrid biometics information |
JP2016517548A (ja) | 2013-03-14 | 2016-06-16 | インテル コーポレイション | 音声及び顔認識に基づくサービス提供 |
US20170308739A1 (en) | 2015-06-11 | 2017-10-26 | Tencent Technology (Shenzhen) Company Limited | Human face recognition method and recognition system |
US20190102531A1 (en) | 2016-05-19 | 2019-04-04 | Alibaba Group Holding Limited | Identity authentication method and apparatus |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050074443A (ko) | 2002-09-27 | 2005-07-18 | 가부시키가이샤 깅가네트 | 원격 교육 시스템, 수강 확인 방법 및 수강 확인 프로그램 |
EP2065823A1 (en) | 2007-11-26 | 2009-06-03 | BIOMETRY.com AG | System and method for performing secure online transactions |
JP2011215942A (ja) | 2010-03-31 | 2011-10-27 | Nec Personal Products Co Ltd | ユーザ認証装置、ユーザ認証システム、ユーザ認証方法及びプログラム |
EP3156978A1 (en) * | 2015-10-14 | 2017-04-19 | Samsung Electronics Polska Sp. z o.o. | A system and a method for secure speaker verification |
CN109218269A (zh) * | 2017-07-05 | 2019-01-15 | 阿里巴巴集团控股有限公司 | 身份认证的方法、装置、设备及数据处理方法 |
GB201814121D0 (en) * | 2018-08-30 | 2018-10-17 | Liopa Ltd | Liopa |
JP7393739B2 (ja) | 2020-03-13 | 2023-12-07 | マツダ株式会社 | ドライバ状態推定装置 |
-
2020
- 2020-03-24 JP JP2021546318A patent/JP7148737B2/ja active Active
- 2020-03-24 WO PCT/IB2020/052781 patent/WO2021191659A1/en unknown
- 2020-03-24 EP EP20894919.8A patent/EP3912063A1/en active Pending
- 2020-03-24 CN CN202080014574.8A patent/CN114616565A/zh active Pending
-
2022
- 2022-09-22 JP JP2022151833A patent/JP7412496B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130227678A1 (en) | 2012-02-24 | 2013-08-29 | Samsung Electronics Co., Ltd. | Method and system for authenticating user of a mobile device via hybrid biometics information |
JP2016517548A (ja) | 2013-03-14 | 2016-06-16 | インテル コーポレイション | 音声及び顔認識に基づくサービス提供 |
US20170308739A1 (en) | 2015-06-11 | 2017-10-26 | Tencent Technology (Shenzhen) Company Limited | Human face recognition method and recognition system |
US20190102531A1 (en) | 2016-05-19 | 2019-04-04 | Alibaba Group Holding Limited | Identity authentication method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
JP2022177229A (ja) | 2022-11-30 |
WO2021191659A1 (en) | 2021-09-30 |
EP3912063A4 (en) | 2021-11-24 |
CN114616565A (zh) | 2022-06-10 |
JP2022523921A (ja) | 2022-04-27 |
JP7412496B2 (ja) | 2024-01-12 |
EP3912063A1 (en) | 2021-11-24 |
US20220318349A1 (en) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663307B2 (en) | RtCaptcha: a real-time captcha based liveness detection system | |
CN109726624B (zh) | 身份认证方法、终端设备和计算机可读存储介质 | |
TWI706268B (zh) | 身份認證方法和裝置 | |
US10275672B2 (en) | Method and apparatus for authenticating liveness face, and computer program product thereof | |
US20210327431A1 (en) | 'liveness' detection system | |
JP7412496B2 (ja) | 生体(liveness)検出検証方法、生体検出検証システム、記録媒体、及び生体検出検証システムの訓練方法 | |
US20210158036A1 (en) | Databases, data structures, and data processing systems for counterfeit physical document detection | |
JP2011203992A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20230306792A1 (en) | Spoof Detection Based on Challenge Response Analysis | |
US20210398135A1 (en) | Data processing and transaction decisioning system | |
JP2008004050A (ja) | 個人情報認証システム、個人情報認証方法、プログラム、及び記録媒体 | |
CN114677634A (zh) | 面签识别方法、装置、电子设备及存储介质 | |
Aides et al. | Text-Dependent Audiovisual Synchrony Detection for Spoofing Detection in Mobile Person Recognition. | |
CN116883900A (zh) | 一种基于多维生物特征的视频真伪鉴别方法和系统 | |
KR20230013236A (ko) | 음성인식을 사용한 부정행위를 방지하는 안면윤곽선 인식 인공지능을 사용한 온라인 시험 시스템 및 그 방법 | |
US12039024B2 (en) | Liveness detection using audio-visual inconsistencies | |
KR102338684B1 (ko) | 비자발적 감정의 예측을 위한 데이터 처리 방법 | |
RU2798179C1 (ru) | Способ, терминал и система для биометрической идентификации | |
KR102579610B1 (ko) | Atm 이상행동감지 장치 및 그 장치의 구동방법 | |
Dixit et al. | SIFRS: Spoof Invariant Facial Recognition System (A Helping Hand for Visual Impaired People) | |
Aides et al. | Robust audiovisual liveness detection for biometric authentication using deep joint embedding and dynamic time warping | |
Stewart et al. | LIVENESS'DETECTION SYSTEM | |
KR20220080950A (ko) | 사용자 위치추적 및 얼굴인식을 이용한 스마트 스피커 보안 강화 방법 | |
CN117611170A (zh) | 一种基于多重信息的用户认证方法和装置 | |
CN116503962A (zh) | 一种活体识别方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210806 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220922 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7148737 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |