JP6934564B2 - 偽装防止の検出方法および装置、電子機器、記憶媒体 - Google Patents

偽装防止の検出方法および装置、電子機器、記憶媒体 Download PDF

Info

Publication number
JP6934564B2
JP6934564B2 JP2020517577A JP2020517577A JP6934564B2 JP 6934564 B2 JP6934564 B2 JP 6934564B2 JP 2020517577 A JP2020517577 A JP 2020517577A JP 2020517577 A JP2020517577 A JP 2020517577A JP 6934564 B2 JP6934564 B2 JP 6934564B2
Authority
JP
Japan
Prior art keywords
image
result
lip
subsequence
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020517577A
Other languages
English (en)
Other versions
JP2020535538A (ja
Inventor
▲呉▼立威
▲張▼瑞
▲閻▼俊▲傑▼
彭▲義▼▲剛▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Publication of JP2020535538A publication Critical patent/JP2020535538A/ja
Application granted granted Critical
Publication of JP6934564B2 publication Critical patent/JP6934564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Description

本開示は2018年9月7日に中国特許局に提出された、出願番号がCN201811044838.5であり、出願名称が「偽装防止の検出方法および装置、電子機器、記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが引用によって本開示に組み込まれる。
本開示はコンピュータビジョンの技術分野に関し、特に偽装防止の検出方法および装置、電子機器、ならびに記憶媒体に関する。
顔認識技術は効果的な本人認証と識別技術として、便利で使用しやすく、ユーザにやさしく、非接触であるなどの特徴を有するため、現在、知能映像、セキュリティ監視、モバイルデバイスロック解除、入退室システムロック解除、顔認証決済などに幅広く応用されている。深層学習技術の急速な発展に伴い、顔認識の正確度は指紋認識の正確度よりも高くなっている。しかし、指紋などの他の生体特徴情報に比べ、顔データはより入手しやすく、顔認識システムも不正なユーザからの攻撃を受けやすく、どのように顔認識の安全性を向上させるかは当分野において広く注目されている課題である。
本開示の実施例は偽装防止検出の技術的解決手段を提供する。
本開示の実施例の一態様によれば、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含むことと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと、を含む偽装防止の検出方法が提供される。
いくつかの可能な実施形態では、画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することを含む。
いくつかの可能な実施形態では、前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、前記画像シーケンスに対応するオーディオの分割結果に基づき、画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含む。
いくつかの可能な実施形態では、前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含む。
いくつかの可能な実施形態ではさらに、前記画像シーケンスの対応するオーディオを取得することと、前記オーディオを分割し、少なくとも一つのオーディオクリップを得ることであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応することと、を含む。
いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含む。
いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得する前記ステップは、前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと、を含む。
いくつかの可能な実施形態ではさらに、前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得ることと、前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定することと、を含み、前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得する前記ステップは、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得することを含む。
いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得る前記ステップは、前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力することを含む。
いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含む。
いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得する前記ステップは、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定することを含む。
いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定する前記ステップは、前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得ることを含み、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含む。
いくつかの可能な実施形態ではさらに、前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択することを含む。
いくつかの可能な実施形態では、前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択する前記ステップは、前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択することと、前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定することと、を含む。
いくつかの可能な実施形態では、前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含む。
いくつかの可能な実施形態では、前記少なくとも一つの第二画像は前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含む。
いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応する。
いくつかの可能な実施形態では、前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含む。
いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する前記ステップは、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることと、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することと、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することと、を含む。
いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含む。
いくつかの可能な実施形態では、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと、を含み、ここで、前記融合認識結果は前記連結結果を含む。
いくつかの可能な実施形態では、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する前記ステップは、前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと、を含む。
いくつかの可能な実施形態ではさらに、前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、前記音声認識結果と前記指定内容とが一致するかどうかを確定することと、を含み、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する前記ステップは、前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含む。
いくつかの可能な実施形態では、前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む。
いくつかの可能な実施形態では、前記方法はさらに、前記指定内容をランダムに生成することを含む。
いくつかの可能な実施形態では、前記方法はさらに、前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含む。
いくつかの可能な実施形態では、前記方法はさらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含み、画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含む。
いくつかの可能な実施形態では、前記方法はさらに、前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行することを含む。
本開示の実施例の別の一態様によれば、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと、を含む偽装防止の検出装置が提供される。
本開示の実施例のさらに別の一態様によれば、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶された、実行される時に上記いずれかの実施例に記載の偽装防止の検出方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含む電子機器が提供される。
本開示の実施例のさらに別の一態様によれば、コンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、上記いずれかの実施例に記載の偽装防止の検出方法を実現するコンピュータ読み取り可能記憶媒体が提供される。
本開示の上記実施例が提供する偽装防止検出の解決手段に基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、該少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得て、そして少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する。本開示の実施例は画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇結果を解析することで偽装防止検出を行い、偽装防止検出の正確度および信頼性を向上させる。
以下、図面および実施例を通じて本開示の技術的解決手段をさらに詳しく説明する。
例えば、本願は以下の項目を提供する。
(項目1)
画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含むことと、
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと、を含むことを特徴とする偽装防止の検出方法。
(項目2)
画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、
前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することを含むことを特徴とする項目1に記載の方法。
(項目3)
前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、
前記画像シーケンスに対応するオーディオの分割結果に基づき、画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得する前記ステップは、
前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含むことを特徴とする項目2に記載の方法。
(項目4)
前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含むことを特徴とする項目3に記載の方法。
(項目5)
さらに、
前記画像シーケンスの対応するオーディオを取得することと、
前記オーディオを分割し、少なくとも一つのオーディオクリップを得ることであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応することと、を含むことを特徴とする項目2から4のいずれか一項に記載の方法。
(項目6)
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含むことを特徴とする項目1から5のいずれか一項に記載の方法。
(項目7)
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得する前記ステップは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと、を含むことを特徴とする項目6に記載の方法。
(項目8)
さらに、
前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得ることと、
前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定することと、を含み、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得する前記ステップは、
前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得することを含むことを特徴とする項目6または7に記載の方法。
(項目9)
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得る前記ステップは、
前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力することを含むことを特徴とする項目6から8のいずれか一項に記載の方法。
(項目10)
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、
前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含むことを特徴とする項目1から9のいずれか一項に記載の方法。
(項目11)
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得する前記ステップは、
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定することを含むことを特徴とする項目10に記載の方法。
(項目12)
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定する前記ステップは、
前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得ることを含み、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含むことを特徴とする項目11に記載の方法。
(項目13)
さらに、
前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択することを含むことを特徴とする項目6から12のいずれか一項に記載の方法。
(項目14)
前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択する前記ステップは、
前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択することと、
前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定することと、を含むことを特徴とする項目13に記載の方法。
(項目15)
前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含むことを特徴とする項目14に記載の方法。
(項目16)
前記少なくとも一つの第二画像は、前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含むことを特徴とする項目14または15に記載の方法。
(項目17)
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応することを特徴とする項目1から16のいずれか一項に記載の方法。
(項目18)
前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含むことを特徴とする項目17に記載の方法。
(項目19)
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する前記ステップは、
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることと、
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することと、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することと、を含むことを特徴とする項目1から18のいずれか一項に記載の方法。
(項目20)
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含むことを特徴とする項目19に記載の方法。
(項目21)
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと、を含み、ここで、前記融合認識結果は前記連結結果を含むことを特徴とする項目20に記載の方法。
(項目22)
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する前記ステップは、
前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと、を含むことを特徴とする項目19から21のいずれか一項に記載の方法。
(項目23)
さらに、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定することと、を含み、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する前記ステップは、
前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含むことを特徴とする項目19から22のいずれか一項に記載の方法。
(項目24)
前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含むことを特徴とする項目1から23のいずれか一項に記載の方法。
(項目25)
さらに、
前記指定内容をランダムに生成することを含むことを特徴とする項目1から24のいずれか一項に記載の方法。
(項目26)
さらに、
前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含むことを特徴とする項目1から25のいずれか一項に記載の方法。
(項目27)
さらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含み、
画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含むことを特徴とする項目1から25のいずれか一項に記載の方法。
(項目28)
さらに、
前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行することを含むことを特徴とする項目26または27に記載の方法。
(項目29)
画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと、を含むことを特徴とする偽装防止の検出装置。
(項目30)
前記第一取得モジュールは、前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得するために用いられることを特徴とする項目29に記載の装置。
(項目31)
前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、
前記第一取得モジュールは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得するために用いられることを特徴とする項目30に記載の装置。
(項目32)
前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含むことを特徴とする項目31に記載の装置。
(項目33)
さらに、
前記画像シーケンスの対応するオーディオを取得するための第二取得モジュールと、
前記オーディオを分割し、少なくとも一つのオーディオクリップを得るためのオーディオ分割モジュールであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応するオーディオ分割モジュールと、を含むことを特徴とする項目30から32のいずれか一項に記載の装置。
(項目34)
前記読唇モジュールは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得するための第一取得サブモジュール、および
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得るための第一読唇サブモジュールに用いられることを特徴とする項目29から33のいずれか一項に記載の装置。
(項目35)
前記第一取得サブモジュールは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得て、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得するために用いられることを特徴とする項目34に記載の装置。
(項目36)
さらに、
前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得るための位置合わせモジュールと、
前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定するための位置確定モジュールと、を含み、
前記第一取得サブモジュールは、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得するために用いられることを特徴とする項目34または35に記載の装置。
(項目37)
前記第一読唇サブモジュールは、
前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力するために用いられることを特徴とする項目34から36のいずれか一項に記載の装置。
(項目38)
前記読唇モジュールは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得するための形状取得サブモジュールと、
前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得るための第二読唇サブモジュールと、を含むことを特徴とする項目29から37のいずれか一項に記載の装置。
(項目39)
前記形状取得サブモジュールは、
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定するために用いられることを特徴とする項目38に記載の装置。
(項目40)
前記形状取得サブモジュールは、
前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得るために用いられ、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含むことを特徴とする項目39に記載の装置。
(項目41)
さらに、
前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択するための画像選択モジュールを含むことを特徴とする項目34から40のいずれか一項に記載の装置。
(項目42)
前記画像選択モジュールは、
前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択するための選択サブモジュールと、
前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定するための第一確定サブモジュールと、を含むことを特徴とする項目41に記載の装置。
(項目43)
前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含むことを特徴とする項目42に記載の装置。
(項目44)
前記少なくとも一つの第二画像は、前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含むことを特徴とする項目42または43に記載の装置。
(項目45)
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応することを特徴とする項目29から44のいずれか一項に記載の装置。
(項目46)
前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含むことを特徴とする項目45に記載の装置。
(項目47)
前記第一確定モジュールは、
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るための融合サブモジュールと、
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定するための第二確定サブモジュールと、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定するための第三確定サブモジュールと、を含むことを特徴とする項目29から46のいずれか一項に記載の装置。
(項目48)
前記融合サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るために用いられることを特徴とする項目47に記載の装置。
(項目49)
前記融合サブモジュールは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得て、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得るために用いられ、ここで、前記融合認識結果は前記連結結果を含むことを特徴とする項目48に記載の装置。
(項目50)
前記第二確定サブモジュールは、前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得て、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定するために用いられることを特徴とする項目47から49のいずれか一項に記載の装置。
(項目51)
さらに、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得るための音声認識モジュールと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定するための第四確定モジュールと、を含み、
前記第三確定サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定するために用いられることを特徴とする項目47から50のいずれか一項に記載の装置。
(項目52)
前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含むことを特徴とする項目29から51のいずれか一項に記載の装置。
(項目53)
さらに、
前記指定内容をランダムに生成するための生成モジュールを含むことを特徴とする項目29から52のいずれか一項に記載の装置。
(項目54)
さらに、
前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第一本人確認モジュールを含むことを特徴とする項目29から53のいずれか一項に記載の装置。
(項目55)
さらに、
予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第二本人確認モジュールを含み、
前記第一取得モジュールは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するために用いられることを特徴とする項目29から53のいずれか一項に記載の装置。
(項目56)
さらに、
前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行するための制御モジュールを含むことを特徴とする項目54または55に記載の装置。
(項目57)
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶された、実行される時に上記項目1から28のいずれか一項に記載の方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含むことを特徴とする電子機器。
(項目58)
コンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、上記項目1から28のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能記憶媒体。
本開示の実施例の偽装防止の検出方法の概略的フローチャートである。 本開示の実施例の偽装防止の検出方法の別の概略的フローチャートである。 本開示の実施例における一つの混同行列およびその応用例の模式図である。 本開示の実施例の偽装防止の検出方法の別の概略的フローチャートである。 本開示の実施例の偽装防止の検出装置のブロック図である。 本開示の電子機器の応用例の構成模式図である。
明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。
ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本開示の実施例は端末機器、コンピュータシステム、サーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末機器、コンピュータシステム、サーバなどの電子機器との併用に適する公知の計算システム、環境及び/または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末機器、コンピュータシステム、サーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能命令(例えば、プログラムモジュール)の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。
図1は本開示の実施例の偽装防止の検出方法の概略的フローチャートである。
102で、画像シーケンスから少なくとも一つの画像サブシーケンスを取得する。
ここで、前記画像シーケンスは指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、各画像サブシーケンスは画像シーケンス内の少なくとも一つの画像を含む。
画像シーケンスは指定内容を読むようにユーザに促した後に撮影したビデオに由来してもよい。本開示の実施例では、様々な方式で画像シーケンスを取得可能であり、一例では、一つ以上のカメラによって画像シーケンスを収集してもよく、別の一例では、他の機器から画像シーケンスを取得してもよく、例えばサーバによって端末機器またはカメラにより送信される画像シーケンスを受信するなどのようにしてもよく、本開示の実施例は画像シーケンスを取得する方式を限定しない。
いくつかの任意選択的な例では、上記指定内容は偽装防止検出を目的としてユーザに朗読してもらう内容であり、指定内容は少なくとも一つの文字を含んでもよく、ここで、該文字は英文字、漢字、数字または単語であってもよい。例えば、指定内容は0〜9のいずれか一つまたは複数の数字、あるいはA〜Zのいずれか一つまたは複数の英文字、あるいは予め設定された複数の漢字のいずれか一つまたは複数、あるいは予め設定された複数の単語のいずれか一つまたは複数を含んでもよいし、あるいは数字、英文字、単語および漢字の少なくとも二つの任意の組み合わせであってもよく、本開示の実施例はこれを限定しない。また、上記指定内容はリアルタイムに生成される指定内容、例えばランダムに生成されるものであってもよいし、または、予め設置された固定内容であってもよく、本開示の実施例はこれを限定しない。
任意選択的に、画像シーケンスを少なくとも一つの画像サブシーケンスに区分してもよく、例えば、画像シーケンスに含まれる複数の画像を時系列関係に基づいて少なくとも一つの画像サブシーケンスに区分し、各画像サブシーケンスに少なくとも一つの連続画像を含ませるようにしてもよく、本開示の実施例は画像サブシーケンスを区分する方式を限定しない。または、該少なくとも一つの画像サブシーケンスは画像シーケンスの一部のみとし、残りの部分は偽装防止検出用としないようにしてもよく、本開示の実施例はこれを限定しない。
任意選択的に、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスはユーザが読む/読み上げる一つの文字に対応し、それに対して、少なくとも一つの画像サブシーケンスの数はユーザが読む/読み上げる文字の数に等しくしてもよい。
任意選択的に、上記指定内容における文字は例えば、数字、英文字、英単語、漢字、符号などのいずれか一つまたは複数を含んでもよいが、これらに限定されない。そのうち、任意選択的に、指定内容における文字が英単語または漢字である場合、これらの英単語または漢字文字を含む辞書、辞書に含まれる英単語または漢字文字、および各英単語または漢字文字の対応する番号情報を予め定義することができる。
任意選択的に、いくつかの実施例では、102の前に、上記指定内容をランダムに生成するか、または他の所定の方式で上記指定内容を生成するようにしてもよい。このように、上記指定内容をリアルタイムに生成することで、ユーザが事前に指定内容を知って意図的に偽造してしまうことを回避し、偽装防止検出の信頼性をさらに向上させることができる。
任意選択的に、いくつかの実施例では、102の前に、指示情報を発信し、ユーザに指定内容を読むことを促すようにしてもよい。ここで、該指示は音声またはテキストまたは動画などまたはそれらの任意の組み合わせであってもよく、本開示の実施例はこれを限定しない。
104で、上記少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得る。
いくつかの実施例では、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスから読唇を行い、各画像サブシーケンスの読唇結果を得るようにしてもよい。
106で、上記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する。
つまり、読唇結果に基づき、ユーザが読んだ内容が指定内容に一致するかどうかを確定し、該確定した結果に基づいてユーザが指定内容を読むという行為が偽装行為であるかどうかを確定することができる。
顔は人それぞれに固有の生体特徴であり、従来のパスワードなどの認証方式に比べ、顔による本人認証は高い安全性を有する。しかし、静的な顔は偽装される可能性が依然として存在するため、静的顔による非音声生体検出には一定の安全リスクが依然として存在する。従って、顔の偽装防止検出にはより安全かつ効果的な偽装防止検出メカニズムが求められている。
本開示の上記実施例が提供する偽装防止の検出方法に基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、該少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得て、そして少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する。本開示の実施例は画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、少なくとも一つの画像サブシーケンスを解析することで読唇を行い、少なくとも一つの画像サブシーケンスの読唇結果に基づき偽装防止検出を実現し、簡単に対話可能で、偽装防止検出の信頼性を向上させる。
いくつかの実施例では、偽装防止の検出方法はさらに、前記画像シーケンスの対応するオーディオを取得するここと、上記オーディオを分割し、少なくとも一つのオーディオクリップを得ることと、を含んでもよい。このように、オーディオを分割してオーディオ分割結果を得る。ここで、オーディオ分割結果はそれぞれ一つ以上の文字に対応する少なくとも一つのオーディオクリップを含んでもよく、そのうち、ここの文字は任意のタイプ、例えば、数字、英文字、漢字、他の符号などであってもよい。
具体的には、ユーザが指定内容を読むオーディオデータを取得し、画像シーケンスの対応するオーディオを指定内容における少なくとも一つの文字の対応する少なくとも一つのオーディオクリップに分割し、該少なくとも一つのオーディオクリップをオーディオの分割結果とするようにしてもよい。このように、オーディオの分割結果は前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含む。
いくつかの実施例では、該少なくとも一つのオーディオクリップの各々は指定内容における一つの文字に対応するが、本開示の実施例はこれを限定しない。
図1に示す方法のいくつかの実施例では、動作102は、前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含む。
このように、オーディオ分割結果に基づき、画像シーケンスを分割し、それによって得られた各画像サブシーケンスを一つ以上の文字に対応させる。
そのうちのいくつかの任意選択的な例では、前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから少なくとも一つの画像サブシーケンスを取得するステップは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含む。
ここで、オーディオクリップの時間情報は例えば、オーディオクリップの時間長、オーディオクリップの開始時刻、オーディオクリップの終了時刻などの一つまたは任意の複数を含んでもよいが、これらに限定されない。例えば、画像シーケンスにおけるあるオーディオクリップの対応する時間帯に存在する画像を一つの画像サブシーケンスとして区分し、それによって該画像サブシーケンスおよび該オーディオクリップを一つ以上の同一の文字に対応させる。
本開示の実施例はオーディオの分割結果に基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数以下である。いくつかの実施例では、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数に等しく、かつ、上記少なくとも一つの画像サブシーケンスは指定内容に含まれる少なくとも一つの文字に一対一で対応し、各画像サブシーケンスは指定内容における一つの文字に対応する。
任意選択的に、上記指定内容における文字は例えば、数字、英文字、英単語、漢字、符号などのいずれか一つまたは複数を含んでもよいが、これらに限定されない。そのうち、指定内容における文字は英単語または漢字である場合、これらの英単語または漢字文字を含む辞書、辞書に含まれる英単語または漢字文字、および各英単語または漢字文字の対応する番号情報を予め定義することができる。
少なくとも一つの画像サブシーケンスを得てから、該少なくとも一つの画像サブシーケンス内の各画像サブシーケンスを処理し、各画像サブシーケンスの読唇結果を得ることができる。
いくつかの実施例では、画像サブシーケンスから少なくとも二つの唇部領域画像を取得し、少なくとも二つの唇部領域画像を処理することで、画像サブシーケンスの読唇結果を得るようにしてもよい。ここで、該少なくとも二つの唇部領域画像は画像サブシーケンスに含まれる各画像から切り出してもよいし、画像サブシーケンスに含まれる一部の画像から切り出してもよく、例えば、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択し、該少なくとも二つのターゲット画像内の各ターゲット画像から唇部領域画像を切り出すようにしてもよく、本開示の実施例はこれを限定しない。
いくつかの実施例では、画像サブシーケンスに含まれる少なくとも二つのターゲット画像の特徴抽出処理を行い、各ターゲット画像の唇部形状を特徴付けるための特徴情報を得て、該少なくとも二つのターゲット画像の唇部形状を特徴付けるための特徴情報に基づき、画像サブシーケンスの読唇結果を得る。ここで、該少なくとも二つのターゲット画像は該画像サブシーケンスにおける全てまたは一部の画像であってもよく、本開示の実施例はこれを限定しない。
いくつかの実施例では、動作104は、画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含んでもよい。
例を挙げれば、該画像サブシーケンスから少なくとも二つのターゲット画像を選択してもよく、本開示はターゲット画像の具体的な選択方式を限定しない。ターゲット画像を確定してから、ターゲット画像から唇部領域画像を取得できる。
いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得するステップは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと、を含む。
任意選択的に、上記ターゲット画像は具体的に顔面部領域画像または収集した元画像であってもよく、本開示の実施例はこれを限定しない。このとき、ターゲット画像のキーポイント検出を直接行い、顔面部キーポイントの情報を得るようにしてもよい。または、ターゲット画像の顔検出を行って顔面部領域画像を得て、さらに顔面部領域画像のキーポイント検出を行い、顔面部キーポイントの情報を得るようにしてもよい。任意選択的に、ニューラルネットワーク(例えば畳み込みニューラルネットワーク)によってターゲット画像のキーポイント検出を行ってもよく、本開示の実施例はキーポイント検出の具体的な実施形態を限定しない。
本開示の実施例では、顔面部キーポイントは複数のキーポイント、例えば唇部キーポイント、目キーポイント、眉キーポイント、顔面部エッジキーポイントなどの一つ以上を含んでもよい。顔面部キーポイントの情報は複数のキーポイントのうちの少なくとも一つのキーポイントの位置情報を含んでもよく、例えば、該顔面部キーポイントの情報は唇部キーポイントの位置情報を含むか、または他の情報をさらに含むことであり、本開示の実施例は顔面部キーポイントの具体的な実施形態および顔面部キーポイントの情報の具体的な実施形態を限定しない。
いくつかの可能な実施形態では、顔面部キーポイントに含まれる唇部キーポイントの位置情報に基づき、ターゲット画像から唇部領域画像を取得してもよい。または、顔面部キーポイントに唇部キーポイントが含まれない場合、顔面部キーポイントに含まれる少なくとも一つのキーポイントの位置情報に基づき、唇部領域の予測位置を確定し、唇部領域の予測位置に基づき、ターゲット画像から唇部領域画像を取得するようにしてもよく、本開示の実施例は唇部領域画像を取得する具体的な実施形態を限定しない。少なくとも二つのターゲット画像の唇部領域画像を取得してから、該少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることができる。
いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力するようにしてもよい。
例を挙げれば、第一ニューラルネットワークによって、唇部領域画像の特徴抽出処理を行い、唇部領域画像の唇部形状特徴を得て、該唇部形状特徴に基づいて読唇結果を確定するようにしてもよい。任意選択的に、少なくとも二つのターゲット画像内の各ターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して処理し、画像サブシーケンスの読唇結果を得るようにしてもよく、該第一ニューラルネットワークは画像サブシーケンスの読唇結果を出力する。一例では、第一ニューラルネットワークによって、唇部形状特徴に基づいて少なくとも一つの分類結果を確定し、少なくとも一つの分類結果に基づいて読唇結果を確定するようにしてもよい。ここの分類結果は例えば、予め設定された複数の文字の各々に分類される確率、または最終的に分類される文字を含んでもよく、ここの文字は例えば数字、字母、漢字、英単語または他の形式などであってもよく、本開示の実施例は唇部形状特徴に基づいて読唇結果を得る具体的な実施形態を限定しない。第一ニューラルネットワークは例えば畳み込みニューラルネットワークであってもよく、本開示は第一ニューラルネットワークのタイプを限定しない。
いくつかの可能な実施形態では、顔面部画像の角度という問題を考慮する上で、唇部キーポイントの位置情報に基づき、ターゲット画像から唇部領域画像を取得する前に、さらに、
前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得ることと、
前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定することと、を含み、
それに対して、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得する。
つまり、位置合わせ処理に基づき、顔面部キーポイント(例えば唇部キーポイント)の位置合わせ処理後のターゲット画像における位置情報を確定し、唇部キーポイントの位置合わせ処理後のターゲット画像における位置情報に基づき、位置合わせ処理後のターゲット画像から唇部領域画像を取得することができる。このように、位置合わせ処理後のターゲット画像から唇部領域画像を取得すると、向きが正しい唇部領域画像を得ることができ、角度が存在する唇部領域画像に比べ、読唇の正確性を向上させることができる。本開示は位置合わせ処理の具体的な方式を限定しない。
いくつかの可能な実施形態では、動作104は、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含む。
例を挙げれば、該少なくとも二つのターゲット画像は画像サブシーケンスに含まれる複数の画像の一部または全てであってもよく、該少なくとも二つのターゲット画像内の各ターゲット画像の唇部形状情報を取得することができる。ここで、ターゲット画像の唇部形状情報は前記唇部形状特徴を含み、様々な方式でターゲット画像の唇部形状情報を取得することができる。一例では、機械学習アルゴリズムによってターゲット画像を処理し、ターゲット画像の唇部形状特徴を得るようにしてもよく、例えば、サポートベクターマシンによる方法によってターゲット画像を処理し、ターゲット画像の唇部形状特徴を得ることができる。
いくつかの可能な実施形態では、該少なくとも二つのターゲット画像内の各ターゲット画像の唇部形状情報を得てから、ニューラルネットワークによって該画像サブシーケンスの少なくとも二つのターゲット画像の唇部形状情報を処理し、画像サブシーケンスの読唇結果を出力するようにしてもよい。このとき、任意選択的に、少なくとも二つのターゲット画像の少なくとも一部をニューラルネットワークに入力して処理してもよく、ニューラルネットワークは画像サブシーケンスの読唇結果を出力する。または、他の方式で少なくとも二つのターゲット画像の唇部形状情報を処理してもよく、本開示の実施例はこれを限定しない。
いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得する前記ステップは、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定することを含む。
例を挙げれば、少なくとも二つのターゲット画像内の各ターゲット画像から唇部領域画像を取得してもよい。各ターゲット画像の顔検出を行い、顔部領域を得て、各ターゲット画像から顔部領域画像を抽出し、抽出した顔部領域画像のサイズを正規化し、サイズが正規化された顔部領域画像における顔部領域と唇部特徴点との相対位置に基づき、サイズが正規化された顔部領域画像から唇部領域画像を抽出し、さらに各ターゲット画像の唇部形状情報を確定するようにしてもよい。
いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定するステップは、
前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得ることを含む。
例を挙げれば、ニューラルネットワーク(例えば畳み込みニューラルネットワーク)によって唇部領域画像の特徴抽出処理を行い、唇部領域画像の唇部形状特徴を取得するようにしてもよい。なお、他の方式を採用して唇部形状特徴を取得してもよいことを理解すべきであり、本開示の実施例は唇部領域画像の唇部形状特徴を取得する方式を限定しない。
このような方式で、少なくとも二つのターゲット画像内の各ターゲット画像の唇部形状情報に基づき、画像サブシーケンスの読唇結果を確定することができる。
いくつかの可能な実施形態では、動作104で前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前に、本開示の実施例に係る方法はさらに、画像サブシーケンスから少なくとも二つのターゲット画像を選択することを含んでもよい。つまり、画像サブシーケンスに含まれる複数の画像から一部または全ての画像をターゲット画像として選択し、それによって後続のステップで選択した少なくとも二つのターゲット画像から読唇を行うことができる。ここで、複数の画像をランダムに選択するか、または画像の解像度などの指標に基づいて選択するようにしてもよく、本開示はターゲット画像の具体的な選択方式を限定しない。
いくつかの任意選択的な例では、画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択し、そして第一画像および第一画像に隣接する少なくとも一つの第二画像をターゲット画像として確定するように、画像サブシーケンスから少なくとも二つのターゲット画像を選択してもよい。つまり、画像の品質指標を予め設定し、それによって該予め設定された品質指標に基づいてターゲット画像を選択することができる。ここの予め設定された品質指標は例えば、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することなどの一つまたは任意の複数を含んでもよいが、これらに限定されない。完全な唇部エッジを含む画像によって、唇部領域画像をより容易に分割可能であり、唇部の解像度が予め設定された第一条件および/または光強度が予め設定された第二条件に達する画像によって、唇部形状特徴をより容易に抽出可能である。本開示は予め設定された品質指標、第一条件および第二条件の選択をいずれも限定しない。
いくつかの可能な実施形態では、まず画像サブシーケンスに含まれる複数の画像から予め設定された品質指標を満たす第一画像を選択し、続いて第一画像に隣接する少なくとも一つの第二画像(例えば、第一画像の前または後ろの隣接する映像フレーム)を選択し、選択した第一画像および第二画像をターゲット画像とするようにしてもよい。品質指標を満たす画像およびそれに隣接する画像を選択することで、画像の唇部形状特徴をより容易に抽出可能であり、隣接画像の唇部形状特徴間の差異を解析することで、より正確な読唇結果を得ることが可能である。
いくつかの可能な実施形態では、該少なくとも二つのターゲット画像は画像サブシーケンスに含まれる複数の画像の一部であり、このとき、該方法はさらに、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択することを含む。
本開示の実施例では、様々な方式でフレームを選択できる。例えば、そのうちのいくつかの実施例では、画像品質に基づいてフレームを選択してもよい。一例では、画像サブシーケンスに含まれる複数の画像から予め設定された品質指標を満たす第一画像を選択し、該第一画像および該第一画像に隣接する少なくとも一つの第二画像をターゲット画像として確定するようにしてもよい。
ここの予め設定された品質指標は例えば、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することなどの一つまたは任意の複数を含んでもよいし、または予め設定された品質指標は他のタイプの品質指標を含んでもよく、本開示の実施例は予め設定された品質指標の具体的な実施形態を限定しない。
本開示の実施例では、他の要因に基づいてフレームを選択するか、または画像品質と他の要因を組み合わせてフレームを選択し、複数の画像のうちの第一画像を得て、第一画像および第一画像に隣接する少なくとも一つの第二画像をターゲット画像として確定するようにしてもよい。
ここで、該第一画像の数は一つ以上としてもよく、このように、第一画像およびその隣接する少なくとも一つの第二画像の唇部形状情報に基づいてその読唇結果を確定することができ、ここで、第一画像およびその隣接する少なくとも一つの第二画像を一つの画像集合としてもよく、つまり、画像サブシーケンスから少なくとも一つの画像集合を選択し、画像集合に含まれる少なくとも二つの画像の唇部形状情報に基づいて該画像集合の読唇結果、例えば画像集合の対応する文字、または画像集合が複数の文字の各々に対応する確率などを確定することができる。任意選択的に、画像サブシーケンスの読唇結果は該少なくとも一つの画像集合の各々の読唇結果を含んでもよく、または、さらに少なくとも一つの画像集合の各々の読唇結果に基づき、画像サブシーケンスの読唇結果を確定してもよく、本開示の実施例はこれを限定しない。
本開示の実施例では、第二画像は第一画像の前、または第一画像の後ろに位置してもよい。そのうちのいくつかの任意選択的な例では、上記少なくとも一つの第二画像は、第一画像の前に位置しかつ該第一画像に隣接する少なくとも一つの画像および該第一画像の後ろに位置しかつ第一画像に隣接する少なくとも一つの画像を含んでもよい。ここで、第一画像の前または後ろに位置するとは第二画像と第一画像の画像サブシーケンスにおける時系列関係のことであり、隣接とは第二画像と第一画像の画像サブシーケンスにおける位置間隔が予め設定された数値以下のことであり、例えば、第二画像と第一画像の画像サブシーケンスにおける位置が隣接する場合、このとき、任意選択的に、画像サブシーケンスから第一画像に隣接する予め設定された数の第二画像を選択するか、または、第二画像と第一画像の画像サブシーケンスにおける間隔画像の数を10以下とすることであり、本開示の実施例はこれに限定されない。
任意選択的に、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択する時、上記予め設定された品質指標を考慮する他に、選択された画像の間の唇部形状の変化は連続的であるという指標とさらに組み合わせて選択してもよい。例えば、そのうちのいくつかの任意選択的な例では、画像サブシーケンスから予め設定された品質指標を満たし、かつ唇部形状の有効変化を示す画像、および該唇部形状の有効変化を示す画像の前および/または後ろに位置する少なくとも1フレームの画像を選択してもよい。ここで、唇部形状の有効変化は上下唇の距離の大きさなどを予め設定された判断基準としてもよい。
例えば、一応用例では、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択する時、予め設定された品質指標を満たし、かつ上下唇の距離が最も大きいなどを選択基準として、予め設定された品質指標を満たし、かつ唇部形状の変化が最も大きい1フレームの画像、および該1フレームの画像の前および後ろに位置する少なくとも1フレームの画像を選択してもよい。実際の適用では、指定内容が0〜9の少なくとも一つの数字である場合、各数字の平均朗読時間は0.8s程度で、平均フレームレートは25fpsであり、そこで、各数字について5〜8フレームの画像を唇部形状の有効変化を示す画像サブシーケンスとして選択してもよいが、本開示の実施例はこれに限定されない。
少なくとも一つの画像サブシーケンスの読唇結果を得てから、いくつかの可能な実施形態では、動作106で、少なくとも一つの画像サブシーケンスの読唇結果と指定内容とが一致するかどうかを確定し、該確定した結果に基づき、偽装防止検出結果を確定するようにしてもよい。例えば、少なくとも一つの画像サブシーケンスの読唇結果と指定内容とが一致することに応答し、偽装防止検出結果を本人であるまたは偽装が存在しないと確定する。さらに例えば、少なくとも一つの画像サブシーケンスの読唇結果と指定内容とが一致しないことに応答し、偽装防止検出結果を本人ではないまたは偽装が存在すると確定する。
あるいは、ユーザが上記指定内容を読むオーディオをさらに取得し、オーディオの音声認識処理を行い、オーディオの音声認識結果を得て、オーディオの音声認識結果と指定内容とが一致するかどうかを確定するようにしてもよい。このとき、任意選択的に、オーディオの音声認識結果および少なくとも一つの画像サブシーケンスの読唇結果における少なくとも一項が指定内容に一致しないとすれば、本人ではないと確定する。任意選択的に、オーディオの音声認識結果も少なくとも一つの画像サブシーケンスの読唇結果も指定内容に一致するとすれば、本人であると確定するが、本開示の実施例はこれに限定されない。
いくつかの可能な実施形態では、オーディオの分割結果における各オーディオクリップの音声認識結果に基づき、対応する画像サブシーケンスの読唇結果をラベル付けし、ここで、各画像サブシーケンスの読唇結果を該画像サブシーケンスの対応するオーディオクリップの音声認識結果でラベル付けし、つまり各画像サブシーケンスの読唇結果を該画像サブシーケンスの対応する文字でラベル付けし、続いて文字でラベル付けした少なくとも一つの画像サブシーケンスの読唇結果を第二ニューラルネットワークに入力し、画像シーケンスの読唇結果とオーディオの音声認識結果とのマッチング結果を得るようにしてもよい。
本開示の実施例はオーディオの分割結果に基づいて画像シーケンスを対応する少なくとも一つの画像サブシーケンスに分割し、各画像サブシーケンスの読唇結果を各オーディオクリップの音声認識結果と照合し、両者がマッチングするかどうかに基づいて読唇による偽装防止検出を実現する。
別のいくつかの実施例では、動作106で少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するステップは、
上記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含む。例えば、オーディオの音声認識結果に基づき、少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る。
該融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する。例えば、該融合認識結果および音声認識結果を第二ニューラルネットワークに入力して処理し、読唇結果と音声認識結果とのマッチング確率を得て、そして読唇結果と音声認識結果とのマッチング確率に基づき、読唇結果と音声認識結果とがマッチングするかどうかを確定するようにしてもよい。
融合認識結果とオーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する。
融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、融合認識結果と音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定し、その結果を表示するための関連動作をさらに選択的に実行してもよい。逆に、融合認識結果と音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定し、その結果を指示するメッセージをさらに選択的に出力してもよい。
例を挙げれば、画像シーケンスの対応するオーディオの音声認識結果を取得し、融合認識結果とオーディオの音声認識結果とがマッチングするかどうかを確定し、融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、偽装防止検出結果を確定するようにしてもよい。例えば、融合認識結果と音声認識結果とがマッチングすることに応答し、ユーザが本人であると確定する。さらに例えば、融合認識結果と音声認識結果とがマッチングしないことに応答し、ユーザが本人ではないと確定する。
ここで、任意選択的に、画像サブシーケンスの読唇結果は例えば画像サブシーケンスの対応する一つ以上の文字を含んでもよく、または、画像サブシーケンスの読唇結果は、該画像サブシーケンスが指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む。例えば、予め設定された指定内容における可能な文字集合は数字0〜9を含む場合、各画像サブシーケンスの読唇結果は、該画像サブシーケンスが0〜9の各所定文字として分類される確率を含むが、本開示の実施例はこれに限定されない。
いくつかの可能な実施形態では、少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含む。
例を挙げれば、画像シーケンスの対応するオーディオの音声認識結果に基づいて少なくとも一つの画像サブシーケンスの読唇結果を融合してもよい。例えば、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇結果の対応する特徴ベクトルを確定し、オーディオの音声認識結果に基づき、少なくとも一つの画像サブシーケンスの対応する少なくとも一つの特徴ベクトルを連結し、連結結果(融合認識結果)を得る。
それに対して、更なる任意選択的な例では、画像サブシーケンスの読唇結果は画像サブシーケンスが複数の所定文字の各々として分類される確率を含む。該所定文字は指定内容における文字であってもよく、例えば、該所定文字が数字である場合、読唇結果は画像サブシーケンスが0〜9の各数字として分類される確率を含む。
任意選択的に、画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと、を含み、ここで、前記融合認識結果は前記連結結果を含む。
例を挙げれば、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇処理によって、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの分類確率、例えば0〜9の各数字として分類される確率を得る。続いて、各画像サブシーケンスが0〜9の各数字として分類される確率を順位付けし、該画像サブシーケンスの1×10の特徴ベクトルを得るようにしてもよい。
続いて、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトル、またはそれらから抽出した複数の画像サブシーケンスの特徴ベクトル(例えば、指定内容の数字の長さに応じて以上の特徴ベクトルをランダムに抽出したもの)に基づき、混同行列を作成する。
一例では、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトルに基づき、10×10の混同行列を作成してもよく、ここで、画像サブシーケンスの対応する音声認識結果における数値に基づき、該画像サブシーケンスの対応する特徴ベクトルが所在する行番号または列番号を確定してもよく、任意選択的に、二つ以上の画像サブシーケンスの対応するオーディオ認識の数値が同じである場合、該二つ以上の画像サブシーケンスの特徴ベクトルの値を1要素ずつに加算し、該数値の対応する行または列の要素を得る。同様に、指定内容における文字が英文字である場合、26×26の混同行列を作成することができ、指定内容における文字が漢字または英単語または他の形式である場合、予め設定された辞書に基づいて対応する混同行列を作成することができるが、本開示の実施例はこれを限定しない。
混同行列を得てから、例えば、上記例で、10×10の混同行列を1×100の連結ベクトル(即ち連結結果)に変換するように、混同行列をベクトルに変換し、さらに読唇結果と音声認識結果とのマッチング度を判断するようにしてもよい。
任意選択的に、該連結結果は連結ベクトルまたは連結行列または他の次元のデータ型であってもよいが、本開示の実施例は連結の具体的な実施形態を限定しない。
ここで、様々な方式で融合認識結果と音声認識結果とがマッチングするかどうかを確定することができる。いくつかの任意選択的な例では、機械学習アルゴリズムによって融合認識結果と音声認識結果とがマッチングするかどうかを確定してもよい。別のいくつかの任意選択的な例では、第二ニューラルネットワークによって、融合認識結果とオーディオの音声認識結果とがマッチングするかどうかを確定してもよく、例えば、融合認識結果およびオーディオの音声認識結果を第二ニューラルネットワークに直接入力して処理してもよく、第二ニューラルネットワークは融合認識結果と音声認識結果とのマッチング結果を出力する。さらに例えば、融合認識結果および/またはオーディオの音声認識結果に一種類以上の処理を施し、続いてそれを第二ニューラルネットワークに入力して処理し、融合認識結果と音声認識結果とのマッチング結果を出力するようにしてもよく、本開示の実施例はこれを限定しない。このように、第二ニューラルネットワークによって、融合認識結果と音声認識結果とがマッチングするかどうかを確定することで、本人であるかどうかを確定し、深層ニューラルネットワークの強い学習能力を利用し、融合認識結果と音声認識結果とのマッチング度を効果的に確定し、それにより融合認識結果と音声認識結果とのマッチング結果に基づいて読唇による偽装防止検出を実現し、偽装防止検出の正確性を向上させることができる。
いくつかの可能な実施形態では、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する前記ステップは、
前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと、を含む。
例を挙げれば、第二ニューラルネットワークは融合認識結果および音声認識結果に基づき、読唇結果と音声認識結果とがマッチングする確率を得るようにしてもよい。このとき、第二ニューラルネットワークにより得られたマッチング確率が予め設定された閾値よりも大きいかどうかに基づいて前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定し、さらに偽造が存在するまたは偽造が存在しないことについての偽装防止検出結果を得るようにしてもよい。例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値以上である場合、読唇結果と音声認識結果とがマッチングすると確定し、さらに画像シーケンスが偽造されるものではない、即ち本人であると確定し、さらに例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値よりも小さい場合、読唇結果と音声認識結果とがマッチングしないと確定し、さらに画像シーケンスが偽造されるものである、即ち本人ではないと確定する。マッチング確率に基づいて偽装防止検出結果を得る該動作は第二ニューラルネットワークによって実行してもよいし、他のユニットまたは装置によって実行してもよく、本開示の実施例はこれを限定しない。
いくつかの可能な実施形態では、本開示の実施例に係る方法はさらに、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定することと、を含み、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する前記ステップは、
前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含む。
例を挙げれば、画像シーケンスの対応するオーディオを分割し、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップ(少なくとも一つのオーディオクリップ)を含むオーディオ分割結果を得るようにしてもよい。ここで、各オーディオクリップは指定内容における一つの文字、例えば一つの数字、英文字、漢字、英単語または他の符号などに対応する。
いくつかの可能な実施形態では、オーディオの少なくとも一つのオーディオクリップの音声認識処理を行い、該オーディオの音声認識結果を得るようにしてもよい。本開示は採用される音声認識方式を限定しない。
いくつかの可能な実施形態では、まず音声認識結果と指定内容とが一致するかどうかを確定し、音声認識結果と指定内容とが一致すると確定した場合、融合認識結果と音声認識結果とがマッチングするかどうかを確定する。このとき、任意選択的に、音声認識結果と指定内容とが一致しないと確定したとすれば、融合認識結果と音声認識結果とがマッチングするかどうかを確定する必要がなく、そのまま偽装防止検出結果を本人ではないと確定する。
あるいは、音声認識結果と指定内容とが一致するかどうかおよび融合認識結果と音声認識結果とがマッチングするかどうかを同時に確定してもよく、本開示の実施例はこれを限定しない。オーディオの音声認識結果と指定内容とが一致するかどうかの確定結果、および融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、偽装防止検出結果を確定する。
いくつかの可能な実施形態では、オーディオの音声認識結果と指定内容とが一致し、かつ上記融合認識結果とオーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定する。オーディオの音声認識結果と指定内容とが一致せず、および/または上記融合認識結果とオーディオの音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定する。
本開示の実施例では、画像シーケンスおよびオーディオを取得し、該オーディオの音声認識を行い、音声認識結果を得て、画像シーケンスから取得した少なくとも一つの画像サブシーケンスから読唇を行い、読唇結果を得て、融合し、融合認識結果を得て、そして音声認識結果と指定内容とが一致するかどうか、および上記融合認識結果と音声認識結果とがマッチングするかどうかに基づき、本人であるかどうかを確定する。本開示の実施例は被収集の対象者が指定内容を朗読する時の画像シーケンスおよび対応するオーディオを解析することで読唇を行い、それにより偽装防止検出を実現し、簡単に対話可能で、無防備の状況で簡単に画像シーケンスおよび対応するオーディオを同時に取得することができず、偽装防止検出の信頼性および検出正確度を向上させる。
いくつかの可能な実施形態では、本開示の実施例に係る方法はさらに、偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて画像シーケンスの顔による本人確認を行うことを含む。つまり、偽装防止検出結果が本人であると確定した後に顔による本人確認を行うことができる。本開示は顔による本人確認の具体的な方式を限定しない。
いくつかの可能な実施形態では、動作102で画像シーケンスを取得する前に、本開示の実施例に係る方法はさらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含み、
動作102で画像シーケンスから少なくとも一つの画像サブシーケンスを取得するステップは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含む。
つまり、まず顔による本人確認を行い、顔による本人確認で確認が取れた後に各実施例における画像シーケンスから少なくとも一つの画像サブシーケンスを取得する動作を実行し、それによって偽装防止検出を行うことができる。
いくつかの可能な実施形態では、画像シーケンスの偽装防止検出および本人確認を同時に行ってもよく、本開示の実施例はこれを限定しない。
いくつかの可能な実施形態では、本開示の実施例に係る方法はさらに、前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行することを含んでもよい。
様々なアプリケーションにおいて、本開示の実施例に基づいて偽装防止検出を行い、本人であると確定してから、その結果を表示するための関連動作を実行し、それによりアプリケーションの安全性を向上させることができる。
本開示の実施例によれば、第一ニューラルネットワークを利用して画像サブシーケンスから読唇を行い、第二ニューラルネットワークを利用して融合認識結果と音声認識結果とがマッチングするかどうかを確定し、それにより偽装防止検出を実現することができ、ニューラルネットワークの学習能力が強く、かつリアルタイムに補足訓練を行って性能を向上させることが可能であるため、拡張性が高く、実際の需要の変化に応じて素早く更新し、新たに現れる偽造の状況を素早く対応して偽装防止検出を行うことができ、認識結果の正確率を効果的に向上させ、それにより偽装防止検出結果の正確性を向上させることができる。
本開示の実施例では、任意選択的に、偽装防止検出結果を確定してから、偽装防止検出結果に基づいて対応する動作を実行してもよい。例えば、偽装防止検出結果が本人である場合、その結果を表示するための関連動作、例えばロック解除、ユーザアカウントログイン、トランザクション許可、入退室許可などをさらに選択的に実行してもよいし、または、画像シーケンスに基づいて顔を認識しかつ本人確認で本人であると確認してから、上記動作を実行してもよい。さらに例えば、偽装防止検出結果が本人ではない場合、その結果を指示するメッセージを選択的に出力してもよいし、または偽装防止検出結果が本人であるが本人確認で本人ではないと確認した場合、本人確認に失敗した指示メッセージを選択的に出力してもよく、本開示の実施例はこれを限定しない。
本開示の実施例では、顔面部、画像シーケンスまたは画像サブシーケンス、および対応するオーディオが同一時空間次元に存在することを要求でき、音声認識と読唇による偽装防止検出を同時に行い、偽装防止検出の効果を向上させる。
図2は本開示の実施例の偽装防止の検出方法の別の例示的フローチャートである。
202において、指定内容を読むようにユーザに指示してから収集された画像シーケンスおよびオーディオを取得する。ここで、該画像シーケンスは複数の画像を含む。
本開示の実施例における画像シーケンスは指定内容を読むようにユーザに促してから撮影したビデオに由来してもよい。オーディオは同期に録音したオーディオであってもよいし、撮影したビデオから抽出したオーディオタイプのファイルであってもよい。いくつかの実施例では、指定内容は複数の文字を含む。
その後、該オーディオについて動作204および206を実行し、該画像シーケンスについて動作208を実行する。
204において、上記オーディオを分割し、指定内容における少なくとも一つの文字の対応する少なくとも一つのオーディオクリップを含むオーディオ分割結果を得る。
206において、上記オーディオの音声認識処理を行い、上記少なくとも一つのオーディオクリップの音声認識結果を含む該オーディオの音声認識結果を得る。
208において、動作204で得られたオーディオの分割結果に基づき、画像シーケンスからそれぞれ画像シーケンスにおける複数の連続画像を含む少なくとも一つの画像サブシーケンスを取得する。
いくつかの任意選択的な実施例では、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数に等しく、かつ、上記少なくとも一つの画像サブシーケンスは指定内容に含まれる少なくとも一つの文字に一対一で対応し、各画像サブシーケンスは指定内容における一つの文字に対応する。
210において、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスから読唇を行い、前記各画像サブシーケンスの読唇結果を得る。
ここで、各画像サブシーケンスの読唇結果は、該画像サブシーケンスが指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含んでもよい。いくつかの実施例では、第一ニューラルネットワークによって画像サブシーケンスを処理し、画像サブシーケンスの読唇結果を得るようにしてもよい。
212において、動作206で得られたオーディオの音声認識結果に基づき、動作206で得られた少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る。
214において、該融合認識結果と上記オーディオの音声認識結果とがマッチングするかどうかを確定する。
いくつかの実施例では、第二ニューラルネットワークによって融合認識結果および音声認識結果を処理し、それによってマッチング結果を得るようにしてもよい。
216において、上記融合認識結果と上記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する。
例を挙げれば、融合認識結果と音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定する。逆に、融合認識結果と音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定する。
ここで、融合認識結果と音声認識結果とがマッチングしないとは、例えば、本人のビデオをリメイクすることおよび身分を偽造してシステムの要求に従って指定内容を朗読することであってもよく、このときリメイクされたまたは切り出された本人のビデオから取得した画像シーケンスの対応する融合認識結果は対応する時間帯の音声認識結果に一致せず、それにより両者がマッチングしないと判断し、さらに該ビデオが偽造されるものと判断する。
本開示の実施例では、画像シーケンスおよびオーディオを取得し、該オーディオの音声認識を行い、音声認識結果を得て、画像シーケンスから取得した少なくとも一つの画像サブシーケンスから読唇を行い、読唇結果を得て、融合し、融合認識結果を得て、そして融合認識結果と音声認識結果とがマッチングするかどうかに基づき、本人であるかどうかを確定する。本開示の実施例は被収集の対象者が指定内容を朗読する時の画像シーケンスおよび対応するオーディオを解析することで読唇を行い、それにより偽装防止検出を実現し、簡単に対話可能で、無防備の状況で簡単に画像シーケンスおよび対応するオーディオを同時に取得することができず、偽装防止検出の信頼性および検出正確度を向上させる。
本開示のいくつかの実施例では、読唇結果および音声認識結果に基づいて混同行列(Confusion Matrix)を作成し、混同行列を音声認識結果の並び替えに対応する特徴ベクトルに変換してから第二ニューラルネットワークに入力し、読唇結果と音声認識結果とがマッチングするかどうかを示すマッチング結果を得るようにしてもよい。
以下、指定内容における文字が数字であることを例にして混同行列を詳しく説明する。
少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇処理によって、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが0〜9の各数字として分類される確率を得る。続いて、各画像サブシーケンスが0〜9の各数字として分類される確率を順位付けし、該画像サブシーケンスの1×10の特徴ベクトルを得るようにしてもよい。
続いて、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトル、またはそれらから抽出した複数の画像サブシーケンスの特徴ベクトル(例えば、指定内容の数字の長さに基づいて以上の特徴ベクトルをランダムに抽出したもの)に基づき、混同行列を作成する。
一例では、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトルに基づき、10×10の混同行列を作成してもよく、ここで、画像サブシーケンスの対応する音声認識結果における数値に基づき、該画像サブシーケンスの対応する特徴ベクトルが所在する行番号または列番号を確定してもよく、任意選択的に、二つ以上の画像サブシーケンスの対応するオーディオ認識による数値が同じである場合、該二つ以上の画像サブシーケンスの特徴ベクトルの値を1要素ずつに加算し、該数値の対応する行または列の要素を得る。同様に、指定内容における文字が英文字である場合、26×26の混同行列を作成することができ、指定内容における文字が漢字または英単語または他の形式である場合、予め設定された辞書に基づいて対応する混同行列を作成することができるが、本開示の実施例はこれを限定しない。
図3は本開示の実施例における一つの混同行列およびその応用例の模式図である。図3に示すように、各行の要素数値は音声認識結果が該行の番号に等しいオーディオクリップの対応する画像サブシーケンスの読唇結果に基づいて得られる。右側の色が浅いから濃くなる数字バーは各画像サブシーケンスをある種別として予測する場合の確率値の高低が表す色を示し、かつ同時にこの対応関係を混同行列に反映し、色が濃ければ濃いほど、横軸の対応する画像サブシーケンスを対応する縦軸の実際のラベル種別として予測する可能性が大きくなり、
混同行列を取得してから、例えば、上記例で、10×10の混同行列を1×100の連結ベクトル(即ち連結結果)に変換するように、混同行列をベクトルに変換し、第二ニューラルネットワークの入力とし、第二ニューラルネットワークによって読唇結果と音声認識結果とのマッチング度を判断するようにしてもよい。
いくつかの可能な実施形態では、第二ニューラルネットワークは連結ベクトルおよび音声認識結果に基づき、読唇結果と音声認識結果とがマッチングする確率を得るようにしてもよい。このとき、第二ニューラルネットワークにより得られたマッチング確率が予め設定された閾値よりも大きいかどうかに基づいて偽造が存在するまたは偽造が存在しないことについての偽装防止検出結果を得るようにしてもよい。例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値以上である場合、画像シーケンスが偽造されるものではない、即ち、本人であると確定し、さらに例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値よりも小さい場合、画像シーケンスが偽造されるものである、即ち、本人ではないと確定する。マッチング確率に基づいて偽装防止検出結果を得る該動作は第二ニューラルネットワークによって実行してもよいし、他のユニットまたは装置によって実行してもよく、本開示の実施例はこれを限定しない。
具体的な一応用例では、指定内容が数字シーケンス2358であることを例にすると、四つの画像サブシーケンスおよび四つのオーディオクリップを得ることができ、ここで、各画像サブシーケンスは一つのオーディオクリップに対応し、1番目の画像サブシーケンスは1×10の特徴ベクトルに対応し、例えば、[0, 0.0293, 0.6623, 0.0348, 0.1162, 0, 0.0984, 0.0228, 0.0362, 0]であり、該特徴ベクトルは混同行列における一行であり、行番号は1番目の数字について音声認識を行った音声認識結果であり、例えば2に等しい。このように、1番目の画像サブシーケンスの対応する特徴ベクトルは行列の2行目に位置され、以降同様に、2番目の画像サブシーケンスの対応する特徴ベクトルは行列の3行目に位置され、3番目の画像サブシーケンスの対応する特徴ベクトルは行列の5行目に位置され、4番目の画像サブシーケンスの対応する特徴ベクトルは行列の8行目に位置され、行列の空欄部分に0が記入され、一つの10×10の行列となる。該行列に対して変換し、1×100の連結ベクトル(即ち融合認識結果)を得て、連結ベクトルおよびオーディオの音声認識結果を第二ニューラルネットワークに入力して処理すると、画像シーケンスの読唇結果と音声認識結果とがマッチングするかどうかのマッチング結果を得ることができる。
本開示の実施例では、第一ニューラルネットワークを利用して上記少なくとも一つの画像サブシーケンスから読唇を行い、類似する唇部形状の文字に分類される可能性を導入し、いずれの画像サブシーケンスについてもその各文字に対応する確率を取得し、例えば、数字「0」および「2」の唇の形(口の形)が類似し、読唇段階で誤認識されやすいことについて、本開示の実施例は第一深層ニューラルネットワークの学習誤差を考慮し、類似する唇部形状に分類され得る確率を導入し、読唇結果に誤差が出る時に一定程度補正することができ、読唇結果の分類正確度の偽装防止検出への影響を軽減する。
本開示の実施例に基づき、深層学習フレームワークを利用して唇部形状をモデリングし、第一ニューラルネットワークを得て、それによって唇部形状の判別をより正確にし、かつ、オーディオモジュールを利用してオーディオの分割結果における画像シーケンスを分割でき、それによって第一ニューラルネットワークはユーザが読む内容をより効果的に認識することができ、また、上記少なくとも一つのオーディオクリップの音声認識結果および上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが各文字にそれぞれ対応する確率に基づき、読唇結果と音声認識結果とがマッチングするかどうかを確定し、読唇結果に対して一定の誤差補正能力を有し、それによってマッチング結果をより正確にする。
図4は本開示の実施例の偽装防止の検出方法の別の概略的フローチャートである。
302において、画像シーケンスおよびオーディオを取得する。ここで、該画像シーケンスは複数の画像を含む。
本開示の実施例における画像シーケンスは指定内容を読むようにユーザに促した後に現場で撮影したビデオに由来してもよく、オーディオは現場で同期に録音したオーディオであってもよいし、現場で撮影したビデオから抽出したオーディオタイプのファイルであってもよい。
その後、該オーディオについて動作304および306を実行し、該画像シーケンスについて動作308を実行する。
304において、上記オーディオを分割し、指定内容における少なくとも一つの文字の少なくとも一つのオーディオクリップを含むオーディオ分割結果を得る。ここで、該少なくとも一つのオーディオクリップの各々は指定内容における一つの文字またはユーザが読む/読み上げる一つの文字、例えば、一つの数字、英文字、漢字、英単語または他の符号などに対応する。
306において、上記少なくとも一つのオーディオクリップの音声認識処理を行い、上記少なくとも一つのオーディオクリップの音声認識結果を含む該オーディオの音声認識結果を得る。その後、動作312および314を実行する。
308において、動作304で得られたオーディオの分割結果に基づき、画像シーケンスからそれぞれ画像シーケンス内の少なくとも一つの画像を含む少なくとも一つの画像サブシーケンスを取得する。
ここで、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数に等しく、かつ、上記少なくとも一つの画像サブシーケンスは指定内容に含まれる少なくとも一つの文字に一対一で対応し、各画像サブシーケンスは指定内容における一つの文字に対応する。
例を挙げれば、画像シーケンスの対応するオーディオを少なくとも一つのオーディオクリップに分割し、該少なくとも一つのオーディオクリップに基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するようにしてもよい。
310において、例えば第一ニューラルネットワークによって、上記少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得る。
312において、動作306で得られた少なくとも一つのオーディオクリップの音声認識結果に基づき、上記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る。
314において、オーディオの音声認識結果と指定内容とが一致するかどうか、および上記融合認識結果とオーディオの音声認識結果とがマッチングするかどうかを確定する。
例を挙げれば、まず音声認識結果と指定内容とが一致するかどうかを確定し、音声認識結果と指定内容とが一致すると確定した場合、融合認識結果と音声認識結果とがマッチングするかどうかを確定するようにしてもよい。このとき、任意選択的に、音声認識結果と指定内容とが一致しないと確定したとすれば、融合認識結果と音声認識結果とがマッチングするかどうかを確定する必要がなく、そのまま偽装防止検出結果を本人ではないと確定する。
あるいは、音声認識結果と指定内容とが一致するかどうかおよび融合認識結果と音声認識結果とがマッチングするかどうかを同時に確定してもよく、本開示の実施例はこれを限定しない。
316において、オーディオの音声認識結果と指定内容とが一致するかどうかの確定結果、および融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、偽装防止検出結果を確定する。
例を挙げれば、オーディオの音声認識結果と指定内容とが一致し、かつ上記融合認識結果とオーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定する。オーディオの音声認識結果と指定内容とが一致せず、および/または、上記融合認識結果とオーディオの音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定する。
本開示の実施例では、画像シーケンスおよびオーディオを取得し、該オーディオの音声認識を行い、音声認識結果を得て、画像シーケンスから取得した少なくとも一つの画像サブシーケンスから読唇を行い、読唇結果を得て、融合し、融合認識結果を得て、そして音声認識結果と指定内容とが一致するかどうか、および上記融合認識結果と音声認識結果とがマッチングするかどうかに基づき、本人であるかどうかを確定する。本開示の実施例は被収集の対象者が指定内容を朗読する時の画像シーケンスおよび対応するオーディオを解析することで読唇を行い、それにより偽装防止検出を実現し、簡単に対話可能で、無防備の状況で簡単に画像シーケンスおよび対応するオーディオを同時に取得することができず、偽装防止検出の信頼性および検出正確度を向上させる。
また、本開示の別の実施例の偽装防止の検出方法では、ユーザが送信する認証要求に応答し、各実施例における画像シーケンスを取得する動作の実行を開始するようにしてもよい。または、他の機器の指示を受信したまたは他のトリガ条件を満たす場合、上記偽装防止検出フローを実行してもよく、本開示の実施例は偽装防止検出のトリガ条件を限定しない。
また、本開示の上記各偽装防止の検出方法の実施例の前に、さらに、第一ニューラルネットワークを訓練する動作を含んでもよい。
第一ニューラルネットワークを訓練する時、上記画像シーケンスは具体的にサンプル画像シーケンスとする。それに対して、上記各実施例について、該実施例の偽装防止の検出方法はさらに、それぞれ少なくとも一つのオーディオクリップの音声認識結果を対応する少なくとも一つの画像サブシーケンスのラベル内容とすることと、第一ニューラルネットワークにより得られた少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの対応する文字と対応するラベル内容との差異を取得することと、予め設定された訓練完了条件、例えば、訓練回数が予め設定された訓練回数に達すること、および/または上記少なくとも一つの画像サブシーケンスの予測内容と対応するラベル内容との差異が予め設定された差異値よりも小さいことなどを満たすまで、該差異に基づいて第一ニューラルネットワークを訓練する、つまり第一ニューラルネットワークのパラメータを調整することと、を含む。訓練されておいた第一ニューラルネットワークは本開示の上記各実施例の偽装防止の検出方法に基づき、入力されるビデオまたは該ビデオから選択された画像シーケンスから正確に読唇を行うことができる。
本開示の上記実施例に基づき、深層ニューラルネットワークの強い記述能力によってモデリングし、大規模サンプル画像シーケンスデータによって訓練し、対象者が指定内容を朗読する時の特徴を効果的に学習および抽出し、さらにビデオまたは画像からの読唇を実現することができる。
また、本開示の上記各偽装防止の検出方法の実施例の前に、さらに、第二ニューラルネットワークを訓練する動作を含んでも良い。
第二ニューラルネットワークを訓練する時、対象者が指定内容を読む時のサンプル画像シーケンス内の少なくとも一つの画像サブシーケンスの読唇結果、および対応するサンプルオーディオにおける少なくとも一つのオーディオクリップの音声認識結果を第二ニューラルネットワークの入力とし、第二ニューラルネットワークにより出力される少なくとも一つの画像サブシーケンスの読唇結果と少なくとも一つのオーディオクリップの音声認識結果とのマッチング度と、該サンプル画像シーケンスおよびサンプルオーディオに対してラベル付けしたマッチング度との差異を比較し、該差異に基づき、予め設定された訓練完了条件を満たすまで、第二ニューラルネットワークを訓練する、即ち第二ニューラルネットワークのパラメータを調整する。
本開示の実施例が提供するいずれかの偽装防止の検出方法は端末機器およびサーバなどを含むデータ処理能力を有する任意の適当な機器によって実行してもよいが、それらに限定されない。または、本開示の実施例が提供するいずれかの偽装防止の検出方法は、例えばプロセッサがメモリに記憶された対応する命令を呼び出すことで本開示の実施例で言及されたいずれかの偽装防止の検出方法を実行するように、プロセッサによって実行してもよい。以下は説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了できることを理解でき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。
図5は本開示の実施例の偽装防止の検出装置のブロック図である。該実施例の偽装防止の検出装置は本開示の上記図1から図4に示す各偽装防止の検出方法の実施例を実現するために用いることができる。図5に示すように、該実施例の偽装防止の検出装置は、
画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと、を含む。
いくつかの可能な実施形態では、前記第一取得モジュールは、前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得するために用いられる。
いくつかの可能な実施形態では、前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、前記第一取得モジュールは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得するために用いられる。
いくつかの可能な実施形態では、前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含む。
いくつかの可能な実施形態では、前記装置はさらに、前記画像シーケンスの対応するオーディオを取得するための第二取得モジュールと、前記オーディオを分割し、少なくとも一つのオーディオクリップを得るためのオーディオ分割モジュールであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応するオーディオ分割モジュールと、を含む。
いくつかの可能な実施形態では、前記読唇モジュールは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得するための第一取得サブモジュール、および第一前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得るための読唇サブモジュールに用いられる。
いくつかの可能な実施形態では、前記第一取得サブモジュールは、前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得て、そして前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得するために用いられる。
いくつかの可能な実施形態では、前記装置はさらに、前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得るための位置合わせモジュールと、前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定するための位置確定モジュールと、を含み、前記第一取得サブモジュールは、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得するために用いられる。
いくつかの可能な実施形態では、前記第一読唇サブモジュールは、前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力するために用いられる。
いくつかの可能な実施形態では、前記読唇モジュールは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得するための形状取得サブモジュールと、前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得るための第二読唇サブモジュールと、を含む。
いくつかの可能な実施形態では、前記形状取得サブモジュールは、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定するために用いられる。
いくつかの可能な実施形態では、前記形状取得サブモジュールは、前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得るために用いられ、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含む。
いくつかの可能な実施形態では、前記装置はさらに、前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択するための画像選択モジュールを含む。
いくつかの可能な実施形態では、前記画像選択モジュールは、前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択するための選択サブモジュールと、前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定するための第一確定サブモジュールと、を含む。
いくつかの可能な実施形態では、前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含む。
いくつかの可能な実施形態では、前記少なくとも一つの第二画像は前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含む。
いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応する。
いくつかの可能な実施形態では、前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含む。
いくつかの可能な実施形態では、前記第一確定モジュールは、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るための融合サブモジュールと、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定するための第二確定サブモジュールと、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定するための第三確定サブモジュールと、を含む。
いくつかの可能な実施形態では、前記融合サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るために用いられる。
いくつかの可能な実施形態では、前記融合サブモジュールは、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得て、そして前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得るために用いられ、ここで、前記融合認識結果は前記連結結果を含む。
いくつかの可能な実施形態では、前記第二確定サブモジュールは、前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得て、そして前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定するために用いられる。
いくつかの可能な実施形態では、前記装置はさらに、前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得るための音声認識モジュールと、前記音声認識結果と前記指定内容とが一致するかどうかを確定するための第四確定モジュールと、を含み、前記第三確定サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定するために用いられる。
いくつかの可能な実施形態では、前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む。
いくつかの可能な実施形態では、前記装置は、前記指定内容をランダムに生成するための生成モジュールを含む。
いくつかの可能な実施形態では、前記装置はさらに、前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第一本人確認モジュールを含む。
いくつかの可能な実施形態では、前記装置はさらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第二本人確認モジュールを含み、前記第一取得モジュールは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するために用いられる。
いくつかの可能な実施形態では、前記装置はさらに、前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行するための制御モジュールを含む。
いくつかの実施例では、偽装防止の検出装置は以上に記載の偽装防止の検出方法を実行するために用いられたことがあり、それに対して、偽装防止の検出装置は偽装防止の検出方法のステップおよび/またはフローを実行するためのモジュールまたはユニットを含み、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。
また、本開示の実施例は、コンピュータプログラムを記憶するためのメモリと、メモリに記憶された、実行される時に本開示の上記いずれかの実施例に係る偽装防止の検出方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含む別の電子機器を提供する。
図6は本開示の実施例が提供する電子機器の例示的構成模式図である。以下に図6を参照すると、本開示の実施例の端末機器またはサーバの実現に適する電子機器の構成模式図が示される。図6に示すように、該電子機器は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置(CPU)、および/または一つ以上の画像処理装置(GPU)などであり、プロセッサは読み取り専用メモリ(ROM)に記憶されている実行可能命令または記憶部分からランダムアクセスメモリ(RAM)にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはIB(Infiniband)ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリおよび/またはランダムアクセスメモリと通信して実行可能命令を実行し、バスを介して通信部と接続し、通信部によって他の目標機器と通信し、それにより本開示の実施例が提供するいずれかの方法の対応する動作、例えば、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含むことと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと、を完了することができる。
また、RAMには、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。CPU、ROMおよびRAMはバスを介して互いに接続される。RAMが存在する場合、ROMは任意選択的なモジュールとなる。RAMは実行可能命令を記憶するか、または動作時にROMへ実行可能命令を書き込み、実行可能命令によってプロセッサは本開示の上記いずれかの方法の対応する動作を実行する。入力/出力(I/O)インタフェースもバスに接続される。通信部は統合設置してもよいし、また複数のサブモジュール(例えば複数のIBネットワークカード)を有するように設置してもよく、かつバスリンクに存在する。
キーボード、マウスなどを含む入力部分、陰極線管(CRT)、液晶ディスプレイ(LCD)などおよびスピーカーなどを含む出力部分、ハードディスクなどを含む記憶部分、およびLANカード、モデムのネットワークインタフェースカードなどを含む通信部分といった部品は、I/Oインタフェースに接続される。通信部分インターネットのようなネットワークによって通信処理を行う。ドライバも必要に応じてI/Oインタフェースに接続される。取り外し可能な媒体、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバに取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分にインストールされる。
なお、図6に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図6の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばGPUとCPUは分離設置するかまたはGPUをCPUに統合するようにしてもよく、通信部は分離設置するか、またCPUやGPUに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。
特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示のいずれかの実施例が提供する偽装防止の検出方法のステップを対応して実行する対応の命令を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分によってネットワークからダウンロード及びインストールされ、および/または取り外し可能な媒体からインストールされ得る。該コンピュータプログラムはCPUにより実行される時、本開示の方法で限定された上記機能を実行する。
また、本開示の実施例は、機器のプロセッサにおいて運用される時、本開示の上記いずれかの実施例の偽装防止の検出方法を実現するコンピュータ命令を含むコンピュータプログラムをさらに提供する。
また、本開示の実施例はコンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、本開示の上記いずれかの実施例の偽装防止の検出方法を実現するコンピュータ読み取り可能記憶媒体をさらに提供する。
いくつかの実施例では、以上の電子機器またはコンピュータプログラムは以上に記載の偽装防止の検出方法を実行するために用いられたことがあり、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。
本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。
本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読命令を含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。
本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際の適用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

Claims (19)

  1. 電子機器が実行する、偽装防止の検出方法であって、
    画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスは、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、前記画像サブシーケンスは、前記画像シーケンス内の少なくとも一つの画像を含むことと、
    前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、
    前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定すること
    を含み、
    前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することは、
    前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることと、
    前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することと、
    前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することと
    を含み、
    前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることは、
    前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、
    前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと
    を含み、
    前記融合認識結果は、前記連結結果を含む、偽装防止の検出方法。
  2. 画像シーケンスから少なくとも一つの画像サブシーケンスを取得することは、
    前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することを含む請求項1に記載の方法。
  3. 前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、
    前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することは、
    前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含む請求項2に記載の方法。
  4. 前記方法は、
    前記画像シーケンスの対応するオーディオを取得することと、
    前記オーディオを分割し、少なくとも一つのオーディオクリップを得ることであって、前記少なくとも一つのオーディオクリップの各々は、前記指定内容における一つの文字に対応すること
    さらに含む請求項2または請求項3に記載の方法。
  5. 前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることは、
    前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、
    前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ること
    を含む請求項1から4のいずれか一項に記載の方法。
  6. 前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することは、
    前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、
    前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得すること
    を含む請求項5に記載の方法。
  7. 前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることは、
    前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力することを含む請求項5または請求項6に記載の方法。
  8. 前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることは、
    前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、
    前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ること
    を含む請求項1から7のいずれか一項に記載の方法。
  9. 前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することは、
    前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に対して、特徴抽出処理を行い、前記各ターゲット画像の唇部形状特徴を得ることを含み前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含む請求項8に記載の方法。
  10. 前記方法は、
    前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択することと、
    前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定すること
    さらに含む請求項5から9のいずれか一項に記載の方法。
  11. 前記少なくとも一つの第二画像は、前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含む請求項10に記載の方法。
  12. 前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応する請求項1から11のいずれか一項に記載の方法。
  13. 前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することは、
    前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、
    前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定すること
    を含む請求項に記載の方法。
  14. 前記方法は、
    前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、
    前記音声認識結果と前記指定内容とが一致するかどうかを確定すること
    さらに含み、
    前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することは、
    前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含む請求項から13のいずれか一項に記載の方法。
  15. 前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む請求項1から14のいずれか一項に記載の方法。
  16. 画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスは、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、前記画像サブシーケンスは、前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、
    前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、
    前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュール
    を含み、
    前記第一確定モジュールは、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るための融合サブモジュールと、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定するための第二確定サブモジュールと、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定するための第三確定サブモジュールとを含み、
    前記融合サブモジュールは、さらに、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得て、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得るために用いられ、前記融合認識結果は、前記連結結果を含む、偽装防止の検出装置。
  17. コンピュータプログラムを記憶するためのメモリと、
    前記メモリに記憶された、実行される時請求項1から15のいずれか一項に記載の方法を実現するコンピュータプログラムを実行するためのプロセッサ
    を含む電子機器。
  18. コンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、前記コンピュータプログラムはプロセッサにより実行される時請求項1から15のいずれか一項に記載の方法を前記プロセッサに実現させる、コンピュータ読み取り可能記憶媒体。
  19. コンピュータ実行可能な命令を含み、前記コンピュータ実行可能な命令がコンピュータにより実行される時に、請求項1から15のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。
JP2020517577A 2018-09-07 2019-05-31 偽装防止の検出方法および装置、電子機器、記憶媒体 Active JP6934564B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811044838.5 2018-09-07
CN201811044838.5A CN109409204B (zh) 2018-09-07 2018-09-07 防伪检测方法和装置、电子设备、存储介质
PCT/CN2019/089493 WO2020048168A1 (zh) 2018-09-07 2019-05-31 防伪检测方法和装置、电子设备、存储介质

Publications (2)

Publication Number Publication Date
JP2020535538A JP2020535538A (ja) 2020-12-03
JP6934564B2 true JP6934564B2 (ja) 2021-09-15

Family

ID=65464664

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020517577A Active JP6934564B2 (ja) 2018-09-07 2019-05-31 偽装防止の検出方法および装置、電子機器、記憶媒体

Country Status (6)

Country Link
US (1) US20200218916A1 (ja)
JP (1) JP6934564B2 (ja)
KR (1) KR102370694B1 (ja)
CN (1) CN109409204B (ja)
SG (1) SG11202002741VA (ja)
WO (1) WO2020048168A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018033137A1 (zh) * 2016-08-19 2018-02-22 北京市商汤科技开发有限公司 在视频图像中展示业务对象的方法、装置和电子设备
CN109409204B (zh) * 2018-09-07 2021-08-06 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
KR20200056754A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 개인화 립 리딩 모델 생성 방법 및 장치
CN109905764B (zh) * 2019-03-21 2021-08-24 广州国音智能科技有限公司 一种视频中目标人物语音截取方法及装置
CN110895693B (zh) * 2019-09-12 2022-04-26 华中科技大学 一种证件的防伪信息的鉴别方法及鉴别系统
US11580727B2 (en) * 2020-01-06 2023-02-14 Orcam Technologies Ltd. Systems and methods for matching audio and image information
CN111242029A (zh) * 2020-01-13 2020-06-05 湖南世优电气股份有限公司 设备控制方法、装置、计算机设备和存储介质
CN113743160A (zh) * 2020-05-29 2021-12-03 北京中关村科金技术有限公司 活体检测的方法、装置以及存储介质
CN111881726B (zh) * 2020-06-15 2022-11-25 马上消费金融股份有限公司 一种活体检测方法、装置及存储介质
CN112435653A (zh) * 2020-10-14 2021-03-02 北京地平线机器人技术研发有限公司 语音识别方法、装置和电子设备
CN112733636A (zh) * 2020-12-29 2021-04-30 北京旷视科技有限公司 活体检测方法、装置、设备和存储介质
CN112749657A (zh) * 2021-01-07 2021-05-04 北京码牛科技有限公司 一种租房管理方法及系统
CN112712066B (zh) * 2021-01-19 2023-02-28 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备和存储介质
US11967307B2 (en) * 2021-02-12 2024-04-23 Oracle International Corporation Voice communication analysis system
KR102352304B1 (ko) 2021-10-14 2022-01-17 (주)이온케어스 휴대용 음이온 발생장치

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997009683A1 (fr) * 1995-09-01 1997-03-13 Hitachi, Ltd. Systeme de mediatisation d'informations multimedia contenant des informations audio
US6567775B1 (en) * 2000-04-26 2003-05-20 International Business Machines Corporation Fusion of audio and video based speaker identification for multimedia information access
US7076429B2 (en) * 2001-04-27 2006-07-11 International Business Machines Corporation Method and apparatus for presenting images representative of an utterance with corresponding decoded speech
US20060206724A1 (en) * 2005-02-16 2006-09-14 David Schaufele Biometric-based systems and methods for identity verification
JP5655668B2 (ja) * 2011-03-31 2015-01-21 株式会社Jvcケンウッド 撮像装置、画像処理方法及びプログラム
US9202105B1 (en) * 2012-01-13 2015-12-01 Amazon Technologies, Inc. Image analysis for user authentication
US9159321B2 (en) * 2012-02-27 2015-10-13 Hong Kong Baptist University Lip-password based speaker verification system
CN103324918B (zh) * 2013-06-25 2016-04-27 浙江中烟工业有限责任公司 一种人脸识别与唇形识别相配合的身份认证方法
US9495586B1 (en) * 2013-09-18 2016-11-15 IDChecker, Inc. Identity verification using biometric data
CN104598796B (zh) * 2015-01-30 2017-08-25 科大讯飞股份有限公司 身份识别方法及系统
CN104834900B (zh) * 2015-04-15 2017-12-19 常州飞寻视讯信息科技有限公司 一种联合声像信号进行活体检测的方法和系统
CN105518708B (zh) * 2015-04-29 2018-06-12 北京旷视科技有限公司 用于验证活体人脸的方法、设备和计算机程序产品
CN106203235B (zh) * 2015-04-30 2020-06-30 腾讯科技(深圳)有限公司 活体鉴别方法和装置
JP2017044778A (ja) * 2015-08-25 2017-03-02 大阪瓦斯株式会社 認証装置
CN106529379A (zh) * 2015-09-15 2017-03-22 阿里巴巴集团控股有限公司 一种活体识别方法及设备
CN106572049B (zh) * 2015-10-09 2019-08-27 腾讯科技(深圳)有限公司 一种身份验证方法及装置
US10026417B2 (en) * 2016-04-22 2018-07-17 Opentv, Inc. Audio driven accelerated binge watch
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
JP6876941B2 (ja) * 2016-10-14 2021-05-26 パナソニックIpマネジメント株式会社 バーチャルメイクアップ装置、バーチャルメイクアップ方法及びバーチャルメイクアッププログラム
CN106778496A (zh) * 2016-11-22 2017-05-31 重庆中科云丛科技有限公司 活体检测方法及装置
CN107437019A (zh) * 2017-07-31 2017-12-05 广东欧珀移动通信有限公司 唇语识别的身份验证方法和装置
CN109409204B (zh) * 2018-09-07 2021-08-06 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质
CN109271915B (zh) * 2018-09-07 2021-10-08 北京市商汤科技开发有限公司 防伪检测方法和装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN109409204B (zh) 2021-08-06
US20200218916A1 (en) 2020-07-09
JP2020535538A (ja) 2020-12-03
WO2020048168A1 (zh) 2020-03-12
KR20200047650A (ko) 2020-05-07
CN109409204A (zh) 2019-03-01
SG11202002741VA (en) 2020-04-29
KR102370694B1 (ko) 2022-03-04

Similar Documents

Publication Publication Date Title
JP6934564B2 (ja) 偽装防止の検出方法および装置、電子機器、記憶媒体
US10992666B2 (en) Identity verification method, terminal, and server
CN109271915B (zh) 防伪检测方法和装置、电子设备、存储介质
KR101494874B1 (ko) 사용자 인증 방법, 이를 실행하는 장치 및 이를 저장한 기록 매체
US10552698B2 (en) System for multiple algorithm processing of biometric data
Giot et al. A new soft biometric approach for keystroke dynamics based on gender recognition
CN113366487A (zh) 基于表情组别的操作确定方法、装置及电子设备
EP2704052A1 (en) Transaction verification system
US20060158307A1 (en) System and method for face recognition
KR101464446B1 (ko) 얼굴 인식과 자세 추정을 이용한 개인 인증 방법 및 그 장치
US20210406351A1 (en) Non-face-to-face authentication system
KR20190122206A (ko) 신분 인증 방법 및 장치, 전자 기기, 컴퓨터 프로그램 및 저장 매체
WO2018061786A1 (ja) 生体認証装置
US20230012235A1 (en) Using an enrolled biometric dataset to detect adversarial examples in biometrics-based authentication system
JP4468756B2 (ja) 画像の相関ベース類似度を演算する類似度演算装置、認識装置、類似度演算方法、認識方法、照合用プログラム及びそれを記録した記録媒体
TWI325568B (en) A method for face varification
CN117853103A (zh) 基于智能手环的支付系统激活方法
Gonzalez et al. Improving presentation attack detection for ID cards on remote verification systems
WO2022244357A1 (ja) 生体の認証システムおよび認証方法
KR101116737B1 (ko) 요주의 인물 식별 시스템
EP3885944A1 (en) Authentication system, authentication device, authentication method, and program
KR102523598B1 (ko) 출입자 신원 무인 인증시스템
KR20090119127A (ko) 얼굴 인식을 이용한 인증 방법 및 장치
KR102158320B1 (ko) 사용자 인증 방법, 사용자 인증 장치, 그리고 사용자 인증 프로그램
Kumar et al. An Advance Approach of Face Recognition using PCA and Region Base Color Segmentation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210812

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210823

R150 Certificate of patent or registration of utility model

Ref document number: 6934564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250