JP6934564B2

JP6934564B2 - 偽装防止の検出方法および装置、電子機器、記憶媒体

Info

Publication number: JP6934564B2
Application number: JP2020517577A
Authority: JP
Inventors: ▲呉▼立威; ▲張▼瑞; ▲閻▼俊▲傑▼; 彭▲義▼▲剛▼
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2018-09-07
Filing date: 2019-05-31
Publication date: 2021-09-15
Anticipated expiration: 2039-05-31
Also published as: JP2020535538A; KR102370694B1; US20200218916A1; SG11202002741VA; KR20200047650A; CN109409204B; CN109409204A; WO2020048168A1

Description

本開示は２０１８年９月７日に中国特許局に提出された、出願番号がＣＮ２０１８１１０４４８３８．５であり、出願名称が「偽装防止の検出方法および装置、電子機器、記憶媒体」の中国特許出願の優先権を主張し、その開示の全てが引用によって本開示に組み込まれる。

本開示はコンピュータビジョンの技術分野に関し、特に偽装防止の検出方法および装置、電子機器、ならびに記憶媒体に関する。

顔認識技術は効果的な本人認証と識別技術として、便利で使用しやすく、ユーザにやさしく、非接触であるなどの特徴を有するため、現在、知能映像、セキュリティ監視、モバイルデバイスロック解除、入退室システムロック解除、顔認証決済などに幅広く応用されている。深層学習技術の急速な発展に伴い、顔認識の正確度は指紋認識の正確度よりも高くなっている。しかし、指紋などの他の生体特徴情報に比べ、顔データはより入手しやすく、顔認識システムも不正なユーザからの攻撃を受けやすく、どのように顔認識の安全性を向上させるかは当分野において広く注目されている課題である。

本開示の実施例は偽装防止検出の技術的解決手段を提供する。

本開示の実施例の一態様によれば、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含むことと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと、を含む偽装防止の検出方法が提供される。

いくつかの可能な実施形態では、画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することを含む。

いくつかの可能な実施形態では、前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、前記画像シーケンスに対応するオーディオの分割結果に基づき、画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含む。

いくつかの可能な実施形態では、前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含む。

いくつかの可能な実施形態ではさらに、前記画像シーケンスの対応するオーディオを取得することと、前記オーディオを分割し、少なくとも一つのオーディオクリップを得ることであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応することと、を含む。

いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含む。

いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得する前記ステップは、前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと、を含む。

いくつかの可能な実施形態ではさらに、前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得ることと、前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定することと、を含み、前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得する前記ステップは、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得することを含む。

いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得る前記ステップは、前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力することを含む。

いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含む。

いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得する前記ステップは、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定することを含む。

いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定する前記ステップは、前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得ることを含み、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含む。

いくつかの可能な実施形態ではさらに、前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択することを含む。

いくつかの可能な実施形態では、前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択する前記ステップは、前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択することと、前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定することと、を含む。

いくつかの可能な実施形態では、前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含む。

いくつかの可能な実施形態では、前記少なくとも一つの第二画像は前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含む。

いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応する。

いくつかの可能な実施形態では、前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含む。

いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する前記ステップは、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることと、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することと、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することと、を含む。

いくつかの可能な実施形態では、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含む。

いくつかの可能な実施形態では、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと、を含み、ここで、前記融合認識結果は前記連結結果を含む。

いくつかの可能な実施形態では、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する前記ステップは、前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと、を含む。

いくつかの可能な実施形態ではさらに、前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、前記音声認識結果と前記指定内容とが一致するかどうかを確定することと、を含み、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する前記ステップは、前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含む。

いくつかの可能な実施形態では、前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む。

いくつかの可能な実施形態では、前記方法はさらに、前記指定内容をランダムに生成することを含む。

いくつかの可能な実施形態では、前記方法はさらに、前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含む。

いくつかの可能な実施形態では、前記方法はさらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含み、画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含む。

いくつかの可能な実施形態では、前記方法はさらに、前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行することを含む。

本開示の実施例の別の一態様によれば、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと、を含む偽装防止の検出装置が提供される。

本開示の実施例のさらに別の一態様によれば、コンピュータプログラムを記憶するためのメモリと、前記メモリに記憶された、実行される時に上記いずれかの実施例に記載の偽装防止の検出方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含む電子機器が提供される。

本開示の実施例のさらに別の一態様によれば、コンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、上記いずれかの実施例に記載の偽装防止の検出方法を実現するコンピュータ読み取り可能記憶媒体が提供される。

本開示の上記実施例が提供する偽装防止検出の解決手段に基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、該少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得て、そして少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する。本開示の実施例は画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇結果を解析することで偽装防止検出を行い、偽装防止検出の正確度および信頼性を向上させる。

以下、図面および実施例を通じて本開示の技術的解決手段をさらに詳しく説明する。
例えば、本願は以下の項目を提供する。
（項目１）
画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含むことと、
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと、を含むことを特徴とする偽装防止の検出方法。
（項目２）
画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、
前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することを含むことを特徴とする項目１に記載の方法。
（項目３）
前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、
前記画像シーケンスに対応するオーディオの分割結果に基づき、画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得する前記ステップは、
前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含むことを特徴とする項目２に記載の方法。
（項目４）
前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含むことを特徴とする項目３に記載の方法。
（項目５）
さらに、
前記画像シーケンスの対応するオーディオを取得することと、
前記オーディオを分割し、少なくとも一つのオーディオクリップを得ることであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応することと、を含むことを特徴とする項目２から４のいずれか一項に記載の方法。
（項目６）
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含むことを特徴とする項目１から５のいずれか一項に記載の方法。
（項目７）
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得する前記ステップは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと、を含むことを特徴とする項目６に記載の方法。
（項目８）
さらに、
前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得ることと、
前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定することと、を含み、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得する前記ステップは、
前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得することを含むことを特徴とする項目６または７に記載の方法。
（項目９）
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得る前記ステップは、
前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力することを含むことを特徴とする項目６から８のいずれか一項に記載の方法。
（項目１０）
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前記ステップは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、
前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含むことを特徴とする項目１から９のいずれか一項に記載の方法。
（項目１１）
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得する前記ステップは、
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定することを含むことを特徴とする項目１０に記載の方法。
（項目１２）
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定する前記ステップは、
前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得ることを含み、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含むことを特徴とする項目１１に記載の方法。
（項目１３）
さらに、
前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択することを含むことを特徴とする項目６から１２のいずれか一項に記載の方法。
（項目１４）
前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択する前記ステップは、
前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択することと、
前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定することと、を含むことを特徴とする項目１３に記載の方法。
（項目１５）
前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含むことを特徴とする項目１４に記載の方法。
（項目１６）
前記少なくとも一つの第二画像は、前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含むことを特徴とする項目１４または１５に記載の方法。
（項目１７）
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応することを特徴とする項目１から１６のいずれか一項に記載の方法。
（項目１８）
前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含むことを特徴とする項目１７に記載の方法。
（項目１９）
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する前記ステップは、
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることと、
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することと、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することと、を含むことを特徴とする項目１から１８のいずれか一項に記載の方法。
（項目２０）
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含むことを特徴とする項目１９に記載の方法。
（項目２１）
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと、を含み、ここで、前記融合認識結果は前記連結結果を含むことを特徴とする項目２０に記載の方法。
（項目２２）
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する前記ステップは、
前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと、を含むことを特徴とする項目１９から２１のいずれか一項に記載の方法。
（項目２３）
さらに、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定することと、を含み、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する前記ステップは、
前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含むことを特徴とする項目１９から２２のいずれか一項に記載の方法。
（項目２４）
前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含むことを特徴とする項目１から２３のいずれか一項に記載の方法。
（項目２５）
さらに、
前記指定内容をランダムに生成することを含むことを特徴とする項目１から２４のいずれか一項に記載の方法。
（項目２６）
さらに、
前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含むことを特徴とする項目１から２５のいずれか一項に記載の方法。
（項目２７）
さらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含み、
画像シーケンスから少なくとも一つの画像サブシーケンスを取得する前記ステップは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含むことを特徴とする項目１から２５のいずれか一項に記載の方法。
（項目２８）
さらに、
前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行することを含むことを特徴とする項目２６または２７に記載の方法。
（項目２９）
画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと、を含むことを特徴とする偽装防止の検出装置。
（項目３０）
前記第一取得モジュールは、前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得するために用いられることを特徴とする項目２９に記載の装置。
（項目３１）
前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、
前記第一取得モジュールは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得するために用いられることを特徴とする項目３０に記載の装置。
（項目３２）
前記オーディオクリップの時間情報は、前記オーディオクリップの時間長、前記オーディオクリップの開始時刻、前記オーディオクリップの終了時刻のうちの一つまたは任意の複数を含むことを特徴とする項目３１に記載の装置。
（項目３３）
さらに、
前記画像シーケンスの対応するオーディオを取得するための第二取得モジュールと、
前記オーディオを分割し、少なくとも一つのオーディオクリップを得るためのオーディオ分割モジュールであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応するオーディオ分割モジュールと、を含むことを特徴とする項目３０から３２のいずれか一項に記載の装置。
（項目３４）
前記読唇モジュールは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得するための第一取得サブモジュール、および
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得るための第一読唇サブモジュールに用いられることを特徴とする項目２９から３３のいずれか一項に記載の装置。
（項目３５）
前記第一取得サブモジュールは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得て、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得するために用いられることを特徴とする項目３４に記載の装置。
（項目３６）
さらに、
前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得るための位置合わせモジュールと、
前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定するための位置確定モジュールと、を含み、
前記第一取得サブモジュールは、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得するために用いられることを特徴とする項目３４または３５に記載の装置。
（項目３７）
前記第一読唇サブモジュールは、
前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力するために用いられることを特徴とする項目３４から３６のいずれか一項に記載の装置。
（項目３８）
前記読唇モジュールは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得するための形状取得サブモジュールと、
前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得るための第二読唇サブモジュールと、を含むことを特徴とする項目２９から３７のいずれか一項に記載の装置。
（項目３９）
前記形状取得サブモジュールは、
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定するために用いられることを特徴とする項目３８に記載の装置。
（項目４０）
前記形状取得サブモジュールは、
前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得るために用いられ、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含むことを特徴とする項目３９に記載の装置。
（項目４１）
さらに、
前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択するための画像選択モジュールを含むことを特徴とする項目３４から４０のいずれか一項に記載の装置。
（項目４２）
前記画像選択モジュールは、
前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択するための選択サブモジュールと、
前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定するための第一確定サブモジュールと、を含むことを特徴とする項目４１に記載の装置。
（項目４３）
前記予め設定された品質指標は、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することのうちの一つまたは任意の複数を含むことを特徴とする項目４２に記載の装置。
（項目４４）
前記少なくとも一つの第二画像は、前記第一画像の前に位置しかつ前記第一画像に隣接する少なくとも一つの画像、および前記第一画像の後ろに位置しかつ前記第一画像に隣接する少なくとも一つの画像を含むことを特徴とする項目４２または４３に記載の装置。
（項目４５）
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは前記指定内容における一つの文字に対応することを特徴とする項目２９から４４のいずれか一項に記載の装置。
（項目４６）
前記指定内容における文字は、数字、英文字、英単語、漢字、符号のいずれか一つまたは複数を含むことを特徴とする項目４５に記載の装置。
（項目４７）
前記第一確定モジュールは、
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るための融合サブモジュールと、
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定するための第二確定サブモジュールと、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定するための第三確定サブモジュールと、を含むことを特徴とする項目２９から４６のいずれか一項に記載の装置。
（項目４８）
前記融合サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るために用いられることを特徴とする項目４７に記載の装置。
（項目４９）
前記融合サブモジュールは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得て、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得るために用いられ、ここで、前記融合認識結果は前記連結結果を含むことを特徴とする項目４８に記載の装置。
（項目５０）
前記第二確定サブモジュールは、前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得て、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定するために用いられることを特徴とする項目４７から４９のいずれか一項に記載の装置。
（項目５１）
さらに、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得るための音声認識モジュールと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定するための第四確定モジュールと、を含み、
前記第三確定サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定するために用いられることを特徴とする項目４７から５０のいずれか一項に記載の装置。
（項目５２）
前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含むことを特徴とする項目２９から５１のいずれか一項に記載の装置。
（項目５３）
さらに、
前記指定内容をランダムに生成するための生成モジュールを含むことを特徴とする項目２９から５２のいずれか一項に記載の装置。
（項目５４）
さらに、
前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第一本人確認モジュールを含むことを特徴とする項目２９から５３のいずれか一項に記載の装置。
（項目５５）
さらに、
予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第二本人確認モジュールを含み、
前記第一取得モジュールは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するために用いられることを特徴とする項目２９から５３のいずれか一項に記載の装置。
（項目５６）
さらに、
前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行するための制御モジュールを含むことを特徴とする項目５４または５５に記載の装置。
（項目５７）
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶された、実行される時に上記項目１から２８のいずれか一項に記載の方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含むことを特徴とする電子機器。
（項目５８）
コンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、上記項目１から２８のいずれか一項に記載の方法を実現することを特徴とするコンピュータ読み取り可能記憶媒体。

本開示の実施例の偽装防止の検出方法の概略的フローチャートである。本開示の実施例の偽装防止の検出方法の別の概略的フローチャートである。本開示の実施例における一つの混同行列およびその応用例の模式図である。本開示の実施例の偽装防止の検出方法の別の概略的フローチャートである。本開示の実施例の偽装防止の検出装置のブロック図である。本開示の電子機器の応用例の構成模式図である。

明細書の一部を構成する図面は、本開示の実施例を説明し、その説明と共に本開示の原理を解釈することに用いられる。図面を参照し、以下の詳細な説明により本開示をより明瞭に理解することができる。

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は実際に説明的なものに過ぎず、本開示及びその適用または使用へのなんらの制限にもならない。関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部と見なすべきである。なお、類似する符号及び英文字は以下の図面において類似項目を表し、従って、ある一項が一つの図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本開示の実施例は端末機器、コンピュータシステム、サーバなどの電子機器に適用可能であり、それは他の様々な共通または専用計算システム環境または構成と共に動作可能である。端末機器、コンピュータシステム、サーバなどの電子機器との併用に適する公知の計算システム、環境及び／または構成の例は、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサに基づくシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記の任意のシステムを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

端末機器、コンピュータシステム、サーバなどの電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能命令（例えば、プログラムモジュール）の一般的な言語環境において記述できる。通常、プログラムモジュールはルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよく、それらは特定のタスクを実行するかまたは特定の抽象データ型を実現する。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施でき、分散型クラウドコンピューティング環境において、タスクは通信ネットワークにわたってリンクされた遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたは遠隔計算システムの記憶媒体に存在してよい。

図１は本開示の実施例の偽装防止の検出方法の概略的フローチャートである。

１０２で、画像シーケンスから少なくとも一つの画像サブシーケンスを取得する。

ここで、前記画像シーケンスは指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、各画像サブシーケンスは画像シーケンス内の少なくとも一つの画像を含む。

画像シーケンスは指定内容を読むようにユーザに促した後に撮影したビデオに由来してもよい。本開示の実施例では、様々な方式で画像シーケンスを取得可能であり、一例では、一つ以上のカメラによって画像シーケンスを収集してもよく、別の一例では、他の機器から画像シーケンスを取得してもよく、例えばサーバによって端末機器またはカメラにより送信される画像シーケンスを受信するなどのようにしてもよく、本開示の実施例は画像シーケンスを取得する方式を限定しない。

いくつかの任意選択的な例では、上記指定内容は偽装防止検出を目的としてユーザに朗読してもらう内容であり、指定内容は少なくとも一つの文字を含んでもよく、ここで、該文字は英文字、漢字、数字または単語であってもよい。例えば、指定内容は０〜９のいずれか一つまたは複数の数字、あるいはＡ〜Ｚのいずれか一つまたは複数の英文字、あるいは予め設定された複数の漢字のいずれか一つまたは複数、あるいは予め設定された複数の単語のいずれか一つまたは複数を含んでもよいし、あるいは数字、英文字、単語および漢字の少なくとも二つの任意の組み合わせであってもよく、本開示の実施例はこれを限定しない。また、上記指定内容はリアルタイムに生成される指定内容、例えばランダムに生成されるものであってもよいし、または、予め設置された固定内容であってもよく、本開示の実施例はこれを限定しない。

任意選択的に、画像シーケンスを少なくとも一つの画像サブシーケンスに区分してもよく、例えば、画像シーケンスに含まれる複数の画像を時系列関係に基づいて少なくとも一つの画像サブシーケンスに区分し、各画像サブシーケンスに少なくとも一つの連続画像を含ませるようにしてもよく、本開示の実施例は画像サブシーケンスを区分する方式を限定しない。または、該少なくとも一つの画像サブシーケンスは画像シーケンスの一部のみとし、残りの部分は偽装防止検出用としないようにしてもよく、本開示の実施例はこれを限定しない。

任意選択的に、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスはユーザが読む／読み上げる一つの文字に対応し、それに対して、少なくとも一つの画像サブシーケンスの数はユーザが読む／読み上げる文字の数に等しくしてもよい。

任意選択的に、上記指定内容における文字は例えば、数字、英文字、英単語、漢字、符号などのいずれか一つまたは複数を含んでもよいが、これらに限定されない。そのうち、任意選択的に、指定内容における文字が英単語または漢字である場合、これらの英単語または漢字文字を含む辞書、辞書に含まれる英単語または漢字文字、および各英単語または漢字文字の対応する番号情報を予め定義することができる。

任意選択的に、いくつかの実施例では、１０２の前に、上記指定内容をランダムに生成するか、または他の所定の方式で上記指定内容を生成するようにしてもよい。このように、上記指定内容をリアルタイムに生成することで、ユーザが事前に指定内容を知って意図的に偽造してしまうことを回避し、偽装防止検出の信頼性をさらに向上させることができる。

任意選択的に、いくつかの実施例では、１０２の前に、指示情報を発信し、ユーザに指定内容を読むことを促すようにしてもよい。ここで、該指示は音声またはテキストまたは動画などまたはそれらの任意の組み合わせであってもよく、本開示の実施例はこれを限定しない。

１０４で、上記少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得る。

いくつかの実施例では、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスから読唇を行い、各画像サブシーケンスの読唇結果を得るようにしてもよい。

１０６で、上記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する。

つまり、読唇結果に基づき、ユーザが読んだ内容が指定内容に一致するかどうかを確定し、該確定した結果に基づいてユーザが指定内容を読むという行為が偽装行為であるかどうかを確定することができる。

顔は人それぞれに固有の生体特徴であり、従来のパスワードなどの認証方式に比べ、顔による本人認証は高い安全性を有する。しかし、静的な顔は偽装される可能性が依然として存在するため、静的顔による非音声生体検出には一定の安全リスクが依然として存在する。従って、顔の偽装防止検出にはより安全かつ効果的な偽装防止検出メカニズムが求められている。

本開示の上記実施例が提供する偽装防止の検出方法に基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、該少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得て、そして少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定する。本開示の実施例は画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、少なくとも一つの画像サブシーケンスを解析することで読唇を行い、少なくとも一つの画像サブシーケンスの読唇結果に基づき偽装防止検出を実現し、簡単に対話可能で、偽装防止検出の信頼性を向上させる。

いくつかの実施例では、偽装防止の検出方法はさらに、前記画像シーケンスの対応するオーディオを取得するここと、上記オーディオを分割し、少なくとも一つのオーディオクリップを得ることと、を含んでもよい。このように、オーディオを分割してオーディオ分割結果を得る。ここで、オーディオ分割結果はそれぞれ一つ以上の文字に対応する少なくとも一つのオーディオクリップを含んでもよく、そのうち、ここの文字は任意のタイプ、例えば、数字、英文字、漢字、他の符号などであってもよい。

具体的には、ユーザが指定内容を読むオーディオデータを取得し、画像シーケンスの対応するオーディオを指定内容における少なくとも一つの文字の対応する少なくとも一つのオーディオクリップに分割し、該少なくとも一つのオーディオクリップをオーディオの分割結果とするようにしてもよい。このように、オーディオの分割結果は前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含む。

いくつかの実施例では、該少なくとも一つのオーディオクリップの各々は指定内容における一つの文字に対応するが、本開示の実施例はこれを限定しない。

図１に示す方法のいくつかの実施例では、動作１０２は、前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含む。

このように、オーディオ分割結果に基づき、画像シーケンスを分割し、それによって得られた各画像サブシーケンスを一つ以上の文字に対応させる。

そのうちのいくつかの任意選択的な例では、前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから少なくとも一つの画像サブシーケンスを取得するステップは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含む。

ここで、オーディオクリップの時間情報は例えば、オーディオクリップの時間長、オーディオクリップの開始時刻、オーディオクリップの終了時刻などの一つまたは任意の複数を含んでもよいが、これらに限定されない。例えば、画像シーケンスにおけるあるオーディオクリップの対応する時間帯に存在する画像を一つの画像サブシーケンスとして区分し、それによって該画像サブシーケンスおよび該オーディオクリップを一つ以上の同一の文字に対応させる。

本開示の実施例はオーディオの分割結果に基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得し、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数以下である。いくつかの実施例では、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数に等しく、かつ、上記少なくとも一つの画像サブシーケンスは指定内容に含まれる少なくとも一つの文字に一対一で対応し、各画像サブシーケンスは指定内容における一つの文字に対応する。

任意選択的に、上記指定内容における文字は例えば、数字、英文字、英単語、漢字、符号などのいずれか一つまたは複数を含んでもよいが、これらに限定されない。そのうち、指定内容における文字は英単語または漢字である場合、これらの英単語または漢字文字を含む辞書、辞書に含まれる英単語または漢字文字、および各英単語または漢字文字の対応する番号情報を予め定義することができる。

少なくとも一つの画像サブシーケンスを得てから、該少なくとも一つの画像サブシーケンス内の各画像サブシーケンスを処理し、各画像サブシーケンスの読唇結果を得ることができる。

いくつかの実施例では、画像サブシーケンスから少なくとも二つの唇部領域画像を取得し、少なくとも二つの唇部領域画像を処理することで、画像サブシーケンスの読唇結果を得るようにしてもよい。ここで、該少なくとも二つの唇部領域画像は画像サブシーケンスに含まれる各画像から切り出してもよいし、画像サブシーケンスに含まれる一部の画像から切り出してもよく、例えば、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択し、該少なくとも二つのターゲット画像内の各ターゲット画像から唇部領域画像を切り出すようにしてもよく、本開示の実施例はこれを限定しない。

いくつかの実施例では、画像サブシーケンスに含まれる少なくとも二つのターゲット画像の特徴抽出処理を行い、各ターゲット画像の唇部形状を特徴付けるための特徴情報を得て、該少なくとも二つのターゲット画像の唇部形状を特徴付けるための特徴情報に基づき、画像サブシーケンスの読唇結果を得る。ここで、該少なくとも二つのターゲット画像は該画像サブシーケンスにおける全てまたは一部の画像であってもよく、本開示の実施例はこれを限定しない。

いくつかの実施例では、動作１０４は、画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含んでもよい。

例を挙げれば、該画像サブシーケンスから少なくとも二つのターゲット画像を選択してもよく、本開示はターゲット画像の具体的な選択方式を限定しない。ターゲット画像を確定してから、ターゲット画像から唇部領域画像を取得できる。

いくつかの可能な実施形態では、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得するステップは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと、を含む。

任意選択的に、上記ターゲット画像は具体的に顔面部領域画像または収集した元画像であってもよく、本開示の実施例はこれを限定しない。このとき、ターゲット画像のキーポイント検出を直接行い、顔面部キーポイントの情報を得るようにしてもよい。または、ターゲット画像の顔検出を行って顔面部領域画像を得て、さらに顔面部領域画像のキーポイント検出を行い、顔面部キーポイントの情報を得るようにしてもよい。任意選択的に、ニューラルネットワーク（例えば畳み込みニューラルネットワーク）によってターゲット画像のキーポイント検出を行ってもよく、本開示の実施例はキーポイント検出の具体的な実施形態を限定しない。

本開示の実施例では、顔面部キーポイントは複数のキーポイント、例えば唇部キーポイント、目キーポイント、眉キーポイント、顔面部エッジキーポイントなどの一つ以上を含んでもよい。顔面部キーポイントの情報は複数のキーポイントのうちの少なくとも一つのキーポイントの位置情報を含んでもよく、例えば、該顔面部キーポイントの情報は唇部キーポイントの位置情報を含むか、または他の情報をさらに含むことであり、本開示の実施例は顔面部キーポイントの具体的な実施形態および顔面部キーポイントの情報の具体的な実施形態を限定しない。

いくつかの可能な実施形態では、顔面部キーポイントに含まれる唇部キーポイントの位置情報に基づき、ターゲット画像から唇部領域画像を取得してもよい。または、顔面部キーポイントに唇部キーポイントが含まれない場合、顔面部キーポイントに含まれる少なくとも一つのキーポイントの位置情報に基づき、唇部領域の予測位置を確定し、唇部領域の予測位置に基づき、ターゲット画像から唇部領域画像を取得するようにしてもよく、本開示の実施例は唇部領域画像を取得する具体的な実施形態を限定しない。少なくとも二つのターゲット画像の唇部領域画像を取得してから、該少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることができる。

いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力するようにしてもよい。

例を挙げれば、第一ニューラルネットワークによって、唇部領域画像の特徴抽出処理を行い、唇部領域画像の唇部形状特徴を得て、該唇部形状特徴に基づいて読唇結果を確定するようにしてもよい。任意選択的に、少なくとも二つのターゲット画像内の各ターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して処理し、画像サブシーケンスの読唇結果を得るようにしてもよく、該第一ニューラルネットワークは画像サブシーケンスの読唇結果を出力する。一例では、第一ニューラルネットワークによって、唇部形状特徴に基づいて少なくとも一つの分類結果を確定し、少なくとも一つの分類結果に基づいて読唇結果を確定するようにしてもよい。ここの分類結果は例えば、予め設定された複数の文字の各々に分類される確率、または最終的に分類される文字を含んでもよく、ここの文字は例えば数字、字母、漢字、英単語または他の形式などであってもよく、本開示の実施例は唇部形状特徴に基づいて読唇結果を得る具体的な実施形態を限定しない。第一ニューラルネットワークは例えば畳み込みニューラルネットワークであってもよく、本開示は第一ニューラルネットワークのタイプを限定しない。

いくつかの可能な実施形態では、顔面部画像の角度という問題を考慮する上で、唇部キーポイントの位置情報に基づき、ターゲット画像から唇部領域画像を取得する前に、さらに、
前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得ることと、
前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定することと、を含み、
それに対して、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得する。

つまり、位置合わせ処理に基づき、顔面部キーポイント（例えば唇部キーポイント）の位置合わせ処理後のターゲット画像における位置情報を確定し、唇部キーポイントの位置合わせ処理後のターゲット画像における位置情報に基づき、位置合わせ処理後のターゲット画像から唇部領域画像を取得することができる。このように、位置合わせ処理後のターゲット画像から唇部領域画像を取得すると、向きが正しい唇部領域画像を得ることができ、角度が存在する唇部領域画像に比べ、読唇の正確性を向上させることができる。本開示は位置合わせ処理の具体的な方式を限定しない。

いくつかの可能な実施形態では、動作１０４は、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと、を含む。

例を挙げれば、該少なくとも二つのターゲット画像は画像サブシーケンスに含まれる複数の画像の一部または全てであってもよく、該少なくとも二つのターゲット画像内の各ターゲット画像の唇部形状情報を取得することができる。ここで、ターゲット画像の唇部形状情報は前記唇部形状特徴を含み、様々な方式でターゲット画像の唇部形状情報を取得することができる。一例では、機械学習アルゴリズムによってターゲット画像を処理し、ターゲット画像の唇部形状特徴を得るようにしてもよく、例えば、サポートベクターマシンによる方法によってターゲット画像を処理し、ターゲット画像の唇部形状特徴を得ることができる。

いくつかの可能な実施形態では、該少なくとも二つのターゲット画像内の各ターゲット画像の唇部形状情報を得てから、ニューラルネットワークによって該画像サブシーケンスの少なくとも二つのターゲット画像の唇部形状情報を処理し、画像サブシーケンスの読唇結果を出力するようにしてもよい。このとき、任意選択的に、少なくとも二つのターゲット画像の少なくとも一部をニューラルネットワークに入力して処理してもよく、ニューラルネットワークは画像サブシーケンスの読唇結果を出力する。または、他の方式で少なくとも二つのターゲット画像の唇部形状情報を処理してもよく、本開示の実施例はこれを限定しない。

例を挙げれば、少なくとも二つのターゲット画像内の各ターゲット画像から唇部領域画像を取得してもよい。各ターゲット画像の顔検出を行い、顔部領域を得て、各ターゲット画像から顔部領域画像を抽出し、抽出した顔部領域画像のサイズを正規化し、サイズが正規化された顔部領域画像における顔部領域と唇部特徴点との相対位置に基づき、サイズが正規化された顔部領域画像から唇部領域画像を抽出し、さらに各ターゲット画像の唇部形状情報を確定するようにしてもよい。

いくつかの可能な実施形態では、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定するステップは、
前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得ることを含む。

例を挙げれば、ニューラルネットワーク（例えば畳み込みニューラルネットワーク）によって唇部領域画像の特徴抽出処理を行い、唇部領域画像の唇部形状特徴を取得するようにしてもよい。なお、他の方式を採用して唇部形状特徴を取得してもよいことを理解すべきであり、本開示の実施例は唇部領域画像の唇部形状特徴を取得する方式を限定しない。

このような方式で、少なくとも二つのターゲット画像内の各ターゲット画像の唇部形状情報に基づき、画像サブシーケンスの読唇結果を確定することができる。

いくつかの可能な実施形態では、動作１０４で前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得る前に、本開示の実施例に係る方法はさらに、画像サブシーケンスから少なくとも二つのターゲット画像を選択することを含んでもよい。つまり、画像サブシーケンスに含まれる複数の画像から一部または全ての画像をターゲット画像として選択し、それによって後続のステップで選択した少なくとも二つのターゲット画像から読唇を行うことができる。ここで、複数の画像をランダムに選択するか、または画像の解像度などの指標に基づいて選択するようにしてもよく、本開示はターゲット画像の具体的な選択方式を限定しない。

いくつかの任意選択的な例では、画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択し、そして第一画像および第一画像に隣接する少なくとも一つの第二画像をターゲット画像として確定するように、画像サブシーケンスから少なくとも二つのターゲット画像を選択してもよい。つまり、画像の品質指標を予め設定し、それによって該予め設定された品質指標に基づいてターゲット画像を選択することができる。ここの予め設定された品質指標は例えば、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することなどの一つまたは任意の複数を含んでもよいが、これらに限定されない。完全な唇部エッジを含む画像によって、唇部領域画像をより容易に分割可能であり、唇部の解像度が予め設定された第一条件および／または光強度が予め設定された第二条件に達する画像によって、唇部形状特徴をより容易に抽出可能である。本開示は予め設定された品質指標、第一条件および第二条件の選択をいずれも限定しない。

いくつかの可能な実施形態では、まず画像サブシーケンスに含まれる複数の画像から予め設定された品質指標を満たす第一画像を選択し、続いて第一画像に隣接する少なくとも一つの第二画像（例えば、第一画像の前または後ろの隣接する映像フレーム）を選択し、選択した第一画像および第二画像をターゲット画像とするようにしてもよい。品質指標を満たす画像およびそれに隣接する画像を選択することで、画像の唇部形状特徴をより容易に抽出可能であり、隣接画像の唇部形状特徴間の差異を解析することで、より正確な読唇結果を得ることが可能である。

いくつかの可能な実施形態では、該少なくとも二つのターゲット画像は画像サブシーケンスに含まれる複数の画像の一部であり、このとき、該方法はさらに、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択することを含む。

本開示の実施例では、様々な方式でフレームを選択できる。例えば、そのうちのいくつかの実施例では、画像品質に基づいてフレームを選択してもよい。一例では、画像サブシーケンスに含まれる複数の画像から予め設定された品質指標を満たす第一画像を選択し、該第一画像および該第一画像に隣接する少なくとも一つの第二画像をターゲット画像として確定するようにしてもよい。

ここの予め設定された品質指標は例えば、画像が完全な唇部エッジを含むこと、唇部の解像度が第一条件に達すること、画像の光強度が第二条件に達することなどの一つまたは任意の複数を含んでもよいし、または予め設定された品質指標は他のタイプの品質指標を含んでもよく、本開示の実施例は予め設定された品質指標の具体的な実施形態を限定しない。

本開示の実施例では、他の要因に基づいてフレームを選択するか、または画像品質と他の要因を組み合わせてフレームを選択し、複数の画像のうちの第一画像を得て、第一画像および第一画像に隣接する少なくとも一つの第二画像をターゲット画像として確定するようにしてもよい。

ここで、該第一画像の数は一つ以上としてもよく、このように、第一画像およびその隣接する少なくとも一つの第二画像の唇部形状情報に基づいてその読唇結果を確定することができ、ここで、第一画像およびその隣接する少なくとも一つの第二画像を一つの画像集合としてもよく、つまり、画像サブシーケンスから少なくとも一つの画像集合を選択し、画像集合に含まれる少なくとも二つの画像の唇部形状情報に基づいて該画像集合の読唇結果、例えば画像集合の対応する文字、または画像集合が複数の文字の各々に対応する確率などを確定することができる。任意選択的に、画像サブシーケンスの読唇結果は該少なくとも一つの画像集合の各々の読唇結果を含んでもよく、または、さらに少なくとも一つの画像集合の各々の読唇結果に基づき、画像サブシーケンスの読唇結果を確定してもよく、本開示の実施例はこれを限定しない。

本開示の実施例では、第二画像は第一画像の前、または第一画像の後ろに位置してもよい。そのうちのいくつかの任意選択的な例では、上記少なくとも一つの第二画像は、第一画像の前に位置しかつ該第一画像に隣接する少なくとも一つの画像および該第一画像の後ろに位置しかつ第一画像に隣接する少なくとも一つの画像を含んでもよい。ここで、第一画像の前または後ろに位置するとは第二画像と第一画像の画像サブシーケンスにおける時系列関係のことであり、隣接とは第二画像と第一画像の画像サブシーケンスにおける位置間隔が予め設定された数値以下のことであり、例えば、第二画像と第一画像の画像サブシーケンスにおける位置が隣接する場合、このとき、任意選択的に、画像サブシーケンスから第一画像に隣接する予め設定された数の第二画像を選択するか、または、第二画像と第一画像の画像サブシーケンスにおける間隔画像の数を１０以下とすることであり、本開示の実施例はこれに限定されない。

任意選択的に、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択する時、上記予め設定された品質指標を考慮する他に、選択された画像の間の唇部形状の変化は連続的であるという指標とさらに組み合わせて選択してもよい。例えば、そのうちのいくつかの任意選択的な例では、画像サブシーケンスから予め設定された品質指標を満たし、かつ唇部形状の有効変化を示す画像、および該唇部形状の有効変化を示す画像の前および／または後ろに位置する少なくとも１フレームの画像を選択してもよい。ここで、唇部形状の有効変化は上下唇の距離の大きさなどを予め設定された判断基準としてもよい。

例えば、一応用例では、画像サブシーケンスに含まれる複数の画像から少なくとも二つのターゲット画像を選択する時、予め設定された品質指標を満たし、かつ上下唇の距離が最も大きいなどを選択基準として、予め設定された品質指標を満たし、かつ唇部形状の変化が最も大きい１フレームの画像、および該１フレームの画像の前および後ろに位置する少なくとも１フレームの画像を選択してもよい。実際の適用では、指定内容が０〜９の少なくとも一つの数字である場合、各数字の平均朗読時間は０．８ｓ程度で、平均フレームレートは２５ｆｐｓであり、そこで、各数字について５〜８フレームの画像を唇部形状の有効変化を示す画像サブシーケンスとして選択してもよいが、本開示の実施例はこれに限定されない。

少なくとも一つの画像サブシーケンスの読唇結果を得てから、いくつかの可能な実施形態では、動作１０６で、少なくとも一つの画像サブシーケンスの読唇結果と指定内容とが一致するかどうかを確定し、該確定した結果に基づき、偽装防止検出結果を確定するようにしてもよい。例えば、少なくとも一つの画像サブシーケンスの読唇結果と指定内容とが一致することに応答し、偽装防止検出結果を本人であるまたは偽装が存在しないと確定する。さらに例えば、少なくとも一つの画像サブシーケンスの読唇結果と指定内容とが一致しないことに応答し、偽装防止検出結果を本人ではないまたは偽装が存在すると確定する。

あるいは、ユーザが上記指定内容を読むオーディオをさらに取得し、オーディオの音声認識処理を行い、オーディオの音声認識結果を得て、オーディオの音声認識結果と指定内容とが一致するかどうかを確定するようにしてもよい。このとき、任意選択的に、オーディオの音声認識結果および少なくとも一つの画像サブシーケンスの読唇結果における少なくとも一項が指定内容に一致しないとすれば、本人ではないと確定する。任意選択的に、オーディオの音声認識結果も少なくとも一つの画像サブシーケンスの読唇結果も指定内容に一致するとすれば、本人であると確定するが、本開示の実施例はこれに限定されない。

いくつかの可能な実施形態では、オーディオの分割結果における各オーディオクリップの音声認識結果に基づき、対応する画像サブシーケンスの読唇結果をラベル付けし、ここで、各画像サブシーケンスの読唇結果を該画像サブシーケンスの対応するオーディオクリップの音声認識結果でラベル付けし、つまり各画像サブシーケンスの読唇結果を該画像サブシーケンスの対応する文字でラベル付けし、続いて文字でラベル付けした少なくとも一つの画像サブシーケンスの読唇結果を第二ニューラルネットワークに入力し、画像シーケンスの読唇結果とオーディオの音声認識結果とのマッチング結果を得るようにしてもよい。

本開示の実施例はオーディオの分割結果に基づいて画像シーケンスを対応する少なくとも一つの画像サブシーケンスに分割し、各画像サブシーケンスの読唇結果を各オーディオクリップの音声認識結果と照合し、両者がマッチングするかどうかに基づいて読唇による偽装防止検出を実現する。

別のいくつかの実施例では、動作１０６で少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するステップは、
上記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含む。例えば、オーディオの音声認識結果に基づき、少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る。

該融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する。例えば、該融合認識結果および音声認識結果を第二ニューラルネットワークに入力して処理し、読唇結果と音声認識結果とのマッチング確率を得て、そして読唇結果と音声認識結果とのマッチング確率に基づき、読唇結果と音声認識結果とがマッチングするかどうかを確定するようにしてもよい。

融合認識結果とオーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する。

融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、融合認識結果と音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定し、その結果を表示するための関連動作をさらに選択的に実行してもよい。逆に、融合認識結果と音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定し、その結果を指示するメッセージをさらに選択的に出力してもよい。

例を挙げれば、画像シーケンスの対応するオーディオの音声認識結果を取得し、融合認識結果とオーディオの音声認識結果とがマッチングするかどうかを確定し、融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、偽装防止検出結果を確定するようにしてもよい。例えば、融合認識結果と音声認識結果とがマッチングすることに応答し、ユーザが本人であると確定する。さらに例えば、融合認識結果と音声認識結果とがマッチングしないことに応答し、ユーザが本人ではないと確定する。

ここで、任意選択的に、画像サブシーケンスの読唇結果は例えば画像サブシーケンスの対応する一つ以上の文字を含んでもよく、または、画像サブシーケンスの読唇結果は、該画像サブシーケンスが指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む。例えば、予め設定された指定内容における可能な文字集合は数字０〜９を含む場合、各画像サブシーケンスの読唇結果は、該画像サブシーケンスが０〜９の各所定文字として分類される確率を含むが、本開示の実施例はこれに限定されない。

いくつかの可能な実施形態では、少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることを含む。

例を挙げれば、画像シーケンスの対応するオーディオの音声認識結果に基づいて少なくとも一つの画像サブシーケンスの読唇結果を融合してもよい。例えば、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇結果の対応する特徴ベクトルを確定し、オーディオの音声認識結果に基づき、少なくとも一つの画像サブシーケンスの対応する少なくとも一つの特徴ベクトルを連結し、連結結果（融合認識結果）を得る。

それに対して、更なる任意選択的な例では、画像サブシーケンスの読唇結果は画像サブシーケンスが複数の所定文字の各々として分類される確率を含む。該所定文字は指定内容における文字であってもよく、例えば、該所定文字が数字である場合、読唇結果は画像サブシーケンスが０〜９の各数字として分類される確率を含む。

任意選択的に、画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る前記ステップは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと、を含み、ここで、前記融合認識結果は前記連結結果を含む。

例を挙げれば、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇処理によって、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの分類確率、例えば０〜９の各数字として分類される確率を得る。続いて、各画像サブシーケンスが０〜９の各数字として分類される確率を順位付けし、該画像サブシーケンスの１×１０の特徴ベクトルを得るようにしてもよい。

続いて、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトル、またはそれらから抽出した複数の画像サブシーケンスの特徴ベクトル（例えば、指定内容の数字の長さに応じて以上の特徴ベクトルをランダムに抽出したもの）に基づき、混同行列を作成する。

一例では、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトルに基づき、１０×１０の混同行列を作成してもよく、ここで、画像サブシーケンスの対応する音声認識結果における数値に基づき、該画像サブシーケンスの対応する特徴ベクトルが所在する行番号または列番号を確定してもよく、任意選択的に、二つ以上の画像サブシーケンスの対応するオーディオ認識の数値が同じである場合、該二つ以上の画像サブシーケンスの特徴ベクトルの値を１要素ずつに加算し、該数値の対応する行または列の要素を得る。同様に、指定内容における文字が英文字である場合、２６×２６の混同行列を作成することができ、指定内容における文字が漢字または英単語または他の形式である場合、予め設定された辞書に基づいて対応する混同行列を作成することができるが、本開示の実施例はこれを限定しない。

混同行列を得てから、例えば、上記例で、１０×１０の混同行列を１×１００の連結ベクトル（即ち連結結果）に変換するように、混同行列をベクトルに変換し、さらに読唇結果と音声認識結果とのマッチング度を判断するようにしてもよい。

任意選択的に、該連結結果は連結ベクトルまたは連結行列または他の次元のデータ型であってもよいが、本開示の実施例は連結の具体的な実施形態を限定しない。

ここで、様々な方式で融合認識結果と音声認識結果とがマッチングするかどうかを確定することができる。いくつかの任意選択的な例では、機械学習アルゴリズムによって融合認識結果と音声認識結果とがマッチングするかどうかを確定してもよい。別のいくつかの任意選択的な例では、第二ニューラルネットワークによって、融合認識結果とオーディオの音声認識結果とがマッチングするかどうかを確定してもよく、例えば、融合認識結果およびオーディオの音声認識結果を第二ニューラルネットワークに直接入力して処理してもよく、第二ニューラルネットワークは融合認識結果と音声認識結果とのマッチング結果を出力する。さらに例えば、融合認識結果および／またはオーディオの音声認識結果に一種類以上の処理を施し、続いてそれを第二ニューラルネットワークに入力して処理し、融合認識結果と音声認識結果とのマッチング結果を出力するようにしてもよく、本開示の実施例はこれを限定しない。このように、第二ニューラルネットワークによって、融合認識結果と音声認識結果とがマッチングするかどうかを確定することで、本人であるかどうかを確定し、深層ニューラルネットワークの強い学習能力を利用し、融合認識結果と音声認識結果とのマッチング度を効果的に確定し、それにより融合認識結果と音声認識結果とのマッチング結果に基づいて読唇による偽装防止検出を実現し、偽装防止検出の正確性を向上させることができる。

いくつかの可能な実施形態では、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定する前記ステップは、
前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと、を含む。

例を挙げれば、第二ニューラルネットワークは融合認識結果および音声認識結果に基づき、読唇結果と音声認識結果とがマッチングする確率を得るようにしてもよい。このとき、第二ニューラルネットワークにより得られたマッチング確率が予め設定された閾値よりも大きいかどうかに基づいて前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定し、さらに偽造が存在するまたは偽造が存在しないことについての偽装防止検出結果を得るようにしてもよい。例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値以上である場合、読唇結果と音声認識結果とがマッチングすると確定し、さらに画像シーケンスが偽造されるものではない、即ち本人であると確定し、さらに例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値よりも小さい場合、読唇結果と音声認識結果とがマッチングしないと確定し、さらに画像シーケンスが偽造されるものである、即ち本人ではないと確定する。マッチング確率に基づいて偽装防止検出結果を得る該動作は第二ニューラルネットワークによって実行してもよいし、他のユニットまたは装置によって実行してもよく、本開示の実施例はこれを限定しない。

いくつかの可能な実施形態では、本開示の実施例に係る方法はさらに、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定することと、を含み、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する前記ステップは、
前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含む。

例を挙げれば、画像シーケンスの対応するオーディオを分割し、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップ（少なくとも一つのオーディオクリップ）を含むオーディオ分割結果を得るようにしてもよい。ここで、各オーディオクリップは指定内容における一つの文字、例えば一つの数字、英文字、漢字、英単語または他の符号などに対応する。

いくつかの可能な実施形態では、オーディオの少なくとも一つのオーディオクリップの音声認識処理を行い、該オーディオの音声認識結果を得るようにしてもよい。本開示は採用される音声認識方式を限定しない。

いくつかの可能な実施形態では、まず音声認識結果と指定内容とが一致するかどうかを確定し、音声認識結果と指定内容とが一致すると確定した場合、融合認識結果と音声認識結果とがマッチングするかどうかを確定する。このとき、任意選択的に、音声認識結果と指定内容とが一致しないと確定したとすれば、融合認識結果と音声認識結果とがマッチングするかどうかを確定する必要がなく、そのまま偽装防止検出結果を本人ではないと確定する。

あるいは、音声認識結果と指定内容とが一致するかどうかおよび融合認識結果と音声認識結果とがマッチングするかどうかを同時に確定してもよく、本開示の実施例はこれを限定しない。オーディオの音声認識結果と指定内容とが一致するかどうかの確定結果、および融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、偽装防止検出結果を確定する。

いくつかの可能な実施形態では、オーディオの音声認識結果と指定内容とが一致し、かつ上記融合認識結果とオーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定する。オーディオの音声認識結果と指定内容とが一致せず、および／または上記融合認識結果とオーディオの音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定する。

本開示の実施例では、画像シーケンスおよびオーディオを取得し、該オーディオの音声認識を行い、音声認識結果を得て、画像シーケンスから取得した少なくとも一つの画像サブシーケンスから読唇を行い、読唇結果を得て、融合し、融合認識結果を得て、そして音声認識結果と指定内容とが一致するかどうか、および上記融合認識結果と音声認識結果とがマッチングするかどうかに基づき、本人であるかどうかを確定する。本開示の実施例は被収集の対象者が指定内容を朗読する時の画像シーケンスおよび対応するオーディオを解析することで読唇を行い、それにより偽装防止検出を実現し、簡単に対話可能で、無防備の状況で簡単に画像シーケンスおよび対応するオーディオを同時に取得することができず、偽装防止検出の信頼性および検出正確度を向上させる。

いくつかの可能な実施形態では、本開示の実施例に係る方法はさらに、偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて画像シーケンスの顔による本人確認を行うことを含む。つまり、偽装防止検出結果が本人であると確定した後に顔による本人確認を行うことができる。本開示は顔による本人確認の具体的な方式を限定しない。

いくつかの可能な実施形態では、動作１０２で画像シーケンスを取得する前に、本開示の実施例に係る方法はさらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うことを含み、
動作１０２で画像シーケンスから少なくとも一つの画像サブシーケンスを取得するステップは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することを含む。

つまり、まず顔による本人確認を行い、顔による本人確認で確認が取れた後に各実施例における画像シーケンスから少なくとも一つの画像サブシーケンスを取得する動作を実行し、それによって偽装防止検出を行うことができる。

いくつかの可能な実施形態では、画像シーケンスの偽装防止検出および本人確認を同時に行ってもよく、本開示の実施例はこれを限定しない。

いくつかの可能な実施形態では、本開示の実施例に係る方法はさらに、前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行することを含んでもよい。

様々なアプリケーションにおいて、本開示の実施例に基づいて偽装防止検出を行い、本人であると確定してから、その結果を表示するための関連動作を実行し、それによりアプリケーションの安全性を向上させることができる。

本開示の実施例によれば、第一ニューラルネットワークを利用して画像サブシーケンスから読唇を行い、第二ニューラルネットワークを利用して融合認識結果と音声認識結果とがマッチングするかどうかを確定し、それにより偽装防止検出を実現することができ、ニューラルネットワークの学習能力が強く、かつリアルタイムに補足訓練を行って性能を向上させることが可能であるため、拡張性が高く、実際の需要の変化に応じて素早く更新し、新たに現れる偽造の状況を素早く対応して偽装防止検出を行うことができ、認識結果の正確率を効果的に向上させ、それにより偽装防止検出結果の正確性を向上させることができる。

本開示の実施例では、任意選択的に、偽装防止検出結果を確定してから、偽装防止検出結果に基づいて対応する動作を実行してもよい。例えば、偽装防止検出結果が本人である場合、その結果を表示するための関連動作、例えばロック解除、ユーザアカウントログイン、トランザクション許可、入退室許可などをさらに選択的に実行してもよいし、または、画像シーケンスに基づいて顔を認識しかつ本人確認で本人であると確認してから、上記動作を実行してもよい。さらに例えば、偽装防止検出結果が本人ではない場合、その結果を指示するメッセージを選択的に出力してもよいし、または偽装防止検出結果が本人であるが本人確認で本人ではないと確認した場合、本人確認に失敗した指示メッセージを選択的に出力してもよく、本開示の実施例はこれを限定しない。

本開示の実施例では、顔面部、画像シーケンスまたは画像サブシーケンス、および対応するオーディオが同一時空間次元に存在することを要求でき、音声認識と読唇による偽装防止検出を同時に行い、偽装防止検出の効果を向上させる。

図２は本開示の実施例の偽装防止の検出方法の別の例示的フローチャートである。

２０２において、指定内容を読むようにユーザに指示してから収集された画像シーケンスおよびオーディオを取得する。ここで、該画像シーケンスは複数の画像を含む。

本開示の実施例における画像シーケンスは指定内容を読むようにユーザに促してから撮影したビデオに由来してもよい。オーディオは同期に録音したオーディオであってもよいし、撮影したビデオから抽出したオーディオタイプのファイルであってもよい。いくつかの実施例では、指定内容は複数の文字を含む。

その後、該オーディオについて動作２０４および２０６を実行し、該画像シーケンスについて動作２０８を実行する。

２０４において、上記オーディオを分割し、指定内容における少なくとも一つの文字の対応する少なくとも一つのオーディオクリップを含むオーディオ分割結果を得る。

２０６において、上記オーディオの音声認識処理を行い、上記少なくとも一つのオーディオクリップの音声認識結果を含む該オーディオの音声認識結果を得る。

２０８において、動作２０４で得られたオーディオの分割結果に基づき、画像シーケンスからそれぞれ画像シーケンスにおける複数の連続画像を含む少なくとも一つの画像サブシーケンスを取得する。

いくつかの任意選択的な実施例では、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数に等しく、かつ、上記少なくとも一つの画像サブシーケンスは指定内容に含まれる少なくとも一つの文字に一対一で対応し、各画像サブシーケンスは指定内容における一つの文字に対応する。

２１０において、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスから読唇を行い、前記各画像サブシーケンスの読唇結果を得る。

ここで、各画像サブシーケンスの読唇結果は、該画像サブシーケンスが指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含んでもよい。いくつかの実施例では、第一ニューラルネットワークによって画像サブシーケンスを処理し、画像サブシーケンスの読唇結果を得るようにしてもよい。

２１２において、動作２０６で得られたオーディオの音声認識結果に基づき、動作２０６で得られた少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る。

２１４において、該融合認識結果と上記オーディオの音声認識結果とがマッチングするかどうかを確定する。

いくつかの実施例では、第二ニューラルネットワークによって融合認識結果および音声認識結果を処理し、それによってマッチング結果を得るようにしてもよい。

２１６において、上記融合認識結果と上記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定する。

例を挙げれば、融合認識結果と音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定する。逆に、融合認識結果と音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定する。

ここで、融合認識結果と音声認識結果とがマッチングしないとは、例えば、本人のビデオをリメイクすることおよび身分を偽造してシステムの要求に従って指定内容を朗読することであってもよく、このときリメイクされたまたは切り出された本人のビデオから取得した画像シーケンスの対応する融合認識結果は対応する時間帯の音声認識結果に一致せず、それにより両者がマッチングしないと判断し、さらに該ビデオが偽造されるものと判断する。

本開示の実施例では、画像シーケンスおよびオーディオを取得し、該オーディオの音声認識を行い、音声認識結果を得て、画像シーケンスから取得した少なくとも一つの画像サブシーケンスから読唇を行い、読唇結果を得て、融合し、融合認識結果を得て、そして融合認識結果と音声認識結果とがマッチングするかどうかに基づき、本人であるかどうかを確定する。本開示の実施例は被収集の対象者が指定内容を朗読する時の画像シーケンスおよび対応するオーディオを解析することで読唇を行い、それにより偽装防止検出を実現し、簡単に対話可能で、無防備の状況で簡単に画像シーケンスおよび対応するオーディオを同時に取得することができず、偽装防止検出の信頼性および検出正確度を向上させる。

本開示のいくつかの実施例では、読唇結果および音声認識結果に基づいて混同行列（ＣｏｎｆｕｓｉｏｎＭａｔｒｉｘ）を作成し、混同行列を音声認識結果の並び替えに対応する特徴ベクトルに変換してから第二ニューラルネットワークに入力し、読唇結果と音声認識結果とがマッチングするかどうかを示すマッチング結果を得るようにしてもよい。

以下、指定内容における文字が数字であることを例にして混同行列を詳しく説明する。

少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの読唇処理によって、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが０〜９の各数字として分類される確率を得る。続いて、各画像サブシーケンスが０〜９の各数字として分類される確率を順位付けし、該画像サブシーケンスの１×１０の特徴ベクトルを得るようにしてもよい。

続いて、上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトル、またはそれらから抽出した複数の画像サブシーケンスの特徴ベクトル（例えば、指定内容の数字の長さに基づいて以上の特徴ベクトルをランダムに抽出したもの）に基づき、混同行列を作成する。

一例では、少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの特徴ベクトルに基づき、１０×１０の混同行列を作成してもよく、ここで、画像サブシーケンスの対応する音声認識結果における数値に基づき、該画像サブシーケンスの対応する特徴ベクトルが所在する行番号または列番号を確定してもよく、任意選択的に、二つ以上の画像サブシーケンスの対応するオーディオ認識による数値が同じである場合、該二つ以上の画像サブシーケンスの特徴ベクトルの値を１要素ずつに加算し、該数値の対応する行または列の要素を得る。同様に、指定内容における文字が英文字である場合、２６×２６の混同行列を作成することができ、指定内容における文字が漢字または英単語または他の形式である場合、予め設定された辞書に基づいて対応する混同行列を作成することができるが、本開示の実施例はこれを限定しない。

図３は本開示の実施例における一つの混同行列およびその応用例の模式図である。図３に示すように、各行の要素数値は音声認識結果が該行の番号に等しいオーディオクリップの対応する画像サブシーケンスの読唇結果に基づいて得られる。右側の色が浅いから濃くなる数字バーは各画像サブシーケンスをある種別として予測する場合の確率値の高低が表す色を示し、かつ同時にこの対応関係を混同行列に反映し、色が濃ければ濃いほど、横軸の対応する画像サブシーケンスを対応する縦軸の実際のラベル種別として予測する可能性が大きくなり、
混同行列を取得してから、例えば、上記例で、１０×１０の混同行列を１×１００の連結ベクトル（即ち連結結果）に変換するように、混同行列をベクトルに変換し、第二ニューラルネットワークの入力とし、第二ニューラルネットワークによって読唇結果と音声認識結果とのマッチング度を判断するようにしてもよい。

いくつかの可能な実施形態では、第二ニューラルネットワークは連結ベクトルおよび音声認識結果に基づき、読唇結果と音声認識結果とがマッチングする確率を得るようにしてもよい。このとき、第二ニューラルネットワークにより得られたマッチング確率が予め設定された閾値よりも大きいかどうかに基づいて偽造が存在するまたは偽造が存在しないことについての偽装防止検出結果を得るようにしてもよい。例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値以上である場合、画像シーケンスが偽造されるものではない、即ち、本人であると確定し、さらに例えば、第二ニューラルネットワークにより出力されるマッチング確率が予め設定された閾値よりも小さい場合、画像シーケンスが偽造されるものである、即ち、本人ではないと確定する。マッチング確率に基づいて偽装防止検出結果を得る該動作は第二ニューラルネットワークによって実行してもよいし、他のユニットまたは装置によって実行してもよく、本開示の実施例はこれを限定しない。

具体的な一応用例では、指定内容が数字シーケンス２３５８であることを例にすると、四つの画像サブシーケンスおよび四つのオーディオクリップを得ることができ、ここで、各画像サブシーケンスは一つのオーディオクリップに対応し、１番目の画像サブシーケンスは１×１０の特徴ベクトルに対応し、例えば、［０，０．０２９３，０．６６２３，０．０３４８，０．１１６２，０，０．０９８４，０．０２２８，０．０３６２，０］であり、該特徴ベクトルは混同行列における一行であり、行番号は１番目の数字について音声認識を行った音声認識結果であり、例えば２に等しい。このように、１番目の画像サブシーケンスの対応する特徴ベクトルは行列の２行目に位置され、以降同様に、２番目の画像サブシーケンスの対応する特徴ベクトルは行列の３行目に位置され、３番目の画像サブシーケンスの対応する特徴ベクトルは行列の５行目に位置され、４番目の画像サブシーケンスの対応する特徴ベクトルは行列の８行目に位置され、行列の空欄部分に０が記入され、一つの１０×１０の行列となる。該行列に対して変換し、１×１００の連結ベクトル（即ち融合認識結果）を得て、連結ベクトルおよびオーディオの音声認識結果を第二ニューラルネットワークに入力して処理すると、画像シーケンスの読唇結果と音声認識結果とがマッチングするかどうかのマッチング結果を得ることができる。

本開示の実施例では、第一ニューラルネットワークを利用して上記少なくとも一つの画像サブシーケンスから読唇を行い、類似する唇部形状の文字に分類される可能性を導入し、いずれの画像サブシーケンスについてもその各文字に対応する確率を取得し、例えば、数字「０」および「２」の唇の形（口の形）が類似し、読唇段階で誤認識されやすいことについて、本開示の実施例は第一深層ニューラルネットワークの学習誤差を考慮し、類似する唇部形状に分類され得る確率を導入し、読唇結果に誤差が出る時に一定程度補正することができ、読唇結果の分類正確度の偽装防止検出への影響を軽減する。

本開示の実施例に基づき、深層学習フレームワークを利用して唇部形状をモデリングし、第一ニューラルネットワークを得て、それによって唇部形状の判別をより正確にし、かつ、オーディオモジュールを利用してオーディオの分割結果における画像シーケンスを分割でき、それによって第一ニューラルネットワークはユーザが読む内容をより効果的に認識することができ、また、上記少なくとも一つのオーディオクリップの音声認識結果および上記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが各文字にそれぞれ対応する確率に基づき、読唇結果と音声認識結果とがマッチングするかどうかを確定し、読唇結果に対して一定の誤差補正能力を有し、それによってマッチング結果をより正確にする。

図４は本開示の実施例の偽装防止の検出方法の別の概略的フローチャートである。

３０２において、画像シーケンスおよびオーディオを取得する。ここで、該画像シーケンスは複数の画像を含む。

本開示の実施例における画像シーケンスは指定内容を読むようにユーザに促した後に現場で撮影したビデオに由来してもよく、オーディオは現場で同期に録音したオーディオであってもよいし、現場で撮影したビデオから抽出したオーディオタイプのファイルであってもよい。

その後、該オーディオについて動作３０４および３０６を実行し、該画像シーケンスについて動作３０８を実行する。

３０４において、上記オーディオを分割し、指定内容における少なくとも一つの文字の少なくとも一つのオーディオクリップを含むオーディオ分割結果を得る。ここで、該少なくとも一つのオーディオクリップの各々は指定内容における一つの文字またはユーザが読む／読み上げる一つの文字、例えば、一つの数字、英文字、漢字、英単語または他の符号などに対応する。

３０６において、上記少なくとも一つのオーディオクリップの音声認識処理を行い、上記少なくとも一つのオーディオクリップの音声認識結果を含む該オーディオの音声認識結果を得る。その後、動作３１２および３１４を実行する。

３０８において、動作３０４で得られたオーディオの分割結果に基づき、画像シーケンスからそれぞれ画像シーケンス内の少なくとも一つの画像を含む少なくとも一つの画像サブシーケンスを取得する。

ここで、該少なくとも一つの画像サブシーケンスの数は指定内容に含まれる文字数に等しく、かつ、上記少なくとも一つの画像サブシーケンスは指定内容に含まれる少なくとも一つの文字に一対一で対応し、各画像サブシーケンスは指定内容における一つの文字に対応する。

例を挙げれば、画像シーケンスの対応するオーディオを少なくとも一つのオーディオクリップに分割し、該少なくとも一つのオーディオクリップに基づき、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するようにしてもよい。

３１０において、例えば第一ニューラルネットワークによって、上記少なくとも一つの画像サブシーケンスから読唇を行い、該少なくとも一つの画像サブシーケンスの読唇結果を得る。

３１２において、動作３０６で得られた少なくとも一つのオーディオクリップの音声認識結果に基づき、上記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得る。

３１４において、オーディオの音声認識結果と指定内容とが一致するかどうか、および上記融合認識結果とオーディオの音声認識結果とがマッチングするかどうかを確定する。

例を挙げれば、まず音声認識結果と指定内容とが一致するかどうかを確定し、音声認識結果と指定内容とが一致すると確定した場合、融合認識結果と音声認識結果とがマッチングするかどうかを確定するようにしてもよい。このとき、任意選択的に、音声認識結果と指定内容とが一致しないと確定したとすれば、融合認識結果と音声認識結果とがマッチングするかどうかを確定する必要がなく、そのまま偽装防止検出結果を本人ではないと確定する。

あるいは、音声認識結果と指定内容とが一致するかどうかおよび融合認識結果と音声認識結果とがマッチングするかどうかを同時に確定してもよく、本開示の実施例はこれを限定しない。

３１６において、オーディオの音声認識結果と指定内容とが一致するかどうかの確定結果、および融合認識結果とオーディオの音声認識結果とがマッチングするかどうかのマッチング結果に基づき、偽装防止検出結果を確定する。

例を挙げれば、オーディオの音声認識結果と指定内容とが一致し、かつ上記融合認識結果とオーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定する。オーディオの音声認識結果と指定内容とが一致せず、および／または、上記融合認識結果とオーディオの音声認識結果とがマッチングしない場合、偽装防止検出結果を本人ではないと確定する。

また、本開示の別の実施例の偽装防止の検出方法では、ユーザが送信する認証要求に応答し、各実施例における画像シーケンスを取得する動作の実行を開始するようにしてもよい。または、他の機器の指示を受信したまたは他のトリガ条件を満たす場合、上記偽装防止検出フローを実行してもよく、本開示の実施例は偽装防止検出のトリガ条件を限定しない。

また、本開示の上記各偽装防止の検出方法の実施例の前に、さらに、第一ニューラルネットワークを訓練する動作を含んでもよい。

第一ニューラルネットワークを訓練する時、上記画像シーケンスは具体的にサンプル画像シーケンスとする。それに対して、上記各実施例について、該実施例の偽装防止の検出方法はさらに、それぞれ少なくとも一つのオーディオクリップの音声認識結果を対応する少なくとも一つの画像サブシーケンスのラベル内容とすることと、第一ニューラルネットワークにより得られた少なくとも一つの画像サブシーケンス内の各画像サブシーケンスの対応する文字と対応するラベル内容との差異を取得することと、予め設定された訓練完了条件、例えば、訓練回数が予め設定された訓練回数に達すること、および／または上記少なくとも一つの画像サブシーケンスの予測内容と対応するラベル内容との差異が予め設定された差異値よりも小さいことなどを満たすまで、該差異に基づいて第一ニューラルネットワークを訓練する、つまり第一ニューラルネットワークのパラメータを調整することと、を含む。訓練されておいた第一ニューラルネットワークは本開示の上記各実施例の偽装防止の検出方法に基づき、入力されるビデオまたは該ビデオから選択された画像シーケンスから正確に読唇を行うことができる。

本開示の上記実施例に基づき、深層ニューラルネットワークの強い記述能力によってモデリングし、大規模サンプル画像シーケンスデータによって訓練し、対象者が指定内容を朗読する時の特徴を効果的に学習および抽出し、さらにビデオまたは画像からの読唇を実現することができる。

また、本開示の上記各偽装防止の検出方法の実施例の前に、さらに、第二ニューラルネットワークを訓練する動作を含んでも良い。

第二ニューラルネットワークを訓練する時、対象者が指定内容を読む時のサンプル画像シーケンス内の少なくとも一つの画像サブシーケンスの読唇結果、および対応するサンプルオーディオにおける少なくとも一つのオーディオクリップの音声認識結果を第二ニューラルネットワークの入力とし、第二ニューラルネットワークにより出力される少なくとも一つの画像サブシーケンスの読唇結果と少なくとも一つのオーディオクリップの音声認識結果とのマッチング度と、該サンプル画像シーケンスおよびサンプルオーディオに対してラベル付けしたマッチング度との差異を比較し、該差異に基づき、予め設定された訓練完了条件を満たすまで、第二ニューラルネットワークを訓練する、即ち第二ニューラルネットワークのパラメータを調整する。

本開示の実施例が提供するいずれかの偽装防止の検出方法は端末機器およびサーバなどを含むデータ処理能力を有する任意の適当な機器によって実行してもよいが、それらに限定されない。または、本開示の実施例が提供するいずれかの偽装防止の検出方法は、例えばプロセッサがメモリに記憶された対応する命令を呼び出すことで本開示の実施例で言及されたいずれかの偽装防止の検出方法を実行するように、プロセッサによって実行してもよい。以下は説明を省略する。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完了できることを理解でき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムは実行される時に、上記方法の実施例を含むステップを実行する。

図５は本開示の実施例の偽装防止の検出装置のブロック図である。該実施例の偽装防止の検出装置は本開示の上記図１から図４に示す各偽装防止の検出方法の実施例を実現するために用いることができる。図５に示すように、該実施例の偽装防止の検出装置は、
画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含む第一取得モジュールと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと、を含む。

いくつかの可能な実施形態では、前記第一取得モジュールは、前記画像シーケンスに対応するオーディオの分割結果から、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得するために用いられる。

いくつかの可能な実施形態では、前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、前記第一取得モジュールは、前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得するために用いられる。

いくつかの可能な実施形態では、前記装置はさらに、前記画像シーケンスの対応するオーディオを取得するための第二取得モジュールと、前記オーディオを分割し、少なくとも一つのオーディオクリップを得るためのオーディオ分割モジュールであって、前記少なくとも一つのオーディオクリップの各々が前記指定内容における一つの文字に対応するオーディオ分割モジュールと、を含む。

いくつかの可能な実施形態では、前記読唇モジュールは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得するための第一取得サブモジュール、および第一前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得るための読唇サブモジュールに用いられる。

いくつかの可能な実施形態では、前記第一取得サブモジュールは、前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得て、そして前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得するために用いられる。

いくつかの可能な実施形態では、前記装置はさらに、前記ターゲット画像の位置合わせ処理を行い、位置合わせ処理後のターゲット画像を得るための位置合わせモジュールと、前記位置合わせ処理に基づき、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報を確定するための位置確定モジュールと、を含み、前記第一取得サブモジュールは、前記位置合わせ処理後のターゲット画像における前記唇部キーポイントの位置情報に基づき、前記位置合わせ処理後のターゲット画像から唇部領域画像を取得するために用いられる。

いくつかの可能な実施形態では、前記第一読唇サブモジュールは、前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力するために用いられる。

いくつかの可能な実施形態では、前記読唇モジュールは、前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得するための形状取得サブモジュールと、前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得るための第二読唇サブモジュールと、を含む。

いくつかの可能な実施形態では、前記形状取得サブモジュールは、前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に基づき、前記各ターゲット画像の唇部形状情報を確定するために用いられる。

いくつかの可能な実施形態では、前記形状取得サブモジュールは、前記唇部領域画像の特徴抽出処理を行い、前記唇部領域画像の唇部形状特徴を得るために用いられ、ここで、前記ターゲット画像の唇部形状情報は前記唇部形状特徴を含む。

いくつかの可能な実施形態では、前記装置はさらに、前記画像サブシーケンスから前記少なくとも二つのターゲット画像を選択するための画像選択モジュールを含む。

いくつかの可能な実施形態では、前記画像選択モジュールは、前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択するための選択サブモジュールと、前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定するための第一確定サブモジュールと、を含む。

いくつかの可能な実施形態では、前記第一確定モジュールは、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るための融合サブモジュールと、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定するための第二確定サブモジュールと、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定するための第三確定サブモジュールと、を含む。

いくつかの可能な実施形態では、前記融合サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るために用いられる。

いくつかの可能な実施形態では、前記融合サブモジュールは、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を、順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得て、そして前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得るために用いられ、ここで、前記融合認識結果は前記連結結果を含む。

いくつかの可能な実施形態では、前記第二確定サブモジュールは、前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得て、そして前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定するために用いられる。

いくつかの可能な実施形態では、前記装置はさらに、前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得るための音声認識モジュールと、前記音声認識結果と前記指定内容とが一致するかどうかを確定するための第四確定モジュールと、を含み、前記第三確定サブモジュールは、前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングする場合、偽装防止検出結果を本人であると確定するために用いられる。

いくつかの可能な実施形態では、前記装置は、前記指定内容をランダムに生成するための生成モジュールを含む。

いくつかの可能な実施形態では、前記装置はさらに、前記偽装防止検出結果が本人であることに応答し、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第一本人確認モジュールを含む。

いくつかの可能な実施形態では、前記装置はさらに、予め設定された顔画像テンプレートに基づいて顔による本人確認を行うための第二本人確認モジュールを含み、前記第一取得モジュールは、前記顔による本人確認が通ったことに応答し、画像シーケンスから少なくとも一つの画像サブシーケンスを取得するために用いられる。

いくつかの可能な実施形態では、前記装置はさらに、前記偽装防止検出結果が本人でありかつ前記顔による本人確認が通ったことに応答し、入退室許可動作、デバイスロック解除動作、決済動作、アプリケーションまたはデバイスのログイン動作、およびアプリケーションまたはデバイスの関連動作を許可する動作のうちの一つまたは任意の組み合わせを実行するための制御モジュールを含む。

いくつかの実施例では、偽装防止の検出装置は以上に記載の偽装防止の検出方法を実行するために用いられたことがあり、それに対して、偽装防止の検出装置は偽装防止の検出方法のステップおよび／またはフローを実行するためのモジュールまたはユニットを含み、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。

また、本開示の実施例は、コンピュータプログラムを記憶するためのメモリと、メモリに記憶された、実行される時に本開示の上記いずれかの実施例に係る偽装防止の検出方法を実現するコンピュータプログラムを実行するためのプロセッサと、を含む別の電子機器を提供する。

図６は本開示の実施例が提供する電子機器の例示的構成模式図である。以下に図６を参照すると、本開示の実施例の端末機器またはサーバの実現に適する電子機器の構成模式図が示される。図６に示すように、該電子機器は一つ以上のプロセッサ、通信部などを含み、前記一つ以上のプロセッサは例えば、一つ以上の中央処理装置（ＣＰＵ）、および／または一つ以上の画像処理装置（ＧＰＵ）などであり、プロセッサは読み取り専用メモリ（ＲＯＭ）に記憶されている実行可能命令または記憶部分からランダムアクセスメモリ（ＲＡＭ）にロードされた実行可能命令に従って様々な適当の動作および処理を実行できる。通信部はネットワークカードを含むことができるが、これに限定されず、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含むことができるが、これに限定されず、プロセッサは読み取り専用メモリおよび／またはランダムアクセスメモリと通信して実行可能命令を実行し、バスを介して通信部と接続し、通信部によって他の目標機器と通信し、それにより本開示の実施例が提供するいずれかの方法の対応する動作、例えば、画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスが、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、画像サブシーケンスが前記画像シーケンス内の少なくとも一つの画像を含むことと、前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと、を完了することができる。

また、ＲＡＭには、装置の動作に必要な種々のプログラムおよびデータを記憶することができる。ＣＰＵ、ＲＯＭおよびＲＡＭはバスを介して互いに接続される。ＲＡＭが存在する場合、ＲＯＭは任意選択的なモジュールとなる。ＲＡＭは実行可能命令を記憶するか、または動作時にＲＯＭへ実行可能命令を書き込み、実行可能命令によってプロセッサは本開示の上記いずれかの方法の対応する動作を実行する。入力／出力（Ｉ／Ｏ）インタフェースもバスに接続される。通信部は統合設置してもよいし、また複数のサブモジュール（例えば複数のＩＢネットワークカード）を有するように設置してもよく、かつバスリンクに存在する。

キーボード、マウスなどを含む入力部分、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）などおよびスピーカーなどを含む出力部分、ハードディスクなどを含む記憶部分、およびＬＡＮカード、モデムのネットワークインタフェースカードなどを含む通信部分といった部品は、Ｉ／Ｏインタフェースに接続される。通信部分インターネットのようなネットワークによって通信処理を行う。ドライバも必要に応じてＩ／Ｏインタフェースに接続される。取り外し可能な媒体、例えば磁気ディスク、光ディスク、磁気光ディスク、半導体メモリなどは、必要に応じてドライバに取り付けられ、それによってそこから読み出されたコンピュータプログラムが必要に応じて記憶部分にインストールされる。

なお、図６に示すアーキテクチャは任意選択的な一実施形態に過ぎず、具体的な実践では、実際の必要に応じて上記図６の部品数およびタイプを選択、減少、増加または交換することができ、異なる機能部品の設置上でも、分離設置または統合設置などの実施形態を採用でき、例えばＧＰＵとＣＰＵは分離設置するかまたはＧＰＵをＣＰＵに統合するようにしてもよく、通信部は分離設置するか、またＣＰＵやＧＰＵに統合設置することなども可能であることを説明する必要がある。これらの置換可能な実施形態はいずれも本開示の保護範囲に属する。

特に、本開示の実施例によれば、フローチャートを参照しながら上述したプロセスはコンピュータソフトウェアプログラムとして実現できる。例えば、本開示の実施例はコンピュータプログラム製品を含み、それは機械可読媒体に有形に具現化された、フローチャートに示す方法を実行するためのプログラムコードを含むコンピュータプログラムを含み、プログラムコードは本開示のいずれかの実施例が提供する偽装防止の検出方法のステップを対応して実行する対応の命令を含んでもよい。このような実施例では、該コンピュータプログラムは通信部分によってネットワークからダウンロード及びインストールされ、および／または取り外し可能な媒体からインストールされ得る。該コンピュータプログラムはＣＰＵにより実行される時、本開示の方法で限定された上記機能を実行する。

また、本開示の実施例は、機器のプロセッサにおいて運用される時、本開示の上記いずれかの実施例の偽装防止の検出方法を実現するコンピュータ命令を含むコンピュータプログラムをさらに提供する。

また、本開示の実施例はコンピュータプログラムが記憶されているコンピュータ読み取り可能記憶媒体であって、該コンピュータプログラムはプロセッサにより実行される時、本開示の上記いずれかの実施例の偽装防止の検出方法を実現するコンピュータ読み取り可能記憶媒体をさらに提供する。

いくつかの実施例では、以上の電子機器またはコンピュータプログラムは以上に記載の偽装防止の検出方法を実行するために用いられたことがあり、説明を簡潔にするために、ここでは詳細な説明を繰り返さない。

本明細書における様々な実施例は漸進的に説明され、各実施例は他の実施例との相違点に集中して説明したが、各実施例間の同一または類似の部分については相互に参照すればよい。システム実施例については、それは基本的に方法実施例に対応するので、説明は比較的簡単であり、関連部分は方法実施例の説明の一部を参照すればよい。

本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェアまたはソフトウェア、ハードウェア、ファームウェアの任意の組み合わせによって本開示の方法及び装置を実現することができる。前記方法のステップのための上記順序は説明することのみを目的とし、本開示の方法のステップは、特に断らない限り、以上で具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読命令を含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。

本開示の説明は、例示及び説明のために提示されたものであり、網羅的なものでありもしくは開示された形式に本開示を限定するというわけでない。当業者にとっては多くの修正及び変形を加えることができるのは明らかであろう。実施例は本開示の原理及び実際の適用をより明瞭に説明するため、かつ当業者が本開示を理解して特定用途に適した様々な修正を加えた様々な実施例を設計可能にするように選択され説明されたものである。

Claims

電子機器が実行する、偽装防止の検出方法であって、
画像シーケンスから少なくとも一つの画像サブシーケンスを取得することであって、前記画像シーケンスは、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、前記画像サブシーケンスは、前記画像シーケンス内の少なくとも一つの画像を含む、ことと、
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることと、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することと
を含み、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定することは、
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることと、
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することと、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することと
を含み、
前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得ることは、
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得ることと、
前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得ることと
を含み、
前記融合認識結果は、前記連結結果を含む、偽装防止の検出方法。
画像シーケンスから少なくとも一つの画像サブシーケンスを取得することは、
前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することを含む、請求項１に記載の方法。
前記オーディオの分割結果は、前記指定内容に含まれる少なくとも一つの文字の各々に対応するオーディオクリップを含み、
前記画像シーケンスに対応するオーディオの分割結果に基づき、前記画像シーケンスから前記少なくとも一つの画像サブシーケンスを取得することは、
前記指定内容における各文字に対応するオーディオクリップの時間情報に基づき、前記画像シーケンスから前記各文字の対応する画像サブシーケンスを取得することを含む、請求項２に記載の方法。
前記方法は、
前記画像シーケンスの対応するオーディオを取得することと、
前記オーディオを分割し、少なくとも一つのオーディオクリップを得ることであって、前記少なくとも一つのオーディオクリップの各々は、前記指定内容における一つの文字に対応する、ことと
をさらに含む、請求項２または請求項３に記載の方法。
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することと、
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることと
を含む、請求項１から４のいずれか一項に記載の方法。
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像から唇部領域画像を取得することは、
前記ターゲット画像のキーポイント検出を行い、唇部キーポイントの位置情報を含む顔面部キーポイントの情報を得ることと、
前記唇部キーポイントの位置情報に基づき、前記ターゲット画像から唇部領域画像を取得することと
を含む、請求項５に記載の方法。
前記少なくとも二つのターゲット画像の唇部領域画像に基づき、前記画像サブシーケンスの読唇結果を得ることは、
前記少なくとも二つのターゲット画像の唇部領域画像を第一ニューラルネットワークに入力して認識処理し、前記画像サブシーケンスの読唇結果を出力することを含む、請求項５または請求項６に記載の方法。
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得ることは、
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することと、
前記少なくとも二つのターゲット画像の唇部形状情報に基づき、前記画像サブシーケンスの読唇結果を得ることと
を含む、請求項１から７のいずれか一項に記載の方法。
前記画像サブシーケンスに含まれる少なくとも二つのターゲット画像の唇部形状情報を取得することは、
前記少なくとも二つのターゲット画像内の各ターゲット画像から取得した唇部領域画像に対して、特徴抽出処理を行い、前記各ターゲット画像の唇部形状特徴を得ることを含み、前記ターゲット画像の唇部形状情報は、前記唇部形状特徴を含む、請求項８に記載の方法。
前記方法は、
前記画像サブシーケンスから、予め設定された品質指標を満たす第一画像を選択することと、
前記第一画像および前記第一画像に隣接する少なくとも一つの第二画像を前記ターゲット画像として確定することと
をさらに含む、請求項５から９のいずれか一項に記載の方法。
前記少なくとも一つの第二画像は、前記第一画像の前に位置し、かつ、前記第一画像に隣接する少なくとも一つの画像、および、前記第一画像の後ろに位置し、かつ、前記第一画像に隣接する少なくとも一つの画像を含む、請求項１０に記載の方法。
前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスは、前記指定内容における一つの文字に対応する、請求項１から１１のいずれか一項に記載の方法。
前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定することは、
前記融合認識結果および前記音声認識結果を第二ニューラルネットワークに入力して処理し、前記読唇結果と前記音声認識結果とのマッチング確率を得ることと、
前記読唇結果と前記音声認識結果とのマッチング確率に基づき、前記読唇結果と前記音声認識結果とがマッチングするかどうかを確定することと
を含む、請求項１に記載の方法。
前記方法は、
前記画像シーケンスの対応するオーディオの音声認識処理を行い、音声認識結果を得ることと、
前記音声認識結果と前記指定内容とが一致するかどうかを確定することと
をさらに含み、
前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定することは、
前記画像シーケンスの対応するオーディオの音声認識結果と前記指定内容とが一致し、かつ、前記画像シーケンスの読唇結果と前記オーディオの音声認識結果とがマッチングしていることに応答し、偽装防止検出結果を本人であると確定することを含む、請求項１から１３のいずれか一項に記載の方法。
前記画像サブシーケンスの読唇結果は、前記画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を含む、請求項１から１４のいずれか一項に記載の方法。
画像シーケンスから少なくとも一つの画像サブシーケンスを取得するための第一取得モジュールであって、前記画像シーケンスは、指定内容を読むようにユーザに促した後に画像収集装置により収集されたものであり、前記画像サブシーケンスは、前記画像シーケンス内の少なくとも一つの画像を含む、第一取得モジュールと、
前記少なくとも一つの画像サブシーケンスから読唇を行い、前記少なくとも一つの画像サブシーケンスの読唇結果を得るための読唇モジュールと、
前記少なくとも一つの画像サブシーケンスの読唇結果に基づき、偽装防止検出結果を確定するための第一確定モジュールと
を含み、
前記第一確定モジュールは、前記少なくとも一つの画像サブシーケンスの読唇結果を融合し、融合認識結果を得るための融合サブモジュールと、前記融合認識結果と前記画像シーケンスの対応するオーディオの音声認識結果とがマッチングするかどうかを確定するための第二確定サブモジュールと、前記融合認識結果と前記オーディオの音声認識結果とのマッチング結果に基づき、偽装防止検出結果を確定するための第三確定サブモジュールとを含み、
前記融合サブモジュールは、さらに、前記少なくとも一つの画像サブシーケンス内の各画像サブシーケンスが前記指定内容に対応する複数の所定文字内の各所定文字に分類される確率を順位付けし、前記各画像サブシーケンスの対応する特徴ベクトルを得て、前記画像シーケンスの対応するオーディオの音声認識結果に基づき、前記少なくとも一つの画像サブシーケンスの特徴ベクトルを連結し、連結結果を得るために用いられ、前記融合認識結果は、前記連結結果を含む、偽装防止の検出装置。
コンピュータプログラムを記憶するためのメモリと、
前記メモリに記憶された、実行される時に請求項１から１５のいずれか一項に記載の方法を実現するコンピュータプログラムを実行するためのプロセッサと
を含む、電子機器。
コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、プロセッサにより実行される時、請求項１から１５のいずれか一項に記載の方法を前記プロセッサに実現させる、コンピュータ読み取り可能な記憶媒体。
コンピュータ実行可能な命令を含み、前記コンピュータ実行可能な命令がコンピュータにより実行される時に、請求項１から１５のいずれか一項に記載の方法を前記コンピュータに実行させる、コンピュータプログラム。