JP2021114313A

JP2021114313A - 顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2021114313A
Application number: JP2021068318A
Authority: JP
Inventors: ケヤオワン，; Keyao Wang; ハオチェンフェン，; Haocheng Feng; ハイシャオユー，; Haixiao Yue
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-07-15
Filing date: 2021-04-14
Publication date: 2021-08-05
Anticipated expiration: 2041-04-14
Also published as: KR20210095817A; US11881050B2; CN111862030A; EP3940587A1; KR102612354B1; US20210312162A1; JP7126586B2; CN111862030B

Abstract

【課題】顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させる顔合成画像検出方法、顔合成画像検出装置、電子機器、非一時的なコンピュータ読み取り可能な記憶媒体及びコンピュータプログラムを提供する。【解決手段】顔合成画像検出方法は、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力して、検出対象の顔画像の元画像特徴を取得し、検出対象の顔画像の元画像特徴を夫々第１の完全接続層及び第２の完全接続層に入力して、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとを取得し、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、該特徴ベクトルを第３の完全接続層に入力して、検出対象の顔画像の検出結果を取得する。【選択図】図１

Description

本出願は、コンピュータ技術の分野に関し、さらに、人工知能、深層学習及び画像認識分野に関し、特に顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラムに関する。

顔合成画像検出とは、１枚の画像中の顔が合成された顔であるか否かを区別することであり、顔合成画像検出を実現するモジュールは、顔認識システムの安全性を保証するための顔認識システムの基本構成モジュールである。深層学習技術に基づく顔合成画像検出アルゴリズムは、現在該分野の主流の方法である。現在の顔合成画像検出アルゴリズムは、主にニューラルネットワークの深層学習方法を使用している。深層学習を用いた顔合成画像検出の主要な方法として、畳み込みニューラルネットワークの合成画像判別方法、長短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ−ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭと略称する）に基づく合成画像判別方法などがある。

従来技術では、顔合成画像検出モデルは、合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。

本出願は、顔合成画像検出方法、顔合成画像検出装置、電子機器、記憶媒体及びコンピュータプログラムを提供し、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができる。

本願の第１の態様において、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得するステップと、前記検出対象の顔画像の前記元画像特徴を第１の完全接続層に入力し、該第１の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第２の完全接続層に入力し、該第２の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第２の特徴ベクトルを取得するステップと、前記第１の特徴ベクトルと前記第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得するステップと、前記組み合わせられた特徴ベクトルを第３の完全接続層に入力し、該第３の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得するステップであって、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含むステップとを含む顔合成画像検出方法を提供する。

本願の第２の態様において、特徴抽出モジュールと、ベクトル計算モジュールと、ベクトル組み合わせモジュールと、結果計算モジュールとを備え、前記特徴抽出モジュールは、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得し、前記ベクトル計算モジュールは、前記検出対象の顔画像の前記元画像特徴を第１の完全接続層に入力し、該第１の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第２の完全接続層に入力し、該第２の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第２の特徴ベクトルを取得し、前記ベクトル組み合わせモジュールは、前記第１の特徴ベクトルと前記第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、前記結果計算モジュールは、前記組み合わせられた特徴ベクトルを第３の完全接続層に入力し、該第３の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得し、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含む顔合成画像検出装置を提供する。

本願の第３の態様において、少なくとも１つのプロセッサと、少なくとも１つのプログラムを記憶するメモリとを備え、少なくとも１つの前記プログラムが少なくとも１つの前記プロセッサによって実行される場合、少なくとも１つの前記プロセッサが、上記の顔合成画像検出方法を実現する電子機器を提供する。

本願の第４の態様において、コンピュータプログラムが記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムがプロセッサによって実行される場合、上記の顔合成画像検出方法が実現される記憶媒体を提供する。
本願の第５の態様において、コンピュータに上記の顔合成画像検出方法を実行させるコンピュータプログラムを提供する。

本出願の技術によれば、従来技術では顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を解決する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができる。

なお、本部分に記載された内容は、本開示の実施例の肝心又は重要な特徴を識別することを意図しておらず、本開示の範囲を限定することも意図していない。本開示の他の特徴は、以下の説明により理解されやすくなる。

図面は、本出願の技術案がよりよく理解されるためのものであり、本出願を限定するものではない。
本出願の実施例１により提供される顔合成画像検出方法の概略フローチャートである。本出願の実施例２により提供される顔合成画像検出方法の概略フローチャートである。本出願の実施例３により提供される顔合成画像検出方法の概略フローチャートである。本出願の実施例３により提供される顔合成画像検出システムの概略構成図である。本出願の実施例４により提供される顔合成画像検出装置の第１の概略構成図である。本出願の実施例４により提供される顔合成画像検出装置の第２の概略構成図である。本出願の実施例の顔合成画像検出方法を実現するための電子機器のブロック図である。

以下、本出願の例示的な実施例について図面を参照して説明する。理解を容易にするためにその中には本出願の実施例の様々な詳細を含んでおり、それらは単なる例示するものと見なされるべきである。したがって、当業者は、本出願の範囲及び趣旨から逸脱することなく、ここで説明される実施例に対して様々な変更と修正を行うことができることを理解すべきである。同様に、明確及び簡潔するために、以下の説明では、周知の機能及び構成の説明を省略する。

実施例１
図１は、本出願の実施例１により提供される顔合成画像検出方法の概略フローチャートである。顔合成画像検出方法は、顔合成画像検出装置又は電子機器によって実行でき、顔合成画像検出装置又は電子機器は、ソフトウェア及び／又はハードウェアによって実現できる。顔合成画像検出装置又は電子機器は、ネットワーク通信機能を有する任意のスマートデバイスに統合できる。図１に示されるように、顔合成画像検出方法は、以下のステップ１０１〜ステップ１０４を含むことができる。

ステップ１０１において、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得する。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得することができる。本出願の実施例は、畳み込みニューラルネットワークとしてＲｅｓｎｅｔネットワークを採用し、Ｒｅｓｎｅｔは、ｂｕｉｌｄｉｎｇｂｌｏｃｋまたはｂｏｔｔｌｅｎｅｃｋからなる。ｂｕｉｌｄｉｎｇｂｌｏｃｋの構造は、１つの残差分岐と、ｓｈｏｒｔ−ｃｕｔ分岐とを含み、残差分岐には、１つのｉｄｅｎｔｉｔｙｍａｐｐｉｎｇ（恒等写像）を追加し、現在の出力を次の階層のネットワークに直接伝送するとともに、後方伝播の過程においても、次の階層のネットワークの勾配を上階層のネットワークに直接伝送し、このようにすることで、深層ネットワークの勾配消失の問題を解決する。従来の画像特徴抽出器ＶＧＧＮｅｔやＧｏｏｇｌｅＮｅｔに比べて、Ｒｅｓｎｅｔはより深いネットワーク層数を有し、さらに画像特徴の説明にはより多くのパラメータが使用されており、特有の残差ネットワーク構造を介してネットワーク層数の重畳による悪影響（例えば、トレーニング過程での勾配消失）を減少させることができる。したがって、Ｒｅｓｎｅｔは、より優れた特徴抽出機能を有する。具体的には、本出願の実施例では、畳み込みニューラルネットワークとしてＲｅｓｎｅｔ１８を採用してもよい。

ステップ１０２において、検出対象の顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、第２の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像に対応する第２の特徴ベクトルを取得する。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、第２の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像に対応する第２の特徴ベクトルを取得することができる。一実施例では、電子機器は、第１の完全接続層により検出対象の顔画像の元画像特徴を計算する際に、まず、検出対象の顔画像の元画像特徴に基づいて、第１の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出し、次いで、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得することができ、ここで、顔のキーポイントは７２個であり、第１の特徴ベクトルは１４４次元ベクトルである。具体的には、顔のキーポイントはそれぞれ（ｘ１、ｙ１）、（ｘ２、ｙ２）、…、（ｘ７２、ｙ７２）である。一実施例では、電子機器は、第２の完全接続層により検出対象の顔画像の元画像特徴を計算する際に、まず、検出対象の顔画像の元画像特徴に基づいて、第２の完全接続層により検出対象の顔画像のキー画像特徴を抽出し、次いで、検出対象の顔のキー画像特徴に基づいて、検出対象の顔画像に対応する第２の特徴ベクトルを取得することができ、ここで、第２の特徴ベクトルは１４４次元ベクトルである。

ステップ１０３において、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。

本出願の具体的な実施例では、電子機器は、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得することができる。一実施例では、電子機器は、第１の特徴ベクトルと第２の特徴ベクトルとを重ね合わせることにより、組み合わせられた特徴ベクトルとして２８８次元ベクトルを構成することができる。

ステップ１０４において、組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得し、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。

本出願の具体的な実施例では、電子機器は、組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得することができ、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。一実施例では、電子機器は、第３の完全接続層により２次元ベクトルを取得し、２次元ベクトルにより、検出対象の顔画像が合成画像であるまたは非合成画像であることを判断することができる。

本出願の実施例により提供される顔合成画像検出方法は、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得する。次いで、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願は、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得し、次いで、第３の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法では合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。

実施例２
図２は、本出願の実施例２により提供される顔合成画像検出方法の概略フローチャートである。図２に示されるように、顔合成画像検出方法は、以下のステップ２０１〜ステップ２０７を含むことができる。

ステップ２０１において、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得する。

ステップ２０２において、検出対象の顔画像の元画像特徴を第１の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第１の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出する。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像の元画像特徴を第１の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第１の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出することができる。ここで、顔のキーポイントは７２個であり、具体的には、顔のキーポイントはそれぞれ（ｘ１、ｙ１）、（ｘ２、ｙ２）、…、（ｘ７２、ｙ７２）である。

ステップ２０３において、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、ここで、第１の特徴ベクトルは１４４次元ベクトルである。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得することができ、ここで、第１の特徴ベクトルは１４４次元ベクトルである。具体的には、各顔のキーポイントは、１つの２次元画像特徴に対応しているので、７２個の顔のキーポイントの画像特徴に基づいて１４４次元ベクトルを取得することができる。

ステップ２０４において、検出対象の顔画像の元画像特徴を第２の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第２の完全接続層により検出対象の顔画像のキー画像特徴を抽出する。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像の元画像特徴を第２の完全接続層に入力し、検出対象の顔画像の元画像特徴に基づいて、第２の完全接続層により検出対象の顔画像のキー画像特徴を抽出することができる。具体的には、検出対象の顔画像の元画像特徴を５１２次元ベクトルとすると、本ステップにおいて、電子機器は、そのベクトルに基づいて、検出対象の顔画像のキー画像特徴として１４４次元ベクトルを生成することができる。

ステップ２０５において、検出対象の顔画像のキー画像特徴に基づいて、検出対象の顔画像に対応する第２の特徴ベクトルを取得し、ここで、第２の特徴ベクトルは１４４次元ベクトルである。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像のキー画像特徴に基づいて、検出対象の顔画像に対応する第２の特徴ベクトルを取得することができ、ここで、第２の特徴ベクトルは１４４次元ベクトルである。具体的には、検出対象の顔画像のキー画像特徴を１４４次元ベクトルとすると、本ステップにおいて、電子機器は、このベクトルを検出対象の顔画像に対応する第２の特徴ベクトルとして決定することができる。

ステップ２０６において、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。

ステップ２０７において、組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得し、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。

本出願の実施例により提供される顔合成画像検出方法は、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得する。次いで、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願は、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得し、次いで、第３の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法は合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。

実施例３
図３は、本出願の実施例３により提供される顔合成画像検出方法の概略フローチャートである。図３に示されるように、顔合成画像検出方法は、以下のステップ３０１〜ステップ３０８を含むことができる。

ステップ３０１において、検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、顔検出モデルにより検出対象の顔画像を認識して、検出対象の顔画像の顔検出枠を取得する。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、顔検出モデルにより検出対象の顔画像を認識して、検出対象の顔画像の顔検出枠を取得することができる。具体的には、電子機器は、まず、顔を含む赤緑青（ＲＧＢ）画像を取得し、ＲＧＢ画像を予めトレーニングされた顔検出モデルに入力し、予めトレーニングされた顔検出モデルによりＲＧＢ画像を認識して、ＲＧＢ画像の顔検出枠を取得することができる。本実施例における顔検出モデルは、顔の位置を検出できる既存の顔検出モデルであってもよい。

ステップ３０２において、検出対象の顔画像の顔検出枠を予め設定された倍数に拡大して、拡大された顔検出枠を取得し、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を所定のサイズに調整して、調整された顔画像を取得する。

本出願の具体的な実施例では、電子機器は、検出対象の顔画像の顔検出枠を予め設定された倍数に拡大して、拡大された顔検出枠を取得し、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を所定のサイズに調整して、調整された顔画像を取得することができる。具体的には、電子機器は、検出対象の顔画像の顔検出枠を１．５倍に拡大し、検出対象の顔画像中の顔を切り取り、切り取られた顔画像を同じサイズの２２４×２２４に調整することができる。

ステップ３０３において、調整された顔画像に基づいて各画素点の画素値を算出する。

本出願の具体的な実施例では、電子機器は、調整された顔画像に基づいて各画素点の画素値を算出することができる。具体的には、電子機器は、調整された顔画像を画素計算モデルに入力し、画素計算モデルにより各画素点の画素値を算出することができる。

ステップ３０４において、各画素点の画素値を所定の方法で正規化処理して、正規化処理された顔画像を取得し、正規化処理された顔画像における各画素点の画素値が所定の範囲内にあるようにする。

本出願の具体的な実施例では、電子機器は、各画素点の画素値を所定の方法で正規化処理して、正規化処理された顔画像を取得し、正規化処理された顔画像における各画素点の画素値が所定の範囲内にあるようにすることができる。具体的には、電子機器は、各画素点の画素値から１２８を減算し、２５６で除算し、各画素点の画素値が（−０．５、０．５）の間にあるようにすることができる。好ましくは、電子機器は、正規化処理された顔画像をランダムデータ強調処理することもできる。

ステップ３０５において、正規化処理された顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより正規化された顔画像に対して特徴抽出を行って、正規化された顔画像の元画像特徴を取得する。

ステップ３０６において、正規化された顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層により正規化された顔画像の元画像特徴を計算して、正規化された顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、第２の完全接続層により正規化された顔画像の元画像特徴を計算して、正規化された顔画像に対応する第２の特徴ベクトルを取得する。

ステップ３０７において、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。

ステップ３０８において、組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得し、ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。

なお、本実施例におけるステップ３０５〜３０８の正規化された顔画像に対する処理プロセスは、実施例１におけるステップ１０１〜１０４の検出対象の顔画像に対する処理プロセスと同様であるので、ここでは具体的な説明を省略する。

好ましくは、本出願の具体的な実施例では、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する前に、第１の完全接続層をトレーニングしてもよい。具体的には、電子機器は、予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とし、第１の完全接続層がそれに対応する収束条件を満たさない場合、現在の元画像特徴を第１の完全接続層に入力し、現在の元画像特徴を用いて第１の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第１の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行することができる。

好ましくは、本出願の具体的な実施例では、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する前に、第３の完全接続層をトレーニングしてもよい。具体的には、電子機器は、予め取得された最初の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとし、第３の完全接続層がそれに対応する収束条件を満たさない場合、現在の特徴ベクトルを第３の完全接続層に入力し、現在の特徴ベクトルを用いて第３の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第３の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行することができる。

図４は、本出願の実施例３により提供される顔合成画像検出システムの概略構成図である。図４に示されるように、顔合成画像検出システムは、顔検出モジュールと、画像前処理モジュールと、畳み込みニューラルネットワークと、第１の完全接続層と、第２の完全接続層と、第３の完全接続層とを備える。ここで、顔検出モジュールは、検出対象の顔画像中の顔を検出し、検出対象の顔画像中の顔検出枠を取得する。ここで、検出モデルは、顔の位置を検出できる既存の顔検出モデルである。画像前処理モジュールは、検出対象の顔画像中の顔検出枠を前処理する。具体的には、顔検出枠を１．５倍に拡大した後、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を同じサイズの２２４×２２４に調整して、調整された顔画像を取得する。さらに、電子機器は、調整された顔画像に対して正規化処理を行うこともできる。具体的には、電子機器は、調整された顔画像中の各画素値から１２８を減算し、２５６で除算し、各画素点の画素値が（−０．５、０．５）の間にあるようにすることができる。好ましくは、電子機器は、画像前処理モジュールにより正規化処理された顔画像をランダムデータ強調処理することもできる。畳み込みニューラルネットワークは、ＲｅｓＮｅｔ１８ネットワークを用いて検出対象の顔画像に対して特徴抽出を行い、最後の階層の特徴マップ上でグローバル平均プーリング操作を行った後に、２つの分岐の完全接続層の計算を行い、１つの完全接続層Ｆｃ１（第１の完全接続層）により顔の７２個のキーポイントに対応する１４４次元ベクトルを取得し、もう１つの完全接続層Ｆｃ２（第２の完全接続層）により検出対象の顔画像に対応する１４４次元ベクトルを取得し、Ｆｃ１及びＦｃ２から出力された２つの１４４次元ベクトルを組み合わせて２８８次元ベクトルを取得し、最後に、完全接続層Ｆｃ３（第３の完全接続層）を接続して２次元ベクトルを取得し、検出対象の顔画像が合成顔画像であるか非合成顔画像であるかを判断する。

顔合成画像検出は、顔関連分野の基礎技術の１つであり、安全防備、出勤、金融、出入管理などの多くのシーンに応用されている。現在の多くの業務にも広く応用されており、本出願により提供される技術案を採用して、顔合成画像が主にキーポイントに基づいてマップされるという事前情報によって、キーポイントと合成画像検出とを共同にトレーニングする。これにより、合成画像検出へより多くの監視情報をもたらすことができ、合成画像検出の過剰適合状況を緩和できるとともに、モデルに顔合成画像のキーポイント領域のフィットトレースにもっと注意させることができ、原図と合成画像の中のより判別性のある特徴を抽出して分類できる。したがって、本出願は、顔生体検出技術の性能を向上させ、顔生体検出技術に基づく多くの応用の効果アップ及びユーザ体験改善をサポートすることができ、業務項目のさらなる推進に有利である。

本出願の実施例により提供される顔合成画像検出方法は、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得する。次いで、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願は、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得し、次いで、第３の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法は合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限であり、また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは光照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。

実施例４
図５は、本出願の実施例４により提供される顔合成画像検出装置の第１の概略構成図である。図５に示されるように、前記装置５００は、特徴抽出モジュール５０１と、ベクトル計算モジュール５０２と、ベクトル組み合わせモジュール５０３と、結果計算モジュール５０４とを備える。
ここで、特徴抽出モジュール５０１は、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像に対して特徴抽出を行って、検出対象の顔画像の元画像特徴を取得する。
ベクトル計算モジュール５０２は、検出対象の顔画像の元画像特徴を第１の完全接続層に入力し、第１の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、検出対象の顔画像の元画像特徴を第２の完全接続層に入力し、第２の完全接続層により検出対象の顔画像の元画像特徴を計算して、検出対象の顔画像に対応する第２の特徴ベクトルを取得する。
ベクトル組み合わせモジュール５０３は、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得する。
結果計算モジュール５０４は、組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により組み合わせられた特徴ベクトルを計算して、検出対象の顔画像の検出結果を取得する。ここで、検出結果は、検出対象の顔画像が合成画像であるまたは非合成画像であることを含む。

さらに、ベクトル計算モジュール５０２は、具体的には、検出対象の顔画像の元画像特徴に基づいて、第１の完全接続層により検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴を抽出し、検出対象の顔画像の顔のキーポイント及び各顔のキーポイントの画像特徴に基づいて、検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得する。ここで、第１の特徴ベクトルは１４４次元ベクトルである。

さらに、ベクトル計算モジュール５０２は、具体的には、検出対象の顔画像の元画像特徴に基づいて、第２の完全接続層により検出対象の顔画像のキー画像特徴を抽出し、検出対象の顔のキー画像特徴に基づいて、検出対象の顔画像に対応する第２の特徴ベクトルを取得する。ここで、第２の特徴ベクトルは１４４次元ベクトルである。

図６は、本出願の実施例４により提供される顔合成画像検出装置の第２の概略構成図である。図６に示されるように、顔合成画像検出装置５００は、検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、顔検出モデルにより検出対象の顔画像を認識して、検出対象の顔画像の顔検出枠を取得し、検出対象の顔画像の顔検出枠を予め設定された倍数に拡大して、拡大された顔検出枠を取得し、拡大された顔検出枠で検出対象の顔画像中の顔を切り取って、切り取られた顔画像を取得し、切り取られた顔画像を所定のサイズに調整して、調整された顔画像を取得し、調整された顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する操作を実行する画像前処理モジュール５０５をさらに備える。

さらに、画像前処理モジュール５０５は、さらに、調整された顔画像に基づいて各画素点の画素値を算出し、各画素点の画素値を所定の方法で正規化処理して、正規化処理された顔画像を取得し、正規化処理された顔画像における各画素点の画素値が所定の範囲内にあるようにし、正規化処理された顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力する操作を実行する。

さらに、顔合成画像検出装置は、予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とし、第１の完全接続層がそれに対応する収束条件を満たさない場合、現在の元画像特徴を第１の完全接続層に入力し、現在の元画像特徴を用いて第１の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第１の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する第１のトレーニングモジュール５０６（図示しない）をさらに備えていてもよい。

さらに、顔合成画像検出装置は、予め取得された第１の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとし、第３の完全接続層がそれに対応する収束条件を満たさない場合、現在の特徴ベクトルを第３の完全接続層に入力し、現在の特徴ベクトルを用いて第３の完全接続層をトレーニングし、現在の顔画像の次の顔画像を現在の顔画像とし、第３の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する第２のトレーニングモジュール５０７（図示しない）をさらに備えていてもよい。

上記顔合成画像検出装置は、本出願の任意の実施例により提供される方法を実行することができ、方法に対応する機能モジュールと有益な効果とを有する。本実施例では詳細に説明されていない技術詳細について、本出願の任意の実施例により提供される顔合成画像検出方法を参照することができる。

実施例５
本出願の実施例によれば、本出願は、電子機器、読み取り可能な記憶媒体及びコンピュータプログラムを提供する。
コンピュータプログラムは、コンピュータに本出願によって提供される顔合成画像検出方法を実行させる。

図７は、本出願の実施例に係る顔合成画像検出方法の電子機器のブロック図である。
電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレームコンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを目的とする。電子機器は、パーソナルデジタルプロセッサ、携帯電話、スマートフォン、ウェアラブルデバイス、他の同様のコンピューティングデバイスなどの様々な形態のモバイルデバイスを表すこともできる。本明細書で示されるコンポーネント、それらの接続と関係、及びそれらの機能は単なる例であり、本明細書の説明及び／又は要求される本出願の実現を制限することを意図したものではない。

図７に示されるように、電子機器は、少なくとも１つのプロセッサ７０１と、メモリ７０２と、高速インターフェース及び低速インターフェースを含む各コンポーネントを接続するインターフェースとを備える。
各コンポーネントは、異なるバスで相互に接続され、共通のマザーボードに取り付けられるか、又は必要に応じて他の方式で取り付けることができる。プロセッサは、外部入力／出力装置（インターフェースに結合されたディスプレイデバイスなど）にＧＵＩの図形情報をディスプレイするためにメモリ内又はメモリに記憶されている命令を含む、電子機器内に実行される命令を処理することができる。他の実施形態では、必要であれば、複数のプロセッサ及び／又は複数のバスを、複数のメモリとともに使用することができる。同様に、複数の電子機器を接続することができ、各機器は、部分的な必要な操作（例えば、サーバアレイ、ブレードサーバ、又はマルチプロセッサシステムとする）を提供する。図７では、単一のプロセッサ７０１を用いる一例とする。

メモリ７０２は、本出願により提供される非一時的なコンピュータ読み取り可能な記憶媒体である。
ここで、メモリ７０２には、少なくとも１つのプロセッサによって実行される命令が記憶され、少なくとも１つのプロセッサが本出願により提供される顔合成画像検出方法を実行するようにする。
本出願の非一時的なコンピュータ読み取り可能な記憶媒体には、コンピュータに本出願により提供される顔合成画像検出方法を実行させるためのコンピュータ命令が記憶されている。

メモリ７０２は、非一時的なコンピュータ読み取り可能な記憶媒体として、本出願の実施例に係る顔合成画像検出方法に対応するプログラム命令／モジュール（例えば、図５に示す特徴抽出モジュール５０１、ベクトル計算モジュール５０２、ベクトル組み合わせモジュール５０３及び結果計算モジュール５０４）のような、非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能なプログラム及びモジュールを記憶する。
プロセッサ７０１は、メモリ７０２に記憶されている非一時的なソフトウェアプログラム、命令及びモジュールを実行することによって、サーバの様々な機能アプリケーション及びデータ処理を実行し、すなわち上記の顔合成画像検出方法を実現する。

メモリ７０２は、ストレージプログラム領域とストレージデータ領域とを含むことができ、ここで、ストレージプログラム領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、ストレージデータ領域は、顔合成画像検出方法の電子機器の使用によって作成されたデータなどを記憶することができる。また、メモリ７０２は、高速ランダムアクセスメモリを含むことができ、非一時的なメモリをさらに含むことができ、例えば、少なくとも１つのディスクストレージデバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステートストレージデバイスである。いくつかの実施例では、メモリ７０２は、プロセッサ７０１に対して遠隔に設置されたメモリを選択的に含むことができ、これらの遠隔メモリは、ネットワークを介して顔合成画像検出方法の電子機器に接続することができる。上記のネットワークの例としては、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びその組み合わせを含むが、これらに限定されない。

顔合成画像検出方法の電子機器は、入力装置７０３と出力装置７０４とをさらに備えていてもよい。
プロセッサ７０１、メモリ７０２、入力装置７０３、及び出力装置７０４は、バス又は他の方式を介して接続することができ、図７では、バスを介して接続することを一例としている。

入力装置７０３は、入力された数字又はキャラクタ情報を受信し、顔合成画像検出方法の電子機器のユーザ設定及び機能制御に関するキー信号入力を生成することができ、例えば、タッチスクリーン、キーパッド、マウス、トラックパッド、タッチパッド、インジケータースティック、少なくとも１つのマウスボタン、トラックボール、ジョイスティックなどの入力装置である。
出力装置７０４は、ディスプレイデバイス、補助照明デバイス（例えば、ＬＥＤ）、及び触覚フィードバックデバイス（例えば、振動モータ）などを含むことができる。当該ディスプレイデバイスは、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、及びプラズマディスプレイを含むことができるが、これらに限定されない。いくつかの実施形態では、ディスプレイデバイスは、タッチスクリーンであってもよい。

本明細書で説明されるシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、特定用途向けＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせで実現することができる。これらの様々な実施形態は、少なくとも１つのコンピュータプログラムで実施され、少なくとも１つのコンピュータプログラムは、少なくとも１つのプログラマブルプロセッサを含むプログラム可能なシステムで実行及び／又は解釈されることができ、プログラマブルプロセッサは、特定用途向け又は汎用のプログラマブルプロセッサであってもよく、ストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及び命令を受信し、データ及び命令をストレージシステム、少なくとも１つの入力装置、及び少なくとも１つの出力装置に伝送することができる。

これらのコンピューティングプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械命令を含み、高レベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械言語でこれらのコンピューティングプログラムを実施することができる。本明細書に使用されるような、「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指し、機械読み取り可能な信号である機械命令を受信する機械読み取り可能な媒体を含む。「機械読み取り可能な信号」という用語は、機械命令及び／又はデータをプログラマブルプロセッサに提供するための任意の信号を指す。

ユーザとのインタラクションを提供するために、コンピュータ上でここで説明されているシステム及び技術を実施することができ、コンピュータは、ユーザに情報を表示するためのディスプレイ装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを有し、ユーザは、キーボード及びポインティングデバイスによって入力をコンピュータに提供することができる。他の種類の装置は、ユーザとのインタラクションを提供することもでき、例えば、ユーザに提供されるフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力と、音声入力と、触覚入力とを含む）でユーザからの入力を受信することができる。

ここで説明されるシステム及び技術は、バックエンドコンポーネントを含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェアコンポーネントを含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンドコンポーネントを含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザは、グラフィカルユーザインタフェース又はウェブブラウザによってここで説明されるシステム及び技術の実施形態とインタラクションする）、又はこのようなバックエンドコンポーネントと、ミドルウェアコンポーネントと、フロントエンドコンポーネントの任意の組み合わせを含むコンピューティングシステムで実施することができる。任意の形態又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によってシステムのコンポーネントを相互に接続されてもいい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）と、ワイドエリアネットワーク（ＷＡＮ）と、インターネットとを含む。

コンピュータシステムは、クライアント側とサーバとを含むことができる。クライアント側とサーバは、一般に、互いに離れており、通常に通信ネットワークを介してインタラクションする。対応するコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによってクライアント側とサーバとの関係が生成される。サーバは、クラウドサーバ（クラウドコンピューティングサーバ又はクラウドサーバとも呼ばれる）であってもよく、クラウドコンピューティングサービス体系中の１つのサーバ製品として、伝統的な物理サーバとＶＰＳサービスに存在する管理難度が大きく、業務拡張性が弱いという欠陥を解決した。

本出願の実施例の技術案によれば、まず、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、畳み込みニューラルネットワークにより検出対象の顔画像の元画像特徴を取得する。さらに検出対象の顔画像の元画像特徴をそれぞれ第１の完全接続層及び第２の完全接続層に入力し、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得する。次いで、第１の特徴ベクトルと第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、最後に組み合わせられた特徴ベクトルを第３の完全接続層に入力し、第３の完全接続層により検出対象の顔画像の検出結果を取得する。すなわち、本出願では、第１の完全接続層及び第２の完全接続層により検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルと検出対象の顔画像に対応する第２の特徴ベクトルとをそれぞれ取得する。次いで、第３の完全接続層により検出対象の顔画像の検出結果を取得することができる。従来の顔合成画像検出方法では、主にニューラルネットワークの深層学習方法を用いており、当該方法は合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくない。本出願は、顔のキーポイントと合成画像とを連携して検出する技術的手段を採用することで、従来技術における顔合成画像検出モデルが合成画像と原図との判別性のある特徴を学習することが困難であり、しかも小範囲のトレーニングサンプルに過剰適合しやすく、未知の合成サンプルに対する汎化性が有限である。また、単一の畳み込みニューラルネットワークのみを用いて、実シーンにおける顔姿勢が大きすぎる或いは照明の差が大きい場合にはロバスト性が悪いため、認識結果が好ましくないという問題を克服する。本出願により提供される技術案は、顔合成画像検出の過剰適合状況を緩和し、顔合成画像検出の汎化性と正確さを向上させ、未知の合成サンプルに対する検出効果を向上させることができ、また、本出願の実施例の技術案は簡単で便利であり、普及しやすく、適用範囲が広い。

なお、上記に示される様々な形態のフローを使用して、ステップを並べ替え、追加、又は削除することができることを理解されたい。例えば、本出願に記載されている各ステップは、並列に実行されてもよいし、順次的に実行されてもよいし、異なる順序で実行されてもよいが、本出願で開示されている技術案が所望の結果を実現することができれば、本明細書では限定されない。

上記の具体的な実施形態は、本出願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション、及び置換を行うことができる。任意の本出願の精神と原則内で行われる修正、同等の置換、及び改良などは、いずれも本出願の保護範囲内に含まれるべきである。

Claims

検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得するステップと、
前記検出対象の顔画像の前記元画像特徴を第１の完全接続層に入力し、該第１の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第２の完全接続層に入力し、該第２の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第２の特徴ベクトルを取得するステップと、
前記第１の特徴ベクトルと前記第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得するステップと、
前記組み合わせられた特徴ベクトルを第３の完全接続層に入力し、該第３の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得するステップであって、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含むステップとを含む顔合成画像検出方法。
前記第１の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の前記顔のキーポイントに対応する前記第１の特徴ベクトルを取得するステップは、
前記検出対象の顔画像の前記元画像特徴に基づいて、前記第１の完全接続層により前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの画像特徴を抽出するステップと、
前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの前記画像特徴に基づいて、前記検出対象の顔画像の前記顔のキーポイントに対応する前記第１の特徴ベクトルを取得するステップであって、前記第１の特徴ベクトルが１４４次元ベクトルであるステップとを含む請求項１に記載の顔合成画像検出方法。
前記第２の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する前記第２の特徴ベクトルを取得するステップは、
前記検出対象の顔画像の前記元画像特徴に基づいて、前記第２の完全接続層により前記検出対象の顔画像のキー画像特徴を抽出するステップと、
前記検出対象の顔画像の前記キー画像特徴に基づいて、前記検出対象の顔画像に対応する前記第２の特徴ベクトルを取得するステップであって、前記第２の特徴ベクトルが１４４次元ベクトルであるステップとを含む請求項１に記載の顔合成画像検出方法。
前記検出対象の顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力するステップの前に、
前記検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、前記顔検出モデルにより前記検出対象の顔画像を認識して前記検出対象の顔画像の顔検出枠を取得するステップと、
前記検出対象の顔画像の前記顔検出枠を予め設定された倍数に拡大して拡大された顔検出枠を取得し、該拡大された顔検出枠で前記検出対象の顔画像中の顔を切り取って切り取られた顔画像を取得し、該切り取られた顔画像を所定のサイズに調整して調整された顔画像を取得し、該調整された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行するステップとをさらに含む請求項１に記載の顔合成画像検出方法。
前記調整された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行するステップの前に、
前記調整された顔画像に基づいて各画素点の画素値を算出するステップと、
各前記画素点の画素値を所定の方法で正規化処理して正規化処理された顔画像を取得し、前記正規化処理された顔画像における各前記画素点の前記画素値が所定の範囲内にあるようにし、前記正規化処理された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行するステップとをさらに含む請求項４に記載の顔合成画像検出方法。
前記検出対象の顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力するステップの前に、
予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とするステップと、
前記第１の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の元画像特徴を前記第１の完全接続層に入力し、前記現在の元画像特徴を用いて前記第１の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第１の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行するステップとをさらに含む請求項１に記載の顔合成画像検出方法。
前記検出対象の顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力するステップの前に、
予め取得された最初の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとするステップと、
前記第３の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の特徴ベクトルを前記第３の完全接続層に入力し、前記現在の特徴ベクトルを用いて前記第３の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第３の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行するステップとをさらに含む請求項１に記載の顔合成画像検出方法。
特徴抽出モジュールと、ベクトル計算モジュールと、ベクトル組み合わせモジュールと、結果計算モジュールとを備え、
前記特徴抽出モジュールは、検出対象の顔画像を予めトレーニングされた畳み込みニューラルネットワークに入力し、該畳み込みニューラルネットワークにより前記検出対象の顔画像に対して特徴抽出を行って、前記検出対象の顔画像の元画像特徴を取得し、
前記ベクトル計算モジュールは、前記検出対象の顔画像の前記元画像特徴を第１の完全接続層に入力し、該第１の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像の顔のキーポイントに対応する第１の特徴ベクトルを取得し、前記検出対象の顔画像の前記元画像特徴を第２の完全接続層に入力し、該第２の完全接続層により前記検出対象の顔画像の前記元画像特徴を計算して、前記検出対象の顔画像に対応する第２の特徴ベクトルを取得し、
前記ベクトル組み合わせモジュールは、前記第１の特徴ベクトルと前記第２の特徴ベクトルとを組み合わせて、組み合わせられた特徴ベクトルを取得し、
前記結果計算モジュールは、前記組み合わせられた特徴ベクトルを第３の完全接続層に入力し、該第３の完全接続層により前記組み合わせられた特徴ベクトルを計算して、前記検出対象の顔画像の検出結果を取得し、前記検出結果は、前記検出対象の顔画像が合成画像であるまたは非合成画像であることを含む顔合成画像検出装置。
前記ベクトル計算モジュールは、具体的には、前記検出対象の顔画像の前記元画像特徴に基づいて、前記第１の完全接続層により前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの画像特徴を抽出し、前記検出対象の顔画像の前記顔のキーポイント及び各前記顔のキーポイントの前記画像特徴に基づいて、前記検出対象の顔画像の前記顔のキーポイントに対応する前記第１の特徴ベクトルを取得し、該第１の特徴ベクトルが１４４次元ベクトルである請求項８に記載の顔合成画像検出装置。
前記ベクトル計算モジュールは、具体的には、前記検出対象の顔画像の前記元画像特徴に基づいて、前記第２の完全接続層により前記検出対象の顔画像のキー画像特徴を抽出し、前記検出対象の顔画像の前記キー画像特徴に基づいて、前記検出対象の顔画像に対応する前記第２の特徴ベクトルを取得し、該第２の特徴ベクトルが１４４次元ベクトルである請求項８に記載の顔合成画像検出装置。
画像前処理モジュールをさらに備え、
該画像前処理モジュールは、前記検出対象の顔画像を予めトレーニングされた顔検出モデルに入力し、該顔検出モデルにより前記検出対象の顔画像を認識して前記検出対象の顔画像の顔検出枠を取得し、前記検出対象の顔画像の前記顔検出枠を予め設定された倍数に拡大して拡大された顔検出枠を取得し、該拡大された顔検出枠で前記検出対象の顔画像中の顔を切り取って切り取られた顔画像を取得し、該切り取られた顔画像を所定のサイズに調整して調整された顔画像を取得し、該調整された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行する請求項８に記載の顔合成画像検出装置。
前記画像前処理モジュールは、さらに、前記調整された顔画像に基づいて各画素点の画素値を算出し、各前記画素点の前記画素値を所定の方法で正規化処理して正規化処理された顔画像を取得し、前記正規化処理された顔画像における各前記画素点の前記画素値が所定の範囲内にあるようにし、前記正規化処理された顔画像を予めトレーニングされた前記畳み込みニューラルネットワークに入力する操作を実行する請求項１１に記載の顔合成画像検出装置。
第１のトレーニングモジュールをさらに備え、
該第１のトレーニングモジュールは、予め取得された最初の顔画像の元画像特徴を現在の元画像特徴とし、前記第１の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の元画像特徴を前記第１の完全接続層に入力し、前記現在の元画像特徴を用いて前記第１の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第１の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する請求項８に記載の顔合成画像検出装置。
第２のトレーニングモジュールをさらに備え、
該第２のトレーニングモジュールは、予め取得された最初の顔画像の組み合わせられた特徴ベクトルを現在の特徴ベクトルとし、前記第３の完全接続層がそれに対応する収束条件を満たさない場合、前記現在の特徴ベクトルを前記第３の完全接続層に入力し、前記現在の特徴ベクトルを用いて前記第３の完全接続層をトレーニングし、前記現在の顔画像の次の顔画像を前記現在の顔画像とし、前記第３の完全接続層がそれに対応する収束条件を満たすまで、上記操作を繰り返して実行する請求項８に記載の顔合成画像検出装置。
少なくとも１つのプロセッサと、
少なくとも１つの該プロセッサに通信可能に接続されるメモリとを備え、
該メモリには、少なくとも１つの前記プロセッサによって実行可能な命令が記憶され、該命令は、少なくとも１つの前記プロセッサが請求項１から請求項７のいずれかに記載の顔合成画像検出方法を実行できるように、少なくとも１つの前記プロセッサによって実行される電子機器。
コンピュータ命令が記憶されている非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ命令は、コンピュータに請求項１から請求項７のいずれかに記載の顔合成画像検出方法を実行させる非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータに請求項１から請求項７のいずれかに記載の顔合成画像検出方法を実行させるコンピュータプログラム。