以下では、本発明の実施例の図面を組み合わせて本発明の実施例における解決手段を明瞭で完全に記述する。明らかに、記述される実施例が単に本発明の一部の実施例に過ぎず、全部の実施例ではない。本発明における実施例に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の実施例は、何れも本発明の保護範囲に含まれる。
本発明の明細書及び特許請求の範囲並びに上記図面における用語「第1」、「第2」、「第3」と「第4」等は、異なる対象を区分するために用いられ、特定の順番を記述するためのものではない。また、用語「含む」と「備える」およびそれらの如何なる変形も、非排他的な含有をカバーすることを意図する。例えば、一シリーズのステップ若しくは手段を含む過程、方法、システム、製品若しくは機器は、挙げられたステップや手段に限定されず、挙げられていないステップや手段を選択可能に含み、又は、これらの過程、方法、製品若しくは機器固有の他のステップや手段を含んでもよい。
本文で言及された「実施例」は、実施例を組み合わせて記述された特定の特徴、構造又は特性が本発明の少なくとも1つの実施例に含まれ得ることを意味する。明細書における各位置に当該用語が現れるのは、必ずしも同じ実施例を指すとは限らず、他の実施例に対して排他的な独立又候補の実施例でもない。当業者が明示的に且つ暗示的に理解できるように、本文で記述される実施例は、他の実施例と組み合わせられ得る。
図1は、本発明の実施例に係る顔画像の真偽を識別する方法の模式的なフローチャートである。当該方法は、顔画像の真偽を識別する装置に用いられる。当該方法は、以下のステップを含む。
101では、第1顔画像を取得する。
102では、第1顔画像に対して周波数領域変換を行い、第1スペクトログラムを取得する。
当該周波数領域変換は、DCT、フーリエ変換(Fourier Transformation)、高速フーリエ変換(Fast Fourier Transform、FFT)のうちの一種を含んでもよいが、それらに限定されない。本発明では、当該周波数領域変換がDCTであることを例として説明する。
更に、当該周波数領域変換は、グローバル周波数領域変換及び/又は局所周波数領域変換を含む。グローバル周波数領域変換とは、当該第1顔画像全体に対して周波数領域変換を行って1つの第1スペクトログラムを得ることを指す。局所周波数領域変換とは、当該第1顔画像中の複数の局所領域に対して周波数領域変換を行って複数の第1スペクトログラムを得ることを指す。幾つかの例において、局所周波数領域変換は、スライド窓を用いて当該第1顔画像においてスライドし、毎回のスライドによって当該スライド窓で枠選択された局所領域に対して周波数領域変換を行ってもよい。したがって、当該局所周波数領域変換は、スライド窓離散コサイン変換(Slide Window Discrete Cosine Transform、SWDCT)であってもよい。
また、幾つかの例において、スライド窓を使用せずに当該第1顔画像の複数の領域に対して周波数領域変換を行ってもよい。例えば、当該領域は、予め設定された領域、細部情報の多い領域、又は重点的に注目された領域であってもよく、本発明ではこれについて限定しない。したがって、当該第1顔画像に対して局所周波数領域変換を行う場合に、得られた第1スペクトログラムの数は、複数であってもよい。
グローバル周波数領域変換と局所周波数領域変換とのそれぞれによって得られた第1スペクトログラムが容易に区分されるように、本発明の後述する部分において、局所周波数領域変換によって得られた第1スペクトログラムを第1局所スペクトログラムと呼び、グローバル周波数領域変換によって得られた第1スペクトログラムを第1グローバルスペクトログラムと呼ぶ。
なお、当該第1顔画像に対してグローバル周波数領域変換及び局所周波数領域変換を行う場合に、グローバル周波数領域変換を先に行ってもよく、局所周波数領域変換を先に行ってもよく、又はグローバル周波数領域変換と局所周波数領域変換とを並行に行ってもよく、本発明では、周波数領域変換の順番について限定しない。
103では、第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行い、複数の第2スペクトログラムを取得する。
例示として、当該第1顔画像に対してグローバル周波数領域変換のみを行った場合に、即ち、当該第1グローバルスペクトログラムがグローバル周波数領域変換によって得られた場合に、当該グローバル周波数領域変換に対応する複数グループのフィルタを介して当該第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行うことにより、当該複数の第2スペクトログラムを取得してもよい。本発明では、当該グローバル周波数領域変換に対応する複数グループのフィルタを複数グループの第1フィルタと呼び、後では、複数グループの第1フィルタを介して当該第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行う過程を詳細に紹介し、ここで詳しく説明しない。複数グループの第1フィルタを介して第1グローバルスペクトログラムに対してフィルタリングを行うことにより、異なる周波数帯域の第2スペクトログラムを取得することができ、後で得られる入力データに当該第1グローバルスペクトログラムにおける異なる周波数帯域の情報を含ませ、即ち、当該入力データに豊富な周波数帯域情報を含ませ、更に第1顔画像に対して真偽識別を行う正確度を向上させることができる。
例示として、当該第1顔画像に対して局所周波数領域変換のみを行った場合に、即ち、当該第1局所スペクトログラムが局所周波数領域変換によって得られた場合に、当該局所変換に対応する複数グループのフィルタを介して、第1局所スペクトログラムのそれぞれに対して複数回のフィルタリング処理を行い、各第1局所スペクトログラムに対応する複数の第2スペクトログラムを取得してもよい。本発明では、当該局所周波数領域変換に対応する複数グループのフィルタを複数グループの第2フィルタと呼び、後では、複数グループの第2フィルタを介して第1局所スペクトログラムのそれぞれに対して複数回のフィルタリング処理を行う過程を詳細に紹介し、ここで詳しく説明しない。
例示として、当該第1顔画像に対してグローバル周波数領域変換及び局所周波数領域変換を行った場合に、即ち、当該第1スペクトログラムがグローバル周波数領域変換によって得られた1つの第1グローバルスペクトログラムと局所周波数領域変換によって得られた複数の第1局所スペクトログラムとを含む場合に、複数グループの第1フィルタを介して第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行い、当該第1グローバルスペクトログラムに対応する複数の第2スペクトログラムを取得して、複数グループの第2フィルタを介して第1局所スペクトログラムのそれぞれに対して複数回のフィルタリング処理を行い、各第1局所スペクトログラムに対応する複数の第2スペクトログラムを取得する必要がある。したがって、このような場合に、複数の第2スペクトログラムは、グローバル周波数領域変換で得られた第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行って取得された複数の第2スペクトログラムと、局所周波数領域変換で得られた第1局所スペクトログラムのそれぞれに対して複数回のフィルタリング処理を行って取得された複数の第2スペクトログラムとを含む。
なお、上記第1スペクトログラムに対して複数回のフィルタリング処理を行う過程は、先に複数グループの第1フィルタを介して、グローバル周波数領域変換で得られた第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行ってもよく、先に複数グループの第2フィルタを介して、局所周波数領域変換で得られた第1局所スペクトログラムのそれぞれに対して複数回のフィルタリング処理を行ってもよく、無論、グローバル周波数領域変換処理と局所周波数領域変換処理とで得られた第1スペクトログラムに対してフィルタリング処理を並行に行ってもよい。本発明では、フィルタリングの順番について限定しない。
ただし、上記係るフィルタリング処理過程は、毎回のフィルタリング処理によって1つの第2スペクトログラムが取得され得、各グループのフィルタが1回のフィルタリング処理に対応する。
104では、複数の第2スペクトログラムに基づいて、入力データを取得する。
例示として、当該複数の第2スペクトログラムが第1グローバルスペクトログラムに対応する複数の第2スペクトログラムのみを含む場合に、当該複数の第2スペクトログラムのうちの各第2スペクトログラムに対して周波数領域逆変換を行い、複数の第2画像を取得してもよい。当該周波数領域逆変換は、当該グローバル周波数領域変換の逆過程である。その後、当該複数の第2画像を繋ぎ合わせ、当該入力データを取得する。本発明では、グローバル周波数領域変換によって得られた入力データを第1入力データと呼ぶ。
例示として、当該複数の第2スペクトログラムが当該第1局所スペクトログラムに対応する複数の第2スペクトログラムのみを含む場合に、各第2スペクトログラムのエネルギーを特定し、各第1局所スペクトログラムに対応する複数の第2スペクトログラムのエネルギーに基づいて、各第1局所スペクトログラムに対応する特徴ベクトルを取得することができる。その後、当該複数の第1局所スペクトログラムに対応する特徴ベクトルについて再構成(re-assemble)を行い、当該入力データを取得する。本発明では、局所周波数領域変換によって得られた入力データを第2入力データと呼ぶ。
説明すべきことは、再構成された第2入力データのサイズが当該ニューラルネットワークによって規定されたサイズにマッチングしない場合に、第2入力データのサイズが当該ニューラルネットワークによって規定されたサイズにマッチングするように、再構成して得られた第2入力データに対してチャンネル変換を行う必要があり、チャンネル変換後のデータを当該第2入力データとする必要がある。後述する第2入力データは、何れも対応するチャンネル変換を経て得られた、当該ニューラルネットワークによって規定されたサイズにマッチングする入力データである。
例示として、当該複数の第2スペクトログラムが当該グローバル周波数領域変換に対応する複数の第2スペクトログラムと当該局所周波数領域変換に対応する複数の第2スペクトログラムとを含む場合に、当該入力データは、上記第1入力データ及び第2入力データを含み、且つ当該第1入力データ及び当該第2入力データを取得する方式は、上記過程と類似するため、再び説明しない。
105では、入力データに基づいて、第1顔画像の真偽を特定する。
当該第1顔画像の真偽を特定することは、本質的に、当該第1顔画像がオリジナルの顔画像であるか否かを特定することであり、即ち、当該第1顔画像が置換されたか、変更されたか又は複写されたか等を特定することである。
本発明の実施例において、複数グループのフィルタを介して当該第1スペクトログラムに対して複数回のフィルタリング処理を行い、複数の第2スペクトログラムを取得することが分かる。したがって、当該複数の第2スペクトログラムの周波数帯域情報が異なり、当該複数の第2スペクトログラムに基づいて入力データを取得するため、当該入力データが当該第1スペクトログラムの複数の周波数帯域情報を含み、更に当該入力データに基づいて第1顔画像の真偽を識別し、即ち複数の周波数帯域情報を利用して第1顔画像の真偽を識別するため、第1顔画像の真偽を識別する正確度をより向上させ、誤識別率を低減する。
幾つかの可能な実施形態において、当該入力データが第1入力データ又は第2入力データのみを含む場合に、当該入力データに対して特徴抽出を行って第1特徴マップを取得し、当該第1特徴マップに基づいて第1顔画像の真偽を特定し、即ち、当該第1特徴マップに応じて分類を行い、第1顔画像の真偽を特定してもよい。
単一の周波数帯域情報によって識別を行うのではなく、第1スペクトログラムにおける複数の周波数帯域情報によって第1顔画像の真偽を識別することにより、第1顔画像の真偽を識別する正確度をより向上させることが分かる。
幾つかの可能な実施形態において、当該入力データが第1入力データ及び第2入力データを含む場合に、当該第1入力データ及び第2入力データに対してクロス融合処理を行い、第2特徴マップ及び第3特徴マップを取得し、当該第2特徴マップ及び当該第3特徴マップに基づいて当該第1顔画像の真偽を特定する必要がある。
例えば、当該第2特徴マップと第3特徴マップとを繋ぎ合わせてもよく、繋ぎ合わせられた特徴マップに基づいて当該第1画像の真偽を特定する。即ち、繋ぎ合わせられた特徴マップに対して特徴抽出を行い、目標特徴マップを取得し、当該目標特徴マップに応じて分類を行い、当該第1画像の真偽を特定してもよい。
また、当該第2特徴マップと第3特徴マップとを繋ぎ合わせる必要がなくてもよい。例示として、当該第2特徴マップと第3特徴マップとに対してプーリング処理を同時に行って目標特徴マップを取得してもよく、これは、プーリング過程において当該第2特徴マップと当該第3特徴マップとをマージすることに相当する。その後、当該目標特徴マップに応じて分類を行い、当該第1画像の真偽を特定する。
これにより、第1顔画像のグローバル周波数領域情報と局所周波数領域情報とに対してクロス融合処理を行ったため、クロス融合後の第2特徴マップ及び第3特徴マップがより多くの周波数帯域情報を含み、更に第1顔画像の真偽を識別する正確度を向上させることができる。また、グローバル周波数領域変換において当該第1顔画像中のより細かい周波数帯域情報を抽出するため、識別正確度を更に向上させる。また、局所周波数領域変換過程においてスライド窓を用いて第1顔画像を枠選択するため、各第1局所スペクトログラムの特徴ベクトルは、空間位置情報(スライド窓による第1顔画像中の枠選択の位置)も含む。これにより、当該第2入力データが空間位置情報を含むようになり、目標特徴マップに含まれる情報がより豊富になる。
幾つかの可能な実施形態において、当該クロス融合処理の回数が複数回であってもよく、当該第2特徴マップ及び第3特徴マップを取得する実現過程は、当該第1入力データと当該第2入力データとに対して第1回のクロス融合処理を行い、第4特徴マップ及び第5特徴マップを取得して、当該第4特徴マップ及び当該第5特徴マップを次回のクロス融合処理の入力データとし、複数回の当該クロス融合処理を行った後、当該第2特徴マップ及び当該第3特徴マップを取得することであってもよい。
以下では、第1入力データ及び第2入力データに対して第1回のクロス融合処理を行うことを基にクロス融合処理の具体的な過程を説明し、他のクロス融合処理の実現過程は、当該第1回のクロス融合処理の過程と類似するため、再び説明しない。
当該第1入力データに対して特徴抽出を行い、第6特徴マップを取得する。当該第2入力データに対して特徴抽出を行い、第7特徴マップを取得する。なお、第1入力データと第2入力データとに対して特徴抽出を行う過程は、前後順を問わない。当該第6特徴マップ及び第7特徴マップに基づいて第1行列を取得し、当該第1行列は、第6特徴マップと第7特徴マップとの間の相関を表すために用いられる。即ち、当該第6特徴マップ及び第7特徴マップは、実質的に2つの行列であり、当該第1行列は、当該2つの行列の間の相互相関係数そのものである。当該第1行列及び当該第7特徴マップに基づいて、第8特徴マップを取得し、即ち、当該第1行列と当該第7特徴マップとに対してアダマール積を求め、当該第8特徴マップを取得し、当該第8特徴マップと当該第6特徴マップとを重畳して、当該第4特徴マップを取得してもよい。当該第1行列及び当該第6特徴マップに基づいて、第9特徴マップを取得し、即ち、当該第1行列と当該第6特徴マップとに対してアダマール積を求め、当該第9特徴マップを取得し、その後、当該第9特徴マップと当該第7特徴マップとを重畳して、当該第5特徴マップを取得する。
以下では、本発明において第1スペクトログラムに対して複数回のフィルタリング処理を行う過程を詳細に紹介する。
まず、本発明では、グローバル周波数領域変換で得られた第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行っても、局所周波数領域変換で得られた第1局所スペクトログラムに対して複数回のフィルタリング処理を行っても、いずれも複数グループのフィルタを用いてスペクトログラムに対して複数回のフィルタリング処理を行う。したがって、第1グローバルスペクトログラム及び/又は第1局所スペクトログラムに対して複数回のフィルタリング処理を行う過程は、複数グループのフィルタを介して、第1グローバルスペクトログラム及び/又は第1局所スペクトログラムに対して複数回のフィルタリング処理を行うことを含む。各グループのフィルタのフィルタリングパラメータは、所定パラメータ及び参照パラメータを含み、当該参照パラメータは、ネットワークパラメータであり、ニューラルネットワークに対して予めトレーニングを行ったものである。後では、当該参照パラメータを如何に取得するかを詳細に記述するため、ここで詳しく説明しない。また、各グループのフィルタは、第1グローバルスペクトログラム及び/又は第1局所スペクトログラムから当該所定パラメータに対応する周波数帯域情報を分離し、当該参照パラメータは、当該周波数帯域情報に対して補償を行うために用いられ、且つ何れか2グループのフィルタで分離された周波数帯域情報は、異なり、且つ当該複数グループのフィルタで分離された複数の周波数帯域情報は、当該第1グローバルスペクトログラム及び/又は第1局所スペクトログラムにおける全部の周波数帯域情報を含む。
グローバル周波数領域変換で得られた第1グローバルスペクトログラム及び局所周波数領域変換で得られた第1局所スペクトログラムに対して複数回のフィルタリング処理を行う過程において、何れも複数グループのフィルタを介して第1グローバルスペクトログラム及び/又は第1局所スペクトログラムに対して複数回のフィルタリング処理を行う。実際の応用では、異なる周波数領域変換について、使用されるフィルタの間のフィルタリングパラメータが異なり、且つ使用されるフィルタの数も異なる。当該フィルタリングパラメータが異なるとは、フィルタ同士の所定パラメータが異なり、又はフィルタ同士の参照パラメータが異なり、又はフィルタ同士の所定パラメータと参照パラメータとが何れも異なることを指す。無論、実際の応用では、グローバル周波数領域処理及び局所周波数領域処理フィルタで得られたスペクトルに対してフィルタリングを行う過程において、通常、フィルタ同士の所定パラメータと参照パラメータとを何れも異なるように設定する。つまり、第1フィルタと第2フィルタの間の所定パラメータと参照パラメータが何れも異なり、且つ第1フィルタの数と第2フィルタの数も異なる。したがって、区分の便宜上、第1フィルタの所定パラメータ及び参照パラメータを第1所定パラメータ及び第1参照パラメータと呼び、第2フィルタの所定パラメータ及び参照パラメータを第2所定パラメータ及び第2参照パラメータと呼んでもよい。以下では、複数グループの第1フィルタ及び複数グループの第2フィルタを介してフィルタリングを行う過程をそれぞれ紹介する。
例示として、各グループの第1フィルタの第1所定パラメータによって当該グローバル周波数領域変換で得られた第1グローバルスペクトログラムの第1周波数帯域情報を抽出し、当該第1参照パラメータによって当該第1周波数帯域情報に対して補償を行うことにより、当該グループの第1フィルタに対応する第2スペクトログラムを取得し、即ち、当該第1参照パラメータによって当該第1グローバルスペクトログラムにおける第3周波数帯域情報を抽出し、当該第1周波数帯域情報と当該第3周波数帯域情報とを重畳して当該第2スペクトログラムを取得する。また、何れか2グループの第1フィルタ同士の第1所定パラメータが異なる。つまり、何れか2グループの第1フィルタで抽出された第1周波数帯域情報が異なる。且つ、複数グループのフィルタで抽出された複数の第1周波数帯域情報は、当該第1グローバルスペクトログラムにおける全部の周波数帯域情報を含む。即ち、将当該複数の第1周波数帯域情報を組み合わせると、当該第1グローバルスペクトログラムにおける全部の周波数帯域情報を取得することができる。
実際の応用では、各グループの第1フィルタの第1所定パラメータと第1参照パラメータとを重畳してから、重畳後のパラメータを用いて当該第1グローバルスペクトログラムに対してフィルタリング処理を行い、当該グループの第1フィルタに対応する当該第2スペクトログラムを直接取得してもよい。
当該第1所定パラメータによって第1周波数帯域情報を抽出することは、当該第1所定パラメータと当該第1グローバルスペクトログラムとを用いて対応位置成分乗算を行い、当該第1グローバルスペクトログラムにおける一部の周波数帯域情報をフィルタリングによって除去し、一部の周波数帯域情報を保留することである。保留された一部の周波数帯域情報は、当該第1周波数帯域情報である。
ただし、当該第1所定パラメータは、当該第1グローバルスペクトログラムと同じ規模の二値行列であってもよい。例示として、第1所定パラメータが[0, 1/16]である場合に、[0, 1/16]は、当該行列中の左上隅の1/16の部分の値が1であり、他の部分の値が0であることを表す。図2に示すように、当該第1所定パラメータに対応する行列中の黒色部分は、値が0であることを表し、白色部分は、値が1であることを表す。また、当該第1グローバルスペクトログラム210は、第1顔画像に対してDCT変換を行ったものであり、何れか1枚の画像に対してDCT変換を行って得られたスペクトログラムにおける左上隅部分は、当該画像の低周波数情報であり、中間部分は、当該画像の中間周波数情報であり、右下隅は、当該画像の高周波数情報である。したがって、複数グループの異なる第1フィルタを介して、同一の第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行い、当該第1グローバルスペクトログラムに対応する複数の異なる第2スペクトログラムを取得することができる。図2に示すように、第1グループの第1フィルタ220の第1所定パラメータが[0, 1/16]であると仮定すれば、当該グループの第1フィルタ220の第1所定パラメータと第1グローバルスペクトログラム210とを用いてアダマール積を求めると、当該第1グローバルスペクトログラム210の左上隅1/16部分領域の周波数帯域情報、即ち、低周波数情報を保留可能であり、当該第1グローバルスペクトログラムにおける他の周波数帯域情報をフィルタリングによって除去し、当該グループの第1フィルタ220に対応する第2スペクトログラム230を取得する。当該第2スペクトログラム230における白色部分は、低周波数情報そのものである。また、図2に示すように、最後1グループの第1フィルタ22nの第1所定パラメータが[1/8, 1]であるため、当該グループの第1フィルタ22nの第1所定パラメータを使用して第1グローバルスペクトログラム210に対してアダマール積を求めると、当該第1グローバルスペクトログラム210の右下隅の7/8部分領域の周波数帯域情報、即ち、高周波数情報を保留可能であり、当該第1グローバルスペクトログラム210における他の周波数帯域情報をフィルタリングによって除去し、当該グループの第1フィルタ22nに対応する第2スペクトログラム23nを取得する。当該第2スペクトログラム23nにおける白色部分は、保留された高周波数情報そのものである。後でフィルタを用いてスペクトログラムに対してフィルタリングを行う過程は、図2に示すフィルタリング過程を参照すればよく、再び詳しく説明しない。
したがって、複数グループの第1フィルタを設計して当該第1グローバルスペクトル画像に対してフィルタリング処理を行い、複数の周波数帯域情報の互い異なる第2スペクトログラムを取得してもよい。例示として、当該第1グローバルスペクトログラムの低周波数情報、中間周波数情報及び高周波数情報を分離する場合に、3グループの第1フィルタを設計してフィルタリング処理を行ってもよい。例えば、当該3グループの第1フィルタの第1所定パラメータは、それぞれ
である。したがって、
は、当該第1グローバルスペクトログラムにおける低周波数情報を分離するために用いられ、
は、当該第1グローバルスペクトログラムにおける中間周波数情報を分離するために用いられ、
は、当該第1グローバルスペクトログラムにおける高周波数情報を分離するために用いられる。当該3グループの第1所定パラメータが単に例示的な説明であり、実際の応用では、当該第1グローバルスペクトログラムに対して等分フィルタリングを行ってもよい。即ち、3グループのフィルタの第1所定パラメータの間の間隔を同じにするように設計する。そうすると、第1所定パラメータは、それぞれ[0, 1/3]、[1/3, 2/3]、[2/3, 1]となる。
したがって、各グループの第1フィルタの第1所定パラメータは、分離すべき周波数帯域情報に応じて事前に設定され得る。例えば、第1所定パラメータをそれぞれ
と設定してもよい。このように、フィルタリング処理して得られた3つの第2スペクトログラムのエネルギーが同じであることは、保証される。これにより、当該3つの第2スペクトログラムに対して繋ぎ合わせを行って得た第1入力データにおいて、各層のデータの間のエネルギー差分が大きすぎなく、空間上の連続性が満たされ、後で当該第1入力データの特徴を抽出することは、容易になる。
また、各グループの第1フィルタは、1つの基礎フィルタと1つの調整可能フィルタとを含んでもよい。当該基礎フィルタのフィルタリングパラメータは、当該グループの第1フィルタの第1所定パラメータであり、当該調整可能フィルタのフィルタリングパラメータは、当該グループの第1フィルタの第1参照パラメータである。
ただし、各グループの第1フィルタは、数式(1)で表されてもよい。
f
iは、複数グループの第1フィルタのうちの第iグループの第1フィルタであり、
は、当該第iグループの第1フィルタの第1所定パラメータ、即ち、基礎フィルタであり、
は、当該第iグループの第1フィルタの第1参照パラメータ、即ち、調整可能フィルタであり、σは、圧縮関数であり、第1参照パラメータの値を所定範囲に絞り込むために用いられる。例えば、σ(x)=(1-e
x)/(1+e
x)、iの値は、1~Nの整数であり、Nは、当該複数グループの第1フィルタの数である。例えば、上記高中低周波数情報を分離する例において、Nは、3である。
第1参照パラメータは、周波数帯域情報のみに対して補償を行う。つまり、各グループの第1フィルタで分離された周波数帯域情報の範囲は、各グループの第1フィルタにおける基礎フィルタによって決定される。このように、複数グループの第1フィルタが事前に区分された後、当該第1グローバルスペクトログラムの全部の周波数帯域情報を抽出することができる。したがって、圧縮関数σを使用するのは、主に当該第1参照パラメータの値を[-1, 1]まで絞り込むことにより、第1参照パラメータの値が大きすぎることに起因して基礎フィルタと重畳した後で各グループの第1フィルタのフィルタリングパラメータが最終的に当該第1参照パラメータによって決定され、即ち、分離された周波数帯域情報の範囲が調整可能フィルタによって決定されたので、当該第1グローバルスペクトログラムの全部の周波数帯域情報を抽出することができない状況を、回避するためである。
数式(1)を組み合わせ、第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行うことは、数式(2)で表されてもよい。
s
iは、当該複数グループの第1フィルタにおける、第iグループの第1フィルタに対応する第2スペクトログラムであり、xは、第1顔画像であり、D(x)は、第1顔画像の全体に対する周波数領域変換であり、即ち、第1グローバルスペクトログラムに対応し、
は、行列間のドット積であり、即ち、アダマール積(element-wise product)である。
また、周波数領域逆変換は、当該グローバル変換の逆過程である。数式(2)を組み合わせて、第2画像を取得する過程は、数式(3)で表されてもよい。
xは、第1顔画像であり、y
iは、第iグループの第1フィルタに対応する第2画像であり、D(x)は、グローバル周波数領域変換であり、D-1は、周波数領域逆変換であり、
は、行列間のドット積、即ち、アダマール積である。
例示として、第1フィルタと類似し、各グループの第2フィルタを介して各第1局所スペクトログラムにおける、第2所定パラメータに対応する第2周波数帯域情報を抽出し、当該グループの第2フィルタの第2参照パラメータによって、当該グループのフィルタで抽出された第2周波数帯域情報に対して補償を行い、当該第2フィルタに対応する第2スペクトログラムを取得してもよい。即ち、当該第1参照パラメータによって当該第1局所スペクトログラムにおける第4周波数帯域情報を抽出し、当該第2周波数帯域情報と当該第4周波数帯域情報とを重畳して当該第2スペクトログラムを取得する。当該第2参照パラメータはネットワークパラメータでもあり、予めトレーニングされたものでもある。また、何れか2グループの第2フィルタの第2所定パラメータ異なるため、何れか2グループの第2フィルタで抽出された第2周波数帯域情報は、異なる。且つ、当該複数グループの第2フィルタで抽出された複数の第2周波数帯域情報は、各第1局所スペクトログラムにおける全部の周波数帯域情報を含む。即ち、当該複数の第2周波数帯域情報を組み合わせると、各第1局所スペクトログラムの全部の周波数帯域情報を取得することができる。
また、各グループの第2フィルタも1つの基礎フィルタと1つの調整可能フィルタとを含む。当該基礎フィルタのフィルタリングパラメータは、当該グループの第2フィルタの第2所定パラメータであり、当該調整可能フィルタのフィルタリングパラメータは、当該グループの第2フィルタの第2参照パラメータである。
各グループの第2フィルタは、数式(4)で表されてもよい。
h
iは、複数グループの第2フィルタのうちの第iグループの第2フィルタであり、
は、当該第iグループの第2フィルタの第2所定パラメータ、即ち、基礎フィルタであり、
は、当該第iグループの第2フィルタの参照パラメータ、即ち、調整可能フィルタであり、σは、圧縮関数である。
数式(4)を組み合わせて各第1目標スペクトルに対して複数回のフィルタリング処理を行う過程は、数式(5)で表されてもよい。
ただし、g
iは、各第1局所スペクトログラムに対応する複数の第2スペクトログラムにおける第i個の第2スペクトログラムであり、pは、当該第1顔画像に対して第p回の枠選択を行って得た画像領域であり、D(p)は、局所画像に対する周波数領域変換であり、即ち、当該第1局所スペクトログラムであり、
は、行列間のドット積、即ち、アダマール積である。
幾つかの可能な実施形態において、当該複数グループの第2フィルタの第2所定パラメータは、事前に設定されたものである。例示として、第2所定パラメータに対する設定は、設定された第2フィルタの数に応じて、当該第1局所スペクトログラムの対角線に沿って等距離区分を行って得られてもよい。図3に示すように、局所スペクトログラムは、8グループの第2フィルタが設置された場合に、対角線を等距離移動させてもよく、各グループの第2フィルタの第2所定パラメータを特定可能であり、且つ当該8グループの第2フィルタの第2所定パラメータは、それぞれ[0, 1/32]、[1/32, 1/8]、[1/8, 9/32]、[9/32, 1/2]、[1/2, 23/32]、[23/32, 28/32]、[28/32, 31/32]、[31/32, 1]となる。
無論、第2所定パラメータを設定する過程において、等距離区分を行わなくてもよい。例えば、等差級数的に漸増の方式で対角線を移動させて第2所定パラメータを取得してもよく、又は、等差級数的に漸減の方式で対角線を移動させて第2所定パラメータを取得してもよく、又は、他の移動方式を採用してもよい。本発明では、第2所定パラメータを設定する方式について限定しない。
その後、各第1局所スペクトログラムに対応する複数の第2スペクトログラムのうちの各第2スペクトログラムのエネルギーを特定し、複数のエネルギーを取得し、当該複数のエネルギーを特徴ベクトルとして構成すると、各第1局所スペクトログラムに対応する特徴ベクトルを取得することができる。各第2スペクトログラムに対応する周波数帯域情報異なるため、当該特徴ベクトルは、実質的に当該第1局所スペクトログラムにおける各周波数帯域に対応するエネルギーによって構成される。
各第2スペクトログラムのエネルギーは、数式(6)で表されてもよい。
q
iは、各第1局所スペクトログラムに対応する複数の第2スペクトログラムのうちの第i個の第2スペクトログラムのエネルギーであり、|| ||
1は、行列の1つのノルム、即ち、行列における各成分の絶対値の和であり、即ち、スペクトログラムのエネルギーを求め、iの値は、1~Mのうちの整数であり、Mは、当該複数の第2スペクトログラムの数、即ち、第2フィルタの数であり、
は、行列間のドット積、即ち、アダマール積である。
log10は、異なる周波数帯域のエネルギーを同一の桁にするためのものである。これは、幾つかの周波数帯域のエネルギーが高すぎたり、幾つかの周波数帯域のエネルギーが低すぎたりして、後続の処理へ不便をもたらすことを防止するためのものである。
各第1局所スペクトログラムごとに、それに対応する複数の第2スペクトログラムのエネルギーが取得された後、即ち、各qiが取得された後、各qiを連合して1つの1×1×Mの特徴ベクトルとしてもよい。全ての第1局所スペクトログラムの特徴ベクトルが取得された後、これらの特徴ベクトルを第2所定パラメータの周波数帯域に基づいて新な行列として再構成して第2入力データとする。例示として、図7に示すように、各第1局所スペクトログラムに対応する第i個の第2スペクトログラムのエネルギーを同一チャンネルに再構成するため、チャンネルの数は、Mとなる。合計でA×B個の第1局所スペクトログラムがあると仮定すれば、第2入力データは、A×B×Mの行列となる。
なお、第1フィルタは、グローバル周波数領域変換の第1グローバルスペクトログラムに対してフィルタリング処理を行う。そのため、第1フィルタは、グローバルの周波数帯域情報に対してフィルタリング処理を行い、第1グローバルスペクトログラムの周波数帯域情報に対して概略の区分を行ってもよい。例えば、高周波数、中間周波数、低周波数に区分可能である。したがって、第1フィルタの数を相対的に少なく設定してもよい。その一方、第2フィルタが局所変換の第1局所スペクトログラムに対してフィルタリング処理を行うため、第2フィルタは、局所の周波数帯域情報に対してフィルタリングを行い、第1局所スペクトログラムからより詳細な周波数領域情報を抽出しようとする。したがって、第1局所スペクトログラムの周波数帯域情報に対して繊細な区分を行う必要があり、即ち、第2フィルタの数を相対的に多く設定する必要がある。
幾つかの可能な実施形態において、上記顔画像の真偽を識別する過程は、ニューラルネットワークを介して実現されてもよい。当該ニューラルネットワークは、第1ネットワーク及び第2ネットワークを含む。当該ニューラルネットワークに対するトレーニング過程は、従来の教師ありのトレーニングであり、再び説明しない。
実際の使用において、第1顔画像を第1ネットワークに入力して周波数領域変換を行わせ、第1スペクトログラムを取得し、第1スペクトログラムに対して複数回のフィルタリング処理を行い、複数の第2スペクトログラムを取得し、当該複数の第2スペクトログラムに基づいて入力データを取得し、その後、当該入力データを第2ネットワークに入力し、第1顔画像の真偽を特定する。
例示として、当該第1ネットワークは、周波数領域変換及びフィルタリングを行うことができるニューラルネットワークであってもよい。本発明にとって、調整可能フィルタが導入されたため、当該ニューラルネットワークをトレーニングするとともに、調整可能フィルタの第1参照パラメータ及び第2参照パラメータをトレーニングする必要がある。その後、トレーニング中において、当該ニューラルネットワークの第1参照パラメータ及び第2参照パラメータに対して最適化を行い、トレーニングが完了された後、当該第1ネットワークを介して第1顔画像に対して周波数領域変換を行い且つ第1スペクトログラムに対して複数回のフィルタリング処理を行い、入力データを取得してもよい。
実際の応用では、第1顔画像に対して周波数領域変換を行い且つ第1スペクトログラムに対して複数回のフィルタリング処理を行うことは、カプセル化された関数にて実現されてもよい。つまり、第1ネットワークに対するトレーニングが完了された後、当該第1ネットワークの複数グループのフィルタ(複数グループの第1フィルタと複数グループの第2フィルタとを含む)のフィルタリングパラメータを関数としてカプセル化し、後で当該関数を用いて直接当該顔画像に対して周波数領域変換及びフィルタリング処理を行ってもよい。したがって、実際の応用において、第1ネットワークは、ニューラルネットワークで実現されてもよく、パラメータが特定された関数で実現されてもよく、本発明ではこれについて限定しない。
以下では、第2ネットワークを介して第1顔画像の真偽を特定する過程を紹介する。
例示として、当該第2ネットワークは、畳み込みニューラルネットワークであってもよい。図4に示すように、当該第2ネットワークは、Xceptionネットワークを当該畳み込みニューラルネットワークのバックボーンとする。当該第2ネットワークは、2つのブランチと複数のクロス融合処理モジュールとを含む。各ブランチは、複数のネットワークブロック(block)を含み、各blockは、複数の畳み込み層及びプーリング層を含み、且つ当該blockは、従来のネットワーク構造であるため、説明を展開しない。また、当該2つのブランチは、第1入力データ401及び第2入力データ402にそれぞれ対応する。
当該入力データが第1入力データ401である場合に、第1個のブランチを介して当該第1入力データに対して特徴抽出を行い、即ち、第1ブランチの複数のblock 411を介して特徴抽出を行い、直接、抽出された特徴に基づいて当該第1顔画像の真偽を特定してもよい。この場合に、クロス融合処理440に係らない。
当該入力データが第2入力データ402である場合に、第2個のブランチを介して当該第1入力データに対して特徴抽出を行い、即ち、第2ブランチの複数のblock 412を介して特徴抽出を行い、直接、抽出された特徴マップに基づいて当該第1顔画像の真偽を特定してもよい。この場合に、クロス融合処理440に係らない。
当該入力データが第1入力データ及び第2入力データを含む場合に、それぞれ各ブランチのblockを介して第1入力データ401及び第2入力データ402に対して特徴抽出を行い、第6特徴マップ421及び第7特徴マップ422を取得してもよい。その後、クロス融合処理440により、当該第6特徴マップ421及び第7特徴マップ422に対して第1回のクロス融合を行い、第4特徴マップ431及び第5特徴マップ432を取得してもよい。後で、当該第4特徴マップ431及び第5特徴マップ432を次回のクロス融合処理の入力データとして、2つのブランチに対応する第2特徴マップ451及び第3特徴マップ452が取得されるまで、クロス融合処理440を引き続き行う。最後に、当該第2特徴マップ451及び第3特徴マップ452に対して繋ぎ合わせ又はプーリング処理を行い、繋ぎ合わせ又はプーリング処理後の特徴マップに基づいて当該第1顔画像の真偽を特定する。
このように、周波数領域情報を繋ぎ合わせる従来の方式よりも、本発明では、グローバル周波数領域変換及び局所周波数領域変換で得られた周波数領域情報に対してクロス融合を行い、即ち、2つの周波数領域変換で得られた周波数領域情報を互いに融合することにより、得られた第2特徴マップ及び第3特徴マップの何れにも当該第1スペクトログラムにおけるグローバル周波数領域情報及び局所周波数領域情報を含ませ、当該第1顔画像真偽を識別する正確度を向上させることができる。
以下では、図5-図7を参照しながら、本発明の顔画像の真偽を識別する過程を詳細に説明する。
図5に示すように、2つの変換ブランチを介して第1顔画像510に対して周波数領域変換及びフィルタリング処理をそれぞれ行い、即ち、第1顔画像510に対してグローバル周波数領域変換及び局所周波数領域変換を行い、一連のフィルタリング処理を行い、グローバル周波数領域変換ブランチ520に対応する第1入力データ521、及び局所周波数領域変換ブランチ530に対応する第2入力データ531を取得する。その後、当該第1入力データ521及び第2入力データ531を各自のブランチに対応する畳み込みネットワーク541及び542にそれぞれ入力して特徴抽出を行わせ、抽出された特徴に対してクロス融合処理543を行い、最終的に2つのブランチの第2特徴マップ544及び第3特徴マップ545を取得する。第2特徴マップ544及び第3特徴マップ545に対して同期プーリング処理550を行い、目標特徴マップ551を取得する。最後に、当該目標特徴マップ551に基づいて第1顔画像510の真偽に対して予測560を行うことにより、当該第1顔画像510の真偽を特定する。
図6は、グローバル周波数領域変換ブランチ520の具体化過程である。図6に示すように、まず、第1顔画像510に対してDCT変換620を行い、第1グローバルスペクトログラム621を取得する。次に、複数グループの第1フィルタ630(図6は、3グループの第1フィルタのみを示す)を介して当該第1グローバルスペクトログラム621に対して複数回のフィルタリング処理を行い、複数の第2スペクトログラム631を取得する。最後に、当該複数の第2スペクトログラム631のうちの各第2スペクトログラムに対して周波数領域逆変換640を行い、複数の第2画像641を取得し、当該複数の第2画像641を繋ぎ合わせ、第1入力データを取得する。
図7は、局所周波数領域変換ブランチ530の具体化過程である。図7に示すように、まず、当該第1顔画像510に対してSWDCT変換720を行い、複数の第1局所スペクトログラム721を取得する。その後、複数グループの第2フィルタ731を介して各第1局所スペクトログラム721に対して複数回のフィルタリング処理730を行い、各第1局所スペクトログラムに対応する複数の第2スペクトログラムを取得し、各第2スペクトログラムのエネルギーを特定する(図7におけるフィルタリング処理730は、エネルギーを算出するステップを含む)。各第1局所スペクトログラムに対応する複数の第2スペクトログラムのエネルギー732に基づいて、各第1局所スペクトログラムの特徴ベクトルを特定する(732における各小格子の中の6つの棒を有するヒストグラムに示すように、各棒は、1つの第2スペクトログラムのエネルギーを表す)。最後に、当該複数の第1局所スペクトログラムに対応する特徴ベクトルについて再構成を行い、第2所定パラメータの周波数帯域に基づいて、周波数帯域が同じであるデータを同一のチャンネルにマージすることにより、第2入力データ532を取得する。
以下では、本発明の顔真偽を識別する方法を組み合わせて、本発明の技術案の応用シーンを紹介する。
幾つかの可能な実施形態において、当該第1顔画像がユーザの肖像画像である場合に、本発明の技術案に基づいて当該肖像画像を識別してもよい。当該肖像画像が偽画像であると特定された場合に、具体的な応用シーンに応じて、異なる対策がある。例えば、ユーザ認証のシーンでは、当該偽画像を使用するユーザがシステムへアクセスするのを拒否してもよい。更に、幾つかの場合に、他人が当該肖像画像を変更したと特定し、当該ユーザの肖像権を侵害する可能性があるため、悪意のある肖像画像改ざん行為に対して責任を追及してもよい。
幾つかの可能な実施形態において、当該第1顔画像が識別すべきビデオの何れか1フレーム又は特定の1フレームの顔画像である場合に、本発明の技術案に基づいて当該顔画像に対して識別を行い、当該顔画像、即ち本発明に係る第1顔画像が偽画像であると特定された場合に、他人が当該識別すべきビデオを変更したと特定し、他人がビデオ作品を改ざんした行為に対して責任を追及してもよい。
図8は、本発明の実施例に係る顔画像の真偽を識別するデバイスの構成模式図である。図8に示すように、デバイス800は、プロセッサ810と、メモリ820と、通信インターフェース830と、1つ又は複数のプログラムとを備える。プロセッサ810、メモリ820及び通信インターフェース830は、バス840を介して互いに接続される。上記1つ又は複数のプログラムは、上記メモリ820に記憶され、且つ上記プロセッサ810によって実行されるように構成される。上記プログラムは、第1顔画像を取得するステップと、前記第1顔画像に対して周波数領域変換を行い、第1スペクトログラムを取得するステップと、前記第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行い、複数の第2スペクトログラムを取得するステップと、前記複数の第2スペクトログラムに基づいて、入力データを取得するステップと、前記入力データに基づいて、前記第1顔画像の真偽を特定するステップと、を実行するための指令を含む。
幾つかの可能な実施形態において、前記周波数領域変換は、グローバル周波数領域変換と局所周波数領域変換とのうちの少なくとも一項を含む。
幾つかの可能な実施形態において、周波数領域変換が前記グローバル周波数領域変換を含む場合に、前記複数の第2スペクトログラムに基づいて、入力データを取得することは、前記第2スペクトログラムのそれぞれに対して周波数領域逆変換を行い、第2画像を取得することと、複数の第2画像を繋ぎ合わせて前記入力データを取得することとを含む。前記周波数領域逆変換は、前記グローバル周波数領域変換の逆過程である。
幾つかの可能な実施形態において、前記周波数領域変換が前記局所周波数領域変換を含む場合に、前記第1スペクトログラムの数は、複数であり、前記第1スペクトログラムに対して複数回のフィルタリング処理を行い、複数の第2スペクトログラムを取得することは、前記複数の第1スペクトログラムのうちの各第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行い、各第1スペクトログラムに対応する複数の第2スペクトログラムを取得することを含む。
幾つかの可能な実施形態において、前記複数の第2スペクトログラムに基づいて、入力データを取得することは、各第2スペクトログラムのエネルギーを特定することと、各第1スペクトログラムを第1局所スペクトログラムとし、前記第1局所スペクトログラムに対応する複数の第2スペクトログラムのエネルギーに基づいて、前記第1局所スペクトログラムに対応する特徴ベクトルを取得することと、複数の第1局所スペクトログラムに対応する特徴ベクトルについて再構成を行い、前記入力データを取得することと、を含む。
幾つかの可能な実施形態において、前記入力データに基づいて、前記第1顔画像の真偽を特定することは、前記入力データに対して特徴抽出を行い、第1特徴マップを取得することと、前記第1特徴マップに基づいて、前記第1顔画像の真偽を特定することと、を含む。
幾つかの可能な実施形態において、前記周波数領域変換が前記グローバル周波数領域変換及び前記局所周波数領域変換を含む場合に、前記グローバル周波数領域変換によって1つの第1グローバルスペクトログラムが取得され、前記局所周波数領域変換によって複数の第1局所スペクトログラムが取得され、前記第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行い、複数の第2スペクトログラムを取得することは、前記第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行い、前記第1グローバルスペクトログラムに対応する複数の第2スペクトログラムを取得することと、前記複数の第1局所スペクトログラムに対して複数回のフィルタリング処理を行い、各第1局所スペクトログラムに対応する複数の第2スペクトログラムを取得することと、を含む。
幾つかの可能な実施形態において、入力データは、第1入力データ及び第2入力データを含み、前記複数の第2スペクトログラムに基づいて、入力データを取得することは、前記第1グローバルスペクトログラムに対応する複数の第2スペクトログラムのうちの各第2スペクトログラムに対して周波数領域逆変換を行い、複数の第2画像を取得することと、前記複数の第2画像を繋ぎ合わせて前記第1入力データを取得することと、各第1局所スペクトログラムごとに、前記第1局所スペクトログラムに対応する複数の第2スペクトログラムのうちの各第2スペクトログラムのエネルギーを特定することと、前記第1局所スペクトログラムに対応する複数の第2スペクトログラムのエネルギーに基づいて、前記第1局所スペクトログラムに対応する特徴ベクトルを取得することと、複数の第1局所スペクトログラムに対応する特徴ベクトルについて再構成を行い、前記第2入力データを取得することと、を含み、前記周波数領域逆変換は、前記グローバル周波数領域変換の逆過程である。
幾つかの可能な実施形態において、前記入力データに基づいて、前記第1顔画像の真偽を特定することは、前記第1入力データ及び前記第2入力データに対してクロス融合処理を行い、第2特徴マップ及び第3特徴マップを取得することと、前記第2特徴マップ及び前記第3特徴マップに基づいて、前記第1顔画像の真偽を特定することと、を含む。
幾つかの可能な実施形態において、前記クロス融合処理の回数が複数回である場合に、前記第1入力データ及び前記第2入力データに対してクロス融合処理を行い、第2特徴マップ及び第3特徴マップを取得することは、前記第1入力データ及び前記第2入力データに対して第1回のクロス融合処理を行い、第4特徴マップ及び第5特徴マップを取得することと、前記第4特徴マップ及び前記第5特徴マップを次回のクロス融合処理の入力データとし、複数回の前記クロス融合処理を行った後、前記第2特徴マップ及び前記第3特徴マップを取得することと、を含む。
幾つかの可能な実施形態において、前記第1入力データ及び前記第2入力データに対して第1回のクロス融合処理を行い、第4特徴マップ及び第5特徴マップを取得することは、前記第1入力データに対して特徴抽出を行い、第6特徴マップを取得することと、前記第2入力データに対して特徴抽出を行い、第7特徴マップを取得することと、前記第6特徴マップ及び前記第7特徴マップに基づいて、前記第6特徴マップと前記第7特徴マップとの相関を表すための第1行列を取得することと、前記第1行列及び前記第7特徴マップに基づいて、第8特徴マップを取得し、前記第8特徴マップと前記第6特徴マップとを重畳し、前記第4特徴マップを取得することと、前記第1行列及び前記第6特徴マップに基づいて、第9特徴マップを取得し、前記第9特徴マップと前記第7特徴マップとを重畳し、前記第5特徴マップを取得することとを含む。
幾つかの可能な実施形態において、前記第2特徴マップ及び前記第3特徴マップに基づいて、前記第1顔画像の真偽を特定することは、前記第2特徴マップ及び前記第3特徴マップを処理し、処理後の特徴マップに基づいて前記第1顔画像の真偽を特定することを含む。前記処理は、繋ぎ合わせとプーリングとのうちの少なくとも一項を含む。
幾つかの可能な実施形態において、複数回のフィルタリング処理は、複数グループのフィルタを介して、第1スペクトログラムに対して複数回のフィルタリング処理を行うことを含み、各グループの前記フィルタは、1回のフィルタリング処理に対応し、各グループのフィルタのフィルタリングパラメータは、所定パラメータ及び参照パラメータを含み、各グループのフィルタは、前記所定パラメータに対応する周波数帯域情報を第1スペクトログラムから分離し、前記参照パラメータは、前記周波数帯域情報を補償するために用いられ、何れか2つのグループの前記フィルタで分離された周波数帯域情報は、異なり、且つ前記複数グループのフィルタで分離された複数の周波数帯域情報は、前記第1スペクトログラムにおける全部の周波数帯域情報を含む。
幾つかの可能な実施形態において、在複数グループのフィルタを介して前記第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行う過程では、各グループのフィルタのフィルタリングパラメータが異なる。
図9は、本発明の実施例に係る顔画像の真偽を識別する装置である。装置900は、取得手段910、変換手段920、フィルタリング手段930、処理手段940及び判断手段950を備える。取得手段910は、第1顔画像を取得する。変換手段920は、前記第1顔画像に対して周波数領域変換を行い、第1スペクトログラムを取得する。フィルタリング手段930は、前記第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行い、複数の第2スペクトログラムを取得する。処理手段940は、前記複数の第2スペクトログラムに基づいて、入力データを取得する。判断手段950は、前記入力データに基づいて、前記第1顔画像の真偽を特定する。
幾つかの可能な実施形態において、前記周波数領域変換は、グローバル周波数領域変換と局所周波数領域変換とのうちの少なくとも一項を含む。
幾つかの可能な実施形態において、前記周波数領域変換が前記グローバル周波数領域変換を含む場合に、処理手段940は、具体的に、前記第2スペクトログラムのそれぞれに対して周波数領域逆変換を行い、第2画像を取得し、前記複数の第2画像を繋ぎ合わせ、前記入力データを取得する。前記周波数領域逆変換は、前記グローバル周波数領域変換の逆過程である。
幾つかの可能な実施形態において、前記周波数領域変換が前記局所周波数領域変換を含む場合に、前記第1スペクトログラムの数は、複数であり、フィルタリング手段930は、具体的に、前記複数の第1スペクトログラムのうちの各第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行い、各第1スペクトログラムに対応する複数の第2スペクトログラムを取得する。
幾つかの可能な実施形態において、処理手段940は、具体的に、各第2スペクトログラムのエネルギーを特定し、各第1スペクトログラムを第1局所スペクトログラムとし、前記第1局所スペクトログラムに対応する複数の第2スペクトログラムのエネルギーに基づいて、前記第1局所スペクトログラムに対応する特徴ベクトルを取得し、複数の第1局所スペクトログラムに対応する特徴ベクトルについて再構成を行い、前記入力データを取得する。
幾つかの可能な実施形態において、判断手段950は、具体的に、前記入力データに対して特徴抽出を行い、第1特徴マップを取得し、前記第1特徴マップに基づいて、前記第1顔画像の真偽を特定する。
幾つかの可能な実施形態において、前記周波数領域変換が前記グローバル周波数領域変換及び前記局所周波数領域変換を含む場合に、前記グローバル周波数領域変換によって1つの第1グローバルスペクトログラムが取得され、前記局所周波数領域変換によって複数の第1局所スペクトログラムが取得され、フィルタリング手段930は、具体的に、前記第1グローバルスペクトログラムに対して複数回のフィルタリング処理を行い、前記第1グローバルスペクトログラムに対応する複数の第2スペクトログラムを取得し、前記複数の第1局所スペクトログラムに対して複数回のフィルタリング処理を行い、各第1局所スペクトログラムに対応する複数の第2スペクトログラムを取得する。
幾つかの可能な実施形態において、前記入力データは、第1入力データ及び第2入力データを含み、処理手段940は、具体的に、前記第1グローバルスペクトログラムに対応する複数の第2スペクトログラムのうちの各第2スペクトログラムに対して周波数領域逆変換を行い、複数の第2画像を取得し、前記複数の第2画像を繋ぎ合わせて前記第1入力データを取得し、各第1局所スペクトログラムごとに、前記第1局所スペクトログラムに対応する複数の第2スペクトログラムのうちの各第2スペクトログラムのエネルギーを特定し、前記第1局所スペクトログラムに対応する複数の第2スペクトログラムのエネルギーに基づいて、前記第1局所スペクトログラムに対応する特徴ベクトルを取得し、複数の第1局所スペクトログラムに対応する特徴ベクトルについて再構成を行い、前記第2入力データを取得する。前記周波数領域逆変換は、前記グローバル周波数領域変換の逆過程である。
幾つかの可能な実施形態において、判断手段950は、具体的に、前記第1入力データ及び前記第2入力データに対してクロス融合処理を行い、第2特徴マップ及び第3特徴マップを取得し、前記第2特徴マップ及び前記第3特徴マップに基づいて、前記第1顔画像の真偽を特定する。
幾つかの可能な実施形態において、前記クロス融合処理の回数が複数回である場合に、判断手段950は、具体的に、前記第1入力データ及び前記第2入力データに対して第1回のクロス融合処理を行い、第4特徴マップ及び第5特徴マップを取得し、前記第4特徴マップ及び前記第5特徴マップを次回のクロス融合処理の入力データとし、複数回の前記クロス融合処理を行った後、前記第2特徴マップ及び前記第3特徴マップを取得する。
幾つかの可能な実施形態において、判断手段950は、具体的に、前記第1入力データに対して特徴抽出を行い、第6特徴マップを取得し、前記第2入力データに対して特徴抽出を行い、第7特徴マップを取得し、前記第6特徴マップ及び前記第7特徴マップに基づいて、前記第6特徴マップと前記第7特徴マップとの相関を表すための第1行列を取得し、前記第1行列及び前記第7特徴マップに基づいて、第8特徴マップを取得し、前記第8特徴マップと前記第6特徴マップとを重畳し、前記第4特徴マップを取得し、前記第1行列及び前記第6特徴マップに基づいて、第9特徴マップを取得し、前記第9特徴マップと前記第7特徴マップとを重畳し、前記第5特徴マップを取得する。
幾つかの可能な実施形態において、判断手段950は、具体的に、前記第2特徴マップ及び前記第3特徴マップを処理し、処理後の特徴マップに基づいて前記第1顔画像の真偽を特定する。前記処理は、繋ぎ合わせとプーリングとのうちの少なくとも一項を含む。
幾つかの可能な実施形態において、フィルタリング手段930は、具体的に、複数グループのフィルタを介して、第1スペクトログラムに対して複数回のフィルタリング処理を行い、各グループの前記フィルタは、1回のフィルタリング処理に対応し、各グループのフィルタのフィルタリングパラメータは、所定パラメータ及び参照パラメータを含み、各グループのフィルタは、前記所定パラメータに対応する周波数帯域情報を第1スペクトログラムから分離し、前記参照パラメータは、前記周波数帯域情報を補償するために用いられ、何れか2つのグループの前記フィルタで分離された周波数帯域情報は、異なり、且つ前記複数グループのフィルタで分離された複数の周波数帯域情報は、前記第1スペクトログラムにおける全部の周波数帯域情報を含む。
幾つかの可能な実施形態において、在複数グループのフィルタを介して前記第1スペクトログラムに対して複数回のフィルタリング処理をそれぞれ行う過程では、各グループのフィルタのフィルタリングパラメータが異なる。
装置実施例は、方法実施例に基本的に対応するため、その関連箇所が方法実施例部分の説明を参照すればよい。
本発明の実施例は、コンピュータ可読記憶媒体を更に提供する。前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、前記コンピュータプログラムがプロセッサによって実行されたときに、上記方法実施例に記載の何れか一種の顔画像の真偽を識別する方法の一部又は全部のステップは、実施される。前記コンピュータ可読記憶媒体は、不揮発性記憶媒体であってもよい。
本発明の実施例は、コンピュータプログラム製品を更に提供する、前記コンピュータプログラム製品は、コンピュータプログラムが記憶された非一時的コンピュータ可読記憶媒体を含み、前記コンピュータプログラムを操作することにより、上記方法実施例に記載の何れか一種の顔画像の真偽を識別する方法の一部又は全部のステップをコンピュータに実行させる。
説明すべきことは、記述の便宜上、上記各方法実施例が一連の動作の組み合わせとして記述されたが、当業者であれば理解できるように、本発明が記述された動作順番に限定されない。本発明によると、幾つかのステップが他の順番で又は同時に行われてもよいからである。次に、当業者であれば理解できるように、明細書に記述された実施例が何れも選択可能な実施例であり、係る動作及びモジュールが必ずしも本発明の必須項目であるとは限らない。
上記実施例では、各実施例の記述に偏りがあり、ある実施例における詳細に記述されていない部分は、他の実施例の関連記述を参照すればよい。
本発明に係る幾つかの実施例において、開示された機器及び方法が他の方式にて実現され得ることは、理解されるべきである。例えば、上述した装置実施例が単に模式的なものであり、例えば、前記手段の区分が、単に1種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。例えば、複数の手段或いはユニットは、組み合わせられてもよく、又は、別のシステムに統合されてもよく、又は、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された融合又は直接融合又は通信接続は、幾つかのインターフェース、装置若しくは手段を介する間接融合若しくは通信接続であってもよく、電気的なもの或いは他の形態であってもよい。
上記分離部品として説明された手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示された部品は、物理手段であってもでなくてもよい。更に、それらの手段は、1箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部又は全部のモジュールを選択して本実施例の目的を果たすことが可能である。
また、本発明の各実施例における各機能手段は、全部で1つの処理手段に集積されてもよく、各手段が単独で物理的に存在してもよく、2つ或いは2つ以上の手段が1つの手段に集積されてもよい。上記集積手段は、ハードウェアの形態にて実現されてよく、ソフトウェアプログラムモジュールの形態にて実現されてもよい。
上記集積手段は、ソフトウェアプログラムモジュールの形態で実現され、且つ独立の製品として販売や使用されるときに、1つのコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を基に、本発明の技術案は、本質的に又は従来技術に対して貢献を与える部分又は当該技術案の全部若しくは一部がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、幾つかの指令を含むことで一台のコンピュータ機器(パソコン、サーバ又はネットワーク機器等であってもよい)に本発明の各実施例の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Uディスク、読み出し専用メモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、モバイルハードディスク、磁気ディスク又は光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。
当業者であれば理解できるように、上記実施例の各種の方法における全部又は一部のステップは、プログラムが関連するハードウェアを指示して実施され得、当該プログラムは、コンピュータ読み取り可能な記憶媒体に記憶可能であり、記憶媒体は、フラッシュメモリ、読み出し専用メモリ(Read-Only memory、ROM)、ランダムアクセスメモリ(Random Access Memory、RAM)、磁気ディスク又は光ディスク等を含んでもよい。
以上では、本発明の実施例について詳細に紹介した。本文では、具体的な例を用いて本発明の原理及び実施形態を説明したが、以上の実施例の説明が単に本発明の方法およびその要旨を容易に理解するために用いられる。それとともに、当業者であれば、本発明の思想に基づいて具体的な実施形態及び応用範囲を変更可能である。このように、本明細書の内容は、本発明に対する制限として理解されるべきではない。
本願は、2020年06月10日に提出された、出願番号が202010527530.7であって発明名称が「顔画像の真偽を識別する方法、装置及び媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。