JP2022522203A

JP2022522203A - 生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品

Info

Publication number: JP2022522203A
Application number: JP2021550213A
Authority: JP
Inventors: 卓翼 ▲張▼; 程蒋
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2019-10-31
Filing date: 2020-07-28
Publication date: 2022-04-14
Also published as: WO2021082562A1; CN112749603A; SG11202111482XA; US20210397822A1

Abstract

【課題】本発明は、生体検出方法、装置、電子機器、記憶媒体及びコンピュータプログラム製品を提供する。【解決手段】当該方法は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するステップと、前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するステップとを含む。【選択図】図５

Description

＜関連出願の相互引用＞
本特許出願は、２０１９年１０月３１日に提出された、出願番号が２０１９１１０６３３９８．２であって発明の名称が「生体検出方法、装置、電子機器及び記憶媒体」である中国特許出願の優先権を要求し、当該中国特許出願の全ての内容が引用によって本願に組み入れられる。

本発明は、画像処理技術分野に関し、具体的に、生体検出方法、装置、電子機器、記憶媒体、及びプログラム製品に関する。

顔認識技術が身元検証に用いられるときに、まず、画像収集機器を介してユーザの顔写真をリアルタイムで取得し、その後、リアルタイムで取得された顔写真を予め格納された顔写真と照合し、合致すれば、身元検証を通らせる。

これに鑑みて、本発明は、少なくとも、生体検出過程における検出効率を向上させることが可能となる生体検出方法、装置、電子機器及び記憶媒体を提供する。

第１態様において、本発明の選択可能な実現形態は、生体検出方法を提供する。当該生体検出方法は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するステップと、前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するステップと、を含む。

第２態様において、本発明の選択可能な実現形態は、生体検出装置を提供する。当該生体検出装置は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するための取得手段と、前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するための検出手段と、を備える。

第３態様において、本発明の選択可能な実現形態は、電子機器をさらに提供する。当該電子機器は、プロセッサと、前記プロセッサで実行され得る機器読み取り可能な指令を記憶するメモリとを備え、前記機器読み取り可能な指令が前記プロセッサで実行されたときに、前記プロセッサに上記第１態様に記載の生体検出方法を実施させる。

第４態様において、本発明の選択可能な実現形態は、コンピュータ可読記憶媒体をさらに提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムが電子機器で運転されたときに、前記電子機器に上記第１態様に記載の生体検出方法を実施させる。

第５態様において、本発明の選択可能な実現形態は、コンピュータプログラム製品をさらに提供する。当該コンピュータプログラム製品は、機器の実行可能な指令を含み、前記機器の実行可能な指令が電子機器で読み取って実行されたときに、前記電子機器に上記第１態様に記載の生体検出方法を実施させる。

本発明において、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を抽出し、その後、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定し、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出するため、検出効率がより高くなる。

本発明の実施例に係る生体検出方法のフローチャートを示す。

本発明の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートを示す。

本発明の別の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートを示す。

本発明の実施例に係る各フレームの目標顔画像の特徴抽出結果を取得する手順のフローチャートを示す。

本発明の実施例に係る前記複数フレームの目標顔画像の特徴抽出結果に対して特徴融合処理を行って第１融合特徴データを取得する手順のフローチャートを示す。

本発明の実施例に係る生体検出方法において複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて第１検出結果を取得する手順を示す。

本発明の実施例に係る差分カスケード画像に対して特徴抽出を行う方式のフローチャートを示す。

本発明の実施例に係る生体検出方法において複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて第２検出結果を取得する手順を示す。

本発明の実施例に係る差分カスケード画像の特徴抽出結果に対して特徴融合を行う手順のフローチャートを示す。

本発明の別の実施例に係る生体検出方法のフローチャートを示す。

本発明の実施例に係る生体検出装置の模式図を示す。

本発明の実施例に係る電子機器の模式図を示す。

本発明の実施例に係る生体検出方法応用過程のフローチャートを示す。

本発明の選択可能な実現形態の目的、技術案及びメリットがより明確になるように、以下では、本発明の選択可能な実現形態における図面を組み合わせて本発明の選択可能な実現形態における技術案を明確で完全に記述する。明らかに、記述される選択可能な実現形態は、単に本発明の一部の選択可能な実現形態であり、全ての選択可能な実現形態ではない。通常、ここでの図面に記述して示された本発明の選択可能な実現形態のユニットは、各種の異なる配置で配列や設計され得る。そのため、以下に図面に供される本発明の選択可能な実現形態に対する詳細な記述は、保護要求する本発明の範囲を制限するためではなく、単に本発明の好適な選択可能実現形態を示す。本発明の選択可能な実現形態に基づいて、当業者が進歩性に値する労働をせずに成した全ての他の選択可能な実現形態は、何れも本発明の保護範囲に含まれる。

現在、画像認識の方法に基づいて顔生体検出を行うときに、顔認識時に検出待ちユーザが生体であるか否かを検証するために、通常、検出待ちユーザが幾つかの指定の動作を行う必要はある。銀行システムがユーザに対して身元検証を行うことを例とすると、ユーザが端末機器のカメラヘッドの前に立って端末機器中の提示に従ってある指定の表情動作を行う必要はある。ユーザが指定の動作を行ったときに、カメラヘッドは、顔ビデオを取得し、その後、取得された顔ビデオに基づいてユーザが指定の動作を行ったか否かを検出し、指定動作を行ったユーザが正当ユーザであるか否かを検出する。当該ユーザが正当ユーザである場合に、身元検証は、通った。このような生体検出方式では、通常、端末機器とユーザとのインタラクション過程に大量の時間が費やされるため、検出効率が低くなる。

本発明は、生体検出方法及び装置を提供し、検出待ちビデオから複数フレームの目標顔画像を抽出し、その後、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて第１検出結果を取得し、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて第２検出結果を取得し、その後、第１検出結果及び第２検出結果に基づいて、検出待ちビデオの生体検出結果を特定してもよい。当該方法において、ユーザが如何なる指定の動作をする必要もなく、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出し、検出効率がより高くなる。

それとともに、不正な登録者が画面をリメイクして得られた顔ビデオによって詐欺しようとすると、リメイクして得られた画像が元の画像の画像情報を大量に失うため、画像情報の欠損によってユーザの外観の細かな変化が検出できなくなり、さらに、生体ではないと判断することができるので、本発明に係る方法は、画面リメイクによる攻撃手段を効果的に防御することができる。

注意すべきことは、類似する符号やアルファベットが以下の図面において類似要素を示すため、一旦ある要素が１つの図面に定義されると、後の図面においてさらに定義及び解釈される必要がない。

本選択可能な実現形態に対する理解が容易になるように、まず、本発明の実施例に開示された生体検出方法を詳細に紹介する。本発明の実施例に係る生体検出方法の実行主体は、一般的に一定の計算能力を有する電子機器である。当該電子機器は、例えば、端末機器やサーバ又は他の処理機器を含み、端末機器は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイル機器、ユーザ端末、ターミナル、携帯電話、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、ハンドヘルド機器、計算機器、車載機器、ウェアラブル機器等であってもよい。幾つかの可能な実現形態において、当該生体検出方法は、プロセッサがメモリに記憶されたコンピュータ可読指令を呼び出すことで実現されてもよい。

以下では、実行主体が端末機器であることを例として本発明の選択可能な実現形態に係る生体検出方法について説明する。

図１は、本発明の実施例に係る生体検出方法のフローチャートを示す。方法は、ステップＳ１０１～Ｓ１０４を含む。

Ｓ１０１において、取得した検出待ちビデオから複数フレームの目標顔画像を抽出する。

Ｓ１０２において、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得する。

Ｓ１０３において、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得する。

Ｓ１０４において、前記第１検出結果及び前記第２検出結果に基づいて、前記検出待ちビデオの生体検出結果を特定する。

ただし、Ｓ１０２とＳ１０３は、実行の前後順を有さない。以下では、上記Ｓ１０１～Ｓ１０４についてそれぞれ詳細に説明する。

Ｉ：上記のステップＳ１０１において、端末機器に画像取得装置が実装され、当該画像取得装置によってオリジナル検出ビデオを直ちに取得可能である。オリジナル検出ビデオの各フレーム画像には、顔が含まれている。オリジナル検出ビデオを検出待ちビデオとしてもよく、オリジナル検出ビデオに含まれる顔部位に対して画像切り取りを行って検出待ちビデオを取得してもよい。

検出精度が向上するように、検出ビデオのビデオ時間長は、所定時間長閾値以上であってもよく、当該所定時間長範囲は、実際の需要に応じて具体的に設定されてもよい。例えば、当該所定時間長閾値は、２秒、３秒、４秒等である。

検出待ちビデオに含まれる顔画像のフレーム数は、抽出される必要のある目標顔画像のフレーム数よりも大きい。目標顔検出画像のフレーム数は、固定であってもよく、検出待ちビデオのビデオ長に基づいて特定されてもよい。

検出待ちビデオが得られた後、検出待ちビデオから複数フレームの目標顔画像を抽出する。例示的に、本発明のある選択可能な実現形態において、例えば、検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから前記複数フレームの目標顔画像を特定する。検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて複数フレームの目標顔画像を特定する際、複数フレームの目標顔画像は、下記の２つの要求のうちの少なくとも１種を満たす。

要求１において、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像同士の間の類似度は、第１数値よりも低い。例えば、検出待ちビデオにおける何れか１フレームの顔画像を基準画像とし、他の各フレームの顔画像と基準画像との間の類似度をそれぞれ特定し、類似度が第１数値よりも低い各フレームの顔画像を目標顔画像における１フレームとして取得する。ただし、第１数値は、所定の１つの数値であってもよい。このようにして、取得された複数枚の目標顔画像の間に大きな差があり、さらに、高い精度で検出結果を取得することができる。

要求２において、前記複数フレームの目標顔画像のうちの第１目標顔画像を前記検出待ちビデオから特定し、前記第１目標顔画像に基づいて、前記検出待ちビデオの複数フレームの連続する顔画像から、第２目標顔画像を特定する。ただし、前記第２目標顔画像と前記第１目標顔画像との間の類似度は、所定の類似度要求を満たす。類似度要求は、前記第２目標顔画像が、前記複数フレームの連続する顔画像のうち、前記第１目標顔画像との間の類似度が最も小さい顔画像であることを含んでもよい。このようにして、取得された複数枚の目標顔画像の間に大きな差別があり、さらに、高い精度で検出結果を取得することができる。

幾つかの例において、複数フレームの目標顔画像のうちの第１目標顔画像は、前記検出待ちビデオを複数のセグメント（ただし、各セグメントは、所定数の連続する顔画像を含む）に分割することと、前記複数のセグメントの第１セグメントから第１目標顔画像を選択することと、前記第１目標顔画像に基づいて、前記複数のセグメントのうちの各セグメントから、第２目標顔画像を特定することとによって特定されてもよい。

複数のセグメントを分割することで目標顔画像を特定することにより、目標顔画像を検出待ちビデオの全体に分散可能であり、さらに検出待ちビデオの持続時間内におけるユーザの表情の変化をより良好に捉える。

具体的な実現過程は、例えば下記の図２Ａに示される。図２Ａは、本発明の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートであり、以下のステップを含む。

Ｓ２０１において、検出待ちビデオにおける各フレームの顔画像に対応するタイムスタンプの前後順に従い、検出待ちビデオに含まれる顔画像をレベル別にＮ個の画像グループに分割する。ただし、Ｎ＝所定数－１。ここで、Ｎ個の画像グループにおいて、異なる画像グループに含まれる顔画像の数は、同じであってもよく、異なってもよい。詳細は、実際の需要に応じて設定されてもよい。

Ｓ２０２において、第１個の画像グループについて、当該画像グループにおける第１フレームの顔画像を第１フレームの目標顔画像として特定し、当該第１フレームの目標顔画像を基準顔画像とし、当該画像グループにおける全ての顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該画像グループにおける第２目標顔画像として特定する。

Ｓ２０３において、他の各画像グループごとに、１つ前の画像グループにおける第２目標顔画像を基準顔画像とし、当該画像グループにおける各フレームの顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該画像グループの第２目標顔画像とする。

具体的に実施する際には、下記の２種の方式のうちの何れか１種を用いてあるフレームの顔画像と基準顔画像との間の類似度を特定してもよいが、それらに限定されない。当該フレームの顔画像は、第１顔画像と呼称され、基準顔画像は、第２顔画像と呼称されてもよい。

説明すべきことは、要求１における複数フレームの顔画像同士の間の類似度について、この２種の方式で計算してもよい。このような場合に、複数フレームの顔画像のうちの何れか１フレームの顔画像を第１顔画像と呼称し、別のフレームの顔画像を第２顔画像と呼称してもよい。

方式１において、前記第１顔画像における各画素点の画素値と、前記第２顔画像における各画素点の画素値とに基づいて、前記第１顔画像と前記第２顔画像との顔差分画像を取得し、前記顔差分画像における各画素点の画素値に基づいて、前記顔差分画像に対応する分散を取得し、前記分散を前記第１顔画像と前記第２顔画像との間の類似度とする。ここで、顔差分画像における何れか１つの画素点Ｍの画素値＝第１顔画像における画素点Ｍ’の画素値－第２顔画像における画素点Ｍ’’の画素値となる。ただし、画素点Ｍの顔差分画像における位置、画素点Ｍ’の当該顔画像における位置、及び画素点Ｍ’’の基準顔画像における位置は、一致する。得られた分散が大きいほど、当該顔画像と基準顔画像との間の類似度は、小さくなる。当該方法で得られた類似度は、演算が簡単である特徴を有する。

方式２において、第１顔画像と第２顔画像とのそれぞれに少なくとも１段の特徴抽出を行い、第１顔画像と第２顔画像とのそれぞれに対応する特徴データを取得し、その後、第１顔画像と第２顔画像とのそれぞれに対応する特徴データの間の距離を算出し、当該距離を第１顔画像と第２顔画像との間の類似度とする。距離が大きいほど、第１顔画像と第２顔画像との間の類似度は、小さくなる。ここで、畳み込みニューラルネットワークを用いて第１顔画像及び第２顔画像に対して特徴抽出を行ってもよい。

例えば、検出待ちビデオにおける顔画像は、２０フレームを有する。当該２０フレームがそれぞれａ１～ａ２０であり、目標顔画像の所定数が５であると、タイムスタンプの前後順に従って検出待ちビデオを４つのグループに分割する。この４つのグループは、それぞれ、第１グループ：ａ１～ａ５、第２グループ：ａ６～ａ１０、第３グループ：ａ１１～ａ１５、第４グループ：ａ１６～ａ２０である。

第１個の画像グループについて、ａ１を第１フレームの目標顔画像とし、ａ１を基準顔画像とし、ａ２～ａ５のそれぞれとａ１との間の類似度を取得する。ａ３とａ１の間の類似度が最も小さいとすれば、ａ３を当該第１個の画像グループにおける第２目標顔画像とする。第２個の画像グループについて、ａ３を基準顔画像とし、ａ６～ａ１０のそれぞれとａ３との間の類似度を取得する。ａ７とａ３との間の類似度が最も小さいとすれば、ａ７を第２個の画像グループにおける第２目標顔画像とする。第３個の画像グループについて、ａ７を基準顔画像とし、ａ１１～ａ１５のそれぞれとａ７との間の類似度を取得する。ａ１４とａ７との間の類似度が最も小さいとすれば、ａ１４を第３個の画像グループにおける第２目標顔画像とする。第４個の画像グループについて、ａ１４を基準顔画像とし、ａ１６～ａ２０のそれぞれとａ１４との間の類似度を取得する。ａ１９とａ１４との間の類似度が最も小さいとすれば、ａ１９を第４個の画像グループにおける第２目標顔画像とする。最終的に得られた目標顔画像は、合計でａ１、ａ３、ａ７、ａ１４、ａ１９の５つのフレームを含む。

幾つかの例において、検出待ちビデオから第１目標顔画像を選択し、その後、残りの他の顔画像を複数のセグメントに分割し、第１目標顔画像に基づいて、複数のセグメントから当該第１目標顔画像に基づいて第２目標顔画像を特定する。

具体的な実現過程は、例えば、下記図２Ｂに示される。図２Ｂは、本発明の別の実施例に係る検出待ちビデオから所定数の目標顔画像を抽出する方法のフローチャートであり、以下のステップを含む。

Ｓ２１１において、検出待ちビデオにおける第１フレームの顔画像を第１フレームの目標顔画像として特定する。

Ｓ２１２において、検出待ちビデオにおける各フレームの顔画像に対応するタイムスタンプの前後順に従って、検出待ちビデオに含まれた、第１フレームの目標顔画像以外の顔画像をレベル別にＮ個の画像グループに分割する。ただし、Ｎ＝所定数－１である。

Ｓ２１３において、第１個の画像グループについて、第１フレームの目標顔画像を基準顔画像とし、当該画像グループにおける全ての顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該第１個の画像グループにおける第２目標顔画像として特定する。

Ｓ２１４において、他の各画像グループごとに、１つ前の画像グループにおける第２目標顔画像を基準顔画像とし、当該画像グループにおける各フレームの顔画像と当該基準顔画像との間の類似度を取得し、当該基準顔画像との間の類似度が最も小さい顔画像を当該画像グループの第２目標顔画像とする。

ここで、顔画像と基準顔画像との間の類似度の特定方式は、上記図２Ａにおける特定方式と類似するため、ここで繰り返し説明しない。

例えば、検出待ちビデオにおける顔画像は、２０フレームを有する。当該２０フレームがａ１～ａ２０であり、目標顔画像の所定数が５であり、ａ１を第１フレームの目標顔画像とすると、タイムスタンプの前後順に従ってａ２～ａ２０を４つのグループに分割する。この４つのグループは、それぞれ、第１グループ：ａ２～ａ６、第２グループ：ａ７～ａ１１、第３グループ：ａ１２～ａ１６、第４グループ：ａ１７～ａ２０である。

第１個の画像グループについて、ａ１を基準顔画像とし、ａ２～ａ６のそれぞれとａ１との間の類似度を取得する。ａ４とａ１との間の類似度が最も小さいとすれば、ａ４を当該第１個の画像グループにおける第２目標顔画像とする。第２個の画像グループについて、ａ４を基準顔画像とし、ａ７～ａ１１のそれぞれとａ４との間の類似度を取得する。ａ１０とａ４との間の類似度が最も小さいとすれば、ａ１０を第２個の画像グループにおける第２目標顔画像とする。第３個の画像グループについて、ａ１０を基準顔画像とし、ａ１２～ａ１６のそれぞれとａ１０との間の類似度を取得する。ａ１３とａ１０との間の類似度が最も小さいとすれば、ａ１３を第３個の画像グループにおける第２目標顔画像とする。第４個の画像グループについて、ａ１３を基準顔画像とし、ａ１７～ａ２０のそれぞれとａ１３との間の類似度を取得する。ａ１９とａ１３との間の類似度が最も小さいとすれば、ａ１９を第４個の画像グループにおける第２目標顔画像とする。最終的に得られた目標顔画像は、合計でａ１、ａ４、ａ１０、ａ１３、ａ１９の５つのフレームを含む。

また、本発明の幾つかの例において、ユーザ全体の変位（例えば、頭部位置、方向変化）による人体の外観の細かな変化への干渉が回避されるように、検出待ちビデオから所定数の目標顔画像を抽出する前に、生体検出方法は、さらに、前記検出待ちビデオに含まれた複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報を取得するステップと、前記複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報に基づいて、前記複数フレームの顔画像に対して整列処理を行い、整列処理された複数フレームの顔画像を取得するステップとを含む。

例えば、検出待ち顔ビデオにおける複数フレームの顔画像のうち、各フレームの顔画像中の少なくとも３つの目標キーポイントのキーポイント位置を特定し、各フレームの顔画像中の目標キーポイントのキーポイント位置に基づいて、対応するタイムスタンプが最も早い顔画像を基準画像とし、基準画像を除く他の各フレームの顔画像に対してキーポイント整列処理を行い、前記他の各フレームの顔画像にそれぞれ対応する整列された顔画像を取得する。

ここで、検出待ちビデオにおける複数フレームの顔画像を予め訓練された顔キーポイント検出モデルにレベル別に入力し、各フレームの顔画像中の各目標キーポイントのキーポイント位置を取得し、その後、取得された目標キーポイントのキーポイント位置に基づいて、第１フレームの顔画像を基準画像とし、第１フレームの顔画像を除く他の顔画像に対して整列処理を行って、異なる顔画像における顔の位置と角度を何れも一致させる。頭部位置、方向変化による人体顔の細かな変化への干渉は、回避される。

このような場合に、前記取得した検出待ちビデオに含まれた前記複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定することは、前記整列処理された複数フレームの顔画像同士の間の類似度に基づいて、前記整列処理された複数フレームの顔画像から前記複数フレームの目標顔画像を特定することを含む。ここで目標顔画像を特定する方式は、上記方式と類似するため、ここで繰り返し説明しない。

II：上記のステップＳ１０２において、前記複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、第１融合特徴データを取得し、前記第１融合特徴データに基づいて、前記第１検出結果を取得してもよい。

複数フレームの目標顔画像に対して多次元での特徴抽出及び時間系列上の特徴融合を行うことにより、各フレームの目標顔画像に対応する特徴データは、顔の細かな変化の特点を含み、さらに、ユーザが如何なる指定の動作を行う必要もない前提の下で、正確な生体検出を行う。

まず、各フレームの目標顔画像の特徴抽出結果を取得する具体的な方式について説明する。

図３Ａは、本発明の実施例に係る各フレームの目標顔画像の特徴抽出結果を取得する手順のフローチャートであり、以下のステップを含む。

Ｓ３０１において、前記目標顔画像に対して多段の特徴抽出処理を行い、前記多段の特徴抽出処理のうちの各段の第１特徴抽出処理にそれぞれ対応する第１初期特徴データを取得する。

ここで、目標顔画像を予め訓練された第１畳み込みニューラルネットワークに入力し、目標顔画像に対して多段の第１特徴抽出処理を行ってもよい。

１つの選択可能な実現形態において、当該第１畳み込みニューラルネットワークは、複数の畳み込み層を含み、複数の畳み込み層は、レベル別に接続され、何れか１つの畳み込み層の出力は、当該畳み込み層の次の畳み込み層の入力である。各畳み込み層の出力は、当該畳み込み層に対応する第１中間特徴データとする。

別の選択可能な実現形態において、複数層の畳み込み層の間には、プーリング層、完全接続層（ｆｕｌｌ－ｃｏｎｎｅｃｔｅｄｌａｙｅｒ）等がさらに設けられてもよい。例えば、各畳み込み層の後で１つのプーリング層を接続し、プーリング層の後で１つの完全接続層を接続することにより、畳み込み層、プーリング層及び完全接続層は、第１特徴抽出処理を行う１段のネットワーク構造を構成する。

第１畳み込みニューラルネットワークの具体的な構造は、実際の需要に応じて具体的に設置されてもよく、ここで繰り返し説明しない。

第１畳み込みニューラルネットワークにおける畳み込み層の数は、第１特徴抽出処理を行う段数と一致する。

Ｓ３０２において、各段の前記第１特徴抽出処理ごとに、当該段の第１特徴抽出処理の第１初期特徴データと、当該段の第１特徴抽出処理の後続の少なくとも１段の第１特徴抽出処理の第１初期特徴データとに基づいて、融合処理を行い、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得する。ただし、前記目標顔画像の特徴抽出結果は、前記多段の第１特徴抽出処理のうちの各段の第１特徴抽出処理にそれぞれ対応する第１中間特徴データを含む。

このようにして、各段の第１特徴抽出処理は、より豊富な顔特徴を取得し、最終的により高い検出精度を得る。

ここで、何れか１段の第１特徴抽出処理に対応する第１中間特徴データは、当該段の第１特徴抽出処理の第１初期特徴データと当該段の第１特徴抽出処理の後段の第１特徴抽出処理に対応する第１中間特徴データとに対して融合処理を行い、前記当該段の第１特徴抽出処理に対応する第１中間特徴データを得ることによって、取得されてもよい。ただし、前記後段の第１特徴抽出処理に対応する第１中間特徴データは、前記後段の第１特徴抽出処理の第１初期特徴データに基づいて取得されたものである。

具体的に、最後一段を除く他の各段の第１特徴抽出処理ごとに、当該段の第１特徴抽出処理で得られた第１初期特徴データと、次の第１特徴抽出処理で得られた第１中間特徴データとに基づいて、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得し、最後一段の第１特徴抽出処理について、最後一段の第１特徴抽出処理で得られた第１初期特徴データを、当該最後一段の第１特徴抽出処理に対応する第１中間特徴データとして特定する。

ここで、当該段の第１特徴抽出処理に対応する第１中間特徴データは、当該段の第１特徴抽出処理の後段の第１特徴抽出処理に対応する第１中間特徴データに対してアップサンプリングを行い、当該段の第１特徴抽出処理に対応するアップサンプリングデータを取得することと、当該段の第１特徴抽出処理に対応するアップサンプリングデータと第１初期特徴データとを融合し、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得することとによって、取得されてもよい。

深い特徴抽出処理の特徴をチャンネル数で調整した後でアップサンプリングを行い、浅い特徴抽出処理の特徴と加算することにより、深い特徴が浅い特徴へ流動可能であるため、浅い特徴抽出処理で抽出された情報は、豊富になり、検出精度は、向上する。

例えば、目標顔画像に対して５段の第１特徴抽出処理を行う。５段の特徴抽出処理で得られた第１初期特徴データは、それぞれＶ１、Ｖ２、Ｖ３、Ｖ４及びＶ５である。

第５段の第１特徴抽出処理について、Ｖ５を当該第５段の第１特徴抽出処理に対応する第１中間特徴データＭ５とする。第４段の第１特徴抽出処理について、第５段の第１特徴抽出処理で得られた第１中間特徴データＭ５に対してアップサンプリング処理を行い、第４段の第１特徴抽出処理に対応するアップサンプリングデータＭ５’を取得する。Ｖ４及びＭ５’に基づいて、第４段の第１特徴抽出処理に対応する第１中間特徴データＭ４を生成する。

類似的に、第３段の第１特徴抽出処理に対応する第１中間特徴データＭ３は、取得可能である。第２段の第１特徴抽出処理に対応する第１中間特徴データＭ２は、取得可能である。

第１段の第１特徴抽出処理について、第２段の第１特徴抽出処理で得られた第１中間特徴データＭ２に対してアップサンプリング処理を行い、第１段の第１特徴抽出処理に対応するアップサンプリングデータＭ２’を取得する。Ｖ１及びＭ２’に基づいて、第１段の第１特徴抽出処理に対応する第１中間特徴データＭ１を生成する。

前記アップサンプリングデータ及び前記第１初期特徴データを加算することにより、当該段の第１特徴抽出処理に対応するアップサンプリングデータ及び第１初期特徴データを融合して当該段の第１特徴抽出処理に対応する第１中間特徴データを取得してもよい。ここで、加算とは、アップサンプリングデータのうち、各データのデータ値と、第１初期特徴データにおける対応する位置でのデータのデータ値とを加算することを指す。

次の段の第１特徴抽出処理に対応する第１中間特徴データに対してアップサンプリングを行って得られたアップサンプリングデータの次元は、本段の第１特徴抽出処理に対応する第１初期特徴データの次元と同じである。アップサンプリングデータと第１初期特徴データとを加算して得られた第１中間特徴データの次元も、本段の第１特徴抽出処理に対応する第１初期特徴データの次元と同じである。

幾つかの例において、各段の第１特徴抽出処理に対応する第１初期特徴データの次元は、畳み込みニューラルネットワークの各階層のネットワーク設置に関連し、本発明ではこれについて限定しない。

もう１つの選択可能な実現形態において、アップサンプリングデータと第１初期特徴データとを接合させてもよい。

例えば、アップサンプリングデータと第１初期特徴データとの次元が何れもｍ*ｎ*ｆであり、両者に対して縦方向接合を行って得られた第１中間特徴データの次元は、２ｍ*ｎ*ｆとなる。両者に対して横方向接合を行って得られた第１中間特徴データの次元は、ｍ*２ｎ*ｆとなる。

以下では、前記複数フレームの目標顔画像の特徴抽出結果に対して特徴融合処理を行って第１融合特徴データを取得する手順について詳細に説明する。

図３Ｂは、本発明の実施例に係る前記複数フレームの目標顔画像の特徴抽出結果に対して特徴融合処理を行って第１融合特徴データを取得する手順のフローチャートであり、以下のステップを含む。

Ｓ３１１において、各段の第１特徴抽出処理ごとに、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに対して融合処理を行い、当該段の第１特徴抽出処理に対応する中間融合データを取得する。

ここで、各段の第１特徴抽出処理に対応する中間融合データは、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する特徴シーケンスを取得することと、前記特徴シーケンスをリカレントニューラルネットワークに入力して融合処理させて、当該段の第１特徴抽出処理に対応する中間融合データを取得することとにより、取得されてもよい。

各目標顔画像に対して空間変化での特徴融合を行うことにより、顔における、時間の変化とともに細かく変化する特徴は、より良好に抽出可能であり、生体検出の精度は、向上する。

ここで、リカレントニューラルネットワークは、例えば、長・短期記憶ネットワーク（ＬｏｎｇＳｈｏｒｔ－ＴｅｒｍＭｅｍｏｒｙ、ＬＳＴＭ）、リカレントニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＲＮＮ）、ゲート付き回帰型ユニット（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ、ＧＲＵ）のうちの１種又は複数種を含む。

第１特徴抽出処理がｎ段あれば、ｎ個の中間融合データは、最終的に取得可能である。

別の選択可能な実現形態において、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する特徴シーケンスを取得する前に、前記方法は、さらに、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の、当該段の第１特徴抽出処理における対応する第１中間特徴データに対して、グローバル平均プーリング処理を行い、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データを取得するステップをさらに含む。前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する特徴シーケンスを取得することは、具体的に、前記複数フレームの目標顔画像の時間順に従い、前記複数フレームの目標顔画像の当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データに基づいて、前記特徴シーケンスを取得する。

ここで、グローバル平均プーリングにより、三次元特徴データを二次元特徴データに変換可能である。これにより、第１中間特徴データに対して次元での変換を行い、後続の処理手順を簡素化する。

ある目標顔画像に対してある段の第１特徴抽出処理を行って得られた第１中間特徴データの次元が７*７*１２８である場合に、１２８個の７*７の二次元行列を重畳したと理解してもよい。当該第１中間特徴データに対してグローバル平均プーリングを行う際に、７*７の二次元行列ごとに、当該二次元行列における各成分の値の平均を算出する。最終的に、１２８個の平均を取得可能であり、１２８個の平均を第２中間特徴データとする。

例えば、目標顔画像は、それぞれｂ１～ｂ５である。各フレームの目標顔画像のある段の第１特徴抽出処理における対応する第２中間特徴データがそれぞれＰ１、Ｐ２、Ｐ３、Ｐ４及びＰ５であると、当該５フレームの目標顔画像の第２中間特徴データによって得られる当該段の第１特徴抽出処理に対応する特徴シーケンスは、（Ｐ１、Ｐ２、Ｐ３、Ｐ４、Ｐ５）となる。

ある段の第１特徴抽出処理について、各フレームの目標顔画像の当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データを取得した後、各フレームの目標顔画像の時間順に従い、前記複数フレームの目標顔画像の当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データを並べると、前記特徴シーケンスを取得することができる。

各段の第１特徴抽出処理にそれぞれ対応する、当該段の第１特徴抽出処理に対応する特徴シーケンスが得られた後、特徴シーケンスを対応するリカレントニューラルネットワークモデルにそれぞれ入力し、各段の第１特徴抽出処理に対応する中間融合データを取得する。

３１２において、前記多段の第１特徴抽出処理のそれぞれに対応する中間融合データに基づいて、前記第１融合特徴データを取得する。

目標顔画像における特徴を複数の階層で抽出すると、最終的に得られる目標顔画像の特徴データは、より豊富な情報を含むことができ、生体検出の精度は、向上する。

一例において、各段の第１特徴抽出処理にそれぞれ対応する中間融合データを接合して、目標顔画像を統一で表す第１融合特徴データを取得してもよい。別の例において、前記多段の第１特徴抽出処理のそれぞれに対応する中間融合データを接合した後に、完全接続処理を行い、前記第１融合特徴データを取得してもよい。

さらに、各中間融合データを融合して、第１融合特徴データが各段の第１特徴抽出処理にそれぞれ対応する中間融合データの影響を受けるようにすることにより、抽出された第１融合特徴データは、複数フレームの目標顔画像の特徴をより良好に表すことができる。

第１融合特徴データを取得した後、第１融合特徴データを第１分類器に入力して第１検出結果を取得してもよい。第１分類器は、例えば、ｓｏｆｔｍａｘ分類器である。

図３Ｃに示すように、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得する例示を提供する。当該例示において、あるフレームの目標顔画像に対して５段の特徴抽出処理を行って取得された第１初期特徴データは、それぞれＶ１、Ｖ２、Ｖ３、Ｖ４及びＶ５である。

第１初期特徴データＶ５に基づいて第５段の第１特徴抽出処理の第１中間特徴データＭ５を生成する。

第１中間特徴データＭ５に対してアップサンプリングを行い、第４段の第１特徴抽出処理のアップサンプリングデータＭ５’を取得する。第４段の第１特徴抽出処理の第１初期特徴データＶ４とアップサンプリングデータＭ５’とを加算し、第４段の第１特徴抽出処理の第１中間特徴データＭ４を取得する。第１中間特徴データＭ４に対してアップサンプリングを行い、第３段の第１特徴抽出処理のアップサンプリングデータＭ４’を取得する。第３段の第１特徴抽出処理の第１初期特徴データＶ３とアップサンプリングデータＭ４’とを加算し、第３段の第１特徴抽出処理の第１中間特徴データＭ３を取得する。第１中間特徴データＭ３に対してアップサンプリングを行い、第２段の第１特徴抽出処理のアップサンプリングデータＭ３’を取得する。第２段の第１特徴抽出処理の第１初期特徴データＶ２とアップサンプリングデータＭ３’とを加算し、第２段の第１特徴抽出処理の第１中間特徴データＭ２を取得する。第１中間特徴データＭ２に対してアップサンプリングを行い、第１段の第１特徴抽出処理のアップサンプリングデータＭ２’を取得する。第１段の第１特徴抽出処理の第１初期特徴データＶ１とアップサンプリングデータＭ２’とを加算し、第１段の第１特徴抽出処理の第１中間特徴データＭ１を取得する。取得された第１中間特徴データＭ１、Ｍ２、Ｍ３、Ｍ４及びＭ５は、当該フレームの目標顔画像に対して特徴抽出を行って得られた特徴抽出結果とする。

その後、各フレームの目標顔画像ごとに、当該目標顔画像の５段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに対して平均プーリングを行い、当該フレームの目標顔画像を取得する。５段の第１特徴抽出処理においてそれぞれ対応するものは、第２中間特徴データＧ１、Ｇ２、Ｇ３、Ｇ４及びＧ５である。

目標顔画像が５フレームあり、タイムスタンプの前後順で順にａ１～ａ５であると、第１フレームの目標顔画像ａ１の５段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データは、Ｇ１１、Ｇ１２、Ｇ１３、Ｇ１４、Ｇ１５となり、第２フレームの目標顔画像ａ２の５段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データは、Ｇ２１、Ｇ２２、Ｇ２３、Ｇ２４、Ｇ２５となり、第３フレームの目標顔画像ａ３の５段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データは、Ｇ３１、Ｇ３２、Ｇ３３、Ｇ３４、Ｇ３５となり、第４フレームの目標顔画像ａ４の５段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データは、Ｇ４１、Ｇ４２、Ｇ４３、Ｇ４４、Ｇ４５となり、第５フレームの目標顔画像ａ５の５段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データは、Ｇ５１、Ｇ５２、Ｇ５３、Ｇ５４、Ｇ５５となる。

そうすると、第１段の特徴抽出処理に対応する特徴シーケンスは、（Ｇ１１、Ｇ２１、Ｇ３１、Ｇ４１、Ｇ５１）となる。第２段の特徴抽出処理に対応する特徴シーケンスは、（Ｇ１２、Ｇ２２、Ｇ３２、Ｇ４２、Ｇ５２）となる。第３段の特徴抽出処理に対応する特徴シーケンスは、（Ｇ１３、Ｇ２３、Ｇ３３、Ｇ４３、Ｇ５３）となる。第４段の特徴抽出処理に対応する特徴シーケンスは、（Ｇ１４、Ｇ２４、Ｇ３４、Ｇ４４、Ｇ５４）となる。第５段の特徴抽出処理に対応する特徴シーケンスは、（Ｇ１５、Ｇ２５、Ｇ３５、Ｇ４５、Ｇ５５）となる。

その後、特徴シーケンス（Ｇ１１、Ｇ２１、Ｇ３１、Ｇ４１、Ｇ５１）を第１段の第１特徴抽出処理に対応するＬＳＴＭネットワークに入力し、第１段の第１特徴抽出処理に対応する中間融合データＲ１を取得する。特徴シーケンス（Ｇ１２、Ｇ２２、Ｇ３２、Ｇ４２、Ｇ５２）を第２段の第１特徴抽出処理に対応するＬＳＴＭネットワークに入力し、第２段の第１特徴抽出処理に対応する中間融合データＲ２を取得する。特徴シーケンス（Ｇ１３、Ｇ２３、Ｇ３３、Ｇ４３、Ｇ５３）を第３段の第１特徴抽出処理に対応するＬＳＴＭネットワークに入力し、第３段の第１特徴抽出処理に対応する中間融合データＲ３を取得する。特徴シーケンス（Ｇ１４、Ｇ２４、Ｇ３４、Ｇ４４、Ｇ５４）を第４段の第１特徴抽出処理に対応するＬＳＴＭネットワークに入力し、第４段の第１特徴抽出処理に対応する中間融合データＲ４を取得する。特徴シーケンス（Ｇ１５、Ｇ２５、Ｇ３５、Ｇ４５、Ｇ５５）を第５段の第１特徴抽出処理に対応するＬＳＴＭネットワークに入力し、第２段の第１特徴抽出処理に対応する中間融合データＲ５を取得する。

中間融合データＲ１、Ｒ２、Ｒ３、Ｒ４及びＲ５を接合した後、完全接続層に伝送して完全接続処理を行い、第１融合特徴データを取得する。その後、第１融合特徴データを第１分類器に伝送して第１検出結果を取得する。

III：上記のステップＳ１０３において、下記の方式で、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得してもよい。

つまり、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に対してカスケード処理を行い、差分カスケード画像を取得し、且つ、前記差分カスケード画像に基づいて、前記第２検出結果を取得する。

複数フレームの差分カスケード画像において変化特徴をより良好に抽出可能であり、第２検出結果の精度を向上させる。

具体的に、各隣接する２フレームの目標顔画像の差分画像の取得方式は、上記図２Ａにおける方式１の記述と類似するため、ここで繰り返し説明しない。

差分画像に対してカスケード処理を行う際、差分画像に対して色チャンネルでのカスケードを行う。例えば、差分画像が３チャンネル画像である場合に、２枚の差分画像をカスケードして得られる差分カスケード画像は、６チャンネルの画像となる。

具体的に実施する際には、異なる差分画像の色チャンネルの数が一致するし、画素点の数も一致する。

例えば、差分画像の色チャンネルの数が３であり、画素点の数が２５６*１０２４である場合に、差分画像の表示ベクトルは、２５６*１０２４*３となる。ただし、当該表示ベクトルにおける何れか１つの成分Ａｉｊｋの成分値は、画素点Ａｉｊ’の第ｋ個の色チャンネルにおける画素値である。

差分画像がｓ個ある場合に、ｓ個の差分画像をカスケードして得られた差分カスケード画像の次元は、２５６*１０２４*（３×ｓ）となる。

１つの選択可能な実現形態において、前記差分カスケード画像に対して特徴抽出処理を行い、前記差分カスケード画像の特徴抽出結果を取得することと、前記差分カスケード画像の特徴抽出結果に対して特徴融合を行い、第２融合特徴データを取得することと、前記第２融合特徴データに基づいて、前記第２検出結果を取得することとにより、差分カスケード画像に基づいて第２検出結果を取得してもよい。

以下では、まず、差分カスケード画像に対して特徴抽出処理を行う具体的な手順について、下記図４Ａを参照しながら詳細に説明する。図４は、本発明の実施例に係る差分カスケード画像に対して特徴抽出を行う方式のフローチャートであり、以下のステップを含む。

Ｓ４０１において、前記差分カスケード画像に対して多段の第２特徴抽出処理を行い、各段の第２特徴抽出処理にそれぞれ対応する第２初期特徴データを取得する。

ここで、差分カスケード画像を予め訓練された第２畳み込みニューラルネットワークに入力し、差分カスケード画像に対して多段の第２特徴抽出処理を行ってもよい。当該第２畳み込みニューラルネットワークは、上記第１畳み込みニューラルネットワークと類似する。注意すべきことは、第２畳み込みニューラルネットワークと上記第１畳み込みニューラルネットワークとのネットワーク構造が同じであってもよく、異なってもよい。両者の構造が同じである場合に、ネットワークパラメータも異なる。第１特徴抽出処理の段数と、第２特徴抽出処理の段数は、同じであってもよく、異なってもよい。

Ｓ４０２において、多段の第２特徴抽出処理のそれぞれに対応する第２初期特徴データに基づいて、前記差分カスケード画像の特徴抽出結果を取得する。

差分カスケード画像に対して多段の第２特徴抽出処理を行うことにより、特徴抽出の受容野は、増加可能であり、差分カスケード画像における情報は、豊富になる。

例示的に、多段の第２特徴抽出処理のそれぞれに対応する第２初期特徴データに基づいて、前記差分カスケード画像の特徴抽出結果を取得することは、各段の第２特徴抽出処理ごとに、当該段の第２特徴抽出処理の第２初期特徴データと、当該段の第２特徴抽出処理の前の少なくとも１段の第２特徴抽出処理の第２初期特徴データとに対して融合処理を行い、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得することにより、実行されてもよい。前記差分カスケード画像の特徴抽出結果は、前記多段の第２特徴抽出処理のそれぞれに対応する第３中間特徴データを含む。

このようにして、各段の第２特徴抽出処理で得られる情報は、より豊富になり、これらの情報は、差分画像における変化情報をより良好に表すことができ、第２検出結果の精度を向上させる。

ここで、何れか１段の第２特徴抽出処理の第２初期特徴データと、当該段の第２特徴抽出処理の前の少なくとも１段の第２特徴抽出処理の第２初期特徴データとに対して融合処理を行う具体的な方式は、当該段の第２特徴抽出処理の前段の第２特徴抽出処理の第２初期特徴データに対してダウンサンプリングを行い、当該段の第２特徴抽出処理に対応するダウンサンプリングデータを取得することと、当該段の第２特徴抽出処理に対応するダウンサンプリングデータと前記第２初期特徴データとに対して融合処理を行い、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得することと、であってもよい。

多段の第２特徴抽出処理で得られた情報を前段の第２特徴抽出処理から後段の第２特徴抽出処理へ流動することにより、各段の第２特徴抽出処理で得られる情報は、より豊富になる。

具体的に、第１段の第２特徴抽出処理について、第１段の第２特徴抽出処理で得られた第２初期特徴データを、当該段の第２特徴抽出処理に対応する第３中間特徴データとして特定する。

他の各段の第２特徴抽出処理ごとに、当該段の第２特徴抽出処理で得られた第２初期特徴データと、１つ前の段の第２特徴抽出処理で得られた第３中間特徴データとに基づいて、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得する。

各段の第２特徴抽出処理にそれぞれ対応する第３中間特徴データは、差分カスケード画像に対して特徴抽出を行った結果とする。

各段の第２特徴抽出処理に対応する第３中間特徴データは、１つ前の段の第２特徴抽出処理で得られた第３中間特徴データに対してダウンサンプリングを行って当該段の第２特徴抽出処理に対応するダウンサンプリングデータを取得する（ただし、当該段の第２特徴抽出処理に対応するダウンサンプリングデータのベクトル次元は、当該段の第２特徴抽出処理に基づいて取得された第２初期特徴データの次元と同じである）ことと、当該段の第２特徴抽出処理に対応するダウンサンプリングデータ及び第２初期特徴データに基づいて、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得することと、により、取得されてもよい。

例えば、図４Ｂに示す例示において、差分カスケード画像に対して５段の第２特徴抽出処理を行う。

５段の第２特徴抽出処理で得られた第２初期特徴数は、それぞれＷ１、Ｗ２、Ｗ３、Ｗ４及びＷ５である。

第１段の第２特徴抽出処理について、Ｗ１を当該第１段の第２特徴抽出処理に対応する第３中間特徴データＥ１とする。第２段の第２特徴抽出処理について、第１段の第２特徴抽出処理で得られた第３中間特徴データＥ１に対してダウンサンプリング処理を行い、第２段の第１特徴抽出処理に対応するダウンサンプリングデータＥ１’を取得する。Ｗ２及びＥ１’に基づいて、第２段の第２特徴抽出処理に対応する第３中間特徴データＥ２を生成する。

類似的に、第３段の第２特徴抽出処理に対応する第３中間特徴データＥ３と、第４段の第２特徴抽出処理に対応する第３中間特徴データＥ４とをそれぞれ取得する。

第５段の第２特徴抽出処理について、第４段の第２特徴抽出処理で得られた第３中間特徴データＥ４に対してダウンサンプリング処理を行い、第５段の第２特徴抽出処理に対応するダウンサンプリングデータＥ４’を取得する。Ｗ５及びＥ４’に基づいて、第５段の第２特徴抽出処理に対応する第５中間特徴データＥ５を生成する。

以下では、前記差分カスケード画像の特徴抽出結果に対して特徴融合を行って第２融合特徴データを取得する手順について、図４Ｃを参照しながら詳細に説明する。図４Ｃは、本発明の実施例に係る差分カスケード画像の特徴抽出結果に対して特徴融合を行う手順のフローチャートであり、以下のステップを含む。

Ｓ４１１において、前記差分カスケード画像の各段の第２特徴抽出処理における第３中間特徴データに対して、グローバル平均プーリング処理をそれぞれ行い、前記差分カスケード画像の各段の第２特徴抽出処理におけるそれぞれ対応する第４中間特徴データを取得する。

ここで、第３中間特徴データに対してグローバル平均プーリングを行う方式は、上記第１中間特徴データに対してグローバル平均プーリングを行う方式と類似するため、ここで繰り返し説明しない。

Ｓ４１２において、前記差分カスケード画像の各段の第２特徴抽出処理におけるそれぞれ対応する第４中間特徴データに対して特徴融合を行い、前記第２融合特徴データを取得する。

第３中間特徴データに対して次元での変換を行うことにより、後続の処理手順を簡素化することができる。

各段の第２特徴抽出処理にそれぞれ対応する第４中間特徴データを接合した後、完全接続ネットワークに入力して完全接続処理させ、第２融合特徴データを取得してもよい。第２融合特徴データが取得された後、第２融合特徴データを第２分類器に入力して第２検出結果を取得する。

例えば、図４Ｂに示す例示において、第１段の第２特徴抽出処理に対応する第３中間特徴データＥ１をグローバル平均プーリングを経由させた後、対応する第４中間特徴データＵ１を取得し、第２段の第２特徴抽出処理に対応する第３中間特徴データＥ２をグローバル平均プーリングを経由させた後、対応する第４中間特徴データＵ２を取得し、第３段の第２特徴抽出処理に対応する第３中間特徴データＥ３をグローバル平均プーリングを経由させた後、対応する第４中間特徴データＵ３を取得し、第４段の第２特徴抽出処理に対応する第３中間特徴データＥ４をグローバル平均プーリングを経由させた後、対応する第４中間特徴データＵ４を取得し、第５段の第２特徴抽出処理に対応する第３中間特徴データＥ５をグローバル平均プーリングを経由させた後、対応する第４中間特徴データＵ５を取得する。第４中間特徴データＵ１、Ｕ２、Ｕ３、Ｕ４及びＵ５を接合した後、完全接続層に入力して完全接続処理させ、第２融合特徴データを取得し、その後、第２融合特徴データを第２分類器に入力して第２検出結果を取得する。

第２分類器は、例えばｓｏｆｔｍａｘ分類器である。

IV：上記Ｓ１０４において、検出結果は、第１検出結果と第２検出結果とに対して加重加算を行って目標検出結果を取得することにより、特定されてもよい。

第１検出結果と第２検出結果とに対して加重加算を行い、２つの検出結果をまとめると、より正確な生体検出結果は、取得可能である。

第１検出結果と第２検出結果とのそれぞれに対応する重みは、実際の需要に応じて具体的に設定されてもよく、ここで限定しない。一例において、その各自に対応する重みは、同じであってもよい。

第１検出結果と第２検出結果とに対して加重加算を行って得られた数値に基づいて、目標検出結果が、生体であるか否かと判断可能である。例えば、当該数値がある閾値以上であるときに、検出待ちビデオにおける顔は、生体の顔となり、そうでなければ、生体の顔とはならない。前記閾値は、上記第１畳み込みニューラルネットワークと第２畳み込みニューラルネットワークとが訓練したときに取得され得る。例えば、マークの付いた複数のサンプルによってこの２つの畳み込みニューラルネットワークを訓練してから、ポジティブサンプル訓練後の加重加算値と、ネガティブサンプル訓練後の加重加算値とを取得することにより、当該閾値を取得する。

本発明の別の実施例は、生体検出方法をさらに提供する。当該生体検出方法は、生体検出モデルによって実現される。生体検出モデルは、第１サブモデル、第２サブモデル及び算出モジュールを備える。ただし、第１サブモデルは、第１特徴抽出ネットワーク、第１特徴融合ネットワーク及び第１分類器を備え、第２サブモデルは、第２特徴抽出ネットワーク、第２特徴融合ネットワーク及び第２分類器を備え、生体検出モデルは、訓練サンプルセットにおけるサンプル顔ビデオを利用して訓練して得られたものであり、サンプル顔ビデオには、生体であるか否かのマーク情報がマークされている。

ただし、第１特徴抽出ネットワークは、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得する。第２特徴抽出ネットワークは、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得する。算出モジュールは、第１検出結果及び第２検出結果に基づいて、生体検出結果を取得する。

本発明の実施例において、検出待ちビデオから複数フレームの目標顔画像を抽出し、その後、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて第１検出結果を取得し、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて第２検出結果を取得し、その後、第１検出結果及び第２検出結果に基づいて、検出待ちビデオの生体検出結果を特定してもよい。当該方法において、ユーザが如何なる指定の動作をする必要もなく、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出し、検出効率がより高くなる。

当業者であれば理解できるように、具体的な実施形態の上記方法において、各ステップの記述順が厳格的な実行順を意味して実施手順について何らかの限定をなすのではなく、各ステップの具体的な実行順が、その機能及び可能な内在論理によって特定されるべきである。

図５に示すように、本発明の別の実施例は、さらに生体検出方法を提供する。当該生体検出方法は、以下のステップを含む。

Ｓ５０１において、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を抽出する。

Ｓ５０２において、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定する。

ステップＳ５０１の具体的な実現形態は、上記のステップＳ１０１の実現形態を参照すればよいため、ここで繰り返し説明しない。

本発明の実施例において、検出待ちビデオから複数フレームの目標顔画像を抽出し、且つ複数フレームの目標顔画像のうちの隣接する目標顔画像同士の間の類似度を第１数値よりも低くし、その後、目標顔画像に基づいて検出待ちビデオの生体検出結果を特定することにより、ユーザが如何なる指定の動作をする必要もなく、ユーザの複数フレームの差分の大きい顔画像を利用してユーザが生体であるか否かをミューティングで検出し、検出効率がより高くなる。

１つの可能な実施形態において、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定することは、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得し、及び／又は複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得することと、第１検出結果及び／又は第２検出結果に基づいて、検出待ちビデオの生体検出結果を特定することと、を含む。

ただし、第１検出結果及び第２検出結果を取得する実現形態は、上記Ｓ１０２及びＳ１０３の記述をそれぞれ参照すればよいため、ここで繰り返し説明しない。

ある可能な実現形態において、第１検出結果を取得して第１検出結果を目標検出結果とし、又は、第１検出結果を処理した後で目標検出結果を取得する。

別の可能な実現形態において、第２検出結果を取得して第２検出結果を目標検出結果とし、又は、第２検出結果を処理した後で目標検出結果を取得する。

さらに別の可能な実施形態において、第１検出結果及び第２検出結果を取得し、第１検出結果及び第２検出結果に基づいて、検出待ちビデオに対する生体検出結果を特定し、例えば、第１検出結果と第２検出結果とに対して加重加算を行い、生体検出結果を取得する。

類似する思想に基づいて、本発明の実施例は、生体検出方法に対応する生体検出装置をさらに提供する。本発明の実施例における装置が問題を解決する原理が本発明の実施例の上記生体検出方法と類似するため、装置の実施は、方法の実施を参照すればよい。重複箇所について繰り返し説明しない。

図６Ａは、本発明の実施例に係る生体検出装置の模式図である。装置は、取得手段６１及び検出手段６２を備える。

取得手段６１は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を特定する。

検出手段６２は、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定する。

幾つかの例において、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像同士の間の類似度は、第１数値よりも低い。

幾つかの例において、取得手段６１は、さらに、検出待ちビデオから複数フレームの目標顔画像のうちの第１目標顔画像を特定し、第１目標顔画像に基づいて、検出待ちビデオの複数フレームの連続する顔画像から第２目標顔画像を特定する。ただし、第２目標顔画像と第１目標顔画像との間の類似度は、所定の類似度要求を満たす。

幾つかの例において、取得手段６１は、さらに、検出待ちビデオを複数のセグメントに分割し（ただし、各セグメントは、所定数の連続する顔画像を含む）、複数のセグメントの第１セグメントから第１目標顔画像を選択し、第１目標顔画像に基づいて、複数のセグメントのうちの各セグメントから第２目標顔画像を特定する。

幾つかの例において、取得手段６１は、さらに、第１セグメントにおける全ての顔画像と第１目標顔画像との類似度を比較し、類似度の最も小さい顔画像を第１セグメントの第２目標顔画像とし、他のセグメントのうちの各セグメントごとに、当該セグメントにおける全ての顔画像と当該セグメントの１つ前のセグメントの第２目標顔画像との類似度を比較し、類似度の最も小さい顔画像を当該セグメントの第２目標顔画像とする。ただし、他のセグメントは、複数のセグメントのうち、第１セグメント以外のセグメントである。

幾つかの例において、複数フレームの顔画像同士の間の類似度は、複数フレームの顔画像から２フレームの顔画像を第１顔画像及び第２顔画像として選択することと、第１顔画像における各画素点の画素値と第２顔画像における各画素点の画素値とに基づいて、第１顔画像と第２顔画像との顔差分画像を取得することと、顔差分画像における各画素点の画素値に基づいて顔差分画像に対応する分散を取得することと、分散を第１顔画像と第２顔画像との間の類似度とすることと、によって、取得されたものである。

幾つかの例において、取得した検出待ちビデオから複数フレームの目標顔画像を抽出する前に、取得手段６１は、さらに、検出待ちビデオに含まれた複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報を取得し、複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報に基づいて複数フレームの顔画像に対して整列処理を行い、整列処理された複数フレームの顔画像を取得し、整列処理された複数フレームの顔画像同士の間の類似度に基づいて、整列処理された複数フレームの顔画像から複数フレームの目標顔画像を特定する。

幾つかの例において、検出手段６２は、第１検出モジュール及び／又は第２検出モジュールと、特定モジュールとを備える。ただし、第１検出モジュールは、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得する。第２検出モジュールは、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得する。特定モジュールは、第１検出結果及び／又は第２検出結果に基づいて、検出待ちビデオの生体検出結果を特定する。

幾つかの例において、第１検出モジュールは、さらに、複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、第１融合特徴データを取得し、第１融合特徴データに基づいて第１検出結果を取得する。

幾つかの例において、各フレームの目標顔画像の特徴抽出結果は、目標顔画像に対して多段の第１特徴抽出処理を行って取得された、各段の第１特徴抽出処理にそれぞれ対応する第１中間特徴データを含む。第１検出モジュールは、さらに、各段の第１特徴抽出処理ごとに、複数フレームの目標顔画像の当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに対して融合処理を行い、当該段の第１特徴抽出処理に対応する中間融合データを取得し、多段の第１特徴抽出処理にそれぞれ対応する中間融合データに基づいて、第１融合特徴データを取得する。

幾つかの例において、第１検出モジュールは、さらに、複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する特徴シーケンスを取得し、特徴シーケンスをリカレントニューラルネットワークに入力して融合処理させ、当該段の第１特徴抽出処理に対応する中間融合データを取得する。

幾つかの例において、第１検出モジュールは、さらに、複数フレームの目標顔画像のうちの各フレームの目標顔画像の、当該段の第１特徴抽出処理における対応する第１中間特徴データに対してグローバル平均プーリング処理を行い、複数フレームの目標顔画像の当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データを取得し、複数フレームの目標顔画像の時間順に従い、複数フレームの目標顔画像の当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データを並べて、特徴シーケンスを取得する。

幾つかの例において、第１検出モジュールは、さらに、多段の第１特徴抽出処理にそれぞれ対応する中間融合データを接合した後、完全接続処理を行い、第１融合特徴データを取得する。

幾つかの例において、第１検出モジュールは、目標顔画像に対して多段の特徴抽出処理を行い、多段の特徴抽出処理のうちの各段の第１特徴抽出処理にそれぞれ対応する第１初期特徴データを取得することと、各段の第１特徴抽出処理ごとに、当該段の第１特徴抽出処理の第１初期特徴データと、当該段の第１特徴抽出処理の後続の少なくとも１段の第１特徴抽出処理の第１初期特徴データとに基づいて、融合処理を行い、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得することと、により、各フレームの目標顔画像の特徴抽出結果を取得する。ただし、目標顔画像の特徴抽出結果は、多段の第１特徴抽出処理のうちの各段の第１特徴抽出処理にそれぞれ対応する第１中間特徴データを含む。

幾つかの例において、第１検出モジュールは、さらに、当該段の第１特徴抽出処理の第１初期特徴データと当該段の第１特徴抽出処理の後段の第１特徴抽出処理に対応する第１中間特徴データとに対して融合処理を行い、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得する。ただし、後段の第１特徴抽出処理に対応する第１中間特徴データは、後段の第１特徴抽出処理の第１初期特徴データに基づいて取得されたものである。

幾つかの例において、第１検出モジュールは、さらに、当該段の第１特徴抽出処理の後段の第１特徴抽出処理に対応する第１中間特徴データに対してアップサンプリングを行い、当該段の第１特徴抽出処理に対応するアップサンプリングデータを取得し、当該段の第１特徴抽出処理に対応するアップサンプリングデータと当該段の第１特徴抽出処理に対応する第１初期特徴データとを融合し、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得する。

幾つかの例において、第２検出モジュールは、さらに、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に対してカスケード処理を行い、差分カスケード画像を取得し、差分カスケード画像に基づいて第２検出結果を取得する。

幾つかの例において、第２検出モジュールは、さらに、差分カスケード画像に対して特徴抽出処理を行い、差分カスケード画像の特徴抽出結果を取得し、差分カスケード画像の特徴抽出結果に対して特徴融合を行い、第２融合特徴データを取得し、第２融合特徴データに基づいて第２検出結果を取得する。

幾つかの例において、第２検出モジュールは、さらに、差分カスケード画像に対して多段の第２特徴抽出処理を行い、各段の第２特徴抽出処理にそれぞれ対応する第２初期特徴データを取得し、多段の第２特徴抽出処理のそれぞれに対応する第２初期特徴データに基づいて、差分カスケード画像の特徴抽出結果を取得する。

幾つかの例において、第２検出モジュールは、さらに、各段の第２特徴抽出処理ごとに、当該段の第２特徴抽出処理の第２初期特徴データと、当該段の第２特徴抽出処理の前の少なくとも１段の第２特徴抽出処理の第２初期特徴データとに対して融合処理を行い、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得する。差分カスケード画像の特徴抽出結果は、多段の第２特徴抽出処理のそれぞれに対応する第３中間特徴データを含む。

幾つかの例において、第２検出モジュールは、さらに、当該段の第２特徴抽出処理の前段の第２特徴抽出処理の第２初期特徴データに対してダウンサンプリングを行い、当該段の第２特徴抽出処理に対応するダウンサンプリングデータを取得し、当該段の第２特徴抽出処理に対応するダウンサンプリングデータと当該段の第２特徴抽出処理の第２初期特徴データとに対して融合処理を行い、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得する。

幾つかの例において、第２検出モジュールは、さらに、差分カスケード画像の多段の第２特徴抽出処理におけるそれぞれの第３中間特徴データに対してグローバル平均プーリング処理をそれぞれ行い、差分カスケード画像の多段の第２特徴抽出処理のそれぞれに対応する第４中間特徴データを取得し、差分カスケード画像の多段の第２特徴抽出処理のそれぞれに対応する第４中間特徴データに対して特徴融合を行い、第２融合特徴データを取得する。

幾つかの例において、第２検出モジュールは、さらに、多段の第２特徴抽出処理のそれぞれに対応する第４中間特徴データを接合した後、完全接続処理を行い、第２融合特徴データを取得する。

幾つかの例において、特定モジュールは、さらに、第１検出結果と第２検出結果とに対して加重加算を行い、生体検出結果を取得する。

装置における各モジュール及び／又は手段の処理フロー、並びに各モジュール及び／又は手段の間の相互作用フローの記述は、上記方法実施例における関連説明を参照すればよいため、ここで詳細に記述しない。

本発明の選択可能な実現形態は、電子機器６００をさらに提供する。図６Ｂは、本発明の選択可能な実現形態に供される電子機器６００の構造模式図である。当該電子機器６００は、プロセッサ６１０と、メモリ６２０とを備える。メモリ６２０は、プロセッサ実行可能指令を記憶し、内部メモリ６２１及び外部メモリ６２２を備える。ここでの内部メモリ６２１は、内部メモリとも呼ばれ、プロセッサ６１０における演算データと、ハードディスク等の外部メモリ６２２と交換されるデータとを一時的に格納し、プロセッサ６１０は、内部メモリ６２１及び外部メモリ６２２を介してデータ交換を行う。

電子機器６００が動作したときに、機器読み取り可能な指令がプロセッサによって実行されることにより、プロセッサ６１０は、取得した検出待ちビデオから複数フレームの目標顔画像を抽出することと、複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得することと、複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得することと、第１検出結果及び第２検出結果に基づいて、検出待ちビデオの生体検出結果を特定することと、を実施させる。

又は、プロセッサ６１０は、取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、検出待ちビデオから複数フレームの目標顔画像を抽出することと、複数フレームの目標顔画像に基づいて、検出待ちビデオの生体検出結果を特定することとを実施させる。

本発明の選択可能な実現形態は、コンピュータ可読記憶媒体をさらに提供する。当該コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、当該コンピュータプログラムがプロセッサで運転されたときに、上記方法の選択可能な実現形態における生体検出方法のステップは、実施される。ただし、コンピュータ可読記憶媒体は、不揮発性記憶媒体であってもよい。

また、図７に示すように、本発明の実施例は、開示された実施例に係る生体検出方法を具体的に応用する例示をさらに開示する。

当該例示において、生体検出方法の実行主体は、クラウドサーバ１であり、クラウドサーバ１は、ユーザ側２に通信接続され。両者の相互作用手順は、下記のステップになる。

Ｓ７０１において、ユーザ側２は、ユーザビデオをクラウドサーバ１へアップロードする。ユーザ側２は、取得されたユーザビデオをクラウドサーバ１へアップロードする。

Ｓ７０２において、クラウドサーバ１は、顔キーポイント検出を行う。クラウドサーバ１は、ユーザ側２から送信されたユーザビデオを受信した後、ユーザビデオにおける各フレーム画像に対して顔キーポイント検出を行う。検出に失敗したときに、Ｓ７０３へ遷移し、検出に成功したときに、Ｓ７０５へ遷移する。

Ｓ７０３において、クラウドサーバ１は、検出に失敗した原因をユーザ側２へフィードバックする。その際、検出に失敗した原因は、顔が検出されていないことである。

ユーザ側２は、クラウドサーバ１からフィードバックされた、検出に失敗した原因を受信した後、Ｓ７０４を実行し、ユーザビデオを改めて取得し、Ｓ７０１へ遷移する。

Ｓ７０５において、クラウドサーバ１は、検出された顔キーポイントに基づいて、ユーザビデオにおける各フレーム画像をトリミングし、検出待ちビデオを取得する。

Ｓ７０６において、クラウドサーバ１は、顔キーポイントに基づいて、検出待ちビデオにおける各フレームの顔画像に対して整列処理を行う。

Ｓ７０７において、クラウドサーバ１は、検出待ちビデオから複数フレームの目標顔画像を選択する。

Ｓ７０８において、クラウドサーバ１は、複数フレームの目標顔画像を生体検出モデルにおける第１サブモデルに入力し、各隣接する２フレームの目標顔画像同士の間の差分画像を生体検出モデルにおける第２サブモデルに入力して検出させる。

ただし、第１サブモデルは、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得する。第２サブモデルは、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得する。

Ｓ７０９において、クラウドサーバ１は、生体検出モデルから出力された第１検出結果及び第２検出結果を取得した後、第１検出結果及び第２検出結果に基づいて生体検出結果を取得する。

Ｓ７１０において、生体検出結果をユーザ側２へフィードバックする。

上記手順により、ユーザ側２から取得された１つのビデオに対する生体検出手順は、実現される。

本発明の選択可能な実現形態に係る生体検出方法のコンピュータプログラム製品は、プログラムコードを記憶したコンピュータ可読記憶媒体を含む。前記プログラムコードに含まれる指令は、上記方法の選択可能な実現形態における前記生体検出方法のステップを実行するために用いられる。詳細は、上記方法選択可能な実現形態を参照すればよいため、ここで繰り返し説明しない。

当業者であれば良く分かるように、記述の利便性及び簡潔性のために、上述したシステム及び装置の具体的な稼働過程は、上記方法の選択可能な実現形態における対応過程を参照すればよく、ここで繰り返し説明しない。本発明に係る幾つかの選択可能な実現形態において、開示されたシステム、装置及び方法が他の方式にて実現され得ることは、理解されるべきである。上述した装置の選択可能な実現形態が単に模式的なものであり、例えば、前記手段の区分が、単に１種の論理機能区分であり、実際に実施するときに別の区分方式もあり得る。さらに例えば、複数の手段或いはユニットは、組み合わせられてもよく、または、別のシステムに統合されてもよく、または、幾つかの特徴が略され、若しくは実行しないようにしてもよい。また、示され或いは議論された各構成部分同士の間は、結合が直接結合であってもよく、通信接続が幾つかのインターフェース、装置或いは手段を介する間接結合若しくは通信接続であってもよく、電気的なもの、機械的なもの或いは他の形態であってもよい。

上記分離部品として説明された手段が物理的に分離されるものであってもよくでなくてもよい。また、手段として表示された部品は、物理手段であってもでなくてもよい。さらに、それらの手段は、１箇所に位置してもよく、複数のネットワークセルに分散してもよい。実際の需要に応じてその中の一部または全部のモジュールを選択してこの選択可能な実現形態の目的を果たすことが可能である。

また、本発明の各選択可能な実現形態における各機能手段は、全部で１つの処理手段に集積されてもよく、各手段がそれぞれ単独で物理的に存在してもよく、２つ或いは２つ以上の手段が１つの手段に集積されてもよい。

上記機能は、ソフトウェア機能手段の形式で実現され、且つ独立の製品として販売や使用されるときに、プロセッサで実行され得る不揮発性のコンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解を基に、本発明の技術案は、本質的に或いは従来技術に対して貢献を与える部分または当該技術案の一部がソフトウェア製品の形式で体現されてもよい。当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、幾つかの機器の実行可能な指令を含むことで一台の電子機器（パソコン、サーバまたはネットワーク機器等であってもよい）に本発明の各選択可能な実現形態の前記方法の全部或いは一部のステップを実行させる。上述した記憶媒体は、Ｕディスク、モバイルハードディスク、読み出し専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）、磁気ディスクまたは光ディスク等の、プログラムコードを格納可能な各種の媒体を含む。

最後に説明すべきことは、上述した選択可能な実現形態が単に本発明の具体的な実施形態に過ぎず、本発明の技術案を説明するためのものであり、それに対する制限とはならない。本発明の保護範囲は、これに限定されない。上記選択可能な実現形態を参照して本発明を詳細に説明したが、当業者であれば理解できるように、本技術分野に精通している如何なる技術者も本発明に開示された技術範囲内で依然として上記選択可能な実現形態に記載された技術案を変更し、或いは容易に変化を想到し、又はその中の一部の技術特徴に対して均等物による置換を行うことができ、これらの変更、変化又は置換により、対応する技術案の本質が本発明の選択可能な実現形態の技術案の精神及び範囲から逸脱することがなく、何れも本発明の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、請求項の保護範囲に準じるべきである。

Claims

取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するステップと、
前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するステップと、を含む
ことを特徴とする生体検出方法。
前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像同士の間の類似度は、第１数値よりも低い
ことを特徴とする請求項１に記載の生体検出方法。
取得した前記検出待ちビデオから前記複数フレームの目標顔画像を特定することは、
前記検出待ちビデオから、前記複数フレームの目標顔画像のうちの第１目標顔画像を特定することと、
前記第１目標顔画像に基づいて、前記検出待ちビデオの複数フレームの連続する顔画像から、第２目標顔画像を特定することと、を含み、
前記第２目標顔画像と前記第１目標顔画像との間の類似度は、所定の類似度要求を満たす
ことを特徴とする請求項１又は２に記載の生体検出方法。
前記生体検出方法は、
前記検出待ちビデオを複数のセグメントに分割するステップをさらに含み、各セグメントは、所定数の連続する顔画像を含み、
前記検出待ちビデオから、前記複数フレームの目標顔画像のうちの前記第１目標顔画像を特定することは、
前記複数のセグメントの第１セグメントから第１目標顔画像を選択することを含み、
前記第１目標顔画像に基づいて、前記検出待ちビデオの前記複数フレームの連続する顔画像から、前記第２目標顔画像を特定することは、
前記第１目標顔画像に基づいて、前記複数のセグメントのうちの各セグメントから、第２目標顔画像を特定することを含む
ことを特徴とする請求項３に記載の生体検出方法。
前記複数のセグメントのうちの各セグメントから前記第２目標顔画像を特定することは、
前記第１セグメントにおける全ての顔画像と前記第１目標顔画像との類似度を比較し、類似度の最も小さい顔画像を前記第１セグメントの前記第２目標顔画像とすることと、
他のセグメントのうちの各セグメントごとに、当該セグメントにおける全ての顔画像と当該セグメントの１つ前のセグメントの第２目標顔画像との類似度を比較し、類似度の最も小さい顔画像を当該セグメントの第２目標顔画像とすることと、を含み、
前記他のセグメントは、前記複数のセグメントのうちの第１セグメント以外のセグメントである
ことを特徴とする請求項４に記載の生体検出方法。
前記複数フレームの顔画像同士の間の類似度は、
複数フレームの顔画像から２フレームの顔画像を第１顔画像及び第２顔画像として選択することと、
前記第１顔画像における各画素点の画素値と、前記第２顔画像における各画素点の画素値とに基づいて、前記第１顔画像と前記第２顔画像との顔差分画像を取得することと、
前記顔差分画像における各画素点の画素値に基づいて、前記顔差分画像に対応する分散を取得することと、
前記分散を前記第１顔画像と前記第２顔画像との間の前記類似度とすることと、によって取得される
ことを特徴とする請求項１から５の何れか一項に記載の生体検出方法。
前記取得した検出待ちビデオから前記複数フレームの目標顔画像を特定する前に、前記生体検出方法は、
前記検出待ちビデオに含まれた複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報を取得するステップと、
前記複数フレームの顔画像のうちの各フレームの顔画像のキーポイント情報に基づいて、前記複数フレームの顔画像に対して整列処理を行い、整列処理された複数フレームの顔画像を取得するステップと、をさらに含み、
前記取得した検出待ちビデオに含まれた前記複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから前記複数フレームの目標顔画像を特定するステップは、
前記整列処理された複数フレームの顔画像同士の間の類似度に基づいて、前記整列処理された複数フレームの顔画像から前記複数フレームの目標顔画像を特定することを含む
ことを特徴とする請求項１から６の何れか一項に記載の生体検出方法。
前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの前記生体検出結果を特定するステップは、
前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得し、及び／又は、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得することと、
前記第１検出結果及び／又は前記第２検出結果に基づいて、前記検出待ちビデオの生体検出結果を特定することと、を含む
ことを特徴とする請求項１から７の何れか一項に記載の生体検出方法。
前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の前記特徴データに基づいて、前記第１検出結果を取得することは、
前記複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、第１融合特徴データを取得することと、
前記第１融合特徴データに基づいて、前記第１検出結果を取得することと、を含む
ことを特徴とする請求項８に記載の生体検出方法。
各フレームの前記目標顔画像の特徴抽出結果は、前記目標顔画像に対して多段の第１特徴抽出処理を行って取得された、各段の第１特徴抽出処理にそれぞれ対応する第１中間特徴データを含み、
前記複数フレームの目標顔画像それぞれの特徴抽出結果に対して特徴融合処理を行い、前記第１融合特徴データを取得することは、
各段の第１特徴抽出処理ごとに、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第１中間特徴データに対して融合処理を行い、当該段の第１特徴抽出処理に対応する中間融合データを取得することと、
前記多段の第１特徴抽出処理のそれぞれに対応する中間融合データに基づいて、前記第１融合特徴データを取得することと、を含む
ことを特徴とする請求項９に記載の生体検出方法。
前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する前記第１中間特徴データに対して融合処理を行い、当該段の第１特徴抽出処理に対応する前記中間融合データを取得することは、
前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する前記第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する特徴シーケンスを取得することと、
前記特徴シーケンスをリカレントニューラルネットワークに入力して融合処理させて、当該段の第１特徴抽出処理に対応する前記中間融合データを取得することと、を含む
ことを特徴とする請求項１０に記載の生体検出方法。
前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する前記第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する前記特徴シーケンスを取得する前に、前記生体検出方法は、
前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の、当該段の第１特徴抽出処理における対応する第１中間特徴データに対して、グローバル平均プーリング処理を行い、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する第２中間特徴データを取得するステップをさらに含み、
前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する前記第１中間特徴データに基づいて、当該段の第１特徴抽出処理に対応する前記特徴シーケンスを取得することは、
前記複数フレームの目標顔画像の時間順に従い、前記複数フレームの目標顔画像の、当該段の第１特徴抽出処理におけるそれぞれ対応する前記第２中間特徴データを並べて、前記特徴シーケンスを取得することを含む
ことを特徴とする請求項１１に記載の生体検出方法。
前記多段の第１特徴抽出処理に対応する前記中間融合データに基づいて、前記第１融合特徴データを取得することは、
前記多段の第１特徴抽出処理のそれぞれに対応する前記中間融合データを接合した後に完全接続処理を行い、前記第１融合特徴データを取得することを含む
ことを特徴とする請求項１０から１２の何れか一項に記載の生体検出方法。
各フレームの目標顔画像の特徴抽出結果は、
前記目標顔画像に対して多段の特徴抽出処理を行い、前記多段の特徴抽出処理のうちの各段の第１特徴抽出処理にそれぞれ対応する第１初期特徴データを取得することと、
各段の前記第１特徴抽出処理ごとに、当該段の第１特徴抽出処理の第１初期特徴データと、当該段の第１特徴抽出処理の後続の少なくとも１段の第１特徴抽出処理の第１初期特徴データとに基づいて、融合処理を行い、当該段の第１特徴抽出処理に対応する第１中間特徴データを取得することと、によって取得され、
前記目標顔画像の特徴抽出結果は、前記多段の第１特徴抽出処理のうちの各段の第１特徴抽出処理にそれぞれ対応する第１中間特徴データを含む
ことを特徴とする請求項８から１３の何れか一項に記載の生体検出方法。
当該段の第１特徴抽出処理の前記第１初期特徴データと、当該段の第１特徴抽出処理の後続の少なくとも１段の第１特徴抽出処理の前記第１初期特徴データとに基づいて、融合処理を行い、当該段の第１特徴抽出処理に対応する前記第１中間特徴データを取得することは、
当該段の第１特徴抽出処理の前記第１初期特徴データと当該段の第１特徴抽出処理の後段の第１特徴抽出処理に対応する第１中間特徴データとに対して融合処理を行い、前記当該段の第１特徴抽出処理に対応する前記第１中間特徴データを取得することを含み、
前記後段の第１特徴抽出処理に対応する前記第１中間特徴データは、前記後段の第１特徴抽出処理の第１初期特徴データに基づいて取得されたものである
ことを特徴とする請求項１４に記載の生体検出方法。
当該段の第１特徴抽出処理の前記第１初期特徴データと当該段の第１特徴抽出処理の前記後段の第１特徴抽出処理に対応する前記第１中間特徴データとに対して融合処理を行い、前記当該段の第１特徴抽出処理に対応する前記第１中間特徴データを取得することは、
当該段の第１特徴抽出処理の後段の第１特徴抽出処理に対応する前記第１中間特徴データに対してアップサンプリングを行い、当該段の第１特徴抽出処理に対応するアップサンプリングデータを取得することと、
当該段の第１特徴抽出処理に対応する前記アップサンプリングデータと当該段の第１特徴抽出処理に対応する前記第１初期特徴データとを融合し、当該段の第１特徴抽出処理に対応する前記第１中間特徴データを取得することと、を含む
ことを特徴とする請求項１５に記載の生体検出方法。
前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の前記差分画像に基づいて、前記第２検出結果を取得することは、
前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の前記差分画像に対してカスケード処理を行い、差分カスケード画像を取得することと、
前記差分カスケード画像に基づいて、前記第２検出結果を取得することと、を含む
ことを特徴とする請求項８から１６の何れか一項に記載の生体検出方法。
前記差分カスケード画像に基づいて、前記第２検出結果を取得することは、
前記差分カスケード画像に対して特徴抽出処理を行い、前記差分カスケード画像の特徴抽出結果を取得することと、
前記差分カスケード画像の前記特徴抽出結果に対して特徴融合を行い、第２融合特徴データを取得することと、
前記第２融合特徴データに基づいて、前記第２検出結果を取得することと、を含む
ことを特徴とする請求項１７に記載の生体検出方法。
前記差分カスケード画像に対して特徴抽出処理を行い、前記差分カスケード画像の前記特徴抽出結果を取得することは、
前記差分カスケード画像に対して多段の第２特徴抽出処理を行い、各段の第２特徴抽出処理にそれぞれ対応する第２初期特徴データを取得することと、
前記多段の第２特徴抽出処理のそれぞれに対応する前記第２初期特徴データに基づいて、前記差分カスケード画像の前記特徴抽出結果を取得することと、を含む
ことを特徴とする請求項１８に記載の生体検出方法。
前記多段の第２特徴抽出処理のそれぞれに対応する前記第２初期特徴データに基づいて、前記差分カスケード画像の前記特徴抽出結果を取得することは、
各段の第２特徴抽出処理ごとに、当該段の第２特徴抽出処理の第２初期特徴データと、当該段の第２特徴抽出処理の前の少なくとも１段の第２特徴抽出処理の第２初期特徴データとに対して融合処理を行い、当該段の第２特徴抽出処理に対応する第３中間特徴データを取得することを含み、
前記差分カスケード画像の特徴抽出結果は、前記多段の第２特徴抽出処理のそれぞれに対応する第３中間特徴データを含む
ことを特徴とする請求項１９に記載の生体検出方法。
当該段の第２特徴抽出処理の前記第２初期特徴データと、当該段の第２特徴抽出処理の前の少なくとも１段の第２特徴抽出処理の前記第２初期特徴データとに対して融合処理を行い、前記各段の第２特徴抽出処理に対応する前記第３中間特徴データを取得することは、
当該段の第２特徴抽出処理の前段の第２特徴抽出処理の第２初期特徴データに対してダウンサンプリングを行い、当該段の第２特徴抽出処理に対応するダウンサンプリングデータを取得することと、
当該段の第２特徴抽出処理に対応する前記ダウンサンプリングデータと当該段の第２特徴抽出処理の前記第２初期特徴データとに対して融合処理を行い、当該段の第２特徴抽出処理に対応する前記第３中間特徴データを取得することと、を含む
ことを特徴とする請求項２０に記載の生体検出方法。
前記差分カスケード画像の前記特徴抽出結果に対して特徴融合を行い、前記第２融合特徴データを取得する前に、前記生体検出方法は、
前記差分カスケード画像の前記多段の第２特徴抽出処理におけるそれぞれの第３中間特徴データに対してグローバル平均プーリング処理をそれぞれ行い、前記差分カスケード画像の前記多段の第２特徴抽出処理におけるそれぞれ対応する第４中間特徴データを取得するステップをさらに含み、
前記差分カスケード画像の前記特徴抽出結果に対して特徴融合を行い、前記第２融合特徴データを取得することは、
前記差分カスケード画像の前記多段の第２特徴抽出処理におけるそれぞれ対応する前記第４中間特徴データに対して特徴融合を行い、前記第２融合特徴データを取得することを含む
ことを特徴とする請求項２０又は２１に記載の生体検出方法。
前記差分カスケード画像の前記多段の第２特徴抽出処理におけるそれぞれ対応する前記第４中間特徴データに対して特徴融合を行い、前記第２融合特徴データを取得することは、
前記多段の第２特徴抽出処理のそれぞれに対応する前記第４中間特徴データを接合した後に完全接続処理を行い、前記第２融合特徴データを取得することを含む
ことを特徴とする請求項２２に記載の生体検出方法。
前記第１検出結果及び前記第２検出結果に基づいて、前記検出待ちビデオの前記生体検出結果を特定することは、
前記第１検出結果と前記第２検出結果とに対して加重加算を行い、前記生体検出結果を取得することを含む
ことを特徴とする請求項８から２３の何れか一項に記載の生体検出方法。
取得した検出待ちビデオに含まれた複数フレームの顔画像同士の間の類似度に基づいて、前記検出待ちビデオから複数フレームの目標顔画像を特定するための取得手段と、
前記複数フレームの目標顔画像に基づいて、前記検出待ちビデオの生体検出結果を特定するための検出手段と、を備える
ことを特徴とする生体検出装置。
前記検出手段は、第１検出モジュール及び／又は第２検出モジュールと、特定モジュールとを備え、
前記第１検出モジュールは、前記複数フレームの目標顔画像のうちの各フレームの目標顔画像の特徴抽出結果に基づいて、第１検出結果を取得し、
前記第２検出モジュールは、前記複数フレームの目標顔画像のうちの各隣接する２フレームの目標顔画像の差分画像に基づいて、第２検出結果を取得し、
前記特定モジュールは、前記第１検出結果及び／又は前記第２検出結果に基づいて、前記検出待ちビデオの生体検出結果を特定する
ことを特徴とする請求項２５に記載の生体検出装置。
電子機器であって、
プロセッサと、
前記プロセッサで実行され得る機器読み取り可能な指令を記憶するメモリとを備え、
前記機器読み取り可能な指令が前記プロセッサで実行されたときに、前記プロセッサに請求項１から２４の何れか一項に記載の生体検出方法を実施させる
ことを特徴とする電子機器。
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体には、コンピュータプログラムが記憶され、
前記コンピュータプログラムが電子機器で運転されたときに、前記電子機器に請求項１から２４の何れか一項に記載の生体検出方法を実施させる
ことを特徴とするコンピュータ可読記憶媒体。
機器の実行可能な指令を含むコンピュータプログラム製品であって、
前記機器の実行可能な指令が電子機器で読み取って実行されたときに、前記電子機器に請求項１から２４の何れか一項に記載の生体検出方法を実施させる
ことを特徴とするコンピュータプログラム製品。