JP2021516831A

JP2021516831A - 生体検知方法、装置及び記憶媒体

Info

Publication number: JP2021516831A
Application number: JP2020552736A
Authority: JP
Inventors: ルイチャン; ウークイヤン; カイヤン; ミンヤンリアン; シアオヤングオ; リーウェイウー
Original assignee: ベイジンセンスタイムテクノロジーデベロップメントカンパニー，リミテッド
Priority date: 2018-12-29
Filing date: 2019-09-24
Publication date: 2021-07-08
Anticipated expiration: 2039-09-24
Also published as: JP7096355B2; TWI766201B; WO2020134238A1; TW202026948A; US11393256B2; CN111444744A; US20210027081A1; SG11202009691TA

Abstract

本出願の実施例は、生体検知方法、装置及びコンピュータ可読記憶媒体を開示する。該方法は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得することと、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得ることと、前記視差情報に基づいて、生体検知結果を得ることとを含む。【選択図】図２

Description

（関連出願の相互参照）
本出願は、出願番号が２０１８１１６５４１４９．６であり、出願日が２０１８年１２月２９日である中国特許出願に基づく優先権を主張するものであり、該中国特許出願の全内容を参照として本出願に援用する。

本出願は、コンピュータビジョン分野に関し、特に生体検知方法、装置及び記憶媒体に関する。

顔認証における偽造防止は、情報セキュリティ、偽造防止技術分野における重要な課題である。生体検知は、顔認証における偽造防止における１つ重要な研究方向になっている。生体検知とは、コンピュータビジョン技術を利用して、カメラ前の顔画像が現実の人物からのものであるか判定することを指す。現在、双眼カメラによる生体検知は、多くのシーンに適用して成功しており、これらのシーンの範囲は、非常に広く、その環境要因が、背景、照明、距離、動作などの複数の要因を含むため、生体検知アルゴリズムの性能向上が非常に困難なものである。生体検知アルゴリズムの精度を向上させるための解決手段が求められている。

本出願は、生体検知方法、装置及び記憶媒体を提供する。

第１態様によれば、生体検知方法を開示する。前記方法は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得することと、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得ることと、前記視差情報に基づいて、生体検知結果を得ることとを含む。

第２態様によれば、もう１つの生体検知方法を開示する。前記方法は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得することと、サンプル画像ペアの視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得ることとを含む。

第３態様によれば、もう１つの生体検知方法を開示する。前記方法は、双眼カメラの第１画像センサにより取得された第１画像から、目標対象の第１目標領域画像を取得し、前記双眼カメラの第２画像センサにより取得された第２画像から、前記目標対象の第２目標領域画像を取得することと、前記第１第１目標領域画像及び前記第２目標領域画像を、サンプル画像ペアの視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークに入力して生体検知処理し、生体検知結果を得ることとを含む。

第４態様によれば、生体検知装置を開示する。前記装置は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得するように構成される取得モジュールと、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得るように構成される両眼マッチングモジュールと、前記視差情報に基づいて、生体検知結果を得るように構成される生体検知モジュールとを備える。

第５態様によれば、もう１つの生体検知装置を開示する。前記装置は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得するように構成される取得モジュールと、サンプル画像ペアの視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得るように構成される生体検知モジュールとを備える。

第６態様によれば、生体検知装置を開示する。前記装置は、プロセッサとメモリとを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記プロセッサは、前記コンピュータプログラムコードを呼び出して、上記第１、第２又は第３態様あるいは第１、第２又は第３態様の任意の可能な実現形態における方法を実行するように構成される。

第７態様によれば、コンピュータ可読記憶媒体を開示する。前記コンピュータ可読記憶媒体には、コンピュータ可読命令が記憶されており、前記命令がプロセッサにより呼び出される時、前記プロセッサは、上記第１態様又は第１態様の任意の可能な実現形態における方法を実行する。

第８態様によれば、コンピュータプログラム製品を開示する。前記コンピュータプログラム製品は、コンピュータ命令を含み、前記コンピュータ命令の呼出しにより、コンピュータ装置は、上記第１態様又は第１態様の任意の可能な実現形態における方法を実行するようになる。

本出願の実施例において、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得し、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得て、前記視差情報に基づいて、生体検知結果を得る。両眼マッチングアルゴリズムで予測された視差情報を生体検知方法に導入することで、生体検知の精度を向上させることができる。

本出願の実施例による生体検知システムアーキテクチャを示す概略図である。本出願の実施例による生体検知方法を示すフローチャートである。本出願の実施例による目標検知を示す概略図である。本出願の実施例によるクロスモーダル特徴抽出を示すフローチャートである。本出願の実施例によるクロスモーダル特徴抽出を示すもう１つのフローチャートである。本出願の実施例による両眼マッチングニューラルネットワークを示す概略図である。本出願の実施例による生体検知方法を示すもう１つのフローチャートである。本出願の実施例による生体検知方法を示すもう１つのフローチャートである。本出願の実施例による生体検知方法を示すもう１つのフローチャートである。本出願の実施例による生体検知方法を示すもう１つのフローチャートである。本出願の実施例による生体検知装置の構造を示す概略図である。本出願の実施例による生体検知装置の構造を示すもう１つの概略図である。本出願の実施例による生体検知装置の構造を示すもう１つの概略図である。本出願の実施例による生体検知装置の構造を示すもう１つの概略図である。

以下、本出願の実施例の図面を参照しながら、本出願の実施例の技術的解決手段を明瞭かつ完全に説明する。勿論、説明される実施例は、本出願の一部の実施例に過ぎず、全ての実施例ではない。本出願の実施例に基づいて、当業者は創造的な労働を経ることなく獲得したすべてのほかの実施例はいずれも本出願の保護範囲に属する。

本出願の明細書に用いた用語は、単に特定の実施例を説明するために用いられたものであり、本出願を限定しようとする意図はないこともまた理解されるべきである。

本出願の明細書及び添付の特許請求の範囲で用いられる用語「及び／又は」は、列挙された関連項目のうちの１つ又は複数の任意の組み合わせ及び全ての考えられる組み合わせを指すものであって、またこれらの組み合わせを含むことが更に理解されるべきである。

具体的な実現において、本出願の実施例で説明される技術的解決手段は、携帯電話、デスクトップコンピュータ、ラップトップコンピュータ、ウェアラブル機器などのような、画像処理機能を持つ端末装置、サーバ又は他のタイプの電子機器により実現することができ、ここで限定しない。理解の便宜上、以下、生体検知方法の実行主体を生体検知装置と称する。

本出願の実施例は、生体検知方法を提供する。前記方法は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得することと、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得ることと、前記視差情報に基づいて、生体検知結果を得ることとを含む。

本出願の実施例は、対応する生体検知装置及びコンピュータ可読記憶媒体を更に提供する。以下、それぞれ詳しく説明する。

本出願の実施例による技術的解決手段の適用システム例のアーキテクチャを示す概略図である図１を参照されたい。図１に示すように、生体検知システムは、１つ又は複数のサーバと、複数の端末装置を備えてもよく、ここで、
サーバと端末装置は、インターネットを経由して通信することができる。具体的には、端末装置にクロスモーダルの双眼カメラが設けられている。端末装置は、双眼カメラにより、画像ペア又はビデオシーケンスを取得し、取得された画像ペア又はビデオシーケンスからフレーム選択により得られた画像ペアをサーバに送信する。又は、画像ペアに対して、特徴抽出などのような更なる処理を行い、処理結果をサーバに送信する。サーバは、端末装置からの画像ペア又は画像ペアの処理結果を受信してから、受信された情報に基づいて生体検知を行い、生体検知結果又は生体検知結果に基づいて得られた操作命令を端末装置に送信することができる。

サーバは、バックエンドサーバ、コンポーネントサーバ、生体検知システムサーバ又は生体検知ソフトウェアサーバ等を含んでもよいが、これらに限定されない。サーバは、生体検知結果を端末に送信する。端末装置は、関連するクライアント（Ｃｌｉｅｎｔ）（例えば、生体検知クライアントなど）をインストールして実行することができる。クライアント（Ｃｌｉｅｎｔ）とは、サーバに対応して、ユーザのためにローカルサービスを提供するためのプログラムを指す。ここで、該ローカルサービスは、画像アップロード、データ取得インタフェース及び生体検知結果表示インタフェースの提供などを含んでもよいが、これらに限定されない。

例えば、クライアントは、ローカルで実行されるアプリケーションプログラム、ウエブブラウザで実行される機能（ＷｅｂＡｐｐとも呼ばれる）等を含んでもよい。クライアントに対して、サーバにおいては、対応するクロスモーダル画像処理、クロスモーダル画像特徴抽出、クロスモーダル両眼マッチング、クロスモーダル両眼マッチングに基づいた生体検知などのような１つ又は複数の機能を提供するためのサーバ側プログラムが実行される必要がある。

本出願の実施例における端末装置は、スマートオペレーティングシステムに基づいたいかなる電子製品を含んでもよいが、これに限定されない。スマートフォン、タブレット、パソコンなどのような端末装置は、キーボード、仮想キーボード、タッチパネル、タッチスクリーン及び音響制御装置などの入力装置により、ユーザとヒューマンマシンインタラクションを行うことができる。ここで、スマートオペレーティングシステムは、アンドロイド（Ａｎｄｒｏｉｄ）、ｉＯＳ^ＴＭ、ＷｉｎｄｏｗｓＰｈｏｎｅ等のような、様々なモバイルアプリケーションを携帯装置に提供することで装置の機能を豊かにする如何なるオペレーティングシステムを含むが、これらに限定されない。

なお、本出願の実施例を適用した生体検知システムのアーキテクチャは、図１に示す例に限定されない。

以下、図２を参照しながら、本出願の実施例が提供する生体検知方法を説明する。

本出願の実施例が提供する生体検知方法は、様々な端末装置に適用可能である。前記端末装置は、防犯のための防犯装置、チケット認証のためのチケット認証装置、支払のための支払装置、入退室管理のための入退室管理装置などを含んでもよい。

例えば、無人セキュリティー検査ゲートに防犯装置を設け、本出願の実施例が提供する生体検知方法により、通過権限を有する者をセキュリティー検査ゲートに通過させ、権限を有しない者が権限を有する者の写真を持ってセキュリティー検査ゲートを通過するというケースを低減させる。

また、例えば、顔認証などの方式でチケット認証を行う場合、生体検知により、不正乗車のケースを低減させる。

支払時に、携帯電話又はＰＯＳ端末は、生体検知により、第三者による不正使用のケースを低減させることができる。

別の幾つかの実施例において、本出願の実施例が提供する生体検知方法は、サーバにも適用可能である。該サーバは、クラウドプラットフォーム又はアプリケーションプラットフォームにおけるサーバであってもよい。例えば、双眼カメラは、第１画像及び第２画像を取得してから、サーバに伝送する。サーバは、本出願の実施例が提供する生体検知方法を実行して生体検知結果を得てから、該生体検知結果を端末装置に返送する。従って、端末装置において、該生体検知結果を所定の操作実行のための検証結果とすることができる。例えば、防犯装置は、サーバからの生体検知結果を受信してから、生体検知結果により示された生体検証に合格したかに基づいて、チケット認証操作、支払操作及び／又は入退室管理操作などを行う。

Ｓ１００において、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得する。

双眼カメラは、第１画像センサ及び第２画像センサである２つのカメラを備える。ここで、幾つかの実施例において、第１画像センサ及び第２画像センサは、同一タイプのセンサであってもよい。つまり、第１画像センサ及び第２画像センサは、同一モーダルの画像センサであり、双眼カメラは、同一モーダルの双眼カメラである。幾つかの実施例において、第１画像センサ及び第２画像センサは、タイプの異なる画像センサであってもよい。つまり、第１画像センサ及び第２画像センサは、クロスモーダルな画像センサであり、双眼カメラは、クロスモーダルな双眼カメラであり、本出願の実施例はこれを限定するものではない。クロスモーダルな前記第１画像センサ及び前記第２画像センサは、画像生成の原理又はメカニズムが異なるものであってもよい。例えば、第１画像センサは、可視光に基づいて画像を形成できる可視光画像センサであってもよい。第２画像センサは、赤外画像センサ及び紫外画像センサのような非可視光画像センサであってもよい。モーダルの異なる第１画像センサ及び第２画像センサは、異なるレベルの特徴を取得することで、生体検証のためのより多くの特徴を提供することができる。

１つの可能な実現形態において、双眼カメラにおける第１画像センサ及び第２画像センサに対して予めキャリブレーションすることができる。双眼カメラキャリブレーション方法は、従来のカメラキャリブレーション方法、能動的視覚カメラキャリブレーション方法、カメラセルフキャリブレーション方法などであってもよく、ここで、キャリブレーションの具体的な実現形態を限定しない。

１つの可能な実現形態において、第１画像センサ及び前記第２画像センサは、可視光センサ、近赤外センサ、デュアルチャネルセンサのうちの１つを含んでもよい。ここで、可視光画像センサは、可視光を物体に照射することで画像を形成する画像センサである。近赤外センサは、近赤外線を物体に照射することで画像を形成する画像センサである。デュアルチャネル画像センサは、デュアルチャネル（Ｒチャネルを含む）結像原理を利用して画像を形成する画像センサである。双眼カメラにおける２つの画像センサは、同一タイプの画像センサであってもよいし、タイプの異なる画像センサであってもよい。例えば、双眼カメラＡの２つの画像センサはそれぞれ近赤外画像センサ及びデュアルチャネル画像センサである。また、例えば、双眼カメラＢの２つの画像センサはそれぞれ可視光画像センサ及び近赤外画像センサである。また、例えば、双眼カメラＣの２つのカメラはそれぞれ可視光画像センサ及びデュアルチャネル画像センサである。本出願の実施例における画像センサは、他のタイプの画像センサであってもよい。実際の適用の需要に応じて、双眼カメラにおける２つの画像センサのタイプを選択することができる。本出願の実施例は、これを限定するものではない。

本出願の実施例において、第１画像及び第２画像は、双眼カメラにより取得されたものである。ここで、第１画像センサ及び第２画像センサにより、一対の静止画像を撮ることができる。第１画像センサ及び第２画像センサにより、連続したビデオストリームを撮り、撮られたビデオストリームから一対又は複数対の画像フレームを選択することもできる。なお、第１画像及び第２画像は、静止画像又はビデオフレーム画像であってもよく、本出願の実施例はこれを限定するものではない。

幾つかの実施例において、第１画像と第２画像はそれぞれ左ビューと右ビューである。又は、第１画像と第２画像はそれぞれ右ビューと左ビューである。又は、第１画像と第２画像は、双眼カメラにより取得された他のタイプの画像である。本出願の実施例は、これを限定するものではない。

本出願の実施例において、Ｓ１００は、複数の可能な実現形態を含んでもよい。例えば、生体検知装置に双眼カメラが設けられており、生体検知装置は、双眼カメラにより画像取得を行う。双眼カメラにより画像取得を行うことで、第１画像及び第２画像を含む画像ペアを得る。又は、画像取得によりビデオシーケンスを得ることもできる。この場合、ビデオシーケンスに対してフレーム選択操作を行う、第１画像及び第２画像を含む画像ペアを得ることができる。本出願の実施例は、これを限定するものではない。

別の幾つかの可能な実現形態において、生体検知装置は、画像ライブラリに記憶されている第１画像及び第２画像を取得する。ここで、画像ライブラリは、生体検知装置又は他の装置に設けられてもよく、本出願の実施例は、これを限定するものではない。

別の幾つかの実施例において、生体検知装置は、他の装置からの第１画像及び第２画像を受信する。一例において、生体検知装置は、双眼カメラが設けられた端末装置からの第１画像及び第２画像を受信する。ここで、幾つかの実施例において、端末装置は、第１画像及び第２画像を含む画像ペアを生体検知装置（例えば、サーバ）に送信するか又は第１画像及び第２画像を含むビデオシーケンスを送信することができる。この場合、生体検知装置は、受信したビデオシーケンスに対してフレーム選択を行うことで、第１画像及び第２画像を含む画像ペアを得る。又は、端末装置は、第１画像の特徴データ及び第２画像の特徴データを生体検知装置に送信する。それに対応して、生体検知装置は、端末装置からの第１画像の特徴データ及び第２画像の特徴データを受信し、受信した特徴データに基づいて生体検知を行う。ここで、幾つかの実施例において、端末からの情報を生体検知要求、俯瞰図生成要求又は他のタイプのメッセージで搬送してもよく、本出願の実施例は、これを限定するものではない。

Ｓ２００において、前記第１画像及び前記第２画像に基づいて、前記第１画像と前記第２画像の視差情報を得る。

前記視差情報は、前記第１画像と前記第２画像の取得視角差異を示す情報を含んでもよいが、これに限定されない。

幾つかの実施例において、前記第１画像及び前記第２画像に対してそれぞれ特徴抽出を行い、第１特徴データ及び第２特徴データを得て、前記第１特徴データ及び前記第２特徴データに基づいて、前記第１画像と前記第２画像の視差情報を得る。

幾つかの実施例において、第１画像から第１目標領域画像を取得し、第２画像から第２目標領域画像を取得してから、第１目標領域画像及び第２目標領域画像に基づいて、第１画像と第２画像の視差情報を得る。

幾つかの実施例において、第１画像及び第２画像に対して特徴抽出を直接的に行うことができる。例えば、第１画像及び第２画像をニューラルネットワークに入力して特徴抽出処理することができる。別の幾つかの実施例において、第１画像及び第２画像のうちの一部に対して特徴抽出を行うこともできる。例えば、第１画像及び第２画像からそれぞれ第１目標領域画像及び第２目標領域画像を取得し、第１目標領域画像及び第２目標領域画像に対して特徴抽出を行うこともできる。一例において、第１目標領域画像及び第２目標領域画像をニューラルネットワークに入力して特徴抽出し、上記第１特徴データ及び第２特徴データを得る。本出願の実施例は、これを限定するものではない。

本出願の実施例において、複数の方式で目標領域画像を取得することができる。幾つかの実施例において、第１画像に対して目標検知を行い、第１目標領域を得て、第１目標領域に基づいて、第２画像から、第１目標領域画像を切り出す。電子機器は、画像認識などの技術を利用して、第１画像において目標対象を検知することができる。第１画像をニューラルネットワークに入力して目標対象検知を行うこともできる。本出願の実施例は、これを限定するものではない。

本出願の実施例による目標検知の一例を示す概略図である図３を参照されたい。ここで、目標対象を顔とする。図３に示すように、第１画像及び第２画像に対してそれぞれ目標検知を行ってから、第１目標領域及び第２目標領域である図３に示した矩形枠を得る。続いて、第１画像から、第１目標領域の画像を切り出し、第１目標領域画像を得て、第２画像から第２目標領域の画像を切り出し、第２目標領域画像を得る。

別の一例において、第１画像に対して目標対象の検知を行うことで、目標対象の所在する第１領域を得てから、第１領域を所定の倍率拡大し、第１目標領域を得て、第１画像から、第１目標領域の画像を切り出す。

別の幾つかの選択可能な例において、第１画像に対してキーポイント検出を行い、目標対象の第１キーポイント情報を得て、目標対象の第１キーポイント情報に基づいて、第１画像から、第１目標領域画像を切り出すことができる。

別の幾つかの選択可能な例において、前記第１画像に対して目標検知を行い、前記目標対象の第１候補領域を得て、前記第１候補領域の画像に対してキーポイント検出を行い、目標対象の第１キーポイント情報を得て、前記目標対象の第１キーポイント情報に基づいて、前記第１画像から、前記第１目標領域画像を切り出す。

幾つかの実施例において、目標対象の第１キーポイント情報に基づいて、目標対象の第１画像に所在する第１目標領域を得て、第１目標領域に基づいて画像の切り出しを行うことができる。

幾つかの実施例において、該第１キーポイント情報は、目標対象の複数のキーポイントの位置などの情報を含んでもよい。目標対象の第１キーポイント情報に基づいて、前記目標対象を含む領域である第１目標領域を得ることができる。ここで、該第１目標領域は、矩形又は顔輪郭に類似した楕円形であってもよい。幾つかの例において、第１目標領域は、完全な目標対象を含む最小領域であるか、又は目標対象を含む最小領域に基づいて得られたものである。例えば、第１目標領域は、完全な顔を含む最小矩形を拡大させることで得られたものである。本出願の実施例は、これを限定するものではない。キーポイント情報によれば、目標対象の所在する領域のより正確な位置を得て、生体検知の精度を向上させることができる。

幾つかの実施例において、第２画像に対して類似した処理を行うこともできる。簡潔化のために、ここで詳細な説明を省略する。

本出願の実施例において、目標対象は、顔、道路、自動車、歩行者、動物などのような様々なタイプの物体又は物体の一部を含んでもよく、本出願の実施例は、これを限定するものではない。

本出願の実施例において、目標領域画像は、画像における目標対象の所在する領域の画像である。幾つかの実施例において、目標対象は顔である。それに対応して、第１目標領域画像及び第２目標領域画像は、顔領域画像であるが、本出願の実施例は、これに限定されない。

幾つかの実施例において、第１目標領域画像及び第２目標領域画像は同じサイズを持つ。例えば、サイズが同じである矩形枠を利用して、第１画像及び第２画像に対してそれぞれ画像の切り出しを行うが、本出願の実施例は、これを限定するものではない。

一例において、目標対象を顔とする。第１画像に対して顔検知を行い、顔領域の矩形枠座標のような顔領域位置を得る。続いて、上記顔検知により得られた顔領域の画像に対して顔キーポイント検出を行い、顔の複数のキーポイントの画像における位置情報を得る。例えば、１０６個のキーポイントの座標を得る。顔の複数のキーポイントの位置情報に基づいて顔領域分割を行う。つまり、画像における顔キーポイント座標を利用して、画像における、顔を含む最小矩形を決定し、該矩形顔領域を最終の顔領域とする。幾つかの実施例において、２枚の画像において、サイズが同じである２つの顔画像を切り出すことができる。

別の幾つかの実施例において、生体検知装置は、他の装置から第１目標領域及び第２目標領域画像を取得し、第１目標領域画像及び第２目標領域画像に基づいて、視差情報を得る。

本出願の実施例に用いられる特徴抽出アルゴリズムは、スケール不変特徴変換、スピードアップされたロバストな特徴、勾配方向ヒストグラム、ガウシアン差分などであってもよい。それに対応して、抽出された特徴データは、ローカルバイナリパターン特徴、スパースコーディングヒストグラム特徴、色特徴、領域特徴、細部特徴などのうちの１つ又は複数を含んでもよく、ここで、特徴抽出の具体的な実現について限定しない。

幾つかの実施例において、様々な特徴抽出アルゴリズムを利用して第１目標領域画像及び第２目標領域画像を特徴抽出処理することができる。例えば、スケール不変特徴変換を利用して前記第１目標領域画像を特徴抽出すると、スピードアップされたロバストな特徴、勾配方向ヒストグラム、ガウシアン差分などのような他の特徴抽出アルゴリズムを選択して前記第２目標領域画像を特徴抽出する。

幾つかの実施例において、第１目標領域画像及び／又は第２目標領域画像を前処理し、第１目標領域画像及び第２目標領域画像に一致した分布を持たせ、続いて、同じ特徴抽出アルゴリズムを利用して第１目標領域画像及び第２目標領域画像を特徴抽出処理することもできる。本出願の実施例は、これを限定するものではない。

幾つかの実施例において、畳み込みニューラルネットワーク、再帰型ニューラルネットワークなどのようなトレーニングされた両眼マッチングニューラルネットワークにより、第１目標領域画像及び第２目標領域画像に対してそれぞれ特徴抽出を行う。本出願の実施例は、ニューラルネットワークのタイプ及び具体的な実現形態を限定するものではない。本出願の実施例が提供するニューラルネットワークの一例において、ニューラルネットワークは、入力層、隠れ層及び出力層を含み、ここで、隠れ層は、ｎ層であってもよく、ｎは、１よりも大きい正整数である。隠れ層における数層は、活性化値は、抽出された特徴を表すことができる。

幾つかの実施例において、両眼マッチングニューラルネットワークにおける異なるサブネットワークをそれぞれ利用して第１目標領域画像及び第２目標領域画像に対して特徴抽出処理を行う。図４に示す例において、両眼マッチングニューラルネットワークにおける第１特徴抽出サブネットワークを利用して前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記両眼マッチングニューラルネットワークにおける第２特徴抽出サブネットワークを利用して前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得る。第１特徴抽出サブネットワークと第２特徴抽出サブネットワークが重みを共有しないため、第１特徴抽出サブネットワーク及び第２特徴抽出サブネットワークは、トレーニング過程において対応するモーダルの画像の特徴をそれぞれ学習する。重みを共有するニューラルネットワークにより第１目標領域画像及び第２目標領域画像を特徴抽出することに比べて、抽出された特徴が画像セマンティックを正しく表して、画像処理性能を向上させるのに寄与する。

幾つかの実施例において、第１特徴抽出サブネットワークと第２特徴抽出サブネットワークは同じ構造を有するが、異なるネットワークパラメータを有してもよい。例えば、第１特徴抽出サブネットワークと第２特徴抽出サブネットワークは、同じネットワークハイパーパラメータを有する。例えば、含まれるネットワーク層数及びネットワーク層の構造が同じであるが、１つ又は複数のネットワーク層のパラメータが異なる。幾つかの実施例において、第１特徴抽出サブネットワークと第２特徴抽出サブネットワークは、異なる構造を有してもよい。例えば、含まれるネットワーク層の構造及び／又はネットワーク層数が異なる。本出願の実施例は、これを限定するものではない。

幾つかの実施例において、第１特徴抽出サブネットワーク及び第２特徴抽出サブネットワークがそれぞれ第１目標領域画像及び第２目標領域画像を同じ特徴空間にマッピングするようにするために、両眼マッチングニューラルネットワークのトレーニング過程において、特徴調整損失を導入することで、２つの画像における画素点にマッチングした特徴データを類似させ、例えば、特徴ベクトルを類似させる。例えば、左ビューをＮＩＲ図、右ビューをＲＧＢ図とする。注釈情報システム又は予測した視差に基づいて右ビューの特徴を左視角に変換し、距離Ｌ１のような、変換された特徴と左ビュー特徴との距離に基づいて、特徴調整損失を得るという方式で、特徴調整損失を決定することができるが、本出願の実施例は、これに限定されない。

幾つかの実施例において、同一の特徴抽出ネットワークを利用して第１目標領域画像及び第２目標領域画像を特徴抽出する。例えば、図５における例に示すように、前記第１目標領域画像及び前記第２目標領域画像に対して、それぞれ正規化処理を行い、正規化処理後の第１目標領域画像及び正規化処理後の第２目標領域画像に一致した分布を持たせる。続いて、両眼マッチングニューラルネットワークにおける特徴抽出サブネットワークを利用して、正規化処理後の前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記特徴抽出サブネットワークを利用して、正規化処理後の前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得る。

幾つかの実施例において、上記正規化処理は、インスタンス正規化（ｉｎｓｔａｎｃｅｎｏｒｍ，ＩＮ）又はバッチ正規化により実現し、正規化処理後の第１目標領域画像及び第２目標領域画像の分布をできる限り一致させる。一例において、第１目標領域画像及び第２目標領域画像に対して下記正規化処理を行うことができる。

Ｙ_ｎｃｗｈ＝（ｘ_ｎｃｗｈ−μ_ｎｃｗｈ）／√（σ_ｎｃｗｈ ^２）（１）
ただし、ｘ_ｎｃｗｈは、入力画像を表し、Ｙ_ｎｃｗｈは、正規化処理後の入力画像を表し、ｎは、一括して入力された画像の数を表し、ｃは、画像のチャネル数を表し、例えば、ＲＧＢ画像のチャネル数は、３である。ｗ、ｈはそれぞれ画像の幅と高さを表し、μ_ｎｃｗｈは、入力画像の平均値を表し、σ_ｎｃｗｈ ^２は、入力画像の標準偏差を表す。従って、上記正規化処理を行ってから、重みを共有する特徴抽出サブネットワーク（即ち、同一の特徴抽出サブネットワーク）を利用して第１目標領域画像及び第２目標領域画像に対して特徴抽出を行うことで、ネットワークの複雑さを低下させることができる。

本出願の実施例において、ニューラルネットワークは、ディープニューラルネットワーク（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ：ＤＮＮ）、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）、再帰型ニューラルネットワーク（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ，ＲＮＮ）等を含んでもよく、本出願の実施例は、ここで枚挙しない。

また、ニューラルネットワークは、生体検知装置をローカルでトレーニングすることで得られたものであってもよく、画像処理装置により呼び出された、第三者によりトレーニングされたネットワークモデルなどであってよく、ここで限定しないことに留意されたいあ。

上記において第１目標領域画像及び第２目標領域画像をそれぞれ特徴抽出し、第１特徴データ及び第２特徴データを得ることを例として説明し、幾つかの実施例において、類似した方式を利用して第１画像及び第２画像をそれぞれ特徴抽出し、第１特徴データ及び第２特徴データを得ることもできるが、簡潔化のために、ここで詳細な説明を省略することが理解されるべきである。

幾つかの実施例において、第１特徴データ及び第２特徴データを得てから、前記第１特徴データと前記第２特徴データとのマッチングコスト（ｃｏｓｔｖｏｌｕｍｅ）を決定し、前記マッチングコストに基づいて、前記視差情報を得る。

第１目標領域画像と第２目標領域画像は対応する画像である。両眼マッチングを行う２枚の画像の被写体又は景物が同じであるが、該２枚の画像は、２つのクロスモーダルなカメラにより撮られたものである。従って、２枚の画像から抽出された特徴はいずれも同一の物体又は景物を表すものである。第１特徴データ及び第２特徴データに基づいてマッチング演算を行い、視差を得る。

幾つかの実施例において、各視差程度の計算の関連図によりマッチングコストを構築する。

幾つかの実施例において、第１画像と第２画像との視差は、Ｎ個の可能な値を有すると仮定する。該Ｎ個の可能な値のうちの各可能な値に基づいてマッチングコストを決定し、得られたマッチングコストのうちの最小値に対応する視差値を視差情報とすることができる。

本出願の実施例において、他の方式でマッチングコストを決定することもでき、本出願の実施例は、これを限定するものではない。

マッチングコストを得てから、複数の方式で視差情報を決定することができる。幾つかの実施例において、前記マッチングコストに対して特徴抽出処理を行い、第３特徴データを得て、前記第３特徴データに基づいて、前記視差情報を得る。

可能な実現形態において、前記マッチングコストを視差予測ニューラルネットワークに入力して処理し、視差情報を得る。

幾つかの実施例において、マッチングコスト、第１特徴データ及び第２特徴データのうちの少なくとも１つに基づいて視差情報を決定する。

幾つかの実施例において、第１画像センサは、近赤外カメラ又はデュアルチャネルカメラであり、それに対応して、マッチングコスト及び前記第１特徴データに基づいて、視差情報を決定する。

幾つかの実施例において、マッチングコスト、第１特徴データ及び第２特徴データのうちの少なくとも１つに対してフュージョン処理を行い、フュージョンデータを得て、フュージョンデータに基づいて、視差情報を決定する。ここで、フュージョン処理は、チャネル接続又は他の方式によるフュージョンであってもよく、本出願の実施例はこれを限定するものではない。

幾つかの実施例において、マッチングコスト、第１特徴データ及び第２特徴データのうちの少なくとも１つを視差予測ネットワークに入力して処理し、視差情報を得る。

幾つかの実施例において、フュージョンデータを視差予測ネットワークに入力して処理し、視差情報を得る。

幾つかの実施例において、前記マッチングコストに基づいて得られたｋ−１段目のフュージョン特徴データに対して特徴抽出を行い、ｋ段目の特徴データを得る。ここで、前記ｋ−１段目のフュージョン特徴データは、前記マッチングコストに基づいて得られた１段目の特徴データからｋ−１段目の特徴データまでに対してフュージョン処理を行うことで得られたものである。ｋは、１より大きい整数である。前記マッチングコストに基づいて得られた１段目の特徴データから前記ｋ段目の特徴データまでに対してフュージョン処理を行い、ｋ段目のフュージョン特徴データを得る。前記ｋ段目のフュージョン特徴データに基づいて、第３特徴データを得る。

幾つかの実施例において、１段目の特徴データは、マッチングコストを特徴抽出することで得られたものである。又はフュージョンデータに対してマッチング処理することで得られたものである。又は、マッチングコストを特徴抽出することで得られた特徴データと、第１特徴データ及び第２特徴データのうちの少なくとも１つを特徴抽出することで得られた特徴データとに対してフュージョン処理を行うことで得られたものである。本出願の実施例はこれを限定するものではない。

２段目の特徴データは、１段目の特徴データを特徴抽出することで得られたものである。３段目の特徴データは、２段目のフュージョン特徴データを特徴抽出することで得られたものである。ここで、２段目のフュージョン特徴データは、１段目の特徴データと２段目の特徴データに対してフュージョン処理を行うことで得られたものである。このように類推すると、ｋ段目の特徴データは、ｋ−１段目のフュージョン特徴データを特徴抽出することで得られたものである。ここで、ｋ−１段目のフュージョン特徴データは、１段目の特徴データ、……、ｋ−１段目の特徴データに対してフュージョン処理を行うことで得られたものである。

本出願の実施例による両眼マッチングニューラルネットワークを示す概略図である図６を参照されたい。ここで、図６に示す例において、左ビューを近赤外画像とし、右ビューをＲＧＢ等のようなタイプのカラー画像とし、該両眼マッチングニューラルネットワークへの入力を左ビュー及び右ビューである第１画像及び第２画像とする。ここで、Ｉｒは、右ビューを表し、例えば、オリジナルの右ビュー又は前処理された右ビューを表す。Ｉｌは、左ビューを表し、即ち、オリジナルの左ビュー又は前処理された左ビューを表す。ここで、該前処理は、サイズ調整、輝度調整、回転、補正処理などのうちの１つ又は複数の含んでもよく、本出願の実施例は、これを限定するものではない。

図６に示すように、該両眼マッチングニューラルネットワークは、特徴抽出部（又は、エンコーダと呼ばれる）、マッチングコスト演算部、積重改良部及び視差回帰部という４つの部分を備え、特徴抽出部は、２つの特徴抽出サブネットワークＦＬとＦＲを含み、それぞれ左ビューと右ビューに対して特徴抽出を行い、左ビュー特徴データ及び右ビュー特徴データを得る。ここで、ＦＬとＦＲは、異なる重みを有する。

続いて、左ビュー特徴データ及び右ビュー特徴データに基づいて、マッチングコストを得て、マッチングコストと左ビュー特徴データを連結し、連結特徴を得て、連結特徴に基づいて、初期特徴マップＣ０を得る。ここで、図６に示す例において、４つの畳み込み層により順に連結特徴を処理し、Ｃ０を得るが、本出願の実施例は、これを限定するものではない。

Ｃ０を積重改良ネットワークに入力して処理し、特徴マップＣ１、Ｃ２及びＣ３を得る。各段階に対して、全ての低レベルの特徴マップを連結してからＵ１、２、３ネットワークに入力して処理する。幾つかの実施例において、Ｕ１、２、３ネットワークは、深さ２のＵＮｅｔネットワークであってもよい。入力特徴をまず１／４の大きさまでにコーディングしてから、アップサンプリングし、オリジナルサイズを有する特徴マップを得る。ここで、コーディング特徴マップと逆畳み込み特徴マップを連結することで、アップサンプリング特徴マップを得ることができるが、本出願の実施例は、これを限定するものではない。

最後に、Ｃ３を視差回帰サブネットワークに入力して予測視差を得る。

ニューラルネットワークのトレーニング段階において、Ｃ１、Ｃ２及びＣ３はそれぞれ予測視差

、

及び

を得て、予測視差

、

及び

に基づいて視差回帰損失を得るためのものである。

幾つかの実施例において、視差回帰損失及び特徴調整損失に基づいて、ネットワーク損失を得て、ネットワーク損失に基づいて、両眼マッチングニューラルネットワークのネットワークパラメータを調整することができる。ここで、幾つかの実施例において、視差回帰損失と特徴調整損失は、異なる重みを有してもよいが、本出願の実施例はこれを限定するものではない。

上記例は、当業者に本出願の実施例の技術的解決手段をより好適に理解させるためのものであり、本出願の実施例が提供する技術的解決手段を限定するものではないことが理解されるべきである。

Ｓ３００において、前記視差情報に基づいて、生体検知結果を得る。

幾つかの例において、実際に生体検知を行う過程において、視差情報に基づいて、生体検知結果を得る。別の幾つかの例において、生体検知方法は、ニューラルネットワークにより実現する。この場合、サンプル画像ペアの視差情報に基づいて、ニューラルネットワークをトレーニングし、トレーニング後のニューラルネットワークを利用して生体検知を行い、生体検知結果を得ることができるが、本出願の実施例は、これを限定するものではない。

幾つかの実施例において、前記第１目標領域画像、前記第２目標領域画像及び前記視差情報に基づいて、生体検知結果を得る。例えば、第１目標領域画像、第２目標領域画像及び視差情報を生体検知ニューラルネットワークに入力して処理し、生体検知結果を得る。又は、他の生体検知アルゴリズムに基づいて、第１目標領域画像、第２目標領域画像及び視差情報を処理し、生体検知結果を得る。

幾つかの実施例において、前記視差情報に対して特徴抽出を行い、第３生体特徴データを得て、前記第３生体特徴データに基づいて、生体検知結果を得る。

幾つかの実施例において、前記第３生体特徴データ及び前記第１目標領域画像から抽出された第１生体特徴データ及び／又は前記第２目標領域画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第１フュージョン特徴データを得て、前記第１フュージョン特徴データに基づいて、生体検知結果を得る。

幾つかの実施例において、第１生体特徴データ及び／又は第２生体特徴データと第３生体特徴データを連結することができる。幾つかの実施例において、第１生体特徴データ及び／又は第２生体特徴データと第３生体特徴データをチャネルごとに重畳し、第１フュージョン特徴データを得ることができる。又は、第１生体特徴データ及び／又は第２生体特徴データと第３生体特徴データが同じ次元数を有するため、第１生体特徴データ及び／又は第２生体特徴データと第３生体特徴データを要素ごとに加算することで、第１フュージョン特徴データを得ることもできるが、本出願の実施例は、フュージョン処理方式を限定するものではない。

幾つかの実施例において、前記第１目標領域画像及び前記第２目標領域画像に対してそれぞれ特徴抽出を行い、第１生体特徴データ及び第２生体特徴データを得て、前記第３生体特徴データ、前記第１生体特徴データ及び前記第２生体特徴データに対してフュージョン処理を行い、第１フュージョン特徴データを得る。

幾つかの実施例において、第１目標領域画像、第２目標領域画像及び視差情報を、３つの並列したネットワーク分岐を備える生体検知ニューラルネットワークに入力する。生体検知ニューラルネットワークは、入力された第１目標領域画像、第２目標領域画像及び視差情報に対してそれぞれ特徴抽出処理を行い、生体特徴データを得て、３つの分岐により得られた生体特徴データを連結し、フュージョン特徴データを得て、続いて、分類器により、フュージョン特徴データを処理することで、生体検知結果を得る。

幾つかの実施例において、生体検知ニューラルネットワークは、第１目標領域画像、第２目標領域画像及び視差情報には偽造情報が含まれるかをそれぞれ検出する。三者のうちのいずれか１つに偽造情報が含まれると、第１画像及び第２画像の画像が生体検知に合格していないと判定する。三者にいずれも偽造情報が含まれないと、第１画像及び第２画像の画像が生体検知に合格したと判定する。従って、第１目標領域画像、第２目標領域画像及び視差情報により生体検知を行い、生体検知ニューラルネットワークが取得できる顔情報をより豊かにし、生体検知精度をより高くすることができる。

幾つかの実施例において、上記第１生体特徴データ及び第２生体特徴データは、それぞれ第１画像及び第２画像を特徴抽出することで得られたものであり、その実現形態は、上記説明と類似しており、簡潔化のために、ここで、詳細な説明を省略する。

別の幾つかの実施例において、前記視差情報を教師データとして、体検知ニューラルネットワークをトレーニングし、トレーニング後の生体検知ニューラルネットワークを利用して生体検知を行い、生体検知結果を得る。

幾つかの例において、前記生体検知ニューラルネットワークにより第１目標領域画像及び第２目標領域画像をそれぞれ特徴抽出し、第１生体特徴データ及び第２生体特徴データを得て、抽出された第１生体特徴データ及び第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得て、前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定し、前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整するという方式方式で、生体検知ニューラルネットワークをトレーニングすることができる。

幾つかの実施例において、生体検知ニューラルネットワークにおける特徴抽出サブネットワークにより第１目標領域画像及び第２目標領域画像をそれぞれ特徴抽出する。例えば、生体検知ニューラルネットワークにおける第１畳み込みニューラルネットワークモジュールにより、第１目標領域画像に対して特徴抽出を行いて第１特徴マップを得る。生体検知ニューラルネットワークにおける第２畳み込みニューラルネットワークモジュールにより、第２目標領域画像に対して特徴抽出を行いて第２特徴マップを得て、第１特徴マップと第２特徴マップに対してフュージョン処理を行い、第３特徴マップを得る。第１目標領域画像及び第２目標領域画像を両眼マッチングして視差マップを得て、第３特徴マップ及び視差マップに基づいて、生体検知ニューラルネットワークのネットワーク損失を決定する。前記ネットワーク損失に基づいて、第１畳み込みニューラルネットワークモジュール及び第２畳み込みニューラルネットワークモジュールのうちの少なくとも１つのモジュールのパラメータを調整する。

この場合、第１画像及び第２画像は、トレーニングセットに含まれるサンプル画像ペアにおけるサンプル画像である。トレーニングセットに含まれる複数のサンプル画像ペアにより、生体検知ニューラルネットワークをトレーニングし、トレーニング後の生体検知ニューラルネットワークを得る。ここで、トレーニング後の生体検知ニューラルネットワークとトレーニング前の生体検知ニューラルネットワークは、同じネットワークアーキテクチャ、異なるネットワークパラメータを有してもよいし、又はそれらのネットワークアーキテクチャが調整されたものであってもよく、本出願の実施例はこれを限定するものではない。

幾つかの実施例において、第１画像、第２画像及び視差情報に基づいて、生体検知ニューラルネットワークをトレーニングすることもできる。その具体的な実現形態は、第１目標領域画像、第２目標領域画像及び視差情報に基づいた生体検知ニューラルネットワークのトレーニングに関する上記説明を参照することができ、簡潔化のために、ここで詳細な説明を省略する。

幾つかの実施例において、上記方式により、生体検知ニューラルネットワークをトレーニングしてから、トレーニング後の生体検知ニューラルネットワークにより、検知対象画像ペアに含まれる第３画像及び第４画像に対してそれぞれ特徴抽出を行い、抽出された特徴データに対してフュージョン処理を行い、第２フュージョン特徴データを得て、前記トレーニング後の生体検知ニューラルネットワークにより、前記第２フュージョン特徴データを処理し、生体検知結果を得る。

幾つかの実施例において、前記トレーニング後の生体検知ニューラルネットワークにより、検知対象画像ペアに対応する第３目標領域画像及び第４目標領域画像をそれぞれ特徴抽出し、抽出された特徴データに対してフュージョン処理を行い、第２フュージョン特徴データを得て、前記トレーニングして得られた生体検知ニューラルネットワークにより、前記第２フュージョン特徴データを処理し、生体検知結果を得る。

ここで、第３目標領域及び第４目標領域画像は、検知対象画像ペアに含まれる第３画像及び第４画像から取得されたものであり、具体的な処理過程は、上記説明を参照することができ、簡潔化のために、ここで詳細な説明を省略する。

幾つかの実施例において、第１画像、第２画像及び上記視差情報に基づいて、生体検知結果を得る。ここで、幾つかの実施例において、同じである２枚の画像に基づいてそれぞれ両眼マッチング及び生体検知を行うことができる。例えば、第１画像及び第２画像に基づいて、それぞれ両眼マッチング及び生体検知を行う。また、例えば、第１目標領域画像及び第２目標領域画像に基づいて、それぞれ両眼マッチング及び生体検知を行うが、本出願の実施例は、これを限定するものではない。

幾つかの実施例において、生体検知ニューラルネットワークは、上記両眼マッチングニューラルネットワークと類似した二分岐モデルにより左右の２枚の画像の特徴マップを抽出するが、本出願の実施例はこれを限定するものではない。

本出願の実施例において、視差を教師信号として生体検知ニューラルネットワークに供給し、視差により、生体検知ニューラルネットワークにより抽出された特徴データを監督し、抽出された特徴データに視差情報を学習させ、生体検知ニューラルネットワークの生体検知精度を向上させる。生体検知ニューラルネットワークの適用過程において、視差情報の取得を必要としないため、生体ネットワーク精度を向上させると共に、元のネットワーク構造の大きさを増加させることがなく、生体検知効率を低下させることもない。

該実施形態において、Ｓ１００、Ｓ２００は、開発者又はメーカーにより実行されるが、生体検知ニューラルネットワークをトレーニングするために、開発者又はメーカーは、開発又は生産過程においてＳ３００を実行してもよく、ここで限定しないことに留意されたい。

幾つかの実施例において、生体検知結果を得てから、提示情報を出力することもできる。例えば、生体検知結果が生体検知に合格したことであると判定すると、生体検知に合格したことを示す提示情報を出力する。生体検知結果が生体検知に合格していないと判定すると、処理された画像ペアの数が所定の数の閾値に達するか又は生体検知を行う合計時間が所定の時間閾値に達するまで、他の画像ペアに対して生体検知を実行し続ける。この場合、生体検知に合格した画像ペアが検出されていないと、生体検知に合格していないことを示す提示情報を出力する。幾つかの実施例において、出力される提示情報は、文字、振動、音声アナウンス又は予め設定されたアラート音、又は画像であってもよい。例えば、生体検知に合格していない場合、「ピッ」というアラート音を三回出し、生体検知に合格した場合、「ピッ」というアラート音を一回出し、ここで限定しない。

本出願の実施例による生体検知方法を示すもう１つのフローチャートである図７を参照すると、第１目標領域及び第２目標領域を得てから、下記ステップを更に含む。

Ｓ４００において、前記第１画像における第１目標領域と前記第２画像における第２目標領域が一致するかを判定する。

ここで、目標領域は、第１画像又は第２画像に対して、目標検知及び／又はキーポイント検出を行うことで得られたものであってもよく、本出願の実施例は、これを限定するものではない。

Ｓ４０１において、前記第１目標領域と前記第２目標領域が一致していると判定する場合、第１目標領域に基づいて、前記第１画像から第１目標領域画像を切り出し、第２目標領域に基づいて、前記第２画像から第２目標領域画像を切り出す。

幾つかの実施例において、双眼カメラの撮像範囲内に複数の被写体が含まれる場合、第１画像及び第２画像に複数の被写体の画像が同時に含まれてもよい。第１画像及び第２画像に対して目標検知を行う場合、第１画像において被写体Ａが検出され、つまり、第１目標領域が被写体Ａの所在する画像領域であり、第２画像において被写体Ｂが検出され、つまり、第２ターゲットが被写体Ｂの所在する画像領域であることがある。上記第１目標領域及び第２目標領域に基づいて後続の生体検知ステップを行うと、正確な生体検知結果を得ることができない。

第１目標領域及び第２目標領域の一致性を検出することで、第１目標領域と第２目標領域が同一の被写体ではないという状況を排除することができる。画像認識技術を利用して、第１目標領域の画像及び第２目標領域の画像における特徴をそれぞれ抽出し、抽出された２つの特徴を比較し、第１目標領域と第２目標領域の一致性を検出することができる。第１目標領域の画像及び第２目標領域の画像を所定のデータと比較することで、第１目標領域と第２目標領域の一致性を検出することもできる。ここで限定しない。

本出願の実施例において、第１目標領域と第２目標領域の一致性を判定することで、目標対象の生体検知結果の正確性を確保することができる。

Ｓ２０１において、前記第１目標領域画像及び前記第２目標領域画像に基づいて、前記第１画像と前記第２画像の視差情報を得る。

本出願の実施例による生体検知方法を示すもう１つのフローチャートである図８を参照されたい。

Ｓ５００において、前記第１目標領域と前記第２目標領域が一致しないと判定する場合、前記第１目標領域に基づいて、補正処理後の前記第２目標領域を得る。

Ｓ５０１において、前記第１目標領域に基づいて、前記第１画像から第１目標領域画像を切り出し、補正処理後の前記第２目標領域に基づいて、前記第２画像から第２目標領域画像を切り出す。

第１目標領域と第２目標領域が一致しないと、後続の目標対象の生体検知結果が正確でないという課題を引き起こす可能性がある。前記第１目標領域と前記第２目標領域が一致しない時、第１目標領域に基づいて、補正処理後の第２目標領域を得ることができる。補正処理後の第２目標領域は、第１目標領域と一致する。例えば、第１目標領域における目標対象に基づいて、第２画像に対して、目標対象検知及び／又はキーポイント検出を再び行い、第２目標領域を得ることができる。

幾つかの実施例において、補正処理後の前記第２目標領域は第１目標領域と一致する。前記第１目標領域及び補正処理後の前記第２目標領域に基づいて、より正確な視差情報及び生体検知結果を得ることができる。

幾つかの実施例において、前記生体検知方法において、前記第１目標領域に基づいて、補正処理後の前記第２目標領域を得ることは、前記第２画像において前記第１目標領域の対応領域を決定し、前記対応領域を前記補正処理後の前記第２目標領域と判定する。

幾つかの実施例において、第１画像センサ及び第２画像センサのパラメータに基づいて、第２目標領域を補正するか、又は他の方式に基づいて第２目標領域を補正することができ、本出願の実施例は、これを限定するものではない。

幾つかの実施例において、前記方法は、前記第１画像及び前記第２画像を含む画像ペアがフレーム選択要件を満たすかを判定することと、前記第１画像及び前記第２画像を含む画像ペアがフレーム選択要件を満たしていると判定する場合、第１画像及び第２画像に対して、上記生体検知プロセスを実行することとを更に含む。

幾つかの実施例において、第１画像及び第２画像に対してそれぞれフレーム選択要件を判定し、第１画像及び第２画像の判定結果に基づいて、前記第１画像及び前記第２画像を含む画像ペアの判定結果を決定することができる。別の幾つかの実施例において、第１画像又は第２画像のみに対して、フレーム選択要件を判定し、第１画像又は第２画像の判定結果に基づいて、前記第１画像及び前記第２画像を含む画像ペアの判定結果を決定することもでき、本出願の実施例は、これを限定するものではない。

幾つかの実施例において、前記フレーム選択要件は、
第１画像及び／又は第２画像においていずれも前記目標対象が検出されたという要件、第１画像において検出された目標対象が前記第１画像の設定領域に位置し、及び／又は前記第２画像において検出された目標対象が前記第２画像の設定領域に位置するという要件、前記第１画像及び／又は前記第２画像において検出された目標対象の完全度が所定の要件を満たしているという要件、前記第１画像において検出された目標対象が前記第１画像において占める割合が割合閾値より大きく、及び／又は前記第２画像において検出された目標対象が前記第２画像において占める割合が前記割合閾値より大きいという要件、第１画像及び／又は第２画像の解像度が解像度閾値より大きいという要件、第１画像及び／又は第２画像の
露出が露出閾値より大きいという要件のうちの１つ又は任意の組み合わせを含む。

幾つかの実施例において、他の要因に基づいてフレーム選択を行うこともでき、本出願の実施例はこれを限定するものではない。

幾つかの実施例において、前記方法は、前記第１画像及び前記第２画像を含む画像ペアがフレーム選択要件を満たしない場合、ビデオストリームにおける次の画像がフレーム選択要件を満たすかを判定することと、所定の期間を経過したか又は画像ペアが所定の数になり、且つ前記ビデオストリームにおいてフレーム選択要件を満たしている画像ペアを見つけていない場合、前記ビデオストリームを偽造ビデオストリームと判定することとを更に含む。

幾つかの実施例において、フレーム選択操作により、ビデオストリームから、少なくとも一対の画像を検知対象画像として選択する。該検知対象画像は、双眼カメラにより同時にとられた一対の高品質の画像であることが望ましい。また、該少なくとも一対の検知対象画像に偽造情報が存在するかを検出する。ここで、画像の品質は、ターゲットの完全性、顔の向き、解像度、光線の輝度などの１つ又は複数の要因により評価される。所定のルールに応じて、検知対象ビデオ全体から、指標が最良となる一対又は複数対の画像を選択するか、又は、様々なインタラクションモジュールからそれぞれ一対又は複数対の画像を選択する。本出願の実施例はこれを限定するものではない。

一例として、本出願の実施例による生体検知方法を示すもう１つのフローチャートである図９を参照されたい。クロスモーダルの双眼カメラにより撮られた画像を取得してから、左右の２枚の画像においてそれぞれ顔領域を検知し、少なくとも１枚の画像において顔が検出されていないと、引き続きフレーム選択して顔検知を実行する。限定された期間を経過しても左右の２枚の画像において同時に顔領域が検出されていないと、偽造顔と直接判定するか、又は、「検知にタイムアウトした」という文字を出力する。顔領域を同時に検出した場合、クロスモーダル両眼マッチングに基づいた上記生体検知プロセスを引き続き行う。

幾つかの実施例において、前記方法は、前記第１画像及び前記第２画像のうちの少なくとも１つの画像を前処理し、前処理された第１画像及び第２画像に対して上記生体検知プロセスを実行することを更に含む。

幾つかの実施例において、前記前処理は、画像タイプ調整、サイズ調整、ｚスコア正規化処理、輝度調整のうちの1つ又は任意の組み合わせを含むか、又は、他の処理を含む。

幾つかの実施例において、第１画像のタイプと第２画像のタイプが異なると、入力インタフェースファイルタイプをピクチャタイプファイルに統一することができる。

本出願の実施例による生体検知方法を示すもう１つのフローチャートである図１０を参照すると、図１０に示すように、前記生体検知方法は、下記ステップを含む。

Ｓ１００において、具体的には、上記Ｓ１００における説明と同じであり、ここで詳細な説明を省略する。

Ｓ６００において、サンプル画像ペアの視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得る。

可能な実現形態において、前記第１画像及び前記第２画像を生体検知ニューラルネットワークに入力して生体検知結果を得ることは、前記生体検知ニューラルネットワークにより、前記第１画像から、目標対象の第１目標領域画像を取得し、前記第２画像から、前記目標対象の第２目標領域画像を取得することと、前記第１目標領域画像及び前記第２目標領域画像に基づいて、前記生体検知ニューラルネットワークにより生体検知結果を得ることとを含む。

可能な実現形態において、生体検知ニューラルネットワークにより前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得ることは、前記第１画像から、目標対象の第１目標領域画像を取得し、前記第２画像から、前記目標対象の第２目標領域画像を取得することと、前記第１目標領域画像及び前記第２目標領域画像を生体検知ニューラルネットワークに入力して生体検知処理し、生体検知結果を得ることとを含む。

本出願の実施例において、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得し、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得て、前記視差情報に基づいて、生体検知結果を得る。両眼マッチングアルゴリズムで予測された視差情報を生体検知方法に導入することで、生体検知の精度を向上させることができる。生体検知は、顔画像に偽造情報が含まれるかを検知することで、検知された目標対象が偽顔であるかを判定する。トレーニング後の生体検知ニューラルネットワークは、視差情報に含まれる偽造情報を学習し、生体検知の精度を向上させることができる。

本出願の実施例の上記技術的解決手段をより好適に実施するために、本出願は、生体検知装置を更に提供する。以下、図面を参照しながら、詳しく説明する。

本出願の実施例による生体検知装置の構造を示す概略図である図１１に示すように、生体検知装置は、取得モジュール１００と、両眼マッチングモジュール２００と、生体検知モジュール３００とを備えてもよく、取得モジュール１００は、双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得するように構成され、両眼マッチングモジュール２００は、前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得るように構成され、生体検知モジュール３００は、前記視差情報に基づいて、生体検知結果を得るように構成される。

本出願の実施例による生体検知装置の構造を示す概略図である図１２に示すように、生体検知装置は、一致性判定モジュール４００と、補正処理モジュール５００とを更に備えてもよく、一致性判定モジュール４００は、前記第１目標領域と前記第２目標領域が一致するかを判定するように構成され、補正処理モジュール５００は、前記第１目標領域と前記第２目標領域が一致しないと判定する場合、前記第１目標領域に基づいて、補正処理後の前記第２目標領域を得るように構成される。幾つかの実施例において、取得モジュール１００は、前記第１画像に対して目標検知を行い、前記目標対象に対応する第１候補領域画像を得るように構成される第１目標検知モジュール１１１と、前記第１候補領域画像に対してキーポイント検出を行い、第１キーポイント情報を得るように構成される第１キーポイント検出モジュール１１２と、前記第１キーポイント情報に基づいて、前記第１画像から、前記目標対象の第１目標領域画像を切り出すように構成される第１画像切り出しモジュール１１３とを備えてもよい。

幾つかの実施例において、取得モジュール１００は、前記第２画像に対して目標検知を行い、前記目標対象に対応する第２候補領域画像を得るように構成される第２目標検知モジュール１２１と、前記第２候補領域画像に対してキーポイント検出を行い、第２キーポイント情報を得るように構成される第２キーポイント検出モジュール１２２と、前記第２キーポイント情報に基づいて、前記第２画像から、前記目標対象の第２目標領域画像を切り出すように構成される第２画像切り出しモジュール１２３とを備えてもよい。

幾つかの実施例において、両眼マッチングモジュール２００は、前記第１目標領域画像に対して特徴抽出処理を行い、第１特徴データを得て、前記第２目標領域画像に対して特徴抽出処理を行い、第２特徴データを得るように構成される特徴抽出モジュール２０１と、前記第１特徴データ及び前記第２特徴データに基づいて、前記視差情報を得るように構成される視差予測モジュール２０２とを備える。

特徴抽出モジュール２０１は、両眼マッチングニューラルネットワークにおける第１特徴抽出サブネットワークを利用して前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記両眼マッチングニューラルネットワークにおける第２特徴抽出サブネットワークを利用して前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得るように構成される第１特徴抽出サブモジュール２１１を備えてもよい。

幾つかの実施例において、特徴抽出モジュール２０１は、前記第１目標領域画像及び前記第２目標領域画像をそれぞれ正規化処理し、正規化処理後の前記第１目標領域画像及び正規化処理後の前記第２目標領域画像に一致した分布を持たせるように構成される正規化モジュール２２１と、両眼マッチングニューラルネットワークにおける特徴抽出サブネットワークを利用して、正規化処理後の前記第１画像に対して特徴抽出を行い、第１特徴データを得て、前記特徴抽出サブネットワークを利用して、正規化処理後の前記第２画像に対して特徴抽出を行い、第２特徴データを得るように構成される第２特徴抽出サブモジュール２２２とを備えてもよい。

幾つかの実施例において、生体検知モジュール３００は、前記第１画像から取得された第１目標領域画像、前記第２画像から取得された第２目標領域画像及び前記視差情報に基づいて、生体検知結果を得るように構成される生体検知サブモジュール３０１を備える。

生体検知サブモジュール３０１は、前記視差情報に対して特徴抽出を行い、第３生体特徴データを得るように構成される第１特徴抽出モジュール３１１と、前記第１目標領域画像から抽出された第１生体特徴データ、前記第２目標領域画像から抽出された第２生体特徴データ及び前記第３生体特徴データに対してフュージョン処理を行い、第１フュージョン特徴データを得るように構成される第１特徴フュージョンモジュール３１２と、前記第１フュージョン特徴データに基づいて、生体検知結果を得るように構成される第１生体検知サブモジュール３１３とを備えてもよい。

幾つかの実施例において、生体検知サブモジュール３０１は、前記視差情報を教師データとして、生体検知ニューラルネットワークをトレーニングするように構成されるトレーニングモジュール３２１と、トレーニング後の前記生体検知ニューラルネットワークを利用して生体検知を行い、生体検知結果を得るように構成される第２生体検知サブモジュール３２２とを備えてもよい。

第２生体検知サブモジュール３２２は、前記トレーニング後の前記生体検知ニューラルネットワークにより、検知対象画像ペアに含まれる第３画像及び第４画像に対してそれぞれ特徴抽出を行い、抽出された特徴データに対してフュージョン処理を行い、第２フュージョン特徴データを得るように構成される第２特徴フュージョンモジュール３２２１と、前記トレーニング後の前記生体検知ニューラルネットワークにより、前記第２フュージョン特徴データを処理し、生体検知結果を得るように構成される第３生体検知サブモジュール３２２２とを備えてもよい。

幾つかの実施例において、トレーニングモジュール３２１は、前記生体検知ニューラルネットワークにより、前記第１目標領域画像から抽出された第１生体特徴データ及び前記第２目標領域画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得るように構成される第３特徴フュージョンモジュール３２１１と、前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定するように構成されるネットワーク損失決定モジュール３２１２と、前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整するように構成されるネットワーク調整モジュール３２１３とを備えてもよい。

本出願の実施例による生体検知装置の構造を示す概略図である図１３に示すように、生体検知装置は、取得モジュール１００と生体検知モジュール６００とを更に備えてもよく、
生体検知モジュール６００は、サンプル画像ペアから得られた視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得るように構成される。

前記生体検知モジュール６００は、顔画像である前記第１画像及び前記第２画像を生体検知ニューラルネットワークに入力して生体検知処理し、生体検知結果を得るように構成される。

前記装置は、
前記第１画像から目標対象の第１目標領域画像を取得し、前記第２画像から前記目標対象の第２目標領域画像を取得するように構成される両眼マッチングモジュールとを更に備え、
前記生体検知モジュール６００は、前記第１目標領域画像及び前記第２目標領域画像を前記生体検知ニューラルネットワークに入力して生体検知処理し、生体検知結果を得るように構成される。

前記装置は、
前記生体検知ニューラルネットワークにより、前記第１画像から抽出された第１生体特徴データ及び前記第２画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得るように構成される第３特徴フュージョンモジュールと、
前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定するように構成されるネットワーク損失決定モジュールとを更に備え、
生体検知モジュール６００は、前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整するように構成される。本出願の実施例における生体検知装置１０は、上記図２から図１０に示した実施例における生体検知装置であり、該生体検知装置１０における各ユニットの機能は、上記各方法の実施例における図２から図１０に示した実施例の具体的な実現形態を参照することができ、ここで詳細な説明を省略する。

本出願の実施例による生体検知装置の構造を示す概略図である図１４に示すように、生体検知装置１１０は、プロセッサ１１０１と、入力ユニット１１０２と、出力ユニット１１０３と、メモリ１１０４と、通信ユニット１１０５、バス１１０６と、画像取得器１１０７とを備えてもよい。プロセッサ１１０１、入力ユニット１１０２、出力ユニット１１０３、メモリ１１０４及び通信ユニット１１０５は、バス１１０６を介して相互接続することができる。画像取得器１１０７は、ユーザインタフェースモジュールに接続される。メモリ１１０４は、高速ＲＡＭメモリであってもよいし、不揮発性メモリ（ｎｏｎ−ｖｏｌａｔｉｌｅｍｅｍｏｒｙ）であってもよく、例えば、少なくとも１つの磁気ディスクメモリである。メモリ１１０４は、任意選択的に、前記プロセッサ１１０１から離れる少なくとも１つの記憶システムであってもよい。メモリ１１０４は、オペレーティングシステム、ネットワーク通信モジュール、ユーザインタフェースモジュール及び生体検知プログラムを含むアプリケーションプログラムコードを記憶するためのものである。通信ユニット１１０５は、外部ユニットと情報インタラクションを行うためのものである。画像取得器１１０７により取得された画像は、メモリ１１０４におけるユーザインタフェースにより、メモリ１１０４にアップロードされる。プロセッサ１１０１は、前記プログラムコードを呼び出して、下記ステップを実行するように構成される。

画像取得器１１０７により取得された画像をメモリ１１０４におけるユーザインタフェースモジュールによりメモリ１１０４にアップロードする。プロセッサ１１０１は更に、バス１１０６により、該画像を取得する。前記画像は、双眼撮像装置の第１カメラにより取得された第１画像及び第２カメラにより取得された第２画像を含み、前記第１カメラによる捕捉可能な光波長は、前記第２カメラによる捕捉可能な光波長と異なる。前記双眼撮像装置は、画像取得器１１０７に属することに留意されたい。

プロセッサ１１０１により、前記第１画像に対して特徴抽出を行いて第１特徴を得て、前記第２画像に対して特徴抽出を行いて第２特徴を得る。

プロセッサ１１０１により、前記第１特徴及び前記第２特徴を両眼マッチングして視差情報を得る。

プロセッサ１１０１により、前記第１目標領域画像、前記第２目標領域画像及び前記視差情報を共同で生体検知方法の入力として生体検知を行い、生体検知判定結果を得る。

出力ユニット１１０３により、生体検知判定結果を出力する。

本出願の実施例における生体検知装置１１０は、上記図２から図１０に示した実施例における生体検知装置であり、具体的には、上記各方法の実施例における図２から図１０に示した実施例の具体的な実現形態を参照することができ、ここで、詳細な説明を省略する。

以下、具体的な例を参照しながら、本出願の実施例が提供する生体検知方法を詳しく説明する。

一例において、取得された顔を含むピクチャ又はビデオは、クロスモーダルの双眼カメラにより取得される。クロスモーダルの双眼カメラは、１つの可視光カメラと１つの赤外カメラとを備える。ここで、双眼カメラにおける赤外カメラは、スクリーンから複製した顔画像情報特徴を取得できず、後続の検知プロセスにおいて、偽造情報による干渉を直接的に防止することができる。該双眼カメラを利用して複数枚の画像を現場で撮る。取得された画像ペアに含まれる画像のファイルタイプが異なると、同じタイプの画像に変換する。ビデオに対して、フレーム選択操作により、一対又は複数対の画像フレームを得てから、フレーム選択により得られた画像を記憶して次の操作に向けて待機させる。フレーム選択操作は、ビデオから少なくとも一対の画像（一対の画像には２つの画像が含まれる）を検知対象画像として選択するために用いられる。該検知対象画像は、双眼カメラにより同時に撮られた２つの画像であり、且つ画像品質は、品質要件を満たす。例えば、選択された画像の解像度は、解像度閾値に達する。任意選択的に、画像品質は、双眼カメラにより撮られた２枚の画像における顔が完全に画像に含まれるかという要件のような画像における目標対象が完全であるかという要件、画像解像度が高いという要件などのうちの１つ又は複数の要件により評価される。上記選択操作によれば、所定の検知方式で、顔の向き、解像度、光線の輝度などの指標を自動的に検知し、所定のルールに従って、検知対象ビデオ全体から、指標が最も好ましい一対又は複数対の画像を選択するか又は様々なインタラクションモジュールからそれぞれ一対又は複数対の画像を選択することができる。

該例において、フレーム選択操作により得られた画像に対して、
顔検知を行い、クロスモーダルの双眼カメラにより取得された左右の２枚の画像からそれぞれ顔領域位置を検出し、顔領域の矩形枠の座標を返送し、少なくとも１枚の画像において顔が検出されていない場合、引き続きフレーム選択を行って顔検知を実行し、限定された期間を経過しても左右の２枚の画像において同時に顔領域が検出されていないと、偽造顔と直接判定するか、又は、検知にタイムアウトしたという提示を出力し、顔領域を同時に検出した場合、後続のプロセスを引き続き実行するという操作、
顔キーポイント検出を行い、上記顔検知で取得された左右の２枚の顔画像からそれぞれ顔の１０６個のキーポイントの座標を抽出するという操作、
顔領域分割を行い、左右の２組の顔キーポイントの座標を利用して、左右の２つの顔を含む最小矩形を決定し、該矩形顔領域を最終の顔領域とし、左右の２枚の画像において位置が同じであってサイズが同じである２つの顔画像を切り出すという操作、
切り出されたサイズが同じである２枚の画像を生体検知するという操作のうちの少なくとも１つを実行することもできる。

以下、具体的な例を参照しながら、生体検知プロセスを詳しく説明する。

取得された２枚の顔領域画像を検知の入力として、それぞれＩ１、Ｉ２と表記する。入力画像の視差Ｄを取得する。ＤとＩ１、Ｉ２を組み合わせて双眼生体検知を行う。ここで、組み合わせ形態は、直接的組み合わせと間接的組み合わせという２つの形態である。

直接的組み合わせ形態において、視差Ｄを生体検知ネットワークの１つの単独分岐又は単独チャネルとして生体検知ネットワークに入力する。従って、異なる顔情報を含む３枚の画像を共同で深度ニューラルネットワークに入力して生体検知を行う。例えば、生体検知ニューラルネットワークを３つの分岐に分け、左、右、視差顔領域に対してそれぞれ特徴をモデリングし、各部分の特徴をそれぞれ抽出してから、３つの特徴ベクトルを連結し、連結された特徴ベクトルを同一の偽造防止検知判別機に入力し、視差情報と組み合わせられた、２枚の画像の特徴に偽造情報が存在するかを示す結果を得る。三者のうちのいずれか１つにおいて偽造情報が検出された場合、検知対象画像に偽造情報が含まれると判定し、顔偽造防止検知に合格していないことを示す結果を出力する。そうでなければ、顔偽造防止検知に合格したことを示す結果を出力する。

間接的組み合わせ形態において、視差Ｄをトレーニング過程における教師信号として生体検知ネットワークに提供する。視差Ｄにより、生体ネットワークにより抽出された顔特徴を監督し、抽出された顔特徴データに、視差Ｄに含まれる顔視差情報を強制的に学習させる。視差情報を含む特徴を利用して、生体検知判定を行い、生体検知精度を向上させる。例えば、二分岐モデルにより左右の２枚の画像の特徴マップを抽出し、該２つの特徴マップを連結してから、両眼マッチングにより得られた視差マップＤを教師信号として入力すると共に、該教師信号の特徴を学習する。該特徴マップに対して、大量のデータのトレーニングにより、左右の顔画像及び視差マップをフュージョンした特徴を得て、該特徴マップを偽造防止検知判別機に入力し、偽造情報が存在するかを示す結果を得る。生体検知ネットワークの適用プロセスにおいて、別途で視差を入力する必要がなく、２枚の顔領域画像を入力することができ、生体検知ネットワークの精度を向上させると共に、元のネットワークの構造の大きさを増加させることがなく、ネットワークの実行時間を増加させることもない。

上記実施例の方法における全て又は一部のプロセスを、コンピュータプログラムにより関連ハードウェアを命令することで完了でき、前記プログラムは、コンピュータ可読記憶媒体に記憶されてよく、該プログラムが実行される時、上記各方法の実施例のプロセスを含んでもよいことが当業者であれば理解できる。ここで、前記記憶媒体は、ＵＳＢメモリ、磁気ディスク、光ディスク、読み出し専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ：ＲＯＭ）又はランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ＲＡＭ）等であってもよい。

本出願は、、システム、方法及び／又はコンピュータプログラム製品であってもよい。コンピュータプログラム製品は、コンピュータ可読記憶媒体を備えてもよく、プロセッサに本出願の各態様を実現させるためのコンピュータ可読プログラム命令がそれに記憶されている。

コンピュータ可読記憶媒体は、命令実行装置に用いられる命令を保持又は記憶することができる有形装置であってもよい。コンピュータ可読記憶媒体は、例えば、電気記憶装置、磁気記憶装置、光記憶装置、電磁記憶装置、半導体記憶装置又は上記の任意の組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例（非網羅的なリスト）は、ポータブルコンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、ポータブルコンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、デジタル多目的ディスク（ＤＶＤ）、メモリスティック、フレキシブルディスク、命令が記憶されているパンチカード又は凹溝内における突起構造のような機械的符号化装置、及び上記任意の適切な組み合わせを含む。ここで用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を通って伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、または、電線を通して伝送される電気信号などの、一時的な信号それ自体であると解釈されるべきではない。

ここで説明されるコンピュータ可読プログラム命令を、コンピュータ可読記憶媒体から各コンピューティング／処理装置にダウンロードすることができるか、又は、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又は無線ネットワークのようなネットワークを経由して外部コンピュータ又は外部記憶装置にダウンロードすることができる。ネットワークは、伝送用銅線ケーブル、光ファイバー伝送、無線伝送、ルータ、ファイアウォール、交換機、ゲートウェイコンピュータ及び／又はエッジサーバを含んでもよい。各コンピューティング／処理装置におけるネットワークインターフェースカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、該コンピュータ可読プログラム命令を転送し、各コンピューティング／処理装置におけるコンピュータ可読記憶媒体に記憶する。

本出願の操作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は１つ又は複数のプログラミング言語で記述されたソースコード又はターゲットコードであってもよい。前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向プログラミング言語と、「Ｃ」プログラミング言語又は類似したプログラミング言語などの従来の手続型プログラミング言語とを含む。コンピュータ可読プログラム命令は、ユーザコンピュータ上で完全に実行してもよいし、ユーザコンピュータ上で部分的に実行してもよいし、独立したソフトウェアパッケージとして実行してもよいし、ユーザコンピュータ上で部分的に実行してリモートコンピュータ上で部分的に実行してもよいし、又はリモートコンピュータ又はサーバ上で完全に実行してもよい。リモートコンピュータの場合に、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）やワイドエリアネットワーク（ＷＡＮ）を含む任意の種類のネットワークを通じてユーザのコンピュータに接続するか、または、外部のコンピュータに接続することができる（例えばインターネットサービスプロバイダを用いてインターネットを通じて接続する）。幾つかの実施例において、コンピュータ可読プログラム命令の状態情報を利用して、プログラマブル論理回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）又はプログラマブル論理アレイ（ＰＬＡ）のような電子回路をカスタマイズする。該電子回路は、コンピュータ可読プログラム命令を実行することで、本出願の各態様を実現させることができる。

ここで、本出願の実施例の方法、装置（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しながら、本出願の各態様を説明する。フローチャート及び／又はブロック図の各ブロック及びフローチャート及び／又はブロック図における各ブロックの組み合わせは、いずれもコンピュータ可読プログラム命令により実現できる。

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータまたはその他プログラマブルデータ処理装置のプロセッサに提供でき、それによって機器を生み出し、これら命令はコンピュータまたはその他プログラマブルデータ処理装置のプロセッサにより実行される時、フローチャート及び/又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現する装置を生み出した。これらのコンピュータ可読プログラム命令をコンピュータ可読記憶媒体に記憶してもよい。これらの命令によれば、コンピュータ、プログラマブルデータ処理装置及び／又は他の装置は特定の方式で動作する。従って、命令が記憶されているコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図おける１つ又は複数のブロック中で規定している機能/操作を実現する各態様の命令を含む製品を備える。

コンピュータ可読プログラム命令をコンピュータ、他のプログラマブルデータ処理装置又は他の装置にロードしてもよい。これにより、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で一連の操作の工程を実行して、コンピュータで実施されるプロセスを生成する。従って、コンピュータ、他のプログラマブルデータ処理装置又は他の装置で実行される命令により、フローチャート及び／又はブロック図における１つ又は複数のブロック中で規定している機能/操作を実現させる。

図面におけるフローチャート及びブック図は、本出願の複数の実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なアーキテクチャ、機能および操作を例示するものである。この点で、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を表すことができる。前記モジュール、、プログラムセグメント又は命令の一部は、１つまたは複数の所定の論理機能を実現するための実行可能な命令を含む。いくつかの取り替えとしての実現中に、ブロックに表記される機能は図面中に表記される順序と異なる順序で発生することができる。例えば、二つの連続するブロックは実際には基本的に並行して実行でき、場合によっては反対の順序で実行することもでき、これは関係する機能から確定する。ブロック図及び／又はフローチャートにおける各ブロック、及びブロック図及び／又はフローチャートにおけるブロックの組み合わせは、所定の機能又は操作を実行するための専用ハードウェアベースシステムにより実現するか、又は専用ハードウェアとコンピュータ命令の組み合わせにより実現することができる。

以上に開示されたものは本出願の好適な実施例に過ぎず、当然ながら、本出願の権利範囲を限定するものではなく、従って、これらに基づいた等価変形は、依然として本出願の保護範囲に含まれる。

Claims

生体検知方法であって、
双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得することと、
前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得ることと、
前記視差情報に基づいて、生体検知結果を得ることとを含む、
生体検知方法。
前記第１画像と前記第２画像は、異なるモーダルを有することを含むことを特徴とする
請求項１に記載の方法。
前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得ることは、
前記第１画像から目標対象の第１目標領域画像を取得し、前記第２画像から前記目標対象の第２目標領域画像を取得することと、
前記第１目標領域画像及び前記第２目標領域画像に基づいて、前記第１画像と前記第２画像の視差情報を得ることとを含むことを特徴とする
請求項１又は２に記載の方法。
前記第１画像から目標対象の第１目標領域画像を取得することは、
前記第１画像に対してキーポイント検出を行い、前記目標対象の第１キーポイント情報を得ることと、
前記目標対象の第１キーポイント情報に基づいて、前記第１画像から前記目標対象の第１目標領域画像を切り出すこととを含むことを特徴とする
請求項３に記載の方法。
前記第１目標領域画像及び前記第２目標領域画像に基づいて、前記第１画像と前記第２画像の視差情報を得ることは、
前記第１目標領域画像に対して特徴抽出処理を行い、第１特徴データを得て、前記第２目標領域画像に対して特徴抽出処理を行い、第２特徴データを得ることと、
前記第１特徴データ及び前記第２特徴データに基づいて、前記視差情報を得ることとを含むことを特徴とする
請求項３−４のいずれか一項に記載の方法。
前記第１目標領域画像に対して特徴抽出処理を行い、第１特徴データを得て、前記第２目標領域画像に対して特徴抽出処理を行い、第２特徴データを得ることは、
両眼マッチングニューラルネットワークにおける第１特徴抽出サブネットワークを利用して、前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記両眼マッチングニューラルネットワークにおける第２特徴抽出サブネットワークを利用して、前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得ることとを含むことを特徴とする
請求項５に記載の方法。
前記第１目標領域画像に対して特徴抽出処理を行い、第１特徴データを得て、前記第２目標領域画像に対して特徴抽出処理を行い、第２特徴データを得ることは、
前記第１目標領域画像及び前記第２目標領域画像に対して、それぞれ正規化処理を行い、正規化処理後の前記第１目標領域画像及び正規化処理後の前記第２目標領域画像に一致した分布を持たせることと、
両眼マッチングニューラルネットワークにおける特徴抽出サブネットワークを利用して、正規化処理後の前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記特徴抽出サブネットワークを利用して、正規化処理後の前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得ることとを含むことを特徴とする
請求項５に記載の方法。
前記視差情報に基づいて、生体検知結果を得ることは、
前記第１画像から取得された第１目標領域画像、前記第２画像から取得された第２目標領域画像及び前記視差情報に基づいて、生体検知結果を得ることを含むことを特徴とする
請求項１−７のいずれか一項に記載の方法。
前記第１画像から取得された第１目標領域画像、前記第２画像から取得された第２目標領域画像及び前記視差情報に基づいて、生体検知結果を得ることは、
前記視差情報に対して特徴抽出を行い、第３生体特徴データを得ることと、
前記第１目標領域画像から抽出された第１生体特徴データ、前記第２目標領域画像から抽出された第２生体特徴データ及び前記第３生体特徴データに対してフュージョン処理を行い、第１フュージョン特徴データを得ることと、
前記第１フュージョン特徴データに基づいて、生体検知結果を得ることとを含むことを特徴とする
請求項８に記載の方法。
前記視差情報に基づいて、生体検知結果を得ることは、
前記視差情報を教師情報として、生体検知ニューラルネットワークをトレーニングすることと、
トレーニング後の前記生体検知ニューラルネットワークを利用して生体検知を行い、生体検知結果を得ることとを含むことを特徴とする
請求項１−７のいずれか一項に記載の方法。
トレーニング後の前記生体検知ニューラルネットワークを利用して生体検知を行い、生体検知結果を得ることは、
前記トレーニング後の前記生体検知ニューラルネットワークにより、検知対象画像ペアに含まれる第３画像及び第４画像に対してそれぞれ特徴抽出を行い、抽出された特徴データに対してフュージョン処理を行い、第２フュージョン特徴データを得ることと、
前記トレーニング後の前記生体検知ニューラルネットワークにより、前記第２フュージョン特徴データを処理し、生体検知結果を得ることとを含むことを特徴とする
請求項１０に記載の方法。
前記視差情報を教師情報として、生体検知ニューラルネットワークをトレーニングすることは、
前記生体検知ニューラルネットワークにより、前記第１目標領域画像から抽出された第１生体特徴データ及び前記第２目標領域画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得ることと、
前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定することと、
前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整することとを含むことを特徴とする
請求項１０又は１１に記載の方法。
前記第１画像センサ又は前記第２画像センサは、可視光センサ、近赤外センサ、デュアルチャネルセンサのうちの１つを含むことを特徴とする
請求項１−１２のいずれか一項に記載の方法。
前記目標対象は顔であることを特徴とする
請求項１−１３のいずれか一項に記載の方法。
生体検知方法であって、
双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得することと、
サンプル画像ペアの視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得ることとを含む、生体検知方法。
生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得ることは、
顔画像である前記第１画像及び前記第２画像を生体検知ニューラルネットワークに入力して生体検知処理を行い、生体検知結果を得ることを含むことを特徴とする
請求項１５に記載の方法。
前記方法は、
前記第１画像から目標対象の第１目標領域画像を取得し、前記第２画像から前記目標対象の第２目標領域画像を取得することを更に含み、
生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得ることは、
前記第１目標領域画像及び前記第２目標領域画像を前記生体検知ニューラルネットワークに入力して生体検知処理を行い、生体検知結果を得ることを含むことを特徴とする
請求項１５に記載の方法。
前記生体検知ニューラルネットワークのトレーニングは、
前記生体検知ニューラルネットワークにより、前記第１画像から抽出された第１生体特徴データ及び前記第２画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得ることと、
前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定することと、
前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整することとを含むことを特徴とする
請求項１６から１７のいずれか一項に記載の方法。
生体検知装置であって、
双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得するように構成される取得モジュールと、
前記第１画像及び前記第２画像に対して両眼マッチング処理を行い、前記第１画像と前記第２画像の視差情報を得るように構成される両眼マッチングモジュールと、
前記視差情報に基づいて、生体検知結果を得るように構成される生体検知モジュールとを備える、生体検知装置。
前記第１画像と前記第２画像は異なるモーダルを有することを特徴とする
請求項１９に記載の装置。
前記両眼マッチングモジュールは、
前記第１画像から目標対象の第１目標領域画像を取得し、前記第２画像から前記目標対象の第２目標領域画像を取得し、
前記第１目標領域画像及び前記第２目標領域画像に基づいて、前記第１画像と前記第２画像の視差情報を得るように構成されることを特徴とする
請求項１９又は２０に記載の装置。
前記取得モジュールは、
前記第１画像に対してキーポイント検出を行い、目標対象の第１キーポイント情報を得るように構成されるキーポイント検出モジュールと、
前記目標対象の第１キーポイント情報に基づいて、前記第１画像から前記目標対象の第１目標領域画像を切り出すように構成される画像切り出しモジュールとを備えることを特徴とする
請求項２１に記載の装置。
前記両眼マッチングモジュールは、
前記第１目標領域画像に対して特徴抽出処理を行い、第１特徴データを得て、前記第２目標領域画像に対して特徴抽出処理を行い、第２特徴データを得るように構成される特徴抽出モジュールと、
前記第１特徴データ及び前記第２特徴データに基づいて、前記視差情報を得るように構成される視差予測モジュールとを備えることを特徴とする
請求項２１−２２のいずれか一項に記載の装置。
前記特徴抽出モジュールは、
両眼マッチングニューラルネットワークにおける第１特徴抽出サブネットワークを利用して、前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記両眼マッチングニューラルネットワークにおける第２特徴抽出サブネットワークを利用して、前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得るように構成されることを特徴とする
請求項２３に記載の装置。
前記特徴抽出モジュールは、
前記第１目標領域画像及び前記第２目標領域画像に対して、それぞれ正規化処理を行い、正規化処理後の前記第１目標領域画像及び正規化処理後の前記第２目標領域画像に一致した分布を持たせ、
両眼マッチングニューラルネットワークにおける特徴抽出サブネットワークを利用して、正規化処理後の前記第１目標領域画像に対して特徴抽出を行い、第１特徴データを得て、前記特徴抽出サブネットワークを利用して、正規化処理後の前記第２目標領域画像に対して特徴抽出を行い、第２特徴データを得るように構成されることを特徴とする
請求項２３に記載の装置。
前記生体検知モジュールは、
前記第１画像から取得された第１目標領域画像、前記第２画像から取得された第２目標領域画像及び前記視差情報に基づいて、生体検知結果を得るように構成される
請求項１９−２５のいずれか一項に記載の装置。
前記生体検知モジュールは、
前記視差情報に対して特徴抽出を行い、第３生体特徴データを得て、
前記第１目標領域画像から抽出された第１生体特徴データ、前記第２目標領域画像から抽出された第２生体特徴データ及び前記第３生体特徴データに対してフュージョン処理を行い、第１フュージョン特徴データを得て、
前記第１フュージョン特徴データに基づいて、生体検知結果を得るように構成されることを特徴とする
請求項２６に記載の装置。
前記生体検知モジュールは、
前記視差情報を教師情報として、生体検知ニューラルネットワークをトレーニングするように構成されるトレーニングモジュールと、
トレーニング後の前記生体検知ニューラルネットワークを利用して生体検知を行い、生体検知結果を得るように構成される生体検知サブモジュールとを備えることを特徴とする
請求項１９−２５のいずれか一項に記載の装置。
前記生体検知サブモジュールは、
前記トレーニング後の前記生体検知ニューラルネットワークにより、検知対象画像ペアに含まれる第３画像及び第４画像に対してそれぞれ特徴抽出を行い、抽出された特徴データに対してフュージョン処理を行い、第２フュージョン特徴データを得て、
前記トレーニング後の前記生体検知ニューラルネットワークにより、前記第２フュージョン特徴データを処理し、生体検知結果を得るように構成されることを特徴とする
請求項２８に記載の装置。
前記トレーニングモジュールは、
前記生体検知ニューラルネットワークにより、前記第１目標領域画像から抽出された第１生体特徴データ及び前記第２目標領域画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得て、
前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定し、
前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整するように構成されることを特徴とする
請求項２８又は２９に記載の装置。
前記第１画像センサ又は前記第２画像センサは、可視光センサ、近赤外センサ、デュアルチャネルセンサのうちの１つを含むことを特徴とする
請求項１９−３０のいずれか一項に記載の装置。
前記目標対象は顔であることを特徴とする
請求項１９−３１のいずれか一項に記載の装置。
生体検知装置であって、
双眼カメラの第１画像センサにより取得された第１画像及び前記双眼カメラの第２画像センサにより取得された第２画像を取得するように構成される取得モジュールと、
サンプル画像ペアの視差情報に基づいてトレーニングして得られた生体検知ニューラルネットワークにより、前記第１画像及び前記第２画像に対して生体検知処理を行い、生体検知結果を得るように構成される生体検知モジュールとを備える、前記装置。
前記生体検知モジュールは、顔画像である前記第１画像及び前記第２画像を生体検知ニューラルネットワークに入力して生体検知処理を行い、生体検知結果を得るように構成されることを特徴とする
請求項３３に記載の装置。
前記取得モジュールは更に、前記第１画像から目標対象の第１目標領域画像を取得し、前記第２画像から前記目標対象の第２目標領域画像を取得するように構成され、
前記生体検知モジュールは、前記第１目標領域画像及び前記第２目標領域画像を前記生体検知ニューラルネットワークに入力して生体検知処理を行い、生体検知結果を得るように構成されることを特徴とする
請求項３４に記載の装置。
前記生体検知ニューラルネットワークのトレーニングは、
前記生体検知ニューラルネットワークにより、前記第１画像から抽出された第１生体特徴データ及び前記第２画像から抽出された第２生体特徴データに対してフュージョン処理を行い、第３フュージョン特徴データを得ることと、
前記第３フュージョン特徴データ及び前記視差情報に基づいて、ネットワーク損失を決定することと、
前記ネットワーク損失に基づいて、前記生体検知ニューラルネットワークのパラメータを調整することとを含むことを特徴とする
請求項３３から３５のいずれか一項に記載の装置。
生体検知装置であって、プロセッサとメモリとを備え、前記メモリは、コンピュータプログラムコードを記憶するように構成され、前記プロセッサは、前記コンピュータプログラムコードを呼び出して、請求項１から１４又は１５から１８のいずれか一項に記載の方法を実行するように構成される、生体検知装置。
コンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体には、コンピュータ可読命令が記憶されており、前記命令がプロセッサにより呼び出される時、前記プロセッサは、請求項１から１４又は１５から１８のいずれか一項に記載の方法を実行する、コンピュータ可読記憶媒体。
コンピュータプログラムであって、前記コンピュータプログラムがコンピュータにより実行されると、請求項１から１４又は１５から１８のいずれか一項に記載の生体検知方法を実行する、コンピュータプログラム。