JP2022535639A

JP2022535639A - 性能パラメータ決定方法および装置、電子機器、記憶媒体、並びにプログラム製品

Info

Publication number: JP2022535639A
Application number: JP2021550069A
Authority: JP
Inventors: 元瀚 ▲張▼; 榛菲尹; 国君殷; ▲チン▼ 邵
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-05-09
Filing date: 2020-11-20
Publication date: 2022-08-10
Also published as: US20220270352A1; WO2021227426A1; CN111582381A; CN111582381B

Abstract

本発明は、性能パラメータ決定方法および装置、電子機器、記憶媒体、並びにプログラム製品に関する。前記方法は、複数の顔画像が含まれた第１データセットを取得すること、前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得すること、複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定すること、を含む。【選択図】図1

Description

＜関連出願の相互参照＞
本出願は、２０２０年５月９日に提出された、出願番号が「２０２０１０３８８２５２.１」、発明の名称が「性能パラメータ決定方法および装置、電子機器、並びに記憶媒体」である中国特許出願の優先権を主張し、その全文を援用により本明細書に組み込むものとする。
本発明は、コンピュータビジョン技術分野に関し、特に性能パラメータ決定方法および装置、電子機器、記憶媒体、並びにプログラム製品に関する。

コンピュータビジョン技術の発展に伴い、電子機器で完成できる作業が益々多くなってきて、人々に便利な条件が提供されている。例えば、電子機器により顔を自動的に認識し、顔認識結果に基づいてユーザの身元を認証することができる。然し、顔認識技術の普及に伴い、顔認識技術に対する攻撃手段もすぐ生じることとなり、例えば、写真や仮面などをユーザの顔として使用することで、ユーザ身元の認証に合格する場合がある。

様々な攻撃手段に抵抗するために、生体検出は顔認識技術の重要な部分になっている。生体検出は、一部の身分認証シーンにおいて被検出対象が実在的であるか否かを判定するための技術であり、例えば、まばたき、口開け、頭振り、うなずきなどの動作の組み合わせにより、被検出対象が実在の生体であるか否かを認証することができ、それによって詐欺行為を見分け、顔認識の安全性を向上させることとなる。このため、様々な生体検出方法が存在し、例えば、様々な生体検出用のネットワークモデルが存在する。各生体検出用のネットワークモデルの性能はそれぞれ異なる。

本発明は、性能パラメータ決定に係る技術案を提案している。

本発明の第１態様により、複数の顔画像が含まれた第１データセットを取得することと、前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得することと、複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定することと、を含む性能パラメータ決定方法を提案する。

本発明の第２態様により、複数の顔画像が含まれた第１データセットを取得する第１取得モジュールと、前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得する検出モジュールと、複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定する決定モジュールと、を備える、性能パラメータ決定装置を提案する。

本発明の第３態様により、プロセッサと、前記プロセッサにより実行可能な命令を格納するためのメモリと、を備え、前記プロセッサは、前記命令を呼び出して上記の第１態様に記載の性能パラメータ決定方法を実行するように構成されている、電子機器を提案する。

本発明の第４態様により、コンピュータ・プログラム命令が格納されたコンピュータ読み取り可能な記憶媒体であって、前記コンピュータ・プログラム命令がプロセッサにより実行された場合、前記プロセッサが上記の第１態様に記載の性能パラメータ決定方法を実施するように促される、コンピュータ読み取り可能な記憶媒体を提案する。

本発明の第５態様により、コンピュータ読み取り可能なコードを含むコンピュータ・プログラム製品であって、前記コンピュータ読み取り可能なコードがデバイス上に実行された場合、前記デバイス中のプロセッサは、上記の第１態様に記載の性能パラメータ決定方法を実施するための命令を実行するコンピュータ・プログラム製品を提案する。

本発明の実施例では、複数の顔画像が含まれた第１データセットを取得することができる。その次に、複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得し、さらに複数の検出結果に基づいてニューラルネットワークの性能パラメータを決定することができる。中でも、性能パラメータは通常、ニューラルネットワークの性能を反映でき、すなわち、本発明で提案する実施形態によれば、取得された性能パラメータを利用してニューラルネットワークの性能を評価することができる。ニューラルネットワークにより顔画像に対応する生体分類結果および生体検出結果を取得することができるため、複数の次元のデータを併せて性能パラメータを取得することができ、性能パラメータにニューラルネットワークの実際の性能を効果的に反映させることができる。実際に応用する場合に、性能パラメータによりニューラルネットワークの重みパラメータを調整することもでき、それによって生体検出の正確度を向上させ、ニューラルネットワークがより複雑な応用シーンに適用させる。

以上の概略的な説明及び以下の詳細な説明は、単に例示及び説明ためのものに過ぎず、本発明を限定するものでないことが、理解されるべきであろう。

ここでの図面は明細書に合併されて本明細書の一部を構成し、これらの図面は本発明に対応する実施例を示し、明細書とともに本発明の技術案を説明するためのものである。
本発明の実施例による性能パラメータ決定方法を示すフローチャートである。本発明の実施例による性能パラメータ決定プロセスを示す例示的な概略図である。本発明の他の実施例による性能パラメータ決定プロセスを示す例示的な概略図である。本発明の実施例による性能パラメータ決定装置を示すブロック図である。本発明の実施例による性能パラメータ決定装置の例示を示すブロック図である。本発明の実施例による電子機器の例示を示すブロック図である。

以下では、本発明の様々な例示的な実施例、特徴、及び態様について、図面を参照しながら詳しく説明する。図面中の同じ記号は、機能が同じまたは類似する構成要素を示す。図面では実施例の様々な態様が示されているが、特に説明がない限り、割合に従って図面を描くことは不要である。

ここでは、「例示的な」という専門用語は、「例示、実施例、または説明ためのものとして用いられる」ことを意味している。ここでの「例示的な」ものとして説明されるいかなる実施例を、他の実施例よりも優れるものか、または良好なものであると解釈する必要はない。

「および/または」という本明細書中の専門用語は、相関対象の相関関係を説明するためのものに過ぎず、３つの関係が存在し得ることを意味しており、例えば、Ａおよび/またはＢは、Ａが単独で存在する場合と、ＡとＢが同時に存在する場合と、Ｂが単独で存在する場合と、の３つの場合を意味し得る。さらに、「少なくとも１種」という本明細書中の専門用語は、複数からのいずれか１種または複数からの少なくとも２種の任意の組みあわせを意味しており、例えば、Ａ、Ｂ、Ｃの少なくとも１種を含むことは、Ａ、Ｂ、Ｃからなるセットのうちのいずれか１つまたは複数の構成要素を含むことを意味し得る。

また、本発明をよりよく説明するために、以下の発明を実施するための形態にて、具体的な詳細記載を多く与える。若干の具体的な詳細記載がないとしても、本発明の実施も可能であることは、当業界の技術者が理解すべきであろう。幾つかの実施例では、本発明の趣旨を突出させるために、当業界の技術者が周知する方法、手段、素子、回路について詳しく説明しないものとする。

本発明の実施例で提案する性能パラメータ決定に係る技術案によれば、複数の顔画像が含まれた第１データセットを取得し、その次に複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得し、さらに検出結果に基づいて当該ニューラルネットワークの性能パラメータを決定することができる。これにより、決定された性能パラメータを利用してニューラルネットワークの性能を評価して、ニューラルネットワークの選択または改善のための参照を提供することができる。

一つの例示では、生体検出を行う場合、ニューラルネットワークにより、顔画像の生体分類結果を取得しただけであり、当該生体分類結果の正確度を判断しにくく、例えば、悪意攻撃された場合の当該分類結果の正確度を判断しにくく、当該ニューラルネットワークの正確度を判定できないため、顔認識の安全性を確保することができない。本発明の実施例で提案する性能パラメータ決定に係る技術案によれば、生体分類結果および検出結果を得ることができ、検出結果に基づいてニューラルネットワークの性能パラメータを決定することができ、性能パラメータをニューラルネットワーク性能評価のため有効的な参照として使用することができる。したがって、決定された性能パラメータによりニューラルネットワークの重みパラメータを調整してニューラルネットワークの正確度を向上させ、ニューラルネットワークによって取得された生体分類結果をより正確にすることができる。当該ニューラルネットワークは、畳み込みニューラルネットワークであってもよいし、その他のタイプのニューラルネットワークであってもよいが、本発明ではこれに限定されない。

本発明の実施例で提案する技術案は、顔認識、顔ロック解除、顔支払い、セキュリティなどの適用シーンの拡張に適用可能であるが、本発明の実施例ではこれに限定されない。例えば、顔ロック解除に使用されるニューラルネットワークの性能を評価して顔ロック解除の正確度を向上させることができる。

図１は、本発明の実施例による性能パラメータ決定方法を示すフローチャートである。当該性能パラメータ決定方法は、端末機器、サーバ、またはその他のタイプの電子機器で実行でき、中でも、端末機器は、ユーザ機器（ＵｓｅｒＥｑｕｉｐｍｅｎｔ、ＵＥ）、モバイル機器、ユーザ端末、ターミナル、セルラーフォン、コードレス電話、パーソナルデジタルアシスタント（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ、ＰＤＡ）、手持ち機器、計算機器、車載機器、ウェアラブル機器などであってもよい。幾つかの実施可能な形態では、当該性能パラメータ決定方法は、プロセッサによりメモリに格納されているコンピュータ読み取り可能な命令を呼び出すという方式で実現されてもよい。以下では、実行主体が電子機器であることを例にとって、本発明の実施例による性能パラメータ決定方法について説明する。

ステップＳ１１にて、複数の顔画像が含まれた第１データセットを取得する。

本発明の実施例では、第１データセットは、予め構築されたデータセットであってもよく、第１データセットには複数の顔画像が含まれ得る。顔画像は、シーンにおける顔の画像収集によって取得されたものか、またはその他の機器やデータセットから取得された検出すべき対象である顔画像であり、例えば、撮影機器、監視機器、またはネットワークサーバーなどの機器から取得された顔画像であってもよい。複数の顔画像は実顔画像と非実顔画像とを含みうる。実顔画像は、実在の顔の画像収集によって得られた顔画像であってもよく、非実顔画像は、非実在の顔の画像収集によって得られた顔画像であってもよく、例えば、非実顔画像は、写真、ポスターなどの画像収集によって得られたものである。

ステップＳ１２にて、前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得する。

本発明の実施例では、ニューラルネットワークに第１データセット中の複数の顔画像を順次入力し、ニューラルネットワークから出力された、顔画像毎に対応する生体分類結果及び検出結果を取得することができる。ニューラルネットワークのパラメータは、サンプルセットによりニューラルネットワークを訓練して得られたものであり得る。ニューラルネットワークは複数の出力ブランチを含んでもよく、１つの出力ブランチが顔画像に対応する生体分類結果を出力でき、その他の出力ブランチが顔画像に対応する検出結果を出力できる。本明細書では、生体分類結果は、顔画像内の顔が生体に属するか否かを判断した判断結果、例えば、顔画像内の顔が生体に属するか、または当該顔が生体に属さないかというような判断結果であってもよい。検出結果は、生体検出に関連する検出項目の検出結果、例えば、顔画像内の人物の性別、年齢などの属性の検出結果であってもよい。

ステップＳ１３にて、複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定する。

本発明の実施例では、ニューラルネットワークから出力された複数の検出結果に基づいてニューラルネットワークの性能パラメータを決定することができる。性能パラメータが通常、ニューラルネットワークの性能を反映できるため、決定された性能パラメータを用いてニューラルネットワークの性能を評価することができ、例えば、検出結果に基づいて生体分類結果を検証してニューラルネットワークの正確度を評価することができる。例を挙げて説明すると、性能パラメータが正確率であることを例にとると、生体分類結果として、顔画像内の顔が生体に属する場合、検出結果として、非生体に対応する検出項目が検出されたと、生体分類結果があまり正確ではないと考えることができ、複数の顔画像のそれぞれに対応する生体分類結果の正確率を統計することで、ニューラルネットワークの性能評価を行うことができる。ここで、性能パラメータは、誤検出率、リコール率など、ニューラルネットワークの性能を評価できるパラメータであってもよいが、本発明では具体的な性能パラメータについて限定されない。

第１データセットに含まれた複数の顔画像をニューラルネットワークに入力することにより、顔画像毎に対応する生体分類結果及び検出結果を取得することができ、複数の検出結果に基づいてニューラルネットワークの性能パラメータを決定することができ、正確度さらに、決定された性能パラメータを利用してニューラルネットワークの性能評価を行い、生体検出の正確度を向上させることができる。

幾つかの実施可能な形態では、検出結果には顔画像内の顔が生体に属するか否かを判断するためのデータが含まれるため、検出結果に基づいて関連する生体分類結果を検証したり、生体分類結果の正確度を評価したりすることができ、あるいは、検出結果に基づいて生体検出に関するより多くの情報を取得して、ニューラルネットワークから出力された情報をより完璧にすることができる。

例示では、ニューラルネットワークによる生体検出項目をより完璧にするために、検出結果は、顔属性、攻撃方法、照明条件、画像化環境、深度情報、および反射情報のうちの少なくとも１種を含むものとする。

ここでは、顔属性は、顔画像中の人および/または顔が体現されている特徴を示すことができ、例えば、顔属性は、人の性別、髪色、顔の表情などの情報を含んでいてもよい。

攻撃方法は、顔画像の生成メディアを含んでいてもよく、例えば、攻撃方法は、写真、ポスター、プリンター用紙などからの画像を使用したことを含み、写真、ポスター、プリンター用紙などを撮影することによって得られた顔画像であることを示す。

照明条件は、顔画像を収集しているときの照明条件を含んでいてもよく、例えば、照明条件は、正常の光、強い光、逆光、暗い光などを含み、正常の光、強い光、逆光、暗い光などの照明条件下で撮影された顔画像であることを示す。ここでは、正常の光の照明強度は第１光強度と第２光強度との間にあり、第２光強度は第１光強度よりも大きく、強い光の照明強度は第２光強度以上であり、暗い光の照明強度は第１光強度以下であり、第１光強度、第２光強度は経験値に応じて設定でき、逆光撮影は光源に向いた撮影方式であるように構成してもよい。

画像化環境は、顔画像の撮影環境を含んでもよく、例えば、画像化環境は、室内環境、室外環境などを含んでもよく、室内環境または室外環境で撮影された顔画像であることを示す。

深度情報は、顔画像の深度図を含んでもよく、顔画像の画像深度を示すことができる。通常、実顔画像は複数の深度値を有し、複数の深度値間の差値が深度閾値よりも大きいことは、実顔画像内の顔が同一の表面に属していないことを示し、すなわち、実顔画像内の顔が立体的であると理解できる。そして、非実顔画像については、非実顔画像は１つの深度値のみを有するか、複数の近接な深度値を有する可能性があり、複数の深度値間の差値が深度閾値以下であることは、非実顔画像内の顔が同一の表面に属することを示す。このように、顔画像の深度情報は、生体検出に関連するデータとして用いられることができる。

反射情報は、顔画像の反射図を含んでもよく、顔画像の光反射状況を示すことができる。実在の顔の場合、光が乱反射され、実在の顔より取得した実顔画像の光反射が比較的少ない。非実顔画像の場合、写真を複製した顔画像などの非実顔画像が同一の表面に属する可能性があるため、非実顔画像の光反射が比較的多い。このように、顔画像の反射情報は、生体検出に関連するデータとして用いられることができる。

幾つかの実施可能な形態では、複数の顔画像はアノテーション情報を含んでもいい。検出結果に基づいてニューラルネットワークの性能評価を行う場合、顔画像のそれぞれについて、当該顔画像に対応する検出結果を当該顔画像に対応する顔画像のアノテーション情報と照合して、当該顔画像に対応する照合結果を取得し、その後に、複数の顔画像のうちの少なくとも一部に対応する照合結果に基づいてニューラルネットワークの性能パラメータを決定することとなる。

例えば、顔画像のそれぞれは、アノテーション情報を含んでもよい。アノテーション情報は、顔画像に対応する生体検出に関連する真実の情報であってもよく、顔属性、攻撃方法、照明条件、画像化環境のうちの１種または複数種を含んでいてもよい。顔画像のそれぞれの検出結果を当該顔画像のアノテーション情報と照合して照合結果を取得することができ、当該照合結果が顔画像の検出結果の正確度を示すことができる。さらに、複数の顔画像のうちの少なくとも一部に対応する照合結果に基づいて、ニューラルネットワークの性能パラメータを取得することができ、例えば、一部または全部の顔画像に対応する照合結果に基づいて、ニューラルネットワークによる検出結果に含まれた１つまたは複数の結果の正確率を決定することができる。

以下では、本発明の実施例で提案された性能パラメータ決定プロセスについて１つの例示により説明する。図２Ａおよび図２Ｂは、本発明の実施例による性能パラメータ決定プロセスを示す概略図である。ここでは、第１顔画像２０１が非実顔画像で、第２顔画像２０２が実顔画像であると仮定してもいい。ニューラルネットワーク２１０は複数の情報を出力することができ、中でも、S^fは顔属性２２１、S^Sは攻撃方法２２２、Sⁱは照明条件２２３、そしてＣは生体分類結果２２４、G^dは深度情報２２５、またG^rは反射情報２２６を示すことができる。

図２Ａに示すように、第１顔画像２０１をニューラルネットワーク２１０に入力して、第１顔画像２０１の検出結果および生体分類結果を取得することができる。中でも、顔属性２２１に対応する検出値が何れも小さい（顔閾値より小さい）ため、明らかな顔属性が検出されなかったと理解することができ、第１顔画像２０１の顔属性が非実顔画像の顔属性に属することを表明する。攻撃方法２２２における第１顔画像２０１に対応する検出値が大きい（攻撃閾値より大きい）ため、写真による攻撃方法が検出されたと理解することができ、第１顔画像２０１の攻撃方法が非実顔画像の写真による攻撃方法に属することを表明する。照明条件２２３における暗い光に対応する検出値が大きい（照明閾値より大きい）ため、暗い光という照明条件が検出されたと理解することができ、第１顔画像２０１の照明条件が非実顔画像の暗い光という照明条件に属することを表明する。生体分類結果２２４は非生体が検出されたことを示し、第１顔画像２０１が非実顔画像に属することを表明する。深度情報２２５の深度図には１つの黒い深度値のみがあるため、第１顔画像２０１内の顔が１つの平面にあると理解することができ、第１顔画像２０１が非実顔画像に属することを表明する。反射情報２２６の反射図には比較的強い光反射があるため、第１顔画像２０１内の顔が１つの平面にあると理解することができ、第１顔画像２０１が非実顔画像に属することを表明する。第１顔画像２０１の検出結果に含まれた複数種の情報および第１顔画像２０１の生体分類結果を纏めると、例えば、第１顔画像２０１内の顔が生体に属するか否かを判断するための根拠として、第１顔画像２０１の検出結果および生体分類結果から１項または複数項の情報を選択することができ、あるいは、検出結果に含まれた複数項の情報および生体分類結果のうち、予め設定された数以上の情報は、第１顔画像が非実顔画像であることを表明する場合、第１顔画像内の顔が生体に属さないと判断することができ、ニューラルネットワーク２１０を利用して第１顔画像２０１に対する生体検出を実現する。

相応的には、図２Ｂに示すように、ニューラルネットワークによる第１顔画像２０１への生体検出プロセスと同様に、第２顔画像２０２を前記ニューラルネットワーク２１０に入力して、第２顔画像２０２の検出結果および生体分類結果を取得することができる。顔属性２２１は、大きな鼻と微笑という顔属性が検出された（検出値は顔閾値より大きい）ことを示したため、第２顔画像２０２の顔属性が実顔画像の顔属性に属することを表明する。攻撃方法２２２として、攻撃方法が検出されなかった（検出値は攻撃閾値より小さい）ため、第２顔画像２０２が実顔画像に属し、相応的な攻撃方法が存在しないことを表明する。照明条件２２３として、照明条件が検出されなかった（検出値は照明閾値より小さい）と示したため、第２顔画像２０２が実顔画像に属し、相応的な照明条件が存在しないことを表明する。生体分類結果２２４が生体であるため、第２顔画像２０２が実顔画像に属することを表明する。深度情報２２５の深度図には複数の深度値があるため、第２顔画像２０２が実顔画像に属することを表明する。反射情報２２６の反射図には光反射がないため、第２顔画像２０２が実顔画像に属することを表明する。第２顔画像２０２の検出結果に含まれた複数の情報および第２顔画像２０２の生体分類結果を纏めると、例えば、第２顔画像２０２内の顔が生体に属するか否かを判断するための根拠として、第２顔画像２０２の検出結果および生体分類結果から１項または複数項の情報を選択してもよく、あるいは、検出結果に含まれた複数の情報および生体分類結果のうち、予め設定された数以上の情報は、第２顔画像が実顔画像であることを表明した場合、第２顔画像２０２内の顔が生体であると判断することができ、ニューラルネットワーク２１０による第２顔画像２０２に対する生体検出を実現する。

さらに、第１顔画像の検出結果を第１顔画像のアノテーション情報と照合するとともに、第２顔画像の検出結果を第２顔画像のアノテーション情報と照合し、それらの照合結果に基づいてニューラルネットワークの性能パラメータを決定する。例えば、検出結果の各検出項目の正確率を決定し、決定された性能パラメータに基づいてニューラルネットワークの性能評価を行う。

本発明の実施例により決定できる性能パラメータを利用してニューラルネットワークの性能評価を行って、評価結果を取得し、評価結果に基づいてニューラルネットワークの性能をさらに向上させることができる。以下では、ニューラルネットワークの性能向上プロセスについて１つまたは複数の実施形態により説明する。

幾つかの実施可能な形態では、評価結果に基づいて、複数の訓練サンプルが含まれた第２データセットを取得することができ、前記訓練サンプルには顔画像が含まれている。その次に、複数の訓練サンプルをニューラルネットワークに入力して、訓練サンプル毎に対応する検出結果を取得し、さらに複数の訓練サンプルのうちの少なくとも一部に対応する検出結果と前記複数の訓練サンプルのうちの少なくとも一部に対応するアノテーション情報との差異度に応じて、前記ニューラルネットワークの重みパラメータを調整することができる。

本実施形態では、評価結果に基づいて、第２データセット中の当該評価結果に関連する複数の訓練サンプルを取得することができ、例えば、評価結果として、ニューラルネットワークによる１つまたは複数の検出結果（例えば、攻撃方法という検出結果）の正確率が低いことが表明された場合、第２データセット中の攻撃方法に関連する複数の訓練サンプルを取得することができ、それによって攻撃方法に対してニューラルネットワークを訓練し、ニューラルネットワークが攻撃方法という検出項目についての正確度を向上させる。第２データセットには大量の訓練サンプルが含まれ、各訓練サンプルが対応するアノテーション情報を有してもよく、アノテーション情報で訓練サンプル内の顔にアノテーションを付けることができ、アノテーション情報は、顔属性、攻撃方法、照明条件、および画像化環境のうちの少なくとも１種または複数種を含んでもいい。ニューラルネットワークを訓練する場合、ニューラルネットワークに複数の訓練サンプルを順次入力し、ニューラルネットワークにより出力された各訓練サンプルの検出結果を取得することができる。その次に、各訓練サンプルに対応する検出結果を同一の訓練サンプルのアノテーション情報と照合することで、各訓練サンプルの検出結果とアノテーション情報との差異度を決定することができ、例えば、訓練サンプルの各検出結果とアノテーション情報との差異度をそれぞれ決定した後、各検出結果とアノテーション情報との差異度を加算または加重計算することで、各訓練サンプルの検出結果とアノテーション情報との差異度を取得することができる。最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）というアルゴリズムなどの最適化アルゴリズムによれば、ニューラルネットワークに複数の訓練サンプルに対応する検出結果とアノテーション情報との差異度をバッチ（ｂａｔｃｈ）でバックプロパゲーション（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）することができ、ニューラルネットワークの重みパラメータを持続的に最適化調整して、ニューラルネットワークにより出力された検出結果をより正確にさせ、最終的には性能が向上されたニューラルネットワークを取得することができる。ここでは、クロスエントロピー損失関数、二元クロスエントロピー損失関数により訓練サンプルに対応する検出結果とアノテーション情報との差異度を決定することができる。

ここでのニューラルネットワークは、一般的な生体検出ニューラルネットワークであってもよく、新しく設計されたニューラルネットワークアーキテクチャに基づいて構築されたニューラルネットワークであってもいい。例を挙げて説明すると、ニューラルネットワークは、少なくとも１つの畳み込み層と、少なくとも１つのプーリング層と、少なくとも１つの全結合層などを含んでいてもよい。ニューラルネットワークに入力された訓練サンプルは、一致する画像サイズを有してもよく、例えば、画像サイズが２２４＊２２４ピクセルの訓練サンプルをニューラルネットワークに入力する。訓練サンプルの画像サイズが一致しない場合、訓練サンプルを所定の画像サイズにカットしたものを、ニューラルネットワークに入力してもいい。

本実施形態による幾つかの例示では、第１データセットおよび第２データセットは何れも実顔画像と非実顔画像とを含む。中でも、実顔画像のアノテーション情報は、生体分類結果と顔属性とを含む。非実顔画像のアノテーション情報は、攻撃方法、照明条件、および画像化環境のうちの少なくとも１種と、生体分類結果とを含む。

本発明の実施例では、第１データセットおよび第２データセットは何れも実顔画像と非実顔画像とを含んでもいい。中でも、実顔画像は実在の顔を含んでもよく、すなわち、実顔画像は実在の人物の顔の画像収集によって得られた画像であってもいい。実顔画像のアノテーション情報は生体分類結果と顔属性とを含んでもよく、中でも、生体分類結果としては生体であってもよく、顔属性としては実在の人物の性別、髪色、表情などの情報を含んでもいい。非実顔画像は非実在の顔を含んでもよく、すなわち、非実顔画像は、実在の顔を偽造することによって得られた画像であってもよく、例えば、顔ポスターに対して撮影などにより得られた画像収集する。非実顔画像のアノテーション情報は、攻撃方法、照明条件、および画像化環境のうちの１種または複数種と、生体分類結果とを含んでもよく、中でも、生体分類結果としては非生体であってもよいし、攻撃方法としては写真、ポスター、プリンター用紙などが含まれてもよいし、照明条件としては正常の光、強い光、逆光、暗い光などが含まれてもよいし、画像化環境としては室内環境、室外環境などが含まれてもいい。複数のアノテーションを含むアノテーション情報を訓練サンプルに設定することにより、訓練されたニューラルネットワークをより多くの適用シーンに適させることができる。

ここでは、アノテーション情報に含まれた異なるアノテーション項目に対して異なるタグを設定することができ、１つのアノテーション項目には複数のサブアノテーション項目が含まれる可能性がある場合には、タグの下付き文字または上付き文字でサブアノテーション項目を区別することができる。例を挙げて説明すると、攻撃方法はS^Sで表すことができ、攻撃方法のうちのポスターによる攻撃方法はS^S1で表すことができる。

幾つかの例示では、第２データセット中の実顔画像の数は、非実顔画像の数よりも小さくてもよく、例えば、第２データセット中の実顔画像の数と非実顔画像の数の比例を１：３で設定することができる。第２データセット中の非実顔画像の数が実顔画像の数よりも大きくなるように設定することにより、第２データセットに非実顔画像をより多く提供させ、第２データセットが様々な生体偽造方法の探索に適するようになり、それによって、ニューラルネットワークの性能最適化のための大量の非実顔画像が提供されることとなる。

本発明では、第１データセットまたは第２データセット中の実顔画像は、実在の人物の顔の画像収集によって取得されてもよい。幾つかの実施形態では、また、既存のデータセット中の実顔画像を、第１データセットまたは第２データセット中の実顔画像としてもいい。第１データセットまたは第２データセット中の非実顔画像について、幾つかの実施形態では、非実顔画像は、ターゲット取得方法によって取得されてもよく、ターゲット取得方法については、実顔画像を偽造する画像取得方法であると理解することができ、ターゲット取得方法によれば、第１データセットまたは第２データセット中の非実顔画像を拡充して、第１データセットまたは第２データセット中の非実顔画像を豊かにすることができる。

幾つかの例示では、ターゲット取得方法は、収集方向、曲げ方式及び非実顔画像を収集するための収集装置の種別のうちの少なくとも１種を含む。

同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、収集方向が異なる、および/または、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、曲げ方式が異なる、および/または、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、それに対応する収集装置の種別が異なる。

本発明では、収集方向は、収集装置の撮影平面の法線ベクトルと非実顔の所在する平面との間の相対方向であってもよい。例えば、非実在の顔の画像収集を予め設定された収集方向で行って、非実顔画像を取得することができる。一実施形態では、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は収集方向が異なるため、第１のデータセットまたは第２のデータセット中の非実顔画像のうちの少なくとも一部は異なる収集方向を有してもよく、非実顔画像の多様性を向上させる。

例を挙げて説明すると、収集方向は、予め設定された収集方向を含んでもよく、例えば、予め設定された収集方向を、収集装置の撮影平面の法線ベクトルが非実顔の所在する平面に垂直する方向であるように設定してもよい。収集方向は、また、予め設定された収集方向から予め設定された傾斜角度で外れる方向を含んでもよく、例えば、非実顔の所在する平面の法線ベクトルをｙ軸の正方向として３次元座標系を構築し、ここでは、y軸の正方向は予め設定された収集方向に対応し、予め設定された収集方向から設定された傾斜角度で外れる方向は、ｘｏｙ平面内において、y軸の正方向からプラスマイナス３０度で傾斜する方向であるか、または、ｙｏｚ平面内おいて、y軸の正方向からプラスマイナス３０度で傾斜する方向であってもいい。非実顔画像内の顔の品質を良好にするために、予め設定された傾斜角度を一定の範囲にすることができ、例えば、予め設定された傾斜角度を［マイナス３０°，プラス３０°］の範囲内にすることができ、それによって、非実顔画像内の非実顔のサイズが適切になり、過度傾斜による非実顔の過小が減少することとなる。ここでは、予め設定された傾斜角度を異なる角度範囲内に設定してもよく、本発明では具体的な角度範囲を限定しない。様々な収集方向を設定することにより、収集方向が異なる非実顔画像を取得することができ、第１データセットまたは第２データセット中の訓練サンプルの多様性が向上する。

本例示では、曲げ方式は、非実顔画像内の非実顔の曲げ方式であってもよい。例えば、予め設定された曲げ方向で非実顔を曲げたものを画像収集して、非実顔画像を取得することができる。一実施形態では、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は曲げ方式が異なるため、第１のデータセットまたは第２のデータセット中の非実顔画像のうちの少なくとも一部は異なる曲げ方向を有してもよく、非実顔画像の多様性は向上する。

例を挙げて説明すると、非実顔画像内の非実顔の曲げ方式は、曲げられないという曲げ方式と、予め設定された曲げ方向で曲げられるという曲げ方式との少なくとも１種を含む。予め設定された曲げ方向は実の応用シーンに応じて設定でき、非実顔が曲げられないと仮定する場合、非実顔の所在する平面の法線ベクトル方向をｙ軸の正方向として３次元座標系を構築し、予め設定された曲げ方向は、ｘ軸の正方向（例えばｘ軸に沿ってｙ軸の正方向に曲げる）または負方向（例えばｘ軸に沿ってｙ軸の負方向に曲げる）であってもよいし、z軸の正方向（例えばz軸に沿ってｙ軸の正方向に曲げる）または負方向（例えばz軸に沿ってｙ軸の負方向に曲げる）であってもよいし、ｘ軸からある角度で傾斜する正方向（例えばｘ軸から当該角度でずれた軸に沿ってｙ軸の正方向に曲げる）または負方向（例えばｘ軸から当該角度でずれた軸に沿ってｙ軸の負方向に曲げる）であってもよい。非実顔画像内の非実顔について様々な曲げ方式を設定することにより、第１データセットまたは第２データセット中の非実顔画像を豊かにすることができる。

本例示では、ターゲット取得方法は、非実顔画像を収集するための収集装置の種別を含んでよい。収集装置が異なれば、レンズ構成、焦点距離設定などの収集構成も異なるため、種別が異なる収集装置により取得された非実顔画像も大きく異なるようになる。一実施形態では、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、それに対応する収集装置の種別が異なるため、第１のデータセットまたは第２のデータセット中の非実顔画像は、対応する収集装置の種別も異なるようになる。非実顔画像について種別が異なる収集装置を配置することにより、第１データセットまたは第２データセット中の非実顔画像をさらに豊かにすることができる。ここでは、収集装置の種別は、カメラ、カメラ付きタブレット、カメラ付き携帯電話、およびカメラ付きラップトップなどを含むが、それらに限定されない。

本例示では、非実顔画像が様々なターゲット取得方法により取得できるため、第１データセットまたは第２データセット中の非実顔画像の複雑さと多様性を向上させることが可能となり、さらに非実顔画像によりニューラルネットワークの性能を最適化し、最適化されたニューラルネットワークが多種多様な応用シーンに適させ、生体検出の正確度が向上することができる。

本発明で言及された上記の各々の方法実施例は、原理および論理に違反しない条件で、互いに組み合わせられて、組合せられた実施例を構成できることは、理解されるべきであろう。紙幅に限りがあるので、本発明ではこれ以上説明しないものとする。

また、本発明ではさらに、装置、電子機器、コンピュータ読み取り可能な記憶媒体、プログラムが提案され、それらは本発明で提案されるいずれか１つの性能パラメータ決定方法を実現でき、関連する技術案及び記述は方法に係る部分の記載を参照でき、ここでは重複に説明しないものとする。

発明を実施形態に係る上記の方法では、各ステップの記載順序は、厳密な実行順序を意味して実施プロセスを限定するものではなく、各ステップの具体的な実行順序はその機能および可能性のある内部論理によって決定されるべきであることは、当業界の技術者が理解できるわけである。

図３は、本発明の実施例による性能パラメータ決定装置を示すブロック図であり、図３に示すように、前記装置は、

複数の顔画像が含まれた第１データセットを取得する第１取得モジュール３１と、

前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得する検出モジュール３２と、

複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定する決定モジュール３３と、
を備える。

１つまたは複数の実施可能な形態では、前記検出結果は、顔画像内の顔が生体に属するか否かを判断するためのデータを含む。

１つまたは複数の実施可能な形態では、前記検出結果は、顔属性、攻撃方法、照明条件、画像化環境、深度情報、反射情報のうちの少なくとも１種を含む。

１つまたは複数の実施可能な形態では、前記複数の顔画像にはアノテーション情報があり、前記決定モジュールはさらに、顔画像のそれぞれについて、当該顔画像に対応する検出結果を当該顔画像に対応する顔画像のアノテーション情報と照合して当該顔画像に対応する照合結果を取得し、前記複数の顔画像のうちの少なくとも一部に対応する照合結果に基づいて前記ニューラルネットワークの性能パラメータを決定するために用いられる。

１つまたは複数の実施可能な形態では、前記装置は、訓練モジュールを更に備え、前記訓練モジュールは前記評価結果に基づいて、第２データセット中の前記評価結果に関連する複数の訓練サンプルを取得し、前記訓練サンプルは、顔画像を含み、前記評価結果は、前記性能パラメータに基づいて前記ニューラルネットワークを評価して得られた結果であり、前記複数の訓練サンプルを前記ニューラルネットワークに入力して、訓練サンプル毎に対応する検出結果を取得し、前記複数の訓練サンプルのうちの少なくとも一部に対応する検出結果と前記複数の訓練サンプルのうちの少なくとも一部のアノテーション情報との差異度に応じて、前記ニューラルネットワークの重みパラメータを調整するために用いられる。

１つまたは複数の実施可能な形態では、前記第１データセットおよび前記第２データセットは何れも実顔画像と非実顔画像を含み、前記実顔画像のアノテーション情報は、生体分類結果と、顔属性とを含み、前記非実顔画像のアノテーション情報は、攻撃手法、光照射条件、および画像化環境のうちの少なくとも１種と、生体分類結果とを含む。

１つまたは複数の実施可能な形態では、前記第２データセット中の実顔画像の数は、非実顔画像の数よりも小さくなる。

１つまたは複数の実施可能な形態では、前記装置は、ターゲット取得手法により非実顔画像を取得する第２取得モジュールをさらに備える。

１つまたは複数の実施可能な形態では、前記ターゲット取得手法は、収集方向、曲げ方式、非実顔画像を収集するための収集装置の種別のうちの少なくとも１種を含む。

１つまたは複数の実施可能な形態では、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、収集方向が異なる、および/または、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、曲げ方式が異なる、および/または、同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、対応する収集装置の種別が異なる。

幾つかの実施例では、本発明の実施例で提案された装置が有する機能、またはそれに含まれるモジュールは、上記の方法実施例で説明された方法を実行でき、その具体的な実施は、上記の方法実施例の記載を参照でき、簡潔のため、ここでは重複に説明しないものとする。

図４は、例示的な一実施例による性能パラメータ決定装置８００のブロック図である。例えば、装置８００は、携帯電話、コンピュータ、デジタル放送端末、メッセージ送受信機器、ゲームコンソール、タブレットデバイス、医療設備、フィットネス機器、パーソナルデジタルアシスタントなどであってもよい。

図４に示すように、装置８００は、処理ユニット８０２、メモリ８０４、電源ユニット８０６、マルチメディアユニット８０８、オーディオユニット８１０、入力／出力（Ｉ／Ｏ）インターフェース８１２、センサユニット８１４、および通信ユニット８１６のうちの１つまたは複数の構成要素を備えるようにしてもよい。

処理ユニット８０２は通常、装置８００の全般操作、例えば、表示、電話発呼、データ通信、カメラ操作および記録操作に関連する操作を制御する。処理ユニット８０２は、上記の方法の全部または一部のステップが実行されるように、命令を実行するための１つまたは複数のプロセッサ８２０を含んでもよい。また、処理ユニット８０２は、他のユニットとの間の相互作用が容易になるように、１つ又は複数のモジュールを含んでもよい。例えば、処理ユニット８０２は、マルチメディアユニット８０８と処理ユニット８０２との間の相互作用が容易になるように、マルチメディアモジュールを含んでもよい。

メモリ８０４は、装置８００での操作をサポートするために、各々のタイプのデータを格納するように構成されている。これらのデータの例示は、装置８００で操作される任意のアプリケーションもしくは方法の命令、連絡先データ、電話帳データ、メッセージ、ピクチャ、ビデオなどを含む。メモリ８０４は、任意タイプの揮発性もしくは不揮発性記憶装置またはそれらの組合せで実現されてもよく、例えば、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、電気的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、読み出し専用メモリ（ＲＯＭ）、磁気メモリ、フラッシュメモリ、磁気ディスクまたは光ディスクであってもよい。

電源ユニット８０６は、装置８００の様々なユニットに電力を供給する。電源ユニット８０６は、電源管理システム、１つまたは複数の電源、並びに、装置８００に電力を生成、管理および割当てることに関する他のユニットを含んでもよい。

マルチメディアユニット８０８は、前記装置８００とユーザとの間にある、1つの出力インターフェースを供給するスクリーンを含む。幾つかの実施例では、スクリーンは、液晶ディスプレイ（ＬＣＤ）およびタッチパネル（ＴＰ）を含んでもよい。スクリーンは、タッチパネルを含む場合、ユーザからの入力信号を受信するためのタッチスクリーンとして実現されることができる。タッチパネルは、タッチ、スライドおよびタッチパネルでのジェスチャを感知するための１つまたは複数のタッチセンサを含む。前記タッチセンサは、タッチあるいはスライド動作の境界を感知できるだけではなく、また、前記タッチあるいはスライド操作に関連する継続時間および圧力を検出することもできる。幾つかの実施例では、マルチメディアユニット８０８は、１つのフロントカメラおよび/またはバックカメラを含む。装置８００が操作モード、例えば、撮影モードあるいはビデオモードにあるとき、フロントカメラおよび/またはバックカメラは、外部からのマルチメディアデータを受信することができる。フロントカメラおよびバックカメラのそれぞれは、１つの固定の光学レンズシステムであってもよいし、焦点距離および光学ズーム機能を有するものであってもよい。

オーディオユニット８１０は、オーディオ信号を出力および/または入力するように構成されている。例えば、オーディオユニット８１０は、１つのマイク（ＭＩＣ）を備え、装置８００が操作モード、例えば、発呼モード、記録モードおよび音声認識モードにあるとき、マイクは、外部オーディオ信号を受信するように構成されている。受信されたオーディオ信号は、さらに、メモリ８０４に格納されるか、または、通信ユニット８１６を介して送信されることができる。幾つかの実施例では、オーディオユニット８１０は、オーディオ信号を出力するためのスピーカをさらに備える。

Ｉ/Ｏインターフェース８１２は、処理ユニット８０２とペリフェラルインターフェースモジュールとの間にインターフェースを提供するものであり、上記ペリフェラルインターフェースモジュールは、キーボード、クリックホイール、ボタンなどであってもよい。これらのボタンは、ホームページボタン、ボリュームボタン、起動ボタンおよびロックボタンを含むが、それらに限定されないものとする。

センサユニット８１４は、装置８００について様々な方面での状態推定を提供するための１つまたは複数のセンサを含む。例えば、センサユニット８１４は、装置８００のオン/オフ状態、ユニットの相対位置を検出することができ、前記ユニットは、例えば、装置８００のディスプレイおよびキーパッドであり、センサユニット８１４はさらに、装置８００もしくは装置８００の１つのユニットの位置変更、ユーザと装置８００との接触有無、装置８００の方位もしくは加速/減速、および装置８００の温度変化を検出することができる。センサユニット８１４は、如何なる物理的な接触もないとき、近辺にある物体の存在を検出するための近接センサを含んでもよい。センサユニット８１４は、画像化アプリケーションに使用される光センサ、例えばＣＭＯＳまたはＣＣＤ画像センサをさらに含んでもよい。幾つかの実施例では、当該センサユニット８１４は、加速度センサ、ジャイロセンサ、磁気センサ、圧力センサ、または温度センサをさらに含んでもよい。

通信ユニット８１６は、装置８００と他の機器との有線または無線方式の通信が容易に実行できるように構成されている。装置８００は、通信規格に基づく無線ネットワーク、例えばＷｉＦｉ、２Ｇ、３Ｇ、４Ｇ、５Ｇ、またはそれらの組合せにアクセスされることができる。例示的な一実施例では、通信ユニット８１６は、放送チャネルを介して外部放送管理システムからの放送信号または放送関連情報を受信する。例示的な一実施例では、前記通信ユニット８１６は、短距離通信を促進するためのニアフィールド通信（ＮＦＣ）モジュールをさらに含む。例えば、ＮＦＣモジュールは、無線周波数認識（ＲＦＩＤ）技術、赤外線データ協会（ＩｒＤＡ）技術、超広帯域（ＵＷＢ）技術、ブルートゥース（登録商標）（ＢＴ）技術および他の技術によって実現されることができる。

例示的な実施例では、上記の方法を実行するための装置８００は、１つ又は複数の特定用途向け集積回路（ＡＳＩＣ）、デジタル信号プロセッサ（ＤＳＰ）、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、コントローラ、マイクロコントローラ、マイクロプロセッサまたは他の電子部品によって実現されることができる。

例示的な実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータ・プログラム命令を含むメモリ８０４がさらに提案されており、プロセッサ８２０が上記の方法を完成するように促進するために、装置８００のプロセッサ８２０によって上記コンピュータ・プログラム命令を実行することができる。

本発明の実施例では、プロセッサと、プロセッサにより実行可能な命令を格納するためのメモリとを備え、前記プロセッサは、上記の方法を実現するように構成されている電子機器がさらに提案されている。

電子機器は、端末、サーバ、または他の形態のデバイスとして実装されてもよい。

図５は、例示的な一実施例による電子機器１９００のブロック図である。例えば、電子機器１９００は、１つのサーバとして実装されてもよい。図５に示すように、電子機器１９００は、１つ又は複数のプロセッサを含む処理ユニット１９２２と、処理ユニット１９２２により実行可能な命令、例えばアプリを格納するためのメモリ１９３２を代表とするメモリ資源と、を含む。メモリ１９３２に格納されているアプリは、それぞれが１組の命令に対応する１つまたは複数のモジュールを含んでもよい。また、処理ユニット１９２２は、上記の方法を実現させるために命令を実行することに設定されている。

電子機器１９００は、電子機器１９００の電源を管理するように構成されている電源ユニット１９２６と、電子機器１９００をインターネットに接続するように構成されている有線或いは無線のネットワークインターフェース１９５０と、入力／出力（Ｉ/Ｏ）インターフェース１９５８とをさらに含んでもよい。電子機器１９００は、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒ^ＴＭ、ＭａｃＯＳＸ^ＴＭ、Ｕｎｉｘ^ＴＭ、Ｌｉｎｕｘ^ＴＭ、ＦｒｅｅＢＳＤ^ＴＭ或いは類似するシステム、のようなメモリ１９３２に格納されているオペレーティングシステムを操作することができる。

例示的な実施例では、不揮発性コンピュータ読み取り可能な記憶媒体、例えばコンピュータ・プログラム命令を含むメモリ１９３２がさらに提案されており、前記コンピュータ・プログラム命令が電子機器１９００の処理ユニット１９２２によって実行されることにより、上記の方法が実行されることができる。

本発明は、システム、方法、及び/又はコンピュータ・プログラム製品として具体化することができる。コンピュータ・プログラム製品は、コンピュータ読み取り可能なコードを含んでもよい。コンピュータ読み取り可能なコードがデバイス上に運行された場合、前記デバイス中のプロセッサは、性能パラメータ決定方法の命令を実行することとなる。当該コンピュータ読み取り可能なコードは、コンピュータ読み取り可能な記憶媒体に格納されていてもよい。

コンピュータ読み取り可能な記憶媒体は、命令実行デバイスに使用される命令を保持及び格納できる有形デバイスであってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電気格納デバイス、磁気格納デバイス、光学格納デバイス、電磁格納デバイス、半導体格納デバイス、または上記格納デバイスの任意の適切な組み合わせとして具体化することができる。コンピュータ読み取り可能な記憶媒体のより具体的な例示（非網羅的なリスト）として、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク読み出し専用メモリ（ＣＤーＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリースティック、フロッピーディスク、例えば命令が格納されるパンチカードまたは溝内の隆起構造のような機械的なコーディング・デバイス、および上記の任意の適切な組み合わせを含む。ここで用いられるコンピュータ読み取り可能な記憶媒体は、例えば無線電波やその他の自由に伝播する電磁波、導波管やその他の伝送媒体を介して伝播される電磁波（例えば光ファイバーケーブルを透過する光パルス）、または電線を介して伝送される電気信号のような瞬時信号本体として解釈されるものではない。

本明細書に記載のコンピュータ読み取り可能なプログラム命令は、コンピュータ読み取り可能な記憶媒体から様々な計算／処理デバイスにダウンロードするか、または例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワーク、および／または無線ネットワークなどのネットワークを介して外部コンピュータまたは外部記憶デバイスにダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光ファイバ伝送、無線伝送、ルーター、ファイアウォール、スイッチボード、ゲートウェイコンピュータおよび/またはエッジサーバーを含んでもよい。それぞれの計算／処理デバイス中のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ読み取り可能なプログラム命令を受信し、当該コンピュータ読み取り可能なプログラム命令を伝送して、それぞれの計算／処理デバイス中のコンピュータ読み取り可能な記憶媒体に格納する。

本発明に係る操作を実行するためのコンピュータ・プログラム命令は、アセンブリ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、ステータス設定データ、もしくは、1つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードであってもよく、前記プログラミング言語は、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋などのようなオブジェクト指向型プログラミング言語、及び「Ｃ」プログラミング言語又はそれに類似するプログラミング言語のような従来の手続き型プログラミング言語を含む。コンピュータ読み取り可能なプログラム命令は、その全体がユーザのコンピュータ上で実行されることができ、その一部がユーザのコンピュータ上で実行されてもよく、スタンドアロン型のソフトウェア・パッケージとして実行されてもよく、一部がユーザのコンピュータ上、他の一部がモート・コンピュータ上で実行されてもよく、全体がリモート・コンピュータ若しくはサーバ上で実行されてもよい。リモート・コンピュータに関する場合、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）などを含む任意タイプのネットワークを通じてユーザのコンピュータに接続されてもよいし、外部コンピュータに接続されてもよい（例えば、インターネット・サービス・プロバイダを利用してインターネットを通じて接続される）。幾つかの実施例では、コンピュータ読み取り可能なプログラム命令のステータス情報を利用して、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲートアレイ（ＦＰＧＡ）またはプログラマブル・ロジック・アレイ（ＰＬＡ）などの電子回路をカスタマイズでき、この電子回路は、コンピュータ読み取り可能なプログラム命令を実行して、本発明の各々の方面を実現することができる。

本明細書では、本発明の各々の方面について、本発明の実施例による方法、装置（システム）、コンピュータ・プログラム製品のフローチャートおよび／またはブロック図を参照しながら記述している。フローチャートおよび／またはブロック図の各ブロック、及びフローチャートおよび／またはブロック図中の各ブロックの組み合わせは、何れもコンピュータ読み取り可能なプログラム命令によって実現され得ることは、理解されるべきであろう。

これらのコンピュータ読み取り可能なプログラム命令が汎用コンピュータ、専用コンピュータ、又は他のプログラマブルデータ処理装置のプロセッサに供給できて、１種の機器が生じることとなり、それによって、これらの命令がコンピュータ又は他のプログラマブルデータ処理装置のプロセッサによって実行される場合、フローチャートおよび／またはブロック図中の１つ又は複数のブロックにて指定された機能／動作を実現するための装置が生じることとなる。これらのコンピュータ読み取り可能なプログラム命令がコンピュータ読み取り可能な記憶媒体に格納されてもよく、これらの命令により、コンピュータ、プログラマブルデータ処理装置および／または他のデバイスが特定の方式で動作することとなり、それによって、命令が格納されているコンピュータ読み取り可能な媒体には、フローチャートおよび／またはブロック図中の１つ又は複数のブロックにて指定された機能／動作の各々の方面を実現するための命令を含む製品が含まれることとなる。

コンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で実行される命令により、フローチャートおよび／またはブロック図中の１つ又は複数のブロックにて指定された機能／動作を実現するために、コンピュータ読み取り可能なプログラム命令をコンピュータ、他のプログラマブルデータ処理装置または他のデバイスにロードすることで、コンピュータ、他のプログラマブルデータ処理装置または他のデバイス上で一連の操作ステップを実行して、コンピュータにより実現されるプロセスが発生するようにしてもよい。

図面のフローチャートおよびブロック図には、本発明の種々の実施例によるシステム、方法、およびコンピュータ・プログラム製品の実現可能なアーキテクチャ、機能、および動作が示されている。この点からは、フローチャートまたはブロック図の各ブロックは、モジュール、プログラム・セグメントまたは命令の一部を代表することができ、前記モジュール、プログラム・セグメントまたは命令の一部は、指定された論理機能を実現するための１つまたは複数の実行可能命令を含む。幾つかの代替的な実施形態では、ブロックで述べる機能は、図面で述べる順序から外れて起こってもいい。例えば、２つの連続的なブロックは実際には、実質的に同時に実行されることができるが、それらは逆順で実行される場合もあり、これは関係する機能によって決定される。ブロック図および／またはフローチャート中の各ブロック、ならびにブロック図および／またはフローチャート中のブロックの組合せは、指定された機能または動作を実行する専用ハードウェアベースシステム、または、専用ハードウェアとコンピュータ命令の組合せによって実現され得ることも留意されるべきであろう。

以上、本発明の各実施例について説明しており、上記の説明は例示的なものに過ぎず、網羅的なものではなく、さらに、本発明は披露された各実施例に限定されるものではない。説明されていた各実施例の範囲及び精神から逸脱しない前提下、種々の修正及び変更は、当業界の一般的な技術者にとって自明なものである。本明細書に使用される専門用語の選択は、各実施例の原理、実際の適用又は市場における技術の改良を最もよく説明するか、あるいは本明細書に披露された各実施例を当業界の他の一般的な技術者に理解してもらうためのものである。

Claims

性能パラメータ決定方法であって、
複数の顔画像が含まれた第１データセットを取得することと、
前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得することと、
複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定することと、
を含むことを特徴とする性能パラメータ決定方法。
前記検出結果は、顔画像内の顔が生体に属するか否かを判断するためのデータを含むことを特徴とする請求項１に記載の性能パラメータ決定方法。
前記検出結果は、顔属性、攻撃方法、照明条件、画像化環境、深度情報、および反射情報のうちの少なくとも１種を含むことを特徴とする請求項１または２に記載の性能パラメータ決定方法。
前記複数の顔画像にはアノテーション情報があり、複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定することは、
顔画像のそれぞれについて、当該顔画像に対応する検出結果を当該顔画像に対応する顔画像のアノテーション情報と照合して当該顔画像に対応する照合結果を取得することと、
前記複数の顔画像のうちの少なくとも一部に対応する照合結果に基づいて前記ニューラルネットワークの前記性能パラメータを決定することと、
を含むことを特徴とする請求項１乃至３のいずれか一項に記載の性能パラメータ決定方法。
評価結果に基づいて、第２データセット中の前記評価結果に関連する複数の訓練サンプルを取得し、前記訓練サンプルは、顔画像を含み、前記評価結果は、前記性能パラメータに基づいて前記ニューラルネットワークを評価して得られた結果であることと、
前記複数の訓練サンプルを前記ニューラルネットワークに入力して、訓練サンプル毎に対応する検出結果を取得することと、
前記複数の訓練サンプルのうちの少なくとも一部に対応する検出結果と前記複数の訓練サンプルのうちの少なくとも一部のアノテーション情報との差異度に応じて、前記ニューラルネットワークの重みパラメータを調整することと、
をさらに含むことを特徴とする請求項１乃至４のいずれか一項に記載の性能パラメータ決定方法。
前記第１データセットおよび前記第２データセットは何れも実顔画像と非実顔画像とを含み、
前記実顔画像のアノテーション情報は、生体分類結果と顔属性とを含み、
前記非実顔画像のアノテーション情報は、攻撃方法、照明条件、および画像化環境のうちの少なくとも１種と、生体分類結果とを含むことを特徴とする請求項５に記載の性能パラメータ決定方法。
前記第２データセット中の実顔画像の数は、非実顔画像の数よりも小さいことを特徴とする請求項６に記載の性能パラメータ決定方法。
ターゲット取得方法により非実顔画像を取得することをさらに含むことを特徴とする請求項６または７に記載の性能パラメータ決定方法。
前記ターゲット取得方法は、収集方向、曲げ方式、および非実顔画像を収集するための収集装置の種別のうちの少なくとも１種を含むことを特徴とする請求項８に記載の性能パラメータ決定方法。
同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、収集方向が異なる、および/または、
同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、曲げ方式が異なる、および/または、
同一のデータセットに所属する非実顔画像のうちの少なくとも一部は、対応する収集装置の種別が異なる
ことを特徴とする請求項９に記載の性能パラメータ決定方法。
性能パラメータ決定装置であって、
複数の顔画像が含まれた第１データセットを取得する第１取得モジュールと、
前記複数の顔画像をニューラルネットワークに入力して、顔画像毎に対応する生体分類結果及び検出結果を取得する検出モジュールと、
複数の前記検出結果に基づいて前記ニューラルネットワークの性能パラメータを決定する決定モジュールと、
を備えることを特徴とする性能パラメータ決定装置。
前記検出結果は、顔画像内の顔が生体に属するか否かを判断するためのデータを含むことを特徴とする請求項１１に記載の性能パラメータ決定装置。
前記検出結果は、顔属性、攻撃方法、照明条件、画像化環境、深度情報、および反射情報のうちの少なくとも１種を含むことを特徴とする請求項１１または１２に記載の性能パラメータ決定装置。
前記複数の顔画像にはアノテーション情報があり、前記決定モジュールは、さらに、
顔画像のそれぞれについて、当該顔画像に対応する検出結果を当該顔画像に対応する顔画像のアノテーション情報と照合して当該顔画像に対応する照合結果を取得し、
前記複数の顔画像のうちの少なくとも一部に対応する照合結果に基づいて前記ニューラルネットワークの前記性能パラメータを決定するために用いられる、
ことを特徴とする請求項１１乃至１３のいずれか一項に記載の性能パラメータ決定装置。
前記装置は、訓練モジュールをさらに備え、
前記訓練モジュールは、
評価結果に基づいて、第２データセット中の前記評価結果に関連する複数の訓練サンプルを取得し、前記訓練サンプルは、顔画像を含み、前記評価結果は、前記性能パラメータに基づいて前記ニューラルネットワークを評価して得られた結果であり、
前記複数の訓練サンプルを前記ニューラルネットワークに入力して、訓練サンプル毎に対応する検出結果を取得し、
前記複数の訓練サンプルのうちの少なくとも一部に対応する検出結果と前記複数の訓練サンプルのうちの少なくとも一部のアノテーション情報との差異度に応じて、前記ニューラルネットワークの重みパラメータを調整するために用いられる、
ことを特徴とする請求項１１乃至１４のいずれか一項に記載の性能パラメータ決定装置。
前記第１データセットおよび前記第２データセットは何れも実顔画像と非実顔画像を含み、
前記実顔画像のアノテーション情報は、生体分類結果と、顔属性とを含み、
前記非実顔画像のアノテーション情報は、攻撃方法、照明条件、および画像化環境のうちの少なくとも１種と、生体分類結果とを含むことを特徴とする請求項１５に記載の性能パラメータ決定装置。
ターゲット取得方法により非実顔画像を取得する第２取得モジュールをさらに備えることを特徴とする請求項１６に記載の性能パラメータ決定装置。
前記ターゲット取得方法は、収集方向、曲げ方式、および非実顔画像を収集するための収集装置の種別のうちの少なくとも１種を含むことを特徴とする請求項１７に記載の性能パラメータ決定装置。
電子機器であって、
プロセッサと、
前記プロセッサにより実行可能な命令を格納するためのメモリと、を備え、
前記プロセッサは、前記命令を呼び出して請求項１乃至１０のいずれか一項に記載の性能パラメータ決定方法を実行するように構成されていることを特徴とする電子機器。
コンピュータ・プログラム命令が格納されているコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータ・プログラム命令がプロセッサにより実行された場合、前記プロセッサが請求項１乃至１０のいずれか一項に記載の性能パラメータ決定方法を実施するように促される、ことを特徴とするコンピュータ読み取り可能な記憶媒体。
コンピュータ読み取り可能なコードを含むコンピュータ・プログラム製品であって、
前記コンピュータ読み取り可能なコードがデバイス上に実行された場合、前記デバイス中のプロセッサは、請求項１乃至１０のいずれか一項に記載の性能パラメータ決定方法を実施するための命令を実行するようになる、
ことを特徴とするコンピュータ・プログラム製品。