JP7079742B2

JP7079742B2 - 計算機システム

Info

Publication number: JP7079742B2
Application number: JP2019021957A
Authority: JP
Inventors: 正和藤尾; 健太高橋; 陽介加賀; 渉中村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-02-08
Filing date: 2019-02-08
Publication date: 2022-06-02
Anticipated expiration: 2039-02-08
Also published as: JP2020129298A

Description

本発明は、入力画像から目的対象領域を抽出する機械学習モデルの訓練に関する。

例えば、ＩＤ・パスワードに変わる、安全で便利な個人認証手段として、生体認証技術の利用が拡大しつつある。金融サービスにおいては、モバイル端末からの口座開設、残高照会、口座振込み、ＡＴＭ利用時の個人認証等においての生体認証の利用が実現されつつある。これまでは、生体認証の利用は指紋センサなどの専用装置を持つスマートフォンなどに限られていたが、生体認証用の専用装置や特定の光源が不要で、スマートフォンやタブレットに標準搭載されている汎用カメラを用いた個人認証も実現されつつある。

汎用カメラを用いた生体認証の課題として、手を翳す姿勢や照明環境の自由度が高く、抽出される生体特徴が安定しないという点が挙げられる。特許文献１では、汎用カメラを用いた指静脈認証技術の課題として、登録時と認証時で照明環境や撮像装置などの撮影条件が異なっていても、登録時と認証時に生体を撮影して得られる各生体画像の色差を最小化することで、照明変動や機器間の個体差の影響を低減して高精度に認証を行う技術を開示している。

特開２０１８－１８０６６０号公報

しかしながら、特許文献１に開示の方法は、カメラで撮影した画像の背景に、肌色の生体情報画像との同系色が存在する場合や白熱電灯下の撮影において、生体領域と背景領域の色系統の差分がなくなり、登録時又は認証時の生体領域の代表色を選ぶことが困難となる。

登録時又は認証時において、背景に肌色の同系色の物体が存在する場合や白熱電灯下など、色情報により手指と背景領域の分離が困難な場合においても、正しく手指領域を抽出することで、撮影環境の変換による影響を低減して高精度に認証を行うことが可能な技術が望まれる。また、手指による個人認証と異なる分野においても、画像から目的領域（目的画像）を正確に抽出することができる技術が望まれる。

本発明の一態様は、入力画像から目的対象領域を抽出するモデルを訓練する計算機システムであって、プログラム及び訓練データを格納する１以上の記憶装置と、前記プログラムに従って動作する１以上のプロセッサと、を含み、前記１以上のプロセッサは、カラー画像を取得し、前記カラー画像から、前記カラー画像の色情報に基づき、目的領域と背景領域とが分離された背景分離画像を生成し、前記カラー画像をグレースケール化してグレースケール画像を生成し、前記グレースケール画像と背景分離画像のセットを、前記訓練データに含め、グレースケール画像が入力され、背景分離画像を出力するモデルを、前記訓練データを使用して訓練する、ものである。

本発明の一態様によれば、画像から目的領域を適切に抽出することができる。

第１の実施形態の生体認証システムの構成例を示す図である。第１の実施形態の生体認証システムの処理概要を示す図である。第１の実施形態の生体認証システムの処理フローの例である。第１の実施形態の成功した画像処理の例である。第１の実施形態の失敗した画像処理の例である。第２の実施形態の生体認証システムのソフトウェア構成例を示す。第２の実施形態の生体認証システムの処理概要を示す図である。第２の実施形態の学習フェーズでの処理フローの例である。第３の実施形態の生体認証システムの構成概要を示すブロック図である。第４の実施形態の生体認証システムのソフトウェア構成例を示す。第４の実施形態の生体認証システムの処理概要を示す図である。第４の実施形態における連続する入力画像フレーム間の背景分離画像の位置変動を比較する例を示す。

以下、添付図面を参照して本発明の実施形態を説明する。本実施形態は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではないことに注意すべきである。

〔第１の実施形態〕
図１は、第１の実施形態の生体認証システムの構成例を示す図である。生体認証システム１０は、例えば、ユーザ端末（計算機）である。生体認証システム１０は、例えば、入力装置１１、表示装置１２、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１３、撮像装置１４、主記憶装置１５、及び補助記憶装置１６を備える。

入力装置１１は、ユーザによる指示等の入力を受け付ける装置であり、例えばキーボード、マウス又はタッチパネル等であってもよい。例えば、入力装置１１は、表示装置１２に表示された複数のボックス（ボタン）から、該当の処理を選ぶ処理などを受け付ける。

表示装置１２は、ユーザに種々の文字及び領域切り出し結果の画像等の情報を出力する装置であり、例えば液晶ディスプレイのような画像表示装置であってもよい。入力装置１１及び表示装置１２は、一体化していてもよい。撮像装置１４は、例えばカメラであり、個人を特定するための生体情報を画像として取得する。

主記憶装置１５は、ＣＰＵ１３によって実行されるプログラムを格納する。主記憶装置１５としては、典型的にはＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）のような高速かつ揮発性の記憶装置等が採用される。本実施形態では、この主記憶装置１５が格納しているプログラムは、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）１５１、カラー画像領域分割プログラム１５２、グレースケール画像領域分割モデル１５３、グレースケール化プログラム１５４、領域分割モデル訓練プログラム１５５、及び認証プログラム１５６を含む。

主記憶装置１５には、ＣＰＵ１３が各種処理を実行する際など、補助記憶装置１６に格納されている各プログラム及びデータの少なくとも一部が必要に応じて一時的にコピーされてもよく、その他のプログラム及びその参照データが格納されてもよい。さらに、主記憶装置１５には、ＣＰＵ１３が実行した処理の結果が格納されてもよい。

補助記憶装置１６は、ＣＰＵ１３が各プログラムに基づいて種々の処理を実行するために参照する情報を格納する。本実施形態の補助記憶装置１６には、グレースケール画像領域分割モデル１５３の訓練（学習）に使用される訓練データ１６１及び個人認証のために参照される認証参照情報１６２を格納している。この補助記憶装置１６としては、典型的にはＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはフラッシュメモリなどの大容量かつ不揮発性の記憶装置等が採用される。主記憶装置１５、補助記憶装置１６及びそれらの組み合わせは、それぞれ、非一過性の記憶媒体を含む記憶装置である。

ＣＰＵ１３は、プロセッサであって、主記憶装置１５に格納されたプログラムの命令コードに従って、様々な処理を実行する。ＣＰＵ１３は、プログラムを実行することによって種々の機能を実現する。例えば、ＣＰＵ１３は、カラー画像領域分割プログラム１５２、グレースケール画像領域分割モデル１５３、グレースケール化プログラム１５４、領域分割モデル訓練プログラム１５５、及び認証プログラム１５６それぞれに従って、カラー画像領域分割部、グレースケール画像領域分割モデル部、画像変換部、領域分割モデル訓練部、及び認証部として動作する。

ＣＰＵ１３（プロセッサ）は、単一の処理ユニットまたは複数の処理ユニットで構成することができ、単一もしくは複数の演算ユニット、又は複数の処理コアを含むことができる。ＣＰＵ１３は、１又は複数の中央処理装置、マイクロプロセッサ、マイクロ計算機、マイクロコントローラ、デジタル信号プロセッサ、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、及び／又は制御指示に基づき信号を操作する任意の装置として実装することができる。

上述のように、プログラムをＣＰＵ１３が実行することにより、生体認証システム１０の各種処理が実行される。したがって、以下において、機能部又はプログラムにより実行される処理は、ＣＰＵ１３又は生体認証システム１０による処理である。

カラー画像領域分割プログラム１５２は、訓練データ１６１の教師データを生成する。一つの入力画像から生成される教師データは、背景分離画像である。背景分離画像は、入力画像から抽出された生体情報領域と生体情報領域から分離された背景画像で構成されている。例えば、背景分離画像は２値画像であって、生体情報領域がと背景領域とは２値で分離されている。例えば、生体情報領域の各画素に１が与えられ、背景領域の各画素に０が与えられる。訓練データ１６１は、グレースケール化された入力画像と、カラー画像領域分割プログラム１５２により生成される教師データとのセットである。

カラー画像領域分割プログラム１５２は、入力されたカラー画像において、色情報に基づいて、生体情報領域と背景領域とを分離する。例えば、カラー画像領域分割プログラム１５２は、ＲＧＢやＹＵＶなどの色空間情報の値の範囲に基づいて、生体情報領域と背景領域とを分離する。本例において、カラー画像領域分割プログラム１５２は、ルールベースのプログラムであるが、機械学習モデルであってもよい。

グレースケール画像領域分割モデル１５３は、機械学習モデルであり、学習フェーズにおいて、訓練データ１６１を使用して訓練される。個人の生体認証を行う認証フェーズにおいて、グレースケール画像領域分割モデル１５３は、グレースケール化された入力画像の生体情報領域と背景領域とを分割し、背景分離画像を生成する。背景領域が入力画像から分離され、生体情報領域が入力画像から抽出される。

グレースケール化プログラム１５４は、認証フェーズにおいて、グレースケール画像領域分割モデル１５３による処理のため、入力されたカラー画像をグレースケール画像に変換する。領域分割モデル訓練プログラム１５５は、学習フェーズにおいて、訓練データ１６１を使用して、グレースケール画像領域分割モデル１５３を訓練する。

認証プログラム１５６は、領域分割モデル訓練プログラム１５５が生成した背景分離画像に基づき入力画像における生体情報領域を特定し、当該生体情報領域の情報と認証参照情報１６２とに基づき、個人認証を行う。

図１に示すハードウェア及びソフトウェアの各構成要素の数は任意であり、一部の構成要素は省略されていてもよい。生体認証システム１０の機能の少なくとも一部は、プロセッサと異なるロジック回路で構成されてもよい。図１の例において、生体認証システム１０は一つの計算機で構成されているが、生体認証システム１０はネットワークを介して通信し、それぞれが１以上のプロセッサと１以上の記憶装置を含む複数の装置（計算機）を含んでもよい。

上記プログラムは、異なる計算機に実装されてもよい。例えば、訓練後のグレースケール画像領域分割モデル１５３及びグレースケール化プログラム１５４がユーザ端末に実装され、訓練前後のグレースケール画像領域分割モデル１５３及び他のプログラム（グレースケール化プログラム１５４を含む）がサーバに実装されてもよい。

図２は、第１の実施形態の生体認証システム１０の処理概要を示す図である。生体認証システム１０の処理は、グレースケール画像領域分割モデル１５３の学習フェーズ（訓練フェーズ）と、学習後（訓練後）のグレースケール画像領域分割モデル１５３による認証処理を実行する認証フェーズを含む。

学習フェーズは、訓練データ１６１の生成及び訓練データ１６１によるグレースケール画像領域分割モデル１５３の学習を含む。入力カラー画像２００は、訓練データ１６１を生成するためのデータである。入力カラー画像２００は、個人認証対象の生体情報を有する対象が撮像された可視光画像である。以下に説明する例においては、生体情報を有する対象は１又は複数の手指である。

入力カラー画像２００は、カラー画像領域分割プログラム１５２によって、目的領域である生体情報領域と背景領域とに分割され（２０２）、１又は複数の背景分離画像２０３が生成される。背景分離画像は、例えば、それぞれ二値の一方が与えられている、分離された生体情報領域（例えば手指）及び背景領域からなる。例えば、複数の指の一つの背景分離画像２０３、一つの指の背景分離画像２０３又はそれぞれが一つの指を示す複数の背景分離画像２０３が生成される。カラー画像領域分割プログラム１５２は、入力カラー画像２００において、ＲＧＢやＹＵＶなどの色空間情報の値の範囲に基づいて、生体情報領域と背景領域を分割し、生成した背景分離画像２０３を訓練データ１６１に含める。

入力カラー画像２００は、さらに、グレースケール化プログラム１５４によってグレースケール化される（２０１）。グレースケール化された入力画像は、上記背景分離画像２０３と共に、訓練データ１６１に含められる。グレースケール化された入力画像が学習用の入力データであり、１又は複数の背景分離画像２０３が教師データである。このように、生体情報領域と背景領域の分離可能な複数の入力画像から、訓練データ１６１を用のデータ２０４を機械的（自動的）に収集することができる。

グレースケール画像領域分割モデル（訓練モデル）１５３は、領域分割モデル訓練プログラム１５５によって、訓練データ１６１を使用して訓練される（２０５）。グレースケール画像領域分割モデル１５３は、入力されたグレースケール画像から、１又は複数の背景分離画像を出力する。領域分割モデル訓練プログラム１５５は、グレースケール画像領域分割モデル１５３の出力と、訓練データ１６１の教師データとを比較結果に基づいて、グレースケール画像領域分割モデル１５３のパラメータを更新する。グレースケール画像領域分割モデル１５３は、例えば多階層ニューラルネットワークである。この例の更新パラメータは、入力層、複数の中間層及び出力層の隣接間の結合重みを含む。

次に、個人認証を行う認証フェーズを説明する。入力カラー画像２０７は、個人認証を行う人物の生体情報を有する対象が撮像された、可視光画像である。入力カラー画像２０７は、グレースケール化プログラム１５４によってグレースケール化され（２０８）、グレースケール画像２０９が生成される。訓練されたグレースケール画像領域分割モデル１５３は、グレースケール画像２０９の領域分割を行う（２１０）。具体的には、グレースケール画像領域分割モデル１５３は、入力グレースケール画像２０９から、分離された生体情報領域と背景領域の２値画像である、背景分離画像２１１を生成し、主記憶装置１５の記憶領域に格納する。

図２で不図示の認証プログラム１５６は、背景分離画像２１１に基づき、入力カラー画像２０７における生体情報領域を特定する。生体情報は、例えば、静脈や指紋のパターンである。認証プログラム１５６は、入力カラー画像２０７における生体情報領域を分析し、生体情報を取得する。認証プログラム１５６は、その生体情報と、認証参照情報１６２に格納されている該当人物の生体情報とを比較して、当該人部の個人認証を行う。

認証フェーズで用いられるグレースケール画像領域分割モデル１５３は、例えば、スマートフォンやタブレットにおいて、３０～６０ｆｐｓ程度の実用速度で動作するよう、階層数や学習パラメータ数が制限される。学習フェーズの処理は、メモリやディスク容量の大きいサーバにおいて実行されてもよい。このため、カラー画像領域分割プログラム１５２をニューラルネットワークで構成する場合、その階層数やパラメータ数は、グレースケール画像領域分割モデル１５３よりも多くてもよい。

＜フローチャート＞
図３は、第１の実施形態の生体認証システム１０の処理フローの例である。学習フェーズは、ＲＧＢやＹＵＶなどの色空間情報の値の範囲に基づいて、動画フレーム画像の生体情報領域と背景領域とを分割し、教師あり学習で使用するための訓練データを生成し、訓練データを使用して機械学習モデルを訓練（生成）する。認証フェーズは、生成した機械学習モデルを用いて、動画フレーム画像から生体情報領域を抽出する。

最初に学習フェーズを説明する。ステップＳ３０１において、生体認証システム１０は、その汎用カメラを起動し、動画のフレーム画像を取得する。次にステップＳ３０２において、生体認証システム１０は、抽出対象である手の領域が写った一定サイズの部分領域をフレーム画像から切り出す。切り出す領域の位置は予め設定されており、生体認証システム１０は、例えば、画面上に手をかざす位置を示すガイドを表示する。

ステップＳ３０３において、生体認証システム１０（グレースケール化プログラム１５４）は、切り出した画像をグレースケールに変換し、訓練データ１６１の一部として補助記憶装置の記憶領域に格納する。ステップＳ３０４において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、切り出した画像から、ＲＧＢやＹＵＶなどの色空間情報（例えば肌色情報）に基づき、手領域（生体対象領域）と背景領域とを分離し、生体対象領域を抽出する。

ステップＳ３０５において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、抽出した手領域の輪郭追跡を行い、ステップＳ３０６において、指先と指股のキーポイントを抽出する。ステップＳ３０７において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、抽出したキーポイントと輪郭情報に基づき、指単位でのＲＯＩ領域を抽出する。抽出した指単位のＲＯＩ領域の画像群（背景分離画像群）は、グレースケール化した画像と関連付けられ、訓練データ３１４の一部として補助記憶装置１６の記憶領域に格納される。

ステップＳ３１６において、訓練データのサンプル数が所定数に達すると、ステップＳ３０８において、生体認証システム１０（領域分割モデル訓練プログラム１５５）は、訓練データ１６１を用いて、生体情報を含むグレースケール画像を入力として指ＲＯＩ領域画像（背景分離画像）を出力とする、グレースケール画像領域分割モデル１５３を訓練する。

次に認証フェーズを説明する。認証フェーズは、生成（訓練）されたグレースケール画像領域分割モデル１５３を用いて、動画フレーム画像から生体情報領域を抽出する。まず、ステップＳ３０９において、生体認証システム１０は、その汎用カメラを起動し、動画のフレーム画像を取得する。ステップＳ３１０において、生体認証システム１０は、ステップＳ３０２と同様に、抽出対象である手の領域が写った一定サイズの部分領域をフレーム画像から切り出す。

次に、ステップＳ３１１において、生体認証システム１０（グレースケール化プログラム１５４）は、切り出した画像をグレースケールに変換する。ステップＳ３１２において、生体認証システム１０（グレースケール画像領域分割モデル１５３）は、手領域の抽出を行う。例えば、例えば生体情報領域を１、背景情報領域を０とする２値画像を出力する。

図４の入力画像４０１は、ステップＳ３０２やステップＳ３１０で切り出される生体情報を含む画像の一例である。画像４０２は、ステップＳ３０４により得られる手領域画像の一例である。画像群４０３は、ステップＳ３０７により得られる指ＲＯＩ領域画像群の一例である。

一方、図５の画像５０１は、手領域の背後に、手と同系色の色を持つ顔が映りこんでいる一例を示しており、画像５０３は、背景にダンボールやテーブルなどの手と同系色をもつ物体が写りこんでいる一例を示している。これらの例では、ステップＳ３０４において、肌色領域と生体情報領域が一致しないため、ステップＳ３０７で正しい指ＲＯＩ領域を抽出することができない。具体的には、図５の画像５０２や、画像５０４に例示するように各指領域を独立して抽出することができない。なお、このような画像は、訓練データ１６５１に加えられないように、排除されてもよい。適切な分離についての判定の方法の例は、第２の実施形態で説明される。

これに対して、グレースケール化した画像を入力として指領域ＲＯＩを出力するグレースケール画像領域分割モデル１５３を用いるステップＳ３１２は、入力画像における色の影響を低減することができるので、図４の画像４０１と同様に、各々の指領域ＲＯＩを適切に抽出することが可能である。

以上の構成により、学習に必要となる教師付きデータ（訓練データ）を機械的に生成することができるので、効率的な訓練データ生成が実現される。また、機械学習モデルは、グレースケール化された画像を入力として、背景分離を行うので、肌色同系色背景や白熱電灯下においても、安定した手指領域の分離を実現することができる。

本実施形態は、個人認証のための生体情報領域を入力画像において分離するが、本実施形態及び他の実施形態の画像分離技術は、生体認証と異なる分野において他の目的画像、例えば、特定の物体や人体を、入力画像から分離するために利用することができる。

〔第２の実施形態〕
図６Ａは、第２の実施形態の生体認証システム１０のソフトウェア構成例を示す。第１の実施形態のプログラムに加え、生体認証システム１０は、色変換プログラム１５７を含む。

図６Ｂは、第２の実施形態の生体認証システム１０の処理概要を示す図である。入力カラー画像６００は、個人認証対象の生体情報が撮像された可視光画像である。入力カラー画像６００は、カラー画像領域分割プログラム１５２によって、ＲＧＢやＹＵＶなどの色空間情報の値の範囲に基づいて、生体情報領域と背景領域に分離される。カラー画像領域分割プログラム１５２は、さらに、適切に生体情報領域が分離されているか判定する（６０２）。

本例において、カラー画像領域分割プログラム１５２は、生体情報領域の形状に基づいて、適切に生体情報領域が分離されているか判定する。カラー画像領域分割プログラム１５２は、図３のステップＳ３０４～Ｓ３０７の処理を実施し、例えば、幅や長さが一定の範囲に収まる指ＲＯＩ領域が一定本数以上抽出できたか否か判定する。

正しく指ＲＯＩ領域が抽出できたと判定された場合、カラー画像領域分割プログラム１５２は、生成された背景分離画像６０６を、訓練データ１６１の教師データとして、補助記憶装置１６の記憶領域に格納する。一方、指ＲＯＩ領域が適切に抽出できなかった場合、色変換プログラム１５７は、生成した背景分離画像を訓練データ１６１に含めることなく、入力カラー画像を、例えば白熱電灯下の画像から蛍光灯下の画像に変換し（６０３）、色変換画像６０４を生成する。カラー画像領域分割プログラム１５２は、色変換画像６０４から、生体情報領域を抽出し（６０５）、背景分離画像６０６として訓練データ１６１に含める。

グレースケール化プログラム１５４は、入力カラー画像６００をグレースケール化し（６０１）、対応する背景分離画像６０６と共に、訓練データ１６１に含める。これにより、生体情報領域と背景情報の分離が可能な入力カラー画像だけではなく、色変換前には生体情報領域が分離不可能な入力カラー画像からも、訓練データ１６１を機械的に生成できる。

領域分割モデル訓練プログラム１５５は、グレースケール画像領域分割モデル１５３を、訓練データ１６１を使用して、訓練する（６０８）。グレースケール画像領域分割モデル１５３は、入力のグレー画像を、生体情報領域と背景領域を２値画像（例えば生体情報領域を１、背景情報領域を０）として分離して出力する。グレースケール画像領域分割モデル１５３は、例えば多階層ニューラルネットワークである。

画像色変換６０３としては、例えば、冬景色を夏景色に変換する、白熱灯下の画像を蛍光灯下に画像に変換するなど、ドメイン変換を行う画像変換方式（Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks、Jun-Yan Zhu Taesung Park Phillip Isola Alexei A. Efros、In ICCV 2017）を使用することができる。

一般的にはドメイン変換手法はモデルサイズが大きくスマートフォンやタブレットなどの低リソースの端末で実施することは困難である。そのため、訓練データ１６１の生成は、ユーザ端末ではなく、サーバにより実行することで、訓練データ１６１の生成時間を短縮できる。

＜フローチャート＞
図７は、第２の実施形態の学習フェーズでの処理フローの例である。学習フェーズは、ＲＧＢやＹＵＶなどの色空間情報の値の範囲に基づいて、動画フレーム画像の生体情報領域と背景領域とを分離し、教師あり学習で使用するための訓練データを生成し、機械学習モデルを訓練（生成）する。

最初にステップＳ７０１において、生体認証システム１０は、その汎用カメラを起動し、動画のフレーム画像を取得する。次にステップＳ７０２において、生体認証システム１０は、抽出対象である手の領域が写った一定サイズの部分領域をフレーム画像から切り出す。切り出す位置は予め設定されており、生体認証システム１０は、例えば、の画面上に、手をかざす位置を示すガイドを表示する。

ステップＳ７０９において、生体認証システム１０（グレースケール化プログラム１５４）は、切り出した画像をグレースケール画像に変換し、訓練データ１６１に含める。ステップＳ７０３において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、切り出した画像から、ＲＧＢやＹＵＶなどの色空間情報（例えば肌色情報）に基づき、手領域を抽出する。ステップＳ７０４において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、抽出した手領域の輪郭を追跡し、ステップＳ７０５において、指先と指股のキーポイントを抽出する。

ステップＳ７０６において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、抽出したキーポイントと輪郭情報に基づき、指単位でのＲＯＩ領域を抽出する。ステップＳ７１０において、生体認証システム１０（カラー画像領域分割プログラム１５２）は、指ＲＯＩ領域が正しく背景分離できたものかどうか判定する。正しいかどうかの判定は、例えば、幅や長さが一定の範囲に収まる指ＲＯＩ領域が一定本数以上抽出できたか否かに基づいてもよい。正しいと判定された場合、抽出された指単位のＲＯＩ領域画像は、グレースケール化した画像と共に、訓練データ１６１の一部として補助記憶装置１６の記憶領域に格納される。

正しくないと判定された場合、画像変換ステップＳ７０７において、生体認証システム１０（色変換プログラム１５７）は、例えば、入力カラー画像を白熱電灯下の画像と仮定し、入力カラー画像を蛍光灯下の画像に予め設定された関数により変換する。その後、生体認証システム１０は、再びステップＳ７０３からのステップを繰り返す。

ステップＳ７１０において、正しい指ＲＯＩ領域が取得できたと判定された場合、グレースケール化された画像と共に、背景分離画像が訓練データ１６１の一部として補助記憶装置１６の記憶領域に格納される。

ステップＳ７１３において訓練データサンプル数が所定数となると、ステップＳ７０８において、生体認証システム１０（領域分割モデル訓練プログラム１５５）は、グレースケール画像領域分割モデル１５３を、訓練データ１６１を使用して、訓練する。グレースケール画像領域分割モデル１５３は、生体情報を含むグレースケール画像を入力として、指ＲＯＩ領域を出力。

上述のように、生体認証システム１０は、カラー画像から生成された背景分離画像における目的領域の形状に基づいて、目的領域が適切に分離されているかを判定する。目的領域が適切に分離されていないと判定した場合に、カラー画像の色変換を行い、新たな背景分離画像を生成する。

本実施形態の構成により、白熱電灯下や肌色背景画像など通常では訓練データを機械的に生成することが困難な画像からも、教師データを生成できる。結果として、肌色同系色背景や白熱電灯下における安定した手指領域の分離を実現できる。

〔第３の実施形態〕
図８は、第３の実施形態の生体認証システム１０の構成概要を示すブロック図である。カラー画像領域分割プログラム１５２及びグレースケール画像領域分割モデル１５３は、それぞれ、動画フレーム画像を入力として受け取り、生体情報領域と背景領域の分離を行うと同時に、正しい位置に手が翳されているかを判定する機能を持つ。カラー画像領域分割プログラム１５２及びグレースケール画像領域分割モデル１５３は、それぞれ、入力画像の特徴を抽出する共通特徴抽出部８０２と、領域分割部８０３と、ずれ方向推定部８０４とを含む。なお、カラー画像領域分割プログラム１５２及びグレースケール画像領域分割モデル１５３の一方のみが当該機能を有していてもよい。

カラー画像領域分割プログラム１５２に対する入力画像８０１は、個人認証対象の生体情報が撮像されたカラー画像であり、グレースケール画像領域分割モデル１５３に対する入力画像８０１は、グレースケール画像である。共通特徴抽出部８０２は、入力画像８０１から、領域分割部８０３及びずれ方向推定部８０４の両方に利用可能な共通の特徴量を抽出する。例えば、画像処理において車や人といった対象の種類を判定するために使われる畳み込みニューラルネットワークを用いることができる。

本実施形態においては、共通特徴抽出部８０２は、画像のサイズをダウンサンプリングしていき、ずれ方向推定部で必要となる３クラス（Ｘ、Ｙ、Ｚ方向）の推定に用いられる特徴量を抽出する。例えば、Ｘ方向及びＹ方向は画面に平行で互いに垂直な方向であり、Ｚ方向は画面に垂直な方向である。

領域分割部８０３は、入力画像８０１の各画素が、指ＲＯＩ領域に含まれるか否かの２値分類問題を学習する。このため、領域分割部８０３は、一旦ダウンサンプリングされた共通特徴量を、画像サイズまでアップサンプリングし、画素数分の２クラス判定を行う。このため、一般的には、ずれ方向推定部８０４（クラス分類）処理に比べ、領域分割部８０３の処理時間が長くなる。

ずれ方向推定部８０４は、共通特徴抽出部８０２の出力結果を用いて、入力画像が指ＲＯＩ領域の抽出に適した位置にあるかどうかの推定を行う。例えば、５本の指の一部が写っていなかったり一部欠けていたりした場合など領域分割が正しく行われず、手を翳し続けている間、指ＲＯＩ領域の抽出に失敗し続ける。

ずれ方向推定部８０４は、手の位置が、予め設定された基準位置から、左右あるいは奥行き方向（Ｘ、Ｙ、Ｚ方向）それぞれにどの程度ずれているかを推定する。生体認証システム１０は、推定されたずれを補正するための処理を実行する。

具体的には、ずれ方向推定部８０４は、カメラ制御部８０５に通知する。カメラ制御部８０５は、通知された手の位置のずれ（ずれ方向及びずれ量）に従って、ズームイン、ズームアウトなどによる位置ずれ補正制御信号を撮像装置１４に送信する。

さらに、ガイド表示部８０６は、ずれ方向推定部８０４から通知されたずれ方向と逆方向に矢印を表示してもよい、ガイド表示部８０６は、「近づけてください」「遠ざけてください」といったメッセージを、表示装置１２における画像又は音声により指示することで、入力画像の位置ずれ補正をおこなってもよい。

カラー画像領域分割プログラム１５２又はグレースケール画像領域分割モデル１５３は、カメラ制御部８０５又はガイド表示部８０６によって位置ずれが補正された新たな入力画像を取得する。なお、カメラ制御部８０５及びガイド表示部８０６の一方は省略されてもよい。また、他の方法によりずれを補正してもよい。

上述のように、生体認証システム１０は、カラー画像又はグレースケール画像から生成された背景分離画像において、目的領域の位置のずれを推定し、当該ずれを補正するための処理を行った後に新たなカラー画像を取得する。

以上のように、高速動作するずれ方向推定部８０４により、入力画像の位置を補正することで、処理時間のかかる領域分割部８０３の処理に失敗するフレーム画像の数を低減することで、動画フレーム画像の高速な領域分割を実現することができる。

〔第４の実施形態〕
図９Ａは、第４の実施形態の生体認証システム１０のソフトウェア構成例を示す。第１の実施形態のプログラムに加え、生体認証システム１０は、安定度判定プログラム１５８を含む。

図９Ｂは、第４の実施形態の生体認証システム１０の処理概要を示す図である。学習フェーズにおけるカラー画像領域分割プログラム１５２及び認証フェーズにおけるグレースケール画像領域分割モデル１５３の一方又は双方が、以下で説明する処理を実行する。これにより、適切な訓練データの生成又は認証を行うことができる。以下においては、認証フェーズでの処理を説明する。

入力フレーム画像９０１～９０３は、連続するカラー動画フレーム画像から生成されたグレースケール動画フレーム画像を表す。まず、ｎ番目のフレーム画像９０１が入力されると、グレースケール画像領域分割モデル１５３は、背景分離画像９０７を分離画像の候補として出力する（９０４）。次に、ｎ＋１番目の入力フレーム画像９０２についても、同様に、グレースケール画像領域分割モデル１５３は、背景分離画像９０８を出力する（９０５）。安定度判定プログラム１５８は、背景分離画像９０７と背景分離画像９０８の元画像での座標を比較し、位置変動の大きさを判定する（９１０）。位置変動は、例えば、二つの画像の重なりを示す係数で表わすことができる。

位置変動が大きい場合、画像のブレが生じるなど、後段の個人認証において適切ではない画像に対して、認証処理を実行することになるため、安定度判定プログラム１５８は、処理中断し、グレースケール画像領域分割モデル１５３は、ｎ＋２番目のフレームの処理に移る。

グレースケール画像領域分割モデル１５３は、ｎ＋２番目の入力フレーム画像９０３についても同様に、背景分離画像９０９を出力する（９０６）。安定度判定プログラム１５８は、背景分離画像９０８と背景分離画像９０９の元画像での座標を比較し（９１１）、位置変動の大きさが一定閾値以下のとき利用可能であると判定し、背景分離画像９０８又は９０９を、生体特徴抽出や認証処理に渡す。

以上の構成により、連続する動画フレームを用いて生体特徴を抽出し個人認証を行う装置において、認証に適さない画像を除外することで、高速な個人認証を実現することができる。図１０は、連続する入力画像フレーム間の背景分離画像の位置変動を比較する例を示す。領域分割プログラム１５２／１５３は、入力画像１００１から、指ごとの背景分離画像である１００４、１００５、１００６を出力する。

同様に、領域分割プログラム１５２／１５３は、入力画像１００２から、指ごとの背景分離画像である１００７、１００８、１００９を出力する。安定度判定プログラム１５８は、指単位ごとに、背景分離画像１００４と１００７の画素領域の位置変動（例えば白画素領域の重なり度）、背景分離画像１００５と１００８の位置変動、背景分離画像１００６と１００９の位置変動を判定する。安定度判定プログラム１５８は、例えば、静止判定される指数が一定数以下の場合認証処理を禁止する。

学習フェーズにおいて、カラー画像領域分割プログラム１５２は、図９Ｂに示す処理を行う。入力フレーム画像９０１～９０３は、連続するカラー動画フレーム画像を表す。位置変動の大きさが一定閾値より大きいとき、背景分離画像９０８及び９０９は、訓練データ１６１として利用されることなく廃棄される。

上述のように、上述のように、生体認証システム１０は、フレーム画像から生成された背景分離画像の目的領域と、他のフレーム画像から生成された背景分離画像の目的領域との間において、位置変動を決定し、位置変動に基づいて上記背景分離画像を利用するか判定する。

本実施形態の構成により、不適切な画像が背景分離画像の生成の後の処理に渡るのを避けることができる。

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

１０：生体認証システム
１１：入力装置
１２：表示装置
１３：ＣＰＵ
１４：撮像装置
１５：主記憶装置
１６：補助記憶装置

Claims

入力画像から目的対象領域を抽出するモデルを訓練する計算機システムであって、
プログラム及び訓練データを格納する１以上の記憶装置と、
前記プログラムに従って動作する１以上のプロセッサと、
を含み、
前記１以上のプロセッサは、
カラー画像を取得し、
前記カラー画像から、前記カラー画像の色情報に基づき、目的領域と背景領域とが分離された背景分離画像を生成し、
前記カラー画像をグレースケール化してグレースケール画像を生成し、
前記グレースケール画像と前記背景分離画像のセットを、前記訓練データに含め、
グレースケール画像が入力され、背景分離画像を出力するモデルを、前記訓練データを使用して訓練する、計算機システム。
請求項１に記載の計算機システムであって、
前記１以上のプロセッサは、
第１のカラー画像から生成された第１の背景分離画像における第１の目的領域の形状に基づいて、前記第１の目的領域が適切に分離されているかを判定し、
前記第１の目的領域が適切に分離されていないと判定した場合に、前記第１のカラー画像の色変換を行い、
前記色変換が行われた第１のカラー画像から第２の背景分離画像を生成する、計算機システム。
請求項１に記載の計算機システムであって、
撮像装置をさらに含み、
前記１以上のプロセッサは、
前記撮像装置が撮像した第１のカラー画像から生成された第１の背景分離画像において、第１の目的領域の位置のずれを推定し、
前記ずれを補正するための処理を行った後に、前記撮像装置が撮像した新たなカラー画像を取得する、計算機システム。
請求項１に記載の計算機システムであって、
前記１以上のプロセッサは、
映像における第１のフレーム及び第２のフレームそれぞれの、第１のカラー画像と第２のカラー画像を取得し、
前記第１のカラー画像から生成された第１の背景分離画像の第１の目的領域と、前記第２のカラー画像から生成された第２の背景分離画像の第２の目的領域との間において、位置変動を決定し、
前記位置変動に基づいて、前記第１の背景分離画像又は前記第２の背景分離画像を前記訓練データに含めるか判定する、計算機システム。
請求項１に記載の計算機システムであって、
撮像装置をさらに含み、
前記１以上のプロセッサは、
前記撮像装置が撮像した第１のカラー画像をグレースケール化した第１のグレースケール画像を取得し、
前記モデルによって、前記第１のグレースケール画像から第１の背景分離画像を生成する、計算機システム。
請求項５に記載の計算機システムであって、
前記第１の背景分離画像の第１の目的領域は生体情報領域であり、
前記１以上のプロセッサは、前記生体情報領域に基づき生体認証を行う、計算機システム。
請求項５に記載の計算機システムであって、
前記１以上のプロセッサは、
第２のカラー画像をグレースケール化した第２のグレースケール画像を取得し、
第２のグレースケール画像から生成された第２の背景分離画像において、第２の目的領域の位置のずれを推定し、
前記ずれを補正するための処理を行った後に、前記撮像装置が撮像した新たなカラー画像を取得する、計算機システム。
請求項５に記載の計算機システムであって、
前記１以上のプロセッサは、
映像における一つのフレームの第２のカラー画像をグレースケール化した第２のグレースケール画像を取得し、
前記映像における他のフレームの第３のカラー画像をグレースケール化した第３のグレースケール画像を取得し、
前記第２のグレースケール画像から生成された第２の背景分離画像の第２の目的領域と、前記第３のグレースケール画像から生成された第３の背景分離画像の第３の目的領域との間において、位置変動を決定し、
前記位置変動に基づいて、前記第２の背景分離画像又は前記第３の背景分離画像を利用するか判定する、計算機システム。
計算機システムが、入力画像から目的対象領域を抽出するモデルを訓練する方法であって、
前記計算機システムが、カラー画像を取得し、
前記計算機システムが、前記カラー画像から、前記カラー画像の色情報に基づき、目的領域と背景領域とが分離された背景分離画像を生成し、
前記計算機システムが、前記カラー画像をグレースケール化してグレースケール画像を生成し、
前記計算機システムが、前記グレースケール画像と前記背景分離画像のセットを、訓練データに含め、
前記計算機システムが、グレースケール画像が入力され、背景分離画像を出力するモデルを、前記訓練データを使用して訓練する、方法。