JP2022160064A - 情報処理装置、情報処理方法、及びプログラム - Google Patents
情報処理装置、情報処理方法、及びプログラム Download PDFInfo
- Publication number
- JP2022160064A JP2022160064A JP2021064584A JP2021064584A JP2022160064A JP 2022160064 A JP2022160064 A JP 2022160064A JP 2021064584 A JP2021064584 A JP 2021064584A JP 2021064584 A JP2021064584 A JP 2021064584A JP 2022160064 A JP2022160064 A JP 2022160064A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- data
- information processing
- face
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】対象物体の認識精度を低下させることなく、処理負荷を軽減可能にする。【解決手段】情報処理装置は、入力画像から検出した物体の検出情報を取得し、入力画像から検出した対象物体と、認証対象として画像が登録された登録物体との認識処理を実行し、認識スコアを取得する。そして、情報処理装置は、検出情報と認識スコアとの対応関係を示すスコア対応データを生成し、スコア対応データを基に、画像から検出された物体に対して認識処理を動作させるか否かを決定する。【選択図】 図1
Description
本発明は、撮影された画像を解析する情報処理技術に関する。
特許文献1には、撮影された画像から人物の頭部領域を検出し、その検出結果から正面顔を選択抽出して人物認識処理を適用することで、検出精度の低下を防止する技術が開示されている。
画像を用いて人物等の対象物体を認識する処理は、情報処理装置にとって処理負荷が非常に大きい。例えば移動している対象物体(人物等)が写っている動画像を用い、対象物体の認識処理をリアルタイムに行うような場合、処理の遅れなどによって認識精度が低下することがある。処理負荷(つまり処理量)と認識精度とはトレードオフの関係にあるため、認識精度を低下させることなく、処理負荷を軽減することが望まれている。
そこで、本発明は、対象物体の認識精度を低下させることなく、処理負荷を軽減可能にすることを目的とする。
本発明の情報処理装置は、入力画像から検出した物体の検出情報を取得する検出手段と、前記入力画像から検出した対象物体と、認証対象として画像が登録された登録物体との認識処理を実行し、認識スコアを取得する認識手段と、前記検出情報と前記認識スコアとの対応関係を示すスコア対応データを生成する生成手段と、前記スコア対応データを基に、画像から検出された物体に対して前記認識処理を動作させるか否かを決定する制御手段と、を有することを特徴とする。
本発明によれば、対象物体の認識精度を低下させることなく、処理負荷を軽減可能となる。
以下、実施形態について、図面を参照しながら説明する。なお、以下の実施形態において示す構成は一例に過ぎず、図示された構成に限定されるものではない。また以下の説明において、同一の構成や処理等については、同じ符号を付して説明する。
本実施形態は、入力画像中に存在する物体が、予め登録されたクラスのいずれに属するのかを特定する画像認識処理に関する。特に、予め登録された登録物体としての、入力画像中に存在する人物の顔が、予め登録されたどの人物の顔なのかを特定する顔認識処理を行う。すなわち本実施形態では、例えば入力された顔画像(入力顔画像とする)と、予め登録されている複数の人物の顔画像(登録顔画像とする)との比較を行い、入力顔画像が誰の顔画像であるかを判定する顔認識技術を例に挙げる。ここで、例えばカメラの設置条件によっては、著しく認識精度が劣化することが起こり得る。特に監視カメラのように高所にカメラが設置され、常に見下ろし状態の顔画像しか取得できないような場合には、認識精度が低下することがある。また例えば、ディープネット(或いはディープニューラルネット、ディープラーニングとも称される)と呼ばれる多階層のニューラルネットワークを用いて、顔認識を実現する技術もある。ただし、ディープネットでは、一般的に高精度な認識を実現できる反面、処理量が多く、例えば動画像に対してリアルタイムに顔認識を行うような場合には処理を軽量化することが必要となる。
本実施形態は、入力画像中に存在する物体が、予め登録されたクラスのいずれに属するのかを特定する画像認識処理に関する。特に、予め登録された登録物体としての、入力画像中に存在する人物の顔が、予め登録されたどの人物の顔なのかを特定する顔認識処理を行う。すなわち本実施形態では、例えば入力された顔画像(入力顔画像とする)と、予め登録されている複数の人物の顔画像(登録顔画像とする)との比較を行い、入力顔画像が誰の顔画像であるかを判定する顔認識技術を例に挙げる。ここで、例えばカメラの設置条件によっては、著しく認識精度が劣化することが起こり得る。特に監視カメラのように高所にカメラが設置され、常に見下ろし状態の顔画像しか取得できないような場合には、認識精度が低下することがある。また例えば、ディープネット(或いはディープニューラルネット、ディープラーニングとも称される)と呼ばれる多階層のニューラルネットワークを用いて、顔認識を実現する技術もある。ただし、ディープネットでは、一般的に高精度な認識を実現できる反面、処理量が多く、例えば動画像に対してリアルタイムに顔認識を行うような場合には処理を軽量化することが必要となる。
そこで、本実施形態では、認証対象としての認識対象物体に対する認識処理(例えば顔認識処理)を行う前に得られる検出情報(例えば顔検出位置や顔検出スコア等)を用いて、認識処理を実行するか否かを決定する。本実施形態では、認識処理を行うか否かを決定するのに必要な情報を、過去の検出情報から自動的に収集し、認識結果と関連付けて蓄積して集計することで、認識処理の要不要を決定する。すなわち本実施形態では、認識処理を行う前に得られる情報を用いて、認識処理を行うか否かを決定することで、認識処理全体の処理量を削減可能にする。また本実施形態では、情報収集に際して、専用の処理(例えば顔向きの検出処理)の用意する必要もなくなる。
以下、認識の対象物体を人物の顔とした顔認識処理が行われる場合を例に挙げて本実施形態の情報処理装置について説明を行う。
以下、認識の対象物体を人物の顔とした顔認識処理が行われる場合を例に挙げて本実施形態の情報処理装置について説明を行う。
<第1実施形態>
対象物体を認識する認識処理では、目的とする認識処理を行う前に、対象物体を検出するための検出処理が行われる。本実施形態の例のように顔認識を行う場合、まず入力画像から顔画像の位置を特定するという顔検出処理が行われる。その後、検出された顔画像に対して、個人を特定する認識処理(顔認識処理)が実行される。顔認識処理では、入力画像から検出された顔画像と、予め登録されている顔画像とを比較することで、顔画像の類似度合いを表す認識スコア(類似度スコアとする)が算出される。そして、登録人物ごとに算出される類似度スコアのうち、最大の類似度スコアが所定の閾値よりも大きい場合に、当該最大類似度スコアとなった登録画像の人物ID(識別情報)を、入力画像から検出された人物の人物IDとして特定する。
対象物体を認識する認識処理では、目的とする認識処理を行う前に、対象物体を検出するための検出処理が行われる。本実施形態の例のように顔認識を行う場合、まず入力画像から顔画像の位置を特定するという顔検出処理が行われる。その後、検出された顔画像に対して、個人を特定する認識処理(顔認識処理)が実行される。顔認識処理では、入力画像から検出された顔画像と、予め登録されている顔画像とを比較することで、顔画像の類似度合いを表す認識スコア(類似度スコアとする)が算出される。そして、登録人物ごとに算出される類似度スコアのうち、最大の類似度スコアが所定の閾値よりも大きい場合に、当該最大類似度スコアとなった登録画像の人物ID(識別情報)を、入力画像から検出された人物の人物IDとして特定する。
一方、最大類似度スコアが所定の閾値よりも小さい場合には、入力画像から検出された人物は、登録されている人物のいずれでもないと判断(非登録人物と判断)される。非登録人物との判断は、「入力画像の人物が本当に登録人物のいずれでもない場合」になされる。それ以外にも、非登録人物との判断は、「入力画像の撮影条件が良くなくて、顔認識処理に適した顔画像が取得できなかったために、入力画像の人物は登録人物であるのにもかかわらず最大類似度スコアが所定の閾値を超えなかった場合」にも起こりうる。従って、本実施形態では、例え検出人物が登録人物であったとしても、撮影条件が良くなく類似度スコアが閾値を超えない顔検出条件を事前に特定しておく。これにより、その条件で顔検出された場合には、認識処理の際に類似度スコアが閾値を超えることがなく、非登録人物であるとの認識結果が得られるようにする。
以降、この顔検出条件を「不適検出条件」と呼ぶことにする。つまり、顔検出処理において、不適検出条件と判定された顔画像に対しては、その顔画像の人物が登録人物であろうがなかろうが、認識処理では非登録人物と判定する。従って、不適検出条件と判定された顔画像に対しては、認識処理を行わずに非登録人物と判定することができる。例えば、レンズの歪み等の影響によって画質が悪い部分で検出された顔は、本来の顔の特徴がうまく抽出できていない可能性が高いため、認識処理を省略することによって処理効率を向上できる。本実施形態では、この不適検出条件(画質が悪い部分)を特定するために、顔検出時に得られる情報(例えば、画像内の位置)と、類似度スコアとの対応関係を蓄積管理することを行う。
図1は、本実施形態に係る情報処理装置100の構成例を示したブロック図である。本実施形態の情報処理装置100は、画像入力部101、顔検出部102、顔認識部103、および管理制御部104を有して構成されている。
画像入力部101は、顔認識処理に用いられる画像データを取得する。本実施形態において、画像入力部101は、固定的に設置された監視カメラによって撮影されている画像を取得する。
画像入力部101は、顔認識処理に用いられる画像データを取得する。本実施形態において、画像入力部101は、固定的に設置された監視カメラによって撮影されている画像を取得する。
監視カメラは、情報処理装置100とは物理的に離れた場所に設置されていてもよく、撮影している画像を、ネットワークを介して情報処理装置100に送信するものであってもよい。本実施形態の場合、例えば図2に示すように、監視カメラ200は、廊下の天井に設置されているとする。図2では、監視カメラ200によって、当該監視カメラに近づく方向に歩いている人物(対象者201とする)が撮影されている例を挙げている。本実施形態の場合、画像入力部101は、監視カメラ200が撮影している廊下の撮影画像を取得、つまり図2の例の場合は監視カメラ200に近づいてきている対象者201を含む撮影画像を取得する。
図3は、監視カメラ200の撮影画像例を示した図である。
図3の画像300~303は、監視カメラ200から時系列的に出力される画像例を示しており、図2の対象者201である対象者304~307が、廊下を歩きながら監視カメラ200に近づいてきている場合の撮影画像例を表している。画像300の場合、対象者304が監視カメラ200から遠い位置にいるため、当該対象者304は画像内で小さく写っている。そして、画像301~303のように時系列的に後になるほど、対象者305~307は画像内で徐々に大きく写るようになる。特に画像303の場合、対象者307は、監視カメラ200のすぐ近くに存在しており、当該監視カメラに対して近接且つ低い場所に位置している。以下の説明では、監視カメラ200に近接且つ低い場所で対象者が写る状態を、カメラからの「見下ろし角度が大きい写り状態」と呼ぶことにする。そしてこの場合、対象者307の顔の画像は、正面から顔を写した状態とは大きく異なった見た目の画像となる。
図3の画像300~303は、監視カメラ200から時系列的に出力される画像例を示しており、図2の対象者201である対象者304~307が、廊下を歩きながら監視カメラ200に近づいてきている場合の撮影画像例を表している。画像300の場合、対象者304が監視カメラ200から遠い位置にいるため、当該対象者304は画像内で小さく写っている。そして、画像301~303のように時系列的に後になるほど、対象者305~307は画像内で徐々に大きく写るようになる。特に画像303の場合、対象者307は、監視カメラ200のすぐ近くに存在しており、当該監視カメラに対して近接且つ低い場所に位置している。以下の説明では、監視カメラ200に近接且つ低い場所で対象者が写る状態を、カメラからの「見下ろし角度が大きい写り状態」と呼ぶことにする。そしてこの場合、対象者307の顔の画像は、正面から顔を写した状態とは大きく異なった見た目の画像となる。
図1の顔検出部102は、画像入力部101にて取得された画像データ(例えば図3の画像300~303)に対して顔検出処理を行う。顔検出処理の手法は、既存の公知の手法を用いることができる。例えば、入力画像から、鼻、口や目などの顔領域内の構成要素に相当する形状を抽出し、両目の大きさとそれらの距離から顔の大きさを推定し、鼻の中心に相当する位置を基準として、推定した大きさの領域で囲んだ領域を顔領域とするような手法でもよい。また、ディープネットを用いた顔検出手法が用いられてもよい。顔検出部102は、検出した顔領域の画像に対し、所定の手法による一定サイズへの正規化を行い、その正規化後の顔画像を顔認識部103に出力する。また、顔検出部102は、入力画像中で顔が存在する座標を特定し、その顔の座標(例えば顔領域の中心座標)を検出情報として、管理制御部104に出力する。
図4は、図3で示された各画像300~303に対して顔検出処理が行われた結果を示す図であり、各画像300~300に対する顔検出処理によって検出された顔領域400~403が矩形によって示されている。これら矩形で示された顔領域400~403に対し、前述した所定の手法で一定サイズに正規化を行ったものが、顔領域画像として顔認識部103に出力される。また、それぞれ矩形で示された顔領域400~403の中心座標が、検出情報として管理制御部104に出力される。
図1の顔認識部103は、顔検出部102から入力された顔領域画像と、予め登録されている顔画像とを比較する。顔画像同士の比較の仕方は特に問わない。一例として、顔認識部103は、顔検出部102で検出された顔領域画像と、登録されている顔画像との両者に対して、特徴抽出処理(その人らしさの抽出)を行い、その抽出結果として得られる特徴ベクトル同士の距離を算出する手法等を用いる。特徴抽出処理は例えばディープネットを用いた手法を用いることができ、また、特徴ベクトル同士の距離はユークリッド距離やコサイン距離を用いることができる。さらに、顔認識部103は、得られた距離に応じて類似度スコアを算出する。類似度スコアは、顔同士が類似していることを表す評価値であり、値が大きければより類似していることを示す。特徴ベクトル同士の距離として例えばコサイン距離が用いられる場合、そのコサイン距離がそのまま類似度スコアとして用いられてもよい。また特徴ベクトル同士の距離として例えばユークリッド距離が用いられる場合、そのユークリッド距離の逆数が類似度スコアとして用いられてもよい。
このように顔認識部103は、顔検出部102から顔領域画像が入力されると、登録されている顔画像の各々に対して、類似度スコアの算出を行う。さらに、顔認識部103は、算出した複数の類似度スコアのうち、最大の類似度スコアを特定する。その最大類似度スコアが予め設定された所定の閾値(「認識閾値」と呼ぶ)よりも大きい場合、顔認識部103は、その最大類似度スコアの算出元となった登録画像に対応する人物IDを、認識結果として出力する。一方、最大類似度スコアが所定の認識閾値よりも小さい場合、顔認識部103は、登録されている人物のいずれでもないと判断(非登録人物と判断)し、非登録人物であることを示す情報を、認識結果として出力する。
例えば、類似度スコアは0~1000の範囲で、所定の認識閾値が500であるとする。この場合、最大類似度スコアが500を超えると、顔認識部103は、その類似度スコアに対応した人物IDを認識結果として出力する。逆に最大類似度スコアが500未満の場合、顔認識部103は、非登録人物であると判断して、非登録人物であることを示す認識結果を出力する。
さらに顔認識部103は、入力された顔領域画像に対して算出した最大類似度スコアを管理制御部104に出力する。
さらに顔認識部103は、入力された顔領域画像に対して算出した最大類似度スコアを管理制御部104に出力する。
管理制御部104は、顔検出部102が顔を検出した時に送られてくる検出情報(本実施形態では、検出された顔の画像内における座標)と、その顔に対して顔認識部103が算出した最大類似度スコアとを対応付けて、管理する。さらに、管理制御部104は、その管理しているデータを基に、顔認識部103の動作の制御を行う。
図5は、管理制御部104の構成例を示すブロック図である。管理制御部104は、対応管理部501、蓄積部502、範囲決定部503、および制御部504を有して構成されている。
対応管理部501は、顔検出部102が顔を検出した時に送られてくる検出情報(本実施形態では、検出された顔の画像内における座標)と、その顔に対して顔認識部103が算出した最大類似度スコアとの対応を管理する。以下の説明では、顔検出部102が出力する検出情報と、顔認識部103が算出する最大類似度スコアとが対応付けられた情報を「スコア対応データ」と呼ぶことにする。従って、対応管理部501は、スコア対応データの生成(管理)を行う。
対応管理部501は、顔検出部102が顔を検出した時に送られてくる検出情報(本実施形態では、検出された顔の画像内における座標)と、その顔に対して顔認識部103が算出した最大類似度スコアとの対応を管理する。以下の説明では、顔検出部102が出力する検出情報と、顔認識部103が算出する最大類似度スコアとが対応付けられた情報を「スコア対応データ」と呼ぶことにする。従って、対応管理部501は、スコア対応データの生成(管理)を行う。
蓄積部502は、対応管理部501で対応付けられたスコア対応データの蓄積を行う。
図6は、蓄積部502に蓄積しているスコア対応データの一例を示した図である。図6に示すように、蓄積部502には、スコア対応データとして、管理番号と、検出された顔の画像内における水平座標および垂直座標と、最大類似度スコアとが対応付けられたデータが蓄積されている。図6に示された管理番号1~4のデータは、それぞれ図4の顔領域400~403から得られた顔画像領域に対応している。例えば、管理番号1のデータは、画像中における水平、垂直の座標(200,100)で示される顔領域に対し、顔認識処理で算出された最大類似度スコアの値が300であったという例を示している。
図6は、蓄積部502に蓄積しているスコア対応データの一例を示した図である。図6に示すように、蓄積部502には、スコア対応データとして、管理番号と、検出された顔の画像内における水平座標および垂直座標と、最大類似度スコアとが対応付けられたデータが蓄積されている。図6に示された管理番号1~4のデータは、それぞれ図4の顔領域400~403から得られた顔画像領域に対応している。例えば、管理番号1のデータは、画像中における水平、垂直の座標(200,100)で示される顔領域に対し、顔認識処理で算出された最大類似度スコアの値が300であったという例を示している。
また、図6の管理番号1~4に示されたデータは、それぞれ図4の画像300~303に対応しており、予め登録してある登録人物が歩行している場合の典型的な例になっているとする。例えば管理番号1に対応した画像300のように、対象者304が監視カメラ200から遠くにいる場合、その顔が非常に小さく写るので顔認識には不適となり、例え対象者304が登録者であったとしても、最大類似度スコアは300になっている。従って、画像300の場合、対象者304は非登録人物との判断がなされる。
一方、管理番号2に対応した画像301と管理番号3に対応した画像302の場合、対象者305、306は監視カメラ200に近づいているので、それらの顔が大きく写り、顔認識に適した顔画像となっている。このため、画像301の場合の最大類似度スコアは650、画像302の場合の最大類似度スコアは750となっており、認識閾値の500を超えている。したがって、これら画像301と画像302の場合には、最大類似度スコアに対応した登録人物IDとの判断がなされる。
さらに、管理番号4に対応した画像303の場合、対象者307は、監視カメラ200に非常に近く、カメラの向きに対して角度のある位置であり、見下ろし角度が大きい写り状態になっている。このように見下ろし角度が大きい写り状態の場合、対象者307の顔の画像は、正面から顔を写した状態とは大きく異なった見た目の画像となっており、顔認識には不適であり、例え対象者307が登録者であったとしても最大類似度スコアが250になっている。したがって、画像303の場合は、非登録人物との判断がなされる。
蓄積部502は、このようにスコア対応データを逐次追加して蓄積する。以下、蓄積部502が蓄積しているスコア対応データを「蓄積データ」と呼ぶことにする。なお、図6に例示したのは、一人の人物が監視カメラ200に撮影されながら、廊下を通過した場合の蓄積データ例である。監視カメラ200によって撮影された人物が増えるに従って、図6に示した蓄積データ(スコア対応データ)も増えることになる。そして、蓄積部502の蓄積データは、範囲決定部503に出力される。
範囲決定部503は、蓄積部502から出力される蓄積データのうち、最大類似度スコアが認識閾値を超えたデータを抽出する。以下、認識閾値を超えたことで抽出されたデータを「閾値超過データ」と呼ぶことにする。例えば、図6のようなスコア対応データが管理されている場合、管理番号2と管理番号3のデータが、閾値超過データとして抽出される。範囲決定部503は、抽出した閾値超過データの数をカウントし、その数が予め設定された数(以下、「所定サンプル数」とする)を超えたか否かを調査する。
そして、蓄積部502から出力される蓄積データ中に、所定サンプル数以上の閾値超過データが存在した場合、範囲決定部503は、閾値超過データから座標を抽出し、その座標が内包される外接矩形を特定する。
例えば、図6のようなスコア対応データが管理されている場合、範囲決定部503は、管理番号2のデータの座標(400,200)と管理番号3のデータの座標(500,300)とを抽出する。そして、範囲決定部503は、これらの座標を内包する外接矩形として、座標(400,200)、座標(400,300)、座標(500,300)、および座標(500,200)をそれぞれ頂点とする矩形を特定する。以下、この矩形内領域を「認識対象範囲」と呼び、その矩形外の領域を「認識対象外範囲」と呼ぶことにする。本実施形態において、「認識対象外範囲」は、「不適検出条件」に相当することになる。なお、蓄積部502から出力される蓄積データ中に、所定サンプル数以上の閾値超過データが存在しない場合、範囲決定部503は、入力画像の全領域を認識対象範囲とする。このようにして、範囲決定部503は、認識対象範囲および認識対象外範囲の設定を行い、その情報を範囲情報として制御部504に出力する。
例えば、図6のようなスコア対応データが管理されている場合、範囲決定部503は、管理番号2のデータの座標(400,200)と管理番号3のデータの座標(500,300)とを抽出する。そして、範囲決定部503は、これらの座標を内包する外接矩形として、座標(400,200)、座標(400,300)、座標(500,300)、および座標(500,200)をそれぞれ頂点とする矩形を特定する。以下、この矩形内領域を「認識対象範囲」と呼び、その矩形外の領域を「認識対象外範囲」と呼ぶことにする。本実施形態において、「認識対象外範囲」は、「不適検出条件」に相当することになる。なお、蓄積部502から出力される蓄積データ中に、所定サンプル数以上の閾値超過データが存在しない場合、範囲決定部503は、入力画像の全領域を認識対象範囲とする。このようにして、範囲決定部503は、認識対象範囲および認識対象外範囲の設定を行い、その情報を範囲情報として制御部504に出力する。
上述の説明では、撮影された人物が一人で、スコア対応データが四つ、そのうちの二つが閾値超過データだった場合の例に関して、蓄積部502と範囲決定部503の動作を説明したが、撮影された人物がさらに増えた場合の例を図7に示す。
図7(A)には、蓄積部502に蓄積されているスコア対応データを、その座標に従って撮影画像上に配置したマップ700を示した図である。なお、図7(A)の例では、蓄積部502に蓄積されている人物毎のスコア対応データを星印710とバツ印711とで示している。星印710は閾値超過データを示しており、バツ印711はそれ以外のデータ(閾値超過データではないデータ)を示している。
図7(A)には、蓄積部502に蓄積されているスコア対応データを、その座標に従って撮影画像上に配置したマップ700を示した図である。なお、図7(A)の例では、蓄積部502に蓄積されている人物毎のスコア対応データを星印710とバツ印711とで示している。星印710は閾値超過データを示しており、バツ印711はそれ以外のデータ(閾値超過データではないデータ)を示している。
図7(B)は、図7(A)にマップ700で示されたスコア対応データの中から、閾値超過データのみ(星印710のみ)を抽出したマップ701を示した図である。
さらに図7(C)は、図7(B)に示した閾値超過データのみを内包する外接矩形720を破線で示した図である。外接矩形720は、範囲決定部503において算出される。
さらに図7(C)は、図7(B)に示した閾値超過データのみを内包する外接矩形720を破線で示した図である。外接矩形720は、範囲決定部503において算出される。
制御部504には、顔検出部102で顔検出が行われる毎に得られた検出情報が入力され、また、範囲決定部503から前述した範囲情報が入力される。制御部504は、これら検出情報と範囲情報とから、顔認識部103における顔認識処理の実行を以下に説明するように制御する。
制御部504は、入力された検出情報(本実施形態では顔領域の中心座標)が、範囲情報に記された認識対象範囲内であるか否かを判定する。つまり、制御部504は、入力画像から今回検出された顔が、認識対象範囲内で検出されたのか否かを判定する。さらに、制御部504は、今回検出された顔が、認識対象範囲内で検出された場合には、顔認識部103に対して顔認識処理を実行させるように制御する。逆に、今回検出された顔が、認識対象外範囲で検出された場合、制御部504は、顔認識部103に対して顔認識処理を実行しない(認識処理をスキップさせる)ように制御する。すなわち顔認識部103は、制御部504から動作するように制御された場合には、入力された顔領域画像に対して顔認識処理を行い、その結果を認識結果として出力する。一方、顔認識部103は、制御部504から動作しないように制御された場合には、入力された顔領域画像は非登録人物であるとする認識結果を出力する。
以上説明したように、本実施形態の情報処理装置100では、「不適検出条件」を特定することで、以降、その条件に合致すると判定された顔検出結果に対しては、顔認識処理をスキップすることで、非登録人物と判定することが可能となる。このように顔認識処理をスキップすることで、顔認識処理全体としての処理量を削減することができる。
また本実施形態の情報処理装置100では、「不適検出条件」を特定するために、スコア対応データを収集蓄積している。そして、情報処理装置100は、収集したスコア対応データを基に、例え対象者が登録人物であったとしても、類似度スコアが認識閾値を超えないような撮影条件を特定する。すなわち情報処理装置100は、対象者が、監視カメラ200から遠いために画像中に写る顔が小さ過ぎる領域や、監視カメラ200に近接した位置であるため見下ろし角度が大きい写り状態になる領域等を、類似度スコアが閾値を超えないような領域とする。
本実施形態の情報処理装置100によれば、監視カメラ200が設置されてからしばらくして十分な蓄積データ(所定サンプル数を超えた蓄積データ)が得られたならば、自動的に不適検出条件を算出することができ、その後は顔認識処理のスキップが可能となる。
一方で、少数の閾値超過データのみを用いて、不適検出条件を算出すると、不適検出条件が過剰に広い領域に設定される虞があり、その場合、顔検出されても顔認識処理がスキップされ、非登録人物と判定されることが多発し、顔認識処理の信頼性が損なわれる。
一方で、少数の閾値超過データのみを用いて、不適検出条件を算出すると、不適検出条件が過剰に広い領域に設定される虞があり、その場合、顔検出されても顔認識処理がスキップされ、非登録人物と判定されることが多発し、顔認識処理の信頼性が損なわれる。
したがって、本実施形態では、所定の数以上の閾値超過データが蓄積されるまでは、不適検出条件を設定せず、入力画像の全領域を認識対象範囲とする。本実施形態では、この時の動作モードを第1の動作モードとし、以降、「スキップ条件算出モード」と呼ぶことにする。つまり、本実施形態の情報処理装置100は、顔認識処理の初期状態ではスキップ条件算出モードとして動作し、顔検出された顔に対しては、常に顔認識処理を行う。その後、情報処理装置100jは、顔認識処理を継続して動作させていく中で、所定の数以上の閾値超過データが蓄積されて不適検出条件を算出できたならば、顔認識処理のスキップを可能にする。本実施形態では、この顔認識処理のスキップが可能な場合の動作モードを第2の動作モードとし、以降、「スキップ可能モード」と呼ぶことにする。情報処理装置100では、管理制御部104が、閾値超過データの蓄積状況に応じて、顔認識処理を常に動作させる第1の動作モード(スキップ条件算出モード)と、顔認識処理をスキップ可能な第2の動作モード(スキップ可能モード)とを切り替える。なお、スキップ条件算出モードからスキップ可能モードに遷移する際に参照される、閾値超過データの所定数(所定サンプル数)をいくつにするかは、同様の監視カメラ設置条件で試行を行って適切な値を決めればよい。
続いて、図8を用いて情報処理装置100における情報処理である、顔認識処理および認識対象範囲決定処理の流れを説明する。図8は、一枚の入力画像に対する顔認識処理および認識対象範囲決定の流れを示したフローチャートである。ここでは説明の簡単のため、一枚の入力画像には一つの顔画像しかないとする。複数の顔画像がある場合は、顔検出以降の処理を、顔の数だけ繰り返し行えばよい。なお、図8のフローチャートにおいて、符号の「S」は処理ステップを表しているとする。
まずS801において、画像入力部101は、監視カメラ200から撮影画像を取得する。
続いてS801において、顔検出部102は、入力画像に対して顔検出処理を行う。なお、入力画像中に顔が検出されなかった場合は、以降の処理はスキップされる。
続いてS803において、情報処理装置100は、顔検出部102による顔検出座標と、管理制御部104の範囲決定部503による認識対象範囲とに応じて処理を分岐する。ここで、情報処理装置100がスキップ条件算出モードである場合、認識対象範囲は全画像領域になるので、S803では常にYesに進む。また、情報処理装置100がスキップ可能モードにある場合に、顔検出座標が認識対象範囲中に内包されていなければ、S803においてNoに進み、以降の処理はスキップされる。この場合、顔認識結果としては、非登録人物と出力される。そして、情報処理装置100がスキップ可能モードにあるときに、顔検出座標が認識対象範囲中に内包されていれば、S803でYesとされてS804に進む。
続いてS801において、顔検出部102は、入力画像に対して顔検出処理を行う。なお、入力画像中に顔が検出されなかった場合は、以降の処理はスキップされる。
続いてS803において、情報処理装置100は、顔検出部102による顔検出座標と、管理制御部104の範囲決定部503による認識対象範囲とに応じて処理を分岐する。ここで、情報処理装置100がスキップ条件算出モードである場合、認識対象範囲は全画像領域になるので、S803では常にYesに進む。また、情報処理装置100がスキップ可能モードにある場合に、顔検出座標が認識対象範囲中に内包されていなければ、S803においてNoに進み、以降の処理はスキップされる。この場合、顔認識結果としては、非登録人物と出力される。そして、情報処理装置100がスキップ可能モードにあるときに、顔検出座標が認識対象範囲中に内包されていれば、S803でYesとされてS804に進む。
S804に進むと、顔認識部103は、顔認識処理を行う。顔認識処理の内容はすでに詳述しているのでここでは省略する。そして、顔認識部103は、顔認識処理の結果として、登録人物のIDのいずれか、或いは非登録人物との情報を出力する。
続いてS805において、蓄積部502は、スコア対応データの生成と蓄積を行う。
次にS806において、範囲決定部503は、閾値超過データの抽出を行う。
次にS807において、範囲決定部503は、抽出した閾値超過データの数が所定サンプル数を超えた(所定サンプル数以上になったか)か否かで処理を分岐する。範囲決定部503は、閾値超過データの数が所定サンプル数を超えていない場合にはNoに進み、認識対象範囲の更新は行われない。この場合には、引き続き全画像領域が認識対象範囲となる。一方、閾値超過データの数が所定サンプル数を超えた場合、範囲決定部503の処理はS808に進む。
次にS806において、範囲決定部503は、閾値超過データの抽出を行う。
次にS807において、範囲決定部503は、抽出した閾値超過データの数が所定サンプル数を超えた(所定サンプル数以上になったか)か否かで処理を分岐する。範囲決定部503は、閾値超過データの数が所定サンプル数を超えていない場合にはNoに進み、認識対象範囲の更新は行われない。この場合には、引き続き全画像領域が認識対象範囲となる。一方、閾値超過データの数が所定サンプル数を超えた場合、範囲決定部503の処理はS808に進む。
S808に進むと、範囲決定部503は、所定サンプル数の全ての閾値超過データを内包する外接矩形を特定する。
続いて、S809において、範囲決定部503は、S808で特定した外接矩形を認識対象範囲として更新する。S809の後、情報処理装置100の処理は終了する。
続いて、S809において、範囲決定部503は、S808で特定した外接矩形を認識対象範囲として更新する。S809の後、情報処理装置100の処理は終了する。
以上詳細に説明したように、本実施形態の情報処理装置100は、運用を開始してから、所定サンプル数以上の閾値超過データが得られるまでの、ある程度の時間が経過したのちに、自動的に不適検出条件を算出し、その後は顔認識処理のスキップが可能となる。このことにより、情報処理装置100における顔認識処理全体として処理量の削減が実現できる。
また、本実施形態では、所定サンプル数の閾値超過データに対して外接するような矩形の内側領域を認識対象範囲としたが、認識対象範囲の決め方はこの例には限定されない。例えば、図9(A)のマップ900に示すように、閾値超過データを外接するような図中破線で示す矩形910に対して、ある所定の幅dで拡大させた図中一点鎖線で示す矩形911を、認識対象範囲としてもよい。本実施形態において、認識対象範囲は、閾値超過データの収集により決定されるので、収集したデータに偏りがあれば、本来顔認識処理を行うべき顔領域の座標でも認識対象範囲から外れてしまう可能性がある。認識対象範囲をマップ900の一点鎖線で示す矩形911のようにすることで、顔認識処理を行う範囲が広がり、前述のように認識対象範囲から外れてしまう状態が生ずるのを抑制することができるようになる。なお、幅dをどの程度にするか(どのくらい矩形を大きくするのか)は、同様の監視カメラ設置条件で試行を行って適切な値を決めればよい。
また認識対象範囲の形状は前述のような矩形に限らない。図9(B)のマップ901に示すように、所定サンプル数の全閾値超過データを外接するような図中破線で示す多角形920にしてもよい。このようにすると、矩形形状にするよりも認識対象範囲が小さくなるので、顔認識処理がスキップされる場合が増え、より大きな処理量の削減が可能となる。さらにマップ901中に一点鎖線で示す多角形921のように、多角形920をある所定の幅で拡大させた多角形としてもよい。このようにすれば、誤って顔認識処理をスキップしてしまうことを抑制しながら、処理量を削減することが可能となる。
<第2の実施形態>
第1実施形態では、検出情報として顔領域の座標を出力する場合の例を説明したが、第2実施形態では、顔検出スコアを検出情報として出力する場合の例を示す。本実施形態では、検出情報として顔検出スコアが使用されることを除き、顔認識処理の構成は前述した実施形態と同様であるため、以下、第1実施形態とは異なる処理についてのみ説明する。第2実施形態において、顔検出スコアとは、検出した領域が顔の領域である確からしさを表す評価値であって、顔検出スコアが大きければ大きいほど顔検出結果が顔として確からしいことを示す。例えば、歪みやぶれやボケの影響を受けた顔の領域は顔検出スコアが低くなる。本実施形態では、顔検出スコアは0~100の値をとるものとする。
第1実施形態では、検出情報として顔領域の座標を出力する場合の例を説明したが、第2実施形態では、顔検出スコアを検出情報として出力する場合の例を示す。本実施形態では、検出情報として顔検出スコアが使用されることを除き、顔認識処理の構成は前述した実施形態と同様であるため、以下、第1実施形態とは異なる処理についてのみ説明する。第2実施形態において、顔検出スコアとは、検出した領域が顔の領域である確からしさを表す評価値であって、顔検出スコアが大きければ大きいほど顔検出結果が顔として確からしいことを示す。例えば、歪みやぶれやボケの影響を受けた顔の領域は顔検出スコアが低くなる。本実施形態では、顔検出スコアは0~100の値をとるものとする。
図10は、第2実施形態において対応管理部501で管理されて蓄積部502に蓄積されているスコア対応データの例を示している。図10に示すように、第2実施形態の蓄積部502には、スコア対応データとして、管理番号と、顔検出スコアと、最大類似度スコアとが対応付けられたデータが生成・蓄積されている。図10に示された管理番号1~4のデータは、それぞれ図4の顔領域400~403から得られたものに対応している。例えば、管理番号1のデータは、顔検出スコアが20であり、検出された顔に対して顔認識した際の最大類似度が300であった場合の例を示している。なお、図10に例示したデータは、一人の人物が監視カメラ200に撮影されながら、廊下を通過した場合のデータ例である。従って、撮影された人物が増えるに従って、図10に示したデータ(スコア対応データ)も増えることになる。
図11は、蓄積部502に蓄積されているスコア対応データを、顔検出スコアを横軸にした度数分布(ヒストグラム)を示した図である。図11のヒストグラム1100は、スコア対応データのうち、最大類似度スコアが所定の閾値を超えてないもののヒストグラムを示している。一方、ヒストグラム1101は、スコア対応データのうち、最大類似度スコアが所定の閾値を超えているもの(つまり閾値超過データ)のヒストグラムを示している。
第2実施形態の範囲決定部503は、蓄積部502から出力される蓄積データから閾値超過データを抽出して、その閾値超過データの数をカウントし、その数が予め設定された数(所定サンプル数)を超えたか否かを調査する。そして蓄積部502から出力される蓄積データ中に、所定サンプル数以上の閾値超過データが存在した場合、範囲決定部503は、それらの閾値超過データの検出情報(本実施形態では顔検出スコア)が内包されるような顔検出情報範囲を特定する。例えば、図11のような場合には、顔検出スコアが55~100の範囲が、認識対象範囲となる。一方、蓄積部502から出力される蓄積データ中に、所定サンプル数以上の閾値超過データが存在しない場合、範囲決定部503は、顔検出スコアの全範囲を認識対象範囲とする。
このようにして、範囲決定部503は、認識対象範囲、及び認識対象外範囲の設定を行い、その情報を範囲情報として制御部504に出力する。
このようにして、範囲決定部503は、認識対象範囲、及び認識対象外範囲の設定を行い、その情報を範囲情報として制御部504に出力する。
以上詳細に説明したように、第2実施形態の情報処理装置100によれば、顔認識処理の運用を開始してある程度の時間が経過したのちには、自動的に不適検出条件を算出し、その後は顔認識処理のスキップが可能となる。このことにより、顔認識処理全体として処理量の削減が実現できる。
また第1実施形態では、検出情報として顔検出された画像中の座標を用いる場合の例を示し、また第2実施形態では、検出情報として顔検出スコアを用いる場合の例を示した。さらに、検出情報として「顔検出された画像中の座標」と「顔検出スコア」の両方が用いられてもよい。この場合、第1実施形態で定めた認識対象範囲(例えば図7(C)のマップ702中に破線で示した外接矩形720の範囲)と、第2実施形態で定めた認識対象範囲(例えば図11で図示した顔認識対象範囲)の両方を満たす範囲を、認識対象範囲とすればよい。つまり、スキップ可能モードにおいては、図7(C)のマップ702に破線の外接矩形720で示された範囲内で顔検出され、さらにその時の顔検出スコアが図11の認識対象範囲に含まれる場合のみ、顔認識処理を行えばよい。
またこのように検出情報として、複数種類の情報を使えば、それぞれの検出情報に対して認識対象範囲が設定可能である。その場合、すべての検出情報が、認識対象範囲に含まれている場合のみ顔認識を行えばよい。従って、多くの種類の検出情報を利用すれば利用するほど、すべての検出情報が、認識対象範囲に含まれているという場合が制限されるので、顔認識処理全体として処理量の削減が期待できる。
またこのように検出情報として、複数種類の情報を使えば、それぞれの検出情報に対して認識対象範囲が設定可能である。その場合、すべての検出情報が、認識対象範囲に含まれている場合のみ顔認識を行えばよい。従って、多くの種類の検出情報を利用すれば利用するほど、すべての検出情報が、認識対象範囲に含まれているという場合が制限されるので、顔認識処理全体として処理量の削減が期待できる。
<第3実施形態>
第1実施形態と第2実施形態では、範囲決定部503において、所定サンプル数の閾値超過データが存在するか否かで、スキップ条件算出モードからスキップ可能モードへ遷移する例を示したが、動作モードの遷移条件はその手法に限らない。第3実施形態として、例えば以下のように遷移条件が設定されてもよい。第3実施形態において、遷移条件が設定されることを除き、顔認識処理の構成は前述した実施形態と同様であるため、以下、前述の実施形態とは異なる処理についてのみ説明する。
第1実施形態と第2実施形態では、範囲決定部503において、所定サンプル数の閾値超過データが存在するか否かで、スキップ条件算出モードからスキップ可能モードへ遷移する例を示したが、動作モードの遷移条件はその手法に限らない。第3実施形態として、例えば以下のように遷移条件が設定されてもよい。第3実施形態において、遷移条件が設定されることを除き、顔認識処理の構成は前述した実施形態と同様であるため、以下、前述の実施形態とは異なる処理についてのみ説明する。
第3実施形態の範囲決定部503は、蓄積部502から蓄積データが出力されるたびに(つまり顔検出部102で顔検出が行われるたびに)、蓄積データから閾値超過データを抽出し、抽出された閾値超過データの数をカウントする。同時に、範囲決定部503は、抽出した閾値超過データを用いて前述の実施形態同様に認識対象範囲を算出し、閾値超過データの数と認識対象範囲の大きさとの関係をグラフ化する。
図12は、範囲決定部503にて作成される「閾値超過データの数と認識対象範囲の大きさとの関係」を示すグラフの一例を示した図である。ここで、認識対象範囲の大きさとは、第1実施形態の場合には認識対象範囲の面積のことを意味し、第2実施形態の場合には顔検出スコアの範囲を意味している。例えば図11のような場合には顔検出スコアの100-55=45が認識対象範囲の大きさとなる。
図12に示されるように、閾値超過データの数が増加するにつれて、認識対象範囲の大きさは大きくなる。その大きくなる割合は、ある程度、閾値超過データの数が増加した時点で、頭打ちになることが予想される。つまり、ある程度、閾値超過データの数が増加した時点で、閾値超過データの数が増加しても、認識対象範囲の大きさが変化しないようになることが予想される。これは、閾値超過データの数が増加していくにつれて、新たに発生する閾値超過データは、その時点での算出されている認識対象範囲に含まれる可能性が高くなるからである。
従って第3実施形態の情報処理装置100は、認識対象範囲の大きくなる割合が頭打ちになった時点で、スキップ条件算出モードからスキップ可能モードへ遷移するとしてもよい。具体的には、閾値超過データの数が所定の数増加した場合にも、認識対象範囲の大きさに変化がなければ、動作モードの遷移が起こるとしてもよい。
以上詳細に説明したように、第3実施形態の情報処理装置100によれば、顔認識処理の運用を開始してサンプル数が増加し、ある程度の時間が経過したのちには、自動的に不適検出条件を算出し、その後は顔認識処理のスキップが可能となる。このことにより、顔認識処理全体として処理量の削減が実現できる。そして、スキップ条件算出モードにおいて十分なサンプルを収集すれば、認識対象範囲の大きさに変化がなくなるはずなので、動作モードの遷移条件を本実施形態のようにすることで、適切な遷移条件の設定が可能となる。
<第4実施形態>
第4実施形態では、対象者を追尾する機能を有する情報処理装置100の例を説明する。第4実施形態の情報処理装置100では、顔検出部102が追尾機能を有するとする。追尾機能とは、異なるフレームで検出された同一人物の顔同士の対応をとることで、その人物の移動の軌跡を推定する機能のことである。
第4実施形態の場合、顔検出部102は、検出情報として、顔の座標(第1実施形態の場合と同じ情報)と、追尾識別子(人物の移動の軌跡を識別する情報)とを出力する。なお、第4実施形態において、追尾機能を有することを除き、顔認識処理の構成は前述した実施形態と同様であるため、以下、前述の実施形態とは異なる処理についてのみ説明する。
第4実施形態では、対象者を追尾する機能を有する情報処理装置100の例を説明する。第4実施形態の情報処理装置100では、顔検出部102が追尾機能を有するとする。追尾機能とは、異なるフレームで検出された同一人物の顔同士の対応をとることで、その人物の移動の軌跡を推定する機能のことである。
第4実施形態の場合、顔検出部102は、検出情報として、顔の座標(第1実施形態の場合と同じ情報)と、追尾識別子(人物の移動の軌跡を識別する情報)とを出力する。なお、第4実施形態において、追尾機能を有することを除き、顔認識処理の構成は前述した実施形態と同様であるため、以下、前述の実施形態とは異なる処理についてのみ説明する。
追尾機能を有する情報処理装置100では、異なるフレーム間での人物の同一性が判別できる。このため、ある人物に対する顔認識の最大類似度スコア(予め登録されている顔との比較により算出される類似度スコアの最大のもの)は、複数(顔検出されたフレーム数分)算出される。
追尾機能を有する情報処理装置100では、同一の追尾識別子に対して、複数算出された最大類似度スコアの中の最大のものを、その追尾識別子に対する顔認識結果とする。つまり、最大となっている最大類似度スコア算出に用いられた登録画像の人物IDが顔認識結果となる。従って、前述した実施形態のような追尾機能を有しない情報処理装置の場合、検出された顔に対する顔認識結果は、顔が検出されるたびに出力されることになる。これに対し、第4実施形態のように追尾機能を有する情報処理装置100では、追尾識別子ごとに顔認識結果が出力されることになる。そしてその際、本実施形態の情報処理装置100は、同一の追尾識別子内で最大となっている最大類似度スコアを基に認識結果を推定する。
図13は、第4実施形態に係る情報処理装置100の対応管理部501が管理し、蓄積部502に蓄積している蓄積データ(スコア対応データ)の例を示した図である。図13に示すように、第4実施形態の蓄積部502には、スコア対応データとして、管理番号と、水平、垂直座標と、最大類似度スコアと、追尾識別子とが対応付けられたデータが生成、蓄積されている。図13に示された管理番号1~4のデータは、それぞれ図4の顔領域400~403から得られたものに対応している。例えば、管理番号1のデータは、画像中の座標(200,100)の顔に対して顔認識した際の最大類似度が300であった場合の例である。また第4実施形態の場合、管理番号1~4のデータは、異なるフレームで検出された同一人物の顔検出結果なので、同じ追尾識別子(例えば1)が割り当てられている。
第4実施形態の場合、同一追尾識別子を持つスコア対応データのうち、最大類似度スコアが最大のものを閾値超過データとする。つまり、図13のような場合、範囲決定部503は、管理番号3のデータを閾値超過データとして抽出する。
上述の説明では、撮影された人物が一人で、スコア対応データが四つで、四つとも同一の追尾識別子を有する場合の例に関して、蓄積部502、範囲決定部503の動作を説明したが、図14には撮影された人物がさらに増えた場合の例を示す。
上述の説明では、撮影された人物が一人で、スコア対応データが四つで、四つとも同一の追尾識別子を有する場合の例に関して、蓄積部502、範囲決定部503の動作を説明したが、図14には撮影された人物がさらに増えた場合の例を示す。
図14(A)に示すマップ1401と、図14(B)に示すマップ1402とは、蓄積部502で蓄積されているスコア対応データを、その座標に従って撮影画像上にマップしたものである。図中の点線は人物が移動した軌跡1410を表現している。なお、第1実施形態の場合との違いを分かりやすくするために、第1実施形態の基準で抽出した星印710で示した閾値超過データと、破線で示した外接矩形720(認識対象範囲)とをも示している。
図14(B)のマップ1402には、図14(A)と同じ顔検出結果に対して、追尾識別子を用いて閾値超過データを抽出した場合の様子を示している。マップ1402において、丸印1430は、第4実施形態の基準(同一追尾識別子を持つスコア対応データのうち、最大類似度スコアが最大のもの)を適用した場合の閾値超過データを示している。なお、マップ1402内の星印710は、本実施形態の基準では閾値超過データではないが、追尾情報を使用しない第1実施形態では閾値超過データとなるようなデータである(第1実施形態との違いが分かりやすいように図示している)。また、追尾情報を使用する本実施形態における認識対象範囲は、閾値超過データである丸印1430の外接矩形1420となっている。
以上詳細に説明したように、本実施形態の情報処理装置100によれば、追尾情報を使用することで、顔認識処理の運用を開始してある程度の時間が経過したのちには、自動的に不適検出条件を算出し、その後は顔認識処理のスキップが可能となる。このことにより、顔認識処理全体として処理量の削減が実現できる。特に、本実施形態の場合、同一の追尾識別子に対して、複数算出された最大類似度スコアの最大のものを、閾値超過データとして収集する。これにより、追尾情報を使用しない場合に比較して、さらに認識対象範囲を絞ることが可能となる。したがって、第4実施形態においては、さらなる理量の削減が実現可能となる。
前述の実施形態では、監視カメラ200の撮影方向や光学倍率が固定されている例を挙げたが、監視カメラは撮影方向や光学倍率を任意に変更可能なカメラであってもよい。撮影方向や光学倍率を変更可能な監視カメラである場合、撮影方向や光学倍率を変更する毎に前述した認識対象範囲決定処理を行い、撮影方向や光学倍率が異なった撮影条件ごとに対応した複数の認識対象範囲を決定してもよい。そして、複数の異なる撮影方向毎あるいは光学倍率毎に対応した複数の認識対象範囲を保持しておき、監視カメラの撮影方向や光学倍率を変更したときにはそれらに対応した認識対象範囲を用いるようにしてもよい。
<ハードウェア構成>
図15は、前述した各実施形態の情報処理装置100の各機能を実現可能なハードウェア構成例を示した図である。前述した各実施形態の情報処理装置100は、例えばコンピュータ等により実現可能である。すなわちこの場合のコンピュータは、前述した各実施形態の情報処理を実現するソフトウェアのプログラムコードを実行する。例えば、情報処理装置100は、ハードウェア構成として、CPU1511、ROM1512、RAM1513、補助記憶装置1514、表示部1515、操作部1516、通信I/F1517、およびバス1518を、少なとも有している。CPU1511は、ROM1512やRAM1513に格納されているコンピュータプログラムやデータを用いて、当該情報処理装置100の全体を制御するとともに、前述した顔認識処理や認識対象範囲決定処理等を含む情報処理を実行する。また情報処理装置100は、CPU1511とは異なる1又は複数の専用のハードウェアを有していて、CPU1511による処理の少なくとも一部を専用のハードウェアが実行する構成であっても良い。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM1512は、変更を必要としないプログラムなどを格納する。RAM1513は、補助記憶装置1514から供給されるプログラムやデータ、及び通信I/F1517を介して外部から供給されるデータなどを一時記憶する。補助記憶装置1514は、HDD等で構成され、画像データ、前述した顔認識処理や認識対象範囲決定処理で使用する各データや情報等を記憶する。表示部1515は、例えば液晶ディスプレイやLEDディスプレイ等で構成され、ユーザが情報処理装置を操作するためのGUIなどを表示する。操作部1516は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPUに入力する。またCPU1511は、表示部1515を制御する表示制御部、及び操作部1516を制御する操作制御部としても動作する。通信I/F1517は、情報処理装置100と監視カメラ200を含む外部の装置との通信に用いられる。例えば、情報処理装置100が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F1517に接続される。情報処理装置100が外部の装置と無線通信する機能を有する場合には、通信I/F1517はアンテナを備える。バス1518は、情報処理装置100の各部をつないで情報を伝達する。なお本実施形態の場合、情報処理装置100と接続される外部の装置は、前述した監視カメラ200だけでなく、他の情報処理装置等も含まれる。また表示部1515と操作部1516が情報処理装置100の内部に存在するものとしたが、表示部1515と操作部1516との少なくとも一方が情報処理装置100の外部に別の装置として存在していても良い。また、情報処理装置100は、表示部1515や操作部1516を必ずしも備えていなくても良い。
図15は、前述した各実施形態の情報処理装置100の各機能を実現可能なハードウェア構成例を示した図である。前述した各実施形態の情報処理装置100は、例えばコンピュータ等により実現可能である。すなわちこの場合のコンピュータは、前述した各実施形態の情報処理を実現するソフトウェアのプログラムコードを実行する。例えば、情報処理装置100は、ハードウェア構成として、CPU1511、ROM1512、RAM1513、補助記憶装置1514、表示部1515、操作部1516、通信I/F1517、およびバス1518を、少なとも有している。CPU1511は、ROM1512やRAM1513に格納されているコンピュータプログラムやデータを用いて、当該情報処理装置100の全体を制御するとともに、前述した顔認識処理や認識対象範囲決定処理等を含む情報処理を実行する。また情報処理装置100は、CPU1511とは異なる1又は複数の専用のハードウェアを有していて、CPU1511による処理の少なくとも一部を専用のハードウェアが実行する構成であっても良い。専用のハードウェアの例としては、ASIC(特定用途向け集積回路)、FPGA(フィールドプログラマブルゲートアレイ)、およびDSP(デジタルシグナルプロセッサ)などがある。ROM1512は、変更を必要としないプログラムなどを格納する。RAM1513は、補助記憶装置1514から供給されるプログラムやデータ、及び通信I/F1517を介して外部から供給されるデータなどを一時記憶する。補助記憶装置1514は、HDD等で構成され、画像データ、前述した顔認識処理や認識対象範囲決定処理で使用する各データや情報等を記憶する。表示部1515は、例えば液晶ディスプレイやLEDディスプレイ等で構成され、ユーザが情報処理装置を操作するためのGUIなどを表示する。操作部1516は、例えばキーボードやマウス、ジョイスティック、タッチパネル等で構成され、ユーザによる操作を受けて各種の指示をCPUに入力する。またCPU1511は、表示部1515を制御する表示制御部、及び操作部1516を制御する操作制御部としても動作する。通信I/F1517は、情報処理装置100と監視カメラ200を含む外部の装置との通信に用いられる。例えば、情報処理装置100が外部の装置と有線で接続される場合には、通信用のケーブルが通信I/F1517に接続される。情報処理装置100が外部の装置と無線通信する機能を有する場合には、通信I/F1517はアンテナを備える。バス1518は、情報処理装置100の各部をつないで情報を伝達する。なお本実施形態の場合、情報処理装置100と接続される外部の装置は、前述した監視カメラ200だけでなく、他の情報処理装置等も含まれる。また表示部1515と操作部1516が情報処理装置100の内部に存在するものとしたが、表示部1515と操作部1516との少なくとも一方が情報処理装置100の外部に別の装置として存在していても良い。また、情報処理装置100は、表示部1515や操作部1516を必ずしも備えていなくても良い。
<その他の実施形態>
以上、各実施形態について説明したが、本発明はこれらの実施形態に限定されることなく、その要旨の範囲内で種々の変形および変更が可能である。
上述した各実施形態に係る情報処理装置100の1以上の機能を他の装置が有していてもよい。例えば、各実施形態に係る情報処理装置100の1以上の機能を監視カメラ200が有していてもよい。なお、上述した各実施形態は任意に組み合わせて実施されてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
以上、各実施形態について説明したが、本発明はこれらの実施形態に限定されることなく、その要旨の範囲内で種々の変形および変更が可能である。
上述した各実施形態に係る情報処理装置100の1以上の機能を他の装置が有していてもよい。例えば、各実施形態に係る情報処理装置100の1以上の機能を監視カメラ200が有していてもよい。なお、上述した各実施形態は任意に組み合わせて実施されてもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける一つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
上述の実施形態は、何れも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。即ち、本発明は、その技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
100:情報処理装置、101:画像入力部、102:顔検出部、103:顔認識部、104:管理制御部
Claims (16)
- 入力画像から検出した物体の検出情報を取得する検出手段と、
前記入力画像から検出した対象物体と、認証対象として画像が登録された登録物体との認識処理を実行し、認識スコアを取得する認識手段と、
前記検出情報と前記認識スコアとの対応関係を示すスコア対応データを生成する生成手段と、
前記スコア対応データを基に、画像から検出された物体に対して前記認識処理を動作させるか否かを決定する制御手段と、
を有することを特徴とする情報処理装置。 - 前記検出情報は、前記入力画像における前記対象物体の検出位置を含むことを特徴とする請求項1に記載の情報処理装置。
- 前記検出情報は、前記対象物体の確からしさを評価するスコアを含むことを特徴とする請求項1に記載の情報処理装置。
- 前記生成手段は、前記対象物体が検出されるごとに、前記スコア対応データを生成することを特徴とする請求項1乃至請求項3のいずれか1項に記載の情報処理装置。
- 前記生成手段は、蓄積している前記スコア対応データのうち、所定の閾値を超える認識スコアを持つものを閾値超過データとして抽出し、
前記制御手段は、前記閾値超過データの抽出結果に基づいて、前記認識手段の前記認識処理を動作させる第1の動作モードと、前記認識処理を動作させない状態を含む第2の動作モードと、を切り替えることを特徴とする請求項1乃至請求項4のいずれか1項に記載の情報処理装置。 - 前記制御手段は、前記入力画像から検出された前記対象物体の検出情報が、前記閾値超過データに対応付けられた前記検出情報に基づく認識対象範囲に含まれるか否かと、前記第1の動作モードまたは第2の動作モードとに応じて、前記認識処理を動作させるか否かを決定することを特徴とする請求項5に記載の情報処理装置。
- 前記制御手段は、前記認識対象範囲を所定の幅だけ拡大することを特徴とする請求項6に記載の情報処理装置。
- 前記制御手段は、前記閾値超過データに対応付けられた前記検出情報に基づいて、矩形もしくは多角形の前記認識対象範囲を特定することを特徴とする請求項6または請求項7に記載の情報処理装置。
- 前記検出手段は、同一の対象物体の移動の軌跡をさらに取得し、
前記生成手段は、前記同一の対象物体の移動の軌跡をも用いて前記認識対象範囲を抽出することを特徴とする請求項6乃至請求項8のいずれか1項に記載の情報処理装置。 - 前記制御手段は、前記抽出された前記閾値超過データの数に基づいて、前記第1の動作モードと前記第2の動作モードとの切り替えを制御することを特徴とする請求項6乃至請求項9のいずれか1項に記載の情報処理装置。
- 前記制御手段は、
前記閾値超過データの数が予め設定された所定の数を超えていない場合には、前記第1の動作モードで前記認識手段を制御し、
前記閾値超過データの数が予め設定された前記所定の数を超えている場合には、前記第2の動作モードで前記認識手段を制御することを特徴とする請求項10に記載の情報処理装置。 - 前記制御手段は、前記抽出された前記閾値超過データの数と、前記認識対象範囲との関係に基づいて、前記第1の動作モードと前記第2の動作モードとの切り替えを制御することを特徴とする請求項6乃至請求項9のいずれか1項に記載の情報処理装置。
- 前記制御手段は、
前記閾値超過データの数が予め設定された前記所定の数だけ増加した場合でも、前記認識対象範囲の大きさが増加しない場合には、前記第1の動作モードで前記認識手段を制御し、
それ以外の場合には、前記第2の動作モードで前記認識手段を制御することを特徴とする請求項12に記載の情報処理装置。 - 前記制御手段は、前記第2の動作モードで前記認識手段を制御している場合において、前記入力画像から検出された前記対象物体の検出情報が前記認識対象範囲に含まれていない場合には、前記認識手段の前記認識処理を動作させないことを特徴とする請求項6乃至請求項13のいずれか1項に記載の情報処理装置。
- 情報処理装置が実行する情報処理方法であって、
入力画像から検出した物体の検出情報を取得する検出工程と、
前記入力画像から検出した対象物体と、認証対象として画像が登録された登録物体との認識処理を実行し、認識スコアを取得する認識工程と、
前記検出情報と前記認識スコアとの対応関係を示すスコア対応データを生成する生成工程と、
前記スコア対応データを基に、画像から検出された物体に対して前記認識処理を動作させるか否かを決定する制御工程と、
を有することを特徴とする情報処理方法。 - コンピュータを、請求項1乃至請求項14のいずれか1項に記載の情報処理装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021064584A JP2022160064A (ja) | 2021-04-06 | 2021-04-06 | 情報処理装置、情報処理方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021064584A JP2022160064A (ja) | 2021-04-06 | 2021-04-06 | 情報処理装置、情報処理方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022160064A true JP2022160064A (ja) | 2022-10-19 |
Family
ID=83657752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021064584A Pending JP2022160064A (ja) | 2021-04-06 | 2021-04-06 | 情報処理装置、情報処理方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022160064A (ja) |
-
2021
- 2021-04-06 JP JP2021064584A patent/JP2022160064A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10755080B2 (en) | Information processing apparatus, information processing method, and storage medium | |
JP6555906B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP6018674B2 (ja) | 被写体再識別のためのシステム及び方法 | |
JP5925068B2 (ja) | 映像処理装置、映像処理方法、およびプログラム | |
KR102465532B1 (ko) | 객체 인식 방법 및 장치 | |
JP6494253B2 (ja) | 物体検出装置、物体検出方法、画像認識装置及びコンピュータプログラム | |
US8325981B2 (en) | Human tracking apparatus, human tracking method, and human tracking processing program | |
JP5025607B2 (ja) | 異常行動検知装置 | |
JP6654789B2 (ja) | 変化点で複数候補を考慮して物体を追跡する装置、プログラム及び方法 | |
KR20190093799A (ko) | Cctv를 통한 실시간 실종자 얼굴 인식 시스템 및 그 방법 | |
CN113608663B (zh) | 一种基于深度学习和k-曲率法的指尖跟踪方法 | |
JP2007300185A (ja) | 画像監視装置 | |
JP2013101551A (ja) | 顔画像認証装置 | |
JP2007206898A (ja) | 顔認証装置および入退場管理装置 | |
KR101542206B1 (ko) | 코아스-파인 기법을 이용한 객체 추출과 추적 장치 및 방법 | |
JP6384167B2 (ja) | 移動体追跡装置及び移動体追跡方法、並びにコンピュータ・プログラム | |
US11132778B2 (en) | Image analysis apparatus, image analysis method, and recording medium | |
KR101290517B1 (ko) | 촬영장치 및 이의 대상 추적방법 | |
JP2022160064A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
JP2007334810A (ja) | 画像領域追跡装置及びその方法 | |
JP2014071684A (ja) | 顔画像認証装置 | |
JP2021012696A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6851241B2 (ja) | 画像解析装置 | |
US20220019811A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP4552018B2 (ja) | 動画像処理装置及び動画像処理方法 |