JP2017054493A

JP2017054493A - 情報処理装置及びその制御方法及びプログラム

Info

Publication number: JP2017054493A
Application number: JP2016144757A
Authority: JP
Inventors: 昌弘松下; Masahiro Matsushita; 椎山　弘隆; Hirotaka Shiiyama; 弘隆椎山
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-09-11
Filing date: 2016-07-22
Publication date: 2017-03-16
Anticipated expiration: 2036-07-22
Also published as: CN106529388A; JP6775343B2; US10762133B2; US20190278804A1

Abstract

【課題】照合データベースに登録する人物の全体もしくは一部の特徴量を、互いに同じ向きの特徴量となることを抑制することで、照合データベースが肥大することを抑制しつつ、かつ、人物の検出から照合データベースへの登録までに要する遅延時間を短くする。【解決手段】このため、この発明の情報処理装置は、映像を取得する取得部、前記取得された映像の少なくとも１つのフレームより人物の全体もしくは一部を検出する検出部、前記検出された人物の全体もしくは一部を追尾する追尾部、前記追尾部による前記人物の全体もしくは一部の追尾が開始されてから前記追尾部による追尾が終了する前までの第１の期間に追尾された人物の全体もしくは一部から抽出された特徴量をデータベースに登録する登録部とを有する。【選択図】図１

Description

本発明は、画像中の人物の照合を行う情報処理装置及びその制御方法、記憶媒体に関するものである。

従来、監視映像の各フレームから人間の全体もしくは一部（顔など）を検出し、その顔から画像特徴量を算出して映像のフレームと対応づけて蓄積しておく装置が知られている。たとえば、特許文献１に開示されている装置では、例えば迷子の子供の顔をクエリとして蓄積した画像特徴量と照合を行い、その子供が映っている映像を表示することが可能である。

しかしながら、文献１の技術は、映像の全てのフレームから検出される顔を全てデータベースに登録しており、蓄積する画像特徴量が膨大となる。そこで、フレームを間引きし、処理するフレームレートを低下させ、登録する顔の画像特徴量を減らすことが考えられるが、この場合、好ましい向き・大きさ・目の写り具体などの顔の特徴量が非登録となることもあり、照合漏れとなる原因になりかねない。

特開２０１３−１５３３０４号公報特開２００２−３７３３３２号公報

ＥｒｉｋＭｕｐｈｙ−Ｃｈｕｔｏｒｉａｎ， "Ｈｅａｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｆｏｒｄｒｉｖｅｒａｓｓｉｓｔａｎｃｅｓｙｓｔｅｍｓ：Ａｒｏｂｕｓｔａｌｇｏｒｉｔｈｍａｎｄｅｘｐｅｒｉｍｅｎｔａｌｅｖａｌｕａｔｉｏｎ，" ｉｎＰｒｏｃ．ＩＥＥＥＣｏｎｆ．ＩｎｔｅｌｌｉｇｅｎｔＴｒａｎｓｐｏｒｔａｔｉｏｎＳｙｓｔｅｍｓ，２００７，ｐｐ．７０９−７１４．

しかしながら、特許文献１の技術は、映像の全てのフレームから検出される顔を全てデータベースに登録しており、蓄積する画像特徴量が膨大となる。そこで、フレームを間引きし、処理するフレームレートを低下させ、登録する顔の画像特徴量を減らすことが考えられるが、この場合、好ましい向き・大きさ・目の写り具体などの顔の特徴量が非登録となることもあり、照合漏れとなる原因になりかねない。

本発明は、上記問題点に鑑みなされたものである。そして、本発明は、照合データベースに人物顔の全体もしくは一部から抽出される特徴量を登録するまでに要する時間の遅延を少なくする技術を提供しようとするものである。

この課題を解決するため、例えば本発明の情報処理装置は以下の構成を備える。すなわち、
映像を取得する取得手段と、
前記取得された映像の少なくとも１つのフレームより人物の全体もしくは一部を検出する検出手段と、
前記検出された人物の全体もしくは一部を追尾する追尾手段と、
前記追尾手段による前記人物の全体もしくは一部の追尾が開始されてから前記追尾手段による追尾が終了する前までの第１の期間に追尾された人物の全体もしくは一部から抽出された特徴量をデータベースに登録する登録手段とを有する。

本発明によれば、人物の検出から照合データベースへの人物の全体もしくは一部から抽出される特徴量の登録までに要する遅延時間を短くすることができる。

実施形態の装置のブロック構成図。実施形態の装置の機能構成図。実施形態に顔向きに応じた分類を説明するための図。実施形態におけるオブジェクト追尾情報の内容を示す図。実施形態における画像特徴量蓄積部の処理を説明するための図。実施形態におけるオブジェクト追尾が開始と終了するタイミングの例を示す図。実施形態における照合データベースの構造の例を示す図である。第１の実施形態における映像蓄積処理を示すフローチャート。図８におけるＤＢ登録処理を示すフローチャート。第１の実施形態における照合処理を示すフローチャート。

以下、添付図面に従って本発明に係る実施形態を詳細に説明する。なお、以下で説明する各実施形態は、本発明を具体的に実施した例を示すもので、特許請求の範囲に記載の構成の具体的な実施形態の１つである。

［第１の実施形態］
図１は、本実施形態における画像照合装置１００のブロック構成図である。本装置１００は、画像検索のサーバ装置、および、クライアント装置の両方として機能するものとして説明するが、サーバ機能、クライアント機能はそれぞれ独立した装置で構成しても構わない。また、サーバ装置は、単独の装置ではなく、複数のコンピュータ装置で処理を分散して実現しても構わない。複数のコンピュータ装置で構成される場合は、互いに通信可能なようにＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ（ＬＡＮ）などで接続されている。コンピュータ装置は、パーソナルコンピュータ（ＰＣ）やワークステーション（ＷＳ）等の情報処理装置によって実現することができる。

図１において、ＣＰＵ１０１は画像照合装置１００全体を制御するＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔである。ＲＯＭ１０２は変更を必要としないプログラム（ＢＩＯＳ等）やパラメータを格納するＲｅａｄＯｎｌｙＭｅｍｏｒｙである。ＲＡＭ１０３は外部装置などから供給されるプログラムやデータを一時記憶するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙである。外部記憶装置１０４はコンピュータ装置１００に固定して設置されたハードディスク等の大容量の記憶装置である。この外部記憶装置１０４は、本装置のオペレーティングシステム（ＯＳ）、画像照合にかかるアプリケーション、照合する際に参照する照合データベース（以下、照合ＤＢという）が格納されている。また、後述するが、ビデオカメラで撮像した映像データも、この外部記憶装置１０４に格納されている。

入力デバイスインターフェース１０５はユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力デバイス１０９とのインターフェースである。出力デバイスインターフェース１０６はコンピュータ装置１００の保持するデータや供給されたデータを表示するためのモニタ１１０とのインターフェースである。通信インターフェース１０７はインターネットなどのネットワーク回線１１１に接続するための通信インターフェースである。ネットワーク回線１１１上には、ネットワークカメラ１１２ａ乃至１１２ｃが接続されている。なお、ネットワークカメラ１１２ａ乃至１１２には、それぞれカメラＩＤが割り当てられている。ここでは、ネットワークカメラ１１２ａ、１１２ｂ、１１２ｃにカメラＩＤ１，２，３が割り当てられているものとして説明する。また、接続されているネットワークカメラは１以上であればよく、その数は問わない。システムバス１０８は上記の各ユニット１０１〜１０７を通信可能に接続する伝送路である。

上記構成において、電源がＯＮになると、ＣＰＵ１０１はＲＯＭ１０２に格納されたＢＩＯＳプログラムを実行し、外部記憶装置１０４からＯＳ（オペレーティングシステム）をＲＡＭ１０３上にロードし、ＯＳを実行する。この結果、本装置が情報処理装置として機能することになる。そして、ＯＳの制御下において、外部記憶装置１０４から、画像照合にかかるサーバプログラム、および、クライアントプログラムを実行することで、本装置が画像照合装置として機能することになる。

図２は、実施形態における映像照合装置の機能ブロック構成図である。同図は、検索サーバ、クライアントの両機能のプログラムを、ＣＰＵ１０１が実行した場合の機能構成図でもある。本実施形態では、画像特徴として顔から得る顔画像特徴を用い、これを利用した画像特徴照合の例を示す。

制御処理部２１１は、符号２０１乃至２０７、２０９、２１０で示される各処理部を制御するためのメイン処理を行う。

映像入力部２０１は、通信インターフェース１０７を介して、ネットワークカメラ１１２ａ乃至１１２ｃそれぞれからの映像フレームを受信し、外部記憶装置１０４にそれぞれ格納していく。入力するフレームレートは例えば３０フレーム／秒とする。上記の結果、外部記憶装置１０４は、ネットワークカメラ１１２ａ〜１１２ｃそれぞれの動画像ファイルが作成されることになる。また、映像入力部２０１は、受信した映像フレームを顔検出部２０６に供給する。

顔検出部２０６は、顔向き検出部２０７、顔画像特徴抽出部２０９を利用して、顔検出を行う。顔画像特徴出部２０９は、映像フレーム中の顔領域を検出し、その特徴量を抽出し、顔検出部２０６に返す。本実施形態では、顔画像特徴量として顔器官点のＳＩＦＴ(Scale Invariant Feature Transform)特徴量を求めるものとする。また、顔画像特徴出部２０９は、顔特徴量を抽出する際に、その顔領域の外接矩形の左上隅の座標、並びに、その外接矩形のサイズ（幅Ｗと高さＨ）も顔検出部２０６に返す。なお、サイズの代わりに外接矩形の右下隅の座標でも構わない。

顔向き検出部２０７は、顔検出部２０６で検出された顔の向きを検出し、その向きを予め設定された向きパターンのいずれに該当するかを分類する。そして、顔向き検出部２０７は、分類結果である顔向きパターン番号を、顔検出部２０６に返す。なお、画像中の人物の顔の向きを検出する技術は公知であるのでその詳述は省略する（例えば非特許文献１）。

実施形態における顔向き検出部２０７は、着目している顔の向きが、図３（ａ）に示す５×５個のパターンのいずれかに該当するかを判定する。なお、図示では５×５個のパターンで示しているが、この数は特に問わない。ネットワークカメラの解像度が十分に高ければ、特徴量や向きの精度が高くなるので、パターン数を更に増やしても構わない。図示のパターンでは、正面を向いている顔の向きを中心に位置し、上下左右方向へのずれ角が大きくなるほど、中心位置から外れるようにした。換言すれば、５×５個のパターンの中心に近いほど、顔向きが正面に向くように顔向きのパターンを配置した。顔照合では、正面を向いている顔を用いた場合にその精度が高くなる。つまり５×５個の顔向きの中心位置が最も優先順位が高く、その中心位置から外れるにしたがって優先順位が低いものとした。図３（ｂ）はその顔向きパターン番号の一例である。図示の如く、顔の向きが正面を向いている場合の顔向きパターン番号は“１”である。そして、その周りに向き顔向きパターン番号２〜９、さらにその外側に顔向きパターン番号１０乃至２５を割り当てた。なお、顔向きパターン番号２〜９は、必ずしも図示の通りでなくても構わない。顔向きパターン番号１０乃至２５も同様である。

以上の説明の通り、顔検出部２０６は、ネットワークカメラ１１２ａ乃至１１２ｃそれぞれより受信した各映像フレームから、顔向き検出部２０７、顔画像特徴抽出部２０９を利用して、人物の顔の位置、サイズ、特徴量、顔向きパターン番号を得る。

追尾処理部２０５は、制御処理部２１１からの追尾開始指示情報を受けると、現在のフレーム内の指示された顔を追尾開始対象の顔とし、それ以降のフレーム画像の該当する顔の追尾処理を行う。ここで追尾開始指示情報には、いずれのネットワークカメラからのフレーム画像かを示す情報（カメラＩＤ）、その追尾対象の顔の初期位置を示す情報、追尾する顔を特定するためのオブジェクトＩＤが含まれる。また、詳細は後述する説明から明らかにするが、追尾開始指示情報には、追尾回数、終了フレームのタイミングを示す情報（実施形態では、Ｔｐ１、Ｔｐ２のいずれか）も含まれる。オブジェクトＩＤは、初期値は１であり、追尾すべき顔が発見されるたびに、“１”増加されるものである。なお、画像中の人物を追尾する処理は、例えば、特許文献２に開示された技術を用いればよい。

追尾処理部２０５は、上記の追尾開始指示情報を受けると、図４に示すようなオブジェクト追尾情報をＲＡＭ１０３上に生成する。１つのオブジェクト追尾情報は、カメラＩＤとオブジェクトＩＤで特定される。また、１つのオブジェクト追尾情報には、追尾回数、最終フレーム番号のデータがセットされるが、これらについての詳細は後述することとし、ここでは省略する。

オブジェクト追尾情報に格納される情報には、本装置がその日の撮影記録を開始してから、追尾開始を指示された時のフレーム番号（時刻でも構わない）が含まれる。そして、さらには、該当する映像フレーム内の追尾対象の顔の外接矩形の左上隅の位置とサイズ（幅、高さ）、顔向きパターン番号、および、その顔の特徴量が含まれる。これらの情報は、顔向き検出部２０７、顔画像特徴抽出部２０９からの情報を利用する。

そして、追尾処理部２０５は、映像フレームが順次入力され、該当する顔の追尾が成功しつつある限り、該当するオブジェクト追尾情報に、上記で説明したフレーム番号、位置、サイズ、顔向きパターン番号、特徴量を追記していく。そして、追尾不可となった場合、追尾処理部２０５は、制御処理部２１１に対して該当するオブジェクトＩＤに対する照合ＤＢへの登録要求を行う。なお、追尾不可となるケースは、追尾中の人物（の顔）がカメラの視野範囲外に移動した場合、人物が後ろを向いたなど、顔として認識できなくなった場合がこれに当たる。

制御処理部２１１は、この登録要求を受けると、該当するオブジェクト追尾情報を、画像特徴蓄積部２０２に渡し、照合ＤＢへの蓄積処理（登録処理）を行わせる。この画像特徴蓄積部２０２の詳細は後述するが、登録処理を終えると、制御処理部２１１は、登録済みのオブジェクト追尾情報をＲＡＭ１０３から消去する。

なお、カメラの視野範囲外に移動した人物が、再度、カメラの視野範囲内に移動することもあり得る。実施形態の装置は、カメラの視野外になった人物と、再度視野内に移動した人物が同一人物か否かは判断しない。それ故、再度、カメラの視野範囲内に移動してきた人物の顔に対しては、新規なオブジェクトＩＤを発行し、追尾を開始することになる。従って、追尾処理部２０５は、結局のところ、カメラの撮像視野範囲にて、顔と認識されたオブジェクトの全てについて追尾処理を行う。従って、図４に示すオブジェクト追尾情報は現に追尾中の顔の数だけ生成されることになる。１台のネットワークカメラの視野内に、顔と認識できる程度にサイズの顔領域はせいぜい４，５０個程度である。ネットワークカメラが３台であることを考慮しても、最大でも１５０個の顔が追尾対象となるに留まるので、現在のコンピュータでは十分に対処できる数と言える。

因に、ネットワークカメラからの映像フレームを受信していて、図６における時刻ｔ０にて人物Ａの顔が初めて検出された場合、人物Ａに対してオブジェクトＩＤが発行され、人物Ａのオブジェクト追尾情報が生成される。これ以降、人物Ａの追尾できなくなる時刻ｔ３まで、人物Ａの追尾処理が行われる。この間、時刻ｔ１にて、別の人物Ｂの顔が、同じ撮影視野内に初めて検出された場合には、人物Ｂに対してオブジェクトＩＤが発行され、人物Ｂのオブジェクト追尾情報が生成される。そして人物Ｂの追尾できなくなる時刻ｔ２まで、人物Ｂの追尾処理が行われることになる。

次に、画像特徴蓄積部２０２の蓄積処理を図５を参照して説明する。この蓄積処理は、既に説明したように或る人物の顔を追尾処理が終了した場合に行われる。

図５における符号５００はオブジェクト追尾情報に格納された顔向きパターン番号の時間推移を表している。なお、図示では、オブジェクト追尾情報に格納された顔向きパターンの個数は全部で８つの例を示しているが、これは説明を簡単にするためである。

まず、画像特徴蓄積部２０２は、オブジェクト追尾情報に格納された顔向きパターン番号の出現数の集計処理を行う。図５の符号５０１が集計結果を示し、顔パターンの右下の数字が、その出現数（累積数）を表している。

顔向きパターン番号は図３（ｂ）に示す如く１乃至２５であるので、顔向きＩＤの集計結果を変数Ｆ（顔向きパターン番号）として表す。ここで、実施形態においては、追尾対象の顔につき最大４個の特徴量を照合ＤＢに登録するものとする。もちろん、この数は一例であって、それ以上であっても構わない。

実施形態の場合、顔向きパターン番号は、その番号順に優先順位を設定されている（図３（ｂ）参照）。画像特徴蓄積部２０２は、集計した変数Ｆ（１）乃至Ｆ（２５）をこの順番に調べ、出現数が非ゼロ（１以上）である最初の４つを見つける。図５の場合、参照符号５０２で示すように、斜線で示したＦ（１）、Ｆ（２）、Ｆ（３）、Ｆ（６）がこれに当たる。つまり、オブジェクト追尾情報中の顔向きパターン番号＝１，２，３，６となった特徴量が照合ＤＢに登録する候補として決定する。

ここで、顔向きパターン番号“１”の出現数Ｆ（１）は“１”である。つまり、オブジェクト追尾情報に顔向きパターン番号“１”の特徴量は１つしか存在しなかったことになる。それ故、画像特徴蓄積部２０２は、オブジェクト追尾情報内の、顔向きパターン番号“１”となっている特徴量を照合ＤＢに登録する。

また、顔向きパターン番号“２”の出現数Ｆ（２）は“２”であるので、いずれか１つを登録するものとして決定する。実施形態では、２つのうち、顔のサイズが大きい方の特徴量を、該当する向きを代表する特徴量として登録する。顔の大きい方が、その人物の顔を撮影した際に、カメラとの距離が短いことになり、高い精度が期待できるからである。また、顔向きパターン番号＝３、６の場合も同様である。

以上の結果、実施形態の場合、照合ＤＢに登録するのは、１つのオブジェクトＩＤにつき、４つの顔の特徴量となり、尚且つ、その顔の特徴量は、顔の向きが重複せず、かつ、正面を向いている程度が高いほど登録される可能性が高くできる。従って、照合ＤＢが肥大化を抑制できる。しかも、登録する特徴量は、顔のサイズが大きいほど優先されることになり、精度の高い整合処理も期待できる。

ここで１つ問題が残る。顔の特徴量の照合ＤＢへの登録するタイミングを、その顔（人物）が追跡できなくなったタイミングとしていることに起因する問題である。例えば現在時刻が図６の時刻ｔ４であり、迷子の人物Ａの顔をクエリ画像として入力した場合を考察する。この場合、現在時刻（時刻ｔ４）では、ネットワークカメラのいずれかは、人物Ａの顔を撮影しているものの、その顔は追尾中であり、人物Ａの顔の特徴量は未だ照合ＤＢに登録されていない。つまり、時刻ｔ４にて、人物Ａの顔をクエリ画像として入力して照合処理を開始したとしても、直近の時刻ｔ０乃至ｔ４間の人物Ａの顔は、検索対象とはならないことになる。迷子などの人物の検索は、直近の時刻に近い居場所を特定するのが重要なので、この問題は無視できない。

上記の問題に鑑み、本実施形態の特徴とする点は、顔の特徴量の照合ＤＢへの登録するタイミングとして、上記のように顔の追尾不可となったタイミングだけでなく、さらに、時限を設定する点である。例えば、図６の場合、人物Ａの追尾の追尾開始時刻ｔ０から予め設定された時間Ｔｐ１が経過した時刻ｔ５にて、その人物Ａの顔が継続して検出できているとしても、その人物Ａの顔の特徴量の照合ＤＢへの登録処理を行うようにした。この結果、追尾処理を介した初期段階で、その人物Ａの顔の特徴量の照合ＤＢへの登録処理が開始されるので、照合処理を時刻ｔ４で開始した場合に人物Ａを被検索対象とすることが可能になる。時刻ｔ４は一例である。時刻ｔ５の後、人物Ａの顔の特徴量が照合ＤＢに登録されれば、人物Ａを被検索対象とすることが可能になる。

実施形態では、照合ＤＢへの登録する１つのオブジェクトの顔の特徴量の数は４としている。しかし、登録する特徴量を決定する以前の候補数はより多い方がよい。各顔の向きに、出現する顔の最大サイズが更新される確率が高くなるためである。よって、最初の時間Ｔｐ１で照合ＤＢに登録した後の、２回目以降の照合ＤＢへ登録処理を開始するまでの時間は、時間Ｔｐ１よりも長いことが望ましい。図６を参照して説明すると、人物Ａの最初の照合ＤＢへの登録処理は、その人物Ａの追尾開始時刻ｔ０からＴｐ１経過した時刻ｔ５とする。同じ人物Ａの２回目以降の照合ＤＢへの登録処理を行うまでの時間をＴｐ２とする。そして、実施形態では、Ｔｐ２≧Ｔｐ１の関係を持つようにした。具体的には、Ｔｐ１は１０秒、Ｔｐ２は２０秒程度としたが、これらの値は適宜設定しても良い。また、同じ値であってもよい。Ｔｐ１を短くし、Ｔｐ２≧Ｔｐ１となる理由の１つは、オブジェクトの顔の特徴量が最初にＤＢに登録されるまでの時間を短くし、早く被検索対象になるようにしたいからである。

なお、オブジェクトＩＤは、ユニークでなければならない。実施形態では、同一人物Ａを追跡中であっても、時刻ｔ０から時刻ｔ５（最初の追尾）、時刻ｔ５から時刻ｔ６（２回目の継続追尾）、時刻ｔ６から時刻ｔ７（３回目の継続追尾）では、それぞれ別のオブジェクトＩＤを割り当てるものとした。

追尾開始時刻から時間Ｔｐ１、Ｔｐ１＋Ｔｐ２×ｎ（ｎ＝１、２…）後の時刻は、各オブジェクト毎に異なる。そして、追尾処理が最初の追尾か、２回目以降の継続追尾かを識別できるようにする必要もある。

上記の通りなので、実施形態の追尾処理部２０５は、人物を検出してから最初の追尾であることを示すため、図４のオブジェクト追尾情報における参照符号４０２が示す追尾回数に“１”を設定する。このときの時刻は、オブジェクト追尾情報を新規に作成した際の最初のフレーム番号で特定できる。例えば、図４の例の場合、カメラＩＤ＝１、オブジェクトＩＤ＝００００１のオブジェクト追尾情報を作成する際の最初のフレーム番号は“１２３４５”である。ネットワークカメラ１１２ａ乃至１１２ｃの各々が３０フレーム／秒のフレームレートで撮影しているとする。今、ＴＰ１＝１０秒とするなら、その期間では３００フレームを撮影することになる。つまり、照合ＤＢへの登録する時刻ｔ５は、“１２６４５”（＝１２３４５＋３００）となる。故に、追尾処理部２０５は、オブジェクト追尾情報を新規に作成する際に、参照符号４０１が示す終了フレームＮｏに”１２６４５”をセットする。上記処理は、制御処理部２１１から設定される追尾開始指示情報に従って、追尾処理部２０５が行う。

追尾処理部２０５は、先に説明したように、対象とする顔を追尾しては、フレームＮｏ，位置＆サイズ、顔向きＮｏ，特徴量で構成されるレコードをオブジェクト追尾情報に追加していく。そして、追尾処理部２０５は、追尾中の顔が視野から外れたり後ろを向くなどして追尾不可となった場合には、該当するオブジェクトＩＤを引数とする、照合ＤＢへの登録要求を制御処理部２１１に対し送信（発行）する。

また、追尾処理中に、現在のフレーム番号が終了フレーム番号４０１に到達した場合、追尾処理部２０５は、該当するオブジェクトＩＤ、並びに、現在のフレーム番号が終了フレームに達したことを示す情報を含む登録要求を制御処理部２１１に対して送信する。

後者の場合、つまり、現在のフレーム番号が終了フレーム番号４０１に到達した場合、制御処理部２１１は、継続追尾中であることがわかるので、新規のオブジェクトＩＤと、終了フレームのタイミングを規定する「Ｔｐ２」（継続追尾であるので）を含む追尾開始指示情報を追尾処理部２０５に通知する。この結果、追尾処理部２０５は、継続追尾用のオブジェクト追尾情報を作成し、該当する顔の追尾を継続することになる。

図７は実施形態における照合ＤＢの構造例を示している。この照合ＤＢは、外部記憶装置１０４に確保されるものである。同図に示すように、照合ＤＢの１つのレコードは、オブジェクトＩＤ、特徴量（実施形態では最大４つ）、カメラＩＤ，登録した顔の特徴量の顔を検出した期間の最初のフレーム番号（時刻）、座標、顔のサイズを格納するフィールドで構成される。このうち、特徴量が検索の際にキーとして利用されることになる。

次に、上記説明を踏まえ、実施形態における映像記録のメイン処理を図８のフローチャートに従って説明する。この処理は制御処理部２１１が行うものでもある。

制御処理部２１１は、ステップＳ８１にて、通信インターフェース１０７を介してネットワークカメラ１１２ａ乃至１１２ｃそれぞれから映像フレームを受信し、外部記憶装置１０４に、被照合対象の動画像ファイルとしてそれぞれ記録していく。この際に作成される３つの動画像ファイルのファイル名は、例えばカメラＩＤを付けて作成する。

次いで、制御処理部２１１は、現映像フレームを顔検出部２０６に渡し、ステップＳ８２にて顔検出処理を実行させる。この結果、映像フレーム内に存在する各顔の検出結果を得ることができる。制御処理部２１１は、ステップＳ８３にて、現映像フレームの検出結果と、１つ前の映像フレームの検出結果から、現映像フレーム中に未追尾の顔が存在するか否かを判定する。未追尾の顔が存在した場合、処理はステップＳ８４に進む。このステップＳ８４にて、制御処理部２１１は、その新規追尾する顔が存在する位置とサイズ、新規オブジェクトＩＤ、カメラＩＤ、フレーム番号、追尾回数“１”、終了フレームを規定するための時間“Ｔｐ１”を引数にした追尾開始指示情報を、追尾処理部２０５に送信する。この結果、追尾処理部２０５は図４に示すようなオブジェクト追尾情報を作成し、その顔の追尾処理を行う。

一方、制御処理部２１１は、ステップＳ８５にて、追尾処理部２０５から登録要求を受信したか否かを判定する。登録要求を受信した場合、処理をステップＳ８６に進め、登録要求のあったオブジェクト追尾情報を、画像特徴蓄積部２０２に渡し、照合ＤＢへの登録処理を行わせる。ステップＳ８７にて、制御処理部２１１は、ステップＳ８６で受信した登録要求に、現在のフレーム番号が終了フレーム番号４０１に到達したことを示す情報が含まれているか否か、換言すれば、登録要求が追尾不可となったことに起因するか否かを判定する。追尾不可を起因とする登録要求であると判断した場合には、制御処理部２１１は、ステップＳ８９にて、照合ＤＢへの登録済みとなったオブジェクト追尾情報を削除し、ステップＳ８１以降の処理を行う。

また登録要求が、現在のフレーム番号が終了フレーム番号４０１に到達したことに起因する場合、制御処理部２１１はステップＳ８８にて、新規オブジェクトＩＤ，Ｔｐ２を含む追尾開始指示情報を追尾処理部２０５に送信する。この結果、追尾処理部２０５は、継続追尾処理を行う。次回の最長追尾時刻はＴｐ２で設定されたタイミングとなる。そして、制御処理部２１１は、ステップＳ８９の処理を行う。

次に、上記のステップＳ８６のＤＢ登録処理（画像特徴蓄積部２０２の処理）を図９のフローチャートに従って説明する。

画像特徴蓄積部２０２は、ステップＳ９１にて、制御処理部２１１からオブジェクト追尾情報を受信する。そして、画像特徴蓄積部２０２は、受信したオブジェクト追尾情報を解析し、顔向きパターン番号の集計処理を行う。つまり、顔向きパターン番号１乃至２５の出現回数Ｆ（１）乃至Ｆ（２５）を求める。

次いで、画像特徴蓄積部２０２は、ステップＳ９３にて変数ｉを１に初期化する。そして、ステップＳ９４に進み、変数ｉが２５以下であるか否か、つまり、全出現回数のチェックを終えたか否かを判定する。変数ｉが２５以下である場合（未完）である場合、ステップＳ９５にて、画像特徴蓄積部２０２は、ステップＳ９３にて変数ｉを１、変数ｊを０に初期化する。変数ｉは出現回数Ｆ（）を特定するための変数であり、変数ｊは登録する特徴量の個数をカウントするための変数である。
ステップＳ９４では、画像特徴蓄積部２０２は変数ｉと２５とを比較する。変数ｉが２５以下である場合、全出現回数Ｆ（）をチェックしていないことになる。それ故、画像特徴蓄積部２０２は処理をステップＳ９５に進め、変数ｊと照合ＤＢに登録するために予め設定された特徴量の上限数Ｎ（実施形態ではＮ＝４）とを比較する。ｊ＜Ｎの場合、照合ＤＢに登録する特徴量の数が上限数に達していないので、画像特徴蓄積部２０２は処理をステップＳ９６に進める。このステップＳ９６では、顔向きパターン番号がｉの出現回数Ｆ（ｉ）が非ゼロ（１以上）か否かを判定する。非ゼロの場合、画像特徴蓄積部２０２はステップＳ９７にて、顔向きパターン番号＝ｉの中で最大顔サイズの特徴量を、照合ＤＢへの登録対象として決定する。そして、登録対象が１つ決定したので、ステップＳ９８にて、画像特徴蓄積部２０２は、変数ｊを１だけ増加させる処理を行う。そして、ステップＳ１００にて、画像特徴蓄積部２０２は、変数ｉを１だけ増加させる処理を行い、ステップＳ９４に処理を戻す。

さて、ステップＳ９４、Ｓ９５のいずれかの判定結果がＮｏを示す場合、画像特徴蓄積部２０２はステップＳ９９に処理を進める。このステップＳ９９には、画像特徴蓄積部２０２は、登録対象として決定した特徴量を、オブジェクトＩＤ，フレーム数、カメラＩＤ，位置、サイズ情報とともに、照合ＤＢに登録処理を行い、本処理を終える。なお、変数ｊがＮに到達する以前に、変数ｉが２５となることも起こり得る。この場合、登録する特徴量の個数は４未満の個数となる。

以上が本実施形態における映像データ＆特徴量の登録処理である。次に、本実施形態における照合処理を説明する。照合処理は、クエリ映像入力部２０３、顔検出部２０６、顔画像特徴照合部２１０、顔照合結果表示部２０４、および、それらを制御する制御処理部２１１により実現される。以下、図１０のフローチャートに従い、照合処理を説明する。
まずステップＳ６０１にて、制御処理部２１１はクエリ映像入力部２９３に対してクエリ映像の入力を指示する。クエリ映像の入力源は特に問わない。例えば、検索依頼人が所有する携帯端末を本装置と接続し、探そうとしている人物の顔が映った画像をクエリ映像として本装置に転送しても構わない。なお、本装置がインターネットに接続されている場合には、メールとして受信しても構わない。いずれにせよ、クエリ映像を入力した場合、クエリ人物の顔を特定する処理を行う。例えば、顔検出部２０７にてクエリ映像中に存在する全顔を検出し、検出した顔に矩形枠を付加して表示装置に表示し、検索依頼人にその中の１つを検索対象の顔画像（クエリ顔画像）と選択してもらう。なお、検出した顔が１つだけである場合には、無条件にその顔が選択されたものとして扱っても構わない。クエリ顔画像が決定されると、そのクエリ顔画像を検出の際に抽出した特徴量を検出キーとして決定する。

次に、ステップＳ６０２にて、制御処理部２１１は、照合ＤＢに登録されているオブジェクトＩＤの総個数Ｍ（レコード数）を得る。制御処理部２１１は、取得したＭ，クエリ顔画像の特徴量を引数にして、顔画像特徴照合部２１０に照合処理を要求する。

顔画像特徴照合部２１０は、ステップＳ６０３にて、変数ｉをゼロに初期化する。そして、ステップＳ６０４にて、変数ｉがＭ以下であるか否かを判定する。ｉ＜Ｍの場合、全レコードとの照合が済んでいないことになるので、処理はステップＳ６０６に進む。このステップＳ６０６では、顔画像特徴照合部２１０は、照合ＤＢのｉ番目のレコードを読み込み、その中に格納されているＮｉ個の特徴量を読み込む。実施形態では、Ｎｉ個は最大で４であるのは既に説明した。そして、クエリ顔画像の特徴量と、Ｎｉの特徴量それぞれとの距離を計算し、その中の最少距離を、ｉ番目のレコードのオブジェクトＩＤの人物顔とクエリ顔画像との距離として決定する。顔画像特徴照合部２１０は、オブジェクトＩＤと決定した距離とをペアにして、ＲＡＭ１０３の所定エリアに記憶する。この後、次のレコードとの照合処理を行うため、変数ｉを“１”だけ増加させ、ステップＳ６０４に処理を戻す。

以上の処理を繰り返していき、全レコードとの比較処理を終えたとき（変数ｉ＝Ｍと判断されたとき）、ＲＡＭ１０３には、全ての登録済みのオブジェクトＩＤに対する距離が格納されていることになる。そこで、顔画像特徴照合部２１０は、ステップＳ６０５にて、ＲＡＭ１０３に記憶された距離を小さい順にソートし、本処理を終える。

この後の処理としては、制御処理部２１１が照合結果を顔照合結果表示部２０４に渡すことで、照合結果の表示処理を行う。表示の仕方としては、例えば、距離が小さい順の予め定められた個数の顔画像一覧を表示させ、その中の１つが選択された場合には、その顔に対応するフレーム番号とカメラＩＤとから、動画像の該当する位置から再生を開始するなどを行う。

なお、上記実施形態では、１つのオブジェクト追尾情報中に、同じ顔向きパターン番号が複数存在したとき、その中の最大顔サイズの特徴量を登録対象として決定した。しかし、登録対象の特徴量としてサイズ以外の条件、あるいは、サイズに加えた他の条件を加味して決定してもよい。例えば、映像フレームのブレの度合いが小さいものを優先したり、目つぶりや口開き顔を登録されにくくすることが考えられる。

また、動画を撮影するカメラでも静止画のカメラと同様に、その場所の明るさに従いシャッター速度が変わる場合が有る。従って、暗い場所や被写体の動き速度により、顔画像のブレが生じる事があり、これは直接的に画像特徴量や属性情報の劣化の原因となる。ブレの推定に関しては、顔画像領域の周波数成分を求め、低周波成分と高周波成分との比率を求め、これが低周波成分の比率が所定の値を超えた時にブレを生じていると判断する事が可能となる。更に、眼つぶりや口あき等がると、器官の画像特徴量が変質し、場合によっては属性情報にも誤りを生じる可能性が有る。

更には、上記のサイズや目つぶり、ブレなどの複数のパラメータを用いて登録対象の特徴量を決定する場合には、それらパラメータの種類の座標軸を持つ空間を想定し、その座標空間での距離を求めればよい。

また、顔向きパターン番号が２乃至９は、中心位置を取り囲むように配置されるので、それらは同一レベルと見ることもできる。従って、顔向きパターン番号２乃至９については、その中に集計結果が非ゼロとなっているものが複数存在する場合には、その中の最大サイズの特徴量を決定することを、登録数（実施形態では４）に到達するまで繰り返せばよい。ただし、１つの顔向きパターン番号につき、登録する特徴量は最大でも１つとするのは同じである。上記は顔向きパターン番号１０乃至２５についても同様である。

以上説明したように、本実施形態によれば、追尾すべき顔を検出してから所定時間（実施形態ではＴｐ１）が経過すると、それまでの期間で検出した顔の特徴量の照合ＤＢへ登録が行われることになる。従って、Ｔｐ１を数秒乃至十数秒程度とすることで、実質的に現在の時刻に近い人物を被照合対象とすることができる。

さらに、実施形態によれば、照合ＤＢに登録するのは、１つのオブジェクトＩＤにつき、互いに異なる向きの顔の特徴量とすることができる。つまり、同じ向きの顔の特徴量が重複して登録されることはなくなるので、照合ＤＢが無駄に肥大化することを抑制できる。しかも、実施形態では、顔向きが正面であること優先順位を高くし、その優先順位の上記の所定数の特徴量を照合ＤＢに登録する。この結果、照合ＤＢの肥大化を更に抑制でき、しかも、精度の高い特徴量を登録することが可能となる。そして、同じ顔向きであっても、顔サイズなどの条件の高い精度が期待できる特徴量を登録するので、照合精度も高くすることができる。

なお、上記実施形態では、追尾処理部２０５が、追尾ターゲットの顔を追尾している際に、その顔の特徴量、向きを、オブジェクト追尾情報に追記していくものとして説明した。しかし、顔検出では、人間の顔であるか否かが判定できればよいので簡易な顔検出を行い、追尾終了した後に、照合ＤＢに登録するための、より精度の高い特徴量や顔向きを算出しても構わない。

また、上記実施形態では、１つの顔の向きでの登録する特徴量の数を１とした。ＤＢの多少の肥大を許容するのであれば、この数を所定数以下としても良い。この場合の所定数はユーザ（管理者が適宜設定すればよい）設定できるようにしても良い。

なお、上記実施形態では、画像特徴として顔から得る顔画像特徴を用い、これを利用した画像特徴照合の例を示した。しかし、顔よりも広い頭部領域や、足の先まで含む全身領域から得る画像特徴を用いてもよい。これらは、頭部領域、もしくは、全身領域から、例えば、ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ（ＬＢＰ）特徴量やＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ（ＨＯＧ）特徴量を抽出して用いればよい。
また、上記実施形態では、顔検出部２０６で検出された顔を追尾処理部２０５で追尾したが、特開２００２−３７３３３２号公報に記載のように、動きベクトルから物体を検出し、次フレームでの探索位置を推定しテンプレートマッチングにより人物追尾を行うようにしてもよい。その場合は、追尾された人物の位置から顔検出を行い、顔が検出された場合に顔向きで分類する処理を行えばよい。また、顔が検出されなかった場合は、顔が検出されなかった画像をグループとして分類してもよい。

このように、本実施形態は、人物の全体もしくは一部を検出し、検出した人体の全体もしくは一部を追尾する際に、その人物の全体もしくは一部から抽出される特徴量を登録する形態に広く適用できるものである。

また、上記実施形態では、顔向きで分類して登録ＤＢに登録する例を示したが、例えば、表情（笑顔、泣き顔など）に分類して登録するものであってもよい。すなわち、本実施形態は、入力された映像から抽出された顔を、予め定められたグループ（顔向きや表情など）毎に分類して、登録する構成に広く適用できるものである。

［第２の実施形態］
上記第１の実施形態では、図６に示すように、追尾処理部２０５は人物Ａについて時刻ｔ０乃至ｔ３の期間で追尾していても、時刻ｔ０乃至ｔ５、時刻ｔ５乃至ｔ６、時刻ｔ６乃至ｔ７それぞれに対して独立したオブジェクトＩＤとしてＤＢに登録した。本第２の実施形態では、時刻ｔ０乃至ｔ３の区間で共通の１つのオブジェクトＩＤを利用する例を説明する。具体的には、時刻ｔ０にて、追尾処理部２０５が作成したオブジェクト追尾情報を、時刻ｔ５、時刻ｔ６でも継続して利用する。

第１の実施形態に対して異なるのは、制御処理部２１１と画像特徴蓄積部２０２の処理となる。以下、第１の実施形態に対する異なる点について説明する。

制御処理部２１１は、継続追尾である場合に限ってステップＳ８９を実行しないようにする。換言すれば、追尾不可となった場合に限って、登録済みのオブジェクト追尾情報を削除する。さらに、制御処理部２１１は、ステップＳ８８に変えて、該当するオブジェクト追尾情報における追尾回数４０２を“１”だけ増加させ、かつ、終了フレーム番号を、『現在のフレーム番号＋Ｆ×Ｔｐ２』（Ｆはビデオカメラが撮像するフレームレート）で更新する処理を行う。

画像特徴蓄積部２０２は、照合ＤＢに既に登録済みとなったオブジェクトＩＤと同じＩＤを持つオブジェクト追尾情報の登録要求があった場合は、その要求は該当するオブジェクトＩＤの登録済みの特徴量の更新の要求として処理を行う。

上記の結果、例えば図６の時刻ｔ５にて、区間「ｔ０−ｔ５」の追尾処理で得られた人物Ａの特徴量が照合ＤＢに登録される。従って、第１の実施形態と同様に、人物Ａの追捕開始した初期段階（時間Ｔｐ１に相当する期間）の特徴量を、被照合対象とすることが可能となる。また、時刻ｔ６では、区間「ｔ０−ｔ６」の追尾処理で得られた人物Ａの同一オブジェクトＩＤの特徴量が更新されることになる。つまり、継続追尾している限りは、登録する特徴量の数が増えることはない。しかも、時間が経過するほど、追尾間隔が長くなっていくので、登録する特徴量の信頼性を高くすることも可能となる。

以上第１、第２の実施形態を説明した。上記の各実施形態では、照合ＤＢに登録する特徴量は、１つの顔の向きに対して１つとしたが、１つの顔の向きに対する登録可能数を設定できるようにしても良い。また、実施形態では、継続追尾する際の時間をＴｐ１，Ｔｐ２の２種類としたが、追尾回数に応じて変えていっても構わない。
（その他の実施例）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

２０１…映像入力部、２０２…画像特徴蓄積部、２０３…クエリ映像入力部、２０４…顔照合結果表示部、２０５…追尾処理部、２０６…顔検出部、２０７…顔向き検出部、２０９…顔画像特徴抽出部、２１０…顔画像特徴照合部、２１１…制御処理部

Claims

映像を取得する取得手段と、
前記取得された映像の少なくとも１つのフレームより人物の全体もしくは一部を検出する検出手段と、
前記検出された人物の全体もしくは一部を追尾する追尾手段と、
前記追尾手段による前記人物の全体もしくは一部の追尾が開始されてから前記追尾手段による追尾が終了する前までの第１の期間に追尾された人物の全体もしくは一部から抽出された特徴量をデータベースに登録する登録手段と
を有することを特徴とする情報処理装置。
前記登録手段は、前記第１の期間が終了してから第２の期間に前記追尾手段により追尾された人物の全体もしくは一部から抽出された特徴量をデータベースに登録し、
前記第１の期間は、前記第２の期間より短い
ことを特徴とする請求項１に記載の情報処理装置。
前記登録手段は、前記第１の期間が終了してから、第２の期間が経過するごとに前記追尾部により追尾された人物の全体もしくは一部から抽出された特徴量をデータベースに登録する
ことを特徴とする請求項２に記載の情報処理装置。
前記追尾された人物の全体もしくは一部を、予め定められた複数のグループに分類する分類手段と、
前記グループごとに分類された人物の全体もしくは一部の中から、前記グループごとに第１の所定数以下の人物の全体もしくは一部を選択する選択手段とを更に備え、
前記登録手段は、前記選択した人物の全体もしくは一部の特徴量をデータベースに登録することを特徴とする請求項１に記載の情報処理装置。
前記グループは人物の全体もしくは一部の向きであることを特徴とする請求項４に記載の情報処理装置。
前記選択手段は、人物の全体もしくは一部のサイズ、ブレ、目つぶり、口開けの少なくとも１つに基づいて、前記第１の所定数以下の人物の全体もしくは一部を選択することを特徴とする請求項４に記載の情報処理装置。
前記選択手段は、前記複数のグループに対して予め設定されている優先度に基づいて、前記複数のグループから第２の所定数以下のグループを選択し、当該選択した第２の所定数以下のグループごとに前記第１の所定数以下の人物の全体もしくは一部を選択する
ことを特徴とする請求項４に記載の情報処理装置。
クエリ映像を入力する入力手段と、
入力したクエリ映像中の人物の全体もしくは一部画像の特徴量に基づき、前記データベースに登録された特徴量との照合を行う照合手段と
を更に備えることを特徴とする請求項１に記載の情報処理装置。
前記人物の一部は、人物の顔、人物の頭部のいずれかであることを特徴とする請求項１に記載の情報処理装置。
前記人物の一部は、人物の顔であり、
前記登録手段は、顔器官点に関する特徴量をデータベースに登録し、
前記照合手段は、前記クエリ画像から抽出された顔器官点に関する特徴量を、前記データベースに登録された顔器官点に関する特徴量と照合する
ことを特徴とする請求項８に記載の情報処理装置。
情報処理装置の制御方法であって、
取得手段が、映像を取得する取得工程と、
検出手段が、前記取得された映像の少なくとも１つのフレームより人物の全体もしくは一部を検出する検出工程と、
追尾手段が、前記検出された人物の全体もしくは一部を追尾する追尾工程と、
登録手段が、前記人物の全体もしくは一部の追尾が開始されてから、追尾が終了する前までの第１の期間に追尾された人物の全体もしくは一部から抽出された特徴量をデータベースに登録する登録工程と
を有することを特徴とする情報処理装置の制御方法。
コンピュータが読み込み実行することで、前記コンピュータに、請求項１乃至１０のいずれか１項に記載の情報処理装置の各手段として機能させるためのプログラム。