JP2022043631A

JP2022043631A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2022043631A
Application number: JP2020149008A
Authority: JP
Inventors: 昌弘松下; Masahiro Matsushita
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2022-03-16
Also published as: US11841902B2; US20220075821A1

Abstract

【課題】映像から特定の物体をより高速に検索する。
【解決手段】本発明は、映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのＩＤ情報とが登録された登録リストから検索する第一の検索手段と、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ＩＤ情報を少なくとも登録した第一のリストを、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成手段と、前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索手段と、を有することを特徴とする。
【選択図】図３

Description

本発明は、映像から特定の人物を検出する技術に関する。

従来、監視映像の各フレームから、人物の顔を検索することで、不審者などの特定の人物を検索する技術が知られている。特許文献１には、リアルタイム検索を行った監視映像から抽出して記憶しておいたメタデータの中から事後検索条件に合致する人物を検索する事後検索処理の技術が開示されている。

特開２００７－２８００４３号公報

特許文献１の技術では、長期間の運用をした場合に、監視映像から抽出して記憶しておいたメタデータが肥大化する。また、リアルタイム検索処理を実行した時点よりも過去に撮影された映像に対する事後検索処理は肥大化したメタデータに対しての検索となり、検出結果取得まで時間を要する。

本発明はこのような問題点に鑑みなされたもので、映像から特定の物体をより高速に検索することを目的とする。

そこで、本発明は、映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのＩＤ情報とが登録された登録リストから検索する第一の検索手段と、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ＩＤ情報を少なくとも登録した第一のリストを、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成手段と、前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索手段と、を有することを特徴とする。

本発明によれば、映像から特定の物体をより高速に検索できる。

情報処理システムのハードウェア構成の一例を示す図。情報処理装置の機能構成例を示すブロック図。情報処理システムにおけるデータのフローの一例を説明する図。情報処理装置が実行する処理を説明するフローチャート。情報処理装置が実行する処理を説明するフローチャート。情報処理装置が実行する処理を説明するフローチャート。情報処理装置が実行する処理を説明するフローチャート。各種リストの一例を示す図。閾値の一例を示す図。

以下、本発明の実施形態について図面に基づいて説明する。

（実施形態１）
図１は、本実施形態に係る監視システムのハードウェア構成の一例を示す図である。監視システムは、情報処理装置１００と、撮像部としての撮像装置１１２とを有し、クエリとして指定された人物の検索を行う。図１においては、情報処理システムが３台の撮像装置１１２を有する場合を例示しているが、撮像装置１１２の数は実施形態に限定されるものではない。情報処理装置１００と撮像装置１１２は、ネットワーク１１１を介して接続している。

ＣＰＵ１０１は、情報処理装置１００全体を制御するＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔである。ＲＯＭ１０２は、変更を必要としないプログラムやパラメータを格納するＲｅａｄＯｎｌｙＭｅｍｏｒｙである。ＲＡＭ１０３は、外部装置などから供給されるプログラムやデータを一時記憶するＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙである。外部記憶装置１０４は、情報処理装置１００に固定して設置されたハードディスクやメモリカードなどの記憶装置である。なお、外部記憶装置１０４は、情報処理装置１００から着脱可能なフレキシブルディスク（ＦＤ）やＣｏｍｐａｃｔＤｉｓｃ（ＣＤ）等の光ディスク、磁気や光カード、ＩＣカード、メモリカードなどを含んでもよい。なお、後述する情報処理装置１００の機能や処理は、ＣＰＵ１０１がＲＯＭ１０２や外部記憶装置１０４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。

入力Ｉ／Ｆ１０５は、ユーザの操作を受け、データを入力するポインティングデバイスやキーボードなどの入力部１０９とのインターフェースである。出力デバイスＩ／Ｆ１０６は、情報処理装置１００の保持するデータや供給されたデータを表示するためのモニタ１１０とのインターフェースである。通信Ｉ／Ｆ１０７は、インターネットなどのネットワーク１１１に接続する。撮像装置１１２は、監視カメラなどの映像の撮像装置であり、ネットワーク１１１を介して情報処理装置１００に接続されている。システムバス１０８は、１０１～１０７の各ユニットを通信可能に接続する伝送路である。

図２は、本実施形態に係る情報処理装置１００の機能構成例を示す図である。情報処理装置１００は、取得部２００、検出部２０１、特徴抽出部２０２、第一検索部２０３、生成部２０４、判定部２０５、更新部２０６、第二検索部２０７、出力部２０８から構成される。ソフトウェアの場合、これらはＲＯＭ１０２に格納される。ＲＯＭ１０２の有する各機能部については後述する。

図３は本実施形態に係る情報処理装置が行う情報処理のデータフローの一例を示すブロック図である。図３の例においては、本実施形態に係る情報処理装置は、情報処理装置１００として示される部分であり、ネットワーク１１１及び通信Ｉ／Ｆ１０７を介して外部にある撮像装置１１２が取得した監視映像３０１を取得する。監視映像３０１は、ここでは逐次的に撮像される画像で構成されるものとするが、特にそのように限定されるわけではない。

取得部２００は、撮像装置または記憶装置から映像（時系列画像）を取得する。検出部２０１は、取得された映像から物体を検出する。ここでは、検出部２０１は、取得した監視映像３０１を解析し、映像内に写っている物体を検出する。本実施形態においては説明のため、検出部２０１が抽出する物体は人物の顔領域であるものとするが、特にそれに限定されるわけではない。例えば、検出部２０１は物体として人物領域を抽出してもよい。なお、ここでは、予め用意した人体や顔のテンプレートやモデルを用いて画像における人物または顔の領域を検出するものとする。次いで、特徴抽出部２０２は、映像から所定の物体を示す特徴を抽出する。つまり、特徴抽出部２０２は、検出部２０１が検出した物体から、その物体の画像特徴である特徴３２を抽出する。

第一検索部２０３は、抽出された特徴３２と、検出対象リスト３０３（登録リスト）に登録されている所定の物体を示す特徴との類似度に基づいて、検出対象リストから検出された物体を検索する。図８（Ａ）は、検出対象リスト３０３（登録リスト）の一例である。検出対象リスト３０３には、映像に写った物体の中から検出対象となる所定の物体を示す画像特徴が登録されている。またそれぞれの画像特徴は、その所定の物体を個々に識別するためのＩＤ情報（検出対象者ＩＤや名前）が少なくとも対応付けられる。さらに、その物体が検出対象リスト３０３に登録された日時情報（リスト追加日時）とともに登録されている。登録対象となる物体は、ユーザによって指定される。また、１つの物体に対し、複数の特徴を登録しておいてもよい。なお、１つの物体に１つの特徴を登録する場合は、本例では、例えば、図８（Ａ）の２行目のバイト数の合計から物体ごとに８６４バイトのデータ量となる。リアルタイムで検出したい物体が１万程度のオーダーのとき、検出対象リスト３０３は、高々１０メガバイト程度のデータ量となる。そして、所定類似度ＴＨ１（例えば０～１００の類似度範囲に対して、６０）より高い類似度を持つ特徴が存在した場合は、その特徴に紐づけられている検出対象者のＩＤ情報を検出結果３０４として取得する。さらに、最も高い類似度が、所定類似度ＴＨ３（例えば、同９０）よりも高い場合は、検出結果３０４のＩＤ情報をモニタ１１０に出力する。なお、以下に出てくる検出対象リスト３０３、検出結果リスト３０５、および特徴リスト３０６は、ここでは、リストと表記するが、ある画像特徴と個体を特定可能な情報との対応付けがわかる、リスト、データベース、テーブル、データであればよい。

生成部２０４は、第一検索部２０３によって映像から検出された物体が検出対象リスト（登録リスト）から検出された場合は、映像から抽出された物体と対応する所定の物体のＩＤ情報を少なくとも登録した検出結果リスト（第一のリスト）を生成する。さらに、生成部２０４は、第一検索部２０３によって映像から検出された物体が検出対象リスト３０５（登録リスト）から検出されなかった場合は、映像から抽出された物体の特徴を登録した特徴リスト（第二のリスト）を生成する。

検出結果リスト３０５に第一の検出結果としてＩＤ情報や時間を登録しておくことで、リアルタイムで検出した結果を、後で確認することも可能であるし、後述する過去の検出結果としても活用可能である。図８（Ｂ）は、検出結果リスト３０５の一例である。検出結果リスト３０５には、物体を検出した日時（検出日時、すなわち、撮影日時）や撮像装置情報（撮像装置ＩＤ）が登録される。またそれらは、検出した物体のＩＤ情報（検出対象者ＩＤ）、類似度、物体領域を切り出したサムネイル画像（サムネイル画像ファイル名）とともに登録される。特に、物体のＩＤ情報は、検出対象リスト３０３の一列目と対応づけられている。検出結果リスト３０５は、スカラ値である物体のＩＤ情報（検出対象者ＩＤ）をキーとして一般的なＲＤＢ（リレーショナルデータベース）上に構築することで、物体のＩＤ情報（検出対象者ＩＤ）から高速に検索可能となる。本例では、図８（Ｂ）の２行目のデータ量を例として、検出結果ごとに１３２バイトのデータ量となる。検出結果が１億程度のオーダーのとき、検出結果リスト３０５は、１３ギガバイト程度のデータ量となり、ＲＡＭ上への展開も可能な容量である。図３の例においては、検出結果リスト３０５は記憶部１０８に配置される。また、ＲＡＭ１０３にもロードしておいた場合は、高速に検索することができる。

一方、第一検索部２０３によって映像から検出された物体が検出対象リスト３０５（登録リスト）から検出されなかった場合は、映像から抽出された物体の特徴を登録した特徴リスト（第二のリスト）を生成する。つまり、検出結果３０４として映像から検出された物体が検出されない場合や、所定類似度ＴＨ２よりも高い類似度になる所定の物体が検出対象リストから検出されない場合は、特徴抽出部２０２が算出した特徴３２を特徴リスト３０６に登録する。図８（Ｃ）は、特徴リスト３０６（第二のリスト）の一例である。特徴リスト３０６には、物体の特徴が、特徴を一意に特定するＩＤ（特徴ＩＤ）、撮影日時、撮像装置情報（撮像装置ＩＤ）、物体領域を切り出したサムネイル画像（サムネイル画像ファイル名）とともに登録される。本例では、図８（Ｃ）の２行目のデータ数を例とすると、特徴ごとに９３６バイトのデータ量となる。登録数が、１億程度のオーダーの時、特徴リスト３０６は９４ギガバイト程度のデータ量となる。特徴リスト３０６は、特徴をクエリとした検索に用いられるが、特徴は一般的には多次元のベクトルのため、一般的なＲＤＢでは高速に検索することはできない。したがって、多次元の特徴に対応したインデクスを生成する。インデクスの生成については後述する。そのような場合であっても、ハードディスクドライブからデータを読み込みながら検索を行う場合は、ＲＡＭ上にロードされているデータから検索する場合と比べて、１０倍以上の時間がかかる。図３の例においては、特徴リスト３０６は記憶部１０８に配置される。ＲＡＭ１０３にもロードしておくことで、高速に検索することが可能となるが、１００ＧＢ以上のＲＡＭを搭載する必要がある。

また、既に検出対象リストに登録された物体以外の物体のうち、映像に何回も写る人は、検出対象リスト３０３（登録リスト）に登録しておくことで、総データ容量を削減することができる。撮像装置１１２にｎ回写ったときの総データ容量は、検出対象リスト３０３に登録されているときは（８６４＋１３２ｎ）バイト、登録されていないときは９３６ｎバイトである。したがって、多く写る物体を検出し、検出対象リスト３０３に登録することで、総データ容量を削減することができる。判定部２０５は、特徴リスト３０６に登録されている特徴同士の類似度をもとに、特徴リスト３０６に多く登録されている物体を判定する。そして、その物体の代表の特徴を、判定結果３０７として取得する。更新部２０６では、判定部２０５が検出した判定結果３０７の物体の特徴を検出対象リスト３０３に登録することによって、検出対象リスト３０３（登録リスト）を更新する。以降、それらの物体も、第一検索部２０３にて検出可能となる。これにより、検出結果リスト３０５で探索可能な物体が増え、検索高速化が可能となる。また、特徴リスト３０６への登録量を更に削減することが可能となり、更なるメモリ量削減、検索速度高速化が可能となる。

本実施形態に係る検索処理においては、取得部２００は、まず入力部１０９にてユーザが指定した注目物体を示すクエリ画像３０８を、入力Ｉ／Ｆを介して取得する。次いで、情報処理装置１００が行うデータ登録処理と同様に、検出部２０１がクエリ画像３０８に写っている注目物体を検出する。さらに、特徴抽出部２０２が、クエリ画像３０８内に検出された注目物体の特徴であるクエリ特徴３０９を抽出する。

そして、情報処理装置１００が行うリスト生成処理と同様に、第一検索部２０３は、注目物体を示すクエリ特徴３０９と検出対象リスト３０３に登録された特徴とを比較することで、検出対象リスト３０３から注目物体を検索する。そして、注目物体のクエリ特徴と一致する特徴を示す所定の物体のＩＤ情報と検出対象リスト３０３に登録された日時情報を検出結果３０４として取得する。

第二検索部２０７は、検出結果３０４として検出対象リスト３０３（登録リスト）に注目物体が存在する場合は、検出結果３０４の物体のＩＤ情報をもとに、検出結果リスト３０５（第一のリスト）から注目物体を検索する。具体的には、注目物体に関する情報（サムネイル画像、撮影時刻情報、撮像装置情報、類似度など）を、検出結果３１０として取得する。さらに、第二検索部２０７は、検出対象リスト３０３（登録リスト）に注目物体がない場合は、特徴リスト３０６（第二のリスト）に登録された特徴から、特徴に基づいて算出される類似度に応じて、クエリ特徴３０９と類似する特徴を検索する。具体的には、注目物体に関する情報（サムネイル画像、撮影時刻情報、撮像装置情報、類似度など）を、検出結果３１１として取得する。第二検索部２０７は、検出結果３１０と検出結果３１１を、ＲＡＭ１０３上に保存する。次に、第二検索部２０７は、検出結果３１０および検出結果３１１の物体のサムネイル画像をモニタ１１０に出力する。

出力部２０８は、検出結果リスト３０５または特徴リスト３０６（第一または第二のリスト）から注目物体が検出された場合に、ユーザに対する通知を出力する。具体的には、モニタ１１０は、第一検索部２０３による検出結果３０４をユーザに提示する。提示にあたっては、検出結果を表示するだけでなく、画面の一部や全体を点滅させることによりアラートするようにしてもよい。さらには、システムに警告灯（不図示）を追加して、アラートするようにしてもよい。また、モニタ１１０は、第二検索部２０７による検出結果３１０および検出結果３１１をユーザに提示する。

なお、入力部１０９及び表示部１１０は別の装置に備わっている装置であってもよく、通信Ｉ／Ｆ１０７を介してクエリ画像３０８、クエリ特徴３０９、検出結果３１０、検出結果３１１の送受信を行ってもよい。また、制御プログラムはＲＯＭ１０２に格納されているもののみに限らず、そのいくつかを別装置に備える構成であってもよい。例えば、検出部２０１及び特徴抽出部２０２を撮像装置１１２に内蔵したり別のサーバに備えたりし、並びに、情報処理装置１００は第一検索部２０３、生成部２０４及び第二検索部２０７のみを備える構成としてもよい。このような構成とする場合には、映像を解析する処理と検索に関する処理で装置を分けることが可能となり、したがってそれぞれの処理に適したハードウェアスペックを選択することができる。また、上記のすべての構成を１台の情報処理装置で有していてもよい。

検出部２０１が顔領域を検出する方法は特に限定されない。以下においては、検出部２０１は、顔領域の特徴を事前に学習しておき、並びにその上で入力画像内を探索窓で走査することにより、各探索窓が顔領域であるか否かを判定する方式を用いるものとする。そのための学習方法としては、例えば、アンサンブル学習又はＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｔｒａｌＮｅｔｗｏｒｋ）等の深層学習手法が用いられてもよい。また、特徴抽出部２０２が物体の特徴を抽出する方法も特に限定はされない。例えば、特徴抽出部２０２は、顔領域内の部分領域の色ヒストグラムを特徴として算出してもよいし、ＣＮＮ等の深層学習手法によって算出する方法を用いてもよい。

本実施形態において記述されるフローチャートの各に対応する処理は、ＣＰＵを用いてソフトウェアで実現されてもよいし、電子回路などのハードウェアで実現されるようにしてもよい。

以下、情報処理装置１００が行う上述の処理のうち、リスト生成に関する処理について、フローチャートに従って説明する。リスト生成処理は、事前準備の処理であって、例えば、リアルタイム検索として監視中の映像から所定の人物を検出する場合や、クエリ画像を用いた過去検索を行うための特徴リストを蓄積する場合に実行できる。図４は、本実施形態に係る情報処理装置１００が行うリスト生成に関する処理の一例を示したフローチャートである。なお、図４から図７のフローチャートに示した処理は、コンピュータである図１のＣＰＵ１０１により外部記憶装置１０４に格納されているコンピュータプログラムに従って実行される。以下の説明では、各工程（ステップ）について先頭にＳを付けて表記することで、工程（ステップ）の表記を省略する。

まず、Ｓ４００で、取得部２００は、検索対象となる映像を取得する。なお、ここで検索対象となる映像は、撮像装置によってリアルタイムに撮影された映像でも、過去に撮影された映像であってもよい。Ｓ４０１で、検出部２０１が、取得された映像から物体を検出する。Ｓ４０２では、特徴抽出部２０２が、映像から検出された物体の特徴を抽出する。なお、映像から検出する物体はひとつであっても複数であってもよい。そしてＳ４０３で、第一検索部２０３は、抽出された特徴３２と、検出対象リスト３０３（登録リスト）に登録されている所定の物体を示す特徴との類似度に基づいて、検出対象リストに登録されている物体を検索する。つまり、第一検索部２０３は、抽出された特徴３２と検出対象リスト３０３（登録リスト）に登録されている所定の物体の特徴とを比較し、類似度を取得する。比較対象となる検出対象リスト３０３は複数の所定の物体が登録されていてもよい。その場合、映像から抽出された特徴と、登録リストの特徴とのそれぞれの組合せにおいて類似度を取得する。そして、Ｓ４０４で、第一検索部２０３は、第一の閾値ＴＨ１より高い類似度を持つ特徴が存在した場合は、Ｓ４０５に進む。Ｓ４０４で、映像から検出された物体の特徴との類似度が第一の閾値ＴＨ１より高い類似度を持つ特徴が検出対象リスト３０３（登録リスト）になかった場合は、Ｓ４１０に進む。

Ｓ４０５では、生成部２０４が、検出対象リスト３０３（登録リスト）から映像から検出された物体を検出したことを示す検出結果３０４を取得する。Ｓ４０６では、生成部２０４が、映像から抽出された物体と対応する所定の物体のＩＤ情報を少なくとも登録した検出結果リスト（第一のリスト）を生成する。つまり、検出結果３０４を検出結果リスト３０５に追加する。このとき、検出結果３０４に複数の結果が含まれていた場合は、それら複数の検出対象者のＩＤ情報と紐づけて、サムネイル画像、撮影時刻情報、撮像装置情報、類似度などが登録される。サムネイル画像等、容量の大きいものは、別ファイルもしくは別領域に保存し、検出対象者のＩＤ情報と紐づけるのは、別ファイルもしくは別領域へのリンク情報とする。検出結果リスト３０５は、過去を網羅的に検索するときも使用される。そのような場合は、たとえ誤検出が含まれていたとしても、未検出が少なくなることが望ましい。したがって、閾値ＴＨ１は、未検出が発生しにくい、低めの閾値を設定する。また、このとき、検出対象者のＩＤ情報と紐づいて登録されている検出結果が所定数を超えたとき、類似度の低い検出結果を検出結果リスト３０５から削除するようにしてもよい。つまり、生成部２０４は、検出結果リスト（第一のリスト）に登録された特徴のうち、同一の物体を示す特徴の数が所定の数より多い場合に、所定の物体の特徴との類似度がより低い特徴を検出結果リストから削除する。これによって、誤検出が抑制され、より効率的に検索処理が可能となる。

Ｓ４０７では、生成部２０４が、検出対象リスト３０３に登録済みの特徴のうち、映像から検出された物体の特徴との類似度のうち最大類似度が、第三の閾値ＴＨ３よりも高いか否かを判断する。最大類似度が第三の閾値より大きい場合は、Ｓ４０７に進む。最大類似度が第三の閾値より小さい場合は、Ｓ４０９に進む。Ｓ４０８では、出力部２０８が、検出結果３０４のＩＤ情報をモニタ１１０に出力してユーザにアラートを通知する。ここで、リアルタイムで検出したときにユーザに提示するアラートは、誤検出が少なくなることが望ましい。誤検出が多発すると、ユーザはアラートがあっても、その結果を確認しなくなるからである。したがって、閾値ＴＨ３は誤検出が発生しにくい、高めの閾値を設定する。すなわち、閾値ＴＨ１は閾値ＴＨ３よりも低く設定することになる。Ｓ４０９では、生成部２０４が、検出対象リスト３０３に登録済みの特徴のうち、映像から検出された物体の特徴との類似度が第二閾値ＴＨ２より高い類似度を持つ特徴があるか否かを判断する。映像から検出された物体の特徴との類似度が第二閾値ＴＨ２より高い類似度を持つ特徴がある場合は、処理を終了する。映像から検出された物体の特徴との類似度が第二閾値ＴＨ２より高い類似度を持つ特徴がない場合は、Ｓ４１０に進む。

また、Ｓ４０４で第一の閾値ＴＨ１より高い類似度を持つ特徴が存在しない、もしくは、Ｓ４０９で第二の閾値ＴＨ２より高い類似度を持つ特徴が存在しない場合は、Ｓ４１０で特徴３２を特徴リスト３０６に登録する。ここで、閾値ＴＨ２は閾値ＴＨ１よりも高く設定する。すなわち、図９の閾値の一例を示す図に記載の通り、閾値ＴＨ２より高い類似度の結果が存在するとき、すなわち、検出対象リスト３０３との類似度が高い結果が存在するときは、その結果の信頼度が高いため、検出結果リスト３０５のみに登録する。しかしながら、閾値ＴＨ１より高い類似度の結果は存在するが、閾値ＴＨ２より高い類似度の結果が存在しないときは、検出した物体は別の物体（候補物体と呼ぶ）である可能性もあり、検出対象リスト３０３の中には該当する物体が存在しない可能性もある。したがって、このような場合は、検出結果リスト３０５と特徴リスト３０６の両方に所定の物体の候補物体として登録される。また、閾値ＴＨ１より高い類似度の結果が存在しないときは、特徴３２が特徴リスト３０６のみに登録される。

次に、情報処理装置１００が行う上述の処理のうち、事後検索関連の処理について、フローチャートに従って説明する。事後検索処理は、過去に遡って監視映像から所定の人物を検出する処理であり、上述のリスト生成処理で検出結果リストおよび特徴リストが生成された後に実行できる。図５は、本実施形態に係る情報処理装置１００が行う検索処理の一例を示したフローチャートである。まず、Ｓ５０１で、取得部２００は、ユーザによって指定された注目物体を示すクエリ画像から抽出されたクエリ特徴を取得する。また、取得部２００は、検索対象である画像の撮像時刻及び撮像装置等の、検索範囲を指定するユーザ入力を取得する。これは、取得された画像のうち、特定の領域に注目物体が映っている場合に、その注目物体を含む領域をユーザ入力によって決定する。なお、一枚の画像に複数の物体がある場合、一人または複数の注目物体を指定する。第一検索部２０３に入力される検索範囲は、すべての時刻、すべての撮像装置であってもよく、特定の時刻や特定の撮像装置であってもよい。Ｓ５０２で、第一検索部２０３は、クエリ特徴３０９と検出対象リスト３０３に登録されている特徴とを比較し、類似度を算出する。そして、Ｓ５０３で、第一検索部２０３は、第四の閾値ＴＨ４より高い類似度を持つ特徴が検出対象リスト３０５（登録リスト）に存在するか否かを判断する。第四の閾値ＴＨ４より高い類似度を持つ特徴が検出対象リスト３０５（登録リスト）に存在した場合は、Ｓ５０４に進む。第四の閾値ＴＨ４より高い類似度を持つ特徴が検出対象リスト３０５（登録リスト）に存在しない場合は、Ｓ５０８に進む。このときの閾値ＴＨ４は、特徴リスト３０６に登録するかどうかを判定する閾値ＴＨ２と同程度が望ましい。閾値ＴＨ２より高ければ、検出結果リスト３０５に含まれる結果には信頼性があり、閾値ＴＨ２より高くなければ、それらの特徴は特徴リスト３０６にも登録されているため、後述のＳ５０８で検索可能となるからである。

Ｓ５０４で、第二検索部２０７は、検出対象リスト３０３（登録リスト）から注目物体と対応する登録済みの物体のＩＤ情報を検索し、検出結果３０４を取得する。なお、このＩＤ情報には少なくとも物体を特定可能な情報を含み、さらに検出結果リスト３０５（第一のリスト）にその物体が登録された日時を示す時間情報を含む。次に、Ｓ５０５で、第二検索部２０７は、検出結果３０４の物体のＩＤ情報をもとに、検出結果リスト３０５（第一のリスト）から注目物体を検索する。検出結果３０４の物体のＩＤ情報をもとに、検出結果リスト３０５から検出結果３１０を取得する。このとき、検出結果３０４に複数の結果が含まれていた場合は、それら複数の検出対象者の検出結果３１０を取得する。

次に、Ｓ５０６で、第二検索部２０７は、検出結果リスト３０５（第一のリスト）に該所定の物体の特徴が登録された時刻より前の期間については、特徴リスト３０６（第二のリスト）から注目物体を検索する。すなわち、第二検索部２０７は、検出結果３０４の検出対象者が検出対象リスト３０３に登録されていなかった期間を対象に、クエリ特徴と類似度の高い特徴を特徴リスト３０６（第二のリスト）から検索し、検出結果３１１を取得する。ここで、検出結果３０４に複数の結果が含まれていた場合は、検出対象者ごとに検索対象期間を設定した検索を行い、それらの結果を統合する。結果統合においては、検出対象リスト３０３との類似度ｘを用いて、検出結果リスト３０５から取得した類似度ｙを補正する。すなわち、一例としては、補正した類似度ｙ＿ｒｅｆｉｎｅは、ｘ、ｙと重みｗを用いて、以下の式（１）によって算出する。
ｙ＿ｒｅｆｉｎｅ＝ｘ－ｗ（１－ｘ）（１－ｙ）
そして、Ｓ５０７で、第二検索部２０７は、第一または第二のリストから注目物体を検索した結果を統合する。すなわち、検出結果３１０と検出結果３１１を統合する。最後にＳ５０９で、出力部２０８が、出力Ｉ／Ｆ１０６を介し、モニタ１１０に検出結果を出力する。

また、第二検索部２０７は、Ｓ５０３で所定類似度ＴＨ４より高い類似度を持つ特徴が存在しない場合、Ｓ５０８において、入力された検索条件で、クエリ特徴と類似度の高い特徴を特徴リスト３０６から検索し、検出結果３１１を取得する。そして最後にＳ５０９で、出力部２０８が、出力Ｉ／Ｆ１０６を介し、モニタ１１０に結果を出力する。

次に、情報処理装置１００が行う上述の処理のうち、更新処理について、図６のフローチャートに従って説明する。リストの更新処理は、予め指定された期間に撮像された映像が取得された場合に、例えば、ユーザが指示するタイミング、週末の深夜等に登録リストを更新する。または、特徴リストのデータ量に応じて、例えば登録量が所定値を超えた場合に実行するようにしてもよい。図６は、本実施形態に係る情報処理装置１００が行う検出対象リストの更新処理の一例を示したフローチャートである。まず、Ｓ６０１で、生成部２０４が、特徴リストに登録された複数の特徴のうち、互いの特徴が類似するクラスタを特定する。生成部２０４は、多次元の特徴を高速に検索するためのインデクス生成、すなわち、リストに登録された特徴に基づいて、特徴リスト３０６のクラスタリングを行う。クラスタリングは、ｋ－ｍｅａｎｓ法を用いることができる。すなわち、最初はｋ個のランダムなクラスタに分類する。その後は、各クラスタのクラスタ中心（特徴の重心）を求め、最も類似しているクラスタ中心に各データを分類して新たなクラスタを生成することを、クラスタ中心の変化がなくなるまで繰り返す。

次に、Ｓ６０２からＳ６０６で、すべてのクラスタに対してクラスタごとに、Ｓ６０３からＳ６０５の処理を行う。すなわち、Ｓ６０３で、生成部２０４が、クラスタ内の各データ間の類似度の中で最小の類似度を求める。そして、Ｓ６０４で、判定部２０５が、クラスタ内のデータ数が所定数より多く、かつ、その最小類似度が第五の閾値ＴＨ５よりも高いか否かを判定する。

Ｓ６０５で、判定部２０５が、クラスタ内のデータ数が所定数より多く、かつ、その最小類似度が閾値ＴＨ５よりも高い場合、クラスタ中心の特徴を判定結果３０７に追加する。このときの閾値ＴＨ５は、リアルタイムで検出したときにユーザにアラートを提示する閾値ＴＨ３と同程度が望ましい。そして、Ｓ６０３に戻り、次のクラスタの処理を行う。Ｓ６０４で、その最小類似度が閾値ＴＨ５よりも高くない場合も、Ｓ６０３に戻り、次のクラスタの処理を行う。

次に、Ｓ６０７で、更新部２０６は、判定結果３０７の特徴を、検出対象リスト３０３（登録リスト）に登録する。ただし、本フローにて登録した特徴は、ユーザがアラートを所望する物体ではない。したがって、本フローにて検出対象リスト３０３に登録した特徴と、ユーザが指定した物体の特徴とは区別可能なように登録する。そして、図４のフローチャートのＳ４０６において、判定部２０５が、類似度の比較に加え、検出対象者がユーザ登録の物体であるかどうかの判定を行う。ユーザが指定した物体のときのみ、アラートをするようにすることも可能である。

以上のように、本実施形態に係る情報処理装置１００は、監視映像３０１が入力されたときに、検出対象リスト３０３との照合を行い、所定類似度よりも高い検出結果があった場合は、検出結果リスト３０５にその結果を登録する。そして、特徴リスト３０６には、映像から抽出された特徴を登録しないようにした。これにより、特徴リスト３０６への登録量を削減することが可能となり、メモリ量削減、検索速度高速化が可能となる。また、クエリ画像３０８が入力されたときに、検出対象リスト３０３との照合を行い、所定類似度よりも高い検出結果があった場合は、検出結果リスト３０５からその結果を取得する。また、特徴リスト３０６からの検索は、検出結果リスト３０５非登録の期間のみを対象にする。検出結果リスト３０５からの結果の取得は、キー探索処理であり、少メモリで高速に処理可能である。また、特徴リスト３０６の検索範囲を狭めたことにより、更なる検索速度高速化が可能となる。また、特徴リスト３０６への登録数の多い物体を検出対象リスト３０３に追加登録することで、監視映像３０１が入力されたときの処理で、該当の物体が特徴リスト３０６ではなく検出結果リスト３０５に登録されるようになる。これにより、検出結果リスト３０５で探索可能な物体が増え、検索高速化が可能となる。また、特徴リスト３０６への登録量を更に削減することが可能となり、更なるメモリ量削減、検索速度高速化が可能となる。

（変形例）
図４で説明したリスト生成処理においては、特徴リスト３０６に登録する特徴が少なくなるようにした。しかしながら、すべての抽出特徴を特徴リスト３０６に登録してもよい。このときは、図５で示す検索時に、検出結果リスト３０５からの検出結果の取得と、検索範囲を狭めた特徴リスト３０６の検索を行う。このような構成を取った場合であっても、検索速度高速化が可能である。

以下、情報処理装置１００が行う上述の処理のうち、リスト生成関連の処理について、フローチャートに従って説明する。図７は、本実施形態に係る情報処理装置１００が行う登録処理の一例を示したフローチャートである。実施形態１の図４のＳ４０９が無くなり、検出対象リスト３０３との検出結果３０４に因らず、常に、Ｓ４１０の特徴リスト３０６への登録が行われるようになっている。すなわち、Ｓ４０７で、生成部２０４は、最も高い類似度が閾値ＴＨ３よりも高くない場合は、Ｓ４０８のユーザへのアラートをスキップして、Ｓ４０９の特徴リスト３０６への登録に進む。なお、情報処理装置１００が行う検索処理、および、更新処理のフローチャートは、図５、図６と同等である。

（その他の実施例）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。発明は上記実施形態に制限されるものではなく、発明の精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、発明の範囲を公にするために請求項を添付する。

１００情報処理装置
２００取得部
２０１検出部
２０２特徴抽出部
２０３第一検索部
２０４生成部
２０５判定部
２０６更新部
２０７第二検索部
２０８出力部

Claims

映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのＩＤ情報とが登録された登録リストから検索する第一の検索手段と、
前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ＩＤ情報を少なくとも登録した第一のリストを、前記第一の検索手段によって前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成手段と、
前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索手段と、
を有することを特徴とする情報処理装置。
前記注目物体を含むクエリ画像からクエリ特徴を取得する取得手段を更に有し、
前記第一の検索手段は、前記取得されたクエリ特徴と、前記登録リストとに基づいて、前記登録リストから前記注目物体を検索し、
前記第二の検索手段は、前記第一の検索手段によって前記注目物体が前記登録リストから検出された場合に、前記第一のリストから前記注目物体を検索し、前記第一の検索手段によって前記注目物体が前記登録リストから検出されない場合に、前記第二のリストから前記注目物体を検索することを特徴とする請求項１に記載の情報処理装置。
前記第二の検索手段は、前記第一の検索手段によって前記注目物体が前記登録リストから検出された場合に、前記第一のリストに前記注目物体の特徴が登録された時刻より前の期間については、前記第二のリストから前記注目物体を検索することを特徴とする請求項２に記載の情報処理装置。
前記第一の検索手段は、前記クエリ特徴と、前記登録リストに登録された物体の特徴との類似度が第一の閾値より大きい場合に、前記登録リストに登録された物体を前記注目物体として検出し、前記類似度が前記第一の閾値より小さい場合に、前記登録リストから前記注目物体を検出しないことを特徴とする請求項２または３に記載の情報処理装置。
前記第二のリストに登録された複数の特徴のうち、互いの特徴が類似するクラスタに含まれる物体の数が所定の値より大きい場合、前記クラスタに含まれる物体を前記登録リストに登録することで前記登録リストを更新する更新手段を更に有することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
前記更新手段は、前記第二のリストに登録された特徴の数が所定の数より多い場合に、前記登録リストを更新することを特徴とする請求項５に記載の情報処理装置。
前記更新手段は、予め指定された期間に撮像された映像が取得された場合に、前記登録リストを更新することを特徴とする請求項５または６に記載の情報処理装置。
前記生成手段は、前記第一のリストに登録された特徴のうち、同一の物体を示す特徴の数が所定の数より多い場合に、前記所定の物体の特徴との類似度がより低い特徴を前記第一のリストから削除することを特徴とする請求項１乃至７のいずれか１項に記載の情報処理装置。
前記第一の検索手段は、前記登録リストに登録された特徴のうち、前記映像から抽出された物体の特徴との類似度が第一の閾値より大きくかつ第二の閾値より小さい特徴を候補物体として、前記映像から抽出された物体の特徴との類似度が前記第二の閾値より大きい特徴を前記所定の物体として検出し、
前記生成手段は、前記候補物体が検出された場合に、前記映像から抽出された物体の特徴または前記ＩＤ情報を前記第一のリストと前記第二のリストとに登録することを特徴とする請求項１乃至８のいずれか１項に記載の情報処理装置。
前記第二の検索手段によって前記注目物体が検出された場合に、ユーザに通知するための情報を出力する出力手段を更に有することを特徴とする請求項１乃至９のいずれか１項に記載の情報処理装置。
コンピュータを、請求項１乃至１０のいずれか１項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
映像から抽出された物体の特徴を、検出対象となる所定の物体を示す特徴と、該所定の物体を識別するためのＩＤ情報とが登録された登録リストから検索する第一の検索工程と、
前記第一の検索工程で前記映像から抽出された物体の特徴が前記登録リストから検出された場合に、前記映像から抽出された物体と対応する前記所定の物体の前記ＩＤ情報を少なくとも登録した第一のリストを、前記第一の検索工程で前記映像から抽出された物体の特徴が前記登録リストから検出されなかった場合に、前記映像から抽出された物体の特徴を登録した第二のリストを、生成する生成工程と、
前記第一のリストまたは前記第二のリストから、ユーザによって指定された注目物体を検索する第二の検索工程と、
を有することを特徴とする情報処理方法。