JP6200306B2

JP6200306B2 - 映像検索装置、映像検索方法、および記憶媒体

Info

Publication number: JP6200306B2
Application number: JP2013253897A
Authority: JP
Inventors: 裕樹渡邉; 健一米司; 智明吉永; 廣池　敦; 敦廣池
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2013-12-09
Filing date: 2013-12-09
Publication date: 2017-09-20
Anticipated expiration: 2033-12-09
Also published as: CN105593850A; CN105593850B; JP2015114685A; WO2015087820A1

Description

本発明は、映像検索技術に関する。

防犯カメラの普及に伴い、多地点で撮影された映像から所望の人物または車両などを探すことへのニーズが高まっている。しかし、従来の防犯カメラシステムの多くは、防犯カメラ、レコーダーおよび再生機からなるシステムであり、蓄積された膨大なデータから所望のシーンを探索することは困難だった。

これに対して、類似画像検索技術を導入したシステムに注目が集まっている。類似画像検索技術を用いると、大量の映像情報の中から、特定の人物または物体の映っているフレームを検索することができる。類似画像検索とは、ユーザによって指定された検索クエリの画像と、外見の特徴が似た画像をデータベースから取得する技術である。物体の類似度の算出には、物体同士を区別するために有効な領域（顕著領域）から特徴量と呼ばれる数値データを抽出し、比較する。防犯カメラシステムに適用する際には、人物の顔または服などの顕著領域から特徴量を抽出する。例えば、特許文献１では、カメラから取得した画像をブロックに分割し、色ヒストグラムにもとづいて、ブロックの特徴量を抽出し、類似画像検索のクエリとしている。

一方で、映像から抽出した連続フレームから動的物体を検出し、フレーム間で動的物体の対応付けを行う技術が知られている。例えば、フレームを小領域に分割し、フレーム間で、それぞれの小領域の動きベクトルを算出することができる。動きベクトルを観測し、同様の動きをする小領域をまとめることで、動的物体を追跡することができる。これによって、フレーム内に存在する限りは、動的物体を追跡することができるため、ユーザの指定した物体を同一映像に含まれる別のフレームから探索することができる。

特開２０１１−１８２３８号公報

特許文献１では、ユーザが指定したクエリを使用して検索を行うため、クエリが適切でない場合は、所望の検索結果が得られない可能性がある。また、特許文献１では、クエリの画像を含むフレームの前後のフレームからクエリと類似したブロックを探索し、それら全てを用いてデータベースに類似画像検索を行う方法を示しているが、この方法では、同一の動的物体上の顕著領域であってもユーザ指定のクエリと特徴量が大きく異なる場合は、検索クエリとして選ばれないため、検索結果の改善は限定的である。

上記の課題を解決するために、本発明は、プロセッサと、前記プロセッサに接続される記憶装置と、を有する映像検索装置であって、第１の場所で撮影された複数のフレームからなる第１の映像、および、第２の場所で撮影された複数のフレームからなる第２の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納し、前記第１の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納し、前記第１の映像から検出された前記選択された移動体の移動経路、および、前記第２の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択し、前記クエリ画像特徴量を用いて、前記第２の映像から抽出された前記一つ以上の移動体の画像特徴量を検索し、前記検索の結果を出力することを特徴とする。

本発明に係る映像検索装置によれば、入力された多数の映像から動的物体の追跡と顕著領域の検出を行い、蓄積された追跡情報から撮影場所毎に適したクエリを決定するためのパラメータを推定し、ユーザが探したい物体を指定すると、その物体の動線上から検索に適したクエリ画像を自動的に決定し類似画像検索を行うことで、ユーザがクエリ画像を選別する作業を軽減することができる。また、撮影場所ごとに適したクエリのみが使用されるため、検索速度の向上および検索ノイズの低減といった効果を得ることができる。上記した以外の課題、構成、および効果は、以下の実施形態の説明により明らかになるであろう。

本発明の実施例１に係る映像検索システムの構成図である。本発明の実施例１に係る映像検索システムのハードウェア構成図である。本発明の実施例１に係る映像データベースの構成およびデータ例を示す図である。本発明の実施例１に係る映像検索システムの動作を説明するための図である。本発明の実施例１に係る映像検索装置が、入力された映像を登録する処理を説明するフローチャートである。本発明の実施例１に係る映像検索装置が実行するクエリパラメータの推定処理を説明する図である。本発明の実施例１に係る映像検索装置が顕著領域を判定するために使用する画像特徴量の分散比の説明図である。本発明の実施例１に係るクエリパラメータ蓄積部の構成およびデータ例を示す図である。本発明の実施例１に係る映像検索装置が蓄積されたデータからクエリパラメータを推定する処理を説明するフローチャートである。本発明の実施例１に係るクエリ決定部が追跡情報を用いて検索クエリを決定する動作を説明する図である。本発明の実施例１に係る映像検索装置が、追跡情報を用いて決定した検索クエリによって類似画像検索を行う処理を説明するフローチャートである。本発明の実施例１に係る映像検索システムの処理シーケンスを説明する図である。本発明の実施例１に係る映像検索装置を用いて、映像中の物体を検索する際に使用する操作画面の構成例を表す図である。本発明の実施例２に係る映像検索システムによる、顕著領域を用いた追跡情報の補正を説明するための図である。本発明の実施例２に係る映像検索装置が、顕著領域を用いて追跡情報を補正する処理を説明するフローチャートである。本発明の実施例２に係る映像検索システムによる、奥行き情報を考慮した追跡情報の補正を説明するための図である。本発明の実施例２に係る映像検索装置が、顕著領域を用いて追跡情報に奥行き情報を追加する処理を説明するフローチャートである。本発明の実施例３における異なる映像に存在するクエリの提示に関する説明図である。本発明の実施例３に係る映像検索装置が、異なる映像から新しい種別の顕著領域を探索する処理を説明するフローチャートである。本発明の実施例４における追跡情報を用いた映像要約を説明するための図である。本発明の実施例４に係る映像検索システムが実行する追跡情報を用いた映像要約の処理を表すフローチャートである。

＜システム構成＞

図１Ａは、本発明の実施例１に係る映像検索システム１００の構成図である。

映像検索システム１００は、ユーザが指定した映像中の物体を、その映像の異なる時間帯から（例えば、ユーザが指定した物体を含むフレームとは別の時刻のフレームから）、または異なる映像から（例えば、ユーザが指定した物体を含む映像とは別の場所で撮影された映像から）検索するためのシステムであり、映像中の動的物体（移動体）の追跡情報を用いて検索に適したクエリ画像を、それを用いた検索が行われる映像の撮影場所ごとに生成することで、検索の速度と精度を向上させることを目的としたシステムである。

映像検索システム１００は、映像記憶装置１０１、入力装置１０２、表示装置１０３、および映像検索装置１０４を備える。

映像記憶装置１０１は、映像データを保存する記憶媒体であり、コンピュータ内蔵のハードディスクドライブ、または、ＮＡＳ（ＮｅｔｗｏｒｋＡｔｔａｃｈｅｄＳｔｏｒａｇｅ）もしくはＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）などのネットワークで接続されたストレージシステムを用いて構成することができる。また、映像記憶装置１０１は、例えば、カメラから継続的に入力される映像データを一時的に保持するキャッシュメモリであっても良い。

なお、映像記憶装置１０１に保存される映像データは、撮影された動的物体の追跡に利用できるものである限り、どのような形式のデータであってもよい。例えば、保存される映像データは、ビデオカメラで撮影された動画像データであってもよいし、スチルカメラによって所定の間隔で撮影された一連の静止画像データであってもよい。

入力装置１０２は、マウス、キーボード、タッチデバイスなど、ユーザの操作を映像検索装置１０４に伝えるための入力インタフェースである。表示装置１０３は、液晶ディスプレイなどの出力インタフェースであり、映像検索装置１０４の検索結果の表示、ユーザとの対話的操作などのために用いられる。

映像検索装置１０４は、与えられた映像データの各フレームから動的物体の追跡と顕著領域を検出し、蓄積する。ユーザが蓄積されたフレームから探したい物体を指定すると、映像検索装置１０４は、追跡情報を用いてその前後一連のフレーム内から、クエリ画像を用いた検索が行われる映像の撮影場所毎に適したクエリ画像を選択し、類似画像検索を実行する。映像検索装置１０４が扱う映像は、一箇所以上の場所で撮影された定点観測の映像であることを想定している。また、検索対象の物体は、人物または車両などの任意の動的物体である。映像検索装置１０４は、映像入力部１０５、フレーム登録部１０６、動的物体追跡部１０７、追跡情報登録部１０８、顕著領域検出部１０９、顕著領域登録部１１０、映像データベース１１１、クエリパラメータ推定部１１２、クエリパラメータ蓄積部１１３、クエリ入力部１１４、クエリ決定部１１５、および類似画像検索部１１６、を備える。

映像入力部１０５は、映像記憶装置１０１から、映像データを読み出し、映像検索装置１０４内部で使用するデータ形式に変換する。具体的には、映像入力部１０５は、映像（動画データ形式）をフレーム（静止画データ形式）に分解する動画デコード処理を行う。得られたフレームは、フレーム登録部１０６、動的物体追跡部１０７、および顕著領域検出部１０９に送られる。

フレーム登録部１０６は、抽出されたフレームと抽出元の映像の情報を映像データベース１１１に書き込む。映像データベース１１１に記録するデータの詳細については図２の説明として後述する。

動的物体追跡部１０７は、映像中の動的物体を検出し、前フレームの動的物体との対応付けを行うことによって、動的物体の追跡を行う。動的物体の検出および追跡は、例えばS. Baker and I. Matthews "Lucas-kanade 20 years on: A unifying framework", International Journal of Computer Vision, vol. 53, no. 3, 2004に記載された方法など、任意の方法を用いて実現することができる。得られた動的物体の追跡情報は、各フレームの動的物体の座標情報と各追跡にユニークに付与されるＩＤ（追跡ＩＤ）で構成される。

追跡情報登録部１０８は、動的物体追跡部１０７で得られた各フレームの動的物体の領域から画像特徴量を抽出し、映像データベース１１１に登録する。画像特徴量は、例えば、固定長のベクトルで表現され、画像の色および形状などの外見の情報を数値化したデータである。また、追跡情報登録部１０８は、同一の追跡ＩＤが付与された動的物体の座標から、動線（すなわちその動的物体の移動経路）の特徴量を抽出し、映像データベース１１１に登録する。

顕著領域検出部１０９は、フレーム中から顕著な領域を検出し、その座標を求める。顕著領域は、アプリケーションによって異なるが、例えば、人物を含む映像であれば顔領域、頭部領域、服色、服の模様、または持ち物であるし、車両を含む映像であればホイール、またはフロントグリルなどである。顕著領域検出部１０９は物体の種類に応じた顕著領域を抽出するための複数の検出モジュールを含み、映像に出現する物体の種類が限定できない場合は、複数の検出モジュールを同時並列に動作させても良い。

顕著領域登録部１１０は、検出された各顕著領域から画像特徴量を抽出し、検出元のフレーム情報および当該顕著領域の座標情報と合わせて映像データベース１１１に登録する。画像特徴量の抽出方法は、顕著領域の種類に応じて変えても良いが、同種の顕著領域については同様の方法で画像特徴量が抽出されなければならない。例えば、顔領域については形状特徴量、服領域には色特徴量を用いることができるが、異なるフレームで検出された顔領域Ａ、Ｂに対して、Ａについては色特徴量を用い、Ｂについては形状特徴量を用いることはできない。

映像データベース１１１は、映像、フレーム、追跡情報、動的物体、および顕著領域の情報を保存するためのデータベースである。画像特徴量が与えられた項目については、類似画像検索を行うことができる。類似画像検索は、クエリと画像特徴量が近い順にデータを並び替えて出力する機能である。画像特徴量の比較には、例えば、ベクトル間のユークリッド距離を用いることができる。映像データベース１１１へのアクセスは、フレーム登録部１０６、追跡情報登録部１０８、および顕著領域登録部１１０からの登録処理、クエリパラメータ推定部１１２、およびクエリ決定部１１５からの読み出し処理、並びに、類似画像検索部１１６からの検索処理の際に発生する。映像データベース１１１の構造について、詳しくは図２の説明として後述する。

クエリパラメータ推定部１１２は、映像データベース１１１に蓄積された追跡情報と顕著領域の情報を用いて、映像の撮影場所毎に適したクエリの種別を決定するためのパラメータを推定する。推定されたパラメータは、クエリパラメータ蓄積部１１３に保存される。

クエリパラメータ蓄積部１１３は、映像の撮影場所毎に適したクエリの種別を決定するためのパラメータを保持する。クエリパラメータ蓄積部１１３の構造について、詳しくは図７の説明として後述する。

クエリ入力部１１４は、ユーザが映像データベース１１１に蓄積された映像から探したい物体を指定する際に、入力装置１０２によって与えられたユーザの操作を、映像検索装置１０４に伝える。

クエリ決定部１１５は、ユーザが指定した物体とその追跡情報およびクエリパラメータ蓄積部１１３から読みだしたパラメータを用いて、映像の撮影場所毎に最適な一つ以上のクエリを決定する。クエリは、動的物体追跡部１０７で検出された動的物体の領域の画像特徴量か、または、顕著領域検出部１０９で検出された顕著領域の画像特徴量である。

類似画像検索部１１６は、クエリ決定部１１５で選ばれた一つ以上のクエリ画像の特徴量を用いて、それぞれ映像データベース１１１に対して類似画像検索を実行する。クエリの顕著領域の種別が異なる場合は、異なる尺度での検索結果がえられる。そこで、類似画像検索部１１６は、例えば、類似度を正規化し、検索結果を統合して表示装置１０３に出力する。

図１Ｂは、本発明の実施例１に係る映像検索システム１００のハードウェア構成図である。

映像検索装置１０４は、例えば一般的な計算機によって実現することができる。例えば、映像検索装置１０４は、相互に接続されたプロセッサ１２１および記憶装置１２２を有してもよい。記憶装置１２２は任意の種類の記憶媒体によって構成される。例えば、記憶装置１２２は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成されてもよい。

この例において、図１に示した映像入力部１０５、フレーム登録部１０６、動的物体追跡部１０７、追跡情報登録部１０８、顕著領域検出部１０９、顕著領域登録部１１０、クエリパラメータ推定部１１２、クエリ入力部１１４、クエリ決定部１１５および類似画像検索部１１６といった機能部は、プロセッサ１２１が記憶装置１２２に格納された処理プログラム１２３を実行することによって実現される。言い換えると、この例において、上記の各機能部が実行する処理は、実際には、上記の処理プログラム１２３に基づいて、プロセッサ１２１によって実行される。また、映像データベース１１１およびクエリパラメータ蓄積部１１３は、記憶装置１２２に含まれる。

映像検索装置１０４は、さらに、プロセッサに接続されたネットワークインターフェース装置（ＮＩＦ）１２４を含み、映像記憶装置１０１は、ネットワークインターフェース装置を介して映像検索装置１０４に接続されたＮＡＳまたはＳＡＮであってもよい。あるいは、映像記憶装置１０１は、記憶装置１２２に含まれてもよい。

図２は、本発明の実施例１に係る映像データベース１１１の構成およびデータ例を示す図である。ここではテーブル形式の構成例を示すが、データ形式は任意でよい。

映像データベース１１１は、映像テーブル２００、フレームテーブル２１０、追跡情報テーブル２２０、動的物体テーブル２３０、および顕著領域テーブル２４０からなる。図２のテーブル構成および各テーブルのフィールド構成は、本発明を実施する上で必要となる構成であり、アプリケーションに応じてテーブルおよびフィールドを追加しても良い。

映像テーブル２００は、映像ＩＤフィールド２０１、ファイル名フィールド２０２、および撮影場所ＩＤフィールド２０３を有する。映像ＩＤフィールド２０１は、各映像データの識別番号を保持する。ファイル名フィールド２０２は、映像記憶装置１０１から読み込まれた映像データのファイル名を保持する。映像を直接カメラから入力する場合は、ファイル名を省略しても良い。撮影場所ＩＤフィールド２０３は、定点観測された場所のＩＤを保持する。映像データのＩＤと撮影場所との対応は、アプリケーションで管理しても良いし、映像データベースに撮影場所の管理用テーブルを追加することで管理しても良い。固定カメラを使用する場合は、撮影場所ＩＤをカメラＩＤと読み替えても良い。図２の例のように、一つの撮影場所に対して、複数の映像ファイルが登録されても良い。この場合、当該複数の映像ファイルには、例えば、設置場所および撮影方向が固定された一つのカメラがそれぞれ異なる時間帯に撮影した映像データが含まれる。

フレームテーブル２１０は、フレームＩＤフィールド２１１、映像ＩＤフィールド２１２および画像データフィールド２１３を有する。フレームＩＤフィールドは、映像データから抽出された各フレームの識別番号を保持する。映像ＩＤフィールド２１２は、フレームの抽出元の映像の識別番号を保持するフィールドであり、この識別番号は、映像テーブル２００で管理される映像ＩＤフィールド２０１に保持される値に対応する。画像データフィールド２１３は、フレームの静止画像のバイナリデータであり、検索結果などを表示装置１０３に表示する際に用いられるデータを保持する。

追跡情報テーブル２２０は、追跡ＩＤフィールド２２１、動的物体ＩＤリストフィールド２２２および動線特徴量フィールド２２３を有する。追跡ＩＤフィールド２２１は、動的物体追跡部１０７で各動的物体を追跡するために用いられる識別番号を保持する。動的物体ＩＤリストフィールド２２２は、同一の追跡ＩＤを有する動的物体ＩＤのリストを有する。動的物体のＩＤは後述する動的物体テーブル２３０で管理される識別番号である。動線特徴量フィールド２２３は、画像中の動的物体の座標の時系列変化から抽出した動線特徴量を保持する。映像によって画像サイズが異なるため、動線特徴量は動的物体の正規化座標から計算する。

動的物体テーブル２３０は、動的物体ＩＤフィールド２３１、追跡ＩＤフィールド２３２、フレームＩＤフィールド２３３、座標フィールド２３４および特徴量フィールド２３５を有する。動的物体ＩＤフィールド２３１は、動的物体追跡部１０７で検出された各動的物体の識別番号（すなわち動的物体ＩＤ）を保持する。追跡ＩＤフィールド２３２は、動的物体追跡部１０７においてフレーム間で同一の動的物体を対応付けるために使用する識別番号（すなわち追跡ＩＤ）を保持する。この識別番号は、追跡情報テーブル２２０で管理される追跡ＩＤフィールド２２１に保持された識別番号に対応する。フレームＩＤフィールド２３３は、動的物体が検出されたフレームの識別番号を保持する。この識別番号は、フレームテーブル２１０で管理されるフレームＩＤフィールド２１１に保持された識別番号に対応する。座標フィールド２３４は、動的物体の画像中での座標を保持する。座標は、例えば、動的物体の外接矩形の「左上隅の水平座標、左上隅の垂直座標、右下隅の水平座標、矩形の右下隅の垂直座標」という形式で表現される。特徴量フィールド２３５は、動的物体の画像から抽出された画像特徴量を保持する。画像特徴量は、例えば、固定長のベクトルで表現される。

なお、動的物体ＩＤは、動的物体そのものを識別するものではなく、動的物体の画像を識別するものである。したがって、同一の動的物体の画像が複数のフレームに含まれる場合には、それらの画像の各々に別の（一意の）動的物体ＩＤが与えられる。例えば、図２に示すように、追跡情報テーブル２２０の追跡ＩＤ：１に対応する動的物体ＩＤリストフィールド２２２に動的物体ＩＤ：１、２および３が保持されている場合、少なくとも、動的物体ＩＤ：１、２および３で識別される三つの動的物体の画像（これらは、それぞれ別のフレームに含まれる）が、動的物体追跡部１０７によって、同一の動的物体の画像であると判定されたことを意味する。

顕著領域テーブル２４０は、顕著領域ＩＤフィールド２４１、フレームＩＤフィールド２４２、座標フィールド２４３および特徴量フィールド２４４を有する。顕著領域ＩＤフィールド２４１は、顕著領域検出部１０９で検出された各顕著領域の識別番号を保持する。フレームＩＤフィールド２４２は、顕著領域が検出されたフレームの識別番号を保持する。この識別番号は、フレームテーブル２１０で管理されるフレームＩＤフィールド２１１に保持された識別番号に対応する。座標フィールド２４３は、顕著領域の画像中での座標を保持する。特徴量フィールド２４４は、顕著領域から抽出された画像特徴量を保持する。顕著領域テーブル２４０は、システム設計者が定めた顕著領域の種別分だけ用意される。また、顕著領域テーブルを用意せず、動的物体の画像特徴量だけで検索を行うことも可能である。

＜各部の動作＞

以上、映像検索システム１００の全体構成を説明した。以下では映像検索システム１００の動作原理を概説した上で、各機能部の詳細動作を説明する。

図３は、本発明の実施例１に係る映像検索システム１００の動作を説明するための図である。

映像検索システム１００は、映像中の物体を検索する際に、例えば、映像の１フレームを表示し、そのフレームに映っている物体をクエリとして類似画像検索を行う。図３の説明図３０１は、ユーザが入力フレーム中の検索対象３０２を選択する様子を表している。検索対象３０２は、映像中の図示された入力フレームを含む複数のフレームに映っている動的物体である。後述する処理によって、それらの複数のフレームに含まれる検索対象３０２の画像（すなわち静止画像）のいずれかが検索クエリとして選択される。

検索対象３０２に付された矢印は、物体の向き（例えば検索対象３０２が人物である場合、体の正面の方向）を表している。一般に物体の向きが異なると画像特徴量が変化する。また、選択するフレームによっては、検索対象３０２を特徴付ける領域（顕著領域）がそもそも写っていない場合もある。例えば、人物の場合は、後ろを向いている場合には、特徴となる顔領域が写っていないため、顔特徴を用いた検索はできない。映像中の複数のフレームから類似画像検索に適切なクエリ探す作業は非常に手間がかかり、検索結果を得るまでの所要時間の増加や、検索精度の低下の要因となっていた。

本発明では、動的物体の追跡情報を用いることで、同一の動線上から、一つ以上の適切なクエリを決定し、そのクエリを用いた類似画像検索を行う。説明図３０３は、検索対象３０２の追跡情報を画像内で動いた経路（動線）の形で表したものである。具体的には、説明図３０３に表示された曲線は、映像から抽出された連続フレーム内の検索対象３０２の画面上の座標を、それぞれのフレームが撮影された時刻の順に連結したものであり、曲線の端の矢印の向きは、検索対象３０２が移動した方向を示し、説明図３０３の輪郭は各フレームの輪郭に相当する。また、説明図３０３に示す動線は、撮影場所を斜め上方向から俯瞰するように撮影した画面上の検索対象３０２の移動経路である。このため、画面の下側が手前側（すなわち当該撮影場所の撮影範囲のうちカメラに近い側）、画面の上側が奥側（すなわち当該撮影場所の撮影範囲のうちカメラから遠い側）に相当する。以降の説明図においても、特記しない限り、動的物体の動線は上記と同様の方法で表示される。

なお、ある動線が、ある動的物体の画像の移動経路である場合、以下の説明では、当該動的物体を「動線上の動的物体」、当該動的物体の画像を「動線上の画像」、動線上の画像の顕著領域を「動線上の顕著領域」のように記載する場合がある。

説明図３０３において、例えば、動線上の地点Ａ、Ｂ、Ｃ、Ｄにおける検索対象３０２の画像は、説明図３０４に示すように、同じ検索対象３０２（この例では人物）をそれぞれ異なる方向から撮影した画像となり、それぞれの画像に現れた外見が異なるため、異なる画像特徴量が得られる。このようにして得られた複数の画像はいずれも類似画像検索のクエリとして使用可能なクエリ候補であり、得られたクエリ候補を全て用いて、類似画像検索を行っても良い。しかし、上記のような連続フレームからは多数のクエリ候補が得られるため、それらの多数のクエリ候補を用いることで検索時間が増加する。また、検索結果の統合方法（例えば検索結果を表示する順序を決定する方法）についても課題が残る。

これに対して本発明では、撮影場所毎に蓄積された動線情報を用いて、適切なクエリを自動的に決定し、検索回数を軽減する。例えば、説明図３０５には、ある場所（図３では場所１と記載）で撮影された映像に映っている各動的物体の動線を示す。この例では、動線の矢印が示すように、多くの動的物体が画面上の手前から奥に向かって動くため、この撮影場所で撮影された映像には動的物体の正面の画像が多く含まれていないと考えられる。このため、このような場所で撮影された映像を対象として、例えば人物の顔の特徴のような、物体正面に現れる特徴をクエリとした類似画像検索をすることは難しい。

説明図３０１に示す入力フレームには、ある方向を向いた検索対象３０２の画像が含まれている。この画像には、場所１で撮影された映像を検索するクエリとして適切な特徴が含まれているとは限らない。しかし、その前後のフレームには、説明図３０３および３０４に示すように、種々の方向を向いた検索対象３０２の画像が含まれ、それらの一部は、場所１で撮影された映像を検索するクエリとして適切な特徴を含む可能性がある。具体的には、入力フレームを含む連続フレームの中に、場所１における多くの動的物体と同様に、画面上の手前から奥に向かって移動する検索対象３０２の画像が含まれていれば、その画像には、場所１で撮影された映像を検索するクエリとして適切な特徴が含まれている可能性が高い。

そこで、映像検索システム１００は、入力映像の追跡情報から、場所１における多くの動的物体と同様に、検索対象３０２が画面上奥に向かって動く瞬間を探し、そのときに撮影されたフレームの画像から抽出した、検索対象３０２の正面以外の顕著領域の特徴を用いて類似画像検索を行う。例えば、検索対象３０２が人物である場合は、正面の顔特徴ではなく、背面の服色特徴３０６をクエリとした検索が行われる。一方で、説明図３０７に示す撮影場所２では、画面上の手前から奥に向かって移動する動的物体の画像だけでなく、画面上の奥から手前に向かって移動する動的物体の画像が撮影されており、後者には顔が映っている可能性が高いため、顔特徴３０８をクエリとした検索が行われる。

本実施例の効果として、追跡情報を用いて自動的にクエリを増やすため作業コストが軽減し、撮影場所に応じたクエリを選択することで、検索時間を減らすことができる。また、撮影場所毎に顕著な領域を表すクエリのみが選ばれるため、全てのクエリ候補を用いて検索する場合に比べて、検索ノイズを軽減する効果が期待できる。

本発明を実施するためには、まず、映像の蓄積段階において動的物体の追跡と顕著領域の検出を行って、データベースに登録しておく必要がある。また、多数の映像が蓄積された後に、撮影場所ごとに適切なクエリを生成するためのパラメータを導出する必要がある。検索時には、これらの登録情報、蓄積情報を用いて一つ以上のクエリを生成して検索する。以下では、映像の登録、パラメータの導出、検索における、各部の動作についてそれぞれ説明する。

図４は、本発明の実施例１に係る映像検索装置１０４が、入力された映像を登録する処理を説明するフローチャートである。以下、図４の各ステップについて説明する。

（図４：ステップＳ４０１）
映像入力部１０５は、映像記憶装置１０１から入力された映像データをデコードし、フレームを静止画として抽出する。

（図４：ステップＳ４０２〜Ｓ４１０）
映像検索装置１０４内の各部が、ステップＳ４０１で抽出された各フレームに対して、ステップＳ４０２〜Ｓ４１０を実行する。

（図４：ステップＳ４０３）
フレーム登録部１０６は、フレームと抽出元の映像情報を映像データベース１１１に登録する。

（図４：ステップＳ４０４）
動的物体追跡部１０７は、フレームから動的物体を検出する。

（図４：ステップＳ４０５）
動的物体追跡部１０７は、ステップＳ４０４で検出された動的物体が、前フレームにも存在したものであるか否かを判定し、前フレーム（現フレームの一つ前の時刻のフレーム）にも存在したものであれば、追跡情報登録部１０８がステップＳ４０７を実施する。一方、ステップＳ４０４で検出された動的物体が、前フレームにも存在したものでない場合、当該動的物体は現フレームで新たに出現した動的物体であるため、追跡情報登録部１０８がステップＳ４０６を実行する。

（図４：ステップＳ４０６）
追跡情報登録部１０８は、ステップＳ４０５で新たに検出された動的物体を追跡対象として、映像データベース１１１の追跡情報テーブル２２０に新規登録する。

（図４：ステップＳ４０７）
追跡情報登録部１０８は、各動的物体から画像特徴量を抽出し、抽出した画像特徴量、ステップＳ４０５で特定された前フレームの動的物体と同一の追跡ＩＤ、現フレームのフレームＩＤ、および現フレームにおける各動的物体の座標を、それぞれ、動的物体テーブル２３０の特徴量フィールド２３５、追跡ＩＤフィールド２３２、フレームＩＤフィールド２３３および座標フィールド２３４に登録する。また、追跡情報登録部１０８は、得られた動的物体ＩＤを追跡情報テーブル２２０の動的物体ＩＤリストフィールド２２２に追加する。

（図４：ステップＳ４０８）
顕著領域検出部１０９は、フレームから顕著領域を検出する。複数種類の顕著領域検出モジュールを用意した場合は、検出モジュールの数だけ検出処理を行う。

（図４：ステップＳ４０９）
顕著領域登録部１１０は、ステップＳ４０８で検出された顕著領域から画像特徴量を抽出し、映像データベース１１１の顕著領域テーブル２４０に登録する。

ステップＳ４０４〜Ｓ４０７と、ステップＳ４０８〜Ｓ４０９とは独立した処理であるため、複数の計算リソースを用いて並列に実行しても良い。

以上が、映像の登録処理に関する説明である。次に、登録されたデータを用いて、適切なクエリの決定に用いられるパラメータを推定する処理について説明する。

図５は、本発明の実施例１に係る映像検索装置１０４が実行するクエリパラメータの推定処理を説明する図である。

一定数以上の映像が映像データベース１１１に蓄積されると、各撮影場所に関して、多数の動線を得ることができる。説明図５０１には、例として、図３の説明図３０７と同様の場所２に関して得られた動線を示す。各動線については追跡情報テーブル２２０に動線特徴量が保存されている。クエリパラメータ推定部１１２は、まずこれらの動線特徴量に対してクラスタリング処理を行い、説明図５０２に太線の矢印で示す代表動線５０２Ａおよび５０２Ｂを見つける。クラスタリング処理には、ｋ−ｍｅａｎｓ法のような一般的な手法を用いることができる。

次に、クエリパラメータ推定部１１２は、各クラスタに属する動線上で検出された顕著領域を映像データベース１１１から取得する。この結果、顕著領域の種別毎に、検出された顕著領域の数、および、検出された顕著領域の画像特徴量の集合が得られる。この段階で検出された数が所定数に満たない種別の顕著領域は除外され、残った顕著領域の中で最も検索に適したものが選ばれる。

検索に適した顕著領域を判定する方法として、例えば、画像特徴量の分散比を用いる方法が考えられる。

図６は、本発明の実施例１に係る映像検索装置１０４が顕著領域を判定するために使用する画像特徴量の分散比の説明図である。

画像特徴量の分散比は、同一動線内で検出された顕著領域の画像特徴量の分散値（動線内分散）と、動線間の分散値（動線間分散）との比である（分散比＝動線間分散／平均動線内分散）。説明図６０１には、分散比が大きい場合の各動線の顕著領域の画像特徴量の分散の例を模式的に示す。この例では、同一動線内、すなわち同一物体の画像特徴量の時間変動が少なく、動線間、すなわち異なる物体間での画像特徴量の差が大きいため、特徴量ベクトルの検索によって対象物を発見しやすい。

一方、説明図６０２には、分散比が小さい場合の各動線の顕著領域の画像特徴量の分散の例を模式的に示す。この例では、一つの物体の特徴量空間とそれとは異なる物体の特徴量空間とを分離できないため、本来検索したい対象物とは異なる対象物を誤って発見する可能性が高く、有効な検索結果を得ることは難しい。

クエリパラメータ推定部１１２は、各顕著領域に対して画像特徴量の分散比を求め、分散比の高くなる顕著領域を選んで、クエリパラメータ蓄積部１１３に登録する。

図５の例では、説明図５０１および５０２に示すように、取得された複数の動線が、画面上の手前から左奥に向かう複数の動線を含むクラスタと、左奥から手前に向かう複数の動線を含むクラスタと、に分類される。この例において、それぞれのクラスタの代表動線５０２Ａおよび５０２Ｂは、実際に取得された複数の動線のうちの一つではなく、それぞれのクラスタに含まれる複数の動線から生成された代表的な動線である。また、それぞれのクラスタに含まれる動線を、それぞれのクラスタの代表動線の類似動線とも記載する。

図５の説明図５０３および５０５は、それぞれ、代表動線５０２Ａおよび代表動線５０２Ｂの類似動線上で検出された顕著領域に関する情報の例を示す。具体的には、説明図５０３および５０５には、顕著領域に関する情報の例として、顕著領域の種別、検出されたそれぞれの種別の顕著領域の数、顕著領域の画像の例、および特徴量の分散比が表示されている。図５の例において、各動的物体は人物であるため、顕著領域の種別は「動体」（すなわち動的物体全体）、「顔」および「服色」を含むが、他の種別を含んでもよい。

図５の例において、代表動線５０２Ａの類似動線は、画面上の手前から左奥に向かう動線を多く含むため、種別が「動体」および「服色」である顕著領域は多く検出されるが、種別が「顔」である顕著領域は検出されない。この例では、「動体」より「服色」の画像特徴量の分散比が大きいため、「服色」が検索に適した顕著領域の種別５０４（以下、「有効な顕著領域の種別」とも記載する）として選択される。一方、代表動線５０２Ａの類似動線は、画面上の左奥から手前に向かう動線を多く含むため、種別が「顔」である十分な数の顕著領域が検出され、その画像特徴量の分散比が最も大きいため、「顔」が有効な顕著領域の種別５０６として選択される。

より具体的には、例えば検出数および分散値がいずれも所定の値を越えるなど、所定の条件を満たす種別が選択されてもよい。一つのクラスタについて複数の種別が上記の条件を満たす場合、それらの全てが選択されてもよいし、例えば分散値が最大である一つを選択するなど、さらに別の条件に従って種別が絞り込まれてもよい。

図７は、本発明の実施例１に係るクエリパラメータ蓄積部１１３の構成およびデータ例を示す図である。ここではテーブル形式の構成例を示すが、データ形式は任意でよい。

クエリパラメータ蓄積部１１３は、パラメータＩＤフィールド７００、撮影場所ＩＤフィールド７０１、領域座標フィールド７０２、代表動線特徴量フィールド７０３、および顕著領域種別フィールド７０４を有するテーブル構造で表現することができる。

パラメータＩＤフィールド７００は、各パラメータの識別番号（すなわちパラメータＩＤ）を保持する。これは、前述した動線のクラスタ毎に与えられるＩＤである。

撮影場所ＩＤフィールド７０１は、各撮影場所の識別番号（すなわち撮影場所ＩＤ）を保持する。撮影場所ＩＤは、映像データベース１１１における映像テーブル２００の撮影場所ＩＤフィールド２０３に保持された値に対応する。領域座標フィールド７０２は、動線のクラスタに属する動線の分布範囲を表す座標を保持する。代表動線特徴量フィールド７０３は、動線クラスタの平均特徴量（すなわち、動線クラスタに属する動線の動線特徴量の平均）を保持する。顕著領域種別フィールド７０４は、図５と図６の説明として前述した方法で選択された、一つ以上の有効な顕著領域の種別を保持する。

図８は、本発明の実施例１に係る映像検索装置１０４が、蓄積されたデータからクエリパラメータを推定する処理を説明するフローチャートである。以下、図８の各ステップについて説明する。

（図８：ステップＳ８０１〜Ｓ８０９）
クエリパラメータ推定部１１２は、各撮影場所を処理対象としてステップＳ８０１〜Ｓ８０９を実行する。

（図８：ステップＳ８０２）
クエリパラメータ推定部１１２は、処理対象の撮影場所の映像から抽出された追跡情報を、映像データベース１１１から取得する。これによって、例えば図５の説明図５０１に示すような動線に関する情報が取得される。

（図８：ステップＳ８０３）
クエリパラメータ推定部１１２は、ステップＳ８０２で取得した追跡情報を動線特徴量に基づいてクラスタリングする。これによって、例えば図５に示すように複数の動線が二つのクラスタに分類され、それぞれのクラスタを代表する代表動線５０２Ａおよび５０２Ｂが得られる。

（図８：ステップＳ８０４〜Ｓ８０８）
クエリパラメータ推定部１１２は、ステップＳ８０３で得られた各クラスタを処理対象としてステップＳ８０４〜Ｓ８０８を実行する。

（図８：ステップＳ８０５）
クエリパラメータ推定部１１２は、処理対象のクラスタに属する追跡情報から、動線上の顕著領域を取得する。例えば、クエリパラメータ推定部１１２は、ある追跡ＩＤおよびあるフレームＩＤに対応する動的物体の座標（すなわち座標フィールド２３４に保持された値）と、それと同一のフレームＩＤに対応する顕著領域の座標（すなわち座標フィールド２４３の値）との重畳率が所定値以上である場合に、当該顕著領域が当該追跡ＩＤによって識別される動線上の顕著領域であると判定する。重畳率とは、例えば、顕著領域の座標の範囲の大きさに対する、その範囲と動的物体の座標の範囲との重畳部分の大きさの比率である。このようにして得られた各動線上の顕著領域を処理対象のクラスタについて集計することによって、例えば図５の説明図５０３または５０５に示すような顕著領域が取得される。

（図８：ステップＳ８０６）
クエリパラメータ推定部１１２は、顕著領域の種別ごとに検出数と特徴量の分散値を導出し、図５および図６の説明で述べた方法で有効な顕著領域の種別を推定する。これによって、例えば図５に示す顕著領域の種別５０４または５０６等が取得される。

（図８：ステップＳ８０７）
クエリパラメータ推定部１１２は、ステップＳ８０６で得られたパラメータを、クエリパラメータ蓄積部１１３に登録する。

以上が、動的物体の追跡情報を用いて類似画像検索を効率化するための事前処理に関する説明である。以下では、本発明の検索処理について説明する。

図９は、本発明の実施例１に係るクエリ決定部１１５が、追跡情報を用いて検索クエリを決定する動作を説明する図であり、図３の概念図をより詳細に説明する図である。

ユーザが検索対象の動的物体（例えば図３の検索対象３０２）を指定すると、説明図９０１に示すように、その物体の動線情報が得られる。例えば、図３の説明図３０３と同様の動線に関する情報が得られる。次に、クエリ決定部１１５は、得られた動線を一つ以上の部分動線に分割する。図９の例では、分割によって部分動線９０１ａ〜９０１ｅが得られる。

動線の分割は、それぞれの部分動線上の全ての（またはほとんどの）画像が、いずれも、一つの動的物体を概ね同じ方向から撮影した画像であるように（言い換えると、一つの動的物体を概ね同じ方向から撮影した複数の画像の座標を撮影時刻の順に連結したものが一つの部分動線となるように）行うことが望ましい。具体的には、例えば、動線上のそれぞれの画像の撮影時刻に着目して、所定の時間間隔で動線を分割してもよいし、動線の方向の変動を利用して（例えば一つの部分動線内の各地点における動線の進行方向が所定の範囲内に含まれるように）動線を分割してもよい。クエリ決定部１１５は、このようにして得られた部分動線の集合９０２に含まれる各部分動線９０１ａ〜９０１ｅ等から動線特徴量を抽出し、検索可能な状態にしておく。

次に、クエリ決定部１１５は、クエリパラメータ蓄積部１１３に蓄積された各代表動線をクエリとして部分動線の集合に対して最近傍動線探索９０３を行う。最近傍動線探索は、クエリとの特徴量ベクトル間の距離が最も小さくなる要素を集合から見つける処理である。

例えば、説明図３０７の場所２で撮影された映像について、クエリ画像を用いた検索を行おうとする場合、最近傍動線探索９０３では、各代表動線５０２Ａおよび５０２Ｂが動線クエリとなり、それぞれの動線特徴量ベクトルとの距離が最も小さい部分動線が検索される。図９の例では、代表動線５０２Ａおよび５０２Ｂをクエリとした最近傍動線探索９０３によって、それぞれ部分動線９０１ａおよび９０１ｄが得られる。

代表動線５０２Ａの動線特徴量と部分動線９０１ａの動線特徴量との距離が小さいことは、代表動線５０２Ａの類似動線と部分動線９０１ａとが類似していることを意味する。図９の例では、代表動線５０２Ａおよび部分動線９０１ａは、いずれも、動的物体が画面の手前から奥に向けて移動する動きに相当する。

このため、代表動線５０２Ａの類似動線上の動的物体の画像と、部分動線９０１ａ上の動的物体の画像とが、それぞれの動的物体を概ね同一の方向から撮影した画像である可能性が高い。このことは、前者に関する有効な顕著領域の種別と同一の種別の顕著領域が後者にも含まれる可能性が高いことを意味する。代表動線５０２Ｂと部分動線９０１ｄとの関係も同様である。

図９の例では、上記のように、服色の顕著領域が有効な代表動線５０２Ａについては、部分動線９０１ａが、顔の顕著領域が有効な代表動線５０２Ｂについては、部分動線９０１ｄが選ばれる。この場合、説明図９０４に示すように、クエリ決定部１１５は、検索クエリとして、部分動線９０１ａ上の画像から抽出された服色の画像特徴量と、部分動線９０１ｄ上の画像から抽出された顔の画像特徴量とが検索クエリとして決定される。

なお、部分動線内に複数の顕著領域が存在する場合（例えば部分動線を構成する複数のフレームに顕著領域が含まれている場合）には、クエリ決定部１１５は、それらのいずれを選択して、それを検索クエリとして決定してもよいが、さらに他の条件に基づいて、検索クエリとしてより適した顕著領域を選択してもよい。例えば、クエリ決定部１１５は、顕著領域のサイズの大きい場所、または、動的物体の速度の遅い場所（被写体ブレの軽減のため）などを選択してそれを検索クエリと決定しても良い。また、顕著領域の検出モジュールに検出結果の信頼度を出力する機能があれば、その値を使用して、例えば信頼度が高い顕著領域の画像特徴量を検索クエリと決定しても良い。

図１０は、本発明の実施例１に係る映像検索装置１０４が、追跡情報を用いて決定した検索クエリによって類似画像検索を行う処理を説明するフローチャートである。以下、図１０の各ステップについて説明する。

（図１０：ステップＳ１００１）
クエリ決定部１１５は、クエリ入力部１１４を通じてユーザが指定した検索対象３０２の追跡情報を映像データベース１１１から読み出す。これによって、例えば図９の説明図９０１に示すような動線の情報が読み出される。

（図１０：ステップＳ１００２）
クエリ決定部１１５は、ステップＳ１００１で得られた追跡情報を元に、部分動線集合を生成し、各部分動線の動線特徴量を抽出する。これによって、例えば図９に示す部分動線の集合９０２が得られる。

（図１０：ステップＳ１００３）
クエリ決定部１１５は、クエリパラメータ蓄積部１１３から、各撮影場所の各代表動線のパラメータを読み出す。これによって、例えば図９に示す代表動線５０２Ａおよび５０２Ｂのパラメータが読み出される。

（図１０：ステップＳ１００４〜Ｓ１００８）
クエリ決定部１１５は、ステップＳ１００３で読み出された代表動線のパラメータ毎にステップＳ１００４〜Ｓ１００８を実行する。

（図１０：ステップＳ１００５）
クエリ決定部１１５は、部分動線集合から代表動線の特徴量をクエリとして最近傍動線を探索する。この手順は、図９の最近傍動線探索９０３に相当する。

（図１０：ステップＳ１００６）
クエリ決定部１１５は、ステップＳ１００５で得られた最近傍動線上の顕著領域を選択して、その顕著領域の画像特徴量を含む検索クエリを、ステップＳ１００３で読み出された代表動線のパラメータで指定された撮影場所および領域に対する検索クエリとして決定する。これによって、例えば、図９の説明図９０４に示すように、代表動線５０２Ａについては服色の画像特徴量を含む検索クエリが、代表動線５０２Ｂについては顔の画像特徴量を含む検索クエリが決定される。

（図１０：ステップＳ１００７）
類似画像検索部１１６は、ステップＳ１００６で決定された検索クエリを用いて、映像データベース１１１から、類似画像検索結果を取得する。この処理には、一般的な類似画像検索の技術を用いることができる。

（図１０：ステップＳ１００９）
各代表動線のパラメータについてステップＳ１００４〜Ｓ１００８の実行が終了すると、類似画像検索部１１６は、ステップＳ１００４〜Ｓ１００８によって得られた撮影場所ごと、および代表動線ごとの検索結果を統合して、表示装置１０３に表示する。各検索結果は、異なる種別の顕著領域をクエリとした検索結果であるため、類似画像検索部１１６は統合する際に類似度を正規化する。また、撮影場所ごとに分けて検索結果を表示しても良い。

図１１は、本発明の実施例１に係る映像検索システム１００の処理シーケンスを説明する図であり、具体的には、以上に説明した映像検索システム１００の映像登録処理、クエリパラメータ推定処理、検索処理における、ユーザ１１０１、計算機１１０２、映像データベース１１１、クエリパラメータ蓄積部１１３の処理シーケンスを説明する図である。なお、計算機１１０２は、映像検索装置１０４を実現する計算機である。図１１では説明のために映像データベース１１１およびクエリパラメータ蓄積部１１３を計算機１１０２と区別して表示しているが、これらは計算機１１０２に含まれてもよい。図１１のステップＳ１１３２、Ｓ１１３３、Ｓ１１３４はそれぞれ、映像登録処理、クエリパラメータ推定処理、検索処理に関する処理である。以下、図１１の各ステップについて説明する。

［映像登録処理］（図１１：ステップＳ１００３〜Ｓ１１１２）
ユーザ１１０１が映像記憶装置１０１から計算機１１０２に映像を入力すると（Ｓ１１０３）、計算機１１０２では、映像入力部１０５が抽出したフレームを、フレーム登録部１０６が映像データベース１１１に登録し（Ｓ１１０４）、映像データベース１１１が登録完了を通知する（Ｓ１１０５）。

次に、計算機１１０２では、動的物体追跡部１０７が、抽出されたフレーム内の動的物体を検出および追跡し（Ｓ１１０６）、追跡情報登録部１０８が追跡情報を映像データベース１１１に登録し（Ｓ１１０７）、映像データベース１１１が登録完了を通知する（Ｓ１１０８）。さらに、顕著領域検出部１０９が抽出されたフレーム内の顕著領域を検出し（Ｓ１１０９）、顕著領域登録部１１０が顕著領域を映像データベース１１１に登録し（Ｓ１１１０）、映像データベース１１１が登録完了を通知する（Ｓ１１１１）。全てのフレームの処理が終わると、映像登録完了がユーザ１１０１に通知される（Ｓ１１１２）。

［クエリパラメータ推定処理］（図１１：ステップＳ１１１３〜Ｓ１１１９）
ユーザ１１０１が、映像検索装置１０４に対してクエリパラメータ推定処理の要求を出すと（Ｓ１１１３）、計算機１１０２では、クエリパラメータ推定部１１２が撮影場所毎の追跡情報を映像データベース１１１に要求し（Ｓ１１１４）、取得する（Ｓ１１１５）。

クエリパラメータ推定部１１２は、図５〜図８の説明として前述した方法でクエリの決定に必要となるパラメータを導出し（Ｓ１１１６）、クエリパラメータ蓄積部１１３にパラメータを登録し（Ｓ１１１７）、クエリパラメータ蓄積部１１３が登録完了を通知する（Ｓ１１１８）。全ての撮影場所に対して、パラメータ推定処理が終わると、処理完了がユーザ１１０１に通知される（Ｓ１１１９）。

［検索処理］（図１１：ステップＳ１１２０〜Ｓ１１３１）
ユーザ１１０１が、映像データベース１１１に蓄積されたフレームから検索対象の動的物体（例えば検索対象３０２）を指定すると（Ｓ１１２０）、計算機１１０２では、クエリ決定部１１５が、検索対象の動的物体の追跡情報を映像データベース１１１に要求して（Ｓ１１２１）取得し（Ｓ１１２２）、パラメータをクエリパラメータ蓄積部に要求して（Ｓ１１２３）取得する（Ｓ１１２４）。

クエリ決定部１１５は、検索対象の動的物体の追跡情報と、撮影場所毎のクエリパラメータを用いて、図９〜図１０の説明として前述した方法で、撮影場所毎のクエリを決定し（Ｓ１１２５）、ユーザ１１０１に提示する（Ｓ１１２６）。ユーザ１１０１が、提示されたクエリを確認し、検索要求を発行すると（Ｓ１１２７）、計算機１１０２では、類似画像検索部１１６が、決定されたクエリを用いて類似画像検索を行い（Ｓ１１２８）、映像データベース１１１から、類似画像検索結果を取得する（Ｓ１１２９）。計算機１１０２は、必要に応じて複数のクエリから得られた検索結果を統合し（Ｓ１１３０）、ユーザに提示する（Ｓ１１３１）。

図１２は、本発明の実施例１に係る映像検索装置１０４を用いて、映像中の物体を検索する際に使用する操作画面の構成例を表す図である。本画面は、表示装置１０３上でユーザに提示される。ユーザは、入力装置１０２を用いて、画面上に表示されたカーソル１２０７を操作することで、映像検索装置１０４に処理の指示を与える。

図１２の操作画面は、映像選択ボタン１２０１、映像表示領域１２０２、クエリ表示領域１２０３、検索ボタン１２０４、および検索結果表示領域１２０５を有する。

ユーザは、まず、映像選択ボタン１２０１をクリックすることで、映像データベース１１１に記録された任意の映像を選択する。選択された映像は、映像表示領域１２０２に表示される。ユーザは、映像表示領域１２０２に表示された任意の動的物体３０２を検索対象として指定する。

映像検索装置１０４は、図９〜図１０の説明として前述した方法で、指定された動的物体の動線上で適切なクエリを探索し、クエリ表示領域１２０３に表示する。

ユーザは表示されたクエリを確認し、必要であれば調整を行い、検索ボタン１２０４をクリックして検索要求を発行する。

映像検索装置１０４は、各クエリの類似画像検索結果を検索結果表示領域１２０５に表示する。

以上が本発明の実施例１に関する説明である。本実施例によれば、ユーザが容易に検索対象を指定することができ、撮影場所に応じた類似画像検索を実行することができる。また、各撮影場所に限定したクエリのみを用いることで、検索時間を短縮し、検索ノイズを軽減することができる。

実施例１では、映像中の動的物体の追跡情報を用いて、類似画像検索を効率化する方法について述べた。動的物体の追跡は、通常、近接フレーム間の情報のみで対応付けを行うため、物体が長時間静止していた場合、または物体とカメラの間に遮蔽物があった場合等には、追跡が途切れてしまう場合がある。長時間の追跡ができない場合は、それぞれの動線上から得られるクエリの候補数が減ってしまうため、実施例１の効果が十分に発揮されない可能性がある。

そこで実施例２では、映像データベース１１１に蓄積される顕著領域を用いて、追跡情報を補正する方法について述べる。以下に説明する相違点を除き、実施例２の映像検索システム１００の各部は、図１〜図１２に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１３は、本発明の実施例２に係る映像検索システム１００による、顕著領域を用いた追跡情報の補正を説明するための図である。

例えば、説明図１３０１には、ある映像において一定期間内に検出された３つの動線を示す。動線１と動線３は異なる人物の動線である。一方、動線１と動線２は本来同一人物の１本の動線であるはずだが、当該人物が遮蔽物１３０２の奥側を通過したために途中で分断されてしまっている。そのため、図１３の左側に示すように、補正前の映像データベース１１１の追跡情報テーブル２２０および動的物体テーブル２３０には、同一人物の二つの動線が、それぞれ追跡ＩＤ：１および２を付与され、別の動線として記録されている。

そこで本実施例の映像検索システム１００は、各動線上の顕著領域をクエリとして、同一撮影場所の所定時間内の異なる動線上の顕著領域を対象として類似画像検索を行う。この結果、異なる動線上に類似度が所定値以上の顕著領域が見つかれば、それらの動線が同一物体の動線であると判定して、追跡情報を修正する。

図１３の右側に示す補正後の追跡情報テーブル２２０からは、補正前に存在していた追跡ＩＤ：２のエントリが削除され、追跡ＩＤ：２のエントリの動的物体ＩＤリストの内容が追跡ＩＤ：１のエントリに追加されることで、２本の動線が１本に統合される。また、それに対応して、補正前の動的物体テーブル２３０の追跡ＩＤ：２も、図１３の右側に示す補正後の動的物体テーブル２３０に示すように、追跡ＩＤ：１に変更される。図１３のテーブルの太枠で囲んだ部分が本処理の結果修正された箇所である。

図１４は、本発明の実施例２に係る映像検索装置１０４が、顕著領域を用いて追跡情報を補正する処理を説明するフローチャートである。以下、図１４の各ステップについて説明する。

（図１４：ステップＳ１４０１〜Ｓ１４０６）
追跡情報登録部１０８は、所定時間内に検出された各動線についてステップＳ１４０１〜Ｓ１４０６を実行する。

（図１４：ステップＳ１４０２）
追跡情報登録部１０８は、映像データベース１１１から、動線上の顕著領域を読み出す。

（図１４：ステップＳ１４０３）
追跡情報登録部１０８は、顕著領域をクエリとして類似画像検索を行う。

（図１４：ステップＳ１４０４）
追跡情報登録部１０８は、所定時間内の異なる動線上に類似度が所定値以上の顕著領域が存在するか否かを判定し、存在する場合にはステップ１４０５を実行する。

（図１４：ステップＳ１４０５）
追跡情報登録部１０８は、動線を結合し、それに応じて映像データベース１１１の追跡情報テーブル２２０、動的物体テーブル２３０を更新する。

実施例１の方法は、動線毎にクエリを選択するため、動線の特徴量が適切に記述されている必要がある。しかし、動的物体の追跡によって得られる動線の特徴は、あくまで映像中の２次元的な動きを表すものであり、奥行き情報（言い換えると、カメラから動的物体までの距離）は考慮されない。そのため、カメラの設置方法によっては、同様の動線であっても、その動線上の顕著領域の状態が変わってしまう可能性がある。

図１５は、本発明の実施例２に係る映像検索システム１００による、奥行き情報を考慮した追跡情報の補正を説明するための図である。

例えば、図１５の説明図１５０１および１５０２には、それぞれ、場所１および場所２で撮影された映像に含まれる動的物体（この例では人物）の動線と、それぞれの動線上の複数の画像の例を示す。この例において、説明図１５０１に示す動的物体ＩＤ：１〜３の三つの画像は、一つの動的物体を、それぞれ、動線の始点付近、中間点付近および終点付近で撮影した画像である。顕著領域１５０１Ａ〜１５０１Ｃは、それぞれ、動的物体ＩＤ：１〜３の画像の顕著領域（この例では顔）である。同様に、説明図１５０２に示す動的物体ＩＤ：１１〜１３の三つの画像は、一つの動的物体を、それぞれ、動線の始点付近、中間点付近および終点付近で撮影した画像である。顕著領域１５０２Ａ〜１５０２Ｃは、それぞれ、動的物体ＩＤ：１１〜１３の画像の顕著領域である。

これらの二つの動線の形状は一致しているが、説明図１５０１に示す動線の始点から終点に至るまでの動的物体の位置の奥行き方向の変化はほとんどない（言い換えると、動的物体とカメラとの距離はほとんど変化しない）のに対して、説明図１５０２の動的物体は奥から手前に向かって移動している。これは、動線上の顕著領域のサイズ１５０３に示すように、顕著領域１５０１Ａ〜Ｃのサイズがいずれも同じ（例えば１０ｃｍ×１０ｃｍ）であるのに対して、顕著領域１５０２Ａ、ＢおよびＣのサイズが（例えばそれぞれ５ｃｍ×５ｃｍ、７ｃｍ×７ｃｍおよび１０ｃｍ×１０ｃｍのように）変化していることからわかる。

このことは、それぞれの場所において撮影された画面上の座標の変化としての動的物体の移動経路の形は同じであっても、それぞれの撮影場所の空間における三次元座標の変化としての動的物体の実際の移動経路が大きく異なることを意味する。このような場合には、それぞれの動線上の顕著領域の見え方が大きく異なる場合があるため、より適切な検索クエリを選択するためには、撮影場所の空間内の三次元座標の変化としての動的物体の移動経路（すなわち奥行き情報が付与された動線）を使用することが望ましい。

そこで本実施例では、追跡情報登録部１０８が、動線上の顕著領域のサイズ１５０３と、その顕著領域に対する事前知識１５０４とを用いて、動線に奥行き情報を付与する。事前知識１５０４は、種別ごとの顕著領域の標準サイズ、例えば、顕著領域の種別が顔である場合、２５ｃｍ×２５ｃｍなど、に加えて、それぞれの撮影場所におけるカメラの設置位置（特に高さ）、設置方向（特に俯角）およびカメラのレンズの焦点距離等の情報を含む。これらの情報と、実際に撮影された顕著領域のサイズとに基づいて、その顕著領域を含む動的物体のカメラからの距離を推定することができる。

動的物体テーブル２３０は、動的物体の奥行き情報を保持する奥行き特徴量フィールド２３６をさらに有してもよい。例えば、動線上の顕著領域のサイズが１０ｃｍ×１０ｃｍである場合、それと標準サイズ２５ｃｍ×２５ｃｍとの比率「１０／２５」が奥行き特徴量フィールド２３６に保持される。追跡情報登録部１０８は、奥行き特徴量と、上記のカメラの設置位置等に関する事前知識とに基づいて、画面上の動的物体の移動経路を示す動線を、撮影場所の三次元空間内の移動経路を示す動線に変換して、変換後の動線の特徴量を計算する。計算された特徴量は、例えば追跡情報テーブル２２０の奥行きを考慮した動線特徴量２２４に保持される。

図１６は、本発明の実施例２に係る映像検索装置１０４が、顕著領域を用いて追跡情報に奥行き情報を追加する処理を説明するフローチャートである。以下、図１６の各ステップについて説明する。

（図１６：ステップＳ１６０１〜Ｓ１６０７）
追跡情報登録部１０８は、動線上の各動的物体に対してステップＳ１６０１〜Ｓ１６０７を実行する。

（図１６：ステップＳ１６０２）
追跡情報登録部１０８は、図８のステップ８０５と同様の方法で、検出された顕著領域の座標と動的物体の座標との重畳率を調べることで、動線上に顕著領域が存在するかどうかを調べ、顕著領域があればステップＳ１６０３を実行し、なければステップＳ１６０４を実行する。

（図１６：ステップＳ１６０３）
追跡情報登録部１０８は、事前知識１５０４から奥行き特徴を導出する。複数の顕著領域を用いて、奥行き特徴の信頼度をあげることもできる。

（図１６：ステップＳ１６０４）
追跡情報登録部１０８は、顕著領域が検出されなければ、前後の隣接フレームの顕著領域から導出された奥行き情報から、奥行き特徴を補間する。

（図１６：ステップＳ１６０５）
追跡情報登録部１０８は、得られた奥行き情報を映像データベース１１１の動的物体テーブル２３０に追加する。

（図１６：ステップＳ１６０７）
追跡情報登録部１０８は、動線上の全ての動的に関する奥行き情報が得られたら、奥行きを考慮した動線特徴量を抽出し、映像データベース１１１の追跡情報テーブル２２０に追加する。

以上の処理によって抽出された動線特徴量に基づいて検索クエリを決定する方法は、実施例１と同様であるため、説明を省略する。このように、補正された追跡情報を用いることによって、動線特徴量に基づく最近傍動線探索９０３の検索精度をあげることができる。これによって、それぞれの撮影場所の映像により適した検索クエリを決定することができ、その結果として実施例１で述べた物体検索の精度を改善することができる。

実施例１では、同一動線上の別フレームの顕著領域を用いて類似画像検索を行うことで、検索精度を向上させていた。しかし、検索対象物を特徴付ける顕著領域が、その動線上には存在しない場合は、検索で得られる映像が限られてしまう場合がある。実施例３では、ユーザが指定したものとは異なる映像に含まれる検索対象物の顕著領域をユーザに通知する方法について述べる。以下に説明する相違点を除き、実施例３の映像検索システム１００の各部は、図１〜図１２に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１７は、本発明の実施例３における異なる映像に存在するクエリの提示に関する説明図である。

例えば、説明図１７０１には、場所１で撮影された映像から抽出された検索対象の人物の動線を示す。この動線上には検索対象の人物の顔および服色の顕著領域が現れている。これに対して、説明図１７０２には、場所１とは別の場所２で撮影された映像から抽出された、検索対象と同一人物の動線を示す。これらの動線が同一人物のものであることは、それぞれの動線上の顔の顕著領域１７０１Ａおよび１７０２Ａの画像特徴量に基づいて判定される。そして、説明図１７０２の動線上の画像からは、さらに、当該人物の特徴的な所有物（例えばカバン）の顕著領域１７０２Ｂが見つかる。このような異なる映像（例えば異なる場所で撮影された映像または同じ場所で異なる時間帯に撮影された映像など）の顕著領域を、ユーザに通知することができれば、ユーザはより多くの映像を検索することができる。

例えば、説明図１７０３には、場所１および場所２のいずれとも異なる場所３で撮影された映像から抽出された動線を示す。この例において、当該動線は、説明図１７０１および１７０２に示したものと同一人物の動線であるが、この動線上の顕著領域として、顔および服色のいずれも検出されず、カバンの顕著領域１７０３Ａが検出されている。この場合、場所１の映像から抽出された顔または服色の顕著領域の画像特徴量を検索クエリとして用いても、場所３の映像から検索対象の人物を検索することができないが、カバンの顕著領域１７０２Ｂの画像特徴量を検索クエリとして用いれば、当該人物を検索することができる。

画面１７０４および１７０５は、異なる映像に存在する顕著領域をユーザに通知するために表示装置１０３に表示される画面の例である。画面１７０４には、ユーザが検索対象の人物を選んだ映像のフレームが表示される。表示装置１０３は、さらに、上記の方法で別の映像から検出された顕著領域をポップアップで表示しても良い。画面１７０４の例では、別のカメラ（外部カメラ２）で撮影された映像から抽出された、検索対象の人物の所有物であるカバンと、さらに別のカメラ（外部カメラ４）で撮影された映像から検出された、検索対象の人物の所有物である帽子が、それぞれポップアップ１７０４Ａおよび１７０４Ｂによって表示される。

一方、画面１７０５には、異なる映像から検出された顕著領域の間の関係性がグラフ表示される。画面１７０５の例では、場所１を表すノード１７０５Ａと、顔の顕著領域を表すノード１７０５Ｂと、服色の顕著領域を表すノード１７０５Ｃとが表示され、ノード１７０５Ａと１７０５Ｂがエッジで結合され、ノード１７０５Ａと１７０５Ｃもエッジで結合されている。これは、場所１で撮影された検索対象の人物の画像から、顔の顕著領域（例えば顕著領域１７０１Ａ）および服色の顕著領域が検出されたことを示している。

さらに、画面１７０５には、それぞれ場所２、顔の顕著領域、服色の顕著領域およびカバンの顕著領域を表すノード１７０５Ｄ、１７０５Ｅ、１７０５Ｆおよび１７０５Ｇが表示され、ノード１７０５Ｄは、ノード１７０５Ｅ、１７０５Ｆおよび１７０５Ｇのそれぞれとエッジで結合されている。さらに、ノード１７０５Ｅはノード１７０５Ｂと、ノード１７０５Ｆはノード１７０５Ｃと、それぞれエッジで結合されている。これらは、場所２の映像から抽出されたある動線上の顔の顕著領域（例えば顕著領域１７０２Ａ）および服色の顕著領域が、それぞれ、場所１の検索対象の顔の顕著領域（例えば顕著領域１７０１Ａ）および服色の顕著領域と類似しており、その動線上の顕著領域としてカバンの顕著領域（例えば顕著領域１７０２Ｂ）がさらに検出されたことを示している。

さらに、画面１７０５には、それぞれ場所４、顔の顕著領域および帽子の顕著領域を表すノード１７０５Ｈ、１７０５Ｉおよび１７０５Ｊが表示され、ノード１７０５Ｈは、ノード１７０５Ｉおよび１７０５Ｊのそれぞれとエッジで結合されている。さらに、ノード１７０５Ｉはノード１７０５Ｂとエッジで結合されている。これらは、場所４の映像から抽出されたある動線上の顔の顕著領域が、場所１の検索対象の顔の顕著領域（例えば顕著領域１７０１Ａ）と類似しており、その動線上の顕著領域として帽子の顕著領域がさらに検出されたことを示している。

ユーザは、上記の表示を参照して、検索クエリに使用される新たな顕著領域を指定することができる。例えば、ユーザが入力装置１０２を使用してポップアップ１７０４Ａまたはノード１７０５Ｇを指定した場合、カバンの顕著領域の画像特徴量を検索クエリとする類似画像検索が実行される。これによって、場所３のカバンの顕著領域１７０３Ａを含む画像を検索結果として取得することができる。例えば、場所３で撮影された映像には、検索対象の人物の顔も服色も検索可能な程度に映っていないが、カバンは映っている場合、場所１で検出された顔または服色の画像特徴量を用いた類似画像検索では、場所３の映像から当該人物の画像を取得することはできない。しかし、上記のように、場所２で取得されたカバンの画像特徴量を検索クエリとして用いることによって、場所３の映像から当該人物の画像を取得することが可能になる。

図１８は、本発明の実施例３に係る映像検索装置１０４が、異なる映像から新しい種別の顕著領域を探索する処理を説明するフローチャートである。以下、図１８の各ステップについて説明する。

（図１８：ステップＳ１８０１）
クエリ決定部１１５は、ユーザが指定した動的物体から、撮影場所毎にクエリを選択する。この処理は、図１０のステップＳ１００６までの処理と同様である。

（図１８：ステップＳ１８０２〜Ｓ１８０５）
クエリ決定部１１５は、撮影場所毎に選択されたクエリに対して、ステップＳ１８０２〜Ｓ１８０５を実行する。

（図１８：ステップＳ１８０３）
類似画像検索部１１６は、選択されたクエリを用いて指定撮影場所に対して類似画像検索を行う。

（図１８：ステップＳ１８０４）
類似画像検索部１１６は、検索結果が属する動線上に新しい種別の顕著領域が見つかれば、例えば図１７の画面１７０４または１７０５のような表示方法によってユーザに通知する。この通知に基づいてユーザがいずれかの顕著領域を指定した場合、類似画像検索部１１６は、指定された顕著領域の画像特徴量を含む検索クエリを用いて、図１０のステップＳ１００７を実行する。

以上の実施例では、ユーザが指定した物体を検索する用途について説明した。一方で、ユーザが特定の検索対象を想定せず、所定の期間内に出現した全ての物体を効率的に把握したい場合がある。実施例４では、長時間の映像を要約表示する方法について説明する。以下に説明する相違点を除き、実施例４の映像検索システム１００の各部は、図１〜図１２に示された実施例１の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。

図１９は、本発明の実施例４における追跡情報を用いた映像要約を説明するための図である。

映像データベース１１１は、各フレームで検出された動的物体の情報を保持しているため、例えば横軸に時間（フレーム番号）、縦軸に動的物体の検出数をとったグラフ１９０１を生成することができる。ユーザが、入力装置１０２を用いてカーソル１２０７を操作することで、例えば、動的物体が多く存在する時間帯１９０５を選択すると、その時間帯１９０５で検出された全ての動的物体がフレームに重畳表示される。しかしこのままでは、多数の動的物体が混在してしまい、視認性が悪い。説明図１９０２は、表示装置１０３によって表示される画面の例である。この例では、４人の人物の動線上の画像が一つのフレームに表示されているが、それぞれの人物について多数の画像が表示されるため、画面が混雑して視認性が低下する。

そこで、本実施例の映像検索システム１００は、映像データベース１１１の追跡情報を用いて、各動線につき一つの動的物体の画像のみを表示する。動的物体が重なる場合は、重畳させる物体画像を動線上で移動させ、物体同士が重ならないように調整する。説明図１９０３は、本実施例の表示装置１０３によって表示される画面の例である。この例では、ある人物の動線１９０３Ａが表示され、その動線１９０３Ａ上の人物の複数の画像のうち、一つの画像１９０３Ｂのみが表示される。同様に、各人物について、動線と、当該動線上の一つの画像とが表示され、当該動線上の画像は、既に表示されている他の人物の画像と重畳しないように表示される。これによって画面の混雑が解消され、視認性が向上する。

また、実施例１で述べた、クエリ決定の方法を用いて、各動的物体に対してクエリとなる顕著領域を強調表示させることで、各物体をより効率的に把握可能となる。説明図１９０３は、本実施例の表示装置１０３によって表示される画面の別の例である。この例では、ある人物について、動線１９０３Ａおよび動線上の画像１９０３Ｂに加えて、当該動線上の顕著領域１９０４Ａがポップアップ表示される。他の人物についても同様である。

なお、一つの動線上の画像の全てに顕著領域の画像が含まれているとは限らない。本実施例の映像検索システム１００は、各人物の複数の画像のうち表示する一つを選択するときに、顕著領域を含む画像を優先的に選択してもよい。

図２０は、本発明の実施例４に係る映像検索システム１００が実行する追跡情報を用いた映像要約の処理を表すフローチャートである。以下、図２０の各ステップについて説明する。

（図２０：ステップＳ２００１）
クエリ決定部１１５は、ユーザが指定した撮影場所、時間内の全ての動線情報を読み出す。

（図２０：ステップＳ２００２〜Ｓ２００８）
クエリ決定部１１５は、ステップＳ２００１で得られた各動線に対してステップＳ２００２〜Ｓ２００８を実行する。

（図２０：ステップＳ２００３）
クエリ決定部１１５は、動線上のクエリに適する顕著領域を探索する。この処理は、図１０で説明した処理と同様である。

（図２０：ステップＳ２００４）
クエリ決定部１１５は、顕著領域が存在するフレームにおける、動的物体の座標を映像データベース１１１から読み出す。

（図２０：ステップＳ２００５）
クエリ決定部１１５は、ステップＳ２００４で読み出された動的物体の座標の範囲が表示済みの動的物体の座標の範囲と重なるか否かを判定し、重なる場合はステップＳ２００６を実行し、重ならない場合はステップＳ２００７を実行する。

（図２０：ステップＳ２００６）
クエリ決定部１１５は、動的物体の座標を動線上で移動させ、ステップＳ２００５に戻る。

（図２０：ステップＳ２００７）
映像検索装置１０４は、動線上に動的物体の画像を重畳させ、表示装置１０３に表示する。

以上の処理によって、動的物体の追跡情報および顕著領域検出を用いて、指定時間内に出現した動的物体とその顕著領域をユーザが効率的に把握することが可能になる。

なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。

また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１００：映像検索システム
１０１：映像記憶装置
１０２：入力装置
１０３：表示装置
１０４：映像検索装置
１０５：映像入力部
１０６：フレーム登録部
１０７：動的物体追跡部
１０８：追跡情報登録部
１０９：顕著領域検出部
１１０：顕著領域登録部
１１１：映像データベース
１１２：クエリパラメータ推定部
１１３：クエリパラメータ蓄積部
１１４：クエリ入力部
１１５：クエリ決定部
１１６：類似画像検索部

Claims

プロセッサと、前記プロセッサに接続される記憶装置と、を有する映像検索装置であって、
第１の場所で撮影された複数のフレームからなる第１の映像、および、第２の場所で撮影された複数のフレームからなる第２の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納し、
前記第１の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納し、
前記第１の映像から検出された前記選択された移動体の移動経路、および、前記第２の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択し、
前記クエリ画像特徴量を用いて、前記第２の映像から抽出された前記一つ以上の移動体の画像特徴量を検索し、
前記検索の結果を出力することを特徴とする映像検索装置。
請求項１に記載の映像検索装置であって、
前記第２の映像には、複数の前記移動体の画像が含まれ、
前記映像検索装置は、
前記第２の映像から検出した前記複数の移動体の移動経路を、それぞれの移動経路の特徴量に基づいて複数のクラスタに分類して、それぞれのクラスタの移動経路を代表する代表経路を生成し、
前記選択された移動体の移動経路を分割することによって、複数の部分経路を生成し、
前記複数のクラスタの代表経路の特徴量と、前記複数の部分経路の特徴量と、に基づいて、前記複数の部分経路のうち、いずれかの前記代表経路に最も類似する部分経路を検索し、
前記検索によって得られた部分経路上の前記選択された移動体の画像特徴量を前記クエリ画像特徴量として選択することを特徴とする映像検索装置。
請求項１に記載の映像検索装置であって、
前記記憶装置は、前記第１の映像から抽出された第１の移動体および第２の移動体の移動経路に関する情報を格納し、
前記映像検索装置は、さらに、前記第１の移動体の画像特徴量および前記第２の移動体の画像特徴量に基づいて、前記第１の映像から検出された前記第１の移動体の画像と前記第２の移動体の画像とが類似すると判定された場合、前記第２の移動体の移動経路に関する情報を前記第１の移動体の移動経路に関する情報に統合することを特徴とする映像検索装置。
請求項１に記載の映像検索装置であって、
前記選択された移動体の画像および前記第２の映像から検出された移動体の画像がいずれも所定の第１の種別の領域を含み、前記選択された画像に含まれる前記第１の種別の領域の画像と、前記第２の映像から検出された移動体の画像に含まれる前記第１の種別の領域の画像と、が類似し、かつ、前記第２の映像から抽出された移動体の画像がさらに第２の種別の領域を含む場合、前記第２の種別の領域に関する情報を出力することを特徴とする映像検索装置。
請求項１に記載の映像検索装置であって、
表示装置をさらに有し、
いずれかの映像から複数の移動体の画像が検出され、かつ、前記各移動体の複数の画像が検出された場合、前記各移動体の複数の画像の一つを選択し、前記各移動体の前記選択された画像を他の移動体の前記選択された画像と重複しないように表示することを特徴とする映像検索装置。
プロセッサと、前記プロセッサに接続される記憶装置と、を有する映像検索装置が実行する映像検索方法であって、
第１の場所で撮影された複数のフレームからなる第１の映像、および、第２の場所で撮影された複数のフレームからなる第２の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納する第１手順と、
前記第１の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納する第２手順と、
前記第１の映像から検出された前記選択された移動体の移動経路、および、前記第２の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択する第３手順と、
前記クエリ画像特徴量を用いて、前記第２の映像から抽出された前記一つ以上の移動体の画像特徴量を検索する第４手順と、
前記検索の結果を出力する第５手順と、を含むことを特徴とする映像検索方法。
請求項６に記載の映像検索方法であって、
前記第２の映像には、複数の前記移動体の画像が含まれ、
前記第３手順は、
前記第２の映像から検出した前記複数の移動体の移動経路を、それぞれの移動経路の特徴量に基づいて複数のクラスタに分類して、それぞれのクラスタの移動経路を代表する代表経路を生成する手順と、
前記選択された移動体の移動経路を分割することによって、複数の部分経路を生成する手順と、
前記複数のクラスタの代表経路の特徴量と、前記複数の部分経路の特徴量と、に基づいて、前記複数の部分経路のうち、いずれかの前記代表経路に最も類似する部分経路を検索する手順と、
前記検索によって得られた部分経路上の前記選択された移動体の画像特徴量を前記クエリ画像特徴量として選択する手順と、を含むことを特徴とする映像検索方法。
請求項６に記載の映像検索方法であって、
前記記憶装置は、前記第１の映像から抽出された第１の移動体および第２の移動体の移動経路に関する情報を格納し、
前記映像検索方法は、さらに、前記第１の移動体の画像特徴量および前記第２の移動体の画像特徴量に基づいて、前記第１の映像から検出された前記第１の移動体の画像と前記第２の移動体の画像とが類似すると判定された場合、前記第２の移動体の移動経路に関する情報を前記第１の移動体の移動経路に関する情報に統合する手順を含むことを特徴とする映像検索方法。
請求項６に記載の映像検索方法であって、
前記選択された移動体の画像および前記第２の映像から検出された移動体の画像がいずれも所定の第１の種別の領域を含み、前記選択された画像に含まれる前記第１の種別の領域の画像と、前記第２の映像から検出された移動体の画像に含まれる前記第１の種別の領域の画像と、が類似し、かつ、前記第２の映像から抽出された移動体の画像がさらに第２の種別の領域を含む場合、前記第２の種別の領域に関する情報を出力する手順をさらに含むことを特徴とする映像検索方法。
請求項６に記載の映像検索方法であって、
いずれかの映像から複数の移動体の画像が検出され、かつ、前記各移動体の複数の画像が検出された場合、前記各移動体の複数の画像の一つを選択し、前記各移動体の前記選択された画像を他の移動体の前記選択された画像と重複しないように表示する手順をさらに含むことを特徴とする映像検索方法。
計算機を制御するプログラムを格納する非一時的な計算機読み取り可能な記憶媒体であって、
前記計算機は、プロセッサと、前記プロセッサに接続される記憶装置と、を有し、
前記プログラムは、
第１の場所で撮影された複数のフレームからなる第１の映像、および、第２の場所で撮影された複数のフレームからなる第２の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納する第１手順と、
前記第１の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納する第２手順と、
前記第１の映像から検出された前記選択された移動体の移動経路、および、前記第２の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択する第３手順と、
前記クエリ画像特徴量を用いて、前記第２の映像から抽出された前記一つ以上の移動体の画像特徴量を検索する第４手順と、
前記検索の結果を出力する第５手順と、を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。
請求項１１に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記第２の映像には、複数の前記移動体の画像が含まれ、
前記第３手順は、
前記第２の映像から検出した前記複数の移動体の移動経路を、それぞれの移動経路の特徴量に基づいて複数のクラスタに分類して、それぞれのクラスタの移動経路を代表する代表経路を生成する手順と、
前記選択された移動体の移動経路を分割することによって、複数の部分経路を生成する手順と、
前記複数のクラスタの代表経路の特徴量と、前記複数の部分経路の特徴量と、に基づいて、前記複数の部分経路のうち、いずれかの前記代表経路に最も類似する部分経路を検索する手順と、
前記検索によって得られた部分経路上の前記選択された移動体の画像特徴量を前記クエリ画像特徴量として選択する手順と、を含むことを特徴とする非一時的な計算機読み取り可能な記憶媒体。
請求項１１に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記記憶装置は、前記第１の映像から抽出された第１の移動体および第２の移動体の移動経路に関する情報を格納し、
前記プログラムは、さらに、前記第１の移動体の画像特徴量および前記第２の移動体の画像特徴量に基づいて、前記第１の映像から検出された前記第１の移動体の画像と前記第２の移動体の画像とが類似すると判定された場合、前記第２の移動体の移動経路に関する情報を前記第１の移動体の移動経路に関する情報に統合する手順を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。
請求項１１に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記プログラムは、さらに、前記選択された移動体の画像および前記第２の映像から検出された移動体の画像がいずれも所定の第１の種別の領域を含み、前記選択された画像に含まれる前記第１の種別の領域の画像と、前記第２の映像から検出された移動体の画像に含まれる前記第１の種別の領域の画像と、が類似し、かつ、前記第２の映像から抽出された移動体の画像がさらに第２の種別の領域を含む場合、前記第２の種別の領域に関する情報を出力する手順を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。
請求項１１に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記プログラムは、さらに、いずれかの映像から複数の移動体の画像が検出され、かつ、前記各移動体の複数の画像が検出された場合、前記各移動体の複数の画像の一つを選択し、前記各移動体の前記選択された画像を他の移動体の前記選択された画像と重複しないように表示する手順を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。