JP6200306B2 - 映像検索装置、映像検索方法、および記憶媒体 - Google Patents
映像検索装置、映像検索方法、および記憶媒体 Download PDFInfo
- Publication number
- JP6200306B2 JP6200306B2 JP2013253897A JP2013253897A JP6200306B2 JP 6200306 B2 JP6200306 B2 JP 6200306B2 JP 2013253897 A JP2013253897 A JP 2013253897A JP 2013253897 A JP2013253897 A JP 2013253897A JP 6200306 B2 JP6200306 B2 JP 6200306B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- image
- moving
- search
- moving body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Description
本発明は、映像検索技術に関する。
防犯カメラの普及に伴い、多地点で撮影された映像から所望の人物または車両などを探すことへのニーズが高まっている。しかし、従来の防犯カメラシステムの多くは、防犯カメラ、レコーダーおよび再生機からなるシステムであり、蓄積された膨大なデータから所望のシーンを探索することは困難だった。
これに対して、類似画像検索技術を導入したシステムに注目が集まっている。類似画像検索技術を用いると、大量の映像情報の中から、特定の人物または物体の映っているフレームを検索することができる。類似画像検索とは、ユーザによって指定された検索クエリの画像と、外見の特徴が似た画像をデータベースから取得する技術である。物体の類似度の算出には、物体同士を区別するために有効な領域(顕著領域)から特徴量と呼ばれる数値データを抽出し、比較する。防犯カメラシステムに適用する際には、人物の顔または服などの顕著領域から特徴量を抽出する。例えば、特許文献1では、カメラから取得した画像をブロックに分割し、色ヒストグラムにもとづいて、ブロックの特徴量を抽出し、類似画像検索のクエリとしている。
一方で、映像から抽出した連続フレームから動的物体を検出し、フレーム間で動的物体の対応付けを行う技術が知られている。例えば、フレームを小領域に分割し、フレーム間で、それぞれの小領域の動きベクトルを算出することができる。動きベクトルを観測し、同様の動きをする小領域をまとめることで、動的物体を追跡することができる。これによって、フレーム内に存在する限りは、動的物体を追跡することができるため、ユーザの指定した物体を同一映像に含まれる別のフレームから探索することができる。
特許文献1では、ユーザが指定したクエリを使用して検索を行うため、クエリが適切でない場合は、所望の検索結果が得られない可能性がある。また、特許文献1では、クエリの画像を含むフレームの前後のフレームからクエリと類似したブロックを探索し、それら全てを用いてデータベースに類似画像検索を行う方法を示しているが、この方法では、同一の動的物体上の顕著領域であってもユーザ指定のクエリと特徴量が大きく異なる場合は、検索クエリとして選ばれないため、検索結果の改善は限定的である。
上記の課題を解決するために、本発明は、プロセッサと、前記プロセッサに接続される記憶装置と、を有する映像検索装置であって、第1の場所で撮影された複数のフレームからなる第1の映像、および、第2の場所で撮影された複数のフレームからなる第2の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納し、前記第1の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納し、前記第1の映像から検出された前記選択された移動体の移動経路、および、前記第2の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択し、前記クエリ画像特徴量を用いて、前記第2の映像から抽出された前記一つ以上の移動体の画像特徴量を検索し、前記検索の結果を出力することを特徴とする。
本発明に係る映像検索装置によれば、入力された多数の映像から動的物体の追跡と顕著領域の検出を行い、蓄積された追跡情報から撮影場所毎に適したクエリを決定するためのパラメータを推定し、ユーザが探したい物体を指定すると、その物体の動線上から検索に適したクエリ画像を自動的に決定し類似画像検索を行うことで、ユーザがクエリ画像を選別する作業を軽減することができる。また、撮影場所ごとに適したクエリのみが使用されるため、検索速度の向上および検索ノイズの低減といった効果を得ることができる。上記した以外の課題、構成、および効果は、以下の実施形態の説明により明らかになるであろう。
<システム構成>
図1Aは、本発明の実施例1に係る映像検索システム100の構成図である。
映像検索システム100は、ユーザが指定した映像中の物体を、その映像の異なる時間帯から(例えば、ユーザが指定した物体を含むフレームとは別の時刻のフレームから)、または異なる映像から(例えば、ユーザが指定した物体を含む映像とは別の場所で撮影された映像から)検索するためのシステムであり、映像中の動的物体(移動体)の追跡情報を用いて検索に適したクエリ画像を、それを用いた検索が行われる映像の撮影場所ごとに生成することで、検索の速度と精度を向上させることを目的としたシステムである。
映像検索システム100は、映像記憶装置101、入力装置102、表示装置103、および映像検索装置104を備える。
映像記憶装置101は、映像データを保存する記憶媒体であり、コンピュータ内蔵のハードディスクドライブ、または、NAS(Network Attached Storage)もしくはSAN(Storage Area Network)などのネットワークで接続されたストレージシステムを用いて構成することができる。また、映像記憶装置101は、例えば、カメラから継続的に入力される映像データを一時的に保持するキャッシュメモリであっても良い。
なお、映像記憶装置101に保存される映像データは、撮影された動的物体の追跡に利用できるものである限り、どのような形式のデータであってもよい。例えば、保存される映像データは、ビデオカメラで撮影された動画像データであってもよいし、スチルカメラによって所定の間隔で撮影された一連の静止画像データであってもよい。
入力装置102は、マウス、キーボード、タッチデバイスなど、ユーザの操作を映像検索装置104に伝えるための入力インタフェースである。表示装置103は、液晶ディスプレイなどの出力インタフェースであり、映像検索装置104の検索結果の表示、ユーザとの対話的操作などのために用いられる。
映像検索装置104は、与えられた映像データの各フレームから動的物体の追跡と顕著領域を検出し、蓄積する。ユーザが蓄積されたフレームから探したい物体を指定すると、映像検索装置104は、追跡情報を用いてその前後一連のフレーム内から、クエリ画像を用いた検索が行われる映像の撮影場所毎に適したクエリ画像を選択し、類似画像検索を実行する。映像検索装置104が扱う映像は、一箇所以上の場所で撮影された定点観測の映像であることを想定している。また、検索対象の物体は、人物または車両などの任意の動的物体である。映像検索装置104は、映像入力部105、フレーム登録部106、動的物体追跡部107、追跡情報登録部108、顕著領域検出部109、顕著領域登録部110、映像データベース111、クエリパラメータ推定部112、クエリパラメータ蓄積部113、クエリ入力部114、クエリ決定部115、および類似画像検索部116、を備える。
映像入力部105は、映像記憶装置101から、映像データを読み出し、映像検索装置104内部で使用するデータ形式に変換する。具体的には、映像入力部105は、映像(動画データ形式)をフレーム(静止画データ形式)に分解する動画デコード処理を行う。得られたフレームは、フレーム登録部106、動的物体追跡部107、および顕著領域検出部109に送られる。
フレーム登録部106は、抽出されたフレームと抽出元の映像の情報を映像データベース111に書き込む。映像データベース111に記録するデータの詳細については図2の説明として後述する。
動的物体追跡部107は、映像中の動的物体を検出し、前フレームの動的物体との対応付けを行うことによって、動的物体の追跡を行う。動的物体の検出および追跡は、例えばS. Baker and I. Matthews "Lucas-kanade 20 years on: A unifying framework", International Journal of Computer Vision, vol. 53, no. 3, 2004に記載された方法など、任意の方法を用いて実現することができる。得られた動的物体の追跡情報は、各フレームの動的物体の座標情報と各追跡にユニークに付与されるID(追跡ID)で構成される。
追跡情報登録部108は、動的物体追跡部107で得られた各フレームの動的物体の領域から画像特徴量を抽出し、映像データベース111に登録する。画像特徴量は、例えば、固定長のベクトルで表現され、画像の色および形状などの外見の情報を数値化したデータである。また、追跡情報登録部108は、同一の追跡IDが付与された動的物体の座標から、動線(すなわちその動的物体の移動経路)の特徴量を抽出し、映像データベース111に登録する。
顕著領域検出部109は、フレーム中から顕著な領域を検出し、その座標を求める。顕著領域は、アプリケーションによって異なるが、例えば、人物を含む映像であれば顔領域、頭部領域、服色、服の模様、または持ち物であるし、車両を含む映像であればホイール、またはフロントグリルなどである。顕著領域検出部109は物体の種類に応じた顕著領域を抽出するための複数の検出モジュールを含み、映像に出現する物体の種類が限定できない場合は、複数の検出モジュールを同時並列に動作させても良い。
顕著領域登録部110は、検出された各顕著領域から画像特徴量を抽出し、検出元のフレーム情報および当該顕著領域の座標情報と合わせて映像データベース111に登録する。画像特徴量の抽出方法は、顕著領域の種類に応じて変えても良いが、同種の顕著領域については同様の方法で画像特徴量が抽出されなければならない。例えば、顔領域については形状特徴量、服領域には色特徴量を用いることができるが、異なるフレームで検出された顔領域A、Bに対して、Aについては色特徴量を用い、Bについては形状特徴量を用いることはできない。
映像データベース111は、映像、フレーム、追跡情報、動的物体、および顕著領域の情報を保存するためのデータベースである。画像特徴量が与えられた項目については、類似画像検索を行うことができる。類似画像検索は、クエリと画像特徴量が近い順にデータを並び替えて出力する機能である。画像特徴量の比較には、例えば、ベクトル間のユークリッド距離を用いることができる。映像データベース111へのアクセスは、フレーム登録部106、追跡情報登録部108、および顕著領域登録部110からの登録処理、クエリパラメータ推定部112、およびクエリ決定部115からの読み出し処理、並びに、類似画像検索部116からの検索処理の際に発生する。映像データベース111の構造について、詳しくは図2の説明として後述する。
クエリパラメータ推定部112は、映像データベース111に蓄積された追跡情報と顕著領域の情報を用いて、映像の撮影場所毎に適したクエリの種別を決定するためのパラメータを推定する。推定されたパラメータは、クエリパラメータ蓄積部113に保存される。
クエリパラメータ蓄積部113は、映像の撮影場所毎に適したクエリの種別を決定するためのパラメータを保持する。クエリパラメータ蓄積部113の構造について、詳しくは図7の説明として後述する。
クエリ入力部114は、ユーザが映像データベース111に蓄積された映像から探したい物体を指定する際に、入力装置102によって与えられたユーザの操作を、映像検索装置104に伝える。
クエリ決定部115は、ユーザが指定した物体とその追跡情報およびクエリパラメータ蓄積部113から読みだしたパラメータを用いて、映像の撮影場所毎に最適な一つ以上のクエリを決定する。クエリは、動的物体追跡部107で検出された動的物体の領域の画像特徴量か、または、顕著領域検出部109で検出された顕著領域の画像特徴量である。
類似画像検索部116は、クエリ決定部115で選ばれた一つ以上のクエリ画像の特徴量を用いて、それぞれ映像データベース111に対して類似画像検索を実行する。クエリの顕著領域の種別が異なる場合は、異なる尺度での検索結果がえられる。そこで、類似画像検索部116は、例えば、類似度を正規化し、検索結果を統合して表示装置103に出力する。
図1Bは、本発明の実施例1に係る映像検索システム100のハードウェア構成図である。
映像検索装置104は、例えば一般的な計算機によって実現することができる。例えば、映像検索装置104は、相互に接続されたプロセッサ121および記憶装置122を有してもよい。記憶装置122は任意の種類の記憶媒体によって構成される。例えば、記憶装置122は、半導体メモリと、ハードディスクドライブとの組み合わせによって構成されてもよい。
この例において、図1に示した映像入力部105、フレーム登録部106、動的物体追跡部107、追跡情報登録部108、顕著領域検出部109、顕著領域登録部110、クエリパラメータ推定部112、クエリ入力部114、クエリ決定部115および類似画像検索部116といった機能部は、プロセッサ121が記憶装置122に格納された処理プログラム123を実行することによって実現される。言い換えると、この例において、上記の各機能部が実行する処理は、実際には、上記の処理プログラム123に基づいて、プロセッサ121によって実行される。また、映像データベース111およびクエリパラメータ蓄積部113は、記憶装置122に含まれる。
映像検索装置104は、さらに、プロセッサに接続されたネットワークインターフェース装置(NIF)124を含み、映像記憶装置101は、ネットワークインターフェース装置を介して映像検索装置104に接続されたNASまたはSANであってもよい。あるいは、映像記憶装置101は、記憶装置122に含まれてもよい。
図2は、本発明の実施例1に係る映像データベース111の構成およびデータ例を示す図である。ここではテーブル形式の構成例を示すが、データ形式は任意でよい。
映像データベース111は、映像テーブル200、フレームテーブル210、追跡情報テーブル220、動的物体テーブル230、および顕著領域テーブル240からなる。図2のテーブル構成および各テーブルのフィールド構成は、本発明を実施する上で必要となる構成であり、アプリケーションに応じてテーブルおよびフィールドを追加しても良い。
映像テーブル200は、映像IDフィールド201、ファイル名フィールド202、および撮影場所IDフィールド203を有する。映像IDフィールド201は、各映像データの識別番号を保持する。ファイル名フィールド202は、映像記憶装置101から読み込まれた映像データのファイル名を保持する。映像を直接カメラから入力する場合は、ファイル名を省略しても良い。撮影場所IDフィールド203は、定点観測された場所のIDを保持する。映像データのIDと撮影場所との対応は、アプリケーションで管理しても良いし、映像データベースに撮影場所の管理用テーブルを追加することで管理しても良い。固定カメラを使用する場合は、撮影場所IDをカメラIDと読み替えても良い。図2の例のように、一つの撮影場所に対して、複数の映像ファイルが登録されても良い。この場合、当該複数の映像ファイルには、例えば、設置場所および撮影方向が固定された一つのカメラがそれぞれ異なる時間帯に撮影した映像データが含まれる。
フレームテーブル210は、フレームIDフィールド211、映像IDフィールド212および画像データフィールド213を有する。フレームIDフィールドは、映像データから抽出された各フレームの識別番号を保持する。映像IDフィールド212は、フレームの抽出元の映像の識別番号を保持するフィールドであり、この識別番号は、映像テーブル200で管理される映像IDフィールド201に保持される値に対応する。画像データフィールド213は、フレームの静止画像のバイナリデータであり、検索結果などを表示装置103に表示する際に用いられるデータを保持する。
追跡情報テーブル220は、追跡IDフィールド221、動的物体IDリストフィールド222および動線特徴量フィールド223を有する。追跡IDフィールド221は、動的物体追跡部107で各動的物体を追跡するために用いられる識別番号を保持する。動的物体IDリストフィールド222は、同一の追跡IDを有する動的物体IDのリストを有する。動的物体のIDは後述する動的物体テーブル230で管理される識別番号である。動線特徴量フィールド223は、画像中の動的物体の座標の時系列変化から抽出した動線特徴量を保持する。映像によって画像サイズが異なるため、動線特徴量は動的物体の正規化座標から計算する。
動的物体テーブル230は、動的物体IDフィールド231、追跡IDフィールド232、フレームIDフィールド233、座標フィールド234および特徴量フィールド235を有する。動的物体IDフィールド231は、動的物体追跡部107で検出された各動的物体の識別番号(すなわち動的物体ID)を保持する。追跡IDフィールド232は、動的物体追跡部107においてフレーム間で同一の動的物体を対応付けるために使用する識別番号(すなわち追跡ID)を保持する。この識別番号は、追跡情報テーブル220で管理される追跡IDフィールド221に保持された識別番号に対応する。フレームIDフィールド233は、動的物体が検出されたフレームの識別番号を保持する。この識別番号は、フレームテーブル210で管理されるフレームIDフィールド211に保持された識別番号に対応する。座標フィールド234は、動的物体の画像中での座標を保持する。座標は、例えば、動的物体の外接矩形の「左上隅の水平座標、左上隅の垂直座標、右下隅の水平座標、矩形の右下隅の垂直座標」という形式で表現される。特徴量フィールド235は、動的物体の画像から抽出された画像特徴量を保持する。画像特徴量は、例えば、固定長のベクトルで表現される。
なお、動的物体IDは、動的物体そのものを識別するものではなく、動的物体の画像を識別するものである。したがって、同一の動的物体の画像が複数のフレームに含まれる場合には、それらの画像の各々に別の(一意の)動的物体IDが与えられる。例えば、図2に示すように、追跡情報テーブル220の追跡ID:1に対応する動的物体IDリストフィールド222に動的物体ID:1、2および3が保持されている場合、少なくとも、動的物体ID:1、2および3で識別される三つの動的物体の画像(これらは、それぞれ別のフレームに含まれる)が、動的物体追跡部107によって、同一の動的物体の画像であると判定されたことを意味する。
顕著領域テーブル240は、顕著領域IDフィールド241、フレームIDフィールド242、座標フィールド243および特徴量フィールド244を有する。顕著領域IDフィールド241は、顕著領域検出部109で検出された各顕著領域の識別番号を保持する。フレームIDフィールド242は、顕著領域が検出されたフレームの識別番号を保持する。この識別番号は、フレームテーブル210で管理されるフレームIDフィールド211に保持された識別番号に対応する。座標フィールド243は、顕著領域の画像中での座標を保持する。特徴量フィールド244は、顕著領域から抽出された画像特徴量を保持する。顕著領域テーブル240は、システム設計者が定めた顕著領域の種別分だけ用意される。また、顕著領域テーブルを用意せず、動的物体の画像特徴量だけで検索を行うことも可能である。
<各部の動作>
以上、映像検索システム100の全体構成を説明した。以下では映像検索システム100の動作原理を概説した上で、各機能部の詳細動作を説明する。
図3は、本発明の実施例1に係る映像検索システム100の動作を説明するための図である。
映像検索システム100は、映像中の物体を検索する際に、例えば、映像の1フレームを表示し、そのフレームに映っている物体をクエリとして類似画像検索を行う。図3の説明図301は、ユーザが入力フレーム中の検索対象302を選択する様子を表している。検索対象302は、映像中の図示された入力フレームを含む複数のフレームに映っている動的物体である。後述する処理によって、それらの複数のフレームに含まれる検索対象302の画像(すなわち静止画像)のいずれかが検索クエリとして選択される。
検索対象302に付された矢印は、物体の向き(例えば検索対象302が人物である場合、体の正面の方向)を表している。一般に物体の向きが異なると画像特徴量が変化する。また、選択するフレームによっては、検索対象302を特徴付ける領域(顕著領域)がそもそも写っていない場合もある。例えば、人物の場合は、後ろを向いている場合には、特徴となる顔領域が写っていないため、顔特徴を用いた検索はできない。映像中の複数のフレームから類似画像検索に適切なクエリ探す作業は非常に手間がかかり、検索結果を得るまでの所要時間の増加や、検索精度の低下の要因となっていた。
本発明では、動的物体の追跡情報を用いることで、同一の動線上から、一つ以上の適切なクエリを決定し、そのクエリを用いた類似画像検索を行う。説明図303は、検索対象302の追跡情報を画像内で動いた経路(動線)の形で表したものである。具体的には、説明図303に表示された曲線は、映像から抽出された連続フレーム内の検索対象302の画面上の座標を、それぞれのフレームが撮影された時刻の順に連結したものであり、曲線の端の矢印の向きは、検索対象302が移動した方向を示し、説明図303の輪郭は各フレームの輪郭に相当する。また、説明図303に示す動線は、撮影場所を斜め上方向から俯瞰するように撮影した画面上の検索対象302の移動経路である。このため、画面の下側が手前側(すなわち当該撮影場所の撮影範囲のうちカメラに近い側)、画面の上側が奥側(すなわち当該撮影場所の撮影範囲のうちカメラから遠い側)に相当する。以降の説明図においても、特記しない限り、動的物体の動線は上記と同様の方法で表示される。
なお、ある動線が、ある動的物体の画像の移動経路である場合、以下の説明では、当該動的物体を「動線上の動的物体」、当該動的物体の画像を「動線上の画像」、動線上の画像の顕著領域を「動線上の顕著領域」のように記載する場合がある。
説明図303において、例えば、動線上の地点A、B、C、Dにおける検索対象302の画像は、説明図304に示すように、同じ検索対象302(この例では人物)をそれぞれ異なる方向から撮影した画像となり、それぞれの画像に現れた外見が異なるため、異なる画像特徴量が得られる。このようにして得られた複数の画像はいずれも類似画像検索のクエリとして使用可能なクエリ候補であり、得られたクエリ候補を全て用いて、類似画像検索を行っても良い。しかし、上記のような連続フレームからは多数のクエリ候補が得られるため、それらの多数のクエリ候補を用いることで検索時間が増加する。また、検索結果の統合方法(例えば検索結果を表示する順序を決定する方法)についても課題が残る。
これに対して本発明では、撮影場所毎に蓄積された動線情報を用いて、適切なクエリを自動的に決定し、検索回数を軽減する。例えば、説明図305には、ある場所(図3では場所1と記載)で撮影された映像に映っている各動的物体の動線を示す。この例では、動線の矢印が示すように、多くの動的物体が画面上の手前から奥に向かって動くため、この撮影場所で撮影された映像には動的物体の正面の画像が多く含まれていないと考えられる。このため、このような場所で撮影された映像を対象として、例えば人物の顔の特徴のような、物体正面に現れる特徴をクエリとした類似画像検索をすることは難しい。
説明図301に示す入力フレームには、ある方向を向いた検索対象302の画像が含まれている。この画像には、場所1で撮影された映像を検索するクエリとして適切な特徴が含まれているとは限らない。しかし、その前後のフレームには、説明図303および304に示すように、種々の方向を向いた検索対象302の画像が含まれ、それらの一部は、場所1で撮影された映像を検索するクエリとして適切な特徴を含む可能性がある。具体的には、入力フレームを含む連続フレームの中に、場所1における多くの動的物体と同様に、画面上の手前から奥に向かって移動する検索対象302の画像が含まれていれば、その画像には、場所1で撮影された映像を検索するクエリとして適切な特徴が含まれている可能性が高い。
そこで、映像検索システム100は、入力映像の追跡情報から、場所1における多くの動的物体と同様に、検索対象302が画面上奥に向かって動く瞬間を探し、そのときに撮影されたフレームの画像から抽出した、検索対象302の正面以外の顕著領域の特徴を用いて類似画像検索を行う。例えば、検索対象302が人物である場合は、正面の顔特徴ではなく、背面の服色特徴306をクエリとした検索が行われる。一方で、説明図307に示す撮影場所2では、画面上の手前から奥に向かって移動する動的物体の画像だけでなく、画面上の奥から手前に向かって移動する動的物体の画像が撮影されており、後者には顔が映っている可能性が高いため、顔特徴308をクエリとした検索が行われる。
本実施例の効果として、追跡情報を用いて自動的にクエリを増やすため作業コストが軽減し、撮影場所に応じたクエリを選択することで、検索時間を減らすことができる。また、撮影場所毎に顕著な領域を表すクエリのみが選ばれるため、全てのクエリ候補を用いて検索する場合に比べて、検索ノイズを軽減する効果が期待できる。
本発明を実施するためには、まず、映像の蓄積段階において動的物体の追跡と顕著領域の検出を行って、データベースに登録しておく必要がある。また、多数の映像が蓄積された後に、撮影場所ごとに適切なクエリを生成するためのパラメータを導出する必要がある。検索時には、これらの登録情報、蓄積情報を用いて一つ以上のクエリを生成して検索する。以下では、映像の登録、パラメータの導出、検索における、各部の動作についてそれぞれ説明する。
図4は、本発明の実施例1に係る映像検索装置104が、入力された映像を登録する処理を説明するフローチャートである。以下、図4の各ステップについて説明する。
(図4:ステップS401)
映像入力部105は、映像記憶装置101から入力された映像データをデコードし、フレームを静止画として抽出する。
映像入力部105は、映像記憶装置101から入力された映像データをデコードし、フレームを静止画として抽出する。
(図4:ステップS402〜S410)
映像検索装置104内の各部が、ステップS401で抽出された各フレームに対して、ステップS402〜S410を実行する。
映像検索装置104内の各部が、ステップS401で抽出された各フレームに対して、ステップS402〜S410を実行する。
(図4:ステップS403)
フレーム登録部106は、フレームと抽出元の映像情報を映像データベース111に登録する。
フレーム登録部106は、フレームと抽出元の映像情報を映像データベース111に登録する。
(図4:ステップS404)
動的物体追跡部107は、フレームから動的物体を検出する。
動的物体追跡部107は、フレームから動的物体を検出する。
(図4:ステップS405)
動的物体追跡部107は、ステップS404で検出された動的物体が、前フレームにも存在したものであるか否かを判定し、前フレーム(現フレームの一つ前の時刻のフレーム)にも存在したものであれば、追跡情報登録部108がステップS407を実施する。一方、ステップS404で検出された動的物体が、前フレームにも存在したものでない場合、当該動的物体は現フレームで新たに出現した動的物体であるため、追跡情報登録部108がステップS406を実行する。
動的物体追跡部107は、ステップS404で検出された動的物体が、前フレームにも存在したものであるか否かを判定し、前フレーム(現フレームの一つ前の時刻のフレーム)にも存在したものであれば、追跡情報登録部108がステップS407を実施する。一方、ステップS404で検出された動的物体が、前フレームにも存在したものでない場合、当該動的物体は現フレームで新たに出現した動的物体であるため、追跡情報登録部108がステップS406を実行する。
(図4:ステップS406)
追跡情報登録部108は、ステップS405で新たに検出された動的物体を追跡対象として、映像データベース111の追跡情報テーブル220に新規登録する。
追跡情報登録部108は、ステップS405で新たに検出された動的物体を追跡対象として、映像データベース111の追跡情報テーブル220に新規登録する。
(図4:ステップS407)
追跡情報登録部108は、各動的物体から画像特徴量を抽出し、抽出した画像特徴量、ステップS405で特定された前フレームの動的物体と同一の追跡ID、現フレームのフレームID、および現フレームにおける各動的物体の座標を、それぞれ、動的物体テーブル230の特徴量フィールド235、追跡IDフィールド232、フレームIDフィールド233および座標フィールド234に登録する。また、追跡情報登録部108は、得られた動的物体IDを追跡情報テーブル220の動的物体IDリストフィールド222に追加する。
追跡情報登録部108は、各動的物体から画像特徴量を抽出し、抽出した画像特徴量、ステップS405で特定された前フレームの動的物体と同一の追跡ID、現フレームのフレームID、および現フレームにおける各動的物体の座標を、それぞれ、動的物体テーブル230の特徴量フィールド235、追跡IDフィールド232、フレームIDフィールド233および座標フィールド234に登録する。また、追跡情報登録部108は、得られた動的物体IDを追跡情報テーブル220の動的物体IDリストフィールド222に追加する。
(図4:ステップS408)
顕著領域検出部109は、フレームから顕著領域を検出する。複数種類の顕著領域検出モジュールを用意した場合は、検出モジュールの数だけ検出処理を行う。
顕著領域検出部109は、フレームから顕著領域を検出する。複数種類の顕著領域検出モジュールを用意した場合は、検出モジュールの数だけ検出処理を行う。
(図4:ステップS409)
顕著領域登録部110は、ステップS408で検出された顕著領域から画像特徴量を抽出し、映像データベース111の顕著領域テーブル240に登録する。
顕著領域登録部110は、ステップS408で検出された顕著領域から画像特徴量を抽出し、映像データベース111の顕著領域テーブル240に登録する。
ステップS404〜S407と、ステップS408〜S409とは独立した処理であるため、複数の計算リソースを用いて並列に実行しても良い。
以上が、映像の登録処理に関する説明である。次に、登録されたデータを用いて、適切なクエリの決定に用いられるパラメータを推定する処理について説明する。
図5は、本発明の実施例1に係る映像検索装置104が実行するクエリパラメータの推定処理を説明する図である。
一定数以上の映像が映像データベース111に蓄積されると、各撮影場所に関して、多数の動線を得ることができる。説明図501には、例として、図3の説明図307と同様の場所2に関して得られた動線を示す。各動線については追跡情報テーブル220に動線特徴量が保存されている。クエリパラメータ推定部112は、まずこれらの動線特徴量に対してクラスタリング処理を行い、説明図502に太線の矢印で示す代表動線502Aおよび502Bを見つける。クラスタリング処理には、k−means法のような一般的な手法を用いることができる。
次に、クエリパラメータ推定部112は、各クラスタに属する動線上で検出された顕著領域を映像データベース111から取得する。この結果、顕著領域の種別毎に、検出された顕著領域の数、および、検出された顕著領域の画像特徴量の集合が得られる。この段階で検出された数が所定数に満たない種別の顕著領域は除外され、残った顕著領域の中で最も検索に適したものが選ばれる。
検索に適した顕著領域を判定する方法として、例えば、画像特徴量の分散比を用いる方法が考えられる。
図6は、本発明の実施例1に係る映像検索装置104が顕著領域を判定するために使用する画像特徴量の分散比の説明図である。
画像特徴量の分散比は、同一動線内で検出された顕著領域の画像特徴量の分散値(動線内分散)と、動線間の分散値(動線間分散)との比である(分散比=動線間分散/平均動線内分散)。説明図601には、分散比が大きい場合の各動線の顕著領域の画像特徴量の分散の例を模式的に示す。この例では、同一動線内、すなわち同一物体の画像特徴量の時間変動が少なく、動線間、すなわち異なる物体間での画像特徴量の差が大きいため、特徴量ベクトルの検索によって対象物を発見しやすい。
一方、説明図602には、分散比が小さい場合の各動線の顕著領域の画像特徴量の分散の例を模式的に示す。この例では、一つの物体の特徴量空間とそれとは異なる物体の特徴量空間とを分離できないため、本来検索したい対象物とは異なる対象物を誤って発見する可能性が高く、有効な検索結果を得ることは難しい。
クエリパラメータ推定部112は、各顕著領域に対して画像特徴量の分散比を求め、分散比の高くなる顕著領域を選んで、クエリパラメータ蓄積部113に登録する。
図5の例では、説明図501および502に示すように、取得された複数の動線が、画面上の手前から左奥に向かう複数の動線を含むクラスタと、左奥から手前に向かう複数の動線を含むクラスタと、に分類される。この例において、それぞれのクラスタの代表動線502Aおよび502Bは、実際に取得された複数の動線のうちの一つではなく、それぞれのクラスタに含まれる複数の動線から生成された代表的な動線である。また、それぞれのクラスタに含まれる動線を、それぞれのクラスタの代表動線の類似動線とも記載する。
図5の説明図503および505は、それぞれ、代表動線502Aおよび代表動線502Bの類似動線上で検出された顕著領域に関する情報の例を示す。具体的には、説明図503および505には、顕著領域に関する情報の例として、顕著領域の種別、検出されたそれぞれの種別の顕著領域の数、顕著領域の画像の例、および特徴量の分散比が表示されている。図5の例において、各動的物体は人物であるため、顕著領域の種別は「動体」(すなわち動的物体全体)、「顔」および「服色」を含むが、他の種別を含んでもよい。
図5の例において、代表動線502Aの類似動線は、画面上の手前から左奥に向かう動線を多く含むため、種別が「動体」および「服色」である顕著領域は多く検出されるが、種別が「顔」である顕著領域は検出されない。この例では、「動体」より「服色」の画像特徴量の分散比が大きいため、「服色」が検索に適した顕著領域の種別504(以下、「有効な顕著領域の種別」とも記載する)として選択される。一方、代表動線502Aの類似動線は、画面上の左奥から手前に向かう動線を多く含むため、種別が「顔」である十分な数の顕著領域が検出され、その画像特徴量の分散比が最も大きいため、「顔」が有効な顕著領域の種別506として選択される。
より具体的には、例えば検出数および分散値がいずれも所定の値を越えるなど、所定の条件を満たす種別が選択されてもよい。一つのクラスタについて複数の種別が上記の条件を満たす場合、それらの全てが選択されてもよいし、例えば分散値が最大である一つを選択するなど、さらに別の条件に従って種別が絞り込まれてもよい。
図7は、本発明の実施例1に係るクエリパラメータ蓄積部113の構成およびデータ例を示す図である。ここではテーブル形式の構成例を示すが、データ形式は任意でよい。
クエリパラメータ蓄積部113は、パラメータIDフィールド700、撮影場所IDフィールド701、領域座標フィールド702、代表動線特徴量フィールド703、および顕著領域種別フィールド704を有するテーブル構造で表現することができる。
パラメータIDフィールド700は、各パラメータの識別番号(すなわちパラメータID)を保持する。これは、前述した動線のクラスタ毎に与えられるIDである。
撮影場所IDフィールド701は、各撮影場所の識別番号(すなわち撮影場所ID)を保持する。撮影場所IDは、映像データベース111における映像テーブル200の撮影場所IDフィールド203に保持された値に対応する。領域座標フィールド702は、動線のクラスタに属する動線の分布範囲を表す座標を保持する。代表動線特徴量フィールド703は、動線クラスタの平均特徴量(すなわち、動線クラスタに属する動線の動線特徴量の平均)を保持する。顕著領域種別フィールド704は、図5と図6の説明として前述した方法で選択された、一つ以上の有効な顕著領域の種別を保持する。
図8は、本発明の実施例1に係る映像検索装置104が、蓄積されたデータからクエリパラメータを推定する処理を説明するフローチャートである。以下、図8の各ステップについて説明する。
(図8:ステップS801〜S809)
クエリパラメータ推定部112は、各撮影場所を処理対象としてステップS801〜S809を実行する。
クエリパラメータ推定部112は、各撮影場所を処理対象としてステップS801〜S809を実行する。
(図8:ステップS802)
クエリパラメータ推定部112は、処理対象の撮影場所の映像から抽出された追跡情報を、映像データベース111から取得する。これによって、例えば図5の説明図501に示すような動線に関する情報が取得される。
クエリパラメータ推定部112は、処理対象の撮影場所の映像から抽出された追跡情報を、映像データベース111から取得する。これによって、例えば図5の説明図501に示すような動線に関する情報が取得される。
(図8:ステップS803)
クエリパラメータ推定部112は、ステップS802で取得した追跡情報を動線特徴量に基づいてクラスタリングする。これによって、例えば図5に示すように複数の動線が二つのクラスタに分類され、それぞれのクラスタを代表する代表動線502Aおよび502Bが得られる。
クエリパラメータ推定部112は、ステップS802で取得した追跡情報を動線特徴量に基づいてクラスタリングする。これによって、例えば図5に示すように複数の動線が二つのクラスタに分類され、それぞれのクラスタを代表する代表動線502Aおよび502Bが得られる。
(図8:ステップS804〜S808)
クエリパラメータ推定部112は、ステップS803で得られた各クラスタを処理対象としてステップS804〜S808を実行する。
クエリパラメータ推定部112は、ステップS803で得られた各クラスタを処理対象としてステップS804〜S808を実行する。
(図8:ステップS805)
クエリパラメータ推定部112は、処理対象のクラスタに属する追跡情報から、動線上の顕著領域を取得する。例えば、クエリパラメータ推定部112は、ある追跡IDおよびあるフレームIDに対応する動的物体の座標(すなわち座標フィールド234に保持された値)と、それと同一のフレームIDに対応する顕著領域の座標(すなわち座標フィールド243の値)との重畳率が所定値以上である場合に、当該顕著領域が当該追跡IDによって識別される動線上の顕著領域であると判定する。重畳率とは、例えば、顕著領域の座標の範囲の大きさに対する、その範囲と動的物体の座標の範囲との重畳部分の大きさの比率である。このようにして得られた各動線上の顕著領域を処理対象のクラスタについて集計することによって、例えば図5の説明図503または505に示すような顕著領域が取得される。
クエリパラメータ推定部112は、処理対象のクラスタに属する追跡情報から、動線上の顕著領域を取得する。例えば、クエリパラメータ推定部112は、ある追跡IDおよびあるフレームIDに対応する動的物体の座標(すなわち座標フィールド234に保持された値)と、それと同一のフレームIDに対応する顕著領域の座標(すなわち座標フィールド243の値)との重畳率が所定値以上である場合に、当該顕著領域が当該追跡IDによって識別される動線上の顕著領域であると判定する。重畳率とは、例えば、顕著領域の座標の範囲の大きさに対する、その範囲と動的物体の座標の範囲との重畳部分の大きさの比率である。このようにして得られた各動線上の顕著領域を処理対象のクラスタについて集計することによって、例えば図5の説明図503または505に示すような顕著領域が取得される。
(図8:ステップS806)
クエリパラメータ推定部112は、顕著領域の種別ごとに検出数と特徴量の分散値を導出し、図5および図6の説明で述べた方法で有効な顕著領域の種別を推定する。これによって、例えば図5に示す顕著領域の種別504または506等が取得される。
クエリパラメータ推定部112は、顕著領域の種別ごとに検出数と特徴量の分散値を導出し、図5および図6の説明で述べた方法で有効な顕著領域の種別を推定する。これによって、例えば図5に示す顕著領域の種別504または506等が取得される。
(図8:ステップS807)
クエリパラメータ推定部112は、ステップS806で得られたパラメータを、クエリパラメータ蓄積部113に登録する。
クエリパラメータ推定部112は、ステップS806で得られたパラメータを、クエリパラメータ蓄積部113に登録する。
以上が、動的物体の追跡情報を用いて類似画像検索を効率化するための事前処理に関する説明である。以下では、本発明の検索処理について説明する。
図9は、本発明の実施例1に係るクエリ決定部115が、追跡情報を用いて検索クエリを決定する動作を説明する図であり、図3の概念図をより詳細に説明する図である。
ユーザが検索対象の動的物体(例えば図3の検索対象302)を指定すると、説明図901に示すように、その物体の動線情報が得られる。例えば、図3の説明図303と同様の動線に関する情報が得られる。次に、クエリ決定部115は、得られた動線を一つ以上の部分動線に分割する。図9の例では、分割によって部分動線901a〜901eが得られる。
動線の分割は、それぞれの部分動線上の全ての(またはほとんどの)画像が、いずれも、一つの動的物体を概ね同じ方向から撮影した画像であるように(言い換えると、一つの動的物体を概ね同じ方向から撮影した複数の画像の座標を撮影時刻の順に連結したものが一つの部分動線となるように)行うことが望ましい。具体的には、例えば、動線上のそれぞれの画像の撮影時刻に着目して、所定の時間間隔で動線を分割してもよいし、動線の方向の変動を利用して(例えば一つの部分動線内の各地点における動線の進行方向が所定の範囲内に含まれるように)動線を分割してもよい。クエリ決定部115は、このようにして得られた部分動線の集合902に含まれる各部分動線901a〜901e等から動線特徴量を抽出し、検索可能な状態にしておく。
次に、クエリ決定部115は、クエリパラメータ蓄積部113に蓄積された各代表動線をクエリとして部分動線の集合に対して最近傍動線探索903を行う。最近傍動線探索は、クエリとの特徴量ベクトル間の距離が最も小さくなる要素を集合から見つける処理である。
例えば、説明図307の場所2で撮影された映像について、クエリ画像を用いた検索を行おうとする場合、最近傍動線探索903では、各代表動線502Aおよび502Bが動線クエリとなり、それぞれの動線特徴量ベクトルとの距離が最も小さい部分動線が検索される。図9の例では、代表動線502Aおよび502Bをクエリとした最近傍動線探索903によって、それぞれ部分動線901aおよび901dが得られる。
代表動線502Aの動線特徴量と部分動線901aの動線特徴量との距離が小さいことは、代表動線502Aの類似動線と部分動線901aとが類似していることを意味する。図9の例では、代表動線502Aおよび部分動線901aは、いずれも、動的物体が画面の手前から奥に向けて移動する動きに相当する。
このため、代表動線502Aの類似動線上の動的物体の画像と、部分動線901a上の動的物体の画像とが、それぞれの動的物体を概ね同一の方向から撮影した画像である可能性が高い。このことは、前者に関する有効な顕著領域の種別と同一の種別の顕著領域が後者にも含まれる可能性が高いことを意味する。代表動線502Bと部分動線901dとの関係も同様である。
図9の例では、上記のように、服色の顕著領域が有効な代表動線502Aについては、部分動線901aが、顔の顕著領域が有効な代表動線502Bについては、部分動線901dが選ばれる。この場合、説明図904に示すように、クエリ決定部115は、検索クエリとして、部分動線901a上の画像から抽出された服色の画像特徴量と、部分動線901d上の画像から抽出された顔の画像特徴量とが検索クエリとして決定される。
なお、部分動線内に複数の顕著領域が存在する場合(例えば部分動線を構成する複数のフレームに顕著領域が含まれている場合)には、クエリ決定部115は、それらのいずれを選択して、それを検索クエリとして決定してもよいが、さらに他の条件に基づいて、検索クエリとしてより適した顕著領域を選択してもよい。例えば、クエリ決定部115は、顕著領域のサイズの大きい場所、または、動的物体の速度の遅い場所(被写体ブレの軽減のため)などを選択してそれを検索クエリと決定しても良い。また、顕著領域の検出モジュールに検出結果の信頼度を出力する機能があれば、その値を使用して、例えば信頼度が高い顕著領域の画像特徴量を検索クエリと決定しても良い。
図10は、本発明の実施例1に係る映像検索装置104が、追跡情報を用いて決定した検索クエリによって類似画像検索を行う処理を説明するフローチャートである。以下、図10の各ステップについて説明する。
(図10:ステップS1001)
クエリ決定部115は、クエリ入力部114を通じてユーザが指定した検索対象302の追跡情報を映像データベース111から読み出す。これによって、例えば図9の説明図901に示すような動線の情報が読み出される。
クエリ決定部115は、クエリ入力部114を通じてユーザが指定した検索対象302の追跡情報を映像データベース111から読み出す。これによって、例えば図9の説明図901に示すような動線の情報が読み出される。
(図10:ステップS1002)
クエリ決定部115は、ステップS1001で得られた追跡情報を元に、部分動線集合を生成し、各部分動線の動線特徴量を抽出する。これによって、例えば図9に示す部分動線の集合902が得られる。
クエリ決定部115は、ステップS1001で得られた追跡情報を元に、部分動線集合を生成し、各部分動線の動線特徴量を抽出する。これによって、例えば図9に示す部分動線の集合902が得られる。
(図10:ステップS1003)
クエリ決定部115は、クエリパラメータ蓄積部113から、各撮影場所の各代表動線のパラメータを読み出す。これによって、例えば図9に示す代表動線502Aおよび502Bのパラメータが読み出される。
クエリ決定部115は、クエリパラメータ蓄積部113から、各撮影場所の各代表動線のパラメータを読み出す。これによって、例えば図9に示す代表動線502Aおよび502Bのパラメータが読み出される。
(図10:ステップS1004〜S1008)
クエリ決定部115は、ステップS1003で読み出された代表動線のパラメータ毎にステップS1004〜S1008を実行する。
クエリ決定部115は、ステップS1003で読み出された代表動線のパラメータ毎にステップS1004〜S1008を実行する。
(図10:ステップS1005)
クエリ決定部115は、部分動線集合から代表動線の特徴量をクエリとして最近傍動線を探索する。この手順は、図9の最近傍動線探索903に相当する。
クエリ決定部115は、部分動線集合から代表動線の特徴量をクエリとして最近傍動線を探索する。この手順は、図9の最近傍動線探索903に相当する。
(図10:ステップS1006)
クエリ決定部115は、ステップS1005で得られた最近傍動線上の顕著領域を選択して、その顕著領域の画像特徴量を含む検索クエリを、ステップS1003で読み出された代表動線のパラメータで指定された撮影場所および領域に対する検索クエリとして決定する。これによって、例えば、図9の説明図904に示すように、代表動線502Aについては服色の画像特徴量を含む検索クエリが、代表動線502Bについては顔の画像特徴量を含む検索クエリが決定される。
クエリ決定部115は、ステップS1005で得られた最近傍動線上の顕著領域を選択して、その顕著領域の画像特徴量を含む検索クエリを、ステップS1003で読み出された代表動線のパラメータで指定された撮影場所および領域に対する検索クエリとして決定する。これによって、例えば、図9の説明図904に示すように、代表動線502Aについては服色の画像特徴量を含む検索クエリが、代表動線502Bについては顔の画像特徴量を含む検索クエリが決定される。
(図10:ステップS1007)
類似画像検索部116は、ステップS1006で決定された検索クエリを用いて、映像データベース111から、類似画像検索結果を取得する。この処理には、一般的な類似画像検索の技術を用いることができる。
類似画像検索部116は、ステップS1006で決定された検索クエリを用いて、映像データベース111から、類似画像検索結果を取得する。この処理には、一般的な類似画像検索の技術を用いることができる。
(図10:ステップS1009)
各代表動線のパラメータについてステップS1004〜S1008の実行が終了すると、類似画像検索部116は、ステップS1004〜S1008によって得られた撮影場所ごと、および代表動線ごとの検索結果を統合して、表示装置103に表示する。各検索結果は、異なる種別の顕著領域をクエリとした検索結果であるため、類似画像検索部116は統合する際に類似度を正規化する。また、撮影場所ごとに分けて検索結果を表示しても良い。
各代表動線のパラメータについてステップS1004〜S1008の実行が終了すると、類似画像検索部116は、ステップS1004〜S1008によって得られた撮影場所ごと、および代表動線ごとの検索結果を統合して、表示装置103に表示する。各検索結果は、異なる種別の顕著領域をクエリとした検索結果であるため、類似画像検索部116は統合する際に類似度を正規化する。また、撮影場所ごとに分けて検索結果を表示しても良い。
図11は、本発明の実施例1に係る映像検索システム100の処理シーケンスを説明する図であり、具体的には、以上に説明した映像検索システム100の映像登録処理、クエリパラメータ推定処理、検索処理における、ユーザ1101、計算機1102、映像データベース111、クエリパラメータ蓄積部113の処理シーケンスを説明する図である。なお、計算機1102は、映像検索装置104を実現する計算機である。図11では説明のために映像データベース111およびクエリパラメータ蓄積部113を計算機1102と区別して表示しているが、これらは計算機1102に含まれてもよい。図11のステップS1132、S1133、S1134はそれぞれ、映像登録処理、クエリパラメータ推定処理、検索処理に関する処理である。以下、図11の各ステップについて説明する。
[映像登録処理](図11:ステップS1003〜S1112)
ユーザ1101が映像記憶装置101から計算機1102に映像を入力すると(S1103)、計算機1102では、映像入力部105が抽出したフレームを、フレーム登録部106が映像データベース111に登録し(S1104)、映像データベース111が登録完了を通知する(S1105)。
ユーザ1101が映像記憶装置101から計算機1102に映像を入力すると(S1103)、計算機1102では、映像入力部105が抽出したフレームを、フレーム登録部106が映像データベース111に登録し(S1104)、映像データベース111が登録完了を通知する(S1105)。
次に、計算機1102では、動的物体追跡部107が、抽出されたフレーム内の動的物体を検出および追跡し(S1106)、追跡情報登録部108が追跡情報を映像データベース111に登録し(S1107)、映像データベース111が登録完了を通知する(S1108)。さらに、顕著領域検出部109が抽出されたフレーム内の顕著領域を検出し(S1109)、顕著領域登録部110が顕著領域を映像データベース111に登録し(S1110)、映像データベース111が登録完了を通知する(S1111)。全てのフレームの処理が終わると、映像登録完了がユーザ1101に通知される(S1112)。
[クエリパラメータ推定処理](図11:ステップS1113〜S1119)
ユーザ1101が、映像検索装置104に対してクエリパラメータ推定処理の要求を出すと(S1113)、計算機1102では、クエリパラメータ推定部112が撮影場所毎の追跡情報を映像データベース111に要求し(S1114)、取得する(S1115)。
ユーザ1101が、映像検索装置104に対してクエリパラメータ推定処理の要求を出すと(S1113)、計算機1102では、クエリパラメータ推定部112が撮影場所毎の追跡情報を映像データベース111に要求し(S1114)、取得する(S1115)。
クエリパラメータ推定部112は、図5〜図8の説明として前述した方法でクエリの決定に必要となるパラメータを導出し(S1116)、クエリパラメータ蓄積部113にパラメータを登録し(S1117)、クエリパラメータ蓄積部113が登録完了を通知する(S1118)。全ての撮影場所に対して、パラメータ推定処理が終わると、処理完了がユーザ1101に通知される(S1119)。
[検索処理](図11:ステップS1120〜S1131)
ユーザ1101が、映像データベース111に蓄積されたフレームから検索対象の動的物体(例えば検索対象302)を指定すると(S1120)、計算機1102では、クエリ決定部115が、検索対象の動的物体の追跡情報を映像データベース111に要求して(S1121)取得し(S1122)、パラメータをクエリパラメータ蓄積部に要求して(S1123)取得する(S1124)。
ユーザ1101が、映像データベース111に蓄積されたフレームから検索対象の動的物体(例えば検索対象302)を指定すると(S1120)、計算機1102では、クエリ決定部115が、検索対象の動的物体の追跡情報を映像データベース111に要求して(S1121)取得し(S1122)、パラメータをクエリパラメータ蓄積部に要求して(S1123)取得する(S1124)。
クエリ決定部115は、検索対象の動的物体の追跡情報と、撮影場所毎のクエリパラメータを用いて、図9〜図10の説明として前述した方法で、撮影場所毎のクエリを決定し(S1125)、ユーザ1101に提示する(S1126)。ユーザ1101が、提示されたクエリを確認し、検索要求を発行すると(S1127)、計算機1102では、類似画像検索部116が、決定されたクエリを用いて類似画像検索を行い(S1128)、映像データベース111から、類似画像検索結果を取得する(S1129)。計算機1102は、必要に応じて複数のクエリから得られた検索結果を統合し(S1130)、ユーザに提示する(S1131)。
図12は、本発明の実施例1に係る映像検索装置104を用いて、映像中の物体を検索する際に使用する操作画面の構成例を表す図である。本画面は、表示装置103上でユーザに提示される。ユーザは、入力装置102を用いて、画面上に表示されたカーソル1207を操作することで、映像検索装置104に処理の指示を与える。
図12の操作画面は、映像選択ボタン1201、映像表示領域1202、クエリ表示領域1203、検索ボタン1204、および検索結果表示領域1205を有する。
ユーザは、まず、映像選択ボタン1201をクリックすることで、映像データベース111に記録された任意の映像を選択する。選択された映像は、映像表示領域1202に表示される。ユーザは、映像表示領域1202に表示された任意の動的物体302を検索対象として指定する。
映像検索装置104は、図9〜図10の説明として前述した方法で、指定された動的物体の動線上で適切なクエリを探索し、クエリ表示領域1203に表示する。
ユーザは表示されたクエリを確認し、必要であれば調整を行い、検索ボタン1204をクリックして検索要求を発行する。
映像検索装置104は、各クエリの類似画像検索結果を検索結果表示領域1205に表示する。
以上が本発明の実施例1に関する説明である。本実施例によれば、ユーザが容易に検索対象を指定することができ、撮影場所に応じた類似画像検索を実行することができる。また、各撮影場所に限定したクエリのみを用いることで、検索時間を短縮し、検索ノイズを軽減することができる。
実施例1では、映像中の動的物体の追跡情報を用いて、類似画像検索を効率化する方法について述べた。動的物体の追跡は、通常、近接フレーム間の情報のみで対応付けを行うため、物体が長時間静止していた場合、または物体とカメラの間に遮蔽物があった場合等には、追跡が途切れてしまう場合がある。長時間の追跡ができない場合は、それぞれの動線上から得られるクエリの候補数が減ってしまうため、実施例1の効果が十分に発揮されない可能性がある。
そこで実施例2では、映像データベース111に蓄積される顕著領域を用いて、追跡情報を補正する方法について述べる。以下に説明する相違点を除き、実施例2の映像検索システム100の各部は、図1〜図12に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
図13は、本発明の実施例2に係る映像検索システム100による、顕著領域を用いた追跡情報の補正を説明するための図である。
例えば、説明図1301には、ある映像において一定期間内に検出された3つの動線を示す。動線1と動線3は異なる人物の動線である。一方、動線1と動線2は本来同一人物の1本の動線であるはずだが、当該人物が遮蔽物1302の奥側を通過したために途中で分断されてしまっている。そのため、図13の左側に示すように、補正前の映像データベース111の追跡情報テーブル220および動的物体テーブル230には、同一人物の二つの動線が、それぞれ追跡ID:1および2を付与され、別の動線として記録されている。
そこで本実施例の映像検索システム100は、各動線上の顕著領域をクエリとして、同一撮影場所の所定時間内の異なる動線上の顕著領域を対象として類似画像検索を行う。この結果、異なる動線上に類似度が所定値以上の顕著領域が見つかれば、それらの動線が同一物体の動線であると判定して、追跡情報を修正する。
図13の右側に示す補正後の追跡情報テーブル220からは、補正前に存在していた追跡ID:2のエントリが削除され、追跡ID:2のエントリの動的物体IDリストの内容が追跡ID:1のエントリに追加されることで、2本の動線が1本に統合される。また、それに対応して、補正前の動的物体テーブル230の追跡ID:2も、図13の右側に示す補正後の動的物体テーブル230に示すように、追跡ID:1に変更される。図13のテーブルの太枠で囲んだ部分が本処理の結果修正された箇所である。
図14は、本発明の実施例2に係る映像検索装置104が、顕著領域を用いて追跡情報を補正する処理を説明するフローチャートである。以下、図14の各ステップについて説明する。
(図14:ステップS1401〜S1406)
追跡情報登録部108は、所定時間内に検出された各動線についてステップS1401〜S1406を実行する。
追跡情報登録部108は、所定時間内に検出された各動線についてステップS1401〜S1406を実行する。
(図14:ステップS1402)
追跡情報登録部108は、映像データベース111から、動線上の顕著領域を読み出す。
追跡情報登録部108は、映像データベース111から、動線上の顕著領域を読み出す。
(図14:ステップS1403)
追跡情報登録部108は、顕著領域をクエリとして類似画像検索を行う。
追跡情報登録部108は、顕著領域をクエリとして類似画像検索を行う。
(図14:ステップS1404)
追跡情報登録部108は、所定時間内の異なる動線上に類似度が所定値以上の顕著領域が存在するか否かを判定し、存在する場合にはステップ1405を実行する。
追跡情報登録部108は、所定時間内の異なる動線上に類似度が所定値以上の顕著領域が存在するか否かを判定し、存在する場合にはステップ1405を実行する。
(図14:ステップS1405)
追跡情報登録部108は、動線を結合し、それに応じて映像データベース111の追跡情報テーブル220、動的物体テーブル230を更新する。
追跡情報登録部108は、動線を結合し、それに応じて映像データベース111の追跡情報テーブル220、動的物体テーブル230を更新する。
実施例1の方法は、動線毎にクエリを選択するため、動線の特徴量が適切に記述されている必要がある。しかし、動的物体の追跡によって得られる動線の特徴は、あくまで映像中の2次元的な動きを表すものであり、奥行き情報(言い換えると、カメラから動的物体までの距離)は考慮されない。そのため、カメラの設置方法によっては、同様の動線であっても、その動線上の顕著領域の状態が変わってしまう可能性がある。
図15は、本発明の実施例2に係る映像検索システム100による、奥行き情報を考慮した追跡情報の補正を説明するための図である。
例えば、図15の説明図1501および1502には、それぞれ、場所1および場所2で撮影された映像に含まれる動的物体(この例では人物)の動線と、それぞれの動線上の複数の画像の例を示す。この例において、説明図1501に示す動的物体ID:1〜3の三つの画像は、一つの動的物体を、それぞれ、動線の始点付近、中間点付近および終点付近で撮影した画像である。顕著領域1501A〜1501Cは、それぞれ、動的物体ID:1〜3の画像の顕著領域(この例では顔)である。同様に、説明図1502に示す動的物体ID:11〜13の三つの画像は、一つの動的物体を、それぞれ、動線の始点付近、中間点付近および終点付近で撮影した画像である。顕著領域1502A〜1502Cは、それぞれ、動的物体ID:11〜13の画像の顕著領域である。
これらの二つの動線の形状は一致しているが、説明図1501に示す動線の始点から終点に至るまでの動的物体の位置の奥行き方向の変化はほとんどない(言い換えると、動的物体とカメラとの距離はほとんど変化しない)のに対して、説明図1502の動的物体は奥から手前に向かって移動している。これは、動線上の顕著領域のサイズ1503に示すように、顕著領域1501A〜Cのサイズがいずれも同じ(例えば10cm×10cm)であるのに対して、顕著領域1502A、BおよびCのサイズが(例えばそれぞれ5cm×5cm、7cm×7cmおよび10cm×10cmのように)変化していることからわかる。
このことは、それぞれの場所において撮影された画面上の座標の変化としての動的物体の移動経路の形は同じであっても、それぞれの撮影場所の空間における三次元座標の変化としての動的物体の実際の移動経路が大きく異なることを意味する。このような場合には、それぞれの動線上の顕著領域の見え方が大きく異なる場合があるため、より適切な検索クエリを選択するためには、撮影場所の空間内の三次元座標の変化としての動的物体の移動経路(すなわち奥行き情報が付与された動線)を使用することが望ましい。
そこで本実施例では、追跡情報登録部108が、動線上の顕著領域のサイズ1503と、その顕著領域に対する事前知識1504とを用いて、動線に奥行き情報を付与する。事前知識1504は、種別ごとの顕著領域の標準サイズ、例えば、顕著領域の種別が顔である場合、25cm×25cmなど、に加えて、それぞれの撮影場所におけるカメラの設置位置(特に高さ)、設置方向(特に俯角)およびカメラのレンズの焦点距離等の情報を含む。これらの情報と、実際に撮影された顕著領域のサイズとに基づいて、その顕著領域を含む動的物体のカメラからの距離を推定することができる。
動的物体テーブル230は、動的物体の奥行き情報を保持する奥行き特徴量フィールド236をさらに有してもよい。例えば、動線上の顕著領域のサイズが10cm×10cmである場合、それと標準サイズ25cm×25cmとの比率「10/25」が奥行き特徴量フィールド236に保持される。追跡情報登録部108は、奥行き特徴量と、上記のカメラの設置位置等に関する事前知識とに基づいて、画面上の動的物体の移動経路を示す動線を、撮影場所の三次元空間内の移動経路を示す動線に変換して、変換後の動線の特徴量を計算する。計算された特徴量は、例えば追跡情報テーブル220の奥行きを考慮した動線特徴量224に保持される。
図16は、本発明の実施例2に係る映像検索装置104が、顕著領域を用いて追跡情報に奥行き情報を追加する処理を説明するフローチャートである。以下、図16の各ステップについて説明する。
(図16:ステップS1601〜S1607)
追跡情報登録部108は、動線上の各動的物体に対してステップS1601〜S1607を実行する。
追跡情報登録部108は、動線上の各動的物体に対してステップS1601〜S1607を実行する。
(図16:ステップS1602)
追跡情報登録部108は、図8のステップ805と同様の方法で、検出された顕著領域の座標と動的物体の座標との重畳率を調べることで、動線上に顕著領域が存在するかどうかを調べ、顕著領域があればステップS1603を実行し、なければステップS1604を実行する。
追跡情報登録部108は、図8のステップ805と同様の方法で、検出された顕著領域の座標と動的物体の座標との重畳率を調べることで、動線上に顕著領域が存在するかどうかを調べ、顕著領域があればステップS1603を実行し、なければステップS1604を実行する。
(図16:ステップS1603)
追跡情報登録部108は、事前知識1504から奥行き特徴を導出する。複数の顕著領域を用いて、奥行き特徴の信頼度をあげることもできる。
追跡情報登録部108は、事前知識1504から奥行き特徴を導出する。複数の顕著領域を用いて、奥行き特徴の信頼度をあげることもできる。
(図16:ステップS1604)
追跡情報登録部108は、顕著領域が検出されなければ、前後の隣接フレームの顕著領域から導出された奥行き情報から、奥行き特徴を補間する。
追跡情報登録部108は、顕著領域が検出されなければ、前後の隣接フレームの顕著領域から導出された奥行き情報から、奥行き特徴を補間する。
(図16:ステップS1605)
追跡情報登録部108は、得られた奥行き情報を映像データベース111の動的物体テーブル230に追加する。
追跡情報登録部108は、得られた奥行き情報を映像データベース111の動的物体テーブル230に追加する。
(図16:ステップS1607)
追跡情報登録部108は、動線上の全ての動的に関する奥行き情報が得られたら、奥行きを考慮した動線特徴量を抽出し、映像データベース111の追跡情報テーブル220に追加する。
追跡情報登録部108は、動線上の全ての動的に関する奥行き情報が得られたら、奥行きを考慮した動線特徴量を抽出し、映像データベース111の追跡情報テーブル220に追加する。
以上の処理によって抽出された動線特徴量に基づいて検索クエリを決定する方法は、実施例1と同様であるため、説明を省略する。このように、補正された追跡情報を用いることによって、動線特徴量に基づく最近傍動線探索903の検索精度をあげることができる。これによって、それぞれの撮影場所の映像により適した検索クエリを決定することができ、その結果として実施例1で述べた物体検索の精度を改善することができる。
実施例1では、同一動線上の別フレームの顕著領域を用いて類似画像検索を行うことで、検索精度を向上させていた。しかし、検索対象物を特徴付ける顕著領域が、その動線上には存在しない場合は、検索で得られる映像が限られてしまう場合がある。実施例3では、ユーザが指定したものとは異なる映像に含まれる検索対象物の顕著領域をユーザに通知する方法について述べる。以下に説明する相違点を除き、実施例3の映像検索システム100の各部は、図1〜図12に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
図17は、本発明の実施例3における異なる映像に存在するクエリの提示に関する説明図である。
例えば、説明図1701には、場所1で撮影された映像から抽出された検索対象の人物の動線を示す。この動線上には検索対象の人物の顔および服色の顕著領域が現れている。これに対して、説明図1702には、場所1とは別の場所2で撮影された映像から抽出された、検索対象と同一人物の動線を示す。これらの動線が同一人物のものであることは、それぞれの動線上の顔の顕著領域1701Aおよび1702Aの画像特徴量に基づいて判定される。そして、説明図1702の動線上の画像からは、さらに、当該人物の特徴的な所有物(例えばカバン)の顕著領域1702Bが見つかる。このような異なる映像(例えば異なる場所で撮影された映像または同じ場所で異なる時間帯に撮影された映像など)の顕著領域を、ユーザに通知することができれば、ユーザはより多くの映像を検索することができる。
例えば、説明図1703には、場所1および場所2のいずれとも異なる場所3で撮影された映像から抽出された動線を示す。この例において、当該動線は、説明図1701および1702に示したものと同一人物の動線であるが、この動線上の顕著領域として、顔および服色のいずれも検出されず、カバンの顕著領域1703Aが検出されている。この場合、場所1の映像から抽出された顔または服色の顕著領域の画像特徴量を検索クエリとして用いても、場所3の映像から検索対象の人物を検索することができないが、カバンの顕著領域1702Bの画像特徴量を検索クエリとして用いれば、当該人物を検索することができる。
画面1704および1705は、異なる映像に存在する顕著領域をユーザに通知するために表示装置103に表示される画面の例である。画面1704には、ユーザが検索対象の人物を選んだ映像のフレームが表示される。表示装置103は、さらに、上記の方法で別の映像から検出された顕著領域をポップアップで表示しても良い。画面1704の例では、別のカメラ(外部カメラ2)で撮影された映像から抽出された、検索対象の人物の所有物であるカバンと、さらに別のカメラ(外部カメラ4)で撮影された映像から検出された、検索対象の人物の所有物である帽子が、それぞれポップアップ1704Aおよび1704Bによって表示される。
一方、画面1705には、異なる映像から検出された顕著領域の間の関係性がグラフ表示される。画面1705の例では、場所1を表すノード1705Aと、顔の顕著領域を表すノード1705Bと、服色の顕著領域を表すノード1705Cとが表示され、ノード1705Aと1705Bがエッジで結合され、ノード1705Aと1705Cもエッジで結合されている。これは、場所1で撮影された検索対象の人物の画像から、顔の顕著領域(例えば顕著領域1701A)および服色の顕著領域が検出されたことを示している。
さらに、画面1705には、それぞれ場所2、顔の顕著領域、服色の顕著領域およびカバンの顕著領域を表すノード1705D、1705E、1705Fおよび1705Gが表示され、ノード1705Dは、ノード1705E、1705Fおよび1705Gのそれぞれとエッジで結合されている。さらに、ノード1705Eはノード1705Bと、ノード1705Fはノード1705Cと、それぞれエッジで結合されている。これらは、場所2の映像から抽出されたある動線上の顔の顕著領域(例えば顕著領域1702A)および服色の顕著領域が、それぞれ、場所1の検索対象の顔の顕著領域(例えば顕著領域1701A)および服色の顕著領域と類似しており、その動線上の顕著領域としてカバンの顕著領域(例えば顕著領域1702B)がさらに検出されたことを示している。
さらに、画面1705には、それぞれ場所4、顔の顕著領域および帽子の顕著領域を表すノード1705H、1705Iおよび1705Jが表示され、ノード1705Hは、ノード1705Iおよび1705Jのそれぞれとエッジで結合されている。さらに、ノード1705Iはノード1705Bとエッジで結合されている。これらは、場所4の映像から抽出されたある動線上の顔の顕著領域が、場所1の検索対象の顔の顕著領域(例えば顕著領域1701A)と類似しており、その動線上の顕著領域として帽子の顕著領域がさらに検出されたことを示している。
ユーザは、上記の表示を参照して、検索クエリに使用される新たな顕著領域を指定することができる。例えば、ユーザが入力装置102を使用してポップアップ1704Aまたはノード1705Gを指定した場合、カバンの顕著領域の画像特徴量を検索クエリとする類似画像検索が実行される。これによって、場所3のカバンの顕著領域1703Aを含む画像を検索結果として取得することができる。例えば、場所3で撮影された映像には、検索対象の人物の顔も服色も検索可能な程度に映っていないが、カバンは映っている場合、場所1で検出された顔または服色の画像特徴量を用いた類似画像検索では、場所3の映像から当該人物の画像を取得することはできない。しかし、上記のように、場所2で取得されたカバンの画像特徴量を検索クエリとして用いることによって、場所3の映像から当該人物の画像を取得することが可能になる。
図18は、本発明の実施例3に係る映像検索装置104が、異なる映像から新しい種別の顕著領域を探索する処理を説明するフローチャートである。以下、図18の各ステップについて説明する。
(図18:ステップS1801)
クエリ決定部115は、ユーザが指定した動的物体から、撮影場所毎にクエリを選択する。この処理は、図10のステップS1006までの処理と同様である。
クエリ決定部115は、ユーザが指定した動的物体から、撮影場所毎にクエリを選択する。この処理は、図10のステップS1006までの処理と同様である。
(図18:ステップS1802〜S1805)
クエリ決定部115は、撮影場所毎に選択されたクエリに対して、ステップS1802〜S1805を実行する。
クエリ決定部115は、撮影場所毎に選択されたクエリに対して、ステップS1802〜S1805を実行する。
(図18:ステップS1803)
類似画像検索部116は、選択されたクエリを用いて指定撮影場所に対して類似画像検索を行う。
類似画像検索部116は、選択されたクエリを用いて指定撮影場所に対して類似画像検索を行う。
(図18:ステップS1804)
類似画像検索部116は、検索結果が属する動線上に新しい種別の顕著領域が見つかれば、例えば図17の画面1704または1705のような表示方法によってユーザに通知する。この通知に基づいてユーザがいずれかの顕著領域を指定した場合、類似画像検索部116は、指定された顕著領域の画像特徴量を含む検索クエリを用いて、図10のステップS1007を実行する。
類似画像検索部116は、検索結果が属する動線上に新しい種別の顕著領域が見つかれば、例えば図17の画面1704または1705のような表示方法によってユーザに通知する。この通知に基づいてユーザがいずれかの顕著領域を指定した場合、類似画像検索部116は、指定された顕著領域の画像特徴量を含む検索クエリを用いて、図10のステップS1007を実行する。
以上の実施例では、ユーザが指定した物体を検索する用途について説明した。一方で、ユーザが特定の検索対象を想定せず、所定の期間内に出現した全ての物体を効率的に把握したい場合がある。実施例4では、長時間の映像を要約表示する方法について説明する。以下に説明する相違点を除き、実施例4の映像検索システム100の各部は、図1〜図12に示された実施例1の同一の符号を付された各部と同一の機能を有するため、それらの説明は省略する。
図19は、本発明の実施例4における追跡情報を用いた映像要約を説明するための図である。
映像データベース111は、各フレームで検出された動的物体の情報を保持しているため、例えば横軸に時間(フレーム番号)、縦軸に動的物体の検出数をとったグラフ1901を生成することができる。ユーザが、入力装置102を用いてカーソル1207を操作することで、例えば、動的物体が多く存在する時間帯1905を選択すると、その時間帯1905で検出された全ての動的物体がフレームに重畳表示される。しかしこのままでは、多数の動的物体が混在してしまい、視認性が悪い。説明図1902は、表示装置103によって表示される画面の例である。この例では、4人の人物の動線上の画像が一つのフレームに表示されているが、それぞれの人物について多数の画像が表示されるため、画面が混雑して視認性が低下する。
そこで、本実施例の映像検索システム100は、映像データベース111の追跡情報を用いて、各動線につき一つの動的物体の画像のみを表示する。動的物体が重なる場合は、重畳させる物体画像を動線上で移動させ、物体同士が重ならないように調整する。説明図1903は、本実施例の表示装置103によって表示される画面の例である。この例では、ある人物の動線1903Aが表示され、その動線1903A上の人物の複数の画像のうち、一つの画像1903Bのみが表示される。同様に、各人物について、動線と、当該動線上の一つの画像とが表示され、当該動線上の画像は、既に表示されている他の人物の画像と重畳しないように表示される。これによって画面の混雑が解消され、視認性が向上する。
また、実施例1で述べた、クエリ決定の方法を用いて、各動的物体に対してクエリとなる顕著領域を強調表示させることで、各物体をより効率的に把握可能となる。説明図1903は、本実施例の表示装置103によって表示される画面の別の例である。この例では、ある人物について、動線1903Aおよび動線上の画像1903Bに加えて、当該動線上の顕著領域1904Aがポップアップ表示される。他の人物についても同様である。
なお、一つの動線上の画像の全てに顕著領域の画像が含まれているとは限らない。本実施例の映像検索システム100は、各人物の複数の画像のうち表示する一つを選択するときに、顕著領域を含む画像を優先的に選択してもよい。
図20は、本発明の実施例4に係る映像検索システム100が実行する追跡情報を用いた映像要約の処理を表すフローチャートである。以下、図20の各ステップについて説明する。
(図20:ステップS2001)
クエリ決定部115は、ユーザが指定した撮影場所、時間内の全ての動線情報を読み出す。
クエリ決定部115は、ユーザが指定した撮影場所、時間内の全ての動線情報を読み出す。
(図20:ステップS2002〜S2008)
クエリ決定部115は、ステップS2001で得られた各動線に対してステップS2002〜S2008を実行する。
クエリ決定部115は、ステップS2001で得られた各動線に対してステップS2002〜S2008を実行する。
(図20:ステップS2003)
クエリ決定部115は、動線上のクエリに適する顕著領域を探索する。この処理は、図10で説明した処理と同様である。
クエリ決定部115は、動線上のクエリに適する顕著領域を探索する。この処理は、図10で説明した処理と同様である。
(図20:ステップS2004)
クエリ決定部115は、顕著領域が存在するフレームにおける、動的物体の座標を映像データベース111から読み出す。
クエリ決定部115は、顕著領域が存在するフレームにおける、動的物体の座標を映像データベース111から読み出す。
(図20:ステップS2005)
クエリ決定部115は、ステップS2004で読み出された動的物体の座標の範囲が表示済みの動的物体の座標の範囲と重なるか否かを判定し、重なる場合はステップS2006を実行し、重ならない場合はステップS2007を実行する。
クエリ決定部115は、ステップS2004で読み出された動的物体の座標の範囲が表示済みの動的物体の座標の範囲と重なるか否かを判定し、重なる場合はステップS2006を実行し、重ならない場合はステップS2007を実行する。
(図20:ステップS2006)
クエリ決定部115は、動的物体の座標を動線上で移動させ、ステップS2005に戻る。
クエリ決定部115は、動的物体の座標を動線上で移動させ、ステップS2005に戻る。
(図20:ステップS2007)
映像検索装置104は、動線上に動的物体の画像を重畳させ、表示装置103に表示する。
映像検索装置104は、動線上に動的物体の画像を重畳させ、表示装置103に表示する。
以上の処理によって、動的物体の追跡情報および顕著領域検出を用いて、指定時間内に出現した動的物体とその顕著領域をユーザが効率的に把握することが可能になる。
なお、本発明は上述した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によってハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによってソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスクドライブ、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の計算機読み取り可能な非一時的データ記憶媒体に格納することができる。
また、図面には、実施例を説明するために必要と考えられる制御線及び情報線を示しており、必ずしも、本発明が適用された実際の製品に含まれる全ての制御線及び情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
100:映像検索システム
101:映像記憶装置
102:入力装置
103:表示装置
104:映像検索装置
105:映像入力部
106:フレーム登録部
107:動的物体追跡部
108:追跡情報登録部
109:顕著領域検出部
110:顕著領域登録部
111:映像データベース
112:クエリパラメータ推定部
113:クエリパラメータ蓄積部
114:クエリ入力部
115:クエリ決定部
116:類似画像検索部
101:映像記憶装置
102:入力装置
103:表示装置
104:映像検索装置
105:映像入力部
106:フレーム登録部
107:動的物体追跡部
108:追跡情報登録部
109:顕著領域検出部
110:顕著領域登録部
111:映像データベース
112:クエリパラメータ推定部
113:クエリパラメータ蓄積部
114:クエリ入力部
115:クエリ決定部
116:類似画像検索部
Claims (15)
- プロセッサと、前記プロセッサに接続される記憶装置と、を有する映像検索装置であって、
第1の場所で撮影された複数のフレームからなる第1の映像、および、第2の場所で撮影された複数のフレームからなる第2の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納し、
前記第1の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納し、
前記第1の映像から検出された前記選択された移動体の移動経路、および、前記第2の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択し、
前記クエリ画像特徴量を用いて、前記第2の映像から抽出された前記一つ以上の移動体の画像特徴量を検索し、
前記検索の結果を出力することを特徴とする映像検索装置。 - 請求項1に記載の映像検索装置であって、
前記第2の映像には、複数の前記移動体の画像が含まれ、
前記映像検索装置は、
前記第2の映像から検出した前記複数の移動体の移動経路を、それぞれの移動経路の特徴量に基づいて複数のクラスタに分類して、それぞれのクラスタの移動経路を代表する代表経路を生成し、
前記選択された移動体の移動経路を分割することによって、複数の部分経路を生成し、
前記複数のクラスタの代表経路の特徴量と、前記複数の部分経路の特徴量と、に基づいて、前記複数の部分経路のうち、いずれかの前記代表経路に最も類似する部分経路を検索し、
前記検索によって得られた部分経路上の前記選択された移動体の画像特徴量を前記クエリ画像特徴量として選択することを特徴とする映像検索装置。 - 請求項1に記載の映像検索装置であって、
前記記憶装置は、前記第1の映像から抽出された第1の移動体および第2の移動体の移動経路に関する情報を格納し、
前記映像検索装置は、さらに、前記第1の移動体の画像特徴量および前記第2の移動体の画像特徴量に基づいて、前記第1の映像から検出された前記第1の移動体の画像と前記第2の移動体の画像とが類似すると判定された場合、前記第2の移動体の移動経路に関する情報を前記第1の移動体の移動経路に関する情報に統合することを特徴とする映像検索装置。 - 請求項1に記載の映像検索装置であって、
前記選択された移動体の画像および前記第2の映像から検出された移動体の画像がいずれも所定の第1の種別の領域を含み、前記選択された画像に含まれる前記第1の種別の領域の画像と、前記第2の映像から検出された移動体の画像に含まれる前記第1の種別の領域の画像と、が類似し、かつ、前記第2の映像から抽出された移動体の画像がさらに第2の種別の領域を含む場合、前記第2の種別の領域に関する情報を出力することを特徴とする映像検索装置。 - 請求項1に記載の映像検索装置であって、
表示装置をさらに有し、
いずれかの映像から複数の移動体の画像が検出され、かつ、前記各移動体の複数の画像が検出された場合、前記各移動体の複数の画像の一つを選択し、前記各移動体の前記選択された画像を他の移動体の前記選択された画像と重複しないように表示することを特徴とする映像検索装置。 - プロセッサと、前記プロセッサに接続される記憶装置と、を有する映像検索装置が実行する映像検索方法であって、
第1の場所で撮影された複数のフレームからなる第1の映像、および、第2の場所で撮影された複数のフレームからなる第2の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納する第1手順と、
前記第1の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納する第2手順と、
前記第1の映像から検出された前記選択された移動体の移動経路、および、前記第2の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択する第3手順と、
前記クエリ画像特徴量を用いて、前記第2の映像から抽出された前記一つ以上の移動体の画像特徴量を検索する第4手順と、
前記検索の結果を出力する第5手順と、を含むことを特徴とする映像検索方法。 - 請求項6に記載の映像検索方法であって、
前記第2の映像には、複数の前記移動体の画像が含まれ、
前記第3手順は、
前記第2の映像から検出した前記複数の移動体の移動経路を、それぞれの移動経路の特徴量に基づいて複数のクラスタに分類して、それぞれのクラスタの移動経路を代表する代表経路を生成する手順と、
前記選択された移動体の移動経路を分割することによって、複数の部分経路を生成する手順と、
前記複数のクラスタの代表経路の特徴量と、前記複数の部分経路の特徴量と、に基づいて、前記複数の部分経路のうち、いずれかの前記代表経路に最も類似する部分経路を検索する手順と、
前記検索によって得られた部分経路上の前記選択された移動体の画像特徴量を前記クエリ画像特徴量として選択する手順と、を含むことを特徴とする映像検索方法。 - 請求項6に記載の映像検索方法であって、
前記記憶装置は、前記第1の映像から抽出された第1の移動体および第2の移動体の移動経路に関する情報を格納し、
前記映像検索方法は、さらに、前記第1の移動体の画像特徴量および前記第2の移動体の画像特徴量に基づいて、前記第1の映像から検出された前記第1の移動体の画像と前記第2の移動体の画像とが類似すると判定された場合、前記第2の移動体の移動経路に関する情報を前記第1の移動体の移動経路に関する情報に統合する手順を含むことを特徴とする映像検索方法。 - 請求項6に記載の映像検索方法であって、
前記選択された移動体の画像および前記第2の映像から検出された移動体の画像がいずれも所定の第1の種別の領域を含み、前記選択された画像に含まれる前記第1の種別の領域の画像と、前記第2の映像から検出された移動体の画像に含まれる前記第1の種別の領域の画像と、が類似し、かつ、前記第2の映像から抽出された移動体の画像がさらに第2の種別の領域を含む場合、前記第2の種別の領域に関する情報を出力する手順をさらに含むことを特徴とする映像検索方法。 - 請求項6に記載の映像検索方法であって、
いずれかの映像から複数の移動体の画像が検出され、かつ、前記各移動体の複数の画像が検出された場合、前記各移動体の複数の画像の一つを選択し、前記各移動体の前記選択された画像を他の移動体の前記選択された画像と重複しないように表示する手順をさらに含むことを特徴とする映像検索方法。 - 計算機を制御するプログラムを格納する非一時的な計算機読み取り可能な記憶媒体であって、
前記計算機は、プロセッサと、前記プロセッサに接続される記憶装置と、を有し、
前記プログラムは、
第1の場所で撮影された複数のフレームからなる第1の映像、および、第2の場所で撮影された複数のフレームからなる第2の映像のそれぞれから、一つ以上の移動体の移動経路を検出して前記記憶装置に格納する第1手順と、
前記第1の映像から検出された前記一つ以上の移動体のうち選択された移動体の、前記フレームごとの画像特徴量を抽出して前記記憶装置に格納する第2手順と、
前記第1の映像から検出された前記選択された移動体の移動経路、および、前記第2の映像から検出された前記一つ以上の移動体の移動経路に基づいて、前記抽出した画像特徴量のうち、検索クエリとして使用するクエリ画像特徴量を選択する第3手順と、
前記クエリ画像特徴量を用いて、前記第2の映像から抽出された前記一つ以上の移動体の画像特徴量を検索する第4手順と、
前記検索の結果を出力する第5手順と、を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。 - 請求項11に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記第2の映像には、複数の前記移動体の画像が含まれ、
前記第3手順は、
前記第2の映像から検出した前記複数の移動体の移動経路を、それぞれの移動経路の特徴量に基づいて複数のクラスタに分類して、それぞれのクラスタの移動経路を代表する代表経路を生成する手順と、
前記選択された移動体の移動経路を分割することによって、複数の部分経路を生成する手順と、
前記複数のクラスタの代表経路の特徴量と、前記複数の部分経路の特徴量と、に基づいて、前記複数の部分経路のうち、いずれかの前記代表経路に最も類似する部分経路を検索する手順と、
前記検索によって得られた部分経路上の前記選択された移動体の画像特徴量を前記クエリ画像特徴量として選択する手順と、を含むことを特徴とする非一時的な計算機読み取り可能な記憶媒体。 - 請求項11に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記記憶装置は、前記第1の映像から抽出された第1の移動体および第2の移動体の移動経路に関する情報を格納し、
前記プログラムは、さらに、前記第1の移動体の画像特徴量および前記第2の移動体の画像特徴量に基づいて、前記第1の映像から検出された前記第1の移動体の画像と前記第2の移動体の画像とが類似すると判定された場合、前記第2の移動体の移動経路に関する情報を前記第1の移動体の移動経路に関する情報に統合する手順を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。 - 請求項11に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記プログラムは、さらに、前記選択された移動体の画像および前記第2の映像から検出された移動体の画像がいずれも所定の第1の種別の領域を含み、前記選択された画像に含まれる前記第1の種別の領域の画像と、前記第2の映像から検出された移動体の画像に含まれる前記第1の種別の領域の画像と、が類似し、かつ、前記第2の映像から抽出された移動体の画像がさらに第2の種別の領域を含む場合、前記第2の種別の領域に関する情報を出力する手順を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。 - 請求項11に記載の非一時的な計算機読み取り可能な記憶媒体であって、
前記プログラムは、さらに、いずれかの映像から複数の移動体の画像が検出され、かつ、前記各移動体の複数の画像が検出された場合、前記各移動体の複数の画像の一つを選択し、前記各移動体の前記選択された画像を他の移動体の前記選択された画像と重複しないように表示する手順を前記プロセッサに実行させることを特徴とする非一時的な計算機読み取り可能な記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253897A JP6200306B2 (ja) | 2013-12-09 | 2013-12-09 | 映像検索装置、映像検索方法、および記憶媒体 |
PCT/JP2014/082373 WO2015087820A1 (ja) | 2013-12-09 | 2014-12-08 | 映像検索装置、映像検索方法、および記憶媒体 |
CN201480053657.2A CN105593850B (zh) | 2013-12-09 | 2014-12-08 | 影像检索装置、影像检索方法以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253897A JP6200306B2 (ja) | 2013-12-09 | 2013-12-09 | 映像検索装置、映像検索方法、および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015114685A JP2015114685A (ja) | 2015-06-22 |
JP6200306B2 true JP6200306B2 (ja) | 2017-09-20 |
Family
ID=53371125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013253897A Active JP6200306B2 (ja) | 2013-12-09 | 2013-12-09 | 映像検索装置、映像検索方法、および記憶媒体 |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6200306B2 (ja) |
CN (1) | CN105593850B (ja) |
WO (1) | WO2015087820A1 (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017017808A1 (ja) * | 2015-07-29 | 2017-02-02 | 株式会社日立製作所 | 画像処理システム、画像処理方法及び記憶媒体 |
CN105357475A (zh) * | 2015-10-28 | 2016-02-24 | 小米科技有限责任公司 | 用于视频播放的方法及装置 |
US10956773B2 (en) | 2017-03-02 | 2021-03-23 | Ricoh Company, Ltd. | Computation of audience metrics focalized on displayed content |
US10943122B2 (en) | 2017-03-02 | 2021-03-09 | Ricoh Company, Ltd. | Focalized behavioral measurements in a video stream |
US10949705B2 (en) | 2017-03-02 | 2021-03-16 | Ricoh Company, Ltd. | Focalized behavioral measurements in a video stream |
US10949463B2 (en) | 2017-03-02 | 2021-03-16 | Ricoh Company, Ltd. | Behavioral measurements in a video stream focalized on keywords |
US10956494B2 (en) | 2017-03-02 | 2021-03-23 | Ricoh Company, Ltd. | Behavioral measurements in a video stream focalized on keywords |
US10708635B2 (en) | 2017-03-02 | 2020-07-07 | Ricoh Company, Ltd. | Subsumption architecture for processing fragments of a video stream |
US10713391B2 (en) | 2017-03-02 | 2020-07-14 | Ricoh Co., Ltd. | Tamper protection and video source identification for video processing pipeline |
US10929685B2 (en) | 2017-03-02 | 2021-02-23 | Ricoh Company, Ltd. | Analysis of operator behavior focalized on machine events |
US10719552B2 (en) | 2017-03-02 | 2020-07-21 | Ricoh Co., Ltd. | Focalized summarizations of a video stream |
US10929707B2 (en) | 2017-03-02 | 2021-02-23 | Ricoh Company, Ltd. | Computation of audience metrics focalized on displayed content |
US10956495B2 (en) | 2017-03-02 | 2021-03-23 | Ricoh Company, Ltd. | Analysis of operator behavior focalized on machine events |
US10720182B2 (en) | 2017-03-02 | 2020-07-21 | Ricoh Company, Ltd. | Decomposition of a video stream into salient fragments |
GB2573703B (en) * | 2017-03-06 | 2020-09-09 | Mitsubishi Electric Corp | Object tracking device and object tracking method |
CN106934041B (zh) * | 2017-03-16 | 2019-12-06 | 中煤航测遥感集团有限公司 | 影像文件管理方法及装置 |
EP3489842A1 (de) | 2017-11-23 | 2019-05-29 | PKE Holding AG | Forensische datenbank |
TWI692731B (zh) | 2019-01-02 | 2020-05-01 | 瑞昱半導體股份有限公司 | 物件位置判斷電路 |
CN112215940B (zh) | 2019-07-11 | 2024-01-19 | 台达电子工业股份有限公司 | 场景模型的建构系统及其建构方法 |
TWI699661B (zh) * | 2019-07-11 | 2020-07-21 | 台達電子工業股份有限公司 | 場景模型之建構系統及其建構方法 |
KR102436618B1 (ko) * | 2019-07-19 | 2022-08-25 | 미쓰비시덴키 가부시키가이샤 | 표시 처리 장치, 표시 처리 방법 및 기억 매체 |
JP2021179728A (ja) * | 2020-05-12 | 2021-11-18 | 株式会社日立製作所 | 映像処理装置、及び、その方法 |
US11657123B2 (en) | 2020-10-08 | 2023-05-23 | Hitachi, Ltd. | Method and apparatus for people flow analysis using similar-image search |
JP2022133547A (ja) * | 2021-03-02 | 2022-09-14 | 株式会社日立製作所 | 映像解析システム、及び映像解析方法 |
JP7200279B2 (ja) * | 2021-03-03 | 2023-01-06 | 三菱電機インフォメーションシステムズ株式会社 | 検知装置、検知方法、検知プログラム及び検知システム |
JP2022148811A (ja) * | 2021-03-24 | 2022-10-06 | 株式会社日立製作所 | 物体追跡システムおよび方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072398B2 (en) * | 2000-12-06 | 2006-07-04 | Kai-Kuang Ma | System and method for motion vector generation and analysis of digital video clips |
JP4984728B2 (ja) * | 2006-08-07 | 2012-07-25 | パナソニック株式会社 | 被写体照合装置および被写体照合方法 |
JP2009271577A (ja) * | 2008-04-30 | 2009-11-19 | Panasonic Corp | 類似画像検索の結果表示装置及び類似画像検索の結果表示方法 |
JP5180922B2 (ja) * | 2009-07-09 | 2013-04-10 | 株式会社日立製作所 | 画像検索システム及び画像検索方法 |
CN102663359B (zh) * | 2012-03-30 | 2014-04-09 | 博康智能网络科技股份有限公司 | 一种基于物联网进行行人检索的方法及系统 |
-
2013
- 2013-12-09 JP JP2013253897A patent/JP6200306B2/ja active Active
-
2014
- 2014-12-08 WO PCT/JP2014/082373 patent/WO2015087820A1/ja active Application Filing
- 2014-12-08 CN CN201480053657.2A patent/CN105593850B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105593850A (zh) | 2016-05-18 |
CN105593850B (zh) | 2019-04-19 |
JP2015114685A (ja) | 2015-06-22 |
WO2015087820A1 (ja) | 2015-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6200306B2 (ja) | 映像検索装置、映像検索方法、および記憶媒体 | |
US10074186B2 (en) | Image search system, image search apparatus, and image search method | |
Wang et al. | Panda: A gigapixel-level human-centric video dataset | |
Jafari et al. | Real-time RGB-D based people detection and tracking for mobile robots and head-worn cameras | |
JP6961363B2 (ja) | 情報処理システム、情報処理方法及びプログラム | |
US20190208177A1 (en) | Three-dimensional model generating device and three-dimensional model generating method | |
JP5227911B2 (ja) | 監視映像検索装置及び監視システム | |
JP6516832B2 (ja) | 画像検索装置、システム及び方法 | |
JP5381569B2 (ja) | ジェスチャ認識装置、ジェスチャ認識方法、およびジェスチャ認識プログラム | |
JP6184271B2 (ja) | 撮像管理装置、撮像管理システムの制御方法およびプログラム | |
JP6194963B2 (ja) | 映像処理システム | |
JP6393424B2 (ja) | 画像処理システム、画像処理方法及び記憶媒体 | |
US20200236300A1 (en) | Image processing system, image processing method, and program | |
JP2013092955A (ja) | 映像解析装置及びシステム | |
CN115249356B (zh) | 识别方法、装置、设备及存储介质 | |
JP2019036346A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JP6077425B2 (ja) | 映像管理装置及びプログラム | |
JP5887194B2 (ja) | 蝟集監視装置および蝟集監視プログラム | |
KR101289883B1 (ko) | 영역 별로 임계치를 다르게 적용한 마스크 이미지 생성 장치 및 그 방법 | |
JP2017016356A (ja) | 画像処理装置、画像処理方法及びプログラム | |
Shal’nov et al. | Estimation of the people position in the world coordinate system for video surveillance | |
Pollok et al. | Computer vision meets visual analytics: Enabling 4D crime scene investigation from image and video data | |
Wang et al. | Spatiotemporal coherence-based annotation placement for surveillance videos | |
KR102629213B1 (ko) | 경사 촬영 동영상 이동물체 탐지 방법 및 장치 | |
Georgoulis et al. | Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation for Complex Scenes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161012 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6200306 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |