JP2014123220A - 映像検索装置 - Google Patents

映像検索装置 Download PDF

Info

Publication number
JP2014123220A
JP2014123220A JP2012278423A JP2012278423A JP2014123220A JP 2014123220 A JP2014123220 A JP 2014123220A JP 2012278423 A JP2012278423 A JP 2012278423A JP 2012278423 A JP2012278423 A JP 2012278423A JP 2014123220 A JP2014123220 A JP 2014123220A
Authority
JP
Japan
Prior art keywords
video
fragment
code
image
assigned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012278423A
Other languages
English (en)
Inventor
Takahito Kawanishi
隆仁 川西
Kunio Kashino
邦夫 柏野
Yongqing Sun
泳青 孫
Shinichi Sato
真一 佐藤
Le Yuiden
レ ユイデン
Caizhi Zhu
才志 朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Original Assignee
Nippon Telegraph and Telephone Corp
Research Organization of Information and Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Research Organization of Information and Systems filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012278423A priority Critical patent/JP2014123220A/ja
Publication of JP2014123220A publication Critical patent/JP2014123220A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】クエリ画像に類似する画像を含む映像を精度よく検索することができるようにする。
【解決手段】映像分割部20により入力された映像について、連続して撮影された映像断片に分割する。断片解析部21により分割された映像断片の各々について複数の局所特徴を抽出する。分類木作成部22により複数の局所特徴を分類し各分類に対して符号が割り当てられた分類木を作成する。断片表現作成部24により割り当てられた符号と算出された数との各ペアを表す断片表現を作成する。転置索引作成部25により転置索引を作成する。画像解析部27により入力されたクエリ画像について局所特徴を抽出する。画像表現作成部28により割り当てられた符号と算出された数との各ペアを表す画像表現を作成する。候補選択部29により画像表現と、転置索引とに基づいて、映像断片との類似値として算出し、クエリ画像に類似する画像を含む映像断片の候補を選択する。
【選択図】図1

Description

本発明は、映像検索装置に関し、特に、クエリ画像に類似する画像を含む映像を検索する映像検索装置に関する。
現在、映像配信サービスが多様化し、さまざまな製作者により映像が作られ、街角の映像なども見られるようになってきている。それらの映像の視聴者に対して適切な関連サービスや関連広告を提示するために、映像中に何が写っているかを知りたい、映像中に写る画像から他の関連する映像へ誘導したいという要求がある。
このような画像に写る物体を検索する技術としては、一般物体認識の技術や、特定物体認識の技術が知られている(非特許文献1、2)。
黄瀬 浩一,「特定物体認識(チュートリアル,一般物体認識・画像特徴量)」,電子情報通信学会技術研究報告.PRMU,パターン認識・メディア理解 109(306),79-87, Nov.2009. 柳井 啓司,「一般物体認識(チュートリアル,一般物体認識・画像特徴量)」,電子情報通信学会技術研究報告.PRMU,パターン認識・メディア理解 109(306),89-96,Nov.2009.
しかしながら、十分な検出率で画像を検索する技術は存在しないのが現状である。
本発明は、上記問題を解決するためになされたもので、クエリ画像に類似する画像を含む映像を効率的に検索することができる映像検索装置を提供することを目的とする。
上記目的を達成するために、本発明の映像検索装置は、入力された複数の映像について、カット点を検出し、検出されたカット点で、連続して撮影された映像断片に分割する映像分割手段と、前記映像分割手段によって分割された映像断片の各々について、映像断片内の各フレーム画像について複数の局所特徴を抽出する局所特徴抽出手段と、前記局所特徴抽出手段によって各映像断片について抽出された複数の前記局所特徴を分類し、分類結果を表す分類木であって、各分類に対して符号が割り当てられた分類木を作成する分類木作成手段と、各映像断片について、前記分類木作成手段によって作成された分類木を用いて、前記映像断片について抽出された前記局所特徴の各々に前記局所特徴が所属する分類の符号を割り当てると共に、前記割り当てられた符号毎に、前記映像断片において抽出された前記局所特徴について前記符号が割り当てられた頻度に応じた数を算出し、各映像断片について、前記割り当てられた符号と前記算出された数との各ペアを表す断片表現を作成する断片表現作成手段と、前記断片表現作成手段によって各映像断片について作成された前記断片表現に基づいて、前記符号の各々について、前記符号が割り当てられた映像断片と、前記映像断片の断片表現において前記符号に対する数との各ペアを表す転置索引を作成する転置索引作成手段と、入力されたクエリ画像について、前記局所特徴を複数抽出する検索用局所特徴抽出手段と、前記分類木作成手段によって作成された分類木を用いて、前記検索用局所特徴抽出手段によって抽出された局所特徴の各々に前記局所特徴が所属する分類の符号を割り当てると共に、前記割り当てられた符号毎に、前記クエリ画像から抽出された前記局所特徴について前記符号が割り当てられた頻度に応じた数を算出し、前記割り当てられた符号と前記算出された数との各ペアを表す画像表現を作成する画像表現作成手段と、前記画像表現作成手段によって作成された前記画像表現と、前記転置索引作成手段によって作成された前記転置索引とに基づいて、前記映像断片毎に、前記画像表現に含まれる前記割り当てられた前記符号の各々について、前記映像断片が、前記転置索引の前記符号が割り当てられた映像断片に含まれる場合に、前記画像表現の前記符号に対する数と、前記転置索引の前記符号が割り当てられた前記映像断片に対する数との積を算出し、前記算出された積の和を、前記映像断片との類似値として算出し、前記映像断片毎に算出された前記類似値に基づいて、前記クエリ画像に類似する画像を含む映像断片の候補を選択する候補選択手段とを含む。
本発明に係る映像検索装置は、映像分割手段によって、入力された複数の映像について、カット点を検出し、検出されたカット点で、連続して撮影された映像断片に分割する。そして、局所特徴抽出手段によって、映像分割手段によって分割された映像断片の各々について、映像断片内の各フレーム画像について複数の局所特徴を抽出する。
そして、分類木作成手段によって、局所特徴抽出手段によって各映像断片について抽出された複数の局所特徴を分類し、分類結果を表す分類木であって、各分類に対して符号が割り当てられた分類木を作成する。
そして、断片表現作成手段によって、各映像断片について、分類木作成手段によって作成された分類木を用いて、映像断片について抽出された局所特徴の各々に局所特徴が所属する分類の符号を割り当てると共に、割り当てられた符号毎に、映像断片において抽出された局所特徴について符号が割り当てられた頻度に応じた数を算出し、各映像断片について、割り当てられた符号と算出された数との各ペアを表す断片表現を作成する。
そして、転置索引作成手段によって、断片表現作成手段によって各映像断片について作成された断片表現に基づいて、符号の各々について、符号が割り当てられた映像断片と、映像断片の断片表現において符号に対する数との各ペアを表す転置索引を作成する。
そして、検索用局所特徴抽出手段によって、入力されたクエリ画像について、局所特徴を複数抽出する。
そして、画像表現作成手段によって、分類木作成手段によって作成された分類木を用いて、検索用局所特徴抽出手段によって抽出された局所特徴の各々に局所特徴が所属する分類の符号を割り当てると共に、割り当てられた符号毎に、クエリ画像から抽出された局所特徴について符号が割り当てられた頻度に応じた数を算出し、割り当てられた符号と算出された数との各ペアを表す画像表現を作成する。
そして、候補選択手段によって、画像表現作成手段によって作成された画像表現と、転置索引作成手段によって作成された転置索引とに基づいて、映像断片毎に、画像表現に含まれる割り当てられた符号の各々について、映像断片が、転置索引の符号が割り当てられた映像断片に含まれる場合に、画像表現の符号に対する数と、転置索引の符号が割り当てられた映像断片に対する数との積を算出し、算出された積の和を、映像断片との類似値として算出し、映像断片毎に算出された類似値に基づいて、クエリ画像に類似する画像を含む映像断片の候補を選択する。
以上説明したように、本発明の映像検索装置によれば、各映像断片について、抽出された局所特徴に割り当てられた符号と頻度に応じた数との各ペアを表す断片表現を作成して、符号の各々について、符号が割り当てられた映像断片と、映像断片の断片表現において符号に対する数との各ペアを表す転置索引を作成し、入力されたクエリ画像について抽出された局所特徴に割り当てられた符号と算出された数との各ペアを表す画像表現を作成し、画像表現と転置索引とに基づいて、映像断片毎に、類似値を算出し、クエリ画像に類似する画像を含む映像断片の候補を選択することにより、クエリ画像に類似する画像を含む映像を効率的に検索することができる、という効果が得られる。
本実施の形態に係る映像検索装置の構成の一例を示す図である。 本実施の形態に係る転置索引作成処理ルーチンのフローチャートの一例である。 本実施の形態に係る映像検索処理ルーチンのフローチャートの一例である。 本実施の形態に係る実験結果として映像検索結果を示す図である。 本実施の形態に係る実験結果として映像検索の集計結果を示す図である。
<概要>
まず、本発明の実施の形態の概要について説明する。本発明に係る実施の形態は、画像検索技術の一形態であり、大量の映像データベースや、リアルタイムに入力されるカメラ映像などとの各種の映像をあらかじめサーバに格納し、そのサーバに、ロゴやマークなどの検索したい物体を含む画像を元に問い合わせて、上記物体を含む映像を検索結果として出力する装置に関するものである。
本実施の形態によれば、映像データベースに対して、静止画を問合せとした検索結果を取得することができるため、物体の出現頻度の計測結果をマーケティングに活用したり、映像中の物体を正しく検出することができれば、関連する広告やサービスへのリンク、関連映像への誘導を行うようなインタラクティブな映像視聴システムが実現できる。
<システム構成>
以下、図面を参照して本発明の実施の形態を詳細に説明する。図1は、本実施の形態に係る映像検索装置の構成の一例を示す図である。
映像検索装置100は、CPU(Central Processing Unit)と、RAM(Random Access Memory)と、CPUが後述する各処理ルーチンを実行するためのプログラムを記憶したROM(Read Only Memory)とを備えたコンピュータで構成されている。また、映像検索装置100を構成するコンピュータは、ハードディスクドライブ等の記憶部や通信インタフェース等を備えていてもよい。また、ハードディスクドライブにCPUが実行するプログラムが記憶されていてもよい。CPUがROMやハードディスク等の記憶部に記憶されているプログラムを読み出して実行することにより、上記ハードウェアとプログラムとを協働させて以下に説明する機能が実現される。
このコンピュータは、機能的には、図1に示すように、入力部1、演算部2、出力部3を含んだ構成で表わすことができる。
入力部1は、映像入力部10と、画像入力部11とから構成されている。映像入力部10は、被検索対象の映像の入力を受け付ける。映像入力部10は、放送、DVD・ブルーレイなどのディスク、監視カメラ、及びインターネットなどから収集した電子ファイルの少なくとも1つから、複数の映像データを取得することができる。また、映像入力部10は、入力された映像データをデジタルデータ化し、RAWデータなどの特定のフォーマットに変換する。なお、映像データには、映像に関連するメタデータが付随している。画像入力部11は、クエリ画像の入力を受け付ける。
演算部2は、映像データベース19と、映像分割部20と、断片解析部21と、分類木作成部22と、分類木記憶部23と、断片表現作成部24と、転置索引作成部25と、転置索引記憶部26と、画像解析部27と、画像表現作成部28と、候補選択部29と、から構成されている。
映像データベース19には、入力部1により受け付けた被検索対象としての複数の映像データが記憶される。
映像分割部20は、映像データベース19に記憶された映像データの各々について、カット点を検出し、検出されたカット点で、同一のカメラで連続して撮影された映像断片に分割する。一般に映像は、複数の映像素材をつなげ合せて作成される。このような素材のつなぎ目は、カット点と呼ばれる。映像分割部20では、映像の大きな変化であるカット点を検出し、カット点で映像を分割することにより、同一素材からなる映像断片を取り出す。本実施の形態では、各フレーム間で個々の画素の色の変化の和が一定以上大きなものをカット点として検出する。
断片解析部21は、映像分割部20で分割された映像断片の各々について、映像断片内の各フレーム画像について複数の局所特徴を抽出する。ここで、局所特徴は、画像中の特徴点の位置と、当該特徴点において抽出された特徴量からなる。具体的には、映像断片から1秒に3枚のフレーム画像を取り出す。そして、得られたフレーム画像に対してColor SIFTをデンスサンプリング(例えば、Koen E. A. van de Sande, Theo Gevers and Cees G. M. Snoek, ”Evaluating Color Descriptors for Object and Scene Recognition, IEEE Transactions on Pattern Analysis and Machine Intelligence”, volume 32 (9), pages 1582-1596, 2010.を参照)して複数の局所特徴を抽出する。なお、断片解析部21は、局所特徴抽出手段の一例である。
分類木作成部22は、断片解析部21で各映像断片について抽出された局所特徴の集合を分類し、各分類に対して符号が割り当てられた分類木を作成する。具体的には、分類木作成部22は、断片解析部21で抽出された局所特徴の集合に基づいて、階層的 k-means algorithm(例えば、D. Nister and H. Stewenius. ”Scalable recognition with a vocabulary tree.”, In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), volume 2, pages 2161-2168, June 2006.を参照)を用いて、分類木を作成する。ここで得られる分類木は、最大100万符号程度の、超巨大な符号を作成できる巨大な分類木である。また、分類木には、各符号に対して総合的な頻度を集計した値が記録される。
分類木記憶部23には、分類木作成部22で作成された分類木が記憶される。
断片表現作成部24は、各映像断片に対して、分類木記憶部23に記憶された分類木を用いて、抽出された局所特徴の各々に対して、局所特徴が所属する分類の符号を割り当てることにより、当該映像断片に対して、符号を割り当てる。そして、当該映像断片に割り当てられた符号毎に、当該符号が割り当てられた局所特徴の頻度に応じた数を算出する。ここで、「符号が割り当てられた局所特徴の頻度に応じた数」とは、当該映像断片に割り当てられた符号毎に算出された数の合計が1となるように正規化された数である。そして、各映像断片について、割り当てられた符号と算出された数との各ペアを表す断片表現を作成する。
転置索引作成部25は、断片表現作成部24によって作成された各断片映像の断片表現に基づいて、符号の各々について、当該符号が割り当てられた映像断片を示す断片番号と、当該映像断片の断片表現において当該符号に対する数との各ペアを表す転置索引を作成する。つまり、転置索引は、符号と、その符号に割り当てられた映像断片の断片番号、及び当該映像断片においてその符号が割り当てられた局所特徴の頻度に応じた数のペアとが対応付けられた索引である。
転置索引記憶部26には、転置索引作成部25によって作成された転置索引が記憶される。
画像解析部27は、画像入力部11により入力された画像(クエリ画像)から、断片解析部21で映像断片に含まれる画像から抽出される局所特徴と同様の局所特徴を抽出する。従って、局所特徴としては、断片解析部21と同様に、画像に対してColor SIFTをデンスサンプリングして複数の局所特徴を抽出する。なお、画像解析部27は検索用局所特徴抽出手段の一例である。
画像表現作成部28は、分類木記憶部23に記憶された分類木を用いて、画像解析部27により抽出された局所特徴の各々に対して、局所特徴が所属する分類の符号を割り当てることにより、クエリ画像に符号を割り当てる。そして、割り当てられた符号毎に、当該符号が割り当てられた局所特徴の頻度に応じた数を算出し、割り当てられた符号と算出された数との各ペアを表す画像表現を作成する。ここで、「符号が割り当てられた局所特徴の頻度に応じた数」とは、その符号に割り当てられた局所特徴の数に対して、符号頻度逆数(IDF-weighting)による重みを付けて集計(例えば、Ondrej Chum, James Philbin, Andrew Zisserman, ”Near Duplicate Image Detection: min-Hash and tf-idfWeighting.”, BMVC 2008を参照)したのち、当該クエリ画像に割り当てられた符号毎に算出された数の合計が1となるように正規化された数である。
候補選択部29は、類似値算出対象の断片映像について、画像表現作成部28によって作成された画像表現と、転置索引記憶部26に記憶された転置索引とに基づいて、画像表現に含まれる符号の各々について、画像表現の当該符号に対する数と、転置索引の当該符号が割り当てられた当該映像断片の断片番号に対する数との積を算出する。なお、積については、画像表現に含まれる符号と、同一の符号が割り当てられた映像断片に、類似値算出対象の断片映像が含まれる場合にのみ算出される。そして、算出された積の和を、類似値算出対象の映像断片との類似値として算出する。候補選択部29は、全ての断片映像を、類似値算出対象の断片映像として、上記の類似値算出を繰り返す。候補選択部29は、算出された類似値に基づいて、クエリ画像に類似する画像を含む映像断片の候補を複数選択する。
出力部3は、結果表示部30と、関連情報表示部31とから構成されている。
結果表示部30は、画像入力部11により入力されたクエリ画像に対する検索結果として、候補選択部29により出力された映像断片の候補のデータを、映像データベース19から取得し、類似値の高い順に出力する。
関連情報表示部31は、映像入力部10により入力される映像に付随している映像に関連するメタデータに基づいて、候補選択部29で選択された映像断片の候補の各々について、映像についての関連情報を表示する。これにより検索に関連したサービスの提供が可能である。例えば、後述する図4のような検索結果を表示することにより、後述する図4の3段目のような別の物体を含む画像を再度検索させるようにすることもでき、その場合には、関連する画像を順に検索させることも可能である。
<映像検索装置の作用>
次に、本実施の形態に係る映像検索装置100の作用について説明する。まず、被検索対象となる複数の映像データが映像検索装置100に入力されると、映像検索装置100によって、図2に示す転置索引作成処理ルーチンが実行される。
まず、ステップS100において、映像入力部10により入力された複数の映像データを受け付ける。そして、ステップS101において、映像データベース19に、上記ステップS100で受け付けた複数の映像データが記憶される。
そして、ステップS102において、映像分割部20によって、上記ステップS101で記憶された映像データの各々について、カット点を検出し、検出されたカット点で、当該映像データを、同一のカメラで連続して撮影された映像断片に分割する。
そして、ステップS104において、断片解析部21によって、上記ステップS102で分割された映像断片毎に、映像断片内の各フレーム画像について複数の局所特徴を抽出する。
次に、ステップS106において、分類木作成部22によって、上記ステップS104で各映像断片から抽出された局所特徴の集合を分類し、分類結果に従って、各分類に対して符号が割り当てられた分類木を作成する。そして、作成された分類木を分類木記憶部23へ記録する。
そして、ステップS108において、断片表現作成部24によって、映像断片毎に、上記ステップS106で記憶された分類木を用いて、抽出された局所特徴の各々に対し、局所特徴が所属する分類の符号を割り当てることにより、当該映像断片に対して、符号を割り当てる。そして、当該映像断片に割り当てられた符号毎に、当該符号が割り当てられた局所特徴の頻度に応じた、正規化された数を算出する。そして、各映像断片について、割り当てられた符号と算出された数との各ペアを表す断片表現を作成する。また、各映像断片について作成した断片表現をメモリ(図示省略)に記録する。
ステップS110において、転置索引作成部25によって、上記ステップS108で作成された各断片映像の断片表現に基づいて、符号の各々について、当該符号が割り当てられた映像断片を示す断片番号と、当該映像断片の断片表現において当該符号に対する数との各ペアを表す転置索引を作成する。そして、作成された転置索引を、転置索引記憶部26へ記録する。
そして、クエリ画像が映像検索装置100に入力されると、映像検索装置100によって、図3に示す映像検索処理ルーチンが実行される。
まず、ステップS200において、画像入力部11により入力されたクエリ画像を受け付ける。
そして、ステップS202において、画像解析部27によって、上記ステップS200で入力されたクエリ画像から、複数の局所特徴を抽出する。
そして、ステップS204において、画像表現作成部28によって、上記ステップS106で分類木記憶部23に記憶された分類木を用いて、上記ステップS202で抽出された局所特徴の各々に対して、局所特徴が所属する分類の符号を割り当てることにより、クエリ画像に符号を割り当てる。そして、割り当てられた符号毎に、当該符号が割り当てられた局所特徴の頻度に応じた、正規化された数を算出し、割り当てられた符号と算出された数との各ペアを表す画像表現を作成する。
そして、ステップS206において、候補選択部29によって、各断片映像について、上記ステップS204で作成された画像表現と、ステップS110で転置索引記憶部26に記憶された転置索引とに基づいて、クエリ画像と当該映像断片との類似値を算出する。そして、算出された類似値に基づいて、クエリ画像に類似する画像を含む映像断片の候補を複数選択する。
そして、ステップS208において、結果表示部30によって、上記ステップS206で出力された映像断片の候補のデータを、映像データベース19から取得し、クエリ画像に対する検索結果として、類似値の高い順に映像断片の候補を出力する。
そして、ステップS210において、関連情報表示部31によって、映像データに付随しているメタデータに基づいて、上記ステップS206で選択された映像断片の候補の各々について、映像についての関連情報を表示する。
<実験結果>
上記の実施の形態の効果を実験結果に基づいて示す。実施形態の一例として、コマーシャル映像に含まれる物体の写る画像をクエリ画像として、多数のコマーシャル映像を含むデータベースに対して検索し、クエリ画像を含むコマーシャル映像の一覧を出力するタスクについて述べる。
はじめに、複数のデジタル映像データを映像入力部10により入力する。そして、入力されたデジタル映像データは、映像入力部10により変換され、映像分割部20に出力される。本実施の形態では5チャンネル1年間の放送データを用いた。この放送データから、あらかじめ多数回放映されるコマーシャル映像を、所定の方法を用いて取り出して、複数のデジタル映像データとした(例えば、Wu, X. and Satoh,S.,”Commercial mining based on temporal recurrence hashing algorithm and bag-of-fingerprints model.”, In proc. of the ICIP 2011を参照)。
上記の手法により、約160万回放送されたコマーシャルが、18000種類に分類され、計115時間のコマーシャル映像となる。
そして、上記のコマーシャル映像は、映像分割部20により映像断片に分割される。この結果、先ほどのコマーシャル映像の全体から、約16万の映像断片が得られる。
図4は、結果表示部30によって表示された検索結果である。図4は、最上段の画像を検索して得られた結果を下段に表示している。検索結果には、映像から切り出した5枚の画像を表示しており、また、類似値の高い順に上から表示している。
表示の例には、類似値順に検索結果を並べるだけでなく、集計結果を表示することもできる。たとえば、放送時間の曜日・時刻ごとに集計することにより図5のような結果を得ることができる。図5で見た通り平日(月〜金曜)のAM2:00−17:00、土日のAM2:00−11:00には該当の画像が含まれる映像断片が放送されていないことがわかる。
本画像はアルコール飲料の広告画像なので、当該時間帯には実際に放送されていない。なお、本実施の形態で上記時間帯に数回放送結果が表れているが現状の技術の性能のため、別の画像を誤認してしまっているものである。とはいえ、おおよその傾向が確認できる程度の十分な性能を有している。
以上説明したように、本実施の形態に係る映像検索装置100によれば、各映像断片について、抽出された局所特徴に割り当てられた符号と頻度に応じた数との各ペアを表す断片表現を作成して、符号の各々について、符号が割り当てられた映像断片と、映像断片の断片表現において符号に対する数との各ペアを表す転置索引を作成し、入力されたクエリ画像について抽出された局所特徴に割り当てられた符号と算出された数との各ペアを表す画像表現を作成し、画像表現と転置索引とに基づいて、映像断片毎に、類似値を算出し、クエリ画像に類似する画像を含む映像断片の候補を選択することにより、クエリ画像に類似する画像を含む映像を効率的に検索することができる。
また、映像データベースに対して、静止画を問合せとした検索結果を取得することができ、物体の出現頻度の計測結果をマーケティングに活用することや、映像中の物体を正しく検出することができるため、関連する広告やサービスへのリンク、関連映像への誘導を行うようなインタラクティブな映像視聴システムが実現できる。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、映像分割部20における映像のカット点検出方法は、各フレーム間で個々の画素の色の変化の和が一定以上大きなものをカット点として検出する場合を例に説明したが、これに限定されるものではなく、他の検出方法を用いてもよい(例えば、谷口行信、外村佳伸, 浜田洋, 「映像ショット切換え検出法とその映像アクセスインタフェースへの応用」、電子情報通信学会論文誌 Vol.J79-D2 No.4、pp. 538-546, Apr.1996.を参照)。
また、断片解析部21及び画像解析部27において抽出される局所特徴は、得られた画像に対してColor SIFTをデンスサンプリングして抽出する場合を例に説明したが、これに限定されるものではなく、他の手法によって局所特徴を抽出してもよい。
また、分類木作成部22における分類木作成方法は、階層的k-means algorithmに従って作成する場合を例に説明したが、これに限定されるものではなく、他の分類木作成方法によって分類木を作成してもよい。
また、上述の映像検索装置が映像データベース19、分類木記憶部23、及び転置索引記憶部26を備えている場合について説明したが、例えば映像データベース19、分類木記憶部23、及び転置索引記憶部26が映像検索装置の外部装置に設けられ、映像検索装置は、外部装置と通信手段を用いて通信することにより、映像データベース19、分類木記憶部23、及び転置索引記憶部26を参照するようにしてもよい。
また、上述の映像検索装置は、内部にコンピュータシステムを有しているが、コンピュータシステムは、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読取り可能な記録媒体に格納して提供することも可能である。
2 演算部
20 映像分割部
21 断片解析部
22 分類木作成部
24 断片表現作成部
25 転置索引作成部
27 画像解析部
28 画像表現作成部
29 候補選択部
100 映像検索装置

Claims (1)

  1. 入力された複数の映像について、カット点を検出し、検出されたカット点で、連続して撮影された映像断片に分割する映像分割手段と、
    前記映像分割手段によって分割された映像断片の各々について、映像断片内の各フレーム画像について複数の局所特徴を抽出する局所特徴抽出手段と、
    前記局所特徴抽出手段によって各映像断片について抽出された複数の前記局所特徴を分類し、分類結果を表す分類木であって、各分類に対して符号が割り当てられた分類木を作成する分類木作成手段と、
    各映像断片について、前記分類木作成手段によって作成された分類木を用いて、前記映像断片について抽出された前記局所特徴の各々に前記局所特徴が所属する分類の符号を割り当てると共に、前記割り当てられた符号毎に、前記映像断片において抽出された前記局所特徴について前記符号が割り当てられた頻度に応じた数を算出し、各映像断片について、前記割り当てられた符号と前記算出された数との各ペアを表す断片表現を作成する断片表現作成手段と、
    前記断片表現作成手段によって各映像断片について作成された前記断片表現に基づいて、前記符号の各々について、前記符号が割り当てられた映像断片と、前記映像断片の断片表現において前記符号に対する数との各ペアを表す転置索引を作成する転置索引作成手段と、
    入力されたクエリ画像について、前記局所特徴を複数抽出する検索用局所特徴抽出手段と、
    前記分類木作成手段によって作成された分類木を用いて、前記検索用局所特徴抽出手段によって抽出された局所特徴の各々に前記局所特徴が所属する分類の符号を割り当てると共に、前記割り当てられた符号毎に、前記クエリ画像から抽出された前記局所特徴について前記符号が割り当てられた頻度に応じた数を算出し、前記割り当てられた符号と前記算出された数との各ペアを表す画像表現を作成する画像表現作成手段と、
    前記画像表現作成手段によって作成された前記画像表現と、前記転置索引作成手段によって作成された前記転置索引とに基づいて、前記映像断片毎に、前記画像表現に含まれる前記割り当てられた前記符号の各々について、前記映像断片が、前記転置索引の前記符号が割り当てられた映像断片に含まれる場合に、前記画像表現の前記符号に対する数と、前記転置索引の前記符号が割り当てられた前記映像断片に対する数との積を算出し、前記算出された積の和を、前記映像断片との類似値として算出し、前記映像断片毎に算出された前記類似値に基づいて、前記クエリ画像に類似する画像を含む映像断片の候補を選択する候補選択手段と、
    を含む映像検索装置。
JP2012278423A 2012-12-20 2012-12-20 映像検索装置 Pending JP2014123220A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012278423A JP2014123220A (ja) 2012-12-20 2012-12-20 映像検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012278423A JP2014123220A (ja) 2012-12-20 2012-12-20 映像検索装置

Publications (1)

Publication Number Publication Date
JP2014123220A true JP2014123220A (ja) 2014-07-03

Family

ID=51403657

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012278423A Pending JP2014123220A (ja) 2012-12-20 2012-12-20 映像検索装置

Country Status (1)

Country Link
JP (1) JP2014123220A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678847B2 (en) * 2015-07-22 2020-06-09 Hangzhou Hikvision Digital Technology Co., Ltd. Method and device for searching a target in an image

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678847B2 (en) * 2015-07-22 2020-06-09 Hangzhou Hikvision Digital Technology Co., Ltd. Method and device for searching a target in an image

Similar Documents

Publication Publication Date Title
US10779037B2 (en) Method and system for identifying relevant media content
Zhou et al. Movie genre classification via scene categorization
CA2771379C (en) Estimating and displaying social interest in time-based media
JP5390506B2 (ja) ビデオ検出システムおよびビデオ検出方法
CN104520875B (zh) 优选用于搜索和检索目的的从视频内容提取描述符的方法和装置
CN108694223A (zh) 一种用户画像库的构建方法及装置
KR100547370B1 (ko) 객체 형상 정보를 이용한 요약영상 추출 장치 및 그방법과 그를 이용한 동영상 요약 및 색인 시스템
JP2018530272A (ja) ステムリソース利用を最適化するための映像セグメントの将来の視聴予測
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JP5360979B2 (ja) 重要情報抽出方法および装置
KR101541495B1 (ko) 캡쳐된 이미지를 이용한 동영상 분석 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN109086830A (zh) 基于样本惩罚的典型关联分析近重复视频检测方法
JP2014153977A (ja) コンテンツ解析装置、コンテンツ解析方法、コンテンツ解析プログラム、およびコンテンツ再生システム
TW200951832A (en) Universal lookup of video-related data
CN110933520B (zh) 一种基于螺旋摘要的监控视频展示方法及存储介质
JP2011248671A (ja) 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法
JP2014123220A (ja) 映像検索装置
JPWO2018131132A1 (ja) 情報処理装置、情報処理方法及びプログラム
Schwab et al. A multi-cue spatio-temporal framework for automatic frontal face clustering in video sequences
Cirne et al. Summarization of videos by image quality assessment
KR20090096158A (ko) 동영상 스틸컷 기반의 크로스미디어 검색 시스템 및 방법
Li et al. A Videography Analysis Framework for Video Retrieval and Summarization.
Gharbi et al. Key frames extraction based on local features for efficient video summarization
JP2013070158A (ja) 映像検索装置およびプログラム
Sandifort et al. VisLoiter+ An entropy model-based loiterer retrieval system with user-friendly interfaces