JP6219808B2

JP6219808B2 - 映像検索装置の動作方法、映像検索方法および映像検索装置

Info

Publication number: JP6219808B2
Application number: JP2014244721A
Authority: JP
Inventors: 広夢宮下; 丈二中山; 麻衣子井元; 大喜渡邊; えりか足利; 山田　智広; 智広山田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2017-10-25
Anticipated expiration: 2034-12-03
Also published as: JP2016110252A

Description

本発明は、被写体の状態と被写体がどのように移動したかを指定して映像を検索可能とする映像検索技術に関する。

膨大な映像群から所望の映像、または映像フレームを見つけ出して再生するために、テキストベースの検索や、画像や映像そのものを検索のクエリとするインスタンスサーチなどの手法が用いられている。

中でも特許文献1では映像データベースに画像や音声に関する特徴量やキーワードを属性値として蓄え、検索の質問が入力されると適合する映像をデータベースから検索し、さらに対応する属性値を画素に変換して表示することを提案しており、俯瞰的に条件を満たす映像を探し出すことを可能としている。

また非特許文献1では映像に含まれるカット点やカメラワークをもとに映像のインデクシングを行い、各シーンの代表画像を生成して同時表示することを提案しており、ユーザは映像アーカイブを一覧して所望の映像や映像フレームを探すことができる。

非特許文献2ではニュース映像のデータベースに対してクエリとして別のニュース映像を入力することで、映像に含まれるエッジ成分や色成分やその順序が類似している映像を検索する手法を提案している。

非特許文献3では移動物体の形状と動きと背景という3つの要素を手描きのスケッチで描画することでクエリを作成し映像検索を行うシステムを提案している。

特開平１１−１７５５６１号公報

谷口行信, 南憲一, 佐藤隆, 桑野秀豪, 児島治彦, 外村佳伸, "SceneCabinet:映像解析技術を統合した映像インデクシングシステム", 電子情報通信学会論文誌. D-II, vol.84, No.6, pp1112-1121, 2001 Young-tae Kim and Chua, T.-S., "Retrieval of News Video Using Video Sequence Matching", Multimedia Modelling Conference, 2005. MMM 2005. Proceedings of the 11th International, pp68-75, 2005 瀬倉章宏, 戸田真志, "移動物体と背景の描画による手描きスケッチ映像検索システム", インタラクション2011, 情報処理学会, 2011

しかし、従来の映像検索(または映像フレーム検索)では被写体の移動や状態、出現する方向や順序などを具体的に指定することができない。
被写体の動きやカメラワークを含む映像では、画面中に様々な被写体が何度も移り変わり出現する可能性がある。例えば映画であれば主演の俳優は多くのシーンで登場すると考えられ、またF1(レース)の実況番組では同じ車両がコースの各撮影地点、各周回で撮影され、画面中に登場する機会がある。

ユーザが「ある被写体が映っている映像」を視聴したいと考えたとき、テキストベースでその被写体の名称を検索クエリに入力するだけでは、該当する映像が複数存在した場合に、さらに候補を絞り込む操作が必要になる。

また画像や映像を検索クエリとして入力するインスタンスサーチを想定しても、ある被写体の状態や他の被写体との関係(時間的な順序や位置、前後など)を網羅したインスタンスを用意することは困難であり、用意されていたとしても検索するためのインスタンスを探し出す手間が発生してしまう。手描きスケッチを用いる場合でも、ユーザが被写体をうまく描けない場合は検索精度が下がってしまう可能性があり、また複数の被写体が登場する順序などを1枚のイラストとして表現しにくい問題がある。

本発明は、上記の課題に鑑みてなされたものであり、ユーザのインタラクションにより被写体の状態と被写体がどのように移動したかを指定して映像を検索可能とする技術を提供することを目的とする。

上記の課題を解決するために、第１の本発明は、映像検索装置の動作方法であって、前記映像検索装置は、映像のフレームごとに当該フレームのフレーム番号と当該フレーム内の被写体の位置情報が記憶される被写体情報記憶部を備え、前記動作方法は、前記映像検索装置が、前記映像に映る被写体と当該被写体の状態を表す操作対象を予め設けられた検索領域に移動させる操作に基づいて当該操作対象がどのように移動したかを表す操作情報を生成し、前記映像検索装置が、前記操作情報に基づいて当該操作対象のように移動する当該状態の当該被写体が映るフレームのフレーム番号を前記被写体情報記憶部から検索するための検索プログラムを生成し、前記映像検索装置が、前記被写体情報記憶部から前記検索プログラムによりフレーム番号を検索することを特徴とする。

例えば、前記操作対象は、前記映像に映る複数の被写体と当該各被写体の状態を表し、前記動作方法は、当該状態の当該複数の被写体が映るフレームのフレーム番号を検索する。

例えば、複数の前記操作対象が順に操作された場合、当該操作の順および当該操作対象に対応する被写体が映るフレームのフレーム番号を検索する。

例えば、前記検索領域の周辺に検索周辺領域が設けられ、前記操作対象が前記検索周辺領域に移動して待機の後、前記検索領域に移動した場合、当該操作対象の直前に操作された操作対象に対応する被写体が映像に映ってから前記待機の時間に応じた時間が経過した後に前記検索周辺領域に待機した操作対象に対応する被写体が映像に映るフレームのフレーム番号を検索する。

例えば、前記検索領域が設けられる装置と前記操作対象が設けられる装置が異なる。

例えば、前記検索領域に移動後、前記操作対象が操作された場合、当該操作対象が検索領域でどのように操作されたかを表す操作情報を生成する。

第２の本発明に係る映像検索方法は、映像に映る被写体と当該被写体の状態を表す操作対象を予め設けられた検索領域に移動させる操作が行われたことを契機に、当該操作対象のように移動する当該状態の当該被写体が映るフレームから構成される映像を所定の表示部に表示させる。

第３の本発明に係る映像検索装置は、映像のフレームごとに当該フレームのフレーム番号と当該フレーム内の被写体の位置情報が記憶される被写体情報記憶部と、前記映像に映る被写体と当該被写体の状態を表す操作対象を予め設けられた検索領域に移動させる操作に基づいて当該操作対象がどのように移動したかを表す操作情報を生成するインスタンス操作部と、前記操作情報に基づいて当該操作対象のように移動する当該状態の当該被写体が映るフレームのフレーム番号を前記被写体情報記憶部から検索するための検索プログラムを生成する検索プログラム生成部と、前記被写体情報記憶部から前記検索プログラムによりフレーム番号を検索する検索部とを備えることを特徴とする。

本発明によれば、ユーザのインタラクションにより被写体の状態と被写体がどのように移動したかを指定して映像を検索可能とする技術を提供できる。

本実施の形態に係る映像検索装置の構成を示す図である。カメラワークと被写体の画面上の位置の例を示す図である。被写体情報の例を示す図である。システムの動作を示すフローチャートである。ユーザインタフェース画面の一例を示す図である。映像領域３１、検索領域３２、検索周辺領域３３および検索カード４の別な構成例を示す図である。インスタンス操作部１４における検索カードの操作時（Ｓ２１）の詳細フローチャートである。検索時の基本的な検索カードの操作を示す図である。新しい検索カードを生成する操作を示す図である。検索カード内のオブジェクトの位置関係を変更する様子を示す図である。検索カードの属性を変更する様子を示す図である。検索カードの色合いを変更する様子を示す図である。検索カードの粒度を上位概念に変更する様子を示す図である。検索領域で検索カードを移動させる様子を示す図である。映像上および実空間上の被写体の移動の様子を示す図である。検索カードの大きさを変える操作を示す図である。検索カードの回転角度を変更する様子を示す図である。検索カードを検索領域から検索周辺領域に出す操作を示す図である。検索カードを半分だけ検索領域の外に出す操作を示す図である。複数の検索カードを連続して検索領域に入れる操作を示す図である。検索カードを入れた順番に対応して再生するフレームを定める様子を示す図である。検索領域内で検索カードをロックしてから別の検索カードを入れる操作を示す図である。検索カードをロックしてから別の検索カードを入れた場合に再生するフレームを定める様子を示す図である。検索領域内で検索カードを別の検索カードに近づける操作を示す図である。検索カードを検索周辺領域で保持した後、検索領域に入れる操作を示す図である。検索領域上に検索カードに関する情報を表示する効果を示す図である。映像領域と検索領域を重ねたユーザインタフェース画面を示す図である。検索カードと対応する被写体がシームレスに変化する効果を示す図である。検索領域に映像に関する図を用いたユーザインタフェース画面を示す図である。検索領域に検索カードに関連する情報を表示する効果を示す図である。複数の検索領域を利用して複数の映像を俯瞰するユーザインタフェース画面を示す図である。検索領域自体を検索カードとして用いる様子を示す図である。

以下、本発明の実施の形態に係る映像検索装置、映像検索方法および映像検索装置の動作方法について図面を参照して説明する。

図１は、本実施の形態に係る映像検索装置の構成を示す図である。
映像検索装置１は、入力部２から情報を入力し、表示部３に映像を出力（表示）するものである。
映像検索装置１は、映像情報記憶部１１、被写体情報生成部１２、被写体情報記憶部１３、インスタンス操作部１４、検索プログラム生成部１５、検索部１６、映像情報取得部１７を備える。
入力部２と表示部３は、PCやテレビ、タブレットといった入出力装置を備えた端末、あるいはユーザの入力を受け付けるモジュールと映像のファイルやストリーミングデータを再生可能なモジュールを備えるウェブブラウザなどのソフトウェアであると想定する。

入力部２と表示部３は、クライアントとして実装され、映像検索装置１の機能がネットワーク上のサーバで実装されていてもよい。あるいは、入力部２はユーザが持っているタブレット、表示部３はユーザから離れた場所に設置してあるテレビ、といったように複数のデバイスを想定してもよい。

映像情報記憶部１１には映像ファイルが蓄積され、被写体情報生成部１２および映像情報取得部１７にはストリーミングやファイル転送といった手段で映像ファイルを送信する。ライブ映像などのように、映像情報記憶部１１は映像データを配信するとともに順次蓄積してもよい。

ユーザによる検索に先駆けて、被写体情報生成部１２は映像情報記憶部１１に蓄積された映像から被写体情報を生成し、映像情報取得部１７に保存する。

図２は、カメラワークと被写体の画面上の位置の例を示す図である。
被写体情報について、図２（ａ）のように、円卓の上にリンゴ、バナナ、ブドウの3つが置かれている風景を撮影したケースを例に説明する。

矢印ａ２は円卓に対してカメラが移動した経路を示しており、カメラは円卓の外側を半周しながら机と果物の一部を撮影しつづけている。

図２（ｂ）は、この映像フレーム数が10, 20, 30, 40frame（フレーム）のときの撮影画像を示す。10~20frameでリンゴが画面左にフレームアウトし、一方でバナナはリンゴの奥から出現して右方向に移動している。ブドウは画面上の奥から右側を通って手前側に移動するように見えている。

図３は、被写体情報の例を示す図である。
図３（ａ）、（ｂ）、（ｃ）はそれぞれ、リンゴ、バナナ、ブドウを被写体とした場合の被写体情報を表したものである。各被写体について、映像フレーム数と対応する被写体の座標(被写体領域の重心座標や、被写体領域を囲む矩形の座標など)と、被写体の大きさ(被写体領域の面積など)が表示されている。このとき空欄は被写体が画面上に表示されていないフレームであることを示している。この被写体情報より、例えばリンゴは26frameで画面左にフレームアウトし、バナナは22frameで画面左上から出現していることなどが読み取れる。

被写体情報生成部１２の処理には人手によるメタデータ付与や、既存技術を利用することを想定している。被写体情報を自動的に生成する場合、例えば画像認識技術により映像フレーム上におけるSIFTなどの局所特徴量を抽出し、特定の被写体が出現するフレームと位置を特定する。他にもオブジェクトトラッキングなどの既存技術を用いてもよい。

被写体情報は映像フレーム上の情報だけでなく、被写体の状態や、撮影された瞬間の被写体の位置などを保持していてもよい。例えば、リンゴがかじられるシーンの前後でリンゴの属性値をbittenに変える、F1の実況映像でコース上の車体の位置を取得する、などが考えられる。

以降、ユーザが検索を開始してから終了するまでのシステムの基本的な動作について説明する。

図４は、システムの動作を示すフローチャートである。
まず、ステップＳ１で、表示部３は映像領域、検索領域、検索周辺領域、検索カードを表示する。

図5は、ユーザインタフェース画面の一例であり、映像領域、検索領域、検索周辺領域、検索カードがウェブアプリケーションとして表示されている例を示す図である。
上部の映像領域３１には、ユーザによる検索の結果として取得された映像が再生される。
中段に示す検索領域３２の周辺に検索周辺領域３３が構成される。

下部のリンゴ、バナナ、ブドウが描かれた領域が検索カード４であり、描かれたオブジェクトが映像中の被写体の種類と対応している。検索カード４は、被写体情報をもとに生成してもよいし、コンテンツ提供者が定めてもよいし、ユーザ自身が作成してもよい。

図5では、検索カード４はイラストの形態を採っているが、映像中の被写体と対応付けされているのであれば、被写体の名称や番号、映像、図形などでもよい。このとき、映像領域３１がテレビ、検索領域３２、検索周辺領域３３、検索カード４が手元のタブレット、というように複数のデバイスに表示するものを割り振ってもよい。

図６は、映像領域３１、検索領域３２、検索周辺領域３３および検索カード４の別な構成例を示す図である。

映像領域３１、検索領域３２を図のテレビに構成し、検索周辺領域３３をテレビのフレームとし、検索カード４を手元のタブレットとして、タブレットで検索したいオブジェクトを選択して、テレビに近づけ、重ねるようにタブレットを動かすことで検索を実施してもよい。例えばフレームにNFCタグや二次元コードを添付し、タブレットがフレームに重なったとき、タブレットに備わっているNFCリーダや二次元コードリーダ、カメラなどがそれらのタグやコードを読み取ることで、タブレットがフレームに重なったことを検知して、検索カード４が検索周辺領域３３に入った位置や時間を算出する。また、タブレットの加速度計やカメラなどにより、リーダがタグを読み込んだ前後の加速度変化やカメラ画像の明度変化などを計測して、検索周辺領域３３から検索領域３２に入った位置や時間を算出する。

図４に戻り、その後、ユーザによる検索が終了するまで、ユーザがインスタンス操作部１４で検索カードを操作し（Ｓ２１）、その際、インスタンス操作部１４が操作情報を生成し、検索プログラム生成部１５が、操作情報に基づいて検索プログラム（操作された検索カード４のように移動し且つ当該検索カード４のオブジェクトの状態と同じ被写体が映っているフレームのフレーム番号を被写体情報記憶部１３から検索するための検索プログラム）を生成し（Ｓ２２）、検索部１６が検索プログラムにより被写体情報から映像ファイルへのパスとフレーム番号を取得し（Ｓ２３）、映像情報取得部１７が映像ファイルへのパスとフレーム番号から映像情報を取得し（Ｓ２４）、表示部３が映像領域３１に映像情報を表示する（Ｓ２５）。

インスタンス操作部１４はユーザによる検索カード４の操作として、検索カード４の移動、大きさやその他パラメータの変更・加工を可能とする。またそれら移動や変更・加工の記録を操作情報として一時的に保存し、検索プログラム生成部１５に渡す。入力部２がマウスなどであれば検索カード４の移動と配置はドラッグ＆ドロップで、入力部２がタブレットなどであれば同じ操作をタッチやスワイプなどで提供するなど、それぞれのインタラクションは各デバイスにおける一般的な手法を用いるものとする。

図７は、インスタンス操作部１４における検索カードの操作時（Ｓ２１）の詳細フローチャートである。

ステップＳ２１１では、検索カード４の操作があったかを判定する。検索カード４が検索周辺領域３３にドラッグされたら（１）、ステップＳ２１３に進み、他の検索カード４にドロップされたら（２）、ステップＳ２１２で新しい検索カード４を生成してステップＳ２１１に戻り、上記以外の操作の場合は（３）、ステップＳ２１１に戻る。

ステップＳ２１３では、検索カード４の操作があったかを判定する。検索カード４が検索領域３２にドラッグされたら、ステップＳ２１５に進み（１）、検索周辺領域３３で保持されたら（２）、ステップＳ２１４で待機スコアを計算してステップＳ２１３に戻り、上記以外の操作の場合は（３）、ステップＳ２１１に戻る。
ステップＳ２１５では、方向スコアを計算し、ステップＳ２１６に進む。

ステップＳ２１７では、検索カード４の操作があったかを判定する。検索カード４が検索領域３２にドロップされたら、終了し（１）、検索領域３２の中でドラッグされたら（２）、ステップＳ２１７で移動スコアを計算してステップＳ２１６に戻り、上記以外の操作の場合は（３）、ステップＳ２１１に戻る。

上記のように、ユーザによる操作によって処理が分岐するため、以降は検索の例を挙げながら説明する。ここでは、リンゴが描かれた検索カード４は映像中の被写体のリンゴに対応し、操作情報での名称はAppleとする。同様にバナナはBanana、ブドウはGrapeとする。

図８は、検索時の基本的な検索カードの操作を示し、具体的には、ユーザが「バナナが画面右から出現する映像」を検索するときの検索カード４の操作を示す図である。
以降、特に言及がない限り図上で映像領域３１は省略している。

検索したい被写体である「バナナ」に対応する「バナナが描かれた検索カード４」をつかみ、検索領域３２にドロップしている。このとき検索カード４を「検索領域３２の右側」から挿入することで、バナナが「画面右から出現」することを表している。このとき記録される操作情報は例えば下記のように表される。この例ではJSON(JavaScript(登録商標） Object Notation)の形式を採っている。ここでキー”from”の値は図6の方向スコアと対応する。
{“object”: “Banana”, “from”: “right”}

図９は、新しい検索カードを生成する操作を示し、具体的には、ユーザが「バナナとブドウが同時に出現する映像」を検索するために新しい検索カード４を生成している様子を示す図である。
バナナの検索カード４をつかみ、ブドウの検索カード４に重ねることで、一枚の中にバナナとブドウの二つが描かれた検索カード４が生成される。このとき、検索カード４を重ねる順番などで映像中の対応するオブジェクトの奥行きや出現する順序などを表してもよい。新しく生成された検索カード４を、図８と同様に検索領域３２に右側から入れた場合、バナナとブドウが同時に右側から出現する映像を検索することを表す。このときの操作情報は例えば下記のように表される。
{“object”: [“Banana”, “Grape”], “from”: “right” }

図１０は、検索カード内のオブジェクトの位置関係を変更する様子を示す図である。
図のように、新しく生成された検索カード４に含まれるオブジェクトについて、検索カード４の中で位置を変更することで、二つのオブジェクトの位置関係を指定してもよい。図ではブドウをバナナの左側に移動しているため、「ブドウとバナナが同時に出現するが、ブドウはバナナから左に離れたところに存在している映像」を指定することになる。図のように検索カード４内でオブジェクトの位置を変更し、新しく生成された検索カード４を検索領域に右側から入れた場合の操作情報は例えば下記のように表される。
{“object”: [“Banana”, “Grape”], “innerPosition”: [{“x”: 200, “y”: 50}, {“x”: 50, “y”: 100}], “from”: “right” }

図１１は、検索カードの属性を変更する様子を示し、具体的には、ユーザが「齧（かじ）られたリンゴが出現する映像」を検索するために検索カードの属性を変更している様子を示す図である。

検索カード４の下部には、cut, bitten, rotten, fallingのような様々な状態が記載されたフィールドが表示されており、検索カード４をそのフィールドに重ねることで検索カード４の属性がフィールドと対応したものに変更される。属性変更に伴い、例えば、検索カード４の画像が齧られたリンゴの画像に変更される。

このフィールドは検索カード４を最初に表示するときにあわせて表示してもよいし、ユーザが検索カードをつかんだとき、対応する被写体がなりうる属性を選んで適宜表示してもよい。また属性が連続的に変更されたとき、その順序を被写体の属性が変化する順序と対応させてもよい。
その後、図８のように検索カードを操作した場合、操作情報は例えば下記のように表される。
{“object”: “Apple”, “condition”: “bitten”, “from”: “right”}

図１２は、検索カードの色合いを変更する様子を示し、具体的には、ユーザが「明け方あるいは夕暮れの太陽が出現する映像」を検索するために、検索カードの属性としての色合いを変更している様子を示す図である。

検索カード４の下部にスライダが設置されており、そのスライダを動かすことで太陽を示す検索カード４の色合いが対応した値に変更される。この指定で参照される色の値は映像上の見えの色としてもよいし、実空間上の被写体の色としてもよい。その後、図８のように検索カードを操作した場合、操作情報は例えば下記のように表される。
{“object”: “Sun”, “color”: {“R”: 220, “G”: 70, “B”: 30}, “from”: “right”}

図１３は、検索カードの粒度を上位概念に変更する様子を示す図である。
検索カード４のうち類似したものを集めてグループ化しておくことで、上位概念での検索を可能とする。例えば上位概念としてフルーツを設定してその検索カード４を用いることで、リンゴ、バナナ、ブドウが出現する映像を横断的に検索することができる。例えば、ボタン１３１をクリックすると、リンゴ、バナナ、ブドウの検索カード４が、フルーツ、人、家具の検索カード４に切り替わる。

また検索カード４は一般的な名詞から作成してもよく、上位概念の検索カードの生成に一般的なオントロジーなどを利用してもよい。

図１４は、検索領域で検索カードを移動させる様子を示し、具体的には、ユーザが「バナナが画面右から左へ移動した映像」を検索するために検索領域内で検索カードを動かしている様子を示す図である。

検索カード４を動かした軌跡の始終点、あるいは動かしている間の連続した座標値を取得して、被写体が同じように動いた映像を検索する。この被写体の移動は画面上の座標を基準としてもよいし、実空間での移動座標や回転、変形などを基準としてもよい。

例えば図１５（ａ）のようにカメラが配置され、図１５（ｂ）のようにリンゴが座標A(300, 350)から座標B(100, 50)に移動しているとする。

一方で、被写体の画面上での動きは、図１５（ｃ）のようになる。リンゴは図１５（ｄ）のように座標A’(0, 200)から座標B’(600, 200)に移動している。

この場合、実空間の座標を基準とするならば、リンゴの検索カードを右下から左上に動かすことで該当の映像が検索され、一方で画面上の座標を基準とするならば、リンゴの検索カードを左から右へ動かすことで該当の映像が検索される。

図１４では、座標A(500, 200)から座標B(150, 200)に検索カード４を移動させているが、検索の条件として「座標A(500, 200)から座標B(150, 200)に移動したもの」としてもよいし、あるいは移動開始の座標を問わず「ベクトルAB(x軸方向に-350)に移動したもの」としてもよいし、あるいは移動の距離を問わず「ベクトルABの方向(x軸の負)に移動したもの」としてもよい。

また検索カード４が検索領域３２内の特定の位置で保持された場合は、その位置で対応する被写体が静止していた映像を検索するとしてもよい。また、画面上や実空間で高速に動いている被写体を検索する場合は、検索カード４をすばやく動かすなど、検索カード４の移動速度を用いて検索してもよい。このとき、検索カード４の移動速度と画面上の被写体の移動速度を単純に照合してもよいし、検索カード４を閾値より速く動かしたときは高速に動いている被写体を検索するなど、高速か否かを判断する閾値を設けてもよい。また検索カード４の移動に緩急をつけ、画面上や実空間での移動速度が変化したことを用いて検索してもよい。

図１４での操作は、例えば下記のような操作情報がとして記録される。ここでキー”move”は移動スコアに対応する。
{“object”: “Banana”, “move”: [{“x”: 500, “y”: 200},{“x”: 150, “y”: 200}] }

図１６は、検索カードの大きさを変える操作を示し、具体的には、ユーザが「バナナからズームアウトした映像」を検索するために検索領域内で検索カードの大きさを動かしている様子を示す図である。

検索カード４の大きさは、例えばマウスならスクロール、タブレットならピンチなどの操作で増減する。この検索カード４の大きさはバナナの画面上の大きさが変化するタイミングを指定するもので、その要因として、カメラがズームイン/アウトしたとき、カメラがバナナに近づいた/離れたとき、バナナがカメラから近づいた/離れたとき、バナナが拡大/縮小したときなどが考えられる。

同様の操作によって、被写体の大きさに限らず、被写体の回転や、その他の変化のタイミングを指定するものとしてもよい。図１６の操作は、例えば下記のような操作情報として記録される。
{“object”: “Banana”, “size”: [100, 50]}

図１７は、検索カードの回転角度を変更する様子を示し、具体的には、ユーザが「バナナが右80度ほど倒れている映像」を検索するために、検索領域外で検索カードを回転している様子を示す図である。

検索カード４の角度は、例えば検索カード４の縁のドラッグや、マウスホイールなどの操作で増減する。検索領域３２の外で回転させてから検索領域３２に入れることで、その角度だけ傾いた被写体が登場する映像、あるいは被写体がその角度だけ傾いたタイミングを指定する。同様の操作によって、被写体の回転に限らず、被写体の大きさや、その他の被写体の状態を指定するものとしてもよい。

図１７の操作で回転した検索カード４を図7と同様に検索領域３２に右側から入れた場合の操作情報は例えば下記のように表される。
{“object”: “Banana”, “rotate”, 80, “from”: “right”}

前述の図１２ではユーザが「明け方あるいは夕暮れの太陽が出現する映像」を検索するため、検索カード４の色を真昼の太陽に対応する白から朝夕の太陽に対応する赤に変化させる。ユーザは、例えば、それから検索カード４を検索領域３２に入れる。このとき特に「夕暮れの映像」を検索したい場合、まずユーザは検索領域３２外で検索カード４の色を白にして、次に検索領域３２に入れてその中で検索カード４の色を赤に変化させる。これにより被写体の状態が変化したタイミング、すなわち太陽が真昼から夕方に移行するタイミングを検索でき、所望の映像を取得できる。この場合の操作情報は例えば下記のように表される。
{“object”: “Sun”, “color”: [{“R”: 255, “G”: 255, “B”: 255}, {“R”: 220, “G”: 70, “B”: 30}]}

図１８は、検索カードを検索領域から検索周辺領域に出す操作を示し、具体的には、ユーザが「バナナが画面左へフレームアウトした映像」を検索するために検索領域の外へ検索カードを動かしている様子を示す図である。

検索カード４を検索領域３２の左側から出す操作が、画面左へのフレームアウトを表している。この操作は例えば下記のような操作情報として記録される。
{“object”: “Banana”, “to”: “left”}

図１９は、検索カードを半分だけ検索領域の外に出す操作を示し、具体的には、ユーザが「バナナとブドウのうち、バナナだけ画面左へフレームアウトした映像」を検索するために、検索カードを検索領域から半分だけ出るように動かしている様子を示す図である。

検索カード４の中でバナナが左側、ブドウが右側に配置され、左半分が検索領域３２からはみ出すように動かしているため、バナナだけフレームアウトしていることを表している。例えばブドウだけ画面左にフレームアウトする映像を検索する場合は、検索カード４の中のオブジェクトを動かしてブドウを検索カード４の左側に配置してから検索カード４を操作する。図１９の操作は、例えば下記のような操作情報として記録される。
{“object”: [“Banana”, “Grape”], “to”: “left”, “only”: “Banana”}

図２０は、複数の検索カードを連続して検索領域に入れる操作を示し、具体的には、ユーザが「リンゴが映った後に、バナナが映った映像」を検索するために、リンゴの検索カード４を検索領域３２に一旦入れて戻した後、続いてバナナの検索カード４を検索領域３２に入れている様子を示す図である。

このように、検索カード４を入れる順序によって、被写体が映像中に出現する時間軸上の順序を指定している。このとき、検索カード４を入れる都度、検索の結果を映像領域３１に表示してもよいし、検索カード４の操作をすべて完了した後で検索を指示する操作を行うことで検索結果を映像領域３１に表示してもよい。

図２１は、検索カードを入れた順番に対応して再生するフレームを定める様子を示し、具体的には、リンゴ、バナナ、ブドウが登場する映像について、各被写体が登場する映像フレーム(シーン)を示す図である。

図中矩形の各列は1つの映像フレームを示し、各行間で同期されているとする。例えば最初の映像フレームではどの被写体も映像に出現していないが、最後の映像フレームではすべての被写体が映っていることを示している。バナナは映像中3回出現するタイミングがあるが、図２０の操作によりリンゴが出現した後にバナナが出現した映像フレームが指定されているため、バナナが2回目に出現した映像フレームが検索結果として得られることになる。

図２０の操作は下記のような操作情報として記録される。ここでキー”after”はsearch_idと対応しており、二行目は”after”: 0であるため一行目の”search_id”: 0の後に発生していることを表している。
{“search_id”: 0, “object”: “Apple”, “from”: “bottom”}
{“search_id”: 1, “object”: “Banana”, “from”: “bottom”, “after”: 0}

図２２は、検索領域内で検索カードをロックしてから別の検索カードを入れる操作を示し、具体的には、ユーザが「リンゴが映っている間に、バナナが映った映像」を検索するために、リンゴの検索カードを検索領域に入れてロックした後、続いてバナナの検索カードを検索領域に入れている様子を示す図である。

検索カード４はマウスの右クリックやタブレットでのダブルタップなどによりロックされ、ロックすることで検索領域３２上に検索カード４が固定表示される。検索カード４をロックすることで、以降の検索カード４の操作時にロックされた検索カード４に対応する被写体が常に映像中に出現していることが指定される。

図２３は、検索カードをロックしてから別の検索カードを入れた場合に再生するフレームを定める様子を示す図である。

バナナは映像中に3回出現するタイミングがあるが、同時にリンゴが映っていることが条件となっているため、検索結果としてはバナナが3回目に出現した映像フレームが得られることになる。図２２の操作は下記のような操作情報として記録される。
{“search_id”: 2, “object”: “Apple”, “from”: “bottom”, “lock”: true}
{“search_id”: 3, “object”: “Banana”, “from”: “bottom”, “after”: 2}

図２４は、検索領域内で検索カードを別の検索カードに近づける操作を示し、具体的には、ユーザが「バナナがリンゴに近づいた映像」を検索するために、予め検索領域にリンゴの検索カードを設置し、続いてバナナの検索カードを検索領域内でリンゴの検索カードに近づけている様子を示す図である。

検索カード４の位置を取得しておき、検索カード４の操作によってその距離が近くなった場合に、被写体の画面上の距離、あるいは実空間での距離が近くなった映像を指定する。逆に検索カード４を離した場合は、被写体の距離が離れた映像を検索する。この操作は例えば下記のような操作情報として記録される。この例では近づいた、離れたといったフラグは立てず、位置に対応するキー”move”の座標値から映像を検索することを想定している。
{“search_id”: 4, “object”: “Apple”, “move”: {“x”: 50, “y”: 100}, “lock”: true}
{“search_id”: 5, “object”: “Banana”, “move”: [{“x”: 500, “y”: 300}, {“x”: 100, “y”: 150}], “after”: 4}

図２５は、検索カードを検索周辺領域で保持した後、検索領域に入れる操作を示し、具体的には、ユーザが「リンゴが映ったしばらく後に、バナナが登場する映像」を検索するために、予め検索領域にリンゴの検索カードを設置し、続いてバナナの検索カードを検索周辺領域でしばらく保持し、その後に検索領域に入れている様子を示す図である。

検索周辺領域３３で検索カード４を保持した場合、直前の検索カード４に対応する被写体が登場して時間が経過していることを表す。この時間は検索周辺領域３２で検索カード４を保持した時間と対応させてもよいし、閾値を設けて一定の時間が経過したか否かで判断してもよい。この操作は例えば下記のような操作情報として記録される。この例では検索周辺領域３３で保持した時間(秒)がキー”wait”に与えられているが、これを真偽値で表現してもよい。ここでキー”wait”は図７の待機スコアに対応する。待機スコアは検索周辺領域３３で検索カード４を保持した時間から線形に求めてもよいし、検索周辺領域３３で検索カード４を保持したタイミングで検索カード４の上部にスライダを表示し、そのスライダで被写体の登場する間隔を入力する、あるいは直接数値をテキスト入力するなど、待機スコアを別に指定するような手段を用意してもよい。
{ “search_id”: 6, “object”: “Apple”, “lock”: true }
{“search_id”: 7, “object”: “Banana”, “after”: 6, “wait”: 5.0}

上記のように、インスタンス操作部１４はユーザによる検索カード４の操作をもとに操作情報を生成する。検索プログラム生成部１５は、インスタンス操作部１４から操作情報を取得し、操作情報に基づいて検索プログラムを生成する。

例えばユーザが「リンゴが画面左から登場した映像」を検索するために、検索カード４を検索領域３２に左側から入れたとする。このとき操作情報は次のように記録される。
{“object”: “Apple”, “from”: “left”}

上記操作情報の例をもとに、検索プログラム生成部１５は、検索プログラムとして例えば次のようなプログラムを生成する。ただしこの例では被写体情報が変数objectsに記録されているとする。また各被写体はobjectsの要素として記録され、例えば図3のように、その要素は配列をもち、その中にフレーム数に対応する変数frame、位置座標に対応する変数posx, posy、サイズに対応する変数sizeを持っているとしている。

次に、検索部１６は、検索プログラム生成部１５から検索プログラムを取得し、さらに被写体情報記憶部１３から被写体情報を参照して検索プログラムに適合するフレーム番号を検索する。このとき複数の映像ファイルを横断的に検索する場合、検索部１６はフレーム番号に加えて映像ファイルへのパスも求める。検索部１６はまた検索プログラムに適合する映像ファイルへのパス、フレーム番号が複数存在する場合、それらを配列として得る。

また、検索部１６は、検索プログラムに適合する映像ファイルへのパス、フレーム番号が存在しなかった場合、基準をゆるめて再度検索してもよい。例えば上記数１に示す検索プログラムの例では「画面左から登場」という条件を「前フレームで存在せず、現フレームでX軸座標が50以下であるもの」という条件に置き換えている。この条件にあてはまるものがなかった場合、この条件を「前フレームで存在せず、現フレームでX軸座標が100以下であるもの」と緩和して再度検索してもよい。

検索部１６が、検索結果として映像ファイルへのパスとフレーム番号を得る、映像情報取得部１７はそれらの情報をもとに映像情報記憶部１１から対応する映像（映像ファイルやフレーム）を取得し、表示部３の映像領域３１に出力する。

このようなシステム動作により、ユーザが検索カードを使って検索行動をしたときに、その結果として検索条件を満たす映像ファイル、あるいは検索条件に最も近い映像ファイルが得られる。また、一本の映像ファイルの中で、ある区間が検索条件を満たす、あるいは検索条件に近いと判定された場合、その区間のみ、またはその区間以降を抽出して検索結果として得る。検索結果は映像領域３１での映像再生として出力されてもよいし、映像ファイルのダウンロードであってもよい。

あるいは、表示部３にフレーム番号を示すような表示によって検索結果をユーザに提示してもよい。また、図２６のように、映像領域３１のタイムラインにおける検索結果に対応する位置にマーカを貼付けることで、映像全体のうちどのタイミングで検索条件を満たすシーンがあったかを素早く判別できる。

以降、表示部３を工夫した例について説明する。

図２７では、映像領域３１と検索領域３２を重ねて表示している。これにより、検索カード４は映像領域３１に重ねるように操作することになる。

図２８のように定点カメラで道路を撮影し、被写体として複数台の車が連続的に通り過ぎていく映像を想定する。ユーザがこの映像から「赤い消防車が通過したシーン」を検索したいと考え、消防車が描かれた検索カード４を映像領域３１の右側から挿入したとする。検索カード４は映像領域３１に入ったタイミングで消え、同時に映像領域３１で再生されている映像は消防車が画面右から現れたシーンまでシークされる。

ここでユーザがマウスボタンを押下したまま、あるいはタブレットでタッチしたまま映像領域３１をなぞったとき、それに消防車が追随するようにシーク位置をずらしていくことで、ユーザに被写体をつかんで動かしているかのような感覚を提供することができる。このシーク位置の連続的な調整は、図１４で述べた検索カード４の移動をマウスカーソルあるいはタッチ位置と置き換えたもので実施してもよいし、検索カード４が消えたタイミングからオブジェクトトラッキングなどの画像処理で求めた被写体位置の軌跡をもとに実施してもよい。

図２９では、検索領域３２に、映像と関連するイラストを用いている。
特にこの例ではF1レースの映像を想定しており、検索領域３２にサーキットコース図、検索カード４に出場選手の名前と所属国旗を利用している。

図３０は、検索領域上に検索カードに関連する情報を表示する効果を示し、具体的には、ユーザが「サーキットの南側コースで日本選手が映っている映像」を検索したいと考えたときの検索カードの操作を示す図である。図では映像領域を省略している。検索領域３２上の位置は、映像の画面上の位置ではなく、実空間(この例ではサーキットコース)上の各選手の位置と対応しており、検索カード４をコースに重ねることでその地点を選手が通過しているシーンの検索を指定している。右側部分は他の選手の位置を検索領域３２に重畳表示しているが、これは映像領域で再生しているシーンのタイミングにおいて他の選手がどの位置にいるかを示している。

図３１は、複数の検索領域を利用して複数の映像を俯瞰するユーザインタフェース画面を示し、つまり、複数の検索領域３２、検索周辺領域３３、映像領域３１を並べ、複数の映像を検索可能とした画面を示す図である。

列ごとに検索領域３２、検索周辺領域３３、映像領域３１は対応しており、左側の検索領域３２に対して検索カード４を操作することで、すぐ右側の映像領域３１に検索結果が表示される。このような画面を用いることで、検索カードの操作とその結果を比較できる。
図３２は、検索領域自体を検索カードとして用いる様子を示す図である。
図のように、検索領域３２や映像領域３１を検索カード４として利用してもよい。例えばある検索領域３２に対する操作で「画面中央付近にバナナが映っているシーン」が検索結果として得られたとする。その検索領域３２を検索カード４として指定し、もう一つの検索領域３２に左側から挿入した場合、「「画面中央付近にバナナが映っているシーン」が画面左側から登場したシーン」が検索結果として得られると想定される。これはワイプ、スライドイン、プッシュなどのシーン切り替えを利用した複数の映像のつなぎや、映像中に別の映像を含むPinPのような映像表現に対して有効だと考えられる。

あるいは、複数の検索領域３２を持つことでその検索結果を連続的に再生することで、複数の映像を繋ぎ合わせた一つの編集映像を自動生成してもよい。アニメーションや撮影では絵コンテと呼ばれるコマ割りのキャンバスで各カットの画面構成を表現する手法が用いられている。そこで検索領域３２を絵コンテの各コマと見立て、検索カード４による操作をそれぞれのコマに加えていくことで映像の各カットを指定する。最後にそれらカットを連続して再生することで、蓄積した映像を素材として所望の編集映像を自動生成する。

以上のように、本発明の実施の形態によれば、ユーザは映像に含まれる被写体の情報をもとに所望の映像や映像フレームを検索できるため、映像の検索が容易になる。被写体の情報とは、被写体の種類、状態、あるいは画面上・実空間上の位置などの時間的な変化や複数の被写体の関係などを含み、ユーザは簡易な操作でもってそれらを指定できる。

特に被写体の名称をテキストベースで入力して検索する従来方法と比較して、映像中に該当の被写体が複数回出現するような場合においては、ユーザはその被写体がどのようにフレームイン/アウトした場面か、どのような状態であったか、などを詳細に指定できるため、所望の映像を得ることが容易になる。またユーザの検索操作と同時に映像フレームの移動や被写体情報に基づく情報提示を行うことで、被写体をつかんで動かしているかのような操作感や映像内容の理解促進を提供できる。

すなわち、本実施の形態によれば、映像検索装置１は、映像のフレームごとに当該フレームのフレーム番号と当該フレーム内の被写体の位置情報が記憶される被写体情報記憶部１３を備え、映像に映る被写体と当該被写体の状態を表す操作対象（４）を予め設けられた検索領域３２に移動させる操作に基づいて当該操作対象（４）がどのように移動したかを表す操作情報を生成し（Ｓ２１）、操作情報に基づいて当該操作対象（４）のように移動する当該状態の当該被写体が映るフレームのフレーム番号を被写体情報記憶部１３から検索するための検索プログラムを生成し（Ｓ２２）、被写体情報記憶部１３から検索プログラムによりフレーム番号を検索する（Ｓ２３）ので、ユーザのインタラクションにより被写体の状態と被写体がどのように移動したかを指定して映像を検索できる。

例えば、操作対象（４）は、図９に示すように、映像に映る複数の被写体と当該各被写体の状態を表し、当該状態の当該複数の被写体が映るフレームのフレーム番号を検索することで、複数の被写体の状態と被写体がどのように移動したかを指定して映像を検索できる。

例えば、図２０〜図２３に示すように、複数の操作対象（４）が順に操作された場合、当該操作の順および当該操作対象に対応する被写体が映るフレームのフレーム番号を検索することで、被写体が映る順を指定できる。

例えば、図２５に示すように、検索領域３２の周辺に検索周辺領域３３が設けられ、操作対象（４）が検索周辺領域３３に移動して待機の後、検索領域３２に移動した場合、操作対象（４）の直前に操作された操作対象（４）に対応する被写体が映像に映ってから待機の時間に応じた時間が経過した後に検索周辺領域３３に待機した操作対象（４）に対応する被写体が映像に映るフレームのフレーム番号を検索することで、待機時間を空けて映像に映りこむ複数の被写体を指定できる。

例えば、図６に示すように、検索領域３２が設けられる装置（テレビ）と操作対象（４）が設けられる装置（タブレット）が異なることで、実施の形態を多様化できる。

例えば、図１４〜図１６、図１８、図１９に示すように、検索領域３２に移動後、操作対象（４）が操作された場合、当該操作対象（４）が検索領域３２でどのように操作されたかを表す操作情報を生成することで、映像内での被写体の動きなどにより映像を検索できる。

また、映像に映る被写体と当該被写体の状態を表す操作対象（４）を予め設けられた検索領域３２に移動させる操作が行われたことを契機に、当該操作対象（４）のように移動する当該状態の当該被写体が映るフレームから構成される映像を所定の表示部に表示させることで、被写体の状態と被写体がどのように移動したかを指定して映像を検索して表示させることができる。

なお、映像検索装置１としてコンピュータを機能させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。

１映像検索装置
２入力部
３表示部
４検索カード
１１映像情報記憶部
１２被写体情報生成部
１３被写体情報記憶部
１４インスタンス操作部
１５検索プログラム生成部
１６検索部
１７映像情報取得部

Claims

映像検索装置の動作方法であって、
前記映像検索装置は、映像のフレームごとに当該フレームのフレーム番号と当該フレーム内の被写体の位置情報が記憶される被写体情報記憶部を備え、
前記動作方法は、
前記映像検索装置が、前記映像に映る被写体と当該被写体の状態を表す操作対象を予め設けられた検索領域に移動させる操作に基づいて当該操作対象がどのように移動したかを表す操作情報を生成し、
前記映像検索装置が、前記操作情報に基づいて当該操作対象のように移動する当該状態の当該被写体が映るフレームのフレーム番号を前記被写体情報記憶部から検索するための検索プログラムを生成し、
前記映像検索装置が、前記被写体情報記憶部から前記検索プログラムによりフレーム番号を検索する
ことを特徴とする映像検索装置の動作方法。
前記操作対象は、前記映像に映る複数の被写体と当該各被写体の状態を表し、
前記動作方法は、当該状態の当該複数の被写体が映るフレームのフレーム番号を検索する
ことを特徴とする請求項１記載の映像検索装置の動作方法。
複数の前記操作対象が順に操作された場合、当該操作の順および当該操作対象に対応する被写体が映るフレームのフレーム番号を検索する
ことを特徴とする請求項１または２記載の映像検索装置の動作方法。
前記検索領域の周辺に検索周辺領域が設けられ、
前記操作対象が前記検索周辺領域に移動して待機の後、前記検索領域に移動した場合、当該操作対象の直前に操作された操作対象に対応する被写体が映像に映ってから前記待機の時間に応じた時間が経過した後に前記検索周辺領域に待機した操作対象に対応する被写体が映像に映るフレームのフレーム番号を検索する
ことを特徴とする請求項３記載の映像検索装置の動作方法。
前記検索領域が設けられる装置と前記操作対象が設けられる装置が異なる
ことを特徴とする請求項１ないし３のいずれかに記載の映像検索装置の動作方法。
前記検索領域に移動後、前記操作対象が操作された場合、当該操作対象が検索領域でどのように操作されたかを表す操作情報を生成する
ことを特徴とする請求項１ないし５のいずれかに記載の映像検索装置の動作方法。
映像に映る被写体と当該被写体の状態を表す操作対象を予め設けられた検索領域に移動させる操作が行われたことを契機に、当該操作対象のように移動する当該状態の当該被写体が映るフレームから構成される映像を所定の表示部に表示させる
ことを特徴とする映像検索方法。
映像のフレームごとに当該フレームのフレーム番号と当該フレーム内の被写体の位置情報が記憶される被写体情報記憶部と、
前記映像に映る被写体と当該被写体の状態を表す操作対象を予め設けられた検索領域に移動させる操作に基づいて当該操作対象がどのように移動したかを表す操作情報を生成するインスタンス操作部と、
前記操作情報に基づいて当該操作対象のように移動する当該状態の当該被写体が映るフレームのフレーム番号を前記被写体情報記憶部から検索するための検索プログラムを生成する検索プログラム生成部と、
前記被写体情報記憶部から前記検索プログラムによりフレーム番号を検索する検索部と
を備えることを特徴とする映像検索装置。