JP3615657B2

JP3615657B2 - 映像検索方法及び装置ならびに記録媒体

Info

Publication number: JP3615657B2
Application number: JP14524598A
Authority: JP
Inventors: 博野島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-05-27
Filing date: 1998-05-27
Publication date: 2005-02-02
Anticipated expiration: 2018-05-27
Also published as: JPH11338876A; US6442538B1

Description

【０００１】
【発明の属する技術分野】
本発明は、映像ファイルを蓄積し、再利用することを目的としたデータベース管理システムに関し、特にこのデータベースを用いて、コンテントベースで符号化された映像ファイルを登録し検索するための効果的な映像検索方法及び装置ならびに記録媒体に関する。
【０００２】
【従来の技術】
データベースから所望の映像を検索する場合に、映像の見出し、映像の著作権者、映像が作成あるいは撮影された日付などの、映像の書誌的情報に対する検索を行なうだけでなく、映像そのものに出現する物体に関する具体的要件を指定して検索を行なうことが、より効果的である。
【０００３】
近年のデータベース管理システムでは、静止画像に関しては、当該画像に付与されたキーワードを利用したキーワード検索だけでなく、画像解析プログラムも併用されるようになってきている。画像データの登録の際に、画像の全体的な色合い、局所的な色合い、エッジ情報などの特徴を解析プログラムを用いて画像特徴量という形式であらかじめ抽出しておき、検索の際に特徴量の類似度を比較する。その結果、類似度がある閾値以上のものを条件に合致したもの、閾値以下のものを条件に合致しないものとして検索にヒットしたかどうかを区別したり、あるいは検索結果の一覧を利用者へ提示する際に類似度の高い順に並べ替えて表示して検索の効率向上を図るシステムが、特願平９−１９６１５４号で実現されている。
【０００４】
ここで述べたような、画像の特徴量を利用した画像検索システムは、映像管理の分野にも応用可能である。映像シーンの構成要素である一連のフレーム画像のうち、そのシーンを代表するフレームを１枚の代表画像として抽出し、それらの代表画像を上述の静止画像管理と同様の手法で処理して画像の特徴量を算出しておき、代表画像検索を通じて利用者の所望の映像を検索することが容易に実現可能である。これまで行なわれて来た映像の書誌情報や映像の区間に関連付けられたコメント情報を元にした間接的な映像検索に、代表画像の類似度検索を組み合わせることで、より実際の映像イメージに近い検索が実現できるようになる。
【０００５】
【発明が解決しようとする課題】
このような、映像の代表画像の特徴量を使った類似度評価による従来の映像検索の方法においては、次のような問題がある。
【０００６】
映像シーンの代表画像を用いた映像検索では、映像が実際に再生される時のある一時点の静止画像にのみ着眼している。映像には画像と異なり動きがあるために、代表画像の選び方によっては利用者が想定している映像シーンのイメージと異なることもあり、代表画像による検索が有効に働かないことがあるという問題点があった。
【０００７】
例えば、背景の中で物体が右から左へと移動して消えて行くような映像シーンがデータベースに登録されることを考える。たまたま物体が右端に位置している時点で代表画像を取得した場合に、利用者が物体の位置を右側でない他の位置、仮に左端と指定して画像検索を行なってしまうと、その映像シーンを検索するのは難しくなるという問題がある。また、代表画像に偶然何らかの物体が写っている時に、背景だけをイメージして画像検索を行なった場合には、代表画像中の物体の存在が邪魔になり、検索することがより難しくなる。
【０００８】
ところで、映像ファイルの符号化方式の１つとして、圧縮効率を高めたり、再利用性を高めたりするために、映像ファイルが、内部では背景と物体（以降、これらをそれぞれコンテントと呼ぶ）とが区別されて符号化され、複数の映像のストリームとして構成される方式がある。この方式では、再生される段階でそれらの映像ストリームが合成処理されて１つの映像として再生される。このようにコンテントベースで映像ファイルが符号化されている場合であっても、コンテントの合成後の再生映像を元にして従来の方式で映像データの登録を行なってしまうと、選択された代表画像によってはこれまで同様に検索が難しくなると問題が生じる。
【０００９】
本発明の目的は、コンテントベースで符号化された映像ファイルを管理するデータベース・システムにおいて、利用者が映像に現われる個々のコンテントに着眼して検索条件を設定し、映像シーン検索を行なうことが可能な映像検索方法及び装置を提供することにある。
本発明の前記ならびにその他の目的及び新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【００１０】
【課題を解決するための手段】
本願において開示される発明のうち代表的なものの概要を簡単に説明すれば、以下のとおりである。
（１）データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法であって、構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ１つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の１つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示する映像検索方法である。
【００１１】
本発明のポイントは、例えば、映像シーンの背景映像と主体映像とを別々に抽出してデータベースに記録しておき、利用者が所望の映像シーンを検索する際には、前記データベースに記録されている背景映像と主体映像とを別々に検索し、この検索された二つの情報から利用者の検索イメージに近い映像シーンを得る映像検索方法である。
【００１２】
（２）前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出しておき、当該画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておき、画像の類似度検索を元にして映像検索を行なう際の検索時参照画像の選択方法として、映像シーンの中で一定時間間隔毎に画像の比較を行ない、類似度が高い画像が続いた時はその先頭の１つのみを該映像シーンの検索時参照画像として採用する映像検索方法である。
【００１３】
（３）前記映像シーンの検索時参照画像の選択方法を、映像シーンの替わりに映像の構成要素であるコンテントに対して適用し、映像コンテントの中の検索時参照画像の類似度検索によってデータベース中の映像要素オブジェクトを検索し、該映像コンテントが合成されて再生される映像シーンを映像検索の結果とする映像検索方法である。
【００１４】
（４）前記映像コンテントが、再生時に他の映像コンテントと合成される時に画像の一部が透明もしくは半透明として合成される映像コンテントであった場合に、前記映像コンテントの検索時参照画像の画像特徴量の算出時に、合成処理時に透明として取り扱われる部分を除いた矩形又は半透明として取り扱われる部分まで除いた矩形を定義し、該矩形の内部を１枚の画像とみなして画像特徴量の算出を行ないデータベースに保持しておき、矩形内画像特徴量を映像検索の対象項目とする映像検索方法である。
【００１５】
（５）前記矩形内画像特徴量の算出の際、前記特徴量を該矩形の重心位置により求まる元画像内の位置情報とともにデータベースに保持しておき、矩形内画像特徴量と重心位置情報とを組み合わせて映像検索の対象項目とする映像検索方法である。
【００１６】
（６）前記映像要素オブジェクトがテキスト・ストリームの場合に、該ストリームからテキスト情報を文字コード列として自動的に抽出し、前記文字コード列を再生時に合成される他の映像要素オブジェクトとの時間的リンク情報とともにデータベースに格納し、テキスト検索で合致した際に、リンクされている映像要素オブジェクトが再生時に合成されてできる映像シーンを検索結果映像とする映像検索方法である。
【００１７】
（７）データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する装置であって、構成要素であるコンテント毎に符号化され、再生時に合成されて表示されるための該コンテント同士の関係情報を持っている映像ファイルをデータベースへ登録する際に、映像ファイルのストリーム解析を行なう手段と、この解析により分離されて抽出された各種コンテントをそれぞれ１つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を該コンテントから抽出する手段と、前記映像要素オブジェクトの情報と前記アノテーション情報を共にデータベースに登録する手段と、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述する手段と、これらの記述の１つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行なう手段と、前記合致した映像要素オブジェクトの出現時間区間に関する集合演算を施して検索結果映像シーンを定義する手段と、利用者が提示された検索結果リスト中の所望の映像シーンを指定する手段と、前記データベースから対象の映像ファイルを取得し、利用者に提示する手段を有するものである。
【００１８】
（８）前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出する手段と、前記画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておく手段と、画像の類似度を元にして映像検索を行なうための検索時参照画像の選択を行なう際、映像シーンの中で一定時間間隔毎に画像の比較を行なう手段と、類似度が高い画像が続いた時はその先頭の１つのみを前記映像シーンの検索時参照画像として採用する手段を有する映像の検索装置である。
【００１９】
（９）前記映像コンテントの中の検索時参照画像の類似度検索によってデータベース中の映像要素オブジェクトを検索する手段と、前記映像コンテントが合成されて再生される映像シーンを映像検索の結果とする手段を有する映像の検索装置である。
【００２０】
（１０）前記映像コンテントが、再生時に他の映像コンテントと合成される時に画像の一部が透明もしくは半透明として合成される映像コンテントであった場合に、映像コンテントの検索時参照画像の画像特徴量の算出時に、合成処理時に透明として取り扱われる部分を除いた矩形又は半透明として取り扱われる部分まで除いた矩形を定義し、該矩形の内部を１枚の画像とみなして画像特徴量の算出を行ないデータベースに保持する手段と、矩形内画像特徴量を映像検索の対象項目とする手段を有する映像の検索装置である。
【００２１】
（１１）前記矩形内画像特徴量の算出の際、当該特徴量を前記矩形の重心位置により求まる元画像内の位置情報とともにデータベースに保持する手段と、
矩形内画像特徴量と重心位置情報とを組み合わせて映像検索の対象項目とする手段を有する映像の検索装置である。
【００２２】
（１２）映像要素オブジェクトがテキスト・ストリームの場合に、該ストリームからテキスト情報を文字コード列として自動的に抽出する手段と、該文字コード列を、再生時に合成される他の映像要素オブジェクトとの時間的リンク情報とともにデータベースに格納する手段と、テキスト検索で合致した際に、リンクされている映像要素オブジェクトが再生時に合成されてできる映像シーンを検索結果映像とする手段を有する映像の検索装置である。
【００２３】
（１３）データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法の処理手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ１つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の１つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示するプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【００２４】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態（実施例）を詳細に説明する。
図１は本発明に係る一実施形態のデータベースシステムの概略構成を示すブロック構成図である。
【００２５】
本実施形態のデータベースシステムは、図１に示すように、クライアント−サーバ型のシステムであり、通信ネットワーク９０でネットワーク接続された映像入力端末装置（クライアント）１０と映像検索端末装置（クライアント）２０と映像検索サーバ装置３０で構成される。映像検索サーバ装置３０は、高速な磁気ディスクで構成される映像ファイル格納領域４１を管理する映像蓄積装置４０、各種の映像情報テーブルが格納される映像情報テーブル領域５１を管理するデータベース管理システム５０、各モジュールにおける処理過程のデータを一時的に保持しておくための一時メモリ６０、及び個々の処理モジュールからなる。
【００２６】
前記処理モジュール（処理手段）としては、映像ストリーム解析処理モジュール７０、検索時参照画像取得処理モジュール７１、画像特徴量算出処理モジュール７２、テキスト情報取得処理モジュール７３、映像シーン代表画像取得処理モジュール７４、映像検索処理モジュール８０、画像特徴量類似度計算処理モジュール８１がある。ここで、サーバ機能とクライアント機能を通信ネットワーク９０を介さずに同一装置上で動作するように実装しても、本発明の実施には差し支えない。
【００２７】
図１において、映像のデータベース登録時に、まず、映像が映像入力端末装置（クライアント）１０へ投入され、通信ネットワーク９０を介して映像検索サーバ装置３０に伝送される。伝送と平行もしくは伝送完了後に、映像を検索するための情報を映像の中から抽出し、映像蓄積装置４０の高速な磁気ディスクで構成される映像ファイル格納領域４１のデータベースに登録する。
【００２８】
具体的には、映像ストリーム解析処理モジュール７０で映像をストリームの分離装置に通すことにより、映像ストリーム、音声ストリーム、テキスト・ストリーム、その他の個々の映像ファイル独自のストリームに分解し、それぞれを映像要素オブジェクトとする。これらに対し、オブジェクトの種類に対応した解析およびデータベースへの登録処理を行なう。
【００２９】
映像ストリームからなる映像要素オブジェクトの場合は、検索時参照画像取得処理モジュール７１により、その映像ストリームの開始時刻、終了時刻を記録するとともに、その映像ストリーム中の特徴的な映像フレームを静止画像として抽出し、これらを検索時参照画像として、画像特徴量算出処理モジュール７２により画像の特徴量を算出しておく。
【００３０】
複数の映像ストリームが再生時に合成される場合には、重ね合わせの際に、一方のストリームでは背景など画像の一部を透明化させる必要がある。これは一般的にはクロマキー合成もしくはブルーバック合成と呼ばれるものである。ここで検索時参照画像においては、クロマキー合成時に透明として取り扱われるドットかどうかを判断するためのアルファ・プレーンまで考慮し、画像特徴量算出の前に透過部分を除去しておく。これによって再生時に見えない部分は検索過程でも無視されることになる。
【００３１】
また、画像特徴量算出処理モジュール７２における前記画像特徴量算出の際には、透過部分を最大限に除くことができる矩形を定義し、特徴量はその矩形の内部だけで算出し、矩形が元画像の中でどの位置にあったのかを記録しておくことで、物体の特徴や映像イメージが検索時参照画像情報により一層反映される。
【００３２】
なお、変化のある映像要素オブジェクトの場合は、１つの映像要素オブジェクト中から、検索時参照画像が複数枚取られることもある。これらの時刻情報及び検索時参照画像の画像特徴量は検索用のデータベースに格納される。画像の特徴量は数値データの並び、数値列である。
【００３３】
テキスト・ストリームからなる映像要素オブジェクトの場合は、テキスト情報取得処理モジュール７３で、文字コード列と、その文字列の表示に関係する開始時刻、終了時刻を記録し、データベースに格納しておく。テキスト情報に関しては、映像ファイルからの自動抽出の他、オペレーターの手入力によるコメント情報も同様に取り扱い管理できるようにしておく。
【００３４】
音声ストリームや個々の映像ファイル独自のストリームからなる映像要素オブジェクトの場合には、そのストリームの開始時刻、終了時刻とストリーム種別のみ記録し、データベースに格納しておく。
【００３５】
コンテントベースで符号化された映像を検索する際には、映像シーン代表画像取得処理モジュール７４で、上述のようにして抽出された、映像検索のためのキーワード・数値列等で表わされる映像のコメント情報（以下、アノテーションと称す）を元に、映像要素オブジェクト毎に検索条件を指定して検索を実行する。
【００３６】
映像検索処理モジュール８０における検索は、データベースに格納されたアノテーション情報に対して行なわれ、検索の過程で映像ファイルを直接参照して調べることはしない。データベースに格納された映像要素オブジェクト毎に検索条件に合致する映像ファイルとその時間区間を調べる。検索条件が、複数の映像コンテントの論理積や論理和といった集合演算として指定されていた場合には、さらに検索結果の映像の時間区間に対して同義の集合演算を施し、その結果を映像検索の結果とする。これによって利用者は、画像特徴量類似度計算処理モジュール８１を用いて、映像に現われている個々の物体に着眼して所望の映像シーンの検索をすることが可能になる。
【００３７】
前記映像入力端末装置１０は、映像ファイルをデータベースに登録する際に用いられる端末である。映像ファイルはこの装置を介して入力され、通信ネットワーク９０経由で映像検索サーバ装置３０に伝送される。
【００３８】
前記映像検索端末装置２０は、映像ファイルを検索する際に利用者が操作する端末である。利用者からの映像検索の条件入力を受け付け、検索結果の一覧の提示、検索結果映像シーンの再生などがこの端末上で行なわれる。
【００３９】
前記映像蓄積装置４０には、映像入力端末装置１０から送信された映像ファイルがそのままの形式で格納される。再生時に元の形式と時間の整合性を取ることが可能であれば、ここでは形式変換されて格納されていても構わない。
【００４０】
前記データベース管理システム５０では、映像データの登録時に抽出された、映像ファイルに関する各種アノテーション情報が、映像情報テーブル領域５１内でそれぞれテーブル形式で管理される。次に、ここで管理される各種テーブルについて説明する。
【００４１】
図２は映像情報テーブル領域５１で管理される各種テーブルの一覧を示す。映像ファイル管理テーブル５２、オブジェクト管理テーブル５３、検索時参照画像管理テーブル５４、重心情報管理テーブル５５、映像シーン管理テーブル５６、テキスト・アノテーション管理テーブル５７が、映像情報テーブル領域５１で管理される。
【００４２】
図３は映像ファイル管理テーブル５２の構成例である。テーブルのカラムとしては、映像ファイルの識別子を表わすファイルＩＤ５２１、映像ファイルが格納されている場所を指し示す所在情報５２２、映像ファイルの形式や長さ、アクセス権などの情報を格納する管理属性情報５２３、その映像に関する著作権者、出演者情報、作成あるいは撮影された年月日といった情報を格納する書誌情報５２４がある。ファイルＩＤ５２１はこのテーブルでユニークな値で、所在情報５２２と１対１対応している。
【００４３】
図４はオブジェクト管理テーブル５３の構成例である。ここでは映像ファイル中の各種コンテントが映像要素オブジェクトとして、属性情報などとともに管理される。テーブルのカラムとしては、映像要素オブジェクトの識別子を表わしテーブルのレコードを一意に識別するオブジェクトＩＤ５３１、そのオブジェクトがどのファイルに属するのかを示すファイルＩＤ５３２、映像ファイル内のコンテントを識別するためのコンテントＩＤ５３３、その映像要素オブジェクトが映像なのか、音声なのか、テキスト・ストリームなのかといったオブジェクトの種類を表わすオブジェクト属性５３４、映像要素オブジェクトの時間区間を示す開始タイムコード５３５及び終了タイムコード５３６などがある。オブジェクトＩＤ５３１と、ファイルＩＤ５３２とコンテントＩＤ５３３とを組にしたものとが、１対１対応している。コンテントＩＤ５３３については、映像ファイルのコンテント自身に映像ファイルの内部で割り振られているＩＤを流用しても、あるいはデータベースへの登録時に別途独自に割り振っても構わない。また、本実施形態においてはタイムコードをＳＭＰＴＥ形式としているが、別の表現形式を用いても、本発明の実施においては差し支えない。
【００４４】
図５は検索時参照画像管理テーブル５４の構成例である。ここで管理されるのは、映像コンテントから抽出された、そのコンテントの中で特徴的なフレーム画像とその画像特徴量である。コンテントから抽出されたものであり、実際に再生される時に合成された結果として利用者が目にするフレーム画像ではなく、あくまで合成前のフレーム画像である。また、映像コンテントによってはクロマキー合成のためのアルファ・プレーンを伴なっていて、他の映像コンテントとの合成時に、上書きしたり、上書きされたり、半透明で重ね合わせられたりといった指定を伴なうことがある。
【００４５】
ここでは、アルファ・プレーンとは合成処理済みで、他の映像コンテントとは合成されていない時点のフレーム画像を取り扱う。アルファ・プレーンは２値とは限らず、例えば、煙らしさを表わすための半透明という規格もある。アルファ・プレーンとの合成によって、完全に透明として取り扱われる領域については、画像特徴量計算の対象外として検索の精度を高めることができる。透明部分を特徴量計算の対象外とする手順については後述する。
【００４６】
テーブルのカラムとしては、検索時参照画像を識別するための画像ＩＤ５４１、そのフレーム画像がどの映像要素オブジェクトから取得されたものなのかを示す映像オブジェクトＩＤ５４２、そのフレームが取得された時間を表わすタイムコード５４３、そのフレーム画像の形式を表わす画像フォーマット５４４、フレーム画像そのものが格納される画像本体５４５、画像の特徴量を格納する画像特徴量５４６などがある。画像フォーマット５４４や画像本体５４５は、画像特徴量算出の際には必要だが、その後の映像検索の過程ではほとんど必要とされない。したがって、画像フォーマット５４４及び画像本体５４５カラムがこのテーブルになくても、本発明の実施には何ら差し支えない。
【００４７】
図６は重心情報管理テーブル５５の構成例である。アルファ・プレーンの合成によって透明な部分ができた時に、透明でない部分の物体だけを画像特徴量抽出の対象とするため、元画像における物体の位置情報を画像ＩＤとペアにして管理する。アルファ・プレーンとの合成によって、形状には変化がなく、かつ動きのあるようなオブジェクトに関しては、１つの画像ＩＤに対してここで複数の重心情報レコードが作成されることもある。
【００４８】
なお、アルファ・プレーンとの合成を伴わない場合は、便宜上、重心は画像の中心としておく。テーブルのカラムとしては、検索時参照画像管理テーブル５４の画像ＩＤカラムに対応する画像ＩＤ５５１、Ｘ方向及びＹ方向の重心位置をそれぞれ０〜１００の範囲に正規化した重心Ｘ５５２と重心Ｙ５５３がある。ここでは０〜１００の範囲に正規化したが、画面上における相対位置が特定できる表現形式であれば、他の形式であっても本発明の実施には差し支えない。
【００４９】
図７は映像シーン管理テーブル５６の構成例である。これは、前述の映像要素コンテントとは直接の関係はなく、通常の、再生時の映像における場面の切り替わり点を区切りとした映像のシーンを単位として、その区間情報と代表フレーム画像を管理するためのものであり、映像データ登録時に映像の切り替わりを検出するプログラムを用いて映像シーンの区間定義を行なう。
【００５０】
テーブルのカラムとしては、映像シーンを識別するためのシーンＩＤ５６１、映像シーンの含まれる映像ファイルを示す映像ファイルＩＤ５６２、映像シーンの時間区間の始まりを示す開始タイムコード５６３、映像シーンの時間区間の終わりを示す終了タイムコード５６４、代表フレーム画像を取得した時間を示す代表タイムコード５６５、取得した代表フレームの画像形式を表わす画像フォーマット５６６、代表フレーム画像の実体を格納する画像本体５６７がある。本実施例では映像シーンに代表画像は１つとしてあるが、代表画像の定義されていない映像シーン、あるいは代表画像が複数定義された映像シーンがあっても構わない。
【００５１】
図８はテキスト・アノテーション管理テーブル５７の構成例である。テーブルのカラムとしては、個々のテキスト・アノテーションのレコードを一意に識別するためのテキストＩＤ５７１、そのテキスト・アノテーションがどの映像ファイルに含まれるものか、あるいは別途人手によって付加されたものであった場合にどの映像ファイルに関係するものかを示す映像ファイルＩＤ５７２、テキスト・アノテーションが定義された時間区間を示す開始タイムコード５７３、終了タイムコード５７４、そして文字コード列そのものが格納されるテキスト情報５７５がある。ここでのテキスト情報は、映像のテキスト・ストリームから自動的に抽出する他、人手によって入力されるものを含めても構わない。
【００５２】
次に、図１中の各処理について説明する。処理７０〜７４は、主に映像ファイルを映像データベースに格納する際に関与する処理である。処理８０〜８１は主に映像データベースから映像シーンを検索する際に関与する処理である。登録と検索とに分けて、まず全体の処理の流れについて大まかに説明した後、各処理の詳細を説明する。
【００５３】
＜映像ファイル登録処理の大まかな流れ＞
映像ファイルの登録は、映像ファイルそのものの蓄積装置への保存、映像ファイルをその構成要素であるコンテントにストリーム分離を行なった上での映像要素オブジェクト情報のデータベースへの登録、映像ファイルをシーンの変化点で区切った映像シーン情報のデータベースへの登録、これら３つの処理に分けることができる。これらを同時並行処理させても、あるいは逐次処理させても、本発明の実施には差し支えない。ここでは同時並行処理における実施例を述べる。
【００５４】
第１の処理、すなわち、映像ファイルの、映像蓄積装置４０への格納処理は、映像入力端末装置１０から送られてきた映像ファイルを、そのままの形式、もしくは再現可能な形式で映像ファイル格納領域４１に保存することである。
【００５５】
第２の処理、すなわち、映像オブジェクト情報の登録処理は、同時並行処理をする場合には、映像入力端末装置１０から送られて来る映像ファイルを実時間処理して、映像オブジェクトの情報をデータベースに登録する。逐次処理とするのであれば、一旦映像ファイル格納領域４１に保存された映像ファイルに対して処理をすることでも構わない。
【００５６】
第３の処理、すなわち、映像シーン情報の登録処理も、同時並行処理をする場合には映像入力端末装置１０から送られて来る映像ファイルを実時間処理して、映像のシーン情報をデータベースに登録する。逐次処理とするのであれば、一旦映像ファイル格納領域４１に保存された映像ファイルに対して処理をすることでも構わない。
【００５７】
以上述べた３つの登録処理によって、映像検索サーバ装置３０への映像ファイルの登録が行なわれ、利用者からの検索要求に応えられるようになる。
【００５８】
＜映像ファイルの映像ファイル格納領域への保存処理＞
これは、基本的に映像ファイルを磁気ディスクに書き込むだけの処理である。ただし、他の２つの登録処理のいずれかが正常終了しなかった場合には、ここで書き込まれた映像ファイルは無効とされなければならない。また、逆にここでの映像ファイルの保存処理に失敗した時には、他の２つの登録処理を無効化させる必要がある。
【００５９】
＜映像要素オブジェクト情報の登録処理＞
映像要素オブジェクト情報の登録処理のフローチャートを図９に示す。これは図１の映像ストリーム解析処理７０に相当する。
【００６０】
図９のステップ７０００で、一時メモリ６０の初期化をはじめとする登録処理の準備を行なう。準備が完了したら、映像ファイルのストリームが送られてくるのを待つ。
【００６１】
続くステップ７００１でストリームの種別を判別する。ここでは大きく３つ、映像ストリーム、テキスト・ストリーム、その他のストリームに分けている。その他のストリームとしては、オーディオ・ストリーム、ユーザ定義ストリームなどがある。なお、映像のストリームは複数種類のものが混在して伝達されてくるものであり、個々のストリームに対する処理は本来並行処理を行なわなければならない。本実施形態では、簡便のため、以下の説明は１つ１つのストリーム単位に記述する。
【００６２】
ステップ７００２で映像ストリームと判断された場合、ステップ７００３の検索時参照画像取得処理が行なわれる。この処理の詳細については後述する。この処理が終わると、検索時参照画像に関する情報が一時メモリ６０に格納されてくる。
【００６３】
ステップ７００４でテキスト・ストリームと判断された場合、ステップ７００５のテキスト情報取得処理が行なわれる。この処理の詳細についても後述する。この処理が終わると、テキスト情報が一時メモリ６０に格納されてくる。
【００６４】
ステップ７００４でテキスト・ストリームと判断されなかった場合、このストリームは検索適用外のストリームとみなして、ステップ７００６で映像要素オブジェクトの時間区間、すなわち、開始タイムコードと終了タイムコードの取得のみ行なう。これらの情報は、一時メモリ６０に格納されてくる。
【００６５】
次に、ステップ７００７で映像ファイルの終わりかどうかを判断する。終わりでなければ再度ステップ７００１に戻り、引き続きストリームの処理を行なう。映像ファイルの終わりであった場合、一時メモリに格納された映像のアノテーション情報を、ステップ７００８でデータベースに登録する処理を行なう。この処理の詳細についても後述する。このデータベースへの登録処理を抜けると、映像オブジェクト情報登録処理は完了である。
【００６６】
ここで、図９のステップ７００３、検索時参照画像取得処理のフローチャートを図１０に示す。これは図１の検索時参照画像取得処理７１に相当する。
【００６７】
まず、はじめに、ステップ７１００で映像ストリームの開始タイムコードを取得する。この後の処理は基本的に１フレーム進む度に行なわれる。
【００６８】
続くステップ７１０１で、直前に検査したフレーム位置と今回のフレーム位置とを比較する。フレーム位置の差が既定値未満だった場合は何もせず、ステップ７１０２から再度７１０１に戻り、次のフレームに対して処理を続ける。
【００６９】
ステップ７１０３で、現在のフレーム画像が合成時に一部が透明として処理されるものであるか、すなわち、アルファ・プレーンが定義されているかどうかを判断する。定義されている場合、ステップ７１０４でＡｌｐｈａに１を設定しアルファ・プレーンの定義があることを保持しておく。
【００７０】
アルファ・プレーンの定義がある場合に行なわれる、具体的な処理の様子を図１１に示す。元画像５８１が映像コンテントの１つである。車と山と太陽とが映っている。この画像を、再生する際に別の映像コンテントと合成するために、ステップ７１０５の処理でアルファ・プレーン５８２と合成する。ここでのアルファ・プレーンは２値、すなわち完全透明か全く透明でないかのどちらかとしてあり、斜線部分を完全透明としている。合成された結果が合成画像５８３であり、背景の山と太陽が消去され、車だけが映っている。
【００７１】
合成画像５８３から画像特徴量を抽出してしまうと、車が画像の右下に偏って映っているため、車の画像特徴量にもこの位置情報が反映されてしまう。これを防ぐために、ステップ７１０６で、水平方向及び垂直方向にそれぞれ２本、透明でない画像領域に接するように直線を引く。この状態を矩形抽出画像５８４に示す。そして、この４本の線の交点をそれぞれ頂点とする矩形を定義し、その矩形内部を画像特徴量抽出に使用することにする。この矩形内画像を画像特徴量抽出用画像５８５に示す。以上の矩形定義によって、物体の位置的な偏りが除去され、純粋に車の画像特徴量の算出が可能になる。矩形の定義とともに、ステップ７１０７で、その矩形の重心位置を算出し、それを元画像内の物体の位置情報として保持しておく。なお、厳密に物体の重心を計算するのであれば、矩形の重心ではなく、矩形内を更に分割して物体の存在位置に関して加重平均を求めるのが正しい。ステップ７１０７において、そのようにして物体の重心を計算しても、本発明の実施には何ら差し支えない。
【００７２】
ステップ７１０３で現在のフレーム画像にはアルファ・プレーンが定義されていないと判断された場合、ステップ７１０８でＡｌｐｈａに０を設定しアルファ・プレーンの定義がないことを保持しておく。
【００７３】
次のステップ７１０９で、直前に登録対象として取得された検索時参照画像と今回のフレーム画像とを比較して差分を算出する。そして、ステップ７１１０でこの差分値が既定の閾値以上かどうかを判断する。
【００７４】
閾値以上であった場合は、この画像を新たに検索時参照画像として登録することになる。まずステップ７１１１で画像の特徴量を算出する。これは図１の画像特徴量算出処理７２に相当する。次にステップ７１１２で、現在のタイムコード、画像データ、画像特徴量などを一時メモリ６０に保持する。
【００７５】
閾値未満で、ステップ７１１３でＡｌｐｈａ＝１でない、すなわちアルファ・プレーンの定義がないと判明した場合は、直前の登録フレームと比べて変化が乏しいということであるから、次の処理をするためにステップ７１１７へ飛ぶ。
【００７６】
閾値未満でも、ステップ７１１３でＡｌｐｈａ＝１であった場合、すなわちアルファ・プレーンとの合成があった場合は、画面中で物体の移動が行われた可能性がある。ステップ７１１４で重心の移動量を算出し、ステップ７１１５で重心の移動量が既定の閾値を超えていた場合、ステップ７１１６で重心情報のみ追加登録する。
【００７７】
現在のフレーム画像に対する処理が終わったら、ステップ７１１７でストリームの終わりかどうかを判断する。終わりでなかったら、ステップ７１０１に戻って次のフレーム画像の処理を行なう。終わりだった場合、ステップ７１１８でストリームの終了タイムコードを取得し、元の処理に戻る。
【００７８】
次に、図９のステップ７００５、テキスト情報取得処理のフローチャートを図１２に示す。これは、図１のテキスト情報取得処理７３に相当する。
【００７９】
まずはじめに、ステップ７３００でテキスト・ストリームの開始タイムコードを取得する。
【００８０】
続くステップ７３０１で、テキスト・ストリームの中から文字コード列を取得する。この際、制御コードなどの非テキスト情報は除いておくことで、データ量を減らすことが可能である。ただし、文字コード列をそのままの形式で取得しておいても、本発明の実施には差し支えない。
【００８１】
次のステップ７３０２では、テキスト・ストリームの終わりかどうかを判断する。終わりに達していなければ、再びステップ７３０１に戻り、文字列取得を行なう。
【００８２】
ストリームの終わりに達していたならば、ステップ７３０３でテキスト・ストリームの終了タイムコードを取得し、元の処理に戻る。
【００８３】
次に、図９のステップ７００８、データベース登録処理の詳細を説明する。この処理のフローチャートを図１３に示す。
【００８４】
これまでの処理で取得されたデータベースに登録すべきデータは、すべて一時メモリ６０に蓄えられている。まず、ステップ７１２０で、データベース管理システム５０へ登録対象のデータを転送するとともにデータの登録指示を行なう。ここでデータベース管理システムにおいて、映像情報テーブルへのデータ登録処理が行なわれる。
【００８５】
ステップ７１２１で登録処理が失敗したと判断された場合、ステップ７１２２で、他のデータ登録処理、すなわち、第１の処理である映像ファイルの格納処理及び第３の処理である映像シーン情報の登録処理であるが、これらをキャンセルさせ、映像データ登録処理は失敗に終わる。この結果、映像データ登録はまったく行なわれなかったかのようにデータベースは復元される。
【００８６】
ステップ７１２１で登録処理が成功したと判断された場合、ステップ７１２３で、他のデータ登録処理、すなわち上述の映像ファイルの格納処理及び映像シーン情報の登録処理が成功したかどうかの確認を行なう。その結果ステップ７１２４で１つでも失敗していたと判断された場合は、ステップ７１２５で本登録処理を取り消し、異常終了とする。すべて成功していたと判断された場合は、ステップ７１２６で正常終了処理を行ない、元の処理に戻る。
以上で図９のフローチャートは終わりに達する。
【００８７】
＜映像シーン情報の登録処理＞
映像シーン情報の登録処理のフローチャートを図１４に示す。これは図１の映像シーン代表画像取得処理７４に相当する。
【００８８】
なお、この実施形態では、映像の各シーンに対して代表画像はシーンの先頭のフレーム画像を１枚だけ取得することを想定している。
【００８９】
図１４のステップ７４００で、一時メモリ６０の初期化をはじめとする登録処理の準備を行なう。準備が完了したら、映像ファイルの再生画像が送られてくるのを待つ。
【００９０】
続くステップ７４０１では、映像シーンの開始を待った上で、シーン開始タイムコードの取得を行なう。
【００９１】
次のステップ７４０２で代表フレーム画像の取得処理を行なう。ここではシーンの先頭のフレームを代表画像として取得し、代表画像は一時メモリ６０に保持される。
【００９２】
代表画像の取得後、ステップ７４０３でシーンの切り替わりがあったかどうかを判断する。ステップ７４０４でシーンの切り替わりがあったと判断されなかった場合、再度ステップ７４０３に戻り、引き続きシーンの切り替わりを調べる。
【００９３】
シーンの切り替わりがあったと判断された場合、次のステップ７４０５でシーンの終了タイムコードを取得する。この終了タイムコードは、厳密にはシーンの切り替わりがあったと判断された１つ前のタイムコードとなる。
【００９４】
ステップ７４０６で映像ファイルの終わりに達したかどうかを判断し、終わりに達していなかったならば再度ステップ７４０１に行き、次のシーン情報を取得する。終わりに達していたと判断された場合、ステップ７４０７でデータベースへの登録処理を行なう。この処理の詳細についても後述する。このデータベースへの登録処理を抜けると、映像シーン情報登録処理は完了である。
【００９５】
次に、図１４のステップ７４０７、データベース登録処理の詳細を説明する。この処理のフローチャートを図１５に示す。基本的に、流れは図１３と同様である。
【００９６】
これまでの処理で、データベースに登録すべきデータはすべて一時メモリ６０に蓄えられている。まず、ステップ７４２０で、データベース管理システム５０へ登録対象のデータを転送するとともにデータの登録指示を行なう。ここでデータベース管理システムにおいて、映像情報テーブルへのデータ登録処理が行なわれる。
【００９７】
ステップ７４２１で登録処理が失敗したと判断された場合、ステップ７４２２で、他のデータ登録処理、すなわち、第１の処理である映像ファイルの格納処理及び第２の処理である検索時参照画像取得処理であるが、これらをキャンセルさせ、映像データ登録処理は失敗に終わる。この結果、映像データ登録はまったく行なわれなかったかのようにデータベースは復元される。
【００９８】
ステップ７４２１で登録処理が成功したと判断された場合、ステップ７４２３で、他のデータ登録処理、すなわち上述の映像ファイルの格納処理及び検索時参照画像の取得処理が成功したかどうかの確認を行なう。その結果ステップ７４２４で１つでも失敗していたと判断された場合は、ステップ７４２５で登録処理を取り消し、異常終了とする。すべて成功していたと判断された場合は、ステップ７４２６で正常終了処理を行ない、元の処理に戻る。
以上で図１４のフローチャートは終わりに達する。
【００９９】
＜映像シーン検索処理の大まかな流れ＞
映像ファイルの検索は、映像検索端末装置２０上で稼動する映像検索アプリケーションから行なわれる。このアプリケーションの実行画面のイメージを図１６に示す。
【０１００】
図１６は上半分が検索条件記述用、下半分が検索結果確認用となっている。検索条件記述としては、画像のイメージとテキスト検索の併用が可能である。
【０１０１】
ボタン２１１１は、外部の参照画像ファイルを開いて読み込むためのボタンである。サブウィンドウ２１１２には読み込まれた参照用の画像ファイルが表示される。スライダーバー２１１３を操作することによって、この参照画像を元にした画像の類似度検索を行なう際に、色と形のどちらをより重視するかの設定が可能である。２１１４のラジオボタンによって、画像検索の際に構図を考慮するかしないかの設定が可能である。また、２１１５のラジオボタンによって、画像検索の際に参照画像の背景部分を有効とするか無効とするかの指定が可能である。
【０１０２】
これを無効とし、かつ参照画像の背景が単一の色となっている場合、図１１の矩形抽出画像５８４から画像特徴量抽出用画像５８５を作成する処理と同様にして参照画像から背景の除去が行なわれる。この他に、２１１６のキーワード入力欄にキーワードを入力することで、キーワード検索が可能である。
【０１０３】
なお、画像検索とキーワード検索は併用可能であるが、「参照画像１」と「キーワード１」は画面上で上下に並べられているだけで、検索の際には直接は関係しない。つまり、複数の検索条件を設定する際に、「参照画像１」はそのままで「キーワード１」と「キーワード２」の指定を入れ替えても、検索結果には影響しないということである。
【０１０４】
また、本実施形態で複数の検索条件が設定された場合、これらはすべて時間区間に関する論理積の集合演算を施されるものとする。以下、図１６を元にして簡単な検索の例を用いて説明する。
【０１０５】
まず、参照用画像１として、「ファイル」と表示されたボタン２１１１を押下して外部ファイルを読み込むことで、あらかじめ作成されていた木の画像を参照画像表示ウィンドウ２１１２に表示させる。スライダーバー２１１３によって、この画像を元にした類似度を調べる際にやや形を重視するといった設定をしてある。構図指定２１１４で構図の指定はなしとしてある。これはつまり、参照画像のオブジェクトが映像のどのあたりに映っていても構わないという意味である。
【０１０６】
たとえ、この木の形をしたものの前に他の物体が表示されていても、それらがコンテントベースで符号化され別々のコンテントとして扱われていれば、この木に似た画像が問題なく検索されることが期待される。なお、背景指定２１１５の指定も無効としてあるため、参照画像周囲の空白は無視される。
【０１０７】
キーワード１として、「木」と入力してある。これは参照画像１を補うための指定である。なお、これがキーワード２の欄に入力されていても検索結果は同じである。
【０１０８】
次に、参照用画像２として、車の画像が取り込まれている。形を最大限重視して、構図はなし、背景も無効としてある。つまり、車の画像の周囲の単一色部分は画像特徴量の算出の際には除外されるということである。
【０１０９】
横方向スクロールバー２１０３を動かすことによってさらに参照画像３以降も設定が可能だが、本実施形態においては、検索条件はこれ以上設定されていないものとする。
【０１１０】
ここで、「検索実行ボタン」２１０２が押下されて検索が実行され、その後、再生ボタン２１０４の押下によって映像の再生まで行なわれる場合の、映像検索端末装置２０で行なわれる処理のフローチャートを図１７に示す。
【０１１１】
はじめに、ステップ２０００で初期設定が行われ、参照画像、キーワードのクリア、オプション（色、形、構図、背景）の設定をデフォルト値にするといった処理が行なわれる。
【０１１２】
次の処理２００１で、利用者による映像検索条件の設定が行なわれる。ここでは図１６に示した通りの検索条件が設定されたものとする。
【０１１３】
検索実行ボタン２１０２が押下されるとステップ２００２へと進み、通信ネットワーク９０を通して検索要求が映像検索サーバ装置３０へと伝わり、図１の映像検索処理８０が行なわれる。この処理は後述する。
【０１１４】
検索処理の結果、通信ネットワーク９０を通じて検索結果集合が映像検索端末装置２０に返され、ステップ２００３で検索結果の表示が行なわれる。検索結果の表示例は図１６の２１２１である。
【０１１５】
ステップ２００４で利用者による視聴対象映像の選択が行なわれる。具体的にはボタン２１０４の押下である。この再生要求によって、ステップ２００５で映像検索サーバ装置３０から映像ファイルを取得し、ステップ２００６で映像の再生が行なわれる。
【０１１６】
なお、画面上のボタン２１０１の押下によって、検索アプリケーションは終了する。
【０１１７】
ここで、図１７のステップ２００２に相当する、映像検索サーバ処理のフローチャートを図１８に示し、詳述する。
【０１１８】
まず、映像検索サーバに処理要求が渡る際に、３つの検索条件が伝達される。１つ目は、木の画像データ、形をやや重視、構図なし、背景無効、である。
２つ目は、キーワード「木」である。
３つ目は、車の画像データ、形を最大限重視、構図なし、背景無効、である。
この場合、逐次的に考えると検索処理が３回行なわれることになる。
【０１１９】
まず、ステップ８０００で画像検索かどうかの判断が行なわれる。画像検索でないと判断された場合、ステップ８００１でキーワード検索が行なわれ、検索結果が一時メモリ６０に格納される。ここで検索されてくるのは、ファイルＩＤと該当時間区間の開始タイムコードと終了タイムコードである。
【０１２０】
ステップ８０００で画像検索と判断された場合、ステップ８００２へ行く。さらに背景が有効かどうかの判断が行なわれ、背景が無効の場合、ステップ８００３へ行き、図１１の合成画像５８３から画像特徴量抽出用画像５８５を切り出す手順と同様にして参照画像の背景の除去が行なわれてから、ステップ８００４で参照画像の画像特徴量が算出され（図１の処理７２）、ステップ８００５でデータベースの画像特徴量による検索（図１の処理８１）が行なわれる。背景が有効の場合には、ステップ８００３を飛ばしてステップ８００４へ行く。図１８の例では、２つの画像検索はいずれもステップ８００３を経由する。画像検索の結果を、類似度がある一定値以上のものを合致したものとみなす場合、ここで検索されてくるのはファイルＩＤと該当時間区間の開始タイムコードと終了タイムコードである。
【０１２１】
検索処理の度にステップ８００６で、個々の映像要素オブジェクト検索がすべて終了したかどうかの確認を行ない、終わっていなければステップ８０００に戻る。この例では３回目にすべて終了とみなされ、ステップ８００７へ行く。
【０１２２】
ステップ８００７で、一時メモリ６０に保持された検索結果集合の中で、ファイルの中の出現時間区間で集合演算（本実施例では論理積）を施して検索結果リストの作成を行ない、映像検索端末装置にファイルＩＤと該当時間区間の開始タイムコードと終了タイムコードのリストが検索結果として返されるとともに映像検索端末装置に処理を戻す。
【０１２３】
【発明の効果】
以上説明したように、本発明によれば、映像データベースから利用者の所望の映像を検索する際、映像の構成要素である複数コンテントの空間的、時間的、意味的な配置にもとづく検索条件指定を可能にすることによって、利用者は自身の持つ映像のイメージをコンテント毎に具体化すれば良く、目的とする映像を検索するのに要する時間を短縮することができる。
【図面の簡単な説明】
【図１】本発明に係る一実施形態のデータベースシステムの概略構成を示すブロック構成図である。
【図２】本実施形態の映像情報テーブル領域で管理されるテーブルの構成例を示す図である。
【図３】本実施形態の映像ファイル管理テーブルの構成例を示す図である。
【図４】本実施形態の映像要素オブジェクト管理テーブルの構成例を示す図である。
【図５】本実施形態の検索時参照画像管理テーブルの構成例を示す図である。
【図６】本実施形態の重心情報管理テーブルの構成例を示す図である。
【図７】本実施形態の映像シーン管理テーブルの構成例を示す図である。
【図８】本実施形態のテキスト・アノテーション管理テーブルの構成例を示す図である。
【図９】本実施形態の映像オブジェクト情報登録処理の一例のフローチャートである。
【図１０】図９の検索時参照画像取得処理の一例のフローチャートである。
【図１１】本実施形態のアルファ・プレーン合成後の画像に対する矩形設定例を示す図である。
【図１２】図９のテキスト情報取得処理の一例のフローチャートである。
【図１３】図９のデータベース登録処理の一例のフローチャートである。
【図１４】本実施形態の映像シーン情報登録処理の一例のフローチャートである。
【図１５】図１４のデータベース登録処理の一例のフローチャートである。
【図１６】本実施形態の映像検索端末装置の検索画面表示の一例である。
【図１７】本実施形態の映像検索端末装置における映像検索の一例のフローチャートである。
【図１８】本実施形態の映像検索サーバ装置における映像検索処理の一例のフローチャートである。
【符号の説明】
１０…映像入力端末装置、２０…映像検索端末装置、３０…映像検索サーバ装置、４０…映像蓄積装置、４１…映像ファイル格納領域、５０…データベース管理システム、５１…映像情報テーブル領域、６０…一時メモリ、７０…映像ストリーム解析処理モジュール、７１…検索時参照画像取得処理モジュール、７２…画像特徴量算出処理モジュール、７３…テキスト情報取得処理モジュール、７４…映像シーン代表画像取得処理モジュール、８０…映像検索処理モジュール、８１…画像特徴量類似度計算処理モジュール、９０…通信ネットワーク。

Claims

データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法であって、
構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ１つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、
利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の１つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、
利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示することを特徴とする映像検索方法。
請求項１に記載の映像検索方法において、前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出しておき、当該画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておき、画像の類似度検索を元にして映像検索を行なう際の検索時参照画像の選択方法として、映像シーンの中で一定時間間隔毎に画像の比較を行ない、類似度が高い画像が続いた時はその先頭の１つのみを該映像シーンの検索時参照画像として採用することを特徴とする映像検索方法。
データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する装置であって、
構成要素であるコンテント毎に符号化され、再生時に合成されて表示されるための該コンテント同士の関係情報を持っている映像ファイルをデータベースへ登録する際に、映像ファイルのストリーム解析を行なう手段と、
この解析により分離されて抽出された各種コンテントをそれぞれ１つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を該コンテントから抽出する手段と、前記映像要素オブジェクトの情報と前記アノテーション情報を共にデータベースに登録する手段と、
利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述する手段と、
これらの記述の１つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行なう手段と、
前記合致した映像要素オブジェクトの出現時間区間に関する集合演算を施して検索結果映像シーンを定義する手段と、
利用者が提示された検索結果リスト中の所望の映像シーンを指定する手段と、前記データベースから対象の映像ファイルを取得し、利用者に提示する手段を有することを特徴とする映像の検索装置。
請求項３に記載の映像の検索装置において、前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出する手段と、
前記画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておく手段と、
画像の類似度を元にして映像検索を行なうための検索時参照画像の選択を行なう際、映像シーンの中で一定時間間隔毎に画像の比較を行なう手段と、
類似度が高い画像が続いた時はその先頭の１つのみを前記映像シーンの検索時参照画像として採用する手段を有することを特徴とする映像の検索装置。
データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法の処理手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ１つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、
利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の１つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、
利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示するプログラムを記録したコンピュータ読み取り可能な記録媒体。