JP3615657B2 - 映像検索方法及び装置ならびに記録媒体 - Google Patents
映像検索方法及び装置ならびに記録媒体 Download PDFInfo
- Publication number
- JP3615657B2 JP3615657B2 JP14524598A JP14524598A JP3615657B2 JP 3615657 B2 JP3615657 B2 JP 3615657B2 JP 14524598 A JP14524598 A JP 14524598A JP 14524598 A JP14524598 A JP 14524598A JP 3615657 B2 JP3615657 B2 JP 3615657B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- search
- image
- scene
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7837—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7328—Query by example, e.g. a complete video frame or video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
- Television Signal Processing For Recording (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、映像ファイルを蓄積し、再利用することを目的としたデータベース管理システムに関し、特にこのデータベースを用いて、コンテントベースで符号化された映像ファイルを登録し検索するための効果的な映像検索方法及び装置ならびに記録媒体に関する。
【0002】
【従来の技術】
データベースから所望の映像を検索する場合に、映像の見出し、映像の著作権者、映像が作成あるいは撮影された日付などの、映像の書誌的情報に対する検索を行なうだけでなく、映像そのものに出現する物体に関する具体的要件を指定して検索を行なうことが、より効果的である。
【0003】
近年のデータベース管理システムでは、静止画像に関しては、当該画像に付与されたキーワードを利用したキーワード検索だけでなく、画像解析プログラムも併用されるようになってきている。画像データの登録の際に、画像の全体的な色合い、局所的な色合い、エッジ情報などの特徴を解析プログラムを用いて画像特徴量という形式であらかじめ抽出しておき、検索の際に特徴量の類似度を比較する。その結果、類似度がある閾値以上のものを条件に合致したもの、閾値以下のものを条件に合致しないものとして検索にヒットしたかどうかを区別したり、あるいは検索結果の一覧を利用者へ提示する際に類似度の高い順に並べ替えて表示して検索の効率向上を図るシステムが、特願平9−196154号で実現されている。
【0004】
ここで述べたような、画像の特徴量を利用した画像検索システムは、映像管理の分野にも応用可能である。映像シーンの構成要素である一連のフレーム画像のうち、そのシーンを代表するフレームを1枚の代表画像として抽出し、それらの代表画像を上述の静止画像管理と同様の手法で処理して画像の特徴量を算出しておき、代表画像検索を通じて利用者の所望の映像を検索することが容易に実現可能である。これまで行なわれて来た映像の書誌情報や映像の区間に関連付けられたコメント情報を元にした間接的な映像検索に、代表画像の類似度検索を組み合わせることで、より実際の映像イメージに近い検索が実現できるようになる。
【0005】
【発明が解決しようとする課題】
このような、映像の代表画像の特徴量を使った類似度評価による従来の映像検索の方法においては、次のような問題がある。
【0006】
映像シーンの代表画像を用いた映像検索では、映像が実際に再生される時のある一時点の静止画像にのみ着眼している。映像には画像と異なり動きがあるために、代表画像の選び方によっては利用者が想定している映像シーンのイメージと異なることもあり、代表画像による検索が有効に働かないことがあるという問題点があった。
【0007】
例えば、背景の中で物体が右から左へと移動して消えて行くような映像シーンがデータベースに登録されることを考える。たまたま物体が右端に位置している時点で代表画像を取得した場合に、利用者が物体の位置を右側でない他の位置、仮に左端と指定して画像検索を行なってしまうと、その映像シーンを検索するのは難しくなるという問題がある。また、代表画像に偶然何らかの物体が写っている時に、背景だけをイメージして画像検索を行なった場合には、代表画像中の物体の存在が邪魔になり、検索することがより難しくなる。
【0008】
ところで、映像ファイルの符号化方式の1つとして、圧縮効率を高めたり、再利用性を高めたりするために、映像ファイルが、内部では背景と物体(以降、これらをそれぞれコンテントと呼ぶ)とが区別されて符号化され、複数の映像のストリームとして構成される方式がある。この方式では、再生される段階でそれらの映像ストリームが合成処理されて1つの映像として再生される。このようにコンテントベースで映像ファイルが符号化されている場合であっても、コンテントの合成後の再生映像を元にして従来の方式で映像データの登録を行なってしまうと、選択された代表画像によってはこれまで同様に検索が難しくなると問題が生じる。
【0009】
本発明の目的は、コンテントベースで符号化された映像ファイルを管理するデータベース・システムにおいて、利用者が映像に現われる個々のコンテントに着眼して検索条件を設定し、映像シーン検索を行なうことが可能な映像検索方法及び装置を提供することにある。
本発明の前記ならびにその他の目的及び新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0010】
【課題を解決するための手段】
本願において開示される発明のうち代表的なものの概要を簡単に説明すれば、以下のとおりである。
(1)データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法であって、構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示する映像検索方法である。
【0011】
本発明のポイントは、例えば、映像シーンの背景映像と主体映像とを別々に抽出してデータベースに記録しておき、利用者が所望の映像シーンを検索する際には、前記データベースに記録されている背景映像と主体映像とを別々に検索し、この検索された二つの情報から利用者の検索イメージに近い映像シーンを得る映像検索方法である。
【0012】
(2)前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出しておき、当該画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておき、画像の類似度検索を元にして映像検索を行なう際の検索時参照画像の選択方法として、映像シーンの中で一定時間間隔毎に画像の比較を行ない、類似度が高い画像が続いた時はその先頭の1つのみを該映像シーンの検索時参照画像として採用する映像検索方法である。
【0013】
(3)前記映像シーンの検索時参照画像の選択方法を、映像シーンの替わりに映像の構成要素であるコンテントに対して適用し、映像コンテントの中の検索時参照画像の類似度検索によってデータベース中の映像要素オブジェクトを検索し、該映像コンテントが合成されて再生される映像シーンを映像検索の結果とする映像検索方法である。
【0014】
(4)前記映像コンテントが、再生時に他の映像コンテントと合成される時に画像の一部が透明もしくは半透明として合成される映像コンテントであった場合に、前記映像コンテントの検索時参照画像の画像特徴量の算出時に、合成処理時に透明として取り扱われる部分を除いた矩形又は半透明として取り扱われる部分まで除いた矩形を定義し、該矩形の内部を1枚の画像とみなして画像特徴量の算出を行ないデータベースに保持しておき、矩形内画像特徴量を映像検索の対象項目とする映像検索方法である。
【0015】
(5)前記矩形内画像特徴量の算出の際、前記特徴量を該矩形の重心位置により求まる元画像内の位置情報とともにデータベースに保持しておき、矩形内画像特徴量と重心位置情報とを組み合わせて映像検索の対象項目とする映像検索方法である。
【0016】
(6)前記映像要素オブジェクトがテキスト・ストリームの場合に、該ストリームからテキスト情報を文字コード列として自動的に抽出し、前記文字コード列を再生時に合成される他の映像要素オブジェクトとの時間的リンク情報とともにデータベースに格納し、テキスト検索で合致した際に、リンクされている映像要素オブジェクトが再生時に合成されてできる映像シーンを検索結果映像とする映像検索方法である。
【0017】
(7)データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する装置であって、構成要素であるコンテント毎に符号化され、再生時に合成されて表示されるための該コンテント同士の関係情報を持っている映像ファイルをデータベースへ登録する際に、映像ファイルのストリーム解析を行なう手段と、この解析により分離されて抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を該コンテントから抽出する手段と、前記映像要素オブジェクトの情報と前記アノテーション情報を共にデータベースに登録する手段と、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述する手段と、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行なう手段と、前記合致した映像要素オブジェクトの出現時間区間に関する集合演算を施して検索結果映像シーンを定義する手段と、利用者が提示された検索結果リスト中の所望の映像シーンを指定する手段と、前記データベースから対象の映像ファイルを取得し、利用者に提示する手段を有するものである。
【0018】
(8)前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出する手段と、前記画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておく手段と、画像の類似度を元にして映像検索を行なうための検索時参照画像の選択を行なう際、映像シーンの中で一定時間間隔毎に画像の比較を行なう手段と、類似度が高い画像が続いた時はその先頭の1つのみを前記映像シーンの検索時参照画像として採用する手段を有する映像の検索装置である。
【0019】
(9)前記映像コンテントの中の検索時参照画像の類似度検索によってデータベース中の映像要素オブジェクトを検索する手段と、前記映像コンテントが合成されて再生される映像シーンを映像検索の結果とする手段を有する映像の検索装置である。
【0020】
(10)前記映像コンテントが、再生時に他の映像コンテントと合成される時に画像の一部が透明もしくは半透明として合成される映像コンテントであった場合に、映像コンテントの検索時参照画像の画像特徴量の算出時に、合成処理時に透明として取り扱われる部分を除いた矩形又は半透明として取り扱われる部分まで除いた矩形を定義し、該矩形の内部を1枚の画像とみなして画像特徴量の算出を行ないデータベースに保持する手段と、矩形内画像特徴量を映像検索の対象項目とする手段を有する映像の検索装置である。
【0021】
(11)前記矩形内画像特徴量の算出の際、当該特徴量を前記矩形の重心位置により求まる元画像内の位置情報とともにデータベースに保持する手段と、
矩形内画像特徴量と重心位置情報とを組み合わせて映像検索の対象項目とする手段を有する映像の検索装置である。
【0022】
(12)映像要素オブジェクトがテキスト・ストリームの場合に、該ストリームからテキスト情報を文字コード列として自動的に抽出する手段と、該文字コード列を、再生時に合成される他の映像要素オブジェクトとの時間的リンク情報とともにデータベースに格納する手段と、テキスト検索で合致した際に、リンクされている映像要素オブジェクトが再生時に合成されてできる映像シーンを検索結果映像とする手段を有する映像の検索装置である。
【0023】
(13)データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法の処理手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示するプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0024】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態(実施例)を詳細に説明する。
図1は本発明に係る一実施形態のデータベースシステムの概略構成を示すブロック構成図である。
【0025】
本実施形態のデータベースシステムは、図1に示すように、クライアント−サーバ型のシステムであり、通信ネットワーク90でネットワーク接続された映像入力端末装置(クライアント)10と映像検索端末装置(クライアント)20と映像検索サーバ装置30で構成される。映像検索サーバ装置30は、高速な磁気ディスクで構成される映像ファイル格納領域41を管理する映像蓄積装置40、各種の映像情報テーブルが格納される映像情報テーブル領域51を管理するデータベース管理システム50、各モジュールにおける処理過程のデータを一時的に保持しておくための一時メモリ60、及び個々の処理モジュールからなる。
【0026】
前記処理モジュール(処理手段)としては、映像ストリーム解析処理モジュール70、検索時参照画像取得処理モジュール71、画像特徴量算出処理モジュール72、テキスト情報取得処理モジュール73、映像シーン代表画像取得処理モジュール74、映像検索処理モジュール80、画像特徴量類似度計算処理モジュール81がある。ここで、サーバ機能とクライアント機能を通信ネットワーク90を介さずに同一装置上で動作するように実装しても、本発明の実施には差し支えない。
【0027】
図1において、映像のデータベース登録時に、まず、映像が映像入力端末装置(クライアント)10へ投入され、通信ネットワーク90を介して映像検索サーバ装置30に伝送される。伝送と平行もしくは伝送完了後に、映像を検索するための情報を映像の中から抽出し、映像蓄積装置40の高速な磁気ディスクで構成される映像ファイル格納領域41のデータベースに登録する。
【0028】
具体的には、映像ストリーム解析処理モジュール70で映像をストリームの分離装置に通すことにより、映像ストリーム、音声ストリーム、テキスト・ストリーム、その他の個々の映像ファイル独自のストリームに分解し、それぞれを映像要素オブジェクトとする。これらに対し、オブジェクトの種類に対応した解析およびデータベースへの登録処理を行なう。
【0029】
映像ストリームからなる映像要素オブジェクトの場合は、検索時参照画像取得処理モジュール71により、その映像ストリームの開始時刻、終了時刻を記録するとともに、その映像ストリーム中の特徴的な映像フレームを静止画像として抽出し、これらを検索時参照画像として、画像特徴量算出処理モジュール72により画像の特徴量を算出しておく。
【0030】
複数の映像ストリームが再生時に合成される場合には、重ね合わせの際に、一方のストリームでは背景など画像の一部を透明化させる必要がある。これは一般的にはクロマキー合成もしくはブルーバック合成と呼ばれるものである。ここで検索時参照画像においては、クロマキー合成時に透明として取り扱われるドットかどうかを判断するためのアルファ・プレーンまで考慮し、画像特徴量算出の前に透過部分を除去しておく。これによって再生時に見えない部分は検索過程でも無視されることになる。
【0031】
また、画像特徴量算出処理モジュール72における前記画像特徴量算出の際には、透過部分を最大限に除くことができる矩形を定義し、特徴量はその矩形の内部だけで算出し、矩形が元画像の中でどの位置にあったのかを記録しておくことで、物体の特徴や映像イメージが検索時参照画像情報により一層反映される。
【0032】
なお、変化のある映像要素オブジェクトの場合は、1つの映像要素オブジェクト中から、検索時参照画像が複数枚取られることもある。これらの時刻情報及び検索時参照画像の画像特徴量は検索用のデータベースに格納される。画像の特徴量は数値データの並び、数値列である。
【0033】
テキスト・ストリームからなる映像要素オブジェクトの場合は、テキスト情報取得処理モジュール73で、文字コード列と、その文字列の表示に関係する開始時刻、終了時刻を記録し、データベースに格納しておく。テキスト情報に関しては、映像ファイルからの自動抽出の他、オペレーターの手入力によるコメント情報も同様に取り扱い管理できるようにしておく。
【0034】
音声ストリームや個々の映像ファイル独自のストリームからなる映像要素オブジェクトの場合には、そのストリームの開始時刻、終了時刻とストリーム種別のみ記録し、データベースに格納しておく。
【0035】
コンテントベースで符号化された映像を検索する際には、映像シーン代表画像取得処理モジュール74で、上述のようにして抽出された、映像検索のためのキーワード・数値列等で表わされる映像のコメント情報(以下、アノテーションと称す)を元に、映像要素オブジェクト毎に検索条件を指定して検索を実行する。
【0036】
映像検索処理モジュール80における検索は、データベースに格納されたアノテーション情報に対して行なわれ、検索の過程で映像ファイルを直接参照して調べることはしない。データベースに格納された映像要素オブジェクト毎に検索条件に合致する映像ファイルとその時間区間を調べる。検索条件が、複数の映像コンテントの論理積や論理和といった集合演算として指定されていた場合には、さらに検索結果の映像の時間区間に対して同義の集合演算を施し、その結果を映像検索の結果とする。これによって利用者は、画像特徴量類似度計算処理モジュール81を用いて、映像に現われている個々の物体に着眼して所望の映像シーンの検索をすることが可能になる。
【0037】
前記映像入力端末装置10は、映像ファイルをデータベースに登録する際に用いられる端末である。映像ファイルはこの装置を介して入力され、通信ネットワーク90経由で映像検索サーバ装置30に伝送される。
【0038】
前記映像検索端末装置20は、映像ファイルを検索する際に利用者が操作する端末である。利用者からの映像検索の条件入力を受け付け、検索結果の一覧の提示、検索結果映像シーンの再生などがこの端末上で行なわれる。
【0039】
前記映像蓄積装置40には、映像入力端末装置10から送信された映像ファイルがそのままの形式で格納される。再生時に元の形式と時間の整合性を取ることが可能であれば、ここでは形式変換されて格納されていても構わない。
【0040】
前記データベース管理システム50では、映像データの登録時に抽出された、映像ファイルに関する各種アノテーション情報が、映像情報テーブル領域51内でそれぞれテーブル形式で管理される。次に、ここで管理される各種テーブルについて説明する。
【0041】
図2は映像情報テーブル領域51で管理される各種テーブルの一覧を示す。映像ファイル管理テーブル52、オブジェクト管理テーブル53、検索時参照画像管理テーブル54、重心情報管理テーブル55、映像シーン管理テーブル56、テキスト・アノテーション管理テーブル57が、映像情報テーブル領域51で管理される。
【0042】
図3は映像ファイル管理テーブル52の構成例である。テーブルのカラムとしては、映像ファイルの識別子を表わすファイルID521、映像ファイルが格納されている場所を指し示す所在情報522、映像ファイルの形式や長さ、アクセス権などの情報を格納する管理属性情報523、その映像に関する著作権者、出演者情報、作成あるいは撮影された年月日といった情報を格納する書誌情報524がある。ファイルID521はこのテーブルでユニークな値で、所在情報522と1対1対応している。
【0043】
図4はオブジェクト管理テーブル53の構成例である。ここでは映像ファイル中の各種コンテントが映像要素オブジェクトとして、属性情報などとともに管理される。テーブルのカラムとしては、映像要素オブジェクトの識別子を表わしテーブルのレコードを一意に識別するオブジェクトID531、そのオブジェクトがどのファイルに属するのかを示すファイルID532、映像ファイル内のコンテントを識別するためのコンテントID533、その映像要素オブジェクトが映像なのか、音声なのか、テキスト・ストリームなのかといったオブジェクトの種類を表わすオブジェクト属性534、映像要素オブジェクトの時間区間を示す開始タイムコード535及び終了タイムコード536などがある。オブジェクトID531と、ファイルID532とコンテントID533とを組にしたものとが、1対1対応している。コンテントID533については、映像ファイルのコンテント自身に映像ファイルの内部で割り振られているIDを流用しても、あるいはデータベースへの登録時に別途独自に割り振っても構わない。また、本実施形態においてはタイムコードをSMPTE形式としているが、別の表現形式を用いても、本発明の実施においては差し支えない。
【0044】
図5は検索時参照画像管理テーブル54の構成例である。ここで管理されるのは、映像コンテントから抽出された、そのコンテントの中で特徴的なフレーム画像とその画像特徴量である。コンテントから抽出されたものであり、実際に再生される時に合成された結果として利用者が目にするフレーム画像ではなく、あくまで合成前のフレーム画像である。また、映像コンテントによってはクロマキー合成のためのアルファ・プレーンを伴なっていて、他の映像コンテントとの合成時に、上書きしたり、上書きされたり、半透明で重ね合わせられたりといった指定を伴なうことがある。
【0045】
ここでは、アルファ・プレーンとは合成処理済みで、他の映像コンテントとは合成されていない時点のフレーム画像を取り扱う。アルファ・プレーンは2値とは限らず、例えば、煙らしさを表わすための半透明という規格もある。アルファ・プレーンとの合成によって、完全に透明として取り扱われる領域については、画像特徴量計算の対象外として検索の精度を高めることができる。透明部分を特徴量計算の対象外とする手順については後述する。
【0046】
テーブルのカラムとしては、検索時参照画像を識別するための画像ID541、そのフレーム画像がどの映像要素オブジェクトから取得されたものなのかを示す映像オブジェクトID542、そのフレームが取得された時間を表わすタイムコード543、そのフレーム画像の形式を表わす画像フォーマット544、フレーム画像そのものが格納される画像本体545、画像の特徴量を格納する画像特徴量546などがある。画像フォーマット544や画像本体545は、画像特徴量算出の際には必要だが、その後の映像検索の過程ではほとんど必要とされない。したがって、画像フォーマット544及び画像本体545カラムがこのテーブルになくても、本発明の実施には何ら差し支えない。
【0047】
図6は重心情報管理テーブル55の構成例である。アルファ・プレーンの合成によって透明な部分ができた時に、透明でない部分の物体だけを画像特徴量抽出の対象とするため、元画像における物体の位置情報を画像IDとペアにして管理する。アルファ・プレーンとの合成によって、形状には変化がなく、かつ動きのあるようなオブジェクトに関しては、1つの画像IDに対してここで複数の重心情報レコードが作成されることもある。
【0048】
なお、アルファ・プレーンとの合成を伴わない場合は、便宜上、重心は画像の中心としておく。テーブルのカラムとしては、検索時参照画像管理テーブル54の画像IDカラムに対応する画像ID551、X方向及びY方向の重心位置をそれぞれ0〜100の範囲に正規化した重心X552と重心Y553がある。ここでは0〜100の範囲に正規化したが、画面上における相対位置が特定できる表現形式であれば、他の形式であっても本発明の実施には差し支えない。
【0049】
図7は映像シーン管理テーブル56の構成例である。これは、前述の映像要素コンテントとは直接の関係はなく、通常の、再生時の映像における場面の切り替わり点を区切りとした映像のシーンを単位として、その区間情報と代表フレーム画像を管理するためのものであり、映像データ登録時に映像の切り替わりを検出するプログラムを用いて映像シーンの区間定義を行なう。
【0050】
テーブルのカラムとしては、映像シーンを識別するためのシーンID561、映像シーンの含まれる映像ファイルを示す映像ファイルID562、映像シーンの時間区間の始まりを示す開始タイムコード563、映像シーンの時間区間の終わりを示す終了タイムコード564、代表フレーム画像を取得した時間を示す代表タイムコード565、取得した代表フレームの画像形式を表わす画像フォーマット566、代表フレーム画像の実体を格納する画像本体567がある。本実施例では映像シーンに代表画像は1つとしてあるが、代表画像の定義されていない映像シーン、あるいは代表画像が複数定義された映像シーンがあっても構わない。
【0051】
図8はテキスト・アノテーション管理テーブル57の構成例である。テーブルのカラムとしては、個々のテキスト・アノテーションのレコードを一意に識別するためのテキストID571、そのテキスト・アノテーションがどの映像ファイルに含まれるものか、あるいは別途人手によって付加されたものであった場合にどの映像ファイルに関係するものかを示す映像ファイルID572、テキスト・アノテーションが定義された時間区間を示す開始タイムコード573、終了タイムコード574、そして文字コード列そのものが格納されるテキスト情報575がある。ここでのテキスト情報は、映像のテキスト・ストリームから自動的に抽出する他、人手によって入力されるものを含めても構わない。
【0052】
次に、図1中の各処理について説明する。処理70〜74は、主に映像ファイルを映像データベースに格納する際に関与する処理である。処理80〜81は主に映像データベースから映像シーンを検索する際に関与する処理である。登録と検索とに分けて、まず全体の処理の流れについて大まかに説明した後、各処理の詳細を説明する。
【0053】
<映像ファイル登録処理の大まかな流れ>
映像ファイルの登録は、映像ファイルそのものの蓄積装置への保存、映像ファイルをその構成要素であるコンテントにストリーム分離を行なった上での映像要素オブジェクト情報のデータベースへの登録、映像ファイルをシーンの変化点で区切った映像シーン情報のデータベースへの登録、これら3つの処理に分けることができる。これらを同時並行処理させても、あるいは逐次処理させても、本発明の実施には差し支えない。ここでは同時並行処理における実施例を述べる。
【0054】
第1の処理、すなわち、映像ファイルの、映像蓄積装置40への格納処理は、映像入力端末装置10から送られてきた映像ファイルを、そのままの形式、もしくは再現可能な形式で映像ファイル格納領域41に保存することである。
【0055】
第2の処理、すなわち、映像オブジェクト情報の登録処理は、同時並行処理をする場合には、映像入力端末装置10から送られて来る映像ファイルを実時間処理して、映像オブジェクトの情報をデータベースに登録する。逐次処理とするのであれば、一旦映像ファイル格納領域41に保存された映像ファイルに対して処理をすることでも構わない。
【0056】
第3の処理、すなわち、映像シーン情報の登録処理も、同時並行処理をする場合には映像入力端末装置10から送られて来る映像ファイルを実時間処理して、映像のシーン情報をデータベースに登録する。逐次処理とするのであれば、一旦映像ファイル格納領域41に保存された映像ファイルに対して処理をすることでも構わない。
【0057】
以上述べた3つの登録処理によって、映像検索サーバ装置30への映像ファイルの登録が行なわれ、利用者からの検索要求に応えられるようになる。
【0058】
<映像ファイルの映像ファイル格納領域への保存処理>
これは、基本的に映像ファイルを磁気ディスクに書き込むだけの処理である。ただし、他の2つの登録処理のいずれかが正常終了しなかった場合には、ここで書き込まれた映像ファイルは無効とされなければならない。また、逆にここでの映像ファイルの保存処理に失敗した時には、他の2つの登録処理を無効化させる必要がある。
【0059】
<映像要素オブジェクト情報の登録処理>
映像要素オブジェクト情報の登録処理のフローチャートを図9に示す。これは図1の映像ストリーム解析処理70に相当する。
【0060】
図9のステップ7000で、一時メモリ60の初期化をはじめとする登録処理の準備を行なう。準備が完了したら、映像ファイルのストリームが送られてくるのを待つ。
【0061】
続くステップ7001でストリームの種別を判別する。ここでは大きく3つ、映像ストリーム、テキスト・ストリーム、その他のストリームに分けている。その他のストリームとしては、オーディオ・ストリーム、ユーザ定義ストリームなどがある。なお、映像のストリームは複数種類のものが混在して伝達されてくるものであり、個々のストリームに対する処理は本来並行処理を行なわなければならない。本実施形態では、簡便のため、以下の説明は1つ1つのストリーム単位に記述する。
【0062】
ステップ7002で映像ストリームと判断された場合、ステップ7003の検索時参照画像取得処理が行なわれる。この処理の詳細については後述する。この処理が終わると、検索時参照画像に関する情報が一時メモリ60に格納されてくる。
【0063】
ステップ7004でテキスト・ストリームと判断された場合、ステップ7005のテキスト情報取得処理が行なわれる。この処理の詳細についても後述する。この処理が終わると、テキスト情報が一時メモリ60に格納されてくる。
【0064】
ステップ7004でテキスト・ストリームと判断されなかった場合、このストリームは検索適用外のストリームとみなして、ステップ7006で映像要素オブジェクトの時間区間、すなわち、開始タイムコードと終了タイムコードの取得のみ行なう。これらの情報は、一時メモリ60に格納されてくる。
【0065】
次に、ステップ7007で映像ファイルの終わりかどうかを判断する。終わりでなければ再度ステップ7001に戻り、引き続きストリームの処理を行なう。映像ファイルの終わりであった場合、一時メモリに格納された映像のアノテーション情報を、ステップ7008でデータベースに登録する処理を行なう。この処理の詳細についても後述する。このデータベースへの登録処理を抜けると、映像オブジェクト情報登録処理は完了である。
【0066】
ここで、図9のステップ7003、検索時参照画像取得処理のフローチャートを図10に示す。これは図1の検索時参照画像取得処理71に相当する。
【0067】
まず、はじめに、ステップ7100で映像ストリームの開始タイムコードを取得する。この後の処理は基本的に1フレーム進む度に行なわれる。
【0068】
続くステップ7101で、直前に検査したフレーム位置と今回のフレーム位置とを比較する。フレーム位置の差が既定値未満だった場合は何もせず、ステップ7102から再度7101に戻り、次のフレームに対して処理を続ける。
【0069】
ステップ7103で、現在のフレーム画像が合成時に一部が透明として処理されるものであるか、すなわち、アルファ・プレーンが定義されているかどうかを判断する。定義されている場合、ステップ7104でAlphaに1を設定しアルファ・プレーンの定義があることを保持しておく。
【0070】
アルファ・プレーンの定義がある場合に行なわれる、具体的な処理の様子を図11に示す。元画像581が映像コンテントの1つである。車と山と太陽とが映っている。この画像を、再生する際に別の映像コンテントと合成するために、ステップ7105の処理でアルファ・プレーン582と合成する。ここでのアルファ・プレーンは2値、すなわち完全透明か全く透明でないかのどちらかとしてあり、斜線部分を完全透明としている。合成された結果が合成画像583であり、背景の山と太陽が消去され、車だけが映っている。
【0071】
合成画像583から画像特徴量を抽出してしまうと、車が画像の右下に偏って映っているため、車の画像特徴量にもこの位置情報が反映されてしまう。これを防ぐために、ステップ7106で、水平方向及び垂直方向にそれぞれ2本、透明でない画像領域に接するように直線を引く。この状態を矩形抽出画像584に示す。そして、この4本の線の交点をそれぞれ頂点とする矩形を定義し、その矩形内部を画像特徴量抽出に使用することにする。この矩形内画像を画像特徴量抽出用画像585に示す。以上の矩形定義によって、物体の位置的な偏りが除去され、純粋に車の画像特徴量の算出が可能になる。矩形の定義とともに、ステップ7107で、その矩形の重心位置を算出し、それを元画像内の物体の位置情報として保持しておく。なお、厳密に物体の重心を計算するのであれば、矩形の重心ではなく、矩形内を更に分割して物体の存在位置に関して加重平均を求めるのが正しい。ステップ7107において、そのようにして物体の重心を計算しても、本発明の実施には何ら差し支えない。
【0072】
ステップ7103で現在のフレーム画像にはアルファ・プレーンが定義されていないと判断された場合、ステップ7108でAlphaに0を設定しアルファ・プレーンの定義がないことを保持しておく。
【0073】
次のステップ7109で、直前に登録対象として取得された検索時参照画像と今回のフレーム画像とを比較して差分を算出する。そして、ステップ7110でこの差分値が既定の閾値以上かどうかを判断する。
【0074】
閾値以上であった場合は、この画像を新たに検索時参照画像として登録することになる。まずステップ7111で画像の特徴量を算出する。これは図1の画像特徴量算出処理72に相当する。次にステップ7112で、現在のタイムコード、画像データ、画像特徴量などを一時メモリ60に保持する。
【0075】
閾値未満で、ステップ7113でAlpha=1でない、すなわちアルファ・プレーンの定義がないと判明した場合は、直前の登録フレームと比べて変化が乏しいということであるから、次の処理をするためにステップ7117へ飛ぶ。
【0076】
閾値未満でも、ステップ7113でAlpha=1であった場合、すなわちアルファ・プレーンとの合成があった場合は、画面中で物体の移動が行われた可能性がある。ステップ7114で重心の移動量を算出し、ステップ7115で重心の移動量が既定の閾値を超えていた場合、ステップ7116で重心情報のみ追加登録する。
【0077】
現在のフレーム画像に対する処理が終わったら、ステップ7117でストリームの終わりかどうかを判断する。終わりでなかったら、ステップ7101に戻って次のフレーム画像の処理を行なう。終わりだった場合、ステップ7118でストリームの終了タイムコードを取得し、元の処理に戻る。
【0078】
次に、図9のステップ7005、テキスト情報取得処理のフローチャートを図12に示す。これは、図1のテキスト情報取得処理73に相当する。
【0079】
まずはじめに、ステップ7300でテキスト・ストリームの開始タイムコードを取得する。
【0080】
続くステップ7301で、テキスト・ストリームの中から文字コード列を取得する。この際、制御コードなどの非テキスト情報は除いておくことで、データ量を減らすことが可能である。ただし、文字コード列をそのままの形式で取得しておいても、本発明の実施には差し支えない。
【0081】
次のステップ7302では、テキスト・ストリームの終わりかどうかを判断する。終わりに達していなければ、再びステップ7301に戻り、文字列取得を行なう。
【0082】
ストリームの終わりに達していたならば、ステップ7303でテキスト・ストリームの終了タイムコードを取得し、元の処理に戻る。
【0083】
次に、図9のステップ7008、データベース登録処理の詳細を説明する。この処理のフローチャートを図13に示す。
【0084】
これまでの処理で取得されたデータベースに登録すべきデータは、すべて一時メモリ60に蓄えられている。まず、ステップ7120で、データベース管理システム50へ登録対象のデータを転送するとともにデータの登録指示を行なう。ここでデータベース管理システムにおいて、映像情報テーブルへのデータ登録処理が行なわれる。
【0085】
ステップ7121で登録処理が失敗したと判断された場合、ステップ7122で、他のデータ登録処理、すなわち、第1の処理である映像ファイルの格納処理及び第3の処理である映像シーン情報の登録処理であるが、これらをキャンセルさせ、映像データ登録処理は失敗に終わる。この結果、映像データ登録はまったく行なわれなかったかのようにデータベースは復元される。
【0086】
ステップ7121で登録処理が成功したと判断された場合、ステップ7123で、他のデータ登録処理、すなわち上述の映像ファイルの格納処理及び映像シーン情報の登録処理が成功したかどうかの確認を行なう。その結果ステップ7124で1つでも失敗していたと判断された場合は、ステップ7125で本登録処理を取り消し、異常終了とする。すべて成功していたと判断された場合は、ステップ7126で正常終了処理を行ない、元の処理に戻る。
以上で図9のフローチャートは終わりに達する。
【0087】
<映像シーン情報の登録処理>
映像シーン情報の登録処理のフローチャートを図14に示す。これは図1の映像シーン代表画像取得処理74に相当する。
【0088】
なお、この実施形態では、映像の各シーンに対して代表画像はシーンの先頭のフレーム画像を1枚だけ取得することを想定している。
【0089】
図14のステップ7400で、一時メモリ60の初期化をはじめとする登録処理の準備を行なう。準備が完了したら、映像ファイルの再生画像が送られてくるのを待つ。
【0090】
続くステップ7401では、映像シーンの開始を待った上で、シーン開始タイムコードの取得を行なう。
【0091】
次のステップ7402で代表フレーム画像の取得処理を行なう。ここではシーンの先頭のフレームを代表画像として取得し、代表画像は一時メモリ60に保持される。
【0092】
代表画像の取得後、ステップ7403でシーンの切り替わりがあったかどうかを判断する。ステップ7404でシーンの切り替わりがあったと判断されなかった場合、再度ステップ7403に戻り、引き続きシーンの切り替わりを調べる。
【0093】
シーンの切り替わりがあったと判断された場合、次のステップ7405でシーンの終了タイムコードを取得する。この終了タイムコードは、厳密にはシーンの切り替わりがあったと判断された1つ前のタイムコードとなる。
【0094】
ステップ7406で映像ファイルの終わりに達したかどうかを判断し、終わりに達していなかったならば再度ステップ7401に行き、次のシーン情報を取得する。終わりに達していたと判断された場合、ステップ7407でデータベースへの登録処理を行なう。この処理の詳細についても後述する。このデータベースへの登録処理を抜けると、映像シーン情報登録処理は完了である。
【0095】
次に、図14のステップ7407、データベース登録処理の詳細を説明する。この処理のフローチャートを図15に示す。基本的に、流れは図13と同様である。
【0096】
これまでの処理で、データベースに登録すべきデータはすべて一時メモリ60に蓄えられている。まず、ステップ7420で、データベース管理システム50へ登録対象のデータを転送するとともにデータの登録指示を行なう。ここでデータベース管理システムにおいて、映像情報テーブルへのデータ登録処理が行なわれる。
【0097】
ステップ7421で登録処理が失敗したと判断された場合、ステップ7422で、他のデータ登録処理、すなわち、第1の処理である映像ファイルの格納処理及び第2の処理である検索時参照画像取得処理であるが、これらをキャンセルさせ、映像データ登録処理は失敗に終わる。この結果、映像データ登録はまったく行なわれなかったかのようにデータベースは復元される。
【0098】
ステップ7421で登録処理が成功したと判断された場合、ステップ7423で、他のデータ登録処理、すなわち上述の映像ファイルの格納処理及び検索時参照画像の取得処理が成功したかどうかの確認を行なう。その結果ステップ7424で1つでも失敗していたと判断された場合は、ステップ7425で登録処理を取り消し、異常終了とする。すべて成功していたと判断された場合は、ステップ7426で正常終了処理を行ない、元の処理に戻る。
以上で図14のフローチャートは終わりに達する。
【0099】
<映像シーン検索処理の大まかな流れ>
映像ファイルの検索は、映像検索端末装置20上で稼動する映像検索アプリケーションから行なわれる。このアプリケーションの実行画面のイメージを図16に示す。
【0100】
図16は上半分が検索条件記述用、下半分が検索結果確認用となっている。検索条件記述としては、画像のイメージとテキスト検索の併用が可能である。
【0101】
ボタン2111は、外部の参照画像ファイルを開いて読み込むためのボタンである。サブウィンドウ2112には読み込まれた参照用の画像ファイルが表示される。スライダーバー2113を操作することによって、この参照画像を元にした画像の類似度検索を行なう際に、色と形のどちらをより重視するかの設定が可能である。2114のラジオボタンによって、画像検索の際に構図を考慮するかしないかの設定が可能である。また、2115のラジオボタンによって、画像検索の際に参照画像の背景部分を有効とするか無効とするかの指定が可能である。
【0102】
これを無効とし、かつ参照画像の背景が単一の色となっている場合、図11の矩形抽出画像584から画像特徴量抽出用画像585を作成する処理と同様にして参照画像から背景の除去が行なわれる。この他に、2116のキーワード入力欄にキーワードを入力することで、キーワード検索が可能である。
【0103】
なお、画像検索とキーワード検索は併用可能であるが、「参照画像1」と「キーワード1」は画面上で上下に並べられているだけで、検索の際には直接は関係しない。つまり、複数の検索条件を設定する際に、「参照画像1」はそのままで「キーワード1」と「キーワード2」の指定を入れ替えても、検索結果には影響しないということである。
【0104】
また、本実施形態で複数の検索条件が設定された場合、これらはすべて時間区間に関する論理積の集合演算を施されるものとする。以下、図16を元にして簡単な検索の例を用いて説明する。
【0105】
まず、参照用画像1として、「ファイル」と表示されたボタン2111を押下して外部ファイルを読み込むことで、あらかじめ作成されていた木の画像を参照画像表示ウィンドウ2112に表示させる。スライダーバー2113によって、この画像を元にした類似度を調べる際にやや形を重視するといった設定をしてある。構図指定2114で構図の指定はなしとしてある。これはつまり、参照画像のオブジェクトが映像のどのあたりに映っていても構わないという意味である。
【0106】
たとえ、この木の形をしたものの前に他の物体が表示されていても、それらがコンテントベースで符号化され別々のコンテントとして扱われていれば、この木に似た画像が問題なく検索されることが期待される。なお、背景指定2115の指定も無効としてあるため、参照画像周囲の空白は無視される。
【0107】
キーワード1として、「木」と入力してある。これは参照画像1を補うための指定である。なお、これがキーワード2の欄に入力されていても検索結果は同じである。
【0108】
次に、参照用画像2として、車の画像が取り込まれている。形を最大限重視して、構図はなし、背景も無効としてある。つまり、車の画像の周囲の単一色部分は画像特徴量の算出の際には除外されるということである。
【0109】
横方向スクロールバー2103を動かすことによってさらに参照画像3以降も設定が可能だが、本実施形態においては、検索条件はこれ以上設定されていないものとする。
【0110】
ここで、「検索実行ボタン」2102が押下されて検索が実行され、その後、再生ボタン2104の押下によって映像の再生まで行なわれる場合の、映像検索端末装置20で行なわれる処理のフローチャートを図17に示す。
【0111】
はじめに、ステップ2000で初期設定が行われ、参照画像、キーワードのクリア、オプション(色、形、構図、背景)の設定をデフォルト値にするといった処理が行なわれる。
【0112】
次の処理2001で、利用者による映像検索条件の設定が行なわれる。ここでは図16に示した通りの検索条件が設定されたものとする。
【0113】
検索実行ボタン2102が押下されるとステップ2002へと進み、通信ネットワーク90を通して検索要求が映像検索サーバ装置30へと伝わり、図1の映像検索処理80が行なわれる。この処理は後述する。
【0114】
検索処理の結果、通信ネットワーク90を通じて検索結果集合が映像検索端末装置20に返され、ステップ2003で検索結果の表示が行なわれる。検索結果の表示例は図16の2121である。
【0115】
ステップ2004で利用者による視聴対象映像の選択が行なわれる。具体的にはボタン2104の押下である。この再生要求によって、ステップ2005で映像検索サーバ装置30から映像ファイルを取得し、ステップ2006で映像の再生が行なわれる。
【0116】
なお、画面上のボタン2101の押下によって、検索アプリケーションは終了する。
【0117】
ここで、図17のステップ2002に相当する、映像検索サーバ処理のフローチャートを図18に示し、詳述する。
【0118】
まず、映像検索サーバに処理要求が渡る際に、3つの検索条件が伝達される。1つ目は、木の画像データ、形をやや重視、構図なし、背景無効、である。
2つ目は、キーワード「木」である。
3つ目は、車の画像データ、形を最大限重視、構図なし、背景無効、である。
この場合、逐次的に考えると検索処理が3回行なわれることになる。
【0119】
まず、ステップ8000で画像検索かどうかの判断が行なわれる。画像検索でないと判断された場合、ステップ8001でキーワード検索が行なわれ、検索結果が一時メモリ60に格納される。ここで検索されてくるのは、ファイルIDと該当時間区間の開始タイムコードと終了タイムコードである。
【0120】
ステップ8000で画像検索と判断された場合、ステップ8002へ行く。さらに背景が有効かどうかの判断が行なわれ、背景が無効の場合、ステップ8003へ行き、図11の合成画像583から画像特徴量抽出用画像585を切り出す手順と同様にして参照画像の背景の除去が行なわれてから、ステップ8004で参照画像の画像特徴量が算出され(図1の処理72)、ステップ8005でデータベースの画像特徴量による検索(図1の処理81)が行なわれる。背景が有効の場合には、ステップ8003を飛ばしてステップ8004へ行く。図18の例では、2つの画像検索はいずれもステップ8003を経由する。画像検索の結果を、類似度がある一定値以上のものを合致したものとみなす場合、ここで検索されてくるのはファイルIDと該当時間区間の開始タイムコードと終了タイムコードである。
【0121】
検索処理の度にステップ8006で、個々の映像要素オブジェクト検索がすべて終了したかどうかの確認を行ない、終わっていなければステップ8000に戻る。この例では3回目にすべて終了とみなされ、ステップ8007へ行く。
【0122】
ステップ8007で、一時メモリ60に保持された検索結果集合の中で、ファイルの中の出現時間区間で集合演算(本実施例では論理積)を施して検索結果リストの作成を行ない、映像検索端末装置にファイルIDと該当時間区間の開始タイムコードと終了タイムコードのリストが検索結果として返されるとともに映像検索端末装置に処理を戻す。
【0123】
【発明の効果】
以上説明したように、本発明によれば、映像データベースから利用者の所望の映像を検索する際、映像の構成要素である複数コンテントの空間的、時間的、意味的な配置にもとづく検索条件指定を可能にすることによって、利用者は自身の持つ映像のイメージをコンテント毎に具体化すれば良く、目的とする映像を検索するのに要する時間を短縮することができる。
【図面の簡単な説明】
【図1】本発明に係る一実施形態のデータベースシステムの概略構成を示すブロック構成図である。
【図2】本実施形態の映像情報テーブル領域で管理されるテーブルの構成例を示す図である。
【図3】本実施形態の映像ファイル管理テーブルの構成例を示す図である。
【図4】本実施形態の映像要素オブジェクト管理テーブルの構成例を示す図である。
【図5】本実施形態の検索時参照画像管理テーブルの構成例を示す図である。
【図6】本実施形態の重心情報管理テーブルの構成例を示す図である。
【図7】本実施形態の映像シーン管理テーブルの構成例を示す図である。
【図8】本実施形態のテキスト・アノテーション管理テーブルの構成例を示す図である。
【図9】本実施形態の映像オブジェクト情報登録処理の一例のフローチャートである。
【図10】図9の検索時参照画像取得処理の一例のフローチャートである。
【図11】本実施形態のアルファ・プレーン合成後の画像に対する矩形設定例を示す図である。
【図12】図9のテキスト情報取得処理の一例のフローチャートである。
【図13】図9のデータベース登録処理の一例のフローチャートである。
【図14】本実施形態の映像シーン情報登録処理の一例のフローチャートである。
【図15】図14のデータベース登録処理の一例のフローチャートである。
【図16】本実施形態の映像検索端末装置の検索画面表示の一例である。
【図17】本実施形態の映像検索端末装置における映像検索の一例のフローチャートである。
【図18】本実施形態の映像検索サーバ装置における映像検索処理の一例のフローチャートである。
【符号の説明】
10…映像入力端末装置、20…映像検索端末装置、30…映像検索サーバ装置、40…映像蓄積装置、41…映像ファイル格納領域、50…データベース管理システム、51…映像情報テーブル領域、60…一時メモリ、70…映像ストリーム解析処理モジュール、71…検索時参照画像取得処理モジュール、72…画像特徴量算出処理モジュール、73…テキスト情報取得処理モジュール、74…映像シーン代表画像取得処理モジュール、80…映像検索処理モジュール、81…画像特徴量類似度計算処理モジュール、90…通信ネットワーク。
【発明の属する技術分野】
本発明は、映像ファイルを蓄積し、再利用することを目的としたデータベース管理システムに関し、特にこのデータベースを用いて、コンテントベースで符号化された映像ファイルを登録し検索するための効果的な映像検索方法及び装置ならびに記録媒体に関する。
【0002】
【従来の技術】
データベースから所望の映像を検索する場合に、映像の見出し、映像の著作権者、映像が作成あるいは撮影された日付などの、映像の書誌的情報に対する検索を行なうだけでなく、映像そのものに出現する物体に関する具体的要件を指定して検索を行なうことが、より効果的である。
【0003】
近年のデータベース管理システムでは、静止画像に関しては、当該画像に付与されたキーワードを利用したキーワード検索だけでなく、画像解析プログラムも併用されるようになってきている。画像データの登録の際に、画像の全体的な色合い、局所的な色合い、エッジ情報などの特徴を解析プログラムを用いて画像特徴量という形式であらかじめ抽出しておき、検索の際に特徴量の類似度を比較する。その結果、類似度がある閾値以上のものを条件に合致したもの、閾値以下のものを条件に合致しないものとして検索にヒットしたかどうかを区別したり、あるいは検索結果の一覧を利用者へ提示する際に類似度の高い順に並べ替えて表示して検索の効率向上を図るシステムが、特願平9−196154号で実現されている。
【0004】
ここで述べたような、画像の特徴量を利用した画像検索システムは、映像管理の分野にも応用可能である。映像シーンの構成要素である一連のフレーム画像のうち、そのシーンを代表するフレームを1枚の代表画像として抽出し、それらの代表画像を上述の静止画像管理と同様の手法で処理して画像の特徴量を算出しておき、代表画像検索を通じて利用者の所望の映像を検索することが容易に実現可能である。これまで行なわれて来た映像の書誌情報や映像の区間に関連付けられたコメント情報を元にした間接的な映像検索に、代表画像の類似度検索を組み合わせることで、より実際の映像イメージに近い検索が実現できるようになる。
【0005】
【発明が解決しようとする課題】
このような、映像の代表画像の特徴量を使った類似度評価による従来の映像検索の方法においては、次のような問題がある。
【0006】
映像シーンの代表画像を用いた映像検索では、映像が実際に再生される時のある一時点の静止画像にのみ着眼している。映像には画像と異なり動きがあるために、代表画像の選び方によっては利用者が想定している映像シーンのイメージと異なることもあり、代表画像による検索が有効に働かないことがあるという問題点があった。
【0007】
例えば、背景の中で物体が右から左へと移動して消えて行くような映像シーンがデータベースに登録されることを考える。たまたま物体が右端に位置している時点で代表画像を取得した場合に、利用者が物体の位置を右側でない他の位置、仮に左端と指定して画像検索を行なってしまうと、その映像シーンを検索するのは難しくなるという問題がある。また、代表画像に偶然何らかの物体が写っている時に、背景だけをイメージして画像検索を行なった場合には、代表画像中の物体の存在が邪魔になり、検索することがより難しくなる。
【0008】
ところで、映像ファイルの符号化方式の1つとして、圧縮効率を高めたり、再利用性を高めたりするために、映像ファイルが、内部では背景と物体(以降、これらをそれぞれコンテントと呼ぶ)とが区別されて符号化され、複数の映像のストリームとして構成される方式がある。この方式では、再生される段階でそれらの映像ストリームが合成処理されて1つの映像として再生される。このようにコンテントベースで映像ファイルが符号化されている場合であっても、コンテントの合成後の再生映像を元にして従来の方式で映像データの登録を行なってしまうと、選択された代表画像によってはこれまで同様に検索が難しくなると問題が生じる。
【0009】
本発明の目的は、コンテントベースで符号化された映像ファイルを管理するデータベース・システムにおいて、利用者が映像に現われる個々のコンテントに着眼して検索条件を設定し、映像シーン検索を行なうことが可能な映像検索方法及び装置を提供することにある。
本発明の前記ならびにその他の目的及び新規な特徴は、本明細書の記述及び添付図面によって明らかにする。
【0010】
【課題を解決するための手段】
本願において開示される発明のうち代表的なものの概要を簡単に説明すれば、以下のとおりである。
(1)データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法であって、構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示する映像検索方法である。
【0011】
本発明のポイントは、例えば、映像シーンの背景映像と主体映像とを別々に抽出してデータベースに記録しておき、利用者が所望の映像シーンを検索する際には、前記データベースに記録されている背景映像と主体映像とを別々に検索し、この検索された二つの情報から利用者の検索イメージに近い映像シーンを得る映像検索方法である。
【0012】
(2)前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出しておき、当該画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておき、画像の類似度検索を元にして映像検索を行なう際の検索時参照画像の選択方法として、映像シーンの中で一定時間間隔毎に画像の比較を行ない、類似度が高い画像が続いた時はその先頭の1つのみを該映像シーンの検索時参照画像として採用する映像検索方法である。
【0013】
(3)前記映像シーンの検索時参照画像の選択方法を、映像シーンの替わりに映像の構成要素であるコンテントに対して適用し、映像コンテントの中の検索時参照画像の類似度検索によってデータベース中の映像要素オブジェクトを検索し、該映像コンテントが合成されて再生される映像シーンを映像検索の結果とする映像検索方法である。
【0014】
(4)前記映像コンテントが、再生時に他の映像コンテントと合成される時に画像の一部が透明もしくは半透明として合成される映像コンテントであった場合に、前記映像コンテントの検索時参照画像の画像特徴量の算出時に、合成処理時に透明として取り扱われる部分を除いた矩形又は半透明として取り扱われる部分まで除いた矩形を定義し、該矩形の内部を1枚の画像とみなして画像特徴量の算出を行ないデータベースに保持しておき、矩形内画像特徴量を映像検索の対象項目とする映像検索方法である。
【0015】
(5)前記矩形内画像特徴量の算出の際、前記特徴量を該矩形の重心位置により求まる元画像内の位置情報とともにデータベースに保持しておき、矩形内画像特徴量と重心位置情報とを組み合わせて映像検索の対象項目とする映像検索方法である。
【0016】
(6)前記映像要素オブジェクトがテキスト・ストリームの場合に、該ストリームからテキスト情報を文字コード列として自動的に抽出し、前記文字コード列を再生時に合成される他の映像要素オブジェクトとの時間的リンク情報とともにデータベースに格納し、テキスト検索で合致した際に、リンクされている映像要素オブジェクトが再生時に合成されてできる映像シーンを検索結果映像とする映像検索方法である。
【0017】
(7)データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する装置であって、構成要素であるコンテント毎に符号化され、再生時に合成されて表示されるための該コンテント同士の関係情報を持っている映像ファイルをデータベースへ登録する際に、映像ファイルのストリーム解析を行なう手段と、この解析により分離されて抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を該コンテントから抽出する手段と、前記映像要素オブジェクトの情報と前記アノテーション情報を共にデータベースに登録する手段と、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述する手段と、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行なう手段と、前記合致した映像要素オブジェクトの出現時間区間に関する集合演算を施して検索結果映像シーンを定義する手段と、利用者が提示された検索結果リスト中の所望の映像シーンを指定する手段と、前記データベースから対象の映像ファイルを取得し、利用者に提示する手段を有するものである。
【0018】
(8)前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出する手段と、前記画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておく手段と、画像の類似度を元にして映像検索を行なうための検索時参照画像の選択を行なう際、映像シーンの中で一定時間間隔毎に画像の比較を行なう手段と、類似度が高い画像が続いた時はその先頭の1つのみを前記映像シーンの検索時参照画像として採用する手段を有する映像の検索装置である。
【0019】
(9)前記映像コンテントの中の検索時参照画像の類似度検索によってデータベース中の映像要素オブジェクトを検索する手段と、前記映像コンテントが合成されて再生される映像シーンを映像検索の結果とする手段を有する映像の検索装置である。
【0020】
(10)前記映像コンテントが、再生時に他の映像コンテントと合成される時に画像の一部が透明もしくは半透明として合成される映像コンテントであった場合に、映像コンテントの検索時参照画像の画像特徴量の算出時に、合成処理時に透明として取り扱われる部分を除いた矩形又は半透明として取り扱われる部分まで除いた矩形を定義し、該矩形の内部を1枚の画像とみなして画像特徴量の算出を行ないデータベースに保持する手段と、矩形内画像特徴量を映像検索の対象項目とする手段を有する映像の検索装置である。
【0021】
(11)前記矩形内画像特徴量の算出の際、当該特徴量を前記矩形の重心位置により求まる元画像内の位置情報とともにデータベースに保持する手段と、
矩形内画像特徴量と重心位置情報とを組み合わせて映像検索の対象項目とする手段を有する映像の検索装置である。
【0022】
(12)映像要素オブジェクトがテキスト・ストリームの場合に、該ストリームからテキスト情報を文字コード列として自動的に抽出する手段と、該文字コード列を、再生時に合成される他の映像要素オブジェクトとの時間的リンク情報とともにデータベースに格納する手段と、テキスト検索で合致した際に、リンクされている映像要素オブジェクトが再生時に合成されてできる映像シーンを検索結果映像とする手段を有する映像の検索装置である。
【0023】
(13)データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法の処理手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示するプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0024】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態(実施例)を詳細に説明する。
図1は本発明に係る一実施形態のデータベースシステムの概略構成を示すブロック構成図である。
【0025】
本実施形態のデータベースシステムは、図1に示すように、クライアント−サーバ型のシステムであり、通信ネットワーク90でネットワーク接続された映像入力端末装置(クライアント)10と映像検索端末装置(クライアント)20と映像検索サーバ装置30で構成される。映像検索サーバ装置30は、高速な磁気ディスクで構成される映像ファイル格納領域41を管理する映像蓄積装置40、各種の映像情報テーブルが格納される映像情報テーブル領域51を管理するデータベース管理システム50、各モジュールにおける処理過程のデータを一時的に保持しておくための一時メモリ60、及び個々の処理モジュールからなる。
【0026】
前記処理モジュール(処理手段)としては、映像ストリーム解析処理モジュール70、検索時参照画像取得処理モジュール71、画像特徴量算出処理モジュール72、テキスト情報取得処理モジュール73、映像シーン代表画像取得処理モジュール74、映像検索処理モジュール80、画像特徴量類似度計算処理モジュール81がある。ここで、サーバ機能とクライアント機能を通信ネットワーク90を介さずに同一装置上で動作するように実装しても、本発明の実施には差し支えない。
【0027】
図1において、映像のデータベース登録時に、まず、映像が映像入力端末装置(クライアント)10へ投入され、通信ネットワーク90を介して映像検索サーバ装置30に伝送される。伝送と平行もしくは伝送完了後に、映像を検索するための情報を映像の中から抽出し、映像蓄積装置40の高速な磁気ディスクで構成される映像ファイル格納領域41のデータベースに登録する。
【0028】
具体的には、映像ストリーム解析処理モジュール70で映像をストリームの分離装置に通すことにより、映像ストリーム、音声ストリーム、テキスト・ストリーム、その他の個々の映像ファイル独自のストリームに分解し、それぞれを映像要素オブジェクトとする。これらに対し、オブジェクトの種類に対応した解析およびデータベースへの登録処理を行なう。
【0029】
映像ストリームからなる映像要素オブジェクトの場合は、検索時参照画像取得処理モジュール71により、その映像ストリームの開始時刻、終了時刻を記録するとともに、その映像ストリーム中の特徴的な映像フレームを静止画像として抽出し、これらを検索時参照画像として、画像特徴量算出処理モジュール72により画像の特徴量を算出しておく。
【0030】
複数の映像ストリームが再生時に合成される場合には、重ね合わせの際に、一方のストリームでは背景など画像の一部を透明化させる必要がある。これは一般的にはクロマキー合成もしくはブルーバック合成と呼ばれるものである。ここで検索時参照画像においては、クロマキー合成時に透明として取り扱われるドットかどうかを判断するためのアルファ・プレーンまで考慮し、画像特徴量算出の前に透過部分を除去しておく。これによって再生時に見えない部分は検索過程でも無視されることになる。
【0031】
また、画像特徴量算出処理モジュール72における前記画像特徴量算出の際には、透過部分を最大限に除くことができる矩形を定義し、特徴量はその矩形の内部だけで算出し、矩形が元画像の中でどの位置にあったのかを記録しておくことで、物体の特徴や映像イメージが検索時参照画像情報により一層反映される。
【0032】
なお、変化のある映像要素オブジェクトの場合は、1つの映像要素オブジェクト中から、検索時参照画像が複数枚取られることもある。これらの時刻情報及び検索時参照画像の画像特徴量は検索用のデータベースに格納される。画像の特徴量は数値データの並び、数値列である。
【0033】
テキスト・ストリームからなる映像要素オブジェクトの場合は、テキスト情報取得処理モジュール73で、文字コード列と、その文字列の表示に関係する開始時刻、終了時刻を記録し、データベースに格納しておく。テキスト情報に関しては、映像ファイルからの自動抽出の他、オペレーターの手入力によるコメント情報も同様に取り扱い管理できるようにしておく。
【0034】
音声ストリームや個々の映像ファイル独自のストリームからなる映像要素オブジェクトの場合には、そのストリームの開始時刻、終了時刻とストリーム種別のみ記録し、データベースに格納しておく。
【0035】
コンテントベースで符号化された映像を検索する際には、映像シーン代表画像取得処理モジュール74で、上述のようにして抽出された、映像検索のためのキーワード・数値列等で表わされる映像のコメント情報(以下、アノテーションと称す)を元に、映像要素オブジェクト毎に検索条件を指定して検索を実行する。
【0036】
映像検索処理モジュール80における検索は、データベースに格納されたアノテーション情報に対して行なわれ、検索の過程で映像ファイルを直接参照して調べることはしない。データベースに格納された映像要素オブジェクト毎に検索条件に合致する映像ファイルとその時間区間を調べる。検索条件が、複数の映像コンテントの論理積や論理和といった集合演算として指定されていた場合には、さらに検索結果の映像の時間区間に対して同義の集合演算を施し、その結果を映像検索の結果とする。これによって利用者は、画像特徴量類似度計算処理モジュール81を用いて、映像に現われている個々の物体に着眼して所望の映像シーンの検索をすることが可能になる。
【0037】
前記映像入力端末装置10は、映像ファイルをデータベースに登録する際に用いられる端末である。映像ファイルはこの装置を介して入力され、通信ネットワーク90経由で映像検索サーバ装置30に伝送される。
【0038】
前記映像検索端末装置20は、映像ファイルを検索する際に利用者が操作する端末である。利用者からの映像検索の条件入力を受け付け、検索結果の一覧の提示、検索結果映像シーンの再生などがこの端末上で行なわれる。
【0039】
前記映像蓄積装置40には、映像入力端末装置10から送信された映像ファイルがそのままの形式で格納される。再生時に元の形式と時間の整合性を取ることが可能であれば、ここでは形式変換されて格納されていても構わない。
【0040】
前記データベース管理システム50では、映像データの登録時に抽出された、映像ファイルに関する各種アノテーション情報が、映像情報テーブル領域51内でそれぞれテーブル形式で管理される。次に、ここで管理される各種テーブルについて説明する。
【0041】
図2は映像情報テーブル領域51で管理される各種テーブルの一覧を示す。映像ファイル管理テーブル52、オブジェクト管理テーブル53、検索時参照画像管理テーブル54、重心情報管理テーブル55、映像シーン管理テーブル56、テキスト・アノテーション管理テーブル57が、映像情報テーブル領域51で管理される。
【0042】
図3は映像ファイル管理テーブル52の構成例である。テーブルのカラムとしては、映像ファイルの識別子を表わすファイルID521、映像ファイルが格納されている場所を指し示す所在情報522、映像ファイルの形式や長さ、アクセス権などの情報を格納する管理属性情報523、その映像に関する著作権者、出演者情報、作成あるいは撮影された年月日といった情報を格納する書誌情報524がある。ファイルID521はこのテーブルでユニークな値で、所在情報522と1対1対応している。
【0043】
図4はオブジェクト管理テーブル53の構成例である。ここでは映像ファイル中の各種コンテントが映像要素オブジェクトとして、属性情報などとともに管理される。テーブルのカラムとしては、映像要素オブジェクトの識別子を表わしテーブルのレコードを一意に識別するオブジェクトID531、そのオブジェクトがどのファイルに属するのかを示すファイルID532、映像ファイル内のコンテントを識別するためのコンテントID533、その映像要素オブジェクトが映像なのか、音声なのか、テキスト・ストリームなのかといったオブジェクトの種類を表わすオブジェクト属性534、映像要素オブジェクトの時間区間を示す開始タイムコード535及び終了タイムコード536などがある。オブジェクトID531と、ファイルID532とコンテントID533とを組にしたものとが、1対1対応している。コンテントID533については、映像ファイルのコンテント自身に映像ファイルの内部で割り振られているIDを流用しても、あるいはデータベースへの登録時に別途独自に割り振っても構わない。また、本実施形態においてはタイムコードをSMPTE形式としているが、別の表現形式を用いても、本発明の実施においては差し支えない。
【0044】
図5は検索時参照画像管理テーブル54の構成例である。ここで管理されるのは、映像コンテントから抽出された、そのコンテントの中で特徴的なフレーム画像とその画像特徴量である。コンテントから抽出されたものであり、実際に再生される時に合成された結果として利用者が目にするフレーム画像ではなく、あくまで合成前のフレーム画像である。また、映像コンテントによってはクロマキー合成のためのアルファ・プレーンを伴なっていて、他の映像コンテントとの合成時に、上書きしたり、上書きされたり、半透明で重ね合わせられたりといった指定を伴なうことがある。
【0045】
ここでは、アルファ・プレーンとは合成処理済みで、他の映像コンテントとは合成されていない時点のフレーム画像を取り扱う。アルファ・プレーンは2値とは限らず、例えば、煙らしさを表わすための半透明という規格もある。アルファ・プレーンとの合成によって、完全に透明として取り扱われる領域については、画像特徴量計算の対象外として検索の精度を高めることができる。透明部分を特徴量計算の対象外とする手順については後述する。
【0046】
テーブルのカラムとしては、検索時参照画像を識別するための画像ID541、そのフレーム画像がどの映像要素オブジェクトから取得されたものなのかを示す映像オブジェクトID542、そのフレームが取得された時間を表わすタイムコード543、そのフレーム画像の形式を表わす画像フォーマット544、フレーム画像そのものが格納される画像本体545、画像の特徴量を格納する画像特徴量546などがある。画像フォーマット544や画像本体545は、画像特徴量算出の際には必要だが、その後の映像検索の過程ではほとんど必要とされない。したがって、画像フォーマット544及び画像本体545カラムがこのテーブルになくても、本発明の実施には何ら差し支えない。
【0047】
図6は重心情報管理テーブル55の構成例である。アルファ・プレーンの合成によって透明な部分ができた時に、透明でない部分の物体だけを画像特徴量抽出の対象とするため、元画像における物体の位置情報を画像IDとペアにして管理する。アルファ・プレーンとの合成によって、形状には変化がなく、かつ動きのあるようなオブジェクトに関しては、1つの画像IDに対してここで複数の重心情報レコードが作成されることもある。
【0048】
なお、アルファ・プレーンとの合成を伴わない場合は、便宜上、重心は画像の中心としておく。テーブルのカラムとしては、検索時参照画像管理テーブル54の画像IDカラムに対応する画像ID551、X方向及びY方向の重心位置をそれぞれ0〜100の範囲に正規化した重心X552と重心Y553がある。ここでは0〜100の範囲に正規化したが、画面上における相対位置が特定できる表現形式であれば、他の形式であっても本発明の実施には差し支えない。
【0049】
図7は映像シーン管理テーブル56の構成例である。これは、前述の映像要素コンテントとは直接の関係はなく、通常の、再生時の映像における場面の切り替わり点を区切りとした映像のシーンを単位として、その区間情報と代表フレーム画像を管理するためのものであり、映像データ登録時に映像の切り替わりを検出するプログラムを用いて映像シーンの区間定義を行なう。
【0050】
テーブルのカラムとしては、映像シーンを識別するためのシーンID561、映像シーンの含まれる映像ファイルを示す映像ファイルID562、映像シーンの時間区間の始まりを示す開始タイムコード563、映像シーンの時間区間の終わりを示す終了タイムコード564、代表フレーム画像を取得した時間を示す代表タイムコード565、取得した代表フレームの画像形式を表わす画像フォーマット566、代表フレーム画像の実体を格納する画像本体567がある。本実施例では映像シーンに代表画像は1つとしてあるが、代表画像の定義されていない映像シーン、あるいは代表画像が複数定義された映像シーンがあっても構わない。
【0051】
図8はテキスト・アノテーション管理テーブル57の構成例である。テーブルのカラムとしては、個々のテキスト・アノテーションのレコードを一意に識別するためのテキストID571、そのテキスト・アノテーションがどの映像ファイルに含まれるものか、あるいは別途人手によって付加されたものであった場合にどの映像ファイルに関係するものかを示す映像ファイルID572、テキスト・アノテーションが定義された時間区間を示す開始タイムコード573、終了タイムコード574、そして文字コード列そのものが格納されるテキスト情報575がある。ここでのテキスト情報は、映像のテキスト・ストリームから自動的に抽出する他、人手によって入力されるものを含めても構わない。
【0052】
次に、図1中の各処理について説明する。処理70〜74は、主に映像ファイルを映像データベースに格納する際に関与する処理である。処理80〜81は主に映像データベースから映像シーンを検索する際に関与する処理である。登録と検索とに分けて、まず全体の処理の流れについて大まかに説明した後、各処理の詳細を説明する。
【0053】
<映像ファイル登録処理の大まかな流れ>
映像ファイルの登録は、映像ファイルそのものの蓄積装置への保存、映像ファイルをその構成要素であるコンテントにストリーム分離を行なった上での映像要素オブジェクト情報のデータベースへの登録、映像ファイルをシーンの変化点で区切った映像シーン情報のデータベースへの登録、これら3つの処理に分けることができる。これらを同時並行処理させても、あるいは逐次処理させても、本発明の実施には差し支えない。ここでは同時並行処理における実施例を述べる。
【0054】
第1の処理、すなわち、映像ファイルの、映像蓄積装置40への格納処理は、映像入力端末装置10から送られてきた映像ファイルを、そのままの形式、もしくは再現可能な形式で映像ファイル格納領域41に保存することである。
【0055】
第2の処理、すなわち、映像オブジェクト情報の登録処理は、同時並行処理をする場合には、映像入力端末装置10から送られて来る映像ファイルを実時間処理して、映像オブジェクトの情報をデータベースに登録する。逐次処理とするのであれば、一旦映像ファイル格納領域41に保存された映像ファイルに対して処理をすることでも構わない。
【0056】
第3の処理、すなわち、映像シーン情報の登録処理も、同時並行処理をする場合には映像入力端末装置10から送られて来る映像ファイルを実時間処理して、映像のシーン情報をデータベースに登録する。逐次処理とするのであれば、一旦映像ファイル格納領域41に保存された映像ファイルに対して処理をすることでも構わない。
【0057】
以上述べた3つの登録処理によって、映像検索サーバ装置30への映像ファイルの登録が行なわれ、利用者からの検索要求に応えられるようになる。
【0058】
<映像ファイルの映像ファイル格納領域への保存処理>
これは、基本的に映像ファイルを磁気ディスクに書き込むだけの処理である。ただし、他の2つの登録処理のいずれかが正常終了しなかった場合には、ここで書き込まれた映像ファイルは無効とされなければならない。また、逆にここでの映像ファイルの保存処理に失敗した時には、他の2つの登録処理を無効化させる必要がある。
【0059】
<映像要素オブジェクト情報の登録処理>
映像要素オブジェクト情報の登録処理のフローチャートを図9に示す。これは図1の映像ストリーム解析処理70に相当する。
【0060】
図9のステップ7000で、一時メモリ60の初期化をはじめとする登録処理の準備を行なう。準備が完了したら、映像ファイルのストリームが送られてくるのを待つ。
【0061】
続くステップ7001でストリームの種別を判別する。ここでは大きく3つ、映像ストリーム、テキスト・ストリーム、その他のストリームに分けている。その他のストリームとしては、オーディオ・ストリーム、ユーザ定義ストリームなどがある。なお、映像のストリームは複数種類のものが混在して伝達されてくるものであり、個々のストリームに対する処理は本来並行処理を行なわなければならない。本実施形態では、簡便のため、以下の説明は1つ1つのストリーム単位に記述する。
【0062】
ステップ7002で映像ストリームと判断された場合、ステップ7003の検索時参照画像取得処理が行なわれる。この処理の詳細については後述する。この処理が終わると、検索時参照画像に関する情報が一時メモリ60に格納されてくる。
【0063】
ステップ7004でテキスト・ストリームと判断された場合、ステップ7005のテキスト情報取得処理が行なわれる。この処理の詳細についても後述する。この処理が終わると、テキスト情報が一時メモリ60に格納されてくる。
【0064】
ステップ7004でテキスト・ストリームと判断されなかった場合、このストリームは検索適用外のストリームとみなして、ステップ7006で映像要素オブジェクトの時間区間、すなわち、開始タイムコードと終了タイムコードの取得のみ行なう。これらの情報は、一時メモリ60に格納されてくる。
【0065】
次に、ステップ7007で映像ファイルの終わりかどうかを判断する。終わりでなければ再度ステップ7001に戻り、引き続きストリームの処理を行なう。映像ファイルの終わりであった場合、一時メモリに格納された映像のアノテーション情報を、ステップ7008でデータベースに登録する処理を行なう。この処理の詳細についても後述する。このデータベースへの登録処理を抜けると、映像オブジェクト情報登録処理は完了である。
【0066】
ここで、図9のステップ7003、検索時参照画像取得処理のフローチャートを図10に示す。これは図1の検索時参照画像取得処理71に相当する。
【0067】
まず、はじめに、ステップ7100で映像ストリームの開始タイムコードを取得する。この後の処理は基本的に1フレーム進む度に行なわれる。
【0068】
続くステップ7101で、直前に検査したフレーム位置と今回のフレーム位置とを比較する。フレーム位置の差が既定値未満だった場合は何もせず、ステップ7102から再度7101に戻り、次のフレームに対して処理を続ける。
【0069】
ステップ7103で、現在のフレーム画像が合成時に一部が透明として処理されるものであるか、すなわち、アルファ・プレーンが定義されているかどうかを判断する。定義されている場合、ステップ7104でAlphaに1を設定しアルファ・プレーンの定義があることを保持しておく。
【0070】
アルファ・プレーンの定義がある場合に行なわれる、具体的な処理の様子を図11に示す。元画像581が映像コンテントの1つである。車と山と太陽とが映っている。この画像を、再生する際に別の映像コンテントと合成するために、ステップ7105の処理でアルファ・プレーン582と合成する。ここでのアルファ・プレーンは2値、すなわち完全透明か全く透明でないかのどちらかとしてあり、斜線部分を完全透明としている。合成された結果が合成画像583であり、背景の山と太陽が消去され、車だけが映っている。
【0071】
合成画像583から画像特徴量を抽出してしまうと、車が画像の右下に偏って映っているため、車の画像特徴量にもこの位置情報が反映されてしまう。これを防ぐために、ステップ7106で、水平方向及び垂直方向にそれぞれ2本、透明でない画像領域に接するように直線を引く。この状態を矩形抽出画像584に示す。そして、この4本の線の交点をそれぞれ頂点とする矩形を定義し、その矩形内部を画像特徴量抽出に使用することにする。この矩形内画像を画像特徴量抽出用画像585に示す。以上の矩形定義によって、物体の位置的な偏りが除去され、純粋に車の画像特徴量の算出が可能になる。矩形の定義とともに、ステップ7107で、その矩形の重心位置を算出し、それを元画像内の物体の位置情報として保持しておく。なお、厳密に物体の重心を計算するのであれば、矩形の重心ではなく、矩形内を更に分割して物体の存在位置に関して加重平均を求めるのが正しい。ステップ7107において、そのようにして物体の重心を計算しても、本発明の実施には何ら差し支えない。
【0072】
ステップ7103で現在のフレーム画像にはアルファ・プレーンが定義されていないと判断された場合、ステップ7108でAlphaに0を設定しアルファ・プレーンの定義がないことを保持しておく。
【0073】
次のステップ7109で、直前に登録対象として取得された検索時参照画像と今回のフレーム画像とを比較して差分を算出する。そして、ステップ7110でこの差分値が既定の閾値以上かどうかを判断する。
【0074】
閾値以上であった場合は、この画像を新たに検索時参照画像として登録することになる。まずステップ7111で画像の特徴量を算出する。これは図1の画像特徴量算出処理72に相当する。次にステップ7112で、現在のタイムコード、画像データ、画像特徴量などを一時メモリ60に保持する。
【0075】
閾値未満で、ステップ7113でAlpha=1でない、すなわちアルファ・プレーンの定義がないと判明した場合は、直前の登録フレームと比べて変化が乏しいということであるから、次の処理をするためにステップ7117へ飛ぶ。
【0076】
閾値未満でも、ステップ7113でAlpha=1であった場合、すなわちアルファ・プレーンとの合成があった場合は、画面中で物体の移動が行われた可能性がある。ステップ7114で重心の移動量を算出し、ステップ7115で重心の移動量が既定の閾値を超えていた場合、ステップ7116で重心情報のみ追加登録する。
【0077】
現在のフレーム画像に対する処理が終わったら、ステップ7117でストリームの終わりかどうかを判断する。終わりでなかったら、ステップ7101に戻って次のフレーム画像の処理を行なう。終わりだった場合、ステップ7118でストリームの終了タイムコードを取得し、元の処理に戻る。
【0078】
次に、図9のステップ7005、テキスト情報取得処理のフローチャートを図12に示す。これは、図1のテキスト情報取得処理73に相当する。
【0079】
まずはじめに、ステップ7300でテキスト・ストリームの開始タイムコードを取得する。
【0080】
続くステップ7301で、テキスト・ストリームの中から文字コード列を取得する。この際、制御コードなどの非テキスト情報は除いておくことで、データ量を減らすことが可能である。ただし、文字コード列をそのままの形式で取得しておいても、本発明の実施には差し支えない。
【0081】
次のステップ7302では、テキスト・ストリームの終わりかどうかを判断する。終わりに達していなければ、再びステップ7301に戻り、文字列取得を行なう。
【0082】
ストリームの終わりに達していたならば、ステップ7303でテキスト・ストリームの終了タイムコードを取得し、元の処理に戻る。
【0083】
次に、図9のステップ7008、データベース登録処理の詳細を説明する。この処理のフローチャートを図13に示す。
【0084】
これまでの処理で取得されたデータベースに登録すべきデータは、すべて一時メモリ60に蓄えられている。まず、ステップ7120で、データベース管理システム50へ登録対象のデータを転送するとともにデータの登録指示を行なう。ここでデータベース管理システムにおいて、映像情報テーブルへのデータ登録処理が行なわれる。
【0085】
ステップ7121で登録処理が失敗したと判断された場合、ステップ7122で、他のデータ登録処理、すなわち、第1の処理である映像ファイルの格納処理及び第3の処理である映像シーン情報の登録処理であるが、これらをキャンセルさせ、映像データ登録処理は失敗に終わる。この結果、映像データ登録はまったく行なわれなかったかのようにデータベースは復元される。
【0086】
ステップ7121で登録処理が成功したと判断された場合、ステップ7123で、他のデータ登録処理、すなわち上述の映像ファイルの格納処理及び映像シーン情報の登録処理が成功したかどうかの確認を行なう。その結果ステップ7124で1つでも失敗していたと判断された場合は、ステップ7125で本登録処理を取り消し、異常終了とする。すべて成功していたと判断された場合は、ステップ7126で正常終了処理を行ない、元の処理に戻る。
以上で図9のフローチャートは終わりに達する。
【0087】
<映像シーン情報の登録処理>
映像シーン情報の登録処理のフローチャートを図14に示す。これは図1の映像シーン代表画像取得処理74に相当する。
【0088】
なお、この実施形態では、映像の各シーンに対して代表画像はシーンの先頭のフレーム画像を1枚だけ取得することを想定している。
【0089】
図14のステップ7400で、一時メモリ60の初期化をはじめとする登録処理の準備を行なう。準備が完了したら、映像ファイルの再生画像が送られてくるのを待つ。
【0090】
続くステップ7401では、映像シーンの開始を待った上で、シーン開始タイムコードの取得を行なう。
【0091】
次のステップ7402で代表フレーム画像の取得処理を行なう。ここではシーンの先頭のフレームを代表画像として取得し、代表画像は一時メモリ60に保持される。
【0092】
代表画像の取得後、ステップ7403でシーンの切り替わりがあったかどうかを判断する。ステップ7404でシーンの切り替わりがあったと判断されなかった場合、再度ステップ7403に戻り、引き続きシーンの切り替わりを調べる。
【0093】
シーンの切り替わりがあったと判断された場合、次のステップ7405でシーンの終了タイムコードを取得する。この終了タイムコードは、厳密にはシーンの切り替わりがあったと判断された1つ前のタイムコードとなる。
【0094】
ステップ7406で映像ファイルの終わりに達したかどうかを判断し、終わりに達していなかったならば再度ステップ7401に行き、次のシーン情報を取得する。終わりに達していたと判断された場合、ステップ7407でデータベースへの登録処理を行なう。この処理の詳細についても後述する。このデータベースへの登録処理を抜けると、映像シーン情報登録処理は完了である。
【0095】
次に、図14のステップ7407、データベース登録処理の詳細を説明する。この処理のフローチャートを図15に示す。基本的に、流れは図13と同様である。
【0096】
これまでの処理で、データベースに登録すべきデータはすべて一時メモリ60に蓄えられている。まず、ステップ7420で、データベース管理システム50へ登録対象のデータを転送するとともにデータの登録指示を行なう。ここでデータベース管理システムにおいて、映像情報テーブルへのデータ登録処理が行なわれる。
【0097】
ステップ7421で登録処理が失敗したと判断された場合、ステップ7422で、他のデータ登録処理、すなわち、第1の処理である映像ファイルの格納処理及び第2の処理である検索時参照画像取得処理であるが、これらをキャンセルさせ、映像データ登録処理は失敗に終わる。この結果、映像データ登録はまったく行なわれなかったかのようにデータベースは復元される。
【0098】
ステップ7421で登録処理が成功したと判断された場合、ステップ7423で、他のデータ登録処理、すなわち上述の映像ファイルの格納処理及び検索時参照画像の取得処理が成功したかどうかの確認を行なう。その結果ステップ7424で1つでも失敗していたと判断された場合は、ステップ7425で登録処理を取り消し、異常終了とする。すべて成功していたと判断された場合は、ステップ7426で正常終了処理を行ない、元の処理に戻る。
以上で図14のフローチャートは終わりに達する。
【0099】
<映像シーン検索処理の大まかな流れ>
映像ファイルの検索は、映像検索端末装置20上で稼動する映像検索アプリケーションから行なわれる。このアプリケーションの実行画面のイメージを図16に示す。
【0100】
図16は上半分が検索条件記述用、下半分が検索結果確認用となっている。検索条件記述としては、画像のイメージとテキスト検索の併用が可能である。
【0101】
ボタン2111は、外部の参照画像ファイルを開いて読み込むためのボタンである。サブウィンドウ2112には読み込まれた参照用の画像ファイルが表示される。スライダーバー2113を操作することによって、この参照画像を元にした画像の類似度検索を行なう際に、色と形のどちらをより重視するかの設定が可能である。2114のラジオボタンによって、画像検索の際に構図を考慮するかしないかの設定が可能である。また、2115のラジオボタンによって、画像検索の際に参照画像の背景部分を有効とするか無効とするかの指定が可能である。
【0102】
これを無効とし、かつ参照画像の背景が単一の色となっている場合、図11の矩形抽出画像584から画像特徴量抽出用画像585を作成する処理と同様にして参照画像から背景の除去が行なわれる。この他に、2116のキーワード入力欄にキーワードを入力することで、キーワード検索が可能である。
【0103】
なお、画像検索とキーワード検索は併用可能であるが、「参照画像1」と「キーワード1」は画面上で上下に並べられているだけで、検索の際には直接は関係しない。つまり、複数の検索条件を設定する際に、「参照画像1」はそのままで「キーワード1」と「キーワード2」の指定を入れ替えても、検索結果には影響しないということである。
【0104】
また、本実施形態で複数の検索条件が設定された場合、これらはすべて時間区間に関する論理積の集合演算を施されるものとする。以下、図16を元にして簡単な検索の例を用いて説明する。
【0105】
まず、参照用画像1として、「ファイル」と表示されたボタン2111を押下して外部ファイルを読み込むことで、あらかじめ作成されていた木の画像を参照画像表示ウィンドウ2112に表示させる。スライダーバー2113によって、この画像を元にした類似度を調べる際にやや形を重視するといった設定をしてある。構図指定2114で構図の指定はなしとしてある。これはつまり、参照画像のオブジェクトが映像のどのあたりに映っていても構わないという意味である。
【0106】
たとえ、この木の形をしたものの前に他の物体が表示されていても、それらがコンテントベースで符号化され別々のコンテントとして扱われていれば、この木に似た画像が問題なく検索されることが期待される。なお、背景指定2115の指定も無効としてあるため、参照画像周囲の空白は無視される。
【0107】
キーワード1として、「木」と入力してある。これは参照画像1を補うための指定である。なお、これがキーワード2の欄に入力されていても検索結果は同じである。
【0108】
次に、参照用画像2として、車の画像が取り込まれている。形を最大限重視して、構図はなし、背景も無効としてある。つまり、車の画像の周囲の単一色部分は画像特徴量の算出の際には除外されるということである。
【0109】
横方向スクロールバー2103を動かすことによってさらに参照画像3以降も設定が可能だが、本実施形態においては、検索条件はこれ以上設定されていないものとする。
【0110】
ここで、「検索実行ボタン」2102が押下されて検索が実行され、その後、再生ボタン2104の押下によって映像の再生まで行なわれる場合の、映像検索端末装置20で行なわれる処理のフローチャートを図17に示す。
【0111】
はじめに、ステップ2000で初期設定が行われ、参照画像、キーワードのクリア、オプション(色、形、構図、背景)の設定をデフォルト値にするといった処理が行なわれる。
【0112】
次の処理2001で、利用者による映像検索条件の設定が行なわれる。ここでは図16に示した通りの検索条件が設定されたものとする。
【0113】
検索実行ボタン2102が押下されるとステップ2002へと進み、通信ネットワーク90を通して検索要求が映像検索サーバ装置30へと伝わり、図1の映像検索処理80が行なわれる。この処理は後述する。
【0114】
検索処理の結果、通信ネットワーク90を通じて検索結果集合が映像検索端末装置20に返され、ステップ2003で検索結果の表示が行なわれる。検索結果の表示例は図16の2121である。
【0115】
ステップ2004で利用者による視聴対象映像の選択が行なわれる。具体的にはボタン2104の押下である。この再生要求によって、ステップ2005で映像検索サーバ装置30から映像ファイルを取得し、ステップ2006で映像の再生が行なわれる。
【0116】
なお、画面上のボタン2101の押下によって、検索アプリケーションは終了する。
【0117】
ここで、図17のステップ2002に相当する、映像検索サーバ処理のフローチャートを図18に示し、詳述する。
【0118】
まず、映像検索サーバに処理要求が渡る際に、3つの検索条件が伝達される。1つ目は、木の画像データ、形をやや重視、構図なし、背景無効、である。
2つ目は、キーワード「木」である。
3つ目は、車の画像データ、形を最大限重視、構図なし、背景無効、である。
この場合、逐次的に考えると検索処理が3回行なわれることになる。
【0119】
まず、ステップ8000で画像検索かどうかの判断が行なわれる。画像検索でないと判断された場合、ステップ8001でキーワード検索が行なわれ、検索結果が一時メモリ60に格納される。ここで検索されてくるのは、ファイルIDと該当時間区間の開始タイムコードと終了タイムコードである。
【0120】
ステップ8000で画像検索と判断された場合、ステップ8002へ行く。さらに背景が有効かどうかの判断が行なわれ、背景が無効の場合、ステップ8003へ行き、図11の合成画像583から画像特徴量抽出用画像585を切り出す手順と同様にして参照画像の背景の除去が行なわれてから、ステップ8004で参照画像の画像特徴量が算出され(図1の処理72)、ステップ8005でデータベースの画像特徴量による検索(図1の処理81)が行なわれる。背景が有効の場合には、ステップ8003を飛ばしてステップ8004へ行く。図18の例では、2つの画像検索はいずれもステップ8003を経由する。画像検索の結果を、類似度がある一定値以上のものを合致したものとみなす場合、ここで検索されてくるのはファイルIDと該当時間区間の開始タイムコードと終了タイムコードである。
【0121】
検索処理の度にステップ8006で、個々の映像要素オブジェクト検索がすべて終了したかどうかの確認を行ない、終わっていなければステップ8000に戻る。この例では3回目にすべて終了とみなされ、ステップ8007へ行く。
【0122】
ステップ8007で、一時メモリ60に保持された検索結果集合の中で、ファイルの中の出現時間区間で集合演算(本実施例では論理積)を施して検索結果リストの作成を行ない、映像検索端末装置にファイルIDと該当時間区間の開始タイムコードと終了タイムコードのリストが検索結果として返されるとともに映像検索端末装置に処理を戻す。
【0123】
【発明の効果】
以上説明したように、本発明によれば、映像データベースから利用者の所望の映像を検索する際、映像の構成要素である複数コンテントの空間的、時間的、意味的な配置にもとづく検索条件指定を可能にすることによって、利用者は自身の持つ映像のイメージをコンテント毎に具体化すれば良く、目的とする映像を検索するのに要する時間を短縮することができる。
【図面の簡単な説明】
【図1】本発明に係る一実施形態のデータベースシステムの概略構成を示すブロック構成図である。
【図2】本実施形態の映像情報テーブル領域で管理されるテーブルの構成例を示す図である。
【図3】本実施形態の映像ファイル管理テーブルの構成例を示す図である。
【図4】本実施形態の映像要素オブジェクト管理テーブルの構成例を示す図である。
【図5】本実施形態の検索時参照画像管理テーブルの構成例を示す図である。
【図6】本実施形態の重心情報管理テーブルの構成例を示す図である。
【図7】本実施形態の映像シーン管理テーブルの構成例を示す図である。
【図8】本実施形態のテキスト・アノテーション管理テーブルの構成例を示す図である。
【図9】本実施形態の映像オブジェクト情報登録処理の一例のフローチャートである。
【図10】図9の検索時参照画像取得処理の一例のフローチャートである。
【図11】本実施形態のアルファ・プレーン合成後の画像に対する矩形設定例を示す図である。
【図12】図9のテキスト情報取得処理の一例のフローチャートである。
【図13】図9のデータベース登録処理の一例のフローチャートである。
【図14】本実施形態の映像シーン情報登録処理の一例のフローチャートである。
【図15】図14のデータベース登録処理の一例のフローチャートである。
【図16】本実施形態の映像検索端末装置の検索画面表示の一例である。
【図17】本実施形態の映像検索端末装置における映像検索の一例のフローチャートである。
【図18】本実施形態の映像検索サーバ装置における映像検索処理の一例のフローチャートである。
【符号の説明】
10…映像入力端末装置、20…映像検索端末装置、30…映像検索サーバ装置、40…映像蓄積装置、41…映像ファイル格納領域、50…データベース管理システム、51…映像情報テーブル領域、60…一時メモリ、70…映像ストリーム解析処理モジュール、71…検索時参照画像取得処理モジュール、72…画像特徴量算出処理モジュール、73…テキスト情報取得処理モジュール、74…映像シーン代表画像取得処理モジュール、80…映像検索処理モジュール、81…画像特徴量類似度計算処理モジュール、90…通信ネットワーク。
Claims (5)
- データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法であって、
構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、
利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、
利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示することを特徴とする映像検索方法。 - 請求項1に記載の映像検索方法において、前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出しておき、当該画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておき、画像の類似度検索を元にして映像検索を行なう際の検索時参照画像の選択方法として、映像シーンの中で一定時間間隔毎に画像の比較を行ない、類似度が高い画像が続いた時はその先頭の1つのみを該映像シーンの検索時参照画像として採用することを特徴とする映像検索方法。
- データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する装置であって、
構成要素であるコンテント毎に符号化され、再生時に合成されて表示されるための該コンテント同士の関係情報を持っている映像ファイルをデータベースへ登録する際に、映像ファイルのストリーム解析を行なう手段と、
この解析により分離されて抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を該コンテントから抽出する手段と、前記映像要素オブジェクトの情報と前記アノテーション情報を共にデータベースに登録する手段と、
利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述する手段と、
これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行なう手段と、
前記合致した映像要素オブジェクトの出現時間区間に関する集合演算を施して検索結果映像シーンを定義する手段と、
利用者が提示された検索結果リスト中の所望の映像シーンを指定する手段と、前記データベースから対象の映像ファイルを取得し、利用者に提示する手段を有することを特徴とする映像の検索装置。 - 請求項3に記載の映像の検索装置において、前記映像要素オブジェクトの情報をデータベースに登録する際、映像シーンの中の特徴的なフレームの画像を検索時参照画像として抽出する手段と、
前記画像の全体的な色合い、局所的な色合い、エッジ情報などの解析結果を画像特徴量として映像シーンに関連づけて蓄積しておく手段と、
画像の類似度を元にして映像検索を行なうための検索時参照画像の選択を行なう際、映像シーンの中で一定時間間隔毎に画像の比較を行なう手段と、
類似度が高い画像が続いた時はその先頭の1つのみを前記映像シーンの検索時参照画像として採用する手段を有することを特徴とする映像の検索装置。 - データベースに映像ファイルを登録し、任意の映像ファイルの任意の区間を検索する方法の処理手順をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
構成要素であるコンテント毎に符号化され、前記コンテント同士の関係情報を持っている映像ファイルのストリーム解析を行ない、この結果、分離抽出された各種コンテントをそれぞれ1つの映像要素オブジェクトとし、該映像要素オブジェクトを検索する際に合致の条件として記述することが可能なアノテーション情報を前記コンテントから抽出し、前記映像要素オブジェクトの情報とそのアノテーション情報を共にデータベースに登録し、
利用者が所望の映像シーンを検索する際に、映像に現われる背景や物体などの映像の構成物毎にその特徴を記述し、これらの記述の1つ以上の組み合わせからなる映像検索の条件指定により、各映像要素オブジェクト単位に合致判断を行ない、合致した映像要素オブジェクトの出現時間区間に関する集合演算を施すことで検索結果映像シーンを定義し、
利用者が提示された検索結果リスト中の所望の映像シーンを指定すると、前記データベースから対象の映像ファイルを取得し、それを利用者に提示するプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14524598A JP3615657B2 (ja) | 1998-05-27 | 1998-05-27 | 映像検索方法及び装置ならびに記録媒体 |
US09/317,435 US6442538B1 (en) | 1998-05-27 | 1999-05-24 | Video information retrieval method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14524598A JP3615657B2 (ja) | 1998-05-27 | 1998-05-27 | 映像検索方法及び装置ならびに記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11338876A JPH11338876A (ja) | 1999-12-10 |
JP3615657B2 true JP3615657B2 (ja) | 2005-02-02 |
Family
ID=15380685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14524598A Expired - Fee Related JP3615657B2 (ja) | 1998-05-27 | 1998-05-27 | 映像検索方法及び装置ならびに記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6442538B1 (ja) |
JP (1) | JP3615657B2 (ja) |
Families Citing this family (73)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6735253B1 (en) * | 1997-05-16 | 2004-05-11 | The Trustees Of Columbia University In The City Of New York | Methods and architecture for indexing and editing compressed video over the world wide web |
US7143434B1 (en) | 1998-11-06 | 2006-11-28 | Seungyup Paek | Video description system and method |
US7017188B1 (en) | 1998-11-16 | 2006-03-21 | Softricity, Inc. | Method and apparatus for secure content delivery over broadband access networks |
US6763370B1 (en) * | 1998-11-16 | 2004-07-13 | Softricity, Inc. | Method and apparatus for content protection in a secure content delivery system |
US7209942B1 (en) * | 1998-12-28 | 2007-04-24 | Kabushiki Kaisha Toshiba | Information providing method and apparatus, and information reception apparatus |
US7370071B2 (en) | 2000-03-17 | 2008-05-06 | Microsoft Corporation | Method for serving third party software applications from servers to client computers |
US7730169B1 (en) | 1999-04-12 | 2010-06-01 | Softricity, Inc. | Business method and system for serving third party software applications |
US8099758B2 (en) | 1999-05-12 | 2012-01-17 | Microsoft Corporation | Policy based composite file system and method |
US6490600B1 (en) | 1999-08-09 | 2002-12-03 | Cognex Technology And Investment Corporation | Processing continuous data streams in electronic spreadsheets |
US7882426B1 (en) | 1999-08-09 | 2011-02-01 | Cognex Corporation | Conditional cell execution in electronic spreadsheets |
US6859907B1 (en) | 1999-08-09 | 2005-02-22 | Cognex Technology And Investment Corporation | Large data set storage and display for electronic spreadsheets applied to machine vision |
US7996878B1 (en) * | 1999-08-31 | 2011-08-09 | At&T Intellectual Property Ii, L.P. | System and method for generating coded video sequences from still media |
US6970641B1 (en) | 2000-09-15 | 2005-11-29 | Opentv, Inc. | Playback of interactive programs |
US8250617B2 (en) | 1999-10-29 | 2012-08-21 | Opentv, Inc. | System and method for providing multi-perspective instant replay |
US7000245B1 (en) * | 1999-10-29 | 2006-02-14 | Opentv, Inc. | System and method for recording pushed data |
KR100295610B1 (ko) * | 1999-11-09 | 2001-07-12 | 장영규 | 동영상 편집 시스템 및 이를 이용한 객체 정보 서비스 방법 |
GB0008437D0 (en) * | 2000-04-05 | 2000-05-24 | Sony Uk Ltd | Identifying material |
WO2001075794A2 (en) | 2000-04-05 | 2001-10-11 | Sony United Kingdom Limited | Identifying material |
US7302490B1 (en) * | 2000-05-03 | 2007-11-27 | Microsoft Corporation | Media file format to support switching between multiple timeline-altered media streams |
JP2002010196A (ja) * | 2000-06-26 | 2002-01-11 | Sanyo Electric Co Ltd | 電子アルバム装置 |
GB2364590B (en) * | 2000-07-07 | 2004-06-02 | Mitsubishi Electric Inf Tech | Method and apparatus for representing and searching for an object in an image |
EP1172741A3 (en) * | 2000-07-13 | 2004-09-01 | Sony Corporation | On-demand image delivery server, image resource database, client terminal, and method of displaying retrieval result |
US7099860B1 (en) * | 2000-10-30 | 2006-08-29 | Microsoft Corporation | Image retrieval systems and methods with semantic and feature based relevance feedback |
US6970860B1 (en) * | 2000-10-30 | 2005-11-29 | Microsoft Corporation | Semi-automatic annotation of multimedia objects |
US7287226B2 (en) | 2000-12-06 | 2007-10-23 | Microsoft Corporation | Methods and systems for effecting video transitions represented by bitmaps |
US6912717B2 (en) | 2000-12-06 | 2005-06-28 | Microsoft Corporation | Methods and systems for implementing dynamic properties on objects that support only static properties |
US6768499B2 (en) * | 2000-12-06 | 2004-07-27 | Microsoft Corporation | Methods and systems for processing media content |
US6983466B2 (en) * | 2000-12-06 | 2006-01-03 | Microsoft Corporation | Multimedia project processing systems and multimedia project processing matrix systems |
US7103677B2 (en) * | 2000-12-06 | 2006-09-05 | Microsoft Corporation | Methods and systems for efficiently processing compressed and uncompressed media content |
US6959438B2 (en) | 2000-12-06 | 2005-10-25 | Microsoft Corporation | Interface and related methods for dynamically generating a filter graph in a development system |
US6961943B2 (en) * | 2000-12-06 | 2005-11-01 | Microsoft Corporation | Multimedia processing system parsing multimedia content from a single source to minimize instances of source files |
US6882891B2 (en) | 2000-12-06 | 2005-04-19 | Microsoft Corporation | Methods and systems for mixing digital audio signals |
US7447754B2 (en) | 2000-12-06 | 2008-11-04 | Microsoft Corporation | Methods and systems for processing multi-media editing projects |
US6774919B2 (en) * | 2000-12-06 | 2004-08-10 | Microsoft Corporation | Interface and related methods for reducing source accesses in a development system |
US7114162B2 (en) | 2000-12-06 | 2006-09-26 | Microsoft Corporation | System and methods for generating and managing filter strings in a filter graph |
KR100449497B1 (ko) * | 2000-12-21 | 2004-09-21 | 주식회사 매직아이 | 실시간 정보 제공 장치 및 그 처리 방법 |
US20020120929A1 (en) * | 2001-02-28 | 2002-08-29 | Schwalb Eddie M. | Method and system for mass customization of digital television broadcasts |
US7194490B2 (en) * | 2001-05-22 | 2007-03-20 | Christopher Zee | Method for the assured and enduring archival of intellectual property |
JP4527322B2 (ja) | 2001-07-25 | 2010-08-18 | 日本電気株式会社 | 画像検索装置、画像検索方法、及び画像検索用プログラム |
US7432940B2 (en) * | 2001-10-12 | 2008-10-07 | Canon Kabushiki Kaisha | Interactive animation of sprites in a video production |
JP2003132090A (ja) * | 2001-10-26 | 2003-05-09 | Olympus Optical Co Ltd | 類似データ検索装置および方法 |
AU2002351310A1 (en) | 2001-12-06 | 2003-06-23 | The Trustees Of Columbia University In The City Of New York | System and method for extracting text captions from video and generating video summaries |
JP2004145555A (ja) * | 2002-10-23 | 2004-05-20 | Olympus Corp | データベース登録システム及びデータベース登録方法 |
JP2004234613A (ja) * | 2002-12-02 | 2004-08-19 | Nec Corp | 映像記述システムおよび方法、映像識別システムおよび方法 |
JP4336813B2 (ja) * | 2002-12-06 | 2009-09-30 | 日本電気株式会社 | 画像記述システムおよび方法 |
US20040152055A1 (en) * | 2003-01-30 | 2004-08-05 | Gliessner Michael J.G. | Video based language learning system |
US8031979B2 (en) * | 2003-09-25 | 2011-10-04 | Canon Research Centre France | Method and device for verifying multimedia entities and in particular for verifying digital images |
JP4531546B2 (ja) * | 2003-12-15 | 2010-08-25 | パナソニック株式会社 | 制御信号を利用したインデックス付与システム |
JP2006040085A (ja) * | 2004-07-29 | 2006-02-09 | Sony Corp | 情報処理装置および方法、記録媒体、並びにプログラム |
WO2006030509A1 (ja) * | 2004-09-16 | 2006-03-23 | Fujitsu Limited | 画像検索装置、画像検索方法、画像作成装置、画像作成方法、プログラム |
WO2006096612A2 (en) | 2005-03-04 | 2006-09-14 | The Trustees Of Columbia University In The City Of New York | System and method for motion estimation and mode decision for low-complexity h.264 decoder |
JP4241709B2 (ja) * | 2005-10-11 | 2009-03-18 | ソニー株式会社 | 画像処理装置 |
JP2007293602A (ja) * | 2006-04-25 | 2007-11-08 | Nec Corp | 映像検索システム、映像検索方法およびプログラム |
US20080126191A1 (en) * | 2006-11-08 | 2008-05-29 | Richard Schiavi | System and method for tagging, searching for, and presenting items contained within video media assets |
JP5013840B2 (ja) * | 2006-12-12 | 2012-08-29 | ヤフー株式会社 | 情報提供装置、情報提供方法、及びコンピュータプログラム |
JP5147308B2 (ja) * | 2007-06-20 | 2013-02-20 | オリンパス株式会社 | 画像抽出装置および画像抽出プログラム |
WO2009126785A2 (en) | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
US8804005B2 (en) | 2008-04-29 | 2014-08-12 | Microsoft Corporation | Video concept detection using multi-layer multi-instance learning |
WO2009155281A1 (en) | 2008-06-17 | 2009-12-23 | The Trustees Of Columbia University In The City Of New York | System and method for dynamically and interactively searching media data |
JP5066037B2 (ja) | 2008-09-02 | 2012-11-07 | 株式会社日立製作所 | 情報処理装置 |
US8671069B2 (en) | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
CN102292727B (zh) | 2009-01-23 | 2013-10-23 | 日本电气株式会社 | 视频描述符生成器 |
EP2287749A4 (en) * | 2009-01-23 | 2011-08-03 | Nec Corp | DATA DEVICE RECALL |
TW201039159A (en) * | 2009-04-30 | 2010-11-01 | Dvtodp Corp | Method and web server of processing dynamic picture for searching purpose |
WO2010141939A1 (en) * | 2009-06-05 | 2010-12-09 | Mozaik Multimedia, Inc. | Ecosystem for smart content tagging and interaction |
US10489445B1 (en) | 2009-07-13 | 2019-11-26 | Eharmony, Inc. | Systems and methods for online matching using visual similarity |
US8135221B2 (en) * | 2009-10-07 | 2012-03-13 | Eastman Kodak Company | Video concept classification using audio-visual atoms |
JP5378298B2 (ja) * | 2010-05-18 | 2013-12-25 | 日立コンシューマエレクトロニクス株式会社 | 機器間情報交換機能を有するストレージ |
EP2816564B1 (en) * | 2013-06-21 | 2020-07-22 | Nokia Technologies Oy | Method and apparatus for smart video rendering |
CN103902691B (zh) * | 2014-03-27 | 2017-05-03 | 北京易华录信息技术股份有限公司 | 一种利用互联网快速查询旅行时间的系统及方法 |
EP3308302A4 (en) * | 2015-06-09 | 2019-02-13 | Intuitive Surgical Operations Inc. | VIDEO CONTENT IN A MEDICAL CONTEXT |
CN112866742B (zh) * | 2020-12-31 | 2023-04-21 | 北京奇艺世纪科技有限公司 | 一种音视频文件管理方法、装置及电子设备 |
CN112818165A (zh) * | 2021-01-18 | 2021-05-18 | 长沙海信智能系统研究院有限公司 | 数据处理方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3340532B2 (ja) * | 1993-10-20 | 2002-11-05 | 株式会社日立製作所 | ビデオの検索方法および装置 |
US6061056A (en) * | 1996-03-04 | 2000-05-09 | Telexis Corporation | Television monitoring system with automatic selection of program material of interest and subsequent display under user control |
JPH09282324A (ja) * | 1996-04-09 | 1997-10-31 | Nec Corp | 映像検索システム |
US6088484A (en) * | 1996-11-08 | 2000-07-11 | Hughes Electronics Corporation | Downloading of personalization layers for symbolically compressed objects |
US6298482B1 (en) * | 1997-11-12 | 2001-10-02 | International Business Machines Corporation | System for two-way digital multimedia broadcast and interactive services |
US6253201B1 (en) * | 1998-06-23 | 2001-06-26 | Philips Electronics North America Corporation | Scalable solution for image retrieval |
-
1998
- 1998-05-27 JP JP14524598A patent/JP3615657B2/ja not_active Expired - Fee Related
-
1999
- 1999-05-24 US US09/317,435 patent/US6442538B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US6442538B1 (en) | 2002-08-27 |
JPH11338876A (ja) | 1999-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3615657B2 (ja) | 映像検索方法及び装置ならびに記録媒体 | |
JP4987907B2 (ja) | メタデータ処理装置 | |
US5963203A (en) | Interactive video icon with designated viewing position | |
US7432940B2 (en) | Interactive animation of sprites in a video production | |
JP2994177B2 (ja) | ビデオ・セグメント間の境界部の位置を特定するためのシステム及び方法 | |
JP4168940B2 (ja) | 映像表示システム | |
US5892520A (en) | Picture query system using abstract exemplary motions of a pointing device | |
US7868924B2 (en) | Image capturing apparatus, image capturing method, album creating apparatus, album creating method, album creating system and computer readable medium | |
US7873258B2 (en) | Method and apparatus for reviewing video | |
US7051048B2 (en) | Data management system, data management method, and program | |
JPH08249348A (ja) | 映像検索方法および装置 | |
JP2004228779A (ja) | 情報処理装置 | |
JP2001022792A (ja) | キーフレーム選択のための候補フレームを選択する方法 | |
JPH10320400A (ja) | 映像の検索方法および装置 | |
JP2007280325A (ja) | 動画表示装置 | |
US20110179003A1 (en) | System for Sharing Emotion Data and Method of Sharing Emotion Data Using the Same | |
JP4732418B2 (ja) | メタデータ処理方法 | |
CN101132528A (zh) | 元数据再生、分发、检索装置、元数据再生成条件设定装置 | |
CN105814561B (zh) | 影像信息处理系统 | |
KR20000038290A (ko) | 사건구간을 기반으로 하는 동영상 검색방법과 검색 데이타 구조 | |
JP4334898B2 (ja) | データベース構築装置、データベース構築プログラム、画像検索装置、画像検索プログラム、及び画像記録再生装置 | |
JP2003224791A (ja) | 映像の検索方法および装置 | |
JP4652389B2 (ja) | メタデータ処理方法 | |
JP2004110096A (ja) | ユーザ操作ログ可視化方法、ユーザ操作ログ可視化装置、プログラム及びその記録媒体 | |
JP3334949B2 (ja) | 画像処理装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041026 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041101 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |