JP2011248671A

JP2011248671A - 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法

Info

Publication number: JP2011248671A
Application number: JP2010121767A
Authority: JP
Inventors: Yusuke Uchida; 祐介内田; Masayuki Hashimoto; 真幸橋本; Ryoichi Kawada; 亮一川田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-05-27
Filing date: 2010-05-27
Publication date: 2011-12-08

Abstract

【課題】転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる映像検索装置等を提供する。
【解決手段】参照用映像のフレーム列の中から複数の参照フレームを選択し、特徴領域毎の特徴ベクトルを抽出する。多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する。次に、特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する。そして、単語i毎に、フレーム番号を対応付け、連続するフレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）の数列と、各ブロック内の連長（連続フレーム数）の数列とを符号化した転置インデックスを生成する。
【選択図】図２

Description

本発明は、多数の参照用映像の中から検索キー用映像を用いて検索する技術に関する。

近年、ブロードバンドネットワークの普及と、ストレージの大容量化（ＨＤＤ(Hard Disk Drive)、ＤＶＤ(Digital Versatile Disk)、Blue-ray disc等）とに伴って、デジタルコンテンツを、共有及び公開することが容易になってきている。一方で、著作権者やコンテンツプロバイダ（以下「著作権者等」という）の許諾を得ていないデジタルコンテンツを、不正に共有及び公開することが問題となっている。

このような問題に対して、デジタルコンテンツの指紋（特徴量）を用いて、多数のデジタルコンテンツの中から、著作権者等によって許諾されていない特定コンテンツを自動的に検出する技術がある（例えば特許文献１及び２並びに非特許文献１参照）。

特許文献１に記載された技術によれば、三次元周波数解析及び主成分分析を用いて、コンテンツの特徴量を抽出し、特定コンテンツを検出する。この技術によれば、空間周波数解析（ＤＣＴ(Discrete Cosine Transform)、離散コサイン変換）で得られた係数に、時間軸方向への周波数解析（ＦＦＴ(Fast Fourier Transform)、高速フーリエ変換）を加えた三次元周波数解析を実行する。更に、三次元周波数解析で得られたその係数から、主成分分析によって特徴量を抽出する。

特許文献２に記載された技術によれば、特許文献１に記載された技術に基づく特徴量を用いて、流通コンテンツと類似している特定コンテンツを絞り込む。絞り込めない場合には、位相限定相関法を用いて流通コンテンツと最も類似している特定コンテンツを決定し、閾値によって同一コンテンツであるか否かを判定する。

非特許文献１に記載された技術によれば、映像の各フレームから局所不変特徴量を抽出する。次に、その特徴量を量子化し、量子化された特徴がどのフレームに存在するかを保持する転置インデックスを作成する。この転置インデックスを用いることによって、高速に映像を検索する。

特開２００５−０１８６７５号公報特開２００６−２８５９０７号公報

J. Sivic et al., "Video Google: A Text Retrieval Approach toObject Matching in Videos," in Proc. ICCV, 2003. K. Mikolajczyket al., A Comparison of Affine Region Detectors," International Journal ofComputer Vision, vol. 65, no. 1-2, pp. 43-72, 2005. D. G. Lowe,"Distinctive Image Features from Scale-Invariant Keypoints,"International Journal of Computer Vision, vol. 60, no. 2, pp. 91-110, 2004. K. Mikolajczykand C. Schmid, "A performance evaluation of local descriptors, "Proc. of CVPR, 2003.

しかしながら、特許文献１及び２に記載された技術によれば、１つの映像コンテンツから１つの特徴量を抽出するために、例えば、映像コンテンツを分割する等の時間軸方向に編集されると検出できないという問題がある。正当映像コンテンツにおける一定時間部分が抜き取られた不正映像コンテンツは、正当映像コンテンツとして検出できない。

また、非特許文献１に記載された技術によれば、特徴量を抽出するフレーム数を増加させると、検索精度は向上するが、インデックスサイズは増加する。一方で、フレーム数を減少させると、インデックスサイズは減少するが、検索精度が低下する、このように、インデックスサイズと検索精度との間に、トレードオフが存在する。

そこで、本発明は、転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる映像検索装置、プログラム及び方法を提供することを目的とする。

本発明によれば、多数の参照用映像の中から、検索キー用映像を用いて、参照用映像を検索する映像検索装置であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
参照フレームの特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する参照用単語生成手段と、
単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続するフレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出し、ギャップの数列と連長の数列とを符号化した転置インデックスを生成する転置インデックス生成手段と、
符号化された転置インデックスを記憶する転置インデックス記憶手段と
を有することを特徴とする。

本発明の映像検索装置における他の実施形態によれば、転置インデックス記憶手段は、ギャップ及び連長それぞれを、異なる符号化方式で符号化することも好ましい。

本発明の映像検索装置における他の実施形態によれば、転置インデックス生成手段は、当該単語iについて、フレーム番号の連続する数が所定フレーム連続数以内である場合、これらフレーム番号が存在しないものとし、これらフレーム番号を符号化しないことも好ましい。

本発明の映像検索装置における他の実施形態によれば、転置インデックス生成手段は、当該単語iについて、所定フレーム間隔数以内の数のフレーム番号が存在しないことによってフレーム番号が不連続となっている場合、存在しないフレーム番号が存在するものとしてフレーム番号を連続にし、連続するフレーム番号を符号化することも好ましい。

本発明の映像検索装置における他の実施形態によれば、
参照用特徴領域抽出手段は、Harrisコーナー検出器、Fastコーナー検出器、Harris-Affine、Hessian-Affine、SIFT(Scale-Invariant Feature Transform)、MSERアルゴリズムのいずれか１つ以上を利用して特徴領域を抽出し、
参照用特徴量抽出手段は、SIFTを用いて特徴ベクトルを抽出し、
辞書生成手段は、k-meansを用いてｋ個のクラスタへクラスタリングすることによって、単語iをｋ次元ベクトルに量子化する
ことも好ましい。

本発明の映像検索装置における他の実施形態によれば、
検索キー用映像のフレーム列の中から複数のキーフレームを選択するキーフレームサンプリング手段と、
キーフレーム毎に、多数の特徴領域を抽出するキー用特徴領域抽出手段と、
キーフレームの特徴領域毎に、特徴ベクトルを抽出するキー用特徴量抽出手段と、
キーフレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書生成手段の辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換するキー用単語生成手段と、
転置インデックス記憶手段を用いて、キーフレームのキー単語iを含む１つ又は連続の参照フレーム番号から、キーフレーム番号を引いたフレーム番号を検索するインデックス検索手段と、
キー用映像毎に、複数のキーフレームに基づいて検索された参照フレーム番号の数を投票し、投票数が最も多い参照フレーム番号が、キー用映像の先頭フレームに対応するものとして検出するフレーム検出手段と
を更に有することも好ましい。

本発明の映像検索装置における他の実施形態によれば、
当該映像検索装置は、正当著作権者によって作成された正当映像コンテンツから、第三者が、不正に複製し又は二次的著作物となる不当映像コンテンツを作成した際に、当該不当映像コンテンツに基づく正当映像コンテンツを検索するものであり、
参照用映像は、正当映像コンテンツであり、
検索キー用映像は、不当映像コンテンツであることも好ましい。

本発明によれば、多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置に搭載されたコンピュータを機能させる映像検索プログラムであって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
参照フレームの特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する参照用単語生成手段と、
単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続するフレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出し、ギャップの数列と連長の数列とを符号化した転置インデックスを生成する転置インデックス生成手段と、
符号化された転置インデックスを記憶する転置インデックス記憶手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置における映像検索方法であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する第１のステップと、
参照フレーム毎に、多数の特徴領域を抽出する第２のステップと、
参照フレームの特徴領域毎に、特徴ベクトルを抽出する第３のステップと、
多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する第４のステップと、
参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する第５のステップと、
単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続するフレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出し、ギャップの数列と連長の数列とを符号化した転置インデックスを生成する第６のステップと
符号化された転置インデックスを記憶する第７のステップと
を有することを特徴とする。

本発明の映像検索装置、プログラム及び方法によれば、転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる。即ち、映像の検索精度を維持しつつ、転置インデックスのサイズを削減することができる。

本発明の映像検索装置における用途例を表すシステム構成図である。本発明の映像検索装置におけるインデックス生成機能を含む機能構成図である。ｋ個のクラスタリングを表す説明図である。ギャップのみ及び連長のみをそれぞれ、異なる符号化パラメータで符号した場合のサイズを表す。ギャップのみを符号化した場合と、ギャップ及び連長を符号化した場合とにおける転置インデックスのサイズを表す。本発明の映像検索装置における検索機能を更に含む機能構成図である。参照用映像における検索キー用映像の対応を表す説明図である。フレーム検出部における参照フレーム番号の投票のためのフローチャートである。本発明における投票結果を表すグラフである。従来技術における投票結果を表すグラフである。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明の映像検索装置における用途例を表すシステム構成図である。

図１によれば、ユーザによって操作される端末２は、アクセスネットワーク及びインターネットを介して、映像サーバ３から、正当著作権者によって作成された正当映像コンテンツをダウンロードすることができる。ここで、ユーザが、不正に複製し又は二次的著作物となる不当映像コンテンツを作成したとする。そして、そのユーザは、その不正映像コンテンツを、映像サーバ４へアップロードする。このようなユーザの不正行為によって、不特定多数の端末は、映像サーバ４から、その不正映像コンテンツをダウンロードすることができる。本発明における映像検索装置１は、映像サーバ４に蓄積された映像コンテンツに、正当著作権者の映像コンテンツを不正編集したものが含まれていないか否かを検索することができる。

図２は、本発明の映像検索装置におけるインデックス生成機能を含む機能構成図である。

映像検索装置１は、多数の参照用映像の中から検索キー用映像を用いて検索する。図１によれば、映像検索装置１の基本機能構成であるインデックス生成部１１が表されている。

映像検索装置１のインデックス生成部１１は、参照用映像蓄積部１０と、参照フレームサンプリング部１１１と、参照用特徴領域抽出部１１２と、参照用特徴量抽出部１１３と、辞書生成部１１４と、参照用単語生成部１１５と、転置インデックス生成部１１６と、転置インデックス記憶部１１７とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させる映像検索プログラムを実行することによって実現される。

参照用映像蓄積部１０は、検索対象となる多数の参照用映像を蓄積する。例えば不正に複製された不当映像コンテンツを検索する場合を想定した場合、参照用映像は、正当映像コンテンツであり、検索キー用映像は、不当映像コンテンツである。勿論、用途によっては、参照用映像を不当映像コンテンツとし、検索キー用映像を正当映像コンテンツとするものであってもよい。尚、参照用映像は、時間的に長い１つの映像として扱われるが、時間位置の情報を保持することによって、複数の参照用映像に分割されていることも好ましい。これによって、比較的短い映像単位で、検索キー用映像と比較することができる。

参照フレームサンプリング部１１１は、参照用映像のフレーム列の中から複数の参照フレーム（キーフレーム）を選択する。最も簡単には、一定のフレームレートでフレームを選択するものであってもよい。また、ショット（映像シーン）が切り替わる時点におけるフレームを選択してもよい。更に、前のフレームとの輝度値の差分の絶対和（ＳＡＤ(Sum of Absolute Difference)）や二乗和（ＳＳＤ(Sum of Squared Difference)）を累積し、閾値以上に達したフレームを選択するものであってもよい。

参照用特徴領域抽出部１１２は、参照フレーム毎に、多数の特徴領域を抽出する。この特徴領域は、参照フレームについて、スケールの変化や輝度変化、回転等に不変な局所不変特徴領域である。局所不変特徴領域を抽出する方法としては、例えば非特許文献２及び３に記載された技術がある。例えばSIFT(Scale-Invariant Feature Transform)アルゴリズムでは、座標及びスケールパラメータ（ｘ、ｙ、σ）を持つＤｏＧ(Difference of Gaussian)フィルタの応答値が、極値（局所最大又は局所最小）をとる（ｘ、ｙ、σ）を特徴領域として検出する。この特徴領域は、座標（ｘ、ｙ）を中心とする半径ｄ×σ（ｄ∈Ｒ）の円である。尚、SIFTとは、スケールスペースを用いて画像構造を解析し、画像のスケール変化及び回転に不変となる特徴量を記述する技術である。

参照用特徴量抽出部１１３は、参照フレームの特徴領域毎に、特徴ベクトルを抽出する。具体的には、参照用特徴領域抽出部１１２によって抽出された局所不変特徴領域から、高次元の特徴ベクトルを抽出する。局所不変特徴量を抽出する技術として、例えば非特許文献４に記載された技術がある。例えば、SIFTアルゴリズムでは、特徴領域を複数のブロックに分割し、各ブロックから輝度勾配の方向を重み付きヒストグラムとして抽出されたものを特徴量とする。

辞書生成部１１４は、最初に、多数の特徴ベクトルを、ｋ個のクラスタにクラスタリングする（例えばk-means）。次に、各クラスタの代表ベクトルに、一意に整数値を割り当てる。以下では、量子化された整数値を、「単語」(word)と記述する。各クラスタｉの代表ベクトルｆiが、単語ｉの代表ベクトルと規定される。本発明によれば、テキスト検索における転置インデックスを用いており、そこでインデキシングされるものが「単語」となる。これによって、単語iをｋ次元ベクトルに量子化する。生成される辞書は、量子化後の整数値ｉと、その代表ベクトルｆiとのペアを有する。

図３は、ｋ個のクラスタリングを表す説明図である。

図３（ａ）によれば、参照フレーム毎に、多数の特徴領域が表されている。図３（ｂ）によれば、多数の特徴領域に基づく特徴ベクトルの集合が表されている。図３（ｃ）によれば、多数の特徴ベクトルをk-meansを用いて分類されたｋ個のクラスタが表されている。

参照用単語生成部１１５は、参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆjを、辞書生成部１１４によって生成された辞書を参照し、ｋ個の整数値に量子化する。そして、代表ベクトルｆiの中で最もｆjに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する。参照用単語生成部１１５によれば、参照用映像から得られた参照フレームそれぞれについて、ｋ個の単語が存在するか否かという単語存在情報を取得できる。

転置インデックス生成部１１６は、単語i毎に、当該単語を含むフレームのフレーム番号を対応付ける（単語出現リスト）。そして、単語出現リストに基づく転置インデックスが生成される。

表１は、各参照フレームに対する単語出現リストの例を表す。

表１によれば、「○」となっているセルは、対応する参照フレームについて、対応する単語（実際には局所特徴量）が存在したことを表す。インデックスは、単語存在情報に基づいて作成されるが、基本的に、○の数はセルの数（単語の数ｋ）と比較して非常に少ない。例えば、○の数は、各フレームにおいて抽出された局所不変特徴領域の数にほぼ等しく１０００程度となる。これに対し、単語の数ｋは１００，０００程度に設定される。この場合、セルの数は、○の数の１００倍程度になる。従って、このままの単語存在情報で保持することは、極めて非効率的である。

表１のように、スパース（まばら、スカスカ）な情報である単語存在情報を、効率的に保持するために、転置インデックスを用いる。これによって、インデックスのサイズを小さくし、有効な検索精度を維持する。

「転置インデックス」とは、単語ＩＤを、フレーム番号に置き換えたものである。即ち、文章検索における転置インデックスは、各単語と、それらの単語が出現する文章ＩＤとからなる。ここで、文章ＩＤとしては、一般的に、先の文章ＩＤに対する差分（ギャップ）が記憶される。画像（映像）検索における転置インデックスは、各単語（特徴量）と、それらの単語（特徴量）が存在する画像ＩＤ（フレームＩＤ又は差分）とからなる（例えば非特許文献１参照）。

このように作成された転置インデックスには、インデックスのサイズと検索精度との間に、以下のようなトレードオフが存在する。即ち、参照フレームサンプリング部１１１についてどのようなフレームレートでサンプリングするかによって、インデックスのサイズが異なり、同時にこれが検索精度にも影響を与える。

具体的には、高フレームレートでサンプリングすると、転置インデックスを利用する場合についても、フレームレートにほぼ比例する形でインデックスのサイズが増加する。逆に、低フレームレートでサンプリングすると、インデックスのサイズは減少するが、それに従って検索精度が低下する。これは、インデックスを作成する際に利用したリファレンスのフレームと、クエリからサンプリングされたフレームの時間的ずれが発生することに基づく。

そこで、本発明の転置インデックス生成部１１６によれば、高フレームレートでサンプリングされた参照フレームについて、以下の３つのステップの処理を実行することによってインデックスサイズを削減する。
（Ｓ１）単語削除
（Ｓ２）単語連結
（Ｓ３）連長符号化及び圧縮
本発明によれば、連長符号化及び圧縮の処理（Ｓ３）に特徴があるが、その前段ステップとして、単語削除（Ｓ１）及び／又は単語連結（Ｓ２）の処理を実行することが好ましい。尚、Ｓ１及びＳ２両方の処理を実行する場合であっても、単語削除（Ｓ１）の後に単語連結（Ｓ２）を実行してもよいし、単語連結（Ｓ２）の後に単語削除（Ｓ１）を実行してもよい。

（Ｓ１）単語削除の処理は、連長符号化及び圧縮の処理（Ｓ３）の前に実行することによって、圧縮効率を向上させることができる。即ち、当該単語iについて、フレーム番号の連続する数が所定フレーム連続数以内である場合、これらフレーム番号が存在しないものとし、これらフレーム番号を符号化しない。所定フレーム連続数以内でしか連続していない単語を、その区間では存在しないものとする（単語削除）。

表２は、表１について、単語削除の処理を実行した後の単語出現リストを表す。表２によれば、所定フレーム連続数Ｔ２は、例えば「１」に設定されている。これによって、連続せず単独で出現した単語は、その区間では存在しないものとする。尚、「×」は、単語削除の処理によって削除された部分である。

表３は、表１について、所定フレーム連続数Ｔ２が「２」に設定された場合における、単語削除の処理を実行した後の単語出現リストを表す。

このように、所定フレーム連続数Ｔ２を制御することによって、転置インデックスを連長で表現した場合におけるインデックスサイズを減少させることができる。また、このように、非常に短い間隔でしか出現しない単語は、フレームのずれやその他のノイズの影響を受けやすい単語であると考えられる。そのために、削除することに基づく検索精度への影響は最小限に抑えられる。

（Ｓ２）単語連結の処理も、連長符号化及び圧縮の処理（Ｓ３）の前に実行することによって、圧縮効率を向上させることができる。
当該単語iについて、所定フレーム間隔数以内の数のフレーム番号が存在しないことによってフレーム番号が不連続となっている場合、存在しないフレーム番号が存在するものとしてフレーム番号を連続にし、連続するフレーム番号を符号化する。即ち、所定フレーム間隔数以内に再度出現した単語を、一定のフレーム間隔で全て存在するものとする（単語連結化）。

表４は、表１について、単語連結化した単語出現リストを表す。表４によれば、所定フレーム間隔数Ｔ１は、例えば「１」に設定されている。これによって、フレーム間隔数１で再度出現した単語は、存在するものとする。尚、「○」は、本来出現していた単語の部分である。「−」は、本来出現していないが前後Ｔ１フレーム以内に単語が存在しているため連結された部分である。

表５は、表１について、所定フレーム間隔数Ｔ１が「２」に設定された場合における、単語連結化した単語出現リストを表す。

このように、所定フレーム間隔数Ｔ１を制御することによって、転置インデックスを連長で表現した場合におけるインデックスサイズを減少させることができる。

（Ｓ３）最後に、本発明に基づく連長符号化及び圧縮の処理について説明する。表６は、表１と同様に、各参照フレームに対する単語出現リストを表す。

転置インデックスは、各単語i毎に、その単語が出現したフレーム番号を保持する。そして、その後の符号化処理における圧縮効率を向上させるために、フレーム番号の差分（ギャップ）を導出し、実際のフレーム番号の代わりにギャップを保持する。

連長符号化及び圧縮の処理は、連続するフレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出する。

表６の単語ＩＤは、以下のようなフレーム番号、ギャップ及び連長を有する。
［単語ＩＤ＝１］
（フレーム番号，連長）：（１，１），（４，２），（７，１），（１０，３），・・
（ギャップ，連長）：（１，１），（３，２），（２，１），（３，３），・・
（ギャップ）：１，３，２，３，・・
（連長）：１，２，１，３，・・
・フレーム番号１は、先のフレーム番号０から「ギャップ１」となり、１個存在する。
・フレーム番号４は、先のフレーム番号１から「ギャップ３」となり、２個連続する。
・フレーム番号７は、先のフレーム番号５から「ギャップ２」となり、１個存在する。
・フレーム番号１０は、先のフレーム番号７から「ギャップ３」となり、３個連続する。
・・・・・・・・

［単語ＩＤ＝２］
（フレーム番号，連長）：（２，１），（６，１），（９，２），（１４，３），・・
（ギャップ，連長）：（２，１），（４，１），（３，２），（４，３），・・
（ギャップ）：２，４，３，４，・・
（連長）：１，１，２，３，・・
・フレーム番号２は、先のフレーム番号０から「ギャップ２」となり、１個存在する。
・フレーム番号６は、先のフレーム番号２から「ギャップ４」となり、１個存在する。
・フレーム番号９は、先のフレーム番号６から「ギャップ３」となり、２個連続する。
・フレーム番号１４は、先のフレーム番号１０から「ギャップ４」となり、３個連続する。
・・・・・・・・

［単語ＩＤ＝３］
（フレーム番号，連長）：（７，２），（１２，３），・・・
（ギャップ，連長）：（７，２），（４，３），・・・
（ギャップ）：７，４，・・・
（連長）：２，３，・・・
・フレーム番号７は、先のフレーム番号０から「ギャップ７」となり、２個連続する。
・フレーム番号１２は、先のフレーム番号８から「ギャップ４」となり、３個連続する。
・・・・・・・・

［単語ＩＤ＝ｋ］
（フレーム番号，連長）：（３，１），（５，１），（１２，３），・・・
（ギャップ，連長）：（３，１），（２，１），（７，３），・・・
（ギャップ）：３，２，７，・・・
（連長）：１，１，３，・・・
・フレーム番号３は、先のフレーム番号０から「ギャップ３」となり、１個存在する。
・フレーム番号５は、先のフレーム番号３から「ギャップ２」となり、１個存在する。
・フレーム番号１２は、先のフレーム番号５から「ギャップ７」となり、３個連続する。
・・・・・・・・

表７は、転置インデックスのデータ構造を表す。

表７によれば、単語ＩＤに基づく単語が出現した先のフレーム位置(gap)から、どのくらい連長(dur)しているかを表す。これは、単語ＩＤ毎に、０個以上のgap及びdurのペアが対応付けられる。

［単語ＩＤ＝１］
・先のフレーム位置０からgap１となるフレーム位置１から、１個連続する。
・先のフレーム位置１からgap３となるフレーム位置４から、２個連続する。
・先のフレーム位置５からgap２となるフレーム位置７から、１個連続する。
・先のフレーム位置７からgap３となるフレーム位置１０から、３個連続する。
［単語ＩＤ＝２］
・先のフレーム位置０からgap２となるフレーム位置２から、１個連続する。
・先のフレーム位置２からgap４となるフレーム位置６から、１個連続する。
・先のフレーム位置６からgap３となるフレーム位置９から、２個連続する。
［単語ＩＤ＝３］
・先のフレーム位置０からgap７となるフレーム位置７から、２個連続する。
・先のフレーム位置８からgap４となるフレーム位置１２から、３個連続する。
・・・・・・・
［単語ＩＤ＝ｋ］
・先のフレーム位置０からgap３となるフレーム位置３から、１個連続する。
・先のフレーム位置３からgap２となるフレーム位置５から、１個連続する。
・先のフレーム位置５からgap７となるフレーム位置１２から、３個連続する。

そして、ギャップの数列と、連長の数列とを、整数符号化した転置インデックスを生成する。整数符号化のアルゴリズムとしては、例えばVariable byte coding、Simple9、PForDelta、Rice coding等を用いることができる。文書や画像の転置インデックスでは、連長を利用せず、ギャップの数列を用いるが、これは隣接する文書ＩＤや画像ＩＤ間に出現する単語に相関がなく、同じ単語が連続して出現することがまれである場合に有効である。一方で、映像については、フレーム間に強い相関があり、同じ単語が連続して出現することが多い。この特性を利用して、本発明では、転置インデックスに連長符号化を導入している。

本発明によれば、連長表現にするために、転置インデックスに登録情報数を削減することができる。更に、ギャップ及び連長それぞれを、異なる符号化方式（符号化パラメータ）で符号化することによって、転置インデックスのサイズを大きく削減することができる。

図４は、ギャップのみ又は連長のみをそれぞれ、異なる符号化パラメータで符号した場合のサイズを表す。

図４によれば、符号化方式PForDeltaによって符号化したサイズが表されている。横軸には、PForDeltaにおける異なるパラメータを表す。図４によれば、ギャップのみのサイズの分布と、連長のみのサイズの分布とは、異なっていることが理解できる。即ち、ギャップの符号化に最適なパラメータと、連長の符号化に最適なパラメータとは異なる。一般に、連長は小さな値をとるのに対し、ギャップは大きな値をとることが多い。そのために、それぞれ最適なパラメータであっても、連長は小さく、ギャップは大きくなる。

図５は、ギャップのみを符号化した場合と、ギャップ及び連長を符号化した場合とにおける転置インデックスのサイズを表す。

図５によれば、符号化方式PForDeltaによって符号化したサイズが表されている。ギャップ及び連長を符号化した場合は、ギャップ及び連長をそれぞれ最適な異なるパラメータに設定したものである。ギャップ及び連長を最適な異なるパラメータで符号化することによって、ギャップのみを最適なパラメータで符号化する場合よりも、インデックスサイズを低減（およそ半分程度）することができる。

最後に、転置インデックス記憶部１１７は、作成された転置インデックスを記憶する。

図６は、本発明の映像検索装置における検索機能を更に含む機能構成図である。

図６によれば、映像検索装置１は検索部１２を更に有し、検索部１２は、キーフレームサンプリング部１２１と、キー用特徴領域抽出部１２２と、キー用特徴量抽出部１２３と、キー用単語生成部１２４と、インデックス検索部１２８と、フレーム検出部１２９とを有する。これら機能構成部も、装置に搭載されたコンピュータを機能させる映像検索プログラムを実行することによって実現される。

尚、図７は、参照用映像における検索キー用映像の対応を表す説明図である。図７によれば、検索キー用フレームは、例えば表１における映像の５〜８フレームが切り取られたものであるとする。表８には、参照用フレーム（表１と同様）に対して、以下の単語存在情報を持つ検索キー用フレームが入力されたとする。検索キー用フレームは多くの場合に、再圧縮等によって映像品質が変化しており、参照用フレームとは完全に一致しない。そのため、表８では検索キー用フレームをわずかに参照用のフレームから変化させて表示させている。

表８は、単語ＩＤｗiとフレーム番号ｔiのペア（ｗi，ｔi）で表すと、（１，１）、（２，２）、（３，３）、（３，４）、…、（ｋ、１）となる。

キーフレームサンプリング部１２１は、検索キー用映像のフレーム列の中から複数のキーフレームを選択する。キーフレームサンプリング部１２１は、検索キー用映像に対して、前述した参照フレームサンプリング部１１１と同様に機能する。

キー用特徴領域抽出部１２２は、キーフレーム毎に、多数の特徴領域を抽出する。キー用特徴領域抽出部１２２は、キーフレームに対して、前述した参照用特徴領域抽出部１１２と同様に機能する。

キー用特徴量抽出部１２３は、キーフレームの特徴領域毎に、特徴ベクトルを抽出する。キー用特徴量抽出部１２３は、キーフレームの特徴領域に対して、前述した参照用特徴量抽出部１１３と同様に機能する。

キー用単語生成部１２４は、キーフレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書生成部１１４の辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、キーフレームに存在する単語集合に変換する。キー用単語生成部１２４は、キーフレームの特徴ベクトルに対して、前述した参照用単語生成部１１５と同様に機能する。

インデックス検索部１２８は、転置インデックス記憶部１１７を用いて、キーフレームのキー単語iを含む１つ又は連続の参照フレーム番号から、キーフレーム番号を引いたフレーム番号を検索する。

フレーム検出部１２９は、キー用映像毎に、複数のキーフレームに基づいて検索された参照フレーム番号の数を投票し、投票数が最も多い参照フレーム番号が、キー用映像の先頭フレームに対応するものとして検出する。検索キー用フレームの単語ＩＤｗiとフレーム番号ｔiのペア（ｗi，ｔi）の集合（ｗ1、ｔ1）、…、（ｗx、ｔx）を用いて、転置インデックスを参照し、参照用フレームのどの区間が検索キー用フレームと最も類似しているかを検索する。ここで、xは、検索キー用映像における（重複を含む）単語出現数の合計である。

図８は、フレーム検出部１２９における参照フレーム番号の投票のためのフローチャートである。

（Ｓ８１）最初に、投票テーブルを初期化する。投票テーブルは、フレーム番号毎の投票数からなる。
（Ｓ８２）検索キー用フレームの単語ＩＤｗiとフレーム番号ｔiのペア（ｗi，ｔi）とについて、単語ＩＤを順に処理する。そのために、Ｓ８６との間で、検索キー用フレームについてiを増分しつつ繰り返す。
（Ｓ８３）参照フレームの転置インデックスから、検索キーフレームの転置インデックスの単語ｗiを参照し、参照フレームのペア（ｔ，ｄ）を取得する。
（Ｓ８４）検索キー用フレームについて、先のフレーム番号からギャップｔを足したフレーム番号を順に処理する。そのために、Ｓ８７との間で、jを増分しつつ繰り返す。
（Ｓ８５）投票テーブルに対して、先のフレーム番号からギャップｔを増分したフレーム番号から、連長ｄjまでに、１増分して投票する。ｄjは、dur（連長）を表す。具体的には、図９で後述する。
（Ｓ８６）全てのｊについて、Ｓ８５を繰り返すべく、Ｓ８４へ移行する。
（Ｓ８７）全てのiについて、Ｓ８３〜Ｓ８５を繰り返すべく、Ｓ８２へ移行する。

図９は、本発明における投票結果を表すグラフである。

（Ｓ９１）先の参照フレームの単語ＩＤ０にgap１を増分した単語ＩＤ１から、検索キーフレームの単語ＩＤ１のoffset１を差し引いて、先頭に合わせるべく＋１にし、位置１を算出する。そして、位置１から、参照フレームのdur（連長）の１個について１増分するべく投票する。
先の参照フレームの単語ＩＤ１にgap３を増分した単語ＩＤ４から、検索キーフレームの単語ＩＤ１のoffset１を差し引いて、先頭に合わせるべく＋１にし、位置４を算出する。そして、位置４から、参照フレームのdur（連長）の２個について１増分するべく投票する。
先の参照フレームの単語ＩＤ５にgap２を増分した単語ＩＤ７から、検索キーフレームの単語ＩＤ１のoffset１を差し引いて、先頭に合わせるべく＋１にし、位置７を算出する。そして、位置７から、参照フレームのdur（連長）の１個について１増分するべく投票する。
・・・・・・・

（Ｓ９２）先の参照フレームの単語ＩＤ０にgap２を増分した参照フレームの単語ＩＤ２から、検索キーフレームの単語ＩＤ２のoffset２を差し引いて、先頭に合わせるべく＋１にし、位置２を算出する。そして、位置２から、参照フレームのdur（連長）の１個について１増分するべく投票する。
先の参照フレームの単語ＩＤ２にgap４を増分した単語ＩＤ６から、検索キーフレームの単語ＩＤ２のoffset２を差し引いて、先頭に合わせるべく＋１にし、位置５を算出する。そして、位置５から、参照フレームのdur（連長）の１個について１増分するべく投票する。
先の参照フレームの単語ＩＤ６にgap３を増分した単語ＩＤ９から、検索キーフレームの単語ＩＤ１のoffset２を差し引いて、先頭に合わせるべく＋１にし、位置８を算出する。そして、位置８から、参照フレームのdur（連長）の２個について１増分するべく投票する。
・・・・・・

（Ｓ９３）先の参照フレームの単語ＩＤ０にgap７を増分した参照フレームの単語ＩＤ７から、検索キーフレームの単語ＩＤ３のoffset３を差し引いて、先頭に合わせるべく＋１にし、位置５を算出する。そして、位置５から、参照フレームのdur（連長）の２個について１増分するべく投票する。
・・・・・・

（Ｓ９４）先の参照フレームの単語ＩＤ０にgap７を増分した参照フレームの単語ＩＤ７から、検索キーフレームの単語ＩＤ３のoffset４を差し引いて、先頭に合わせるべく＋２にし、位置５を算出する。そして、位置５から、参照フレームのdur（連長）の２個について１増分するべく投票する。
・・・・・・

最終的な投票結果によれば、フレーム番号５の投票数が、局所最大となる。局所最大となったフレーム番号が局所最大であって、且つ、所定閾値を越える投票数の場合、そのフレーム番号を先頭として参照用映像は、検索キー用映像と一致又は類似するものと判定できる。尚、投票数が所定閾値を越えない場合には、一致又は類似すると判定しない。

図１０は、従来技術における投票結果を表すグラフである。

投票のアルゴリズムは、前述した図８と全く同様（本発明と同様）である。また、図１０によれば、図９と同様に、フレーム番号５の投票数が、局所最大となる。しかしながら、本発明の図９の連長符号化を用いた方法によれば、図１０と比較して、転置インデックスのサイズが小さいのみならず、投票の処理回数も極めて少ない。これによって、本発明は、従来技術と比較して、転置インデックスのサイズが小さく且つ投票の処理回数も少ないにも関わらず、同様の結果が得られることが理解される。

以上、詳細に説明したように、本発明の映像検索装置、プログラム及び方法によれば、転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる。即ち、映像の検索精度を維持しつつ、転置インデックスのサイズを削減することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１映像検索装置
１０参照用映像蓄積部
１１インデックス生成部
１１１参照フレームサンプリング部
１１２参照用特徴領域抽出部
１１３参照用特徴量抽出部
１１４辞書生成部
１１５参照用単語生成部
１１６転置インデックス生成部
１１７転置インデックス記憶部
１２検索部
１２１キーフレームサンプリング部
１２２キー用特徴領域抽出部
１２３キー用特徴量抽出部
１２４キー用単語生成部
１２８インデックス検索部
１２９フレーム検出部
２端末
３正当著作権者の映像サーバ
４映像サーバ

Claims

多数の参照用映像の中から、検索キー用映像を用いて、参照用映像を検索する映像検索装置であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
前記参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
前記参照フレームの前記特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の前記特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
前記参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換する参照用単語生成手段と、
前記単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続する前記フレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出し、前記ギャップの数列と前記連長の数列とを符号化した転置インデックスを生成する転置インデックス生成手段と、
符号化された前記転置インデックスを記憶する転置インデックス記憶手段と
を有することを特徴とする映像検索装置。
前記転置インデックス記憶手段は、前記ギャップ及び前記連長それぞれを、異なる符号化方式で符号化することを特徴とする請求項１に記載の映像検索装置。
前記転置インデックス生成手段は、当該単語iについて、前記フレーム番号の連続する数が所定フレーム連続数以内である場合、これらフレーム番号が存在しないものとし、これらフレーム番号を符号化しないことを特徴とする請求項１又は２に記載の映像検索装置。
前記転置インデックス生成手段は、当該単語iについて、所定フレーム間隔数以内の数のフレーム番号が存在しないことによって前記フレーム番号が不連続となっている場合、存在しないフレーム番号が存在するものとして前記フレーム番号を連続にし、連続するフレーム番号を符号化することを特徴とする請求項１から３のいずれか１項に記載の映像検索装置。
前記参照用特徴領域抽出手段は、Harrisコーナー検出器、Fastコーナー検出器、Harris-Affine、Hessian-Affine、SIFT(Scale-Invariant Feature Transform)、MSERアルゴリズムのいずれか１つ以上を利用して特徴領域を抽出し、
前記参照用特徴量抽出手段は、SIFTを用いて前記特徴ベクトルを抽出し、
前記辞書生成手段は、k-means を用いてｋ個のクラスタへクラスタリングすることによって、前記単語iをｋ次元ベクトルに量子化する
ことを特徴とする請求項１から４のいずれか１項に記載の映像検索装置。
検索キー用映像のフレーム列の中から複数のキーフレームを選択するキーフレームサンプリング手段と、
前記キーフレーム毎に、多数の特徴領域を抽出するキー用特徴領域抽出手段と、
前記キーフレームの前記特徴領域毎に、特徴ベクトルを抽出するキー用特徴量抽出手段と、
前記キーフレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書生成手段の辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換するキー用単語生成手段と、
前記転置インデックス記憶手段を用いて、前記キーフレームのキー単語iを含む１つ又は連続の参照フレーム番号から、前記キーフレーム番号を引いたフレーム番号を検索するインデックス検索手段と、
前記キー用映像毎に、複数のキーフレームに基づいて検索された前記参照フレーム番号の数を投票し、投票数が最も多い参照フレーム番号が、前記キー用映像の先頭フレームに対応するものとして検出するフレーム検出手段と
を更に有することを特徴とする請求項１から５のいずれか１項に記載の映像検索装置。
当該映像検索装置は、正当著作権者によって作成された正当映像コンテンツから、第三者が、不正に複製し又は二次的著作物となる不当映像コンテンツを作成した際に、当該不当映像コンテンツに基づく正当映像コンテンツを検索するものであり、
前記参照用映像は、前記正当映像コンテンツであり、
前記検索キー用映像は、前記不当映像コンテンツである
ことを特徴とする請求項１から６のいずれか１項に記載の映像検索装置。
多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置に搭載されたコンピュータを機能させる映像検索プログラムであって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
前記参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
前記参照フレームの前記特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の前記特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
前記参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換する参照用単語生成手段と、
前記単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続する前記フレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出し、前記ギャップの数列と前記連長の数列とを符号化した転置インデックスを生成する転置インデックス生成手段と、
符号化された前記転置インデックスを記憶する転置インデックス記憶手段と
してコンピュータを機能させることを特徴とする映像検索プログラム。
多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置における映像検索方法であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する第１のステップと、
前記参照フレーム毎に、多数の特徴領域を抽出する第２のステップと、
前記参照フレームの前記特徴領域毎に、特徴ベクトルを抽出する第３のステップと、
多数の前記特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する第４のステップと、
前記参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換する第５のステップと、
前記単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続する前記フレーム番号をブロックにまとめ、隣接するブロック間のフレーム番号のギャップ（差分）と各ブロック内の連長（連続フレーム数）とを導出し、前記ギャップの数列と前記連長の数列とを符号化した転置インデックスを生成する第６のステップと
符号化された前記転置インデックスを記憶する第７のステップと
を有することを特徴とする映像検索方法。