JP5366212B2

JP5366212B2 - 多数の参照用映像の中から検索キー用映像を用いて検索する映像検索装置、プログラム及び方法

Info

Publication number: JP5366212B2
Application number: JP2010043768A
Authority: JP
Inventors: 祐介内田; 真幸橋本; 亮一川田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2010-03-01
Filing date: 2010-03-01
Publication date: 2013-12-11
Anticipated expiration: 2030-03-01
Also published as: JP2011180801A

Description

本発明は、多数の参照用映像の中から検索キー用映像を用いて検索する技術に関する。

近年、ブロードバンドネットワークの普及と、ストレージの大容量化（ＨＤＤ(Hard Disk Drive)、ＤＶＤ(Digital Versatile Disk)、Blue-ray disc等）とに伴って、デジタルコンテンツを、共有及び公開することが容易になってきている。一方で、著作権者やコンテンツプロバイダ（以下「著作権者等」という）の許諾を得ていないデジタルコンテンツを、不正に共有及び公開することが問題となっている。

このような問題に対して、デジタルコンテンツの指紋（特徴量）を用いて、多数のデジタルコンテンツの中から、著作権者等によって許諾されていない特定コンテンツを自動的に検出する技術がある（例えば特許文献１及び２並びに非特許文献１参照）。

特許文献１に記載された技術によれば、三次元周波数解析及び主成分分析を用いて、コンテンツの特徴量を抽出し、特定コンテンツを検出する。この技術によれば、空間周波数解析（ＤＣＴ(Discrete Cosine Transform)、離散コサイン変換）で得られた係数に、時間軸方向への周波数解析（ＦＦＴ(Fast Fourier Transform)、高速フーリエ変換）を加えた三次元周波数解析を実行する。更に、三次元周波数解析で得られたその係数から、主成分分析によって特徴量を抽出する。

特許文献２に記載された技術によれば、特許文献１に記載された技術に基づく特徴量を用いて、流通コンテンツと類似している特定コンテンツを絞り込む。絞り込めない場合には、位相限定相関法を用いて流通コンテンツと最も類似している特定コンテンツを決定し、閾値によって同一コンテンツであるか否かを判定する。

非特許文献１に記載された技術によれば、映像の各フレームから局所不変特徴量を抽出する。次に、その特徴量を量子化し、量子化された特徴がどのフレームに存在するかを保持する転置インデックスを作成する。この転置インデックスを用いることによって、高速に映像を検索する。

特開２００５−０１８６７５号公報特開２００６−２８５９０７号公報

J. Sivic et al., "Video Google: A Text Retrieval Approach toObject Matching in Videos," in Proc. ICCV, 2003. K. Mikolajczyket al., A Comparison of Affine Region Detectors," International Journal ofComputer Vision, vol. 65, no. 1-2, pp. 43-72, 2005. D. G. Lowe,"Distinctive Image Features from Scale-Invariant Keypoints,"International Journal of Computer Vision, vol. 60, no. 2, pp. 91-110, 2004. K. Mikolajczykand C. Schmid, "A performance evaluation of local descriptors, "Proc. of CVPR, 2003.

しかしながら、特許文献１及び２に記載された技術によれば、１つの映像コンテンツから１つの特徴量を抽出するために、例えば、映像コンテンツを分割する等の時間軸方向に編集されると検出できないという問題がある。正当映像コンテンツにおける一定時間部分が抜き取られた不正映像コンテンツは、正当映像コンテンツとして検出できない。

また、非特許文献１に記載された技術によれば、特徴量を抽出するフレーム数を増加させると、検索精度は向上するが、インデックスサイズは増加する。一方で、フレーム数を減少させると、インデックスサイズは減少するが、検索精度が低下する、このように、インデックスサイズと検索精度との間に、トレードオフが存在する。

そこで、本発明は、このような事情に鑑みてなされたものであり、転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる映像検索装置、プログラム及び方法を提供することを目的とする。

本発明によれば、多数の参照用映像の中から、検索キー用映像を用いて、参照用映像を検索する映像検索装置であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
参照フレームの特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する参照用単語生成手段と、
単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続するフレーム番号を連長符号化した転置インデックスを生成する転置インデックス生成手段と、
連長符号化された転置インデックスを記憶する転置インデックス記憶手段と
を有することを特徴とする。

本発明の映像検索装置における他の実施形態によれば、
転置インデックス生成手段は、当該単語iについて、第１の所定フレーム間隔数以内の数のフレーム番号が存在しないことによってフレーム番号が不連続となっている場合、存在しないフレーム番号が存在するものとしてフレーム番号を連続にし、これによって連続するフレーム番号を連長符号化した転置インデックスを生成することも好ましい。

本発明の映像検索装置における他の実施形態によれば、転置インデックス生成手段は、当該単語iについて、フレーム番号の連続する数が第２の所定フレーム間隔数以内である場合、これらフレーム番号が存在しないものとし、これによってこれらフレーム番号を転置インデックスに含めないことも好ましい。

本発明の映像検索装置における他の実施形態によれば、
参照用特徴領域抽出手段は、Harris-Affine、Hessian-Affine、SIFT(Scale-Invariant Feature Transform)、MSERアルゴリズムのいずれか１つ以上を利用して特徴領域を抽出し、
参照用特徴量抽出手段は、SIFTを用いて特徴ベクトルを抽出し、
辞書生成手段は、k-meansを用いてｋ個のクラスタへクラスタリングすることによって、単語iをｋ次元ベクトルに量子化する
ことも好ましい。

本発明の映像検索装置における他の実施形態によれば、
検索キー用映像のフレーム列の中から複数のキーフレームを選択するキーフレームサンプリング手段と、
キーフレーム毎に、多数の特徴領域を抽出するキー用特徴領域抽出手段と、
キーフレームの特徴領域毎に、特徴ベクトルを抽出するキー用特徴量抽出手段と、
キーフレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書生成手段の辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換するキー用単語生成手段と、
転置インデックス記憶手段を用いて、キーフレームのキー単語iを含む１つ又は連続の参照フレーム番号からキーフレーム番号を引いたフレーム番号を検索するインデックス検索手段と、
キー用映像毎に、複数のキーフレームに基づいて検索された参照フレーム番号の数を投票し、投票数が最も多い参照フレーム番号が、キー用映像の先頭フレームに対応するものとして検出するフレーム検出手段と
を更に有することも好ましい。

本発明の映像検索装置における他の実施形態によれば、
当該映像検索装置は、正当著作権者によって作成された正当映像コンテンツから、第三者が、不正に複製し又は二次的著作物となる不当映像コンテンツを作成した際に、当該不当映像コンテンツに基づく正当映像コンテンツを検索するものであり、
参照用映像は、正当映像コンテンツであり、
検索キー用映像は、不当映像コンテンツである
ことも好ましい。

本発明によれば、多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置に搭載されたコンピュータを機能させる映像検索プログラムであって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
参照フレームの特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する参照用単語生成手段と、
単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続するフレーム番号を連長符号化した転置インデックスを生成する転置インデックス生成手段と、
連長符号化された転置インデックスを記憶する転置インデックス記憶手段と
してコンピュータを機能させることを特徴とする。

本発明によれば、多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置における映像検索方法であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する第１のステップと、
参照フレーム毎に、多数の特徴領域を抽出する第２のステップと、
参照フレームの特徴領域毎に、特徴ベクトルを抽出する第３のステップと、
多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する第４のステップと、
参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する第５のステップと、
単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続するフレーム番号を連長符号化した転置インデックスを生成する第７のステップと、
連長符号化された転置インデックスを記憶する第８のステップと
を有することを特徴とする。

本発明の映像検索装置、プログラム及び方法によれば、転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる。即ち、映像の検索精度を維持しつつ、転置インデックスのサイズを削減することができる。

本発明の映像検索装置における用途例を表すシステム構成図である。本発明の映像検索装置におけるインデックス生成機能を含む機能構成図である。ｋ個のクラスタリングを表す説明図である。本発明の映像検索装置における検索機能を更に含む機能構成図である。参照用映像における検索キー用映像の対応を表す説明図である。フレーム検出部における参照フレーム番号の投票のためのフローチャートである。本発明における投票結果を表すグラフである。従来技術における投票結果を表すグラフである。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明の映像検索装置における用途例を表すシステム構成図である。

図１によれば、ユーザによって操作される端末２は、アクセスネットワーク及びインターネットを介して、映像サーバ３から、正当著作権者によって作成された正当映像コンテンツをダウンロードすることができる。ここで、ユーザが、不正に複製し又は二次的著作物となる不当映像コンテンツを作成したとする。そして、そのユーザは、その不正映像コンテンツを、映像サーバ４へアップロードする。このようなユーザの不正行為によって、不特定多数の端末は、映像サーバ４から、その不正映像コンテンツをダウンロードすることができる。本発明における映像検索装置１は、映像サーバ４に蓄積された映像コンテンツに、正当著作権者の映像コンテンツを不正編集したものが含まれていないか否かを検索することができる。

図２は、本発明の映像検索装置におけるインデックス生成機能を含む機能構成図である。

映像検索装置１は、多数の参照用映像の中から検索キー用映像を用いて検索する。図１によれば、映像検索装置１の基本機能構成であるインデックス生成部１１が表されている。

映像検索装置１のインデックス生成部１１は、参照用映像蓄積部１０と、参照フレームサンプリング部１１１と、参照用特徴領域抽出部１１２と、参照用特徴量抽出部１１３と、辞書生成部１１４と、参照用単語生成部１１５と、転置インデックス生成部１１６と、転置インデックス記憶部１１７とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させる映像検索プログラムを実行することによって実現される。

参照用映像蓄積部１０は、検索対象となる多数の参照用映像を蓄積する。例えば不正に複製された不当映像コンテンツを検索する場合を想定した場合、参照用映像は、正当映像コンテンツであり、検索キー用映像は、不当映像コンテンツである。勿論、用途によっては、参照用映像を不当映像コンテンツとし、検索キー用映像を正当映像コンテンツとするものであってもよい。尚、参照用映像は、時間的に長い１つの映像として扱われるが、時間位置の情報を保持することによって、複数の参照用映像に分割されていることも好ましい。これによって、比較的短い映像単位で、検索キー用映像と比較することができる。

参照フレームサンプリング部１１１は、参照用映像のフレーム列の中から複数の参照フレーム（キーフレーム）を選択する。最も簡単には、一定のフレームレートでフレームを選択するものであってもよい。また、ショット（映像シーン）が切り替わる時点におけるフレームを選択してもよい。更に、前のフレームとの輝度値の差分の絶対和（ＳＡＤ(Sum of Absolute Difference)）や二乗和（ＳＳＤ(Sum of Squared Difference)）を累積し、閾値以上に達したフレームを選択するものであってもよい。

参照用特徴領域抽出部１１２は、参照フレーム毎に、多数の特徴領域を抽出する。この特徴領域は、参照フレームについて、スケールの変化や輝度変化、回転等に不変な局所不変特徴領域である。局所不変特徴領域を抽出する方法としては、例えば非特許文献２及び３に記載された技術がある。例えばSIFT(Scale-Invariant Feature Transform)アルゴリズムでは、座標及びスケールパラメータ（ｘ、ｙ、σ）を持つＤｏＧ(Difference of Gaussian)フィルタの応答値が、極値（局所最大又は局所最小）をとる（ｘ、ｙ、σ）を特徴領域として検出する。この特徴領域は、座標（ｘ、ｙ）を中心とする半径ｄ×σ（ｄ∈Ｒ）の円である。尚、SIFTとは、スケールスペースを用いて画像構造を解析し、画像のスケール変化及び回転に不変となる特徴量を記述する技術である。

参照用特徴量抽出部１１３は、参照フレームの特徴領域毎に、特徴ベクトルを抽出する。具体的には、参照用特徴領域抽出部１１２によって抽出された局所不変特徴領域から、高次元の特徴ベクトルを抽出する。局所不変特徴量を抽出する技術として、例えば非特許文献４に記載された技術がある。例えば、SIFTアルゴリズムでは、特徴領域を複数のブロックに分割し、各ブロックから輝度勾配の方向を重み付きヒストグラムとして抽出されたものを特徴量とする。

辞書生成部１１４は、多数の特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する。具体的には、k-meansを用いてｋ個のクラスタへクラスタリングすることによって、単語iをｋ次元ベクトルに量子化する。生成される辞書は、量子化後の整数値ｉと、その代表ベクトルｆiとのペアを有する。

図３は、ｋ個のクラスタリングを表す説明図である。

図３（ａ）によれば、参照フレーム毎に、多数の特徴領域が表されている。図３（ｂ）によれば、多数の特徴領域に基づく特徴ベクトルの集合が表されている。図３（ｃ）によれば、多数の特徴ベクトルをk-meansを用いて分類されたｋ個のクラスタが表されている。

また、各クラスタの代表ベクトルに、一意に整数値を割り当てる。以下では、量子化された整数値を、「単語」(word)と記述する。本発明によれば、テキスト検索における転置インデックスを用いており、そこでインデキシングされるものが「単語」であることに基づく。

参照用単語生成部１１５は、参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆjを、辞書生成部１１４によって生成された辞書を参照し、ｋ個の整数値に量子化する。そして、代表ベクトルｆiの中で最もｆjに近い代表ベクトルを持つ単語ｉに割り当て、参照フレームに存在する単語集合に変換する。参照用単語生成部１１５によれば、参照用映像から得られた参照フレームそれぞれについて、ｋ個の単語が存在するか否かという単語存在情報を取得できる。

転置インデックス生成部１１６は、単語i毎に、当該単語を含むフレームのフレーム番号を対応付ける。これは、参照単語生成部１１５の単語存在情報に対する転置インデックスとなる。

表１は、各参照フレームに対する単語の存在を表す。

表１によれば、「○」となっているセルは、対応する参照フレームについて、対応する単語（実際には局所特徴量）が存在したことを表す。インデックスは、単語存在情報に基づいて作成されるが、基本的に、○の数はセルの数と比較して非常に少ない。例えば、○の数は、各フレームにおいて抽出された局所不変特徴領域の数にほぼ等しく１０００程度となる。これに対し、単語の数ｋは１００，０００程度に設定される。この場合、セルの数は、○の数の１００倍程度になる。従って、このままの単語存在情報で保持することは、極めて非効率的である。

表１のように、スパース（まばら、スカスカ）な情報である単語存在情報を、効率的に保持するために、転置インデックスを用いる。これによって、インデックスのサイズを小さくし、有効な検索精度を維持する。

「転置インデックス」とは、単語ＩＤを、フレーム番号に置き換えたものである。即ち、文章検索における転置インデックスで保持する単語存在情報は、各単語と、それらの単語が出現する文章のＩＤとからなる。画像（映像）検索における転置インデックスで保持する単語存在情報は、各単語（特徴量）と、それらの単語（特徴量）が存在する画像ＩＤ（フレームＩＤ）とからなる（例えば非特許文献１参照）。

このように作成された転置インデックスには、インデックスのサイズと検索精度との間に、以下のようなトレードオフが存在する。即ち、参照フレームサンプリング部１１１についてどのようなフレームレートでサンプリングするかによって、インデックスのサイズが異なり、同時にこれが検索精度にも影響を与える。

具体的には、高フレームレートでサンプリングすると、転置インデックスを利用する場合についても、フレームレートにほぼ比例する形でインデックスのサイズが増加する。逆に、低フレームレートでサンプリングすると、インデックスのサイズは減少するが、それに従って検索精度が低下する。これは、インデックスを作成する際に利用したリファレンスのフレームと、クエリからサンプリングされたフレームの時間的ずれが発生することに基づく。

そこで、本発明の転置インデックス生成部１１６によれば、高フレームレートでサンプリングされた参照フレームについて、以下の３つのステップによってインデックスサイズを削減する。
（Ｓ１）連長符号化（ランレングス化）
（Ｓ２）単語連結化
（Ｓ３）単語削除化

（Ｓ１）単語i毎に、当該単語を含むフレームのフレーム番号を対応付けると共に、連続するフレーム番号を連長符号化（ランレングス化）した転置インデックスを生成する。

表２は、表１について、連長符号化した転置インデックスを表す。

（Ｓ２）連長符号化について、当該単語iについて、第１の所定フレーム間隔数以内の数のフレーム番号が存在しないことによってフレーム番号が不連続となっている場合、存在しないフレーム番号が存在するものとしてフレーム番号を連続にし、これによって連続するフレーム番号を連長符号化した転置インデックスを生成する。即ち、第１の所定フレーム間隔数以内に再度出現した単語を、一定のフレーム間隔で全て存在するものとする（単語連結化）。

表３は、表２について、単語連結化した転置インデックスを表す。表３によれば、第１の所定フレーム間隔数Ｔ１は、例えば「１」に設定されている。これによって、フレーム間隔数１で再度出現した単語は、存在するものとする。尚、「○」は、本来出現していた単語の部分である。「−」は、本来出現していないが前後Ｔ１フレーム以内に単語が存在しているため連結された部分である。

表３は、表２について、第１の所定フレーム間隔数Ｔ１が「２」に設定された場合における、単語連結化した転置インデックスを表す。

このように、第１の所定フレーム間隔数Ｔ１を制御することによって、転置インデックスを連長で表現した場合におけるインデックスサイズを減少させることができる。

（Ｓ３）当該単語iについて、フレーム番号の連続する数が第２の所定フレーム間隔数以内である場合、これらフレーム番号が存在しないものとし、これによってこれらフレーム番号を転置インデックスに含めない。即ち、第２の所定フレーム間隔数以内でしか連続していない単語を、その区間では存在しないものとする（単語削除化）。

表５は、表３について、単語削除化した転置インデックスを表す。表５によれば、第２の所定フレーム間隔数Ｔ２は、例えば「１」に設定されている。これによって、連続せず単独で出現した単語は、その区間では存在しないものとする。尚、「×」は、単語削除化によって削除された部分である。

表６は、表４について、第２の所定フレーム間隔数Ｔ２が「２」に設定された場合における、単語削除化した転置インデックスを表す。

このように、第２の所定フレーム間隔数Ｔ２を制御することによって、転置インデックスを連長で表現した場合におけるインデックスサイズを減少させることができる。また、このように、非常に短い間隔でしか出現しない単語は、フレームのずれやその他のノイズの影響を受けやすい単語であると考えられる。そのために、削除することに基づく検索精度への影響は最小限に抑えられる。ここでは、単語を連結した後に単語を削除する例を示したが、単語を削除した後に単語を連結してもよい。

表７は、転置インデックスのデータ構造を表す。

表７によれば、単語ＩＤに基づく単語が出現したフレーム位置(offset)から、どのくらい連長(dur)しているかを表す。これは、単語ＩＤ毎に、０個以上のoffset及びdurのペアが対応付けられる。

表８は、表６に対応した転置インデックスのデータ構造を表す。

単語ＩＤ＝１は、フレーム位置１から７個連続して出現していることを表す。単語ＩＤ＝２は、フレーム位置６から４個連続して出現していることを表す。単語ＩＤ＝３は、フレーム位置７から２個連続して出現していることを表す。単語ＩＤ＝ｋは、フレーム位置３から３個連続して出現していることを表す。

最後に、転置インデックス記憶部１１７は、作成された転置インデックスを記憶する。

図４は、本発明の映像検索装置における検索機能を更に含む機能構成図である。

図４によれば、映像検索装置１は検索部１２を更に有し、検索部１２は、キーフレームサンプリング部１２１と、キー用特徴領域抽出部１２２と、キー用特徴量抽出部１２３と、キー用単語生成部１２４と、インデックス検索部１２８と、フレーム検出部１２９とを有する。これら機能構成部も、装置に搭載されたコンピュータを機能させる映像検索プログラムを実行することによって実現される。

尚、図５は、参照用映像における検索キー用映像の対応を表す説明図である。図５によれば、検索キー用フレームは、例えば表１における映像の５〜８フレームが切り取られたものであるとする。表９には、参照用フレーム（表１と同様）に対して、以下の単語存在情報を持つ検索キー用フレームが入力されたとする。

表９は、単語ＩＤｗiとフレーム番号ｔiのペア（ｗi，ｔi）で表すと、（１，１）、（２，２）、（３，３）、（３，４）、…、（ｋ、１）となる。

キーフレームサンプリング部１２１は、検索キー用映像のフレーム列の中から複数のキーフレームを選択する。キーフレームサンプリング部１２１は、検索キー用映像に対して、前述した参照フレームサンプリング部１１１と同様に機能する。

キー用特徴領域抽出部１２２は、キーフレーム毎に、多数の特徴領域を抽出する。キー用特徴領域抽出部１２２は、キーフレームに対して、前述した参照用特徴領域抽出部１１２と同様に機能する。

キー用特徴量抽出部１２３は、キーフレームの特徴領域毎に、特徴ベクトルを抽出する。キー用特徴量抽出部１２３は、キーフレームの特徴領域に対して、前述した参照用特徴量抽出部１１３と同様に機能する。

キー用単語生成部１２４は、キーフレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、辞書生成部１１４の辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、キーフレームに存在する単語集合に変換する。キー用単語生成部１２４は、キーフレームの特徴ベクトルに対して、前述した参照用単語生成部１１５と同様に機能する。

インデックス検索部１２８は、転置インデックス記憶部１１７を用いて、キーフレームのキー単語iを含む１つ又は連続の参照フレーム番号から、キーフレーム番号を引いたフレーム番号を検索する。

フレーム検出部１２９は、キー用映像毎に、複数のキーフレームに基づいて検索された参照フレーム番号の数を投票し、投票数が最も多い参照フレーム番号が、キー用映像の先頭フレームに対応するものとして検出する。検索キー用フレームの単語ＩＤｗiとフレーム番号ｔiのペア（ｗi，ｔi）の集合（ｗ1、ｔ1）、…、（ｗx、ｔx）を用いて、転置インデックスを参照し、参照用フレームのどの区間が検索キー用フレームと最も類似しているかを検索する。ここで、xは、検索キー用映像における（重複を含む）単語出現数の合計である。

図６は、フレーム検出部１２９における参照フレーム番号の投票のためのフローチャートである。

（Ｓ６１）最初に、投票テーブルを初期化する。投票テーブルは、フレーム番号毎の投票数からなる。また、
（Ｓ６２）検索キー用フレームの単語ＩＤｗiとフレーム番号ｔiのペア（ｗi，ｔi）とについて、単語ＩＤを順に処理する。そのために、Ｓ６６との間で、検索キー用フレームについてiを増分しつつ繰り返す。
（Ｓ６３）参照フレームの転置インデックスから、検索キーフレームの転置インデックスの単語ｗiを参照し、参照フレームのペア（ｔ，ｄ）を取得する。
（Ｓ６４）検索キー用フレームについてフレーム番号ｔを順に処理する。そのために、Ｓ６７との間で、jを増分しつつ繰り返す。
（Ｓ６５）投票テーブルに対して、ｔj−ｔi＋１からｔj−ｔi＋ｄjまでに、１増分して投票する。ｄjは、dur（連長）を表す。具体的には、図７で後述する。
（Ｓ６６）全てのｊについて、Ｓ６５を繰り返すべく、Ｓ６４へ移行する。
（Ｓ６７）全てのiについて、Ｓ６３〜Ｓ６５を繰り返すべく、Ｓ６２へ移行する。

図７は、本発明における投票結果を表すグラフである。

（Ｓ７１）参照フレームの単語ＩＤ１のoffset１から、検索キーフレームの単語ＩＤ１のoffset１を差し引いて、先頭に合わせるべく＋１し、位置１を算出する。そして、位置１から、参照フレームのdur（連長）の７個について１増分するべく投票する。
（Ｓ７２）参照フレームの単語ＩＤ２のoffset６から、検索キーフレームの単語ＩＤ２のoffset２を差し引いて、先頭に合わせるべく＋１し、位置５を算出する。そして、位置５から、参照フレームのdur（連長）の４個について１増分するべく投票する。
（Ｓ７３）参照フレームの単語ＩＤ３のoffset７から、検索キーフレームの単語ＩＤ３のoffset３を差し引いて、先頭に合わせるべく＋１し、位置５を算出する。そして、位置５から、参照フレームのdur（連長）の２個について１増分するべく投票する。
（Ｓ７４）参照フレームの単語ＩＤ３のoffset７から、検索キーフレームの単語ＩＤ３のoffset４を差し引いて、先頭に合わせるべく＋１し、位置４を算出する。そして、位置４から、参照フレームのdur（連長）の２個について１増分するべく投票する。
（Ｓ７５）参照フレームの単語ＩＤｋのoffset３から、検索キーフレームの単語ＩＤｋのoffset１を差し引いて、先頭に合わせるべく＋１し、位置３を算出する。そして、位置３から、参照フレームのdur（連長）の３個について１増分するべく投票する。

最終的な投票結果によれば、フレーム番号５の投票数が、局所最大となる。局所最大となったフレーム番号が局所最大であって、且つ、所定閾値を越える投票数の場合、そのフレーム番号を先頭として参照用映像は、検索キー用映像と一致又は類似するものと判定できる。尚、投票数が所定閾値を越えない場合には、一致又は類似すると判定しない。

図８は、従来技術における投票結果を表すグラフである。

投票のアルゴリズムは、前述した図６と全く同様（本発明と同様）である。また、図８によれば、図７と同様に、フレーム番号５の投票数が、局所最大となる。しかしながら、本発明の図７の連長符号化を用いた方法によれば、図８と比較して、転置インデックスのサイズが小さいのみならず、投票の処理回数も極めて少ない。これによって、本発明は、従来技術と比較して、転置インデックスのサイズが小さく且つ投票の処理回数も少ないにも関わらず、同様の結果が得られることが理解される。

以上、詳細に説明したように、本発明の映像検索装置、プログラム及び方法によれば、転置インデックスを用いて映像を検索する技術について、インデックスサイズと検索精度との間のトレードオフを改善することができる。即ち、映像の検索精度を維持しつつ、転置インデックスのサイズを削減することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１映像検索装置
１０参照用映像蓄積部
１１インデックス生成部
１１１参照フレームサンプリング部
１１２参照用特徴領域抽出部
１１３参照用特徴量抽出部
１１４辞書生成部
１１５参照用単語生成部
１１６転置インデックス生成部
１１７転置インデックス記憶部
１２検索部
１２１キーフレームサンプリング部
１２２キー用特徴領域抽出部
１２３キー用特徴量抽出部
１２４キー用単語生成部
１２８インデックス検索部
１２９フレーム検出部
２端末
３正当著作権者の映像サーバ
４映像サーバ

Claims

多数の参照用映像の中から、検索キー用映像を用いて、参照用映像を検索する映像検索装置であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
前記参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
前記参照フレームの前記特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の前記特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
前記参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換する参照用単語生成手段と、
前記単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続する前記フレーム番号を連長符号化した転置インデックスを生成する転置インデックス生成手段と、
連長符号化された前記転置インデックスを記憶する転置インデックス記憶手段と
を有することを特徴とする映像検索装置。
前記転置インデックス生成手段は、当該単語iについて、第１の所定フレーム間隔数以内の数のフレーム番号が存在しないことによって前記フレーム番号が不連続となっている場合、存在しないフレーム番号が存在するものとして前記フレーム番号を連続にし、これによって連続するフレーム番号を連長符号化した転置インデックスを生成することを特徴とする請求項１に記載の映像検索装置。
前記転置インデックス生成手段は、当該単語iについて、前記フレーム番号の連続する数が第２の所定フレーム間隔数以内である場合、これらフレーム番号が存在しないものとし、これによってこれらフレーム番号を転置インデックスに含めないことを特徴とする請求項１又は２に記載の映像検索装置。
前記参照用特徴領域抽出手段は、Harris-Affine、Hessian-Affine、SIFT(Scale-Invariant Feature Transform)、MSERアルゴリズムのいずれか１つ以上を利用して特徴領域を抽出し、
前記参照用特徴量抽出手段は、SIFTを用いて前記特徴ベクトルを抽出し、
前記辞書生成手段は、k-meansを用いてｋ個のクラスタへクラスタリングすることによって、前記単語iをｋ次元ベクトルに量子化する
ことを特徴とする請求項１から３のいずれか１項に記載の映像検索装置。
検索キー用映像のフレーム列の中から複数のキーフレームを選択するキーフレームサンプリング手段と、
前記キーフレーム毎に、多数の特徴領域を抽出するキー用特徴領域抽出手段と、
前記キーフレームの前記特徴領域毎に、特徴ベクトルを抽出するキー用特徴量抽出手段と、
前記キーフレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書生成手段の辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換するキー用単語生成手段と、
前記転置インデックス記憶手段を用いて、前記キーフレームのキー単語iを含む１つ又は連続の参照フレーム番号から、前記キーフレーム番号を引いたフレーム番号を検索するインデックス検索手段と、
前記キー用映像毎に、複数のキーフレームに基づいて検索された前記参照フレーム番号の数を投票し、投票数が最も多い参照フレーム番号が、前記キー用映像の先頭フレームに対応するものとして検出するフレーム検出手段と
を更に有することを特徴とする請求項１から４のいずれか１項に記載の映像検索装置。
当該映像検索装置は、正当著作権者によって作成された正当映像コンテンツから、第三者が、不正に複製し又は二次的著作物となる不当映像コンテンツを作成した際に、当該不当映像コンテンツに基づく正当映像コンテンツを検索するものであり、
前記参照用映像は、前記正当映像コンテンツであり、
前記検索キー用映像は、前記不当映像コンテンツである
ことを特徴とする請求項１から５のいずれか１項に記載の映像検索装置。
多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置に搭載されたコンピュータを機能させる映像検索プログラムであって、
参照用映像のフレーム列の中から複数の参照フレームを選択する参照フレームサンプリング手段と、
前記参照フレーム毎に、多数の特徴領域を抽出する参照用特徴領域抽出手段と、
前記参照フレームの前記特徴領域毎に、特徴ベクトルを抽出する参照用特徴量抽出手段と、
多数の前記特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する辞書生成手段と、
前記参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換する参照用単語生成手段と、
前記単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続する前記フレーム番号を連長符号化した転置インデックスを生成する転置インデックス生成手段と、
連長符号化された前記転置インデックスを記憶する転置インデックス記憶手段と
してコンピュータを機能させることを特徴とする映像検索プログラム。
多数の参照用映像の中から、検索キー用映像を用いて、当該検索キー用映像を含む参照用映像を検索する装置における映像検索方法であって、
参照用映像のフレーム列の中から複数の参照フレームを選択する第１のステップと、
前記参照フレーム毎に、多数の特徴領域を抽出する第２のステップと、
前記参照フレームの前記特徴領域毎に、特徴ベクトルを抽出する第３のステップと、
多数の前記特徴ベクトルをｋ個のクラスタにクラスタリングし、各クラスタｉの代表ベクトルｆiを単語ｉの代表ベクトルと規定する第４のステップと、
前記参照フレームから抽出された特徴ベクトル集合のそれぞれのベクトルｆｊを、前記辞書を参照し、代表ベクトルの中で最もｆｊに近い代表ベクトルを持つ単語ｉに割り当て、前記参照フレームに存在する単語集合に変換する第５のステップと、
前記単語i毎に、当該単語を含むフレームのフレーム番号を対応付け、連続する前記フレーム番号を連長符号化した転置インデックスを生成する第７のステップと、
連長符号化された前記転置インデックスを記憶する第８のステップと
を有することを特徴とする映像検索方法。