JP2015130041A

JP2015130041A - 画像処理装置及び画像処理プログラム

Info

Publication number: JP2015130041A
Application number: JP2014000984A
Authority: JP
Inventors: 貴裕望月; Takahiro Mochizuki; 佐野　雅規; Masaki Sano; 雅規佐野
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2014-01-07
Filing date: 2014-01-07
Publication date: 2015-07-16

Abstract

【課題】映像検索の高速化を実現する。【解決手段】映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン生成手段と、前記シーン生成手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、前記ヒストグラム生成手段により生成された各シーンのヒストグラムに基づいてクラスタリングするクラスタリング手段とを有する。【選択図】図２

Description

本発明は、映像に含まれるフレーム画像に対する画像処理装置及び画像処理プログラムに関する。

従来では、記録技術の進歩によりハードディスクに大量の映像を蓄積することが可能となっている。また、ネットワーク環境の発達により、インターネット等の通信ネットワークを通じて多種多様な映像にアクセスすることができるようになっている。そのため、所望の映像を素早く探し出すための検索技術が有用となっている。

ここで、映像の一般的な検索技術としては、映像内容に関するキーワード検索が挙げられるが、映像の量が膨大となった場合には、各シーンへの的確なキーワードやテキスト情報の付与が非常に高い作業コストとなる。また、付与された情報は、作業者の違いによる感覚のブレを含んでおり、検索精度の低下を招く恐れがある。そこで、キーワード検索とは異なるアプローチとして、画像をクエリーとし、その画像特徴の類似性に基づいた「ビジュアル検索」に関する研究が盛んに行われている（例えば、非特許文献１参照）。

望月貴裕、佐野雅規、藤井真人、"多重スケール画像片ワードヒストグラムを用いた映像検索"、電子情報通信学会技術研究報告、ＰＲＭＵ２０１２−８９、ｐｐ．７５−８０（２０１３−０１）

クエリーとして画像を入力する映像検索の手法としては、画像を１枚入力し、その画像と見た目の類似した代表画像を持つカット（例えば、映像の切替りで区切った単位）を検索する仕組みが一般的である。しかしながら、カットは、非常に短い時間単位であり、複数の画像を入力して「シーン（複数カットのまとまり）」単位で検索するニーズに対応することができない。

また、非特許文献１に示すようなシーン単位で検索する場合、画像同士の「総当り」の類似度計算に基づきシーン単位での類似度を算出すると、検索対象のシーン数が増えた場合に、計算コストが大きくなるため検索時間がかかってしまう。

本発明は、上述した問題点に鑑みなされたものであり、映像検索の高速化を実現するための画像処理装置及び画像処理プログラムを提供することを目的とする。

本発明の一態様における画像処理装置は、映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン生成手段と、前記シーン生成手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、前記ヒストグラム生成手段により生成された各シーンのヒストグラムに基づいてクラスタリングするクラスタリング手段とを有する。

また、本発明の一態様における画像処理プログラムは、コンピュータを、上述した画像処理装置が有する各手段として機能させるための画像処理プログラムである。

本発明によれば、映像検索の高速化を実現することができる。

画像処理装置の機能構成の一例を示す図である。特徴抽出手段の機能構成の一例を示す図である。画像片ワード抽出処理の一例を示すフローチャートである。画像片ワードの生成の流れを示す図である。特徴抽出処理の一例を示すフローチャートである。距離Ｄ_ｉの算出例を示す図である。検索手段の機能構成の一例を示す図である。検索処理の一例を示すフローチャートである。類似度算出処理の一例を示すフローチャートである。類似度計算の具体例を説明するための図である。本実施形態における画像処理の具体例を説明するための図である。

＜本発明について＞
本発明では、例えば予め検索対象の映像に含まれる複数フレーム画像からなる全シーンを画像片（ブロック領域）ワードヒストグラムという特徴に基づいてクラスタリングすると共に、各クラスタの中心ヒストグラムを計算して記憶しておく。これにより、検索時にクエリーとして入力した１又は複数の画像から算出した画像片ワードヒストグラムと、予め記憶された中心ヒストグラムとを比較し、類似する中心ヒストグラムに対応するクラスタに属するシーンのみを検索対象とすることができるため、検索コスト（例えば、処理数、時間等）の削減を図ることができる。

なお、画像片ワードヒストグラムとは、例えば各フレーム画像に対して１又は複数の異なる画像サイズ（以下、「多重スケール」という）を有する画像片ワードのヒストグラム（多重スケール画像片ワードヒストグラム、ＨｉｓｔｏｇｒａｍｏｆＭｕｌｔｉ−ｓｃａｌｅＩｍａｇｅＰｉｅｃｅＷｏｒｄ、以下、必要に応じて「Ｈ−ＭＩＰＷ」という）である。本実施形態では、この画像片ワードに基づく特徴情報を用いて各シーンのクラスタリングを行う。

画像片とは、例えば非特許文献１に示すように、１フレーム画像を所定の画像サイズで区切って分割されたときの各ブロック画像である。画像サイズ（スケール）は、例えば正方形でもよく、その他の形状でもよい。また、ワードとは、例えば参照ベクトル等の所定の特徴情報等であるが、これに限定されるものではない。また、Ｈ−ＭＩＰＷは、例えばブロック画像の種類と出現比率（頻度）による静止画分類手法をベースとし、ブロックの大きさを多重スケールにすると共に動画特徴に拡張したものである。

例えば、本実施形態では、上述した技術を用いて、例えば「１又は複数の画像に対して類似したカットを含むシーンを見つけたい」というクエリーとして、入力された１又は複数の画像（クエリー画像系列）に対し、画像片ワードヒストグラムの類似性により検索対象シーンを絞り込むことにより、高速な検索を実現する。

このとき、前処理として、各映像ファイルの一定区間毎（シーン）の「画像片ワードヒストグラム」を算出し、画像片ワードヒストグラムの類似性に基づいてクラスタリング処理を行うと共に、各クラスタの中心ヒストグラムを算出する。なお、中心ヒストグラムとは、例えば全ての要素の画像片ワードヒストグラムの平均等であるが、これに限定されるものではない。

これにより、検索時には、クエリー画像系列から画像片ワードヒストグラムを算出し、そのヒストグラムと類似した中心ヒストグラムを持つクラスタ（前処理で生成）に属するシーンのみを検索対象として抽出する。また、本実施形態では、抽出されたシーンのみを対象として画像単位での類似度を計算し、その類似度の高いものを検索結果として出力する。

以下に、画像処理装置及び画像処理プログラムを好適に実施した形態について、図面を用いて詳細に説明する。

＜画像処理装置の機能構成例＞
図１は、画像処理装置の機能構成の一例を示す図である。図１の例に示す画像処理装置１０は、概略的に、特徴抽出手段１１と、記憶手段１２と、検索手段１３とを有するよう構成されている。

特徴抽出手段１１は、準備用（サンプル）映像集合や検索対象映像を入力し、検索手段１３において本実施形態における検索を行うための検索対象データ等を生成する。例えば、特徴抽出手段１１は、準備用映像集合（複数のフレーム画像集合）を入力して画像片ワードを生成する。

また、特徴抽出手段１１は、例えば検索対象映像を入力して、所定の間隔（例えば、一定間隔や映像区切り等）で区切ったシーン（複数のフレーム画像）を入力し、そのシーンに対して上述した画像片ワードヒストグラム（Ｈ−ＭＩＰＷ）を算出する。更に、特徴抽出手段１１は、予め検索対象の全シーンから画像片ワードヒストグラム等の特徴情報を生成し、生成されたヒストグラム（特徴情報）に基づいてクラスタリングする。

更に、特徴抽出手段１１は、クラスタリングにより得られた各クラスタの中心ヒストグラムを計算する。特徴抽出手段１１により得られた各種情報を含む検索対象データは、記憶手段１２に記憶される。

記憶手段１２は、特徴抽出手段１１により生成された検索対象データを格納する。また、記憶手段１２は、検索手段１３に入力された検索クエリーに対して、記憶された検索対象データから対応するデータを抽出する。

記憶手段１２は、例えばデータベース等であってもよい。また、記憶手段１２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の揮発性の記憶装置やＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）等の不揮発性の記憶装置であるが、これに限定されるものではない。

検索手段１３は、検索クエリー（例えば、検索要求シーン等）の入力を受け付け、受け付けた検索クエリーに対して記憶手段１２を参照し、検索クエリーに対応する検索結果を抽出して、その検索結果を出力する。例えば、検索手段１３は、例えば検索クエリーとして入力した１又は複数の画像から算出した画像片ワードヒストグラムと中心ヒストグラムの類似したクラスタを抽出し、抽出したクラスタに属するシーンのみを検索対象として抽出する。そして、検索手段１３は、例えば抽出したクラスタに属するシーンに対して画像間の類似度比較等により検索結果を出力する。これにより、本実施形態では、検索精度を維持したまま検索時間の短縮を図ることができる。

なお、図１の例において準備用映像集合、検索対象映像、及び検索クエリーは、予め記憶手段１２内に記憶されていてもよい。その場合、特徴抽出手段１１は、記憶手段１２に記憶された準備用映像集合や検索対象映像等を取得して、検索対象データを生成する。また、検索手段１３は、記憶手段１２に記憶された検索クエリーを入力して検索処理を行う。

なお、本実施形態における画像処理装置１０は、例えば特徴抽出手段１１、記憶手段１２、検索手段１３のそれぞれ又は一部が異なる装置で構成されていてもよい。その場合、各装置は、例えばインターネットやＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）等に代表される通信ネットワークによりデータの送受信が可能な状態で接続される。また、画像処理装置１０は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）やサーバ、クラウドサーバ、タブレット端末等であるが、これに限定されるものではない。

＜特徴抽出手段１１の機能構成例＞
次に、上述した特徴抽出手段１１の機能構成例について図を用いて説明する。図２は、特徴抽出手段の機能構成の一例を示す図である。特徴抽出手段１１は、サンプリング取得手段２１と、分割ブロック設定手段２２と、画像片ワード生成手段（ブロック特徴情報生成手段）２３と、シーン生成手段２４と、ヒストグラム生成手段２５と、クラスタリング手段２６と、特徴ベクトル取得手段２７とを有するよう構成されている。

サンプリング取得手段２１は、予め蓄積された準備用映像（サンプル映像）集合３１から、所定の間隔（例えば、Ｔ_１フレーム）毎にフレーム画像をサンプリングし、準備用フレーム画像集合３２（Ｐ_１，・・・,Ｐ_Ｎ＿Ｐ）を出力する。所定の間隔（Ｔ_１）は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、またシーンを構成する各ショット（例えば、映像の切り替わり）の先頭画像であってもよい。

分割ブロック設定手段２２は、画像片ワード生成手段２３により生成される１又は複数の画像片（画像ブロック）の大きさ（スケール、画像サイズ）、種類、及び数等のうち、少なくとも１つを設定する。例えば、分割ブロック設定手段２２は、画像片の大きさを４×４画素、８×８画素、１６×３２画素の３種類と設定することができるが、画像片の大きさや数はこれに限定されるものではない。なお、画像ブロックの設定は、予めユーザが設定しておいてもよく、また入力される映像の解像度や映像のジャンル（例えば、ニュース番組、スポーツ、ドラマ）等に対応して自動的に設定されてもよい。更に、分割ブロック設定手段２２は、映像に対して画像全体における「目立つ領域」を表す顕著性マップ(ＳａｌｉｅｎｃｙＭａｐ)に基づいて、画像片の大きさ、種類、及び数等のうち、少なくとも１つを設定してもよい。顕著性マップは、周辺領域と性質の異なる領域を「顕著性が高い(注意を引く)領域」として抽出するものである。

画像片ワード生成手段２３は、例えば分割ブロック設定手段２２により設定された条件等に基づいて、準備用フレーム画像集合３２から所定のスケール毎に分割されたブロック毎に画像片ワード３３（Ｗ）を生成する。なお、画像片ワードの具体的な生成手法については、後述する。

シーン生成手段２４は、例えばユーザ等により入力手段等を用いて指定される検索対象映像３４（Ｖ_１，・・・,Ｖ_Ｎ＿Ｔ）に対して、カット単位に自動分割し、カットの先頭フレームをカット代表画像とする。また、シーン生成手段２４は、カットを所定数（Ｎｃ個）ずつまとめてそれぞれをシーンとする。これにより、シーン生成手段２４は、検索対象シーン３５（Ｓ_１，・・・,Ｓ_Ｎ＿Ｓ）を生成する。

なお、検索対象映像３４とは、シーン毎の特徴情報を抽出する対象の映像を意味し、本実施形態では、一例として、検索手段１３における検索対象となる映像を示している。また、上述したカット単位の自動分割とは、映像の区切りの最初のフレームの間隔であるが、これに限定されるものではない。

ヒストグラム生成手段２５は、検索対象シーン３５（Ｓ_１，・・・,Ｓ_Ｎ＿Ｓ）を入力し、画像片ワード３３と対応付けて、その各シーンの画像片ワードヒストグラム３６（Ｈ_１，・・・,Ｈ_Ｎ＿Ｓ）を出力する。なお、ヒストグラム生成手段２５における各シーンの画像片ワードヒストグラム３６の具体的な生成例については、後述する。

クラスタリング手段２６は、各シーンの画像片ワードヒストグラム３６を用いて画像片ワードヒストグラムの類似性に基づき、全シーンをクラスタリングする。類似性としては、画像片ワード同士の距離を求め、その距離が近い方が類似性が高いとして判断することができるが、これに限定されるものではない。

また、クラスタリング手段２６は、距離に基づいてクラスタリングされた各クラスタ（Ｃ_１，・・・，Ｃ_Ｎ＿Ｋ）に対し、各クラスタの中心ヒストグラム（Ｈ'_１,・・・,Ｈ'_Ｎ＿Ｋ）を取得する。中心ヒストグラムとは、例えばクラスタに属する全シーンの画像片ワードヒストグラムの平均を意味するが、これに限定されるものではない。クラスタリング手段２６は、得られたクラスタ及び各クラスタの中心ヒストグラム３７を記憶する。なお、クラスタリング手段２６は、例えば予め設定された閾値（第１の閾値）を超えないようにクラスタリングしてもよく、また１つのクラスタに属するシーンの数が閾値（第２の閾値）を超えないようにクラスタリングしてもよいが、これに限定されるものではない。

特徴ベクトル取得手段２７は、検索対象シーン３５を用いて各シーンの各カットの代表画像の特徴ベクトルを計算する。なお、特徴ベクトル取得手段２７において、特徴画像から計算される画像特徴ベクトルの一例としては、例えば画像全体のＲＧＢ平均値ベクトルや、画像を所定のブロックに分割し、各ブロックでＲＧＢ特徴ベクトルとエッジ方向ヒストグラムを計算し、それらを全ブロックで連結して生成したベクトル等があるが、これに限定されるものではなく、例えば複数の特徴ベクトルを組み合わせてもよい。

特徴ベクトル取得手段２７は、各シーンの各カット代表画像の画像特徴ベクトル３８を記憶する。

なお、図２の例における準備用映像集合３１、準備用フレーム画像集合３２、画像片ワード３３、検索対象映像３４、検索対象シーン３５、各シーンの画像片ワードヒストグラム３６、クラスタ及び各クラスタの中心ヒストグラム３７、及び各シーンの各カット代表画像の画像特徴ベクトル３８は、例えば上述した記憶手段１２に記憶して管理される。

＜画像片ワード抽出までの処理の一例＞
上述した画面片ワード抽出までの処理の一例について、図を用いて説明する。図３は、画像片ワード抽出処理の一例を示すフローチャートである。図４は、画像片ワードの生成の流れを示す図である。

本実施形態において画像片は、画像中の内容との相関が強いと考えられる。そのため、Ｈ−ＭＩＰＷは、映像内容の類似性によるシーン検索のための有効な動画特徴となり得る。したがって、Ｈ−ＭＩＰＷを用いることで、ユーザからの要求シーンに対して高精度な検索を行うことができ、類似性の高いシーン等を取得することができる。

上述したブロック画像の種類を表す多重スケール画像片ワード（以下、必要に応じて「ＭＩＰＷｏｒｄ」という）、及び所定のシーン単位のＨ−ＭＩＰＷの算出例について、具体的に説明する。上述した画像片ワード生成手段２３における多重スケール画像片ワード（ＭＩＰＷｏｒｄ）を生成する手法について説明する。ＭＩＰＷｏｒｄは、例えば検索対象映像３４からランダムに選択された準備用映像等を用いて生成する。

図４の例において、画像片ワード生成処理は、準備用映像集合から所定のフレーム画像をサンプリングする（Ｓ０１）。サンプリングは、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。次に、画像片ワード生成処理は、サンプリングした各フレーム画像を１又は複数のスケールにブロック分割する（Ｓ０２）。Ｓ０２の処理では、例えばフレーム画像毎にスケール１（ｎＷ１×ｎＨ１個）,・・・,スケールＮｄ（ｎＷＮｄ×ｎＨＮｄ個）の複数のスケールで、それぞれブロック分割する。

次に、画像片ワード生成処理は、分割した各ブロック画像について、所定の特徴ベクトル（特徴情報）を算出する（Ｓ０３）。所定の特徴ベクトルとしては、例えば色特徴やテクスチャ特徴等があるがこれに限定されるものではなく、他の特徴を用いてもよく、複数の特徴情報を組み合わせてもよい。色特徴としては、例えばＲＧＢ平均値ベクトルや色相ヒストグラム等がある。また、テクスチャ特徴としては、例えばフラクタルシーケンスやエッジ方向ヒストグラム、ＣＳ−ＬＢＰ（ＣｅｎｔｅｒＳｙｍｍｅｔｒｉｃ − ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴等がある。

次に、画像片ワード生成処理は、各スケールｉ（ｉ＝１，・・・，Ｎｄ）において、ブロック画像集合を特徴ベクトルの類似性に基づいてクラスタリング（分類分け）する（Ｓ０４）。なお、Ｓ０４の処理において、クラスタリング手法は、例えばＫ−Ｍｅａｎｓ法等の分割最適化法を用いることができるが、これに限定されるものではない。Ｓ０４の処理により生成された各スケールｉにおけるＫ_ｉ個のクラスタをＣ［ｉ，１］，・・・，Ｃ［ｉ，Ｋ_ｉ］とする。

次に、画像片ワード生成処理は、例えば各クラスタＣ［ｉ，ｋ］の中心ベクトルｗ［ｉ，ｋ］を要素とする画像片ワードＷ＝｛ｗ［１，１］，・・・，ｗ［ｉ，ｋ］，・・・，ｗ［Ｎｄ，ＫＮｄ］｝を、多重スケール画像片ワード（ＭＩＰＷｏｒｄ）として生成する（Ｓ０５）。その後、画像片ワード生成処理は、生成された多重スケール画像片ワード（ＭＩＰＷｏｒｄ）を記憶手段（例えば、画像片ワード）等に記憶する（Ｓ０６）。

図４の例では、上述した図３に示す処理において、ブロック分割スケールＮｄ＝２の場合のＭＩＰＷｏｒｄ生成の流れを示している。図４に示すように、同一の準備用（サンプル）映像に対して複数のスケール（画像サイズ）でブロック分割し、それぞれのスケールで分割された画像片毎に特徴ベクトルに基づいてクラスタリングして、画像片ワードを生成する。

なお、準備用映像は、例えば検索対象映像や検索要求シーン等のジャンル（例えば、ニュース、各種のスポーツ（サッカー、野球）等）が予め決まっている場合には、同一のジャンルの準備用映像にすることが好ましいが、これに限定されるものではない。また、スケールは、例えば上述した分割ブロック設定手段２２により任意のスケール、種類、数に設定される。また、スケールは、入力される映像の解像度等に応じて任意に設定されてもよい。

上述した図３に示す処理は、例えば図２に示すサンプリング取得手段２１、分割ブロック設定手段２２、及び画像片ワード生成手段２３等によって行われる。

＜特徴抽出処理＞
次に、上述した画像片ワード３３等を用いて、検索対象映像３４から特徴情報（例えば、クラスタ及び各クラスタの中心ヒストグラム３７、各シーンの各カット代表画像の画像特徴ベクトル３８）の取得例について、図を用いて説明する。

図５は、特徴抽出処理の一例を示すフローチャートである。図５の例において、特徴抽出処理は、検索対象映像３４（Ｖ_１，・・・，Ｖ_Ｎ＿Ｔ）の各映像を、例えば連続するフレーム画像間の輝度の差分情報等から得られるカット単位に自動分割し、例えばカットの先頭フレームをカット代表画像とする（Ｓ１１）。なお、カット単位の分割手法は、上述の例に限定されるものではない。

次に、特徴抽出処理は、Ｓ１１の処理で得られたカットをＮ＿Ｃ個ずつまとめてそれぞれをシーンとする（Ｓ１２）。Ｓ１２の処理で生成された検索対象シーンをＳ_１，・・・，Ｓ_Ｎ＿Ｓとする。

次に、特徴抽出処理は、検索対象シーンＳ_１，・・・，Ｓ_Ｎ＿Ｓそれぞれの画像片ワードヒストグラムを計算する（Ｓ１３）。Ｓ１３の処理で生成された画像片ワードヒストグラムをＨ_１，・・・，Ｈ_Ｎ＿Ｓとする。次に、特徴抽出処理は、画像片ワードヒストグラムＨ_１，・・・，Ｈ_Ｎ＿Ｓをヒストグラムの類似性（距離の近さ）に基づきＮ＿Ｋ個のクラスタへクラスタリングする（Ｓ１４）。

なお、本実施形態におけるクラスタリングは、例えば予め設定されたクラスタ数になるようにクラスタリングしてもよく、１クラスタ内の個数が所定数以上にならないようにクラスタリングしてもよいが、これらに限定されるものではなく、任意に設定することができる。また、入力される検索対象映像の種類や映像数に応じてクラスタ数を設定してもよい。Ｓ１４の処理により生成されたクラスタをＣ_１，・・・，Ｃ_Ｎ＿Ｋとする。

次に、特徴抽出処理は、クラスタＣ_１，・・・，Ｃ_Ｎ＿Ｋそれぞれの中心ヒストグラム（例えば、クラスタに属する全シーンの画像片ワードヒストグラムの平均）を取得する（Ｓ１５）。Ｓ１５の処理により得られる中心ヒストグラムをＨ'_１，・・・，Ｈ'_Ｎ＿Ｋとする。また、特徴抽出処理は、Ｓ１１の処理で得られた各シーンｉ（ｉ＝１，・・・，Ｎ＿Ｓ）のカット代表画像Ｐ［ｉ，１］，・・・，Ｐ［ｉ，Ｎ＿Ｃ］の画像特徴ベクトルＦ［ｉ，１］，・・・，Ｆ［ｉ，Ｎ＿Ｃ］を計算する（Ｓ１６）。なお、Ｓ１６の処理で計算される特徴ベクトルは、例えば画像全体のＲＧＢ平均値ベクトルや、画像をブロックに分割し、各ブロックでＲＧＢ特徴ベクトルとエッジ方向ヒストグラムを計算し、それらを全ブロックで連結して生成したベクトル等を用いることができるが、これに限定されるものではない。

次に、特徴抽出処理は、上述の各処理で得られたシーンをクラスタリングしたクラスタＣ_１，・・・，Ｃ_Ｎ＿Ｋ、各クラスタの中心ヒストグラムＨ'_１，・・・，Ｈ'_Ｎ＿Ｋ、及び各シーンの各カット代表画像の画像特徴ベクトルを記憶手段１２に記憶する。

上述した図５に示す処理は、例えば図２に示すシーン生成手段２４、ヒストグラム生成手段２５、クラスタリング手段２６、及び特徴ベクトル取得手段２７等によって行われる。

＜Ｓ１４：距離の算出例＞
次に、上述したＳ１４の処理における距離の算出例について、図を用いて説明する。図６は、距離Ｄ_ｉの算出例を示す図である。距離の算出では、図６の例に示すように、２つのヒストグラムを比較する場合に、各要素を識別する変数の初期値ｉ＝１とし、第１の画像片ワードヒストグラムＨ_ｉと、第２の要求シーンの画像片ワードヒストグラムＨ_Ｑとの距離Ｄ_ｉを算出する。

本実施形態では、図６に示すように、第１と第２のそれぞれの画像片ワードヒストグラムＨ_Ｑ、Ｈ_ｉのベクトルの距離Ｄ_ｉを要素毎に求めることで類似性を判断する。つまり、距離の算出は、お互いの同じ要素単位で順番にベクトルの距離Ｄ_ｉが算出される。ここで、距離Ｄ_ｉが小さい方が類似度が高いため、例えば各要素の距離の合計の距離Ｄ_ｉが予め設定された閾値より小さいか否かを判断し、小さい場合に同一のクラスタに分類する。

また、本実施形態では、例えば予めクラスタ数や１クラスタ内における検索対象シーンの数が設定されている場合に、設定された数に対応させて、算出した距離Ｄ_ｉの値に基づきクラスタリングすることができる。

＜検索手段１３の機能構成例＞
次に、上述した検索手段１３における機能構成例について図を用いて説明する。図７は、検索手段の機能構成の一例を示す図である。図７の例において、検索手段１３は、ヒストグラム生成手段４１と、検索手段４２と、抽出手段４３と、特徴ベクトル取得手段４４と、類似度算出手段４５と、出力手段４６とを有するよう構成されている。

ヒストグラム生成手段４１は、ユーザ等から入力される検索クエリーの一例であるクエリー画像系列５１（Ｑ_１，・・・,Ｑ_Ｎ＿Ｑ）に対して、上述した特徴抽出手段１１におけるヒストグラム生成手段２５と同様な手法を用いてヒストグラムを生成する。ここで、クエリー画像系列５１とは、例えばユーザが選択した１又は複数のカット画像（検索要求シーン）等を示すが、これに限定されるものではない。ヒストグラム生成手段４１は、クエリー画像系列５１（Ｑ_１，・・・,Ｑ_Ｎ＿Ｑ）に対する画像片ワードヒストグラム５２（Ｈ_Ｑ）を出力する。

検索手段４２は、クエリー画像系列５１の画像片ワードヒストグラム５２を用いて、上述した特徴抽出手段１１で取得したクラスタ及び各クラスタの中心ヒストグラム３７とを参照して対応する検索対象シーンを絞り込む。検索手段４２は、検索結果により絞り込まれた検索対象シーン５３（Ｓ'_１，・・・,Ｓ'_Ｎ＿Ｓ'）を出力する。

抽出手段４３は、絞り込まれた検索対象シーン５３（Ｓ'_１，・・・,Ｓ'_Ｎ＿Ｓ'）を入力し、上述した特徴抽出手段１１で得られた各シーンの各カット代表画像の画像特徴ベクトル３８を用いて、絞り込まれた検索対象シーンの各カット代表画像の画像特徴ベクトル５４を出力する。

特徴ベクトル取得手段４４は、ユーザ等により入力されたクエリー画像系列５１（Ｑ_１，・・・,Ｑ_Ｎ＿Ｑ）に対する特徴ベクトルを取得し、クエリー画像系列５１のそれぞれの画像特徴ベクトル５５を出力する。なお、特徴ベクトル取得手段４４における画像特徴ベクトルは、例えば上述した特徴ベクトル取得手段２７における手法と同様の手法を用いることができるが、これに限定されるものではない。

類似度算出手段４５は、絞り込まれた検索対象シーンの各カット代表画像の画像特徴ベクトル５４と、クエリー画像系列の画像特徴ベクトル５５との類似度を算出する。

出力手段４６は、類似度算出手段４５により得られる類似度に基づいて、例えば類似度が最大の映像を検索結果として出力する。また、出力手段４６は、類似度が予め設定された閾値より高い映像を検索結果として出力してもよく、類似度の上位から所定数の映像を検索結果として出力してもよい。上述した各出力条件については、例えば検索対象映像３４のジャンル等に応じて画像処理装置側で予め設定されていてもよく、ユーザが任意に設定してもよい。

なお、図７の例におけるクエリー画像系列５１、画像片ワードヒストグラム５２、絞り込まれた検索対象シーン５３、検索対象シーンの各カット代表画像の画像特徴ベクトル５４、及びクエリー画像系列の画像特徴ベクトル５５は、例えば上述した記憶手段１２に記憶して管理される。

＜検索手段１３における検索処理例＞
次に、検索手段１３における検索処理例について、フローチャートを用いて説明する。図８は、検索処理の一例を示すフローチャートである。図８の例において、検索処理は、入力されたクエリー画像系列５１（Ｑ_１，・・・，Ｑ_Ｎ＿Ｑ）の画像片ワードヒストグラム５２（Ｈ_Ｑ）を算出する（Ｓ２１）。

次に、検索処理は、画像片ワードヒストグラム５２（Ｈ_Ｑ）と、特徴抽出処理で生成したクラスタ（Ｃ_１，・・・，Ｃ_Ｎ＿Ｋ）の中心ヒストグラム（Ｈ'_１，・・・，Ｈ'_Ｎ＿Ｋ）のそれぞれとの距離を計算する（Ｓ２２）。なお、距離の算出は、例えば上述したクラスタリング処理における距離の算出例等を用いることができるが、Ｓ２２の処理の場合には、比較するヒストグラムが、画像片ワードヒストグラムＨ_Ｑと、特徴抽出処理で生成したクラスタの中心ヒストグラム（Ｈ'_１，・・・，Ｈ'_Ｎ＿Ｋ）となる。

次に、検索処理は、算出した距離が閾値以下のクラスタか否かを判断し（Ｓ２３）、閾値以下のクラスタに属する場合（Ｓ２３において、ＹＥＳ）、そのクラスタに含まれるシーンのみを検索対象シーンとして抽出する（Ｓ２４）。なお、この処理は、各クラスタの中心ヒストグラムとの比較により得られるため、この絞り込まれたＮ＿Ｓ'個（Ｎ＿Ｓ'＜Ｎ＿Ｓ）の検索対象シーンは、Ｓ'_１，・・・，Ｓ'_Ｎ＿Ｓ'となる。

次に、検索処理は、クエリー画像系列５１（Ｑ_１，・・・，Ｑ_Ｎ＿Ｑ）とシーンＳ'_ｉとの類似度Ｓ（Ｑ_１，・・・，Ｑ_Ｎ＿Ｑ，Ｓ'_ｉ）を計算する（Ｓ２５）。なお、Ｓ２５の処理では、例えば特徴ベクトル取得手段４４により得られるクエリー画像系列５１（Ｑ_１，・・・，Ｑ_Ｎ＿Ｑ）の画像特徴ベクトル５５等を用いて計算される。また、Ｓ２５の処理は、ｉが１からＮ＿Ｓになるまで繰り返し行われる。Ｓ２５の処理については、後述する。

次に、検索処理は、Ｓ２５の結果から、算出した類似度の高い上位Ｎ＿Ｒ個のシーンを検索結果として出力する（Ｓ２６）。なお、検索結果が複数ある場合には、シーンを生成した日時を基準に昇順又は降順に並べたものを出力してもよく、類似度を基準に昇順又は降順に並べたものを出力してもよいが、これに限定されるものではない。また、検索結果としてシーンそのものを出力してもよく、シーンに関連するサムネイル画像やテキスト情報、又はそれらを組み合わせた情報を検索結果として出力してもよい。

上述した図８に示す処理は、例えば図７に示すヒストグラム生成手段４１、検索手段４２、抽出手段４３、特徴ベクトル取得手段４４、類似度算出手段４５、及び出力手段４６等によって行われる。

＜Ｓ２５：類似度算出処理例＞
次に、上述した類似度算出処理例について、フローチャートを用いて具体的に説明する。図９は、類似度算出処理の一例を示すフローチャートである。図９の例において、類似度算出処理は、ｉ＝１，・・・，Ｎ＿Ｓまで繰り返し処理を行う。

類似度算出処理は、まずＳ'_ｉのカット代表画像をＰ'［ｉ，１］・・・，Ｐ'［ｉ，Ｎ＿Ｃ］とし（Ｓ３１）、次に、ｓ（Ｑ_ｋ，Ｓ'_ｉ）＝ｍａｘ｛ｓ'（Ｑ_ｉ，Ｐ'［ｉ，１］），・・・，ｓ'（Ｑ_ｉ，Ｐ'［ｉ，Ｎ＿Ｃ］）｝を計算する（Ｓ３２）。このとき、ｉ＝１，・・・，Ｎ＿Ｓ，ｋ＝１，・・・，Ｎ＿Ｑとして計算される。

ここで、上述したＳ３２の処理の説明において、ｓ'（Ａ，Ｂ）は、画像ＡとＢとの画像特徴ベクトルの類似度を表し、ｍａｘ｛ａ１，ａ２，・・・，ａＮ｝は、ａ１，ａ２，・・・，ａＮの中の最大値を表す。また、類似度は、対象画像のそれぞれの画像特徴ベクトルの各要素同士を比較し、それぞれの要素の距離等に応じて類似度を設定することができる。この場合、距離が近い方が類似度が高いことになる。

次に、類似度算出処理は、例えば以下に示す（１）式を用いて類似度を計算する（Ｓ３３）。

上述した検索手段により、Ｑ_１，・・・，Ｑ_Ｎ＿Ｑと類似度の高いＮ＿Ｒ個のシーンを検索結果として出力することができる。なお、本実施形態における類似度の計算式は、上述した（１）式に限定されるものではない。

ここで、図１０は、類似度計算の具体例を説明するための図である。図１０では、一例としてクエリーの複数画像Ａ，Ｂ，Ｃと、絞り込まれた検索対象シーンの一例であるシーンａ，ｂ，ｃとの類似度を計算する。この場合、本実施形態では、図１０に示すように、それぞれの画像の各組み合わせにおける類似度を取得する。

また、本実施形態では、例えば図１０に示すように、各類似度の最大を加算し、その値の平均を取ることで、複数画像とシーン間との画像を類似度を算出する。なお、類似度の算出手法については、これに限定されるものではない。

＜本実施形態における画像処理の具体例＞
図１１は、本実施形態における画像処理の具体例を説明するための図である。本実施形態では、例えば「これらの画像と類似したカットを含むシーンを見つけたい」という目的で入力された複数の画像（クエリー画像系列）に対し、画像片ワードヒストグラムの類似性により検索対象シーンを絞り込み、絞り込まれた検索対象シーンを用いて最終的な検索結果を出力することで、従来よりも高速な検索を実現する。

そのため、本実施形態では、図１１に示すように、まず前処理（特徴抽出処理）として、例えば検索対象シーン３５の各映像ファイルの一定区間毎（シーン）の画像片ワードヒストグラムを抽出し、画像片ワードヒストグラムの類似性でクラスタリング処理を行う。また、特徴抽出処理は、各クラスタの中心ヒストグラム（例えば、全ての要素の画像片ワードヒストグラムの平均）を算出する。つまり、図１１に示すように、複数のクラスタ及び各クラスタの中心ヒストグラム３７−１〜３７−ｎが生成される。

そして、本実施形態では、検索処理として、まず、図１１に示すクエリーとして入力された複数の画像（クエリー画像系列）から画像片ワードヒストグラムを算出し、そのヒストグラムと類似した中心ヒストグラムを持つクラスタを複数のクラスタの中から絞り込む。また、検索処理では、絞り込まれたクラスタに属するシーン（絞り込まれた検索対象シーン５３）のみを用いて画像単位で類似度を計算し、計算した類似度を基準に検索結果を出力する。

これにより、本実施形態では、例えば図１０に示すようなクエリーの複数画像とシーンとの類似度の算出を行う場合に、検索対象シーンの数（量）を、上述したクラスタリング処理と、得られたクラスタを用いた絞り込みとにより、ある程度の数に減らすことができる。そのため、検索精度が落ちることがなく、より高速な検索を実現することができる。また、本実施形態により、Ｈ−ＭＩＰＷを用いてクラスタ分類することで、映像内容の類似性に基づいた高精度なシーン検索を実現することができる。

＜実行プログラム＞
ここで、上述した画像処理装置１０は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＡＭ等の揮発性の記憶装置、ＲＯＭ等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。

したがって、画像処理装置１０が有する上述した各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ−ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記録媒体に格納して頒布することもできる。

つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム（画像処理プログラム）を生成し、例えば汎用のＰＣやサーバ等にそのプログラムをインストールすることで、ハードウェア資源とソフトウェアとが協働して本実施形態における画像処理等を実現することができる。

上述したように本実施形態によれば、映像検索の高速化を実現することができる。また、本実施形態によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。また、本実施形態によれば、特徴情報に基づく適切なシーンの分類（クラスタリング）により、類似度を迅速に取得することができる。したがって、シーン全体の画像特徴の類似性に基づいた高精度なシーン検索を、従来手法より高速に実現することができる。

以上、好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された開示の技術の要旨の範囲内において、種々の変形、変更が可能である。

１０画像処理装置
１１特徴抽出手段
１２記憶手段
１３，４２検索手段
２１サンプリング取得手段
２２分割ブロック設定手段
２３画像片ワード生成手段（ブロック特徴情報生成手段）
２４シーン生成手段
２５ヒストグラム生成手段
２６クラスタリング手段
２７特徴ベクトル取得手段
３１準備用映像集合
３２準備用フレーム画像集合
３３画像片ワード
３４検索対象映像
３５検索対象シーン
３６各シーンの画像片ワードヒストグラム
３７クラスタ及び各クラスタの中心ヒストグラム
３８各シーンの各カット代表画像の画像特徴ベクトル
４１ヒストグラム生成手段
４３抽出手段
４４特徴ベクトル取得手段
４５類似度算出手段
４６出力手段
５１クエリー画像系列
５２クエリー画像系列の画像片ワードヒストグラム
５３絞り込まれた検索対象シーン
５４検索対象シーンの各カット代表画像の画像特徴ベクトル
５５クエリー画像系列の画像特徴ベクトル

Claims

映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、
サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、
前記サンプリング取得手段により得られる各フレーム画像に対して、１又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、
前記特徴情報を生成する対象映像からシーンを分割するシーン生成手段と、
前記シーン生成手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、
前記ヒストグラム生成手段により生成された各シーンのヒストグラムに基づいてクラスタリングするクラスタリング手段とを有することを特徴とする画像処理装置。
前記ヒストグラム生成手段は、ユーザから検索要求として入力されたクエリー画像系列に対してブロック単位のヒストグラムを生成し、
生成された前記クエリー画像系列を用いて、前記ヒストグラム生成手段で生成されたヒストグラムを参照し、対応するシーンを検索する検索手段とを有することを特徴とする請求項１に記載の画像処理装置。
前記検索手段は、
前記クエリー画像系列に対応するヒストグラムと、前記クラスタリング手段により得られる各クラスタのヒストグラムとを比較してクラスタの絞り込みを行い、絞り込まれたクラスタに属するシーンに含まれる画像と、前記クエリー画像系列とを比較することで、前記対応するシーンを検索することを特徴とする請求項２に記載の画像処理装置。
前記クラスタリング手段は、クラスタリングされたクラスタ毎に、クラスタに属する全シーンの特徴情報の平均からなる中心ヒストグラムを取得し、
前記検索手段は、前記クエリー画像系列に対応するヒストグラムと、前記中心ヒストグラムとの類似度に基づいて、前記クラスタの絞り込みを行うことを特徴とする請求項３に記載の画像処理装置。
前記特徴情報は、色特徴又はテクスチャ特徴を含むことを特徴とする請求項１乃至４の何れか１項に記載の画像処理装置。
コンピュータを、請求項１乃至５の何れか１項に記載の画像処理装置が有する各手段として機能させるための画像処理プログラム。