JP2015130041A - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP2015130041A
JP2015130041A JP2014000984A JP2014000984A JP2015130041A JP 2015130041 A JP2015130041 A JP 2015130041A JP 2014000984 A JP2014000984 A JP 2014000984A JP 2014000984 A JP2014000984 A JP 2014000984A JP 2015130041 A JP2015130041 A JP 2015130041A
Authority
JP
Japan
Prior art keywords
image
histogram
scene
search
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014000984A
Other languages
English (en)
Inventor
貴裕 望月
Takahiro Mochizuki
貴裕 望月
佐野 雅規
Masaki Sano
雅規 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014000984A priority Critical patent/JP2015130041A/ja
Publication of JP2015130041A publication Critical patent/JP2015130041A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】映像検索の高速化を実現する。【解決手段】映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン生成手段と、前記シーン生成手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、前記ヒストグラム生成手段により生成された各シーンのヒストグラムに基づいてクラスタリングするクラスタリング手段とを有する。【選択図】図2

Description

本発明は、映像に含まれるフレーム画像に対する画像処理装置及び画像処理プログラムに関する。
従来では、記録技術の進歩によりハードディスクに大量の映像を蓄積することが可能となっている。また、ネットワーク環境の発達により、インターネット等の通信ネットワークを通じて多種多様な映像にアクセスすることができるようになっている。そのため、所望の映像を素早く探し出すための検索技術が有用となっている。
ここで、映像の一般的な検索技術としては、映像内容に関するキーワード検索が挙げられるが、映像の量が膨大となった場合には、各シーンへの的確なキーワードやテキスト情報の付与が非常に高い作業コストとなる。また、付与された情報は、作業者の違いによる感覚のブレを含んでおり、検索精度の低下を招く恐れがある。そこで、キーワード検索とは異なるアプローチとして、画像をクエリーとし、その画像特徴の類似性に基づいた「ビジュアル検索」に関する研究が盛んに行われている(例えば、非特許文献1参照)。
望月貴裕、佐野雅規、藤井真人、"多重スケール画像片ワードヒストグラムを用いた映像検索"、電子情報通信学会技術研究報告、PRMU2012−89、pp.75−80(2013−01)
クエリーとして画像を入力する映像検索の手法としては、画像を1枚入力し、その画像と見た目の類似した代表画像を持つカット(例えば、映像の切替りで区切った単位)を検索する仕組みが一般的である。しかしながら、カットは、非常に短い時間単位であり、複数の画像を入力して「シーン(複数カットのまとまり)」単位で検索するニーズに対応することができない。
また、非特許文献1に示すようなシーン単位で検索する場合、画像同士の「総当り」の類似度計算に基づきシーン単位での類似度を算出すると、検索対象のシーン数が増えた場合に、計算コストが大きくなるため検索時間がかかってしまう。
本発明は、上述した問題点に鑑みなされたものであり、映像検索の高速化を実現するための画像処理装置及び画像処理プログラムを提供することを目的とする。
本発明の一態様における画像処理装置は、映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、前記特徴情報を生成する対象映像からシーンを分割するシーン生成手段と、前記シーン生成手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、前記ヒストグラム生成手段により生成された各シーンのヒストグラムに基づいてクラスタリングするクラスタリング手段とを有する。
また、本発明の一態様における画像処理プログラムは、コンピュータを、上述した画像処理装置が有する各手段として機能させるための画像処理プログラムである。
本発明によれば、映像検索の高速化を実現することができる。
画像処理装置の機能構成の一例を示す図である。 特徴抽出手段の機能構成の一例を示す図である。 画像片ワード抽出処理の一例を示すフローチャートである。 画像片ワードの生成の流れを示す図である。 特徴抽出処理の一例を示すフローチャートである。 距離Dの算出例を示す図である。 検索手段の機能構成の一例を示す図である。 検索処理の一例を示すフローチャートである。 類似度算出処理の一例を示すフローチャートである。 類似度計算の具体例を説明するための図である。 本実施形態における画像処理の具体例を説明するための図である。
<本発明について>
本発明では、例えば予め検索対象の映像に含まれる複数フレーム画像からなる全シーンを画像片(ブロック領域)ワードヒストグラムという特徴に基づいてクラスタリングすると共に、各クラスタの中心ヒストグラムを計算して記憶しておく。これにより、検索時にクエリーとして入力した1又は複数の画像から算出した画像片ワードヒストグラムと、予め記憶された中心ヒストグラムとを比較し、類似する中心ヒストグラムに対応するクラスタに属するシーンのみを検索対象とすることができるため、検索コスト(例えば、処理数、時間等)の削減を図ることができる。
なお、画像片ワードヒストグラムとは、例えば各フレーム画像に対して1又は複数の異なる画像サイズ(以下、「多重スケール」という)を有する画像片ワードのヒストグラム(多重スケール画像片ワードヒストグラム、Histogram of Multi−scale Image Piece Word、以下、必要に応じて「H−MIPW」という)である。本実施形態では、この画像片ワードに基づく特徴情報を用いて各シーンのクラスタリングを行う。
画像片とは、例えば非特許文献1に示すように、1フレーム画像を所定の画像サイズで区切って分割されたときの各ブロック画像である。画像サイズ(スケール)は、例えば正方形でもよく、その他の形状でもよい。また、ワードとは、例えば参照ベクトル等の所定の特徴情報等であるが、これに限定されるものではない。また、H−MIPWは、例えばブロック画像の種類と出現比率(頻度)による静止画分類手法をベースとし、ブロックの大きさを多重スケールにすると共に動画特徴に拡張したものである。
例えば、本実施形態では、上述した技術を用いて、例えば「1又は複数の画像に対して類似したカットを含むシーンを見つけたい」というクエリーとして、入力された1又は複数の画像(クエリー画像系列)に対し、画像片ワードヒストグラムの類似性により検索対象シーンを絞り込むことにより、高速な検索を実現する。
このとき、前処理として、各映像ファイルの一定区間毎(シーン)の「画像片ワードヒストグラム」を算出し、画像片ワードヒストグラムの類似性に基づいてクラスタリング処理を行うと共に、各クラスタの中心ヒストグラムを算出する。なお、中心ヒストグラムとは、例えば全ての要素の画像片ワードヒストグラムの平均等であるが、これに限定されるものではない。
これにより、検索時には、クエリー画像系列から画像片ワードヒストグラムを算出し、そのヒストグラムと類似した中心ヒストグラムを持つクラスタ(前処理で生成)に属するシーンのみを検索対象として抽出する。また、本実施形態では、抽出されたシーンのみを対象として画像単位での類似度を計算し、その類似度の高いものを検索結果として出力する。
以下に、画像処理装置及び画像処理プログラムを好適に実施した形態について、図面を用いて詳細に説明する。
<画像処理装置の機能構成例>
図1は、画像処理装置の機能構成の一例を示す図である。図1の例に示す画像処理装置10は、概略的に、特徴抽出手段11と、記憶手段12と、検索手段13とを有するよう構成されている。
特徴抽出手段11は、準備用(サンプル)映像集合や検索対象映像を入力し、検索手段13において本実施形態における検索を行うための検索対象データ等を生成する。例えば、特徴抽出手段11は、準備用映像集合(複数のフレーム画像集合)を入力して画像片ワードを生成する。
また、特徴抽出手段11は、例えば検索対象映像を入力して、所定の間隔(例えば、一定間隔や映像区切り等)で区切ったシーン(複数のフレーム画像)を入力し、そのシーンに対して上述した画像片ワードヒストグラム(H−MIPW)を算出する。更に、特徴抽出手段11は、予め検索対象の全シーンから画像片ワードヒストグラム等の特徴情報を生成し、生成されたヒストグラム(特徴情報)に基づいてクラスタリングする。
更に、特徴抽出手段11は、クラスタリングにより得られた各クラスタの中心ヒストグラムを計算する。特徴抽出手段11により得られた各種情報を含む検索対象データは、記憶手段12に記憶される。
記憶手段12は、特徴抽出手段11により生成された検索対象データを格納する。また、記憶手段12は、検索手段13に入力された検索クエリーに対して、記憶された検索対象データから対応するデータを抽出する。
記憶手段12は、例えばデータベース等であってもよい。また、記憶手段12は、例えばRAM(Random Access Memory)等の揮発性の記憶装置やROM(Read Only Memory)等の不揮発性の記憶装置であるが、これに限定されるものではない。
検索手段13は、検索クエリー(例えば、検索要求シーン等)の入力を受け付け、受け付けた検索クエリーに対して記憶手段12を参照し、検索クエリーに対応する検索結果を抽出して、その検索結果を出力する。例えば、検索手段13は、例えば検索クエリーとして入力した1又は複数の画像から算出した画像片ワードヒストグラムと中心ヒストグラムの類似したクラスタを抽出し、抽出したクラスタに属するシーンのみを検索対象として抽出する。そして、検索手段13は、例えば抽出したクラスタに属するシーンに対して画像間の類似度比較等により検索結果を出力する。これにより、本実施形態では、検索精度を維持したまま検索時間の短縮を図ることができる。
なお、図1の例において準備用映像集合、検索対象映像、及び検索クエリーは、予め記憶手段12内に記憶されていてもよい。その場合、特徴抽出手段11は、記憶手段12に記憶された準備用映像集合や検索対象映像等を取得して、検索対象データを生成する。また、検索手段13は、記憶手段12に記憶された検索クエリーを入力して検索処理を行う。
なお、本実施形態における画像処理装置10は、例えば特徴抽出手段11、記憶手段12、検索手段13のそれぞれ又は一部が異なる装置で構成されていてもよい。その場合、各装置は、例えばインターネットやLAN(Local Area Network)等に代表される通信ネットワークによりデータの送受信が可能な状態で接続される。また、画像処理装置10は、PC(Personal Computer)やサーバ、クラウドサーバ、タブレット端末等であるが、これに限定されるものではない。
<特徴抽出手段11の機能構成例>
次に、上述した特徴抽出手段11の機能構成例について図を用いて説明する。図2は、特徴抽出手段の機能構成の一例を示す図である。特徴抽出手段11は、サンプリング取得手段21と、分割ブロック設定手段22と、画像片ワード生成手段(ブロック特徴情報生成手段)23と、シーン生成手段24と、ヒストグラム生成手段25と、クラスタリング手段26と、特徴ベクトル取得手段27とを有するよう構成されている。
サンプリング取得手段21は、予め蓄積された準備用映像(サンプル映像)集合31から、所定の間隔(例えば、Tフレーム)毎にフレーム画像をサンプリングし、準備用フレーム画像集合32(P,・・・,PN_P)を出力する。所定の間隔(T)は、例えば予め設定された一定のフレーム間隔であるが、これに限定されるものではなく、例えば一定の時間間隔であってもよく、またシーンを構成する各ショット(例えば、映像の切り替わり)の先頭画像であってもよい。
分割ブロック設定手段22は、画像片ワード生成手段23により生成される1又は複数の画像片(画像ブロック)の大きさ(スケール、画像サイズ)、種類、及び数等のうち、少なくとも1つを設定する。例えば、分割ブロック設定手段22は、画像片の大きさを4×4画素、8×8画素、16×32画素の3種類と設定することができるが、画像片の大きさや数はこれに限定されるものではない。なお、画像ブロックの設定は、予めユーザが設定しておいてもよく、また入力される映像の解像度や映像のジャンル(例えば、ニュース番組、スポーツ、ドラマ)等に対応して自動的に設定されてもよい。更に、分割ブロック設定手段22は、映像に対して画像全体における「目立つ領域」を表す顕著性マップ(Saliency Map)に基づいて、画像片の大きさ、種類、及び数等のうち、少なくとも1つを設定してもよい。顕著性マップは、周辺領域と性質の異なる領域を「顕著性が高い(注意を引く)領域」として抽出するものである。
画像片ワード生成手段23は、例えば分割ブロック設定手段22により設定された条件等に基づいて、準備用フレーム画像集合32から所定のスケール毎に分割されたブロック毎に画像片ワード33(W)を生成する。なお、画像片ワードの具体的な生成手法については、後述する。
シーン生成手段24は、例えばユーザ等により入力手段等を用いて指定される検索対象映像34(V,・・・,VN_T)に対して、カット単位に自動分割し、カットの先頭フレームをカット代表画像とする。また、シーン生成手段24は、カットを所定数(Nc個)ずつまとめてそれぞれをシーンとする。これにより、シーン生成手段24は、検索対象シーン35(S,・・・,SN_S)を生成する。
なお、検索対象映像34とは、シーン毎の特徴情報を抽出する対象の映像を意味し、本実施形態では、一例として、検索手段13における検索対象となる映像を示している。また、上述したカット単位の自動分割とは、映像の区切りの最初のフレームの間隔であるが、これに限定されるものではない。
ヒストグラム生成手段25は、検索対象シーン35(S,・・・,SN_S)を入力し、画像片ワード33と対応付けて、その各シーンの画像片ワードヒストグラム36(H,・・・,HN_S)を出力する。なお、ヒストグラム生成手段25における各シーンの画像片ワードヒストグラム36の具体的な生成例については、後述する。
クラスタリング手段26は、各シーンの画像片ワードヒストグラム36を用いて画像片ワードヒストグラムの類似性に基づき、全シーンをクラスタリングする。類似性としては、画像片ワード同士の距離を求め、その距離が近い方が類似性が高いとして判断することができるが、これに限定されるものではない。
また、クラスタリング手段26は、距離に基づいてクラスタリングされた各クラスタ(C,・・・,CN_K)に対し、各クラスタの中心ヒストグラム(H',・・・,H'N_K)を取得する。中心ヒストグラムとは、例えばクラスタに属する全シーンの画像片ワードヒストグラムの平均を意味するが、これに限定されるものではない。クラスタリング手段26は、得られたクラスタ及び各クラスタの中心ヒストグラム37を記憶する。なお、クラスタリング手段26は、例えば予め設定された閾値(第1の閾値)を超えないようにクラスタリングしてもよく、また1つのクラスタに属するシーンの数が閾値(第2の閾値)を超えないようにクラスタリングしてもよいが、これに限定されるものではない。
特徴ベクトル取得手段27は、検索対象シーン35を用いて各シーンの各カットの代表画像の特徴ベクトルを計算する。なお、特徴ベクトル取得手段27において、特徴画像から計算される画像特徴ベクトルの一例としては、例えば画像全体のRGB平均値ベクトルや、画像を所定のブロックに分割し、各ブロックでRGB特徴ベクトルとエッジ方向ヒストグラムを計算し、それらを全ブロックで連結して生成したベクトル等があるが、これに限定されるものではなく、例えば複数の特徴ベクトルを組み合わせてもよい。
特徴ベクトル取得手段27は、各シーンの各カット代表画像の画像特徴ベクトル38を記憶する。
なお、図2の例における準備用映像集合31、準備用フレーム画像集合32、画像片ワード33、検索対象映像34、検索対象シーン35、各シーンの画像片ワードヒストグラム36、クラスタ及び各クラスタの中心ヒストグラム37、及び各シーンの各カット代表画像の画像特徴ベクトル38は、例えば上述した記憶手段12に記憶して管理される。
<画像片ワード抽出までの処理の一例>
上述した画面片ワード抽出までの処理の一例について、図を用いて説明する。図3は、画像片ワード抽出処理の一例を示すフローチャートである。図4は、画像片ワードの生成の流れを示す図である。
本実施形態において画像片は、画像中の内容との相関が強いと考えられる。そのため、H−MIPWは、映像内容の類似性によるシーン検索のための有効な動画特徴となり得る。したがって、H−MIPWを用いることで、ユーザからの要求シーンに対して高精度な検索を行うことができ、類似性の高いシーン等を取得することができる。
上述したブロック画像の種類を表す多重スケール画像片ワード(以下、必要に応じて「MIPWord」という)、及び所定のシーン単位のH−MIPWの算出例について、具体的に説明する。上述した画像片ワード生成手段23における多重スケール画像片ワード(MIPWord)を生成する手法について説明する。MIPWordは、例えば検索対象映像34からランダムに選択された準備用映像等を用いて生成する。
図4の例において、画像片ワード生成処理は、準備用映像集合から所定のフレーム画像をサンプリングする(S01)。サンプリングは、例えば一定間隔毎のフレーム画像を取得してもよく、映像区切り等に基づいてフレーム画像を取得してもよい。次に、画像片ワード生成処理は、サンプリングした各フレーム画像を1又は複数のスケールにブロック分割する(S02)。S02の処理では、例えばフレーム画像毎にスケール1(nW1×nH1個),・・・,スケールNd(nWNd×nHNd個)の複数のスケールで、それぞれブロック分割する。
次に、画像片ワード生成処理は、分割した各ブロック画像について、所定の特徴ベクトル(特徴情報)を算出する(S03)。所定の特徴ベクトルとしては、例えば色特徴やテクスチャ特徴等があるがこれに限定されるものではなく、他の特徴を用いてもよく、複数の特徴情報を組み合わせてもよい。色特徴としては、例えばRGB平均値ベクトルや色相ヒストグラム等がある。また、テクスチャ特徴としては、例えばフラクタルシーケンスやエッジ方向ヒストグラム、CS−LBP(Center Symmetric − Local Binary Pattern)特徴等がある。
次に、画像片ワード生成処理は、各スケールi(i=1,・・・,Nd)において、ブロック画像集合を特徴ベクトルの類似性に基づいてクラスタリング(分類分け)する(S04)。なお、S04の処理において、クラスタリング手法は、例えばK−Means法等の分割最適化法を用いることができるが、これに限定されるものではない。S04の処理により生成された各スケールiにおけるK個のクラスタをC[i,1],・・・,C[i,K]とする。
次に、画像片ワード生成処理は、例えば各クラスタC[i,k]の中心ベクトルw[i,k]を要素とする画像片ワードW={w[1,1],・・・,w[i,k],・・・,w[Nd,KNd]}を、多重スケール画像片ワード(MIPWord)として生成する(S05)。その後、画像片ワード生成処理は、生成された多重スケール画像片ワード(MIPWord)を記憶手段(例えば、画像片ワード)等に記憶する(S06)。
図4の例では、上述した図3に示す処理において、ブロック分割スケールNd=2の場合のMIPWord生成の流れを示している。図4に示すように、同一の準備用(サンプル)映像に対して複数のスケール(画像サイズ)でブロック分割し、それぞれのスケールで分割された画像片毎に特徴ベクトルに基づいてクラスタリングして、画像片ワードを生成する。
なお、準備用映像は、例えば検索対象映像や検索要求シーン等のジャンル(例えば、ニュース、各種のスポーツ(サッカー、野球)等)が予め決まっている場合には、同一のジャンルの準備用映像にすることが好ましいが、これに限定されるものではない。また、スケールは、例えば上述した分割ブロック設定手段22により任意のスケール、種類、数に設定される。また、スケールは、入力される映像の解像度等に応じて任意に設定されてもよい。
上述した図3に示す処理は、例えば図2に示すサンプリング取得手段21、分割ブロック設定手段22、及び画像片ワード生成手段23等によって行われる。
<特徴抽出処理>
次に、上述した画像片ワード33等を用いて、検索対象映像34から特徴情報(例えば、クラスタ及び各クラスタの中心ヒストグラム37、各シーンの各カット代表画像の画像特徴ベクトル38)の取得例について、図を用いて説明する。
図5は、特徴抽出処理の一例を示すフローチャートである。図5の例において、特徴抽出処理は、検索対象映像34(V,・・・,VN_T)の各映像を、例えば連続するフレーム画像間の輝度の差分情報等から得られるカット単位に自動分割し、例えばカットの先頭フレームをカット代表画像とする(S11)。なお、カット単位の分割手法は、上述の例に限定されるものではない。
次に、特徴抽出処理は、S11の処理で得られたカットをN_C個ずつまとめてそれぞれをシーンとする(S12)。S12の処理で生成された検索対象シーンをS,・・・,SN_Sとする。
次に、特徴抽出処理は、検索対象シーンS,・・・,SN_Sそれぞれの画像片ワードヒストグラムを計算する(S13)。S13の処理で生成された画像片ワードヒストグラムをH,・・・,HN_Sとする。次に、特徴抽出処理は、画像片ワードヒストグラムH,・・・,HN_Sをヒストグラムの類似性(距離の近さ)に基づきN_K個のクラスタへクラスタリングする(S14)。
なお、本実施形態におけるクラスタリングは、例えば予め設定されたクラスタ数になるようにクラスタリングしてもよく、1クラスタ内の個数が所定数以上にならないようにクラスタリングしてもよいが、これらに限定されるものではなく、任意に設定することができる。また、入力される検索対象映像の種類や映像数に応じてクラスタ数を設定してもよい。S14の処理により生成されたクラスタをC,・・・,CN_Kとする。
次に、特徴抽出処理は、クラスタC,・・・,CN_Kそれぞれの中心ヒストグラム(例えば、クラスタに属する全シーンの画像片ワードヒストグラムの平均)を取得する(S15)。S15の処理により得られる中心ヒストグラムをH',・・・,H'N_Kとする。また、特徴抽出処理は、S11の処理で得られた各シーンi(i=1,・・・,N_S)のカット代表画像P[i,1],・・・,P[i,N_C]の画像特徴ベクトルF[i,1],・・・,F[i,N_C]を計算する(S16)。なお、S16の処理で計算される特徴ベクトルは、例えば画像全体のRGB平均値ベクトルや、画像をブロックに分割し、各ブロックでRGB特徴ベクトルとエッジ方向ヒストグラムを計算し、それらを全ブロックで連結して生成したベクトル等を用いることができるが、これに限定されるものではない。
次に、特徴抽出処理は、上述の各処理で得られたシーンをクラスタリングしたクラスタC,・・・,CN_K、各クラスタの中心ヒストグラムH',・・・,H'N_K、及び各シーンの各カット代表画像の画像特徴ベクトルを記憶手段12に記憶する。
上述した図5に示す処理は、例えば図2に示すシーン生成手段24、ヒストグラム生成手段25、クラスタリング手段26、及び特徴ベクトル取得手段27等によって行われる。
<S14:距離の算出例>
次に、上述したS14の処理における距離の算出例について、図を用いて説明する。図6は、距離Dの算出例を示す図である。距離の算出では、図6の例に示すように、2つのヒストグラムを比較する場合に、各要素を識別する変数の初期値i=1とし、第1の画像片ワードヒストグラムHと、第2の要求シーンの画像片ワードヒストグラムHとの距離Dを算出する。
本実施形態では、図6に示すように、第1と第2のそれぞれの画像片ワードヒストグラムH、Hのベクトルの距離Dを要素毎に求めることで類似性を判断する。つまり、距離の算出は、お互いの同じ要素単位で順番にベクトルの距離Dが算出される。ここで、距離Dが小さい方が類似度が高いため、例えば各要素の距離の合計の距離Dが予め設定された閾値より小さいか否かを判断し、小さい場合に同一のクラスタに分類する。
また、本実施形態では、例えば予めクラスタ数や1クラスタ内における検索対象シーンの数が設定されている場合に、設定された数に対応させて、算出した距離Dの値に基づきクラスタリングすることができる。
<検索手段13の機能構成例>
次に、上述した検索手段13における機能構成例について図を用いて説明する。図7は、検索手段の機能構成の一例を示す図である。図7の例において、検索手段13は、ヒストグラム生成手段41と、検索手段42と、抽出手段43と、特徴ベクトル取得手段44と、類似度算出手段45と、出力手段46とを有するよう構成されている。
ヒストグラム生成手段41は、ユーザ等から入力される検索クエリーの一例であるクエリー画像系列51(Q,・・・,QN_Q)に対して、上述した特徴抽出手段11におけるヒストグラム生成手段25と同様な手法を用いてヒストグラムを生成する。ここで、クエリー画像系列51とは、例えばユーザが選択した1又は複数のカット画像(検索要求シーン)等を示すが、これに限定されるものではない。ヒストグラム生成手段41は、クエリー画像系列51(Q,・・・,QN_Q)に対する画像片ワードヒストグラム52(H)を出力する。
検索手段42は、クエリー画像系列51の画像片ワードヒストグラム52を用いて、上述した特徴抽出手段11で取得したクラスタ及び各クラスタの中心ヒストグラム37とを参照して対応する検索対象シーンを絞り込む。検索手段42は、検索結果により絞り込まれた検索対象シーン53(S',・・・,S'N_S')を出力する。
抽出手段43は、絞り込まれた検索対象シーン53(S',・・・,S'N_S')を入力し、上述した特徴抽出手段11で得られた各シーンの各カット代表画像の画像特徴ベクトル38を用いて、絞り込まれた検索対象シーンの各カット代表画像の画像特徴ベクトル54を出力する。
特徴ベクトル取得手段44は、ユーザ等により入力されたクエリー画像系列51(Q,・・・,QN_Q)に対する特徴ベクトルを取得し、クエリー画像系列51のそれぞれの画像特徴ベクトル55を出力する。なお、特徴ベクトル取得手段44における画像特徴ベクトルは、例えば上述した特徴ベクトル取得手段27における手法と同様の手法を用いることができるが、これに限定されるものではない。
類似度算出手段45は、絞り込まれた検索対象シーンの各カット代表画像の画像特徴ベクトル54と、クエリー画像系列の画像特徴ベクトル55との類似度を算出する。
出力手段46は、類似度算出手段45により得られる類似度に基づいて、例えば類似度が最大の映像を検索結果として出力する。また、出力手段46は、類似度が予め設定された閾値より高い映像を検索結果として出力してもよく、類似度の上位から所定数の映像を検索結果として出力してもよい。上述した各出力条件については、例えば検索対象映像34のジャンル等に応じて画像処理装置側で予め設定されていてもよく、ユーザが任意に設定してもよい。
なお、図7の例におけるクエリー画像系列51、画像片ワードヒストグラム52、絞り込まれた検索対象シーン53、検索対象シーンの各カット代表画像の画像特徴ベクトル54、及びクエリー画像系列の画像特徴ベクトル55は、例えば上述した記憶手段12に記憶して管理される。
<検索手段13における検索処理例>
次に、検索手段13における検索処理例について、フローチャートを用いて説明する。図8は、検索処理の一例を示すフローチャートである。図8の例において、検索処理は、入力されたクエリー画像系列51(Q,・・・,QN_Q)の画像片ワードヒストグラム52(H)を算出する(S21)。
次に、検索処理は、画像片ワードヒストグラム52(H)と、特徴抽出処理で生成したクラスタ(C,・・・,CN_K)の中心ヒストグラム(H',・・・,H'N_K)のそれぞれとの距離を計算する(S22)。なお、距離の算出は、例えば上述したクラスタリング処理における距離の算出例等を用いることができるが、S22の処理の場合には、比較するヒストグラムが、画像片ワードヒストグラムHと、特徴抽出処理で生成したクラスタの中心ヒストグラム(H',・・・,H'N_K)となる。
次に、検索処理は、算出した距離が閾値以下のクラスタか否かを判断し(S23)、閾値以下のクラスタに属する場合(S23において、YES)、そのクラスタに含まれるシーンのみを検索対象シーンとして抽出する(S24)。なお、この処理は、各クラスタの中心ヒストグラムとの比較により得られるため、この絞り込まれたN_S'個(N_S'<N_S)の検索対象シーンは、S',・・・,S'N_S'となる。
次に、検索処理は、クエリー画像系列51(Q,・・・,QN_Q)とシーンS'との類似度S(Q,・・・,QN_Q,S')を計算する(S25)。なお、S25の処理では、例えば特徴ベクトル取得手段44により得られるクエリー画像系列51(Q,・・・,QN_Q)の画像特徴ベクトル55等を用いて計算される。また、S25の処理は、iが1からN_Sになるまで繰り返し行われる。S25の処理については、後述する。
次に、検索処理は、S25の結果から、算出した類似度の高い上位N_R個のシーンを検索結果として出力する(S26)。なお、検索結果が複数ある場合には、シーンを生成した日時を基準に昇順又は降順に並べたものを出力してもよく、類似度を基準に昇順又は降順に並べたものを出力してもよいが、これに限定されるものではない。また、検索結果としてシーンそのものを出力してもよく、シーンに関連するサムネイル画像やテキスト情報、又はそれらを組み合わせた情報を検索結果として出力してもよい。
上述した図8に示す処理は、例えば図7に示すヒストグラム生成手段41、検索手段42、抽出手段43、特徴ベクトル取得手段44、類似度算出手段45、及び出力手段46等によって行われる。
<S25:類似度算出処理例>
次に、上述した類似度算出処理例について、フローチャートを用いて具体的に説明する。図9は、類似度算出処理の一例を示すフローチャートである。図9の例において、類似度算出処理は、i=1,・・・,N_Sまで繰り返し処理を行う。
類似度算出処理は、まずS'のカット代表画像をP'[i,1]・・・,P'[i,N_C]とし(S31)、次に、s(Q,S')=max{s'(Q,P'[i,1]),・・・,s'(Q,P'[i,N_C])}を計算する(S32)。このとき、i=1,・・・,N_S,k=1,・・・,N_Qとして計算される。
ここで、上述したS32の処理の説明において、s'(A,B)は、画像AとBとの画像特徴ベクトルの類似度を表し、max{a1,a2,・・・,aN}は、a1,a2,・・・,aNの中の最大値を表す。また、類似度は、対象画像のそれぞれの画像特徴ベクトルの各要素同士を比較し、それぞれの要素の距離等に応じて類似度を設定することができる。この場合、距離が近い方が類似度が高いことになる。
次に、類似度算出処理は、例えば以下に示す(1)式を用いて類似度を計算する(S33)。
Figure 2015130041
上述した検索手段により、Q,・・・,QN_Qと類似度の高いN_R個のシーンを検索結果として出力することができる。なお、本実施形態における類似度の計算式は、上述した(1)式に限定されるものではない。
ここで、図10は、類似度計算の具体例を説明するための図である。図10では、一例としてクエリーの複数画像A,B,Cと、絞り込まれた検索対象シーンの一例であるシーンa,b,cとの類似度を計算する。この場合、本実施形態では、図10に示すように、それぞれの画像の各組み合わせにおける類似度を取得する。
また、本実施形態では、例えば図10に示すように、各類似度の最大を加算し、その値の平均を取ることで、複数画像とシーン間との画像を類似度を算出する。なお、類似度の算出手法については、これに限定されるものではない。
<本実施形態における画像処理の具体例>
図11は、本実施形態における画像処理の具体例を説明するための図である。本実施形態では、例えば「これらの画像と類似したカットを含むシーンを見つけたい」という目的で入力された複数の画像(クエリー画像系列)に対し、画像片ワードヒストグラムの類似性により検索対象シーンを絞り込み、絞り込まれた検索対象シーンを用いて最終的な検索結果を出力することで、従来よりも高速な検索を実現する。
そのため、本実施形態では、図11に示すように、まず前処理(特徴抽出処理)として、例えば検索対象シーン35の各映像ファイルの一定区間毎(シーン)の画像片ワードヒストグラムを抽出し、画像片ワードヒストグラムの類似性でクラスタリング処理を行う。また、特徴抽出処理は、各クラスタの中心ヒストグラム(例えば、全ての要素の画像片ワードヒストグラムの平均)を算出する。つまり、図11に示すように、複数のクラスタ及び各クラスタの中心ヒストグラム37−1〜37−nが生成される。
そして、本実施形態では、検索処理として、まず、図11に示すクエリーとして入力された複数の画像(クエリー画像系列)から画像片ワードヒストグラムを算出し、そのヒストグラムと類似した中心ヒストグラムを持つクラスタを複数のクラスタの中から絞り込む。また、検索処理では、絞り込まれたクラスタに属するシーン(絞り込まれた検索対象シーン53)のみを用いて画像単位で類似度を計算し、計算した類似度を基準に検索結果を出力する。
これにより、本実施形態では、例えば図10に示すようなクエリーの複数画像とシーンとの類似度の算出を行う場合に、検索対象シーンの数(量)を、上述したクラスタリング処理と、得られたクラスタを用いた絞り込みとにより、ある程度の数に減らすことができる。そのため、検索精度が落ちることがなく、より高速な検索を実現することができる。また、本実施形態により、H−MIPWを用いてクラスタ分類することで、映像内容の類似性に基づいた高精度なシーン検索を実現することができる。
<実行プログラム>
ここで、上述した画像処理装置10は、例えばCPU(Central Processing Unit)、RAM等の揮発性の記憶装置、ROM等の不揮発性の記憶装置、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータ等を表示する表示装置、並びに外部と通信するためのインタフェース装置を備えたコンピュータによって構成することができる。
したがって、画像処理装置10が有する上述した各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(画像処理プログラム)を生成し、例えば汎用のPCやサーバ等にそのプログラムをインストールすることで、ハードウェア資源とソフトウェアとが協働して本実施形態における画像処理等を実現することができる。
上述したように本実施形態によれば、映像検索の高速化を実現することができる。また、本実施形態によれば、映像中に含まれるシーン毎の特徴情報を適切に取得することができる。また、本実施形態によれば、特徴情報に基づく適切なシーンの分類(クラスタリング)により、類似度を迅速に取得することができる。したがって、シーン全体の画像特徴の類似性に基づいた高精度なシーン検索を、従来手法より高速に実現することができる。
以上、好ましい実施形態について詳述したが、開示の技術は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された開示の技術の要旨の範囲内において、種々の変形、変更が可能である。
10 画像処理装置
11 特徴抽出手段
12 記憶手段
13,42 検索手段
21 サンプリング取得手段
22 分割ブロック設定手段
23 画像片ワード生成手段(ブロック特徴情報生成手段)
24 シーン生成手段
25 ヒストグラム生成手段
26 クラスタリング手段
27 特徴ベクトル取得手段
31 準備用映像集合
32 準備用フレーム画像集合
33 画像片ワード
34 検索対象映像
35 検索対象シーン
36 各シーンの画像片ワードヒストグラム
37 クラスタ及び各クラスタの中心ヒストグラム
38 各シーンの各カット代表画像の画像特徴ベクトル
41 ヒストグラム生成手段
43 抽出手段
44 特徴ベクトル取得手段
45 類似度算出手段
46 出力手段
51 クエリー画像系列
52 クエリー画像系列の画像片ワードヒストグラム
53 絞り込まれた検索対象シーン
54 検索対象シーンの各カット代表画像の画像特徴ベクトル
55 クエリー画像系列の画像特徴ベクトル

Claims (6)

  1. 映像に含まれる各シーンの特徴情報を抽出する画像処理装置において、
    サンプル映像から所定のフレーム画像をサンプリングするサンプリング取得手段と、
    前記サンプリング取得手段により得られる各フレーム画像に対して、1又は複数のスケール毎にそれぞれ分割し、分割したブロック毎の特徴情報を生成するブロック特徴情報生成手段と、
    前記特徴情報を生成する対象映像からシーンを分割するシーン生成手段と、
    前記シーン生成手段により分割されたシーン毎に、前記ブロック特徴情報生成手段により得られるブロックを用いて、ブロック毎の出現比率に基づくヒストグラムを生成するヒストグラム生成手段と、
    前記ヒストグラム生成手段により生成された各シーンのヒストグラムに基づいてクラスタリングするクラスタリング手段とを有することを特徴とする画像処理装置。
  2. 前記ヒストグラム生成手段は、ユーザから検索要求として入力されたクエリー画像系列に対してブロック単位のヒストグラムを生成し、
    生成された前記クエリー画像系列を用いて、前記ヒストグラム生成手段で生成されたヒストグラムを参照し、対応するシーンを検索する検索手段とを有することを特徴とする請求項1に記載の画像処理装置。
  3. 前記検索手段は、
    前記クエリー画像系列に対応するヒストグラムと、前記クラスタリング手段により得られる各クラスタのヒストグラムとを比較してクラスタの絞り込みを行い、絞り込まれたクラスタに属するシーンに含まれる画像と、前記クエリー画像系列とを比較することで、前記対応するシーンを検索することを特徴とする請求項2に記載の画像処理装置。
  4. 前記クラスタリング手段は、クラスタリングされたクラスタ毎に、クラスタに属する全シーンの特徴情報の平均からなる中心ヒストグラムを取得し、
    前記検索手段は、前記クエリー画像系列に対応するヒストグラムと、前記中心ヒストグラムとの類似度に基づいて、前記クラスタの絞り込みを行うことを特徴とする請求項3に記載の画像処理装置。
  5. 前記特徴情報は、色特徴又はテクスチャ特徴を含むことを特徴とする請求項1乃至4の何れか1項に記載の画像処理装置。
  6. コンピュータを、請求項1乃至5の何れか1項に記載の画像処理装置が有する各手段として機能させるための画像処理プログラム。
JP2014000984A 2014-01-07 2014-01-07 画像処理装置及び画像処理プログラム Pending JP2015130041A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014000984A JP2015130041A (ja) 2014-01-07 2014-01-07 画像処理装置及び画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014000984A JP2015130041A (ja) 2014-01-07 2014-01-07 画像処理装置及び画像処理プログラム

Publications (1)

Publication Number Publication Date
JP2015130041A true JP2015130041A (ja) 2015-07-16

Family

ID=53760724

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014000984A Pending JP2015130041A (ja) 2014-01-07 2014-01-07 画像処理装置及び画像処理プログラム

Country Status (1)

Country Link
JP (1) JP2015130041A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087185B2 (en) 2018-05-25 2021-08-10 Samsung Electronics Co., Ltd. Image processing method and apparatus with neural network adjustment
CN115236627A (zh) * 2022-09-21 2022-10-25 深圳安智杰科技有限公司 一种基于多帧多普勒速度扩维的毫米波雷达数据聚类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341940A (ja) * 2003-05-16 2004-12-02 Fujitsu Ltd 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
JP2009015658A (ja) * 2007-07-05 2009-01-22 Yahoo Japan Corp 広告情報の呈示方法及び呈示装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004341940A (ja) * 2003-05-16 2004-12-02 Fujitsu Ltd 類似画像検索装置、類似画像検索方法、および類似画像検索プログラム
JP2009015658A (ja) * 2007-07-05 2009-01-22 Yahoo Japan Corp 広告情報の呈示方法及び呈示装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
望月 貴裕: ""多重スケール画像片ワードヒストグラムを用いた映像検索 映像内容に基づいたシーン検索のための動画特徴", 画像ラボ, vol. 第24巻,第11号, JPN6017035716, 10 November 2013 (2013-11-10), JP, pages 60 - 67, ISSN: 0003795163 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11087185B2 (en) 2018-05-25 2021-08-10 Samsung Electronics Co., Ltd. Image processing method and apparatus with neural network adjustment
US11636698B2 (en) 2018-05-25 2023-04-25 Samsung Electronics Co., Ltd. Image processing method and apparatus with neural network adjustment
CN115236627A (zh) * 2022-09-21 2022-10-25 深圳安智杰科技有限公司 一种基于多帧多普勒速度扩维的毫米波雷达数据聚类方法
CN115236627B (zh) * 2022-09-21 2022-12-16 深圳安智杰科技有限公司 一种基于多帧多普勒速度扩维的毫米波雷达数据聚类方法

Similar Documents

Publication Publication Date Title
US10896164B2 (en) Sample set processing method and apparatus, and sample querying method and apparatus
JP5503046B2 (ja) 形状に基づく画像検索
CN104994426B (zh) 节目视频识别方法及系统
CN108881947B (zh) 一种直播流的侵权检测方法及装置
US20200334486A1 (en) System and a method for semantic level image retrieval
US9430718B1 (en) Efficient local feature descriptor filtering
WO2019136897A1 (zh) 图像处理方法、装置、电子设备及存储介质
WO2017181892A1 (zh) 前景分割方法及装置
CN112465020B (zh) 训练数据集的生成方法及装置、电子设备、存储介质
Memon et al. Content based image retrieval based on geo-location driven image tagging on the social web
US10671663B2 (en) Generation device, generation method, and non-transitory computer-readable recording medium
KR20170126300A (ko) 이미지 상호간의 매칭을 판단하는 방법, 장치 및 컴퓨터 프로그램
JP5116017B2 (ja) 動画検索方法およびシステム
Salmi et al. Content based image retrieval based on cell color coherence vector (Cell-CCV)
JP2015130041A (ja) 画像処理装置及び画像処理プログラム
CN110209895B (zh) 向量检索方法、装置和设备
CN108304453B (zh) 一种视频相关搜索词的确定方法及装置
JP6254771B2 (ja) 画像処理装置及び画像処理プログラム
JP5959446B2 (ja) コンテンツをバイナリ特徴ベクトルの集合で表現することによって高速に検索する検索装置、プログラム及び方法
JP6034702B2 (ja) 画像処理装置及び画像処理プログラム
JP2012234395A (ja) 構図データ生成装置及び構図データ生成プログラム
Castelo-Fernández et al. Automatic video summarization using the optimum-path forest unsupervised classifier
KR102054211B1 (ko) 이미지 쿼리 기반의 영상 검색 방법 및 시스템
CN111797765A (zh) 图像处理方法、装置、服务器及存储介质
JP2017021606A (ja) 動画像検索方法、動画像検索装置及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161201

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180515