画像からカットチェンジを検出する処理は、画像の分析、符号化、検索等を行う場合に有用である。
ここで、カットとは、空間的に連続するひとまとまりの画像区間(画像クリップ)を意味し、カットチェンジは、カットの切り替え点、すなわち、時間的若しくは空間的に不連続な画像クリップどうしが連結された境界である画像の変化点のことを意味する。
なお、カットチェンジは、ショットチェンジ、シーンチェンジ、画像変化点等と称される場合があるが、本明細書においては、カットチェンジと称する。
ところで、従来のカットチェンジの検出方法として、統計量差分法、画素差分法、符号化データ法、エッジ法等が知られているが、最も精度がよいと認識されているのは、ヒストグラム差分法である。
ヒストグラム差分法においては、ヒストグラムの差分値が用いられる。
ここで、ヒストグラムは、あるフレームの画像の各ピクセルを、その輝度または色の画素値に対応して、適当な階調数(一般には、16乃至64階調がよく用いられる)に分割された各要素(ビン)に投票することで、その画像の輝度または色の頻度分布を求めたものである。
ヒストグラム差分法には、単純ヒストグラム差分法と分割ヒストグラム差分法がある。
単純ヒストグラム差分法においては、処理対象とする、例えば2フレームの画像のそれぞれのヒストグラムどうしの違いが評価量として算出される(例えば、非特許文献1参照)。
また、単純ヒストグラム差分法においては、一般に、ヒストグラムどうしの違いとして、ヒストグラムの同じビンどうしの差分値のヒストグラム全体に関する絶対和(以下、適宜、ヒストグラム差分絶対和という)が評価量として算出される。
分割ヒストグラム差分法においては、処理対象とする、例えば2フレームの画像のそれぞれの画像全体が所定数のブロック(例えば、非特許文献1では、16個のブロック)に分割され、各ブロックのヒストグラムどうしの違いが求められ、そのヒストグラムどうしの違いが小さい方から所定数のブロックのみが、評価量の算出に用いられる(例えば、非特許文献1及び2参照)。
ところで、カットチェンジは、一般に、上述したような隣り合う画像の間に生じることが多く、かかるカットチェンジを、以下、適宜、通常カットチェンジという。これに対して、前後の画像が混合されたような画像内で、2つのカットが連結されるようなカットチェンジもある。これを、ブレンドカットチェンジという。
通常カットチェンジの検出方法では、上述したように、処理対象とする2つの画像どうしの類似度が評価量として計算され、その類似度が所定の閾値よりも低い場合に、すなわち、非類似度が所定の閾値よりも高い場合に、2つの画像の間の画像の変化がカットチェンジであると判定される。
しかし、このような方法では、ブレンドカットチェンジを正確に検出することが困難である。すなわち、通常カットチェンジの例を示している図1において、フレームF61乃至フレームF63は、時間的に隣接する一連の画像であり、フレームF61から順番に2つずつの画像がカットチェンジを検出する処理対象とされる。すなわち、最初に、フレームF61とフレームF62が処理対象とされ、次に、フレームF62とフレームF63が処理対象とされる。
図1において、人が撮影対象となっているフレームF61と家が撮影対象となっているフレームF62の類似度が低くなっており、その類似度が所定の閾値以下であれば、フレームF61とフレームF62の間の画像の変化が、通常カットチェンジであると判定される。また、家が撮影対象となっているフレームF62とやはり家が撮影対象となっているフレームF63の類似度が高くなっており、その類似度が閾値以下でなければ、カットチェンジではないと判定される。
これに対して、ブレンドカットチェンジの例を示している図2において、フレームF71乃至フレームF73は、時間的に隣接する一連の画像であり、フレームF71から順番に2つずつの画像がカットチェンジ検出の処理対象とされる。すなわち、最初に、フレームF71とフレームF72が処理対象とされ、次に、フレームF72とフレームF73が処理対象とされる。
人と家が撮影対象となっているフレームF72は、人が撮影対象である前のフレームF71と、家が撮影対象である後のフレームF73が混合したような画像となっており、フレームF72内で2つのカットが連結されているので、フレームF72はブレンドカットチェンジとなっている。
このようなブレンドカットチェンジは、例えば、カットチェンジが同一画像内のフィールド間で生じる場合(かかるカットチェンジを、以下、適宜、フィールドカットチェンジという)、画像フィルタにより隣接する画像どうしが混合された場合、符号化若しくは復号化時に隣接する画像どうしが混合された場合、編集時に隣接する画像どうしが混合された場合等に生じる。
図2において、フレームF72は、フレームF71またはF73と類似する部分をそれぞれ含んでおり、フレームF72はフレームF71とフレームF73のどちらに対しても類似度が高くなっているので、隣り合う2つの画像どうしの類似度に基づいて、カットチェンジを検出する方法を採用しても、ブレンドカットチェンジを検出することは困難である。
ブレンドカットチェンジの1つであるフィールドカットチェンジを検出する方法が、特許文献1に提案されている。特許文献1の方法では、隣接する2つの画像どうしの類似度ではなく、1フレームおいた2つのフレームの画像どうしの類似度に基づいて、カットチェンジが検出される。
しかしながら、特許文献1の方法を用いた場合、各フレームの画像が撮影対象が早く動く画像である場合には、カットチェンジが検出できないおそれがある。
例えば、図3において、フレームF81乃至フレームF83は、時間的に隣接する一連の画像であり、人が家から画面内の左方向に次第に離れていく画像を表している。フレームF81乃至フレームF83の画像は、人が画面内の左方向に高速に移動している画像であり、カットチェンジは生じていない。
図3において、人の全部と家の左側の一部を含む画像のフレームF81と、人の全部と家の左側のより広い範囲を含む画像のフレームF82の類似度、並びに、そのフレームF82と人の右側半分と家の全部を含む画像のフレームF83の類似度はそれぞれ高くなっているが、人の動きが早いので、人の全部と家の左側の一部を含む画像のフレームF81と、人の右側半分と家の全部を含む画像のフレームF83の類似度は低くなっている。
上述した特許文献1の方法を用いた場合、カットチェンジを検出する処理対象とするフレームF81乃至フレームF83のうちの、例えば、1つおきのフレームF81とフレームF83の類似度を求めるとすると、フレームF81とフレームF83の類似度は低いので、フレームF81乃至フレームF83の間の画像の変化がブレンドカットチェンジと誤って判定されてしまうおそれが高い。
また、特許文献2には、符号化データを用いて、フィールドカットチェンジを検出する方法が提案されている。しかし、この方法は、特定の符号化方式の符号化画像に特有の特徴量を利用するため、その符号化方式を用いて符号化された画像にしか適用できない。
特許文献3には、処理対象とする2つの画像のピクセルどうしの差分値の画像全体に関する絶対和(以下、適宜、差分絶対和という)を求めるとともに、さらに、差分絶対和どうしの差分値を求めることにより、通常カットチェンジとフィールドカットチェンジを区別して検出する方法が提案されている。しかしながら、この方法を用いた場合でも、ブレンドカットチェンジ(フィールドカットチェンジを含む)を精度よく検出することは困難である。
情報処理学会論文誌,長坂晃朗,田中譲,1992年4月,Vol.33,No.4,P.543-550
Comparison of Video Shot Boundary Detection Techniques, John S. Boreczky, Lawrence A. Rowe. Storage and Retrieval for Image and Video Databases (SPIE) (1996) p170-179
特開2000−295624号公報
特開2002−64823号公報
特開2000−324499号公報
以下に本発明の実施の形態を説明するが、本発明の構成要件と、明細書又は図面に記載の実施の形態との対応関係を例示すると、次のようになる。この記載は、本発明をサポートする実施の形態が、明細書又は図面に記載されていることを確認するためのものである。従って、明細書又は図面中には記載されているが、本発明の構成要件に対応する実施の形態として、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その構成要件に対応するものではないことを意味するものではない。逆に、実施の形態が構成要件に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その構成要件以外の構成要件には対応しないものであることを意味するものでもない。
本発明の一側面のプログラムまたは検出方法は、
画像のカットチェンジを検出する検出処理をコンピュータに実行させるプログラムまたは検出方法において、
第1の画像、第2の画像、及び第3の画像の特徴を抽出し(例えば、図6のステップS601)、
前記第1の画像、前記第2の画像及び前記第3の画像のうちの2つの画像の特徴の類似度を算出し(例えば、図6のステップS602)、
前記第1の画像、前記第2の画像及び前記第3の画像の縮小画像を生成し(例えば、図6のステップS603)、
前記第2の画像に対して時間的に前または後に位置する前記第1の画像と前記第3の画像の縮小画像の合成画像を生成し(例えば、図6のステップS604)、
前記第2の画像の縮小画像と前記合成画像の類似度を算出し(例えば、図6のステップS605)、
前記第1の画像、前記第2の画像及び前記第3の画像のうちの2つの画像の特徴の類似度、並びに前記第2の画像の縮小画像と前記合成画像の類似度に基づいて、前記第1の画像と前記第3の画像の間に、カットチェンジが存在するかを判定する(例えば、図6のステップS606)
ステップを備える。
本発明の一側面の検出装置は、
画像のカットチェンジを検出する検出装置(例えば、図4のパーソナルコンピュータ1)において、
第1の画像、第2の画像、及び第3の画像の特徴を抽出する特徴抽出手段(例えば、図5の特徴抽出部811)と、
前記第1の画像、前記第2の画像及び前記第3の画像のうちの2つの画像の特徴の類似度を算出する第1の類似度算出手段(例えば、図5の類似度算出部813)と、
前記第1の画像、前記第2の画像及び前記第3の画像の縮小画像を生成する縮小画像生成手段(例えば、図5の縮小画像生成部814)と、
前記第2の画像に対して時間的に前または後に位置する前記第1の画像と前記第3の画像の縮小画像の合成画像を生成する合成画像生成手段(例えば、図5の合成画像生成部816)と、
前記第2の画像の縮小画像と前記合成画像の類似度を算出する第2の類似度算出手段(例えば、図5の類似度算出部817)と、
前記第1の画像、前記第2の画像及び前記第3の画像のうちの2つの画像の特徴の類似度、並びに前記第2の画像の縮小画像と前記合成画像の類似度に基づいて、前記第1の画像と前記第3の画像の間に、カットチェンジが存在するかを判定する判定手段(例えば、図5の判定部818)と
を備える。
以下、図面を参照して本発明を適用した実施の形態について説明する。
図4は、本発明を適用した検出装置の一実施の形態の構成例を示すブロック図である。
図4において、検出装置としてのパーソナルコンピュータ1は、CPU(Central Processing Unit)21,ROM(Read Only Memory)22,RAM(Random Access Memory)23、バス24、入出力インタフェース25、入力部26、出力部27、記憶部28、通信部29、ドライブ30、及びリムーバブルメディア31から構成される。
バス24には、CPU21、ROM22、RAM23、および入出力インタフェース25が接続され、入出力インタフェース25には、バス24、入力部26、出力部27、記憶部28、通信部29、及びドライブ30が接続されている。
CPU21は、ROM22または記憶部28に記憶されたプログラムに従って各種の処理を実行する。また、CPU21は、入力部26から入力される指令に対応して各種の処理を実行し、また、処理の結果を出力部27に出力する。
ROM22は、CPU21が実行するプログラム等を記憶する。
RAM23は、CPU21が実行するプログラムやデータなどを適宜記憶する。また、RAM23は、例えば、外部から入力される画像を一時的に記憶するバッファを有する。
入力部26は、キーボード、マウス、マイクロホン等で構成される。
出力部27は、ディスプレイ、スピーカ等で構成される。
記憶部28は、例えばハードディスクからなり、CPU21が実行するプログラムや各種のデータを記憶する。
通信部29は、インターネットやローカルエリアネットワークなどのネットワークを介して外部の装置と通信する。
なお、通信部29を介してプログラムが取得され、記憶部28に記憶されてもよい。
ドライブ30は、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア31が装着されたとき、それらを駆動し、そこに記録されているプログラムやデータなどを取得する。取得されたプログラムやデータは、必要に応じて記憶部28に転送され、記憶される。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図4に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア31、ROM22や、記憶部28を構成するハードディスクなどにより構成される。プログラム記録媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインタフェースである通信部29を介して、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の通信媒体を利用して行われる。
また、パーソナルコンピュータ1のCPU21は、ROM22または記憶部28に記憶されたプログラムを実行することにより、カットチェンジを検出するカットチェンジ検出装置として機能する。
図5は、パーソナルコンピュータ1のソフトウェアにより構成されるカットチェンジ検出装置51の実施の形態の構成を示すブロック図である。
図5において、カットチェンジ検出装置51は、外部からの画像を、例えば、RAM23のバッファから読み出すことにより入力し、カットチェンジ検出処理を行う。
図5において、カットチェンジ検出装置51は、特徴抽出部811、特徴量バッファ812、類似度算出部813、縮小画像生成部814、縮小画像バッファ815、合成画像生成部816、類似度算出部817、及び判定部818から構成される。
特徴抽出部811には、カットチェンジ検出装置51に入力された画像が供給される。
いま、カットチェンジ検出装置51に入力された直近の3つの画像、すなわち、時間順に、前々の画像、前の画像、または現画像を、それぞれ、第1の注目画像、第2の注目画像、または第3の注目画像とする。
特徴抽出部811は、そこに供給される第1乃至第3の注目画像のそれぞれの特徴量を抽出し、特徴量バッファ812に供給する。
かかる特徴量として、例えば、図8と図9を参照して後述する輝度または色のヒストグラムが採用されるが、この他、一般的なカットチェンジの検出方法のものも採用することができ、例えば、非特許文献1及び非特許文献2に示されているように、輝度の平均値若しくは分散値、符号化で得られるDCT係数若しくは動きベクトル、エッジ検出で得られるエッジ等を用いることができる。
特徴量バッファ812は、特徴抽出部811から供給される第1乃至第3の注目画像の特徴量を保存する。また、特徴量バッファ812は、少なくとも直近の3つの画像、つまり、第1乃至第3の注目画像も保存する。
類似度算出部813は、特徴量バッファ812から、第1乃至第3の注目画像を読み出し、第1の注目画像の特徴量と第3の注目画像の特徴量の類似度(以下、適宜、類似度1という)である第1の類似度1、第1の注目画像の特徴量と第2の注目画像の特徴量の類似度1である第2の類似度1、及び第2の注目画像の特徴量と第3の注目画像の特徴量の類似度1である第3の類似度1をそれぞれ算出し、その第1乃至第3の類似度1を判定部818にそれぞれ供給する。
かかる類似度1として、例えば、図10を参照して後述するヒストグラム類似度が採用されるが、この他、一般的なカットチェンジの検出方法で用いるものを採用することができ、例えば、非特許文献1または非特許文献2に示されているように、隣接する2つの画像のそれぞれの輝度の平均値若しくは分散値どうしの差分値、隣接する2つの画像の差分絶対和または差分2乗和(2乗距離)、ヒストグラム差分絶対和、DCT係数の差分値、動きベクトルを用いて予測した画像と実際の画像との誤差である予測誤差の大きさ、エッジの数またはエッジの分布どうしの違い等を用いることができる。
縮小画像生成部814には、カットチェンジ検出装置51に入力された画像、すなわち、第1乃至第3の注目画像がそれぞれ供給される。縮小画像生成部814は、そこに供給される第1乃至第3の注目画像をそれぞれ縮小した縮小画像を生成し、縮小画像バッファ815に供給する。縮小画像には、例えば、8ピクセル×8ピクセルから16ピクセル×16ピクセル程度のサイズに縮小したものが用いられる。
縮小画像バッファ815は、縮小画像生成部814から供給される第1乃至第3の注目画像のそれぞれの縮小画像を保存する。また、縮小画像バッファ815は、少なくとも直近の3つの画像、つまり、第1乃至第3の注目画像も保存する。
合成画像生成部816は、縮小画像バッファ815から、第2の注目画像に対して時間的に前または後に位置する第1の注目画像の縮小画像と第3の注目画像の縮小画像をそれぞれ読み出し、第1の注目画像の縮小画像と第3の注目画像の縮小画像を合成した合成画像を生成し、類似度算出部817に供給する。
合成画像の点(x,y)の画素値G(x, y)は、例えば、第1の画像の縮小画像の画素値をF1(x, y)、第3の画像の縮小画像の画素値をF3(x, y)とすると、所定の定数a、bを用いて、式(1)で表される。
ここで、xまたはyは、それぞれ各画像のX座標またはY座標を表す。
類似度算出部817は、縮小画像バッファ815から第2の注目画像の縮小画像を読み出し、合成画像生成部816から供給される第1の注目画像の縮小画像と第3の注目画像の縮小画像を合成した合成画像と第2の画像の縮小画像との類似度である類似度2を算出し、判定部818に供給する。
類似度2には、例えば、合成画像と縮小画像の同一ピクセルどうしの差分値の画像全体に関する2乗和の符号を反転したものか、あるいは、合成画像と縮小画像の相関関数の最大(最大相関値)等を用いてもよい。
判定部818は、類似度算出部813から供給される第1乃至第3の類似度1と類似度算出部817から供給される類似度2に基づいて、第1の注目画像と第2の注目画像の境界、または第2の注目画像と第3の注目画像の境界が、カットチェンジであるか、すなわち、第1の注目画像と第3の注目画像の間にカットチェンジが存在するかを判定する。
次に、図6のフローチャートを参照して、カットチェンジ検出装置51によるカットチェンジ検出処理について説明する。
特徴抽出部811には、カットチェンジ検出装置51に入力された画像が供給される。
いま、カットチェンジ検出装置51に入力された直近の3つの画像、すなわち、時間順に、前々の画像、前の画像、または現画像を、それぞれ、図7に示されるフレームF511、フレームF512、またはフレームF513の画像とする。人が撮影対象とされているフレームF511の画像と家が撮影対象とされているフレームF513の画像の類似度は低く、フレームF512の画像は、前のフレームF511の画像と後のフレームF513の画像が混合したような画像となっているので、フレームF511の画像とフレームF512の画像の類似度、及びフレームF512の画像とフレームF513の画像の類似度は、それぞれ高くなっている。すなわち、フレームF512には、フレームF511までのカットとフレームF513以降のカットを連結する境界であるブレンドカットチェンジが存在する。
ステップS601において、特徴抽出部811は、そこに供給されるフレームF511乃至F513のそれぞれの特徴量を抽出する。
具体的には、例えば、図8に示される原画像の画像データが入力されると、図9に示されるようなヒストグラムが特徴量として抽出され生成される。
図9において、横軸は、輝度を表し、縦軸は、頻度を表している。原画像P101には、背景の灰色の領域と、中央の白と黒の領域があるので、ヒストグラムH101では、比較的小さい輝度(黒)、中間的な輝度(灰色)、及び比較的大きい輝度(白)のそれぞれに頻度が集中している。
この特徴量としてのヒストグラムは、特徴量バッファ812に保存される。
ステップS602において、類似度算出部813は、特徴量バッファ812から、フレームF511乃至F513のそれぞれの特徴量を読み出し、フレームF511の特徴量とフレームF513の特徴量の類似度である第1の類似度1、フレームF511の特徴量とフレームF512の特徴量の類似度である第2の類似度1、及びフレームF512の特徴量とフレームF513の特徴量の類似度である第3の類似度1をそれぞれ算出し、その第1乃至第3の類似度1を判定部818にそれぞれ供給する。
具体的には、例えば、特徴量としてヒストグラムを生成する場合、そのヒストグラムどうしの類似度には、ヒストグラムどうしの重なり率を採用してもよい。
例えば、図10に示されるように、ヒストグラムH111とヒストグラムH112の重なり率は、ヒストグラムH111とヒストグラムH112に共通する部分の面積(ヒストグラムの斜線の部分の面積)とされる。
また、ヒストグラム類似度には、その他、ヒストグラムの各要素(ビン)の頻度を成分とするベクトル(以下、適宜、ヒストグラムベクトルという)どうしの類似度を用いてもよい。ヒストグラムベクトルどうしの類似度としては、例えば、ヒストグラムベクトルどうしの絶対距離である、いわゆるマンハッタン距離(実質的に、ヒストグラム間の重なり率に等しい)や、ヒストグラムベクトルどうしの2乗距離であるユークリッド距離等を用いてもよい。
縮小画像生成部814には、カットチェンジ検出装置51に入力された画像、すなわち、フレームF511乃至F513の画像がそれぞれ供給される。
ステップS603において、縮小画像生成部814は、そこに供給されるフレームF511乃至F513の画像をそれぞれ縮小した縮小画像を生成し、縮小画像バッファ815に保存させる。すなわち、LCD(Liquid Crystal Display)等の表示部に表示されるサイズの画像が、例えば、8ピクセル×8ピクセルのサイズに縮小される。この縮小は、例えば、原画像を8×8個のブロックに区分し、各ブロックの平均値を求めることで行われる。
ステップS604において、合成画像生成部816は、縮小画像バッファ815からフレームF512より時間的に前のフレームF511の縮小画像と、フレームF512より時間的に後のフレームF513の縮小画像をそれぞれ読み出し、式(1)に従って、フレームF511の縮小画像とフレームF513の縮小画像を合成した合成画像を生成し、類似度算出部817に供給する。
ステップS605において、類似度算出部817は、縮小画像バッファ815からフレームF512の縮小画像を読み出し、合成画像生成部816から供給されるフレームF511の縮小画像とフレームF513の縮小画像を合成した合成画像とフレームF512の縮小画像の類似度である類似度2を算出する。具体的には、合成画像と縮小画像の2乗距離の符号を反転したもの、または、両者の相関関数の最大値が演算される。演算結果としての類似度2は、判定部818に供給される。
ステップS606において、判定部818は、類似度算出部813から供給される第1乃至第3の類似度1と類似度算出部817から供給される類似度2に基づいて、第1の注目画像と第2の注目画像の境界、または第2の注目画像と第3の注目画像の境界が、カットチェンジであるかを判定する。そして、この後、カットチェンジ検出処理は終了される。
次に、図11のフローチャートを参照して、図6のステップS606で判定部818が行う判定処理について説明する。
判定部818には、図5の類似度算出部813から第1乃至第3の類似度1が、類似度算出部817から類似度2が、それぞれ供給される。
ステップS631において、判定部818は、フレームF511の画像とフレームF513の画像の類似度1(第1の類似度1)は予め設定されている所定の閾値より大きいかを判定する。第1の類似度1が閾値より大きい場合、ステップS635において、判定部818は、フレームF511乃至フレームF513における画像の変化を、カットチェンジではないと判定する。
例えば、図12Aに示されるように、フレームF511乃至F513の画像が殆ど変化していない場合、あるいは、図12Bに示されるように、フレームF511とフレームF513の画像は殆ど変化していないが、その間のフレームF512の画像がフレームF511、F513に較べて明るさが異なる場合(例えば、フラッシュがたかれたり、フレーム落ちなどの場合)、カットチェンジではないと判定される。
一方、ステップS631において、第1の類似度1は閾値より大きくないと判定された場合、ステップ632において、判定部818は、フレームF511とフレームF512の画像の類似度1(第2の類似度1)が予め設定されている所定の閾値より大きいかを判定する。
ステップS632において、第2の類似度1が閾値より大きいと判定された場合、ステップS633において、判定部818は、フレームF512とフレームF513の画像の類似度1(第3の類似度1)は予め設定されている所定の閾値より大きいかを判定する。
ステップS633において、第3の類似度1は閾値より大きいと判定された場合、ステップS634において、判定部818は、類似度2は予め設定されている所定の閾値より大きいかを判定する。
ステップS634において、類似度2が閾値より大きくないと判定された場合、すなわち、フレームF511とフレームF513の画像の類似度1が閾値より小さく、フレームF511とフレームF512の画像の類似度1が閾値より大きく、フレームF512とフレームF513の画像の類似度1が閾値より大きく、かつ、類似度2が閾値より小さい場合、ステップS635において、判定部818は、フレームF511乃至フレームF513における画像の変化を、カットチェンジではないと判定する。
例えば、図12Cに示されるように、フレームF511乃至F513の画像が、人が家から速い動きで離れていく画像である場合であって、フレームF511とフレームF513の画像は類似していないが、フレームF511とフレームF512の画像は類似し、フレームF512とフレームF513の画像は類似し、フレームF511とフレームF513の縮小画像を合成した画像と、フレームF512の縮小画像は類似していない場合、カットチェンジではないと判定される。
ステップS634において、類似度2が閾値より大きいと判定された場合、すなわち、フレームF511とフレームF513の画像の類似度1が閾値より小さく、フレームF511とフレームF512の画像の類似度1が閾値より大きく、フレームF512とフレームF513の画像の類似度1が閾値より大きく、かつ、類似度2が閾値より大きい場合、ステップS636において、判定部818は、フレームF511乃至フレームF513における画像の変化を、ブレンドカットチェンジであると判定する。
例えば、図12Gに示されるように、人の画像であるフレームF511の画像と、家の画像であるフレームF513の画像は類似していないが、フレームF512の画像は人と家を合成したような画像であるため、フレームF511とフレームF512の画像は類似し、フレームF512とフレームF513の画像は類似し、フレームF511とフレームF513の縮小画像を合成した画像と、フレームF512の縮小画像は類似する場合、ブレンドカットチェンジであると判定される。
一方、ステップS632において、第2の類似度1が閾値より小さいと判定された場合、ステップS637において、判定部818は、フレームF512とフレームF513の類似度1(第3の類似度1)は予め設定されている所定の閾値より大きいかを判定する。ステップS637において、第3の類似度1は閾値より大きいと判定された場合、すなわち、フレームF511とフレームF513の画像の類似度1が閾値より小さく、フレームF511とフレームF512の画像の類似度1が閾値より小さく、フレームF512とフレームF513の画像の類似度1が閾値より大きい場合、ステップS639において、判定部818は、フレームF511乃至フレームF513における画像の変化は、通常カットチェンジであると判定する。
例えば、図12Dに示されるように、人の画像であるフレームF511の画像と、家の画像であるフレームF513の画像は類似しておらず、フレームF512の画像は家の画像であるため、フレームF511とフレームF512の画像は類似しておらず、フレームF512とフレームF513の画像は類似する場合、通常のカットチェンジであると判定される。
ステップS633において、第3の類似度1は閾値より小さいと判定された場合、すなわち、フレームF511とフレームF513の画像の類似度1が閾値より小さく、フレームF511とフレームF512の画像の類似度1が閾値より大きく、フレームF512とフレームF513の画像の類似度1が閾値より小さい場合、ステップS639において、判定部818は、フレームF511乃至フレームF513における画像の変化は、通常カットチェンジであると判定する。
例えば、図12Eに示されるように、人の画像であるフレームF511の画像と、家の画像であるフレームF513の画像は類似しておらず、フレームF512の画像は人の画像であるため、フレームF511とフレームF512の画像は類似し、フレームF512とフレームF513の画像は類似していない場合、通常のカットチェンジであると判定される。
ステップS637において、第3の類似度1は閾値より小さいと判定された場合、ステップS638において、判定部818は、類似度2は予め設定されている所定の閾値より大きいかを判定する。ステップS638において、類似度2は閾値より大きいと判定された場合、すなわち、フレームF511とフレームF513の画像の類似度1が閾値より小さく、フレームF511とフレームF512の画像の類似度1が閾値より小さく、フレームF512とフレームF513の類似度1が閾値より小さく、かつ、類似度2が閾値より大きい場合、ステップS636において、判定部818は、フレームF511乃至フレームF513における画像の変化を、ブレンドカットチェンジであると判定する。
例えば、図12Gに示されるように、人の画像であるフレームF511の画像と、家の画像であるフレームF513の画像は類似しておらず、フレームF512の画像は人と家を合成したような画像であるが、フレームF511とフレームF512の画像、並びにフレームF512とフレームF513の画像は類似していないと判定された場合でも、フレームF511とフレームF513の縮小画像を合成した画像と、フレームF512の縮小画像が類似する場合、ブレンドカットチェンジであると判定される。
一方、ステップS638において、類似度2は閾値より小さいと判定された場合、すなわち、フレームF511とフレームF513の画像の類似度1が閾値より小さく、フレームF511とフレームF512の類似度1が閾値より小さく、フレームF512とフレームF513の類似度1が閾値より小さく、かつ、類似度2が閾値より小さい場合、判定部818は、フレームF511乃至フレームF513における画像の変化は、通常カットチェンジであると判定する。
例えば、図12Fに示されるように、人の画像であるフレームF511の画像と、山の画像であるフレームF513の画像は類似しておらず、フレームF512の画像は家の画像であるため、フレームF511とフレームF512の画像は類似しておらず、フレームF512とフレームF513の画像も類似していない場合、フレームF511とフレームF513の縮小画像を合成した画像と、フレームF512の縮小画像が類似していないとき、通常のカットチェンジであると判定される。
以上のように、図5の判定部818は、類似度算出部813から供給される第1乃至第3の類似度1、並びに、類似度算出部817から供給される類似度2に基づいて、フレームF511乃至フレームF513の間の画像の変化は、通常のカットチェンジであるか、さらに、ブレンドカットチェンジであるかを判定する。
また、判定部818は、第1乃至第3の類似度1及び類似度2のそれぞれが、第1乃至第3の類似度1及び類似度2のそれぞれに対して設定された適切な閾値に対して大きいかまたは小さいかを判定する閾値判定を行い、第1乃至第3の類似度1及び類似度2のそれぞれに対する閾値判定結果の組み合わせに基づいて、カットチェンジであるかを判定する。なお、値が閾値と等しい場合には、大きいかまたは小さいかのいずれかに判定される。
図13は、図11の判定処理と図12の3フレームの画像のパターンの関係をまとめたものである。
図13において、類似度の欄が「大」である場合、その類似度が所定の閾値より大きいことを表し、類似度の欄が「小」である場合、その類似度が所定の閾値より小さいことを表す。
図13の上から2行目において、フレームF511とフレームF513の類似度1が「大」の場合には、他の類似度が「大」、「小」のいずれの値であっても、カットチェンジではないと判定される。このような場合に対応する画像パターンは、例えば、図12Aまたは図12Bに示されている。
図13の上から3行目において、フレームF511とフレームF513の類似度1が「小」、フレームF511とフレームF512の類似度1が「大」、フレームF512とフレームF513の類似度1が「大」、類似度2が「大」の場合には、ブレンドカットチェンジであると判定される。このような場合に対応する画像パターンは、例えば、図12Gに示されている。
図13の上から4行目において、フレームF511とフレームF513の類似度1が「小」、フレームF511とフレームF512の類似度1が「大」、フレームF512とフレームF513の類似度1が「大」、類似度2が「小」の場合には、カットチェンジでないと判定される。このような場合に対応する画像パターンは、例えば、図12Cに示されている。
図13の上から5行目において、フレームF511とフレームF513の類似度1が「小」、フレームF511と像F512の類似度1が「大」、フレームF512とフレームF513の類似度1が「小」の場合、類似度2が「大」若しくは「小」のいずれでも、通常カットチェンジであると判定される。このような場合に対応する画像パターンは、例えば、図12Eに示されている。
図13の上から6行目において、フレームF511とフレームF513の類似度1が「小」、フレームF511とフレームF512の類似度1が「小」、フレームF512とフレームF513の類似度1が「大」の場合、類似度2が「大」若しくは「小」のいずれでも、通常カットチェンジであると判定される。このような場合に対応する画像パターンは、例えば、図12Dに示されている。
図13の上から7行目において、フレームF511とフレームF513の類似度1が「小」、フレームF511とフレームF512の類似度1が「小」、フレームF512とフレームF513の類似度1が「小」、類似度2が「大」の場合には、ブレンドカットチェンジであると判定される。このような場合に対応する画像パターンは、例えば、図12Gに示されている。
図13の上から8行目において、フレームF511とフレームF513の類似度1が「小」、フレームF511とフレームF512の類似度1が「小」、フレームF512とフレームF513の類似度1が「小」、類似度2が「小」の場合には、通常カットチェンジであると判定される。このような場合に対応する画像パターンは、例えば、図12Fに示されている。
例えば、フェード、ディゾルブ、ワイプ等の連続的な画像の変化を伴う画像効果を用いた画像区間の接続における画像の変化であるブレンドカットチェンジも、カットチェンジとして検出することができ、ブレンドカットチェンジを含むカットチェンジの検出を正確に行うことができる。
なお、図5の判定部818は、この他、ベイズ識別法やニューラルネットワーク法、サポートベクターマシン法等の統計的判別法を用いて、第1乃至第3の類似度1と類似度2に基づいて、カットチェンジであるかを判別する判別器を有する構成としてもよい。
なお、上述した各処理では、画像をフレーム単位で扱うように説明したが、画像をフィールド単位で扱うようにすることもできる。
また、本明細書において、プログラム記録媒体に格納されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
本発明は、ソフトウェアにより構成する他、ハードウェアにより構成することができる。
本発明は、放送機器、画像編集機器、カムコーダ、画像処理用のパーソナルコンピュータ、DVDレコーダ、ハードディスクレコーダ等の画像を処理するあらゆる検出装置に適用することができる。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
1 パーソナルコンピュータ, 21 CPU, 22 ROM, 23 RAM, 24 バス, 25 入出力インタフェース, 26 入力部, 27 出力部, 28 記憶部, 29 通信部, 30 ドライブ, 31 リムーバブルメディア, 51 カットチェンジ検出装置, 811 特徴抽出部, 812 特徴量バッファ, 813 類似度算出部, 814 縮小画像生成部, 815 縮小画像バッファ, 816 合成画像生成部, 817 類似度算出部, 818 判定部