JP2006270301A

JP2006270301A - シーンチェンジ検出装置およびシーンチェンジ検出プログラム

Info

Publication number: JP2006270301A
Application number: JP2005083126A
Authority: JP
Inventors: Takahiro Mochizuki; 貴裕望月; Makoto Tadenuma; 眞蓼沼
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2005-03-23
Filing date: 2005-03-23
Publication date: 2006-10-05

Abstract

【課題】シーンチェンジの検出を高精度に行うことができるシーンチェンジ検出装置およびシーンチェンジ検出プログラムを提供する。
【解決手段】シーンチェンジ検出装置１は、入力された動画像のシーンチェンジを検出するものであって、動画像を構成する画像（フレーム）を所定個数のブロックに分割する分割手段３と、分割したブロックの特徴ベクトルを求める特徴計算手段５と、前後のフレームの各ブロックの特徴ベクトルの類似度を計算する類似度計算手段７と、類似度に基づいてシーンチェンジを判定するシーンチェンジ判定手段９と、判定結果によりシーンチェンジ点を蓄積するシーンチェンジ時刻データ蓄積手段１１と、を備えた。
【選択図】図１

Description

本発明は、動画像処理に係り、動画像のシーンチェンジを検出するシーンチェンジ検出装置およびシーンチェンジ検出プログラムに関する。

従来、映像（動画像）をリアルタイムで読み込みながら、動画像を構成する各画像（各フレーム）の構図の変化、つまり、前後のフレーム（現在入力されているフレームと直前に入力されたフレーム）において変動（差分）が発生した範囲の面積（複数の画素からなる領域の面積）を評価してカット点（シーンチェンジ）を検出する手法として、例えば、「画像処理装置及びシーンチェンジ検出方法」（特許文献１）と「映像カット点検出方法及び装置」（特許文献２）とがある。

しかし、これらの手法（特許文献１または特許文献２により開示されている手法）は、画素というフレームを構成する最小単位を、カット点を検出する評価単位としているので、図７に示すように、被写体（野球選手）が、きめが粗く複雑な背景（観客席）を通過するような動画像の場合、本来、シーンチェンジしていないにも拘わらず、シーンチェンジ（カット点）を連続して検出する過剰検出を起こしてしまう場合がある。

図７では、野球選手が走っているフレームが（ａ）〜（ｃ）に示したように連続しており、当該野球選手の背中越しに映っている観客席が、（ａ）〜（ｃ）を通して流れていくように見える。このような動画像の場合、（ａ）〜（ｃ）が別々のシーンとして検出されることなく、「野球選手が走っているシーン」として、１つのシーンが検出されることが望まれている。

こういった過剰検出を抑制するために、画素を評価単位とせずに、フレームを分割したブロック単位での差分を評価してカット点（シーンチェンジ）を検出する手法として、例えば、「シーンチェンジ検出方法およびシーンチェンジ検出装置」（特許文献３）と「動画像のシーンチェンジ検出装置および編集装置」（特許文献４）とがある。
特開２０００−３２４４９９号公報特開平８−２１４２１０号公報特開平１０−２９４９２３号公報特開平６−１５３１４６号公報

しかしながら、これらの手法（特許文献３または特許文献４により開示されている手法）は、各ブロックで計算する画像の特徴（特徴ベクトル）が色特徴のみや、動きベクトルのみであるので、画像の他の特徴が大きく変化したときにシーンチェンジであると反応してしまうため、過剰検出を抑制する効果が少なく、例えば、図７に示したように、きめが粗く複雑な背景（観客席）が激しい動きをする場合（連続するフレームにおいて背景の変動が激しい場合）、シーンチェンジの十分な検出精度が得られないという問題がある。

そこで、本発明では、前記した問題を解決し、シーンチェンジの検出を高精度に行うことができるシーンチェンジ検出装置およびシーンチェンジ検出プログラムを提供することを目的とする。

前記課題を解決するため、請求項１に記載のシーンチェンジ検出装置は、入力された動画像のシーンチェンジを検出するシーンチェンジ検出装置であって、分割手段と、特徴計算手段と、類似度計算手段と、シーンチェンジ判定手段と、シーンチェンジ時刻データ蓄積手段と、を備える構成とした。

かかる構成によれば、シーンチェンジ検出装置は、分割手段によって、動画像を構成する各フレームを所定の画像サイズのブロックに分割する。所定の画像サイズとは、画像（フレーム）の縦横を、任意の割合で分割した際の大きさを指している。続いて、シーンチェンジ検出装置は、特徴計算手段によって、分割手段で分割したブロックごとに、当該ブロックのエッジ量で示す特徴量、または、当該ブロックにおける各方向のエッジ画素対の数で示す特徴量、或いは、当該ブロックにおけるフラクタル尺度を利用した輝度変化の複雑な度合いを示す複雑度の少なくとも１つの特徴量を計算した当該ブロックごとのテクスチャ特徴ベクトルを求める。なお、ブロックのエッジ量とは、エッジ抽出処理されたブロックにおけるエッジ画素数を指している。ブロックにおける各方向のエッジ画素対とは、エッジ方向（水平方向、右上がり、垂直方向、左上がり）のエッジを構成する２つの画素を指している。フラクタル尺度を利用した輝度変化の複雑な度合いを示す複雑度とは、画像の相似性を表す特徴量であるフラクタル次元を利用して、ブロックの輝度がどれだけ複雑に変化しているのかを表したものである。例えば、図形ａと、当該図形ａが複数集まった集合体である図形Ａとが相似である場合にフラクタルをなしているといえ、それぞれの図形ａが同一色（輝度が同一）の複数の画素からなる領域であるとすると、図形Ａは図形ａの集合体であるので、同じ色の図形ａのみが集まっている場合には複雑度はゼロに等しいといえ、異なる色の図形ａが集まっているほど、複雑度は高くなるといえる。

そして、シーンチェンジ検出装置は、類似度計算手段によって、特徴計算手段で求めたブロックごとのテクスチャ特徴ベクトルについて、連続する前後のフレームにおける類似度を示す距離を計算する。この距離の尺度として、１−ノルム、２−ノルム（ユークリッド距離）、∞−ノルム、コサイン距離等がある。そして、シーンチェンジ検出装置は、シーンチェンジ判定手段によって、類似度計算手段で計算した連続する前後のフレームにおける類似度を示す距離が予め設定した閾値を越えたブロックを、フレームの構図の一部が変化したことを示す変化ブロックとし、前後のフレームにおいて当該変化ブロックの割合が予め設定した設定値以上になった場合に、後のフレームが入力された時刻をシーンチェンジ点とする。

このシーンチェンジ判定手段では、例えば、類似度を示す距離が閾値以下になったブロックについて、構図が変化したとして、当該ブロックを変化ブロックとすることができる。つまり、この場合、類似度を示す距離が大きくなるほど、ブロック同士は類似していることになり、類似度を示す距離が閾値以下になる、すなわち、小さくなるほど、ブロック同士は異なっていることになる。逆に、類似度を示す距離の取り方によっては、類似度を示す距離が小さいほど、ブロック同士が類似しているといえる場合があり、こういった場合には、類似度を示す距離が大きくなるほど、ブロック同士が異なっていることになる。

そして、シーンチェンジ検出装置は、シーンチェンジ時刻データ蓄積手段によって、シーンチェンジ判定手段で判定されたシーンチェンジ点に関する情報を、シーンチェンジ時刻データとして蓄積する。

請求項２に記載のシーンチェンジ検出装置は、請求項１に記載のシーンチェンジ検出装置において、前記特徴計算手段が、前記ブロック内の全画素のＲＧＢ平均値、または、ＨＳＶ平均値を特徴量として計算した当該ブロックごとの色特徴ベクトルを求め、この色特徴ベクトルと前記テクスチャ特徴ベクトルとを合成した特徴ベクトルを求めることを特徴とする。

かかる構成によれば、シーンチェンジ検出装置は、特徴計算手段によって、色特徴ベクトルを求めることとしており、この色特徴ベクトルをテクスチャ特徴ベクトルと合成し、この合成した特徴ベクトルを、類似度計算手段により前後のフレームにおける類似度を示す距離の計算に用いることで、より高精度なシーンチェンジの検出を実現することができる。ちなみに、ＨＳＶは、色相（Ｈｕｅ）、彩度（Ｓａｔｕｒａｔｉｏｎ）、明度（Ｖａｌｕｅ）の３つの属性の組み合わせによって色を特定する方式を指している。

請求項３に記載のシーンチェンジ検出プログラムは、入力された動画像のシーンチェンジを検出するために、コンピュータを、分割手段、特徴計算手段、類似度計算手段、シーンチェンジ判定手段、として機能させる構成とした。

かかる構成によれば、シーンチェンジ検出プログラムは、分割手段によって、動画像を構成する各フレームを所定の画像サイズのブロックに分割し、特徴計算手段によって、分割手段で分割したブロックごとに、当該ブロックのエッジ量で示す特徴量、または、当該ブロックにおける各方向のエッジ画素対の数で示す特徴量、或いは、当該ブロックにおけるフラクタル尺度を利用した輝度変化の複雑な度合いを示す複雑度で示す特徴量における少なくとも１つの特徴量を計算した当該ブロックごとのテクスチャ特徴ベクトルを求める。そして、シーンチェンジ検出プログラムは、類似度計算手段によって、特徴計算手段で求めたブロックごとのテクスチャ特徴ベクトルについて、連続する前後のフレームにおける類似度を示す距離を計算し、シーンチェンジ判定手段によって、類似度計算手段で計算した連続する前後のフレームにおける類似度を示す距離と予め設定した閾値とに基づいてブロックを変化ブロックとし、前後のフレームにおいて当該変化ブロックの割合が予め設定した設定値以上になった場合に、後のフレームが入力された時刻をシーンチェンジ点とする。

請求項１、３に記載の発明によれば、ブロックを評価単位として、前後のフレームにおいて対応するブロックのテクスチャ特徴ベクトルの差が閾値を越えたブロックを変化ブロックとし、この変化ブロックの数が設定値以上の場合にシーンチェンジを検出しているので、画素を評価単位とする従来の手法に比べ、シーンチェンジの過剰検出を抑制でき、シーンチェンジの検出を高精度に行うことができる。

請求項２に記載の発明によれば、テクスチャ特徴ベクトルのみではなく、色特徴ベクトルも併用しているので、ブロックを評価単位とする従来の手法に比べ、シーンチェンジの過剰検出を抑制でき、シーンチェンジの検出をより高精度に行うことができる。

次に、本発明の実施形態について、適宜、図面を参照しながら詳細に説明する。
〈シーンチェンジ検出装置の構成〉
図１は、シーンチェンジ検出装置のブロック図である。この図１に示すように、シーンチェンジ検出装置１は、動画像のシーンチェンジの検出を行うもので、分割手段３と、特徴計算手段５と、類似度計算手段７と、シーンチェンジ判定手段９と、シーンチェンジ時刻データ蓄積手段１１とを備えている。

分割手段３は、入力された動画像を構成する各フレームを所定の画像サイズ、つまり、フレームを所定数のブロック（Ｍ×Ｎ個のブロック）に分割するものである。ここでは、図２（ａ）（ｂ）に示すように、フレーム（入力フレーム画像）を横方向に４つに、縦方向に３つに分割している（Ｍ＝４、Ｎ＝３の場合）。ここでは、所定の画像サイズは、フレームのサイズの１／１２となる。また、図２（ｃ）に示すように、各ブロックを区別するために、座標（ｉ，ｊ）（ｉ＝１，．．．，Ｍ、ｊ＝１，．．．，Ｎ）を付している。なお、この図２（ｃ）において、例えば、Ｖ（１，１）は、ブロック（１，１）における特徴ベクトル（後記する特徴計算手段５で計算されたもの）を示している。

図１に戻って、シーンチェンジ検出装置１の構成の説明を続ける。
特徴計算手段５は、分割手段３で分割したブロックごとの特徴ベクトル（テクスチャ特徴ベクトル、色特徴ベクトル）を計算するもので、テクスチャ特徴ベクトル計算部５ａと、色特徴ベクトル計算部５ｂとを備えている。テクスチャ特徴ベクトル（Ｎ_T次元）をＶ_T（ｉ，ｊ）＝［Ｖ_T（１，ｉ，ｊ），．．．，Ｖ_T（Ｎ_T，ｉ，ｊ）］とし、色特徴ベクトル（Ｎ_C次元）をＶ_C（ｉ，ｊ）＝［Ｖ_C（１，ｉ，ｊ），．．．，Ｖ_C（Ｎ_C，ｉ，ｊ）］とする。

テクスチャ特徴ベクトル計算部５ａは、各ブロックにエッジ抽出処理を施して、ブロックのエッジ量で示す特徴量と、ブロックにおける各方向のエッジ画素対の数で示す特徴量と、フラクタル尺度を利用した輝度変化の複雑な度合いを示す複雑度で示す特徴量とにおいて、各特徴量の少なくとも１つを計算して、テクスチャ特徴ベクトルを求めるものである。

ここでは、テクスチャ特徴ベクトルは、エッジ量で示す特徴量を用いている。なお、これらの特徴量（エッジ量で示す特徴量、エッジ画素対の数で示す特徴量および複雑度で示す特徴量）を併用すればするほど、テクスチャ特徴ベクトルの次元が増加し、シーンチェンジを判定する際の精度が向上する。

エッジは、画素間の相対的な濃度差によって現れ、被写体等の対象の輪郭に見える部分である。エッジ抽出処理は、画像に含まれている急激な濃度差を１次微分することにより、輪郭を抽出する処理である。なお、エッジ抽出処理を施したブロックを、ブロックエッジ画像と呼称することとする。

ブロック（ブロックエッジ画像）のエッジ量は、ブロックエッジ画像に含まれているエッジの画素数を指しており、ここでは、エッジ量（エッジ量ベクトル）Ｖ_eと表すことにする。そうすると、この場合のテクスチャ特徴ベクトルは、Ｖ_T（ｉ，ｊ）＝［Ｖ_e］となる。

ブロック（ブロックエッジ画像）における各方向のエッジ画素対の数は、ブロックエッジ画像のエッジ方向（０度、４５度、９０度、１３５度）のヒストグラムベクトルＶ₀、Ｖ₄₅、Ｖ₉₀、Ｖ₁₃₅と表すことにする。Ｖ₀は、ブロックエッジ画像における、水平方向のエッジ画素対の数を表しており、Ｖ₄₅は、ブロックエッジ画像における、右上がり４５度方向のエッジ画素対の数を表している。また、Ｖ₉₀は、ブロックエッジ画像における、垂直方向のエッジ画素対の数を表しており、Ｖ₁₃₅は、ブロックエッジ画像における、左上がり４５度方向のエッジ画素対の数を表している。そうすると、この場合のテクスチャ特徴ベクトルは、Ｖ_T（ｉ，ｊ）＝［Ｖ₀、Ｖ₄₅、Ｖ₉₀、Ｖ₁₃₅］となる。

フラクタル尺度を利用した輝度変化の複雑な度合いを示す複雑度は、ブロック内に、輝度の異なる複数の領域が存在し、これらの領域が複雑な形状をして、絡み合っている度合いを示す特徴量である。なお、この複雑度の求め方については、特開２００１−５６８２０号公報の「静止画像検索装置および記録媒体」に開示されている手法を用いることとする。ここでは、複雑度（複雑度ベクトル）をＶ_compと表すことにする。そうすると、この場合のテクスチャ特徴ベクトルは、Ｖ_T（ｉ，ｊ）＝［Ｖ_comp］となる。

色特徴ベクトル計算部５ｂは、ブロックの全画素のＲＧＢ（赤色［Ｒｅｄ］、緑色［Ｇｒｅｅｎ］、青色［Ｂｌｕｅ］）の平均値、または、ＨＳＶ（色相［Ｈｕｅ］、彩度［Ｓａｔｕｒａｔｉｏｎ］、明度［Ｖａｌｕｅ］）の平均値を計算し、色特徴ベクトル（ＲＧＢ平均値ベクトル、または、ＨＳＶ平均値ベクトル）を求めるものである。
ここでは、ＲＧＢ平均値ベクトルをＶ_C（ｉ，ｊ）＝［ｒ，ｇ，ｂ］と表すこととし、ＨＳＶ平均値ベクトルをＶ_C（ｉ，ｊ）＝［ｈ，ｓ，ｖ］と表すこととする。

そして、特徴計算手段５は、テクスチャ特徴ベクトル計算部５ａで求められたテクスチャ特徴ベクトルＶ_T（ｉ，ｊ）と、色特徴ベクトル計算部５ｂで求められた色特徴ベクトルＶ_C（ｉ，ｊ）とを組み合わせたＮ_T＋Ｎ_C次元ベクトルＶ（ｉ，ｊ）＝［Ｖ_T（１，ｉ，ｊ），．．．，Ｖ_T（Ｎ_T，ｉ，ｊ），Ｖ_C（１，ｉ，ｊ），．．．，Ｖ_C（Ｎ_C，ｉ，ｊ）］を、ブロックの特徴ベクトルとする。

類似度計算手段７は、特徴計算手段５から出力された特徴ベクトルＶ（ｉ，ｊ）に基づいて、連続する前後のフレーム（前フレームと後フレーム［現フレーム］）の各ブロックの類似度を計算するものである。つまり、１つのフレームに含まれている全てのブロック（ｉ，ｊ）（ｉ＝１，２，．．．，Ｍ，ｊ＝１，２，．．．，Ｎ）について、前フレームの各ブロックの特徴ベクトルをｖ（ｉ，ｊ）とし、現フレームの各ブロックの特徴ベクトルをＶ（ｉ，ｊ）とし、類似度をＳ（ｉ，ｊ）とすると、この類似度計算手段７では、これらｖ（ｉ，ｊ）とＶ（ｉ，ｊ）とからＳ（ｉ，ｊ）を計算する。

ここでは、類似度計算手段７は、以下に示す２つの式のいずれかに基づいて、類似度を計算している。なお、これらの特徴ベクトルの類似度の計算よると、ここでは、計算して得られた数値が大きいほど類似度が高く、小さいほど類似度が低くなる。（１）式は、符号を反転したユークリッド距離を計算するものである。

また、（２）式は、コサンイン距離を計算するものである。なお、コサイン距離は、−１．０〜１．０の範囲の数値をとる。

シーンチェンジ判定手段９は、類似度計算手段７で計算した特徴ベクトルの類似度を示す距離に基づいて、シーンチェンジを検出するものである。つまり、このシーンチェンジ判定手段９は、類似度計算手段７で計算した特徴ベクトルの類似度を示す距離が予め設定した閾値（Ｔｓとする）以下になった（閾値を越えた）ブロックの数をカウントし、このブロック数が予め設定した設定値（Ｒとする）以上になったか否かを判定する。そして、シーンチェンジ判定手段９は、予め設定した閾値以下になったブロックの数が、予め設定した設定値以上になった場合、後フレーム（現フレーム）が入力された時刻をシーンチェンジされた時（シーンチェンジ点）とみなし、当該時刻をシーンチェンジ時刻データ蓄積手段１１に出力するものである。なお、当該時刻をシーンチェンジ時刻データ蓄積手段１１に出力する際に、後フレーム（現フレーム）を識別するフレーム番号と対応付けられる。

また、ここでは、類似度計算手段７で計算した特徴ベクトルの類似度を示す距離が予め設定した閾値（Ｔｓ）以下になったブロックの数をカウントしているが、距離の取り方によっては、閾値以上になったブロックの数をカウントしてもよい。つまり、シーンチェンジ判定手段９は、閾値を越えたブロックをカウントするものである。すなわち、閾値を越えたとは、閾値以上になった場合と閾値以下になった場合の両方を指すもので、閾値を「超える」とは異なり、閾値を「越える」は“通り過ぎる”、“向こう側に行く”という意味である。

なお、類似度計算手段７で計算した特徴ベクトルの類似度を示す距離が予め設定した閾値（Ｔｓとする）以下になったブロックを変化ブロックと呼称することとする。この変化ブロックの数が多くなるほど、現フレームは、前フレームと異なった構図であるといえ、シーンチェンジを判定する際の根拠とされる。

シーンチェンジ時刻データ蓄積手段１１は、シーンチェンジ判定手段９から出力された時刻を、シーンチェンジがなされた時刻を示すものとし、シーンチェンジ時刻データとして蓄積するもので、一般的なハードディスクやメモリ等の記録媒体によって構成されている。

ここで、図３を参照して、類似度計算手段７およびシーンチェンジ判定手段９による処理について説明する。
まず、図３（ａ）、（ｂ）に示すように、類似度計算手段７によって、現フレームの各ブロックの特徴ベクトルＶ（ｉ，ｊ）と、前フレームの各ブロックの特徴ベクトルｖ（ｉ，ｊ）との類似度Ｓ（ｉ，ｊ）を計算する（図３のＳｔｅｐ１）。

そして、シーンチェンジ判定手段９によって、類似度Ｓ（ｉ，ｊ）≦閾値Ｔｓであるブロック（ハッチングを施したブロック）の数をカウントし、このカウントした数をｎとする（０≦ｎ≦Ｍ×Ｎ）（図３のＳｔｅｐ２）。そして、このカウントした数ｎが変化ブロックの数であり、フレーム全体に対して、この変化ブロックの数ｎ（割合）が設定値Ｒ（例えば、Ｍ×Ｎ＝１２個であるので、Ｒ＝８）以上である場合に、現フレームが入力された時刻をシーンチェンジ点とみなして、シーンチェンジ時刻データとして蓄積する（図３のＳｔｅｐ３）。

図１に示したシーンチェンジ検出装置１によれば、分割手段３でフレームをブロックに分割し、このブロックを評価単位として、前後のフレームにおいて対応するブロックのテクスチャ特徴ベクトルの差が閾値Ｔｓ以下になった（閾値を越えた）ブロックを変化ブロックとし、この変化ブロックの数が設定値Ｒ以上の場合にシーンチェンジを検出しているので、画素を評価単位とする従来の手法に比べ、シーンチェンジの過剰検出を抑制でき、シーンチェンジの検出を高精度に行うことができる。

また、シーンチェンジ検出装置１によれば、特徴計算手段５において、テクスチャ特徴ベクトルのみではなく、色特徴ベクトルも併用して計算しているので、ブロックを評価単位とする従来の手法に比べ、シーンチェンジの過剰検出を抑制でき、シーンチェンジの検出を高精度に行うことができる。

〈シーンチェンジ検出装置の動作〉
次に、図６に示すフローチャートを参照して、シーンチェンジ検出装置１の動作を説明する（適宜、図１参照）。
まず、シーンチェンジ検出装置１は、動画像を構成する画像（現在のフレーム［現フレーム］）を切り出して（ステップＳ１）、分割手段３によって、現フレームを、Ｍ×Ｎ個のブロックに分割する（ステップＳ２）。

続いて、シーンチェンジ検出装置１は、特徴計算手段５のテクスチャ特徴ベクトル計算部５ａおよび色特徴ベクトル計算部５ｂによって、各ブロック（ｉ，ｊ）（ｉ＝１，２，．．．，Ｍ，ｊ＝１，２，．．．，Ｎ）のテクスチャ特徴ベクトルＶ_T（ｉ，ｊ）と色特徴ベクトルＶ_C（ｉ，ｊ）とを計算し、Ｖ_T（ｉ，ｊ）とＶ_C（ｉ，ｊ）とを組み合わせて、ブロック（ｉ，ｊ）の特徴ベクトルＶ（ｉ，ｊ）を求める。

そして、シーンチェンジ検出装置１は、現フレームが開始フレームかどうか（現フレームを前フレームとするか否か）を判定する（ステップＳ４）。現フレームを開始フレームとすると判定しなかった場合（ステップＳ４、Ｎｏ）、シーンチェンジ検出装置１は、類似度計算手段７によって、各ブロック（ｉ，ｊ）について、現フレームの各ブロックの特徴ベクトルＶ（ｉ，ｊ）と前フレームの各ブロックの特徴ベクトルｖ（ｉ，ｊ）との類似度を計算する（ステップＳ５）。なお、ステップＳ４にて、現フレームを開始フレームとすると判定した場合（ステップＳ４、Ｙｅｓ）、後記するステップＳ１０の処理に移行する。

そして、シーンチェンジ検出装置１は、シーンチェンジ判定手段９によって、類似度Ｓ（ｉ，ｊ）が閾値Ｔｓ以下のブロック（変化ブロック）の数ｎを数える（カウントする）（ステップＳ６）。なお、変化ブロックの数ｎは、０≦ｎ≦Ｍ×Ｎの範囲である。

それから、シーンチェンジ検出装置１は、シーンチェンジ判定手段９によって、変化ブロックの数ｎが設定値Ｒ以上であるか否かを判定し（ステップＳ７）、変化ブロックの数ｎが設定値Ｒ以上であると判定した場合（ステップＳ７、Ｙｅｓ）には、現フレームを切り出した（現フレームが入力された）時刻を「シーンチェンジ時刻データ」として、シーンチェンジ時刻データ蓄積手段１１に蓄積する（ステップＳ８）。

また、シーンチェンジ検出装置１は、シーンチェンジ判定手段９によって、変化ブロックの数ｎが設定値Ｒ以上であると判定しなかった場合（ステップＳ７、Ｎｏ）には現フレームが終了フレーム（動画像を構成する画像の中で最後［最終］の画像）であるか否かを判定し（ステップＳ９）、終了フレームであると判定した場合（ステップＳ９、Ｙｅｓ）には動作を終了する。

そして、シーンチェンジ検出装置１は、終了フレームであると判定しなかった場合（ステップＳ９、Ｎｏ）、現フレームの各ブロックの特徴ベクトルＶ（ｉ，ｊ）を、前フレームの各ブロックの特徴ベクトルｖ（ｉ，ｊ）に置き換えて（ステップ１０）、ステップＳ１に戻る。

〈シーンチェンジ検出装置と従来手法とによるシーンチェンジの検出結果の比較〉
次に、図４、図５を参照して、シーンチェンジ検出装置１（提案手法）によって動画像のシーンチェンジを検出した場合と、従来手法（比較手法）によって動画像のシーンチェンジを検出した場合との比較（実験結果）について説明する。

図４は、比較手法と提案手法との実験結果を示した図であり、図５は、比較手法と提案手法とにおけるフレーム間差分の推移を示した図である。なお、図５の白丸は、予め実験前に測定された正確なカット点（シーンェンジするフレーム）を示している。ここでは、動画像として、５分間の野球映像を用いている（図７に示したような、被写体である野球選手に対して、様々な観客が多数映っている観客席が背景となっている動画像）。

比較手法は、変化した画素の面積に基づいて、シーンチェンジ（カット点）の検出を行う手法であり、提案手法は、これまで説明してきたように、変化ブロックの数に基づいて、シーンチェンジ（カット点）の検出を行う手法である。

図４に示すように、５分間の野球映像には、正解カット数（予め確かめられたカット点）が４５個含まれているはずであるが、比較手法による検出結果では、シーンチェンジ（カット点）の検出数が３８２個となっており、検出漏れが２個となっているので、過剰検出が３３９個（３８２−４５＋２）となっている。これに比べ、提案手法による検出結果では、シーンチェンジ（カット点）の検出数が９２個となっており、検出漏れが２個となっているので、過剰検出が４９個（９２−４５＋２）となっている。

このように、比較手法で過剰検出が生じた理由は、図５（ａ）に示したように、比較手法では、フレーム（フレームＮｏ）にハッチングを施した部分において、変化した画素の面積が連続して広くなる箇所が生じるからであり、この箇所にて、シーンチェンジであると連続して検出して、過剰検出が発生するからである。これに比べ、図５（ｂ）に示したように、提案手法では、フレーム（フレームＮｏ）にハッチングを施した部分において、
比較手法で過剰検出が発生している時間帯でも、変化ブロックの数は多くなっておらず、過剰検出が発生しない。

この比較（実験結果）からもわかるように、シーンチェンジ検出装置１によって動画像のシーンチェンジを行うと、過剰検出を抑制することができ、シーンチェンジの検出を高精度に行うことができる。

以上、本発明の実施形態について説明したが、本発明は前記実施形態には限定されない。例えば、本実施形態では、シーンチェンジ検出装置１として説明したが、当該装置１に含まれる各手段が実行する処理を、汎用的または特殊なコンピュータ言語によって記述したシーンチェンジ検出プログラムとして実現することも可能である。この場合、シーンチェンジ検出装置１と同様の効果を得ることができる。

本発明の実施形態に係るシーンチェンジ検出装置のブロック図である。フレームを所定数のブロック（Ｍ×Ｎ個のブロック）に分割することを説明した図である。類似度計算手段およびシーンチェンジ判定手段による処理について説明した図である。比較手法と提案手法との実験結果を示した図である。比較手法と提案手法とにおけるフレーム間差分の推移を示した図である。図１に示したシーンチェンジ検出装置の動作を説明したフローチャートである。従来手法ではシーンチェンジの過剰検出が発生してしまう動画像の例（野球選手が走っているシーン）について示した図である。

符号の説明

１シーンチェンジ検出装置
３分割手段
５特徴計算手段
５ａテクスチャ特徴ベクトル計算部
５ｂ色特徴ベクトル計算部
７類似度計算手段
９シーンチェンジ判定手段
１１シーンチェンジ時刻データ蓄積手段

Claims

入力された動画像のシーンチェンジを検出するシーンチェンジ検出装置であって、
前記動画像を構成する各フレームを所定の画像サイズのブロックに分割する分割手段と、
この分割手段で分割したブロックごとに、当該ブロックのエッジ量で示す特徴量、または、当該ブロックにおける各方向のエッジ画素対の数で示す特徴量、或いは、当該ブロックにおけるフラクタル尺度を利用した輝度変化が複雑な度合いを示す複雑度で示す特徴量における少なくとも１つの特徴量を計算した当該ブロックごとのテクスチャ特徴ベクトルを求める特徴計算手段と、
この特徴計算手段で求めた前記ブロックごとのテクスチャ特徴ベクトルについて、連続する前後のフレームにおける類似度を示す距離を計算する類似度計算手段と、
この類似度計算手段で計算した連続する前後のフレームにおける類似度を示す距離が予め設定した閾値を越えた前記ブロックを、前記フレームの構図の一部が変化したことを示す変化ブロックとし、前記前後のフレームにおいて当該変化ブロックの割合が予め設定した設定値以上になった場合に、後のフレームが入力された時刻をシーンチェンジ点とするシーンチェンジ判定手段と、
このシーンチェンジ判定手段で判定されたシーンチェンジ点に関する情報を、シーンチェンジ時刻データとして蓄積するシーンチェンジ時刻データ蓄積手段と、
を備えることを特徴とするシーンチェンジ検出装置。
前記特徴計算手段は、
前記ブロック内の全画素のＲＧＢ平均値、または、ＨＳＶ平均値を特徴量として計算した当該ブロックごとの色特徴ベクトルを求め、この色特徴ベクトルと前記テクスチャ特徴ベクトルとを合成した特徴ベクトルを求めることを特徴とする請求項１に記載のシーンチェンジ検出装置。
入力された動画像のシーンチェンジを検出するために、コンピュータを、
前記動画像を構成する各フレームを所定の画像サイズのブロックに分割する分割手段、
この分割手段で分割したブロックごとに、当該ブロックのエッジ量で示す特徴量、または、当該ブロックにおける各方向のエッジ画素対の数で示す特徴量、或いは、当該ブロックにおけるフラクタル尺度を利用した輝度変化の複雑な度合いを示す複雑度で示す特徴量における少なくとも１つの特徴量を計算した当該ブロックごとのテクスチャ特徴ベクトルを求める特徴計算手段、
この特徴計算手段で求めた前記ブロックごとのテクスチャ特徴ベクトルについて、連続する前後のフレームにおける類似度を示す距離を計算する類似度計算手段、
この類似度計算手段で計算した連続する前後のフレームにおける類似度を示す距離が予め設定した閾値を越えた前記ブロックを、前記フレームの構図の一部が変化したことを示す変化ブロックとし、前記前後のフレームにおいて当該変化ブロックの割合が予め設定した設定値以上になった場合に、後のフレームが入力された時刻をシーンチェンジ点とするシーンチェンジ判定手段、
として機能させることを特徴とするシーンチェンジ検出プログラム。