JP5181325B2

JP5181325B2 - カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法

Info

Publication number: JP5181325B2
Application number: JP2007206777A
Authority: JP
Inventors: 啓義森田; 敦典坂井; 康生政木; 浩乃坪田
Original assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS; Funai Electric Co Ltd
Current assignee: THE UNIVERSITY OF ELECTRO-COMUNICATINS; Funai Electric Co Ltd
Priority date: 2007-08-08
Filing date: 2007-08-08
Publication date: 2013-04-10
Anticipated expiration: 2027-08-08
Also published as: JP2009044422A; US8761260B2; US20090040390A1

Description

本発明は、動画像データから、ショットの分割位置であるカット部や、ショットの種類、複数の連続ショットからなるシーン等を検出するカット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法に関するものである。

近年、インターネットのブロードバンド化に伴い映像配信が行われ、衛星放送やケーブルテレビによるチャンネル数の増加により、ユーザが見ることのできる映像が増加している。また、ストレージ技術の急速な発展にともない、テラバイトを超える大容量のハードディスクを搭載したHDDレコーダも登場してきており、膨大な番組（コンテンツ）をPCやレコーダのハードディスクに保存することが一般的になってきており、個人で映像データを利用することが頻繁に行われている。
そして、前記のように映像データが多くなるほど、映像データ内の見たい場面を素早く探し出すことが困難となる。このようなことから、膨大なビデオデータから、必要なシーンを効率良く、素早くアクセスする技術が重要となってきている。

そこで、例えば、特許文献１に記載された発明では、画面内に占める芝の割合や、動きベクトル、歓声の特徴等から、特定のショットまたはシーンの一部を判定するようにしている。
また、特許文献２に記載された発明では、双方向予測符号化フレームの順方向予測符号化ブロック数、逆方向予測符号化ブロック数の大小関係を調べることにより、複数のショットの分割位置であるカット位置を検出するようにしている。

しかしながら、先の映像の繰り返しを映しているリプレイショットについては、その分割位置（カット部）やその範囲を検出するのが困難であった。
また、リプレイショット以外のショットに関しても、そのショットの種類を明確に分類したり、複数の連続ショットからなるシーンを、ストーリー上意味のある連続した場面として抽出するのは困難であった。
特開２００５−２５２８６０号公報特開平０７−２８４０７１号公報

本発明は上記従来事情に鑑みてなされたものであり、その課題とする処は、リプレイショットの先頭部分又は最後部分であるリプレイカット部を検出可能なカット部検出システム、リプレイショットおよびその他の特定のショットを精度良く判別することが可能なカット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法を提供することにある。

上記課題を解決するために本発明に係る技術的手段は、マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出する手段と、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別する手段と、を含むことを特徴とするカット部検出システムである。

更なる技術的手段では、前記判別条件には、連続する二つのＢフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上であるという条件が含まれていることを特徴とする。

更なる技術的手段では、前記判別条件には、連続する二つのＢフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内であって、このパターンとなる前記二つのＢフレームが、複数のグループオブピクチャ中で所定数以上あるという条件が含まれていることを特徴とする。

更なる技術的手段では、上記マクロブロックタイプ情報からフレーム毎の順方向予測符号化マクロブロックの数およびフレーム毎の逆方向予測符号化マクロブロックの数を求める手段を備え、前記判別条件に加える条件として、順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数とイントラ符号化マクロブロックの数との合計が所定数以上であるという条件と、逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数とイントラ符号化マクロブロックの数との合計が所定数以上であるという条件と、イントラ符号化マクロブロックの数が最頻度であるという条件と、の三つ条件の内の何れかを含むことを特徴とする。

更なる技術的手段は、前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする上記カット部検出システムを用いたショット検出システムである。

更なる技術的手段では、前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部が、連続する二つの瞬時カット点の間に位置する場合に、これら連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする。

更なる技術的手段では、前記連続する二つのリプレイカット部の内の一方と、この一方のリプレイカット部に連続する瞬時カット点との間に、所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする。

更なる技術的手段では、前記連続する二つのリプレイカット部の間に所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする。

更なる技術的手段では、動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、この動きベクトル情報からフレーム毎の動きベクトル量を求める手段と、前記抽出されたショットについて、その1ショット分の前記動きベクトル量をグループオブピクチャ数で割った平均の動きベクトル量を求める手段とを備え、前記平均の動きベクトル量が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする。

更なる技術的手段では、動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、各フレームのマクロブロック毎に動きベクトルの方向を所定数の方向に量子化する手段と、前記量子化により分類された動きベクトルの方向について、その分散度をフレーム毎に求める手段と、前記抽出されたショットについて、その1ショット分の前記分散度をグループオブピクチャ数で割った平均の分散度を求める手段とを備え、前記分散度が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする。

更なる技術的手段では、動画圧縮データから、Ｉフレーム毎に輝度成分Ｙ、色差成分Ｃｂ、色差成分Ｃｒを抽出する手段と、各Ｉフレームを平行な複数のラインに分割し、そのライン毎に、輝度成分Ｙ、色差成分Ｃｂ、色差成分Ｃｒ、色差成分の比ｒ＝Ｃｂ／Ｃｒが、それぞれ所定範囲内であるという色条件を満たすマクロブロックの数を求める手段と、Ｉフレーム毎に、前記色条件を満たすマクロブロック数が所定範囲以内であるラインの数の平均値を求める手段とを備え、前記平均値が所定範囲内であるＩフレームを含むショットを、特定のショットとして判別することを特徴とする。

更なる技術的手段では、Ｉフレーム毎に、前記ラインの変化に対する前記マクロブロック数の変化の度合を求め、その度合の最大値が所定範囲内であるＩフレームを含むショットを、特定のショットとして判別することを特徴とする。

更なる技術的手段は、前記ショット検出システムにより検出された各ショットに対し、その種類に応じたショット記号を付与することでショット記号列を作成する手段と、検出対象のシーンに対応するように複数の前記ショット記号を配列してなるモデルパターン記号列を記憶する手段と、前記ショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段とを備え、前記検出手段により検出された記号列に対応する前記動画像データの連続ショットを、特定のシーンとして認識するようにしたことを特徴とする上記ショット検出システムを用いたシーン検出システムである。

更なる技術的手段は、前記検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うことを特徴とする。

更なる技術的手段では、コンピュータが、マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出するステップと、コンピュータが、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求めるステップと、コンピュータが、Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別するステップと、を含むことを特徴とするカット部検出方法である。

本発明は、以上説明したように構成されているので、以下に記載されるような作用効果を奏する。
動画圧縮データからマクロブロックタイプ情報が抽出され、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数が求められる。
イントラ符号化マクロブロックは、リプレイショットの先頭側または最後側のＢフレームにおいて比較的多くなる傾向があるため、Ｂフレームに含まれるイントラ符号化マクロブロックの数が所定範囲内であることを判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別することができ、更には、連続する二つのリプレイカット部の間をリプレイショットとして判別することも可能である。

以下、本発明の実施の形態を図面に基づいて説明する。
図１は、本発明の一例を示すブロック図であり、本発明の特徴を明確にするために、一般的なＭＰＥＧ復号器の構成を同ブロック図に併せて記載している。

図１に示すように、ＤＶＤやハードディスク等の記録媒体に記憶された動画圧縮データは、バッファ１を経由して復号器２へ入力される。その一方で、本発明に係わるカット部検出システム及びショット検出システム並びにシーン検出システム３は、復号前の同動画圧縮データからＭＢＴ情報（マクロブロックタイプ情報）を抽出する。
これらの構成は、例えば、コンピュータやＤＶＤレコーダ等の装置、および該装置を機能させるためのプログラムや電子回路等として実現される。

復号器２は、可変長復号化、逆量子化、逆離散コサイン変換（ＩＤＣＴ）等の周知の復号処理により動画圧縮データを復号化する装置であり、この復号器２によって復号化された動画像はディスプレイ等の表示装置に表示される。

本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３は、動画像圧縮データから直接的にマクロブロックタイプ情報（以降、ＭＢＴ情報とも称する）を抽出し、そのＭＢＴ情報からマクロブロックタイプ記号列（以降、ＭＢＴ記号列とも称する）を作成し、このＭＢＴ記号列を用いて、瞬時カット点やリプレイカット部等のカット部を検出する。
そして、カット部検出システム及びショット検出システム並びにシーン検出システム３は、前記カット部を区切り位置とした動画像データを、リプレイショットを含む複数のショットに分割する。

次に、このカット部検出システム及びショット検出システム並びにシーン検出システム３は、動きベクトルや、輝度成分Ｙ、色差成分Ｃｂ、色差成分Ｃｒ、色差成分の比ｒ＝Ｃｂ／Ｃｒ等の特徴量に基づき、前記ショットを複数の分類パターンに識別し、各ショットに対し種類毎に異なるショット記号を付与し、ショット順に並ぶショット記号列を作成する。
更に、カット部検出システム及びショット検出システム並びにシーン検出システム３は、ショット記号列から照合処理（パターンマッチング処理）により特定のパターンを探索することでシーンを検出する。

前記動画圧縮データは、本実施の形態の一例によれば、サッカー試合動画像データを圧縮符号化してなるＭＰＥＧ２データを用いている。
ＭＰＥＧ２形式では，ビデオデータを圧縮する際に以下の３つフレームタイプを用いている。
・イントラフレーム(Intra-coded frame，I フレーム)
他のフレームの情報を使用せず、フレーム内圧縮のみ行うフレーム。
・前方向予測符号化フレーム(Predictive-coded frame，Ｐフレーム)
フレーム内圧縮のほかに、過去のＩフレーム及びＰフレームを参照フレームとして、時間軸上で順方向動き予測符号化を行うフレーム。
・双方向予測符号化フレーム(Bidirectionally predictive-coded frame，Ｂフレーム)
フレーム内圧縮のほかに、過去と未来のＩフレーム及びＰフレームを参照フレームとして，時間軸上で双方向予測符号化を行うフレーム。
ＭＰＥＧ２形式で圧縮されたビデオデータはグループオブピクチャ（以後GOP（Group Of Picture）と称する) 単位でまとめられており、通常、1 つのGOPは0.5 秒分となる15 フレーム分のデータで構成される。また，GOP 内のフレームタイプの構成はビデオデータごとに決まっており、本実施の形態では、IBBPBBPBBPBBPBB という通常のパターン、すなわち連続する２つのＢフレームを周期的に含むパターンを用いている。

GOPには、Closed GOPという方式と、Open GOPという方式が存在する。
Closed GOP とは、一つ前のGOP を参照しない方式であり、一つのGOP 内だけで符号化を行う。このため、GOPの最初の２つのB フレームは、すべてのマクロブロックが必ず逆方向予測となる。一方，Open GOP とは、一つ前のGOP を参照する方式である。GOP の始めの２つのB フレームも、順方向予測が可能となるため、Closed GOP よりもOpen GOP の方が、より符号化による圧縮率が高くなる。
また、Open GOP では、映像が切り替わる部分などにおいて、GOP 内のフレーム数が少なくなることがある。例えば、GOP を構成するフレーム数が、３フレーム，６フレーム，９フレーム，１２フレームといった３の倍数の数に減少する。この特徴を利用し、カット点検出の精度を上げることができる。
本実施の形態では、前記のような特徴を利用することで、比較的カット部の検出が行いやすく、また、圧縮効率もよいOpen GOP 方式で符号化されたMPEGデータを用いることとする。

次に、ＭＰＥＧ２における符号化方式について説明する。
通常MPEG圧縮においては1枚の画像フレームを8×8ブロックに細分化した上で、各ブロック毎に離散コサイン変換を行う。輝度4ブロックと、色差(Cb, Cr)の2ブロックをマクロブロックという。動き補償のブロックサイズは16 pixel×16 pixelであるのに対し，DCT（離散コサイン変換）のサイズは8pixel×8pixelであるためにそれらを結合する仕組みがマクロブロックである。このマクロブロックが参照画像への予測を行う単位となる。また、MPEGでは、符号化を行う際に前後のI，Pフレームに対して参照を行うことで圧縮効果を向上させる工夫が施されている。このため、マクロブロック単位での符号化には、Intra符号化，順方向予測符号化，逆方向予測符号化，双方向予測符号化の4種類の方法があり、各符号化方法は以下の特徴を持つ。

・Intra 符号化
他の画像を参照しないで画素値を復元する符号化方法。
・順方向予測符号化
過去の画像に対して参照を行うことで画素値を復元する符号化方法。
・逆方向予測符号化
未来の画像に対して参照を行うことで画素値を復元する符号化方法
・双方向予測符号化
順方向と逆方向の二つの予測を対応画素間で平均することで画素値を復元する符号化方法。

各マクロブロックは、前記４つの方式で符号化される。MPEG2には3種類のフレーム（I，P，B）がある。
I フレームはIntra 符号化のみを選ぶことができる。
PフレームはIntra符号化に加え、直前のIフレームもしくはPフレームを参照フレームとする順方向予測符号化を選ぶことができる。
Bフレームは、それらに加え、直後のI，P フレームを参照フレームとする逆方向予測符号化と、直前、直後のI，P フレームを参照フレームとする双方向予測符号化を選ぶことができる。

各フレームはマクロブロックと呼ばれる単位に分割されており、個々のマクロブロックごとにマクロブロックタイプと呼ばれる属性が割り当てられている。各フレーム毎に選ぶことのできる符号化方法を使ってマクロブロックの符号化が行われる。
前記４つの符号化方式のうちどの方法を選ぶかは符号化の段階においてマクロブロック単位で決められ、本実施の形態が扱う動画圧縮データであるMPEG符号化データの中にマクロブロックタイプとして埋め込まれている。

次にＭＰＥＧ２のフォーマットについて説明する。
動画像には422と420というコンポーネントディジタル化された形式がある。
422fomatでは、輝度画像が720pixelx480pixelの大きさの場合は、2つの色差画像は横方向にサブサンプル(例えば間引き)された各360pixel x 480 pixelの縦長な形をしている。
一方，420fomat というのは，図２に示すように色差をさらに縦方向にもサブサンプルした画像形式をいう。色差画像の大きさは縦横とも輝度画像の1/2 になる。これがもっとも一般的に動画像符号化で使われる形式である。420の一例では、輝度画像(Y)と縦横比の一致した2 つの色差画像(Cb,Cr)がセットになって扱われる。また、各フレームは45 × 30 のマクロブロックから構成されている。
本実施の形態で用いるMPEG データは、この420 でコンポーネントディジタル
化された形式の動画像を用いる。

次に、本実施の形態においてＭＰＥＧ２データから抽出され、カット部の検出、及びショットの判別に用いる特徴量について説明する。
本実施の形態では、ＭＰＥＧ２データから、以下の３つの情報を抽出して利用する。
・マクロブロックタイプ
・動きベクトル
・マクロブロックの輝度，色差（DC 成分）

マクロブロックタイプとは、各マクロブロックが前後のどのフレームを参照しているかを表した情報である。上記したように、マクロブロック単位での符号化方式には、４種類の方式があり、この４つの方式が以下の４つのマクロブロックタイプに対応する。
・Intra符号化マクロブロックタイプ
・順方向予測符号化マクロブロックタイプ
・逆方向予測符号化マクロブロックタイプ
・双方向予測符号化マクロブロックタイプ
これら４種類のマクロブロックタイプは、マクロブロック毎に対応するコードとしてＭＰＥＧ動画圧縮データのマクロブロック層に書き込まれている。

Bフレームでは、４つのマクロブロックタイプを選択することができ、参照する画像によって、１フレーム内のそれぞれのマクロブロックタイプの数に大きな偏りが見られる。このような特徴を利用し、映像の切り替わる点を検出することができる。
また、カラー画像はRGBの3つの値または3つの画像で表される。これを線形変換して、輝度(Y)と2つの色差(Cb,Cr)で表わすと、色差画像の空間分解能を減らすことができる。輝度とは明るさを表し、色差とは色の度合いを表すものである。

MPEGでは、符号化を行う方法として、冗長な情報を削減するために、離散コサイン変換（DCT）が行われる。DCTは画像信号を少ない低域係数に集中させる働きを持ち、画像の空間的方向の情報量削減に使われており、固定の変換係数の直交変換のなかでは画像符号化に最も有効な変換とされている。
DCT後の直流成分をDC成分と言い、8 pixel × 8 pixel ブロックの平均値を表しているため、特徴量に用いる色情報として、輝度・色差のDC 成分を用いる。マクロブロックでの輝度・色差成分を図３に示す。図３のように、420 フォーマットでは、一つのマクロブロックに４つの輝度成分とそれぞれ１つのCb，Cr の色差成分が含まれる。この輝度・色差のDC 成分を用いることで、グラウンドエリアの色情報を抽出し、ショットの判別に利用する。また、ショット判別に用いる特徴量としては、一つのマクロブロックにおいて、Cb，Cr の色差成分と、４つの輝度ブロックのうち左上の１つの輝度成分のみを利用する。

次に、本実施の形態で用いる動きベクトルについて説明する。
動きベクトルとは、現在の画像における予測画像の差分を求めるときの、現画像のマクロブロック位置と予測画像の参照を行う位置とのピクセル単位でのずれ量を表す。
この動きベクトルは、MPEG2の場合16pixel × 16pixel 単位のマクロブロックで発生し、現マクロブロックから参照する位置までの距離をx 成分とy 成分で表す。このとき、x 成分は右方向が正，y 成分は下方向が正となる。
また，過去の画像との差分を表したものを順方向動きベクトルと呼び、未来の画像との差分を表したものを逆方向動きベクトルと呼ぶ。
I フレームでは、フレーム間予測を行っていないので、動きベクトルが発生しない。P フレームでは、過去のIまたはPフレームとフレーム間予測を行うため、順方向動きベクトルのみ発生する。B フレームでは、過去と未来、両方のI,P フレームを参照できるため、順方向動きベクトル、逆方向動きベクトルの２つの動きベクトルが発生する。動きベクトルは、フレーム間予測を行うため、映像における動きの特徴や、カメラの動きに対応した映像の流れの特徴を表している。
本実施の形態では、この動きベクトルをショット分類の判別を行うための特徴量として利用する。また、動きの特徴を求めるために十分な量と考えられるP フレームとB フレームにおける順方向動きベクトルのみを特徴量として用いる。

図４は、本実施の形態が、動画圧縮データのどのフレームからどのような特徴量を抽出するのかを示している。
すなわち、I フレームからは、マクロブロックの輝度・色差のDC成分を取り出す。そして、P,Bフレームからは、順方向動きベクトルを取り出す。これら輝度・色差と動きベクトル等の情報は、ショット分類の判別に利用する。
また、Ｂフレームからは、マクロブロックタイプを取り出す。このマクロブロックタイプは、カット点およびリプレイカット部の検出に用いる。

ここで、サッカー試合映像を一例にして、シーン、ショット、カット点、リプレイカット部等の概念を、詳細に説明する。
シーンとは、ストーリー上意味のある連続した場面の動画像であり、例えば、選手がシュートをしたシーン（ゴールはしていない）や、選手がシュートしたボールがゴールしたゴールシーン等である。このシーンは、図５に示すように、時系列順に複数連続して、例えばサッカー試合映像等の一つの動画像を構成する。

そして、各シーンは、図５に示すように、連続する複数のショットから構成される。ショットとは、通常１台のカメラが捉えた時間的かつ空間的に連続した場面を意味し、各ショットは連続する複数のフレームからなる。
本実施の形態におけるショットには、前後のカット点により区分されたショットと、前後のリプレイカット部により区分されたリプレイショットとを含む。

本実施の形態では、ショットを以下のように分類し定義している。なお、以下の左側の括弧内の数字は、後述するショット検出で用いるショット記号を示している。
(1)センターロングショット（Center Long Shot）
グラウンド全体を映しているショットであって、最後の３つのグループオブピクチャ（以後GOPとも称する）がゴール付近の画面でないショット。
(2)ゴールロングショット（Goal Long Shot）
グラウンド全体を映しているショットであって、最後の３GOPがゴール付近の画面であるショット。
(3)クローズアップショット（Close-up Shot）
選手のアップを映しているショット。
(4)アウトフィールドショット（Out-field Shot）
観客などフィールド外を映しているショット。
(5)リプレイショット（Replay Shot）
先の映像の繰り返し（リプレイ）を映しているショット

上記５つのショット中、（１）〜（４）の各ショットは、その前後のカット点の間に位置する動画像の範囲である。カット点とは、カメラの切り替わりにより生じた映像の切り替わり点のことである。
一般的に、カット点には、映像が急激に変化する瞬時カット点（ハードカット点とも呼称される）や、ディゾルブカット点、ワイプカット点、その他の特殊なカット点等があるが、本実施の形態で扱うカット点は瞬時カット点である。
また、上記（５）のリプレイショットの最前部と最後部に位置するリプレイカット部は、本実施の形態では前記カット点と区別し、後に詳述する。

各ショットを構成している複数のフレームは、図６に示す再生順のデータであるが、符号化されるときに順番が入れ替えられることで、同図６に示すビットストリーム順のデータとなる。
更に、このビットストリーム順のデータは、復号化されるときに順番が入れ替えられることで、元の順番（前記再生順と同じ順番）に戻され、同図６に示す出力順のデータとなる。
本実施の形態では、前記再生順または出力順のことを、フレーム順と称する。

次に、上記リプレイショット及びリプレイカット部の概念について説明する。
スポーツ映像でのリプレイとは，シュートや，ゴール，ファウルなど視聴者が特に興味のあるシーンがあったときに、数秒後に再び同じシーンを、様々な角度のカメラからの映像がスローモーションなどの効果が加えられ、再生される場面のことを言う（図７参照）。
リプレイに加えられる特殊な編集効果に着目すると、スポーツ映像では、リプレイ部分の始めと終わりに特殊なショット切り替え操作が加えられる場合が多い。例えば，図８に示すような特殊な画像が入る場合や、ワイプカットなどの特殊なショット切り換え操作が入ることもある。このようなリプレイ部分の始めと終わりでの特殊な切り替え操作をDVE (Digital Video Effect) と呼ぶこととする。
本実施の形態で用いるサッカー試合動画像には、図８に示すように、サッカー試合映像に対し、該サッカー試合映像以外の映像（例えば、画面の略全体を覆うボールや旗等の画像）を重ね合わせてなるオーバーレイ画像を、前記DVEの一例として含んでいる。

本実施の形態では、DVE が入るリプレイ部分の始めと終わりの部分をリプレイカット部と称し、連続する二つのリプレイカット部で挟まれる映像区間をリプレイショットと称する。なお、リプレイショットの映像区間では、映像の切り替わり点として、ディゾルブカット点が用いられる場合があるが、図９に示すように、このディゾルブカット点をカット点とせず、リプレイカット部間のリプレイショットを一つのショットとして判断する。

次に、本実施の形態による瞬時カット点（リプレイカット部を含まない）の検出について詳細に説明する。
瞬時カット点が発生する位置は、一対の連続したＢフレーム（Ｂ_i，Ｂ_i+1）に注目すると、以下の(i)，(ii)，(iii)，(iv)，(v)の場合に分類される。
(i) B_iの直前にカット点が存在する場合
(ii) B_iとB_i+1の間にカット点が存在する場合
(iii) B_i+1の直後にカット点が存在する場合
(iv) B_iのフレーム上にカット点が存在する場合
(v) B_i+1のフレーム上にカット点が存在する場合
以下に、それぞれの場合が生じたとき，Bフレームの符号化にどのような影響があるのかについて説明する。
なお、以下の(i)〜(v)の場合の説明では、B_iの直前がＩフレーム、B_i+1の直後がＰフレームの場合を例にして説明しているが、B_iの直前のフレームとB_i+1の直後のフレームの組み合わせとしては、（Ｉ，Ｐ）（Ｐ，Ｐ）（Ｐ，Ｉ）のいずれの場合も、数が多くなるマクロブロックタイプは同じである。

(i)の場合には、図１０（ａ）に示すように、B_i，B_i+1は直前のＩもしくはＰ（図ではＩを例示）を参照しても類似した値を得ることができないため、類似した直後のＩもしくはＰ（図ではＰを例示）に対して参照を行う。そのためB_i，B_i+1共に逆方向予測を行うマクロブロックの数が多くなる。

(ii)の場合には、図１０（ｂ）に示すように、画像の類似性からB_iは直前のＩもしくはＰ（図ではＩを例示）に対しての参照を行い、B_i+1は直後のＩもしくはＰ（図ではＰを例示）に対して参照を行う。そのためB_iは直前のＩもしくはＰ（図ではＩを例示）に対しての順方向予測符号化を行ったマクロブロックの数が多く、B_i+1 は直後のＩもしくはＰ（図ではＰを例示）に対しての逆方向予測符号化を行ったマクロブロックの数が多くなる。

(iii)の場合には、図１０（ｃ）に示すように、画像の類似性からB_i，B_i+1共に直前のＩもしくはＰ（図ではＩを例示）に対して参照を行う。そのためB_i，B_i+1 ともに、直前のＩもしくはＰ（図ではＩを例示）に対しての順方向予測化を行ったマクロブロックの数が多くなる。

(iv)の場合には、図１１（ｄ）に示すように、イントラ符号化されるマクロブロックが発生するという特徴がある。これは、１枚のフレームが縦方向に１列おきのピクセルで２枚のフィールドで構成されるフィールド構造の場合に顕著に生じる。また、Bi+1 では、Pと画像が類似していることにより、逆方向予測マクロブロックが多くなる。

(v)の場合には、(iv)のときと同様に、Bi+1フレーム上に、図１１（ｅ）に示すように、イントラ符号化されるマクロブロックが発生するという特徴がある。また、Biでは、Iと画像が類似していることにより、順方向予測マクロブロックが多くなる。

以上の傾向はフレーム毎のＭＢＴ情報に反映されており、このことは、本願発明者が、一般的な市販のＭＰＥＧ２エンコーダにより符号化された動画圧縮データを用いて、実験的に確認している。
以上のことに基づき、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３では、フレーム毎のＭＢＴ情報から特定のマクロブロックタイプが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のＭＢＴ記号を付与するとともに、このＭＢＴ記号をフレーム順に対応するように並べることで、ＭＢＴ記号列を作成し、このＭＢＴ記号列中におけるＭＢＴ記号の配列的特徴から動画像のカット点を判別している。

より具体的に説明すれば、先ず、各フレームのＭＢＴ情報から、イントラ符号化マクロブロック（以降、mbIntraとも称する）の数、順方向予測符号化マクロブロック（以降、mbForwardとも称する）の数、逆方向予測符号化マクロブロック（以降、mbBackとも称する）の数、双方向予測符号化マクロブロック（以降、mbInterとも称する）の数、その他の符号化マクロブロック（以降、mbOtherとも称する）の数を、それぞれ求める。

次に、図１２の表に示すように、各条件（表中の右列内）を満たすＢフレームに対し、対応するマクロブロックタイプ記号０，１，２，３，４，５，６，７，８の何れかが付与される。
なお、図１２の表中では、前記マクロブロックタイプ記号の項目名を、Frame Typeと表現している。

すなわち、図１２の表中においてマクロブロックタイプ記号が「０」となる場合を一例にして、詳細に説明すれば、フレーム毎のＭＢＴ情報の頻度的特徴として、Ｂフレームであって、順方向予測符号化マクロブロック（mbForward）の頻度が最大であり、且つ、逆方向予測符号化マクロブロックと双方向予測符号化マクロブロックの数の合計（mbBack＋mbInter）が所定の閾値ｔ（図示例によれば１００）よりも小さい場合には、その頻度的特徴を、予め設定されたマクロブロックタイプ記号である数字の「０」という記号により表す。
すなわち、前記条件を満たすフレームに対し、マクロブロックタイプ記号である「０」という記号が付与される。
その他、マクロブロックタイプ記号が１，２，３，４，５，６，７，８の各々となる場合についても、同様に処理される。

また、マクロブロックタイプ記号が「７」となる場合の条件は、マクロブロックタイプ記号が、２、５、６の内の何れかとなる条件が満たされ、且つ、イントラ符号化マクロブロックの数が所定数（例えば１００）以上であることを満たす。
より詳細に説明すれば、順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数（図示例によれば３５０）以上であるという条件と、逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数（図示例によれば３５０）以上であるという条件と、双方向予測符号化マクロブロックの数が最頻度という条件との三つ条件の内の何れかが満たされ、且つ、イントラ符号化マクロブロックの数が所定の閾値（例えば１００）以上であることを満たす。

同様に、マクロブロックタイプ記号が「８」となる場合の条件は、マクロブロックタイプ記号が、２、５、６の内の何れかとなる条件が満たされ、且つ、イントラ符号化マクロブロックの数が所定範囲内（図示例によれば２０〜１００の範囲内）であることを満たす。

なお、図１２の表中、マクロブロックタイプ記号が「２」、「５」、「７」となる場合の条件について、閾値の上限が記載されていないが、この上限値は、１フレーム中におけるマクロブロックの最大数（例えば１３５０）としてもよいし、他の適宜な値を設定するようにしてもよい。
また、表中の閾値（２０，１００，３５０等）は、実験的に予め設定されたものであり、動画の種類やその他の条件に応じて適宜変更してもよい。

そして、上記のようにしてフレーム毎に付与されたマクロブロックタイプ記号は、フレーム順に並べられることで、一連のＭＢＴ記号列（例えば「０２３５６７１１８３１４・・・」等）を構成する。
したがって、このＭＢＴ記号列において、各ＭＢＴ記号は、対応するフレームにおける特定のマクロブロックの頻度的特徴を表していることになる。

なお、上記態様によれば、Ｂフレームのみに上記ＭＢＴ記号を付与することを説明しているが、Ｂフレームに対応するＭＢＴ記号のみからＭＢＴ記号列を作成する構成としてもよいし、他例としては、Ｂフレーム以外のフレーム（例えばＩフレームやＰフレーム）にも適当なＭＢＴ記号を付与し、Ｂフレームに対応するＭＢＴ記号と、Ｂフレーム以外の前記フレームに対応するＭＢＴ記号と、の双方のＭＢＴ記号の配列によりＭＢＴ記号列を作成するようにしてもよい。

ｂ次に、カット部検出システム及びショット検出システム並びにシーン検出システム３は、以下に示すように、上記ＭＢＴ記号列中におけるＭＢＴ記号の配列的特徴に応じて、瞬時カット点の位置を判断する。

すなわち、図１３に示すように、上記一連のＭＢＴ記号列について、連続するペアのＢフレームに対応する二つのＭＢＴ記号ｂ１，ｂ２に注目し、その配列パターンに応じて、以下のように、二つのＭＢＴ記号ｂ１，ｂ２の直前、直後、間の何れかに瞬時カット点があると判定する。

以下、左二桁の数字は、前記二つのＭＢＴ記号ｂ１，ｂ２の配列パターンを示し、これら数字の右側には、前記配列パターンに応じて判定される瞬時カット点の位置を示す。
00：末尾の０の後にカット点があると判定する。
0*： 0の直後にカット点があると判定する。なお、＊は０以外の数とする。
*3： 3の直前にカット点があると判定する。なお、＊は３以外の数とする。
33：先頭の３の直前にカット点があると判定する。
11：末尾の1の直後にカット点があると判定する。
14： 1と4の間にカット点があると判定する。
44：先頭の4の直前にカット点があると判定する。
17： 1と7の間にカット点があると判定する。
18： 8の直後にカット点があると判定する。
84： 8の直前にカット点があると判定する。
74： 7と4の間にカット点があると判定する。

次に、リプレイカット部の検出について説明する。
リプレイショットの始めと終わりに入るDVE には、Bフレームにおいてイントラ符号化されるマクロブロックの割合が多くなるという傾向がある（図１４参照）。これは、挿入される画像や、映像の切り替わりが激しく変化するためだと考えられる。本実施の形態では、このことを判別条件として利用することで、リプレイカット部を検出するようにしている。

具体的に説明すれば、以下の二つの判別条件を用いる。
（１）連続する二つのＢフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上（図１２の一例によれば１００以上）であるという条件。
（２）連続する二つのＢフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内（図１２の一例によれば２０以上１００未満）であって、このパターンとなる前記二つのＢフレームが、複数（例えば２つ）のグループオブピクチャ中で所定数以上（例えば２〜３以上、好ましくは３以上）あるという条件。
そして、以上の（１）と（２）の内の何れか一方の判別条件を満たす場合に、前記Ｂフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する。なお、前記Ｂフレームをリプレイカット部とすることも可能である。

リプレイカット部の判別について、より詳細にすれば、上記ＭＢＴ記号列中に二つのＭＢＴ記号ｂ１，ｂ２の内の何れかが「７」であるという条件を満たすパターンが存在した場合には、このパターンが存在するグループオブピクチャを、リプレイカット部とする。
また、上記ＭＢＴ記号列中に、二つのＭＢＴ記号ｂ１，ｂ２の内の何れかが「８」であるペアが連続する二つのグループオブピクチャ中に３ペア以上あるという条件が満たされる場合も、このパターンが存在するグループオブピクチャを、リプレイカット部と判別する。

次に、リプレイショットの検出について説明する。
本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３では、上記（１）又は（２）の条件により判別したリプレイカット部の間をリプレイショットとして判別する。
特にその判別精度を向上するために、より好ましくは、図１５に示すように、連続する２つの瞬時カット点の間に２つのリプレイカット部のパターン（上記（１）又は（２）の条件を満たすパターン）が存在し、さらに、前記瞬時カット点とこの瞬時カット点に連続するリプレイカット点との間が2GOP 以上あり、且つ、前記２つのリプレイカット点間においても6GOP以上あるとき、これら２つのリプレイカット部の間の区間をリプレイショットとする。
この構成によれば、特に動きの激しいシーンにおいて、イントラ符号化されるマクロブロックが多い場合に、このようなフレームをリプレイショットと誤判断するのを防ぐことができる。

よって、上記構成によれば、連続する２つの瞬時カット点間に１つだけリプレイカット点パターンが存在する場合や、瞬時カット点とリプレイカット点の間が2GOP以上ない場合、連続するリプレイカット点間が6GOP以上ない場合では、リプレイショットとして判断されない。

次に、ショットの分類について説明する。
サッカー中継での映像のそれぞれのショットを、基本的に図１６のような(1)Center Long Shot（センターロングショット），(2)Goal Long Shot（ゴールロングショット）、(3)Close-up Shot（クローズアップショット），(4)Out-field Shot（アウトフィールドショット），(5)Replay Shot（リプレイショット）の５つのパターンに分類する。
そして、動画像データから抽出された各ショットを、前記分類に応じて異なるショット記号により表す。このショット記号は、本実施の形態の一例によれば、前記各ショットの先頭に付された番号（１〜５の何れか）としている。

本実施の形態では、ショット分類の判別に用いる特徴量の一つとして、MPEGデータ内の動きベクトルを用いる。動きベクトルでは、前後の参照するフレームのマクロブロック位置を表すため、各ショットでは、映像のカメラワークや選手の動きの速さに応じて、動きベクトルの大きさも変化する。動きベクトルは、P,B フレームから動きベクトルを取り出し、各GOPにおいて、その動きベクトルの総量Mを数１（式(4.1)）から求める。

本願発明者の実験によれば、(1)Center Long Shotでは、選手が大きく映っていないために動きベクトルがカメラワークに大きく影響される．カメラワークが左右に動くときと止まっているときがあるため、それに伴い、数１（式(4.1)）で表される動きベクトル量の変動も大きくなり、１ショットでの平均動きベクトル量は小さくなる傾向にある。
また、(3)Close-up shot では、選手が大きく映っているため、動きベクトルが選手の動きに大きく影響される．大きく映されている選手が常に動いているために、前記動きベクトル量の変動も小さくなり、１ショットでの平均動きベクトル量は大きくなる傾向にある。

(1)Center Long Shot と(3)Close-up shot の１ショットにおけるGOP 単位での動きベクトル量の推移を図１７に示す。
図１７のように動きベクトル量の推移に明確な違いがあることがわかる。１ショットの動きベクトル量をGOP 数で割った平均の動きベクトル量バーM（バーＭはＭの平均を表すものとする）において、(1)Center Long Shot ではバーMは比較的小さい値となり、(3)Close-upshot では、バーM はLong Shot と比べて大きい値となる。このバーMをLong ShotとClose-up shot の判別に利用する。
また，(2)Goal Long Shot も(1)Center Long Shot と同じLong Shot であるので、同様の傾向を示す。

次に、動きベクトルの方向による分散値について説明する。
各ショットでは、動きベクトルの参照するマクロブロック位置の方向にそれぞれ特徴があることから、動きベクトルの方向をショット分類の判別に利用する。
(1)Center Long Shotでは、選手が大きく映っていないために、動きベクトルの方向はカメラワークの動きの方向になり、フレーム内のそれぞれの動きベクトルの方向はほぼ同じ向きとなる。
(3)Close-up shotでは、選手が大きく映っているため、動きベクトルの参照位置も選手の部位の動きに合わせて、様々な方向となることから、それぞれの動きベクトルの方向も分散する。

本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３は、動きベクトルの方向を図１８のように上下左右の４つの方向に量子化し、各方向に分類されるＰ，Ｂフレームでのマクロブロック数を求める。

図１９は、(1)Center Long Shotと(3)Close-up shotの一例において、図１８の方向の量子化による１フレームでのマクロブロック数の値を示している。この図から、(1)Center Long Shotでは動きベクトルの方向が一方向に集中しており、それに比較して、(3)Close-up shotでは４方向へ分散していることがわかる。

量子化されたマクロブロック数から、各方向の偏りを求めるために、以下の数２（式(4.2)）から分散度Ｄを算出する。分散度ＤをP,Bフレームから１フレームずつ計算し、1GOPごとにその平均を求める。

そして、(1)Center Long Shotと(3)Close-up shotの１ショットにおけるGOP単位での分散度Ｄの推移、および、１ショットでのＤの平均値バーD（バーＤはＤの平均を示すものとする）をそれぞれ図２０、図２１に示す。これらの図より、１ショットでのＤの平均値バーDが、(1)Center Long Shotでは約0.2、(3)Close-up shotでは約0.65となり、分散度に大きな違いがあることがわかる。
本実施の形態によれば、前記バーDを(1)Center Long Shotと(3)Close-up shot の判別に用いる。

次に、色成分によるグラウンド領域の判別について説明する。
Long Shot の中において、ゴールエリア付近の画面では、グラウンドのセンター付近の画面に比べ、グラウンド領域の境界線の傾きが大きくなるという特徴がある。本実施の形態では、この特徴を利用することで、Long Shotの中で、(1)Center Long Shotと(2)Goal Long Shotを判別する。

グラウンドの領域を抽出する特徴量としては、MPEGデータ内の輝度・色差成分の色情報を用いる。グラウンド、つまり、芝の色情報としての輝度・色差( Y , Cb,Cr )の範囲をあらかじめ定めておき、その範囲内の輝度・色差を持ったマクロブロックをグラウンド上のブロックと判別する。
本実施の形態の一例では、輝度、色差、そしてこれらの比r = Cb/Crの範囲を数３（式(4.3)）のように定めた。芝の色には、色差成分の割合であるrに一定の値となることから、rとCb, Crの色差の範囲と、明るさを表す輝度Yの範囲を定めることで芝領域に含まれるマクロブロックを抽出することができる。

より具体的に説明すれば、カット部検出システム及びショット検出システム並びにシーン検出システム３は、Ｉフレームを平行な複数の水平状のラインに分割し、このライン毎に、輝度成分Ｙ、色差成分Ｃｂ、色差成分Ｃｒ、色差成分の比ｒ＝Ｃｂ／Ｃｒが、それぞれ数３（式(4.3)）で示される色条件を満たすマクロブロックの数を求める。
本願発明者の実験によれば、前記数３（式(4.3)）を用いることで、グラウンド領域を正確に抽出することができ、例えば、選手が着用している緑色のユニフォームを避けることができる上、スタジアムの影となっているグラウンド部分の芝を抽出することもできた。

グラウンド領域の境界線の傾きを表すために、抽出したグラウンド部分のマクロブロックの個数を横一列のライン毎に加算した水平投射グラフを図２２、図２３、図２４に示す。
また，同図２２、図２３、図２４の各々には、グラウンド領域の水平投射グラフから、一定の範囲内（例えばrange=3）で、最小２乗法により、グラフの傾きを算出し、その範囲を１つづつずらしていくことで、前記水平投射グラフの傾きを表す。
すなわち、前記水平投射グラフの傾きとは、各フレームを平行な複数の水平ラインに分割した場合において、前記水平ラインを垂直方向へ変化させた場合の変化量に対する、芝を示すマクロブロック数の変化の度合を示すことになる。

なお、前記最小２乗法とは、n個のデータ(x1, y1), (x2, y2), ・・・， (xn, yn) が得られたときに、最もフィットする直線をy=ax+bとし、この傾きaを数４（式(4.4)）から求める。

図２２、図２３、図２４によれば、垂直方向をｙ軸、水平方向をｘ軸とする。

図２２，図２３，図２４は、代表的な(1) Center Long Shot，(2) Goal Long Shot，(3) Close-up Shotの一例について、左から順に、その代表フレームの画像、グラウンド領域の水平投射グラフ、水平投射グラフの傾きを示している。

本実施の形態の一例では、図２２，図２３，図２４から、グラウンド領域のマクロブロック数が40以上の位置（ライン）の数Ｘと、グラウンド領域のマクロブロック数が5以下の位置（ライン）の数Ｙと、傾きの大きさの最大値Ｚとの３つの数値を求める。
そして、これらの３つの特徴量を、 (1)Center Long Shot，(2)Goal Long Shot，(3)Close-up Shot，(4)Out-field Shot等の判別に用いる。

すなわち、図２２の(1)Center Long Shotでは、グラウンド領域の境界線が水平方向の直線となるので、水平投射グラフの傾きの最大値Zは大きくなる。さらに、水平方向におけるグラウンド領域のマクロブロック数が40以上となる垂直方向の位置数Xが20 以上となり、40以上の位置数Xと5以下の位置数Yが垂直方向の位置での大部分を占めるため、X + Y は25 以上となる。

一方，図２３の(2)Goal Long Shotでは、グラウンド領域の境界線が水平方向に対しての傾きが緩やかになるため、水平投射グラフの傾きの最大値Zは(1)Center Long Shotより小さくなる。また、Xは、(1)Center Long Shotよりも領域が小さくなるので、Xの範囲が10以上から20未満となり、X+Yは10以上から25未満となる。

図２４の(3)Close-up Shotでは、選手が映っているので、グラウンド領域と判断されるマクロブロックが少なくなる。このため、Xの領域とYの領域が小さくなることから、X+Yが15未満となる。

また、図２６のように、Iフレーム内におけるグラウンド領域のマクロブロック数Tにおいて、(1)Center Long Shotでは、グラウンド領域のマクロブロックが多く、(3)Close-up Shotではグラウンド領域のマクロブロックが少ないという特徴がある。よって、GOPのIフレーム内のグラウンド領域と判断されたマクロブロック数Tをショット判別に利用する。

そして、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３は、リプレイショット以外のショットの判別に用いる特徴量として、以下の値をそれぞれ算出する。
バーM：1ショットでの動きベクトル量の平均。
バーD：1ショットでの動きベクトルの分散値の平均。
バーT：ショットの最後の3GOPのIフレームにおけるグラウンド領域のマクロブロック数の平均。
バーX：ショットの最後の3GOP のI フレームにおける横一列のグラウンド領域が40以上の位置数（ライン数）の平均
バーY：ショットの最後の3GOPのIフレームにおける横一列のグラウンド領域が5以下の位置数（ライン数）の平均。
バーZ：ショットの最後の3GOP のI フレームにおけるグラウンド領域の傾きの最大値の平均。

上述した動きベクトル、及び色情報の特徴量を用いたショット判別の流れは，図２７に示すようになる。

詳細に説明すれば、先ず、カット部検出システム及びショット検出システム並びにシーン検出システム３は、上記瞬時カット点によって区切られたショットであって、上記リプレイショット以外のショットについて、バーY≧２７であって、かつ（バーＤ≧０．８又はバーＭ≦４００００）の条件を満たす場合には、そのショットを、(4)Out-field Shotと判別する。そして、そうでない場合には、以下の処理を行う。

次に、バーＹ≧１５、バーＴ≦２００、バーＤ≧０．５、バーＭ≧６００００の内、何れか一つの条件を満たす場合には、前記ショットを、(3)Close-up Shotと判別する。そうでない場合には、以下の処理を行う。

次に、４≦バーＺ≦１１、８≦バーＸ≦１８、１０≦（バーＸ＋バーＹ）≦２５の三つの条件をすべて満たす場合には、前記ショットを、(2)Goal Long Shotと判別する。そうでない場合には、以下の処理を行う。

次に、（バーＸ＋バーＹ）≦１４という条件を満たす場合には、前記ショットを(3)Close-up Shotと判別し、そうでなければ、前記ショットを(1)Center Long Shotと判別する。

なお、図２７中の各閾値は、ショット判別の対象がサッカー試合映像である場合に特に好ましい一例を示すものである。

また、図示例によれば閾値の上限又は下限を特定していない条件があるが、以下のように適宜な値に特定してもよい。
例えば、バーＹの最上限値は、１フレームにおける垂直方向の最大マクロブロック数（例えば３０）とすることが可能である。
また、バーＤの最上限値は、例えば１とすることが可能である。
また、バーＭの最下限値は、例えば０とすることが可能である。
また、バーＭの最上限値は、例えば１ショット中の全ての動きベクトルの量とすることが可能である。
また、バーＴの最下限値は、例えば０とすることが可能である。
また、（バーＸ＋バーＹ）の最下限値は、例えば０とるすことが可能である。

次に、上記のようにして判別された５つのショットについて、その配列的な特徴からシーンを判別する手段について説明する。
本実施の形態では、検出するシーンとして、ゴールシーンと、シュートシーンを対象とする。ゴールシーンの定義として、シュートしたボールがゴール内に入り、得点が入る場面のこととする。

一方、シュートシーンの定義は、攻撃している側の選手が守備側のゴールに向かってシュートし、ボールがゴールの枠内に入らず、ゴールラインを割る場面のこととする。具体的には、攻撃側の選手が蹴ったボールが直接、または、キーパーが弾くなどして、守備側のペナルティエリア内のゴールラインを割り、さらに、シュートのショットの後に、リプレイショットが挿入される場面を対象にしている。すなわち、リプレイショットが入るシーンは、番組の製作者が注目している場面であり、視聴者が特に見たい重要な場面であると考えられるためである。

ゴールシーンなどの特定のシーンには、一連のショットの移り変わりに典型的なパターンが存在する。例として，ゴールシーンのショットの流れと、シュート（ゴールはしていない）シーンでのショットの流れをそれぞれ図２８と図２９に示す。

図２８に示すように、一般的なサッカー試合映像のシュートシーンでは、(2)Goal Long Shotの後、(3)Close-up Shotが１〜３ショット入り、その後(5)Replay Shotが１〜２ショット入る傾向にある。
一方、図２９のようなゴールシーンでは、(2)Goal Long Shot の後に、(3)Close-up Shotがシュートシーンより多く３〜５ショット入り、間に(4)Out-field Shotも入ることが多い。また、リプレイショットの数も３〜４ショットとシュートシーンよりも多い傾向にある。
本実施の形態は、このようなショットの遷移パターンの特徴を利用することで、ゴールシーンとシュートシーンを区別し、検出するようにしている。

すなわち、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３は、各ショットを図１６の分類によって，記号化，つまり，各ショットのラベル付けを行ない、映像データを対応するショットの記号列に置き換える。
図２８や図２９のように特定のシーンには特定のショットの移り変わりにパターンがあることから、ショットの記号列においてもシーン固有の典型的なパターンが存在する。このようなシーンの典型的な記号列パターンと、映像データの記号列とについて、パターンマッチング処理を行なうことでシーンを検出する。パターンマッチング処理には、後述するDPマッチングを用いる。

より具体的に説明すれば、カット部検出システム及びショット検出システム並びにシーン検出システム３は、図３０に示すように、動画像データから検出された各ショットに対しその種類に応じたショット記号（図示例によれ１〜５の番号）を付与することで、ショット記号列（図示例ではショットタイプ列と称す）を作成し、このショット記号列を、記憶装置の所定の記憶領域（ショット記号列記憶手段）に記憶する。

なお、検出対象のシーンに対応するように複数のショット記号を配列してなるモデルパターン記号列（図示例によれば、2335や2333435等の数字列）は、予め、記憶装置の所定の記憶領域（モデルパターン記憶手段）に記憶しておく。

このモデルパターン記号列の一例としては、図２８（シュートシーンでのショットの流れ）に示すように、グラウンドを映しているショットであって且つ最後の三つのグループオブピクチャがゴール付近の映像であるゴールロングショットを示すショット記号（２）と、選手のアップを映しているクローズアップショットを示すショット記号（３）と、先の映像の繰り返しを映しているリプレイショットを示すショット記号（５）とを、この順番に配列してなる記号列「２３５」や、記号列「２３３５」等とすればよい。

また、モデルパターン記号列の他例としては、図２９（ゴールシーンでのショットの流れ）に示すように、グラウンドを映しているショットであって且つ最後の三つのグループオブピクチャがゴール付近の映像であるゴールロングショットを示すショット記号(２)と、選手のアップを映しているクローズアップショットを示す複数のショット記号(３)と、フィールド外を映しているアウトフィールドショットを示すショット記号(４)と、選手のアップを再度映しているクローズアップショットを示すショット記号(３)と、先の映像の繰り返しを映しているリプレイショットを示すショット記号(５)とを、この順番に配列してなる記号列「２３４３５」や、記号列「２３３４３５」、記号列「２３３３４３５」等とすればよい。

そして、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム３は、前記ショット記号列記憶手段のショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段を備える。
この検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うものである。

前記処理において、ショット記号列中の記号列と、モデルパターン記号列とは、予め設定された適宜な類似度で合致するようにすればよい。
例えば、図３０によれば、ショット記号列中の「２３５」に対し、モデルパターン記号列「２３３５」は、完全一致しないが、略合致したものと判断されている。同様に、ショット記号列中の「２３３４３５」に対し、モデルパターン記号列「２３３３４３５」も略合致したものと判断されている。

本実施の形態では、前記パターンマッチング処理の具体的手法として、ＤＰマッチング処理を用いている。以下に、このＤＰマッチング処理について詳述する。
時系列パターンの類似度を求める手法としては、音声認識などによく用いられる動的計画法（DP マッチング）や、隠れマルコフモデル（HMM）などがある。
Dynamic Programming Matching（DP マッチング）は、異なる二つの時系列信号の類似度と最適な対応を求める手法であり、音声認識等のさまざまな分野で利用されている。DPマッチングは非線形の伸縮により、長さの異なるパターンの類似度を計算することができる。これらの利点により，本実施の形態では、時系列パターン間の類似度を求める手法として、DP マッチングを用いる。
DPマッチングの具体的な実現方法について，図３１を用いて説明する。
2 つのパターンAとBを特徴ベクトルの時系列として表現する。つまり、数５（5.1式）とする。

ここで、A,B 両パターンの時間の対応、すなわち時間伸縮関数は，図３１の平面上の格子点ck = (i, j)の系列Fで表現することができる。

2つの特徴ベクトル列ai とbj との（スペクトル）距離をd(c) = d(i, j) で表
すと、F に沿った距離の総和は、数７（(5.3)式）で表すことができ、この値が小さいほどA とB の対応づけがよいことを示す。ここで、wk はF に関連した正の重み関数である。
ここで、上式を、次のような制限のもとで、F に関して最小化することを考える。

点列F に沿ってとった距離の荷重平均を考え、その値を最小とするようにF を変化させ、2 つのパターンA とB のマッチングを行う。ここでFの変化には、あまり極端な時間軸の伸縮は許されないように制限をつけ、図３２に示す3通りのみを考えることにする。2つの特徴ベクトルaiとbj との距離をd(c) = d(i, j) で表し、部分点列c1c2・・・ck に対する部分和をg(ck) = g(i, j) とすると、最適性の原理(最適政策の部分系列はやはり最適政策になっている)により、数9（式(5.5)）のような漸化的な表現となる。

このようにして計算していき、最終的に求められたg(I, J) が2つのパターンAとB との距離の最小値であり、その時のF が最適なマッチングを表す時間変換関数といえる。
格子点(i,j) までに選択された経路の長さを数１０（式(5.6)）より求める。

i = J まで、到達したときに、数９（式(5.5)）の累積距離を数１０（式(5.6)）の経路の長さで割ることで距離の正規化をはかり、整合窓の中におけるG(i, J) が最小となる経路を求めることで、最適な経路を探し出すことができる。

さらに、図３３において、Input Pattern におけるi = 0 の始点からG(i, J) の値が最小となるmin(G) のi までが、その始点において、最もSample Patternとマッチングされた系列となる。さらに、始点をi = 1, 2, ・・・， I と１ずつ移動させながら、min(G) までのInput Pattern の系列をそれぞれ求める。その中から、min(G) が閾値以下となるパターンを最もSample Pattern と類似した系列として求めることができる。

次に、上記構成のカット部検出システム及びショット検出システム並びにシーン検出システム３を用いて、実際のサッカー試合映像のMPEG2データからカット点、ショット、リプレイショット、シーンを検出した結果について説明する。
ここで、前記サッカー試合映像の動画像は、解像度640 × 480、ビットレートは平均5.5Mbps、最大8MbpsのVBR(Variable Bit Rate，可変速度)、プロファイルとレベルは、MP@ML、GOPはIBBPBBPBBPBBPBBIBB・・・というP フレームの後にB フレームが2枚続くN=2 の構成をしている。1つのGOPは基本的にはIフレーム1 枚，P フレーム4 枚，B フレーム10 枚の計15 枚だが、それ以外のランダムGOPも存在し、その場合のランダムGOPは15 枚未満の3 の倍数で構成される。
結果は、図３４〜３７に示す通りであり、カット点、ショット、リプレイショット、シーンの何れにおいても、比較的高確率の検出結果を得ることができた。

なお、上記実施の形態によれば、サッカー試合映像を対象に、カット点、ショット、リプレイショット、シーン等の検出を行ったが、他例としては、上述した色情報範囲（0.68 ≦ r ≦ 1.1 , 85 ≦ Y ≦ 145 , 80 ≦ Cb ≦ 125 , 95 ≦ Cr ≦ 130）や特徴量（バーＭ，バーＤ，バーＴ，バーＸ，バーＹ．バーＺ）の範囲等を適宜に変更することで、例えば、相撲の映像、野球映像、メロドラマ等、他の種類の動画像を対象にすることも可能である。

また、上記実施の形態は、特に好ましい態様としてＭＰＥＧ２データを扱う態様としたが、上記したマクロブロック情報や、動きベクトル情報、輝度・色差情報等を含む他の動画圧縮データを扱うことも可能であり、例えば、ＭＰＥＧ１データや、ＭＰＥＧ４データ、Ｈ．２６４データ、その他の動画圧縮データを処理する可能性を有する。

本発明に係わるカット部検出システム及びショット検出システム並びにシーン検出システムの一例を示すブロック図である。一般的な４２０フォーマットのマクロブロックを示す概念図である。一般的なマクロブロックの輝度・色差成分について示す概念図である。本発明の一例において、特徴量が抽出されるフレームを示す概念図である。一般的な動画像の構造を示す概念図である。動画像圧縮データについて、再生順、ビットストリーム順、出力順の関係を説明する概念図である。リプレイショットについて説明する概念図である。リプレイカット部の一例を示す画像である。リプレイカットとリプレイショットの関係を示す概念図である。カット点が発生する位置とＢフレームが参照するフレームとの関係を示す概念図である。カット点が発生する位置とＢフレームが参照するフレームとの関係を示す概念図である。ＭＢＴ記号と該ＭＢＴ記号を与える条件との関係を示す表である。瞬時カット点およびリプレイカット点のパターンを説明する概念図である。リプレイカット部でのマクロブロックタイプを示す概念図である。リプレイショットの判別について示す概念図である。ショットの分類の一例を示す画像である。１ショットでの動きベクトル量の推移を示すグラフである。方向の量子化を示す概念図である。量子化された動きベクトルの方向とマクロブロック数の関係を示すグラフである。センターロングショットでの動きベクトル方向の分散度の推移を示すグラフである。クローズアップショットでの動きベクトル方向の分散度の推移を示すグラフである。センターロングショットでのグランド領域の傾きについて説明するグラフである。ゴールロングショットでのグランド領域の傾きについて説明するグラフである。クローズアップショットでのグランド領域の傾きについて説明するグラフである。水平投射グラフの傾きを説明するグラフである。Ｉフレーム内におけるグラウンド領域のマクロブロック数を示すグラフである。ショット判別のフローを示す概念図である。シュートシーンのパターンの一例を示す画像である。ゴールシーンのパターンの一例を示す画像である。シーン検出のフローを示す概念図である。ＤＰマッチング処理においてパターンＡ，Ｂの時間の対応を示すグラフである。ＤＰマッチング処理において点(i,j)における部分和g(i,j)の計算を示す概念図である。ＤＰマッチング処理におけるパターンマッチング方法を示す概念図である。カット点の検出方法及び検出結果を示す説明図及び表である。ショットの分類方法及び分類結果を示す説明図及び表である。リプレイショットの検出方法及び検出結果を示す説明図及び表である。シーンの検出方法及び検出結果を示す説明図及び表である。

符号の説明

１：バッファ
２：復号器
３：カット部検出システム及びショット検出システム並びにシーン検出システム

Claims

マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別する手段と、を含むことを特徴とするカット部検出システム。
マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記判別条件には、連続する二つのＢフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上であるという条件が含まれていることを特徴とするカット部検出システム。
マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記判別条件には、連続する二つのＢフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内であって、このパターンとなる前記二つのＢフレームが、複数のグループオブピクチャ中で所定数以上あるという条件が含まれていることを特徴とするカット部検出システム。
マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記マクロブロックタイプ情報からフレーム毎の順方向予測符号化マクロブロックの数およびフレーム毎の逆方向予測符号化マクロブロックの数を求める手段を備え、
前記判別条件に加える条件として、
順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数以上であるという条件と、
逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数以上であるという条件と、
双方向予測符号化マクロブロックの数が最頻度であるという条件と、
の三つ条件の内の何れかを含むことを特徴とするカット部検出システム。
前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする請求項１乃至４何れか１項記載のカット部検出システムを用いたショット検出システム。
前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部が、連続する二つの瞬時カット点の間に位置する場合に、これら連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする請求項１乃至４何れか１項記載のカット部検出システムを用いたショット検出システム。
前記連続する二つのリプレイカット部の内の一方と、この一方のリプレイカット部に連続する瞬時カット点との間に、所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする請求項５又は６記載のショット検出システム。
前記連続する二つのリプレイカット部の間に所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする請求項５乃至７何れか1項記載のショット検出システム。
動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、
この動きベクトル情報からフレーム毎の動きベクトル量を求める手段と、
前記抽出されたショットについて、その1ショット分の前記動きベクトル量をグループオブピクチャ数で割った平均の動きベクトル量を求める手段とを備え、
前記平均の動きベクトル量が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする請求項５乃至８何れか1項記載のショット検出システム。
動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、
各フレームのマクロブロック毎に動きベクトルの方向を所定数の方向に量子化する手段と、
前記量子化により分類された動きベクトルの方向について、その分散度をフレーム毎に求める手段と、
前記抽出されたショットについて、その1ショット分の前記分散度をグループオブピクチャ数で割った平均の分散度を求める手段とを備え、
前記分散度が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする請求項５乃至９何れか１項記載のショット検出システム。
動画圧縮データから、Ｉフレーム毎に輝度成分Ｙ、色差成分Ｃｂ、色差成分Ｃｒを抽出する手段と、
各Ｉフレームを平行な複数のラインに分割し、そのライン毎に、輝度成分Ｙ、色差成分Ｃｂ、色差成分Ｃｒ、色差成分の比ｒ＝Ｃｂ／Ｃｒが、それぞれ所定範囲内であるという色条件を満たすマクロブロックの数を求める手段と、
Ｉフレーム毎に、前記色条件を満たすマクロブロック数が所定範囲以内であるラインの数の平均値を求める手段とを備え、
前記平均値が所定範囲内であるＩフレームを含むショットを、特定のショットとして判別することを特徴とする請求項５乃至１０何れか1項記載のショット検出システム。
Ｉフレーム毎に、前記ラインの変化に対する前記マクロブロック数の変化の度合を求め、その度合の最大値が所定範囲内であるＩフレームを含むショットを、特定のショットとして判別することを特徴とする請求項１１記載のショット検出システム。
前記ショット検出システムにより検出された各ショットに対し、その種類に応じたショット記号を付与することでショット記号列を作成する手段と、
検出対象のシーンに対応するように複数の前記ショット記号を配列してなるモデルパターン記号列を記憶する手段と、
前記ショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段とを備え、
前記検出手段により検出された記号列に対応する前記動画像データの連続ショットを、特定のシーンとして認識するようにしたことを特徴とする請求項５乃至１２何れか１項記載のショット検出システムを用いたシーン検出システム。
前記検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うことを特徴とする請求項１３記載のシーン検出システム。
コンピュータが、マクロブロックタイプ情報を含む動画圧縮データから、少なくともＢフレーム毎にマクロブロックタイプ情報を抽出するステップと、
コンピュータが、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求めるステップと、
コンピュータが、Ｂフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このＢフレーム又はこのＢフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別するステップと、
を含むことを特徴とするカット部検出方法。