JP4350877B2

JP4350877B2 - 圧縮動画像のシーンチェンジ検出装置、圧縮動画像のシーンチェンジ検出方法及びそのプログラムを記録した記録媒体

Info

Publication number: JP4350877B2
Application number: JP2000230768A
Authority: JP
Inventors: 由紀子井上; 耕治有村; 淳池田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 1999-10-01
Filing date: 2000-07-31
Publication date: 2009-10-21
Anticipated expiration: 2020-07-31
Also published as: JP2001169287A

Description

【０００１】
【発明の属する技術分野】
本発明は、圧縮動画像から、シーンの変わり目を検出するシーンチェンジ検出装置及びその関連技術に関するものである。
【０００２】
【従来の技術】
近年、デジタルビデオカメラの普及や、デジタル放送の出現などにより、ＭＰＥＧやＤＶなど、圧縮動画像を扱う機会が増加している。また、過去の大量なアナログ映像を、デジタルの圧縮動画像として保存する場合もある。そして、このような圧縮動画像を復号せずに、符号化されたまま、編集する技術が実用化されつつある。
【０００３】
このような編集においては、圧縮動画像、すなわちビットストリームのなかから、シーンチェンジ（映像又は場面の変わり目の位置）を、高速に自動検出する技術が是非とも必要となる。なぜなら、検出されたシーンの先頭の位置情報やシーンチェンジ技術によって切り分けられたシーンの代表画像は、映像内容のインデックスとして有用であり、内容の検索や編集の重要な手助けとなるからである。
【０００４】
次に、圧縮動画像のフォーマットとして広く用いられている、ＭＰＥＧ２の符号化について説明する。ＭＰＥＧ２符号化は、ＭＰＥＧ１，Ｈ．２６１と同様に動きベクトルとＤＣＴ（離散コサイン変換：ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を用いた方式である。データは、フレーム内で、輝度（Ｙ）、色差（Ｃｂ，Ｃｒ）に分離され、１６＊１６画素のマクロブロック単位で、符号化される。
【０００５】
そして、各マクロブロックを符号化するにあたっては、参照画像から動き予測を行う動き補償予測が選択されるか、または、符号化を行うデータのみで符号化を行うイントラ符号化が選択される。
【０００６】
このうち、動き補償予測は、フレーム間の時間的な相関が高い場合に符号化率が高くなる方式であり、符号化を行うマクロブロックと、参照画像から動き予測によって得られるマクロブロックのデータとの、差分から予測誤差信号を得て時間空間的に情報の圧縮を行うものである。なお、動き補償予測では、この予測誤差信号が、８＊８画素のブロック単位で、ＤＣＴにより空間周波数領域に変換される。
【０００７】
一方、イントラ符号化は、符号化されるブロックのデータそのものを、８＊８画素のブロックに分け、これらのブロック単位で、単純にＤＣＴ符号化する方式である。
【０００８】
以下、符号化の単位について説明する。ＭＰＥＧ２では、インタレース画像も対象としており、画面の符号化の単位として、フレーム構造とフィールド構造とがある。
【０００９】
フレーム構造では、奇数フィールドと偶数フィールドの２フィールドをインタレースに配置したフレームに対して符号化を行う。一方、フィールド構造では、奇数フィールドもしくは偶数フィールドの、１フィールドに対して符号化を行う。
【００１０】
さて、本明細書において、フレーム構造で符号化された画像を「フレーム構造画像」といい、フィールド構造で符号化された画像を「フィールド構造画像」という。
【００１１】
次に、動き補償について説明する。ＭＰＥＧ２では、上述のように、フレーム構造とフィールド構造とがある。そして、フレーム構造画像の動き補償予測については、フレーム予測、フィールド予測及びデュアルプライム（Ｄｕａｌ−Ｐｒｉｍｅ）予測がある。また、フィールド構造画像の動き補償予測としては、フィールド予測、１６＊８ＭＣ予測及びデュアルプライム予測がある。さらに、フレーム予測以外の予測においては、参照するフィールドが奇数フィールドであるか偶数フィールドであるかを選択することができる。
【００１２】
次に、図１５を参照しながら、符号化の方法について説明する。フレーム構造画像では、符号化の方法として、フレームＤＣＴとフィールドＤＣＴという２種類のＤＣＴを用いることができる。
【００１３】
このうち、フレームＤＣＴは、マクロブロックの輝度信号を、図１５（ａ）に示すように、４個のブロックに分解する際に、各ブロックがフレームで構成されるように分解し、これにＤＣＴを施すものである。
【００１４】
一方、フィールドＤＣＴは、図１５（ｂ）に示すように、マクロブロックの輝度信号を４個のブロックに分解する際に、各ブロックがフィールドで構成されるように分解し、これにＤＣＴを施すものである。
【００１５】
さて、符号化の際には、この２種類のＤＣＴのどちらを用いてもよいが、一般的に、奇数フィールドと偶数フィールドの画像データの差が大きい場合にフィールドＤＣＴを用いると符号化の効率がよくなることが知られている。特に、二つのシーンが、一つのフィールドに混在しているような場合は、フィールドＤＣＴを行うと圧縮率が高くなる。
【００１６】
しかし、フィールドＤＣＴの場合、フレーム構造を２つのフィールドに分解する必要があるため、フレームＤＣＴに対して処理速度は遅くなる。つまり、このような性質に合わせて、２種類のＤＣＴをうまく用いることにより、フレーム構造画像（インタレース画像）の符号化効率を向上させることができる。なお、４：２：０フォーマットにおける色差信号については、常にフレームＤＣＴを用いる。また、フィールド構造画像では、マクロブロックが１フィールドの信号のみで構成されるため、常にフィールドＤＣＴを行うことになる。
【００１７】
以上の説明をふまえて、以下従来のシーンチェンジ技術について説明する。従来、シーンチェンジ検出には、（１）画像の色のヒストグラム、（２）圧縮動画像のデータサイズ、（３）２フレームの画像の同一位置におけるブロックデータ差分、などの特徴量を用いている。
（１）画像の色のヒストグラムを用いるには、１フレームの画像に用いられている色を、１フレーム分あるいは１フレームを分割した領域において、ヒストグラムにし、このヒストグラムをそのフレームの特徴量とし、その前後のフレーム画像における特徴量と比較して類似度を求める（例えば、特開平７−５９１０８号公報参照）。
（２）圧縮動画像のデータサイズを用いるには、シーンチェンジ部分では、圧縮率が悪いという性質を利用して、隣り合うフレームのデータのサイズを比較し、その差分が所定の閾値よりも大きくなった時にシーンチェンジと判定する（例えば、特開平７−１２１５５５号公報参照）。
【００１８】
しかし、これら（１）〜（２）の手法では、フレーム単位でしかシーンチェンジを検出できないから、シーンチェンジが、１フレーム中の奇数フィールドと偶数フィールドの間（２つのフィールド間）に存在すると、このシーンチェンジを正確に検出できない。
【００１９】
この問題を解決するために、特開平９−３２２１２０号公報では、フィールド予測方式を用いて符号化された映像データから復号処理を行うこと無しにシーンチェンジを検出する方法を提案している。このものでは、予測が行われるフレームにおいて、参照フレームの奇数フィールドもしくは偶数フィールドのどちらを選択して予測を行うかという、参照フィールド選択信号に基づいて、フィールド間の類似度を複数算出し、その結果を用いてシーンチェンジ検出を行っている。
【００２０】
【発明が解決しようとする課題】
しかしながら、この手法は、フィールド予測方式に依存しているから、フィールド予測方式（フレーム間予測方式）を用いない映像や、フィールド予測方式の映像とそれ以外の予測方式の映像が混在する映像に対しては、適用できない。
【００２１】
また、（３）データとして同じ位置のＤＣＴにおけるＤＣ成分のみの差分を用いると、位置の対応がとれない場合がある。これは、フレーム構造画像では、符号化の方法としてフレームＤＣＴとフィールドＤＣＴという２種類のＤＣＴを用いることができるため、ＤＣＴを解かずにブロックデータの比較を行うと、比較する片方のデータがフレームＤＣＴで符号化され、もう一方のデータがフィールドＤＣＴで符号化されていた場合に、画像における８＊８画素のデータと、８＊１６画素データ中の、奇数もしくは偶数フィールドのみの８＊８画素のデータとを、比較することになるからである。
【００２２】
これを改善するには、フレーム構造画像１フレーム分と、フィールド構造画像１フレーム相当分（奇数フィールド画像と偶数フィールド画像）とを比較しなければならない。しかし、これでは、２枚のフィールド構造画像のデータが揃った時点でしか比較ができず、処理が煩雑で処理速度も遅くなるという、問題点がある。
【００２３】
そこで本発明は、フィールド／フレームの各構造が混在していても、シーンチェンジを検出可能な技術を提供することを、第１の目的とする。
【００２４】
また、本発明は、フレーム構造のフィールド間に存在するシーンチェンジをも検出できる技術を提供することを、第２の目的とする。
【００２５】
さらに、本発明は、予め開始点と終了点との間隔が分かっている場合に、迅速に目的のシーンチェンジを検出できる技術を提供することを、第３の目的とする。
【００２６】
【課題を解決するための手段】
まず本発明では、フィールド構造画像とフレーム構造画像とが混在する圧縮動画像を入力し、入力した圧縮動画像におけるシーンチェンジを検出する。
そして本発明は、第１の目的のため、請求項１、２、５、７、８において、圧縮動画像がフレーム構造画像の場合には、フィールド構造画像に対応する縦方向に２倍のデータを抽出する。
【００２９】
【発明の実施の形態】
本発明におけるシーンチェンジ検出は、全て、予測方式に依存しない。したがって、予測方式が何であれ、あるいは、予測方式の有無にかかわらず、シーンチェンジを検出できる。なお以下、本発明の全ての実施の形態において、入力圧縮動画像は、ＭＰＥＧ２によることとして説明を行うが、ＤＣＴを用い、かつ、フィールド／フレームの各構造を混在させ得る圧縮方式であれば、同様の効果が得られるから、このような圧縮方式による技術であれば、本発明の対象に包含される。そして、本発明では、フィールド構造画像とフレーム構造画像とが混在する圧縮動画像を入力し、入力した圧縮動画像におけるシーンチェンジを検出するものである。
【００３０】
（第１の実施の形態）
以下、図面を参照しながら、本発明の実施の形態を説明する。図１は、本発明の第１の実施の形態におけるシーンチェンジ検出装置のブロック図である。
【００３１】
図１に示すように、このシーンチェンジ検出装置には、ＭＰＥＧ２に従って符号化されたビットストリームが、入力圧縮動画像として入力される。また、このシーンチェンジ検出装置からは、ビットストリームにおいて検出されたシーンチェンジの位置を示す情報が、検出結果として出力される。ここで、従来の技術の項で述べたように、入力圧縮動画像の符号化方式、符号化の単位（フレーム／フィールド構造）、ＤＣＴなどは、種々のものが考えられ、また、１種類だけでなく、複数種のものが、時間軸上で混在していてもよい。
【００３２】
就中、フィールド構造画像とフレーム構造画像とが、時間軸上で交互に存在するような場合でも差し支えない。以上の点は、後述する他の実施の形態についても、そのまま適合する。
【００３３】
図１に示すように、入力圧縮動画像は、まず、画像構造判定部１に入力される。画像構造判定部１は、現在入力している画像が、フィールド構造画像、フレーム構造画像のいずれであるかを、ビットストリームの特定領域の情報を参照して、判定する。そして、この判定結果と、ビットストリームの内容が、次段の特徴量抽出部２に出力される。
【００３４】
次に、特徴量、変化量及び特徴量抽出部２の動作を、図５〜図６を例にとって、説明する。図５では、図の左側が時間軸上で古い画像を示し、右側が新しい画像を示し、ｔ枚目の画像を、画像ｔのように記述する。また、この例では、画像ｔ−２〜ｔ＋１，ｔ＋４〜ｔ＋５がフィールド構造画像であり、画像ｔ＋２〜ｔ＋３はフレーム構造画像である。即ち、画像ｔ＋１〜ｔ＋２，ｔ＋３〜ｔ＋４では、構造の変化がある。
【００３５】
そして、図６（ａ）（トップフィールド）、図６（ｂ）（ボトムフィールド）のような、フィールド構造画像では、１ブロック分のブロックデータＤｔを用い、ブロックデータＤｔをそのまま特徴量ｄｔとして、使用する（ｄｔ＝Ｄｔ）。
【００３６】
また、図６（ｃ）のような、フレーム構造画像では、上下２ブロック分のブロックデータ（ブロックデータＤｔｕとブロックデータＤｔｂ）を用い、その平均値を特徴量ｄｔとして使用する（ｄｔ＝（Ｄｔｕ＋Ｄｔｂ）／２）。
【００３７】
ここで、ブロックデータＤｔ、Ｄｔｕ、Ｄｔｂは、同種のデータでなければならないが、ブロック内の輝度平均値やその他ブロック内の画像を代表する種々のデータを用いることができる。
【００３８】
また、図６（ａ）、（ｂ）、（ｃ）に示しているように、フレーム構造画像は、フィールド構造画像に対して、上下２倍の高さを持つので、フィールド構造画像とフレーム構造画像とを比較するには、フィールド構造画像において、ブロック座標（ｘ，ｙ）のブロックデータＤｔと、ブロック座標（ｘ，２＊ｙ）のブロックデータＤｔｕ及びブロック座標（ｘ，２＊ｙ＋１）のブロックデータＤｔｂとの組とを、対比して用いる。
【００３９】
次に、時間軸上で異なる位置にある、画像ｔと画像ｓ（典型的には、ｓ＝ｔ＋１）とにおける、ブロック座標（ｘ，ｙ）の特徴量を、それぞれｄｔ（ｘ，ｙ）、ｄｓ（ｘ，ｙ）とするとき、画像ｔと画像ｓとにおける、第１の変化量Ｒ（ｔ，ｓ）を次のように定義する。この第１の変化量Ｒ（ｔ，ｓ）は、画像ｔと画像ｓとの単純な差分に近い。
【００４０】
【数１】

【００４１】
また、同様に、第２の変化量Ｑ（ｔ，ｓ）を次のように定義する。第２の変化量Ｑ（ｔ，ｓ）は、画像ｔと画像ｓの微分値に近い。
【００４２】
【数２】

【００４３】
ここで、第１の変化量Ｒ（ｔ，ｓ）と、これに対して、予め経験的に設定される第１の閾値とを、比較することにより、画像に大きな変化が現れた位置を取り出すことができ、この位置をシーンチェンジと検出できる。但し、画像によっては、動きの激しいものなど、シーンは同じではあるが、連続的な変化が起き、第１の変化量Ｒ（ｔ，ｓ）のみでは、過剰にシーンチェンジを検出するおそれがある。このような場合、第２の変化量Ｑ（ｔ，ｓ）と、これに対して、予め設定される第２の閾値との、比較を併用することにより、不連続で、かつ、大きな変化がある位置のみを、シーンチェンジと検出することができ、検出されるシーンチェンジの信頼性を向上できる。
【００４４】
なお、動画像によっては、第１の変化量Ｒ（ｔ，ｓ）、第２の変化量Ｑ（ｔ，ｓ）の一方のみで十分な場合もあり得るし、第１の変化量Ｒ（ｔ，ｓ）、第２の変化量Ｑ（ｔ，ｓ）に適当な重みつけをして、両方検討するようにしても差し支えない。勿論、以上の２つの式は、単なる例示に過ぎず、これらと等価な式はもとより、シーンチェンジを判定できるものであれば、他の式で代用しても良い。
【００４５】
これらの第１の変化量Ｒ（ｔ，ｓ）、第２の変化量Ｑ（ｔ，ｓ）を求めるには、図３に示すように、入力画像１枚分の抽出データの全てを得た後に、比較対象画像との比較をし変化量を算出しても良いが、図４に示すように、１ブロック（もしくは複数ブロック）のデータを抽出した時に、同時に、比較対象画像の同じ位置に対応するデータとの比較を行う方が望ましい。なぜなら、図４のようにした方が、処理速度は上がるからである。
【００４６】
このようにすると、時間軸上において、フィールド構造画像とフレーム構造画像の混合する一連の映像から、一律にシーンチェンジを検出できる。
【００４７】
さて、図１に示すように、特徴量抽出部２が抽出した特徴量ｄｔと、特徴量ｄｔが抽出されたフレーム番号などの画像情報とが、第１のデータメモリ６に対応付けて格納される。この第１のデータメモリ６は、記憶領域に相当するものであり、ハードディスク装置などの他の記憶手段で代用しても良い。
【００４８】
特徴量抽出部２の次段にある抽出データ比較部３は、特徴量抽出部２が新たに特徴量ｄｔを抽出し、第１のデータ用メモリ６に、この新たな特徴量ｄｔを記録すると、この新たな特徴量ｄｔと、それ以前（典型的にはその直前回）に第１のデータ用メモリ６に記録された特徴量とを参照し、これらの特徴量間の変化量を求める。この変化量は、第１の変化量Ｒ（ｔ，ｓ）、第２の変化量Ｑ（ｔ，ｓ）の一方のみでも良いが、望ましくは、両方求める。
【００４９】
そして、抽出データ比較部３は、求めた変化量を比較結果情報として、第２のデータ用メモリ７に記録すると共に、この変化量が生じたフレーム番号等の画像情報を、比較結果情報に対応付けて第２のデータ用メモリ７に記録する。
【００５０】
また、シーンチェンジ判定用データ入力部５は、シーンチェンジ判定時に使用する閾値を保持し、この閾値をシーンチェンジ判定部４へ出力する。この閾値としては、第１の変化量Ｒ（ｔ，ｓ）用の第１の閾値と、第２の変化量Ｑ（ｔ，ｓ）用の第２の閾値とがある。
【００５１】
シーンチェンジ判定部４は、抽出データ比較部３が比較を行うと、第２のデータ用メモリ７に記録された比較結果情報を参照し、これがシーンチェンジ判定用データ入力部５から入力する閾値を越えていれば、この位置でシーンチェンジが発生したと判定し、この比較結果情報に係る、フレーム番号等の画像情報（つまり、ビットストリーム内の位置）を検出結果として出力する。また、そうでなければ、シーンチェンジ判定部４は、検出結果を出力しないようにしても良いし、あるいは、検出しなかった旨の検出結果を出力するようにしても良い。
【００５２】
図２は、本発明の第１の実施の形態におけるシーンチェンジ検出装置のフローチャートである。次に、図２を用いて、本形態のシーンチェンジ検出装置の動作を説明する。まず、入力圧縮動画像が、画像構造判定部１に至ると、この判定部１は、現在の画像が、フレーム構造画像／フィールド構造画像のいずれであるかを判定する（ステップ１）。フレーム構造画像であれば、特徴量抽出部２は、画像の縦方向上下２ブロック分のデータを用いた値を特徴量として抽出し、第１のデータ用メモリ６に記録する（ステップ２）。フィールド構造画像であれば、特徴量抽出部２は、１ブロック分のデータを用いた値を特徴量として抽出し、第１のデータ用メモリ６に記録する（ステップ３）。つまり、フレーム構造画像ではフィールド構造画像の縦方向２倍のデータを用いる。
【００５３】
そして、ステップ４にて、抽出データ比較部３が、今回の特徴量と、それ以前の特徴量とを比較して、比較結果情報を第２のデータ用メモリ７に記録する。次に、ステップ５にて、シーンチェンジ判定部４は、この比較結果情報をシーンチェンジ判定用データ入力部５から入力する、閾値と比較し、シーンチェンジと判定できれば、シーンチェンジが発生した位置を検出結果として出力する。
【００５４】
なお、本形態では、特徴量ｄｔとして、フィールド構造画像では、１ブロック分のブロックデータＤｔを用い、フレーム構造画像では、縦方向に２ブロック分のブロックデータＤｔｕ、Ｄｔｂの平均値を用いたが、フィールド構造画像とフレーム構造画像のデータの比較レベルが同等になれば、他の手法によっても良い。例えば、フィールド構造画像の１ブロック分のブロックデータを２倍にしたもの（ｄｔ＝２＊Ｄｔ）と、フレーム構造画像の縦方向上下２ブロックのブロックデータの和（ｄｔ＝Ｄｔｕ＋Ｄｔｂ）とを、特徴量ｄｔとして、これらを比較してもよい。
【００５５】
また、本形態では、フィールド構造画像において抽出されるデータを１ブロックずつの単位とし、フレーム構造画像において抽出されるデータを２ブロックずつの単位としたが、フレーム構造画像から抽出されるデータが、フィールド構造画像において抽出されるデータと対応する位置に存在する縦方向に２倍のデータであれば、同様にシーンチェンジを検出できる。つまり、フィールド構造画像Ｎブロックのデータを特徴量として抽出した場合、フレーム構造画像からは対応する位置の縦方向に２倍の、２＊Ｎブロックからのデータを、特徴量として抽出するようにすればよい。
【００５６】
これにより、フレーム構造画像とフィールド構造画像の混合する圧縮動画像からも、一律にシーンチェンジを検出できる。また、フレーム構造画像内でフレームＤＣＴを用いられようとフィールドＤＣＴを用いられようと、特別な配慮をすることなくシーンチェンジを検出できる。また、この手法は、予測方式に依存しないので、予測方式が何であるかは不問であるし、予測方式の有無にかかわらず、所望のシーンチェンジを検出できる。
【００５７】
（第２の実施の形態）
図７は、本発明の第２の実施の形態におけるシーンチェンジ検出装置のブロック図、図８は、本発明の第２の実施の形態におけるシーンチェンジ検出装置のフローチャートである。
【００５８】
図７では、第１の実施の形態に係る図１に対し、特徴量抽出部２と画像構造判定部１の位置を入れ換えてある。また、本形態の特徴量抽出部２は、入力された圧縮動画像がフレーム構造画像であってもフィールド構造画像であっても、画面全体について、１ブロックずつのブロックデータから、特徴量を抽出する点が異なる（ステップ１０）。
【００５９】
そして、図８に示すように、抽出データ比較部３の前段にある、画像構造判定部１は、今回入力した画像の構造を調べ、フレーム構造画像の場合、抽出データ比較部３は、画像の縦方向に上下２ブロック分のデータを用いてデータを比較する（ステップ１２）。一方、フィールド構造画像ならば、抽出データ比較部３は、１ブロック分のデータを用いてデータを比較する（ステップ１３）。ここでの比較は、第１の実施の形態と同様である。
【００６０】
さて、図５の例でいえば、画像ｔと画像ｔ＋１とを比較するとき、両画像ともフィールド構造画像であるので、画面上の同じ位置にあるブロックのデータが比較される。
【００６１】
画像ｔ＋１と画像ｔ＋２の比較であれば、画像ｔ＋２はフレーム構造画像であるので、画像ｔ＋１におけるブロック座標（ｘ，ｙ）から得られるデータと、画像ｔ＋２のデータは、ブロック座標（ｘ，２＊ｙ）とブロック座標（ｘ，２＊ｙ＋１）から得られるデータとが、比較される。
【００６２】
そして、例えば、画像ｔ＋１におけるブロック座標（ｘ，ｙ）から得られるデータをＡ、ブロック座標（ｘ，２＊ｙ）とブロック座標（ｘ，２＊ｙ＋１）から得られるデータをそれぞれＢ、Ｃとすると、データＡとデータＢ、Ｃの平均値との差分の絶対値を、変化量とする。この変化量を画像全体において求めることで、２枚の画像の変化量が得られる。
【００６３】
なお、ここでは、フレーム構造画像のデータとして縦方向に２ブロック分の平均値を用いたが、これは単なる和でも良く、その場合、対応するフィールド構造画像のデータは、２倍にするなど、データの正規化を行えば良い。具体的には、データＡの２倍の値とデータＢ、Ｃの和との差分の絶対値を変化量とすると良い。
【００６４】
その他の点は、第１の実施の形態と同様である。
【００６５】
（第３の実施の形態）
図９は、本発明の第３の実施の形態におけるシーンチェンジ検出装置のブロック図、図１０は、本発明の第３の実施の形態におけるシーンチェンジ検出装置のフローチャートである。
【００６６】
本形態では、図１と図９とを比較すれば明らかなように、フィールドＤＣＴ符号化ブロック数カウント部８と、第３のデータ用メモリ９を追加している。このフィールドＤＣＴ符号化ブロック数カウント部８は、画像構造判定部１による判定結果が、フレーム構造画像であった場合、その符号化がフレームＤＣＴを用いているのかフィールドＤＣＴを用いているのかを判定し、１フィールド中のフィールドＤＣＴ符号化が行われているマクロブロック数（ブロック数でも良い）をカウントする。そして、フィールドＤＣＴ符号化ブロック数カウント部８がカウントしたフィールドＤＣＴ符号化ブロック数は、第３のデータ用メモリ９に記録される。
【００６７】
したがって、図１０に示すように、まず、入力圧縮動画像が、画像構造判定部１に至ると、この判定部１は、現在の画像が、フレーム構造画像／フィールド構造画像のいずれであるかを判定する（ステップ２０）。フレーム構造画像であれば、特徴量抽出部２は、画像の縦方向上下２ブロック分のブロックデータを用いた値を特徴量として抽出し、第１のデータ用メモリ６に記録し（ステップ２１）、フィールドＤＣＴ符号化ブロック数カウント部８がフィールドＤＣＴ符号化ブロック数をカウントし、このブロック数が第３のデータ用メモリ９に記録される（ステップ２３）。なお、ステップ２１，２３の順序は入れ換えても差し支えない。
【００６８】
一方、フィールド構造画像であれば、特徴量抽出部２は、１ブロック分のブロックデータを用いた値を特徴量として抽出し、第１のデータ用メモリ６に記録する（ステップ２２）。つまり、フレーム構造画像ではフィールド構造画像の縦方向２倍のデータを用いる。
【００６９】
そして、ステップ２４にて、抽出データ比較部３が、今回の特徴量と、それ以前の特徴量とを比較して、比較結果情報を第２のデータ用メモリ７に記録する。次に、ステップ２５にて、シーンチェンジ判定部４は、この比較結果情報をシーンチェンジ判定用データ入力部５から入力する、閾値と比較し、シーンチェンジと判定できるかどうか検討する。さらに、ステップ２６にて、シーンチェンジ判定部４は、第３のデータ用メモリ９に記録した、ブロック数と閾値とを比較して、シーンチェンジと判定できるかどうか検討する。そして、シーンチェンジ判定部４は、ステップ２５又はステップ２６のいずれかで、シーンチェンジと判定したら、発生した位置を検出結果として出力する。
【００７０】
さて、図１１のように、二つのシーンがフィールドで混ざっているような場合には、入力画像と直前直後の画像との変化量が小さくなってしまう場合があり、検出漏れを起こす原因となっていた。しかし、従来の技術の項で述べたように、このような入力画像においてフィールドＤＣＴを行うと圧縮率が高くなる。
【００７１】
そのため、フレーム内でフィールドＤＣＴが多く用いられている場合には、フレーム内の奇数フィールドと偶数フィールドの相関が低いと見做すことができる。このため、特徴量抽出部２は、フィールドＤＣＴ符号化が行われている数をカウントし、これをフレーム内の第３の変化量として、比較検討対象に追加する。
【００７２】
抽出データ比較部３は、第１，第２の実施の形態と同様であるが、シーンチェンジ判定部４は、第１，第２の実施の形態における判定に加えて、第３の変化量と、この第３の変化量のために予め設定された、第３の閾値とを比較した場合に、第３の変化量が第３の閾値よりも大きい時には、フレームのフィールド間にシーンチェンジがあると判断する。
【００７３】
以上、説明したように、フィールドＤＣＴが用いられた数をカウントすることにより、従来検出が非常に困難であった、フレーム構造画像の２つのフィールド間に存在するシーンチェンジ（図１１に例示している）を検出できる。
【００７４】
さらに、本形態では、シーンチェンジ判定用データ入力部５が、シーンチェンジ判定部４に出力する閾値について、次の工夫がなされている。即ち、画像の最大変化量を基準（１００％）として、閾値は、この基準の所定パーセントと定める。
【００７５】
例えば、比較画像Ａ、Ｂにおいて、比較する１ブロックのデータの取り得る最小値が０であり最大値が２５５であるとすると、１ブロックの最大変化量は２５５である。そして、画像の比較に用いたブロック数が１３２０であるとすると、画像全体の最大変化量は、２５５＊１３２０＝３３６６００となる。この変化量を基準（１００％）とする。また、ここでの閾値は、例えば３％（１００９８）〜１０％（３３６６０）程度が好適である。
【００７６】
勿論、使用するデータの数やデータの最大変化量が変われば、それに伴って閾値は変化するが、閾値と基準の比率は一定とする。
【００７７】
これにより、画像サイズ（縦×横）が変わったり、判定に使用されるデータの種類が変わったりしても、検出のばらつきを抑制して、ほぼ一様な検出結果を得ることができる。
【００７８】
（第４の実施の形態）
図１２は、本発明の第４の実施の形態におけるシーンチェンジ検出装置のブロック図、図１３は、本発明の第４の実施の形態におけるシーンチェンジ検出装置のフローチャートである。
【００７９】
本形態では、図１と図１２とを比較すれば明らかなように、シーンチェンジ判定部４が検出結果をダイレクトに出力するのではなく、シーンチェンジ判定部４がシーンチェンジと判定したシーンチェンジ位置情報を、一旦、第４のデータ用メモリ１１に格納するようにしている。
【００８０】
また、シーンチェンジ判定用データ入力部５には、基準となるシーンチェンジからターゲットシーンまでの時間軸上の間隔が設定される。そして、シーンチェンジ間隔検索部１０を追加している。このシーンチェンジ間隔検索部１０は、第４のデータ用メモリ１１に記録されたシーンチェンジ位置情報同士の時間軸上の間隔を求め、求めた間隔と、シーンチェンジ判定用データ入力部５から与えられる間隔とを、比較する。
【００８１】
したがって、図１３に示すように、先の実施の形態と同様に、シーンチェンジ判定部４は、シーンチェンジを探す（ステップ３０）。そして、シーンチェンジ判定部４が、シーンチェンジを見つけると、このシーンチェンジ位置情報を第４のデータ用メモリ１１に格納する（ステップ３１）。
【００８２】
そして、シーンチェンジ間隔検索部１０は、第４のデータ用メモリ１１をアクセスして、シーンチェンジ間の間隔を調べ（ステップ３２）、シーンチェンジ判定用データ入力部５から与えられた間隔と一致するシーンチェンジの組が見つかると、見つかったシーンチェンジの先頭と末尾とからなる、組の位置情報を、検出結果として出力する（ステップ３３）。
【００８３】
例えば、５分の映像の中から、３０秒のシーンを検出したい場合、映像全体からシーンチェンジ検出を行い、その結果を、第４のデータ用メモリ１１に記録する。その後、記録されたデータの中から、ちょうど３０秒間隔になっているシーンチェンジの組を探し出し、それを検出結果として出力する。
【００８４】
図１４を例にとると、シーンチェンジ１〜シーンチェンジ４が検出された場合に、シーンチェンジ１とシーンチェンジ４がちょうど３０秒間隔であれば、シーンチェンジ１とシーンチェンジ４の組が、検出結果として出力される。
【００８５】
このことにより、例えば、テレビ放送などから得られた大量な映像からＣＭ部分のみを取り出したり、放送時間長の決まったニュースや番組を取り出したりすることが可能になる。
【００８６】
さらに、あるシーンチェンジが見つかった場合、それから与えられた間隔までのシーンチェンジ判定を省略でき、無駄な検出動作を極力省いて、処理時間を短縮できる。
【００８７】
例えば、長い映像の中から、１５秒のＣＭだけを検出したい場合には、ターゲット時間として１５秒を与える。シーンチェンジ間隔検索部１０では、演算によってシーンチェンジとして検出されたフレームから、１５秒後のフレームにシーンチェンジが検出されるかを判定し、１５秒後にシーンチェンジが検出された場合にのみ、そのフレームと１５秒後のフレームを要求されたシーンチェンジとして出力する。この１５秒間がターゲットのシーンとして検出されることになる。続けてターゲットシーンを検索するには、最後に検出されたシーンチェンジからまた１５秒後にシーンチェンジが存在するかを判定し、シーンチェンジが検出されなければ次のフレームからシーンチェンジ判定を継続する。検出されればそこがターゲットシーンとなる。
【００８８】
図１４を例にとると、シーンチェンジ１が検出され、そのちょうど１５秒後にシーンチェンジ４があったとすると、この１５秒間に存在する、シーンチェンジ２とシーンチェンジ３との判定（無駄な判定）をスキップすることができる。
【００８９】
このように、ここでは、一つ目のシーンチェンジが見つかってから、ターゲットの間隔として与えられた時間だけ後のフレームがシーンチェンジであるかどうかを判定している。したがって、検出されたターゲットシーンの中にあるシーンチェンジ判定のための処理を省くことができ、処理時間を短縮できる。
【００９０】
ここで、本明細書にいう「圧縮動画像のシーンチェンジ検出プログラムをコンピュータ読み取り可能に記録した記録媒体」には、複数の記録媒体にプログラムを分散して配布する場合を含む。また、このプログラムが、オペレーティングシステムの一部であるか否かを問わず、種々のプロセスないしスレッド（ＤＬＬ、ＯＣＸ、ＡｃｔｉｖｅＸ等（マイクロソフト社の商標を含む））に機能の一部を肩代わりさせている場合には、肩代わりさせた機能に係る部分が、記録媒体に格納されていない場合も含む。
【００９１】
図１、図７、図９及び図１２（以下「図１等」という）には、スタンドアロン形式のシステムを例示したが、サーバー／クライアント形式にしても良い。つまり、１つの端末機のみに、本明細書に出現する全ての要素が含まれている場合の他、１つの端末機がクライアントであり、これが接続可能なサーバないしネットワーク上に、全部又は一部の要素が実存していても、差し支えない。
【００９２】
さらには、図１等のほとんどの要素をサーバー側で持ち、クライアント側では、例えば、ＷＷＷブラウザだけにしても良い。この場合、各種の情報は、通常サーバ上にあり、基本的にネットワークを経由してクライアントに配布されるものだが、必要な情報が、サーバ上にあるときは、そのサーバの記憶装置が、ここにいう「記録媒体」となり、クライアント上にあるときは、そのクライアントの記録装置が、ここにいう「記録媒体」となる。
【００９３】
さらに、この「圧縮動画像のシーンチェンジ検出プログラム」には、コンパイルされて機械語になったアプリケーションの他、上述のプロセスないしスレッドにより解釈される中間コードとして実存する場合や、少なくともリソースとソースコードとが「記録媒体」上に格納され、これらから機械語のアプリケーションを生成できるコンパイラ及びリンカが「記録媒体」にある場合や、少なくともリソースとソースコードとが「記録媒体」上に格納され、これらから中間コードのアプリケーションを生成できるインタープリタが「記録媒体」にある場合なども含む。
【００９４】
【発明の効果】
本発明では、フィールド構造画像とフレーム構造画像とが混在する圧縮動画像を入力し、入力した圧縮動画像におけるシーンチェンジを検出するものである。したがって、画像構造の如何を気にすることなく、シーンチェンジを検出でき、圧縮動画像を検索する際の、重要なインデックスを得ることができる。
そして、請求項１、２、４、５、７、８の構成によれば、フレーム構造画像とフィールド構造画像が時間軸上で混在していても、一律にシーンチェンジを検出できる。また、フレーム構造画像内でフレームＤＣＴを用いられようとフィールドＤＣＴを用いられようと、特別な配慮なしに、シーンチェンジを検出できる。
【００９７】
請求項５、１１、１６の構成によれば、画像の大きさや、データの種類が変わっても、検出のばらつきが少なく、一様の検出結果を得ることができる。
【図面の簡単な説明】
【図１】本発明の第１の実施の形態におけるシーンチェンジ検出装置のブロック図
【図２】本発明の第１の実施の形態におけるシーンチェンジ検出装置のフローチャート
【図３】同詳細フローチャート
【図４】同詳細フローチャート
【図５】本発明の第１の実施の形態における入力圧縮動画像のモデル図
【図６】（ａ）本発明の第１の実施の形態におけるフィールド構造画像の例示図（トップフィールド）
（ｂ）同フィールド構造画像の例示図（ボトムフィールド）
（ｃ）同フレーム構造画像の例示図
【図７】本発明の第２の実施の形態におけるシーンチェンジ検出装置のブロック図
【図８】本発明の第２の実施の形態におけるシーンチェンジ検出装置のフローチャート
【図９】本発明の第３の実施の形態におけるシーンチェンジ検出装置のブロック図
【図１０】本発明の第３の実施の形態におけるシーンチェンジ検出装置のフローチャート
【図１１】本発明の第３の実施の形態におけるフィールド間に存在するシーンチェンジの例示図
【図１２】本発明の第４の実施の形態におけるシーンチェンジ検出装置のブロック図
【図１３】本発明の第４の実施の形態におけるシーンチェンジ検出装置のフローチャート
【図１４】本発明の第４の実施の形態におけるシーンチェンジのモデル図
【図１５】（ａ）従来のフレームＤＣＴにおけるマクロブロック構造の説明図
（ｂ）従来のフィールドＤＣＴにおけるマクロブロック構造の説明図
【符号の説明】
１画像構造判定部
２特徴量抽出部
３抽出データ比較部
４シーンチェンジ判定部
５シーンチェンジ判定用データ入力部
６第１のデータ用メモリ
７第２のデータ用メモリ
８フィールドＤＣＴ符号化ブロック数カウント部
９第３のデータ用メモリ
１０シーンチェンジ間隔検索部
１１第４のデータ用メモリ

Claims

入力圧縮動画像の画像構造を判定する画像構造判定部と、
前記画像構造判定部の判定結果がフレーム構造画像である場合、フィールド構造画像に対して画像縦方向に上下２倍分のブロックデータに基づいて特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部で抽出されたブロックデータを記録する記憶領域と、
抽出されたブロックデータを比較して映像の変化量を求める抽出データ比較部と、
前記抽出データ比較部において求められた変化量を用いてシーンチェンジを判定するシーンチェンジ判定部を有し、
前記抽出データ比較部は、時間軸上で異なる位置にあるブロックデータ同士を比較して変化量を求めることを特徴とする圧縮動画像のシーンチェンジ検出装置。
入力圧縮動画像の構造画像に関係無く、１ブロック分のブロックデータに基づいて特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部で抽出されたブロックデータを記録する記憶領域と、
特徴量が抽出された画像がフレーム構造画像である場合、フィールド構造画像に対して画像縦方向に２倍のブロックデータを用いて特徴量を比較し変化量を求める抽出データ比較部と、
前記抽出データ比較部において求められた変化量を用いてシーンチェンジを判定するシーンチェンジ判定部有し、
前記抽出データ比較部は、時間軸上で異なる位置にあるブロックデータ同士を比較して変化量を求めることを特徴とする圧縮動画像のシーンチェンジ検出装置。
前記シーンチェンジ判定部が、シーンチェンジの判定基準として用いる閾値には、画像の最大変化量を基準として定められる閾値が含まれていることを特徴とする請求項１または２記載の圧縮動画像のシーンチェンジ検出装置。
入力圧縮動画像の画像構造を判定する画像構造判定ステップと、
前記画像構造判定ステップの判定結果がフレーム構造画像である場合、フィールド構造画像に対して画像縦方向に上下２倍分のブロックデータに基づいて特徴量を抽出する特徴量抽出ステップと、
抽出されたブロックデータを比較して映像の変化量を求める抽出データ比較ステップと、
前記抽出データ比較ステップにおいて求められた変化量を用いてシーンチェンジを判定するシーンチェンジ判定ステップを有し、
前記抽出データ比較ステップは、時間軸上で異なる位置にあるブロックデータ同士を比較して変化量を求めることを特徴とする圧縮動画像のシーンチェンジ検出方法。
入力圧縮動画像の構造画像に関係無く、１ブロック分のブロックデータに基づいて特徴量を抽出する特徴量抽出ステップと、
特徴量が抽出された画像がフレーム構造画像である場合、フィールド構造画像に対して画像縦方向に２倍のブロックデータを用いて特徴量を比較し変化量を求める抽出データ比較ステップと、
前記抽出データ比較ステップにおいて求められた変化量を用いてシーンチェンジを判定するシーンチェンジ判定ステップを有し、
前記抽出データ比較ステップは、時間軸上で異なる位置にあるブロックデータ同士を比較して変化量を求めることを特徴とする圧縮動画像のシーンチェンジ検出方法。
前記シーンチェンジ判定ステップにおいて、シーンチェンジの判定基準として用いる閾値には、画像の最大変化量を基準として定められる閾値が含まれていることを特徴とする請求項４または５記載の圧縮動画像のシーンチェンジ検出方法。
入力圧縮動画像の画像構造を判定する画像構造判定ステップと、
前記画像構造判定ステップの判定結果がフレーム構造画像である場合、フィールド構造画像に対して画像縦方向に上下２倍分のブロックデータに基づいて特徴量を抽出する特徴量抽出ステップと、
抽出されたブロックデータを比較して映像の変化量を求める抽出データ比較ステップと、
前記抽出データ比較ステップにおいて求められた変化量を用いてシーンチェンジを判定するシーンチェンジ判定ステップを有し、
前記抽出データ比較ステップは、時間軸上で異なる位置にあるブロックデータ同士を比較して変化量を求めることを特徴とするコンピュータ上で動作可能な圧縮動画像のシーンチェンジ検出プログラムをコンピュータ読み取り可能に記録した記録媒体。
入力圧縮動画像の構造画像に関係無く、１ブロック分のブロックデータに基づいて特徴量を抽出する特徴量抽出ステップと、
特徴量が抽出された画像がフレーム構造画像である場合、フィールド構造画像に対して画像縦方向に２倍のブロックデータを用いて特徴量を比較し変化量を求める抽出データ比較ステップと、
前記抽出データ比較ステップにおいて求められた変化量を用いてシーンチェンジを判定するシーンチェンジ判定ステップを有し、
前記抽出データ比較ステップは、時間軸上で異なる位置にあるブロックデータ同士を比較して変化量を求めることを特徴とするコンピュータ上で動作可能な圧縮動画像のシーンチェンジ検出プログラムをコンピュータ読み取り可能に記録した記録媒体。
前記シーンチェンジ判定ステップにおいて、シーンチェンジの判定基準として用いる閾値には、画像の最大変化量を基準として定められる閾値が含まれていることを特徴とする請求項７または８記載の圧縮動画像のシーンチェンジ検出プログラムをコンピュータ読み取り可能に記録した記録媒体。