JP5181325B2 - カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 - Google Patents
カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 Download PDFInfo
- Publication number
- JP5181325B2 JP5181325B2 JP2007206777A JP2007206777A JP5181325B2 JP 5181325 B2 JP5181325 B2 JP 5181325B2 JP 2007206777 A JP2007206777 A JP 2007206777A JP 2007206777 A JP2007206777 A JP 2007206777A JP 5181325 B2 JP5181325 B2 JP 5181325B2
- Authority
- JP
- Japan
- Prior art keywords
- shot
- frame
- replay
- detection system
- cut
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/48—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using compressed domain processing techniques other than decoding, e.g. modification of transform coefficients, variable length coding [VLC] data or run-length data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/786—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
- H04N19/61—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
- H04N19/87—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression involving scene cut or scene change detection in combination with video compression
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/147—Scene change detection
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
そして、前記のように映像データが多くなるほど、映像データ内の見たい場面を素早く探し出すことが困難となる。このようなことから、膨大なビデオデータから、必要なシーンを効率良く、素早くアクセスする技術が重要となってきている。
また、特許文献2に記載された発明では、双方向予測符号化フレームの順方向予測符号化ブロック数、逆方向予測符号化ブロック数の大小関係を調べることにより、複数のショットの分割位置であるカット位置を検出するようにしている。
また、リプレイショット以外のショットに関しても、そのショットの種類を明確に分類したり、複数の連続ショットからなるシーンを、ストーリー上意味のある連続した場面として抽出するのは困難であった。
動画圧縮データからマクロブロックタイプ情報が抽出され、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数が求められる。
イントラ符号化マクロブロックは、リプレイショットの先頭側または最後側のBフレームにおいて比較的多くなる傾向があるため、Bフレームに含まれるイントラ符号化マクロブロックの数が所定範囲内であることを判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別することができ、更には、連続する二つのリプレイカット部の間をリプレイショットとして判別することも可能である。
図1は、本発明の一例を示すブロック図であり、本発明の特徴を明確にするために、一般的なMPEG復号器の構成を同ブロック図に併せて記載している。
これらの構成は、例えば、コンピュータやDVDレコーダ等の装置、および該装置を機能させるためのプログラムや電子回路等として実現される。
そして、カット部検出システム及びショット検出システム並びにシーン検出システム3は、前記カット部を区切り位置とした動画像データを、リプレイショットを含む複数のショットに分割する。
更に、カット部検出システム及びショット検出システム並びにシーン検出システム3は、ショット記号列から照合処理(パターンマッチング処理)により特定のパターンを探索することでシーンを検出する。
MPEG2形式では,ビデオデータを圧縮する際に以下の3つフレームタイプを用いている。
・イントラフレーム(Intra-coded frame,I フレーム)
他のフレームの情報を使用せず、フレーム内圧縮のみ行うフレーム。
・前方向予測符号化フレーム(Predictive-coded frame,Pフレーム)
フレーム内圧縮のほかに、過去のIフレーム及びPフレームを参照フレームとして、時間軸上で順方向動き予測符号化を行うフレーム。
・双方向予測符号化フレーム(Bidirectionally predictive-coded frame,Bフレーム)
フレーム内圧縮のほかに、過去と未来のIフレーム及びPフレームを参照フレームとして,時間軸上で双方向予測符号化を行うフレーム。
MPEG2形式で圧縮されたビデオデータはグループオブピクチャ(以後GOP(Group Of Picture)と称する) 単位でまとめられており、通常、1 つのGOPは0.5 秒分となる15 フレーム分のデータで構成される。また,GOP 内のフレームタイプの構成はビデオデータごとに決まっており、本実施の形態では、IBBPBBPBBPBBPBB という通常のパターン、すなわち連続する2つのBフレームを周期的に含むパターンを用いている。
Closed GOP とは、一つ前のGOP を参照しない方式であり、一つのGOP 内だけで符号化を行う。このため、GOPの最初の2 つのB フレームは、すべてのマクロブロックが必ず逆方向予測となる。一方,Open GOP とは、一つ前のGOP を参照する方式である。GOP の始めの2 つのB フレームも、順方向予測が可能となるため、Closed GOP よりもOpen GOP の方が、より符号化による圧縮率が高くなる。
また、Open GOP では、映像が切り替わる部分などにおいて、GOP 内のフレーム数が少なくなることがある。例えば、GOP を構成するフレーム数が、3フレーム,6フレーム,9フレーム,12 フレームといった3の倍数の数に減少する。この特徴を利用し、カット点検出の精度を上げることができる。
本実施の形態では、前記のような特徴を利用することで、比較的カット部の検出が行いやすく、また、圧縮効率もよいOpen GOP 方式で符号化されたMPEGデータを用いることとする。
通常MPEG圧縮においては1枚の画像フレームを8×8ブロックに細分化した上で、各ブロック毎に離散コサイン変換を行う。輝度4ブロックと、色差(Cb, Cr)の2ブロックをマクロブロックという。動き補償のブロックサイズは16 pixel×16 pixelであるのに対し,DCT( 離散コサイン変換)のサイズは8pixel×8pixelであるためにそれらを結合する仕組みがマクロブロックである。このマクロブロックが参照画像への予測を行う単位となる。また、MPEGでは、符号化を行う際に前後のI,Pフレームに対して参照を行うことで圧縮効果を向上させる工夫が施されている。このため、マクロブロック単位での符号化には、Intra符号化,順方向予測符号化,逆方向予測符号化,双方向予測符号化の4種類の方法があり、各符号化方法は以下の特徴を持つ。
他の画像を参照しないで画素値を復元する符号化方法。
・順方向予測符号化
過去の画像に対して参照を行うことで画素値を復元する符号化方法。
・逆方向予測符号化
未来の画像に対して参照を行うことで画素値を復元する符号化方法
・双方向予測符号化
順方向と逆方向の二つの予測を対応画素間で平均することで画素値を復元する符号化方法。
I フレームはIntra 符号化のみを選ぶことができる。
PフレームはIntra符号化に加え、直前のIフレームもしくはPフレームを参照フレームとする順方向予測符号化を選ぶことができる。
Bフレームは、それらに加え、直後のI,P フレームを参照フレームとする逆方向予測符号化と、直前、直後のI,P フレームを参照フレームとする双方向予測符号化を選ぶことができる。
前記4つの符号化方式のうちどの方法を選ぶかは符号化の段階においてマクロブロック単位で決められ、本実施の形態が扱う動画圧縮データであるMPEG符号化データの中にマクロブロックタイプとして埋め込まれている。
動画像には422と420というコンポーネントディジタル化された形式がある。
422fomatでは、輝度画像が720pixelx480pixelの大きさの場合は、2つの色差画像は横方向にサブサンプル(例えば間引き)された各360pixel x 480 pixelの縦長な形をしている。
一方,420fomat というのは,図2に示すように色差をさらに縦方向にもサブサンプルした画像形式をいう。色差画像の大きさは縦横とも輝度画像の1/2 になる。これがもっとも一般的に動画像符号化で使われる形式である。420の一例では、輝度画像(Y)と縦横比の一致した2 つの色差画像(Cb,Cr)がセットになって扱われる。また、各フレームは45 × 30 のマクロブロックから構成されている。
本実施の形態で用いるMPEG データは、この420 でコンポーネントディジタル
化された形式の動画像を用いる。
本実施の形態では、MPEG2データから、以下の3つの情報を抽出して利用する。
・マクロブロックタイプ
・動きベクトル
・マクロブロックの輝度,色差(DC 成分)
・Intra符号化マクロブロックタイプ
・順方向予測符号化マクロブロックタイプ
・逆方向予測符号化マクロブロックタイプ
・双方向予測符号化マクロブロックタイプ
これら4種類のマクロブロックタイプは、マクロブロック毎に対応するコードとしてMPEG動画圧縮データのマクロブロック層に書き込まれている。
また、カラー画像はRGBの3つの値または3つの画像で表される。これを線形変換して、輝度(Y)と2つの色差(Cb,Cr)で表わすと、色差画像の空間分解能を減らすことができる。輝度とは明るさを表し、色差とは色の度合いを表すものである。
DCT後の直流成分をDC成分と言い、8 pixel × 8 pixel ブロックの平均値を表しているため、特徴量に用いる色情報として、輝度・色差のDC 成分を用いる。マクロブロックでの輝度・色差成分を図3に示す。図3のように、420 フォーマットでは、一つのマクロブロックに4つの輝度成分とそれぞれ1つのCb,Cr の色差成分が含まれる。この輝度・色差のDC 成分を用いることで、グラウンドエリアの色情報を抽出し、ショットの判別に利用する。また、ショット判別に用いる特徴量としては、一つのマクロブロックにおいて、Cb,Cr の色差成分と、4つの輝度ブロックのうち左上の1つの輝度成分のみを利用する。
動きベクトルとは、現在の画像における予測画像の差分を求めるときの、現画像のマクロブロック位置と予測画像の参照を行う位置とのピクセル単位でのずれ量を表す。
この動きベクトルは、MPEG2の場合16pixel × 16pixel 単位のマクロブロックで発生し、現マクロブロックから参照する位置までの距離をx 成分とy 成分で表す。このとき、x 成分は右方向が正,y 成分は下方向が正となる。
また,過去の画像との差分を表したものを順方向動きベクトルと呼び、未来の画像との差分を表したものを逆方向動きベクトルと呼ぶ。
I フレームでは、フレーム間予測を行っていないので、動きベクトルが発生しない。P フレームでは、過去のIまたはPフレームとフレーム間予測を行うため、順方向動きベクトルのみ発生する。B フレームでは、過去と未来、両方のI,P フレームを参照できるため、順方向動きベクトル、逆方向動きベクトルの2つの動きベクトルが発生する。動きベクトルは、フレーム間予測を行うため、映像における動きの特徴や、カメラの動きに対応した映像の流れの特徴を表している。
本実施の形態では、この動きベクトルをショット分類の判別を行うための特徴量として利用する。また、動きの特徴を求めるために十分な量と考えられるP フレームとB フレームにおける順方向動きベクトルのみを特徴量として用いる。
すなわち、I フレームからは、マクロブロックの輝度・色差のDC成分を取り出す。そして、P,Bフレームからは、順方向動きベクトルを取り出す。これら輝度・色差と動きベクトル等の情報は、ショット分類の判別に利用する。
また、Bフレームからは、マクロブロックタイプを取り出す。このマクロブロックタイプは、カット点およびリプレイカット部の検出に用いる。
シーンとは、ストーリー上意味のある連続した場面の動画像であり、例えば、選手がシュートをしたシーン(ゴールはしていない)や、選手がシュートしたボールがゴールしたゴールシーン等である。このシーンは、図5に示すように、時系列順に複数連続して、例えばサッカー試合映像等の一つの動画像を構成する。
本実施の形態におけるショットには、前後のカット点により区分されたショットと、前後のリプレイカット部により区分されたリプレイショットとを含む。
(1)センターロングショット(Center Long Shot)
グラウンド全体を映しているショットであって、最後の3つのグループオブピクチャ(以後GOPとも称する)がゴール付近の画面でないショット。
(2)ゴールロングショット(Goal Long Shot)
グラウンド全体を映しているショットであって、最後の3GOPがゴール付近の画面であるショット。
(3)クローズアップショット(Close-up Shot)
選手のアップを映しているショット。
(4)アウトフィールドショット(Out-field Shot)
観客などフィールド外を映しているショット。
(5)リプレイショット(Replay Shot)
先の映像の繰り返し(リプレイ)を映しているショット
一般的に、カット点には、映像が急激に変化する瞬時カット点(ハードカット点とも呼称される)や、ディゾルブカット点、ワイプカット点、その他の特殊なカット点等があるが、本実施の形態で扱うカット点は瞬時カット点である。
また、上記(5)のリプレイショットの最前部と最後部に位置するリプレイカット部は、本実施の形態では前記カット点と区別し、後に詳述する。
更に、このビットストリーム順のデータは、復号化されるときに順番が入れ替えられることで、元の順番(前記再生順と同じ順番)に戻され、同図6に示す出力順のデータとなる。
本実施の形態では、前記再生順または出力順のことを、フレーム順と称する。
スポーツ映像でのリプレイとは,シュートや,ゴール,ファウルなど視聴者が特に興味のあるシーンがあったときに、数秒後に再び同じシーンを、様々な角度のカメラからの映像がスローモーションなどの効果が加えられ、再生される場面のことを言う(図7参照)。
リプレイに加えられる特殊な編集効果に着目すると、スポーツ映像では、リプレイ部分の始めと終わりに特殊なショット切り替え操作が加えられる場合が多い。例えば,図8に示すような特殊な画像が入る場合や、ワイプカットなどの特殊なショット切り換え操作が入ることもある。このようなリプレイ部分の始めと終わりでの特殊な切り替え操作をDVE (Digital Video Effect) と呼ぶこととする。
本実施の形態で用いるサッカー試合動画像には、図8に示すように、サッカー試合映像に対し、該サッカー試合映像以外の映像(例えば、画面の略全体を覆うボールや旗等の画像)を重ね合わせてなるオーバーレイ画像を、前記DVEの一例として含んでいる。
瞬時カット点が発生する位置は、一対の連続したBフレーム(Bi,Bi+1)に注目すると、以下の(i),(ii),(iii),(iv),(v)の場合に分類される。
(i) Biの直前にカット点が存在する場合
(ii) BiとBi+1の間にカット点が存在する場合
(iii) Bi+1の直後にカット点が存在する場合
(iv) Biのフレーム上にカット点が存在する場合
(v) Bi+1のフレーム上にカット点が存在する場合
以下に、それぞれの場合が生じたとき,Bフレームの符号化にどのような影響があるのかについて説明する。
なお、以下の(i)〜(v)の場合の説明では、Biの直前がIフレーム、Bi+1の直後がPフレームの場合を例にして説明しているが、Biの直前のフレームとBi+1の直後のフレームの組み合わせとしては、(I,P)(P,P)(P,I)のいずれの場合も、数が多くなるマクロブロックタイプは同じである。
以上のことに基づき、本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3では、フレーム毎のMBT情報から特定のマクロブロックタイプが含まれる頻度を求め、その頻度的特徴に応じてフレーム毎に所定のMBT記号を付与するとともに、このMBT記号をフレーム順に対応するように並べることで、MBT記号列を作成し、このMBT記号列中におけるMBT記号の配列的特徴から動画像のカット点を判別している。
なお、図12の表中では、前記マクロブロックタイプ記号の項目名を、Frame Typeと表現している。
すなわち、前記条件を満たすフレームに対し、マクロブロックタイプ記号である「0」という記号が付与される。
その他、マクロブロックタイプ記号が1,2,3,4,5,6,7,8の各々となる場合についても、同様に処理される。
より詳細に説明すれば、順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数(図示例によれば350)以上であるという条件と、逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数(図示例によれば350)以上であるという条件と、双方向予測符号化マクロブロックの数が最頻度という条件との三つ条件の内の何れかが満たされ、且つ、イントラ符号化マクロブロックの数が所定の閾値(例えば100)以上であることを満たす。
また、表中の閾値(20,100,350等)は、実験的に予め設定されたものであり、動画の種類やその他の条件に応じて適宜変更してもよい。
したがって、このMBT記号列において、各MBT記号は、対応するフレームにおける特定のマクロブロックの頻度的特徴を表していることになる。
00: 末尾の0の後にカット点があると判定する。
0*: 0の直後にカット点があると判定する。なお、*は0以外の数とする。
*3: 3の直前にカット点があると判定する。なお、*は3以外の数とする。
33: 先頭の3の直前にカット点があると判定する。
11: 末尾の1の直後にカット点があると判定する。
14: 1と4の間にカット点があると判定する。
44: 先頭の4の直前にカット点があると判定する。
17: 1と7の間にカット点があると判定する。
18: 8の直後にカット点があると判定する。
84: 8の直前にカット点があると判定する。
74: 7と4の間にカット点があると判定する。
リプレイショットの始めと終わりに入るDVE には、Bフレームにおいてイントラ符号化されるマクロブロックの割合が多くなるという傾向がある(図14参照)。これは、挿入される画像や、映像の切り替わりが激しく変化するためだと考えられる。本実施の形態では、このことを判別条件として利用することで、リプレイカット部を検出するようにしている。
(1)連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上(図12の一例によれば100以上)であるという条件。
(2)連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内(図12の一例によれば20以上100未満)であって、このパターンとなる前記二つのBフレームが、複数(例えば2つ)のグループオブピクチャ中で所定数以上(例えば2〜3以上、好ましくは3以上)あるという条件。
そして、以上の(1)と(2)の内の何れか一方の判別条件を満たす場合に、前記Bフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する。なお、前記Bフレームをリプレイカット部とすることも可能である。
また、上記MBT記号列中に、二つのMBT記号b1,b2の内の何れかが「8」であるペアが連続する二つのグループオブピクチャ中に3ペア以上あるという条件が満たされる場合も、このパターンが存在するグループオブピクチャを、リプレイカット部と判別する。
本実施の形態のカット部検出システム及びショット検出システム並びにシーン検出システム3では、上記(1)又は(2)の条件により判別したリプレイカット部の間をリプレイショットとして判別する。
特にその判別精度を向上するために、より好ましくは、図15に示すように、連続する2つの瞬時カット点の間に2つのリプレイカット部のパターン(上記(1)又は(2)の条件を満たすパターン)が存在し、さらに、前記瞬時カット点とこの瞬時カット点に連続するリプレイカット点との間が2GOP 以上あり、且つ、前記2つのリプレイカット点間においても6GOP以上あるとき、これら2つのリプレイカット部の間の区間をリプレイショットとする。
この構成によれば、特に動きの激しいシーンにおいて、イントラ符号化されるマクロブロックが多い場合に、このようなフレームをリプレイショットと誤判断するのを防ぐことができる。
サッカー中継での映像のそれぞれのショットを、基本的に図16のような(1)Center Long Shot(センターロングショット),(2)Goal Long Shot(ゴールロングショット)、(3)Close-up Shot(クローズアップショット),(4)Out-field Shot(アウトフィールドショット),(5)Replay Shot(リプレイショット)の5つのパターンに分類する。
そして、動画像データから抽出された各ショットを、前記分類に応じて異なるショット記号により表す。このショット記号は、本実施の形態の一例によれば、前記各ショットの先頭に付された番号(1〜5の何れか)としている。
また、(3)Close-up shot では、選手が大きく映っているため、動きベクトルが選手の動きに大きく影響される.大きく映されている選手が常に動いているために、前記動きベクトル量の変動も小さくなり、1ショットでの平均動きベクトル量は大きくなる傾向にある。
図17のように動きベクトル量の推移に明確な違いがあることがわかる。1ショットの動きベクトル量をGOP 数で割った平均の動きベクトル量バーM(バーMはMの平均を表すものとする)において、(1)Center Long Shot ではバーMは比較的小さい値となり、(3)Close-upshot では、バーM はLong Shot と比べて大きい値となる。このバーMをLong ShotとClose-up shot の判別に利用する。
また,(2)Goal Long Shot も(1)Center Long Shot と同じLong Shot であるので、同様の傾向を示す。
各ショットでは、動きベクトルの参照するマクロブロック位置の方向にそれぞれ特徴があることから、動きベクトルの方向をショット分類の判別に利用する。
(1)Center Long Shotでは、選手が大きく映っていないために、動きベクトルの方向はカメラワークの動きの方向になり、フレーム内のそれぞれの動きベクトルの方向はほぼ同じ向きとなる。
(3)Close-up shotでは、選手が大きく映っているため、動きベクトルの参照位置も選手の部位の動きに合わせて、様々な方向となることから、それぞれの動きベクトルの方向も分散する。
本実施の形態によれば、前記バーDを(1)Center Long Shotと(3)Close-up shot の判別に用いる。
Long Shot の中において、ゴールエリア付近の画面では、グラウンドのセンター付近の画面に比べ、グラウンド領域の境界線の傾きが大きくなるという特徴がある。本実施の形態では、この特徴を利用することで、Long Shotの中で、(1)Center Long Shotと(2)Goal Long Shotを判別する。
本実施の形態の一例では、輝度、色差、そしてこれらの比r = Cb/Crの範囲を数3(式(4.3))のように定めた。芝の色には、色差成分の割合であるrに一定の値となることから、rとCb, Crの色差の範囲と、明るさを表す輝度Yの範囲を定めることで芝領域に含まれるマクロブロックを抽出することができる。
本願発明者の実験によれば、前記数3(式(4.3))を用いることで、グラウンド領域を正確に抽出することができ、例えば、選手が着用している緑色のユニフォームを避けることができる上、スタジアムの影となっているグラウンド部分の芝を抽出することもできた。
また,同図22、図23、図24の各々には、グラウンド領域の水平投射グラフから、一定の範囲内(例えばrange=3)で、最小2乗法により、グラフの傾きを算出し、その範囲を1つづつずらしていくことで、前記水平投射グラフの傾きを表す。
すなわち、前記水平投射グラフの傾きとは、各フレームを平行な複数の水平ラインに分割した場合において、前記水平ラインを垂直方向へ変化させた場合の変化量に対する、芝を示すマクロブロック数の変化の度合を示すことになる。
そして、これらの3つの特徴量を、 (1)Center Long Shot,(2)Goal Long Shot,(3)Close-up Shot,(4)Out-field Shot等の判別に用いる。
バーM:1ショットでの動きベクトル量の平均。
バーD:1ショットでの動きベクトルの分散値の平均。
バーT:ショットの最後の3GOPのIフレームにおけるグラウンド領域のマクロブロック数の平均。
バーX:ショットの最後の3GOP のI フレームにおける横一列のグラウンド領域が40以上の位置数(ライン数)の平均
バーY:ショットの最後の3GOPのIフレームにおける横一列のグラウンド領域が5以下の位置数(ライン数)の平均。
バーZ:ショットの最後の3GOP のI フレームにおけるグラウンド領域の傾きの最大値の平均。
例えば、バーYの最上限値は、1フレームにおける垂直方向の最大マクロブロック数(例えば30)とすることが可能である。
また、バーDの最上限値は、例えば1とすることが可能である。
また、バーMの最下限値は、例えば0とすることが可能である。
また、バーMの最上限値は、例えば1ショット中の全ての動きベクトルの量とすることが可能である。
また、バーTの最下限値は、例えば0とすることが可能である。
また、(バーX+バーY)の最下限値は、例えば0とるすことが可能である。
本実施の形態では、検出するシーンとして、ゴールシーンと、シュートシーンを対象とする。ゴールシーンの定義として、シュートしたボールがゴール内に入り、得点が入る場面のこととする。
一方、図29のようなゴールシーンでは、(2)Goal Long Shot の後に、(3)Close-up Shotがシュートシーンより多く3〜5ショット入り、間に(4)Out-field Shotも入ることが多い。また、リプレイショットの数も3〜4ショットとシュートシーンよりも多い傾向にある。
本実施の形態は、このようなショットの遷移パターンの特徴を利用することで、ゴールシーンとシュートシーンを区別し、検出するようにしている。
図28や図29のように特定のシーンには特定のショットの移り変わりにパターンがあることから、ショットの記号列においてもシーン固有の典型的なパターンが存在する。このようなシーンの典型的な記号列パターンと、映像データの記号列とについて、パターンマッチング処理を行なうことでシーンを検出する。パターンマッチング処理には、後述するDPマッチングを用いる。
この検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うものである。
例えば、図30によれば、ショット記号列中の「235」に対し、モデルパターン記号列「2335」は、完全一致しないが、略合致したものと判断されている。同様に、ショット記号列中の「233435」に対し、モデルパターン記号列「2333435」も略合致したものと判断されている。
時系列パターンの類似度を求める手法としては、音声認識などによく用いられる動的計画法(DP マッチング)や、隠れマルコフモデル(HMM)などがある。
Dynamic Programming Matching(DP マッチング)は、異なる二つの時系列信号の類似度と最適な対応を求める手法であり、音声認識等のさまざまな分野で利用されている。DPマッチングは非線形の伸縮により、長さの異なるパターンの類似度を計算することができる。これらの利点により,本実施の形態では、時系列パターン間の類似度を求める手法として、DP マッチングを用いる。
DPマッチングの具体的な実現方法について,図31を用いて説明する。
2 つのパターンAとBを特徴ベクトルの時系列として表現する。つまり、数5(5.1式)とする。
すと、F に沿った距離の総和は、数7((5.3)式)で表すことができ、この値が小さいほどA とB の対応づけがよいことを示す。ここで、wk はF に関連した正の重み関数である。
ここで、上式を、次のような制限のもとで、F に関して最小化することを考える。
格子点(i,j) までに選択された経路の長さを数10(式(5.6))より求める。
ここで、前記サッカー試合映像の動画像は、解像度640 × 480、ビットレートは平均5.5Mbps、最大8MbpsのVBR(Variable Bit Rate,可変速度)、プロファイルとレベルは、MP@ML、GOPはIBBPBBPBBPBBPBBIBB・・・というP フレームの後にB フレームが2枚続くN=2 の構成をしている。1つのGOPは基本的にはIフレーム1 枚,P フレーム4 枚,B フレーム10 枚の計15 枚だが、それ以外のランダムGOPも存在し、その場合のランダムGOPは15 枚未満の3 の倍数で構成される。
結果は、図34〜37に示す通りであり、カット点、ショット、リプレイショット、シーンの何れにおいても、比較的高確率の検出結果を得ることができた。
2:復号器
3:カット部検出システム及びショット検出システム並びにシーン検出システム
Claims (15)
- マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別する手段と、を含むことを特徴とするカット部検出システム。 - マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記判別条件には、連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定数以上であるという条件が含まれていることを特徴とするカット部検出システム。 - マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記判別条件には、連続する二つのBフレームの内の少なくとも一方におけるイントラ符号化マクロブロックの数が所定範囲内であって、このパターンとなる前記二つのBフレームが、複数のグループオブピクチャ中で所定数以上あるという条件が含まれていることを特徴とするカット部検出システム。 - マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出する手段と、
この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求める手段と、
Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であるリプレイカット部と判別する手段と、を含み、
前記マクロブロックタイプ情報からフレーム毎の順方向予測符号化マクロブロックの数およびフレーム毎の逆方向予測符号化マクロブロックの数を求める手段を備え、
前記判別条件に加える条件として、
順方向予測符号化マクロブロックの数が最頻度で、且つ逆方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数以上であるという条件と、
逆方向予測符号化マクロブロックの数が最頻度で、且つ順方向予測符号化マクロブロックの数と双方向予測符号化マクロブロックの数との合計が所定数以上であるという条件と、
双方向予測符号化マクロブロックの数が最頻度であるという条件と、
の三つ条件の内の何れかを含むことを特徴とするカット部検出システム。 - 前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする請求項1乃至4何れか1項記載のカット部検出システムを用いたショット検出システム。
- 前記カット部検出システムより検出される複数のリプレイカット部の内、連続する二つのリプレイカット部が、連続する二つの瞬時カット点の間に位置する場合に、これら連続する二つのリプレイカット部の間を、先の映像の繰り返しを映しているリプレイショットと判別することを特徴とする請求項1乃至4何れか1項記載のカット部検出システムを用いたショット検出システム。
- 前記連続する二つのリプレイカット部の内の一方と、この一方のリプレイカット部に連続する瞬時カット点との間に、所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする請求項5又は6記載のショット検出システム。
- 前記連続する二つのリプレイカット部の間に所定数以上のグループオブピクチャを有するという条件を、前記リプレイショットの判別条件に加えたことを特徴とする請求項5乃至7何れか1項記載のショット検出システム。
- 動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、
この動きベクトル情報からフレーム毎の動きベクトル量を求める手段と、
前記抽出されたショットについて、その1ショット分の前記動きベクトル量をグループオブピクチャ数で割った平均の動きベクトル量を求める手段とを備え、
前記平均の動きベクトル量が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする請求項5乃至8何れか1項記載のショット検出システム。 - 動画圧縮データから抽出されたショットに対し、フレーム毎に動きベクトル情報を抽出する手段と、
各フレームのマクロブロック毎に動きベクトルの方向を所定数の方向に量子化する手段と、
前記量子化により分類された動きベクトルの方向について、その分散度をフレーム毎に求める手段と、
前記抽出されたショットについて、その1ショット分の前記分散度をグループオブピクチャ数で割った平均の分散度を求める手段とを備え、
前記分散度が所定範囲内であることを判別条件にして、前記抽出されたショットを特定のショットとして判別することを特徴とする請求項5乃至9何れか1項記載のショット検出システム。 - 動画圧縮データから、Iフレーム毎に輝度成分Y、色差成分Cb、色差成分Crを抽出する手段と、
各Iフレームを平行な複数のラインに分割し、そのライン毎に、輝度成分Y、色差成分Cb、色差成分Cr、色差成分の比r=Cb/Crが、それぞれ所定範囲内であるという色条件を満たすマクロブロックの数を求める手段と、
Iフレーム毎に、前記色条件を満たすマクロブロック数が所定範囲以内であるラインの数の平均値を求める手段とを備え、
前記平均値が所定範囲内であるIフレームを含むショットを、特定のショットとして判別することを特徴とする請求項5乃至10何れか1項記載のショット検出システム。 - Iフレーム毎に、前記ラインの変化に対する前記マクロブロック数の変化の度合を求め、その度合の最大値が所定範囲内であるIフレームを含むショットを、特定のショットとして判別することを特徴とする請求項11記載のショット検出システム。
- 前記ショット検出システムにより検出された各ショットに対し、その種類に応じたショット記号を付与することでショット記号列を作成する手段と、
検出対象のシーンに対応するように複数の前記ショット記号を配列してなるモデルパターン記号列を記憶する手段と、
前記ショット記号列中から、前記モデルパターン記憶手段のモデルパターン記号列に対応する記号列を検出する検出手段とを備え、
前記検出手段により検出された記号列に対応する前記動画像データの連続ショットを、特定のシーンとして認識するようにしたことを特徴とする請求項5乃至12何れか1項記載のショット検出システムを用いたシーン検出システム。 - 前記検出手段は、前記ショット記号列に対し前記モデルパターン記号列を照合させて、前記ショット記号列中から前記モデルパターン記号列に略合致する記号列を検出するパターンマッチング処理を行うことを特徴とする請求項13記載のシーン検出システム。
- コンピュータが、マクロブロックタイプ情報を含む動画圧縮データから、少なくともBフレーム毎にマクロブロックタイプ情報を抽出するステップと、
コンピュータが、この抽出されたマクロブロックタイプ情報からフレーム毎のイントラ符号化マクロブロックの数を求めるステップと、
コンピュータが、Bフレームに含まれるイントラ符号化マクロブロックの頻度的特徴を判別条件にして、このBフレーム又はこのBフレームを含むグループオブピクチャを、リプレイショットの先頭部分又は最後部分であって、且つ動画内容以外の映像を重ね合わせてなるオーバレイ画像であるリプレイカット部と判別するステップと、
を含むことを特徴とするカット部検出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007206777A JP5181325B2 (ja) | 2007-08-08 | 2007-08-08 | カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 |
US12/073,703 US8761260B2 (en) | 2007-08-08 | 2008-03-07 | Cut detection system, shot detection system, scene detection system and cut detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007206777A JP5181325B2 (ja) | 2007-08-08 | 2007-08-08 | カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009044422A JP2009044422A (ja) | 2009-02-26 |
JP5181325B2 true JP5181325B2 (ja) | 2013-04-10 |
Family
ID=40346126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007206777A Expired - Fee Related JP5181325B2 (ja) | 2007-08-08 | 2007-08-08 | カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8761260B2 (ja) |
JP (1) | JP5181325B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140181668A1 (en) | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
JP6494903B2 (ja) * | 2013-02-14 | 2019-04-03 | ソニー株式会社 | 分析システム、分析プログラム及び分析方法 |
JP6237035B2 (ja) * | 2013-09-20 | 2017-11-29 | サクサ株式会社 | 動き検出装置及び動き検出用プログラム |
JP6438777B2 (ja) * | 2015-01-30 | 2018-12-19 | ルネサスエレクトロニクス株式会社 | 画像処理装置および半導体装置 |
JP7125594B2 (ja) * | 2018-04-27 | 2022-08-25 | 富士通株式会社 | 符号化装置、符号化方法、及び符号化プログラム |
CN108810620B (zh) * | 2018-07-18 | 2021-08-17 | 腾讯科技(深圳)有限公司 | 识别视频中的关键时间点的方法、装置、设备及存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0738842A (ja) * | 1993-06-29 | 1995-02-07 | Toshiba Corp | 動画編集装置 |
JP3234095B2 (ja) | 1994-04-12 | 2001-12-04 | シャープ株式会社 | 液晶表示装置 |
DE19630295A1 (de) * | 1996-07-26 | 1998-01-29 | Thomson Brandt Gmbh | Verfahren zur Codierung und Decodierung von digitalisierten Bildern eines Trickfilms sowie Vorrichtung zur Codierung und Decodierung von digitalisierten Bildern eines Trickfilms |
JP3738939B2 (ja) * | 1998-03-05 | 2006-01-25 | Kddi株式会社 | 動画像のカット点検出装置 |
KR100698106B1 (ko) * | 2000-03-07 | 2007-03-26 | 엘지전자 주식회사 | 엠펙(mpeg)압축 비디오 환경에서 계층적 혼합형장면 변화 검출 방법 |
US20040125877A1 (en) * | 2000-07-17 | 2004-07-01 | Shin-Fu Chang | Method and system for indexing and content-based adaptive streaming of digital video content |
JP2003060980A (ja) * | 2001-08-21 | 2003-02-28 | Olympus Optical Co Ltd | 画像処理システム |
JP3754390B2 (ja) * | 2002-04-22 | 2006-03-08 | 三洋電機株式会社 | カメラ |
US7657836B2 (en) * | 2002-07-25 | 2010-02-02 | Sharp Laboratories Of America, Inc. | Summarization of soccer video content |
JP4424590B2 (ja) | 2004-03-05 | 2010-03-03 | 株式会社Kddi研究所 | スポーツ映像の分類装置 |
JP3906854B2 (ja) * | 2004-07-07 | 2007-04-18 | 株式会社日立製作所 | 動画像の特徴場面検出方法及び装置 |
US7509021B2 (en) * | 2005-06-27 | 2009-03-24 | Streaming Networks (Pvt.) Ltd. | Method and system for providing instant replay |
JP4559935B2 (ja) * | 2005-08-25 | 2010-10-13 | 株式会社東芝 | 画像記憶装置及び方法 |
JP4606278B2 (ja) * | 2005-09-07 | 2011-01-05 | 日本電信電話株式会社 | 映像構造化方法及び装置及びプログラム |
JP4257615B2 (ja) * | 2006-07-14 | 2009-04-22 | ソニー株式会社 | 画像処理装置および方法、並びにプログラム |
-
2007
- 2007-08-08 JP JP2007206777A patent/JP5181325B2/ja not_active Expired - Fee Related
-
2008
- 2008-03-07 US US12/073,703 patent/US8761260B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009044422A (ja) | 2009-02-26 |
US8761260B2 (en) | 2014-06-24 |
US20090040390A1 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3939551B2 (ja) | 動画像処理装置、その方法、及び記録媒体 | |
US7916171B2 (en) | Classification apparatus for sport videos and method thereof | |
JP4267327B2 (ja) | 動き記述子を用いてビデオを要約化する方法 | |
Kobla et al. | Detection of slow-motion replay sequences for identifying sports videos | |
JP3719933B2 (ja) | 階層的ディジタル動画要約及び閲覧方法、並びにその装置 | |
US6697523B1 (en) | Method for summarizing a video using motion and color descriptors | |
JP5181325B2 (ja) | カット部検出システム及びショット検出システム並びにシーン検出システム、カット部検出方法 | |
JP4577774B2 (ja) | スポーツ映像の分類装置およびログ生成装置 | |
JP4456867B2 (ja) | ビデオ中の異常イベントを検出する方法およびシステム | |
JP4520994B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JPH10257436A (ja) | 動画像の自動階層構造化方法及びこれを用いたブラウジング方法 | |
US20050141613A1 (en) | Editing of encoded a/v sequences | |
US7050115B2 (en) | Wipe and special effect detection method for MPEG-compressed video using spatio-temporal distribution of macro blocks | |
JP4465362B2 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP2009044423A (ja) | シーン検出システム及びシーン検出方法 | |
Smeaton et al. | An evaluation of alternative techniques for automatic detection of shot boundaries in digital video | |
JP4719889B2 (ja) | カット点検出システムおよび該カット点検出システムを用いたショット識別システム、カット点検出方法、並びにカット点検出プログラム | |
JP2869398B2 (ja) | カット点検出方法及び装置 | |
KR101290673B1 (ko) | 스포츠 동영상의 하이라이트 검출 방법 및 장치 | |
JP2005175710A (ja) | デジタル記録再生装置及びデジタル記録再生方法 | |
JP2003143546A (ja) | フットボールビデオ処理方法 | |
JP2002064823A (ja) | 圧縮動画像のシーンチェンジ検出装置、圧縮動画像のシーンチェンジ検出方法及びそのプログラムを記録した記録媒体 | |
JP2003061112A (ja) | カメラワーク検出装置およびカメラワーク検出方法 | |
JPH10112863A (ja) | 動き被写体情報抽出方法及び装置 | |
Fernando et al. | DFD based scene segmentation for H. 263 video sequences |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100806 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100810 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100929 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120214 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120413 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5181325 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |