JP4271027B2

JP4271027B2 - 動画データストリームで漫画を検出するための方法及びシステム

Info

Publication number: JP4271027B2
Application number: JP2003516016A
Authority: JP
Inventors: エスジャシンスキ，ラドゥ; エイディーネスヴァドバ，ジャン; エフエムマッギー，トマス; アグニホトリ，ラリタ
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-07-20
Filing date: 2002-07-08
Publication date: 2009-06-03
Anticipated expiration: 2022-07-08
Also published as: WO2003010715A3; CN1498391A; WO2003010715A2; KR20040018506A; JP2004537128A; EP1412921A2; US6810144B2; US20030016864A1; CN1265321C

Description

発明の詳細な説明

［技術分野］
本発明は、動画データの検出に関し、より詳細には、一般的な動画データストリームにおける漫画の検出に関する。
［背景技術］
動画データ信号における特定種類のジャンル、すなわち漫画、映画、コマーシャル等を自動化された手動的な手段により識別することは、デジタルメディアの出現に遡り長年行われている。

典型的に、動画データの内容を検出する目的で該動画データを調べることは、符号化されていることがある動画信号を調べることを含んでいる。符号化は、この場合には、記憶又は伝送向けに動画信号を圧縮することを含んでおり、復号化はよく知られている。動画圧縮規格の１つにＭＰＥＧがあり、これはMoving Picture Expert Groupを意味する。ＭＰＥＧは、ＩＳＯすなわちInternational Standards Organizationである。「ＭＰＥＧ動画」は、現時点で２つの完成された規格ＭＰＥＧ−１，ＭＰＥＧ−２を構築しており、第三の規格となるＭＰＥＧ−４は完成の過程にある。

ＭＰＥＧ動画圧縮は、多くの現在の製品で採用されており、今後登場する製品でも利用される。ＭＰＥＧは、デジタルテレビのセットトップボックス、ＤＳＳ、ＨＤＴＶデコーダ、ＤＶＤプレーヤ、ビデオ会議、インターネットビデオ及び他の適用における心臓部をなしている。これらの適用は、保存された動画情報向けに少ない記憶領域を要すること、ある地点から別の地点への動画情報の伝送向けに少ない帯域幅を要すること、又は少ない記憶領域及び少ない帯域幅の両者を要することから、動画圧縮から利益を得ている。

色が３色の成分である赤（Ｒ）、緑（Ｇ）及び青（Ｂ）で典型的に表現される場合、動画圧縮の世界では、輝度成分及び色度成分で表現される。人間の視覚システムを研究することで、目は輝度における変化には感度が高く、色度における変化には感度が低いことがわかっている。ＭＰＥＧは、輝度情報と色度情報に対する目の異なる感度を効果的に利用した色空間に基づいて動作する。したがって、ＭＰＥＧは、ＹＣ_bＣ_r色空間を利用して、ＲＧＢの代わりにデータ値を表現する。ここで、Ｙは輝度成分であり、Ｙ＝０．２９９Ｒ＋０．５８７Ｇ＋０．１１４Ｂとして実験的に決定されている。Ｃ_bは、青の色差成分でＣ_b＝Ｂ−Ｙであり、Ｃ_rは、赤の色差成分でＣ_r＝Ｒ−Ｙである。

ＭＰＥＧ動画は、複数層からなる階層構造に編成され、エラー処理を有してランダムサーチ及び編集、並びに、たとえばオーディオビットストリームとの同期が支援される。第一のレイヤ、すなわち上位層は、ビデオシーケンスレイヤとして知られており、たとえば、符号化された映画、広告或いは漫画といった任意の自己完結型のビットストリームである。

第二のレイヤは、第一のレイヤの下に位置しており、グループ・オブ・ピクチャ（ＧＯＰ）であり、図１に例示されるように、１つ以上のイントラ（Ｉ）フレームのグループ及び／又は非イントラ（Ｐ及び／又はＢ）ピクチャから構成されている。Ｉフレームは、厳密にイントラ圧縮される。その目的は、動画に対するランダムアクセスポイントを提供することにある。Ｐフレームは、動き補償された前方予測による符号化フレームである。Ｐフレームは、インターフレーム圧縮されており、Ｉフレームよりも高い圧縮度を一般に提供する。Ｂフレームは、動き補償された双方向予測による符号化フレームである。Ｂフレームは、インターフレーム圧縮されており、最も高い圧縮度を一般に提供する。

第三のレイヤは、第二のレイヤの下に位置し、ピクチャレイヤ自身である。この第三のレイヤの下に位置する第四のレイヤは、スライスレイヤと呼ばれる。それぞれのスライスは、一般的な動画アプリケーションでは最も多くの場合に行を基準とした、隣接するラスター順のマクロブロックからなるシーケンスである。スライス構造は、エラーが存在する場合での復号化を許容することが意図される。それぞれのスライスは、マクロブロックから構成され、このマクロブロックは、輝度ピクセルすなわち画像データ要素からなる１６×１６アレイであり、関連する色度ピクセルからなる２つの（フォーマットに依存する）８×８アレイを有している。

マクロブロックは、図２に例示されるように、変換符号化のような更なる処理のために、別個の８×８ブロックに更に分割することができる。マクロブロックは、ＹＣ_bＣ_rの色空間を参照したときに、幾つかの異なる手法で表現することができる。一般的に使用される３つのフォーマットは、４：４：４動画、４：２：２動画、４：２：０動画として知られている。４：２：２は、４：４：４に比べて半分の色度情報を含んでおり、全帯域幅ＹＣ_bＣ_r動画である。４：２：０は、４分の１の色度情報を含んでいる。図３に例示されるように、輝度情報と色度情報の表現に関する効果的な手法のために、４：２：０表現は、１２ブロック／マクロブロックから６ブロック／マクロブロックへの直接的なデータ低減を可能にする。

画像における隣接する画素間の高い相関のために、ランダム性をより少ない無相関化されたパラメータに収束させるために離散コサイン変換（ＤＣＴ）が使用されている。ＤＣＴは、信号を分解して基礎となる空間周波数成分にする。これにより、更なる処理技術でＤＣＴ係数の精度を低減することができる。ＤＣＴ変換及び逆ＤＣＴ変換処理は、式１及び式２のそれぞれで定義される。

図２に例示されるように、あるブロックは、ＤＣＴを利用して、空間領域から周波数領域に始めに変換される。ＤＣＴは、信号を独立な周波数帯域に分離する。係数マトリクスの左上隅に向かうより低い周波数のＤＣＴ係数は、より滑らかな空間的の輪郭に対応しており、ＤＣ係数は、ブロック全体の一様な輝度値及び色度値に対応する。また、係数マトリクスの右下隅に向かうより高い周波数のＤＣＴ係数は、より鋭い空間パターン或いは画像内の規則的な雑音に対応している。この時点でデータは量子化されている。量子化処理により、高いエネルギー、低い周波数の係数をより多くのビット数で符号化することができ、高い周波数の係数にはより少ないビット数又はゼロを使用する。係数のサブセットのみを保持することで、実際に表現するために必要とされる全体のパラメータ数を減少することができる。また、量子化処理は、エンコーダが特定のビットレートでビットストリームを出力するための助けとなる。

ＤＣＴ係数は、２つの特別な符号化スキームであるランレングス及びハフマンを使用して符号化される。非ゼロのＤＣＴ係数の殆どがマトリクスの左上隅に一般的に集中されるので、図２に例示されるようなジグザグ走査パターンは、連続したゼロ係数の長いランが達成される可能性を最大にする傾向がある。

ＭＰＥＧ−２は、エンコーダによりフレームベースで選択され、インタレース動画像に関して効果的であることが知られている代替的な走査方法を提供する。それぞれの非ゼロの係数は、ポインタの対と関連している。第一に、それ自身と前の非ゼロの係数との間のゼロの数により示されるブロックにおける係数の位置、第二に、係数の値による。これら２つのポインタに基づいて、係数には、ルックアップテーブルから可変長符号が与えられる。これは、可能性の高い組み合わせがより少ないビットの符号を得て、可能性の低い組み合わせがより長い符号を得る。しかし、空間的な冗長度が制限されるために、Ｉフレームは適度な圧縮を提供するのみである。

Ｐフレーム及びＢフレームは、ＭＰＥＧがその最大の圧縮効率を導出するフレームである。効率は、時間的な冗長度を利用する動き補償に基づく予測と呼ばれる技術を通して達成される。フレームは密接に関連しているので、現在のピクチャは、前の時間でのピクチャの変換としてモデル化することができる。次いで、前のフレームのデータに基づいて１フレームのデータを正確に予測することが可能である。Ｐフレームでは、それぞれ１６×１６サイズのマクロブロックが前に符号化されたＩピクチャのマクロブロックから予測される。フレームは、移動する対象物の時間的なスナップショットであるので、２つのフレームにおけるマクロブロックは、同じ空間的な位置に対応しない場合がある。

エンコーダは、現在のマクロブロックに含まれる情報に正確に一致する他のマクロブロックの位置について、ハーフピクセル単位でインクリメントすることで、前のフレーム（Ｐフレーム、又はＢフレームの前後のフレーム）をサーチする。共通して位置されるマクロブロックから最も一致するマクロブロックの水平及び垂直方向における変位は、動きベクトルと呼ばれる。一致するマクロブロックが近傍領域に発見されなかった場合、マクロブロックはイントラ符号化され、ＤＣＴ係数が符号化される。一致するブロックがサーチ領域で発見された場合、係数は伝送されないが、代わりに動きベクトルが利用される。また、動きベクトルは、破壊されたデータの場合に動き予測のために利用され、洗練されたデコーダアルゴリズムは、エラーを隠蔽するためにこれらのベクトルを利用する。Ｂフレームについて、動き補償に基づく予測及び補間は、そのいずれかの側に存在する参照フレームを使用して実行される。

動画コンテンツの分析は、記録されたマテリアルの内容を最も記述している情報を抽出するという自動的又は半自動的な方法を含んでいる。情報を抽出することは、動画のシーンの変化を検出すること、及び代表的なフレームとして最初のシーンのフレームを選択することと同様に簡単である。動画の識別もまた、動画ストリームのヘッダ情報に記憶することができる。たとえば、パーソナルビデオレコーダの領域には、ビデオ情報をダウンロードして内部のハードドライブに記憶することができるセットトップボックス（ＳＴＢ）がある。ＳＴＢのなかには、電子番組ガイド（ＥＰＧ）を提供するものがあり、ＥＰＧは、インタラクティブであって、地域の新聞又は他の印刷媒体に見られるＴＶ番組一覧に類似の付属ユーティリティである。ＥＰＧがない場合には、視聴者が見ている番組が映画、コマーシャル、ニュース、漫画又は他のテレビジャンルのであるかを知ることは、ＳＴＢにとって困難である。しかし、コンピュータを利用した自動化処理を通して動画ストリームのコンテンツを分析することができる場合、ＥＰＧの必要なしに、動画ストリーム全体を内容によって分割することができる。

動画ストリームのコンテンツ分析に関する様々な特許が存在するが、それらの特許は、漫画と他のタイプのジャンルを区別することはできない。たとえば、視聴者が特定の日にテレビ放送される漫画のみを録画したい場合、該視聴者は、漫画だけではなく、他の無駄なコンテンツを含めて、録画のための特定の時間の境界を選択することができるのみである。

さらに、ＥＰＧは、存在するときでさえも、情報を視聴者に正確に伝達することができないことがある。スケジュールにおける変更又は特別番組の割り込みは、ＥＰＧに示されていない。したがって、録画されることが望まれる漫画は、指定された時間の境界を超えてしまう場合がある。

より洗練されたＳＴＢは、視聴者が見ている番組を検出して、この情報を放送局に送出する機能を有している。この抽出されたデータに基づいて、ユーザの個人のプロファイルが作成され、ユーザの好みに基づいてお勧めがなされる。しかし、このテレビ推薦システムは、ＥＰＧ又はコンテンツ検出システムのいずれかに大きく依存しており、漫画を検出するために正確かつ洗練されたものではない。
［発明の開示］
したがって、本発明の目的は、動画データストリームにおける漫画シーケンスを検出するための、より正確なシステム及び方法を提供することにある。

１つの実施の形態では、動画データストリームを取得するステップ、該動画データストリームからデータを抽出するステップ、一般的な漫画に関する少なくとも１つの予め決定された特性を示すデータに基づいて、少なくとも１つの第一の値を計算するステップ、少なくとも１つの該第一の値と、自然の動画シーケンスに関する少なくとも１つの特性を示す第二の値とを比較するステップ、及び該比較に基づいて、該動画データストリームが漫画のシーケンスを含んでいるかを判定するステップを有する方法が提供される。動画データは、限定されるものではないが、視覚的なデータ、音声的なデータ或いは文書データといった、すなわち、未処理データすなわち符号化されたデータのストリームから抽出された低いパラメータ情報を含んでいる。

別の実施の形態では、漫画のシーケンスを検出するためのシステムが提供され、動画信号を受信するための通信装置、該動画信号を記憶可能な記憶装置、該通信装置及び該記憶装置と作用的に接続されるプロセッサを有している。該プロセッサは、該動画信号からデータを抽出し、該動画信号が漫画のシーケンスを含んでいるかを予め決定された方法に基づいて判定し、該記憶装置に記憶される出力を該判定に基づいて発生することができる。本発明の別の実施の形態によれば、動画信号を符号化することができる。

本発明の更なる特徴及び効果と共に上述した内容は、所定の好適な実施の形態に関する以下の詳細な説明で明らかとなるであろう。この説明は、発明の実施の形態の一部を形成する添付図面と共に参照することになる。この添付図面では、対応する部材又は構成要素は幾つかの図面において同じ参照符号により識別される。本発明の実施の形態は、添付図面を参照して例示を介して記載される。
［実施例］
図４に例示される本発明の好適な実施の形態によれば、漫画検出システムは、動画信号４００を受ける記憶装置４０５、該記憶装置４０５に接続されるプロセッサ４１０を有している。動画信号４００は符号化されている。動画信号４００は、放送局からアナログ形式又はデジタル形式で到来するか、又はＣＤ、ＤＶＤ、レーザディスク或いは符号化された動画データを記憶可能な他の媒体のような記憶媒体に予め記録されている。符号化規格は、ＭＰＥＧ１，２，４或いは他のデジタルスキーム（圧縮又は非圧縮）である場合がある。

動画信号４００は、記憶装置４０５に典型的に記憶され、プロセッサ４１０に送出される。プロセッサ４１０は、動画信号４００を分析して、動画信号４００が漫画を含んでいるかを検出する。漫画が検出された場合、プロセッサ４１０は、動画信号４００に関する情報、すなわち、どのような特定のフレームが一般的な漫画のフレームとして索引付けされているかを示す情報を含んだ識別信号４１５を発生する。次いで、識別信号４１５は、識別のために記憶装置に記憶される。代替的に、記憶装置４０５をバイパスして、動画信号をプロセッサ４１０に送出することもでき、該プロセッサ４１０は、漫画の検出後に、識別信号４１５を記憶装置４０５に送出する。さらに、別の実施の形態では、識別信号は記憶装置に記憶されず、表示装置（図示せず）にリアルタイムで単に送出される。これにより、他のテレビ局で何が放送されているかをユーザに報知することができる。

本発明の好適な実施の形態による漫画検出方法は、図５に例示されている。動画データストリームにおける漫画を検出するために、自然の動画と比較して典型的な漫画の特性は、図５のステップ５００に示されているように識別される必要がある。用語「自然の動画」は、限定されるものではないが、映画又はニュース放送のような典型的な動画信号を示している。典型的な漫画の固有な特性は、視覚的及び聴覚的な特性に分割することができる。たとえば、典型的な漫画におけるキャラクターの声は、不自然であるとして特徴付けることができる。サウンド効果は、短い楽器又はアーチファクトノイズでは大きい。視覚的な特性は、動的又は静的であるとすることができる。視覚的な静的特性は、一様な色及び良好に画定された輪郭のような特性を含む。たとえば、典型的な漫画、特に手描きの古い漫画は、殆ど陰影がなく、一様に色付けされたパッチにより、十分に明確にされた輪郭を有している。

典型的な漫画の視覚的な動的特性は、速い動き及び突然の変化のような特性を含んでいる。たとえば、漫画の動画シーケンスでは、領域の動きは、多くの高速なセクションを含んでおり、カットレート（cut rate）が非常に高い。したがって、漫画は、時間のサンプリングレート（temporal sampling rate）に関して他のジャンルとは異なる。動画シーケンスにおける漫画は、毎秒６フレームに時間的にサブサンプリングされる。これは、動きのスムーズさに関する知覚を誘発する。動きが突然であるように見える。しかし、低速なフレームレートは、（古典的な昔の漫画では）各フレームが手描きであり、プロセスの費用が安価であるので生産プロセスを助ける。対照的に、標準的なビデオは、毎秒約２４−３０フレームでサンプリングされ、よりスムーズに感じる。

典型的な漫画の特性を識別した後、動画データは、動画信号から抽出される。動画データは、限定されるものではないが、ビジュアルデータ、オーディオデータ、テクスチャデータ、すなわち未処理データ或いは符号化されたデータストリームから抽出された低いパラメータの情報を含んでいる。この情報は特性を表している。たとえば、漫画のフレーム全体の推定できる色の一様性に基づいて、フレーム全体の色の分布、すなわちそれぞれの画素の色値が抽出される。フレームを通したコントラストの変化に本質的に対応するそれぞれのフレームのＡＣ値もまた抽出することができる。十分に明確にされた輪郭のような既知の特性を利用するために、エッジマップ（edge map）を生成するために必要な全ての低パラメータ情報は、符号化された動画信号から抽出される。既知の漫画の特性に基づいた様々な漫画検出方法の適用向けに、フレームレート、ブロック速度、ＤＣ値等のような他の情報を抽出することができる。

最後に、低パラメータ情報の抽出後、適切な漫画の検出方法が利用される。これらの方法は、典型的な漫画に関する既知の固有な特性を利用しており、動画データストリームが漫画のデータストリームであるかを検出可能である。本発明の好適な実施の形態によれば、全ての検出方法は、検出プロセスに精度を加えるために互いに組み合わせて使用される。これらの検出方法には、時間のサンプリング法（temporal sampling method）のようなそれ自身決定的なものがあるが、互いに組み合わせて利用したときに精度が向上する。したがって、方法のうちの一方が漫画を検出する一方で、別の方法は漫画を検出しない。したがって、全ての方法は、結合されて重み付けされるべきである。

［カラーヒストグラム法］
画像における色分布は、ヒストグラムにより表現することができ、それぞれのヒストグラムのビンは、色成分のそれぞれの値の範囲に対応する。８ビット画像について、色成分は０から２５５の範囲の値をとる。

図６のフローチャートに例示されるように、第一の処理はステップ６００で、符号化された動画ストリームにおけるそれぞれのＩフレームについて、カラーヒストグラムを計算することである。カラーヒストグラムは、最も高い粒状度について計算される。すなわち、２５６の可能な値が存在する場合、ヒストグラムは２５６のビンについて計算される。

代替的に、他の量子化スキームを利用することもできる。色量子化は、動画ヒストグラムの計算において典型的な最初の処理である。色量子化について様々な方法が存在しており、当該技術分野で知られている。関係する要素は、どの色空間を使用するか、どの位多くの色を選択するか、及び色空間をどのように再分割するかである。たとえば、１２８のビンは、Ｙについて、又はＹ，Ｃ_r，Ｃ_bが縮小スケーリングされた２８８の全体のビンについて使用することができる。例示のために、かつＭＰＥＧがこの空間で動作するので、Ｙ、Ｃ_r、Ｃ_b色空間が全体を通して使用される。代替的に、ＨＳＢ（色相、彩度、明度）空間を利用して、基本的な色のビンを定義することができる。任意の雑音を除去するために、必須ではないが平滑化処理を次に実行することができる。画像の平滑化は、ローカル処理方法からなるセットであり、画像データにおける冗長度を使用することにより画像における雑音又は他の微弱な変動を抑圧することを狙いとしており、周波数領域における高周波の抑圧と等価である。様々な画像平滑化技術は、当業者に知られている。

ステップ６０５では、カラーヒストグラムにおいて卓越ピークが識別される。典型的に、卓越ピークは、半値全幅（ＦＷＨＭ）の値が１０よりも大きく、６０よりも小さいピークとして定義される。標準的な動画について、図７Ａに例示されるように、典型的に卓越ピークが存在しないか、或いは、１つ又は２つのピークのみが存在し、ヒストグラムは全体のスペクトルを通して広げられている。１つ又は２つの卓越ピークが存在する場合であっても、シーン変化のために長く存在することはなく、ヒストグラムは、長い時間を経て変化する傾向にある。

漫画について、他方では、図７Ｂに例示されているように、４〜５の卓越ピークが存在し、ヒストグラムは広げられておらず、すなわち、ほぼ９０％の画素は、全体のスペクトルのほんの５０％以下に位置する。この制限された広がりは、漫画の全体の期間の間は持続する。

ステップ６１０では、連続する卓越ピークの間の平均距離が計算され、ステップ６１５で、卓越ピークを有するビンの全体の数に関する計算が続く。多くの支配的なピークが存在し、特に隣接している場合、ステップ６２５で、ビンはリサンプリングされる（resampled）。サブサンプリングステップは、例示のために、図７Ｂから図７Ｃに例示されている。

対象となるＩフレームのカラーヒストグラムにおける卓越ピークの数が自然の動画のカラーヒストグラムにおける卓越ピークの数よりも多い場合、対象となるＩフレームは、テレビ漫画のフレームとして索引付けされる。

このことは、対象となるＩフレームのカラーヒストグラムにおける卓越ピークの数が２よりも大きいか或いは２に等しく、かつ１０未満であり、ヒストグラムがスペクトルの制限された部分に集中される場合、対象となるＩフレームは動画ストリームのうちの漫画の部分に属することを意味している。この評価は、ステップ６３０で行われる。漫画の検出における次の決定的な要素は、連続する卓越ピーク間の平均距離である。典型的な漫画では、卓越ピークはより広がっている。したがって、ステップ６３５で例示されているように、対象となるＩフレームのカラーヒストグラムにおいて連続するピーク間の平均距離が、標準的な動画のＩフレームのカラーヒストグラムにおいて連続するピーク間の平均距離よりも長い場合、対象となるＩフレームは、「カラーヒストグラム」法に基づいて、テレビ漫画のフレームとして索引付けされる。

［エッジマップ法］
エッジマップ法は、漫画に特徴的な手描き、黒筆の類の境界を検出しようとする。自然の画像においてエッジを検出するために、当該技術分野において公知の多くの技術が存在する。基本的なアプローチは、画像のＹ成分における突然の強度変化を検出することである。漫画について、境界が最小のシェーディングにより一般に十分に輪郭が明確になっているため、技術はより簡単である。

エッジ検出は、画像処理において基本的な処理である。その目的は、強度（グレイレベル）の変動において「大きな」変化に対応する画像の領域を決定することにある。基礎となる仮定は、これら強度変動についての軌跡は、たとえば、顔の形状の輪郭といった「意味のある」画像情報に対応する。エッジの検出は、（ｉ）ローカル処理、（ｉｉ）グローバル処理という２つのステップで実現される。ローカル処理は、デジタル領域における典型的な帯域通過の演算子を近似するマスクの利用を含む。これらのマスクは、近傍探索（local neighborhood）において画像の強度の違いを実現する。グローバル処理は、ローカル処理の適用結果から得られる画像をバイナリ画像に変換するために必要である。後者の画像は、エッジマップ、すなわち大きな強度変化の軌跡（loci）に対応する領域を表現する。エッジ検出のための多くの異なるアプローチが存在する。たとえば、デジタル実現において一般に使用されるクラスの勾配演算子、Roberts,Prewitt,Sobel及び等方性演算子である。Canny及びMarr-Hildrethのようなエッジ検出技術は、当該技術分野においてよく知られている。

したがって、図８に例示されるような第一のステップ８００は、標準的なアルゴリズムで使用される全ての前処理／後処理で、動画データストリームのＩフレームの輝度成分についてエッジマップを計算することである。ＩフレームのＹ成分は、グレイレベル画像であり、該画像は、デジタル領域において０から２５５まで範囲に一般に及ぶ強度を有している。第一の前処理ステップのうちの１つは、画像を平滑にし、次いで勾配演算子を適用することである。勾配演算子は、画像の関数に関する局所的な導関数に基づいている。導関数は、画像の関数が突然の変化を受ける画像の位置で最大となる。勾配演算子の狙いは、画像におけるかかる位置を示すことにある。平滑化と異なり、勾配演算子は、周波数領域における低周波を抑圧することと類似の効果を有する。雑音は実際には高周波であることがあり、勾配演算子が画像に適用された場合には、残念ながら雑音レベルが同時に増加する。したがって、平滑化及び勾配オペレータは、相反する目的を有している。前処理アルゴリズムには、この問題を解決するものがあり、平滑化とエッジ強調を同時に許容するものがある。したがって、たとえばGaussian convolution maskのような畳み込みマスクを適用した後、ラプラシアンのような微分演算子を適用することができる（式３）。ラプラシアンは、全ての方向において同じ特性を有しており、したがって、画像における回転に対して不変である。

演算の結果は、エッジ検出演算子である。前処理ステップに続いて、画像のエッジリンキング及び２値化処理を含む後処理ステップが行われる。

次のステップ８０５は、同じＩフレームについて、輝度成分が予め決定された閾値、たとえば、２０／１０以下である全ての画素を計算し、ダーク／ブラック画素を決定する。ステップ８１０では、カラービストグラムが計算され、これはステップ６００に等価である。同様に、ステップ８１５では、卓越ピークが識別され、ステップ８２０で、それぞれの卓越ピークについて画素は索引付けされる。カラーヒストグラムが使用され、一様な色を有する画像領域が決定される。これらの領域はセグメントに分割することができ、その境界を決定することができる。結果的に、ステップ８２０から、一様な色を有する領域を決定することができる（ステップ８２５）。しかし、全ての画素が、カラーヒストグラムの卓越ピークにより展開されたセグメントパターンを一般的に適合するわけではない。したがって、全ての画素を包含するために、境界（検出されたエッジ）が到達されるまで、一様な色を有する領域に関して、領域成長が実行される。領域成長は、画像のセグメント化向けの一般的な技術であり、画像の特徴が使用されて、領域を形成するために隣接する画素を共に集める。様々な領域成長アルゴリズムは、当該技術分野で公知である。領域成長に続いて、一様な色を有するそれぞれの領域について、エッジマップが計算される（ステップ８３０）。より正確な近似をもたらすために、次いで、ステップ８００（演算子を使用したエッジマップ）、及びステップ８３０（領域成長に基づいたエッジマップ）からのエッジマップが結合される。すなわち、これらのエッジマップは、互いに比較される（ステップ８３５）。ステップ８４０では、ステップ８３５で評価された一様に色付けされた領域の数の平均が計算され、自然の動画のＩフレームにおいて一様に色付けされた領域の数の平均と比較される（ステップ８４０）。後者が大きい場合、対象となるＩフレームは、「エッジマップ」法に基づいて、テレビ漫画のフレームとして索引付けされる（ステップ８５０）。

［ＡＣ値法］
図２Ｂに例示されたＤＣＴ変換の後、（たとえば、４：２：０について図３に示されるように）それぞれのブロックＹ₀、Ｙ₁、Ｙ₂、Ｙ₃、Ｃ_r及びＣ_bは、一番上の左隅のＤＣ情報（ＤＣ値）を含んでおり、残りのＤＣＴ係数は、ＡＣ情報（ＡＣ値）を含んでいる。ＡＣ値は、図２Ｃに部分的に示されるように、ＤＣ値の右からＤＣ値の真下のＤＣＴ係数にジグザグの順で周波数が増加する。

広義のＤＣ値は、フレーム全体の平均強度であり、ＡＣ値はコントラストにおける変化を示している。したがって、周波数がより高くなるにつれて、コントラストの変化がより多く存在する。典型的な漫画が自然の動画より多くのコントラストにおける変化を含むため、比較を行うことが適切である。したがって、第一のステップは、予め決定された閾値を超える対象とするＩフレームにおけるＡＣ値の数を計算することである。前のステップで計算されたＡＣ値の数が標準的な動画のＩフレームにおいて予め決定された閾値よりも大きいＡＣ値の数である場合（ステップ９０５）、対象となるＩフレームが漫画のフレームとして索引付けされる（ステップ９１０）。さもなければ、漫画を検出する代替的な方法が適用されるべきである（ステップ９１５）。

代替的に、予め決定されたタイミング窓内にあるＩフレームの平均値が計算される場合がある（図１０におけるステップ１０００）。これは、予め決定されたタイミング窓内にあるＩフレームの全てのＡＣ値を合計すること、及びそれらＩフレームにおけるＡＣ値の総数で除算することを含んでいる。図１０に示されるように、ステップ１００５では、標準的な動画のＩフレームにおける平均のＡＣ値よりも大きい平均のＡＣ値の数の計算が行われる。この数が予め決定された値よりも大きい場合（ステップ１０１０）、対象とするＩフレームは、「ＡＣ値」法に基づいて、テレビ漫画のフレームとして索引付けされる（ステップ１０１５）。

［時間のサンプリングレート法］
典型的に、漫画は、毎秒２４フレームでサンプリングされる自然の動画とは対照的に、毎秒６フレームでサンプリングされる。図１１に示されるように、時間のサンプリング法における第一のステップは、どれだけ多くの連続するフレームが動画シーケンスにおいて等しいかを判定することである。この判定は、時間のサンプリングレートを示す。したがって、時間のサンプリングレートが毎秒６フレームに等しい場合（ステップ１１０５）、「時間のサンプリングレート」法に基づいて、対象とするＩフレームは、漫画のフレームであることは明確である。

「カットレート法」
カットレートは、動画ストリームでシーンが切り替わる高周波の目安である。典型的な漫画におけるカットレートは一般的に高い。カットは、動画におけるあるショットから、あるショットがカメラ開始から次のカメラ停止までの時間となる次のショットまでの切り替わりである。これは、動画における２つの連続するフレームにおける差があるショット内で小さいが、ショット間で一般に大きいことを意味する。ショットの境界を検出するために、当該技術分野でよく知られている多くの方法が存在する。これらの方法には、米国特許第6,137,544号及び米国特許第6,125,229号に開示されているものもあり、この両者は、引用により本明細書に盛り込まれる。これらの方法は、連続するフレーム（又は連続するＩフレーム）を比較し、該フレーム間の差を調べるものである。本発明の好適な実施の形態では、ショットの境界を発見するためのフレーム差分法が使用される。この方法は、連続するフレームからのＤＣＴ係数を使用して計算されたマクロブロックの差に基づくものである。本発明の好適な実施の形態に適用される幾つかのカット検出アルゴリズムは、以下の式に基づいている。

上式４において、ＳはＹ、Ｃ_r及びＣ_bについて差の合計を表しており、ｗ＝フレーム幅／１６、ｈ＝フレーム高さ／１６、及びＢ^ｃとＢ^pは現在及び前のブロックそれぞれからのＤＣＴ係数である。ＭＢｄｉｆｆは、２つのマクロブロック間の差の関数であり、互いに異なるブロック数を決定する。式４は、マクロブロックのレベルで動作する。動画フレームのマクロブロックにおける輝度及び色度のブロックのＤＣＴ値は、別の動画フレームにおいてそれぞれの対応する値から差し引かれる。差の合計は、それぞれの成分について継続される。全ての差がマクロブロックにおいて追加された後、それぞれのマクロブロックは、予め決定された閾値と比較される。この差の合計が予め決定された値を超える場合、マクロブロックのカウンタがインクリメントされる。この予め決定された閾値は、ブロックのサイズに依存する。典型的に、マクロブロックの全体数うちの７５％が互いに異なる場合、カウンタがインクリメントされる。式４は、ブロックの比較に基づいてマクロブロック間の差を発見し、次いで、２つのフレーム間の異なるマクロブロック間の数をカウントする。

先に記載した方法により、当業者は、動画において個々のカットを発見することができる。カットレートの変化は、毎分当たりのカット数である。漫画は高いカットレートを一般に有する知識を利用することにより、単位時間当たりのカット数の軌道を維持するために十分である。コマーシャルの適用では、この検出方法は、円形配列を利用して行われる。この配列は、モジュロ演算子を利用して、回転するやり方で個々の素子を補給し続ける。このアプローチを使用して、カットレートをアレイサイズにわたり平均することができる。単位時間当たりに生じるカット数を調べること、及び該カット数を予め決定された閾値と比較することにより、番組の内容が漫画を含んでいるか判定を行うことができる。

したがって、図１２に示されるように、第一のステップは、符号化された動画ストリームにおけるシーン変化を検出することである（ステップ１２００）。ステップ１２０５では、連続するシーン変化の間の平均距離が計算される。これは、単位時間当たりのシーン変化の数を計測することと等価である。ステップ１２０５で計算された距離が自然の動画におけるシーン変化の間の平均距離以下である場合（ステップ１２１０）、「カットレート」法に基づいて、フレームは漫画のフレームとして索引付けされる（ステップ１２１５）。

［色の類似性によるシーンカット法］
図１３に示されるように、本発明の好適な実施の形態によれば、先に確認された方法における第一のステップは、符号化された動画ストリームにおけるシーン変化を検出することである（ステップ１３００）。これは、上述した方法に従い達成することができる。次のステップ１３０５では、平均の色及び輝度は、動画ストリームにおけるそれぞれＩフレームについて計算される。平均の色及び輝度を計算するために、当該技術分野においてよく知られている多くの方法が存在する。好適な方法は、類似の色のグループに全ての画素をクラスタ化し、重要な領域の平均をとることである。代替的に、全ての画素を類似の色にクラスタ化し、最も重要な領域への距離に従い表現及び重み付けされた画素数に従いグループに重み付けすることも実現することができる。さらに別の代替は、フレームにおける全ての画素の平均値を単に計算することである。これは、ＹＣ_rＣ_bの色空間で行うことができ、又は代替としてＲＧＢ色空間或いはＨＳＶ色空間でも行うことができる。

ステップ１３００で始めに検出されたシーン変化に基づいて、次のステップ１３１０は、シーン変化前のＩフレームの平均色及び輝度をシーン変化後のＩフレームの平均の色及び輝度と比較することである。シーン変化前と該シーン変化後のＩフレームの平均の色及び輝度の間の差が予め決定された閾値よりも低い場合（ステップ１３１５）、シーン変化が索引付けされる（ステップ１３２０）。実験的に、閾値は次の範囲に及ぶことができる。Ｙについて（０．１２−１８．２）、Ｃ_bについて（０．００１−０．００２）、Ｃ_rについて（３．３−１６０５）。逆に、差が予め決定された閾値を超える場合、最初に検出されたシーン変化は現実のショットのカット（real shot cut）であることが明らかである。しかし、漫画製作者がフレームを手描きし、該フレームを単に接続したためにショットカットが存在しない場合に、ショットカットが検出される場合がある。この場合、偽のショットカットの前後の輝度及び色度（色）値は互いに密接している。この固有な漫画の特性は、ステップ１３１５で検出目的に使用され、索引付けされたシーン変化の境界は、相当に一様な色及び輝度の差を有している。ステップ１３２５では、連続する索引付けされたシーン変化の間の平均距離が計算される。この平均距離が自然の動画における索引付けされたシーン変化の間の平均距離よりも大きい場合（ステップ１３３０）、「色の類似性によるシーンカット」法に基づいて、対象とするＩフレームが漫画のフレームとして索引付けされる（ステップ１３３５）。代替的に、平均の色及び輝度の計算の代わりに、図１４に示されるようにカラーヒストグラムが使用される場合がある。全てのステップは、ステップ１３１０と対照的なステップ１４１０を除いて同じであり、シーン変化の前と該シーン変化の後のカラーヒストグラムにおけるビンのサイズの間の差が計算される。この差が予め決定された閾値よりも低い場合、シーン変化が索引付けされる。

［速度ヒストグラム法］
一般に、漫画における動きは、高い速度を有するものとして特徴付けることができる。先に確認された方法は、速度ヒストグラムを計算して、自然の動画向けの速度ヒストグラムと比較することにより、固有な特性を利用するものである。したがって、図１５に示されるような第一のステップは、動画シーケンスにおける連続するフレームの対について速度ヒストグラムを計算することである（ステップ１５００）。典型的な速度ヒストグラムは、図１６に例示されており、ｙ軸に関する垂直方向（Ｖy）における１６×１６マクロブロックの速度、及びｘ軸に関する水平方向（Ｖx）における同じマクロブロックの速度による３次元グラフを示している。ｚ軸は、所与のフレームにおける多数の画素（得票数）を表現している。ヒストグラムの原点に近いほど、速度が低くなる。速度ヒストグラムが、より高い速度のピークを有し（ステップ１５０５）、より高い速度で小さなピークについてより広い分布を有する場合（ステップ１５１０）、「速度ヒストグラム」法に基づいて、対象とするＩフレームは漫画のフレームとして索引付けされる。

［フレーム特徴法］
漫画は、一様な色からなる広い領域を有するものとして特徴付けられる。特徴は、動画ストリームのＣ_r及びＣ_b成分を使用して、フレームにおける類似の色に関して最も広い領域のみを識別するために展開させることができる。周波数領域では、フレームは、離散コサイン情報の個々の８×８ブロックから構成される。図３に例示されるように、強度のブロック（Ｙブロック）と色のブロック（Ｃ_r及びＣ_bブロック）が存在する。Ｃ_r及びＣ_bブロックから、フレームのそれぞれのブロックにおけるＤＣ係数及び最も高い値のＡＣ係数に基づいて、特徴が導出される。続いて、隣接するブロックが比較され、同じ特徴を有するブロックが併せられて領域となる。１つの領域は、原色のブロックの特徴（Ｃ_r，Ｃ_b）、そのサイズ（同じ特徴を有する隣接ブロックの数）及びブロックグループの中央位置により定義される。領域の特徴は、以下に記載されるか、米国特許第6,125,229号及び米国特許第6,137,544号に開示される個々のブロックの特徴から構築される。これらの特許の内容は、引用により本明細書に盛り込まれる。

図１７に示されるように、ステップ１７００では、フレームにおけるそれぞれのブロックについて、ブロックの特徴が導出される。図１８に例示されるように、ブロックの特徴１８００は、この例では、８ビット長であり、そのうちの３ビットはＤＣの特徴を表しており、５ビットはＡＣの特徴を表している。ＤＣ係数以外のブロックにおける全ての他のＤＣＴ係数は、ＡＣ値である。

ＤＣの特徴は、ＤＣ値を抽出して、ＤＣ値が指定された値の範囲のどこに属するかを決定することにより導出される。この例では、−２４００と２４００の間に属する。図１８に示されるように、範囲は、予め選択された数の間隔に分割される。本発明では、８つの間隔が使用されているが、画像のより粗い又は密な粒状度について、８より多い又は少ない間隔が使用される場合がある。

図１８に示されるように、それぞれの間隔は予め定義されたマッピングに割り当てられる。それぞれのＤＣ値は範囲と比較され、ＤＣ値が属する間隔のマッピングが戻される。必要とされるビットで表現される値は、間隔の数に対応する。この例では、範囲が８つの間隔に分割されるため、３ビットが使用される。図１８に示されるように、ブロックの特徴１８００は、最初の３ビットとしてのＤＣの特徴１８０５、及び残りの５ビットとしてのＡＣの特徴１８１０を含んでいる。ブロックのＡＣ値の範囲に関して良好な表現を与えるために、図１８に示されるように、ＤＣ値に最も近い５つのＡＣ値（Ａ１−Ａ５）が抽出される。５つのＡＣ値のそれぞれは、この例では２００である閾値と比較され、ＡＣ値が閾値よりも大きい場合、ＡＣの特徴１８１０における対応するビットは、１のような予め決定された値に設定される。また、ＡＣ値が該閾値よりも小さいか、或いは等しい場合、対応するビットはゼロに設定される。

フレームにおけるそれぞれのマクロブロックのそれぞれのブロックについて、ブロックの特徴を導出した後、領域が決定される（ステップ１７１５）。領域は、この例では２つ以上のブロックであり、領域のそれぞれのブロックは、該領域における少なくとも１つの他のブロックと隣接し、該領域における他のブロックに類似のブロックの特徴を共有する。タイミングが減少されることが望まれる場合、領域を画定するためにより多くのブロックを要求することができる。フレームのそれぞれのブロックの特徴は互いにブロックの特徴と比較され、領域を決定するためにカウントされるが（ステップ１７０５、１７１０）、本発明は、フレーム内で領域を決定するための領域成長プロセスのような公知の技術を使用する場合がある。

領域成長方法は、画像における領域を分離するために使用される。従来の領域成長方法は、画素の色、及び領域を検出するための近隣の概念を使用している。本発明では、領域を成長するための基礎としてブロックの特徴が使用される。

領域成長プロセスの間、領域カウンタは、それぞれの領域について、領域におけるブロック数（サイズ）をカウントし続け、１６ビットで表現される。全体のフレームが領域を発見するために分析されると、別の公知の方法を使用して、この例では、ｘ−ｙ軸の基準に基づいて、それぞれの領域の重心又は中心を発見する場合がある。ｘ及びｙ座標の両者は、ＣＸ及びＣＹとしてそれぞれ抽出され、１６ビットで表現される。次いで、それぞれの領域には、領域の特徴Region Signature（Cr_BlockSignature, Cb_BlockSignature, size, CX,CY）が割り当てられる。領域についてのブロックの特徴は、領域成長プロセスにより決定されるような、最も重要なブロックの特徴に基づいて決定される。

領域は、物体、人物、事柄等である場合がある「オブジェクト」を一般に表現する。領域の特徴は、フレームが漫画のタイプのフレームであるかを検出するために使用することができる。たとえば、数個の大きなオブジェクトのみがフレームを構成する場合、おそらく漫画である。したがって、ステップ１７２０では、対象とするフレームにおける領域の数と予め決定された閾値との間で比較が行われる。領域の数が閾値よりも大きい場合、「フレーム特徴」法に基づいて、対象とするフレームは漫画のフレームであると結論付けることができる。

［ＭＡＤ値法］
典型的な漫画における動きはより突然であり、したがって、フレームからフレームへの変化は、「カット」エリアをカウントすることなしに、自然の動画におけるよりも重要である。したがって、これらの変化を評価し、該評価結果を標準的な動画と比較して、漫画を検出することができることは、適切なことである。

本発明の実施の形態では、絶対誤差平均（Mean Absolute Difference）を示すＭＡＤは、２つの連続するフレームにおいて２つの最も整合するマクロブロックの比較を行い、輝度情報に基づいて、画素領域での最大の差分値を計算する。代替的に、ＭＡＤは、２５６の輝度の差に関する絶対値の平均として定義することができる。ＭＡＤ値は、フレーム（Ｉ，Ｐ又はＢ）の種類とは独立に計算され、ショットカットの間に、あるフレームから別のフレームへの情報が変化するために、フレーム間のショットカットを検出するために使用することができる。代替的に、フレーム間の差は、ＭＳＥ（Mean Square Error）を通して計算することができ、これは、２５６の輝度の差の平方の平均である。一般に、目は輝度における変化により敏感であるので、誤差を計算するときに色度は無視される。ＭＡＤ法は、ＭＳＥに類似の結果をもたらすが、計算コストがより低くなる。さらに、正規化された相互相関関数（NCCF: normalized crossed correlation function）、又は有意な異なる画素の数（NSDP: the number of significant different pixels）は、ＭＡＤ値の代わりに使用することができるが、計算コストが高くなる。

図１９に示されるように、第一のステップ１９００は、それぞれのＩフレームについて、フレームにおける全てのマクロブロックのＭＡＤ値の総和（全ＭＡＤ値）を計算することである。次のステップ１９０５は、先に記載した任意の方法を適用して、符号化された動画ストリームにおける全てのショットカットを検出して索引付けすることである（すなわち、ショットカットを識別して、ショットカットとして記録する）。一般に、ショットカット付近のＭＡＤ値は非常に高く、全ＭＡＤ値を極端に高くする。したがって、以下の計算を行うことが必要である。ショットカットの周囲のＭＡＤ値を除いた（Ｍフレーム）全てのフレーム（Ｎフレーム）に関する全てのＭＡＤ値の総和を、全ての有効なフレーム数（Ｎ−Ｍフレーム）で除算する。これにより、全ＭＡＤ値の平均が生成される。次いで、この結果は、標準的な動画における全ＭＡＤ値の平均と比較され、対象とするフレームが漫画のフレームであるか判定が行われる。

したがって、ステップ１９１０では、ショットカットの周りに集中される第一のタイミング窓の内側にあるＩフレームが索引付けされる。ステップ１９１５では、先に記載された計算が行われる。ステップ１９１０からの索引付けされたＩフレームに関する「全ＭＡＤ値」を除いて、第二のタイミング窓の内側にある全てのＩフレームに関する全ての「全ＭＡＤ値」の平均値を計算する。次いで、ステップ１９１５の結果は、標準的な動画と比較される。ステップ１９１５の結果が標準的な動画におけるものより大きい場合（ステップ１９２０）、「ＭＡＤ値」法に基づいて、対象とするＩフレームは漫画のフレームとして索引付けされる。

当業者であれば、本発明は上述した閾値の条件に限定されないことを理解されるであろう。閾値に課された条件は、実験的に決定され、ケース毎に異なる。

本発明を好適な実施の形態と共に記載してきたが、先に概説された原理内での変形は、当業者には明らかであり、したがって、本発明は、好適な実施の形態に限定されず、かかる変形を収容することが意図されている。

従来の技術によるＭＰＥＧ動画シーケンスを例示する図である。従来の技術によるブロックベースＤＣＴ及びジグザグスキャンを採用したイントラ符号化技術を例示する図である。従来の技術による各種動画フォーマットを例示する図である。本発明の１つの実施の形態による漫画検出システムに関する例示的な実施の形態に関するブロック図である。本発明の１つの実施の形態による漫画検出方法を例示するフローチャートである。本発明の１つの実施の形態による「カラーヒストグラム」検出方法を例示するフローチャートである。本発明の１つの実施の形態による「カラーヒストグラム」検出方法を例示するグラフである。本発明の１つの実施の形態による「カラーヒストグラム」検出方法を例示するグラフである。本発明の１つの実施の形態による「カラーヒストグラム」検出方法を例示するグラフである。本発明の１つの実施の形態による「エッジマップ」検出方法を例示するフローチャートである。本発明の１つの実施の形態による「ＡＣ値」検出方法を例示するフローチャートである。本発明の第二の実施の形態による「ＡＣ値」検出方法を例示するフローチャートである。本発明の１つの実施の形態による「時間のサンプリングレート」検出方法を例示するフローチャートである。本発明の１つの実施の形態による「カットレート」検出方法を例示するフローチャートである。本発明の１つの実施の形態による「色の類似性によるカットレート」検出方法を例示するフローチャートである。本発明の第二の実施の形態による「色の類似性によるカットレート」検出方法を例示するフローチャートである。本発明の１つの実施の形態による「速度ヒストグラム」検出方法を例示するフローチャートである。典型的な速度ヒストグラムを例示するグラフである。本発明の１つの実施の形態による「フレームの特徴」検出方法を例示するフローチャートである。ブロックの特徴の作成プロセスを例示する図である。本発明の１つの実施の形態による「ＭＡＤ値」検出方法を例示するフローチャートである。

Claims

取得手段、抽出手段、計算手段、比較手段及び判定手段を含むプロセッサにより実行される、漫画シーケンスを検出する方法であって、
前記取得手段により、動画データストリームを取得するステップと、
前記抽出手段により、取得された動画データストリームからデータを抽出するステップと、
前記計算手段により、典型的な漫画に関する少なくとも１つの動画の特性を示す前記データに基づいて、少なくとも１つの第一の値を計算するステップと、
前記比較手段により、前記少なくとも１つの第一の値と、自然の動画シーケンスに関する前記少なくとも１つの動画の特性を示す第二の値とを比較するステップと、
前記判定手段により、前記比較に基づいて、前記動画データストリームが漫画シーケンスを含んでいるかを判定するステップとを有し、
前記計算された値は、カラーヒストグラムにおける卓越ピークの数である、
ことを特徴とする方法。
前記動画データストリームは符号化されている、
請求項１記載の方法。
前記計算された値は、カラーヒストグラムにおいて連続するピーク間の平均距離である、
請求項１記載の方法。
取得手段、抽出手段、計算手段、比較手段及び判定手段を含むプロセッサにより実行される、漫画シーケンスを検出する方法であって、
前記取得手段により、動画データストリームを取得するステップと、
前記抽出手段により、取得された動画データストリームからデータを抽出するステップと、
前記計算手段により、典型的な漫画に関する少なくとも１つの動画の特性を示す前記データに基づいて、少なくとも１つの第一の値を計算するステップと、
前記比較手段により、前記少なくとも１つの第一の値と、自然の動画シーケンスに関する前記少なくとも１つの動画の特性を示す第二の値とを比較するステップと、
前記判定手段により、前記比較に基づいて、前記動画データストリームが漫画シーケンスを含んでいるかを判定するステップとを有し、
前記計算された値は、それぞれのフレームについての領域の特性であり、
前記特性は、それぞれのフレームのブロックにおける、離散コサイン変換による直流係数及び最も大きな交流係数に基づいて導出される、
ことを特徴とする方法。
漫画シーケンスを検出するシステムであって、
動画データストリームを取得する手段と、
取得された動画データストリームからデータを抽出する手段と、
請求項１乃至４の何れか記載の方法に基づいて、前記動画データストリームが前記漫画シーケンスを含んでいるかを判定する手段と、
前記判定に基づいて出力信号を発生する手段と、
を有するシステム。