JP2004537128A - 動画データストリームで漫画を検出するための方法及びシステム - Google Patents
動画データストリームで漫画を検出するための方法及びシステム Download PDFInfo
- Publication number
- JP2004537128A JP2004537128A JP2003516016A JP2003516016A JP2004537128A JP 2004537128 A JP2004537128 A JP 2004537128A JP 2003516016 A JP2003516016 A JP 2003516016A JP 2003516016 A JP2003516016 A JP 2003516016A JP 2004537128 A JP2004537128 A JP 2004537128A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- moving image
- average
- value
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000003860 storage Methods 0.000 claims abstract description 18
- 230000008859 change Effects 0.000 claims description 22
- 230000033001 locomotion Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 11
- 239000003086 colorant Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 description 30
- 230000008569 process Effects 0.000 description 12
- 230000006835 compression Effects 0.000 description 8
- 238000007906 compression Methods 0.000 description 8
- 230000002123 temporal effect Effects 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000003708 edge detection Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000009499 grossing Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 241000556720 Manga Species 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003706 image smoothing Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- TVZRAEYQIKYCPH-UHFFFAOYSA-N 3-(trimethylsilyl)propane-1-sulfonic acid Chemical compound C[Si](C)(C)CCCS(O)(=O)=O TVZRAEYQIKYCPH-UHFFFAOYSA-N 0.000 description 1
- 241000589483 Coleogyne Species 0.000 description 1
- -1 HDTV decoders Chemical compound 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
Description
[技術分野]
本発明は、動画データの検出に関し、より詳細には、一般的な動画データストリームにおける漫画の検出に関する。
[背景技術]
動画データ信号における特定種類のジャンル、すなわち漫画、映画、コマーシャル等を自動化された手動的な手段により識別することは、デジタルメディアの出現に遡り長年行われている。
【0002】
典型的に、動画データの内容を検出する目的で該動画データを調べることは、符号化されていることがある動画信号を調べることを含んでいる。符号化は、この場合には、記憶又は伝送向けに動画信号を圧縮することを含んでおり、復号化はよく知られている。動画圧縮規格の1つにMPEGがあり、これはMoving Picture Expert Groupを意味する。MPEGは、ISOすなわちInternational Standards Organizationである。「MPEG動画」は、現時点で2つの完成された規格MPEG−1,MPEG−2を構築しており、第三の規格となるMPEG−4は完成の過程にある。
【0003】
MPEG動画圧縮は、多くの現在の製品でありようされており、今後登場する製品でも利用される。MPEGは、デジタルテレビのセットトップボックス、DSS、HDTVデコーダ、DVDプレーヤ、ビデオ会議、インターネットビデオ及び他の適用における心臓部をなしている。これらの適用は、保存された動画情報向けに少ない記憶領域を要すること、ある地点から別の地点への動画情報の伝送向けに少ない帯域幅を要すること、又は少ない記憶領域及び少ない帯域幅の両者を要することから、動画圧縮から利益を得ている。
【0004】
色が3色の成分である赤(R)、緑(G)及び青(B)で典型的に表現される場合、動画圧縮の世界では、輝度成分及び色度成分で表現される。人間の視覚システムを研究することで、目は輝度における変化には感度が高く、色度における変化には感度が低いことがわかっている。MPEGは、輝度情報と色度情報に対する目の異なる感度を効果的に利用した色空間に基づいて動作する。したがって、MPEGは、YCbCr色空間を利用して、RGBの代わりにデータ値を表現する。ここで、Yは輝度成分であり、Y=0.299R+0.587G+0.114Bとして実験的に決定されている。Cbは、青の色差成分でCb=B−Yであり、Crは、赤の色差成分でCr=R−Yである。
【0005】
MPEG動画は、複数層からなる階層構造に編成され、エラー処理を有してランダムサーチ及び編集、並びに、たとえばオーディオビットストリームとの同期が支援される。第一のレイヤ、すなわち上位層は、ビデオシーケンスレイヤとして知られており、たとえば、符号化された映画、広告或いは漫画といった任意の自己完結型のビットストリームである。
【0006】
第二のレイヤは、第一のレイヤの下に位置しており、グループ・オブ・ピクチャ(GOP)であり、図1に例示されるように、1つ以上のイントラ(I)フレームのグループ及び/又は非イントラ(P及び/又はB)ピクチャから構成されている。Iフレームは、厳密にイントラ圧縮される。その目的は、動画に対するランダムアクセスポイントを提供することにある。Pフレームは、動き補償された前方予測による符号化フレームである。Pフレームは、インターフレーム圧縮されており、Iフレームよりも高い圧縮度を一般に提供する。Bフレームは、動き補償された双方向予測による符号化フレームである。Bフレームは、インターフレーム圧縮されており、最も高い圧縮度を一般に提供する。
【0007】
第三のレイヤは、第二のレイヤの下に位置し、ピクチャレイヤ自身である。この第三のレイヤの下に位置する第四のレイヤは、スライスレイヤと呼ばれる。それぞれのスライスは、一般的な動画アプリケーションでは最も多くの場合に行を基準とした、隣接するラスター順のマクロブロックからなるシーケンスである。スライス構造は、エラーが存在する場合での復号化を許容することが意図される。それぞれのスライスは、マクロブロックから構成され、このマクロブロックは、輝度ピクセルすなわち画像データ要素からなる16×16アレイであり、関連する色度ピクセルからなる2つの(フォーマットに依存する)8×8アレイを有している。
【0008】
マクロブロックは、図2に例示されるように、変換符号化のような更なる処理のために、別個の8×8ブロックに更に分割することができる。マクロブロックは、YCbCrの色空間を参照したときに、幾つかの異なる手法で表現することができる。一般的に使用される3つのフォーマットは、4:4:4動画、4:2:2動画、4:2:0動画として知られている。4:2:2は、4:4:4に比べて半分の色度情報を含んでおり、全帯域幅YCbCr動画である。4:2:0は、4分の1の色度情報を含んでいる。図3に例示されるように、輝度情報と色度情報の表現に関する効果的な手法のために、4:2:0表現は、12ブロック/マクロブロックから6ブロック/マクロブロックへの直接的なデータ低減を可能にする。
【0009】
画像における隣接する画素間の高い相関のために、ランダム性をより少ない無相関化されたパラメータに収束させるために離散コサイン変換(DCT)が使用されている。DCTは、信号を分解して基礎となる空間周波数成分にする。これにより、更なる処理技術でDCT係数の精度を低減することができる。DCT変換及び逆DCT変換処理は、式1及び式2のそれぞれで定義される。
【0010】
【数1】
【数2】
【0011】
図2に例示されるように、あるブロックは、DCTを利用して、空間領域から周波数領域に始めに変換される。DCTは、信号を独立な周波数帯域に分離する。係数マトリクスの左上隅に向かうより低い周波数のDCT係数は、より滑らかな空間的の輪郭に対応しており、DC係数は、ブロック全体の一様な輝度値及び色度値に対応する。また、係数マトリクスの右下隅に向かうより高い周波数のDCT係数は、より鋭い空間パターン或いは画像内の規則的な雑音に対応している。この時点でデータは量子化されている。量子化処理により、高いエネルギー、低い周波数の係数をより多くのビット数で符号化することができ、高い周波数の係数にはより少ないビット数又はゼロを使用する。係数のサブセットのみを保持することで、実際に表現するために必要とされる全体のパラメータ数を減少することができる。また、量子化処理は、エンコーダが特定のビットレートでビットストリームを出力するための助けとなる。
【0012】
DCT係数は、2つの特別な符号化スキームであるランレングス及びハフマンを使用して符号化される。非ゼロのDCT係数の殆どがマトリクスの左上隅に一般的に集中されるので、図2に例示されるようなジグザグ走査パターンは、連続したゼロ係数の長いランが達成される可能性を最大にする傾向がある。
【0013】
MPEG−2は、エンコーダによりフレームベースで選択され、インタレース動画像に関して効果的であることが知られている代替的な走査方法を提供する。それぞれの非ゼロの係数は、ポインタの対と関連している。第一に、それ自身と前の非ゼロの係数との間のゼロの数により示されるブロックにおける係数の位置、第二に、係数の値による。これら2つのポインタに基づいて、係数には、ルックアップテーブルから可変長符号が与えられる。これは、可能性の高い組み合わせがより少ないビットの符号を得て、可能性の低い組み合わせがより長い符号を得る。しかし、空間的な冗長度が制限されるために、Iフレームは適度な圧縮を提供するのみである。
【0014】
Pフレーム及びBフレームは、MPEGがその最大の圧縮効率を導出するフレームである。効率は、時間的な冗長度を利用する動き補償に基づく予測と呼ばれる技術を通して達成される。フレームは密接に関連しているので、現在のピクチャは、前の時間でのピクチャの変換としてモデル化することができる。次いで、前のフレームのデータに基づいて1フレームのデータを正確に予測することが可能である。Pフレームでは、それぞれ16×16サイズのマクロブロックが前に符号化されたIピクチャのマクロブロックから予測される。フレームは、移動する対象物の時間的なスナップショットであるので、2つのフレームにおけるマクロブロックは、同じ空間的な位置に対応しない場合がある。
【0015】
エンコーダは、現在のマクロブロックに含まれる情報に正確に一致する他のマクロブロックの位置について、ハーフピクセル単位でインクリメントすることで、前のフレーム(Pフレーム、又はBフレームの前後のフレーム)をサーチする。共通して位置されるマクロブロックから最も一致するマクロブロックの水平及び垂直方向における変位は、動きベクトルと呼ばれる。一致するマクロブロックが近傍領域に発見されなかった場合、マクロブロックはイントラ符号化され、DCT係数が符号化される。一致するブロックがサーチ領域で発見された場合、係数は伝送されないが、代わりに動きベクトルが利用される。また、動きベクトルは、破壊されたデータの場合に動き予測のために利用され、洗練されたデコーダアルゴリズムは、エラーを隠蔽するためにこれらのベクトルを利用する。Bフレームについて、動き補償に基づく予測及び補間は、そのいずれかの側に存在する参照フレームを使用して実行される。
【0016】
動画コンテンツの分析は、記録されたマテリアルの内容を最も記述している情報を抽出するという自動的又は半自動的な方法を含んでいる。情報を抽出することは、動画のシーンの変化を検出すること、及び代表的なフレームとして最初のシーンのフレームを選択することと同様に簡単である。動画の識別もまた、動画ストリームのヘッダ情報に記憶することができる。たとえば、パーソナルビデオレコーダの領域には、ビデオ情報をダウンロードして内部のハードドライブに記憶することができるセットトップボックス(STB)がある。STBのなかには、電子番組ガイド(EPG)を提供するものがあり、EPGは、インタラクティブであって、地域の新聞又は他の印刷媒体に見られるTV番組一覧に類似の付属ユーティリティである。EPGがない場合には、視聴者が見ている番組が映画、コマーシャル、ニュース、漫画又は他のテレビジャンルのであるかを知ることは、STBにとって困難である。しかし、コンピュータを利用した自動化処理を通して動画ストリームのコンテンツを分析することができる場合、EPGの必要なしに、動画ストリーム全体を内容によって分割することができる。
【0017】
動画ストリームのコンテンツ分析に関する様々な特許が存在するが、それらの特許は、漫画と他のタイプのジャンルを区別することはできない。たとえば、視聴者が特定の日にテレビ放送される漫画のみを録画したい場合、該視聴者は、漫画だけではなく、他の無駄なコンテンツを含めて、録画のための特定の時間の境界を選択することができるのみである。
【0018】
さらに、EPGは、存在するときでさえも、情報を視聴者に正確に伝達することができないことがある。スケジュールにおける変更又は特別番組の割り込みは、EPGに示されていない。したがって、録画されることが望まれる漫画は、指定された時間の境界を超えてしまう場合がある。
【0019】
より洗練されたSTBは、視聴者が見ている番組を検出して、この情報を放送局に送出する機能を有している。この抽出されたデータに基づいて、ユーザの個人のプロファイルが作成され、ユーザの好みに基づいてお勧めがなされる。しかし、このテレビ推薦システムは、EPG又はコンテンツ検出システムのいずれかに大きく依存しており、漫画を検出するために正確かつ洗練されたものではない。
[発明の開示]
したがって、本発明の目的は、動画データストリームにおける漫画シーケンスを検出するための、より正確なシステム及び方法を提供することにある。
【0020】
1つの実施の形態では、動画データストリームを取得するステップ、該動画データストリームからデータを抽出するステップ、一般的な漫画に関する少なくとも1つの予め決定された特性を示すデータに基づいて、少なくとも1つの第一の値を計算するステップ、少なくとも1つの該第一の値と、自然の動画シーケンスに関する少なくとも1つの特性を示す第二の値とを比較するステップ、及び該比較に基づいて、該動画データストリームが漫画のシーケンスを含んでいるかを判定するステップを有する方法が提供される。動画データは、限定されるものではないが、視覚的なデータ、音声的なデータ或いは文書データといった、すなわち、未処理データすなわち符号化されたデータのストリームから抽出された低いパラメータ情報を含んでいる。
【0021】
別の実施の形態では、漫画のシーケンスを検出するためのシステムが提供され、動画信号を受信するための通信装置、該動画信号を記憶可能な記憶装置、該通信装置及び該記憶装置と作用的に接続されるプロセッサを有している。該プロセッサは、該動画信号からデータを抽出し、該動画信号が漫画のシーケンスを含んでいるかを予め決定された方法に基づいて判定し、該記憶装置に記憶される出力を該判定に基づいて発生することができる。本発明の別の実施の形態によれば、動画信号を符号化することができる。
【0022】
本発明の更なる特徴及び効果と共に上述した内容は、所定の好適な実施の形態に関する以下の詳細な説明で明らかとなるであろう。この説明は、発明の実施の形態の一部を形成する添付図面と共に参照することになる。この添付図面では、対応する部材又は構成要素は幾つかの図面において同じ参照符号により識別される。本発明の実施の形態は、添付図面を参照して例示を介して記載される。
[実施例]
図4に例示される本発明の好適な実施の形態によれば、漫画検出システムは、動画信号400を受ける記憶装置405、該記憶装置405に接続されるプロセッサ410を有している。動画信号400は符号化されている。動画信号400は、放送局からアナログ形式又はデジタル形式で到来するか、又はCD、DVD、レーザディスク或いは符号化された動画データを記憶可能な他の媒体のような記憶媒体に予め記録されている。符号化規格は、MPEG1,2,4或いは他のデジタルスキーム(圧縮又は非圧縮)である場合がある。
【0023】
動画信号400は、記憶装置405に典型的に記憶され、プロセッサ410に送出される。プロセッサ410は、動画信号400を分析して、動画信号400が漫画を含んでいるかを検出する。漫画が検出された場合、プロセッサ410は、動画信号400に関する情報、すなわち、どのような特定のフレームが一般的な漫画のフレームとして索引付けされているかを示す情報を含んだ識別信号415を発生する。次いで、識別信号415は、識別のために記憶装置に記憶される。代替的に、記憶装置405をバイパスして、動画信号をプロセッサ410に送出することもでき、該プロセッサ410は、漫画の検出後に、識別信号415を記憶装置405に送出する。さらに、別の実施の形態では、識別信号は記憶装置に記憶されず、表示装置(図示せず)にリアルタイムで単に送出される。これにより、他のテレビ局で何が放送されているかをユーザに報知することができる。
【0024】
本発明の好適な実施の形態による漫画検出方法は、図5に例示されている。動画データストリームにおける漫画を検出するために、自然の動画と比較して典型的な漫画の特性は、図5のステップ500に示されているように識別される必要がある。用語「自然の動画」は、限定されるものではないが、映画又はニュース放送のような典型的な動画信号を示している。典型的な漫画の固有な特性は、視覚的及び聴覚的な特性に分割することができる。たとえば、典型的な漫画におけるキャラクターの声は、不自然であるとして特徴付けることができる。サウンド効果は、短い楽器又はアーチファクトノイズでは大きい。視覚的な特性は、動的又は静的であるとすることができる。視覚的な静的特性は、一様な色及び良好に画定された輪郭のような特性を含む。たとえば、典型的な漫画、特に手描きの古い漫画は、殆ど陰影がなく、一様に色付けされたパッチにより、十分に明確にされた輪郭を有している。
【0025】
典型的な漫画の視覚的な動的特性は、速い動き及び突然の変化のような特性を含んでいる。たとえば、漫画の動画シーケンスでは、領域の動きは、多くの高速なセクションを含んでおり、カットレート(cut rate)が非常に高い。したがって、漫画は、時間のサンプリングレート(temporal sampling rate)に関して他のジャンルとは異なる。動画シーケンスにおける漫画は、毎秒6フレームに時間的にサブサンプリングされる。これは、動きのスムーズさに関する知覚を誘発する。動きが突然であるように見える。しかし、低速なフレームレートは、(古典的な昔の漫画では)各フレームが手描きであり、プロセスの費用が安価であるので生産プロセスを助ける。対照的に、標準的なビデオは、毎秒約24−30フレームでサンプリングされ、よりスムーズに感じる。
【0026】
典型的な漫画の特性を識別した後、動画データは、動画信号から抽出される。動画データは、限定されるものではないが、ビジュアルデータ、オーディオデータ、テクスチャデータ、すなわち未処理データ或いは符号化されたデータストリームから抽出された低いパラメータの情報を含んでいる。この情報は特性を表している。たとえば、漫画のフレーム全体の推定できる色の一様性に基づいて、フレーム全体の色の分布、すなわちそれぞれの画素の色値が抽出される。フレームを通したコントラストの変化に本質的に対応するそれぞれのフレームのAC値もまた抽出することができる。十分に明確にされた輪郭のような既知の特性を利用するために、エッジマップ(edge map)を生成するために必要な全ての低パラメータ情報は、符号化された動画信号から抽出される。既知の漫画の特性に基づいた様々な漫画検出方法の適用向けに、フレームレート、ブロック速度、DC値等のような他の情報を抽出することができる。
【0027】
最後に、低パラメータ情報の抽出後、適切な漫画の検出方法が利用される。これらの方法は、典型的な漫画に関する既知の固有な特性を利用しており、動画データストリームが漫画のデータストリームであるかを検出可能である。本発明の好適な実施の形態によれば、全ての検出方法は、検出プロセスに精度を加えるために互いに組み合わせて使用される。これらの検出方法には、時間のサンプリング法(temporal sampling method)のようなそれ自身決定的なものがあるが、互いに組み合わせて利用したときに精度が向上する。したがって、方法のうちの一方が漫画を検出する一方で、別の方法は漫画を検出しない。したがって、全ての方法は、結合されて重み付けされるべきである。
【0028】
[カラーヒストグラム法]
画像における色分布は、ヒストグラムにより表現することができ、それぞれのヒストグラムのビンは、色成分のそれぞれの値の範囲に対応する。8ビット画像について、色成分は0から255の範囲の値をとる。
【0029】
図6のフローチャートに例示されるように、第一の処理はステップ600で、符号化された動画ストリームにおけるそれぞれのIフレームについて、カラーヒストグラムを計算することである。カラーヒストグラムは、最も高い粒状度について計算される。すなわち、256の可能な値が存在する場合、ヒストグラムは256のビンについて計算される。
【0030】
代替的に、他の量子化スキームを利用することもできる。色量子化は、動画ヒストグラムの計算において典型的な最初の処理である。色量子化について様々な方法が存在しており、当該技術分野で知られている。関係する要素は、どの色空間を使用するか、どの位多くの色を選択するか、及び色空間をどのように再分割するかである。たとえば、128のビンは、Yについて、又はY,Cr,Cbが縮小スケーリングされた288の全体のビンについて使用することができる。例示のために、かつMPEGがこの空間で動作するので、Y、Cr、Cb色空間が全体を通して使用される。代替的に、HSB(色相、彩度、明度)空間を利用して、基本的な色のビンを定義することができる。任意の雑音を除去するために、必須ではないが平滑化処理を次に実行することができる。画像の平滑化は、ローカル処理方法からなるセットであり、画像データにおける冗長度を使用することにより画像における雑音又は他の微弱な変動を抑圧することを狙いとしており、周波数領域における高周波の抑圧と等価である。様々な画像平滑化技術は、当業者に知られている。
【0031】
ステップ605では、カラーヒストグラムにおいて重要なピークが識別される。典型的に、重要なピークは、半値前幅(FWHM)の値が10よりも大きく、60よりも小さいピークとして定義される。標準的な動画について、図7Aに例示されるように、典型的に重要なピークが存在しないか、或いは、1つ又は2つのピークのみが存在し、ヒストグラムは全体のスペクトルを通して広げられている。1つ又は2つの重要なピークが存在する場合であっても、シーン変化のために長く存在することはなく、ヒストグラムは、長い時間を経て変化する傾向にある。
【0032】
漫画について、他方では、図7Bに例示されているように、4〜5の重要なピークが存在し、ヒストグラムは広げられておらず、すなわち、ほぼ90%の画素は、全体のスペクトルのほんの50%以下に位置する。この制限された広がりは、漫画の全体の期間の間は持続する。
【0033】
ステップ610では、連続する重要なピークの間の平均距離が計算され、ステップ615で、重要なピークを有するビンの全体の数に関する計算が続く。多くの支配的なピークが存在し、特に隣接している場合、ステップ625で、ビンはリサンプリングされる(resampled)。サブサンプリングステップは、例示のために、図7Bから図7Cに例示されている。
【0034】
対象となるIフレームのカラーヒストグラムにおける重要なピークの数が自然の動画のカラーヒストグラムにおける重要なピークの数よりも多い場合、対象となるIフレームは、テレビ漫画のフレームとして索引付けされる。
【0035】
このことは、対象となるIフレームのカラーヒストグラムにおける重要なピークの数が2よりも大きいか或いは2に等しく、かつ10未満であり、ヒストグラムがスペクトルの制限された部分に集中される場合、対象となるIフレームは動画ストリームのうちの漫画の部分に属することを意味している。この評価は、ステップ630で行われる。漫画の検出における次の決定的な要素は、連続する重要なピーク間の平均距離である。典型的な漫画では、重要なピークはより広がっている。したがって、ステップ635で例示されているように、対象となるIフレームのカラーヒストグラムにおいて連続するピーク間の平均距離が、標準的な動画のIフレームのカラーヒストグラムにおいて連続するピーク間の平均距離よりも長い場合、対象となるIフレームは、「カラーヒストグラム」法に基づいて、テレビ漫画のフレームとして索引付けされる。
【0036】
[エッジマップ法]
エッジマップ法は、漫画に特徴的な手描き、黒筆の類の境界を検出しようとする。自然の画像においてエッジを検出するために、当該技術分野において公知の多くの技術が存在する。基本的なアプローチは、画像のY成分における突然の強度変化を検出することである。漫画について、境界が最小のシェーディングにより一般に十分に輪郭が明確になっているため、技術はより簡単である。
【0037】
エッジ検出は、画像処理において基本的な処理である。その目的は、強度(グレイレベル)の変動において「大きな」変化に対応する画像の領域を決定することにある。基礎となる仮定は、これら強度変動についての軌跡は、たとえば、顔の形状の輪郭といった「意味のある」画像情報に対応する。エッジの検出は、(i)ローカル処理、(ii)グローバル処理という2つのステップで実現される。ローカル処理は、デジタル領域における典型的な帯域通過の演算子を近似するマスクの利用を含む。これらのマスクは、近傍探索(local neighborhood)において画像の強度の違いを実現する。グローバル処理は、ローカル処理の適用結果から得られる画像をバイナリ画像に変換するために必要である。後者の画像は、エッジマップ、すなわち大きな強度変化の軌跡(loci)に対応する領域を表現する。エッジ検出のための多くの異なるアプローチが存在する。たとえば、デジタル実現において一般に使用されるクラスの勾配演算子、Roberts,Prewitt,Sobel及び等方性演算子である。Canny及びMarr-Hildrethのようなエッジ検出技術は、当該技術分野においてよく知られている。
【0038】
したがって、図8に例示されるような第一のステップ800は、標準的なアルゴリズムで使用される全ての前処理/後処理で、動画データストリームのIフレームの輝度成分についてエッジマップを計算することである。IフレームのY成分は、グレイレベル画像であり、該画像は、デジタル領域において0から255まで範囲に一般に及ぶ強度を有している。第一の前処理ステップのうちの1つは、画像を平滑にし、次いで勾配演算子を適用することである。勾配演算子は、画像の関数に関する局所的な導関数に基づいている。導関数は、画像の関数が突然の変化を受ける画像の位置で最大となる。勾配演算子の狙いは、画像におけるかかる位置を示すことにある。平滑化と異なり、勾配演算子は、周波数領域における低周波を抑圧することと類似の効果を有する。雑音は実際には高周波であることがあり、勾配演算子が画像に適用された場合には、残念ながら雑音レベルが同時に増加する。したがって、平滑化及び勾配オペレータは、相反する目的を有している。前処理アルゴリズムには、この問題を解決するものがあり、平滑化とエッジ強調を同時に許容するものがある。したがって、たとえばGaussian convolution maskのような畳み込みマスクを適用した後、ラプラシアンのような微分演算子を適用することができる(式3)。ラプラシアンは、全ての方向において同じ特性を有しており、したがって、画像における回転に対して不変である。
【0039】
【数3】
演算の結果は、エッジ検出演算子である。前処理ステップに続いて、画像のエッジリンキング及び2値化処理を含む後処理ステップが行われる。
【0040】
次のステップ805は、同じIフレームについて、輝度成分が予め決定された閾値、たとえば、20/10以下である全ての画素を計算し、ダーク/ブラック画素を決定する。ステップ810では、カラービストグラムが計算され、これはステップ600に等価である。同様に、ステップ815では、重要なピークが識別され、ステップ820で、それぞれの重要なピークについて画素は索引付けされる。カラーヒストグラムが使用され、一様な色を有する画像領域が決定される。これらの領域はセグメントに分割することができ、その境界を決定することができる。結果的に、ステップ820から、一様な色を有する領域を決定することができる(ステップ825)。しかし、全ての画素が、カラーヒストグラムの重要なピークにより展開されたセグメントパターンを一般的に適合するわけではない。したがって、全ての画素を包含するために、境界(検出されたエッジ)が到達されるまで、一様な色を有する領域に関して、領域成長が実行される。領域成長は、画像のセグメント化向けの一般的な技術であり、画像の特徴が使用されて、領域を形成するために隣接する画素を共に集める。様々な領域成長アルゴリズムは、当該技術分野で公知である。領域成長に続いて、一様な色を有するそれぞれの領域について、エッジマップが計算される(ステップ830)。より正確な近似をもたらすために、次いで、ステップ800(演算子を使用したエッジマップ)、及びステップ830(領域成長に基づいたエッジマップ)からのエッジマップが結合される。すなわち、これらのエッジマップは、互いに比較される(ステップ835)。ステップ840では、ステップ835で評価された一様に色付けされた領域の数の平均が計算され、自然の動画のIフレームにおいて一様に色付けされた領域の数の平均と比較される(ステップ840)。後者が大きい場合、対象となるIフレームは、「エッジマップ」法に基づいて、テレビ漫画のフレームとして索引付けされる(ステップ850)。
【0041】
[AC値法]
図2Bに例示されたDCT変換の後、(たとえば、4:2:0について図3に示されるように)それぞれのブロックY0、Y1、Y2、Y3、Cr及びCbは、一番上の左隅のDC情報(DC値)を含んでおり、残りのDCT係数は、AC情報(AC値)を含んでいる。AC値は、図2Cに部分的に示されるように、DC値の右からDC値の真下のDCT係数にジグザグの順で周波数が増加する。
【0042】
広義のDC値は、フレーム全体の平均強度であり、AC値はコントラストにおける変化を示している。したがって、周波数がより高くなるにつれて、コントラストの変化がより多く存在する。典型的な漫画が自然の動画より多くのコントラストにおける変化を含むため、比較を行うことが適切である。したがって、第一のステップは、予め決定された閾値を超える対象とするIフレームにおけるAC値の数を計算することである。前のステップで計算されたAC値の数が標準的な動画のIフレームにおいて予め決定された閾値よりも大きいAC値の数である場合(ステップ905)、対象となるIフレームが漫画のフレームとして索引付けされる(ステップ910)。さもなければ、漫画を検出する代替的な方法が適用されるべきである(ステップ915)。
【0043】
代替的に、予め決定されたタイミング窓内にあるIフレームの平均値が計算される場合がある(図10におけるステップ1000)。これは、予め決定されたタイミング窓内にあるIフレームの全てのAC値を合計すること、及びそれらIフレームにおけるAC値の総数で除算することを含んでいる。図10に示されるように、ステップ1005では、標準的な動画のIフレームにおける平均のAC値よりも大きい平均のAC値の数の計算が行われる。この数が予め決定された値よりも大きい場合(ステップ1010)、対象とするIフレームは、「AC値」法に基づいて、テレビ漫画のフレームとして索引付けされる(ステップ1015)。
【0044】
[時間のサンプリングレート法]
典型的に、漫画は、毎秒24フレームでサンプリングされる自然の動画とは対照的に、毎秒6フレームでサンプリングされる。図11に示されるように、時間のサンプリング法における第一のステップは、どれだけ多くの連続するフレームが動画シーケンスにおいて等しいかを判定することである。この判定は、時間のサンプリングレートを示す。したがって、時間のサンプリングレートが毎秒6フレームに等しい場合(ステップ1105)、「時間のサンプリングレート」法に基づいて、対象とするIフレームは、漫画のフレームであることは明確である。
【0045】
「カットレート法」
カットレートは、動画ストリームでシーンが切り替わる高周波の目安である。典型的な漫画におけるカットレートは一般的に高い。カットは、動画におけるあるショットから、あるショットがカメラ開始から次のカメラ停止までの時間となる次のショットまでの切り替わりである。これは、動画における2つの連続するフレームにおける差があるショット内で小さいが、ショット間で一般に大きいことを意味する。ショットの境界を検出するために、当該技術分野でよく知られている多くの方法が存在する。これらの方法には、米国特許第6,137,544号及び米国特許第6,125,229号に開示されているものもあり、この両者は、引用により本明細書に盛り込まれる。これらの方法は、連続するフレーム(又は連続するIフレーム)を比較し、該フレーム間の差を調べるものである。本発明の好適な実施の形態では、ショットの境界を発見するためのフレーム差分法が使用される。この方法は、連続するフレームからのDCT係数を使用して計算されたマクロブロックの差に基づくものである。本発明の好適な実施の形態に適用される幾つかのカット検出アルゴリズムは、以下の式に基づいている。
【0046】
【数4】
上式4において、SはY、Cr及びCbについて差の合計を表しており、w=フレーム幅/16、h=フレーム高さ/16、及びBcとBpは現在及び前のブロックそれぞれからのDCT係数である。MBdiffは、2つのマクロブロック間の差の関数であり、互いに異なるブロック数を決定する。式4は、マクロブロックのレベルで動作する。動画フレームのマクロブロックにおける輝度及び色度のブロックのDCT値は、別の動画フレームにおいてそれぞれの対応する値から差し引かれる。差の合計は、それぞれの成分について継続される。全ての差がマクロブロックにおいて追加された後、それぞれのマクロブロックは、予め決定された閾値と比較される。この差の合計が予め決定された値を超える場合、マクロブロックのカウンタがインクリメントされる。この予め決定された閾値は、ブロックのサイズに依存する。典型的に、マクロブロックの全体数うちの75%が互いに異なる場合、カウンタがインクリメントされる。式4は、ブロックの比較に基づいてマクロブロック間の差を発見し、次いで、2つのフレーム間の異なるマクロブロック間の数をカウントする。
【0047】
先に記載した方法により、当業者は、動画において個々のカットを発見することができる。カットレートの変化は、毎分当たりのカット数である。漫画は高いカットレートを一般に有する知識を利用することにより、単位時間当たりのカット数の軌道を維持するために十分である。コマーシャルの適用では、この検出方法は、円形配列を利用して行われる。この配列は、モジュロ演算子を利用して、回転するやり方で個々の素子を補給し続ける。このアプローチを使用して、カットレートをアレイサイズにわたり平均することができる。単位時間当たりに生じるカット数を調べること、及び該カット数を予め決定された閾値と比較することにより、番組の内容が漫画を含んでいるか判定を行うことができる。
【0048】
したがって、図12に示されるように、第一のステップは、符号化された動画ストリームにおけるシーン変化を検出することである(ステップ1200)。ステップ1205では、連続するシーン変化の間の平均距離が計算される。これは、単位時間当たりのシーン変化の数を計測することと等価である。ステップ1205で計算された距離が自然の動画におけるシーン変化の間の平均距離以下である場合(ステップ1210)、「カットレート」法に基づいて、フレームは漫画のフレームとして索引付けされる(ステップ1215)。
【0049】
[色の類似性によるシーンカット法]
図13に示されるように、本発明の好適な実施の形態によれば、先に確認された方法における第一のステップは、符号化された動画ストリームにおけるシーン変化を検出することである(ステップ1300)。これは、上述した方法に従い達成することができる。次のステップ1305では、平均の色及び輝度は、動画ストリームにおけるそれぞれIフレームについて計算される。平均の色及び輝度を計算するために、当該技術分野においてよく知られている多くの方法が存在する。好適な方法は、類似の色のグループに全ての画素をクラスタ化し、重要な領域の平均をとることである。代替的に、全ての画素を類似の色にクラスタ化し、最も重要な領域への距離に従い表現及び重み付けされた画素数に従いグループに重み付けすることも実現することができる。さらに別の代替は、フレームにおける全ての画素の平均値を単に計算することである。これは、YCrCbの色空間で行うことができ、又は代替としてRGB色空間或いはHSV色空間でも行うことができる。
【0050】
ステップ1300で始めに検出されたシーン変化に基づいて、次のステップ1310は、シーン変化前のIフレームの平均色及び輝度をシーン変化後のIフレームの平均の色及び輝度と比較することである。シーン変化前と該シーン変化後のIフレームの平均の色及び輝度の間の差が予め決定された閾値よりも低い場合(ステップ1315)、シーン変化が索引付けされる(ステップ1320)。実験的に、閾値は次の範囲に及ぶことができる。Yについて(0.12−18.2)、Cbについて(0.001−0.002)、Crについて(3.3−1605)。逆に、差が予め決定された閾値を超える場合、最初に検出されたシーン変化は現実のショットのカット(real shot cut)であることが明らかである。しかし、漫画製作者がフレームを手描きし、該フレームを単に接続したためにショットカットが存在しない場合に、ショットカットが検出される場合がある。この場合、偽のショットカットの前後の輝度及び色度(色)値は互いに密接している。この固有な漫画の特性は、ステップ1315で検出目的に使用され、索引付けされたシーン変化の境界は、相当に一様な色及び輝度の差を有している。ステップ1325では、連続する索引付けされたシーン変化の間の平均距離が計算される。この平均距離が自然の動画における索引付けされたシーン変化の間の平均距離よりも大きい場合(ステップ1330)、「色の類似性によるシーンカット」法に基づいて、対象とするIフレームが漫画のフレームとして索引付けされる(ステップ1335)。代替的に、平均の色及び輝度の計算の代わりに、図14に示されるようにカラーヒストグラムが使用される場合がある。全てのステップは、ステップ1310と対照的なステップ1410を除いて同じであり、シーン変化の前と該シーン変化の後のカラーヒストグラムにおけるビンのサイズの間の差が計算される。この差が予め決定された閾値よりも低い場合、シーン変化が索引付けされる。
【0051】
[速度ヒストグラム法]
一般に、漫画における動きは、高い速度を有するものとして特徴付けることができる。先に確認された方法は、速度ヒストグラムを計算して、自然の動画向けの速度ヒストグラムと比較することにより、固有な特性を利用するものである。したがって、図15に示されるような第一のステップは、動画シーケンスにおける連続するフレームの対について速度ヒストグラムを計算することである(ステップ1500)。典型的な速度ヒストグラムは、図16に例示されており、y軸に関する垂直方向(Vy)における16×16マクロブロックの速度、及びx軸に関する水平方向(Vx)における同じマクロブロックの速度による3次元グラフを示している。z軸は、所与のフレームにおける多数の画素(得票数)を表現している。ヒストグラムの原点に近いほど、速度が低くなる。速度ヒストグラムが、より高い速度のピークを有し(ステップ1505)、より高い速度で小さなピークについてより広い分布を有する場合(ステップ1510)、「速度ヒストグラム」法に基づいて、対象とするIフレームは漫画のフレームとして索引付けされる。
【0052】
[フレーム署名法]
漫画は、一様な色からなる広い領域を有するものとして特徴付けられる。署名は、動画ストリームのCr及びCb成分を使用して、フレームにおける類似の色に関して最も広い領域のみを識別するために発達させることができる。周波数領域では、フレームは、離散コサイン情報の個々の8×8ブロックから構成される。図3に例示されるように、強度のブロック(Yブロック)と色のブロック(Cr及びCbブロック)が存在する。Cr及びCbブロックから、フレームのそれぞれのブロックにおけるDC係数及び最も高い値のAC係数に基づいて、署名が導出される。続いて、隣接するブロックが比較され、同じ署名を有するブロックが併せられて領域となる。1つの領域は、原色のブロック署名(Cr,Cb)、そのサイズ(同じ署名を有する隣接ブロックの数)及びブロックグループの中央位置により定義される。領域署名は、以下に記載されるか、米国特許第6,125,229号及び米国特許第6,137,544号に開示される個々のブロック署名から構築される。これらの特許の内容は、引用により本明細書に盛り込まれる。
【0053】
図17に示されるように、ステップ1700では、フレームにおけるそれぞれのブロックについて、ブロック署名が導出される。図18に例示されるように、ブロック署名1800は、この例では、8ビット長であり、そのうちの3ビットはDC署名を表しており、5ビットはAC署名を表している。DC係数以外のブロックにおける全ての他のDCT係数は、AC値である。
【0054】
DC署名は、DC値を抽出して、DC値が指定された値の範囲のどこに属するかを決定することにより導出される。この例では、−2400と2400の間に属する。図18に示されるように、範囲は、予め選択された数の間隔に分割される。本発明では、8つの間隔が使用されているが、画像のより粗い又は密な粒状度について、8より多い又は少ない間隔が使用される場合がある。
【0055】
図18に示されるように、それぞれの間隔は予め定義されたマッピングに割り当てられる。それぞれのDC値は範囲と比較され、DC値が属する間隔のマッピングが戻される。必要とされるビットで表現される値は、間隔の数に対応する。この例では、範囲が8つの間隔に分割されるため、3ビットが使用される。図18に示されるように、ブロック署名1800は、最初の3ビットとしてのDC署名1805、及び残りの5ビットとしてのAC署名1810を含んでいる。ブロックのAC値の範囲に関して良好な表現を与えるために、図18に示されるように、DC値に最も近い5つのAC値(A1−A5)が抽出される。5つのAC値のそれぞれは、この例では200である閾値と比較され、AC値が閾値よりも大きい場合、AC署名1810における対応するビットは、1のような予め決定された値に設定される。また、AC値が該閾値よりも小さいか、或いは等しい場合、対応するビットはゼロに設定される。
【0056】
フレームにおけるそれぞれのマクロブロックのそれぞれのブロックについて、ブロック署名を導出した後、領域が決定される(ステップ1715)。領域は、この例では2つ以上のブロックであり、領域のそれぞれのブロックは、該領域における少なくとも1つの他のブロックと隣接し、該領域における他のブロックに類似のブロック署名を共有する。タイミングが減少されることが望まれる場合、領域を画定するためにより多くのブロックを要求することができる。フレームのそれぞれのブロック署名は互いにブロック署名と比較され、領域を決定するためにカウントされるが(ステップ1705、1710)、本発明は、フレーム内で領域を決定するための領域成長プロセスのような公知の技術を使用する場合がある。
【0057】
領域成長方法は、画像における領域を分離するために使用される。従来の領域成長方法は、画素の色、及び領域を検出するための近隣の概念を使用している。本発明では、領域を成長するための基礎としてブロック署名が使用される。
【0058】
領域成長プロセスの間、領域カウンタは、それぞれの領域について、領域におけるブロック数(サイズ)をカウントし続け、16ビットで表現される。全体のフレームが領域を発見するために分析されると、別の公知の方法を使用して、この例では、x−y軸の基準に基づいて、それぞれの領域の重心又は中心を発見する場合がある。x及びy座標の両者は、CX及びCYとしてそれぞれ抽出され、16ビットで表現される。次いで、それぞれの領域には、領域署名Region Signature(Cr_BlockSignature, Cb_BlockSignature, size, CX,CY)が割り当てられる。領域についてのブロック署名は、領域成長プロセスにより決定されるような、最も重要なブロック署名に基づいて決定される。
【0059】
領域は、物体、人物、事柄等である場合がある「オブジェクト」を一般に表現する。領域署名は、フレームが漫画のタイプのフレームであるかを検出するために使用することができる。たとえば、数個の大きなオブジェクトのみがフレームを構成する場合、おそらく漫画である。したがって、ステップ1720では、対象とするフレームにおける領域の数と予め決定された閾値との間で比較が行われる。領域の数が閾値よりも大きい場合、「フレーム署名」法に基づいて、対象とするフレームは漫画のフレームであると結論付けることができる。
【0060】
[MAD値法]
典型的な漫画における動きはより突然であり、したがって、フレームからフレームへの変化は、「カット」エリアをカウントすることなしに、自然の動画におけるよりも重要である。したがって、これらの変化を評価し、該評価結果を標準的な動画と比較して、漫画を検出することができることは、適切なことである。
【0061】
本発明の実施の形態では、絶対誤差平均(Mean Absolute Difference)を示すMADは、2つの連続するフレームにおいて2つの最も整合するマクロブロックの比較を行い、輝度情報に基づいて、画素領域での最大の差分値を計算する。代替的に、MADは、256の輝度の差に関する絶対値の平均として定義することができる。MAD値は、フレーム(I,P又はB)の種類とは独立に計算され、ショットカットの間に、あるフレームから別のフレームへの情報が変化するために、フレーム間のショットカットを検出するために使用することができる。代替的に、フレーム間の差は、MSE(Mean Square Error)を通して計算することができ、これは、256の輝度の差の平方の平均である。一般に、目は輝度における変化により敏感であるので、誤差を計算するときに色度は無視される。MAD法は、MSEに類似の結果をもたらすが、計算コストがより低くなる。さらに、正規化された相互相関関数(NCCF: normalized crossed correlation function)、又は有意な異なる画素の数(NSDP: the number of significant different pixels)は、MAD値の代わりに使用することができるが、計算コストが高くなる。
【0062】
図19に示されるように、第一のステップ1900は、それぞれのIフレームについて、フレームにおける全てのマクロブロックのMAD値の総和(全MAD値)を計算することである。次のステップ1905は、先に記載した任意の方法を適用して、符号化された動画ストリームにおける全てのショットカットを検出して索引付けすることである(すなわち、ショットカットを識別して、ショットカットとして記録する)。一般に、ショットカット付近のMAD値は非常に高く、全MAD値を極端に高くする。したがって、以下の計算を行うことが必要である。ショットカットの周囲のMAD値を除いた(Mフレーム)全てのフレーム(Nフレーム)に関する全てのMAD値の総和を、全ての有効なフレーム数(N−Mフレーム)で除算する。これにより、全MAD値の平均が生成される。次いで、この結果は、標準的な動画における全MAD値の平均と比較され、対象とするフレームが漫画のフレームであるか判定が行われる。
【0063】
したがって、ステップ1910では、ショットカットの周りに集中される第一のタイミング窓の内側にあるIフレームが索引付けされる。ステップ1915では、先に記載された計算が行われる。ステップ1910からの索引付けされたIフレームに関する「全MAD値」を除いて、第二のタイミング窓の内側にある全てのIフレームに関する全ての「全MAD値」の平均値を計算する。次いで、ステップ1915の結果は、標準的な動画と比較される。ステップ1915の結果が標準的な動画におけるものより大きい場合(ステップ1920)、「MAD値」法に基づいて、対象とするIフレームは漫画のフレームとして索引付けされる。
【0064】
当業者であれば、本発明は上述した閾値の条件に限定されないことを理解されるであろう。閾値に課された条件は、実験的に決定され、ケース毎に異なる。
【0065】
本発明を好適な実施の形態と共に記載してきたが、先に概説された原理内での変形は、当業者には明らかであり、したがって、本発明は、好適な実施の形態に限定されず、かかる変形を収容することが意図されている。
【図面の簡単な説明】
【0066】
【図1】従来の技術によるMPEG動画シーケンスを例示する図である。
【図2】従来の技術によるブロックベースDCT及びジグザグスキャンを採用したイントラ符号化技術を例示する図である。
【図3】従来の技術による各種動画フォーマットを例示する図である。
【図4】本発明の1つの実施の形態による漫画検出システムに関する例示的な実施の形態に関するブロック図である。
【図5】本発明の1つの実施の形態による漫画検出方法を例示するフローチャートである。
【図6】本発明の1つの実施の形態による「カラーヒストグラム」検出方法を例示するフローチャートである。
【図7A】本発明の1つの実施の形態による「カラーヒストグラム」検出方法を例示するグラフである。
【図7B】本発明の1つの実施の形態による「カラーヒストグラム」検出方法を例示するグラフである。
【図7C】本発明の1つの実施の形態による「カラーヒストグラム」検出方法を例示するグラフである。
【図8】本発明の1つの実施の形態による「エッジマップ」検出方法を例示するフローチャートである。
【図9】本発明の1つの実施の形態による「AC値」検出方法を例示するフローチャートである。
【図10】本発明の第二の実施の形態による「AC値」検出方法を例示するフローチャートである。
【図11】本発明の1つの実施の形態による「時間のサンプリングレート」検出方法を例示するフローチャートである。
【図12】本発明の1つの実施の形態による「カットレート」検出方法を例示するフローチャートである。
【図13】本発明の1つの実施の形態による「色の類似性によるカットレート」検出方法を例示するフローチャートである。
【図14】本発明の第二の実施の形態による「色の類似性によるカットレート」検出方法を例示するフローチャートである。
【図15】本発明の1つの実施の形態による「速度ヒストグラム」検出方法を例示するフローチャートである。
【図16】典型的な速度ヒストグラムを例示するグラフである。
【図17】本発明の1つの実施の形態による「フレーム署名」検出方法を例示するフローチャートである。
【図18】ブロック署名の作成プロセスを例示する図である。
【図19】本発明の1つの実施の形態による「MAD値」検出方法を例示するフローチャートである。
Claims (31)
- 漫画シーケンスを検出する方法であって、
動画データストリームを検出するステップと、
該動画データストリームからデータを抽出するステップと、
典型的な漫画に関する少なくとも1つの特性を示す該データに基づいて、少なくとも1つの第一の値を計算するステップと、
該少なくとも1つの第一の値と、自然の動画シーケンスに関する少なくとも1つの特性を示す第二の値とを比較するステップと、
該比較に基づいて、該動画データストリームが漫画シーケンスを含んでいるかを判定するステップと、
を有する方法。 - 該動画データストリームは符号化されている、
請求項1記載の方法。 - 該特性は動画の特性である、
請求項1記載の方法。 - 該動画の特性は色の一様性である、
請求項3記載の方法。 - 該計算された値は、カラーヒストグラムにおける多数の重要なピークである、
請求項4記載の方法。 - 該計算された値は、カラーヒストグラムにおいて連続するピーク間の平均距離である、
請求項4記載の方法。 - 該動画の特性は非一様な動きである、
請求項3記載の方法。 - 該計算された値は、フレームにおける全てのマクロブロックの絶対誤差平均の総和である、
請求項7記載の方法。 - 該動画の特性は時間のサンプリングレートである、
請求項3記載の方法。 - 該動画の特性は個別の領域の境界である、
請求項3記載の方法。 - 該計算された値は、個別の境界及び一様な色を有する領域の平均の数である、
請求項3記載の方法。 - 該動画の特性はコントラストの変化である、
請求項3記載の方法。 - 該計算された値は、予め決定された閾値を超える多数のAC値である、
請求項12記載の方法。 - 該計算された値は、AC値の平均である、
請求項12記載の方法。 - 該動画の特性は高いカットレートである、
請求項3記載の方法。 - 該計算された値は、連続するシーン変化の間の平均距離である、
請求項15記載の方法。 - 該計算された値は、平均的な色及びあるシーン変化の前と該シーン変化の後との間の輝度の差である、
請求項3記載の方法。 - 該計算された値は、あるシーン変化の前のカラーヒストグラムにおけるビンのサイズと、該シーン変化の後のカラーヒストグラムにおけるビンのサイズとの間の差の平均である、
請求項3記載の方法。 - 該動画の特性は高いフレーム速度である、
請求項3記載の方法。 - 該計算された値は、平均速度に関するヒストグラムにおけるビンのサイズである、
請求項19記載の方法。 - 該計算された値は、それぞれのフレームについての領域署名である、
請求項4記載の方法。 - 漫画シーケンスを検出するためのシステムであって、
動画信号を受信するための通信装置と、
該動画信号を記憶可能な記憶装置と、
該通信装置及び該記憶装置と作用的に接続されるプロセッサとを備え、
該プロセッサは、
該動画信号からデータを抽出し、
予め決定された方法に基づいて、該動画信号が該漫画シーケンスを含んでいるかを判定し、
該判定に基づいて、該記憶装置に記憶される出力を発生するように構成されている、
システム。 - 該予め決定された方法は、Iフレームの輝度成分についてのエッジマップと、該Iフレームのカラーヒストグラムとに基づいている、
請求項22記載の方法。 - 該予め決定された方法は、IフレームのAC値に基づいている、
請求項22記載の方法。 - 該予め決定された方法は、該動画信号の時間のサンプリングレートに基づいている、
請求項22記載の方法。 - 該予め決定された方法は、該動画信号のカットレート、及びIフレームの平均色度及平均輝度に基づいている、
請求項22記載の方法。 - 該予め決定された方法は、該動画信号のカットレート、及びIフレームのカラーヒストグラムに基づいている、
請求項22記載の方法。 - 該予め決定された方法は、あるフレームについてのブロック署名に基づいている、
請求項22記載の方法。 - 漫画シーケンスを検出するためのシステムであって、
動画データストリームを取得するための手段と、
該動画データストリームからデータを抽出するための手段と、
少なくとも1つの予め決定された方法に基づいて、該動画データストリームが該漫画シーケンスを含んでいるかを判定するための手段と、
該判定に基づいて出力信号を発生するための手段と、
を有するシステム。 - 該予め決定された方法は、フレーム署名方法である、
請求項29記載のシステム。 - 該予め決定された方法は、MAD値法である、
請求項29記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/910,297 US6810144B2 (en) | 2001-07-20 | 2001-07-20 | Methods of and system for detecting a cartoon in a video data stream |
PCT/IB2002/002941 WO2003010715A2 (en) | 2001-07-20 | 2002-07-08 | Detecting a cartoon in a video data stream |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004537128A true JP2004537128A (ja) | 2004-12-09 |
JP4271027B2 JP4271027B2 (ja) | 2009-06-03 |
Family
ID=25428583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003516016A Expired - Fee Related JP4271027B2 (ja) | 2001-07-20 | 2002-07-08 | 動画データストリームで漫画を検出するための方法及びシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US6810144B2 (ja) |
EP (1) | EP1412921A2 (ja) |
JP (1) | JP4271027B2 (ja) |
KR (1) | KR20040018506A (ja) |
CN (1) | CN1265321C (ja) |
WO (1) | WO2003010715A2 (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4573957B2 (ja) * | 2000-07-04 | 2010-11-04 | キヤノン株式会社 | 画像制御装置、画像制御方法及びテレビ受信機 |
US20030012287A1 (en) * | 2001-03-05 | 2003-01-16 | Ioannis Katsavounidis | Systems and methods for decoding of systematic forward error correction (FEC) codes of selected data in a video bitstream |
US7119924B2 (en) * | 2001-09-28 | 2006-10-10 | Xerox Corporation | Detection and segmentation of sweeps in color graphics images |
US20030105880A1 (en) * | 2001-12-04 | 2003-06-05 | Koninklijke Philips Electronics N.V. | Distributed processing, storage, and transmision of multimedia information |
KR100846770B1 (ko) * | 2002-03-05 | 2008-07-16 | 삼성전자주식회사 | 동영상 부호화 방법 및 이에 적합한 장치 |
US6993182B2 (en) * | 2002-03-29 | 2006-01-31 | Koninklijke Philips Electronics N.V. | Method and apparatus for detecting scene changes in video using a histogram of frame differences |
EP1502443A1 (en) * | 2002-04-23 | 2005-02-02 | Koninklijke Philips Electronics N.V. | Digital image processing method for low-rate applications |
AU2003265318A1 (en) * | 2002-08-02 | 2004-02-23 | University Of Rochester | Automatic soccer video analysis and summarization |
US7027515B2 (en) * | 2002-10-15 | 2006-04-11 | Red Rock Semiconductor Ltd. | Sum-of-absolute-difference checking of macroblock borders for error detection in a corrupted MPEG-4 bitstream |
US20050177847A1 (en) * | 2003-03-07 | 2005-08-11 | Richard Konig | Determining channel associated with video stream |
US7124394B1 (en) | 2003-04-06 | 2006-10-17 | Luminescent Technologies, Inc. | Method for time-evolving rectilinear contours representing photo masks |
EP1643906A2 (en) * | 2003-06-12 | 2006-04-12 | University of Utah Research Foundation | Apparatus, systems and methods for diagnosing carpal tunnel syndrome |
US7178111B2 (en) * | 2004-08-03 | 2007-02-13 | Microsoft Corporation | Multi-planar three-dimensional user interface |
RU2413990C2 (ru) * | 2005-05-19 | 2011-03-10 | Конинклейке Филипс Электроникс Н.В. | Способ и устройство для обнаружения границ элемента контента |
US7512269B2 (en) * | 2005-08-04 | 2009-03-31 | Asaf Golan | Method of adaptive image contrast enhancement |
EP1925020A4 (en) * | 2005-09-13 | 2014-01-01 | Luminescent Technologies Inc | SYSTEMS, MASKS AND METHODS FOR PHOTOLITHOGRAPHY |
US8674855B2 (en) * | 2006-01-13 | 2014-03-18 | Essex Pa, L.L.C. | Identification of text |
US7783079B2 (en) * | 2006-04-07 | 2010-08-24 | Monro Donald M | Motion assisted data enhancement |
US7586424B2 (en) | 2006-06-05 | 2009-09-08 | Donald Martin Monro | Data coding using an exponent and a residual |
US20100303150A1 (en) * | 2006-08-08 | 2010-12-02 | Ping-Kang Hsiung | System and method for cartoon compression |
JP4720705B2 (ja) * | 2006-09-27 | 2011-07-13 | ソニー株式会社 | プログラム、検出方法、及び検出装置 |
US7796812B2 (en) * | 2006-10-17 | 2010-09-14 | Greenparrotpictures, Limited | Method for matching color in images |
KR100816013B1 (ko) * | 2007-01-23 | 2008-03-21 | (주)엑스퍼넷 | 압축영상의 장면전환 검출장치 및 방법 |
FR2911983B1 (fr) * | 2007-01-25 | 2009-05-29 | St Microelectronics Sa | Procede de suivi automatique des mouvements de la mains dans une sequence d'images. |
US20080205505A1 (en) * | 2007-02-22 | 2008-08-28 | Donald Martin Monro | Video coding with motion vectors determined by decoder |
US8358381B1 (en) * | 2007-04-10 | 2013-01-22 | Nvidia Corporation | Real-time video segmentation on a GPU for scene and take indexing |
US8345769B1 (en) | 2007-04-10 | 2013-01-01 | Nvidia Corporation | Real-time video segmentation on a GPU for scene and take indexing |
US8064639B2 (en) * | 2007-07-19 | 2011-11-22 | Honeywell International Inc. | Multi-pose face tracking using multiple appearance models |
JP5277779B2 (ja) * | 2008-07-31 | 2013-08-28 | 富士通株式会社 | ビデオ再生装置、ビデオ再生プログラム及びビデオ再生方法 |
US8150169B2 (en) * | 2008-09-16 | 2012-04-03 | Viewdle Inc. | System and method for object clustering and identification in video |
US7786907B2 (en) | 2008-10-06 | 2010-08-31 | Donald Martin Monro | Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems |
US7864086B2 (en) | 2008-10-06 | 2011-01-04 | Donald Martin Monro | Mode switched adaptive combinatorial coding/decoding for electrical computers and digital data processing systems |
US7786903B2 (en) | 2008-10-06 | 2010-08-31 | Donald Martin Monro | Combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems |
US7791513B2 (en) * | 2008-10-06 | 2010-09-07 | Donald Martin Monro | Adaptive combinatorial coding/decoding with specified occurrences for electrical computers and digital data processing systems |
US8731238B2 (en) * | 2009-06-10 | 2014-05-20 | Honeywell International Inc. | Multiple view face tracking |
US9219948B2 (en) * | 2009-11-17 | 2015-12-22 | Broadcom Corporation | Method and system for compression and decompression for handling web content |
US8551283B2 (en) | 2010-02-02 | 2013-10-08 | Apple Inc. | Offset control for assembling an electronic device housing |
US8922633B1 (en) | 2010-09-27 | 2014-12-30 | Given Imaging Ltd. | Detection of gastrointestinal sections and transition of an in-vivo device there between |
US8965079B1 (en) | 2010-09-28 | 2015-02-24 | Given Imaging Ltd. | Real time detection of gastrointestinal sections and transitions of an in-vivo device therebetween |
JP5940557B2 (ja) * | 2011-01-05 | 2016-06-29 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | Ppg関連情報を保存するビデオコーディング及びデコーディングデバイス及び方法 |
US8463037B2 (en) * | 2011-03-31 | 2013-06-11 | Sony Corporation | Detection of low contrast for image processing |
CN103426155A (zh) * | 2012-05-16 | 2013-12-04 | 深圳市蓝韵实业有限公司 | 基于求直方图变化率的直方图分界方法 |
US8818037B2 (en) * | 2012-10-01 | 2014-08-26 | Microsoft Corporation | Video scene detection |
US9324145B1 (en) | 2013-08-08 | 2016-04-26 | Given Imaging Ltd. | System and method for detection of transitions in an image stream of the gastrointestinal tract |
TWI520095B (zh) * | 2013-10-21 | 2016-02-01 | 財團法人工業技術研究院 | 影像索引方法、影像索引裝置及電腦可讀取媒體 |
KR101650153B1 (ko) * | 2015-03-19 | 2016-08-23 | 네이버 주식회사 | 만화 데이터 편집 방법 및 만화 데이터 편집 장치 |
GB2549073B (en) * | 2016-03-24 | 2020-02-26 | Imagination Tech Ltd | Generating sparse sample histograms |
CN105844251A (zh) * | 2016-03-31 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种卡通视频识别方法及装置 |
CN112135146B (zh) * | 2019-11-14 | 2021-12-24 | 杭州海康威视数字技术股份有限公司 | 一种编解码方法、装置及其设备 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4305131A (en) | 1979-02-05 | 1981-12-08 | Best Robert M | Dialog between TV movies and human viewers |
USRE33662E (en) | 1983-08-25 | 1991-08-13 | TV animation interactively controlled by the viewer | |
US5019899A (en) | 1988-11-01 | 1991-05-28 | Control Data Corporation | Electronic data encoding and recognition system |
US5353074A (en) * | 1992-05-22 | 1994-10-04 | The Walt Disney Company | Computer controlled animation projection system |
JPH07325934A (ja) * | 1992-07-10 | 1995-12-12 | Walt Disney Co:The | 仮想世界に向上したグラフィックスを提供する方法および装置 |
US5828786A (en) | 1993-12-02 | 1998-10-27 | General Instrument Corporation | Analyzer and methods for detecting and processing video data types in a video data stream |
US5546474A (en) | 1993-12-21 | 1996-08-13 | Hewlett-Packard Company | Detection of photo regions in digital images |
US5592226A (en) | 1994-01-26 | 1997-01-07 | Btg Usa Inc. | Method and apparatus for video data compression using temporally adaptive motion interpolation |
US5854856A (en) | 1995-07-19 | 1998-12-29 | Carnegie Mellon University | Content based video compression system |
US5835163A (en) * | 1995-12-21 | 1998-11-10 | Siemens Corporate Research, Inc. | Apparatus for detecting a cut in a video |
US5923337A (en) * | 1996-04-23 | 1999-07-13 | Image Link Co., Ltd. | Systems and methods for communicating through computer animated images |
US5920360A (en) * | 1996-06-07 | 1999-07-06 | Electronic Data Systems Corporation | Method and system for detecting fade transitions in a video signal |
US6061462A (en) | 1997-03-07 | 2000-05-09 | Phoenix Licensing, Inc. | Digital cartoon and animation process |
US6137544A (en) | 1997-06-02 | 2000-10-24 | Philips Electronics North America Corporation | Significant scene detection and frame filtering for a visual indexing system |
US6125229A (en) | 1997-06-02 | 2000-09-26 | Philips Electronics North America Corporation | Visual indexing system |
WO1999006955A1 (fr) * | 1997-08-04 | 1999-02-11 | Sony Corporation | Dispositif et procede permettant de traiter des donnees-image, et support de transmission |
US6040861A (en) | 1997-10-10 | 2000-03-21 | International Business Machines Corporation | Adaptive real-time encoding of video sequence employing image statistics |
CA2244567A1 (en) | 1998-08-07 | 2000-02-07 | Chin-Kun Lee | Auxiliary positioning plate for cartoon drawing apparatuses |
US6738065B1 (en) * | 1999-08-10 | 2004-05-18 | Oshri Even-Zohar | Customizable animation system |
CA2385714A1 (en) * | 1999-10-08 | 2001-04-19 | British Telecommunications Public Limited Company | Cartoon recognition |
US6256585B1 (en) | 1999-10-14 | 2001-07-03 | U.S. Army Corps Of Engineers As Represented By The Secretary Of The Army | Method for measuring depths of a waterway and for determining vertical positions of a waterborne vessel |
US6522332B1 (en) * | 2000-07-26 | 2003-02-18 | Kaydara, Inc. | Generating action data for the animation of characters |
US6700586B1 (en) * | 2000-08-23 | 2004-03-02 | Nintendo Co., Ltd. | Low cost graphics with stitching processing hardware support for skeletal animation |
-
2001
- 2001-07-20 US US09/910,297 patent/US6810144B2/en not_active Expired - Fee Related
-
2002
- 2002-07-08 KR KR10-2004-7001070A patent/KR20040018506A/ko not_active Application Discontinuation
- 2002-07-08 EP EP02749196A patent/EP1412921A2/en not_active Withdrawn
- 2002-07-08 WO PCT/IB2002/002941 patent/WO2003010715A2/en active Application Filing
- 2002-07-08 CN CNB028029402A patent/CN1265321C/zh not_active Expired - Fee Related
- 2002-07-08 JP JP2003516016A patent/JP4271027B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
WO2003010715A2 (en) | 2003-02-06 |
US20030016864A1 (en) | 2003-01-23 |
WO2003010715A3 (en) | 2003-11-27 |
CN1265321C (zh) | 2006-07-19 |
JP4271027B2 (ja) | 2009-06-03 |
EP1412921A2 (en) | 2004-04-28 |
US6810144B2 (en) | 2004-10-26 |
KR20040018506A (ko) | 2004-03-03 |
CN1498391A (zh) | 2004-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4271027B2 (ja) | 動画データストリームで漫画を検出するための方法及びシステム | |
US20220312021A1 (en) | Analytics-modulated coding of surveillance video | |
US8139883B2 (en) | System and method for image and video encoding artifacts reduction and quality improvement | |
US6618507B1 (en) | Methods of feature extraction of video sequences | |
Meng et al. | Scene change detection in an MPEG-compressed video sequence | |
US6449392B1 (en) | Methods of scene change detection and fade detection for indexing of video sequences | |
US6862372B2 (en) | System for and method of sharpness enhancement using coding information and local spatial features | |
US9183617B2 (en) | Methods, devices, and computer readable mediums for processing a digital picture | |
US6327390B1 (en) | Methods of scene fade detection for indexing of video sequences | |
US20030142750A1 (en) | Edge detection based on variable-length codes of block coded video | |
US20100303150A1 (en) | System and method for cartoon compression | |
JP2006519565A (ja) | ビデオ符号化 | |
US7031388B2 (en) | System for and method of sharpness enhancement for coded digital video | |
US7295711B1 (en) | Method and apparatus for merging related image segments | |
JP2007512750A (ja) | ビデオ信号における局所的な画像空間−時間細部の検出 | |
JP2002064823A (ja) | 圧縮動画像のシーンチェンジ検出装置、圧縮動画像のシーンチェンジ検出方法及びそのプログラムを記録した記録媒体 | |
US20100118956A1 (en) | Method and device for extracting a mean luminance variance from a sequence of video frames | |
US20100150470A1 (en) | Systems and methods for deblocking sequential images by determining pixel intensities based on local statistical measures | |
JP2014509481A (ja) | シーケンス内の画像の圧縮 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080122 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20080421 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20080428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081119 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090127 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090224 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120306 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |