JP2002501341A

JP2002501341A - サンプリングされたディジタル動画シーケンス中の推移を検出する方法

Info

Publication number: JP2002501341A
Application number: JP2000528081A
Authority: JP
Inventors: ラタコンダ，クリッシュナ
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1998-01-07
Filing date: 1999-01-06
Publication date: 2002-01-15
Anticipated expiration: 2019-01-06
Also published as: WO1999035825A1; US6459459B1; DE69918533D1; EP1053635A1; DE69918533T2; EP1053635B1; JP3714871B2

Abstract

(57)【要約】ディジタル動画シーケンスを動画プロセッサに入力し、ディジタル動画シーケンスの単調に変化する画像輝度のプロファイルを検出し、かような輝度プロファイルを伴うディジタル動画シーケンスを推移イベントとしてタグ付けすることを含むディジタル動画シーケンス中の推移を検出する方法。

Description

【発明の詳細な説明】

【０００１】関連出願１９９７年１２月１９日提出のＲａｔａｋｏｎｄａの“ディジタル動画の階層
的要約及び閲覧方法（Method for Hierachical Summarization and Browsing of
Digital Video）”と題された同時係属出願第０８／９９４,５５８号。

【０００２】発明の分野本発明は、ディジタル動画シーケンス中の、ディゾルブ，フェード，フェード
を含むディゾルブを含む推移の検出に関する。

【０００３】発明の背景推移は、動画シーケンス中のシーンの急転を柔らげる特殊な視覚効果である。
ディゾルブ推移は、動画シーケンスの内容が、通常予め規定した時間パターンに
したがって、１つのシーンから他のシーンに徐々に変化する期間である。これは
、プロによる映画や高性能カメラの先端ユーザによって撮影された消費者動画に
共通して発生する。ディゾルブ領域内において、次のシーンは最初のシーンがフ
ェードアウトする間に現れ（フェードインし）、ディゾルブ領域が終わるまでに
次のシーンが最初のシーンに取って代わる。ディゾルブは次のシーンへのフェー
ドインに引き続く空のスクリーンへのフェードアウトとの組み合わせによって発
生する。ディゾルブ領域は、変化する期間の長さであり、プロフェッショナルな
動画での１秒からシャープ（登録商標）ＶＬ−ＤＣ１型ビューカム（登録商標）
のような最新の市販ディジタルカムコーダでの約６秒までの範囲である。

【０００４】ディゾルブ及びフェードによる推移を検出する目的は、動画要約の準備に先立
つ非圧縮又は圧縮動画シーケンスを前処理することにあり、これにより、ユーザ
は多数の動画シーケンスを迅速に一覧したり、或いは、編集時において編集／イ
ンデクシング（索引）システムによりディゾルブ又はフェード中の偽キーフレー
ムが検出されるような望ましくない効果を避けることができる。かような偽キー
フレームは動画の要約にはほとんど価値を有さない。

【０００５】一般にフェードはシーンと所与の色（通常黒又は白）の間の推移である。フェ
ード領域は、固定色から動画シーンへの推移であればフェードインと呼び、動画
シーンから固定色への推移であればフェードアウトと呼ぶ。ここで云う色は黒と白を含む。ディゾルブ推移は、中間的な白へのフェード、
黒へのフェード又はグレー相へのフェードを含む。ディゾルブ又はフェード推移
における最初と最後の画像を“アンカーフレーム”と呼ぶ。ディゾルブ又はフェ
ード推移の動画シーンは、静的又は動的なコンテンツのいずれを特徴としても良
い。

【０００６】公知の先行技術は、統計的な設定におけるディゾルブ及びフェード領域の検出
に関係している。さらに、以下に引用する先行技術は、圧縮された動画領域にお
いて直接作動するようなケーパビリティに関しては何も参照していない。この分
野における先行論文は、ディゾルブに対するモデル、即ち画像強度の変動に対す
るモデルを仮定している。かような論文は、ディゾルブが、ディゾルブイベント
における最初と最後のフレームであるアンカーフレーム間の輝度の直線的変化を
もたらすとしている。アンカーフレーム間の中間フレームは、フレーム内強度の
標準偏差で表現した放物線プロファイルを有する。即ち、中間フレームについて
のフレーム番号対フレーム内標準偏差のプロットは放物線のプロファイルを有す
る。このプロファイルは、動画シーケンス中のディゾルブに対して構文解析する
ための記号として使用する。しかしながら、このプロファイルはディゾルブを伴
わないシーケンスの他の部分にも生じ得る。かような偽のディゾルブの検出を除
くために、公知の技法は、ディゾルブの最長時間を１秒間以下に制限する。この
人工的制限は、実際には満たし得ない。さらに、この線形モデルも必ずしも満た
され得るものではない。シャープ（登録商標）ＶＬ−ＤＣ１型ビューカム（登録
商標）のようなカムコーダから得られるディゾルブは、通常、区分的線形である
。容量性回路を用いるアナログ式カムコーダは、容量が指数変化するので全く異
なるプロファイルのディゾルブを生じる。

【０００７】Ａｉｇｒａｉｎ他は、“フィルムの編集及び推移効果の自動的リアルタイム分
析とその応用（The Automatic Real-Time Analysis of Film Editing and Tragi
tion Effects and its Applications）”（コンピュータとグラフィックス，第１８卷，Ｎｏ.１，９３−１０３頁，１９９４年）において、クロスディゾルブ，フェードイン及びフェードアウトを検出するための統計学的モデルを提案して
いる。これらのモデルは、推移が直線的であるとの仮説で作成される。グレーへ
のフェード推移がディゾルブ推移の一部を成す場合は考慮されていない。

【０００８】Ｈａｎｐａｃｈｅｒｎの米国特許第４,３１９,２８６号は、動画信号と音声信
号の時間的な損失を検出する回路を記述している。この特許は、連続するサンプ
リングされていないディジタル動画信号におけるコマーシャルの前で生じる急速
な黒色へのフェード推移を捕捉する“コマーシャルキラー”を記述している。

【０００９】Ａｌａｔｔａｒの米国特許第５,２４５,４３６号及び第５,２８３,６４５号は
、サンプリングされたディジタル動画入力について記述している。米国特許第５
,２８３,６４５号は、ディゾルブ検出用の統計学的フレームワークを記述してい
る。提案された方法は、ディゾルブ推移は時間に関し線形であると仮定している
。特許第５,２４５,４３６号は、黒色のような固定色から動き動画シーンへのフ
ェードイン推移又は動き動画シーンから黒色のような固定色へのフェードアウト
推移を、連続動画フレーム間の平均差と相対的平均変化の測定に基づいて検出す
るメカニズムを記述している。フェードが発生するか否かの決定は、フレーム毎
になされ、また画像全体の平均値の変化を１セットの予定値と比較することに基
づいている。

【００１０】発明の要約動画シーケンス中の推移を検出する方法は、ディジタル動画シーケンスを動画
プロセッサに入力することと、ディジタル動画シーケンスの単調に変化する画像
強度（輝度）のプロファイルを検出することと、推移イベントのような輝度プロ
ファイルを持つディジタル動画シーケンスにタグを付けることを含んでいる。

【００１１】本発明は、公知の先行技術における多くの困難な問題を克服する、ディゾルブ
を検出する方法である。この方法は、ディゾルブの生成に適したモデルに関係するものではなく、偽デ
ィゾルブに対抗するものである。この方法は、ディゾルブシーケンス内の制限さ
れた動きにも対抗できる。

【００１２】本発明の目的は、動画シーケンス中のディゾルブイベントを検出する新しい方
法を提供することにある。本発明の他の目的は、非圧縮ディジタル動画並びにＪＰＥＧ及びＭＰＥＧのよ
うなＤＣＴ（離散余弦変換）に基づく圧縮動画のいずれでも機能する動画シーケ
ンス中のディゾルブイベントを検出する新しい方法を提供することにある。

【００１３】本発明の他の目的は、ＭＰＥＧ−２圧縮動画で機能する動画シーケンス中のデ
ィゾルブイベントを検出し、ディゾルブイベントの検出は、ＭＰＥＧ−２圧縮ビ
ットストリームを最小限復号して行なわれる新しい方法を提供することにある。本発明の他の目的は、ノイズが存在していても正確にディゾルブ／フェードを
検出する、動画シーケンス中のディゾルブイベントを検出する新しい方法を提供
することにある。

【００１４】本発明の目的は、シーンの動きに無反応な動画シーケンス中のディゾルブイベ
ントを検出する新しい方法を提供することにある。本発明のさらなる目的は、サンプリングされたディジタル動画シーケンス中の
フェードインとフェードアウトを含むディゾルブイベントを検出する、統一され
高速で且つロバストな方法を提供することにある。

【００１５】本発明のさらに他の目的は、ディゾルブイベントを生成するために使用するメ
カニズム又はモデルとは無関係に、かようなイベントの検出能力を提供すること
にある。

【００１６】好適な実施形態の詳細な説明本発明による方法は、動画入力ストリームが圧縮されているか非圧縮であるか
にかかわりなく、又、シーンの動き又は信号ノイズにかかわりなくディゾルブイ
ベントを検出できる堅固な検出方法で、公知の先行技術における困難な問題を殆
ど解決する方法を提供する。この方法は、ディゾルブの生成に適したモデルに関
係するものではなく、偽ディゾルブに対抗するものである。この方法は、ディゾ
ルブシーケンス内の制限された動きにも対抗できる。ここに開示する発明は、入
力動画シーケンスが、サンプリングされた動画（非圧縮又は伸長）又はＪＰＥＧ
又はＭＰＥＧによる圧縮動画シーケンスのいずれであっても適用できる。

【００１７】ここではディゾルブイベントとも記述するディゾルブの検出は、動画インデク
シング，動画編集，動画圧縮のような多くのディジタル動画アプリケーションに
おいて主要な前処理ステップの一つである。引用している私の同時係属出願に記
載したように、動画要約において、動画要約から偽のキーフレームを検出して除
外しないかぎり、ディゾルブは、アンカーフレーム間で偽のキーフレームを検出
するかもしれない。ここでは、ディゾルブシーケンス中の最初と最後の画像を“
アンカーフレーム”と命名する。動画圧縮において、動き補償による予測は、貧
しい予測による圧縮効率の低下を避けるために、ディゾルブ領域内の圧縮モード
を適切に選択することにより避けられる。

【００１８】ＭＰＥＧ規格により圧縮された動画のような圧縮動画の場合、動画符号化器の
符号化効率の損失は、ディゾルブ領域における動き補償予測の使用によることが
多い。一般に、符号化効率の損失は、動画フレーム当たりのビット予算が制限さ
れているので、動画シーケンス中のブロッキングアーチファクトを生じる結果を
招く。ディゾルブがディジタル動画シーケンス中で検出されると、圧縮期間中に
上記の影響を阻止するステップが取られる。

【００１９】本発明は、サンプリングされた動画シーケンス又は圧縮動画ビットストリーム
のいずれかを記録する動画カメラで実行可能で、又は、ＰＣ又は他のコンピュー
タのような動画編集装置において実行可能である。ここで使用する用語“動画プ
ロセッサ”は、動画カメラ，編集装置，コンピュータ又は本発明の方法によるデ
ィジタル動画の操作に使用する他の装置である。カメラ又はカムコーダの場合は
、ディゾルブ又はフェード領域の位置をメモリに蓄積する。本発明の方法は、動
画要約の計算の前に前処理ステージとして実行される。ディゾルブ／フェードの
検出結果は、動画要約モジュールにより使用されて、ディゾルブ又はフェード領
域において検出されたかもしれない偽のキーフレームを避ける。

【００２０】ディジタル動画中のディゾルブイベントを検出するために、ディゾルブシーケ
ンスの主要な区別特徴を識別しなければならない。全中間フレーム中の特定位置
における画素のグレイ値のプロファイルを考える。ディゾルブの定義から、プロ
ファイルは、独立変数である時間が中間フレームを横断変化するに伴い、ただ増
加するのみか又は一定値に留まる単調な曲線か、或は、減少するのみか一定値に
留まる単調な曲線であることが判る。これは、ディゾルブの生成のために仮定し
たいかなるモデルとも無関係であり、空間的に変化するモデル、即ち、フレーム
を横断し変化するモデルをも含んでいる。もし２枚のフレーム間の全画素が単調
なプロファイルに従うならば、通常の一定フレームの場合を除き、また厳格な単
調性を仮定する２枚のフレームの間にはディゾルブがある筈である。この二重の
暗示（即ち、プロファイル＜＝＞ディゾルブ）によれば、かようなプロファイル
が動画フレームのシーケンス中に存在すれば、そのプロファイルは、ディゾルブ
イベントの可能な最適指標であることは明らかである。これは、ディジタル動画
シーケンスに対して単調に変化する画像輝度のプロファイルを検出し、シーケン
スが単調に変化する画像輝度のプロファイルを有していればその動画シーケンス
に転換イベントとしてタグ付けして、本発明によるディゾルブイベント検出方法
の基礎を形成している。ここで記述する推移イベントは、ディゾルブ，フェード
，フェードを含むディゾルブを内容としている。

【００２１】本発明の方法は図１に示すフローチャートで表され、全体を１０とする。この
方法は、Ｍ×Ｎ（Ｍ≧１，Ｎ≧１）個の画像ブロックの時間における平均値の観
測に基づいている。ディゾルブ又はフェードがあれば、平均値の変化が図２，図
３，図４に示すように単調になる。画像ブロック平均値の変化における単調性は
、従って、本発明においてディゾルブ又はフェードを検出するために用いる基本
的な判定基準である。厳密な単調性は、平均変化（差）の絶対値が厳密にゼロよ
り大きい時に生じる。

【００２２】ディゾルブのプロファイルに対する空間変化モデルが画素から画素に変化し、
例えばｆ（ｔ，ｉ，ｊ）、ここでｔは時間次元を現わしｉ，ｊは画像へのインデ
ックスであると仮定する。（ｉ，ｊ）において共存するが時間的には異なるフレ
ームにある２つの画素値Ｌ（ｉ，ｊ）とＭ（ｉ，ｊ）が与えられると、“プロフ
ァイルの関数”ｆ（ｔ，ｉ，ｊ）は、フェードイン又はフェードアウト（即ち、
ＬがＭにフェードイン又はフェードアウト）することによりＬ（ｉ，ｊ）の値が
時間と共にＭ（ｉ，ｊ）の値に推移する。例えば、図３に示すように、時間６（
即ちＭ）のｉ，ｊにおける値はＬの値にフェードインし、（単調な）推移はｆ（
ｔ，ｉ，ｊ）により表現される。

【００２３】このディゾルブに対する空間変化モデルがブロック内でほぼ一定であり、（即
ちｆ（ｔ，ｉ，ｊ）をブロックＢに対するｆ（ｔ，Ｂ）で置き換えることができ
る）と仮定すれば、中間フレームを横断追跡したときブロックの平均値は単調な
プロファイルを持つ。フレームＬとＭ間のディゾルブのプロファイルはブロック
（Ｂ）の場合、次式で表現されると仮定する。

【００２４】

【数１】

【００２５】式中、ｆ（ｔ．，．）は、フレームＬ及びＭ（アンカーフレーム）間のディゾ
ルブに対する正規化した単調なプロファイルである。もしｆ（．，．）がブロッ
クの単なる関数であり（ブロック内画素と共に変化しない）ならば、ブロック（
Ｂ）の平均プロファイルを次式で表現できることは容易に理解できよう。

【００２６】

【数２】

【００２７】式中、ＶはブロックＢ内の画素数である。式（１）と（２）において、Ｌ及び
Ｍは、２つの時点に位置する２つのフレームの画素強度の分布を意味する。イン
デックスｉ，ｊは特定ブロックＢ内で移動する。ｆはブロック内画素に対して同
一であるので、ｆ（ｔ，Ｂ）の表記を使用する。今、式（１）に“平均演算”を
適用する。即ち、ブロックＢにつき各数値を合計し、その合計値をＮで割る。ｆ
（ｔ，Ｂ）は定数であると仮定するので、生き残って外に現れる。その結果が式
（２）であり、同じプロファイル（即ちｆ（ｔ，Ｂ））を有するので、“ブロッ
ク平均”の関係が規定される。従って、ブロック内の画素がこの同じプロファイ
ルを有するならば、ブロックの平均も同じプロファイルを有する。

【００２８】よって、ブロックの平均値は、フェードとディゾルブの検出に使用する動画フ
レームの代表的な特徴である。平均値を用いると後述の３つの利点が得られるが
、それ以外のもう１つの利点として、このプロセスがカメラの動き又はシーン中
の個別被写体の動き並びにノイズに対し不感になると云う事実がある。これは、
ロバストな方法を得る上で特に重要である。

【００２９】かように、式（１）と（２）による、ブロックの平均プロファイルも従って単
調である。もし、ｆ（．，．）がブロック内で同じでなければ、平均プロファイ
ルは単調である必要はないことに留意すべきである。また、ｆ（．，．）が所与
のブロック内の画素に対して同じでなければならないことにも注意すべきである
。２つの異なるブロックは異なる正規化単調プロファイルを持ち得る。個別画素
のプロファイルの代わりにブロックの平均プロファイルを用いることにより下記
の利点が得られる。

【００３０】１．個別画素はノイズの影響を受けやすく、単調なプロファイルを生み出さな
いことがある。ブロック中の全画素についての固有積分により平均プロファイル
におけるノイズの影響が低減する。２．（ＭＰＥＧ−２ビットストリ−ム上で直接ディゾルブの検出を実施したい
場合に）ブロックの平均プロファイルは制限された復号でＭＰＥＧ−２ビットス
トリームから容易に得られ、計算時間が短縮できる。３．平均プロファイルを追跡することにより、（追跡すべき点数が減少するの
で）プロファイルの追跡時の計算量を低減できる。前述のように、単調シーケンスはディゾルブイベントを示す。番号ｎ_i，ｉ＝１…Ｄの所与のシーケンスが単調であることを確かめるために、Ｓ_aとＳ_bの値を
分析する。次式で得られる２つの値Ｓ_aとＳ_bを検討する。

【００３１】

【数３】

【００３２】シーケンスが単調である場合にのみ、Ｓ_aとＳ_bが等しいことは明らかである。
厳密な単調性を確保するためには、Ｓ_a（又はＳ_b）は、後述するような小さい値
よりも大きくなければならない。

【００３３】本発明の好適な実施形態において、画像ブロックは、水平“ストライプ”であ
り、高さは８横列に等しく（Ｍ＝８）、幅は画像幅Ｎに等しい。“平均（ｍｅａ
ｎｓ）”は、従って、“横列”の平均に低減する。横列を用いるのは次の２重の
理由による。（１）横列平均化はＭＰＥＧ動画ビットストリームを直接処理する
際に最小限の復号で実現でき、即ち、後述するように動画を最初に復号する必要
がない。（２）代表的な動画シーケンスにおいて水平方向の動きが一般に大きい
ので、フェード／ディゾルブ中の動きも縦の動き成分よりも大きい水平の動き成
分を持ちやすい。もし垂直ブロックを用いると、方法手順は適用できるが、大き
な水平方向の動きの場合に“不一致”が生じることが多い。さらに、画素でなく
画像ブロックを使用することにより、ノイズがあってもディゾルブ／フェードを
正確に検出でき、本方法をロバストなものにする。

【００３４】図１を参照し、本発明の方法による第１の実施形態をステップ毎に記述する。
ステップ１：カムコーダ又は編集装置に出現する画像のような動画フレーム又
は動画フィールドのようなサンプリングされた入力ディジタル動画（ブロック１
２）を複数の重なりのないＭ×Ｎブロックに分割する（ブロック１４）。これら
のブロックの数Ｐを後続処理のために保管する。“Ｐ”はさらなる画像処理にお
いて使用されるブロック数である。前述のように、本発明の方法のステップは、
カムコーダ，コンピュータ，他の編集装置において実施され、動画の要約又は編
集のプロセスにおいて実行される。

【００３５】ステップ２：Ｐ個のブロックの各々の平均値を計算する（ブロック１６）。Ｐ
平均値を先行ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ−１画像における対応値
と共に保管し（ブロック１８）、時系列の平均値の単調性を評価する。ＭＩＮ＿
ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ値（ここでは、“Ｄ"とも表記する）（ブロック２０）は、単調性を測定するために用いる画像のサブシーケンスの長さを決定
する（ブロック２２）。これは、推定値であり、ディゾルブイベントの期待される最小長に基づいてユ
ーザにより入力パラメータとして供給される。ステップ３：Ｐ個の画像ブロックの各々について２つの量Ｓ_aとＳ_bを計算して
平均値の単調性を評価する（ブロック２４）。サブシーケンス中の平均値が単調
な傾向を示していれば、これらの値は等しい。

【００３６】ステップ４：Ｐ個の画像ブロックの各々について、Ｓ_aとＳ_bの絶対差を予め定
義した閾値（しきい値）ＴＨＲＥＳＨと比較する（ブロック２６）。閾値ＴＨＲ
ＥＳＨより小さい絶対差を示すブロック数Ｑを所与の画像カウントＲＡＴＩＯ×
Ｐ（ＲＡＴＩＯは入力パラメータ）と比較する。ＲＡＴＩＯ値は、０.０と１.０
の間の値であり、ＲＡＴＩＯに対する典型的な値は、０.６から０.９の範囲であ
る。ＱがＲＡＴＩＯ×Ｐより大きければ単調条件が満たされる。これは、単調傾
向を示すＲＡＴＩＯ×Ｐの平均値が少なくとも存在することを意味する。

【００３７】ステップ５：ステップ４で単調条件が満される場合、ステップ４の条件を満足
するＱ個の平均値に対して発見された数量Ｓ_aの合計として定義されるＳを計算する（ブロック２８）。ステップ４の条件が満されなかった場合、サブシーケン
スはディゾルブ又はフェードの一部でないとしてタグ付けする（ブロック３０）
。ステップ７に進む。

【００３８】ステップ６：Ｓ値を、ＴＯＴ＿ＥＲＲＯＲ×Ｑの値と比較する（ブロック３２
）。ＳがＴＯＴ＿ＥＲＲＯＲ×Ｑの値より大きければ、そのサブシーケンスをデ
ィゾルブ又はフェード領域の一部に属するものとしてタグ付けする（ブロック３
４）。このテストは、平均値の変動における厳格な単調性を保証する。ＳがＴＯ
Ｔ＿ＥＲＲＯＲ×Ｑの値より小さいか又は等しい場合は、そのサブシーケンスを
ディゾルブ又はフェード推移の一部で無いとしてタグ付けする（ブロック３４）
。ステップ７に進む。

【００３９】ステップ７：ディジタル動画シーケンス中の全てのサブシーケンスについて１
から７までを繰り返す。サブシーケンススライディング制御機構は、シーケンス
中の連続サブシーケンスの位置を決定する。１つの可能性は、一度に１フレーム
だけサブシーケンスをスライディングさせることである（ブロック２２）。この
場合、最も古い平均値は破棄され、最新の入力動画画像から得られたＰ個の平均
値で置換する。もう１つの可能性は、連続サブシーケンスの位置を１度に１つよ
り多いフレームだけ増大することである。

【００４０】ステップ８：全てのサブシーケンスのタグを検査する。偽の（孤立した）ディ
ゾルブ／フェードサブシーケンスを除去し、予め規定した画像数であるＫより離
れていないディゾルブ／フェードのサブシーケンスを連結する（ブロック３６）
。このステップは、負のディゾルブ／フェードのタグを、Ｋ枚の画像範囲で検出
されたディゾルブ／フェードサブシーケンス間で生じたものであれば、正のディ
ゾルブ／フェードサブシーケンスの識別子に変えるステップを含んでいる。シー
ケンス中の他の領域は全て、ディゾルブ／フェード領域でないとしてタグ付けす
る。

【００４１】ステップ９：検出したディゾルブ／フェード領域の２枚のアンカーフレーム間
にシーン転換があることを確認する（ブロック３８）。このステップは静止画像
のシーケンスがディゾルブ又はフェード領域として検出できないことを保証する
。２枚のアンカーフレームのブロック平均値の絶対差が予め規定した閾値を超え
るかどうかをテストするために実行できる。

【００４２】ステップ１０：ステップ９におけるテストが真であれば、動画シーケンス中の
期間をディゾルブ／フェード推移としてタグ付けする（ブロック４０）。真でな
ければ、ディゾルブ／フェード領域でないとしてタグ付けする（ブロック４２）
。Ｐの値、即ち処理に用いるブロック数は次のようにして選択する。フレームを
フレーム全体にわたる隣接ブロックにタイル分割する。但し、ディゾルブ検出に
は全部のフレームを使用する訳ではない。全ブロックを使用する場合は、Ｐは画
像中のブロックの総数と等しく、そうでなければ、ブロック総数より少ない。第
１のオプションは、通常のオペレーションモードであり、第２のオプションは、
（１）フレームが大きく、即ち１９２０×１０８０画素で、特に計算機資源が制
限されている場合に計算コストを低減し、（２）シーンに関し、ユーザ個人が持
ち得る又は動画データから抽出できる先見的な知識を内有させるために装備する
。（２）の場合、例えば、独立して動くオブジェクトによるブロックの或る特定
のサブセットに及ぶ領域中の動きを検出した場合、かようなブロックは無視し、
連続するプロセスを被写体の動きではないフェード又はディゾルブによる変化に
のみ集中させる。さらに、チャネルエラー（例えば、伝送エラー）を含むブロッ
クも同様に無視する。

【００４３】ディゾルブ領域，フェード領域又は中間のフェード推移を持つディゾルブのい
ずれかを検出するかの違いは、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨ，Ｔ
ＯＴ＿ＥＲＲＯＲ及びＫ値の選択に依る。ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨの値は、画像のサブシーケンス長を
決定して、アンカーフレームの位置決めに関する限り、アルゴリズムの選択性に
影響を与える。中間のフェード推移を含むディゾルブ領域の場合、ＭＩＮ＿ＤＩ
ＳＳＯＬＶＥ＿ＬＥＮＧＴＨの値は、一定の色画像数より大きく選択して厳密な
単調性のテストが頻繁に外れるのを防止するべきである。ＭＩＮ＿ＤＩＳＳＯＬ
ＶＥ＿ＬＥＮＧＴＨの典型値は３０である。

【００４４】ＴＯＴ＿ＥＲＲＯＲの値は、シーケンス中の単調性の程度を決定する。フェー
ド検出において、ＴＯＴ＿ＥＲＲＯＲ値は減少して、動画像が一定である（フェ
ードインの開始又はフェードアウトの終りの）領域において、単調性の測度Ｓ_a がゼロかゼロに近いという事実を考慮するようにする。ＴＯＴ＿ＥＲＲＯＲの典
型値は、動画シーケンスの輝度成分当たり８ビットを処理する場合、６である。
フェード推移を含むディゾルブ領域の場合、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮ
ＧＴＨ値が小さくアルゴリズムが一定色領域に入らなければ、ＴＯＴ＿ＥＲＲＯ
Ｒ値を減少する。ここで用いるＳ_aとＳ_bは、番号セットｎ_iが単調か否かを決定するために使用する数量である。Ｓ_aとＳ_bは、ここに記述した単調性のテストを
定義するために用いる中間値である。

【００４５】Ｋの値は、ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮＧＴＨとＴＯＴ＿ＥＲＲＯＲの
ために選択された値と調和するように選択する。フェードの場合、ＭＩＮ＿ＤＩ
ＳＳＯＬＶＥ＿ＬＥＮＧＴＨが小さ過ぎたり或いはＴＯＴ＿ＥＲＲＯＲ値が大き
過ぎる時は、Ｋ値を大きくすれば補償できる。純粋なディゾルブの場合、小さい
値にして、アルゴリズムがディゾルブ領域をアンカーフレームをこえて拡張する
のを阻止できる。

【００４６】図２，図３，図４は、ディゾルブとフェードに関する３つの異なるシナリオを
提示する。図２は、純粋ディゾルブ領域内ブロックの平均値変化の典型例、ライ
ン５０を提示しており、ライン“Ｄ”はディゾルブ領域外の平均変化で、画像コ
ンテンツが各シーン中で動いている事実を反映している。

【００４７】図３は、純粋フェード領域、ライン“Ｆ”内のブロックの平均値変化の典型例
、ライン５２を提示している。図２に示した推移との違いは、この推移が画像コ
ンテンツを予め定義した一定値、Ｌにすることにある。

【００４８】図４は、フェード推移を含むディゾルブ領域ＤＦ内のブロックの平均値変化の
典型例、ライン５４を提示している。図２に示した推移との違いは、この推移に
おいては、ディゾルブ中に一定値、Ｌになる中間フェードが存在することにある
。Ｓｈａｒｐ（登録商標）ＶＬ−ＤＣ１型ＶｉｅｗＣａｍ（登録商標）のような
ディジタルカムコーダは、このモードで作動する。

【００４９】上記の方法は、入力ディジタル動画シーケンスをＪＰＥＧ又はＭＰＥＧ圧縮ビ
ットストリームのようなブロックＤＣＴに基づく圧縮動画ストリームに置き換え
る場合にも適用できる。本出願に参照引用している同時係属出願において記述し
ているように、８×８ブロックのＤＣ値は最小限復号したＭＰＥＧビットストリ
ームから得ることができ、横列平均をコンパイルする際に容易に使用できる。Ｍ
ＰＥＧの場合、次元ＭとＮは、８の整数倍であり、符号化基準により課せられた
値であり、図１の入力パラメータではない。

【００５０】図５は、入力がＭＰＥＧ圧縮動画ストリームである、図１の修正図である。ステップ１：入力ＭＰＥＧ圧縮動画ビットストリーム（ブロック１１２）を最
小限復号してＤＣ係数を抽出してＭ×ＮのＰ個のブロックの平均を計算する（ブ
ロック１１４）。Ｐの数値を後続処理のために保管する。前述のように、本発明
の方法によるステップは、カムコーダ，コンピュータ又は他の編集装置において
実施され、動画の要約又は編集のプロセスにおいて実施される。

【００５１】ステップ２：Ｐ個の平均値の計算結果を先行ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥ
ＮＧＴＨ−１の画像における対応値と共に蓄積し（ブロック１１８）、時系列の
平均値の単調性を評価するために使用する。ＭＩＮ＿ＤＩＳＳＯＬＶＥ＿ＬＥＮ
ＧＴＨ、ここでは、“Ｄ”とも表記する値（ブロック１２０）は、単調性を測定
するために用いるサブシーケンスの長さを決定する（ブロック１２２）。非圧縮
入力方法の場合に述べたように、これは推定値であり、ディゾルブイベントの期
待される最小長に基づいて、ユーザが入力パラメータとして供給する。

【００５２】ステップ３：Ｐ個の画像ブロックの各々について２つの数量Ｓ_aとＳ_bを計算し
て平均値の単調性を評価する（ブロック１２４）。サブシーケンスにおける平均
値が単調な傾向を示していれば、これらの値は等しい。

【００５３】ステップ４：Ｐ個の画像ブロックの各々についてＳ_aとＳ_bの絶対差を予め定義
した閾値ＴＨＲＥＳＨと比較する（ブロック１２６）。閾値ＴＨＲＥＳＨより小
さい絶対差を示すブロック数Ｑを所与の画像カウントＲＡＴＩＯ×Ｐ（ＲＡＴＩ
Ｏは入力パラメータ）と比較する。ＲＡＴＩＯ値は、０.０と１.０の間の値であ
り、ＲＡＴＩＯに対する典型的な値は、０.６から０.９の範囲である。ＱがＲＡ
ＴＩＯ×Ｐより大きければ単調条件が満たされる。これは、少なくとも単調傾向
を示すＲＡＴＩＯ×Ｐの平均値が存在することを意味する。

【００５４】ステップ５：ステップ４の条件が満される場合、ステップ４の条件を満足する
Ｑ平均値に対して見つけ出されたＳ_a数量の合計として定義されるＳを計算する（ブロック１２８）。ステップ４の条件が満されなかった場合、サブシーケンス
はディゾルブ又はフェードの一部でないとしてタグ付けされる（ブロック１３０
）。ステップ７に進む。

【００５５】ステップ６：Ｓ値をＴＯＴ＿ＥＲＲＯＲ×Ｑの値と比較する（ブロック１３２
）。ＳがＴＯＴ＿ＥＲＲＯＲ×Ｑの値より大きければ、そのサブシーケンスはデ
ィゾルブ又はフェード領域の一部に属するとしてタグ付けされる（ブロック１３
４）。このテストにより平均値の変化における厳格な単調性が保証される。Ｓが
ＴＯＴ＿ＥＲＲＯＲ×Ｑより小さいか又は等しい場合は、そのサブシーケンスは
ディゾルブ又はフェード領域の一部では無いとしてタグ付けされる（ブロック１
３４）。ステップ７に進む。

【００５６】ステップ７：ディジタル動画シーケンス中の全てのサブシーケンスについて１
から７までを繰り返す。サブシーケンススライディング制御機構は、シーケンス
中の連続サブシーケンスの位置を決定する。１つの可能性は、一度に１フレーム
だけサブシーケンスをスライディングさせることである（ブロック１２２）。こ
の場合、最も古い平均値は破棄され、入力動画画像から得られたＰ平均値で置き
換える。もう１つの可能性は、連続サブシーケンスの位置を一度に１より多いフ
レームだけ増大することである。

【００５７】ステップ８：全てのサブシーケンスのタグを検査する。偽の（孤立した）ディ
ゾルブ／フェードサブシーケンスを除去し、予め定義した画像数であるＫより離
れていないディゾルブ／フェードのサブシーケンスを連結する（ブロック１３６
）。このステップは、負のディゾルブ／フェードのタグを、Ｋ枚の画像範囲内で
検出したディゾルブ／フェードサブシーケンス間で生じたものであれば、正のデ
ィゾルブ／フェードサブシーケンスの識別子に変えるステップを含んでいる。シ
ーケンス中の他の領域は全て、ディゾルブ／フェード領域でないとしてタグ付け
する。

【００５８】ステップ９：検出したディゾルブ／フェード領域の２枚のアンカーフレーム間
にシーン転換があることを確認する（ブロック１３８）。このステップは、静止
画像のシーケンスがディゾルブ／フェード領域として検出できないことを保証す
る。このステップは、２枚のアンカーフレームのブロック平均値の絶対差が予め
定義した閾値を超えるかどうかをテストするために実行できる。

【００５９】ステップ１０：ステップ９におけるテストが真であれば、動画シーケンス中の
期間をディゾルブ／フェード転換としてタグ付けする（ブロック１４０）。真で
なければ、ディゾルブ／フェード領域でないとしてタグ付けする（ブロック１４
２）。図６は、フェードアウトし次にフェードインする（導入部で紹介した第２カテ
ゴリーのディゾルブ）画素の典型的なプロファイル、ライン５６を示す。このプ
ロファイルは、Ｓｈａｒｐ（登録商標）ＶＬ−ＤＣ１型ＶｉｅｗＣａｍ（登録商
標）により撮影された実際のディゾルブより得た。先行技術においてなされた仮
定に反して、このディゾルブ（即ち、フェードイン＋フェードアウト）は６秒間
以上続く（毎秒３０フレームの速度で）ことに注意すべきである。フェードアウ
トイベントは、５６ａの時点で始まり５６ｂの時点で完了する。画像は、５６ｃ
の時点まで一定で、そこからフェードインイベントが始まり５６ｄの時点で完了
する。

【００６０】図７を参照し、図１又は図５のいずれかに示す方法と共に用いることができる
前処理ステップ６０について説明する。入力動画シーケンス１２が供給される。
入力動画がディゾルブを含んでいれば、推移領域内の或る特定のフレームを、同
時係属出願の動画要約方法を用いて、動画要約のキーフレームとして検出する。
しかしながら、推移領域内のこれらの検出フレームは、キーフレームとしての価
値はほとんどない。かような偽のキーフレームは、動画シーケンスを本発明の方
法によって前処理するので避けることができる。即ち、ディゾルブとフェードを
検出し（ブロック６２）、アンカーフレームでない検出されたフェード／ディゾ
ルブ推移を除去したのち（ブロック６６）、アンカーフレーム（ブロック６４）
のみを要約プロセス（ブロック６８）に使用して、より有意な要約キーフレーム
を得る（ブロック７０）。

【００６１】産業上の応用動画の閲覧（ブラウジング）において、ディゾルブイベントは、望ましい条件
でないディゾルブ領域に割り当てられた多数のキーフレームを生じる。これらの
キーフレームは、ユーザにとって“興味のない”ディゾルブイベントからの多数
のフレームを含んでいる。動画シーケンスからのディゾルブフレームをキーフレ
ーム検出機構に供給される前に除去することにより、興味のないフレームの認定
を避けることができ、それにより、ディゾルブを突然のシーン推移に変換するこ
とができる。

【００６２】動き補償法を採用する圧縮アルゴリズムは、ディゾルブイベントを極めて拙く
処理する。ディゾルブを認定した後、アンカーフレームのみを圧縮して、正規化
した単調プロファイル（ｆ（ｔ，Ｂ））を伝送して、残りのフレームを表現する
。単調プロファイルに直線を当てはめ近似させれば、開始点と終点が既知である
のでパラメータを送る必要は一切ない。ＭＰＥＧ復号器は全ディゾルブシーケン
スをこの情報で再構築できる。

【００６３】本発明の方法は、ＪＰＥＧ又はＭＰＥＧ符号化器の前処理モジュールとして使
用することができる。ディゾルブ又はフェードが動画シーケンス中で確実に認定
された時に、符号化器はパラメータの符号化をスマートに選択でき、ディゾルブ
／フェード領域内の符号化効率を維持できる。

【００６４】ディジタル動画シーケンスにおける推移イベントを検出する方法を開示してき
た。本方法は、動画を要約すること又は編集することに先行する定型の一部とし
て有用である。この方法は圧縮又は非圧縮動画シーケンスに使用でき、圧縮動画
シーケンスを処理する場合は、動画ビットストリームを部分的に復号するだけで
済む。本発明の２つの実施形態について開示してきたが、特許請求範囲に定義し
た本発明の範囲から逸脱することなく、さらなる変更と修正を加えることができ
ることは理解されよう。

【図面の簡単な説明】

【図１】図１は、本発明による方法の第１の実施形態を示すフローチャートである。

【図２】図２は、純粋なディゾルブ領域におけるブロック平均値の変化を示すグラフで
ある。

【図３】図３は、純粋なフェード領域におけるブロック平均値の変化を示すグラフであ
る。

【図４】図４は、フェード推移を含むディゾルブ領域におけるブロック平均値の変化を
示すグラフである。

【図５】図５は、本発明による方法の第２の実施形態を示すフローチャートである。

【図６】図６は、画素プロファイルのグラフである。

【図７】図７は、本発明による方法の前処理ステップを示すブロック図である。

【手続補正書】特許協力条約第３４条補正の翻訳文提出書

【提出日】平成１１年１２月９日（１９９９．１２．９）

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】請求項７

【補正方法】変更

【補正内容】

【手続補正２】

【補正対象書類名】明細書

【補正対象項目名】請求項９

【補正方法】変更

【補正内容】

───────────────────────────────────────────────────── フロントページの続きＦターム(参考） 5C021 PA52 PA57 PA58 PA66 PA67 PA76 PA83 RA01 RA07 RB03 RB06 YC00 5C023 AA12 AA13 BA04 BA12 CA02 EA03 5C059 KK02 LC00 MA00 MA05 MA12 MA23 NN23 NN28 NN40 PP01 PP04 SS06 TA65 TB07 TC03 TC06 TD03 TD05 TD12

Claims

【特許請求の範囲】

【請求項１】ディジタル動画シーケンスを動画プロセッサに入力し、前記ディジタル動画シーケンスの単調に変化する画像強度プロファイルを検出
し、強度プロファイルと関連した前記ディジタル動画シーケンスを推移イベントと
してタグ付けすることを含んでなることを特徴とする動画シーケンス中の推移を
検出する方法。
【請求項２】前記推移イベントは、ディゾルブ，フェード，フェードを含
むディゾルブより成るグループから取り出すことを特徴とする請求項１に記載の
動画シーケンス中の推移を検出する方法。
【請求項３】前記検出することは、Ｍ≧１及びＮ≧１として、Ｍ×Ｎ個の
画像ブロックの画像強度プロファイルを検出することを含むことを特徴とする請
求項１に記載の動画シーケンス中の推移を検出する方法。
【請求項４】前記入力することは、非圧縮ディジタル動画シーケンスを入
力することを含むことを特徴とする請求項１に記載の動画シーケンス中の推移を
検出する方法。
【請求項５】前記入力することは、圧縮ディジタル動画シーケンスを入力
することを含み、該圧縮ディジタル動画シーケンスは、ＭＰＥＧ及びＪＰＥＧ規
格の圧縮ディジタル動画シーケンスを含む圧縮ディジタル動画シーケンスのグル
ープから取り出すことを特徴とする請求項１に記載の動画シーケンス中の推移を
検出する方法。
【請求項６】推移イベントを認定し、前記ディジタル動画シーケンスを前
処理してキーフレームを認定する前の推移イベントのアンカーフレームを除く推
移イベントを除去することを含んでなることを特徴とする請求項１に記載の動画
シーケンス中の推移を検出する方法。
【請求項７】（ａ）ディジタル動画シーケンスを複数のオーバラップしな
い画像ブロックに分割し、（ｂ）Ｐ個の前記画像ブロックを処理し、（ｃ）フレームのサブシーケンス中の前記Ｐ個の画像ブロックの各々の平均値
を算定し、（ｄ）ディゾルブイベントの最小期待長から単調性を測定するために必要なフ
レームのサブシーケンス長を算定し、（ｅ）前記Ｐ個の画像ブロックの各々について１対の単調性値Ｓ_aとＳ_bを計算
し、前記Ｐ個の画像ブロックの各々の平均値の単調性を評価し、（ｆ）単調性テストのために予め規定された閾値（ＴＨＲＥＳＨ）を算定し、（ｇ）前記１対の単調性値の絶対差を前記Ｐ個の画像ブロックの各々について
前記予め規定された閾値と比較し、（ｈ）前記絶対差がＴＨＲＥＳより小さいＱ個の画像ブロックを選択し、（ｉ）ＲＡＴＩＯを単調傾向テストのための０.０と１.０の間の数値を持つ入
力パラメータとして、Ｑを所与の画像カウントＲＡＴＩＯ×Ｐと比較し、（ｊ）前記Ｑ個の画像ブロックに対して得られた数値Ｓ_aの合計として規定される単調性の値Ｓを計算し、（ｋ）前記単調性の値Ｓが前記値ＴＯＴ＿ＥＲＲＯＲ×Ｑより大きいこれらの
Ｑ個の画像ブロックを、ディゾルブ又はフェード領域に属する画像ブロックとし
てタグ付けし、（ｌ）サブシーケンススライディング制御機構を使用して、前記入力された動
画中の全てのサブシーケンスを考慮し、（ｍ）ディゾルブ又はフェード領域に属するとしてタグ付けされ、フレームの
予め規定された数であるＫ枚の画像より離れていない画像のサブシーケンスを連
結し、（ｎ）検出された前記ディゾルブ／フェード領域の２枚のアンカーフレーム間
にシーン転換があることを確認することを特徴とする請求項１に記載の動画シー
ケンス中の推移を検出する方法。
【請求項８】前記算定すること（ｃ）は、圧縮された入力ディジタル動画
シーケンスからのＤＣＴブロックのＤＣ係数を抽出することを含むことを特徴と
する請求項７に記載の動画シーケンス中の推移を検出する方法。
【請求項９】（ａ）ディジタル動画シーケンスを動画プロセッサに入力し
、（ｂ）ディジタル動画シーケンスを複数のオーバラップしない画像ブロックに
分割し、（ｃ）Ｐ個の前記画像ブロックを処理し、（ｄ）フレームのサブシーケンス中の前記Ｐ個の画像ブロックの各々の平均値
を算定し、（ｅ）ディゾルブイベントの最小期待長から単調性を測定するために必要なフ
レームのサブシーケンス長を算定し、（ｆ）前記Ｐ個の画像ブロックの各々について１対の単調性値Ｓ_aとＳ_bを計算
し、前記Ｐ個の画像ブロックの各々の平均値の単調性を評価し、２４、（ｇ）単調性テストのために予め規定された閾値（ＴＨＲＥＳＨ）を算定し、（ｈ）前記１対の単調性値の絶対差を前記Ｐ個の画像ブロックの各々について
前記予め規定された閾値と比較し、（ｉ）前記絶対差が閾値ＴＨＲＥＳより小さいＱ個の画像ブロックを選択し、（ｊ）ＲＡＴＩＯを単調傾向テストのための０.０と１.０の間の数値を持つ入
力パラメータとして、Ｑを所与の画像カウントＲＡＴＩＯ×Ｐと比較し、（ｋ）前記Ｑ個の画像ブロックに対して得られた数値Ｓ_aの合計として規定される単調性の値Ｓを計算し、（ｌ）前記単調性の値Ｓが値ＴＯＴ＿ＥＲＲＯＲ×Ｑより大きいこれらのＱ個
の画像ブロックを、ディゾルブ又はフェード領域に属する画像ブロックとしてタ
グ付けし、（ｍ）サブシーケンススライディング制御機構を使用して、前記入力された動
画中の全てのサブシーケンスを考慮し、（ｎ）ディゾルブ又はフェード領域に属するとしてタグ付けされ、フレームの
予め規定された数であるＫ枚の画像より離れていない画像のサブシーケンスを連
結し、（ｏ）検出された前記ディゾルブ／フェード領域の２枚のアンカーフレーム間
にシーン転換があることを確認し、（ｐ）動画シーケンスをディゾルブ／フェード推移としてタグ付けすることを
含んでなることを特徴とするディジタル動画シーケンス中の推移を検出する方法
。
【請求項１０】推移イベントは、ディゾルブ，フェード，フェードを含む
ディゾルブより成るグループから取り出すことを特徴とする請求項９に記載のデ
ィジタル動画シーケンス中の推移を検出する方法。
【請求項１１】前記入力することは、非圧縮ディジタル動画シーケンスを
入力することを含むことを特徴とする請求項９に記載のディジタル動画シーケン
ス中の推移を検出する方法。
【請求項１２】前記入力することは、圧縮ディジタル動画シーケンスを入
力することを含み、該圧縮ディジタル動画シーケンスは、ＭＰＥＧ及びＪＰＥＧ
規格の圧縮ディジタル動画シーケンスを含む圧縮ディジタル動画シーケンスのグ
ループから取り出すことを特徴とする請求項９に記載のディジタル動画シーケン
ス中の推移を検出する方法。
【請求項１３】前記算定すること（ｄ）は、圧縮された入力ディジタル動
画シーケンスからのＤＣＴブロックのＤＣ係数を抽出することを含むことを特徴
とする請求項９に記載のディジタル動画シーケンス中の推移を検出する方法。
【請求項１４】推移イベントを認定し、前記ディジタル動画シーケンスを
前処理してキーフレームを認定する前の推移イベントのアンカーフレームを除く
推移イベントを除去することを含んでなることを特徴とする請求項９に記載のデ
ィジタル動画シーケンス中の推移を検出する方法。