JP2007533260A

JP2007533260A - 自動逆テレシネプロセス

Info

Publication number: JP2007533260A
Application number: JP2007508343A
Authority: JP
Inventors: リン，ケン・ケイ
Original assignee: アプル・コンピュータ・インコーポレーテッド
Priority date: 2004-04-16
Filing date: 2005-03-08
Publication date: 2007-11-15
Also published as: WO2005107266A1; US20050231635A1; EP1736005A1

Abstract

ビデオシーケンスにおける３−２プルダウンパターンを検出し識別する方法が本明細書で開示される。３−２プルダウンパターンが検出されない場合、ビデオは修正されないままである。３−２プルダウンパターンが見つかった場合、反復フィールドが取り除かれ、オリジナルフレームが再構成される。任意選択的に、ビデオエンコーダのための付加的な命令を作成することができる。更に本発明によれば、反復フィールドは、どのような情報も無駄にしない方法で取り除かれる。本明細書で説明される方法は、反復フィールドを識別するのに使用するビデオデータの１つ又はそれ以上のメトリクス又はパラメータを定義する複数のオペレーションを説明する。

Description

本発明は、ビデオ処理の分野におけるものである。より具体的には、本発明は、映画（フィルム）からＮＴＳＣへの変換において生じるビデオシーケンスの３−２プルダウンパターンを検出し識別する方法を提供する。これは、オリジナルフレームを自動的に再構成し、ＭＰＥＧエンコーディングの目的でフラグを設定する。

映画撮影は、毎秒２４フレームレートを有する。各フレーム自体は、「プログレッシブフレーム」としても知られる完全画像である。これは、トップとボトムの全てのフィールドが時間の同じ瞬間に一致することを意味する。

他方、ビデオ信号はインターレース構造を有する。ビデオフレームは、トップフィールドとボトムフィールドに分割され、一方のフィールドの走査は、他方が終了するまでは開始されない。更にビデオ信号は、様々なフレームレートを有する。ＮＴＳＣ規格（主に北米で使用）は、毎秒約３０フレームのフレームレートを使用する。ＰＡＬ規格（世界の他のほとんどで使用）は、毎秒２５フレームのフレームレートを使用する。

映画とビデオとによって使用されるフレームレートが異なることにより、２つのフォーマット間での変換が複雑になる。映画からＮＴＳＣビデオへの変換では、４フィルムフレーム毎に１０ビデオフィールドを作成する必要がある。このテレシネプロセスは多くの場合、１つのプログレッシブフレームから２つのフィールドを作成し、次のフィルムフレームからは３つのフィールドを作成して、シーケンスの残りについてこの３−２パターンを繰り返すことによって達成される。３−２パターンから、このプロセスは３−２プルダウンと呼ばれることが多い。このパターンは図１に一般的に示されている。

テレシネプロセスにおいて追加された（重複）フィールドにより、映画材料をビデオフォーマットで視聴することが可能になる。しかしながら幾つかのアプリケーションでは、重複フィールドを取り除くことが望ましい。例えば、繰り返されるフィールドは新しい情報を含まず、エンコーディング（圧縮）の前に取り除く必要がある。また、テレシネプロセスは、ぎざぎざの垂直方向のエッジを有するビデオフレームを生成し、これはプログレッシブディスプレイで視聴する場合に見た目に美しくない。

逆テレシネプロセスは、ビデオ信号（インターレース）を元のフィルム（プログレッシブ）フォーマットに変換する。これは、フィルムソース材料から作成されたと推定される入力フィールド画像データを取り込み、元のフレーム画像を出力する。問題は簡単なように見えるが、実際には幾つかの理由により極めて複雑である。第一に、ビデオデータにはノイズが存在する可能性がある。ビデオのノイズは、ランダムノイズを生じることになるビデオドメインでの処理の結果とすることができ、或いは材料に加えられる圧縮ノイズを生じることになる圧縮の結果とすることができる。いずれの場合においても、繰り返しのフィールドは同一でない可能性があり、３−２プルダウンパターンを求めるために２つのフィールド間の類似性にのみ依存することはできない。

編集がビデオドメインで行われている場合には、第２の複雑な問題が生じる。例えば、ビデオドメインでのカットは、３−２プルダウンパターンを中断させる可能性があり、或いはオリジナルの映画に対応する反対のフィールドを持たない幾つかのフィールドを残すことさえある。フェージング、テキスト追加、又はピクチャーインピクチャーのような操作はまた、３−２プルダウンパターンの検出と認識を複雑にする可能性がある。更に、幾つかのビデオプログラムは、３−２プルダウンパターンが存在しない一般的なビデオカメラ（例えば、ＮＴＳＣビデオカメラ）を用いて材料ショットが散りばめられているフィルムのセクションを有する可能性がある。これらの全ては、逆テレシネを順方向３−２プルダウンよりも更に困難な問題にする。

従って、重複フィールドを確実に識別できる自動逆テレシネプロセスを提供することが有利である。

本発明は、ビデオシーケンスにおける３−２プルダウンパターンを検出し識別する方法に関する。３−２プルダウンパターンが検出されない場合、ビデオは修正されないままである。３−２プルダウンパターンが見つかった場合、反復フィールドが取り除かれ、オリジナルフレームが再構成される。任意選択的に、ビデオエンコーダのための付加的な命令を作成することができる。更に本発明によれば、反復フィールドは、どのような情報も無駄にしない方法で取り除かれる。本明細書で説明される方法は、反復フィールドを識別するのに使用するビデオデータの１つ又はそれ以上のメトリクス又はパラメータを定義する複数のオペレーションを説明する。

本明細書では自動逆テレシネプロセスを説明する。本発明の以下の実施形態は、カリフォルニア州キューパーティノのＡｐｐｌｅＣｏｍｐｕｔｅｒ，Ｉｎｃ．製のコンピュータシステムと互換性のあるアプリケーションの観点から説明されており、これは例示に過ぎず、いかなる点でも限定とみなすべきではない。本明細書で使用される用語「フレーム」、「映像」、「画像」は、一般的に同義語であり、文脈上他の意味に指示されていない限りこのように解釈しなければならない。同様に、文脈上他に示されていない限り、フィルムフォーマットは一般的にいずれかのプログレッシブフォーマットを意味し、ビデオはインターレースフォーマットを意味する。

本発明は、ビデオシーケンスにおいて３−２プルダウンパターンを検出し識別する方法を提供する。３−２プルダウンパターンが検出されない場合、ビデオは変更されないままである。３−２プルダウンパターンが見つかった場合、反復フィールドが取り除かれ、オリジナルフレームが再構成される。更に、３つのフラグ、すなわちｐｉｃｔｕｒｅ＿ｓｔｒｕｃｔｕｒｅ、ｐｒｏｇｒｅｓｓｉｖｅ＿ｆｒａｍｅ、ｒｅｐｅａｔ＿ｆｉｒｓｔ＿ｆｉｅｌｄが正確に設定されるように、ＭＰＥＧ−２エンコーダに対する命令が作成される。他のビデオコーデックも、適切なフラグを設定する場合に使用できる。更に本発明によると、反復フィールドはどのような情報も無駄にしない方法で取り除かれる。

図１においてフレームＢ、Ｃ、Ｄによって作成された４つの映像１１２、１１３、１１４、１１５を考える。これらの４つの映像は、フレームＢからの３つのフィールド、フレームＣからの２つ、フレームＤからの３つを有するので３−２−３パターンを構成する。不完全な３−２−３パターンがセグメントの始まり又は終わりに存在する場合（例えば、編集操作のせいで）、反復フィールドは取り除かれず、異なるオリジナルフィルムフレームからのトップフィールドとボトムフィールドを有する映像はノンプログレッシブとマークされる。

図２は、逆テレシネアルゴリズムのブロック図を示す。各反復の始まりでは、ステップ２０４でフレームバッファが満たされる。ステップ２０６で、バッファ内の映像が分析され、最初の８映像の中に３−２−３パターンがあるかどうかが判定される。３−２−３パターンが識別された場合、３−２−３パターンまでのものと、３−２−３パターンに関連するものを含む全映像が出力フレームを作成するよう処理される（ステップ２１２）。３−２−３パターンに関連する４つの映像は、プログレッシブフレームを再構成するように処理される。

３−２−３パターンの一部ではないバッファの始まりの映像は、未修正の出力で再生され、これらを別のビデオセグメントの一部とすることができるようにノンプログレッシブとして分類する。３−２−３パターンが識別されない場合、３つまでの映像が前回の反復の結果に応じて処理される（ステップ２１０）。この場合、全ての処理された映像は未修正出力で再生される。これらには、そのコンテンツの分析から決定されるプログレッシブ又はノンプログレッシブのいずれかをマークする。

最後に、有限状態機械が、現在の反復の結果に従ってステップ２１４で更新される。ステップ２１６で、フレームバッファがチェックされる。バッファに残っている映像がある場合、プロセスは次の反復のためにステップ２０４に戻り、それ以外は、ステップ２１８に進みプロセスが終了する。

有限状態機械は、以下のように定義される入力ビデオの長時間にわたる傾向を追跡するために４つの状態を使用する。
状態０：初期化
機械の状態は初期化中は０に設定される。
状態１：３−２−３パターンが見つからない
現在の反復中にバッファにある最初の８つの映像の中に３−２−３パターンが識別されず、状態２を入力するための条件が真でない場合、有限状態機械は反復の最後で状態１に入る。
状態２：３−２プルダウンパターンの最後
（ａ）フレームバッファにある最初の８つの映像の中で３−２−３パターンが識別されない場合、（ｂ）現在の状態（前回の反復の最後で設定された）が３である場合、（ｃ）フレームバッファの最初の２つの映像がプログレッシブとして分類された場合、（ｄ）これらの２つの映像が前回の反復で処理された最後の映像に関連するものと判定された場合、有限状態機械は反復の最後で状態２に入る。
状態３：パターン発見
３−２−３パターンがフレームバッファの最初の８つの映像の中で識別された場合、有限状態機械は、反復の最後で状態３に入る。

以下は、図２に示されたプロセスを更に詳細に説明したものである。ステップ２０４で、映像は、ビデオソースからフレームバッファに読み取られる。バッファサイズは、少なくとも１２フレーム分でなくてはならない。映像がステップ２１０、２１２で処理された後、フレームバッファから取り除かれ、バッファ内の残りの映像が前部に移動される。１つの反復で最大で８つの映像を処理することができ、その結果、入力ビデオが終わる前にステップ２１６でバッファ内に常に映像が存在する。

ステップ２０６で、３−２−３パターンが、フレームバッファにおいて最初の８つの映像の中で識別される。前の編集がないと仮定すると、３−２プルダウンパターンのための５つの可能な開始ポジションが存在する。これらの５つのポジションは、トップフィールド第１シーケンスにおいて図３に示されている。

２つの異なるフレームにおける同じパリティの２つのフィールドをつなぐ線は、重複フィールドを示す。トップフィールドとボトムフィールドをつなぐ線は、２つのフィールドがオリジナルフィルムの同じフレームから生じたことを示している。フィールドが繰り返された場合、パターンダイアグラムに三角形が形成される。反復フィールドがビデオの第１フィールドである場合、三角形は垂直な左端部を有し、「レフトトライアングル」と呼ばれる。図３でトップフィールドは第１フィールドであり、その結果、ケース０におけるＴ０、Ｔ１、Ｂ０によって形成される三角形はレフトトライアングルである。同様に、反復フィールドが第１フィールドでない場合、三角形は、垂直な右端部を有し「ライトトライアングル」と呼ばれ、例えばケース０においてＢ２、Ｂ３、Ｔ３によって形成された三角形である。

ダブルトライアングル構造は、レフトトライアングルと、それに続く同じフィルムフレームからしかし異なるビデオ映像（３−２プルダウン後）からの２つのフィールドと、その後のライトトライアングルである。これは図４に示されている。ダブルトライアングル構造は、１つのフィルムフレームから３つのフィールド、次のフィルムフレームから２つのフィールド、第３のフィルムフレームから３つのフィールドを含むので、３−２−３パターンとも呼ばれる。

シングルトライアングルにおける（ダブルトライアングル構造ではない）反復フィールドは適切に取り除くことができないので、シングルトライアングルの反復フィールドを識別する必要はない。従って、ステップ２０６の目的（図２）は、フレームバッファでの最初の８つの映像でダブルトライアングル構造又は３−２−３パターンを識別することである。ダブルトライアングル構造を識別するアルゴリズムは、シングルトライアングルの場合と比べてノイズに対してより堅牢に作ることができる。

ステップ２０６（図２）で３−２−３パターンを識別する段階は、２ステッププロセスである。第１のステップは、３−２−３パターンが最も見つかる可能性の高いポジションを識別することである。３−２−３パターンは、そのレフトトライアングルの左端部が映像ｉに対応する場合のポジションｉであると言われる。第２ステップは、３−２−３パターンが適正か又は誤った警報であるかどうかを判定することである。

本プロセスは、２つの測定、すなわち「フィールド・アイデンティティ」と「フレーム相関」を必要とする。フィールド・アイデンティティは、同じパリティの２つのフィールド（すなわち、２つのトップフィールド又は２つのボトムフィールド）間の類似性を測定し、反復フィールドの識別を助ける。フィールド・アイデンティティは、２つのフィールドが同一である場合は０であり、同一でない場合は正のはずである。フィールド・アイデンティティは、絶対差の和又は平均二乗誤差のような様々な歪み尺度から決定することができる。しかしながら、２つのフィールドが類似する場合は小さく、２つのフィールドが類似しない場合は大きいどのような尺度もフィールド・アイデンティティとして使用することができる。フレーム相関は、２つの反対のフィールドが互いにどのくらい密接に関係しているかを測定する。２つのフィールドが１つのプログレッシブフレームから生じる場合、そのフレームの相関性は低いはずである。このような尺度の１つの実施例は、１つの入力フィールドと異なるパリティの他の入力フィールドの補間フィールドと間の絶対差の和とすることができる。

３−２−３パターンを位置付けるために、６つのパラメータがフレームバッファの各ポジションについて計算される。６つのパラメータは、上記で定義された２つの尺度を使用して計算される。最初の２つのパラメータは、フィールド・アイデンティティ尺度に関係する。「第１フィールド・アイデンティティ」は、映像の第１フィールドと次の映像の第１フィールド、すなわち映像ｉ及び映像ｉ＋１の第１フィールド間のフィールド・アイデンティティを測定する。同様に、「第２フィールド・アイデンティティ」は、映像ｉと映像ｉ＋１の第２フィールド間のフィールド・アイデンティティを測定する。

次の３つのパラメータはフレーム相関尺度に関係する。第３パラメータは、同じ映像のトップフィールドとボトムフィールドとの間のフレーム相関尺度である「セルフフレーム相関」である。「クロスフレーム相関」も計算され、これは、フレームの第２フィールドと次のフレームの第１フィールドとの間のフレーム相関、すなわち映像ｉの第２フィールドと映像ｉ＋１の第１フィールドとの間のフレーム相関である。第５パラメータは、「逆クロスフレーム相関」であり、これは、対応するフレームの第１フィールドとこれに続くフレームの第２フィールドとの間のフレーム相関尺度である。

最後に、これらのパラメータから「新しいシーンスコア」が計算される。新しいシーンスコアは、前のフレームのクロスフレーム相関と、第２の前のフレームのクロスフレーム相関又は現在のフレームのクロスフレーム相関のうちの大きい方との比である。新しいシーンスコアの大きな値は、対応する映像が新しいシーンの最初の映像である可能性が高いことを示している。

これらの６つのパラメータ、すなわち「第１フィールド・アイデンティティ」、「第２フィールド・アイデンティティ」、「セルフフレーム相関」、「クロスフレーム相関」、「逆クロスフレーム相関」、「新しいシーンスコア」から、６つの付加メトリクスが計算される。付加メトリクスは、「第１フィールド・アイデンティティ比」、「第２フィールド・アイデンティティ比」、「レフトトライアングルスコア」、「ライトトライアングルスコア」、「クロスフレーム相関スコア」、「ダブルトライアングルスコア」である。これらの６つのメトリクスは、３−２−３パターンを位置付けるために使用される。

フレームの「第１フィールド・アイデンティティ比」メトリックは、現在のフレームの第１フィールド・アイデンティティとその前又は後のフレームの第１フィールド・アイデンティティの小さい方との比として定義される。同様に、「第２フィールド・アイデンティティ比」は、現在のフレームの第２フィールド・アイデンティティとその前又は後のフレームの第２フィールド・アイデンティティの小さい方との比である。フレームの「レフトトライアングルスコア」は、フレームの第１フィールド・アイデンティティ比に、フレームのセルフフレーム相関と次のフレームのセルフフレーム相関との比を加えたものの２倍である。レフトトライアングルスコアの小さな値は、レフトトライアングルが現在の映像と次の映像との間に存在している可能性が高いことを示している。同様に、ライトトライアングルスコアは、フレームの第２フィールド・アイデンティティ比に次のフレームのセルフフレーム相関と現在のフレームのセルフフレーム相関との比を加えたものの２倍である。ライトトライアングルスコアの小さな値は、ライトトライアングルが現在の映像と次の映像との間に存在している可能性が高いことを示している。

第５メトリックは、「クロスフレーム相関スコア」であり、これは、どんなに小さくても、現在の映像のクロスフレーム相関と次の又は前のフレームのクロスフレーム相関との比として定義される。クロスフレーム相関スコアの大きな値は、現在の映像と次の映像との間にカットがあることを示す。

第６メトリックは、「ダブルトライアングルスコア」であり、これは、現在のフレームのレフトトライアングルスコア、次のフレームのクロスフレーム相関スコア、第２の次のフレームのライトトライアングルスコアの総和である。ダブルトライアングルスコアの小さな値は、３−２−３パターンが映像ｉと映像ｉ＋３との間に存在していることを示す。ダブルトライアングルスコアは、バッファの最初の５つのフレームの各々について計算される。ダブルトライアングルスコアの最も小さな値をもたらすフレームは、適正な３−２−３パターンである可能性が高い。

この３−２−３シーケンスの妥当性を検証するために、６つの付加メトリクス、すなわち「フレーム相関変化」、「フレーム相関比」、「クロスフレーム相関比」、「逆クロスフレーム相関比」、「第１フィールド・アイデンティティ比２」、「第２フィールド・アイデンティティ比２」が計算される。

「フレーム相関変化」は、反復フィールドを取り除くことによってビデオドメインの４つの映像をフィルムドメインの３つのフレームに再配置することによって求められる。一方、フィルムドメインでの平均セルフフレーム相関とビデオドメインでの平均セルフフレーム相関の比が、フレーム相関変化である。４つの映像が実際に３−２プルダウンによって生成された場合、フレーム相関変化は１より小さくなるはずである。

「フレーム相関比」を求めるために、３−２−３パターンがフレームバッファ内のポジションｉにあると仮定する。この３−２−３パターンのためのフレーム相関比は、（１）現在のフレームのセルフフレーム相関（ｓｅｌｆ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ］）と次のフレームのセルフフレーム相関（ｓｅｌｆ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ＋１］）との比と、（２）第３の次のフレームのセルフフレーム相関（ｓｅｌｆ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ＋３］）と第２の次のフレームのセルフフレーム相関（ｓｅｌｆ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ＋２］）との比の平均値である。４つの映像が実際に３−２プルダウンを介してフィルムソースから生成されている場合、フレーム相関比は１より小さくなるはずである。

同様に、フレームバッファ内のポジションｉでの３−２−３パターンの「クロスフレーム相関比」は、（１）ｉ番目のフレームのクロスフレーム相関（ｃｒｏｓｓ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ］）と（２）第２の次のフレームのクロスフレーム相関（ｃｒｏｓｓ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ＋２］）の平均値であり、次のフレームのクロスフレーム相関（ｃｒｏｓｓ＿ｆｒａｍｅ＿ｃｏｒｒｅｌａｔｉｏｎ［ｉ＋１］）で割った平均値である。４つの映像が実際に３−２プルダウンを介してフィルムソースから生成されてビデオドメインで圧縮された場合、クロスフレーム相関比は１より小さくなるはずである。

第４メトリックは「逆クロスフレーム相関比」である。フレームバッファのポジションｉでの３−２−３パターンでは、逆クロスフレーム相関比は、現在のフレーム、次のフレーム、第２の次のフレームのクロスフレーム相関の総和と、現在のフレーム、次のフレーム、第２の次のフレームの逆クロスフレーム相関の総和との比である。４つの映像が実際に３−２プルダウンを介してフィルムソースから生成された場合、逆クロスフレーム相関比は１より小さくなるはずである。

第５メトリックは「第１フィールド・アイデンティティ比２」である。３−２−３パターンがフレームバッファのポジションｉにあると仮定する。この３−２−３パターンの「第１フィールド・アイデンティティ比２」は、どんなに小さくても現在の映像の第１フィールド・アイデンティティと次の映像又は第２の次の映像の第１フィールド・アイデンティティとの比に等しい。

同様に、第６メトリックのフレームバッファのポジションｉに位置付けられた３−２−３パターンの「第２フィールド・アイデンティティ比２」は、どんなに小さくても第２の次のフレームの第２フィールド・アイデンティティと次のフレーム又は現在のフレームの第２フィールド・アイデンティティとの比に等しい。

全ての６つのメトリクスは非負である。同一の映像のシーケンスでは、最初の４つのパラメータは全て１．０００に等しく、最後の２つは定義されない。これらの６つのメトリクスは、３−２−３パターンに関連する４つの映像が実際にフィルムソースからのものであるかどうかを判定するのに使用される。全ての６つのメトリクスでは、小さな値は、３−２−３パターンが適正である可能性が高いことを示している。６つのメトリクスは、６−Ｄスペースを定義し、妥当性の領域は、３−２−３パターンが２０６の第２ステップでフィルムソースからのものであると分類されるこの６−Ｄスペース内の領域である。

領域は、既知の３−２−３パターンを有するシーケンスを使用するトレーニングによって見つけることができる。例えば、６つのメトリクスの各々に対してスレショルドを定義し、全ての６つのメトリクスがそのそれぞれのスレショルドより小さい６次元「キューブ」のような妥当性領域を定義することができる。スレショルドは、トレーニングによって求めることができる。或いは、より一般的な方法は、その各々が６つのメトリクスのサブセットの関数である少数の関数を定義することである。その結果、妥当性の領域は、評価された関数値が幾つかの事前に決定された要件を満たす領域である。

ノイズに対するアルゴリズムの堅牢性を強化するために少数の付加的なステップを加えることができる。最初に、３−２−３パターンがポジションｉであることが分かった場合、パターンでの最後の３つの映像−すなわち、ｉ＋１、ｉ＋２、ｉ＋３は、新しいシーンの始めではない可能性がある。これは、その新しいシーンスコアを事前に決定されたスレショルド、例えばトレーニングから得られたカットオフと比較することによってチェックすることができる。次に、３−２−３パターンがポジション４であることが分かり、且つ第２の最も低いスコアがポジション０で発生した場合、この両方は適正である可能性が高い。このケースは図５に示されている。この場合、ポジション０は、最初にチェックしなければならない。これが適正である場合、このシーケンスを処理し、ポジション４の３−２−３パターンを次の反復に残し、適正でない場合にはポジション４をチェックする。

適正な３−２−３パターンが見つからなかった場合、３つまでの映像がその映像と現在の状態のコンテンツに応じて処理される。これはステップ２１０で終了する。適正な３−２−３パターンが見つかった場合、３−２−３パターンに関連するものを含むものまでのバッファの最初の全映像が処理される。これはステップ２１２で終了する。

ステップ２１０で、現在の状態が０、１、又は２である場合、３つの映像が処理される。これらはノンプログレッシブとして分類され、未修正出力に渡される。状態は、この場合はステップ２１４で１に変更される。現在の状態が３である場合、これは、３−２−３パターンが前回の反復で処理されており、２つまでの映像が処理されることを意味する。最初に、映像０と１の新しいシーンスコアがチェックされ、そのセルフフレーム相関値をこれまでに識別された全ての３−２−３パターンの映像から得られる移動平均と比較することによってこれらがプログレッシブかどうかを調べる。セルフフレーム相関値が移動平均よりも小さい場合、映像はプログレッシブとして分類され、そうでなければ、ノンプログレッシブとして分類される。２つの映像が処理されこれらが両方ともプログレッシブとして分類される場合、状態はステップ２１４で２に変更されることになり、そうでなければ、状態は１に変更されることになる。

ステップ２１２で、映像は、現在の状態と識別された３−２−３パターンのポジションに応じて処理される。３つの可能なケースがある。全ての３つのケースでは、状態はステップ２１４で３に変更される。

ケース１：状態機械の現在の状態は、０、１、又は２である。現在の状態が０である場合、映像０は、新しいシーンの始めでなくてはならない。現在の状態が１である場合、新しいシーンは前の反復で既に処理されているので、バッファ内には新しいシーンがある場合もあれば、ない場合もある。現在の状態が２である場合、３−２−３パターンの第１の映像を含むまでのポジション０で始まるバッファの始めにある映像の１つは、新しいシーンの始めでなくてはならない。新しいシーンは、最も大きな新しいシーンスコアを有する映像を見つけ、状態１のケースでこれを事前に決定されたスレショルドと比較することによって識別することができる。新しいシーンのポジションが識別されると、そのポジションの前の映像は前の反復で処理された映像と関連付けられ、そのポジションの後の映像は、３−２−３パターンと同じシーンにあるものと仮定される。３−２−３パターンにあるものを含まないこれらの映像は、未修正出力で再生される。これらは、新しいシーンのポジションと３−２−３パターンとに一致する方法でそのセルフフレーム相関尺度によって決定されるプログレッシブ又はノンプログレッシブのいずれかとして分類される。３−２−３パターンでの４つの映像は、ケース３と同じように処理される。

ケース２：現在の状態は３であるが、３−２−３パターンのポジションは１ではない。編集ポイントは、３−２−３パターンでの第１映像を含む３−２−３パターンの前の映像の中に存在していなくてはならない。３−２−３パターンではない全ての映像は、未修正出力に渡される。これらは、新しいシーンのポジションと３−２−３パターンとに一致する方法でそのセルフフレーム相関尺度によって決定されるプログレッシブ又はノンプログレッシブのいずれかとして分類される。３−２−３パターンでの４つの映像は、ケース３と同じように処理される。

ケース３：現在の状態は３であり、３−２−３パターンのポジションは１である。これは、長い３−２プルダウンセグメントの間である可能性が高い。５つの映像が処理され４つのフレームを作成する。フレーム０は映像０のコピーである。フレーム１は映像１のコピーである。映像２の第１フィールドと映像３の第２フィールドは取り除かれる。映像２の第２フィールドと映像３の第１フィールドが組み合わされ、フレーム２を形成する。最後に、フレーム３は映像３のコピーである。４つの出力フレームのＭＰＥＧフラグが図６にリストされている。

ステップ２１０、２１２の終わりで、全ての処理された映像はフレームバッファから取り除かれる。この反復で処理されなかった映像は、前部に移動される。ステップ２１４で、有限状態機械は、上述のようにステップ２１０、２１２の結果に従って更新される。ステップ２１６で、バッファに映像がある場合、次の反復のためのステップ２０４に戻る。バッファに映像がない場合、２１８に進み終了する。

本発明は、限られた数の実施形態に関して開示されているが、多くの修正や変形形態が当業者には理解されるであろう。全てのこのような変形及び修正形態は添付の請求項の範囲内にあるものとする。

フレームのシーケンスにおける順方向テレシネ、又は３−２プルダウンプロセスを示す図である。本発明による逆テレシネプロセスのフローチャートを全体的に示す図である。フレームのシーケンス内の３−２−３プルダウンパターンの構成の５つの可能なケースを示す図である。反復する３−２−３プルダウンパターンと３−２−３プルダウンパターンを識別するのに使用されるダブルトライアングル構造の構成を示す図である。フレームバッファにおけるポジション０で始まるものとポジション４で始まる２つの３−２−３プルダウンパターンを示す図である。ＭＰＥＧ−２エンコーダの使用に従って逆テレシネプロセスによって設定される特定のフレームに対するフラグ値の表を示す図である。

Claims

ビデオデータを処理する方法であって、
インターレースフォーマットでビデオフレームのシーケンスを受け取るステップと、
３−２プルダウンパターンを検出するステップと、
前記ビデオフレームのシーケンスから重複フィールドを取り除くステップと、
を含む方法。
前記取り除かれるフィールドに関するビデオエンコーダに命令を渡すステップを更に含む請求項１に記載の方法。
前記命令は、ＭＰＥＧ−２エンコーダにおける１つ又はそれ以上のフラグに関係することを特徴とする請求項２に記載の方法。
前記１つ又はそれ以上のフラグは、ｐｉｃｔｕｒｅ＿ｓｔｒｕｃｔｕｒｅ、ｐｒｏｇｒｅｓｓｉｖｅ＿ｆｒａｍｅ、とｒｅｐｅａｔ＿ｆｉｒｓｔ＿ｆｉｅｌｄから成るグループから選択される請求項３に記載の方法。
前記ビデオフレームのシーケンスの最後に中断された３−２プルダウンパターンを検出するステップと、
前記中断された３−２プルダウンパターンの一部である重複フィールドを残すステップと、
を更に含む請求項１に記載の方法。
ノンプログレッシブとして重複フィールドと共に残されたフレームにマーキングするステップを更に含む請求項５に記載の方法。
３−２プルダウンパターンを検出する前記ステップは、
前記３−２プルダウンパターンが見つかる可能性の高いバッファ内のポジションを識別するステップと、
前記識別されたポジションに位置付けられたパターンが適正な３−２プルダウンパターンであるかどうかを判定するステップと、
を含む請求項１に記載の方法。
バッファ内でポジションを識別する前記ステップは、少なくとも１つのフィールド・アイデンティティと少なくとも１つのフレーム相関の計算を含む請求項７に記載の方法。
前記少なくとも１つのフィールド・アイデンティティは、共通パリティを有する異なるフレームからの２つのフィールド間の絶対差の総和として計算される請求項８に記載の方法。
前記少なくとも１つのフィールド・アイデンティティは、共通パリティを有する異なるフレームからの２つのフィールド間の平均二乗誤差として計算される請求項８に記載の方法。
前記少なくとも１つのフレーム相関は、異なるパリティを有する入力フィールドと別の入力フィールドの補間フィールドとの間の絶対差の総和として計算される請求項８に記載の方法。
前記少なくとも１つのフレーム相関は、異なるパリティを有する入力フィールドと別の入力フィールドの補間フィールドとの間の二乗誤差の総和として計算される請求項８に記載の方法。
バッファ内でポジションを識別する前記ステップは、第１フィールド・アイデンティティ、第２フィールド・アイデンティティ、セルフフレーム相関、クロスフレーム相関、逆クロスフレーム相関、と新しいシーンスコアから成るグループから選択される１つ又はそれ以上のパラメータの計算を含む請求項７に記載の方法。
バッファ内でポジションを識別する前記ステップは、前記少なくとも１つのフィールド・アイデンティティと少なくとも１つのフレーム相関から複数のメトリクスを計算するステップを更に含む請求項８に記載の方法。
前記複数のメトリクスの少なくとも１つは、第１フィールド・アイデンティティ比、第２フィールド・アイデンティティ比、レフトトライアングルスコア、ライトトライアングルスコア、クロスフレーム相関スコア、ダブルトライアングルスコアから成るグループから選択されることを特徴とする請求項１４に記載の方法。
前記識別されたポジションに位置付けられたパターンが適正な３−２プルダウンパターンかどうかを判定する前記ステップは、フレーム相関変化、フレーム相関比、クロスフレーム相関比、逆クロスフレーム相関比、第１フィールド・アイデンティティ比２、第２フィールド・アイデンティティ比２から成るグループから選択された少なくとも１つのメトリックを計算するステップを更に含む請求項７に記載の方法。
前記識別されたポジションに位置付けられたパターンが適正な３−２プルダウンパターンかどうかを判定する前記ステップは、第２の次のフレームの第１フィールド・アイデンティティ比と第２フィールド・アイデンティティ比とから成るグループから選択された少なくとも１つのメトリックと少なくとも１つの付加的なパラメータを分析するステップを含む請求項１６に記載の方法。
機械によって実行可能なプログラムを具現化するコンピュータ可読媒体であって、前記プログラムは、ビデオデータ上で一連のオペレーションを実行するよう動作可能であり、前記一連のオペレーションが、
インターレースフォーマットでビデオフレームのシーケンスを受け取るステップと、
３−２プルダウンパターンを検出するステップと、
前記ビデオフレームのシーケンスから重複フィールドを取り除くステップと、
を含むことを特徴とするコンピュータ可読媒体。
前記一連のオペレーションは、
前記取り除かれたフィールドに関するビデオエンコーダに命令を渡すステップを更に含むことを特徴とする請求項１８に記載のコンピュータ可読媒体。
前記一連のオペレーションは、
前記ビデオフレームのシーケンスの最後で中断された３−２プルダウンパターンを検出するステップと、
前記中断された３−２プルダウンパターンの部分である重複フィールドを残すステップと、
を更に含むことを特徴とする請求項１８に記載のコンピュータ可読媒体。
３−２プルダウンパターンを検出する前記オペレーションは、
前記３−２プルダウンパターンが見つかる可能性の高いバッファ内のポジションを識別するステップと、
前記識別されたポジションに位置付けられたパターンが適正な３−２プルダウンパターンかどうかを判定するステップと、
を含むことを特徴とする請求項１８に記載のコンピュータ可読媒体。